CN115470348A

CN115470348A - 一种暴力事件检测方法、装置及设备

Info

Publication number: CN115470348A
Application number: CN202211097380.6A
Authority: CN
Inventors: 阳爱民; 覃冠球; 何俊亨; 王纪刚
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-12-13

Abstract

本发明涉及自然语言处理领域，更具体地，涉及一种暴力事件检测方法、装置及设备，所述方法包括：获取标签数据集；对标签数据集进行预处理，得到标签提示文本；将待检测文本与标签提示文本进行拼接处理，得到重构输入文本；对重构输入文本进行编码处理，得到第一文本编码序列，并从第一文本编码序列中提取出重构输入文本的文本表示序列和标签表示序列；对文本表示序列和标签表示序列进行特征提取，得到标签特征序列；利用标签特征序列和标签表示序列重构出二元重构输入序列，将二元重构输入序列输入二元解码器进行解码处理，二元解码器输出暴力事件检测结果。本发明提高了暴力事件检测的精度和效率。

Description

一种暴力事件检测方法、装置及设备

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种暴力事件检测方法、装置及设备。

背景技术

如今在各大社交网络平台上，每日都有海量的信息被实时发布和分享，且其中存在着大量的暴力内容。暴力事件对社会安定存有很大的影响，若能及时检测社交网络中的暴力事件，当局可以更有效地对实时发生的暴力事件做出反应，并且能根据地理区域和事件类型制定各种预防政策。

目前针对基于文本的暴力事件检测任务中，通常先通过使用BERT预训练模型，将待检测的输入文本转化为向量表示序列，再将所述向量表示序列输入到神经网络结构中，神经网络通过抽取事件类型的暴力事件的触发词，实现暴力事件的检测。

然而，上述方法需要克服不少的困难，如暴力触发词上下文语义识别、暴力触发词重叠、暴力触发词错别字、没有暴力触发词或者新暴力触发词等，即需要基于触发词抽取的方法拥有纠错、无触发词分类和增量学习等能力，使得检测效率低下。另外，有时候某一种暴力事件会伴随着另一种的暴力事件的发生而发生，即存在重叠暴力事件检测的问题，也使得基于触发词抽取的方法存在检测精度低的缺陷。

发明内容

本发明为克服现有技术暴力事件检测的精度和效率低的缺陷，提供一种暴力事件检测方法、装置及设备。

为解决上述技术问题，本发明的技术方案如下：

第一个方面，本发明提出一种暴力事件检测方法，包括以下步骤：

S1：获取标签数据集；所述标签数据集包含暴力事件标签。

S2：对所述标签数据集进行预处理，得到标签提示文本。

S3：将待检测文本与所述标签提示文本进行拼接处理，得到重构输入文本。

S4：对所述重构输入文本进行编码处理，得到第一文本编码序列，并从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列。

S5：对所述文本表示序列和所述标签表示序列进行特征提取，得到标签特征序列。

S6：利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码，将所述输入编码输入二元解码器进行解码处理，所述二元解码器输出暴力事件检测结果。

第二个方面，本发明提出一种暴力事件检测装置，包括：

获取模块，用于获取标签数据集；所述标签数据集包含暴力事件标签。

预处理模块，用于对所述标签数据集进行预处理，得到标签提示文本。

拼接模块，用于将待检测文本与所述标签提示文本进行拼接处理，得到重构输入文本。

编码模块，用于对所述重构输入文本进行编码处理，得到第一文本编码序列。

提取模块，用于从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列。

特征提取模块，用于对所述文本表示序列和所述标签表示序列进行特征提取，得到标签特征序列。

重构模块，用于利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码。

检测模块，用于将所述输入编码输入二元解码器进行解码处理，所述二元解码器输出暴力事件检测结果。

第三个方面，本发明提出一种电子设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现第一个方面中所述的方法。

与现有技术相比，本发明技术方案的有益效果是：本发明通过将标签数据集中的暴力事件标签进行预处理得到标签提示文本，再将待检测文本与所述标签提示文本进行拼接处理，得到重构输入文本，然后提取重构输入文本的特征信息，并将特征信息与标签表示序列进行重构融合，作为二元解码器的输入实现暴力事件检测，避免了先进行暴力触发词抽取再进行暴力事件分类的模式，而导致的误差传递的问题，并且以标签提示文本的方式联合输入的待检测文本和暴力事件标签输入至二元解码器预训练模型中，能够充分利用预训练模型知识，以及赋予了预训练模型标签语义信息和标签之间的共现信息，以及标签与文本的交互信息，提高了暴力事件检测的精度和效率。

附图说明

图1为实施例1中暴力事件检测方法的流程图。

图2为实施例2中暴力事件检测方法的原理图。

图3为实施例2中的标签关联注意力图。

图4为实施例3中暴力事件检测方法的架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

请参阅图1，本实施例提出一种暴力事件检测方法，包括以下步骤：

S1：获取标签数据集；所述标签数据集包含暴力事件标签。

S2：对所述标签数据集进行预处理，得到标签提示文本。

在具体实施过程中，通过将标签数据集中的暴力事件标签进行预处理得到标签提示文本，再将待检测文本与所述标签提示文本进行拼接处理，得到重构输入文本，然后提取重构输入文本的特征信息，并将特征信息与标签表示序列进行重构融合，作为二元解码器的输入实现暴力事件检测，避免了先进行暴力触发词抽取再进行暴力事件分类的模式，而导致的误差传递的问题，并且以标签提示文本的方式联合输入的待检测文本和暴力事件标签输入至二元解码器预训练模型中，能够充分利用预训练模型知识，以及赋予了预训练模型标签语义信息和标签之间的共现信息，以及标签与文本的交互信息，提高了暴力事件检测的精度和效率。

实施例2

参阅图2，本实施例提出一种暴力事件检测方法，包括以下步骤：

S1：获取标签数据集；所述标签数据集包含暴力事件标签。

本实施例中，所述标签数据集采用西班牙语暴力事件检测数据集DAVINCIS，通过统计暴力事件类型，所述标签数据集包含事故、凶杀、非暴力事件、抢劫和绑架一共五个暴力事件标签，得到暴力事件标签集L＝{l₁,l₂,…,l₅}。

S2：对所述标签数据集进行预处理，得到标签提示文本，具体的步骤包括：

S2.1：将所述标签数据集中的暴力事件标签进行文本化，得到标签文本序列。

S2.2：将所述标签文本序列重构成自然语言问句的标签提示文本。

本实施例中，首先将暴力事件标签集L＝{l₁,l₂,…,l₅}进行文本化得到标签文本序列Y＝{y₁,y₂,…,y₅}，即分别用“Accident”,“Asesinato”,“Paz”,“Robo”和“Secuestro”来表示事故、凶杀、非暴力事件、抢劫和绑架五个标签。然后把标签文本序列Y重构成自然语言问句的标签提示文本Z＝{y₁,p₁,p₂,…,p₅,y₅}的形式，，其中P＝{p₁,p₂,…,p_k}，k表示标签提示文本的长度，是将暴力事件标签集进行自然语言化的一部分，得到标签提示文本：“accidente asesinato paz robo o secuestro？”。

再例如，原待检测输入文本为“张三杀了李四。”，标签包括：凶杀，抢劫，强奸。重构得到的标签提示文本为“张三杀了李四。属于凶杀、抢劫还是抢劫？”

本实施例中，将待检测文本X＝{x₁,x₂,…,x_r}与标签提示文本Z拼接成重构输入文本

r表示原待检测文本的长度。通过构建标签提示文本，并且将标签提示文本补充到待检测文本中以完成重构，得到重构输入文本。

本实施例中，利用BERT模型对所述重构输入文本进行编码处理，所述BERT模型输出第一文本编码序列。

本实施例中，把重构输入文本

作为BERT模型的输入，所述得到BERT模型输出对应的第一文本编码序列，即向量表示，然后从所述第一文本编码序列中，按照输入

的位置索引抽离出文本表示序列

和标签表示序列

S5：对所述文本表示序列和所述标签表示序列进行特征提取，得到标签特征序列，具体的步骤包括：

S5.1：将所述文本表示序列输入长短期记忆网络中，所述长短期记忆网络输出前向上下文向量和后向上下文向量。

本实施例中，通过构建一个双向长短期记忆网络，将文本表示序列

中的每个向量表示按顺序输入到所述双向长短期记忆网络中，分别得到具有上下文信息的上下文向量

和后向上下文向量

其表达式如下所示：

其中，t表示时刻。

S5.2：分别利用所述前向上下文向量

和所述后向上下文向量

构建前向上下文序列

和后向上下文序列

其表达式如下所示：

其中，n表示前向上下文序列

和后向上下文序列

的长度。

S5.3：将所述前向上下文序列和所述后向上下文序列进行拼接处理，得到包含完整上下文信息的第二文本编码序列

S5.4：将所述第二文本编码序列与所述标签表示序列进行特征融合，得到标签特征序列。

本实施例中，首先求出第二文本编码序列G与标签表示序列H_Y的点乘矩阵D，其表达式如下所示：

其中，

为标签序列H_Y的转置，点乘矩阵

为标签与文本的关系矩阵，其融合了上下文信息。

由于本实施例中的数据集标签只有5个，因此本实施例通过构建一个具有5个卷积核的卷积层对点乘矩阵D进行特征强化，具体包括：使用ReLU作为卷积层激活函数，并使用最大值池化操作的策略，抽出代表每个标签特征的标签特征序列a，其表达式如下所示：

a＝tanh(Φ(D))

其中，

函数Φ(·)表示ReLU激活与最大池化操作，tanh(Φ(D))表示对经过ReLU激活与最大池化操作后得出的特征向量用tanh函数再激活。

本实施例中，将所述标签特征序列a和所述标签表示序列H_Y进行相乘处理，得到含有标签间交互信息的序列H′_Y；将所述含有标签间交互信息的序列H′_Y与所述标签表示序列进行相加处理，得到二元解码器的输入编码K，表达式如下所示：

H′_Y＝H_Y×a

K＝H_Y+H′_Y

本实施例中，将所述输入编码输入二元解码器进行解码处理，所述二元解码器输出暴力事件检测结果，其表达式如下所示：

其中，

包含5个标签的预测结果，K表示二元重构输入序列，FC(·)表示全连接层，

为第i个暴力事件标签的检测结果(文本属于或不属于该暴力事件标签)，sigmoid(·)表示将全连接层的输出的数值区间用sigmoid函数转化成概率并用argmax(·)取出预测的最大值。

本实施例中，通过二元解码器预测结果

解码成属于和不属于的事件i的概率

在具体实施过程中，利用sigmoid函数来使暴力事件标签的检测结果向量

中的每个元素的值

服从区间[0,1]，并设置预测阈值β＝0.5，若待检测文本的暴力事件标签的检测结果向量

中存在元素

满足

则判定待检测文本属于暴力事件i。

本实施例中，利用不对称损失L作为模型BERT训练的目标函数，以此缓解数据不平衡(包括少样本问题)的问题，其表达式如下所示：

γ_->γ₊

其中，L₊表示正样本的损失函数，L_-表示负样本的损失函数，

为偏移概率，其表示以对非常简单的负样本进行硬阈值处理，是模型可以在训练中丢弃概率非常低的负样本，γ表示聚焦函数，

表示模型输出的预测概率，，γ₊为正聚焦参数，γ_-为负聚焦参数。

设定γ_->γ₊意在强调正样本的训练贡献。对非常容易的负样本进行硬阈值处理，使在训练中可以丢弃概率非常低的负样本。至此，一次模型训练完毕。模型训练至收敛后，如图3所示，取预训练模型BERT最后三层注意力掩码平均，预训练模型BERT学习到了标签之间的关系。

实施例3

请参阅图4，本实施例提出一种基于标签提示和二元解码的暴力事件系统，包括：获取模块，用于获取标签数据集；所述标签数据集包含暴力事件标签。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。