CN115470348A - 一种暴力事件检测方法、装置及设备 - Google Patents
一种暴力事件检测方法、装置及设备 Download PDFInfo
- Publication number
- CN115470348A CN115470348A CN202211097380.6A CN202211097380A CN115470348A CN 115470348 A CN115470348 A CN 115470348A CN 202211097380 A CN202211097380 A CN 202211097380A CN 115470348 A CN115470348 A CN 115470348A
- Authority
- CN
- China
- Prior art keywords
- sequence
- text
- label
- tag
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,更具体地,涉及一种暴力事件检测方法、装置及设备,所述方法包括:获取标签数据集;对标签数据集进行预处理,得到标签提示文本;将待检测文本与标签提示文本进行拼接处理,得到重构输入文本;对重构输入文本进行编码处理,得到第一文本编码序列,并从第一文本编码序列中提取出重构输入文本的文本表示序列和标签表示序列;对文本表示序列和标签表示序列进行特征提取,得到标签特征序列;利用标签特征序列和标签表示序列重构出二元重构输入序列,将二元重构输入序列输入二元解码器进行解码处理,二元解码器输出暴力事件检测结果。本发明提高了暴力事件检测的精度和效率。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种暴力事件检测方法、装置及设备。
背景技术
如今在各大社交网络平台上,每日都有海量的信息被实时发布和分享,且其中存在着大量的暴力内容。暴力事件对社会安定存有很大的影响,若能及时检测社交网络中的暴力事件,当局可以更有效地对实时发生的暴力事件做出反应,并且能根据地理区域和事件类型制定各种预防政策。
目前针对基于文本的暴力事件检测任务中,通常先通过使用BERT预训练模型,将待检测的输入文本转化为向量表示序列,再将所述向量表示序列输入到神经网络结构中,神经网络通过抽取事件类型的暴力事件的触发词,实现暴力事件的检测。
然而,上述方法需要克服不少的困难,如暴力触发词上下文语义识别、暴力触发词重叠、暴力触发词错别字、没有暴力触发词或者新暴力触发词等,即需要基于触发词抽取的方法拥有纠错、无触发词分类和增量学习等能力,使得检测效率低下。另外,有时候某一种暴力事件会伴随着另一种的暴力事件的发生而发生,即存在重叠暴力事件检测的问题,也使得基于触发词抽取的方法存在检测精度低的缺陷。
发明内容
本发明为克服现有技术暴力事件检测的精度和效率低的缺陷,提供一种暴力事件检测方法、装置及设备。
为解决上述技术问题,本发明的技术方案如下:
第一个方面,本发明提出一种暴力事件检测方法,包括以下步骤:
S1:获取标签数据集;所述标签数据集包含暴力事件标签。
S2:对所述标签数据集进行预处理,得到标签提示文本。
S3:将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本。
S4:对所述重构输入文本进行编码处理,得到第一文本编码序列,并从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列。
S5:对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列。
S6:利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码,将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果。
第二个方面,本发明提出一种暴力事件检测装置,包括:
获取模块,用于获取标签数据集;所述标签数据集包含暴力事件标签。
预处理模块,用于对所述标签数据集进行预处理,得到标签提示文本。
拼接模块,用于将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本。
编码模块,用于对所述重构输入文本进行编码处理,得到第一文本编码序列。
提取模块,用于从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列。
特征提取模块,用于对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列。
重构模块,用于利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码。
检测模块,用于将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果。
第三个方面,本发明提出一种电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现第一个方面中所述的方法。
与现有技术相比,本发明技术方案的有益效果是:本发明通过将标签数据集中的暴力事件标签进行预处理得到标签提示文本,再将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本,然后提取重构输入文本的特征信息,并将特征信息与标签表示序列进行重构融合,作为二元解码器的输入实现暴力事件检测,避免了先进行暴力触发词抽取再进行暴力事件分类的模式,而导致的误差传递的问题,并且以标签提示文本的方式联合输入的待检测文本和暴力事件标签输入至二元解码器预训练模型中,能够充分利用预训练模型知识,以及赋予了预训练模型标签语义信息和标签之间的共现信息,以及标签与文本的交互信息,提高了暴力事件检测的精度和效率。
附图说明
图1为实施例1中暴力事件检测方法的流程图。
图2为实施例2中暴力事件检测方法的原理图。
图3为实施例2中的标签关联注意力图。
图4为实施例3中暴力事件检测方法的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
请参阅图1,本实施例提出一种暴力事件检测方法,包括以下步骤:
S1:获取标签数据集;所述标签数据集包含暴力事件标签。
S2:对所述标签数据集进行预处理,得到标签提示文本。
S3:将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本。
S4:对所述重构输入文本进行编码处理,得到第一文本编码序列,并从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列。
S5:对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列。
S6:利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码,将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果。
在具体实施过程中,通过将标签数据集中的暴力事件标签进行预处理得到标签提示文本,再将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本,然后提取重构输入文本的特征信息,并将特征信息与标签表示序列进行重构融合,作为二元解码器的输入实现暴力事件检测,避免了先进行暴力触发词抽取再进行暴力事件分类的模式,而导致的误差传递的问题,并且以标签提示文本的方式联合输入的待检测文本和暴力事件标签输入至二元解码器预训练模型中,能够充分利用预训练模型知识,以及赋予了预训练模型标签语义信息和标签之间的共现信息,以及标签与文本的交互信息,提高了暴力事件检测的精度和效率。
实施例2
参阅图2,本实施例提出一种暴力事件检测方法,包括以下步骤:
S1:获取标签数据集;所述标签数据集包含暴力事件标签。
本实施例中,所述标签数据集采用西班牙语暴力事件检测数据集DAVINCIS,通过统计暴力事件类型,所述标签数据集包含事故、凶杀、非暴力事件、抢劫和绑架一共五个暴力事件标签,得到暴力事件标签集L={l1,l2,…,l5}。
S2:对所述标签数据集进行预处理,得到标签提示文本,具体的步骤包括:
S2.1:将所述标签数据集中的暴力事件标签进行文本化,得到标签文本序列。
S2.2:将所述标签文本序列重构成自然语言问句的标签提示文本。
本实施例中,首先将暴力事件标签集L={l1,l2,…,l5}进行文本化得到标签文本序列Y={y1,y2,…,y5},即分别用“Accident”,“Asesinato”,“Paz”,“Robo”和“Secuestro”来表示事故、凶杀、非暴力事件、抢劫和绑架五个标签。然后把标签文本序列Y重构成自然语言问句的标签提示文本Z={y1,p1,p2,…,p5,y5}的形式,,其中P={p1,p2,…,pk},k表示标签提示文本的长度,是将暴力事件标签集进行自然语言化的一部分,得到标签提示文本:“accidente asesinato paz robo o secuestro?”。
再例如,原待检测输入文本为“张三杀了李四。”,标签包括:凶杀,抢劫,强奸。重构得到的标签提示文本为“张三杀了李四。属于凶杀、抢劫还是抢劫?”
S3:将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本。
本实施例中,将待检测文本X={x1,x2,…,xr}与标签提示文本Z拼接成重构输入文本r表示原待检测文本的长度。通过构建标签提示文本,并且将标签提示文本补充到待检测文本中以完成重构,得到重构输入文本。
S4:对所述重构输入文本进行编码处理,得到第一文本编码序列,并从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列。
本实施例中,利用BERT模型对所述重构输入文本进行编码处理,所述BERT模型输出第一文本编码序列。
S5:对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列,具体的步骤包括:
S5.1:将所述文本表示序列输入长短期记忆网络中,所述长短期记忆网络输出前向上下文向量和后向上下文向量。
其中,t表示时刻。
S5.4:将所述第二文本编码序列与所述标签表示序列进行特征融合,得到标签特征序列。
本实施例中,首先求出第二文本编码序列G与标签表示序列HY的点乘矩阵D,其表达式如下所示:
由于本实施例中的数据集标签只有5个,因此本实施例通过构建一个具有5个卷积核的卷积层对点乘矩阵D进行特征强化,具体包括:使用ReLU作为卷积层激活函数,并使用最大值池化操作的策略,抽出代表每个标签特征的标签特征序列a,其表达式如下所示:
a=tanh(Φ(D))
S6:利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码,将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果。
本实施例中,将所述标签特征序列a和所述标签表示序列HY进行相乘处理,得到含有标签间交互信息的序列H′Y;将所述含有标签间交互信息的序列H′Y与所述标签表示序列进行相加处理,得到二元解码器的输入编码K,表达式如下所示:
H′Y=HY×a
K=HY+H′Y
本实施例中,将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果,其表达式如下所示:
其中,包含5个标签的预测结果,K表示二元重构输入序列,FC(·)表示全连接层,为第i个暴力事件标签的检测结果(文本属于或不属于该暴力事件标签),sigmoid(·)表示将全连接层的输出的数值区间用sigmoid函数转化成概率并用argmax(·)取出预测的最大值。
在具体实施过程中,利用sigmoid函数来使暴力事件标签的检测结果向量中的每个元素的值服从区间[0,1],并设置预测阈值β=0.5,若待检测文本的暴力事件标签的检测结果向量中存在元素满足则判定待检测文本属于暴力事件i。
本实施例中,利用不对称损失L作为模型BERT训练的目标函数,以此缓解数据不平衡(包括少样本问题)的问题,其表达式如下所示:
γ->γ+
其中,L+表示正样本的损失函数,L-表示负样本的损失函数,为偏移概率,其表示以对非常简单的负样本进行硬阈值处理,是模型可以在训练中丢弃概率非常低的负样本,γ表示聚焦函数,表示模型输出的预测概率,,γ+为正聚焦参数,γ-为负聚焦参数。
设定γ->γ+意在强调正样本的训练贡献。对非常容易的负样本进行硬阈值处理,使在训练中可以丢弃概率非常低的负样本。至此,一次模型训练完毕。模型训练至收敛后,如图3所示,取预训练模型BERT最后三层注意力掩码平均,预训练模型BERT学习到了标签之间的关系。
实施例3
请参阅图4,本实施例提出一种基于标签提示和二元解码的暴力事件系统,包括:获取模块,用于获取标签数据集;所述标签数据集包含暴力事件标签。
预处理模块,用于对所述标签数据集进行预处理,得到标签提示文本。
拼接模块,用于将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本。
编码模块,用于对所述重构输入文本进行编码处理,得到第一文本编码序列。
提取模块,用于从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列。
特征提取模块,用于对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列。
重构模块,用于利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码。
检测模块,用于将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果。
在具体实施过程中,通过将标签数据集中的暴力事件标签进行预处理得到标签提示文本,再将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本,然后提取重构输入文本的特征信息,并将特征信息与标签表示序列进行重构融合,作为二元解码器的输入实现暴力事件检测,避免了先进行暴力触发词抽取再进行暴力事件分类的模式,而导致的误差传递的问题,并且以标签提示文本的方式联合输入的待检测文本和暴力事件标签输入至二元解码器预训练模型中,能够充分利用预训练模型知识,以及赋予了预训练模型标签语义信息和标签之间的共现信息,以及标签与文本的交互信息,提高了暴力事件检测的精度和效率。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种暴力事件检测方法,其特征在于,包括:
S1:获取标签数据集;所述标签数据集包含暴力事件标签;
S2:对所述标签数据集进行预处理,得到标签提示文本;
S3:将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本;
S4:对所述重构输入文本进行编码处理,得到第一文本编码序列,并从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列;
S5:对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列;
S6:利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码,将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果。
2.根据权利要求1所述的暴力事件检测方法,其特征在于,S2的具体步骤包括:
S2.1:将所述标签数据集中的暴力事件标签进行文本化,得到标签文本序列;
S2.2:将所述标签文本序列重构成自然语言问句的标签提示文本。
3.根据权利要求1所述的暴力事件检测方法,其特征在于,S4中,利用经过训练的BERT模型对所述重构输入文本进行编码处理,所述BERT模型输出第一文本编码序列。
5.根据权利要求1所述的暴力事件检测方法,其特征在于,S5中,利用长短期记忆网络对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列,具体的步骤包括:
S5.1:将所述文本表示序列输入长短期记忆网络中,所述长短期记忆网络输出前向上下文向量和后向上下文向量;
S5.2:分别利用所述前向上下文向量和所述后向上下文向量构建前向上下文序列和后向上下文序列;
S5.3:将所述前向上下文序列和所述后向上下文序列进行拼接处理,得到包含上下文信息的第二文本编码序列;
S5.4:将所述第二文本编码序列与所述标签表示序列进行特征融合,得到标签特征序列。
7.根据权利要求1所述的暴力事件检测方法,其特征在于,S6中,利用所述标签特征序列和所述标签表示序列重构出二元重构输入序列,具体包括:
将所述标签特征序列和所述标签表示序列进行相乘处理,得到含有标签间交互信息的序列,其表达式如下所示:
H′Y=HY×a
其中,H′Y为含有标签间交互信息的序列,HY为标签表示序列,a为标签特征序列;
将所述含有标签间交互信息的序列与所述标签表示序列进行相加处理,得到二元重构输入序列,其表达式如下所示:
K=HY+H′Y
其中,K为二元重构输入序列。
9.一种暴力事件检测装置,其特征在于,包括:
获取模块,用于获取标签数据集;所述标签数据集包含暴力事件标签;
预处理模块,用于对所述标签数据集进行预处理,得到标签提示文本;
拼接模块,用于将待检测文本与所述标签提示文本进行拼接处理,得到重构输入文本;
编码模块,用于对所述重构输入文本进行编码处理,得到第一文本编码序列;
提取模块,用于从所述第一文本编码序列中提取出所述重构输入文本的文本表示序列和标签表示序列;
特征提取模块,用于对所述文本表示序列和所述标签表示序列进行特征提取,得到标签特征序列;
重构模块,用于利用所述标签特征序列和所述标签表示序列重构出二元解码器的输入编码。
检测模块,用于将所述输入编码输入二元解码器进行解码处理,所述二元解码器输出暴力事件检测结果。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211097380.6A CN115470348A (zh) | 2022-09-08 | 2022-09-08 | 一种暴力事件检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211097380.6A CN115470348A (zh) | 2022-09-08 | 2022-09-08 | 一种暴力事件检测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470348A true CN115470348A (zh) | 2022-12-13 |
Family
ID=84371003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211097380.6A Pending CN115470348A (zh) | 2022-09-08 | 2022-09-08 | 一种暴力事件检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470348A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628174A (zh) * | 2023-02-17 | 2023-08-22 | 广东技术师范大学 | 一种融合实体和关系信息的端到端关系抽取方法以及系统 |
-
2022
- 2022-09-08 CN CN202211097380.6A patent/CN115470348A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628174A (zh) * | 2023-02-17 | 2023-08-22 | 广东技术师范大学 | 一种融合实体和关系信息的端到端关系抽取方法以及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581396B (zh) | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN108664589B (zh) | 基于领域自适应的文本信息提取方法、装置、系统及介质 | |
CN114818721B (zh) | 一种结合序列标注的事件联合抽取模型与方法 | |
Singh et al. | HINDIA: a deep-learning-based model for spell-checking of Hindi language | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN115455194A (zh) | 铁路故障的知识抽取分析方法及装置 | |
CN115470348A (zh) | 一种暴力事件检测方法、装置及设备 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN115292568A (zh) | 一种基于联合模型的廉政和民生新闻事件抽取方法 | |
CN113010635A (zh) | 一种文本纠错方法及装置 | |
CN116910196A (zh) | 一种基于多任务学习的校园安全突发事件抽取方法 | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及系统 | |
CN116127978A (zh) | 基于医学文本的嵌套命名实体抽取方法 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 | |
CN115713082A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
Albayari et al. | Cyberbullying Detection Model for Arabic Text Using Deep Learning | |
CN116991874B (zh) | 一种文本纠错、基于大模型的sql语句生成方法及设备 | |
Heintz et al. | Improving Text Security Classification Towards an Automated Information Guard | |
CN111160006B (zh) | 一种实现指代消解的方法及装置 | |
CN114328957A (zh) | 面向科技服务的需求智能分析与服务组合方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |