CN111026885A

CN111026885A - 一种基于文本语料的涉恐事件实体属性抽取系统及方法

Info

Publication number: CN111026885A
Application number: CN201911340904.8A
Authority: CN
Inventors: 曹文斌; 杨涛; 凡友荣; 姜国庆; 彭如香
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-17
Anticipated expiration: 2039-12-23
Also published as: CN111026885B

Abstract

本发明涉及涉恐事件提取领域，具体涉及一种基于文本语料的涉恐事件实体属性抽取系统及方法，包括：一数据采集模块，所述数据采集模块用以采集一网站网页的文本数据，一数据处理模块，用以对所述文本数据进行清洗；一文本分类模块，所述文本分类模块根据所述文本训练模块中的训练模型对清洗后的所述文本数据进行分类；一文本分解模块，用以对分类后的所述文本数据进行分解；一文本提取模块，用以对分解后的所述文本数据进行信息提取；一信息解析模块，用以对提取的所述信息进行解析。本发明涉恐领域事件实体属性的提取准确率、召回率更高，对同领域的文本预料具备可复用性，减少同领域模型训练的人工标注工作量。

Description

一种基于文本语料的涉恐事件实体属性抽取系统及方法

技术领域

本发明涉及涉恐事件提取领域，尤其涉及一种基于文本语料的涉恐事件实体属性抽取系统及方法。

背景技术

近年来，社会安全和反恐形势日趋复杂，警方不仅要加强对犯罪分子的控制，还要竭力识别出对国家个人民生命财产安全产生潜在威胁的危险分子，防患于未然，为了情报部门更好更快地收集到具有涉恐性质的事件文本，现需要一种能够快速从众多文本数据中提取涉恐事件实体属性抽取的方法。而现有技术下通常采用根据上下文表征词向量的特征来进行事件实体属性抽取，其具体核心步骤包括：

人工标注：对训练文本语料进行人工标注，标注文章中含有的事件实体属性；

文本表示：对训练文本数据进行词向量化表示，为后面的模型训练做好准备；

模型训练：采用双向递归神经网络对人工标注的数据进行模型训练；

模型预测：用训练好的模型对其它文本数据进行事件实体属性抽取。

现有技术中存在通用领域的抽取技术迁移能力较差，模型训练需要大量的人工标注等问题。

发明内容

为了解决以上技术问题，本发明提供了一种基于文本语料的涉恐事件实体属性抽取系统及方法。

本发明所解决的技术问题可以采用以下技术方案实现：

一种基于文本语料的涉恐事件实体属性抽取系统，包括：

一数据采集模块，所述数据采集模块用以采集一网站网页的文本数据；

一数据处理模块，所述数据处理模块与所述数据采集模块连接，用以对所述文本数据进行清洗得到清洗后的所述文本数据；

一文本分类模块，连接所述数据处理模块和一文本训练模块，所述文本分类模块根据所述文本训练模块中的训练模型对清洗后的所述文本数据进行分类，得到分类后的所述文本数据；

一文本分解模块，与所述文本分类模块连接，用以对分类后的所述文本数据进行分解得到分解后的所述文本数据；

一文本提取模块，与所述文本分解模块连接，用以对分解后的所述文本数据进行信息提取得到提取后的所述信息；

一信息解析模块，与所述文本提取模块连接，用以对提取后的所述信息进行解析得到解析后的所述信息；

一事件提取模块，与所述信息解析模块连接，用于对解析后的所述信息进行提取得到一涉恐事件知识库。

优选的，所述文本数据的清洗包括对杂乱数据和非涉恐文本数据的去除。

优选的，所述非涉恐文本数据通过一正则表达式进行区分，所述正则表达式为使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。

优选的，所述文本训练模块基于朴素贝叶斯算法进行训练和交叉验证得到所述训练模型，所述朴素贝叶斯算法为基于贝叶斯定理与特征条件独立假设的分类方法。

优选的，所述文本分类模块用于对清洗后的所述文本数据进行分词、去停词库和随机生成训练测试验证集的数据预处理工作，然后依据所述训练模型对预处理后的所述文本数据进行涉恐事件文本和非涉恐事件文本分类。

优选的，所述文本分解模块将所述涉恐事件文本分解成标题、发布信息、新闻主体三部分，并运用一信息检索数据挖掘的常用加权技术算法抽取所述涉恐事件文本中的专有关键词形成一关键词库，然后对所述关键词库进行词性分类得到一带词性的涉恐专有词库。

优选的，所述文本提取模块包括正则表达式解析、命名实体识别抽取和语义角色分析，所述正则表达式用于对所述涉恐事件文本中涉恐事件发生时间初步提取，所述命名实体识别用于对所述涉恐事件文本中恐怖组织、事件发生地点识别的初步提取，所述语义角色分析用于提取所述涉恐事件文本句子中的所述三元组。

优选的，所述信息解析模块包括主语谓语宾语关系解析、定语后置动宾关系解析、人名/地名/机构解析和介宾关系主谓动补解析。

一种基于文本语料的涉恐事件实体属性抽取方法，应用于一种基于文本语料的涉恐事件实体属性抽取系统，包括：

步骤S1，所述数据采集模块通过所述网站的网页采集所述文本数据；

步骤S2，所述数据处理模块接收采集到的所述文本数据并对所述文本数据进行清洗；

步骤S3，所述文本分类模块接收清洗后的所述文本数据并结合所述训练模型对清洗后的所述文本数据进行文本分类；

步骤S4，所述文本分解模块接收分类后的所述文本数据并对分类后的所述文本数据进行分解；

步骤S5，所述文本提取模块接收分解后的所述文本数据并对分解后的所述文本数据进行所述信息提取；

步骤S6，所述信息解析模块接收提取后的所述信息并对提取的所述信息进行解析；

步骤S7，所述事件提取模块接收解析后的所述信息并对解析后的所述信息进行提取得到一涉恐事件知识库。

其有益效果在于：

本发明涉恐领域事件实体属性的提取准确率、召回率更高，对同领域的文本预料具备可复用性，减少同领域模型训练的人工标注工作量。

附图说明

图1为本发明提供的一种基于文本语料的涉恐事件实体属性抽取系统结构框图；

图2为本发明提供的一种基于文本语料的涉恐事件实体属性抽取方法步骤图；

图3为本发明一具体实施例的事件实体属性抽取示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

参照图1为本发明提供的一种基于文本语料的涉恐事件实体属性抽取系统结构框图，包括：

一数据采集模块1，数据采集模块1用以采集一网站的网页文本数据；

一数据处理模块2，与数据采集模块1连接，数据处理模块2用以对文本数据进行清洗得到清洗后的文本数据；

一文本分类模块3，连接数据处理模块2和一文本训练模块4，文本分类模块3根据文本训练模块4中的训练模型对清洗后的文本数据进行分类，得到分类后的文本数据；

一文本分解模块5，与文本分类模块3连接，用以对分类后的文本数据进行分解得到分解后的文本数据；

一文本提取模块6，与文本分解模块5连接，用以对分解后的文本数据进行信息提取得到提取后的信息；

一信息解析模块7，与文本提取模块6连接，用以对提取的信息进行解析得到解析后的信息；

一事件提取模8块，与信息解析模块7连接，用于对解析后的信息进行提取得到一涉恐事件知识库。

具体的，本发明在现有的爬虫理论基础上，采用最新的解析器工具解构网页，根据需要编写了涉恐主题网站精准数据采集程序。

进一步地，文本数据的清洗包括对杂乱数据和非涉恐文本数据的去除。

具体的，网站上的网页采集下来有很多杂乱的数据，此外网页文本既有涉恐文本，也有非涉恐文本。因此，需要首先对采集下来的数据进行数据清洗，去除杂乱数据和非涉恐文本。

进一步地，非涉恐文本数据通过一正则表达式进行区分，正则表达式为使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。

具体的，对于非涉恐文本的清洗，根据涉恐事件文本特征“没有伤害就不是恐怖事件报道”通过正则表达式区分。

进一步地，文本训练模块4基于朴素贝叶斯算法进行训练和交叉验证得到训练模型，朴素贝叶斯算法为基于贝叶斯定理与特征条件独立假设的分类方法。

具体的，在文本训练模块4分类训练过程运用了朴素贝叶斯算法，训练之后进行交叉验证得到训练好的模型，训练好的模型即可用于对清洗后的其它数据进行文本分类。

进一步地，文本分类模块3用于对清洗后的文本数据进行分词、去停词库和随机生成训练测试验证集的数据预处理工作，然后依据训练模型对预处理后的文本数据进行涉恐事件文本和非涉恐事件文本分类。

进一步地，文本分解模块5将涉恐事件文本分解成标题、发布信息、新闻主体三部分，并运用一信息检索数据挖掘的常用加权技术算法抽取涉恐事件文本中的专有关键词形成一关键词库，然后对关键词库进行词性分类得到一带词性的涉恐专有词库。

具体的，对包含涉恐事件文本进行结构分解，通常最重要、最新鲜的事实描述放在文章前面，先把所有涉恐新闻的标题汇集在一起，运用信息检索数据挖掘的常用加权技术算法算法抽取涉恐事件专有关键词成一关键词库，然后对关键词库进行词性分类得到一带词性的涉恐专有词库；文章的发布信息位置处的新闻发布时间是事件发生的基准时间，因此需要对每篇涉恐事件新闻文本进行分解成标题、发布信息、新闻主体三部分；信息检索数据挖掘的常用加权技术算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

进一步地，文本提取模块6包括正则表达式解析、命名实体识别抽取和语义角色分析，正则表达式用于对涉恐事件文本中涉恐事件发生时间初步提取，命名实体识别用于对涉恐事件文本中恐怖组织、事件发生地点识别的初步提取，语义角色分析用于提取涉恐事件文本句子中的三元组。

进一步地，信息解析模块7包括主语谓语宾语关系解析、定语后置动宾关系解析、人名/地名/机构解析和介宾关系主谓动补解析。

具体的，人名/地名/机构解析即为对提取涉恐事件文本句子中的三元组进行人名、地名、机构的解析，得到涉恐事件文本的人名、地名、机构名称。

参照图2为本发明提供的一种基于文本语料的涉恐事件实体属性抽取方法步骤图，包括：

在本发明较佳的实施例中，每个事件分别从发生时间、发生地点、攻击方式、武器类型、恐怖组织、伤亡情况6个维度属性实体进行抽取，如表一所示：

表1

算法程序抽取42221篇文章运行时间为859秒，每秒抽取抽取49.15件事件的实体属性。算法每个维度抽取结果的准确率、召回率、F1值如表8所示。从抽取测评结果可以看出，本技术抽取方法取得效果评估F1值大于80％。抽取技术适用于其它类型的新闻事件实体属性抽取，如禁毒事件、灾害事件等。算法迁移应用过程主体步骤路线不变，但事件对应的实体属性类别不同，如禁毒事件没有恐怖组织属性，需根据事件类型定义新的实体属性类别，构建关键词库需结合对应领域的业务知识。

参照图3，根据技术路线挖掘分析，对文本数据逐篇进行实体属性挖掘提取，中间事件名称“S事件”“T国家自杀式袭击事件”是根据属性实体自生成带。每个事件分别从发生时间、发生地点、攻击方式、武器类型、恐怖组织、伤亡情况6个维度属性实体进行抽取。

在本发明一较佳的实施例中，伤亡人数属性提取如下：

本发明根据中文语境下事件新闻描述伤亡的语法规律，编写了对于涉恐事件伤亡描述的正则表达式，范式如下：

((\\d+)多？(人|位|名))[\u4e00-\u9fa5]*(死亡|丧生|丧命|受伤|身亡)(\\pP)？([\u4e00-\u9fa5]*((\\d+)多？(人|位|名))[\u4e00-\u9fa5]*(受伤))？

该正则表达式提取伤亡事件描述准确率100％，在本研究语料中，召回率91.2％.召回率未能到100％的原因是，对于非阿拉伯数量词难以提取，例如：“一名袭击者身亡，另有7人受伤”，受伤属性7人能正常提取，对于事件造成死亡人数“一名”需要根据文本语种调整正则表达式。

在本发明又一实施例中，三元组挖掘涉恐实体属性包括：

在词性标注、依存句法分析、语义角色分析的基础上，开展三元组提取，三元组的精准切割，能够抽取出涉恐事件发生的地点、恐怖组织、攻击武器、攻击方式等。在实施例中从四个维度抽取三元组关系，分别是主语谓语宾语关系三元组、人名//地名//机构三元组、定语后置动宾关系三元组、介宾关系主谓动补关系三元组。谓语宾语关系三元组提取示例如表2所示：

表2

在第3列显示了需要提取的实体属性、并且是一个个原子属性或实体。如，通过第1行实例，“A国家南部”的词性和专有词“发生”能够提取出事件发生的地点是在“A国家南部”。第3行“炮弹”和“发射”可以提取攻击方式为“炮弹”，进一步分析“D国家武装分子”词性即可确定恐怖组织是“D国家武装分子”。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，包括：

2.根据权利要求1所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，所述文本数据的清洗包括对杂乱数据和非涉恐文本数据的去除。

3.根据权利要求2所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，所述非涉恐文本数据通过一正则表达式进行区分，所述正则表达式为使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。

4.根据权利要求1所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，所述文本训练模块基于朴素贝叶斯算法进行训练和交叉验证得到所述训练模型，所述朴素贝叶斯算法为基于贝叶斯定理与特征条件独立假设的分类方法。

5.根据权利要求1所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，所述文本分类模块用于对清洗后的所述文本数据进行分词、去停词库和随机生成训练测试验证集的数据预处理工作，然后依据所述训练模型对预处理后的所述文本数据进行涉恐事件文本和非涉恐事件文本分类。

6.根据权利要求5所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，所述文本分解模块将所述涉恐事件文本分解成标题、发布信息、新闻主体三部分，并运用一信息检索数据挖掘的常用加权技术算法抽取所述涉恐事件文本中的专有关键词形成一关键词库，然后对所述关键词库进行词性分类得到一带词性的涉恐专有词库。

7.根据权利要求6所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，所述文本提取模块包括正则表达式解析、命名实体识别抽取和语义角色分析，所述正则表达式用于对所述涉恐事件文本中涉恐事件发生时间初步提取，所述命名实体识别用于对所述涉恐事件文本中恐怖组织、事件发生地点识别的初步提取，所述语义角色分析用于提取所述涉恐事件文本句子中的所述三元组。

8.根据权利要求1所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，所述信息解析模块包括主语谓语宾语关系解析、定语后置动宾关系解析、人名/地名/机构解析和介宾关系主谓动补解析。

9.一种基于文本语料的涉恐事件实体属性抽取方法，应用于权利要求1-8所述的一种基于文本语料的涉恐事件实体属性抽取系统，其特征在于，包括：