CN110134762B

CN110134762B - 基于事件主题分析的虚假信息识别系统及识别方法

Info

Publication number: CN110134762B
Application number: CN201910327493.2A
Authority: CN
Inventors: 李华康; 朱明�; 孙晓雨; 龚乐君; 孔令军; 孙国梓
Original assignee: Nupt Institute Of Big Data Research At Yancheng; Nanjing University of Posts and Telecommunications
Current assignee: Nupt Institute Of Big Data Research At Yancheng; Nanjing University of Posts and Telecommunications
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2023-07-11
Anticipated expiration: 2039-04-23
Also published as: CN110134762A

Abstract

本发明揭示了一种基于事件主题分析的虚假信息识别系统及识别方法。系统包括真实事件文本采集模块、事件树构建模块、分支主题粘合度计算模块、待测文本读取模块、相关度检测模块以及分支粘合度对比模块。方法包括真实事件文本采集步骤、事件树构建步骤、分支主题粘合度计算步骤、待测文本读取步骤、相关度检测步骤以及分支粘合度对比步骤。本发明能够为用户在网络环境中区分虚假信息提供帮助、从而使其能够更加快速有效地获取到真实可靠的信息。本发明不仅有效地提高了虚假信息识别的效率、节约了使用者的时间，同时也充分地保证了信息识别过程的标准化、提高了识别结果的准确性。

Description

基于事件主题分析的虚假信息识别系统及识别方法

技术领域

本发明涉及一种识别系统及识别方法，具体涉及一种基于事件主题分析的虚假信息识别系统及识别方法，属于新闻媒体智能领域。

背景技术

随着互联网的日益普及、媒体行业的不断发展，现如今，各类媒体平台的数量与日俱增，诸多自媒体也不断涌现。与这样的行业发展现状相对应的是，为了赚取更多的关注度与点击量，很多媒体人对其所发布内容的标题过度润色，从而出现大量的文不对题的现象。更有甚者，还会在网页内容中嵌入涉黄涉反的内容。也正是基于当前信息爆炸的网络发展现状，导致网络用户很容易受到虚假信息的迷惑，从而浪费时间。

也正因如此，如何在现有技术的基础上提出一种虚假信息的识别系统及其对应的识别方法，为用户区分虚假信息提供帮助、从而更加有效地获取真实可靠的信息，也就成为了本领域内技术人员共同的研究目标。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于事件主题分析的虚假信息识别系统及识别方法。

一种基于事件主题分析的虚假信息识别系统，包括：

真实事件文本采集模块，用于将现有的真实历史事件输入到事件文本数据库中；

事件树构建模块，用于从采集的数据中提取出包含主语、谓语、宾语的三元组事件，并保存到树形结构中，生成事件树；

分支主题粘合度计算模块，用于使用分支主题计算法，通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析，计算分支主题的粘合度；

待测文本读取模块，用于读取待测文本信息；

相关度检测模块，用于对待测文本事件树主体内容与标题内容进行相关度检测；

分支粘合度对比模块，用于将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比，若对比结果低于阈值，则判定为虚假信息，若对比结果高于阈值，则判断为真实信息。

优选地，所述事件树构建模块包括：文本实体抽取子模块、关系抽取子模块以及事件树生成子模块；

所述文本实体抽取子模块具体包括，

文本实体抽取第一单元，读取文本信息，

文本实体抽取第二单元，针对句子中所包含的信息，对句子进行划分，

文本实体抽取第三单元，对于划分好的句子，使用命名实体识别模型对每一个划分的句子进行实体的抽取，

文本实体抽取第四单元，对抽取出来的实体进行权重的判断，如果抽取出的实体权重值小于预设值，则不保留该实体，如果抽取出的实体权重值大于等于预设值，则保留该实体；

所述关系抽取子模块具体包括，

关系抽取第一单元，判断一句话中是否包含两个以上的实体，若是则执行关系抽取第二单元，若否则跳过后续单元，不对该句子进行处理，

关系抽取第二单元，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，

关系抽取第三单元，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，

关系抽取第四单元，对于生成的依存树，通过对其进行剪枝，抽取出简单或复杂句的主谓宾三元组关系；

所述事件树生成子模块具体包括，

事件树生成第一单元，读取数组形式的三元组文本信息，

事件树生成第二单元，通过树库形成树形结构，计算文本中各子树的相关度，对于相关度低的子树，则不予合并，对于相关度高的子树通过相同的实体链接，得到森林，最终通过森林转二叉树的方式生成二叉树，

事件树生成第三单元，通过递归的方式将树的节点内容存入事件文本数据库中。

优选地，所述相关度检测模块具体包括：

相关度检测第一单元，提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件，

相关度检测第二单元，提取出待测文本事件树中的实体和信息，算出新的事件树中权重高的实体和关系词，

相关度检测第三单元，使用较高权重的实体与关系词对比主题中的三元组事件，若对比结果大于阈值，则算法继续，若对比结果小于阈值，则算法终止。

一种基于事件主题分析的虚假信息识别方法，包括如下步骤：

S1、真实事件文本采集步骤，将现有的真实历史事件输入到事件文本数据库中；

S2、事件树构建步骤，从采集的数据中提取出包含主语、谓语、宾语的三元组事件，并保存到树形结构中，生成事件树；

S3、分支主题粘合度计算步骤，使用分支主题计算法，通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析，计算分支主题的粘合度；

S4、待测文本读取步骤，读取待测文本信息；

S5、相关度检测步骤，对待测文本事件树主体内容与标题内容进行相关度检测；

S6、分支粘合度对比步骤，将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比，若对比结果低于阈值，则判定为虚假信息，若对比结果高于阈值，则判断为真实信息。

优选地，S2所述事件树构建步骤包括：

S21、文本实体抽取子步骤，识别出与文本内容相关度最高的实体，具体包括，

S211、文本实体抽取第一步骤，读取文本信息，

S212、文本实体抽取第二步骤，针对句子中所包含的信息，对句子进行划分，

S213、文本实体抽取第三步骤，对于划分好的句子，使用命名实体识别模型对每一个划分的句子进行实体的抽取，

S214、文本实体抽取第四步骤，对抽取出来的实体进行权重的判断，如果抽取出的实体权重值小于预设值，则不保留该实体，如果抽取出的实体权重值大于等于预设值，则保留该实体；

S22、关系抽取子步骤，通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息，具体包括，

S221、关系抽取第一步骤，判断一句话中是否包含两个以上的实体，若是则执行关系抽取第二步骤，若否则跳过后续步骤，不对该句子进行处理，

S222、关系抽取第二步骤，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，

S223、关系抽取第三步骤，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，

S224、关系抽取第四步骤，对于生成的依存树，通过对其进行剪枝，抽取出简单或复杂句的主谓宾三元组关系；

S23、所述事件树生成子步骤，将抽取出的三元组关系信息保存到树形结构中、生成事件树，具体包括，

S231、事件树生成第一步骤，读取数组形式的三元组文本信息，

S232、事件树生成第二步骤，通过树库形成树形结构，计算文本中各子树的相关度，对于相关度低的子树，则不予合并，对于相关度高的子树通过相同的实体链接，得到森林，最终通过森林转二叉树的方式生成二叉树，

S233、事件树生成第三步骤，通过递归的方式将树的节点内容存入事件文本数据库中。

优选地，S5所述相关度检测步骤具体包括：

S51、相关度检测第一步骤，提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件，

S52、相关度检测第二步骤，提取出待测文本事件树中的实体和信息，算出新的事件树中权重高的实体和关系词，

S53、相关度检测第三步骤，使用较高权重的实体与关系词对比主题中的三元组事件，若对比结果大于阈值，则算法继续，若对比结果小于阈值，则算法终止。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明的基于事件主题分析的虚假信息识别系统及识别方法，通过事件树分支的语义连贯性及主题关联性，实现了对虚假信息的识别，能够为用户在网络环境中区分虚假信息提供帮助、从而使其能够更加快速有效地获取到真实可靠的信息。本发明不仅有效地提高了虚假信息识别的效率、节约了使用者的时间，同时也充分地保证了信息识别过程的标准化、提高了识别结果的准确性。

同时，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于信息识别方面的其他相关技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明中系统的整体结构示意图；

图2为本发明中事件树构建模块的结构示意图；

图3为本发明中文本实体抽取子模块的结构示意图；

图4为本发明中关系抽取子模块的结构示意图；

图5为本发明中事件树生成子模块的结构示意图；

图6为本发明中相关度检测模块的结构示意图。

具体实施方式

本发明针对当前网络环境中虚假信息过多、导致用户不能有效地查找所需信息的现状，提出了一种基于事件主题分析的虚假信息识别系统及识别方法。

如图1所示，一种基于事件主题分析的虚假信息识别系统，包括：

真实事件文本采集模块100，用于将现有的真实历史事件输入到事件文本数据库中。

事件树构建模块200，用于从采集的数据中提取出包含主语、谓语、宾语的三元组事件，并保存到树形结构中，生成事件树。

分支主题粘合度计算模块300，用于使用分支主题计算法，通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析，计算分支主题的粘合度。

待测文本读取模块400，用于读取待测文本信息。

相关度检测模块500，用于对待测文本事件树主体内容与标题内容进行相关度检测。

分支粘合度对比模块600，用于将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比，若对比结果低于阈值，则判定为虚假信息，若对比结果高于阈值，则判断为真实信息。

如图2所示，所述事件树构建模块200包括文本实体抽取子模块210、关系抽取子模块220以及事件树生成子模块230，具体如下。

如图3所示，所述文本实体抽取子模块210，用于识别出与文本内容相关度最高的实体，具体包括，

文本实体抽取第一单元211，读取文本信息；

文本实体抽取第二单元212，针对句子中所包含的信息，使用句号、分号等符号对句子进行划分；

文本实体抽取第三单元213，对于划分好的句子，可以使用人工智能自然语言处理领域中的命名实体识别模型对每一个划分的句子进行实体的抽取，所述命名实体识别模型可以使用HMM+CRF、LSTM+CRF等；

文本实体抽取第四单元214，对于抽取出的实体，并不是所有的实体对于整个事件都是有用的，我们会先对一个大型的真实历史事件数据进行类似于TF-IDF的算法权重训练，得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断，如果抽取出的实体权重值小于预设值，则不保留该实体，如果抽取出的实体权重值大于等于预设值，则保留该实体。

如图4所示，所述关系抽取子模块220，用于通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息，具体包括，

关系抽取第一单元221，判断一句话中是否包含两个以上的实体，若是则执行关系抽取第二单元，若否则跳过后续单元，不对该句子进行处理；

关系抽取第二单元222，对于每一个划分出来的句子，使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注；

关系抽取第三单元223，句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系；

关系抽取第四单元224，对于生成的依存树，通过对其进行剪枝，抽取出简单或复杂句的主谓宾三元组关系。

如图5所示，所述事件树生成子模块230，用于将抽取出的三元组关系信息保存到树形结构中、生成事件树，具体包括，

事件树生成第一单元231，读取数组形式的三元组文本信息；

事件树生成第二单元232，通过树库treelib、Anytree等形成树形结构；计算文本中各子树的相关度，对于相关度低的子树，则不予合并，对于相关度高的子树通过相同的实体链接，得到森林，最终通过森林转二叉树的方式生成二叉树；

事件树生成第三单元233，通过递归的方式将树的节点内容存入事件文本数据库中。

如图6所示，所述相关度检测模块500具体包括：

相关度检测第一单元510，提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件；

相关度检测第二单元520，提取出待测文本事件树中的实体和信息，使用类似tf-idf的算法来算出新的事件树中权重高的实体和关系词；

相关度检测第三单元530，使用较高权重的实体与关系词对比主题中的三元组事件，若对比结果大于阈值，则算法继续，若对比结果小于阈值，则算法终止。

本发明还揭示了一种基于事件主题分析的虚假信息识别方法，总体而言，本发明的方法包括：

步骤一、采集一个真实的事件文本数据集，该事件集能够很好的覆盖现有历史真实事件，构造数据库。

步骤二、对每个事件文本进行事件树构建。

步骤三、计算每个真实事件树的分支主题粘合度。

步骤四、对待检测文本进行分析构建事件树

步骤五、计算新事件树的主体内容分类与标题内容分类的关联关系，如果关联度低于某个阈值，即非关联，则判定该待检测文本为虚假信息。算法结束。

步骤六、步骤五中检测文本事件内容主题分类与标题内容分类为相关时，分析待检测文本内容的事件分支主题粘合度，并将此粘合度与历史真实事件文本数据集中的相同主题类粘合度进行对比，如果待检测文本信息的粘合度低于某个阈值，则判定为虚假信息。算法结束。

步骤七、步骤六的粘合度较高的情况下，判定待检测文本信息为真实内容。

具体而言，本发明的基于事件主题分析的虚假信息识别方法，包括如下步骤：

S4、待测文本读取步骤，读取待测文本信息；

S2所述事件树构建步骤包括：

S211、文本实体抽取第一步骤，读取文本信息；

S212、文本实体抽取第二步骤，针对句子中所包含的信息，使用句号、分号等符号对句子进行划分；

S213、文本实体抽取第三步骤，对于划分好的句子，可以使用人工智能自然语言处理领域中的命名实体识别模型对每一个划分的句子进行实体的抽取，所述命名实体识别模型可以使用HMM+CRF、LSTM+CRF等；

S214、文本实体抽取第四步骤，对于抽取出的实体，并不是所有的实体对于整个事件都是有用的，我们会先对一个大型的真实历史事件数据进行类似于TF-IDF的算法权重训练，得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断，如果抽取出的实体权重值小于预设值，则不保留该实体，如果抽取出的实体权重值大于等于预设值，则保留该实体。

S221、关系抽取第一步骤，判断一句话中是否包含两个以上的实体，若是则执行关系抽取第二步骤，若否则跳过后续步骤，不对该句子进行处理；

S222、关系抽取第二步骤，对于每一个划分出来的句子，使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注；

S223、关系抽取第三步骤，句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系；

S231、事件树生成第一步骤，读取数组形式的三元组文本信息；

S232、事件树生成第二步骤，通过树库treelib、Anytree等形成树形结构，计算文本中各子树的相关度，对于相关度低的子树，则不予合并，对于相关度高的子树通过相同的实体链接，得到森林，最终通过森林转二叉树的方式生成二叉树；

S5所述相关度检测步骤具体包括：

S51、相关度检测第一步骤，提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件；

S52、相关度检测第二步骤，提取出待测文本事件树中的实体和信息，使用类似tf-idf的算法来算出新的事件树中权重高的实体和关系词；

综上所述，本发明的基于事件主题分析的虚假信息识别系统及识别方法，通过事件树分支的语义连贯性及主题关联性，实现了对虚假信息的识别，能够为用户在网络环境中区分虚假信息提供帮助、从而使其能够更加快速有效地获取到真实可靠的信息。本发明不仅有效地提高了虚假信息识别的效率、节约了使用者的时间，同时也充分地保证了信息识别过程的标准化、提高了识别结果的准确性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于事件主题分析的虚假信息识别系统，其特征在于，包括：

所述事件树构建模块包括：文本实体抽取子模块、关系抽取子模块以及事件树生成子模块；

所述文本实体抽取子模块具体包括，

文本实体抽取第一单元，读取文本信息，

所述关系抽取子模块具体包括，

所述事件树生成子模块具体包括，

事件树生成第一单元，读取数组形式的三元组文本信息，

事件树生成第三单元，通过递归的方式将树的节点内容存入事件文本数据库中；

待测文本读取模块，用于读取待测文本信息；

2.根据权利要求1所述的基于事件主题分析的虚假信息识别系统，其特征在于，所述相关度检测模块具体包括：

相关度检测第二单元，提取出待测文本事件树中的实体和信息，使用tf-idf算法算出新的事件树中权重高的实体和关系词，

相关度检测第三单元，使用权重高的实体与关系词对比主题中的三元组事件，若对比结果大于阈值，则算法继续，若对比结果小于阈值，则算法终止。

3.一种基于事件主题分析的虚假信息识别方法，其特征在于，包括如下步骤：

所述事件树构建步骤包括：

S211、文本实体抽取第一步骤，读取文本信息，

S233、事件树生成第三步骤，通过递归的方式将树的节点内容存入事件文本数据库中；

S4、待测文本读取步骤，读取待测文本信息；

4.根据权利要求3所述的基于事件主题分析的虚假信息识别方法，其特征在于，S5所述相关度检测步骤具体包括：

S52、相关度检测第二步骤，提取出待测文本事件树中的实体和信息，使用tf-idf算法算出新的事件树中权重高的实体和关系词；

S53、相关度检测第三步骤，使用权重高的实体与关系词对比主题中的三元组事件，若对比结果大于阈值，则算法继续，若对比结果小于阈值，则算法终止。