CN110134762B - 基于事件主题分析的虚假信息识别系统及识别方法 - Google Patents

基于事件主题分析的虚假信息识别系统及识别方法 Download PDF

Info

Publication number
CN110134762B
CN110134762B CN201910327493.2A CN201910327493A CN110134762B CN 110134762 B CN110134762 B CN 110134762B CN 201910327493 A CN201910327493 A CN 201910327493A CN 110134762 B CN110134762 B CN 110134762B
Authority
CN
China
Prior art keywords
event
text
tree
entity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910327493.2A
Other languages
English (en)
Other versions
CN110134762A (zh
Inventor
李华康
朱明�
孙晓雨
龚乐君
孔令军
孙国梓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nupt Institute Of Big Data Research At Yancheng
Nanjing University of Posts and Telecommunications
Original Assignee
Nupt Institute Of Big Data Research At Yancheng
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nupt Institute Of Big Data Research At Yancheng, Nanjing University of Posts and Telecommunications filed Critical Nupt Institute Of Big Data Research At Yancheng
Priority to CN201910327493.2A priority Critical patent/CN110134762B/zh
Publication of CN110134762A publication Critical patent/CN110134762A/zh
Application granted granted Critical
Publication of CN110134762B publication Critical patent/CN110134762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种基于事件主题分析的虚假信息识别系统及识别方法。系统包括真实事件文本采集模块、事件树构建模块、分支主题粘合度计算模块、待测文本读取模块、相关度检测模块以及分支粘合度对比模块。方法包括真实事件文本采集步骤、事件树构建步骤、分支主题粘合度计算步骤、待测文本读取步骤、相关度检测步骤以及分支粘合度对比步骤。本发明能够为用户在网络环境中区分虚假信息提供帮助、从而使其能够更加快速有效地获取到真实可靠的信息。本发明不仅有效地提高了虚假信息识别的效率、节约了使用者的时间,同时也充分地保证了信息识别过程的标准化、提高了识别结果的准确性。

Description

基于事件主题分析的虚假信息识别系统及识别方法
技术领域
本发明涉及一种识别系统及识别方法,具体涉及一种基于事件主题分析的虚假信息识别系统及识别方法,属于新闻媒体智能领域。
背景技术
随着互联网的日益普及、媒体行业的不断发展,现如今,各类媒体平台的数量与日俱增,诸多自媒体也不断涌现。与这样的行业发展现状相对应的是,为了赚取更多的关注度与点击量,很多媒体人对其所发布内容的标题过度润色,从而出现大量的文不对题的现象。更有甚者,还会在网页内容中嵌入涉黄涉反的内容。也正是基于当前信息爆炸的网络发展现状,导致网络用户很容易受到虚假信息的迷惑,从而浪费时间。
也正因如此,如何在现有技术的基础上提出一种虚假信息的识别系统及其对应的识别方法,为用户区分虚假信息提供帮助、从而更加有效地获取真实可靠的信息,也就成为了本领域内技术人员共同的研究目标。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于事件主题分析的虚假信息识别系统及识别方法。
一种基于事件主题分析的虚假信息识别系统,包括:
真实事件文本采集模块,用于将现有的真实历史事件输入到事件文本数据库中;
事件树构建模块,用于从采集的数据中提取出包含主语、谓语、宾语的三元组事件,并保存到树形结构中,生成事件树;
分支主题粘合度计算模块,用于使用分支主题计算法,通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析,计算分支主题的粘合度;
待测文本读取模块,用于读取待测文本信息;
相关度检测模块,用于对待测文本事件树主体内容与标题内容进行相关度检测;
分支粘合度对比模块,用于将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比,若对比结果低于阈值,则判定为虚假信息,若对比结果高于阈值,则判断为真实信息。
优选地,所述事件树构建模块包括:文本实体抽取子模块、关系抽取子模块以及事件树生成子模块;
所述文本实体抽取子模块具体包括,
文本实体抽取第一单元,读取文本信息,
文本实体抽取第二单元,针对句子中所包含的信息,对句子进行划分,
文本实体抽取第三单元,对于划分好的句子,使用命名实体识别模型对每一个划分的句子进行实体的抽取,
文本实体抽取第四单元,对抽取出来的实体进行权重的判断,如果抽取出的实体权重值小于预设值,则不保留该实体,如果抽取出的实体权重值大于等于预设值,则保留该实体;
所述关系抽取子模块具体包括,
关系抽取第一单元,判断一句话中是否包含两个以上的实体,若是则执行关系抽取第二单元,若否则跳过后续单元,不对该句子进行处理,
关系抽取第二单元,对于每一个划分出来的句子,对句子中的每个单词进行词性的标注,
关系抽取第三单元,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,划分出句子的依存关系,
关系抽取第四单元,对于生成的依存树,通过对其进行剪枝,抽取出简单或复杂句的主谓宾三元组关系;
所述事件树生成子模块具体包括,
事件树生成第一单元,读取数组形式的三元组文本信息,
事件树生成第二单元,通过树库形成树形结构,计算文本中各子树的相关度,对于相关度低的子树,则不予合并,对于相关度高的子树通过相同的实体链接,得到森林,最终通过森林转二叉树的方式生成二叉树,
事件树生成第三单元,通过递归的方式将树的节点内容存入事件文本数据库中。
优选地,所述相关度检测模块具体包括:
相关度检测第一单元,提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件,
相关度检测第二单元,提取出待测文本事件树中的实体和信息,算出新的事件树中权重高的实体和关系词,
相关度检测第三单元,使用较高权重的实体与关系词对比主题中的三元组事件,若对比结果大于阈值,则算法继续,若对比结果小于阈值,则算法终止。
一种基于事件主题分析的虚假信息识别方法,包括如下步骤:
S1、真实事件文本采集步骤,将现有的真实历史事件输入到事件文本数据库中;
S2、事件树构建步骤,从采集的数据中提取出包含主语、谓语、宾语的三元组事件,并保存到树形结构中,生成事件树;
S3、分支主题粘合度计算步骤,使用分支主题计算法,通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析,计算分支主题的粘合度;
S4、待测文本读取步骤,读取待测文本信息;
S5、相关度检测步骤,对待测文本事件树主体内容与标题内容进行相关度检测;
S6、分支粘合度对比步骤,将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比,若对比结果低于阈值,则判定为虚假信息,若对比结果高于阈值,则判断为真实信息。
优选地,S2所述事件树构建步骤包括:
S21、文本实体抽取子步骤,识别出与文本内容相关度最高的实体,具体包括,
S211、文本实体抽取第一步骤,读取文本信息,
S212、文本实体抽取第二步骤,针对句子中所包含的信息,对句子进行划分,
S213、文本实体抽取第三步骤,对于划分好的句子,使用命名实体识别模型对每一个划分的句子进行实体的抽取,
S214、文本实体抽取第四步骤,对抽取出来的实体进行权重的判断,如果抽取出的实体权重值小于预设值,则不保留该实体,如果抽取出的实体权重值大于等于预设值,则保留该实体;
S22、关系抽取子步骤,通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息,具体包括,
S221、关系抽取第一步骤,判断一句话中是否包含两个以上的实体,若是则执行关系抽取第二步骤,若否则跳过后续步骤,不对该句子进行处理,
S222、关系抽取第二步骤,对于每一个划分出来的句子,对句子中的每个单词进行词性的标注,
S223、关系抽取第三步骤,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,划分出句子的依存关系,
S224、关系抽取第四步骤,对于生成的依存树,通过对其进行剪枝,抽取出简单或复杂句的主谓宾三元组关系;
S23、所述事件树生成子步骤,将抽取出的三元组关系信息保存到树形结构中、生成事件树,具体包括,
S231、事件树生成第一步骤,读取数组形式的三元组文本信息,
S232、事件树生成第二步骤,通过树库形成树形结构,计算文本中各子树的相关度,对于相关度低的子树,则不予合并,对于相关度高的子树通过相同的实体链接,得到森林,最终通过森林转二叉树的方式生成二叉树,
S233、事件树生成第三步骤,通过递归的方式将树的节点内容存入事件文本数据库中。
优选地,S5所述相关度检测步骤具体包括:
S51、相关度检测第一步骤,提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件,
S52、相关度检测第二步骤,提取出待测文本事件树中的实体和信息,算出新的事件树中权重高的实体和关系词,
S53、相关度检测第三步骤,使用较高权重的实体与关系词对比主题中的三元组事件,若对比结果大于阈值,则算法继续,若对比结果小于阈值,则算法终止。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明的基于事件主题分析的虚假信息识别系统及识别方法,通过事件树分支的语义连贯性及主题关联性,实现了对虚假信息的识别,能够为用户在网络环境中区分虚假信息提供帮助、从而使其能够更加快速有效地获取到真实可靠的信息。本发明不仅有效地提高了虚假信息识别的效率、节约了使用者的时间,同时也充分地保证了信息识别过程的标准化、提高了识别结果的准确性。
同时,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于信息识别方面的其他相关技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明中系统的整体结构示意图;
图2为本发明中事件树构建模块的结构示意图;
图3为本发明中文本实体抽取子模块的结构示意图;
图4为本发明中关系抽取子模块的结构示意图;
图5为本发明中事件树生成子模块的结构示意图;
图6为本发明中相关度检测模块的结构示意图。
具体实施方式
本发明针对当前网络环境中虚假信息过多、导致用户不能有效地查找所需信息的现状,提出了一种基于事件主题分析的虚假信息识别系统及识别方法。
如图1所示,一种基于事件主题分析的虚假信息识别系统,包括:
真实事件文本采集模块100,用于将现有的真实历史事件输入到事件文本数据库中。
事件树构建模块200,用于从采集的数据中提取出包含主语、谓语、宾语的三元组事件,并保存到树形结构中,生成事件树。
分支主题粘合度计算模块300,用于使用分支主题计算法,通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析,计算分支主题的粘合度。
待测文本读取模块400,用于读取待测文本信息。
相关度检测模块500,用于对待测文本事件树主体内容与标题内容进行相关度检测。
分支粘合度对比模块600,用于将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比,若对比结果低于阈值,则判定为虚假信息,若对比结果高于阈值,则判断为真实信息。
如图2所示,所述事件树构建模块200包括文本实体抽取子模块210、关系抽取子模块220以及事件树生成子模块230,具体如下。
如图3所示,所述文本实体抽取子模块210,用于识别出与文本内容相关度最高的实体,具体包括,
文本实体抽取第一单元211,读取文本信息;
文本实体抽取第二单元212,针对句子中所包含的信息,使用句号、分号等符号对句子进行划分;
文本实体抽取第三单元213,对于划分好的句子,可以使用人工智能自然语言处理领域中的命名实体识别模型对每一个划分的句子进行实体的抽取,所述命名实体识别模型可以使用HMM+CRF、LSTM+CRF等;
文本实体抽取第四单元214,对于抽取出的实体,并不是所有的实体对于整个事件都是有用的,我们会先对一个大型的真实历史事件数据进行类似于TF-IDF的算法权重训练,得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断,如果抽取出的实体权重值小于预设值,则不保留该实体,如果抽取出的实体权重值大于等于预设值,则保留该实体。
如图4所示,所述关系抽取子模块220,用于通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息,具体包括,
关系抽取第一单元221,判断一句话中是否包含两个以上的实体,若是则执行关系抽取第二单元,若否则跳过后续单元,不对该句子进行处理;
关系抽取第二单元222,对于每一个划分出来的句子,使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注;
关系抽取第三单元223,句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系;
关系抽取第四单元224,对于生成的依存树,通过对其进行剪枝,抽取出简单或复杂句的主谓宾三元组关系。
如图5所示,所述事件树生成子模块230,用于将抽取出的三元组关系信息保存到树形结构中、生成事件树,具体包括,
事件树生成第一单元231,读取数组形式的三元组文本信息;
事件树生成第二单元232,通过树库treelib、Anytree等形成树形结构;计算文本中各子树的相关度,对于相关度低的子树,则不予合并,对于相关度高的子树通过相同的实体链接,得到森林,最终通过森林转二叉树的方式生成二叉树;
事件树生成第三单元233,通过递归的方式将树的节点内容存入事件文本数据库中。
如图6所示,所述相关度检测模块500具体包括:
相关度检测第一单元510,提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件;
相关度检测第二单元520,提取出待测文本事件树中的实体和信息,使用类似tf-idf的算法来算出新的事件树中权重高的实体和关系词;
相关度检测第三单元530,使用较高权重的实体与关系词对比主题中的三元组事件,若对比结果大于阈值,则算法继续,若对比结果小于阈值,则算法终止。
本发明还揭示了一种基于事件主题分析的虚假信息识别方法,总体而言,本发明的方法包括:
步骤一、采集一个真实的事件文本数据集,该事件集能够很好的覆盖现有历史真实事件,构造数据库。
步骤二、对每个事件文本进行事件树构建。
步骤三、计算每个真实事件树的分支主题粘合度。
步骤四、对待检测文本进行分析构建事件树
步骤五、计算新事件树的主体内容分类与标题内容分类的关联关系,如果关联度低于某个阈值,即非关联,则判定该待检测文本为虚假信息。算法结束。
步骤六、步骤五中检测文本事件内容主题分类与标题内容分类为相关时,分析待检测文本内容的事件分支主题粘合度,并将此粘合度与历史真实事件文本数据集中的相同主题类粘合度进行对比,如果待检测文本信息的粘合度低于某个阈值,则判定为虚假信息。算法结束。
步骤七、步骤六的粘合度较高的情况下,判定待检测文本信息为真实内容。
具体而言,本发明的基于事件主题分析的虚假信息识别方法,包括如下步骤:
S1、真实事件文本采集步骤,将现有的真实历史事件输入到事件文本数据库中;
S2、事件树构建步骤,从采集的数据中提取出包含主语、谓语、宾语的三元组事件,并保存到树形结构中,生成事件树;
S3、分支主题粘合度计算步骤,使用分支主题计算法,通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析,计算分支主题的粘合度;
S4、待测文本读取步骤,读取待测文本信息;
S5、相关度检测步骤,对待测文本事件树主体内容与标题内容进行相关度检测;
S6、分支粘合度对比步骤,将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比,若对比结果低于阈值,则判定为虚假信息,若对比结果高于阈值,则判断为真实信息。
S2所述事件树构建步骤包括:
S21、文本实体抽取子步骤,识别出与文本内容相关度最高的实体,具体包括,
S211、文本实体抽取第一步骤,读取文本信息;
S212、文本实体抽取第二步骤,针对句子中所包含的信息,使用句号、分号等符号对句子进行划分;
S213、文本实体抽取第三步骤,对于划分好的句子,可以使用人工智能自然语言处理领域中的命名实体识别模型对每一个划分的句子进行实体的抽取,所述命名实体识别模型可以使用HMM+CRF、LSTM+CRF等;
S214、文本实体抽取第四步骤,对于抽取出的实体,并不是所有的实体对于整个事件都是有用的,我们会先对一个大型的真实历史事件数据进行类似于TF-IDF的算法权重训练,得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断,如果抽取出的实体权重值小于预设值,则不保留该实体,如果抽取出的实体权重值大于等于预设值,则保留该实体。
S22、关系抽取子步骤,通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息,具体包括,
S221、关系抽取第一步骤,判断一句话中是否包含两个以上的实体,若是则执行关系抽取第二步骤,若否则跳过后续步骤,不对该句子进行处理;
S222、关系抽取第二步骤,对于每一个划分出来的句子,使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注;
S223、关系抽取第三步骤,句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系;
S224、关系抽取第四步骤,对于生成的依存树,通过对其进行剪枝,抽取出简单或复杂句的主谓宾三元组关系;
S23、所述事件树生成子步骤,将抽取出的三元组关系信息保存到树形结构中、生成事件树,具体包括,
S231、事件树生成第一步骤,读取数组形式的三元组文本信息;
S232、事件树生成第二步骤,通过树库treelib、Anytree等形成树形结构,计算文本中各子树的相关度,对于相关度低的子树,则不予合并,对于相关度高的子树通过相同的实体链接,得到森林,最终通过森林转二叉树的方式生成二叉树;
S233、事件树生成第三步骤,通过递归的方式将树的节点内容存入事件文本数据库中。
S5所述相关度检测步骤具体包括:
S51、相关度检测第一步骤,提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件;
S52、相关度检测第二步骤,提取出待测文本事件树中的实体和信息,使用类似tf-idf的算法来算出新的事件树中权重高的实体和关系词;
S53、相关度检测第三步骤,使用较高权重的实体与关系词对比主题中的三元组事件,若对比结果大于阈值,则算法继续,若对比结果小于阈值,则算法终止。
综上所述,本发明的基于事件主题分析的虚假信息识别系统及识别方法,通过事件树分支的语义连贯性及主题关联性,实现了对虚假信息的识别,能够为用户在网络环境中区分虚假信息提供帮助、从而使其能够更加快速有效地获取到真实可靠的信息。本发明不仅有效地提高了虚假信息识别的效率、节约了使用者的时间,同时也充分地保证了信息识别过程的标准化、提高了识别结果的准确性。
同时,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于信息识别方面的其他相关技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于事件主题分析的虚假信息识别系统,其特征在于,包括:
真实事件文本采集模块,用于将现有的真实历史事件输入到事件文本数据库中;
事件树构建模块,用于从采集的数据中提取出包含主语、谓语、宾语的三元组事件,并保存到树形结构中,生成事件树;
所述事件树构建模块包括:文本实体抽取子模块、关系抽取子模块以及事件树生成子模块;
所述文本实体抽取子模块具体包括,
文本实体抽取第一单元,读取文本信息,
文本实体抽取第二单元,针对句子中所包含的信息,对句子进行划分,
文本实体抽取第三单元,对于划分好的句子,使用命名实体识别模型对每一个划分的句子进行实体的抽取,
文本实体抽取第四单元,对抽取出来的实体进行权重的判断,如果抽取出的实体权重值小于预设值,则不保留该实体,如果抽取出的实体权重值大于等于预设值,则保留该实体;
所述关系抽取子模块具体包括,
关系抽取第一单元,判断一句话中是否包含两个以上的实体,若是则执行关系抽取第二单元,若否则跳过后续单元,不对该句子进行处理,
关系抽取第二单元,对于每一个划分出来的句子,对句子中的每个单词进行词性的标注,
关系抽取第三单元,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,划分出句子的依存关系,
关系抽取第四单元,对于生成的依存树,通过对其进行剪枝,抽取出简单或复杂句的主谓宾三元组关系;
所述事件树生成子模块具体包括,
事件树生成第一单元,读取数组形式的三元组文本信息,
事件树生成第二单元,通过树库形成树形结构,计算文本中各子树的相关度,对于相关度低的子树,则不予合并,对于相关度高的子树通过相同的实体链接,得到森林,最终通过森林转二叉树的方式生成二叉树,
事件树生成第三单元,通过递归的方式将树的节点内容存入事件文本数据库中;
分支主题粘合度计算模块,用于使用分支主题计算法,通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析,计算分支主题的粘合度;
待测文本读取模块,用于读取待测文本信息;
相关度检测模块,用于对待测文本事件树主体内容与标题内容进行相关度检测;
分支粘合度对比模块,用于将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比,若对比结果低于阈值,则判定为虚假信息,若对比结果高于阈值,则判断为真实信息。
2.根据权利要求1所述的基于事件主题分析的虚假信息识别系统,其特征在于,所述相关度检测模块具体包括:
相关度检测第一单元,提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件,
相关度检测第二单元,提取出待测文本事件树中的实体和信息,使用tf-idf算法算出新的事件树中权重高的实体和关系词,
相关度检测第三单元,使用权重高的实体与关系词对比主题中的三元组事件,若对比结果大于阈值,则算法继续,若对比结果小于阈值,则算法终止。
3.一种基于事件主题分析的虚假信息识别方法,其特征在于,包括如下步骤:
S1、真实事件文本采集步骤,将现有的真实历史事件输入到事件文本数据库中;
S2、事件树构建步骤,从采集的数据中提取出包含主语、谓语、宾语的三元组事件,并保存到树形结构中,生成事件树;
所述事件树构建步骤包括:
S21、文本实体抽取子步骤,识别出与文本内容相关度最高的实体,具体包括,
S211、文本实体抽取第一步骤,读取文本信息,
S212、文本实体抽取第二步骤,针对句子中所包含的信息,对句子进行划分,
S213、文本实体抽取第三步骤,对于划分好的句子,使用命名实体识别模型对每一个划分的句子进行实体的抽取,
S214、文本实体抽取第四步骤,对抽取出来的实体进行权重的判断,如果抽取出的实体权重值小于预设值,则不保留该实体,如果抽取出的实体权重值大于等于预设值,则保留该实体;
S22、关系抽取子步骤,通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息,具体包括,
S221、关系抽取第一步骤,判断一句话中是否包含两个以上的实体,若是则执行关系抽取第二步骤,若否则跳过后续步骤,不对该句子进行处理,
S222、关系抽取第二步骤,对于每一个划分出来的句子,对句子中的每个单词进行词性的标注,
S223、关系抽取第三步骤,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,划分出句子的依存关系,
S224、关系抽取第四步骤,对于生成的依存树,通过对其进行剪枝,抽取出简单或复杂句的主谓宾三元组关系;
S23、所述事件树生成子步骤,将抽取出的三元组关系信息保存到树形结构中、生成事件树,具体包括,
S231、事件树生成第一步骤,读取数组形式的三元组文本信息,
S232、事件树生成第二步骤,通过树库形成树形结构,计算文本中各子树的相关度,对于相关度低的子树,则不予合并,对于相关度高的子树通过相同的实体链接,得到森林,最终通过森林转二叉树的方式生成二叉树,
S233、事件树生成第三步骤,通过递归的方式将树的节点内容存入事件文本数据库中;
S3、分支主题粘合度计算步骤,使用分支主题计算法,通过事件实体结点间的链接结构、分支事件主题与主事件主题的关联进行分析,计算分支主题的粘合度;
S4、待测文本读取步骤,读取待测文本信息;
S5、相关度检测步骤,对待测文本事件树主体内容与标题内容进行相关度检测;
S6、分支粘合度对比步骤,将待测文本分支粘合度与包含真实历史事件的事件文本数据库中的相同主题类粘合度进行对比,若对比结果低于阈值,则判定为虚假信息,若对比结果高于阈值,则判断为真实信息。
4.根据权利要求3所述的基于事件主题分析的虚假信息识别方法,其特征在于,S5所述相关度检测步骤具体包括:
S51、相关度检测第一步骤,提取出标题内容中的所有实体以及和实体之间的关系、即包含主语、谓语、宾语的三元组事件,
S52、相关度检测第二步骤,提取出待测文本事件树中的实体和信息,使用tf-idf算法算出新的事件树中权重高的实体和关系词;
S53、相关度检测第三步骤,使用权重高的实体与关系词对比主题中的三元组事件,若对比结果大于阈值,则算法继续,若对比结果小于阈值,则算法终止。
CN201910327493.2A 2019-04-23 2019-04-23 基于事件主题分析的虚假信息识别系统及识别方法 Active CN110134762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910327493.2A CN110134762B (zh) 2019-04-23 2019-04-23 基于事件主题分析的虚假信息识别系统及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910327493.2A CN110134762B (zh) 2019-04-23 2019-04-23 基于事件主题分析的虚假信息识别系统及识别方法

Publications (2)

Publication Number Publication Date
CN110134762A CN110134762A (zh) 2019-08-16
CN110134762B true CN110134762B (zh) 2023-07-11

Family

ID=67570540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910327493.2A Active CN110134762B (zh) 2019-04-23 2019-04-23 基于事件主题分析的虚假信息识别系统及识别方法

Country Status (1)

Country Link
CN (1) CN110134762B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611399A (zh) * 2020-04-15 2020-09-01 广发证券股份有限公司 一种基于自然语言处理的资讯事件图谱化系统及方法
CN115374372B (zh) * 2022-08-26 2023-04-07 广州工程技术职业学院 网络社区虚假信息快速识别方法及装置、设备、存储介质
CN117788136A (zh) * 2023-11-24 2024-03-29 浙江孚临科技有限公司 一种基于区块链和舆情的金融风控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050675A2 (ko) * 2008-10-29 2010-05-06 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN107862037A (zh) * 2017-11-03 2018-03-30 哈尔滨工业大学 一种基于实体连通图的事件模版构造方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050675A2 (ko) * 2008-10-29 2010-05-06 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN107862037A (zh) * 2017-11-03 2018-03-30 哈尔滨工业大学 一种基于实体连通图的事件模版构造方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向微博文本的情绪分析方法研究;黄磊;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20160501;第19-75页 *

Also Published As

Publication number Publication date
CN110134762A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134762B (zh) 基于事件主题分析的虚假信息识别系统及识别方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN113821605B (zh) 一种事件抽取方法
CN110889003B (zh) 一种基于文本的车辆图像细粒度检索系统
CN113168499A (zh) 检索专利文档的方法
CN113196277A (zh) 用于检索自然语言文档的系统
CN111339269A (zh) 模板自动生成的知识图谱问答训练及应用服务系统
CN110162651B (zh) 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
CN113196278A (zh) 训练自然语言检索系统的方法、检索系统以及对应的用途
CN110781687A (zh) 相同意图语句的获取方法及装置
Tschuggnall et al. Enhancing authorship attribution by utilizing syntax tree profiles
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
Aghaei et al. Question answering over knowledge graphs: A case study in tourism
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
CN112559691B (zh) 语义相似度的确定方法及确定装置、电子设备
US20220207240A1 (en) System and method for analyzing similarity of natural language data
Jiang et al. Moocon: a framework for semi-supervised concept extraction from Mooc content
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
CN111813916A (zh) 一种智能问答方法、装置、计算机设备和介质
Alhamad et al. Feature-based sentiment analysis for Arabic language
CN112990388B (zh) 基于概念词的文本聚类方法
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant