CN115994531A

CN115994531A - 一种多维度文本综合辨识方法

Info

Publication number: CN115994531A
Application number: CN202211324458.3A
Authority: CN
Inventors: 高翔; 崔莹; 代翔; 陈伟晴; 何健军; 潘磊; 廖泓舟; 丁洪丽; 戴礼灿; 王侃
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-04-21
Also published as: WO2024087754A1

Abstract

本发明公开了一种多维度文本综合辨识方法，包括：获取待辨识文本，并将其划分为多个分句；对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表；对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表；对所述多个分句进行内容检测，得到第三文本真实概率以及支撑判断结果的句子和词语；基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率，得到文本综合辨识结果。本发明不仅能够对文本进行常识符合性、事实符合度以及文本内容的全维综合辨识，还能够对辨识结果进行可解释性分析，以综合辨识报告的形式呈现。

Description

一种多维度文本综合辨识方法

技术领域

本发明涉及文本检测技术领域，特别是一种多维度文本综合辨识方法。

背景技术

随着网络和自媒体技术的不断发展，我们进入了一个知识爆炸的时代。人们在享受互联网带来的便捷和自媒体带来的愉悦的同时，也遭受着虚假新闻、谣言的很多困扰。

虚假新闻通常分为人工智能合成和人为杜撰两大类别。介于当前大规模预训练语言模型技术发展迅速，基于人工智能合成的虚假新闻已经能够做到了语句流畅、可读性高，但往往会有违背常识的情况出现。人为杜撰的虚假新闻，可以通过人的知识储备，规避违背常识的情况，但又常会存在违反事实的情况。现有的虚假文本智能辨识模型往往基于文本内容本身，不具备常识和事实的冲突检测和真伪辨识能力。如何借助领域常识、客观事实等一系列知识，进行多维度文本综合辨识，是当前亟待解决的问题。

发明内容

鉴于此，本发明提供一种多维度文本综合辨识方法，能够结合常识库、事件库等既有客观知识以及文本内容，对文本内容进行综合辨识。

本发明公开了一种多维度文本综合辨识方法，包括：

获取待辨识文本，并将其划分为多个分句；

对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表；

对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表；

对所述多个分句进行内容检测，得到第三文本真实概率以及支撑判断结果的句子和词语；

基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率，得到文本综合辨识结果。

进一步地，还包括：

将所述常识冲突列表、所述事实冲突列表和所述支撑判断结果的句子和词语进行拼接后，输入可解释性文本生成模型中，得到综合辨识报告。

进一步地，所述对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表，包括：

抽取所述多个分句中所有的常识知识，并形成常识知识集合；其中，所述常识知识包括头实体、关系和尾实体；

从所述常识知识集合的第一个常识知识开始遍历，计算当前遍历的常识知识的头实体和关系的组合分别与常识知识库中所有的头实体和关系的组合之间的相似度，并从所有相似度中选出最大相似度；

基于最大相似度和第一预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识；

基于相匹配的常识和第二预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识；

直至完成所述常识知识集合中所有常识知识的判断为止，最终输出第一文本真实概率和常识冲突列表。

进一步地，所述基于最大相似度和第一预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识，包括：

将最大相似度与第一预设阈值进行比较；

若最大相似度小于第一预设阈值时，则常识知识库中不存在与当前遍历的常识知识相匹配的常识，将最大相似度作为第一文本真实概率，并同时输出当前遍历的常识在常识知识库中无匹配的注释；

在输出当前遍历的常识在常识知识库中无匹配的注释之后，还包括：

人工判断当前遍历的常识是否可以采信；若是，则将当前遍历的常识知识存入常识知识库；

若最大相似度大于或等于第一预设阈值时，则常识知识库中存在与当前遍历的常识知识相匹配的常识。

进一步地，所述基于相匹配的常识和第二预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识，包括：

将常识知识库中相匹配的常识的三元组与当前遍历的常识知识的头实体、关系和尾实体的组合进行相似度计算，得到相似度值，并从相似度值中选出最大相似度值；

将最大相似度值与第二预设阈值进行比较；

若最大相似度值小于第二预设阈值，则当前遍历的常识知识与常识知识库中的常识存在冲突，输出最大相似度值和常识冲突列表，其中，最大相似度值为第一文本真实概率；否则，当前遍历的常识知识与常识知识库中的常识不冲突。

进一步地，所述对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表，包括：

从所述多个分句中抽取所有的事件句，并形成事件句集合；

对每个事件句进行要素抽取，得到每个事件句对应的要素；其中，所述要素为事件时间、事件地点、事件主体、事件客体、事件触发词；

从所述事件句集合的第一个事件句开始遍历，对于当前遍历的事件句的事实检测，将当前遍历的事件句与其对应的要素进行组合，作为一个文本；

计算文本与领域事件库中每个事件句的相似度，并从相似度中选出最大值；

若最大值小于第三预设阈值，则将最大值作为第二文本真实概率输出，并备注领域事件库中没有与文本匹配的事件；

若最大值大于或等于第三预设阈值，则计算文本的文本描述与最大值在所述事件句集合中对应的事件句的文本描述之间的相似度，记为第一相似度；

基于第一相似度和第四预设阈值，判断文本是否与领域事件库中的事件句相冲突；

直至完成所述事件句集合中所有事件句的事实检测为止，输出第二文本真实概率和事实冲突列表。

进一步地，在计算文本与领域事件库中每个事件句的相似度，并从相似度中选出最大值之前，还包括：

分别通过预训练语言模型得到所述文本和所述领域事件库中所有事件对应的嵌入表示。

进一步地，所述基于第一相似度和第四预设阈值，判断文本是否与领域事件库中的事件句相冲突，包括：

若第一相似度大于或等于第四预设阈值，则设置采信阈值，当第四预设阈值大于采信阈值时，将文本判为高可信度事件，并将其加入领域事件库；

若第一相似度小于第四预设阈值，则文本与领域事件库中的事件存在冲突，输出事实冲突项列表和第一相似度；其中，第一相似度为第二文本真实概率。

进一步地，所述对所述多个分句进行内容检测，得到第三文本真实概率以及支撑判断结果的句子和词语，包括：

分别对所述多个分句进行关键词识别，得到每个关键词对应的关键度；

对所有关键度按照降序进行排列，得到关键度集合；

将文本虚假检查的最长输入字符长度记为len_max，截取关键度集合中前u个句子，u个句子的字符总数记为char_u，确保char_u≤len_max，char_u+1＜len_max，若char_n≤len_max，则令u＝n；

将u个句子组成的新文本输入预训练语言模型，进行虚假性检测，输出文本真实与虚假的概率值，同时输出支撑判断结果的高权重句子和词语，作为判断解释性依据；其中，文本真实与虚假的概率值为第三文本真实概率。

进一步地，所述基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率，得到文本综合辨识结果，包括：

将所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率分别与其对应的权重进行相乘，将所有的相乘结果进行求和，即得到文本综合辨识结果；其中，所有权重之和等于1。

由于采用了上述技术方案，本发明具有如下的优点：通过本发明提出的多维度文本综合辨识方法，不仅能够对文本进行常识符合性、事实符合度以及文本内容的全维综合辨识，还能够对辨识结果进行可解释性分析，以综合辨识报告的形式呈现。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种多维度文本综合辨识方法的原理示意图；

图2为本发明实施例的常识检测原理流程示意图；

图3为本发明实施例的事实检测原理流程示意图。

具体实施方式

结合附图和实施例对本发明作进一步说明，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

多维度文本综合辨识方法，主要由常识检测、事实检测、内容检测和综合辨识四个部分构成。待辨识文本首先根据句号、问号、感叹号等断句标点符号进行分句，然后将句子集合分别送入常识检测、事实检测、内容检测三个模块。

常识检测模块包含常识句识别、常识抽取、常识冲突检测几个过程，能够结合已构建好的常识库知识，对文本的常识符合情况进行检测。分句后的句子集合首先进行常识句识别，常识句识别模块是一个二分类模型，经过大量语料训练后，该模块能够对分句后的文本进行判断，如果包含常识知识则视为常识句；然后对常识句进行常识抽取，常识抽取模块能够抽取常识句中的主体、客体、关系词，抽取的领域常识可以以三元组形式表示；常识知识库以知识图谱形式存放着大量经证实的高置信度领域常识知识，是常识检测模块的数据基础，可以根据实际需求动态增长；常识冲突检测模块能够将常识句中抽取的常识知识，与常识知识库中存储的高置信度常识进行对比检测，发现冲突项，冲突项分为两类，一种是与常识库内容不匹配，一种是常识库中不存在，常识冲突检测模块对两种类型定义不同的真伪权重，量化输出常识检测结果及冲突项列表。由于常识库可能存在不完备的情况，对于抽取的常识知识在常识库中不存在的情况，进一步进行确认，如果抽取的常识置信度很高，则将其回落到常识知识库中，用于下一次的常识检测。

事实检测模块包含事件句识别、事件要素抽取、事实冲突检测几个过程，能够结合已构建好的领域事件库，对文本的事实符合情况进行检测。分句后的句子集合首先进行事件句识别，事件句识别模块是一个二分类模型，经过大量语料训练后，该模块能够对分句后的文本进行判断，如果包含事件时间、事件地点、事件主体、事件客体、事件触发词等核心要素则视为事件句；然后对事件句进行事件要素抽取，事件要素抽取模块能够抽取事件句中的主体、客体、发生时间、发生地点、触发词等事件要素；领域事件库以存放着大量经证实的高置信度领域事件，每一条领域事件中包含事件时间、事件地点、事件主体、事件客体、事件触发词等要素，是事实检测模块的数据基础，可以随着时间的推移动态增长；事件冲突检测模块能够将事件句中抽取的要素，与领域事件库中存储的高置信度事件进行要素级别的对比检测，发现冲突项，量化输出事件检测结果及冲突项列表。由于事件是随着时间发展而不断推进的一种特殊数据，因此，将高置信度的事件数据入库十分必要。进行事实检测前，首先预设一个置信度阈值，经过检查后，真实度高于置信度阈值的事件句与事件要素一同回落到领域事件库中，用于下一次的事实检测。

内容检测模块包含关键句识别和文本虚假检查几个过程，内容检测模块不需要外部数据库支撑，仅对文本内容进行虚假检测。由于现有人工智能深度学习的虚假检测模型对输入文本字符长度有限制，对一个长文本全文进行虚假辨识并不现实。另一方面，文本中某一条单句并不能代表全文的主旨，对单句进行虚假辨识也不够充分。本发明提出在进行文本虚假辨识前，首先进行关键句识别，关键句识别模块是一个回归模型，在经过大量语料的训练后，该模块能够对分句后的文本进行关键度评估，输出0-1的一个关键度分值；然后基于关键度分值对关键句进行关键度排序，在虚假辨识的最长输入字符长度限制内，将排序靠前的关键句列表及其对应的得分值作为输入，重新组织合适字符长度的文本，送入文本虚假检测模块，文本虚假检测模块是一个二分类模型，在经过大量语料训练后，该模块能够对文本真伪情况进行判断，量化输出内容检测结果及支撑检测结果的高权重词语。

综合辨识模块能够以常识检测结果、事实检测结果、内容检测结果为输入，对待辨识文本的情况进行多维度综合辨识。常识检测结果、事实检测结果、内容检测结果都包含两方面内容，一是区间为[0-1]之间的定量真伪辨识结果，二是可解释性信息。综合辨识模块由综合辨识结果计算模块和可解释性文本生成模块组成。综合辨识结果计算模块对三部分定量真伪辨识结果加权求平均得到区间为[0-1]之间综合定量辨识结果，可解释性文本生成模块可以基于深度学习的文本生成模型，利用三个检测模块输出的可解释性信息，生成可读性强的综合辨识报告。

综合辨识模块经计算，生成综合辨识结论，综合辨识结论由综合定量辨识结果和综合辨识报告组成。

为了便于理解，本发明提供了一个更为具体的实施例：

参见图1，本发明提供了一种多维度文本综合辨识方法的实施例，其包括：

首先以断句标点为依据，将一篇文本分成n句，分句结果用集合S＝{s1,s2,…,sn}表示。

1)常识检测，参见图2所示：

步骤1.1：对S进行常识句识别，识别出m个常识句，m≤n。

步骤2.1：对m个常识句进行常识抽取，识别出k个常识知识，表示为集合C＝{c1,c2,…,ck}，其中ci＝(hi,ri,ti)，hi为常识ci的头实体，ri为常识ci的关系，ti为常识ci的尾实体。

步骤3.1：ci的hi+ri组合分别与常识知识库中的知识头实体+关系组合进行遍历与对比，计算相似度，假设常识库总有p条常识，得到相似度集合SIM1＝{sim1,sim2,…simp}。设置阈值w1，当max(SIM1)<w1时，认为检测常识库中不存在与抽取常识相匹配的常识，将max(SIM1)作为量化常识检测结果输出，同时输出此条常识在库中无匹配的注释；此时进一步人工判断该条常识是否可以采信，如果是则将其回落至常识知识库，以备下次常识检测时使用。否则认为在常识知识库中找到了匹配常识，找到max(SIM1)的索引，将常识库中该条常识三元组，与hi+ri+ti进行相似度计算，得到SIM2，将SIM2作为量化常识检测结果输出。设置阈值w2，当SIM2＜w2时，认为ci与库中常识存在冲突，输出冲突项，否则认为ci与常识库中知识不冲突。

步骤4.1：重复步骤3.1，直到k条常识知识全部遍历完成。

2)事实检测，参见图3所示：

步骤1.2：对S进行事件句识别，识别出q个事件句，记为E＝{e1,e2,…,eq}，q≤n。

步骤2.2：对q个事件句进行事件要素抽取，要素包含事件时间、事件地点、事件主体、事件客体、事件触发词。

步骤3.2：将ei的句子本身和抽取的事件要素一起，拼成一段新的文本，通过BERT模型得到这段文本的嵌入表示，将领域事件库的每一条事件通过统一的方法获得嵌入表示，遍历领域事件库，计算ei与领域事件库中每条事件的相似度，假设领域事件库总有u条事件，得到相似度集合SIME1＝{sime1,sime2,…simeu}，设置阈值we，当max(SIME1)＜we时，认为领域事件库中不存在与ei描述相匹配的事件，将max(SIME1)作为量化事实检测结果输出，同时输出此条事件在库中无匹配的备注；否则认为在领域事件库中找到了匹配事件，找到max(SIME)的索引，获取该条事件的文本描述，将其与ei的文本描述一起进行文本冲突检测，计算ei的事实符合度SIME2，设置阈值wt，当SIME2＜wt时，认为ei与库中事实存在冲突，输出冲突项，否则认为ei与领域事件库中事实不冲突。设置采信阈值wem，当SIME2＞wem时，认为该条事件为高可信度事件，将其回落至领域事件库。

步骤4.2：重复步骤3.2，直到q条事件句全部遍历完成。

3)内容检测

步骤1.3：对S进行关键句识别，识别出n个句字的关键度，记为Im＝{im1,im2,…,imn}。

步骤2.3：对Im进行降序排列。

步骤3.3：设置文本虚假检查最长输入字符长度为len_max。截取按照关键度排序后前u个句子，u个句子字符总数记为char_u，确保char_u≤len_max，char_u+1＜len_max，若char_n≤len_max，则令u＝n。

步骤4.3：将u个重新排序的句子列表组成的新文本，输入BERT模型，进行虚假性检测，输出文本真实与虚假的概率值，同时输出支撑判断结果的高权重句子和词语，作为判断解释性依据。

4)综合辨识

假设常识检测模块输出文本真实概率为P1，常识冲突列表为C1；事实检测模块输出文本真实概率为P2，事实冲突列表为C2；内容检测模块输出文本真实概率为P3，支撑判断结果的高权重句子和词语表示为C3。

步骤1.4：计算综合辨识结果，P＝Wg1×P1+Wg2×P2+Wg3×P3。其中Wg1、Wg2、Wg3分别表示三个检测模型输出值对应的权重，满足

可根据具体业务需求灵活调整不同检测模块权值。

步骤2.4：将C1、C2、C3拼在一起，输入到可解释性文本生成模型中，生成综合辨识报告。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种多维度文本综合辨识方法，其特征在于，包括：

获取待辨识文本，并将其划分为多个分句；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于最大相似度和第一预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识，包括：

将最大相似度与第一预设阈值进行比较；

5.根据权利要求4所述的方法，其特征在于，所述基于相匹配的常识和第二预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识，包括：

将最大相似度值与第二预设阈值进行比较；

6.根据权利要求1所述的方法，其特征在于，所述对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表，包括：

从所述多个分句中抽取所有的事件句，并形成事件句集合；

7.根据权利要求6所述的方法，其特征在于，在计算文本与领域事件库中每个事件句的相似度，并从相似度中选出最大值之前，还包括：

8.根据权利要求6所述的方法，其特征在于，所述基于第一相似度和第四预设阈值，判断文本是否与领域事件库中的事件句相冲突，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述多个分句进行内容检测，得到第三文本真实概率以及支撑判断结果的句子和词语，包括：

对所有关键度按照降序进行排列，得到关键度集合；

10.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率，得到文本综合辨识结果，包括：