CN110674257B

CN110674257B - 评估网络空间中文本信息真实性的方法

Info

Publication number: CN110674257B
Application number: CN201910911775.7A
Authority: CN
Inventors: 李金龙; 吴钰泽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-10-28
Anticipated expiration: 2039-09-25
Also published as: CN110674257A

Abstract

本发明公开了一种评估网络空间中文本信息真实性的方法，包括：对部分带有真实标签且文本信息数量满足要求的文本信息库中的命名实体进行抽取，并结合设计的实体‑关系规则，建立实体‑关系数据库，再计算各实体‑关系得分；结合实体‑关系得分，构建单条文本信息的实体‑关系网络，从而获得每一单条文本信息的表征向量；利用单条文本信息的表征向量构建文本信息的真实性评估网络，从而对待确定真实性的单条文本信息进行真实性评估。

Description

评估网络空间中文本信息真实性的方法

技术领域

本发明涉及计算机、人工智能、自然语言处理技术领域，尤其涉及一种评估网络空间中文本信息真实性的方法。

背景技术

网络空间中的海量文本信息具有碎片化、社会化、即时性等特点，且由于网络空间中信息真假难辨，因此为了能够更好地提取文本信息中的有效内容，需要一种有效评估文本信息真实性的方法。评估文本信息的真实性是为了表示信息为真实的可能性，真实性大则表示该信息为有效信息的可能性越高，这一评估方法的优劣影响了信息处理过程中对海量信息的利用率。对于文本信息的处理与分类，已经有较多的解决方案，例如CN2018104591390提出一种文本的情感分类方法，CN2017113465570提出一种对短信文本根据内容进行分类的方法。

但是，目前对于文本信息中所反映的内容是否为客观真实的评估，目前还没有较为有效的方案。

发明内容

本发明的目的是提供一种评估网络空间中文本信息真实性的方法，可以准确评估文本信息真实性，填补现有技术的空白。

本发明的目的是通过以下技术方案实现的：

一种评估网络空间中文本信息真实性的方法，包括：

对部分带有真实标签且文本信息数量满足要求的文本信息库中的命名实体进行抽取，并结合设计的实体-关系规则，建立实体-关系数据库，再计算各实体-关系得分；

结合实体-关系得分，构建单条文本信息的实体-关系网络，从而获得每一单条文本信息的表征向量；

利用单条文本信息的表征向量构建文本信息的真实性评估网络，从而对待确定真实性的单条文本信息进行真实性评估。

由上述本发明提供的技术方案可以看出，可以抽取文本信息中的实体和实体之间的关系，并对其进行建模成关系网络的形式，在关系网络上运用网络表征学习方法学习文本信息的特征，并准确地评估信息与信息中涉及的实际事件的相关性以及其为真实的可能性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种评估网络空间中文本信息真实性的方法的流程图；

图2为本发明实施例提供的由海量文本信息形成实体-关系库流程图；

图3为本发明实施例提供的神经网络模型的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种评估网络空间中文本信息真实性的方法，如图1所示，其主要包括：

1、对部分带有真实标签且文本信息数量满足要求的文本信息库中的命名实体进行抽取，并结合设计的实体-关系规则，建立实体-关系数据库，再计算各实体-关系得分。

本领域技术人员可以理解，单条文本信息也即文本信息库中任一条单独的文本信息，它是指对于特定事件的发生、发展、结局等变化中事实的描述文本，对于推动与特定事件相关的决策具有至关重要的作用。示例性的，被告人焦某挪用公款360万元用于归还欠款，这条信息描述的事实可以作为有关部门判决被告人是否违法的依据。

所述文本信息数量满足要求是指文本信息数量足够多，从而能够建立丰富的实体-关系数据库，具体的数量要求可以根据实际情况设定。

本步骤主要包括三个部分：抽取命名实体、建立实体-关系数据库、计算实体-关系得分。前两个部分的主要过程如图2所示。各阶段的优选实施方式如下：

1)抽取命名实体。

首先，分词处理：对于文本信息中的每一句话，使用四标记B、O、M、E，为一句话中的每个字进行标记，四标记分别表示相应字是：词语开始的字、单独成词、词语中间的字、词语结束的字；对一句话分词的目标是最大化句子结束的字的分数，对于每一个字的每一种标记的权重，计算方法为寻找路径的最大化；得到结束的字的最大得分后，回溯经过的路径，从而完成一个句子的分词。

示例性的，命名实体可以是人名、地名、机构名等。

以具体示例展示如何为一句话进行分词：假设存在一句话“一二三四五”，可以计算得到每一个字对应四种标记的权重W_iB，W_iO，W_iM，W_iE和对应四种标记的分数S_iB，S_iO，S_iM，S_iE，W_i是一个待训练的权值，S_i指的是第i个字作为B，O，M，E的得分。这一步的目标是通过迭代收敛最终使句子中最后一个字的得分最高，然后可以通过这个式子回溯经过的路径，从而确定整个句子中的每个字是属于B，O，M，E中的哪一种，从而实现分词。

对于每一个字的每一种标记的权重，计算方法为寻找路径的最大化，比如如果需要计算“二”字作为词语开始的字的得分，也就是计算：

S₂B＝max((v(BB)+S₁B)，(v(OB)+S₁O)，(v(MB)+S₁M)，(v(EB)+S₁E))+W₂B)

其中，v(BB)、v(OB)、v(MB)、v(EB)分别表示，以标记B转移为标记B的概率、以标记O转移为标记B的概率、以标记M转移为标记B的概率、以标记E转移为标记B的概率；S₁B、S₂B、S₁O、S₁M、S₁E分别表示，第1个字作为标记B的得分、第2个字作为标记B的得分、第1个字作为标记O的得分、第1个字作为标记M的得分、第1个字作为标记E的得分；W₂B表示第2个字为标记B的权值；

转移概率v和权重W都可以通过训练得到，得到句子中最后一个字“五”的最大得分后，回溯经过的路径，就可以完成句子的分词。

然后，通过引入字典和专家知识，为分词得到的词语标注词性从而识别并抽取出命名实体。

2)建立实体-关系数据库。

本发明实施例中，通过经验规则设计实体-关系规则，利用抽取到的命名实体，在相应文本信息中进行命名实体X→关系→命名实体Y三元组的抽取，这一三元组体现了两个命名实体X与Y的关系，构成一个实体-关系。

再使用以下规则对建立实体-关系数据库：将出现次数超出阈值的实体-关系加入实体-关系数据库、将根据专家意见设定的实体-关系加入实体-关系数据库、以及由已有的实体-关系逻辑复合生成实体-关系加入实体-关系数据库，最终得到实体-关系数据库。

以一个简单的逻辑复合为例，A包含B，B包含C，则A包含C。其中ABC是命名实体，“包含”是两个命名实体之间的关系。例如，液体(A)包含果汁(B)，果汁(B)包含苹果汁(C)，则液体(A)包含苹果汁(C)。

3)计算实体-关系得分。

本发明实施例中，通过不同角度对实体-关系进行评估，并所有评估结果计算实体-关系的最终得分；

计算支持度，支持度是两个命名实体X与Y在文本信息中被同时提及的概率：

式中，N表示文本信息总量，Freq(X∩Y)表示出现了X∩Y的文本信息的数量；

计算置信度，置信度是文本信息中含有命名实体X的条件下同时含有命名实体Y的概率：

式中，Freq(X)表示出现了命名实体X的文本信息的数量；

计算提升度，提升度是含有命名实体X的条件下同时含有命名实体Y的概率，与只有命名实体Y的概率之比，体现两个命名实体X与Y的相关性：

式中，Freq(Y)表示出现了命名实体Y的文本信息的数量；

综合以上评估结果计算两个命名实体X与Y的所构成的实体-关系的最终得分：

Score＝(αSupport*Lift+βConfidence)*100％

其中，α，β是可自由调节的参数。

2、结合实体-关系得分，构建单条文本信息的实体-关系网络，从而获得每一单条文本信息的表征向量。

本步骤分为主要分为两个部分：构建单条文本信息的实体-关系网络、计算表征向量。各部分的优选实施方式如下：

1)构建单条文本信息的实体-关系网络。

首先，对单条文本信息的命名实体进行抽取，并结合设计的实体-关系规则，获得若干实体-关系的合集。具体的可以采用前文步骤1所述的方式。

然后，将其中的命名实体作为网络的节点，命名实体之间的关系作为网络中相应节点的连边，连边的权值则通过将查询实体-关系得分，并使用softmax进行归一化得到。

2)计算表征向量。

使用神经网络模型来计算实体-关系网络表征向量，神经网络模型中步骤t处的状态更新使用以下公式表示：

其中，

表示第t步时节点i的状态，

表示第t-1步时节点i的状态，

表示利用

计算出的中间量，U是神经网络模型中待训练的参数；

表示第t-1步时节点i的邻居节点j的状态，N(i)是节点i的邻居集合，

表示节点i在第t步时的邻居节点的表征向量集合；g为一种非线性激活函数，W和U是待训练的参数，

表示第t步节点i的门结构参数

利用得到的节点的状态获得相应节点的表征向量，最终将所有节点的表征向量求均值，从而得到表示单条文本信息的网络的表征向量。

示例性的，可以第t步时图中各节点i的状态

乘以一个待训练的参数v得到节点i的表征向量：

神经网络模型结构如图3所示。图3左侧表示例的“实体-关系”网络结构，右侧代表形成的神经网络模型，神经网络模型中每一行三个神经网络单元视为一个“行结构”，每一行结构与上一行的连接方式与原网络结构的连边一一对应，节点默认视为与自身存在一条连边。值得注意的是，神经网络模型的规模可根据实际情况来调整，图3所示规模仅为示例，并非构成限制。

3、利用单条文本信息的表征向量构建文本信息的真实性评估网络，从而对待确定真实性的单条文本信息进行真实性评估。

本步骤分为主要分为两个部分：构建文本信息的真实性评估网络、真实性评估。各部分的优选实施方式如下：

1)构建文本信息的真实性评估网络。

生成两个节点，记为节点真和节点假，并取出文本信息库中带有真实标签的文本信息；

将所有标记为真的文本信息与节点真连接，将所有标记为假的文本信息节点与节点假连接，得到真实性评估网络拓扑结构；

之后，计算节点真和节点假各自邻居的表征向量的均值，各自作为这两个节点本身的表征向量；其中，节点真邻居的表征向量也即各个标记为真的文本信息网络的表征向量；节点假邻居的表征向量也即各个标记为假的文本信息网络的表征向量；这些表征向量都可通过上一步骤计算得到。

示例性的，以节点真为例，假设它连接了10个标记为真的文本信息，则将10个文本信息的表征向量(通过前述步骤2得到)的均值作为节点真的表征向量。

2)真实性评估。

计算待确定真实性的单条文本信息的表征向量，具体的可以采用前述步骤1～2中的方式来计算。

分别计算待确定真实性的单条文本信息的表征向量与节点真和节点假表征向量的欧氏距离，计算结果记为D_真与D_假；

利用欧氏距离计算结果计算真实性评估得分：P_真＝D_真/(D_真+D_假)。

另一方面，计算得到真实性之后，使待确定真实性的单条文本信息分别与节点真和节点假连边，连边权值分别为P_真和(1-P_真)，并更新节点真和节点假的表征向量。同时，还将计算到的真实性评估得分作为相应单条文本信息的标签，更新实体关系库。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种评估网络空间中文本信息真实性的方法，其特征在于，包括：

2.根据权利要求1所述的一种评估网络空间中文本信息真实性的方法，其特征在于，对部分带有真实标签且文本信息数量满足要求的文本信息库中的命名实体进行抽取的方式包括：

分词处理：对于文本信息中的每一句话，使用四标记B、O、M、E，为一句话中的每个字进行标记，四标记分别表示相应字是：词语开始的字、单独成词、词语中间的字、词语结束的字；对一句话分词的目标是最大化句子中最后一个字的分数，对于每一个字的每一种标记的权重，计算方法为寻找路径的最大化；得到结束的字的最大得分后，回溯经过的路径，从而完成一个句子的分词；

通过引入字典和专家知识，为分词得到的词语标注词性从而识别并抽取出命名实体。

3.根据权利要求1所述的一种评估网络空间中文本信息真实性的方法，其特征在于，建立实体-关系数据库的方式包括：

通过经验规则设计实体-关系规则，利用抽取到的命名实体，在相应文本信息中进行命名实体X→关系→命名实体Y三元组的抽取，这一三元组体现了两个命名实体X与Y的关系，构成一个实体-关系；

再使用以下规则建立实体-关系数据库：将出现次数超出阈值的实体-关系加入实体-关系数据库、将根据专家意见设定的实体-关系加入实体-关系数据库、以及由已有的实体-关系逻辑复合生成实体-关系加入实体-关系数据库库，最终得到实体-关系数据库。

4.根据权利要求1或2或3所述的一种评估网络空间中文本信息真实性的方法，其特征在于，计算各实体-关系得分的方式包括：

通过不同角度对实体-关系进行评估，并所有评估结果计算实体-关系的最终得分；