CN111897970B

CN111897970B - 基于知识图谱的文本比对方法、装置、设备及存储介质

Info

Publication number: CN111897970B
Application number: CN202010734571.3A
Authority: CN
Inventors: 朱昱锦; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2024-05-10
Anticipated expiration: 2040-07-27
Also published as: WO2022022045A1; CN111897970A

Abstract

本发明涉及一种大数据技术，揭露一种基于知识图谱的文本比对方法包括：获取训练文本，并识别训练文本中的目标实体和目标关系，然后将目标实体作为节点，目标关系作为边，生成图谱，并将图谱作为初始图谱；通过对初始图谱的目标实体和目标关系进行标注，并根据标注的目标实体和目标关系对初始图谱的节点进行聚类,得到目标图谱；获取待对比文本，并将待对比文本输入到目标图谱中，统计每篇待对比文本抽取的实体与关系对目标图谱中的核心信息的覆盖率；若覆盖率超过预设阈值，则判断待对比文本为同类文本。本发明还涉及区块链技术，待对比文本存储于区块链中。本申请通过图谱对比的形式，提高了文本比对精确度和效率。

Description

基于知识图谱的文本比对方法、装置、设备及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及基于知识图谱的文本比对方法、装置、设备及存储介质。

背景技术

文本内容对比技术在垂直领域与通用领域均有广泛应用。例如在保险、银行、投资等涉及进件审核或风险监控的金融文本处理场景，需要通过比对多份资料、检查不同资料提供的信息是否存在矛盾点来达到审核目的。

现有文本比对技术是利用自动摘要生成技术，将文本拆分，再为拆分的各段生成摘要，最后比较两篇文章的摘要,用以判断两篇文章的主要内容所表达的意思是否一致，进而判断两篇文章是否属于同类文本。这种方法会对文本内容进行语义提取，有利于实现对文本的精炼，提高文本要素对比的效率，但是，在文本精炼的过程中，不可避免遗失一些有用的文本信息，导致对比结果出现偏差。现亟需一种能够提高文本比对的精确度的方法。

发明内容

本申请实施例的目的在于提出一种基于知识图谱的文本比对方法，以提高文本比对的精确度。

为了解决上述技术问题，本申请实施例提供一种基于知识图谱的文本比对方法，包括：

采集预设领域的训练语料，并对所述训练语料进行文本预处理，得到训练文本；

对所述训练文本进行词性标注，并根据依存句法分析的方式，抽取出所述训练文本中的实体，作为目标实体；

通过训练好的关系抽取模型，结合所述训练文本，对任意两个相邻目标实体间的关系进行抽取，判断任意两个目标实体间的关联关系，将存在关联关系的任意两个目标实体作为关联实体,将所述关联实体对应的关联关系,作为目标关系；

以所述目标实体作为节点，以所述目标关系作为边，构建生成初始图谱；

对所述初始图谱的目标实体和目标关系进行标注，将所述标注的目标实体和目标关系作为核心信息，并根据所述核心信息对所述初始图谱的节点进行聚类,得到目标图谱；

获取待对比文本，并将所述待对比文本输入到所述目标图谱中，统计每篇所述待对比文本抽取的实体与关系对所述目标图谱中的核心信息的覆盖率；

若所述覆盖率超过预设阈值，则确定所述待对比文本为同类文本。

进一步的，所述对所述训练文本进行词性标注，并根据依存句法分析的方式，抽取出所述训练文本中的实体，作为目标实体包括：

采用正则匹配的方式，获取所述训练文本中包含的文本分隔符；

通过所述文本分隔符对所述训练文本进行文本分割，得到文本短句；

通过词性标注的方式，将所述文本短句中的名词和代词进行标注，得到标注的名词和代词；

根据依存句法分析的方式，将所述标注的名词和代词对应到一致性规则下，将符合所述一致性规则的所述标注的名词作为初始实体。

进一步的，在所述根据依存句法分析的方式，将所述标注的名词和代词对应到一致性规则下，将符合所述一致性规则的所述标注的名词作为初始实体之后，所述方法还包括：

通过统计文本短句中初始实体的凝聚度，判断两个或两个以上的所述初始实体是否构成复合词，得到判断结果；

若判断结果为构成复合词，则将构成复合词的初始实体进行合并，得到合并实体，并将所述合并实体作为目标实体。

进一步的，在通过训练好的关系抽取模型，结合所述训练文本，对任意两个相邻目标实体间的关系进行抽取，判断任意两个目标实体间的关联关系，将存在关联关系的任意两个目标实体作为关联实体,将所述关联实体对应的关联关系,作为目标关系之前，所述方法还包括：

获取样本文本，并对所述样本文本进行词嵌入和位置嵌入，生成嵌入向量：

将所述样本文本的上下文分为三段文本，获取所述三段文本的嵌入向量，作为特征向量；

将同一类型的特征向量进行拼接，得到目标向量；

获取所述目标向量的权重，并根据所述目标向量和所述目标向量的权重对关系抽取模型进行训练，得到所述训练好的关系抽取模型。

进一步的，在所述以所述目标实体作为节点，以所述目标关系作为边，构建生成初始图谱之前，所述方法还包括：

分别对所述目标实体和所述目标关系进行聚类操作，并分别将相同含义的目标实体和相同含义的目标关系进行合并。

进一步的，所述对所述初始图谱的目标实体和目标关系进行标注，将所述标注的目标实体和目标关系作为核心信息，并根据所述核心信息对所述初始图谱的节点进行聚类,得到目标图谱包括：

获取标注的目标实体和未标注的目标实体在所述训练文本的文本信息，得到标注的文本信息和未标注的文本信息；

将所述标注的文本信息和未标注的文本信息代入BERT模型中进行向量获取，得到标注向量和未标注向量；

统计每个所述未标注向量与所述标注向量的相似度值；

若所述相似度值超过预设阈值，则将所述未标注向量对应的初始图谱中的未标注的目标实体和目标关系删除，得到所述目标图谱。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于知识图谱的文本比对装置，包括：

训练文本获取模块，用于采集预设领域的训练语料，并对所述训练语料进行文本预处理，得到训练文本；

目标实体获取模块，用于对所述训练文本进行词性标注，并根据依存句法分析的方式，抽取出所述训练文本中的实体，作为目标实体；

目标关系获取模块，用于通过训练好的关系抽取模型，结合所述训练文本，对任意两个相邻目标实体间的关系进行抽取，判断任意两个目标实体间的关联关系，将存在关联关系的任意两个目标实体作为关联实体,将所述关联实体对应的关联关系,作为目标关系；

初始图谱构建模块，用于以所述目标实体作为节点，以所述目标关系作为边，构建生成初始图谱；

目标图谱构建模块，用于对所述初始图谱的目标实体和目标关系进行标注，将所述标注的目标实体和目标关系作为核心信息，并根据所述核心信息对所述初始图谱的节点进行聚类,得到目标图谱；

核心信息对比模块，用于获取待对比文本，并将所述待对比文本输入到所述目标图谱中，统计每篇所述待对比文本抽取的实体与关系对所述目标图谱中的核心信息的覆盖率；

同一文本判断模块，用于若所述覆盖率超过预设阈值，则确定所述待对比文本为同类文本。进一步的，所述目标实体获取模块包括：

文本分隔符获取单元，用于采用正则匹配的方式，获取所述训练文本中包含的文本分隔符；

文本短句获取单元，用于通过所述文本分隔符对所述训练文本进行文本分割，得到文本短句；

词性标注标注单元，用于通过词性标注的方式，将所述文本短句中的名词和代词进行标注，得到标注的名词和代词；

初始实体确定单元，用于根据依存句法分析的方式，将所述标注的名词和代词对应到一致性规则下，将符合所述一致性规则的所述标注的名词作为初始实体。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算机设备，包括，一个或多个处理器；存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述任意一项所述的基于知识图谱的文本比对方案。

为解决上述技术问题，本发明采用的一个技术方案是：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于知识图谱的文本比对方案。

以上方案中的一种基于知识图谱的文本比对方法，通过从文本中抽取实体和实体间关系构建成图谱的形式，进而对比图谱来识别文本的相似度，实现对比较对象的精炼，避免原文本中的干扰项，不受文本格式的影响，提高了文本比对的精确度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于知识图谱的文本比对方法的应用环境示意图；

图2根据本申请实施例提供的基于知识图谱的文本比对方法的一实现流程图；

图3是本申请实施例提供的基于知识图谱的文本比对方法中步骤S2的一实现流程图；

图4是本申请实施例提供的基于知识图谱的文本比对方法中步骤S24之后的一实现流程图；

图5是本申请实施例提供的基于知识图谱的文本比对方法中步骤S3的一实现流程图；

图6是本申请实施例提供的基于知识图谱的文本比对方法中步骤S5的一实现流程图；

图7是本申请实施例提供的基于知识图谱的文本比对装置示意图；

图8是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的一种基于知识图谱的文本比对方法一般由服务器执行，相应地，一种基于知识图谱的文本比对装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参阅图2，图2示出了基于知识图谱的文本比对方法的一种具体实施方式。

需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限，该方法包括如下步骤：

S1：采集预设领域的训练语料，并对训练语料进行文本预处理，得到训练文本。

具体的，文本预处理包括对文本进行数据清理等，使得文本数据保持一致性。

其中，预设领域的训练语料根据实际需要的对比的文本进行选取，此处不做限定。训练语料是指用来培养、训练的中文句对或题库；预设领域的训练语料是指根据需要该领域的中文句对或者题库，将该领域的中文句对或者题库作为预设领域的训练语料。例如，需要对某工程项目的文本进行对比，则预设领域的训练语料为该工程项目的文本。

S2：对训练文本进行词性标注，并根据依存句法分析的方式，抽取出训练文本中的实体，作为目标实体。

具体的，通过对训练文本进行词性标注，获取训练文本中的名词和代词，并根据依存句法分析的方式，抽取出训练文本中的实体，将其作为目标实体。

进一步的，通过对训练文本词性标注、并依存句法分析的方式，使用pyltp与hanlp开源库，将训练文本中的名词和代词提取出来。

其中，Pyltp与Hanlp分别是哈工大与Hankcs发布的基础自然语言处理库，用于词性标注和实体抽取。实现步骤：1.训练文本的文章分片段：按断句标点符号进行断句。设置片段长度；2.调用Pyltp与Hanlp这两个库中的词性标注(POS)与依存句法分析(DP)模块对训练文本进行词性标注和实体抽取，词性标注和实体抽取的结果以json形式返回解析结果。

需要说明的是，对于词性标注，只保留词性标注标签中含有n的词，即各种类的名词，例如n＝一般名词，ni＝组织机构词，nl＝地点词，ns＝地理位置词，nt＝时间词，以及p，即代词。标注方式举例：我吃苹果＝(我,p)、(苹果,n)。依存句法分析，使用主-谓-宾(SBV)关系，会在训练文本中的句子中对应单词上作标注，例如“我吃苹果”标注为(我，Subject)、(吃，Predict)、(苹果，Object)，将提取到的名词对应到主语和宾语成分上，将在句子里不满足这两个成分的名词删除。

需要说明的是，同时用pyltp和hanlp，是为了避免一个库识别不全的情况，两者结果能够提高实体的识别和抽取精度。

其中，依存句法分析是由法国语言学家L.Tesniere最先提出。它将句子分析成一棵依存句法树，描述出各个词语之间的依存关系，也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。在本发明中，通过依存句法分析的方式，抽取出训练文本中的实体。

S3：通过训练好的关系抽取模型，结合训练文本，对任意两个相邻目标实体间的关系进行抽取，判断任意两个目标实体间的关联关系，将存在关联关系的任意两个目标实体作为关联实体,将关联实体对应的关联关系,作为目标关系。

具体的，将目标实体和关系转化为(实体A，关系，实体B)三元组；然后将“关系”改为0与1，其中1表示两个目标实体存在关联关系，0表示两个目标实体不存在关联关系，最后输出每两个目标实体间的关联关系。其中，不存在关联关系实体是随机从训练文本的句中名词里抽选出来的。

其中，每两个目标实体间的关系包括每两个目标实体存在关联关系和不存在关联关系。

其中，目标关系为两个实体间存在关联关系，该关联关系是指在文本中两个实体之间相互作用、相互影响的状态。

具体的，关系抽取模型包括Embedding、Encoding、Selector与Classifier四部分。其中，(1)Embedding将输入的训练文本进行词嵌入与位置嵌入，生成向量，该向量作为整个模型的输入；(2)Encoding层由Piecewise-CNN(PCNN)构成，训练文本的上下文输入时被当前两个目标实体分为三段，PCNN获取三段文本提取到的特征向量，再拼接起来；(3)Selector为注意力层，通过赋予特征向量不同的权重，以后续对关系抽取模型进行训练；(4)Classifier则为普通多分类层，输出两个输入的目标实体彼此具有关系的可能性。最后通过二分类标注数据(有/无关系)，对模型进行训练，输出每两个目标实体的关系。

S4:以目标实体作为节点，以目标关系作为边，构建生成初始图谱。

具体的，通过将训练文本中的实体和实体间的关系，按照目标实体为节点，目标关系为边，生成初始图谱，便于后续将待对比的文本通过图谱的对比方式进行比较，提高文本对比的精度和识别效率。

S5：对初始图谱的目标实体和目标关系进行标注，将标注的目标实体和目标关系作为核心信息，并根据核心信息对初始图谱的节点进行聚类,得到目标图谱。

具体的，通过对初始图谱中的目标实体和目标关系进行标注，并根据标注的目标实体和目标关系对初始图谱的节点进行聚类，减少初始图谱的冗余目标实体和目标关系,最终得到目标图谱。

其中，针对初始图谱的目标实体和目标关系，所采用的标注方式为一致性的标注方式。一致性的标注方式为根据统一的规则或者手段进行对图谱的实体和实体间关系标注的方式。一致性的标注方式包括但不限于：根据历史数据和经验的标注方式、随机选择标注的方式等。优选的，根据历史数据和经验的标注方式进行标注，通过该标注方式实现以往数据和经验选择最佳的实体和实体间关系进行标注，有利于提高图谱对实体和实体间关系的准确度。

需要说明的是，需要进行约五次的标注，每一个标注，都需要进行聚类，最终得到目标图谱。

S6：获取待对比文本，并将待对比文本输入到目标图谱中，统计每篇待对比文本抽取的实体与关系对目标图谱中的核心信息的覆盖率。

具体的，通过获取待对比文本，将待对比文本依次输入到目标图谱中，并统计每篇待对比文本抽取的实体与关系对目标图谱中的核心信息的覆盖率，用以后续步骤判断该待对比文本与训练的文本是否为同类文本。

其中，覆盖率为待对比文本抽取的实体与关系与核心信息的节点和边重合的比例。

需要说明的是，输入的待对比文本会通过上述步骤进行实体和实体间关系抽取。

S7：若覆盖率超过预设阈值，则确定待对比文本为同类文本。

其中，预设阈值根据实际情况设定，此处不做限定。提供一较佳的预设阈值为75％，在该阈值下，能够清楚对比文本间的内容相差不大。

其中，通过判断两本或者两本以上的文本的主要内容所表达的意思是否一致，若一致，则该两本或者两本以上的文本为同类文本。

本实施例中，通过从文本中抽取实体和实体间关系构建成图谱的形式，进而对比图谱来识别文本的相似度，实现对比较对象的精炼，避免原文本中的干扰项，不受文本格式的影响，提高了文本比对的精确度。

请参阅图3，图3示出了步骤S2的一种具体实施方式，步骤S2中，对训练文本进行词性标注，并根据依存句法分析的方式，抽取出训练文本中的实体，作为目标实体的具体实现过程，详叙如下：

S21：采用正则匹配的方式，获取训练文本中包含的文本分隔符。

具体的，通过获取训练文本中包含的文本分隔符，用于后续步骤对文本进行分割。

可选地，文本分隔符包括格式分隔符和标点分隔符。

其中，格式分隔符指根据文本编码类型或文本的结构进行分割的分隔符。通过格式分隔符有实现根据文本的编码类型或文本的结构，将训练文本进行分隔，获取得到相同编码类型或结构文本短句，有利于后续获取目标实体。

其中，标点分隔符指根据标点符号将文本进行分割的分隔符。通过标点分隔符，实现快速将训练文本进行分割，提高获取文本短句的效率。

S22：通过文本分隔符对训练文本进行文本分割，得到文本短句。

优选的，按照预设长度将文本断句拼接成长的文本短句；在后续步骤中可以根据长的为文本短句进行词性标注和实体抽取，以提高提高文本词性标注和实体抽取的效率。预设长度根据实际长度进行设置，此处不做限定。提供一较佳的预设长度为300字，由1-5个断句后的片段拼接成一个长的文本短句。

S23：通过词性标注的方式，将文本短句中的名词和代词进行标注，得到标注的名词和代词。

需要说明的是，只需要对文本短句中的名词和代词进行标注，其他的词不需要词性标注，避免对所有词性进行标注，提高词性标注的效率。

S24：根据依存句法分析的方式，将标注的名词和代词对应到一致性规则下，将符合一致性规则的标注的名词作为初始实体。

其中，一致性规则为使用主-谓-宾(SBV)关系，通过对应单词上作标注。例如“我吃苹果”标注为(我，Subject)、(吃，Predict)、(苹果，Object)，将提取到的名词对应到主语和宾语成分上，在句子里不满足这两个成分的名词则去删除。

本实施例中，采用正则匹配的方式，获取训练文本中包含的文本分隔，并通过文本分隔符对训练文本进行文本分割，得到文本短句，根据词性标注的方式，将文本短句中的名词和代词进行标注，得到标注的名词和代词，并根据依存句法分析的方式，将标注的名词和代词对应到一致性规则下，将符合一致性规则的标注的名词作为初始实体，实现对训练文本进行词性标注和实体的抽取，为后续构建图谱提供基础，有利于提高文本对比的精确度。

请参阅图4，图4示出了步骤S24之后的一种具体实施方式，包括：

S25：通过统计文本短句中初始实体的凝聚度，判断两个或两个以上的初始实体是否构成复合词，得到判断结果。

具体的，通过tf-idf和共现分析的方式，统计文本短句中初始实体的凝聚程度。

其中，tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。共词分析法利用文献集中词汇对名词短语共同出现的情况，来确定该文献集所代表学科中个主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多，则代表这两个主题的关系越紧密。由此，统计一组文献的主题词两两之间在同一篇文献出现的频率，便可形成一个由这些词对关联所组成的共词网络，网络内节点之间的远近便可反映主题内容的亲疏关系。在本发明中，利用tf-idf和共现分析的方式统计初始实体的凝聚度，进而判断两个或两个以上的初始实体是否构成复合词。

其中，凝聚度指多个单词构成当前短语切片(即复合词)的可能性。通过统计初始实体的凝聚度，判断两个或两个以上的初始实体是否构成复合词。例如，设有一个文本短句为ABC，首先用ABC的频率分别除以A的频率，B的频率，C的频率，AB频率，BC的频率和AC的频率，将这些得到的结果中最小的值作为复合词。

S26：若判断结果为构成复合词，则将构成复合词的初始实体进行合并，得到合并实体，并将合并实体作为目标实体。

具体的，通过判断两个或者两个以上的初始实体是否构成复合词，进一步实现对目标实体的确定。

其中，合并实体为两个或两个以上的初始实体构成复合词，并将其进行合并得到的实体。

进一步的，初始实体包括能够构成复合词和不构成复合词的实体；能够构成复合词的初始实体进行合并作为目标实体，而不构成复合词的实体也单独作为目标实体。

本实施例中，通过统计文本短句中初始实体的凝聚度，判断两个或两个以上的初始实体是否构成复合词，得到判断结果，若判断结果为构成复合词，则将构成复合词的初始实体进行合并，得到合并实体，并将合并实体作为目标实体，实现对目标实体的确定，为后续构建图谱提供基础，有利于提高文本对比的精确度。

请参阅图5，图5示出了步骤S3之前的一种具体实施方式，包括：

S31：获取样本文本，并对样本文本进行词嵌入和位置嵌入，生成嵌入向量。

具体的，通过生成嵌入向量，将其作为关系抽取模型的输入，以便后续对后续进行的数值运算。

其中，样本文本是用来训练关系抽取模型，得到训练好的关系抽取模型，便于后续进行实体关系的抽取。

其中，词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。位置嵌入相对于词嵌入，是通过对样本文本不同的位置进行嵌入。

S32：将样本文本的上下文分为三段文本，获取三段文本的嵌入向量，作为特征向量。

具体的，先获取样本文本中的实体，在样本文本输入上下文时，通过上下文的两个实体，将上下文分为三段，获取三段文本的嵌入向量，作为特征向量。

其中，特征向量为神经网络隐藏层输出向量hidden layer state vector，其作为关系抽取模型的中间结果，用于后续步骤的数值操作。

S33：将同一类型的特征向量进行拼接，得到目标向量。

具体的，将同一类型的特征向量进行拼接，组成一个特征向量集合，即目标向量，在后续步骤中，不同的类型的特征向量集合，拥有不同权重。

S34：获取目标向量的权重，并根据目标向量和目标向量的权重对关系抽取模型进行训练，得到训练好的关系抽取模型。

其中，选用Selector作为关系抽取的注意力层。选用Selector的原因为关系抽取模型使用的训练数据往往来源于远程监督技术，这导致数据噪音较大，为了克服单个样本的错误，常见方法是把多个被远程监督标注为同一类型的样本合起来放入一个词袋bag中，在当前训练批次同时训练整个词袋bag，再通过对比选择每个词袋bag中被判断正确的样本。而Selector可以在同一个词袋bag中的不同样本分配不同权重，本质是一种加权，所以选用Selector。

本关系抽取模型中，权重是计算预测当前样本为真的概率与正确概率的差值获得的。通过对目标向量的不同类型加不同权重，能提升关系抽取模型识别准确率。

本实施例中，通过获取样本文本，并对样本文本进行词嵌入和位置嵌入，生成嵌入向量，并将样本文本的上下文分为三段文本，获取三段文本的嵌入向量，作为特征向量，将同一类型的特征向量进行拼接，得到目标向量，最后获取目标向量的权重，并根据目标向量和目标向量的权重对关系抽取模型进行训练，得到训练好的关系抽取模型，实现对目标抽取模型的训练，用以输出训练文件中实体间的关系，以构建图谱，有利于提高文本对比的精确度。

进一步的，在步骤S4之前，该基于知识图谱的文本比对方法还包括：

分别对目标实体和目标关系进行聚类操作，并分别将相同含义的目标实体和相同含义的目标关系进行合并。

具体的，将从训练文本中提取出的目标实体和目标关系消歧与去重。因为可能存在同一个实体在不同文本中表述方式完全不同，或是同一种关系连接的实体表述方式不同，从而造成实体/关系冗余。为消除歧义并去重，使用python开源库dedupe来完成。将提取到的实体与关系以(实体A，关系，实体B)的三元组形式全部代入该工具，dedupe通过聚类操作，将相同含义的实体或关系合并起来。

其中，聚类操作为通过聚合重复项选取相应的目标实体和目标关系，通过相似度值的计算，选取最优的阈值，最终得到相同含义的目标实体和目标关系。

其中，Dedupe是一个python开源库，用于知识融合。其处理流程包括实体/关系描述相似度计算(record similarity)、智能匹配(smart comparisons)、聚合重复项(Grouping Duplicates)、选择最优阈值(Choosing a Good Threshold)几个主要步骤。其中相似度计算和智能匹配使用的是主动学习结合规则匹配的方法，聚合重复项使用中心链指层级聚类法(hierarchical clustering with centroid linkage)，最后将这三个模块放入主动学习(active learning)框架进行学习，通过少量的标注，dedupe根据标注来确定最优阈值。

本实施例中，通过分别对目标实体和目标关系进行聚类操作，并分别将相同含义的目标实体和相同含义的目标关系进行合并，减少冗余的目标实体和/或目标关系，提高后续构建图谱的效率，有利于提高文本对比的精确度。

请参阅图6，图6示出了步骤S5的一种具体实施方式，步骤S5中对初始图谱的目标实体和目标关系进行标注，将标注的目标实体和目标关系作为核心信息，并根据核心信息对初始图谱的节点进行聚类,得到目标图谱的具体实现过程，详叙如下

S51：获取标注的目标实体和未标注的目标实体在训练文本的文本信息，得到标注的文本信息和未标注的文本信息。

具体的，通过对初始图谱的目标实体和目标关系进行标注，并获取标注的目标实体和未标注的目标实体在训练文本的文本信息，得到标注的文本信息和未标注的文本信息。

S52：将标注的文本信息和未标注的文本信息代入BERT模型中进行向量获取，得到标注向量和未标注向量。

其中，标注向量为标注的文本信息代入BERT模型中进行向量获取而得到的，未标注向量为未标注的文本信息代入BERT模型中进行向量获取而得到的。

S53：统计每个未标注向量与标注向量的相似度值。

其中，相似度值的计算包括但不限于：闵可夫斯基距离(Minkowski Distance)、曼哈顿距离(Manhattan Distance)、欧氏距离(Euclidean Distance)、余弦相似度、汉明距离等。

S54：若相似度值超过预设阈值，则将未标注向量对应的初始图谱中的未标注的目标实体和目标关系删除，得到目标图谱。

其中，预设阈值根据实际情况进行设定，此处不做限定。

本实施例中，通过获取标注的目标实体和未标注的目标实体在训练文本的文本信息，得到标注的文本信息和未标注的文本信息，并将标注的文本信息和未标注的文本信息代入BERT模型中进行向量获取，得到标注向量和未标注向量，然后统计每个未标注向量与标注向量的相似度值，若相似度值超过预设阈值，则将未标注向量对应的初始图谱中的未标注的目标实体和目标关系删除，得到目标图谱，实现目标图谱的构建，有利于将待对比文本进行对比，提高文本对比的精确度。

需要强调的是，为进一步保证上述待对比文本的私密和安全性，上述待对比文本还可以存储于一区块链的节点中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

请参考图7，作为对上述图2所示方法的实现，本申请提供了一种基于知识图谱的文本比对装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的基于知识图谱的文本比对装置包括：训练文本获取模块71、目标实体获取模块72、目标关系获取模块73、初始图谱构建模块74、目标图谱构建模块75、核心信息对比模块76及同一文本判断模块77，其中：

训练文本获取模块71，用于采集预设领域的训练语料，并对训练语料进行文本预处理，得到训练文本；

目标实体获取模块72，用于对训练文本进行词性标注，并根据依存句法分析的方式，抽取出训练文本中的实体，作为目标实体；

目标关系获取模块73，用于通过训练好的关系抽取模型，结合训练文本，对任意两个相邻目标实体间的关系进行抽取，判断任意两个目标实体间的关联关系，将存在关联关系的任意两个目标实体作为关联实体,将关联实体对应的关联关系,作为目标关系；

初始图谱构建模块74，用于判断任意两个目标实体间的关联关系，将存在关联关系的任意两个目标实体作为关联实体,将关联实体对应的关联关系,作为目标关系；

目标图谱构建模块75，用于对初始图谱的目标实体和目标关系进行标注，将标注的目标实体和目标关系作为核心信息，并根据核心信息对初始图谱的节点进行聚类,得到目标图谱；

核心信息对比模块76，用于获取待对比文本，并将待对比文本输入到目标图谱中，统计每篇待对比文本抽取的实体与关系对目标图谱中的核心信息的覆盖率；

同一文本判断模块77，用于若覆盖率超过预设阈值，则确定待对比文本为同类文本。

进一步的，目标实体获取模块72包括：

文本分隔符获取单元，用于采用正则匹配的方式，获取训练文本中包含的文本分隔符；

文本短句获取单元，用于通过文本分隔符对训练文本进行文本分割，得到文本短句；

词性标注标注单元，用于通过词性标注的方式，将文本短句中的名词和代词进行标注，得到标注的名词和代词；

初始实体确定单元，用于根据依存句法分析的方式，将标注的名词和代词对应到一致性规则下，将符合一致性规则的标注的名词作为初始实体。

进一步的，在初始实体确定单元之后，该目标实体获取模块72还包括：

凝聚度统计单元，用于通过统计文本短句中初始实体的凝聚度，判断两个或两个以上的初始实体是否构成复合词，得到判断结果；

复合词判断单元，用于若判断结果为构成复合词，则将构成复合词的初始实体进行合并，得到合并实体，并将合并实体作为目标实体。

进一步的，在目标关系获取模块73之前，上述基于知识图谱的文本比对装置还包括：

样本文本获取模块，用于获取样本文本，并对样本文本进行词嵌入和位置嵌入，生成嵌入向量：

特征向量获取模块，用于将样本文本的上下文分为三段文本，获取三段文本的嵌入向量，作为特征向量；

目标向量获取模块，用于将同一类型的特征向量进行拼接，得到目标向量；

目标抽取模型训练模块，用于获取目标向量的权重，并根据目标向量和目标向量的权重对关系抽取模型进行训练，得到训练好的关系抽取模型。

进一步的，在初始图谱构建模块74之前，上述基于知识图谱的文本比对装置还包括：

聚类操作模块，用于分别对目标实体和目标关系进行聚类操作，并分别将相同含义的目标实体和相同含义的目标关系进行合并。

进一步的，目标图谱构建模块75包括：

文本信息获取单元，用于获取标注的目标实体和未标注的目标实体在训练文本的文本信息，得到标注的文本信息和未标注的文本信息；

向量获取单元，用于将标注的文本信息和未标注的文本信息代入BERT模型中进行向量获取，得到标注向量和未标注向量；

相似度值统计单元，用于统计每个未标注向量与标注向量的相似度值；

相似度值判断单元，用于若相似度值超过预设阈值，则将未标注向量对应的初始图谱中的未标注的目标实体和目标关系删除，得到目标图谱。

需要强调的是，为进一步保证上述目标数据的私密和安全性，上述目标数据还可以存储于一区块链的节点中。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是，图中仅示出了具有三种组件存储器81、处理器82、网络接口83的计算机设备8，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器81至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器81可以是计算机设备8的内部存储单元，例如该计算机设备8的硬盘或内存。在另一些实施例中，存储器81也可以是计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器81还可以既包括计算机设备8的内部存储单元也包括其外部存储设备。本实施例中，存储器81通常用于存储安装于计算机设备8的操作系统和各类应用软件，例如基于知识图谱的文本比对方法的程序代码等。此外，存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备8的总体操作。本实施例中，处理器82用于运行存储器81中存储的程序代码或者处理数据，例如运行一种基于知识图谱的文本比对方法的程序代码。

网络接口83可包括无线网络接口或有线网络接口，该网络接口83通常用于在计算机设备8与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有服务器维护程序，服务器维护程序可被至少一个处理器执行，以使至少一个处理器执行如上述的一种基于知识图谱的文本比对方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于知识图谱的文本比对方法，其特征在于，包括：

获取待对比文本，并将所述待对比文本输入到所述目标图谱中，统计每篇所述待对比文本抽取的实体与关系对所述目标图谱中的核心信息的覆盖率，所述覆盖率为待对比文本抽取的实体与关系与核心信息的节点和边重合的比例；

若所述覆盖率超过预设阈值，则确定所述待对比文本为同类文本；

所述对所述初始图谱的目标实体和目标关系进行标注，将所述标注的目标实体和目标关系作为核心信息，并根据所述核心信息对所述初始图谱的节点进行聚类,得到目标图谱包括：

统计每个所述未标注向量与所述标注向量的相似度值；

若所述相似度值超过预设阈值，则将所述未标注向量对应的初始图谱中的未标注的目标实体和目标关系删除，得到所述目标图谱；

所述对所述训练文本进行词性标注，并根据依存句法分析的方式，抽取出所述训练文本中的实体，作为目标实体包括：

根据依存句法分析的方式，将所述标注的名词和代词对应到一致性规则下，将符合所述一致性规则的所述标注的名词作为初始实体；

在所述根据依存句法分析的方式，将所述标注的名词和代词对应到一致性规则下，将符合所述一致性规则的所述标注的名词作为初始实体之后，所述方法还包括：

通过统计文本短句中初始实体的凝聚度，判断两个或两个以上的所述初始实体是否构成复合词，得到判断结果，所述凝聚度是指多个单词构成所述复合词的可能性；

2.根据权利要求1所述的基于知识图谱的文本比对方法，其特征在于，在通过训练好的关系抽取模型，结合所述训练文本，对任意两个相邻目标实体间的关系进行抽取，判断任意两个目标实体间的关联关系，将存在关联关系的任意两个目标实体作为关联实体,将所述关联实体对应的关联关系,作为目标关系之前，所述方法还包括：

将同一类型的特征向量进行拼接，得到目标向量；

3.根据权利要求1所述的基于知识图谱的文本比对方法，其特征在于，在所述以所述目标实体作为节点，以所述目标关系作为边，构建生成初始图谱之前，所述方法还包括：

4.一种基于知识图谱的文本比对装置，其特征在于，包括：

核心信息对比模块，用于获取待对比文本，并将所述待对比文本输入到所述目标图谱中，统计每篇所述待对比文本抽取的实体与关系对所述目标图谱中的核心信息的覆盖率，所述覆盖率为待对比文本抽取的实体与关系与核心信息的节点和边重合的比例；

同一文本判断模块，用于若所述覆盖率超过预设阈值，则确定所述待对比文本为同类文本；

所述目标图谱构建模块包括：

文本信息获取单元，用于获取标注的目标实体和未标注的目标实体在所述训练文本的文本信息，得到标注的文本信息和未标注的文本信息；

向量获取单元，用于将所述标注的文本信息和未标注的文本信息代入BERT模型中进行向量获取，得到标注向量和未标注向量；

相似度值统计单元，用于统计每个所述未标注向量与所述标注向量的相似度值；

相似度值判断单元，用于若所述相似度值超过预设阈值，则将所述未标注向量对应的初始图谱中的未标注的目标实体和目标关系删除，得到所述目标图谱；

所述目标实体获取模块包括：

初始实体确定单元，用于根据依存句法分析的方式，将所述标注的名词和代词对应到一致性规则下，将符合所述一致性规则的所述标注的名词作为初始实体；

所述目标实体获取模块还包括：

凝聚度统计单元，用于通过统计文本短句中初始实体的凝聚度，判断两个或两个以上的所述初始实体是否构成复合词，得到判断结果，所述凝聚度是指多个单词构成所述复合词的可能性；

复合词判断单元，用于若判断结果为构成复合词，则将构成复合词的初始实体进行合并，得到合并实体，并将所述合并实体作为目标实体。

5.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于知识图谱的文本比对方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的基于知识图谱的文本比对方法。