CN110807102B

CN110807102B - 知识融合方法、装置、计算机设备和存储介质

Info

Publication number: CN110807102B
Application number: CN201910884962.0A
Authority: CN
Inventors: 凌岚; 刘嘉伟; 于修铭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-09-29
Anticipated expiration: 2039-09-19
Also published as: CN110807102A; WO2021051630A1

Abstract

本申请涉及知识图谱技术领域，尤其涉及一种知识融合方法、装置、计算机设备和存储介质，包括：获取待分析数据，根据所述待分析数据的数据结构，提取所述待分析数据中的实体数据；将所述实体数据进行实体对齐，得到初步融合数据；获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量；根据所述特征向量，确定所述初步融合数据中未连接的实体数据之间的关系数据后，得到待检融合数据；对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据。本申请通过在知识融合过程中加入知识纠错的步骤，能够有效的去除知识融合过程中产生的错误数据，从而提升知识融合后构成的知识图谱在进行知识抽取时的效率。

Description

知识融合方法、装置、计算机设备和存储介质

技术领域

本申请涉及知识图谱技术领域，尤其涉及一种知识融合方法、装置、计算机设备和存储介质。

背景技术

知识图谱技术日益成为人工智能的基础，它是机器理解自然语言和构建知识网络的重要方法。在进行知识图谱的构建时，需要对知识数据进行有效的整合才能使知识图谱在各个领域良好应用。

然而，现有的知识图谱融合技术尚不完善，通常只采用简单的实体融合方式构建知识图谱。这种方式构建的知识图谱在进行知识抽取时需要占用系统大量资源和线程。并且，应用此种方式得到的知识图谱在进行分析时错误率较高，不能应用于工业领域。

发明内容

基于此，针对现有知识图谱在进行知识抽取时需要占用系统大量资源和线程，在进行分析时错误率较高，不能应用于工业领域的问题，提供一种知识融合方法的、装置、计算机设备和存储介质。

一种知识融合方法，包括如下步骤：

获取待分析数据，根据所述待分析数据的数据结构，提取所述待分析数据中的实体数据；

将所述实体数据进行实体对齐，得到初步融合数据；

获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量；

根据所述特征向量，确定所述初步融合数据中未连接的实体数据之间的关系数据后，得到待检融合数据；

对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据。

在其中一个可能的实施例中，所述获取待分析数据，根据所述待分析数据的数据结构，提取所述待分析数据中的实体数据，包括：

获取所述待分析数据的数据来源标识，根据所述数据来源标识，确定所述待分析数据的数据结构；

若所述待分析数据为结构化表格，则根据所述实体数据在所述结构化表格中的位置，对所述待分析数据进行实体数据的提取；

若所述待分析数据为非结构化数据，则应用预设的实体词典，对所述待分析数据进行实体数据的提取。

在其中一个可能的实施例中，所述将所述实体数据进行实体对齐，得到初步融合数据，包括：

从所述实体数据中提取出两个或者两个以上具有相同名字的实体；

将所述两个或者两个以上具有相同名字的实体与预设的实体集合中的元素进行比较；

若所述两个或者两个以上具有相同名字的实体与预设的实体集合中的同一个元素相同，则所述两个或者两个以上具有相同名字的实体为同一实体；

将属于同一实体的实体数据进行实体合并后，得到所述初步融合数据。

获取预设的实体区分模型，所述实体区分模型中包含实体向量和关系向量；

获取所述实体数据对应的关系数据，根据所述实体区分模型构建实体关系对集合，所述实体关系对集合中包括至少一个候选实体关系对，每个候选实体关系对包括给定实体关系和候选实体，所述候选实体与所述给定实体的类型相同；

应用打分函数对候选实体关系对中的实体向量和关系向量进行打分，抽取分数最高的候选实体关系对中的实体作为目标实体，将所述目标实体对应的数据进行融合后，得到所述初步融合数据。

在其中一个可能的实施例中，所述获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量，包括：

获取所述初步融合数据中的数条关系路径，提取各所述关系路径上的关系数据；

根据预设的关系规则，剔除不符合所述关系规则的所述关系路径；

以剩余关系路径上的关系数据为元素，构建数个所述特征向量。

在其中一个可能的实施例中，所述根据所述特征向量，确定所述初步融合数据中未连接的实体数据之间的关系数据后，得到待检融合数据，包括：

将所述特征向量中的元素进行词向量转换，得到关系矩阵；

计算所述关系矩阵的特征值，将特征值一致的关系矩阵对应的关系路径进行连接，得到数个所述初步融合数据中未连接的实体数据之间的可行关系路径；

应用打分函数对各所述可行关系路径进行打分，提取分数大于预设阈值的可行关系路径作为最终关系路径，汇总各所述最终关系路径得到所述待检融合数据。

在其中一个可能的实施例中，所述对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据，包括：

对所述待检融合数据进行分词，对分词后的所述待检融合数据进行字粒度检测，得到所述待检融合数据中各个字符的字粒度；

将所述字粒度与预设的字粒度阈值进行比较，若任一所述字粒度大于预设的字粒度阈值，则所述字粒度对应的字符位置为疑似错误位置；

遍历所有所述疑似错误位置，应用音似词典或形似词典替换所述疑似错误位置的字符；

应用语言模型对替换后的所述待检融合数据进行句子困惑度计算，根据计算结果，得到所述疑似错误位置的最终字符，所述最终字符对应的融合数据为所述最终融合数据。

一种知识融合装置，包括如下模块：

数据采集模块，设置为获取待分析数据，根据所述待分析数据的数据结构，提取所述待分析数据中的实体数据；

数据处理模块，设置为将所述实体数据进行实体对齐，得到初步融合数据；

应用所述数据采集模块获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量；根据所述特征向量，确定所述初步融合数据中未连接的实体数据之间的关系数据后，得到待检融合数据；对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述知识融合方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述知识融合方法的步骤。

与现有机制相比，本申请通过在知识融合过程中加入知识纠错的步骤，能够有效的去除知识融合过程中产生的错误数据，从而提升知识融合后构成的知识图谱在进行知识抽取时的准确率，以便于在工业领域。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。

图1为本申请在一个实施例中的一种知识融合方法的整体流程图；

图2为本申请在一个实施例中的一种知识融合方法中的实体数据获取过程示意图；

图3为本申请在一个实施例中的一种知识融合方法中的特征向量生成过程示意图；

图4为本申请在一个实施例中的一种知识融合装置的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本申请在一个实施例中的一种知识融合方法的整体流程图，一种知识融合方法，包括以下步骤：

S1、获取待分析数据，根据所述待分析数据的数据结构，提取所述待分析数据中的实体数据；

具体的，待分析数据可以是结构化数据、半结构化数据或非结构化数据，在获取待分析数据时对于结构化数据或者半结构化数据可以采用网络爬虫等技术手段从问也上爬取。而对于非结构化数据在进行待分析数据获取时则通常采用自然语言进行数据抽取。在知识图谱构建过程中，包括：实体、关系和属性三要素，在本步骤中进行实体数据提取时，实体数据的判断标准可以是根据历史数据构成的实体词典。在实体词典中记录有历次使用过的实体词语。

在本步骤中，还可以将非结构化数据转换成结构化数据的步骤。例如，裁判文书中“原告：贾载定，农民”，“原告于2009年3月21日借给被告应成勇10万元款项，由被告杨明光担保”，提取出的结构化数据包括<贾载定，职业，农民>，<贾载定，类型，原告>，<贾载定，借贷关系，应成勇>，<应成勇，担保关系，杨明光>等。

S2、将所述实体数据进行实体对齐，得到初步融合数据；

具体的，不同的数据来源中会存在相同的数据，在将这些相同的实体对进行融合，消除冗余数据，即实体对齐。这些相同的数据由于来源不同，在表达上可能存在差异，例如“夫妻”与“配偶”，另外一种情况是相同的名称可能代表完全不同的意思，例如“苹果”可能是食物，也可能是苹果公司。在这个步骤中采用实体对齐技术对不同来源的数据进行融合，将相同意义的实体合为一个。通过实体对齐使构建的知识图谱更加完整。

S3、获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量；

具体的，在进行关系路径查询是知识推理过程中必不可少的一个关键步骤，在进行知识推理中的关键步骤，在对数条关系路径进行整合时，需要去除哪些不符合要求的错误路径，从而获得构建知识图谱的关系分类特征向量。可以应用的算法有基于路径排序学习方法、基于关联规则挖掘方法。

其中，基于路径排序学习方法是将每种不同的关系路径作为一维特征，通过在知识图谱中统计大量的关系路径构建关系分类的特征向量，建立关系分类器进行关系抽取，绕开规则提取步骤直接推理。基于关联规则挖掘方法是生成边关系规则，事先依据边类型生成所有可能的规则，再在图谱中找出支持该规则的事实，置信度达到阈值则认为该规则成立。

S4、根据所述特征向量，确定所述初步融合数据中未连接的实体数据之间的关系数据后，得到待检融合数据；

具体的，步骤S4可以采用下列步骤来实现：

S41、将所述特征向量中的元素进行词向量转换，得到关系矩阵；

具体的，在进行词向量转换时，可以采用Wordvec2等技术进行词向量转换，在经词向量转换后，一般采用PCA降维等方式对词向量进行降维操作使词向量的维数均变成二维以便于进行下一步计算。如步骤S33中的特征向量M＝[h1，r1，h2，r2，h3]，其中h1～h3进行词向量转换后得到h1＝,h2＝,h3＝，那么得到的关系矩阵为。

S42、计算所述关系矩阵的特征值，将特征值一致的关系矩阵对应的关系路径进行连接，得到数个所述初步融合数据中未连接的实体数据之间的可行关系路径；

S43、应用打分函数对各所述可行关系路径进行打分，提取分数大于预设阈值的可行关系路径作为最终关系路径，汇总各所述最终关系路径得到所述待检融合数据。

其中，打分函数又被称为评价函数。评价函数的主要任务就是估计等搜索结点的重要程度，以确定结点的优先级程度。评价函数的一般形式为f(x)＝g(x)+h(x)；其中h(x)被称为启发函数，构造和选择合适的启发函数h(x)是启发式搜索的关键。

S5、对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据。

具体的，利用知识纠错技术对知识图谱中存在的实体或者关系名称进行纠错，常见错误类型包括：拼写错误，字词顺序颠倒，缺字，写成中文拼音，语法错误。这样可以避免常规方法进行知识融合后得到的知识图谱中存在错误，从而影响在知识抽取时无法得到正确的知识信息。

本实施例，通过在知识融合过程中加入知识纠错的步骤，能够有效的去除知识融合过程中产生的错误数据，从而提升知识融合后构成的知识图谱在进行知识抽取时的准确率。

图2为本申请在一个实施例中的一种知识融合方法中的实体数据获取过程示意图，如图所示，所述S1、获取待分析数据，根据所述待分析数据的数据结构，提取所述待分析数据中的实体数据，包括：

S11、获取所述待分析数据的数据来源标识，根据所述数据来源标识，确定所述待分析数据的数据结构；

具体的，不同的数据来源具有不同的数据来源标识，比如法律文书通常是非结构化数据，当检索到“法律XXX书”这一数据来源标识后，就可以断定待分析的数据为非结构化数据。而对于财务账单，当检索到“XX表”这一数据来源标识后，就可以断定改数据来源为结构化数据。

S12、若所述待分析数据为结构化表格，则根据所述实体数据在所述结构化表格中的位置，对所述待分析数据进行实体数据的提取；

具体的，在结构化表格中，往往将实体、关系和属性采用不同的行或者例进行表示，比如在一个基金公司基金情况分类表中，第一列为公司名称，第二列为基金经理，第三列为基金性质。对于这种结构化的表格只需要对各个列的名称进行识别，就可以确定每一个列对应的是实体、关系还是属性。结构化表格型数据也是进行知识图谱构建时最理想的数据类型。

S13、若所述待分析数据为非结构化数据，则应用预设的实体词典，对所述待分析数据进行实体数据的提取。

具体的，可以从待分析数据中获取初始句群，所述初始句群包括一个或一个以上的句子；为所述初始句群设置一个期望长度，根据所述初始句群的长度与期望长度的比较结果，设置所述初始句群的权重阈值，所述权重阈值＝(K/F)/G，其中，比较结果F＝期望长度/(初始句群长度+冗余值)，G为阈值调整因子且G为大于1的数，K为属性权重密度；将所述知识抽取规则的权重与所述权重阈值进行比较，根据比较结果对所述初始句群进行扩展，得到适合所述知识抽取规则的最终句群。

根据最终句群的长度将所述待分析数据分割成数个子段，根据预设的实体词典，对各所述子段进行所述实体数据的提取。

本实施例，通过数据结构进行分类，从而针对不同的数据结构采用不同的实体数据方法，使得在进行实体对齐时保证实体数据的准确性。

在一个实施例中，所述S2、将所述实体数据进行实体对齐，得到初步融合数据，包括：

具体的，预设的实体集合可以是现有的知识数据库中进行提取后得到，如360百科、维基百科、互动百科、百度百科等网络百科数据等构成的实体集合。对于具有相同名字的实体，可以将该实体的上下文与实体集合中相同实体的上下文进行比较，计算两者的相似度，若相似度大于预设的相似度阈值，则该实体与实体集合中对应的实体为同一含义的实体，否则为不同含义的实体。

本实施例，采用实体集合的方式进行实体对齐，从而保证了实体对齐的准确性。

如，在实体区分模型中包含有头实体向量h，关系向量r和尾实体向量t，则在实体区分模型中，实体关系对为(h，r，t)

其中，打分函数又被称为评价函数。评价函数的主要任务就是估计等搜索结点的重要程度，以确定结点的优先级程度。评价函数的一般形式f(x)＝g(x)+h(x)；其中h(x)被称为启发函数，构造和选择合适的启发函数h(x)是启发式搜索的关键。

在本实施例中，打分函数的表达式为：

f(h,r,t)＝(1+w×Dist(h,t)||h+r-t||，

式子中，||h+r-t||表示h向量和t向量相似度，Dist(h,t)表示h和t的属性相似度，w表示惩罚力度，0≤w≤1。

本实施例通过打分函数进行实体对齐，大大提升了实体对齐的准确性，进而提升知识融合时数据的效率。

图3为本申请在一个实施例中的一种知识融合方法中的特征向量生成过程示意图，如图所示，所述S3、获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量，包括：

S31、获取所述初步融合数据中的数条关系路径，提取各所述关系路径上的关系数据；

S32、根据预设的关系规则，剔除不符合所述关系规则的所述关系路径；

其中，关系规则如杨过-配偶-小龙女，而不符合该规则的如郭靖-保卫-襄阳，即本条关系规则为实体1(人)-关系-实体2(人)。关系规则可以根据构建知识图谱的需要进行选取。

S33、以剩余关系路径上的关系数据为元素，构建数个所述特征向量。

具体的，在构建特征向量时，比如一条关系路径上为：贾载定-配偶-杨晓红-居住地-河北，则对应的特征向量为M＝[h1，r1，h2，r2，h3]，即每一个实体数据作为特征向量的一个元素用h_X表示，而每一个属性数据则用r_X表示，这样构成一个特征向量。

本实施例，通过对关系路径进行处理，从而降低了知识融合过程中错误数据出现的概率。

在一个实施例中，所述S5、对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据，包括：

具体的，在对待检融合数据进行分词时可以采用结巴中文分词器，其采用结巴分词算法使用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG),再采用了动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

在进行字粒度计算时可以采用的算法有BPE算法，通过BPE算法将切分粒度控制在字符和词语之间的子字粒度大小，然后再计算BLEU值从而得到分词后各个分段的字粒度值。

其中，在信息论中，perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。低困惑度的概率分布模型或概率模型能更好地预测样本。

本实施例，利用句子困惑度等手段，对知识融合数据进行筛选，从而保证知识融合数据的准确性。

在一个实施例中，提出了一种知识融合装置，如图4所示，包括如下模块：

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述知识融合方法的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中的所述知识融合方法的步骤。其中，所述存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请一些示例性实施例，其中描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种知识融合方法，其特征在于，包括：

将所述实体数据进行实体对齐，得到初步融合数据；

所述根据所述特征向量，确定所述初步融合数据中未连接的实体数据之间的关系数据后，得到待检融合数据，包括：

将所述特征向量中的元素进行词向量转换，得到关系矩阵；

应用打分函数对各所述可行关系路径进行打分，提取分数大于预设阈值的可行关系路径作为最终关系路径，汇总各所述最终关系路径得到所述待检融合数据；

2.根据权利要求1所述的知识融合方法，其特征在于，所述获取待分析数据，根据所述待分析数据的数据结构，提取所述待分析数据中的实体数据，包括：

3.根据权利要求2所述的知识融合方法，其特征在于，所述将所述实体数据进行实体对齐，得到初步融合数据，包括：

4.根据权利要求1所述的知识融合方法，其特征在于，所述将所述实体数据进行实体对齐，得到初步融合数据，包括：

5.根据权利要求1所述的知识融合方法，其特征在于，所述获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量，包括：

6.根据权利要求1至5任一项所述的知识融合方法，其特征在于，所述对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据，包括：

7.一种知识融合装置，其特征在于，包括以下模块：

数据处理模块，设置为将所述实体数据进行实体对齐，得到初步融合数据；应用所述数据采集模块获取所述初步融合数据中的关系路径，根据所述关系路径，构建关系分类的特征向量；根据所述特征向量，确定所述初步融合数据中未连接的实体数据之间的关系数据后，得到待检融合数据；对所述待检融合数据进行问题信息查询，去除所述问题信息后，得到最终融合数据；

将所述特征向量中的元素进行词向量转换，得到关系矩阵；

计算所述关系矩阵的特征值，将特征值一致的关系矩阵对应的关系路径进行连接，得到数个所述初步融合数据中未连接的实体数据之间的可行关系路径；应用打分函数对各所述可行关系路径进行打分，提取分数大于预设阈值的可行关系路径作为最终关系路径，汇总各所述最终关系路径得到所述待检融合数据。

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项权利要求所述知识融合方法的步骤。

9.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述知识融合方法的步骤。