CN104714977B - 一种实体与知识库项的关联方法及装置 - Google Patents

一种实体与知识库项的关联方法及装置 Download PDF

Info

Publication number
CN104714977B
CN104714977B CN201310692697.9A CN201310692697A CN104714977B CN 104714977 B CN104714977 B CN 104714977B CN 201310692697 A CN201310692697 A CN 201310692697A CN 104714977 B CN104714977 B CN 104714977B
Authority
CN
China
Prior art keywords
entity
matching
correlation model
model set
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310692697.9A
Other languages
English (en)
Other versions
CN104714977A (zh
Inventor
刘春辰
李建强
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to CN201310692697.9A priority Critical patent/CN104714977B/zh
Publication of CN104714977A publication Critical patent/CN104714977A/zh
Application granted granted Critical
Publication of CN104714977B publication Critical patent/CN104714977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体与知识库项的关联方法及装置,属于计算机领域。所述方法包括:获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果。所述装置包括:第一获取模块、第二获取模块和选择模块。本发明能够提高实体与知识库项关联结果的准确度。

Description

一种实体与知识库项的关联方法及装置
技术领域
本发明涉及计算机领域,特别涉及一种实体与知识库项的关联方法及装置。
背景技术
当前,文本数据出现爆炸式增长,人们迫切需要优秀的文本分析技术,来帮助理解数据的真实含义。实体关联技术是一种文本分析技术,它将文本数据中出现的词或词组作为实体,将对该实体进行说明的说明内容的标题或摘要作为KB(Knowledge base,知识库)项,并将该实体和该KB项组成匹配对。如此,人们可以通过该匹配对来理解文本数据的真实含义。例如,对于一段文本数据“早上好,James Parsons!”,实体关联技术可以将该段文本数据中出现的“James Parsons”作为实体,将对“James Parsons”进行说明的说明内容的标题“演员James Parsons”作为KB项,并将该实体和该KB项组成匹配对。人们可以根据该匹配对确定“James Parsons”为“演员”,从而理解该实体的真实含义。
目前,实体关联技术可以通过如下方法将实体和KB项组成匹配对,包括:设置一个训练数据集合,该训练数据集合包括多个匹配对,且这些匹配对都为实体与KB项的匹配对,通过多种学习算法对整个训练数据集合进行训练得到一个关联模型集合,关联模型集合包括多个关联模型,每个关联模型为匹配实体与KB项的算法;对于一个待匹配实体,利用词性匹配和/或文本语义分析等技术,从知识库中获取与待匹配实体可能匹配的KB项,并将待匹配实体与获取的每个KB项组成候选匹配对;通过经过训练得到的一个关联模型集合从组成的侯选匹配对中选择一个侯选匹配对作为实体与KB项的关联结果。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
目前通过多种学习算法对整个训练数据集合进行训练得到一个关联模型集合,而在对实体和KB项的进行关联时,因为存在多种多样的实体,通过训练得到的一个关联模型集合对所有的实体进行关联,得到的关联结果的准确度较低。
发明内容
为了提高实体与知识库项关联结果的准确度,本发明提供了一种实体与知识库项的关联方法及装置。所述技术方案如下:
一种实体与知识库项的关联方法,所述方法包括:
获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;
根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;
通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果。
一种实体与知识库项的匹配装置,所述装置包括:
第一获取模块,用于获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;
第二获取模块,用于根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;
选择模块,用于通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果。
在本发明实施例中,由于根据待匹配实体的实体类型特征向量,获取实体类型与待匹配实体的实体类型之间满足预设近似条件的关联模型集合,从而能够获取到实体类型与待匹配实体的实体类型相近的关联模型集合,并通过获取的关联模型集合匹配实体与知识库项的匹配对,从而提高实体与知识库项关联结果的准确度。
附图说明
图1是本发明实施例1提供的一种实体与知识库项的关联方法流程图;
图2是本发明实施例2提供的一种实体与知识库项的关联方法流程图;
图3是本发明实施例3提供的第一种实体与知识库项的关联装置结构示意图;
图4是本发明实施例3提供的第二种实体与知识库项的关联装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本发明实施例提供了一种实体与知识库项的关联方法,包括:
步骤101:获取至少一个侯选匹配对,该侯选匹配对包括待匹配实体和知识库项;
步骤102:根据待匹配实体的实体类型特征向量,获取关联模型集合,获取的关联模型集合对应的实体类型与待匹配实体的实体类型之间满足预设近似条件;
步骤103:通过获取的关联模型集合,从至少一个侯选匹配对中选择侯选匹配对作为实体与知识库项的关联结果。
在本发明实施例中,由于根据待匹配实体的实体类型特征向量,获取实体类型与待匹配实体的实体类型之间满足预设近似条件的关联模型集合,从而能够获取到实体类型与待匹配实体的实体类型相近的关联模型集合,并通过获取的关联模型集合匹配实体与知识库项的匹配对,从而提高实体与知识库项关联结果的准确度。
实施例2
参见图2,本发明实施例提供了一种实体与知识库项的关联方法,包括:
步骤201:获取训练数据集合包括的每个匹配对中的实体的实体类型特征向量;
训练数据集合是用于训练关联模型集合的文本数据库,训练数据集合包括多个预设的匹配对,且预设的匹配对都为实体与KB项的匹配对。实体可以为文本中出现的某一词或词组等,KB项可以是对实体进行说明的说明内容的标题或摘要等信息,且KB项可以为词、词组、短句或段落等,实体与KB项的匹配对可以帮助用户理解实体的真实含义。
例如,一篇文本中出现的某个词为“James Parsons”,该词可以为一个实体,存在一个标题为“演员James Parsons”的网页页面,该网页页面对“James Parsons”进行详细说明,将该网页页面的标题作为KB项,由“James Parsons”和“演员James Parsons”组成的实体与KB项的匹配对用于说明“James Parsons”为“演员James Parsons”,从而帮助用户理解实体“James Parsons”的真实含义。
本步骤可以具体为,对于训练数据集合包括的每一个匹配对,获取该匹配对中的实体的特征,该实体的特征包括该实体的词性和/或上下文信息等,再将该实体的特征组成该实体的实体类型特征向量。
对于该实体的词性,可以通过用于判定词性的算法来获取该实体的词性。
对于该实体的上下文信息,可以通过如下方式获取该实体的上下文信息,包括:
事先设置一个文档库,该文档库中包括多篇文档,从文档库中找出包括该实体的文档,在找出的文档中获取在该实体之前且与该实体最接近的预设第二个数个词以及在该实体之后且与该实体最接近的预设第二个数个词,例如,预设第二个数可以为2或4等数值,将获取的词或获取的词的词性作为该实体的上下文信息。
例如,用一个例子对本步骤进行说明,参见表1所示的训练数据集合,该训练数据集合包括第一匹配对<A1,B1>,第二匹配对<A2,B2>,第三匹配对<A3,B3>,第四匹配对<A4,B4>以及第五匹配对<A5,B5>。实体A1、A2和A3都为人名且词性为名词,以及实体A4和A5都为地名且词性为名词。
对于实体A1,获取实体A1的词性为名词,以及从文档库中找出包括实体A1的文档;假设该文档包括词C1、C2、A1、C3和C4,且在文档中的顺序为C1C2A1C3C4,以及预设第二个数为2,则从该文档中获取在实体A1之前且与实体A1最接近的两个词C1和C2以及在实体A1之后且与实体A1最接近的两个词C3和C4,将获取的词C1、C2、C3和C4作为实体A1的上下文信息,将实体A1的词性为名词以及上下文信息包括的词C1、C2、C3和C4组成实体A1的实体类型特征向量1,且实体类型特征向量1可以表示为[名词,C1,C2,C3,C4]。对于实体A2、A3、A4和A5,按上述方法分别得到实体A2的实体类型特征向量2、实体A3的实体类型特征向量3、实体A4的实体类型特征向量4和实体A5的实体类型特征向量5。
表1
实体 KB项
A1 B1
A2 B2
A3 B3
A4 B4
A5 B5
再如,用一具体实例来详细说明如何获取实体的实体类型特征向量,假设对于一个实体“北京”以及预设第二个数为2,获取实体“北京”的词性为名词,以及获取包括实体“北京”的文档,该文档为“鸟巢在北京的奥运村”。从该文档中获取在实体“北京”之前且与实体“北京”最接近的两个词分别为“鸟巢”和“在”以及在实体“北京”之后且与实体“北京”最接近的两个词分别为“的”和“奥运村”。将词性为名词,以及获取的词“鸟巢”、“在”、“的”和“奥运村”组成实体“北京”的实体类型特征向量,该实体类型特征向量可以表示为[名词,鸟巢,在,的,奥运村]。
步骤202:根据训练数据集合包括的每个匹配对中的实体的实体类型特征向量,通过聚类算法对训练数据集合包括的匹配对进行聚类,得到至少一个匹配对集合和每个匹配对集合对应的特征分布参数;
对于每一个匹配对集合,该匹配对集合包括的每个匹配对中的实体的实体类型都相同;该实体类型即为该匹配对集合对应的实体类型,该匹配对集合对应的特征分布参数用于表示该实体类型;实体类型可以为人名、地名和组织名等。
聚类算法可以为K-means聚类算法或基于分解渐近贝叶斯推理的混合聚类算法。
以基于分解渐近贝叶斯推理的混合聚类算法为例,对本步骤的聚类过程进行详细说明,如下所示:
(1):初始化叠代次数t的初值,以及随机初始化训练数据集合包括的每个匹配对属于每种实体类型对应的匹配对集合的第一概率,并组成第一隐变量矩阵q(t)
(2):根据第一隐变量矩阵q(t),按如下公式(1)计算出在第t次叠代中每种实体类型对应的匹配对集合的权
在上述公式(1)中,N为训练集合中包括的匹配对的数目,q(t)(Znc)为第一隐变量矩阵中的第n个匹配对属于第c个匹配对集合的第一概率。
(3):通过如下公式(2),计算出第t次叠代中每个匹配对集合对应的特征分布参数
在上述公式(2)中,xN为由训练集合包括的每个匹配中的实体的实体类型特征向量组成的向量矩阵,q(t)(Znc)为在第一隐变量矩阵中第n个匹配对属于第c个匹配对集合的第一概率,p(xic)为匹配对xi服从第c个匹配对集合分布特征的程度,Dc为第c个匹配对集合对应的特征分布参数的数目。
u为第c个匹配对集合中数据的均值,Σ为协方差矩阵。
(4):通过如下公式(3),计算出第t次叠代中目标函数值FIC(t);
在上述公式(3)中,zN为隐变量空间,为最大似然估计值。
(5):根据在第t-1次叠代中每个匹配对集合的权重和每个匹配对集合对应的特征分布参数通过如下公式(4)计算出在第t次叠代中每个匹配对属于每个匹配对集合的第二概率q(t)(Znc),并组成第二隐变量矩阵;
(6):计算第t次叠代的目标函数值FIC(t)与第t-1次叠代的目标函数值FIC(t-1)之间的差值,如果计算的差值大于预设差值阈值,则增加叠代次数t的值,并返回执行步骤(2);如果计算的差值小于或等于预设差值阈值,则执行步骤(7);
(7):根据每次叠代的第二隐变量矩阵,确定出训练集合中的每个匹配对属于的匹配对集合。
如果通过聚类得到的某个匹配对集合包括的匹配对的数目多于预设阈值,则还可以对该匹配对集合进行平均分割成多个子匹配对集合,每个子匹配对集合包括的匹配对的数目相等。
例如,根据实体A1的实体类型特征向量1、实体A2的实体类型特征向量2、实体A3的实体类型特征向量3、实体A4的实体类型特征向量4以及实体A5的实体类型特征向量5,通过现有的聚类算法对如表1所示的训练数据集合包括的匹配对进行聚类,得到第一匹配对集合、第二匹配对集合、第一匹配对集合对应的特征分布参数1和第二匹配对集合的特征分布参数2。第一匹配对集合包括第一匹配对<A1,B1>,第二匹配对<A2,B2>和第三匹配对<A3,B3>,第二匹配对集合包括第四匹配对<A4,B4>和第五匹配对<A5,B5>。第一匹配对集合包括的实体A1、A2和A3的实体类型都为人名,第二匹配对集合包括的实体A4和A5的实体类型都为地名。
步骤203:通过预设的至少一种学习算法,对每个匹配对集合进行训练,得到每个匹配对集合对应的关联模型集合;
具体地,对于每一个匹配对集合,获取该匹配对集合包括的每个匹配对的匹配对特征,匹配对的匹配对特征包括该匹配对中的实体与KB项之间的词形匹配度和/或语义相似度等,将该匹配对的匹配对特征组成该匹配对的匹配对特征向量;根据该匹配对集合包括的每个匹配对的匹配对特征向量,通过预设的至少一种学习算法,对该匹配对集合包括的匹配对进行训练,得到该匹配对集合对应的关联模型集合。
该关联模型集合对应的实体类型为该匹配对集合对应的实体类型,该关联模型集合对应的实体类型所满足的特征分布参数为该匹配对集合对应的特征分布参数。
可以通过现有的用于计算词形匹配度的算法或用于计算语义相似度的算法,来获取实体与KB项之间的词形匹配度或语义相似度。
通过一种学习算法,对一个匹配对集合进行训练可以得到一个关联模型,所以每个关联模型集合包括的关联模型的数目与预设的学习算法的数目相等。关联模型为用于匹配实体与KB项的匹配算法。
步骤204:将每个匹配对集合对应的特征分布参数和一个关联模型集合组成特征分布参数与关联模型集合的对应关系;
例如,假设,预设两种学习算法,分别为第一学习算法和第二学习算法,通过第一学习算法,对第一匹配对集合包括的匹配对进行训练,得到关联模型11;通过第二学习算法对第一匹配对集合包括的匹配对进行训练,得到关联模型12,将关联模型11和关联模型12组成第一匹配对集合对应的第一关联模型集合。通过第一学习算法,对第二匹配对集合包括的匹配对进行训练,得到关联模型21,通过第二学习算法,对第二匹配对集合包括的匹配对进行训练,得到关联模型22,将关联模型21和关联模型22组成第二匹配对集合对应的第二关联模型集合。将第一匹配对集合对应的特征分布参数1和第一关联模型集合,以及第二匹配对集合对应的特征分布参数2和第二关联模型集合组成如表2所示的特征分布参数与关联模型集合的对应关系。另外,在表2的第三列还列出每个关联模型集合包括的关联模型。
表2
其中,执行完本步骤之后,可以利用获得的关联模型集合以及每个关联模型集合对应的特征分布参数,对预设的实体库中的实体与预设的知识库中的KB项进行匹配,得到实体与KB项的匹配对。
对于实体库中的每一个实体,为了便于说明,将该实体称为待匹配实体,可以通过如下流程来对待匹配实体与知识库中的KB项进行匹配,得到实体与KB项的匹配对。
步骤205:获取至少一个侯选匹配对,侯选匹配对包括待匹配实体和知识库中的一个KB项;
具体地,获取待匹配实体分别与知识库中的每个KB项之间的关联度,待匹配实体与KB项之间的关联度可以为待匹配实体与KB项之间的词形匹配度或文档共现率,从知识库中选择与待匹配实体之间的关联度大于预设关联度阈值的KB项或与待匹配实体之间的关联度最大的预设第三个数个KB项,例如预设第三个数可以为10、15或20等数值,将待匹配实体分别与选择的每个KB项组成侯选匹配对。
其中,可以通过如下方式获取待匹配实体与KB项之间的文档共现率,包括:
从已存储的文档库中获取待匹配实体与该KB项共同出现的文档,将获取的文档数目作为待匹配实体与KB项之间的文档共现率。
进一步地,为了对实体和KB项进行更准确的匹配,还可以对待匹配实体进行同义词扩展,得到待匹配实体的同义词,获取该同义词分别与知识库中的每个KB项之间的关联度,从知识库中选择与该同义词之间的关联度大于预设关联度阈值的KB项或与该同义词之间的关联度最大的预设第三个数个KB项,再将待匹配实体分别与选择的每个KB项组成侯选匹配对。
例如,假设,待匹配实体为E1,知识库中包括KB项F1、F2、F3、F4和F5,获取待匹配实体E1分别与KB项F1、F2、F3、F4和F5之间的关联度分别为5、6、7、1和2,选择与待匹配实体E1之间的关联度大于预设关联度阈值4的KB项F1、F2和F3,将待匹配实体E1分别与选择的KB项F1、F2和F3组成侯选匹配对,分别为第一侯选匹配对应<E1,F1>,第二侯选匹配对<E1,F2>以及第三侯选匹配对<E1,F3>。
也可以通过其他方式将待匹配实体与知识库中的KB项缓存侯选匹配对,在此就不再一一说明。
步骤206:根据待匹配实体的实体类型特征向量,获取关联模型集合,获取的关联模型集合对应的实体类型与待匹配实体的实体类型之间满足预设近似条件;
具体地,根据关联模块集合与特征分布参数的对应关系,获取其中的每个关联模型集合对应的实体类型所满足的特征分布参数,根据待匹配实体的特征向量,每个关联模型集合对应的实体类型所满足的特征分布参数,分别计算待匹配实体的实体类型与每个关联模型集合对应的实体类型之间的匹配度;选择匹配度最大的预设第一个数个关联模型集合或匹配度大于预设匹配度阈值的关联模型集合,例如,预设第一个数可以3、4或5等数值,其中,选择的关联模型集合的实体类型与待匹配实体的实体类型之间满足预设近似条件。
优选的,可以按如下方式来计算待匹配实体的实体类型与每个关联模型集合对应的实体类型之间的匹配度,包括:
根据待匹配实体的特征向量和每个关联模型集合对应实体类型所满足的特征分布参数,通过如下公式(5)所示特征分布函数分别计算待匹配实体与每个关联模型集合所对应的实体类型之间的匹配度。
在上述公式(5)中,为待匹配实体x与一个匹配对集合之间的匹配度,为该匹配对集合对应实体类型所满足的特征分布参数,u为该匹配对集合中数据的均值,Σ为协方差矩阵,p为待匹配实体的实体类型特征向量的维度。
进一步地,在执行本步骤之前,还获取待匹配实体的特征,包括待匹配实体的词性和/或上下文信息等,将待匹配实体的特征组成待匹配实体的实体类型特征向量。
例如,对于表2中包括第一关联模型集合以及其对应实体类型所满足的特征分布参数1,第二关联模型集合以及其对应实体类型所满足的特征分布参数2。获取待匹配实体E1的实体类型特征向量,根据待匹配实体E1的实体类型特征向量和第一关联模型集合对应实体类型所满足的特征分布参数1,计算待匹配实体E1的实体类型与第一关联模型集合对应的实体类型之间的匹配度为8;根据待匹配实体E1的实体类型特征向量和第二关联模型集合对应实体类型所满足的特征分布参数2,计算待匹配实体E1的实体类型与第二关联模型集合对应的实体类型之间的匹配度为7;选择匹配度大于预设匹配度阈值5的第一关联模型集合和第二关联模型集合。
步骤207:通过获取的关联模型集合,从至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果。
本步骤可以通过如下(1)至(3)的步骤来实现,包括:
(1):对于每一个侯选匹配对,通过获取的每个关联模型集合对该侯选匹配对进行关联分析,得到每个关联模型集合对该侯选匹配对打分的匹配分数和权重;
具体地,对于获取的每一个关联模型集合,通过该关联模型集合包括的每个关联模型对该侯选匹配对进行关联分析,得到该关联模型集合包括的每个关联模型对该侯选匹配对打分的关联分数和似然度;根据每个关联模型对该侯选匹配对打分的关联分数计算平均分数并将计算的平均分数作为该关联模型集合对该侯选匹配对打分的匹配分数,以及根据每个关联模块对该侯选匹配打分的似然度计算平均似然度并将计算的平均似然度作为该关联模型集合对该侯选匹配对打分的权重;或者,从每个关联模型对该侯选匹配对打分的关联分数中选择最大的关联分数并将最大的关联分数作为该关联模型集合对该侯选匹配对打分的匹配分数,以及将最大的关联分数对应的关联模块对该侯选匹配对打分的似然度作为该关联模型集合对该侯选匹配对打分的权重。对于其他每个关联模型集合,按上述过程得到其他每个关联模型集合对该侯选匹配对打分的匹配分数。
例如,通过第一关联模型集合包括的关联模型11对第一侯选匹配对进行关联分析,得到关联模型11对第一侯选匹配对打分的关联分数为5和似然度为9;通过第一关联模型集合包括的关联模型12对第一侯选匹配对进行关联分析,得到关联模型12对第一侯选匹配对打分的关联分数为7和似然度为11;计算该两个关联模型分别对第一侯选匹配对打分的关联分数的平均分数为6,并将计算的平均分数6作为第一关联模型集合对第一侯选匹配对打分的匹配分数,计算该两个关联模型分别对第一侯选匹配对打分的似然度的平均似然度为10,并将计算的平均似然度10作为第一关联模型集合对第一侯选匹配对打分的权重。
通过第二关联模型集合包括的关联模型21对第一侯选匹配对进行关联分析,得到关联模型21对第一侯选匹配对打分的关联分数为6和似然度为8;通过第二关联模型集合包括的关联模型22对第一侯选匹配对进行关联分析,得到关联模型22对第一侯选匹配对打分的关联分数为8和似然度为14;计算该两个关联模型分别对第一侯选匹配对打分的关联分数的平均分数为7,并将计算的平均分数7作为第二关联模型集合对第一侯选匹配对打分的匹配分数,计算该两个关联模型分别对第二侯选匹配对打分的似然度的平均似然度为11,并将计算的平均似然度11作为第二关联模型集合对第二侯选匹配对打分的权重。
(2):根据每个关联模型集合与对该侯选匹配对打分的匹配分数和权重,以及每个关联模型集合对应的实体类型与待匹配实体的实体类型之间的匹配度,计算该侯选匹配对的最终分数;
具体地,可以通过如下公式(2),计算该侯选匹配对的最终分数;
在上述公式(2)中,score(entity,entry)为该侯选匹配对的最终分数,k为获取的关联模型集合数目,(entity,entry)为第i个关联模型集合对该侯选匹配对打分的权重,p(entity|φi)为第i个关联模型集合对应的实体类型与待匹配实体的实体类型之间的匹配度,(entity,entry)为第i个关联模型集合对该侯选匹配对打分的匹配分数,(entity,entry)为第j个关联模型集合对应的权重系数,p(entity|φj)为第j个关联模型集合的实体类型与待匹配实体的实体类型之间的匹配度。
其中,在步骤206中已计算出每个关联模型集合对应的实体类型与待匹配实体的实体类型之间的匹配度。
对于其他的每个侯选匹配对,执行上述(1)和(2)两步骤,得到其他的每个侯选匹配对的总分数,然后再执行步骤(3)。
例如,根据第一关联模型集合对第一侯选匹配对打分的匹配分数6、第一关联模型集合对应的实体类型与待匹配实体的实体类型之间的匹配度8、第二关联模型集合对第一侯选匹配对打分的匹配分数7、第二关联模型集合对应的实体类型与待匹配实体的实体类型之间的匹配度7,计算第一侯选匹配对的最终分数为10;按上述方法得到第二侯选匹配对的总分数8,以及第三侯选匹配对的最终分数4。
(3):选择最终分数最大的侯选匹配对作为实体与知识库项的匹配对。
例如,选择最终分数最大的第一侯选匹配对作为实体与知识库的关联结果。
其中,对于实体库中的其他每个实体,按上述步骤205至207对其他每个实体的实体与知识库中的KB项进行匹配,得到实体与知识库项的关联结果。
在本发明实施例中,由于训练数据集合包括每个匹配进行聚类得到多个匹配对集合,每个匹配对集合包括的实体的实体类型相同,通过多种学习算法对每个匹配对集合进行训练,从而得到每种实体类型对应的关联模型集合;再由于根据待匹配实体的实体类型特征向量,获取实体类型与待匹配实体的实体类型之间满足预设近似条件的关联模型集合,从而能够获取到实体类型与待匹配实体的实体类型相近的关联模型集合,并通过获取的关联模型集合匹配实体与知识库项的匹配对,从而提高实体与知识库项关联结果的准确度。
实施例3
本发明实施例提供了一种实体与知识库项的匹配装置,包括:
第一获取模块301,用于获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;
第二获取模块302,用于根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;
选择模块303,用于通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果。
优选的,所述第二获取模块302包括:
第一获取单元,用于根据关联模块集合与特征分布参数的对应关系,获取其中的每个关联模型集合对应的实体类型所满足的特征分布参数;
第一计算单元,用于根据所述待匹配实体的实体类型特征向量和所述每个关联模型集合所对应的实体类型所满足的特征分布参数,分别计算所述待匹配实体的实体类型与所述每个关联模型集合对应的实体类型之间的匹配度;
第一选择单元,用于选择匹配度最大的预设第一个数个关联模型集合或匹配度大于预设阈值的关联模型集合。
优选的,所述选择模块303包括:
分析单元,用于基于所述获取的每个关联模型集合对侯选匹配对进行关联分析,得到所述每个关联模型集合对所述侯选匹配对打分的匹配分数和权重;
第二计算单元,用于根据所述每个关联模型集合对所述侯选匹配对打分的匹配分数和权重,以及所述每个关联模型集合对应的实体类型与所述待匹配实体的实体类型之间的匹配度,计算所述侯选匹配对的最终分数;
第二选择单元,用于选择最终分数最大的侯选匹配对作为实体与知识库项的关联结果。
进一步地,参见图4,所述装置还包括:
聚类模块304,用于通过聚类算法对预设的多个匹配对中的实体进行聚类,得到至少一个匹配对集合和每个匹配对集合对应的特征分布参数,所述匹配对集合包含的实体的实体类型相同;
训练模块305,用于通过预设的至少一种学习算法对所述每个匹配对集合进行训练,得到所述每个匹配对集合对应的一个关联模型集合;
组成模块306,用于将所述每个匹配对集合对应的特征分布参数和关联模型集合组成特征分布参数与关联模型集合的对应关系。
优选的,所述聚类模块304包括:
第二获取单元,用于获取预设的每个匹配对中的实体的实体类型特征向量;
聚类单元,用于根据所述预设的每个匹配对中的实体的实体类型特征向量,通过聚类算法对所述预设的多个匹配对进行聚类,得到至少一个匹配对集合。
在本发明实施例中,由于根据待匹配实体的实体类型特征向量,获取实体类型与待匹配实体的实体类型之间满足预设近似条件的关联模型集合,从而能够获取到实体类型与待匹配实体的实体类型相近的关联模型集合,并通过获取的关联模型集合匹配实体与知识库项的匹配对,从而提高实体与知识库项关联结果的准确度。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种实体与知识库项的关联方法,其特征在于,所述方法包括:
获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;
根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;
通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果;
其中,所述根据所述待匹配实体的特征向量,获取关联模型集合,包括:
根据关联模型集合与特征分布参数的对应关系,获取其中的每个关联模型集合对应的实体类型所满足的特征分布参数;根据所述待匹配实体的实体类型特征向量和所述每个关联模型集合对应的实体类型所满足的特征分布参数,分别计算所述待匹配实体的实体类型与所述每个关联模型集合对应的实体类型之间的匹配度;选择匹配度最大的预设第一个数个关联模型集合或匹配度大于预设阈值的关联模型集合。
2.如权利要求1所述的方法,其特征在于,所述通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果,包括:
基于所述获取的每个关联模型集合对侯选匹配对进行关联分析,得到所述每个关联模型集合对所述侯选匹配对打分的匹配分数和权重;
根据所述每个关联模型集合对所述侯选匹配对打分的匹配分数和权重,以及所述每个关联模型集合对应的实体类型与所述待匹配实体的实体类型之间的匹配度,计算所述侯选匹配对的最终分数;
选择最终分数最大的侯选匹配对作为实体与知识库项的关联结果。
3.如权利要求1所述的方法,其特征在于,所述根据所述待匹配实体的实体类型特征向量,获取关联模型集合之前,还包括:
通过聚类算法对预设的多个匹配对中的实体进行聚类,得到至少一个匹配对集合和每个匹配对集合对应的特征分布参数,所述匹配对集合包含的实体的实体类型相同;
通过预设的至少一种学习算法对所述每个匹配对集合进行训练,得到所述每个匹配对集合对应的一个关联模型集合;
将所述每个匹配对集合对应的特征分布参数和关联模型集合组成特征分布参数与关联模型集合的对应关系。
4.如权利要求3所述的方法,其特征在于,所述通过聚类算法对预设的多个匹配对中的实体进行聚类,得到至少一个匹配对集合,包括:
获取预设的每个匹配对中的实体的实体类型特征向量;
根据所述预设的每个匹配对中的实体的实体类型特征向量,通过聚类算法对所述预设的多个匹配对进行聚类,得到至少一个匹配对集合。
5.一种实体与知识库项的匹配装置,其特征在于,所述装置包括:
第一获取模块,用于获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;
第二获取模块,用于根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;
选择模块,用于通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果;
其中,所述第二获取模块包括:第一获取单元,用于根据关联模型集合与特征分布参数的对应关系,获取其中的每个关联模型集合对应的实体类型所满足的特征分布参数;
第一计算单元,用于根据所述待匹配实体的实体类型特征向量和所述每个关联模型集合对应的实体类型所满足的特征分布参数,分别计算所述待匹配实体的实体类型与所述每个关联模型集合对应的实体类型之间的匹配度;
第一选择单元,用于选择匹配度最大的预设第一个数个关联模型集合或匹配度大于预设阈值的关联模型集合。
6.如权利要求5所述的装置,其特征在于,所述选择模块包括:
分析单元,用于基于所述获取的每个关联模型集合对侯选匹配对进行关联分析,得到所述每个关联模型集合对所述侯选匹配对打分的匹配分数和权重;
第二计算单元,用于根据所述每个关联模型集合对所述侯选匹配对打分的匹配分数和权重,以及所述每个关联模型集合对应的实体类型与所述待匹配实体的实体类型之间的匹配度,计算所述侯选匹配对的最终分数;
第二选择单元,用于选择最终分数最大的侯选匹配对作为实体与知识库项的关联结果。
7.如权利要求5所述的装置,其特征在于,所述装置还包括:
聚类模块,用于通过聚类算法对预设的多个匹配对中的实体进行聚类,得到至少一个匹配对集合和每个匹配对集合对应的特征分布参数,所述匹配对集合包含的实体的实体类型相同;
训练模块,用于通过预设的至少一种学习算法对所述每个匹配对集合进行训练,得到所述每个匹配对集合对应的一个关联模型集合;
组成模块,用于将所述每个匹配对集合对应的特征分布参数和关联模型集合组成特征分布参数与关联模型集合的对应关系。
8.如权利要求7所述的装置,其特征在于,所述聚类模块包括:
第二获取单元,用于获取预设的每个匹配对中的实体的实体类型特征向量;
聚类单元,用于根据所述预设的每个匹配对中的实体的实体类型特征向量,通过聚类算法对所述预设的多个匹配对进行聚类,得到至少一个匹配对集合。
CN201310692697.9A 2013-12-17 2013-12-17 一种实体与知识库项的关联方法及装置 Active CN104714977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310692697.9A CN104714977B (zh) 2013-12-17 2013-12-17 一种实体与知识库项的关联方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310692697.9A CN104714977B (zh) 2013-12-17 2013-12-17 一种实体与知识库项的关联方法及装置

Publications (2)

Publication Number Publication Date
CN104714977A CN104714977A (zh) 2015-06-17
CN104714977B true CN104714977B (zh) 2019-03-19

Family

ID=53414320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310692697.9A Active CN104714977B (zh) 2013-12-17 2013-12-17 一种实体与知识库项的关联方法及装置

Country Status (1)

Country Link
CN (1) CN104714977B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709588B (zh) * 2015-11-13 2022-05-17 日本电气株式会社 预测模型构建方法和设备以及实时预测方法和设备
CN107196919B (zh) * 2017-04-27 2021-01-01 北京小米移动软件有限公司 一种匹配数据的方法和装置
CN109634939A (zh) * 2018-12-28 2019-04-16 中国农业银行股份有限公司 一种缺失值的确定方法、装置及电子设备
CN111400413B (zh) * 2020-03-10 2023-06-30 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统
CN111738005A (zh) * 2020-06-19 2020-10-02 平安科技(深圳)有限公司 命名实体对齐方法、装置、电子设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102984131A (zh) * 2012-11-09 2013-03-20 华为技术有限公司 一种信息识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170969B2 (en) * 2008-08-13 2012-05-01 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102984131A (zh) * 2012-11-09 2013-03-20 华为技术有限公司 一种信息识别方法和装置

Also Published As

Publication number Publication date
CN104714977A (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN109960800B (zh) 基于主动学习的弱监督文本分类方法及装置
CN106815252B (zh) 一种搜索方法和设备
CN107193797B (zh) 中文微博的热点话题检测及趋势预测方法
CN108804677B (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN107944559B (zh) 一种实体关系自动识别方法及系统
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN104714977B (zh) 一种实体与知识库项的关联方法及装置
CN105045875B (zh) 个性化信息检索方法及装置
CN109635083B (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN109697289A (zh) 一种改进的用于命名实体识别的主动学习方法
CN106294344A (zh) 视频检索方法和装置
CN106294733B (zh) 基于文本分析的网页检测方法
CN101295294A (zh) 基于信息增益改进贝叶斯词义消歧方法
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
CN110659378B (zh) 基于对比相似性损失函数的细粒度图像检索方法
CN106649272A (zh) 一种基于混合模型的命名实体识别方法
CN108287881A (zh) 一种基于随机游走关系发现的优化方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN104035996A (zh) 基于Deep Learning的领域概念抽取方法
CN106844788B (zh) 一种图书馆智能搜索排序方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant