CN111309926B - 一种实体链接方法、装置及电子设备 - Google Patents

一种实体链接方法、装置及电子设备 Download PDF

Info

Publication number
CN111309926B
CN111309926B CN202010086026.8A CN202010086026A CN111309926B CN 111309926 B CN111309926 B CN 111309926B CN 202010086026 A CN202010086026 A CN 202010086026A CN 111309926 B CN111309926 B CN 111309926B
Authority
CN
China
Prior art keywords
link
entity
link combination
relation
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010086026.8A
Other languages
English (en)
Other versions
CN111309926A (zh
Inventor
高丛
苏少炜
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010086026.8A priority Critical patent/CN111309926B/zh
Publication of CN111309926A publication Critical patent/CN111309926A/zh
Application granted granted Critical
Publication of CN111309926B publication Critical patent/CN111309926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种实体链接方法、装置及电子设备,该方法包括:识别文本中的至少两个实体指称;分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接。本发明实施例通过基于文本中的多个实体指称对应的候选实体所组成的链接组合中的实体之间的关系和关系权重,得到对应的实体链接,不仅可减少计算量,且可依据最终得到的实体链接结果,对各实体之间的关系权重进行反向调整。

Description

一种实体链接方法、装置及电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种实体链接方法、装置及电子设备。
背景技术
命名实体链接(Named Entity Linking,简称NEL)是自然语言处理中的一项基本任务,旨在从文本中识别出实体指称,并将它们与知识图谱中的实体进行链接。实体链接通过知识图谱为原文本提供丰富的信息,同时可以消除文本中实体指称的歧义,从而能够大大提高机器对文本的理解能力,对于文本理解是非常重要的技术。
现有技术中,传统的实体链接算法一般采用非结构化的知识图谱,典型的如维基百科,作为目标知识图谱,利用实体指称所在句子或者文档的上下文,以及维基百科中实体页面的文本信息,抽取两者的特征向量,利用特征向量来对候选实体进行排序,得到正确链接的实体。
近年来神经网络,深度学习的方法以其端到端、无需人工特征工程等优良特性,迅速在计算机视觉、自然语言处理的一些任务上得到应用,并取得了优于传统方法的结果。实体链接领域也不例外,这类方法通过浅层的词向量或者神经网络模型,简化了实体链接方法中特征抽取的过程。
然而,这种基于模型的实体链接算法需要复杂的计算量,且对于模型参数的调整难度较大。
发明内容
本发明实施例提供一种实体链接方法、装置及电子设备,以解决现有实体链接算法计算量复杂,且对于模型参数的调整难度较大的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种实体链接方法,包括:
识别文本中的至少两个实体指称;
分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;
根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;
将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接。
可选的,所述根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,包括:
根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分;
将得分满足预设条件的链接组合确定为目标链接组合。
可选的,所述根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分,包括:
根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径;
根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分。
可选的,所述根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径,包括:
根据知识图谱中定义的实体与实体之间的关系,得到每个链接组合中的候选实体之间的链接关系;
基于所述链接关系,确定每个链接组合对应的链接路径。
可选的,所述根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分,包括:
根据每个链接组合对应的链接路径的路径长度,和该链接路径上包括的每条关系路径的权重,计算每个链接组合的得分,其中,所述得分与所述路径长度负相关,与所述权重正相关。
可选的,所述根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合之前,所述方法还包括:
对每个实体指称对应的候选实体进行排列组合,得到N个链接组合,其中,一个链接组合包括至少两个候选实体,每个候选实体分别与一个实体指称对应,N为大于或等于1的整数;
所述根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,包括:
根据所述N个链接组合中的每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合。
可选的,所述方法还包括:
获取多组标注文本,其中,每组标注文本中包括至少两个实体指称,且每个实体指称标注有对应的实体链接;
以最大化正确链接路径的得分为目标,使用所述多组标注文本对权重初始模型进行训练,得到目标权重模型;
利用所述目标权重模型确定各实体之间的关系权重。
第二方面,本发明实施例提供一种实体链接装置,包括:
识别模块,用于识别文本中的至少两个实体指称;
检索模块,用于分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;
第一确定模块,用于根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;
第二确定模块,用于将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接。
可选的,所述第一确定模块包括:
计算子模块,用于根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分;
确定子模块,用于将得分满足预设条件的链接组合确定为目标链接组合。
可选的,所述计算子模块包括:
确定单元,用于根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径;
计算单元,用于根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分。
可选的,所述确定单元包括:
第一确定子单元,用于根据知识图谱中定义的实体与实体之间的关系,得到每个链接组合中的候选实体之间的链接关系;
第二确定子单元,用于基于所述链接关系,确定每个链接组合对应的链接路径。
可选的,所述计算单元具体用于根据每个链接组合对应的链接路径的路径长度,和该链接路径上包括的每条关系路径的权重,计算每个链接组合的得分,其中,所述得分与所述路径长度负相关,与所述权重正相关。
可选的,所述实体链接装置还包括:
组合模块,用于对每个实体指称对应的候选实体进行排列组合,得到N个链接组合,其中,一个链接组合包括至少两个候选实体,每个候选实体分别与一个实体指称对应,N为大于或等于1的整数;
所述第一确定模块具体用于根据所述N个链接组合中的每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合。
可选的,所述实体链接装置还包括:
获取模块,用于获取多组标注文本,其中,每组标注文本中包括至少两个实体指称,且每个实体指称标注有对应的实体链接;
训练模块,用于以最大化正确链接路径的得分为目标,使用所述多组标注文本对权重初始模型进行训练,得到目标权重模型;
第三确定模块,用于利用所述目标权重模型确定各实体之间的关系权重。
第三方面,本发明实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述实体链接方法中的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实体链接方法中的步骤。
本发明实施例中,识别文本中的至少两个实体指称;分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接。这样,通过基于文本中的多个实体指称对应的候选实体所组成的链接组合中的实体之间的关系和关系权重,来得到对应的实体链接,不仅可减少计算量,而且可依据最终得到的实体链接结果,对各实体之间的关系权重进行反向调整。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种实体链接方法的流程图;
图2是本发明实施例提供的知识图谱中定义的实体间的链接关系示意图;
图3是本发明实施例提供的一种实体链接方法的应用举例流程图;
图4是本发明实施例提供的一种实体链接装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种实体链接方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101、识别文本中的至少两个实体指称。
上述文本可以是待识别的文本,也即尚未进行语义识别的文本,例如,用户输入的文本,或用户语音输入的语音信息对应的文本,等等。
上述实体指称可以是指所述文本中的特定实体,通常为特有名词,例如,人名、地名、作品名等能够反应具体事物的对象名称。
上述识别文本中的至少两个实体指称,可以是对所述文本进行实体识别,如进行命名实体识别(Named Entity Recognition,简称NER),以识别出所述文本中的实体指称。
在自然语言识别中,通常一个实体可能会对应一个或多个候选实体,即一个实体指称可能会有多种含义,为使机器能够较好地理解文本中实体指称所指的真实含义,消除歧义,通常需要对文本进行实体识别,得到实体指称对应的多个候选实体,并通过上下文分析将该实体指称链接到正确的候选实体。
特别地,由于本发明实施例中,需要基于文本中的多个实体指称之间的关系(具体为一实体指称对应的候选实体与其他实体指称对应的候选实体之间的关系),来最终确定各实体指称对应的实体链接,进而得到所述文本的含义,故本发明实施例适用于文本中存在多个实体指称的情况。
这样,步骤101中,需要识别所述文本中的至少两个实体指称。例如,对于文本“张三用天鹅叙述了一个摄影师的人生轨迹”,可以识别到实体指称“张三”和“天鹅”。
步骤102、分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体。
上述检索可以是从特定知识库中进行检索,也可以是进行网络检索,当从知识库中检索时,所述知识库中可以预先建立了大量实体指称与候选实体的对应关系,从而可通过在所述知识库中使用某实体指称作为关键词进行检索,得到对应的候选实体。当进行网络检索时,可以使用某实体指称作为检索词进行检索,并从检索结果中提取出与其关联的候选实体。
其中,上述候选实体可以包括以实体指称为实体名、实体别名或实体昵称等属性的实体。由于可能存在同名实体或别名、昵称相同的实体,一个实体指称可能对应多个候选实体,这些候选实体便构成实体指称对应的候选实体集。
以实体指称“张三”和“天鹅”为例,可以在知识库中检索到实体指称“张三”对应的候选实体集包括:{<张三(中国男演员)>,<张三(好妹妹乐队成员)>},以及检索到实体指称“天鹅”对应的候选实体集包括:{<天鹅(动物)>,<天鹅(李四演唱歌曲)>,<天鹅(张三个人EP)>}。
步骤103、根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个。
上述链接组合可以是由所述至少两个实体指称中每个实体指称对应的候选实体中的一个所组成的,也就是说,对于M个实体指称,一个链接组合可包括M个候选实体,其中每个候选实体分别与M个实体指称中的一个对应。
例如,对于实体指称“张三”对应的候选实体集{<张三(中国男演员)>,<张三(好妹妹乐队成员)>},以及实体指称“天鹅”对应的候选实体集{<天鹅(动物)>,<天鹅(李四演唱歌曲)>,<天鹅(张三个人EP)>},可组成的链接组合包括:[<张三(中国男演员)>,<天鹅(动物)>]、[<张三(中国男演员)>,<天鹅(李四演唱歌曲)]、[<张三(中国男演员)>,<天鹅(张三个人EP)>]、[<张三(好妹妹乐队成员)>,<天鹅(张三个人EP)>],等等。
上述链接组合中的候选实体之间的关系,可以包括该链接组合中的候选实体之间是否存在关系以及存在何种关系,该关系可以是知识库中预先定义好的,也可以是通过网络检索等其他途径得到的。
上述关系权重可以是对链接组合中的候选实体之间的关系设定的权重值,其可以是知识库中预先设定好的,也可以是通过预设规则(如基于候选实体间的关联程度、关系类型等)实时确定的。
例如,对于链接组合[<张三(中国男演员)>,<天鹅(李四演唱歌曲)],由于二者不存在任何关联,故可以确定该链接组合中的候选实体不存在关系,或者也可以将其关系权重可以定义为0或其他默认值。
又例如,对于链接组合[<张三(好妹妹乐队成员)>,<天鹅(张三个人EP)>],由于候选实体<天鹅(张三个人EP)>为候选实体<张三(好妹妹乐队成员)>的音乐专辑,故可以确定该链接组合中的候选实体存在关系,且关系为“作品”,另外,由于二者关联程度较高,还可以设定其关系权重为较大的值,如10。
这样,该步骤中,可以基于每个链接组合中的候选实体之间的关系和关系权重,来确定目标链接组合,也即确定可作为所述至少两个实体指称对应的实体链接的链接组合。具体地,可以将组合中候选实体之间的关系较为密切或为特定关系类型的,且关系权重较大的链接组合作为目标链接组合,或者,也可以使用各链接组合中的候选实体之间的关系和关系权重来具体计算出各个链接组合的得分,将得分较高的链接组合确定为目标链接组合。其中确定目标链接组合的方式可以不限于此,凡是基于每个链接组合中的候选实体之间的关系和关系权重确定目标链接组合的方式均可,在此不作一一列举。
可选的,所述步骤103之前,所述方法还包括:
对每个实体指称对应的候选实体进行排列组合,得到N个链接组合,其中,一个链接组合包括至少两个候选实体,每个候选实体分别与一个实体指称对应,N为大于或等于1的整数;
所述步骤103包括:
根据所述N个链接组合中的每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合。
该实施方式中,在得到每个实体指称对应的候选实体后,可以对各实体指称对应的候选实体进行排列组合,具体为分别从每个实体指称对应的候选实体中选择一个候选实体进行组合,得到所有可能形成的链接组合。
仍以实体指称“张三”对应的候选实体集{<张三(中国男演员)>,<张三(好妹妹乐队成员)>},以及实体指称“天鹅”对应的候选实体集{<天鹅(动物)>,<天鹅(李四演唱歌曲)>,<天鹅(张三个人EP)>}为例,对这两个实体指称对应的候选实体进行排列组合后,一共可形成6个链接组合,分别为:[<张三(中国男演员)>,<天鹅(动物)>]、[<张三(中国男演员)>,<天鹅(李四演唱歌曲)]、[<张三(中国男演员)>,<天鹅(张三个人EP)>]、[张三-<张三(好妹妹乐队成员)>,天鹅-<天鹅(动物)>],[张三-<张三(好妹妹乐队成员)>,天鹅-<天鹅(李四演唱歌曲)>]和[<张三(好妹妹乐队成员)>,<天鹅(张三个人EP)>]。
这样,可以根据排列组合后得到的N个链接组合中的每个链接组合中的候选实体之间的关系和关系权重,来确定目标链接组合,由于考虑到了每种可能的链接组合,从而能够保证最终确定得到的目标链接组合的可靠性。
可选的,所述步骤103包括:
根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分;
将得分满足预设条件的链接组合确定为目标链接组合。
一种可选的实施方式中,可以采用计算各链接组合的得分,并根据得分高低来确定目标链接组合,具体地,可以基于每个链接组合中的候选实体之间的关系和关系权重,计算出每个链接组合的得分,然后将得分满足预设要求的链接组合确定为目标链接组合,所述预设要求可以是得分最高、得分大于预设分值等,当存在多个符合预设条件的链接组合时,可以取得分最高、链接次数较多或公众较为熟知的链接组合。其中,关于上述候选实体之间的关系和关系权重的定义可以参见前述步骤103中的相关介绍。
上述根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分,可以是将每个链接组合中的候选实体之间的关系使用关系密切度(如关系路径长度或相关度)来表征,然后采用预设公式或算法,将每个链接组合中的候选实体之间的关系密切度和关系权重作为输入参数,计算输出,从而得到对应链接组合的得分。
以计算链接组合[<张三(好妹妹乐队成员)>,<天鹅(张三个人EP)>]的得分为例,由于候选实体<张三(好妹妹乐队成员)>与<天鹅(张三个人EP)>之间存在直接的关联,故二者间具备较高的关系密切度,如预设相关度为100%,或预设关系路径长度为1(其中,关系路径长度越短,表示关系越密切,关系密切度可为其反数),二者的关系权重为10,对于该链接组合得分的计算,则可以使用关系密切度与关系权重的乘积来反应该链接组合的得分,如使用100%×10或1×10表示该链接组合的得分,即该链接组合的得分为10。
再以计算链接组合[张三-<张三(好妹妹乐队成员)>,天鹅-<天鹅(李四演唱歌曲)>]的得分为例,候选实体<张三(好妹妹乐队成员)>与<天鹅(张三个人EP)>之间存在间接的关联,故二者间具备一定的关系密切度,但不是很高,如预设相关度为25%,或预设关系路径长度为4(关系密切度为其反数),二者的关系权重为8,对于该链接组合得分的计算,也可以使用关系密切度与关系权重的乘积来反应该链接组合的得分,如使用25%×8或(1/4)×8表示该链接组合的得分,即该链接组合的得分为2。
需说明的是,上述举例中仅是为了示意具体的得分计算过程,但并不限定仅可采用上述方式计算得分,还可以使用上述计算公式的变形(如再乘以一系数或引入其他相关参数等)来计算。
还需说明的是,为了便于计算,对于候选实体间不存在关系的链接组合,可以直接将其得分确定为0。
这样,通过计算各链接组合的得分,并根据得分来确定目标链接组合,可以保证简单快速且较为准确地确定与所述至少两个实体指称对应的实体链接。
进一步的,所述根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分,可以包括:
根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径;
根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分。
该实施方式中,可以先根据每个链接组合中的候选实体之间的关系,分别确定每个链接组合对应的链接路径,具体地,可以是依据各不同实体之间的关系,确定各实体之间的链接路径,即存在直接关系的实体之间存在直接的链接路径,存在间接关系的实体之间可能存在多条不同的链接路径,具体为通过其他相关实体产生链接路径。
例如,实体<张三(好妹妹乐队成员)>与<天鹅(李四演唱歌曲)>之间存在间接关系,具体为<张三(好妹妹乐队成员)>属于<好妹妹乐队>,<好妹妹乐队>助力过综艺节目<音乐之声>,<李四>也助力过<音乐之声>,<天鹅(李四演唱歌曲)>为<李四>的音乐作品,这样,基于上述关系,可确定<张三(好妹妹乐队成员)>与<天鹅(李四演唱歌曲)>之间的链接路径为<张三>--<好妹妹乐队>--<音乐之声>--<李四>--<天鹅>。
在确定各链接组合对应的链接路径后,便可以进一步确认其链接路径的路径长度,该路径长度可以由两个实体间所经历的链接路径数量确定,且该实施方式中,对于每种不同的链接路径,可随其关系类型的不同而分别定义有不同的关系权重,具体地,可以按照各关系类型所反应出的关系密切程度来相应设置其关系权重。
例如,<张三>与<好妹妹乐队>的关系为成员,对应的关系权重可以为8,<好妹妹乐队>与<音乐之声>的关系为助力,以及<音乐之声>与<李四>的关系也为助力,对应的关系权重可以为1,<李四>与<天鹅>的关系为作品,对应的关系权重可以为10。此外,由前述举例中<张三(好妹妹乐队成员)>与<天鹅(李四演唱歌曲)>之间的链接路径可知,其路径长度为4。
这样,通过基于所确定的每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,可计算出每个链接组合的得分,具体地,可以采用预设公式来计算,例如,链接组合的得分等于其对应的关系权重之和除以路径长度,如采用该公式可计算出链接组合[张三-<张三(好妹妹乐队成员)>,天鹅-<天鹅(李四演唱歌曲)>]的得分为(8+1+1+10)/4=5。当然该实施方式中,也可以采用其他公式来计算链接组合的得分,只要该公式中能够合理使用每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重作为计算依据即可。
该实施方式中,通过根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,来计算每个链接组合的得分,不仅可使得计算方式较为简单,且可较好地保证计算出的得分能够较为真实地反应出该链接组合的相关度。
进一步的,所述根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径,包括:
根据知识图谱中定义的实体与实体之间的关系,得到每个链接组合中的候选实体之间的链接关系;
基于所述链接关系,确定每个链接组合对应的链接路径。
为保证更加快速地确定每个链接组合对应的链接路径,可以通过预先建立好的知识图谱来完成链接关系和链接路径的确定,具体地,所述知识图谱中可以预先存储有大量实体,并定义了各不同实体之间的关系,具体可以包括关系类型、关系路径、关系权重等,从而在确定每个链接组合对应的链接路径时,可以从所述知识图谱中,找到每个链接组合中的候选实体之间的链接关系,进而可确定对应链接组合中的候选实体之间的链接路径。
以确定链接组合[张三-<张三(好妹妹乐队成员)>,天鹅-<天鹅(李四演唱歌曲)>]的链接路径为例,假设知识图谱中定义了若干相关实体之间的关系如图2所示,则可以从知识图谱中找到候选实体<张三(好妹妹乐队成员)>与<天鹅(李四演唱歌曲)>之间的链接关系如图2中的虚线框所示,进而可得到二者的链接路径如图2中的实线所示。
进一步的,所述根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分,包括:
根据每个链接组合对应的链接路径的路径长度,和该链接路径上包括的每条关系路径的权重,计算每个链接组合的得分,其中,所述得分与所述路径长度负相关,与所述权重正相关。
该实施方式中提供了一种较为简单且有效的链接组合得分计算方式,即使用每个链接组合对应的链接路径的路径长度,和该链接路径上包括的每条关系路径的权重,来计算每个链接组合的得分,且由于路径长度越长表明链接组合中的候选实体之间的关系越疏远,某条关系路径的权重越大,表明对应实体之间的关系越密切,基于此关系,可使每个链接组合的得分与对应路径长度负相关,与对应链接路径上包括的每条关系路径的权重正相关,例如,某个链接组合的得分可采用对应链接路径上包括的每条关系路径的权重之和除以对应链接路径的路径长度的计算公式来计算。
这样,通过采用每个链接组合对应的链接路径的路径长度,和该链接路径上包括的每条关系路径的权重,来计算每个链接组合的得分,既能使得计算方式较为简便,且还能保证计算出的得分能够较为准确地反应出对应链接组合与所述至少两个实体指称的关联程度。
步骤104、将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接。
在确定目标链接组合后,可以直接将所述目标链接组合中的候选实体分别作为与所述至少两个实体指称对应的实体链接,例如,若确定目标链接组合为[<张三(好妹妹乐队成员)>,<天鹅(张三个人EP)>],则可以直接将该链接组合的候选实体<张三(好妹妹乐队成员)>确定为实体指称“张三”的实体链接,以及将该链接组合的候选实体<天鹅(张三个人EP)>确定为实体指称“天鹅”的实体链接,也即将文本“张三用天鹅叙述了一个摄影师的人生轨迹”中的“张三”和“天鹅”分别链接到<张三(好妹妹乐队成员)>和<天鹅(张三个人EP)>。
可选的,所述方法还包括:
获取多组标注文本,其中,每组标注文本中包括至少两个实体指称,且每个实体指称标注有对应的实体链接;
以最大化正确链接路径的得分为目标,使用所述多组标注文本对权重初始模型进行训练,得到目标权重模型;
利用所述目标权重模型确定各实体之间的关系权重。
各实体之间的关系权重可以通过多种途径进行定义,例如,人工定义、依据大数据统计定义或建模定义等,该实施方式中,为了减少人工关系权重定义工作,以及保证关系权重定义的准确度,可以采用大量标注数据进行模型训练,然后再利用训练好的模型来重新定义各实体间的关系权重的方式来实现。
具体地,可以先获取多组标注文本,且为了保证训练出的模型精度,可以尽可能地获取大量标注文本作为训练样本,所述标注文本可以是指包括标注有对应实体链接的多个实体指称的文本,例如,一组标注文本可以是“苹果(公司)今年新出了几款iphone(手机)”,其中,实体指称“苹果”和“iphone”均标注有对应的实体链接。
然后,可以使用所获取的多组标注文本对权重初始模型进行训练,在训练过程中,可以以最大化正确链接路径的得分为目标,即可以利用每次训练后的权重模型来重新定义各实体之间的关系权重,并利用重新定义后的关系权重计算实体间的各不同链接组合对应的链接路径的得分,并验证正确链接路径的得分是否为最大,若不是,则可以重新调整权重模型的参数,经过类似不断重复的训练过程,直至最终验证出正确链接路径的得分为最大,此时得到的权重模型便为所需的目标权重模型。其中,所述权重初始模型可以是卷积神经网络模型、深度学习模型等等,具体可根据实际需求选择合适的初始训练模型。
在训练得到上述目标权重模型后,便可利用所述目标权重模型来确定各实体之间的关系权重,也即将所需确定关系权重的多个实体输入该模型中,输出便为其关系权重。需说明的是,可以预先利用该目标权重模型确定了各个实体之间的关系权重,以便后续对文本进行实体链接时能够直接使用,也可以在后续使用过程中,基于已有统计的错误链接数据,及时对某些已定义实体间的关系权重进行更新调整,保证各实体间的关系权重的合理性。
下面结合图3,以举例的方式对本发明实施例的具体实施方式进行说明,如图3所示,待识别文本为“张三用天鹅叙述了一个摄影师的人生轨迹”,具体实体链接过程如下:
步骤301、对该文本进行命名实体识别,得到该文本中的实体指称“张三”和“天鹅”;
步骤302、从知识图谱中分别查询实体指称“张三”和“天鹅”各自对应的候选实体,得到候选实体集合;
步骤303、对候选实体集合中的候选实体进行排列组合,得到六个链接组合;
步骤304、从知识图谱中检索出上述各候选实体间的链接路径和关系,并根据预定义的关系权重,分别计算所述六个链接组合中每个链接组合的得分,该举例中,得分=关系权重之和/路径长度;
步骤305、将得分最高的链接组合中的候选实体分别确定为上述两个实体指称对应的目标实体链接,从而得到所述文本的真实含义。
本实施例中的实体链接方法,识别文本中的至少两个实体指称;分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接。这样,通过基于文本中的多个实体指称对应的候选实体所组成的链接组合中的实体之间的关系和关系权重,来得到对应的实体链接,不仅可减少计算量,而且可依据最终得到的实体链接结果,对各实体之间的关系权重进行反向调整。
参见图4,图4是本发明实施例提供的一种实体链接装置的结构示意图,如图4所示,实体链接装置400包括:
识别模块401,用于识别文本中的至少两个实体指称;
检索模块402,用于分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;
第一确定模块403,用于根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;
第二确定模块404,用于将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接。
可选的,第一确定模块403包括:
计算子模块,用于根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分;
确定子模块,用于将得分满足预设条件的链接组合确定为目标链接组合。
可选的,所述计算子模块包括:
确定单元,用于根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径;
计算单元,用于根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分。
可选的,所述确定单元包括:
第一确定子单元,用于根据知识图谱中定义的实体与实体之间的关系,得到每个链接组合中的候选实体之间的链接关系;
第二确定子单元,用于基于所述链接关系,确定每个链接组合对应的链接路径。
可选的,所述计算单元具体用于根据每个链接组合对应的链接路径的路径长度,和该链接路径上包括的每条关系路径的权重,计算每个链接组合的得分,其中,所述得分与所述路径长度负相关,与所述权重正相关。
可选的,实体链接装置400还包括:
组合模块,用于对每个实体指称对应的候选实体进行排列组合,得到N个链接组合,其中,一个链接组合包括至少两个候选实体,每个候选实体分别与一个实体指称对应,N为大于或等于1的整数;
第一确定模块403具体用于根据所述N个链接组合中的每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合。
可选的,实体链接装置400还包括:
获取模块,用于获取多组标注文本,其中,每组标注文本中包括至少两个实体指称,且每个实体指称标注有对应的实体链接;
训练模块,用于以最大化正确链接路径的得分为目标,使用所述多组标注文本对权重初始模型进行训练,得到目标权重模型;
第三确定模块,用于利用所述目标权重模型确定各实体之间的关系权重。
实体链接装置400能够实现图1的方法实施例中的各个过程,为避免重复,这里不再赘述。本发明实施例的实体链接装置400通过基于文本中的多个实体指称对应的候选实体所组成的链接组合中的实体之间的关系和关系权重,来得到对应的实体链接,不仅可减少计算量,而且可依据最终得到的实体链接结果,对各实体之间的关系权重进行反向调整。
本发明实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时能够实现上述实体链接方法实施例中的各个过程,且能达到相同的有益效果,为避免重复,这里不再赘述。
在本发明实施例中,上述电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及服务器等。所述电子设备
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实体链接方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (7)

1.一种实体链接方法,其特征在于,包括:
识别文本中的至少两个实体指称;
分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;
根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;
将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接;
所述根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合之前,所述方法还包括:
对每个实体指称对应的候选实体进行排列组合,得到N个链接组合,其中,一个链接组合包括至少两个候选实体,每个候选实体分别与一个实体指称对应,N为大于或等于1的整数;
所述根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,包括:
根据所述N个链接组合中的每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合;
所述根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,包括:
根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分;
将得分满足预设条件的链接组合确定为目标链接组合;
所述根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分,包括:
根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径;
根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分。
2.根据权利要求1所述的方法,其特征在于,所述根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径,包括:
根据知识图谱中定义的实体与实体之间的关系,得到每个链接组合中的候选实体之间的链接关系;
基于所述链接关系,确定每个链接组合对应的链接路径。
3.根据权利要求1所述的方法,其特征在于,所述根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分,包括:
根据每个链接组合对应的链接路径的路径长度,和该链接路径上包括的每条关系路径的权重,计算每个链接组合的得分,其中,所述得分与所述路径长度负相关,与所述权重正相关。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多组标注文本,其中,每组标注文本中包括至少两个实体指称,且每个实体指称标注有对应的实体链接;
以最大化正确链接路径的得分为目标,使用所述多组标注文本对权重初始模型进行训练,得到目标权重模型;
利用所述目标权重模型确定各实体之间的关系权重。
5.一种实体链接装置,其特征在于,包括:
识别模块,用于识别文本中的至少两个实体指称;
检索模块,用于分别对所述至少两个实体指称中的每个实体指称进行检索,得到每个实体指称对应的候选实体;
第一确定模块,用于根据每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合,其中,每个链接组合包括所述至少两个实体指称中每个实体指称对应的候选实体中的一个;
第二确定模块,用于将所述目标链接组合中的候选实体确定为所述至少两个实体指称对应的实体链接;
所述实体链接装置还包括:
组合模块,用于对每个实体指称对应的候选实体进行排列组合,得到N个链接组合,其中,一个链接组合包括至少两个候选实体,每个候选实体分别与一个实体指称对应,N为大于或等于1的整数;
所述第一确定模块具体用于根据所述N个链接组合中的每个链接组合中的候选实体之间的关系和关系权重,确定目标链接组合;
所述第一确定模块包括:
计算子模块,用于根据每个链接组合中的候选实体之间的关系和关系权重,计算每个链接组合的得分;
确定子模块,用于将得分满足预设条件的链接组合确定为目标链接组合;
所述计算子模块包括:
确定单元,用于根据每个链接组合中的候选实体之间的关系,确定每个链接组合对应的链接路径;
计算单元,用于根据每个链接组合对应的链接路径的路径长度,和该链接路径的关系权重,计算每个链接组合的得分。
6.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的实体链接方法中的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的实体链接方法中的步骤。
CN202010086026.8A 2020-02-11 2020-02-11 一种实体链接方法、装置及电子设备 Active CN111309926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010086026.8A CN111309926B (zh) 2020-02-11 2020-02-11 一种实体链接方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010086026.8A CN111309926B (zh) 2020-02-11 2020-02-11 一种实体链接方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111309926A CN111309926A (zh) 2020-06-19
CN111309926B true CN111309926B (zh) 2024-01-23

Family

ID=71150958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010086026.8A Active CN111309926B (zh) 2020-02-11 2020-02-11 一种实体链接方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111309926B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950288B (zh) * 2020-08-25 2024-02-23 海信视像科技股份有限公司 一种命名实体识别中的实体标注方法及智能设备
CN112560485B (zh) * 2020-11-24 2023-04-14 北京三快在线科技有限公司 一种实体链接方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法
CN110162768A (zh) * 2018-03-09 2019-08-23 腾讯科技(深圳)有限公司 实体关系的获取方法、装置、计算机可读介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643120B2 (en) * 2016-11-15 2020-05-05 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162768A (zh) * 2018-03-09 2019-08-23 腾讯科技(深圳)有限公司 实体关系的获取方法、装置、计算机可读介质及电子设备
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法

Also Published As

Publication number Publication date
CN111309926A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN110188168A (zh) 语义关系识别方法和装置
WO2019228203A1 (zh) 一种短文本分类方法及系统
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN108536807B (zh) 一种信息处理方法及装置
US11556573B2 (en) Semantic cluster formation in deep learning intelligent assistants
CN111709223B (zh) 基于bert的句子向量生成方法、装置及电子设备
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
US11461613B2 (en) Method and apparatus for multi-document question answering
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN111309926B (zh) 一种实体链接方法、装置及电子设备
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN113158687A (zh) 语义的消歧方法及装置、存储介质、电子装置
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN113962228A (zh) 一种基于记忆网络语义融合的长文档检索方法
CN111046674B (zh) 语义理解方法、装置、电子设备和存储介质
KR20180113444A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant