CN109933785A

CN109933785A - 用于实体关联的方法、装置、设备和介质

Info

Publication number: CN109933785A
Application number: CN201910108781.9A
Authority: CN
Inventors: 汪琦; 冯知凡; 任可欣; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-02-03
Filing date: 2019-02-03
Publication date: 2019-06-25
Anticipated expiration: 2039-02-03
Also published as: CN109933785B

Abstract

根据本公开的实施例，提供了用于实体关联的方法、装置、设备和介质。实体关联的方法包括从预定义的知识库确定输入文本中的文本项的候选实体，候选实体的指称项与文本项匹配。该方法还包括获取描述候选实体的实体文本，确定输入文本与实体文本之间的语义相似度，以及基于语义相似度来确定文本项与候选实体关联的概率。以此方式，可以动态捕捉不同场景下的语义信息，提高实体关联的准确度。

Description

用于实体关联的方法、装置、设备和介质

技术领域

本公开的实施例主要涉及信息处理领域，并且更具体地，涉及用于实体关联的方法、装置、设备和计算机可读存储介质。

背景技术

在飞速发展的信息化时代，不同来源的数据呈爆炸式增长。自动化抽取以及规范数据中有价值的信息变得越来越重要。在这种情况下，提出了知识库(KB)技术，其能规范化以及组织新出现的信息并将知识以一种易接受的方式呈现。在知识库构建和更新过程中以及在基于知识库的各种应用中，经常需要采用实体关联技术。

实体关联也称为实体链接或实体标注，用于将输入文本中提及的文本项关联到知识库中的对应实体。实体是各种事物唯一的表征，而实体指称项是实体的表面形式，可能具有一定的歧义性和误导性。实体关联任务的目标是消除实体指称项具有的歧义性。通过实体关联，不仅可以利用输入文本中出现的新知识来扩充或更新文本库，而且还可以基于知识库的已有知识组织来执行其他任务，诸如内容推荐，搜索、对话等场景中的用户意图理解，等等。

发明内容

根据本公开的示例实施例，提供了一种用于实体关联的方案。

在本公开的第一方面中，提供了一种实体关联的方法。该方法包括从预定义的知识库确定输入文本中的文本项的候选实体，候选实体的指称项与文本项匹配；获取描述候选实体的实体文本；确定输入文本与实体文本之间的语义相似度；以及基于语义相似度来确定文本项与候选实体关联的概率。

在本公开的第二方面中，提供了一种用于实体关联的装置。该装置包括候选确定模块，被配置为从预定义的知识库确定输入文本中的文本项的候选实体，候选实体的指称项与文本项匹配；实体文本获取模块，被配置为获取描述候选实体的实体文本；相似度确定模块，被配置为确定输入文本与实体文本之间的语义相似度；以及关联概率确定模块，被配置为基于语义相似度来确定文本项与候选实体关联的概率。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的环境的示意图；

图2示出了根据本公开的一些实施例的基于语义的概率确定系统的示意框图；

图3A示出了根据本公开的一些实施例的图2的处理部分的示意框图；

图3B示出了根据本公开的一些实施例的图2的另一处理部分的示意框图；

图4示出了根据本公开的一些实施例的用于训练基于语义的概率确定系统的架构的示意框图；

图5示出了根据本公开的一些实施例的用于确定概率的置信度的系统的示意框图；

图6示出了根据本公开的一些实施例的实体关联的方法的流程图；

图7示出了根据本公开的实施例的用于实体关联的装置的示意框图；以及

图8示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，针对知识库的实体关联具有许多应用。当前已经存在一些用于解决实体关联的技术。在一些常规方案中，如果文本中的某个文本项与知识库中的多个候选实体均匹配，通常基于各个候选实体的搜索/关注热度、候选实体的别名等技术来实现。例如，如果文本中出现的文本项“刘德华”与歌手刘德华的指称项匹配，并且歌手刘德华对应的知识库中的实体的热度非常高，那么可能这个文本项将被关联到对应的实体。这样的文本关联方案没有准确理解文本和实体的上下文语义，导致关联的准确度不高。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在环境100中，计算设备110被配置为确定输入文本112中的一个或多个文本项是否能够关联到知识库120中的实体。在此使用的术语“文本项”指的是文本中的一个或多个连续的字和词。为了便于理解基于知识库的实体关联，首先简单介绍知识库。

在文本中所使用的“知识库”(KB)也被称为“知识图谱(KG)”或“知识图”，这些术语在本文中可互换地使用。知识库是大量知识的集合。知识库可以包括多个实体以及它们之间的关系，以用于表示相应知识。知识的示例例如为“刘德华的老婆是朱丽倩”、“刘德华的职业是歌手”、“刘德华的生日是1961年9月27日”等事实或现象。

在此所述的“实体”指的是真实世界中存在的各种对象和概念，诸如人物、地理位置、组织、品牌、职业、日期等等。在以上知识的示例中，“实体”包括人物“刘德华”和“朱丽倩”，职业“歌手”，日期“1961.9.27”。在此所述的“关系”指代两个实体之间的关联，例如刘德华与朱丽倩之间的关系为夫妻。在此所述的“属性”指代实体本身的性质。以人物为例，其属性可以包括职业、生日、代表作、年龄、身高、体重、性别等。实体的属性有时也可以被认为是实体的一种名词性关系，因此知识库描述了各个实体的一个或多个关系。

为了方便计算机的处理和理解，知识库中的知识可以以三元组(triple)的形式来表示，三元组例如为(第一实体，关系/属性，第二实体)。例如，知识“刘德华的老婆是朱丽倩”可以用三元组表示为(Liu Dehua，Wife，Zhu Liqian)。在本文中，关系或属性(诸如，Wife)也被称为“谓词”，具有相应关系或属性的两个实体可以作为“主语”或“宾语”。如果将一个实体看作是一个结点，将实体间的关系和属性等看作是一条边，那么包含了大量三元组的知识库就形成了庞大的知识图。通过将实体、关系/属性等实体进行关联，可以从知识库中容易地获取相应知识。

在知识库中，为了便于区别，不同的实体可以被指派相应的标识(ID)，这样的标识能够唯一地标识出对应的实体。此外，每个实体可以具有一个或多个指称项(也可以叫名称、提及词、实体字符等)，用于指代对应的实体。对于具有多个指称项的实体，这些指称项可以是同义词、同一对象的不同称呼，等等。例如，对于实体“刘德华”，除了指称项“刘德华”之外，还有该歌手的其他名称，诸如昵称“华仔”、英文名“Andy Lau”等都可以作为该实体的指称项。在一些情况下，不同实体也可能具有同一指称项，例如，与歌手“刘德华”对应的实体和与大学教授“刘德华”对应的实体均具有指称项“刘德华”。

在图1中还示出了知识库120中的示例知识部分122。知识部分122示出了实体201具有指称项“刘德华”，并且该实体131的属性“性别”132指向具有指称项“男性”的实体133，这指示了知识“刘德华的性别是男性”；实体131与具有指称项“朱丽倩”的实体135之间的关系是“夫妻”134，这指示了知识“刘德华和朱丽倩是夫妻关系”；实体131的“职业”属性136指向具有指称项“歌手”的实体137，这指示了知识“刘德华的职业是歌手”。除了歌手刘德华的相关知识之外，知识部分122中还具有一个实体141，其也具有指称项“刘德华”。实体141的属性“性别”142指向实体133，这指示了知识“[实体141对应的]刘德华的性别是男性。实体141的“职业”属性142指向具有指称项“大学教授”的实体143，这指示了知识“刘德华的职业是大学教授”。实体141的“专业”属性144指向了具有指称项“应用化学”的实体145，这指示了知识“刘德华的专业是应用化学”。

应当理解，图1中示出的输入文本112、输出114以及知识部分122及其布置方式仅仅是一个具体示例。例如，知识库120中的知识可以以处理图形结构之外的其他方式被布置。在其他示例中，知识库120可以包含更多的、更少的或者不同的知识和/或以其他方式被布置和呈现的指示。图1仅示出了各个实体的单个指称项，在其他实施例中，一个或多个实体可以具有多个指称项。例如，实体131的指称项可以包括他的昵称“华仔”、英文名“AndyLau”等称呼。

图1的知识库120可以是任何已有或将要开发的知识库，其示例包括但不限于Freebase、DBpedia、YAGO、开放信息提取(OpenInformation Extraction，Open IE)、不停语言学习(Never-EndingLanguage Learning，NELL)等等。应当理解，知识库120可以被存储在任何存储系统、存储设备、数据库中。知识库120中的知识可以被不断扩充、删减、修改和/或更新。

在执行实体关联时，计算设备110可以利用文本项之间的字符或词语级别匹配来确定知识库120中与输入文本112匹配的候选实体。例如，针对输入文本112，可以确定实体131和141均与输入文本112中的文本项“刘德华”匹配，而实体137与文本项“歌手”匹配。计算设备110需要进一步确定是否能够将输入文本112中的文本项“刘德华”和“歌手”关联到的知识库120中的实体，并输出关联结果114。如果确定可以关联，关联结果114可以指示这样的实体关联关系，例如可以在相应文本项下增加超链接，用于连接到与实体131和137相关联的可访问内容或知识库本身。当然，除视觉呈现关联之外或者作为备选，关联结果114还可以被应用于各种场景，诸如针对用户的内容推荐、在对话或搜索场景下的用户意图理解，在文档处理或文本比较场景(诸如机器翻译场景)中对文本的理解等等。

根据本公开的实施例，提出了一种改进的实体关联方案。在该方案中，将输入文本中文本项的候选实体扩展成相应实体文本，从而通过文本的语义相似度来确定文本项是否能够关联到候选实体。以此方式，通过将实体关联技术转换成语义相似度问题，可以动态捕捉不同场景下的语义信息，提高实体关联的准确度。此外，本方案可以通用于不同输入文本中的实体关联，对于长文本和短文本以及由不同语言表示的文本和实体，均可以实现准确的实体关联。

根据本公开的实施例的方案可以被实现在图1的计算设备110中。为便于描述，以下将参照图1进行讨论。计算设备110获得的输入文本112可以来自各种来源，例如可以由用户输入，或者可以是电子文档的全部或部分内容。电子文档的示例可以包括超文本标记语言(HTML)文件(也称为网页)、word文档、演示文档、便携式文档格式(PDF)文档、电子表格文档、纯文本文档，等等。对输入文本112的文档的实体关联操作的触发可以是由用户输入触发或者可以基于与时间和/或事件相关的其他条件。

在确定要对输入文本112执行实体关联时，计算设备110从知识库120确定针对输入文本112中的文本项的候选实体。候选实体的确定基于文本项与候选实体的指称项的匹配。文本项与指称项的匹配涉及字符级别的匹配，可以是相同词、同义词、同一对象的不同称呼等。在一些实施例中，可以预先构建知识库120中各个实体的别名字典或列表，其包含各个指称项对应的一个或多个实体。计算设备110可以确定输入文本112中的一个文本项对应的一个或多个候选实体。在一些情况下，计算设备110可以标识出输入文本112中的多个文本项分别都具有对应的一个或多个候选实体。在图1的示例中，计算设备110可以确定知识库120中的实体131和141的指称项均与输入文本112中的文本项“刘德华”匹配，可以作为该文本项的候选实体。此外，计算设备110还确定知识库120中的实体137的指称项与输入文本112中的文本项“歌手”匹配。

针对每个文本项，计算设备110可以确定该文本项是否与某个候选文本关联。计算设备110获取描述候选实体的实体文本，以将候选实体从实体级别扩展到文本级别来执行文本关联任务。描述候选实体的实体文本可以是已知的与该候选实体相关联的内容。这样的内容可以来自知识库120中的已有知识和/或知识库120外部的内容源(已知与该候选实体关联)。在存在多个候选实体时，可以获取每个候选实体对应的实体文本。

在一些实施例中，实体文本可以包括候选实体的摘要信息和/或候选实体的属性信息，这些信息可以来自知识库120中的知识，可以被预先编辑和存储。摘要信息用于简要描述候选实体，提供对该实体的基本认知，属性信息则包含该实体的一个或多个方面的属性的取值。例如，针对文本项“刘德华”的候选实体131，可以确定实体文本包括“刘德华的职业是歌手”、“刘德华是中国香港男演员、歌手、制片人、填词人”等。在一些实施例中，实体文本的部分或全部还可以包括已关联到该候选实体的另一文本项所处的上下文内容，例如某个网页中对该候选实体的描述信息。

输入文本112包含文本项，因此也可以被认为是该文本项的上下文文本。在输入文本112被包括在更大文本或文档的情况中，可以扫描该文档的内容，并且将具有候选实体的文本项前后的文本内容提取作为输入文本112。输入文本112以及实体文本可以具有任意长度，本公开的实施例在此方面不做具体限定。

在输入文本112和某个候选实体的实体文本的基础上，计算设备110确定输入文本与实体文本之间的语义相似度，以基于这样的语义相似度来确定文本项与候选实体关联的概率。文本项与候选实体关联的概率和输入文本与实体文本之间的语义相似度正相关，即，语义相似度越高，则关联的概率越大。例如，可以设置一个关联得分，用于表示文本项与给定候选实体之间的关联的概率。在一些示例中，这样的得分可以直接被设置为所确定语义相似度，或者可以与语义相似度成正比。如果某个文本项具有多个候选实体，针对每个候选实体，均可以基于输入文本与相应实体文本之间的语义相似度来确定关联的概率。

在一些实施例中，在确定多个候选实体对应的关联的概率之后，可以基于概率对候选实体进行排序，并将排序靠前(即概率较高或概率最高的)候选实体选择用于将文本项进行关联，即作为文本项关联到的目标实体。在另外一些实施例中，如果仅具有一个候选实体或者作为在多个候选实体情况下的备选方案，可以设置概率阈值。如果所确定的概率大于概率阈值，该实体文本对应的候选实体可以被选择，并且可以将文本项关联到该实体。在另外一些实施例中，除了所确定的概率之外，还可以进一步基于概率确定相应的置信度用于指导实体关联。这将在下文详细描述。

在确定语义相似度时，可以利用各种当前已有的自然语言处理和文本处理技术来计算语义相似度。在一些实施例中，可以基于机器学习或深度学习技术来确定语义相似度。图2示出了基于学习网络的基于语义的概率确定系统200的示意框图。如图2所示，系统200包括针对输入文本112的处理部分201，其中包括输入层处理模块210和特征提取模块230。系统200还包括针对实体文本(在此标记为205)的处理部分202，其中包括输入层处理模块220和特征提取模块240。

输入层处理模块210被配置为将输入文本112处理为相应的文本向量表示(为便于描述，有时也称为“第一文本向量表示”)，和/或从输入文本112中提取自定义特征。类似地，输入层处理模块220被配置为将实体文本205处理为相应的向量表示(为便于描述，有时也称为“第二文本向量表示”)，和/或从输入文本205中提取自定义特征。

特征提取模块230接收输入层处理210的处理结果，并执行语义特征提取，以获得输入文本112的语义特征(为便于描述，有时也称为“第一语义特征”)。特征提取模块240接收输入层处理220的处理结果，并执行语义特征提取，以获得实体文本205的语义特征(为便于描述，有时也称为“第二语义特征”)。

图3A示出了针对输入文本112的处理部分201的一个示例结构。如图3A所示，处理部分201中的输入层处理模块210包括向量确定模块312和自定义特征确定模块314，分别用于执行文本向量表示的确定和自定义特征的计算。

具体地，向量确定模块312被配置为确定输入文本112的文本向量表示。向量确定模块312可以基于文本项与向量表示之间的预定映射关系来确定。这样的映射关系指示多个文本项与对应的向量表示之间的映射。向量确定模块312将输入文本112划分成多个文本项，确定每个文本项对应的向量表示，并且将这些向量表示组合得到输入文本112的文本向量表示。

在本文中，文本项的“向量表示”也可以被称为文本项的向量编码或嵌入(embedding)。每个文本项的向量表示可以由一定维度的多个数值组成。不同文本项的向量表示的维度可以相同，但其中包含的数值不同。文本项的向量表示之间的距离、差异或相似度还可以指示不同文本项之间的语义相似度。通过将文本项映射为向量表示来执行处理，可以有效规避语言之间的差异性，降低了应用局限性。

文本项与对应的向量表示之间的映射关系可以通过训练预定学习模型来确定。用于确定文本向量表示的学习模型例如可以包括独热编码、连续词袋(cbow)模型、skip-gram模型等等。在一些实施例中，可以以不同粒度划分文本，得到不同粒度的文本项，并且确定不同粒度的文本项与相应向量表示之间的映射关系。例如，针对由字符组成单词的语言，向量确定模块312可以利用字符与向量表示之间的映射关系来确定字符级别的向量表示，其中输入文本112的每个字符被映射到相应的向量表示，并且所有字符的向量表示被组合得到字符级向量表示。备选地或附加地，向量确定模块312还可以诸如通过分词技术，将输入文本112划分成各个单词或词语，并且利用单词与向量表示之间的映射关系来确定词级向量表示。词级向量表示可以由各个词对应的向量表示组合得到。应当理解，还可以以其他粒度划分文本，并确定对应粒度级别的向量表示。不同粒度级别的向量表示可以单独或共同组成输入文本112的文本向量表示。

自定义特征确定模块314被配置为确定与输入文本112相关的文本属性信息，以作为输入文本112的自定义特征。自定义特征是相对于基于深度学习得到的特征而言的，自定义特征通常指的是按照简单规则确定的、用于指示知识元素和/或文本的某个方面的特性。相对于深度学习特征而言，自定义特征也可以被称为浅层特征。在一些实施例中，自定义特征确定模块314确定的文本属性信息可以包括输入文本112中的一个或多个文本项(例如，分词后得到的结果)的词性。所确定的词性可以指示对应文本项是否是名词、动词、形容词、副词、虚词等类别。此外，对于每个词性类别，还可以进一步细化，例如，名词还可以被细化为人物名词、地点名词、物体名词等等。

备选地或附加地，自定义特征确定模块314还可以确定输入文本112中各个文本项的位置信息。文本项的位置信息指示各个文本项在输入文本112中的相对位置。位置信息的引入可以更好地捕捉各个文本项的上下文位置关系，有助于进一步修正语义偏差。在一些实施例中，还可以基于预定映射关系，将位置信息也映射成对应的位置向量表示。在一些实施例中，如果以不同粒度(例如，字符、词等粒度)，可以确定不同粒度的文本项对应的位置信息。应当理解，自定义特征确定模块314还可以确定与输入文本112相关的其他属性信息，诸如输入文本112的文本长度指示，其可以由诸如包括总字符数目、总词数目、或者其他粒度的文本项来表示。其他属性信息还可以包括输入文本112的来源的置信度、输入文本112的文本格式、输入文本112的文本分类等等。

向量确定模块312确定的文本向量表示和自定义特征确定模块314确定的一个或多个自定义特征被提供到特征提取模块230。特征提取模块230可以基于神经网络来实现文本特征提取。如图3A所示，特征提取模块230可以包括多个网络层332、……334、336等。特征提取模块230可以基于各种类型的神经网络模型，其示例包括卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆(LSTM)模型。

如本文所使用的，术语“神经网络”指的是这样的一个模型，该模型能够从训练数据中学习到相应的输入与输出之间的映射关系，从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“神经网络”有时也可以被称为“学习网络”、“学习模型”、“网络”或“模型”。这些术语在本文中可互换地使用。通过神经网络的应用，可以使得实体关联任何的自适应性更强，并且能够更好刻画不同语义、语境下文本之间的相似度。此外，神经网络的应用可以基于端到端的训练来实现预期任务，避免了人工特征转换、特征工程和特征组合等繁琐工作。

特征提取模块230可以包括一个或多个神经网络模型中的一个或多个网络层。例如，特征提取模块230中的网络层332、……334可以包括用于CNN中的通过滑动窗口捕捉文本的上下文信息的卷积层、用于捕捉全局上下文的池化层，等等。可以根据需要变化特征提取模块230的网络层的配置，包括网络层的类型、数目、连接关系等，本公开的实施例的范围在此方面不受限制。作为最后一个层，在图3A的示例中，全连层336被具体示出为是全连层，其将前一层的输出综合起来考虑，并且可以通过全连层的配置而控制输出的语义特征的维度。在一些实施例中，全连层336可以将先前网络层确定的高维向量转换为较低维度的语义特征。

自定义特征确定模块314提取的自定义特征的部分或全部可以被输入到特征提取模块230的第一个网络层332，用于与输入文本112的文本向量表示一起进行特征提取。备选地或附加地，自定义特征确定模块314提取的自定义特征的部分或全部也可以被输入到特征提取模块230的最后一个网络层，即全连层336，用于与经过之前的多个网络层处理后得到的特征表示进行结合，以生成输入文本112的语义特征。在图3A的示例中，示出了从输入文本112确定的部分自定义特征，例如输入文本112中各个文本项的位置向量表示，被提供给特征提取模块230的第一个网络层332，而另一部分自定义特征，例如输入文本112中各个文本项的词性，可以被直接提供给最后的全连层336。应当理解，图3A仅是一个具体示例。自定义特征可以以任何其他方式来影响输入文本112的语义特征提取或者直接影响语义相似度确定。例如，自定义特征确定模块314提取的自定义特征的部分或全部甚至可以与全连层336的输出(即通过神经网络提取到的语义特征)进行组合(例如，通过级联进行组合)，并且将组合结果提供到基于语义的相似度确定模块250。

以上描述了针对输入文本112的处理部分201的具体示例。图3B还示出了针对实体文本205的处理部分202的一个示例结构。与处理部分201类似，处理部分202中的输入层处理模块220包括向量确定模块322和自定义特征确定模块324，分别用于执行文本向量表示的确定和自定义特征的计算。

具体地，向量确定模块322被配置为基于文本项与向量表示之间的预定映射关系来确定实体文本205的文本向量表示，其例如可以包括不同粒度级的向量表示。向量确定模块322的向量表示确定与向量确定模块312类似，在此不再赘述。

自定义特征确定模块324被配置为确定与实体文本205相关的文本属性信息，以作为实体文本205的自定义特征。实体文本205的自定义特征可以包括与对应候选实体相关的特征。在一些实施例中，自定义特征确定模块324可以确定与候选实体对应的实体向量表示。实体向量表示可以基于实体与向量表示之间的预定映射关系来确定。不同于针对输入文本或实体文本的向量表示，实体向量表示是在实体标识级别的向量化。针对知识库120或者包括知识库120的更大知识库，具有同一标识的实体被映射到同一向量表示，而不管该实体的指称项如何。在一些实施例中，映射关系可以基于知识库120中或其他知识库的知识来构建，例如可以考虑各个实体的主谓宾(SPO)信息、属性信息、关系信息等等。由此，可以实现基于知识库知识来驱动语义相似度确定，并且可以更深刻捕捉输入文本与实体之间的关联。

除实体向量表示之外或者作为备选，自定义特征确定模块324还可以确定与实体文本205中各个文本项的位置信息。类似于输入文本112的位置信息，实体文本205的位置信息也可以被映射对应的位置向量表示。在一些实施例中，如果以不同粒度(例如，字符、词等粒度)，可以确定不同粒度的文本项对应的位置信息。

在一些实施例中，自定义特征确定模块324还可以确定与候选实体相关的实体属性信息，诸如候选实体的类型、热度、贡献度等等。备选地或附加地，自定义特征确定模块324还可以确定与实体文本相关的属性信息，诸如实体文本中的一个或多个文本项的词性、实体文本的文本长度等等。

向量确定模块322确定的文本向量表示和自定义特征确定模块324确定的一个或多个自定义特征被提供到特征提取模块240。与特征提取模块230类似，特征提取模块240也可以基于神经网络来实现文本特征提取。如图3B所示，特征提取模块240可以包括多个网络层342、……344、346等，其中最后的网络层346被示出为是全连层。特征提取模块240可以基于各种类型的神经网络模型，例如可以包括CNN、RNN和/或LSTM等模型的一个或多个网络层。特征提取模块240的网络层的配置，包括网络层的类型、数目、连接关系等，可以与特征提取模块230的相同或者不同。在一些实施例中，如下文将详细阐述的，特征提取模块230和240的不同之处至少在于：在模型训练阶段中，这两个模块可以以参数不共享的方式进行训练，从而可以这两个模型可以分别适合于捕捉输入文本类型的语义特征和实体文本类型的语义特征。

自定义特征确定模块324确定的自定义特征可以部分或全部输入到特征提取模块240的第一网络层342、最后的全连层346，或者可以与全连层346的输出组合在一起用于后续处理。图3B中仅示出了自定义特征确定模块324将所确定的自定义特征，例如与候选实体的向量表示以及相关的属性信息一起输入到全连层346，以与先前网络层提取到的实体文本205的特征信息一起组合，得到实体文本205的语义特征。在一些实施例中，自定义特征确定模块324确定的实体文本205相关的位置信息、诸如位置向量表示，可以被提供给特征提取模块240的第一个网络层。

特征提取模块230和特征提取模块240提取的语义特征被提供给基于语义的相似度确定模块250。继续参考图2，基于语义的相似度确定模块250被配置为基于接收到的两个语义特征来确定输入文本112与实体文本205之间的语义相似度，并且可以基于语义相似度来确定文本项与当前候选实体关联的概率。通常，语义特征被表示为一定维度的向量的形式。因此，可以基于以用于确定向量相似度的多种方法来确定语义相似度，诸如可以确定语义特征之间的欧式距离、余弦距离等等。以下公式(1)示出了基于余弦距离的语义相似度计算的示例。

其中，D₁和D₂分别表示输入文本112和实体文本205，和表示两个文本的语义特征，R(D₁,D₂)为两个文本的相似度。应当理解，公式(1)仅是另一个具体示例，还可以以各种其他方式来确定语义相似度。关联的概率可以被确定为与语义相似度成正相关。

在一些实施例中，基于语义的概率确定模块250还可以基于排序算法来确定某个文本项与各个候选实体关联的概率。基于排序算法，可以利用一个或多个候选实体对应的实体文本的语义特征以及输入文本112的语义特征，确定这些候选实体的相对顺序。在这样的实现中，可以以文本项与一个或多个候选实体关联的概率来指示各个候选实体的相对排序，即概率越大，排序可以越靠前。在排序过程中，实体文本205与输入文本112在语义上的相似程度将影响基于语义的概率确定模块250的排序确定。排序算法的示例可以包括支持向量机(SVM)、XGBoost，等等。这些算法在机器学习领域中经常被使用，因此其具体过程不再具体描述。在一些实施例中，基于语义的概率确定模块250可以利用当前已知的或将来待开发的任何其他基于排序的算法。

以上详细讨论了基于语义的概率确定系统。通常，虽然用于向量确定的模型可以被预先训练和定义。在基于神经网络来实现时，特征提取模块230和240以及基于语义的概率确定模块250的参数需要基于与相应处理任务(即文本相似度计算)相关的训练数据，通过训练过程来确定。图4示出了用于训练基于语义的概率确定系统200的训练架构400的示例。如以上提及的，在训练的初始阶段，要训练的各个模块的参数集可以被初始化。在训练过程中，这些参数集的取值可以不断更新和优化，在达到收敛时参数集的取值被确定以供后续使用。

在训练过程中，用于训练的训练数据包括训练输入文本402，针对训练输入文本402的正例，即已知与训练输入文本402中的一个文本项关联的实体对应的实体文本405，以及针对训练输入文本402的负例，即已知与训练输入文本402中的一个文本项无法关联的实体对应的实体文本405’。针对训练输入文本402中的一个文本项，可以存在一个或多个正例和一个或多个负例。针对正例和负例，构造处理部分202的两个模型框架，用于分别对正例和负例进行处理。在训练过程中，这两个处理部分的参数共享，也即可以同时更新这两个处理部分的参数，使得这两部分的参数保持相同。

输入层处理模块210和220对于训练输入文本和实体文本的处理与以上描述的操作类似，特征提取模块230和240基于当前参数集的取值来处理从输入层处理模块210和220接收到的输入。基于语义的概率确定模块250基于来自特征提取模块230和240的当前语义特征来确定训练输入文本402与正例实体文本405的语义相似度，以及训练输入文本402与负例实体文本405’的语义相似度。基于语义的概率确定250然后基于语义相似度来确定训练输入文本402与正例实体文本405关联的概率以及与负例实体文本405’关联的概率。

然后，可以基于所确定的概率与真实概率之间的差异，并基于这样的差异可以确定构建相应的损失函数。在基于排序算法的实现中，训练过程可以基于排序损失来构造模型的损失函数。在训练过程中，可以利用诸如交叉熵来度量损失函数，使用梯度下降方法等来优化模型参数，使得达到模型收敛的目标。在收敛时各个参数的取值将作为已训练的参数集的取值。通过这个方式，可以确定特征提取模块230、240的处理参数。

如以上提及的，计算设备110针对输入文本112中的每个文本项的每个候选实体，均可以基于输入文本与文本实体之间的语义相似度来确定能够关联到相应候选实体的概率。在一些实施例中，计算设备110除了所确定的概率之外，还可以进一步基于概率确定相应的置信度用于指导实体关联。这是因为在知识库的已有实体中，虽然可以确定某些候选实体与当前输入文本中的文本项之间关联的概率，但在知识库中的知识不全面的情况下，这些候选实体可能实际上均无法关联到该文本项。例如，该文本项可能实际指示的是在知识库中不存在的实体。这种情况下，可以通过概率的置信度确定来进一步衡量是否应当将文本项关联到候选实体之一。这个置信度的作用在于确定是否将候选实体标记为文本项被关联到的目标实体。

在一些实施例中，针对多个候选实体中被确定为具有关联的最大概率的候选实体，或者基于依赖概率的策略选择出用于关联的候选实体，确定由系统200计算的该候选实体所对应的概率的置信度。这样的候选实体被认为是具有与输入文本112中给定文本项的潜在关联。在图1的示例中，可以确定输入文本112中文本项“刘德华”对应的候选实体131和141的概率。如果系统200确定文本项“刘德华”与候选实体131关联的概率高于与候选实体141关联的概率，则可以继续确定文本项“刘德华”与候选实体131关联的概率的置信度如何。

图5示出了用于确定概率的置信度的系统500的示意框图。如图5所示，概率的置信度的确定也基于输入文本112，并且还基于具有潜在关联的候选实体的实体文本205。系统500包括针对输入文本112的处理部分501，其包括输入层处理模块510和特征提取模块530。系统500还包括针对实体文本205的处理部分502，其包括输入层处理模块520和特征提取模块540。处理部分501和处理部分502中对输入文本112和实体文本205的处理与系统200中的处理部分201和处理部分202相同或类似。

对于处理部分502而言，区别在于除实体文本205之外，处理部分502还处理针对输入文本112中给定文本项的各个候选实体对应的概率集503。如以上已经详细讨论的，针对每个候选实体，均可以基于由系统200计算的语义相似度来确定给定文本项与该候选实体关联的概率。处理部分502，例如处理部分502中的自定义特征模块(未示出)可以基于概率集503中的各个概率来确定概率相关特征。概率相关特征可以包括与各个概率相关的统计特征，例如可以包括这些概率中的最大值、最小值、均值、中值、方差中的一个或多个。

概率相关特征可以被输入到特征提取模块540中的最后一个网络层(例如，全连层)或第一个网络层，用于影响实体文本205的语义特征的确定。在另外一些实施例中，概率相关特征可以与最后一个网络层的输出一起组合，以提供到置信度确定模块550。置信度确定模块550可以确定实体文本205的概率的置信度，其中置信度的确定可以基于处理部分501确定的输入文本112的语义特征，处理部分502确定的实体文本205的语义特征，以及在一些情况下基于独立接收到的概率相关特征。在一些实施例中，置信度确定模块550可以基于softmax函数来执行二分类，所确定的置信度可以指示实体文本205对应的概率可靠或不可靠。

在一些实施例中，处理部分501和处理部分502中的一个或多个模块的处理参数和/或处理结果可以复用系统200中的处理部分201和处理部分202的处理参数和/或处理结果。例如，处理部分501可以与处理部分201相同，在确定置信度时，可以直接利用处理部分201确定的输入文本112的语义特征。处理部分502也可以复用处理部分202，同时对处理部分202中的自定义特征确定模块324被修改为进一步基于概率集503来确定概率相关特征，并提供到特征提取模块240的某个网络层。

在一些实施例中，系统500还需要单独训练其中的一些参数，特别是置信度确定模块550的参数。系统500的训练过程与系统200类似，但在这个训练过程中，训练参数还包括各个候选实体的概率。

虽然以上提到在多个候选实体情况下对概率置信度的确定。在一些实施例中，如果针对给定文本项，仅存在单个候选实体，也可以利用系统500来确定该候选实体所对应的概率的置信度。在这种情况下，概率集503中仅包括单个候选实体对应的概率。在一些实施例中，如果置信度指示当前候选实体对应的概率不可信，那么计算设备110可以不将输入文本112中对应的文本项关联到知识库120中的任何实体。

图6示出了根据本公开的一些实施例的实体关联的方法600的流程图。方法600可以由图1的计算设备110来实现。为便于讨论，将参照图1来描述方法600。应当理解，虽然以特定顺序示出，方法600中的一些步骤可以以与所示出的不同顺序或者以并行方式执行。本公开的实施例在此方面不受限制。

在610，计算设备110从预定义的知识库确定输入文本中的文本项的候选实体，候选实体的指称项与文本项匹配。在620，计算设备110获取描述候选实体的实体文本。在630，计算设备110确定输入文本与实体文本之间的语义相似度。在640，计算设备110基于语义相似度来确定文本项与候选实体关联的概率。

在一些实施例中，实体文本包括以下至少一项：候选实体的摘要信息、候选实体的属性信息以及已关联到候选实体的另一文本项所处的上下文内容。

在一些实施例中，确定语义相似度包括：基于文本项与向量表示之间的预定映射关系，将输入文本和实体文本分别映射到第一文本向量表示和第二文本向量表示；从第一文本向量表示和第二文本向量表示提取输入文本的第一语义特征和实体文本的第二语义特征；以及基于第一语义特征和第二语义特征来确定语义相似度。

在一些实施例中，确定语义相似度还包括：还基于以下至少一项来确定语义相似度：候选实体对应的实体向量表示，实体向量表示基于实体与向量表示之间的预定映射关系来确定，与候选实体相关的实体属性信息，实体属性信息包括候选实体的类型、热度和贡献度中的至少一项，与实体文本相关的文本属性信息，文本属性信息包括以下至少一项：实体文本中的文本项的词性，以及实体文本中的文本项的位置信息，以及与输入文本相关的文本属性信息，文本属性信息包括以下至少一项：输入文本中的文本项的词性，以及输入文本中的文本项的位置信息。

在一些实施例中，提取第一语义特征和第二语义特征包括：利用第一特征提取模块，从第一文本向量表示提取第一语义特征；以及利用第二特征提取模块，从第二文本向量表示提取第二语义特征，第一特征提取模块与第二特征提取模块不同。

在一些实施例中，方法600还包括：从知识库确定针对文本项的另一候选实体，另一候选实体的指称项与文本项匹配；确定文本项与另一候选实体关联的另一概率，概率大于另一概率；基于概率和另一概率来确定概率相关特征；以及基于实体文本、输入文本以及概率相关特征，确定概率的置信度，置信度用于确定是否将候选实体标记为文本项被关联到的目标实体。

图7示出了根据本公开实施例的用于实体关联的装置700的示意性框图。装置700可以被包括在图1的计算设备110中或者被实现为计算设备110。如图7所示，装置700包括候选确定模块710，被配置为从预定义的知识库确定输入文本中的文本项的候选实体，候选实体的指称项与文本项匹配。装置700还包括实体文本获取模块720，被配置为获取描述候选实体的实体文本.装置700还包括相似度确定模块730，被配置为确定输入文本与实体文本之间的语义相似度，以及关联概率确定模块740，被配置为基于语义相似度来确定文本项与候选实体关联的概率。

在一些实施例中，相似度确定模块730包括：向量化模块，被配置为基于文本项与向量表示之间的预定映射关系，将输入文本和实体文本分别映射到第一文本向量表示和第二文本向量表示；特征提取模块，被配置为从第一文本向量表示和第二文本向量表示提取输入文本的第一语义特征和实体文本的第二语义特征；以及基于特征的相似度确定模块，被配置为基于第一语义特征和第二语义特征来确定语义相似度。

在一些实施例中，相似度确定模块730还被配置为还基于以下至少一项来确定语义相似度：候选实体对应的实体向量表示，实体向量表示基于实体与向量表示之间的预定映射关系来确定，与候选实体相关的实体属性信息，实体属性信息包括候选实体的类型、热度和贡献度中的至少一项，与实体文本相关的文本属性信息，文本属性信息包括以下至少一项：实体文本中的文本项的词性，以及实体文本中的文本项的位置信息，以及与输入文本相关的文本属性信息，文本属性信息包括以下至少一项：输入文本中的文本项的词性，以及输入文本中的文本项的位置信息。

在一些实施例中，特征提取模块包括：第一特征提取模块，被配置为从第一文本向量表示提取第一语义特征；以及第二特征提取模块，被配置为从第二文本向量表示提取第二语义特征，第一特征提取模块与第二特征提取模块不同。

在一些实施例中，装置700还包括：另一候选确定模块，被配置为从知识库确定针对文本项的另一候选实体，另一候选实体的指称项与文本项匹配；另一关联概率确定模块，被配置为确定文本项与另一候选实体关联的另一概率，概率大于另一概率；概率相关特征确定模块，被配置为基于概率和另一概率来确定概率相关特征；以及置信度确定模块，被配置为基于实体文本、输入文本以及概率相关特征，确定概率的置信度，置信度用于确定是否将候选实体标记为文本项被关联到的目标实体。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。设备800可以用于实现图1的计算设备110。如图所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如方法600。例如，在一些实施例中，方法600可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的方法600的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法600。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种实体关联的方法，包括：

从预定义的知识库确定输入文本中的文本项的候选实体，所述候选实体的指称项与所述文本项匹配；

获取描述所述候选实体的实体文本；

确定所述输入文本与所述实体文本之间的语义相似度；以及

基于所述语义相似度来确定所述文本项与所述候选实体关联的概率。

2.根据权利要求1所述的方法，其中所述实体文本包括以下至少一项：所述候选实体的摘要信息、所述候选实体的属性信息以及已关联到所述候选实体的另一文本项所处的上下文内容。

3.根据权利要求1所述的方法，其中确定所述语义相似度包括：

基于文本项与向量表示之间的预定映射关系，将所述输入文本和所述实体文本分别映射到第一文本向量表示和第二文本向量表示；

从所述第一文本向量表示和所述第二文本向量表示提取所述输入文本的第一语义特征和所述实体文本的第二语义特征；以及

基于所述第一语义特征和所述第二语义特征来确定所述语义相似度。

4.根据权利要求3所述的方法，其中确定所述语义相似度还包括：

还基于以下至少一项来确定所述语义相似度：

所述候选实体对应的实体向量表示，所述实体向量表示基于实体与向量表示之间的预定映射关系来确定，

与所述候选实体相关的实体属性信息，所述实体属性信息包括所述候选实体的类型、热度和贡献度中的至少一项，

与所述实体文本相关的文本属性信息，所述文本属性信息包括以下至少一项：所述实体文本中的文本项的词性，以及所述实体文本中的文本项的位置信息，以及

与所述输入文本相关的文本属性信息，所述文本属性信息包括以下至少一项：所述输入文本中的文本项的词性，以及所述输入文本中的文本项的位置信息。

5.根据权利要求3所述的方法，其中提取所述第一语义特征和所述第二语义特征包括：

利用第一特征提取模块，从所述第一文本向量表示提取所述第一语义特征；以及

利用第二特征提取模块，从所述第二文本向量表示提取所述第二语义特征，所述第一特征提取模块与所述第二特征提取模块不同。

6.根据权利要求1所述的方法，还包括：

从所述知识库确定针对所述文本项的另一候选实体，所述另一候选实体的指称项与所述文本项匹配；

确定所述文本项与所述另一候选实体关联的另一概率，所述概率大于所述另一概率；

基于所述概率和所述另一概率来确定概率相关特征；以及

基于所述实体文本、所述输入文本以及所述概率相关特征，确定所述概率的置信度，所述置信度用于确定是否将所述候选实体标记为所述文本项被关联到的目标实体。

7.一种用于实体关联的装置，包括：

候选确定模块，被配置为从预定义的知识库确定输入文本中的文本项的候选实体，所述候选实体的指称项与所述文本项匹配；

实体文本获取模块，被配置为获取描述所述候选实体的实体文本；

相似度确定模块，被配置为确定所述输入文本与所述实体文本之间的语义相似度；以及

关联概率确定模块，被配置为基于所述语义相似度来确定所述文本项与所述候选实体关联的概率。

8.根据权利要求7所述的装置，其中所述实体文本包括以下至少一项：所述候选实体的摘要信息、所述候选实体的属性信息以及已关联到所述候选实体的另一文本项所处的上下文内容。

9.根据权利要求7所述的装置，其中所述相似度确定模块，包括：

向量化模块，被配置为基于文本项与向量表示之间的预定映射关系，将所述输入文本和所述实体文本分别映射到第一文本向量表示和第二文本向量表示；

特征提取模块，被配置为从所述第一文本向量表示和所述第二文本向量表示提取所述输入文本的第一语义特征和所述实体文本的第二语义特征；以及

基于特征的相似度确定模块，被配置为基于所述第一语义特征和所述第二语义特征来确定所述语义相似度。

10.根据权利要求9所述的装置，其中所述相似度确定模块，还被配置为还基于以下至少一项来确定所述语义相似度：

与所述输入文本相关的文本属性信息，所述文本属性信息包括以下至少一项：所述输入文本中的文本项的词性，以及所述输入文本中的至少一个文本项的位置信息。

11.根据权利要求9所述的装置，其中特征提取模块包括：

第一特征提取模块，被配置为从所述第一文本向量表示提取所述第一语义特征；以及

第二特征提取模块，被配置为从所述第二文本向量表示提取所述第二语义特征，所述第一特征提取模块与所述第二特征提取模块不同。

12.根据权利要求7所述的装置，还包括：

另一候选确定模块，被配置为从所述知识库确定针对所述文本项的另一候选实体，所述另一候选实体的指称项与所述文本项匹配；

另一关联概率确定模块，被配置为确定所述文本项与所述另一候选实体关联的另一概率，所述概率大于所述另一概率；

概率相关特征确定模块，被配置为基于所述概率和所述另一概率来确定概率相关特征；以及

置信度确定模块，被配置为基于所述实体文本、所述输入文本以及所述概率相关特征，确定所述概率的置信度，所述置信度用于确定是否将所述候选实体标记为所述文本项被关联到的目标实体。

13.一种电子设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。