CN113971216B

CN113971216B - 数据处理方法、装置、电子设备和存储器

Info

Publication number: CN113971216B
Application number: CN202111233230.9A
Authority: CN
Inventors: 熊壮; 詹俊峰; 姚后清
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2023-02-03
Anticipated expiration: 2041-10-22
Also published as: CN113971216A

Abstract

本公开提供了一种数据处理方法、装置、电子设备和存储器，涉及计算机领域，尤其涉及语言处理领域。具体实现方案为：在目标数据库中，获取目标词所表示的多个第一候选实体；对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率；基于每个第一候选实体的置信度确定目标词所表示的正确实体，解决了确定提及词的链指结果的局限性大的技术问题。

Description

数据处理方法、装置、电子设备和存储器

技术领域

本公开涉及计算机领域，尤其涉及语言处理领域中的数据处理方法、装置、电子设备和存储器。

背景技术

目前，通常是通过提及词(mention)文本的语义和候选词条的语义之间的匹配度来确定mention指向该词条的置信度，以确定mention所指向的正确词条，这是基于特定场景来开发的实体链指方案，具有不可复用的缺点。

发明内容

本公开提供了一种数据处理方法、装置、电子设备和存储器。

根据本公开的一方面，提供了一种数据处理方法。该方法可以包括：在目标数据库中，获取目标词所表示的多个第一候选实体；对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率；基于每个第一候选实体的置信度确定目标词所表示的正确实体。

根据本公开的另一方面，还提供了一种数据处理装置。该装置可以包括：获取单元，用于在目标数据库中，获取目标词所表示的多个第一候选实体；融合单元，用于对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率；确定单元，用于基于每个第一候选实体的置信度确定目标词所表示的正确实体。

根据本公开的另一方面，还提供了一种电子设备。该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的数据处理方法。

根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质。该计算机指令用于使计算机执行根据本公开实施例的数据处理方法。

根据本公开的另一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开实施例的数据处理方法

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种数据处理方法的流程图；

图2是根据本公开实施例的一种通用链指框架的示意图；

图3是根据本公开实施例的一种数据处理装置的示意图；

图4是根据本公开实施例的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的一种数据处理方法的流程图。如图1所示，该方法可以包括以下步骤：

步骤S102，在目标数据库中，获取目标词所表示的多个第一候选实体。

在本公开上述步骤102提供的技术方案中，目标数据库可以为知识库，比如，为领域词库，知识图谱、中文实体知识库等，其可以包括多个实体(entity)。可选地，该实施例的目标数据库为百科词条库场景中的百科词条库。

该实施例的目标词可以为目标文本中的提及词(mention)，可以是比较短的文本，比如，为非结构化数据中的表示实体的词语。该实施例可以在目标数据库中，获取目标词所表示的多个第一候选实体，也即，获取目标词所指向的多个第一候选实体，比如，第一候选实体为词条，可以是获取目标词所指向的候选词条集合。该实施例可以从多个第一候选实体中获取目标词所表示的正确实体。

步骤S104，对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度。

在本公开上述步骤104提供的技术方案中，在目标数据库中，获取目标词所表示的多个第一候选实体之后，对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率。

在该实施中，第一候选实体可以具有多维特征，该多维特征构成了每个第一候选实体的特征集合，可以包括与第一候选实体和/或目标词相关的不同维度的特征，以充分考虑影响第一候选实体的因素。该实施例可以对第一候选实体的多维特征进行数值化，进而对数值化的多维特征进行融合处理，比如，对多维特征进行联合建模，从而得到第一候选实体的置信度，该置信度也可以称为置信度分数，用于表示第一候选实体为目标词所表示的正确实体的概率，也即，第一候选实体为目标词所指向的正确实体的可能性，避免了仅仅基于词条文本和提及词文本之间的匹配度进行的建模，来确定提及词的链指结果。

步骤S106，基于每个第一候选实体的置信度确定目标词所表示的正确实体。

在本公开上述步骤106提供的技术方案中，在对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度之后，可以基于每个第一候选实体的置信度确定目标词所表示的正确实体。

在该实施例中，由于置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率，可以是通过多个第一候选实体的置信度，来共同确定目标词所表示的正确实体，该正确实体为针对目标词而言的链指结果，也即，针对目标词而言的正确链指实体，从而实现了实体链指(entity linking)的目的，其中，实体链指属于自然语言处理领域，是指将文本中的提及词链接到知识库中实体的任务，比如，基于百科词条库的实体链指可以是指在给定目标文本以及提及词的情况下，输出提及词对应的百科词条。

通过本申请上述步骤S102至步骤S106，在目标数据库中，获取目标词所表示的多个第一候选实体；对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率；基于每个第一候选实体的置信度确定目标词所表示的正确实体。也就是说，该实施例考虑每个第一候选实体的多特征联合，充分利用每个第一候选实体的多维特征，对多维特征进行融合处理，以确定目标词所表示的正确链指结果，这为一种通用的开发链指方案，避免了基于特定场景来开发的实体链指方案而不可复用、性能效果差，从而解决了确定提及词的链指结果的局限性大的技术问题，达到了降低确定提及词的链指结果的局限性的技术效果。

下面对该实施例的上述方法进行进一步地介绍。

作为一种可选的实施方式，步骤S104，对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度包括：通过第一目标模型对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，第一目标模型为通过有监督训练得到的树模型。

在该实施例中，在实现对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度时，可以是获取第一目标模型，该第一目标模型可以为特征融合模型，用于对第一候选实体的多维特征进行融合处理，以获取目标词链指的第一候选实体的置信度。可选地，该实施例的第一目标模型为通过有监督训练得到的树模型，其中，树模型可以为决策树模型，比如，该第一目标模型可以为LightGBM模型，其具有快速的、分布式的、高性能的，且基于决策树算法的梯度提升框架。

该实施例可以对第一候选实体的多维特征进行数值化，然后将数值化的多维特征作为第一目标模型的输入，通过第一目标模型对第一候选实体的多维特征进行融合处理，得到第一候选实体的置信度，进而输出第一候选实体的置信度。

作为一种可选的实施方式，步骤S106，基于每个第一候选实体的置信度确定目标词所表示的正确实体包括：基于每个第一候选实体的置信度，在多个第一候选实体中确定目标候选实体，其中，目标候选实体的置信度高于多个第一候选实体中除目标候选实体之外的候选实体的置信度；基于目标候选实体的多维特征，确定目标候选实体为目标词所表示的正确实体。

在该实施例中，在实现基于每个第一候选实体的置信度确定目标词所表示的正确实体时，获取多个第一候选实体的置信度，得到多个置信度，可以对其排序(rank)，从多个置信度中获取最高置信度，然后将该最高置信度对应的第一候选实体确定为目标候选实体，比如，该目标候选实体为最置信的词条(top1词条)，将其作为目标词的可能链指词条。该实施例可以判断目标候选实体是否为目标词所表示的正确实体，也即，判断目标候选实体最终是否链指，若不链指，即预测该目标词无对应的正确实体。该实施例可以同样考虑多维特征建模，可以至少基于目标候选实体的多维特征，来确定目标候选实体是否为目标词所表示的正确实体。

作为一种可选的实施方式，步骤S106，基于目标候选实体的多维特征，确定目标候选实体为目标词所表示的正确实体包括：基于目标候选实体的多维特征、第一特征和/或第二特征确定目标候选实体为目标词所表示的正确实体，其中，第一特征用于表示目标词的属性和/或多个第一候选实体的属性，第二特征为目标词所属的场景的特征。其中，目标词的属性包括目标词的长度，多个第一候选实体的属性包括多个第一候选实体的数量。

在该实施例中，在实现基于目标候选实体的多维特征，确定目标候选实体为目标词所表示的正确实体时，除了考虑目标候选特征的多维特征之外，还可以补充其它的基础特征，该基础特征可以包括用于表示目标词的属性和/或多个第一候选实体的属性的第一特征，比如，目标词的属性可以为目标词的长度，多个第一候选实体的属性可以为多个第一候选实体的数量。可选地，该实施例还可以根据不同的业务场景，补充目标词所属的场景的第二特征，该第二特征也即特定业务特征，重新建模二分类任务，通过目标候选实体的多维特征、第一特征和/或第二特征，来确定目标候选实体为目标词所表示的正确实体，比如，对目标候选实体的多维特征、第一特征和/或第二特征进行融合建模，来确定目标候选实体为目标词所表示的正确实体，从而实现特定链指方案。

在该实施例中，对第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，这是在同一候选实体集下，其中可以将正确的候选实体确定为正样本，将错误的候选实体确定为负样本，是相对的概念，有些特征是一样的，比如，目标词的长度、候选实体的数量等是相同的，因而，该实施例在最终确定目标候选实体为目标词所表示的正确实体时，进一步结合目标词的长度，多个第一候选实体的属性包括多个第一候选实体的数量、多个第一候选实体的数量等绝对特征，以进一步提高确定目标词所表示的正确实体的准确性。

作为一种可选的实施方式，基于目标候选实体的多维特征、第一特征和/或第二特征确定目标候选实体为目标词所表示的正确实体包括：通过第二目标模型对目标候选实体的多维特征、第一特征和/或第二特征进行融合处理，以确定目标候选实体为目标词所表示的正确实体，其中，第二目标模型为通过有监督训练得到的树模型。

在该实施例中，在实现基于目标候选实体的多维特征、第一特征和/或第二特征确定目标候选实体为目标词所表示的正确实体时，可以是获取第二目标模型，该第二目标模型也即链指分类模型，可以用于判断实体是否最终由目标词所链指。可选地，该实施例的第二目标模型的结构可以与第一目标模型的结构相同，为通过有监督训练得到的树模型，比如，该第一目标模型可以为LightGBM模型。该实施例可以将多维特征、第一特征和/或第二特征作为第二目标模型的输入数据，然后通过第二目标模型对多维特征、第一特征和/或第二特征进行融合处理，以确定目标候选实体为目标词所表示的正确实体。

作为一种可选的实施方式，步骤S102，在目标数据库中，获取目标词所表示的多个第一候选实体包括：基于目标词在目标数据库中召回同名的多个第二候选实体；在多个第二候选实体中筛选出多个第一候选实体。

在该实施例中，目标数据库可以提供开放接口，可以通过目标词在目标数据库中召回同名的多个第二候选实体，该多个第二候选实体可以为通过目标词召回的所有词条，将其确定为初步的候选实体集合。该实施例可以在多个第二候选实体按照目标过滤规则筛选出多个第一候选实体。其中，目标过滤规则可以是过滤分类规则、链指分类规则，从而避免将多个第二后候选实体直接用于建模输出目标词指向第二候选实体的置信度。

可选地，该实施例建立了一套分类体系，分类策略增加目标词的分类特征和多个第二候选实体的分类特征，比如，该分类特征可以为抽象出来的分类人物、作品、机构、电影等，此处不做具体限制。基于该目标词的分类特征和多个第二候选实体的分类特征制定上述目标过滤规则，以通过该目标过滤规则在多个第二候选实体中筛选出多个第一候选实体。

作为一种可选的实施方式，在多个第二候选实体中筛选出多个第一候选实体包括：在多个第二候选实体中筛选出分类特征与目标词的分类特征相同的多个第一候选实体。

在该实施例中，可以是基于百科词条现有分类体系，扩展建立新的二级分类体系，并利用命名实体识别算子，获取目标词的专名特征，该专名特征也属于分类特征，通过将其映射到新的分类体系，输出目标词的分类特征以及第二候选实体的分类特征，进而实现目标词和多个第二候选实体在同一分类体系下，通过目标过滤规则对多个第二候选实体进行过滤，可以是在多个第二候选实体中筛选出分类特征与目标词的分类特征相同的多个第一候选实体，也即，实现对多个第二候选实体进行分类校验的目的，比如，目标词的分类特征可以是人物，则其对应的实体的分类特征不可能是电影、电视剧，则可以在多个第二候选实体中对分类特征为电影、电视剧的候选实体进行过滤，从而得到多个第一候选实体，这样可以在一开始就将明显有问题的第二候选实体过滤掉，降低后期计算的成本，也避免链指结果出现明显的问题。

可选地，相关技术中的分类比较细致，比如，有140多种类，而上述二分类体系是将多维的特征进行一个概括，比如，将政治人物、音乐人物都分在人物类别下。

作为一种可选的实施方式，多维特征包括以下至少之一：第三特征，用于表征指向第一候选实体的词的数量；第四特征，用于表征目标词的上下文与第一候选实体的上下文(context)之间的匹配度；第五特征，用于表征目标文本中除目标词之外的关键词的长度，其中，第一候选实体中包括关键词；第六特征，为目标词的分类特征和/或第一候选实体的分类特征。

在该实施例中，上述多维特征可以包括第三特征，该第三特征用于表征指向第一候选实体的词的数量，比如，为提及词指向某实体的历史次数、频率，可以是词条链指先验特征(linkcount)，可以通过历史数据得到，比如，统计百科站内链指数据，输出提及词指向候选词条的频率。可选地，该频率可以指的是先验概率，是在某些场景中比较有效的特征，比如，提及词对应的词条是10个某某某，而链指这10个某某某的概率不是等概率，其中，一个词条某某某是90％链指的是明星某某某，那么后续的提及词的正确链指结果也主要考虑是明星某某某。

可选地，该实施例的上述多维特征还可以包括第四特征，该第四特征可以为文本语义特征，用于表征目标词的上下文与每个第一候选实体的上下文的语义信息之间的匹配度，可以对目标词的上下文与每个第一候选实体的上下文进行pair对二分类建模，模型可以采用字符级卷积神经网络(charcnn)对目标词的上下文与每个第一候选实体的上下文进行pair对二分类建模，输出目标词的上下文与每个第一候选实体的上下文的语义信息之间的匹配度，该匹配度可以为文本语义匹配分数，从而通过该第四特征进一步提高链指结果的准确性。

可选地，该实施例的上述多维特征可以包括第五特征，该第五特征可以为实体一致性特征(coherence)，用于表征目标文本中除目标词之外的关键词的长度，其中，第一候选实体中包括关键词。在该实施例中，考虑到上述文本语义特征中对词条文本利用有限的问题，比如，词条有上万个词条，但是，在进行文本语义特征建模时，模型的输入有限制，会对其它的文本进行截断，不可能对所有文本建模，从而导致词条文本的利用率低，而该实施例提取目标文本中除目标词以外的关键词，该关键词也即目标文本的重要词(term)，对多个第一候选实体的全部文本内容做命中操作，也即，确定包括关键词的第一候选实体，可以按照关键词的重要性，输出关键词的长度。

可选地，该实施例的上述多维特征可以包括第六特征，该第六特征可以为目标词的分类特征和/或第一候选实体的分类特征，其可以是抽象出来的大的分类人物、作品、机构、电影等，此处不做具体限制。

该实施例的上述方法可以应用于问答系统、知识图谱构建、机器阅读、度百科内链扩召、新闻词条挂载、秒懂推荐视频词条挂载等场景中，此处不做具体限制。

该实施例通过上述方法可以实现通用文本实体链指方案，提供基础策略结果输出以及底层特征输出。一方面，作为基础技术，可以直接提供链指结果；另一方面，可输出基础特征，结合具体场景特征，实现快速开发更优的链指方案。

通过上述方法可以降低链指策略研发成本，可移植、灵活度高；通过多特征融合建模，可以提高链指效果；针对提及词无词条链指的情况，摒弃卡阈值方式，采用多特征建模决策；可以考虑不同场景的链指需求，最后的链指分类模型可结合特定的基础特征，直接优化具体的任务目标。

该实施例通过上述方法可以提升策略效果，增大产品收益；可以修正线上内链有效提升准确率，规模化挂载大幅提升百科内链总量及丰富度，相比竞品，为用户提供更准确、更丰富的内链，获取更好的体验；可以添加高质内链，增加整体内链点击以及词条pv；可以在百科时效性平台辅助用户选取正确词条，以提升效率；有助于技术驱动价值传播。

下面对该实施例的上述方法进行进一步地介绍。

作为自然语言处理领域的基础技术之一，实体链指是指将文本中的提及词链接到知识库实体的任务。该方法在问答系统、知识图谱构建、机器阅读上有着广泛应用。然而，知识库中的同名实体往往不只一个，如何从多个实体中确定正确的链指实体，实现实体消歧(Entity Disambiguation)，便是该技术的重难点。作为大规模的中文实体知识库，百度百科词条库拥有两千多万实体词条，具有内容复杂，歧义严重等特点。

百度百科产品线往往需要与词条实体交互，实体链指技术决定着业务效果与收益。然而，在相关技术中，往往基于特定场景开发的链指方案，其针对的是特定文本，比如，描述人、明星、电影、综艺等文本，如果换；另一个场景，则就不适用，效果不太好，从而具有不可复用、性能效果差等缺点。

基于百科词条库的实体链指是指在给定目标文本以及提及词的情况下，输出提及词对应的百科词条。该方法可以从提及词出发，找到所有可能的从而词条，组成候选词条集合；针对候选词条集合中的每个候选词条，输出提及词指向该词条的置信度；在多个候选词条的置信度中，选取最置信的词条作为提及词的预测词条。

其中，单个词条与文本的匹配建模是该任务的重难点。相关技术也主要利用提及词所在的上下文与词条文本进行建模，对提及词文本和候选词文本的语义信息进行匹配，得到文本匹配分数(相似度，置信度)，这将两文本间匹配问题转化成二分类模型任务，没有利用多维特征，从而应用场景比较局限，最后输出提及词指向该词条的置信度，以解决不同业务场景下的链指问题。

上述方法并未形成一套通用基础链指能力，技术可移植性差；也未考虑多特征联合建模，特征利用不充分；受现有匹配模型输入限制，词条信息未充分挖掘；而对于未知实体链指问题，目前采用卡阈值方式处理，实现效果不佳。

针对以上问题，该实施例提出了一种链指通用框架，可拓展移植词条链指特定业务场景，并基于该框架，构建一套通用文本实体链指方案。图2是根据本公开实施例的一种通用链指框架的示意图。如图2所示，该实施例的实体链指任务分为三个步骤：

候选集筛选策略，可以利用提及词对词条库的所有同名词条进行粗召回，通过自建的分类体系，在粗召回的同名词条中按照过滤分类规则进行过滤，最终形成候选词条集合。

特征融合模型，针对每个词条的特征集合进行融合建模，输出每个词条的置信度，对候选词条集合中的词条的置信度进行rank。

链指分类模型，针对候选词条集合最置信的top1词条，结合其它的基础特征，重新建模二分类任务，判断该词条能否被提及词置信链指。

下面对该实施例的上述候选集筛选策略进一步介绍。

在该实施例中，百科提供开放接口，可通过提及词召回同名的所有词条，将同名的所有词条作为初步的候选集合。该步骤的核心在于建立了一套分类体系，分类策略增加提及词的分类特征和词条的分类特征，比如，抽象出来的大的分类人物、作品、机构、电影，进而基于提及词的分类特征和词条的分类特征制定过滤分类规则，进而在粗召回的同名词条中按照过滤分类规则进行过滤，最终形成候选词条集合。

在该实施例中，可以利用提及词的分类特征和词条的分类特征，在粗召回的同名词条中过滤候选词条，筛选出最终候选词条集合。可选地，该实施例可以基于百科词条现有分类体系，扩展建立了新的二级分类体系，并利用命名实体识别算子，获取提及词的专名特征，该专名特征也属于分类特征，可以将其映射到新的分类体系，实现提及词和候选词条在同一分类体系下，进而通过制定链指分类规则，实现对候选词条进行分类校验，以在粗召回的同名词条中过滤候选词条，筛选出最终候选词条集合的目的。

下对该实施例的特征融合模型进行进一步介绍。

该实施例可以对词条的多维特征进行融合，得到提及词最终链指的置信度分数，主要考虑的特征可以包括：词条链指先验特征(linkcount)、文本语义特征、实体一致性(coherence)特征和分类特征。

词条链指先验特征，可以是通过统计百科站内链指数据，得到的提及词指向候选词条的频率(先验概率)，是在某些场景中比较有效的特征，比如，提及词对应的词条是10个某某某，这10个某某某不是等概率，其中，一个词条某某某是90％指的是明星某某某，那么后续的链指结果也主要考虑明星某某某。

文本语义特征，可以利用目标文本(提及词的上下文)与词条文本的上下文语义信息，对两个文本进行pair对二分类建模，模型可以采用charcnn，输出文本语义匹配分数(置信度)，以提高链指结果的准确性。

实体一致性特征，考虑到文本语义特征中对词条文本利用有限的问题，该实施例可以提取目标文本除提及词以外的重要词，对候选词条全部文本内容做命中操作，按重要词的重要性，输出重要词的长度(数值集合)。

分类特征，可以是提及词的分类特征和词条的分类特征。

该实施例可以对上述词条链指先验特征、文本语义特征、实体一致性特征和分类特征进行数值化后，模型可以采用lightGBM。

下面对该实施例的链指分类模型进行介绍。

该实施例可以基于每个词条的置信度，对提及词对应的候选词条集中的词条进行rank，选取top1词条(也即，候选集中最置信的词条)作为提及词的可能链指词条。该步骤的目的是判别top1词条最终是否链指，若不链指，即预测该提及词无对应词条。该模型可以同样考虑多个数值特征建模，除词条链指先验特征、文本语义特征、实体一致性特征和分类特征之外，可以补充其它基础特征(比如，提及词的长度、候选词条的数量等)，模型乐多采用lightGBM。需要说明的是，该步骤可根据不同业务场景，补充更多特定业务特征，对上述特征进行融合建模，以实现特定链指方案。

该实施例旨在实现一套基于百科词条库的通用文本实体链指方案，提供基础策略结果输出以及底层特征输出。一方面，作为基础技术，可以直接提供链指结果；另一方面，可输出基础特征，结合具体场景特征，快速开发更优的链指方案。

该实施例通过上述方法可以降低链指策略研发成本，可移植、灵活度高；通过多特征融合建模，可以提高链指效果；针对提及词无词条链指的情况，摒弃卡阈值方式，采用多特征建模决策；可以考虑不同场景的链指需求，最后的链指分类模型可结合特定的基础特征，直接优化具体的任务目标。

本公开实施例还提供了一种用于执行图1所示实施例的数据处理装置。

图3是根据本公开实施例的一种数据处理装置的示意图。如图3所示，该数据处理装置30可以包括：获取单元31、融合单元32和确定单元33。

获取单元31，用于在目标数据库中，获取目标词所表示的多个第一候选实体。

融合单元32，用于对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率。

确定单元33，用于基于每个第一候选实体的置信度确定目标词所表示的正确实体。

可选地，融合单元32包括：融合模块，用于通过第一目标模型对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，第一目标模型为通过有监督训练得到的树模型。

可选地，确定单元33包括：第一确定模块，用于基于每个第一候选实体的置信度，在多个第一候选实体中确定目标候选实体，其中，目标候选实体的置信度高于多个第一候选实体中除目标候选实体之外的候选实体的置信度；第二确定模块，用于基于目标候选实体的多维特征，确定目标候选实体为目标词所表示的正确实体。

可选地，第二确定模块包括：确定子模块，用于基于目标候选实体的多维特征、第一特征和/或第二特征确定目标候选实体为目标词所表示的正确实体，其中，第一特征用于表示目标词的属性和/或多个第一候选实体的属性，第二特征为目标词所属的场景的特征。

可选地，确定子模块用于通过以下步骤来基于目标候选实体的多维特征、第一特征和/或第二特征确定目标候选实体为目标词所表示的正确实体：通过第二目标模型对目标候选实体的多维特征、第一特征和/或第二特征进行融合处理，以确定目标候选实体为目标词所表示的正确实体，其中，第二目标模型为通过有监督训练得到的树模型。

可选地，目标词的属性包括目标词的长度，多个第一候选实体的属性包括多个第一候选实体的数量。

可选地，获取单元31包括：召回模块，用于基于目标词在目标数据库中召回同名的多个第二候选实体；筛选模块，用于在多个第二候选实体中筛选出多个第一候选实体。

可选地，筛选模块包括：筛选子模块，用于在多个第二候选实体中筛选出分类特征与目标词的分类特征相同的多个第一候选实体。

可选地，多维特征包括以下至少之一：第三特征，用于表征指向第一候选实体的词的数量；第四特征，用于表征目标词的上下文与第一候选实体的上下文之间的匹配度；第五特征，用于表征目标文本中除目标词之外的关键词的长度，其中，第一候选实体中包括关键词；第六特征，为目标词的分类特征和/或第一候选实体的分类特征。

需要说明的是，上述各个单元和模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述单元和模块均位于同一处理器中；或者，上述各个单元和模块以任意组合的形式分别位于不同的处理器中。

在该实施例的数据处理装置中，考虑每个第一候选实体的多特征联合，充分利用每个第一候选实体的多维特征，对多维特征进行融合处理，以确定目标词所表示的正确链指结果，这为一种通用的开发链指方案，避免了基于特定场景来开发的实体链指方案而不可复用、性能效果差，从而解决了确定提及词的链指结果的局限性大的技术问题，达到了降低确定提及词的链指结果的局限性的技术效果。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

本公开的实施例提供了一种电子设备，该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的数据处理方法。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例的数据处理方法。

可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，在目标数据库中，获取目标词所表示的多个第一候选实体；

S2，对每个第一候选实体的多维特征进行融合处理，得到每个第一候选实体的置信度，其中，置信度用于表示对应的第一候选实体为目标词所表示的正确实体的概率；

S3，基于每个第一候选实体的置信度确定目标词所表示的正确实体。

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现以下步骤：

图4是根据本公开实施例的一种电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元404，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如页面的处理方法。例如，在一些实施例中，页面的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的页面的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行页面的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

在目标数据库中，获取目标词所表示的多个第一候选实体；

对每个所述第一候选实体的多维特征进行融合处理，得到每个所述第一候选实体的置信度，其中，所述置信度用于表示对应的所述第一候选实体为所述目标词所表示的正确实体的概率；

基于每个所述第一候选实体的置信度确定所述目标词所表示的正确实体；

其中，基于每个所述第一候选实体的置信度确定所述目标词所表示的正确实体包括：基于多个所述第一候选实体中与所述置信度对应的目标候选实体的所述多维特征、第一特征和/或第二特征确定所述目标候选实体为所述目标词所表示的正确实体，其中，所述第一特征用于表示所述目标词的属性和/或所述多个第一候选实体的属性，所述第二特征为所述目标词所属的场景的特征；

其中，对每个所述第一候选实体的所述多维特征进行融合处理，得到每个所述第一候选实体的所述置信度，包括：对每个所述第一候选实体的所述多维特征进行数值化处理；将数值化处理后的所述多维特征输入至第一目标模型；通过所述第一目标模型对每个所述第一候选实体的所述多维特征进行融合处理，得到每个所述第一候选实体的所述置信度，其中，所述第一目标模型为通过有监督训练得到的树模型。

2.根据权利要求1所述的方法，其中，所述方法还包括：

基于每个所述第一候选实体的置信度，在多个所述第一候选实体中确定所述目标候选实体，其中，所述目标候选实体的置信度高于所述多个第一候选实体中除所述目标候选实体之外的候选实体的置信度。

3.根据权利要求1所述的方法，其中，基于所述目标候选实体的所述多维特征、第一特征和/或第二特征确定所述目标候选实体为所述目标词所表示的正确实体包括：

通过第二目标模型对所述目标候选实体的所述多维特征、第一特征和/或第二特征进行融合处理，以确定所述目标候选实体为所述目标词所表示的正确实体，其中，所述第二目标模型为通过有监督训练得到的树模型。

4.根据权利要求1所述的方法，所述目标词的属性包括所述目标词的长度，所述多个第一候选实体的属性包括所述多个第一候选实体的数量。

5.根据权利要求1所述的方法，其中，在目标数据库中，获取目标词所表示的多个第一候选实体包括：

基于所述目标词在所述目标数据库中召回同名的多个第二候选实体；

在所述多个第二候选实体中筛选出所述多个第一候选实体。

6.根据权利要求5所述的方法，其中，在所述多个第二候选实体中筛选出所述多个第一候选实体包括：

在所述多个第二候选实体中筛选出分类特征与所述目标词的分类特征相同的所述多个第一候选实体。

7.根据权利要求1至6中任意一项所述的方法，所述多维特征包括以下至少之一：

第三特征，用于表征指向所述第一候选实体的词的数量；

第四特征，用于表征所述目标词的上下文与所述第一候选实体之间的匹配度；

第五特征，用于表征目标文本中除所述目标词之外的关键词的长度，其中，所述第一候选实体中包括所述关键词；

第六特征，为所述目标词的分类特征和/或所述第一候选实体的分类特征。

8.一种数据处理装置，包括：

获取单元，用于在目标数据库中，获取目标词所表示的多个第一候选实体；

融合单元，用于对每个所述第一候选实体的多维特征进行融合处理，得到每个所述第一候选实体的置信度，其中，所述置信度用于表示对应的所述第一候选实体为所述目标词所表示的正确实体的概率；

确定单元，用于基于每个所述第一候选实体的置信度确定所述目标词所表示的正确实体；

其中，所述确定单元还用于通过以下步骤基于每个所述第一候选实体的置信度确定所述目标词所表示的正确实体：基于多个所述第一候选实体中与所述置信度对应的目标候选实体的所述多维特征、第一特征和/或第二特征确定所述目标候选实体为所述目标词所表示的正确实体，其中，所述第一特征用于表示所述目标词的属性和/或所述多个第一候选实体的属性，所述第二特征为所述目标词所属的场景的特征；

其中，所述融合单元还用于通过以下步骤对每个所述第一候选实体的所述多维特征进行融合处理，得到每个所述第一候选实体的所述置信度：对每个所述第一候选实体的所述多维特征进行数值化处理；将数值化处理后的所述多维特征输入至第一目标模型；通过所述第一目标模型对每个所述第一候选实体的所述多维特征进行融合处理，得到每个所述第一候选实体的所述置信度，其中，所述第一目标模型为通过有监督训练得到的树模型。

9.根据权利要求8所述的装置，其中，融合单元包括：

融合模块，用于通过第一目标模型对每个所述第一候选实体的多维特征进行融合处理，得到每个所述第一候选实体的置信度，其中，所述第一目标模型为通过有监督训练得到的树模型。

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

12.一种处理器，其中，所述处理器用于执行计算机程序，所述计算机程序在被所述处理器执行时实现根据权利要求1-7中任一项所述的方法。