CN113535970A

CN113535970A - 信息处理方法和装置、电子设备以及计算机可读存储介质

Info

Publication number: CN113535970A
Application number: CN202010323860.4A
Authority: CN
Inventors: 扈中凯; 杨海宏; 赵宇; 骆卫华; 施杨斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2021-10-22

Abstract

本申请公开了一种信息处理方法和装置、电子设备以及计算机可读存储介质。该方法包括：获得待处理文本，其中包括目标实体；根据目标实体的实体信息，在预设的知识图谱中获得对应的多个实体描述信息；对实体信息进行编码得到实体信息向量，以及，多个实体描述信息进行编码得到多个实体描述信息向量；计算实体信息向量与每一个实体描述信息向量之间的相似度；根据相似度确定与目标实体相匹配的图谱实体。本申请实施例通过分两路分别对待处理文本与知识图谱中的实体描述进行编码处理，从而能够通过语义来计算待处理文本涉及的实体与知识图谱中的实体的匹配度，能够利用单语言或较少语言版本的知识图谱来进行各种语言文本的实体链接处理。

Description

信息处理方法和装置、电子设备以及计算机可读存储介质

技术领域

本申请涉及信息处理技术领域，尤其涉及一种信息处理方法和装置、电子设备以及计算机可读存储介质。

背景技术

随着互联网技术的发展，能够通过网络存储大量的信息和资源，从而为用户提供更多的服务。例如，用户可以通过搜索引擎在网络上查找各种信息。特别是近年来，很多互联网平台能够通过对互联网上的信息的整理来为用户提供更近一步的信息服务。例如，知识图谱(Knowledge Graph)可以用于描述实体(Entity)与实体之间的关系，并且因为具有很强的信息整合和检索性能而在互联网上得到了广泛的应用。例如，目前互联网上为用户提供的翻译服务就可以利用该知识图谱来为用户提供不同语言的翻译参考。特别是，用户输入的文本中会常常包含各种与实体相关的专有词语，而互联网上的翻译引擎则可以通过对于用户输入的文本中的相关描述来确定其与整理好的信息数据，例如知识图谱中的实体的关联性。即，将用户输入的文本链接到知识图谱对应的信息数据。因此，在现有技术中，需要一种能够高效地将文本信息链接到知识图谱中的实体的技术方案。

发明内容

本申请实施例提供一种信息处理方法和装置、电子设备以及计算机可读存储介质，以提高双语标注质量。

为达到上述目的，本申请实施例提供了一种信息处理方法，其特征在于，包括：

获得待处理文本，所述待处理文本中包括目标实体；

根据所述目标实体的实体信息，在预设的知识图谱中获得对应的多个实体描述信息；

对所述实体信息进行编码得到实体信息向量，以及，对所述多个实体描述信息进行编码得到多个实体描述信息向量；

计算所述实体信息向量与每一个实体描述信息向量之间的相似度；

根据所述相似度确定与所述目标实体相匹配的图谱实体。

本申请实施例还提供了一种信息处理装置，其特征在于，包括：

第一获取模块，用于获取待处理文本，所述待处理文本中包括目标实体；

第二获取模块，用于根据所述目标实体的实体信息，在预设的知识图谱中获得对应的多个实体描述信息；

编码模块，用于对所述实体信息进行编码得到实体信息向量，以及，对所述多个实体描述信息进行编码得到多个实体描述信息向量；

第一计算模块，用于计算所述实体信息向量与每一个实体描述信息向量之间的相似度；

确定模块，用于根据所述相似度确定与所述目标实体相匹配的图谱实体。

本申请实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，所述程序运行时执行本申请实施例提供的信息处理方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如本申请实施例提供的信息处理方法。

本申请实施例提供的信息处理方法和装置、电子设备以及计算机可读存储介质，通过分两路分别对待处理文本中涉及的实体的文字信息(例如，实体名称或实体提及)与知识图谱中的图谱信息进行编码处理，从而能够通过语义来计算目标文本涉及的实体与知识图谱中的实体的匹配度，能够提高识别准确率并且消除了对于文本的语言的依赖度，能够利用单语言或较少语言版本的知识图谱来进行各种语言文本的实体链接处理。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的信息处理方法的应用场景示意图；

图2是本申请提供的信息处理方法的原理示意图；

图3为本申请提供的信息处理方法一个实施例的流程图；

图4为本申请提供的信息处理方法另一个实施例的流程图；

图5为本申请提供的信息处理装置一个实施例的结构示意图；

图6为本申请提供的电子设备实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

随着互联网的发展，各种信息数据借助于互联网连接的便利性而呈现爆炸式的增长，因此，如何对于互联网上的信息数据进行有效的组织和整理，并进而对整理后的数据进行有效的使用就是当前面临的主要问题。为此，已经提出了知识图谱的概念，其可以通过图结构的形式来存储三元组信息，例如，头实体、关系、尾实体，或者主、谓、宾等等，从而能够以各种实体为中心组织与实体有关的各种文本信息作为该实体链接的描述信息。基于这样的知识图谱的结构，能够高效地对新文本进行识别和信息整理，例如可以对目标文本中关于实体的实体提及，即在目标文本中用于提及实体的文字表述，进行分析并根据分析结果来将该实体链接到知识图谱中的实体。这一方面可以用于对互联网中浩如烟海的知识进行挖掘和整理，例如不断地获取互联网上发布的各种文本，并且根据对文本中的实体提及的分析来将该文本链接到知识图谱中，形成对于该实体的实体描述。另一方面，也可以用于根据该知识图谱来为用户提供各种服务。例如，在翻译服务中，即将用户通过各种输入装置，例如键盘，手写触摸或者以语音识别方式输入的各种文本从输入的语言转换为用户指定的语言或者用户的活动场景所需的语言。用户输入的语言中常常会涉及到实体，即用户的生活或掌握的知识中所已知的概念或具体的事物，并且用户在输入时会以某种具体的文字表现形式来对实体进行描述，即实体提及。例如，关注电子产品的用户可能会输入有关最新的手机的文字描述并且实体可以是手机这个概念或用户关注的某个品牌的手机或具体的型号的手机这样的具体的事物。在对用户输入的文本进行语言转换时，重要的是将以用户输入的语言的实体名称正确地转换为用户指定的语言的名称，这样的翻译需要根据用户输入文本中的语义，即涉及到实体的文字部分来推断该术语的名称。换言之，在翻译文本时，单纯的描述性的文字，即非名称的文字可以以意思表达准确为原则来进行翻译，但是对于涉及实体的表述，例如实体的名称等等，或者说专用术语等需要以对应语言中规定的表述或约定俗成的表述来表达，而不能仅仅表达其含义，特别是，在一些语言中实体的名称或专有名词其可能是具有本来的含义的，因此，如果在翻译时按照其字面的含义来翻译，则可能会导致翻译之后的表述并不能对应于用户原本输入的文本中的实体。例如，用户输入的文本中涉及手机的品牌其在中文中所使用的词语具有特定的含义是一种食品，但是如果在翻译为其他语言时将其翻译为其他语言中的对应的食品的表述，则看到其他语言中这样的表述的用户将无法识别出这个是对应于手机的品牌。或者一些运动员或明星的姓名也包含具有含义的词语，则在翻译这样的名称时，如果不采用对应的语言中的专用的表述，例如音译，而是按照其字面意思来翻译，那么翻译后的词语就无法与该实体对应。这对于翻译后的文本的使用是非常不利的，会产生很大的干扰和误导。因此，通过基于用户输入的文本中涉及到实体的表述来将该文本链接到知识图谱中的实体。换言之，能够通过知识图谱快速确定文本内容与实体的对应关系，从而为用户提供正确的翻译或其他信息服务。

然而，知识图谱的使用依赖于各种文本到实体的链接的准确性。因此，现有技术中通常通过使用机器学习模型来训练模型进行这样的到知识图谱中的实体的链接任务。例如，现有技术中可以通过建立复杂的阅读理解模型来试图理解目标文本中对于实体的描述的含义(语义)，以根据识别出的语义来将文本链接到知识图谱中的实体，但是这样的方案对于模型计算的复杂度非常高，并且相应地在实际使用该模型时效率也较低。现有技术中也出现了一种通过使用高资源的语言，例如英语，作为中转语言，以解决低资源的语言，例如阿拉伯语等小语种的语言的文本难以分析的问题。因此，该方案对于小语种语言的链接效率有提高作用，但是却仍然没有解决高资源语言的效率问题。

本申请的实施例中，图1为本申请实施例提供的信息处理方法的应用场景示意图。如图1中所示，在互联网上可以存在多个待链接的目标文本，通过对这些目标文本的分析，可以识别出其中包含的实体的名称或相关的文字描述(本申请中称为“实体提及”)，并且接下来将识别出的实体名称或实体提及与知识图谱中的各种图谱信息进行匹配计算，例如可以计算实体名称或实体提及的文字向量与实体描述的向量的相似度。具体地，在本申请实施例中，可以在编码层利用各种已知的编码器对目标文本的实体名称或实体提及以及知识图谱中的实体描述进行词嵌入处理，以形成文本向量。例如，可以使用多语言版本的BERTY编码器来对目标文本的实体名称或实体提及以及知识图谱中的实体描述进行编码处理，以形成包含有各种语言信息的词向量来表示目标文本的实体名称或实体提及以及知识图谱中的图谱信息。接下来可以使用池化处理来将词向量融合为文本向量。因此，在本申请实施例中，在通过编码处理获得了目标文本的实体名称或实体提及的文本向量以及知识图谱的图谱信息的文本向量之后，可以计算这两个文本向量的相似度，即目标文本所提及的实体与知识图谱中该图谱信息所针对的实体的匹配度或匹配概率。可以对于知识图谱中的实体都进行类似的相似度计算，最终通过对计算出的匹配度排名来确定目标文本最终匹配或链接到的知识图谱中的实体。

图2是本申请提供的信息处理方法的原理示意图。如图2中所示，可以从互联网或者由用户输入文本信息，并且该文本信息中可以包含图2的左侧所示的实体信息，即涉及“寻找”这个实体的文字表现。并且可以根据该实体信息来从知识图谱中获取与该“寻找”相关的三个实体描述信息。基于这两个实体信息和三个实体描述信息，可以进行编码处理，即，通过位于图2的下部中间的编码器，例如，通过将这些信息映射到向量空间中，来获得图2的上部中间示出的实体信息向量x1和x2以及实体描述信息向量p1、p2和p3。例如，可以将知识图谱中的实体描述信息映射为原型向量以包含实体描述信息中的语义上下文信息。在获得了向量之后可以对向量进行相似度计算处理，例如，如图2的上部右侧所示，可以基于聚类方案来按照相似度在向量空间中分布计算获得的实体信息向量x1和x2以及实体描述信息向量p1、p2和p3。从而接下来能够通过例如相似度的排序或者最近邻计算来寻找在向量空间中离输入的文本信息中的实体信息最接近，也就是最相似的实体描述信息，从而确认与输入的文本信息中的实体匹配的知识图谱中的图谱实体。

此外，也可以在训练模型时，使用二分法来判断输入的文本信息中的实体与知识图谱中的实体描述信息接近的文本信息。

因此，通过本申请实施例的技术方案，通过分两路分别对待处理文本中涉及的实体的文字信息(例如，实体名称或实体提及)与知识图谱中的实体描述进行编码处理，从而能够通过语义来计算目标文本涉及的实体与知识图谱中的图谱信息的匹配度，能够提高识别准确率并且消除了对于文本的语言的依赖度，能够利用单语言或较少语言版本的知识图谱来进行各种语言文本的实体链接处理。

上述实施例是对本申请实施例的技术原理和示例性的应用框架的说明，下面通过多个实施例来进一步对本申请实施例具体技术方案进行详细描述。

实施例一

图3为本申请提供的信息处理方法一个实施例的流程图，该方法的执行主体可以为具有信息处理能力的各种终端或服务器设备，也可以为集成在这些设备上的装置或芯片。如图2所示，该信息处理方法包括如下步骤：

S301，获取待处理文本。

在本申请实施例中，可以由用户向运行有根据本申请的信息处理方案的服务器输入各种文本。例如用户可以通过键盘，手写触摸或者以语音识别方式输入各种文本，并且本申请实施例的信息处理方法可以基于用户输入的这些文本进行信息处理。特别地，根据本申请实施例，用户输入这些文本的目的是与特定的实体有关，例如，进行包含有术语的翻译或进行与实体有关的检索等等，因此，这样的文本中可以包含有至少一个目标实体。此外，本申请的信息处理方法也可以应用于各种知识图谱的建设，例如可以从互联网上自动地获取各种文本，并且筛选出包含有实体信息，例如实体的名称，或涉及到实体的文字表现等等，来为知识图谱中补充与知识图谱中的实体有关的实体描述信息。

S302，根据目标实体的实体信息，在预设的知识图谱中获得对应的多个实体描述信息。

在获取了包含有目标实体的文本之后，在步骤S302中，可以进一步根据待处理文本中的涉及目标实体的各种信息，即实体信息来在预设的知识图谱中检索相关的图谱信息。例如，可以通过对用户输入的文本进行本领域中常用的各种文字识别手段来获取其中包含的实体信息，例如实体的名称或者实体的文字表现形式(本申请中称为“实体提及”)。如上所述，用户输入包含有目标实体的文本可以是例如需要翻译为其他语言的文本，而文本信息中的实体通常对应于各种术语，因此可以借助于知识图谱中来推断该术语的名称。例如，知识图谱中可以包括多条图谱信息。每一条图谱信息包括图谱实体及其对应的一个或多个图谱实体描述信息。因此，例如，在为用户提供术语翻译时，可以根据用户输入的文本中的实体提及来从预设的知识图谱中获取多个图谱信息，以便与进行后续的匹配处理。

S303，对实体信息进行编码得到实体信息向量，以及，对多个实体描述信息进行编码得到多个实体描述信息向量。

在本申请实施例中，在步骤S301中获取了包含有目标实体的待处理文本并且在步骤S302中获取到了知识图谱中的多个候选实体描述信息之后，可以分别对目标实体的实体信息和实体描述信息进行编码处理，以获得其对应的向量。换言之，在本申请实施例中，例如可以先对这两个文本进行分词，例如，可以使用各种公知的分词处理方法来将文本划分为各个词，并且之后可以利用词嵌入处理(WE，Word Embedding)来将文本中的实体信息和目标图谱中的实体描述信息的各词转换为词向量。基于词嵌入处理获得的各个词向量可以通过各种向量融合处理来将其融合为分别对应于实体信息和实体描述信息的两个文本向量，以便与包含有该待处理文本所表达的语义。

例如，如图2中所示，获取的待处理文本1和2种的实体提及可以通过编码处理而转换为文本向量x1和x2，并且从知识图谱中获取的实体描述信息可以被转换为实体描述向量p1、p2和p3。在本申请实施例中，实体提及也可以替换为实体名称。在该情况下，可以将实体名称转换为实体名称向量1和2。

在本申请实施例中，使用独立的双路输入来输入待处理文本和知识图谱中的实体描述信息。特别是，由于知识图谱的实体描述信息相对是稳定，因此可以预先对知识图谱中的实体描述信息进行编码并缓存编码结果，从而能够在后续的使用中提高编码效率。

S304，计算实体信息向量和每一个实体描述信息向量之间的相似度。

在步骤S303中获得了待处理文本的实体信息向量和知识图谱中的实体描述信息向量之后，可以对这两个向量进行处理。例如，可以计算这两个向量之间的相似度，以确定待处理文本中所涉及的实体与该计算的实体描述信息所描述的实体之间的匹配程度。例如，可以通过计算实体信息向量与实体描述信息向量之间的余弦相似度，即计算实体信息向量与实体描述信息向量所形成的夹角的余弦，从而来表示实体信息与实体描述信息之间的相似度或者匹配度。

S305，根据相似度确定与目标实体匹配的图谱实体。

在本申请实施例中，可以根据步骤S304中计算的相似度来确定与待处理文本中涉及的目标实体匹配的图谱实体。例如，可以将计算获得的相似度来与预设的阈值进行比较，从而将大于阈值的相似度对应的实体描述信息向量所描述的实体确定为与该目标实体匹配的实体。或者也可以对于知识图谱中的多个实体描述信息向量分别进行计算与待处理文本中的实体信息向量的相似度，并且对计算获得的多个相似度进行排序处理，并且根据排序的结果，选择排序靠前或选择排序第一个的实体描述信息向量所描述的实体作为与目标实体相匹配的图谱实体。

因此，本申请实施例提供的信息处理方法，通过分两路分别对待处理文本中涉及的目标实体的文字(例如，实体名称或实体提及)与知识图谱中的实体描述信息进行编码处理，从而能够通过语义来计算待处理文本涉及的目标实体与知识图谱中的实体的匹配度，能够提高识别准确率并且消除了对于文本的语言的依赖度，能够利用单语言或较少语言版本的知识图谱来进行各种语言文本的实体链接处理。

实施例二

图4为本申请提供的信息处理方法另一个实施例的流程图。如图3所示，本实施例提供的信息处理方法可以包括以下步骤：

S401，获取待处理文本。

S402，根据目标实体的实体信息，在预设的知识图谱中获得对应的多个实体描述信息。

在获取了包含有实体的文本信息之后，在步骤S402中，可以进一步根据待处理文本中的涉及目标实体的各种信息，即实体信息来在预设的知识图谱中检索相关的实体描述信息。例如，可以通过对用户输入的待处理文本进行本领域中常用的各种文字识别手段来获取其中包含的实体信息，例如实体的名称或者实体的文字表现形式(本申请中称为“实体提及”)。如上所述，用户输入包含有实体的文本信息可以是例如需要翻译为其他语言的文本信息，而文本信息中的实体通常对应于各种术语，因此可以借助于知识图谱中来推断该术语的名称。例如，知识图谱中可以包括多条图谱信息。每一条图谱信息包括图谱实体及其对应的一个或多个图谱实体描述信息。因此，例如，如图2中所示，可以对于获取的待处理文本1和2从知识图谱中获取到实体描述信息1-3。

S403，对实体信息进行多语言词嵌入处理，生成实体信息中包含的各个词的词向量。

在本申请实施例中，在步骤S401中获取了包含有目标实体的待处理文本信息之后，可以分别利用词嵌入处理(WE，Word Embedding)来将待处理文本中的实体信息的各词转换为词向量。例如，在进行词嵌入处理时，可以使用多语言版本的BERT(BidirectionalEncoder Representations from Transformers，基于Transformer的双向编码器表征)算法来将实体信息的各个词组成的变长序列映射为固定大小的词嵌入向量来进行向量转换。

S404，对词向量进行融合处理，生成实体信息向量。

在本申请实施例中，对于词嵌入处理获得的各个词的词向量可以进行融合处理，从而生成实体信息的实体信息向量。例如，可以使用MoT(mean-over-time pooling，时间维平均池化)算法来将词向量融合为文本向量。

S405，对一个实体描述信息进行多语言词嵌入处理，生成实体描述信息中包含的各个词的词向量。

此外，在本申请实施例中，在步骤S402中获取到了知识图谱中的多个候选实体描述信息之后，可以利用词嵌入处理(WE，Word Embedding)来将目标图谱中的实体描述信息的各词转换为词向量。例如，在进行词嵌入处理时，可以使用多语言版本的BERT(Bidirectional Encoder Representations from Transformers，基于Transformer的双向编码器表征)算法来将实体描述信息的各个词组成的变长序列映射为固定大小的词嵌入向量来进行向量转换

S406，对词向量进行融合处理，生成实体描述信息向量。

在本申请实施例中，对于词嵌入处理获得的各个词的词向量可以进行融合处理，从而生成实体描述信息的实体描述信息向量。例如，可以使用MoT(mean-over-timepooling，时间维平均池化)算法来将词向量融合为文本向量。

在本申请实施例中，可以使用彼此独立的双路输入来输入待处理文本的实体信息和知识图谱中的实体描述信息。与在输入时就将待处理文本与知识图谱中的实体描述信息进行向量融合的现有技术相比，由于知识图谱的实体描述信息相对是稳定，因此可以预先对知识图谱中的实体描述信息进行编码并缓存编码结果，从而能够在后续的使用中提高编码效率。

S407，计算实体信息向量和每一个实体描述信息向量之间的相似度。

在步骤S404中获得了待处理文本中的实体信息向量以及再步骤S406中获得了知识图谱中的实体描述信息向量之后，可以对这两个向量进行处理。例如，可以计算这两个向量之间的相似度，以确定待处理文本中所涉及的目标实体与该计算的实体描述信息所描述的实体之间的匹配程度。例如，可以通过计算实体信息向量与实体描述信息向量之间的余弦相似度，即计算实体信息向量与实体描述信息向量所形成的夹角的余弦，从而来表示实体信息与实体描述信息之间的相似度或者匹配度。

S408，根据相似度确定与目标实体匹配的图谱实体。

在本申请实施例中，可以根据步骤S407中计算的相似度来确定与待处理文本中涉及的目标实体匹配的图谱实体。例如，可以将计算获得的相似度来与预设的阈值进行比较，从而将大于阈值的相似度对应的实体描述信息向量所描述的实体确定为与该目标实体匹配的实体。或者也可以对于知识图谱中的多个实体描述信息向量分别进行计算与待处理文本中的实体信息向量的相似度，并且对计算获得的多个相似度进行排序处理，并且根据排序的结果，选择排序靠前或选择排序第一个的实体描述信息向量所描述的实体作为与目标实体相匹配的图谱实体。

此外，在对根据本申请的信息处理方法的模型进行机器学习训练时，也可以在在步骤S404中获得了待处理文本中的实体信息向量以及再步骤S406中获得了知识图谱中的实体描述信息向量之后，对向量进行拼接，从而生成用于进行模型训练的拼接向量。例如，如图2中所示，可以将编码器输出的文本的实体提及向量x1和x2以及知识图谱中的实体描述信息向量p1-p3分别进行拼接并且可以使用具有整流线性单元的前馈神经网络基于所述拼接向量进行参数的训练。例如，可以针对已知的实体作为训练样本来进行上述训练处理，即，分别生成实体提及的向量和知识图谱中相关的实体描述信息的向量，并且进行拼接处理，以输入到前馈神经网络中训练模型的参数。因此，利用该方式能够使用已知的实体来来训练，从而能够直接将训练好的模型应用于新获得的包含有实体的文本信息进行实体链接。

此外，根据本申请实施例的基于知识图谱的实体链接的方法还可以应用在其他场景中，例如应用在使用小语种语言的电商平台的商品展示中，应用在社交软件的口语消息的翻译中等等，在此不做限定。以上待处理文本可以是商品的描述文本、通过社交软件或消息软件或搜索软件输入的口语消息或文本消息等等。例如，在使用小语种语言的电商平台应用场景中，例如在东南亚地区的电商平台中，商家可以将在中国的电商平台上出售的商品直接发布到东南亚地区的电商平台上，并且将已经为中国的电商平台上出售商品准备的中文语言的商品描述作为待处理文本，将该商品的关键字作为实体，这样，便可以根据本实施例的方法，基于知识图谱而将该中文语言描述的商品实体匹配到知识图谱中的目标实体，从而再基于匹配的目标实体来选择相应语言的实体描述，作为在该东南亚电商平台上展示商品时使用的商品描述，并展示给用户，这样，商家无需为自己的商品准备各种语言的商品描述就可以呈现给全世界各地的用户，并且世界各地的用户也可以方便地基于这样转换后呈现的商品描述来了解由诸如中国或其他地区的商家出售的商品的信息，来选购自己心仪的商品。

因此，本申请实施例提供的信息处理方法，本申请实施例提供的信息处理方法，通过分两路分别对待处理文本中涉及的目标实体的文字(例如，实体名称或实体提及)与知识图谱中的实体描述信息进行编码处理，从而能够通过语义来计算待处理文本涉及的目标实体与知识图谱中的实体的匹配度，能够提高识别准确率并且消除了对于文本的语言的依赖度，能够利用单语言或较少语言版本的知识图谱来进行各种语言文本的实体链接处理。

实施例三

图5为本申请提供的信息处理装置一个实施例的结构示意图，可用于执行如图3和图4所示的方法步骤。如图5所示，该信息处理装置可以包括：第一获取模块51、第二获取模块52、编码模块53、第一计算模块54和确定模块55。

第一获取模块51用于获取待处理文本。

第一获取模块51可以接收用户输入的各种文本。例如用户可以通过键盘，手写触摸或者以语音识别方式输入各种文本。特别地，根据本申请实施例，第一获取模块51从用户处或者从互联网上获取的这些文本的目的可以与特定的实体有关，因此，这样的文本信息中可以包含有至少一个目标实体。此外，第一获取模块51获取的待处理文本也可以应用于各种知识图谱的建设，例如第一获取模块51可以从互联网上自动地获取各种待处理文本，并且筛选出包含有实体信息，例如实体的名称，或涉及到实体的文字表现等等，来为知识图谱中补充与知识图谱中的实体有关的实体描述信息。

第二获取模块52可以用于根据目标实体的实体信息，在预设的知识图谱中获得对应的多个实体描述信息。

第二获取模块52可以根据第一获取模块51获取的待处理文本中的涉及目标实体的各种信息，即实体信息来在预设的知识图谱中检索相关的实体描述信息。例如，可以通过对用户输入的待处理文本进行本领域中常用的各种文字识别手段来获取其中包含的实体信息，例如实体的名称或者实体的文字表现形式(本申请中称为“实体提及”)。如上所述，第一获取模块51可以从用户或互联网获取包含有实体的待处理文本，因此可以借助于知识图谱中来将该实体链接到知识图谱中的实体。例如，知识图谱中可以包括有多条图谱信息，每一条图谱信息包括图谱实体及其对应的一个或多个图谱实体描述信息。因此，例如，如图2中所示，检索模块52可以对于获取的待处理文本1和2从知识图谱获取实体描述信息1-3。

编码模块53可以对实体信息进行编码得到实体信息向量，以及，对多个实体描述信息进行编码得到多个实体描述信息向量。

在本申请实施例中，编码模块53可以对第一获取模块51获取的包含有目标实体的待处理文本和第二获取模块52获取的知识图谱中的多个候选实体描述信息进行编码处理，以获得其对应的向量。换言之，在本申请实施例中，例如可以先对这两个文本进行分词，例如，可以使用各种公知的分词处理方法来将文本划分为各个词，并且之后可以利用词嵌入处理(WE，Word Embedding)来将待处理文本中的实体信息和目标图谱中的实体描述信息的各词转换为词向量。基于词嵌入处理获得的各个词向量可以通过各种向量融合处理来将其融合为分别对应于实体信息和实体描述信息的两个文本向量，以便与包含有该待处理文本所表达的语义。

在该情况下，编码模块53可以进一步包括词嵌入处理单元531和向量生成单元532。词嵌入处理单元531可以用于分别对于实体信息和实体描述信息进行多语言词嵌入处理，以生成其中包含的每个词的词向量。向量生成单元532可以用于分别对于生成的实体信息的词向量和实体描述信息的词向量进行融合处理，以生成实体信息的实体信息向量和实体描述信息的实体描述信息向量。

此外，在本申请实施例中，使用了独立的双路输入来分别输入待处理文本的实体信息和知识图谱中的实体描述信息，即将待处理文本输入到第一获取模块51，并且将实体描述信息输入到第二获取模块52，并且在编码模块53中分别对这两路输入进行编码处理。特别是，由于知识图谱的实体描述信息相对是稳定，因此可以预先对知识图谱中的实体描述信息进行编码并缓存编码结果，从而能够在后续的使用中提高编码效率。

第一计算模块54可以用于计算实体信息向量和每一个实体描述信息向量之间的相似度。第一计算模块54可以对于编码模块53获得的待处理文本中的实体信息向量和知识图谱中的实体描述信息向量进行处理。例如，第一计算模块54可以计算这两个向量之间的相似度，以确定待处理文本中所涉及的实体与该计算的实体描述信息所描述的实体之间的匹配程度。例如，第一计算模块54可以通过计算实体信息向量与实体描述信息向量之间的余弦相似度，即计算实体信息向量与实体描述信息向量所形成的夹角的余弦，从而来表示实体信息与实体描述信息之间的相似度或者匹配度。

确定模块55可以用于根据相似度确定与目标实体匹配的图谱实体。在本申请实施例中，确定模块55可以根据第一计算模块54计算的相似度来确定与待处理文本中涉及的目标实体匹配的图谱实体。例如，确定模块55可以将计算获得的相似度来与预设的阈值进行比较，从而将大于阈值的相似度对应的实体描述信息向量所描述的实体确定为与该文本信息匹配的实体。

在一些实施例中，确定模块55可以包括排序单元551和选择单元552。排序单元551可以用于对第一计算模块54计算获得的相似度进行排序。并且选择单元552可以用与根据排序结果选择与实体信息向量具有最大相似度的实体描述信息所对应于的图谱实体作为与目标实体匹配的图谱实体。例如，选择单元552可以根据排序的结果，选择排序靠前或选择排序第一个的实体描述信息向量所描述的实体。

此外，在对根据本申请的信息处理方法的模型进行机器学习训练时，本申请的信息处理装置可以进一步包括拼接模块56和参数学习模块57。拼接模块56可以用于将实体信息的实体信息向量和实体描述信息的实体描述向量进行拼接，以形成用于进行模型训练的拼接向量。并且参数学习模块57可以用于利用具有整流线性单元的前馈神经网络基于所述拼接向量进行模型参数的学习。

例如，拼接模块56可以对于解码模块53获得的待处理文本中的实体信息向量和知识图谱中的实体描述信息向量进行拼接(Concatenation)，从而生成用于进行模型训练的拼接向量。例如，如图2中所示，可以将编码器输出的文本的实体提及向量x1和x2以及知识图谱中的实体描述信息向量p1-p3分别进行拼接并且可以使用具有整流线性单元(ReLU，Rectified Linear Unit)的前馈神经网络基于所述拼接向量进行参数的训练。例如，可以针对已知的实体作为训练样本来进行上述训练处理，即，分别生成实体提及的向量和知识图谱中相关的实体描述信息的向量，并且通过拼接模块56进行拼接处理，以输入到参数学习模块57来在前馈神经网络中训练模型的参数。因此，利用该方式能够使用已知的实体来来训练，从而能够直接将训练好的模型应用于新获得的包含有实体的文本信息进行实体链接。

因此，本申请实施例提供的信息处理装置，通过分两路分别对待处理文本中涉及的目标实体的文字(例如，实体名称或实体提及)与知识图谱中的实体描述信息进行编码处理，从而能够通过语义来计算待处理文本涉及的目标实体与知识图谱中的实体的匹配度，能够提高识别准确率并且消除了对于文本的语言的依赖度，能够利用单语言或较少语言版本的知识图谱来进行各种语言文本的实体链接处理。

实施例五

以上描述了信息处理装置的内部功能和结构，该装置可实现为一种电子设备。图6为本申请提供的电子设备实施例的结构示意图。如图6所示，该电子设备包括存储器61和处理器62。

存储器61，用于存储程序。除上述程序之外，存储器61还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器61可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器62，不仅仅局限于中央处理器(CPU)，还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片。处理器62，与存储器61耦合，执行存储器61所存储的程序，程序运行时执行本申请实施例提供的信息处理方法。

进一步，如图6所示，电子设备还可以包括：通信组件63、电源组件64、音频组件65、显示器66等其它组件。图6中仅示意性给出部分组件，并不意味着电子设备只包括图6所示组件。

通信组件63被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G，3G，4G或5G，或它们的组合。在一个示例性实施例中，通信组件63经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件63还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件64，为电子设备的各种组件提供电力。电源组件64可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件65被配置为输出和/或输入音频信号。例如，音频组件65包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器61或经由通信组件63发送。在一些实施例中，音频组件65还包括一个扬声器，用于输出音频信号。

显示器66包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种信息处理方法，其特征在于，包括：

获得待处理文本，所述待处理文本中包括目标实体；

根据所述相似度确定与所述目标实体相匹配的图谱实体。

2.根据权利要求1所述的信息处理方法，其特征在于，所述预设的知识图谱中包括：多条图谱信息；

每一条图谱信息包括图谱实体及其对应的一个或多个图谱实体描述信息。

3.根据权利要求1所述的信息处理方法，其特征在于，所述对所述实体信息进行编码得到实体信息向量，包括：

对所述实体信息进行多语言词嵌入处理，生成所述实体信息中包含的各个词的词向量；

对所述词向量进行融合处理，生成所述实体信息向量。

4.根据权利要求1所述的信息处理方法，其特征在于，所述对所述多个实体描述信息进行编码得到多个实体描述信息向量，包括：

对一个实体描述信息进行多语言词嵌入处理，生成所述实体描述信息中包含的各个词的词向量；

对所述词向量进行融合处理，生成所述实体描述信息向量。

5.根据权利要求3或4所述的信息处理方法，其特征在于，所述多语言词嵌入处理，包括：

将由其中的各个词组成的变长序列映射为固定大小的词嵌入向量。

6.根据权利要求3或4所述的信息处理方法，其特征在于，所述融合处理包括：

使用时间维平均池化分别对词向量进行融合处理。

7.根据权利要求1所述的信息处理方法，其特征在于，所述信息处理方法进一步包括：

将所述实体信息的实体信息向量和所述实体描述信息的实体描述向量进行拼接，以形成用于进行模型训练的拼接向量；

利用具有整流线性单元的前馈神经网络基于所述拼接向量进行模型参数的学习。

8.根据权利要求1所述的信息处理方法，其特征在于，所述根据所述相似度确定与所述目标实体匹配的图谱实体包括：

对所述相似度进行排序，并根据排序结果选择与所述实体信息向量具有最大相似度的实体描述信息所对应于的图谱实体作为与所述目标实体匹配的图谱实体。

9.一种信息处理装置，其特征在于，包括：

10.根据权利要求9所述的信息处理装置，其特征在于，所述预设的知识图谱中包括：多条图谱信息；

11.根据权利要求9所述的信息处理装置，其特征在于，所述编码模块包括：

词嵌入处理单元，用于对一个实体描述信息进行多语言词嵌入处理，生成所述实体描述信息中包含的各个词的词向量；

向量生成单元，用于对所述词向量进行融合处理，生成所述实体信息向量。

12.根据权利要求9所述的信息处理装置，其特征在于，所述编码模块包括：

向量生成单元，用于对所述词向量进行融合处理，生成所述实体描述信息向量。

13.根据权利要求11或12所述的信息处理装置，其特征在于，所述词嵌入处理单元进一步用于：

14.根据权利要求11或12所述的信息处理装置，其特征在于，所述向量生成单元进一步用于：

使用时间维平均池化分别对词向量进行融合处理。

15.根据权利要求9所述的信息处理装置，其特征在于，所述信息处理装置进一步包括：

拼接模块，用于将所述实体信息的实体信息向量和所述实体描述信息的实体描述向量进行拼接，以形成用于进行模型训练的拼接向量；

参数学习模块，用于利用具有整流线性单元的前馈神经网络基于所述拼接向量进行模型参数的学习。

16.根据权利要求9所述的信息处理装置，其特征在于，所述确定模块包括：

排序单元，用于对所述相似度进行排序；

选择单元，用与根据排序结果选择与所述实体信息向量具有最大相似度的实体描述信息所对应于的图谱实体作为与所述目标实体匹配的图谱实体。

17.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，所述程序运行时执行如权利要求1至8中任一所述的信息处理方法。

18.一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如权利要求1至8中任一所述的信息处理方法。