CN113139037B

CN113139037B - 文本处理方法、装置、设备以及存储介质

Info

Publication number: CN113139037B
Application number: CN202110293157.8A
Authority: CN
Inventors: 王思睿; 张鸿志; 王瑛瑶; 张富峥; 王仲远
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2023-04-14
Anticipated expiration: 2041-03-18
Also published as: CN113139037A

Abstract

本公开提供了一种文本处理方法、装置、设备以及存储介质，涉及计算机技术领域，旨在提高查询结果的准确性，所述方法包括：获得查询文本；根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；对所述子图进行序列化处理，得到序列化子图；利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

Description

文本处理方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本处理方法、装置、设备及存储介质。

背景技术

KBQA是一种基于知识图谱的问答技术，其主要任务是将自然语言问题（NLQ）通过不同方法映射到结构化的查询，并在知识图谱中获取答案。相比非结构化文本问答方法利用图谱丰富的语义关联信息，能够深入理解用户问题、解决更多复杂推理类问题。

相关技术中，基于知识图谱的问答技术一般采用两种方式，一种是InformationRetrieval（信息检索），该方法使用端到端的方式获得查询结果，例如，先抽取用户问题中核心信息，然后根据核心信息定位到图谱中确定子图，最后生成答案。但是，此种方式需要对问题和图谱（子图）分别处理为向量后才能计算两者相关性，适应性差。另一种是Semantic Parser（语义分析），该方法核心思想是把用户的问题转换为机器的查询语句，从查询知识图谱中查询到答案。但是，此种方式扩展性比较差，对于每一类问题都要做响应策略，很难全覆盖。

因而，上述两种方式的问答技术均具有一定局限性，无法得到准确度较高的查询结果。

发明内容

为了解决上述问题，本申请提供了一种文本处理方法、装置、设备及存储介质，旨在提高查询结果的准确度。

本公开实施例的第一方面，提供了一种文本处理方法，所述方法包括：

获得查询文本；

根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；

对所述子图进行序列化处理，得到序列化子图；

利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；

根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

可选地，在所述序列化子图的数量是多个的情况下，利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，包括：

利用预先训练的注意力模型，预测多个序列化子图各自与所述查询文本之间的注意力得分；

根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配，包括：

根据所述多个序列化子图各自对应的注意力得分，将所述多个序列化子图中的至少一个序列化子图，确定为与所述查询文本匹配的序列化子图。

可选地，在根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配之后，所述方法还包括：

在所述序列化子图与所述查询文本匹配的情况下，从所述序列化子图中提取所述知识图谱中的实体；

将提取的实体确定为所述查询文本的查询结果。

可选地，根据所述查询文本，从知识图谱中提取所述查询文本对应的子图，包括：

对所述查询文本进行实体识别；

在所述知识图谱中确定与识别出的实体之间存在至少一跳的关联关系的候选实体；

从所述知识图谱中提取所述识别出的实体与所述候选实体之间的子图；

对所述子图进行序列化处理，得到序列化子图，包括：

按照所述知识图谱中所述识别出的实体与所述候选实体之间的跳转路径，对所述子图中的各个实体顺序排列，得到序列化子图。

可选地，所述方法还包括：

根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向，生成所述子图的掩码图；

利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，包括：

利用预先训练的注意力模型，结合所述子图的掩码图，预测所述子图的序列化子图与所述查询文本之间的注意力得分。

可选地，所述方法还包括：

利用预先训练的注意力模型，预测所述序列化子图中各个实体之间的第一注意力得分，以及，预测所述查询文本中各个词语之间的第二注意力得分；

利用预先训练的注意力模型，结合所述第一注意力得分和/或所述第二注意力得分，预测所述子图的序列化子图与所述查询文本之间的注意力得分。

可选地，通过以下步骤获得所述多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本：

对获取的查询文本样本进行实体识别；

在所述知识图谱中确定与识别出的实体样本之间存在至少一跳的关联关系的多个候选实体样本；

从所述知识图谱中提取所述识别出的实体样本与所述多个候选实体样本之间的多个子图样本；

按照所述知识图谱中所述识别出的实体样本与所述多个候选实体样本之间的跳转路径，对所述多个子图样本中的各个实体顺序排列，得到多个序列化子图样本；

对所述多个序列化子图样本分别添加标签，所述标签用于标记所述序列化子图样本是否与所述查询文本样本匹配。

本发明实施例的第二方面，提供一种文本处理装置，所述装置包括：

文本获得模块，用于获得查询文本；

子图提取模块，用于根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；

子图处理模块，用于对所述子图进行序列化处理，得到序列化子图；

预测模块，用于利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；

确定模块，用于根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如第一方面所述的文本处理方法。

本公开实施例的第四方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，能够执行上述第一方面中任一项所述的文本处理方法所执行的操作。

采用本申请实施例的技术方案，可以获得查询文本；并根据查询文本，从知识图谱中提取查询文本对应的子图；并对子图进行序列化处理，得到序列化子图；之后，利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；最后，根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

一方面，由于本申请实施例在得到查询文本对应的子图后，可以将子图处理为序列化子图，从而利用注意力模型得到序列化子图与查询文本之间的注意力得分，该注意力得分可以表征序列化子图和查询文本之间的匹配程度，如此，可以根据该注意力得分，确定序列化子图与所述查询文本是否匹配。另一方面，由于将子图和查询文本同时输入到注意力模型，实现了文本和序列图可以在注意力模型中进行匹配，即可以理解为是在同一个空间中进行建模匹配，这样，避免了将查询文本和序列化子图均处理为向量表示后，才能将查询文本和知识图谱中的子图进行比较的问题，从而可以扩大了本申请的适应性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种文本处理方法的步骤流程图；

图2是本申请实施例的一种获得训练样本的步骤流程图；

图3是本申请一实施例示出的从知识图谱中提取候选实体样本的示例图；

图4是本申请一实施例示出的提取查询文本对应的子图的步骤流程图；

图5是本申请一实施例示出的一种文本处理方法的整体流程示意图；

图6是本申请一实施例示出的一种文本处理装置的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

其中，为便于理解本申请的技术方案，对本申请所要涉及的技术术语进行介绍：

端到端：是指在机器学习过程中不进行分模块或分阶段进行训练，直接优化任务的总体目标。例如，从输入端（输入数据）到输出端会得到一个预测结果，与真实结果相比较会得到一个误差，这个误差会在模型中的每一层传递（反向传播），每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束，这便是端到端的学习。

建模：是指将信息处理为统一类型的数据的过程，例如，将文本信息处理为向量表示的过程，将子图处理为向量表示的过程。

下面，对相关技术中Information Retrieval（信息检索）的缺陷进行详细说明：

其中，Information Retrieval（信息检索）的方式，存在语义空间不统一的问题。因为其要对问题和图谱（子图）分别进行建模，再通过空间映射后计算两者相关性，这种方案中问题在语义的文本空间进行建模，而子图是在图空间进行建模，无法对问题和图谱在同一空间建模，此外，该方法也往往忽略问题和子图之间的交互信息。

有鉴于Information Retrieval（信息检索）的方式的缺陷，相关技术中还提出了一种将BERT应用于KBQA的解决方案，然而，现有使用BERT对KBQA建模的方案要么是在子问题中应用去解决类似意图识别、关系抽取问题，要么简单使用BERT替换现有LSTM/CNN模型对问题建模，无法同时对问题和子图建模，即相关技术中缺少端到端的建模方案。

因而，本申请人考虑到在提高查询结果准确性和查询适用范围时，同时兼顾到将BERT应用于KBQA的解决方案中无法同时对问题和子图建模的问题，提出了本申请的一种文本处理方法，具体构思如下：提出一种将端到端的KBQA解决方案，将根据查询文本从知识图谱中查询子图的查询问题转换为子图和查询文本是否匹配的匹配问题，进而对子图和问题在同一空间同时建模，利用自注意力机制充分学习问题与子图之间的交互信息，从而得到问题与子图之间是否匹配的结果。

具体地，可以利用注意力模型充分学习序列化子图与查询文本之间的注意力得分，从而根据注意力得分确定序列化子图与查询文本是否匹配。由于将子图和查询文本同时输入到注意力模型，实现了文本和序列图可以在注意力模型中同时建模，避免了将查询文本和序列化子图均处理为向量表示后，才能将查询文本和知识图谱中的子图进行比较的问题，从而可以扩大了本申请的适应性。此外，相对于相关技术中将BERT应用于KBQA的解决方案中无法同时对问题和子图建模的问题，本申请可以做到文本和序列图同时建模，即子图和问题同时建模，进而得到了一种端到端的建模方案，从而有利于提高查询结果的准确性。

参照图1所示，示出了本申请实施例的一种文本处理方法的步骤流程图，如图1所示，所述方法可以应用于终端设备，具体可以包括以下步骤：

步骤S101：获得查询文本。

本实施例中，查询文本可以是指待查询的文本信息，实际中可以理解为是一个问题。其中，查询文本可以是由多个词语组成的文本，查询文本所使用的语种可以无需限制。例如，查询文本为“What type of art Raphael A create”，其中，What、type等为词语，这些词语组成了一个问题。

步骤S102：根据所述查询文本，从知识图谱中提取所述查询文本对应的子图。

本实施例中，可以根据查询文本所包括的一个或多个词语，从知识图谱中提取一个或多个词语对应的子图。其中，查询文本所包括的一个或多个词语可以理解为是查询文本中的关键词，例如，查询文本为“What type of art Raphael A create”，则关键词可以是“Raphael”。

其中，知识图谱可以是指知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形。本实施例中，知识图谱可以是指多个词组相互连接所构成的图结构，其中，子图可以理解为是在知识图谱中由至少一个词组依次串接而得到的图结构。

其中，从知识图谱中提取所述查询文本对应的子图可以是指：在知识图谱中与查询文本的关键词密切相关的至少一个词组所依次串接而得到的图结构。其中，一个词组也可以称为一个实体。

步骤S103：对所述子图进行序列化处理，得到序列化子图。

本实施例中，由于子图可以理解为是在知识图谱中由至少一个词组依次串接而得到的图结构，如此，对子图进行序列化处理是指将至少一个词组组成序列，从而得到序列化子图。

步骤S104：利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分。

其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的。

本实施例中，注意力模型主要用于学习查询文本和序列化子图之间的注意力得分，该注意力得分可以反映查询文本和序列化子图之间的关系密切度，或者，可以理解为该注意力得分为查询文本和序列化子图之间的交互程度，注意力得分越高，则表征查询文本和序列化子图之间的关系越密切，则二者匹配的概率越高。

其中，在训练得到注意力模型时，所需要的训练样本中包括多个样本对，一个样本对即包括一个查询文本样本和该查询文本样本对应的序列化子图样本。

步骤S105：根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

本实施例中，注意力得分可以反映查询文本和序列化子图之间的关系密切度，因而，可以根据注意力得分，确定序列化子图与查询文本是否匹配，若是匹配的，则可以确定序列化子图是查询文本的查询结果，若是不匹配的，则可以确定序列化子图不是查询文本的查询结果。其中，可以在注意力得分超过预设得分时，确定序列化子图是查询文本的查询结果。

采用本申请实施例的技术方案，一方面，由于在得到查询文本对应的子图后，可以将子图处理为序列化子图，进而将序列化子图和查询文本均输入到注意力模型，实现了文本和序列图可以在注意力模型中进行匹配，即可以理解为是在同一个空间中进行建模匹配，这样，避免了将查询文本和序列化子图均处理为向量表示后，才能将查询文本和知识图谱中的子图进行比较的问题，从而可以扩大了本申请的适应性。另一方面，本申请直接将查询文本输入到注意力模型中预测其与子图之间的注意力得分，避免了相关技术中对问题进行语义理解、实体识别后转换成查询语句从知识图谱中查询问题时的局限性，可以对各类型的问题进行积极响应，因而可以提高本申请的问题覆盖面。其次，对于相关技术中将BERT应用于KBQA的解决方案中无法同时对问题和子图建模的问题，本申请可以做到文本和子图同时建模，即子图和问题同时建模，进而得到了一种端到端的建模方案，从而有利于提高查询结果的准确性。

下面，对本申请实施例的一种文本处理方法进行详细说明。

首先，需要训练得到本申请实施例所要用到的注意力模型，具体而言，该注意力模型是以多个查询文本样本及多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的。参照图2所示，示出了一种实施例中得到训练样本的步骤流程图，如图2所示，可以通过以下步骤获得所述多个查询文本样本及多个查询文本样本各自对应的序列化子图样本：

步骤S201：对获取的查询文本样本进行实体识别。

本实施例中，查询文本样本可以是历史过程中各个用户进行查询时所输入的查询文本，其中，对查询文本样本进行实体识别可以是指：对查询文本样本进行关键词提取，从而得到实体样本，该实际即可以是一个词组或一个单词。

步骤S202：在所述知识图谱中确定与识别出的实体样本之间存在至少一跳的关联关系的多个候选实体样本。

本实施例中，由于知识图谱可以是指多个词组相互连接所构成的图结构，因而，可以在知识图谱中确定与实体样本之间存在至少一跳的关联关系的多个候选实体样本。其中，关联关系可以是指：与实体样本相关。

具体地，可以先从知识图谱中确定出包括实体样本的实体，接着，将从该实体起跳的预设条数的实体确定出来，便得到多个候选实体样本。

如图3所示，示出了本实施例中的从知识图谱中提取候选实体样本的示例图，如3所示，实体样本是Raphael，则可以将知识图谱中包括Raphael的实体“Raphael”确定出来，之后，再在知识图谱中将从“Raphael”起跳2跳的多个实体确定出来，例如，从“Raphael”起跳2跳的实体包括了“U”、“I”、“A”、“P”，则将“Raphael”、“U”、“I”、“A”、“P”作为候选实体样本。

步骤S203：从所述知识图谱中提取所述识别出的实体样本与所述多个候选实体样本之间的多个子图样本。

本实施例中，可以将多个候选实体样本从知识图谱中提取出，之后，将多个候选实体样本进行多种方式的组合，从而得到多个子图样本。具体的，由于知识图谱中的实体之间是存在连接关系的，因此，可以将多个候选实体样本按照候选实体之间的连接关系，将相连的候选实体样本进行组合，从而得到多个子图样本，当然，多个子图样本中的每个子图样本均可以与实体样本对应的候选实体样本，即均包括作为起点的候选实体样本。

如图3所示，“Raphael”、“U”、“I”、“A”作为候选实体样本，其中，与“Raphael”连接的实体样本为“U”和“A”，其中，“U”和“I”连接，“A”和“P”连接，则可以将“Raphael”、“U”相连作为一个子图样本，将“Raphael”、“A”相连作为一个子图样本；或者，将“Raphael”、“U”、“I”相连作为一个子图样本、将“Raphael”、“A”、“P”相连作为一个子图样本。

步骤S204：按照所述知识图谱中所述识别出的实体样本与所述多个候选实体样本之间的跳转路径，对所述多个子图样本中的各个实体顺序排列，得到多个序列化子图样本。

本实施例中，针对每个子图样本，可以将该子图样本处理为序列化子图样本，具体地，对于每个子图样本，可以按照该子图样本中所包括的各个候选实体样本的连接顺序，即跳转路径，对该子图样本中的各个候选实体样本进行排列，从而得到序列化子图样本。

例如，以“Raphael”、“A”、“P”相连作为一个子图样本为例，如图3所示，在知识图谱中，由“Raphael”跳转到“A”再跳转到“P”，则可以将“Raphael”、“A”、“P”按照这个顺序进行排列，得到序列化子图样本。其中，在知识图谱中两个相邻实体之间具有该两个相邻实体之间的属性，因而，得到的序列化子图样本可以是Raphael influence A visual art visualartist form P。

通过以上方式，可以得到多个子图样本各自对应的序列化子图样本。

步骤S205：对所述多个序列化子图样本分别添加标签，所述标签用于标记所述序列化子图样本是否与所述查询文本样本匹配。

本实施例中，对于每个查询文本样本，可以对应得到多个序列化子图样本，由上述实施例可知，一个序列化子图样本可以包括与识别出的实体样本对应的至少一个候选实体样本，这样，一个序列化子图样本即为查询文本样本对应的一个候选查询结果，即可以理解为一个候选答案。

其中，可以将一个查询文本和一个序列化子图样本进行配对，得到训练样本，具体地，由于本申请提出的是一种将端到端的KBQA解决方案，因而采用有监督的训练，如此，可以对训练样本进行标注。具体地，可以对多个序列化子图样本分别添加标签，该标签可以用数值表示，例如，标签为1表示序列化子图样本是查询文本样本对应的正确答案，即与查询文本样本相匹配，标签为0表示序列化子图样本不是查询文本样本对应的正确答案，即与查询文本样本不相匹配。

在得到上述训练样本后，可以利用该训练样本训练预设模型，从而得到注意力模型，其中训练过程可以参照相关技术中的模型训练过程即可，本申请不再赘述。

在得到注意力模型后，便可以将查询文本和序列化子图同时输入到注意力模型，以得到序列化子图与查询文本之间的注意力得分。

在一种示例中，如图4所示，示出了本申请实施例的提取查询文本对应的子图的步骤流程图，如图4所示，在根据所述查询文本，从知识图谱中提取所述查询文本对应的子图时，可以按照以下步骤进行：

步骤S401：对所述查询文本进行实体识别。

本申请实施例中，对查询文本进行实体识别，可以是指对查询文本进行关键词提取，从而提取到查询文本中的关键词，该关键词即为识别出的实体。

当然，在一些实施例中，也可以对查询文本进行语义识别，从而得到待查询的实体。

步骤S402：在所述知识图谱中确定与识别出的实体之间存在至少一跳的关联关系的候选实体。

本实施例中，对查询文本进行实体识别而得到的实体一般存在于知识图谱中，因而，可以在知识图谱中将该识别出的实体作为起点，将从该起点起跳的至少一跳的关联关系的实体均作为候选实体。

以图3为例，假设查询文本中识别出的实体是“Raphael”，则从Raphael起跳的二跳的实体包括“U”、“I”、“A”、“P”，则将“U”、“I”、“A”、“P”均作为候选实体。

实际中，具体起跳多少跳可以根据实际需求进行设置，本申请不予限制。

步骤S403：从所述知识图谱中提取所述识别出的实体与所述候选实体之间的子图。

本实施例中，可以将所得到的候选实体和识别出的实体所构成的实体之间的连接图做为子图。

相应地，在对所述子图进行序列化处理，得到序列化子图时，可以按照所述知识图谱中所述识别出的实体与所述候选实体之间的跳转路径，对所述子图中的各个实体顺序排列，得到序列化子图。

其中，得到子图的序列化子图的过程可以参照上述步骤S204的描述即可，在此不再赘述。在得到序列化子图后，便可以将序列化子图和查询文本输入到注意力模型，得到序列化子图与查询文本之间的注意力得分。

在其中一些实例中，示出了利用预先训练的注意力模型，预测序列化子图与所述查询文本之间的注意力得分的两种方式。

方式一：

参照图5所示，示出了本申请实施例的一种文本处理方法的整体流程示意图，如图5所示，可以将查询文本和查询文本对应的序列化子图均输入到注意力模型，结合该注意力模型和子图的掩码图，预测子图的序列化子图与查询文本之间的注意力得分。

首先，可以先根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向，生成所述子图的掩码图。

本实施例中，由于子图是根据候选实体和识别出的实体之间的连接关系所连接而得到的，因而可以根据子图中每两个实体之间的跳转方向，生成子图的掩码图。其中，该掩码图是一个二维图，该二维图的横轴和纵轴均为子图中的各个实体。其中，掩码图的每个像素点对应每两个实体，像素点的像素值即可以表征所对应的两个实体是否相邻。

其中，对于每两个实体而言，当该两个实体在知识图谱中是相邻连接的实体，则该两个实体对应到掩码图中的像素点的像素值可以是0，表示保留原始图结构的信息，当该两个实体在知识图谱中不是相邻连接的实体，则该两个实体对应到掩码图中的像素点的像素值可以是负无穷，表示该两个实体之间的关系不被保留。

具体地，如图5所示，最右侧是本申请所指的子图的掩码图，该图中白色的像素点表示对应的两个实体不是相邻连接的实体，而其余的像素点表示对应的两个实体是相邻连接的实体。假设，查询文本是“与8有关的故障设备型号”，输入的序列化子图为“8”-“3”-“1”-“9”，表示从8跳到3、从3跳到1、从1跳到9，其中，“1”“3”是相连接的，而“1”、“8”之间是不相连接的，则“1”、“8”对应的像素点的像素值为负无穷，而“1”“3”对应的像素点的像素值可以为0。

接着，利用预先训练的注意力模型，结合所述子图的掩码图，预测所述子图的序列化子图与所述查询文本之间的注意力得分。

本实施例中，将查询文本和查询文本对应的序列化子图均输入到注意力模型，可以通过注意力模型学习得到查询文本和序列化子图之间的交互信息，如图5中的中间图像所示，该图像又被称为注意力矩阵，表征的是查询文本和序列化子图之间的交互信息，即注意力矩阵中的每个像素点的像素值为查询文本中的各个词语和序列化子图中各个实体之间的注意力得分，即表征了查询文本中的各个词语和序列化子图中各个实体之间的交互信息。

在未结合子图的掩码图时，可以对注意力矩阵中的全部像素点的像素值进行计算，从而得到总的注意力得分，该注意力得分即为预测的子图的序列化子图与查询文本之间的注意力得分。

而在结合子图的掩码图时，便可以结合掩码图，对注意力矩阵中的各个像素点的像素值进行调整，例如，将注意力矩阵中的各个像素点的像素值与掩码图中对应的像素点的像素值进行相加，从而实现对注意力矩阵中的各个像素点的像素值的调整。

在一种示例中，可以根据以下公式（1）确定掩码图中各个像素点的像素值：

公式（1）；

其中，GVM_i,j表示掩码图中，与子图中实体i和实体j对应的像素点的像素值；

其中，可以根据以下公式（2）对注意力矩阵中的各个像素点的像素值进行调整：

公式（2）；

其中，(Q^t，K^t，V^t)中的Q、K、V分别表示查询文本、子图中的实体、像素值，(W_q，W_k，W_v)H^t-1表示转换矩阵，Att^t表示注意力得分。如此，可以根据上述公式（1）和公式（2）得到序列化子图与查询文本之间的注意力得分。

采用本实施方式的技术方案，由于引入了子图的掩码图，其中，在掩码图中由于相邻连接的实体对应的像素点的像素值被保留，因而可以保留原始的知识图谱的结构信息，减少序列化后的远距离的实体（不相连接的实体）之间的干扰，并结合掩码图对注意力模型输出的注意力得分进行调整，从而可以得到更为准确的查询文本和子图之间的匹配结果。

方式二：

可以先利用预先训练的注意力模型，预测所述序列化子图中各个实体之间的第一注意力得分，以及，预测所述查询文本中各个词语之间的第二注意力得分。

本实施例中，注意力模型除可以学习得到序列化子图中实体与查询文本中的词语之间的注意力得分，还可以学习序列化子图中各个实体之间的第一注意力得分，也可以学习查询文本中各个词语之间的第二注意力得分。即查询文本里面每一个单词都可以和序列化子图中的实体进行交互，算他们之间的注意力得分，同时，查询文本中的单词之间也可以做注意力交互，算他们之间的第二注意力得分，序列化子图的实体之间也可以注意力交互，算序列化子图的实体之间的第一注意力得分。采用此种方式，可以充分学习问题与图之间的交互信息。

接着，利用预先训练的注意力模型，结合所述第一注意力得分和/或所述第二注意力得分，预测所述子图的序列化子图与所述查询文本之间的注意力得分。

本实施例中，该注意力模型可以输出序列化子图中实体与查询文本中的词语之间的注意力得分，具体地，可以根据第一注意力得分输出序列化子图与查询文本之间的注意力得分，或者，可以根据第二注意力得分输出序列化子图与查询文本之间的注意力得分；或者，可以对第一注意力得分和第二注意力得分进行加权平均后，输出序列化子图与查询文本之间的注意力得分。

采用此种实施方式时，由于可以充分学习问题与图之间的交互信息，因而所得到的序列化子图中实体与查询文本之间的注意力得分可以更加准确。

当然，实际中，可以结合方式一和方式二，确定序列化子图与查询文本中之间的注意力得分，具体地，可以按照方式二，预测所述序列化子图中各个实体之间的第一注意力得分，以及，预测所述查询文本中各个词语之间的第二注意力得分，接着，按照方式一，结合子图的掩码图、第一注意力得分，和/或第二注意力得分，预测序列化子图与查询文本中之间的注意力得分。

通过上述方式，便可以得到序列化子图与查询文本之间的注意力得分。其中，在得到序列化子图与查询文本之间的注意力得分之后，可以根据所述注意力得分，确定序列化子图与所述查询文本是否匹配。实际中，一般会得到查询文本对应的多个子图，进而相应地得到多个序列化子图。

则在一种实施例中，在序列化子图的数量是多个的情况下，可以利用预先训练的注意力模型，预测多个序列化子图各自与所述查询文本之间的注意力得分。

具体地，可以将多个序列化子图和查询文本同时输入到注意力模型，从而得到注意力模型输出的查询文本分别与多个序列化子图之间的注意力得分。

当然，查询文本与每个序列化子图之间的注意力得分的获得过程均可以采用以上实施例所述的过程即可。

则相应地，可以根据所述多个序列化子图各自对应的注意力得分，将所述多个序列化子图中的至少一个序列化子图，确定为与所述查询文本匹配的序列化子图。

本实施例中，可以将多个序列化子图中注意力得分最高的序列化子图确定为与查询文本匹配的序列化子图。当然，若注意力得分最高的序列化子图超过一个的情况下，可以将任一注意力得分最高的序列化子图确定为与查询文本匹配的序列化子图。

其中，在确定到与查询文本匹配的序列化子图后，还可以相应地生成查询结果，具体的，可以在所述序列化子图与所述查询文本匹配的情况下，从所述序列化子图中提取所述知识图谱中的实体；将提取的实体确定为所述查询文本的查询结果。

本实施例中，在得到到与查询文本匹配的序列化子图后，由于序列化子图是根据子图中所包括的多个实体之间的跳转路径进行顺序排列而得到的，因此，可以从该序列化子图中提取实体，将提取的实体按照其在知识图谱中的跳转顺序进行组合，从而得到查询文本的查询结果。

示例地，如图5所示，输入的多个序列化子图中与查询文本匹配的序列化子图为“8”-“3”-“1”-“9”，则可以将“8”、“3”、“1”、“9”在知识图谱中的实体“8”00“3”11“1”11“9”作为查询结果。其中，00、11代表实体之间的属性。

采用以上实施例的技术方案，一方面，可以支持基于端到端KBQA解决方案，通过注意力模型，解决了查询文本和子图在同一空间建模的问题，可以扩大了本申请的适应性。另一方面，通过自注意力机制可以让注意力模型更好的学习到查询文本和子图、子图中实体之间以及查询文本中的词语之间的交互信息，以提高匹配结果的准确性。再一方面，由于引入了子图的掩码图，使得相邻连接的实体对应的像素点的像素值被保留，因而可以保留知识图谱的原始的结构信息，减少序列化后的远距离的实体（不相连接的实体）之间的干扰，并结合掩码图对注意力模型输出的注意力得分进行调整，从而可以得到更为准确的查询文本和子图之间的匹配结果。

基于与上述实施例同一发明构思，本公开实施例的第二方面，提供了一种文本处理装置600，如图6所示，具体可以包括以下模块：

文本获得模块601，用于获得查询文本；

子图提取模块602，用于根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；

子图处理模块603，用于对所述子图进行序列化处理，得到序列化子图；

预测模块604，用于利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；

确定模块605，用于根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

可选地，在所述序列化子图的数量是多个的情况下，所述预测模块504，具体可以用于利用预先训练的注意力模型，预测多个序列化子图各自与所述查询文本之间的注意力得分；

所述确定模块605，具体可以用于根据所述多个序列化子图各自对应的注意力得分，将所述多个序列化子图中的至少一个序列化子图，确定为与所述查询文本匹配的序列化子图。

可选地，所述装置还可以包括以下模块：

提取模块，用于在所述序列化子图与所述查询文本匹配的情况下，从所述序列化子图中提取所述知识图谱中的实体；

结果输出模块，用于将提取的实体确定为所述查询文本的查询结果。

可选地，所述子图提取模块602，具体可以包括以下单元：

识别单元，用于对所述查询文本进行实体识别；

确定单元，用于在所述知识图谱中确定与识别出的实体之间存在至少一跳的关联关系的候选实体；

提取单元，用于从所述知识图谱中提取所述识别出的实体与所述候选实体之间的子图；

所述子图处理模块603，具体可以用于按照所述知识图谱中所述识别出的实体与所述候选实体之间的跳转路径，对所述子图中的各个实体顺序排列，得到序列化子图。

可选地，所述装置还可以包括以下模块：

掩码图生成模块，用于根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向，生成所述子图的掩码图；

所述预测模块604，具体可以用于利用预先训练的注意力模型，结合所述子图的掩码图，预测所述子图的序列化子图与所述查询文本之间的注意力得分。

可选地，所述装置还可以包括以下模块：

得分预测模块，用于利用预先训练的注意力模型，预测所述序列化子图中各个实体之间的第一注意力得分，以及，预测所述查询文本中各个词语之间的第二注意力得分；

所述预测模块604，具体可以用于利用预先训练的注意力模型，结合所述第一注意力得分和/或所述第二注意力得分，预测所述子图的序列化子图与所述查询文本之间的注意力得分。

对获取的查询文本样本进行实体识别；

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本发明实施例还提供了一种电子设备，该电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器被配置为执行所述的文本处理方法。

本公开实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得所述处理器能够执行一种以实现本公开上述的文本处理方法所执行的操作。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种文本处理方法、装置、设备以及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获得查询文本；

对所述子图进行序列化处理，得到序列化子图；

利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，包括：根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向，生成所述子图的掩码图；其中，相邻连接的实体对应的像素点的像素值被保留；利用预先训练的注意力模型，结合所述子图的掩码图，预测所述子图的序列化子图与所述查询文本之间的注意力得分；其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；所述注意力模型为：将所述查询文本和所述序列化子图进行建模匹配而训练得到的模型；

2.根据权利要求1所述的方法，其特征在于，在所述序列化子图的数量是多个的情况下，利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，包括：

3.根据权利要求1所述的方法，其特征在于，在根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配之后，所述方法还包括：

将提取的实体确定为所述查询文本的查询结果。

4.根据权利要求1所述的方法，其特征在于，根据所述查询文本，从知识图谱中提取所述查询文本对应的子图，包括：

对所述查询文本进行实体识别；

对所述子图进行序列化处理，得到序列化子图，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-4任一所述的方法，其特征在于，通过以下步骤获得所述多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本：

对获取的查询文本样本进行实体识别；

7.一种文本处理装置，其特征在于，所述装置包括：

文本获得模块，用于获得查询文本；

预测模块，用于利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，包括：根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向，生成所述子图的掩码图；其中，相邻连接的实体对应的像素点的像素值被保留；利用预先训练的注意力模型，结合所述子图的掩码图，预测所述子图的序列化子图与所述查询文本之间的注意力得分；其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；所述注意力模型为：将所述查询文本和所述序列化子图进行建模匹配而训练得到的模型；

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如权利要求1-6任一项所述的文本处理方法。

9.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1-6任一项所述的文本处理方法。