CN111858869A

CN111858869A - 一种数据匹配方法、装置、电子设备和存储介质

Info

Publication number: CN111858869A
Application number: CN202010004962.XA
Authority: CN
Inventors: 熊超; 刘澈; 徐梓钧
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-10-30
Anticipated expiration: 2040-01-03
Also published as: CN111858869B

Abstract

本申请提供了一种数据匹配方法、装置、电子设备和存储介质，其中，该方法包括：获取多轮问答对话文本包括的各问题语句的第一句向量和目标答案语句的第二句向量；针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量；对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量；将所述目标答案语句和所述多轮问答对话文本的匹配度向量作为输入参数输入到二分类器中，得到所述目标答案语句和所述多轮问答对话文本的匹配度数值，通过上述方法有利于提高确定出来的候选答案和多轮问答对话文本的匹配度的准确度。

Description

一种数据匹配方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种数据匹配方法、装置、电子设备和存储介质。

背景技术

随着科技的发展，多伦问答机器人被越来越多的应用到回复问题的场景中，以替代人工回复，从而达到节约成本的目的。

针对多伦问答，在确定各候选答案和多轮问答对话文本的匹配度时，在相关技术中，通常是对多轮问答对话文本中的各问题文本进行切词处理，以及对一个候选答案进行切词处理，然后利用各问题文本包括的词向量和该候选答案包括的词向量确定该候选答案和多轮问答对话文本的匹配度，再通过重复上述方式，得到各候选答案和多轮问答对话文本的匹配度。上述在确定一个候选答案和多轮问答对话文本的匹配度时，由于是通过词向量确定的，因此确定出来的匹配度是词的匹配度，即：确定出来的匹配度是该候选答案中包括的词和多轮问答对话文本中包括的词的匹配度，因此确定出来的候选答案和多轮问答对话文本的匹配度的准确度较低。

发明内容

有鉴于此，本申请提供了一种数据匹配方法、装置、电子设备和存储介质，以提高确定出来的候选答案和多轮问答对话文本的匹配度的准确度。

第一方面，本申请实施例提供了一种数据匹配方法，包括：

获取多轮问答对话文本包括的各问题语句的第一句向量和目标答案语句的第二句向量，其中，所述目标答案语句是针对所述多轮问答对话文本中的至少一个问题语句给出的各候选答案语句中的一个答案语句；

针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量；

对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量；

将所述目标答案语句和所述多轮问答对话文本的匹配度向量作为输入参数输入到二分类器中，得到所述目标答案语句和所述多轮问答对话文本的匹配度数值。

可选地，所述数据匹配方法还包括：

根据所述多轮问答对话文本中的信息发送标识，对所述多轮问答对话文本进行切句处理，得到所述多轮问答对话文本包括的各语句；

对所述多轮问答对话文本包括的各语句进行分析，确定各所述问题语句。

可选地，所述数据匹配方法还包括：

针对每个问题语句，对该问题语句进行搜索引擎召回，得到该问题语句对应的候选答案语句。

可选地，针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量，包括：

针对每个问题语句，对该问题语句的第一句向量和所述第二句向量进行向量拼接处理，得到用于表示该问题语句和所述目标答案语句的特征向量；

将所述特征向量作为输入参数，输入到前馈神经网络中，得到该问题语句和所述目标答案语句的匹配度向量。

可选地，所述对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量，包括：

将各问题语句和所述目标答案语句的匹配度向量作为输入参数，输入到循环神经网络RNN模型中进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量。

可选地，在得到各候选答案语句和所述多轮问答对话文本的匹配度数值后，所述数据匹配方法还包括：

对各候选答案语句和所述多轮问答对话文本的匹配度数值进行比较，得到各候选答案语句和所述多轮问答对话文本的匹配度的排序结果；

根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句；

将所述待输出答案语句推送给所述多轮问答对话文本对应的提问设备。

可选地，所述根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句，包括：

根据所述排序结果，选择匹配度最高的候选答案语句作为所述待输出答案语句。

第二方面，本申请实施例提供了一种数据匹配装置，包括：

向量获取单元，用于获取多轮问答对话文本包括的各问题语句的第一句向量和目标答案语句的第二句向量，其中，所述目标答案语句是针对所述多轮问答对话文本中的至少一个问题语句给出的各候选答案语句中的一个答案语句；

向量匹配单元，用于针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量；

向量聚合单元，用于对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量；

匹配确定单元，用于将所述目标答案语句和所述多轮问答对话文本的匹配度向量作为输入参数输入到二分类器中，得到所述目标答案语句和所述多轮问答对话文本的匹配度数值。

可选地，所述数据匹配装置还包括：

切词单元，用于根据所述多轮问答对话文本中的信息发送标识，对所述多轮问答对话文本进行切句处理，得到所述多轮问答对话文本包括的各语句；

语句确定单元，用于对所述多轮问答对话文本包括的各语句进行分析，确定各所述问题语句。

可选地，所述数据匹配装置还包括：

召回单元，用于针对每个问题语句，对该问题语句进行搜索引擎召回，得到该问题语句对应的候选答案语句。

可选地，所述向量匹配单元的配置在用于针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量时，包括：

可选地，所述向量聚合单元的配置在用于对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量时，包括：

可选地，所述数据匹配装置还包括：

比较单元，用于在得到各候选答案语句和所述多轮问答对话文本的匹配度数值后，对各候选答案语句和所述多轮问答对话文本的匹配度数值进行比较，得到各候选答案语句和所述多轮问答对话文本的匹配度的排序结果；

筛选单元，用于根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句；

推送单元，用于将所述待输出答案语句推送给所述多轮问答对话文本对应的提问设备。

可选地，所述筛选单元的配置在用于根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句时，包括：

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面中任一项所述的数据匹配方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面中任一项所述的数据匹配方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，在确定目标答案语句和多轮问答对话文本的匹配度时，先获取多轮问答对话文本包括的各问题语句的第一句向量和目标答案语句的第二句向量，由于句向量能够对一个句子进行表征，因此通过句向量能够得到句子的语义，然后在针对每个问题语句，根据该问题语句的第一句向量和第二句向量，确定该问题语句和目标答案语句的匹配度向量，此时得到的匹配度向量包括该问题语句和目标答案语句在语义方面方的匹配度，在对各问题语句和目标答案语句的匹配度向量进行向量聚合处理，得到目标答案语句和多轮问答对话文本的匹配度向量，此时得到的目标答案语句和多轮问答对话文本的匹配度向量包括在语义方面的匹配度，即：通过匹配度向量可以确定目标答案语句和多轮问答对话文本在语义方面是否相匹配，最后在通过二分类器确定目标答案语句和多轮问答对话文本的匹配度数值，通过上述方法，在计算目标答案语句和多轮问答对话文本的匹配度数值时增加了语义维度方面的内容，由于语义能够表示语句蕴含的意义，因此相对于仅通过词语维度来确定候选答案和多轮问答对话文本的匹配度的方式，本申请有利于提高确定出来的候选答案和多轮问答对话文本的匹配度的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一提供的一种数据匹配方法的流程示意图；

图2为本申请实施例一提供的另一种数据匹配方法的流程示意图；

图3为本申请实施例一提供的另一种数据匹配方法的流程示意图；

图4为本申请实施例一提供的另一种数据匹配方法的流程示意图；

图5为本申请实施例二提供的一种数据匹配装置的结构示意图；

图6为本申请实施例二提供的另一种数据匹配装置的结构示意图；

图7为本申请实施例二提供的另一种数据匹配装置的结构示意图；

图8为本申请实施例二提供的另一种数据匹配装置的结构示意图；

图9为本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要提前说明的是，在多伦问答对话场景中，用户会和问答机器人进行对话，在对话过程中，用户可以向问答机器人进行提问，机器人在回答用户提出的问题时，可以通过召回的方式来获取到针对用户提出的某个问题的多个答案，然后在从召回的多个答案中找到与此次对话匹配度最高的答案，同时，机器人在回答用户提出的问题时具有一定的滞后性，例如：在一次对话过程中，用户在提出了三个问题后，问答机器人才会对其中至少一个问题进行回复，即：问答机器人在回复用户提出的问题时，可能是针对其中一个问题进行回复，或者可能是针对其中两个问题进行回复，再或者可能是针对用户提出的三个问题进行回复，进一步地，问答机器人在召回答案时，是针对用户提出的至少一个问题来召回答案，然后从召回的答案中筛选出与此次对话匹配度最高的答案，筛选出的匹配度最高的答案是针对用户提出的至少一个问题的最佳答案，举例说明，在一次对话过程中，用户提出了问题1、问题2和问题3，问答机器人在召回答案时，可能针对问题1、问题2和/或问题3在进行召回，以召回的答案是针对问题1和问题2召回的答案为例，针对问题1召回的答案包括至少一个，针对问题2召回的答案也包括至少一个，然后在对召回的所有答案和此次对话进行匹配，从而选择出与问题1匹配度最高的答案，以及选择出与问题2匹配度最高的答案。

在相关技术中，在针对多伦问答中的一次对话中的问题召回答案(后续称为候选答案)后，从候选答案中选择一个答案作为目标答案，然后对该目标答案进行切词处理，并得到该目标答案切词后得到的每个词语各自对应的多个第一词向量，以及对本次对话中的一个问题进行切词处理，并得到该问题切词后得到的每个词语各自对应的多个第二词向量(关于具体的切词方式和得到词向量的具体方法可以根据实际需要进行设定，在此不做具体限定)，然后再利用二维词匹配矩阵，得到各第一词向量和各第二词向量的二维词匹配矩阵，例如：当第一词向量包括：词向量1、词向量2和词向量3，第二词向量包括：词向量4和词向量5时，可以得到词向量1和词向量4的匹配度，词向量1和词向量5的匹配度，词向量2和词向量4的匹配度，词向量2和词向量5的匹配度，词向量3和词向量4的匹配度，以及词向量3和词向量5的匹配度，然后再由上述的匹配度得到3×2的二维词匹配矩阵，其中，二维词匹配矩阵中的每个匹配度都可以称为该二维词匹配矩阵的矩阵元素。在得到二维词匹配矩阵后，计算该二维词匹配矩阵的高维特征向量，即：对二维词匹配矩阵中的矩阵元素进行筛选，得到二维词匹配矩阵中高于预设阈值(预设阈值的具体大小可以根据实际需要进行设定，在此不做具体限定)的矩阵元素，进一步的，可以通过CNN(Convolutional NeuralNetworks，卷积神经网络)和Pooling来计算该二维词匹配矩阵的高维特征向量，然后对新的二维词匹配矩阵中的各行向量进行拼接处理，将得到的结果作为该目标问题和该问题的匹配度向量，例如：当得到的新的二维词匹配矩阵为3×3的矩阵时，对于每行矩阵元素，可以得到一个向量，在得到三行各自对应的向量后，在三行各自对应的向量进行拼接处理，从而得到该目标答案和该问题的匹配度向量。

当本次对话包括三个问题时，对每个问题都进行上述操作，可以得到各问题和该目标答案的匹配度向量，然后通过RNN(Recurrent Neural Network，循环神经网络)对上述得到的各问题和该目标答案的匹配度向量进行向量聚合处理，得到该目标答案和本次对话的匹配度向量，再将该目标答案和本次对话的匹配度向量通过二分类器得到该目标答案和本次对话的匹配度得分。

当候选答案包括三个时，重复三次上述过程，每一次重复时将不同候选答案作为目标答案，从而可以得到各候选答案和本次对话的匹配度得分。

在上述方法中，在确定目标答案和本次对话的匹配度得分时，是基于词向量确定的，即：匹配度得分受本次对话中的某些词的影响较大，但是如果该词语和本次对话中的问题相关性不大时，那么确定出来的匹配度得分会较低，举例说明，当本次对话中包括最多的词语是“火车”时，而提出的问题是“今天天气怎么样”，那么在通过上述方式确定目标答案和本次对话的匹配度得分时，与火车相关的答案和本次对话的匹配度得分会较高，而与天气相关的答案和本次对话的匹配度得分会较低，从而使得得到的各候选答案和本次对话的匹配度角度，进而无法为用户提送准确度较高的答案。

句子蕴含的意思就是语义，即：通过句子的语义能够得到该句子实际想表达的内容，因此在确定候选答案和多伦问答对话的匹配度时，如果增加语义维度的分析，可以使得到候选答案和多伦问答对话的匹配度的准确度更高，基于此，本申请提供了一种数据匹配方法、装置、电子设备和存储介质，在计算目标答案语句和多轮问答对话文本的匹配度数值时增加了语义维度方面的内容，由于语义能够表示语句蕴含的意义，因此相对于仅通过词语维度来确定候选答案和多轮问答对话文本的匹配度的方式，本申请有利于提高确定出来的候选答案和多轮问答对话文本的匹配度的准确度。

需要提前说明的是，本申请实施例的应用场景可以包括网络购物问答，例如：用户在购买产品之前，就该产品进行问答对话的场景，当然还可以是其他场景中的对话问答场景，例如：售后方面的问答场景，关于具体的应用场景可以根据实际需要进行设定，在此不做具体限定。

此外，本申请实施例涉及到的装置或电子设备等可以执行在单个服务器上，也可以执行在服务器组。服务器组可以是集中式的，也可以是分布式的。在一些实施例中，服务器相对于终端，可以是本地的，也可以是远程的。例如，服务器可以经由网络访问存储在服务请求方终端、服务提供方终端、或数据库、或其任意组合中的信息和/或数据。作为另一示例，服务器可以直接连接到服务请求方终端、服务提供方终端和数据库中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。

另外，本申请实施例涉及到的装置或电子设备可以执行在接入设备或者第三方设备上，具体可以包括：移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能头盔、智能手表、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、增强现实头盔等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。

以下是对本申请的详细说明。

实施例一

图1为本申请实施例一提供的一种数据匹配方法的流程示意图，如图1所示，该数据匹配方法包括以下步骤：

步骤101、获取多轮问答对话文本包括的各问题语句的第一句向量和目标答案语句的第二句向量，其中，所述目标答案语句是针对所述多轮问答对话文本中的至少一个问题语句给出的各候选答案语句中的一个答案语句。

具体的，在一次多伦问答过程中，用户会和问答机器人产生多轮问答对话文本，该多轮问答对话文本包括至少一个问题，并且针对多轮问答对话文本中的问题召回针对至少一个问题的答案语句(后续称为候选答案语句，其中，候选答案语句的格式为文本格式)，为了确定各个候选答案语句和多轮问答对话文本的匹配度得分，需要循环将各候选答案语句作为目标答案语句，来计算该候选答案语句和多轮问答对话文本的匹配度得分，从而得到各个候选答案语句和多轮问答对话文本的匹配度得分，在计算各候选答案语句中的某个候选答案语句和多轮问答对话文本的匹配度得分时，需要选择各候选答案语句中的一个候选答案语句作为目标答案语句，并且需要获取多轮问答对话文本包括的各问题语句的第一句向量和目标答案语句的第二句向量，在本申请中获取的是一个完整句子的句向量，因此获得的句向量中包含该句子的语义，即：通过句向量能够得到该句子所表示的意思。

举例说明，预先获取到多轮问答对话文本和针对多轮问答对话文本中的至少一个问题的候选答案，例如：得到的候选答案包括五个，多轮问答对话文本中包括的问题包括三个时，需要获取上述三个问题语句各自对应的第一句向量，以及获取上述五个候选答案中的一个候选答案的第二句向量。

需要说明的是，关于候选答案的具体得到方式、以及第一句向量和第二句向量的获取方式都可以根据实际需要进行设置，在此不做具体限定。

步骤102、针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量。

具体的，对于每个问题语句，可以对该问题语句的第一句向量和所述第二句向量进行融合匹配，来得到该问题语句和所述目标答案语句的匹配度向量。

举例说明，当多轮问答对话文本中包括三个问题语句：问题语句1、问题语句2和问题语句3，候选答案语句中三个答案语句：答案语句1、答案语句2和答案语句3，如果选择的目标答案语句为答案语句1时，在得到问题语句1的句向量、问题语句2的句向量和问题语句3的句向量，以及答案语句1的句向量后，根据问题语句1的句向量和答案语句1的句向量，得到问题语句1和答案语句1的匹配度向量，根据问题语句2的句向量和答案语句1的句向量，得到问题语句2和答案语句1的匹配度向量，以及根据问题语句3的句向量和答案语句1的句向量，得到问题语句3和答案语句1的匹配度向量。

步骤103、对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量。

具体的，为了确定目标答案语句和多轮问答对话文本是否相匹配，在得到各问题语句和目标答案语句的匹配度向量后，对各问题语句和目标答案语句的匹配度向量进行向量聚合处理，从而得到目标答案语句和多轮问答对话文本的匹配度向量，通过目标答案语句和多轮问答对话文本的匹配度向量可以分析出目标答案语句和多轮问答对话文本的匹配程度。

举例说明，在得到问题语句1和答案语句1的匹配度向量、问题语句2和答案语句1的匹配度向量，以及问题语句3和答案语句1的匹配度向量后，对上述三个匹配度向量进行向量聚合处理，以得到答案语句1和多轮问答对话文本的匹配度向量。

需要说明的，关于具体的向量聚合处理可以根据实际需要进行设定，在此不做具体限定。

步骤104、将所述目标答案语句和所述多轮问答对话文本的匹配度向量作为输入参数输入到二分类器中，得到所述目标答案语句和所述多轮问答对话文本的匹配度数值。

具体的，由于通过目标答案语句和多轮问答对话文本的匹配度向量能够分析出目标答案和多轮问答对话文本的匹配程度，因此将目标答案语句和多轮问答对话文本的匹配度向量作为输入参数输入到二分类器中后，可以得到目标答案语句和多轮问答对话文本的匹配度数值，该匹配度数值为目标答案语句和多轮问答对话文本匹配程度的具体量化。

举例说明，在得到答案语句1和多轮问答对话文本的匹配度向量后，将答案语句1和多轮问答对话文本的匹配度向量作为输入参数输入到二分类器中，得到答案语句1和多轮问答对话文本的匹配度数值。

需要说明的是，关于具体的二分类器可以根据实际需要进行设定，在此不做具体限定。

通过上述方法，在计算目标答案语句和多轮问答对话文本的匹配度数值时增加了语义维度方面的内容，由于语义能够表示语句蕴含的意义，因此相对于仅通过词语维度来确定候选答案和多轮问答对话文本的匹配度的方式，本申请有利于提高确定出来的候选答案和多轮问答对话文本的匹配度的准确度。

在一个可行的实施方案中，图2为本申请实施例一提供的另一种数据匹配方法的流程示意图，如图2所示，在执行步骤101之前，该数据匹配方法还包括以下步骤：

步骤201、根据所述多轮问答对话文本中的信息发送标识，对所述多轮问答对话文本进行切句处理，得到所述多轮问答对话文本包括的各语句。

步骤202、对所述多轮问答对话文本包括的各语句进行分析，确定各所述问题语句。

具体的，用户在和问答机器人对话时，用户在完成一句话后，可以通过信息发送键将对话发送给问答机器人，信息发送键可以是实体按键中的回车键，也可以是虚拟按键中的发送键等，此时问答机器人会得到该对话，并对该对话进行存储，在存储对话生成多轮问答对话文本时，需要在对话中增加信息发送标识，以便对用户发送的每次对话进行划分，即：在多轮问答对话文本不仅包括对话语句，还包括用于对对话语句进行划分的信息发送标识，因此可以通过信息发送标识对多轮问答对话文本进行切句处理，从而得到多轮问答对话文本包括的各语句，其中，多轮问答对话文本包括的各语句中包括问题语句，由于陈述句和问题语句在句式和语义等方面是不同的，因此可以对各语句进行分析，确定多轮问答对话文本包括的问题语句。

需要说明的是，关于具体的切句方式和具体的语句分析可以根据实际需要设置具体的方式，在此不做具体限定。

在一个可行的实施方案中，在执行步骤101之前，需要针对每个问题语句，对该问题语句进行搜索引擎召回，得到该问题语句对应的候选答案语句。

具体的，在得到多轮问答对话文本包括的问题语句后，针对每个问题语句，可以采用搜索召回的方式，对候选答案语句进行召回，例如：针对每个问题语句，对该问题语句进行切词处理，然后利用该问题语句包括的各个词的词向量进行搜素召回，从而得到针对该问题语句召回的候选答案语句。

需要说明的是，上述得到候选答案语句的方式仅是示意性的说明，并不对本申请实施例形成限定，还可以通过其他方式得到问题语句对应的候选答案语句，关于得到问题语句对应的候选答案语句的具体方式，在此不做具体限定。

在一个可行的实施方案中，图3为本申请实施例一提供的另一种数据匹配方法的流程示意图，如图3所示，在执行步骤102时，可以通过以下步骤实现：

步骤301、针对每个问题语句，对该问题语句的第一句向量和所述第二句向量进行向量拼接处理，得到用于表示该问题语句和所述目标答案语句的特征向量。

步骤302、将所述特征向量作为输入参数，输入到前馈神经网络中，得到该问题语句和所述目标答案语句的匹配度向量。

举例说明，在得到问题语句1的句向量、问题语句2的句向量和问题语句3的句向量，以及答案语句1的句向量后，对问题语句1的句向量和答案语句1进行向量拼接处理，得到问题语句1和答案语句1的特征向量，再对问题语句2的句向量和答案语句1进行向量拼接处理，得到问题语句2和答案语句1的特征向量，然后再对问题语句3的句向量和答案语句1进行向量拼接处理，得到问题语句3和答案语句1的特征向量，然后分别将上述三个问题语句和答案语句1的特征向量作为输入参数，输入到前馈神经网络中，得到问题语句1和答案语句1的匹配度向量、问题语句2和答案语句1的匹配度向量，以及问题语句3和答案语句1的匹配度向量。

需要说明的是，关于具体的向量拼接处理可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，在执行步骤103时，可以将各问题语句和所述目标答案语句的匹配度向量作为输入参数，输入到循环神经网络RNN模型中进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量。

举例说明，在得到问题语句1和答案语句1的匹配度向量、问题语句2和答案语句1的匹配度向量，以及问题语句3和答案语句1的匹配度向量后，将上述三个匹配度向量作为输入参数，输入到循环神经网络RNN模型中，以对上述三个匹配度向量进行向量聚合处理，从而得到答案语句1和多轮问答对话文本的匹配度向量。

需要说明的是，上述进行向量聚合处理的方式仅是示意性的说明，并不对本申请实施例形成具体限定，关于具体的向量聚合处理方式可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，图4为本申请实施例一提供的另一种数据匹配方法的流程示意图，如图4所示，在循环执行完步骤104得到各候选答案语句和所述多轮问答对话文本的匹配度数值后，该数据匹配方法还包括以下步骤：

步骤401、对各候选答案语句和所述多轮问答对话文本的匹配度数值进行比较，得到各候选答案语句和所述多轮问答对话文本的匹配度的排序结果。

步骤402、根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句。

步骤403、将所述待输出答案语句推送给所述多轮问答对话文本对应的提问设备。

具体的，当候选答案语句包括多个时，可以将各候选答案语句作为目标答案语句，然后通过如图1所示的方法进行循环处理，从而得到各候选答案语句和所述多轮问答对话文本的匹配度数值，举例说明，当候选答案语句包括：答案语句1、答案语句2和答案语句3时，可以分别将答案语句1、答案语句2和答案语句3作为目标答案语句，然后通过如图1所示的方法进行循环处理，从而得到答案语句1和所述多轮问答对话文本的匹配度数值、答案语句2和所述多轮问答对话文本的匹配度数值，以及答案语句3和所述多轮问答对话文本的匹配度数值，在得到各候选答案语句和多轮问答对话文本的匹配度数值后，可以对各候选答案语句和多轮问答对话文本的匹配度数值进行比较，从而可以对各候选答案语句和多轮问答对话文本的匹配度进行排序，通过排序结果可以确定各候选答案语句和多轮问答对话文本的匹配程度的先后顺序，然后根据预设推送规则，按照排序结果从各候选答案中选择待输出答案语句，例如：可以选择排序结果位于前三的候选答案语句作为待输出答案语句，并将待输出答案语句推送给多轮问答对话文本对应的提问设备，从而可以让用户获得待输出答案语句，通过上述方法，可以将匹配度较高的候选答案语句推送给用户，使得用户可以得到准确度相对较高的答案。

在一个可行的实施方案中，在执行步骤402时，可以根据所述排序结果，选择匹配度最高的候选答案语句作为所述待输出答案语句。

需要说明的是，还可以匹配度数值高于预设阈值的候选答案语句作为待输出答案语句，关于选择待输出答案语句的规则可以根据实际需要进行设定，在此不做具体限定。

实施例二

图5为本申请实施例二提供的一种数据匹配装置的结构示意图，如图5所示，该数据匹配装置包括：

向量获取单元51，用于获取多轮问答对话文本包括的各问题语句的第一句向量和目标答案语句的第二句向量，其中，所述目标答案语句是针对所述多轮问答对话文本中的至少一个问题语句给出的各候选答案语句中的一个答案语句；

向量匹配单元52，用于针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量；

向量聚合单元53，用于对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量；

匹配确定单元54，用于将所述目标答案语句和所述多轮问答对话文本的匹配度向量作为输入参数输入到二分类器中，得到所述目标答案语句和所述多轮问答对话文本的匹配度数值。

在一个可行的实施方案中，图6为本申请实施例二提供的另一种数据匹配装置的结构示意图，如图6所示，所述数据匹配装置还包括：

切词单元55，用于根据所述多轮问答对话文本中的信息发送标识，对所述多轮问答对话文本进行切句处理，得到所述多轮问答对话文本包括的各语句；

语句确定单元56，用于对所述多轮问答对话文本包括的各语句进行分析，确定各所述问题语句。

在一个可行的实施方案中，图7为本申请实施例二提供的另一种数据匹配装置的结构示意图，如图7所示，所述数据匹配装置还包括：

召回单元57，用于针对每个问题语句，对该问题语句进行搜索引擎召回，得到该问题语句对应的候选答案语句。

在一个可行的实施方案中，所述向量匹配单元52的配置在用于针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量时，包括：

在一个可行的实施方案中，所述向量聚合单元53的配置在用于对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量时，包括：

在一个可行的实施方案中，图8为本申请实施例二提供的另一种数据匹配装置的结构示意图，如图8所示，所述数据匹配装置还包括：

比较单元58，用于在得到各候选答案语句和所述多轮问答对话文本的匹配度数值后，对各候选答案语句和所述多轮问答对话文本的匹配度数值进行比较，得到各候选答案语句和所述多轮问答对话文本的匹配度的排序结果；

筛选单元59，用于根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句；

推送单元510，用于将所述待输出答案语句推送给所述多轮问答对话文本对应的提问设备。

在一个可行的实施方案中，所述筛选单元59的配置在用于根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句时，包括：

关于实施例二的详细介绍可参考实施例一的相关说明，在此不再详细赘述。

实施例三

图9为本申请实施例三提供的一种电子设备的结构示意图，包括：处理器901、存储介质902和总线903，所述存储介质902存储有所述处理器901可执行的机器可读指令，当电子设备运行上述的数据匹配方法时，所述处理器901与所述存储介质902之间通过总线903通信，所述处理器901执行所述机器可读指令，以执行以下步骤：

在本申请实施例中，所述存储介质902还可以执行其它机器可读指令，以执行如实施例一中其它所述的方法，关于具体执行的方法步骤和原理参见实施例一的说明，在此不再详细赘述。

实施例四

本申请实施例四还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

在本申请实施例中，该计算机程序被处理器运行时还可以执行其它机器可读指令，以执行如实施例一中其它所述的方法，关于具体执行的方法步骤和原理参见实施例一的说明，在此不再详细赘述。

本申请中涉及到的处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或其任意组合。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据匹配方法，其特征在于，包括：

2.如权利要求1所述的数据匹配方法，其特征在于，所述数据匹配方法还包括：

3.如权利要求1所述的数据匹配方法，其特征在于，所述数据匹配方法还包括：

4.如权利要求1所述的数据匹配方法，其特征在于，针对每个问题语句，根据该问题语句的第一句向量和所述第二句向量，确定该问题语句和所述目标答案语句的匹配度向量，包括：

5.如权利要求1所述的数据匹配方法，其特征在于，所述对各问题语句和所述目标答案语句的匹配度向量进行向量聚合处理，得到所述目标答案语句和所述多轮问答对话文本的匹配度向量，包括：

6.如权利要求1所述的数据匹配方法，其特征在于，在得到各候选答案语句和所述多轮问答对话文本的匹配度数值后，所述数据匹配方法还包括：

7.如权利要求6所述的数据匹配方法，其特征在于，所述根据所述排序结果，从各候选答案语句中选择用于输出的待输出答案语句，包括：

8.一种数据匹配装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7中任一项所述的数据匹配方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的数据匹配方法的步骤。