CN110489730A

CN110489730A - 文本处理方法、装置、终端及存储介质

Info

Publication number: CN110489730A
Application number: CN201910751992.4A
Authority: CN
Inventors: 张映雪; 孟凡东; 周杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-22

Abstract

本发明实施例公开了一种文本处理方法、装置、终端及介质，其中方法包括：获取目标输入文本对应的候选响应文本集合；获取候选响应文本集合中各个候选响应文本的第一置信度；候选响应文本集合中的任一个候选响应文本的第一置信度是根据任一个候选响应文本的全局匹配信息预测得到，全局匹配信息由第一匹配信息和第二匹配信息融合得到，第一匹配信息用于反映任一候选响应文本与目标输入文本之间的相似度，第二匹配信息用于反映任一候选响应文本与另一候选响应文本之间的相似度；根据各个候选响应文本的第一置信度从候选响应文本集合中选取目标响应文本。本发明实施例可以更好地获取输入文本所对应的目标响应文本，提高目标响应文本的准确性。

Description

文本处理方法、装置、终端及存储介质

技术领域

本发明涉及互联网技术领域，具体涉及人机交互技术领域，尤其涉及一种文本处理方法、一种文本处理装置、一种终端及一种计算机存储介质。

背景技术

随着科学技术的发展，终端逐渐变得智能化。目前，大多数的终端均可实现人机交互(Human–Computer Interaction，HCI)；所谓人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。在人机交互的过程中，终端若检测到用户所输入的输入文本，则可在文本对应表中查询该输入文本所对应的响应文本，并输出该响应文本以供用户查看。实践表明，目前获取响应文本的方法较为单一，会导致响应文本的准确性较低；因此，如何更好地获取输入文本所对应的响应文本成为了研究热点。

发明内容

本发明实施例提供了一种文本处理方法、装置、终端及计算机存储介质，可以更好地获取输入文本所对应的目标响应文本，提高目标响应文本的准确性。

一方面，本发明实施例提供了一种文本处理方法，该文本处理方法包括：

获取目标输入文本对应的候选响应文本集合，所述候选响应文本集合包括多个候选响应文本；

调用基于强化学习框架的文本处理模型获取所述候选响应文本集合中各个候选响应文本的第一置信度，所述第一置信度用于表示候选响应文本为正确响应文本的第一概率；所述文本处理模型包括全局视野编码器和代理策略网络，所述候选响应文本集合中的任一个候选响应文本的第一置信度由所述代理策略网络根据所述任一个候选响应文本的全局匹配信息预测得到，所述任一候选响应文本的全局匹配信息由所述全局视野编码器对第一匹配信息和第二匹配信息进行融合得到，所述第一匹配信息用于反映所述任一候选响应文本与所述目标输入文本之间的相似度，所述第二匹配信息用于反映所述任一候选响应文本与所述候选响应文本集合中另一候选响应文本之间的相似度；

根据所述各个候选响应文本的第一置信度从所述候选响应文本集合中选取所述目标输入文本的目标响应文本。

另一方面，本发明实施例提供了一种文本处理装置，该文本处理装置包括：

获取单元，用于获取目标输入文本对应的候选响应文本集合，所述候选响应文本集合包括多个候选响应文本；

调用单元，用于调用基于强化学习框架的文本处理模型获取所述候选响应文本集合中各个候选响应文本的第一置信度，所述第一置信度用于表示候选响应文本为正确响应文本的第一概率；所述文本处理模型包括全局视野编码器和代理策略网络，所述候选响应文本集合中的任一个候选响应文本的第一置信度由所述代理策略网络根据所述任一个候选响应文本的全局匹配信息预测得到，所述任一候选响应文本的全局匹配信息由所述全局视野编码器对第一匹配信息和第二匹配信息进行融合得到，所述第一匹配信息用于反映所述任一候选响应文本与所述目标输入文本之间的相似度，所述第二匹配信息用于反映所述任一候选响应文本与所述候选响应文本集合中另一候选响应文本之间的相似度；

选取单元，用于根据所述各个候选响应文本的第一置信度从所述候选响应文本集合中选取所述目标输入文本的目标响应文本。

再一方面，本发明实施例提供了一种终端，所述终端包括输入设备和输出设备，所述终端还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

获取所述候选响应文本集合中各个候选响应文本的第一置信度，所述第一置信度用于表示候选响应文本为正确响应文本的第一概率；所述文本处理模型包括全局视野编码器和代理策略网络，所述候选响应文本集合中的任一个候选响应文本的第一置信度由所述代理策略网络根据所述任一个候选响应文本的全局匹配信息预测得到，所述任一候选响应文本的全局匹配信息由所述全局视野编码器对第一匹配信息和第二匹配信息进行融合得到，所述第一匹配信息用于反映所述任一候选响应文本与所述目标输入文本之间的相似度，所述第二匹配信息用于反映所述任一候选响应文本与所述候选响应文本集合中另一候选响应文本之间的相似度；

本发明实施例可获取目标输入文本对应的候选响应文本集合，并调用基于强化学习框架的文本处理模型获取候选响应文本集合中各个候选响应文本的第一置信度。文本处理模型包括全局视野编码器和代理策略网络，任一个候选响应文本的第一置信度由代理策略网络根据该候选响应文本的全局匹配信息预测得到；而全局匹配信息由全局视野编码器对用于反映该候选响应文本与目标输入文本之间的相似度的第一匹配信息，以及用于反映该候选响应文本和另一候选响应文本之间的相似度的第二匹配信息进行融合得到。通过融合第一匹配信息和第二匹配信息的方式来得到全局匹配信息，可以弥补候选响应文本和目标输入文本之间的匹配信息不足的问题，保证全局匹配信息的信息丰富性，使得通过全局匹配信息所得到的第一置信度的准确性较高。由于第一置信度用于表示候选响应文本为正确响应文本的第一概率，因此可根据各个候选响应文本的第一置信度从候选响应文本集合中选取目标输入文本的目标响应文本；通过提高第一置信度的准确性，从而保证目标响应文本的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种文本处理模型的架构图；

图1b是本发明实施例提供的一种全局视野编码器的原理示意图；

图1c是本发明实施例提供的一种基于比较-聚合机制的编码器的结构示意图；

图1d是本发明实施例提供的一种强化学习框架的性能测试的结果示意图；

图2是本发明实施例提供的一种文本处理方法的流程示意图；

图3是本发明另一实施例提供的一种文本处理方法的流程示意图；

图4a是本发明实施例提供的一种文本处理方法的应用场景图；

图4b是本发明实施例提供的一种文本处理方法的另一应用场景图；

图5a是本发明实施例提供的一种文本处理方法的另一应用场景图；

图5b是本发明实施例提供的一种文本处理方法的另一应用场景图；

图6是本发明实施例提供的一种文本处理装置的结构示意图；

图7是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

文本，是指书面语言的表现形式。从文学角度讲，文本通常是具有完整、系统含义的一个句子或多个句子的组合；此处的句子是指由词或词组(短语)构成的，能够表达一个完整意思的语言，其可以包括：陈述句、疑问句、祈使句和感叹句等。其中，陈述句是指陈述一个事实或者说话人的看法的句子，如“今天是7月24日”；疑问句是指用于表达疑问语气的句子，如“今天是多少号？”；祈使句是指用于表达命令、请求、劝告、警告、禁止等语气的句子，如“请查询今天的日期！”；感叹句是指用于表示喜怒哀乐等强烈情感的句子，如“今天居然已经是7月24日啊！”。

在本发明实施例中，用户直接输入至终端中的文本或者将用户输入的语音进行语音-文本的转换所得到的文本均可称为输入文本，其可以包括但不限于：问题、诗词、歌词、文章段落等等。其中，问题是指由一个或多个句子所构成的要求进行解答或回答的文本，如“请查询今天的日期！”“10月1日是什么节日？”、“今天是晴天，我们出去玩吗？”，等等。用于响应输入文本的文本可称为响应文本；例如，若输入文本是问题，则响应文本可以是用于响应该问题的答案；若输入文本是诗词，则响应文本可以是用于响应该诗词的另一句诗词、或者用于响应该诗词的诗词信息(如该诗词的诗词题目、诗词作者等信息)；若输入文本是歌词，则响应文本可以是用于响应该歌词的另一句歌词，或者用于响应该歌词的歌曲信息(如该歌词对应的歌曲名称、歌手等信息)；若输入文本是文章段落，则响应文本可以是用于响应该文章段落的另一句文章段落，或者用于响应该文章段落的文章信息(如文章题目、文章作者等信息)，等等。

为了在获取到输入文本之后，可以更好地根据输入文本进行文本处理，从而较为准确地获取到输入文本所对应的目标响应文本；本发明实施例提出了一种新型的强化学习框架(RL)，并基于该强化学习框架搭建了一个文本处理模型。参见图1a所示，该文本处理模型具体可至少包括：

(1)全局视野编码器(Global-view Encoder)，如图1a中间的虚线框所示；该全局视野编码器可以至少包括两个组件：一个是Q-A编码器(输入-响应编码器)，用于接收输入文本和当前响应文本，并提取出输入文本和当前响应文本之间的第一匹配信息；另一个是A-A编码器(响应-响应编码器)，用于接收当前响应文本和参考响应文本，并提取出当前响应文本和参考响应文本之间的第二匹配信息。其中，Q-A编码器和A-A编码器均可选择以下任一种编码器：基于比较-聚合机制的编码器(Compare-Aggregate Encoder，CompAgg)、基于注意力机制的编码器(ABCNN)，等等。

针对全局视野编码器，本发明实施例还提出了一种全局视野匹配机制；此处的全局视野匹配机制是指：融合某响应文本与输入文本之间的第一匹配信息以及该响应文本与另一响应文本之间的第二匹配信息，从而得到全局匹配信息的机制。第一匹配信息和第二匹配信息经过融合最终生成全局匹配信息。相应的，基于全局视野编码器实现全局视野匹配机制的具体原理可一并参见图1b所示，其主要原理如下：针对待处理的当前响应文本，先获取可靠的响应文本作为当前响应文本的参考(即获取参考响应文本)；作为参考的响应文本是否可靠可以根据该响应文本的置信度来衡量，置信度越高则表明该响应文本越可靠。然后可以将当前响应文本、参考响应文本以及输入文本一并输入至全局视野编码器以实现全局匹配，从而获得当前响应文本的全局匹配信息。具体的，全局视野编码器可采用式1.1-式1.3实现全局匹配：

V_QA＝CompAgg(Q，A_cur) 式1.1

V_AA＝CompAgg(A_pre，A_cur) 式1.2

s_t＝concat(V_QA，V_AA) 式1.3

其中，Q表示输入文本、A_cur表示当前响应文本、A_pre表示参考响应文本、s_t表示全局匹配信息。

需要说明的是，为便于阐述，除非特别指明，本发明实施例后续所提及的Q-A编码器和A-A编码器均以基于比较-聚合机制的编码器为例进行说明。基于比较-聚合机制的编码器的具体结构可以参见图1c所示，其具体可以包括以下四个模块：嵌入模块(embedding)、注意力模块(Attention)、比较模块(Compare)以及聚合模块(Aggregate)。其中，嵌入模块用于将输入文本中的词表示成词向量，以得到该输入文本对应的文本向量；将当前响应文本中的词表示成词向量，以得到该当前响应文本对应的文本向量；和/或将参考响应文本中的词表示成词向量，以得到该参考响应文本对应的文本向量。注意力模块用于利用注意力机制生成当前响应文本关于输入文本的注意力表示(Q-A Encoder)；或者用于利用注意力机制生成当前响应文本关于参考响应文本的注意力表示(A-A Encoder)；此处的注意力表示是指注意力向量。比较模块用于将当前响应文本对应的文本向量与当前响应文本关于输入文本的注意力表示通过某种比较函数(如“按元素相乘(element-wisemultiply)”函数)进行比较，得到一组向量；或者，用于将当前响应文本对应的文本向量与当前响应文本关于参考响应文本的注意力表示通过比较函数进行比较，得到一组向量。聚合模块用于将比较模块输出的一组向量聚合成一个向量；此处的聚合模块可采用CNN(Convolutional Neural Network,卷积神经网络)和GRU(Gated Recurrent Unit，门控循环单元)构建，也可以采用多头注意力机制(Multi-head Attention)网络构建，还可以采用胶囊网络(Capsule Network)构建，等等。由此可见，本发明实施例所提出的强化学习框架适应于多种全局视野编码器的网络模型，例如ABCNN、CompAgg-CNN、CompAgg-GRU，等等；其适用范围较广。

(2)基于强化学习算法的代理策略网络(Policy Network)，如图1a顶部的Agent(强化学习的代理)；代理策略网络用于根据当前响应文本的全局匹配信息预测得到该当前响应文本为正确响应文本的概率。在优化代理策略网络的过程中，可将全局匹配信息作为代理策略网络的状态(state)，将代理策略网络预测得到的概率作为动作(Action)；通过该动作所对应的奖励(reward)指导代理策略网络进行优化学习。

由此可见，本发明实施例所提出的基于强化学习框架的文本处理模型主要引入了两项创新：第一项创新是基于强化学习框架设计了全局视野编码器，旨在融合响应文本与输入文本之间的匹配信息以及响应文本与另一响应文本之间的匹配信息，从而得到全局匹配信息。第二项创新是基于强化学习框架，从全局排序的角度设计了一种代理策略网络，以全局匹配信息作为状态，将预测得到的概率作为动作，并获取相应的奖励指导整个模型的学习。基于文本处理系模型获取输入文本所对应的目标响应文本时，通过对响应文本和输入文本之间的匹配信息，以及响应文本和另一响应文本之间的匹配信息进行融合，可以弥补响应文本和输入文本之间的匹配信息不足的问题，从而可以提高目标响应文本的准确性；并且，在弥补匹配信息不足的问题时，无需使用除响应文本集合以外的其他资源，可以有效节省资源。

为了说明本发明实施例所提出的基于强化学习框架的文本处理模型的有益效果，本发明实施例还针对MAP(平均准确率)指标和MRR(平均倒数排名)指标，采用了不同的数据库(如WikiQA(维基数据库)、SelQA(一种水库))对该文本处理模型中一个或多个部分进行了性能测试，其测试结果可以分别参见表1和表2所示：

表1

测试对象(WikiQA)	MAP	MRR
			ABCNN	68.71	70.28
ABCNN+RL	69.63(+0.92)	71.02(+0.74)
			CompAgg-CNN	70.24	71.47
CompAgg-CNN+RL	71.37(+1.13)	72.49(+1.02)
			CompAgg-GRU	71.28	72.59
CompAgg-GRU+RL	72.47(+1.19)	73.55(0.96)

表2

测试对象(SelQA)	MAP	MRR
			ABCNN	82.14	82.93
ABCNN+RL	83.08(+0.94)	83.71(+0.68)
			CompAgg-CNN	89.90	90.40
CompAgg-CNN+RL	90.39(+0.49)	90.95(0.55)
			CompAgg-GRU	86.48	86.90
CompAgg-GRU+RL	87.21(+0.73)	87.76(+0.86)

由于MAP指标和MRR指标的值越大，则表明效果越好(即准确性越高)；因此，由上述表1和表2中的测试结果可知，本发明实施例所提出的基于强化学习框架的文本处理模型可有效提升准确性。为了进一步说明强化学习框架给模型带来的有效性，本发明实施例还在相同的超参数集下以及在有无强化学习框架的情况下，采用wikiQ数据库分别对CompAgg-CNN和CompAgg-GRU这两种模型进行数据处理的速度测试；其中，针对CompAgg-CNN的测试结果可参见图1d中的左图，针对CompAgg-GRU的测试结果可以参见图1d的右图。通过对比图1d中所显示的测试结果可知，通过基于强化学习框架的模型可以在更短的时间经历内获得更好的性能，而其主要原因是因为全局匹配信息融合了响应文本和响应文本之间的匹配信息，填补了输入文本与响应文本之间的信息空白，使数据处理变得更快、更容易。

基于上述文本处理模型的相关描述，本发明实施例提出一种文本处理方法，该文本处理方法可以由终端或者服务器执行；此处的终端可以包括但不限于：智能手机、平板电脑、膝上计算机、台式电脑等终端设备，以及智能手表、聊天机器人(如腾讯公司的小微)等支持人机交互的电子设备，等等。本发明实施例以终端执行该文本处理方法为例进行阐述，终端内配置有上述所描述的基于强化学习框架的文本处理模型。请参见图2，该文本处理方法可包括以下步骤S201-S203：

S201，获取目标输入文本对应的候选响应文本集合。

终端可以检测是否存在文本处理的触发事件；若检测到该触发事件，则可获取目标输入文本。在一种实施方式中，触发事件可以是检测到用户输入文本的事件；那么此实施方式下，终端可以直接将用户输入的文本作为目标输入文本。再一种实施方式中，触发事件可以是检测到用户输入语音的事件；那么此实施方式下，终端可以获取用户输入的语音，并将获取到的语音转化成目标输入文本。再一种实施方式中，触发事件还可以是检测到数据库存在新增文本的事件；那么此实施方式下，终端可以将数据库中新增的文本作为目标输入文本；此处的数据库可以是指终端本地的数据库，也可以是指终端所对应的云端数据库，还可以是指与终端进行通信的服务器中的数据库，对此不作限定。其中，目标输入文本可以包括但不限于：目标问题、目标诗词、目标歌词、目标文章段落，等等。

在获取到目标输入文本之后，可获取该目标输入文本对应的候选响应文本集合；具体的，终端可以从数据库中获取目标输入文本所对应的多个候选响应文本，并将获取到的多个候选响应文本依次添加至候选响应文本集合中；由此可见，该候选响应文本集合可以包括多个候选响应文本。在一种实施方式中，候选响应集合中的多个候选响应文本可依序排列。由前述可知，若目标输入文本为目标问题，则候选响应文本集合可以为候选答案集合，候选响应文本为候选答案。若目标输入文本为目标诗词，则候选响应文本集合可以为候选诗词集合，候选响应文本为候选诗词，该候选诗词可以为与目标诗词属于同一首诗的其它诗词，也可以是与目标诗词的语义相似的诗词；或者，候选响应文本集合可以为候选诗词信息集合，候选响应文本为候选诗词信息，该候选诗词信息包括诗词题目、诗词作者等。若目标输入文本为目标歌词，则候选响应文本集合可以为候选歌词集合，候选响应文本可以为候选歌词，该候选歌词可以为与目标歌词属于同一首歌曲的其它歌词，也可以是与目标歌词的语义相似的歌词；或者，候选响应文本集合可以为候选歌词信息集合，候选响应文本为候选歌词信息，该候选歌词信息包括歌曲名称、歌手等信息。若目标输入文本是目标文章段落，则候选响应文本集合可以为候选文章段落集合，候选响应文本可以为与目标文章段落属于同一文章的其它文章段落，也可以是与目标文章段落的语义相似的文章段落；或者，候选响应文本集合可以为候选文章信息集合，候选响应文本为候选文章信息，候选文本信息包括文章题目、文章作者等。

S202，调用基于强化学习框架的文本处理模型获取候选响应文本集合中各个候选响应文本的第一置信度。

研究表明，候选响应文本和目标输入文本之间可能存在匹配信息不足的问题，因此为了弥补候选响应文本与目标输入文本之间的匹配信息不足的问题，以提高第一置信度的准确性，本发明实施例针对候选响应文本集合中的任一个候选响应文本，采用了全局视野匹配机制来获取该候选响应文本的全局匹配信息，并根据全局匹配信息预测得到该候选响应文本的第一置信度。其中，第一置信度用于表示候选响应文本为正确响应文本的第一概率；例如，若候选响应文本的第一置信度为0.8，则表示该候选响应文本为正确响应文本的第一概率为0.8(或80％)；又如，若候选响应文本的第一置信度为0.1，则表示该候选响应文本为正确响应文本的第一概率为0.1(或10％)。

由前述可知，文本处理模型包括全局视野编码器和代理策略网络；因此，候选响应文本集合中的任一个候选响应文本的第一置信度可由代理策略网络根据任一个候选响应文本的全局匹配信息预测得到，该任一候选响应文本的全局匹配信息可由全局视野编码器对第一匹配信息和第二匹配信息进行融合得到。其中，第一匹配信息用于反映任一候选响应文本与目标输入文本之间的相似度；第一匹配信息的信息量越大，则表明该候选响应文本与目标输入文本之间的相似度越大。第二匹配信息用于反映任一候选响应文本与候选响应文本集合中另一候选响应文本之间的相似度；第二匹配信息的信息量越大，则表明该任一候选响应文本与另一候选响应文本之间的相似度越大。此处的另一候选响应文本可以包括以下任一种：候选响应文本集合中除所述任一候选响应文本以外的任一候选响应文本、候选响应文本集合中已具有第一置信度且第一置信度最高的候选响应文本、候选响应文本集合中已具有第一置信度且第一置信度大于预设阈值的任一候选响应文本、候选响应文本集合中已具有第二置信度且第二置信度最高的候选响应文本、或者候选响应文本集合中已具有第二置信度且第二置信度大于预设阈值的任一候选响应文本，等等；其中，第二置信度是指根据候选响应文本与目标输入文本之间的第一匹配信息预测得到的置信度。

S203，根据各个候选响应文本的第一置信度从候选响应文本集合中选取目标输入文本的目标响应文本。

由前述可知，第一置信度用于表示候选响应文本为正确响应文本的第一概率；因此，在获取到各个候选响应文本的第一置信度之后，可以根据各个候选响应文本的第一置信度从候选响应文本集合中选取目标输入文本的目标响应文本。在一种实施方式中，可以将各个候选响应文本的第一置信度与置信度阈值进行比较，选取第一置信度大于置信度阈值的候选响应文本作为目标输入文本的目标响应文本。此处的置信度阈值可以根据实际业务需求或者经验值设置，例如设置为0.5、0.7等。以置信度阈值为0.5为例，若候选响应文本集合包括4个候选响应文本：候选响应文本1(0.8)、候选响应文本2(0.1)、候选响应文本3(0.2)、候选响应文本4(0.6)；则通过将各候选响应文本的第一置信度和置信度阈值进行比较，可知候选响应文本1的第一置信度和候选响应文本4的第一置信度均大于置信度阈值，因此可以选取候选响应文本1和候选响应文本4作为目标输入文本的目标响应文本。

再一种实施方式中，由于候选响应文本的第一置信度越大，则表明该候选响应文本为正确响应文本的第一概率就越大；因此，可以选取按照置信度从高到低的顺序依次选取目标响应文本。具体的，可以根据各个候选响应文本的第一置信度对各个候选响应文本进行降序排列，得到排序集合；依次从排序集合中选取一个或多个候选响应文本作为目标输入文本的目标响应文本。例如，设候选响应文本集合包括4个候选响应文本：候选响应文本1(0.8)、候选响应文本2(0.1)、候选响应文本3(0.2)、候选响应文本4(0.6)；那么根据第一置信度对这4个候选响应文本进行降序排列，可得到排序集合为：候选响应文本1、、候选响应文本2。若目标响应文本的数量为1个，则可以从排序集合中选取候选响应文本1作为目标响应文本；若目标响应文本的数量为3个，则可以依次从排序集合中选取候选响应文本1、候选响应文本4以及候选响应文本3作为目标响应文本。需要说明的是，目标响应文本的数量可以根据实际业务需求或者经验值设置。例如，若目标输入文本为单项选择的目标问题，则目标响应文本的数量为1个；若目标输入文本为多项选择的目标问题，则目标响应文本的数量可以为多个，如2个、3个等。

请参见图3，是本发明实施例提供的另一种文本处理方法的流程示意图。该文本处理方法可以由上述所提及的终端或者服务器执行；本发明实施例以终端执行该文本处理方法为例进行阐述，服务器执行该文本处理方法的具体实施过程可参见本发明实施例。请参见图3，该文本处理方法可包括以下步骤S301-S304：

S301，获取目标输入文本对应的候选响应文本集合。

S302，调用基于强化学习框架的文本处理模型获取候选响应文本集合中各个候选响应文本的第一置信度。

由于候选响应文本集合中的任一个候选响应文本的第一置信度均是根据该候选响应文本的全局匹配向量预测得到；也就是说，候选响应文本集合中的各个候选响应文本的第一置信度的计算方式是相同的。因此，为了便于阐述，本发明实施例以候选响应文本集合中的一个候选响应样本为例，对第一置信度的获取方式进行详细阐述。具体实现中，候选响应集合中的多个候选响应文本依序排列；那么本发明实施例可将各个候选响应文本的第一置信度获取问题建模成一个序列排序的问题，即本发明实施例可按照各个候选响应文本的排列顺序，依次获取各个候选响应文本的第一置信度。

基于此，候选响应集合中可包括第一候选响应文本，该第一候选响应文本可以是前述所提及的当前响应文本。第一候选响应文本可通过以下方式选取得到：依序遍历候选响应文本集合中的各个候选响应文本；若当前遍历的候选响应文本不具有第一置信度，则选取当前遍历的候选响应文本作为第一候选响应文本。例如，设候选响应文本集合依次包括4个候选响应文本：候选响应文本1、候选响应文本2、候选响应文本3以及候选响应文本4；若这4个候选响应文本均不具有第一置信度，则可以将候选响应文本1作为第一候选响应文本；若候选响应文本1和候选响应文本2均已具有第一置信度，则可以将候选响应文本3作为第一候选响应文本。

第一候选响应文本的第一置信度可通过以下方式获取，其具体可包括步骤s11-s12：

s11，调用全局视野编码器获取第一候选响应文本的全局匹配信息。

第一候选响应文本的全局匹配信息是采用第一候选响应文本和目标输入文本之间的第一匹配信息，以及第一候选响应文本和第二候选响应文本(对应前述所提及的参考响应文本)之间的第二匹配信息融合得到的。其中，第一匹配信息采用第一匹配向量进行表示，第二匹配信息采用第二匹配向量进行表示，全局匹配信息采用全局匹配向量进行表示。在具体实施过程中，步骤s11可进一步包括以下步骤s111-s113：

s111，根据第一候选响应文本从候选响应文本集合中获取第二候选响应文本。

由于本发明实施例是按照各个候选响应文本的排列顺序，依次获取各个候选响应文本的第一置信度的；因此，当第一候选响应文本为候选响应文本中的第t个候选响应文本A_t(t大于1)时，之前已经预测过的候选响应文本可包括{A₁，A₂，…，A_t-1}。其中，每一个已经预测过的候选响应文本均具有第一置信度。由于第二候选响应文本用于作为第一候选响应文本的参考，而实践表明，当候选响应文本中存在错误响应文本时，错误响应文本会对第一候选响应文本产生较大的噪音，若将该错误响应文本作为第二候选响应文本，则后续很难采用该第二候选响应文本和第一候选响应文本之间的第二匹配信息来弥补匹配信息不足的问题；这样会导致后续计算得到的全局匹配信息的信息不足，从而影响第一候选响应文本的第一置信度的准确性。因此，可以尽量从候选响应文本中选取正确响应文本作为第二候选响应文本，以减少对第一候选响应文本的噪音影响。而由前述可知，候选响应文本的第一置信度越大，则表明该候选响应文本为正确响应文本的概率就越大；因此，在一种实施方式中，可以选择第一置信度最高的候选响应文本作为第二候选响应文本，以提高第二候选响应文本的参考作用，减少对第一候选响应文本的噪音影响。相应的，根据第一候选响应文本从候选响应文本集合中获取第二候选响应文本的具体实施方式可以是：若第一候选响应文本在候选响应文本集合中的排序位为非首位，则获取候选响应文本集合中位于第一候选响应文本之前的各个候选响应文本的第一置信度；从位于第一候选响应文本之前的各个候选响应文本中选取第一置信度最高的候选响应文本作为第二候选响应文本。再一种实施方式中，也可以选择第一置信度大于预设阈值的任一候选响应文本作为第二候选响应文本。相应的，根据第一候选响应文本从候选响应文本集合中获取第二候选响应文本的具体实施方式可以是：若第一候选响应文本在候选响应文本集合中的排序位为非首位，则获取候选响应文本集合中位于第一候选响应文本之前的各个候选响应文本的第一置信度；从位于第一候选响应文本之前的各个候选响应文本中选取第一置信度大于预设阈值的任一候选响应文本作为第二候选响应文本。

当第一候选响应文本为候选响应文本中的第1个候选响应文本A_t(t等于1)时，对于第一个被预测的候选响应文本A₁，由于在第1个候选响应文本之前没有被预测过的候选响应文本，因此无法根据第一置信度选取第二候选响应文本。基于此，本发明实施例可通过Q-A编码器对候选响应文本集合中除第一候选响应文本之外的各个候选响应文本进行预测，得到各个除第一候选响应文本之外的各个候选响应文本的第二置信度，然后根据第二置信度从候选响应文本集合中选取第二候选响应文本。在一种实施方式中，可以选取第二置信度最高的候选响应文本作为第二候选响应文本。相应的，根据第一候选响应文本从候选响应文本集合中获取第二候选响应文本的具体实施方式可以是：若第一候选响应文本在候选响应文本集合中的排序位为首位，则根据目标输入文本计算候选响应文本集合中除第一候选响应文本以外的各个候选响应文本的第二置信度，第二置信度用于表示候选响应文本为正确响应文本的第二概率；然后，选取第二置信度最高的候选响应文本作为第二候选响应文本。再一种实施方式中，可以选择第二置信度大于预设阈值的任一候选响应文本作为第二候选响应文本。相应的，根据第一候选响应文本从候选响应文本集合中获取第二候选响应文本的具体实施方式可以是：若第一候选响应文本在候选响应文本集合中的排序位为首位，则根据目标输入文本计算候选响应文本集合中除第一候选响应文本以外的各个候选响应文本的第二置信度；然后，从候选响应文本集合中除第一候选响应文本以外的各个候选响应文本中选取第二置信度大于预设阈值的任一候选响应文本作为第二候选响应文本。

其中，根据目标输入文本计算候选响应文本集合中除第一候选响应文本以外的各个候选响应文本的第二置信度的具体实施方式可以是：针对候选响应文本集合中除第一候选响应文本以外的任一候选响应文本，采用Q-A编码器获取该候选响应文本与目标输入文本之间的第一匹配信息，然后根据该第一匹配信息预测得到该候选响应文本的第二置信度。

s112，调用全局视野编码器获取第一候选响应文本和目标输入文本之间的第一匹配信息，以及第一候选响应文本与第二候选响应文本之间的第二匹配信息。

由前述可知，可以调用Q-A编码器获取第一候选响应文本和目标输入文本之间的第一匹配信息，调用A-A编码器获取第一候选响应文本与第二候选响应文本之间的第二匹配信息。由于Q-A编码器和A-A编码器的结构相同，因此获取第一候选响应文本和目标输入文本之间的第一匹配信息的具体实施方式与获取第一候选响应文本和第二候选响应之间的第二匹配信息的具体实施方式类似；那么为便于阐述，本发明实施例将以第一匹配信息的获取方式进行阐述，而第二匹配信息的获取方式可以参见第一匹配信息的获取方式，在此不再赘述。

具体实现中，获取第一候选响应文本和目标输入文本之间的第一匹配信息的具体实施方式可以是：

首先，获取第一候选响应文本对应的第一文本向量、以及目标输入文本对应的输入文本向量。具体的，可以对第一候选响应文本进行分词，并将分词得到的各词均表示成第一词向量，对各第一词向量进行拼接得到第一文本向量，即第一文本向量包括多个第一词向量；对目标输入文本进行分词，并将分词得到的各词均表示成输入词向量，对各输入词向量进行拼接得到输入文本向量，即输入文本向量包括多个输入词向量。在一种实施方式中，当全局视野编码器为基于比较-聚合机制的编码器时，可调用编码器中的嵌入模块来获取第一候选响应文本对应的第一文本向量、以及目标输入文本对应的输入文本向量。

其次，采用注意力机制根据第一文本向量和输入文本向量，生成第一候选响应文本关于目标输入文本的第一注意力向量。具体的，可以先采用注意力机制根据输入文本向量计算第一文本向量中的各个第一词向量第一注意力值，第一注意力值用于反映第一词向量对目标输入文本的关注度；再采用各个第一词向量的第一注意力值拼接得到第一候选响应文本关于目标输入文本的第一注意力向量，即第一注意力向量包括各第一词向量的第一注意力值。其中，在采用注意力机制根据输入文本向量计算第一文本向量中的各个第一词向量第一注意力值时，可以①从第一文本向量中不具有第一注意力值的第一词向量中选取任一第一词向量作为目标第一词向量，计算目标第一词向量与输入文本向量中的各个输入词向量之间的相似度；②采用目标第一词向量与各个输入词向量之间的相似度对各个输入词向量进行加权求和，得到目标第一词向量的第一注意力值；迭代上述步骤①-②，直至第一文本向量中的各个第一词向量均具有第一注意力值。举例来说，第一文本向量为[a1，a2，a3]，a1，a2和a3均为第一词向量；输入文本向量为[q1，q2，q3]，q1，q2和q3均为输入词向量；若目标第一词向量为a1，则a1的第一注意力值的计算过程如下：先计算a1与各个输入词向量之间的相似度，计算结果如下：a1和q1之间的相似度为x1，a1和q2之间的相似度为x2，a1和q3之间的相似度为x3；再采用计算得到的相似度对各输入词向量进行加权求和：x1*q1+x2*q2+x3*q3＝m1，即m1为a1的第一注意力值；迭代上述步骤，则可计算得到第一注意力向量为[m1，m2，m3]。在一种实施方式中，当全局视野编码器为基于比较-聚合机制的编码器时，可调用编码器中的注意力模块来采用注意力机制根据第一文本向量和输入文本向量，生成第一候选响应文本关于目标输入文本的第一注意力向量。

然后，根据第一注意力向量和第一文本向量，得到第一候选响应文本与目标输入文本之间的第一匹配向量。具体的，可以将第一注意力向量和第一文本向量进行元素乘积运算，得到第一组向量；例如，第一注意力向量为[m1，m2，m3]，第一文本向量为[a1，a2，a3]；那么进行元素乘积运算得到的第一组向量为[a1*m1，a2*m2，a3*m3]。得到第一组向量之后，可以对第一组向量进行聚合处理，得到第一候选响应文本与目标输入文本之间的第一匹配向量。在一种实施方式中，当全局视野编码器为基于比较-聚合机制的编码器时，可调用编码器中的比较模块将第一注意力向量和第一文本向量进行元素乘积运算，得到第一组向量，并调用聚合模块对第一组向量进行聚合处理，得到第一候选响应文本与目标输入文本之间的第一匹配向量。

s113，调用全局视野编码器对第一匹配信息和第二匹配信息进行融合，得到第一候选响应文本的全局匹配信息。

此处的融合可以包括以下任一种处理：拼接处理、池化处理或加权求和处理。具体实现，在一种实施方式中，可以采用拼接的方法融合第一匹配信息和第二匹配信息；此实施方式下，融合包括拼接处理。再一种实施方式中，也可以采用池化(pooling)的方法融合第一匹配信息和第二匹配信息；此实施方式下，融合包括池化处理。其中，池化处理可以为最大池化处理或者平均池化处理；所谓最大池化处理是指从第一匹配向量和第二匹配向量中选取较大的匹配向量的处理，所谓平均池化处理是指对第一匹配向量和第二匹配向量进行平均值运算的处理。再一种实施方式中，还可以利用门机制(Capsule mechanism)融合第一匹配信息和第二匹配信息。门机制的原理是设置参数，根据设置的参数确定第一匹配向量的第一权重值，以及第二匹配向量的第二权重值，采用第一权重值和第二权重值对第一匹配向量和第二匹配向量进行加权求和处理；即此实施方式下，融合包括加权求和处理。其中，第一权重值和第二权重值的总和等于1；例如，设置参数为w，那么第一权重值可以为w，第二权重值可以为1-w。

s12，调用代理策略网络根据第一候选响应文本的全局匹配信息对第一候选响应文本进行预测，得到第一候选响应文本的第一置信度。

其中，代理策略网络可采用随机政策π(a_t|s_t；θ)；s_t表示输入第t个响应文本时的状态(即第t个响应文本的全局匹配信息)，a_t表示输入第t个响应文本时的动作(即第t个响应文本为正确响应文本的第一置信度)。在实际应用中，响应文本可以是候选响应文本；在优化过程中，响应文本可以是样本响应文本。代理策略网络可通过两层MLP可计算得到将状态映射到动作的概率分布，具体可采用式2.1-式2.2进行计算：

h₁(s_t)＝tanh(W₁s_t+b₁) 式2.1

pθ＝p(a_t|s_t)＝softmax(W₂h₁(s_t)+b₂) 式2.2

其中，W₁、W₂、b₁以及b₂均为代理策略网络的网络参数；tanh()表示双曲函数，h₁(s_t)表示双曲函数的函数值；softmax()表示归一化指数函数，p(a_t|s_t)表示第t个响应文本的第一置信度。

在一种实施方式中，可以直接调用代理策略网络根据第一候选响应文本的全局匹配信息对第一候选响应文本进行预测，得到第一候选响应文本的第一置信度。再一种实施方式中，也可以预先获取训练数据，并采用训练数据并基于强化学习算法对代理策略网络进行迭代优化；再调用代理策略网络(即优化的代理策略网络)根据第一候选响应文本的全局匹配信息对第一候选响应文本进行预测，得到第一候选响应文本的第一置信度。其中，训练数据包括一个样本输入文本以及样本输入文本对应的样本响应文本集合，样本响应文本集合包括多个依序排列的样本响应文本、各样本响应文本的标签，标签用于指示样本响应文本为正确响应文本或者错误响应文本。在采用训练数据并基于强化学习算法对代理策略网络进行迭代优化的过程中，每次优化均可输入样本输入文本和一个样本响应文本以实现对代理策略网络的优化。在第t次的优化过程中，可以先获取第t个样本响应文本的参考样本响应文本，然后根据样本输入文本、参考样本响应文本以及第t个样本响应文本获取第t个样本响应文本的全局响应信息；然后将第t个样本响应文本的全局响应信息至代理策略网络，代理策略网络通过两层MLP可计算得到第t个样本响应文本的第一置信度(即动作)。在完成动作之后，可以获取用于指导代理策略网络进行优化学习的奖励，根据奖励确定代理策略网络的优化方向从而实现对代理策略网络进行优化。可理解的是，若第t个样本响应文本的第一置信度大于之前预测的所有样本响应文本的第一置信度，则第t个样本响应文本可替换之前的参考样本响应文本成为新的参考样本响应文本，即在第t+1次的优化过程中，第t+1个样本响应文本的参考样本响应文本便为第t个样本响应文本。

由此可见，采用强化学习算法和训练数据对代理策略网络进行优化的具体实施方式可以是：首先，从样本响应文本集合中不具有第一置信度的样本响应文本中依次选取第一样本响应文本，并调用全局视野编码器获取第一样本响应文本的全局匹配信息。其次，调用代理策略网络根据第一样本响应文本的全局匹配信息对第一样本响应文本进行预测，得到第一样本响应文本的第一置信度。其中，第一样本响应文本的全局匹配信息和第一置信度的获取方式可以参见上述步骤S302的相关描述，在此不再赘述。然后，根据第一样本响应文本的第一置信度和标签、以及样本响应文本集合中位于第一样本响应文本之前的各个样本响应文本的第一置信度和标签，计算代理策略网络的当前奖励。在一种实施方式中，由于任务被建模为排序问题，因此本发明实施例可以将奖励设计为每个动作之前和之后的平均精度(AveP)的差值；平均精度越高，代表排序的效果越好。其中，使用AP_t代表输入第t个样本响应文本时的AveP，那么AP_t的计算公式可参见式2.3所示，当前奖励R(a_t)的计算公式可参见式2.4所示：

其中，R表示前t个样本响应文本中标签指示为正确响应文本的样本响应文本的数量；例如，t＝5，前4个样本响应文本中只有一个样本响应文本的标签指示为正确响应文本，则R＝1；position(r)代表第r个标签指示为正确响应文本的样本响应文本在t个样本响应文本中的排序位置，r属于[1，R]；T表示样本响应文本集合中所包括的样本响应文本的数量。通过上述式子，可以直观上看到：如果采取了当前行动使得AveP值有所提高，这意味着当前动作提高了排名的整体表现，代理策略网络(Agent)将获得积极的奖励。否则，代理策略网络将得到负面的奖励。通过这种方式可以实现利用全局的排序状态的变化来指导代理策略网络的优化学习，有效提高优化学习效果。需要说明的是，在其他实施方式中，奖励也可以设计为每个动作之前和之后的MRR(平均倒数排名)的差值。

在获取到代理策略网络的当前奖励之后，可以根据当前奖励和强化学习算法确定代理策略网络的优化方向，并沿着优化方向调整代理策略网络的网络参数(即W₁、W₂、b₁以及b₂)，以优化代理策略网络。其中，根据当前奖励和强化学习算法确定代理策略网络的优化方向的具体实施方式可以是：将当前奖励代入强化学习算法中，得到代理策略网络的预期奖励；根据预期奖励计算代理策略网络的梯度值，并将沿着梯度值减小的方向作为代理策略网络的优化方向。本发明实施例采用REINFORCE算法作为强化学习算法，该算法旨在最大化预期的奖励，其具体计算公式如式2.5所示；相应的，还可以采用式2.6来根据预期奖励计算代理策略网络的梯度值。

S303，根据各个候选响应文本的第一置信度对各个候选响应文本进行降序排列，得到排序集合。

S304，依次从排序集合中选取一个或多个候选响应文本作为目标输入文本的目标响应文本。

终端可以根据实际的业务需求，将上述所提及的文本处理方法运用在不同的应用场景中；例如，问答应用场景、答案检索应用场景、聊天对话应用场景，等等。例如，当将该文本处理方法应用在答案检索应用场景中时，目标输入文本为目标问题、候选响应文本为候选答案。具体的：当用户想要获取目标问题的目标答案时，可以先打开答案检索系统；具体的，若答案检索系统是网页版本的答案检索系统，则用户可以通过浏览器打开该答案检索系统；若答案检索系统是客户端版本的答案检索系统，则用户可以打开该答案检索系统的客户端。终端检测到用户针对答案检索系统的打开操作后，可运行该答案检索系统，并为用户提供一个输入目标问题的用户界面。用户则可以在答案检索系统的输入界面中输入目标问题；在输入完成目标问题之后，可以点击查询按钮11以触发终端获取该目标问题，如图4a所示。

终端获取到用户所输入的目标问题之后，可以获取该目标问题所对应的候选答案集合，候选答案集合中可包括多个依序排列的候选答案。针对每一个候选答案，终端可以调用全局视野编码器并基于全局视野匹配机制提取该候选答案的全局匹配信息；然后再调用优化的代理策略网络根据该候选答案的全局匹配信息进行预测，得到该候选答案属于正确答案的第一概率(即第一置信度)。在得到各个候选答案的第一置信度之后，可以各个候选答案的第一置信度从候选答案集合中选取目标问题所对应的目标答案(例如选取第一置信度最高的候选答案作为目标答案)，并输出该目标答案，如图4b所示。

又如，当将该文本处理方法应用在聊天对话应用场景中时，终端可以为聊天机器人，目标输入文本为将用户输入的语音进行语音-文本的转换所得到的目标问题、候选响应文本为候选答案。具体的：用户在和聊天机器人进行聊天对话的过程中，用户对着聊天机器人输入了一语音，如图5a所示。聊天机器人则可获取用户所输入的用户语音，并将该用户语音转为成文本形式的目标问题。在得到目标问题之后，聊天机器人可以获取该目标问题所对应的候选答案集合，候选答案集合中可包括多个依序排列的候选答案。针对每一个候选答案，聊天机器人可以调用全局视野编码器并基于全局视野匹配机制提取该候选答案的全局匹配信息；然后再调用优化的代理策略网络根据该候选答案的全局匹配信息进行预测，得到该候选答案属于正确答案的第一概率(即第一置信度)。在得到各个候选答案的第一置信度之后，可以各个候选答案的第一置信度从候选答案集合中选取目标问题所对应的目标答案(例如选取第一置信度最高的候选答案作为目标答案)。在选取得到目标答案之后，还可将该目标答案转换成语音数据(回答语音)并输出至用户，如图5b所示。

需要说明的是，上述的应用场景均可以属于答案选择这一任务领域；实践表明，将上述文本处理方法应用于答案选择这个任务上，可以利用两个候选答案之间的匹配信息弥补目标问题与候选答案之间匹配信息的不足的问题，保证全局匹配信息的信息丰富性。通过提取候选答案与另一候选答案的匹配信息，可以缓解多数情况下问题过于简短而造成的选择困难问题；保证目标答案的准确性。

基于上述文本处理方法实施例的描述，本发明实施例还公开了一种文本处理装置，所述文本处理装置可以是运行于终端中的一个计算机程序(包括程序代码)。该文本处理装置可以执行图2至图3所示的方法。请参见图6，所述文本处理装置可以运行如下单元：

获取单元101，用于获取目标输入文本对应的候选响应文本集合，所述候选响应文本集合包括多个候选响应文本；

调用单元102，用于调用基于强化学习框架的文本处理模型获取所述候选响应文本集合中各个候选响应文本的第一置信度，所述第一置信度用于表示候选响应文本为正确响应文本的第一概率；所述文本处理模型包括全局视野编码器和代理策略网络，所述候选响应文本集合中的任一个候选响应文本的第一置信度由所述代理策略网络根据所述任一个候选响应文本的全局匹配信息预测得到，所述任一候选响应文本的全局匹配信息由所述全局视野编码器对第一匹配信息和第二匹配信息进行融合得到，所述第一匹配信息用于反映所述任一候选响应文本与所述目标输入文本之间的相似度，所述第二匹配信息用于反映所述任一候选响应文本与所述候选响应文本集合中另一候选响应文本之间的相似度；

选取单元103，用于根据所述各个候选响应文本的第一置信度从所述候选响应文本集合中选取所述目标输入文本的目标响应文本。

在一种实施方式中，所述目标输入文本为目标问题，所述候选响应文本集合为候选答案集合，所述候选响应文本为候选答案；所述第一匹配信息采用第一匹配向量进行表示，所述第二匹配信息采用第二匹配向量进行表示，所述全局匹配信息采用全局匹配向量进行表示；所述融合包括以下任一种处理：拼接处理、池化处理或加权求和处理。

再一种实施方式中，所述候选响应集合中的多个候选响应文本依序排列；所述候选响应集合中包括第一候选响应文本；相应的，调用单元102还可用于获取第一候选响应文本的第一置信度，所述第一候选响应文本的第一置信度通过以下方式获取：调用所述全局视野编码器获取第一候选响应文本的全局匹配信息；调用所述代理策略网络根据所述第一候选响应文本的全局匹配信息对所述第一候选响应文本进行预测，得到所述第一候选响应文本的第一置信度。

再一种实施方式中，获取单元101还可用于获取第一候选响应文本，该第一候选响应文本通过以下方式选取得到：依序遍历所述候选响应文本集合中的各个候选响应文本；若当前遍历的候选响应文本不具有第一置信度，则选取所述当前遍历的候选响应文本作为第一候选响应文本。

再一种实施方式中，调用单元102在用于调用所述全局视野编码器获取第一候选响应文本的全局匹配信息时，可具体用于：根据第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本；调用所述全局视野编码器获取所述第一候选响应文本和所述目标输入文本之间的第一匹配信息，以及所述第一候选响应文本与所述第二候选响应文本之间的第二匹配信息；调用所述全局视野编码器对所述第一匹配信息和所述第二匹配信息进行融合，得到所述第一候选响应文本的全局匹配信息。

再一种实施方式中，调用单元102在用于根据所述第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本时，可具体用于：若所述第一候选响应文本在所述候选响应文本集合中的排序位为首位，则根据所述目标输入文本计算所述候选响应文本集合中除所述第一候选响应文本以外的各个候选响应文本的第二置信度，所述第二置信度用于表示候选响应文本为正确响应文本的第二概率；选取第二置信度最高的候选响应文本作为第二候选响应文本。

再一种实施方式中，调用单元102在用于根据所述第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本时，可具体用于：若所述第一候选响应文本在所述候选响应文本集合中的排序位为非首位，则获取所述候选响应文本集合中位于所述第一候选响应文本之前的各个候选响应文本的第一置信度；从所述位于所述第一候选响应文本之前的各个候选响应文本中选取第一置信度最高的候选响应文本作为第二候选响应文本。

再一种实施方式中，所述第一匹配信息采用第一匹配向量进行表示；相应的，调用单元102在用于调用所述全局视野编码器获取所述第一候选响应文本与所述目标输入文本之间的第一匹配信息时，可具体用于：获取所述第一候选响应文本对应的第一文本向量、以及所述目标输入文本对应的输入文本向量，所述第一文本向量包括多个第一词向量；采用注意力机制根据所述第一文本向量和所述输入文本向量，生成所述第一候选响应文本关于所述目标输入文本的第一注意力向量，所述第一注意力向量包括各第一词向量的第一注意力值，所述第一注意力值用于反映所述第一词向量对所述目标输入文本的关注度；根据所述第一注意力向量和所述第一文本向量，得到所述第一候选响应文本与所述目标输入文本之间的第一匹配向量。

再一种实施方式中，选取单元103在用于根据所述各个候选响应文本的第一置信度从所述候选响应文本集合中选取所述目标输入文本的目标响应文本时，可具体用于：根据所述各个候选响应文本的第一置信度对所述各个候选响应文本进行降序排列，得到排序集合；依次从所述排序集合中选取一个或多个候选响应文本作为所述目标输入文本的目标响应文本。

再一种实施方式中，选取单元103还可用于：获取训练数据；调用单元102还可用于采用强化学习算法和所述训练数据对所述代理策略网络进行优化；其中，所述训练数据包括一个样本输入文本以及所述样本输入文本对应的样本响应文本集合，所述样本响应文本集合包括多个依序排列的样本响应文本、各样本响应文本的标签，所述标签用于指示样本响应文本为正确响应文本或者错误响应文本。

再一种实施方式中，调用单元102在用于采用强化学习算法和所述训练数据对代理策略网络进行优化时，可具体用于：从所述样本响应文本集合中不具有第一置信度的样本响应文本中依次选取第一样本响应文本，并调用所述全局视野编码器获取所述第一样本响应文本的全局匹配信息；调用所述代理策略网络根据所述第一样本响应文本的全局匹配信息对所述第一样本响应文本进行预测，得到所述第一样本响应文本的第一置信度；根据所述第一样本响应文本的第一置信度和标签、以及所述样本响应文本集合中位于所述第一样本响应文本之前的各个样本响应文本的第一置信度和标签，计算所述代理策略网络的当前奖励；根据所述当前奖励和所述强化学习算法确定所述代理策略网络的优化方向，并沿着所述优化方向调整所述代理策略网络的网络参数，以优化所述代理策略网络。

再一种实施方式中，调用单元102在用于根据所述当前奖励和所述强化学习算法确定所述代理策略网络的优化方向时，可具体用于：将所述当前奖励代入所述强化学习算法中，得到所述代理策略网络的预期奖励；根据所述预期奖励计算所述代理策略网络的梯度值，并将沿着所述梯度值减小的方向作为所述代理策略网络的优化方向。

根据本发明的一个实施例，图2至图3所示的方法所涉及的各个步骤均可以是由图6所示的文本处理装置中的各个单元来执行的。例如，图2中所示的步骤S201-S203可分别由图6中所示的获取单元101、调用单元102以及选取单元103来执行；又如，图3中所示的步骤S301和S302可分别由图6中所示的获取单元101和调用单元102来执行，步骤S302和S303可由图6中所示的选取单元103来执行。

根据本发明的另一个实施例，图6所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于文档处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2至图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的文档处理装置设备，以及来实现本发明实施例的文档处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端。请参见图7，该终端至少包括处理器201、输入设备202、输出设备203以及计算机存储介质204。其中，终端内的处理器201、输入设备202、输出设备203以及计算机存储介质204可通过总线或其他方式连接。需要说明的是，终端内还配置有上述所提及的业务处理系统，以执行上述的业务处理方法。

计算机存储介质204可以存储在终端的存储器中，所述计算机存储介质204用于存储计算机程序，所述计算机程序包括程序指令，所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器201可以用于根据目标输入文本进行一系列的文本处理，包括：获取目标输入文本对应的候选响应文本集合，所述候选响应文本集合包括多个候选响应文本；调用基于强化学习框架的文本处理模型获取所述候选响应文本集合中各个候选响应文本的第一置信度，所述第一置信度用于表示候选响应文本为正确响应文本的第一概率；所述文本处理模型包括全局视野编码器和代理策略网络，所述候选响应文本集合中的任一个候选响应文本的第一置信度由所述代理策略网络根据所述任一个候选响应文本的全局匹配信息预测得到，所述任一候选响应文本的全局匹配信息由所述全局视野编码器对第一匹配信息和第二匹配信息进行融合得到，所述第一匹配信息用于反映所述任一候选响应文本与所述目标输入文本之间的相似度，所述第二匹配信息用于反映所述任一候选响应文本与所述候选响应文本集合中另一候选响应文本之间的相似度；根据所述各个候选响应文本的第一置信度从所述候选响应文本集合中选取所述目标输入文本的目标响应文本，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器201加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器201加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关文本处理实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器201加载并执行如下步骤：

再一种实施方式中，所述候选响应集合中的多个候选响应文本依序排列；所述候选响应集合中包括第一候选响应文本；相应的，所述一条或多条指令还可由处理器201加载并具体执行：调用所述全局视野编码器获取第一候选响应文本的第一置信度，所述第一候选响应文本的第一置信度通过以下方式获取：获取第一候选响应文本的全局匹配信息；调用所述代理策略网络根据所述第一候选响应文本的全局匹配信息对所述第一候选响应文本进行预测，得到所述第一候选响应文本的第一置信度。

再一种实施方式中，所述一条或多条指令还可由处理器201加载并具体执行：获取第一候选响应文本，该第一候选响应文本通过以下方式选取得到：依序遍历所述候选响应文本集合中的各个候选响应文本；若当前遍历的候选响应文本不具有第一置信度，则选取所述当前遍历的候选响应文本作为第一候选响应文本。

再一种实施方式中，在调用所述全局视野编码器获取第一候选响应文本的全局匹配信息时，所述一条或多条指令由处理器201加载并具体执行：根据第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本；调用所述全局视野编码器获取所述第一候选响应文本和所述目标输入文本之间的第一匹配信息，以及所述第一候选响应文本与所述第二候选响应文本之间的第二匹配信息；调用所述全局视野编码器对所述第一匹配信息和所述第二匹配信息进行融合，得到所述第一候选响应文本的全局匹配信息。

再一种实施方式中，在根据所述第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本时，所述一条或多条指令由处理器201加载并具体执行：若所述第一候选响应文本在所述候选响应文本集合中的排序位为首位，则根据所述目标输入文本计算所述候选响应文本集合中除所述第一候选响应文本以外的各个候选响应文本的第二置信度，所述第二置信度用于表示候选响应文本为正确响应文本的第二概率；选取第二置信度最高的候选响应文本作为第二候选响应文本。

再一种实施方式中，在根据所述第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本时，所述一条或多条指令由处理器201加载并具体执行：若所述第一候选响应文本在所述候选响应文本集合中的排序位为非首位，则获取所述候选响应文本集合中位于所述第一候选响应文本之前的各个候选响应文本的第一置信度；从所述位于所述第一候选响应文本之前的各个候选响应文本中选取第一置信度最高的候选响应文本作为第二候选响应文本。

再一种实施方式中，所述第一匹配信息采用第一匹配向量进行表示；相应的，在调用所述全局视野编码器获取所述第一候选响应文本与所述目标输入文本之间的第一匹配信息时，所述一条或多条指令由处理器201加载并具体执行：获取所述第一候选响应文本对应的第一文本向量、以及所述目标输入文本对应的输入文本向量，所述第一文本向量包括多个第一词向量；采用注意力机制根据所述第一文本向量和所述输入文本向量，生成所述第一候选响应文本关于所述目标输入文本的第一注意力向量，所述第一注意力向量包括各第一词向量的第一注意力值，所述第一注意力值用于反映所述第一词向量对所述目标输入文本的关注度；根据所述第一注意力向量和所述第一文本向量，得到所述第一候选响应文本与所述目标输入文本之间的第一匹配向量。

再一种实施方式中，在根据所述各个候选响应文本的第一置信度从所述候选响应文本集合中选取所述目标输入文本的目标响应文本时，所述一条或多条指令由处理器201加载并具体执行：根据所述各个候选响应文本的第一置信度对所述各个候选响应文本进行降序排列，得到排序集合；依次从所述排序集合中选取一个或多个候选响应文本作为所述目标输入文本的目标响应文本。

再一种实施方式中，所述一条或多条指令还可由处理器201加载并具体执行：获取训练数据；采用强化学习算法和所述训练数据对所述代理策略网络进行优化；其中，所述训练数据包括一个样本输入文本以及所述样本输入文本对应的样本响应文本集合，所述样本响应文本集合包括多个依序排列的样本响应文本、各样本响应文本的标签，所述标签用于指示样本响应文本为正确响应文本或者错误响应文本。

再一种实施方式中，在采用强化学习算法和所述训练数据对所述代理策略网络进行优化时，所述一条或多条指令由处理器201加载并具体执行：从所述样本响应文本集合中不具有第一置信度的样本响应文本中依次选取第一样本响应文本，并调用所述全局视野编码器获取所述第一样本响应文本的全局匹配信息；调用所述代理策略网络根据所述第一样本响应文本的全局匹配信息对所述第一样本响应文本进行预测，得到所述第一样本响应文本的第一置信度；根据所述第一样本响应文本的第一置信度和标签、以及所述样本响应文本集合中位于所述第一样本响应文本之前的各个样本响应文本的第一置信度和标签，计算所述代理策略网络的当前奖励；根据所述当前奖励和所述强化学习算法确定所述代理策略网络的优化方向，并沿着所述优化方向调整所述代理策略网络的网络参数，以优化所述代理策略网络。

再一种实施方式中，在根据所述当前奖励和所述强化学习算法确定所述代理策略网络的优化方向时，所述一条或多条指令由处理器201加载并具体执行：将所述当前奖励代入所述强化学习算法中，得到所述代理策略网络的预期奖励；根据所述预期奖励计算所述代理策略网络的梯度值，并将沿着所述梯度值减小的方向作为所述代理策略网络的优化方向。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文本处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述目标输入文本为目标问题，所述候选响应文本集合为候选答案集合，所述候选响应文本为候选答案；

所述第一匹配信息采用第一匹配向量进行表示，所述第二匹配信息采用第二匹配向量进行表示，所述全局匹配信息采用全局匹配向量进行表示；所述融合包括以下任一种处理：拼接处理、池化处理或加权求和处理。

3.如权利要求1所述的方法，其特征在于，所述候选响应集合中的多个候选响应文本依序排列；所述候选响应集合中包括第一候选响应文本，所述第一候选响应文本的第一置信度通过以下方式获取：

调用所述全局视野编码器获取第一候选响应文本的全局匹配信息；

调用所述代理策略网络根据所述第一候选响应文本的全局匹配信息对所述第一候选响应文本进行预测，得到所述第一候选响应文本的第一置信度。

4.如权利要求3所述的方法，其特征在于，所述第一候选响应文本通过以下方式选取得到：

依序遍历所述候选响应文本集合中的各个候选响应文本；

若当前遍历的候选响应文本不具有第一置信度，则选取所述当前遍历的候选响应文本作为第一候选响应文本。

5.如权利要求3所述的方法，其特征在于，所述调用所述全局视野编码器获取第一候选响应文本的全局匹配信息，包括：

根据第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本；

调用所述全局视野编码器获取所述第一候选响应文本和所述目标输入文本之间的第一匹配信息，以及所述第一候选响应文本与所述第二候选响应文本之间的第二匹配信息；

调用所述全局视野编码器对所述第一匹配信息和所述第二匹配信息进行融合，得到所述第一候选响应文本的全局匹配信息。

6.如权利要求5所述的方法，其特征在于，所述根据所述第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本，包括：

若所述第一候选响应文本在所述候选响应文本集合中的排序位为首位，则根据所述目标输入文本计算所述候选响应文本集合中除所述第一候选响应文本以外的各个候选响应文本的第二置信度，所述第二置信度用于表示候选响应文本为正确响应文本的第二概率；

选取第二置信度最高的候选响应文本作为第二候选响应文本。

7.如权利要求5所述的方法，其特征在于，所述根据所述第一候选响应文本从所述候选响应文本集合中获取第二候选响应文本，包括：

若所述第一候选响应文本在所述候选响应文本集合中的排序位为非首位，则获取所述候选响应文本集合中位于所述第一候选响应文本之前的各个候选响应文本的第一置信度；

从所述位于所述第一候选响应文本之前的各个候选响应文本中选取第一置信度最高的候选响应文本作为第二候选响应文本。

8.如权利要求5所述的方法，其特征在于，所述第一匹配信息采用第一匹配向量进行表示；所述调用所述全局视野编码器获取所述第一候选响应文本与所述目标输入文本之间的第一匹配信息，包括：

获取所述第一候选响应文本对应的第一文本向量、以及所述目标输入文本对应的输入文本向量，所述第一文本向量包括多个第一词向量；

采用注意力机制根据所述第一文本向量和所述输入文本向量，生成所述第一候选响应文本关于所述目标输入文本的第一注意力向量，所述第一注意力向量包括各第一词向量的第一注意力值，所述第一注意力值用于反映所述第一词向量对所述目标输入文本的关注度；

根据所述第一注意力向量和所述第一文本向量，得到所述第一候选响应文本与所述目标输入文本之间的第一匹配向量。

9.如权利要求1所述的方法，其特征在于，所述根据所述各个候选响应文本的第一置信度从所述候选响应文本集合中选取所述目标输入文本的目标响应文本，包括：

根据所述各个候选响应文本的第一置信度对所述各个候选响应文本进行降序排列，得到排序集合；

依次从所述排序集合中选取一个或多个候选响应文本作为所述目标输入文本的目标响应文本。

10.如权利要求1所述的方法，其特征在于，还包括：

获取训练数据；

采用强化学习算法和所述训练数据对所述代理策略网络进行优化；

其中，所述训练数据包括一个样本输入文本以及所述样本输入文本对应的样本响应文本集合，所述样本响应文本集合包括多个依序排列的样本响应文本、各样本响应文本的标签，所述标签用于指示样本响应文本为正确响应文本或者错误响应文本。

11.如权利要求10所述的方法，其特征在于，所述采用强化学习算法和所述训练数据对所述代理策略网络进行优化，包括：

从所述样本响应文本集合中不具有第一置信度的样本响应文本中依次选取第一样本响应文本，并调用所述全局视野编码器获取所述第一样本响应文本的全局匹配信息；

调用所述代理策略网络根据所述第一样本响应文本的全局匹配信息对所述第一样本响应文本进行预测，得到所述第一样本响应文本的第一置信度；

根据所述第一样本响应文本的第一置信度和标签、以及所述样本响应文本集合中位于所述第一样本响应文本之前的各个样本响应文本的第一置信度和标签，计算所述代理策略网络的当前奖励；

根据所述当前奖励和所述强化学习算法确定所述代理策略网络的优化方向，并沿着所述优化方向调整所述代理策略网络的网络参数，以优化所述代理策略网络。

12.如权利要求11所述的方法，其特征在于，所述根据所述当前奖励和所述强化学习算法确定所述代理策略网络的优化方向，包括：

将所述当前奖励代入所述强化学习算法中，得到所述代理策略网络的预期奖励；

根据所述预期奖励计算所述代理策略网络的梯度值，并将沿着所述梯度值减小的方向作为所述代理策略网络的优化方向。

13.一种文本处理装置，其特征在于，包括：

14.一种终端，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-12任一项所述的文本处理方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-12任一项所述的文本处理方法。