CN108959421B

CN108959421B - 候选回复评价装置和问询回复设备及其方法、存储介质

Info

Publication number: CN108959421B
Application number: CN201810589635.8A
Authority: CN
Inventors: 王宗晟; 白云志; 武博文; 王宝勋; 王卓然; 亓超; 马宇驰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2021-04-13
Anticipated expiration: 2038-06-08
Also published as: CN108959421A

Abstract

本发明提供一种候选回复评价装置和问询回复设备及其方法、存储介质。所述候选回复评价装置获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息；基于问询的语义信息和候选回复的语义信息，利用预期表现网络方法对候选回复的未来价值进行估算，以生成未来价值的估算值，所述未来价值表示候选回复相对于问询的质量，其中，所述预期表现网络方法利用问询和候选回复的上下文信息、候选回复的长度向量和表示候选回复与问询匹配度的预测概率中的至少一者来进行估算。利用包括所述候选回复评价装置的问询回复设备，能够提高回复的质量和多样性，同时维持推理效率。

Description

候选回复评价装置和问询回复设备及其方法、存储介质

技术领域

本发明涉及候选回复评价装置和问询回复设备及其方法、存储介质。

背景技术

近年来，在诸如微软小冰的开放域对话系统中已广泛研究并采用具有sequence-to-sequence(Seq2Seq)结构的NRG(Neural Response Generation，神经响应生成)系统(参见文献1和文献2)。大部分NRG系统采用集束搜索(beam search)算法来生成针对给定问询(query)的回复(response)。简言之，集束搜索通过在各时间步(time step)仅存储排名靠前的候选来探索可能的回复。集束搜索是一种有用的预测策略，但是取决于集束宽度(beam width)，集束搜索仅关注于当前最优结果，因此会忽略一些可能导致更好的未来结果的候选回复(尤其是在集束宽度较小的情况下)。这种缺陷被称为“短视偏差(myopicbias)”。尽管通过增大集束宽度可以减小短视偏差，但是这降低了推理效率。

近年来，为了减小NMT(Neural Machine Translation，基于神经网络的机器翻译)中的短视偏差，提出了一种在集束搜索中考虑候选回复的未来BLEU(bilingualevaluation understudy，双语互译质量评估辅助工具)作为未来价值的方法(参见文献3和文献4)。实验结果显示，该方法能够提高翻译结果的BLEU分数。

然而，一些研究表明，在回复生成(response generation)任务中， BLEU与人类判断结果的相关性较弱(参见文献5和文献6)。与针对给定源句子的合适翻译的语义分布较窄的机器翻译不同，在回复生成任务中，针对一个问询的可能回复的语义信息具有较高的多样性。因此，使用BLEU 作为未来价值以解决回复生成中的短视偏差是不合适的。

文献列表：

文献1：Oriol Vinyals and Quoc Le.2015.A neural conversational model.InICML Deep Learning Workshop.

文献2：Lifeng Shang,Zhengdong Lu,and Hang Li.2015.Neural respondingmachine for short-text conversation.In Proceedings of the 53rd Annual Meetingof the Association for Computational Linguistics and the 7th InternationalJoint Conference on Natural Language Processing(Volume 1:Long Papers),volume1,pages 1577–1586.

文献3：Di He,Hanqing Lu,Yingce Xia,Tao Qin,Liwei Wang, and TieyanLiu.2017.Decoding with value networks for neural machine translation.InAdvances in Neural Information Processing Systems 30,pages 177–186.

文献4：Jiwei Li,Will Monroe,and Dan Jurafsky.2017.Learning to decodefor future success.arXiv preprint arXiv:1701.06549.

文献5：Chia-Wei Liu,Ryan Lowe,Iulian Serban,Mike Noseworthy, LaurentCharlin,and Joelle Pineau.2016.How not to evaluate your dialogue system:Anempirical study of unsupervised evaluation metrics for dialogue responsegeneration.In Proceedings of the 2016 Conference on Empirical Methods inNatural Language Processing,pages 2122–2132.

文献6：Lili Mou,Yiping Song,Rui Yan,Ge Li,Lu Zhang,and ZhiJin.2016.Sequence to backward and forward sequences:A content-introducingapproach to generative short-text conversation.In Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:TechnicalPapers,pages 3349–3358.

发明内容

鉴于现有技术中的上述问题研发了本发明。本发明旨在提供一种能够提高回复的质量和多样性，同时维持推理效率的机制。

相应地，本发明的第一方面提供了一种针对问询的候选回复评价装置，所述候选回复评价装置包括：语义信息获得部，获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息；未来价值估算部，基于问询的语义信息和候选回复的语义信息，利用预期表现网络 (Prospective-Performance Network，PPN)方法对候选回复的未来价值进行估算，以生成未来价值的估算值，所述未来价值表示候选回复相对于问询的质量，其中，所述预期表现网络方法利用问询和候选回复的上下文信息、候选回复的长度向量和表示候选回复与问询匹配度的预测概率中的至少一者来进行估算。

优选地，所述未来价值估算部进一步包括：上下文信息获得单元，其获得针对问询和当前生成的候选回复的上下文，并通过池化方法对上下文进行转换，以获得上下文信息；长度信息获得单元，其将候选回复的语元长度转换为长度向量；概率信息获得单元，其获得候选回复的预测概率；以及未来价值估算单元，其利用预期表现网络方法对候选回复的未来价值进行估算，其中，所述未来价值以如下方式来表示候选回复相对于问询的质量：通过具有第一集束宽度的集束搜索而生成的候选回复是否属于，具有大于第一集束宽度的第二集束宽度的集束搜索的未来候选集。

优选地，所述语义信息获得部根据基于编码器的隐藏层信息和解码器的隐藏层信息的投影值以及投影值之间的相关性，来获得用户的问询的语义信息和针对问询的候选回复的语义信息。

优选地，编码器的隐藏层信息包括编码器隐藏状态，而解码器的隐藏层信息包括解码器隐藏状态，并且基于编码器的隐藏层信息和解码器的隐藏层信息的投影值是，利用自注意力机制对编码器隐藏状态和解码器隐藏状态进行投影而获得的投影值。

优选地，所述概率信息获得单元基于seq2seq模型获得候选回复的预测概率。

优选地，所述池化方法是平均池化、最大化池化和自注意力池化中的任一者。

优选地，所述长度信息获得单元通过长度嵌入式矩阵或独热编码，将候选回复的长度转换为长度向量。

相应地，本发明的第二方面提供了一种针对问询的候选回复评价方法，所述候选回复评价方法包括：语义信息获得步骤，获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息；未来价值估算步骤，基于问询的语义信息和候选回复的语义信息，利用预期表现网络方法对候选回复的未来价值进行估算，以生成未来价值的估算值，所述未来价值表示候选回复相对于问询的质量，其中，所述预期表现网络方法利用问询和候选回复的上下文信息、候选回复的长度向量和表示候选回复与问询匹配度的预测概率中的至少一者来进行估算。

优选地，所述未来价值估算步骤进一步包括：上下文信息获得步骤，获得针对问询和当前生成的候选回复的上下文，并通过池化方法对上下文进行转换，以获得上下文信息；长度信息获得步骤，将候选回复的语元长度转换为长度向量；概率信息获得步骤，获得候选回复的预测概率；以及估算未来价值步骤，利用预期表现网络方法对候选回复的未来价值进行估算，其中，所述未来价值以如下方式来表示候选回复相对于问询的质量：通过具有第一集束宽度的集束搜索而生成的候选回复是否属于，具有大于第一集束宽度的第二集束宽度的集束搜索的未来候选集。

优选地，所述语义信息获得步骤根据基于编码器的隐藏层信息和解码器的隐藏层信息的投影值以及投影值之间的相关性，来获得用户的问询的语义信息和针对问询的候选回复的语义信息。

优选地，所述概率信息获得步骤基于seq2seq模型获得候选回复的预测概率。

优选地，所述长度信息获得步骤通过长度嵌入式矩阵或独热编码，将候选回复的长度转换为长度向量。

相应地，本发明的第三方面提供了一种问询回复设备，所述问询回复设备包括：获得单元，对用户输入的问询进行集束搜索，获得候选回复及其预测概率；根据上述候选回复评价装置，估算各候选回复的未来价值；排序单元，基于获得单元获得的各候选回复的预测概率和候选回复评价装置估算的各候选回复的未来价值的估算值，对候选回复进行排序；以及输出单元，输出排序后的候选回复。

优选地，所述排序单元基于各候选回复的预测概率和未来价值的估算值的加权和，对候选回复进行排序。

优选地，所述问询回复设备还包括预排序单元，所述预排序单元基于各候选回复的预测概率对候选回复进行排序，并且其中，所述候选回复评价装置针对排名前预定数量的候选回复，估算未来价值。

优选地，所述输出单元输出的候选回复的数量，等于所述集束搜索的集束宽度。

优选地，所述问询为用户输入的文本信息、通过转换用户输入的语音信息而生成的文本信息、以及用户输入的文本信息与将用户语音信息转换成的文本组合而成的文本信息中的至少一种。

相应地，本发明的第四方面提供了一种问询回复方法，所述问询回复方法包括：获得步骤，对用户输入的问询进行集束搜索，获得候选回复及其预测概率；估算步骤，通过根据上述候选回复评价装置，估算各候选回复的未来价值；排序步骤，基于获得单元获得的各候选回复的预测概率和候选回复评价装置估算的各候选回复的未来价值的估算值，对候选回复进行排序；以及输出步骤，输出排序后的候选回复。

优选地，所述排序步骤基于各候选回复的预测概率和未来价值的估算值的加权和，对各候选回复进行排序。

优选地，所述问询回复方法还包括预排序步骤，所述预排序步骤基于各候选回复的预测概率对候选回复进行排序，并且其中，所述估算步骤针对排名前预定数量的候选回复，估算未来价值。

优选地，所述输出步骤输出的候选回复的数量，等于所述集束搜索的集束宽度。

相应地，本发明的第五方面提供了一种计算机可读存储介质，其存储计算机程序，所述计算机程序在被处理器执行时，实现上述候选回复评价方法中包括的步骤。

相应地，本发明的第六方面提供了一种计算机可读存储介质，其存储计算机程序，所述计算机程序在被处理器执行时，实现上述问询回复方法中包括的步骤。

根据本发明，使得集束搜索能够考虑各候选回复的未来价值，并生成类似于通过大宽度集束搜索而生成的最终结果，同时不会增大时间成本，从而能够在维持推理效率的同时提高了回复的质量和多样性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域或普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是例示本发明的问询回复设备的硬件构造的图。

图2是例示本发明的问询回复方法中使用的PPN的软件结构图。

图3是例示本发明的问询回复方法中使用的PPN的训练数据生成过程的流程图。

图4是例示根据本发明的候选回复评价方法的流程图。

图5是例示根据本发明的未来价值估算步骤的详情的流程图。

图6是例示根据本发明的候选回复评价装置的软件构造的图。

图7是例示根据本发明的未来价值估算部的软件构造的图。

图8是例示根据本发明第一实施例的问询回复方法的流程图。

图9是例示根据本发明第一实施例的问询回复设备的软件构造的图。

图10是例示根据本发明第二实施例的问询回复方法的流程图。

图11是例示根据本发明第二实施例的问询回复设备的软件构造的图。

图12例示了本发明的问询回复方法的应用示例1。

图13例示了本发明的问询回复方法的应用示例2。

具体实施方式

在下文中将参照附图详细地描述本发明的实施例。应当理解，下述实施例并不意图限制本发明，并且，关于根据本发明的解决问题的手段，并不一定需要根据下述实施例描述的各方面的全部组合。为简化起见，对相同的结构部分或者步骤，使用了相同的标记或标号，并且省略其说明。

[问询回复设备的硬件结构]

图1是示出根据本发明的具有候选回复评价功能的问询回复设备的硬件构造的图。在本实施例中，以智能电话作为问询回复设备的示例给出描述。但请注意，虽然在本实施例中例举了智能电话作为问询回复设备1100，但是显然不限于此，本发明的候选回复评价装置可以是个人计算机、服务器、移动终端(智能手机、智能手表、智能手环、音乐播放设备)、笔记本电脑、平板电脑、PDA(个人数字助理)、传真装置、打印机、或者是具有问询回复功能的互联网设备(例如数字照相机、电冰箱、电视机等)等各种装置。

首先，参照图1的框图描述问询回复设备1100的硬件结构。此外，在本实施例中作为示例描述了以下构造，但是根据本发明的问询回复设备不限于图1所示的构造。

问询回复设备1100包括经由系统总线彼此连接的输入接口101、CPU 102、ROM103、RAM 105、存储装置106、输出接口104、通信单元107 和短距离无线通信单元108和显示单元109。输入接口101是用于接收用户所输入的数据以及功能的执行指令的接口，并且是用于经由诸如麦克风、按键、按钮或触摸屏的操作单元(未示出)接收从用户输入的数据和操作指令的接口。请注意，稍后描述的显示单元109和操作单元可以至少部分地集成，并且，例如，可以是在同一画面中进行画面输出和接收用户操作的构造。

CPU 102是系统控制单元，并且总体上全面地控制问询回复设备 1100。此外，例如，CPU 102进行候选回复评价装置1000的显示单元109 的显示控制。ROM 103存储CPU 102执行的诸如数据表和控制程序以及操作系统(OS)程序等的固定数据。在本实施例中，ROM103中存储的各个控制程序，例如，在ROM 103中存储的OS的管理下，进行诸如调度、任务切换和中断处理等的软件执行控制。

RAM 105例如由需要备用电源的SRAM(静态随机存取存储器)、DRAM 等构造。在这种情况下，RAM 105可以以非易失性方式存储诸如程序控制变量等的重要数据。此外，RAM105用作CPU 102的工作存储器和主存储器。

存储装置106存储预先训练的模型、用于进行检索的数据库以及用于执行根据本发明的问询回复方法的应用程序等。请注意，这里的数据库也可以存储在诸如服务器的外部装置中。此外，存储装置106存储诸如用于经由通信单元107与通信装置(未示出)进行发送/接收的信息发送/接收控制程序等的各种程序，以及这些程序使用的各种信息。此外，存储装置106还存储问询回复设备1100的设置信息、问询回复设备1100 的管理数据等。

输出接口104是用于对显示单元109进行控制以显示信息以及应用程序的显示画面的接口。显示单元109例如由LCD(液晶显示器)构造。通过在显示单元109上布置具有诸如数值输入键、模式设置键、决定键、取消键和电源键等的键的软键盘，可以接收经由显示单元109的来自用户的输入。

问询回复设备1100经由通信单元107通过例如Wi-Fi(无线保真) 或蓝牙等无线通信方法，与外部装置(未示出)执行数据通信。

此外，问询回复设备1100也可以经由短距离无线通信单元108，在短距离范围内与外部装置等进行无线连接并执行数据通信。并且短距离无线通信单元108通过与通信单元107不同的通信方法进行通信。例如，可以使用其通信范围比通信单元107的通信方法短的蓝牙低功耗(BLE) 作为短距离无线通信单元108的通信方法。此外，作为短距离无线通信单元108的通信方法，例如，还可以使用NFC(近场通信)或Wi-Fi感知 (Wi-Fi Aware)。

[问询回复方法]

在描述根据本发明的问询回复方法之前，首先对PPN进行描述。

如上所述，在集束搜索中，尽管大宽度集束搜索能够生成具有较大概率和多样性的回复，但同时降低了推理处理的速度。因此，为了获得更好的回复，同时维持推理效率，本发明提出了一种预期表现网络 (Prospective-Performance Network，PPN)，以在NRG的推理过程中估算候选回复的未来价值(further reward)。然后，将估算出的未来价值并入小宽度集束搜索，以模拟大宽度集束搜索的表现。

[未来价值]

假定需要模拟宽度为Kl的集束搜索，在时间步t，生成一组部分回复(候选回复)

然后，针对一个部分回复y_t，将其未来价值定义为该部分回复相对于问询的质量，这里的“质量”表示该回复与问询相符的程度，并可以通过多种指标来衡量。例如，可以通过下式来表示未来价值：

也就是说，如果部分回复存在于给定的大宽度(K_l)集束搜索在未来时间步的前K个回复中(K<K_l)，则分配正的未来价值，否则未来价值为0。跳跃索引n表示系统的前瞻程度(degree of prospective)。

[PPN的软件结构]

图2示出了本发明的PPN的软件结构，PPN用作未来价值估算器，并具有如下四种分量：

1.语义分量

语义分量捕捉问询的语义信息和部分回复的语义信息。首先，为了提取问询和部分回复的大部分语义，采用自注意力(self-attention) 机制，通过下式将编码器隐藏状态[h₁,h₂,...,h_Tx](编码器的隐藏层信息) 和解码器隐藏状态[r₁,r₂,...,r_t](解码器的隐藏层信息)投影成

和

其中，

和

是自注意力参数。另外，使用双线性变换来进一步获取投影值

和投影值

之间的相关性，使得

然后，语义分量将

corr_r,h和

拼接为语义信息s。

2.注意力分量

在注意力分量中，使用平均池化(mean pooling)来将针对问询和当前生成的候选回复的上下文(context)[c₁,c₂,...,c_t]转换为上下文信息

这里仅例示了使用平均池化的方法，当然，也可以采用其他池化方法进行转换，例如最大化池化和自注意力池化等。

3.长度分量

通常，由短的部分回复提供的信息和由长的部分回复提供的信息彼此差异较大。因此，创建长度分量来概括(summarize)部分回复的长度信息，即通过长度嵌入矩阵L将候选回复的语元长度转换为长度向量l，这里语元表示语言的最小的单位，例如，在中文中是一个字，在英文中为一个独立的字符或单词。

这里仅例示了使用长度嵌入矩阵的方法，当然，也可以采用独热编码(one-hot)等方法将回复长度转换为长度向量l。

4.概率分量

使用概率分量来获得各输入的部分回复的预测概率p(y)，预测概率表示候选回复与问询匹配度。这里，可以基于seq2seq等模型来获得预测概率。

最后，将上述s、

l和p(y)拼接为多层感知器(multi-layer perception)的输入，以估算部分回复y的未来价值，以上过程可通过下式表示：

具体地说，将s、

l和p(y)拼接为一个向量u，并通过多层感知器映射为一个任意大小的浮点数，此处的W_mlp以及b_mlp代表的是多层感知器的参数(通过i模型训练得到)，σ代表了sigmoid激活函数，用于将多层感知器的输出映射为一个0到1之间的浮点数。

图2例示了PPN的一种示例，其中包括了四种分量。然而，也可以采用注意力分量、长度分量和概率分量中的至少一者以及语义分量，来估算候选回复的未来价值。此外，PPN也可以从外部获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息，并基于该语义信息，利用针对问询和候选回复的上下文信息、候选回复的长度向量和候选回复的预测概率中的至少一者来估算候选回复的未来价值。

[PPN训练数据生成]

下面描述PPN的训练过程。由于期望使用较小的搜索空间Ks来生成 K_l宽度的集束搜索的排名前Ks个回复，因此使用从K_l宽度的集束搜索而生成的样本来训练PPN，从而能够估算部分回复针对K_l集束宽度的未来价值。另外，K_l宽度的集束搜索的前Ks个回复具有如下特性，即较高的概率和多样性，因此，这里将K设置为Ks，使得具有正的未来价值的部分回复也具有上述特性。

图3是示出PPN的训练数据生成过程的流程图。

在步骤S101中，将问询输入到Seq2Seq模型。在步骤S102中，分别生成两个不同集束宽度(s和l，且s<l)的集束搜索在各时间步的回复集。在步骤S103中，将时间步t初始化为0。在步骤S104中，确定时间步t与跳跃索引n之和是否大于或等于最大句长(即，最大搜索深度) L，其中，跳跃索引n和最大句长L可根据需要预先设定。

如果时间步t与跳跃索引n之和小于最大句长L(步骤S104中为 “否”)，则进行到步骤S105。在步骤S105中，对于通过较小宽度的集束搜索在该时间步生成的每一个回复y，确定其是否存在于通过较大宽度的集束搜索在t+n时间步生成的排名较高(例如排名前s位)的返回结果中。

作为步骤S105中的确定结果，如果确定为“是”，则进行到步骤 S106，并将该回复加入正样本集；如果确定为“否”，则进行到步骤S107，并将该回复加入负样本集。然后，在步骤S108中，将时间步递增1，并返回到步骤S104。

另一方面，如果在步骤S104中确定时间步t与跳跃索引n之和大于最大句长(步骤S104中为“是”)，则处理进行到步骤S109，以结束对于输入的问询的样本生成，并输出正负样本集(即结束训练过程)。

[候选回复评价方法]

根据本发明的候选回复评价方法可以通过候选回复评价装置1000 的CPU读取存储在ROM或存储装置上的控制程序、或者经由通信单元从通过网络与候选回复评价装置1000连接的网络服务器(未示出)而下载的控制程序来实现。根据本发明的候选回复评价装置1000具有类似于上述问询回复设备1100的硬件构造，因此这里省略其描述。

图4是例示根据本发明的候选回复评价方法的流程图。

在步骤S1001中，获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息。

在步骤S1002中，基于在步骤S1001中获得的问询的语义信息和候选回复的语义信息，利用上述PPN方法对候选回复的未来价值进行估算，以生成未来价值的估算值。该PPN方法利用问询的上下文信息和候选回复的上下文信息、候选回复的长度向量和表示候选回复与问询匹配度的预测概率中的至少一个参数来进行估算。

以下对未来价值估算步骤S1002进行详细说明，图5是例示根据本发明的未来价值估算步骤S1002的一个优选示例的流程图。

如图所示，在步骤S10021中，获得针对问询和当前生成的候选回复的上下文，并通过池化方法对上下文进行转换，以获得上下文信息。

在步骤S10022中，将候选回复的语元转换为长度向量，以获得长度信息。

在步骤S10023中，获得候选回复的预测概率。

在步骤S10024中，基于在步骤S1001中获得的语义信息，通过上述 PPN方法利用在上述步骤中获得的上下文信息、长度向量以及预测概率，对候选回复的未来价值进行估算，以获得未来价值的估算值。

未来价值的估算值的取值范围通常在0-1之间，并且估算值越大，表示未来价值越大，即该候选回复对于问询的质量越高，例如，该候选回复属于具有更大集束宽度的集束搜索的未来候选集中的概率越大。

以上作为优选示例的图5示出的未来价值估算处理基于步骤S10021 中获得的上下文信息、步骤S10022中获得的长度向量以及步骤S10023 中获得的预测概率三者来估算未来价值。作为另选方式，未来价值估算处理也可以仅使用上下文信息、长度向量以及预测概率中的任意一者或任意两者来估算未来价值，因此未来价值估算步骤S1002也可以仅包括步骤S10021、步骤S10022和步骤S10023中的至少一个步骤。相应地，在步骤S10024中执行估算时，基于所述至少一个步骤中获得的参数。

请注意，图5中例示的步骤S10021、S10022和S10023并非按照所例示的顺序来执行，而是可以并行执行或以其它顺序执行。

[候选回复评价装置的软件结构]

图6是例示根据本发明的候选回复评价装置的软件构造的图。如图 6所示，候选回复评价装置1000包括语义信息获得部1001和未来价值估算部1002。语义信息获得部1001获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息；未来价值估算部1002基于问询的语义信息和候选回复的语义信息，利用预期表现网络方法对候选回复的未来价值进行估算，以生成未来价值的估算值，所述预期表现网络方法利用问询和候选回复的上下文信息、候选回复的长度向量和表示候选回复与问询匹配度的预测概率中的至少一个者来进行估算。

图7是例示根据本发明的未来价值估算部1002的软件构造的图。如图7所示，未来价值估算部1002包括上下文信息获得单元10021、长度信息获得单元10022、概率信息获得单元10023和未来价值估算单元 10024。

上下文信息获得单元10021获得针对问询和当前生成的候选回复的上下文，并通过池化方法对上下文进行转换，以获得上下文信息；长度信息获得单元10022将候选回复的语元转换为长度向量；概率信息获得单元10023获得候选回复的预测概率；未来价值估算单元10024利用预期表现网络方法对候选回复的未来价值进行估算。

[根据第一实施例的问询回复方法]

根据本发明的问询回复方法可以通过问询回复设备1100的CPU读取存储在ROM或存储装置上的控制程序、或者经由通信单元从通过网络与问询回复设备1100连接的网络服务器(未示出)而下载的控制程序来实现。

图8是示出根据本发明的第一实施例的问询回复方法的流程图。为了便于描述，这里仅例示了一个时间步的处理过程，实际的处理过程应为直到满足一定条件(例如，时间步达到最大句长、输出集达到一定长度等)为止的循环过程。

在步骤S201中，对用户输入的问询进行正常的集束搜索(例如，集束宽度为s)，获得候选回复及其预测概率。这里，基于seq2seq模型计算各候选回复的预测概率。这里，问询可以为用户输入的文本信息、通过转换用户输入的语音信息而生成的文本信息、以及用户输入的文本信息与将用户语音信息转换成的文本组合而成的文本信息中的至少一种。

在步骤S202中，通过上文中描述的候选回复评价方法，来估算候选回复的未来价值，以获得未来价值的估算值。

在步骤S203中，基于预测概率和未来价值的估算值，对各候选回复进行排序。例如，可以基于预测概率和未来价值的估算值的加权和，对各候选回复进行排序。当然，也可以采用其他加权方式。

在步骤S204中，输出排序后的候选回复。这里，输出的候选回复的数量，等于集束搜索的集束宽度s。

根据本发明第一实施例的问询回复方法，通过PPN来估算集束搜索的各候选回复的未来价值，并基于预测概率和未来价值的估算值来对候选回复进行排序，可以获得如下技术效果：使得集束搜索能够考虑各候选回复的未来价值，并生成类似于通过大宽度集束搜索而生成的最终结果，从而能够在维持推理效率的同时提高了回复的质量和多样性。

[根据第一实施例的问询回复设备的软件结构]

图9是示出根据本发明的第一实施例的问询回复设备的软件构造的图。如图9所示，问询回复设备1100包括获得单元1101、候选回复评价装置1000、排序单元1103、以及输出单元1104。获得单元1101对用户输入的问询进行集束搜索，获得候选回复及其预测概率；候选回复评价装置1000估算各候选回复的未来价值；排序单元1103基于预测概率和未来价值的估算值，对各候选回复进行排序；并且输出单元1104输出排序后的候选回复。

[根据第二实施例的问询回复方法]

下面参照图10对本发明的第二实施例的问询回复方法进行说明。图 10是示出根据本发明的第二实施例的问询回复方法的流程图。

如图10所示，根据第二实施例的问询回复方法与据第一实施例的问询回复方法的区别在于，增加了预排序步骤S301并用估算步骤S302替换了第一实施例中的估算步骤S202。

具体地说，在步骤S301中，基于预测概率对候选回复进行排序。

在步骤S302中，针对排序后的前预定数量的候选回复，估算未来价值。为了获得较好的效果，该预定数量一般等于需要模拟的大宽度集束搜索的集束宽度，当然也可以根据用户需要设定其他值。

根据本发明第二实施例的问询回复方法，通过在估算步骤之前基于预测概率对候选回复进行预排序，并在估算步骤中，仅对排在前预定数量的候选回复估算未来价值，可以获得如下技术效果：在提高回复的质量和多样性的同时，进一步提高推理效率。

[根据第二实施例的问询回复设备的软件结构]

图11是例示根据第二实施例的问询回复设备的软件结构的框图。如图11所示，根据第二实施例的问询回复设备2100与根据第一实施例的问询回复设备1100的区别在于，增加了预排序单元2105。

具体地说，预排序单元2105基于预测概率对候选回复进行排序。在这种情况下，候选回复评价装置1000仅针对排名前预定数量的候选回复，估算未来价值。

下面参照图12和图13来描述本发明的问询回复方法的具体应用示例。

图12示出了本发明的问询回复方法的应用示例1。

Seq2seq通过问答对(query-reply pair)数据进行训练，并通过解码器(decoder)预测通过编码器(encoder)向量化的query的回复。因为Seq2seq模型通过最大似然估算训练参数，因此该模型倾向赋予一些高频单词(例如“我”，“是”)较高的预测概率预测。

如图12所示，对于问询(输入)“今天的菜怎么样”，因为Seq2seq 模型上述特性，在beam width(beam size)＝2的情况下，模型预测出概率最高的两个回复分别是“我感觉不错”和“我吃菜”，以高频单词“我” 作为开头，较为单调且部分回复与输入相关度较低；而当beam width＝4 时，借助与每个时间步更大的候选集长度，模型可以追溯出在前期概率较低(所以在beam width＝2的情况下被忽略)，但是最终概率更高且质量更优的回复，比如排名前2的“非常好吃”和“感觉口感很好”。因为 Seq2seq模型在解码时的最终目标是找出对于当先输入概率最高的回复，所以在这种情况下高概率的回复是更为青睐的。

然而尽管beam width＝4时的回复质量较高，增加beam width成比例的降低了预测的效率，因此我们希望通过PPN的重排机制(reranking), 能够用较小的beam width模拟较大的beam width搜索。PPN通过部分生成回复的Seq2seq的解码器/解码器中的隐藏层信息、概率和长度信息，预测该部分生成回复的未来价值。

如beam width＝2+PPN中的例子所示，在时间步t＝1时，尽管短语“非常”的seq2seq预测概率较低，PPN赋予其一个较高的未来价值，因此其加权求和之后的分数提升到了第2位，并能够作为候选保存在一个beam width＝2的搜索的候选集中。通过在常规的搜索方式中加入PPN重排机制，我们也能够用一个较小的搜索空间(beam width＝2)中检索出beam width＝4时排名前2的回复“非常好吃”和“感觉口感很好”。

图13示出了本发明的应用示例2。

在此例中，对于问询“能帮我修改一下简历吗”，当beam width＝2 时，模型预测出的两个回复分别是“简历已发”和“简历已收到”，因为开头单词“简历”出现在了输入句子中，因此被赋予一个较高的概率，模型此时预测的回复尽管出现了输入中的单词，但相对于beam width＝4 时的前2回复“发我邮箱”，总体来说还是与输入的相关的较低。

同样的，通过在常规的搜索方式中加入PPN重排机制，我们能够用 beam width＝2检索出beam width＝4时排名前2并且质量较高的回复“发我邮箱”。

其他实施例

另外，可以通过读出并执行记录在存储介质(也可更完整地称为“非临时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由所述系统或装置的所述计算机例如读出并执行来自所述存储介质的所述计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制所述一个或更多个电路执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。所述计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)，微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)^TM)、闪存设备以及存储卡等中的一个或更多个。

以上虽然参照示例性实施例对本发明进行了描述，但是上述实施例只为说明本发明的技术构思及特点，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的任何等效变型或修改，都应涵盖在本发明的保护范围之内。

Claims

1.一种针对问询的候选回复评价装置，所述候选回复评价装置包括：

语义信息获得部，获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息，其中包括：所述语义信息获得部根据基于编码器的隐藏层信息和解码器的隐藏层信息的投影值以及投影值之间的相关性，来获得用户的问询的语义信息和针对问询的候选回复的语义信息；

未来价值估算部，基于问询的语义信息和候选回复的语义信息，利用预期表现网络对候选回复的未来价值进行估算，以生成未来价值的估算值，所述未来价值表示候选回复相对于问询的质量，

其中，所述预期表现网络利用问询的上下文信息和候选回复的上下文信息、候选回复的长度向量和表示候选回复与问询匹配度的预测概率中的至少一者来进行估算；

其中，所述预期表现网络为通过训练数据训练得到的，所述预期表现网络的训练数据生成过程包括：

步骤1，将问询输入Seq2Seq模型，执行步骤2；

步骤2，分别生成两个不同集束宽度的集束搜索在各时间步的回复集，所述两个不同的集束宽度包括s和l，且s小于l，执行步骤3；

步骤3，将时间步t初始化为0，执行步骤4；

步骤4，确定时间步t与跳跃索引n之和是否大于或等于最大句长L，所述跳跃索引n和所述最大句长L为预先设定，若时间步t与跳跃索引n之和大于或等于最大句长L，执行步骤9，若时间步t与跳跃索引n之和小于最大句长L，执行步骤5；

步骤5，对于通过较小宽度的集束搜索在该时间步生成的每一个回复y，确定其是否存在于通过较大宽度的集束搜索在t+n时间步生成的排名前s位的返回结果中，若是，执行步骤6，若否，执行步骤7；

步骤6，将该回复加入正样本集，执行步骤8；

步骤7，将该回复加入负样本集，执行步骤8；

步骤8，将时间步递增1，并返回步骤4；

步骤9，结束对于输入的问询的样本生成，并输出正负样本集。

2.根据权利要求1所述的候选回复评价装置，所述未来价值估算部进一步包括：

上下文信息获得单元，其获得问询的上下文信息和当前生成的候选回复的上下文，并通过池化方法对上下文进行转换，以获得上下文信息；

长度信息获得单元，其将候选回复的语元长度转换为长度向量；

概率信息获得单元，其获得候选回复的预测概率；以及

未来价值估算单元，其利用预期表现网络对候选回复的未来价值进行估算，

其中，所述未来价值以如下方式来表示候选回复相对于问询的质量：通过具有第一集束宽度的集束搜索而生成的候选回复是否属于，具有大于第一集束宽度的第二集束宽度的集束搜索的未来候选集。

3.根据权利要求1所述的候选回复评价装置，其中，

编码器的隐藏层信息包括编码器隐藏状态，而解码器的隐藏层信息包括解码器隐藏状态，并且

基于编码器的隐藏层信息和解码器的隐藏层信息的投影值是，利用自注意力机制对编码器隐藏状态和解码器隐藏状态进行投影而获得的投影值。

4.根据权利要求2所述的候选回复评价装置，其中，所述概率信息获得单元基于seq2seq模型获得候选回复的预测概率。

5.根据权利要求2所述的候选回复评价装置，其中，所述池化方法是平均池化、最大化池化和自注意力池化中的任一者。

6.根据权利要求2所述的候选回复评价装置，其中，所述长度信息获得单元通过长度嵌入式矩阵或独热编码，将候选回复的长度转换为长度向量。

7.一种针对问询的候选回复评价方法，所述候选回复评价方法包括：

语义信息获得步骤，获得用户输入的问询的语义信息和针对用户问询的候选回复的语义信息，其中包括：所述语义信息获得部根据基于编码器的隐藏层信息和解码器的隐藏层信息的投影值以及投影值之间的相关性，来获得用户的问询的语义信息和针对问询的候选回复的语义信息；

未来价值估算步骤，基于问询的语义信息和候选回复的语义信息，利用预期表现网络对候选回复的未来价值进行估算，以生成未来价值的估算值，所述未来价值表示候选回复相对于问询的质量，

其中，所述预期表现网络利用问询和候选回复的上下文信息、候选回复的长度向量和表示候选回复与问询匹配度的预测概率中的至少一者来进行估算；

步骤1，将问询输入Seq2Seq模型，执行步骤2；

步骤3，将时间步t初始化为0，执行步骤4；

步骤6，将该回复加入正样本集，执行步骤8；

步骤7，将该回复加入负样本集，执行步骤8；

步骤8，将时间步递增1，并返回步骤4；

8.一种问询回复设备，所述问询回复设备包括：

获得单元，对用户输入的问询进行集束搜索，获得候选回复及其预测概率；

根据权利要求1至6中的任一项所述的候选回复评价装置，估算各候选回复的未来价值；

排序单元，基于获得单元获得的各候选回复的预测概率和候选回复评价装置估算的各候选回复的未来价值的估算值，对候选回复进行排序；以及

输出单元，输出排序后的候选回复。

9.根据权利要求8所述的问询回复设备，其中，所述排序单元基于各候选回复的预测概率和未来价值的估算值的加权和，对候选回复进行排序。

10.根据权利要求8所述的问询回复设备，所述问询回复设备还包括预排序单元，所述预排序单元基于各候选回复的预测概率对候选回复进行排序，并且

其中，所述候选回复评价装置针对排名前预定数量的候选回复，估算未来价值。

11.根据权利要求8所述的问询回复设备，其中，所述输出单元输出的候选回复的数量，等于所述集束搜索的集束宽度。

12.根据权利要求8所述的问询回复设备，其中，所述问询为用户输入的文本信息、通过转换用户输入的语音信息而生成的文本信息、以及用户输入的文本信息与将用户语音信息转换成的文本组合而成的文本信息中的至少一种。

13.一种问询回复方法，所述问询回复方法包括：

获得步骤，对用户输入的问询进行集束搜索，获得候选回复及其预测概率；

估算步骤，通过根据权利要求1至6中的任一项所述的候选回复评价装置，估算各候选回复的未来价值；

排序步骤，基于获得单元获得的各候选回复的预测概率和候选回复评价装置估算的各候选回复的未来价值的估算值，对候选回复进行排序；以及

输出步骤，输出排序后的候选回复。

14.一种计算机可读存储介质，其存储计算机程序，所述计算机程序在被处理器执行时，实现根据权利要求7所述的候选回复评价方法中包括的步骤。

15.一种计算机可读存储介质，其存储计算机程序，所述计算机程序在被处理器执行时，实现根据权利要求13所述的问询回复方法中包括的步骤。