CN110019722B

CN110019722B - 对话模型的回复排序方法、装置及计算机可读存储介质

Info

Publication number: CN110019722B
Application number: CN201711395876.0A
Authority: CN
Inventors: 李一韩; 童毅轩; 姜珊珊; 董滨
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2023-11-24
Anticipated expiration: 2037-12-21
Also published as: US20190198014A1; CN110019722A; US10971136B2

Abstract

本发明实施例提供了一种对话模型的回复排序方法、装置及计算机可读存储介质。本发明实施例提供的对话模型的回复排序方法，通过统计同一目标回复内容在目标对话内容以及相似对话内容下的生成概率，作为该目标回复内容的排序的评分，可以有效的提升目标回复内容中适合目标对话内容P的句子的排名，从而提升对话模型的回复质量。

Description

对话模型的回复排序方法、装置及计算机可读存储介质

技术领域

本发明涉及对话处理技术领域，具体涉及一种对话模型的回复排序方法、装置及计算机可读存储介质。

背景技术

对话生成任务是针对用户给出的对话内容(一句话或包括多个句子的一小段文本)，自动输出符合对话内容的回复内容。该回复内容通常要求语法正确且与用户的对话内容逻辑一致。当前对话生成任务采用的技术包括基于检索式的方法和基于生成式的方法。

具体的，基于检索式的方法从数据库中通过一定的度量标准找出一个句子作为回复句子(本文中亦称为回复内容)。该方法给出的回复句子语法通常都是正确的，但存在着扩展性、适应性较差的问题。而基于生成式的方法则通过训练神经网络对话模型，基于神经网络对话模型自动生成符合要求的句子作为回复。该方法具有良好的扩展性和适应性，能够学习并理解用户给的对话内容并作出相应的回复内容。基于生成式的方法虽然具有上述良好的性能，但当前应用中仍然存在着一些问题。

假设已有训练好的神经网络对话模型M，当用户给出句子P时，神经网络对话模型M通常会生成多个排序不同的句子，记为R。R中排序越靠前(排名越高)的句子越有可能被选为P的回复句子，也就是说，R中的句子，是按照各个句子被选为P的回复句子的概率的高低顺序进行排序的。基于生成式方法的一个目标是提升高排名回复句子的质量。然而，神经网络对话模型在训练时，由于训练集中词语的分布不均，导致对不同词语组成的句子理解程度不一，这就可能会形成排名较高的句子并不适合作为用户句子P的一个回复句子，而适合用户句子P的回复句子被排在较低的位置。

因此，亟需一种面向基于神经网络的对话模型的回复排序方法，提升回复中适合用户句子P的回复句子的排名，从而提升对话模型的回复质量。

发明内容

本发明实施例要解决的技术问题是提供一种对话模型的回复排序方法、装置及计算机可读存储介质，可以有效提升回复中适合用户对话内容的回复内容的排名，从而提升对话模型的回复质量。

为解决上述技术问题，本发明实施例提供的对话模型的回复排序方法，包括：

获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容；

以目标对话内容为输入，获取所述对话模型生成的至少一个目标回复内容的概率值；以及，以每个相似对话内容为输入，获取所述对话模型生成所述目标回复内容的概率值；

根据所生成的每个目标回复内容的概率值，统计该目标回复内容的评分，其中，该目标回复内容的评分，与该目标回复内容的概率值正相关；

根据所述评分的高低顺序，对各个目标回复内容进行排序。

其中，所述获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容的步骤，包括：

根据预先选择的语料集，训练词向量；

基于词向量，计算目标对话内容以及样本数据集中的样本对话内容的语义向量；

根据语义向量，计算目标对话内容与各个样本对话内容的语义相似度；

按照所述语义相似度从高到低的顺序，选择出至少一个语义相似的相似对话内容。

其中，在所述获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容的步骤之前，所述方法还包括：

基于序列到序列Seq2Seq模型，利用样本数据集，训练获得所述对话模型。

其中，所述根据所生成的每个目标回复内容的概率值，统计该目标回复内容的评分的步骤，包括：

计算所生成的每个目标回复内容的概率值与一对应的加权值的乘积之和，得到该目标回复内容的评分。

本发明实施例还提供了一种对话模型的回复排序装置，所述对话模型基于一样本数据集训练得到，所述回复排序装置包括：

相似对话获取单元，用于获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容；

概率值计算单元，用于以目标对话内容为输入，获取所述对话模型生成的至少一个目标回复内容的概率值；以及，以每个相似对话内容为输入，获取所述对话模型生成所述目标回复内容的概率值；

目标回复内容评分单元，用于根据所生成的每个目标回复内容的概率值，统计该目标回复内容的评分，其中，该目标回复内容的评分，与该目标回复内容的概率值正相关；

目标回复内容排序单元，用于根据所述评分的高低顺序，对各个目标回复内容进行排序。

其中，所述相似对话获取单元包括：

词向量训练单元，用于根据预先选择的语料集，训练词向量；

语义向量计算单元，用于基于词向量，计算目标对话内容以及样本数据集中的样本对话内容的语义向量；

语义相似度计算单元，用于根据语义向量，计算目标对话内容与各个样本对话内容的语义相似度；

对话选择单元，用于按照所述语义相似度从高到低的顺序，选择出至少一个语义相似的相似对话内容。

其中，上述回复排序装置还包括：

模型训练单元，用于基于序列到序列Seq2Seq模型，利用样本数据集，训练获得所述对话模型。

其中，所述目标回复内容评分单元包括：

统计单元，用于计算所生成的每个目标回复内容的概率值与一对应的加权值的乘积之和，得到该目标回复内容的评分。

本发明实施例还提供了一种回复排序装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的对话模型的回复排序方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的对话模型的回复排序方法的步骤。

与现有技术相比，本发明实施例提供的对话模型的回复排序方法、装置及计算机可读存储介质，统计同一目标回复内容在目标对话内容以及相似对话内容下的生成概率，作为该目标回复内容的排序的评分，可以有效的提升目标回复内容中适合目标对话内容P的句子的排名，从而提升对话模型的回复质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的对话模型的回复排序方法的一种流程示意图；

图2为本发明实施例提供的对话模型的回复排序装置的一种结构示意图；

图3为本发明实施例提供的对话模型的回复排序装置的另一结构示意图；

图4为本发明实施例提供的对话模型的回复排序装置的又一结构示意图；

图5为本发明实施例中采用的一种Seq2Seq模型的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如背景技术中所述的，现有基于神经网络的对话模型所生成的回复内容，排序靠前的回复内容，并不适合作为用户对话内容的回复内容。为改善上述问题，本发明实施例提供了一种对话模型的回复排序方法，针对对话模型生成的多个回复内容进行重排序，提升回复中适合用户对话内容的回复内容的排名。本发明实施例可以应用于基于神经网络的对话模型中，可以提高对话模型的回复质量。

本发明实施例提供的对话模型的回复排序方法，可以用于对基于神经网络的对话模型生成的回复内容进行重排序。这里，所述对话模型通常是基于预先获取的样本数据集训练得到的，例如，假设样本语料集标记为其中，X_i表示一个样本对话内容，Y_i表示针对样本对话内容的样本回复内容，i的取值范围从1到w，w表示样本对X_i,Y_i的数量。利用上述样本语料集，训练得到神经网络的对话模型，该对话模型能够针对用户给出的对话内容P_q，生成对应的候选回复内容及其概率值。这些候选回复内容按分数高低从大到小排序，分数的计算由对话模型给出，例如，采用上述概率值作为候选回复内容的分数。通常，分数越高的候选回复内容越有可能被选中作为P_q的回复输出。

如图1所示，本发明实施例提供的对话模型的回复排序方法，包括：

步骤101，获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容。

这里，在步骤101之前，可以基于序列到序列(Seq2Seq)模型，利用样本数据集，训练获得基于神经网络的对话模型M。图5给出了本发明实施例采用的Seq2Seq模型的一个结构示意图，其通常包括以下几个单元：

Embedding:将词语映射到向量；

Encoder:将句子转换成向量列表，代表当前处理的句子的词义向量；

Attention Model:在解码(decoder)时，允许解码器关注输入句子的不同部分；

Decoder:根据attention及上一个生成的词语，计算生成下一个词的概率；

Beam Search:生成多个回复及生成回复对应的概率值。

以上Seq2Seq模型仅为本发明实施例可以采用的一种模型的示例，并不用于限定本发明。

在步骤101中，目标对话内容可以是用户输入的对话内容，本发明实施例为了提高针对目标对话内容的回复内容(即目标回复内容)的回复质量，在步骤101中，首先在样本数据集中选择与目标对话内容语义相似的至少一个相似对话内容。具体的，可以预先设置相似对话内容的第一数量，以按照语义相似程度，从高到低选择出第一数量的相似对话内容。当然，也可以设置语义相似度的门限值，以选择出相似程度大于或等于上述门限值的相似对话内容。

关于语义相似度的获取，本发明实施例可以采用但不限于以下方式：根据预先选择的语料集(例如，以中文对话为例，可以选择维基中文语料)，训练词向量；基于词向量，计算目标对话内容的语义向量以及样本数据集中的各个样本对话内容的语义向量；根据语义向量，计算目标对话内容与各个样本对话内容的语义相似度；按照所述语义相似度从高到低的顺序，选择出至少一个语义相似的相似对话内容。

例如，基于维基中文语料，采用word2vec方法可以训练得到各个词语的词向量。词向量表示的是词语语义的向量表示。假设训练好的词向量记为WE，对于任何一个词语w，它的词向量可以表示为WE(w)。

接着，基于词向量计算句子的语义向量。假设句子为S，通过分词处理，它可以表示为词语的组合<w_s1,w_s2,…,w_sn>，其中w_si表示句子S中第i个词。则句子S的语义向量SE(S)可以表示为：

上述公式中，n表示句子s中的词的数量。

基于两个句子的语义向量，可以计算向量间夹角的余弦值，作为语义相似度的度量。例如，给定句子S_i和S_j，它们的语义相似度SS(S_i,S_j)的计算方式如下：

上述公式中，分子SE(S_i)SE(S_j)表示句子S_i的语义向量SE(S_i)，与句子S_j的语义向量SE(S_j)的内积；|SE(S_i)|和|SE(S_j)|分别表示语义向量SE(S_i)和SE(S_j)的长度。

以上公式是基于向量间的余弦夹角来计算向量的相似度，本发明实施例还可以采用其他方式，例如，根据向量的欧几里得距离来计算相似度，这里不再一一举例说明。

因此，当用户给出一个目标对话内容P_q时，本发明实施例可以从样本语料集中D中找出与P_q语义相似的前N个句子，作为相似对话内容，记为SP。这里，N为大于等于1的整数。

步骤102，以目标对话内容为输入，获取所述对话模型生成的至少一个目标回复内容的概率值；以及，以每个相似对话内容为输入，获取所述对话模型生成所述目标回复内容的概率值。

这里，将目标对话内容P_q输入至对话模型，获取对话模型生成的至少一个目标回复内容及其概率值，概率值表示该目标回复内容被选中作为目标对话内容的回复的概率。上述至少一个目标回复内容组成了回复集，这里可以记为PR。并且，对于PR中每一个目标回复内容r_i，获取以相似对话内容SP中的句子P_s作为对话模型M的输入，对话模型M下生成目标回复内容r_i的概率可以表示如下：

Proba(r_i|P_s)＝M(r_i|P_s)

这里，M(*)表示由对话模型M计算得出的生成概率值。

步骤103，根据所生成的每个目标回复内容的概率值，统计该目标回复内容的评分，其中，该目标回复内容的评分，与该目标回复内容的概率值正相关。

在步骤102中，分别以目标对话内容和相似对话内容作为对话模型的输入，获得了对话模型生成目标回复内容的概率。在步骤103中，可以针对每个目标回复内容，分别累计生成该目标回复内容的概率值，得到该目标回复内容的一个评分。具体的，可以直接将同一目标回复内容的概率值进行相加，以得到该目标回复内容的评分。或者，计算同一目标回复内容的概率值与一对应的加权值的乘积之和(即加权求和)，得到该目标回复内容的评分。可以看出，该目标回复内容的评分，与生成该目标回复内容的各个概率值正相关。

在进行加权求和时，本发明实施例可以采用以下公式计算目标回复内容的评分，例如，对于PR中的每一个回复句子r_j，其分数Rank(r_j)计算如下：

上述公式中，n表示集合SP∪P_q中的对话内容的数量，参数γ_i表示每个p_i对分数的贡献度(权重值)。这里，还可以设置以对权重值进行归一化处理。

步骤104，根据所述评分的高低顺序，对各个目标回复内容进行排序。

这里，利用步骤103中计算得到的各个目标回复内容的评分，按照分数高低顺序进行排序，从而调整了对话模型输出的目标回复内容的排序。对话模型可以依据排序后的目标回复内容，选择一个最终回复内容，作为目标对话内容的回复。通常，排序靠前的目标回复内容，被选择的可能性较大。当然，也可以直接选择排序第一的目标回复内容，作为最终回复内容。

从以上步骤可以看出，本发明实施例在调整目标回复内容的排序时，将与目标对话内容语义相似的相似对话内容也考虑进来，如果相似对话内容也生成了某个目标回复内容，则说明该目标回复内容与目标对话内容的逻辑一致性较高。基于以上原理，统计同一目标回复内容在目标对话内容以及相似对话内容下的生成概率，作为该目标回复内容的排序的评分，可以有效的提升目标回复内容中适合目标对话内容P的句子的排名，从而提升对话模型的回复质量。

举例来说：

P1：失眠是一本翻不过去的书。

P2：我昨晚失眠了。

CR：睡前一杯牛奶有助于睡眠。

P1和P2分别是两个句子，CR是P1的一个回复。可以看到，P1和P2谈论的都是失眠这一主题，可以被认为是语义相似的句子，因而，适用于P1的回复CR也适用于P2。基于上述思想，如果一个关于句子P的一个合适的回复排名较低，可以找出句子P的相似句子，基于相似句子对回复句子进行生成概率的计算，由于相似的句子生成回复句子的概率可能较大，进而对概率重排序后，适合的回复句子的排名将得到提升，从而本发明实施例可以提升回复质量。

基于以上实施例所提供的对话模型的回复排序方法，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的对话模型的回复排序方法的方法中的步骤。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图2，本发明实施例提供的对话模型的回复排序装置20，应用于对一基于神经网络的对话模型提供的目标回复内容进行重排序，所述对话模型基于一样本数据集训练得到，如图2所示，该回复排序装置20包括：

相似对话获取单元21，用于获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容；

概率值计算单元22，用于以目标对话内容为输入，获取所述对话模型生成的至少一个目标回复内容的概率值；以及，以每个相似对话内容为输入，获取所述对话模型生成所述目标回复内容的概率值；

目标回复内容评分单元23，用于根据所生成的每个目标回复内容的概率值，统计该目标回复内容的评分，其中，该目标回复内容的评分，与该目标回复内容的概率值正相关；

目标回复内容排序单元24，用于根据所述评分的高低顺序，对各个目标回复内容进行排序。

图3进一步给出了本发明实施例提供的回复排序装置30的另一结构示意图，请参照图3，所述相似对话获取单元21包括：

词向量训练单元211，用于根据预先选择的语料集，训练词向量；

语义向量计算单元212，用于基于词向量，计算目标对话内容以及样本数据集中的样本对话内容的语义向量；

语义相似度计算单元213，用于根据语义向量，计算目标对话内容与各个样本对话内容的语义相似度；

对话选择单元214，用于按照所述语义相似度从高到低的顺序，选择出至少一个语义相似的相似对话内容。

优选的，所述的回复排序装置30还包括：

模型训练单元25，用于基于序列到序列Seq2Seq模型，利用样本数据集，训练获得所述对话模型。

优选的，所述目标回复内容评分单元23包括：

统计单元231，用于计算所生成的每个目标回复内容的概率值与一对应的加权值的乘积之和，得到该目标回复内容的评分。

请参考图4，本发明实施例还提供了对话模型的回复排序装置的一种硬件结构框图，该系统接收对话模型提供的目标回复内容并进行重排序后输出最终的排序结果。如图4所示，该回复排序装置40包括：

处理器42；和

存储器44，在所述存储器44中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器42执行以下步骤：

根据所述评分的高低顺序，对各个目标回复内容进行排序。

进一步地，如图4所示，该回复排序装置40还包括网络接口41、输入设备43、硬盘45、和显示设备46。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器42代表的一个或者多个中央处理器(CPU)，以及由存储器44代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口41，可以连接至网络(如因特网、局域网等)，从网络中接收信息，并可以将接收到的信息保存在硬盘45中。

所述输入设备43，可以接收操作人员输入的各种指令，例如，针对预设门限、预设阈值的设置信息等，并发送给处理器42以供执行。所述输入设备43可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备46，可以将处理器42执行指令获得的结果进行显示，例如显示后处理后得到的最终识别结果等。

所述存储器44，用于存储操作系统运行所必须的程序和数据，以及处理器42计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器44可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器44存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统441和应用程序442。

其中，操作系统441，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序442，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序442中。

本发明上述实施例揭示的方法可以应用于处理器42中，或者由处理器42实现。处理器42可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器42中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器42可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器44，处理器42读取存储器44中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器42执行时还可实现如下步骤：

根据预先选择的语料集，训练词向量；

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种对话模型的回复排序方法，所述对话模型基于一样本数据集训练得到，其特征在于，所述方法包括：

根据所述评分的高低顺序，对各个目标回复内容进行排序；

计算所生成的每个目标回复内容的概率值与一对应的加权值的乘积之和即加权求和，得到该目标回复内容的评分；

其中，将目标对话内容P_q输入至对话模型，获取对话模型生成的至少一个目标回复内容及其概率值，概率值表示该目标回复内容被选中作为目标对话内容的回复的概率；上述至少一个目标回复内容组成了回复集PR；并且，对于所述回复集PR中每一个目标回复内容r_i，获取以相似对话内容SP中的句子P_s作为对话模型M的输入；

在进行所述加权求和时，采用以下公式计算目标回复内容的评分，并且对于所述回复集PR中的每一个回复句子r_j，其评分Rank(r_j)计算如下：

其中p_i∈SP∪P_q

上述公式中，n表示集合SP∪P_q中的对话内容的数量，参数γ_i表示每个p_i对分数的贡献度。

2.如权利要求1所述的方法，其特征在于，所述获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容的步骤，包括：

根据预先选择的语料集，训练词向量；

3.如权利要求1所述的方法，其特征在于，在所述获取目标对话内容在所述样本数据集中的至少一个语义相似的相似对话内容的步骤之前，所述方法还包括：

4.一种对话模型的回复排序装置，所述对话模型基于一样本数据集训练得到，其特征在于，所述回复排序装置包括：

目标回复内容排序单元，用于根据所述评分的高低顺序，对各个目标回复内容进行排序；

其中，所述目标回复内容评分单元包括：

统计单元，用于计算所生成的每个目标回复内容的概率值与一对应的加权值的乘积之和即加权求和，得到该目标回复内容的评分；

其中p_i∈SP∪P_q

上述公式中，n表示集合SP∪P_q中的对话内容的数量，参数γi表示每个p_i对分数的贡献度。

5.如权利要求4所述的回复排序装置，其特征在于，所述相似对话获取单元包括：

6.如权利要求4所述的回复排序装置，其特征在于，还包括：

7.一种对话模型的回复排序装置，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的对话模型的回复排序方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的对话模型的回复排序方法的步骤。