CN108897872A

CN108897872A - 对话处理方法、装置、计算机设备和存储介质

Info

Publication number: CN108897872A
Application number: CN201810714809.9A
Authority: CN
Inventors: 鲍思琪; 何煌; 连荣忠; 姜迪; 吴华; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-27
Anticipated expiration: 2038-06-29
Also published as: CN108897872B

Abstract

本申请提出一种对话处理方法、装置、计算机设备和存储介质，其中，方法包括：对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语，对包含任一第一候选词语的候选语句进行补全处理，以生成多个第一候选语句，利用预设的强化学习网络，对源语句及多个第一候选语句进行关联计算，确定源语句与每个第一候选语句间的第一关联值，根据第一关联值，从多个第一候选词语中选取第一目标词语，对第一目标词语及源语句对应的特征向量进行解码处理，以确定回复语句中的第二候选词语，若第二候选词语为语句结束符，则确定第一目标词语为与源语句对应的回复语句。该方法可以较好的减少安全回复，提高回复质量，及节省人工成本。

Description

对话处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种对话处理方法、装置、计算机设备和存储介质。

背景技术

近些年，人机对话系统已经成为互联网领域研究的热点。这些系统大多根据获取的用户输入语句，在语料库中检索出相似的语句作为回复。

但是，基于语料库的对话处理方法，对语料库的依赖性较强，并且需要大量的人工调节和干预，因此上述对话处理方法，对话回复质量低，人工成本高。

发明内容

本申请提出一种对话处理方法、装置、计算机设备和存储介质，用于解决相关技术中对话处理方法，对话回复质量低，人工成本高的问题。

本申请第一方面实施例提出了一种对话处理方法，包括：

对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语；

对包含任一所述第一候选词语的候选语句进行补全处理，以生成多个第一候选语句；

利用预设的强化学习网络，对所述源语句及多个第一候选语句进行关联计算，确定所述源语句与每个第一候选语句间的各第一关联值；

根据所述第一关联值，从所述多个第一候选词语中选取第一目标词语；

对所述第一目标词语及所述源语句对应的特征向量进行解码处理，以确定所述回复语句中的第二候选词语；

若所述第二候选词语为语句结束符，则确定所述第一目标词语为与所述源语句对应的回复语句。

本申请另一方面实施例提出了一种对话处理装置，包括：

第一确定模块，用于对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语；

生成模块，用于对分别包含任一所述第一候选词语的候选语句进行补全处理，以生成多个第一候选语句；

第二确定模块，用于利用预设的强化学习网络，对所述源语句及多个第一候选语句进行关联计算，确定所述源语句与每个第一候选语句间的第一关联值；

选取模块，用于根据所述第一关联值，从所述多个第一候选词语中选取第一目标词语；

第三确定模块，用于对所述第一目标词语及所述源语句对应的特征向量进行解码处理，以确定所述回复语句中的第二候选词语；

第四确定模块，用于在所述第二候选词语为语句结束符时，确定所述第一目标词语为与所述源语句对应的回复语句。

本申请另一方面实施例提出了一种计算机设备，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述一方面实施例所述的对话处理方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述一方面实施例所述的对话处理方法。

本申请实施例的对话处理方法、装置、计算机设备及存储介质，通过对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语，对包含任一第一候选词语的候选语句进行补全处理，以生成多个第一候选语句，利用预设的强化学习网络，对源语句及多个第一候选语句进行关联计算，确定源语句与每个第一候选语句间的第一关联值，根据第一关联值，从多个第一候选词语中选取第一目标词语，对第一目标词语及源语句对应的特征向量进行解码处理，以确定回复语句中的第二候选词语，若第二候选词语为语句结束符，则确定第一目标词语为与源语句对应的回复语句。由此，在生成回复语句的过程中，首先通过生成的方式，生成与源语句对应的候选词语，然后基于强化学习网络，确定源语句和包含候选词语的每个补全后的候选语句间的关联值，从而根据关联值确定回复语句中的目标词语，回复语句的生成过程，不仅通过解码的方式生成候选词语，还从整个语句的角度对候选词语进行筛选，从而可以较好的减少对话系统产生的安全回复，提高回复语句的质量，而且节省了人工成本。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种对话处理方法的流程示意图；

图2为本申请实施例提供的一种利用LSTM-RNN编码和解码的示意图；

图3为本申请实施例提供的一种利用强化学习网络计算关联值的示意图；

图4为本申请实施例提供的一种具体的利用强化学习网络计算关联值的示意图；

图5为本申请实施例提供的另一种对话处理方法的流程示意图；

图6为本申请实施例提供的一种根据条件概率值和第二关联值确定目标词语的过程示意图；

图7为本申请实施例提供的一种对话处理装置的结构示意图；

图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的对话处理方法、装置、计算机设备和存储介质。

本申请实施例针对相关技术中，生成回复语句的方法，存在回复质量低、人工成本高的问题，提出一种对话处理方法。

本申请实施例的对话处理方法，在生成回复语句的过程中，首先通过生成的方式，生成与源语句对应的候选词语，然后基于强化学习网络，确定源语句和包含候选词语的每个补全后的候选语句间的关联值，从而根据关联值确定回复语句中的目标词语，回复语句的生成过程，不仅通过解码的方式生成候选词语，还从整个语句的角度对候选词语进行筛选，从而可以较好的减少对话系统产生的安全回复，提高回复语句的质量，而且节省了人工成本。

图1为本申请实施例提供的一种对话处理方法的流程示意图。

如图1所示，该对话处理方法包括：

步骤101，对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语。

本实施例中，源语句可以是用户输入的问题，如“How are you”。在获取源语句后，可首先将源语句输入编码器进行编码处理，以提取出源语句的特征向量，之后再利用解码器将得到的特征向量进行解码处理，以得到回复语句中的多个第一候选词语。

在实际实现时，编码器和解码器均可以采用长短期记忆(Long Short-TermMemory，简称LSTM)单元组成的循环神经网络(Recurrent Neural Networks，简称RNN)实现。图2为本申请实施例提供的一种利用LSTM-RNN编码和解码的示意图。图2中LSTM-RNN可分为两个阶段，编码阶段和解码阶段。源语句为“How are you”，LSTM-RNN通过对“How areyou”进行编码，提取出源语句的特征向量W，其中“<EOL>”为语句结束符。然后，对特征向量W进行解码得到至少一个第一候选词语，“I”是其中一个第一候选词语。

作为一种可能的实现方式，可对当前获取的源语句对应的特征向量进行解码处理，计算词库中的词语对应的条件概率，可用P(y|x),y₁∈V表示，其中，x表示源语句，y表示词库中的词，V表示词库。P(y|x)表示词语y在上文x中的条件概率。然后，按照条件概率由高至低的顺序，从词库中获取预设数量的词语作为第一候选词语。例如，按照条件概率高低，选取5个词语作为第一候选词语。

步骤102，对包含任一第一候选词语的候选语句进行补全处理，以生成多个第一候选语句。

本实施例中，在获取多个第一候选词语后，对分别包含任一第一候选词语的候选语句进行补全处理，得到完整的语句，即多个第一候选语句。

例如，源语句为“How are you”，第一候选词语为“I”、“We”、“They”。例如，对第一候选词语“I”进行补全处理，得到的第一候选语句有“I am fine”、“I am very good”、“Iwill go home”等。

为了提高补全的第一候选语句与源语句的关联程度，减少安全回复和不合适回复，可利用概率值，对包含第一候选词语的候选语句进行补全处理。

具体而言，针对每个第一候选词语，确定第一候选词语与词库中其余各词在语句中前后相邻的概率值，根据概率值的高低顺序，依次从词库中获取预设个数的目标补全词语。之后，利用目标补全词语，对分别包含各第一候选词语的候选语句进行补全处理。若确定的目标补全词语并非语句结束符，则还需要根据目标补全词语与词库中其余各词在语句中前后相邻的概率值，继续获取其余的目标补全词语，直至利用各次获取的目标补全词语对第一候选词语补全后，得到完整的候选语句。

例如，第一候选词语为“I”、“We”、“They”。对于第一候选词语“I”，词库中与“I”在语句中前后相邻的词语“am”的概率最高，其次是“will”，之后是“can”，那么对包含第一候选词语“I”的候选语句进行补全，可以得到“I am”、“I wil”、“I can”。之后，再针对“am”、“will”、“can”，计算其与词库中其余各词在语句中的前后相邻的概率值，根据概率值获取下一个目标补全词语。

步骤103，利用预设的强化学习网络，对源语句及多个第一候选语句进行关联计算，确定源语句与每个第一候选语句间的第一关联值。

相关技术中，对话系统容易产生安全回复如“我不知道”、“哈哈哈”等等，这些回复通常会导致对话结束，不利于对话的继续进行。或者，容易产生不合适的回复，也就是根据用户输入的语句，生成不相关或者不合适的回复。

为了提高回复质量，减少安全回复或不合适的回复，本实施例中，利用预设的强化学习网络，计算源语句和补全后的每个第一候选语句的关联值，以根据关联值确定回复语句中的目标词语。

本实施例中，强化学习网络包括向量层和第一子网络、第二子网络。图3为本申请实施例提供的一种利用强化学习网络计算关联值的示意图。

在计算关联值，针对每个第一候选语句，将源语句和第一候选语句输入至向量层，向量层对源语句及第一候选语句进行特征映射，以生成源语句对应的第一初始特征向量，及第一候选语句对应的第二初始特征向量。

然后，将第一初始特征向量和第二初始特征向量分别输入至第一子网络和第二子网络，由第一子网络对第一初始特征向量进行特征提取生成与源语句对应的第一特征向量，第二子网络对第二初始特征向量进行特征提取，生成与第一候选语句对应的第二特征向量。

再对第一特征向量和第二特征向量进行内积运算，将计算得到的值作为源语句和第一候选语句间的关联值，即第一关联值。

由此，利用强化学习网络，可得到每个第一候选语句和源语句间的第一关联值。其中，第一关联值用于表示源语句和补全的候选语句的关联程度，关联值越大说明，源语句和候选语句的关联程度越大。

图4为本申请实施例提供的一种具体的利用强化学习网络计算关联值的示意图。

作为一个示例，如图4所示，向量层为嵌入层(Embedding layer)，第一子网络和第二子网络均包括RNN和两层全连层(Fully-Connected，简称FC)。源语句x和第一候选语句y^*先同时经过Embedding layer，源语句x经过Embedding layer由Embedding layer进行特征提取，得到第一初始特征向量X₁，X₁再经过两层FC，最终得到源语句x对应的第一特征向量X₂。同样地，第一候选语句y^*先经过Embedding layer由Embedding layer进行特征提取，得到第二初始特征向量经过两层FC后，得到第二特征向量最后，将第一特征向量X₂和第二特征向量进行内积计算，得到第一关联值v(x,y^*)。

步骤104，根据第一关联值，从多个第一候选词语中选取第一目标词语。

由于每个关联值反映了源语句与每个第一候选语句的关联程度，由此在计算得到每个第一候选语句与源语句间的第一关联值后，可根据所有第一候选语句分别与源语句间的第一关联值，从各第一候选词语中选取第一目标词语，作为回复语句中的词语。也就是说，根据第一关联值，从多个第一候选词语中，选取至少一个第一候选词语作为回复语句中的词语。

作为一种可能的实现方式，可将最大的第一关联值对应的第一候选语句中包含的第一候选词语，作为第一目标词语。

例如，源语句为“How are you”，最大的第一关联值对应的第一候选语句为“I amfine”，且“I am fine”包含的第一候选词语为“I”，则将第一候选词语“I”作为第一目标词语。

步骤105，对第一目标词语及源语句对应的特征向量进行解码处理，以确定回复语句中的第二候选词语。

为了提高回复质量，可利用确定出的第一目标词语，确定回复语句的第二候选词语。

具体地，可将第一目标词语和源语句对应的特征向量进行解码处理，以确定回复语句中的第二候选词语。

例如，源语句为“How are you”，第一目标词语为“I”，可利用LSTM-RNN对“I”和“How are you”的特征向量进行解码处理，得到第二候选词语。

需要说明的是，确定出的第二候选词语的数量可能为一个，也可能为多个。

步骤106，若第二候选词语为语句结束符，则确定第一目标词语为与源语句对应的回复语句。

本实施例中，在获得第二候选词语后，可先判断第二候选词语是否为语句结束符，例如语句结束符<EOL>。如果第二候选词语为语句结束符，说明回复语句中的词语已经确定完毕，那么确定第一目标词语为与源语句对应的回复语句。如果第二候选词语不为语句结束符，或者，若第二候选词语有多个，且多个第二候选词语不全为语句结束符，其中，是语句结束符的个数大于非语句结束符的个数时，可从不是语句结束符的第二候选词语中确定出回复语句中的下一个词语。

相应的，若第二候选词语为非语句结束符，则重复执行选取第一目标词语的过程，直至根据选取的目标词语及源语句对应的特征向量进行解码处理后，获取的各候选词语为语句结束符。

上述步骤104实施例中，可将最大的第一关联值对应的第一候选语句中包含的第一候选词语，作为第一目标词语。本实施例中，也可以比较不同第一候选词语对应的第二关联值，根据第二关联值确定第一目标词语。下面结合图5进行说明，图5为本申请实施例提供的另一种对话处理方法的流程示意图。

如图5所示，该对话处理方法包括：

步骤201，对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语。

步骤202，对包含任一第一候选词语的候选语句进行补全处理，以生成多个第一候选语句。

步骤203，利用预设的强化学习网络，对源语句及多个第一候选语句进行关联计算，确定源语句与每个第一候选语句间的第一关联值。

本实施例中，步骤201-步骤203与上述步骤101-步骤103类似，故在此不再赘述。

步骤204，根据第一候选语句中包含的第一候选词语，确定每个第一候选词语对应的第二关联值。

作为一种可能的实现方式，计算包含相同第一候选词语的各第一候选语句对应的第一关联值的均值，将均值作为该相同第一候选词对应的第二关联值。

或者，针对每个第一候选词语，将包含其的各第一候选语句对应的第一关联值中的最大值，作为该第一候选词语对应的第二关联值。

假设，对包含任一第一候选词语的候选语句进行补全处理后，生成了M个第一候选语句。针对每个第一候选词语，可获取M个第一候选语句分别对应的M个第一关联值，进而计算M个第一关联值的均值，将均值作为第一候选词语对应的第二关联值。如公式(1)所示，

其中，表示第二关联值，M表示对包含一个第一候选词语的候选语句补全后生成的第一候选语句的个数，v(x,y^*)表示对源语句与第一候选语句进行关联计算得到的第一关联值。

或者，将M个第一候选词语分别对应的M个第一关联值中的关联值，作为第一候选词语对应的第二关联值，即

本实施例中，可以比较多个第一候选词对应的第二关联值，根据第二关联值确定第一目标词语，可以大大提高确定准确率。

步骤205，根据每个第一候选词语分别对应的第二关联值，从多个第一候选词语中选取第一目标词语。

本实施例中，在确定出每个第一候选词语对应的第二关联值后，根据每个第一候选词语分别对应的第二关联值，从所有第一候选词语中选取第一目标词语，作为回复语句中的词语。

由于关联值越大，说明第一候选词语与源语句的关联程度越大，那么可将最大的第二关联值对应的第一候选词语，作为第一目标词语。

例如，源语句为“How are you”，第一候选词语“I”对应的第二关联值，大于第一候选词语“We”对应的第二关联值，那么可将第一候选词语“I”作为第一目标词语。

步骤206，对第一目标词语及源语句对应的特征向量进行解码处理，以确定回复语句中的第二候选词语。

步骤207，若第二候选词为语句结束符，则确定第一目标词语为与源语句对应的回复语句。

本实施例中，步骤206-步骤207与上述步骤105-步骤106类似，故在此不再赘述。

本申请实施例的对话处理方法，通过根据每个第一候选语句对应的第一关联值及每个第一候选语句中的第一候选词，确定每个第一候选词对应的第二关联值，进而根据每个第一候选词对应的第二关联值选取第一目标词语，可以提高回复质量。

为了进一步提高回复质量，作为另一种可能的实现方式，还可根据每个第一候选词语分别对应的条件概率值和第二关联值，联合确定第一目标词语。具体地，计算每个第一候选词语对应的条件概率值和第二关联值之和，将最大的和值对应的第一候选词语，作为第一目标词语。

假设，对源语句对应的特征向量进行解码处理，确定K个第一候选词语，那么可将对应的第一候选词语作为第一目标词语。其中，i＝1,2，…，K；P(y_i|x)表示第一候选词语y_i对应的条件概率，即第一候选词语y_i在上文源语句x中的条件概率；表示第一候选词语y_i对应的第二关联值，其中，或者表示第一候选词语y_i对应的补全后的第一候选语句，共有M个。

本实施例中，根据每个第一候选词语对应的条件概率值和第二关联值，共同确定第一目标词语，从而可以减少安全回复和不合适回复，进一步提高回复语句的质量。

下面结合图6进行详细说明，图6为本申请实施例提供的一种根据条件概率值和第二关联值确定目标词语的过程示意图。

如图6所示，源语句x为“How are you”，W为源句子“How are you”对应的特征向量，对W进行解码得到各第一候选词语，并确定第一目标词语为“I”。接下来确定下一个目标词语，这时可对源语句“How are you”对应的特征向量和“I”进行解码处理，得到各第二候选词语，并从第二候选词语中确定出目标词语。

具体地，通过计算源语句及回复语句中第一词语为“I”时，词库中各词语在上文中的条件概率，进而根据每个词语对应的条件概率，选取预设数量的词语，比如，选取对应条件概率最高的5个词语作为第二候选词语。进而再对包含“I”和各第二候选词语的候选语句进行补全，以确定各第二候选语句z*，然后根据各第二候选语句与源语句对应的关联值、及各第二候选词语分别对应的条件概率，确定第二目标词语，依次类推，直至最终确定的候选词语为语句结束符为止。

为了实现上述实施例，本申请实施例还提出一种对话处理装置。图7为本申请实施例提供的一种对话处理装置的结构示意图。

如图7所示，该对话处理装置包括：第一确定模块310、生成模块320、第二确定模块330、选取模块340、第三确定模块350、第四确定模块360。

第一确定模块310用于对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语。

生成模块320用于对包含任一第一候选词语的候选语句进行补全处理，以生成多个第一候选语句。

第二确定模块330用于利用预设的强化学习网络，对源语句及多个第一候选语句进行关联计算，确定源语句与每个第一候选语句间的第一关联值。

选取模块340用于根据第一关联值，从多个第一候选词语中选取第一目标词语。

第三确定模块350用于对第一目标词语及源语句对应的特征向量进行解码处理，以确定回复语句中的第二候选词语。

第四确定模块360用于在第二候选词语为语句结束符时，确定第一目标词语为与源语句对应的回复语句。

在本实施例一种可能的实现方式中，第一确定模块310还用于：

对当前获取的源语句对应的特征向量进行解码处理，以确定在特征向量下，词库中的词语对应的条件概率；

按照条件概率由高至低的顺序，从词库中获取预设数量的词语作为第一候选词语。

在本实施例一种可能的实现方式中，该装置还可包括：

第五确定模块，用于在确定源语句与每个第一候选语句间的第一关联值之后，根据第一候选语句中包含的第一候选词语，确定每个第一候选词语对应的第二关联值；

选取模块340还用于：根据每个第一候选词语对应的第二关联值，从多个第一候选词语中选取第一目标词语。

在本实施例一种可能的实现方式中，对包含任一第一候选词语的候选语句进行补全处理后，生成了M个第一候选语句；

相应的，第五确定模块还用于：

获取M个第一候选语句分别对应的M个第一关联值；

计算所述M个第一关联值的均值或者最大值，确定每个第一候选词语对应的第二关联值。

在本实施例一种可能的实现方式中，选取模块340还用于：

根据每个第一候选词语对应的条件概率值及第二关联值，从多个第一候选词语中选取第一目标词语。

在本实施例一种可能的实现方式中，生成模块320还用于：

确定每个第一候选词语，与词库中其余各词语在语句中前后相邻的概率值；

根据概率值，依次从词库中获取目标补全词语；

利用目标补全词语，对包含任一所述第一候选词语的候选语句进行补全处理。

在本实施例一种可能的实现方式中，第二确定模块330还用于：

利用预设的强化学习网络中的向量层，对源语句及任一第一候选语句进行特征映射，以生成源语句对应的第一初始特征向量，及任一第一候选语句对应的第二初始特征向量；

利用预设的强化学习网络中的第一子网络对第一初始特征向量进行特征提取，以生成源语句对应的第一特征向量；

利用预设的强化学习网络中的第二子网络对所述第二初始特征向量进行特征提取，以生成任一第一候选语句对应的第二特征向量；

对第一特征向量及第二特征向量进行内积运算，以确定源语句与任一第一候选语句间的关联值。

在确定回复语句中的第二候选词语为非语句结束符时，重复执行选取第一目标词语的过程，直至根据选取的目标词语及源语句对应的特征向量进行解码处理后，获取的候选词语为语句结束符。

需要说明的是，前述对对话处理方法实施例的解释说明，也适用于该实施例的对话处理装置，故在此不再赘述。

本申请实施例的对话处理装置，通过对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语，对包含任一第一候选词语的候选语句进行补全处理，以生成多个第一候选语句，利用预设的强化学习网络，对源语句及多个第一候选语句进行关联计算，确定源语句与每个第一候选语句间的第一关联值，根据第一关联值，从多个第一候选词语中选取第一目标词语，对第一目标词语及源语句对应的特征向量进行解码处理，以确定回复语句中的第二候选词语，若第二候选词语为语句结束符，则确定第一目标词语为与源语句对应的回复语句。由此，在生成回复语句的过程中，首先通过生成的方式，生成与源语句对应的候选词语，然后基于强化学习网络，确定源语句和包含候选词语的多个补全后的候选语句间的关联值，从而根据关联值确定回复语句中的目标词语，回复语句的生成过程，不仅通过解码的方式生成候选词语，还从整个语句的角度对候选词语进行筛选，从而可以较好的减少对话系统产生的安全回复，提高回复语句的质量，而且节省了人工成本。

为了实现上述实施例，本申请实施例还提出一种计算机设备，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述实施例所述的对话处理方法。

图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

为了实现上述实施例，本申请实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的对话处理方法。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种对话处理方法，其特征在于，包括：

利用预设的强化学习网络，对所述源语句及多个第一候选语句进行关联计算，确定所述源语句与每个第一候选语句间的第一关联值；

2.如权利要求1所述的方法，其特征在于，所述对当前获取的源语句对应的特征向量进行解码处理，以确定回复语句中的多个第一候选词语，包括：

对当前获取的源语句对应的特征向量进行解码处理，以确定在所述特征向量下，词库中的词语对应的条件概率；

按照条件概率由高至低的顺序，从所述词库中获取预设数量的词语作为所述第一候选词语。

3.如权利要求2所述的方法，其特征在于，所述确定所述源语句与每个第一候选语句间的第一关联值之后，还包括：

根据所述第一候选语句中包含的第一候选词语，确定每个第一候选词语对应的第二关联值；

则所述根据所述第一关联值，从所述多个第一候选词语中选取第一目标词语，包括：

根据每个第一候选词语对应的第二关联值，从所述多个第一候选词语中选取第一目标词语。

4.如权利要求3所述的方法，其特征在于，所述对包含任一所述第一候选词语的候选语句进行补全处理后，所述方法还包括：

生成M个第一候选语句；

则所述根据所述第一候选语句中包含的第一候选词语，确定每个第一候选词语对应的第二关联值，包括：

获得所述M个第一候选语句分别对应的M个第一关联值；

5.如权利要求3或4所述的方法，其特征在于，所述根据每个第一候选词语对应的第二关联值，从所述多个第一候选词语中选取第一目标词语，包括：

6.如权利要求1-4任一所述的方法，其特征在于，所述对包含任一所述第一候选词语的候选语句进行补全处理，包括：

确定每个第一候选词语与词库中其余各词语在语句中前后相邻的概率值；

根据所述概率值，依次从所述词库中获取目标补全词语；

利用所述目标补全词语，对包含任一所述第一候选词语的候选语句进行补全处理。

7.如权利要求1-4任一所述的方法，其特征在于，所述利用预设的强化学习网络，对所述源语句及多个第一候选语句进行关联计算，包括：

利用所述预设的强化学习网络中的向量层，对所述源语句及任一第一候选语句进行特征映射，以生成所述源语句对应的第一初始特征向量，及所述任一第一候选语句对应的第二初始特征向量；

利用所述预设的强化学习网络中的第一子网络对所述第一初始特征向量进行特征提取，以生成所述源语句对应的第一特征向量；

利用所述预设的强化学习网络中的第二子网络对所述第二初始特征向量进行特征提取，以生成所述任一第一候选语句对应的第二特征向量；

对所述第一特征向量及所述第二特征向量进行内积运算，以确定所述源语句与所述任一第一候选语句间的关联值。

8.如权利要求1-4任一所述的方法，其特征在于，所述确定所述回复语句中的第二候选词语之后，还包括：

若所述第二候选词语为非语句结束符，则重复执行所述选取第一目标词语的过程，直至根据选取的目标词语及所述源语句对应的特征向量进行解码处理后，获取的候选词语为语句结束符。

9.一种对话处理装置，其特征在于，包括：

生成模块，用于对包含任一所述第一候选词语的候选语句进行补全处理，以生成多个第一候选语句；

10.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-8中任一所述的对话处理方法。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的对话处理方法。