CN113220858B

CN113220858B - 对话系统更新方法、装置、计算机设备及存储介质

Info

Publication number: CN113220858B
Application number: CN202110604635.2A
Authority: CN
Inventors: 侯翠琴; 李剑锋; 文彬
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-10-27
Anticipated expiration: 2041-05-31
Also published as: CN113220858A

Abstract

本发明公开了一种对话系统更新方法、装置、计算机设备及存储介质，该方法根据对话系统中第一对话内容以及第二对话内容，通过预设判别生成模型确定对话激励映射函数；将对话系统的初始状态输入至包含初始参数的预设深度学习模型中，以通过预设深度学习模型确定与初始状态对应的期望状态激励值；根据对话激励映射函数确定与初始状态对应的实际状态激励值；根据期望状态激励值以及实际状态激励值，确定预设深度学习模型的总损失值；在总损失值未达到预设的收敛条件时，更新迭代预设深度学习模型的初始参数，直至损失值达到预设的收敛条件时，根据收敛之后的预设深度学习模型更新对话系统。本发明提高了对话系统的更新效率以及准确率。

Description

对话系统更新方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种对话系统更新方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的发展，多轮对话技术广泛应用于不同的应用场景下，例如聊天机器人、智能助手等应用场景。

多轮对话系统主要基于检索数据库、意图理解模型、对话生成模型等技术产生对话回复。但是随着时间的推移，多轮对话系统的使用过程中数据库内容、意图理解模型以及对话生成模型若更新不及时，可能会影响对话效果。现有技术中，一般采用人工更新方式更新数据库内容，优化意图理解模型或者优化对话生成模型，但是该方式在对话系统更新上效率较低，且人工更新方式容易出错，进而可能导致更新后的对话系统的准确率变低。

发明内容

本发明实施例提供一种对话系统更新方法、装置、计算机设备及存储介质，以解决对话系统更新效率较低，且更新后的对话系统的准确率变低的问题。

一种对话系统更新方法，包括：

获取对话系统中最近一轮的第一对话内容，以及在所述第一对话内容之前的所有第二对话内容；

根据所述第一对话内容以及所述第二对话内容，通过预设判别生成模型确定对话激励映射函数；

获取所述对话系统的初始状态，将所述初始状态输入至包含初始参数的预设深度学习模型中，以通过所述预设深度学习模型确定与所述初始状态对应的期望状态激励值；

根据所述对话激励映射函数确定与所述初始状态对应的实际状态激励值；

根据所述期望状态激励值以及所述实际状态激励值，确定预设深度学习模型的总损失值；

在所述总损失值未达到预设的收敛条件时，更新迭代所述预设深度学习模型的初始参数，直至所述损失值达到所述预设的收敛条件时，根据收敛之后的所述预设深度学习模型更新所述对话系统。

一种对话系统更新装置，包括：

对话内容获取模块，用于获取对话系统中最近一轮的第一对话内容，以及在所述第一对话内容之前的所有第二对话内容；

对话激励映射函数确定模块，用于根据所述第一对话内容以及所述第二对话内容，通过预设判别生成模型确定对话激励映射函数；

期望状态激励值确定模块，用于获取所述对话系统的初始状态，将所述初始状态输入至包含初始参数的预设深度学习模型中，以通过所述预设深度学习模型确定与所述初始状态对应的期望状态激励值；

实际状态激励值确定模块，用于根据所述对话激励映射函数确定与所述初始状态对应的实际状态激励值；

总损失值确定模块，用于根据所述期望状态激励值以及所述实际状态激励值，确定预设深度学习模型的总损失值；

对话系统更新模块，用于在所述总损失值未达到预设的收敛条件时，更新迭代所述预设深度学习模型的初始参数，直至所述损失值达到所述预设的收敛条件时，根据收敛之后的所述预设深度学习模型更新所述对话系统。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述对话系统更新方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述对话系统更新方法。

上述对话系统更新方法、装置、计算机设备及存储介质，该方法获取对话系统中最近一轮的第一对话内容，以及在所述第一对话内容之前的所有第二对话内容；根据所述第一对话内容以及所述第二对话内容，通过预设判别生成模型确定对话激励映射函数；获取所述对话系统的初始状态，将所述初始状态输入至包含初始参数的预设深度学习模型中，以通过所述预设深度学习模型确定与所述初始状态对应的期望状态激励值；根据所述对话激励映射函数确定与所述初始状态对应的实际状态激励值；根据所述期望状态激励值以及所述实际状态激励值，确定预设深度学习模型的总损失值；在所述总损失值未达到预设的收敛条件时，更新迭代所述预设深度学习模型的初始参数，直至所述损失值达到所述预设的收敛条件时，根据收敛之后的所述预设深度学习模型更新所述对话系统。

本发明通过根据第一对话内容和第二对话内容确定对话激励映射函数，更全面的考虑了历史对话内容，使得生成的对话激励映射函数在确定实际状态激励值时的准确率更高；进一步地，本实施例中还引入了预设深度学习模型，通过预设深度学习模型的训练来更新对话系统，提高了对话系统的更新效率，可以根据实时对话内容进行对话系统的更新，从而使得对话系统输出的回复内容准确率更高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中对话系统更新方法的一应用环境示意图；

图2是本发明一实施例中对话系统更新方法的一流程图；

图3是本发明一实施例中对话系统更新装置的一原理框图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的对话系统更新方法，该对话系统更新方法可应用如图1所示的应用环境中。具体地，该对话系统更新方法应用在对话系统更新系统中，该对话系统更新系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决对话系统更新效率较低，且更新后的对话系统的准确率变低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种对话系统更新方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取对话系统中最近一轮的第一对话内容，以及在所述第一对话内容之前的所有第二对话内容。

可以理解地，第一对话内容即为对话系统中距离当前时间最近的一轮对话内容；第二对话内容为对话系统中除第一对话内容之外的其它对话内容，该第二对话内容的发生时间点在第一对话内容的发生时间点之前。

S20：根据所述第一对话内容以及所述第二对话内容，通过预设判别生成模型确定对话激励映射函数。

可以理解地，本实施例中的预设判别生成模型是结合判别深度学习网络结构和生成式深度学习网络结构为一体的深度学习网络模型，该预设判别生成模型用于根据第一对话内容以及第二对话内容自动学习生成对话激励映射函数。

在一具体实施方式中，步骤S20中，包括：

通过所述预设判别生成模型对所述第一对话内容以及所述第二对话内容进行向量编码处理，得到与所述第一对话内容对应的第一对话向量，以及与所述第二对话内容对应的第二对话向量。

可以理解地，预设判别生成模型中包括向量编码模块，该向量编码模块中包含编码单元以及解码单元，以通过该向量编码模块对第一对话内容以及所有第二对话内容进行向量编码处理，进而得到与第一对话内容对应的第一对话向量，以及与第二对话内容对应的第二对话向量。

根据所述第一对话向量对所述对话系统进行回复内容预测，得到第一预测向量；同时根据所述第二对话向量对所述对话系统进行回复内容预测，得到第二预测向量。

可以理解地，回复内容预测即为对当前一轮对话内容中的问题的答复进行预测。具体地，在通过所述预设判别生成模型对所述第一对话内容以及所述第二对话内容进行向量编码处理，得到与所述第一对话内容对应的第一对话向量，以及与所述第二对话内容对应的第二对话向量之后，根据第一对话向量对所述对话系统进行回复内容预测，得到与回复内容对应的第一预测向量，同时根据第二对话向量对所述对话系统进行回复内容预测，得到与回复内容对应的第二预测向量。可以理解地，若仅通过最近一轮的第一对话内容进行回复内容预测，可能会存在当第一对话内容较少时无法对当前一轮对话内容进行准确预测，进而本实施例中，除了通过第一对话内容以外，还通过引入第二对话内容，以提高对话内容预测的准确性，从而提高对话激励映射函数的准确性。

对所述第一预测向量以及所述第二预测向量进行线性回归分类之后，得到所述对话激励映射函数。

可以理解地，本实施例中的线性回归分类包括线性回归处理以及分类处理。具体地，在根据所述第一对话向量对所述对话系统进行回复内容预测，得到第一预测向量；同时根据所述第二对话向量对所述对话系统进行回复内容预测，得到第二预测向量之后，通过预设判别生成模型中的向量编码模块对第一预测向量以及第二预测向量进行解码处理，并将解码处理后的第一预测向量以及第二预测向量输入至线性回归模块，以提取解码处理后的第一预测向量的第一具体特征以及第二预测向量的第二具体特征，进而通过预设判别生成模型中的分类模块，确定对话激励映射函数。进一步地，该对话激励映射函数可以通过对预测回复对话内容与所有对话内容之间的流畅性，对话轮数和上下文相关性等维度进行确定，也即该对话激励映射函数即用于确定与对话样本对应的激励值。

S30：获取所述对话系统的初始状态，将所述初始状态输入至包含初始参数的预设深度学习模型中，以通过所述预设深度学习模型确定与所述初始状态对应的期望状态激励值。

可以理解地，该初始状态可以随机设定(但需要保证该初始状态不是终止状态，否则当初始状态为终止状态时无法进行步骤S40至S60的步骤)，例如在对所述对话系统进行训练之前可以设定一个对话系统的状态序列，则初始状态即为状态序列中的第一个状态。

具体地，在获取对话系统的初始状态之后，将初始状态输入至包含初始参数的预设深度学习模型中，通过预设深度学习模型以初始状态，模拟执行预设深度学习模型中的所有动作(该动作为生成和客户的对话的动作)，进而可以得到与各动作对应的状态激励值，从而可以自所有状态激励值中选取最大的状态激励值作为期望状态激励值。可以理解地，该期望状态激励值即为以初始状态执行动作后能获得的未来激励的估计值。

S40：根据所述对话激励映射函数确定与所述初始状态对应的实际状态激励值。

可以理解地，实际状态激励值即为通过步骤S20中得到的对话激励映射函数，确定对话系统以初始状态进行对话回复后的回复内容的激励值。

在一实施例中，步骤S40中，包括：

确定与所述初始状态对应的对话生成动作，并通过所述对话系统执行所述第一对话生成动作，得到模拟回复内容；

可以理解地，本实施例中的对话生成动作可以通过自预设深度学习模型中的所有动作中随机选取一个作为对话生成动作，或者可以选取与步骤S30中确定的期望状态激励值对应的动作并记录为对话生成动作。

具体地，在确定与初始状态对应的对话生成动作之后，通过对话系统在初始状态下执行对话生成动作，得到对话系统模拟执行对话生成动作后的模拟回复内容，并且在通过对话系统执行对话生成动作之后，该初始状态即会跳转到下一状态(例如上述说明中指出初始状态为状态序列中的第一个状态，而下一状态即为状态序列中的第二个状态)。

确定所述第一对话内容和所述第二对话内容中是否存在与所述模拟回复内容相似的对话内容；

具体地，在通过所述对话系统执行所述对话生成动作，得到模拟回复内容之后，自第一对话内容和第二对话内容中查询是否存在与模拟回复内容相似的对话内容，例如可以通过相似度算法(例如余弦相似度算法或者欧几里得距离算法等)确定第一对话内容与模拟回复内容之间的第一相似度，以及确定各第二对话内容与模拟回复内容之间的第二相似度，并将第一相似度以及第二相似度均与预设相似度阈值进行比较(预设相似度阈值可以设定为95％，98％等)，进而当第一相似度或者任意一个第二相似度大于或等于预设相似度阈值时，即可确定第一对话内容和第二对话内容中存在与模拟回复内容相似的对话内容；若第一相似度以及所有的第二相似度均小于预设相似度阈值，则可以确定第一对话内容和第二对话内容中不存在与模拟回复内容相似的对话内容。

在所述第一对话内容和所述第二对话内容中不存在与所述模拟回复内容相似的对话内容时，根据所述对话激励映射函数确定所述实际状态激励值。

具体地，在确定所述第一对话内容和所述第二对话内容中是否存在与所述模拟回复内容相似的对话内容之后，若检测到第一相似度以及所有的第二相似度均小于预设相似度阈值，则可以确定第一对话内容和第二对话内容中不存在与模拟回复内容相似的对话内容，此时可以直接通过步骤S20中确定的对话激励映射函数确定对话系统在初始状态下执行对话生成动作之后的实际状态激励值。

在另一实施例中，所述确定所述第一对话内容和所述第二对话内容中是否存在与所述模拟回复内容相似的对话内容之后，还包括：

在所述第一对话内容和所述第二对话内容中存在与所述模拟回复内容相似的对话内容时，将与所述模拟回复内容相同的第一对话内容或者第二对话内容记录为相似对话内容。

具体地，在确定所述第一对话内容和所述第二对话内容中是否存在与所述模拟回复内容相似的对话内容之后，若检测到第一相似度或者任意一个第二相似度大于或等于预设相似度阈值时，则表征第一对话内容和第二对话内容中存在与模拟回复内容相似的对话内容，若此时仅存在第一相似度或者仅存在一个第二相似度大于或等于预设相似度阈值，则将与该第一相似度对应的第一对话内容记录为相似对话内容，或者将与该第二相似度对应的第二对话内容记录为相似对话内容；若此时存在多个第二相似度大于或等于预设相似度阈值，或者存在第一相似度与至少一个第二相似度大于或等于预设相似度阈值，进而可以将相似度最高的第一对话内容或者第二对话内容记录为相似对话内容。

获取与所述相似对话内容对应的历史激励值，以及所述相似对话内容与所述第一对话内容之间的对话轮数差值。

可以理解地，历史激励值即为根据对话激励函数确定相似对话内容的激励值，该历史激励值与相似对话内容关联存储在预设数据库中，进而在确定与模拟回复内容相同的相似对话内容之后，即可直接从预设数据库中获取与相似对话内容关联的历史激励值。对话轮数差值即为相似对话内容的对话轮数与第一对话内容的对话轮数之间的差值，示例性地，假设相似对话内容为第一对话内容的上一轮的第二对话内容，进而可以确定相似对话内容与第一对话内容之间的对话轮数差值为1。

根据所述历史激励值以及所述对话轮数差值，确定所述实际状态激励值。

具体地，在获取与所述相似对话内容对应的历史激励值，以及所述相似对话内容与所述第一对话内容之间的对话轮数差值之后，可以根据历史激励值以及对话轮数差值，确定实际状态激励值。

进一步地，可以通过下述表达式确定实际状态激励值：

R＝r/(1+u)ⁿ)

其中，R为实际状态激励值；r为历史激励值；u对话系统参数，该对话系统参数为任意大于0的实数；n为对话轮数差值。

通过上述表达式确定的实际状态激励值，在参考历史激励值的同时还引入了对话轮数差值，如此可以考虑到距离第一对话内容较远的相似对话内容对当前一轮的对话内容的影响较小，因此通过设定指数函数(也即(1+u)n)的形式，减少距离较远的相似对话内容的历史激励值对本轮的模拟对话内容的激励的影响。

S50：根据所述期望状态激励值以及所述实际状态激励值，确定预设深度学习模型的总损失值；

可以理解地，总损失值即为预设深度学习模型确定期望状态激励值带来的损失值。

在一实施例中，步骤S50中，包括：

确定所述对话系统与所述初始状态对应的下一状态，并将所述初始状态、所述对话生成动作、所述实际状态激励值、所述期望状态激励值以及所述下一状态关联记录为初始状态五元组；

可以理解地，在上述说明中已经指出，在通过对话系统执行对话生成动作之后，该初始状态即会跳转到下一状态(例如上述说明中指出初始状态为状态序列中的第一个状态，而下一状态即为状态序列中的第二个状态)，进而在确定对话系统与初始状态对应的下一状态之后，将初始状态、对话生成动作、实际状态激励值，期望状态激励值以及下一状态关联记录为初始状态五元组。

确定所述下一状态是否为终止状态，在所述下一状态为所述终止状态时，自预设存储空间中选取预设数量的历史状态五元组；

可以理解地，终止状态即表征对话系统对话训练终止的状态；具体地，在确定下一状态是否为终止状态之后，若下一状态为终止状态，则自预设存储空间中通过如随机选取方式选取预设数量的历史状态五元组。其中，预设存储空间为对话系统中的经验回放集合，在该预设存储空间中存储着多个历史状态五元组。进一步地，一个历史状态五元组中包含与该历史状态五元组对应的对话状态(相当于上述初始状态)、生成动作(相当于上述对话生成动作)、实际激励值(相当于实际状态激励值)、期望激励值(相当于期望状态激励值)以及下一对话状态(相当于上述下一状态)。预设数量可以根据具体训练需求进行选取，例如预设数量可以为5个，6个等。

根据所述初始状态五元组以及被选取的各所述历史状态五元组，通过预设损失函数确定所述总损失值。

具体地，在自预设存储空间中选取预设数量的历史状态五元组之后，根据初始状态五元组以及被选取的各历史状态五元组，通过如均方差损失函数确定总损失值。

进一步地，可以通过下述表达式确定总损失值：

其中，L为总损失值；m为历史状态五元组和初始状态五元组的总数量，也即预设数量与1之和；yj为第j个初始状态五元组或者历史状态五元组对应的实际状态激励值(可以理解地，可以将初始状态五元组和历史状态五元组插入对话选取序列中，初始状态五元组以及各历史状态五元组在对话选取序列中均存在一个序列编号，该序列编号即为j)；Qj为第j个初始状态五元组或者历史状态五元组对应的期望状态激励值。

在一实施例中，所述确定所述下一状态是否为终止状态之后，还包括：

在所述下一状态不为所述终止状态时，通过所述预设深度学习模型确定与所述下一状态对应的下一状态激励值；

具体地，在确定下一状态是否为终止状态之后，若确定下一状态不为终止状态，则表征需要继续执行上述步骤对预设深度学习模型进行训练，因此此时需要通过预设深度学习模型确定与下一状态对应的下一状态激励值。

根据所述初始状态五元组、所述下一状态激励值以及被选取的各所述历史状态五元组，确定所述总损失值。

具体地，在所述下一状态不为所述终止状态时，通过所述预设深度学习模型确定与所述下一状态对应的下一状态激励值之后，根据初始状态五元组、下一状态激励值以及被选取的各历史状态五元组，确定总损失值。可以理解地，在确定下一状态不为终止状态时，表征还需要对预设深度学习模型进行迭代更新，且下一次预设深度学习模型的迭代更新要优于本次的迭代更新，因此本实施例中引入下一状态激励值，使得本次训练的总损失值不会达到预设的收敛条件，进而可以继续调整预设深度学习模型的初始参数。

进一步地，可以根据下述表达式确定总损失值：

其中，γ为衰减因子，该衰减因子是预设深度学习模型的参数。为下一状态激励值。

S60：在所述总损失值未达到预设的收敛条件时，更新迭代所述预设深度学习模型的初始参数，直至所述损失值达到所述预设的收敛条件时，根据收敛之后的所述预设深度学习模型更新所述对话系统。

可以理解地，该收敛条件可以为总损失值小于设定阈值的条件，也即在总损失值小于设定阈值时，停止训练；收敛条件还可以为总损失值经过了10000次计算后值为很小且不会再下降的条件，也即总损失值经过10000次计算后值很小且不会下降时，停止训练，根据收敛之后的所述预设深度学习模型更新所述对话系统。

进一步地，根据所述期望状态激励值以及所述实际状态激励值，确定预设深度学习模型的总损失值之后，在总损失值未达到预设的收敛条件时，根据该总损失值调整预深度学习模型的初始参数，并将该初始状态重新输入至调整初始参数后的预设深度学习模型中，以在该初始状态对应的总损失值达到预设的收敛条件时，且初始状态的下一状态不为终止状态时，可以将下一状态输入至该预设深度学习模型中，以根据与该下一状态对应的期望状态激励值以及实际状态激励值，确定与该下一状态对应的总损失值，并在该总损失值未达到预设的收敛条件时，继续调整预设深度学习模型的初始参数。

进一步地，若在该初始状态对应的总损失值达到预设的收敛条件时，且初始状态的下一状态为终止状态时，结束对预设深度学习模型的训练，也即表征预设深度学习模型训练完成，进而根据收敛之后的所述预设深度学习模型更新所述对话系统。

在本实施例中，通过根据第一对话内容和第二对话内容确定对话激励映射函数，更全面的考虑了历史对话内容，使得生成的对话激励映射函数在确定实际状态激励值时的准确率更高；进一步地，本实施例中还引入了预设深度学习模型，通过预设深度学习模型的训练来更新对话系统，提高了对话系统的更新效率，可以根据实时对话内容进行对话系统的更新，从而使得对话系统输出的回复内容准确率更高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种对话系统更新装置，该对话系统更新装置与上述实施例中对话系统更新方法一一对应。如图3所示，该对话系统更新装置包括对话内容获取模块10、对话激励映射函数确定模块20、期望状态激励值确定模块30、实际状态激励值确定模块40、总损失值确定模块50和对话系统更新模块60。各功能模块详细说明如下：

对话内容获取模块10，用于获取对话系统中最近一轮的第一对话内容，以及在所述第一对话内容之前的所有第二对话内容；

对话激励映射函数确定模块20，用于根据所述第一对话内容以及所述第二对话内容，通过预设判别生成模型确定对话激励映射函数；

期望状态激励值确定模块30，用于获取所述对话系统的初始状态，将所述初始状态输入至包含初始参数的预设深度学习模型中，以通过所述预设深度学习模型确定与所述初始状态对应的期望状态激励值；

实际状态激励值确定模块40，用于根据所述对话激励映射函数确定与所述初始状态对应的实际状态激励值；

总损失值确定模块50，用于根据所述期望状态激励值以及所述实际状态激励值，确定预设深度学习模型的总损失值；

对话系统更新模块60，用于在所述总损失值未达到预设的收敛条件时，更新迭代所述预设深度学习模型的初始参数，直至所述损失值达到所述预设的收敛条件时，根据收敛之后的所述预设深度学习模型更新所述对话系统。

优选地，所述对话激励映射函数确定模块20包括：

向量编码单元，用于通过所述预设判别生成模型对所述第一对话内容以及所述第二对话内容进行向量编码处理，得到与所述第一对话内容对应的第一对话向量，以及与所述第二对话内容对应的第二对话向量；

内容预测单元，用于根据所述第一对话向量对所述对话系统进行回复内容预测，得到第一预测向量；同时根据所述第二对话向量对所述对话系统进行回复内容预测，得到第二预测向量；

线性回归分类单元，用于对所述第一预测向量以及所述第二预测向量进行线性回归分类之后，得到所述对话激励映射函数。

优选地，实际状态激励值确定模块40包括：

模拟回复内容生成单元，用于确定与所述初始状态对应的对话生成动作，并通过所述对话系统执行所述对话生成动作，得到模拟回复内容；

对话内容检测单元，用于确定所述第一对话内容和所述第二对话内容中是否存在与所述模拟回复内容相似的对话内容；

第一实际状态激励值确定单元，用于在所述第一对话内容和所述第二对话内容中不存在与所述模拟回复内容相似的对话内容时，根据所述对话激励映射函数确定所述实际状态激励值。

优选地，实际状态激励值确定模块40还包括：

相似对话内容记录单元，用于在所述第一对话内容和所述第二对话内容中存在与所述模拟回复内容相似的对话内容时，将与所述模拟回复内容相同的第一对话内容或者第二对话内容记录为相似对话内容；

参数获取单元，用于获取与所述相似对话内容对应的历史激励值，以及所述相似对话内容与所述第一对话内容之间的对话轮数差值；

第二实际状态激励值确定单元，用于根据所述历史激励值以及所述对话轮数差值，确定所述实际状态激励值。

优选地，总损失值确定模块50包括：

初始状态四元组存储单元，用于确定所述对话系统与所述初始状态对应的下一状态，并将所述初始状态、所述对话生成动作、所述实际状态激励值、所述期望状态激励值以及所述下一状态关联记录为初始状态五元组；

状态四元组选取单元，用于确定所述下一状态是否为终止状态，在所述下一状态为所述终止状态时，自预设存储空间中选取预设数量的历史状态五元组；

第一总损失值确定单元，用于根据所述初始状态五元组以及被选取的各所述历史状态五元组，通过预设损失函数确定所述总损失值。

优选地，总损失值确定模块50还包括：

下一状态激励值确定单元，用于在所述下一状态不为所述终止状态时，通过所述预设深度学习模型确定与所述下一状态对应的下一状态激励值；

第二总损失值确定单元，用于根据所述初始状态五元组、所述下一状态激励值以及被选取的各所述历史状态五元组，确定所述总损失值。

关于对话系统更新装置的具体限定可以参见上文中对于对话系统更新方法的限定，在此不再赘述。上述对话系统更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中对话系统更新方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对话系统更新方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的对话系统更新方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的对话系统更新方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种对话系统更新方法，其特征在于，包括：

在所述总损失值未达到预设的收敛条件时，更新迭代所述预设深度学习模型的初始参数，直至所述损失值达到所述预设的收敛条件时，根据收敛之后的所述预设深度学习模型更新所述对话系统；

所述根据所述对话激励映射函数确定与所述初始状态对应的实际状态激励值，包括：

在所述第一对话内容和所述第二对话内容中不存在与所述模拟回复内容相似的对话内容时，根据所述对话激励映射函数确定所述实际状态激励值；

所述根据所述期望状态激励值以及所述实际状态激励值，确定预设深度学习模型的总损失值，包括：

2.如权利要求1所述的对话系统更新方法，其特征在于，所述根据所述第一对话内容以及所述第二对话内容，通过预设判别生成模型确定对话激励映射函数，包括：

通过所述预设判别生成模型对所述第一对话内容以及所述第二对话内容进行向量编码处理，得到与所述第一对话内容对应的第一对话向量，以及与所述第二对话内容对应的第二对话向量；

根据所述第一对话向量对所述对话系统进行回复内容预测，得到第一预测向量；同时根据所述第二对话向量对所述对话系统进行回复内容预测，得到第二预测向量；

3.如权利要求1所述的对话系统更新方法，其特征在于，所述确定所述第一对话内容和所述第二对话内容中是否存在与所述模拟回复内容相似的对话内容之后，还包括：

在所述第一对话内容和所述第二对话内容中存在与所述模拟回复内容相似的对话内容时，将与所述模拟回复内容相同的第一对话内容或者第二对话内容记录为相似对话内容；

获取与所述相似对话内容对应的历史激励值，以及所述相似对话内容与所述第一对话内容之间的对话轮数差值；

4.如权利要求1所述的对话系统更新方法，其特征在于，所述确定所述下一状态是否为终止状态之后，还包括：

5.一种对话系统更新装置，其特征在于，包括：

对话系统更新模块，用于在所述总损失值未达到预设的收敛条件时，更新迭代所述预设深度学习模型的初始参数，直至所述损失值达到所述预设的收敛条件时，根据收敛之后的所述预设深度学习模型更新所述对话系统；

实际状态激励值确定模块包括：

第一实际状态激励值确定单元，用于在所述第一对话内容和所述第二对话内容中不存在与所述模拟回复内容相似的对话内容时，根据所述对话激励映射函数确定所述实际状态激励值；

总损失值确定模块包括：

6.如权利要求5所述的对话系统更新装置，其特征在于，所述对话激励映射函数确定模块包括：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述对话系统更新方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述对话系统更新方法。