CN113239171A

CN113239171A - 对话管理系统更新方法、装置、计算机设备及存储介质

Info

Publication number: CN113239171A
Application number: CN202110630480.XA
Authority: CN
Inventors: 侯翠琴; 文彬; 李剑锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-08-10
Anticipated expiration: 2041-06-07
Also published as: WO2022257468A1; CN113239171B

Abstract

本发明公开了一种对话管理系统更新方法、装置、计算机设备及存储介质，该方法根据第一对话内容、第一对话状态、第二对话状态以及第二对话内容，通过预设判别生成模型确定对话激励映射函数；根据对话管理系统的初始对话策略函数、预设系统状态序列以及对话激励映射函数，确定预设系统状态序列中各对话状态的状态值函数；根据预设系统状态序列、状态值函数以及对话激励映射函数，确定预设系统状态序列中各对话状态的行为值函数；根据与同一对话状态对应的状态值函数以及行为值函数确定初始对话策略函数是否存在更新，在初始对话策略函数不存在更新时，确定对话管理系统更新完毕。本发明提高了对话管理系统的更新效率以及准确率。

Description

对话管理系统更新方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种对话管理系统更新方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的发展，多轮对话技术广泛应用于不同的应用场景下，例如聊天机器人、智能助手等应用场景。

多轮对话管理系统主要基于检索数据库、意图理解模型、对话生成模型等技术产生对话回复。但是随着时间的推移，多轮对话管理系统的使用过程中数据库内容、意图理解模型以及对话生成模型若更新不及时，可能会影响对话效果。现有技术中，一般采用人工更新方式更新数据库内容，优化意图理解模型或者优化对话生成模型，但是该方式在对话管理系统更新上效率较低，且人工更新方式容易出错，进而可能导致更新后的对话管理系统的准确率变低。

发明内容

本发明实施例提供一种对话管理系统更新方法、装置、计算机设备及存储介质，以解决对话系统更新效率较低，且更新后的对话系统的准确率变低的问题。

一种对话管理系统更新方法，包括：

获取对话管理系统中最近一轮的第一对话内容，以及在所述第一对话内容之前所有第二对话内容；其中，所述第一对话内容关联第一对话状态；一个所述第二对话内容关联一个第二对话状态；

根据所述第一对话内容、第一对话状态、第二对话状态以及第二对话内容，通过预设判别生成模型确定对话激励映射函数；

获取所述对话管理系统的初始对话策略函数以及预设系统状态序列，并根据所述初始对话策略函数、预设系统状态序列以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的状态值函数；所述状态值函数是指通过所述初始对话策略函数在一个对话状态下生成的对话回复内容所对应的激励值；

根据所述预设系统状态序列、状态值函数以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的行为值函数；

根据与同一所述对话状态对应的所述状态值函数以及所述行为值函数确定所述初始对话策略函数是否存在更新，并在所述初始对话策略函数不存在更新时，确定所述对话管理系统更新完毕。

一种对话管理系统更新装置，包括：

对话内容获取模块，用于获取对话管理系统中最近一轮的第一对话内容，以及在所述第一对话内容之前所有第二对话内容；其中，所述第一对话内容关联第一对话状态；一个所述第二对话内容关联一个第二对话状态；

对话激励映射函数确定模块，用于根据所述第一对话内容、第一对话状态、第二对话状态以及第二对话内容，通过预设判别生成模型确定对话激励映射函数；

状态值函数确定模块，用于获取所述对话管理系统的初始对话策略函数以及预设系统状态序列，并根据所述初始对话策略函数、预设系统状态序列以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的状态值函数；所述状态值函数是指通过所述初始对话策略函数在一个对话状态下生成的对话回复内容所对应的激励值；

行为值函数确定模块，用于根据所述预设系统状态序列、状态值函数以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的行为值函数；

系统更新管理模块，用于根据与同一所述对话状态对应的所述状态值函数以及所述行为值函数确定所述初始对话策略函数是否存在更新，并在所述初始对话策略函数不存在更新时，确定所述对话管理系统更新完毕。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述对话管理系统更新方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述对话管理系统更新方法。

上述对话管理系统更新方法、装置、计算机设备及存储介质，通过根据第一对话内容、第一对话状态、第二对话状态以及第二对话内容确定对话激励映射函数，更全面的考虑了历史对话内容，使得生成的对话激励映射函数在确定状态值函数以及行为值函数时准确率更高；进一步地，本实施例通过引入状态值函数以及行为值函数确定初始对话策略函数是否存在更新，能够更全面考虑不同的对话生成动作确定初始对话策略函数是否更新，提高了对话管理系统的更新效率，并且可以根据实时对话内容进行对话管理系统的更新，从而使得对话管理系统的对话策略函数更加准确，使得对话管理系统输出的回复内容准确率更高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中对话管理系统更新方法的一应用环境示意图；

图2是本发明一实施例中对话管理系统更新方法的一流程图；

图3是本发明一实施例中对话管理系统更新装置的一原理框图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的对话管理系统更新方法，该对话管理系统更新方法可应用如图1所示的应用环境中。具体地，该对话管理系统更新方法应用在对话管理系统更新系统中，该对话管理系统更新系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决对话系统更新效率较低，且更新后的对话系统的准确率变低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种对话管理系统更新方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取对话管理系统中最近一轮的第一对话内容，以及在所述第一对话内容之前所有第二对话内容；其中，所述第一对话内容关联第一对话状态；一个所述第二对话内容关联一个第二对话状态；

可以理解地，第一对话内容即为对话系统中距离当前时间最近的一轮对话内容；第二对话内容为对话系统中除第一对话内容之外的其它对话内容，该第二对话内容的发生时间点在第一对话内容的发生时间点之前。第一对话状态指的是发生第一对话内容时对话管理系统的对话管理状态；第二对话状态指的是发生第二对话内容时对话管理系统的对话管理状态；进一步地，第一对话状态和第二对话状态均可以被存储在预设存储数据库中，示例性地，第一对话状态和第二对话状态可以包括如用户意图，用户问题，系统响应动作，系统响应用户问题生成的对话内容等。

S20：根据所述第一对话内容、第一对话状态、第二对话状态以及第二对话内容，通过预设判别生成模型确定对话激励映射函数；

可以理解地，本实施例中的预设判别生成模型是结合判别深度学习网络结构和生成式深度学习网络结构为一体的深度学习网络模型，该预设判别生成模型用于根据第一对话内容、第二对话内容、第一对话状态以及第二对话状态自动学习生成对话激励映射函数。

在一实施例中，步骤S20中，包括：

通过所述预设判别生成模型对所述第一对话内容以及所述第一对话状态进行向量编码处理，得到第一对话向量；同时通过所述预设判别生成模型对所有所述第二对话内容以及与各所述第二对话状态进行向量编码处理，得到第二对话向量；

可以理解地，预设判别生成模型中包括向量编码模块，该向量编码模块中包含编码单元以及解码单元，以通过该向量编码模块第一对话内容以及第一对话状态进行向量编码处理，得到第一对话向量；同时通过该向量编码模块对所有第二对话内容以及与各第二对话内容对应的第二对话状态进行向量编码处理，得到第二对话向量。

根据所述第一对话向量对所述对话管理系统进行回复内容预测，得到第一预测向量；同时根据所述第二对话向量对所述对话管理系统进行回复内容预测，得到第二预测向量；

可以理解地，回复内容预测即为对当前一轮对话内容中的问题的答复进行预测。具体地，在通过所述预设判别生成模型对所述第一对话内容以及所述第一对话状态进行向量编码处理，得到第一对话向量；同时通过所述预设判别生成模型对所有所述第二对话内容以及与各所述第二对话状态进行向量编码处理，得到第二对话向量之后，根据第一对话向量对所述对话系统进行回复内容预测，得到与回复内容对应的第一预测向量，同时根据第二对话向量对所述对话系统进行回复内容预测，得到与回复内容对应的第二预测向量。可以理解地，若仅通过最近一轮的第一对话内容进行回复内容预测，可能会存在当第一对话内容较少时无法对当前一轮对话内容进行准确预测，进而本实施例中，除了通过第一对话内容以外，还通过引入与第一对话内容关联的第一对话状态、第二对话内容以及与第二对话内容关联的第二对话状态，以提高对话内容预测的准确性，从而提高对话激励映射函数的准确性。

对所述第一预测向量以及所述第二预测向量进行线性回归分类之后，得到所述对话激励映射函数。

可以理解地，本实施例中的线性回归分类包括线性回归处理以及分类处理。具体地，在根据所述第一对话向量对所述对话系统进行回复内容预测，得到第一预测向量；同时根据所述第二对话向量对所述对话系统进行回复内容预测，得到第二预测向量之后，通过预设判别生成模型中的向量编码模块对第一预测向量以及第二预测向量进行解码处理，并将解码处理后的第一预测向量以及第二预测向量输入至线性回归模块，以提取解码处理后的第一预测向量的第一具体特征以及第二预测向量的第二具体特征，进而通过预设判别生成模型中的分类模块，确定对话激励映射函数。进一步地，该对话激励映射函数可以通过对预测回复对话内容与所有对话内容之间的流畅性，对话轮数和上下文相关性等维度进行确定，也即该对话激励映射函数即用于确定与对话样本对应的激励值。

S30：获取所述对话管理系统的初始对话策略函数以及预设系统状态序列，并根据所述初始对话策略函数、预设系统状态序列以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的状态值函数；所述状态值函数是指通过所述初始对话策略函数在一个对话状态下生成的对话回复内容所对应的激励值；

可以理解地，预设系统状态序列是指预先设定的包含多个对话管理系统状态的序列。初始化对话策略函数即为对话管理系统生成对话的策略函数，该初始对话策略函数表征了对话状态和对话生成动作之间的映射关系。其中，对话生成动作用于生成第一回复内容。状态值函数表征各对话状态在初始对话策略函数下的未来预测激励，也即状态值函数是指通过所述初始对话策略函数在一个对话状态下生成的对话回复内容(对话回复内容包含了后文中提到的第一回复内容)所对应的激励值。

在一实施例中，步骤S30中，包括：

根据所述初始对话策略函数，确定与所述预设系统状态序列中各对话状态对应的第一对话生成动作，并通过所述对话管理系统执行所述第一对话生成动作，得到与各所述对话状态对应的第一回复内容以及第一状态转换率；

可以理解地，在获取对话管理系统的初始对话策略函数以及预设系统状态序列之后，可以根据初始对话策略函数确定与各对话状态对应的第一对话生成动作，也即可以通过初始对话策略函数映射出与对话状态对应的第一对话生成动作，进而表明本实施例中的第一对话生成动作不是随机选取或者预先设定的。第一状态转换率是指通过对话管理系统执行第一对话生成动作之后，从当前对话状态转到下一对话状态的概率。

具体地，在获取对话管理系统的初始对话策略函数以及预设系统状态序列之后，根据初始对话策略函数映射出与各对话状态对应的第一对话生成动作，并在通过对话管理系统执行第一对话生成动作之后，得到对话管理系统在各对话状态下执行对应的第一对话生成动作之后生成的第一回复内容，以及从当前对话状态转到下一对话状态的转换概率，也即第一状态转换率。

确定所述第一对话内容和所述第二对话内容中是否存在与所述第一回复内容相同的对话内容；

具体地，在通过所述对话管理系统执行第一对话生成动作，得到与各对话状态对应的第一回复内容以及第一状态转换率之后，自第一对话内容和第二对话内容中查询是否存在与第一回复内容相似的对话内容，例如可以通过相似度算法(例如余弦相似度算法或者欧几里得距离算法等)确定第一对话内容与第一回复内容之间的第一相似度，以及确定各第二对话内容与第一回复内容之间的第二相似度，并将第一相似度以及第二相似度均与预设相似度阈值进行比较(预设相似度阈值可以设定为95％，98％等)，进而当第一相似度或者任意一个第二相似度大于或等于预设相似度阈值时，即可确定第一对话内容和第二对话内容中存在与第一回复内容相似的对话内容；若第一相似度以及所有的第二相似度均小于预设相似度阈值，则可以确定第一对话内容和第二对话内容中不存在与第一回复内容相似的对话内容。

在所述第一对话内容和所述第二对话内容中不存在与所述第一回复内容相同的对话内容时，根据所述对话激励映射函数确定与各所述对话状态对应的第一状态激励值；

具体地，在确定所述第一对话内容和所述第二对话内容中是否存在与所述第一回复内容相似的对话内容之后，若检测到第一相似度以及所有的第二相似度均小于预设相似度阈值，则可以确定第一对话内容和第二对话内容中不存在与第一回复内容相似的对话内容，此时可以直接通过步骤S20中确定的对话激励映射函数确定对话系统在各对话状态下执行第一对话生成动作之后的第一状态激励值。

根据与各所述对话状态对应的所述第一状态转换率以及所述第一状态激励值，确定与各对话状态对应的状态值函数。

具体地，在根据所述对话激励映射函数确定与各所述对话状态对应的第一状态激励值之后，根据与各所述对话状态对应的所述第一状态转换率以及所述第一状态激励值，确定与各对话状态对应的状态值函数。

进一步地，可以根据下述表达式确定状态值函数：

其中，V(s)是指对话状态为s时的状态值函数；p(s',r|s,π(a|s))是指对话状态为s在初始对话策略π(a|s)下转换到对话状态s'的第一状态转换率；r是指对话状态为s时的第一状态激励值；γ为对话管理系统的衰减因子，该衰减因子可以任意设定，示例性地，衰减因子可以设定为0.9；V(s')是指对话状态s'的状态值函数；S为预设系统状态序列。

在一实施例中，所述确定所述第一对话内容和所述第二对话内容中是否存在与所述第一回复内容相同的对话内容之后，还包括：

在所述第一对话内容和所述第二对话内容中存在与所述第一回复内容相同的对话内容时，将与所述第一回复内容相同的第一对话内容或者第二对话内容记录为第一相似内容；

具体地，在确定所述第一对话内容和所述第二对话内容中是否存在与所述第一回复内容相同的对话内容之后，若检测到第一相似度或者任意一个第二相似度大于或等于预设相似度阈值时，则表征第一对话内容和第二对话内容中存在与第一回复内容相似的对话内容，若此时仅存在第一相似度或者仅存在一个第二相似度大于或等于预设相似度阈值，则将与该第一相似度对应的第一对话内容记录为第一相似内容，或者将与该第二相似度对应的第二对话内容记录为第一相似内容；若此时存在多个第二相似度大于或等于预设相似度阈值，或者存在第一相似度与至少一个第二相似度大于或等于预设相似度阈值，进而可以将相似度最高的第一对话内容或者第二对话内容记录为第一相似内容。

获取与所述第一相似内容对应的第一历史激励值，以及所述第一相似内容与所述第一对话内容之间的第一对话轮数差值；

可以理解地，第一历史激励值即为根据对话激励函数确定第一相似内容的激励值，该历史激励值与第一相似内容关联存储在预设数据库中，进而在确定与第一回复内容相同的第一相似内容之后，即可直接从预设数据库中获取与第一相似内容关联的第一历史激励值。对话轮数差值即为第一相似内容的对话轮数与第一对话内容的对话轮数之间的差值，示例性地，假设第一相似内容为第一对话内容的上一轮的第二对话内容，进而可以确定第一相似内容与第一对话内容之间的对话轮数差值为1。

根据所述第一历史激励值以及所述第一对话轮数差值，确定第二状态激励值，并根据所述第一状态转换率以及所述第二状态激励值，确定与各对话状态对应的状态值函数。

具体地，获取与所述第一相似内容对应的第一历史激励值，以及所述第一相似内容与所述第一对话内容之间的第一对话轮数差值之后，可以根据所述第一历史激励值以及所述第一对话轮数差值，确定第二状态激励值，并根据所述第一状态转换率以及所述第二状态激励值，确定与各对话状态对应的状态值函数。

进一步地，可以通过下述表达式确定第二状态激励值：

R＝r/((1+u)ⁿ)

其中，R为第二状态激励值；r为第一历史激励值；u对话系统参数，该对话系统参数为任意大于0的实数；n为第一对话轮数差值。

S40：根据所述预设系统状态序列、状态值函数以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的行为值函数；

可以理解地，行为值函数表征各对话状态在不同于第一对话生成动作下的激励值。

在一实施例中，所述根据所述预设系统状态序列、状态值函数以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的行为值函数，包括：

获取与各所述对话状态对应的第二对话生成动作，并通过所述对话管理系统执行所述第二对话生成动作，得到与各所述对话状态对应的第二回复内容以及第二状态转换率；

可以理解地，第二对话生成动作是随机选取的对话生成动作，且该第二对话生成动作与第一对话生成动作不同。具体地，在获取与各对话状态对应的第二对话生成动作之后，通过对话管理系统执行第二对话生成动作，得到对话管理系统在各对话状态下执行对应的第二对话生成动作之后生成的第二回复内容，以及从当前对话状态转到下一对话状态的转换概率，也即第二状态转换率。

确定所述第一对话内容和所述第二对话内容中是否存在与所述第二回复内容相同的对话内容；

具体地，在通过所述对话管理系统执行所述第二对话生成动作，得到与各所述对话状态对应的第二回复内容以及第二状态转换率之后，自第一对话内容和第二对话内容中查询是否存在与第二回复内容相似的对话内容，例如可以通过相似度算法(例如余弦相似度算法或者欧几里得距离算法等)确定第一对话内容与第二回复内容之间的第一相似度，以及确定各第二对话内容与第二回复内容之间的第二相似度，并将第一相似度以及第二相似度均与预设相似度阈值进行比较(预设相似度阈值可以设定为95％，98％等)，进而当第一相似度或者任意一个第二相似度大于或等于预设相似度阈值时，即可确定第一对话内容和第二对话内容中存在与第二回复内容相似的对话内容；若第一相似度以及所有的第二相似度均小于预设相似度阈值，则可以确定第一对话内容和第二对话内容中不存在与第二回复内容相似的对话内容。

在所述第一对话内容和所述第二对话内容中不存在与所述第二回复内容相同的对话内容时，根据所述对话激励映射函数确定与各所述对话状态对应的第三状态激励值；

具体地，在确定所述第一对话内容和所述第二对话内容中是否存在与所述第二回复内容相似的对话内容之后，若检测到第一相似度以及所有的第二相似度均小于预设相似度阈值，则可以确定第一对话内容和第二对话内容中不存在与第二回复内容相似的对话内容，此时可以直接通过步骤S20中确定的对话激励映射函数确定对话系统在各对话状态下执行第二对话生成动作之后的第三状态激励值。

根据与各所述对话状态对应的所述第二状态转换率以及所述第三状态激励值，确定与各对话状态对应的行为值函数。

具体地，在根据所述对话激励映射函数确定与各所述对话状态对应的第三状态激励值之后，根据与各所述对话状态对应的所述第二状态转换率以及所述第三状态激励值，确定与各对话状态对应的行为值函数。

进一步地，可以根据下述表达式确定行为值函数：

其中，Q(s,a')是指在对话状态为s下执行第二对话生成动作a'的行为值函数；p(s',r|s,a')是指对话状态为s在第二对话生成动作a'下转换到对话状态s'的第二状态转换率；r'是指对话状态为s下执行第二对话生成动作a'的第三状态激励值；γ为对话管理系统的衰减因子，该衰减因子可以任意设定，示例性地，衰减因子可以设定为0.9；V(s')是指对话状态s'的状态值函数；S为预设系统状态序列。

在一实施例中，所述确定所述第一对话内容和所述第二对话内容中是否存在与所述第二回复内容相同的对话内容之后，还包括：

在所述第一对话内容和所述第二对话内容中存在与所述第二回复内容相同的对话内容时，将与所述第二回复内容相同的第一对话内容或者第二对话内容记录为第二相似内容；

具体地，在确定所述第一对话内容和所述第二对话内容中是否存在与所述第二回复内容相同的对话内容之后，若检测到第一相似度或者任意一个第二相似度大于或等于预设相似度阈值时，则表征第一对话内容和第二对话内容中存在与第二回复内容相似的对话内容，若此时仅存在第一相似度或者仅存在一个第二相似度大于或等于预设相似度阈值，则将与该第一相似度对应的第一对话内容记录为第二相似内容，或者将与该第二相似度对应的第二对话内容记录为第二相似内容；若此时存在多个第二相似度大于或等于预设相似度阈值，或者存在第一相似度与至少一个第二相似度大于或等于预设相似度阈值，进而可以将相似度最高的第一对话内容或者第二对话内容记录为第二相似内容。

获取与所述第二相似内容对应的第二历史激励值，以及所述第二相似内容与所述第一对话内容之间的第二对话轮数差值；

可以理解地，第二历史激励值即为根据对话激励函数确定第二相似内容的激励值，该历史激励值与第二相似内容关联存储在预设数据库中，进而在确定与第二回复内容相同的第二相似内容之后，即可直接从预设数据库中获取与第二相似内容关联的第二历史激励值。对话轮数差值即为第二相似内容的对话轮数与第一对话内容的对话轮数之间的差值，示例性地，假设第二相似内容为第一对话内容的上一轮的第二对话内容，进而可以确定第二相似内容与第一对话内容之间的对话轮数差值为1。

根据所述第二历史激励值以及所述第二对话轮数差值，确定第四状态激励值，并根据所述第二状态转换率以及所述第四状态激励值，确定与各对话状态对应的行为值函数。

具体地，获取与所述第二相似内容对应的第二历史激励值，以及所述第二相似内容与所述第一对话内容之间的第二对话轮数差值之后，可以根据所述第二历史激励值以及所述第二对话轮数差值，也即可以根据上述步骤中的确定第二状态激励值的表达式确定第四状态激励值，并根据所述第二状态转换率以及所述第四状态激励值，确定与各对话状态对应的状态值函数。

S50：根据与同一所述对话状态对应的所述状态值函数以及所述行为值函数确定所述初始对话策略函数是否存在更新，并在所述初始对话策略函数不存在更新时，确定所述对话管理系统更新完毕。

具体地，在确定与各对话状态对应的状态值函数以及行为值函数之后，根据与同一对话状态对应的状态值函数以及行为值函数确定初始对话策略函数是否存在更新，也即确定同一对话状态对应的行为函数值的值是否大于或等于状态值函数的值；若同一对话状态对应的行为函数值的值大于或等于状态值函数的值，表征采用确定行为函数值的第二对话生成动作，优于确定状态值函数的第一对话生成动作，也即在同一对话状态下采用第二对话生成动作的对话策略函数，优于采用第一对话生成动作的对话策略函数，因此对初始对话策略函数进行更新；若同一对话状态对应的行为函数值的值小于状态值函数的值，表征采用确定状态值函数的第一对话生成动作，优于确定行为函数值的第二对话生成动作，也即在同一对话状态下采用第一对话生成动作的对话策略函数，优于采用第二对话生成动作的对话策略函数，因此保持初始对话策略函数不变。进一步地，在预设系统状态序列中的各对话状态均确定完所述初始对话策略函数不存在更新时，确定所述对话管理系统更新完毕。

在本实施例中，通过根据第一对话内容、第一对话状态、第二对话状态以及第二对话内容确定对话激励映射函数，更全面的考虑了历史对话内容，使得生成的对话激励映射函数在确定状态值函数以及行为值函数时准确率更高；进一步地，本实施例通过引入状态值函数以及行为值函数确定初始对话策略函数是否存在更新，能够更全面考虑不同的对话生成动作确定初始对话策略函数是否更新，提高了对话管理系统的更新效率，并且可以根据实时对话内容进行对话管理系统的更新，从而使得对话管理系统的对话策略函数更加准确，使得对话管理系统输出的回复内容准确率更高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种对话管理系统更新装置，该对话管理系统更新装置与上述实施例中对话管理系统更新方法一一对应。如图3所示，该对话管理系统更新装置包括对话内容获取模块10、对话激励映射函数确定模块20、状态值函数确定模块30、行为值函数确定模块40和系统更新管理模块50。各功能模块详细说明如下：

对话内容获取模块10，用于获取对话管理系统中最近一轮的第一对话内容，以及在所述第一对话内容之前所有第二对话内容；其中，所述第一对话内容关联第一对话状态；一个所述第二对话内容关联一个第二对话状态；

对话激励映射函数确定模块20，用于根据所述第一对话内容、第一对话状态、第二对话状态以及第二对话内容，通过预设判别生成模型确定对话激励映射函数；

状态值函数确定模块30，用于获取所述对话管理系统的初始对话策略函数以及预设系统状态序列，并根据所述初始对话策略函数、预设系统状态序列以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的状态值函数；所述状态值函数是指通过所述初始对话策略函数在一个对话状态下生成的对话回复内容所对应的激励值；

行为值函数确定模块40，用于根据所述预设系统状态序列、状态值函数以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的行为值函数；

系统更新管理模块50，用于根据与同一所述对话状态对应的所述状态值函数以及所述行为值函数确定所述初始对话策略函数是否存在更新，并在所述初始对话策略函数不存在更新时，确定所述对话管理系统更新完毕。

优选地，对话激励映射函数确定模块20包括：

向量编码单元，用于通过所述预设判别生成模型对所述第一对话内容以及所述第一对话状态进行向量编码处理，得到第一对话向量；同时通过所述预设判别生成模型对所有所述第二对话内容以及与各所述第二对话状态进行向量编码处理，得到第二对话向量；

内容预测单元，用于根据所述第一对话向量对所述对话管理系统进行回复内容预测，得到第一预测向量；同时根据所述第二对话向量对所述对话管理系统进行回复内容预测，得到第二预测向量；

线性回归分类单元，用于对所述第一预测向量以及所述第二预测向量进行线性回归分类之后，得到所述对话激励映射函数。

优选地，状态值函数确定模块30包括：

第一对话动作执行单元，用于根据所述初始对话策略函数，确定与所述预设系统状态序列中各对话状态对应的第一对话生成动作，并通过所述对话管理系统执行所述第一对话生成动作，得到与各所述对话状态对应的第一回复内容以及第一状态转换率；

第一对话内容比较单元，用于确定所述第一对话内容和所述第二对话内容中是否存在与所述第一回复内容相同的对话内容；

第一状态激励值确定单元，用于在所述第一对话内容和所述第二对话内容中不存在与所述第一回复内容相同的对话内容时，根据所述对话激励映射函数确定与各所述对话状态对应的第一状态激励值；

第一状态值函数确定单元，用于根据与各所述对话状态对应的所述第一状态转换率以及所述第一状态激励值，确定与各对话状态对应的状态值函数。

优选地，状态值函数确定模块30还包括：

第一相似内容记录单元，用于在所述第一对话内容和所述第二对话内容中存在与所述第一回复内容相同的对话内容时，将与所述第一回复内容相同的第一对话内容或者第二对话内容记录为第一相似内容；

第一参数获取单元，用于获取与所述第一相似内容对应的第一历史激励值，以及所述第一相似内容与所述第一对话内容之间的第一对话轮数差值；

第二状态值函数确定单元，用于根据所述第一历史激励值以及所述第一对话轮数差值，确定第二状态激励值，并根据所述第一状态转换率以及所述第二状态激励值，确定与各对话状态对应的状态值函数。

优选地，行为值函数确定模块40包括：

第二对话动作执行单元，用于获取与各所述对话状态对应的第二对话生成动作，并通过所述对话管理系统执行所述第二对话生成动作，得到与各所述对话状态对应的第二回复内容以及第二状态转换率；

第二对话内容比较单元，用于确定所述第一对话内容和所述第二对话内容中是否存在与所述第二回复内容相同的对话内容；

第一状态激励值确定单元，用于在所述第一对话内容和所述第二对话内容中不存在与所述第二回复内容相同的对话内容时，根据所述对话激励映射函数确定与各所述对话状态对应的第三状态激励值；

第一行为值函数确定单元，用于根据与各所述对话状态对应的所述第二状态转换率以及所述第三状态激励值，确定与各对话状态对应的行为值函数。

优选地，行为值函数确定模块40还包括：

第二相似内容记录单元，用于在所述第一对话内容和所述第二对话内容中存在与所述第二回复内容相同的对话内容时，将与所述第二回复内容相同的第一对话内容或者第二对话内容记录为第二相似内容；

第二参数获取单元，用于获取与所述第二相似内容对应的第二历史激励值，以及所述第二相似内容与所述第一对话内容之间的第二对话轮数差值；

第二行为值函数确定单元，用于根据所述第二历史激励值以及所述第二对话轮数差值，确定第四状态激励值，并根据所述第二状态转换率以及所述第四状态激励值，确定与各对话状态对应的行为值函数。

优选地，系统更新管理模块50包括：

更新条件检测单元，用于根据与同一所述对话状态对应的所述状态值函数以及所述行为值函数确定是否满足更新条件；所述更新条件是指同一所述对话状态对应的所述行为值函数的值是否大于或等于所述状态值函数的值；

第一对话策略函数更新单元，用于在满足所述更新条件时，确定所述对话策略函数存在更新；

第二对话策略函数更新单元，用于在不满足所述更新条件时，确定所述对话策略函数不存在更新。

关于对话管理系统更新装置的具体限定可以参见上文中对于对话管理系统更新方法的限定，在此不再赘述。上述对话管理系统更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中对话管理系统更新方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对话管理系统更新方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中对话管理系统更新方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中对话管理系统更新方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种对话管理系统更新方法，其特征在于，包括：

获取所述对话管理系统的初始对话策略函数以及预设系统状态序列，并根据所述初始对话策略函数、预设系统状态序列以及所述对话激励映射函数，确定所述预设系统状态序列中每一对话状态的状态值函数；所述状态值函数是指通过所述初始对话策略函数在一个对话状态下生成的对话回复内容所对应的激励值；

2.如权利要求1所述的对话管理系统更新方法，其特征在于，所述根据所述第一对话内容以及所述第二对话内容，通过预设判别生成模型确定对话激励映射函数，包括：

3.如权利要求1所述的对话管理系统更新方法，其特征在于，所述根据所述初始对话策略函数、预设系统状态序列以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的状态值函数，包括：

4.如权利要求3所述的对话管理系统更新方法，其特征在于，所述确定所述第一对话内容和所述第二对话内容中是否存在与所述第一回复内容相同的对话内容之后，还包括：

5.如权利要求3所述的对话管理系统更新方法，其特征在于，所述根据所述预设系统状态序列、状态值函数以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的行为值函数，包括：

6.如权利要求5所述的对话管理系统更新方法，其特征在于，所述确定所述第一对话内容和所述第二对话内容中是否存在与所述第二回复内容相同的对话内容之后，还包括：

7.如权利要求1所述的对话管理系统更新方法，其特征在于，所述根据与同一所述对话状态对应的所述状态值函数以及所述行为值函数确定所述初始对话策略函数是否存在更新，包括：

根据与同一所述对话状态对应的所述状态值函数以及所述行为值函数确定是否满足更新条件；所述更新条件是指同一所述对话状态对应的所述行为值函数的值是否大于或等于所述状态值函数的值；

在满足所述更新条件时，确定所述对话策略函数存在更新；

在不满足所述更新条件时，确定所述对话策略函数不存在更新。

8.一种对话管理系统更新装置，其特征在于，包括：

状态值函数确定模块，用于获取所述对话管理系统的初始对话策略函数以及预设系统状态序列，并根据所述初始对话策略函数、预设系统状态序列以及所述对话激励映射函数，确定所述预设系统状态序列中各对话状态的状态值函数；所述状态值函数是指通过所述初始对话策略函数在一个对话状态下生成的回复内容所对应的激励值；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述对话管理系统更新方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述对话管理系统更新方法。