CN116991982B

CN116991982B - 基于人工智能的交互式对话方法、装置、设备及存储介质

Info

Publication number: CN116991982B
Application number: CN202311257591.6A
Authority: CN
Inventors: 罗雄兰; 吴远辉; 吴远新; 吴天圣; 吴蕊圣; 吴思圣; 吴心圣
Original assignee: Shenzhen Tianfuli Information Technology Co ltd
Current assignee: Shenzhen Tianfuli Information Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-02-09
Anticipated expiration: 2043-09-27
Also published as: CN116991982A

Abstract

本发明涉及计算机技术领域，公开了一种基于人工智能的交互式对话方法、装置、设备及存储介质。所述基于人工智能的交互式对话方法包括：获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，并获取用户与自然语言理解模型之间的历史对话和目标对话；将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作。本发明实现对话系统的动态优化，使其在处理复杂场景中更具适应性和灵活性，从而提高了对话系统的可用性。

Description

基于人工智能的交互式对话方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于人工智能的交互式对话方法、装置、设备及存储介质。

背景技术

自然语言处理（NLP）和深度学习是构建对话系统，特别是聊天机器人的核心技术。它们可以解析用户的输入，理解语境和情感，从而为机器人生成合适的响应。

然而，传统的对话系统通常固定且难以进行动态优化。它们趋向于依赖预定的脚本和预设的情境，因此在处理复杂、多变或不确定性场景的对话时往往表现出困惑或者无法正常回应。这一限制制约了传统对话系统的广泛应用，特别是在需要与用户进行深层交互或者处理复杂场景的应用中。

此外，传统对话系统在处理对话时的反馈机制有限，这影响了它们对用户输入逻辑的敏锐度和正确反馈的准确度。尽管机器学习和深度学习已经赋予对话系统一定的理解和生成复杂回应的能力，但怎样有效利用这些技术实现优化策略生成，以满足不断变化的对话需求，仍然是目前研究的挑战。

发明内容

本发明提供了一种基于人工智能的交互式对话方法、装置、设备及存储介质，用于解决传统的对话系统通常无法进行动态优化，在处理复杂对话或应对不确定性场景时通常存在困难的技术问题。

本发明第一方面提供了一种基于人工智能的交互式对话方法，所述基于人工智能的交互式对话方法包括：

获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，并获取用户与自然语言理解模型之间的历史对话和目标对话；其中，所述目标对话是基于用户的角色信息和历史对话生成的；

将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作；其中，所述初步回复动作用于表征对所述对话语句作出回复的内部表示；

将所述初步回复动作输入到训练后的推理对话模型，生成候选回复集，并将所述候选回复集中各个候选回复进行表征和抽象表示，得到各个候选回复对应的候选回复动作；其中，所述推理对话模型经过提前训练得到；

通过预设的归一化算法对各个候选回复动作进行归一化处理，得到各个候选回复动作所属的类别，根据各个所述候选回复动作所属的类别生成对应的候选回复类别的概率分布数据，将所述候选回复类别的概率分布数据作为优化策略指标；

基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句；其中，所述回复语句是与所述自然语言理解模型的角色信息相匹配的语句。

可选的，在本发明第一方面的第一种实现方式中，所述获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，包括：

获取用户输入的对话语句，通过预设的语料库对所述对话语句进行分词处理，得到对话语句中每个汉字对应的标签；其中，所述预设的语料库中提前存储有每个汉字对应的标签；

通过训练好的字向量模型将对话语句中的每个汉字对应的标签转化为对应的固定长度的向量，得到对话语句中的每个汉字标签对应的字向量；其中，所述字向量模型经过提前训练得到；

将对话语句中的每个汉字对应的字向量分别输入至训练后的自然语言理解模型进行预测，得到对话语句的解析结构；其中，所述自然语言理解模型至少包括递归神经网络模型、双向长短期记忆模型、上下文深度双向自编码器中的一种；

基于所述对话语句的解析结构，将对话语句的语义单元以及各个语义单元之间的逻辑关系进行抽取，得到对话语句的逻辑表示。

可选的，在本发明第一方面的第二种实现方式中，所述基于所述对话语句的解析结构，将对话语句的语义单元以及各个语义单元之间的逻辑关系进行抽取，得到对话语句的逻辑表示，包括：

识别对话语句中的主体、对象以及对话语句的语义单元以及各个语义单元之间的逻辑关系，并通过预训练的关系抽取模型确定所述主体与所述对象之间的实体关系；其中，所述关系抽取模型至少包括Transformer-based模型、Spacy，Stanford NLP，BERT中的一种；

基于所述主体与所述对象之间的实体关系，创建对话语句的逻辑表示；其中，所述对话语句的逻辑表示至少包括主体-动词-对象的结构。

可选的，在本发明第一方面的第三种实现方式中，所述将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作，包括：

通过预置的词嵌入模型将历史对话和目标对话转换为对应的字向量；

通过三元组编码技术对所述逻辑表示进行转换处理，得到转换处理后的逻辑表示；

将所述历史对话和目标对话对应的字向量和所述转换处理后的逻辑表示分别输入至训练后的策略生成模型中进行预测，得到策略生成模型针对所述对话语句生成的初步回复动作；其中，所述初步回复动作用于表征对所述对话语句作出回复的内部表示。

可选的，在本发明第一方面的第四种实现方式中，所述推理对话模型的训练过程，包括：

获取训练样本，并对所述训练样本进行预处理；其中，所述训练样本包括机器人的角色信息、用户的角色信息、用户与机器人之间的历史对话以及机器人的样本回复语句；所述的预处理至少包括对训练样本进行清洗，词归一化，去除停用词；

通过预训练的BERT模型或Transformer模型对训练样本进行编码；

将编码后的训练文本输入到一个基于Transformer的序列到序列模型中；

利用基于Transformer的序列到序列模型生成对话回复；其中，所述基于Transformer的序列到序列模型生成对话回复至少包括利用贪婪搜索或束搜索的算法进行生成对话回复；

通过将生成的对话回复与机器人的样本回复语句进行差异比对，并通过反向传播和梯度下降对误差函数计算，得到计算结果，根据所述计算结果对基于Transformer的序列到序列模型的参数进行更新，得到训练后的所述推理对话模型。

可选的，在本发明第一方面的第五种实现方式中，所述策略生成模型的训练过程，包括：

获取机器学习分类器的离散参数取值集合；其中，所述离散参数取值集合至少包括神经网络的深度、激活函数类型、学习率参数；

根据所述离散参数取值集合中的第一参数取值和第一样本集，训练与第一参数取值和第一样本集对应的第一策略生成模型，并逐一计算所述第一策略生成模型的识别正确率；

根据计算得到的各个识别正确率，选取出最高的识别正确率，得到第一识别正确率，并记录所述第一识别正确率对应的参数取值和样本集，得到第一最优参数取值和第一最优样本集，基于所述第一最优参数取值和所述第一最优样本集，构建第二策略生成模型；

基于所述第一最优参数取值和所述第一最优样本集，设定一个离散参数取值扩展集合；

根据所述离散参数取值扩展集合中的第二参数取值和第二样本集，训练第二策略生成模型，并逐一计算所述第二策略生成模型的识别正确率；

从计算得到的所述第二策略生成模型的识别正确率中选取最高的识别正确率，得到第二识别正确率，记录所述第二识别正确率对应的参数取值和样本集，得到第二最优参数取值和第二最优样本集；

将记录的所述第二最优参数取值和所述第二最优样本集输入预置的BERT模型进行预训练；预训练完成后，将BERT模型作为策略生成模型的编码器，得到训练后的策略生成模型；其中，所述编码器采用辅助动态规划或者强化学习进行全局最优解码，所述全局最优解码中的损失函数包括预测对话概率分布的损失以及对话连贯性剖析和主题一致性因素。

本发明第二方面提供了一种基于人工智能的交互式对话装置，所述基于人工智能的交互式对话装置包括：

获取模块，用于获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，并获取用户与自然语言理解模型之间的历史对话和目标对话；其中，所述目标对话是基于用户的角色信息和历史对话生成的；

第一处理模块，用于将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作；其中，所述初步回复动作用于表征对所述对话语句作出回复的内部表示；

第二处理模块，用于将所述初步回复动作输入到训练后的推理对话模型，生成候选回复集，并将所述候选回复集中各个候选回复进行表征和抽象表示，得到各个候选回复对应的候选回复动作；其中，所述推理对话模型经过提前训练得到；

第三处理模块，用于通过预设的归一化算法对各个候选回复动作进行归一化处理，得到各个候选回复动作所属的类别，根据各个所述候选回复动作所属的类别生成对应的候选回复类别的概率分布数据，将所述候选回复类别的概率分布数据作为优化策略指标；

优化模块，用于基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句；其中，所述回复语句是与所述自然语言理解模型的角色信息相匹配的语句。

本发明第三方面提供了一种基于人工智能的交互式对话设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于人工智能的交互式对话设备执行上述的基于人工智能的交互式对话方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于人工智能的交互式对话方法。

本发明提供的技术方案中，有益效果：本发明提供的一种基于人工智能的交互式对话方法、装置、设备及存储介质，通过获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，并获取用户与自然语言理解模型之间的历史对话和目标对话；将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作；将所述初步回复动作输入到训练后的推理对话模型，生成候选回复集，并将所述候选回复集中各个候选回复进行表征和抽象表示，得到各个候选回复对应的候选回复动作；通过预设的归一化算法对各个候选回复动作进行归一化处理，得到各个候选回复动作所属的类别，根据各个所述候选回复动作所属的类别生成对应的候选回复类别的概率分布数据，将所述候选回复类别的概率分布数据作为优化策略指标；基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句。本发明运用自然语言理解模型对用户输入进行解析，能在大程度上理解用户的意图，提高了对话系统的交互效果。通过收集并利用用户的历史对话记录，对话系统能更加准确地理解并回应用户的需求，提高了个性化服务的能力。收集并处理候选回复动作，然后通过优化的策略生成模型，能够生成更加精确和有用的回应，提高了对话系统的效率和用户满意度。本发明能实现对话系统的动态优化，使其在处理复杂场景中更具适应性和灵活性，从而提高了对话系统的可用性。

附图说明

图1为本发明实施例中基于人工智能的交互式对话方法的一个实施例示意图；

图2为本发明实施例中基于人工智能的交互式对话装置的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于人工智能的交互式对话方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于人工智能的交互式对话方法的一个实施例包括：

步骤101、获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，并获取用户与自然语言理解模型之间的历史对话和目标对话；其中，所述目标对话是基于用户的角色信息和历史对话生成的；

可以理解的是，本发明的执行主体可以为基于人工智能的交互式对话装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，以下是本实施的具体描述：

步骤一：获取用户输入的对话语句；

首先，建立一个用户界面(UI)，这可以是一个聊天窗口，语音识别接口，或其他类型的输入接口。当用户进行操作时，输入数据会被收入系统。

步骤二：解析用户输入，得到逻辑表示；

接下来，上述输入数据被送入训练过的自然语言理解模型(NLU)。NLU模型通常基于深度学习架构，例如循环神经网络（RNNs）或长短期记忆网络（LSTMs）。自然语言理解模型能够识别用户输入的关键部分，比如实体（用户正在讨论的具体事物）、意图（用户希望达成的目标）和用户表达方式的情感色彩。关键部分的元素被提取出来，编译为一个逻辑格式，就是用户输入的逻辑表示。

步骤三：获取用户与模型间的历史和目标对话；

通过数据库持续对用户与模型间的对话历史进行追踪和存储，记录历史的全部或部分会话。基于用户的角色信息（例如年龄、性别、个人喜好等）以及这些历史会话，生成目标对话。

步骤102、将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作；其中，所述初步回复动作用于表征对所述对话语句作出回复的内部表示；

具体的，以下是本实施的具体描述：

首先获取三个类型的信息:

逻辑表示：如知识图表、数据库查询结果或其他形式的结构化信息，所述结构化信息用于提供有关对话上下文的重要信息或事实；

历史对话：包括过去的对话语句和相应的回复，历史对话用于揭示对话的上下文和意图；

目标对话：是当前的待回应的对话语句。

数据预处理：对上述的三类信息进行预处理以符合模型输入的格式需求。需要将文本信息转换为向量表示、序列化及编码结构化信息或者切分长对话等。

输入模型：对上述的三类信息经过预处理之后，这些信息被输入已经训练好的策略生成模型。策略生成模型根据学到的对话策略和语言模型，处理这些信息，并最终生成一系列具有概率分布的回复候选。

初步回复动作：所述初步回复动作为对话回复的内部表示，比如，词汇、词组或句子等级别的token序列，也包括潜在的对话动作标签（如问询、证实、建议等）。

步骤103、将所述初步回复动作输入到训练后的推理对话模型，生成候选回复集，并将所述候选回复集中各个候选回复进行表征和抽象表示，得到各个候选回复对应的候选回复动作；其中，所述推理对话模型经过提前训练得到；

具体的，以下是本实施的具体描述：

评估模型：训练评估模型，所述评估模型基于一些预定的标准对候选回复进行评分。例如，所述评估模型基于上下文适应性、对话策略的符合程度及语言流畅性进行建模。上下文适应性是指候选回复动作是否与对话的历史及当次输入相关；对话策略的符合程度是指候选回复动作是否恰当的促进了对话目标的实现；语言流畅性则是指回复生成的可读性和自然性。

打分和排序：用评估模型为每个候选回复动作打分，然后根据打分进行排序。打分高的候选回复动作被视为更优质，更具响应性。

基于规则的策略：除了使用评估模型外，还应用一些预先定义的规则对排序后的候选回复动作进行筛选。比如，设置避免重复的规则，或者对于特定类型的对话，选择特定类型的回复动作等。

选择最优回复动作：最后，选择排序和筛选过后的最顶部（评分最高或符合规则要求）的回复动作作为最终的候选回复动作。

步骤104、通过预设的归一化算法对各个候选回复动作进行归一化处理，得到各个候选回复动作所属的类别，根据各个所述候选回复动作所属的类别生成对应的候选回复类别的概率分布数据，将所述候选回复类别的概率分布数据作为优化策略指标；

具体的，以下是本实施的具体描述：

本实施例的归一化算法、类别划分方式、概率分布计算方式和优化目标至少包括：

归一化算法：Min-Max 归一化和 Z-score 标准化。

Min-Max 归一化：将数据映射到[0,1]的范围内。

具体的公式为：

X_new = (X_old - min(X)) / (max(X) - min(X))。

Z-score 标准化：将数据按其平均值和标准差进行标准化，使得新的数据集具有均值为0，标准差为1的特性。

具体的公式为：

X_new = (X_old - mean(X)) / std(X)。

类别划分方式：根据不同的对话动作的特性选择对应的类别划分方式。

意图划分：根据回复的意图进行划分，常见的意图类别有“提问”、“回答”、“打招呼”、“告别”。

语义内容划分：基于回复中涉及的主题或者关键词进行分组，比如“天气信息”、“音乐推荐”、“日程安排”。

概率分布计算方式：对每个类别，计算其在所有候选回复动作中的比例，例如，一个类别的概率可以计算为所述类别回复动作数量 /总回复动作数量。

优化目标：根据具体的任务需求和对话系统进行目标优化。

多样性：如果目标是生成一个多样化的回复，那么生成的动作概率分布尽可能均匀。

特定倾向：如果模型倾向于特定类型的回答，那么优化目标是让某一类别的概率最高。

步骤105、基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句；其中，所述回复语句是与所述自然语言理解模型的角色信息相匹配的语句。

具体的，基于预设的优化策略对策略生成模型进行优化处理并生成回复语句的步骤如下：

优化模型：根据优化策略指标，使用适当的优化器（如SGD、Adam等）和适当的损失函数（如交叉熵损失、均方误差损失等）来调整模型的参数。这一步骤通常通过迭代训练来完成，每次迭代中，优化器会参考损失函数的反馈来调整模型参数，使得优化策略指标越来越好。

生成回复动作：优化后的模型在接收到新的输入之后，会按照其内部表示和学到的特征，生成一系列的候选回复动作。

转换为回复语句：然后，这些回复动作将被映射或转化为自然语言的回复语句。这可以通过一个生成模型（如语言模型）或者模板方法来实现。生成模型会根据候选回复动作的信息，生成相符的自然语言表达；模板方法则会直接用预设的语句模板替换回复动作中的关键信息。

角色匹配：在所有步骤中，确保生成的回复语句与自然语言理解模型人物角色信息相匹配。这是为了确保这些语句在特定对话环境中的一致性。

本发明实施例中基于人工智能的交互式对话方法的另一个实施例包括：

所述获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，包括：

具体的，下面是如何训练和使用字向量模型的具体步骤：

预处理文本数据：首先，建立一个大型的文本语料库来训练字向量模型。对文本数据预处理，预处理包括清理，标准化，分词。

选择模型：根据具体的用户对话内容选择对应的字向量模型，如Word2Vec，GloVe，或FastText。

训练模型：使用清理和分词后的语料库去训练对应的字向量模型，并设置超参数，如字向量的维度大小，窗口大小，最小字频率等。

Word2Vec模型通过随机梯度下降或其他优化算法进行训练，目标是最小化负对数似然损失，在训练过程中，Word2Vec模型能够捕获语言中的某种模式，从而获得词的向量表示。

所述基于所述对话语句的解析结构，将对话语句的语义单元以及各个语义单元之间的逻辑关系进行抽取，得到对话语句的逻辑表示，包括：

具体的，以下是将对话语句的语义单元、逻辑关系进行抽取、实现逻辑表示的一种方法：

步骤一：语义单元识别；

在这一步，识别对话语句中的主体和对象。通过一种命名实体识别（Named EntityRecognition，NER）模型来进行。命名实体识别模型使用Transformers库中提供的BERT、Spacy，Stanford NLP等工具。通过所述工具可以找出句子中的主要实体，如人、地点、机构等。

步骤二：关系抽取；

关系抽取的目标是确定实体间的关系，比如"谁是谁的孩子"或"某人在哪里工作"等。通过预训练的关系抽取模型实现，如基于Transformer的模型或者专用的关系抽取工具。关系抽取任务的核心是理解实体之间的关联含义。

步骤三：创建逻辑表示；

基于识别出的主体、对象和两者之间的关系创建对话语句的逻辑表示。这个逻辑表示通常形式是“主体-动词-对象”（S-V-O）。

所述将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作，包括：

具体的，用来将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，并得到策略生成模型生成的初步回复动作的具体步骤如下：

步骤一：词嵌入；

首先，将历史对话和目标对话转换为对应的词向量。通过一个预训练的词嵌入模型实现，例如Word2Vec, Glove, FastText 或者BERT等。所述词嵌入模型将每个词转换为一个向量，所述向量用于捕捉词汇之间的语义关系。

步骤二：逻辑表示的转换处理；

接着，采用三元组编码技对逻辑表示进行编码。即使用主体-动词-对象（Subject-Verb-Object）的方式表示。

进一步地，将逻辑表示转换为三元组格式主要涉及以下步骤：

确定主体、动词和对象：根据句子的语法结构，确定主体（Subject）、动词（Verb）、以及对象（Object）。对于"Tom 爱吃苹果"这样的句子，主体是"Tom"，动词是"爱吃"，对象是"苹果"。

创建三元组：将上述步骤中确定的主体、动词、和对象组合成一个三元组。按照前面的例子，生成的三元组是 ("Tom", "爱吃", "苹果")。

重复步骤：对于长句或多句话，需要重复上述步骤，为每个独立的行动或事件生成一个三元组。

在实际处理中，利用词性标注、依赖解析等自然语言处理技术进行辅助。

步骤三：输入策略生成模型进行预测；

然后，将对话的词向量表示和转换处理后的逻辑表示输入到策略生成模型中。策略生成模型至少包括RNN, LSTM, GRU或者 Transformer的一种。策略生成模型将基于输入的信息生成一个初步的回复动作，所述初步回复动作用于表征对所述对话语句作出回复的内部表示。

所述推理对话模型的训练过程，包括：

通过预训练的BERT模型或Transformer模型对训练样本进行编码；

具体的，对于特定的推理对话模型训练过程，具体的实现步骤如下：

获取训练样本并预处理：

预处理包括：

清洗数据：移除空白样本，纠正拼写错误；

词归一化：将所有词汇转化为统一形式，如将所有单词转化为小写，扩展缩写等；

去除停用词：去除非重要语义的词，如"的"，"和"，"在"等。

利用预训练模型编码训练样本：通过BERT或Transformer将预处理过的训练样本转换为向量表示。

输入转换后的样本至序列到序列模型中：序列到序列模型是基于Transformer的模型，序列到序列模型用于接受编码过的训练样本输入，并输出回复序列。

对话回复生成：利用贪婪搜索或集束搜索算法，从模型生成的回复分布中选取最可能的回复。

计算差异，反向传播，参数更新：将生成的对话回复与样本回复进行比较，计算损失值，然后通过反向传播和梯度下降方法，更新模型中的参数。

本发明实施例中基于人工智能的交互式对话方法的另一个实施例包括

所述策略生成模型的训练过程，包括：

具体的，所述编码器采用辅助动态规划或者强化学习进行全局最优解码，采用辅助动态规划进行全局最优解码的具体实现步骤如下：

步骤1: 划分子问题；

首先将原问题划分为一系列的子问题。在文本生成任务中，每个时间步可以看作一个子问题，需要确定在当前的历史条件下，选取哪个词汇最为合适。

步骤2: 子问题解的保存；

在解决一个子问题后，应该保存这个子问题的解，以便在后面需要时直接复用，这就是动态规划的"记忆化"思想。

步骤3: 利用子问题的解决原问题；

通过维护一个全局最优的答案，每次将当前最优的解和这个全局最优答案比较并更新，可以实现全局最优的解码结果。

步骤4: 迭代和更新；

反复进行上述过程，从头开始生成答案，每一步都利用前面已经得到的子问题的最优解，直到生成完整的句子。

步骤5: 保证全局最优；

通过上述步骤确保每一步都做出了最佳选择，从而生成了最优的回答。

所述编码器采用辅助动态规划或者强化学习进行全局最优解码，采用强化学习进行全局最优解码的具体实现步骤如下：

步骤1：定义环境和奖励函数；首先，为强化学习任务定义一个环境和奖励函数。在对话生成的场景中，环境是当前的对话内容，而奖励函数可以基于生成的对话的连贯性和主题一致性来设计。

步骤2：选择强化学习算法；根据任务的特点，选择一种强化学习算法，比如Q-learning，Policy Gradients；这两种算法各有优势：Q-learning能够直接学习到一个优化的行为策略，而Policy Gradients则通过梯度上升来优化策略。

步骤3状态编码；利用预训练的BERT模型对环境状态进行编码，提取出有效的特征。

步骤4：强化学习训练及优化；在训练阶段，根据当前状态选择一个动作（这里是生成一个词汇或者一个句子），观察环境反馈的奖励，并更新生成策略。具体来说，对于基于值函数的方法如Q-learning，它会更新动作值函数Q，而对于基于策略的方法如PolicyGradients，它会更新策略参数。

步骤5：策略更新；根据收到的奖励，模型将通过反向传播算法调整其参数，以优化未来选择的策略。通过值函数或者策略函数的梯度计算和参数更新。

步骤6：模型评估和调优；在每一轮训练后，需要评估模型的性能，根据反馈的奖励和实际的实验效果来调整模型的超参数，以达到最优的强化学习效果。

上面对本发明实施例中基于人工智能的交互式对话方法进行了描述，下面对本发明实施例中基于人工智能的交互式对话装置进行描述，请参阅图2，本发明实施例中基于人工智能的交互式对话装置1一个实施例包括：

获取模块11，用于获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，并获取用户与自然语言理解模型之间的历史对话和目标对话；其中，所述目标对话是基于用户的角色信息和历史对话生成的；

第一处理模块12，用于将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作；其中，所述初步回复动作用于表征对所述对话语句作出回复的内部表示；

第二处理模块13，用于将所述初步回复动作输入到训练后的推理对话模型，生成候选回复集，并将所述候选回复集中各个候选回复进行表征和抽象表示，得到各个候选回复对应的候选回复动作；其中，所述推理对话模型经过提前训练得到；

第三处理模块14，用于通过预设的归一化算法对各个候选回复动作进行归一化处理，得到各个候选回复动作所属的类别，根据各个所述候选回复动作所属的类别生成对应的候选回复类别的概率分布数据，将所述候选回复类别的概率分布数据作为优化策略指标；

优化模块15，用于基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句；其中，所述回复语句是与所述自然语言理解模型的角色信息相匹配的语句。

在本实施例中，上述基于人工智能的交互式对话装置实施例中的各个模块的具体实现，请参照上述基于人工智能的交互式对话方法实施例中所述，在此不再进行赘述。

本发明还提供一种基于人工智能的交互式对话设备，所述基于人工智能的交互式对话设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于人工智能的交互式对话方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于人工智能的交互式对话方法的步骤。

有益效果：本发明提供的一种基于人工智能的交互式对话方法、装置、设备及存储介质，通过获取用户输入的对话语句，通过训练后的自然语言理解模型对用户输入的对话语句进行解析，得到对话语句的逻辑表示，并获取用户与自然语言理解模型之间的历史对话和目标对话；将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作；将所述初步回复动作输入到训练后的推理对话模型，生成候选回复集，并将所述候选回复集中各个候选回复进行表征和抽象表示，得到各个候选回复对应的候选回复动作；通过预设的归一化算法对各个候选回复动作进行归一化处理，得到各个候选回复动作所属的类别，根据各个所述候选回复动作所属的类别生成对应的候选回复类别的概率分布数据，将所述候选回复类别的概率分布数据作为优化策略指标；基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句。本发明运用自然语言理解模型对用户输入进行解析，能在大程度上理解用户的意图，提高了对话系统的交互效果。通过收集并利用用户的历史对话记录，对话系统能更加准确地理解并回应用户的需求，提高了个性化服务的能力。收集并处理候选回复动作，然后通过优化的策略生成模型，能够生成更加精确和有用的回应，提高了对话系统的效率和用户满意度。本发明能实现对话系统的动态优化，使其在处理复杂场景中更具适应性和灵活性，从而提高了对话系统的可用性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的交互式对话方法，其特征在于，包括：

基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句；其中，所述回复语句是与所述自然语言理解模型的角色信息相匹配的语句；

基于所述对话语句的解析结构，将对话语句的语义单元以及各个语义单元之间的逻辑关系进行抽取，得到对话语句的逻辑表示；

基于所述主体与所述对象之间的实体关系，创建对话语句的逻辑表示；其中，所述对话语句的逻辑表示至少包括主体-动词-对象的结构；

所述策略生成模型的训练过程，包括：

将记录的所述第二最优参数取值和所述第二最优样本集输入预置的BERT模型进行预训练；预训练完成后，将BERT模型作为策略生成模型的编码器，得到训练后的策略生成模型；其中，所述编码器采用辅助动态规划或者强化学习进行全局最优解码，所述全局最优解码中的损失函数包括预测对话概率分布的损失以及对话连贯性剖析和主题一致性因素；

具体的，采用辅助动态规划进行全局最优解码的具体实现步骤如下：

步骤1: 划分子问题；

将原问题划分为一系列的子问题；其中，在文本生成任务中，每个时间步看作一个子问题，确定在当前的历史条件下，选取对应的目标词汇；

步骤2: 子问题解的保存；

在解决一个子问题后，保存所述子问题的解；其中，所述子问题的解用于动态规划的复用；

步骤3: 利用子问题的解决原问题；

通过维护一个全局最优的答案，每次将当前最优的解和所述全局最优答案比较并更新，得到全局最优的解码结果；

步骤4: 迭代和更新；

反复进行上述过程，每一步都利用前面已经得到的子问题的最优解，直到生成完整的句子；

步骤5: 保证全局最优；

通过确保上述迭代和更新的每一步步骤做出最佳选择，生成最优的回答；

具体的，采用强化学习进行全局最优解码的具体实现步骤如下：

步骤1：定义环境和奖励函数；其中，为强化学习任务定义一个环境和奖励函数；在对话生成的场景中，所述环境是当前的对话内容，所述奖励函数基于生成的对话的连贯性和主题一致性来设计；

步骤2：选择强化学习算法；根据任务的特点，选择一种强化学习算法；其中，所述强化学习算法至少包括Q-learning，Policy Gradients；

步骤3状态编码；其中，利用预训练的BERT模型对环境状态进行编码，提取出对应的特征；

步骤4：强化学习训练及优化；其中，在训练阶段，根据当前状态选择一个动作，观察环境反馈的奖励，并更新生成策略；所述策略基于值函数的算法，更新动作值函数Q，基于策略的算法Gradients，则更新策略参数；

步骤5：策略更新；其中，根据收到的奖励，模型将通过反向传播算法调整模型的参数，优化选择的策略；通过值函数或者策略函数的梯度计算和参数更新；

步骤6：模型评估和调优；其中，在每一轮训练后，评估模型的性能，根据反馈的奖励和实际的实验效果调整模型的超参数，达到最优的强化学习效果。

2.根据权利要求1所述的方法，其特征在于，所述将逻辑表示、历史对话和目标对话输入到训练后的策略生成模型中，得到策略生成模型针对所述对话语句生成的初步回复动作，包括：

3.根据权利要求1所述的方法，其特征在于，所述推理对话模型的训练过程，包括：

通过预训练的BERT模型或Transformer模型对训练样本进行编码；

4.一种基于人工智能的交互式对话装置，其特征在于，所述基于人工智能的交互式对话装置包括：

优化模块，用于基于所述优化策略指标，对策略生成模型进行优化处理，得到优化后的策略生成模型，根据优化后的策略生成模型将各个候选回复动作转换为回复语句；其中，所述回复语句是与所述自然语言理解模型的角色信息相匹配的语句；

获取模块，具体用于：

所述策略生成模型的训练过程，包括：

具体的，编码器采用辅助动态规划或者强化学习进行全局最优解码，采用辅助动态规划进行全局最优解码的具体实现步骤如下：

步骤1: 划分子问题；

步骤2: 子问题解的保存；

步骤3: 利用子问题的解决原问题；

步骤4: 迭代和更新；

步骤5: 保证全局最优；

具体的，编码器采用辅助动态规划或者强化学习进行全局最优解码，采用强化学习进行全局最优解码的具体实现步骤如下：

5.一种基于人工智能的交互式对话设备，其特征在于，所述基于人工智能的交互式对话设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于人工智能的交互式对话设备执行如权利要求1-3中任一项所述的基于人工智能的交互式对话方法。

6.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-3中任一项所述的基于人工智能的交互式对话方法。