CN110569339A - 对话方法、介质、装置和计算设备 - Google Patents

对话方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN110569339A
CN110569339A CN201910663791.9A CN201910663791A CN110569339A CN 110569339 A CN110569339 A CN 110569339A CN 201910663791 A CN201910663791 A CN 201910663791A CN 110569339 A CN110569339 A CN 110569339A
Authority
CN
China
Prior art keywords
opponent
action
dialog
conversation
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910663791.9A
Other languages
English (en)
Other versions
CN110569339B (zh
Inventor
黄民烈
张正
朱小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910663791.9A priority Critical patent/CN110569339B/zh
Publication of CN110569339A publication Critical patent/CN110569339A/zh
Application granted granted Critical
Publication of CN110569339B publication Critical patent/CN110569339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了一种对话方法。所述对话包括对话双方之间的多轮对话,所述对话双方的一方为目标智能体,另一方为用户或对手智能体,所述方法包括:根据本轮对话中的对手话语预估目标智能体对应的动作;基于预估的所述动作估计对手对应的动作;选择针对所述对手动作的最优动作;按照选择的所述最优动作生成相应的话语。通过预估对手的动作以选择更加合适的动作并生成相应的话语,本发明的方法使得智能体的决策具有前瞻性,能够产生更加合适的对话,为用户带来了更好的体验。此外,本发明的实施方式提供了一种对话装置、介质及计算设备。

Description

对话方法、介质、装置和计算设备
技术领域
本发明的实施方式涉及人机对话技术领域,更具体地,本发明的实施 方式涉及一种对话方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上 下文。此处的描述不因为包括在本部分中就承认是现有技术。
人机对话是自然语言处理技术(Natural Language Processing,NLP)与实 现真正人工智能中是一个富有挑战性的任务,现有的对话系统包括任务导 向的对话系统和开放领域的对话系统。对话系统旨在帮助人类完成特定的 任务,比如完成人发出的指令、引导人完成某一项任务,与此同时,对话 系统设计用来完成不同聊天背景下模仿人类自然聊天的过程。之前有大量 的研究集中在对话系统,随着网络上社交媒体数据的爆炸式增长,大量的 训练对话语料成为模型进一步改进的突破口,深度学习聊天机器人成为了 学术界和工业界的热门方向。
大多数现有的对话学习方法假设用户或对手采用固定的对话策略(即 对话任务目标固定不变),但是在现实世界场景中,对话可能是具有多样 性的,即对话策略(目标)是会产生变化的。因此,现有的方法可能由于 对话的非平稳性而失败。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些 方面的基本理解。应当理解,该概述并不是关于本发明的穷举性概述,它 并非意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。 其目的仅仅是以简化的形式给出某些概念,以此作为后文的具体实施方式 部分的铺垫。
鉴于以上提出的问题,本发明提出了一种特征提取以及推荐方法、装 置、介质和设备。
在本发明实施方式的第一方面中,提供了一种对话方法,所述对话包 括对话双方之间的多轮对话,所述对话双方的一方为目标智能体,另一方 为用户或对手智能体,所述方法包括:
根据本轮对话中的对手话语预估目标智能体对应的动作;
基于预估的所述动作估计对手对应的动作;
选择针对所述对手动作的最优动作;
按照选择的所述最优动作生成相应的话语。
在本实施方式的一个实施例中,根据对手话语预估目标智能体对应的 动作,包括:
基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。
在本实施方式的一个实施例中,基于预设的对手动作及本轮对手话语 预估目标智能体对应的动作,包括:
获取在上一轮对话中输出话语时的对话状态;
基于在上一轮对话中输出话语时的对话状态以及本轮对话中对手话 语获取本轮对话中的对手对话状态;
基于预设的对手动作及本轮对话中对手对话状态预估目标智能体对 应的动作。
在本实施方式的一个实施例中,上一轮对话中输出话语时的对话状态 由文本解码器解码生成上一轮对话中输出的话语时产生。
在本实施方式的一个实施例中,采用预设的强化学习模型预估目标智 能体对应的动作。
在本实施方式的一个实施例中,所述强化学习模型基于状态-动作值函 数构建。
在本实施方式的一个实施例中,采用所述状态-动作值函数基于预设的 对手动作及本轮对话中对手对话状态选择动作作为所述预估的动作。
在本实施方式的一个实施例中,本轮对话中对手对话状态由文本编码 器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码 获得。
在本实施方式的一个实施例中,基于预估的所述动作估计对手对应的 动作,包括:
基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作 估计对手对应的动作。
在本实施方式的一个实施例中,采用包括softmax层的前馈神经网络 估计对手对应的动作。
在本实施方式的一个实施例中,选择针对所述对手动作的最优动作, 包括:
基于估计的对手动作以及本轮对话中对手对话状态生成当前对话状 态;
采用所述预设的强化学习模型基于所述当前对话状态选择最优动作。
在本实施方式的一个实施例中,所述当前对话状态由以下构成:
其中,st为当前对话状态,Eo为表示对手动作的嵌入矩阵,为估 计的对手动作。
在本实施方式的一个实施例中,所述文本解码器和文本编码器均采用 循环神经网络实现。
在本实施方式的一个实施例中,所述文本解码器和文本编码器均为门 控循环单元。
在本实施方式的一个实施例中,在同一轮对话中,所述文本解码器的 状态由文本编码器的最后状态初始化,所述文本编码器的状态由解码生成 上一轮输出话语的文本解码器的最后状态初始化,所述文本解码器的最后 状态为解码生成最后一个单词/字的状态,所述文本编码器的最后状态为编 码对手话语中的最后一个单词/字的状态。
根据本发明的另一方面,还提供了一种对话装置,所述对话包括对话 双方之间的多轮对话,所述对话双方的一方为目标智能体,另一方为用户 或对手智能体,所述方法包括:
动作预估模块,被配置为根据本轮对话中的对手话语预估目标智能体 对应的动作;
对手动作估计模块,被配置为基于预估的所述动作估计对手对应的动 作;
最优动作选择模块,被配置为选择针对所述对手动作的最优动作;
话语生成模块,被配置为按照选择的所述最优动作生成相应的话语。
在本实施方式的一个实施例中,所述动作预估模块还被配置为基于预 设的对手动作及本轮对手话语预估目标智能体对应的动作。
在本实施方式的一个实施例中,所述动作预估模块包括:
在前对话状态获取单元,被配置为获取在上一轮对话中输出话语时的 对话状态;
对手对话状态获取单元,被配置为基于在上一轮对话中输出话语时的 对话状态以及本轮对话中对手话语获取本轮对话中的对手对话状态;
动作预估单元,被配置为基于预设的对手动作及本轮对话中对手对话 状态预估目标智能体对应的动作。
在本实施方式的一个实施例中,上一轮对话中输出话语时的对话状态 由文本解码器解码生成上一轮对话中输出的话语时产生。
在本实施方式的一个实施例中,所述动作预估单元被配置为采用预设 的强化学习模型预估目标智能体对应的动作。
在本实施方式的一个实施例中,所述强化学习模型基于状态-动作值函 数构建。
在本实施方式的一个实施例中,所述动作预估单元还被配置为采用所 述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选择 动作作为所述预估的动作。
在本实施方式的一个实施例中,本轮对话中对手对话状态由文本编码 器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码 获得。
在本实施方式的一个实施例中,所述对手动作估计模块还被配置为基 于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估计对 手对应的动作。
在本实施方式的一个实施例中,所述对手动作估计模块还被配置为采 用包括softmax层的前馈神经网络估计对手对应的动作。
在本实施方式的一个实施例中,所述最优动作选择模块包括:
当前对话状态生成单元,被配置为基于估计的对手动作以及本轮对话 中对手对话状态生成当前对话状态;
最优动作选择单元,被配置为采用所述预设的强化学习模型基于所述 当前对话状态选择最优动作。
在本实施方式的一个实施例中,所述当前对话状态由以下构成:
其中,st为当前对话状态,Eo为表示对手动作的嵌入矩阵,为估 计的对手动作。
在本实施方式的一个实施例中,所述文本解码器和文本编码器均采用 循环神经网络实现。
在本实施方式的一个实施例中,所述文本解码器和文本编码器均为门 控循环单元。
在本实施方式的一个实施例中,在同一轮对话中,所述文本解码器的 状态由文本编码器的最后状态初始化,所述文本编码器的状态由解码生成 上一轮输出话语的文本解码器的最后状态初始化,所述文本解码器的最后 状态为解码生成最后一个单词/字的状态,所述文本编码器的最后状态为编 码对手话语中的最后一个单词/字的状态。
根据本发明的又一方面,还提供了一种计算机可读存储介质,存储有 程序代码,所述程序代码当被处理器执行时,实现如第一方面任一实施例 所述的方法。
根据本发明的再一方面,还提供了一种计算设备,包括处理器和存储 有程序代码的存储介质,所述程序代码当被处理器执行时,实现如第一方 面任一实施例所述的方法。
根据本发明实施方式的对话方法、装置、介质及计算设备,能够克服 现有技术的不足,通过预估对手的动作而改善了对话策略的不稳定问题。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以 及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制 性的方式示出了本发明的若干实施方式,其中:
图1为根据本发明实施方式提供的一种对话方法的步骤流程图;
图2为根据本发明实施方式提供的整体模型图;
图3为根据本发明实施方式提供的一种对话装置的结构示意图;
图4为根据本发明实施方式提供的一种计算设备的示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
现参照附图对本发明的实施方式进行详细描述。应注意,以下描述仅 仅是示例性的,而并不旨在限制本发明。此外,在以下描述中,将采用相 同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实 施方式中的不同特征,可彼此结合,以形成本发明范围内的其他实施方式。
下面结合图1来描述根据本发明示例性实施方式的对话方法,所述对 话包括对话双方之间的多轮对话,所述对话双方的一方为目标智能体,另 一方为用户或对手智能体,所述方法包括:
步骤S110,根据本轮对话中的对手话语预估目标智能体对应的动作;
本发明所公开的对话方法可以应用于预设的多个领域,预设领域可以 包括但不限于如下一个或多个领域:订餐;订票;线上购物;预约出租车; 预定酒店;以及寻找音乐、电影或某种产品等。
根据本发明的实施例,对话中所包括的对手与智能体之间的多轮对话 可以仅仅涉及同一个领域,或者,也可以涉及多个领域,但每一轮次的对 话仅涉及一个领域。
例如,假设上述至少一个预设领域包括订餐以及寻找产品这两个领域。 其中,订餐领域具有三个属性类目,这三个属性类目分别是餐饮类型、距 离和价位区间,餐饮类型的多种预设属性值可以包括火锅、烧烤、西餐以 及自助餐等中的至少部分,距离的多种预设属性值包括附近500米内、附 近1公里内以及附近3公里内等中的至少部分,价位区间的多种预设属性 值包括0-50元、50-100元、100-300元以及300元以上等中的至少部分。 此外,寻找产品领域具有产品类别和产品价位这两个属性类目,产品类别 的多种预设属性值包括手机、电视、冰箱以及电脑等中的至少部分,产品 价位的多种预设属性值包括0-1000元、1000-2000元、2000-3000元、3000- 4000元以及4000元以上等中的至少部分。
此外,对手(用户/智能体)与智能体之间的多轮对话中的每轮对话是 指,每一轮次的对手对话内容与智能体对话内容。
作为示例,当前轮次所对应的领域(即当前领域)是上述至少一个预 设领域中的任一个领域。
例如,用S(i)表示第i轮次的对手对话内容,用A(i)表示第i轮次的智 能体对话内容,其中i表示轮次序数,i=1,2,3,…。如S(1)表示第一轮次的 对手对话内容,A(1)表示第一轮次的智能体对话内容,等等。这样,多轮 对话可以表示为:S(1)→A(1)→S(2)→A(2)→S(3)→A(3)→……。
需要说明的是,多轮对话的首轮对话可以设定为对手的第一轮次发言 内容(即第一轮次的对手对话内容)和智能体紧接其后的第一轮次发言内 容(即第一轮次的智能体对话内容),多轮对话的第二轮对话可以设定为 第二轮次的对手对话内容和第二轮次的智能体对话内容,依此类推。
应当注意的是,在每一轮对话中,对手对话内容的发言时间在智能体 对话内容的发言时间之前。
作为示例,若整个多轮对话的实际首次发言者为智能体,则可以将对 手的第一轮次发言内容(即第一轮次的对手对话内容S(1))设定为空。
当处理到某一轮次(例如第t轮次,t为正整数,即t=1,2,…)时,将 该轮次作为当前轮次,根据当前轮次的对手话语(输入文本内容),获得 当前轮次的对手对话状态。然后根据对手对话状态预估目标智能体对应的 动作。
本轮对话中对手对话状态由文本编码器基于上一轮对话中输出话语 时的对话状态对本轮对话中对手话语编码获得
作为示例,可以采用现有的向量获取技术来获得当前轮次的对手输入 文本内容的第一词向量,然后利用文本编码器对从当前轮次的对手输入文 本内容中获得的第一词向量进行编码,以获得对应的语义表示来作为当前 轮次的对手对话状态。
其中,在对从当前轮次的对手输入文本内容中获得的第一词向量进行 编码时所利用的文本编码器例如可采用任一已知的循环神经网络 (Recurrent Neural Network,RNN)编码器模型来实现,具体的,在本实 施方式的一个实施例中,所述文本编码器为门控循环单元(GRU)。需要 说明的是,下文中提到的文本解码器可以采用和所述文本编码器相同的循 环神经网络(Recurrent Neural Network,RNN)模型来实现,比如门控循 环单元(GRU)。
更进一步地,在本实施方式的一个实施例中,基于预设的对手动作及 本轮对手话语预估目标智能体对应的动作,具体的,在本实施例中,依然 首先从当前轮次的对手话语(输入文本内容)中获得当前轮次的对手对话 状态,其中,本轮对话中对手对话状态由文本编码器基于上一轮对话中输 出话语时的对话状态对本轮对话中对手话语编码获得,公式(1)给出了计 算第t轮对话中文本编码器状态(对手对话状态)的一个示例性公式。
公式(1):
其中,为第t轮对话中的所述本文编码器编码对手话语中第i个单 词/字的状态,GRUe表示文本编码器,,Eo为表示对手动作空间的嵌入矩 阵,为一个常量,表示预设的对手动作,表示第t轮对话中对手话语 中第i个单词/字,E为词向量的嵌入矩阵,[·,·]表示矢量拼接。
需要说明的是,在同一轮对话中,所述文本编码器的状态由解码生成 上一轮输出话语的文本解码器的最后状态初始化,所述文本编码器的最后 状态为编码对手话语中的最后一个单词/字的状态,即:
其中,为第t轮对话中所述文本编码器的初始状态,为第t-1 轮(上一轮)对话中解码生成上一轮输出话语的文本解码器的(最后)状 态,为第t轮对话中对手话语中单词/字的编号。
因此,基于预设的对手动作及本轮对手话语预估目标智能体对应的动 作,包括:
获取在上一轮对话中输出话语时的对话状态;
基于在上一轮对话中输出话语时的对话状态以及本轮对话中对手话 语获取本轮对话中的对手对话状态;
基于预设的对手动作及本轮对话中对手对话状态预估目标智能体对 应的动作。
在本实施方式的一个实施例中,参照图2,采用预设的强化学习模型 预估目标智能体对应的动作,具体的,所述强化学习模型基于状态-动作值 函数构建。例如,采用所述状态-动作值函数基于预设的对手动作及本轮对 话中对手对话状态选择动作作为所述预估的动作。
公式(2)给出了预估第t轮对话中目标智能体动作的一个示例性公 式。
公式(2):
其中,为预估的动作,Q为动作-状态值函数Q-function,为本轮 对话中的对手对话状态,ao为预设的对手动作,a’为表示动作的变量。
在本设计实力的一个实施方式中,通过最小化均方损失函数来更新所 述预设的强化学习模型(动作-状态值函数Q-function),所述损失函数基 于对话结束后的奖励进行构建,也即,所述预设的强化学习模型能够不断 进行迭代,以选取更高奖励的动作(选取更加适合的动作以生成更加合适 的话语)。
在本实施方式的一个实施例中,为了得到更加精准的动作选择结果, 所述预设的强化学习模型为深度强化学习模型,也即将强化学习与深度学 习结合,具体的,可以将所述动作-状态值函数Q-function与深度学习结合, 此时,所述预设的强化学习模型为DQN(Deep Q-Learning)模型。
需要说明的是,由于为基于预设的固定不变的对手动作预估的动作, 因此,与实际的对手动作必然存在差异,在本实施方式的一个实施例中, 应用动作正则化来降低训二者之间的差异。
由于以及at都是动作空间上的概率分布,因此,在本实施方式的一 个实施例中,采用交叉熵损失函数来衡量二者之间的差异,并不断迭代更 新相关参数以逐渐缩小二者之间的差异。
由此,本实施方式的一个实施例中,将基于所述强化学习模型的损失 函数以及动作正则化的损失函数来不断迭代更新相关参数,以产生更加适 合的输出话语,其中,所述动作正则化的损失函数预设有相应的权重,以 平衡以上两个损失函数在衡量最终结果时的比重。
另外,上一轮对话中输出话语时的对话状态由文本解码器解码生成上 一轮对话中输出的话语时产生,公式(3)给出了计算第t轮对话中解码器 状态(输出话语时的对话状态)的一个示例性公式。
公式(3):
其中,为第t轮对话中的所述本文解码器解码生成输出话语中第i 个单词/字的状态,GRU表示文本解码器,Ea为表示目标智能体动作空间 的嵌入矩阵,at表示目标智能体的动作,表示第t轮对话中输出话语 中第i-1个单词/字,E为输出词向量的嵌入矩阵,[·,·]表示矢量拼接。
公式(4)给出了确定第t轮对话中输出话语中第i个单词/字的一个 示例性公式。
公式(4):
其中,是输出词汇表上的概率分布,通过它能够对输出单词/字进 行采样,MLP为多层感知机(Multi-Layer Perceptron)。
与所述文本编码器类似,所述文本解码器的状态由文本编码器的最后 状态初始化,所述文本解码器的最后状态为解码生成最后一个单词/字的状 态,即:
其中,各个向量的含义与前述的含义类似,在此不做说明。
在本实施方式的一个实施例中,所述文本解码器和文本编码器均采用 循环神经网络实现,具体的,在本实施例中,所述文本解码器和文本编码 器均为门控循环单元。
步骤S120,基于预估的所述动作估计对手对应的动作;
在本实施方式的一个实施例中,基于本轮对话中对手对话状态以及所 述预估目标智能体对应的动作估计对手对应的动作,具体的,采用预设的 包括softmax层的前馈神经网络的对手行为估计模型估计对手对应的动作。
公式(5)给出了预测对手对应动作的一个示例性公式。
公式(5):
其中,为估计的对手动作,fo为所述包括softmax层的前馈神经网 络。
步骤S130,选择针对所述对手动作的最优动作;
在本步骤中,选择针对所述对手动作的最优动作,具体的,可以采用 如前所述的与预估目标智能体对应的动作的相同的方式进行,区别在于, 在预估目标智能体对应的动作时才用的是固定不变的预设的对手动作,而 此时采用的是在步骤S120预测的对手动作,需要说明的是,本步骤中采 用的动作-状态值函数是与预估目标智能体对应的动作时同样的状态-动作 值函数。
另外,在本实施方式的一个实施例中,所述状态-动作值函数Q-function 被构建为argmaxa’Q(st,a′),也即,本实施例中,构建了新的状态st,具体的, 基于估计的对手动作以及本轮对话中对手对话状态生成当前对话状态(st); 即:
接下来,采用所述预设的强化学习模型基于所述当前对话状态选择最 优动作。
步骤S140,按照选择的所述最优动作生成相应的话语。
具体的,参照图2,所述文本解码器根据选择的所述最优动作at逐词/ 字生成话语,并在完全生成句子时输出,在对根据以上步骤选取的所述最 优动作进行解码以生成输出话语时,所利用的文本解码器例如可采用任一 已知的循环神经网络(Recurrent NeuralNetwork,RNN)模型来实现,具 体的,在本实施方式的一个实施例中,所述文本解码器为门控循环单元 (GRU)。
通过预估对手的动作以选择更加合适的动作并生成相应的话语,本发 明的方法使得智能体能够产生更加合适的对话,为用户带来了更好的体验。
参照图3,本发明的实施例还提供了一种对话装置,所述对话包括对 话双方之间的多轮对话,所述对话双方的一方为目标智能体,另一方为用 户或对手智能体,所述方法包括:
动作预估模块310,被配置为根据本轮对话中的对手话语预估目标智 能体对应的动作;
对手动作估计模块320,被配置为基于预估的所述动作估计对手对应 的动作;
最优动作选择模块330,被配置为选择针对所述对手动作的最优动作;
话语生成模块340,被配置为按照选择的所述最优动作生成相应的话 语。
在本实施方式的一个实施例中,所述动作预估模块310还被配置为基 于预设的对手动作及本轮对手话语预估目标智能体对应的动作。
在本实施方式的一个实施例中,所述动作预估模块310包括:
在前对话状态获取单元,被配置为获取在上一轮对话中输出话语时的 对话状态;
对手对话状态获取单元,被配置为基于在上一轮对话中输出话语时的 对话状态以及本轮对话中对手话语获取本轮对话中的对手对话状态;
动作预估单元,被配置为基于预设的对手动作及本轮对话中对手对话 状态预估目标智能体对应的动作。
在本实施方式的一个实施例中,上一轮对话中输出话语时的对话状态 由文本解码器解码生成上一轮对话中输出的话语时产生。
在本实施方式的一个实施例中,所述动作预估单元被配置为采用预设 的强化学习模型预估目标智能体对应的动作。
在本实施方式的一个实施例中,所述强化学习模型基于状态-动作值函 数构建。
在本实施方式的一个实施例中,所述动作预估单元还被配置为采用所 述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选择 动作作为所述预估的动作。
在本实施方式的一个实施例中,本轮对话中对手对话状态由文本编码 器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码 获得。
在本实施方式的一个实施例中,所述对手动作估计模块320还被配置 为基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估 计对手对应的动作。
在本实施方式的一个实施例中,所述对手动作估计模块320还被配置 为采用包括softmax层的前馈神经网络估计对手对应的动作。
在本实施方式的一个实施例中,所述最优动作选择模块330包括:
当前对话状态生成单元,被配置为基于估计的对手动作以及本轮对话 中对手对话状态生成当前对话状态;
最优动作选择单元,被配置为采用所述预设的强化学习模型基于所述 当前对话状态选择最优动作。
在本实施方式的一个实施例中,所述当前对话状态由以下构成:
其中,st为当前对话状态,Eo为表示对手动作的嵌入矩阵,为估 计的对手动作。
在本实施方式的一个实施例中,所述文本解码器和文本编码器均采用 循环神经网络实现。
在本实施方式的一个实施例中,所述文本解码器和文本编码器均为门 控循环单元。
在本实施方式的一个实施例中,在同一轮对话中,所述文本解码器的 状态由文本编码器的最后状态初始化,所述文本编码器的状态由解码生成 上一轮输出话语的文本解码器的最后状态初始化,所述文本解码器的最后 状态为解码生成最后一个单词/字的状态,所述文本编码器的最后状态为编 码对手话语中的最后一个单词/字的状态。
另外,这里尚需指出的是,上述系统中各个组成部件可以通过软件、 固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本 领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下, 从存储介质或网络向具有专用硬件结构的计算机安装构成该软件的程序, 该计算机在安装有各种程序时,能够执行各种功能等。
图4示出了可用于实施根据本发明实施例的方法和系统的计算机的示 意性框图。
在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储 的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各 种处理。在RAM 403中,还根据需要存储当CPU 401执行各种处理等时 所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。 输入/输出接口405也连接到总线404。
下述部件连接到输入/输出接口405:输入部分406(包括键盘、鼠标 等等)、输出部分407(包括显示器,比如阴极射线管(CRT)、液晶显示器 (LCD)等,和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包 括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比 如因特网执行通信处理。根据需要,驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根 据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安 装到存储部分408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介 质比如可拆卸介质411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中 存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。 可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只 读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册 商标))和半导体存储器。或者,存储介质可以是ROM 402、存储部分408 中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给 用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指 令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存 储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、 磁光盘、存储卡、存储棒等等。
应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行, 也可以按照其他的次序顺序地、并行地或独立地执行。因此,本说明书中 描述的方法的执行顺序不对本发明的技术范围构成限制。
以上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是 示例性的,而非旨在对本发明进行限制。应注意,在以上描述中,针对一 种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多 个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实 施方式中的特征。本领域技术人员可以理解,在不脱离本发明的发明构思 的情况下,针对以上所描述的实施方式进行的各种变化和修改,均属于本发明的范围内。
综上,在根据本发明的实施例中,本发明提供了如下技术方案。
1.一种对话方法,所述对话包括对话双方之间的多轮对话,所述对话 双方的一方为目标智能体,另一方为用户或对手智能体,所述方法包括:
根据本轮对话中的对手话语预估目标智能体对应的动作;
基于预估的所述动作估计对手对应的动作;
选择针对所述对手动作的最优动作;
按照选择的所述最优动作生成相应的话语。
2.如方案1所述的方法,其中,根据对手话语预估目标智能体对应的 动作,包括:
基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。
3.如方案2所述的方法,其中,基于预设的对手动作及本轮对手话语 预估目标智能体对应的动作,包括:
获取在上一轮对话中输出话语时的对话状态;
基于在上一轮对话中输出话语时的对话状态以及本轮对话中对手话 语获取本轮对话中的对手对话状态;
基于预设的对手动作及本轮对话中对手对话状态预估目标智能体对 应的动作。
4.如方案3所述的方法,其中,上一轮对话中输出话语时的对话状态 由文本解码器解码生成上一轮对话中输出的话语时产生。
5.如方案4所述的方法,其中,采用预设的强化学习模型预估目标智 能体对应的动作。
6.如方案5所述的方法,其中,所述强化学习模型基于状态-动作值函 数构建。
7.如方案6所述的方法,其中,采用所述状态-动作值函数基于预设的 对手动作及本轮对话中对手对话状态选择动作作为所述预估的动作。
8.如方案4-7任一所述的方法,其中,本轮对话中对手对话状态由文 本编码器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话 语编码获得。
9.如方案3所述的方法,其中,基于预估的所述动作估计对手对应的 动作,包括:
基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作 估计对手对应的动作。
10.如方案9所述的方法,其中,采用预设的包括softmax层的前馈神 经网络的对手行为估计魔性估计对手对应的动作。
11.如方案6所述的方法,其中,选择针对所述对手动作的最优动作, 包括:
基于估计的对手动作以及本轮对话中对手对话状态生成当前对话状 态;
采用所述预设的强化学习模型基于所述当前对话状态选择最优动作。
12.如方案11所述的方法,其中,所述当前对话状态由以下构成:
其中,st为当前对话状态,Eo为表示对手动作的嵌入矩阵,为估 计的对手动作。
13.如方案8所述的方法,其中,所述文本解码器和文本编码器均采用 循环神经网络实现。
14.如方案13所述的方法,其中,所述文本解码器和文本编码器均为 门控循环单元。
15.如方案14所述的方法,其中,在同一轮对话中,所述文本解码器 的状态由文本编码器的最后状态初始化,所述文本编码器的状态由解码生 成上一轮输出话语的文本解码器的最后状态初始化,所述文本解码器的最 后状态为解码生成最后一个单词/字的状态,所述文本编码器的最后状态为 编码对手话语中的最后一个单词/字的状态。
16.一种对话装置,所述对话包括对话双方之间的多轮对话,所述对 话双方的一方为目标智能体,另一方为用户或对手智能体,所述方法包括:
动作预估模块,被配置为根据本轮对话中的对手话语预估目标智能体 对应的动作;
对手动作估计模块,被配置为基于预估的所述动作估计对手对应的动 作;
最优动作选择模块,被配置为选择针对所述对手动作的最优动作;
话语生成模块,被配置为按照选择的所述最优动作生成相应的话语。
17.如方案16所述的装置,其中,所述动作预估模块还被配置为基于 预设的对手动作及本轮对手话语预估目标智能体对应的动作。
18.如方案17所述的装置,其中,所述动作预估模块包括:
在前对话状态获取单元,被配置为获取在上一轮对话中输出话语时的 对话状态;
对手对话状态获取单元,被配置为基于在上一轮对话中输出话语时的 对话状态以及本轮对话中对手话语获取本轮对话中的对手对话状态;
动作预估单元,被配置为基于预设的对手动作及本轮对话中对手对话 状态预估目标智能体对应的动作。
19.如方案18所述的装置,其中,上一轮对话中输出话语时的对话状 态由文本解码器解码生成上一轮对话中输出的话语时产生。
20.如方案19所述的装置,其中,所述动作预估单元被配置为采用预 设的强化学习模型预估目标智能体对应的动作。
21.如方案20所述的装置,其中,所述强化学习模型基于状态-动作值 函数构建。
22.如方案21所述的装置,其中,所述动作预估单元还被配置为采用 所述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选 择动作作为所述预估的动作。
23.如方案19-22任一所述的装置,其中,本轮对话中对手对话状态由 文本编码器基于上一轮对话中输出话语时的对话状态对本轮对话中对手 话语编码获得。
24.如方案18所述的装置,其中,所述对手动作估计模块还被配置为 基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估计 对手对应的动作。
25.如方案24所述的装置,其中,所述对手动作估计模块还被配置为 采用预设的包括softmax层的前馈神经网络的对手行为估计模型估计对手 对应的动作。
26.如方案21所述的装置,其中,所述最优动作选择模块包括:
当前对话状态生成单元,被配置为基于估计的对手动作以及本轮对话 中对手对话状态生成当前对话状态;
最优动作选择单元,被配置为采用所述预设的强化学习模型基于所述 当前对话状态选择最优动作。
27.如方案26所述的装置,其中,所述当前对话状态由以下构成:
其中,st为当前对话状态,Eo为表示对手动作的嵌入矩阵,为估 计的对手动作。
28.如方案23所述的装置,其中,所述文本解码器和文本编码器均采 用循环神经网络实现。
29.如方案28所述的装置,其中,所述文本解码器和文本编码器均为 门控循环单元。
30.如方案29所述的装置,其中,在同一轮对话中,所述文本解码器 的状态由文本编码器的最后状态初始化,所述文本编码器的状态由解码生 成上一轮输出话语的文本解码器的最后状态初始化,所述文本解码器的最 后状态为解码生成最后一个单词/字的状态,所述文本编码器的最后状态为 编码对手话语中的最后一个单词/字的状态。
31.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处 理器执行时,实现如方案1-15之一所述的方法。
32.一种计算设备,包括处理器和存储有程序代码的存储介质,所述程 序代码当被处理器执行时,实现如方案1-15之一所述的方法。

Claims (10)

1.一种对话方法,所述对话包括对话双方之间的多轮对话,所述对话双方的一方为目标智能体,另一方为用户或对手智能体,所述方法包括:
根据本轮对话中的对手话语预估目标智能体对应的动作;
基于预估的所述动作估计对手对应的动作;
选择针对所述对手动作的最优动作;
按照选择的所述最优动作生成相应的话语。
2.如权利要求1所述的方法,其中,根据本轮对话中的对手话语预估目标智能体对应的动作,包括:
基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。
3.如权利要求2所述的方法,其中,基于预设的对手动作及本轮对手话语预估目标智能体对应的动作,包括:
获取在上一轮对话中输出话语时的对话状态;
基于在上一轮对话中输出话语时的对话状态以及本轮对话中对手话语获取本轮对话中的对手对话状态;
基于预设的对手动作及本轮对话中对手对话状态预估目标智能体对应的动作。
4.如权利要求3所述的方法,其中,上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生。
5.一种对话装置,所述对话包括对话双方之间的多轮对话,所述对话双方的一方为目标智能体,另一方为用户或对手智能体,所述方法包括:
动作预估模块,被配置为根据本轮对话中的对手话语预估目标智能体对应的动作;
对手动作估计模块,被配置为基于预估的所述动作估计对手对应的动作;
最优动作选择模块,被配置为选择针对所述对手动作的最优动作;
话语生成模块,被配置为按照选择的所述最优动作生成相应的话语。
6.如权利要求5所述的装置,其中,所述动作预估模块还被配置为基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。
7.如权利要求6所述的装置,其中,所述动作预估模块包括:
在前对话状态获取单元,被配置为获取在上一轮对话中输出话语时的对话状态;
对手对话状态获取单元,被配置为基于在上一轮对话中输出话语时的对话状态以及本轮对话中对手话语获取本轮对话中的对手对话状态;
动作预估单元,被配置为基于预设的对手动作及本轮对话中对手对话状态预估目标智能体对应的动作。
8.如权利要求7所述的装置,其中,上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生。
9.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现如权利要求1-4之一所述的方法。
10.一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如权利要求1-4之一所述的方法。
CN201910663791.9A 2019-07-22 2019-07-22 对话方法、介质、装置和计算设备 Active CN110569339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910663791.9A CN110569339B (zh) 2019-07-22 2019-07-22 对话方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910663791.9A CN110569339B (zh) 2019-07-22 2019-07-22 对话方法、介质、装置和计算设备

Publications (2)

Publication Number Publication Date
CN110569339A true CN110569339A (zh) 2019-12-13
CN110569339B CN110569339B (zh) 2022-04-19

Family

ID=68773225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910663791.9A Active CN110569339B (zh) 2019-07-22 2019-07-22 对话方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN110569339B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307188A (zh) * 2020-12-30 2021-02-02 北京百度网讯科技有限公司 对话生成方法、系统、电子设备和可读存储介质
US20220093092A1 (en) * 2020-09-24 2022-03-24 International Business Machines Corporation Synchronizing a voice reply of a voice assistant with activities of a user

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445147A (zh) * 2016-09-28 2017-02-22 北京百度网讯科技有限公司 基于人工智能的对话系统的行为管理方法及装置
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN109036380A (zh) * 2018-07-04 2018-12-18 苏州思必驰信息科技有限公司 对话状态跟踪方法、系统、电子设备及存储介质
US20190115027A1 (en) * 2017-10-12 2019-04-18 Google Llc Turn-based reinforcement learning for dialog management
US20190139537A1 (en) * 2017-11-08 2019-05-09 Kabushiki Kaisha Toshiba Dialogue system and dialogue method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445147A (zh) * 2016-09-28 2017-02-22 北京百度网讯科技有限公司 基于人工智能的对话系统的行为管理方法及装置
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
US20190115027A1 (en) * 2017-10-12 2019-04-18 Google Llc Turn-based reinforcement learning for dialog management
US20190139537A1 (en) * 2017-11-08 2019-05-09 Kabushiki Kaisha Toshiba Dialogue system and dialogue method
CN109036380A (zh) * 2018-07-04 2018-12-18 苏州思必驰信息科技有限公司 对话状态跟踪方法、系统、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MINLIE HUANG等: "Challenges in Building Intelligent Open-domin Dialog System", 《ARXIV》 *
SARA L. UCKELMAN: "Medieval Disputationes de obligationibus as Formal Dialogue Systems", 《SPRINGERLINK》 *
姬朝阳等: "一种基于对手行为预测的多智能体合作研究", 《计算机与现代化》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220093092A1 (en) * 2020-09-24 2022-03-24 International Business Machines Corporation Synchronizing a voice reply of a voice assistant with activities of a user
US11735180B2 (en) * 2020-09-24 2023-08-22 International Business Machines Corporation Synchronizing a voice reply of a voice assistant with activities of a user
CN112307188A (zh) * 2020-12-30 2021-02-02 北京百度网讯科技有限公司 对话生成方法、系统、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN110569339B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
US20210117801A1 (en) Augmenting neural networks with external memory
CN110520871B (zh) 使用学习进度测量训练机器学习模型
US10043512B2 (en) Generating target sequences from input sequences using partial conditioning
CN109741112B (zh) 一种基于移动大数据的用户购买意向预测方法
WO2019155064A1 (en) Data compression using jointly trained encoder, decoder, and prior neural networks
KR20190007468A (ko) 비교 세트를 사용한 입력 예시들 분류
CN109313540B (zh) 口语对话系统的两阶段训练
WO2019157251A1 (en) Neural network compression
CN109036380A (zh) 对话状态跟踪方法、系统、电子设备及存储介质
CN110717027B (zh) 多轮智能问答方法、系统以及控制器和介质
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN110569339B (zh) 对话方法、介质、装置和计算设备
CN113239157B (zh) 对话模型的训练方法、装置、设备和存储介质
CN113190702B (zh) 用于生成信息的方法和装置
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN110597968A (zh) 一种回复选择方法及装置
CN114467096A (zh) 增强基于注意力的神经网络以选择性地关注过去的输入
CN111191722B (zh) 通过计算机训练预测模型的方法及装置
CN110851580B (zh) 一种基于结构化用户属性描述的个性化任务型对话系统
CN117351299A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN110838021A (zh) 转化率预估方法、装置、电子设备及存储介质
CN113535911B (zh) 奖励模型处理方法、电子设备、介质和计算机程序产品
CN117795527A (zh) 使用自回归语言模型神经网络评估输出序列
CN110956528B (zh) 一种电商平台的推荐方法及系统
CN110659962B (zh) 一种商品信息输出方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant