CN107342078B - 对话策略优化的冷启动系统和方法 - Google Patents

对话策略优化的冷启动系统和方法 Download PDF

Info

Publication number
CN107342078B
CN107342078B CN201710483731.XA CN201710483731A CN107342078B CN 107342078 B CN107342078 B CN 107342078B CN 201710483731 A CN201710483731 A CN 201710483731A CN 107342078 B CN107342078 B CN 107342078B
Authority
CN
China
Prior art keywords
action
module
decision
conversation
tea
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710483731.XA
Other languages
English (en)
Other versions
CN107342078A (zh
Inventor
俞凯
陈露
周翔
常成
杨闰哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201710483731.XA priority Critical patent/CN107342078B/zh
Publication of CN107342078A publication Critical patent/CN107342078A/zh
Application granted granted Critical
Publication of CN107342078B publication Critical patent/CN107342078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种对话策略优化的冷启动系统和方法,包括:用户输入模块、对话状态跟踪模块、教师决策模块、学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验,根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。本发明能够显著提高对话策略在强化学习在线训练初期的性能;提高对话策略的学习速度,即减少其达到一定性能所用的对话数量。

Description

对话策略优化的冷启动系统和方法
技术领域
本发明涉及的是一种智能人机对话领域的技术,具体是一种对话策略优化的冷启动系统和方法。
背景技术
智能人机对话系统是能与用户进行对话交互的智能系统。其中,对话策略是整个系统中决定如何回复用户的模块。对话策略的最早设计方法是设计者根据不同的用户输入设计不同的逻辑规则。这种方法的缺点是对话策略不能随着用户的反馈不断进行优化,增强对用户和环境的自适应能力。
近年来,深度强化学习方法逐渐被用于对话策略的优化中。在此方法中,对话策略用一个神经网络来表示,并利用奖励信号(reward)进行强化训练,此方法的好处是随着用户的不断使用,系统的性能(例如对话成功率)会不断提高。但是也有两大缺点:一是,在训练的初期,系统的性能很差,会导致用户流失;二是,如果要使系统达到一定的性能,需要大量的对话数据进行训练。
发明内容
本发明针对现有技术在训练初期,系统性能很差,且需要大量的对话数据进行训练以提高性能的缺陷,提出一种对话策略优化的冷启动系统和方法,能够显著提高对话策略在强化学习在线训练初期的性能;提高对话策略的学习速度,即减少其达到一定性能所用的对话数量。
本发明是通过以下技术方案实现的:
本发明涉及一种对话策略优化的冷启动系统,包括:用于接收用户输入的用户输入模块、用于解析当前用户输入的语义并根据对话上下文进行对话状态跟踪,即理解用户的意图的对话状态跟踪模块、根据设计好的基于规则的对话策略决策出在当前状态下的回复动作的教师决策模块、根据策略网络决策出当前状态的回复动作并估计当前决策的确定度的学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验,根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。
所述的用户输入包括但不限于语音、图像或者文本。
所述的策略网络采用但不限于Q-网络。
所述的随机选择中,选择学生决策模块产生的回复动作的确定度由Q-网络Dropout(在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃)带来的不确定性定义,具体为:Q-网络的每一个隐层后设有一Dropout层,在决策时,由于Dropout层每次将隐层节点置0的位置不同,对于同一对话状态输入,网络的输出也会不同,重复输入N次,得到N个动作,其中占比最大的动作为最终的决策动作astu,同时对应的占比即为决策的确定度ct
所述在第e个对话时,动作选择模块的具体选择步骤如下:
1)根据如下公式计算当前对话前连续W个对话决策的平均确定度
Figure GDA0002328245580000021
其中:Ti表示第i个对话的总的对话轮数;
2)根据单调递增函数Ptea(ΔCe)计算选择教师决策模块产生的回复动作atea作为最终决策动作的概率ptea,其中:ΔCe=max(0,Cth-Ce),Cth是确定度界限,例如0.7;
3)依概率ptea进行伯努利采样,如果为1,则选择教师决策模块产生的回复动作atea,否则选择学生决策模块产生的回复动作astu
4)当连续K个对话下平均确定度Ce都大于Cth,则从此时开始最终的决策动作at都选择astu,此时刻即为干预结束点。
所述的单调递增函数可以但不限于
Figure GDA0002328245580000022
其中:
Figure GDA0002328245580000023
a是小于Cth的常数。
所述的奖励回报,通过以下方式得到:
①在每一个对话轮回产生一个负数奖励;当对话结束时,如果输出模块回复的内容满足用户要求,则视为成功完成了用户任务,则产生一个正奖励;
②在干预结束点之前,在每一轮对话,如果at与atea不同,则产生一个负数奖励,否则产生一个正奖励。
所述的输出模块进行的更自然的表达,其包括但不限于:声音、图像或文本。
所述的对话经验(transition)包括:当前轮对话状态st、对话动作at、下一个对话状态st+1及当前轮奖励rt
所述的经验池包括:教师经验池和学生经验池,当动作选择模块取自教师决策模块产生的回复动作atea,则当前的对话经验放入教师经验池中,否则放入学生经验池中。
所述的网络参数更新是指:首先依概率ptea进行伯努利采样,如果为1,则选择教师经验池,否则选择学生经验池,然后从选择的经验池中采样固定数量的经验用于Q-网络参数的更新。
技术效果
与现有技术相比,本发明将基于逻辑规则的对话策略与基于强化学习的对话策略结合起来,提高了整个对话策略在训练初期的性能,避免了传统的基于强化学习的对话策略在训练初期因性能较差而导致用户流失;同时,随着用户的不断使用,即训练数据的增多,本发明系统的性能能够比基于传统方法的系统性能更快地收敛到较高水平。
附图说明
图1为本发明系统示意图;
图2为实施例效果示意图。
具体实施方式
本实施例涉及对话策略优化的冷启动系统,包括:
用户输入模块101:用于接收用户的输入,用户的输入可以是语音、图像或者文本。
对话状态跟踪模块102:用于解析当前用户输入的语义,同时根据对话上下文进行对话状态跟踪,即理解用户的意图。
教师决策模块103:根据设计好的基于规则的对话策略决策出在当前状态st下的回复动作atea
学生决策模块104:根据策略网络(Q-网络)决策出当前状态st的回复动作astu,同时估计当前决策的确定度。
动作选择模块105:根据一个随机函数从上述两个决策模块产生的回复动作中选择一个最终的回复动作at
输出模块106:将最终的回复动作转换成更自然的表达并展现给用户。
奖励函数模块107:在对话的每一个轮回计算对话的奖励回报(Reward),并提供给策略训练模块。
策略训练模块108:存储对话经验(transition)到经验池中,同时采样固定数量的经验并根据深度Q-网络(DQN)算法进行网络参数更新。
本实施例涉及上述系统的对话策略优化的冷启动实现方法,包括以下步骤:
步骤1)接收用户的输入信息ot,包括输入的文本、语音或图像信息。
步骤2)根据当前的输入信息ot以及上一轮对话状态st-1,将对话状态更新到st
步骤3)根据设计好的基于规则的对话策略决策出在当前状态st下的回复动作atea
步骤4)根据策略网络(Q-网络)决策出当前状态st的备选回复动作astu,同时估计当前决策的确定度ct
具体地,Q-网络中每一个隐层后设有一Dropout层,Dropout的丢失隐层比例可以设为0.2;在决策时,由于Dropout层每次将隐层中节点置为0的位置不同,对于同一对话状态输入st,网络的输出决策结果ai也会不同,重复输入N次,得到N个候选动作{a1,…,aN},其中占比最大的动作为最终的决策动作ai,同时对应的占比即为决策的确定度ct
步骤5)根据一个随机函数从上述两个决策模块产生的回复动作中选择一个最终的回复动作at
子步骤5-1)根据如下公式计算当前对话前连续W个对话决策的平均确定度
Figure GDA0002328245580000041
Figure GDA0002328245580000042
其中:Ti表示第i个对话的总的对话轮数;
子步骤5-2)根据单调递增函数Ptea(ΔCe)计算选择回复动作atea作为最终决策动作的概率ptea,其中:ΔCe=max(0,Cth-Ce),Cth是确定度界限,例如0.7;
具体地,所述的单调递增函数可以是
Figure GDA0002328245580000043
其中:
Figure GDA0002328245580000044
a是小于Cth的常数;
子步骤5-3)依概率ptea进行伯努利采样,如果为1,则选择回复动作atea,否则选择备选回复动作astu
子步骤5-4)当连续K个对话下平均确定度Ce都大于Cth,则从此时开始最终的决策动作at都选择astu,此时刻即为干预结束点。
步骤6)将最终的回复动作at转换成更自然的表达并展现给用户。
步骤7)奖励函数模块计算当前轮的奖励(Reward)rt
子步骤7-1)产生一个负数奖励,例如-0.05;
子步骤7-2)如果当前对话为最后一个对话轮回,且输出模块回复的内容满足用户要求,即系统成功完成了用户任务,则产生一个正奖励,例如1.0,否则奖励为0.0;
子步骤7-3)在干预结束点之前,在每一轮对话,如果at与atea不同,则产生一个负数奖励,例如-0.05,否则产生一个正奖励,例如0.05;
子步骤7-4)将上述三种奖励加起来作为当前轮的奖励rt
步骤8)强化学习训练模块存储对话经验(transition)到经验池中,同时采样固定数量的经验并根据深度Q-网络(DQN)算法进行网络参数更新:
子步骤8-1)按回复动作或备选回复动作分类存储对话经验(st-1,at-1,st,rt-1);
子步骤8-2)首先依概率ptea行伯努利采样,当采样值为1,则选择回复动作,否则选择备选回复动作,然后从选择的回复动作中采样固定数量的经验用于Q-网络参数的更新。
步骤9)回到步骤1),直到整个对话结束。
按上述具体实施方式进行实验,结果如图2所示。横轴表示强化学习训练所用的对话数量,纵轴表示对话成功率。Sys1代表我们的系统,Sys2代表传统的基于深度强化学习的系统,Rule代表完全基于逻辑规则的系统。结果表明,Sys1在训练数据较少时,能够拥有接近Rule系统的性能,而Sys2在训练数据较少时,对话成功率很低;同时随着训练数据的增多,Sys1的性能能够逐渐超过Rule的性能,且相较于Sys2,能够更块地收敛到较高的成功率。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (9)

1.一种对话策略优化的冷启动系统,其特征在于,包括:
用于接收用户输入的用户输入模块;
用于解析当前用户输入的语义并根据对话上下文进行对话状态跟踪,即理解用户的意图的对话状态跟踪模块;
根据设计好的基于规则的对话策略决策出在当前状态下的回复动作的教师决策模块;
根据策略网络决策出当前状态的回复动作并估计当前决策的确定度的学生决策模块;
从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块;
将最终的回复动作转换成更自然的表达并展现给用户的输出模块;
将对话经验存储到经验池中并采样固定数量的经验,根据深度Q网络算法进行网络参数更新的策略训练模块;
在对话的每一个轮回计算对话的奖励回报并输出至策略训练模块的奖励函数模块;
所述的随机选择中,选择学生决策模块产生的回复动作的确定度由Q-网络Dropout带来的不确定性定义,具体为:Q-网络的每一个隐层后设有一Dropout层,在决策时,由于Dropout层每次将隐层节点置0的位置不同,对于同一对话状态输入,网络的输出也会不同,重复输入N次,得到N个动作,其中占比最大的动作为最终的决策动作astu,同时对应的占比即为决策的确定度ct
所述的动作选择模块在第e个对话时;
1)计算当前对话前连续W个对话决策的平均确定度
Figure FDA0002328245570000011
其中:Ti表示第i个对话的总的对话轮数;
2)根据单调递增函数Ptea(ΔCe)计算选择教师决策模块产生的回复动作atea作为最终决策动作的概率ptea,其中:ΔCe=max(0,Cth-Ce),Cth是确定度界限;
3)依概率ptea进行伯努利采样,当采样值为1,则选择教师决策模块产生的回复动作atea,否则选择学生决策模块产生的回复动作astu
4)当连续K个对话下平均确定度Ce都大于Cth,则从此时开始最终的决策动作at都选择astu,此时刻即为干预结束点。
2.根据权利要求1所述的系统,其特征是,所述的单调递增函数
Figure FDA0002328245570000012
Figure FDA0002328245570000013
其中:
Figure FDA0002328245570000014
a是小于Cth的常数。
3.根据权利要求1所述的系统,其特征是,所述的奖励回报,通过以下方式得到;
①在每一个对话轮回产生一个负数奖励;当对话结束时,当输出模块回复的内容满足用户要求,则视为成功完成了用户任务,则产生一个正奖励;
②在干预结束点之前,在每一轮对话,当at与atea不同,则产生一个负数奖励,否则产生一个正奖励。
4.根据权利要求1所述的系统,其特征是,所述的对话经验包括:当前轮对话状态st、对话动作at、下一个对话状态st+1及当前轮奖励rt
5.根据权利要求1所述的系统,其特征是,所述的经验池包括:教师经验池和学生经验池,当动作选择模块取自教师决策模块产生的回复动作atea,则当前的对话经验放入教师经验池中,否则放入学生经验池中。
6.根据权利要求1所述的系统,其特征是,所述的网络参数更新是指:首先依概率ptea进行伯努利采样,当采样值为1,则选择教师经验池,否则选择学生经验池,然后从选择的经验池中采样固定数量的经验用于Q-网络参数的更新。
7.一种对话策略优化的冷启动实现方法,其特征在于,包括以下步骤:
步骤1)接收用户的输入信息ot
步骤2)根据当前的输入信息ot以及上一轮对话状态st-1,将对话状态更新到st
步骤3)根据设计好的基于规则的对话策略决策出在当前状态st下的回复动作atea
步骤4)根据策略网络决策出当前状态st的备选回复动作astu,同时估计当前决策的确定度ct
步骤5)根据一个随机函数从步骤3)和步骤4)的回复动作中选择一个最终的回复动作at
步骤6)将最终的回复动作at转换成更自然的表达并展现给用户;
步骤7)计算当前轮的奖励rt
步骤8)将对话经验存储到经验池中,同时采样固定数量的经验并根据深度Q-网络算法进行网络参数更新;
步骤9)回到步骤1),直到整个对话结束;
所述的步骤4),具体包括:Q-网络中每一个隐层后设有一Dropout层,并在决策时对于同一对话状态输入st,得到不同的决策结果作为候选动作,其中占比最大的动作为最终的决策动作,同时对应的占比即为决策的确定度ct
所述的步骤5),具体包括:
子步骤5-1)计算当前第e个对话前连续W个对话决策的平均确定度
Figure FDA0002328245570000031
其中:Ti表示第i个对话的总的对话轮数;
子步骤5-2)根据单调递增函数Ptea(ΔCe)计算选择回复动作atea作为最终决策动作的概率ptea,其中:ΔCe=max(0,Cth-Ce),Cth是确定度界限;
子步骤5-3)依概率ptea进行伯努利采样,当采样值为1,则选择回复动作atea,否则选择备选回复动作astu
子步骤5-4)当连续K个对话下平均确定度Ce都大于Cth,则从此时开始最终的决策动作at都选择astu,此时刻即为干预结束点。
8.根据权利要求7所述的方法,其特征是,所述的步骤7),具体包括:
子步骤7-1)产生一个负数奖励;
子步骤7-2)当当前对话为最后一个对话轮回,且输出模块回复的内容满足用户要求,即系统成功完成了用户任务,则产生一个正奖励,否则奖励为0.0;
子步骤7-3)在干预结束点之前,在每一轮对话,当at与atea不同,则产生一个负数奖励,否则产生一个正奖励;
子步骤7-4)将上述三种奖励加起来作为当前轮的奖励rt
9.根据权利要求7所述的方法,其特征是,所述的步骤8),具体包括:
子步骤8-1)按回复动作或备选回复动作分类存储对话经验(st-1,at-1,st,rt-1);
子步骤8-2)首先依概率ptea行伯努利采样,当采样值为1,则选择回复动作,否则选择备选回复动作,然后从选择的回复动作中采样固定数量的经验用于Q-网络参数的更新。
CN201710483731.XA 2017-06-23 2017-06-23 对话策略优化的冷启动系统和方法 Active CN107342078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710483731.XA CN107342078B (zh) 2017-06-23 2017-06-23 对话策略优化的冷启动系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710483731.XA CN107342078B (zh) 2017-06-23 2017-06-23 对话策略优化的冷启动系统和方法

Publications (2)

Publication Number Publication Date
CN107342078A CN107342078A (zh) 2017-11-10
CN107342078B true CN107342078B (zh) 2020-05-05

Family

ID=60220002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710483731.XA Active CN107342078B (zh) 2017-06-23 2017-06-23 对话策略优化的冷启动系统和方法

Country Status (1)

Country Link
CN (1) CN107342078B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304489B (zh) * 2018-01-05 2021-12-28 广东工业大学 一种基于强化学习网络的目标引导型个性化对话方法与系统
CN110390398B (zh) * 2018-04-13 2021-09-10 北京智行者科技有限公司 在线学习方法
CN108829797A (zh) * 2018-04-25 2018-11-16 苏州思必驰信息科技有限公司 多智能体对话策略系统构建方法及自适应方法
CN108647789B (zh) * 2018-05-15 2022-04-19 浙江大学 一种基于状态分布感知采样的智能体深度价值函数学习方法
CN108847220B (zh) * 2018-05-30 2020-04-28 苏州思必驰信息科技有限公司 对话状态跟踪器的训练方法及系统
CN109325155A (zh) * 2018-07-25 2019-02-12 南京瓦尔基里网络科技有限公司 一种新型对话状态存储方法及系统
CN109388698A (zh) * 2018-10-22 2019-02-26 北京工业大学 一种基于深度强化学习的指导性自动聊天方法
CN109829044A (zh) * 2018-12-28 2019-05-31 北京百度网讯科技有限公司 对话方法、装置及设备
CN111914069A (zh) * 2019-05-10 2020-11-10 京东方科技集团股份有限公司 训练方法和装置、对话处理方法和系统及介质
CN110245221B (zh) * 2019-05-13 2023-05-23 华为技术有限公司 训练对话状态跟踪分类器的方法和计算机设备
CN110211572B (zh) * 2019-05-14 2021-12-10 北京来也网络科技有限公司 基于强化学习的对话控制方法及装置
CN110569344B (zh) * 2019-08-22 2023-06-02 创新先进技术有限公司 确定对话文本对应的标准问句的方法和装置
CN110971683B (zh) * 2019-11-28 2021-06-15 海南大学 基于强化学习的服务组合方法
CN112989016B (zh) * 2021-05-17 2021-08-10 南湖实验室 用于检测对话策略学习中模拟用户经验质量的方法和系统
CN113392971B (zh) * 2021-06-11 2022-09-02 武汉大学 策略网络训练方法、装置、设备及可读存储介质
CN113704425A (zh) * 2021-08-27 2021-11-26 广东电力信息科技有限公司 一种结合知识增强和深度强化学习的对话策略优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及系统
CN106126636A (zh) * 2016-06-23 2016-11-16 北京光年无限科技有限公司 一种面向智能机器人的人机交互方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105094315B (zh) * 2015-06-25 2018-03-06 百度在线网络技术(北京)有限公司 基于人工智能的人机智能聊天的方法和装置
EP3341933A1 (en) * 2015-10-21 2018-07-04 Google LLC Parameter collection and automatic dialog generation in dialog systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及系统
CN106126636A (zh) * 2016-06-23 2016-11-16 北京光年无限科技有限公司 一种面向智能机器人的人机交互方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《On-line Dialogue Policy Learning with Companion Teaching》;Lu Chen et al.;《Proceedings of the 15th Conference of the European Chapter of the Association for Compuational Linguistics》;20170407;第2卷;全文 *
《面向自然交互的多通道人机对话系统》;杨明浩等;《计算机科学》;20141031;第41卷(第10期);全文 *

Also Published As

Publication number Publication date
CN107342078A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107342078B (zh) 对话策略优化的冷启动系统和方法
CN113962315B (zh) 模型预训练方法、装置、设备、存储介质以及程序产品
CN108734276B (zh) 一种基于对抗生成网络的模仿学习对话生成方法
US11227581B2 (en) Systems and methods for generating a response based on task-independent conversational responses or task-specific responses
CN112541063B (zh) 一种基于自学习对话模型的人机对话方法及系统
CN111191450B (zh) 语料清洗方法、语料录入设备及计算机可读存储介质
CN105704013A (zh) 基于上下文的话题更新数据处理方法及装置
US9361589B2 (en) System and a method for providing a dialog with a user
CN116521850B (zh) 一种基于强化学习的交互方法及装置
CN108962221B (zh) 在线对话状态跟踪模型的优化方法及系统
CN113053388B (zh) 语音交互方法、装置、设备和存储介质
CN115293132B (zh) 虚拟场景的对话处理方法、装置、电子设备及存储介质
EP2879062A2 (en) A system and a method for providing a dialog with a user
CN110532555A (zh) 一种基于强化学习的语言评价生成方法
CN111046178A (zh) 一种文本序列生成方法及其系统
CN114912020A (zh) 一种基于用户偏好图的多子目标对话推荐方法
CN111027292A (zh) 一种限定采样文本序列生成方法及其系统
CN117252957A (zh) 根据文字描述生成带精确文字图片的方法、装置及存储介质
CN110297894B (zh) 一种基于辅助网络的智能对话生成方法
JP2024532679A (ja) 自己回帰言語モデルニューラルネットワークを使用して出力系列を評価すること
CN115757749B (zh) 一种对话处理方法、装置、电子设备及存储介质
CN111091011B (zh) 领域预测方法、领域预测装置及电子设备
CN113159168A (zh) 基于冗余词删除的预训练模型加速推理方法和系统
JP2015155932A (ja) ユーザとの対話システム及び方法
CN113515604B (zh) 一种闲聊机器人实体跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200623

Address after: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Co-patentee after: AI SPEECH Co.,Ltd.

Patentee after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Co-patentee before: AI SPEECH Co.,Ltd.

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201104

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: AI SPEECH Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Cold Start System and Method for Dialogue Strategy Optimization

Effective date of registration: 20230726

Granted publication date: 20200505

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433