CN107357838B - 基于多任务学习的对话策略在线实现方法 - Google Patents

基于多任务学习的对话策略在线实现方法 Download PDF

Info

Publication number
CN107357838B
CN107357838B CN201710483734.3A CN201710483734A CN107357838B CN 107357838 B CN107357838 B CN 107357838B CN 201710483734 A CN201710483734 A CN 201710483734A CN 107357838 B CN107357838 B CN 107357838B
Authority
CN
China
Prior art keywords
conversation
value
reward value
learning
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710483734.3A
Other languages
English (en)
Other versions
CN107357838A (zh
Inventor
俞凯
常成
杨闰哲
陈露
周翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University Intellectual Property Management Co ltd
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University Intellectual Property Management Co ltd, AI Speech Ltd filed Critical Shanghai Jiaotong University Intellectual Property Management Co ltd
Priority to CN201710483734.3A priority Critical patent/CN107357838B/zh
Publication of CN107357838A publication Critical patent/CN107357838A/zh
Application granted granted Critical
Publication of CN107357838B publication Critical patent/CN107357838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

一种基于多任务学习的对话策略在线实现方法,通过实时获取人机对话的语料信息,提取当前用户状态特征和用户动作特征并构造得到训练输入;然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注,并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化,最后合并两项奖赏值,并更新对话策略。本发明采用强化学习的框架,通过在线学习进行对话策略优化,无需根据领域人工设计规则策略,能够适应不同复杂度的领域信息结构、不同规模的数据;本发明将原始优化单一累积奖赏值的任务进行分解,利用多任务学习同时优化从而学到更好的网络结构,降低训练过程的方差。

Description

基于多任务学习的对话策略在线实现方法
技术领域
本发明涉及的是一种语音输入领域的技术,具体是一种针对任务型对话系统类型的基于多任务学习的对话策略在线实现方法。
背景技术
随着人工智能技术的发展,对话系统作为一种能够与人类自然交流的系统,以其良好的应用前景逐渐成为研究热点。目前,该技术已被广泛应用于自动客服、语音助手、聊天机器人等场景,极大的改善了人机交互体验。一个典型的对话系统包括五个模块:语音识别、语义理解、对话管理、自然语言生成和语音合成。就功能而言,对话系统可以分为聊天型对话系统和任务型对话系统。前者以不间断的与用户聊天为目的,没有明确的领域限制;后者以完成一个特定的领域任务为目的,围绕某个领域开展对话,若最终完成对话目标则认为对话成功,否则对话失败。
发明内容
本发明针对现有技术存在的耗费人力且设计好的规则难以拓展、不能广泛适用于信息结构复杂的领域、训练过程初期不稳定且学习速率难以保证等缺陷,提出一种基于多任务学习的对话策略在线实现方法,采用强化学习的框架,通过在线学习进行对话策略优化,无需根据领域人工设计规则策略,能够适应不同复杂度的领域信息结构、不同规模的数据;本发明为了提高训练过程的稳定性,将原始优化单一累积奖赏值的任务进行分解,利用多任务学习同时优化从而学到更好的网络结构,降低训练过程的方差。
本发明是通过以下技术方案实现的:
本发明涉及一种基于多任务学习的在线对话系统,包括:语音识别模块、语义理解模块、对话管理模块、自然语言生成模块和语音合成模块,其中:语音识别模块与语义理解模块相连并传输用户语音识别之后的文本信息,语义理解模块与对话管理模块相连并传输用户语义信息,对话管理模块与自然语言生成模块相连并传输机器语义信息,自然语言生成模块与语音合成模块相连并传输机器语义信息。
所述的对话管理模块中进一步包括:对话状态跟踪子模块和与之相连并传输当前对话状态信息的对话策略子模块。
本发明涉及一种基于上述系统的对话策略在线实现方法,通过实时获取人机对话的语料信息,提取当前用户状态特征和用户动作特征并构造得到训练输入;然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注,并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化,最后合并两项奖赏值,并更新对话策略。
所述的语料信息包括但不限于:当前对话的轮数、对话成功或失败的标识、用户语义信息、系统语义信息。
优选地,根据不同的对话领域和应用需求,策略学习可能需要大量语料,在训练过程中可采用虚拟用户等虚拟环境代替真实用户和场景进行策略学习。
所述的当前用户状态特征,由对话管理模块中的对话状态跟踪子模块根据历史用户语义和系统语义、当前用户语义和系统语义信息生成。
所述的用户动作特征,从当前用户语义信息中提取,其表示形式采用但不限于为“槽值对”(slot-value pair),所谓“槽”即是语义属性的名称,“值”对应该语义属性的值,一个典型的用户动作格式为:“槽=值”。
用户动作特征从用户语义中提取,用于表示用户语义的格式不限于“槽值对”的形式,也可以是其他表示语义的格式。
所述的构造训练输入,具体包括:对提取得到的用户状态和用户动作要进行向量化,从而构造出训练样本的输入:用户状态特征st和用户动作特征at,其中:t是当前对话轮数。
所述的拆分是指:将当前累积奖赏值拆分为对话轮数奖赏值和对话成功奖赏值,即:
Figure BDA0001329908230000021
其中:t是对话轮数,rt是第t轮的累积奖赏值,
Figure BDA0001329908230000022
是第t轮的对话轮数奖赏值,
Figure BDA0001329908230000023
是第t轮的对话成功奖赏值。
所述的拆分,具体为对累积奖赏值的拆分可根据应用需求进行差异性划分,若总的累积奖赏的计算包含除了“对话轮数”及“对话是否成功”之外的其他信息,也可以将其他信息拆分出来建模。
所述的训练标注,即对话轮数奖赏值和对话成功奖赏值。
优选地,第t轮的对话轮数奖赏值
Figure BDA0001329908230000024
的大小根据当前对话轮数t和每轮对话惩罚值确定,即:
Figure BDA0001329908230000025
其中:t是对话轮数,plt是对话轮数立即惩罚值(小于0)。
优选地,第t轮的对话成功奖赏值
Figure BDA0001329908230000026
的大小根据当前对话是否结束,以及对话是否成功来确定,即:
Figure BDA0001329908230000027
其中:δ是对话成功标识(当且仅当对话结束且成功时值为1,否则为0),rwd是对话成功立即奖赏值。
所述的优化是指:建立一个多任务学习模型同时优化对话轮数奖赏值和对话成功奖赏值,该多任务学习模型的输入是训练输入,模型的标注为训练标注。
所述的多任务学习模型采用但不限于:强化学习的“深度动作学习网络”算法(Deep Q-Learning Network,DQN),每一轮对话迭代更新动作网络Q(st,at;θ),其中:第t轮的用户状态st和用户动作at是动作网络Q的输入参数,θ是动作网络Q的网络结构参数。
所述的强化学习也可以是其他基于动作学习的强化学习算法,比如:双深度动作学习网络算法(Double DQN),优先深度动作学习网络算法(Prioritied DQN)等。
所述的多任务学习模型的动作学习目标(Q-Learning target)Qe在每轮对话后更新为:
Figure BDA0001329908230000031
其中:r是立即奖赏值,γ是衰减因子,Q是动作网络,at+1是第t+1轮的用户动作,st+1是第t+1轮的用户状态,θ-是上次迭代得到的动作网络的参数。对于优化对话轮数奖赏值和对话成功奖赏值这两个不同任务的模型网络,r的值分别对应于各自的
Figure BDA0001329908230000032
Figure BDA0001329908230000033
训练网络模型的参数时损失函数L(θ)的定义为:
Figure BDA0001329908230000034
其中:
Figure BDA0001329908230000035
是求期望运算,Q是动作网络,st是第t轮的用户状态,at是第t轮的用户动作,θ是当前迭代的动作网络的参数。
所述的更新对话策略是指:利用训练得到的两个奖赏值模型对每一轮对话输出:预测的对话轮数累积奖赏值Qturn(st,at)和预测的对话成功累积奖赏值Qsucc(st,at),再利用公式Q(st,at)=Qturn(st,at)+Qsucc(st,at)将两种奖赏值合并,得到当前总累积奖赏值Q(st,at),从而更新对话策略为:π(st,at)=argmaxa Q(st,at),其中:π是策略函数。
技术效果
与现有技术相比,本发明避免了显式的由领域专家进行人工设计规则,节省了人力、便于领域拓展、提高了系统的可维护性;本发明应用强化学习,有较强的建模能力,在数据充足的情况下能够适应不同的领域环境,包括简单领域和复杂领域;本发明利用多任务学习,将两个任务同时优化从而学到更好的网络结构,使训练过程更稳定、方差更小、学习速率更高;本发明利用多任务学习,使动作网络的学习对噪声更鲁棒,相比传统方法能够收敛到更好的值,从而得到更优的对话策略;本发明有效利用了对话数据的轮数信息和最终对话成功或失败的反馈信息,能够额外预测距离对话结束还有几轮对话,以及预测当前对话的成功率,提供更丰富的信息帮助系统进行决策。
附图说明
图1本发明流程图;
图2是实施例中实时获取人机对话语料的在线口语对话系统流程图;
图3是实施例中用多任务学习方法对动作网络进行迭代训练的流程图;
图4是实施例中在线对话系统的结构示意图;
图5是实施例采用本发明的方法与现有技术的对比结果图。
具体实施方式
如图1所示,本实施例如下步骤:
步骤101、从在线对话系统中实时获取人机对话的语料。
在本实施例中,用于实时获取人机对话语料的在线口语对话系统流程如图2所示,一次完整的对话流程步骤包括:
步骤201:语音识别,将用户的语音转换成文本格式;
步骤202:语义理解,将用户语音文本解析成“槽值对”形式的语义;
步骤203:对话状态跟踪,根据当前信息和历史信息更新当前用户状态;
步骤204:对话策略生成回复动作,以用户当前状态和用户动作为输入,根据对话策略生成系统回复动作;
步骤205:自然语言生成,将系统回复动作转换成自然语言;
步骤206:语音合成,将系统回复自然语言转换成语音,播放给用户,完成一轮对话。
每一轮对话,获取的人机对话的实时语料信息包括:当前对话的轮数、对话成功或失败的标识、用户语义信息、系统语义信息等,即对话策略训练所需的原始输入信息。
步骤102、提取当前用户状态特征和用户动作特征,构造训练输入:从步骤202得到用户语义信息,从中提取用户动作,格式为“槽=值”;从步骤203直接得到用户状态信息。将当前用户状态和用户动作向量化,从而构造出训练样本的输入:用户状态特征st和用户动作特征at,其中:t是当前对话轮数。
步骤103、对当前累积奖赏值进行拆分,构造训练标注:将当前累积奖赏值被拆分为:对话轮数奖赏值和对话成功奖赏值两项,即:
Figure BDA0001329908230000041
其中:t是对话轮数,rt是第t轮的累积奖赏值,
Figure BDA0001329908230000042
是第t轮的对话轮数奖赏值,
Figure BDA0001329908230000043
是第t轮的对话成功奖赏值。
其中,
Figure BDA0001329908230000044
值的大小根据当前对话轮数t和每轮对话惩罚值确定,即:
Figure BDA0001329908230000045
本实施例中,设定plt=-1;
Figure BDA0001329908230000046
值的大小根据当前对话是否结束,以及对话是否成功来确定,即:
Figure BDA0001329908230000047
其中:δ是对话成功标识,本实施例中设定rwd=+20。
由此构造出两个不同奖赏值的训练标注。
步骤104、用多任务学习同时优化两种奖赏值模型:建立一个多任务学习模型同时优化对话轮数奖赏值和对话成功奖赏值,模型的输入是步骤102得到的训练输入,模型的标注来自步骤103得到的
Figure BDA0001329908230000048
Figure BDA0001329908230000049
两种奖赏值。
对两个任务的优化学习采用强化学习的“深度动作学习网络”算法(Deep Q-Learning Network,DQN),每一轮对话迭代更新动作网络Q(st,at;θ),其中:第t轮的用户状态st和用户动作at是动作网络Q的输入参数,θ是动作网络Q的网络结构参数。
所述的动作网络Q(st,at;θ)的实现在本实施例中采用深度神经网络(Deep NeuralNetwork,DNN)模型,网络的层数设定为3层,每一层设定300个神经元节点,神经网络的训练方式采用经典的随机梯度下降(Stochastic Gradient Descent,SGD)算法。
更具体地,在第t轮对话,用多任务学习方法对动作网络Q(st,at;θ)的迭代训练流程如图3所示,其步骤包括:
步骤301:输入用户状态特征st和用户动作特征at,即102中提取的输入特征向量;
步骤302:将累积奖赏值rt拆分成
Figure BDA0001329908230000051
Figure BDA0001329908230000052
两项,对应两个任务,即训练对话轮数奖赏值模型和训练对话成功奖赏值模型;
步骤303:更新轮数奖赏值网络的动作学习目标(Q-Learning target),动作学习目标Qe在每轮对话后更新为:
Figure BDA0001329908230000053
其中:r是立即奖赏值,γ是衰减因子,Q是动作网络,at+1是第t+1轮的用户动作,st+1是第t+1轮的用户状态,θ-是上次迭代得到的动作网络的参数。对于优化对话轮数奖赏值模型网络,r的值即
Figure BDA0001329908230000054
步骤304:根据轮数奖赏值网络损失函数更新网络参数,损失函数L(θ)的定义为:
Figure BDA0001329908230000055
其中:
Figure BDA0001329908230000056
是求期望运算,Q是轮数奖赏值动作网络,st是第t轮的用户状态,at是第t轮的用户动作,θ是当前迭代的动作网络的参数。
步骤305:更新对话成功奖赏值网络的动作学习目标(Q-Learning target),类似步骤303,不同的是,对于优化对话成功奖赏值模型网络,r的值即
Figure BDA0001329908230000057
步骤306:根据对话成功奖赏值网络损失函数更新网络参数,类似步骤305,不同的是,Q是对话成功奖赏值动作网络。
步骤307:合并两项奖赏值,更新对话策略,即如图1中步骤105所示:
利用步骤104训练得到的两个奖赏值模型对每一轮对话,输出:预测的对话轮数累积奖赏值Qturn(st,at)和预测的对话成功累积奖赏值Qsucc(st,at),再利用公式Q(st,at)=Qturn(st,at)+Qsucc(st,at)将两种奖赏值合并,得到当前总累积奖赏值Q(st,at)。
从而策略函数π的更新公式为:π(st,at)=argmaxa Q(st,at)。
由此,每一轮对话都可以将对话策略进行一次迭代更新,直至收敛。
本实施例通过多任务学习的对话策略学习方法,与传统方法对比结果图如图5所示,本发明所述的方法训练过程更稳定、方差更小,且学习速率更快、收敛更好。最终,在充分进行对话策略学习之后,本发明所述的方法收敛达到0.73的对话成功率,优于传统方法收敛达到的0.70的对话成功率。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种基于多任务学习的对话策略在线实现方法,其特征在于,通过实时获取人机对话的语料信息,提取当前用户状态特征和用户动作特征并构造得到训练输入;然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注,并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化,最后合并两项奖赏值,并更新对话策略;
所述的语料信息包括:当前对话的轮数、对话成功或失败的标识、用户语义信息和/或系统语义信息;
所述的当前用户状态特征,由对话管理模块中的对话状态跟踪子模块根据历史用户语义和系统语义、当前用户语义和系统语义信息生成;
所述的拆分是指:将当前累积奖赏值拆分为对话轮数奖赏值和对话成功奖赏值,即:rt=rt turn+rt succ,其中:t是对话轮数,rt是第t轮的累积奖赏值,rt turn是第t轮的对话轮数奖赏值,rt succ是第t轮的对话成功奖赏值;
第t轮的对话轮数奖赏值rt turn的大小根据当前对话轮数t和每轮对话惩罚值确定,即:rt turn=t*plt,其中:t是对话轮数,plt是对话轮数立即惩罚值;
第t轮的对话成功奖赏值rt succ的大小根据当前对话是否结束,以及对话是否成功来确定,即:rt succ=δ*rwd,其中:δ是对话成功标识,当且仅当对话结束且成功时值为1,否则为0,rwd是对话成功立即奖赏值。
2.根据权利要求1所述的方法,其特征是,根据不同的对话领域和应用需求,策略学习可能需要大量语料,在训练过程中可采用虚拟用户等虚拟环境代替真实用户和场景进行策略学习。
3.根据权利要求1所述的方法,其特征是,所述的用户动作特征,从当前用户语义信息中提取,其表示形式采用:“槽值对”,其中:“槽”即是语义属性的名称,“值”对应该语义属性的值。
4.根据权利要求1所述的方法,其特征是,所述的训练输入,通过以下方式得到:对提取得到的用户状态和用户动作要进行向量化,从而构造出训练样本的输入:用户状态特征St和用户动作特征at,其中:t是当前对话轮数。
5.根据权利要求1所述的方法,其特征是,所述的优化是指:建立一个多任务学习模型同时优化对话轮数奖赏值和对话成功奖赏值,该多任务学习模型的输入是训练输入,模型的标注为训练标注;
所述的多任务学习模型采用:强化学习的深度动作学习网络算法、双深度动作学习网络算法或优先深度动作学习网络算法。
6.根据权利要求5所述的方法,其特征是,所述的强化学习的深度动作学习网络算法中,每一轮对话迭代更新动作网络Q(St,at;θ),其中:第t轮的用户状态St和用户动作at是动作网络Q的输入参数,θ是动作网络Q的网络结构参数。
7.根据权利要求6所述的方法,其特征是,所述的多任务学习模型的动作学习目标Qe在每轮对话后更新为:
Figure FDA0002589877680000021
其中:r是立即奖赏值,γ是衰减因子,Q是动作网络,at+1是第t+1轮的用户动作,St+1是第t+1轮的用户状态,
Figure FDA0002589877680000023
是上次迭代得到的动作网络的参数,对于优化对话轮数奖赏值和对话成功奖赏值这两个不同任务的模型网络,r的值分别对应于各自的rt turn和rt succ
训练网络模型的参数时损失函数L(θ)的定义为:L(θ)=Ε[(Qe-Q(St,at;θ))2],其中:Ε是求期望运算,Q是动作网络,St是第t轮的用户状态,at是第t轮的用户动作,θ是当前迭代的动作网络的参数。
8.根据权利要求6所述的方法,其特征是,所述的更新对话策略是指:利用训练得到的两个奖赏值模型对每一轮对话输出:预测的对话轮数累积奖赏值Qturn(St,at)和预测的对话成功累积奖赏值Qsucc(St,at),再利用公式Q(St,at)=Qturn(St,at)+Qsucc(St,at)将两种奖赏值合并,得到当前总累积奖赏值Q(St,at),从而更新对话策略为:
Figure FDA0002589877680000022
其中:π是策略函数。
CN201710483734.3A 2017-06-23 2017-06-23 基于多任务学习的对话策略在线实现方法 Active CN107357838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710483734.3A CN107357838B (zh) 2017-06-23 2017-06-23 基于多任务学习的对话策略在线实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710483734.3A CN107357838B (zh) 2017-06-23 2017-06-23 基于多任务学习的对话策略在线实现方法

Publications (2)

Publication Number Publication Date
CN107357838A CN107357838A (zh) 2017-11-17
CN107357838B true CN107357838B (zh) 2020-09-01

Family

ID=60273492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710483734.3A Active CN107357838B (zh) 2017-06-23 2017-06-23 基于多任务学习的对话策略在线实现方法

Country Status (1)

Country Link
CN (1) CN107357838B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444214B (zh) 2017-11-24 2021-08-17 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN108268616B (zh) * 2018-01-04 2020-09-01 中国科学院自动化研究所 融合规则信息的可控制性对话管理扩展方法
CN108304489B (zh) * 2018-01-05 2021-12-28 广东工业大学 一种基于强化学习网络的目标引导型个性化对话方法与系统
CN108282587B (zh) * 2018-01-19 2020-05-26 重庆邮电大学 基于状态跟踪与策略导向下的移动客服对话管理方法
US20210042584A1 (en) * 2018-01-30 2021-02-11 Nec Corporation Information processing apparatus, control method, and non-transitory storage medium
US11501076B2 (en) * 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
CN108491380B (zh) * 2018-03-12 2021-11-23 思必驰科技股份有限公司 用于口语理解的对抗多任务训练方法
CN108962238B (zh) * 2018-04-25 2020-08-07 苏州思必驰信息科技有限公司 基于结构化神经网络的对话方法、系统、设备及存储介质
CN112135716B (zh) * 2018-05-18 2023-11-03 谷歌有限责任公司 数据高效的分层强化学习
CN108804611B (zh) * 2018-05-30 2021-11-19 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
CN108959412B (zh) * 2018-06-07 2021-09-14 出门问问信息科技有限公司 标注数据的生成方法、装置、设备及存储介质
CN108962224B (zh) * 2018-07-19 2020-06-26 苏州思必驰信息科技有限公司 口语理解和语言模型联合建模方法、对话方法及系统
CN109227558A (zh) * 2018-10-09 2019-01-18 北京智合大方科技有限公司 可实时调校的智能外呼机器人
US11100407B2 (en) 2018-10-10 2021-08-24 International Business Machines Corporation Building domain models from dialog interactions
CN109388698A (zh) * 2018-10-22 2019-02-26 北京工业大学 一种基于深度强化学习的指导性自动聊天方法
CN110018722B (zh) * 2018-11-06 2022-12-23 联想企业解决方案(新加坡)有限公司 用于热控制的机器学习装置、系统和方法
CN109817329B (zh) * 2019-01-21 2021-06-29 暗物智能科技(广州)有限公司 一种医疗问诊对话系统以及应用于该系统的强化学习方法
CN109961152B (zh) * 2019-03-14 2021-03-02 广州多益网络股份有限公司 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN109977208B (zh) * 2019-03-22 2021-04-09 北京中科汇联科技股份有限公司 一种融合faq和任务及主动引导的对话系统
US11681923B2 (en) * 2019-04-19 2023-06-20 Samsung Electronics Co., Ltd. Multi-model structures for classification and intent determination
CN110111766A (zh) * 2019-04-22 2019-08-09 南京硅基智能科技有限公司 一种多领域任务型对话系统和终端
CN110245221B (zh) * 2019-05-13 2023-05-23 华为技术有限公司 训练对话状态跟踪分类器的方法和计算机设备
CN110347815A (zh) * 2019-07-11 2019-10-18 上海蔚来汽车有限公司 语音对话系统中的多任务处理方法以及多任务处理系统
CN110569339B (zh) * 2019-07-22 2022-04-19 清华大学 对话方法、介质、装置和计算设备
US11423235B2 (en) 2019-11-08 2022-08-23 International Business Machines Corporation Cognitive orchestration of multi-task dialogue system
CN112884501B (zh) * 2019-11-29 2023-10-10 百度在线网络技术(北京)有限公司 数据处理方法、装置、电子设备及存储介质
CN111104502A (zh) * 2019-12-24 2020-05-05 携程计算机技术(上海)有限公司 外呼系统的对话管理方法、系统、电子设备和存储介质
CN111274438B (zh) * 2020-01-15 2023-06-23 中山大学 一种语言描述引导的视频时序定位方法
CN112100354B (zh) * 2020-09-16 2023-07-25 北京奇艺世纪科技有限公司 人机对话方法、装置、设备及存储介质
CN112800192B (zh) * 2021-01-14 2022-02-08 云从科技集团股份有限公司 多轮对话方法、系统、介质及装置
CN112818097A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于对话框状态跟踪模型的任务外训练系统
CN113239171B (zh) * 2021-06-07 2023-08-01 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
CN114418119A (zh) * 2022-01-21 2022-04-29 深圳市神州云海智能科技有限公司 一种基于结构深度嵌入的对话策略优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473087A (zh) * 2013-08-30 2013-12-25 福建升腾资讯有限公司 一种多任务系统中软件开关机的关机控制方法
CN104462024A (zh) * 2014-10-29 2015-03-25 百度在线网络技术(北京)有限公司 生成对话动作策略模型的方法和装置
CN105630960A (zh) * 2015-12-24 2016-06-01 百度在线网络技术(北京)有限公司 测试领域任务型对话系统的方法和装置
CN105788593A (zh) * 2016-02-29 2016-07-20 中国科学院声学研究所 生成对话策略的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664644B1 (en) * 2006-06-09 2010-02-16 At&T Intellectual Property Ii, L.P. Multitask learning for spoken language understanding
US9299081B2 (en) * 2012-09-10 2016-03-29 Yahoo! Inc. Deriving a user profile from questions
US10088972B2 (en) * 2013-12-31 2018-10-02 Verint Americas Inc. Virtual assistant conversations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473087A (zh) * 2013-08-30 2013-12-25 福建升腾资讯有限公司 一种多任务系统中软件开关机的关机控制方法
CN104462024A (zh) * 2014-10-29 2015-03-25 百度在线网络技术(北京)有限公司 生成对话动作策略模型的方法和装置
CN105630960A (zh) * 2015-12-24 2016-06-01 百度在线网络技术(北京)有限公司 测试领域任务型对话系统的方法和装置
CN105788593A (zh) * 2016-02-29 2016-07-20 中国科学院声学研究所 生成对话策略的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
On-line Dialogue Policy Learning with Companion Teaching;Lu Chen et.al;《Proceedings of the 15th Conference of European Chapter of the association for Computational Linguistics》;20170407;正文第2节,图1 *
口语对话系统中对话管理方法研究综述;王玉 等;《计算机科学》;20150630;全文 *

Also Published As

Publication number Publication date
CN107357838A (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
CN107357838B (zh) 基于多任务学习的对话策略在线实现方法
CN109299237B (zh) 基于行动者评论家强化学习算法的循环网络人机对话方法
CN111159368B (zh) 一种个性化对话的回复生成方法
CN110837548B (zh) 答案匹配方法、装置、电子设备及存储介质
CN110059170B (zh) 基于用户交互的多轮对话在线训练方法及系统
CN111460833A (zh) 文本生成方法、装置和设备
CN114691852B (zh) 人机对话系统及方法
CN112633010A (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN113239167A (zh) 一种可自动生成对话策略的任务型对话管理方法和系统
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN111046178A (zh) 一种文本序列生成方法及其系统
CN110069611A (zh) 一种主题增强的聊天机器人回复生成方法及装置
CN110096516A (zh) 自定义的数据库交互的对话生成方法及系统
CN110297894B (zh) 一种基于辅助网络的智能对话生成方法
CN115392261A (zh) 模型训练及任务型对话方法、电子设备
CN115062606A (zh) 对话数据分析及其模型训练方法、及电子设备
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN117252161A (zh) 一种特定领域的模型训练和文本生成方法
CN116777568A (zh) 金融市场交易事前智能对话下单方法、装置及存储介质
CN112364659A (zh) 一种无监督的语义表示自动识别方法及装置
CN111414466A (zh) 一种基于深度模型融合的多轮对话建模方法
CN116701566A (zh) 一种基于情感的多轮对话模型及对话方法
CN116303930A (zh) 一种基于语义匹配与生成模型的会话智能生成方法
CN116204623A (zh) 一种会话主题主动引导式会话方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200623

Address after: Room 223, old administration building, 800 Dongchuan Road, Minhang District, Shanghai, 200240

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Applicant after: AI SPEECH Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Applicant before: SHANGHAI JIAO TONG University

Applicant before: AI SPEECH Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201021

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: Room 223, old administration building, 800 Dongchuan Road, Minhang District, Shanghai, 200240

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: AI SPEECH Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Online Implementation Method of Dialogue Strategy Based on Multitask Learning

Effective date of registration: 20230726

Granted publication date: 20200901

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433