CN105788593B - 生成对话策略的方法及系统 - Google Patents
生成对话策略的方法及系统 Download PDFInfo
- Publication number
- CN105788593B CN105788593B CN201610112563.9A CN201610112563A CN105788593B CN 105788593 B CN105788593 B CN 105788593B CN 201610112563 A CN201610112563 A CN 201610112563A CN 105788593 B CN105788593 B CN 105788593B
- Authority
- CN
- China
- Prior art keywords
- conversation
- value
- dialog
- action
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种对话策略生成的方法及系统。生成对话策略的方法:从语音对话系统中获取人机对话语料,定义并抽取出对话状态和对话动作;制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;进而,将输出的立即奖赏值结合对话动作和对话任务组成批量式强化学习算法的输入样本集合;初始化累积奖赏值,并根据当前迭代的值函数,运用贝尔曼迭代更新各个样本的累积奖赏值;将对话动作和对话状态作为高斯过程的输入,更新后的累积奖赏值作为输出,进而更新值函数;当迭代次数达到预定的迭代次数,输出对话策略。本发明直接在真实的人机语料库进行批量式强化学习,避免了虚拟用户的构建和由此带来的用户行为误差。
Description
技术领域
本发明涉及语音对话系统的对话策略优化,特别涉及一种生成对话策略的方法及系统。
背景技术
语音对话系统以语音交互作为人机接口,使用对话的形式与用户交流以进行信息收集和呈现。与传统的人机接口相比,语音对话系统更接近真实的人类交流方式,对使用用户更为友好,操作更为简单、方便,具有广泛的应用场景。按照应用场景和所提供服务类型的不同,语音对话系统可分为聊天式、面向任务式。而按照支持领域的不同可分为面向特定领域或面向多领域的对话系统。
本方法主要针对特定领域、面向任务式的语音对话系统。在交互的表现形式上通常为:用户向系统提供若干个语义槽的具体填充值,之后系统在后台数据库中进行查询,或借助于API完成某项业务,之后通过语音的形式向用户播报执行结果。
在语音对话系统中,对话管理器是重要模块之一,他的主要功能是追踪当前对话状态、制定对话策略并引导整个对话流程。对话策略是从对话状态到系统动作的映射,即在某一个回合的对话场景中,系统决定如何回复用户,以有效地完成用户所指定的任务。由于一定程度的环境噪声的存在,在口语对话的过程中通常会出现语音识别和理解错误,由此导致对话状态的不确定性。这种不确定性的存在妨碍了系统有效地完成对话任务,需要系统在遇到不确定信息的时候主动向用户进行确认,当确定得到了正确信息后才执行具体业务。目前的商业系统中还广泛使用基于规则的方法构建对话管理策略,其中最常见的模型为有限状态机。在这种模型中难以考虑对话状态的不确定性,通常将语音识别和语义理解的最优结果当做确定性的信息进行处理,在环境噪声较高,或者识别理解性能较差的情况下,对话成功率较低。为了应对这种噪音带来的不确定性,通常使用部分可观测的马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)对对话管理过程进行建模,并使用强化学习的方式进行策略优化,实验表明这种统计模型在噪声鲁棒性上明显高于基于规则的方法。在优化过程中,通常需要对话管理器在真实或是虚拟的环境中进行交互以进行策略学习。由于策略学习通常需要大量训练语料,故多构建虚拟用户与对话管理器进行交互。但虚拟用户与真实用户不可避免的存在一定差异性,由此会造成对话策略的欠优化。
发明内容
本发明的目的是解决虚拟用户给对话带来的不必要的麻烦,因此,提出了一种生成对话策略的学习方法及系统。
为实现上述目的,本发明提供了一种生成对话策略的方法,该方法包括:
从语音对话系统中获取人机对话语料,人机对话语料包括每次人机对话的语音识别、语义理解结果,定义并抽取出对话状态和对话动作;
制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;进而,将输出的立即奖赏值结合对话动作和对话任务组成批量式强化学习算法的输入样本集合;
初始化累积奖赏值,并根据当前迭代的值函数,运用贝尔曼迭代更新各个样本的累积奖赏值;
将对话动作和对话状态作为高斯过程的输入,更新迭代后的累积奖赏值作为待拟合的输出,进而更新值函数;
当迭代次数达到预定的迭代次数,停止迭代更新累积奖赏值和值函数,输出对话策略。
优选地,人机对话语料包括每次人机对话的语音识别、语义理解结果,定义并抽取出对话状态和对话动作的步骤包括:
从人机对话语料中抽取出每次对话回合的对话状态,对话状态必须要完整地描述某一回合所处的对话进程;
根据人机对话语料定义对话动作集合,将每次的对话动作映射到集合。
优选地,制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;进而,将输出的立即奖赏值结合对话动作和对话任务组成批量式强化学习算法的输入样本集合的步骤包括:
制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;
由每次人机对话的对话状态、对话动作、立即奖赏值和下一对话状态组成批量式强化学习算法输入样本集合。
优选地,累积奖赏值Qi为:
其中,N为对话总回合数,γ为范围在[0,1.0]的折扣因子,R(si,ai,si+1)为第i回合的立即奖赏值。
优选地,贝尔曼迭代为:
其中,γ为范围在[0,1.0]的折扣因子;ri为i回合的对话状态;Qi为第i回合的累积奖赏值;为第i回合的值函数。
优选地,将对话动作和对话状态作为高斯过程的输入,更新迭代后的累积奖赏值作为待拟合的输出,进而更新值函数的步骤包括:
将对话动作和对话状态作为输入,累积奖赏值为待拟合的输出;将输入和输出使用高斯过程进行拟合,对值函数进行更新。
优选地,对话策略为:
另一方面,本发明提供了一种生成对话策略的系统,该系统包括:获取单元、合成单元、算法单元、高斯过程单元和输出单元;其中,
获取单元用于从语音对话系统中获取人机对话语料,人机对话语料包括每次人机对话的语音识别、语义理解结果,定义并抽取出对话状态和对话动作;
合成单元用于制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;进而,将输出的立即奖赏值结合对话动作和对话任务组成批量式强化学习算法的输入样本集合;
算法单元用于初始化累积奖赏值,并根据当前迭代的值函数,运用贝尔曼迭代更新各个样本的累积奖赏值;
高斯过程单元用于将对话动作和对话状态作为高斯过程的输入,更新迭代后的累积奖赏值作为待拟合的输出,进而更新值函数;
输出单元用于当迭代次数达到预定的迭代次数,停止迭代更新累积奖赏值和值函数,输出对话策略。
优选地,获取单元用于:
从人机对话语料中抽取出每次对话回合的对话状态,对话状态必须要完整地描述某一回合所处的对话进程;
根据人机对话语料定义对话动作集合,将每次的对话动作映射到集合。
优选地,算法单元用于:
制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;
由每次人机对话的当前对话状态、对话动作和立即奖赏值和下一对话状态组成批量式强化学习算法输入样本集合。
本发明直接在真实的人机语料库进行批量式强化学习,避免了虚拟用户的构建和由此带来的用户行为误差。并且通过高斯过程对值函数进行近似,具有很强的灵活性。该方法相比构建虚拟用户的方法,在实现上更为简单。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种生成对话策略的方法的结构流程图;
图2为图1中合成FQI算法的输入样本集合的结构流程图;
图3为高斯过程的流程图;
图4为本发明实施例提供的一种生成对话策略的系统的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明通过从语音对话系统中获取人机对话语料,进而进行批量式强化学习,避免了虚拟用户的构建和由此带来的用户行为误差,在实现上更为简单。
图1为本发明实施例提供的一种生成对话策略的方法的结构流程图。如图1所示,生成对话策略的方法的步骤包括:
步骤S100:从语音对话系统中获取人机对话语料,人机对话语料包括每次人机对话的语音识别和语义理解结果,定义并抽取出对话状态和对话动作;
对话状态是对某一时刻对话进程的一种定量描述,通常包括用户意图、对话历史和语音对话系统动作等。在具体计算时需要提取出一组数值向量。
步骤S110:制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;将输出的立即奖赏值结合每次对话的对话状态和对话动作组成fitted-Qiteration(FQI)批量式强化学习算法的输入样本集合;
步骤S120:初始化累积奖赏值,并根据当前迭代的值函数,运用贝尔曼迭代更新各个样本的累积奖赏值。
步骤S130:将对话动作和对话状态作为高斯过程的输入,更新迭代后的累积奖赏值作为待拟合的输出,进而更新值函数;
步骤S140:当迭代次数到达预定的迭代数时,输出对话策略。
具体地,在迭代停止,一般达到预先设置的迭代次数,或者迭代的结果收敛,输出拟合后的值函数对应的最优的对话策略该公式的含义为:在对话状态s中,输出最大化累积奖赏值的对话动作,作为最优对话策略。
在FQI迭代过程中,需先根据当前的近似值函数更新各个样本点的估计奖赏值,再以估计奖赏值为高斯过程为待拟合的输出,使用精确或近似的高斯过程对值函数进行拟合,更新近似值函数,输出最优策略;也就是在说在没有达到迭代次数时,需要继续执行步骤S120和步骤S130,若达到迭代收敛次数时,则停止执行步骤S120和步骤S130。
具体地,定义并抽取人机对话状态和对话动作的步骤包括:
从人机对话语料中抽取出每次对话回合的对话状态,对话状态必须要比较完整地描述某一回合所处的对话进程;根据人机对话语料定义对话动作集合,将每次的对话动作映射到该集合。
可选的,本发明的实施例的人机交互可以是,例如,一个餐馆搜素领域的例子,领域相关的语义槽可以包括“查询地点”,“风味”,“价位”,用户需要给出这三个语义槽的具体内容,机器才会给出查询结果。当某些语义槽缺失时系统主动向用户询问,完成人机交互。
需要说明的是,本发明实施例中的交互形式是“机器”-“用户”-“机器”-交替进行,而一次“机器”-“用户”的交互被称为一个对话回合。
图2为图1中合成FQI算法的输入样本集合的结构流程图。如图2所示,合成FQI算法的输入样本集合的步骤包括:
步骤S200:制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;
立即奖赏函数反映了单一回合执行的对话动作对整体对话任务的有利程度,例如当某一语义槽置信度超过一定阈值,或是当系统提供了正确的信息,通常应给予数值为正的奖赏值,在提供了错误信息时则给予负数的奖赏值作为惩罚。
R(si,ai,si+1)为第i回合的立即奖赏值,反应的是在对话状态中执行si后跳转到状态si+1,得到的环境反馈值。
步骤S210:由每次人机对话的对话状态、对话动作、立即奖赏值和下一对话状态,组成FQI算法的输入样本集合。
本发明实施例通过制定一个立即奖赏函数,并判断对话动作对整体对话任务的有利程度,输出立即奖赏值,进而结合每一回合的对话状态、对话动作和下一对话状态组成FQI算法的输入样本集合。
贝尔曼迭代更新的流程图为,在训练集构建过程中将对话的每一个回合作为一个样本{(si,ai,ri,si+1),Qi},其中si为该回合的对话状态,ai为在该回合执行的对话动作,ri为该回合中获得的立即奖赏值,si+1是该回合结束后的对话状态,Qi为FQI估计所得的累计奖赏值。在每一次迭代中,首先根据上一次迭代中估计的近似值函数使用贝尔曼迭代更新各个样本的累计奖赏值:
其中,γ为范围在[0,1.0]的折扣因子,ri为i回合的对话状态;Qi为第i回合的累积奖赏值;为第i回合的值函数。其他情况是指对话不在si处终止。
具体的,累积奖赏值为:
其中,N为对话总回合数,γ为范围在[0,1.0]的折扣因子,R(si,ai,si+1)为第i回合的立即奖赏值。
需要说明的是,在开始迭代更新累积奖赏函数值之前,需要先给各个样本的累积奖赏值赋一个初始值,便于后续迭代更新累积奖赏值的操作。
图3为高斯过程的流程图。如图3所示,高斯过程(Gaussian process,GP)根据累积奖赏值对值函数进行拟合近似输出。
具体的高斯过程包括:
步骤S300:将对话动作和对话状态作为输入,累积奖赏值为待拟合的输出;
步骤S310:将输入和输出使用高斯过程进行拟合,对值函数进行更新。
在利用贝尔曼迭代更新各个样本的累积奖赏值之后,需根据样本的累积奖赏值对近似的值函数进行更新。该更新过程实际上相当于一个有监督式的回归问题,其中{(si,ai)}为输入,Qi为待拟合的输出。
高斯过程是一种使用核函数的非参数化贝叶斯方法,它使用“核函数技巧”(kernel trick)将低维的输入特征映射到高维空间中,以对值函数的非线性特性进行建模。在给定训练数据的情况下,高斯过程的后验分布为联合高斯分布,他的均值和方差如下所示:
其中X和y为训练时的输入和输出,X*为测试输入,为高斯过程的噪声方差,K为核函数。这里的输入X包含了对话状态s和动作a两部分,其中s通常为实数特征向量,而a是属于对话动作集合的离散值。为了处理这种混合式输入的情况,这里对应每一个对话动作建立一个独立的高斯过程。当给定输入时,根据a选择对应模型。
可选的,在建立模型的过程中,还需要考虑样本容量的大小;当样本容量在几千个以下的情况,则使用精确的高斯过程;当样本的容量很大时,则是采用随机抽取的方式从总样本中抽取1000-2000个样本点进行近似高斯过程。
具体地,在精确的高斯过程中需要对矩阵进行求逆。该过程的计算复杂度与输入样本数量的立方成正相关O(n3),仅适用于样本数量在几千以下的情况。
具体地,在近似的高斯过程采用变分式的稀疏高斯过程(Variational Spase GP)进行近似;在具体的计算过程中,从全部样本中选择少量的样本作为代表点对精确的高斯过程进行近似。该方法计算复杂度为O(nm2),m为代表样本点的个数。其后验分布与精确的高斯过程有所不同。
给定代表点稀疏高斯过程的后验表达式为:
需要说明的是,在高斯过程中核函数只涉及到计算相关度,不涉及具体的特征值;高斯过程中核函数的形式对其后验分布有着较大影响,本发明实施例选择径向基核函数(Radial basis function,RBF):
K(x,x')=exp(-||x-x'||2/2σ2)
RBF核函数的局部特性使得相似的对话状态向量具有相似的奖赏值。
图4为本发明实施例提供的一种生成对话策略的系统的结构示意图。如图4所示,该生成对话策略的系统包括:获取单元10、合成单元11、算法单元12、高斯过程单元13和输出单元14,其中;
获取单元10用于从语音对话系统中获取人机对话语料,人机对话语料包括每次人机对话的语音识别、语义理解结果,定义并抽取出对话状态和对话动作;
合成单元11用于制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;进而,将输出的立即奖赏值结合对话动作和对话任务组成批量式强化学习算法的输入样本集合;
算法单元12用于初始化累积奖赏值,并根据当前迭代的值函数,运用贝尔曼迭代更新各个样本的累积奖赏值;
高斯过程单元13用于将对话动作和对话状态作为高斯过程的输入,更新迭代后的累积奖赏值作为待拟合的输出,进而更新值函数;
输出单元14用于当迭代次数达到预定的迭代次数,停止迭代更新累积奖赏值和值函数,输出对话策略。
具体地,获取单元10用于:从语音对话系统中获取人机对话语料,人机对话语料包括每次人机对话的语音识别和语义理解结果,定义并抽取对话状态和对话动作;
根据所述人机对话语料定义对话动作集合,将每次的对话动作映射到所述集合。
具体地,算法单元12用于:制定立即奖赏函数,通过判断对话动作对整体对话任务的有利程度,输出立即奖赏值;
由每次人机对话的当前对话状态、对话动作和立即奖赏值和下一对话状态组成批量式强化学习算法输入样本集合。
本发明直接在真实的人机语料库进行批量式强化学习,避免了虚拟用户的构建和由此带来的用户行为误差。并且通过高斯过程对值函数进行近似,具有很强的灵活性。该方法相比构建虚拟用户后进行强化学习训练的方法,在实现上更为简单。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种生成对话策略的方法,其特征在于,包括:
从语音对话系统中获取人机对话语料,所述人机对话语料包括每次人机对话的语音识别、语义理解结果,从所述人机对话语料中抽取出每次对话回合的对话状态,所述对话状态必须要完整地描述某一回合所处的对话进程;根据所述人机对话语料定义对话动作集合,将每次的对话动作映射到所述集合;
制定立即奖赏函数,通过判断所述对话动作对整体对话任务的有利程度,输出立即奖赏值;进而,由每次人机对话的所述对话状态、所述对话动作、所述立即奖赏值和下一对话状态组成批量式强化学习算法的输入样本集合;
初始化累积奖赏值,并根据当前迭代的值函数,运用贝尔曼迭代更新各个样本的累积奖赏值;其中,所述贝尔曼迭代为:
其中,γ为范围在[0,1.0]的折扣因子;ri为i回合的对话状态;Qi为第i回合的累积奖赏值;为第i回合的值函数;
将所述对话动作和所述对话状态作为高斯过程的输入,更新迭代后的累积奖赏值作为待拟合的输出,进而更新值函数;
当迭代次数达到预定的迭代次数,停止迭代更新所述累积奖赏值和所述值函数,输出对话策略。
2.根据权利要求1所述的方法,其特征在于,所述累积奖赏值
其中,N为对话总回合数,γ为范围在[0,1.0]的折扣因子,R(si,ai,si+1)为第i回合的立即奖赏值。
3.根据权利要求1所述的方法,其特征在于,将所述对话动作和所述对话状态作为高斯过程的输入,所述更新迭代后的累积奖赏值作为待拟合的输出,进而更新所述值函数的步骤包括:
将所述对话动作和所述对话状态作为输入,所述累积奖赏值为待拟合的输出;
将所述输入和输出使用高斯过程进行拟合,对所述值函数进行更新。
4.根据权利要求1所述的方法,其特征在于,所述对话策略为:
其中,公式的含义为:在对话状态s中,输出最大化累积奖赏值的对话动作,作为最优对话策略。
5.一种生成对话策略模型的系统,应用于如权利要求1所述的方法,其特征在于,包括:获取单元(10)、合成单元(11)、算法单元(12)、高斯过程单元(13)和输出单元(14);其中,
所述获取单元(10)用于从语音对话系统中获取人机对话语料,所述人机对话语料包括每次人机对话的语音识别、语义理解结果,从所述人机对话语料中抽取出每次对话回合的对话状态,对话状态必须要完整地描述某一回合所处的对话进程;根据所述人机对话语料定义对话动作集合,将每次的对话动作映射到所述集合;
所述合成单元(11)用于制定立即奖赏函数,通过判断所述对话动作对整体对话任务的有利程度,输出立即奖赏值;由每次人机对话的当前对话状态、所述对话动作和所述立即奖赏值和所述下一对话状态组成批量式强化学习算法的输入样本集合;
所述算法单元(12)用于初始化累积奖赏值,并根据当前迭代的值函数,运用贝尔曼迭代更新各个样本的累积奖赏值;
所述高斯过程单元(13)用于将所述对话动作和所述对话状态作为高斯过程的输入,更新迭代后的累积奖赏值作为待拟合的输出,进而更新值函数;
所述输出单元(14)用于当迭代次数达到预定的迭代次数,停止迭代更新所述累积奖赏值和所述值函数,输出对话策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610112563.9A CN105788593B (zh) | 2016-02-29 | 2016-02-29 | 生成对话策略的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610112563.9A CN105788593B (zh) | 2016-02-29 | 2016-02-29 | 生成对话策略的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105788593A CN105788593A (zh) | 2016-07-20 |
CN105788593B true CN105788593B (zh) | 2019-12-10 |
Family
ID=56386550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610112563.9A Active CN105788593B (zh) | 2016-02-29 | 2016-02-29 | 生成对话策略的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105788593B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448670B (zh) * | 2016-10-21 | 2019-11-19 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN109086282A (zh) * | 2017-06-14 | 2018-12-25 | 杭州方得智能科技有限公司 | 一种具备多任务驱动能力的多轮对话的方法和系统 |
CN107357838B (zh) * | 2017-06-23 | 2020-09-01 | 上海交大知识产权管理有限公司 | 基于多任务学习的对话策略在线实现方法 |
JP6995566B2 (ja) * | 2017-11-02 | 2022-02-04 | 株式会社日立製作所 | ロボット対話システム及びロボット対話システムの制御方法 |
CN108304489B (zh) * | 2018-01-05 | 2021-12-28 | 广东工业大学 | 一种基于强化学习网络的目标引导型个性化对话方法与系统 |
CN108256065B (zh) * | 2018-01-16 | 2021-11-09 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN108962238B (zh) * | 2018-04-25 | 2020-08-07 | 苏州思必驰信息科技有限公司 | 基于结构化神经网络的对话方法、系统、设备及存储介质 |
CN108932278B (zh) * | 2018-04-28 | 2021-05-18 | 厦门快商通信息技术有限公司 | 基于语义框架的人机对话方法及系统 |
CN110866403B (zh) * | 2018-08-13 | 2021-06-08 | 中国科学院声学研究所 | 基于卷积循环实体网络的端对端对话状态跟踪方法及系统 |
CN109299237B (zh) * | 2018-09-26 | 2020-06-16 | 苏州大学 | 基于行动者评论家强化学习算法的循环网络人机对话方法 |
CN109635093B (zh) * | 2018-12-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 用于生成回复语句的方法和装置 |
CN110533192B (zh) * | 2019-08-30 | 2021-05-04 | 京东城市(北京)数字科技有限公司 | 强化学习方法、装置、计算机可读介质及电子设备 |
CN111159371B (zh) * | 2019-12-21 | 2023-04-21 | 华南理工大学 | 一种面向任务型对话系统的对话策略方法 |
CN112131372B (zh) * | 2020-11-25 | 2021-02-02 | 中国科学院自动化研究所 | 基于知识驱动的对话策略网络优化方法、系统、装置 |
CN113360618B (zh) * | 2021-06-07 | 2022-03-11 | 暨南大学 | 一种基于离线强化学习的智能机器人对话方法及系统 |
CN113239171B (zh) * | 2021-06-07 | 2023-08-01 | 平安科技(深圳)有限公司 | 对话管理系统更新方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1719438A (zh) * | 2004-07-06 | 2006-01-11 | 台达电子工业股份有限公司 | 整合式对话系统及其方法 |
JP2006072477A (ja) * | 2004-08-31 | 2006-03-16 | Nippon Telegr & Teleph Corp <Ntt> | 対話戦略学習方法、対話戦略学習プログラム、記憶媒体、および、対話戦略学習装置 |
CN101685454A (zh) * | 2008-09-28 | 2010-03-31 | 华为技术有限公司 | 人机交互方法及系统 |
CN101740029A (zh) * | 2009-12-16 | 2010-06-16 | 深圳大学 | 应用于基于矢量量化的说话人识别的三粒子协同优化方法 |
CN104462024A (zh) * | 2014-10-29 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 生成对话动作策略模型的方法和装置 |
-
2016
- 2016-02-29 CN CN201610112563.9A patent/CN105788593B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1719438A (zh) * | 2004-07-06 | 2006-01-11 | 台达电子工业股份有限公司 | 整合式对话系统及其方法 |
JP2006072477A (ja) * | 2004-08-31 | 2006-03-16 | Nippon Telegr & Teleph Corp <Ntt> | 対話戦略学習方法、対話戦略学習プログラム、記憶媒体、および、対話戦略学習装置 |
CN101685454A (zh) * | 2008-09-28 | 2010-03-31 | 华为技术有限公司 | 人机交互方法及系统 |
CN101740029A (zh) * | 2009-12-16 | 2010-06-16 | 深圳大学 | 应用于基于矢量量化的说话人识别的三粒子协同优化方法 |
CN104462024A (zh) * | 2014-10-29 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 生成对话动作策略模型的方法和装置 |
Non-Patent Citations (1)
Title |
---|
机器学习中加速强化学习的一种函数方法;宋炯,金钊,杨维和;《云南大学学报(自然科学版)》;20111231;第33卷(第S2期);第1节 * |
Also Published As
Publication number | Publication date |
---|---|
CN105788593A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105788593B (zh) | 生成对话策略的方法及系统 | |
Weisz et al. | Sample efficient deep reinforcement learning for dialogue systems with large action spaces | |
JP6228260B2 (ja) | 音声対話システムのためのデバイスおよび方法 | |
CN109460463B (zh) | 基于数据处理的模型训练方法、装置、终端及存储介质 | |
US11227581B2 (en) | Systems and methods for generating a response based on task-independent conversational responses or task-specific responses | |
CN112487173B (zh) | 人机对话方法、设备和存储介质 | |
CN112567394A (zh) | 用于在有限的知识领域中构建知识图的技术 | |
Pietquin et al. | Sample efficient on-line learning of optimal dialogue policies with kalman temporal differences | |
EP3568811A1 (en) | Training machine learning models | |
CN108021934B (zh) | 多要素识别的方法及装置 | |
GB2559617A (en) | A dialogue system, a dialogue method and a method of adapting a dialogue system | |
CN112579758A (zh) | 模型训练方法、装置、设备、存储介质和程序产品 | |
Wang et al. | Policy learning for domain selection in an extensible multi-domain spoken dialogue system | |
CN111191450A (zh) | 语料清洗方法、语料录入设备及计算机可读存储介质 | |
CN109858004B (zh) | 文本改写方法、装置及电子设备 | |
Lee et al. | Optimizing generative dialog state tracker via cascading gradient descent | |
CN114780753A (zh) | 基于知识图谱的对话推荐方法、装置、设备及存储介质 | |
CN110689359A (zh) | 对模型进行动态更新的方法及装置 | |
Gašić et al. | Policy optimisation of POMDP-based dialogue systems without state space compression | |
CN110909146B (zh) | 用于推送反问标签的标签推送模型训练方法、装置及设备 | |
US20100312561A1 (en) | Information Processing Apparatus, Information Processing Method, and Computer Program | |
Chandramohan et al. | Sparse approximate dynamic programming for dialog management | |
CN107766944B (zh) | 一种利用api分析进行系统功能流优化的系统和方法 | |
US11670294B2 (en) | Method of generating wakeup model and electronic device therefor | |
US20230112076A1 (en) | Learning device, learning method, learning program, estimation device, estimation method, and estimation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |