CN108282587A - 基于状态跟踪与策略导向下的移动客服对话管理方法 - Google Patents
基于状态跟踪与策略导向下的移动客服对话管理方法 Download PDFInfo
- Publication number
- CN108282587A CN108282587A CN201810055021.1A CN201810055021A CN108282587A CN 108282587 A CN108282587 A CN 108282587A CN 201810055021 A CN201810055021 A CN 201810055021A CN 108282587 A CN108282587 A CN 108282587A
- Authority
- CN
- China
- Prior art keywords
- indicate
- state
- strategy
- dialogue
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5183—Call or contact centers with computer-telephony arrangements
- H04M3/5191—Call or contact centers with computer-telephony arrangements interacting with the Internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
Landscapes
- Signal Processing (AREA)
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Algebra (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于状态跟踪与策略导向下的移动客服对话管理方法,属于隐马尔科夫模型与神经网络对自然语言处理的领域。该方法通过构建POMDP模型,结合设计深度增强学习的问题引导策略优化算法,实现对话状态实时跟踪,对下一对话结果及时预测,给出预测对话策略,并根据策略优化算法,得出最佳对话策略方法,推导出最优对话预测结果。本发明不仅节约了大量的人工成本提高了客服对话的工作效率,同时还为用户提供了更为便捷的服务体验,提升服务质量。
Description
技术领域
本发明属于隐马尔科夫模型与神经网络对自然语言处理的领域,涉及基于状态跟踪与策略导向下的移动客服对话管理方法。
背景技术
中国移动通信公司作为中国通信领域掌舵者,其通信服务种类涉及广泛。但在拓展业务的同时,其客服服务也经受着严峻的考验。目前,移动客服使用机械的自主式服务方式或仍延用传统人工语音服务方式,不仅无法实现用户与客户间友好的交互体验、耗费大量人力物力,还无法保障24小时全天候正常在线客服服务。该问题的解决与否直接决定移动客服对话服务的效果。由于部分隐马尔科夫模型具有感知、适应、追踪对话环境变化的功能,通过POMDP模型的内部作用器给用户对话环境状态施加动作,使对话环境状态发生变化,获得一定回报,并根据所获得的累计回报来衡量所执行一系列策略的可能性,进而将问题转换成策略选择问题。深度增强学习策略优化方法具有追溯对话过程、学习对话导向策略、选择最佳行动策略等功能。
因此,为了能够为中国移动通信公司节约成本,同时还为用户提供更方便快捷的客服服务,提升用户体验。需要通过建立POMDP模型,实现移动客服对话状态的跟踪及对话策略导向,设计深度增强学习算法,完成移动客服对话策略优化,并选择最佳对话策略。
发明内容
有鉴于此,本发明的目的在于提供一种基于状态跟踪与策略导向下的移动客服对话管理方法,为用户提供更方便快捷的客服服务,提升用户体验。
为达到上述目的,本发明提供如下技术方案:
一种基于状态跟踪与策略导向下的移动客服对话管理方法,该方法包括以下步骤:
S1:建立基于POMDP模型的对话问题引导策略,通过POMDP模型的内部作用器给用户对话环境状态施加动作,使对话环境状态发生变化,获得一定回报,并根据所获得的累计回报来衡量所执行一系列策略的可能性,将问题转换成策略选择问题;
S2:构建深度增强学习的问题引导策略优化算法,根据POMDP模型得到的对话问题引导策略,采用基于深度增强学习DQN的策略优化方法来选择最佳行动策略。
进一步,在所述步骤S1中,所述的建立基于POMDP模型的对话问题引导策略具体包括以下步骤:
S11:将POMDP模型描述为S,A,T,O,Q,β,其中S={si|i=1,...,m}表示对话环境状态集,其中m表示对话环境状态数量;A={ak|k=1,...,n}表示动作集,其中n表示对话环境中执行动作数量;当模型执行动作ak时,引起对话环境状态从si转移到sj;T={p(sj|si,a)|sj,si∈S,a∈A}表示状态转移概率集;p(sj|si,a)表示在对话环境状态si执行动作a后对话环境状态转移为j的概率;O={oi|i=1,...,n}表示对话观察集;R={rij(a)|a∈A}表示回报集,rij(a)表示模型执行动作a,对话环境状态从si转移到sj后所获得的回报;β表示回报折扣因子,其中0<β<1;Q={p(oj|si,a)|oj∈O,si∈S,a∈A}表示对话观察概率,p(oj|si,a)表示执行动作a后,在结果状态si观察到oj的概率;b0表示初始对话环境状态的概率分布;
S12:对话置信状态推导:对话环境状态在POMDP模型概率分布中的置信状态表示为B={bt},t时刻的概率分布为bt={bt(s1),...,bt(sm)},其中bt(si)表示t时刻环境状态为si的概率;通过对当前时刻对话环境的观察与动作的选择,POMDP模型推导出下一时刻环境状态的置信值;假设起始时刻的置信状态为b0,执行动作a与观察o,获得下一时刻置信状态b1。当处于状态s1,模型获得的观察为o1,模型内部状态为i1;通过计算,根据问题引导策略选择相应的动作a1,导致环境状态从s1转移到s2,模型获得回报r1与观察o2,此时模型内部状态从i1(b1)转移到i2(b2),然后模型依此继续运行;
S13:构建问题引导策略:构建问题的引导策略估计函数来实现对话状态跟踪,该函数表示为:
其中,是对应节点l的动作向量状态s的值,ψ(l)表示输出的与节点l相关的动作,η(l,o)表示在收到观察o后节点l的后继,s`表示当前对话环境状态,Z(s`,ψ(l),o)表示当前回报函数,R(s,ψ(l))表示节点l处的状态回报,γ表示每个时间步长的因子,γ∈[0,1];通过策略演化,得到下一时刻的问题引导策略函数:
其中表示最优策略,表示上一时刻的策略函数,β表示回报折扣因子,r(b,a)表示当前执行动作a,在概率分布b下的回报,B`表示下一时刻置信状态,b`表示下一时刻的概率分布。
进一步,在所述步骤S2中,所述的构建深度增强学习的问题引导策略优化算法具体包括以下步骤:
S21:构建Q网络(Q(s,a;θ))定义行为策略,利用目标Q网络(Q(s,a;θ-))生成DQN丢失项的目标Q值,以及重新记忆POMDP模型用于训练Q网络的随机采样状态值;
S22:通过增强学习定义POMDP模型的预期总回报:
其中,回报rt由每个时间步长的因子γ∈[0,1]折算,T是终止步骤;采用动作值函数Qπ(s,a)观察状态st的预期回报,并利用神经网络Q(s,a)=(Q(s,a;θ))近似动作值函数;对于基于动作a下的引导策略π,最优动作值函数Qπ(s,a)=E[Rt|st=a,a1=a,π]通过策略实现;构建含有动作值a的贝尔曼Bellman方程:
其中,Q*(s,a)表示下一状态最优值函数、Q*(s`,a`)表示当前状态最优值函数;通过调整Q网络对迭代的Bellman目标参数进行求解;
S23:DQN使用记忆重构,在POMDP模型的每个时间步长t内,将记忆元组et=(st,at,rt,st+1)存放到记忆存储器Dt={e1,,et}中;
S24:DQN分别维持两个独立的Q网络(Q(s,a;θ))和(Q(s,a;θ-)),当前参数θ在每个时间步长内进行多次更新,并在N次迭代之后被复制到旧参数θ-中;在更新迭代时,为了最小化相对于旧参数θ-的均方Bellman误差,优化损失函数:
更新当前参数θ;对于每次更新i,从记忆存储器D中单独采样获取记忆元组(s,a,r,s`)~U(D);对于每个样本,通过随机梯度下降算法更新当前参数θ;下降的梯度gi通过θ相对于θ-的损失样本梯度为:
其中,表示梯度下降函数符号;
S25:在每个时间步长t内,选择相对于当前Q网络(Q(s,a;θ))的偏好行为动作;使用中心参数服务器来维护Q网络(Q(s,a;θ-))的分布式表示;同时,该参数服务器接收强化学习到的渐变信息,并在异步随机梯度下降算法的驱动下,应用这些渐变信息来修改参数向量θ-。
本发明的有益效果在于:本发明通过构建POMDP模型结合设计深度增强学习的问题引导策略优化算法。完成实时跟踪对话状态,对下一对话结果进行预测,给出预测策略,并根据策略优化算法,得出最佳对话策略方法,推导出最优对话预测结果。本发明不仅节约了大量的人工成本提高了客服对话的工作效率,同时还为用户提供了更为便捷的服务体验,提升了服务质量。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为基于POMDP模型的问题引导策略结构图。
图2为深度增强学习策略优化模型框架。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
如图1所示,建立基于POMDP模型的对话问题引导策略。该过程包含以下3个步骤:
(1)建立移动客服对话POMDP模型的描述;
(2)移动客服对话置信状态推导;
(3)构建问题的引导策略估计函数实现对话状态跟踪。
如图2所示,构建深度增强学习的问题引导策略优化算法。该过程包含以下5个步骤:
(1)搭建Q网络定义对话行为策略;
(2)通过增强学习定义步骤1)中POMDP模型对话策略的预期总回报;
(3)深度增强学习使用记忆重构,存储步骤1)POMDP模型对话状态;
(4)深度增强学习分别维持两个独立的Q网络,对参数迭代更新,获得下一时刻对话状态策略;
(5)在每个特定时间步长内,选择相对于当前Q网络的偏好对话状态,获得该时长内最佳对话策略。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (3)
1.一种基于状态跟踪与策略导向下的移动客服对话管理方法,其特征在于,该方法包括以下步骤:
S1:建立基于部分隐马尔科夫(partially observable markov desicion process,POMDP)模型的对话问题引导策略,通过POMDP模型的内部作用器给用户对话环境状态施加动作,使对话环境状态发生变化,获得一定回报,并根据所获得的累计回报来衡量所执行一系列策略的可能性,将问题转换成策略选择问题;
S2:构建深度增强学习的问题引导策略优化算法,根据POMDP模型得到的对话问题引导策略,采用基于深度增强学习(Deep Q Network,DQN)的策略优化方法来选择最佳行动策略。
2.根据权利要求1所述的一种基于状态跟踪与策略导向下的移动客服对话管理方法,其特征在于,在所述步骤S1中,所述的建立基于POMDP模型的对话问题引导策略具体包括以下步骤:
S11:将POMDP模型描述为<S,A,T,O,Q,β>,其中S={si|i=1,...,m}表示对话环境状态集,其中m表示对话环境状态数量;A={ak|k=1,...,n}表示动作集,其中n表示对话环境中执行动作数量;当模型执行动作ak时,引起对话环境状态从si转移到sj;T={p(sj|si,a)|sj,si∈S,a∈A}表示状态转移概率集;p(sj|si,a)表示在对话环境状态si执行动作a后对话环境状态转移为j的概率;O={oi|i=1,...,n}表示对话观察集;R={rij(a)|a∈A}表示回报集,rij(a)表示模型执行动作a,对话环境状态从si转移到sj后所获得的回报;β表示回报折扣因子,其中0<β<1;Q={p(oj|si,a)|oj∈O,si∈S,a∈A}表示对话观察概率,p(oj|si,a)表示执行动作a后,在结果状态si观察到oj的概率;b0表示初始对话环境状态的概率分布;
S12:对话置信状态推导:对话环境状态在POMDP模型概率分布中的置信状态表示为B={bt},t时刻的概率分布为bt={bt(s1),...,bt(sm)},其中bt(si)表示t时刻环境状态为si的概率;通过对当前时刻对话环境的观察与动作的选择,POMDP模型推导出下一时刻环境状态的置信值;假设起始时刻的置信状态为b0,执行动作a与观察o,获得下一时刻置信状态b1。当处于状态s1,模型获得的观察为o1,模型内部状态为i1;通过计算,根据问题引导策略选择相应的动作a1,导致环境状态从s1转移到s2,模型获得回报r1与观察o2,此时模型内部状态从i1(b1)转移到i2(b2),然后模型依此继续运行;
S13:构建问题引导策略:构建问题的引导策略估计函数来实现对话状态跟踪,该函数表示为:
其中,是对应节点l的动作向量状态s的值,ψ(l)表示输出的与节点l相关的动作,η(l,o)表示在收到观察o后节点l的后继,s`表示当前对话环境状态,Z(s`,ψ(l),o)表示当前回报函数,R(s,ψ(l))表示节点l处的状态回报,γ表示每个时间步长的因子,γ∈[0,1];通过策略演化,得到下一时刻的问题引导策略函数:
其中表示最优策略,Vt *表示上一时刻的策略函数,β表示回报折扣因子,r(b,a)表示当前执行动作a,在概率分布b下的回报,B`表示下一时刻置信状态,b`表示下一时刻的概率分布。
3.根据权利要求1所述的一种基于状态跟踪与策略导向下的移动客服对话管理方法,其特征在于,在所述步骤S2中,所述的构建深度增强学习的问题引导策略优化算法具体包括以下步骤:
S21:构建Q网络(Q(s,a;θ))定义行为策略,利用目标Q网络(Q(s,a;θ-))生成DQN丢失项的目标Q值,以及重新记忆POMDP模型用于训练Q网络的随机采样状态值;
S22:通过增强学习定义POMDP模型的预期总回报:
其中,回报rt由每个时间步长的因子γ∈[0,1]折算,T是终止步骤;采用动作值函数Qπ(s,a)观察状态st的预期回报,并利用神经网络Q(s,a)=(Q(s,a;θ))近似动作值函数;对于基于动作a下的引导策略π,最优动作值函数Qπ(s,a)=E[Rt|st=a,a1=a,π]通过策略实现;构建含有动作值a的贝尔曼Bellman方程:
其中,Q*(s,a)表示下一状态最优值函数、Q*(s`,a`)表示当前状态最优值函数;通过调整Q网络对迭代的Bellman目标参数进行求解;
S23:DQN使用记忆重构,在POMDP模型的每个时间步长t内,将记忆元组et=(st,at,rt,st+1)存放到记忆存储器Dt={e1,…,et}中;
S24:DQN分别维持两个独立的Q网络(Q(s,a;θ))和(Q(s,a;θ-)),当前参数θ在每个时间步长内进行多次更新,并在N次迭代之后被复制到旧参数θ-中;在更新迭代时,为了最小化相对于旧参数θ-的均方Bellman误差,优化损失函数:
更新当前参数θ;对于每次更新i,从记忆存储器D中单独采样获取记忆元组(s,a,r,s`)~U(D);对于每个样本,通过随机梯度下降算法更新当前参数θ;下降的梯度gi通过θ相对于θ-的损失样本梯度为:
其中,表示梯度下降函数符号;
S25:在每个时间步长t内,选择相对于当前Q网络(Q(s,a;θ))的偏好行为动作;使用中心参数服务器来维护Q网络(Q(s,a;θ-))的分布式表示;同时,该参数服务器接收强化学习到的渐变信息,并在异步随机梯度下降算法的驱动下,应用这些渐变信息来修改参数向量θ-。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810055021.1A CN108282587B (zh) | 2018-01-19 | 2018-01-19 | 基于状态跟踪与策略导向下的移动客服对话管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810055021.1A CN108282587B (zh) | 2018-01-19 | 2018-01-19 | 基于状态跟踪与策略导向下的移动客服对话管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108282587A true CN108282587A (zh) | 2018-07-13 |
CN108282587B CN108282587B (zh) | 2020-05-26 |
Family
ID=62804280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810055021.1A Active CN108282587B (zh) | 2018-01-19 | 2018-01-19 | 基于状态跟踪与策略导向下的移动客服对话管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108282587B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933659A (zh) * | 2019-03-22 | 2019-06-25 | 重庆邮电大学 | 一种面向出行领域的车载多轮对话方法 |
CN109960259A (zh) * | 2019-02-15 | 2019-07-02 | 青岛大学 | 一种基于梯度势的多智能体强化学习的无人导引车路径规划方法 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110866403A (zh) * | 2018-08-13 | 2020-03-06 | 中国科学院声学研究所 | 基于卷积循环实体网络的端对端对话状态跟踪方法及系统 |
CN111061850A (zh) * | 2019-12-12 | 2020-04-24 | 中国科学院自动化研究所 | 基于信息增强的对话状态跟踪方法、系统、装置 |
CN111061846A (zh) * | 2019-11-19 | 2020-04-24 | 国网辽宁省电力有限公司电力科学研究院 | 基于分层强化学习的电力新装增容对话客服系统及方法 |
CN111159371A (zh) * | 2019-12-21 | 2020-05-15 | 华南理工大学 | 一种面向任务型对话系统的对话策略方法 |
CN111414460A (zh) * | 2019-02-03 | 2020-07-14 | 北京邮电大学 | 通用结合记忆存储和神经网络的多轮对话管理方法及装置 |
CN111985672A (zh) * | 2020-05-08 | 2020-11-24 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
CN112000793A (zh) * | 2020-08-28 | 2020-11-27 | 哈尔滨工业大学 | 一种面向人机交互的对话目标规划方法 |
CN112356031A (zh) * | 2020-11-11 | 2021-02-12 | 福州大学 | 一种基于Kernel采样策略在不确定性环境下的在线规划方法 |
CN115497465A (zh) * | 2022-09-06 | 2022-12-20 | 平安银行股份有限公司 | 语音交互方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105845A (zh) * | 2006-06-07 | 2008-01-16 | 索尼株式会社 | 信息处理装置和信息处理方法、以及计算机程序 |
CN105529038A (zh) * | 2014-10-21 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 对用户语音信号进行处理的方法及其系统 |
CN106228314A (zh) * | 2016-08-11 | 2016-12-14 | 电子科技大学 | 基于深度增强学习的工作流调度方法 |
CN106779072A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于自举dqn的增强学习深度搜索方法 |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
AU2017101165A4 (en) * | 2017-08-25 | 2017-11-02 | Liu, Yichen MR | Method of Structural Improvement of Game Training Deep Q-Network |
CN107357838A (zh) * | 2017-06-23 | 2017-11-17 | 上海交通大学 | 基于多任务学习的对话策略在线实现方法 |
-
2018
- 2018-01-19 CN CN201810055021.1A patent/CN108282587B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105845A (zh) * | 2006-06-07 | 2008-01-16 | 索尼株式会社 | 信息处理装置和信息处理方法、以及计算机程序 |
CN105529038A (zh) * | 2014-10-21 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 对用户语音信号进行处理的方法及其系统 |
CN106228314A (zh) * | 2016-08-11 | 2016-12-14 | 电子科技大学 | 基于深度增强学习的工作流调度方法 |
CN106779072A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于自举dqn的增强学习深度搜索方法 |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
CN107357838A (zh) * | 2017-06-23 | 2017-11-17 | 上海交通大学 | 基于多任务学习的对话策略在线实现方法 |
AU2017101165A4 (en) * | 2017-08-25 | 2017-11-02 | Liu, Yichen MR | Method of Structural Improvement of Game Training Deep Q-Network |
Non-Patent Citations (1)
Title |
---|
王小捷: "《关于人机对话系统的思考》", 《中兴通讯技术》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866403B (zh) * | 2018-08-13 | 2021-06-08 | 中国科学院声学研究所 | 基于卷积循环实体网络的端对端对话状态跟踪方法及系统 |
CN110866403A (zh) * | 2018-08-13 | 2020-03-06 | 中国科学院声学研究所 | 基于卷积循环实体网络的端对端对话状态跟踪方法及系统 |
CN111414460B (zh) * | 2019-02-03 | 2024-01-19 | 北京邮电大学 | 通用结合记忆存储和神经网络的多轮对话管理方法及装置 |
CN111414460A (zh) * | 2019-02-03 | 2020-07-14 | 北京邮电大学 | 通用结合记忆存储和神经网络的多轮对话管理方法及装置 |
CN109960259A (zh) * | 2019-02-15 | 2019-07-02 | 青岛大学 | 一种基于梯度势的多智能体强化学习的无人导引车路径规划方法 |
CN109960259B (zh) * | 2019-02-15 | 2021-09-24 | 青岛大学 | 一种基于梯度势的多智能体强化学习的无人导引车路径规划方法 |
CN109933659A (zh) * | 2019-03-22 | 2019-06-25 | 重庆邮电大学 | 一种面向出行领域的车载多轮对话方法 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN111061846A (zh) * | 2019-11-19 | 2020-04-24 | 国网辽宁省电力有限公司电力科学研究院 | 基于分层强化学习的电力新装增容对话客服系统及方法 |
CN111061850A (zh) * | 2019-12-12 | 2020-04-24 | 中国科学院自动化研究所 | 基于信息增强的对话状态跟踪方法、系统、装置 |
CN111061850B (zh) * | 2019-12-12 | 2023-04-28 | 中国科学院自动化研究所 | 基于信息增强的对话状态跟踪方法、系统、装置 |
CN111159371B (zh) * | 2019-12-21 | 2023-04-21 | 华南理工大学 | 一种面向任务型对话系统的对话策略方法 |
CN111159371A (zh) * | 2019-12-21 | 2020-05-15 | 华南理工大学 | 一种面向任务型对话系统的对话策略方法 |
CN111985672A (zh) * | 2020-05-08 | 2020-11-24 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
CN112000793A (zh) * | 2020-08-28 | 2020-11-27 | 哈尔滨工业大学 | 一种面向人机交互的对话目标规划方法 |
CN112000793B (zh) * | 2020-08-28 | 2022-08-09 | 哈尔滨工业大学 | 一种面向人机交互的对话目标规划方法 |
CN112356031A (zh) * | 2020-11-11 | 2021-02-12 | 福州大学 | 一种基于Kernel采样策略在不确定性环境下的在线规划方法 |
CN112356031B (zh) * | 2020-11-11 | 2022-04-01 | 福州大学 | 一种基于Kernel采样策略在不确定性环境下的在线规划方法 |
CN115497465A (zh) * | 2022-09-06 | 2022-12-20 | 平安银行股份有限公司 | 语音交互方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108282587B (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108282587A (zh) | 基于状态跟踪与策略导向下的移动客服对话管理方法 | |
CN112668128B (zh) | 联邦学习系统中终端设备节点的选择方法及装置 | |
CN108962238A (zh) | 基于结构化神经网络的对话方法、系统、设备及存储介质 | |
CN107665230A (zh) | 用于智能家居控制的用户行为预测模型的训练方法及装置 | |
CN114500360B (zh) | 一种基于深度强化学习的网络流量调度方法以及系统 | |
Lee et al. | An intelligent fuzzy agent for meeting scheduling decision support system | |
GB2601663A (en) | Automated neural network generation using fitness estimation | |
CN106453608B (zh) | 一种基于云端的移动应用的后台请求自适应调度算法 | |
CN114896899B (zh) | 一种基于信息交互的多智能体分散式决策方法及系统 | |
CN111556173B (zh) | 一种基于强化学习的服务链映射方法 | |
CN113784410A (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN116489712B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN107306207A (zh) | 结合Skyline计算与多目标强化学习服务组合方法 | |
CN110247795A (zh) | 一种基于意图的云网资源服务链编排方法及系统 | |
CN110336620A (zh) | 一种基于mac层公平接入的ql-uacw退避方法 | |
CN107453921A (zh) | 基于非线性神经网络的智慧城市系统人工智能评价方法 | |
CN112131206A (zh) | 一种多模型数据库OrientDB参数配置自动调优方法 | |
CN106817256A (zh) | 一种分布式系统网络资源运维管理可靠性提升方法 | |
CN112787331B (zh) | 基于深度强化学习的潮流收敛自动调整方法及系统 | |
CN113095513A (zh) | 双层公平联邦学习方法、装置和存储介质 | |
CN110990548B (zh) | 强化学习模型的更新方法和装置 | |
CN112199154A (zh) | 一种基于分布式协同采样中心式优化的强化学习训练系统及方法 | |
CN115022231B (zh) | 一种基于深度强化学习的最优路径规划的方法和系统 | |
CN115150335B (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
Nishimoto et al. | Dialogue management with deep reinforcement learning: Balancing exploration and exploitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |