CN113704425A - 一种结合知识增强和深度强化学习的对话策略优化方法 - Google Patents
一种结合知识增强和深度强化学习的对话策略优化方法 Download PDFInfo
- Publication number
- CN113704425A CN113704425A CN202110997386.8A CN202110997386A CN113704425A CN 113704425 A CN113704425 A CN 113704425A CN 202110997386 A CN202110997386 A CN 202110997386A CN 113704425 A CN113704425 A CN 113704425A
- Authority
- CN
- China
- Prior art keywords
- state
- reinforcement learning
- description information
- network
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供的一种结合知识增强和深度强化学习的对话策略优化方法,所述优化方法包括:获取用户给出的语言描述信息;将所述语言描述信息进行增强,获得增强数据集;根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法,所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。首先对用户的问题进行主题知识增强,然后使用深度强化学习方法应用于DPL学习对话的动作决策中,最后加权选择最终的决策。这种方式泛化能力强,极大地减少了人工成本,并且提高了人机对话系统的灵活性。
Description
技术领域
本发明涉及对话策略领域,尤其涉及一种结合知识增强和深度强化学习的对话策略优化方法。
背景技术
对话系统一般分为目标导向型对话系统和闲聊型对话系统,其中目标导向型的对话系统具有明确需要完成的任务目标。对话系统的最新进展绝大多数是由深度学习技术所贡献的,深度学习技术通过利用大规模数据来学习有意义的特征表示和回复生成策略,同时只需要少量人工特征,这个发展使得对话系统在工业界越来越广泛地被应用。
深度强化学习是深度学习与强化学习相结合的产物,集成了深度学习的理解能力和强化学习的决策能力,使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。
目前,工业界普遍使用的对话策略都是基于规则的,但是这种方式只能在比较小的任务上效果比较好。基于规则的对话策略动作状态序列固定,必须规规矩矩按照系统提示问答,否则无法响应需求。人力成本高,泛化能力差。
发明内容
鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种结合知识增强和深度强化学习的对话策略优化方法。
根据本发明的一个方面,提供了一种结合知识增强和深度强化学习的对话策略优化方法,所述优化方法包括:
获取用户给出的语言描述信息;
将所述语言描述信息进行增强,获得增强数据集;
根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法,所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。
可选的,所述将所述语言描述信息进行增强,获得增强数据集具体包括:
对所述语言描述信息进行主题知识增强,采用LDA主题模型、卷积神经网络进行主题知识扩充,采用关键词抽取技术抽取所述语言描述信息中的关键词;
基于所述关键词进行文本增强,采用语言学如词性等特征进行文本数据增强,获得增强文本信息;
将所述增强文本信息进行对话管理,策略加权后选择最终的决策结果。
可选的,所述根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法具体包括:
所述对话策略为以对话的状态作为输入,通过一个π函数来产生一个动作;
对话开始的状态到结束的状态是一个状态序列,根据可枚举的动作集合,在对话状态的空间和对话状态的输入过程中,建立起一个对应关系;
根据所述对应关系估计出多轮对话的过程中,每个自然语言的背后与之对应的动作,获得Q网络参数。
可选的,所述获得Q网络参数具体包括:
随机初始化Q网络的所有参数ω,基于ω初始化所有的状态和动作对应的价值Q,经验回放集合D;
从1到T,进行迭代:
初始化S为当前状态序列的第一个状态,获得特征向量φ(S)
在Q网络中所述特征向量φ(S)作为输入,得到Q网络的所有动作对应的Q值输出;
用∈贪婪法在当前Q值输出中选择对应的动作A;
在状态S执行当前动作A,得到新状态S'对应的特征向量φ(S')和奖励R$,是否终止状态is_end;
将{φ(S),A,R,φ(S'),is_end}这个五元组存入所述经验回放集合D,将S'赋值给S,从所述经验回放集合D中采样m个样本{φ(Sj),Aj,Rj,φ(S'j),is_endj},j=1,2,...m,计算当前目标Q值yj:
使用均方差损失函数,通过神经网络的梯度方向传播来更新Q网络的所有参数ω;
本发明提供的一种结合知识增强和深度强化学习的对话策略优化方法,所述优化方法包括:获取用户给出的语言描述信息;将所述语言描述信息进行增强,获得增强数据集;根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法,所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。首先对用户的问题进行主题知识增强,然后使用深度强化学习方法应用于DPL学习对话的动作决策中,最后加权选择最终的决策。这种方式泛化能力强,极大地减少了人工成本,并且提高了人机对话系统的灵活性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种结合知识增强和深度强化学习的对话策略优化方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
如图1所示,一种结合知识增强和深度强化学习的对话策略优化方法,所述优化方法包括:
获取用户给出的语言描述信息;
将所述语言描述信息进行增强,获得增强数据集;
根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法,所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。
将所述语言描述信息进行增强,获得增强数据集具体包括:
对所述语言描述信息进行主题知识增强,采用LDA主题模型、卷积神经网络进行主题知识扩充,采用关键词抽取技术抽取所述语言描述信息中的关键词;
基于所述关键词进行文本增强,采用语言学如词性等特征进行文本数据增强,获得增强文本信息;
将所述增强文本信息进行对话管理,策略加权后选择最终的决策结果。
根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法具体包括:
所述对话策略为以对话的状态作为输入,通过一个π函数来产生一个动作;
对话开始的状态到结束的状态是一个状态序列,根据可枚举的动作集合,在对话状态的空间和对话状态的输入过程中,建立起一个对应关系;
根据所述对应关系估计出多轮对话的过程中,每个自然语言的背后与之对应的动作,获得Q网络参数。
获得Q网络参数具体包括:
随机初始化Q网络的所有参数ω,基于ω初始化所有的状态和动作对应的价值Q,经验回放集合D;
从1到T,进行迭代:
初始化S为当前状态序列的第一个状态,获得特征向量φ(S)
在Q网络中所述特征向量φ(S)作为输入,得到Q网络的所有动作对应的Q值输出;
用∈贪婪法在当前Q值输出中选择对应的动作A;
在状态S执行当前动作A,得到新状态S'对应的特征向量φ(S')和奖励R$,是否终止状态is_end;
将{φ(S),A,R,φ(S'),is_end}这个五元组存入所述经验回放集合D,将S'赋值给S,从所述经验回放集合D中采样m个样本{φ(Sj),Aj,Rj,φ(S'j),is_endj},j=1,2,...m,计算当前目标Q值yj:
使用均方差损失函数,通过神经网络的梯度方向传播来更新Q网络的所有参数ω;
有益效果:
首先对用户的问题进行主题知识增强,然后使用深度强化学习方法应用于DPL学习对话的动作决策中,最后加权选择最终的决策。这种方式泛化能力强,极大地减少了人工成本,并且提高了人机对话系统的灵活性。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种结合知识增强和深度强化学习的对话策略优化方法,其特征在于,所述优化方法包括:
获取用户给出的语言描述信息;
将所述语言描述信息进行增强,获得增强数据集;
根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法,所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。
2.根据权利要求1所述的一种结合知识增强和深度强化学习的对话策略优化方法,其特征在于,所述将所述语言描述信息进行增强,获得增强数据集具体包括:
对所述语言描述信息进行主题知识增强,采用LDA主题模型、卷积神经网络进行主题知识扩充,采用关键词抽取技术抽取所述语言描述信息中的关键词;
基于所述关键词进行文本增强,采用语言学如词性等特征进行文本数据增强,获得增强文本信息;
将所述增强文本信息进行对话管理,策略加权后选择最终的决策结果。
3.根据权利要求1所述的一种结合知识增强和深度强化学习的对话策略优化方法,其特征在于,所述根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法具体包括:
所述对话策略为以对话的状态作为输入,通过一个π函数来产生一个动作;
对话开始的状态到结束的状态是一个状态序列,根据可枚举的动作集合,在对话状态的空间和对话状态的输入过程中,建立起一个对应关系;
根据所述对应关系估计出多轮对话的过程中,每个自然语言的背后与之对应的动作,获得Q网络参数。
4.根据权利要求3所述的一种结合知识增强和深度强化学习的对话策略优化方法,其特征在于,所述获得Q网络参数具体包括:
随机初始化Q网络的所有参数ω,基于ω初始化所有的状态和动作对应的价值Q,经验回放集合D;
从1到T,进行迭代:
初始化S为当前状态序列的第一个状态,获得特征向量φ(S)
在Q网络中所述特征向量φ(S)作为输入,得到Q网络的所有动作对应的Q值输出;
用∈贪婪法在当前Q值输出中选择对应的动作A;
在状态S执行当前动作A,得到新状态S'对应的特征向量φ(S')和奖励R$,是否终止状态is_end;
将{φ(S),A,R,φ(S'),is_end}这个五元组存入所述经验回放集合D,将S'赋值给S,从所述经验回放集合D中采样m个样本{φ(Sj),Aj,Rj,φ(Sj'),is_endj},j=1,2,...m,计算当前目标Q值yj:
使用均方差损失函数,通过神经网络的梯度方向传播来更新Q网络的所有参数ω;
如果S'是终止状态,当前轮迭代完毕,否则转到步骤在Q网络中所述特征向量φ(S)作为输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110997386.8A CN113704425A (zh) | 2021-08-27 | 2021-08-27 | 一种结合知识增强和深度强化学习的对话策略优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110997386.8A CN113704425A (zh) | 2021-08-27 | 2021-08-27 | 一种结合知识增强和深度强化学习的对话策略优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704425A true CN113704425A (zh) | 2021-11-26 |
Family
ID=78656113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110997386.8A Pending CN113704425A (zh) | 2021-08-27 | 2021-08-27 | 一种结合知识增强和深度强化学习的对话策略优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704425A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611527A (zh) * | 2022-03-01 | 2022-06-10 | 华南理工大学 | 一种用户个性感知的任务导向型对话策略学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107342078A (zh) * | 2017-06-23 | 2017-11-10 | 上海交通大学 | 对话策略优化的冷启动系统和方法 |
CN108829797A (zh) * | 2018-04-25 | 2018-11-16 | 苏州思必驰信息科技有限公司 | 多智能体对话策略系统构建方法及自适应方法 |
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN111653106A (zh) * | 2020-04-15 | 2020-09-11 | 南京理工大学 | 一种基于深度q学习的交通信号控制方法 |
-
2021
- 2021-08-27 CN CN202110997386.8A patent/CN113704425A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN107342078A (zh) * | 2017-06-23 | 2017-11-10 | 上海交通大学 | 对话策略优化的冷启动系统和方法 |
CN108829797A (zh) * | 2018-04-25 | 2018-11-16 | 苏州思必驰信息科技有限公司 | 多智能体对话策略系统构建方法及自适应方法 |
CN111653106A (zh) * | 2020-04-15 | 2020-09-11 | 南京理工大学 | 一种基于深度q学习的交通信号控制方法 |
Non-Patent Citations (5)
Title |
---|
于璐 等: "基于时空语义挖掘的城市功能区识别研究", 四川大学学报(自然科学版), no. 2, pages 246 - 251 * |
宋皓宇;张伟男;刘挺;: "基于DQN的开放域多轮对话策略学习", 中文信息学报, no. 07, pages 99 - 108 * |
晋帅;李煊鹏;何嘉颖;李纾昶;周敬淞;: "基于强化学习的两轮模型车控制仿真分析", 测控技术, no. 12, pages 115 - 121 * |
景栋盛;薛劲松;冯仁君;: "基于深度Q网络的垃圾邮件文本分类方法", 计算机与现代化, no. 06, pages 89 - 94 * |
黄毅;冯俊兰;胡珉;吴晓婷;杜晓宇;: "智能对话系统架构及算法", 北京邮电大学学报, no. 06, pages 1 - 9 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611527A (zh) * | 2022-03-01 | 2022-06-10 | 华南理工大学 | 一种用户个性感知的任务导向型对话策略学习方法 |
CN114611527B (zh) * | 2022-03-01 | 2024-07-19 | 华南理工大学 | 一种用户个性感知的任务导向型对话策略学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7017640B2 (ja) | データ拡張方策の学習 | |
Kreyssig et al. | Neural user simulation for corpus-based policy optimisation for spoken dialogue systems | |
Weisz et al. | Sample efficient deep reinforcement learning for dialogue systems with large action spaces | |
CN110168578B (zh) | 具有任务特定路径的多任务神经网络 | |
US11227581B2 (en) | Systems and methods for generating a response based on task-independent conversational responses or task-specific responses | |
CN111406264B (zh) | 神经架构搜索 | |
CN112487168B (zh) | 知识图谱的语义问答方法、装置、计算机设备及存储介质 | |
CN111400480B (zh) | 针对多轮对话的用户意图识别方法和装置 | |
CN115066694A (zh) | 计算图优化 | |
CN114943211A (zh) | 一种基于前缀的文本生成方法、系统及计算机可读存储介质 | |
CN114841318B (zh) | 基于跨模态知识蒸馏的智能合约漏洞检测方法 | |
CN116363452A (zh) | 任务模型训练方法以及装置 | |
CN114297338A (zh) | 文本匹配方法、装置、存储介质和程序产品 | |
CN113704425A (zh) | 一种结合知识增强和深度强化学习的对话策略优化方法 | |
CN113705402A (zh) | 视频行为预测方法、系统、电子设备及存储介质 | |
CN111126607B (zh) | 一种模型训练的数据处理方法、装置与系统 | |
CN117575008A (zh) | 训练样本生成方法、模型训练方法、知识问答方法及设备 | |
CN110727783B (zh) | 一种基于对话系统对用户问句提出反问的方法和装置 | |
CN111400479A (zh) | 针对多轮对话的问题识别方法和装置 | |
CN115080736B (zh) | 一种判别式语言模型的模型调整方法及装置 | |
CN113094490B (zh) | 一种会话交互方法、装置、电子设备及存储介质 | |
CN114547308A (zh) | 文本处理的方法、装置、电子设备及存储介质 | |
CN113377884A (zh) | 基于多智能体增强学习的事件语料库提纯方法 | |
CN112836721B (zh) | 一种图像识别方法及装置、计算机设备、可读存储介质 | |
CN118261268B (zh) | 一种长序列建模方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |