CN108256066B - 端到端层次解码任务型对话系统 - Google Patents
端到端层次解码任务型对话系统 Download PDFInfo
- Publication number
- CN108256066B CN108256066B CN201810041458.XA CN201810041458A CN108256066B CN 108256066 B CN108256066 B CN 108256066B CN 201810041458 A CN201810041458 A CN 201810041458A CN 108256066 B CN108256066 B CN 108256066B
- Authority
- CN
- China
- Prior art keywords
- user
- module
- database
- natural language
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
Description
技术领域
本发明涉及一种端到端层次解码任务型对话系统。
背景技术
目前的任务型对话系统主要基于有限状态机和统计对话模型,主要有两种模型:
第一种是基于slot-filling的有限状态机模型。该模型基于slot-filling以及手工设计的对话状态,将slot填充的状态作为对话状态的表示,根据业务逻辑,人工设计对话状态以及状态跳转的规则。该方法依赖槽提取的准确性,且对话流程依赖人工设计,需要设计复杂的规则支持复杂的对话策略,以及回复的模板,难以适用于不同领域。
第二种是基于统计模型的对话系统,该系统由Steveyoung提出,包括四个主要模块:自然语言理解、对话状态追踪、对话策略、自然语言回复生成。由于是pipeline的结构,某个模块产生的错误会极大地影响后续模块,造成错误的传播和放大。另外,自然语言理解和对话状态追踪模块需要大量的人工标注数据训练相应的神经网络分类器,难以在冷启动或者数据量较少的情况下使用。
发明内容
本发明的主要目的是本发明提出一种端到端层次解码任务型对话系统,能够实现端到端的对话,减少繁琐的人工规则,通过引入用户意图隐变量,使模型能够在无监督、半监督、强化学习的框架下训练,支持冷启动、少量标注数据和在线更新等场景。
为实现上述目的,本发明提出的一种端到端层次解码任务型对话系统,包括:
对话历史编码器模块,用于将对话历史通过单向循环神经网络编码为sl:
数据库检索模块,用于输入由用户输入的自然语言句子提取的槽,在数据库中做检索,返回一个变量dl,表示数据库中是否存在满足需求的数据;
其中,ul为第l轮对话用户输入的自然语言句子,为第l轮对话用户输入的自然语言句子中的第t个词,sl对话历史通过lstm在第l论的对话状态表示,rl是指系统在第l轮的response,指的是服从多项式分布的随机变量,表示用户的intention,dl检索数据库的返回变量,如果数据库中存在数据,则返回1;反之,则返回0,指的是第l论对话用户输入的句子的emebdding。
优选地,模型的优化目标函数为:
优选地,还包括无监督学习模块,使用精确最大似然和变分近似的方法求解,精确最大似然:
变分近似:引入变分分布q(zl|rl,ul),使用变分下界作为优化目标函数:
优选地,还包括半监督学习模块,用于在给定少量的用户Intention标注的情况下,得到如下的目标函数:精确最大似然:
变分近似:
优选地,在无监督和半监督学习的基础上,引入强化学习的范式,单独优化intention模块:
本发明提供的端到端层次解码任务型对话系统,该对话系统能够实现端到端对话系统,减少繁琐的人工规则。同时,引入用户意图隐含离散变量,使得模型能够在无监督、半监督、强化学习的框架下训练,支持冷启动、少量标注数据和在线更新等场景。本发明支持数据库检索、无监督学习、半监督学习和强化学习等学习范式。基于大量的对话历史数据学习对话策略,并能顾基于少量的标注数据进一步提升模型的性能,加入强化学习后,能够根据不同的reward函数,学习更好的对话策略。提出使用精确最大似然函数作为模型的优化函数并给出具体的求解方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明端到端层次解码任务型对话系统的流程图;
图2为本发明端到端层次解码任务型对话系统第一实施例的模块图;
图3为本发明端到端层次解码任务型对话系统第二实施例的模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1~3,图1为本发明端到端层次解码任务型对话系统的流程图;图2为本发明端到端层次解码任务型对话系统第一实施例的模块图;图3为本发明端到端层次解码任务型对话系统第二实施例的模块图。本发明提供的端到端层次解码任务型对话系统,该系统模块结构包括以下5大模块,具体包括句子编码器模块100、对话历史编码器模块200、用户意图引入模块300、数据库检索模块400和解码输出模块500。
对话历史编码器模块200,用于将对话历史通过单向循环神经网络编码为sl:
数据库检索模块400,用于输入由用户输入的自然语言句子提取的槽,在数据库中做检索,返回一个变量dl,表示数据库中是否存在满足需求的数据;解码输出模块500,模块输入对话历史sl、用户句子的数据库的返回变量dl以及用户意图隐变量zl,输出自然语言句子作为系统对用户输入的回复:
其中,ul为第l轮对话用户输入的自然语言句子,为第l轮对话用户输入的自然语言句子中的第t个词,sl对话历史通过lstm在第l轮的对话状态表示,rl是指系统在第l轮的response,指的是服从多项式分布的随机变量,表示用户的intention,dl检索数据库的返回变量,如果数据库中存在数据,则返回1;反之,则返回0,指的是第l论对话用户输入的句子的emebdding。
模型的优化目标函数为:
无监督学习模块,使用精确最大似然和变分近似的方法求解,精确最大似然:
变分近似:引入变分分布q(zl|rl,ul),使用变分下界作为优化目标函数:
半监督学习模块,用于在给定少量的用户Intention标注的情况下,得到如下的目标函数:精确最大似然:
变分近似:
在无监督和半监督学习的基础上,引入强化学习的范式,单独优化intention模块:
本发明提供的端到端层次解码任务型对话系统,该对话系统能够实现端到端对话系统,减少繁琐的人工规则。同时,引入用户意图隐含离散变量,使得模型能够在无监督、半监督、强化学习的框架下训练,支持冷启动、少量标注数据和在线更新等场景。本发明支持数据库检索、无监督学习、半监督学习和强化学习等学习范式。基于大量的对话历史数据学习对话策略,并能顾基于少量的标注数据进一步提升模型的性能,加入强化学习后,能够根据不同的reward函数,学习更好的对话策略。提出使用精确最大似然函数作为模型的优化函数并给出具体的求解方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (3)
1.一种端到端层次解码任务型对话系统,其特征在于,包括:
对话历史编码器模块,用于将对话历史通过单向循环神经网络编码为sl:
数据库检索模块,用于输入由用户输入的自然语言句子提取的槽,在数据库中做检索,返回一个变量dl,表示数据库中是否存在满足需求的数据;
其中,ul为第l轮对话用户输入的自然语言句子,为第l轮对话用户输入的自然语言句子中的第t个词,sl对话历史通过lstm在第l论的对话状态表示,rl是指系统在第l轮的response,指的是服从多项式分布的随机变量,表示用户的intention,dl检索数据库的返回变量,如果数据库中存在数据,则返回1;反之,则返回0,指的是第l论对话用户输入的句子的embedding;
还包括无监督学习模块,使用精确最大似然和变分近似的方法求解,精确最大似然:
变分近似:引入变分分布q(zl|rl,ul),使用变分下界作为优化目标函数:
还包括半监督学习模块,用于在给定少量的用户Intention标注的情况下,得到如下的目标函数:精确最大似然:
变分近似:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810041458.XA CN108256066B (zh) | 2018-01-16 | 2018-01-16 | 端到端层次解码任务型对话系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810041458.XA CN108256066B (zh) | 2018-01-16 | 2018-01-16 | 端到端层次解码任务型对话系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108256066A CN108256066A (zh) | 2018-07-06 |
CN108256066B true CN108256066B (zh) | 2022-01-11 |
Family
ID=62741307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810041458.XA Active CN108256066B (zh) | 2018-01-16 | 2018-01-16 | 端到端层次解码任务型对话系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108256066B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059100B (zh) * | 2019-03-20 | 2022-02-22 | 广东工业大学 | 基于演员-评论家网络的sql语句构造方法 |
CN109960733A (zh) * | 2019-04-01 | 2019-07-02 | 上海火商智能科技有限公司 | 一种端到端任务型对话系统 |
CN110188167B (zh) * | 2019-05-17 | 2021-03-30 | 北京邮电大学 | 一种融入外部知识的端到端对话方法及系统 |
CN110851575B (zh) * | 2019-09-23 | 2022-09-16 | 深思考人工智能科技(上海)有限公司 | 一种对话生成系统及对话实现方法 |
CN110727768B (zh) * | 2019-10-24 | 2022-10-11 | 中国科学院计算技术研究所 | 一种候选回答语句生成和自然语言选择方法及系统 |
CN110990547B (zh) * | 2019-11-29 | 2023-03-14 | 支付宝(杭州)信息技术有限公司 | 一种话术生成方法和系统 |
CN111143535B (zh) | 2019-12-27 | 2021-08-10 | 北京百度网讯科技有限公司 | 用于生成对话模型的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1321296A (zh) * | 1998-10-02 | 2001-11-07 | 国际商业机器公司 | 通过会话虚拟机进行会话式计算 |
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
CN106951512A (zh) * | 2017-03-17 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于混合编码网络的端到端对话控制方法 |
-
2018
- 2018-01-16 CN CN201810041458.XA patent/CN108256066B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1321296A (zh) * | 1998-10-02 | 2001-11-07 | 国际商业机器公司 | 通过会话虚拟机进行会话式计算 |
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
CN106951512A (zh) * | 2017-03-17 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于混合编码网络的端到端对话控制方法 |
Non-Patent Citations (3)
Title |
---|
《A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues》;Julian Vlad Serban等;《29th Conference on Neural Information Processing Systems》;20160531;全文 * |
《Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models》;Iulian V. Serban等;《Association for the Advancement of Artificial Intelligence》;20151231;全文 * |
《深度文本匹配综述》;庞亮等;《计算机学报》;20170430;第40卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108256066A (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256066B (zh) | 端到端层次解码任务型对话系统 | |
CN112417880B (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN111310471B (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN108416058A (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN113254610B (zh) | 面向专利咨询的多轮对话生成方法 | |
CN110297909B (zh) | 一种无标签语料的分类方法及装置 | |
CN109726400B (zh) | 实体词识别结果评价方法、装置、设备及实体词提取系统 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN115525744A (zh) | 一种基于提示学习方法的对话推荐系统 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN117094325A (zh) | 水稻病虫害领域命名实体识别方法 | |
CN113297374A (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN112364659A (zh) | 一种无监督的语义表示自动识别方法及装置 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN116702765A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN115114930A (zh) | 一种基于序列到森林的非连续实体识别方法 | |
CN114491004A (zh) | 一种标题生成方法、装置、电子设备和存储介质 | |
CN113705194A (zh) | 简称抽取方法及电子设备 | |
CN112434143A (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 | |
CN112966502A (zh) | 一种基于长难句化简的电力专利文本实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |