CN110196928B - 完全并行化具有领域扩展性的端到端多轮对话系统及方法 - Google Patents

完全并行化具有领域扩展性的端到端多轮对话系统及方法 Download PDF

Info

Publication number
CN110196928B
CN110196928B CN201910411706.XA CN201910411706A CN110196928B CN 110196928 B CN110196928 B CN 110196928B CN 201910411706 A CN201910411706 A CN 201910411706A CN 110196928 B CN110196928 B CN 110196928B
Authority
CN
China
Prior art keywords
input
decoder
layer
encoder
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910411706.XA
Other languages
English (en)
Other versions
CN110196928A (zh
Inventor
鄂海红
宋美娜
陈忠富
牛佩晴
周筱松
程瑞
肖思琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910411706.XA priority Critical patent/CN110196928B/zh
Publication of CN110196928A publication Critical patent/CN110196928A/zh
Application granted granted Critical
Publication of CN110196928B publication Critical patent/CN110196928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种完全并行化具有领域扩展性的端到端多轮对话系统及方法,其中,系统包括:输入嵌入层,用于在用户输入信息输入至输入嵌入层后,生成向量表示形式的输入信息;编码器,用于对输入信息进行编码,得到用户输入的抽象表示;对话状态解码器,用于根据抽象表示得到对话状态表示;数据库,用于根据对话状态表示查询得到查询结果;机器响应解码器,用于在查询结果和对话状态共同输入至机器响应解码器后,生成机器回答。该系统实现了各模块之间的一体化,可以实现真正意义上的端到端训练,且在提升了模型的训练速度的同时简化了模型的结构,并具有领域可扩展性,简单易实现。

Description

完全并行化具有领域扩展性的端到端多轮对话系统及方法
技术领域
本发明涉及信息技术及数据业务技术领域,特别涉及一种完全并行化具有领域扩展性的端到端多轮对话系统及方法。
背景技术
目前工业界主流的任务驱动型多轮对话系统主要是基于传统的流水线方式设计的,这种方式的结构复杂,涉及到多模块之间的相互协调,但最终用户的反馈很难传递到上游模块,一个组件调整需要大量人工成本对所有组件进行相应更改。这样各个模块高度相互依赖的结构影响了对话系统的性能和效率,带给用户不佳的体验。相关技术中,一种多轮对话的方法和系统,是基于这种流水线架构设计的,主要分为自然语言理解、对话状态跟踪、策略学习、自然语言生成四个模块。
基于这种现状,越来越多的研究开始投入到端到端的任务型多轮对话系统中,但这些系统大多基于复杂的循环神经网络结构,加剧了模型的复杂性,且基于循环神经网络的模型遇到时间依赖和序列依赖的问题,无法实现完全并行化的架构,充分发挥GPU(Graphics Processing Unit,图像处理器)的性能。相关技术中,一种端到端层次解码任务型对话系统,但系统仅仅依赖于数据库检索,并没有完整的划分对话状态跟踪和自然语言生成模块,可能导致在复杂环境中很难适用,依然高度依赖于双向长短期记忆网络(一种RNN(Recurrent Neural Network,循环神经网路)网络的变体,能捕获句子中的长距离依赖),因此具有庞大的参数和复杂的结构,这也使得模型的训练速度变得非常慢,很大程度上影响了模型的性能。
除此之外,现有的端到端模型大多只是采用共同训练的方式使得各个模块弱关联起来,但并未建立各个模块之间的真正联系,未考虑各个模块之间的交叉影响,在训练过程中会涉及到许多变量的传递,并未实现真正意义上的端到端。除此之外,现有的模型只适用于某一个单一的领域,在进行领域迁移时需要重新定义意图和槽值的标签,不具有领域可扩展性。相关技术中,一种基于seq2seq模型的实现问答机器人的方法,该方法先根据问答语句的上下文信息提取主题词,再将处理之后的用户问句放入seq2seq模型中进行训练,用户问句处理部分需要单独进行训练,并没有实现真正意义上的端到端训练,进一步加剧了模型的复杂性,并且简单的问答也很难适应多轮的对话场景。此外,当该模型进行领域迁移时,需要重新定义数据标签(意图、槽值等),为领域迁移带来了困难。
发明内容
本申请是基于发明人对以下问题的认识和发现做出的:
传统的流水线设计方式结构复杂,各模块之间相互独立,协调困难,端到端的多轮对话框架是未来的发展趋势。而仅有的数量不多的端到端框架仍然是基于循环迭代网络(RNN)实现的,结构复杂,且存在时间依赖和序列依赖的问题,训练缓慢,参数庞大。
上述技术仍然遵循流水线的设计方式,需要额外的训练子模块,并未实现真正意义上的端到端,训练效率不高。且现有的多轮对话系统大多基于深度学习中的循环神经网络,因为RNN网络本身是串行结构,本轮输出会用到上一轮输出的信息,因此存在时间依赖和序列依赖的问题,且循环神经网络本身的结构就较为复杂,更加剧了系统整体的复杂性。
因此,当前任务型对话系统仍存在两个问题:(1)如何高效准确的一体化任务型对话系统,实现真正意义上的端到端模型;(2)高度依赖循环神经网络导致的时间依赖与序列依赖,形成参数庞大,训练缓慢的问题。
本发明实施例提出了一个完全并行化的高效的端到端任务型对话系统,针对第一个问题形成了一个编码器,两个解码器(对话状态解码器和机器响应解码器)的序列到序列模型,准确而高效的将任务型对话系统一体化,完成端到端可训练的架构。针对第二个问题,模型完全基于卷积神经网络和自注意力机制,使得该系统可以实现各元素之间的并行计算,达到并行化训练的目的,充分利用GPU,大幅度的提高模型的训练速度,同时减少模型参数。
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种完全并行化具有领域扩展性的端到端多轮对话系统,该系统实现了各模块之间的一体化,可以实现真正意义上的端到端训练,且在提升了模型的训练速度的同时简化了模型的结构,并具有领域可扩展性,简单易实现。
本发明的另一个目的在于提出一种完全并行化具有领域扩展性的端到端多轮对话方法。
为达到上述目的,本发明一方面实施例提出了一种完全并行化具有领域扩展性的端到端多轮对话系统,包括:输入嵌入层,用于在用户输入信息输入至所述输入嵌入层后,生成向量表示形式的输入信息;编码器,用于对所述输入信息进行编码,得到用户输入的抽象表示;对话状态解码器,用于根据所述抽象表示得到对话状态表示;数据库,用于根据所述对话状态表示查询得到查询结果;机器响应解码器,用于在所述查询结果和所述对话状态共同输入至机器响应解码器后,生成机器回答。
本发明实施例的完全并行化具有领域扩展性的端到端多轮对话系统,采用端到端的方式构建了任务型多轮对话系统,解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题,从而实现了各模块之间的一体化,没有需要单独训练的子模块,因此可以实现真正意义上的端到端训练;基于seq2seq模型,包含一个编码器和两个解码器,三者都是通过卷积神经网络和注意力机制实现的,完全摒弃了复杂的循环神经网络,在提升了模型的训练速度的同时简化了模型的结构;具有领域可扩展性,无需重新定义标签,只需提供其它领域的对话数据和背景知识,即可轻松扩展到其它领域。
另外,根据本发明上述实施例的完全并行化具有领域扩展性的端到端多轮对话系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述编码器由第一多层卷积神经网络和自注意力网络组成,其中,在每一层卷积神经网络之后,添加一个GLU网络,并在所述多层卷积神经网络之间应用残差网络,以提取用户输入的局部特征,并且使用所述自注意力网络捕获句子的全局依赖。
进一步地,在本发明的一个实施例中,所述编码器的输出为:
Yenc=Enc(InputEmb(utrt-1)),
其中,Enc表示编码器,InputEmb表示输入嵌入层,ut表示当前轮的用户输入,rt-1表示上一轮的机器响应。
进一步地,在本发明的一个实施例中,所述对话状态解码器由第二多层卷积神经网络和多跳注意力机制组成,所述第二多层卷积神经网络用于提取局部特征,所述多跳注意力机制结合深层特征高度抽象和浅层特征真实的优势,以从各层特征中获取相关信息,以为每层卷积网络添加单独的注意力机制。
进一步地,在本发明的一个实施例中,其中,
Figure BDA0002062997910000031
Figure BDA0002062997910000032
Figure BDA0002062997910000033
Figure BDA0002062997910000034
其中,αij为解码器向量
Figure BDA0002062997910000035
在编码器向量
Figure BDA0002062997910000036
的注意力,eij
Figure BDA0002062997910000037
Figure BDA0002062997910000038
的对齐分数,eik
Figure BDA0002062997910000039
Figure BDA00020629979100000310
的对齐分数,Tx为编码器输入序列的总长度,n为,W1为线性层参数,
Figure BDA00020629979100000311
为解码器的第i个语义向量,b1为线性层参数,gi为解码器的词向量经过一个线性层的输出,ci为上下文向量,
Figure BDA00020629979100000312
为最终上下文向量,W2为线性层参数,b2为线性层参数。
进一步地,在本发明的一个实施例中,所述机器相应解码器的输出为:
Ydec=Dec(Yenc(utrt-1)|bt-1),
其中,Dec代表译码器,Yenc代表编码器的输出,bt-1表示数据库的检索结果。
为达到上述目的,本发明另一方面实施例提出了一种完全并行化具有领域扩展性的端到端多轮对话方法,执行如权利要求1-6任一项所述的系统,其中,所述方法包括以下步骤:在用户输入信息输入至输入嵌入层后,生成向量表示形式的输入信息;对所述输入信息进行编码,得到用户输入的抽象表示;根据所述抽象表示得到对话状态表示;根据所述对话状态表示查询得到查询结果;在所述查询结果和所述对话状态共同输入至机器响应解码器后,生成机器回答。
本发明实施例的完全并行化具有领域扩展性的端到端多轮对话方法,采用端到端的方式构建了任务型多轮对话系统,解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题,从而实现了各模块之间的一体化,没有需要单独训练的子模块,因此可以实现真正意义上的端到端训练;基于seq2seq模型,包含一个编码器和两个解码器,三者都是通过卷积神经网络和注意力机制实现的,完全摒弃了复杂的循环神经网络,在提升了模型的训练速度的同时简化了模型的结构;具有领域可扩展性,无需重新定义标签,只需提供其它领域的对话数据和背景知识,即可轻松扩展到其它领域。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的完全并行化具有领域扩展性的端到端多轮对话系统的结构示意图;
图2为根据本发明一个实施例的任务型多轮对话示例;
图3为根据本发明实施例的完全并行化具有领域扩展性的端到端多轮对话系统的执行流程图;
图4为根据本发明一个实施例的完全并行化具有领域扩展性的端到端多轮对话系统的结构示意图;
图5为根据本发明实施例的端到端结构示意图;
图6为根据本发明实施例的编码器与解码器结构示意图;
图7为根据本发明实施例的完全并行化具有领域扩展性的端到端多轮对话方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话系统及方法,首先将参照附图描述根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话系统。
图1是本发明一个实施例的完全并行化具有领域扩展性的端到端多轮对话系统的结构示意图。
如图1所示,该完全并行化具有领域扩展性的端到端多轮对话系统100包括:输入嵌入层110、编码器120、对话状态解码器130、数据库140和机器响应解码器150。
其中,输入嵌入层110用于在用户输入信息输入至输入嵌入层110后,生成向量表示形式的输入信息。编码器120用于对输入信息进行编码,得到用户输入的抽象表示。对话状态解码器130用于根据抽象表示得到对话状态表示。数据库140用于根据对话状态表示查询得到查询结果。机器响应解码器150用于在查询结果和对话状态共同输入至机器响应解码器150后,生成机器回答。本发明实施例的系统100实现了各模块之间的一体化,可以实现真正意义上的端到端训练,且在提升了模型的训练速度的同时简化了模型的结构,并具有领域可扩展性,简单易实现。
可以理解的是,本发明实施例的多轮对话系统100是基于编码器-解码器架构设计的,为了适应多轮对话场景,该系统100由一个编码器120和两个解码器组成,其中编码器120用来对用户输入进行编码,两个解码器分别是对话状态解码器130和机器响应解码器150,对话状态解码器130用来记录对话状态,机器响应解码器150用来生成机器响应。其中对话状态由两种槽值表示,一种称为informable槽值用于表示用户需求以便搜索知识库,一种称为requestable槽值用于机器响应的约束条件以便机器做出相应的回答。
举例而言,如图2所示,图2显示了一个对话示例,一共涉及到三轮对话,下面以第三个轮次的对话为例介绍完全并行化具有领域扩展性的多轮对话系统,首先用户输入问句“这家店的电话号码和地址是多少呢?”,具体地,如图3所示,具体可以分为以下几个步骤:
1)、经过输入嵌入层110转换为向量表示形式。
2)、之后再经过编码器120进行编码,得到用户输入的抽象表示。
3)、将该抽象表示输入到对话状态解码器130得到对话状态表示,具体而言,可以用requestable槽值和informable槽值表示,如图2所示,这里的informable槽值是便宜和法国菜,而requestable槽值是电话号码和地址。
4)、之后将得到的对话状态(informable槽值和requestable槽值)输入进数据库140中进行查询,得到查询结果,这里用一个二维度的向量表示是否有该informable槽值对应的条目信息。
5)、将该二维的向量和对话状态共同输入到机器响应解码器150中,产生相应的机器回答,如本示例中的“电话号码是PHONE_SLOT,地址是ADDRESS_SLOT”。特别的是,如果在机器回答中出现了requestable槽值的占位符,如本示例中的“PHONE_SLOT”和“ADDRESS_SLOT”,则需要重新返回数据库进行检索,将数据库中该条目的对应信息填充,如“PHONE_SLOT”用“13778904532”填充,“ADDRESS_SLOT”用“中国北京”填充。
下面将通过具体实施例对完全并行化具有领域扩展性的端到端多轮对话系统100进行进一步详细阐述。
进一步地,在本发明的一个实施例中,编码器120由第一多层卷积神经网络和自注意力网络组成,其中,在每一层卷积神经网络之后,添加一个GLU网络,并在多层卷积神经网络之间应用残差网络,以提取用户输入的局部特征,并且使用自注意力网络捕获句子的全局依赖。
具体而言,如图4所示,本发明实施例的系统100采用端到端的设计方式图3显示了完全并行化的具有领域扩展性的端到端多轮对话的架构,其由一个编码器120和对话状态解码器130、机器响应解码器150组成。
在本发明实施例系统100的结构中,所有编码器和解码器共享一个输入嵌入层110,为了更好捕捉句子特征,本发明实施例采用了词向量结合字符向量的方式来表示句子特征。对于编码器120,其由多层卷积神经网络和自注意力机制组成,特别的,在每一层卷积神经网络之后都添加了一个GLU网络,并在多层卷积神经网络之间应用了残差网络,从而通过多层卷积神经网络可以提取用户输入的局部特征,并且在此之后使用自注意力网络捕获句子的全局依赖。编码器的最终输出为
Yenc=Enc(InputEmb(utrt-1))
其中Enc表示编码器,InputEmb表示输入嵌入层,ut表示当前轮的用户输入,rt-1表示上一轮的机器响应。
进一步地,在本发明的一个实施例中,对话状态解码器130由第二多层卷积神经网络和多跳注意力机制组成,第二多层卷积神经网络用于提取局部特征,多跳注意力机制结合深层特征高度抽象和浅层特征真实的优势,以从各层特征中获取相关信息,以为每层卷积网络添加单独的注意力机制。
具体而言,如图4所示,对话状态解码器130和机器响应解码器150的结构基本相同,由卷积神经网络和多跳注意力机制组成。同样的,卷积神经网络用来提取局部特征,多跳注意力机制可以结合深层特征高度抽象和浅层特征真实的优势,从各层特征中获取有益的信息,具体来说,为每层卷积网络添加单独的注意力机制。
Figure BDA0002062997910000071
Figure BDA0002062997910000072
Figure BDA0002062997910000073
Figure BDA0002062997910000074
其中,gi为解码器的词向量经过一个线性层的输出,与解码器输入经过线性层后相加,再乘以
Figure BDA0002062997910000075
n取0.5后与编码器每个输出
Figure BDA0002062997910000076
点积得到eij,这作为解码器输入与编码器输出的相似度分数衡量,经过softmax后得到权重,得到的上下文向量ci,经过输出线性层与残差模块后得到最终上下文向量
Figure BDA0002062997910000077
解码器的最终输出为:
Ydec=Dec(Yenc(utrt-1)|bt-1)
其中Dec代表译码器;Yenc代表编码器的输出;bt-1表示数据库的检索结果,在这个式子中是条件,相似地,ut表示当前轮的用户输入,rt-1表示上一轮的机器响应。
进一步而言,本发明实施例的系统100包括三个方面的特性:端到端训练、完全并行化、领域可扩展性,下面将分别对三个方面的特性进行详细阐述,具体包括:
1、端到端结构
如图5所示,本发明实施例的系统100基于seq2seq结构实现了真正意义上的端到端,将对话系统各个独立的模块融合成了一个整体的模型,包括一个编码器120,两个解码器(对话状态解码器130和机器响应解码器150),无需额外训练的子模块,可以完全实现端到端训练,这种一个编码器两个解码器的架构在将对话系统整合成一个seq2seq模型的同时,仍然保持着优越的准确性,并且与传统的对话流程相吻合。
由于本发明实施例的系统100完全基于一个单个的seq2seq架构,并且摒弃了复杂的循环神经网络,使得模型结构大大得以简化,使得模型的参数大幅度地减少,这也进一步提高了模型的训练速度。
2、完全并行化
如图6所示,本发明实施例的系统100由一个编码器120和两个解码器组成。其中,编码器120完全基于多层卷积神经网络和自注意力机制,两个解码器的结构类似,都是基于多层卷积神经网络和多跳注意力机制,整个架构都没有使用到循环神经网络,完全采用并行的卷积神经网络和并行的注意力机制,是一个完全并行化的架构,而完全并行化的架构也使得该模型可以实现并行计算,大大提高了训练速度。
3、领域可迁移
本发明实施例的系统100仅由一个编码器120和两个解码器组成,并且其共享一个输入嵌入层110,因此在进行领域迁移时无需重新定义标签。只需要用户提供摸个领域的专业知识背景,即用户拥有某个领域的数据库,如机票数据库、火车票数据库、电影数据库、音乐数据库、餐馆数据库等。该系统可以广泛应用于商场、影院、超市、网购平台等垂直领域的应用,能够极大地减少相关行业的人力需求、提升生产效益,符合网购平台、线下服务平台、旅游业等行业的利益需求。
综上,(1)本发明实施例的系统基于一个seq2seq模型,实现了完全的并行化任务型对话系统;(2)本发明实施例的系统完全由卷积神经网络和注意力机制组成任务型对话系统,完全摒弃了传统的复杂的循环神经网络;(3)本发明实施例的系统采用全并行化方法,有效地提高了模型的训练速度,参数量大量缩小;(4)本发明实施例的系统可迁移到多个领域,具有领域可迁移性。
根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话系统,采用端到端的方式构建了任务型多轮对话系统,解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题,从而实现了各模块之间的一体化,没有需要单独训练的子模块,因此可以实现真正意义上的端到端训练;基于seq2seq模型,包含一个编码器和两个解码器,三者都是通过卷积神经网络和注意力机制实现的,完全摒弃了复杂的循环神经网络,在提升了模型的训练速度的同时简化了模型的结构;具有领域可扩展性,无需重新定义标签,只需提供其它领域的对话数据和背景知识,即可轻松扩展到其它领域。
其次参照附图描述根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话方法。
图7是本发明一个实施例的完全并行化具有领域扩展性的端到端多轮对话方法的流程图。
如图7所示,该完全并行化具有领域扩展性的端到端多轮对话方法,执行上述实施例的系统,其中,方法包括以下步骤:
在步骤S701中,在用户输入信息输入至输入嵌入层后,生成向量表示形式的输入信息。
在步骤S702中,对输入信息进行编码,得到用户输入的抽象表示。
在步骤S703中,根据抽象表示得到对话状态表示。
在步骤S704中,根据对话状态表示查询得到查询结果。
在步骤S705中,在查询结果和对话状态共同输入至机器响应解码器后,生成机器回答。
需要说明的是,前述对完全并行化具有领域扩展性的端到端多轮对话系统实施例的解释说明也适用于该实施例的完全并行化具有领域扩展性的端到端多轮对话方法,此处不再赘述。
根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话方法,采用端到端的方式构建了任务型多轮对话系统,解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题,从而实现了各模块之间的一体化,没有需要单独训练的子模块,因此可以实现真正意义上的端到端训练;基于seq2seq模型,包含一个编码器和两个解码器,三者都是通过卷积神经网络和注意力机制实现的,完全摒弃了复杂的循环神经网络,在提升了模型的训练速度的同时简化了模型的结构;具有领域可扩展性,无需重新定义标签,只需提供其它领域的对话数据和背景知识,即可轻松扩展到其它领域。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种完全并行化具有领域扩展性的端到端多轮对话系统,其特征在于,包括:
输入嵌入层,用于在用户输入信息输入至所述输入嵌入层后,生成向量表示形式的输入信息;
编码器,用于对所述向量表示形式的输入信息进行编码,得到用户输入的抽象表示;
对话状态解码器,用于根据所述抽象表示得到对话状态表示;
数据库,用于根据所述对话状态表示查询得到查询结果;以及
机器响应解码器,用于在所述查询结果和对话状态共同输入至机器响应解码器后,生成机器回答;
所述编码器由第一多层卷积神经网络和自注意力网络组成,其中,在每一层卷积神经网络之后,添加一个GLU网络,并在所述多层卷积神经网络之间应用残差网络,以提取用户输入的局部特征,并且使用所述自注意力网络捕获句子的全局依赖;
所述对话状态解码器由第二多层卷积神经网络和多跳注意力机制组成,所述第二多层卷积神经网络用于提取局部特征,所述多跳注意力机制结合深层特征高度抽象和浅层特征真实的优势,以从各层特征中获取相关信息,以为每层卷积网络添加单独的注意力机制;
所述机器响应解码器由卷积神经网络和多跳注意力机制组成,所述卷积神经网络用于提取局部特征,所述多跳注意力机制结合深层特征高度抽象和浅层特征真实的优势,以从各层特征中获取有益信息。
2.根据权利要求1所述的系统,其特征在于,所述编码器的输出为:
Yenc=Enc(InputEmb(utrt-1)),
其中,Enc表示编码器,InputEmb表示输入嵌入层,ut表示当前轮的用户输入,rt-1表示上一轮的机器响应。
3.根据权利要求1所述的系统,其特征在于,其中,
Figure FDA0002947493370000011
Figure FDA0002947493370000012
Figure FDA0002947493370000013
Figure FDA0002947493370000014
其中,αij为解码器向量
Figure FDA0002947493370000015
在编码器向量
Figure FDA0002947493370000016
的注意力,eij
Figure FDA0002947493370000017
Figure FDA0002947493370000018
的对齐分数,eik
Figure FDA0002947493370000019
Figure FDA00029474933700000110
的对齐分数,Tx为编码器输入序列的总长度,n为0.5,W1为线性层参数,
Figure FDA00029474933700000111
为解码器的第i个语义向量,b1为线性层参数,gi为解码器的词向量经过一个线性层的输出,ci为上下文向量,
Figure FDA0002947493370000021
为最终上下文向量,W2为线性层参数,b2为线性层参数。
4.一种完全并行化具有领域扩展性的端到端多轮对话方法,其特征在于,所述方法由权利要求1-3任一项所述的系统执行,其中,所述方法包括以下步骤:
在用户输入信息输入至输入嵌入层后,生成向量表示形式的输入信息;
对所述向量表示形式的输入信息进行编码,得到用户输入的抽象表示;
根据所述抽象表示得到对话状态表示;
根据所述对话状态表示查询得到查询结果;以及
在所述查询结果和对话状态共同输入至机器响应解码器后,生成机器回答。
CN201910411706.XA 2019-05-17 2019-05-17 完全并行化具有领域扩展性的端到端多轮对话系统及方法 Active CN110196928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411706.XA CN110196928B (zh) 2019-05-17 2019-05-17 完全并行化具有领域扩展性的端到端多轮对话系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411706.XA CN110196928B (zh) 2019-05-17 2019-05-17 完全并行化具有领域扩展性的端到端多轮对话系统及方法

Publications (2)

Publication Number Publication Date
CN110196928A CN110196928A (zh) 2019-09-03
CN110196928B true CN110196928B (zh) 2021-03-30

Family

ID=67751549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411706.XA Active CN110196928B (zh) 2019-05-17 2019-05-17 完全并行化具有领域扩展性的端到端多轮对话系统及方法

Country Status (1)

Country Link
CN (1) CN110196928B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209297B (zh) * 2019-12-31 2024-05-03 深圳云天励飞技术有限公司 数据查询方法、装置、电子设备及存储介质
CN111694934A (zh) * 2020-04-24 2020-09-22 中国电力科学研究院有限公司 一种端到端的对话方法和系统
US20220092413A1 (en) * 2020-09-23 2022-03-24 Beijing Wodong Tianjun Information Technology Co., Ltd. Method and system for relation learning by multi-hop attention graph neural network
CN113792064A (zh) * 2021-08-30 2021-12-14 阿里巴巴达摩院(杭州)科技有限公司 实现多轮对话的方法及装置和关系模型生成方法
CN114860914B (zh) * 2022-05-26 2023-06-16 南京信息工程大学 一种基于知识库增强的端到端多领域任务型对话生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN109255020A (zh) * 2018-09-11 2019-01-22 浙江大学 一种利用卷积对话生成模型解决对话生成任务的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019748A (ko) * 2017-08-18 2019-02-27 삼성전자주식회사 자연어 생성 방법 및 장치
US10853575B2 (en) * 2017-10-26 2020-12-01 Nec Corporation System and method for faster interfaces on text-based tasks using adaptive memory networks
CN108877801B (zh) * 2018-06-14 2020-10-02 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
CN109614471B (zh) * 2018-12-07 2021-07-02 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN109255020A (zh) * 2018-09-11 2019-01-22 浙江大学 一种利用卷积对话生成模型解决对话生成任务的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Building End-to-End Task-oriented Dialogue;宋美娜等;《2019 11th International Conference on Electronics, Computers and Artificial Intelligence (ECAI)》;IEEE;20190629;1-6 *
FPSeq: Simplifying and Accelerating Task-oriented;宋美娜等;《2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI)》;IEEE;20191106;1-8 *

Also Published As

Publication number Publication date
CN110196928A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110196928B (zh) 完全并行化具有领域扩展性的端到端多轮对话系统及方法
CN110188167B (zh) 一种融入外部知识的端到端对话方法及系统
Guo et al. Deep multimodal representation learning: A survey
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN113610126A (zh) 基于多目标检测模型无标签的知识蒸馏方法及存储介质
CN108038183A (zh) 结构化实体收录方法、装置、服务器和存储介质
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN111126218A (zh) 一种基于零样本学习的人体行为识别方法
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
Gao et al. The joint method of triple attention and novel loss function for entity relation extraction in small data-driven computational social systems
CN112069302A (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
Liu et al. Cross-attentional spatio-temporal semantic graph networks for video question answering
CN111191015A (zh) 一种神经网络电影知识智能对话方法
Liang et al. Effective adaptation in multi-task co-training for unified autonomous driving
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN114817508A (zh) 融合稀疏图和多跳注意力的会话推荐系统
CN116136870A (zh) 基于增强实体表示的智能社交对话方法、对话系统
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN116628160B (zh) 一种基于多知识库的任务型对话方法、系统及介质
CN117313728A (zh) 实体识别方法、模型训练方法、装置、设备和存储介质
CN116663523A (zh) 多角度增强网络的语义文本相似度计算方法
CN110851580A (zh) 一种基于结构化用户属性描述的个性化任务型对话系统
CN110162655A (zh) 一种基于草图的三维模型局部检索方法、装置、终端设备
CN116263794A (zh) 对比学习增强的双流模型推荐系统及算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant