CN109885671B - 基于多任务学习的问答方法 - Google Patents
基于多任务学习的问答方法 Download PDFInfo
- Publication number
- CN109885671B CN109885671B CN201910152570.5A CN201910152570A CN109885671B CN 109885671 B CN109885671 B CN 109885671B CN 201910152570 A CN201910152570 A CN 201910152570A CN 109885671 B CN109885671 B CN 109885671B
- Authority
- CN
- China
- Prior art keywords
- task
- question
- representation
- learning
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明属于人工智能领域,涉及一种基于多任务学习(multi-task learning,MTL)的问答方法,利用从不同角度学习的注意力同时处理答案选择和知识库问答任务。
背景技术
问答系统是一种重要而又具有挑战性的自然语言处理应用。近年来,深度神经网络在问答任务中的应用取得了许多成功,但是不同的问答任务是单独解决的,为特定任务设计和培训各种模型既费时又费钱。近来,在许多自然语言处理任务中,多任务学习被广泛研究用来同时解决多个相关任务。多任务学习在自然语言处理领域的应用非常广泛,如文本分类、序列标记、文本摘要等。然而,多任务学习在问答系统中的应用却很少受到关注。答案选择和知识库问答是问答系统的两个重要任务。现有的方法分别解决这两个任务,需要大量的重复工作,而忽略任务之间丰富的相关信息。为了实现联合学习这两项任务的目的,本专利提出一种新的多任务学习方案来同时解决答案选择和知识库问答任务,利用从不同角度学习的多视角注意力,使这些任务能够相互交互,学习更全面的句子表示。
发明内容
有鉴于此,本发明的目的在于提供一种基于多任务学习(multi-task learning,MTL)的问答方法,利用从不同角度学习的注意力同时处理答案选择和知识库问答任务。
为达到上述目的,本发明提供如下技术方案:
一种基于多任务学习的问答方法,包括以下步骤:
S1:为每个任务配备特定于任务的siamese编码器,将预处理后的句子编码为分布式向量表示;
S2:利用一个共享的表示学习层在不同的任务之间共享高级信息;
S4:多任务学习:训练多任务学习模型,使交叉熵损失函数最小化。
进一步,步骤S1中,每个特定于任务的siamese编码器都包含一个单词编码器和一个知识编码器,用于学习完整的句子表示。
进一步,所述单词编码器使用双向长短期记忆网络Bi-LSTM捕获上下文信息,所述单词编码器的输入为词向量表示序列Ew={ew1,ew2,…,ewl},第l个词的输出用表示,其中为前向网络的输出,为后向网络的输出,给定问题q和答案a的一对序列,为问题和答案生成基于单词的句子表示即,其中L和dh分别表示句子的长度和隐藏单元的大小。
进一步,所述知识编码器的输入为知识向量表示序列Ek={ek1,ek2,…,ekl},所述知识向量表示序列是由一系列符号化的实体或关系名组成的,由于实体长度的不确定性,采用多个不同大小的滤波器得到不同的输出向量{H1,H2,…,Hn},其中Hi为第i个滤波器得到的输出向量,全连接层输入这些向量获得知识的句子表示其中L是句子的长度,df是滤波器的总尺寸,根据问题q和答案a,基于知识的句子表示形式为:
进一步,步骤S2中,还包括集成所有任务的编码向量,并通过高级共享SiameseBi-LSTM生成最终的问答表示,即,Sq=Bi-LSTM(Hq);Sa=Bi-LSTM(Ha),其中,Sq表示基于双向长短期记忆模型的共享表示层的问题输出,Hq表示问句向量表示;同理,Sa表示基于双向长短期记忆模型的共享表示层的答案输出,Ha表示答案向量表示。
进一步,步骤S2中,还包括应用平均池化,对Bi-LSTM的输出应用平均池化操作,sq=Average(Sq),sa=Average(Sa),最终特征空间表示为x=[sq,sa,xol]。
进一步,步骤S4中,所述多任务学习包括其中,L为交叉熵损失函数,λt表示一个决定第t次任务的权重参数,是问题答案对的真实标签,是问题答案对的预测概率λt表示一个决定第t次任务的权重参数,是问题答案对的真实标签。
本发明的有益效果在于:本发明提出的多任务学习方案,利用从不同角度学习到的多视图注意力,使这些任务能够相互作用,学习更全面的句子表示,包括单词视图、知识视图、语义视图、知识语义视图和共注意视图。此外,多视角注意方案还可以有效地从不同的表征视角收集注意信息,提高表征学习的整体水平。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明用于答案选择和知识库问答的基于多任务学习的问答网络的总体架构图;
图2为本发明基于特定任务的编码模型。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
一种基于多任务学习方法来同时解决答案选择和知识库问答任务,知识层的知识库问答任务可以改进答案选择任务,单词层的答案选择任务也可以提高知识库问答任务。而且,该方案利用多视图注意机制来联合学习不同的任务,将任务特定层的重要信息集成到共享层,使模型能够交互式地学习单词级和知识级表示。
图1为本发明用于答案选择和知识库问答的基于多任务学习的问答网络的总体架构图,基本的多任务学习模型是一个深度神经网络,它采用分层特定的共享机制,在不同的任务之间共享一些高层信息,剩下的层是并行独立的,可以学习任务特定的低层信息。本发明解决上述问题的技术方案包括以下步骤:
(1)编码预处理的句子为分布式向量表示。由于不同的问答任务在数据分布和底层表示上的不同,为每个任务配备特定于任务的siamese编码器,每个特定于任务的编码器都包含一个单词编码器和一个知识编码器,用于学习完整的句子表示。
(2)利用一个共享的表示学习层在不同的任务之间共享高级信息。在使用特定于任务的编码器将句子编码成向量表示之后,通过一个共享的表示学习层在不同的任务之间共享高级信息。与任务特定编码器层的输入相比,整句表示具有更丰富的语义含义,与其他任务具有更相似的分布。然后集成所有任务的编码向量,并通过高级共享Siamese Bi-LSTM生成最终的问答表示,即,Sq=Bi-LSTM(Hq);Sa=Bi-LSTM(Ha),其中,Sq表示基于双向长短期记忆模型的共享表示层的问题输出,Hq表示问句向量表示;同理,Sa表示基于双向长短期记忆模型的共享表示层的答案输出,Ha表示答案向量表示。
(3)应用平均池化。对Bi-LSTM的输出应用平均池化操作,sq=Average(Sq),sa=Average(Sa)。最终特征空间表示为x=[sq,sa,xol]。
(4)特定任务的softmax层分类。对于第k个任务中的问答对及其标签最后的特征表示形式被输入特定于任务的softmax层进行二进制分类,即,其中pt为预测概率,和为隐层中任务特定权重矩阵和偏置向量。
(5)多任务学习。训练多任务学习模型,使交叉熵损失函数最小化,即,其中,L为交叉熵损失函数,λt表示一个决定第t次任务的权重参数,是问题答案对的真实标签,是问题答案对的预测概率λt表示一个决定第t次任务的权重参数,是问题答案对的真实标签。
图2为本发明基于特定任务的编码模型。每个任务配备siamese编码器,每个特定于任务的编码器都包含一个单词编码器和一个知识编码器,用于学习完整的句子表示,如图2所示。单词编码器模块的输入为词向量表示序列Ew={ew1,ew2,…,ewl}。该模型使用双向长短期记忆网络(Bidirectional Long Short-Term Memory Networks,Bi-LSTM)捕获上下文信息。第l个词的输出用表示,其中为前向网络的输出,为后向网络的输出。给定问题q和答案a的一对序列,为问题和答案生成基于单词的句子表示即,其中L和dh分别表示句子的长度和隐藏单元的大小。与单词编码器不同,知识向量表示序列Ek={ek1,ek2,…,ekl},知识序列是由一系列符号化的实体或关系名组成。由于实体长度的不确定性,采用多个不同大小的滤波器得到不同的输出向量{H1,H2,…,Hn},其中Hi为第i个滤波器得到的输出向量。全连接层输入这些向量获得知识的句子表示这里L是句子的长度,df是滤波器的总尺寸。根据问题q和答案a,基于知识的句子表示形式为:
本发明研究多任务学习方法同时解决答案选择和知识库问答任务,这些任务都可以看作是一个排序问题,一个在文本层面,另一个在知识层面。具体来说,答案选择的任务是从一组候选答案句中挑选出给定问题的正确答案,而知识库问答的任务侧重于从知识库中提取相应的事实,而且答案选择任务可以从知识库的外部知识中获益。本发明提出的多任务学习方案,利用从不同角度学习到的多视图注意力,使这些任务能够相互作用,学习更全面的句子表示,包括单词视图、知识视图、语义视图、知识语义视图和共注意视图。此外,多视角注意方案还可以有效地从不同的表征视角收集注意信息,提高表征学习的整体水平。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于多任务学习的问答方法,其特征在于:包括以下步骤:
S1:为每个任务配备特定于任务的siamese编码器,将预处理后的句子编码为分布式向量表示;
S2:利用一个共享的表示学习层在不同的任务之间共享高级信息;
S4:多任务学习:训练多任务学习模型,使交叉熵损失函数最小化;
步骤S1中,每个特定于任务的siamese编码器都包含一个单词编码器和一个知识编码器,用于学习完整的句子表示;
所述单词编码器使用双向长短期记忆网络Bi-LSTM捕获上下文信息,所述单词编码器的输入为词向量表示序列Ew={ew1,ew2,…,ewl},第l个词的输出用表示,其中为前向网络的输出,为后向网络的输出,给定问题q和答案a的一对序列,为问题和答案生成基于单词的句子表示即,其中L和dh分别表示句子的长度和隐藏单元的大小;
2.根据权利要求1所述的基于多任务学习的问答方法,其特征在于:步骤S2中,还包括集成所有任务的编码向量,并通过高级共享Siamese Bi-LSTM生成最终的问答表示,即,Sq=Bi-LSTM(Hq);Sa=Bi-LSTM(Ha),其中,Sq表示基于双向长短期记忆模型的共享表示层的问题输出,Hq表示问句向量表示;同理,Sa表示基于双向长短期记忆模型的共享表示层的答案输出,Ha表示答案向量表示。
3.根据权利要求1所述的基于多任务学习的问答方法,其特征在于:步骤S2中,还包括应用平均池化,对Bi-LSTM的输出应用平均池化操作,sq=Average(Sq),sa=Average(Sa),最终特征空间表示为x=[sq,sa,xol]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910152570.5A CN109885671B (zh) | 2019-02-28 | 2019-02-28 | 基于多任务学习的问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910152570.5A CN109885671B (zh) | 2019-02-28 | 2019-02-28 | 基于多任务学习的问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885671A CN109885671A (zh) | 2019-06-14 |
CN109885671B true CN109885671B (zh) | 2022-10-14 |
Family
ID=66930126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910152570.5A Active CN109885671B (zh) | 2019-02-28 | 2019-02-28 | 基于多任务学习的问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885671B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116095B (zh) * | 2019-06-19 | 2024-05-24 | 北京搜狗科技发展有限公司 | 一种多任务学习模型训练的方法及相关装置 |
CN110309511B (zh) * | 2019-07-04 | 2022-12-09 | 哈尔滨工业大学 | 基于共享表示的多任务语言分析系统及方法 |
CN110516697B (zh) * | 2019-07-15 | 2021-08-31 | 清华大学 | 基于证据图聚合与推理的声明验证方法及系统 |
CN110569338B (zh) * | 2019-07-22 | 2022-05-03 | 中国科学院信息工程研究所 | 一种生成式对话系统解码器训练方法及解码方法 |
CN111143558B (zh) * | 2019-12-12 | 2023-05-30 | 支付宝(杭州)信息技术有限公司 | 基于单个分层多任务模型的消息识别方法和系统 |
CN111310848B (zh) * | 2020-02-28 | 2022-06-28 | 支付宝(杭州)信息技术有限公司 | 多任务模型的训练方法及装置 |
CN111815030B (zh) * | 2020-06-11 | 2024-02-06 | 浙江工商大学 | 一种基于少量问卷调查数据的多目标特征预测方法 |
CN111666397B (zh) * | 2020-06-12 | 2022-07-12 | 思必驰科技股份有限公司 | 多模型联合学习的问题匹配方法及系统 |
CN111915395A (zh) * | 2020-07-07 | 2020-11-10 | 云境商务智能研究院南京有限公司 | 一种基于多视图注意力机制的旅游包推荐方法 |
CN111737640B (zh) * | 2020-08-17 | 2021-08-27 | 深圳江行联加智能科技有限公司 | 水位预测方法、装置及计算机可读存储介质 |
CN115438156B (zh) * | 2021-05-17 | 2024-02-02 | 中山大学 | 一种多任务学习的答案选择和问题分类的方法及系统 |
CN113362598B (zh) * | 2021-06-04 | 2022-06-03 | 重庆高速公路路网管理有限公司 | 一种高速公路服务区车流量预测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
CN108171184A (zh) * | 2018-01-03 | 2018-06-15 | 南京理工大学 | 基于Siamese网络的用于行人重识别的方法 |
CN108170848A (zh) * | 2018-01-18 | 2018-06-15 | 重庆邮电大学 | 一种面向中国移动智能客服的对话场景分类方法 |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN108345942A (zh) * | 2018-02-08 | 2018-07-31 | 重庆理工大学 | 一种基于嵌入编码学习的机器学习识别方法 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474883B2 (en) * | 2016-11-08 | 2019-11-12 | Nec Corporation | Siamese reconstruction convolutional neural network for pose-invariant face recognition |
US10268646B2 (en) * | 2017-06-06 | 2019-04-23 | Facebook, Inc. | Tensor-based deep relevance model for search on online social networks |
-
2019
- 2019-02-28 CN CN201910152570.5A patent/CN109885671B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN108171184A (zh) * | 2018-01-03 | 2018-06-15 | 南京理工大学 | 基于Siamese网络的用于行人重识别的方法 |
CN108170848A (zh) * | 2018-01-18 | 2018-06-15 | 重庆邮电大学 | 一种面向中国移动智能客服的对话场景分类方法 |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108345942A (zh) * | 2018-02-08 | 2018-07-31 | 重庆理工大学 | 一种基于嵌入编码学习的机器学习识别方法 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
Non-Patent Citations (4)
Title |
---|
Multitask Feature Learning for Low-Resource Query-by-Example Spoken Term Detection;Hongjie Chen et al.;《IEEE Journal of Selected Topics in Signal Processing》;20171018;第11卷(第8期);1329-1339 * |
一种基于极点配置稳定的新型局部递归神经网络;孙键 等;《自动化学报》;20120229;第38卷(第2期);183-196 * |
基于深度学习的服装图像检索方法;魏雪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215;I138-1599 * |
多语言文本语义相似度的计算及其应用研究;田俊峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I138-5405 * |
Also Published As
Publication number | Publication date |
---|---|
CN109885671A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885671B (zh) | 基于多任务学习的问答方法 | |
CN109241536B (zh) | 一种基于深度学习自注意力机制的句子排序方法 | |
CN109947954B (zh) | 多任务协同识别方法及系统 | |
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN112199520B (zh) | 基于细粒度相似性矩阵的跨模态哈希检索算法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110192204A (zh) | 通过多个语言任务层级处理数据的深度神经网络模型 | |
CN110580288B (zh) | 基于人工智能的文本分类方法和装置 | |
Sonkar et al. | qdkt: Question-centric deep knowledge tracing | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN111339281A (zh) | 一种多视角融合的阅读理解选择题的答案选择方法 | |
CN114186568B (zh) | 一种基于关系编码和层次注意力机制的图像段落描述方法 | |
CN112800323A (zh) | 一种基于深度学习的智能教学系统 | |
CN113010702A (zh) | 多媒体信息的互动处理方法、装置、电子设备及存储介质 | |
CN117218498B (zh) | 基于多模态编码器的多模态大语言模型训练方法及系统 | |
CN113254782A (zh) | 问答社区专家推荐方法及系统 | |
CN115080715B (zh) | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 | |
CN112527993A (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN112232086A (zh) | 一种语义识别方法、装置、计算机设备及存储介质 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
Bucher et al. | Semantic bottleneck for computer vision tasks | |
Khan et al. | A deep neural framework for image caption generation using gru-based attention mechanism | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
Park et al. | An effective 3D text recurrent voting generator for metaverse | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |