CN109558477B - 一种基于多任务学习的社区问答系统、方法及电子设备 - Google Patents

一种基于多任务学习的社区问答系统、方法及电子设备 Download PDF

Info

Publication number
CN109558477B
CN109558477B CN201811281635.8A CN201811281635A CN109558477B CN 109558477 B CN109558477 B CN 109558477B CN 201811281635 A CN201811281635 A CN 201811281635A CN 109558477 B CN109558477 B CN 109558477B
Authority
CN
China
Prior art keywords
question
layer
answer
input
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811281635.8A
Other languages
English (en)
Other versions
CN109558477A (zh
Inventor
曲强
杨敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201811281635.8A priority Critical patent/CN109558477B/zh
Publication of CN109558477A publication Critical patent/CN109558477A/zh
Application granted granted Critical
Publication of CN109558477B publication Critical patent/CN109558477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于互联网数据库技术领域,特别涉及一种基于多任务学习的社区问答系统、方法及电子设备。所述系统包括:回答选择模型训练模块:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;问题分类模型训练模块:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;联合训练模块:用于将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。本申请能够提高论坛社区问答系统的准确率,并提高用户的搜索效率。

Description

一种基于多任务学习的社区问答系统、方法及电子设备
技术领域
本申请属于智能问答系统技术领域,特别涉及一种基于多任务学习的社区问答系统、方法及电子设备。
背景技术
法律论坛是为个人免费提供专业法律建议的网上论坛,作为获取法律建议的新途径而受到广泛的关注。然而,对于一个问题,法律论坛中很可能有成百上千的与此问题相关的答案。但是,就回答质量和相关性来说,大部分的答案并不是用户所需要的,浏览这些答案却会耗费大量时间。
现有技术中,法律论坛的答案选择方法有7[Lei Yu,Karl Moritz Hermann,PhilBlunsom,andStephen Pulman.2014.deep learning for answersentence selection.InProceedings of Deep Learning and Representation Learning Workshop.NIPS.]、8[Cicero Dos Santos,Luciano Barbosa,DashaBogdanova,and BiancaZadrozny.2015.Learning hybrid representations to retrieve semanticallyequivalent questions.In Proceedings of the 53rd AnnualMeeting of theAssociation for Computational Linguistics and the 7th International JointConferenceon Natural Language Processing(Volume 2:ShortPapers),volume 2,pages694–699.]、9[Li Dong,Jonathan Mallinson,Siva Reddy,andMirellaLapata.2017.Learning to paraphrase for questionanswering.InProceedings of the 2017Conferenceon Empirical Methods in Natural LanguageProcessing,pages 875–886.]、[KaterynaTymoshenko,Daniele Bonadiman,andAlessandro Moschitti.2017.Ranking kernels forstructures and embeddings:Ahybrid preference andclassification model.In Proceedings of the2017Conference on Empirical Methods in Natural Language Processing,pages 897–902.]等。[7]中将问题与备选答案对放入一个卷积神经网络(CNN),训练出一个判断模型判断输入的问题与答案是否相关。[8]用卷积神经网络训练问题和答案的表达,然后算出问题和答案的相关度值。[9]中使用了双向长短记忆网络(BILSTM)对问题进行编码,并且在训练过程中除了问题与答案相关度外也考虑问题的释义与等价问题等。[10]在使用卷积神经网络训练出问题与答案的表达后构造一个核函数对问题与答案的相关性排序。
综上所述,现有的法律论坛社区问答方法主要存在以下几个问题:
1)现有的方法大多用一个统一的模型处理各种不同的话题下的回答选择。然而,根据观察,在法律论坛中关于不同话题的回答形式往往存在很大的区别,回答的关注点也不一样。因此,不考虑话题的回答选择模型在法律论坛的回答选择上效果并不好。
2)现有的模型往往用单一的注意力模型去捕捉输入的重要部分。然而,每个输入的文字是由一个多维的向量表示的,每个文字需要注意的部分也许在这个多维向量的不同维度。
3)现在还没有专注于法律相关的问答数据集。
发明内容
本申请提供了一种基于多任务学习的社区问答系统、方法及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于多任务学习的社区问答系统,包括:
回答选择模型训练模块:用于回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
问题分类模型训练模块:用于问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
联合训练模块:用于将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
本申请实施例采取的技术方案还包括:所述回答选择模型训练模块用于回答选择任务的模型训练具体为:给定一个问题q,对给定回答A={a1,a2,…,an}中的答案进行之于问题q的相关度排序。
本申请实施例采取的技术方案还包括:所述回答选择模型训练模块包括文字表达层、双向长短期记忆层、多维注意力层和max-pooling层;
所述文字表达层将问题q和回答ai中的每个文字映射到一个低维连续向量中,通过先对词库里的每个字进行预训练,将每个字表达为一个向量,然后分别将问题q和回答ai表达为其每个文字对应向量的拼接;
所述双向长短期记忆层对经过文字表达层的问题q和回答ai进行编码;
所述多维注意力层使用多维注意力机制根据问题对答案的不同文字的不同维度设置权重值,与问题越相关的答案,其文字及相应维度的权重值越高;根据t时刻问题的表示
Figure BDA0001848158620000032
和回答的表示
Figure BDA0001848158620000031
有:
Figure BDA0001848158620000033
At=exp(Wmmt)
Figure BDA0001848158620000041
上述公式中,
Figure BDA0001848158620000042
为经过多维注意力层后答案的表达,Wa,Wq,Wm为权重矩阵,其中的参数通过训练得到;At∈Rb×m为注意力矩阵,b为多维注意力的跳数,flatten表示把矩阵每一行串联,转化为一个向量;
最后,将问题的表达hq和答案的表达
Figure BDA0001848158620000043
放入max-pooling层:
L1=max{0,M-cosine(q,a+)+cosine(q,a-)}
上述公式中,a+是关于问题q的正确答案,a-是数据集中随机选取的与q不相关的答案,M是一个常数。
本申请实施例采取的技术方案还包括:所述话题分类模块与回答选择模型训练模块共用相同的双向长短期记忆层和多维注意力层,多维注意力层后还包括一个两层的全连接网络和一个softmax层,即:将问题的表达Hq放入一个两层的全连接网络,然后对结果做一次softmax来获取问题文本分类的结果:
f=tanh(V1Hq)
Figure BDA0001848158620000045
上述公式中,V1与V2是待学习的参数,
Figure BDA0001848158620000047
是真实标签y的交叉熵;
Figure BDA0001848158620000044
Figure BDA0001848158620000046
上述公式中,C为问题文本分类的数量,N为数据集中问题的数量。
本申请实施例采取的技术方案还包括:所述联合训练模块对于选择任务和问题文本话题分类任务进行多任务联合训练的目标函数为:
L=(1-α)L1+αL2
上述公式中,α为一个自定义的决定L1与L2权重的参数。
本申请实施例采取的另一技术方案为:一种基于多任务学习的社区问答方法,包括以下步骤:
步骤a:回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
步骤b:问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤c:将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述回答选择任务的模型训练具体为:给定一个问题q,对给定回答A={a1,a2,…,an}中的答案进行之于问题q的相关度排序。
本申请实施例采取的技术方案还包括:所述回答选择任务模型包括文字表达层、双向长短期记忆层、多维注意力层和max-pooling层;
所述文字表达层将问题q和回答ai中的每个文字映射到一个低维连续向量中,通过先对词库里的每个字进行预训练,将每个字表达为一个向量,然后分别将问题q和回答ai表达为其每个文字对应向量的拼接;
所述双向长短期记忆层对经过文字表达层的问题q和回答ai进行编码;
所述多维注意力层使用多维注意力机制根据问题对答案的不同文字的不同维度设置权重值,与问题越相关的答案,其文字及相应维度的权重值越高;根据t时刻问题的表示
Figure BDA0001848158620000061
和回答的表示
Figure BDA0001848158620000062
有:
Figure BDA0001848158620000063
At=exp(Wmmt)
Figure BDA0001848158620000064
上述公式中,
Figure BDA0001848158620000065
为经过多维注意力层后答案的表达,Wa,Wq,Wm为权重矩阵,其中的参数通过训练得到;At∈Rb×m为注意力矩阵,b为多维注意力的跳数,flatten表示把矩阵每一行串联,转化为一个向量;
最后,将问题的表达hq和答案的表达
Figure BDA0001848158620000066
放入max-pooling层:
L1=max{0,M-cosine(q,a+)+cosine(q,a-)}
上述公式中,a+是关于问题q的正确答案,α_是数据集中随机选取的与q不相关的答案,M是一个常数。
本申请实施例采取的技术方案还包括:所述问题文本分类任务模型与回答选择任务模型共用相同的双向长短期记忆层和多维注意力层,所述多维注意力层后还包括一个两层的全连接网络和一个softmax层,即:将问题的表达Hq放入一个两层的全连接网络,然后对结果做一次softmax来获取问题文本分类的结果:
f=tanh(V1Hq)
Figure BDA0001848158620000067
上述公式中,V1与V2是待学习的参数,
Figure BDA0001848158620000068
是真实标签y的交叉熵;
Figure BDA0001848158620000071
Figure BDA0001848158620000072
上述公式中,C为问题文本分类的数量,N为数据集中问题的数量。
本申请实施例采取的技术方案还包括:所述对于选择任务和问题文本话题分类任务进行多任务联合训练的目标函数为:
L=(1-α)L1+αL2
上述公式中,α为一个自定义的决定L1与L2权重的参数。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于多任务学习的社区问答方法的以下操作:
步骤a:回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
步骤b:问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤c:将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的基于多任务学习的社区问答系统、方法及电子设备采用了回答选择与问题文本分类的多任务联合训练,并结合多维注意力机制对回答选择模型进行优化训练,可以根据用户输入的问题从论坛中选择高质量的相关答案,能够提高论坛社区问答系统的准确率,并提高用户的搜索效率。
附图说明
图1是本申请实施例的基于多任务学习的社区问答系统的结构示意图;
图2是本申请实施例的基于多任务学习的社区问答系统的网络框架图;
图3是本申请实施例的基于多任务学习的社区问答方法的流程图;
图4是本申请实施例提供的基于多任务学习的社区问答方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
针对现有技术中存在的问题,本申请设计了一种基于多任务学习的社区问答系统(Community Question Answering,CQA),采用相关问题与相关回答两个任务分别进行模型训练,并且在问题与回答中都运用了多维注意力机制来优化模型效果,可根据用户输入的问题从论坛的回答中选择高质量的答案,从而提高用户搜索的效率。具体地,请参阅图1,是本申请实施例的基于多任务学习的社区问答系统的结构示意图。本申请实施例的基于多任务学习的社区问答系统包括回答选择模型训练模块、问题分类模型训练模块和联合训练模块。回答选择模型训练模块用于回答选择任务的模型训练:将已经过文字表达层的回答的输入和问题的输入放入一个双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行一个压平(flatten)与连接(concate)后计算预测结果与真正结果的损失。问题分类模型训练模块用于问题文本分类任务的模型训练:将经过文字表达层的问题的输入放入一个双向长短记忆网络进行编码,然后放入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失。联合训练模块用于将回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题最相关的答案。
具体地,回答选择模型训练模块需要完成的任务为:给定一个问题q,需要对给定回答A={a1,a2,…,an}中的答案进行之于问题q的相关度排序。
请一并参阅图2,是本申请实施例的基于多任务学习的社区问答系统的网络框架图。回答选择模型训练模块包括文字表达层、双向长短期记忆层、多维注意力层和max-pooling(最大池化)层,回答的输入和问题的输入经过文字表达层后输入到双向长短记忆层进行编码,然后输入到多维注意力层,将输出结果进行一个压平(flatten)与连接(concate)后计算预测结果与真正结果的损失。具体地:
文字表达层的作用在于将问题q和回答ai中的每个文字映射到一个低维连续向量中。通过先对词库里的每个字进行预训练,将每个字表达为一个向量,然后分别将问题q和回答ai表达为其每个文字对应向量的拼接。
双向长短期记忆层用于对经过文字表达层的问题q和回答ai进行编码;在文字表达层后,每个问题q和回答ai被各自表示成为一个矩阵,通过使用双向长短期记忆层进一步优化每个问题q和回答ai的表达。具体为,假设在t位置的字向量为et,t位置的隐含信息表达为:
前向:
Figure BDA0001848158620000101
反向:
Figure BDA0001848158620000102
最后,t位置的向量表达为前向隐含信息的表达与反向隐含信息表达的拼接,即:
Figure BDA0001848158620000103
假设q和ai的长度为m和n,则可以用q中的隐含状态
Figure BDA0001848158620000104
Figure BDA0001848158620000105
来表示q,同样的,用ai中的隐含状态
Figure BDA0001848158620000106
来表示ai
多维注意力层用于使用多维注意力(multi-head attention)机制根据问题对答案的不同文字的不同维度设置权重值,与问题越相关的答案,其文字及相应维度的权重值越高。具体来说,根据t时刻问题的表示
Figure BDA0001848158620000107
和回答的表示
Figure BDA0001848158620000108
有:
Figure BDA0001848158620000109
At=exp(Wmmt) (5)
Figure BDA00018481586200001010
上述公式中,
Figure BDA0001848158620000111
为经过多维注意力层后答案的表达,Wa,Wq,Wm为权重矩阵,其中的参数通过训练得到。At∈Rb×m为注意力矩阵,b为多维注意力的跳数,可自定义设定。flatten表示把矩阵每一行串联,转化为一个向量。
最后,将问题的表达hq和答案的表达
Figure BDA0001848158620000112
放入max-pooling层,其中,本申请使用[Jason Weston,Sumit Chopra,and Keith Adams.2014.Semantic embeddings fromhashtags.In Proceedings of the 2014 Conference on Empirical Methods inNatural Language Processing(EMNLP),pages 1822–1827.]中的hinge loss作为损失函数:
L1=max{0,M-cosine(q,a+)+cosine(q,a-)} (7)
公式(7)中,a+是关于q的正确答案,a-是数据集中随机选取的与q不相关的答案,M是一个常数。
话题分类模块采用问题文本分类作为多任务学习的任务之一,用于对回答选择模型训练模块进行辅助训练。具体地,话题分类模块与回答选择模型训练模块共用相同的双向长短期记忆层和多维注意力层,多维注意力层后还包括一个两层的全连接网络和一个softmax层,用于将经过文字表达层的问题的输入放入双向长短记忆层进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失。即:将问题的表达hq放入一个两层的全连接网络,然后对结果做一次softmax来获取问题文本分类的结果:
f=tanh(V1hq) (8)
Figure BDA0001848158620000113
公式(8)、(9)中,V1与V2是待学习的参数。
Figure BDA0001848158620000114
是真实标签y的cross-entropy(交叉熵)。
Figure BDA0001848158620000121
Figure BDA0001848158620000122
公式(10)中,C为问题文本分类的数量,N为数据集中问题的数量。
联合训练模块用于将回答选择任务与问题文本话题分类任务统一到一个损失函数下进行联合训练,得到与输入问题最相关的答案。本申请包含回答选择任务和问题文本话题分类任务两个训练任务,每个任务有各自的训练目标,联合训练模块用于对于这两个任务进行多任务联合训练,目标函数为:
L=(1-α)L1+αL2 (12)
公式(12)中,α为一个自定义的决定L1与L2权重的参数。
请参阅图3,是本申请实施例的基于多任务学习的社区问答方法的流程图。本申请实施例的基于多任务学习的社区问答方法包括以下步骤:
步骤100:回答选择任务的模型训练:将已经过文字表达层的回答的输入和问题的输入放入一个双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行一个压平(flatten)与连接(concate)后计算预测结果与真正结果的损失;
步骤100中,回答选择任务的模型训练具体为:给定一个问题q,需要对给定回答A={a1,a2,…,an}中的答案进行之于问题q的相关度排序。回答选择任务模型包括文字表达层、双向长短期记忆层、多维注意力层和max-pooling(最大池化)层,回答的输入和问题的输入经过文字表达层后输入到双向长短记忆层进行编码,然后输入到多维注意力层,将输出结果进行一个压平(flatten)与连接(concate)后计算预测结果与真正结果的损失。具体地:
文字表达层的作用在于将问题q和回答ai中的每个文字映射到一个低维连续向量中。通过先对词库里的每个字进行预训练,将每个字表达为一个向量,然后分别将问题q和回答ai表达为其每个文字对应向量的拼接。
双向长短期记忆层用于对经过文字表达层的问题q和回答ai进行编码;在文字表达层后,每个问题q和回答ai被各自表示成为一个矩阵,通过使用双向长短期记忆层进一步优化每个问题q和回答ai的表达。具体为,假设在t位置的字向量为et,t位置的隐含信息表达为:
前向:
Figure BDA0001848158620000131
反向:
Figure BDA0001848158620000132
最后,t位置的向量表达为前向隐含信息的表达与反向隐含信息表达的拼接,即:
Figure BDA0001848158620000133
假设q和ai的长度为m和n,则可以用q中的隐含状态
Figure BDA0001848158620000134
Figure BDA0001848158620000135
来表示q,同样的,用ai中的隐含状态
Figure BDA0001848158620000136
来表示ai
多维注意力层用于使用多维注意力(multi-head attention)机制根据问题对答案的不同文字的不同维度设置权重值,与问题越相关的答案,其文字及相应维度的权重值越高。具体来说,根据t时刻问题的表示
Figure BDA0001848158620000137
和回答的表示
Figure BDA0001848158620000138
有:
Figure BDA0001848158620000139
At=exp(Wmmt) (5)
Figure BDA0001848158620000141
上述公式中,
Figure BDA0001848158620000142
为经过多维注意力层后答案的表达,Wa,Wq,Wm为权重矩阵,其中的参数通过训练得到。At∈Rb×m为注意力矩阵,b为多维注意力的跳数,可自定义设定。flatten表示把矩阵每一行串联,转化为一个向量。
最后,将问题的表达hq和答案的表达
Figure BDA0001848158620000143
放入max-pooling层,其中,本申请使用[Jason Weston,Sumit Chopra,and Keith Adams.2014.Semantic embeddings fromhashtags.In Proceedings of the 2014 Conference on Empirical Methods inNatural Language Processing(EMNLP),pages 1822–1827.]中的hinge loss作为损失函数:
L1=max{0,M-cosine(q,a+)+cosine(q,a-)} (7)
公式(7)中,a+是关于q的正确答案,a-是数据集中随机选取的与q不相关的答案,M是一个常数。
步骤200:问题文本分类任务的模型训练:将经过文字表达层的问题的输入放入一个双向长短记忆网络进行编码,然后放入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤200中,采用问题文本分类作为多任务学习的任务之一,用于对回答选择任务模型进行辅助训练。具体地,问题文本分类任务模型与回答选择任务模型共用相同的双向长短期记忆层和多维注意力层,多维注意力层后还包括一个两层的全连接网络和一个softmax层,用于将经过文字表达层的问题的输入放入双向长短记忆层进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失。即:将问题的表达Hq放入一个两层的全连接网络,然后对结果做一次softmax来获取问题文本分类的结果:
f=tanh(V1Hq) (8)
Figure BDA0001848158620000151
公式(8)、(9)中,V1与V2是待学习的参数。
Figure BDA0001848158620000152
是真实标签y的cross-entropy(交叉熵)。
Figure BDA0001848158620000153
Figure BDA0001848158620000154
公式(10)中,C为问题文本分类的数量,N为数据集中问题的数量。
步骤300:将回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题最相关的答案;
步骤300中,本申请包含回答选择任务和问题文本话题分类任务两个训练任务,每个任务有各自的训练目标,对于这两个任务进行多任务联合训练,目标函数为:
L=(1-α)L1+αL2 (12)
公式(12)中,α为一个自定义的决定L1与L2权重的参数。
为了验证本申请的可行性和有效性,以下分别采用了Top-1准确率、最小平均准确率(Mean Average Precision,MAP)和平均倒数排序(Mean Reciprocal Rank,MRR)三个指标对本申请的实施效果进行了实验。实验中参与比较的对比方法包括CNN[Baotian Hu,Zhengdong Lu,Hang Li,and QingcaiChen.2014.Convolutional neural networkarchitectures for matching natural language sentences.InAdvances in neuralinformation processing systems,pages 2042–2050.]、Bi-LSTM[Ming Tan,Cicero dosSantos,Bing Xiang,and BowenZhou.2015.Lstm-based deep learning modelsfor non-factoid answer selection.arXiv preprintarXiv:1511.04108.]、IARNN-word[BingningWang,Kang Liu,and Jun Zhao.2016.Inner attention based recurrent neuralnetworks for answer selection.In Proceedings of the 54th AnnualMeeting of theAssociation for Computational Lin-guistics(Volume 1:Long Papers),volume 1,pages1288–1297.]、AP-LSTM[Cicero Nogueira dos Santos,Ming Tan,Bing Xiang,andBowen Zhou.2016.Attentive pooling net-works.CoRR,abs/1602.03609,2(3):4.]。
具体实验细节包括:将每个词库中出现的词用word2vec[Tomas Mikolov,IlyaSutskever,Kai Chen,Greg S Corrado,and Jeff Dean.2013.Distributedrepresentations of words and phrases and their compositionality.In Advancesin neural information processingsystems,pages 3111–3119.]进行预训练,表达为一个150维的向量。所有的权重的初始化符合截断正态分布,值在(0,0.1)的区间内。双向长短期记忆的隐含层设置为1000个单元,多维注意力的隐含层设置为300个单元,且设置注意力跳数为4。训练时每批处理512个数据。实验结果如表1所示:
表1回答选择模型试验结果
Figure BDA0001848158620000161
从表1中可以看到,本申请提出的CQA能够比对比方法更准确的选出对于问题的相应答案。例如,CQA能将Top-1准确率从0.573提高到0.588。在最小平均准确率与平均倒数排序中,也可以观察到类似的趋势。问题文本话题分类的辅助任务在训练过程中提供了更丰富的信息,因此可以提高实验效果。
本申请可广泛应用与多种类型的论坛社区问答,例如IT、法律等。而本申请中涉及的神经网络部分都可以由神经网络的其他变种替代,例如,双向长短期记忆网络可以替换为门循环单元GRU等。
图4是本申请实施例提供的基于多任务学习的社区问答方法的硬件设备结构示意图。如图4所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
步骤b:问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤c:将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
步骤b:问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤c:将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
步骤b:问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤c:将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
本申请实施例的基于多任务学习的社区问答系统、方法及电子设备采用了回答选择与问题文本分类的多任务联合训练,并结合多维注意力机制对回答选择模型进行优化训练,可以根据用户输入的问题从论坛中选择高质量的相关答案,能够提高论坛社区问答系统的准确率,并提高用户的搜索效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种基于多任务学习的社区问答系统,其特征在于,包括:
回答选择模型训练模块:用于回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
问题分类模型训练模块:用于问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
联合训练模块:用于将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
2.根据权利要求1所述的基于多任务学习的社区问答系统,其特征在于,所述回答选择模型训练模块用于回答选择任务的模型训练具体为:给定一个问题q,对给定回答A={a1,a2,...,an}中的答案进行之于问题q的相关度排序。
3.根据权利要求2所述的基于多任务学习的社区问答系统,其特征在于,所述回答选择模型训练模块包括文字表达层、双向长短期记忆层、多维注意力层和max-pooling层;
所述文字表达层将问题q和回答ai中的每个文字映射到一个低维连续向量中,通过先对词库里的每个字进行预训练,将每个字表达为一个向量,然后分别将问题q和回答ai表达为其每个文字对应向量的拼接;
所述双向长短期记忆层对经过文字表达层的问题q和回答ai进行编码;
所述多维注意力层使用多维注意力机制根据问题对答案的不同文字的不同维度设置权重值,与问题越相关的答案,其文字及相应维度的权重值越高;根据t时刻问题的表示
Figure FDA0002767315140000021
和回答的表示
Figure FDA0002767315140000022
有:
Figure FDA0002767315140000023
At=exp(Wmmt)
Figure FDA0002767315140000024
上述公式中,
Figure FDA0002767315140000025
为经过多维注意力层后答案的表达,Wa,Wq,Wm为权重矩阵,其中的参数通过训练得到;At∈Rb×m为注意力矩阵,b为多维注意力的跳数,flatten表示把矩阵每一行串联,转化为一个向量;
最后,将问题的表达Hq和答案的表达
Figure FDA0002767315140000026
放入max-pooling层:
L1=max{0,M-cosine(q,a+)+cosine(q,a-)}
上述公式中,a+是关于问题q的正确答案,a-是数据集中随机选取的与q不相关的答案,M是一个常数。
4.根据权利要求3所述的基于多任务学习的社区问答系统,其特征在于,所述问题分类模型训练模块与回答选择模型训练模块共用相同的双向长短期记忆层和多维注意力层,多维注意力层后还包括一个两层的全连接网络和一个softmax层,即:将问题的表达Hq放入一个两层的全连接网络,然后对结果做一次softmax来获取问题文本分类的结果:
f=tanh(V1Hq)
Figure FDA0002767315140000027
上述公式中,V1与V2是待学习的参数,
Figure FDA0002767315140000028
是真实标签y的交叉熵;
Figure FDA0002767315140000029
Figure FDA0002767315140000031
上述公式中,C为问题文本分类的数量,N为数据集中问题的数量。
5.根据权利要求4所述的基于多任务学习的社区问答系统,其特征在于,所述联合训练模块对于回答选择任务和问题文本分类任务进行多任务联合训练的目标函数为:
L=(1-α)L1+αL2
上述公式中,α为一个自定义的决定L1与L2权重的参数。
6.一种基于多任务学习的社区问答方法,其特征在于,包括以下步骤:
步骤a:回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
步骤b:问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤c:将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
7.根据权利要求6所述的基于多任务学习的社区问答方法,其特征在于,在所述步骤a中,所述回答选择任务的模型训练具体为:给定一个问题q,对给定回答A={a1,a2,...,an}中的答案进行之于问题q的相关度排序。
8.根据权利要求7所述的基于多任务学习的社区问答方法,其特征在于,所述回答选择任务模型包括文字表达层、双向长短期记忆层、多维注意力层和max-pooling层;
所述文字表达层将问题q和回答ai中的每个文字映射到一个低维连续向量中,通过先对词库里的每个字进行预训练,将每个字表达为一个向量,然后分别将问题q和回答ai表达为其每个文字对应向量的拼接;
所述双向长短期记忆层对经过文字表达层的问题q和回答ai进行编码;
所述多维注意力层使用多维注意力机制根据问题对答案的不同文字的不同维度设置权重值,与问题越相关的答案,其文字及相应维度的权重值越高;根据t时刻问题的表示
Figure FDA0002767315140000041
和回答的表示
Figure FDA0002767315140000042
有:
Figure FDA0002767315140000043
At=exp(Wmmt)
Figure FDA0002767315140000044
上述公式中,
Figure FDA0002767315140000045
为经过多维注意力层后答案的表达,Wa,Wq,Wm为权重矩阵,其中的参数通过训练得到;At∈Rb×m为注意力矩阵,b为多维注意力的跳数,flatten表示把矩阵每一行串联,转化为一个向量;
最后,将问题的表达Hq和答案的表达
Figure FDA0002767315140000046
放入max-poolng层:
L1=max{0,M-cosine(q,a+)+cosine(q,a-)}
上述公式中,a+是关于问题q的正确答案,a-是数据集中随机选取的与q不相关的答案,M是一个常数。
9.根据权利要求8所述的基于多任务学习的社区问答方法,其特征在于,所述问题文本分类任务模型与回答选择任务模型共用相同的双向长短期记忆层和多维注意力层,所述多维注意力层后还包括一个两层的全连接网络和一个softmax层,即:将问题的表达Hq放入一个两层的全连接网络,然后对结果做一次softmax来获取问题文本分类的结果:
f=tanh(V1Hq)
Figure FDA0002767315140000051
上述公式中,V1与V2是待学习的参数,
Figure FDA0002767315140000052
是真实标签y的交叉熵;
Figure FDA0002767315140000053
Figure FDA0002767315140000054
上述公式中,C为问题文本分类的数量,N为数据集中问题的数量。
10.根据权利要求9所述的基于多任务学习的社区问答方法,其特征在于,所述回答选择任务和问题文本分类任务进行多任务联合训练的目标函数为:
L=(1-α)L1+αL2
上述公式中,α为一个自定义的决定L1与L2权重的参数。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述权利要求6至10任一项所述的基于多任务学习的社区问答方法的以下操作:
步骤a:回答选择任务的模型训练:将回答的输入和问题的输入放入双向长短记忆网络进行编码,然后输入到一个多维注意力层,将输出结果进行压平与连接后计算预测结果与真正结果的损失;
步骤b:问题文本分类任务的模型训练:将问题的输入放入双向长短记忆网络进行编码,然后输入到一个两层的全连接网络,再经过一个softmax层计算预测结果与真正结果的损失;
步骤c:将所述回答选择任务与问题文本分类任务统一到一个损失函数下进行联合训练,得到与输入问题相关的答案。
CN201811281635.8A 2018-10-23 2018-10-23 一种基于多任务学习的社区问答系统、方法及电子设备 Active CN109558477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811281635.8A CN109558477B (zh) 2018-10-23 2018-10-23 一种基于多任务学习的社区问答系统、方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811281635.8A CN109558477B (zh) 2018-10-23 2018-10-23 一种基于多任务学习的社区问答系统、方法及电子设备

Publications (2)

Publication Number Publication Date
CN109558477A CN109558477A (zh) 2019-04-02
CN109558477B true CN109558477B (zh) 2021-03-23

Family

ID=65865508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811281635.8A Active CN109558477B (zh) 2018-10-23 2018-10-23 一种基于多任务学习的社区问答系统、方法及电子设备

Country Status (1)

Country Link
CN (1) CN109558477B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083692B (zh) * 2019-04-22 2023-01-24 齐鲁工业大学 一种金融知识问答的文本交互匹配方法及装置
CN110175228B (zh) * 2019-05-27 2023-08-15 苏州课得乐教育科技有限公司 基于基础模块和机器学习的循环嵌入对话训练方法及系统
CN110297885B (zh) * 2019-05-27 2021-08-17 中国科学院深圳先进技术研究院 实时事件摘要的生成方法、装置、设备及存储介质
CN110175231B (zh) * 2019-05-31 2022-03-15 北京市商汤科技开发有限公司 视觉问答方法、装置和设备
CN110222188B (zh) * 2019-06-18 2023-04-18 深圳司南数据服务有限公司 一种多任务学习的公司公告处理方法及服务端
CN110276403B (zh) * 2019-06-25 2022-02-18 北京百度网讯科技有限公司 模型建立方法和装置
CN110309286A (zh) * 2019-07-04 2019-10-08 深圳市和合信诺大数据科技有限公司 提高双向注意力机器学习模型应答能力的方法及装置
CN110348021B (zh) * 2019-07-17 2021-05-18 湖北亿咖通科技有限公司 基于命名实体模型的字符串识别方法、电子设备、存储介质
CN110659351B (zh) * 2019-09-27 2021-01-29 北京百度网讯科技有限公司 用于挖掘实体上下位关系的方法和装置
CN110781663B (zh) * 2019-10-28 2023-08-29 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置
CN110929006B (zh) * 2019-10-29 2023-07-11 中科能效(北京)科技有限公司 一种数据型问答系统
CN110825930A (zh) * 2019-11-01 2020-02-21 北京邮电大学 基于人工智能自动识别社区问答论坛中的正确回答的方法
CN110909145B (zh) * 2019-11-29 2022-08-09 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN111858868A (zh) * 2019-12-31 2020-10-30 北京嘀嘀无限科技发展有限公司 一种客服应答模型训练方法和系统
CN111340218B (zh) * 2020-02-24 2022-04-15 支付宝(杭州)信息技术有限公司 一种训练问题识别模型的方法和系统
CN111353032B (zh) * 2020-02-27 2022-06-14 福州大学 面向社区问答的问题分类方法及系统
CN111310848B (zh) * 2020-02-28 2022-06-28 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN113127599B (zh) * 2021-03-02 2022-07-12 中国科学院信息工程研究所 一种层级对齐结构的问答立场检测方法及装置
CN115438156B (zh) * 2021-05-17 2024-02-02 中山大学 一种多任务学习的答案选择和问题分类的方法及系统
CN113377936B (zh) * 2021-05-25 2022-09-30 杭州搜车数据科技有限公司 智能问答方法、装置及设备
CN114398961B (zh) * 2021-12-28 2023-05-05 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN116680619A (zh) * 2023-07-28 2023-09-01 江西中医药大学 煎药时长分类预测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563407A (zh) * 2017-08-01 2018-01-09 同济大学 一种面向网络空间多模态大数据的特征表示学习系统
CN108133038A (zh) * 2018-01-10 2018-06-08 重庆邮电大学 一种基于动态记忆网络的实体级别情感分类系统及方法
CN108153816A (zh) * 2017-11-29 2018-06-12 浙江大学 一种利用非对称的多面排序网络学习解决社区问答任务的方法
CN108647233A (zh) * 2018-04-02 2018-10-12 北京大学深圳研究生院 一种用于问答系统的答案排序方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563407A (zh) * 2017-08-01 2018-01-09 同济大学 一种面向网络空间多模态大数据的特征表示学习系统
CN108153816A (zh) * 2017-11-29 2018-06-12 浙江大学 一种利用非对称的多面排序网络学习解决社区问答任务的方法
CN108133038A (zh) * 2018-01-10 2018-06-08 重庆邮电大学 一种基于动态记忆网络的实体级别情感分类系统及方法
CN108647233A (zh) * 2018-04-02 2018-10-12 北京大学深圳研究生院 一种用于问答系统的答案排序方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning to Paraphrase for Question Answering;Li Dong 等;《Computation and Language》;20170831;全文 *
基于Bi-LSTM和CNN并包含注意力机制的社区问答问句分类方法;史梦飞 等;《计算机系统应用》;20180816;全文 *

Also Published As

Publication number Publication date
CN109558477A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109558477B (zh) 一种基于多任务学习的社区问答系统、方法及电子设备
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
WO2020258487A1 (zh) 一种问答关系排序方法、装置、计算机设备及存储介质
CN111652378B (zh) 学习来选择类别特征的词汇
WO2024011814A1 (zh) 一种图文互检方法、系统、设备及非易失性可读存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110309839A (zh) 一种图像描述的方法及装置
CN113609965B (zh) 文字识别模型的训练方法及装置、存储介质、电子设备
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110852069A (zh) 一种文本相关性评分方法及系统
CN111400473A (zh) 意图识别模型的训练方法及装置、存储介质及电子设备
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
US20230013796A1 (en) Method and apparatus for acquiring pre-trained model, electronic device and storage medium
CN112699215A (zh) 基于胶囊网络与交互注意力机制的评级预测方法及系统
CN112667797B (zh) 自适应迁移学习的问答匹配方法、系统及存储介质
CN110276413B (zh) 一种模型压缩方法及装置
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN116975221A (zh) 文本阅读理解方法、装置、设备及存储介质
CN113204679B (zh) 一种代码查询模型的生成方法和计算机设备
WO2023009766A1 (en) Evaluating output sequences using an auto-regressive language model neural network
CN115456176A (zh) 一种基于知识增强的文本匹配方法及系统
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN111382246B (zh) 文本的匹配方法、匹配装置、终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant