CN113268561A - 一种基于多任务联合训练的问题生成方法 - Google Patents

一种基于多任务联合训练的问题生成方法 Download PDF

Info

Publication number
CN113268561A
CN113268561A CN202110448211.1A CN202110448211A CN113268561A CN 113268561 A CN113268561 A CN 113268561A CN 202110448211 A CN202110448211 A CN 202110448211A CN 113268561 A CN113268561 A CN 113268561A
Authority
CN
China
Prior art keywords
word
text
answer
task
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110448211.1A
Other languages
English (en)
Other versions
CN113268561B (zh
Inventor
毛震东
张勇东
于尊瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110448211.1A priority Critical patent/CN113268561B/zh
Publication of CN113268561A publication Critical patent/CN113268561A/zh
Application granted granted Critical
Publication of CN113268561B publication Critical patent/CN113268561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多任务联合训练的问题生成方法,采用答案词填空任务、相关度预测任务与问题生成任务联合训练,学习问题、答案与关键信息的潜在关联以提升所生成问题的价值。答案词填空任务,是将文本段落中的答案词删除,训练模型根据文本段落自动生成答案位置的单词,以使得模型具有根据段落中的信息推测答案的能力,促使模型在问题生成时更能关注对答案更重要的信息。相关度预测任务,是通过学习文本段落中单词之间的相对关系,利用规则获取每个单词与答案单词之间的相关度,使得生成的相关度能够在问题生成中作为指导和监督信息来训练模型预测文本段落中的每个词与答案之间的相关度,以促使模型在问题生成时更关注与答案强相关的单词。

Description

一种基于多任务联合训练的问题生成方法
技术领域
本发明涉及自然语言生成技术领域,尤其涉及一种基于多任务联合训练的问题生成方法。
背景技术
随着对话机器人、机器人客服等智能人机对话系统的广泛应用,越来越需要计算机系统能够更准确地理解和使用人类语言。“段落-问题-答案”数据是训练计算机模型实现自然语言理解和自然语言生成任务地重要数据来源,然而人工标注数据需要耗费大量的人力、物力、财力,且效率低下、数据总量少。而互联网上拥有海量无标注文本数据,可以从无标注文本段落数据中选择一个或者多个连续的词语作为答案,再使用问题生成技术生成问题,获取海量“段落-问题-答案”数据。因此,问题生成技术具有很高的研究价值与实用价值。
现有的问题生成技术多采用基于预训练语言模型进行微调的方法,然而普遍存在一个问题:无法准确抓取最关键内容,常常从不重要的角度进行提问,生成无价值的问题。这是由于问题生成任务的“一对多”特性所导致的,根据给定的段落和答案,人类可以提出多个问题,并且很容易分辨哪些问题有价值,哪些问题无价值,而对计算机系统而言,可以生成问题但是无法判断问题的价值性。生成的问题缺乏实际使用价值会导致整个“段落-问题-答案”数据集的可用性降低。
发明内容
本发明的目的是提供一种基于多任务联合训练的问题生成方法,采用两个辅助任务与问题生成任务联合训练,学习问题、答案与关键信息的潜在关联以提升所生成问题的价值,从而提升“段落-问题-答案”数据集的可用性。
本发明的目的是通过以下技术方案实现的:
一种基于多任务联合训练的问题生成方法,包括:
训练阶段:采用多任务联合的方式对深度卷积网络模型进行训练,第一轮使用答案词填空任务进行训练,第二轮使用相关度预测任务和问题生成任务进行联合训练;两轮训练交替进行直至达到设定的停止轮数超参数;其中,所述答案词填空任务是将输入文本段落的答案文本删除,并将删除的答案文本作为真实标签,训练深度卷积网络模型根据文本段落自动生成答案位置的单词;相关度预测任务是对输入文本段落,使用文本段落中每个单词与答案词在依存关系上的距离来衡量相关度,并通过训练深度卷积模型自动预测文本段落中每个单词与答案词的相关度;问题生成任务是输入文本段落与文本段落中的答案文本,将问题文本作为真实标签,训练深度卷积模型生成相应的问题文本;
测试阶段:将文本段落与答案文本以及给定的问题文本长度输入至训练好的深度卷积网络模型,输出长度不超过给定的问题文本长度的问题文本。
由上述本发明提供的技术方案可以看出,采用多任务联合训练的方法,针对问题生成任务的特性,提出利用两项有潜在关联的辅助任务:答案词填空任务、相关度预测任务,其中相关度预测任务是本专利首次提出并应用在问题生成任务上,答案词填空任务是本专利针对问题生成任务进行了特有的改进;使用两项辅助任务和问题生成任务的联合训练使得模型更好地学习答案与其他文本信息之间的潜在语义关系,获取对答案而言更重要和关键的信息,从而引导问题生成模型生成更有价值的问题。两项辅助任务针对问题生成任务有着特有的答案信息专门设计,与现有的其他自然语言生成任务上常用的多任务训练方法相比具有更细粒度更精确的优势,使模型更好地处理文本段落与答案的信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于多任务联合训练的问题生成方法的流程图;
图2为本发明实施例提供的相关度数据处理示意图;
图3为本发明实施例提供的针对预训练语言模型BERT进行多任务联合训练的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
针对现有技术所存在的技术缺陷,本发明实施例提供了一种基于多任务联合训练的问题生成方法,采用两个辅助任务与问题生成任务联合训练,学习问题、答案与关键信息的潜在关联以提升所生成问题的价值。其中一个辅助任务是答案词填空任务,将文本段落中的答案词删除,训练模型根据文本段落自动生成答案位置的单词,以使得模型具有根据段落中的信息推测答案的能力,促使模型在问题生成时更能关注对答案更重要的信息。另一个辅助任务是我们提出的相关度预测任务,通过学习构建文本段落中每个单词之间的相对关系,进一步利用规则获取每个单词与答案单词之间的相关度,使得生成的相关度能够在问题生成中作为指导和监督信息来训练模型预测文本段落中的每个词与答案之间的相关度,以促使模型在问题生成时更关注与答案强相关的单词。如图1所示,为上述方法的主要流程,主要包括:
训练阶段:采用多任务联合的方式对深度卷积网络模型进行训练,第一轮使用答案词填空任务进行训练,第二轮使用相关度预测任务和问题生成任务进行联合训练;两轮训练交替进行直至达到设定的停止轮数超参数;其中,所述答案词填空任务是将输入文本段落的答案文本删除,并将删除的答案文本作为真实标签,训练深度卷积网络模型根据文本段落自动生成答案位置的单词;相关度预测任务是对输入文本段落,使用文本段落中每个单词与答案词在依存关系上的距离来衡量相关度,并通过训练深度卷积模型自动预测文本段落中每个单词与答案词的相关度;问题生成任务是输入文本段落与文本段落中的答案文本,将问题文本作为真实标签,训练深度卷积模型生成相应的问题文本;
测试阶段:将包含答案的文本段落以及给定的问题文本长度输入至训练好的深度卷积网络模型,输出长度不超过给定的问题文本长度的问题文本。
下面针对三个任务、以及三个任务联合训练的方式做详细的介绍。
一、答案词填空任务。
所述答案词填空任务中,将文本段落的答案删除,使用掩码标志符号[MASK]代替后作为输入数据,以删除的答案文本作为真实标签训练深度卷积网络模型生成掩码标志符号[MASK]处的单词;答案词填空任务本质上可以看做是一个多分类任务,每个[MASK]处的单词的类别数目是词库表中的词语总数,损失函数采用负对数似然函数,表示为:
Figure RE-GDA0003095902360000041
其中,Input1表示输入的不包含答案的文本段落,θ表示模型参数,Ai表示段落答案中的第i个词的生成结果,A′i表示答案文本中的第i个词的真实标签,LA表示答案中词的数量,LM表示答案词填空任务的损失函数,PM表示答案词填空的概率分布。
二、相关度预测任务。
所述相关度预测任务的目标是对输入的文本段落,使用文本段落中每个单词与答案在依存关系上的距离来衡量相关度S,并通过训练模型自动预测相关度。
首先,对文本段落进行依存句法分析(例如,可通过spaCy等工具实现):对文本段落中的每个句子标记一个根节点词语,并以根节点为起点构建单向树,单向树中每个节点表示一个词,两个节点之间的连接表示两个词之间的依存关系;对于答案所在的句子,以答案中的词为中心,计算每个词在单向树上与答案词之间边的数量,将边的数量作为词与答案之间的相关度;如果答案中有多个词,则取距离最小的结果作为词与答案之间的相关度;对于不包含答案的句子,将句子中所有词与答案之间的相关度设置为默认最大值(例如,99)。
图2提供了一个针对文本段落进行相关度处理的示意图。输入文本数据包括:文本段落(凶猛的狗咬了瘦弱的猫),以及答案(猫)。文本段落中“咬了”是根节点,“猫”是“咬了”的名词性宾语,“狗”是“咬了”的名词性主语,“瘦弱的”是“猫”的形容词,“凶猛的”是“狗”的形容词,则“猫”和答案的距离(相关度)是 0,“瘦弱的”和答案的距离(相关度)是1,“咬了”和答案的距离(相关度)是1,“狗”和答案的距离(相关度)是2,“凶猛的”和答案的距离(相关度)是3。
相关度预测任务是一个多分类任务,相关度S=0,1,2,…,N是N+1类,输入的文本段落中的每个词的相关度必定属于其中一类,损失函数采用负对数似然函数,表示为:
Figure RE-GDA0003095902360000042
其中,Input2表示相关度预测任务和问题生成任务联合训练时使用的数据,包括:问题文本与包含答案的文本段落,在相关度测试任务时,仅使用其中包含答案的文本段落;θ表示模型参数,Sj表示文本段落中第j个词与答案之间的相关度预测结果,S′j表示文本段落中第j个词与答案之间的相关度真实标签,LT表示输入的文本段落中词的数量,LS表示相关度预测任务的损失函数,PS表示相关度预测的概率分布。
三、问题生成任务。
问题生成任务中答案是文本段落中一段连续的文本,期望训练模型连续迭代式地依次生成词,直到生成结束符号,最后用生成的词组成一个问题。
所述问题生成任务中采用的损失函数是问题中各词的生成概率分布与真实数据的负对数似然的均值,表示为:
Figure RE-GDA0003095902360000051
其中,Input2表示相关度预测任务和问题生成任务联合训练时使用的数据,包括:问题文本与包含答案的文本段落;此任务问题文本与包含答案的文本段落都需要使用;θ表示模型参数,Qk表示问题中第k个的词的生成结果,Q′k表示问题中第k个的词的真实标签,LQ表示问题中词的数量,LQG表示问题生成任务的损失函数,PQG表示问题生成时问题中各词的生成概率分布。
本发明实施例中,上述三个任务所涉及的概率分布PM、PS、PQG均通过深度卷积网络模型末端的全连接层和softmax层得到。四、多任务联合训练。
本发明实施例中,在传统的单任务训练问题生成模型的基础上,引入答案词填空任务和相关度预测任务联合训练。通过同时训练模型实现答案词填空任务,可以使模型捕捉到段落文本中各个词与答案词的潜在语义关联;通过同时训练计算相关度,可以使得答案词填空中学到的语义关联进一步获得增强。通过此种多任务联合训练的范式,模型将会更倾向于找到不同任务之间的共性,使得在最终的主任务上会得到额外的协同。
多任务联合训练的步骤是:先用答案词填空任务的损失函数作为模型的损失函数训练一轮(1epoch),再用相关度预测任务和问题生成任务的损失函数相加作为模型的总损失函数训练一轮(1epoch),交替进行,直到轮数达到设定的停止轮数超参数。
本发明实施例提供的上述方案可以应用到任意深度卷积网络模型,下面以预训练语言模型BERT为例介绍相关的训练过程。如图3所示,为训练流程图,所述预训练语言模型BERT包括:嵌入向量层、编码器层与输出层。
1)数据预处理(未在图中示出)。
本发明实施例中,需要根据任务对输入文本数据进行预处理。输入文本数据由开始符号[CLS]和分隔符号[SEP]隔开的问题文本Q和文本段落T组成。
输入的文本数据表示为:
Figure RE-GDA0003095902360000061
其中,
Figure RE-GDA0003095902360000062
表示问题文本Q中的词序列,LQ表示词的数量,
Figure RE-GDA0003095902360000063
表示文本段落T中的词序列,LT表示词的数量。
本领域人员可以理解,答案是文本段落中的连续文本,通常情况下直接在文本段落中进行标记。例如,在Transformer、BERT等模型中标记的方法是将文本段落中属于答案的词和不属于答案的词在嵌入向量层分别加上答案词/非答案词嵌入向量;在LSTM、 RNN等模型中标记的方法是在文本段落中答案的前后各插入一个特殊的标记单词(例如 <answer>)。
答案词填空任务无需问题,也无需答案,在答案词填空任务的训练轮中将问题文本Q 中的词修改为占位符号[PAD],将文本段落T中的答案文本修改为掩码标志符号[MASK];在相关度预测任务和问题生成任务训练轮中,问题文本Q和文本段落T直接使用输入的文本数据,也就是说,前文定义的Input2等同于Input。
2)嵌入向量层。
所述嵌入向量层将每个词的词嵌入向量Embword、句子嵌入向量Embsen、位置嵌入向量Embpos按元素相加作为最终的嵌入向量Emb,表示为:
Emb=Embword+Embsen+Embpos
其中,词嵌入向量Embword指的是对输入文本数据中的每个词根据其在词表中的位置序号映射得到的一个可训练向量;句子嵌入向量Embsen指的是对输入文本数据中的每个词根据其所在句子的前后顺序映射得到的一个可训练的向量;位置嵌入向量Embpos指的是对输入文本数据中的每个词根据其所在数据中的位置映射得到的一个可训练的向量。
3)编码器层。
所述编码器层采用多层Transformer结构,输入为每个词的嵌入向量Emb,输出每个词的编码向量;在编码器层,添加掩码矩阵M,使得文本段落中的词计算注意力时只考虑文本段落中的词,而不考虑问题中的词,问题文本中的词计算注意力时只考虑文本段落中的词和问题文本中自身所在位置之前的词,而不考虑问题中自身所在位置之后的词,公式表示如下:
H=EncoderM(Emb)
其中,EncoderM(*)表示带有掩码矩阵M的编码器层,H表示编码器层计算得到的隐向量。
4)输出层。
所述输出层包括:三个全连接和Softmax层,输出的概率分布分别用于答案词填空任务、相关度预测任务、问题生成任务,表示为:
PM=Softmax(fcM(H1))
Ps=Softmax(fcS(H2))
PQG=Softmax(fcQG(H2))
其中,fc*(*)表示全连接层,Softmax(*)表示Softmax层,PM表示答案词填空的概率分布,PS表示相关度预测的概率分布,PQG表示问题生成的概率分布;H1表示编码器层针对答案词填空任务所涉及的文本(也即前文定义的Input1)所输出的隐向量,H2表示编码器层针对相关度预测任务、问题生成任务所涉及的文本(也即前文定义的Input2)所输出的隐向量。
本领域技术人员可以理解,相关度预测任务是与问题生成任务作为一轮进行联合训练的,因此,相关度预测任务是与问题生成任务是使用同一数据,由于相关度预测任务无需使用问题文本,执行相关度预测任务时不考虑问题文本的相关数据即可。
5)多任务联合训练。
先采用单一的答案词填空任务的损失函数作为模型训练的损失函数训练一轮(epoch),公式表示如下:
Figure RE-GDA0003095902360000071
再采用相关度预测任务和问题生成任务的损失函数相加作为模型的总损失函数训练一轮(epoch),公式表示如下:
Figure RE-GDA0003095902360000072
两轮训练交替进行,直到达到设定的总轮数。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于多任务联合训练的问题生成方法,其特征在于,包括:
训练阶段:采用多任务联合的方式对深度卷积网络模型进行训练,第一轮使用答案词填空任务进行训练,第二轮使用相关度预测任务和问题生成任务进行联合训练;两轮训练交替进行直至达到设定的停止轮数超参数;其中,所述答案词填空任务是将输入文本段落的答案文本删除,并将删除的答案文本作为真实标签,训练深度卷积网络模型根据文本段落自动生成答案位置的单词;相关度预测任务是对输入文本段落,使用文本段落中每个单词与答案词在依存关系上的距离来衡量相关度,并通过训练深度卷积模型自动预测文本段落中每个单词与答案词的相关度;问题生成任务是输入文本段落与文本段落中的答案文本,将问题文本作为真实标签,训练深度卷积模型生成相应的问题文本;
测试阶段:将文本段落与答案文本以及给定的问题文本长度输入至训练好的深度卷积网络模型,输出长度不超过给定的问题文本长度的问题文本。
2.根据权利要求1所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述答案词填空任务中,将文本段落的答案删除,使用掩码标志符号[MASK]代替后作为输入数据,以删除的答案文本作为真实标签训练深度卷积网络模型生成掩码标志符号[MASK]处的单词;
答案词填空任务看做是一个多分类任务,每个[MASK]处的单词的类别数目是词库表中的词语总数,损失函数采用负对数似然函数,表示为:
Figure RE-FDA0003095902350000011
其中,Input1表示输入的不包含答案的文本段落,θ表示模型参数,Ai表示段落答案中的第i个词的生成结果,A′i表示答案文本中的第i个词的真实标签,LA表示答案中词的数量,LM表示答案词填空任务的损失函数,PM表示答案词填空的概率分布。
3.根据权利要求1所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述相关度预测任务中,首先对文本段落进行依存句法分析:对文本段落中的每个句子标记一个根节点词语,并以根节点为起点构建单向树,单向树中每个节点表示一个词,两个节点之间的连接表示两个词之间的依存关系;对于答案所在的句子,以答案中的词为中心,计算每个词在单向树上与答案词之间边的数量,将边的数量作为词与答案之间的相关度;如果答案中有多个词,则取距离最小的结果作为词与答案之间的相关度;对于不包含答案的句子,将句子中所有词与答案之间的相关度设置为默认最大值。
相关度预测任务是一个多分类任务,相关度S=0,1,2,…,N是N+1类,输入的文本段落中的每个词的相关度必定属于其中一类,损失函数采用负对数似然函数,表示为:
Figure RE-FDA0003095902350000021
其中,Input2表示相关度预测任务和问题生成任务联合训练时使用的数据,包括:问题文本与包含答案的文本段落,在相关度测试任务时,仅使用其中包含答案的文本段落;θ表示模型参数,Sj表示文本段落中第j个词与答案之间的相关度预测结果,S′j表示文本段落中第j个词与答案之间的相关度真实标签,LT表示输入的文本段落中词的数量,LS表示相关度预测任务的损失函数,PS表示相关度预测的概率分布。
4.根据权利要求1所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述问题生成任务中采用的损失函数是问题中各词的生成概率分布与真实数据的负对数似然的均值,表示为:
Figure RE-FDA0003095902350000022
其中,Input2表示相关度预测任务和问题生成任务联合训练时使用的数据,包括:问题文本与包含答案的文本段落;问题生成任务中问题文本与包含答案的文本段落都需要使用;θ表示模型参数,Qk表示问题中第k个的词的生成结果,Q′k表示问题中第k个的词的真实标签,LQ表示问题中词的数量,LQG表示问题生成任务的损失函数,PQG表示问题生成时问题中各词的生成概率分布。
5.根据权利要求1~4任一项所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述深度卷积网络模型包含预训练语言模型BERT;所述预训练语言模型BERT包括:嵌入向量层、编码器层与输出层;
输入文本数据由开始符号[CLS]和分隔符号[SEP]隔开的问题文本Q和文本段落T组成;答案词填空任务无需问题,也无需答案,在答案词填空任务的训练轮中将问题文本Q中的词修改为占位符号[PAD],将文本段落T中的答案文本修改为掩码标志符号[MASK];在相关度预测任务和问题生成任务训练轮中,问题文本Q和文本段落T直接使用输入数据的形式;输入文本数据表示为:
Figure RE-FDA0003095902350000023
其中,
Figure RE-FDA0003095902350000031
表示问题文本Q中的词序列,LQ表示词的数量,
Figure RE-FDA0003095902350000032
表示文本段落T中的词序列,LT表示词的数量。
6.根据权利要求5所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述嵌入向量层将每个词的词嵌入向量Embword、句子嵌入向量Embsen、位置嵌入向量Embpos按元素相加作为最终的嵌入向量Emb,表示为:
Emb=Embword+Embsen+Embpos
其中,词嵌入向量Embword指的是对输入文本数据中的每个词根据其在词表中的位置序号映射得到的一个可训练向量;句子嵌入向量Embsen指的是对输入文本数据中的每个词根据其所在句子的前后顺序映射得到的一个可训练的向量;位置嵌入向量Embpos指的是对输入文本数据中的每个词根据其所在数据中的位置映射得到的一个可训练的向量。
7.根据权利要求5所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述编码器层采用多层Transformer结构,输入为每个词的嵌入向量Emb,输出每个词的编码向量;在编码器层,添加掩码矩阵M,使得文本段落中的词计算注意力时只考虑文本段落中的词,问题文本中的词计算注意力时只考虑文本段落中的词和问题文本中自身所在位置之前的词,公式表示如下:
H=EncoderM(Emb)
其中,EncoderM(*)表示带有掩码矩阵M的编码器层,H表示编码器层计算得到的隐向量。
8.根据权利要求5所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述输出层包括:三个全连接和Softmax层,输出的概率分布分别用于答案词填空任务、相关度预测任务、问题生成任务,表示为:
PM=Softmax(fcM(H1))
PS=Softmax(fcS(H2))
PQG=Softmax(fcQG(H2))
其中,fc*(*)表示全连接层,Softmax(*)表示Softmax层,PM表示答案词填空的概率分布,PS表示相关度预测的概率分布,PQG表示问题生成的概率分布;H1表示编码器层针对答案词填空任务所涉及的文本所输出的隐向量,H2表示编码器层针对相关度预测任务、问题生成任务所涉及的文本所输出的隐向量。
CN202110448211.1A 2021-04-25 2021-04-25 一种基于多任务联合训练的问题生成方法 Active CN113268561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110448211.1A CN113268561B (zh) 2021-04-25 2021-04-25 一种基于多任务联合训练的问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110448211.1A CN113268561B (zh) 2021-04-25 2021-04-25 一种基于多任务联合训练的问题生成方法

Publications (2)

Publication Number Publication Date
CN113268561A true CN113268561A (zh) 2021-08-17
CN113268561B CN113268561B (zh) 2021-12-14

Family

ID=77229447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110448211.1A Active CN113268561B (zh) 2021-04-25 2021-04-25 一种基于多任务联合训练的问题生成方法

Country Status (1)

Country Link
CN (1) CN113268561B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114812551A (zh) * 2022-03-09 2022-07-29 同济大学 一种室内环境机器人导航自然语言指令生成方法
CN114861597A (zh) * 2022-05-17 2022-08-05 北京飞象星球科技有限公司 填空题解题模型的训练方法及装置
CN115671703A (zh) * 2022-10-14 2023-02-03 杭州菲助科技有限公司 一种基于虚拟沙盘的填空交互问答的出题方法及交互方法
CN115908870A (zh) * 2022-10-19 2023-04-04 海南港航控股有限公司 一种基于异构数据融合的图文匹配方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174020A1 (en) * 2016-12-21 2018-06-21 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN109726274A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 问题生成方法、装置及存储介质
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN111767371A (zh) * 2020-06-28 2020-10-13 微医云(杭州)控股有限公司 一种智能问答方法、装置、设备及介质
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112395393A (zh) * 2020-11-27 2021-02-23 华东师范大学 一种基于多任务多示例的远程监督关系抽取方法
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174020A1 (en) * 2016-12-21 2018-06-21 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN109726274A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 问题生成方法、装置及存储介质
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN111767371A (zh) * 2020-06-28 2020-10-13 微医云(杭州)控股有限公司 一种智能问答方法、装置、设备及介质
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112395393A (zh) * 2020-11-27 2021-02-23 华东师范大学 一种基于多任务多示例的远程监督关系抽取方法
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANMENG WANG等: "《Knowledge Grounded Pre-Trained Model For Dialogue Response Generation》", 《2020 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
熊志远: "《基于知识库的弱监督开放领域问答系统研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
谭红叶等: "《基于答案及其上下文信息的问题生成模型》", 《中文信息学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN113626564B (zh) * 2021-10-09 2021-12-17 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114812551A (zh) * 2022-03-09 2022-07-29 同济大学 一种室内环境机器人导航自然语言指令生成方法
CN114861597A (zh) * 2022-05-17 2022-08-05 北京飞象星球科技有限公司 填空题解题模型的训练方法及装置
CN115671703A (zh) * 2022-10-14 2023-02-03 杭州菲助科技有限公司 一种基于虚拟沙盘的填空交互问答的出题方法及交互方法
CN115908870A (zh) * 2022-10-19 2023-04-04 海南港航控股有限公司 一种基于异构数据融合的图文匹配方法及系统

Also Published As

Publication number Publication date
CN113268561B (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN113268561B (zh) 一种基于多任务联合训练的问题生成方法
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113128206B (zh) 基于单词重要性加权的问题生成方法
CN113268610B (zh) 基于知识图谱的意图跳转方法、装置、设备及存储介质
WO2022048194A1 (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN111898369A (zh) 文章标题生成方法、模型的训练方法、装置和电子设备
CN114692568A (zh) 一种基于深度学习的序列标注方法及应用
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN117033721A (zh) 一种基于法律知识图谱的法律咨询报告生成系统及方法
Fang et al. A method of automatic text summarisation based on long short-term memory
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN116910190A (zh) 多任务感知模型获取方法、装置、设备及可读存储介质
CN116578671A (zh) 一种情感-原因对提取方法及装置
CN117077682A (zh) 基于语义识别的公文分析方法及系统
CN116910196A (zh) 一种基于多任务学习的校园安全突发事件抽取方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN114912460A (zh) 基于文本挖掘的精细化拟合识别变压器故障方法及设备
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
Windiatmoko et al. Mi-Botway: A deep learning-based intelligent university enquiries chatbot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant