CN116681087B - 一种基于多阶段时序和语义信息增强的自动问题生成方法 - Google Patents
一种基于多阶段时序和语义信息增强的自动问题生成方法 Download PDFInfo
- Publication number
- CN116681087B CN116681087B CN202310914371.XA CN202310914371A CN116681087B CN 116681087 B CN116681087 B CN 116681087B CN 202310914371 A CN202310914371 A CN 202310914371A CN 116681087 B CN116681087 B CN 116681087B
- Authority
- CN
- China
- Prior art keywords
- context
- information
- answer
- neural network
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 claims abstract description 76
- 230000007246 mechanism Effects 0.000 claims abstract description 58
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 27
- 230000010076 replication Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 148
- 239000010410 layer Substances 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 239000002356 single layer Substances 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 10
- 230000007547 defect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000011511 automated evaluation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
Abstract
本发明提出基于多阶段时序和语义信息增强的自动问题生成方法,包括:首先获取模型所需的数据信息;构建基于多阶段时序和语义信息增强模型的编码器,将编码器多阶段编码得到的上下文信息进行融合,经过循环神经网络编码后得到增强的答案感知的上下文信息;构建基于多阶段时序和语义信息增强模型的解码器,在解码过程中引入迭代图神经网络,并结合基于注意力机制的循环神经网络、指针复制机制、覆盖机制生成问题。本发明是针对图到序列的问题生成模型编码器的多阶段编码以及解码过程中容易丢失上下文中丰富的序列信息和语义结构信息的弊端而提出的,能改善问题生成的质量,在自动评估指标和人工评价方面均优于序列到序列的问题生成方法。
Description
技术领域
本发明涉及一种基于多阶段时序和语义信息增强的自动问题生成方法,属于自然语言处理的问题生成技术领域。
背景技术
自动问题生成(Automatic Question Generation, AQG)对于教育领域、电商领域、医疗领域等均具有重要意义。在教育领域,可以辅助教师完成出题功能以及教学评估;在电商领域,可以辅助商家客服与用户进行对话,缓解商家客服与大量用户交流带来的不便;在医疗领域,可以辅助医生帮助患者诊断疾病等。本发明的AQG任务的目标是基于给定的段落和答案来自动生成问题,近年来吸引了大量研究者关注该领域的研究。目前最先进的AQG模型通常采用基于深度神经网络中的序列到序列模型研究自动问题生成,其中神经网络是基于编码器-解码器的框架进行训练。然而,由于AQG任务的艰巨性和神经网络模型的复杂性,目前自动问题生成研究依然存在许多问题。
为了解决这一挑战,本发明通过对SQuAD数据集进行预处理,然后将处理后的数据输入到编码器-解码器模型中,进而以端到端的方式自动生成问题。在编码器-解码器的架构中,编码器由循环神经网络和图神经网络编码上下文和答案信息,并将各阶段编码的上下文信息进行融合,输入到循环神经网络得到增强的答案感知的上下文信息,然后将增强的答案感知的上下文信息输入到解码器,在解码过程中,结合迭代图神经网络、循环神经网络、指针复制机制等技术自动生成问题。实验结果表明,本发明提出的网络模型在自动评估指标和人工评估指标方面均优于现有序列到序列的问题生成模型。本发明模型生成的问题在SQuAD数据集中的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、METEOR等评价指标相比最先进的序列到序列模型上均具有明显的提高。
发明内容
本发明要解决的技术问题是:本发明旨在提供一种基于多阶段时序和语义信息增强的自动问题生成方法,解决现有图到序列的问题生成模型编码器的多阶段编码以及解码过程中容易丢失段落中丰富的序列信息和语义结构信息的弊端,进一步生成精度更好的问题,从而将其应用到问答领域、教育领域、电商领域等。
本发明的技术方案是:一种基于多阶段时序和语义信息增强的自动问题生成方法,所述方法的具体步骤如下:
Step1:通过对SQuAD数据集进行预处理,得到模型训练所需的数据。
Step1.1:提取公开SQuAD数据集中的文本、答案,对得到的上下文、答案信息进行预处理,得到相应的词向量;对于上下文的处理包括:使用斯坦福自然语言处理工具包提取上下文的命名实体识别(NER)、词性标注(POS),并将其转换为相应的词向量,上下文中的命名实体识别(NER)单词的向量表述为、上下文中的词性标注(POS)单词的向量表述为/>,然后利用现有预训练的单词向量得到上下文Glove单词向量/>以及上下文BERT单词向量,并借助Spacy自然语言处理的工具库构建上下文的图结构,同时得到上下文单词大小写转换的单词向量/>、答案标记向量/>、上下文单词的Glove向量与答案单词的Glove向量做深度对齐的答案感知上下文特征向量/>。对于答案的处理包括:利用现有预训练的单词向量得到答案Glove单词向量/>以及答案BERT单词向量/>
Step 1.2:将处理后得到的数据作为输入,用于模型的训练阶段、验证阶段、测试阶段,从而训练出更有效的问题生成模型:结合模型编码器训练阶段的输入需求,将模型编码器训练阶段的输入端的数据分为上下文单词向量和答案单词向量/>,上下文单词向量和答案的单词向量分别由上一步提取的多个特征向量拼接得到,最终得到模型初始化的上下文单词向量/>和答案单词向量/>。
Step 2:构建基于多阶段时序和语义信息增强模型的编码器,将编码器多阶段编码得到的上下文信息进行融合,经过循环神经网络编码后得到增强的答案感知的上下文信息;
Step 2.1:利用循环神经网络分别编码上下文和答案信息,循环神经网络使用单层双向长短时记忆网络(BiLSTM),隐藏层的维度为300维,然后分别编码上下文单词向量和答案单词向量,最后得到输出维度为300维的上下文单词向量和答案单词向量;
Step 2.2:将编码的上下文信息和答案信息利用对齐机制和融合机制,得到答案感知的上下文信息,将上下文单词向量与答案单词向量对齐,利用注意力机制将答案信息融入到上下文信息中,同时结合融合机制改善编码的上下文信息;
Step 2.3:将经过融合机制的答案感知的上下文信息经过循环神经网络和图神经网络处理后,进一步得到具有语义结构信息的新的答案感知的上下文信息,循环神经网络使用双向长短时记忆网络(BiLSTM),图神经网络使用双向门控图神经网络(BiGGNN),其中双向LSTM的隐藏层维度为300维,双向门控图神经网络(BiGGNN)使用上下文信息双向聚合的方式以及门控循环单元控制图神经网络的信息,从而增强上下文的语义结构信息;
Step 2.4:将上述三步编码的上下文信息进行融合,输入到循环神经网络得到增强的答案感知的上下文信息,编码器使用双向长短时记忆网络(BiLSTM),输入的单词嵌入维度是1800维,隐藏层维度为300维,输出的增强答案感知的上下文单词向量维度为300维。
Step 3:构建基于多阶段时序和语义信息增强模型的解码器,在解码过程中引入迭代图神经网络,并结合基于注意力机制的循环神经网络、指针复制机制、覆盖机制生成问题。
Step 3.1:构建基于多阶段时序和语义信息增强模型的解码器,其中解码器是由基于注意力机制的循环神经网络逐一生成问题,最终将每一时间步生成的单词进行结合,得到一个单词序列,即为该循环神经网络模型生成的问题,解码器阶段的循环神经网络使用单层单向长短时记忆网络(LSTM),隐藏层维度为300维,输出维度同样为300维;
Step 3.2:在解码过程中,为了有效利用先前时间步生成问题的语义结构信息,引入迭代图神经网络,在每一个解码时间步,利用迭代图神经网络提取每个生成问题单词的隐藏层向量表示,并通过结合角色标签信息重新初始化,有效的在解码阶段融入先前生成问题单词的语义结构信息;
Step 3.3:在解码过程中,为了有效结合增强的答案感知的上下文信息,在每次的当前时间步预测过程中,利用注意力机制进行结合当前时间步与增强的答案感知的上下文信息,注意力机制为当前解码器隐藏状态计算上下文信息的注意力分布,有效将上下文重要信息融入到当前解码时间步隐藏层的单词向量中;
Step 3.4:在解码过程中,针对段落信息出现的未登录词以及生成问题重复问题,利用指针复制网络和覆盖网络缓解以上的问题,进而生成更优的问题;具体的,使用覆盖向量来跟踪关注解码器的历史信息,解决历史生成单词重复的问题,并使用指针复制机制解决上下文出现的未登录词问题。
所述Step2.2中,将步骤Step2.1编码得到的上下文单词向量和答案单词向量,利用对齐机制和融合机制,得到对齐机制阶段的答案感知的上下文单词向量以及融合机制阶段的上下文单词向量/>。对齐机制使用的注意力机制是点积注意力机制,首先将经过BiLSTM编码的上下文信息/>和答案信息/>做点积操作,得到两个序列之间的注意力权重矩阵Attn,然后经过Softmax函数归一化,用于计算特征向量,最后得到融合答案信息的上下文表示。
所述Step2.3中,双向门控图神经网络BiGGNN利用信息双向聚合的方式,以及利用门控循环单元控制图神经网络的信息,来增强上下文的语义结构信息。
双向门控图神经网络(BiGGNN) 可以有效地捕获段落的语义结构信息,首先基于依存分析树构建一个段落图;然后采用了一个双向门控图神经网络(BiGGNN)对构建的段落图中的节点进行编码,其中答案感知的段落表示用于初始化节点嵌入;最后,每个节点嵌入通过聚集其前向和后向邻域节点的表示,并经过K次迭代更新,得到当前节点信息的表示。
所述Step2.4中,将上述三步编码的上下文信息进行融合主要为:对于初始上下文信息即上下文Glove单词向量、经过循环神经网络编码的语义信息/>、对齐机制阶段的答案感知的上下文单词向量/>、融合机制阶段的上下文单词向量/>、再次经过循环神经网络编码的上下文信息/>以及经过BiGGNN编码的上下文信息/>,将以上上下文信息进行融合后,作为循环神经网络的输入,经过循环神经网络得到增强答案感知的上下文信息。其中单层双向长短时记忆网络(BiLSTM)的输入单词嵌入维度是1800维,输出维度是300维。
所述Step3.1中,解码器的循环神经网络使用单层单向LSTM,隐藏层的维度为300维,输出维度为当前词汇表的维度。
所述Step3.2中,在解码过程中,为了有效利用先前时间步生成问题的语义结构信息,引入迭代图神经网络,在每一个解码时间步,利用迭代图神经网络提取每个生成问题单词的隐藏层向量表示,每个问题单词的隐藏层向量通过结合角色标签信息重新初始化;具体的,在解码过程中,需要引入角色标签tag,将角色标签信息添加到节点嵌入中,表述为。其中,角色标签向量的维度被设置为3维,角色标签的定义为:
所述Step3.3中,利用注意力机制来为解码器当前隐藏状态计算上下文信息的注意力分布,用于有效将上下文重要信息融入到当前解码时间步的单词向量中。解码器是由基于注意力机制的循环神经网络逐一生成问题中的单词,其中注意力机制为解码器当前隐藏状态对增强的答案感知上下文信息计算注意力分布/>,从而可以得到答案感知的上下文向量,可以使得当前隐藏层关注上下文信息中重要的单词,有助于解码器在解码过程中,更好的结合上下文信息生成可回答的问题单词。
所述Step3.4中,使用覆盖向量来跟踪关注解码器的历史信息,解决历史生成单词重复的问题,使用指针复制机制解决上下文出现的未登录词问题。复制机制的原理主要被用来处理在当前生成阶段,生成的词汇究竟是从词汇表中取出生成一个单词,或者从段落中复制一个单词,进而解决未登录词(OOV)问题,即训练词汇表中未出现的生僻词。 具体地,将注意力分布整合到词汇分布中,以生成最终的概率分布来预测目标问题的单词w。覆盖机制来跟踪关注解码器的历史信息,覆盖向量可以被看作是上下文单词上的非标准化分布,当生成下一个单词时,模型会将注意力权重分配给一个或多个源语言单词,同时考虑到已经生成过的位置。覆盖向量被更新为/> = />+/>。其中 />是当前解码时间步得到的注意力分值。
本发明的有益效果是:
1、本发明在理论层面,提出一种基于多阶段时序和语义信息增强的自动问题生成方法,这缓解了图到序列的问题生成模型编码器的多阶段编码以及解码过程中容易丢失段落中丰富的序列信息和语义结构信息的问题,进一步提高了问题生成的质量,这为后续问题生成领域的研究者提供了研究思路;
2、在实践层面,本发明的模型可以被用在各个领域,该发明可以被用于教育领域的,辅助教师完成出题功能,这对当今教育界提升教学质量和教学效果具有十分重要的意义,同时,该方法还可以用于电子商务的客服对话领域,用于问答领域作为数据增强,以上均表明本发明在各个领域均具有广泛的应用;
3、本发明可以实现端到端的自动问题生成,且实验结果表明,所述阅读理解问题的自动生成方法在自动评估和人工评价方面都优于序列到序列模型和图到序列模型的方法。
附图说明
图1 是本发明的基于多阶段时序和语义信息增强的自动问题生成方法框架图;
图2 是本发明的自动问题生成方法的编码器输入端嵌入图;
图3 是本发明的自动问题生成方法的编码器图;
图4 是本发明的自动问题生成方法的解码器图;
图5 是本发明的一个流程框架图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-图5所示,一种基于多阶段时序和语义信息增强的自动问题生成方法,具体步骤为:
Step1:通过对SQuAD数据集进行预处理,得到模型训练所需的数据;如图2所示。
Step1.1:提取公开SQuAD数据集中的文本、答案。对上下文的操作主要具有以下的处理:使用斯坦福自然语言处理工具包提取文本的命名实体识别(NER)、词性标注(POS)、并利用现有的预训练模型得到文本的Glove单词向量,借助Spacy自然语言处理的工具库构建文本的图结构,并使用大小写转换函数将单词进行的大小写转换,使用0表示单词的字符并非由大写字母转换成小写字母,1表示单词中的字符经过了大小写的转换,这一转化操作被称为大小写转换(CASE),为了更好的利用答案信息,同时引入了答案的位置标记特征,分别使用BIO表示,B表示答案在上下文中的起始位置,I表示与答案相关内部的上下文单词,O表示未出现在上下文段落中的单词;
将以上得到上下文特征以及答案特征转换为向量。首先将处理后的数据做向量化处理,即将文本数据转化为数值向量(词嵌入),将上下文单词的Glove向量表述为,向量的维度300维。答案单词的Glove向量表述为/>,向量的维度为300维。上下文单词的Glove向量与答案单词的Glove向量做深度对齐的答案感知上下文特征向量/>,向量的维度为300维。上下文单词的BERT向量表述为/>,向量的维度为1024维,且该向量是由BERT模型中24层Transformer模块编码的语义信息的和组成。答案单词的BERT向量表述为/>,向量的维度为1024维,上下文词性标注(POS)单词的向量表述为/>,向量的维度为12维。上下文命名实体识别(NER)单词的向量表述为/>,向量的维度为8维。上下文大小写转换(CASE)特征向量表述为/>,向量的维度为3维。上下文存在的答案位置标签(BIO)单词向量表述为/>,向量的维度为3维。
Step 1.2:将处理后得到的数据作为输入,用于模型的训练阶段、验证阶段、测试阶段,从而训练出更有效的问题生成模型:结合编码器训练阶段的输入需求,将模型编码器训练阶段的输入端的数据分为上下文单词向量以及答案单词向量,上下文单词向量将由step1.1步骤的上述多个特征进行组合得到最终的上下文编码单词向量,该向量的维度为1650维,答案单词向量则由Glove向量和BERT向量组成,最终的答案词嵌入向量/>,该向量的维度为1324维。
Step 2:构建基于多阶段时序和语义信息增强模型的编码器,将编码器多阶段编码得到的上下文信息进行融合,经过循环神经网络编码后得到增强的答案感知的上下文信息。如图3所示。
Step 2.1:利用循环神经网络分别编码上下文和答案信息,可以有效捕获上下文和答案的两种序列信息,得到编码后的上下文单词向量和答案单词向量/>;其中循环神经网络使用当单层双向长短时记忆网络BiLSTM;
Step 2.2:首先将编码后的上下文单词向量和答案单词向量/>,利用对齐机制和融合机制,得到答案感知的上下文单词向量/>。然后利用融合机制进一步得到答案感知的上下文单词向量/>。
具体表述如式(1)-式(4)。
(1)
其中,表示经过BiLSTM编码后第j个单词的答案单词向量,这里的/>即为/>,右下标n表示答案句子中共有n个单词,/>表示经过BiLSTM编码后第i个单词的上下文单词向量,这里的/>即为/>,右下标m表示上下文句子中共有m个单词,/>表示上下文和答案信息的注意力分值。
为了得到答案感知的上下文单词向量,对每一个上下文单词向量都与答案信息进行注意力机制的计算,得到答案感知的上下文单词向量。
i=1, 2, …, m (2)
(3)
最后利用融合机制进一步得到答案感知的上下文单词向量。
(4)
其中F(.)表示一层前馈神经网络(FFNN),主要用于进行线性变换。表示数学中点积运算中的乘积。
Step 2.3:将得到的答案感知的上下文单词向量,经过BiLSTM编码得到如下的答案感知上下文单词向量/>。然后利用双向门控图神经网络(BiGGNN)有效地捕获上下文的语义结构信息,得到具有语义结构信息的新的答案感知的上下文单词向量/>。
其中具有语义结构信息的答案感知的上下文单词向量得到的过程如下:
这里的以迭代K次时段的节点v ∈ V的嵌入更新过程为例进行描述。
首先根据段落文本构造一个图结构G=(V,E),其中V表示节点,E表示边。然后采用均值聚合器将节点v的前向和后向邻居分别聚合成前向和后向聚合向量。具体如式(5)-(6)
(5)
(6)
其中,和/>表示节点v的方向,k/>表示迭代的索引次数,本文k的大小为3。
接着,使用融合操作来聚合前向和后向方向上的节点信息,并且聚合向量表达公式如式(7)。
Fuse (/>, />) (7)
其中,融合操作Fuse(.,.)表示对两个向量进行门控操作的表达式如式(8)-式(9)。
(8)
(9)
其中和/>是模型可训练的参数,σ(.)是sigmoid函数,x和y分别表示两个不同的单词序列向量。
最后,通过采用门控循环单元(GRU)更新节点的嵌入,表达式如式(10)。
(10)
在K次迭代之后,节点v的表示为。最终,/>表示经过图神经网络编码后的上下文单词向量。
Step 2.4:将上述三步编码的上下文信息进行融合主要为:上下文Glove单词向量、经过循环神经网络编码的语义信息/>、对齐机制阶段的答案感知的上下文单词向量、融合机制阶段的上下文单词向量/>、再次经过循环神经网络编码的上下文信息/>以及经过BiGGNN编码的上下文信息/>,将以上上下文信息进行融合后,作为循环神经网络的输入,表示为/>,接着将其输入到循环神经网络得到增强的答案感知的上下文单词向量,其中单层双向长短时记忆网络(BiLSTM)的输入单词嵌入维度是1800维,输出维度是300维。
Step 3:构建基于多阶段时序和语义信息增强模型的解码器,在解码过程中引入迭代图神经网络,并结合基于注意力机制的循环神经网络、指针复制机制、覆盖机制生成问题。如图4所示。
Step 3.1:构建基于多阶段时序和语义信息增强模型的解码器,其中解码器是由基于注意力机制的循环神经网络逐一生成问题,最终将每一时间步生成的单词进行结合,得到一个单词序列,即为该循环神经网络模型生成的问题,解码器阶段的循环神经网络使用单层单向长短时记忆网络LSTM。
为了有效利用得到增强的答案感知的上下文信息,使用两个独立的全连接层,作为初始隐藏状态和初始上下文向量/>。具体表述如(11)-式(12)
(11)
其中tanh表示激活函数,和/>表示模型可训练的参数,/>和/>表示偏置项,表示编码器在编码答案感知的上下文单词向量得到增强的答案感知的上下文单词向量的最后时间步隐藏层的上下文语义向量,因此该向量考虑了整个增强的答案感知的上下文语义信息。
(12)
然后在当前时间步的解码过程中,拼接前一个单词嵌入和前一个基于注意力的上下文向量/>,将它们馈入长短时记忆 (LSTM)网络模型中,并结合前一个隐藏层状态,以获得当前解码器隐藏层状态。如式(13)
(13)
其中表示当前解码状态下目标问题的隐藏层状态。
Step 3.2:在解码过程中,为了有效利用先前时间步生成问题的语义结构信息,引入迭代图神经网络,在每一个解码时间状态下,利用迭代图神经网络提取每个生成问题单词的隐藏层向量表示,并通过结合角色标签信息重新初始化,有效的在解码阶段融入先前生成问题单词的语义结构信息,每个节点的单词向量被重新初始化为/>;
Step 3.3: 在解码过程中,为了有效结合增强的答案感知的上下文信息,在每次的当前时间步预测过程中,利用注意力机制结合当前时间步与增强的答案感知的上下文信息;其中注意力机制为当前解码器隐藏状态计算上下文信息的注意力分布,可以有效结合上下文重要信息,并将其融入到当前解码时间步隐藏层的单词向量中;
Step 3.4:在解码过程中,针对段落信息出现的未登录词以及生成问题重复问题,使用覆盖向量来跟踪关注解码器的历史信息,解决历史生成单词重复的问题,主要是针对注意力机制进行改进。并使用指针复制机制解决上下文出现的未登录词问题。
其中覆盖向量来跟踪关注解码器的历史信息。首先覆盖向量被更新为/> =+/>,注意力分布/>计算如下式(14)-式(15):
(14)
其中,/>,/>和/>是模型可训练参数,/>表示编码器最终段落编码的第j个向量。
(15)
注意力分布是段落单词的概率分布,并且用于产生上下文向量/>。
接着连接解码器状态和上下文向量/>,并将它们馈送到具有Softmax层的一层FFNN中,以获得词汇分布/>。
复制机制主要用于从词汇表中生成一个单词,或者从文章中复制一个单词,可以用来解决未登录词(OOV)问题。具体地,将注意力分布整合到词汇分布中,以生成最终的概率分布来预测目标问题的单词w。具体表达如式(16)-式(18)。
(16)
(17)
其中是一个0-1之间的概率值,用于选择是从词汇表中生成单词还是从源段落中复制单词。
(18)
是通过如式(18)中所描述的合并重复单词的概率,该概率值是基于注意力分布/>来计算的。
为了验证模型的性能,本发明对其进行了机器自动评估的实验,从精度、召回率、可回答性以及语义相似度等角度进行验证。因此,本文采用BLEU、ROUGE-L 和 METEOR三个经典的文本生成评估指标验证本发明模型生成的问题和参考问题。其中,BLEU指标主要利用n-gram的思想。ROUGE-L 主要从召回率的角度评估生成的问题。METEOR可以从语义等多个方面对生成的问题进行评估。
在表1列出了本发明的模型和多个经典问题生成模型(表中的模型均为原始论文中提及的问题生成模型的缩减形式)的机器自动评估的结果:第一,通过实验验证,本发明在SQuAD两种形式划分的数据集SQuAD-split1和SQuAD-split2均验证本发明模型生成的问题在所有机器自动评估指标上都优于传统的问题生成模型,其中加*的表示本发明使用原始论文跑出的实验结果;第二,本发明的模型比目前最先进的网络模型具有更优的实验效果。因此,基于多阶段时序和语义信息增强的模型可以有效减少序列编码过程中序列信息丢失问题以及图编码过程中文本语义结构信息丢失问题,从而可以更好的捕获文本单词之间的语义信息,生成高质量的问题。
表1为本发明的模型和基线的自动评估对比结果
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述方法具体步骤包括如下:
Step1:通过对SQuAD数据集进行预处理,得到模型训练所需的数据;
Step 2:构建基于多阶段时序和语义信息增强模型的编码器,将编码器多阶段编码得到的上下文信息进行融合,经过循环神经网络编码后得到增强的答案感知的上下文信息;
Step 3:构建基于多阶段时序和语义信息增强模型的解码器,在解码过程中引入迭代图神经网络,并结合基于注意力机制的循环神经网络、指针复制机制、覆盖机制生成问题;
所述Step1的具体步骤如下:
Step1.1:提取公开SQuAD数据集中的上下文、答案,对得到的上下文、答案信息进行预处理,得到相应的词向量;
Step 1.2:将预处理后得到的数据作为输入,用于模型的训练阶段、验证阶段、测试阶段,从而训练出更有效的问题生成模型;
所述Step2的具体步骤如下:
Step 2.1:利用循环神经网络分别编码上下文信息和答案信息,其中循环神经网络使用单层双向长短时记忆网络BiLSTM;
Step 2.2:将编码的上下文信息和答案信息利用对齐机制和融合机制,得到答案感知的上下文信息;
Step 2.3:将答案感知的上下文信息经过循环神经网络和图神经网络处理后,进一步得到新的答案感知的上下文信息,循环神经网络使用单层双向长短时记忆网络BiLSTM,图神经网络使用双向门控图神经网络BiGGNN;
Step 2.4:将初始上下文信息和三步编码的上下文信息进行融合,输入到循环神经网络得到增强答案感知的上下文信息,编码器使用双向长短时记忆网络BiLSTM;
所述Step3的具体步骤如下:
Step 3.1:构建基于多阶段时序和语义信息增强模型的解码器,其中解码器是由基于注意力机制的循环神经网络逐一生成问题,最终将每一时间步生成的单词进行结合,得到一个单词序列,即为该循环神经网络模型生成的问题,解码器阶段的循环神经网络使用单层单向长短时记忆网络LSTM;
Step 3.2:在解码过程中,为了有效利用先前时间步生成问题的语义结构信息,引入迭代图神经网络;
Step 3.3:在解码过程中,为了有效结合增强的答案感知的上下文信息,在每次的当前时间步预测过程中,利用注意力机制结合当前时间步与增强的答案感知的上下文信息;
Step 3.4:在解码过程中,针对段落信息出现的未登录词以及生成问题重复问题,利用指针复制网络和覆盖网络缓解以上的问题,进而生成更优的问题。
2.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step1.1中,提取公开SQuAD数据集中的上下文、答案,对得到的上下文、答案信息进行预处理,得到相应的词向量,具体包括:
对于上下文的处理包括:使用斯坦福自然语言处理工具包提取上下文的命名实体识别NER、词性标注POS,并将其转换为相应的词向量,上下文中的命名实体识别NER单词的向量表述为、上下文中的词性标注POS单词的向量表述为/>,然后利用现有预训练的单词向量得到上下文Glove单词向量/>以及上下文BERT单词向量/>,并借助Spacy自然语言处理的工具库构建上下文的图结构,同时得到上下文单词大小写转换的单词向量/>、答案标记向量/>、上下文单词的Glove向量与答案单词的Glove向量做深度对齐的答案感知上下文特征向量/>;
对于答案的处理包括:利用现有预训练的单词向量得到答案Glove单词向量以及答案BERT单词向量/>。
3.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step1.2中,模型编码器训练阶段的输入端的数据分为上下文单词向量以及答案单词向量,上下文单词向量以及答案单词向量由步骤Step1.1中多个特征向量拼接得到,最终模型初始化的上下文单词向量和答案单词向量/>。
4.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step2.2中,将步骤Step2.1编码得到的上下文单词向量和答案单词向量,利用对齐机制和融合机制,得到对齐机制阶段的答案感知的上下文单词向量以及融合机制阶段的上下文单词向量/>。
5.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step2.3中,双向门控图神经网络BiGGNN利用信息双向聚合的方式,以及利用门控循环单元控制图神经网络的信息,来增强上下文的语义结构信息。
6.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step2.4中将上述三步编码的上下文信息进行融合为:对于初始上下文信息即上下文Glove单词向量、经过循环神经网络编码的语义信息/>、对齐机制阶段的答案感知的上下文单词向量/>、融合机制阶段的上下文单词向量/>、再次经过循环神经网络编码的上下文信息/>以及经过BiGGNN编码的上下文信息/>,以上上下文信息进行融合后,作为循环神经网络的输入,经过循环神经网络得到增强的答案感知的上下文信息。
7.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step3.1中,解码器的循环神经网络使用单层单向LSTM,隐藏层的维度为300维,输出维度为当前词汇表的维度。
8.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step3.2中,为了有效利用先前时间步生成问题的语义结构信息,在每一个解码时间步,利用迭代图神经网络提取每个生成问题单词的隐藏层向量表示,每个问题单词的隐藏层向量通过结合角色标签信息重新初始化。
9.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step3.3中,利用注意力机制来为解码器当前隐藏状态计算上下文信息的注意力分布,用于有效将上下文重要信息融入到当前解码时间步的单词向量中。
10.根据权利要求1所述的一种基于多阶段时序和语义信息增强的自动问题生成方法,其特征在于:所述Step3.4中,使用覆盖向量来跟踪关注解码器的历史信息,解决历史生成单词重复的问题,使用指针复制机制解决上下文出现的未登录词问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914371.XA CN116681087B (zh) | 2023-07-25 | 2023-07-25 | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914371.XA CN116681087B (zh) | 2023-07-25 | 2023-07-25 | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681087A CN116681087A (zh) | 2023-09-01 |
CN116681087B true CN116681087B (zh) | 2023-10-10 |
Family
ID=87787594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310914371.XA Active CN116681087B (zh) | 2023-07-25 | 2023-07-25 | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681087B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN111813913A (zh) * | 2019-11-27 | 2020-10-23 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
CN112948558A (zh) * | 2021-03-10 | 2021-06-11 | 中国人民解放军国防科技大学 | 面向开放域对话系统的上下文增强的问题生成方法及装置 |
CN113536804A (zh) * | 2021-06-29 | 2021-10-22 | 北京理工大学 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
CN113704437A (zh) * | 2021-09-03 | 2021-11-26 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
CN114048309A (zh) * | 2021-11-17 | 2022-02-15 | 东南大学 | 一种问题驱动的社交网络答案摘要自动生成方法与装置 |
CN114168749A (zh) * | 2021-12-06 | 2022-03-11 | 北京航空航天大学 | 一种基于知识图谱和疑问词驱动的问题生成系统 |
CN114625849A (zh) * | 2022-02-28 | 2022-06-14 | 中山大学 | 一种上下文感知的渐进式注意的视频问答方法与系统 |
CN115080723A (zh) * | 2022-08-23 | 2022-09-20 | 云南师范大学 | 一种阅读理解问题的自动生成方法 |
CN116050401A (zh) * | 2023-03-31 | 2023-05-02 | 云南师范大学 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232261B2 (en) * | 2018-06-06 | 2022-01-25 | Koninklijke Philips N.V. | Open domain real-time question answering |
US20220300712A1 (en) * | 2021-03-22 | 2022-09-22 | Hewlett Packard Enterprise Development Lp | Artificial intelligence-based question-answer natural language processing traces |
-
2023
- 2023-07-25 CN CN202310914371.XA patent/CN116681087B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN111813913A (zh) * | 2019-11-27 | 2020-10-23 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
CN112948558A (zh) * | 2021-03-10 | 2021-06-11 | 中国人民解放军国防科技大学 | 面向开放域对话系统的上下文增强的问题生成方法及装置 |
CN113536804A (zh) * | 2021-06-29 | 2021-10-22 | 北京理工大学 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
CN113704437A (zh) * | 2021-09-03 | 2021-11-26 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
CN114048309A (zh) * | 2021-11-17 | 2022-02-15 | 东南大学 | 一种问题驱动的社交网络答案摘要自动生成方法与装置 |
CN114168749A (zh) * | 2021-12-06 | 2022-03-11 | 北京航空航天大学 | 一种基于知识图谱和疑问词驱动的问题生成系统 |
CN114625849A (zh) * | 2022-02-28 | 2022-06-14 | 中山大学 | 一种上下文感知的渐进式注意的视频问答方法与系统 |
CN115080723A (zh) * | 2022-08-23 | 2022-09-20 | 云南师范大学 | 一种阅读理解问题的自动生成方法 |
CN116050401A (zh) * | 2023-03-31 | 2023-05-02 | 云南师范大学 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
Non-Patent Citations (5)
Title |
---|
Husam Ali 等."Automatic question generation from sentences".《Automatique des Langues Naturelles》.2010,第213-218页. * |
孙秀琴."面向文本的问题自动生成研究".《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2021,第I138-2288页. * |
谭红叶 ; 孙秀琴 ; 闫真 ; .基于答案及其上下文信息的问题生成模型.中文信息学报.2020,(第05期),第74-81页. * |
郑智文 等."基于注意力网络推理图的细粒度图像分类".《应用科学学报》.2022,第40卷(第1期),第36-46页. * |
鲍一鸣."基于深度学习的领域智能问答系统设计与实现".《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2023,第I138-3846页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116681087A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11972365B2 (en) | Question responding apparatus, question responding method and program | |
CN112613303B (zh) | 一种基于知识蒸馏的跨模态图像美学质量评价方法 | |
CN107632981B (zh) | 一种引入源语组块信息编码的神经机器翻译方法 | |
CN110196913A (zh) | 基于文本生成式的多实体关系联合抽取方法和装置 | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
JP7315065B2 (ja) | 質問生成装置、質問生成方法及びプログラム | |
Zhu et al. | Dual learning for semi-supervised natural language understanding | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
Li et al. | Unifying model explainability and robustness for joint text classification and rationale extraction | |
Chaudhary et al. | Signnet ii: A transformer-based two-way sign language translation model | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
CN116432637A (zh) | 一种基于强化学习的多粒度抽取-生成混合式文摘方法 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN112989845B (zh) | 一种基于路由算法的篇章级神经机器翻译方法及系统 | |
CN114358021A (zh) | 基于深度学习的任务型对话语句回复生成方法及存储介质 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
CN115422329A (zh) | 一种基于知识驱动的多路筛选融合对话生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |