CN114970563B - 融合内容和形式多样性的中文问题生成方法和系统 - Google Patents

融合内容和形式多样性的中文问题生成方法和系统 Download PDF

Info

Publication number
CN114970563B
CN114970563B CN202210894574.2A CN202210894574A CN114970563B CN 114970563 B CN114970563 B CN 114970563B CN 202210894574 A CN202210894574 A CN 202210894574A CN 114970563 B CN114970563 B CN 114970563B
Authority
CN
China
Prior art keywords
answer
text
content
sentences
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210894574.2A
Other languages
English (en)
Other versions
CN114970563A (zh
Inventor
孙宇清
察胜男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210894574.2A priority Critical patent/CN114970563B/zh
Publication of CN114970563A publication Critical patent/CN114970563A/zh
Application granted granted Critical
Publication of CN114970563B publication Critical patent/CN114970563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

融合内容和形式多样性的中文问题生成方法和系统,属于人工智能的技术领域。本发明提出了多样化问题生成框架,可以实现对输入文本材料进行多样化问题三元组生成,依据提出的多样化问题生成框架,可以减少对现有标注数据的依赖,得到生成组合多样且质量较高的问题数据三元组。本发明改用更为多元的句子排名规则,不仅考虑相似度,同时考虑句子间差异度,并且提出多模块对生成数据进行筛选,力求提升生成数据的质量。

Description

融合内容和形式多样性的中文问题生成方法和系统
技术领域
本发明公开一种融合内容和形式多样性的中文问题生成方法和系统,属于人工智能的技术领域。
背景技术
问题生成任务是让机器拥有自动提问的能力,模仿人类提出问题,实现从理解知识到应用知识的智能学习过程。提出问题的能力对于人和机器智能都极为重要,体现了理解知识、记忆知识、发现知识、使用知识的认知发展历程。问题生成任务还有助于提升下游智能任务的性能,例如通过构建高水平问答数据集,可以降低问答系统人工标注样本的成本,有助于解决问答系统样本数量少的问题;再如,将问题生成技术应用于智能对话系统,可以辅助系统主动发起问话,引导对话方向,实现更加自然的人机交互;也可以应用在教育教学领域,结合具体学科和专业内容,辅助编制试卷和题库。
现有问题生成相关研究主要分为三个方面,一是基于模版的问题生成。例如公开号为CN111159686A的发明专利提出一种基于自然语言处理的人机验证方法和系统,利用现有的语料库分析单词与单词之间的关系,抽取原文内容作为答案,通过句子结构划分提问内容,结合模板生成问题,用于生成人机验证的问答数据样本。再如公开号为CN113705208A的发明专利公布了一种基于领域术语和关键句的中文问题生成方法及装置,包括对输入文档中的句子进行依存句法分析生成候选领域术语,选取指定数量的领域术语;同时采用TF-IDF表示输入文档中的句子,基于T-TextRank算法计算句子的重要性排序,抽取指定数量的关键句;最后基于抽取的领域术语和关键句生成选择题题干、填空题题干和问答题题干,通过模板替换生成问答题。这类基于模板的问题生成方法需要人工设计模版,生成结果流畅性较差。而本发明使用深度学习框架自动生成问题,在提问内容和问题形式等多方面提升了问题多样性,并通过判别器提升问题质量和流畅度,而且不需要人工标注成本。
另一类是基于神经网络的问题生成方法。公开号为CN109614471A的发明专利公布了一种基于生成式对抗网络的开放式问题自动生成方法,构建了开放式问题自动生成数据集,通过训练二分类鉴别器评估生成问题与背景知识的相关度,问题生成器根据收到鉴别器的反馈来调整提问内容,进而改善模型性能。这种方法不能全面分析背景知识和有效选择提问内容,而本发明则是通过多策略组合选定提问内容和生成问题,并通过智能问答模型作为过滤器评估并优化生成问题、背景知识、提问内容三者的逻辑关系,因此,其本发明采用的智能问答模型进行问题质量评估,其评估能力明显优于上述二分类鉴别器,提升了问题质量。
第三类是类比生成方法。公开号为CN113627530A的发明专利公布了一种相似问题文本生成方法,包括:对问题文本集执行文本遮蔽,并预测遮蔽后的文本集对应的预测文本集;选择预测准确度大于或等于预设阈值的预测文本集,并与所述问题文本集汇总,得到扩充样本集,训练问题生成模型,以获得相似问题。这种类比生成方法只能生成相似问题,而本发明不仅采用过滤器提升问题生成任务的性能,而且扩展了生成问题的内容和形式多样性。
综上分析,现有中文问题生成相关技术在问题内容多样性、形式多样性和问题质量等多方面均有不足,需要进一步改进。
发明内容
针对现有技术存在的问题,本发明公开了一种融合内容和形式多样性的中文问题生成方法。
本发明还公开一种实现上述方法的系统。
本发明还公开一种加载有上述方法的程序产品。
本发明还公开一种加载有上述方法的计算机可读存储介质。
本发明公开一种利用上述方法的应用方法。
发明概述:
本发明公开一种融合内容和形式多样性的中文问题生成方法,旨在:对于输入任意文本生成多样且多数量的问答三元组数据。问题生成任务根据输入信息的不同可以分为答案感知的问题生成和答案不可知的问题生成。答案不可知的问题生成也就是本发明的背景,其输入仅为上下文,与答案感知的问题生成区别在于增加对可提问候选答案的选择,答案选择主要是对给定文本选择具有提问价值的关键词或是关键句子作为候选答案。答案可知的问题生成研究分为两类,一类是规则转换的问题生成,其生成结果的准确度高,但人工生成成本也较高。另一类是基于神经网络的问题生成,极大降低了人工成本,也可以获得较好的自动生成结果。本发明提出了多样化问题生成框架,可以实现对输入文本材料进行多样化问题三元组生成,依据提出的多样化问题生成框架,可以减少对现有标注数据的依赖,得到生成组合多样且质量较高的问题数据三元组。本发明改用更为多元的句子排名规则,不仅考虑相似度,同时考虑句子间差异度,并且提出多模块对生成数据进行筛选,力求提升生成数据的质量。
本发明详细的技术方案如下:
一种融合内容和形式多样性的中文问题生成方法,其特征在于,包括:
步骤(1)利用内容选择器对原始文本进行选择得到内容文本,所述内容选择器提出了两种内容选择策略:
一种是基于规则的代表性和基于句子间文本差异性的内容抽取方法,保留了文本的原始描述可以进行事实性提问;另一种是基于摘要的内容生成方法,以生成复杂的推理问题;
步骤(2)在步骤1)得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;
步骤(3)将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合,得到最大可能的生成方法组合,通过问题生成模型得到多样的问题生成数据三元组;
步骤(4)使用智能问答模型作为生成样本过滤器,根据生成数据样本中答案类型的不同设定不同的答案比对方法:
当生成数据样本中答案是实体时,则判断预测答案和生成答案是否相同,即预测答案的起始位置与终止位置与样本答案的相应位置是否相同:若预测答案与生成答案不相同,则认为该数据样本是低质量样本,进行丢弃;
当生成数据样本中的答案是句子时,则判断预测答案文本是否包含在生成答案之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置:若不包含在内,则认为该数据样本是低质量样本;按此过滤掉步骤(3)中的低质量样本,保留其余样本,以提高生成样本的整体质量。
本发明所提出的多样化问题生成框架,包括内容选择器、答案选择、问题生成和生成样本过滤器,即步骤(1)、步骤(2)、步骤(3)和步骤(4),使生成的问题从提问内容、提问角度、上下文选择三个方面增加多样性。
根据本发明优选的,在步骤(1)中,所述基于规则的代表性和基于句子间文本差异性的内容抽取方法,包括:
本技术特征实现了筛选出的内容同时涵括代表性与差异性的双重属性,基于规则的内容选择方法相比于使用语言模型进行答案范围的划分,可以规避语言模型对于文本长距离记忆的不足;
步骤(1-1)基于规则的代表性的内容抽取方法包括:
所述原始文本由若干句子组成,但每条句子与文本整体语义的关联度不同,所以,将原始文本分割成若干单句,采用句子与文本的语义相似度作为句子的代表性得分,score r (s i ,D)定义为文档D与文档中第i条句子s i 的代表性评分函数:
Figure 301060DEST_PATH_IMAGE001
在公式(I)、(II)中,首先生成s i ,文档D的向量表示;W(s i ,D)表示两个向量间的余弦相似度;按照评分由大到小取代表性评分的前k个句子,作为最终的代表性句子集合M k
步骤(1-2)基于句子间文本差异性的内容抽取方法包括:
本技术特征中对句子进行差异性度量是模拟不同人对同一文本的关注点存在差异的现象,差异性评价有助于选择多样性句子,对答案选择和问题生成结果的多样化产生正向影响;
将原始文本分割成若干单句,某条句子的差异性得分为:该条句子和文本句子集合中所有句子的语义差异的最大值与最小值的差值;score d (s i ,D)定义为文档中第i条句子s i 在文档D中的差异性评分函数:
Figure 907622DEST_PATH_IMAGE002
(III)
Figure 697724DEST_PATH_IMAGE003
(IV)
在公式(III)和(IV)中,s j 为文档D中第j条句子,且i≠j,首先生成s i s j 的向量表示;W(s i s j )表示两个句向量间的余弦相似度;按照评分由大到小取差异性评分前m个句子,作为最终的差异性句子集合F m ;num为句子集合中句子的总数;
对于衡量句子相似度使用的句向量生成,应当尽可能大的表现出文本间的区别性表示;在本发明中使用SimCSE网络生成公式(I)和公式(III)中s i s j D的句向量表示与文本向量表示;
步骤(1-3)对代表性和差异性内容文本标记:
将所述代表性句子集合M k 和差异性句子集合F m 取并集做句子融合,形成融合句子集合;
同时对所述融合句子集合做规则设定排序,规则设定以代表性句子集合中的句子为主,差异性句子集合中的句子为辅:
若某句子同时存在于代表性句子集合M k 和差异性句子集合F m 中,则该句子获得优先排序;剩余句子,则按照存在于代表性句子集合M k 中进行次优先排序;仅存在于差异性句子集合F m 中的句子进行最后排序;
最终输出内容记作R u
R u= M k F m (V)
本技术特征是基于文本内容的代表性与差异性量化规则,分别采用文本关联度评分评价文本中句子的代表性,采用句子间的相似度差值评价句子的差异性,融合两种评价方法对文本中的句子进行筛选,抽取出小于原始文本长度的内容文本,保持文本语义的情况下进行文本长度缩减。采取抽取句子的形式得到的内容文本,保留了文本的原始描述可以进行事实性提问;
步骤(1-4)基于摘要的内容生成方法,采用生成式摘要的方式进行生成内容文本:
使用BiLSTM结构作为摘要模型编码器,双向结构使模型不仅拥有从前向后获取前文信息的能力,也能同时拥有从后向前获取下文信息的能力,使用双向网络结构可以更好的让模型结合上下文双向信息进行记忆和理解文本内容,将原始文档文本以字作为基础单位进行字嵌入输入所述编码器进行编码,得到文档的向量矩阵,将输入文本记为X n ,则X n 中的第i个字符记作x i
Figure 389736DEST_PATH_IMAGE004
(VI)
Figure 533273DEST_PATH_IMAGE005
(VII)
Figure 994341DEST_PATH_IMAGE006
(VIII)
在公式(VI)-(VIII)中,
Figure 96289DEST_PATH_IMAGE007
代表当前t时间步从前向后编码的隐藏状态;
Figure 541177DEST_PATH_IMAGE008
代表当前t时间步从后向前编码的隐藏状态;h t
Figure 347459DEST_PATH_IMAGE007
Figure 928613DEST_PATH_IMAGE009
的拼接结果:当前t时间步编码器的隐藏状态,摘要模型编码器的双向编码结构将前向编码的隐藏状态
Figure 670304DEST_PATH_IMAGE007
与后向编码的隐藏状态
Figure 71329DEST_PATH_IMAGE008
拼接,拼接结果作为当前t时间步摘要模型编码器的隐藏状态,记作h t
所述编码器的输出向量为:h=[h 1 ,h 2 ...h n ](IX)
在公式(IX)中,h为所有时间步隐藏状态进行拼接得到摘要模型编码器的输出;
解码器部分采用单层LSTM网络结果:
解码器可以有效学习目标摘要的生成构造,在训练阶段,根据目标摘要进行表述学习,生成阶段使用解码器接收由摘要模型编码器生成的文本表征向量作为s 0 ,同时接收解码器在前一个时间步的预测结果作为输入进行下一个字符的预测;
Figure 618985DEST_PATH_IMAGE010
(X)
在公式(X)中,s t 表示在当前t时间步上解码器的隐藏状态;y t-1 表示在t-1时刻预测生成的字,同时作为当前t时间步的输入来更新当前t时间步的隐藏状态;
摘要模型编码器编码的文本信息h与当前时间步的解码隐藏状态应用注意力机制:
在文本摘要时需要对文档进行有针对的获取相关信息,摘要解码器部分应用注意力机制对当前接收的文档文本分布不同的注意力关注度,模拟实现人类对长文本的的注意力分布状态,使其能够对文档中的主要信息进行记忆与总结;
将摘要模型编码器输出向量h进行维度转换后,与解码器的当前时间步隐藏状态相乘,得到注意力分布e t
Figure 54646DEST_PATH_IMAGE011
(XI)
Figure 232818DEST_PATH_IMAGE012
(XII)
Figure 652298DEST_PATH_IMAGE013
(XIII)
在公式(XI)-(XIII)中,W e 为可训练权重向量;对e t 进行softmax归一化处理,得到注意力向量α t ;将注意力向量α t 与摘要模型编码器的文本信息h T 进行加权求和,得到上下文语境向量c t
所述文本摘要生成器首先在标注摘要数据上进行预训练,使用预训练好的模型,对输入文本直接获得摘要文本;所述文本摘要生成器的实现过程即为上述公式(VI)-(XIII)和相应描述;所述训练结束的条件是达到使用者在模型训练时设定的迭代次数,该部分所述为经典模型算法,只是作为后续问题生成的一步获得一种候选上下文。
根据本发明优选的,所述步骤(2)对内容文本分别进行句子抽取和命名实体的抽取的方法包括:
一种是粗粒度的答案提取,即对得到的内容文本进行分句处理,将每一条句子作为候选答案,以句子为单位的答案文本涵盖的文本范围较广,包含的信息较多,内容多元带来一定的不确定性;
另一种答案抽取方式是细粒度抽取,即对得到的内容文本进行命名实体识别,提取文本中所包含的实体名词,对提取出来的实体文段进行问句生成,实体答案抽取使用中文开源词法分析工具LAC(Lexical Analysis of Chinese)进行抽取。
根据本发明优选的,所述步骤(3)中通过问题生成模型得到多样的问题生成数据三元组的方法包括:
使用基于Transformer的序列模型进行实现,
Figure 800382DEST_PATH_IMAGE014
(XIV)
在公式(XIV)中,U表示为问题生成模型编码器得到的隐向量序列,问题生成模型的编码器选择预训练的掩码语言模型(Masked Language Models),所述编码器中使用的多头注意力机制,能够从不同角度提取信息,提高信息提取的全面性;PTLM用来代表预训练语言模型(Pre-Training Language Models),预训练语言模型也有很多选择性,像是BERT,RoBERTa等,可以根据语言特性以及所需模型大小进行选择;w C w A 分别代表输入上下文字符与答案字符,其中在上下文文本与答案文本之间添加<SEP>作为分隔符,最终的输入形式为“<CLS>上下文<SEP>答案<SEP>”;
问题生成解码器,为了更高的解决长序列的问题,选择Transformer网络模型改进Transformer-XL,其中XL(Extra Long)表示可以更好处理超长序列文本。Transformer使用时需要对输入序列设置一个固定的长度,如果文本序列长度短于固定长度,通过填充的方式来解决;如果序列长度超过固定长度,处理起来比较麻烦,一般的做法是将文本划分为多个片段(segments),训练的时候对每个片段单独处理,片段之间没有联系,那么就会造成文本间的最长依赖关系取决于片段的长度,而且根据固定的长度来划分文本,使得分割出来的片段在语义上是不完整的。为了充分利用上下文关系,在训练时每一次的滑动距离都是一个窗口,这导致计算效率非常低。为了解决上面提到的问题,Transformer-XL提出了一个改进,称为片段级递归,英文Segment-Level Recurrence:
Figure 90549DEST_PATH_IMAGE015
(XV)
Figure 970780DEST_PATH_IMAGE016
(XVI)
Figure 80819DEST_PATH_IMAGE017
(XVII)
Figure 970278DEST_PATH_IMAGE018
(XVIII)
在公式(XV)-(XVIII)中,
Figure 583793DEST_PATH_IMAGE019
表示对两个连续片段第n-1层隐藏层状态的拼接;SG是Stop-Gradient的缩写,是指停止计算梯度;Γ表示当前所处的片段是第几段;n表示为网络层数;○代表两个向量的拼接;
Figure 634925DEST_PATH_IMAGE020
表示第Γ-1个片段第n-1层隐藏层的输出;
Figure 825735DEST_PATH_IMAGE021
表示第Γ个片段第n-1层隐藏层的输出;
Figure 253305DEST_PATH_IMAGE022
Figure 721327DEST_PATH_IMAGE023
Figure 943361DEST_PATH_IMAGE024
分别代表查询query向量、键key向量和值value向量;
Figure 293571DEST_PATH_IMAGE025
Figure 587149DEST_PATH_IMAGE026
Figure 971994DEST_PATH_IMAGE027
为可训练权重;
在Transformer中使用相同的绝对位置编码的方式记录序列的位置向量,在Transformer-XL中采用相对位置编码,在计算当前位置隐向量的时候,考虑依赖关系信息的相对位置关系;体现在算注意力得分时,只考虑查询(query)向量与键(key)向量的相对位置关系,并且将这种相对位置关系,加入到每一层的注意力计算中;
所述Transformer-XL的完整计算过程:
Figure 568191DEST_PATH_IMAGE028
(XIX)
Figure 671277DEST_PATH_IMAGE029
(XX)
在公式(XIX)-(XX)中,
Figure 175070DEST_PATH_IMAGE030
代表第Γ个片段第n层隐藏层中i,j的相对位置注意力机制的计算;
Figure 476739DEST_PATH_IMAGE031
代表第Γ个片段第n层隐藏层i位置的查询向量的转置;
Figure 306154DEST_PATH_IMAGE032
代表第Γ个片段第n层隐藏层j位置的键向量;u T ,v T 是可训练参数;R i-j i,j的相对位置矩阵;i,j代表序列位置信息ID;
Figure 568640DEST_PATH_IMAGE033
为可训练权重;
其余解码过程同Transformer网络模型,在此处使用Transformer-Layer表示;
Figure 141703DEST_PATH_IMAGE034
表示第Γ+1个片段第n层隐藏层的输出;
Figure 563457DEST_PATH_IMAGE035
代表第Γ+1个片段第n层隐藏层的查询向量;
Figure 298195DEST_PATH_IMAGE036
代表第Γ+1个片段第n层隐藏层的键向量;
Figure 110293DEST_PATH_IMAGE037
代表第Γ+1个片段第n层隐藏层的值向量;
为了得到上下文、问题、答案组成的三元组,使用波束搜索从问题生成解码器中进行采样;问题生成模型使用负对数似然来计算损失函数:
Figure 159152DEST_PATH_IMAGE038
(XXI)
在公式(XXI)中,N表示生成问题序列的长度;p Q 表示为当前时刻生成的问题序列的概率;y t 表示当前t时刻的预测生成词;y <t 表示当前预测生成词之前的预测序列;θ Q 表示问题生成过程中所需参数;
所述问题生成模型在标注问答数据上进行预训练,训练好模型参数,以对输入上下文和答案进行生成对应问题,此处训练结束的条件是达到使用者在模型训练时设定的迭代次数,在专利发明中并未看到发明者有提供具体的模型超参数,所以在本发明中也未给出;不同技术员可以根据训练样本和硬件条件等进行不同的超参数设定。
根据本发明优选的,所述步骤(4)使用智能问答模型作为生成样本过滤器的具体步骤包括:
当生成数据样本中答案是实体时,则判断预测答案A'和生成答案A是否能够完全匹配;
进一步,
若预测答案A'与生成答案A完全匹配,则认为该条生成数据合格,进行保留,即预测答案的起始位置与终止位置与样本答案的起始位置与终止位置相同;
或,若预测答案A'与生成答案A不完全匹配,则认为该条生成数据不合格,进行丢弃;
当生成数据样本中的答案是句子时,则判断预测答案文本A'是否包含在生成答案A之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置;
进一步,
若包含在内,则认为该条生成数据合格,进行保留;
否则认为该生成条数据不合格,进行丢弃;
所述生成样本过滤器在标注问答数据上进行预训练,训练好模型参数,可以对输入上下文和问题进行答案抽取,训练结束的条件是达到使用者在模型训练时设定的迭代次数,在专利发明中并未看到发明者有提供具体的模型超参数,所以在本发明中也未给出,不同技术员可以根据训练样本和硬件条件等可以进行不同的超参数设定。
根据本发明优选的,针对生成数据样本中的答案是句子的数据样本:
当过滤器将当前生成数据样本判定为合理时,那么将预测答案文本作为生成数据样本中的答案进行替换,进一步缩小答案文本的范围,使得生成样本中的答案更准确,有利于下游任务获得更好的训练效果。
一种实现上述问题生成方法的系统,其特征在于,包括:
按照所述步骤(1)实现的内容选择器、按照所述步骤(2)实现的答案选择器、按照所述步骤(3)实现的问题样本生成器和按照所述步骤(4)实现的样本过滤器;
所述内容选择器包含了两种内容选择策略:
一种是融合代表性和差异性的内容抽取方法,分别采用文本关联度评分评价文本中句子的代表性,采用句子间的相似度差值评价句子的差异性,融合两种评价方法将文本中的句子筛选得到最终的内容文本;另一种基于摘要的内容生成策略,采用生成式文本摘要的方法,既保留了长文本中的关键信息,同时对文本进行理解和语言重组,捕获更多相关联信息,可以生成复杂的推理问题,提高生成问题的回答难度,让生成的问题更加有意义;
所述答案选择器用于在内容选择器得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;
所述多样问题生成将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合的笛卡尔积得到最大可能的生成方法组合;考虑到多种生成组合中包含矛盾,去掉不合适的生成方式组合;
所述样本过滤器,通过过滤器判定生成样本是否可以根据生成数据样本中的问题与上下文反向推理出答案,根据推理出的答案与生成数据中的答案对比,过滤掉低质量样本保留高质量样本,提高生成样本的整体质量。
一种加载有上述方法的程序产品,包括:所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令用于执行上述的方法。
一种加载有上述方法的计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
本发明公开一种利用上述方法的应用方法,其特征在于,用于实现输入是任意文本,对于同一输入文本可以输出多种问题语句;多种问题语句不仅体现在生成问题的数量,而且对于同一文本可以获得不同提问角度和表达形式的问题语句。
本发明的技术优势:
本发明包括:第一部分是内容选择器,提出了两种内容选择策略,增加提问形式的多样性;第二部分则是答案选择,在内容文本上进行答案抽取,将抽取后的文段作为问题生成的候选答案,增加了答案类型丰富了提问角度;第三部分则采用问题生成模型,实现了问题生成组合的最大可能性;最后使用智能问答模型作为生成样本过滤器,提高生成样本的合理性。
1、相较于传统方法,本发明中的答案选择方法,使得问题生成过程不再局限于现有标注数据答案,可以获得多样化的候选答案。
2、相较于传统方法,本发明的多样化问题生成框架,可以对任意的输入文本生成多样且多数量的问答三元组数据。
附图说明
图1是本发明系统结构的示意图。
具体实施方式
下面结合实施例对本发明做详细的说明,但不限于此。
实施例1、
一种融合内容和形式多样性的中文问题生成方法,包括:
步骤(1)利用内容选择器对原始文本进行选择得到内容文本,所述内容选择器提出了两种内容选择策略:
一种是基于规则的代表性和基于句子间文本差异性的内容抽取方法,保留了文本的原始描述可以进行事实性提问;另一种是基于摘要的内容生成方法,以生成复杂的推理问题;
步骤(2)在步骤(1)得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;
步骤(3)将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合,得到最大可能的生成方法组合,通过问题生成模型得到多样的问题生成数据三元组;
步骤(4)使用智能问答模型作为生成样本过滤器,根据生成数据样本中答案类型的不同设定不同的答案比对方法:
当生成数据样本中答案是实体时,则判断预测答案和生成答案是否相同,即预测答案的起始位置与终止位置与样本答案的相应位置是否相同:若预测答案与生成答案不相同,则认为该数据样本是低质量样本,进行丢弃;
当生成数据样本中的答案是句子时,则判断预测答案文本是否包含在生成答案之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置:若不包含在内,则认为该数据样本是低质量样本;按此过滤掉步骤(3)中的低质量样本,保留其余样本,以提高生成样本的整体质量。
所提出的多样化问题生成框架,包括内容选择器、答案选择、问题生成和生成样本过滤器,即步骤(1)、步骤(2)、步骤(3)和步骤(4),使生成的问题从提问内容、提问角度、上下文选择三个方面增加多样性。
在步骤(1)中,所述基于规则的代表性和基于句子间文本差异性的内容抽取方法,包括:
步骤(1-1)基于规则的代表性的内容抽取方法包括:
所述原始文本由若干句子组成,但每条句子与文本整体语义的关联度不同,所以,将原始文本分割成若干单句,采用句子与文本的语义相似度作为句子的代表性得分,score r (s i ,D)定义为文档D与文档中第i条句子s i 的代表性评分函数:
Figure 373096DEST_PATH_IMAGE039
在公式(I)、(II)中,首先生成s i ,文档D的向量表示;W(s i ,D)表示两个向量间的余弦相似度;按照评分由大到小取代表性评分的前k个句子,作为最终的代表性句子集合M k
步骤(1-2)基于句子间文本差异性的内容抽取方法包括:
将原始文本分割成若干单句,某条句子的差异性得分为:该条句子和文本句子集合中所有句子的语义差异的最大值与最小值的差值;score d (s i ,D)定义为文档中第i条句子s i 在文档D中的差异性评分函数:
Figure 278735DEST_PATH_IMAGE002
(III)
Figure 640446DEST_PATH_IMAGE040
(IV)
在公式(III)和(IV)中,s j 为文档D中第j条句子,且i≠j,首先生成s i s j 的向量表示;W(s i s j )表示两个句向量间的余弦相似度;按照评分由大到小取差异性评分前m个句子,作为最终的差异性句子集合F m ;num为句子集合中句子的总数;
对于衡量句子相似度使用的句向量生成,应当尽可能大的表现出文本间的区别性表示;在本发明中使用SimCSE网络生成公式(I)和公式(III)中s i s j D的句向量表示与文本向量表示;
步骤(1-3)对代表性和差异性内容文本标记:
将所述代表性句子集合M k 和差异性句子集合F m 取并集做句子融合,形成融合句子集合;
同时对所述融合句子集合做规则设定排序,规则设定以代表性句子集合中的句子为主,差异性句子集合中的句子为辅:
若某句子同时存在于代表性句子集合M k 和差异性句子集合F m 中,则该句子获得优先排序;剩余句子,则按照存在于代表性句子集合M k 中进行次优先排序;仅存在于差异性句子集合F m 中的句子进行最后排序;
最终输出内容记作R u
R u= M k F m (V)
步骤(1-4)基于摘要的内容生成方法,采用生成式摘要的方式进行生成内容文本:
使用BiLSTM结构作为摘要模型编码器,双向结构使模型不仅拥有从前向后获取前文信息的能力,也能同时拥有从后向前获取下文信息的能力,使用双向网络结构可以更好的让模型结合上下文双向信息进行记忆和理解文本内容,将原始文档文本以字作为基础单位进行字嵌入输入所述编码器进行编码,得到文档的向量矩阵,将输入文本记为X n ,则X n 中的第i个字符记作x i
Figure 555312DEST_PATH_IMAGE041
(VI)
Figure 623763DEST_PATH_IMAGE042
(VII)
Figure 169145DEST_PATH_IMAGE043
(VIII)
在公式(VI)-(VIII)中,
Figure 752573DEST_PATH_IMAGE007
代表当前t时间步从前向后编码的隐藏状态;
Figure 674392DEST_PATH_IMAGE008
代表当前t时间步从后向前编码的隐藏状态;h t
Figure 862928DEST_PATH_IMAGE007
Figure 438266DEST_PATH_IMAGE044
的拼接结果:当前t时间步编码器的隐藏状态,摘要模型编码器的双向编码结构将前向编码的隐藏状态
Figure 649936DEST_PATH_IMAGE007
与后向编码的隐藏状态
Figure 906605DEST_PATH_IMAGE008
拼接,拼接结果作为当前t时间步摘要模型编码器的隐藏状态,记作h t
所述编码器的输出向量为:h=[h 1 ,h 2 ...h n ](IX)
在公式(IX)中,h为所有时间步隐藏状态进行拼接得到摘要模型编码器的输出;
解码器部分采用单层LSTM网络结果:
解码器可以有效学习目标摘要的生成构造,在训练阶段,根据目标摘要进行表述学习,生成阶段使用解码器接收由摘要模型编码器生成的文本表征向量作为s 0 ,同时接收解码器在前一个时间步的预测结果作为输入进行下一个字符的预测;
Figure 11964DEST_PATH_IMAGE010
(X)
在公式(X)中,s t 表示在当前t时间步上解码器的隐藏状态;y t-1 表示在t-1时刻预测生成的字,同时作为当前t时间步的输入来更新当前t时间步的隐藏状态;
摘要模型编码器编码的文本信息h与当前时间步的解码隐藏状态应用注意力机制:
将摘要模型编码器输出向量h进行维度转换后,与解码器的当前时间步隐藏状态相乘,得到注意力分布e t
Figure 695886DEST_PATH_IMAGE011
(XI)
Figure 394852DEST_PATH_IMAGE012
(XII)
Figure 189632DEST_PATH_IMAGE013
(XIII)
在公式(XI)-(XIII)中,W e 为可训练权重向量;对e t 进行softmax归一化处理,得到注意力向量α t ;将注意力向量α t 与摘要模型编码器的文本信息h T 进行加权求和,得到上下文语境向量c t
所述文本摘要生成器首先在标注摘要数据上进行预训练,使用预训练好的模型,对输入文本直接获得摘要文本;所述文本摘要生成器的实现过程即为上述公式(VI)-(XIII)和相应描述;所述训练结束的条件是达到使用者在模型训练时设定的迭代次数,该部分所述为经典模型算法,只是作为后续问题生成的一步获得一种候选上下文。
所述步骤(2)对内容文本分别进行句子抽取和命名实体的抽取的方法包括:
一种是粗粒度的答案提取,即对得到的内容文本进行分句处理,将每一条句子作为候选答案,以句子为单位的答案文本涵盖的文本范围较广,包含的信息较多,内容多元带来一定的不确定性;
另一种答案抽取方式是细粒度抽取,即对得到的内容文本进行命名实体识别,提取文本中所包含的实体名词,对提取出来的实体文段进行问句生成,实体答案抽取使用中文开源词法分析工具LAC(Lexical Analysis of Chinese)进行抽取。
所述步骤(3)中通过问题生成模型得到多样的问题生成数据三元组的方法包括:
使用基于Transformer的序列模型进行实现,
Figure 572334DEST_PATH_IMAGE014
(XIV)
在公式(XIV)中,U表示为问题生成模型编码器得到的隐向量序列,问题生成模型的编码器选择预训练的掩码语言模型(Masked Language Models),所述编码器中使用的多头注意力机制,能够从不同角度提取信息,提高信息提取的全面性;PTLM用来代表预训练语言模型(Pre-Training Language Models),预训练语言模型也有很多选择性,像是BERT,RoBERTa等,可以根据语言特性以及所需模型大小进行选择;w C w A 分别代表输入上下文字符与答案字符,其中在上下文文本与答案文本之间添加<SEP>作为分隔符,最终的输入形式为“<CLS>上下文<SEP>答案<SEP>”;
问题生成解码器,为了更高的解决长序列的问题,选择Transformer网络模型改进Transformer-XL,其中XL(Extra Long)表示可以更好处理超长序列文本。Transformer使用时需要对输入序列设置一个固定的长度,如果文本序列长度短于固定长度,通过填充的方式来解决;如果序列长度超过固定长度,处理起来比较麻烦,一般的做法是将文本划分为多个片段(segments),训练的时候对每个片段单独处理,片段之间没有联系,那么就会造成文本间的最长依赖关系取决于片段的长度,而且根据固定的长度来划分文本,使得分割出来的片段在语义上是不完整的。为了充分利用上下文关系,在训练时每一次的滑动距离都是一个窗口,这导致计算效率非常低。为了解决上面提到的问题,Transformer-XL提出了一个改进,称为片段级递归,英文Segment-Level Recurrence:
Figure 427158DEST_PATH_IMAGE015
(XV)
Figure 472474DEST_PATH_IMAGE016
(XVI)
Figure 70946DEST_PATH_IMAGE017
(XVII)
Figure 2826DEST_PATH_IMAGE018
(XVIII)
在公式(XV)-(XVIII)中,
Figure 28551DEST_PATH_IMAGE019
表示对两个连续片段第n-1层隐藏层状态的拼接;SG是Stop-Gradient的缩写,是指停止计算梯度;Γ表示当前所处的片段是第几段;n表示为网络层数;○代表两个向量的拼接;
Figure 561163DEST_PATH_IMAGE020
表示第Γ-1个片段第n-1层隐藏层的输出;
Figure 166588DEST_PATH_IMAGE021
表示第Γ个片段第n-1层隐藏层的输出;
Figure 366625DEST_PATH_IMAGE022
Figure 563252DEST_PATH_IMAGE023
Figure 458526DEST_PATH_IMAGE024
分别代表查询query向量、键key向量和值value向量;
Figure 664380DEST_PATH_IMAGE045
Figure 453344DEST_PATH_IMAGE026
Figure 820872DEST_PATH_IMAGE027
为可训练权重;
在Transformer中使用相同的绝对位置编码的方式记录序列的位置向量,在Transformer-XL中采用相对位置编码,在计算当前位置隐向量的时候,考虑依赖关系信息的相对位置关系;体现在算注意力得分时,只考虑查询(query)向量与键(key)向量的相对位置关系,并且将这种相对位置关系,加入到每一层的注意力计算中;
所述Transformer-XL的完整计算过程:
Figure 469022DEST_PATH_IMAGE028
(XIX)
Figure 275304DEST_PATH_IMAGE029
(XX)
在公式(XIX)-(XX)中,
Figure 59720DEST_PATH_IMAGE030
代表第Γ个片段第n层隐藏层中i,j的相对位置注意力机制的计算;
Figure 863728DEST_PATH_IMAGE031
代表第Γ个片段第n层隐藏层i位置的查询向量的转置;
Figure 858229DEST_PATH_IMAGE032
代表第Γ个片段第n层隐藏层j位置的键向量;u T ,v T 是可训练参数;R i-j i,j的相对位置矩阵;i,j代表序列位置信息ID;
Figure 343568DEST_PATH_IMAGE033
为可训练权重;
其余解码过程同Transformer网络模型,在此处使用Transformer-Layer表示;
Figure 779229DEST_PATH_IMAGE034
表示第Γ+1个片段第n层隐藏层的输出;
Figure 816455DEST_PATH_IMAGE035
代表第Γ+1个片段第n层隐藏层的查询向量;
Figure 173618DEST_PATH_IMAGE036
代表第Γ+1个片段第n层隐藏层的键向量;
Figure 259386DEST_PATH_IMAGE046
代表第Γ+1个片段第n层隐藏层的值向量;
为了得到上下文、问题、答案组成的三元组,如图1中所述的<C,A,Q>,其中C代表上下文;A代表问题;Q代表答案,使用波束搜索从问题生成解码器中进行采样;问题生成模型使用负对数似然来计算损失函数:
Figure 877449DEST_PATH_IMAGE047
(XXI)
在公式(XXI)中,N表示生成问题序列的长度;p Q 表示为当前时刻生成的问题序列的概率;y t 表示当前t时刻的预测生成词;y <t 表示当前预测生成词之前的预测序列;θ Q 表示问题生成过程中所需参数;
所述问题生成模型在标注问答数据上进行预训练,训练好模型参数,以对输入上下文和答案进行生成对应问题,此处训练结束的条件是达到使用者在模型训练时设定的迭代次数,在专利发明中并未看到发明者有提供具体的模型超参数,所以在本发明中也未给出;不同技术员可以根据训练样本和硬件条件等进行不同的超参数设定。
实施例2、
如实施例1所述一种融合内容和形式多样性的中文问题生成方法,所述步骤(4)使用智能问答模型作为生成样本过滤器的具体步骤包括:
当生成数据样本中答案是实体时,则判断预测答案A'和生成答案A是否能够完全匹配;
进一步,
若预测答案A'与生成答案A完全匹配,则认为该条生成数据合格,进行保留,即预测答案的起始位置与终止位置与样本答案的起始位置与终止位置相同;
或,若预测答案A'与生成答案A不完全匹配,则认为该条生成数据不合格,进行丢弃;
当生成数据样本中的答案是句子时,则判断预测答案文本A'是否包含在生成答案A之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置;
进一步,
若包含在内,则认为该条生成数据合格,进行保留;
否则认为该生成条数据不合格,进行丢弃;
所述生成样本过滤器在标注问答数据上进行预训练,训练好模型参数,可以对输入上下文和问题进行答案抽取,训练结束的条件是达到使用者在模型训练时设定的迭代次数,在专利发明中并未看到发明者有提供具体的模型超参数,所以在本发明中也未给出,不同技术员可以根据训练样本和硬件条件等可以进行不同的超参数设定。
实施例3、
如实施例1所述一种融合内容和形式多样性的中文问题生成方法,针对生成数据样本中的答案是句子的数据样本:
当过滤器将当前生成数据样本判定为合理时,那么将预测答案文本作为生成数据样本中的答案进行替换,进一步缩小答案文本的范围,使得生成样本中的答案更准确,有利于下游任务获得更好的训练效果。
实施例4、
一种实现如实施例1-3所述融合内容和形式多样性的中文问题生成方法的系统,其特征在于,包括:
按照所述步骤(1)实现的内容选择器、按照所述步骤(2)实现的答案选择器、按照所述步骤(3)实现的问题样本生成器和按照所述步骤(4)实现的样本过滤器;
所述内容选择器包含了两种内容选择策略:
一种是融合代表性和差异性的内容抽取方法,分别采用文本关联度评分评价文本中句子的代表性,采用句子间的相似度差值评价句子的差异性,融合两种评价方法将文本中的句子筛选得到最终的内容文本;另一种基于摘要的内容生成策略,采用生成式文本摘要的方法,既保留了长文本中的关键信息,同时对文本进行理解和语言重组,捕获更多相关联信息,可以生成复杂的推理问题,提高生成问题的回答难度,让生成的问题更加有意义;
所述答案选择器用于在内容选择器得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;
所述多样问题生成将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合的笛卡尔积得到最大可能的生成方法组合;考虑到多种生成组合中包含矛盾,去掉不合适的生成方式组合;
所述样本过滤器,通过过滤器判定生成样本是否可以根据生成数据样本中的问题与上下文反向推理出答案,根据推理出的答案与生成数据中的答案对比,过滤掉低质量样本保留高质量样本,提高生成样本的整体质量。
实施例5、
一种加载有如实施例1-3所述融合内容和形式多样性的中文问题生成方法的程序产品,包括:所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令用于执行上述的方法。
实施例6、
一种加载有如实施例1-3所述融合内容和形式多样性的中文问题生成方法的计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
实施例7、
一种利用如实施例1-3所述方法的应用方法,用于实现输入是任意文本,对于同一输入文本可以输出多种问题语句;多种问题语句不仅体现在生成问题的数量,而且对于同一文本可以获得不同提问角度和表达形式的问题语句。

Claims (9)

1.一种融合内容和形式多样性的中文问题生成方法,其特征在于,包括:
步骤(1)利用内容选择器对原始文本进行选择得到内容文本,所述内容选择器提出了两种内容选择策略:
一种是基于规则的代表性和基于句子间文本差异性的内容抽取方法;另一种是基于摘要的内容生成方法;
步骤(2)在步骤(1)得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;
步骤(3)将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合,得到最大可能的生成方法组合,通过问题生成模型得到多样的问题生成数据三元组;
步骤(4)使用智能问答模型作为生成样本过滤器,根据生成数据样本中答案类型的不同设定不同的答案比对方法:
当生成数据样本中答案是实体时,则判断预测答案和生成答案是否相同,即预测答案的起始位置与终止位置与样本答案的相应位置是否相同:若预测答案与生成答案不相同,则认为该数据样本是低质量样本,进行丢弃;
当生成数据样本中的答案是句子时,则判断预测答案文本是否包含在生成答案之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置:若不包含在内,则认为该数据样本是低质量样本。
2.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,在步骤(1)中,所述基于规则的代表性和基于句子间文本差异性的内容抽取方法,包括:
步骤(1-1)基于规则的代表性的内容抽取方法包括:
将原始文本分割成若干单句,采用句子与文本的语义相似度作为句子的代表性得分,score r (s i ,D)定义为文档D与文档中第i条句子s i 的代表性评分函数:
Figure 569653DEST_PATH_IMAGE001
在公式(I)、(II)中,首先生成s i ,文档D的向量表示;W(s i ,D)表示两个向量间的余弦相似度;按照评分由大到小取代表性评分的前k个句子,作为最终的代表性句子集合M k
步骤(1-2)基于句子间文本差异性的内容抽取方法包括:
将原始文本分割成若干单句,某条句子的差异性得分为:该条句子和文本句子集合中所有句子的语义差异的最大值与最小值的差值;score d (s i ,D)定义为文档中第i条句子s i 在文档D中的差异性评分函数:
Figure 731513DEST_PATH_IMAGE002
(III)
Figure 947731DEST_PATH_IMAGE003
(IV)
在公式(III)和(IV)中,s j 为文档D中第j条句子,且i≠j,首先生成s i s j 的向量表示;W(s i s j )表示两个句向量间的余弦相似度;按照评分由大到小取差异性评分前m个句子,作为最终的差异性句子集合F m ;num为句子集合中句子的总数;
步骤(1-3)对代表性和差异性内容文本标记:
将所述代表性句子集合M k 和差异性句子集合F m 取并集做句子融合,形成融合句子集合;
同时对所述融合句子集合做规则设定排序:
若某句子同时存在于代表性句子集合M k 和差异性句子集合F m 中,则该句子获得优先排序;剩余句子,则按照存在于代表性句子集合M k 中进行次优先排序;仅存在于差异性句子集合F m 中的句子进行最后排序;
最终输出内容记作R u
R u= M k F m (V);
步骤(1-4)基于摘要的内容生成方法,采用生成式摘要的方式进行生成内容文本:
使用BiLSTM结构作为摘要模型编码器,将原始文档文本以字作为基础单位进行字嵌入输入所述编码器进行编码,得到文档的向量矩阵,将输入文本记为X n ,则X n 中的第i个字符记作x i
Figure 95815DEST_PATH_IMAGE004
(VI)
Figure 713878DEST_PATH_IMAGE005
(VII)
Figure 797372DEST_PATH_IMAGE006
(VIII)
在公式(VI)-(VIII)中,
Figure 500886DEST_PATH_IMAGE007
代表当前t时间步从前向后编码的隐藏状态;
Figure 452661DEST_PATH_IMAGE008
代表当前t时间步从后向前编码的隐藏状态;h t
Figure 318374DEST_PATH_IMAGE007
Figure 697402DEST_PATH_IMAGE009
的拼接结;
所述编码器的输出向量为:h=[h 1 ,h 2 ...h n ](IX)
在公式(IX)中,h为所有时间步隐藏状态进行拼接得到摘要模型编码器的输出;
解码器部分采用单层LSTM网络结果:
Figure 888212DEST_PATH_IMAGE010
(X)
在公式(X)中,s t 表示在当前t时间步上解码器的隐藏状态;y t-1 表示在t-1时刻预测生成的字,同时作为当前t时间步的输入来更新当前t时间步的隐藏状态;
摘要模型编码器编码的文本信息h与当前时间步的解码隐藏状态应用注意力机制:
将摘要模型编码器输出向量h进行维度转换后,与解码器的当前时间步隐藏状态相乘,得到注意力分布e t
Figure 378099DEST_PATH_IMAGE011
(XI)
Figure 580542DEST_PATH_IMAGE012
(XII)
Figure 130472DEST_PATH_IMAGE013
(XIII)
在公式(XI)-(XIII)中,W e 为可训练权重向量;对e t 进行softmax归一化处理,得到注意力向量α t ;将注意力向量α t 与摘要模型编码器的文本信息h T 进行加权求和,得到上下文语境向量c t
文本摘要生成器首先在标注摘要数据上进行预训练,使用预训练好的模型,对输入文本直接获得摘要文本。
3.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,所述步骤(2)对内容文本分别进行句子抽取和命名实体的抽取的方法包括:
一种是粗粒度的答案提取,即对得到的内容文本进行分句处理,将每一条句子作为候选答案;
另一种答案抽取方式是细粒度抽取,即对得到的内容文本进行命名实体识别,提取文本中所包含的实体名词,对提取出来的实体文段进行问句生成。
4.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,所述步骤( 3)中通过问题生成模型得到多样的问题生成数据三元组的方法包括:
使用基于Transformer的序列模型进行实现,
Figure 808578DEST_PATH_IMAGE014
(XIV)
在公式(XIV)中,U表示为问题生成模型编码器得到的隐向量序列;PTLM用来代表预训练语言模型;w C w A 分别代表输入上下文字符与答案字符;
问题生成解码器,选择Transformer网络模型改进Transformer-XL:
Figure 102156DEST_PATH_IMAGE015
(XV)
Figure 283739DEST_PATH_IMAGE016
(XVI)
Figure 863624DEST_PATH_IMAGE017
(XVII)
Figure 29027DEST_PATH_IMAGE018
(XVIII)
在公式(XV)-(XVIII)中,
Figure 860716DEST_PATH_IMAGE019
表示对两个连续片段第n-1层隐藏层状态的拼接;SG是Stop-Gradient的缩写,是指停止计算梯度;Γ表示当前所处的片段是第几段;n表示为网络层数;○代表两个向量的拼接;
Figure 427964DEST_PATH_IMAGE020
表示第Γ-1个片段第n-1层隐藏层的输出;
Figure 929484DEST_PATH_IMAGE021
表示第Γ个片段第n-1层隐藏层的输出;
Figure 316603DEST_PATH_IMAGE022
Figure 951983DEST_PATH_IMAGE023
Figure 108158DEST_PATH_IMAGE024
分别代表查询query向量、键key向量和值value向量;
Figure 170792DEST_PATH_IMAGE025
Figure 169841DEST_PATH_IMAGE026
Figure 343333DEST_PATH_IMAGE027
为可训练权重;
所述Transformer-XL的完整计算过程:
Figure 619594DEST_PATH_IMAGE028
(XIX)
Figure 853129DEST_PATH_IMAGE029
(XX)
在公式(XIX)-(XX)中,
Figure 214840DEST_PATH_IMAGE030
代表第Γ个片段第n层隐藏层中i,j的相对位置注意力机制的计算;
Figure 67390DEST_PATH_IMAGE031
代表第Γ个片段第n层隐藏层i位置的查询向量的转置;
Figure 932578DEST_PATH_IMAGE032
代表第Γ个片段第n层隐藏层j位置的键向量;u T ,v T 是可训练参数;R i-j i,j的相对位置矩阵;i,j代表序列位置信息ID;
Figure 337014DEST_PATH_IMAGE033
为可训练权重;
其余解码过程同Transformer网络模型,在此处使用Transformer-Layer表示;
Figure 186021DEST_PATH_IMAGE034
表示第Γ+1个片段第n层隐藏层的输出;
Figure 701316DEST_PATH_IMAGE035
代表第Γ+1个片段第n层隐藏层的查询向量;
Figure 76803DEST_PATH_IMAGE036
代表第Γ+1个片段第n层隐藏层的键向量;
Figure 652141DEST_PATH_IMAGE037
代表第Γ+1个片段第n层隐藏层的值向量;
为了得到上下文、问题、答案组成的三元组,使用波束搜索从问题生成解码器中进行采样;问题生成模型使用负对数似然来计算损失函数:
Figure 722865DEST_PATH_IMAGE038
(XXI)
在公式(XXI)中,N表示生成问题序列的长度;p Q 表示为当前时刻生成的问题序列的概率;y t 表示当前t时刻的预测生成词;y <t 表示当前预测生成词之前的预测序列;θ Q 表示问题生成过程中所需参数;
所述问题生成模型在标注问答数据上进行预训练,训练好模型参数,以对输入上下文和答案进行生成对应问题。
5.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,所述步骤(4)使用智能问答模型作为生成样本过滤器的具体步骤包括:
当生成数据样本中答案是实体时,则判断预测答案A'和生成答案A是否能够完全匹配;
进一步,
若预测答案A'与生成答案A完全匹配,则认为该条生成数据合格,进行保留,即预测答案的起始位置与终止位置与样本答案的起始位置与终止位置相同;
或,若预测答案A'与生成答案A不完全匹配,则认为该条生成数据不合格,进行丢弃;
当生成数据样本中的答案是句子时,则判断预测答案文本A'是否包含在生成答案A之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置;
进一步,
若包含在内,则认为该条生成数据合格,进行保留;
否则认为该条 生成数据不合格,进行丢弃;
所述生成样本过滤器在标注问答数据上进行预训练,训练好模型参数,可以对输入上下文和问题进行答案抽取。
6.根据权利要求5所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,针对生成数据样本中的答案是句子的数据样本:
当过滤器将当前生成数据样本判定为合理时,那么将预测答案文本作为生成数据样本中的答案进行替换。
7.一种实现如权利要求1-6任意一项所述问题生成方法的系统,其特征在于,包括:
按照所述步骤(1)实现的内容选择器、按照所述步骤(2)实现的答案选择器、按照所述步骤(3)实现的问题样本生成器和按照所述步骤(4)实现的样本过滤器;
所述内容选择器包含了两种内容选择策略:
一种是融合代表性和差异性的内容抽取方法,分别采用文本关联度评分评价文本中句子的代表性,采用句子间的相似度差值评价句子的差异性,融合两种评价方法将文本中的句子筛选得到最终的内容文本;另一种基于摘要的内容生成策略,采用生成式文本摘要的方法;
所述答案选择器用于在内容选择器得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;
所述多样问题生成将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合的笛卡尔积得到最大可能的生成方法组合;
所述样本过滤器,通过过滤器判定生成样本是否可以根据生成数据样本中的问题与上下文反向推理出答案,根据推理出的答案与生成数据中的答案对比,过滤掉低质量样本保留高质量样本。
8.一种加载有如权利要求1-6任意一项所述方法的计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现记载的任一项所述方法的步骤。
9.一种利用如权利要求1-6任意一项所述方法的应用方法,其特征在于,用于实现输入是任意文本,对于同一输入文本可以输出多种问题语句;多种问题语句不仅体现在生成问题的数量,而且对于同一文本可以获得不同提问角度和表达形式的问题语句。
CN202210894574.2A 2022-07-28 2022-07-28 融合内容和形式多样性的中文问题生成方法和系统 Active CN114970563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210894574.2A CN114970563B (zh) 2022-07-28 2022-07-28 融合内容和形式多样性的中文问题生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210894574.2A CN114970563B (zh) 2022-07-28 2022-07-28 融合内容和形式多样性的中文问题生成方法和系统

Publications (2)

Publication Number Publication Date
CN114970563A CN114970563A (zh) 2022-08-30
CN114970563B true CN114970563B (zh) 2022-10-25

Family

ID=82969115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210894574.2A Active CN114970563B (zh) 2022-07-28 2022-07-28 融合内容和形式多样性的中文问题生成方法和系统

Country Status (1)

Country Link
CN (1) CN114970563B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641809A (zh) * 2021-08-10 2021-11-12 中电鸿信信息科技有限公司 一种基于XLNet-BiGRU-CRF的智能问答方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
US20220043972A1 (en) * 2019-02-25 2022-02-10 Nippon Telegraph And Telephone Corporation Answer generating device, answer learning device, answer generating method, and answer generating program
CN110134771B (zh) * 2019-04-09 2022-03-04 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110046244B (zh) * 2019-04-24 2021-06-08 中国人民解放军国防科技大学 一种用于问答系统的答案选择方法
US11449556B2 (en) * 2020-02-04 2022-09-20 Accenture Global Solutions Limited Responding to user queries by context-based intelligent agents
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
US11741371B2 (en) * 2020-03-20 2023-08-29 International Business Machines Corporation Automatically generating diverse text
CN111639163A (zh) * 2020-04-29 2020-09-08 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
US11983210B2 (en) * 2020-06-16 2024-05-14 Virginia Tech Intellectual Properties, Inc. Methods and systems for generating summaries given documents with questions and answers
CN113010693B (zh) * 2021-04-09 2024-03-08 大连民族大学 融合指针生成网络的知识图谱智能问答方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641809A (zh) * 2021-08-10 2021-11-12 中电鸿信信息科技有限公司 一种基于XLNet-BiGRU-CRF的智能问答方法

Also Published As

Publication number Publication date
CN114970563A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN108287822B (zh) 一种中文相似问题生成系统与方法
CN107967257B (zh) 一种级联式作文生成方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
CN110717843A (zh) 一种可复用的法条推荐框架
CN113254604B (zh) 一种基于参考规范的专业文本生成方法及装置
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN110968708A (zh) 一种教育信息资源属性标注方法及系统
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN110222344B (zh) 一种针对小学生作文辅导的作文要素分析算法
CN114611520A (zh) 一种文本摘要生成方法
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
Day et al. A study of deep learning for factoid question answering system
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN114970563B (zh) 融合内容和形式多样性的中文问题生成方法和系统
CN116681078A (zh) 一种基于强化学习的关键词生成方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant