CN117371404B - 一种文本问答数据对生成方法及装置 - Google Patents

一种文本问答数据对生成方法及装置 Download PDF

Info

Publication number
CN117371404B
CN117371404B CN202311677914.7A CN202311677914A CN117371404B CN 117371404 B CN117371404 B CN 117371404B CN 202311677914 A CN202311677914 A CN 202311677914A CN 117371404 B CN117371404 B CN 117371404B
Authority
CN
China
Prior art keywords
question
answer
sequence
pair sequence
answer pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311677914.7A
Other languages
English (en)
Other versions
CN117371404A (zh
Inventor
郁强
方玲洪
董墨江
任通
张香伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202311677914.7A priority Critical patent/CN117371404B/zh
Publication of CN117371404A publication Critical patent/CN117371404A/zh
Application granted granted Critical
Publication of CN117371404B publication Critical patent/CN117371404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提出了一种文本问答数据对生成方法及装置,包括以下步骤:获取待生成文档,将待生成文档输入到答案提取模型和问题生成模型得到第一问答对序列;使用问答过滤模块对待生成文档进行处理得到第二问答对序列;整合第二问答对序列和第一问答对序列得到第三问答对序列,使用第三问答对序列训练答案提取模型和问题生成模型从而得到第四问答对序列;整合第四问答对序列和第二问答对序列得到最终问答对序列。本方案通过使用产生的第三问答对序列答案提取模型和问题生成模型再次进行训练可以大量减少人工标注的时间,且可以提高在对应的文档领域中进行QA对提取的准确性。

Description

一种文本问答数据对生成方法及装置
技术领域
本申请涉及智能问答领域,特别是涉及一种文本问答数据对生成方法及装置。
背景技术
文档智能问答系统是一种信息检索系统,它能用准确、简洁的自然语言回答用户用自然语言提出的关于文档中的问题,通过文档问答系统可以快速地找到与工作相关的信息,避免了在大量文档中手动查找的麻烦,节省了时间成本。文档智能问答多采用FQA方法,即从文档段落整理若干问答对(QA)并以结构化的形式存储,当用户询问文档中的问题即可检索到相似的QA并给出答案。
现有技术中的FQA问答系统是根据预先定义好的QA来回答用户的问题,由于FQA需要手动创建并维护当中的问答对从而花费大量的人力资源和时间成本,另外,当需要回答的问题数量较大时,这个过程可能变得非常耗时和繁琐,还可能存在更新不及时和不准确的问题,当答案已经发生了变化或存在新的问题可能需要再次手动更新QA,这也是一个耗时且容易出错的过程。
所以,亟需一种可以在减少人力成本的同时可以增加问答准确性的问答对生成方法。
发明内容
本申请实施例提供了一种文本问答数据对生成方法及装置,通过使用产生的第三问答对序列答案提取模型和问题生成模型再次进行训练可以大量减少人工标注的时间,且可以提高在对应的文档领域中进行QA对提取的准确性,弥补问答模型的答案误报。
第一方面,本申请实施例提供了一种文本问答数据对生成方法,所述方法包括:
获取待生成文档,将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列,将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列,所述问题序列与所述答案序列组成第一问答对序列;
构建问答过滤模块,所述问答过滤模块将待生成文档分割为答案片段与非答案片段,并对答案片段与非答案片段进行注意力计算得到与所述问题序列中的每一问题对应的答案得到第二问答对序列;
基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列,使用第三问答对序列再次对预训练好的答案提取模型进行训练得到最终答案提取模型,使用第三问答对序列再次对预训练好的问题生成模型进行训练得到最终问题生成模型,将待生成文档分别输入到最终答案提取模型与最终问题生成模型得到第四问答对序列;
基于第二问答对序列和第四问答对序列的相似度对第二问答对序列和第四问答对序列进行整合得到最终问答对序列。
第二方面,本申请实施例提供了一种文本问答数据对生成装置,包括:
获取模块:获取待生成文档,将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列,将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列,所述问题序列与所述答案序列组成第一问答对序列;
问答过滤模块:构建问答过滤模块,所述问答过滤模块将待生成文档分割为答案片段与非答案片段,并对答案片段与非答案片段进行注意力计算得到与所述问题序列中的每一问题对应的答案得到第二问答对序列;
迭代模块:基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列,使用第三问答对序列再次对预训练好的答案提取模型进行训练得到最终答案提取模型,使用第三问答对序列再次对预训练好的问题生成模型进行训练得到最终问题生成模型,将待生成文档分别输入到最终答案提取模型与最终问题生成模型得到第四问答对序列;
整合模块:基于第二问答对序列和第四问答对序列的相似度对第二问答对序列和第四问答对序列进行整合得到最终问答对序列。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种文本问答数据对生成方法。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种文本问答数据对生成方法。
本发明的主要贡献和创新点如下:
本方案通过在问答过滤模块中计算答案片段的上下文特征并与非答案片段进行注意力的计算,从而更好的挖掘非答案片段中的被遗漏的答案信息;通过对第二问答对序列和第四问答对序列的相似度来得到最终问答对,从而获取最优的问答对序列来应对不同情况,最大程度中减少了答案误报;通过使用产生的第三问答对序列答案提取模型和问题生成模型再次进行训练可以大量减少人工标注的时间,且可以提高在对应的文档领域中进行QA对提取的准确性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种文本问答数据对生成方法的流程图;
图2是根据本申请实施例的一种将待生成文档分割为答案片段与非答案片段的流程图;
图3是根据本申请实施例的一种得到概率密度特征集合的流程图;
图4是根据本申请实施例的一种文本问答数据对生成装置的结构框图;
图5是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
本申请实施例提供了一种文本问答数据对生成方法,具体地,参考图1,所述方法包括:
S1、获取待生成文档,将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列,将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列,所述问题序列与所述答案序列组成第一问答对序列;
S2、构建问答过滤模块,所述问答过滤模块将待生成文档分割为答案片段与非答案片段,并对答案片段与非答案片段进行注意力计算得到与所述问题序列中的每一问题对应的答案得到第二问答对序列;
S3、基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列,使用第三问答对序列再次对预训练好的答案提取模型进行训练得到最终答案提取模型,使用第三问答对序列再次对预训练好的问题生成模型进行训练得到最终问题生成模型,将待生成文档分别输入到最终答案提取模型与最终问题生成模型得到第四问答对序列;
S4、基于第二问答对序列和第四问答对序列的相似度对第二问答对序列和第四问答对序列进行整合得到最终问答对序列。
在本方案中,在“将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列”步骤中,所述答案提取模型采用BERT作为基础模型,在所述答案序列中对每一答案在待生成文档所处的位置进行标记。
具体的,所述答案提取模型的训练方法为:准备训练数据集T,所述训练数据集T为从任一开源数据库中提取的文档数据,采用人工标注的方法对训练数据集T中的答案以及答案位置进行标记后送入答案提取模型中进行训练得到训练好的答案提取模型,其中,答案位置包括答案的起始位置和结束位置。
示例性的,获取训练数据集为电网文档,通过人工标注的方式对电网文档进行标记如下所示:
冲击性能试验是测试安全帽在受到冲击时是否能保持其完整性、是否能保护头部。安全帽的冲击性能试验要求是:<S(T1)冲击力小于4900NE(T1)>,帽壳不得有碎片脱落。安全帽的使用期限根据材质不同而不同,<S(T2)塑料帽使用期限为2.5年 E(T2)>,<S(T3)玻璃钢帽使用期限为3.5年E(T3)>。
其中,Ti(i∈[1,n])为答案,为第i个答案的位置标记,S为起始标记,E为结束标记,在电网文档中标记了“冲击力小于4900N”、“塑料帽使用期限为2.5年”、“玻璃钢帽使用期限为3.5年”这三个答案。
具体的,本方案通过预训练好的答案生成模型对待生成文档进行答案提取得到的答案序列表示为,Ai表示答案,i∈[1,n],例如,将电网文档输入到预训练好的答案提取模型中提取得到的答案序列为:A={冲击力小于4900N, 塑料帽使用期限为2.5年, 玻璃钢帽使用期限为3.5年}。
具体的,对答案的位置进行标记有助于答案提取模型更准确的对答案进行提取。
在本方案中,在“将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列”步骤中,所述问题生成模型采用T5作为基础模型。
具体的,所述问题生成模型的训练方法为:准备训练数据集T’,所述训练数据集T’为从任一开源数据库中提取的文档数据,采用人工标注的方法对训练数据集T’中的答案、答案位置以及答案对应的问题进行标记后送入答案提取模型中进行训练得到训练好的问题生成模型,其中,答案位置包括答案的起始位置和结束位置。
示例性的,在对问题生成模型的训练数据集T’进行人工标记时,使用标记答案,使用/>标记答案位置,使用/>标记问题。
具体的,本方案通过预训练好的问题生成模型对每一答案生成的问题序列表示为,Qi表示问题,i∈[1,n],例如,将基于电网文档生成的答案序列输入到预训练好的问题生成模型中得到的问题序列为:Q={进行冲击性能试验时的冲击力是多少,塑料帽的使用期限是多少,玻璃钢帽的使用期限是多少}。
在本方案中,在步骤S2中,将所述待生成文档分割为至少一文本片段,对每一文本片段进行向量化后再经过时序池化层得到答案片段与非答案片段。
具体的,通过文本分割器按照文档结构将所述待生成文档分割为至少一文本片段,所述文本分割器为预训练好的文本分割模型用来对文本中的句子短语进行分割。
进一步的,构建文本优化模型,使用所述文本优化模型对每一文本片段进行优化。
具体的,本方案通过Transformer编码器和解码器对每一文本片段进行向量化。
进一步的,设置分割阈值,每一向量化的文本片段经过时序池化层后基于所述分割阈值判断向量化的文本片段为答案片段或为非答案片段。
具体的,由于使用文本分割器对待生成文档进行分割后可能会导致分割后的文本片段内容缺失,所以通过一个文本优化模型来对每一文本片段进行优化生成,从而保证文本片段的完整性。
具体的,将待生成文档分割为答案片段与非答案片段的流程图如图2所示,所述待生成文档依次经过文本分割器、文本优化模型、Transformer模块、时序池化层后得到答案片段与非答案片段。
在本方案中,步骤S2中,对每一答案片段进行编解码得到全局特征集合,对每一非答案片段的嵌入特征进行自注意力机制的计算得到自注意特征集合,使用所述自注意特征集合与每一答案片段的特征表示进行交叉注意力计算得到相关性特征集合,整合每一答案片段的嵌入特征、相关性特征集合中与每一答案片段对应的相关性特征、全局特征集合中每一答案片段对应的全局特征得到概率密度特征集合,使用损失函数判断所述概率密度特征集合中的概率密度特征与所述问题序列中的每一问题的匹配概率得到第二问答对序列。
在本方案中,本方案中的问答过滤模块由文档分割单元、全局特征提取单元、注意力计算单元以及整合单元组成,其中,所述文档分割单元包括顺序串联的文本分割器、文本优化模型、Transformer模块、时序池化层,所述全局特征提取单元使用Transformer编码与解码器对每一答案片段进行编解码得到全局特征集合,所述注意力计算单元包括顺序串联的自注意力机制层和交叉注意力机制层,所述自注意力机制层对每一非答案片段的嵌入特征进行自注意力机制的计算得到自注意特征集合,所述交叉注意力机制层使用所述自注意特征集合与每一答案片段的特征表示进行交叉注意力计算得到相关性特征集合,所述整合单元组成包括顺序串联的前馈神经网络和线性层组成,所述前馈神经网络对每一答案片段的嵌入特征、相关性特征集合中与每一答案片段对应的相关性特征、全局特征集合中每一答案片段对应的全局特征进行整合,再由线性层进行输出。
具体的,本方案得到概率密度特征集合的流程图如图3所示,本方案先通过Transformer编码与解码器对每一答案片段进行编解码得到全局特征集合,所述全局特征集合中的全局特征具有上下文关联信息,再通过前馈神经网络每一答案片段的嵌入特征、相关性特征集合中与每一答案片段对应的相关性特征、全局特征集合中每一答案片段对应的全局特征进行处理得到前馈特征集合,所述前馈特征集合通过线性层得到概率密度特征集合。
在本方案中,在“使用损失函数判断所述概率密度特征集合中的概率密度特征与所述问题序列中的每一问题的匹配概率得到第二问答对序列”步骤中,基于所述概率密度特征集合对所述问题序列中的每一问题计算终止概率,若存在与问题的匹配概率大于等于终止概率的概率密度特征则将其组成问答对,若不存在与问题的匹配概率大于等于终止概率的概率密度特征,则选取与问题匹配概率最大的概率密度特征与对应问题组成问答对,整合每一问题的问答对得到第二问答对序列。
具体的,本方案使用softmax损失函数来计算匹配概率。
具体的,本方案通过时序池化层对前馈特征集合进行处理后,再通过sigmoid激活函数获取终止概率。
具体的,本方案通过所述问题序列中的每一问题进行迭代从而得到与每一问题相匹配的答案组成问答对。
在本方案中,在“基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列”步骤中,若所述第一问答对序列和第二问答对序列的相似度为0,则所述第三问答对序列等于第二问答对序列,若所述第一问答对序列和第二问答对序列的相似度不为0,则所述第三问答对序列等于第一问答对序列和第二问答对序列的并集。
另外,在本方案中,对第二问答对序列和第四问答对序列进行整合的方法与对第一问答对序列和第二问答对序列进行整合的方法相同,也就是说,若所述第二问答对序列和第四问答对序列的相似度为0,则所述最终问答对序列等于第二问答对序列,若所述第二问答对序列和第四问答对序列的相似度不为0,则所述最终问答对序列等于第二问答对序列和第四问答对序列的并集。
在本方案中,为了避免使用第三问答序列再次对答案提取模型和问题生成模型进行训练时的训练量少从而导致训练效果不好,将第三问答序列融合进答案提取模型的问题生成模型的训练样本中进行训练。
本方案通过使用产生的第三问答对序列答案提取模型和问题生成模型再次进行训练可以大量减少人工标注的时间,且可以提高在对应的文档领域中进行QA对提取的准确性,弥补问答模型的答案误报。
在一些具体实施例中,本方案的问答过滤模块先通过图2所示的结构对待生成文档进行分割,先使用文本分割器对待生成文本进行分割,但在分割时容易导致分割后的文本片段内容缺失,所以再通过一个大语言模型来对文本片段重新生成,保证每一文本片段的完整性,最后再由transformet模块进行编码后使用时序池化层基于设定好的阈值判断每一个文本片段是答案片段还是非答案片段。
在一些具体实施例中,本方案中预训练好的答案提取模型和预训练好的问题生成模型可能并不适用于待生成文档的领域从而导致获取的第一问答对序列不够准确,所以本方案通过问答过滤模块中的全局特征提取单元来对每一答案片段进行全局特征的捕捉,再通过注意力计算单元来对答案片段和非答案片段进行注意力的计算后与相关性特征、答案片段的嵌入特征进行整合来进一步挖掘遗漏掉的答案特征信息,从而得到第二问答对序列,也就是说,第二问答对序列是问答过滤模块提取的,将第二问答对序列和第一问答对整合后对预训练好的答案提取模型和预训练好的问题生成模型进行二次训练来让答案提取模型和问题生成模型更符合待生成文档的领域,使用二次训练后的答案提取模型和问题生成模型再次对待生成文档进行提取得到第四问答对序列,再整合四问答对序列以及第二问答对序列来最终得到待生成文档的最终问答对序列作为结果,所述最终问答对序列为与待生成文档对应的文本问答数据对。
实施例二
基于相同的构思,参考图4,本申请还提出了一种文本问答数据对生成装置,包括:
获取模块:获取待生成文档,将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列,将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列,所述问题序列与所述答案序列组成第一问答对序列;
问答过滤模块:构建问答过滤模块,所述问答过滤模块将待生成文档分割为答案片段与非答案片段,并对答案片段与非答案片段进行注意力计算得到与所述问题序列中的每一问题对应的答案得到第二问答对序列;
迭代模块:基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列,使用第三问答对序列再次对预训练好的答案提取模型进行训练得到最终答案提取模型,使用第三问答对序列再次对预训练好的问题生成模型进行训练得到最终问题生成模型,将待生成文档分别输入到最终答案提取模型与最终问题生成模型得到第四问答对序列;
整合模块:基于第二问答对序列和第四问答对序列的相似度对第二问答对序列和第四问答对序列进行整合得到最终问答对序列。
实施例三
本实施例还提供了一种电子装置,参考图5,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一种文本问答数据对生成方法中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种文本问答数据对生成方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是待生成文档、第三问答序列等,输出的信息可以是最终问答对序列等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
S101、通获取待生成文档,将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列,将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列,所述问题序列与所述答案序列组成第一问答对序列;
S102、构建问答过滤模块,所述问答过滤模块将待生成文档分割为答案片段与非答案片段,并对答案片段与非答案片段进行注意力计算得到与所述问题序列中的每一问题对应的答案得到第二问答对序列;
S103、基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列,使用第三问答对序列再次对预训练好的答案提取模型进行训练得到最终答案提取模型,使用第三问答对序列再次对预训练好的问题生成模型进行训练得到最终问题生成模型,将待生成文档分别输入到最终答案提取模型与最终问题生成模型得到第四问答对序列;
S104、基于第二问答对序列和第四问答对序列的相似度对第二问答对序列和第四问答对序列进行整合得到最终问答对序列。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图5中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (7)

1.一种文本问答数据对生成方法,其特征在于,包括以下步骤:
S1、获取待生成文档,将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列,将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列,所述问题序列与所述答案序列组成第一问答对序列;
S2、构建问答过滤模块,所述问答过滤模块将待生成文档分割为答案片段与非答案片段,并对答案片段与非答案片段进行注意力计算得到与所述问题序列中的每一问题对应的答案得到第二问答对序列,其中,对每一答案片段进行编解码得到全局特征集合,对每一非答案片段的嵌入特征进行自注意力机制的计算得到自注意特征集合,使用所述自注意特征集合与每一答案片段的特征表示进行交叉注意力计算得到相关性特征集合,整合每一答案片段的嵌入特征、相关性特征集合中与每一答案片段对应的相关性特征、全局特征集合中每一答案片段对应的全局特征得到概率密度特征集合,使用损失函数判断所述概率密度特征集合中的概率密度特征与所述问题序列中的每一问题的匹配概率得到第二问答对序列;
S3、基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列,其中,若所述第一问答对序列和第二问答对序列的相似度为0,则所述第三问答对序列等于第二问答对序列,若所述第一问答对序列和第二问答对序列的相似度不为0,则所述第三问答对序列等于第一问答对序列和第二问答对序列的并集,使用第三问答对序列再次对预训练好的答案提取模型进行训练得到最终答案提取模型,使用第三问答对序列再次对预训练好的问题生成模型进行训练得到最终问题生成模型,将待生成文档分别输入到最终答案提取模型与最终问题生成模型得到第四问答对序列;
S4、基于第二问答对序列和第四问答对序列的相似度对第二问答对序列和第四问答对序列进行整合得到最终问答对序列,其中,若所述第二问答对序列和第四问答对序列的相似度为0,则所述最终问答对序列等于第二问答对序列,若所述第二问答对序列和第四问答对序列的相似度不为0,则所述最终问答对序列等于第二问答对序列和第四问答对序列的并集。
2.根据权利要求1所述的一种文本问答数据对生成方法,其特征在于,在步骤S2中,将所述待生成文档分割为至少一文本片段,对每一文本片段进行向量化后再经过时序池化层得到答案片段与非答案片段。
3.根据权利要求1所述的一种文本问答数据对生成方法,其特征在于,在“使用损失函数判断所述概率密度特征集合中的概率密度特征与所述问题序列中的每一问题的匹配概率得到第二问答对序列”步骤中,基于所述概率密度特征集合对所述问题序列中的每一问题计算终止概率,若存在与问题的匹配概率大于等于终止概率的概率密度特征则将其组成问答对,若不存在与问题的匹配概率大于等于终止概率的概率密度特征,则选取与问题匹配概率最大的概率密度特征与对应问题组成问答对,整合每一问题的问答对得到第二问答对序列。
4.根据权利要求3所述的一种文本问答数据对生成方法,其特征在于,通过前馈神经网络每一答案片段的嵌入特征、相关性特征集合中与每一答案片段对应的相关性特征、全局特征集合中每一答案片段对应的全局特征进行处理得到前馈特征集合,所述前馈特征集合通过线性层得到概率密度特征集合。
5.一种文本问答数据对生成装置,其特征在于,包括:
获取模块:获取待生成文档,将所述待生成文档输入到预训练好的答案提取模型得到至少一答案组成答案序列,将所述答案序列输入到预训练好的问题生成模型为答案序列中的每一答案生成对应的问题得到问题序列,所述问题序列与所述答案序列组成第一问答对序列;
问答过滤模块:构建问答过滤模块,所述问答过滤模块将待生成文档分割为答案片段与非答案片段,并对答案片段与非答案片段进行注意力计算得到与所述问题序列中的每一问题对应的答案得到第二问答对序列,其中,对每一答案片段进行编解码得到全局特征集合,对每一非答案片段的嵌入特征进行自注意力机制的计算得到自注意特征集合,使用所述自注意特征集合与每一答案片段的特征表示进行交叉注意力计算得到相关性特征集合,整合每一答案片段的嵌入特征、相关性特征集合中与每一答案片段对应的相关性特征、全局特征集合中每一答案片段对应的全局特征得到概率密度特征集合,使用损失函数判断所述概率密度特征集合中的概率密度特征与所述问题序列中的每一问题的匹配概率得到第二问答对序列;
迭代模块:基于第一问答对序列和第二问答对序列的相似度对第一问答对序列和第二问答对序列进行整合得到第三问答对序列,其中,若所述第一问答对序列和第二问答对序列的相似度为0,则所述第三问答对序列等于第二问答对序列,若所述第一问答对序列和第二问答对序列的相似度不为0,则所述第三问答对序列等于第一问答对序列和第二问答对序列的并集,使用第三问答对序列再次对预训练好的答案提取模型进行训练得到最终答案提取模型,使用第三问答对序列再次对预训练好的问题生成模型进行训练得到最终问题生成模型,将待生成文档分别输入到最终答案提取模型与最终问题生成模型得到第四问答对序列;
整合模块:基于第二问答对序列和第四问答对序列的相似度对第二问答对序列和第四问答对序列进行整合得到最终问答对序列,其中,若所述第二问答对序列和第四问答对序列的相似度为0,则所述最终问答对序列等于第二问答对序列,若所述第二问答对序列和第四问答对序列的相似度不为0,则所述最终问答对序列等于第二问答对序列和第四问答对序列的并集。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-4任一所述的一种文本问答数据对生成方法。
7.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1-4任一所述的一种文本问答数据对生成方法。
CN202311677914.7A 2023-12-08 2023-12-08 一种文本问答数据对生成方法及装置 Active CN117371404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311677914.7A CN117371404B (zh) 2023-12-08 2023-12-08 一种文本问答数据对生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311677914.7A CN117371404B (zh) 2023-12-08 2023-12-08 一种文本问答数据对生成方法及装置

Publications (2)

Publication Number Publication Date
CN117371404A CN117371404A (zh) 2024-01-09
CN117371404B true CN117371404B (zh) 2024-02-27

Family

ID=89391414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311677914.7A Active CN117371404B (zh) 2023-12-08 2023-12-08 一种文本问答数据对生成方法及装置

Country Status (1)

Country Link
CN (1) CN117371404B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413755A (zh) * 2019-07-25 2019-11-05 腾讯科技(深圳)有限公司 一种问答库的扩充方法、装置及服务器、存储介质
JP2020080025A (ja) * 2018-11-13 2020-05-28 株式会社日立製作所 質問応答データ生成装置および質問応答データ生成方法
CN112183091A (zh) * 2020-10-12 2021-01-05 深圳壹账通智能科技有限公司 问答对生成方法、装置、电子设备及可读存储介质
CN112527999A (zh) * 2020-12-22 2021-03-19 江苏省农业科学院 引入农业领域知识的抽取式智能问答方法及系统
CN113032531A (zh) * 2021-05-21 2021-06-25 北京金山数字娱乐科技有限公司 文本处理方法及装置
CN114357120A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 基于faq的无监督式检索方法、系统及介质
WO2023125335A1 (zh) * 2021-12-28 2023-07-06 华为技术有限公司 问答对生成的方法和电子设备
CN116680386A (zh) * 2023-06-16 2023-09-01 平安科技(深圳)有限公司 基于多轮对话的答案预测方法和装置、设备、存储介质
CN116805001A (zh) * 2023-06-26 2023-09-26 城云科技(中国)有限公司 适用于垂直领域的智能问答系统、方法及其应用
CN116910210A (zh) * 2023-07-06 2023-10-20 城云科技(中国)有限公司 基于文档的智能问答模型训练方法、装置及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160125437A1 (en) * 2014-11-05 2016-05-05 International Business Machines Corporation Answer sequence discovery and generation

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020080025A (ja) * 2018-11-13 2020-05-28 株式会社日立製作所 質問応答データ生成装置および質問応答データ生成方法
CN110413755A (zh) * 2019-07-25 2019-11-05 腾讯科技(深圳)有限公司 一种问答库的扩充方法、装置及服务器、存储介质
CN112183091A (zh) * 2020-10-12 2021-01-05 深圳壹账通智能科技有限公司 问答对生成方法、装置、电子设备及可读存储介质
CN112527999A (zh) * 2020-12-22 2021-03-19 江苏省农业科学院 引入农业领域知识的抽取式智能问答方法及系统
CN113032531A (zh) * 2021-05-21 2021-06-25 北京金山数字娱乐科技有限公司 文本处理方法及装置
WO2023125335A1 (zh) * 2021-12-28 2023-07-06 华为技术有限公司 问答对生成的方法和电子设备
CN114357120A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 基于faq的无监督式检索方法、系统及介质
CN116680386A (zh) * 2023-06-16 2023-09-01 平安科技(深圳)有限公司 基于多轮对话的答案预测方法和装置、设备、存储介质
CN116805001A (zh) * 2023-06-26 2023-09-26 城云科技(中国)有限公司 适用于垂直领域的智能问答系统、方法及其应用
CN116910210A (zh) * 2023-07-06 2023-10-20 城云科技(中国)有限公司 基于文档的智能问答模型训练方法、装置及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multi-scale Attentive Interaction Networks for Chinese Medical Question Answer Selection;Zhang S;《IEEE Access》;20181231;摘要 *
一种面向中文自动问答的注意力交互深度学习模型;蒋锐;《计算机科学》;20230925;全文 *
基于卷积神经网络的多文本特征问答系统;郑惺;涂笑;陆海;;电脑知识与技术;20180125(03);全文 *

Also Published As

Publication number Publication date
CN117371404A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN110569353B (zh) 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN111581923A (zh) 文案生成方法、装置、设备和计算机可读存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN117668181A (zh) 信息处理方法、装置、终端设备以及存储介质
CN117153246A (zh) 一种基于肽语言模型的苦肽预测方法
CN112613322A (zh) 文本处理方法、装置、设备及存储介质
CN115545035B (zh) 一种文本实体识别模型及其构建方法、装置及应用
CN112509644B (zh) 一种分子优化方法、系统、终端设备及可读存储介质
CN117371404B (zh) 一种文本问答数据对生成方法及装置
CN108241650B (zh) 训练分类标准的训练方法和装置
CN113886520B (zh) 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质
CN114881003A (zh) 一种文本相似度识别方法、装置及应用
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN110928987B (zh) 基于神经网络混合模型的法律条文检索方法及相关设备
CN113742504A (zh) 以图搜图方法、装置、计算机程序产品和计算机程序
CN118379505B (zh) 一种城市道路积水分割模型的构建方法及构建装置
CN113378570B (zh) 一种实体识别模型的生成方法、计算设备及可读存储介质
CN113204955B (zh) 文本信息抽取系统、方法、计算机设备和存储介质
CN116991877B (zh) 一种结构化查询语句的生成方法、装置及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant