CN117892737A - 基于对比搜索算法优化的多问题自动生成方法 - Google Patents
基于对比搜索算法优化的多问题自动生成方法 Download PDFInfo
- Publication number
- CN117892737A CN117892737A CN202410277406.8A CN202410277406A CN117892737A CN 117892737 A CN117892737 A CN 117892737A CN 202410277406 A CN202410277406 A CN 202410277406A CN 117892737 A CN117892737 A CN 117892737A
- Authority
- CN
- China
- Prior art keywords
- search algorithm
- questions
- decoder
- data set
- automatic generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010845 search algorithm Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005457 optimization Methods 0.000 title claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 33
- 230000000052 comparative effect Effects 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 241000238366 Cephalopoda Species 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 2
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于对比搜索算法优化的多问题自动生成方法,属于大数据技术领域。所述基于对比搜索算法优化的多问题自动生成方法包括以下步骤:获取初始数据集并对所述初始数据集进行预处理;基于所述预处理后的数据集,对预设语言模型的解码器进行调整;基于所述预设语言模型和调整后的所述解码器,从预测单词候选集合中搜索并选择目标单词,以生成多个问题。通过以上步骤,能够缓解现有多样性问题生成的解码阶段生成问题单词重复以及语义信息丢失的弊端,进一步生成精度更好的多个问题,具有良好的应用前景。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及基于对比搜索算法优化的多问题自动生成方法。
背景技术
问题生成(Question Generation,QG)旨在根据上下文信息以及提示的答案信息,生成符合要求的问题。在教育领域、电商领域、医疗领域、对话领域等起着极为重要的作用,在这些领域中,均可看到问题生成在该领域中的广泛应用。例如:在教育领域可以辅助教师完成教学评估以及智能出题;在电商领域,可以辅助商家查询商品缺失的信息;在医疗领域,可以通过问题的形式辅助医生来诊断患者的疾病。然而,目前在多样性问题生成的任务研究中,语言模型的预训练过程存在着生成问题单词重复以及语义信息丢失的缺陷,因此也难以生成精度更高的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于对比搜索算法优化的多问题自动生成方法,旨在解决目前在多样性问题生成的任务研究中,语言模型的预训练过程存在着生成问题单词重复以及语义信息丢失的缺陷,因此也难以生成精度更高的问题的技术问题。
为实现上述目的,本发明提供一种基于对比搜索算法优化的多问题自动生成方法,所述基于对比搜索算法优化的多问题自动生成方法包括以下步骤:
获取初始数据集并对所述初始数据集进行预处理;
基于所述预处理后的数据集,对预设语言模型的编码器和解码器进行调整;
基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题。
可选地,所述获取初始数据集并对所述初始数据集进行预处理的步骤包括:
基于所述初始数据集,提取第一参考问题;
根据所述第一参考问题,生成多个语义相同词汇不同的待选择问题;
基于第一预训练模型,从所述待选择问题中选取第二参考问题;
将所述第二参考问题保存至所述初始数据集中,以得到所述预处理后的数据集。
可选地,所述根据所述第一参考问题,生成多个语义相同词汇不同的待选择问题的步骤包括:
遍历所述初始数据集中的参考问题;
加载基于T5释义的所述第一预训练模型;
将所述参考问题输入所述第一预训练模型,生成多个语义相似词汇不同的所述待选择问题。
可选地,所述基于所述预处理后的数据集,对预设语言模型的编码器和解码器进行调整的步骤包括:
基于所述预处理后的数据集,确定所述预设语言模型中编码器的第一输入序列和解码器的第二输入序列;
将所述第一输入序列加载至第二预训练模型中编码上下文的语义信息,以对所述编码器进行调整;
将所述第二输入序列输入所述解码器,以对所述解码器的输出端进行调整。
可选地,所述第二预训练模型为ProhetNet模型,所述ProhetNet模型的隐藏层维度为1024,前馈神经网络的维度为4096。
可选地,所述基于所述预处理后的数据集,确定所述预设语言模型中编码器的第一输入序列和解码器的第二输入序列的步骤包括:
提取所述预处理后的数据集中给定上下文对应的上下文序列和答案序列;
基于预分词器,将所述上下文序列和所述答案序列转换为所述编码器的第一输入序列;
提取所述预处理后的数据集中的第一参考问题和第二参考问题;
基于所述预分词器,将所述第一参考问题和所述第二参考问题转换为所述解码器的第二输入序列。
可选地,所述基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题的步骤包括:
在所述预设语言模型的解码器端引入对比搜索算法;
基于所述对比搜索算法,从所述解码器每一时间步输出的所述预测单词候选集合,选取所述目标单词;
基于所述目标单词,生成语义相似词汇不同的多个问题。
可选地,所述基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题的步骤之后,还包括:
计算生成的所述问题与参考问题之间的语义相似度;
计算生成的所述问题的单词多样性程度;
计算生成的所述问题的流畅性程度、精准率和召回率;
基于所述语义相似度、所述单词的多样性程度、所述流畅性程度、所述精准率和所述召回率,对生成的多个所述问题进行评估。
此外,为实现上述目的,本发明还提供一种基于对比搜索算法优化的多问题自动生成设备,所述基于对比搜索算法优化的多问题自动生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于对比搜索算法优化的多问题自动生成程序,所述基于对比搜索算法优化的多问题自动生成程序配置为实现如上所述的基于对比搜索算法优化的多问题自动生成方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于对比搜索算法优化的多问题自动生成程序,所述基于对比搜索算法优化的多问题自动生成程序被处理器执行时实现如上所述的基于对比搜索算法优化的多问题自动生成方法的步骤。
本发明通过提供一种基于对比搜索算法优化的多问题自动生成方法,获取初始数据集并对所述初始数据集进行预处理;基于所述预处理后的数据集,对预设语言模型的解码器进行调整;基于所述预设语言模型和调整后的所述解码器,从预测单词候选集合中搜索并选择目标单词,以生成多个问题。通过以上步骤,能够缓解现有多样性问题生成的解码阶段生成问题单词重复以及语义信息丢失的弊端,进一步生成精度更好的多个问题,具有良好的应用前景。
附图说明
图1为本发明基于对比搜索算法优化的多问题自动生成方法第一实施例的流程示意图;
图2为本发明基于对比搜索算法优化的多问题自动生成方法第二实施例的流程示意图;
图3为本发明基于对比搜索算法优化的多问题自动生成方法的数据集预处理流程图;
图4为本发明基于对比搜索算法优化的多问题自动生成方法的整体执行流程框架图;
图5是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于对比搜索算法优化的多问题自动生成方法,参照图1,图1为本发明一种基于对比搜索算法优化的多问题自动生成方法第一实施例的流程示意图。
本实施例中,所述基于对比搜索算法优化的多问题自动生成方法包括:
步骤S10、获取初始数据集并对所述初始数据集进行预处理。
在本实施例中,初始数据集为SQuAD1.1数据集,SQuAD1.1(Stanford QuestionAnswering Dataset,一种问答数据集)数据集包含了超过10,000个问题和对应的篇章,每个问题都有一个准确的答案,答案可以是篇章中的一个片段,用于机器阅读理解和自然语言处理的研究和开发任务。通过对SQuAD1.1数据集进行预处理,能够得到后续过程中模型训练所需的数据。参照图3,在对SQuAD1.1数据集进行预处理时,提取公开数据集SQuAD1.1中的参考问题,加载基于T5释义的第一预训练模型的预分词器以及模型参数,基于T5释义的预训练模型能够用于多种自然语言处理任务,通过给定一个单词或短语,能够生成其对应的释义。将基于数据集提取的第一参考问题输入到预分词器进行序列化,将其转化为T5模型所需要的格式,然后将序列化的问题输入到基于T5释义的预训练模型,经过编码器编码问题的语义信息,接着经过解码器解码,最终生成多个语义相同词汇多样的问题,得到多样性的问题生成数据集。
进一步地,为了有效得到质量更优和上下文信息更相关和可回答的问题,加载基于句子BERT(Bidirectional Encoder Representations from Transformers,一种预训练的自然语言处理模型)第二预训练模型的预分词器和模型,将第一参考问题和生成的问题利用预分词器转换为序列信息,然后将该序列信息作为模型的输入,输入到基于句子BERT的预训练模型,通过编码信息来得到参考问题和生成的问题之间的相似分数,最后挑选分数值最大的问题,作为第二参考问题,并保存在原始数据集的文件中,以此来得到质量更优的多样性问题生成数据集。其中,第二预训练模型BERT的预分词器,能够将输入的文本转换为模型所需的标记化表示形式,根据一定的规则和算法,将原始文本切分成有意义的词或子词。第一参考问题和第二参考问题的提取过程为现有技术,不作为本实施例公开重点。
在本实施例中,通过对初始数据集进行预处理,能够得到更加全面的数据集,便于后续对语言模型进行训练,达到更好的训练效果。
步骤S20、基于所述预处理后的数据集,对预设语言模型的编码器和解码器进行调整。
在本实施例中,基于已经预处理的数据集,对预设语言模型的编码器和解码器进
行调整,微调网络模型的输入端和输出端。本发明中采用的预设语言模型为基于序列到序
列的ProphetNet网络模型,该预训练模型ProphetNet的隐藏层大小为1024维,前馈神经网
络的维度大小为4096,学习率为1 ×。将模型训练所需要的数据输入到预训练语言模
型ProphetNet网络,并在解码端引入对比搜索算法,然后生成多个语义相似词汇多样的问
题。
进一步地,提取数据集中的上下文以及答案,经过预分词器转换为第一输入序列,然后将其作为模型编码器的输入,提取数据集中的第一参考问题和第二参考问题,将其经过预分词器转换为第二输入序列后,作为训练阶段模型解码器的输入。将处理得到的上下文和答案序列信息,加载到预训练模型ProphetNet中,编码上下文的语义信息,然后将此前处理得到的问题序列信息作为解码器的输入数据信息,进而微调解码器的输出端。
具体地,将步骤预处理得到的数据集,提取数据集中的上下文以及答案,即基于给
定上下文和相关答案,为了微调ProphetNet模型,适应多
样性问题生成。首先将编码器改写成X=(A,C),即X=()。为了方便表示
序列,将X表述为()。然后使用 ProphetNet模型的编码器对X进行编码,具体公
式如下:
(1)
其中表示编码后的源序列表示。
随后,提取数据集中的第一参考问题和第二参考问题,将其经过预分词器转换为
序列信息后,将其作为训练阶段模型解码器的输入,使用ProphetNet模型微调生成符合条
件的多个语义相似、词汇多样的问题。其中,c表示上下
文中的单词,m表示上下文的单词个数,a表示答案单词,p表示答案单词的个数,q表示生成
问题中的单词,表示生成第一参考问题的单词个数,表示生成第二参考问题的单词个
数,表示特殊字符。将处理得到的上下文和答案序列信息加载到序列到序列的预训练
模型ProphetNet中,编码上下文的语义信息,通过编码器-解码器的架构完成多个问题生
成。其中,序列到序列的预训练模型ProphetNet中,为了更进一步有效地表征上下文语义信
息,在编码时刻,除了原始Transformer(转换器)解码器的Mask多头自注意力机制外,模型
的N-Stream自注意力机制结合了n个额外的自注意力预测流,在每个时间步分别预测下一
个连续的n个未来单词。具体来说,第i个预测流负责对概率进行建模。第i个预
测流根据每个时间步的前一个主流隐藏状态,预测下一个第i个单词。当N=2时,则第1
个预测流的隐藏状态计算公式如下: (2)
其中表示时间步长为t−1的第1层预测流的第k+1层隐藏状态,表示拼接操
作。当注意力的值和关键字是主流的前t个隐藏状态时,为了计算时,作为注意力
的查询。另外,将作为注意力值和键来使成为位置感知。最后使用来预测。
类似地,第2个预测流的隐藏状态计算公式如下:
(3)
其中表示第2个预测流在时间步长t−1处的第k+1层隐藏状态,最终用于预测。虽然预测的和预测的的计算非常相似,但通过不同的初始化标记、绝对
位置嵌入和相对位置计算可以有效地区分两者的差别。由于每个预测流都是用特殊单词而
不是前一个单词初始化得到的,因此将绝对位置嵌入和T5提出的桶相对位置计算相结合,
以增强解码器中的位置信息。
进一步地,为了更好地编码上下文的语义信息,ProphetNet在每一时间步t,将原
来预测的下一个字符转换为。其中表示下一个连续的n个未
来单词字符。即同时预测下一个n个未来的单词字符。其中ProphetNet使用了一个具有多头
自关注机制的多层Transformer编码器和一个具有所提出的多头流的自注意力机制的多层
Transformer解码器。
在解码器方面,为了更好地预测一下单词,不仅仅预测下一个单词,而且在每个时间步,该模型的解码器均预测未来的n个单词。预测未来的n个单词的具体公式如下:
(4)
其中,解码器在每个时间步长输出n个概率。未来的n-gram预测目标的损失函数具体公式如下:
(5)
n−1个未来单词预测损失中,使用传统的教师强迫机制,迫使模型预测未来目标的单词。未来的n元预测损失明确地鼓励模型为未来的单词预测做计划,并防止在强局部相关性上过拟合。
为了更好地平衡传统语言建模和未来的N-gram预测,引入来平衡两者之间的权
重,并将与功率衰减函数具体公式采用如下表达式:
(6)
其中γ是衰减系数。
在本实施例中,通过对语言模型的解码器和编码器进行训练调整,并利用调整后的语言模型进行多个多样性问题的输出,能够缓解现有多样性问题生成的解码阶段生成问题单词重复以及语义信息丢失的弊端。
步骤S30、基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题。
在本实施例中,参照图4,在解码端引入对比搜索算法,在每个解码步骤中,生成的输出应该从模型预测最可能的候选集合中选择且生成的输出应该与之前的上下文有足够区别的单词。此时生成的文本可以更好地保持相对于前缀的语义一致性以及防止语义信息的丢失,同时避免生成重复的问题单词。
进一步地,在解码端引入对比搜索算法,通过对解码器每一时间步输出的单词进
行优化,从模型预测的最可能的候选集合中结合选择最佳的单词,最终生成高质量的语义
相似,词汇多样的多个问题,即通过在每个解码步骤中,生成的输出单词先从模型预测最可
能的候选集合中选择且生成的输出应该与之前的上下文有足够区别的单词。如此一来,生
成的文本可以更好地保持相对于前缀的语义一致性以及语义信息的丢失,同时避免生成重
复的问题单词。需要说明的是,选取目标单词和根据目标单词生成语义相似词汇不同的多
个问题这一过程采用了现有技术,不作为本实施例公开重点。形式上,在每一个时间步t,给
定已经生成的问题单词Y=(),选择输出的表示如下:
(7)
其中,模型概率分布的前 k 个预测集, 和k通常设为3 ~ 10。在等式
(7)中,第一项为模型置信度,是模型预测的候选 v 的概率。第二项为退化惩罚,衡量候选v相对于之前的上下文q,具体定义为v的
表示与x<t中所有标记的表示之间的最大余弦相似度。v 的退化惩罚越大意味着它与上下
文更相似,因此更有可能导致模型退化。候选表示 是由给定 x<t 和 v 串联的模型计算
的。直观上,v 的退化惩罚越大意味着它与上下文更相似,因此更有可能导致模型退化。超
参数 调节这两个分量的重要性。当=0时,对比搜索退化为贪婪搜索方法。
在本实施例中,通过对解码器每一时间步输出从模型预测的最可能的候选集合中挑选单词选择最佳的单词,最终生成高质量的语义相似,词汇多样的多个问题。因此,能够缓解现有多样性问题生成的解码阶段生成问题单词重复以及语义信息丢失的弊端,进一步生成精度更好的多个问题,从而将其应用到教育领域、对话领域、电商领域等。
参照图2,本发明第二实施例,所述步骤S30之后还包括以下步骤:
步骤S40、计算生成的所述问题与参考问题之间的语义相似度。
步骤S50、计算生成的所述问题的单词多样性程度。
步骤S60、计算生成的所述问题的流畅性程度、精准率和召回率。
步骤S70、基于所述语义相似度、所述单词的多样性程度、所述流畅性程度、所述精准率和所述召回率,对生成的多个所述问题进行评估。
在本实施例中,为了有效验证生成的多个问题,本发明还使用多个评估指标对生成的问题进行验证,包括生成问题与参考问题之间的语义相似度、生成问题的单词多样性、生成问题的流畅性、精准率和召回率等。可选地,在一可行的实施方式中,还可以采用PING评价指标,PING评价指标是启发式评估指标,使用PINC来测量问题对之间的N-gram重叠。具体而言,对于生成的两个问题q1和q2,通过将两个生成的问题分别进行分词,并存储到相应的集合中,然后求取两个集合中的单词的交集,以便计算相应的PINC分数。本发明分别使用Q1-Q2、C-Q1、C-Q2评估问题之间、上下文与生成的第一个问题、上下文与生成的第二个问题的PING分值。QA评估指标是问答系统的评估指标,基于标记的衡量标准以及考虑部分单词匹配所提出的,为了衡量生成的问题质量,在给定上下文的情况下是否可以被用于回答。本发明分别使用QA1, QA2评估生成两个问题的质量。此外,还可以采用SBERT指标:首先将每个问题的单词进行词嵌入编码,并计算机每对嵌入之间的余弦相似度。用于测量生成问题之间的语义相似性,从而确保问题评估相同的内容以及单词的多样性。Top-1 Metric:这测量生成的k个最佳假设中Top-1的准确性。使用语料库级度量来测量精度,即BLEU-4的指标。以上指标从语义相似、词汇多样、可回答性等多个方面对生成的问题进行评估。以上指标的计算过程为现有技术,不作为本实施例公开重点。
在本实施例中,为了可以更有效地验证本发明模型的性能,从不同的方面验证生成问题的质量以及词汇多样性,从精度、召回率、可回答性以及语义相似度等角度进行验证。
参照图5,图5为本发明实施例方案涉及的硬件运行环境的基于对比搜索算法优化的多问题自动生成设备结构示意图。
如图5所示,该基于对比搜索算法优化的多问题自动生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图5中示出的结构并不构成对基于对比搜索算法优化的多问题自动生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种存储介质的存储器1005中可以包括操作系统、存储器、网络通信模块、用户接口模块以及基于对比搜索算法优化的多问题自动生成程序。
在图5所示的基于对比搜索算法优化的多问题自动生成设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于对比搜索算法优化的多问题自动生成设备中的处理器1001、存储器1005可以设置在基于对比搜索算法优化的多问题自动生成设备中,所述基于对比搜索算法优化的多问题自动生成设备通过处理器1001调用存储器1005中存储的基于对比搜索算法优化的多问题自动生成程序,并执行以下步骤:
获取初始数据集并对所述初始数据集进行预处理;
基于所述预处理后的数据集,对预设语言模型的编码器和解码器进行调整;
基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题。
进一步地,所述基于对比搜索算法优化的多问题自动生成设备通过处理器1001调用存储器1005中存储的基于对比搜索算法优化的多问题自动生成程序,还执行以下步骤:
基于所述初始数据集,提取第一参考问题;
根据所述第一参考问题,生成多个语义相同词汇不同的待选择问题;
基于第一预训练模型,从所述待选择问题中选取第二参考问题;
将所述第二参考问题保存至所述初始数据集中,以得到所述预处理后的数据集。
可选地,所述根据所述第一参考问题,生成多个语义相同词汇不同的待选择问题的步骤包括:
遍历所述初始数据集中的参考问题;
加载基于T5释义的所述第一预训练模型;
将所述参考问题输入所述第一预训练模型,生成多个语义相似词汇不同的所述待选择问题。
可选地,所述基于所述预处理后的数据集,对预设语言模型的编码器和解码器进行调整的步骤包括:
基于所述预处理后的数据集,确定所述预设语言模型中编码器的第一输入序列和解码器的第二输入序列;
将所述第一输入序列加载至第二预训练模型中编码上下文的语义信息,以对所述编码器进行调整;
将所述第二输入序列输入所述解码器,以对所述解码器的输出端进行调整。
可选地,所述第二预训练模型为ProhetNet模型,所述ProhetNet模型的
隐藏层维度为1024,前馈神经网络的维度为4096。
可选地,所述基于所述预处理后的数据集,确定所述预设语言模型中编码器的第一输入序列和解码器的第二输入序列的步骤包括:
提取所述预处理后的数据集中给定上下文对应的上下文序列和答案序列;
基于预分词器,将所述上下文序列和所述答案序列转换为所述编码器的第一输入序列;
提取所述预处理后的数据集中的第一参考问题和第二参考问题;
基于所述预分词器,将所述第一参考问题和所述第二参考问题转换为所述解码器的第二输入序列。
可选地,所述基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题的步骤包括:
在所述预设语言模型的解码器端引入对比搜索算法;
基于所述对比搜索算法,从所述解码器每一时间步输出的所述预测单词候选集合,选取所述目标单词;
基于所述目标单词,生成语义相似词汇不同的多个问题。
可选地,所述基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题的步骤之后,还包括:
计算生成的所述问题与参考问题之间的语义相似度;
计算生成的所述问题的单词多样性程度;
计算生成的所述问题的流畅性程度、精准率和召回率;
基于所述语义相似度、所述单词的多样性程度、所述流畅性程度、所述精准率和所述召回率,对生成的多个所述问题进行评估。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述基于对比搜索算法优化的多问题自动生成方法包括以下步骤:
获取初始数据集并对所述初始数据集进行预处理;
基于所述预处理后的数据集,对预设语言模型的编码器和解码器进行调整;
基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题。
2.如权利要求1所述的基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述获取初始数据集并对所述初始数据集进行预处理的步骤包括:
基于所述初始数据集,提取第一参考问题;
根据所述第一参考问题,生成多个语义相同词汇不同的待选择问题;
基于第一预训练模型,从所述待选择问题中选取第二参考问题;
将所述第二参考问题保存至所述初始数据集中,以得到所述预处理后的数据集。
3.如权利要求2所述的基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述根据所述第一参考问题,生成多个语义相同词汇不同的待选择问题的步骤包括:
遍历所述初始数据集中的参考问题;
加载基于T5释义的所述第一预训练模型;
将所述参考问题输入所述第一预训练模型,生成多个语义相似词汇不同的所述待选择问题。
4.如权利要求1所述的基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述基于所述预处理后的数据集,对预设语言模型的编码器和解码器进行调整的步骤包括:
基于所述预处理后的数据集,确定所述预设语言模型中编码器的第一输入序列和解码器的第二输入序列;
将所述第一输入序列加载至第二预训练模型中编码上下文的语义信息,以对所述编码器进行调整;
将所述第二输入序列输入所述解码器,以对所述解码器的输出端进行调整。
5.如权利要求4所述的基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述第二预训练模型为ProhetNet模型,所述ProhetNet模型的隐藏层维度为1024,前馈神经网络的维度为4096。
6.如权利要求4所述的基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述基于所述预处理后的数据集,确定所述预设语言模型中编码器的第一输入序列和解码器的第二输入序列的步骤包括:
提取所述预处理后的数据集中给定上下文对应的上下文序列和答案序列;
基于预分词器,将所述上下文序列和所述答案序列转换为所述编码器的第一输入序列;
提取所述预处理后的数据集中的第一参考问题和第二参考问题;
基于所述预分词器,将所述第一参考问题和所述第二参考问题转换为所述解码器的第二输入序列。
7.如权利要求1所述的基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题的步骤包括:
在所述预设语言模型的解码器端引入对比搜索算法;
基于所述对比搜索算法,从所述解码器每一时间步输出的所述预测单词候选集合,选取所述目标单词;
基于所述目标单词,生成语义相似词汇不同的多个问题。
8.如权利要求1所述的基于对比搜索算法优化的多问题自动生成方法,其特征在于,所述基于调整后的所述预设语言模型,从预测单词候选集合中搜索并选择目标单词,以生成多个问题的步骤之后,还包括:
计算生成的所述问题与参考问题之间的语义相似度;
计算生成的所述问题的单词多样性程度;
计算生成的所述问题的流畅性程度、精准率和召回率;
基于所述语义相似度、所述单词的多样性程度、所述流畅性程度、所述精准率和所述召回率,对生成的多个所述问题进行评估。
9.一种基于对比搜索算法优化的多问题自动生成设备,其特征在于,所述基于对比搜索算法优化的多问题自动生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于对比搜索算法优化的多问题自动生成程序,所述基于对比搜索算法优化的多问题自动生成程序配置为实现如权利要求1至8中任一项所述的基于对比搜索算法优化的多问题自动生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于对比搜索算法优化的多问题自动生成程序,所述基于对比搜索算法优化的多问题自动生成程序被处理器执行时实现如权利要求1至8任一项所述的基于对比搜索算法优化的多问题自动生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277406.8A CN117892737A (zh) | 2024-03-12 | 2024-03-12 | 基于对比搜索算法优化的多问题自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277406.8A CN117892737A (zh) | 2024-03-12 | 2024-03-12 | 基于对比搜索算法优化的多问题自动生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117892737A true CN117892737A (zh) | 2024-04-16 |
Family
ID=90651998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410277406.8A Pending CN117892737A (zh) | 2024-03-12 | 2024-03-12 | 基于对比搜索算法优化的多问题自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117892737A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115840815A (zh) * | 2022-12-09 | 2023-03-24 | 桂林电子科技大学 | 基于指针关键信息的自动摘要生成方法 |
CN116050401A (zh) * | 2023-03-31 | 2023-05-02 | 云南师范大学 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
-
2024
- 2024-03-12 CN CN202410277406.8A patent/CN117892737A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115840815A (zh) * | 2022-12-09 | 2023-03-24 | 桂林电子科技大学 | 基于指针关键信息的自动摘要生成方法 |
CN116050401A (zh) * | 2023-03-31 | 2023-05-02 | 云南师范大学 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
Non-Patent Citations (1)
Title |
---|
MINGTAO ZHOU 等: "Diversity question generation based on contrastive search algorithm", 《RESEARCH SQUARE》, 30 January 2024 (2024-01-30), pages 1 - 22 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414464B (zh) | 一种问题生成方法、装置、设备及存储介质 | |
EP3832519A1 (en) | Method and apparatus for evaluating translation quality | |
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
US20220292269A1 (en) | Method and apparatus for acquiring pre-trained model | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN108845990A (zh) | 基于双向注意力机制的答案选择方法、装置和电子设备 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
WO2021082086A1 (zh) | 机器阅读方法、系统、装置及存储介质 | |
CN114780703A (zh) | 问答模型的确定方法、问答方法、装置、介质、设备 | |
CN110688450A (zh) | 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN115409038A (zh) | 自然语言处理方法及装置、电子设备和存储介质 | |
CN114757184A (zh) | 实现航空领域知识问答的方法和系统 | |
CN113807512B (zh) | 机器阅读理解模型的训练方法、装置及可读存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117235347A (zh) | 一种基于大语言模型的青少年算法代码辅助学习系统及方法 | |
CN115827879A (zh) | 基于样本增强和自训练的低资源文本智能评阅方法和装置 | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 | |
CN117892737A (zh) | 基于对比搜索算法优化的多问题自动生成方法 | |
Lv et al. | StyleBERT: Chinese pretraining by font style information | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN116306596B (zh) | 一种结合多重特征进行中文文本拼写检查的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |