CN117112743A

CN117112743A - 文本自动生成问题的可回答性评估方法、系统及存储介质

Info

Publication number: CN117112743A
Application number: CN202310918499.3A
Authority: CN
Inventors: 张玲玲; 岳浩; 刘均; 魏笔凡; 郑玉龙; 郑庆华; 张泽民; 仉珂
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-11-24

Abstract

一种文本自动生成问题的可回答性评估方法、系统及存储介质，评估方法包括以下步骤：获取数据集并进行数据集扩充，得到增强数据；通过使用多个问答模型对所述增强数据进行标注并投票，得到标注数据集；对所述标注数据集中的上下文与问题进行编码，并将上下文特征与问题特征进行融合，得到问题融合上下文后的嵌入表示；利用问题融合上下文后的嵌入表示，基于对比学习模型对问题进行可回答性的评估。同时还公开了一种文本自动生成问题的可回答性评估系统及存储介质。本发明通过引入上下文信息，以及对比学习模型，解决了现有评估问题可回答性的方法与人类评估的相关性不高，且评估时未引入上下文信息的问题，实现了对问题的可回答性进行充分评估。

Description

文本自动生成问题的可回答性评估方法、系统及存储介质

技术领域

本发明属于互联网在线学习领域，具体涉及一种文本自动生成问题的可回答性评估方法、系统及存储介质。

背景技术

随着互联网技术的快速发展，科研工作者在教育领域不断地探索和利用互联网技术，以提高教育效果。在线资源的广泛普及和在线学习的盛行，为学习者提供了更便捷、更多样的学习方式。在线学习平台不仅提供了丰富的学习资源，还可以让学习者选择最适合自己的学习方式，来提高学习效率。这就使得在线学习平台受到学生和家长的追捧，并在现代教育中扮演着越来越重要的角色。

在传统教育中，教师通过向学生提问的方式来评估其对知识的理解和掌握程度。然而，在大规模在线学习中，由于生成测验中的问题需要耗费大量时间、精力以及在线学习资料数量剧增，导致问题的生成变得更加困难，因此许多国内外研究者开始探索如何使用计算机来自动生成问题，以提高教学效率和效果。自动生成问题需要高效的算法和技术，难度较大，这就导致问题生成模型仍然会生成较多不可回答的问题，而目前的评估方法大多都是评估问题相似性的方法，且现有评估问题可回答性的方法存在以下问题，一方面是对可回答性的评估结果与人类评估的相关性不高，另一方面是评估时未考虑上下文信息，这就导致在对生成的问题进行评估时，无法对问题的可回答性进行充分的评估。因此，如何对问题的可回答性进行充分评估是一项亟待解决的挑战。

发明内容

本发明的目的在于提供一种文本自动生成问题的可回答性评估方法、系统及存储介质，通过引入上下文信息，以及对比学习模型，解决了现有评估问题可回答性的方法与人类评估的相关性不高，且评估时未引入上下文信息的问题。

为了实现上述目的，本发明有如下的技术方案：

第一方面，提供一种文本自动生成问题的可回答性评估方法，包括以下步骤：

获取数据集并进行数据集扩充，得到增强数据；

通过使用多个问答模型对所述增强数据进行标注并投票，得到标注数据集；

对所述标注数据集中的上下文与问题进行编码，并将上下文特征与问题特征进行融合，得到问题融合上下文后的嵌入表示；

利用问题融合上下文后的嵌入表示，基于对比学习模型对问题进行可回答性的评估。

作为一种优选方案，所述数据集扩充的步骤包括：

随机抽取一定比例的不属于同一上下文的问题，作为扩增数据的源数据，并使用获取相关上下文的方法对上下文数据进行扩增；

随机选取一定比例的上下文，作为扩增数据的源数据，并使用获取相关问题的方法对选取的上下文进行问题扩充。

作为一种优选方案，所述获取相关上下文的方法包括：

使用搜索引擎检索与问题相关的若干个片段，再通过相关性算法计算相关度，对相关度排序得到若干个较相关的上下文，组合为一个新的未标记样本。

作为一种优选方案，所述获取相关问题的方法包括：

使用语义匹配对当前数据中的所有问题进行语义嵌入表示，生成一个问题语义库，当输入一个查询问题时，由问题语义库输出与查询问题语义最相近的问题；

使用互译的方法，利用翻译技术将源问题转换为另一种语言，再通过翻译将另一种语言翻译回原语言；

使用同义替换的方法，通过将问题中的一些词汇替换为同义词汇，生成新的问题，并保持与源问题的语义相近，在替换时，对问题中的词汇进行遍历，随机替换其中一定比例的词汇为同义词汇。

作为一种优选方案，在所述通过使用多个问答模型对所述增强数据进行标注并投票的步骤中，问答模型选择Distilbert-Base-Cased-Distilled-Squad、Roberta-base forQA和ChatGPT，采取少数服从多数的原则，Distilbert-Base-Cased-Distilled-Squad和Roberta-base for QA采取对模型直接输入上下文及对应问题进行回答，而ChatGPT采取模板形式提问，并对以上问答模型构建投票机制。

作为一种优选方案，对所述标注数据集中的上下文与问题进行编码的步骤包括：

生成上下文的序列表示，在文本开始添加“cls”，表达式如下：

C＝[cls,t₁,t₂,…t_maxlen-1]

式中，t表示上下文中的词汇与标点，cls为特殊词汇，位于句首，用于标记整个句子；

按下式在词表中查找词汇所在的编号：

input＝V_lookup(C)

式中，V_lookup表示查找方法，用于返回词汇在词表中的索引；

按下式将input映射为词嵌入向量：

E_c＝WordEmbedding(input)

式中，WordEmbedding表示将序列映射为向量序列，E_c为上下文的嵌入表示；

按下式将词汇的位置信息进行编码：

P_C＝pos(input)*W^p

式中，P_C表示上下文的位置嵌入表示，pos表示获取字符在句子中的位置的方法，W^P表示计算P_C的权重参数；

按下式将E_c与P_C进行求和：

X_c＝E_c+P_C

式中，X_c表示嵌入向量E_c与位置向量P_C之和；

将X_c使用自注意力机制变换成Q_c，V_c，K_c：

Q_c＝W^qX_c

V_c＝W^vX_c

K_c＝W^kX_c

式中，W^q，W^v，W^k分别表示计算Q_c，V_c，K_c的权重参数；

经过自注意力变换以后，将Q_c，V_c，K_c经过激活函数softmax聚合起来的Z_c和X_c进行加和得到自注意力矩阵计算表达式如下：

按下式对自注意力矩阵归一化：

式中，LayerNorm表示对矩阵进行归一化；

使用前馈网络进行映射激活后得到再进行归一化：

使用第一个位置上“cls”的特征向量作为上下文的表征e_c；

将以上步骤表示为e_c＝BERT₁[0]，BERT表示使用BERT模型对文本进行特征提取；

按照相同方法分别对锚点问题、正例问题、负例问题使用的BERT模型进行嵌入表示：

e_a＝BERT₂[0]

e_p＝BERT₂[0]

e_n＝BERT₂[0]

式中，e_a为锚点样本嵌入表示，e_p为正例样本嵌入表示，e_n为负样本嵌入表示。

作为一种优选方案，将上下文特征与问题特征进行融合的步骤包括：

在输入中将e_c分别与e_a，e_p，e_n进行融合：

t_a＝e_c+e_a

t_p＝e_c+e_p

t_n＝e_c+e_n

式中，t_a为锚点样本融合上下文后的表示，t_p为正例样本融合上下文后的表示，t_n为负样本融合上下文后的表示；

再经过多层感知器进行特征学习：

h_a＝MLP(t_a)

h_p＝MLP(t_p)

h_n＝MLP(t_n)

式中，h_a为锚点样本隐藏态向量，h_p为正例样本隐藏态向量，h_n表示负样本隐藏态向量。

作为一种优选方案，所述利用问题融合上下文后的嵌入表示，基于对比学习模型对问题进行可回答性的评估包括：

在文本分类任务中，将一个给定的文本样本转化为一个向量表示，然后使用Triplet loss来最小化同一类别的文本样本之间的距离，同时最大化不同类别之间的距离，这样将具有相似特点的样本映射到相似的嵌入空间中，通过该损失函数实现对比学习，计算表达式如下：

式中，N代表每个样本隐藏态向量长度，i代表样本中第i个隐藏态向量，α为间隔参数，d为距离函数，用于计算两个变量之间的相似性。

第二方面，提供一种文本自动生成问题的可回答性评估系统，包括：

数据增强模块，用于获取数据集并进行数据集扩充，得到增强数据；

标注投票模块，用于通过使用多个问答模型对所述增强数据进行标注并投票，得到标注数据集；

编码融合模块，用于对所述标注数据集中的上下文与问题进行编码，并将上下文特征与问题特征进行融合，得到问题融合上下文后的嵌入表示；

对比评估模块，用于利用问题融合上下文后的嵌入表示，基于对比学习模型对问题进行可回答性的评估。

第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述文本自动生成问题的可回答性评估方法。

相较于现有技术，本发明至少具有如下的有益效果：

基于对比学习和上下文感知进行可回答性评估，通过引入上下文信息以及对比学习模型，解决了现有评估问题可回答性的方法与人类评估相关性不高且未引入上下文信息的问题。从教育领域文本获取相关的数据集，对数据集中的数据进行评估和分析，通过进行数据集扩充以增强对比学习的效果。使用多个问答模型回答问题并投票的方法对每个上下文-问题对进行标注，集合了多个问答模型的各自优势，提高了对增强数据的标注效果。对标注数据集中的上下文与问题进行编码，并将上下文特征与问题特征进行融合，在输入中融合上下文信息，使得模型可以感知上下文。基于对比学习模型对问题进行可回答性的评估时，输入为经过扩充的数据集中的上下文-问题对，输出为该问题的可回答性分数，分数最大为1，越接近于1说明问题可以回答的可能性越高。本发明实现了对问题的可回答性进行充分评估。

附图说明

为了更加清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作以简单地介绍，应当理解，以下附图仅示出了本发明部分实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1本发明实施例的问题可回答性评估方法流程图；

图2本发明实施例方法中进行数据集扩充的流程图；

图3本发明实施例方法中进行可回答性分数计算流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员还可以在没有做出创造性劳动的前提下获得其他实施例。

本发明文本自动生成问题的可回答性评估方法主要包括，从教育领域文本获取相关的数据集，对数据集中的数据进行评估和分析。接着提取数据集中的部分上下文和问题，通过使用搜索引擎和相关性计算方法获取与问题相关的上下文，对上下文进行扩充；通过使用语义匹配、互译和同义替换方法获取与问题意义相近的问题，对问题进行扩充；通过使用多个问答模型回答问题并投票的方法对每个上下文-问题对进行标注，扩充数据集。基于对比学习的模型算法对问题进行可回答性的评估，该模块的输入为经过扩充的数据集中的上下文-问题对。输出为该问题的可回答性分数，分数最大为1，越接近于1说明问题可以回答的可能性越高。

请参阅图1，本发明实施例文本自动生成问题的可回答性评估方法具体包括以下步骤：

步骤一：获取数据集以及数据集扩充：

通过对数据集进行调研，发现包含不可回答类型问题的数据集仅有SQuAD 2.0和DuoRC。SQuAD(Stanford Question Answering Dataset)是一个基于阅读理解任务的数据集，旨在测试机器阅读理解的能力。SQuAD 1.1是该数据集的第一个版本，每一个问题都有对应的上下文。根据统计数据显示，不可回答的负样本在问答数据集中占比较少。为了解决这一问题，本发明实施例采取数据扩充的方法，通过增加负样本数量以增强对比学习的效果。

如图2所示，数据扩充步骤如下：

1.数据处理

为了从数据集中提取到上下文-问题对，实施例使用以下两种处理方法：

(1)随机抽取20％的不属于同一上下文的问题，作为扩增数据的源数据，并使用获取相关上下文的方法对这些数据进行扩增。

(2)随机选取20％的上下文，作为扩增数据的源数据，并使用获取相关问题的方法对这些上下文进行问题扩充。

2.数据扩充

在对数据进行初步处理后，本发明实施例采用了两种方法来增强数据，以支撑后续的文本分类对比学习。

(1)相关上下文扩充方法

相关上下文扩充方法是使用搜索引擎检索问题，搜索引擎会返回与问题相关的若干个片段，再通过相关性算法对，本发明实施例通过对前十个结果与上下文计算相关性，按照相关度进行排序，选取前三个最相关的上下文，组合为一个新的未标记样本。

(2)相关问题扩充方法

相关问题扩充的方法是为了对给定的问题进行扩充，以生成与之语义最相近的问题。本发明实施例采用了三种手段：首先，是使用语义匹配会对当前数据中的所有问题进行语义嵌入表示，生成一个问题语义库。当输入一个查询问题时，语义库会输出与查询问题语义最相近的问题。然后，使用了互译的方法，其利用成熟的翻译技术将源问题转换为另一种语言，再通过翻译将其翻译回原语言。最后，使用同义替换的方法，通过将问题中的一些词汇替换为同义词汇，生成新的问题，并保持与源问题的语义相近。在替换时，对问题中的词汇进行遍历，随机替换其中30％的词汇为同义词汇。

3.问答模型投票

通过使用问答模型回答问题并投票的方法对每个上下文-问题对进行标注。本发明实施例使用了三个不同的问答模型来进行标注，分别是：Distilbert-Base-Cased-Distilled-Squad、Roberta-base for QA和ChatGPT，采取少数服从多数的原则，使用的问答模型在问答相关领域都有较优的表现。Distilbert-Base-Cased-Distilled-Squad和Roberta-base for QA采取的对模型直接输入上下文-问题进行回答，而ChatGPT本文采取的模板提问，模板形式为：“Can the following questions be answered from thepassage？just answer YES OR NO.”。通过构建以上问答模型投票机制，对增强后的数据进行处理。

参见图3，步骤二：对步骤一处理后的数据进行上下文与问题编码。

本发明实施例方法对上下文采用BERT模型进行编码，下面将详细介绍编码过程，首先生成上下文的序列表示，在文本开始添加“cls”：

C＝[cls,t₁,t₂,…t_maxlen-1]

式中，t表示上下文中的词汇与标点等，cls为特殊词汇，位于句首，该位置用于标记整个句子。

随后在词表中查找词汇所在的编号：

input＝V_lookup(C)

式中，V_lookup表示查找方法，用于返回词汇在词表中的索引。

接着将input映射为词嵌入向量：

E_c＝WordEmbedding(input)

式中，WordEmbedding为词嵌入技术，用于将序列映射为向量序列，E_c为上下文的嵌入表示。

除了对词进行嵌入表示外，还需要将词汇的位置信息进行编码，表达式如下：

P_C＝pos(input)*W^p

式中，P_C表示上下文的位置嵌入表示，pos表示获取字符在句子中的位置的方法。W^p表示计算P_C的权重参数。

将E_c与P_C进行求和：

X_c＝E_c+P_C

式中，X_c表示嵌入向量E_c与位置向量P_C之和。

将X_c使用自注意力机制变换成Q_c，V_c，K_c：

Q_c＝W^qX_c

V_c＝W^vX_c

K_c＝W^kX_c

式中，W^q，W^v，W^k分别表示计算Q_c，V_c，K_c的权重参数。

经过自注意力变换以后，将Q_c，V_c，K_c经过激活函数softmax聚合起来的Z_c和X_c进行加和得到自注意力矩阵公式如下：

对自注意力矩阵归一化，公式如下：

式中，LayerNorm表示对矩阵进行归一化。

最后使用前馈网络进行映射激活后得到再进行归一化。

最终使用第一个位置上“cls”的特征向量作为上下文的表征e_c，为了方便描述，后文统一用BERT表示使用BERT模型对文本进行特征提取。

将以上步骤简写为e_x＝BERT₁[0]，在完成对上下文进行编码后，需要对问题进行编码。接下来对锚点问题、正例问题、负例问题三类问题使用的BERT模型进行嵌入表示：

e_a＝BERT₂[0]

e_p＝BERT₂[0]

e_n＝BERT₂[0]

步骤三：将上下文特征与问题特征进行融合。

本步骤通过将上下文特征与问题特征进行融合，在输入中融合上下文信息，使得模型可以感知上下文。将e_c分别与e_a，e_p，e_n进行融合。

t_a＝e_c+e_a

t_p＝e_c+e_p

t_n＝e_c+e_n

式中，t_a为锚点样本融合上下文后的表示，t_p为正例样本融合上下文后的表示，t_n为负样本融合上下文后的表示。

再经过多层感知器(MLP)进行特征学习。

h_a＝MLP(t_a)

h_p＝MLP(t_p)

h_n＝MLP(t_n)

步骤四：计算损失函数。

Triplet loss是一种损失函数，常用于训练神经网络模型。其目标是将同一类别的数据点聚集在一起，同时将不同类别的数据点分开。在文本分类任务中，对于一个给定的文本样本，可以将其转化为一个向量表示，然后使用Triplet loss来最小化同一类别的文本样本之间的距离，同时最大化不同类别之间的距离。这样可以将具有相似特点的样本映射到相似的嵌入空间中，从而提高文本分类任务的性能，本步骤通过该损失函数实现对比学习，计算方式如下：

式中，N代表每个样本隐藏态向量长度，i代表样本中第i个隐藏态向量。α为间隔(Margin)参数，d为距离函数，用于计算两个变量之间的相似性。

步骤五：实验结果与分析

相关性分析是用来验证算法结果与人工标注分数之间的相关性的方法。

数据集：simQG数据集，该数据集标注了问题的可回答性分数，利用相关性分析来检测可回答性模型输出的分数与人工标注分数之间的相关性。

对比方法：本实施例实验对比了Q-Metric方法，该方法基于相似性来衡量问题的可回答性。其中，Metric可选取基于词汇相似性的方法作为基础方法，本实施例实验选择了BLEU4作为基础方法。实验设置和实验平台与本发明方案保持一致。

评估指标：对比指标采取Pearson、Spearman和Kendall相关系数分析。除了可回答性评估方法外，还对比了问题生成领域的其他评估方法。在使用这些方法时，将上下文与问题作为相似评估方法的输入。

表1实验结果

根据表1可以看出：本发明提出的可回答性评估方法相对于Q-BLEU4模型在人工评估相关性分析实验中表现更好。具体来说，在三个评价指标(Pearson、Spearman和Kendall)上的得分都高于Q-BLEU4模型。其中，本发明的模型在Pearson和Spearman系数上的得分分别比Q-BLEU4高出0.134和0.137，而在Kendall系数上的得分则高出0.138。而其他相似评估方法，如BLEU4、ROUGE-L和METEOR这类基于词汇相似评估方法的结果偏低。这是由于步骤在对比时输入的是上下文与问题，并且上下文长度远长于问题，进一步导致了结果偏低，这也印证所提到的现有方法无法对可回答性进行评估。此外，基于语义相似评估方法BLEURT和BertScore，这一类方法与基于词汇的方法相比结果偏高。这是因为基于预训练语言模型的方法具有各项异性，即使输入上下文远长于问题，也会导致计算结果偏高。总的来说，本发明所提出的方法在与其他方法相比更加接近人工评估的结果。

本发明另一实施例还提出一种文本自动生成问题的可回答性评估系统，包括：

本发明另一实施例还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述文本自动生成问题的可回答性评估方法。

示例性的，所述存储器中存储的指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在计算机可读存储介质中，并由所述处理器执行，以完成本发明所述文本自动生成问题的可回答性评估方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机程序在服务器中的执行过程。

所述电子设备可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述电子设备还可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是所述服务器的内部存储单元，例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述模块单元之间的信息交互、执行过程等内容，由于与方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本自动生成问题的可回答性评估方法，其特征在于，包括以下步骤：

获取数据集并进行数据集扩充，得到增强数据；

2.根据权利要求1所述文本自动生成问题的可回答性评估方法，其特征在于，所述数据集扩充的步骤包括：

3.根据权利要求2所述文本自动生成问题的可回答性评估方法，其特征在于，所述获取相关上下文的方法包括：

4.根据权利要求2所述文本自动生成问题的可回答性评估方法，其特征在于，所述获取相关问题的方法包括：

5.根据权利要求1所述文本自动生成问题的可回答性评估方法，其特征在于，在所述通过使用多个问答模型对所述增强数据进行标注并投票的步骤中，问答模型选择Distilbert-Base-Cased-Distilled-Squad、Roberta-base for QA和ChatGPT，采取少数服从多数的原则，Distilbert-Base-Cased-Distilled-Squad和Roberta-base for QA采取对模型直接输入上下文及对应问题进行回答，而ChatGPT采取模板形式提问，并对以上问答模型构建投票机制。

6.根据权利要求1所述文本自动生成问题的可回答性评估方法，其特征在于，对所述标注数据集中的上下文与问题进行编码的步骤包括：

C＝[cls,t₁,t₂,…t_maxlen-1]

按下式在词表中查找词汇所在的编号：

input＝V_lookup(C)

按下式将input映射为词嵌入向量：

E_c＝WordEmbedding(input)

按下式将词汇的位置信息进行编码：

P_C＝pos(input)*W^p

按下式将E_c与P_C进行求和：

X_c＝E_c+P_C

式中，X_c表示嵌入向量E_c与位置向量P_C之和；

将X_c使用自注意力机制变换成Q_c，V_c，K_c：

Q_c＝W^qX_c

V_c＝W^vX_c

K_c＝W^kX_c

式中，W^q，W^v，W^k分别表示计算Q_c，V_c，K_c的权重参数；

按下式对自注意力矩阵归一化：

式中，LayerNorm表示对矩阵进行归一化；

使用前馈网络进行映射激活后得到再进行归一化：

使用第一个位置上“cls”的特征向量作为上下文的表征e_c；

e_a＝BERT₂[0]

e_p＝BERT₂[0]

e_n＝BERT₂[0]

7.根据权利要求6所述文本自动生成问题的可回答性评估方法，其特征在于，将上下文特征与问题特征进行融合的步骤包括：

在输入中将e_c分别与e_a，e_p，e_n进行融合：

t_a＝e_c+e_a

t_p＝e_c+e_p

t_n＝e_c+e_n

再经过多层感知器进行特征学习：

h_a＝MLP(t_a)

h_p＝MLP(t_p)

h_n＝MLP(t_n)

8.根据权利要求7所述文本自动生成问题的可回答性评估方法，其特征在于，所述利用问题融合上下文后的嵌入表示，基于对比学习模型对问题进行可回答性的评估包括：

在文本分类任务中，将一个给定的文本样本转化为一个向量表示，然后使用Tripletloss来最小化同一类别的文本样本之间的距离，同时最大化不同类别之间的距离，这样将具有相似特点的样本映射到相似的嵌入空间中，通过该损失函数实现对比学习，计算表达式如下：

9.一种文本自动生成问题的可回答性评估系统，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述文本自动生成问题的可回答性评估方法。