CN116775843A

CN116775843A - 问答对评测数据生成方法、装置、计算机设备及存储介质

Info

Publication number: CN116775843A
Application number: CN202310827956.8A
Authority: CN
Inventors: 王俊; 侯昶宇; 王晓锐; 谯轶轩; 宋佳; 巩菁菁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-09-19

Abstract

本发明涉及人工智能及医疗健康技术领域，公开了一种问答对评测数据生成方法、装置、计算机设备及存储介质，该方法通过基于对抗学习的框架，利用两个互为对手的初始问答生成模型和初始问答鉴别模型相互博弈，从而提高问答对数据生成质量，通过引入元学习机制，利用少量初始标注得到的初始评测问答对数据作为元数据，对初始问答生成模型和初始问答鉴别模型进行快速适应，提升了问答对数据生成效率，避免了大规模人工标注和编译，提供的GPT类大模型评测数据集的生成方式成本更低、效率更高、能够覆盖多领域多任务、更为客观、准确、全面、具有大规模、多样和较高难度、高质量的效果。

Description

问答对评测数据生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能、自然语言处理及医疗健康技术领域，尤其涉及一种问答对评测数据生成方法、装置、计算机设备及存储介质。

背景技术

面向垂直领域文档理解的GPT(Generative Pre-trained Transformer，GPT)类大模型，是指利用生成式预训练变换器的技术框架，针对特定领域的文档数据如医疗健康领域的文档等进行预训练和微调，从而实现对文档内容的深入理解和多样化应用的模型。GPT类大模型具有强大的自然语言生成能力，可以根据输入的文档内容生成不同形式和目的的输出，例如摘要、问答、推理、分类等。评测GPT类大模型的性能和效果是一个重要的研究课题，需要设计合适的评价指标和数据集，以便对模型进行客观和全面的测试和比较。通常，面向垂直领域文档理解的GPT类大模型的评测，需要考虑领域知识和语境信息，因此需要构建专门针对特定领域的评测数据集，包括文档内容、问题和答案等。目前，构建面向垂直领域文档理解的GPT类大模型评测数据集主要依赖于人工标注和编辑。

发明人意识到，上述方案的人工标注和编辑得到GPT类大模型评测数据集的方式存在成本高，效率低，难以覆盖多个领域和多种任务、质量不一，可能存在主观偏差、错误或遗漏、难以保证数据集的规模、多样性和难度，可能导致数据集过小、过简单或过拟合的问题。

发明内容

本发明提供一种问答对评测数据生成方法、装置、计算机设备及存储介质，以解决人工标注和编辑得到GPT类大模型评测数据集的方式存在成本高，效率低等的技术问题。

第一方面，提供了一种问答对评测数据生成方法，包括：获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，所述初始评测问答对数据通过对所述垂直领域文档进行初始标注得到，所述生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型；通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过所述元参数对所述生成式对抗网络模型进行更新；将所述垂直领域文档输入更新后的初始问答生成模型，以使所述更新后的初始问答生成模型基于目标任务及所述目标任务的任务权重输出中间评测问答对数据；通过更新后的初始问答鉴别模型基于所述垂直领域文档对所述中间评测问答对数据进行评价，得到评价概率值，所述评价概率值表征所述中间评测问答对数据的合理程度；计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数；通过所述模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件；将所述垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为所述垂直领域文档的问答对评测数据。

第二方面，提供了一种问答对评测数据生成装置，包括：获取模块，用于获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，所述初始评测问答对数据通过对所述垂直领域文档进行初始标注得到，所述生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型；元训练模块，用于通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过所述元参数对所述生成式对抗网络模型进行更新；中间评测问答对数据输出模块，用于将所述垂直领域文档输入更新后的初始问答生成模型，以使更新后的初始问答生成模型基于目标任务及所述目标任务的任务权重输出中间评测问答对数据；评价模块，用于通过更新后的初始问答鉴别模型基于所述垂直领域文档对所述中间评测问答对数据进行评价，得到评价概率值，所述评价概率值表征所述中间评测问答对数据的合理程度；模型损失函数确定模块，用于计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数；模型训练模块，用于通过所述模型损失函数对所述更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件；问答对评测数据生成模块，用于将所述垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为所述垂直领域文档的问答对评测数据。

第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述问答对评测数据生成方法的步骤。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述问答对评测数据生成方法的步骤。

上述问答对评测数据生成方法、装置、计算机设备及存储介质所实现的方案中，该方法可以通过对垂直类文档进行初步标注后得到多个任务的初始评测问答对数据，基于该多个任务的初始评测问答对数据作为元数据对预设元学习模型进行元训练，以对生成式对抗网络模型进行更新，将垂直领域文档输入更新后的初始问答生成模型得到基于某每一任务权重的中间评测问答对数据，通过更新后的初始问答鉴别模型对中间评测问答对数据进行评价，再计算更新后的两个模型的模型损失函数，对上述两个模型进行迭代训练直至达到预设条件，最后将垂直领域文档输入迭代训练后的初始问答生成模型得到该垂直领域文档的问答对评测数据，该方法通过基于对抗学习的框架，利用两个互为对手的初始问答生成模型和初始问答鉴别模型相互博弈，从而提高问答对数据生成质量，通过引入元学习机制，利用少量初始标注得到的初始评测问答对数据作为元数据，对初始问答生成模型和初始问答鉴别模型进行快速适应，提升了问答对数据生成效率，避免了大规模人工标注和编译，提供了成本更低、效率更高、能够覆盖多领域多任务、更为客观、准确、全面、具有大规模、多样和较高难度、高质量的GPT类大模型评测数据集的生成方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中问答对评测数据生成方法的一应用环境示意图；

图2是本发明一实施例中问答对评测数据生成方法的一流程示意图；

图3是本发明一实施例中原参数的确定方式的一流程示意图；

图4是本发明一实施例中问答对评测数据生成装置的一结构示意图；

图5是本发明一实施例中计算机设备的一结构示意图；

图6是本发明一实施例中计算机设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供了一种问答对评测数据生成方法，可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑或者台式计算机等电子设备；服务器可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是问答对评测数据生成的应用程序等，但并不局限于以上形式。

例如，请参见图1，以该问答对评测数据生成方法由电子设备执行为例，该电子设备可以获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，初始评测问答对数据通过对垂直领域文档进行初始标注得到，生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型，通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过元参数对生成式对抗网络模型进行更新，将垂直领域文档输入更新后的初始问答生成模型，以使更新后的初始问答生成模型基于目标任务及目标任务的任务权重输出中间评测问答对数据，通过更新后的初始问答鉴别模型基于垂直领域文档对中间评测问答对数据进行评价，得到评价概率值，评价概率值表征中间评测问答对数据的合理程度，计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数，通过模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件，将垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为垂直领域文档的问答对评测数据。

下面通过具体的实施例对本发明进行详细的描述。请参阅图2所示，图2为本发明实施例提供的问答对评测数据生成方法的一个流程示意图，包括如下步骤：

步骤S210，获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据。

其中，初始评测问答对数据通过对垂直领域文档进行初始标注得到的，该初始标注的方式可以为通过人工标注和编辑，或者其他本领域技术人员所知晓的方式。初始评测问答对数据可以是相对较少量的数据，与相关技术中人工标注的数量相比要少得多。该初始评测问答对数据包括初始问题和与该初始问题匹配的初始回答，该初始问题可以是直接标注得到的，也可以是通过人工编辑后得到的。

其中，生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型。在本实施例中，初始问答生成模型和初始问答鉴别模型可以是预先基于GPT技术框架构建的，且经过预训练过的生成式模型，将初始问答生成模型作为问答生成器(Question AnswerGenerator)，负责根据垂直领域文档生成一个问题Q和一个答案A；初始问答鉴别模型作为问答鉴别器(Question AnswerDiscriminator)，负责根据垂直领域文档、问题Q和答案A判断其是否合理。

在一实施例中，该生成式对抗网络模型包括两个子网络模型，将一子网络模型作为初始问答生成模型，将另一子网络模型作为初始问答鉴别模型；子网络模型包括两个转换模块，将一转换模块作为编码器，将另一转换模块作为解码器，编码器用于将垂直领域文档、输入问题或输入回答转换为隐藏状态向量，解码器用于根据输入的隐藏状态向量生成输出问题或输出答案；转换模块包括多个转换子模块，转换子模块包括自注意力层、差连接层、归一化层和前馈神经网络，自注意力层包括缩放点积注意力和多头注意力。在本实施例中，子网络模型中还包括多个层归一化操作模块，该层归一化操作模块用于对输入序列在每个位置上进行归一化处理，部分层归一化操作模块集成在带残差连接和层归一化的前馈神经网络中，通过该归一化处理，可以加速模型收敛并提高模型稳定性。转换子模块中自注意力层、差连接层和前馈神经网络依次连接，归一化层用于对每一层进行一次层归一化操作。

例如，初始问答生成模型和初始问答鉴别模型基于GPT技术框架构建，GPT技术框架是一种基于变换器(Transformer)的自回归(Autoregressive)语言模型，由一个编码器(Encoder)和一个解码器(Decoder)组成：编码器负责将输入的垂直领域文档、问题Q或答案A转换为一个隐藏状态向量H，解码器负责根据隐藏状态向量H生成输出的问题Q'或答案A'。此处的编码器和解码器均由多个自注意力(Self-Attention)层和前馈神经网络(Feed-ForwardNeural Network)层堆叠而成，每个层后面还有一个残差连接(ResidualConnection)和一个层归一化(Layer Normalization)操作。在本实施例中，自注意力层是一种能够捕捉输入序列中不同位置之间的依赖关系的机制，由一个缩放点积注意力(Scaled Dot-Product Attention)和一个多头注意力(Multi-Head Attention)组成。缩放点积注意力是一种计算输入序列中每个位置与其他位置之间的相关性分数，并根据分数对输入序列进行加权平均的方法，由一个查询矩阵Q、一个键矩阵K和一个值矩阵V组成；多头注意力是一种将输入序列分成多个子空间，并在每个子空间上分别进行缩放点积注意力，然后将结果拼接起来的方法，由一个线性变换矩阵W组成。在本实施例中，前馈神经网络是一种将输入序列映射到另一个维度空间，并通过非线性激活函数增加模型表达能力的方法，由两个线性变换矩阵W1和W2以及一个ReLU函数组成。残差连接是一种将输入序列与自注意力层或前馈神经网络层的输出相加的方法，可以避免梯度消失或爆炸的问题。层归一化是一种对输入序列在每个位置上进行归一化处理的方法，可以加速模型收敛并提高模型稳定性。

在本实施例中，生成式对抗网络模型基于对抗学习框架构建，是一种基于生成对抗网络(Generative Adversarial Network，GAN)原理实现的对抗学习方法。GAN是一种利用两个互为对手的神经网络相互博弈，从而提高生成数据质量的方法；其中一个神经网络作为生成器(Generator)也即上述的初始问答生成模型，负责生成类似于真实数据分布的数据；另一个神经网络作为判别器(Discriminator)也即上述的初始问答鉴别模型，负责判断输入数据是真实数据还是生成数据。GAN通过最小化生成器和判别器之间的互信息距离(Mutual Information Distance)，使得生成器能够产生越来越接近真实数据分布的数据，而判别器能够越来越难以区分真实数据和生成数据。通过交替更新生成器和判别器参数，并保持双方之间的动态平衡，使得两者达到纳什均衡(Nash Equilibrium)，即当另一方固定时，任何一方都无法通过改变自己的策略来提高自己的收益。

此处，采用的GAN由一个生成器(generator)和一个判别器(discriminator)组成。生成器的任务是从随机噪声中生成类似于真实数据的样本，判别器的任务是区分真实数据和生成数据。两者相互竞争，最终达到一个纳什均衡(Nash equilibrium)，即生成器生成的数据无法被判别器区分。

一种示例的GAN的损失函数(loss function)可以表示为：

其中，x是真实数据，z是随机噪声，p_data是真实数据的分布，p_z是噪声的分布，D(x)是判别器对x的输出概率，G(z)是生成器对z的输出样本，为期望函数符号，log为对数函数符号。

本实施例提供的方法，采用了一种基于对抗学习的框架，利用两个互为对手的生成式模型相互博弈，从而提高问答对数据生成质量。

在本实施例中，多个任务可以是多个不同类型或难度的问答任务，包括但不限于填空题、选择题、推理题等。

步骤S220，通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过元参数对生成式对抗网络模型进行更新。

其中，为寻找一个能够在多个任务上表现良好，并且能够通过少量梯度更新达到最优解的初始参数。如图3所示，步骤S220中，也即，通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，包括如下步骤：

步骤S221，将每一任务的初始评测问答对数据划分为每一任务的支持集和查询集，得到每一任务的支持集和查询集。其中，每一任务的初始评测问答对数据包括多个初始问答对数据，每一初始问答对数据包括初始问题和与初始问题匹配的初始回答。其中，支持集中的初始问答对数据的数量大于查询集中的初始问答对数据的数量，需要说明的是，支持集和查询集中初始问答对数据的总数量可以是小于或等于该任务的初始评测问答对数据中初始问答对数据的总数量，也即可以将全量的初始问答对数据进行划分，也可以是对部分初始问答对数据进行划分。

步骤S222，通过每一任务的支持集分别对初始问答生成模型和初始问答鉴别模型进行第一梯度更新，并计算得到适应后参数。

步骤S223，利用每一任务的查询集计算适应后参数在每一任务的多个任务子损失，并确定任务总损失。

步骤S224，以任务总损失对预设元学习模型的初始参数进行第二梯度更新，直至初始参数收敛，得到元参数。

对于步骤S221-步骤S224，将全部任务的初始评测问答对数据作为元数据，从元数据随机采样若干个任务Ti，并对每个任务Ti分别采样支持集Si和查询集Qi，其中支持集Si用于对生成式模型进行快速适应，查询集Qi用于评估适应后模型的性能；然后，利用支持集Si对初始问答生成模型和初始问答鉴别模型(以下将初始问答生成模型和初始问答鉴别模型简称为生成式模型)进行K步梯度更新(也即前述的第一梯度更新)，并计算适应后参数P'；其中K是一个超参数，表示快速适应的步数；接着，利用查询集Qi计算适应后参数P'在每个任务Ti上的损失函数Li，并根据所有任务Ti的平均损失函数L对初始参数P进行梯度更新，也即第二梯度更新，需要说明的是，第一梯度更新和第二梯度更新选用的超参数可以是相同的也可以是不同的；最后，重复上述步骤直到初始参数P收敛，得到元参数P。

例如，以预设元学习模型为元学习器L为例，该元学习器L是一种基于模型无关元学习(Model-Agnostic Meta-Learning，MAML)算法实现的元学习方法。元学习(metalearning)是一种让机器“学会学习”的方法，即让机器能够根据不同的任务快速适应和优化。元学习的目标是找到一个通用的模型或算法，能够在少量的训练数据和迭代次数下，在新任务上达到较好的性能MAML通过在多个任务上交替优化模型参数，使得模型能够在任何任务上用少量梯度更新就能达到最优解。MAML适用于任何基于梯度下降的模型，不需要修改模型结构或损失函数。

一种示例的MAML的优化过程可以表示为：

其中，θ是模型参数，是第i个任务，/>是任务分布，/>是第i个任务的损失函数，f_θ是模型函数，α和β是学习率，θ_i′是第i个任务经过一次梯度更新后的参数，θ′是所有任务经过一次梯度更新后的参数，/>为梯度算符，argmin为返回使得函数最小值时对应的变量值。

在一实施例中，通过元参数分别对生成式对抗网络模型进行更新，包括：利用元参数对生成式对抗网络模型进行快速适应，得到适应后参数(FastAdaptation)；基于适应后参数对生成式对抗网络模型进行更新。通过利用适应后参数P'分别更新初始问答生成模型M1和初始问答鉴别模型M2，此时，该方法还包括，根据多个不同类型或难度的问答任务T设置任务权重W。

上述实施例提供的方法，通过引入了一种基于元学习的机制，利用少量人工标注或编辑过的问答对数据作为元数据，对生成式模型进行快速适应，从而提高问答对数据生成效率。

在一些实施例中，任务总损失的确定方式包括：根据每一任务的多个任务子损失确定任务子平均损失和任务子损失方差；基于任务子平均损失和任务子损失方差确定每一任务的难度指数，得到每一任务的难度指数；确定每一任务的难度指数占比全部任务的难度指数总和的占比度，作为每一任务的损失权重，得到全部任务的损失权重；根据每一任务的损失权重和任务子平均损失确定每一任务的任务损失，基于全部任务的任务损失得到任务总损失。

上述实施例提供的任务总损失的确定方式为问答对评测数据生成方法引入了多任务学习策略，该多任务学习策略是一种基于动态权重分配(DynamicWeight Allocation)的多任务学习方法，多任务学习方法利用不同任务之间的相关性和互补性，同时训练一个模型来完成多个任务的学习方法，可以提高模型的泛化能力和鲁棒性；多任务的机制根据不同任务的难度和重要性，动态调整每个任务在损失函数中的权重的方法，可以平衡不同任务之间的影响和贡献。一种示例的步骤如下：首先，根据每个任务T_i的任务子平均损失L_i和任务子损失方差S_i计算每个任务T_i的难度指数D_i，其中D_i＝L_i/S_i；然后，根据每个任务T_i的难度指数D_i计算每个任务T_i在损失函数中的损失权重W_i，其中W_i＝D_i/sum(D_j)，其中D_i为任务T_i的难度指数，sum为求和函数；最后，根据每个任务T_i的权重W_i和损失L_i计算任务总损失L，并根据梯度下降法更新模型参数；其中L＝sum(W_i*L_i)，其中L为任务总损失，L_i为任务T_i的损失，W_i为任务T_i的权重，sum为求和函数。

通过上述多任务学习的策略，利用多个不同类型或难度的问答任务同时训练生成式模型，并根据任务权重动态调整生成难度，从而提高问答对数据生成多样性。

步骤S230，垂直领域文档输入更新后的初始问答生成模型，以使更新后的初始问答生成模型基于目标任务及目标任务的任务权重输出中间评测问答对数据。

在一实施例中，将垂直领域文档输入更新后的初始问答生成模型之前，方法还包括：设置每一任务的任务权重；或，获取待调整任务的调整权重，将调整权重确定为待调整任务的任务权重，待调整任务为多个任务中的一个或多个。也即，可以通过调整任务权重来动态调整生成难度，从而可以实现提高问答对数据生成多样性。也即任务权重用来调整更新后的初始问答生成模型所输出的中间评测问答对数据的数据难度。

在通过元参数分别对生成式对抗网络模型进行更新，使得生成式对抗网络模型中的初始问答生成模型和初始问答鉴别模型均得到了更新，将垂直领域文档输入更新后的初始问答生成模型后，更新后的初始问答生成模型根据垂直领域文档、多个任务和每一任务对应的任务权重随机选择一个任务类型作为目标任务，并按照相应难度生成一个问题和一个答案，得到该任务的一个中间评测问答对数据。此时，由于生成式对抗网络模型还未经过训练，使得中间评测问答对数据可能在准确性等方面存在问题，则可以进一步的执行步骤S240，对上述中间评测问答对数据进行评价。

步骤S240，通过更新后的初始问答鉴别模型基于垂直领域文档对中间评测问答对数据进行评价，得到评价概率值，评价概率值表征中间评测问答对数据的合理程度。

在更新后的初始问答生成模型输出了中间评测问答对数据后，需要对其进行评价，此时可以触发更新后的初始问答鉴别模型根据垂直领域文档、中间评测问答对数据输出一个概率值作为评价概率值，以该评价概率值表征中间评测问答对数据的合理程度。

步骤S250，计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数。

其中，模型损失函数的确定方式可以通过本领域技术人员所知晓的方式实现，例如交叉判别损失等。

步骤S260，通过模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件。

例如，可以基于该模型损失函数，通过迭代更新来更新后的生成式对抗网络模型的网络模型参数，直到达到预设条件，该预设条件包括但不限于以下至少之一：预设次数、预设时间、损失函数收敛等。当达到预设条件，表明该更新后的生成式对抗网络模型训练完成了。若没有达到预设条件，则重复执行步骤S230-步骤S260。

在一实施例中，可以通过梯度下降法的方式来更新上述更新后的生成式对抗网络模型的网络模型参数。

步骤S270，将垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为垂直领域文档的问答对评测数据。

训练完成后的初始问答生成模型具有更好的准确性、更佳的生成速度、也可以生成更为多样的问答对数据，因此，可以将垂直领域文档输入迭代训练后的初始问答生成模型，这样所得到的问答对评测数据(也即最终评测问答对数据)能够更好的满足，面向垂直领域文档理解的GPT类大模型的评测的需要。

在一实施例中，将垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据之后，该方法还包括：根据最终评测问答对数据、垂直领域文档及最终评测问答对数据与垂直领域文档之间的关联关系生成垂直领域文档的评测数据集。

这样，在后续需要对某一GPT类大模型的性能和效果时，可以直接选取该评测数据集对其进行测评，能够满足对该GPT类大模型的评测要求。

在一实施例中，该问答对评测数据生成方法可以支持对多个垂直领域文档进行问答对评测数据生成，针对多个垂直领域文档的问答对评测数据生成也即对上述步骤S210-步骤S270的重复，在此不做赘述。需要说明的是，多个垂直领域文档可以是同一个领域，也可以是不同领域。

下面，通过一具体的实施例，对上述实施例提供的问答对评测数据生成方法进行示例性的说明。、该面向垂直领域文档理解的GPT类大模型评测问答对数据生成方法，包括以下主要步骤：输入一个垂直领域文档D；初始化两个基于GPT技术框架构建并预训练过的生成式模型M1和M2；其中M1作为问答生成器(Question Answer Generator)，负责根据文档D生成一个问题Q和一个答案A；M2作为问答鉴别器(Question Answer Discriminator)，负责根据文档D、问题Q和答案A判断其是否合理；利用少量人工标注或编辑过的问答对数据作为元数据S，在元学习器(Meta Learner)L上进行元训练(MetaTraining)，得到元参数P；利用元参数P对M1和M2进行快速适应(FastAdaptation)，得到适应后参数P'；利用适应后参数P'分别更新M1和M2，并根据多个不同类型或难度的问答任务T设置任务权重W；重复执行以下子步骤：M1根据文档D、任务T和权重W随机选择一个任务类型并按照相应难度生成一个问题Q'和一个答案A'；M2根据文档D、问题Q'和答案A'输出一个概率值S'表示其合理程度；计算M1和M2之间的损失函数L，并根据梯度下降法更新M1和M2参数；判断是否达到预设条件C(例如迭代次数、时间限制等)，如果是，则跳出循环；否则继续执行子步骤；输出最终生成结果Q'和A'作为评测问答对数据，并将其与文档D一起存储在评测数据集中；判断是否有新的垂直领域文档输入，如果是，则返回初始步骤；否则结束方法。

下面，通过另一具体的实施例，对上述实施例提供的问答对评测数据生成方法进行示例性的说明。本实施例提供的问答对评测数据生成方法包括以下主要步骤：首先，输入一个垂直领域文档D，如医疗健康领域的科普文档，然后初始化两个基于GPT技术框架构建并预训练过的生成式模型M1和M2，利用少量人工标注或编辑过的问答对数据作为元数据S，问答对数据如问题为感冒一般多久自愈，答案为一般为10天。在元学习器L上进行元训练，得到元参数P，利用该元参数P对M1和M2进行快速适应，得到使用后参数P'，利用适应后参数P'分别更新M1和M2，并根据多个不同类型或难度的问答任务T设置任务权重W，判断是否达到预设条件C，若达到预设条件，输出最终生成结果Q'和A'作为评测问答对数据，并将其与文档D一起存储在评测数据集中，若未达到预设条件，则M1根据文档D、任务T和权重W随机选择一个任务类型并按照相应难度生成一个问题Q'和一个答案A'，M2根据文档D、问题Q'和答案A'输出一个概率值S'表示其合理程度，计算M1和M2之间的损失函数L，并根据梯度下降法更新M1和M2参数，继续判断是否达到预设条件，若未达到继续上述步骤，直到达到预设条件，以输出最终生成结果Q'和A'作为评测问答对数据。该最终生成结果存在一个多多个任务类型的问题与答案。

可见，在上述方案中，通过对垂直类文档进行初步标注后得到多个任务的初始评测问答对数据，基于该多个任务的初始评测问答对数据作为元数据进行元训练，以对生成式对抗网络模型进行更新，将垂直领域文档输入更新后的初始问答生成模型得到基于某每一任务权重的中间评测问答对数据，通过更新后的初始问答鉴别模型对中间评测问答对数据进行评价，再计算更新后的两个模型的模型损失函数，对上述两个模型进行迭代训练直至达到预设条件，最后将垂直领域文档输入迭代训练后的初始问答生成模型得到该垂直领域文档的问答对评测数据，该方法通过基于对抗学习的框架，利用两个互为对手的初始问答生成模型和初始问答鉴别模型相互博弈，从而提高问答对数据生成质量，通过引入元学习机制，利用少量初始标注得到的初始评测问答对数据作为元数据，对初始问答生成模型和初始问答鉴别模型进行快速适应，提升了问答对数据生成效率，避免了大规模人工标注和编译，提供了成本更低、效率更高、能够覆盖多领域多任务、更为客观、准确、全面、具有大规模、多样和较高难度、高质量的GPT类大模型评测数据集的生成方式。

本发明实施例采用了一种基于对抗学习(Adversarial Learning)的框架，利用两个互为对手的生成式模型(一个作为问答生成器，一个作为问答鉴别器)相互博弈，从而提高问答对数据生成质量。还引入了一种基于元学习(MetaLearning)的机制，利用少量人工标注或编辑过的问答对数据作为元数据(MetaData)，对生成式模型进行快速适应(FastAdaptation)，从而提高问答对数据生成效率。此外，本发明实施例还设计了一种基于多任务学习(Multi-taskLearning)的策略，利用多个不同类型或难度的问答任务(例如填空题、选择题、推理题等)同时训练生成式模型，并根据任务权重动态调整生成难度，从而提高问答对数据生成多样性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种问答对评测数据生成装置，该问答对评测数据生成装置与上述实施例中问答对评测数据生成方法一一对应。如图4所示，该问答对评测数据生成装置包括获取模块601、元训练模块602、中间评测问答对数据输出模块603、评价模块604、模型损失函数确定模块605、模型训练模块606和问答对评测数据生成模块607。各功能模块详细说明如下：获取模块601，用于获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，初始评测问答对数据通过对垂直领域文档进行初始标注得到，生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型；元训练模块602，用于通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过元参数对生成式对抗网络模型进行更新；中间评测问答对数据输出模块603，用于将垂直领域文档输入更新后的初始问答生成模型，以使更新后的初始问答生成模型基于目标任务及目标任务的任务权重输出中间评测问答对数据；评价模块604，用于通过更新后的初始问答鉴别模型基于垂直领域文档对中间评测问答对数据进行评价，得到评价概率值，评价概率值表征中间评测问答对数据的合理程度；模型损失函数确定模块605，用于计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数；模型训练模块606，用于通过模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件；问答对评测数据生成模块607，用于将垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为垂直领域文档的问答对评测数据。

在一实施例中，元训练模块602，具体用于：将每一任务的初始评测问答对数据划分为每一任务的支持集和查询集，得到每一任务的支持集和查询集，其中，每一任务的初始评测问答对数据包括多个初始问答对数据，每一初始问答对数据包括初始问题和与初始问题匹配的初始回答；通过每一任务的支持集分别对初始问答生成模型和初始问答鉴别模型进行第一梯度更新，并计算得到适应后参数；利用每一任务的查询集计算适应后参数在每一任务的多个任务子损失，并确定任务总损失；以任务总损失对预设元学习模型的初始参数进行第二梯度更新，直至初始参数收敛，得到元参数。

在一实施例中，元训练模块602，还具体用于：根据每一任务的多个任务子损失确定任务子平均损失和任务子损失方差；基于任务子平均损失和任务子损失方差确定每一任务的难度指数，得到每一任务的难度指数；确定每一任务的难度指数占比全部任务的难度指数总和的占比度，作为每一任务的损失权重，得到全部任务的损失权重；根据每一任务的损失权重和任务子平均损失确定每一任务的任务损失，基于全部任务的任务损失得到任务总损失。

在一实施例中，元训练模块602，还用于：利用元参数对生成式对抗网络模型进行快速适应，得到适应后参数；基于适应后参数对生成式对抗网络模型进行更新。

在一实施例中，生成式对抗网络模型包括两个子网络模型，将一子网络模型作为初始问答生成模型，将另一子网络模型作为初始问答鉴别模型；子网络模型包括两个转换模块，将一转换模块作为编码器，将另一转换模块作为解码器，编码器用于将垂直领域文档、输入问题或输入回答转换为隐藏状态向量，解码器用于根据输入的隐藏状态向量生成输出问题或输出答案；转换模块包括多个转换子模块，转换子模块包括自注意力层、残差连接层、归一化层和前馈神经网络，自注意力层包括缩放点积注意力和多头注意力。

在一实施例中，该装置还包括数据集生成模块，用于：将垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据之后，根据最终评测问答对数据、垂直领域文档及最终评测问答对数据与垂直领域文档之间的关联关系生成垂直领域文档的评测数据集。

在一实施例中，该装置还包括任务权重生成模块，用于：将垂直领域文档输入更新后的初始问答生成模型之前，设置每一任务的任务权重；或，获取待调整任务的调整权重，将调整权重确定为待调整任务的任务权重，待调整任务为多个任务中的一个或多个。

本发明实施例提供了一种问答对评测数据生成装置，通过对垂直类文档进行初步标注后得到多个任务的初始评测问答对数据，基于该多个任务的初始评测问答对数据作为元数据进行元训练，以对生成式对抗网络模型进行更新，将垂直领域文档输入更新后的初始问答生成模型得到基于某每一任务权重的中间评测问答对数据，通过更新后的初始问答鉴别模型对中间评测问答对数据进行评价，再计算更新后的两个模型的模型损失函数，对上述两个模型进行迭代训练直至达到预设条件，最后将垂直领域文档输入迭代训练后的初始问答生成模型得到该垂直领域文档的问答对评测数据，该方法通过基于对抗学习的框架，利用两个互为对手的初始问答生成模型和初始问答鉴别模型相互博弈，从而提高问答对数据生成质量，通过引入元学习机制，利用少量初始标注得到的初始评测问答对数据作为元数据，对初始问答生成模型和初始问答鉴别模型进行快速适应，提升了问答对数据生成效率，避免了大规模人工标注和编译，提供了成本更低、效率更高、能够覆盖多领域多任务、更为客观、准确、全面、具有大规模、多样和较高难度、高质量的GPT类大模型评测数据集的生成方式。

关于问答对评测数据生成装置的具体限定可以参见上文中对于问答对评测数据生成方法的限定，在此不再赘述。上述问答对评测数据生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于问答对评测数据生成方法服务端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种问答对评测数据生成方法客户端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，初始评测问答对数据通过对垂直领域文档进行初始标注得到，生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型；通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过元参数对生成式对抗网络模型进行更新；将垂直领域文档输入更新后的初始问答生成模型，以使更新后的初始问答生成模型基于目标任务及目标任务的任务权重输出中间评测问答对数据；通过更新后的初始问答鉴别模型基于垂直领域文档对中间评测问答对数据进行评价，得到评价概率值，评价概率值表征中间评测问答对数据的合理程度；计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数；通过模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件；将垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为垂直领域文档的问答对评测数据。

上述实施例提供的计算机设备，通过对垂直类文档进行初步标注后得到多个任务的初始评测问答对数据，基于该多个任务的初始评测问答对数据作为元数据进行元训练，以对生成式对抗网络模型进行更新，将垂直领域文档输入更新后的初始问答生成模型得到基于某每一任务权重的中间评测问答对数据，通过更新后的初始问答鉴别模型对中间评测问答对数据进行评价，再计算更新后的两个模型的模型损失函数，对上述两个模型进行迭代训练直至达到预设条件，最后将垂直领域文档输入迭代训练后的初始问答生成模型得到该垂直领域文档的问答对评测数据，该方法通过基于对抗学习的框架，利用两个互为对手的初始问答生成模型和初始问答鉴别模型相互博弈，从而提高问答对数据生成质量，通过引入元学习机制，利用少量初始标注得到的初始评测问答对数据作为元数据，对初始问答生成模型和初始问答鉴别模型进行快速适应，提升了问答对数据生成效率，避免了大规模人工标注和编译，提供了成本更低、效率更高、能够覆盖多领域多任务、更为客观、准确、全面、具有大规模、多样和较高难度、高质量的GPT类大模型评测数据集的生成方式。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，初始评测问答对数据通过对垂直领域文档进行初始标注得到，生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型；通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过元参数对生成式对抗网络模型进行更新；将垂直领域文档输入更新后的初始问答生成模型，以使更新后的初始问答生成模型基于目标任务及目标任务的任务权重输出中间评测问答对数据；通过更新后的初始问答鉴别模型基于垂直领域文档对中间评测问答对数据进行评价，得到评价概率值，评价概率值表征中间评测问答对数据的合理程度；计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数；通过模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件；将垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为垂直领域文档的问答对评测数据。

上述实施例提供的计算机可读存储介质，该方法通过基于对抗学习的框架，利用两个互为对手的初始问答生成模型和初始问答鉴别模型相互博弈，从而提高问答对数据生成质量，通过引入元学习机制，利用少量初始标注得到的初始评测问答对数据作为元数据，对初始问答生成模型和初始问答鉴别模型进行快速适应，提升了问答对数据生成效率，避免了大规模人工标注和编译，提供了成本更低、效率更高、能够覆盖多领域多任务、更为客观、准确、全面、具有大规模、多样和较高难度、高质量的GPT类大模型评测数据集的生成方式。

需要说明的是，上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤，可对应参阅前述方法实施例中，服务端侧以及客户端侧的相关描述，为避免重复，这里不再一一描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种问答对评测数据生成方法，其特征在于，包括：

获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，所述初始评测问答对数据通过对所述垂直领域文档进行初始标注得到，所述生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型；

通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过所述元参数对所述生成式对抗网络模型进行更新；

将所述垂直领域文档输入更新后的初始问答生成模型，以使所述更新后的初始问答生成模型基于目标任务及所述目标任务的任务权重输出中间评测问答对数据；

通过更新后的初始问答鉴别模型基于所述垂直领域文档对所述中间评测问答对数据进行评价，得到评价概率值，所述评价概率值表征所述中间评测问答对数据的合理程度；

计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数；

通过所述模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件；

将所述垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为所述垂直领域文档的问答对评测数据。

2.如权利要求1所述的问答对评测数据生成方法，其特征在于，通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，包括：

将每一任务的初始评测问答对数据划分为所述每一任务的支持集和查询集，得到每一任务的支持集和查询集，其中，所述每一任务的初始评测问答对数据包括多个初始问答对数据，每一初始问答对数据包括初始问题和与所述初始问题匹配的初始回答；

通过每一任务的支持集分别对所述初始问答生成模型和所述初始问答鉴别模型进行第一梯度更新，并计算得到适应后参数；

利用每一任务的查询集计算所述适应后参数在每一任务的多个任务子损失，并确定任务总损失；

以所述任务总损失对预设元学习模型的初始参数进行第二梯度更新，直至所述初始参数收敛，得到所述元参数。

3.如权利要求2所述问答对评测数据生成方法，其特征在于，所述任务总损失的确定方式包括：

根据每一任务的多个任务子损失确定任务子平均损失和任务子损失方差；

基于所述任务子平均损失和所述任务子损失方差确定所述每一任务的难度指数，得到每一任务的难度指数；

确定每一任务的难度指数占比全部任务的难度指数总和的占比度，作为所述每一任务的损失权重；

根据每一任务的损失权重和任务子平均损失确定所述每一任务的任务损失，基于全部任务的任务损失得到所述任务总损失。

4.如权利要求1-3任一项所述的问答对评测数据生成方法，其特征在于，通过所述元参数分别对所述生成式对抗网络模型进行更新，包括：

利用所述元参数对所述生成式对抗网络模型进行快速适应，得到适应后参数；

基于所述适应后参数对所述生成式对抗网络模型进行更新。

5.如权利要求1-3任一项所述的问答对评测数据生成方法，其特征在于，所述生成式对抗网络模型包括两个子网络模型，将一子网络模型作为初始问答生成模型，将另一子网络模型作为初始问答鉴别模型；

所述子网络模型包括两个转换模块，将一转换模块作为编码器，将另一转换模块作为解码器，所述编码器用于将所述垂直领域文档、输入问题或输入回答转换为隐藏状态向量，所述解码器用于根据输入的隐藏状态向量生成输出问题或输出答案；

所述转换模块包括多个转换子模块，所述转换子模块包括自注意力层、残差连接层、归一化层和前馈神经网络，所述自注意力层包括缩放点积注意力和多头注意力。

6.如权利要求1-3任一项所述的问答对评测数据生成方法，其特征在于，将所述垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据之后，所述方法还包括：

根据所述最终评测问答对数据、所述垂直领域文档及所述最终评测问答对数据与所述垂直领域文档之间的关联关系生成所述垂直领域文档的评测数据集。

7.如权利要求1-3任一项所述的问答对评测数据生成方法，其特征在于，将所述垂直领域文档输入更新后的初始问答生成模型之前，所述方法还包括：

设置每一任务的任务权重；

或，

获取待调整任务的调整权重，将所述调整权重确定为所述待调整任务的任务权重，所述待调整任务为多个任务中的一个或多个。

8.一种问答对评测数据生成装置，其特征在于，包括：

获取模块，用于获取垂直领域文档、生成式对抗网络模型和多个任务的初始评测问答对数据，所述初始评测问答对数据通过对所述垂直领域文档进行初始标注得到，所述生成式对抗网络模型包括初始问答生成模型和初始问答鉴别模型；

元训练模块，用于通过每一任务的初始评测问答对数据对预设元学习模型进行元训练，得到元参数，以通过所述元参数对所述生成式对抗网络模型进行更新；

中间评测问答对数据输出模块，用于将所述垂直领域文档输入更新后的初始问答生成模型，以使所述更新后的初始问答生成模型基于目标任务及所目标任务的任务权重输出中间评测问答对数据；

评价模块，用于通过更新后的初始问答鉴别模型基于所述垂直领域文档对所述中间评测问答对数据进行评价，得到评价概率值，所述评价概率值表征所述中间评测问答对数据的合理程度；

模型损失函数确定模块，用于计算更新后的初始问答鉴别模型和更新后的初始问答生成模型之间的模型损失函数；

模型训练模块，用于通过所述模型损失函数对更新后的生成式对抗网络模型进行迭代训练，直至达到预设条件；

问答对评测数据生成模块，用于将所述垂直领域文档输入迭代训练后的初始问答生成模型，得到最终评测问答对数据，以作为所述垂直领域文档的问答对评测数据。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。