CN117494693A

CN117494693A - 一种测评文档生成方法、装置及设备

Info

Publication number: CN117494693A
Application number: CN202311788667.8A
Authority: CN
Inventors: 许颖媚; 罗征宇; 林长春; 余达明; 巢志锋; 钟真毅
Original assignee: Guangdong Science & Technology Infrastructure Center
Current assignee: Guangdong Science & Technology Infrastructure Center
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-02-02
Anticipated expiration: 2043-12-25
Also published as: CN117494693B

Abstract

本发明公开一种测评文档生成方法、装置及设备，方法包括：将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过测评文档生成模型根据测评内容提取提示从项目描述信息中提取目标测评内容并输出目标测评文档模板；将目标测评文档模板和测评流程生成提示输入测评文档生成模型，通过测评文档生成模型生成目标测评内容所对应的目标测评流程并输出目标测评文档；其中，测评文档生成模型为基于预设的通用文本数据集和测评文本数据集对自然语言模型进行训练、指令微调和对齐微调所获得的预训练模型。本发明能够避免生成的测评文档出现信息遗漏及信息描述不准确的问题，并能提高测评文档的生成效率。

Description

一种测评文档生成方法、装置及设备

技术领域

本发明涉及软件测试技术领域，尤其是涉及一种测评文档生成方法、装置及终端设备。

背景技术

信息化项目的测评文档是指在信息化项目完成后，对信息化项目的各个方面进行综合测评所创建的文档，信息化项目的测评文档通常涵盖了信息化项目的目标、执行过程、成果、问题、解决方案、项目质量及效果等内容。然而在现有技术中，信息化项目的测评文档通常需要依靠测评工作人员线下手动编写，导致生成的测评文档容易出现信息遗漏及信息二义性的问题，且测评文档生成效率低。

发明内容

本发明提供一种测评文档生成方法、装置及设备，利用预训练模型的涌现能力，能够从信息化项目描述信息中基于提示策略获取测评文档信息并自动生成测评文档，显著提高了测评文档的生成效率，此外，基于对齐微调技术能够有效避免生成的测评文档出现信息遗漏及信息描述不准确的问题。

为了解决上述技术问题，本发明实施例第一方面提供一种测评文档生成方法，包括如下步骤：

将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过所述测评文档生成模型根据所述测评内容提取提示从所述项目描述信息中提取目标测评内容并输出目标测评文档模板；

将所述目标测评文档模板和测评流程生成提示输入所述测评文档生成模型，通过所述测评文档生成模型生成所述目标测评内容所对应的目标测评流程并输出目标测评文档；

其中，所述目标测评内容至少包括目标测评需求和目标预期结果；所述目标测评流程至少包括目标前置条件和目标测评步骤；

所述测评文档生成模型为基于预设的通用文本数据集和测评文本数据集对自然语言模型进行训练、指令微调和对齐微调所获得的预训练模型。

作为优选方案，所述方法具体通过如下步骤对所述自然语言模型进行训练：

对所述通用文本数据集和所述测评文本数据集进行预处理，获得预训练文本数据集；

利用所述预训练文本数据集对所述自然语言模型进行训练，并在所述自然语言模型的训练过程中对所述自然语言模型的每一层多头自注意力层进行批量训练优化、学习率优化、优化器优化和训练稳定性优化，获得初始预训练模型。

作为优选方案，所述方法具体通过如下步骤对所述初始预训练模型进行指令微调：

获取OIG任务集合以作为格式化实例，并将所述通用文本数据集、所述测评文本数据集和所述OIG任务集合合并，获得混合数据集；

基于所述混合数据集和预设的实例数量上限，采用实例比例混合策略对所述初始预训练模型进行指令微调，并在指令微调过程中提高所述测评文本数据集的采样比例，获得指令微调后的初始预训练模型。

作为优选方案，所述方法具体通过如下步骤对所述指令微调后的初始预训练模型进行对齐微调：

构建包含与测评内容、测评流程相关的若干输入提示及期望输出的监督数据集；

将所述监督数据集中的各输入提示分别输入所述指令微调后的初始预训练模型，获得各输入提示所对应的若干输出文本；

获取若干所述输出文本所对应的满足预设对齐标准的人类反馈数据，并利用强化学习算法和所述人类反馈数据对奖励模型进行训练，以使训练后的奖励模型在获取各输入提示所对应的若干输出文本时，确定若干所述输出文本所对应的满足所述预设对齐标准的输出排序结果；

将所述训练后的奖励模型与所述指令微调后的初始预训练模型对接，以将所述指令微调后的初始预训练模型根据所述输入提示所生成的输出内容输入所述训练后的奖励模型，并根据所述训练后的奖励模型生成的所述输出内容所对应的满足所述预设对齐标准的输出排序结果，对所述指令微调后的初始预训练模型进行参数优化，获得所述测评文档生成模型。

作为优选方案，所述方法还包括如下步骤：

判断所述目标测评文档中的所述目标测评内容和/或所述目标测评流程是否满足所述预设对齐标准；

当所述目标测评内容和/或所述目标测评流程不满足所述预设对齐标准时，将所述测评内容提取提示和/或所述测评流程生成提示、所述测评内容提取提示和/或所述测评流程生成提示所对应的期望输出添加至所述监督数据集；

基于当前的监督数据集，重新对所述测评文档生成模型进行对齐微调；

通过当前的测评文档生成模型重新根据所述项目描述信息、所述测评内容提取提示和所述测评流程生成提示生成当前的目标测评文档，并重新判断当前的目标测评文档是否满足所述预设对齐标准，直至获得满足所述预设对齐标准的目标测评文档。

作为优选方案，所述方法还包括如下步骤：

根据所述目标测评文档所对应的测评文档类型，从所述测评文本数据集中获取符合所述测评文档类型的若干示范测评文档；

将若干所述示范测评文档输入所述测评文档生成模型，并利用所述测评内容提取提示和所述测评流程生成提示依次与所述测评文档生成模型进行若干次对话，获得若干测评文档模板；

将所述测评内容提取提示和所述测评流程生成提示作为输入提示、若干所述测评文档模板作为期望输出添加至所述监督数据集；

基于当前的监督数据集，重新对所述测评文档生成模型进行对齐微调，以使重新对齐微调后的测评文档生成模型在接收到所述项目描述信息和所述测评文档类型的生成提示时直接生成所述目标测评文档。

作为优选方案，所述对所述通用文本数据集和所述测评文本数据集进行预处理，获得预训练文本数据集，具体包括如下步骤：

对所述通用文本数据集和所述测评文本数据集进行文本过滤处理和去重处理，获得第一文本数据集；

对所述第一文本数据集所包含的个人隐私信息和信息化项目信息进行删除处理或加密处理，获得第二文本数据集；

利用基于SentencePiece算法训练的分词器和BPE算法对所述第二文本数据集所包含的若干文本进行分词处理，获得第三文本数据集；

利用Word2Vec模型对所述第三文本数据集进行特征提取，获得所述第三文本数据集中每个词语的向量表示并形成所述预训练文本数据集。

作为优选方案，所述自然语言模型的模型架构具体为因果解码器架构；所述自然语言模型由输入嵌入层、若干多头自注意力层、若干前馈神经网络层和输出层组成。

本发明实施例第二方面提供一种测评文档生成装置，包括：

目标测评文档模板输出模块，用于将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过所述测评文档生成模型根据所述测评内容提取提示从所述项目描述信息中提取目标测评内容并输出目标测评文档模板；

目标测评文档输出模块，用于将所述目标测评文档模板和测评流程生成提示输入所述测评文档生成模型，通过所述测评文档生成模型生成所述目标测评内容所对应的目标测评流程并输出目标测评文档；

本发明实施例第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的测评文档生成方法。

相比于现有技术，本发明实施例的有益效果在于，利用预训练模型的涌现能力，能够从信息化项目描述信息中基于提示策略获取测评文档信息并自动生成测评文档，显著提高了测评文档的生成效率，此外，基于对齐微调技术能够有效避免生成的测评文档出现信息遗漏及信息描述不准确的问题。

附图说明

图1是本发明实施例中测评文档生成方法的流程示意图；

图2是本发明实施例中的测评文档生成流程图；

图3是本发明实施例中初始预训练模型的架构示意图；

图4是本发明实施例中的文本数据集预处理示意图；

图5是本发明实施例中的对齐微调过程示意图；

图6是本发明实施例中的生成调整过程示意图；

图7是本发明实施例中测评文档生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例第一方面提供一种测评文档生成方法，包括如下步骤S1至步骤S2：

步骤S1，将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过所述测评文档生成模型根据所述测评内容提取提示从所述项目描述信息中提取目标测评内容并输出目标测评文档模板；

步骤S2，将所述目标测评文档模板和测评流程生成提示输入所述测评文档生成模型，通过所述测评文档生成模型生成所述目标测评内容所对应的目标测评流程并输出目标测评文档；

具体地，由于目标信息化项目的项目描述信息中描述有建设需求，因此本实施例首先将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过测评文档生成模型根据该测评内容提取提示从项目描述信息所描述的建设需求提取目标测评内容并输出目标测评文档模板。其中，为了确保目标测评文档的信息准确，本实施例中的测评文档生成模型为基于预设的通用文本数据集和测评文本数据集对自然语言模型进行训练、指令微调和对齐微调所获得的预训练模型，基于对齐微调技术能够对生成的测评文档所包含的信息内容进行规范，从而确保测评文档的信息准确。

值得说明的是，本实施例以Gutenberg和C4作为通用文本数据集，Gutenberg有超过70000本文学作品，包括小说、散文、诗歌、戏剧、历史、科学、哲学和其他公共领域的作品，C4是一个以Common Crawl为基础创建的超大规模文本数据集，主要数据来源为网络爬虫；以人工撰写的各种信息化项目的测评文档作为测评文本数据集，示例性地，测评文档可以为测试用例文档，而测试用例文档包括：序号、测评需求、前置条件、测评步骤和预期结果。

目标测评内容至少包括目标测评需求和目标预期结果，示例性地，某菜单下的增、删、改、查功能即描述为测评需求，某页面中具体拥有哪些字段则描述为预期结果。

进一步地，将目标测评文档模板和测评流程生成提示输入测评文档生成模型，以生成目标测评内容所对应的目标测评流程并输出目标测评文档。

本发明实施例提供的一种测评文档生成方法，利用预训练模型的涌现能力，能够从信息化项目描述信息中基于提示策略获取测评文档信息并自动生成测评文档，显著提高了测评文档的生成效率，确保了测评文档的格式一致性，此外，基于对齐微调技术能够有效避免生成的测评文档出现信息遗漏及信息描述不准确的问题，实现了测评文档的标准化和规范化。

参见图2和图3，本实施例分别进行数据预处理和模型初始化。

参见图4，本实施例对通用文本数据集和测评文本数据集进行文本过滤处理，具体而言，对通用文本数据集和测评文本数据集进行质量检查，过滤掉质量低下的数据，其中，由于C4数据来源于网络信息，可能存在着大量的噪声和低质量信息，本实施例采用数据分布分析的方法对通用文本数据集和测评文本数据集中的文本长度进行分析，并绘制出通用文本数据集和测评文本数据集的文本长度分布图，再对其中质量低下的数据进行过滤，如仅包括几个字符的异常短的文本，或者超过预设文本长度阈值的异常长的文本，其可能是由于噪声而导致。

进一步地，本实施例还对通用文本数据集和测评文本数据集进行去重处理，具体而言，本实施例采用哈希算法实现文本数据集的去重处理，选择MurmurHash作为哈希函数，根据先到先得的原则，分别从句子内容所映射的哈希值是否相同（句子级）和文档内容所映射的哈希值是否相同（文档级），来对数据进行标记和删除重复项，以达到去重效果，从而减少数据集的大小，提高数据处理的效率。

进一步地，本实施例对第一文本数据集所包含的个人隐私信息和信息化项目信息进行删除处理或加密处理，从而能够减少因隐私泄露而导致的数据误差和不良影响。

进一步地，本实施例对第二文本数据集转换为自然语言模型可以理解的格式，具体而言，首先利用基于SentencePiece算法训练的分词器和BPE算法（Byte-Pair Encoding，字节对编码算法）对包含的若干文本进行分词处理，确保分词后的信息不会丢失，然后利用Word2Vec模型进行特征提取，获得每个词语的向量表示并形成预训练文本数据集。

进一步地，作为优选方案，所述自然语言模型的模型架构具体为因果解码器架构；所述自然语言模型由输入嵌入层、若干多头自注意力层、若干前馈神经网络层和输出层组成。进一步地，在利用预训练文本数据集训练自然语言模型的过程中，每一层多头自注意力层进行批量训练优化、学习率优化、优化器优化和训练稳定性优化，具体而言，批量训练优化即为在训练过程中动态增加批量大小，最终达到百万级别，本实施例中批量大小从3.6万个token逐渐增加到300万个token；学习率优化即为在训练的初始步骤中，采用线性预热策略逐渐增加学习率到最大值，然后在后续步骤中采用余弦衰减策略，逐渐将学习率降低到其最大值的10%，直到训练损失的收敛；优化器优化即为在每个训练迭代中，先通过前向传播计算损失，然后使用Adam优化器进行参数更新；训练稳定性优化即为在损失函数中添加一个权重衰减这将使优化器在更新模型参数时，还考虑到权重的绝对大小，同时在设置完权重衰减后，可以在每次迭代之前使用梯度裁剪来进一步控制梯度的幅值。

值得说明的是，作为重要的公共资源，现有的研究已经发布了大量带标注的自然语言格式的数据，因此本实施例采用OIG任务集合作为格式化实例。进一步地，采用实例比例混合策略，即将将通用文本数据集、测评文本数据集和OIG任务集合合并，获得混合数据集，然后从混合数据集中按比例采样每种实例，并且着重提高测评文本数据集的采样比例，同时在指令微调过程设置一实例数量上限，以限制数据集中可以包含的最大实例数量。

具体地，本实施例预先确定对齐标准，由于当前的初始预训练模型可能会生成预期之外的内容，因此，本实施例选取具体性、可操作性和诚实性作为对齐标准，以确保预训练模型生成的测评文档能够满足实际需求。其中，以测试用例文档为示例，所选择的对齐标准含义如下：

具体性，体现为每个测试用例都对应着一个具体的测试需求或功能点，以及对应的预期结果，并且语言描述准确、精炼，避免生成的测试用例存在模棱两可、笼统或说明使用场景等的描述。

可操作性，体现为每个测试用例都应该有明确的测评流程，包括测评前的前置条件以及测评步骤，这些步骤应该清晰明了，以使任何接收到测试用例的用户都能理解并准确地执行。

诚实性，体现为每个测试用例都对应着信息化项目描述信息的建设需求，避免以任何形式来生成虚假的测试用例。

进一步地，为了使预训练模型的生成内容与预设的对齐标准保持一致，本实施例使用一种基于强化学习算法的奖励模型来对当前的初始预训练模型进行对齐微调。如图5所示，本实施例使用基于近端策略优化算法和人类反馈数据训练的奖励模型来实现对当前的初始预训练模型的对齐微调。具体而言，首先选择一个与当前的初始预训练模型具有不同参数尺度的奖励模型，例如，当前的初始预训练模型具有30亿参数量，则可以选取具有10亿参数量的奖励模型。其次，构建包含与测评内容、测评流程相关的若干输入提示及期望输出的监督数据集，例如，编写输入提示“列出某管理系统新增用户的步骤”和期望输出“前置条件：管理员账号密码，系统初始化；步骤：1、登录后台管理平台；2、选择某模块；3、选择‘用户管理’；4、点击‘用户新增’”。再次，将监督数据集中的各输入提示分别输入指令微调后的初始预训练模型，获得各输入提示所对应的若干输出文本，然后通过人工依照预设的对齐标准对这些输出文本进行排序标注，从而获得这些输出文本所对应的满足预设对齐标准的人类反馈数据，并利用近端策略优化算法和人类反馈数据对奖励模型进行训练，以使奖励模型能够预测预设对齐标准的偏好输出。最后，将训练后的奖励模型与当前的初始预训练模型进行对接，以将指令微调后的初始预训练模型根据输入提示所生成的输出内容输入训练后的奖励模型，并根据训练后的奖励模型生成的输出内容所对应的满足预设对齐标准的输出排序结果，对指令微调后的初始预训练模型进行参数优化，使得获得的测评文档生成模型的生成内容满足预设对齐标准。

作为优选方案，所述方法还包括如下步骤：

具体地，本实施例在获取目标测评文档后，还进一步判断其是否满足预设对齐标准，当其中的目标测评内容和/或目标测评流程不满足预设对齐标准时，例如，本实施例输出的目标测评文档为一测试用例文档，其中有一个测试需求为“权限管理—分配角色”，预期结果为“可实现对用户分配角色”的测试用例，依据预设的对齐标准，判定该测试用例的预期结果不满足上述对齐标准中的具体性，即避免生成的测试用例存在模棱两可、笼统或说明使用场景等的描述，期望的预期结果应描述为“1、可对访客用户的权限进行分配；2、可对普通用户的权限进行分配；3、可对管理员用户的权限进行分配”。针对此情况，本实施例将测评内容提取提示和/或测评流程生成提示、测评内容提取提示和/或测评流程生成提示所对应的期望输出添加至监督数据集，基于当前的监督数据集重新对测评文档生成模型进行对齐微调。

在重新对齐微调后，通过当前的测评文档生成模型重新根据项目描述信息和测评内容提取提示生成目标测评文档模板，并进一步根据测评流程生成提示重新生成当前的目标测评文档，重新判断其是否满足预设对齐标准，如果仍然不满足，则重复上述步骤，即重新将测评内容提取提示和/或测评流程生成提示、测评内容提取提示和/或测评流程生成提示所对应的期望输出添加至监督数据集，重新进行对齐微调以及重新生成目标测评文档，直至获得满足预设对齐标准的目标测评文档。

作为优选方案，所述方法还包括如下步骤：

如图6所示，本实施例还利用预训练模型的涌现能力，即上下文学习能力进行生成调整，优化提示。具体而言，本实施例首先根据目标测评文档所对应的测评文档类型，从测评文本数据集中获取符合该测评文档类型的若干示范测评文档，然后将若干示范测评文档输入测评文档生成模型，并利用测评内容提取提示和测评流程生成提示依次与测评文档生成模型进行若干次对话，以获得若干测评文档模板，最后将测评内容提取提示和测评流程生成提示作为输入提示、若干测评文档模板作为期望输出添加至监督数据集，并重新对测评文档生成模型进行对齐微调，以使测评文档生成模型学习该测评文档类型的文档格式和内容，后续输入项目描述信息和该测评文档类型的生成提示，便能够直接通过测评文档生成模型输出目标测评文档。

示例性地，以测试用例文档为例，首先以生成测试用例文档作为任务描述的开始，并从测评文本数据集中获取若干示范测试用例文档，输入测评文档生成模型。然后，以提取测评需求、提取预期结果、生成前置条件和生成测评步骤的顺序与测评文档生成模型进行多轮对话，以获得若干测试用例文档模板。最后，将所有的输入提示和输出内容添加至监督数据集，并重新对测评文档生成模型进行对齐微调，以使测评文档生成模型学习测试用例文档的格式和内容，后续输入项目描述信息和测试用例文档生成提示，便能够直接通过测评文档生成模型输出目标测试用例文档。

参见图7，本发明实施例第二方面提供一种测评文档生成装置，包括：

目标测评文档模板输出模块701，用于将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过所述测评文档生成模型根据所述测评内容提取提示从所述项目描述信息中提取目标测评内容并输出目标测评文档模板；

目标测评文档输出模块702，用于将所述目标测评文档模板和测评流程生成提示输入所述测评文档生成模型，通过所述测评文档生成模型生成所述目标测评内容所对应的目标测评流程并输出目标测评文档；

需要说明的是，本发明实施例所提供的一种测评文档生成装置，能够实现上述任一实施例所述的测评文档生成方法的所有流程，装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的测评文档生成方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的测评文档生成方法。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种测评文档生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述自然语言模型进行训练：

3.如权利要求2所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述初始预训练模型进行指令微调：

4.如权利要求3所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述指令微调后的初始预训练模型进行对齐微调：

5.如权利要求4所述的测评文档生成方法，其特征在于，所述方法还包括如下步骤：

6.如权利要求4所述的测评文档生成方法，其特征在于，所述方法还包括如下步骤：

7.如权利要求2所述的测评文档生成方法，其特征在于，所述对所述通用文本数据集和所述测评文本数据集进行预处理，获得预训练文本数据集，具体包括如下步骤：

8.如权利要求1至7任一项所述的测评文档生成方法，其特征在于，所述自然语言模型的模型架构具体为因果解码器架构；所述自然语言模型由输入嵌入层、若干多头自注意力层、若干前馈神经网络层和输出层组成。

9.一种测评文档生成装置，其特征在于，包括：

10.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的测评文档生成方法。