CN115617666A

CN115617666A - 基于gpt2模型中文测试用例补全方法

Info

Publication number: CN115617666A
Application number: CN202211290086.7A
Authority: CN
Inventors: 陈曦; 耿涛; 韩庆良; 左宪振; 亓兵
Original assignee: Dopp Information Technology Co ltd
Current assignee: Dopp Information Technology Co ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-17

Abstract

本发明公开了基于GPT2模型中文测试用例补全方法，补全方法如下：S1：搜集测试用例；S2：通过搜集的高质量的测试用例构建用例库作为GPT2网络模型的训练数据；S3：对用例库中所有数据进行处理，通过中文切词工具将所有用例分词，在使用词转变向量的方法使用例向量化，作为GPT2模型的输入；S4：调参训练GPT2模型，下游任务为文本生成；S5：在实际应用场景中根据训练好的GPT2模型，输入关键字补全剩下的内容，如果此为优质的测试用例，则更新用例库。本发明测试人员可以依赖此方法，只需输入关键字进行测试用例补全，根据生成的测试用例在针对自己系统的业务需求做响应修改即可，有效减少了人工成本，并缩短了编写用例时间和提高用例质量。

Description

基于GPT2模型中文测试用例补全方法

技术领域

本发明涉及软件测试技术领域，具体为基于GPT2模型中文测试用例补全方法。

背景技术

现有的软件测试需要经过三个步骤：一是编写测试用例，二是执行用例，三是进行回归验证。众所周知，测试用例是一份文档，描述了输入、动作和一个预期的结果，其在软测过程中有重要的作用和价值。

经过海量检索，发现现有技术：CN112416772A，公开了一种测试用例补全方法、装置、电子设备和可读存储介质。所述方法包括：根据目标业务信息，从生产日志中获取有效日志资源；其中所述有效日志资源为预设的与所述目标业务相关的业务字段；从所述有效日志资源中解析出目标测试因子，其中所述目标测试因子不属于预先构建的测试因子库中的因子；根据所述目标测试因子编辑测试用例。本申请公开的技术方案解决了现有技术中测试点容易遗漏的问题。

综上所述，现阶段软测过程中也存在以下问题：测试人员水平参差不齐，编写测试用例的质量与写该用例的测试人员水平有着极大的关系，一个好的用例是测试结果的基准和依据；编写用例花费时间长，由于编写测试用例要考虑产品需求的各个方面，输入框中输入各种参数值去测试，因此编写一份好的测试用例费时费力。

发明内容

本发明的目的在于提供基于GPT2模型中文测试用例补全方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于GPT2模型中文测试用例补全方法，补全方法如下：

S1：搜集测试用例；

S2：通过搜集的高质量的测试用例构建用例库作为GPT2网络模型的训练数据；

S3：对用例库中所有数据进行处理，通过中文切词工具将所有用例分词，在使用词转变向量的方法使用例向量化，作为GPT2模型的输入；

S4：调参训练GPT2模型，下游任务为文本生成；

S5：在实际应用场景中根据训练好的GPT2模型，输入关键字补全剩下的内容，如果此为优质的测试用例，则更新用例库。

优选的，基于补全方法的S1中：

测试用例要求规范化、可读性高，且测试用例针对各个功能类别的覆盖广。

优选的，基于补全方法的S2中：

GPT2网络模型有双重解码器构成，一重解码器用于词向量的输入和一次解码，二重解码器用于识别一重解码器的文本识别。

优选的，解码器分别由掩码自注意力机制、标准化层、前馈神经网络；

标准化层分为两层，分别架设在前馈神经网络的输入口和处处口，词向量和位置信息传通过掩码自注意力机制进行输入，进入前馈神经网络输入口的标准化层；

经过前馈神经网络的处理后，通过前馈神经网络输出口的标准化层进行输出，进行文本预测和分文分类。

优选的，基于补全方法的S3中：

通过搜集的例库，形成数据库，并在词向量分解后，进行解码器进行双重解码，对用例库中所有数据进行处理，通过中文切词工具将所有用例分词，在使用词转变向量的方法使用例向量化。

优选的，基于补全方法的S4中：

GPT2的预训练采用的是单向的语言模型，在经过聚合后，得到广泛的数据库，经过训练和推理后，得到测试用例，并进行审核处理，反馈至用例库中，扩充数据库。

与现有技术相比，本发明的有益效果是：

1、减少测试人员上手成本，测试人员可以依赖此方法，只需输入关键字进行测试用例补全，根据生成的测试用例在针对自己系统的业务需求做响应修改即可。

2、缩短编写用例时间，原本编写测试用例需要针对某个功能、某些参数进行一点一点的构建。应用测试用例补全方法，可以大大的减少编写所消耗的时间，提高编写效率。

3、提高了测试用例质量，由于GPT2模型训练使用的是高质量的测试用例，所以对应模型补全的测试用例大概率也是优质的测试用例。

4、不断扩充测试用例库，使用GPT2补全的测试用例，经过审核后不断的去更新优化测试用例库，后续在模型重训练或者基于用例库实现某些应用提供了基础保障。

附图说明

图1为本发明的试用例补全流程示意图；

图2为本发明的GPT2结构示意图；

图3为本发明的解码器示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1至图3，本发明提供的两种实施例：基于GPT2模型中文测试用例补全方法，补全方法如下：

S1：搜集测试用例，测试用例要求规范化、可读性高，且测试用例针对各个功能类别的覆盖广；

S3：对用例库中所有数据进行处理，通过中文切词工具将所有用例分词，在使用词转变向量的方法使用例向量化，作为GPT2模型的输入，GPT2网络模型有双重解码器构成，一重解码器用于词向量的输入和一次解码，二重解码器用于识别一重解码器的文本识别，通过搜集的例库，形成数据库，并在词向量分解后，进行解码器进行双重解码，对用例库中所有数据进行处理，通过中文切词工具将所有用例分词，在使用词转变向量的方法使用例向量化；

S4：调参训练GPT2模型，下游任务为文本生成，GPT2的预训练采用的是单向的语言模型，在经过聚合后，得到广泛的数据库，经过训练和推理后，得到测试用例，并进行审核处理，反馈至用例库中，扩充数据库；

实施例二：

解码器分别由掩码自注意力机制、标准化层、前馈神经网络；

解码器采用transformer型，是目前NLP里最强的特征提取器，其应用的自注意力机制，会更容易捕获句子中长距离的相互依赖的特征，此外，自注意力机制增加计算并行性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于GPT2模型中文测试用例补全方法，其特征在于：补全方法如下：

S1：搜集测试用例；

S4：调参训练GPT2模型，下游任务为文本生成；

2.根据权利要求1所述的基于GPT2模型中文测试用例补全方法，其特征在于：基于补全方法的S1中：

3.根据权利要求1所述的基于GPT2模型中文测试用例补全方法，其特征在于：基于补全方法的S2中：

4.根据权利要求3所述的基于GPT2模型中文测试用例补全方法，其特征在于：解码器分别由掩码自注意力机制、标准化层、前馈神经网络；

5.根据权利要求1所述的基于GPT2模型中文测试用例补全方法，其特征在于：基于补全方法的S3中：

6.根据权利要求1所述的基于GPT2模型中文测试用例补全方法，其特征在于：基于补全方法的S4中：