CN115617666A - 基于gpt2模型中文测试用例补全方法 - Google Patents

基于gpt2模型中文测试用例补全方法 Download PDF

Info

Publication number
CN115617666A
CN115617666A CN202211290086.7A CN202211290086A CN115617666A CN 115617666 A CN115617666 A CN 115617666A CN 202211290086 A CN202211290086 A CN 202211290086A CN 115617666 A CN115617666 A CN 115617666A
Authority
CN
China
Prior art keywords
gpt2
test case
model
case
completion method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211290086.7A
Other languages
English (en)
Inventor
陈曦
耿涛
韩庆良
左宪振
亓兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dopp Information Technology Co ltd
Original Assignee
Dopp Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dopp Information Technology Co ltd filed Critical Dopp Information Technology Co ltd
Priority to CN202211290086.7A priority Critical patent/CN115617666A/zh
Publication of CN115617666A publication Critical patent/CN115617666A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于GPT2模型中文测试用例补全方法,补全方法如下:S1:搜集测试用例;S2:通过搜集的高质量的测试用例构建用例库作为GPT2网络模型的训练数据;S3:对用例库中所有数据进行处理,通过中文切词工具将所有用例分词,在使用词转变向量的方法使用例向量化,作为GPT2模型的输入;S4:调参训练GPT2模型,下游任务为文本生成;S5:在实际应用场景中根据训练好的GPT2模型,输入关键字补全剩下的内容,如果此为优质的测试用例,则更新用例库。本发明测试人员可以依赖此方法,只需输入关键字进行测试用例补全,根据生成的测试用例在针对自己系统的业务需求做响应修改即可,有效减少了人工成本,并缩短了编写用例时间和提高用例质量。

Description

基于GPT2模型中文测试用例补全方法
技术领域
本发明涉及软件测试技术领域,具体为基于GPT2模型中文测试用例补全方法。
背景技术
现有的软件测试需要经过三个步骤:一是编写测试用例,二是执行用例,三是进行回归验证。众所周知,测试用例是一份文档,描述了输入、动作和一个预期的结果,其在软测过程中有重要的作用和价值。
经过海量检索,发现现有技术:CN112416772A,公开了一种测试用例补全方法、装置、电子设备和可读存储介质。所述方法包括:根据目标业务信息,从生产日志中获取有效日志资源;其中所述有效日志资源为预设的与所述目标业务相关的业务字段;从所述有效日志资源中解析出目标测试因子,其中所述目标测试因子不属于预先构建的测试因子库中的因子;根据所述目标测试因子编辑测试用例。本申请公开的技术方案解决了现有技术中测试点容易遗漏的问题。
综上所述,现阶段软测过程中也存在以下问题:测试人员水平参差不齐,编写测试用例的质量与写该用例的测试人员水平有着极大的关系,一个好的用例是测试结果的基准和依据;编写用例花费时间长,由于编写测试用例要考虑产品需求的各个方面,输入框中输入各种参数值去测试,因此编写一份好的测试用例费时费力。
发明内容
本发明的目的在于提供基于GPT2模型中文测试用例补全方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于GPT2模型中文测试用例补全方法,补全方法如下:
S1:搜集测试用例;
S2:通过搜集的高质量的测试用例构建用例库作为GPT2网络模型的训练数据;
S3:对用例库中所有数据进行处理,通过中文切词工具将所有用例分词,在使用词转变向量的方法使用例向量化,作为GPT2模型的输入;
S4:调参训练GPT2模型,下游任务为文本生成;
S5:在实际应用场景中根据训练好的GPT2模型,输入关键字补全剩下的内容,如果此为优质的测试用例,则更新用例库。
优选的,基于补全方法的S1中:
测试用例要求规范化、可读性高,且测试用例针对各个功能类别的覆盖广。
优选的,基于补全方法的S2中:
GPT2网络模型有双重解码器构成,一重解码器用于词向量的输入和一次解码,二重解码器用于识别一重解码器的文本识别。
优选的,解码器分别由掩码自注意力机制、标准化层、前馈神经网络;
标准化层分为两层,分别架设在前馈神经网络的输入口和处处口,词向量和位置信息传通过掩码自注意力机制进行输入,进入前馈神经网络输入口的标准化层;
经过前馈神经网络的处理后,通过前馈神经网络输出口的标准化层进行输出,进行文本预测和分文分类。
优选的,基于补全方法的S3中:
通过搜集的例库,形成数据库,并在词向量分解后,进行解码器进行双重解码,对用例库中所有数据进行处理,通过中文切词工具将所有用例分词,在使用词转变向量的方法使用例向量化。
优选的,基于补全方法的S4中:
GPT2的预训练采用的是单向的语言模型,在经过聚合后,得到广泛的数据库,经过训练和推理后,得到测试用例,并进行审核处理,反馈至用例库中,扩充数据库。
与现有技术相比,本发明的有益效果是:
1、减少测试人员上手成本,测试人员可以依赖此方法,只需输入关键字进行测试用例补全,根据生成的测试用例在针对自己系统的业务需求做响应修改即可。
2、缩短编写用例时间,原本编写测试用例需要针对某个功能、某些参数进行一点一点的构建。应用测试用例补全方法,可以大大的减少编写所消耗的时间,提高编写效率。
3、提高了测试用例质量,由于GPT2模型训练使用的是高质量的测试用例,所以对应模型补全的测试用例大概率也是优质的测试用例。
4、不断扩充测试用例库,使用GPT2补全的测试用例,经过审核后不断的去更新优化测试用例库,后续在模型重训练或者基于用例库实现某些应用提供了基础保障。
附图说明
图1为本发明的试用例补全流程示意图;
图2为本发明的GPT2结构示意图;
图3为本发明的解码器示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1至图3,本发明提供的两种实施例:基于GPT2模型中文测试用例补全方法,补全方法如下:
S1:搜集测试用例,测试用例要求规范化、可读性高,且测试用例针对各个功能类别的覆盖广;
S2:通过搜集的高质量的测试用例构建用例库作为GPT2网络模型的训练数据;
S3:对用例库中所有数据进行处理,通过中文切词工具将所有用例分词,在使用词转变向量的方法使用例向量化,作为GPT2模型的输入,GPT2网络模型有双重解码器构成,一重解码器用于词向量的输入和一次解码,二重解码器用于识别一重解码器的文本识别,通过搜集的例库,形成数据库,并在词向量分解后,进行解码器进行双重解码,对用例库中所有数据进行处理,通过中文切词工具将所有用例分词,在使用词转变向量的方法使用例向量化;
S4:调参训练GPT2模型,下游任务为文本生成,GPT2的预训练采用的是单向的语言模型,在经过聚合后,得到广泛的数据库,经过训练和推理后,得到测试用例,并进行审核处理,反馈至用例库中,扩充数据库;
S5:在实际应用场景中根据训练好的GPT2模型,输入关键字补全剩下的内容,如果此为优质的测试用例,则更新用例库。
实施例二:
解码器分别由掩码自注意力机制、标准化层、前馈神经网络;
标准化层分为两层,分别架设在前馈神经网络的输入口和处处口,词向量和位置信息传通过掩码自注意力机制进行输入,进入前馈神经网络输入口的标准化层;
经过前馈神经网络的处理后,通过前馈神经网络输出口的标准化层进行输出,进行文本预测和分文分类。
解码器采用transformer型,是目前NLP里最强的特征提取器,其应用的自注意力机制,会更容易捕获句子中长距离的相互依赖的特征,此外,自注意力机制增加计算并行性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.基于GPT2模型中文测试用例补全方法,其特征在于:补全方法如下:
S1:搜集测试用例;
S2:通过搜集的高质量的测试用例构建用例库作为GPT2网络模型的训练数据;
S3:对用例库中所有数据进行处理,通过中文切词工具将所有用例分词,在使用词转变向量的方法使用例向量化,作为GPT2模型的输入;
S4:调参训练GPT2模型,下游任务为文本生成;
S5:在实际应用场景中根据训练好的GPT2模型,输入关键字补全剩下的内容,如果此为优质的测试用例,则更新用例库。
2.根据权利要求1所述的基于GPT2模型中文测试用例补全方法,其特征在于:基于补全方法的S1中:
测试用例要求规范化、可读性高,且测试用例针对各个功能类别的覆盖广。
3.根据权利要求1所述的基于GPT2模型中文测试用例补全方法,其特征在于:基于补全方法的S2中:
GPT2网络模型有双重解码器构成,一重解码器用于词向量的输入和一次解码,二重解码器用于识别一重解码器的文本识别。
4.根据权利要求3所述的基于GPT2模型中文测试用例补全方法,其特征在于:解码器分别由掩码自注意力机制、标准化层、前馈神经网络;
标准化层分为两层,分别架设在前馈神经网络的输入口和处处口,词向量和位置信息传通过掩码自注意力机制进行输入,进入前馈神经网络输入口的标准化层;
经过前馈神经网络的处理后,通过前馈神经网络输出口的标准化层进行输出,进行文本预测和分文分类。
5.根据权利要求1所述的基于GPT2模型中文测试用例补全方法,其特征在于:基于补全方法的S3中:
通过搜集的例库,形成数据库,并在词向量分解后,进行解码器进行双重解码,对用例库中所有数据进行处理,通过中文切词工具将所有用例分词,在使用词转变向量的方法使用例向量化。
6.根据权利要求1所述的基于GPT2模型中文测试用例补全方法,其特征在于:基于补全方法的S4中:
GPT2的预训练采用的是单向的语言模型,在经过聚合后,得到广泛的数据库,经过训练和推理后,得到测试用例,并进行审核处理,反馈至用例库中,扩充数据库。
CN202211290086.7A 2022-10-21 2022-10-21 基于gpt2模型中文测试用例补全方法 Pending CN115617666A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211290086.7A CN115617666A (zh) 2022-10-21 2022-10-21 基于gpt2模型中文测试用例补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211290086.7A CN115617666A (zh) 2022-10-21 2022-10-21 基于gpt2模型中文测试用例补全方法

Publications (1)

Publication Number Publication Date
CN115617666A true CN115617666A (zh) 2023-01-17

Family

ID=84863866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211290086.7A Pending CN115617666A (zh) 2022-10-21 2022-10-21 基于gpt2模型中文测试用例补全方法

Country Status (1)

Country Link
CN (1) CN115617666A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955210A (zh) * 2023-09-19 2023-10-27 北京普太科技有限公司 一种测试用例的生成方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955210A (zh) * 2023-09-19 2023-10-27 北京普太科技有限公司 一种测试用例的生成方法、装置、电子设备及存储介质
CN116955210B (zh) * 2023-09-19 2024-01-19 北京普太科技有限公司 一种测试用例的生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Jin et al. Self-supervised learning on graphs: Deep insights and new direction
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
BakIr Predicting structured data
CN111178085B (zh) 文本翻译器训练方法、专业领域文本语义解析方法和装置
Chandrasegaran et al. Revisiting label smoothing and knowledge distillation compatibility: What was missing?
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113378913A (zh) 一种基于自监督学习的半监督节点分类方法
CN111177390A (zh) 基于混合模型的事故车辆识别方法和装置
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN115617666A (zh) 基于gpt2模型中文测试用例补全方法
Zhang et al. Deep hypergraph structure learning
CN115329101A (zh) 一种电力物联网标准知识图谱构建方法及装置
CN115577678A (zh) 文档级事件因果关系识别方法、系统、介质、设备及终端
CN116595406A (zh) 基于角色一致性的事件论元角色分类方法及系统
CN116842194A (zh) 一种电力语义知识图谱系统及方法
CN115526174A (zh) 一种针对财经文本情感倾向分类的深度学习模型融合方法
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN114492458A (zh) 一种基于多头注意力和词共现的方面级情感分析方法
CN115080736A (zh) 一种判别式语言模型的模型调整方法及装置
WO2023213233A1 (zh) 任务处理方法、神经网络的训练方法、装置、设备和介质
Aoki et al. Few-shot font generation with deep metric learning
CN112131887B (zh) 一种基于语义要素的低资源文本识别算法
CN116719900A (zh) 基于超图建模文档级因果结构的事件因果关系识别方法
CN117093196B (zh) 一种基于知识图谱的编程语言生成方法及系统
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination