CN113886226A

CN113886226A - 一种基于孪生网络的对抗生成模型的测试数据生成方法

Info

Publication number: CN113886226A
Application number: CN202111115749.7A
Authority: CN
Inventors: 侯雪梅; 周刚; 高飞; 刘洪波; 张凤娟; 吴建萍
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2022-01-04
Anticipated expiration: 2041-09-23
Also published as: CN113886226B

Abstract

本发明提供一种基于孪生网络的对抗生成模型的测试数据生成方法。该方法包括：构建一个对抗生成模型，包括生成器和判别器，判别器由一个孪生网络构成；训练对抗生成模型，具体为：获取由真实图像组成的样本集合，并利用生成器将输入的随机噪声转换为生成图像；将获取的真实图像和生成器输出的生成图像分别作为判别器的输入，并使用对比损失函数训练判别器；保持判别器的参数不变，将生成图像的标签设置为真实图像的标签，再次将更改标签后的生成图像送入判别器进行判断；将判别器的判别结果的误差进行反向传播以指导生成器的训练；对生成器和判别器进行交替训练，得到最优的对抗生成模型，利用最优的对抗生成模型生成测试用的图像数据。

Description

一种基于孪生网络的对抗生成模型的测试数据生成方法

技术领域

本发明涉及软件测试数据生成技术领域，尤其涉及一种基于孪生网络的对抗生成模型的测试数据生成方法。

背景技术

机器学习系统的应用越来越广泛，给各种应用带来的风险也越来越高。为了提高机器学习系统的质量，有必要对机器学习系统进行测试。测试数据生成是软件测试技术的重要组成部分。目前，软件测试中的测试数据主要依靠人工创建，这是一项费时费力的工作，将严重延长测试周期，增加测试成本。测试数据的自动生成可以有效地解决上述问题，提高软件测试的整体效率。

目前大数据背景下机器学习系统测试数据获取的主流方法是仿真数据生成技术，如用于Web搜索引擎自动测试数据生成方法，基于遗传算法的测试数据生成方法和基于改进鱼群算法的路径测试数据生成方法等，都是针对传统的软件测试技术，自动化生成满足需求的测试用例数据。传统的数据生成技术，主要是针对传统软件测试中测试数据尽可能少以及测试基准数据应该覆盖更广泛的业务类型两个基本要求进行测试用例生成，近年来大数据的发展促使一些大规模仿真数据生成方法与工具软件不断涌现，如MUDD(Multi-dimensional Data Generator)、QAGen(Query-aware Generator)、DSGen(DecisionSupport Generator)等。在机器学习系统测试数据生成领域，主要包括基于模糊的测试数据生成和基于对抗生成网络的测试数据生成。2018年，Guo提出了DLFuzz，它在块覆盖率的指导下生成对抗性测试数据。2019年，Xie提出了DeepHunter，它使用基于变形变换的覆盖引导模糊技术，并通过更细粒度的变异策略生成测试数据。2014年，Goodfellow提出了一种新的生成对抗网络模型，它可以通过判别器和生成器的博弈过程生成新的数据样本。目前利用生成对抗网络进行测试图像数据生成的研究有了一些初步的结果，但是目前的方法大多没有考虑真实图像和生成图像之间的相似性或者图像的细粒度特征。

发明内容

目前的方法大多没有考虑真实图像和生成图像之间的相似性或者图像的细粒度特征，导致生成的图像数据逼真度有待提升，本发明的发明人发现，利用孪生网络对图像之间的相似性进行学习，构建对抗生成模型，生成的测试图像更为逼真，因此，本发明提供一种基于孪生网络的对抗生成模型的测试数据生成方法。

本发明提供的一种基于孪生网络的对抗生成模型的测试数据生成方法，包括：

步骤1：构建一个对抗生成模型，包括生成器和判别器，所述判别器由一个孪生网络构成；

步骤2：训练所述对抗生成模型，具体为：

步骤2.1：获取由真实图像组成的样本集合，并利用所述生成器将输入的随机噪声转换为生成图像；

步骤2.2：将获取的真实图像和所述生成器输出的生成图像分别作为所述判别器的输入，并使用对比损失函数训练所述判别器；

步骤2.3：保持所述判别器的参数不变，将生成图像的标签设置为真实图像的标签，再次将更改标签后的生成图像送入所述判别器进行判断；

步骤2.4：将所述判别器的判别结果的误差进行反向传播以指导所述生成器的训练；

步骤2.5：按照步骤2.1至步骤2.4对所述生成器和所述判别器进行交替训练，得到最优的对抗生成模型，利用最优的对抗生成模型生成测试用的图像数据。

进一步地，所述生成器由一个8层的神经网络构成；其中：

第一层的输入为100维的随机向量；第二层的输出为1024维的向量；第三层至第八层均为2×2的反卷积层，第三层至第八层的输出图像的大小依次为：512×3×3，256×6×6，128×12×12，64×24×24，32×48×48和3×96×96；每两层网络之间均设置有激活函数和批归一化操作。

进一步地，所述孪生网络由两个结构相同的卷积神经网络构成；所述卷积神经网络包括8层网络层，具体为：

第一层的输入为3×96×96大小的图像；第二层至第六层均由卷积操作和2×2的最大池化层构成，第二层至第六层的输出图像的大小依次为：64×48×48，128×24×24，256×12×12，512×6×6和256×6×6；第七层的输出为9216维的向量；第八层的输出为2维的向量。

进一步地，所述对比损失函数如公式(1)所示：

其中，D_W(X₁,X₂)表示两幅图像X₁和X₂的2范数，

P表示图像样本的特征维数，Y是两幅图像X₁和X₂是否匹配或者相似的标签，Y＝1表示两幅图像X₁和X₂相似或者匹配，Y＝0表示两幅图像X₁和X₂不相似或者不匹配，m为设定的阈值，N为图像样本个数。

本发明的有益效果：

本发明提出通过孪生网络构建对抗生成模型中的判别器，孪生网络以两个图像样本作为输入，输出嵌入高维空间的表示，以比较两个样本的相似性，可以很好的评估两幅图像的相似性或者图像的细粒度特征。在训练该对抗生成模型时，首先训练判别器，然后利用真实的图像和生成的图像的相似性指导生成器的训练，对抗生成模型中的判别器和生成器不断的交替训练，通过对抗的方式获得最优的生成对抗模型，可以得到较为逼真的生成图像。该方法利用了在有监督学习范式中，孪生网络可以最大化不同类别的表示，最小化相同类别的表示，从而将真实图像和生成图像之间的相似性进行了很好的学习，进一步提升了生成对抗模型产生的测试图像数据的质量。

附图说明

图1为本发明实施例提供的构建的对抗生成模型的结构示意图；

图2为本发明实施例提供的生成器的结构示意图；

图3为本发明实施例提供的采用孪生网络构成的判别器的结构示意图；

图4为本发明实施例提供的孪生网络中的卷积神经网络的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于孪生网络的对抗生成模型的测试数据生成方法，包括以下步骤：

S101：构建一个对抗生成模型，如图1所示，包括生成器和判别器，所述判别器由一个孪生网络构成；

S102：训练所述对抗生成模型，具体为：

S1021：获取由真实图像组成的样本集合，并利用所述生成器将输入的随机噪声转换为生成图像；

S1022：将获取的真实图像和所述生成器输出的生成图像分别作为所述判别器的输入，并使用对比损失函数训练所述判别器；

S1023：保持所述判别器的参数不变，将生成图像的标签设置为真实图像的标签，再次将更改标签后的生成图像送入所述判别器进行判断；

S1024：将所述判别器的判别结果的误差进行反向传播以指导所述生成器的训练；

S1025：按照步骤S1021至步骤S1024对所述生成器和所述判别器进行交替训练，得到最优的对抗生成模型，利用最优的对抗生成模型生成测试用的图像数据。

作为一种可实施方式，如图2所示，所述生成器由一个8层的神经网络构成；其中：第一层的输入为100维的随机向量；第二层的输出为1024维的向量；第三层至第八层均为2×2的反卷积层，第三层至第八层的输出图像的大小依次为：512×3×3，256×6×6，128×12×12，64×24×24，32×48×48和3×96×96；每两层网络之间均设置有激活函数和批归一化操作。

具体地，该生成器网络的输入为100维的随机向量，第二层输出为1024维的向量，第三层经过2×2的反卷积后，输出图像大小为512×3×3，第四层经过2×2的反卷积后，输出图像大小为256×6×6，第五层经过2×2的反卷积后，输出图像大小为128×12×12，第六层经过2×2的反卷积后，输出图像大小为64×24×24，第七层经过2×2的反卷积后，输出图像大小为32×48×48，第八层经过2×2的反卷积后，最终输出的图像大小为3×96×96，即为生成的图像，每两层网络之间均有激活函数和批归一化操作。

需要说明的是，生成器的第一层网络的输入向量的维数随着真实图像的分辨率增大而增加，最后一层网络的输出图像的分辨率和真实图像的分辨率设置为一致，生成器模型的网络层数随着真实图像的分辨率增大而增加。

作为一种可实施方式，如图3所示，所述孪生网络由两个结构相同的卷积神经网络构成；如图4所示，所述卷积神经网络包括8层网络层，具体为：第一层的输入为3×96×96大小的图像；第二层至第六层均由卷积操作和2×2的最大池化层构成，第二层至第六层的输出图像的大小依次为：64×48×48，128×24×24，256×12×12，512×6×6和256×6×6；第七层的输出为9216维的向量；第八层的输出为2维的向量。

具体地，卷积神经网络的第一层网络输入为3×96×96大小的图像，第二层经过卷积操作和2×2的最大池化后，输出图像大小为64×48×48，第三层经过卷积操作和2×2的最大池化后，输出图像大小为128×24×24，第四层经过卷积操作和2×2的最大池化后，输出图像大小为256×12×12，第五层经过卷积操作和2×2的最大池化后，输出图像大小为512×6×6，第六层经过卷积操作和2×2的最大池化后，输出图像大小为256×6×6，第七层的输出为9216维的向量，最后第八层的输出为2维的向量。

如图3所示，孪生网络的输入是一对3×96×96大小的图像，分别是真实图像和生成器输出的生成图像，通过采用对比损失函数计算对比损失，用来训练孪生网络，通过孪生网络来判别输入的一对图像是否相似或者匹配。需要说明的是，孪生网络的层数随着真实图像的分辨率增大而增加。

作为一种可实施方式，所述对比损失函数如公式(1)所示：

其中，D_W(X₁,X₂)表示两幅图像X₁和X₂的2范数，

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于孪生网络的对抗生成模型的测试数据生成方法，其特征在于，包括：

步骤2：训练所述对抗生成模型，具体为：

2.根据权利要求1所述的一种基于孪生网络的对抗生成模型的测试数据生成方法，其特征在于，所述生成器由一个8层的神经网络构成；其中：

3.根据权利要求1所述的一种基于孪生网络的对抗生成模型的测试数据生成方法，其特征在于，所述孪生网络由两个结构相同的卷积神经网络构成；所述卷积神经网络包括8层网络层，具体为：

4.根据权利要求1所述的一种基于孪生网络的对抗生成模型的测试数据生成方法，其特征在于，所述对比损失函数如公式(1)所示：

其中，D_W(X₁,X₂)表示两幅图像X₁和X₂的2范数，