CN113222867B

CN113222867B - 基于多模板图像的图像数据增强方法及系统

Info

Publication number: CN113222867B
Application number: CN202110411282.4A
Authority: CN
Inventors: 郑元杰; 张纪昌; 李欣萌; 刘弘; 姜岩芸
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-05-20
Anticipated expiration: 2041-04-16
Also published as: CN113222867A

Abstract

本公开提供了一种基于多模板图像的图像数据增强方法及系统，包括：对待增强的图像数据进行分类，并从每类图像数据中选择N个图像作为模板图像；对模板图像进行像素级融合，获得融合图像；将所述融合图像分别输入分割网络和评估网络中，获得初始概率分布矩阵和N个初始混淆矩阵；其中，所述分割网络和评估网络相耦合；将N个初始混淆矩阵分别与所述初始概率分布矩阵逐元素矩阵相乘得到N个新概率分布矩阵；分别计算N个新概率分布矩阵与对应模板图像的交叉熵，并与N个混淆矩阵的迹组成损失函数；基于最小化损失函数的目标，迭代更新分割网络和评估网络的参数，达到预设优化条件后，利用分割网络输出扩充图像。

Description

基于多模板图像的图像数据增强方法及系统

技术领域

本公开属于图像处理技术领域，尤其涉及一种基于多模板图像的图像数据增强方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

计算机视觉是当下研究十分火热领域之一，人类可以通过双眼感知外部世界，而计算机必须通过对图像的处理和识别才能获取信息。计算机视觉是一门研究如何使机器“看到”的科学。更具体地说，它就是以是摄像机、照相机、计算机来代替人眼来获取、辨识、跟踪目标。而图像处理领域更是计算机视觉中的重点研究领域，相关技术例如语义分割、目标检测、图像配准、样式迁移等等。近年来，机器学习和深度学习已经广泛应用在计算机的各个领域，计算机视觉和图像处理也不例外，当下最先进的计算机视觉应用几乎难以离开深度学习，例如卷积神经网络(CNN)、全卷积神经网络(FCN)、循环神经网络(RNN)都是应用在图像领域中经典的深度学习模型。

拥有大规模训练数据的数据集是深度学习成功应用的前提，也是影响精准度的关键因素之一。20世纪90年代，由于那时计算机的存储太小，并且数据集的采集预算有限，大部分研究只限于小的数据集，使得所提出的模型和架构性能有限。2010年后兴起大数据风暴，大规模的数据集在一定程度上促进了深度学习的发展。然而，发明人发现，许多领域由于数据采集困难、人工标注成本高，仍难以获得大量的数据用来训练模型，如医学图像领域。由此研究人员致力于找出有效扩充数据集的方法，目前最常用的方法是数据增广，是对原图进行翻转、裁剪、颜色变化、叠加图像、增加高斯噪声等。这样的方法在扩充数据集的同时也引入了可能会降低模型性能的噪声，徒增更多的冗余信息。不久前有研究人员发现，卷积神经网络会隐性地编码绝对位置信息，即图像中物体的位置会影响最后的结果。

发明内容

本公开为了解决上述问题，提供了一种基于多模板图像的图像数据增强方法及系统，所述方案构建了联合评估多幅图像特征的端到端的网络模型，融合多幅模板图像，利用混淆矩阵评估融合后图像与模板图像的差异与可靠性，最终生成一个与所有模板图像都不同、且保留重要特征的结果图像，用以扩充数据集，能够有效解决扩充后引入噪声数据的问题，提高数据集的可靠性。

根据本公开实施例的第一个方面，提供了一种基于多模板图像的图像数据增强方法，包括：

对待增强的图像数据进行分类，并从每类图像数据中选择N个图像作为模板图像，对模板图像进行像素级融合，获得融合图像；

将所述融合图像分别输入分割网络和评估网络中，获得初始概率分布矩阵和N个初始混淆矩阵；其中，所述分割网络和评估网络相耦合；

将N个初始混淆矩阵分别与所述初始概率分布矩阵逐元素矩阵相乘得到N个新概率分布矩阵；

分别计算N个新概率分布矩阵与对应模板图像的交叉熵，并与N个混淆矩阵的迹组成损失函数；

基于最小化损失函数的目标，迭代更新分割网络和评估网络的参数，达到预设优化条件后，利用分割网络输出扩充图像。

进一步的，所述图像融合采用线性融合的方式，通过对不同模板图像对应像素之和求均值，并进行归一化处理。

进一步的，所述分割网络采用概率U-Net，通过所述分割网络生成仅依靠单一的融合图像进行分割后的概率分布矩阵。

进一步的，所述评估网络与所述分割网络相耦合，其中，所述评估网络采用卷积神经网络，其输入为融合图像后输出N个混淆矩阵，将N个混淆矩阵分别与分割网络得到的概率分布矩阵进行逐元素相乘，得到N个新的概率分布矩阵，与各对应模板图像计算交叉熵，再与混淆矩阵对角线之和相加后组成总损失函数，最小化损失函数以更新分割网络和评估网络的参数。

根据本公开实施例的第二个方面，提供了一种基于多模板图像的图像数据增强系统，包括：

融合图像获取单元，其用于对待增强的图像数据进行分类，并从每类图像数据中选择N个图像作为模板图像；对模板图像进行像素级融合，获得融合图像；

损失函数构建单元，其用于将所述融合图像分别输入分割网络和评估网络中，获得初始概率分布矩阵和N个初始混淆矩阵；其中，所述分割网络和评估网络相耦合；将N个初始混淆矩阵分别与所述初始概率分布矩阵逐元素矩阵相乘得到N个新概率分布矩阵；分别计算N个新概率分布矩阵与对应模板图像的交叉熵，并与N个混淆矩阵的迹组成损失函数；

扩充图像输出单元，其用于基于最小化损失函数的目标，迭代更新分割网络和评估网络的参数，达到预设优化条件后，利用分割网络输出扩充图像。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于多模板图像的图像数据增强方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于邻接密度的语料数据抽样方法一种基于多模板图像的图像数据增强方法。

与现有技术相比，本公开的有益效果是：

(1)在处理效果上，本公开首次使用多模板图像生成的混淆矩阵进行数据增强以获得扩充图像。该模型能够自动完成同类图像集的扩充，得到的扩充图像不仅与模板图像都不一致，并且还保留了大部分重要特征，产生的形变是在模板图像的限制之内，使其仍属于同一标签下的图像，提高了数据增强的可靠性，扩大了数据集。

(2)在使用和扩展性上，本公开可以应用在已有分类标签的数据集中，可以与前置的语义分割过程或注释过程无缝衔接，也允许人工的介入，手动分类，所以该模型可以自动或半自动执行。同时，本公开所述方案由于是综合多幅模板图像的特征，具有更高可靠性。

(3)在运算速度上，本公开模板图像数目不需要过多，为生成一个扩充图像，仅使用2～3幅模板图像即可，并且本公开可选择性地使用AdamW优化算法进行优化，收敛速度较快，迭代次数少，因此计算速度较快。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的多模板图像的数据增强方法流程图；

图2为本公开实施例一中所述的多模板图像的数据增强方法网络结构图；

图3为本公开实施例一中所述的模板图像的融合示意图；

图4为本公开实施例一中所述的多模板图像的数据增强方法结果示意图；

图5为本公开实施例一中所述生成的扩充图像与原模板图像的相似度示意图；

图6为本公开实施例一中所述生成的扩充图像使用识别模型识别的结果示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种基于多模板图像的图像数据增强方法。

如图1所示展示了本公开所述的图像数据增强方法流程图，一种使用多模板图像的数据增强方法，包括以下步骤：

步骤1：图像预处理，对同属同一标签的图像进行分类，并自定义输入模板图像的个数N(以下出现的“N”即模板图像个数)，根据经验此处图像个数N∈[2,4]为宜，即同属同一标签的不同图像的个数；

步骤2：对N个模板图像进行像素级的融合得到融合图像；

步骤3：融合图像输入分割网络得到初始的概率分布矩阵；

步骤4：融合图像输入另一个与上述分割网络耦合的评估网络(所述分割网络和评估网络相耦合，指的是分割网络的参数φ和评估网络的参数γ在整个模型的反向传播(即损失函数不断降低使得模型不断优化)的过程中同时改变，其中一个网络的参数改变也会影响另外一个)，得到N个初始的混淆矩阵；

步骤5：N个混淆矩阵分别与分割网络得到的概率分布矩阵逐元素矩阵相乘得到新的概率分布矩阵；

步骤6：分别计算N个新概率分布矩阵与对应模板图像的交叉熵，并与N个混淆矩阵的迹(矩阵的对角线)组成损失函数；

步骤7：反向传播，最小化损失函数，以更新两个耦合网络即分割网络和评估网络的参数；

步骤8：在指定优化轮数后，输出扩充图像。

所述步骤1中，我们要求进行数据增强的数据集需要有分类标签或类别注释，如手写数字数据集中同一个数字的不同图像列为同一组，组内取模板图像进行数据扩充，又如医学图像中，同类图像即患者图像类或健康者图像类。

步骤2图像融合可以采用简单的线性融合，如直接求均值，以二值图的融合为例，模板图像的融合使用逐个对应像素和均值的正弦函数，可以在不超过最大像素值1的前提下提高物体的亮度。

步骤3分割网络使用概率U-Net，生成仅依靠单一的融合图像进行分割后的概率分布矩阵，分割网络的参数不断优化，概率分布矩阵也朝着生成更可靠的扩充图像而变化，以

表示。

步骤4的评估网络用于估计给定输入的融合图像与模板图像像素水平的混淆矩阵，以

表示，L代表目标图像的种类数，如要得到二值图的扩充图像则L＝2，i,j∈L。其中(w,h,i,j)^th元素的值近似为

即混淆矩阵中的每个元素以下列公式计算：

其中，n∈N代表第n个模板图像，w∈W表示图像的宽，h∈H表示图像的高；a⁽ⁿ⁾(x,w,h)_ij表示在融合图像x下，第n个混淆矩阵中(i,j)位置的值；

代表第n个模板图像在(w,h)处像素值为i，y_wh＝j,x表示融合图像中(w,h)处像素值为j，此公式表达混淆矩阵是由模板图像与融合图像对应位置元素值异同的概率计算得到的，反映了每个模板图像的特异性。

其中，所述评估网络采用卷积神经网络，其输入形状为W*H的融合图像后输出N个W*H*L*L大小的混淆矩阵，其中，L为目标扩充图像像素的类别数，本方法默认L＝2，即0、1两类。使用此N个混淆矩阵分别与分割网络得到的概率分布矩阵进行逐元素相乘，得到N个新的概率分布矩阵，与各对应模板图像计算交叉熵，再与混淆矩阵对角线之和相加后组成总损失函数，最小化损失函数以更新分割网络和评估网络的参数。

所述步骤5中通过混淆矩阵与原概率分布矩阵相乘得到新的概率分布矩阵，所用的计算公式如下：

其中，

为融合图像x输入分割网络后得到的原概率分布矩阵.“·”运算符表示在空间维度(W,H)中的逐元素矩阵乘法。

所述步骤6，分别计算N个新概率分布矩阵与对应模板图像的交叉熵，并与N个混淆矩阵的迹(矩阵的对角线)组成损失函数：

其中，T是融合图像的个数，即训练所用的图像个数。最小化交叉熵可以使新的概率分布矩阵

尽可能地接近原始p⁽ⁿ⁾(x)，但无法将他们区分开，而最小化混淆矩阵的迹可以使模板图像最大程度不可靠，也就是尽可能地使p⁽ⁿ⁾(x)与

区分开，综合这两部分组成损失函数，最小化损失函数，可以达到融合各模板图像特征、与真实的融合后分割出的图像尽可能相似而与模板图像不相似的效果。

所述步骤7使用随机梯度下降(SGD)来最小化损失函数，以更新分割网络和估计网络的参数，并且可以选择使用AdamW优化器，即为随机梯度下降算法添入L-2正则化值，提高模型的收敛速度。

实施例二：

本实施例的目的是提供一种基于多模板图像的图像数据增强系统。

一种基于多模板图像的图像数据增强系统，包括：

扩充图像输出单元，其用于基于最小化损失函数的目标，迭代更新分割网络和评估网络的参数，达到预设优化条件后，利用分割网络输出扩充图像。在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种基于多模板图像的图像数据增强方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于多模板图像的图像数据增强方法，其特征在于，包括：

对待增强的图像数据进行分类，并从每类图像数据中选择N个图像作为模板图像；对模板图像进行像素级融合，获得融合图像；

2.如权利要求1所述的一种基于多模板图像的图像数据增强方法，其特征在于，所述图像融合采用线性融合的方式，通过对不同模板图像对应像素之和求均值，并通过正弦函数对其进行归一化处理。

3.如权利要求1所述的一种基于多模板图像的图像数据增强方法，其特征在于，所述分割网络采用概率U-Net，通过所述分割网络生成仅依靠单一的融合图像进行分割后的概率分布矩阵。

4.如权利要求1所述的一种基于多模板图像的图像数据增强方法，其特征在于，所述评估网络与所述分割网络相耦合，其中，所述评估网络采用卷积神经网络，其输入为融合图像后输出N个混淆矩阵，将N个混淆矩阵分别与分割网络得到的概率分布矩阵进行逐元素相乘，得到N个新的概率分布矩阵，与各对应模板图像计算交叉熵，再与混淆矩阵对角线之和相加后组成总损失函数，最小化损失函数以更新分割网络和评估网络的参数。

5.一种基于多模板图像的图像数据增强系统，其特征在于，包括：

6.如权利要求5所述的一种基于多模板图像的图像数据增强系统，其特征在于，所述图像融合采用线性融合的方式，通过对不同模板图像对应像素之和求均值，并通过正弦函数对其进行归一化处理。

7.如权利要求5所述的一种基于多模板图像的图像数据增强系统，其特征在于，所述分割网络采用概率U-Net，通过所述分割网络生成仅依靠单一的融合图像进行分割后的概率分布矩阵。

8.如权利要求5所述的一种基于多模板图像的图像数据增强系统，其特征在于，所述评估网络与所述分割网络相耦合，其中，所述评估网络采用卷积神经网络，其输入为融合图像后输出N个混淆矩阵，将N个混淆矩阵分别与分割网络得到的概率分布矩阵进行逐元素相乘，得到N个新的概率分布矩阵，与各对应模板图像计算交叉熵，再与混淆矩阵对角线之和相加后组成总损失函数，最小化损失函数以更新分割网络和评估网络的参数。

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4任一项所述的一种基于多模板图像的图像数据增强方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4任一项所述的一种基于多模板图像的图像数据增强方法。