CN112598775B

CN112598775B - 一种基于对比学习的多视图生成方法

Info

Publication number: CN112598775B
Application number: CN202011523734.XA
Authority: CN
Inventors: 卢育钦; 曹江中; 戴青云; 周琦量; 郭江涛; 晁小朋
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-10-29
Anticipated expiration: 2040-12-21
Also published as: CN112598775A

Abstract

本发明为克服外观专利图像集中存在的视图缺失的缺陷，提出一种基于对比学习的多视图生成方法，包括以下步骤：获取多视角图像数据及其对应的真实视点标签；对多视角图像数据进行预处理，构建训练集；使用对比学习约束训练编码器；在完成训练的编码器后接入解码器和判别器，构成生成对抗网络，将所述训练集输入所述生成对抗网络中进行对抗训练；输入外观图像，经完成训练的编码器提取视角不变特征后，将所述视角不变特征和目标视角标签输入完成训练的解码器中，输出得到保留主体本征信息且视角转换为目标视角的外观图像。

Description

一种基于对比学习的多视图生成方法

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种基于对比学习的多视图生成方法。

背景技术

随着知识经济时代的到来，知识产权制度在社会的发展变化中发挥着越来越突出的作用。而外观设计作为知识产权法律的一项保护对象，也逐渐受到了人们的关注。我国的外观设计专利申请在不断地增多，申请量已居于世界第一，面对庞大的外观专利数据库，如何利用计算机技术更高效地进行外观专利的检索成为了一个重要的研究热点，同时，以深度学习为代表的机器学习方法是目前主要的研究方向之一，深度学习在计算机视觉上的应用得到了前所未有的成功，也为图像检索带来了精度和效率上的提高成为了解决与图像相关任务的最主要，最有效的方法。

由于早期对于外观专利图像的收集备案存在不规范性，导致外观专利图像数据库中存在不少视图缺失的问题，这也为专利图像检索中的多角度检索带来挑战，使得在拍摄角度不正的情况下检索的精度出现不同程度的下降。传统的补充图像的方法是通过人工的再次采集，然而其不仅效率低下、成本巨大，而且还可能无法还原以前采集时的环境背景。另一种方法是通过生成模型来学习真实数据的分布从而对图像数据进行补充，近年来关于生成对抗网络的研究呈现爆发式增长，通过研究者们的不断改进优化，目前生成对抗网络已具备良好的生成能力，它通过两个神经网络的对抗训练，使得生成网络学习高维分布。目前，新视图合成方法分为两类，基于几何的方法和基于学习的方法，然而它们分别有着局限于特定的场景和无法推断3D结构信息的缺点，生成的新视角的图片会丢失原本的身份信息，无法有效地解决外观专利图像集中存在的视图缺失的问题。

发明内容

本发明为克服上述现有技术所述的外观专利图像集中存在的视图缺失的缺陷，提供一种基于对比学习的多视图生成方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于对比学习的多视图生成方法，包括以下步骤：

S1：获取多视角图像数据及其对应的真实视点标签；

S2：对多视角图像数据进行预处理，构建训练集；

S3：使用对比学习约束训练编码器；

S4：在完成训练的编码器后接入解码器和判别器，构成生成对抗网络，将所述训练集输入所述生成对抗网络中进行对抗训练；

S5：输入外观图像，经完成训练的编码器提取视角不变特征后，将所述视角不变特征和目标视角标签输入完成训练的解码器中，输出得到保留主体本征信息且视角转换为目标视角的外观图像。

作为优选方案，所述S2步骤中，对多视角图像数据进行预处理的具体步骤如下：

S2.1：从同一物体的多视角图像数据中选取13个不同视角拍摄得到的图片，以正对物体为中心，左右各选取6个视角，每个视角间隔15°，组成训练集，并标注有相应的视角标签；

S2.2：对训练集中每张图像，对主体部分进行裁剪，去除背景，并对图像进行缩放形成同一规格大小的图像。

作为优选方案，所述编码器为Small AlexNet，所述编码器中包括5个卷积块，3个全连接层，其中所述卷积块中包括卷积层、BN层、ReLU层、池化层。

作为优选方案，所述解码器采用ResNet，其中包括5个上采样残差块、1个ReLU层、1个卷积层、1个Tanh层，所述上采样残差块中包括3个卷积层、2个AdaIN层、1个ReLU层。

作为优选方案，所述判别器采用ResNet，其中包括5个下采样残差块、2个全连接层、1个softmax层，所述下采样残差块中包括3个卷积层、1个ReLU层。

作为优选方案，所述S3步骤中，使用对比学习约束训练编码器的具体步骤如下：将训练集输入编码器中，得到图像的表示，在将所述图像的表示通过对比学习加入对齐性和一致性损失，反向传播更新网络，通过最小化损失，实现图像均匀分布在超球面上，且同一物体的不同视角图分布接近。

作为优选方案，所述S3步骤中，还包括以下步骤：将训练集输入编码器中，得到图像表示，将所述图像表示进行L2范数约束，使形成的表示向量分布在超球面上，将同一物体的不同视图作为正样例，将不同物体的不同视图作为负样例，利用对齐性和均匀分布性约束，使在形成的超球面特征空间中的正样例靠近且负样例远离，且所有物体的特征表示均匀地分布在空间中，得到完整的图像表示。

作为优选方案，通过最小化第一损失函数达到正样例靠近的效果，所述第一损失函数的表达公式如下：

式中，f表示将输入映射到特征空间的编码器网络，(x，y)表示同一物体的不同视图，p_pos表示正样例数据分布，

表示取期望。

作为优选方案，所述S4步骤中，训练集数据输入编码器后输出得到对应的视图不变特征及其视图估计，计算所述视图估计

与真实视点标签v之间的交叉熵损失，并通过最小化损失对编码器进一步训练；其中交叉熵损失的表达公式如下：

式中，M为输入的视图个数，v_k表示第k张输入图像的真实视点标签，

表示第k张输入图像的视图估计。

作为优选方案，所述S4步骤还包括以下步骤：计算所述生成对抗网络的损失函数，并通过最小化损失对生成对抗网络进一步训练；所述生成对抗网络的损失函数的计算公式如下：

式中，

表示判别器输出，I_A表示某一视角的真实图像，

表示生成的另一视角的图像，v_A，v_B分别表示对应的视角标签。

与现有技术相比，本发明技术方案的有益效果是：本发明对编码器网络加入了对齐损失和均匀分布性约束，利用对比学习的思想，可以让同一物体的不同视图特征表示尽量靠近，不同物体的视图特征远离，并且近似实现整个特征空间的特征分布信息最大化，大大提高网络泛化能力；本发明还结合生成对抗网络，对于生成的新视角的图像，将其输入判别器网络中进行真假鉴别，随着训练的进行同时提高判别器网络和编码器网络的能力。

附图说明

图1为实施例1的基于对比学习的多视图生成方法的流程图。

图2为实施例1的生成对抗网络的训练流程图。

图3为实施例1的训练形成的特征空间示意图。

图4为实施例1的编码器网络模型示意图。

图5为实施例1的编码器网络模型示意图。

图6为实施例1的判别器网络模型示意图。

图7为实施例1的多视图生成对抗网络结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于对比学习的多视图生成方法，如图1～2所示，为本实施例的基于对比学习的多视图生成方法的流程图。

本实施例提出的基于对比学习的多视图生成方法中，包括以下步骤：

S1：获取多视角图像数据及其对应的真实视点标签。

在本实施例中，从外观专利数据库中选取多视角图像数据作为训练数据。

S2：对多视角图像数据进行预处理，构建训练集。

本步骤中，对多视角图像数据进行预处理的具体步骤如下：

S2.1：从同一物体的多视角图像数据中选取13个不同视角拍摄得到的图片，以正对物体为中心，左右各选取6个视角，每个视角间隔15°，组成训练集，并标注有相应的视角标签作为真实视点标签；

S2.2：在不影响外观专利数据库中的数据的前提下，对训练集中每张图像，对主体部分进行裁剪，去除背景，并对图像进行缩放形成128*128大小的图像。

S3：使用对比学习约束训练编码器。

使用对比学习约束训练编码器的具体步骤如下：将训练集输入编码器中，得到图像的表示，在将所述图像的表示通过对比学习加入对齐性和一致性损失，反向传播更新网络，通过最小化损失，实现图像均匀分布在超球面上，且同一物体的不同视角图分布接近，使其实现图像视角不变特征Z的提取功能。

如图3所示，为本实施例训练形成的特征空间示意图。

S4：在完成训练的编码器后接入解码器和判别器，构成生成对抗网络，将所述训练集输入所述生成对抗网络中进行对抗训练。

本实施例中，生成对抗网络由编码器网络、解码器网络和判别器网络组成，其中编码器网络用于提取视角不变特征z，解码器网络用于责生成目标视角的图片I_B，判别器网络用于鉴别输入图片的真假。其中：

编码器网络的输入为真实的图片，输出视图不变特征z和预测的视角标签v_A；编码器网络采用Small AlexNet，编码器网络中包括5个卷积块，3个全连接层，且卷积块中包括卷积层、BN层、ReLU层、池化层；

解码器网络的输入为视图不变特征z和不同视角标签v_B，输出生成的视角图像I_B；解码器网络采用ResNet，解码器网络中包括5个上采样残差块、1个ReLU层、1个卷积层、1个Tanh层，且上采样残差块中包括3个卷积层、2个AdaIN层、1个ReLU层；

判别器网络的输入为生成的图片I_B和真实的图片I_A，输出为视角标签v_B，以及1/0(代表真/假)；判别器网络采用ResNet，判别器网络中包括5个下采样残差块、2个全连接层、1个softmax层，且下采样残差块中包括3个卷积层、1个ReLU层。

如图4～7所示，为本实施例的编码器网络、解码器网络和判别器网络的结构示意图，以及本实施例的多视图生成对抗网络结构示意图。

其中，将输入的外观图像通过编码器和解码器的处理，即可实现将输入图像中物体进行视角的旋转之后输出生成的视角转换后的图像，该生成图像与输入图像描述的是同一物体的不同视图。

本实施例中，通过对比学习对编码器网络进行约束训练，将对齐性和一致性损失加入训练过程中，获得外观专利图像的表示，因而在测试阶段输入随机的其他外观专利图像，即可在特征空间上找到类似的特征表示，再将得到的特征表示(视角不变特征z)以及目标视角标签通过编码器网络，即可生成最大限度保留物体本征信息的新视角的图像，该方法大大提高了网络泛化能力。

对于生成的新视角的图像，将其输入判别器网络中进行真假鉴别，随着训练的进行，判别器网络慢慢提高自身鉴别真假图像的能力，而编码器网络则需要不断提高生成质量欺骗判别器网络，使其分辨不出真假。

最终达到的理想状态为：判别器网络已经足够强大可以鉴定图像的真假，同时编码器网络所生成的新视角图像已经足够真实到能够欺骗判别器，即生成的新视角图像与真实图像的特征分布几乎重合。

实施例2

本实施例在实施例1提出的基于对比学习的多视图生成方法作出改进。

S1：获取多视角图像数据及其对应的真实视点标签。

S2：对多视角图像数据进行预处理，构建训练集。

本步骤中，对多视角图像数据进行预处理的具体步骤如下：

S3：使用对比学习约束训练编码器。

进一步的，将训练集输入编码器中，得到图像表示，将所述图像表示进行L2范数约束，使形成的表示向量分布在超球面上，将同一物体的不同视图作为正样例，将不同物体的不同视图作为负样例，利用对齐性和均匀分布性约束，使在形成的超球面特征空间中的正样例靠近且负样例远离，且所有物体的特征表示均匀地分布在空间中，得到完整的图像表示。

本实施例中，通过最小化第一损失函数达到正样例靠近的效果，所述第一损失函数的表达公式如下：

表示取期望。

除此之外，为了在训练过程中最大限度的探索整个特征空间，防止网络学习到特征空间的某个子空间导致对于未见数据生成效果差的问题。

通过对负样例的特征进行均匀分布的约束，使得负样例尽可能地均匀分布在超球面空间上，来保证整个特征空间得到更完整的探索。本实施例中利用下列公式来实现提取完整表示的效果：

式中，(x，y)表示不同物体的单视图，p_data表示数据集分布。

通过这种“均匀性”约束，本实施例中的编码器网络能够学习更完整的表示形式，这些表示形式可以填充整个空间并增强编码器对未见数据的鲁棒性。

本实施例中，训练集数据输入编码器后输出得到对应的视图不变特征及其视图估计，计算所述视图估计

与真实视点标签v之间的交叉熵损失，并通过最小化损失对编码器进一步训练，以确保编码器是一个良好的视角估计器；其中交叉熵损失的表达公式如下：

表示第k张输入图像的视图估计。

解码器的任务是从视图不变特征z_A重建新视角图像I_B，其中视图不变特征z_A包含真实的图片I_A和新视角图像I_B之间共享的固有特征；本实施例通过最小化损失对编码器进一步训练，其损失函数的表达公式如下：

式中，

表示从真实的图片I_A中提取的视角不变特征，v_B为目标视角标签。

为了在给定单视图图像的情况下生成多视图，解码器需要学习用提取的视角不变特征去推测经过视图转换后的图像，特别是在原视图中被遮挡的部分。本实施例采用生成对抗网络确保新视角图像的生成效果。

进一步的，计算所述生成对抗网络的损失函数，并通过最小化损失对生成对抗网络进一步训练；所述生成对抗网络的损失函数的计算公式如下：

式中，

表示判别器输出，I_A表示某一视角的真实图像，

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于对比学习的多视图生成方法，其特征在于，包括以下步骤：

S1：获取多视角图像数据及其对应的真实视点标签；

S2：对多视角图像数据进行预处理，构建训练集；

S3：使用对比学习约束训练编码器：将训练集输入编码器中，得到图像的表示，在将所述图像的表示通过对比学习加入对齐性和一致性损失，反向传播更新网络，通过最小化损失，实现图像均匀分布在超球面上，且同一物体的不同视角图分布接近；

2.根据权利要求1所述的基于对比学习的多视图生成方法，其特征在于，所述S2步骤中，对多视角图像数据进行预处理的具体步骤如下：

3.根据权利要求1所述的基于对比学习的多视图生成方法，其特征在于，所述编码器为SmallAlexNet，所述编码器中包括5个卷积块，3个全连接层，其中所述卷积块中包括卷积层、BN层、ReLU层、池化层。

4.根据权利要求3所述的基于对比学习的多视图生成方法，其特征在于，所述解码器采用ResNet，其中包括5个上采样残差块、1个ReLU层、1个卷积层、1个Tanh层，所述上采样残差块中包括3个卷积层、2个AdaIN层、1个ReLU层。

5.根据权利要求4所述的基于对比学习的多视图生成方法，其特征在于，所述判别器采用ResNet，其中包括5个下采样残差块、2个全连接层、1个softmax层，所述下采样残差块中包括3个卷积层、1个ReLU层。

6.根据权利要求1所述的基于对比学习的多视图生成方法，其特征在于，所述S3步骤中，还包括以下步骤：将训练集输入编码器中，得到图像表示，将所述图像表示进行L2范数约束，使形成的表示向量分布在超球面上，将同一物体的不同视图作为正样例，将不同物体的不同视图作为负样例，利用对齐性和均匀分布性约束，使在形成的超球面特征空间中的正样例靠近且负样例远离，且所有物体的特征表示均匀地分布在空间中，得到完整的图像表示。

7.根据权利要求6所述的基于对比学习的多视图生成方法，其特征在于，通过最小化第一损失函数达到正样例靠近的效果，所述第一损失函数的表达公式如下：

表示取期望。

8.根据权利要求7所述的基于对比学习的多视图生成方法，其特征在于，所述S4步骤中，训练集数据输入编码器后输出得到对应的视图不变特征及其视图估计，计算所述视图估计

表示第k张输入图像的视图估计。

9.根据权利要求8所述的基于对比学习的多视图生成方法，其特征在于，所述S4步骤还包括以下步骤：计算所述生成对抗网络的损失函数，并通过最小化损失对生成对抗网络进一步训练；所述生成对抗网络的损失函数的计算公式如下：

式中，

表示判别器输出，I_A表示某一视角的真实图像，