CN113743499B

CN113743499B - 一种基于对比学习的视角无关特征解离方法及系统

Info

Publication number: CN113743499B
Application number: CN202111027722.2A
Authority: CN
Inventors: 郭江涛; 曹江中; 戴青云; 卢育钦; 周琦量
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-09-05
Anticipated expiration: 2041-09-02
Also published as: CN113743499A

Abstract

本发明提出一种基于对比学习的视角无关特征解离方法及系统，包括构建多图像数据集；将多图像数据集输入编码器网络，提取多视角图像表征；将多视角图像表征切分为视角信息表征和视角无关信息表征；将视角无关信息表征视为正样例，将视角信息表征视为负样例，对视角信息表征和视角无关信息表征使用对比学习损失进行的解离，并对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布。采用正样例和负样例都从同一个表示张量中获取的对比学习方法，将视角信息相互远离，使得视角信息不再相互靠近。

Description

一种基于对比学习的视角无关特征解离方法及系统

技术领域

本发明涉及人工智能领域，更具体地，涉及一种基于对比学习的视角无关特征解离方法及系统。

背景技术

目前，大部分的无监督特征解离技术是在GAN网络框架或VAE网络框架下进行的，但这种类型的网络框架会面临计算困难和模型复杂等问题。基于对比学习的特征解离技术，无需繁杂的网络框架，就能够从纠缠的多视角图像表示中解离出视角无关部分的特征表示，并将其用于下游任务。

公开号为CN112598775A(公开日为2021-04-02)提出一种基于对比学习的多视图生成方法，提出一种基于对比学习的多视图生成方法，包括以下步骤：获取多视角图像数据及其对应的真实视点标签；对多视角图像数据进行预处理，构建训练集；使用对比学习约束训练编码器；在完成训练的编码器后接入解码器和判别器，构成生成对抗网络，将所述训练集输入所述生成对抗网络中进行对抗训练；输入外观图像，经完成训练的编码器提取视角不变特征后，将所述视角不变特征和目标视角标签输入完成训练的解码器中，输出得到保留主体本征信息且视角转换为目标视角的外观图像。

该方法将不同视角的图像视为某一个视角的图像增强，不同视角的图像会直接被视为正样例，导致视角信息的表征会相互靠近。然而，理想的结果是视角信息的表征不应该相互靠近。

发明内容

本发明为克服上述现有技术所述的视角信息的表征会相互靠近，导致下游分类检索任务准确度降低的缺陷，提供一种基于对比学习的视角无关特征解离方法及系统。

为解决上述技术问题，本发明的技术方案如下：

第一个方面，本发明提出一种基于对比学习的视角无关特征解离方法，包括以下步骤：

S1：构建多图像数据集；

S2：将多图像数据集输入编码器网络，提取多视角图像表征；

S3：将多视角图像表征切分为视角信息表征和视角无关信息表征；

S4：将视角无关信息表征视为正样例，将视角信息表征视为负样例，对视角信息表征和视角无关信息表征使用对比学习损失进行解离；对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布。

优选地，S1步骤具体包括：

S1.1：从3D模型中渲染出包含多个视角的2D图像；

S1.2：利用2D图像构建多视图数据集列表M和N；M和N对应的两个图像分别记为和/>i∈{1,…,T}；v₁∈{0,…,m},v₂∈{0,…,m}；v₁≠v₂；

其中，表示第i个实例的第v₁个视角的图像，/>表示第i个实例的第v₂个视角的图像；T为实例的总数，m为视角的总数。

优选地，S2步骤具体包括：

S2.1：将同一实例中同一位置的不同视角的两个图像和/>进行拼接，得到

S2.2：将输入编码器网络进行表征提取，得到[2×128,T]维的多视角图像表征；

S2.3：将[2×128,T]维的多视角图像表征拆分为两个[128,T]维的多视角图像表征。

优选地，S3步骤具体包括：

S3.1：将两个[128,T]维的多视角图像表征分别进行切分，得到两个[8,T]维的多视角图像表征和两个[120,T]维的多视角图像表征；

S3.2：将[8,T]维的多视角图像表征设为视角信息表征，将[120,T]维的多视角图像表征设为视角无关信息表征。

优选地，S4步骤具体包括：

S4.1：将视角无关信息表征视为正样例，将视角信息表征视为负样例，通过对比学习损失，视角无关信息表征相互靠近，以及视角信息表征远离，对比学习损失函数L_cl的公式如下：

其中，rep₁和rep₂分别为两个[120,T]维的多视角图像表征的120维视角无关张量，view₁和view₂分别为两个[8,T]维的多视角图像表征的视角张量，sim(·)表示余弦相似度，τ为温度超参数；

S4.2：对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布，均匀分布损失函数L_uniform的公式如下：

其中，pdata为多图像数据集，x和y分别为pdata数据集中任意两个图像，且x和y在整个数据集中满足独立同分布(iid,independently indentically distribution，独立同分布)；E为期望，t为超参数。

第二个方面，本发明还提出一种基于对比学习的视角无关特征解离系统，应用于上述任一方案所述的一种基于对比学习的视角无关特征解离方法，其包括：

多图像数据集构建模块，用于构建多图像数据集；

图像表征提取模块，用于将多图像数据集输入编码器网络，提取多视角图像表征；

图像表征切分模块，用于对多视角图像表征进行切分，将一部分图像表征设为视角信息表征，将另一部分图像表征设置为视角无关信息表征；

对比学习解离模块，用于对视角信息表征和视角无关信息表征使用对比学习损失进行的解离，并对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布。

优选地，所述多图像数据集构建模块从3D模型中渲染出包含多个视角的2D图像，利用2D图像构建两个多视图数据集列表，并提取两个多视图数据集列表分别对应的两个图像。

优选地，所述图像表征提取模块包括视角拼接单元，所述视角拼接单元将两个图像对应位置的同一实例的不同视角进行拼接，将拼接后的结果输入编码器网络进行表征提取，将提取结果拆分为两个128维的多视角图像表征。

优选地，所述图像表征切分模块将两个128维的多视角图像表征分别进行规律的手动切分，得到8维的多视角图像表征和120维的多视角图像表征；所述图像表征切分模块将8维的多视角图像表征设为视角信息表征，将120维的多视角图像表征设为视角无关信息表征。

优选地，所述对比学习解离模块将视角无关信息表征视为正样例，将视角信息表征视为负样例，通过对比学习损失，使视角无关信息表征相互靠近以及视角信息表征远离；所述对比学习解离模块对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布。

与现有技术相比，本发明技术方案的有益效果是：对比学习方法中的正样例和负样例都从同一个表示张量中获取，正样例为输入的一批多视角图像中公共的相似部分，即视角无关信息。负样例为输入的一批多视角图像中公共的不相似部分，即视角信息。通过训练，将视角信息相互远离，使得视角信息不再相互靠近。

附图说明

图1为基于对比学习的视角无关特征解离方法的流程图。

图2为基于对比学习的视角无关特征解离方法的网络架构示意图。

图3为实施例1中视角无关信息表征在超球面上均匀分布图。

图4为基于对比学习的视角无关特征解离系统的原理图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

请参阅图1-图3，本实施例提出一种基于对比学习的视角无关特征解离方法，其包括：

S1：构建多图像数据集，其具体包括：

S1.1：从3D模型中渲染出包含多个视角的2D图像；

其中，表示第i个实例的第v₁个视角的图像，/>表示第i个实例的第v₂个视角的图像；T为实例的总数，m为视角的总数，本实施例中m取19。

本实施例所使用的数据集是在3D物体识别任务中使用最为广泛的数据集ModelNet40和ModelNet10。

ModelNet40：普林斯顿ModelNet数据集包含有127,915个CAD模型，共计662个类别。ModelNet40是从662个类别中划分的40个类别，包括飞机、床、瓶子、汽车、椅子等常见物体类别。训练集包含有9,843个CAD模型，测试集包含有2,468个CAD模型。

ModelNet10：相对于ModeelNet40，ModelNet10是包含有10个类别的数据集，包括床、椅子、桌子、沙发等更为常见的类别，是从ModelNet中划分出来的10个类。训练集包含有3,991个3D CAD模型，测试集包含有908个3D CAD模型。

S2：将多图像数据集输入编码器网络，提取多视角图像表征，其具体包括：

本实施例使用ResNet50作为编码器网络，而且在网络最后一层，对输出的128维张量做L2范数，约束其到超球面空间上。编码维度为128维，其中视角占8维，视角无关占120维。使用SGD来对网络进行优化，lr＝0.01，momentum＝0.9，weight_decay＝1e-4。训练384个Batch Size，50个Epochs。

S3：将多视角图像表征切分为视角信息表征和视角无关信息表征，其具体包括：

S3.1：将两个[128,T]维的多视角图像表征分别进行切分，切分出前8维的多视角图像表征和后120维的多视角图像表征，得到两个[8,T]维的多视角图像表征和两个[120,T]维的多视角图像表征；

S4：对视角信息表征和视角无关信息表征使用对比学习损失进行的解离，并对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布，其具体包括：

S4.1：将视角无关信息表征视为正样例，将视角信息表征视为负样例，通过对比学习损失，使视角无关信息表征相互靠近以及使视角信息表征远离，对比学习损失函数L_cl的公式如下：

其中，rep₁和rep₂分别为两个[120,T]维的多视角图像表征的120维视角无关张量，view₁和view₂分别为两个[8,T]维的多视角图像表征的视角张量，sim(·)表示余弦相似度，τ为温度超参数，取值为0.05；

其中，pdata为多图像数据集，x和y分别为pdata数据集中任意两个参数，且x和y在整个数据集中满足独立同分布；E为期望，t为超参数，默认取2；。

将提取到的ModelNet10数据集中的120维视角无关信息，通过t-sne降为到3维，即可画出其分布图像，如图3所示，可以看出，数据集通过基于对比学习的视角无关特征解离方法可大致在超球面上保持其类别信息的同时，呈现均匀分布的特点。

采用正负样例都从同一个表示张量中获取的方法，改变了传统的对比学习正负样例取法，正样例为输入的一批图片中公共的相似特征，而负样例则为公共的不相似特征。对于同一物体的多视图输入，正样例即为一批图片的视角无关特性，相对负样例为视角特征。随着网络的训练，网络将使得输出的表示能够解离出视角无关特征。其次，通过从复杂的表示中解离出视角信息与视角无关信息。运用编码出的视角无关信息表示去做下游任务，并考虑引入均匀性分布损失，来保证编码信息的正确性。

实施例2

本实施例提出一种验证方法，应用于实施例1提出的基于对比学习的视角无关特征解离方法，来验证基于对比学习的视角无关特征解离方法的有效性。

本实施例使用普林斯顿ModelNet40、ModelNet10两个数据集来对基于对比学习的视角无关特征解离方法进行实验。

对于分类任务，不同模型的分类准确度结果如表1所示。在测试分类准确度的时候，训练了一个简单的单层的神经网络分类器，将其连接在特征编码器之后。分别列出在3D物体识别中有代表性的SOTA方法，包括训练时给定类别标签的有监督模型3D ShapeNets、VoxNet、PointNet和MVCNN以及不需要类别标签的无监督学习模型SPH、TL-Network、VConv-DAE、3D-GAN和3D-DescripNet。

总的来看，基于对比学习的视角无关特征解离方法模型在3D模型分类任务中具有很强的竞争力。对比有监督模型，在ModelNet40数据集中超出了3D ShapeNets模型6.3％，超出了VoxNet模型0.6％；在ModelNet10数据集中超出了3D ShapeNets模型10％，超出了VoxNet模型1.5％。对比无监督模型，基于对比学习的视角无关特征解离方法在ModelNet40数据集中超出了SPH模型15.4％，超出了TL-Network模型9.2％，超出了VConv-DAE模型9.1％，超出了3D-GAN模型0.3％。在ModelNet10数据集中，分别超出了SPH模型14.7％，超出了VConv-DAE模型13.0％，超出了3D-GAN模型2.5％，超出了3D-DescripNet模型1.1％。

表1不同模型的分类准确度结果

实施例3

请参阅图4，本实施例提出一种基于对比学习的视角无关特征解离系统，应用于实施例1提出的一种基于对比学习的视角无关特征解离方法，其包括：

多图像数据集构建模块，用于构建多图像数据集；

本实施例中，多图像数据集构建模块从3D模型中渲染出包含多个视角的2D图像，利用2D图像构建两个多视图数据集列表，并提取两个多视图数据集列表分别对应的两个图像。

本实施例中，图像表征提取模块包括视角拼接单元，所述视角拼接单元用于将两个图像对应位置的同一实例的不同视角进行拼接，将拼接后的结果输入编码器网络进行表征提取，将提取结果拆分为两个128维的多视角图像表征。

本实施例中，图像表征切分模块将两个128维的多视角图像表征分别进行规律的手动切分，得到8维的多视角图像表征和120维的多视角图像表征；所述图像表征切分模块将8维的多视角图像表征设为视角信息表征，将120维的多视角图像表征设为视角无关信息表征。

本实施例中，对比学习解离模块将视角无关信息表征视为正样例，将视角信息表征视为负样例，通过对比学习损失，使视角无关信息表征相互靠近以及视角信息表征远离；对比学习解离模块对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布。

在具体实施过程中，多图像数据集构建模块构建多图像数据集；图像表征提取模块将构建得到的多图像数据集输入神经网络，提取得到多视角图像表征；图像表征切分模块将得到的多视角图像表征进行手动切分，将一部分图像表征设为视角信息表征，将另一部分图像表征设置为视角无关信息表征；对比学习解离模块将得到的对视角信息表征和视角无关信息表征使用对比学习损失进行的解离，并对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于对比学习的视角无关特征解离方法，其特征在于，包括以下步骤：

S1：构建多图像数据集；

S4：将视角无关信息表征视为正样例，将视角信息表征视为负样例，对视角信息表征和视角无关信息表征使用对比学习损失进行解离；对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布；具体包括：

S4.1：将视角无关信息表征视为正样例，将视角信息表征视为负样例，通过对比学习损失，视角无关信息表征相互靠近，以及视角信息表征远离，对比学习损失函数L _cl的公式如下：

；

其中，rep ₁和rep ₂分别为两个[120,T]维的多视角图像表征的120维视角无关张量，view ₁和view ₂分别为两个[8,T]维的多视角图像表征的视角张量，sim(∙)表示余弦相似度，τ为温度超参数；

S4.2：对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布，均匀分布损失函数的公式如下：

其中，pdata为多图像数据集，x和y分别为pdata数据集中任意两个图像，且x和y在整个数据集中满足独立同分布；E为期望，t为超参数。

2.根据权利要求1所述的基于对比学习的视角无关特征解离方法，其特征在于，所述S1步骤具体包括：

S1.1：从3D模型中渲染出包含多个视角的2D图像；

S1.2：利用2D图像构建多视图数据集列表M和N；M和N对应的两个图像分别记为和，i∈{1,…,T}；v ₁∈{0,…,m},v ₂∈{0,…,m};v ₁ ≠v ₂；

其中，表示第i个实例的第v ₁个视角的图像，/>表示第i个实例的第v ₂个视角的图像；T为实例的总数，m为视角的总数。

3.根据权利要求2所述的基于对比学习的视角无关特征解离方法，其特征在于，所述S2步骤具体包括：

S2.1：将同一实例中同一位置的不同视角的两个图像和/>进行拼接，得到[/>,]^T；

S2.2：将[,/>]^T输入编码器网络进行表征提取，得到[2×128,T]维的多视角图像表征；

4.根据权利要求3所述的基于对比学习的视角无关特征解离方法，其特征在于，所述S3步骤具体包括：

S3.1：将两个[128,T]维的多视角图像表征分别进行拆分，得到两个[8,T]维的多视角图像表征和两个[120,T]维的多视角图像表征；

5.一种基于对比学习的视角无关特征解离系统，应用于如权利要求1~4任一项所述的基于对比学习的视角无关特征解离方法，其特征在于，包括：

多图像数据集构建模块，用于构建多图像数据集；

6.根据权利要求5所述的基于对比学习的视角无关特征解离系统，其特征在于，所述多图像数据集构建模块从3D模型中渲染出包含多个视角的2D图像，利用2D图像构建两个多视图数据集列表，并提取两个多视图数据集列表分别对应的两个图像。

7.根据权利要求6所述的基于对比学习的视角无关特征解离系统，其特征在于，所述图像表征提取模块包括视角拼接单元，所述视角拼接单元用于将两个图像对应位置的同一实例的不同视角进行拼接，将拼接后的结果输入编码器网络进行表征提取，将提取结果拆分为两个128维的多视角图像表征。

8.根据权利要求7所述的基于对比学习的视角无关特征解离系统，其特征在于，所述图像表征切分模块将两个128维的多视角图像表征分别进行切分，得到8维的多视角图像表征和120维的多视角图像表征；所述图像表征切分模块将8维的多视角图像表征设为视角信息表征，将120维的多视角图像表征设为视角无关信息表征。

9.根据权利要求8所述的基于对比学习的视角无关特征解离系统，其特征在于，所述对比学习解离模块将视角无关信息表征视为正样例，将视角信息表征视为负样例，通过对比学习损失，视角无关信息表征相互靠近以及视角信息表征远离；所述对比学习解离模块对所有视角无关信息表征使用均匀分布损失，辅助所有视角无关信息表征在超球面上均匀分布。