CN117274619B

CN117274619B - 一种基于风格融合对比学习的跨域目标识别方法

Info

Publication number: CN117274619B
Application number: CN202311555771.2A
Authority: CN
Inventors: 宋丹; 张楚萌; 刘安安; 张勇东
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-09
Anticipated expiration: 2043-11-21
Also published as: CN117274619A

Abstract

本发明公开了一种基于风格融合对比学习的跨域目标识别方法，将二维图像和三维模型数据库分别输入到已训练完成的特征提取网络中，输出图像特征和图融合特征，所述三维模型数据库包括多个不同类别的三维模型；计算图像特征和多个图融合特征之间的距离，得到按降序排列的相似度，将排序最高相似度对应的三维模型作为跨域目标识别结果；该跨域目标识别方法解决了现有方法忽视实例之间不同程度的相似性的问题，提高了跨域目标识别的准确性，满足了实际应用中的多种需要。

Description

一种基于风格融合对比学习的跨域目标识别方法

技术领域

本发明涉及目标识别技术领域，尤其涉及一种基于风格融合对比学习的跨域目标识别方法。

背景技术

三维模型在3D打印、自动驾驶、虚拟现实等领域有着广泛的应用。随着深度学习的发展和三维形状的迅猛发展，跨域目标识别任务受到了越来越多的关注。通过使用单幅图像搜索对应的三维形状，为管理大量的三维模型提供了一个方便的工具。在探索跨域目标识别任务的过程中，主流方法从学习跨模态匹配的联合嵌入空间，到各种域适应方法的知识迁移以及最近的对比学习。例如，Lin等人首次为实例级检索设计了一种对比学习方法。CLLP^[8]同样基于对比学习，并同时引入标签传播机制，在类级别检索上取得了不错的结果。

尽管对比学习取得了很大的进步，但它仍然面临着一些关键的挑战。一方面，传统的对比学习在图像和形状域之间执行对比，而它们之间的域差异（例如风格、纹理）为检索性能带来很大限制。另一方面，现有的方法忽略了实例之间不同程度的相似性。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于风格融合对比学习的跨域目标识别方法，提高了跨域目标识别的准确性。

本发明提出的一种基于风格融合对比学习的跨域目标识别方法，包括如下步骤：

将二维图像和三维模型数据库分别输入到已训练完成的特征提取网络中，输出图像特征和多个图融合特征，所述三维模型数据库包括多个不同类别的三维模型；

分别计算图像特征和多个图融合特征之间的距离，得到按降序排列的相似度，将排序最高相似度对应的三维模型作为跨域目标识别结果；

特征提取网络的训练过程如下：

S1：构建训练集，所述训练集包括二维图像和三维模型；

S2：将随机选择的二维图像和三维模型分别输入到特征提取网络中，输出图像特征和图融合特征/>；

S3：对二维图像进行特征提取得到图像特征图，对三维模型进行特征提取得到三维模型特征图/>，对图像特征图/>和三维模型特征图/>进行解耦，获得图像风格和三维模型风格；

S4：将图像风格和三维模型风格融合得到中间域风格，将中间域风格替换二维图像的原始风格，得到风格融合后的图像特征，基于特征提取网络输出风格融合后特征；

S5：对图像特征和风格融合后特征/>施加细粒度一致性约束，用于约束图像特征/>及其风格融合后特征/>与同一批次中的其他特征具有相同程度的相似性；

S6：对风格融合后特征和图融合特征/>施加对比学习机制，学习风格融合后的图像特征/>与图融合特征/>之间的对应关系。

进一步地，在步骤S3中，对图像特征图和三维模型特征图/>进行解耦的公式一致，图像特征图/>解耦的公式如下：

其中，表示图像特征图/>的图像风格，/>表示图像特征图/>的图像内容，/>和/>表示图像特征图通道级别的均值和标准差，/>和/>表示二维图像的高度和宽度，高度和宽度的项数，/>为保持被开方数不小于0的参数。

进一步地，在步骤S4中，中间域风格的生成公式如下：

风格融合后的图像特征的生成公式如下：

其中，表示中间域风格，/>和/>分别表示插值后的通道级别均值和标准差，/>表示随机插值权重，/>和/>分别表示三维模型特征图通道级别的均值和标准差。

进一步地，在步骤S5中，具体包括：

计算任一个图像特征与同一批次中其他每个图像特征对应的风格融合后特征之间的相似度，得到相似度分布矩阵；

计算任一个风格融合后特征与同一批次中其他每个风格融合后特征对应的原始图像特征之间的相似度，得到相似度分布矩阵；

基于对称的KL散度对相似度分布矩阵和相似度分布矩阵/>施加细粒度一致性约束；

细粒度一致性约束设置公式如下：

其中，表示相似度分布矩阵/>的/>位置的元素，/>表示相似度分布矩阵/>的/>位置的元素，/>表示非负温度超参数，/>表示批处理，/>表示同一批次/>中除第/>项之外的项数序号，意在求和，/>表示第/>张图像的原始图像特征，/>表示第/>张图像的风格融合后的特征，/>表示相似度分布矩阵/>的/>位置的元素，/>表示相似度分布矩阵/>的/>位置的元素。

进一步地，在步骤S6中，对比学习机制的损失函数定义为：

其中，表示余弦相似度，/>表示风格融合后特征/>对应的正确三维模型的索引，/>表示非负的温度超参数，/>表示第/>张三维模型的图融合特征，在分母上意在求和,/>表示/>对应的正确三维模型的视图特征。

进一步地，特征提取网络的目标损失函数如下：

其中，表示特征提取网络的目标损失函数，/>表示细粒度一致性约束，表示对比学习机制的损失函数。

本发明提供的一种基于风格融合对比学习的跨域目标识别方法的优点在于：本发明结构中提供的一种基于风格融合对比学习的跨域目标识别方法，通过风格融合操作生成的中间域风格可以作为跨模态的桥梁，有效缓解了模态差异的问题；针对风格融合前后的图像特征设计了细粒度的一致性约束过程以及对比学习机制的设置，解决了现有方法忽视实例之间不同程度的相似性的问题，提高了跨域目标识别的准确性，满足了实际应用中的多种需要。

附图说明

图1为本发明的流程示意图；

图2为特征提取网络的结构示意图。

具体实施方式

下面，通过具体实施例对本发明的技术方案进行详细说明，在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

如图1和2所示，本发明提出的一种基于风格融合对比学习的跨域目标识别方法，

S100：将二维图像和三维模型数据库分别输入到已训练完成的特征提取网络中，输出图像特征和图融合特征，所述三维模型数据库包括多个不同类别的三维模型，每个三维模型对应多个在不同视角下的二维视图；

特征提取网络在对其中一个三维模型进行特征提取时，是对该三维模型对应的多个二维视图进行提取，并将提取后的特征进行融合得到图融合特征。

S200：计算图像特征和图融合特征之间的距离，得到按降序排列的相似度，将排序最高相似度对应的三维模型作为跨域目标识别结果。

其中图像特征和图融合特征之间的距离计算直接基于现有的距离计算公式计算即可，以距离的大小作为相似度大小以距离由高到低排列作为相似度的由高到低排列。其中三维模型数据库可以作为一个调用包，在对某个二维图像进行跨域识别时，将该二维图像输送到特征提取网络中，特征提取网络可以通过调用三维模型数据库作为特征提取网络的输入与二维图像进行同步处理，以进行二维图像的跨域目标识别。

其中图像特征是二维图像经过已训练完成的特征提取网络输出的特征，图融合特征是其中一个三维模型对应的多个不同视角下的二维视图经过特征提取网络输出的融合特征，该特征是特征提取网络融合了该三维模型的多个二维视图所输出的特征，因而多个三维模型自然得到多个图融合特征。

如图2所示。特征提取网络包括特征提取模块和风格融合模块，其中特征提取模块基于现有的特征提取网络构建，为了与其他方法公平对比，本实施例采取的特征提取网络结构为ResNet网络，本实施例将风格融合模块融合到特征提取模块中，使得特征提取模块具有风格融合功能，从而实现特征提取网络可以通过混合二维图像数据库和三维模型数据库的风格，将生成的中间域风格注入到原始的二维图像内容中，获得的风格融合后的图像特征可以作为减轻模态差距的桥梁。

另外特征提取网络以对图像特征和风格融合后特征/>施加细粒度一致性约束以及对风格融合后特征/>和图融合特征/>施加对比学习机制构建目标损失函数，利用风格融合前后的图像特征的一致性，考虑了实例之间不同的相似性关系，提高了传统跨域对比约束的精细程度，以下对特征提取网络的训练过程具体说明。

特征提取网络的训练过程如下：

S1：构建训练集，所述训练集包括二维图像数据库和三维模型数据库；

S2：随机选择二维图像数据库中的一个二维图像，三维模型数据库中的一个三维图像，将二维图像和三维模型分别输入到特征提取网络中，输出图像特征和图融合特征；

在将训练集输入到特征提取网络中之前，利用虚拟相机渲染生成三维模型的多角度视图，将该多角度视图以及随机选择的二维图像输送到特征提取网络，本实施例设定了一组预定义的视点，并沿着围绕在三维模型的中心的圆周均匀分布，通过选择不同的间隔角度，即可获取一组三维模型不同视角下的视图。

以下将二维图像和三维模型的多角度视图简称输入特征，以下描述的输入特征的流转关系，二维图像和三维模型不同视角下的视图直接独立套用即可。

将特征提取网络的输入特征分成两路，一路通过特征提取网络中的特征提取模块直接输出图像特征和图融合特征/>，此过程风格融合模块并未参与。另一路通过风格融合模块进行风格融合处理以输出其风格融合后特征/>，在此过程中特征提取模块和风格融合模块均参与。

可以理解的是，例如将特征提取模块分为4层，风格融合模块嵌入设置于特征提取模块的第2层和第3层之间，特征提取网络的输入特征首先输入到特征提取模块，通过特征提取模块的第1和2层的特征提取后分为两路，一路继续依次进入特征提取模块的3和4层以输出图像特征或者图融合特征/>，另一路进入风格融合模块进行风格融合得到风格融合后的图像特征/>，图像特征/>继续依次进入特征提取模块的3和4层以输出风格融合后特征/>。

给定一个来自训练集的二维图像和来训练集中三维模型的任一视图/>，首先将它们输入特征提取网络中，以获得特定的图像特征图/>, 三维模型特征图，其中的/>表示通道数，/>和/>分别表示高度和宽度，图像特征图/>和三维模型特征图/>的解耦公式一致，以下以图像特征图/>为例进行说明，三维模型特征图/>直接套用以下公式即可。

图像特征图的风格可以由图像特征图通道级别的均值/>和标准差/>表示，即图像风格/>，而该图像特征图/>的内容可以表示为。/>和/>的计算方式如下（视图特征图/>的计算方式类似）：

其中，和/>表示高度和宽度的项数，/>表示保持被开方数不小于0的参数，具体大小设置为1e-5。

通过插值图像风格和三维模型风格/>，构造了一个中间域风格/>：

其中，是一个具有均匀（0,1）分布的随机插值权重，/>和/>表示插值后的通道级别均值和标准差，/>中的/>和/>分别表示三维模型特征图通道级别的均值和标准差，/>的计算过程与/>和/>的计算过程一致：

其中，表示三维模型特征图，/>表示保持被开方数不小于0的参数，具体大小设置为1e-5。

然后将二维图像的原始风格替换为新生成的中间域风格，获得融合了风格融合后的二维图像特征：

根据步骤S3至S4，通过风格融合模块将二维图像和三维模型的风格进行融合，获得的风格融合后特征可以看作中间域的表示，并为后续的对比学习和细粒度一致性约束提供了桥梁。通过这个桥梁，能够更有效地处理跨域之间的风格差异，减轻了模态差异带来的挑战。

利用风格融合前后特征的语义一致性，挖掘实例之间的相似性关系，并给予正负样本不同的重视程度，以学习得到包含丰富语义信息的特征表示。

其中，表示相似度分布矩阵/>的/>位置的元素，/>表示非负温度超参数，/>表示第/>个图像特征，/>表示第/>个风格融合后特征，/>表示除第/>项之外的项数序号，在分母上意在求和，/>表示第/>张图像的风格融合后的特征，/>表示批处理大小

通过对和/>计算同一批次中所有/>和/>之间的成对相似性，挖掘实例之间的相似性关系。

其中，表示相似度分布矩阵/>的/>位置的元素，/>表示第/>个风格融合后特征，/>表示第/>个图像特征，/>表示第/>张图像的原始图像特征；

需要说明的是，在进行和/>计算过程中，/>表示第/>个图像特征，即就表示一个图像特征，风格融合后特征/>是同一批次/>下除了第/>个图像特征/>以外的其他图像特征对应的第/>个风格融合后特征，也就是说同一批次中其他每个风格融合后特征显然表示个风格融合后特征中的每一个，即在同一批次下表示/>个风格融合后特征。

同理，在进行和/>计算过程中，/>表示表示第/>个风格融合后特征，即就表示一个风格融合后特征，/>表示在同一批次/>下除了第/>个风格融合后特征/>对应的一个图像特征外，其他/>个图像特征中的第/>个图像特征，同一批次中其他每个原始图像特征自然表示/>个图像特征中的每一个，这/>个图像特征是/>个风格融合后特征对应的原始图像特征。

也就是说计算同一批次中所有和/>之间的成对相似性，挖掘实例之间的相似性关系过程中，/>表示第/>张图像（不管它是原始图像特征还是风格融合后特征），/>表示同一批次下除了第/>张图像以外的其他/>张图像中的第/>张图像（同样不管它是原始图像特征还是风格融合后特征）。

特别说明：1）的取值为1~B，/>的取值为1~B (/>≠/>)，。对于每个/>，/>，经过P(·)的计算得到数值填入矩阵/>的(/>)位置上，最后得到矩阵/>（矩阵维度为B*B）此处的/>表示或者/>。2）/>、/>与/>的区别：/>的取值范围为1~B(/>≠/>)，在分母上出现意在求总和。

细粒度一致性约束的设置公式如下：

其中，表示相似度分布矩阵/>的/>位置的元素，/>表示相似度分布矩阵/>的/>位置的元素。

注意到与/>互为转置，该细粒度一致性约束/>试图使两个矩阵对称，这约束了图像特征/>及其风格融合后特征/>与同一批次中的其他特征具有相同程度的相似性，使得/>与/>在细粒度一致性约束/>下趋于对称。

S6：对风格融合后特征和图融合特征/>施加对比学习机制，学习风格融合后的图像特征/>与图融合特征/>之间的对应关系；

除了上述的细粒度一致性约束外，本实施例还设置了一个类级别的对比学习来执行风格融合后特征和图融合特征/>之间的跨域对比。与以自监督的方式执行的一致性约束不同，该类级别对比学习依赖于图像和模型之间的对应信息。

对于标签的类型，为了与现有工作公平对比，在实例级任务中，使用有实例级标注的三维模型，而在无监督任务中，使用伪标签来生成模型注释。

将风格融合后特征对应的正确三维模型/>的索引表示为/>，该正确三维模型/>与输出到特征提取网络中的三维模型中不一定是同一个，则类级别对比损失函数定义为：

其中，表示余弦相似度，/>表示非负的温度超参数，/>表示风格融合后特征/>对应的正确三维模型的索引，/>表示第/>张三维模型的图融合特征，在分母上意在求和,/>表示/>对应的正确三维模型的视图特征。

最后，利用细粒度一致性约束损失与对比学习机制损失进行联合优化，使用训练好的特征提取网络提取图像特征和图融合特征，通过计算二者之间的距离，得到相似度排序结果，将相似度最高的特征作为最终的输出特征，实现跨域目标识别。

因而特征提取网络的目标损失函数设置如下：

其中，表示特征提取网络的目标损失函数。

通过步骤S1至S6，现有技术方法往往忽略了跨模态之间的纹理风格差异，本实施例通过风格融合操作生成的中间域风格可以作为跨模态的桥梁，有效缓解了模态差异的问题；针对风格融合前后的图像特征设计了细粒度的一致性约束过程以及对比学习机制的设置，解决了现有方法忽视实例之间不同程度的相似性的问题，提高了跨域目标识别的准确性，满足了实际应用中的多种需要。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于风格融合对比学习的跨域目标识别方法，其特征在于，包括如下步骤：

特征提取网络的训练过程如下：

S1：构建训练集，所述训练集包括二维图像和三维模型；

S2：将二维图像和三维模型分别输入到特征提取网络中，输出图像特征和图融合特征/>；

S4：将图像风格和三维模型风格融合得到中间域风格，将中间域风格替换二维图像的原始风格，得到风格融合后的图像特征，基于特征提取网络输出风格融合后特征/>；

S51：计算任一个图像特征与同一批次中其他每个图像特征对应的风格融合后特征之间的相似度，得到相似度分布矩阵；

S52：计算任一个风格融合后特征与同一批次中其他每个风格融合后特征对应的原始图像特征之间的相似度，得到相似度分布矩阵；

S53：基于对称的KL散度对相似度分布矩阵和相似度分布矩阵/>施加细粒度一致性约束；

细粒度一致性约束设置公式如下：

其中，表示相似度分布矩阵/>的/>位置的元素，/>表示相似度分布矩阵/>的/>位置的元素，/>表示非负温度超参数，/>表示批处理，/>表示同一批次/>中除第/>项之外的项数序号，意在求和，/>表示第/>张图像的原始图像特征，/>表示第/>张图像的风格融合后的特征，/>表示相似度分布矩阵/>的/>位置的元素，/>表示相似度分布矩阵/>的/>位置的元素；

在步骤S4中，中间域风格的生成公式如下：

风格融合后的图像特征的生成公式如下：

其中，表示中间域风格，/>和/>分别表示插值后的通道级别均值和标准差，/>表示随机插值权重，/>和/>分别表示三维模型特征图通道级别的均值和标准差；

在步骤S6中，对比学习机制的损失函数定义为：

其中，表示余弦相似度，/>表示风格融合后特征/>对应的正确三维模型的索引，/>表示非负的温度超参数，/>表示第/>张三维模型的图融合特征，在分母上意在求和，表示/>对应的正确三维模型的视图特征；

特征提取网络的目标损失函数如下：

其中，表示特征提取网络的目标损失函数，/>表示细粒度一致性约束，/>表示对比学习机制的损失函数。

2.根据权利要求1所述的基于风格融合对比学习的跨域目标识别方法，其特征在于，在步骤S3中，对图像特征图和三维模型特征图/>进行解耦的公式一致，图像特征图/>解耦的公式如下：

其中，表示图像特征图/>的图像风格，/>表示图像特征图/>的图像内容，/>和/>表示图像特征图通道级别的均值和标准差，/>和/>表示二维图像的高度和宽度，和/>表示高度和宽度的项数，/>为保持被开方数不小于0的参数。