CN112598775B - 一种基于对比学习的多视图生成方法 - Google Patents

一种基于对比学习的多视图生成方法 Download PDF

Info

Publication number
CN112598775B
CN112598775B CN202011523734.XA CN202011523734A CN112598775B CN 112598775 B CN112598775 B CN 112598775B CN 202011523734 A CN202011523734 A CN 202011523734A CN 112598775 B CN112598775 B CN 112598775B
Authority
CN
China
Prior art keywords
view
image
encoder
generation method
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011523734.XA
Other languages
English (en)
Other versions
CN112598775A (zh
Inventor
卢育钦
曹江中
戴青云
周琦量
郭江涛
晁小朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202011523734.XA priority Critical patent/CN112598775B/zh
Publication of CN112598775A publication Critical patent/CN112598775A/zh
Application granted granted Critical
Publication of CN112598775B publication Critical patent/CN112598775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明为克服外观专利图像集中存在的视图缺失的缺陷,提出一种基于对比学习的多视图生成方法,包括以下步骤:获取多视角图像数据及其对应的真实视点标签;对多视角图像数据进行预处理,构建训练集;使用对比学习约束训练编码器;在完成训练的编码器后接入解码器和判别器,构成生成对抗网络,将所述训练集输入所述生成对抗网络中进行对抗训练;输入外观图像,经完成训练的编码器提取视角不变特征后,将所述视角不变特征和目标视角标签输入完成训练的解码器中,输出得到保留主体本征信息且视角转换为目标视角的外观图像。

Description

一种基于对比学习的多视图生成方法
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于对比学习的多视图生成方法。
背景技术
随着知识经济时代的到来,知识产权制度在社会的发展变化中发挥着越来越突出的作用。而外观设计作为知识产权法律的一项保护对象,也逐渐受到了人们的关注。我国的外观设计专利申请在不断地增多,申请量已居于世界第一,面对庞大的外观专利数据库,如何利用计算机技术更高效地进行外观专利的检索成为了一个重要的研究热点,同时,以深度学习为代表的机器学习方法是目前主要的研究方向之一,深度学习在计算机视觉上的应用得到了前所未有的成功,也为图像检索带来了精度和效率上的提高成为了解决与图像相关任务的最主要,最有效的方法。
由于早期对于外观专利图像的收集备案存在不规范性,导致外观专利图像数据库中存在不少视图缺失的问题,这也为专利图像检索中的多角度检索带来挑战,使得在拍摄角度不正的情况下检索的精度出现不同程度的下降。传统的补充图像的方法是通过人工的再次采集,然而其不仅效率低下、成本巨大,而且还可能无法还原以前采集时的环境背景。另一种方法是通过生成模型来学习真实数据的分布从而对图像数据进行补充,近年来关于生成对抗网络的研究呈现爆发式增长,通过研究者们的不断改进优化,目前生成对抗网络已具备良好的生成能力,它通过两个神经网络的对抗训练,使得生成网络学习高维分布。目前,新视图合成方法分为两类,基于几何的方法和基于学习的方法,然而它们分别有着局限于特定的场景和无法推断3D结构信息的缺点,生成的新视角的图片会丢失原本的身份信息,无法有效地解决外观专利图像集中存在的视图缺失的问题。
发明内容
本发明为克服上述现有技术所述的外观专利图像集中存在的视图缺失的缺陷,提供一种基于对比学习的多视图生成方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于对比学习的多视图生成方法,包括以下步骤:
S1:获取多视角图像数据及其对应的真实视点标签;
S2:对多视角图像数据进行预处理,构建训练集;
S3:使用对比学习约束训练编码器;
S4:在完成训练的编码器后接入解码器和判别器,构成生成对抗网络,将所述训练集输入所述生成对抗网络中进行对抗训练;
S5:输入外观图像,经完成训练的编码器提取视角不变特征后,将所述视角不变特征和目标视角标签输入完成训练的解码器中,输出得到保留主体本征信息且视角转换为目标视角的外观图像。
作为优选方案,所述S2步骤中,对多视角图像数据进行预处理的具体步骤如下:
S2.1:从同一物体的多视角图像数据中选取13个不同视角拍摄得到的图片,以正对物体为中心,左右各选取6个视角,每个视角间隔15°,组成训练集,并标注有相应的视角标签;
S2.2:对训练集中每张图像,对主体部分进行裁剪,去除背景,并对图像进行缩放形成同一规格大小的图像。
作为优选方案,所述编码器为Small AlexNet,所述编码器中包括5个卷积块,3个全连接层,其中所述卷积块中包括卷积层、BN层、ReLU层、池化层。
作为优选方案,所述解码器采用ResNet,其中包括5个上采样残差块、1个ReLU层、1个卷积层、1个Tanh层,所述上采样残差块中包括3个卷积层、2个AdaIN层、1个ReLU层。
作为优选方案,所述判别器采用ResNet,其中包括5个下采样残差块、2个全连接层、1个softmax层,所述下采样残差块中包括3个卷积层、1个ReLU层。
作为优选方案,所述S3步骤中,使用对比学习约束训练编码器的具体步骤如下:将训练集输入编码器中,得到图像的表示,在将所述图像的表示通过对比学习加入对齐性和一致性损失,反向传播更新网络,通过最小化损失,实现图像均匀分布在超球面上,且同一物体的不同视角图分布接近。
作为优选方案,所述S3步骤中,还包括以下步骤:将训练集输入编码器中,得到图像表示,将所述图像表示进行L2范数约束,使形成的表示向量分布在超球面上,将同一物体的不同视图作为正样例,将不同物体的不同视图作为负样例,利用对齐性和均匀分布性约束,使在形成的超球面特征空间中的正样例靠近且负样例远离,且所有物体的特征表示均匀地分布在空间中,得到完整的图像表示。
作为优选方案,通过最小化第一损失函数达到正样例靠近的效果,所述第一损失函数的表达公式如下:
Figure BDA0002849778430000031
式中,f表示将输入映射到特征空间的编码器网络,(x,y)表示同一物体的不同视图,ppos表示正样例数据分布,
Figure BDA0002849778430000032
表示取期望。
作为优选方案,所述S4步骤中,训练集数据输入编码器后输出得到对应的视图不变特征及其视图估计,计算所述视图估计
Figure BDA0002849778430000038
与真实视点标签v之间的交叉熵损失,并通过最小化损失对编码器进一步训练;其中交叉熵损失的表达公式如下:
Figure BDA0002849778430000033
式中,M为输入的视图个数,vk表示第k张输入图像的真实视点标签,
Figure BDA0002849778430000039
表示第k张输入图像的视图估计。
作为优选方案,所述S4步骤还包括以下步骤:计算所述生成对抗网络的损失函数,并通过最小化损失对生成对抗网络进一步训练;所述生成对抗网络的损失函数的计算公式如下:
Figure BDA0002849778430000034
Figure BDA0002849778430000035
式中,
Figure BDA0002849778430000036
表示判别器输出,IA表示某一视角的真实图像,
Figure BDA0002849778430000037
表示生成的另一视角的图像,vA,vB分别表示对应的视角标签。
与现有技术相比,本发明技术方案的有益效果是:本发明对编码器网络加入了对齐损失和均匀分布性约束,利用对比学习的思想,可以让同一物体的不同视图特征表示尽量靠近,不同物体的视图特征远离,并且近似实现整个特征空间的特征分布信息最大化,大大提高网络泛化能力;本发明还结合生成对抗网络,对于生成的新视角的图像,将其输入判别器网络中进行真假鉴别,随着训练的进行同时提高判别器网络和编码器网络的能力。
附图说明
图1为实施例1的基于对比学习的多视图生成方法的流程图。
图2为实施例1的生成对抗网络的训练流程图。
图3为实施例1的训练形成的特征空间示意图。
图4为实施例1的编码器网络模型示意图。
图5为实施例1的编码器网络模型示意图。
图6为实施例1的判别器网络模型示意图。
图7为实施例1的多视图生成对抗网络结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于对比学习的多视图生成方法,如图1~2所示,为本实施例的基于对比学习的多视图生成方法的流程图。
本实施例提出的基于对比学习的多视图生成方法中,包括以下步骤:
S1:获取多视角图像数据及其对应的真实视点标签。
在本实施例中,从外观专利数据库中选取多视角图像数据作为训练数据。
S2:对多视角图像数据进行预处理,构建训练集。
本步骤中,对多视角图像数据进行预处理的具体步骤如下:
S2.1:从同一物体的多视角图像数据中选取13个不同视角拍摄得到的图片,以正对物体为中心,左右各选取6个视角,每个视角间隔15°,组成训练集,并标注有相应的视角标签作为真实视点标签;
S2.2:在不影响外观专利数据库中的数据的前提下,对训练集中每张图像,对主体部分进行裁剪,去除背景,并对图像进行缩放形成128*128大小的图像。
S3:使用对比学习约束训练编码器。
使用对比学习约束训练编码器的具体步骤如下:将训练集输入编码器中,得到图像的表示,在将所述图像的表示通过对比学习加入对齐性和一致性损失,反向传播更新网络,通过最小化损失,实现图像均匀分布在超球面上,且同一物体的不同视角图分布接近,使其实现图像视角不变特征Z的提取功能。
如图3所示,为本实施例训练形成的特征空间示意图。
S4:在完成训练的编码器后接入解码器和判别器,构成生成对抗网络,将所述训练集输入所述生成对抗网络中进行对抗训练。
本实施例中,生成对抗网络由编码器网络、解码器网络和判别器网络组成,其中编码器网络用于提取视角不变特征z,解码器网络用于责生成目标视角的图片IB,判别器网络用于鉴别输入图片的真假。其中:
编码器网络的输入为真实的图片,输出视图不变特征z和预测的视角标签vA;编码器网络采用Small AlexNet,编码器网络中包括5个卷积块,3个全连接层,且卷积块中包括卷积层、BN层、ReLU层、池化层;
解码器网络的输入为视图不变特征z和不同视角标签vB,输出生成的视角图像IB;解码器网络采用ResNet,解码器网络中包括5个上采样残差块、1个ReLU层、1个卷积层、1个Tanh层,且上采样残差块中包括3个卷积层、2个AdaIN层、1个ReLU层;
判别器网络的输入为生成的图片IB和真实的图片IA,输出为视角标签vB,以及1/0(代表真/假);判别器网络采用ResNet,判别器网络中包括5个下采样残差块、2个全连接层、1个softmax层,且下采样残差块中包括3个卷积层、1个ReLU层。
如图4~7所示,为本实施例的编码器网络、解码器网络和判别器网络的结构示意图,以及本实施例的多视图生成对抗网络结构示意图。
S5:输入外观图像,经完成训练的编码器提取视角不变特征后,将所述视角不变特征和目标视角标签输入完成训练的解码器中,输出得到保留主体本征信息且视角转换为目标视角的外观图像。
其中,将输入的外观图像通过编码器和解码器的处理,即可实现将输入图像中物体进行视角的旋转之后输出生成的视角转换后的图像,该生成图像与输入图像描述的是同一物体的不同视图。
本实施例中,通过对比学习对编码器网络进行约束训练,将对齐性和一致性损失加入训练过程中,获得外观专利图像的表示,因而在测试阶段输入随机的其他外观专利图像,即可在特征空间上找到类似的特征表示,再将得到的特征表示(视角不变特征z)以及目标视角标签通过编码器网络,即可生成最大限度保留物体本征信息的新视角的图像,该方法大大提高了网络泛化能力。
对于生成的新视角的图像,将其输入判别器网络中进行真假鉴别,随着训练的进行,判别器网络慢慢提高自身鉴别真假图像的能力,而编码器网络则需要不断提高生成质量欺骗判别器网络,使其分辨不出真假。
最终达到的理想状态为:判别器网络已经足够强大可以鉴定图像的真假,同时编码器网络所生成的新视角图像已经足够真实到能够欺骗判别器,即生成的新视角图像与真实图像的特征分布几乎重合。
实施例2
本实施例在实施例1提出的基于对比学习的多视图生成方法作出改进。
本实施例提出的基于对比学习的多视图生成方法中,包括以下步骤:
S1:获取多视角图像数据及其对应的真实视点标签。
在本实施例中,从外观专利数据库中选取多视角图像数据作为训练数据。
S2:对多视角图像数据进行预处理,构建训练集。
本步骤中,对多视角图像数据进行预处理的具体步骤如下:
S2.1:从同一物体的多视角图像数据中选取13个不同视角拍摄得到的图片,以正对物体为中心,左右各选取6个视角,每个视角间隔15°,组成训练集,并标注有相应的视角标签作为真实视点标签;
S2.2:在不影响外观专利数据库中的数据的前提下,对训练集中每张图像,对主体部分进行裁剪,去除背景,并对图像进行缩放形成128*128大小的图像。
S3:使用对比学习约束训练编码器。
使用对比学习约束训练编码器的具体步骤如下:将训练集输入编码器中,得到图像的表示,在将所述图像的表示通过对比学习加入对齐性和一致性损失,反向传播更新网络,通过最小化损失,实现图像均匀分布在超球面上,且同一物体的不同视角图分布接近,使其实现图像视角不变特征z的提取功能。
进一步的,将训练集输入编码器中,得到图像表示,将所述图像表示进行L2范数约束,使形成的表示向量分布在超球面上,将同一物体的不同视图作为正样例,将不同物体的不同视图作为负样例,利用对齐性和均匀分布性约束,使在形成的超球面特征空间中的正样例靠近且负样例远离,且所有物体的特征表示均匀地分布在空间中,得到完整的图像表示。
本实施例中,通过最小化第一损失函数达到正样例靠近的效果,所述第一损失函数的表达公式如下:
Figure BDA0002849778430000071
式中,f表示将输入映射到特征空间的编码器网络,(x,y)表示同一物体的不同视图,ppos表示正样例数据分布,
Figure BDA0002849778430000072
表示取期望。
除此之外,为了在训练过程中最大限度的探索整个特征空间,防止网络学习到特征空间的某个子空间导致对于未见数据生成效果差的问题。
通过对负样例的特征进行均匀分布的约束,使得负样例尽可能地均匀分布在超球面空间上,来保证整个特征空间得到更完整的探索。本实施例中利用下列公式来实现提取完整表示的效果:
Figure BDA0002849778430000073
式中,(x,y)表示不同物体的单视图,pdata表示数据集分布。
通过这种“均匀性”约束,本实施例中的编码器网络能够学习更完整的表示形式,这些表示形式可以填充整个空间并增强编码器对未见数据的鲁棒性。
S4:在完成训练的编码器后接入解码器和判别器,构成生成对抗网络,将所述训练集输入所述生成对抗网络中进行对抗训练。
本实施例中,训练集数据输入编码器后输出得到对应的视图不变特征及其视图估计,计算所述视图估计
Figure BDA0002849778430000075
与真实视点标签v之间的交叉熵损失,并通过最小化损失对编码器进一步训练,以确保编码器是一个良好的视角估计器;其中交叉熵损失的表达公式如下:
Figure BDA0002849778430000074
式中,M为输入的视图个数,vk表示第k张输入图像的真实视点标签,
Figure BDA0002849778430000076
表示第k张输入图像的视图估计。
解码器的任务是从视图不变特征zA重建新视角图像IB,其中视图不变特征zA包含真实的图片IA和新视角图像IB之间共享的固有特征;本实施例通过最小化损失对编码器进一步训练,其损失函数的表达公式如下:
Figure BDA0002849778430000081
式中,
Figure BDA0002849778430000082
表示从真实的图片IA中提取的视角不变特征,vB为目标视角标签。
为了在给定单视图图像的情况下生成多视图,解码器需要学习用提取的视角不变特征去推测经过视图转换后的图像,特别是在原视图中被遮挡的部分。本实施例采用生成对抗网络确保新视角图像的生成效果。
进一步的,计算所述生成对抗网络的损失函数,并通过最小化损失对生成对抗网络进一步训练;所述生成对抗网络的损失函数的计算公式如下:
Figure BDA0002849778430000083
Figure BDA0002849778430000084
式中,
Figure BDA0002849778430000085
表示判别器输出,IA表示某一视角的真实图像,
Figure BDA0002849778430000086
表示生成的另一视角的图像,vA,vB分别表示对应的视角标签。
S5:输入外观图像,经完成训练的编码器提取视角不变特征后,将所述视角不变特征和目标视角标签输入完成训练的解码器中,输出得到保留主体本征信息且视角转换为目标视角的外观图像。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于对比学习的多视图生成方法,其特征在于,包括以下步骤:
S1:获取多视角图像数据及其对应的真实视点标签;
S2:对多视角图像数据进行预处理,构建训练集;
S3:使用对比学习约束训练编码器:将训练集输入编码器中,得到图像的表示,在将所述图像的表示通过对比学习加入对齐性和一致性损失,反向传播更新网络,通过最小化损失,实现图像均匀分布在超球面上,且同一物体的不同视角图分布接近;
S4:在完成训练的编码器后接入解码器和判别器,构成生成对抗网络,将所述训练集输入所述生成对抗网络中进行对抗训练;
S5:输入外观图像,经完成训练的编码器提取视角不变特征后,将所述视角不变特征和目标视角标签输入完成训练的解码器中,输出得到保留主体本征信息且视角转换为目标视角的外观图像。
2.根据权利要求1所述的基于对比学习的多视图生成方法,其特征在于,所述S2步骤中,对多视角图像数据进行预处理的具体步骤如下:
S2.1:从同一物体的多视角图像数据中选取13个不同视角拍摄得到的图片,以正对物体为中心,左右各选取6个视角,每个视角间隔15°,组成训练集,并标注有相应的视角标签;
S2.2:对训练集中每张图像,对主体部分进行裁剪,去除背景,并对图像进行缩放形成同一规格大小的图像。
3.根据权利要求1所述的基于对比学习的多视图生成方法,其特征在于,所述编码器为SmallAlexNet,所述编码器中包括5个卷积块,3个全连接层,其中所述卷积块中包括卷积层、BN层、ReLU层、池化层。
4.根据权利要求3所述的基于对比学习的多视图生成方法,其特征在于,所述解码器采用ResNet,其中包括5个上采样残差块、1个ReLU层、1个卷积层、1个Tanh层,所述上采样残差块中包括3个卷积层、2个AdaIN层、1个ReLU层。
5.根据权利要求4所述的基于对比学习的多视图生成方法,其特征在于,所述判别器采用ResNet,其中包括5个下采样残差块、2个全连接层、1个softmax层,所述下采样残差块中包括3个卷积层、1个ReLU层。
6.根据权利要求1所述的基于对比学习的多视图生成方法,其特征在于,所述S3步骤中,还包括以下步骤:将训练集输入编码器中,得到图像表示,将所述图像表示进行L2范数约束,使形成的表示向量分布在超球面上,将同一物体的不同视图作为正样例,将不同物体的不同视图作为负样例,利用对齐性和均匀分布性约束,使在形成的超球面特征空间中的正样例靠近且负样例远离,且所有物体的特征表示均匀地分布在空间中,得到完整的图像表示。
7.根据权利要求6所述的基于对比学习的多视图生成方法,其特征在于,通过最小化第一损失函数达到正样例靠近的效果,所述第一损失函数的表达公式如下:
Figure FDA0003227510310000021
式中,f表示将输入映射到特征空间的编码器网络,(x,y)表示同一物体的不同视图,ppos表示正样例数据分布,
Figure FDA0003227510310000022
表示取期望。
8.根据权利要求7所述的基于对比学习的多视图生成方法,其特征在于,所述S4步骤中,训练集数据输入编码器后输出得到对应的视图不变特征及其视图估计,计算所述视图估计
Figure FDA0003227510310000029
与真实视点标签v之间的交叉熵损失,并通过最小化损失对编码器进一步训练;其中交叉熵损失的表达公式如下:
Figure FDA0003227510310000023
式中,M为输入的视图个数,vk表示第k张输入图像的真实视点标签,
Figure FDA0003227510310000024
表示第k张输入图像的视图估计。
9.根据权利要求8所述的基于对比学习的多视图生成方法,其特征在于,所述S4步骤还包括以下步骤:计算所述生成对抗网络的损失函数,并通过最小化损失对生成对抗网络进一步训练;所述生成对抗网络的损失函数的计算公式如下:
Figure FDA0003227510310000025
Figure FDA0003227510310000026
式中,
Figure FDA0003227510310000027
表示判别器输出,IA表示某一视角的真实图像,
Figure FDA0003227510310000028
表示生成的另一视角的图像,vA,vB分别表示对应的视角标签。
CN202011523734.XA 2020-12-21 2020-12-21 一种基于对比学习的多视图生成方法 Active CN112598775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011523734.XA CN112598775B (zh) 2020-12-21 2020-12-21 一种基于对比学习的多视图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011523734.XA CN112598775B (zh) 2020-12-21 2020-12-21 一种基于对比学习的多视图生成方法

Publications (2)

Publication Number Publication Date
CN112598775A CN112598775A (zh) 2021-04-02
CN112598775B true CN112598775B (zh) 2021-10-29

Family

ID=75200250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011523734.XA Active CN112598775B (zh) 2020-12-21 2020-12-21 一种基于对比学习的多视图生成方法

Country Status (1)

Country Link
CN (1) CN112598775B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160085B (zh) * 2021-04-22 2022-10-04 上海大学 一种基于生成对抗网络的水花遮挡图像数据集采集方法
CN113344581A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 业务数据处理方法及装置
CN113450295B (zh) * 2021-06-15 2022-11-15 浙江大学 一种基于差分对比学习的深度图合成方法
CN113743499B (zh) * 2021-09-02 2023-09-05 广东工业大学 一种基于对比学习的视角无关特征解离方法及系统
CN117197589B (zh) * 2023-11-03 2024-01-30 武汉大学 一种目标分类模型对抗训练方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609587A (zh) * 2017-09-11 2018-01-19 浙江工业大学 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法
CN111445548A (zh) * 2020-03-21 2020-07-24 南昌大学 一种基于非配对图像的多视角人脸图像生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767408B (zh) * 2017-11-09 2021-03-12 京东方科技集团股份有限公司 图像处理方法、处理装置和处理设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609587A (zh) * 2017-09-11 2018-01-19 浙江工业大学 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法
CN111445548A (zh) * 2020-03-21 2020-07-24 南昌大学 一种基于非配对图像的多视角人脸图像生成方法

Also Published As

Publication number Publication date
CN112598775A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112598775B (zh) 一种基于对比学习的多视图生成方法
CN111339903B (zh) 一种多人人体姿态估计方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN110852182B (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN108921926A (zh) 一种基于单张图像的端到端三维人脸重建方法
CN112562081B (zh) 一种用于视觉分层定位的视觉地图构建方法
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN115984494A (zh) 一种基于深度学习的月面导航影像三维地形重建方法
CN113283525A (zh) 一种基于深度学习的图像匹配方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN112489198A (zh) 一种基于对抗学习的三维重建系统及其方法
CN113362242A (zh) 基于多特征融合网络的图像修复方法
CN110889868B (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN115272599A (zh) 一种面向城市信息模型的三维语义地图构建方法
Shen et al. MCCG: A ConvNeXt-based multiple-classifier method for cross-view geo-localization
Lin et al. Efficient and high-quality monocular depth estimation via gated multi-scale network
Pei MSFNet: Multi-scale features network for monocular depth estimation
CN114283152A (zh) 图像处理、图像处理模型的训练方法、装置、设备及介质
CN111860668A (zh) 一种针对原始3d点云处理的深度卷积网络的点云识别方法
CN117152630A (zh) 一种基于深度学习的光学遥感图像变化检测方法
CN110675381A (zh) 一种基于串行结构网络的本征图像分解方法
CN115471901A (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant