CN113743499B - 一种基于对比学习的视角无关特征解离方法及系统 - Google Patents
一种基于对比学习的视角无关特征解离方法及系统 Download PDFInfo
- Publication number
- CN113743499B CN113743499B CN202111027722.2A CN202111027722A CN113743499B CN 113743499 B CN113743499 B CN 113743499B CN 202111027722 A CN202111027722 A CN 202111027722A CN 113743499 B CN113743499 B CN 113743499B
- Authority
- CN
- China
- Prior art keywords
- view
- image
- visual angle
- representation
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010494 dissociation reaction Methods 0.000 title claims abstract description 44
- 230000005593 dissociations Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000000007 visual effect Effects 0.000 claims abstract description 92
- 238000012512 characterization method Methods 0.000 claims abstract description 74
- 238000009827 uniform distribution Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 3
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于对比学习的视角无关特征解离方法及系统,包括构建多图像数据集;将多图像数据集输入编码器网络,提取多视角图像表征;将多视角图像表征切分为视角信息表征和视角无关信息表征;将视角无关信息表征视为正样例,将视角信息表征视为负样例,对视角信息表征和视角无关信息表征使用对比学习损失进行的解离,并对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。采用正样例和负样例都从同一个表示张量中获取的对比学习方法,将视角信息相互远离,使得视角信息不再相互靠近。
Description
技术领域
本发明涉及人工智能领域,更具体地,涉及一种基于对比学习的视角无关特征解离方法及系统。
背景技术
目前,大部分的无监督特征解离技术是在GAN网络框架或VAE网络框架下进行的,但这种类型的网络框架会面临计算困难和模型复杂等问题。基于对比学习的特征解离技术,无需繁杂的网络框架,就能够从纠缠的多视角图像表示中解离出视角无关部分的特征表示,并将其用于下游任务。
公开号为CN112598775A(公开日为2021-04-02)提出一种基于对比学习的多视图生成方法,提出一种基于对比学习的多视图生成方法,包括以下步骤:获取多视角图像数据及其对应的真实视点标签;对多视角图像数据进行预处理,构建训练集;使用对比学习约束训练编码器;在完成训练的编码器后接入解码器和判别器,构成生成对抗网络,将所述训练集输入所述生成对抗网络中进行对抗训练;输入外观图像,经完成训练的编码器提取视角不变特征后,将所述视角不变特征和目标视角标签输入完成训练的解码器中,输出得到保留主体本征信息且视角转换为目标视角的外观图像。
该方法将不同视角的图像视为某一个视角的图像增强,不同视角的图像会直接被视为正样例,导致视角信息的表征会相互靠近。然而,理想的结果是视角信息的表征不应该相互靠近。
发明内容
本发明为克服上述现有技术所述的视角信息的表征会相互靠近,导致下游分类检索任务准确度降低的缺陷,提供一种基于对比学习的视角无关特征解离方法及系统。
为解决上述技术问题,本发明的技术方案如下:
第一个方面,本发明提出一种基于对比学习的视角无关特征解离方法,包括以下步骤:
S1:构建多图像数据集;
S2:将多图像数据集输入编码器网络,提取多视角图像表征;
S3:将多视角图像表征切分为视角信息表征和视角无关信息表征;
S4:将视角无关信息表征视为正样例,将视角信息表征视为负样例,对视角信息表征和视角无关信息表征使用对比学习损失进行解离;对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
优选地,S1步骤具体包括:
S1.1:从3D模型中渲染出包含多个视角的2D图像;
S1.2:利用2D图像构建多视图数据集列表M和N;M和N对应的两个图像分别记为和/>i∈{1,…,T};v1∈{0,…,m},v2∈{0,…,m};v1≠v2;
其中,表示第i个实例的第v1个视角的图像,/>表示第i个实例的第v2个视角的图像;T为实例的总数,m为视角的总数。
优选地,S2步骤具体包括:
S2.1:将同一实例中同一位置的不同视角的两个图像和/>进行拼接,得到
S2.2:将输入编码器网络进行表征提取,得到[2×128,T]维的多视角图像表征;
S2.3:将[2×128,T]维的多视角图像表征拆分为两个[128,T]维的多视角图像表征。
优选地,S3步骤具体包括:
S3.1:将两个[128,T]维的多视角图像表征分别进行切分,得到两个[8,T]维的多视角图像表征和两个[120,T]维的多视角图像表征;
S3.2:将[8,T]维的多视角图像表征设为视角信息表征,将[120,T]维的多视角图像表征设为视角无关信息表征。
优选地,S4步骤具体包括:
S4.1:将视角无关信息表征视为正样例,将视角信息表征视为负样例,通过对比学习损失,视角无关信息表征相互靠近,以及视角信息表征远离,对比学习损失函数Lcl的公式如下:
其中,rep1和rep2分别为两个[120,T]维的多视角图像表征的120维视角无关张量,view1和view2分别为两个[8,T]维的多视角图像表征的视角张量,sim(·)表示余弦相似度,τ为温度超参数;
S4.2:对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布,均匀分布损失函数Luniform的公式如下:
其中,pdata为多图像数据集,x和y分别为pdata数据集中任意两个图像,且x和y在整个数据集中满足独立同分布(iid,independently indentically distribution,独立同分布);E为期望,t为超参数。
第二个方面,本发明还提出一种基于对比学习的视角无关特征解离系统,应用于上述任一方案所述的一种基于对比学习的视角无关特征解离方法,其包括:
多图像数据集构建模块,用于构建多图像数据集;
图像表征提取模块,用于将多图像数据集输入编码器网络,提取多视角图像表征;
图像表征切分模块,用于对多视角图像表征进行切分,将一部分图像表征设为视角信息表征,将另一部分图像表征设置为视角无关信息表征;
对比学习解离模块,用于对视角信息表征和视角无关信息表征使用对比学习损失进行的解离,并对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
优选地,所述多图像数据集构建模块从3D模型中渲染出包含多个视角的2D图像,利用2D图像构建两个多视图数据集列表,并提取两个多视图数据集列表分别对应的两个图像。
优选地,所述图像表征提取模块包括视角拼接单元,所述视角拼接单元将两个图像对应位置的同一实例的不同视角进行拼接,将拼接后的结果输入编码器网络进行表征提取,将提取结果拆分为两个128维的多视角图像表征。
优选地,所述图像表征切分模块将两个128维的多视角图像表征分别进行规律的手动切分,得到8维的多视角图像表征和120维的多视角图像表征;所述图像表征切分模块将8维的多视角图像表征设为视角信息表征,将120维的多视角图像表征设为视角无关信息表征。
优选地,所述对比学习解离模块将视角无关信息表征视为正样例,将视角信息表征视为负样例,通过对比学习损失,使视角无关信息表征相互靠近以及视角信息表征远离;所述对比学习解离模块对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
与现有技术相比,本发明技术方案的有益效果是:对比学习方法中的正样例和负样例都从同一个表示张量中获取,正样例为输入的一批多视角图像中公共的相似部分,即视角无关信息。负样例为输入的一批多视角图像中公共的不相似部分,即视角信息。通过训练,将视角信息相互远离,使得视角信息不再相互靠近。
附图说明
图1为基于对比学习的视角无关特征解离方法的流程图。
图2为基于对比学习的视角无关特征解离方法的网络架构示意图。
图3为实施例1中视角无关信息表征在超球面上均匀分布图。
图4为基于对比学习的视角无关特征解离系统的原理图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
请参阅图1-图3,本实施例提出一种基于对比学习的视角无关特征解离方法,其包括:
S1:构建多图像数据集,其具体包括:
S1.1:从3D模型中渲染出包含多个视角的2D图像;
S1.2:利用2D图像构建多视图数据集列表M和N;M和N对应的两个图像分别记为和/>i∈{1,…,T};v1∈{0,…,m},v2∈{0,…,m};v1≠v2;
其中,表示第i个实例的第v1个视角的图像,/>表示第i个实例的第v2个视角的图像;T为实例的总数,m为视角的总数,本实施例中m取19。
本实施例所使用的数据集是在3D物体识别任务中使用最为广泛的数据集ModelNet40和ModelNet10。
ModelNet40:普林斯顿ModelNet数据集包含有127,915个CAD模型,共计662个类别。ModelNet40是从662个类别中划分的40个类别,包括飞机、床、瓶子、汽车、椅子等常见物体类别。训练集包含有9,843个CAD模型,测试集包含有2,468个CAD模型。
ModelNet10:相对于ModeelNet40,ModelNet10是包含有10个类别的数据集,包括床、椅子、桌子、沙发等更为常见的类别,是从ModelNet中划分出来的10个类。训练集包含有3,991个3D CAD模型,测试集包含有908个3D CAD模型。
S2:将多图像数据集输入编码器网络,提取多视角图像表征,其具体包括:
S2.1:将同一实例中同一位置的不同视角的两个图像和/>进行拼接,得到
S2.2:将输入编码器网络进行表征提取,得到[2×128,T]维的多视角图像表征;
S2.3:将[2×128,T]维的多视角图像表征拆分为两个[128,T]维的多视角图像表征。
本实施例使用ResNet50作为编码器网络,而且在网络最后一层,对输出的128维张量做L2范数,约束其到超球面空间上。编码维度为128维,其中视角占8维,视角无关占120维。使用SGD来对网络进行优化,lr=0.01,momentum=0.9,weight_decay=1e-4。训练384个Batch Size,50个Epochs。
S3:将多视角图像表征切分为视角信息表征和视角无关信息表征,其具体包括:
S3.1:将两个[128,T]维的多视角图像表征分别进行切分,切分出前8维的多视角图像表征和后120维的多视角图像表征,得到两个[8,T]维的多视角图像表征和两个[120,T]维的多视角图像表征;
S3.2:将[8,T]维的多视角图像表征设为视角信息表征,将[120,T]维的多视角图像表征设为视角无关信息表征。
S4:对视角信息表征和视角无关信息表征使用对比学习损失进行的解离,并对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布,其具体包括:
S4.1:将视角无关信息表征视为正样例,将视角信息表征视为负样例,通过对比学习损失,使视角无关信息表征相互靠近以及使视角信息表征远离,对比学习损失函数Lcl的公式如下:
其中,rep1和rep2分别为两个[120,T]维的多视角图像表征的120维视角无关张量,view1和view2分别为两个[8,T]维的多视角图像表征的视角张量,sim(·)表示余弦相似度,τ为温度超参数,取值为0.05;
S4.2:对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布,均匀分布损失函数Luniform的公式如下:
其中,pdata为多图像数据集,x和y分别为pdata数据集中任意两个参数,且x和y在整个数据集中满足独立同分布;E为期望,t为超参数,默认取2;。
将提取到的ModelNet10数据集中的120维视角无关信息,通过t-sne降为到3维,即可画出其分布图像,如图3所示,可以看出,数据集通过基于对比学习的视角无关特征解离方法可大致在超球面上保持其类别信息的同时,呈现均匀分布的特点。
采用正负样例都从同一个表示张量中获取的方法,改变了传统的对比学习正负样例取法,正样例为输入的一批图片中公共的相似特征,而负样例则为公共的不相似特征。对于同一物体的多视图输入,正样例即为一批图片的视角无关特性,相对负样例为视角特征。随着网络的训练,网络将使得输出的表示能够解离出视角无关特征。其次,通过从复杂的表示中解离出视角信息与视角无关信息。运用编码出的视角无关信息表示去做下游任务,并考虑引入均匀性分布损失,来保证编码信息的正确性。
实施例2
本实施例提出一种验证方法,应用于实施例1提出的基于对比学习的视角无关特征解离方法,来验证基于对比学习的视角无关特征解离方法的有效性。
本实施例使用普林斯顿ModelNet40、ModelNet10两个数据集来对基于对比学习的视角无关特征解离方法进行实验。
对于分类任务,不同模型的分类准确度结果如表1所示。在测试分类准确度的时候,训练了一个简单的单层的神经网络分类器,将其连接在特征编码器之后。分别列出在3D物体识别中有代表性的SOTA方法,包括训练时给定类别标签的有监督模型3D ShapeNets、VoxNet、PointNet和MVCNN以及不需要类别标签的无监督学习模型SPH、TL-Network、VConv-DAE、3D-GAN和3D-DescripNet。
总的来看,基于对比学习的视角无关特征解离方法模型在3D模型分类任务中具有很强的竞争力。对比有监督模型,在ModelNet40数据集中超出了3D ShapeNets模型6.3%,超出了VoxNet模型0.6%;在ModelNet10数据集中超出了3D ShapeNets模型10%,超出了VoxNet模型1.5%。对比无监督模型,基于对比学习的视角无关特征解离方法在ModelNet40数据集中超出了SPH模型15.4%,超出了TL-Network模型9.2%,超出了VConv-DAE模型9.1%,超出了3D-GAN模型0.3%。在ModelNet10数据集中,分别超出了SPH模型14.7%,超出了VConv-DAE模型13.0%,超出了3D-GAN模型2.5%,超出了3D-DescripNet模型1.1%。
表1不同模型的分类准确度结果
实施例3
请参阅图4,本实施例提出一种基于对比学习的视角无关特征解离系统,应用于实施例1提出的一种基于对比学习的视角无关特征解离方法,其包括:
多图像数据集构建模块,用于构建多图像数据集;
本实施例中,多图像数据集构建模块从3D模型中渲染出包含多个视角的2D图像,利用2D图像构建两个多视图数据集列表,并提取两个多视图数据集列表分别对应的两个图像。
图像表征提取模块,用于将多图像数据集输入编码器网络,提取多视角图像表征;
本实施例中,图像表征提取模块包括视角拼接单元,所述视角拼接单元用于将两个图像对应位置的同一实例的不同视角进行拼接,将拼接后的结果输入编码器网络进行表征提取,将提取结果拆分为两个128维的多视角图像表征。
图像表征切分模块,用于对多视角图像表征进行切分,将一部分图像表征设为视角信息表征,将另一部分图像表征设置为视角无关信息表征;
本实施例中,图像表征切分模块将两个128维的多视角图像表征分别进行规律的手动切分,得到8维的多视角图像表征和120维的多视角图像表征;所述图像表征切分模块将8维的多视角图像表征设为视角信息表征,将120维的多视角图像表征设为视角无关信息表征。
对比学习解离模块,用于对视角信息表征和视角无关信息表征使用对比学习损失进行的解离,并对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
本实施例中,对比学习解离模块将视角无关信息表征视为正样例,将视角信息表征视为负样例,通过对比学习损失,使视角无关信息表征相互靠近以及视角信息表征远离;对比学习解离模块对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
在具体实施过程中,多图像数据集构建模块构建多图像数据集;图像表征提取模块将构建得到的多图像数据集输入神经网络,提取得到多视角图像表征;图像表征切分模块将得到的多视角图像表征进行手动切分,将一部分图像表征设为视角信息表征,将另一部分图像表征设置为视角无关信息表征;对比学习解离模块将得到的对视角信息表征和视角无关信息表征使用对比学习损失进行的解离,并对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.一种基于对比学习的视角无关特征解离方法,其特征在于,包括以下步骤:
S1:构建多图像数据集;
S2:将多图像数据集输入编码器网络,提取多视角图像表征;
S3:将多视角图像表征切分为视角信息表征和视角无关信息表征;
S4:将视角无关信息表征视为正样例,将视角信息表征视为负样例,对视角信息表征和视角无关信息表征使用对比学习损失进行解离;对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布;具体包括:
S4.1:将视角无关信息表征视为正样例,将视角信息表征视为负样例,通过对比学习损失,视角无关信息表征相互靠近,以及视角信息表征远离,对比学习损失函数L cl的公式如下:
;
其中,rep 1和rep 2分别为两个[120,T]维的多视角图像表征的120维视角无关张量,view 1和view 2分别为两个[8,T]维的多视角图像表征的视角张量,sim(∙)表示余弦相似度,τ为温度超参数;
S4.2:对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布,均匀分布损失函数的公式如下:
其中,pdata为多图像数据集,x和y分别为pdata数据集中任意两个图像,且x和y在整个数据集中满足独立同分布;E为期望,t为超参数。
2.根据权利要求1所述的基于对比学习的视角无关特征解离方法,其特征在于,所述S1步骤具体包括:
S1.1:从3D模型中渲染出包含多个视角的2D图像;
S1.2:利用2D图像构建多视图数据集列表M和N;M和N对应的两个图像分别记为和,i∈{1,…,T};v 1∈{0,…,m},v 2∈{0,…,m};v 1 ≠v 2;
其中,表示第i个实例的第v 1个视角的图像,/>表示第i个实例的第v 2个视角的图像;T为实例的总数,m为视角的总数。
3.根据权利要求2所述的基于对比学习的视角无关特征解离方法,其特征在于,所述S2步骤具体包括:
S2.1:将同一实例中同一位置的不同视角的两个图像和/>进行拼接,得到[/>,]T;
S2.2:将[,/>]T输入编码器网络进行表征提取,得到[2×128,T]维的多视角图像表征;
S2.3:将[2×128,T]维的多视角图像表征拆分为两个[128,T]维的多视角图像表征。
4.根据权利要求3所述的基于对比学习的视角无关特征解离方法,其特征在于,所述S3步骤具体包括:
S3.1:将两个[128,T]维的多视角图像表征分别进行拆分,得到两个[8,T]维的多视角图像表征和两个[120,T]维的多视角图像表征;
S3.2:将[8,T]维的多视角图像表征设为视角信息表征,将[120,T]维的多视角图像表征设为视角无关信息表征。
5.一种基于对比学习的视角无关特征解离系统,应用于如权利要求1~4任一项所述的基于对比学习的视角无关特征解离方法,其特征在于,包括:
多图像数据集构建模块,用于构建多图像数据集;
图像表征提取模块,用于将多图像数据集输入编码器网络,提取多视角图像表征;
图像表征切分模块,用于对多视角图像表征进行切分,将一部分图像表征设为视角信息表征,将另一部分图像表征设置为视角无关信息表征;
对比学习解离模块,用于对视角信息表征和视角无关信息表征使用对比学习损失进行的解离,并对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
6.根据权利要求5所述的基于对比学习的视角无关特征解离系统,其特征在于,所述多图像数据集构建模块从3D模型中渲染出包含多个视角的2D图像,利用2D图像构建两个多视图数据集列表,并提取两个多视图数据集列表分别对应的两个图像。
7.根据权利要求6所述的基于对比学习的视角无关特征解离系统,其特征在于,所述图像表征提取模块包括视角拼接单元,所述视角拼接单元用于将两个图像对应位置的同一实例的不同视角进行拼接,将拼接后的结果输入编码器网络进行表征提取,将提取结果拆分为两个128维的多视角图像表征。
8.根据权利要求7所述的基于对比学习的视角无关特征解离系统,其特征在于,所述图像表征切分模块将两个128维的多视角图像表征分别进行切分,得到8维的多视角图像表征和120维的多视角图像表征;所述图像表征切分模块将8维的多视角图像表征设为视角信息表征,将120维的多视角图像表征设为视角无关信息表征。
9.根据权利要求8所述的基于对比学习的视角无关特征解离系统,其特征在于,所述对比学习解离模块将视角无关信息表征视为正样例,将视角信息表征视为负样例,通过对比学习损失,视角无关信息表征相互靠近以及视角信息表征远离;所述对比学习解离模块对所有视角无关信息表征使用均匀分布损失,辅助所有视角无关信息表征在超球面上均匀分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111027722.2A CN113743499B (zh) | 2021-09-02 | 2021-09-02 | 一种基于对比学习的视角无关特征解离方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111027722.2A CN113743499B (zh) | 2021-09-02 | 2021-09-02 | 一种基于对比学习的视角无关特征解离方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743499A CN113743499A (zh) | 2021-12-03 |
CN113743499B true CN113743499B (zh) | 2023-09-05 |
Family
ID=78735157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111027722.2A Active CN113743499B (zh) | 2021-09-02 | 2021-09-02 | 一种基于对比学习的视角无关特征解离方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743499B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020155939A1 (zh) * | 2019-01-31 | 2020-08-06 | 广州视源电子科技股份有限公司 | 图像识别方法、装置、存储介质和处理器 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
CN112598775A (zh) * | 2020-12-21 | 2021-04-02 | 广东工业大学 | 一种基于对比学习的多视图生成方法 |
WO2021114612A1 (zh) * | 2020-06-05 | 2021-06-17 | 平安科技(深圳)有限公司 | 目标重识别方法、装置、计算机设备和存储介质 |
CN113033603A (zh) * | 2021-02-05 | 2021-06-25 | 浙江大学 | 一种基于元学习的弱监督图像多标签分类方法 |
-
2021
- 2021-09-02 CN CN202111027722.2A patent/CN113743499B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020155939A1 (zh) * | 2019-01-31 | 2020-08-06 | 广州视源电子科技股份有限公司 | 图像识别方法、装置、存储介质和处理器 |
WO2021114612A1 (zh) * | 2020-06-05 | 2021-06-17 | 平安科技(深圳)有限公司 | 目标重识别方法、装置、计算机设备和存储介质 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
CN112598775A (zh) * | 2020-12-21 | 2021-04-02 | 广东工业大学 | 一种基于对比学习的多视图生成方法 |
CN113033603A (zh) * | 2021-02-05 | 2021-06-25 | 浙江大学 | 一种基于元学习的弱监督图像多标签分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113743499A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Combining noise-to-image and image-to-image GANs: Brain MR image augmentation for tumor detection | |
Li et al. | Linestofacephoto: Face photo generation from lines with conditional self-attention generative adversarial networks | |
CN109615582A (zh) | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 | |
CN110175251A (zh) | 基于语义对抗网络的零样本草图检索方法 | |
Baniukiewicz et al. | Generative adversarial networks for augmenting training data of microscopic cell images | |
CN107679543A (zh) | 稀疏自动编码器与极限学习机立体图像质量评价方法 | |
CN111368734B (zh) | 一种基于正常表情辅助的微表情识别方法 | |
CN111862261B (zh) | 一种flair模态磁共振影像生成方法及系统 | |
CN111652798A (zh) | 人脸姿态迁移方法和计算机存储介质 | |
CN111915612A (zh) | 一种基于多编码器卷积神经网络的图像分割方法和系统 | |
CN112819689A (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
Huang et al. | Deep neural network for 3D point cloud completion with multistage loss function | |
CN115862120A (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
Zou et al. | Edge-gan: Edge conditioned multi-view face image generation | |
CN112949728B (zh) | 基于切片图像筛选和特征聚合的mri图像分类方法 | |
Chen et al. | Sjdl-vehicle: Semi-supervised joint defogging learning for foggy vehicle re-identification | |
Modak et al. | A deep learning framework to reconstruct face under mask | |
Lahiri et al. | Improving consistency and correctness of sequence inpainting using semantically guided generative adversarial network | |
CN113743499B (zh) | 一种基于对比学习的视角无关特征解离方法及系统 | |
Cao et al. | Autoencoder-Based Collaborative Attention GAN for Multi-Modal Image Synthesis | |
Yan et al. | Generative modeling of the shape transformation capability of machining processes | |
CN117726872A (zh) | 基于多视图多任务特征学习的肺部ct图像分类方法 | |
CN116630726B (zh) | 基于多模态的鸟类分类方法及系统 | |
Zhang et al. | Euler elastica regularized logistic regression for whole-brain decoding of fMRI data | |
CN113538662A (zh) | 一种基于rgb数据的单视角三维物体重建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |