CN116129206A - 图像解耦表征学习的处理方法、装置及电子设备 - Google Patents

图像解耦表征学习的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN116129206A
CN116129206A CN202310395903.3A CN202310395903A CN116129206A CN 116129206 A CN116129206 A CN 116129206A CN 202310395903 A CN202310395903 A CN 202310395903A CN 116129206 A CN116129206 A CN 116129206A
Authority
CN
China
Prior art keywords
image
mutual information
characterization
encoder
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310395903.3A
Other languages
English (en)
Other versions
CN116129206B (zh
Inventor
迟晋进
张智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310395903.3A priority Critical patent/CN116129206B/zh
Publication of CN116129206A publication Critical patent/CN116129206A/zh
Application granted granted Critical
Publication of CN116129206B publication Critical patent/CN116129206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像解耦表征学习的处理方法、装置及电子设备,涉及图像处理技术领域,其中方法包括首先通过初始编码器获取训练集中成对图像的初始共享表征;然后根据初始共享表征,利用Wasserstein‑2依赖性度量,估计成对图像中每张图像的第一全局互信息和第一局部互信息;再依据第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数;然后基于第一损失函数和训练集,使用随机优化算法对初始编码器进行迭代训练,得到第一编码器,该第一编码器用于解耦得到成对图像中每张图像的共享表征。通过应用本申请的技术方案,提供了针对图像解耦表征学习处理的有效手段,根据图像解耦表征学习结果可提高图像解耦表征的准确性。

Description

图像解耦表征学习的处理方法、装置及电子设备
技术领域
本申请主要涉及图像处理技术领域,尤其涉及一种图像解耦表征学习的处理方法、装置及电子设备。
背景技术
图像的解耦表征学习是人工智能的一项至关重要的任务,涉及计算机视觉、目标检测和医学影像分析等多个技术领域。旨在找到高维数据到低维隐因子空间的一种有效转换。
然而目前缺少针对图像解耦表征学习处理的有效手段,进而影响了获得图像解耦表征的准确性。
发明内容
有鉴于此,本申请提供了一种图像解耦表征学习的处理方法、装置及电子设备,主要目的在于提供了针对图像解耦表征学习处理的有效手段,进而改善了现有技术中会影响获得图像解耦表征准确性的技术问题。
第一方面,本申请提供了一种图像解耦表征学习的处理方法,包括:
通过初始编码器获取训练集中成对图像的初始共享表征;
根据所述初始共享表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第一全局互信息和第一局部互信息;
依据所述第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数;
基于所述第一损失函数和所述训练集,使用随机优化算法对所述初始编码器进行迭代训练,得到第一编码器,所述第一编码器用于解耦得到所述成对图像中每张图像的共享表征。
第二方面,本申请提供了一种图像解耦表征学习的处理装置,包括:
获取模块,被配置为通过初始编码器获取训练集中成对图像的初始共享表征;
估计模块,被配置为根据所述初始共享表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第一全局互信息和第一局部互信息;
构建模块,被配置为依据所述第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数;
训练模块,被配置为基于所述第一损失函数和所述训练集,使用随机优化算法对所述初始编码器进行迭代训练,得到第一编码器,所述第一编码器用于解耦得到所述成对图像中每张图像的共享表征。
第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的图像解耦表征学习的处理方法。
第四方面,本申请提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的图像解耦表征学习的处理方法。
借由上述技术方案,本申请提供的一种图像解耦表征学习的处理方法、装置及电子设备,与目前现有技术相比,本申请提供了针对图像解耦表征学习处理的有效手段,后续根据图像解耦表征学习结果可准确获得图像解耦表征。具体首先通过初始编码器获取训练集中成对图像的初始共享表征;再根据初始共享表征,利用Wasserstein-2依赖性度量,估计成对图像中每张图像的第一全局互信息和第一局部互信息;然后依据第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数;再然后基于第一损失函数和训练集,使用随机优化算法对初始编码器进行迭代训练,得到第一编码器,该第一编码器可用于解耦得到成对图像中每张图像的共享表征。通过应用本申请的技术方案,根据图像解耦表征学习结果可提高图像解耦表征的准确性,使获得的解耦表征更完备并具有可解释性,可以用于解决图像转换问题,包括图像分割、合成、修复以及风格迁移等,使得新生成的图像更加自然、逼真。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种图像解耦表征学习的处理方法的流程示意图;
图2示出了本申请实施例提供的另一种图像解耦表征学习的处理方法的流程示意图;
图3示出了本申请实施例提供的一种应用示例的流程示意图;
图4示出了本申请实施例提供的一种图像解耦表征学习的处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
基于背景技术中所示的内容,为了改善目前现有技术的局限性。本实施例提供了一种图像解耦表征学习的处理方法,用于学习来自多域数据集中成对图像的解耦表征如图1所示,该方法包括:
步骤101、通过初始编码器获取训练集中成对图像的初始共享表征。
训练集可由若干对来自多域数据集中的成对图像构成,这里多域数据集是指涵盖了不同领域或应用场景的数据集,通常,这些数据集包含多个主题或问题领域,以及不同类型的数据。例如,以彩色的MNIST手写数字图像作为示例,一个域中的数据集是由若干张黑色背景上带有彩色数字的图像构成,另一个域中的数据集是由若干张彩色背景上带有白色数字的图像构成,从这两个属于不同域的数据集中选取若干张图像进行配对,配好对后的每对图像都包含跨域相同部分(数字)和每个域独有的部分(背景或数字的颜色),如背景和数字颜色不同但包含相同数字的成对图像,随机选取若干对这样已经配好对的图像构成所述训练集。
初始编码器由卷积神经网络模型构成,可用于计算出成对图像初始的共享表征,即成对图像中每张图像均有的表征,例如,将成对图像输入到初始编码器,使用卷积神经网络模型获取成对图像初始的共享表征。
需要说明的是,该初始共享表征并非最终解耦得到的共享表征,可认为是共享表征的初始值,后续可通过对初始编码器进行迭代训练(图像解耦表征学习),即不断优化该卷积神经网络模型,最终可通过优化后的编码器计算得到最终的共享表征,即从成对图像耦合的表征中解耦得到共享表征,具体可执行以下步骤102至104所示的过程。
步骤102、根据初始共享表征,利用Wasserstein-2依赖性度量,估计成对图像中每张图像的第一全局互信息和第一局部互信息。
本实施例基于最优传输理论,使用Wasserstein-2距离重新定义互信息的表达式,并将新的表达式命名为Wasserstein-2依赖性度量,即使用Wasserstein-2距离度量两个随机变量之间的依赖程度。将每张图像和其共享表征输入到Wasserstein-2依赖性度量中,用于估计每张图像的全局互信息(第一全局互信息)和局部互信息(第一局部互信息)。
关于解耦表征学习的方法目前主要是基于互信息估计的,互信息已被证明可以有效地捕捉数据中包含的关键因子,并可以对这些因子进行分离。在实际应用中,观测值和隐变量之间的互信息难以计算真实解,因此可使用互信息的下界学习解耦表征。但是,有些学者指出要使其下界逼近真正的互信息,需要的样本量是互信息值的指数级大小,这严重阻碍了它在一些具有高互信息任务上的适用性,导致这些任务只能学习到少量不完备的表征。这种限制主要是由于互信息是使用KL (Kullback-Leibler)散度定义的。而且,KL散度对数据样本中的微小差异非常敏感,即使数据样本非常相似,KL散度的值也可能会非常大,导致难以度量变量间真实的互信息。
为了解决上述问题,有些学者使用最优传输理论重新定义了互信息,命名为Wasserstein-1依赖性度量,并使用它学习图像的表征,结果表明基于Wasserstein-1距离的互信息能够学习到更完备的表征。其原因是最优传输距离考虑了数据分布隐含的几何结构,并且根据数据样本之间的实际距离表示两个分布之间的差异。但是,Wasserstein-1依赖性度量必须满足1-利普希茨(1-Lipschitz)约束条件,当使用神经网络计算Wasserstein-1依赖性度量时,这是一项极具挑战性的任务。
因此为了克服目前已有的基于互信息的解耦表征学习方法的局限性,针对来自多域数据集中的成对图像,本实施例引入Wasserstein-2依赖性度量和最差传输,并提出一种新的基于最优和最差传输的解耦表征学习方法,本实施例方法获得的解耦表征更完备并具有可解释性。
在本实施例中,可基于最优传输距离学习成对图像的共享表征,具体可基于Wasserstein-2距离,提出Wasserstein-2依赖性度量,首先使用Wasserstein-2依赖性度量估计每张图像的第一全局互信息,之后再使用Wasserstein-2依赖性度量估计每张图像的第一局部互信息。
其中,第一全局互信息的估计可包括基于Wasserstein-2依赖性度量,获得整个图像和共享表征之间的全局交叉互信息,即第一全局互信息。而第一局部互信息的估计可以是指由于全局互信息不足以学习到有用的表征,为了提高学习到的解耦表征的质量,将通过Wasserstein-2依赖性度量学习每张图像的图像片段(或称子图,可认为是图像分割的片段,下同)和共享表征之间的局部交叉互信息,即第一局部互信息。
步骤103、依据第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数。
步骤104、基于共享表征学习的第一损失函数和训练集,使用随机优化算法对初始编码器进行迭代训练,得到第一编码器。
第一损失函数可用于评价模型训练过程中,每次训练得到的模型的预测值和真实值不一样的程度。
在本实施例中,基于共享表征学习的第一损失函数和训练集,使用随机优化算法对初始编码器进行迭代训练,进而对编码器中卷积神经网络的参数进行迭代优化,最终训练得到第一编码器,该第一编码器可用于解耦得到成对图像中每张图像的共享表征。
随机优化算法可包括随机搜索算法、爬山法、模拟退火算法、遗传算法等等。本实施例可基于训练集利用随机优化算法进行模型训练,即对初始编码器进行迭代训练,其中通过第一损失函数评价模型训练过程中,每次训练得到的模型的预测值和真实值不一样的程度,进而可训练得到达标的模型,即第一编码器,后续可使用该第一编码器计算得到成对图像中每张图像共享的表征。
通过探索现实世界中可观测数据内部包含的物理机制和逻辑关系,解耦表征学习旨在找到高维数据到低维隐因子空间的一种有效转换,这样就可以用解耦表征来代替原始数据处理各种下游任务,例如在图像识别等问题中可以直接使用解耦表征而不是高维数据构建预测器或分类器。从数据生成的角度,解耦表征学习是对现实数据中具有明确物理含义的隐生成因子(如图像中物体的方向、阴影、照明等)进行分离,使得学习到的表征是可区分的。同时,解耦表征还应该包含关于数据的可解释的语义信息。
与目前现有技术相比,本实施例提供了针对图像解耦表征学习处理的有效手段,涉及计算机视觉、图形图像处理等技术领域,后续根据图像解耦表征学习结果可准确获得图像的解耦表征,使获得的解耦表征更完备并具有可解释性,例如,解耦表征在图像处理方面具有强大的优势,相对于传统的图像生成技术,基于解耦表征生成的图像比基于对抗模型生成的图像更加自然、逼真等。本实施例方法可以应用于各类图像转换问题中,包括图像合成、样式迁移、图像修复等,具有很大的价值。
进一步的,作为本实施例的内容补充,本实施例还可对图像解耦独有表征进行学习处理,并且为了更好的说明上述实施例的实现过程,给出如图2所示的具体方法,该方法包括:
步骤201、通过初始编码器获取训练集中成对图像的初始共享表征。
示例性的,以训练集中的成对图像x和y为例,将成对图像x和y,输入到初始编码器,使用卷积神经网络获取成对图像x和y的初始共享表征。
步骤202、根据初始共享表征,利用Wasserstein-2依赖性度量,估计成对图像中每张图像的第一全局互信息和第一局部互信息。
在一些示例中,步骤202具体可包括:利用Wasserstein-2依赖性度量,获取每张图像的整个图像和初始共享表征之间的全局交叉互信息,作为第一全局互信息;以及利用Wasserstein-2依赖性度量,获取每张图像的图像片段和初始共享表征之间的局部交叉互信息,作为第一局部互信息。
例如,第一全局互信息估计具体可包括:基于Wasserstein-2依赖性度量,分别获得图像x和初始共享表征之间的全局互信息;以及图像y和初始共享表征之间的全局互信息。为了迫使该过程只学习图像x和y之间的共享信息,交换图像x和y的共享表征,计算交叉互信息,即计算图像x和图像y共享表征之间的Wasserstein-2依赖性度量。如将图像y的共享表征和图像x信息作为参数输入到Wasserstein-2依赖性度量中,用以作为包含提取图像y共享表征的神经网络参数的函数a1;以及将图像x的共享表征和图像y信息作为参数输入到Wasserstein-2依赖性度量,用以作为包含提取图像x共享表征的神经网络参数的函数a2;然后将函数a1和函数a2进行线性组合,得到第一全局互信息的目标函数。
示例性的,第一全局互信息的目标函数可如下公式一所示:
(公式一)
公式一中,分别表示两张图像,它们相应的共享表征分别为分别表示提取图像的共享表征的神经网络的参数。表示第一全局互信息,W表示Wasserstein-2依赖性度量。
第一局部互信息估计具体可包括:由于全局互信息不足以学习到有用的表征,为了提高学习解耦表征的质量,将通过Wasserstein-2依赖性度量学习图像x和图像y的图像片段分别和共享表征之间的局部交叉互信息。图像x和图像y的图像片段将通过编码器的特征映射函数表示。如将图像y的共享表征和图像x的图像片段特征信息作为参数输入到Wasserstein-2依赖性度量,用以作为包含提取图像y共享表征的神经网络参数的函数b1;以及将图像x的共享表征和图像y的图像片段特征信息作为参数输入到Wasserstein-2依赖性度量,用以作为包含提取图像x共享表征的神经网络参数的函数b2;然后将函数b1和函数b2进行线性组合,得到第一局部互信息的目标函数。
示例性的,第一局部互信息的目标函数可如下公式二所示:
(公式二)
公式二中,分别表示两张图像,它们相应的共享表征分别为分别表示提取图像的共享表征的神经网络的参数。表示第一局部互信息,表示图像的图像片段特征映射函数,表示图像的图像片段特征映射函数,W表示Wasserstein-2依赖性度量。
步骤203、依据第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数。
在一些示例中,步骤203具体可包括:将成对图像中每张图像的第一全局互信息和第一局部互信息进行加权求和,构建得到该第一损失函数。该第一损失函数可用于评价模型训练过程中,每次训练得到的模型的预测值和真实值不一样的程度。
例如,构建共享表征学习的第一损失函数具体可包括:将图像x和图像y的第一全局互信息和第一局部互信息分别进行加权求和得到最终的共享表征损失函数,即第一损失函数,可如下公式三所示:
(公式三)
公式三中,表示第一全局互信息的系数,表示第一全局互信息,表示第一局部互信息的系数,表示第一局部互信息,表示第一损失函数。
步骤204、基于第一损失函数和训练集,使用随机优化算法对初始编码器进行迭代训练,得到第一编码器。
例如,基于步骤203,使用神经网络和随机优化技术优化上述第一损失函数,不断地更新编码器,得到第一编码器,该第一编码器可用于解耦得到成对图像中每张图像的共享表征。
在图像解耦共享表征学习之后,需要进一步学习图像解耦独有表征,即针对成对图像中每张图像各自独有的表征,进行解耦表征学习,具体可执行如下步骤205至211所示的过程。
步骤205、通过第一编码器获取成对图像中每张图像的初始独有表征和解耦到的共享表征。
例如,将图像x和y输入到第一编码器进行计算,通过卷积神经网络,获得图像x和y解耦到的共享表征,以及图像x的初始独有表征、图像y的初始独有表征。
步骤206、将初始独有表征和解耦到的共享表征相加,得到成对图像中每张图像的整体表征。
例如,基于步骤205中的示例,将图像x的初始独有表征和解耦得到的共享表征相加,得到图像x的整体表征;同理,将图像y的初始独有表征和解耦得到的共享表征相加,得到图像y的整体表征。
步骤207、根据整体表征,利用Wasserstein-2依赖性度量,估计成对图像中每张图像的第二全局互信息和第二局部互信息。
在一些示例中,步骤207具体可包括:将每张图像的整个图像和整体表征输入到Wasserstein-2依赖性度量中,获得第二全局互信息;以及将每张图像的图像片段和整体表征输入到Wasserstein-2依赖性度量中,获得第二局部互信息。
例如,基于步骤206,首先将图像x的整个图像和其表征输入到Wasserstein-2依赖性度量中,获得图像x的第二全局互信息,以及将图像y的整个图像和其表征输入到Wasserstein-2依赖性度量中,获得图像y的第二全局互信息;然后将图像x的图像片段和其表征输入到Wasserstein-2依赖性度量中,获得图像x的第二局部互信息,以及将图像y的图像片段和其表征输入到Wasserstein-2依赖性度量中,获得图像y的第二局部互信息。
步骤208、依据第二全局互信息和第二局部互信息,构建关于互信息的第二损失函数。
在一些示例中,步骤208具体可包括:将成对图像中每张图像的第二全局互信息和第二局部互信息进行加权求和,构建得到第二损失函数。
例如,将图像x和图像y的第二全局互信息和第二局部互信息加权求和,得到关于互信息的第二损失函数,如下公式四所示:
(公式四)
公式四中,分别表示提取图像独有表征的神经网络的参数,分别表示图像的整体表征,分别表示图像的独有表征。是第二全局互信息的系数,是第二局部互信息的系数。表示估计独有表征的互信息,即关于互信息的第二损失函数。W表示Wasserstein-2依赖性度量。需要说明的是,公式四中的其他字符含义可参照上述各公式的解释说明,在此不再赘述。
步骤209、构建强化互斥性的目标函数。
该目标函数可用于使得成对图像中每张图像的独有表征与共享表征是互斥的。
在本实施例中,由于独有表征和共享表征之间是互相排斥的,基于Wasserstein-2距离,提出最差传输,使用最差传输确保独有表征不包含共享表征的信息。即保持共享表征不变,基于最差传输学习每张图像的独有表征。
示例性的,基于步骤208,对比于最优传输,引入最差传输的概念,用于度量两个数据之间的最远距离,将图像x和图像y的独有表征和共享表征分别输入到最差传输中,使得每张图像的独有表征和共享表征之间的距离最远,从而强迫每张图像的独有表征与共享表征是互斥的,其相应的目标函数可如公式五所示:
(公式五)
公式五中,表示最差传输,表示强化互斥性的目标函数。需要说明的是,公式五中的其他字符含义可参照上述各公式的解释说明,在此不再赘述。
步骤210、基于强化互斥性的目标函数和关于互信息的第二损失函数,构建独有表征学习的第三损失函数。
在一些示例中,步骤210具体可包括:将强化互斥性的目标函数和关于互信息的第二损失函数通过线性组合,构建得到第三损失函数。该第三损失函数可用于评价模型训练过程中,每次训练得到的模型的预测值和真实值不一样的程度。
例如,基于步骤209,构建独有表征学习的损失函数包括:将步骤207至步骤209中关于互信息的第二损失函数和强化互斥性的目标函数通过线性组合形成最终的独有表征学习的第三损失函数,如下公式六所示:
(公式六)
公式六中表示独有表征学习的第三损失函数,需要说明的是,公式六中的其他字符含义可参照上述各公式的解释说明,在此不再赘述。
步骤211、基于第三损失函数和训练集,使用随机优化算法对第一编码器进行迭代训练,得到第二编码器。
其中,第二编码器用于解耦得到成对图像中每张图像的独有表征。
示例性的,基于步骤210,使用神经网络和随机优化技术优化上述第三损失函数,不断地更新编码器,得到第二编码器。例如,本实施例可基于训练集利用随机优化算法进行模型训练,即对第一编码器进行迭代训练,其中通过第三损失函数评价模型训练过程中,每次训练得到的模型的预测值和真实值不一样的程度,进而可训练得到达标的模型,即第二编码器,后续可使用该第二编码器计算得到成对图像中每张图像独有的表征。
与目前现有技术相比,本实施例提供了针对图像解耦表征学习处理的有效手段,涉及计算机视觉、图形图像处理等技术领域,后续根据图像解耦表征学习结果可准确获得图像解耦表征,使获得的解耦表征更完备并具有可解释性。本实施例方法可以应用于各类图像转换问题中。
为了进一步说明上述实施例的具体实施过程,给出如下应用场景,但不限于此:
本实施例使用彩色的MNIST手写数字数据集作为训练集,结合互信息方法和最优传输理论、最差传输理论来分别学习成对的MNIST图片的共享表征和独有表征。如图3所示,为本实施例的图像解耦表征学习的处理方法整体流程图。该方法具体流程如下:
步骤1、将成对图像输入到初始编码器获取共享表征。
首先将像素尺寸为28×28的成对MNIST图片输入到初始编码器,输入图片先经过3层卷积层:第一个卷积层的输入通道和输出通道分别是3和64,步幅是1;第二个卷积层的输入通道和输出通道分别是64和128,步幅是2;第三个卷积层的输入通道和输出通道分别是128和256,步幅是2。最后将第三层卷积层的特征图平铺开来获得64维的初始共享表征。
步骤2、基于最优传输学习成对图像的共享表征。
利用Wasserstein-2依赖性度量估计图片与共享表征之间的互信息,包括全局互信息和局部互信息,将全局互信息和局部互信息加权求和作为该步骤2最终的损失函数。基于该损失函数,利用神经网络参数化Wasserstein-2距离,再基于MNIST数据集,通过随机优化技术优化模型,即迭代训练编码器,最后利用训练得到的第一编码器,可获得MNIST图片对的共享表征。
具体实现过程可参见上述步骤202至204所示的内容,在此不再赘述。
步骤3、保持共享表征不变,基于最差传输学习每张图像的独有表征。
基于步骤2中的结果,将成对图像输入到第一编码器,使用卷积神经网络获取图像的独有表征,该部分神经网络的设置与步骤1中的神经网络设置相同,区别是最后将第三层卷积层的特征图平铺开来获得8维的独有表征。将共享表征和独有表征相加得到每张图像的整体表征,使用Wasserstein-2依赖性度量估计每张图像的全局互信息和局部互信息。使用最差传输确保独有表征不包含共享表征的信息。构建学习独有表征的损失函数,并基于该损失函数和MNIST数据集,利用随机优化算法迭代训练第一编码器,最后利用训练得到的第二编码器,可获得MNIST图像对中每张图像的独有表征。
具体实现过程可参见上述步骤205至211所示的内容,在此不再赘述。
与目前现有技术相比,本实施例提供了针对图像解耦表征学习处理的有效手段,通过训练得到的编码器可获得更准确的图像解耦表征,可以使获得的图像解耦表征更完备并具有可解释性,获得的图像解耦表征可以用于解决图像转换问题。
进一步的,作为图1至图2所示方法的具体实现,本实施例提供了一种图像解耦表征学习的处理装置,如图4所示,该装置包括:获取模块31、估计模块32、构建模块33、训练模块34。
获取模块31,被配置为通过初始编码器获取训练集中成对图像的初始共享表征。
估计模块32,被配置为根据所述初始共享表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第一全局互信息和第一局部互信息。
构建模块33,被配置为依据所述第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数。
训练模块34,被配置为基于所述第一损失函数和所述训练集,使用随机优化算法对所述初始编码器进行迭代训练,得到第一编码器,所述第一编码器用于解耦得到所述成对图像中每张图像的共享表征。
在一些示例中,获取模块31,还被配置为通过所述第一编码器获取所述成对图像中每张图像的初始独有表征和解耦到的共享表征;将所述初始独有表征和解耦到的共享表征相加,得到所述成对图像中每张图像的整体表征。
在一些示例中,估计模块32,还被配置为根据所述整体表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第二全局互信息和第二局部互信息。
在一些示例中,构建模块33,还被配置为依据所述第二全局互信息和第二局部互信息,构建关于互信息的第二损失函数;构建强化互斥性的目标函数,所述目标函数用于使得所述成对图像中每张图像的独有表征与共享表征是互斥的;基于所述目标函数和所述第二损失函数,构建独有表征学习的第三损失函数。
在一些示例中,训练模块34,还被配置为基于所述第三损失函数和所述训练集,使用随机优化算法对所述第一编码器进行迭代训练,得到第二编码器,所述第二编码器用于解耦得到所述成对图像中每张图像的独有表征。
在一些示例中,估计模块32,具体被配置将每张图像的整个图像和整体表征输入到Wasserstein-2依赖性度量中,获得所述第二全局互信息;将每张图像的图像片段和整体表征输入到Wasserstein-2依赖性度量中,获得所述第二局部互信息。
在一些示例中,构建模块33,具体被配置为将所述成对图像中每张图像的所述第二全局互信息和第二局部互信息进行加权求和,构建得到所述第二损失函数。
在一些示例中,构建模块33,具体还被配置为将所述目标函数和所述第二损失函数通过线性组合,构建得到所述第三损失函数。在具体的应用场景中,估计模块32,具体还被配置为利用Wasserstein-2依赖性度量,获取每张图像的整个图像和所述初始共享表征之间的全局交叉互信息,作为所述第一全局互信息;利用Wasserstein-2依赖性度量,获取每张图像的图像片段和所述初始共享表征之间的局部交叉互信息,作为所述第一局部互信息。
在一些示例中,构建模块33,具体还被配置为将所述成对图像中每张图像的所述第一全局互信息和第一局部互信息进行加权求和,构建得到所述第一损失函数。
需要说明的是,本实施例提供的一种图像解耦表征学习的处理装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图2所示的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法,以及图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种电子设备,如个人计算机、服务器、笔记本电脑、智能机器人等智能终端,该设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的方法。
可选的,上述实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的上述实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
基于上述如图1至图2所示的方法,以及图4所示的虚拟装置实施例,本实施例还提供了一种芯片,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行上述如图1至图2所示的方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助获得更准确的图像解耦表征。通过应用本实施例的方案提供了针对图像解耦表征学习处理的有效手段,通过训练得到的编码器可获得更准确的图像解耦表征,可以使获得的图像解耦表征更完备并具有可解释性,获得的图像解耦表征可以用于解决图像转换问题。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种图像解耦表征学习的处理方法,其特征在于,包括:
通过初始编码器获取训练集中成对图像的初始共享表征;
根据所述初始共享表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第一全局互信息和第一局部互信息;
依据所述第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数;
基于所述第一损失函数和所述训练集,使用随机优化算法对所述初始编码器进行迭代训练,得到第一编码器,所述第一编码器用于解耦得到所述成对图像中每张图像的共享表征。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述第一损失函数和所述训练集,使用随机优化算法对所述初始编码器进行迭代训练,得到第一编码器之后,所述方法还包括:
通过所述第一编码器获取所述成对图像中每张图像的初始独有表征和解耦到的共享表征;
将所述初始独有表征和解耦到的共享表征相加,得到所述成对图像中每张图像的整体表征;
根据所述整体表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第二全局互信息和第二局部互信息;
依据所述第二全局互信息和第二局部互信息,构建关于互信息的第二损失函数;
构建强化互斥性的目标函数,所述目标函数用于使得所述成对图像中每张图像的独有表征与共享表征是互斥的;
基于所述目标函数和所述第二损失函数,构建独有表征学习的第三损失函数;
基于所述第三损失函数和所述训练集,使用随机优化算法对所述第一编码器进行迭代训练,得到第二编码器,所述第二编码器用于解耦得到所述成对图像中每张图像的独有表征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述整体表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第二全局互信息和第二局部互信息,包括:
将每张图像的整个图像和整体表征输入到Wasserstein-2依赖性度量中,获得所述第二全局互信息;
将每张图像的图像片段和整体表征输入到Wasserstein-2依赖性度量中,获得所述第二局部互信息。
4.根据权利要求3所述的方法,其特征在于,所述依据所述第二全局互信息和第二局部互信息,构建关于互信息的第二损失函数,包括:
将所述成对图像中每张图像的所述第二全局互信息和第二局部互信息进行加权求和,构建得到所述第二损失函数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标函数和所述第二损失函数,构建独有表征学习的第三损失函数,包括:
将所述目标函数和所述第二损失函数通过线性组合,构建得到所述第三损失函数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述初始共享表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第一全局互信息和第一局部互信息,包括:
利用Wasserstein-2依赖性度量,获取每张图像的整个图像和所述初始共享表征之间的全局交叉互信息,作为所述第一全局互信息;
利用Wasserstein-2依赖性度量,获取每张图像的图像片段和所述初始共享表征之间的局部交叉互信息,作为所述第一局部互信息。
7.根据权利要求6所述的方法,其特征在于,所述依据所述第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数,包括:
将所述成对图像中每张图像的所述第一全局互信息和第一局部互信息进行加权求和,构建得到所述第一损失函数。
8.一种图像解耦表征学习的处理装置,其特征在于,包括:
获取模块,被配置为通过初始编码器获取训练集中成对图像的初始共享表征;
估计模块,被配置为根据所述初始共享表征,利用Wasserstein-2依赖性度量,估计所述成对图像中每张图像的第一全局互信息和第一局部互信息;
构建模块,被配置为依据所述第一全局互信息和第一局部互信息,构建共享表征学习的第一损失函数;
训练模块,被配置为基于所述第一损失函数和所述训练集,使用随机优化算法对所述初始编码器进行迭代训练,得到第一编码器,所述第一编码器用于解耦得到所述成对图像中每张图像的共享表征。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
CN202310395903.3A 2023-04-14 2023-04-14 图像解耦表征学习的处理方法、装置及电子设备 Active CN116129206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310395903.3A CN116129206B (zh) 2023-04-14 2023-04-14 图像解耦表征学习的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310395903.3A CN116129206B (zh) 2023-04-14 2023-04-14 图像解耦表征学习的处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN116129206A true CN116129206A (zh) 2023-05-16
CN116129206B CN116129206B (zh) 2023-06-23

Family

ID=86304836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310395903.3A Active CN116129206B (zh) 2023-04-14 2023-04-14 图像解耦表征学习的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116129206B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189910A1 (zh) * 2020-09-24 2021-09-30 平安科技(深圳)有限公司 图片识别方法、装置、电子设备及计算机可读存储介质
US20210319270A1 (en) * 2020-04-10 2021-10-14 Samsung Display Co., Ltd. Fusion model training using distance metrics
US20220171989A1 (en) * 2020-12-01 2022-06-02 Nec Laboratories America, Inc. Information theory guided sequential representation disentanglement and data generation
CN114692725A (zh) * 2022-03-04 2022-07-01 武汉大学 面向多时相图像序列的解耦表示学习方法及系统
CN115169575A (zh) * 2022-06-23 2022-10-11 深圳前海环融联易信息科技服务有限公司 个性化联邦学习方法、电子设备及计算机可读存储介质
WO2023000574A1 (zh) * 2021-07-21 2023-01-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
CN115905805A (zh) * 2022-11-02 2023-04-04 吉林大学 一种基于全局信息判别gan的das数据多尺度噪声消减方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210319270A1 (en) * 2020-04-10 2021-10-14 Samsung Display Co., Ltd. Fusion model training using distance metrics
WO2021189910A1 (zh) * 2020-09-24 2021-09-30 平安科技(深圳)有限公司 图片识别方法、装置、电子设备及计算机可读存储介质
US20220171989A1 (en) * 2020-12-01 2022-06-02 Nec Laboratories America, Inc. Information theory guided sequential representation disentanglement and data generation
WO2023000574A1 (zh) * 2021-07-21 2023-01-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
CN114692725A (zh) * 2022-03-04 2022-07-01 武汉大学 面向多时相图像序列的解耦表示学习方法及系统
CN115169575A (zh) * 2022-06-23 2022-10-11 深圳前海环融联易信息科技服务有限公司 个性化联邦学习方法、电子设备及计算机可读存储介质
CN115905805A (zh) * 2022-11-02 2023-04-04 吉林大学 一种基于全局信息判别gan的das数据多尺度噪声消减方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋鹏飞;魏松杰;: "基于深度森林与CWGAN-GP的移动应用网络行为分类与评估", 计算机科学, no. 01, pages 293 - 298 *

Also Published As

Publication number Publication date
CN116129206B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Tu et al. RGB-T image saliency detection via collaborative graph learning
CN108460338B (zh) 人体姿态估计方法和装置、电子设备、存储介质、程序
US10614337B2 (en) Information processing apparatus and information processing method
CN109359539B (zh) 注意力评估方法、装置、终端设备及计算机可读存储介质
CN110210513B (zh) 数据分类方法、装置及终端设备
CN108399386A (zh) 饼图中的信息提取方法及装置
Ding et al. Deep interactive image matting with feature propagation
CN111275784A (zh) 生成图像的方法和装置
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN116434033A (zh) 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统
CN110163095B (zh) 回环检测方法、回环检测装置及终端设备
Liu et al. Sps-net: Self-attention photometric stereo network
CN112651333B (zh) 静默活体检测方法、装置、终端设备和存储介质
CN116129206B (zh) 图像解耦表征学习的处理方法、装置及电子设备
CN116958809A (zh) 一种特征库迁移的遥感小样本目标检测方法
CN114494999B (zh) 一种双分支联合型目标密集预测方法及系统
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置
Ahmed et al. BIQ2021: a large-scale blind image quality assessment database
CN115223033A (zh) 一种合成孔径声呐图像目标分类方法及系统
CN114648650A (zh) 神经网络训练、目标检测的方法及装置、设备及存储介质
CN112861601A (zh) 生成对抗样本的方法及相关设备
Mao et al. A shared updatable method of content regulation for deepfake videos based on blockchain
CN117576573B (zh) 基于改进vgg16模型的建筑氛围评价方法、系统、设备及介质
Feng et al. OAMSFNet: Orientation-Aware and Multi-Scale Feature Fusion Network for shadow detection in remote sensing images via pseudo shadow
CN117574098B (zh) 一种学习专注度分析方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant