CN114186622A - 图像特征提取模型训练方法、图像特征提取方法和装置 - Google Patents
图像特征提取模型训练方法、图像特征提取方法和装置 Download PDFInfo
- Publication number
- CN114186622A CN114186622A CN202111472879.6A CN202111472879A CN114186622A CN 114186622 A CN114186622 A CN 114186622A CN 202111472879 A CN202111472879 A CN 202111472879A CN 114186622 A CN114186622 A CN 114186622A
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- feature extraction
- image feature
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开关于一种图像特征提取模型训练方法、图像特征提取方法和装置,包括:获取目标样本图像基于不同的数据增强方式得到的第一处理图像和第二处理图像;对第一处理图像、第二处理图像和其他样本图像分别进行特征提取处理,得到第一处理图像的第一图像特征、第二处理图像的第二图像特征和其他样本图像的图像特征;根据第一图像特征对第一处理图像进行重建处理,得到第一处理图像的重建图像与第一处理图像之间的重建损失;根据第一图像特征、第二图像特征和其他样本图像的图像特征,得到对比损失;基于对比损失和重建损失,对第一图像特征提取模型进行迭代训练,得到图像特征提取模型。该方法可提高训练得到的图像特征提取模型所提取的图像视觉特征的效果。
Description
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种图像特征提取模型训练方法、装置、电子设备及存储介质。
背景技术
随着计算机视觉技术的发展,对图像进行特征提取是进行图像检测、分割等多种密集计算型下游任务的基础,图像特征提取结果的准确与否直接影响后续图像检测和图像分割等下游任务的准确性。
目前,对图像进行特征提取的方法,多是通过卷积神经网络,将丰富的视觉信息减少到预定义对象类别中的一种,由此实现图像特征的提取。然而,目前的图像特征提取模型方法,将丰富的视觉信息减少到预定义对象类别中的一种会造成特征损失,从而导致提取的图像特征的精细度和丰富度受到影响,无法得到理想的提取效果。
发明内容
本公开提供一种图像特征提取模型训练方法、装置、电子设备及存储介质,以至少解决相关技术中提取的图像特征的精细度和丰富度不够的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像特征提取模型训练方法,包括:
获取目标样本图像的第一处理图像和第二处理图像;所述目标样本图像为样本图像训练集中的任一张图像;所述第一处理图像和所述第二处理图像基于不同的数据增强方式得到;
对所述第一处理图像、所述第二处理图像和其他样本图像分别进行特征提取处理,得到所述第一处理图像的第一图像特征、所述第二处理图像的第二图像特征和所述其他样本图像的图像特征;所述其他样本图像为所述样本图像训练集中除所述目标样本图像外的至少一张样本图像,所述第一图像特征通过第一图像特征提取模型提取得到;
根据所述第一图像特征对所述第一处理图像进行重建处理,得到所述第一处理图像的重建图像与所述第一处理图像之间的重建损失;
根据所述第一图像特征、所述第二图像特征和所述其他样本图像的图像特征,得到对比损失;所述对比损失表示所述第一图像特征和所述第二图像特征的特征距离,与所述第一图像特征和所述其他样本图像的图像特征的特征距离之间的差异度;
基于所述对比损失和所述重建损失,对所述第一图像特征提取模型进行迭代训练,得到图像特征提取模型。
在一示例性实施例中,所述对所述第一处理图像和所述第二处理图像和所述样本图像训练集中除所述目标样本图像外的其他样本图像分别进行特征提取处理,得到所述第一处理图像的第一图像特征、所述第二处理图像的第二图像特征和所述其他样本图像的图像特征,包括:
通过所述第一图像特征提取模型,对所述第一处理图像进行特征提取处理,得到所述第一处理图像的第一图像特征;
通过第二图像特征提取模型,分别对所述第二处理图像和所述其他样本图像进行特征提取处理,得到所述第二处理图像的第二图像特征和所述其他样本图像的图像特征;所述第一图像特征提取模型和所述第二图像特征提取模型的模型结构相同,所包含的多层感知器的数量不同,且所述第二图像特征提取模型的模型参数为通过对所述第一图像特征提取模型的模型参数计算移动平均值得到。
在一示例性实施例中,所述根据所述第一图像特征对所述第一处理图像进行重建处理,得到所述第一处理图像的重建图像与所述第一处理图像之间的重建损失,包括:
通过解码模型对所述第一图像特征进行解码重建处理,得到所述第一处理图像对应的重建图像;所述解码模型为卷积结构的解码器;
对所述重建图像和所述第一处理图像进行特征比对处理,得到所述重建图像和所述第一处理图像之间的特征差异度,作为所述重建图像与所述第一处理图像之间的重建损失。
在一示例性实施例中,所述根据所述第一图像特征、所述第二图像特征和所述其他样本图像的图像特征,得到对比损失,包括:
基于所述第一图像特征和所述第二图像特征,得到正样本对;
基于所述第一图像特征和所述其他样本图像的图像特征,得到多个负样本对;每个所述负样本对包括所述第一图像特征和所述其他样本图像中任一张图像的图像特征;
获取所述正样本对的特征距离与所有正负样本对的特征距离的和之间的差异度,作为所述对比损失。
在一示例性实施例中,在通过所述第二图像特征提取模型,分别对所述第二处理图像和所述其他样本图像进行特征提取处理,得到所述第二处理图像的第二图像特征和所述其他样本图像的图像特征之后,还包括:
按照得到图像特征的时间顺序,将所述第二处理图像的第二图像特征和所述其他样本图像的图像特征,依次存入动态衰减队列中;所述动态衰减队列中的图像特征的权重按照存入时间从晚到早的顺序递减;
所述所有正负样本对的特征距离的和通过下述方式确定,包括:
获取所述第二图像特征和所述其他样本图像的图像特征在所述动态衰减队列中的位置信息;
基于所述位置信息,确定所述第二图像特征和所述其他样本图像的图像特征的权重;
获取所述第二图像特征、所述其他样本图像的图像特征分别与所述第一图像特征的特征距离,与所述第二图像特征、所述其他样本图像的图像特征各自所对应的权重的加权和,作为所有正负样本对的特征距离的和。
在一示例性实施例中,所述基于所述对比损失和所述重建损失,对所述第一图像特征提取模型进行迭代训练,得到图像特征提取模型,包括:
对所述对比损失和所述重建损失进行求和处理,得到损失和;
当所述损失和不符合预设的收敛条件时,调整所述第一图像特征提取模型的模型参数;
采用新的目标样本图像对参数调整后的第一图像特征提取模型进行再次训练,直至得到的损失和符合所述收敛条件,基于收敛时的模型参数得到所述图像特征提取模型。
根据本公开实施例的第二方面,提供一种图像特征提取方法,包括:
获取待处理图像;
将所述待处理图像输入图像特征提取模型,得到所述待处理图像的初始图像特征;所述图像特征提取模型通过上述任一项的图像特征提取模型训练方法训练得到;
对所述初始图像特征进行非线性变换处理,得到目标图像特征,作为所述待处理图像的图像特征。
根据本公开实施例的第三方面,提供一种图像特征提取模型训练装置,包括:
获取单元,被配置为执行获取目标样本图像的第一处理图像和第二处理图像;所述目标样本图像为样本图像训练集中的任一张图像;所述第一处理图像和所述第二处理图像基于不同的数据增强方式得到;
提取单元,被配置为执行对所述第一处理图像、所述第二处理图像和其他样本图像分别进行特征提取处理,得到所述第一处理图像的第一图像特征、所述第二处理图像的第二图像特征和所述其他样本图像的图像特征;所述其他样本图像为所述样本图像训练集中除所述目标样本图像外的至少一张样本图像,所述第一图像特征通过第一图像特征提取模型提取得到;
重建单元,被配置为执行根据所述第一图像特征对所述第一处理图像进行重建处理,得到所述第一处理图像的重建图像与所述第一处理图像之间的重建损失;
对比单元,被配置为执行根据所述第一图像特征、所述第二图像特征和所述其他样本图像的图像特征,得到对比损失;所述对比损失表示所述第一图像特征和所述第二图像特征的特征距离,与所述第一图像特征和所述其他样本图像的图像特征的特征距离之间的差异度;
训练单元,被配置为执行基于所述对比损失和所述重建损失,对所述第一图像特征提取模型进行迭代训练,得到图像特征提取模型。
在一示例性实施例中,所述提取单元,还被配置为执行通过所述第一图像特征提取模型,对所述第一处理图像进行特征提取处理,得到所述第一处理图像的第一图像特征;通过第二图像特征提取模型,分别对所述第二处理图像和所述其他样本图像进行特征提取处理,得到所述第二处理图像的第二图像特征和所述其他样本图像的图像特征;所述第一图像特征提取模型和所述第二图像特征提取模型的模型结构相同,所包含的多层感知器的数量不同,且所述第二图像特征提取模型的模型参数为通过对所述第一图像特征提取模型的模型参数计算移动平均值得到。
在一示例性实施例中,所述重建单元,还被配置为执行通过解码模型对所述第一图像特征进行解码重建处理,得到所述第一处理图像对应的重建图像;所述解码模型为卷积结构的解码器;对所述重建图像和所述第一处理图像进行特征比对处理,得到所述重建图像和所述第一处理图像之间的特征差异度,作为所述重建图像与所述第一处理图像之间的重建损失。
在一示例性实施例中,所述对比单元,还被配置为执行基于所述第一图像特征和所述第二图像特征,得到正样本对;基于所述第一图像特征和所述其他样本图像的图像特征,得到多个负样本对;每个所述负样本对包括所述第一图像特征和所述其他样本图像中任一张图像的图像特征;获取所述正样本对的特征距离与所有正负样本对的特征距离的和之间的差异度,作为所述对比损失。
在一示例性实施例中,所述装置还包括存储单元,被配置为执行按照得到图像特征的时间顺序,将所述第二处理图像的第二图像特征和所述其他样本图像的图像特征,依次存入动态衰减队列中;所述动态衰减队列中的图像特征的权重按照存入时间从晚到早的顺序递减;
所述对比单元,还被配置为执行获取所述第二图像特征和所述其他样本图像的图像特征在所述动态衰减队列中的位置信息;基于所述位置信息,确定所述第二图像特征和所述其他样本图像的图像特征的权重;获取所述第二图像特征、所述其他样本图像的图像特征分别与所述第一图像特征的特征距离,与所述第二图像特征、所述其他样本图像的图像特征各自所对应的权重的加权和,作为所有正负样本对的特征距离的和。
在一示例性实施例中,所述训练单元,还被配置为执行对所述对比损失和所述重建损失进行求和处理,得到损失和;当所述损失和不符合预设的收敛条件时,调整所述第一图像特征提取模型的模型参数;采用新的目标样本图像对参数调整后的第一图像特征提取模型进行再次训练,直至得到的损失和符合所述收敛条件,基于收敛时的模型参数得到所述图像特征提取模型。
根据本公开实施例的第四方面,提供一种图像特征提取装置,所述装置包括:
图像获取单元,被配置为执行获取待处理图像;
特征确定单元,被配置为执行将所述待处理图像输入图像特征提取模型,得到所述待处理图像的初始图像特征;所述图像特征提取模型通过上述任一项的图像特征提取模型训练方法训练得到;
变换单元,被配置为执行对所述初始图像特征进行非线性变换处理,得到目标图像特征,作为所述待处理图像的图像特征。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上任一项所述的方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在获取目标样本图像的第一处理图像和第二处理图像后,分别对第一处理图像、第二处理图像和其他样本图像进行特征提取,得到第一图像特征、第二图像特征和其他样本图像的图像特征,其中第一图像特征通过第一图像特征提取模型提取得到,基于第一图像特征对第一处理图像进行重建处理,得到重建损失,基于第一图像特征、第二图像特征和其他样本图像的图像特征,得到对比损失,根据重建损失和对比损失,对第一图像特征提取模型进行迭代训练,得到图像特征提取模型。该方法利用解码重构任务获得重建损失,利用对比学习获得对比损失,基于重建损失和对比损失相结合的方式进行模型训练,可以更好地实现无监督学习对图像视觉特征的提取,提高所得到的图像特征提取模型所提取的图像视觉特征的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种图像特征提取模型训练方法的流程图。
图2是根据一示例性实施例示出的第一处理图像对应的解码细节图。
图3是根据一示例性实施例示出的一种图像特征提取模型训练的总框架图。
图4是根据另一示例性实施例示出的一种图像特征提取模型训练方法的流程图。
图5是根据一示例性实施例示出的一种图像特征提取模型训练装置的结构框图。
图6是根据一示例性实施例示出的一种图像特征提取装置的结构框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
在一示例性实施例中,如图1所示,提供了一种图像特征提取模型训练方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
在步骤110中,获取目标样本图像的第一处理图像和第二处理图像,目标样本图像为样本图像训练集中的任一张图像,第一处理图像和第二处理图像基于不同的数据增强方式得到。
其中,数据增强方式表示可以实现图像的数据增强处理的方式,数据增强方式可包括裁剪、翻转、旋转、高斯噪声、遮盖、颜色变换和滤镜等方式。
具体实现中,可先获取样本图像训练集,针对样本图像训练集中的任一张样本图像,作为目标样本图像,采用任意两种不同的数据增强方式对该目标样本图像进行数据增强处理,得到第一处理图像和第二处理图像。例如,对目标样本图像x分别采用高斯噪声和滤镜这两种数据增强方式进行数据增强处理,得到第一处理图像x1和第二处理图像x2。
在步骤120中,对第一处理图像、第二处理图像和其他样本图像分别进行特征提取处理,得到第一处理图像的第一图像特征、第二处理图像的第二图像特征和其他样本图像的图像特征;所述其他样本图像为所述样本图像训练集中除所述目标样本图像外的至少一张样本图像,第一图像特征通过第一图像特征提取模型提取得到。
其中,第一图像特征通过第一图像特征提取模型提取得到,第二图像特征和其他样本图像的图像特征通过第二图像特征提取模型提取得到。
具体实现中,可通过两个架构相同的第一图像特征提取模型和第二图像特征提取模型,分别提取第一处理图像和第二处理图像、其他样本图像的视觉特征,具体为通过第一图像特征提取模型提取第一处理图像的第一图像特征,通过第二图像特征提取模型提取第二处理图像和其他样本图像的图像特征。其中,第一图像特征提取模型和第二图像特征提取模型可以为同结构的Transformer形式的编码器,且第二图像特征提取模型的模型参数可以通过对第一图像特征提取模型的模型参数计算移动平均值得到。
在步骤130中,根据第一图像特征对第一处理图像进行重建处理,得到第一处理图像的重建图像与第一处理图像之间的重建损失。
具体实现中,在得到第一处理图像的第一图像特征后,可将第一图像特征输入解码模型,通过解码模型对第一图像特征进行解码重建处理,得到第一处理图像的重建图像,通过重建损失函数计算重建图像与第一处理图像之间的损失,作为重建损失。
更具体地,参考图2,为一示例性实施例中第一处理图像对应的解码细节图,第一图像特征提取模型输出的多层注意力特征图按照编码阶段的提取顺序逐步融合到解码过程的对应阶段,融合通过Concatation操作和3×3Conv操作完成,如果第一图像特征提取模型中的Transformer为多尺度的形式,则特征融和时还需要经过上采样(upsampling)处理。
在步骤140中,根据第一图像特征、第二图像特征和其他样本图像的图像特征,得到对比损失;对比损失表示第一图像特征和第二图像特征的特征距离,与第一图像特征和其他样本图像的图像特征的特征距离之间的差异度。
可以理解的是,对比学习是一种判别式的自监督方式,通过自动构造相似实例和不相似实例,利用噪声对比估计算法使得相似的实例在投影空间中比较接近,而不相似的实例在投影空间中距离比较远。对比学习的训练目的是让相同图像采样得到的特征在表示空间内尽可能相近,不同图像采样得到的特征尽可能远离。
在本公开中,基于同一个目标样本图像得到的第一处理图像和第二处理图像,表示相同图像,目标样本图像和其他样本图像之间表示不同图像,因此,本公开中对比学习的训练目的是使第一处理图像和第二处理图像采样得到的特征在表示空间内尽可能相近,目标样本图像和其他样本图像采样得到的特征之间尽可能远离。
具体实现中,可将相同图像采样得到的特征组成正样本对,将不同图像采样得到的特征组成负样本对,计算正负样本的交叉熵损失,作为对比损失。更具体地,可将第一处理图像的第一图像特征和第二处理图像的第二图像特征,组成正样本对,将第一处理图像的第一图像特征与其他样本图像中的各张图像分别组成负样本对,由此得到多个负样本对。获取计算正样本对和各个负样本对中的两个图像特征之间的距离,作为特征距离,计算正样本对的特征距离与正负样本对的特征距离的和之间的差异度,作为对比损失。
进一步地,本实例中的其他样本图像的图像特征也可以为对其他样本图像进行数据增强处理后得到的处理图像的图像特征,根据第一图像特征、第二图像特征和其他样本图像的处理图像的图像特征,得到对比损失。
在步骤150中,基于对比损失和重建损失,对第一图像特征提取模型进行迭代训练,得到图像特征提取模型。
具体实现中,可对对比损失和重建损失进行求和处理,得到损失和,基于损失和对第一图像特征提取模型进行迭代训练。更具体地,可通过梯度下降法迭代第一图像特征提取模型,即当损失和不满足预设的收敛条件,如损失和大于预设的精度值时,通过梯度下降法调整第一图像特征模型的模型参数,得到新的第一图像特征提取模型,对新的第一图像特征提取模型重新执行步骤110至140的步骤,直至得到的损失和满足预设的收敛条件,将收敛时的第一图像特征提取模型作为用于实际视觉特征提取的图像特征提取模型。
上述图像特征提取模型训练方法中,在获取目标样本图像的第一处理图像和第二处理图像后,分别对第一处理图像、第二处理图像和其他样本图像进行特征提取,得到第一图像特征、第二图像特征和其他样本图像的图像特征,其中第一图像特征通过第一图像特征提取模型提取得到,基于第一图像特征对第一处理图像进行重建处理,得到重建损失,基于第一图像特征、第二图像特征和其他样本图像的图像特征,得到对比损失,根据重建损失和对比损失,对第一图像特征提取模型进行迭代训练,得到图像特征提取模型。该方法利用解码重构任务获得重建损失,利用对比学习获得对比损失,基于重建损失和对比损失相结合的方式进行模型训练,可以更好地实现无监督学习对图像视觉特征的提取,提高所得到的图像特征提取模型所提取的图像视觉特征的效果。
在一示例性实施例中,在步骤120中对第一处理图像和第二处理图像和样本图像训练集中除目标样本图像外的其他样本图像分别进行特征提取处理,得到第一处理图像的第一图像特征、第二处理图像的第二图像特征和其他样本图像的图像特征,包括:通过第一图像特征提取模型,对第一处理图像进行特征提取处理,得到第一处理图像的第一图像特征;通过第二图像特征提取模型,分别对第二处理图像和其他样本图像进行特征提取处理,得到第二处理图像的第二图像特征和其他样本图像的图像特征;第一图像特征提取模型和第二图像特征提取模型的模型结构相同,所包含的多层感知器的数量不同,且第二图像特征提取模型的模型参数为通过对第一图像特征提取模型的模型参数计算移动平均值得到。
具体实现中,第一图像特征提取模型和第二图像特征提取模型可以为同结构的Transformer形式的编码器,第一图像特征提取模型可记为Guide Encoder(θ),θ第二图像特征提取模型可记为Followup Encoder(ζ),第二图像特征提取模型Followup Encoder(ζ)的模型参数通过对第一图像特征提取模型Guide Encoder(θ)的模型参数计算移动平均值得到,两个模型之间的模型参数的关系可表示为:
ζ←mζ+(1-m)θ
其中,m表示更新权重参数,m=0.99。
参考图3,为一示例性实施例中图像特征提取模型训练的总框架图,图中GuideEncoder(θ)表示第一图像特征提取模型,Followup Encoder(ζ)表示第一图像特征提取模型,如图所示,第一图像特征提取模型和第二图像特征提取模型的多层注意力感知器的数量并不相同,通过对多层注意力感知器非对称性的设置,以增强后续对比学习中正负样本集的空间独立性。
一次迭代中,第一图像特征和第二图像特征的计算方式为:
q1=MLP{MLP{Guide Encoder(Augmented_view_1(x))}}
k1=MLP{MLP{Followup Encoder(Augmented_view_2(x))}}
(Augmented_view_1、Augmented_view_2∈Augment_method_set)
其中,Augmented_view_1(x)表示第一处理图像x1,Augmented_view_2(x)表示第二处理图像x2,MLP(Muti-Layer Perception)表示多层感知器。第一图像特征提取模型Guide Encoder中注意力块(attention block)的计算公式为:
E_x=Patch(Aug1_view(x))
Guide Encoder(x)=MLP{MSA(LN(E_x))}+MSA(LN(E_x))
其中,E_x属于Patch编码函数,通过卷积与线性映射操作讲尺度为(H,W,C)的输入特征转为N*C的编码序列,其中N=(H/P)*(W/P),P∈N,LN表示归一化处理,MSA部分为多头(Multi-head)注意力信息计算模块,单个head中的attention计算公式为:
其中,Q、K、V为E_x经过线性映射所得编码序列,C为输入通道数,E为位置信息。
本实施例中,通过构建两个同结构的Transformer形式的编码器,分别作为第一图像特征提取模型和第二图像特征提取模型,以便于通过一个图像特征提取模型对另一个图像特征提取模型进行对比学习训练,提高所训练的图像特征提取模型的特征提取效果。
在一示例性实施例中,步骤130中根据第一图像特征对第一处理图像进行重建处理,得到第一处理图像的重建图像与第一处理图像之间的重建损失,可以通过下述方式实现:通过解码模型对第一图像特征进行解码重建处理,得到第一处理图像对应的重建图像;解码模型为卷积结构的解码器;对重建图像和第一处理图像进行特征比对处理,得到重建图像和第一处理图像之间的特征差异度,作为重建图像与第一处理图像之间的重建损失。
具体实现中,如图3的图像特征提取模型训练的总框架图所示,图中的Decoder(w)表示解码模型,为一个卷积结构的解码器,输入为(H,W,C)的数据增强处理后的第一处理图像x1(即图中的Augmented_view_1(x))经过第一图像特征提取模型Guide Encoder(θ)与解码模型Decoder(w)得到特征重建结果,即重建图像,记为r(H,W,C),若将第一处理图像x1记为A,则重建图像r(H,W,C)与第一处理图像x1之间的重建损失的计算过程为:
A=Augmented_view_1(x)
Attention maps=feature_list(Guide Encoder(A))
r=Decoder(Attention maps,Guide Encoder(A))
如解码细节图的图3所示,第一图像特征提取模型Guide Encoder(θ)输出的多层注意力特征图按照编码阶段的提取顺序逐步融合到解码过程的对应阶段,融合通过Concatation操作和3×3Conv操作完成,如果第一图像特征提取模型中的Transformer为多尺度的形式,则特征融和时还需要经过上采样(upsampling)处理。
如果第一处理图像x1的重建图像r(H,W,C)与第一处理图像x1非常接近,那么则可认为两者在内容上比较接近,因为越接近输出的层包含有越多的内容信息。因此,可以得到重建损失函数Reconstrction Loss为:
其中,r表示重建图像r(H,W,C),A表示第一处理图像Augmented_view_1(x),即x1。
本实施例中,通过对第一处理图像的解码重建处理,密集地结合了低级特征,从而可得到更精细的图像特征,进一步可以更好地使图像特征提取模型学习图像的局部位置表示,提高提取结果的精细度和丰富度,克服传统的图像级学习方法将丰富的视觉信息减少到预定义对象类别中的一种导致的特征损失限制自监督学习的性能的缺陷。
在一示例性实施例中,步骤140中根据第一图像特征、第二图像特征和其他样本图像的图像特征,得到对比损失,包括:基于第一图像特征和第二图像特征,得到正样本对;基于第一图像特征和其他样本图像的图像特征,得到多个负样本对;每个负样本对包括第一图像特征和其他样本图像中任一张图像的图像特征;获取正样本对的特征距离与所有正负样本对的特征距离的和之间的差异度,作为对比损失。
具体实现中,例如,记样本图像训练集中共有K个样本图像,从样本图像训练集中获取的目标样本图像为x,经过数据增强处理得到第一处理图像x1和第二处理图像x2,将样本图像训练集中的其他样本图像记为y2…yK,对第一处理图像x1、第二处理图像x2以及其他样本图像y2…yK分别进行特征提取处理,得到第一图像特征q1、第二图像特征k1和其他样本图像的图像特征k2…kK。将第一图像特征q1和第二图像特征k1组成正样本对<q1,k1>,将第一图像特征q1和其他样本图像的图像特征k2…kK组成K-1个负样本对<q1,k2>…<q1,kK>。分别计算各个样本对中的两个图像特征之间的距离,得到1个正样本对的特征距离和K-1个负样本对的特征距离,计算1个正样本对的特征距离与K-1个负样本对的特征距离的和,作为所有正负样本对的特征距离的和,将正样本对的特征距离与所有正负样本对的特征距离的和之间的比值的对数值,作为对比损失。
本实施例中,基于所述第一图像特征和所述第二图像特征,得到正样本对,基于所述第一图像特征和所述其他样本图像的图像特征,得到多个负样本对,然后计算正样本对和正负样本对的特征距离的和差异度,得到对比损失,以便于通过对比损失对第一图像特征提取模型进行训练,通过这种方式,图像特征提取模型可以在不依赖标签的情况下学习到图像本身的视觉特征。
在一示例性实施例中,在通过第二图像特征提取模型,分别对第二处理图像和其他样本图像进行特征提取处理,得到第二处理图像的第二图像特征和其他样本图像的图像特征之后,还包括:按照得到图像特征的时间顺序,将第二处理图像的第二图像特征和其他样本图像的图像特征,依次存入动态衰减队列中;动态衰减队列中的图像特征的权重按照存入时间从晚到早的顺序递减。
具体实现中,如图3的图像特征提取模型训练的总框架图所示,由第二图像特征提取模型所提取的特征均存入动态衰减队列k中,具体可按照得到图像特征的时间顺序,将由第二图像特征提取模型所提取的第二处理图像的第二图像特征和其他样本图像的图像特征,依次存入动态衰减队列中,并且动态衰减队列中的图像特征的权重不相同,按照存入时间从晚到早的顺序递减,即图像特征存入动态衰减队列的时间越早,权重越小,图像特征存入动态衰减队列的时间越晚,权重越大。
本实施例所设计的非等权重的负样本存储队列,通过按队列位置序号等比衰减固定权重的方式,可以减少由于编码器动量更新权重所带来的编码差异,以减少较早进入存储队列的数据带来的影响。
进一步地,在一示例性实施例中,所有正负样本对的特征距离的和通过下述方式确定,包括:获取第二图像特征和其他样本图像的图像特征在动态衰减队列中的位置信息;基于位置信息,确定第二图像特征和其他样本图像的图像特征的权重;获取第二图像特征、其他样本图像的图像特征分别与第一图像特征的特征距离,与第二图像特征、其他样本图像的图像特征各自所对应的权重的加权和,作为所有正负样本对的特征距离的和。
其中,权重表示各个图像特征的相对重要程度。
具体实现中,动态衰减队列所存储的为由第二图像特征提取模型所提取的特征,由此可知负样本对是由第一图像特征与动态衰减队列中除第二图像特征外的其他图像特征组成,动态衰减队列中的各个图像特征均具有对应的权重,因此,在计算对比损失时,需要考虑权重的影响。故在计算对比损失前,可先获取第二图像特征与其他样本图像的图像特征在动态衰减队列中的位置信息,基于该位置信息,确定第二图像特征与其他样本图像的图像特征的权重,计算第二图像特征与第二图像特征对应的权重的乘积,计算其他样本图像的图像特征与其他样本图像的图像特征各自对应的权重的乘积,将这两类乘积相加,得到加权和,将该加权和作为所有正负样本对的特征距离的和。进一步计算正样本对的特征距离与所有正负样本对的特征距离的和之间的比值的对数值,作为对比损失。
例如,若记动态衰减队列为quene,第一图像特征为qi,第二图像特征为kj,由于对比损失为正负样本的交叉熵损失,则对比损失可用关系式表示为:
本实施例中,通过结合各个图像特征的权重,计算正负样本对的特征距离的和,可以减少由于编码器动量更新权重所带来的编码差异,以减少较早进入存储队列的数据带来的影响,由此提高所得到的对比损失的准确度。
在一示例性实施例中,步骤150中基于对比损失和重建损失,对第一图像特征提取模型进行迭代训练,得到图像特征提取模型,包括:对对比损失和重建损失进行求和处理,得到损失和;当损失和不符合预设的收敛条件时,调整第一图像特征提取模型的模型参数;采用新的目标样本图像对参数调整后的第一图像特征提取模型进行再次训练,直至得到的损失和符合收敛条件,基于收敛时的模型参数得到图像特征提取模型。
具体实现中,预设的收敛条件可以为损失和小于预设的精度值,则在得到对比损失和重建损失后,可将对比损失和重建损失相加,将得到的损失和与预设的精度进行比对,当损失和大于预设的精度值时,判定不符合预设的收敛条件,则调整第一图像特征提取模型的模型参数,对应的由于第二图像特征提取模型的模型参数为通过对所述第一图像特征提取模型的模型参数计算移动平均值得到,因此,第二图像特征提取模型的模型参数也将随之更新,采用新的目标样本图像对参数调整后的第一图像特征提取模型进行再次训练,直至得到的损失和符合收敛条件,保存收敛时的模型参数,将收敛时的模型参数作为图像特征提取模型的模型参数,得到图像特征提取模型。
本实施例中,通过对比损失和重建损失的结合对第一图像特征提取模型进行训练,在对比学习的基础上,结合重建任务可以强化网络的通用特征学习能力,更好地学习到丰富的视觉表征,更好地支持图像检测、分割等多种密集计算型下游任务。
在一示例性实施例中,是根据另一示例性实施中示出的图像特征提取方法的流程图,本实施例中,该方法包括以下步骤:获取待处理图像;将所述待处理图像输入图像特征提取模型,得到所述待处理图像的初始图像特征;所述图像特征提取模型通过上述实施例所述的方法训练得到;对所述初始图像特征进行非线性变换处理,得到目标图像特征,作为所述待处理图像的图像特征。
具体实现中,在通过上述实施例所述的方法训练得到图像特征提取模型后,在实际应用中提取待处理图像的图像特征时,可将待处理图像输入训练得到的图像特征提取模型,得到待处理图像的初始图像特征,然后经过两次Project层的非线性变化,对初始图像特征进一步进行特征提取,得到目标图像特征,作为待处理图像的图像特征。
本实施例中,在通过图像特征提取模型得到待处理图像的初始图像特征后,进一步对初始图像特征进行非线性变换处理,可以提高所得到的待处理图像的图像特征的泛化性,更好地应用到其他下游任务或应用中。
在另一示例性实施例中,如图4所示,是根据另一示例性实施例示出的一种图像特征提取模型训练方法的流程图,本实施例中,该方法包括以下步骤:
步骤410,获取目标样本图像的第一处理图像和第二处理图像;目标样本图像为样本图像训练集中的任一张图像;
步骤420,通过第一图像特征提取模型,对第一处理图像进行特征提取处理,得到第一处理图像的第一图像特征;
步骤430,通过第二图像特征提取模型,分别对第二处理图像和其他样本图像进行特征提取处理,得到第二处理图像的第二图像特征和其他样本图像的图像特征;
步骤440,按照得到图像特征的时间顺序,将第二处理图像的第二图像特征和其他样本图像的图像特征,依次存入动态衰减队列中;动态衰减队列中的图像特征的权重按照存入时间从晚到早的顺序递减;
步骤450,通过解码模型对第一图像特征进行解码重建处理,得到第一处理图像对应的重建图像;解码模型为卷积结构的解码器;
步骤460,对重建图像和第一处理图像进行特征比对处理,得到重建图像和第一处理图像之间的特征差异度,作为重建图像与第一处理图像之间的重建损失;
步骤470,基于第一图像特征和第二图像特征,得到正样本对,以及,基于第一图像特征和其他样本图像的图像特征,得到多个负样本对;
步骤480,获取正样本对的特征距离与所有正负样本对的特征距离的和之间的差异度,作为对比损失;
步骤490,对对比损失和重建损失进行求和处理,得到损失和,基于损失和对第一图像特征提取模型进行迭代训练,得到图像特征提取模型。
本实施例提供的图像特征提取模型的训练方法,利用两路Transformer结构的编码器计算正负样本对比损失,其中一路guide编码器通过梯度更新参数,另一路FollowupEncoder(ζ)则通过Guide Encoder(θ)的移动平均值动量更新权重。在guide编码器后增加了卷积结构的解码器,通过重建Transformer编码后的特征并与原始数据计算内容损失强化网络的学习能力。对比传统基于卷积神经网络算法实现无监督学习的方法,本方法能够获得更理想的视觉特征表达,能更好地支持图像分类、目标检测与分割等多种计算机应用任务。
在一示例性实施例中,为了便于本领域技术人员理解本申请实施例,以下将结合附图的具体示例进行说明。参考图3,为一个应用实例中图像特征提取模型训练方法的总框架图,Guide Encoder(θ)与Followup Encoder(ζ)为Transformer结构的编码器,Decoder(ω)为卷积结构的解码器。MLP模块中包含两层线性映射与一层激活函数,将Encoder的输出映射到对比空间。其中Guide Encoder(θ)与Followup Encoder(ζ)分支不同数量的MLP模块通过非对称性增强了对比学习中正负样本集的空间独立性。训练过程如下:
(1)设计正负样本对:
获取样本图像训练集,依次将样本图像训练集中的各个样本图像作为目标样本图像x,从数据增强方式集(Augment_method_set)中选取两种不同的数据增强方式对目标样本图像处理得到第一处理图像Augmented_view_1(x)和第二处理图像Augmented_view_2(x);
如图3所示的总框架图中,一个batch(用于定义在更新内部模型参数之前要处理的样本数)中,目标样本图像x的两种处理图像分别经过第一图像特征提取模型GuideEncoder和第二图像特征提取模型Followup Encoder得到第一图像特征q1和第二图像特征k1,组成正样本对<q1,k1>。样本图像训练集中的其他样本图像也通过第二图像特征提取模型进行特征提取,且第二图像特征提取模型提取的图像特征均存入动态衰减队列(decayqueue)中,第一图像特征与动态衰减队列(decay queue)中的各个其他样本图像的图像特征组成负样本对。当动态衰减队列的长度为K时,一个batch中的每个样本都有1个正样本对和K-1个负样本对,其中,加权动态队列(weight moment queue)中的负样本在每次迭代中保持更新,负样本的权重比例为:weight=0.9999positioni,positioni∈{1,2,3,,,K}为队列中的位置信息。
(2)Transformer提取视觉特征
第一处理图像Augmented_view_1(x)通过第一图像特征提取模型Guide Encoder进行特征提取,第二处理图像Augmented_view_2(x)和其他样本图像通过第二图像特征提取模型Followup Encoder进行特征提取。
(3)计算重建损失
将目标样本图像记为H,W,C,重建图像记为r(H,W,C),若将第一处理图像Augmented_view_1(x)记为A,则重建图像r(H,W,C)与第一处理图像之间的重建损失的计算过程为:
A=Augmented_view_1(x)
Attention maps=feature_list(Guide Encoder(A))
r=Decoder(Attention maps,Guide Encoder(A))
如果第一处理图像x1的重建图像r(H,W,C)与第一处理图像非常接近,那么则可认为两者在内容上比较接近,因为越接近输出的层包含有越多的内容信息。因此,可以得到重建损失函数Reconstrction Loss为:
(4)计算对比损失
对比学习的训练目的是让相同图像采样出来的特征在表示空间内尽可能相近;不同图像采样出来的特征尽可能远离,对比损失为正负样本交叉熵损失:
(5)模型的训练
计算对比损失和重建损失的和,得到整体的损失函数为:
Loss=Contrastive Loss+Reconstrction Loss
基于总损失Loss对第一图像特征提取模型Guide Encoder进行迭代训练,得到图像特征提取模型。
经过验证,模型训练阶段,本方案采取的损失函数由对比损失函数与重构损失函数两部分构成,模型使用的优化器为Adamw,学习率策略为Cosine Annealing,初始化学习率为5e-4,warm up epoch为5,warm up学习率为5e-7,在数据集上进行了300个epoch的训练后,loss基本稳定,终止训练。此时模型在IamgeNet进行线性验证的Top1 acc为75.70%;在COCO数据集上基于Mask-rnn进行检测的验证结果:bbox_mAP:44.0%,bbox_mAP_50:66.7%,bbox_mAP_75:48.0%;在COCO数据集上基于Mask-rcnn进行检测与分割的segm_mAP:39.9%,segm_mAP_50:63.4%,segm_mAP_75:42.7%。基于SERT分割框架在Cityscapes数据集上进行语义分割的结果:mIOU:73.4%,mAcc:80.95,由此得到本方案与现有的无监督任务相比有较为明显的提升。
本实施例提出的利用解码重构任务将Transformer与传统卷积算法融合进行对比学习实现无监督学习的方法,通过特征重构与对比学习相结合的方式,更好地实现无监督学习对图像视觉特征的提取,具体具有以下优点:(1)兼顾空间结构与全局信息的建模能力,提出了一种新的基于特征重构的无监督训练框架,在对比学习框架的基础上,结合重建任务强化网络的通用特征学习能力。(2)将Transformer与卷积结构结合进行特征提取,两者通过重建损失的约束可以更好地学习到丰富的视觉表征。相比于CNN(卷积神经网络),Transformer有更强的并行计算能力以及全局建模能力,但是需要额外的位置编码来弥补空间相对位置的损失,而CNN中卷积算法的位移不变性等又可以很好地弥补局部定位信息。(3)在解码重建过程中利用了多尺度多层级的编码注意力特征,可获取更丰富的语义信息,以更好地支持图像检测、分割等多种密集计算型下游任务。(4)设计了一种非等权重的负样本存储队列,通过按队列位置序号等比衰减固定权重的方式,减少由于编码器动量更新权重所带来的编码差异,以减少较早进入存储队列的数据带来的影响。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
图5是根据一示例性实施例示出的一种图像特征提取模型训练装置的结构框图。参照图5,该装置包括:获取单元510、提取单元520、重建单元530、对比单元540和训练单元550,其中,
获取单元510,被配置为执行获取目标样本图像的第一处理图像和第二处理图像;目标样本图像为样本图像训练集中的任一张图像;第一处理图像和第二处理图像基于不同的数据增强方式得到;
提取单元520,被配置为执行对第一处理图像、第二处理图像和其他样本图像分别进行特征提取处理,得到第一处理图像的第一图像特征、第二处理图像的第二图像特征和其他样本图像的图像特征;其他样本图像为样本图像训练集中除目标样本图像外的至少一张样本图像,第一图像特征通过第一图像特征提取模型提取得到;
重建单元530,被配置为执行根据第一图像特征对第一处理图像进行重建处理,得到第一处理图像的重建图像与第一处理图像之间的重建损失;
对比单元540,被配置为执行根据第一图像特征、第二图像特征和其他样本图像的图像特征,得到对比损失;对比损失表示第一图像特征和第二图像特征的特征距离,与第一图像特征和其他样本图像的图像特征的特征距离之间的差异度;
训练单元550,被配置为执行基于对比损失和重建损失,对第一图像特征提取模型进行迭代训练,得到图像特征提取模型。
在一示例性实施例中,提取单元520,还被配置为执行通过第一图像特征提取模型,对第一处理图像进行特征提取处理,得到第一处理图像的第一图像特征;通过第二图像特征提取模型,分别对第二处理图像和其他样本图像进行特征提取处理,得到第二处理图像的第二图像特征和其他样本图像的图像特征;第一图像特征提取模型和第二图像特征提取模型的模型结构相同,所包含的多层感知器的数量不同,且第二图像特征提取模型的模型参数为通过对第一图像特征提取模型的模型参数计算移动平均值得到。
在一示例性实施例中,重建单元530,还被配置为执行通过解码模型对第一图像特征进行解码重建处理,得到第一处理图像对应的重建图像;解码模型为卷积结构的解码器;对重建图像和第一处理图像进行特征比对处理,得到重建图像和第一处理图像之间的特征差异度,作为重建图像与第一处理图像之间的重建损失。
在一示例性实施例中,对比单元540,还被配置为执行基于第一图像特征和第二图像特征,得到正样本对;基于第一图像特征和其他样本图像的图像特征,得到多个负样本对;每个负样本对包括第一图像特征和其他样本图像中任一张图像的图像特征;获取正样本对的特征距离与所有正负样本对的特征距离的和之间的差异度,作为对比损失。
在一示例性实施例中,装置还包括存储单元,被配置为执行按照得到图像特征的时间顺序,将第二处理图像的第二图像特征和其他样本图像的图像特征,依次存入动态衰减队列中;动态衰减队列中的图像特征的权重按照存入时间从晚到早的顺序递减;
对比单元540,还被配置为执行获取第二图像特征和其他样本图像的图像特征在动态衰减队列中的位置信息;基于位置信息,确定第二图像特征和其他样本图像的图像特征的权重;获取第二图像特征、其他样本图像的图像特征分别与第一图像特征的特征距离,与第二图像特征、其他样本图像的图像特征各自所对应的权重的加权和,作为所有正负样本对的特征距离的和。
在一示例性实施例中,训练单元550,还被配置为执行对对比损失和重建损失进行求和处理,得到损失和;当损失和不符合预设的收敛条件时,调整第一图像特征提取模型的模型参数;采用新的目标样本图像对参数调整后的第一图像特征提取模型进行再次训练,直至得到的损失和符合收敛条件,基于收敛时的模型参数得到图像特征提取模型。
图6是根据一示例性实施例示出的一种图像特征提取装置的结构框图。参照图6,该装置包括:图像获取单元610、特征确定单元620和变换单元630,其中,
图像获取单元610,被配置为执行获取待处理图像;
特征确定单元620,被配置为执行将待处理图像输入图像特征提取模型,得到待处理图像的初始图像特征;图像特征提取模型通过上述任一项的方法训练得到;
变换单元630,被配置为执行对初始图像特征进行非线性变换处理,得到目标图像特征,作为待处理图像的图像特征。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种用于实现图像特征提取模型训练方法的电子设备700的框图。例如,电子设备700可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图7,电子设备700可以包括以下一个或多个组件:处理组件702、存储器704、电源组件706、多媒体组件708、音频组件710、输入/输出(I/O)的接口712、传感器组件714以及通信组件716。
处理组件702通常控制电子设备700的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述电子设备700和用户之间的提供输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括前置摄像头和/或后置摄像头。当电子设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括麦克风(MIC),当电子设备700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为电子设备700提供各个方面的状态评估。例如,传感器组件714可以检测到电子设备700的打开/关闭状态,组件的相对定位,例如所述组件为电子设备700的显示器和小键盘,传感器组件714还可以检测电子设备700或电子设备700组件的位置改变,用户与电子设备700接触的存在或不存在,设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在一示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器704,上述指令可由电子设备700的处理器720执行以完成上述方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备700的处理器720执行以完成上述方法。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
需要说明的,上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种图像特征提取模型训练方法,其特征在于,包括:
获取目标样本图像的第一处理图像和第二处理图像;所述目标样本图像为样本图像训练集中的任一张图像;所述第一处理图像和所述第二处理图像基于不同的数据增强方式得到;
对所述第一处理图像、所述第二处理图像和其他样本图像分别进行特征提取处理,得到所述第一处理图像的第一图像特征、所述第二处理图像的第二图像特征和所述其他样本图像的图像特征;所述其他样本图像为所述样本图像训练集中除所述目标样本图像外的至少一张样本图像,所述第一图像特征通过第一图像特征提取模型提取得到;
根据所述第一图像特征对所述第一处理图像进行重建处理,得到所述第一处理图像的重建图像与所述第一处理图像之间的重建损失;
根据所述第一图像特征、所述第二图像特征和所述其他样本图像的图像特征,得到对比损失;所述对比损失表示所述第一图像特征和所述第二图像特征的特征距离,与所述第一图像特征和所述其他样本图像的图像特征的特征距离之间的差异度;
基于所述对比损失和所述重建损失,对所述第一图像特征提取模型进行迭代训练,得到图像特征提取模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一处理图像和所述第二处理图像和所述样本图像训练集中除所述目标样本图像外的其他样本图像分别进行特征提取处理,得到所述第一处理图像的第一图像特征、所述第二处理图像的第二图像特征和所述其他样本图像的图像特征,包括:
通过所述第一图像特征提取模型,对所述第一处理图像进行特征提取处理,得到所述第一处理图像的第一图像特征;
通过第二图像特征提取模型,分别对所述第二处理图像和所述其他样本图像进行特征提取处理,得到所述第二处理图像的第二图像特征和所述其他样本图像的图像特征;所述第一图像特征提取模型和所述第二图像特征提取模型的模型结构相同,所包含的多层感知器的数量不同,且所述第二图像特征提取模型的模型参数为通过对所述第一图像特征提取模型的模型参数计算移动平均值得到。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一图像特征对所述第一处理图像进行重建处理,得到所述第一处理图像的重建图像与所述第一处理图像之间的重建损失,包括:
通过解码模型对所述第一图像特征进行解码重建处理,得到所述第一处理图像对应的重建图像;所述解码模型为卷积结构的解码器;
对所述重建图像和所述第一处理图像进行特征比对处理,得到所述重建图像和所述第一处理图像之间的特征差异度,作为所述重建图像与所述第一处理图像之间的重建损失。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一图像特征、所述第二图像特征和所述其他样本图像的图像特征,得到对比损失,包括:
基于所述第一图像特征和所述第二图像特征,得到正样本对;
基于所述第一图像特征和所述其他样本图像的图像特征,得到多个负样本对;每个所述负样本对包括所述第一图像特征和所述其他样本图像中任一张图像的图像特征;
获取所述正样本对的特征距离与所有正负样本对的特征距离的和之间的差异度,作为所述对比损失。
5.一种图像特征提取方法,其特征在于,所述方法包括:
获取待处理图像;
将所述待处理图像输入图像特征提取模型,得到所述待处理图像的初始图像特征;所述图像特征提取模型通过权利要求1至4任一项所述的方法训练得到;
对所述初始图像特征进行非线性变换处理,得到目标图像特征,作为所述待处理图像的图像特征。
6.一种图像特征提取模型训练装置,其特征在于,包括:
获取单元,被配置为执行获取目标样本图像的第一处理图像和第二处理图像;所述目标样本图像为样本图像训练集中的任一张图像;所述第一处理图像和所述第二处理图像基于不同的数据增强方式得到;
提取单元,被配置为执行对所述第一处理图像、所述第二处理图像和其他样本图像分别进行特征提取处理,得到所述第一处理图像的第一图像特征、所述第二处理图像的第二图像特征和所述其他样本图像的图像特征;所述其他样本图像为所述样本图像训练集中除所述目标样本图像外的至少一张样本图像,所述第一图像特征通过第一图像特征提取模型提取得到;
重建单元,被配置为执行根据所述第一图像特征对所述第一处理图像进行重建处理,得到所述第一处理图像的重建图像与所述第一处理图像之间的重建损失;
对比单元,被配置为执行根据所述第一图像特征、所述第二图像特征和所述其他样本图像的图像特征,得到对比损失;所述对比损失表示所述第一图像特征和所述第二图像特征的特征距离,与所述第一图像特征和所述其他样本图像的图像特征的特征距离之间的差异度;
训练单元,被配置为执行基于所述对比损失和所述重建损失,对所述第一图像特征提取模型进行迭代训练,得到图像特征提取模型。
7.一种图像特征提取装置,其特征在于,所述装置包括:
图像获取单元,被配置为执行获取待处理图像;
特征确定单元,被配置为执行将所述待处理图像输入图像特征提取模型,得到所述待处理图像的初始图像特征;所述图像特征提取模型通过权利要求1至4任一项所述的方法训练得到;
变换单元,被配置为执行对所述初始图像特征进行非线性变换处理,得到目标图像特征,作为所述待处理图像的图像特征。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的图像特征提取模型训练方法或权利要求5所述的图像特征提取方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至4中任一项所述的图像特征提取模型训练方法或权利要求5所述的图像特征提取方法。
10.一种计算机程序产品,所述计算机程序产品中包括指令,其特征在于,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至4中任一项所述的图像特征提取模型训练方法或权利要求5所述的图像特征提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472879.6A CN114186622A (zh) | 2021-11-30 | 2021-11-30 | 图像特征提取模型训练方法、图像特征提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472879.6A CN114186622A (zh) | 2021-11-30 | 2021-11-30 | 图像特征提取模型训练方法、图像特征提取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186622A true CN114186622A (zh) | 2022-03-15 |
Family
ID=80542329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111472879.6A Pending CN114186622A (zh) | 2021-11-30 | 2021-11-30 | 图像特征提取模型训练方法、图像特征提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186622A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758130A (zh) * | 2022-04-21 | 2022-07-15 | 北京百度网讯科技有限公司 | 图像处理及模型训练方法、装置、设备和存储介质 |
CN114881937A (zh) * | 2022-04-15 | 2022-08-09 | 北京医准智能科技有限公司 | 一种针对超声切面的检测方法、装置及计算机可读介质 |
CN115115972A (zh) * | 2022-05-25 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备、介质及程序产品 |
CN115240078A (zh) * | 2022-06-24 | 2022-10-25 | 安徽大学 | 一种基于轻量化元学习的sar图像小样本目标检测方法 |
-
2021
- 2021-11-30 CN CN202111472879.6A patent/CN114186622A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881937A (zh) * | 2022-04-15 | 2022-08-09 | 北京医准智能科技有限公司 | 一种针对超声切面的检测方法、装置及计算机可读介质 |
CN114881937B (zh) * | 2022-04-15 | 2022-12-09 | 北京医准智能科技有限公司 | 一种针对超声切面的检测方法、装置及计算机可读介质 |
CN114758130A (zh) * | 2022-04-21 | 2022-07-15 | 北京百度网讯科技有限公司 | 图像处理及模型训练方法、装置、设备和存储介质 |
CN114758130B (zh) * | 2022-04-21 | 2023-12-22 | 北京百度网讯科技有限公司 | 图像处理及模型训练方法、装置、设备和存储介质 |
CN115115972A (zh) * | 2022-05-25 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备、介质及程序产品 |
CN115240078A (zh) * | 2022-06-24 | 2022-10-25 | 安徽大学 | 一种基于轻量化元学习的sar图像小样本目标检测方法 |
CN115240078B (zh) * | 2022-06-24 | 2024-05-07 | 安徽大学 | 一种基于轻量化元学习的sar图像小样本目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543714B (zh) | 数据特征的获取方法、装置、电子设备及存储介质 | |
CN114186622A (zh) | 图像特征提取模型训练方法、图像特征提取方法和装置 | |
CN111310616B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TWI717865B (zh) | 影像處理方法及裝置、電子設備、電腦可讀取的記錄媒體和電腦程式產品 | |
CN109859096A (zh) | 图像风格迁移方法、装置、电子设备及存储介质 | |
CN109614876A (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
CN110390394A (zh) | 批归一化数据的处理方法及装置、电子设备和存储介质 | |
CN110287874A (zh) | 目标追踪方法及装置、电子设备和存储介质 | |
CN111524521A (zh) | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 | |
CN110751659B (zh) | 图像分割方法及装置、终端、存储介质 | |
CN114266840A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN109886392A (zh) | 数据处理方法和装置、电子设备和存储介质 | |
CN110717399A (zh) | 人脸识别方法和电子终端设备 | |
CN109920016A (zh) | 图像生成方法及装置、电子设备和存储介质 | |
CN112115894A (zh) | 手部关键点检测模型的训练方法、装置及电子设备 | |
CN112508974A (zh) | 图像分割模型的训练方法、装置、电子设备和存储介质 | |
CN116250012A (zh) | 用于图像动画的方法、系统和计算机可读存储介质 | |
CN111814538A (zh) | 目标对象的类别识别方法、装置、电子设备及存储介质 | |
CN112734627B (zh) | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 | |
CN109784537A (zh) | 广告点击率的预估方法、装置及服务器和存储介质 | |
CN114446318A (zh) | 音频数据分离方法、装置、电子设备及存储介质 | |
CN107480773B (zh) | 训练卷积神经网络模型的方法、装置及存储介质 | |
CN109165722A (zh) | 模型扩展方法及装置、电子设备和存储介质 | |
CN115035596B (zh) | 行为检测的方法及装置、电子设备和存储介质 | |
CN111984765A (zh) | 知识库问答过程关系检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |