CN117788836A - 图像处理方法、装置、计算机设备和存储介质 - Google Patents

图像处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117788836A
CN117788836A CN202410200747.5A CN202410200747A CN117788836A CN 117788836 A CN117788836 A CN 117788836A CN 202410200747 A CN202410200747 A CN 202410200747A CN 117788836 A CN117788836 A CN 117788836A
Authority
CN
China
Prior art keywords
encoder
image
feature
sample image
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410200747.5A
Other languages
English (en)
Inventor
吕颖
董小瑜
刘宇杰
张坤超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202410200747.5A priority Critical patent/CN117788836A/zh
Publication of CN117788836A publication Critical patent/CN117788836A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

本申请涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。采用基于重叠注意力机制的模型作为特征提取网络,通过学习样本之间的相似性,使模型更具鲁棒性,更有效地学习特征表示,并提高在小数据集上的性能。

Description

图像处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
在自动驾驶场景中,有一些场景的样本量较少,只有小数据集。稀有交通事件指的是在道路上相对不常见,且可能需要特殊处理或应对的交通事件。这些事件通常不是日常交通流程的一部分,而是出现在特定情况下,可能对交通安全和车辆操作提出额外的挑战,因此这类场景的样本数量较少且难以获得。传统的基于深度学习的图像分类算法在样本量不足时往往会因缺少归纳偏置而导致分类精度下降,以致存在分类效果差的问题。具体地说,在数据量较少的某些特定场景应用时,现有模型的泛化能力有限,在未见过的样本上性能不稳定,难以应对不同数据分布。在一些特定场景的小数据集中,标签的质量可能不高,存在标签错误或不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种准确的图像处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像处理方法。所述方法包括:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
在其中一个实施例中,将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,包括:
基于第一编码器的图像增强策略,获取每一样本图像相应的第一增强图像;
对第一增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第一投影特征;
根据第一投影特征进行特征预测,得到每一样本图像的第一特征向量。
在其中一个实施例中,将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,包括:
基于第二编码器的图像增强策略,获取每一样本图像相应的第二增强图像;
对第二增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第二投影特征;
根据第二投影特征,在键队列中查找每一样本图像对应的第二特征向量,键队列用于存储每一批次样本图像的特征样本的键。
在其中一个实施例中,根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和得到第二编码器的网络参数进行更新,包括:
根据每一样本图像的第一特征向量和第二特征向量,计算自蒸馏损失值;
根据每一样本图像的自蒸馏损失值,对第一编码器和得到第二编码器的网络参数进行更新。
在其中一个实施例中,根据每一样本图像的自蒸馏损失值,对第一编码器和第二编码器的网络参数进行更新,包括:
计算自蒸馏损失值相对于第一编码器的当前网络参数的梯度;
将梯度对第一编码器和第二编码器的网络参数进行更新,更新方式包括梯度回传更新和动量更新。
在其中一个实施例中,根据每一样本图像的初始特征图对预设特征提取模型进行训练,包括:
根据每一样本图像的初始特征图,提取相应的加权特征图,加权特征图用于指示特征图通道权重对初始特征图的处理;
根据每一样本图像的初始特征图和加权特征图,确定每一样本图像的预测提取特征;
根据每一样本图像的预测提取特征,调整预设特征提取模型的模型参数。
第二方面,本申请还提供了一种图像处理装置。装置包括:
编码模块,用于将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
更新模块,用于根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
确定模块,用于根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
训练模块,用于根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
提取模块,用于基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
上述图像处理方法、装置、计算机设备、存储介质和计算机程序产品,将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。采用基于重叠注意力机制的vision Transformer模型作为特征提取网络,通过学习样本之间的相似性,对比学习使模型更具鲁棒性,更有效地学习特征表示,并提高在小数据集上的性能。
附图说明
图1为一个实施例中图像处理方法的应用环境图;
图2为一个实施例中图像处理方法的流程示意图;
图3为另一个实施例中图像处理方法的流程示意图;
图4为一个实施例中第一编码器和第二编码器结构示意图;
图5为又一个实施例中图像处理方法的流程示意图;
图6为一个实施例中目标模型结构示意图;
图7为一个实施例中补丁尺寸大小示意图;
图8为一个实施例中图像处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的图像处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种图像处理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
其中,样本图像是指包括期望学习到的特征的图像,例如,包括稀有交通事件的样本图像。编码器用于对图像进行编码,得到图像的特征图。将每一样本图像同时输入至第一编码器和第二编码器中,通过第一编码器获取样本图像的第一特征向量,通过第二编码器获取样本图像的第二特征向量,由于第一编码器和第二编码器中所使用的图像增强策略和编码器结构有所不同,因此,第一特征向量和第二特征向量的含义是不同的。
需要说明的是,图像增强策略用于增强图像,能够有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。图像增强包括频率域法和空间域法两种,具体地,图像增强的方法包括多种,在本实施例中第一编码器和第二编码器使用不同的图像增强策略对输入的样本图像进行增强,能够得到样本图像对应的两个不同视图。
步骤204,根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
第一编码器用于提取输入数据的特征表示,通过梯度回传的方式更新参数,每一次迭代后的参数都会有明显变化。第二编码器则是通过逐渐增加的动量更新方式来更新参数,动量项的起始值设置为0.99,且在训练过程中不断增加至1。第二编码器将第一编码器的梯度作为其更新的参数,但是第二编码器会保留大部分原来的参数。在每次更新时,通过将第一编码器的网络参数按一定的动量更新到第二编码器中,从而保持两个编码器之间的一致性。这种动量设计有助于提高特征表示的稳定性和一致性,从而提升网络的整体性能。
步骤206,根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
在对第一编码器和第二编码器更新完成后,可以通过更新后的第一编码器和第二编码器对每一样本图像进行处理,得到每一样本图像的初始特征图像。需要说明的是,第一编码器和第二编码器共同构成特征提取中的图像编码器,因此需要两者同时更新参数,并且能够同步完成更新。另外,第一编码器用于辅助第二编码器的更新,在更新完成后,主要以第二编码器的输出确定样本图像的初始特征图。
步骤208,根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
预设特征提取模型用于根据图像的特征图确定图像的特征。常见的特征提取模型包括卷积神经网络、循环神经网络、Transformer、特征金字塔以及预训练模型。而图像特征提取可以分为底层特征提取和高层语义特征提取。在本步骤中,预设特征提取模型可以是基于自监督学习的Transformer架构的神经网络模型,并通过预设的训练数据集对该神经网络模型进行训练,以生成最终的图像分类模型;然后通过该图像分类模型进行图像的识别分类预测。
具体地,可以直接将所有样本图像划分为训练集和测试集,通过训练集中每一样本图像对预设特征提取模型进行训练,直至预设特征提取模型收敛。再根据测试集中的样本图像对收敛后的预设特征提取模型进行性能评估,确定最优的预设特征提取模型。
步骤210,基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
对待处理图像进行特征提取时,直接通过更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型实现。
上述实施例提供的方法中,将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。采用基于重叠注意力机制的visionTransformer模型作为特征提取网络,通过学习样本之间的相似性,对比学习使模型更具鲁棒性,更有效地学习特征表示,并提高在小数据集上的性能。
在其中一个实施例中,如图3所示,将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,包括:
步骤302,基于第一编码器的图像增强策略,获取每一样本图像相应的第一增强图像;
步骤304,对第一增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第一投影特征;
步骤306,根据第一投影特征进行特征预测,得到每一样本图像的第一特征向量。
其中,通过第一编码器中的图像增强策略对样本图像进行增强,得到样本图像的第一增强图像。第一增强图像是样本图像其中一个视角下的视图。第一编码器中可以采用以Transformer为架构的骨干网络,增强后的图像经过Transformer进行特征提取后得到图像特征,再将图像特征经过投射头映射到一个更高维度的特征空间,得到第一投影特征,使得第一编码器可以更好地捕捉输入的样本图像的细微变化和重要特征,提高第一编码器的性能和泛化能力。
在第一编码器中,在投射头之后还包括一个预测头,预测头的输入是投射头的输出。预测头根据第一编码器的输出预测第二编码器的输出,从而促进编码器的学习和特征表示的改善。在一个实施例中,投射头和预测头是由多个全连接层组成,每个全连接层后有一个ReLU非线性激活函数。
上述实施例提供给的方法中,通过投射头和预测头使得第一编码器可以更好地捕捉输入的样本图像的细微变化和重要特征,提高第一编码器的性能和泛化能力。
在其中一个实施例中,将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,包括:
基于第二编码器的图像增强策略,获取每一样本图像相应的第二增强图像;
对第二增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第二投影特征;
根据第二投影特征,在键队列中查找每一样本图像对应的第二特征向量,键队列用于存储每一批次样本图像的特征样本的键。
其中,通过第二编码器中的图像增强策略对样本图像进行增强,得到样本图像的第二增强图像。第二增强图像是样本图像另一个视角下的视图。第二编码器中可以采用以Transformer为架构的骨干网络,增强后的图像经过Transformer进行特征提取后得到图像特征,再将图像特征经过投射头映射到一个更高维度的特征空间,得到第二投影特征。在第二编码器中,在得到第二投影特征后,根据第二投影特征得到第二特征向量。
具体地,如图4所示的网络结构中,对于输入的图像x,首先经过两种图像增强策略t与,分别对应得到的两种增强后的图像v与/>。v与/>分别为第一编码器和第二编码器的输入。/>和/>分别代表以Transformer为架构的骨干网络,增强后的图像经过Transformer进行特征提取后得到/>和/>。到/>和/>再分别经过两个投射头(投射头分别用和/>表示),得到/>和/>两个投影(projection)。位于第一编码器中的/>会多经过一个预测头/>得到输出为/>
上述实施例提供的方法中,通过投射头使得第一编码器可以更好地捕捉输入的样本图像的细微变化和重要特征,提高第一编码器的性能和泛化能力。
在其中一个实施例中,根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和得到第二编码器的网络参数进行更新,包括:
根据每一样本图像的第一特征向量和第二特征向量,计算自蒸馏损失值;
根据每一样本图像的自蒸馏损失值,对第一编码器和得到第二编码器的网络参数进行更新。
其中,自蒸馏损失值表示第一编码器输出的第一特征向量即查询样本与第二编码器确定的第二特征向量也即键队列中的特征向量之间的距离。键队列扩展了用于对比的键的选择空间,增加了模型学习的对比样本的多样性,从而提高特征表示的鲁棒性和泛化能力。
具体来说,对于一个第一编码器中进行图像增强后得到的新图像(假设为q),其自蒸馏损失函数的计算如下:
其中,是同一张原始图像通过另一种图像增强的方式后得到的另一种新图像在第二编码器中的特征。/>是位于第二编码器中的键队列,/>是一个温度超参数,用于调节自蒸馏损失中样本之间的相似度度量,k则是键队列的大小,默认设置为4096。
上述实施例提供的方法中,自蒸馏损失函数通过比较第一特征向量和第二特征向量之间的相似性来鼓励模型学习有用的特征表示。损失函数衡量第一特征向量和第二特征向量之间的相似性,通过最小化损失,模型可以学习到更具判别性和鲁棒性的特征表示。
在其中一个实施例中,如图5所示,根据每一样本图像的自蒸馏损失值,对第一编码器和第二编码器的网络参数进行更新,包括:
步骤502,计算自蒸馏损失值相对于第一编码器的当前网络参数的梯度;
步骤504,将梯度对第一编码器和第二编码器的网络参数进行更新,更新方式包括梯度回传更新和动量更新。
第一编码器用于提取输入数据的特征表示,通过梯度回传的方式更新参数,每一次迭代后的参数都会有明显变化。第二编码器则是通过逐渐增加的动量更新方式来更新参数,动量项的起始值设置为0.99,且在训练过程中不断增加至1。第二编码器将第一编码器的梯度作为其更新的参数,但是第二编码器会保留大部分原来的参数。在每次更新时,通过将第一编码器的参数按一定的动量更新到第二编码器中,从而保持两个编码器之间的一致性。这种动量设计有助于提高特征表示的稳定性和一致性,从而提升网络的整体性能。
具体地,计算自蒸馏损失相对于模型参数的梯度,并将梯度传播回第二编码器和第一编码器,更新网络参数。
上述实施例提供的方法中,通过动量设计有助于提高特征表示的稳定性和一致性,从而提升网络的整体性能。
在其中一个实施例中,根据每一样本图像的初始特征图对预设特征提取模型进行训练,包括:
根据每一样本图像的初始特征图,提取相应的加权特征图,加权特征图用于指示特征图通道权重对初始特征图的处理;
根据每一样本图像的初始特征图和加权特征图,确定每一样本图像的预测提取特征;
根据每一样本图像的预测提取特征,调整预设特征提取模型的模型参数。
其中,加权特征图用于指示通过注意力机制对模型进行优化。具体地,如图6所示,可以基于自监督学习和重叠注意力机制的Transformer架构的神经网络模型,将该图像对应的初始特征图输入至补丁分区模块中,以使得补丁分区模块可对该初始特征图进行补丁分割,以得到多个不重叠的补丁。其中,可将一个补丁视为一个标记,则若设置补丁尺寸patch size为4×4,那么每个补丁的特征维度为4×4×3=48,“3”表示长度维度H、宽度维度W和通道数量C。
基于重叠注意力机制的vision Transformer中设计了一个全局注意力模块,在模型的各个阶段中间插入,计算全局注意力,从而充分利用了Transformer 模型对于全局信息的提取能力,建立远程依赖关系。不同于其他基于局部的Transformer对于窗口注意力的计算,全局注意力计算模块中裁剪特征图得到的补丁大小不同。
如图7所示,用于生成键向量(第二特征向量)和值向量嵌入的补丁尺寸比用于查询向量(第一特征向量)嵌入的补丁尺寸大,并且键补丁和值补丁之间存在重叠的部分。在图7中,假设特征图的尺寸为9×9,左边实线方框表示的是查询补丁,大小为3×3,且查询补丁之间没有重叠;由于键补丁与值补丁的尺寸比查询补丁大,因此将特征图填充至13×13,填充的大小为2,且补丁之间存在重叠的部分。
全局注意力计算模块的输入为上一阶段输出的特征,维度为H/4×W/4×C,H/8×W/8×2C,以及H/16×W/16×4C。为了减少计算复杂度,首先将输入的特征经过一个的1×1卷积层对隐藏层进行降维操作,将隐藏层的维度降低为C/reduction,其中C=96或者192或者384,且在实验中,reduction设置为16。和局部Transformer 块中计算窗口注意力时一样,在全局注意力提取模块中计算键向量,值向量和查询向量时也加入了相对位置编码。在模块中,首先对查询、值、键的嵌入计算多头自注意力,经过包含一个隐藏层的多层感知机以及和局部Transformer块一样的LayerNorm层和残差连接层,再对得到的特征进行1×1的卷积操作。
上述实施例提供的方法中,将加权特征与前一个阶段中合成的特征进行广播相加输入到下一个阶段,这样计算得到的特征即包含了全局信息。
上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像处理方法的图像处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像处理装置实施例中的具体限定可以参见上文中对于图像处理方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种图像处理装置,包括:编码模块801、更新模块802、确定模块803、训练模块804和提取模块805,其中:
编码模块801,用于将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
更新模块802,用于根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
确定模块803,用于根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
训练模块804,用于根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
提取模块805,用于基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
在其中一个实施例中,编码模块801还用于:
基于第一编码器的图像增强策略,获取每一样本图像相应的第一增强图像;
对第一增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第一投影特征;
根据第一投影特征进行特征预测,得到每一样本图像的第一特征向量。
在其中一个实施例中,编码模块801还用于:
基于第二编码器的图像增强策略,获取每一样本图像相应的第二增强图像;
对第二增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第二投影特征;
根据第二投影特征,在键队列中查找每一样本图像对应的第二特征向量,键队列用于存储每一批次样本图像的特征样本的键。
在其中一个实施例中,更新模块802还用于:
根据每一样本图像的第一特征向量和第二特征向量,计算自蒸馏损失值;
根据每一样本图像的自蒸馏损失值,对第一编码器和得到第二编码器的网络参数进行更新。
在其中一个实施例中,更新模块802还用于:
计算自蒸馏损失值相对于第一编码器的当前网络参数的梯度;
将梯度对第一编码器和第二编码器的网络参数进行更新,更新方式包括梯度回传更新和动量更新。
在其中一个实施例中,训练模块805还用于:
根据每一样本图像的初始特征图,提取相应的加权特征图,加权特征图用于指示特征图通道权重对初始特征图的处理;
根据每一样本图像的初始特征图和加权特征图,确定每一样本图像的预测提取特征;
根据每一样本图像的预测提取特征,调整预设特征提取模型的模型参数。
上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型参数数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于第一编码器的图像增强策略,获取每一样本图像相应的第一增强图像;
对第一增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第一投影特征;
根据第一投影特征进行特征预测,得到每一样本图像的第一特征向量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于第二编码器的图像增强策略,获取每一样本图像相应的第二增强图像;
对第二增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第二投影特征;
根据第二投影特征,在键队列中查找每一样本图像对应的第二特征向量,键队列用于存储每一批次样本图像的特征样本的键。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据每一样本图像的第一特征向量和第二特征向量,计算自蒸馏损失值;
根据每一样本图像的自蒸馏损失值,对第一编码器和得到第二编码器的网络参数进行更新。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算自蒸馏损失值相对于第一编码器的当前网络参数的梯度;
将梯度对第一编码器和第二编码器的网络参数进行更新,更新方式包括梯度回传更新和动量更新。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据每一样本图像的初始特征图,提取相应的加权特征图,加权特征图用于指示特征图通道权重对初始特征图的处理;
根据每一样本图像的初始特征图和加权特征图,确定每一样本图像的预测提取特征;
根据每一样本图像的预测提取特征,调整预设特征提取模型的模型参数。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于第一编码器的图像增强策略,获取每一样本图像相应的第一增强图像;
对第一增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第一投影特征;
根据第一投影特征进行特征预测,得到每一样本图像的第一特征向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于第二编码器的图像增强策略,获取每一样本图像相应的第二增强图像;
对第二增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第二投影特征;
根据第二投影特征,在键队列中查找每一样本图像对应的第二特征向量,键队列用于存储每一批次样本图像的特征样本的键。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据每一样本图像的第一特征向量和第二特征向量,计算自蒸馏损失值;
根据每一样本图像的自蒸馏损失值,对第一编码器和得到第二编码器的网络参数进行更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算自蒸馏损失值相对于第一编码器的当前网络参数的梯度;
将梯度对第一编码器和第二编码器的网络参数进行更新,更新方式包括梯度回传更新和动量更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据每一样本图像的初始特征图,提取相应的加权特征图,加权特征图用于指示特征图通道权重对初始特征图的处理;
根据每一样本图像的初始特征图和加权特征图,确定每一样本图像的预测提取特征;
根据每一样本图像的预测提取特征,调整预设特征提取模型的模型参数。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,第一编码器和第二编码器所使用的图像增强策略不同;
根据所有样本图像的第一特征向量和第二特征向量,对第一编码器和第二编码器的网络参数进行更新;
根据更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至预设特征提取模型收敛;
基于更新后的第一编码器和第二编码器,以及收敛后的预设特征提取模型构建目标模型,将待处理图像输入至目标模型中,得到待处理图像的实际提取特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于第一编码器的图像增强策略,获取每一样本图像相应的第一增强图像;
对第一增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第一投影特征;
根据第一投影特征进行特征预测,得到每一样本图像的第一特征向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于第二编码器的图像增强策略,获取每一样本图像相应的第二增强图像;
对第二增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第二投影特征;
根据第二投影特征,在键队列中查找每一样本图像对应的第二特征向量,键队列用于存储每一批次样本图像的特征样本的键。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据每一样本图像的第一特征向量和第二特征向量,计算自蒸馏损失值;
根据每一样本图像的自蒸馏损失值,对第一编码器和得到第二编码器的网络参数进行更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算自蒸馏损失值相对于第一编码器的当前网络参数的梯度;
将梯度对第一编码器和第二编码器的网络参数进行更新,更新方式包括梯度回传更新和动量更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据每一样本图像的初始特征图,提取相应的加权特征图,加权特征图用于指示特征图通道权重对初始特征图的处理;
根据每一样本图像的初始特征图和加权特征图,确定每一样本图像的预测提取特征;
根据每一样本图像的预测提取特征,调整预设特征提取模型的模型参数。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像处理方法,其特征在于,所述方法包括:
将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,所述第一编码器和所述第二编码器所使用的图像增强策略不同;
根据所有样本图像的所述第一特征向量和所述第二特征向量,对所述第一编码器和所述第二编码器的网络参数进行更新;
根据所述更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至所述预设特征提取模型收敛;
基于所述更新后的第一编码器和第二编码器,以及所述收敛后的预设特征提取模型构建目标模型,将待处理图像输入至所述目标模型中,得到所述待处理图像的实际提取特征。
2.根据权利要求1所述的方法,其特征在于,所述将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,包括:
基于所述第一编码器的图像增强策略,获取每一样本图像相应的第一增强图像;
对所述第一增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第一投影特征;
根据所述第一投影特征进行特征预测,得到每一样本图像的第一特征向量。
3.根据权利要求1所述的方法,其特征在于,所述将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,包括:
基于所述第二编码器的图像增强策略,获取每一样本图像相应的第二增强图像;
对所述第二增强图像进行特征提取,并将提取到的特征映射到预设维度的特征空间中,得到第二投影特征;
根据所述第二投影特征,在键队列中查找每一样本图像对应的第二特征向量,所述键队列用于存储每一批次样本图像的特征样本的键。
4.根据权利要求3所述的方法,其特征在于,所述根据所有样本图像的所述第一特征向量和所述第二特征向量,对所述第一编码器和得到第二编码器的网络参数进行更新,包括:
根据每一样本图像的第一特征向量和第二特征向量,计算自蒸馏损失值;
根据每一样本图像的自蒸馏损失值,对所述第一编码器和得到第二编码器的网络参数进行更新。
5.根据权利要求4所述的方法,其特征在于,所述根据每一样本图像的自蒸馏损失值,对所述第一编码器和所述第二编码器的网络参数进行更新,包括:
计算所述自蒸馏损失值相对于所述第一编码器的当前网络参数的梯度;
将所述梯度对所述第一编码器和所述第二编码器的网络参数进行更新,所述更新方式包括梯度回传更新和动量更新。
6.根据权利要求1所述的方法,其特征在于,所述根据每一样本图像的初始特征图对预设特征提取模型进行训练,包括:
根据每一样本图像的初始特征图,提取相应的加权特征图,所述加权特征图用于指示特征图通道权重对初始特征图的处理;
根据每一样本图像的初始特征图和加权特征图,确定每一样本图像的预测提取特征;
根据每一样本图像的预测提取特征,调整所述预设特征提取模型的模型参数。
7.一种图像处理装置,其特征在于,所述装置包括:
编码模块,用于将每一样本图像输入至第一编码器中,得到每一样本图像的第一特征向量,并将每一样本图像输入至第二编码器中,得到每一样本图像的第二特征向量,所述第一编码器和所述第二编码器所使用的图像增强策略不同;
更新模块,用于根据所有样本图像的所述第一特征向量和所述第二特征向量,对所述第一编码器和所述第二编码器的网络参数进行更新;
确定模块,用于根据所述更新后的第一编码器和第二编码器,确定每一样本图像的初始特征图;
训练模块,用于根据每一样本图像的初始特征图对预设特征提取模型进行训练,直至所述预设特征提取模型收敛;
提取模块,用于基于所述更新后的第一编码器和第二编码器,以及所述收敛后的预设特征提取模型构建目标模型,将待处理图像输入至所述目标模型中,得到所述待处理图像的实际提取特征。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202410200747.5A 2024-02-23 2024-02-23 图像处理方法、装置、计算机设备和存储介质 Pending CN117788836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410200747.5A CN117788836A (zh) 2024-02-23 2024-02-23 图像处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410200747.5A CN117788836A (zh) 2024-02-23 2024-02-23 图像处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117788836A true CN117788836A (zh) 2024-03-29

Family

ID=90389316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410200747.5A Pending CN117788836A (zh) 2024-02-23 2024-02-23 图像处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117788836A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971751A (zh) * 2021-10-28 2022-01-25 北京百度网讯科技有限公司 训练特征提取模型、检测相似图像的方法和装置
WO2023071743A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 网络模型训练方法、装置和计算机可读存储介质
CN116740355A (zh) * 2023-06-15 2023-09-12 中国第一汽车股份有限公司 自动驾驶图像的分割方法、装置、设备及存储介质
WO2023207104A1 (zh) * 2022-04-26 2023-11-02 云南航天工程物探检测股份有限公司 基于自监督学习的探地雷达隧道衬砌质量检测方法
CN117237733A (zh) * 2023-09-27 2023-12-15 大连民族大学 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071743A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 网络模型训练方法、装置和计算机可读存储介质
CN113971751A (zh) * 2021-10-28 2022-01-25 北京百度网讯科技有限公司 训练特征提取模型、检测相似图像的方法和装置
WO2023207104A1 (zh) * 2022-04-26 2023-11-02 云南航天工程物探检测股份有限公司 基于自监督学习的探地雷达隧道衬砌质量检测方法
CN116740355A (zh) * 2023-06-15 2023-09-12 中国第一汽车股份有限公司 自动驾驶图像的分割方法、装置、设备及存储介质
CN117237733A (zh) * 2023-09-27 2023-12-15 大连民族大学 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KRUSHI PATEL ET AL.: "Aggregating Global Features into Local Vision Transformer", 2022 26TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 25 August 2022 (2022-08-25), pages 1141 - 1147, XP034236184, DOI: 10.1109/ICPR56361.2022.9956379 *
ZHENDA XIE ET AL.: "Self-Supervised Learning with Swin Transformers", ARXIV, 11 May 2021 (2021-05-11) *

Similar Documents

Publication Publication Date Title
Van Der Maaten Accelerating t-SNE using tree-based algorithms
CN110245683B (zh) 一种少样本目标识别的残差关系网络构建方法及应用
US20210271980A1 (en) Deterministic decoder variational autoencoder
CN115083435B (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN115222998B (zh) 一种图像分类方法
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN115238855A (zh) 基于图神经网络的时序知识图谱的补全方法及相关设备
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN116188878A (zh) 基于神经网络结构微调的图像分类方法、装置和存储介质
CN117576248B (zh) 基于姿态引导的图像生成方法和装置
Liu et al. Bilaterally normalized scale-consistent sinkhorn distance for few-shot image classification
CN116740069B (zh) 基于多尺度显著信息和双向特征融合的表面缺陷检测方法
Padala et al. Effect of input noise dimension in GANs
CN116384471A (zh) 模型剪枝方法、装置、计算机设备、存储介质和程序产品
CN117788836A (zh) 图像处理方法、装置、计算机设备和存储介质
Ramirez et al. Deep learning on 3D neural fields
CN116383441A (zh) 社群检测方法、装置、计算机设备和存储介质
Sathya et al. Adversarially Trained Variational Auto-Encoders With Maximum Mean Discrepancy based Regularization
CN114254739A (zh) 多模态电力传感器的数据处理方法、装置和计算机设备
Manisha et al. Effect of input noise dimension in gans
CN114998634B (zh) 图像处理方法、装置、计算机设备和存储介质
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质
CN117437975B (zh) 一种蛋白质结合位点预测方法、装置、终端及存储介质
CN116150462A (zh) 针对目标对象的向量构建方法、装置和计算机设备
CN117909517A (zh) 知识图谱补全方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination