CN116824151B

CN116824151B - 图像特征的识别方法、装置、电子设备及介质

Info

Publication number: CN116824151B
Application number: CN202310513085.2A
Authority: CN
Inventors: 梁孔明; 张甜; 杜若一; 马占宇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2024-04-16
Anticipated expiration: 2043-05-08
Also published as: CN116824151A

Abstract

本申请公开了一种图像特征的识别方法、装置、电子设备及介质。通过应用本申请的技术方案，可以将对图像进行首次解耦得到的初始解耦特征进行洗牌后重组拼接为新的合成特征，进而在该合成特征的基础上再次进行解耦处理，以得到一种能够移去原图像中存在的，属性和物体间可能存在的虚假相关性的重组解耦特征。从而实现根据该重组解耦特征得到图像相关识别结果的目的。避免了相关技术中出现的，模型只偏向于能够识别在训练期间可见的物体属性组合，而无法准确识别训练期间不可见的物体属性组合的问题。

Description

图像特征的识别方法、装置、电子设备及介质

技术领域

本申请中涉及图像处理技术，尤其是一种图像特征的识别方法、装置、电子设备及介质。

背景技术

由于视觉概念遵循长尾分布，大多数概念的实例很少出现在现实世界的场景中。因此，将所学知识归纳为新概念的能力对人类识别大量概念至关重要，这被认为是人类智力的标志之一。零样本组合学习(Composition Zero-Shot Learning,CZSL)的目标是模型在训练过程中通过可见组合学得了所有的属性和物体的概念，希望在测试过程中可以像人类一样识别出新的属性和物体的视觉概念组合。

其中，零样本组合学习具有很强的研究意义，它是计算机识别任务的进阶版本。与人类的认知过程相同，先通过不断认识新事物来建立概念，然后利用所学知识来认知新事物，这种泛化能力是计算机实现智能化至关重要的一步。由于数据集标签的特殊性，在这个问题中，不仅可以得到识别的准确率，还可以分别观察模型在属性和物体上的识别表现。因此零样本组合学习问题的研究可以帮助学者更深入地认识网络模型的工作原理，对属性识别和零样本识别问题的研宄都能够起到推动作用。

相关技术中，零样本组合学习是将图像特征和其中包括的属性-物体的组合特征投射到一个共同的嵌入空间中，拉近属于同一概念的特征，推远不同概念的特征。由于在这种情况下特征的学习是以组合的方式进行的，属性和物体不能相互分离，从而使得模型在训练过程中过于依赖有限的属性-物体组合。

由此可见，在视觉空间中如何准确的对图像进行属性和物体的分类，成为了本领域技术人员需要解决的问题。

发明内容

本申请实施例提供一种图像特征的识别方法、装置、电子设备及介质。从而解决相关技术中出现的，模型只偏向于能够识别在训练期间可见的物体属性组合，而无法准确识别训练期间不可见的物体属性组合的问题。

其中，根据本申请实施例的一个方面，提供的一种图像特征的识别方法，包括：

获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，得到合成特征；

对所述合成特征进行解耦处理，得到所述合成特征对应的多个重组属性特征以及多个重组物体特征；

基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果。

可选地，在基于本申请上述方法的另一个实施例中，所述获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，包括：

利用特征提取模型对待识别图像进行特征提取，得到所述待识别图像对应的图像特征；

利用解耦器对所述图像特征进行解耦处理，得到以及用于表征所述待识别图像中物体属性的初始属性特征，以及用于表征所述待识别图像中物体类别的初始物体特征。

可选地，在基于本申请上述方法的另一个实施例中，所述按照预设方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，包括：

以随机拼接方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中。

可选地，在基于本申请上述方法的另一个实施例中，所述对所述合成特征进行解耦处理，得到所述合成特征对应的多个重组属性特征以及多个重组物体特征，包括：

利用解耦器对所述合成特征进行解耦处理，得到所述重组属性特征以及所述重组物体特征。

可选地，在基于本申请上述方法的另一个实施例中，所述基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果，包括：

利用所述重组属性特征，得到所述待识别图像中物体的属性识别结果；以及，利用所述重组物体特征，得到所述待识别图像中物体的物体类别识别结果。

可选地，在基于本申请上述方法的另一个实施例中在所述对所述合成特征进行解耦处理之前，还包括：

将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，得到重建特征；

将所述重建特征进行预设处理，得到与初始图像特征的相似度大于预设阈值的样本特征；

利用所述样本特征与初始特征之间的距离损失对所述解码器进行训练，得到训练完毕的解码器。

其中，根据本申请实施例的又一个方面，提供的一种图像特征的识别装置，包括：

获取模块，被配置为获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，得到合成特征；

处理模块，被配置为对所述合成特征进行解耦处理，得到所述合成特征对应的多个重组属性特征以及多个重组物体特征；

识别模块，被配置为基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果。

根据本申请实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

显示器，用于与所述存储器执行所述可执行指令从而完成上述任一所述图像特征的识别方法的操作。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述图像特征的识别方法的操作。

本申请中，获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将多个初始属性特征与多个初始物体特征进行拼接后输入到解码器中，得到合成特征；对合成特征进行解耦处理，得到合成特征对应的多个重组属性特征以及多个重组物体特征；基于重组属性特征以及重组物体特征，得到针对待识别图像的识别结果。

通过应用本申请的技术方案，可以将对图像进行首次解耦得到的初始解耦特征进行洗牌后重组拼接为新的合成特征，进而在该合成特征的基础上再次进行解耦处理，以得到一种能够移去原图像中存在的，属性和物体间可能存在的虚假相关性的重组解耦特征。从而实现根据该重组解耦特征得到图像相关识别结果的目的。避免了相关技术中出现的，模型只偏向于能够识别在训练期间可见的物体属性组合，而无法准确识别训练期间不可见的物体属性组合的问题。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请提出的一种图像特征的识别方法示意图；

图2为本申请提出的一种图像特征的识别方法的流程图；

图3为本申请提出的一种图像特征的识别方法的系统架构图；

图4为本申请提出的电子装置的结构示意图；

图5为本申请提出的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

下面结合图1-图3来描述根据本申请示例性实施方式的用于进行图像特征的识别方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种图像特征的识别方法、装置、电子设备及介质。

图1示意性地示出了根据本申请实施方式的一种图像特征的识别方法的流程示意图。如图1所示，该方法，包括：

S101，获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将多个初始属性特征与多个初始物体特征进行拼接后输入到解码器中。

S102，对合成特征进行解耦处理，得到合成特征对应的多个重组属性特征以及多个重组物体特征。

S103，基于重组属性特征以及重组物体特征，得到针对待识别图像的识别结果。

相关技术中，由于视觉概念遵循长尾分布，大多数概念的实例很少出现在现实世界的场景中。因此，将所学知识归纳为新概念的能力对人类识别大量概念至关重要，这被认为是人类智力的标志之一。

基于此，零样本组合学习(Composition Zero-Shot Learning,CZSL)的目标是模型在训练过程中通过可见组合学得了图像中所有的属性和物体的概念，希望在测试过程中可以像人类一样识别出新的属性和物体的视觉概念组合。

进一步的，零样本组合学习具有很强的研究意义，它是计算机识别任务的进阶版本。与人类的认知过程相同，先通过不断认识新事物来建立概念，然后利用所学知识来认知新事物，这种泛化能力是计算机实现智能化至关重要的一步。

可以理解的，由于数据集标签不仅可以提高识别的准确率，还可以分别观察模型在对图像的属性和物体上的识别表现。因此零样本组合学习问题的研究可以帮助用户更深入地认识网络模型的工作原理，对属性识别和零样本识别问题的研究都能够起到推动作用。

相关技术中，以往的图像识别工作主要是将对图像进行识别而得到的图像特征，以及，图像特征中包含的属性-物体的组合文本特征投射到一个共同的嵌入空间中，并拉近属于同一概念的特征，推远不同概念的特征。由于在这种情况下特征的学习是以组合的方式进行的，属性和物体不能相互分离，从而使得模型在训练过程中过于依赖属性-物体的组合特征。

例如，当图像检测模型在训练时如果只看到红苹果，那么在后续的推理期间，图像检测模型可能很容易将红番茄误认为红苹果。这是因为分类器倾向于将红色与苹果“虚假”地联系起来(也即模型会认为红色特征与苹果特征之间存在关联)。

除此之外，以往的工作试图通过预训练的词嵌入来丰富标签的语义知识，然而，很少有工作对视觉特征的泛化能力进行研究。由于视觉特征提取网络是在ImageNet上以物体识别为目的进行预训练，因此视觉特征的分布更多地依赖于物体而不是属性。

基于上述问题，本申请提出一种图像特征的识别方法，其思想为将对图像进行首次解耦得到的初始解耦特征进行洗牌后重组拼接为新的合成特征，进而在该合成特征的基础上再次进行解耦处理，以得到一种能够移去原图像中存在的，属性和物体间可能存在的虚假相关性的重组解耦特征。从而实现根据该重组解耦特征得到图像相关识别结果的目的。

进一步的，本申请在此结合图2对方案进行具体说明：

步骤1、利用特征提取模型对待识别图像进行特征提取，得到待识别图像对应的图像特征。

一种方式中，如图3所示，本申请实施例可以构建一个以x^a,o，作为输入的模型，其中，/>表示不同的属性特征，/>表示不同的物体特征。

一种方式中，模型的输入组合可以表示为两种分类任务(即属性分类以及物体分类)可以表示为/>

进一步的，本申请实施例通过一个训练完毕的特征提取模型f(·)中提取待识别图像的图像特征，并将其输入到视觉编码器□(·)，以得到编码后的图像特征

步骤2、利用解耦器对图像特征进行解耦处理，得到用于表征待识别图像中物体属性的初始属性特征，以及用于表征待识别图像中物体类别的初始物体特征。之后进入步骤3a以及步骤3b。

一种方式中，本申请在得到待识别图像对应的图像特征之后，即可将该图像特征输入至模型中的两个单独的全连接层(即解耦器)中，从而得到解耦后的特征/>

其中，解耦后的特征包含两个，一个为用于表征待识别图像中物体属性的初始属性特征。另一个为用于表征待识别图像中物体类别的初始物体特征。

步骤3a、将多个初始属性特征与多个初始物体特征进行拼接后输入到解码器中，得到重建特征。

另一种情况中，本申请可以利用两个解耦后的初始特征实现模型训练的目的。具体的，本申请实施例可以将得到的多个初始属性特征和初始物体特征输入到模型中的解码器d(·)中以将其重建拼接。起来，从而生成重建后的重建特征

步骤4a、将重建特征进行预设处理，得到与初始图像特征的相似度大于预设阈值的样本特征。

步骤5a、利用样本特征与初始特征之间的距离损失对解码器进行训练，得到训练完毕的解码器。

进一步的，本申请实施例还可以拉近该重建特征和图像原始识别得到的图像特征，直至二者的相似度高于预设阈值，从而达到最终输出的组合特征近似于输入组合特征的目的，即并以此利用样本特征与初始特征之间的距离损失对解码器进行训练，得到训练完毕的解码器。

步骤3b、以随机拼接方式，将多个初始属性特征与多个初始物体特征进行拼接后输入到解码器中，得到合成特征。

一种情况中，本申请可以利用两个解耦后的初始特征实现图像识别的目的。即首先以随机打乱等方式将初始属性特征与初始物体特征进行打乱，进而再将打乱的属性特征和物体特征进行拼接并输入到模型中的解码器以进行拼接重建，进而得到一个全新的合成特征

一种方式中，该全新的合成特征与原始图像特征的组合方式可以相同也可以不相同。可以理解的，如果不相同的话，便可以达到消除初始特征之间(即初始属性特征与初始物体特征之间)可能存在的关联关系。进而也就避免了图像检测网络仍然就二者的识别关系作出相关联的错误判断的问题。

步骤4b、利用解耦器对合成特征进行解耦处理，得到重组属性特征以及重组物体特征。

进一步的，本申请实施例在得到该全新的合成特征之后，即可重新基于该合成特征进行解耦处理，以得到与之对应的重组属性特征以及重组物体特征。并在后续基于该重组特征，实现图像中属性和物体的识别：

可以理解的，该重组属性特征与重组物体特征之间由于已经经历过打乱处理，因此二者之间不存在相互的关联关系。进而保证了多个解耦特征之间的可组合性和解耦过程的可逆性，也即允许将模型解耦的特征语义因子的变化准确地转换回原始表示。

步骤5b、利用重组属性特征以及重组物体特征，得到待识别图像中物体的属性识别结果以及物体类别识别结果。

可以理解的，由于本申请新合成的组合特征包含的属性特征和物体特征大概率为来自于不同的待识别图像，因此不仅可以提高特征级的样本多样性，还可以防止模型过度偏向可见组合。最终进一步地帮助和鼓励属性和物体的解耦，提高模型在不可见组合中的识别性能。

本申请中，获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将多个初始属性特征与多个初始物体特征进行拼接，得到合成特征；对合成特征进行解耦处理，得到合成特征对应的多个重组属性特征以及多个重组物体特征；基于重组属性特征以及重组物体特征，得到针对待识别图像的识别结果。

如上所述，本申请公开了一种基于“编码-洗牌-解码”过程来实现图像特征的识别方法。具体的，可以利用子空间中解耦的图像特征对原始数据进行重建，避免了解耦过程中可能存在的信息丢失。然后对解耦出来的属性特征和物体特征进行洗牌，重新组合为合成特征。可以理解的，由于用于随机重组的属性和物体来自彼此之间几乎没有相关性的不同图像，这有助于模型不受虚假相关性的识别困扰。具体包括：

A1.特征解耦步骤：将图像特征解耦为初始属性特征和初始物体特征；

A2.特征重建步骤：将解耦的初始属性特征和初始物体特征进行拼接，输入解码器重建得到新的重建特征，保证解耦特征尽可能多的包含原始信息，以进行解码器的训练；

A3.随机重组步骤：对解耦的初始属性特征和初始物体特征分别洗牌，重组拼接得到新的合成特征，并对该合成特征重新解耦并以此为基础进行属性和物体的识别。

可选的，在本申请的另外一种实施方式中，如图4所示，本申请还提供一种图像特征的识别装置。包括：

获取模块201，被配置为获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，得到合成特征；

处理模块202，被配置为对所述合成特征进行解耦处理，得到所述合成特征对应的多个重组属性特征以及多个重组物体特征；

识别模块203，被配置为基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果。

在本申请的另外一种实施方式中，处理模块202，被配置为：

利用特征提取模型对所述待识别图像进行特征提取，得到所述待识别图像对应的图像特征；

在本申请的另外一种实施方式中，处理模块202，被配置为：

图5是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如，电子设备300可以是电子设备。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备处理器执行以完成上述图像特征的识别方法，该方法包括：获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，得到合成特征；对所述合成特征进行解耦处理，得到所述合成特征对应的多个重组属性特征以及多个重组物体特征；基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果。

可选地，上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述图像特征的识别方法，该方法包括：获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，并按照预设方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，得到合成特征；对所述合成特征进行解耦处理，得到所述合成特征对应的多个重组属性特征以及多个重组物体特征；基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果。

可选地，上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。

图5为电子设备300的示例图。本领域技术人员可以理解，示意图5仅仅是电子设备300的示例，并不构成对电子设备300的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备300还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，处理器302是电子设备300的控制中心，利用各种接口和线路连接整个电子设备300的各个部分。

存储器301可用于存储计算机可读指令303，处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现电子设备300的各种功能。存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备300的使用所创建的数据等。此外，存储器301可以包括硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)或其他非易失性/易失性存储器件。

电子设备300集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像特征的识别方法，其特征在于，包括：

基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果；

其中，所述按照预设方式，将所述多个初始属性特征与所述多个初始物体特征进行拼接后输入到解码器中，包括：

2.如权利要求1所述的方法，其特征在于，所述获取多个待识别图像对应的多个初始属性特征以及多个初始物体特征，包括：

3.如权利要求1所述的方法，其特征在于，所述对所述合成特征进行解耦处理，得到所述合成特征对应的多个重组属性特征以及多个重组物体特征，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果，包括：

5.如权利要求1所述的方法，其特征在于，在所述对所述合成特征进行解耦处理之前，还包括：

6.一种图像特征的识别装置，其特征在于，包括：

识别模块，被配置为基于所述重组属性特征以及所述重组物体特征，得到针对所述待识别图像的识别结果；

7.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及，

处理器，用于与所述存储器执行所述可执行指令从而完成权利要求1-5中任一所述图像特征的识别方法的操作。

8.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-5中任一所述图像特征的识别方法的操作。