CN114627348A

CN114627348A - 多主体任务中基于意图的图片识别方法

Info

Publication number: CN114627348A
Application number: CN202210287089.9A
Authority: CN
Inventors: 王其聪; 陈小强; 施华; 秦启峰
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-14
Anticipated expiration: 2042-03-22
Also published as: CN114627348B

Abstract

多主体任务中基于意图的图片识别方法，涉及计算机视觉技术。准备多个经典的图片数据集；利用图片数据集合成多主体图片数据集；提出在不同监督信号下，如何提高目标主体图片的识别问题，将ResNet50模型作为提取特征的基本网络模型；设计在无监督情况下，基于多样性上下文相似性的网络架构；设计在完全监督情况下，基于经典分类器的网络架构；根据数据是否有监督信号，利用反向传播算法对网络进行学习，获得意图信息，即模型拥有某一主体的特征提取能力；在不同监督信号的情况下，利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估。有效缓解非目标主体对多主体任务中目标图片识别的干扰。

Description

多主体任务中基于意图的图片识别方法

技术领域

本发明涉及计算机视觉技术，具体是涉及一种多主体任务中基于意图的图片识别方法。

背景技术

提供大量的无标签的图片，利用所提出的方法提取每张图片的特征，令这些特征具有同类相聚，异类相吸的特性，这是无监督特征学习的主要任务。在无监督的情况下，提取样本的鲁棒性特征使得同类样本的特征显著且具有区分性。在传统图片分类任务中，依据图片主体进行分类。图片往往是纯净的且只有一个主体，如图1中的图(a)和图(b)。研究者们可利用强大的特征提取网络提取图中单一主体的鲁棒性特征进行分类并且能够获得很好的性能。但现实中更多的是多主体场景，比如单张图片中具有2个主体，如图1中的图(c)，图片中同时有数字和动物2个主体。在无监督的情况下，网络无法分辨哪个主体才是任务相关。当需要没有标签的图片集按照图片左上角的数字主体进行分类的情况下，图片中除了数字主体的其他主体的表达能力应该被抑制。反之，当需要图片集按照图片中的动物主体进行分类的时候，左上角的数字主体应该被抑制表达。因此，在有不同监督情况下的单体训练数据集的前提下，如何在图片中存在多个主体时，模型仍能获得目标主体的鲁棒性特征这是一个问题。

发明内容

本发明目的在于针对多主体图片中存在的上述技术问题，提供有效缓解非目标主体对多主体任务中目标图片识别干扰的一种多主体任务中基于意图的图片识别方法。

本发明包括以下步骤：

1)准备多个经典的图片数据集；

2)利用图片数据集合成多主体图片数据集；

3)提出在不同监督信号下，如何提高目标主体图片的识别问题，将ResNet50模型作为提取特征的基本网络模型；

4)设计在无监督情况下，基于多样性上下文相似性的网络架构；

5)设计在完全监督情况下，基于经典分类器的网络架构；

6)根据数据是否有监督信号，利用反向传播算法对网络进行学习，获得意图信息，即模型拥有某一主体的特征提取能力；

7)在不同监督信号的情况下，利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估。

在步骤1)中，所述多个经典的图片数据集可包括MNIST数据集、CIFAR10/100数据集等；所述MNIST数据集是包含10个数字类别的60000/10000个训练/测试图像的手写数字数据集，MNIST数据集由70000个手写数字组成，大小为28×28像素，数字居中且图像尺寸标准化；所述CIFAR10/100数据集是一个自然图像数据集，包含来自10(/100)个对象类别的50000/10000训练/测试图像。

在步骤2)中，所述利用图片数据集合成多主体图片数据集，包括MC10/100和CM10/100数据集，其具体步骤如下：

(1)将以CIFAR10数据集为底，加入MNIST数据集中的数字主体并且以CIFAR10类别为目标标签的数据集称为CM10；将以CIFAR10为底，加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC10；将以CIFAR100为底，加入MNIST数据集中的数字主体并且以CIFAR100类别为目标标签的数据集称为CM100；将以CIFAR10为底，加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC100；

(2)利用MNIST数据集和CIFAR10/100制作具有双重语义的图片数据集，具体操作如下：

首先将MNIST灰度图转换为RGB图像，并且将CIFAR系列的图片像素设置为模型的默认的尺度；然后以CIFAR10/100为底，将MNIST的图片大小按比例放缩，合成7种比例的图片数据，每一种比例都有4种不同的具有多个主体的数据集；最后将MNIST图片叠加在CIFAR图片的左上角作为另一个主体存在；为不遮挡到CIFAR的主体，MNIST图片是半透明的，生成2种双重语义的图片，分别是基于MNIST数据集和CIFAR10生成的MC10数据集，基于MNIST数据集和CIFAR100生成的MC100数据集。

在步骤3)中，所述提高目标主体图片的识别问题，要考虑对于具有不同监督信号的数据集对模型的影响。

在步骤4)中，所述设计在无监督情况下，基于多样性上下文相似性的网络架构的具体步骤可为：对于无标签的训练集，采用的是无监督方式的分支进行训练学习；首先利用卷积神经网络做为特征提取的网络，将图片样本映射成2048维的特征向量F；

选用较为广泛使用的Resnet-50网络结构作为特征提取网络；该网络结构不仅有强大的特征提取能力，并且能够缓解网络退化的问题；BN()指的是归一化层，将特征网络输出的特征进行批量归一化，使得各个样本数值能够处于同一分布空间；再利用基于多样性上下文相似性度量方法的思路，将特征网络和并类过程交互进行优化特征；

L_w＝function(F)

其中，L_w代表伪标签，function()在训练过程中生成伪标签是多个阶段性的，分别是将每个样本设置为一类生成伪标签阶段，利用聚类算法进一步生成伪标签阶段和利用基于相似性的距离进行并类重新生成伪标签阶段这三个阶段进行优化伪标签；在这期间中每个生成伪标签的阶段都伴随着特征网络的更新，进而挖掘标签指导网络学习的潜力。

在步骤5)中，所述设计在完全监督情况下，基于经典分类器的网络架构的具体步骤：

对于有标签的训练集，采用带监督信号方式的分支进行训练学习，利用卷积神经网络提取特征之后，再经过一个常用的分类器：

F_final＝FC₂(FC₁(F))

当以CIFAR10数据集或MNIST数据集的类别为目标主体时，FC₁，FC₂分别代表1024个神经元和10个神经元的全连接层，分类器输出10维的特征F_final进行分类；当以CIFAR100的类别为目标主体时，FC₂的全连接层为100个神经元，最后输出的是100维特征进行分类；

采用常规交叉熵损失函数进行模型的训练优化：

其中，f_final代表单个样本最后生成的特征。label代表该样本的真实标签。C代表类别数；该分支的加入使得模型能够利用标签信息来更好的优化特征网络，进而提升模型的性能。

在步骤6)中，所述根据数据是否有监督信号，利用反向传播算法对网络进行学习，获得意图信息，即模型拥有某一主体的特征提取能力的具体办法可为：由于模型适应于不同标签情况下的训练集，模型在无监督和有监督情况下的相同之处在于每次输入网络的样本数为64张；设置模型的训练动量为0.9，设置权重衰减为5e-4；在有监督的分支的初始学习率为0.01并且迭代次数皆为20；在无监督分支，在初始化模型时学习率为0.1，在后续迭代中为0.01；在初始化模型时迭代次数为20次，后续为5次；无监督过程中初始化对模型参数的调整幅度较大，而后续并类过程中微调模型即可；MNIST数据集原图片尺度为28×28，并且为单通道的图片，在训练或测试的过程中，将其放大至224×224的尺度，并且利用多次复制的手段，将其扩展到3通道的图片，使其能够适应网络的训练及测试。

在步骤7)中，所述在不同监督信号的情况下，利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估的具体办法：在无监督情况下，一方面需要根据伪标签和真实标签计算其聚类情况下的识别准确率进行评估；具体而言，对于真实标签和伪标签对应问题，利用基于类别数量与真实标签相等的k-means方法对已学习的特征进行生成伪标签并根据匈牙利算法找到最佳匹配，从而得出伪标签及真实标签的对应情况，进而得出无监督情况下的识别准确率；另一方面，利用归一化信息(NMI)作为评测指标进一步分析，其能够利用信息熵的概念评价多个类别图片识别的聚类质量；这两种评价方法都需要样本的真实标签参与评价。

在有监督情况下，利用分类中常用的准确率进行评判，即分类正确的样本数量除以所有样本的数量，以及利用具体每个类别的情况的混淆矩阵进一步分析；由于无监督情况下和有监督情况下准确率的计算方式不同，所以为区别无监督和有监督情况下的准确率，分别将其称为聚类识别准确率和分类识别准确率。

由于图片的内容复杂，并且图片中多个语义对象(主体)的存在可能会迷惑网络的训练方向，导致特征丧失可区分性及识别性能下降。本发明利用多个经典的图片数据集进行合成多主体数据集并提出如何在不同的监督信号的情况下识别目标主体图片的问题，并且提出基于多样性上下文相似性度量方法的意图模型作为该问题的基本性能标准。在多个多主体数据集及经典图片数据集上，实验证明在不同监督信号下，意图信息都有利于目标主体的识别。并且监督信号能使得意图更加强烈的表达。此外，图片中目标主体的占比也会影响性能表现。

与现有技术相比，本发明具有以下突出的优点：

本发明首先提出了在不同监督情况下，多主体图片如何提取目标的问题，利用MNIST和CIFAR10/100数据集重新生成了多种具有复杂语义的数据集，进而为该问题提供数据支持。并且为该问题提供了一个基于多样性上下文相似性度量方法的意图模型及多种评测方案。再者利用无监督的特征生成方法和常规的分类器方法提出一种基于多样性上下文相似性度量方法的意图模型进行缓解所提出的多主体任务中目标图片识别的问题。以及采用多种评测指标进行分析与评价模型的性能。实验证明在多主体的图片分类任务中意图的存在能够起到正向作用。最后，将意图的训练分为有监督与无监督形式，利用实验证明有监督信号的训练能够帮助意图更好的表达。本发明有效缓解非目标主体对多主体任务中目标图片识别的干扰。

附图说明

图1为图片分类任务的原理图。(a)数字主体所期望的识别效果。(b)物体或动物主体所期望的识别效果。(c)问题的提出，即期望依据哪一种主体进行识别图片。

图2为本发明实施例的框架图。从左到右，依次是四种类型数据的输入，特征提取网络，两种不同的方案去适应标签的情况。两种方法分别是(a)代表无监督情况下的特征学习。(b)有监督信号指导下的特征学习。

图3为本发明中所提出的数据集。其中各主体面积占比不同的图片。

具体实施方式

为使本发明的上述目的、特征和优点能够更明显易懂，以下结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

本发明利用多个经典的图片分类数据集合成具有多主体数据集(MC10/100和CM100)作为该问题的实验的数据来源。并且基于神经网络模型的可学习性，提出一种基于多样性上下文相似性度量方法的意图模型，并且将该网络作为该问题的一种基本性能标准。其中意图指的是网络已经具备某一单一主体的特征提取的能力。具体而言，利用单一主体(数字/动物)的训练集进行训练模型，该过程可以是无监督或者有监督的。主要是为了训练模型表达意图的能力，即提取目标特征的能力。所提出的基准模型能够在有标签的数据集中借助常规的全连接层分类器进行有监督的训练，也能够在无监督信号的数据集中借助基于相似性的并类网络进行训练。最后，利用不同监督情况下的多种评测指标进行分析与评价。

参见图2，本发明实施例的实施方式包括以下步骤：

1.准备多个经典的图片数据集：MNIST数据集和CIFAR10/100数据集。

2.利用图片数据集合成多主体图片数据集(MC10/100和CM10/100数据集)。将以CIFAR10数据集为底，加入MNIST数据集中的数字主体并且以CIFAR10类别为目标标签的数据集称为CM10。将以CIFAR10为底，加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC10。将以CIFAR100为底，加入MNIST数据集中的数字主体并且以CIFAR100类别为目标标签的数据集称为CM100。将以CIFAR10为底，加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC100。

利用MNIST数据集和CIFAR10/100制作具有双重语义的图片数据集的具体操作：

首先将MNIST灰度图转换为RGB图像，并且将CIFAR系列的图片像素设置为模型的默认的尺度224×224。

再者，以CIFAR10/100(尺寸为224×224)为底，将MNIST的图片大小(原图尺寸为28×28)按一定的比例放缩。具体比例为0︰1，1︰64，1︰16，1︰4，1︰2，9︰16，1︰1。在此过程中，合成7种比例的图片数据，每一种比例都有4种不同的具有多个主体的数据集。如图3所示。

最后将MNIST图片叠加在CIFAR图片的左上角作为另一个主体存在。值得注意的是为了不遮挡到CIFAR的主体，MNIST图片是半透明的。生成了2种双重语义的图片，分别是基于MNIST数据集和CIFAR10生成的MC10数据集，基于MNIST数据集和CIFAR100生成的MC100数据集。

3.提出在不同监督信号下，如何提高目标主体图片的识别问题和将ResNet50模型作为提取特征的基本网络模型。所述提出在不同监督信号下，如何提高目标主体图片的识别问题和将ResNet50模型作为提取特征的基本网络模型的方法。在实际情况中，图片的监督信号情况是不确定的，需要考虑对于具有不同监督信号的数据集对模型的影响。目前大多数研究人员基于ResNet50模型进行特征提取或者在该模型的基础上进行改造。所以选取了该模型作为所提出模型的基础网络。

4.设计在无监督情况下，基于多样性上下文相似性的网络架构。所述设计在无监督情况下，基于多样性上下文相似性的网络架构具体步骤如下：

对于无标签的训练集，采用的是无监督方式的分支进行训练学习如图2中图a所示。首先利用卷积神经网络做为特征提取的网络，将图片样本映射成2048维的特征向量F。

F＝BN(CNN(X)) (1)

其中X是经过归一化后的彩色图片。CNN()则是利用卷积神经网络作为特征提取网络，选用较为广泛使用的Resnet-50网络结构作为特征提取网络。该网络结构不仅有强大的特征提取能力，并且能够缓解网络退化的问题。BN()指的是归一化层，将特征网络输出的特征进行批量归一化，使得各个样本数值能够处于同一分布空间。再者利用基于多样性上下文相似性度量方法的思路，将特征网络和并类过程交互进行优化特征。

L_w＝function(F) (2)

L_w代表伪标签。function()在训练过程中生成伪标签是多个阶段性的，分别是将每个样本设置为一类生成伪标签阶段，利用聚类算法进一步生成伪标签阶段和利用基于相似性的距离进行并类重新生成伪标签阶段这三个阶段进行优化伪标签。在这期间中每个生成伪标签的阶段都伴随着特征网络的更新，进而挖掘标签指导网络学习的潜力。

5.设计在完全监督情况下，基于经典分类器的网络架构。所述设计在完全监督情况下，基于经典分类器的网络架构具体步骤如下：

对于有标签的训练集，采用的是带监督信号方式的分支进行训练学习如图2中图b所示。首先利用卷积神经网络提取特征之后，再经过一个常用的分类器：

F_final＝FC₂(FC₁(F)) (3)

其中，FC₁，FC₂分别代表1024个神经元和10个神经元的全连接层，分类器输出10维的特征F_final进行分类，这是在以CIFAR10数据集或MNIST数据集的类别为目标主体的时候。而当以CIFAR100的类别为目标主体的时候，FC₂的全连接层为100个神经元，最后输出的是100维特征进行分类。关于损失函数，采用的是常规的交叉熵损失函数进行模型的训练优化：

其中，f_final代表单个样本最后生成的特征。label代表该样本的真实标签。C代表类别数。该分支的加入使得模型能够利用标签信息来更好的优化特征网络，进而提升模型的性能。

6.根据数据是否有监督信号，利用反向传播算法对网络进行学习，获得意图信息，即模型已拥有某一主体的特征提取能力；

7.在不同监督信号的情况下，利用已生成的多个多主体数据集和已获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估；

表1～2是MNIST与CIFAR图片占比为1:2在不同情况下的识别准确率与NMI指标(无监督情况下)。

表1

表2

表3

	CM10	MC10	CM100	MC100	单体测试集
						在CIFAR10上训练	59.8％	14.0％	7.8％	15.7％	89.4％
在CIFAR100上训练	25.7％	17.5％	23.6％	17.4％	63.6％
						在MNIST上训练	13.0％	45.4％	4.5％	46.6％	98.7％
随机化参数	1.8％	11.7％	6.7％	11.9％	无

表4

	CM10	MC10	CM100	MC100	单体测试集
						在CIFAR10上训练	29.7％	0.7％	1.7％	1.2％	78.0％
在CIFAR100上训练	7.6％	2.4％	7.1％	2.4％	35.8％
						在MNIST上训练	0.3％	23.0％	0.2％	23.0％	97.2％
随机化参数	2.3％	约为0	1.1％	约为0	无

表3～4是MNIST与CIFAR图片占比为1︰2在不同情况下的识别准确率与NMI指标(有监督情况下)。本发明利用CIFAR10/100与MNIST数据集合成四种多主体的数据集(MC10/100，CM10/100)，提出一种基于多样性上下文相似性度量方法的意图模型来进行学习目标图片相关的特征表达，其能够根据事先预定的目标语义分布(人、背景和数字等)指导网络的学习方向，缓解其他主体的干扰或噪音干扰问题。不仅适用于无监督情况下的特征学习，也适用于有监督信号下的图片识别。将所提出的网络作为该多主体图片识别任务的一种基准指标，并利用多种评测指标评价与分析。通过实验证明基于意图的网络结构能有效缓解多主体图片识别问题，且证明有监督信息下的意图训练能够更好的表达意图，并且提高模型的性能。通过实验分析可知，方法减小其他无关主体对于目标主体的干扰，且在多个多主体图片数据集上都取得较好识别性能。

Claims

1.多主体任务中基于意图的图片识别方法，其特征在于包括以下步骤：

1)准备多个经典的图片数据集；

2)利用图片数据集合成多主体图片数据集；

5)设计在完全监督情况下，基于经典分类器的网络架构；

2.如权利要求1所述多主体任务中基于意图的图片识别方法，其特征在于在步骤1)中，所述多个经典的图片数据集可包括MNIST数据集、CIFAR10/100数据集；所述MNIST数据集是包含10个数字类别的60000/10000个训练/测试图像的手写数字数据集，MNIST数据集由70000个手写数字组成，大小为28×28像素，数字居中且图像尺寸标准化；所述CIFAR10/100数据集是一个自然图像数据集，包含来自10/100个对象类别的50000/10000训练/测试图像。

3.如权利要求1所述多主体任务中基于意图的图片识别方法，其特征在于在步骤2)中，所述利用图片数据集合成多主体图片数据集，包括MC10/100和CM10/100数据集，其具体步骤如下：

4.如权利要求1所述多主体任务中基于意图的图片识别方法，其特征在于在步骤3)中，所述提高目标主体图片的识别问题，要考虑对于具有不同监督信号的数据集对模型的影响。

5.如权利要求1所述多主体任务中基于意图的图片识别方法，其特征在于在步骤4)中，所述设计在无监督情况下，基于多样性上下文相似性的网络架构的具体步骤如下：

对于无标签的训练集，采用的是无监督方式的分支进行训练学习；首先利用卷积神经网络做为特征提取的网络，将图片样本映射成2048维的特征向量F；

L_w＝function(F)

6.如权利要求1所述多主体任务中基于意图的图片识别方法，其特征在于在步骤5)中，所述设计在完全监督情况下，基于经典分类器的网络架构的具体步骤如下：

F_final＝FC₂(FC₁(F))

采用常规交叉熵损失函数进行模型的训练优化：

其中，f_final代表单个样本最后生成的特征；label代表该样本的真实标签；C代表类别数；该分支的加入使得模型能够利用标签信息来更好的优化特征网络，进而提升模型的性能。

7.如权利要求1所述多主体任务中基于意图的图片识别方法，其特征在于在步骤6)中，所述根据数据是否有监督信号，利用反向传播算法对网络进行学习，获得意图信息，即模型拥有某一主体的特征提取能力的具体办法可为：由于模型适应于不同标签情况下的训练集，模型在无监督和有监督情况下的相同之处在于每次输入网络的样本数为64张；设置模型的训练动量为0.9，设置权重衰减为5e-4；在有监督的分支的初始学习率为0.01并且迭代次数皆为20；在无监督分支，在初始化模型时学习率为0.1，在后续迭代中为0.01；在初始化模型时迭代次数为20次，后续为5次；无监督过程中初始化对模型参数的调整幅度较大，而后续并类过程中微调模型即可；MNIST数据集原图片尺度为28×28，并且为单通道的图片，在训练或测试的过程中，将其放大至224×224的尺度，并且利用多次复制的手段，将其扩展到3通道的图片，使其能够适应网络的训练及测试。

8.如权利要求1所述多主体任务中基于意图的图片识别方法，其特征在于在步骤7)中，所述在不同监督信号的情况下，利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估的具体办法：在无监督情况下，一方面需要根据伪标签和真实标签计算其聚类情况下的识别准确率进行评估；对于真实标签和伪标签对应问题，利用基于类别数量与真实标签相等的k-means方法对已学习的特征进行生成伪标签并根据匈牙利算法找到最佳匹配，从而得出伪标签及真实标签的对应情况，进而得出无监督情况下的识别准确率；另一方面，利用归一化信息作为评测指标进一步分析，其能够利用信息熵的概念评价多个类别图片识别的聚类质量；这两种评价方法都需要样本的真实标签参与评价；