CN114627348A - 多主体任务中基于意图的图片识别方法 - Google Patents
多主体任务中基于意图的图片识别方法 Download PDFInfo
- Publication number
- CN114627348A CN114627348A CN202210287089.9A CN202210287089A CN114627348A CN 114627348 A CN114627348 A CN 114627348A CN 202210287089 A CN202210287089 A CN 202210287089A CN 114627348 A CN114627348 A CN 114627348A
- Authority
- CN
- China
- Prior art keywords
- picture
- network
- model
- mnist
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000000691 measurement method Methods 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008685 targeting Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008929 regeneration Effects 0.000 claims description 3
- 238000011069 regeneration method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000178 monomer Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
多主体任务中基于意图的图片识别方法,涉及计算机视觉技术。准备多个经典的图片数据集;利用图片数据集合成多主体图片数据集;提出在不同监督信号下,如何提高目标主体图片的识别问题,将ResNet50模型作为提取特征的基本网络模型;设计在无监督情况下,基于多样性上下文相似性的网络架构;设计在完全监督情况下,基于经典分类器的网络架构;根据数据是否有监督信号,利用反向传播算法对网络进行学习,获得意图信息,即模型拥有某一主体的特征提取能力;在不同监督信号的情况下,利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估。有效缓解非目标主体对多主体任务中目标图片识别的干扰。
Description
技术领域
本发明涉及计算机视觉技术,具体是涉及一种多主体任务中基于意图的图片识别方法。
背景技术
提供大量的无标签的图片,利用所提出的方法提取每张图片的特征,令这些特征具有同类相聚,异类相吸的特性,这是无监督特征学习的主要任务。在无监督的情况下,提取样本的鲁棒性特征使得同类样本的特征显著且具有区分性。在传统图片分类任务中,依据图片主体进行分类。图片往往是纯净的且只有一个主体,如图1中的图(a)和图(b)。研究者们可利用强大的特征提取网络提取图中单一主体的鲁棒性特征进行分类并且能够获得很好的性能。但现实中更多的是多主体场景,比如单张图片中具有2个主体,如图1中的图(c),图片中同时有数字和动物2个主体。在无监督的情况下,网络无法分辨哪个主体才是任务相关。当需要没有标签的图片集按照图片左上角的数字主体进行分类的情况下,图片中除了数字主体的其他主体的表达能力应该被抑制。反之,当需要图片集按照图片中的动物主体进行分类的时候,左上角的数字主体应该被抑制表达。因此,在有不同监督情况下的单体训练数据集的前提下,如何在图片中存在多个主体时,模型仍能获得目标主体的鲁棒性特征这是一个问题。
发明内容
本发明目的在于针对多主体图片中存在的上述技术问题,提供有效缓解非目标主体对多主体任务中目标图片识别干扰的一种多主体任务中基于意图的图片识别方法。
本发明包括以下步骤:
1)准备多个经典的图片数据集;
2)利用图片数据集合成多主体图片数据集;
3)提出在不同监督信号下,如何提高目标主体图片的识别问题,将ResNet50模型作为提取特征的基本网络模型;
4)设计在无监督情况下,基于多样性上下文相似性的网络架构;
5)设计在完全监督情况下,基于经典分类器的网络架构;
6)根据数据是否有监督信号,利用反向传播算法对网络进行学习,获得意图信息,即模型拥有某一主体的特征提取能力;
7)在不同监督信号的情况下,利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估。
在步骤1)中,所述多个经典的图片数据集可包括MNIST数据集、CIFAR10/100数据集等;所述MNIST数据集是包含10个数字类别的60000/10000个训练/测试图像的手写数字数据集,MNIST数据集由70000个手写数字组成,大小为28×28像素,数字居中且图像尺寸标准化;所述CIFAR10/100数据集是一个自然图像数据集,包含来自10(/100)个对象类别的50000/10000训练/测试图像。
在步骤2)中,所述利用图片数据集合成多主体图片数据集,包括MC10/100和CM10/100数据集,其具体步骤如下:
(1)将以CIFAR10数据集为底,加入MNIST数据集中的数字主体并且以CIFAR10类别为目标标签的数据集称为CM10;将以CIFAR10为底,加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC10;将以CIFAR100为底,加入MNIST数据集中的数字主体并且以CIFAR100类别为目标标签的数据集称为CM100;将以CIFAR10为底,加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC100;
(2)利用MNIST数据集和CIFAR10/100制作具有双重语义的图片数据集,具体操作如下:
首先将MNIST灰度图转换为RGB图像,并且将CIFAR系列的图片像素设置为模型的默认的尺度;然后以CIFAR10/100为底,将MNIST的图片大小按比例放缩,合成7种比例的图片数据,每一种比例都有4种不同的具有多个主体的数据集;最后将MNIST图片叠加在CIFAR图片的左上角作为另一个主体存在;为不遮挡到CIFAR的主体,MNIST图片是半透明的,生成2种双重语义的图片,分别是基于MNIST数据集和CIFAR10生成的MC10数据集,基于MNIST数据集和CIFAR100生成的MC100数据集。
在步骤3)中,所述提高目标主体图片的识别问题,要考虑对于具有不同监督信号的数据集对模型的影响。
在步骤4)中,所述设计在无监督情况下,基于多样性上下文相似性的网络架构的具体步骤可为:对于无标签的训练集,采用的是无监督方式的分支进行训练学习;首先利用卷积神经网络做为特征提取的网络,将图片样本映射成2048维的特征向量F;
选用较为广泛使用的Resnet-50网络结构作为特征提取网络;该网络结构不仅有强大的特征提取能力,并且能够缓解网络退化的问题;BN()指的是归一化层,将特征网络输出的特征进行批量归一化,使得各个样本数值能够处于同一分布空间;再利用基于多样性上下文相似性度量方法的思路,将特征网络和并类过程交互进行优化特征;
Lw=function(F)
其中,Lw代表伪标签,function()在训练过程中生成伪标签是多个阶段性的,分别是将每个样本设置为一类生成伪标签阶段,利用聚类算法进一步生成伪标签阶段和利用基于相似性的距离进行并类重新生成伪标签阶段这三个阶段进行优化伪标签;在这期间中每个生成伪标签的阶段都伴随着特征网络的更新,进而挖掘标签指导网络学习的潜力。
在步骤5)中,所述设计在完全监督情况下,基于经典分类器的网络架构的具体步骤:
对于有标签的训练集,采用带监督信号方式的分支进行训练学习,利用卷积神经网络提取特征之后,再经过一个常用的分类器:
Ffinal=FC2(FC1(F))
当以CIFAR10数据集或MNIST数据集的类别为目标主体时,FC1,FC2分别代表1024个神经元和10个神经元的全连接层,分类器输出10维的特征Ffinal进行分类;当以CIFAR100的类别为目标主体时,FC2的全连接层为100个神经元,最后输出的是100维特征进行分类;
采用常规交叉熵损失函数进行模型的训练优化:
其中,ffinal代表单个样本最后生成的特征。label代表该样本的真实标签。C代表类别数;该分支的加入使得模型能够利用标签信息来更好的优化特征网络,进而提升模型的性能。
在步骤6)中,所述根据数据是否有监督信号,利用反向传播算法对网络进行学习,获得意图信息,即模型拥有某一主体的特征提取能力的具体办法可为:由于模型适应于不同标签情况下的训练集,模型在无监督和有监督情况下的相同之处在于每次输入网络的样本数为64张;设置模型的训练动量为0.9,设置权重衰减为5e-4;在有监督的分支的初始学习率为0.01并且迭代次数皆为20;在无监督分支,在初始化模型时学习率为0.1,在后续迭代中为0.01;在初始化模型时迭代次数为20次,后续为5次;无监督过程中初始化对模型参数的调整幅度较大,而后续并类过程中微调模型即可;MNIST数据集原图片尺度为28×28,并且为单通道的图片,在训练或测试的过程中,将其放大至224×224的尺度,并且利用多次复制的手段,将其扩展到3通道的图片,使其能够适应网络的训练及测试。
在步骤7)中,所述在不同监督信号的情况下,利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估的具体办法:在无监督情况下,一方面需要根据伪标签和真实标签计算其聚类情况下的识别准确率进行评估;具体而言,对于真实标签和伪标签对应问题,利用基于类别数量与真实标签相等的k-means方法对已学习的特征进行生成伪标签并根据匈牙利算法找到最佳匹配,从而得出伪标签及真实标签的对应情况,进而得出无监督情况下的识别准确率;另一方面,利用归一化信息(NMI)作为评测指标进一步分析,其能够利用信息熵的概念评价多个类别图片识别的聚类质量;这两种评价方法都需要样本的真实标签参与评价。
在有监督情况下,利用分类中常用的准确率进行评判,即分类正确的样本数量除以所有样本的数量,以及利用具体每个类别的情况的混淆矩阵进一步分析;由于无监督情况下和有监督情况下准确率的计算方式不同,所以为区别无监督和有监督情况下的准确率,分别将其称为聚类识别准确率和分类识别准确率。
由于图片的内容复杂,并且图片中多个语义对象(主体)的存在可能会迷惑网络的训练方向,导致特征丧失可区分性及识别性能下降。本发明利用多个经典的图片数据集进行合成多主体数据集并提出如何在不同的监督信号的情况下识别目标主体图片的问题,并且提出基于多样性上下文相似性度量方法的意图模型作为该问题的基本性能标准。在多个多主体数据集及经典图片数据集上,实验证明在不同监督信号下,意图信息都有利于目标主体的识别。并且监督信号能使得意图更加强烈的表达。此外,图片中目标主体的占比也会影响性能表现。
与现有技术相比,本发明具有以下突出的优点:
本发明首先提出了在不同监督情况下,多主体图片如何提取目标的问题,利用MNIST和CIFAR10/100数据集重新生成了多种具有复杂语义的数据集,进而为该问题提供数据支持。并且为该问题提供了一个基于多样性上下文相似性度量方法的意图模型及多种评测方案。再者利用无监督的特征生成方法和常规的分类器方法提出一种基于多样性上下文相似性度量方法的意图模型进行缓解所提出的多主体任务中目标图片识别的问题。以及采用多种评测指标进行分析与评价模型的性能。实验证明在多主体的图片分类任务中意图的存在能够起到正向作用。最后,将意图的训练分为有监督与无监督形式,利用实验证明有监督信号的训练能够帮助意图更好的表达。本发明有效缓解非目标主体对多主体任务中目标图片识别的干扰。
附图说明
图1为图片分类任务的原理图。(a)数字主体所期望的识别效果。(b)物体或动物主体所期望的识别效果。(c)问题的提出,即期望依据哪一种主体进行识别图片。
图2为本发明实施例的框架图。从左到右,依次是四种类型数据的输入,特征提取网络,两种不同的方案去适应标签的情况。两种方法分别是(a)代表无监督情况下的特征学习。(b)有监督信号指导下的特征学习。
图3为本发明中所提出的数据集。其中各主体面积占比不同的图片。
具体实施方式
为使本发明的上述目的、特征和优点能够更明显易懂,以下结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
本发明利用多个经典的图片分类数据集合成具有多主体数据集(MC10/100和CM100)作为该问题的实验的数据来源。并且基于神经网络模型的可学习性,提出一种基于多样性上下文相似性度量方法的意图模型,并且将该网络作为该问题的一种基本性能标准。其中意图指的是网络已经具备某一单一主体的特征提取的能力。具体而言,利用单一主体(数字/动物)的训练集进行训练模型,该过程可以是无监督或者有监督的。主要是为了训练模型表达意图的能力,即提取目标特征的能力。所提出的基准模型能够在有标签的数据集中借助常规的全连接层分类器进行有监督的训练,也能够在无监督信号的数据集中借助基于相似性的并类网络进行训练。最后,利用不同监督情况下的多种评测指标进行分析与评价。
参见图2,本发明实施例的实施方式包括以下步骤:
1.准备多个经典的图片数据集:MNIST数据集和CIFAR10/100数据集。
2.利用图片数据集合成多主体图片数据集(MC10/100和CM10/100数据集)。将以CIFAR10数据集为底,加入MNIST数据集中的数字主体并且以CIFAR10类别为目标标签的数据集称为CM10。将以CIFAR10为底,加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC10。将以CIFAR100为底,加入MNIST数据集中的数字主体并且以CIFAR100类别为目标标签的数据集称为CM100。将以CIFAR10为底,加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC100。
利用MNIST数据集和CIFAR10/100制作具有双重语义的图片数据集的具体操作:
首先将MNIST灰度图转换为RGB图像,并且将CIFAR系列的图片像素设置为模型的默认的尺度224×224。
再者,以CIFAR10/100(尺寸为224×224)为底,将MNIST的图片大小(原图尺寸为28×28)按一定的比例放缩。具体比例为0︰1,1︰64,1︰16,1︰4,1︰2,9︰16,1︰1。在此过程中,合成7种比例的图片数据,每一种比例都有4种不同的具有多个主体的数据集。如图3所示。
最后将MNIST图片叠加在CIFAR图片的左上角作为另一个主体存在。值得注意的是为了不遮挡到CIFAR的主体,MNIST图片是半透明的。生成了2种双重语义的图片,分别是基于MNIST数据集和CIFAR10生成的MC10数据集,基于MNIST数据集和CIFAR100生成的MC100数据集。
3.提出在不同监督信号下,如何提高目标主体图片的识别问题和将ResNet50模型作为提取特征的基本网络模型。所述提出在不同监督信号下,如何提高目标主体图片的识别问题和将ResNet50模型作为提取特征的基本网络模型的方法。在实际情况中,图片的监督信号情况是不确定的,需要考虑对于具有不同监督信号的数据集对模型的影响。目前大多数研究人员基于ResNet50模型进行特征提取或者在该模型的基础上进行改造。所以选取了该模型作为所提出模型的基础网络。
4.设计在无监督情况下,基于多样性上下文相似性的网络架构。所述设计在无监督情况下,基于多样性上下文相似性的网络架构具体步骤如下:
对于无标签的训练集,采用的是无监督方式的分支进行训练学习如图2中图a所示。首先利用卷积神经网络做为特征提取的网络,将图片样本映射成2048维的特征向量F。
F=BN(CNN(X)) (1)
其中X是经过归一化后的彩色图片。CNN()则是利用卷积神经网络作为特征提取网络,选用较为广泛使用的Resnet-50网络结构作为特征提取网络。该网络结构不仅有强大的特征提取能力,并且能够缓解网络退化的问题。BN()指的是归一化层,将特征网络输出的特征进行批量归一化,使得各个样本数值能够处于同一分布空间。再者利用基于多样性上下文相似性度量方法的思路,将特征网络和并类过程交互进行优化特征。
Lw=function(F) (2)
Lw代表伪标签。function()在训练过程中生成伪标签是多个阶段性的,分别是将每个样本设置为一类生成伪标签阶段,利用聚类算法进一步生成伪标签阶段和利用基于相似性的距离进行并类重新生成伪标签阶段这三个阶段进行优化伪标签。在这期间中每个生成伪标签的阶段都伴随着特征网络的更新,进而挖掘标签指导网络学习的潜力。
5.设计在完全监督情况下,基于经典分类器的网络架构。所述设计在完全监督情况下,基于经典分类器的网络架构具体步骤如下:
对于有标签的训练集,采用的是带监督信号方式的分支进行训练学习如图2中图b所示。首先利用卷积神经网络提取特征之后,再经过一个常用的分类器:
Ffinal=FC2(FC1(F)) (3)
其中,FC1,FC2分别代表1024个神经元和10个神经元的全连接层,分类器输出10维的特征Ffinal进行分类,这是在以CIFAR10数据集或MNIST数据集的类别为目标主体的时候。而当以CIFAR100的类别为目标主体的时候,FC2的全连接层为100个神经元,最后输出的是100维特征进行分类。关于损失函数,采用的是常规的交叉熵损失函数进行模型的训练优化:
其中,ffinal代表单个样本最后生成的特征。label代表该样本的真实标签。C代表类别数。该分支的加入使得模型能够利用标签信息来更好的优化特征网络,进而提升模型的性能。
6.根据数据是否有监督信号,利用反向传播算法对网络进行学习,获得意图信息,即模型已拥有某一主体的特征提取能力;
7.在不同监督信号的情况下,利用已生成的多个多主体数据集和已获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估;
表1~2是MNIST与CIFAR图片占比为1:2在不同情况下的识别准确率与NMI指标(无监督情况下)。
表1
表2
表3
CM10 | MC10 | CM100 | MC100 | 单体测试集 | |
在CIFAR10上训练 | 59.8% | 14.0% | 7.8% | 15.7% | 89.4% |
在CIFAR100上训练 | 25.7% | 17.5% | 23.6% | 17.4% | 63.6% |
在MNIST上训练 | 13.0% | 45.4% | 4.5% | 46.6% | 98.7% |
随机化参数 | 1.8% | 11.7% | 6.7% | 11.9% | 无 |
表4
CM10 | MC10 | CM100 | MC100 | 单体测试集 | |
在CIFAR10上训练 | 29.7% | 0.7% | 1.7% | 1.2% | 78.0% |
在CIFAR100上训练 | 7.6% | 2.4% | 7.1% | 2.4% | 35.8% |
在MNIST上训练 | 0.3% | 23.0% | 0.2% | 23.0% | 97.2% |
随机化参数 | 2.3% | 约为0 | 1.1% | 约为0 | 无 |
表3~4是MNIST与CIFAR图片占比为1︰2在不同情况下的识别准确率与NMI指标(有监督情况下)。本发明利用CIFAR10/100与MNIST数据集合成四种多主体的数据集(MC10/100,CM10/100),提出一种基于多样性上下文相似性度量方法的意图模型来进行学习目标图片相关的特征表达,其能够根据事先预定的目标语义分布(人、背景和数字等)指导网络的学习方向,缓解其他主体的干扰或噪音干扰问题。不仅适用于无监督情况下的特征学习,也适用于有监督信号下的图片识别。将所提出的网络作为该多主体图片识别任务的一种基准指标,并利用多种评测指标评价与分析。通过实验证明基于意图的网络结构能有效缓解多主体图片识别问题,且证明有监督信息下的意图训练能够更好的表达意图,并且提高模型的性能。通过实验分析可知,方法减小其他无关主体对于目标主体的干扰,且在多个多主体图片数据集上都取得较好识别性能。
Claims (8)
1.多主体任务中基于意图的图片识别方法,其特征在于包括以下步骤:
1)准备多个经典的图片数据集;
2)利用图片数据集合成多主体图片数据集;
3)提出在不同监督信号下,如何提高目标主体图片的识别问题,将ResNet50模型作为提取特征的基本网络模型;
4)设计在无监督情况下,基于多样性上下文相似性的网络架构;
5)设计在完全监督情况下,基于经典分类器的网络架构;
6)根据数据是否有监督信号,利用反向传播算法对网络进行学习,获得意图信息,即模型拥有某一主体的特征提取能力;
7)在不同监督信号的情况下,利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估。
2.如权利要求1所述多主体任务中基于意图的图片识别方法,其特征在于在步骤1)中,所述多个经典的图片数据集可包括MNIST数据集、CIFAR10/100数据集;所述MNIST数据集是包含10个数字类别的60000/10000个训练/测试图像的手写数字数据集,MNIST数据集由70000个手写数字组成,大小为28×28像素,数字居中且图像尺寸标准化;所述CIFAR10/100数据集是一个自然图像数据集,包含来自10/100个对象类别的50000/10000训练/测试图像。
3.如权利要求1所述多主体任务中基于意图的图片识别方法,其特征在于在步骤2)中,所述利用图片数据集合成多主体图片数据集,包括MC10/100和CM10/100数据集,其具体步骤如下:
(1)将以CIFAR10数据集为底,加入MNIST数据集中的数字主体并且以CIFAR10类别为目标标签的数据集称为CM10;将以CIFAR10为底,加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC10;将以CIFAR100为底,加入MNIST数据集中的数字主体并且以CIFAR100类别为目标标签的数据集称为CM100;将以CIFAR10为底,加入MNIST数据集中的数字主体并且以MNIST类别为目标标签的数据集称为MC100;
(2)利用MNIST数据集和CIFAR10/100制作具有双重语义的图片数据集,具体操作如下:
首先将MNIST灰度图转换为RGB图像,并且将CIFAR系列的图片像素设置为模型的默认的尺度;然后以CIFAR10/100为底,将MNIST的图片大小按比例放缩,合成7种比例的图片数据,每一种比例都有4种不同的具有多个主体的数据集;最后将MNIST图片叠加在CIFAR图片的左上角作为另一个主体存在;为不遮挡到CIFAR的主体,MNIST图片是半透明的,生成2种双重语义的图片,分别是基于MNIST数据集和CIFAR10生成的MC10数据集,基于MNIST数据集和CIFAR100生成的MC100数据集。
4.如权利要求1所述多主体任务中基于意图的图片识别方法,其特征在于在步骤3)中,所述提高目标主体图片的识别问题,要考虑对于具有不同监督信号的数据集对模型的影响。
5.如权利要求1所述多主体任务中基于意图的图片识别方法,其特征在于在步骤4)中,所述设计在无监督情况下,基于多样性上下文相似性的网络架构的具体步骤如下:
对于无标签的训练集,采用的是无监督方式的分支进行训练学习;首先利用卷积神经网络做为特征提取的网络,将图片样本映射成2048维的特征向量F;
选用较为广泛使用的Resnet-50网络结构作为特征提取网络;该网络结构不仅有强大的特征提取能力,并且能够缓解网络退化的问题;BN()指的是归一化层,将特征网络输出的特征进行批量归一化,使得各个样本数值能够处于同一分布空间;再利用基于多样性上下文相似性度量方法的思路,将特征网络和并类过程交互进行优化特征;
Lw=function(F)
其中,Lw代表伪标签,function()在训练过程中生成伪标签是多个阶段性的,分别是将每个样本设置为一类生成伪标签阶段,利用聚类算法进一步生成伪标签阶段和利用基于相似性的距离进行并类重新生成伪标签阶段这三个阶段进行优化伪标签;在这期间中每个生成伪标签的阶段都伴随着特征网络的更新,进而挖掘标签指导网络学习的潜力。
6.如权利要求1所述多主体任务中基于意图的图片识别方法,其特征在于在步骤5)中,所述设计在完全监督情况下,基于经典分类器的网络架构的具体步骤如下:
对于有标签的训练集,采用带监督信号方式的分支进行训练学习,利用卷积神经网络提取特征之后,再经过一个常用的分类器:
Ffinal=FC2(FC1(F))
当以CIFAR10数据集或MNIST数据集的类别为目标主体时,FC1,FC2分别代表1024个神经元和10个神经元的全连接层,分类器输出10维的特征Ffinal进行分类;当以CIFAR100的类别为目标主体时,FC2的全连接层为100个神经元,最后输出的是100维特征进行分类;
采用常规交叉熵损失函数进行模型的训练优化:
其中,ffinal代表单个样本最后生成的特征;label代表该样本的真实标签;C代表类别数;该分支的加入使得模型能够利用标签信息来更好的优化特征网络,进而提升模型的性能。
7.如权利要求1所述多主体任务中基于意图的图片识别方法,其特征在于在步骤6)中,所述根据数据是否有监督信号,利用反向传播算法对网络进行学习,获得意图信息,即模型拥有某一主体的特征提取能力的具体办法可为:由于模型适应于不同标签情况下的训练集,模型在无监督和有监督情况下的相同之处在于每次输入网络的样本数为64张;设置模型的训练动量为0.9,设置权重衰减为5e-4;在有监督的分支的初始学习率为0.01并且迭代次数皆为20;在无监督分支,在初始化模型时学习率为0.1,在后续迭代中为0.01;在初始化模型时迭代次数为20次,后续为5次;无监督过程中初始化对模型参数的调整幅度较大,而后续并类过程中微调模型即可;MNIST数据集原图片尺度为28×28,并且为单通道的图片,在训练或测试的过程中,将其放大至224×224的尺度,并且利用多次复制的手段,将其扩展到3通道的图片,使其能够适应网络的训练及测试。
8.如权利要求1所述多主体任务中基于意图的图片识别方法,其特征在于在步骤7)中,所述在不同监督信号的情况下,利用生成的多个多主体数据集和获得意图信息的模型进行图片识别任务并利用多个评测标准进行评估的具体办法:在无监督情况下,一方面需要根据伪标签和真实标签计算其聚类情况下的识别准确率进行评估;对于真实标签和伪标签对应问题,利用基于类别数量与真实标签相等的k-means方法对已学习的特征进行生成伪标签并根据匈牙利算法找到最佳匹配,从而得出伪标签及真实标签的对应情况,进而得出无监督情况下的识别准确率;另一方面,利用归一化信息作为评测指标进一步分析,其能够利用信息熵的概念评价多个类别图片识别的聚类质量;这两种评价方法都需要样本的真实标签参与评价;
在有监督情况下,利用分类中常用的准确率进行评判,即分类正确的样本数量除以所有样本的数量,以及利用具体每个类别的情况的混淆矩阵进一步分析;由于无监督情况下和有监督情况下准确率的计算方式不同,所以为区别无监督和有监督情况下的准确率,分别将其称为聚类识别准确率和分类识别准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287089.9A CN114627348B (zh) | 2022-03-22 | 2022-03-22 | 多主体任务中基于意图的图片识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287089.9A CN114627348B (zh) | 2022-03-22 | 2022-03-22 | 多主体任务中基于意图的图片识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114627348A true CN114627348A (zh) | 2022-06-14 |
CN114627348B CN114627348B (zh) | 2024-05-31 |
Family
ID=81903135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210287089.9A Active CN114627348B (zh) | 2022-03-22 | 2022-03-22 | 多主体任务中基于意图的图片识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627348B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110569793A (zh) * | 2019-09-09 | 2019-12-13 | 西南交通大学 | 一种无监督相似性判别学习的目标跟踪方法 |
WO2020172838A1 (zh) * | 2019-02-26 | 2020-09-03 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
CN113592016A (zh) * | 2021-08-09 | 2021-11-02 | 哈尔滨工程大学 | 基于互信息增强的自监督新颖性检测方法 |
CN113837238A (zh) * | 2021-09-02 | 2021-12-24 | 南京大学 | 一种基于自监督和自蒸馏的长尾图像识别方法 |
CN113870124A (zh) * | 2021-08-25 | 2021-12-31 | 西北工业大学 | 基于弱监督的双网络互激励学习阴影去除方法 |
US20220027672A1 (en) * | 2020-07-27 | 2022-01-27 | Nvidia Corporation | Label Generation Using Neural Networks |
-
2022
- 2022-03-22 CN CN202210287089.9A patent/CN114627348B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
WO2020172838A1 (zh) * | 2019-02-26 | 2020-09-03 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
CN110569793A (zh) * | 2019-09-09 | 2019-12-13 | 西南交通大学 | 一种无监督相似性判别学习的目标跟踪方法 |
US20220027672A1 (en) * | 2020-07-27 | 2022-01-27 | Nvidia Corporation | Label Generation Using Neural Networks |
CN113592016A (zh) * | 2021-08-09 | 2021-11-02 | 哈尔滨工程大学 | 基于互信息增强的自监督新颖性检测方法 |
CN113870124A (zh) * | 2021-08-25 | 2021-12-31 | 西北工业大学 | 基于弱监督的双网络互激励学习阴影去除方法 |
CN113837238A (zh) * | 2021-09-02 | 2021-12-24 | 南京大学 | 一种基于自监督和自蒸馏的长尾图像识别方法 |
Non-Patent Citations (1)
Title |
---|
万萌;冯新玲;: "基于无监督特征选择和卷积神经网络的图像识别算法", 赤峰学院学报(自然科学版), no. 10, 25 October 2018 (2018-10-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN114627348B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022538866A (ja) | 画像前処理のためのシステム及び方法 | |
CN109308485B (zh) | 一种基于字典域适应的迁移稀疏编码图像分类方法 | |
CN113076994B (zh) | 一种开集域自适应图像分类方法及系统 | |
CN112528928B (zh) | 一种基于自注意力深度网络的商品识别方法 | |
Wang et al. | Two-stage method based on triplet margin loss for pig face recognition | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN107491729B (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN114898151A (zh) | 一种基于深度学习与支持向量机融合的图像分类方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN109919055B (zh) | 一种基于AdaBoost-KNN的动态人脸情感识别方法 | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 | |
CN111611909A (zh) | 多子空间域自适应人脸识别方法 | |
CN113011436A (zh) | 一种基于卷积神经网络的中医舌色苔色协同分类方法 | |
CN112364809A (zh) | 一种高准确率的人脸识别改进算法 | |
Dinu et al. | Local patch dissimilarity for images | |
Adaïmé et al. | Deep learning approaches to the phylogenetic placement of extinct pollen morphotypes | |
Kishan et al. | Handwritten character recognition using CNN | |
CN114627348A (zh) | 多主体任务中基于意图的图片识别方法 | |
CN112329389B (zh) | 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 | |
CN112257792A (zh) | 一种基于svm的实时视频目标动态分类方法 | |
CN112270328A (zh) | 一种融合hog-lbp函数的交通信号灯检测方法 | |
Chen et al. | Canet: Context-Aware Loss for Descriptor Learning | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm | |
CN117421244B (zh) | 多源跨项目软件缺陷预测方法、装置及存储介质 | |
CN112766383B (zh) | 一种基于特征聚类和标签相似性的标签增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |