CN112766330B - 图像多标签分类方法和装置 - Google Patents

图像多标签分类方法和装置 Download PDF

Info

Publication number
CN112766330B
CN112766330B CN202110018973.8A CN202110018973A CN112766330B CN 112766330 B CN112766330 B CN 112766330B CN 202110018973 A CN202110018973 A CN 202110018973A CN 112766330 B CN112766330 B CN 112766330B
Authority
CN
China
Prior art keywords
label
probability
classified
sequence
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110018973.8A
Other languages
English (en)
Other versions
CN112766330A (zh
Inventor
李雪
李锐
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Scientific Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Scientific Research Institute Co Ltd filed Critical Shandong Inspur Scientific Research Institute Co Ltd
Priority to CN202110018973.8A priority Critical patent/CN112766330B/zh
Publication of CN112766330A publication Critical patent/CN112766330A/zh
Application granted granted Critical
Publication of CN112766330B publication Critical patent/CN112766330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的图像多标签分类方法和装置,方法包括:将包括有若干个待分类对象的待分类图像输入到预先训练好的CNN中,输出每一个待分类对象分别对应的标签概率集;所述标签概率集中包括该待分类对象对应至少一个标签的概率;根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列;所述标签序列中包括每一个待分类对象分别对应一个标签的概率;将生成的若干个所述标签序列输入到预先训练好的RNN中,输出所述待分类图像中具有依赖关系的分类标签。本方案,可以降低特征信息的冗余。

Description

图像多标签分类方法和装置
技术领域
本发明涉及图像处理技术领域,尤其涉及图像多标签分类方法和装置。
背景技术
随着人工智能的不断发展,通常需要对图像进行标签分类。深度卷积神经网络在单标签图像分类中显示出巨大的优势,但是实际应用中,图像中的对象、场景、动作和属性通常可以对应多个标签,因此,需要对图像进行多标签分类。
目前,在针对图像进行多标签分类时,在图像中有一个需要进行多标签分类的对象时,就需要使用一个独立的分类器对该图像进行多标签分类,如果图像中存在多个需要进行多标签分类的对象,那么就需要使用多个独立的分类器分别对图像进行多标签分类。
现有的多标签分类方法,由于使用多个独立的分类器对图像进行分类,针对每一个对象进行分类时均需要对图像进行一次特征信息的提取,因此,会造成特征信息的冗余。
发明内容
本发明实施例提供了图像多标签分类方法和装置,以降低特征信息的冗余。
第一方面,本发明实施例提供了一种图像多标签分类方法,包括:
将包括有若干个待分类对象的待分类图像输入到预先训练好的CNN中,输出每一个待分类对象分别对应的标签概率集;所述标签概率集中包括该待分类对象对应至少一个标签的概率;
根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列;所述标签序列中包括每一个待分类对象分别对应一个标签的概率;
将生成的若干个所述标签序列输入到预先训练好的RNN中,输出所述待分类图像中具有依赖关系的分类标签。
优选地,
在所述生成若干个标签序列之前,进一步包括:将每一个待分类对象中分别对应的标签概率集中,小于预设概率阈值的概率删除,形成处理后的标签概率集;
所述生成若干个标签序列,包括:确定从每一个待分类对象所对应的处理后的标签概率集中,各选取一个标签的概率的组合方式,将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列。
优选地,
进一步包括:设置至少两个标签分类级别;
在所述将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列之后,所述将生成的若干个所述标签序列输入到预先训练好的RNN中之前,进一步包括:
针对生成的每一个标签序列,均执行如下处理:
确定该当前标签序列中所选取的标签的概率所对应标签分别属于的标签分类级别;
在该当前标签序列中,将标签分类级别高的标签所对应的概率排列在标签分类级别低的标签所对应的概率的前面,将标签分类级别相同的标签所对应的概率中数值较大的概率排列在数值较小的概率的前面,以及将标签分类级别相同的标签所对应的概率中数值相同的概率按任一先后顺序排列在一起;
根据处理后的每一个标签序列,执行所述输入到预先训练好的RNN中。
优选地,利用如下方式训练CNN和RNN:
建立样本图像数据集,针对所述样本图像数据集中的每一个样本图像,均执行:
根据当前样本图像中包括的至少一个样本对象,添加样本标签;根据该当前样本图像对应的样本标签,生成与当前样本图像对应的多标签向量;将该当前样本图像和所述多标签向量作为训练CNN的输入项,由CNN针对该当前样本图像输出每一个样本对象分别对应每一个样本标签的概率;确定从每一个样本对象所对应的每一个样本标签的概率中,各选取一个样本标签的概率的组合方式,将每一种组合方式中所选取的样本标签的概率分别生成对应的一个样本标签序列,将生成的样本标签序列作为训练RNN的输入项,将该当前样本图像的多标签向量作为训练RNN的输出项。
优选地,所述输出所述待分类图像中具有依赖关系的分类标签,包括:
针对输入的每一个标签序列,均执行:
按照该当前标签序列中N个概率的排列前后顺序,依次计算所述待分类图像分别对应每一个第一标签时的计算概率,所述第一标签为该当前标签序列中N个概率分别对应的标签;在计算时,将排列在第1位的概率确定为该第1位的概率所对应第一标签的计算概率;根据排列在第1位至第(i-1)位的(i-1)个概率,确定第i位的概率所对应第一标签的计算概率;
将确定的N个计算概率分别与该当前标签序列中相应位的概率进行比较,若比较差值均小于设定差值阈值,则将该当前标签序列中N个概率分别对应的第一标签输出为所述待分类图像中具有依赖关系的分类标签;其中,N为不小于2的整数,i为大于1且小于等于N的整数。
第二方面,本发明实施例还提供了一种图像多标签分类装置,包括:
标签概率集生成单元,用于将包括有若干个待分类对象的待分类图像输入到预先训练好的CNN中,输出每一个待分类对象分别对应的标签概率集;所述标签概率集中包括该待分类对象对应至少一个标签的概率;
标签序列生成单元,用于根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列;所述标签序列中包括每一个待分类对象分别对应一个标签的概率;
分类标签确定单元,用于将生成的若干个所述标签序列输入到预先训练好的RNN中,输出所述待分类图像中具有依赖关系的分类标签。
优选地,
进一步包括:处理单元,用于将每一个待分类对象中分别对应的标签概率集中,小于预设概率阈值的概率删除,形成处理后的标签概率集;
所述标签序列生成单元,具体用于:确定从每一个待分类对象所对应的处理后的标签概率集中,各选取一个标签的概率的组合方式,将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列。
优选地,
进一步包括:存储单元,用于存储预先设置的至少两个标签分类级别;
所述标签序列生成单元,在所述将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列之后,所述将生成的若干个所述标签序列输入到预先训练好的RNN中之前,进一步用于针对生成的每一个标签序列,均执行如下处理:
确定该当前标签序列中所选取的标签的概率所对应标签分别属于的标签分类级别;
在该当前标签序列中,将标签分类级别高的标签所对应的概率排列在标签分类级别低的标签所对应的概率的前面,将标签分类级别相同的标签所对应的概率中数值较大的概率排列在数值较小的概率的前面,以及将标签分类级别相同的标签所对应的概率中数值相同的概率按任一先后顺序排列在一起;
并将处理后的每一个标签序列发送给所述分类标签确定单元,以使所述分类标签确定单元根据处理后的每一个标签序列执行所述输入到预先训练好的RNN中。
第三方面,本发明实施例还提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述中任一项所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述中任一项所述的方法。
本发明实施例提供了一种图像多标签分类方法和装置,通过预习训练好CNN和RNN,将包括有若干个待分类对象的待分类图像输入到该CNN中,并输出每一个待分类对象分别对应的标签概率集,根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列,并将生成的若干个标签序列输入到RNN中,从而可以输出该待分类图像中具有依赖关系的分类标签。本方案,通过训练CNN和RNN网络,不管待分类对象中包括多少个待分类对象,只需利用一次分类,以对待分类图像中的特征信息进行识别,从而得到该待分类对象中具有依赖关系的分类标签,由于不需要采用多个分类器,因此,可以降低特征信息的冗余。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种图像多标签分类方法的流程图;
图2是本发明一个实施例提供的一种图像多标签分类装置的结构示意图;
图3是本发明一个实施例提供的另一种图像多标签分类装置的结构示意图;
图4是本发明一个实施例提供的又一种图像多标签分类装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本发明一个实施例提供的一种图像多标签分类方法,包括:
步骤101:将包括有若干个待分类对象的待分类图像输入到预先训练好的CNN中,输出每一个待分类对象分别对应的标签概率集;所述标签概率集中包括该待分类对象对应至少一个标签的概率。
其中,在将待分类图像输入到CNN中后,CNN中的每一个卷积层分别进行计算,得到每一个待分类对象分别对应的标签概率集,例如,该待分类图像中包括有三个待分类对象,分别为对象1、对象2和对象3,CNN针对对象1输出标签概率集1,该标签概率集1中包括该对象1分别对应标签11的概率、标签12的概率……标签1m的概率;CNN针对对象2输出标签概率集2,该标签概率集2中包括该对象2分别对应标签21的概率、标签22的概率……标签2m的概率;CNN针对对象3输出标签概率集3,该标签概率集3中包括该对象3分别对应标签31的概率、标签32的概率……标签3m的概率。
需要说明的是,不同标签概率集中可以包括相同的标签。例如,标签11与标签21为同一个标签。
步骤102:根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列;所述标签序列中包括每一个待分类对象分别对应一个标签的概率。
在本实施例中,生成的标签序列的个数为从每一个标签概率集中各选取一个标签的概率的组合方式的个数。在待分类图像中包括3个待分类对象时,那么生成的每一个标签序列包括三个概率,例如,生成的一个标签序列为(对象1对应标签11的概率,对象2对应标签21的概率,对象3对应标签31的概率)。
步骤103:将生成的若干个所述标签序列输入到预先训练好的RNN中,输出所述待分类图像中具有依赖关系的分类标签。
将步骤102中生成的若干个标签序列均输入到RNN中,RNN针对每一个标签序列分别进行计算,根据计算结果,确定满足条件的标签序列,将满足条件的标签序列中所包括的标签输出为该待分类图像中具有依赖关系的分类标签。
例如,满足条件的一个标签序列为(对象1对应标签11的概率,对象2对应标签21的概率,对象3对应标签31的概率),那么输出的分类标签为(标签11,标签21,标签31)。
需要说明的是,满足条件的标签序列可以为至少一个,将每一个满足条件的标签序列中所包括的标签均输出。例如,有两个标签序列满足条件,那么将输出两组分类标签。
综上所述,本实施例通过预习训练好CNN和RNN,将包括有若干个待分类对象的待分类图像输入到该CNN中,并输出每一个待分类对象分别对应的标签概率集,根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列,并将生成的若干个标签序列输入到RNN中,从而可以输出该待分类图像中具有依赖关系的分类标签。本方案,通过训练CNN和RNN网络,不管待分类对象中包括多少个待分类对象,只需利用一次分类,以对待分类图像中的特征信息进行识别,从而得到该待分类对象中具有依赖关系的分类标签,由于不需要采用多个分类器,因此,可以降低特征信息的冗余。
在本发明一个实施例中,由于CNN针对每一个对象均输出一个标签概率集,该标签概率集中包括该对象对应的至少一个标签的概率,可能存在概率非常小的情况,在标签概率集中包括的概率非常小时,则表明该对象不属于该概率对应的标签,那么在所述生成若干个标签序列之前,可以进一步包括:将每一个待分类对象中分别对应的标签概率集中,小于预设概率阈值的概率删除,形成处理后的标签概率集;
所述生成若干个标签序列,包括:确定从每一个待分类对象所对应的处理后的标签概率集中,各选取一个标签的概率的组合方式,将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列。
例如,CNN针对对象1输出的该标签概率集1为(0.8,0.7,0.4,0.2,0.01,……,0.02),假设,该预设概率阈值为0.5,那么将该标签概率集1中小于0.5的概率删除,那么可以得到处理后的标签概率集1(对应标签11的概率0.8,对应标签12的概率0.7)。表明该对象1属于两个标签,分别为标签11和标签12。
在生成标签序列时,从每一个处理后的标签概率集中各选取一个标签的概率的组合方式可以有很多种,例如,有X种,那么生成标签序列的个数为X个。
例如,对象1对应的标签概率集1为(对应标签11的概率0.8,对应标签12的概率0.7),对象2对应的标签概率集2为(对应标签23的概率0.6),对象3对应的标签概率集3为(对应标签31的概率0.9,对应标签34的概率0.7),那么可以生成如下4个标签序列:
标签序列1,(对象1对应标签11的概率0.8,对象2对应标签23的概率0.6,对象3对应标签31的概率0.9);
标签序列2,(对象1对应标签11的概率0.8,对象2对应标签23的概率0.6,对象3对应标签34的概率0.7);
标签序列3,(对象1对应标签12的概率0.7,对象2对应标签23的概率0.6,对象3对应标签31的概率0.9);
标签序列4,(对象1对应标签12的概率0.7,对象2对应标签23的概率0.6,对象3对应标签34的概率0.7)。
在本发明一个实施例中,由于在利用RNN针对每一个标签序列计算每一个标签的计算概率时,是利用标签序列中排列在前面的标签的概率计算排列在后面的标签的计算概率的,因此,标签序列中标签的概率在标签序列中的排列顺序会对RNN的输出结果造成影响,因此,可以进一步包括:设置至少两个标签分类级别。
该标签分类级别可以以图像中的不同目标进行分类,例如,设置三个标签分类级别,第一级别为:有生命的且可以活动的对象;例如,人、动物等。第二级别为:有生命的但不可以活动的对象;例如,树木、草地等。第三级别为:没有生命的对象;例如,垃圾桶,马路等。其中,第一级别高于第二级别,第二级别高于第三级别。
根据设置的上述标签分类级别,在本发明实施例中,在所述将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列之后,所述将生成的若干个所述标签序列输入到预先训练好的RNN中之前,可以进一步包括:
针对生成的每一个标签序列,均执行如下处理:
确定该当前标签序列中所选取的标签的概率所对应标签分别属于的标签分类级别;
在该当前标签序列中,将标签分类级别高的标签所对应的概率排列在标签分类级别低的标签所对应的概率的前面,将标签分类级别相同的标签所对应的概率中数值较大的概率排列在数值较小的概率的前面,以及将标签分类级别相同的标签所对应的概率中数值相同的概率按任一先后顺序排列在一起;
根据处理后的每一个标签序列,执行所述输入到预先训练好的RNN中。
以上述生成的标签序列4为例,该标签序列4为(对象1对应标签12的概率0.7,对象2对应标签23的概率0.6,对象3对应标签34的概率0.7),假设,标签12和标签34所属的标签分类级别均为第一级别,标签23所属的标签分类级别为第二级别,那么处理后的标签序列4为:(对象1对应标签12的概率0.7,对象3对应标签34的概率0.7,对象2对应标签23的概率0.6),或者,(对象3对应标签34的概率0.7,对象1对应标签12的概率0.7,对象2对应标签23的概率0.6)。
每一个标签序列均按照上述方式处理完成后,输入到RNN中,如此可以保证RNN输出的分类标签不仅更准确,而且输出的分类标签更具有依赖性。
在本发明一个实施例中,为了保证对待分类图像输出准确的分类标签,需要预先对CNN和RNN进行训练,其中,该训练方式可以包括:
建立样本图像数据集,针对所述样本图像数据集中的每一个样本图像,均执行:
根据当前样本图像中包括的至少一个样本对象,添加设定个数的样本标签;根据该当前样本图像对应的标签,生成与当前样本图像对应的多标签向量;将该当前样本图像作为训练CNN的输入项,由CNN针对该当前样本图像输出每一个样本对象分别对应每一个样本标签的概率;确定从每一个样本对象所对应的每一个样本标签的概率中,各选取一个样本标签的概率的组合方式,将每一种组合方式中所选取的样本标签的概率分别生成对应的一个样本标签序列,将生成的样本标签序列作为训练RNN的输入项,将该当前样本图像的多标签向量作为训练RNN的输出项。
其中,建立的样本图像数据集中至少包括两个样本图像,该样本图像可以是彩色图、也可以是灰度图,样本图像的格式可以是jpg格式,也可以是png格式。
在对每一个样本图像添加样本标签时,可以采用手动添加方式,也可以采用其他已经训练好的标签添加模型来实现对样本标签的添加。针对每一个样本图像,可以得到排名最高的若干个第一样本标签。其中,该排名最高的若干个第一样本标签分别对应的样本对象在该当前样本图像中所占区域最多。
在根据当前样本图像对应的所有样本标签和第一样本标签,生成与当前样本图像对应的多标签向量时,可以先针对当前样本图像中包括的样本对象所对应的标签,生成one-hot编码ek,然后构建图像-标签的联合embeding矩阵Ul,并利用第一公式wk=Ul〃ek得到多标签向量wk。
例如,针对当前样本图像添加的所有样本标签,依次分别为:猫、狗、兔、草地、马路、水面、垃圾桶,其中,当前样本图像中排名最高的三个第一样本标签分别为猫、狗、草地,那么可以生成该当前样本图像的one-hot编码ek为:
Figure BDA0002887731290000101
其中,构建的图像-标签的联合embeding矩阵Ul为[1111111],此时可以利用第一公式得到该当前样本图像的多标签向量wk为[1101000]。
在训练CNN时,将该当前样本图像和对应的多标签向量输入到CNN中,CNN根据该多标签向量,对当前样本图像中每一个样本对象属于每一个样本标签的概率进行计算,并输出样本标签概率集,每一个样本标签概率集中包括样本对象分别对应每一个样本标签的概率。
其中,输入到CNN的样本图像是一个三维数组(w,h,c),其中w×h是当前样本图像的分辨率,c为当前样本图像的通道数,在当前样本图像为RGB图像时,c为3个通道,当前样本图像是灰度图时,c为1个通道。
假设输出的样本标签概率集为:(0.7 0.6 0.5 0.1 0.1 0.1 0.1)、(0.7 0.6 0.20.7 0.1 0.05 0.1)、(0.4 0.4 0.8 0.1 0.02 0.1 0.1)。
根据预先设置的概率阈值,例如为0.5,那么可以将输出的每一个样本标签概率集进行处理,得到样本对象1的(对应猫的概率0.7,对应狗的概率0.6)、样本对象2的(对应猫的概率0.7,对应狗的概率0.6,对应草地的概率0.7)、样本对象3的(对应草地的概率0.8)。将上述处理后的样本标签概率集进行组合,得到样本标签序列:(样本对象1对应猫的概率0.7,样本对象2对应猫的概率0.7,样本对象3对应草地的概率0.8)……。
将得到的样本标签序列输入到RNN中,RNN针对输入的每一个样本标签序列进行计算,将上述得到的多标签向量作为训练RNN的输出项,使得RNN进行深度学习。
在本发明一个实施例中,RNN在计算时,主要利用如下方式进行计算,以实现输出所述待分类图像中具有依赖关系的分类标签,该方式包括:
针对输入的每一个标签序列,均执行:
按照该当前标签序列中N个概率的排列前后顺序,依次计算所述待分类图像分别对应每一个第一标签时的计算概率,所述第一标签为该当前标签序列中N个概率分别对应的标签;在计算时,将排列在第1位的概率确定为该第1位的概率所对应第一标签的计算概率;根据排列在第1位至第(i-1)位的(i-1)个概率,确定第i位的概率所对应第一标签的计算概率;
将确定的N个计算概率分别与该当前标签序列中相应位的概率进行比较,若比较差值均小于设定差值阈值,则将该当前标签序列中N个概率分别对应的第一标签输出为所述待分类图像中具有依赖关系的分类标签;其中,N为不小于2的整数,i为大于1且小于等于N的整数。
以标签序列为(对象1对应标签12的概率0.7,对象3对应标签34的概率0.7,对象2对应标签23的概率0.6)为例,RNN将对象1对应标签12的概率0.7确定为对象1对应标签12的计算概率,在确定对象3对应标签34的计算概率时,利用对象1对应标签12的计算概率进行计算,在确定对象2对应标签23的计算概率时,利用对象1对应标签12的计算概率和对象3对应标签34的计算概率进行计算。
该计算公式可以为:
Figure BDA0002887731290000121
其中,lk为标签序列中第k个概率值,I为待分类图像,即(w,h,c)。
假设RNN针对该标签序列计算出的计算概率分别为:(对象1对应标签12的计算概率0.72,对象3对应标签34的计算概率0.73,对象2对应标签23的计算概率0.59),与输入的标签序列中相应位的概率进行比较,得到比较差值分别为:对象1对应标签12的概率比较差值为0.02,对象3对应标签34的概率比较差值为0.03,对象2对应标签23的概率比较差值为0.01;若该设定差值阈值为0.05,那么表明比较差值均小于该设定差值阈值,则将该标签序列中分别对应的第一标签输出为该待分类图像中具有依赖关系的分类标签,该分类标签为:(对象1对应标签12,对象3对应标签34,对象2对应标签23)。
以上通过预习训练好CNN和RNN,将包括有若干个待分类对象的待分类图像输入到该CNN中,并输出每一个待分类对象分别对应的标签概率集,根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列,并将生成的若干个标签序列输入到RNN中,从而可以输出该待分类图像中具有依赖关系的分类标签。本方案,通过训练CNN和RNN网络,不管待分类对象中包括多少个待分类对象,只需利用一次分类,以对待分类图像中的特征信息进行识别,从而得到该待分类对象中具有依赖关系的分类标签,由于不需要采用多个分类器,因此,可以降低特征信息的冗余。
请参考图2,本发明实施例还提供了一种图像多标签分类装置,包括:
标签概率集生成单元201,用于将包括有若干个待分类对象的待分类图像输入到预先训练好的CNN中,输出每一个待分类对象分别对应的标签概率集;所述标签概率集中包括该待分类对象对应至少一个标签的概率;
标签序列生成单元202,用于根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列;所述标签序列中包括每一个待分类对象分别对应一个标签的概率;
分类标签确定单元203,用于将生成的若干个所述标签序列输入到预先训练好的RNN中,输出所述待分类图像中具有依赖关系的分类标签。
在本发明一个实施例中,请参考图3,该装置可以进一步包括:处理单元301,用于将每一个待分类对象中分别对应的标签概率集中,小于预设概率阈值的概率删除,形成处理后的标签概率集;
所述标签序列生成单元202,具体用于:确定从每一个待分类对象所对应的处理后的标签概率集中,各选取一个标签的概率的组合方式,将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列。
在本发明一个实施例中,请参考图4,该装置可以进一步包括:存储单元401,用于存储预先设置的至少两个标签分类级别;
所述标签序列生成单元202,在所述将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列之后,所述将生成的若干个所述标签序列输入到预先训练好的RNN中之前,进一步用于针对生成的每一个标签序列,均执行如下处理:
确定该当前标签序列中所选取的标签的概率所对应标签分别属于的标签分类级别;
在该当前标签序列中,将标签分类级别高的标签所对应的概率排列在标签分类级别低的标签所对应的概率的前面,将标签分类级别相同的标签所对应的概率中数值较大的概率排列在数值较小的概率的前面,以及将标签分类级别相同的标签所对应的概率中数值相同的概率按任一先后顺序排列在一起;
并将处理后的每一个标签序列发送给所述分类标签确定单元,以使所述分类标签确定单元根据处理后的每一个标签序列执行所述输入到预先训练好的RNN中。
在本发明一个实施例中,可以利用如下训练单元,训练CNN和RNN:
所述训练单元,用于建立样本图像数据集,针对所述样本图像数据集中的每一个样本图像,均执行:
根据当前样本图像中包括的至少一个样本对象,添加样本标签;根据该当前样本图像对应的样本标签,生成与当前样本图像对应的多标签向量;将该当前样本图像和所述多标签向量作为训练CNN的输入项,由CNN针对该当前样本图像输出每一个样本对象分别对应每一个样本标签的概率;确定从每一个样本对象所对应的每一个样本标签的概率中,各选取一个样本标签的概率的组合方式,将每一种组合方式中所选取的样本标签的概率分别生成对应的一个样本标签序列,将生成的样本标签序列作为训练RNN的输入项,将该当前样本图像的多标签向量作为训练RNN的输出项。
在本发明一个实施例中,所述分类标签确定单元203具体用于:针对输入的每一个标签序列,均执行:
按照该当前标签序列中N个概率的排列前后顺序,依次计算所述待分类图像分别对应每一个第一标签时的计算概率,所述第一标签为该当前标签序列中N个概率分别对应的标签;在计算时,将排列在第1位的概率确定为该第1位的概率所对应第一标签的计算概率;根据排列在第1位至第(i-1)位的(i-1)个概率,确定第i位的概率所对应第一标签的计算概率;
将确定的N个计算概率分别与该当前标签序列中相应位的概率进行比较,若比较差值均小于设定差值阈值,则将该当前标签序列中N个概率分别对应的第一标签输出为所述待分类图像中具有依赖关系的分类标签;其中,N为不小于2的整数,i为大于1且小于等于N的整数。
需要说明的是,本说明书实施例示意的结构并不构成对图像多标签分类装置的具体限定。在说明书的另一些实施例中,图像多标签分类装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述实施例中任一项所述的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述实施例中任一项所述的方法。
综上所述,本发明各个实施例中至少具有如下有益效果:
1、在本发明实施例中,通过预习训练好CNN和RNN,将包括有若干个待分类对象的待分类图像输入到该CNN中,并输出每一个待分类对象分别对应的标签概率集,根据输出的每一个待分类对象分别对应的标签概率集,生成若干个标签序列,并将生成的若干个标签序列输入到RNN中,从而可以输出该待分类图像中具有依赖关系的分类标签。本方案,通过训练CNN和RNN网络,不管待分类对象中包括多少个待分类对象,只需利用一次分类,以对待分类图像中的特征信息进行识别,从而得到该待分类对象中具有依赖关系的分类标签,由于不需要采用多个分类器,因此,可以降低特征信息的冗余。
2、在本发明实施例中,通过将每一个待分类对象中分别对应的标签概率集中,小于预设概率阈值的概率删除,形成处理后的标签概率集,以利用处理后的标签概率集生成标签序列,从而可以使得生成的标签序列更贴近图像中各对象所属标签的实际情况,进一步减少CNN的工作量。
3、在本发明实施例中,通过设置标签分类级别,将标签分类级别高的标签所对应的概率排列在标签分类级别低的标签所对应的概率的前面,将标签分类级别相同的标签所对应的概率中数值较大的概率排列在数值较小的概率的前面,以及将标签分类级别相同的标签所对应的概率中数值相同的概率按任一先后顺序排列在一起,将处理后的标签序列输入到RNN中,从而使得输出的分类标签更具有依赖性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (4)

1.一种图像多标签分类方法,其特征在于,包括:
将包括有待分类对象的待分类图像输入到预先训练好的CNN中,输出每一个待分类对象分别对应的标签概率集;所述标签概率集中包括该待分类对象对应至少一个标签的概率;
根据输出的每一个待分类对象分别对应的标签概率集,生成标签序列;所述标签序列中包括每一个待分类对象分别对应一个标签的概率;
将生成的所述标签序列输入到预先训练好的RNN中,输出所述待分类图像中具有依赖关系的分类标签;
在所述生成标签序列之前,进一步包括:将每一个待分类对象中分别对应的标签概率集中,小于预设概率阈值的概率删除,形成处理后的标签概率集;
所述生成标签序列,包括: 从每一个待分类对象所对应的处理后的标签概率集中,各选取一个标签的概率进行组合,形成不同的组合方式,再将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列;
进一步包括:设置至少两个标签分类级别;
在所述将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列之后,所述将生成的所述标签序列输入到预先训练好的RNN中之前,进一步包括:
针对生成的每一个标签序列,均执行如下处理:
确定当前标签序列中所选取的标签的概率所对应标签分别属于的标签分类级别;
在当前标签序列中,将标签分类级别高的标签所对应的概率排列在标签分类级别低的标签所对应的概率的前面,将标签分类级别相同的标签所对应的概率中数值较大的概率排列在数值较小的概率的前面,以及将标签分类级别相同的标签所对应的概率中数值相同的概率按任意先后顺序排列在一起;
根据处理后的每一个标签序列,执行所述输入到预先训练好的RNN中;
利用如下方式训练CNN和RNN:
建立样本图像数据集,针对所述样本图像数据集中的每一个样本图像,均执行:
根据当前样本图像中包括的至少一个样本对象,添加样本标签;根据当前样本图像对应的样本标签,生成与当前样本图像对应的多标签向量;将当前样本图像和所述多标签向量作为训练CNN的输入项,由CNN针对当前样本图像输出每一个样本对象分别对应每一个样本标签的概率;从每一个样本对象所对应的每一个样本标签的概率中,各选取一个样本标签的概率进行组合,形成不同的组合方式,再将每一种组合方式中所选取的样本标签的概率分别生成对应的一个样本标签序列,将生成的样本标签序列作为训练RNN的输入项,将当前样本图像的多标签向量作为训练RNN的输出项;
所述输出所述待分类图像中具有依赖关系的分类标签,包括:
针对输入的每一个标签序列,均执行:
按照当前标签序列中N个概率的排列前后顺序,依次计算所述待分类图像分别对应每一个第一标签时的计算概率,所述第一标签为当前标签序列中N个概率分别对应的标签;在计算时,将排列在第1位的概率确定为该第1位的概率所对应第一标签的计算概率;根据排列在第1位至第(i-1)位的(i-1)个概率,确定第i位的概率所对应第一标签的计算概率;
将确定的N个计算概率分别与当前标签序列中相应位的概率进行比较,若比较差值均小于设定差值阈值,则将当前标签序列中N个概率分别对应的第一标签输出为所述待分类图像中具有依赖关系的分类标签;其中,N为不小于2的整数,i为大于1且小于等于N的整数。
2.一种图像多标签分类装置,其特征在于,包括:使用权利要求1所述方法的设备,还包括:
标签概率集生成单元,用于将包括有待分类对象的待分类图像输入到预先训练好的CNN中,输出每一个待分类对象分别对应的标签概率集;所述标签概率集中包括该待分类对象对应至少一个标签的概率;
根据输出的每一个待分类对象分别对应的标签概率集,生成标签序列;所述标签序列中包括每一个待分类对象分别对应一个标签的概率;
将生成的所述标签序列输入到预先训练好的RNN中,输出所述待分类图像中具有依赖关系的分类标签;
进一步包括:处理单元,将每一个待分类对象中分别对应的标签概率集中,小于预设概率阈值的概率删除,形成处理后的标签概率集;
所述生成标签序列,包括: 从每一个待分类对象所对应的处理后的标签概率集中,各选取一个标签的概率进行组合,形成不同的组合方式,再将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列;
进一步包括:存储单元,用于存储预先设置的至少两个标签分类级别;
所述标签序列生成单元,在所述将每一种组合方式中所选取的标签的概率分别生成对应的一个标签序列之后,所述将生成的所述标签序列输入到预先训练好的RNN中之前,进一步用于针对生成的每一个标签序列,均执行如下处理:
确定当前标签序列中所选取的标签的概率所对应标签分别属于的标签分类级别;
在当前标签序列中,将标签分类级别高的标签所对应的概率排列在标签分类级别低的标签所对应的概率的前面,将标签分类级别相同的标签所对应的概率中数值较大的概率排列在数值较小的概率的前面,以及将标签分类级别相同的标签所对应的概率中数值相同的概率按任意先后顺序排列在一起;
并将处理后的每一个标签序列发送给所述分类标签确定单元,以使所述分类标签确定单元根据处理后的每一个标签序列执行所述输入到预先训练好的RNN中。
3.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1所述的方法。
4.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1所述的方法。
CN202110018973.8A 2021-01-07 2021-01-07 图像多标签分类方法和装置 Active CN112766330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110018973.8A CN112766330B (zh) 2021-01-07 2021-01-07 图像多标签分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110018973.8A CN112766330B (zh) 2021-01-07 2021-01-07 图像多标签分类方法和装置

Publications (2)

Publication Number Publication Date
CN112766330A CN112766330A (zh) 2021-05-07
CN112766330B true CN112766330B (zh) 2022-06-28

Family

ID=75700937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110018973.8A Active CN112766330B (zh) 2021-01-07 2021-01-07 图像多标签分类方法和装置

Country Status (1)

Country Link
CN (1) CN112766330B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171268A (zh) * 2018-01-02 2018-06-15 联想(北京)有限公司 一种图像处理方法及电子设备
CN108664989A (zh) * 2018-03-27 2018-10-16 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108960073A (zh) * 2018-06-05 2018-12-07 大连理工大学 面向生物医学文献的跨模态图像模式识别方法
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN111709475A (zh) * 2020-06-16 2020-09-25 全球能源互联网研究院有限公司 一种基于N-grams的多标签分类方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881681B (zh) * 2015-05-22 2018-08-14 浙江大学 基于混合图模型的图像序列类别标注方法
CN107818307B (zh) * 2017-10-31 2021-05-18 天津大学 一种基于lstm网络的多标签视频事件检测方法
CN110490236B (zh) * 2019-07-29 2021-08-24 武汉工程大学 基于神经网络的自动图像标注方法、系统、装置和介质
CN110516098A (zh) * 2019-08-26 2019-11-29 苏州大学 基于卷积神经网络及二进制编码特征的图像标注方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171268A (zh) * 2018-01-02 2018-06-15 联想(北京)有限公司 一种图像处理方法及电子设备
CN108664989A (zh) * 2018-03-27 2018-10-16 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108960073A (zh) * 2018-06-05 2018-12-07 大连理工大学 面向生物医学文献的跨模态图像模式识别方法
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN111709475A (zh) * 2020-06-16 2020-09-25 全球能源互联网研究院有限公司 一种基于N-grams的多标签分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adapting RNN Sequence Prediction Model to Multi-label Set Prediction;Kechen Qin等;《arXiv:1904.05829v1》;20190411;全文 *
Cnn-rnn: A unified framework for multi-label image classification;Jiang Wang等;《CVPR》;20161231;正文第2285-2294页 *
循环神经网络多标签航空图像分类;陈科峻;《光学精密工程》;20200630;正文第1404-1413页 *

Also Published As

Publication number Publication date
CN112766330A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN107330074B (zh) 基于深度学习和哈希编码的图像检索方法
CN108427738B (zh) 一种基于深度学习的快速图像检索方法
US11657267B2 (en) Neural network apparatus, vehicle control system, decomposition device, and program
CN110555469B (zh) 处理交互序列数据的方法及装置
Lakshmanan et al. Practical machine learning for computer vision
US11288324B2 (en) Chart question answering
CN110866140A (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN109800768B (zh) 半监督gan的散列特征表示学习方法
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN103324954A (zh) 一种基于树结构的图像分类方法及其系统
CN112488237A (zh) 一种分类模型的训练方法及装置
CN110837570A (zh) 对图像数据进行无偏见分类的方法
CN113761291A (zh) 标签分类的处理方法和装置
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN117893839B (zh) 一种基于图注意力机制的多标记分类方法及系统
Cheng et al. Multi-scale and discriminative part detectors based features for multi-label image classification.
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN112766330B (zh) 图像多标签分类方法和装置
CN112507912A (zh) 一种识别违规图片的方法及装置
CN117237704A (zh) 一种基于二维依赖性的多标签图像分类方法
Liu et al. R Deep Learning Projects: Master the techniques to design and develop neural network models in R
CN111259176A (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN113408546B (zh) 基于相互全局上下文注意力机制的单样本目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220606

Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province

Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant