CN110175657B - 一种图像多标签标记方法、装置、设备及可读存储介质 - Google Patents

一种图像多标签标记方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110175657B
CN110175657B CN201910486623.7A CN201910486623A CN110175657B CN 110175657 B CN110175657 B CN 110175657B CN 201910486623 A CN201910486623 A CN 201910486623A CN 110175657 B CN110175657 B CN 110175657B
Authority
CN
China
Prior art keywords
label
image
target
training
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910486623.7A
Other languages
English (en)
Other versions
CN110175657A (zh
Inventor
杨晓洲
肖燕珊
刘波
苌征
梁飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910486623.7A priority Critical patent/CN110175657B/zh
Publication of CN110175657A publication Critical patent/CN110175657A/zh
Application granted granted Critical
Publication of CN110175657B publication Critical patent/CN110175657B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像多标签标记方法,该方法包括:获取目标图像,对目标图像进行区域分割,获得与目标图像对应的多个目标示例;利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;将分类结果添加至目标图像的标签信息中,获得多标签图像;其中,迭代训练目标分类器的过程,包括:在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用简单样本集对当前分类器进行训练。应用该方法可获得更为准确的多标签图像。本发明还公开了一种图像多标签标记装置、设备及可读存储介质,具有相应的技术效果。

Description

一种图像多标签标记方法、装置、设备及可读存储介质
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像多标签标记方法、装置、设备及可读存储介质。
背景技术
随着互联网技术和存储技术的快速发展,网页文本、图像信息、视频信息等数据迅速增长,这些数据的大小和结构复杂度也在不断提高。这些数据往往具有多义,如一个网页可以有多个段落,一张图片可以由多个对象区域组成,所以一个网页和一张图片可以由多个不同的示例的集合来表示,这个集合通常称之为包,这样输入空间就有歧义性。同时,一个网页和一张图片代表多个不同的主题,即应赋予多个标签,这样输出空间就有歧义行。
为了解决上述歧义的问题,多示例多标签学习框架被提出。多示例多标签学习也成为研究领域的一个热点,被广泛应用到图像标注、图像分类、基因表达、视频分析、推荐系统等领域。但是,大数据背景下,虽然多示例数据容易获取,但是获取到的大部分数据是没有被标记的,即仅为多示例数据而得多标签多示例数据。如果采用人工方式去标记这些数据,会提高成本。
综上所述,如何有效地解决多示例数据准确地添加上多标签等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种图像多标签标记方法、装置、设备及可读存储介质,以通过采用自步学习的思想训练分类器,然后利用训练好的分类器对待标记图像进行分类标记处理,可获得大量多标签多示例图像,进一步可用于图像标注、图像分类、基因表达、视频分析、推荐系统等领域。
为解决上述技术问题,本发明提供如下技术方案:
一种图像多标签标记方法,包括:
获取目标图像,对所述目标图像进行区域分割,获得与所述目标图像对应的多个目标示例;
利用迭代训练好的分类器对多个所述目标示例分别进行分类处理,获得每个所述目标示例的分类结果;
将所述分类结果添加至所述目标图像的标签信息中,获得多标签图像;
其中,迭代训练所述目标分类器的过程,包括:在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用所述简单样本集对当前分类器进行训练。
优选地,在迭代训练所述目标分类器之前,还包括:
利用神经网络将所述多示例多标签训练集中各个包的所有示例映射为特征向量,并将每一个所述特征向量分别作为一个所述训练样本。
优选地,所述利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,包括:
利用所述当前分类器对所述多示例多标签训练集中未参与上一轮训练的训练样本进行难易分类,将参与上一轮训练的训练样本直接作为简单样本。
优选地,在所述获得多标签图像之后,还包括:
利用所述多标签图像的所述标签信息进行图像检索。
优选地,在所述获得多标签图像之后,还包括:
利用所述多标签图像的所述标签信息进行图像推荐。
优选地,在所述获得多标签图像之后,还包括:
在所述目标图像为目标视频中的图像时,利用所述标签信息对所述目标视频进行分类。
优选地,在所述获得多标签图像之后,还包括:
在所述目标图像为目标网页的截屏图像时,利用所述标签信息对所述目标网页进行分类。
一种图像多标签标记装置,包括:
图像预处理模块,用于获取目标图像,对所述目标图像进行区域分割,获得与所述目标图像对应的多个目标示例;
示例分类模块,用于利用迭代训练好的分类器对多个所述目标示例分别进行分类处理,获得每个所述目标示例的分类结果;
多标签图像获取模块,用于将所述分类结果添加至所述目标图像的标签信息中,获得多标签图像;
分类器训练模块,用于迭代训练所述目标分类器;在迭代训练过程中在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用所述简单样本集对当前分类器进行训练。
一种图像多标签标记设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述图像多标签标记方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述图像多标签标记方法的步骤。
应用本发明实施例所提供的方法,获取目标图像,对目标图像进行区域分割,获得与目标图像对应的多个目标示例;利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;将分类结果添加至目标图像的标签信息中,获得多标签图像;其中,迭代训练目标分类器的过程,包括:在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用简单样本集对当前分类器进行训练。
在对目标分类器进行迭代训练前,为解决多示例多标签训练集中训练样本缺乏多标签的问题,在本方法中在进行迭代训练时结合自步学习由简致难的特点,在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,然后在本轮次训练中,仅利用简单样本集对当前分类器进行训练,如此便可解决标签缺乏的问题。完成迭代训练后,训练获得的目标分类器便可完成为多示例图像进行处理,得到多标签图像。具体的,即当获取的目标图像之后,首先对目标图像进行区域分割,得到与目标图像对应的多个目标示例。然后,利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;将分类结果添加至目标图像的标签信息中,获得多标签图像。可见,在本方法中,可解决训练样本标签缺乏而无法训练出准确分类器的问题,进一步基于训练好的目标分类器可获得更为准确的多标签图像。得到多标签图像之后,进一步有利于提高图像标注、图像分类、基因表达、视频分析、推荐系统等领域中图像处理的准确率。
相应地,本发明实施例还提供了与上述图像多标签标记方法相对应的图像多标签标记装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种图像多标签标记方法的实施流程图;
图2为本发明实施例中一种分类器训练流程示意图;
图3为本发明实施例中一种图像多标签标记装置的结构示意图;
图4为本发明实施例中一种图像多标签标记设备的结构示意图;
图5为本发明实施例中一种图像多标签标记设备的具体结构示意图。
具体实施方式
本发明的核心是提供一种图像多标签标记方法,将自步学习的方法加入多示例多标签学习过程中,不仅能够很好的处理标签缺少的问题,而且能够考虑标签难易性的问题,这有助于更加精确的分类,获得更为准确的多标签图像,进一步利用更为准确的多标签图像可提升图像标注、图像分类、基因表达、视频分析、推荐系统等领域中图像处理的准确率。
其中,自步学习的过程即模拟学生或者人的学习过程,学生要先学习简单的课程,然后在这个基础上学习复杂的课程。自步学习将这个思想应用到机器学习中就是先学习简单样本,然后学习复杂的样本。例如,在学习是否为鸟这个问题是,可以先学习是否有翅膀这个简单的问题,然后再进一步学习是否为鸟。因为自步学习先学习简单的样本,后学复杂的样本的学习过程,所以学习时可以不需要很多的已知标签,即自步学习和解决弱标签问题(即训练样本缺乏标签)。
本发明的另一核心是提供上述图像多标签标记方法相对应的图像多标签标记装置、设备和可读存储介质,具有上述技术效果。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参考图1,图1为本发明实施例中一种图像多标签标记方法的流程图,该方法可应用于计算机中,该方法包括以下步骤:
S101、获取目标图像,对目标图像进行区域分割,获得与目标图像对应的多个目标示例。
其中,目标图像可以为网页图像,可以为视频的组成帧,也可以为监控系统中直接拍摄而得的场景图像,也可以为预先存储在可读存储介质中等候被标记多标签的图像。得到目标图像之后,便可利用常见的诸如SBN bag generator(SBN袋式发生器)的区域分割技术对目标图像进行分割,以获得与目标图像对应的多个目标示例。具体的,可将目标图像分割后的每一个区域分别作为一个目标示例。需要说明的是,在本发明实施例中,一个目标图像对应的目标示例的个数并不做限定,对目标图像进行区域分割的方法也不做限定。
S102、利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果。
在本发明实施例中,在对多个目标示例分别进行分类处理之前,需训练好目标分类器。具体的,可采用迭代训练目标分类器。特别地,迭代训练目标分类器的过程,包括:在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用简单样本集对当前分类器进行训练。
优选地,为了进一步缩短训练时间,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,包括:利用当前分类器对多示例多标签训练集中未参与上一轮训练的训练样本进行难易分类,将参与上一轮训练的训练样本直接作为简单样本。相应地,为了减少计算分类器的损失值,可在全部训练样本均参与训练之后,利用损失函数计算损失值以判断是否达到训练目标。
请参考图2,图2为本发明实施例中一种分类器训练流程示意图。目标分类器的训练过程,包括:
S201、获取缺少标签的多示例多标签训练集。
S202、创建初始分类器,利用初始分类器对多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集。
S203、利用简单样本集对当前分类器进行训练。
S204、利用损失函数判断当前分类器的分类准确率是否达到预设阈值。
如果否,在执行步骤S205;如果是,则执行步骤S206。
S205、利用当前分类器对对多示例多标签训练集中的训练样本进行难易分类,更新简单样本集和困难样本集。
S206、将当前分类器作为训练好的目标分类器。
优选地,为简化训练,缩短训练时长,在迭代训练目标分类器之前,还可以利用神经网络将多示例多标签训练集中各个包的所有示例映射为特征向量,并将每一个特征向量分别作为一个训练样本。具体的,将多示例多标签的数据集用RBF网络(神经网络中的一种,其中,RBF即径向基函数)进行映射,即将每个包中所有示例映射成一个特征向量,这样包中所有示例的信息可以由一个特征向量表示。例如,有200张多示例多标签训练样本图,每张图通过预处理可以得到一个包且每个包有多个示例,可将每个包中所有示例进行映射,这样包中所有示例映射成一个特征向量,这样映射每个包都可以看成一个示例,如此,便可将多示例多标签问题转化成多标签问题。
完成分类的训练之后,便可在获得目标图像之后,利用迭代训练好的分类器对多个目标示例分别进行分类处理,以获得每个目标示例的分类结果。每一个目标示例的分类结果可具体为每一个目标示例对应哪一个具体的分类,例如,与目标图像相对应的目标示例包括:示例1、示例2、示例3和示例4,且针对图像内容进行分类时,其中示例1对应的分类结果可为树,示例2的分类结果可为行人,示例3的分类结果可为草地,示例4的分类结果可为狗。
S103、将分类结果添加至目标图像的标签信息中,获得多标签图像。
在获得各个目标示例的分类结果之后,便可将分类结果添加至目标图像的标签信息中,如此便可获得多个标签图像。也就是说,通过给各个目标示例进行分类,然后基于分类结果便可为目标图像添加上相应示例对应的标签结果。例如,例如,若与目标图像相对应的目标示例包括:示例1、示例2、示例3和示例4,且针对图像内容进行分类时,其中示例1对应的分类结果可为树,示例2的分类结果可为行人,示例3的分类结果可为草地,示例4的分类结果可为狗,则获得的多标签图像可具体为标签信息包括树、行人、草地和狗。
应用本发明实施例所提供的方法,获取目标图像,对目标图像进行区域分割,获得与目标图像对应的多个目标示例;利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;将分类结果添加至目标图像的标签信息中,获得多标签图像;其中,迭代训练目标分类器的过程,包括:在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用简单样本集对当前分类器进行训练。
在对目标分类器进行迭代训练前,为解决多示例多标签训练集中训练样本缺乏多标签的问题,在本方法中在进行迭代训练时结合自步学习由简致难的特点,在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,然后在本轮次训练中,仅利用简单样本集对当前分类器进行训练,如此便可解决标签缺乏的问题。完成迭代训练后,训练获得的目标分类器便可完成为多示例图像进行处理,得到多标签图像。具体的,即当获取的目标图像之后,首先对目标图像进行区域分割,得到与目标图像对应的多个目标示例。然后,利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;将分类结果添加至目标图像的标签信息中,获得多标签图像。可见,在本方法中,可解决训练样本标签缺乏而无法训练出准确分类器的问题,进一步基于训练好的目标分类器可获得更为准确的多标签图像。得到多标签图像之后,进一步有利于提高图像标注、图像分类、基因表达、视频分析、推荐系统等领域中图像处理的准确率。
需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
优选地,在获得多标签图像之后,利用多标签图像的标签信息进行图像检索。利用分类更为准确的分类进行分类后,所得的多标签图像相较于现有的分类器学习而得的准确率更高,利用准确率更高的多标签图像进行图像检索,可进一步提高图像检索的准确率。在本发明实施例中对于图像检索的实现方式可采用内容检索方式,也可采用文本检索方式。
优选地,在获得多标签图像之后,利用多标签图像的标签信息进行图像推荐。利用分类更为准确的分类进行分类后,所得的多标签图像相较于现有的分类器学习而得的准确率更高,利用准确率更高的多标签图像进行图像推荐,可进一步提高图像推荐的准确率。具体的,当需要向用户推荐用户偏好的图像时,则可通过向用户推荐标签信息包含用户感兴趣内容的图像。
优选地,在获得多标签图像之后,在目标图像为目标视频中的图像时,利用标签信息对目标视频进行分类。视频由一帧帧的图像按照特定序列进行播放展示,因此,利用本发明实施例所提供的方法对目标视频中的每一帧图像进行标注之后,可利用标签信息对目标视频进行分类。例如,可对目标视频的每一帧图像的标签信息进行统计计算,将标签信息中标签频率最高的类别作为目标视频的分类类别。如此,便可基于视频中的具体内容完成之准确的视频分类。
优选地,在获得多标签图像之后,在目标图像为目标网页的截屏图像时,利用标签信息对目标网页进行分类。网页中包括大量的图像信息,不同的网页其平面布局也会有所区别,对待分类的目标网页进行截屏后,可利用本发明实施例所提供的图像多标签标记方法对截屏图像进行标注,得到多标签图像,可利用标签信息对目标网页进行分类。利用分类更为准确的分类进行分类后,所得的多标签图像相较于现有的分类器学习而得的准确率更高,利用准确率更高的多标签图像进行网页分类,可进一步提高网页分类的准确率。
为了便于本领域技术人员更好地理解本发明实施例所提供的图像多标签标记方法,下面以分类器的具体训练过程以及训练得到的分类器的具体应用为例,对本发明实施例所提供的图像多标签标记方法进行详细说明。
分类器训练过程,具体实现过程如下:
将上述技术方案进行建模,即求得如下目标方程:
Figure BDA0002085610230000091
Figure BDA0002085610230000092
Figure BDA0002085610230000093
在目标方程中,
Figure BDA0002085610230000094
代表着样本权重,用来评估样本的难易性。具体的,在训练过程,判定为简单样本则
Figure BDA0002085610230000095
值会较大,如取值在区间(0,1]中;复杂样本则
Figure BDA0002085610230000096
即表示当前不加入到训练。
Figure BDA0002085610230000097
为损失函数,即实验的结果和真实结果的差距的数学度量。损失越小说明越接近真实结果。将样本权重和损失相乘,困难样本的样本权重会为0,即表示不加入到训练,简单的样本加入到训练,通过最小化目标方程,求得一个最优样本权重。
Figure BDA0002085610230000098
表示数据集,Xi={x1,x2,...,xn}表示第i个包,每个包中会有多个示例即{x1,x2,...,xn},每个包的标签
Figure BDA0002085610230000099
如果这个包存在着某个标签(含有某个主题)则这个标签等于1,不存在则等于0。例如,若这个包存在
Figure BDA00020856102300000910
这个标签,则
Figure BDA00020856102300000911
如果不存在
Figure BDA00020856102300000912
例如,这个
Figure BDA00020856102300000913
可能代表着虎,狮子等,
Figure BDA00020856102300000914
是某一主题数学符号表示,L表示最大的标签数量。
W=[w1,w2,...,wL]代表着分类器权重,Ri,j代表第i标签和第j标签是否有联系,存在着联系可赋值为1,不存在则赋值为0。
Figure BDA00020856102300000915
表示两种标签的所有对应示例相似度大于一个阈值(θ),
Figure BDA00020856102300000916
是第i标签,和第j标签分类器权重的矩阵,如果这两个标签存在联系,可用L2,1正则化对矩阵进行计算,通过这个正则计算。在求得wi和wj的值时二者相等,同时也保证了这两个权重值不能太大,防止过拟合。
f(v,λ)=λ((2-v)ln(2-v)+vlnv)为自步学习函数,通过这个函数可以控制学习的速度(即步数),当样本的损失小于λ时这个样本被认为是简单样本v就大于0小于1,反之v等于0,在不断增大λ,所有的样本都会被加入到训练。
Figure BDA0002085610230000101
为映射函数,通过这个函数求得一个最优的映射空间,将包中所有的示例映射成一个特征向量。这样将多示例多标签转化成了单示例多标签以便于简化训练过程。最后约束部分可保证有联系的标签之间具有相同的示例。
通过建模得到这个目标方程,因此在实际训练过程中,只需要对目标方程进行求解,既可以得到想要的目标分类器。
求解目标方程的过程如下:
由于求解的参数比较多,可先固定三个参数求一个参数的方法来求解。
可先固定C,
Figure BDA0002085610230000102
V,求解W。当其余参数固定,只需求如下目标方程:
Figure BDA0002085610230000103
其中,
Figure BDA0002085610230000104
如此便只有一个未知参数。固定一个参数,求另一个具体为:当固定η(i,j)时,只需要用一个简单的二次规划(QP)求解L个独立子问题,L表示标签个数(主题个数),不同的实验的值不同,求解可以得到wl。当wl固定时,用一个求封闭解的方法来求解。首先可假设一个小常数
Figure BDA0002085610230000105
Figure BDA0002085610230000106
其中
Figure BDA0002085610230000107
此时只需要反复迭代目标方程,直到收敛即可。
固定C,W,V,求解
Figure BDA0002085610230000108
当固定其他参数时,只需求如下目标方程:
Figure BDA0002085610230000111
Figure BDA0002085610230000112
Figure BDA0002085610230000113
求解此目标方程,即简单线性规划问题,只需迭代求最值即可。
固定
Figure BDA0002085610230000114
W,C,求解V,当固定其他参数,只需求解如下目标方程:
Figure BDA0002085610230000115
通过自步学习的相关准则来求解,得到v*=2/(1+el/λ)其中l表示样本损失。
固定
Figure BDA0002085610230000116
W,V,求解C,当固定其他参数,只需求解如下目标方程:
Figure BDA0002085610230000117
使用次梯度法去找到最优C,即C(u+1)=C(u)-αg(C(u)),
Figure BDA0002085610230000118
反复迭代直到
Figure BDA0002085610230000119
不在变化,得到最佳的C。
上述求解过程,在实际应用时,可转换为如下算法伪代码如下:
输入数据集
Figure BDA00020856102300001110
变量β,ε,λ,μ;
初始化C,通过将每个标签的正包聚类;初始化W,通过用L个分类模型;初始化V,都初始为0;
While不收敛do
While不收敛do
固定C,
Figure BDA00020856102300001111
V,更新W
固定C,W,V,更新
Figure BDA00020856102300001112
End while
固定
Figure BDA00020856102300001113
W,V,更新C
固定C,
Figure BDA00020856102300001114
W,更新V
End while
输出W,
Figure BDA00020856102300001115
C
如此,便可获得目标分类器。需要说明的是,本发明所提供的分类器训练过程在文本分类器训练过程中亦可使用,即将样本从图像样本更替为文本样本即可。相应地,训练得到的文本样本相应具有更好的分类准确率。
应用实验:
本实验方案使用周志华教授实验室给出的情景分类的多示例多标签数据集,这个数据集包括2000张原始情景图片,具体有5种类型的主题,即5个标签。约22%的图片有多个标签,使用SBN bag generator这个方法来将图片分割成多个示例生成一个包。为了体现本发明实施例所提供的技术方案在解决弱标签(标签缺少)的数据优势,可对数据集进行去除标签处理,做四个对比实验,分别保留整个数据集标签的10%,20%,30%,40%。用配对样本T检验Hamming loss(HL,汉明损失),macro-F1(ma-F1,宏参数),micro=F1(mi-F1,微参数)标准。同时和常见的多示例多标签的算法进行比较。实验结果如下表1所示。
Figure BDA0002085610230000121
表1
其中,本发明实施例所提供的图像多标签标记方法称为SPMIML-D,SPMIML为在SPMIML-D的基础上优化了映射空间的方法,其余均为参与比较的算法。黑点表示,采用了本发明实施例所提供的图像多标签标记方法对应算法优于其算法,HL向下的箭头表示值越小实验效果越好,maF1,miF1向上的箭头表示值越大实验效果越好。从实验数据可以看出,本发明实施例所提供的图像多标签标记方法明显优于其他方法。
实施例二:
相应于上面的方法实施例,本发明实施例还提供了一种图像多标签标记装置,下文描述的图像多标签标记装置与上文描述的图像多标签标记方法可相互对应参照。
参见图3所示,该装置包括以下模块:
图像预处理模块101,用于获取目标图像,对目标图像进行区域分割,获得与目标图像对应的多个目标示例;
示例分类模块102,用于利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;
多标签图像获取模块103,用于将分类结果添加至目标图像的标签信息中,获得多标签图像;
分类器训练模块104,用于迭代训练目标分类器;在迭代训练过程中在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用简单样本集对当前分类器进行训练。
应用本发明实施例所提供的装置,获取目标图像,对目标图像进行区域分割,获得与目标图像对应的多个目标示例;利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;将分类结果添加至目标图像的标签信息中,获得多标签图像;其中,迭代训练目标分类器的过程,包括:在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用简单样本集对当前分类器进行训练。
在对目标分类器进行迭代训练前,为解决多示例多标签训练集中训练样本缺乏多标签的问题,在本装置中在进行迭代训练时结合自步学习由简致难的特点,在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,然后在本轮次训练中,仅利用简单样本集对当前分类器进行训练,如此便可解决标签缺乏的问题。完成迭代训练后,训练获得的目标分类器便可完成为多示例图像进行处理,得到多标签图像。具体的,即当获取的目标图像之后,首先对目标图像进行区域分割,得到与目标图像对应的多个目标示例。然后,利用迭代训练好的分类器对多个目标示例分别进行分类处理,获得每个目标示例的分类结果;将分类结果添加至目标图像的标签信息中,获得多标签图像。可见,在本装置中,可解决训练样本标签缺乏而无法训练出准确分类器的问题,进一步基于训练好的目标分类器可获得更为准确的多标签图像。得到多标签图像之后,进一步有利于提高图像标注、图像分类、基因表达、视频分析、推荐系统等领域中图像处理的准确率。
在本发明的一种具体实施方式中,分类器训练模块104,具体用于在迭代训练目标分类器之前,还可利用神经网络将多示例多标签训练集中各个包的所有示例映射为特征向量,并将每一个特征向量分别作为一个训练样本。
在本发明的一种具体实施方式中,分类器训练模块104,具体用于利用当前分类器对多示例多标签训练集中未参与上一轮训练的训练样本进行难易分类,将参与上一轮训练的训练样本直接作为简单样本。
在本发明的一种具体实施方式中,还包括:
图像检索模块,用于在获得多标签图像之后,利用多标签图像的标签信息进行图像检索。
在本发明的一种具体实施方式中,还包括:
图像推荐模块,用于在获得多标签图像之后,利用多标签图像的标签信息进行图像推荐。
在本发明的一种具体实施方式中,还包括:
视频分类模块,用于在获得多标签图像之后,在目标图像为目标视频中的图像时,利用标签信息对目标视频进行分类。
在本发明的一种具体实施方式中,还包括:
网页分类模块,用于在获得多标签图像之后,在目标图像为目标网页的截屏图像时,利用标签信息对目标网页进行分类。
实施例三:
相应于上面的方法实施例,本发明实施例还提供了一种图像多标签标记设备,下文描述的一种图像多标签标记设备与上文描述的一种图像多标签标记方法可相互对应参照。
参见图4所示,该图像多标签标记设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的图像多标签标记方法的步骤。
具体的,请参考图5,为本实施例提供的一种图像多标签标记设备的具体结构示意图,该图像多标签标记设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在图像多标签标记设备301上执行存储介质330中的一系列指令操作。
图像多标签标记设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
上文所描述的图像多标签标记方法中的步骤可以由图像多标签标记设备的结构实现。
实施例四:
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种图像多标签标记方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的图像多标签标记方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (8)

1.一种图像多标签标记方法,其特征在于,包括:
获取目标图像,对所述目标图像进行区域分割,获得与所述目标图像对应的多个目标示例;
利用迭代训练好的目标分类器对多个所述目标示例分别进行分类处理,获得每个所述目标示例的分类结果;
将所述分类结果添加至所述目标图像的标签信息中,获得多标签图像;
其中,迭代训练所述目标分类器的过程,包括:在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用所述简单样本集对当前分类器进行训练;
其中,所述利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,包括:
利用所述当前分类器对所述多示例多标签训练集中未参与上一轮训练的训练样本进行难易分类,将参与上一轮训练的训练样本直接作为简单样本;
其中,在迭代训练所述目标分类器之前,还包括:
利用神经网络将所述多示例多标签训练集中各个包的所有示例映射为特征向量,并将每一个所述特征向量分别作为一个所述训练样本;
目标分类器训练过程,具体如下:
求得如下目标方程:
Figure FDA0003204520430000011
Figure FDA0003204520430000012
Figure FDA0003204520430000013
其中,
Figure FDA0003204520430000014
代表着样本权重;
Figure FDA0003204520430000015
为损失函数;
Figure FDA0003204520430000021
表示数据集,Xi={x1,x2,...,xn}表示第i个包,每个包中会有多个示例即{x1,x2,...,xn},每个包的标签
Figure FDA0003204520430000022
W=[w1,w2,...,wL]代表着分类器权重,Ri,j代表第i标签和第j标签是否有联系;
Figure FDA0003204520430000023
表示两种标签的所有对应示例相似度大于一个阈值(θ),
Figure FDA0003204520430000024
是第i标签,和第j标签分类器权重的矩阵;
f(v,λ)=λ((2-v)ln(2-v)+vlnv)为自步学习函数;
Figure FDA0003204520430000025
为映射函数;
在训练过程中,对所述目标方程进行求解,得到所述目标分类器。
2.根据权利要求1所述的图像多标签标记方法,其特征在于,在所述获得多标签图像之后,还包括:
利用所述多标签图像的所述标签信息进行图像检索。
3.根据权利要求1所述的图像多标签标记方法,其特征在于,在所述获得多标签图像之后,还包括:
利用所述多标签图像的所述标签信息进行图像推荐。
4.根据权利要求1所述的图像多标签标记方法,其特征在于,在所述获得多标签图像之后,还包括:
在所述目标图像为目标视频中的图像时,利用所述标签信息对所述目标视频进行分类。
5.根据权利要求1所述的图像多标签标记方法,其特征在于,在所述获得多标签图像之后,还包括:
在所述目标图像为目标网页的截屏图像时,利用所述标签信息对所述目标网页进行分类。
6.一种图像多标签标记装置,其特征在于,包括:
图像预处理模块,用于获取目标图像,对所述目标图像进行区域分割,获得与所述目标图像对应的多个目标示例;
示例分类模块,用于利用迭代训练好的目标分类器对多个所述目标示例分别进行分类处理,获得每个所述目标示例的分类结果;
多标签图像获取模块,用于将所述分类结果添加至所述目标图像的标签信息中,获得多标签图像;
分类器训练模块,用于迭代训练所述目标分类器;在迭代训练过程中在每一轮训练开始前,利用当前分类器对缺少标签的多示例多标签训练集中的训练样本进行难易分类,获得简单样本集和困难样本集,并利用所述简单样本集对当前分类器进行训练;
所述分类器训练模块,具体用于利用所述当前分类器对所述多示例多标签训练集中未参与上一轮训练的训练样本进行难易分类,将参与上一轮训练的训练样本直接作为简单样本;
所述分类器训练模块,还用于在迭代训练所述目标分类器之前,利用神经网络将所述多示例多标签训练集中各个包的所有示例映射为特征向量,并将每一个所述特征向量分别作为一个所述训练样本;
目标分类器训练过程,具体如下:
求得如下目标方程:
Figure FDA0003204520430000031
Figure FDA0003204520430000032
Figure FDA0003204520430000033
其中,
Figure FDA0003204520430000034
代表着样本权重;
Figure FDA0003204520430000035
为损失函数;
Figure FDA0003204520430000036
表示数据集,Xi={x1,x2,...,xn}表示第i个包,每个包中会有多个示例即{x1,x2,...,xn},每个包的标签
Figure FDA0003204520430000037
W=[w1,w2,...,wL]代表着分类器权重,Ri,j代表第i标签和第j标签是否有联系;
Figure FDA0003204520430000041
表示两种标签的所有对应示例相似度大于一个阈值(θ),
Figure FDA0003204520430000042
是第i标签,和第j标签分类器权重的矩阵;
f(v,λ)=λ((2-v)ln(2-v)+vlnv)为自步学习函数;
Figure FDA0003204520430000043
为映射函数;
在训练过程中,对所述目标方程进行求解,得到所述目标分类器。
7.一种图像多标签标记设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述图像多标签标记方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像多标签标记方法的步骤。
CN201910486623.7A 2019-06-05 2019-06-05 一种图像多标签标记方法、装置、设备及可读存储介质 Expired - Fee Related CN110175657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910486623.7A CN110175657B (zh) 2019-06-05 2019-06-05 一种图像多标签标记方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910486623.7A CN110175657B (zh) 2019-06-05 2019-06-05 一种图像多标签标记方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110175657A CN110175657A (zh) 2019-08-27
CN110175657B true CN110175657B (zh) 2021-10-01

Family

ID=67697119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910486623.7A Expired - Fee Related CN110175657B (zh) 2019-06-05 2019-06-05 一种图像多标签标记方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110175657B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807523B (zh) * 2019-10-23 2022-08-05 中科智云科技有限公司 相似目标的检测模型生成方法及设备
CN111310693B (zh) * 2020-02-26 2023-08-29 腾讯科技(深圳)有限公司 图像中文本的智能标注方法、装置及存储介质
CN111950644B (zh) * 2020-08-18 2024-03-26 东软睿驰汽车技术(沈阳)有限公司 模型的训练样本选择方法、装置及计算机设备
CN112819803B (zh) * 2021-02-22 2024-03-22 珠海博明视觉科技有限公司 一种用于机器视觉缺陷检测的神经网络分类器的使用方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116893A (zh) * 2013-03-15 2013-05-22 南京大学 基于多示例多标记学习的数字图像标注方法
CN105046284A (zh) * 2015-08-31 2015-11-11 鲁东大学 一种基于特征选择的多示例多标签学习方法及系统
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN105678309A (zh) * 2016-02-03 2016-06-15 山东工商学院 一种基于多示例包特征学习的图像多标签标注算法
CN105760890A (zh) * 2016-03-01 2016-07-13 南京邮电大学 多示例多标记中基于样本特征分布的主动学习设计方法
CN106055705A (zh) * 2016-06-21 2016-10-26 广东工业大学 基于最大间距多任务多示例学习的网页分类方法
CN106127247A (zh) * 2016-06-21 2016-11-16 广东工业大学 基于多任务多示例支持向量机的图像分类方法
CN108388656A (zh) * 2018-03-06 2018-08-10 南京邮电大学 一种基于标记相关性的图片搜索方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249366B2 (en) * 2008-06-16 2012-08-21 Microsoft Corporation Multi-label multi-instance learning for image classification
CN104809475B (zh) * 2015-05-06 2018-05-04 西安电子科技大学 基于增量线性判别分析的多类标场景分类方法
CN105046269B (zh) * 2015-06-19 2019-02-22 鲁东大学 一种基于多核融合的多示例多标签场景分类方法
CN106504255B (zh) * 2016-11-02 2019-04-09 南京大学 一种基于多标签多示例学习的多目标图像联合分割方法
CN108764192B (zh) * 2018-06-04 2021-05-18 华中师范大学 一种面向平安城市视频监控应用的多示例多标签学习方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116893A (zh) * 2013-03-15 2013-05-22 南京大学 基于多示例多标记学习的数字图像标注方法
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN105046284A (zh) * 2015-08-31 2015-11-11 鲁东大学 一种基于特征选择的多示例多标签学习方法及系统
CN105678309A (zh) * 2016-02-03 2016-06-15 山东工商学院 一种基于多示例包特征学习的图像多标签标注算法
CN105760890A (zh) * 2016-03-01 2016-07-13 南京邮电大学 多示例多标记中基于样本特征分布的主动学习设计方法
CN106055705A (zh) * 2016-06-21 2016-10-26 广东工业大学 基于最大间距多任务多示例学习的网页分类方法
CN106127247A (zh) * 2016-06-21 2016-11-16 广东工业大学 基于多任务多示例支持向量机的图像分类方法
CN108388656A (zh) * 2018-03-06 2018-08-10 南京邮电大学 一种基于标记相关性的图片搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Self-Paced Regularization Framework for Multi-Label Learning;Changsheng Li等;《arXiv:1603.06708v2》;20160406;第1-6页 *
基于多示例多标签径向基神经网络的网页分类方法;李金鑫;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715;正文第11-32、43-58页 *
基于多示例多标记学习的自然场景图像分类;杨素燕;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115;全文 *

Also Published As

Publication number Publication date
CN110175657A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN109741332B (zh) 一种人机协同的图像分割与标注方法
US10354392B2 (en) Image guided video semantic object segmentation method and apparatus
US20220215259A1 (en) Neural network training method, data processing method, and related apparatus
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN108229522B (zh) 神经网络的训练方法、属性检测方法、装置及电子设备
CN114067119B (zh) 全景分割模型的训练方法、全景分割方法及装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112116599A (zh) 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
KR20230171966A (ko) 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
CN111052128A (zh) 用于检测和定位视频中的对象的描述符学习方法
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN113065533B (zh) 一种特征提取模型生成方法、装置、电子设备和存储介质
CN117765432A (zh) 一种基于动作边界预测的中学理化生实验动作检测方法
CN112668710B (zh) 模型训练、管状物提取、数据识别方法及设备
CN117218408A (zh) 基于因果纠偏学习的开放世界目标检测方法及装置
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN116258937A (zh) 基于注意力机制的小样本分割方法、装置、终端及介质
CN115359296A (zh) 图像识别方法、装置、电子设备及存储介质
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
Wolters et al. Classification of large-scale remote sensing images for automatic identification of health hazards: Smoke detection using an autologistic regression classifier
CN113822302A (zh) 一种目标检测模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211001

CF01 Termination of patent right due to non-payment of annual fee