CN103955462B - 一种基于多视图和半监督学习机制的图像标注方法 - Google Patents

一种基于多视图和半监督学习机制的图像标注方法 Download PDF

Info

Publication number
CN103955462B
CN103955462B CN201410108060.5A CN201410108060A CN103955462B CN 103955462 B CN103955462 B CN 103955462B CN 201410108060 A CN201410108060 A CN 201410108060A CN 103955462 B CN103955462 B CN 103955462B
Authority
CN
China
Prior art keywords
mark
image
multi views
view
semi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410108060.5A
Other languages
English (en)
Other versions
CN103955462A (zh
Inventor
朱松豪
陈玲玲
李向向
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410108060.5A priority Critical patent/CN103955462B/zh
Publication of CN103955462A publication Critical patent/CN103955462A/zh
Application granted granted Critical
Publication of CN103955462B publication Critical patent/CN103955462B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多视图和半监督学习机制的图像标注方法,该方法包括以下步骤:基于不相关视觉特征的多视图分类器学习过程;基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程;基于最大熵投票原则和标注间相关性的多视图标注过程。本发明提出多视图半监督图像标注方法的性能明显优于之前提出的其它方案的性能,该方法的主要思想是:首先利用互不相关的视图来训练多个独立的分类器,然后利用初始标记样本和伪标记样本对视图分类器进行优化,最后基于最大熵投票原则以及各个标注间的相关性,为每幅未标记图像分配合适的语义标注。

Description

一种基于多视图和半监督学习机制的图像标注方法
技术领域
本发明涉及计算机图像处理技术领域,特别涉及一种基于多视图和半监督学习机制的图像标注方法。
背景技术
随着越来越多的数字图像出现在网络、个人电脑和数字采集设备上,要求采用基于内容分析技术实现有效组织和管理如此海量图像信息的愿望也愈来愈强烈。其中,图片标注是实现基于内容的图像索引、检索及其它相关应用的最重要和最关键的一步,其目的是要在底层的视觉信息和高层的语言描述间建立一种精确的对应关系。
近年来,研究者提出了各种各样解决图像标签方案。例如嵌入式深信度网络法、协方差判别法、双线性深度学习法、局部与全局信息法、可分离主成分分析法、图论法、二维多标签主动学习法、以及小波特征度量法、高阶统计法、稀疏编码法等等。这些现有的方法主要研究如何给图像分配合适的标签,以描述出图像的语义内容。图片标注是实现基于内容的图像索引、检索及其它相关应用的最重要和最关键的一步,其目的是要在底层的视觉信息和高层的语言描述间建立一种精确的对应关系。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于克服现有图像标注方法的不足,提供一种基于多视图和半监督学习机制的图像标注方法,该方法结合多视图学习和半监督学习理论,能更好的反映图像的视觉内容。
本发明解决其技术问题所采取的技术方案是:本发明提供了一种基于多视图学习机制和半监督学习机制的图像标注方法,该方法包括以下步骤:
方法流程:
步骤1:基于不相关视觉特征的多视图分类器学习过程;
从图像中提取小波纹理、颜色直方图和边缘方向直方图等足够多的互不相关的视图;
使用基于标记图像集合训练视图分类器。
步骤2:基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程;
得到视图下伪标记样本属于某个标注的概率:
利用高斯距离得到不同视图分类器间标注性能的差异值;
在任意两视图分类器标注性能差异值度量的基础上,得到所有视图分类器标注性能的差异值;
对于视图而言,当未标记样本间所有标注的一致度达到最大时,则基于视图的分类器集合的性能达到最优。
步骤3:基于最大熵投票原则和标注间相关性的多视图标注过程。
在所有语义标注中,语义标注列表中的第一个语义标注---类别标注,它从语义上描述了图像中主要的视觉内容;而标注列表上的其它标注则用以表示标注间的相关性。
因此,本发明的标注过程由如下两部分组成:1.类别标注的生成,它是在利用优化的多视图分类器产生标注结果的基础上,利用最大熵投票得到;2.利用相关性,依次得到标注列表中的其它标注。
附图说明
图1为本发明的方法流程图。
图2为Flickr图像集上的典型图像示意图。
图3为不同分类方法间的性能比较示意图。
图4为不同数量的标记样本和伪标记样本的组合下,不同分类方法间的性能比较示意图。
图5为本发明的实验结果示例图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
如图1所示,本发明提供了一种基于多视图和半监督学习机制的图像标注方法,该方法是首先从图像提取类似小波纹理、颜色直方图和边缘方向直方图等互不相关的视图特征,然后依据这些提取的视图进行视图分类器的训练,最后利用训练后的视图分类器对每个伪标记图像进行标记。已标记样本和部分具有较高可信度的伪标记样本对视图分类器进行优化,以得到标注性能优良的视图分类器;以优化后的视图分类器对未标记图像分配的标注为基础,使用最大熵投票原则和标注间的相关性,得到优化的标注结果。
本发明的基于多视图学习机制和半监督学习机制的图像标注方法的一个优选实施方式,具体包括以下步骤:
步骤1:基于不相关视觉特征的多视图分类器学习过程
1、像中提取小波纹理、颜色直方图和边缘方向直方图等足够多的互不相关的视图;
2、于标记图像集合{x1,x2,…,xl,…,xL}训练第V个视图分类器hv
hv:xlv→yk,l∈(1,L),v∈(1,V),yk∈Y (1)
步骤2:基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程
设puv k表示第v个视图中伪标记样本x(L+u)属于第k个标注的概率值:
使用下列公式计算出第v个视图中伪标记样本x(L+u)属于第k个类别的概率值:
本发明采用高斯距离度量不同视图分类器间标注性能的差异性。设puv={puv 1,puv 2,…,puv k,…,puv K}为伪标记图像x(L+u)属于第v个视图中各个类别的概率,则任意一伪标记图像x(L+u)在两个视图分类器hv和hv'之间的差异值可由下式求得:
在任意两视图分类器标注性能差异值度量的基础上,所有视图分类器标注性能的差异值可表示为:
对于视图v而言,当未标记样本间所有标注的一致度达到最大时,则基于视图v的分类器集合h(v)}的性能达到最优,本发明提出的多视图半监督分类器的优化过程如下所述:利用标记图像以及伪标记图像对每个视图分类器进行迭代训练,直到训练后伪标记图像集合间标注的差异值不再减小。多视图半监督分类器优化过程如下所示:
由上述迭代优化训练过程而知,当成对的伪标记图像在视图分类器上具有明显的差异时,则将这对伪标记图像加入到标记图像集合中;然后,再用新生成的标记图像集去训练视图分类器,从而提高对未标注图像分配合适标签的预测性能。
步骤3:基于最大熵投票原则和标注间相关性的多视图标注过程。
对每幅图像,本发明依据图像内容分配语义标注。在所有语义标注中,语义标注列表中的第一个语义标注---类别标注,它从语义上描述了图像中主要的视觉内容;而标注列表上的其它标注则用以表示标注间的相关性。因此,本发明的标注过程由如下两部分组成:1.类别标注的生成,它是在利用优化的多视图分类器产生标注结果的基础上,利用最大熵投票得到;
2.利用相关性,依次得到标注列表中的其它标注。
1.类别标注的生成过程
对每个未标注图像,采用最大熵投票原则产生第一个标注,即类别标注。
设lqv k表示在视图v中,将标注k分配给未标记图像集合{x1,x2,…,xq,…,xQ}的xq的情况,pqv k表示标注概率集合pqv中的最大值:
本发明利用最大熵投票原则度量视图分类器标注结果的正确度:
其中,vt(lq(.) k)表示在视图v中,将标注k分配给未标记图像xq的投票数目。
如果分配给未标记图像xq的标注是得票数最多的标注,则下面的不等式是正确的:
VEq≥μ-φ-1(α)×δ (8)
其中,Φ表示分配给未标记图像标记结果的标准正态分布,如公式(9)所示;μ和σ分别表示标准正态分布的期望和方差;β表示差异值的置信度。
2.其余标注的生成过程
在类别标注的基础上,利用如公式(10)所示的标注间的相关性依次得到标注列表中的其它标注:
其中,num(yi)和num(yj)分别表示包含标注yi和标注yj的图像数目,num(yi,yj)表示同时包含标注yi和yj的图像数目。
为了更好反映图像的视觉内容,本发明所选用的图片集包含50,000张来自图像共享网站Flickr的图片,这些图片均是通过关键字检索得到,如鸟、熊、猫、花、狐狸、飞机、树、火车、天空和夕阳等。根据感兴趣的程度来对每幅检索图像的相关标注进行排名,把每种类型检索标签的前5000幅图像和它们的相关信息(包括标签、上传时间、位置等)收集到一起。图2显示了与“鸟”和“夕阳”这两个查询关键字相关的一些典型图像。由这两个例子可以看到很多标注有拼写错误或有些标注无任何意义,因此有必要对标注进行优化:只有与维基百科中的词汇匹配时,才能将对应的标注保留下来。本发明对50,000张图片的标注进一步优化后,最终得到共计17226个标注。
从图像集中随机选择24000幅图像作为训练集,并将其余的26000幅图像作为测试集。为得到每幅图像的真实标注集,本发明邀请了10位志愿者依次查看每幅图像,并给出每幅图像的详尽标注;然后,每幅图像的真实标注集则为所有给定标注的交集。
由于特征选择将会对最终的标注结果产生很大影响,所以几十年来特征选择问题已成为识别领域的研究热点。本发明提取包括颜色、纹理、语义描述和文本特征等在内的作为图像的视觉描述符:
HSV空间的128维的颜色直方图,其中色调8个区、饱和度4个区和亮度个区;来自HSV空间的44维的自相关图;
来自LAB空间的225维的颜色块矩阵,在将图像分为5×5网格的基础上,从每个块中提取一个9维块矩阵描述符;
来自HSV空间的18维的边缘直方图,其中在水平和竖直方向分别提取一个9维边缘直方图;
来自6级Harr变换的36维的金字塔小波纹理,其中每级由一个6维特征描述:系数在高/高、高/低、和低/高频段的均值和方差;
来自尺度不变特征变换的词库。
本发明采用归一化的累积收益折扣(Normalized Discounted Cumulative Gain,NDCG@s)作为图像标注质量的评估指标:
其中,Γ表示标注列表上标注s的归一化因子,用以确保NDCG@s的值为1;rel(i)表示标注列表中第i处标注的关联性。
在本发明中,将NDCG@s相关性分为五个层次:最相关的是5,相关的是4,部分相关的是3,弱相关的是2和不相关的是1。本发明的NDCG@s评价标准计算过程为:首先计算每幅未标记图像的NDCG@s,然后将未标记图像集NDCG@s的均值作为性能评估的最终度量标准。
为模拟半监督学习过程,本发明将训练集分为两个子集:一个子集为标注集,其标记为已知的;另一子集为伪标注集,其标记为隐藏的。
随机地选择两个训练子集的数量,每次实验重复50次。本发明的标注训练子集的数量分别选为1000、2000、5000和10000。在每次选择时,保持各个类别间的比例类似于训练集中各个类别的比例。
图3给出了四种不同标注方法的实验对比结果,此时的训练集包含1000幅标记样本和23000伪标记样本,NDCG@s的评价指标是在对训练样本进行50次随机分割和所有十个类别的标注实验后得到的平均值。
从图3中可以清楚地看出,本发明所提的的多视图半监督标注方法优于有监督单视图的标注方法SVS、半监督单视的标注方法SSVS以及半监督多视图的标注方法SSMV。这种改进从下面两个方面印证了本发明所提方法的思路:1.通过将高可信度的伪标记图像对添加到标记图像集中而生成新的标记图像集,对分类器进行迭代训练,以改善分类器的性能;2.在训练阶段和测试阶段同时利用多视图的特征,有利于标注性能的改善。
图4给出了在不同数量的标记样本和伪标记样本的组合下,不同标注方法间的性能比较。图5给出了上述实验结果的示例图。

Claims (1)

1.一种基于多视图和半监督学习机制的图像标注方法,其特征在于,包括以下步骤:
步骤1:基于不相关视觉特征的多视图分类器学习过程;
从图像中提取小波纹理、颜色直方图和边缘方向直方图的互不相关的视图;
使用基于标记图像集合训练视图分类器;
步骤2:基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程;
得到视图下伪标记样本属于某个标注的概率:
利用高斯距离得到不同视图分类器间标注性能的差异值;
在任意两视图分类器标注性能差异值度量的基础上,得到所有视图分类器标注性能的差异值;
对于视图而言,当未标记样本间所有标注的一致度达到最大时,则基于视图的分类器集合的性能达到最优;
步骤3:基于最大熵投票原则和标注间相关性的多视图标注过程;
在所有语义标注中,语义标注列表中的第一个语义标注---类别标注,它从语义上描述了图像中主要的视觉内容;而标注列表上的其它标注则用以表示标注间的相关性;
所述方法的标注过程包括:类别标注的生成,是在利用优化的多视图分类器产生标注结果的基础上,利用最大熵投票得到;利用相关性,依次得到标注列表中的其它标注。
CN201410108060.5A 2014-03-21 2014-03-21 一种基于多视图和半监督学习机制的图像标注方法 Expired - Fee Related CN103955462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410108060.5A CN103955462B (zh) 2014-03-21 2014-03-21 一种基于多视图和半监督学习机制的图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410108060.5A CN103955462B (zh) 2014-03-21 2014-03-21 一种基于多视图和半监督学习机制的图像标注方法

Publications (2)

Publication Number Publication Date
CN103955462A CN103955462A (zh) 2014-07-30
CN103955462B true CN103955462B (zh) 2017-03-15

Family

ID=51332737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410108060.5A Expired - Fee Related CN103955462B (zh) 2014-03-21 2014-03-21 一种基于多视图和半监督学习机制的图像标注方法

Country Status (1)

Country Link
CN (1) CN103955462B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346456B (zh) * 2014-10-31 2017-09-08 海南大学 基于空间依赖性度量的数字图像多语义标注方法
CN104392253B (zh) * 2014-12-12 2017-05-10 南京大学 一种草图数据集的交互式类别标注方法
CN104657744B (zh) * 2015-01-29 2017-10-24 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN104794183A (zh) * 2015-04-10 2015-07-22 浙江大学 一种基于多视图多标签的图片标注方法
CN104809468A (zh) * 2015-04-20 2015-07-29 东南大学 一种基于不定核的多视图分类方法
CN104820843A (zh) * 2015-05-29 2015-08-05 常熟苏大低碳应用技术研究院有限公司 一种基于优化高斯混合模型的图像语义标注的方法
GB201517462D0 (en) * 2015-10-02 2015-11-18 Tractable Ltd Semi-automatic labelling of datasets
CN105550706A (zh) * 2015-12-13 2016-05-04 大巨龙立体科技有限公司 一种2d图像与3d图像的识别方法
CN105426925B (zh) * 2015-12-28 2019-03-08 联想(北京)有限公司 图像标注方法和电子设备
CN108021985B (zh) * 2016-11-03 2022-05-10 北京如布科技有限公司 一种模型参数训练方法及装置
CN107169530A (zh) * 2017-06-09 2017-09-15 成都澳海川科技有限公司 图片的标注方法、装置及电子设备
CN107169532B (zh) * 2017-06-14 2020-07-03 北京航空航天大学 一种基于小波分析和半监督学习的车联网油耗数据质量评估方法
CN108230339B (zh) * 2018-01-31 2021-08-03 浙江大学 一种基于伪标签迭代标注的胃癌病理切片标注补全方法
CN108197320B (zh) * 2018-02-02 2019-07-30 北方工业大学 一种多视图图像自动标注方法
CN108959431B (zh) * 2018-06-11 2022-07-05 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109886925A (zh) * 2019-01-19 2019-06-14 天津大学 一种主动学习与深度学习相结合的铝材表面缺陷检测方法
JP7018408B2 (ja) * 2019-02-20 2022-02-10 株式会社 日立産業制御ソリューションズ 画像検索装置および教師データ抽出方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN111414473B (zh) * 2020-02-13 2021-09-07 合肥工业大学 半监督分类方法和系统
CN116935388B (zh) * 2023-09-18 2023-11-21 四川大学 一种皮肤痤疮图像辅助标注方法与系统、分级方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750385A (zh) * 2012-06-29 2012-10-24 南京邮电大学 基于标签检索的相关性—质量排序图像检索方法
CN103020261A (zh) * 2012-12-24 2013-04-03 南京邮电大学 一种图像自动标注方法
CN103186538A (zh) * 2011-12-27 2013-07-03 阿里巴巴集团控股有限公司 一种图像分类方法和装置、图像检索方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218365B2 (en) * 2011-12-15 2015-12-22 Yeda Research And Development Co. Ltd. Device, system, and method of visual inference by collaborative composition
US9146941B2 (en) * 2012-08-03 2015-09-29 Adobe Systems Incorporated Image tag pair graph for image annotation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186538A (zh) * 2011-12-27 2013-07-03 阿里巴巴集团控股有限公司 一种图像分类方法和装置、图像检索方法和装置
CN102750385A (zh) * 2012-06-29 2012-10-24 南京邮电大学 基于标签检索的相关性—质量排序图像检索方法
CN103020261A (zh) * 2012-12-24 2013-04-03 南京邮电大学 一种图像自动标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Semi-Supervised Learning Model Based Efficient Image Annotation;朱松豪等;《IEEE SIGNAL PROCESSING LETTERS》;20091130;第16卷(第11期);全文 *

Also Published As

Publication number Publication date
CN103955462A (zh) 2014-07-30

Similar Documents

Publication Publication Date Title
CN103955462B (zh) 一种基于多视图和半监督学习机制的图像标注方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Gosselin et al. Revisiting the fisher vector for fine-grained classification
Fergus et al. Learning object categories from Google's image search
CN105488536B (zh) 一种基于多特征深度学习技术的农田害虫图像识别方法
CN106991382A (zh) 一种遥感场景分类方法
CN105808752B (zh) 一种基于cca和2pknn的自动图像标注方法
CN106815604A (zh) 基于多层信息融合的注视点检测方法
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN102289671A (zh) 提取图像纹理特征的方法和装置
Gomez et al. A fast hierarchical method for multi-script and arbitrary oriented scene text extraction
CN105678261B (zh) 基于有监督图的直推式数据降维方法
CN101540047A (zh) 基于独立高斯混合模型的纹理图像分割方法
CN105718532A (zh) 一种基于多深度网络结构的跨媒体排序方法
CN104268552B (zh) 一种基于部件多边形的精细类别分类方法
CN103839078A (zh) 一种基于主动学习的高光谱图像分类方法
Zhang et al. Automatic discrimination of text and non-text natural images
CN105389326A (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN105930873A (zh) 一种基于子空间的自步跨模态匹配方法
CN103810484A (zh) 基于打印字库分析的打印文件鉴别方法
CN104850822A (zh) 基于多特征融合的简单背景下的叶片识别方法
CN104751175A (zh) 基于增量支持向量机的sar图像多类标场景分类方法
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN106056609A (zh) 基于dbnmi模型实现遥感影像自动标注的方法
Parikh et al. Determining patch saliency using low-level context

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170315