CN112990385A - 一种基于半监督变分自编码器的主动众包图像学习方法 - Google Patents

一种基于半监督变分自编码器的主动众包图像学习方法 Download PDF

Info

Publication number
CN112990385A
CN112990385A CN202110531443.3A CN202110531443A CN112990385A CN 112990385 A CN112990385 A CN 112990385A CN 202110531443 A CN202110531443 A CN 202110531443A CN 112990385 A CN112990385 A CN 112990385A
Authority
CN
China
Prior art keywords
image
crowdsourcing
semi
supervised
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110531443.3A
Other languages
English (en)
Other versions
CN112990385B (zh
Inventor
李绍园
侍野
黄圣君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Fenghuang Intelligent Education Research Institute Co ltd
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110531443.3A priority Critical patent/CN112990385B/zh
Publication of CN112990385A publication Critical patent/CN112990385A/zh
Application granted granted Critical
Publication of CN112990385B publication Critical patent/CN112990385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于半监督变分自编码器的主动众包图像学习方法,具体为:获取图片集,随机抽选一定比例的图像,将其分发给网络上的标注者进行标注,获得众包标记;搭建基于半监督变分自编码器的众包学习网络模型;将数据集输入模型,构造损失函数;基于随机梯度下降,端到端地对模型进行训练;选择预测真实标记的熵最大的图像,查询真实标记;与上一轮迭代所使用的训练集组合,生成新的数据集,返回第三步,直到当前迭代次数到达阈值为止;删去模型重构部分和众包映射层部分,将网络的剩余部分作为分类器。本发明同时利用众包数据和无标记数据,降低数据的标注成本。并通过引入少量真实标记,来缓解模型对于噪声的过拟合,提高模型的泛化性能。

Description

一种基于半监督变分自编码器的主动众包图像学习方法
技术领域
本发明涉及一种基于半监督变分自编码器的主动众包图像学习方法,属于图像标注技术领域。
背景技术
传统的监督学习需要大量的专家图像,需要比较高的标注成本。为了降低成本,人们提出了多种方法,比如众包学习、半监督学习和主动学习。
众包学习的流程是首先发布标注任务在网络平台上,任何人都可以进行这个标注任务,所收集到的数据比专家标注噪声比例更多。为了解决众包中非专家标注者的不确定性,通常会让每张图像由多个标注者进行标注,即重复标注。如何利用这种具有噪声和重复标记的众包数据成为了众包学习的关键点。代表性的方式有从每张图像的多个标签集估计其真实标记的真实标记推断,其中最为简单的是Majority-voting,对每个标注者的可靠度进行建模的DS模型及其变种,使用EM式算法联合学习分类器模型和标注者噪声模型, 使用预测模型来提高数据质量,与主动学习结合等。其中,尽管众包学习中的标签聚合方法可以与任何类型的机器学习算法结合使用,但与同样联合学习分类器本身的方法相比,它们是次优的。
半监督学习通过引入大量的无标记数据,这些无标记数据和有标记数据是同分布的,通过无标记数据来对模型进行约束,缓解模型的过拟合,提高它的性能同时降低对专家标记数量的需求。不过,将众包学习和半监督学习结合起来的工作都没有考虑过引入少量的额外监督信息来缓解模型对于众包数据中噪声的拟合。
主动学习则是通过某种指标或策略选择出无标记数据中最具有信息量的图像,之后询问专家这些图像的标记。将众包学习和主动学习结合起来的工作均聚焦于询问图像的众包标注而非专家标注。但是在实际情况中,少量图像的真实标记不会增加太多的标记成本,但却很有可能较大地提高模型的泛化性能。
发明内容
本发明所要解决的技术问题是:提供一种基于半监督变分自编码器的主动众包图像学习方法,同时利用众包数据和无标记数据,降低数据的标注成本。并通过引入少量真实标记,来缓解模型对于噪声的拟合,提高模型的泛化性能。
本发明为解决上述技术问题采用以下技术方案:
一种基于半监督变分自编码器的主动众包图像学习方法,包括如下步骤:
步骤1,获取图像集X ,将图像集X 按照预设比例随机划分为第一图像集
Figure 256686DEST_PATH_IMAGE001
和 第二图像集
Figure 575672DEST_PATH_IMAGE002
,将第一图像集
Figure 946610DEST_PATH_IMAGE001
分发给网络上的标注者进行标注,获得相应的 众包标记
Figure 817483DEST_PATH_IMAGE003
步骤2,搭建半监督众包学习网络模型,所述半监督众包学习网络模型包括半监督变分自编码器、众包映射层和主动学习框架;
步骤3,将第一图像集
Figure 641083DEST_PATH_IMAGE001
、第二图像集
Figure 498180DEST_PATH_IMAGE002
、众包标记
Figure 723625DEST_PATH_IMAGE003
、第三图像 集
Figure 781711DEST_PATH_IMAGE004
和真实标记集
Figure 827028DEST_PATH_IMAGE005
作为训练集,输入半监督众包学习网络模型,基于训练集和网络参 数构造变分下界损失函数;第一次迭代时,
Figure 487816DEST_PATH_IMAGE004
Figure 692401DEST_PATH_IMAGE005
均为空集;
步骤4,基于随机梯度下降方法,端到端地对半监督众包学习网络模型进行训练,得到训练好的半监督众包学习网络模型;
步骤5,利用训练好的半监督众包学习网络模型对第二图像集
Figure 46022DEST_PATH_IMAGE002
中每幅图 像的真实标记概率进行预测,从第二图像集
Figure 578635DEST_PATH_IMAGE002
中选择真实标记概率预测值的熵最大 的图像
Figure 918480DEST_PATH_IMAGE006
,获取图像
Figure 852938DEST_PATH_IMAGE006
的真实标记
Figure 111881DEST_PATH_IMAGE007
步骤6,将图像
Figure 131790DEST_PATH_IMAGE006
加入第三图像集
Figure 790173DEST_PATH_IMAGE004
,将真实标记
Figure 579138DEST_PATH_IMAGE007
加入真实标记集
Figure 8982DEST_PATH_IMAGE005
,返 回步骤3,直到当前迭代次数达到阈值为止,得到最终的半监督众包学习网络模型;
步骤7,对最终的半监督众包学习网络模型,删掉重构部分和众包映射层部分,将剩余部分作为众包图像分类器;
步骤8,利用众包图像分类器对待标注图像进行标注,得到众包学习标记。
作为本发明的一种优选方案,步骤2所述众包映射层,具体形式如下:
Figure 391553DEST_PATH_IMAGE008
其中,
Figure 463414DEST_PATH_IMAGE009
表示第r个标注者的众包标记,
Figure 106885DEST_PATH_IMAGE010
表示第r个众包映射层,y表示 真实标记,
Figure 97844DEST_PATH_IMAGE011
R为标注者的数量。
作为本发明的一种优选方案,步骤3所述变分下界损失函数的构造方法为:
对于
Figure 826765DEST_PATH_IMAGE012
,其变分下界构造过程如下所示:
Figure 436738DEST_PATH_IMAGE013
Figure 934716DEST_PATH_IMAGE014
其中,
Figure 847308DEST_PATH_IMAGE015
表示第一图像集
Figure 329105DEST_PATH_IMAGE001
中的图像,
Figure 477190DEST_PATH_IMAGE016
表示
Figure 219886DEST_PATH_IMAGE015
的真实标记,
Figure 428014DEST_PATH_IMAGE017
表示隐变 量,
Figure 131528DEST_PATH_IMAGE018
表示
Figure 83303DEST_PATH_IMAGE015
Figure 431239DEST_PATH_IMAGE016
的似然函数,
Figure 810268DEST_PATH_IMAGE019
表示期望,
Figure 1078DEST_PATH_IMAGE020
表示
Figure 881178DEST_PATH_IMAGE016
的先验分布,
Figure 473833DEST_PATH_IMAGE021
表示
Figure 758184DEST_PATH_IMAGE017
的先验分布,
Figure 436290DEST_PATH_IMAGE022
表示
Figure 870814DEST_PATH_IMAGE015
的后验分布,
Figure 317975DEST_PATH_IMAGE023
表示对
Figure 38807DEST_PATH_IMAGE021
的近似分布,
Figure 63263DEST_PATH_IMAGE024
表示
Figure 894953DEST_PATH_IMAGE015
Figure 462201DEST_PATH_IMAGE016
的损失函数,
Figure 494879DEST_PATH_IMAGE025
表示分布参数,
Figure 881998DEST_PATH_IMAGE026
为变分参 数;
对于
Figure 517379DEST_PATH_IMAGE027
,其变分下界构造过程如下所示:
Figure 939133DEST_PATH_IMAGE028
Figure 391980DEST_PATH_IMAGE029
其中,
Figure 266395DEST_PATH_IMAGE030
表示第二图像集
Figure 439887DEST_PATH_IMAGE002
的图像,
Figure 591514DEST_PATH_IMAGE031
表示关于
Figure 90628DEST_PATH_IMAGE030
的似然函数,
Figure 452339DEST_PATH_IMAGE032
表示
Figure 554157DEST_PATH_IMAGE030
的后验分布,
Figure 684924DEST_PATH_IMAGE033
表示近似的
Figure 89360DEST_PATH_IMAGE020
Figure 79313DEST_PATH_IMAGE034
是对
Figure 860187DEST_PATH_IMAGE035
的近似分布,而
Figure 845461DEST_PATH_IMAGE035
是关于
Figure 420798DEST_PATH_IMAGE036
的先验联合分布,
Figure 147315DEST_PATH_IMAGE037
表示关于
Figure 466301DEST_PATH_IMAGE030
Figure 571660DEST_PATH_IMAGE016
的损失函数,
Figure 193265DEST_PATH_IMAGE038
表示
Figure 16865DEST_PATH_IMAGE033
的熵,
Figure 873962DEST_PATH_IMAGE039
表示关于
Figure 224041DEST_PATH_IMAGE030
的损失函数;
最终的变分下界损失函数为:
Figure 406761DEST_PATH_IMAGE040
Figure 452077DEST_PATH_IMAGE041
Figure 112866DEST_PATH_IMAGE042
当第一次迭代时,损失函数的第四项为0;
其中,
Figure 333763DEST_PATH_IMAGE043
表示变分下界损失函数,
Figure 421804DEST_PATH_IMAGE044
均表示超参数,
Figure 954417DEST_PATH_IMAGE045
表示第一图 像集的分布,
Figure 543530DEST_PATH_IMAGE046
表示第二图像集的分布,
Figure 477988DEST_PATH_IMAGE047
表示第三图像集的分布,
Figure 736931DEST_PATH_IMAGE048
分别 表示第三图像集的单张图像和其真实标记,
Figure 756840DEST_PATH_IMAGE010
表示第r个众包映射层,y表示真实标记,
Figure 634797DEST_PATH_IMAGE049
表示由
Figure 689341DEST_PATH_IMAGE009
经过众包映射层反向映射得到的目标标记,
Figure 384764DEST_PATH_IMAGE050
表示代入了
Figure 16603DEST_PATH_IMAGE049
Figure 557305DEST_PATH_IMAGE051
作为本发明的一种优选方案,步骤4所述端到端地对半监督众包学习网络模型进行训练所采用的优化器为SGD或Adam。
作为本发明的一种优选方案,所述步骤5的具体过程如下:
1)利用训练好的半监督众包学习网络模型对第二图像集
Figure 466356DEST_PATH_IMAGE002
中每幅图像的 真实标记概率进行预测,得到真实标记概率预测值
Figure 208047DEST_PATH_IMAGE052
2)计算
Figure 202547DEST_PATH_IMAGE052
的熵
Figure 546941DEST_PATH_IMAGE053
3)从第二图像集
Figure 310498DEST_PATH_IMAGE002
中挑选
Figure 472358DEST_PATH_IMAGE053
最大图像
Figure 954155DEST_PATH_IMAGE006
4)获取图像
Figure 102239DEST_PATH_IMAGE006
对应的真实标记
Figure 595668DEST_PATH_IMAGE007
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明结合半监督学习、众包学习以及主动学习的优势,使用半监督变分自编码器完成众包数据集共享表示学习,使用众包映射层完成真实标记层到众包标记层的映射,使用主动挑选不断迭代的方式引入少量真实标记,实现了端到端训练,提高了图像估计的效果和效率。
附图说明
图1是本发明一种基于半监督变分自编码器的主动众包图像学习方法的流程图。
图2是本发明模型的结构图。
图3是本发明迭代挑选的具体流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,展示了基于半监督变分自编码器与主动学习的众包图像学习方法的具体流程,包括以下步骤:
步骤1:构造图像众包数据集。
获取图像后,随机抽选t比例的图像,将它们记为
Figure 803796DEST_PATH_IMAGE001
,之后通过众包平台,如 Amazon Mechanical Turk和 Crowdflower 等,分发给网络上的标注者进行预标注,得到标 注
Figure 507310DEST_PATH_IMAGE003
。剩余的没有被标注的部分我们记作
Figure 193506DEST_PATH_IMAGE002
步骤2:搭建半监督众包学习网络模型,图2是模型的结构图。
在步骤2中,我们所搭建的半监督主动众包学习网络由一个半监督变分自编码器、一个映射层与一套迭代的主动学习框架组成。
首先,我们将表示整个数据集表示为
Figure 321868DEST_PATH_IMAGE054
,其 中,
Figure 700897DEST_PATH_IMAGE055
为单张图片,
Figure 891707DEST_PATH_IMAGE056
Figure 522539DEST_PATH_IMAGE055
的真实标记,
Figure 849615DEST_PATH_IMAGE057
Figure 399545DEST_PATH_IMAGE055
对应的隐变量,n是样本数量。在半监 督的设定下,只有一部分
Figure 202285DEST_PATH_IMAGE055
有着对应的
Figure 495863DEST_PATH_IMAGE056
,其中,
Figure 943025DEST_PATH_IMAGE058
,而
Figure 398277DEST_PATH_IMAGE059
。其中
Figure 704625DEST_PATH_IMAGE001
是有标记图像集,我们设之为第一图像集;
Figure 536314DEST_PATH_IMAGE002
是无标记图像集,我们设之为第二图像集。我们其分布分别表示为
Figure 103562DEST_PATH_IMAGE060
Figure 854349DEST_PATH_IMAGE061
。整个数据集可以被解释为以下的生成过程:
Figure 507047DEST_PATH_IMAGE062
其中,
Figure 142428DEST_PATH_IMAGE063
服从一个多项式分布。对于图片
Figure 439548DEST_PATH_IMAGE064
来说,由于他们没有真实 标记,所以
Figure 502182DEST_PATH_IMAGE063
对于它们来说是一个隐变量,
Figure 376597DEST_PATH_IMAGE065
也是一个隐变量。这些隐变量相互之间边缘 独立。而
Figure 815669DEST_PATH_IMAGE066
则是一个似然函数,通过对隐变量的非线性变换进行参数化,我们 使用了深度神经网络作为这种非线性变换的近似。由于大多数的标签
Figure 216563DEST_PATH_IMAGE063
是未知的,在推理 过程中,对于无标记数据,我们将其所有类别的情况进行求和,从而以推理的方式进行分 类。而对于无标记数据类别的预测则是从推断的后验分布
Figure 450099DEST_PATH_IMAGE067
中得到。因此,这个模 型也可以看作是一个连续分布于离散分布的混合模型,组件之间共享参数。
然后,我们引入变分推断的方式。以
Figure 77389DEST_PATH_IMAGE068
来近似
Figure 929939DEST_PATH_IMAGE069
,以
Figure 60706DEST_PATH_IMAGE070
近似
Figure 465142DEST_PATH_IMAGE071
。具体如下所示:
Figure 314149DEST_PATH_IMAGE072
其中,
Figure 954078DEST_PATH_IMAGE073
形式上是一个高斯分布,其分布参数
Figure 204931DEST_PATH_IMAGE074
由一个深度神经网络产生,我们可以称之为编码器-z(
Figure 780269DEST_PATH_IMAGE075
),而
Figure 257518DEST_PATH_IMAGE070
服从于一个类别分布(Categorical Distribution)。其分 布参数
Figure 576504DEST_PATH_IMAGE076
由深度神经网络产生,我们称之为编码器-y (
Figure 681863DEST_PATH_IMAGE077
),称
Figure 428102DEST_PATH_IMAGE078
为解码器(Decoder)。
步骤3:将图片
Figure 110756DEST_PATH_IMAGE001
,
Figure 233433DEST_PATH_IMAGE002
,众包标记
Figure 458878DEST_PATH_IMAGE003
,真实标记
Figure 251384DEST_PATH_IMAGE079
及对应图像
Figure 562280DEST_PATH_IMAGE080
输入模型,基于
Figure 223068DEST_PATH_IMAGE081
与网络参数构造损失函数, 注意在进行第一次迭代训练时,
Figure 37441DEST_PATH_IMAGE082
是空集。
对于
Figure 515695DEST_PATH_IMAGE012
,其变分下界构造过程如下所示:
Figure 313887DEST_PATH_IMAGE013
Figure 778367DEST_PATH_IMAGE014
其中,
Figure 322612DEST_PATH_IMAGE015
表示第一图像集
Figure 847134DEST_PATH_IMAGE001
中的图像,
Figure 867042DEST_PATH_IMAGE016
表示
Figure 259846DEST_PATH_IMAGE015
的真实标记,
Figure 48811DEST_PATH_IMAGE017
表示隐变 量。
Figure 744234DEST_PATH_IMAGE018
表示
Figure 985860DEST_PATH_IMAGE015
Figure 667508DEST_PATH_IMAGE016
的似然函数,
Figure 842138DEST_PATH_IMAGE019
表示期望,
Figure 442883DEST_PATH_IMAGE020
表示
Figure 562018DEST_PATH_IMAGE016
的先验分布,
Figure 906411DEST_PATH_IMAGE021
表示
Figure 669968DEST_PATH_IMAGE017
的先验分布,
Figure 441615DEST_PATH_IMAGE022
表示
Figure 64357DEST_PATH_IMAGE015
的后验分布,
Figure 212442DEST_PATH_IMAGE023
表示对
Figure 830505DEST_PATH_IMAGE021
的近似分布。
Figure 428846DEST_PATH_IMAGE024
表示
Figure 132359DEST_PATH_IMAGE015
Figure 959501DEST_PATH_IMAGE016
的损失函数,
Figure 697650DEST_PATH_IMAGE025
表示分布参数,
Figure 811099DEST_PATH_IMAGE026
为变分参 数。
对于
Figure 1909DEST_PATH_IMAGE027
,其变分下界构造过程如下所示:
Figure 616430DEST_PATH_IMAGE028
Figure 474665DEST_PATH_IMAGE029
其中,
Figure 24595DEST_PATH_IMAGE030
表示第二图像集
Figure 578067DEST_PATH_IMAGE002
的图像,这些图像是没有真实标记的。
Figure 606066DEST_PATH_IMAGE031
表示关于
Figure 53228DEST_PATH_IMAGE030
的似然函数,
Figure 774059DEST_PATH_IMAGE020
表示
Figure 329674DEST_PATH_IMAGE016
的先验分布,
Figure 161364DEST_PATH_IMAGE021
表示
Figure 463032DEST_PATH_IMAGE017
的先验分 布,
Figure 230131DEST_PATH_IMAGE032
表示
Figure 882829DEST_PATH_IMAGE030
的后验分布,
Figure 252631DEST_PATH_IMAGE033
表示近似的
Figure 64598DEST_PATH_IMAGE020
Figure 127232DEST_PATH_IMAGE034
是对
Figure 1647DEST_PATH_IMAGE035
的近似分布,而
Figure 440719DEST_PATH_IMAGE035
是关于
Figure 592345DEST_PATH_IMAGE036
的先验联合分布,
Figure 91460DEST_PATH_IMAGE016
表示其真实标记,由于数据集没有给出
Figure 453171DEST_PATH_IMAGE030
的真实标记,所以
Figure 289409DEST_PATH_IMAGE016
对于
Figure 685755DEST_PATH_IMAGE030
而言是隐变量。 这里对于来自于不同的两个数据集的图像
Figure 90192DEST_PATH_IMAGE015
Figure 939199DEST_PATH_IMAGE030
,都使用
Figure 329860DEST_PATH_IMAGE016
表示真实标记是为了表示 这两类数据标记分布的一致。
Figure 846292DEST_PATH_IMAGE083
表示
Figure 421630DEST_PATH_IMAGE030
的后验分布。
Figure 882567DEST_PATH_IMAGE037
表示关于
Figure 201553DEST_PATH_IMAGE030
Figure 306912DEST_PATH_IMAGE016
的损失函数,
Figure 53151DEST_PATH_IMAGE038
表示
Figure 486538DEST_PATH_IMAGE033
的熵,注意这里的
Figure 609215DEST_PATH_IMAGE016
仅表示真 实类别的一种可能情况,
Figure 834660DEST_PATH_IMAGE084
表示枚 举
Figure 899871DEST_PATH_IMAGE030
真实标记为各个类别的所有情况,并对它们进行求和。
Figure 210767DEST_PATH_IMAGE039
表示关于
Figure 871556DEST_PATH_IMAGE030
的损失 函数。
我们将两者求和,即可得到损失函数
Figure 685928DEST_PATH_IMAGE085
Figure 914915DEST_PATH_IMAGE086
然而,我们发现
Figure 713107DEST_PATH_IMAGE087
只对与无标记数据相关的
Figure 912007DEST_PATH_IMAGE039
有贡献。理想情 况下,所有的模型和变量参数都应该能够利用到所有的数据。为了弥补这一点,我们增加了 一个交叉熵分损失项,使得分布
Figure 971099DEST_PATH_IMAGE088
也能从有标记数据中学习。因此,最后构造出 的变分下界损失函数为:
Figure 495621DEST_PATH_IMAGE089
其中,
Figure 249950DEST_PATH_IMAGE090
作为一个超参数,调节两项之间的权重。
最后,在众包学习中,对于有标记数据,我们没有一个单独的真实标记,而是拥有 由多个标注者提供的多个标记。这里我们使用一个映射层
Figure 518121DEST_PATH_IMAGE091
R表示标注者的数量。通过W,我们实现了
Figure 182451DEST_PATH_IMAGE092
Figure 877875DEST_PATH_IMAGE093
之间的映射:
Figure 385079DEST_PATH_IMAGE094
将其代入变分下界损失函数中,得到
Figure 315995DEST_PATH_IMAGE095
Figure 959466DEST_PATH_IMAGE096
保持不变,损失函数为
Figure 825791DEST_PATH_IMAGE097
最后,我们要加入之前迭代所挑选出来的数据集
Figure 554713DEST_PATH_IMAGE082
,即第三图像集,我们 加入了关于
Figure 40052DEST_PATH_IMAGE082
的交叉熵分类项,最终的损失函数是:
Figure 69188DEST_PATH_IMAGE040
Figure 840834DEST_PATH_IMAGE041
Figure 447265DEST_PATH_IMAGE042
当第一次迭代时,损失函数的第四项为0;
其中,
Figure 595350DEST_PATH_IMAGE043
表示变分下界损失函数,
Figure 213413DEST_PATH_IMAGE044
均表示超参数,
Figure 296907DEST_PATH_IMAGE045
表示第一图 像集的分布,
Figure 420DEST_PATH_IMAGE046
表示第二图像集的分布,
Figure 952196DEST_PATH_IMAGE047
表示第三图像集的分布,
Figure 424766DEST_PATH_IMAGE048
分别 表示第三图像集的单张图像和其真实标记。
Figure 928428DEST_PATH_IMAGE010
表示第r个众包映射层,y表示真实标记,
Figure 119238DEST_PATH_IMAGE049
表示由
Figure 874704DEST_PATH_IMAGE009
经过众包映射层反向映射得到的目标标记,
Figure 342726DEST_PATH_IMAGE050
表示代入了
Figure 892656DEST_PATH_IMAGE049
Figure 305183DEST_PATH_IMAGE051
步骤4:基于随机梯度下降,端到端地对模型进行训练
我们使用优化器,如SGD、Adam等,对整个网络进行端到端的训练。
步骤5:基于最大熵指标,获取
Figure 598761DEST_PATH_IMAGE002
图像集合中真实标记预测的熵最大的图像
Figure 170556DEST_PATH_IMAGE006
,查询它的真实标记,组成
Figure 891388DEST_PATH_IMAGE007
步骤5的具体步骤如图3所示:
1)获取所有
Figure 322369DEST_PATH_IMAGE098
的真实标记预测概率
Figure 29425DEST_PATH_IMAGE052
2)计算
Figure 331093DEST_PATH_IMAGE052
的熵
Figure 222826DEST_PATH_IMAGE053
3)挑选
Figure 609945DEST_PATH_IMAGE053
最大的
Figure 369960DEST_PATH_IMAGE099
,询问它的真实标记
Figure 791714DEST_PATH_IMAGE100
4)将
Figure 854348DEST_PATH_IMAGE099
Figure 869708DEST_PATH_IMAGE100
组合成为
Figure 43200DEST_PATH_IMAGE006
Figure 319461DEST_PATH_IMAGE007
步骤6:将
Figure 943209DEST_PATH_IMAGE006
Figure 304920DEST_PATH_IMAGE007
加入
Figure 282104DEST_PATH_IMAGE082
中,返回步骤3,直到当前迭代次数到达阈值为 止;
将挑选出来的真实标记数据加入原来的训练集中,形成新的数据集。将其投入到下一次的训练当中去。
步骤7:删去模型重构部分和众包映射层部分,将网络的剩余部分作为分类器。
当完成训练之后,在整个模型中,我们所需要的只是
Figure 678450DEST_PATH_IMAGE101
作为预测图像 类别的分类器。而
Figure 958253DEST_PATH_IMAGE102
Figure 541681DEST_PATH_IMAGE103
、众包映射层在完成训练之后就可以弃置。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种基于半监督变分自编码器的主动众包图像学习方法,其特征在于,包括如下步骤:
步骤1,获取图像集X ,将图像集X 按照预设比例随机划分为第一图像集
Figure 427008DEST_PATH_IMAGE001
和第二 图像集
Figure 222925DEST_PATH_IMAGE002
,将第一图像集
Figure 366331DEST_PATH_IMAGE001
分发给网络上的标注者进行标注,获得相应的众包 标记
Figure 513278DEST_PATH_IMAGE003
步骤2,搭建半监督众包学习网络模型,所述半监督众包学习网络模型包括半监督变分自编码器、众包映射层和主动学习框架;
步骤3,将第一图像集
Figure 744539DEST_PATH_IMAGE001
、第二图像集
Figure 785177DEST_PATH_IMAGE002
、众包标记
Figure 974850DEST_PATH_IMAGE003
、第三图像集
Figure 609093DEST_PATH_IMAGE004
和真实标记集
Figure 768679DEST_PATH_IMAGE005
作为训练集,输入半监督众包学习网络模型,基于训练集和网络参数 构造变分下界损失函数;第一次迭代时,
Figure 539189DEST_PATH_IMAGE004
Figure 899763DEST_PATH_IMAGE005
均为空集;
步骤4,基于随机梯度下降方法,端到端地对半监督众包学习网络模型进行训练,得到训练好的半监督众包学习网络模型;
步骤5,利用训练好的半监督众包学习网络模型对第二图像集
Figure 21303DEST_PATH_IMAGE002
中每幅图像的 真实标记概率进行预测,从第二图像集
Figure 984580DEST_PATH_IMAGE002
中选择真实标记概率预测值的熵最大的图 像
Figure 875175DEST_PATH_IMAGE006
,获取图像
Figure 406651DEST_PATH_IMAGE006
的真实标记
Figure 608962DEST_PATH_IMAGE007
步骤6,将图像
Figure 516875DEST_PATH_IMAGE006
加入第三图像集
Figure 261977DEST_PATH_IMAGE004
,将真实标记
Figure 964354DEST_PATH_IMAGE007
加入真实标记集
Figure 919541DEST_PATH_IMAGE005
,返回步骤 3,直到当前迭代次数达到阈值为止,得到最终的半监督众包学习网络模型;
步骤7,对最终的半监督众包学习网络模型,删掉重构部分和众包映射层部分,将剩余部分作为众包图像分类器;
步骤8,利用众包图像分类器对待标注图像进行标注,得到众包学习标记。
2.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法,其特征在于,步骤2所述众包映射层,具体形式如下:
Figure 99986DEST_PATH_IMAGE008
其中,
Figure 965174DEST_PATH_IMAGE009
表示第r个标注者的众包标记,
Figure 838452DEST_PATH_IMAGE010
表示第r个众包映射层,y表示真实 标记,
Figure 280935DEST_PATH_IMAGE011
R为标注者的数量。
3.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法,其特征在于,步骤3所述变分下界损失函数的构造方法为:
对于
Figure 999492DEST_PATH_IMAGE012
,其变分下界构造过程如下所示:
Figure 719186DEST_PATH_IMAGE013
Figure 888000DEST_PATH_IMAGE014
其中,
Figure 693145DEST_PATH_IMAGE015
表示第一图像集
Figure 480972DEST_PATH_IMAGE001
中的图像,
Figure 914227DEST_PATH_IMAGE016
表示
Figure 129308DEST_PATH_IMAGE015
的真实标记,
Figure 156170DEST_PATH_IMAGE017
表示隐变量,
Figure 747688DEST_PATH_IMAGE018
表示
Figure 301029DEST_PATH_IMAGE015
Figure 687011DEST_PATH_IMAGE016
的似然函数,
Figure 201169DEST_PATH_IMAGE019
表示期望,
Figure 455433DEST_PATH_IMAGE020
表示
Figure 738647DEST_PATH_IMAGE016
的先验分布,
Figure 561109DEST_PATH_IMAGE021
表示
Figure 562563DEST_PATH_IMAGE017
的先验分布,
Figure 354939DEST_PATH_IMAGE022
表示
Figure 758238DEST_PATH_IMAGE015
的后验分布,
Figure 486023DEST_PATH_IMAGE023
表示对
Figure 833828DEST_PATH_IMAGE021
的近似分布,
Figure 570840DEST_PATH_IMAGE024
表示
Figure 828646DEST_PATH_IMAGE015
Figure 727332DEST_PATH_IMAGE016
的损失函数,
Figure 828012DEST_PATH_IMAGE025
表示分布参数,
Figure 103135DEST_PATH_IMAGE026
为变分参数;
对于
Figure 215448DEST_PATH_IMAGE027
,其变分下界构造过程如下所示:
Figure 550614DEST_PATH_IMAGE028
Figure 607432DEST_PATH_IMAGE029
其中,
Figure 686246DEST_PATH_IMAGE030
表示第二图像集
Figure 918644DEST_PATH_IMAGE002
的图像,
Figure 283767DEST_PATH_IMAGE031
表示关于
Figure 234405DEST_PATH_IMAGE030
的似然函数,
Figure 851331DEST_PATH_IMAGE032
表示
Figure 938236DEST_PATH_IMAGE030
的后验分布,
Figure 474259DEST_PATH_IMAGE033
表示近似的
Figure 381036DEST_PATH_IMAGE020
Figure 801653DEST_PATH_IMAGE034
是对
Figure 867698DEST_PATH_IMAGE035
的近似分布,而
Figure 715568DEST_PATH_IMAGE035
是关于
Figure 109640DEST_PATH_IMAGE036
的先验联合分布,
Figure 193003DEST_PATH_IMAGE037
表示关于
Figure 254500DEST_PATH_IMAGE030
Figure 273271DEST_PATH_IMAGE016
的损失函数,
Figure 154640DEST_PATH_IMAGE038
表示
Figure 41693DEST_PATH_IMAGE033
的熵,
Figure 957696DEST_PATH_IMAGE039
表示关于
Figure 881790DEST_PATH_IMAGE030
的损失函数;
最终的变分下界损失函数为:
Figure 640667DEST_PATH_IMAGE040
Figure 941199DEST_PATH_IMAGE041
Figure 711709DEST_PATH_IMAGE042
当第一次迭代时,损失函数的第四项为0;
其中,
Figure 72283DEST_PATH_IMAGE043
表示变分下界损失函数,
Figure 52877DEST_PATH_IMAGE044
均表示超参数,
Figure 157099DEST_PATH_IMAGE045
表示第一图像集 的分布,
Figure 47695DEST_PATH_IMAGE046
表示第二图像集的分布,
Figure 579171DEST_PATH_IMAGE047
表示第三图像集的分布,
Figure 781482DEST_PATH_IMAGE048
分别表示 第三图像集的单张图像和其真实标记,
Figure 423816DEST_PATH_IMAGE010
表示第r个众包映射层,y表示真实标记,
Figure 168918DEST_PATH_IMAGE049
表示由
Figure 995928DEST_PATH_IMAGE009
经过众包映射层反向映射得到的目标标记,
Figure 826481DEST_PATH_IMAGE050
表示代入了
Figure 272506DEST_PATH_IMAGE049
Figure 137694DEST_PATH_IMAGE051
4.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法,其特征在于,步骤4所述端到端地对半监督众包学习网络模型进行训练所采用的优化器为SGD或Adam。
5.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法,其特征在于,所述步骤5的具体过程如下:
1)利用训练好的半监督众包学习网络模型对第二图像集
Figure 135606DEST_PATH_IMAGE002
中每幅图像的真实 标记概率进行预测,得到真实标记概率预测值
Figure 922296DEST_PATH_IMAGE052
2)计算
Figure 172012DEST_PATH_IMAGE052
的熵
Figure 16340DEST_PATH_IMAGE053
3)从第二图像集
Figure 60519DEST_PATH_IMAGE002
中挑选
Figure 600085DEST_PATH_IMAGE053
最大图像
Figure 387913DEST_PATH_IMAGE006
4)获取图像
Figure 86747DEST_PATH_IMAGE006
对应的真实标记
Figure 36249DEST_PATH_IMAGE007
CN202110531443.3A 2021-05-17 2021-05-17 一种基于半监督变分自编码器的主动众包图像学习方法 Active CN112990385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110531443.3A CN112990385B (zh) 2021-05-17 2021-05-17 一种基于半监督变分自编码器的主动众包图像学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110531443.3A CN112990385B (zh) 2021-05-17 2021-05-17 一种基于半监督变分自编码器的主动众包图像学习方法

Publications (2)

Publication Number Publication Date
CN112990385A true CN112990385A (zh) 2021-06-18
CN112990385B CN112990385B (zh) 2021-09-21

Family

ID=76336630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110531443.3A Active CN112990385B (zh) 2021-05-17 2021-05-17 一种基于半监督变分自编码器的主动众包图像学习方法

Country Status (1)

Country Link
CN (1) CN112990385B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255849A (zh) * 2021-07-14 2021-08-13 南京航空航天大学 一种基于双重主动查询的标签带噪图像学习方法
CN114036947A (zh) * 2021-12-09 2022-02-11 广东工业大学 一种半监督学习的小样本文本分类方法和系统
CN114494890A (zh) * 2022-04-14 2022-05-13 广州市玄武无线科技股份有限公司 一种模型训练方法、商品图像管理方法及装置
CN115331065A (zh) * 2022-10-13 2022-11-11 南京航空航天大学 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法
CN116110504A (zh) * 2023-04-12 2023-05-12 烟台国工智能科技有限公司 基于半监督变分自编码器的分子性质预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027712A (zh) * 2019-12-06 2020-04-17 中国科学技术大学 混合使用多种标记方式的主动众包学习方法及应用方法
CN111581468A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于噪声容忍的偏多标记学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027712A (zh) * 2019-12-06 2020-04-17 中国科学技术大学 混合使用多种标记方式的主动众包学习方法及应用方法
CN111581468A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于噪声容忍的偏多标记学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANLI SHI等: "Semi-Supervised Multi-Label Learning from Crowds via Deep Sequential Generative Model", 《KDD "20》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255849A (zh) * 2021-07-14 2021-08-13 南京航空航天大学 一种基于双重主动查询的标签带噪图像学习方法
CN113255849B (zh) * 2021-07-14 2021-10-01 南京航空航天大学 一种基于双重主动查询的标签带噪图像学习方法
CN114036947A (zh) * 2021-12-09 2022-02-11 广东工业大学 一种半监督学习的小样本文本分类方法和系统
CN114036947B (zh) * 2021-12-09 2023-11-14 广东工业大学 一种半监督学习的小样本文本分类方法和系统
CN114494890A (zh) * 2022-04-14 2022-05-13 广州市玄武无线科技股份有限公司 一种模型训练方法、商品图像管理方法及装置
CN115331065A (zh) * 2022-10-13 2022-11-11 南京航空航天大学 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法
CN116110504A (zh) * 2023-04-12 2023-05-12 烟台国工智能科技有限公司 基于半监督变分自编码器的分子性质预测方法及系统

Also Published As

Publication number Publication date
CN112990385B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN112990385B (zh) 一种基于半监督变分自编码器的主动众包图像学习方法
US10866987B2 (en) Evaluating performance of recommender system
CN109345302A (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
Ionescu et al. Overview of the ImageCLEF 2022: Multimedia retrieval in medical, social media and nature applications
Wang et al. A hybrid GA-PSO method for evolving architecture and short connections of deep convolutional neural networks
Myronenko et al. Accounting for dependencies in deep learning based multiple instance learning for whole slide imaging
CN108052862A (zh) 年龄预估方法和装置
CN110263236B (zh) 基于动态多视图学习模型的社交网络用户多标签分类方法
CN109767312A (zh) 一种信用评估模型训练、评估方法与装置
CN114299349B (zh) 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN108182597A (zh) 一种基于决策树和逻辑回归的点击率预估方法
WO2016165058A1 (en) Social prediction
CN111178399A (zh) 数据处理方法及装置、电子设备和计算机可读存储介质
CN109447110A (zh) 综合邻居标签相关性特征和样本特征的多标签分类的方法
Liu et al. Teacher-student compression with generative adversarial networks
CN116227624A (zh) 面向异构模型的联邦知识蒸馏方法和系统
CN114218457B (zh) 一种基于转发社交媒体用户表征的假新闻检测方法
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
Huang et al. An Ad CTR prediction method based on feature learning of deep and shallow layers
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN110008348A (zh) 结合节点和边进行网络图嵌入的方法和装置
CN110717537B (zh) 训练用户分类模型、执行用户分类预测的方法及装置
CN116306969A (zh) 基于自监督学习的联邦学习方法和系统
CN111292062A (zh) 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
CN116563602A (zh) 基于类别级软目标监督的细粒度图像分类模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211213

Address after: 10 / F, building B3, Huizhi science and Technology Park, 8 Hengtai Road, Nanjing Economic and Technological Development Zone, Nanjing, Jiangsu Province 210000

Patentee after: Jiangsu Fenghuang Intelligent Education Research Institute Co.,Ltd.

Address before: No. 29, Qinhuai District, Qinhuai District, Nanjing, Jiangsu

Patentee before: Nanjing University of Aeronautics and Astronautics