CN115700788A - 用于图像识别的方法、设备和计算机程序产品 - Google Patents

用于图像识别的方法、设备和计算机程序产品 Download PDF

Info

Publication number
CN115700788A
CN115700788A CN202110839122.XA CN202110839122A CN115700788A CN 115700788 A CN115700788 A CN 115700788A CN 202110839122 A CN202110839122 A CN 202110839122A CN 115700788 A CN115700788 A CN 115700788A
Authority
CN
China
Prior art keywords
information
reference image
image
generating
gaussian mixture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110839122.XA
Other languages
English (en)
Inventor
王子嘉
倪嘉呈
贾真
杨文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202110839122.XA priority Critical patent/CN115700788A/zh
Priority to US17/405,241 priority patent/US20230038047A1/en
Publication of CN115700788A publication Critical patent/CN115700788A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例涉及用于图像识别的方法、设备和计算机程序产品。在一些实施例中,在图像识别引擎中利用高斯混合模型来生成参考图像集中的第一参考图像的表征信息。基于第一参考图像的表征信息来生成第一参考图像的第一参考标签信息,第一参考标签信息与第一参考图像的中的第一对象的类别相关联。通过确定第一参考图像的第一参考标签信息的准确度,来更新图像识别引擎。此种方式可以实现对图像的良好表征以及图像的参考标签信息的生成,从而既提高了所生成的参考标签信息的鲁棒性,又显著改进了图像识别的准确度。

Description

用于图像识别的方法、设备和计算机程序产品
技术领域
本公开的实施例涉及信息处理领域,并且更具体地,涉及用于图像识别的方法、设备和计算机程序产品。
背景技术
近年来,深度神经网络在众多领域发挥了至关重要的作用。为了实现更好的性能,对数据的需求日益增长。而对于诸如农业等大多数领域,具有参考标签信息的数据难以获得。
在一些领域的应用中(诸如使用基于转换器的双向编码器表示(BERT)和生成式的预训练(GPT)模型的一些应用),直接将大量的没有参考标签信息的数据用于模型的预处理,通常这种方法不能带来理想的性能,并且在其他领域不能普遍应用。为了减轻数据需求带来的负担,已经提出了诸如域自适应、自训练等多种方法。近年来,自训练方法因其较突出的性能表现而得到广泛的应用。而在自训练方法中,参考标签信息的良好表征是性能增益的一个关键因素,因此如何改进参考标签信息的生成仍是亟待解决的问题。
发明内容
总体上,本公开的实施例提出了用于图像识别的方法、设备和计算机程序产品。
在第一方面,本公开的实施例提供了一种用于图像识别的方法。在该方法中,在图像识别引擎中利用高斯混合模型(GMM)来生成参考图像集中的第一参考图像的表征信息。基于第一参考图像的表征信息来生成第一参考图像的第一参考标签信息,第一参考标签信息与第一参考图像的中的第一对象的类别相关联。通过确定第一参考图像的第一参考标签信息的准确度,来更新图像识别引擎。
在第二方面,本公开的实施例提供了一种用于图像识别的设备。该设备包括处理器以及存储有计算机可执行指令的存储器。计算机可执行指令在被处理器执行时使得设备执行动作,动作包括:在图像识别引擎中利用高斯混合模型来生成参考图像集中的第一参考图像的表征信息;基于第一参考图像的表征信息来生成第一参考图像的第一参考标签信息,第一参考标签信息与第一参考图像的中的第一对象的类别相关联;以及通过确定第一参考图像的第一参考标签信息的准确度,来更新图像识别引擎。
在第三方面,本公开的实施例提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使机器执行根据第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的实施例可以在其中实现的示例环境;
图2示出了根据本公开的一个实施例的所生成的参考标签信息的分布的示意图;
图3示出了根据本公开的一些示例实施例的用于图像识别的方法的流程图;
图4A示出了根据本公开的一些实施例的图像识别引擎训练过程的示意图;
图4B示出了根据本公开的一些实施例的图像识别引擎重训练过程的示意图;
图5示出了根据本公开的一些实施例的基初始化网络的训练过程的示意图;
图6示出了适合实现本公开的实施例的设备的框图。
在所有附图中,相同或相似参考数字表示相同或相似元素。
具体实施方式
下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解,描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开,而并非以任何方式限制本公开的范围。
如本文所使用的,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,
“确定”可以包括运算、计算、处理、导出、调查、查找(例如,在表格、图像数据库或另一图像数据结构中查找)、查明等。此外,
“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的图像数据)等。此外,“确定”可以包括解析、选择、选取、建立等。
本文使用的术语“神经网络”可以被理解为机器学习模型。该模型能够从训练图像数据中学习到相应的输入与输出之间的关联,从而在训练完成后基于训练得到的参数值集合对给定的输入进行处理以生成对应的输出。“神经网络”有时也可以被称为“神经网络模型”、“学习网络”、“学习模型”、“网络”或“模型”等。这些术语在本文中可互换地使用。
机器学习可以划分为三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的学习模型可以使用大量的训练图像数据进行训练,不断迭代和更新模型的参数集的取值,直到模型能够达到期望目标。经过训练后,机器学习模型的参数集的取值被确定。在测试阶段,可以利用测试样本对已训练的学习模型进行测试,以确定学习模型的性能。在应用阶段,可以向训练完成的学习模型应用实际的输入图像数据。学习模型可以基于训练得到的参数集来对实际的输入图像数据进行处理,以提供对应的输出。
如上所述,近年来,自训练方法因其较突出的性能表现而得到广泛的应用。自训练方法是一种半监督学习方法,其基本思想是利用教师模型来训练学生模型。在自训练方法中,使用基于具有参考标签信息的数据集来训练的模型针对无已有标签信息的数据集生成参考标签(也称为伪标签)信息,然后使用具有参考标签信息的数据集和具有已有标签信息的数据集来对模型进行再训练。
然而,在自训练方法中的自举过程中存在许多问题,其中之一是参考标签信息数据中的噪声。该问题可以被视为从噪声标签中学习,并且已经提出了参考标签信息可以通过样本选择或标签平滑来进行优化等思路,但这些方法均未能带来突出的性能增益。然而,发明人注意到,在先前的研究中没有关注过数据属性。近年来,一个新的知识提取方向是将大数据集提取成小数据集,也即希望在特征空间中寻找到可以捕获数据属性的一些表征方式,这些表征方式可以包括基于数据的基。数据的基可以广义地被理解为用于在多维度上表征数据的一种表示形式。数据的基可被用于使用期望最大化(EM)算法以概率方式实现数据的潜在表示。
EM算法是利用似然最大化算法来寻找隐变量模型的解决方案,而常用的高斯混合模型是一种具有特定约束的EM算法。EM算法通常包括两个步骤,简记为E步骤和M步骤,如下所示。利用GMM的隐变量模型可以捕获到考虑数据属性的不确定性信息。在GMM中,数据可以以分布形式被表示如下:
Figure BDA0003178296500000051
其中表征信息
Figure BDA0003178296500000052
被视为K个子高斯模型
Figure BDA0003178296500000053
(也被称为高斯基,或基)的线性叠加,并且K是基的数目,znk表示第k个子高斯模型在该线性组合的权重。在GMM中,znk可以在E步骤中被更新,如下所示:
Figure BDA0003178296500000054
继而,在M步骤中,GMM中的参数期望
Figure BDA0003178296500000055
和方差
Figure BDA0003178296500000056
被更新,如下所示:
Figure BDA0003178296500000057
Figure BDA0003178296500000058
其中
Figure BDA0003178296500000059
以此方式,可以实现利用GMM对数据进行表征。
本公开提供了用于图像识别的改进的方案。在该方案中,提出了一种新的基于基变换的软参考标签信息的生成方法。可以使用质心(centroids)作为基的初始化,并且使用正交正则化从带有标签信息的图像数据中学习基。然后,基标签可以被转换为真正的硬标签,以迭代地更新模型和基。
根据该方案,可以实现在图像识别引擎中利用高斯混合模型来对训练图像集中的参考图像进行表征。基于参考图像和高斯混合模型的初始期望信息,来生成高斯混合模型的权重信息,并且基于该初始期望信息和权重信息来生成参考图像的表征信息。基于参考图像的表征信息来生成参考图像的标签信息,该标签信息与参考图像中的对象的类别相关联。通过确定参考图像的标签信息的准确度,来更新图像识别引擎。
利用本公开的方案,通过使用混合高斯模型来生成图像的表征信息,并且利用EM算法来生成图像的参考标签信息,可以提升所生成的参考标签信息的鲁棒性和可解释性,并且可以显著改进图像识别的准确度。
以下将参考附图来详细描述本公开的原理和示例实施方式。
首先参考图1,图1示出了本公开的实施例可以在其中实现的示例环境。环境100包括电子设备105,该电子设备105包括处理器110和耦合到处理器110的存储器115。存储器115存储程序(或程序指令或代码),当由处理器110执行时,该程序使设备105进行相应的操作。
电子设备105可以由具有计算能力的任何合适的设备来实现。设备105可以是各种终端设备,例如用户终端和服务终端,包括例如移动电话、站台、平板电脑、膝上型电脑、台式机、个人数字助理(PDA)、导航设备、影音播放器、数码相机、智能穿戴设备等。
应理解,电子设备105中的元件、组件、模块或单元仅出于说明的目的而示出,并不暗示任何限制。如果需要,设备105可以包括任何其他合适的元件、组件、模块或单元。
如图所示,存储器115存储可以识别图像135的图像识别引擎125。在该示例中,图像识别引擎125由可由处理器110执行的程序代码或指令实现。图像识别引擎125也可以以其他方式实现。例如,在一些示例实施例中,图像识别引擎125可以例如以硬件或专用电路、软件、逻辑或其任何组合来实现。在一些其他示例实施例中,图像识别引擎125的一些方面可以在硬件中实现,而图像识别引擎125的其他方面可以在可由控制器、微处理器或其他计算设备执行的固件或软件中实现。
在本公开的各种示例实施例中,图像识别引擎125被配置为利用高斯混合模型来生成参考图像集中的第一参考图像的表征信息。并且图像识别引擎125被配置为基于第一参考图像的表征信息来生成第一参考图像的第一参考标签信息,该第一参考标签信息与第一参考图像的中的第一对象的类别相关联。图像识别引擎125被配置为通过确定第一参考图像的第一参考标签信息的准确度,来更新图像识别引擎125。以此方式,可以实现对图像的良好表征以及参考标签信息的生成,并且可以提高识别精度。
下面结合图2来描述采用根据本公开的图像识别方案进行图像识别的一个示例实现。
图2示出了根据本公开的一个实施例的所生成的参考标签信息的分布的示意图。为了便于讨论,将结合图1来讨论该示例实现。
如图2所示,要进行图像识别的图像集210可以包括两类图片,可以是三张猫的图片和三张狗的图片。可以通过图像识别引擎125基于图像集210中的参考图像所生成的参考标签信息概率分布图220。在该参考标签信息概率分布图220中,虚线225示出了三个基的位置,实线230示出了参考标签信息的概率分布。
在生成图像的表征信息的过程中,可以利用带有标签信息的参考图像来生成正交的基以用于高斯混合模型中的初始期望信息。利用EM算法和简单的分类器,可以基于表征信息来针对没有标签的图像生成其参考标签信息。然后,基于其参考标签信息概率分布的方差可以从当中选择部分图像以用于与带有标签信息的图像组成新的训练数据集,其中具有较低方差的分布表示具有良好的参考标签。继而,使用不确定性感知训练过程,使用新的训练数据集来重新训练整体模型。在一些实施例中,利用全连接层作为分类器,经由分类器的输出结果为对应于该图像的参考标签信息的概率分布,该参考标签信息分布的期望可以被用作最终标签,其方差可以被用于评估不确定性。
从图2可以看出,三个基具有不同的权重信息,因此其高度呈现差异。通过参考标签信息概率分布图220可以看出利用图像识别引擎125可以达到很好的分类效果。
图3示出了根据本公开的一些示例实施例的用于图像识别的方法300的流程图。为了便于讨论,将结合图1来讨论该示例实现。
如图3所示,在框310,在图像识别引擎125中利用高斯混合模型来生成参考图像集中的第一参考图像的表征信息。在一些实施例中,可以基于第一参考图像和高斯混合模型的初始期望信息,来生成高斯混合模型的权重信息
Figure BDA0003178296500000071
再基于初始期望信息和权重信息
Figure BDA0003178296500000072
来生成第一参考图像的表征信息。下讨论一个具体示例。
可以利用下面的等式(5)来生成权重信息
Figure BDA0003178296500000081
Figure BDA0003178296500000082
其中К(a,b)是评估a和b之间相似性的核函数。初始期望信息为多维度向量,并且其中多维度向量中的至少两个维度的向量是正交的。初始期望信息可以从基于带有标签的图像所训练的网络中的权重获取的,其具体生成过程将在下文结合图5进行详细讨论。在此,核函数被用于权重信息的生成,该步骤为EM过程的改进。
而后,基于初始期望信息和权重信息来生成第一参考图像的表征信息,如下所示:
Figure BDA0003178296500000083
其中K是子高斯模型的个数(也即,基的个数),并且G(μ,∑)为最终的分布基表征信息。
在框320,基于第一参考图像的表征信息来生成第一参考图像的第一参考标签信息,第一参考标签信息与第一参考图像中的第一对象的类别相关联。例如,可以从第一参考图像的表征信息
Figure BDA0003178296500000084
中采样M个数据点
Figure BDA0003178296500000085
通过分类器fθ基于采样点的表征信息
Figure BDA0003178296500000086
来生成第一参考标签信息
Figure BDA0003178296500000087
如下所示:
Figure BDA0003178296500000088
在一些实施例中,分类器fθ可以被实现为全连接层,因其为线性变换,因此可以容易地求得期望和方差信息。
所生成的第一参考标签信息与基是相关联的,取决于特定实现,一个参考标签信息可以对应于一个或多个基。
在框330,通过确定第一参考图像的第一参考标签信息的准确度,来更新图像识别引擎125。例如,基于采样点的标签信息分布
Figure BDA0003178296500000089
可以容易地计算出期望和方差。下面讨论更新过程(或者称为训练过程)中损失函数的一个示例计算过程。
对于带有标签信息的参考图像集XL中的采样点,其损失可以被表示为第一参考标签信息的期望值与已有标签信息的差,如下所示:
Figure BDA00031782965000000810
对于不带有标签信息的参考图像集XU中的采样点,其损失可以基于方差来表示,如下所示:
Figure BDA0003178296500000091
因此,图像识别引擎125的预测总损失函数可以表示为:
Figure BDA0003178296500000092
其中如果采样点是来自具有标签信息的参考图像集中,则λ=1,否则λ=0。
继而,可以基于该损失函数使用反向传播算法来更新分类器fθ
在第t次迭代时,等式(5)中
Figure BDA0003178296500000093
的矩阵表示z(t)可以进一步被表示如下:
z(t)=softmax(ψX(μ(t-1))T) (11)
其中ψ被手动设置以控制权重信息分布。
然后在EM算法的M步骤中,可以基于X的加权和来更新期望信息以使其位于一个空间中。则第t次迭代的期望信息可以被表示如下:
Figure BDA0003178296500000094
以此过程,不断迭代,可以更新图像识别引擎125。在最终T次迭代后,可以得到最终基μk(T)、∑k(T)和分类器fθ的参数θk(T)。针对每个第一参考图像所生成的第一参考标签信息为一个概率分布,其可以被表示如下:
Figure BDA0003178296500000095
由于fθ为线性变化,因此
Figure BDA0003178296500000096
的分布可以容易地被求得。
至此,图像识别引擎125更新过程(或训练过程)结束,整个过程可以被总结为如下算法1:
Figure BDA0003178296500000101
根据本公开的方案,改进了EM算法以对图像数据特征进行基变换。通过将神经网络用于EM过程,并且通过基变换来生成数据的表征信息。该表征信息是低秩的,同时保留了不确定性信息并降低了噪声。
接下来结合图4A和图4B来描述在自训练框架下的图像识别引擎125的示例训练过程,其中图4A示出了根据本公开的一些实施例的图像识别引擎125的训练过程的示意图,并且图4B示出了根据本公开的一些实施例的图像识别引擎125的重训练过程的示意图。为了便于讨论,将结合图1来讨论该示例过程。
在自训练过程中,可以使用基于带有已知标签信息的图像来训练的模型,针对不带有标签信息的图像生成参考标签信息,然后使用带有已知标签信息的数据集和带有参考标签信息的图像来对模型进行再训练。一轮图像识别引擎125的训练过程和图像识别引擎125的重训练过程组成一个训练回合,通过不断迭代这两个训练过程,最终可以得到理想的图像识别引擎125。
在图4A和图4B所示的示例中,给定带有标签信息的参考图像集{XL,YL}和不带有标签信息的参考图像集XU,其中XU和XL属于同一域。如图4A所示,在给定XL和XU的情况下,利用EM算法对基和分类器进行更新,可以针对XU中的第一参考图像生成具有不确定性信息的第一参考标签信息,以用于对图像识别引擎125进行更新的下述重训练过程。同时在此阶段基于组合损失对分类器进行训练,以减少XU中的第一参考图像的所生成的第一参考标签信息的方差,并且优化XL中的第一参考图像的分类精度。关于操作的具体步骤参见上述方法300,在此不再赘述。经过图4A所示的图像识别引擎125的训练过程,可以针对XU中的第二参考图像生成第二参考标签信息。现在结合图4B来描述图像识别引擎125的重训练过程。
如图4B所示,通过经更新的图像识别引擎125,基于参考图像集中的不带有标签信息的第二参考图像,生成第二参考图像的第二参考标签信息,第二参考标签信息与第二参考图像的中的对象的类别相关联。例如,可以基于所生成的第二参考标签信息的方差来从XU中选取第二参考图像。该选取规则为从XU中选取对应于其第二参考标签信息具有较低方差的第二参考图像,并且将所选取的XU中的带有第二参考标签信息的第二参考图像与XL中的带有标签信息的第二参考图像组成重训练图像集。基于该重训练图像集(也即,利用第二参考图像以及第二参考图像的第二参考标签信息),经由CNN特征提取器来进一步更新图像识别引擎125。该CNN特征提取器被用于提取图像的特征(例如,基)以用于分类器的训练。CNN可以是预配置好的,或者可以不是预配置好的,本公开的实施例在此不作限制。
图像识别引擎125的重训练过程结束后,图4A和图4B所示的一个训练回合完成。继而通过不断重复多个回合,可以得到性能理想的图像识别引擎125。通过这种全新的自学习框架,可以很好地捕捉到使用高斯混合模型的自学习过程中的不确定性。
现在结合图5来详细讨论GMM中的初始期望信息的获取。
图5示出了根据本公开的一些实施例的基初始化网络的训练过程的示意图。
为了针对XU中不带有标签的第三参考图像生成第三参考标签,首先需要基于XL中的带有标签信息的第三参考图像以及该第三参考图像的已有标签信息,来确定高斯混合模型的初始期望信息以用于EM阶段初始化,以加速模型收敛。也即,可以通过使用基于XL而训练的基初始化网络来获得针对XL的基,这些基可以被用作EM阶段的高斯混合模型中的初始期望信息。应当注意,在本公开的一些实施例中,基于好的基应具有单位方差的假定,可以将高斯混合模型中的方差Σk设置为单位矩阵I,因此方差Σk的更新过程在模型的训练过程中可以被忽略,但本公开的实施例对此不作限制,也即方差Σk的更新过程也可以被进行。
如图5所示出的基初始化网络的训练过程主要分为两个阶段。第一阶段是用于生成基,而第二阶段是用于微调所生成的基。在第一阶段,像传统的机器学习训练过程一样训练主模型,输入图像经过主模型的处理后得到任务输出,也即可以基于输入图像和任务输出来训练主模型。在一些实施例中,可以基于参考图像集中的带有标签信息的第三参考图像以及第三参考图像的第三已有标签信息来训练主模型,第三已有标签信息与第三参考图像的中的第三对象的类别相关联。在一些实施例中,主模型包括特征提取器和分类器。例如,特征提取器可以被实现为CNN,该CNN可以预训练好的或者可以不是预训练好的,本公开的实施例在此不作限制。例如,分类器可以被实现为全连接层,该部分是用于分类等原始机器学习任务。在一些实施例中,可以基于上述经训练的主模型来获得高斯混合模型的初始期望信息。例如,在训练过程中,可以处理特征提取器的最后层来得到权重以用作高斯混合模型的初始期望信息,并且所得到的权重将被用于第二阶段的重建过程。在训练过程中,将该权重进行正交化以用于作为基。根据本公开的上述方案,图像的表征信息是基于基来生成的,因此通过使基正交,可以降低图像的表征信息的秩。
显然,在第一阶段的训练过程有两项任务,即分类和权重提取。对于分类,可以使用传统的分类损失——负对数似然损失(Lnl)。对于权重提取部分,由于将权重用作基,因此需要权重是正交的,因此该部分的损失为:
L2=W*WT–I (14)
其中W为权重,I为单位矩阵。因此,在第一阶段的损失为:
Ls1=Lnll+L2 (15)
然后,在第二阶段中,基于第一阶段得到的权重(也即,要用作高斯混合模型的初始期望信息)将一些随机噪声输入到图像重建网络来生成重建图像。在一些实施例中,该重建网络可以是全连接层。继而,可以基于该重建图像来更新权重(也即,要用作高斯混合模型的初始期望信息)。例如,可以将该重建图像输入到在第一阶段经过良好训练的特征提取器CNN中以重建权重。如果所重建的图像可以重建权重,则可以认为构建图像保留了原始图像中的大部分信息。因此,在第二阶段,只有一个自我监督损失,也即第二阶段第一阶段所提取的权重与所重建的权重之间的均方误差。
基于第一阶段和第二阶段的损失,可以迭代地更新主模型。在一些实施例中,可以提取训练好的主模型中的特征提取器的最后层的权重,并且将该权重用作初始期望信息。以此方式,可以得到针对XL的正交基,并且该正交基便可以用作高斯混合模型中的初始期望信息。
图6示出了一个可以用来实施本公开的实施例的设备600的示意性框图。
如图6所示,设备600包括控制器或处理器,或者称中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602和/或随机访问存储器(RAM)603的程序而执行各种适当的动作和处理。ROM 602和/或RAM 603可存储设备600操作所需的各种程序和图像数据。CPU601、ROM 602和RAM 603通过总线604彼此相连。特别地,设备600还包括一个或多个专用处理单元(未示出),这些专用处理单元也可以连接至总线604。
输入/输出(I/O)接口605也连接至总线604。设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/图像数据。特别地,在本公开的实施例中,通信单元609支持与客户端或者其他设备的通信。
在某些实施例中,CPU 601可被配置为执行上文所描述的各个过程和处理,例如方法300。例如,在一些实施例中,方法300可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序被加载到RAM603并由CPU 601执行时,可以执行上文描述的方法300的一个或多个步骤。备选地,在其他实施例中,CPU 601也可以以其他任何适当的方式被配置以实现上述过程/方法。
特别地,根据本公开的实施例,上文参考图1至图5描述的过程可以被实现为计算机程序产品,其可以被有形地存储在非瞬态计算机可读存储介质上,并且包括计算机可执行指令,该指令在被执行时使得设备实现根据本公开的各个方面。
计算机可读存储介质可以是可以存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的、非穷举的例子包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置图像数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的程序包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的设备、方法和计算机程序产品的框图和/或流程图描述了本公开的各个方面。应当理解,框图和/或流程图的每个方框以及框图和/或流程图中各方框的组合,都可以由计算机可读程序指令实现。
已经出于示例的目的描述了本公开的各个实施例,但是本公开并不意图限于所公开的这些实施例。在不脱离本公开实质的前提下,所有修改和变型均落入由权利要求所限定的本公开的保护范围之内。

Claims (15)

1.一种用于图像识别的方法,包括:
在图像识别引擎中利用高斯混合模型来生成参考图像集中的第一参考图像的表征信息;
基于所述第一参考图像的所述表征信息来生成所述第一参考图像的第一参考标签信息,所述第一参考标签信息与所述第一参考图像的中的第一对象的类别相关联;以及
通过确定所述第一参考图像的所述第一参考标签信息的准确度,来更新所述图像识别引擎。
2.根据权利要求1所述的方法,还包括:
通过经更新的图像识别引擎,基于所述参考图像集中的不带有标签信息的第二参考图像,生成所述第二参考图像的第二参考标签信息,所述第二参考标签信息与所述第二参考图像的中的对象的类别相关联;以及
利用所述第二参考图像以及所述第二参考图像的所述第二参考标签信息,来进一步更新所述图像识别引擎。
3.根据权利要求1所述的方法,其中生成所述第一参考图像的所述表征信息包括:
基于所述第一参考图像和所述高斯混合模型的初始期望信息,来生成所述高斯混合模型的权重信息;以及
基于所述初始期望信息和所述权重信息来生成所述第一参考图像的所述表征信息。
4.根据权利要求3所述的方法,其中生成所述高斯混合模型的所述权重信息包括:
基于所述第一参考图像和所述高斯混合模型的所述初始期望信息,利用核函数来生成所述高斯混合模型的所述权重信息。
5.根据权利要求3所述的方法,其中所述初始期望信息为多维度向量,并且其中所述多维度向量中的至少两个维度的向量是正交的。
6.根据权利要求3所述的方法,还包括:
基于所述参考图像集中的带有标签信息的第三参考图像以及所述第三参考图像的第三已有标签信息,来获得所述高斯混合模型的所述初始期望信息,所述第三已有标签信息与所述第三参考图像的中的第三对象的类别相关联。
7.根据权利要求6所述的方法,还包括:
基于所述高斯混合模型的所述初始期望信息来生成重建图像;以及
基于所述重建图像,来更新所述初始期望信息。
8.一种用于图像识别的设备,包括:
处理器,以及
存储有计算机可执行指令的存储器,所述计算机可执行指令在被所述处理器执行时使得所述设备执行动作,所述动作包括:
在图像识别引擎中利用高斯混合模型来生成参考图像集中的第一参考图像的表征信息;
基于所述第一参考图像的所述表征信息来生成所述第一参考图像的第一参考标签信息,所述第一参考标签信息与所述第一参考图像的中的第一对象的类别相关联;以及
通过确定所述第一参考图像的所述第一参考标签信息的准确度,来更新所述图像识别引擎。
9.根据权利要求8所述的设备,所述动作还包括:
通过经更新的图像识别引擎,基于所述参考图像集中的不带有标签信息的第二参考图像,生成所述第二参考图像的第二参考标签信息,所述第二参考标签信息与所述第二参考图像的中的对象的类别相关联;以及
利用所述第二参考图像以及所述第二参考图像的所述第二参考标签信息,来进一步更新所述图像识别引擎。
10.根据权利要求8所述的设备,其中生成所述第一参考图像的所述表征信息包括:
基于所述第一参考图像和所述高斯混合模型的初始期望信息,来生成所述高斯混合模型的权重信息;以及
基于所述初始期望信息和所述权重信息来生成所述第一参考图像的所述表征信息。
11.根据权利要求10所述的设备,其中生成所述高斯混合模型的所述权重信息包括:
基于所述第一参考图像和所述高斯混合模型的所述初始期望信息,利用核函数来生成所述高斯混合模型的所述权重信息。
12.根据权利要求10所述的设备,其中所述初始期望信息为多维度向量,并且其中所述多维度向量中的至少两个维度的向量是正交的。
13.根据权利要求10所述的设备,所述动作还包括:
基于所述参考图像集中的带有标签信息的第三参考图像以及所述第三参考图像的第三已有标签信息,来获得所述高斯混合模型的所述初始期望信息,所述第三已有标签信息与所述第三参考图像的中的第三对象的类别相关联。
14.根据权利要求13所述的设备,所述动作还包括:
基于所述高斯混合模型的所述初始期望信息来生成重建图像;以及
基于所述重建图像,来更新所述初始期望信息。
15.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至7中任一项所述的方法。
CN202110839122.XA 2021-07-23 2021-07-23 用于图像识别的方法、设备和计算机程序产品 Pending CN115700788A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110839122.XA CN115700788A (zh) 2021-07-23 2021-07-23 用于图像识别的方法、设备和计算机程序产品
US17/405,241 US20230038047A1 (en) 2021-07-23 2021-08-18 Method, device, and computer program product for image recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110839122.XA CN115700788A (zh) 2021-07-23 2021-07-23 用于图像识别的方法、设备和计算机程序产品

Publications (1)

Publication Number Publication Date
CN115700788A true CN115700788A (zh) 2023-02-07

Family

ID=85120454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110839122.XA Pending CN115700788A (zh) 2021-07-23 2021-07-23 用于图像识别的方法、设备和计算机程序产品

Country Status (2)

Country Link
US (1) US20230038047A1 (zh)
CN (1) CN115700788A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710763A (zh) * 2023-11-23 2024-03-15 广州航海学院 图像噪声识别模型训练方法、图像噪声识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710763A (zh) * 2023-11-23 2024-03-15 广州航海学院 图像噪声识别模型训练方法、图像噪声识别方法及装置

Also Published As

Publication number Publication date
US20230038047A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
US11468262B2 (en) Deep network embedding with adversarial regularization
US20210117733A1 (en) Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
US20210124999A1 (en) System and method for generating adversarial examples
WO2020211611A1 (zh) 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN111339308B (zh) 基础分类模型的训练方法、装置和电子设备
US20230185998A1 (en) System and method for ai-assisted system design
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN107292323B (zh) 用于训练混合模型的方法和设备
CN115147680B (zh) 目标检测模型的预训练方法、装置以及设备
CN114360520A (zh) 语音分类模型的训练方法、装置、设备及存储介质
Bulatov et al. Reducing overconfidence in neural networks by dynamic variation of recognizer relevance.
CN115700788A (zh) 用于图像识别的方法、设备和计算机程序产品
US20220101122A1 (en) Energy-based variational autoencoders
Akinwande et al. Understanding prompt engineering may not require rethinking generalization
US20160119628A1 (en) Method and apparatus for encoding image features using a differentiable bag-of-words encoder
CN111797220A (zh) 对话生成方法、装置、计算机设备和存储介质
CN117033600A (zh) 用于认知实体合成的生成性角色引擎
US20230034322A1 (en) Computer-implemented method, device, and computer program product
US20220101145A1 (en) Training energy-based variational autoencoders
CN113554145B (zh) 确定神经网络的输出的方法、电子设备和计算机程序产品
JP7047665B2 (ja) 学習装置、学習方法及び学習プログラム
US20220343154A1 (en) Method, electronic device, and computer program product for data distillation
Xu et al. Consistency Models Improve Diffusion Inverse Solvers
US20230136609A1 (en) Method and apparatus for unsupervised domain adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination