CN113723431B - 图像识别方法、装置以及计算机可读存储介质 - Google Patents

图像识别方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN113723431B
CN113723431B CN202111020831.1A CN202111020831A CN113723431B CN 113723431 B CN113723431 B CN 113723431B CN 202111020831 A CN202111020831 A CN 202111020831A CN 113723431 B CN113723431 B CN 113723431B
Authority
CN
China
Prior art keywords
image
training
sample set
gradient
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111020831.1A
Other languages
English (en)
Other versions
CN113723431A (zh
Inventor
王曦
蹇易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Original Assignee
Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd filed Critical Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority to CN202111020831.1A priority Critical patent/CN113723431B/zh
Publication of CN113723431A publication Critical patent/CN113723431A/zh
Application granted granted Critical
Publication of CN113723431B publication Critical patent/CN113723431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理,具体提供一种图像识别方法、装置以及计算机可读存储介质,旨在解决如何对不同图像状态下的目标对象进行准确的图像识别的问题。为此目的,本发明的方法包括根据目标对象在图像中的图像状态对图像样本进行分类得到不同图像状态的图像样本集,利用带标签图像样本集对识别模型进行训练,得到初始的图像识别模型,采用带标签图像样本集与不带标签图像样本集对初始的图像识别模型进行分类对抗学习训练,根据带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对初始的图像识别模型进行特征回归训练,得到最终的图像识别模型,采用这个最终的图像识别模型就能够对处于不同图像状态的目标对象进行准确的图像识别。

Description

图像识别方法、装置以及计算机可读存储介质
技术领域
本发明涉及图像处理技术领域,具体提供一种图像识别方法、装置以及计算机可读存储介质。
背景技术
图像识别指的是利用计算机设备等对图像进行分析处理以识别图像中的目标对象,如人脸识别或物品识别等。目前常规的图像识别方法主要是先利用标注好了样本标签的图像样本训练图像识别模型,再采用训练好的图像识别模型对图像进行图像识别。为了提高图像识别模型的识别准确性,往往需要采用大量的图像样本进行模型训练。但是,如果对图像样本逐一标注样本标签,不仅费时费力,也极易出错,显著降低了图像识别方法的准确性。此外,在实际应用中待识别图像中的目标对象可能处于清晰、模糊和被遮挡等多种图像状态,如果针对每种图像状态的图像样本都逐一进行样本标签标注,更加费时费力。因而,目前常规的图像识别方法往往只针对一种图像状态的目标对象进行图像识别,无法同时对不同图像状态的目标对象进行图像识别。
相应地,本领域需要一种新的图像识别方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何对不同图像状态下的目标对象进行准确的图像识别的技术问题的图像识别方法、装置以及计算机可读存储介质。
在第一方面,本发明提供一种图像识别方法,所述方法包括:
根据目标对象在图像中的图像状态对图像样本进行分类,得到不同图像状态的图像样本集,其中,一个图像样本集是带样本标签的带标签图像样本集,其他图像样本集是不带样本标签的不带标签图像样本集;
采用所述带标签图像样本集对预设的识别模型进行训练,得到初始的图像识别模型;
采用所述带标签图像样本集与所述不带标签图像样本集对所述初始的图像识别模型进行分类对抗学习训练,并根据所述带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对所述初始的图像识别模型进行特征回归训练,得到最终的图像识别模型;
采用所述最终的图像识别模型对待识别图像进行目标对象识别。
在上述图像识别方法的一个技术方案中,“对所述初始的图像识别模型进行分类对抗学习训练”的步骤具体包括:
采用所述初始的图像识别模型分别提取所述带标签图像样本集中图像样本的图像特征以及所述不带标签图像样本集中图像样本的图像特征;
采用多分类器,根据所述带标签图像样本集中图像样本的图像特征与所述不带标签图像样本集中图像样本的图像特征进行图像分类训练;
根据所述图像分类训练的结果计算所述初始的图像识别模型的模型参数的梯度并对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数,完成分类对抗学习训练。
在上述图像识别方法的一个技术方案中,“对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数”的步骤具体包括:
判断当前分类对抗学习训练的迭代训练次数是否达到预设的次数阈值;
若是,则根据所述迭代训练次数匹配相应的梯度反转系数,根据所述梯度反转系数对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数;其中,所述梯度反转系数小于零且所述梯度反转系数的绝对值与迭代训练次数成正相关关系;
若否,则不对所述梯度进行梯度反转,直接根据所述梯度反向传播更新所述模型参数。
在上述图像识别方法的一个技术方案中,“对所述初始的图像识别模型进行特征回归训练”的步骤具体包括:
分别计算所述带标签图像样本集与所述不带标签图像样本集中图像样本的图像特征平均值;
根据所述图像特征平均值计算所述带标签图像样本集与所述不带标签图像样本集的图像特征距离;
采用L2范数损失函数并根据所述图像特征距离对所述带标签图像样本集与所述不带标签图像样本集的图像特征进行特征回归训练;
根据所述特征回归训练的结果计算所述初始的图像识别模型的模型参数的梯度并根据所述梯度反向传播更新所述模型参数,直至特征回归训练满足预设的训练收敛条件;
并且/或者,
所述方法还包括:在进行分类对抗学习训练的每次迭代训练时分别获取带标签图像样本集与不同不带标签图像样本集之间图像样本的图像特征距离,根据所述图像特征距离对所述初始的图像识别模型进行特征回归训练。
第二方面,提供一种图像识别装置,所述装置包括:
图像样本分类模块,其被配置成根据目标对象在图像中的图像状态对图像样本进行分类,得到不同图像状态的图像样本集,其中,一个图像样本集是带样本标签的带标签图像样本集,其他图像样本集是不带样本标签的不带标签图像样本集;
第一模型训练模块,其被配置成采用所述带标签图像样本集对预设的识别模型进行训练,得到初始的图像识别模型;
第二模型训练模块,其被配置成采用所述带标签图像样本集与所述不带标签图像样本集对所述初始的图像识别模型进行分类对抗学习训练,并根据所述带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对所述初始的图像识别模型进行特征回归训练,得到最终的图像识别模型;
图像识别模块,其被配置成采用所述最终的图像识别模型对待识别图像进行目标对象识别。
在上述图像识别装置的一个技术方案中,所述第二模型训练模块包括分类对抗学习训练子模块,所述分类对抗学习训练子模块包括:
图像特征提取单元,其被配置成采用所述初始的图像识别模型分别提取所述带标签图像样本集中图像样本的图像特征以及所述不带标签图像样本集中图像样本的图像特征;
分类对抗学习训练单元,其被配置成执行下列操作:
采用多分类器,根据所述带标签图像样本集中图像样本的图像特征与所述不带标签图像样本集中图像样本的图像特征进行图像分类训练;
根据所述图像分类训练的结果计算所述初始的图像识别模型的模型参数的梯度并对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数,完成分类对抗学习训练。
在上述图像识别装置的一个技术方案中,所述分类对抗学习训练单元被进一步配置成执行下列操作:
判断当前分类对抗学习训练的迭代训练次数是否达到预设的次数阈值;
若是,则根据所述迭代训练次数匹配相应的梯度反转系数,根据所述梯度反转系数对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数;其中,所述梯度反转系数小于零且所述梯度反转系数的绝对值与迭代训练次数成正相关关系;
若否,则不对所述梯度进行梯度反转,直接根据所述梯度反向传播更新所述模型参数。
在上述图像识别装置的一个技术方案中,所述第二模型训练模块包括特征回归训练子模块,所述特征回归训练子模块包括:
图像特征平均值计算单元,其被配置成分别计算所述带标签图像样本集与所述不带标签图像样本集中图像样本的图像特征平均值;
图像特征距离计算单元,其被配置成根据所述图像特征平均值计算所述带标签图像样本集与所述不带标签图像样本集的图像特征距离;
回归训练单元,其被配置成执行下列操作:
采用L2范数损失函数并根据所述图像特征距离对所述带标签图像样本集与所述不带标签图像样本集的图像特征进行回归训练;
根据所述回归训练的结果计算所述初始的图像识别模型的模型参数的梯度并根据所述梯度反向传播更新所述模型参数,直至回归训练满足预设的训练收敛条件;
并且/或者,
所述第二模型训练模块被进一步配置成在进行分类对抗学习训练的每次迭代训练时分别获取带标签图像样本集与不同不带标签图像样本集之间图像样本的图像特征距离,根据所述图像特征距离对所述初始的图像识别模型进行特征回归训练。
在第三方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述图像识别方法的技术方案中任一项技术方案所述的图像识别方法。
在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述图像识别方法的技术方案中任一项技术方案所述的图像识别方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的技术方案中,可以根据目标对象在图像中的图像状态对图像样本进行分类得到不同图像状态的图像样本集,先利用带标签图像样本集对预设的识别模型进行训练,得到初始的图像识别模型(针对带标签图像样本集对应的目标对象的图像状态,该模型具备较好的识别能力),再采用带标签图像样本集与不带标签图像样本集对初始的图像识别模型进行分类对抗学习训练,并根据带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对初始的图像识别模型进行特征回归训练,得到最终的图像识别模型(针对每个图像样本集对应的目标对象的图像状态,该模型都具备较好的识别能力),采用这个最终的图像识别模型就能够对处于不同图像状态的目标对象进行准确地图像识别。
通过分类对抗学习训练可以使初始的图像识别模型从不带标签图像样本集中的图像样本上提取到的关于目标对象图像特征,更加接近于初始的图像识别模型从带标签图像样本集中的图像样本上提取到的关于目标对象的图像特征,即经过分类对抗学习训练初始的图像识别模型将从带标签图像样本集上学习到的提取关于目标对象的图像特征的能力,迁移到了不带标签图像样本集上,最终使图像识别模型针对每个图像样本集(带标签图像样本集和每个不带标签图像样本集),都能够准确地进行目标对象识别,从而使图像识别模型对处于不同图像状态的目标对象都能够准确地进行图像识别。
而通过特征回归训练可以进一步使初始的图像识别模型从不带标签图像样本集中的图像样本上提取到的关于目标对象图像特征,更加接近于初始的图像识别模型从带标签图像样本集中的图像样本上提取到的关于目标对象的图像特征,从而使图像识别模型针对每个图像样本集(带标签图像样本集和每个不带标签图像样本集),都能够更加准确地进行目标对象识别,使图像识别模型对处于不同图像状态的目标对象都能够更加准确地进行图像识别。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:
图1是根据本发明的一个实施例的图像识别方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的多分类器的主要结构框图示意图;
图3是根据本发明的一个实施例的图像识别装置的主要结构框图示意图。
附图标记列表
11:图像样本分类模块;12:第一模型训练模块;13:第二模型训练模块;14:图像识别模块。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
参阅附图1,图1是根据本发明的一个实施例的图像识别方法的主要步骤流程示意图。如图1所示,本发明实施例中的图像识别方法主要包括下列步骤S101-步骤S104。
步骤S101:根据目标对象在图像中的图像状态对图像样本进行分类,得到不同图像状态的图像样本集。
在本实施例中目标对象可以是行人和车辆等,也可以是行人的身体部位如人脸,车辆的车体部位如车牌等等。目标对象在图像中的图像状态指的是目标对象在图像中呈现的状态,例如如果目标对象是人脸,那么人脸在图像中的图像状态可以是模糊、清晰和被遮挡等。
此外,在本实施例中一个图像样本集是带样本标签的带标签图像样本集,其他图像样本集是不带样本标签的不带标签图像样本集。样本标签指的是包含了目标对象在图像中的位置、图像特征等信息的标签。需要说明的是,在本实施例中可以采用常规的标签标注方法为目标对象的图像样本进行标签标注。
步骤S102:采用带标签图像样本集对预设的识别模型进行训练,得到初始的图像识别模型。
在本实施例中可以采用常规的神经网络等模型构建预设的识别模型。同时,在本实施例中可以采用机器学习技术领域中常规的模型训练方法采用带标签图像样本集对预设的识别模型进行训练。
步骤S103:采用带标签图像样本集与不带标签图像样本集对初始的图像识别模型进行分类对抗学习训练,并根据带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对初始的图像识别模型进行特征回归训练,得到最终的图像识别模型。
通过分类对抗学习训练可以使初始的图像识别模型从不带标签图像样本集中的图像样本上提取到的关于目标对象图像特征,更加接近于初始的图像识别模型从带标签图像样本集中的图像样本上提取到的关于目标对象的图像特征。也就是说,虽然不带标签图像样本集中的图像样本不带有样本标签,但是经过分类对抗学习训练初始的图像识别模型也能够从这些图像样本准确提取到关于目标对象的图像特征,即经过分类对抗学习训练初始的图像识别模型将从带标签图像样本集上学习到的提取关于目标对象的图像特征的能力,迁移到了不带标签图像样本集上,最终使图像识别模型针对每个图像样本集(带标签图像样本集和每个不带标签图像样本集),都能够准确地进行目标对象识别,从而使图像识别模型对处于不同图像状态的目标对象都能够准确地进行图像识别。
而通过特征回归训练可以进一步使初始的图像识别模型从不带标签图像样本集中的图像样本上提取到的关于目标对象图像特征,更加接近于初始的图像识别模型从带标签图像样本集中的图像样本上提取到的关于目标对象的图像特征,从而使图像识别模型针对每个图像样本集(带标签图像样本集和每个不带标签图像样本集),都能够更加准确地进行目标对象识别,使图像识别模型对处于不同图像状态的目标对象都能够更加准确地进行图像识别。
步骤S104:采用最终的图像识别模型对待识别图像进行目标对象识别。
基于上述步骤S101-步骤S104,本发明实施例通过对初始的图像识别模型进行分类对抗学习训练和特征回归训练,能够将初始的图像识别模型从带标签图像样本集上学习到的提取关于目标对象的图像特征的能力,迁移到不带标签图像样本集上,最终使图像识别模型针对每个图像样本集(带标签图像样本集和每个不带标签图像样本集)都能够准确地提取到关于目标对象的图像特征,进而对目标对象进行准确地图像识别,从而使图像识别模型对处于不同图像状态的目标对象都能够准确地进行图像识别。
下面对上述步骤S103作进一步说明。
在上述步骤S103的一个实施方式中,可以通过下列步骤21-23对初始的图像识别模型进行对分类抗学习训练:
步骤21:采用初始的图像识别模型分别提取带标签图像样本集中图像样本的图像特征以及不带标签图像样本集中图像样本的图像特征。
步骤22:采用多分类器,根据带标签图像样本集中图像样本的图像特征与不带标签图像样本集中图像样本的图像特征进行图像分类训练。
多分类器指的是能够进行多项类别分类的分类器,在本实施例中可以将带标签图像样本集中图像样本的图像特征,以及每个不带标签图像样本集中图像样本的图像特征同时输入到多分类器中,多分类器可以同时对不同图像样本集的图像样本进行分类。
例如:假设目标对象是人脸,带标签图像样本集(以下简称为样本集A)对应的图像状态是人脸清晰,一个不带标签图像样本集(以下简称为样本集B)对应的图像状态是人脸模糊,另一个不带标签图像样本集(以下简称为样本集C)对应的图像状态是人脸被遮挡。
将样本集A、B和C这三个样本集中图像样本的图像特征同时输入到多分类器进行图像分类训练,经过图像分类训练后多分类器能够识别出输入图像的类别(图像状态)是人脸清晰、人脸模糊还是人脸被遮挡。
需要说明的是,在本实施方式中可以采用常规的多分类器构建方法构建用于对带标签图像样本集与不带标签图像样本集进行图像分类训练的多分类器。例如,图2示例性示出了一个实施方式中多分类器的主要结构框图。如图2所示,在本实施方式中,多分类器可以包括顺次连接的输入层、全连接层1、激活函数层1、全连接层2、激活函数层2和分类损失函数层。其中,输入层用于接收带标签图像样本集与不带标签图像样本集中图像样本的图像特征。分类损失函数层可以输出分类损失值,即图像分类训练的结果。
步骤23:根据图像分类训练的结果计算初始的图像识别模型的模型参数的梯度并对梯度进行梯度反转,根据梯度反转后的梯度反向传播更新模型参数,完成分类对抗学习训练。
在本实施方式中可以采用预设的分类损失函数如sigmoid或softmax等其他损失函数,根据带标签图像样本集中图像样本的图像特征与不带标签图像样本集中图像样本的图像特征,计算图像特征的分类损失值,并将分类损失值作为图像分类训练的结果。
在获取到分类损失值后,可以根据分类损失值计算初始的图像识别模型的模型参数的梯度。在本领域常规的模型训练方法中,在获取到模型参数的梯度后通常是直接根据该梯度反向传播更新模型参数。而在本实施方式中为了使初始的图像识别模型从不带标签图像样本集中的图像样本上提取到的关于目标对象图像特征,更加接近于初始的图像识别模型从带标签图像样本集中的图像样本上提取到的关于目标对象的图像特征,在获取到模型参数的梯度,是先对梯度进行梯度反转,再根据梯度反转后的梯度反向传播更新模型参数,以使初始的图像识别模型与多分类器形成对抗学习,最终使初始的图像识别模型与多分类器达到对抗平衡状态,即完成分类对抗学习训练。
在训练初始阶段,根据梯度反转后的梯度反向传播更新模型参数会导致模型参数发生较大的变化,导致模型训练发生波动。对此,可以在训练初始阶段不进行梯度反转,直接根据获取到的梯度反向传播更新模型参数,在训练一段时长或达到一定的迭代训练次数后再进行梯度反转,根据梯度反转后的梯度反向传播更新模型参数。具体而言,在一个实施方式中可以通过下列步骤231-步骤23:6对梯度进行梯度反转:
步骤231:根据图像分类训练的结果计算初始的图像识别模型的模型参数的梯度。
步骤232:判断当前分类对抗学习训练的迭代训练次数是否达到预设的次数阈值;若是,则执行步骤233;若否,则执行步骤234。
步骤233:根据当前分类对抗学习训练的迭代训练次数匹配相应的梯度反转系数。其中,梯度反转系数是小于零的数值,且梯度反转系数的绝对值与迭代训练次数成正相关关系。例如:梯度反转系数与迭代训练次数之间的关系可以如下表1所示:
表1
迭代训练次数 梯度反转系数
10000 -0.2
20000 -0.4
30000 -0.6
40000 -0.8
50000 -1
步骤234:根据梯度反转系数对步骤231获取到的模型参数的梯度进行梯度反转。
步骤235:根据梯度反转后的梯度反向传播更新模型参数。
步骤236:直接根据步骤231获取到的模型参数的梯度反向传播更新模型参数。
在上述步骤S103的一个实施方式中,可以通过下列步骤31-34对初始的图像识别模型进行特征回归训练:
步骤31:分别计算带标签图像样本集与不带标签图像样本集中图像样本的图像特征平均值。
图像特征平均值是针对一个图像样本集(带标签图像样本集或不带标签图像样本集)中所有的图像样本而言的,其指的是在这个图像样本集所有的图像样本的图像特征的平均值。无论图像样本集包含多少个图像样本,但是图像样本集的图像特征平均值都是一个,即每个图像样本集都有各自对应的图像特征平均值。
步骤32:根据图像特征平均值计算带标签图像样本集与不带标签图像样本集的图像特征距离。
在本实施方式中可以采用常规的距离计算方法计算不同图像样本集之间的图像特征距离,例如,在本实施方式中可以欧式距离(Euclidean Metric)计算方法,计算带标签图像样本集的图像特征平均值,分别与每个不带标签图像样本集的图像特征平均值之间的图像特征距离。
参阅前述步骤22中的例子,在获取到样本集A、B和C这三个样本集各自对应的图像特征平均值后,可以计算样本集A与样本集B的图像特征平均值之间的欧式距离,将计算结果作为样本集A与样本集B的图像特征距离。
步骤33:采用L2范数损失函数并根据图像特征距离对带标签图像样本集与不带标签图像样本集的图像特征进行特征回归训练,其中,特征回归训练的结果包括经L2范数损失函数计算出的回归损失值。
步骤34:根据特征回归训练的结果计算初始的图像识别模型的模型参数的梯度并根据梯度反向传播更新模型参数,直至特征回归训练满足预设的训练收敛条件。
预设的收敛条件包括但不限于:迭代训练次数达到次数阈值或回归损失值小于等于预设值。
进一步,在一个实施方式中,为了克服在对初始的图像识别模型进行分类对抗学习训练的过程中由于同时针对每个不带标签图像样本集进行特征回归训练造成的模型收敛速度慢的问题,可以在进行分类对抗学习训练的每次迭代训练时依次针对不同的不带标签图像样本集进行特征回归训练。也就是说,在分类对抗学习训练的每次迭代训练,分别获取带标签图像样本集与不同的一个不带标签图像样本集中图像样本的图像特征距离,根据该图像特征距离执行后续的特征回归训练与模型参数更新等步骤。
继续参阅前述步骤22中的例子,在分类对抗学习训练的第1次迭代训练时,可以通过步骤31-步骤34依次获取样本集A与样本集B的图像特征距离,根据图像特征距离进行特征回归训练和模型参数更新。在分类对抗学习训练的第2次迭代训练时,可以通过步骤31-步骤34依次获取样本集A与样本集C的图像特征距离,根据图像特征距离进行特征回归训练和模型参数更新。进一步,在分类对抗学习训练之后的其他次迭代训练时依次执行上述步骤,直至初始的图像识别模型分别在样本集B和样本集C上都满足预设的训练收敛条件。
在本发明的一个应用场景的例子中,在对某个监控区域的行人进行人脸识别以确定行人身份时,由于天气、建筑物和图像采集装置的分辨率等等因素的影响,会采集到人脸处于模糊和被遮挡得多种图像状态的人脸图像,为了能够准确且高效地对不同图像状态下的行人人脸进行图像识别,可以先获取在模糊和被遮挡等多种图像状态下的人脸图像,得进而到每个图像状态各自对应的人脸图像样本集,并对其中一个人脸图像样本集中的人脸图像进行标签标注,即带标签人脸图像样本集,而其他人脸图像样本集则作为不带标签人脸图像样本集。然后采用根据本发明一个实施例的图像识别方法并利用上述带标签人脸图像样本集和不带标签人脸图像样本集训练得到一个人脸识别模型,将该人脸识别模型安装到监控区域的后台服务器中。在采集到监控区域中处于不同图像状态的人脸图像后将这些人脸图像直接输入至后台服务器中的人脸识别模型,人脸识别模型就可以对这些人脸图像进行准确地人脸识别。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
进一步,本发明还提供了一种图像识别装置。
参阅附图3,图3是根据本发明的一个实施例的图像识别装置的主要结构框图。如图3所示,本发明实施例中的图像识别装置主要包括图像样本分类模块11、第一模型训练模块12、第二模型训练模块13和图像识别模块14。在一些实施例中,图像样本分类模块11、第一模型训练模块12、第二模型训练模块13和图像识别模块14中的一个或多个可以合并在一起成为一个模块。在一些实施例中图像样本分类模块11可以被配置成根据目标对象在图像中的图像状态对图像样本进行分类,得到不同图像状态的图像样本集,其中,一个图像样本集是带样本标签的带标签图像样本集,其他图像样本集是不带样本标签的不带标签图像样本集;第一模型训练模块12可以被配置成采用带标签图像样本集对预设的识别模型进行训练,得到初始的图像识别模型;第二模型训练模块13可以被配置成采用带标签图像样本集与不带标签图像样本集对初始的图像识别模型进行分类对抗学习训练,并根据带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对初始的图像识别模型进行特征回归训练,得到最终的图像识别模型;图像识别模块14可以被配置成采用最终的图像识别模型对待识别图像进行目标对象识别。一个实施方式中,具体实现功能的描述可以参见步骤S101-步骤S104所述。
在一个实施方式中,第二模型训练模块13可以包括分类对抗学习训练子模块,在本实施方式中,分类对抗学习训练子模块包括图像特征提取单元和分类对抗学习训练单元。
图像特征提取单元可以被配置成采用初始的图像识别模型分别提取带标签图像样本集中图像样本的图像特征以及不带标签图像样本集中图像样本的图像特征;
分类对抗学习训练单元,其被配置成执行下列操作:采用多分类器,根据带标签图像样本集中图像样本的图像特征与不带标签图像样本集中图像样本的图像特征进行图像分类训练;根据图像分类训练的结果计算初始的图像识别模型的模型参数的梯度并对梯度进行梯度反转,根据梯度反转后的梯度反向传播更新模型参数,完成分类对抗学习训练。一个实施方式中,分类对抗学习训练子模块的具体实现功能的描述可以参见步骤S103所述。
在一个实施方式中,分类对抗学习训练单元被进一步配置成执行下列操作:判断当前分类对抗学习训练的迭代训练次数是否达到预设的次数阈值;若是,则根据迭代训练次数匹配相应的梯度反转系数,根据梯度反转系数对梯度进行梯度反转,根据梯度反转后的梯度反向传播更新模型参数;其中,梯度反转系数小于零且梯度反转系数的绝对值与迭代训练次数成正相关关系;若否,则不对梯度进行梯度反转,直接根据梯度反向传播更新模型参数。
在一个实施方式中,第二模型训练模块13可以包括特征回归训练子模块,在本实施方式中特征回归训练子模块可以包括图像特征平均值计算单元、图像特征距离计算单元和回归训练单元。
图像特征平均值计算单元可以被配置成分别计算带标签图像样本集与不带标签图像样本集中图像样本的图像特征平均值;
图像特征距离计算单元可以被配置成根据图像特征平均值计算带标签图像样本集与不带标签图像样本集的图像特征距离;
回归训练单元可以被配置成执行下列操作:采用L2范数损失函数并根据图像特征距离对带标签图像样本集与不带标签图像样本集的图像特征进行回归训练;根据回归训练的结果计算初始的图像识别模型的模型参数的梯度并根据梯度反向传播更新模型参数,直至回归训练满足预设的训练收敛条件。一个实施方式中,特征回归训练子模块的具体实现功能的描述可以参见步骤S103所述。
在一个实施方式中,第二模型训练模块13可以被进一步配置成在进行分类对抗学习训练的每次迭代训练时分别获取带标签图像样本集与不同不带标签图像样本集之间图像样本的图像特征距离,根据图像特征距离对初始的图像识别模型进行特征回归训练。一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
上述图像识别装置以用于执行图1所示的图像识别方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,图像识别装置的具体工作过程及有关说明,可以参考图像识别方法的实施例所描述的内容,此处不再赘述。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的图像识别方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的图像识别方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的图像识别方法的程序,该程序可以由处理器加载并运行以实现上述图像识别方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种图像识别方法,其特征在于,所述方法包括:
根据目标对象在图像中的图像状态对图像样本进行分类,得到不同图像状态的图像样本集,其中,一个图像样本集是带样本标签的带标签图像样本集,其他图像样本集是不带样本标签的不带标签图像样本集;
采用所述带标签图像样本集对预设的识别模型进行训练,得到初始的图像识别模型;
采用所述带标签图像样本集与所述不带标签图像样本集对所述初始的图像识别模型进行分类对抗学习训练,并根据所述带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对所述初始的图像识别模型进行特征回归训练,得到最终的图像识别模型;
采用所述最终的图像识别模型对待识别图像进行目标对象识别;
其中,“对所述初始的图像识别模型进行分类对抗学习训练”的步骤具体包括:采用多分类器,根据所述带标签图像样本集中图像样本的图像特征与所述不带标签图像样本集中图像样本的图像特征进行图像分类训练;根据所述图像分类训练的结果更新所述初始的图像识别模型的模型参数,以使所述初始的图像识别模型与所述分类器形成对抗学习;所述多分类器是能够进行多项类别分类的分类器;
“对所述初始的图像识别模型进行特征回归训练”的步骤具体包括:采用L2范数损失函数并根据所述图像特征距离对所述带标签图像样本集与所述不带标签图像样本集的图像特征进行特征回归训练;根据所述特征回归训练的结果更新所述初始的图像识别模型的模型参数。
2.根据权利要求1所述的图像识别方法,其特征在于,“对所述初始的图像识别模型进行分类对抗学习训练”的步骤还包括:
采用所述初始的图像识别模型分别提取所述带标签图像样本集中图像样本的图像特征以及所述不带标签图像样本集中图像样本的图像特征;
根据所述图像分类训练的结果计算所述初始的图像识别模型的模型参数的梯度并对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数,完成分类对抗学习训练。
3.根据权利要求2所述的图像识别方法,其特征在于,“对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数”的步骤具体包括:
判断当前分类对抗学习训练的迭代训练次数是否达到预设的次数阈值;
若是,则根据所述迭代训练次数匹配相应的梯度反转系数,根据所述梯度反转系数对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数;其中,所述梯度反转系数小于零且所述梯度反转系数的绝对值与迭代训练次数成正相关关系;
若否,则不对所述梯度进行梯度反转,直接根据所述梯度反向传播更新所述模型参数。
4.根据权利要求1所述的图像识别方法,其特征在于,“对所述初始的图像识别模型进行特征回归训练”的步骤还包括:
分别计算所述带标签图像样本集与所述不带标签图像样本集中图像样本的图像特征平均值;
根据所述图像特征平均值计算所述带标签图像样本集与所述不带标签图像样本集的图像特征距离;
根据所述特征回归训练的结果计算所述初始的图像识别模型的模型参数的梯度并根据所述梯度反向传播更新所述模型参数,直至特征回归训练满足预设的训练收敛条件;
并且/或者,
所述方法还包括:在进行分类对抗学习训练的每次迭代训练时分别获取带标签图像样本集与不同不带标签图像样本集之间图像样本的图像特征距离,根据所述图像特征距离对所述初始的图像识别模型进行特征回归训练。
5.一种图像识别装置,其特征在于,所述装置包括:
图像样本分类模块,其被配置成根据目标对象在图像中的图像状态对图像样本进行分类,得到不同图像状态的图像样本集,其中,一个图像样本集是带样本标签的带标签图像样本集,其他图像样本集是不带样本标签的不带标签图像样本集;
第一模型训练模块,其被配置成采用所述带标签图像样本集对预设的识别模型进行训练,得到初始的图像识别模型;
第二模型训练模块,其被配置成采用所述带标签图像样本集与所述不带标签图像样本集对所述初始的图像识别模型进行分类对抗学习训练,并根据所述带标签图像样本集与每个不带标签图像样本集之间图像样本的图像特征距离对所述初始的图像识别模型进行特征回归训练,得到最终的图像识别模型;
图像识别模块,其被配置成采用所述最终的图像识别模型对待识别图像进行目标对象识别;
其中,所述第二模型训练模块包括分类对抗学习训练子模块和特征回归训练子模块;
所述分类对抗学习训练子模块包括分类对抗学习训练单元,所述分类对抗学习训练单元被配置成:采用多分类器,根据所述带标签图像样本集中图像样本的图像特征与所述不带标签图像样本集中图像样本的图像特征进行图像分类训练;根据所述图像分类训练的结果更新所述初始的图像识别模型的模型参数,以使所述初始的图像识别模型与所述分类器形成对抗学习;所述多分类器是能够进行多项类别分类的分类器;
所述特征回归训练子模块包括图像特征平均值计算单元,所述图像特征平均值计算单元被配置成:采用L2范数损失函数并根据所述图像特征距离对所述带标签图像样本集与所述不带标签图像样本集的图像特征进行特征回归训练;根据所述特征回归训练的结果更新所述初始的图像识别模型的模型参数。
6.根据权利要求5所述的图像识别装置,其特征在于,所述分类对抗学习训练子模块还包括:
图像特征提取单元,其被配置成采用所述初始的图像识别模型分别提取所述带标签图像样本集中图像样本的图像特征以及所述不带标签图像样本集中图像样本的图像特征;
分类对抗学习训练单元还被配置成执行下列操作:
根据所述图像分类训练的结果计算所述初始的图像识别模型的模型参数的梯度并对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数,完成分类对抗学习训练。
7.根据权利要求6所述的图像识别装置,其特征在于,所述分类对抗学习训练单元被进一步配置成执行下列操作:
判断当前分类对抗学习训练的迭代训练次数是否达到预设的次数阈值;
若是,则根据所述迭代训练次数匹配相应的梯度反转系数,根据所述梯度反转系数对所述梯度进行梯度反转,根据梯度反转后的梯度反向传播更新所述模型参数;其中,所述梯度反转系数小于零且所述梯度反转系数的绝对值与迭代训练次数成正相关关系;
若否,则不对所述梯度进行梯度反转,直接根据所述梯度反向传播更新所述模型参数。
8.根据权利要求5所述的图像识别装置,其特征在于,所述特征回归训练子模块还包括:
图像特征平均值计算单元,其被配置成分别计算所述带标签图像样本集与所述不带标签图像样本集中图像样本的图像特征平均值;
图像特征距离计算单元,其被配置成根据所述图像特征平均值计算所述带标签图像样本集与所述不带标签图像样本集的图像特征距离;
回归训练单元还被配置成执行下列操作:
根据所述特征回归训练的结果计算所述初始的图像识别模型的模型参数的梯度并根据所述梯度反向传播更新所述模型参数,直至特征回归训练满足预设的训练收敛条件;
并且/或者,
所述第二模型训练模块被进一步配置成在进行分类对抗学习训练的每次迭代训练时分别获取带标签图像样本集与不同不带标签图像样本集之间图像样本的图像特征距离,根据所述图像特征距离对所述初始的图像识别模型进行特征回归训练。
9.一种控制装置,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至4中任一项所述的图像识别方法。
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至4中任一项所述的图像识别方法。
CN202111020831.1A 2021-09-01 2021-09-01 图像识别方法、装置以及计算机可读存储介质 Active CN113723431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111020831.1A CN113723431B (zh) 2021-09-01 2021-09-01 图像识别方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111020831.1A CN113723431B (zh) 2021-09-01 2021-09-01 图像识别方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113723431A CN113723431A (zh) 2021-11-30
CN113723431B true CN113723431B (zh) 2023-08-18

Family

ID=78680568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111020831.1A Active CN113723431B (zh) 2021-09-01 2021-09-01 图像识别方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113723431B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486209B (zh) * 2023-04-28 2024-02-13 广州市玄武无线科技股份有限公司 一种新品识别方法、装置、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175251A (zh) * 2019-05-25 2019-08-27 西安电子科技大学 基于语义对抗网络的零样本草图检索方法
CN112215255A (zh) * 2020-09-08 2021-01-12 深圳大学 一种目标检测模型的训练方法、目标检测方法及终端设备
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
WO2021057427A1 (zh) * 2019-09-25 2021-04-01 西安交通大学 一种基于PU learning的跨区域企业偷漏税识别方法及系统
CN112612911A (zh) * 2020-12-30 2021-04-06 华为技术有限公司 一种图像处理方法、系统、设备及介质、程序产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175251A (zh) * 2019-05-25 2019-08-27 西安电子科技大学 基于语义对抗网络的零样本草图检索方法
WO2021057427A1 (zh) * 2019-09-25 2021-04-01 西安交通大学 一种基于PU learning的跨区域企业偷漏税识别方法及系统
CN112215255A (zh) * 2020-09-08 2021-01-12 深圳大学 一种目标检测模型的训练方法、目标检测方法及终端设备
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN112612911A (zh) * 2020-12-30 2021-04-06 华为技术有限公司 一种图像处理方法、系统、设备及介质、程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习目标检测方法及其主流框架综述;段仲静;《激光与光电子学进展》;1-16 *

Also Published As

Publication number Publication date
CN113723431A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
US11062455B2 (en) Data filtering of image stacks and video streams
CN111582126B (zh) 基于多尺度行人轮廓分割融合的行人重识别方法
CN110287936B (zh) 图像检测方法、装置、设备及存储介质
CN112734691A (zh) 一种工业制品缺陷检测方法、装置、终端设备及存储介质
CN113298152B (zh) 模型训练方法、装置、终端设备及计算机可读存储介质
JP2024513596A (ja) 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
CN115100739B (zh) 人机行为检测方法、系统、终端设备及存储介质
CN113723431B (zh) 图像识别方法、装置以及计算机可读存储介质
CN112101156A (zh) 一种目标识别的方法、装置和电子设备
CN112712005B (zh) 识别模型的训练方法、目标识别方法及终端设备
CN116844006A (zh) 一种目标识别方法、装置、电子设备及可读存储介质
CN113469176B (zh) 一种目标检测模型训练方法、目标检测方法及其相关设备
CN115294172A (zh) 目标检测方法、装置、电子设备及存储介质
CN112446428A (zh) 一种图像数据处理方法及装置
CN116912920B (zh) 表情识别方法及装置
CN111325242A (zh) 一种图像的分类方法、终端及计算机存储介质
CN116580063B (zh) 目标追踪方法、装置、电子设备及存储介质
CN116503695B (zh) 目标检测模型的训练方法、目标检测方法及设备
CN117456314B (zh) 目标再识别模型的训练方法及装置
CN116091783A (zh) 一种目标识别方法、装置、终端设备和可读存储介质
CN106919926A (zh) 应用于视频品牌识别系统的检测识别模块
CN115660061A (zh) 一种用于识别细胞图像的神经网络模型的训练方法及系统
CN115578588A (zh) 一种用于无监督域自适应的前景目标迁移方法
CN113887560A (zh) 图像数据处理方法、装置、存储介质及计算机程序产品
CN115170509A (zh) 基于rgb-d图像分割的多目标人员识别与定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant