CN113762148B - 图像识别模型训练方法和装置、图像识别方法和装置 - Google Patents

图像识别模型训练方法和装置、图像识别方法和装置 Download PDF

Info

Publication number
CN113762148B
CN113762148B CN202111043035.XA CN202111043035A CN113762148B CN 113762148 B CN113762148 B CN 113762148B CN 202111043035 A CN202111043035 A CN 202111043035A CN 113762148 B CN113762148 B CN 113762148B
Authority
CN
China
Prior art keywords
feature
image
domain
image recognition
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111043035.XA
Other languages
English (en)
Other versions
CN113762148A (zh
Inventor
刘鹏
王启立
裴积全
易津锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202111043035.XA priority Critical patent/CN113762148B/zh
Publication of CN113762148A publication Critical patent/CN113762148A/zh
Application granted granted Critical
Publication of CN113762148B publication Critical patent/CN113762148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像识别模型训练方法和装置,涉及图像识别、深度学习等技术领域。该方法的一具体实施方式包括:获取预置的样本集,样本集的样本包括:第一域的图像和第二域的图像;获取预先建立的图像识别网络,其中,图像识别网络包括:图像识别模块和特征域分离模块;将从样本集选取的样本输入图像识别模块,得到第一图像特征和第二图像特征;通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征;基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值;若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。该实施方式提高了图像识别的准确度。

Description

图像识别模型训练方法和装置、图像识别方法和装置
技术领域
本公开涉及计算机技术领域,具体涉及图像识别、深度学习等技术领域,尤其涉及图像识别模型训练方法和装置、图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术
随着深度学习技术的快速发展,人脸识别技术在现实生活中已经被广泛应用,如注意力机制网络、深度残差网络等,但是目前这些网络对成人的人脸识别结果较准确,对于老年人和未成年人群体的人脸识别仍无法进行准确区分,即对未成年人和老年人的人脸识别准确率较低。
发明内容
本公开的实施例提出了图像识别模型训练方法和装置、图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
第一方面,本公开的实施例提供了一种图像识别模型训练方法,该方法包括:获取预置的样本集,其中,样本集包括至少一个样本,样本包括:第一域的图像和第二域的图像;获取预先建立的图像识别网络,其中,图像识别网络包括:图像识别模块和特征域分离模块;执行以下训练步骤:将从样本集选取的样本输入图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征;通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征;基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值;若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。
在一些实施例中,上述方法还包括:若图像识别网络不满足训练完成条件,则调整图像识别网络中的相关参数使得损失值收敛,基于调整后的图像识别网络,继续执行上述训练步骤。
在一些实施例中,上述特征域分离模块包括:全连接网络层、标识自适应实例归一化层和属性自适应实例归一化层;上述通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到第分离域特征,包括:将第一图像特征和第二图像特征输入全连接网络层,得到与第一图像特征对应的第一输出特征,以及与第二图像特征对应的第二输出特征;将第一输出特征和第二输出特征同时输入标识自适应实例归一化层,得到与第一输出特征对应的第一标识特征,以及与第二输出特征对应的第二标识特征;将第一输出特征和第二输出特征同时输入属性自适应实例归一化层,得到与第一输出特征对应的第一属性特征,以及与第二输出特征对应的第二属性特征;将第一标识特征、第二标识特征、第一属性特征、第二属性特征作为分离域特征。
在一些实施例中,上述基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值,包括:基于第一图像特征和该样本的第一域的图像上预设的域标签,计算得到第一图像损失值;基于第二图像特征和该样本的第二域的图像上预设的域标签,计算得到第二图像损失值;基于分离域特征,计算得到分离域损失值;基于第一图像损失值、第二图像损失值、分离域损失值,计算得到图像识别网络的损失值。
在一些实施例中,上述分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,基于分离域特征,计算得到分离域损失值,包括:基于第一标识特征、第一属性特征,得到第一损失值;基于第二标识特征、第二属性特征,得到第二损失值;将第一损失值、第二损失值相加,得到分离域损失值。
在一些实施例中,上述特征域分离模块包括:标识自适应实例归一化层和属性自适应实例归一化层;分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,第一标识特征与第二标识特征分别由标识自适应实例归一化层输出,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,第一属性特征与第二属性特征分别由属性自适应实例归一化层输出,基于分离域特征,计算得到分离域损失值,包括:基于第一标识特征、第一属性特征,得到第一损失值;基于第二标识特征、第二属性特征,得到第二损失值;分别为标识自适应实例归一化层、属性自适应实例归一化层设置标识权重值和属性权重值;基于标识权重值和属性权重值,计算得到权重损失值;将第一损失值、第二损失值和权重损失值相加,得到分离域损失值。
第二方面,本公开的实施例提供了一种图像识别方法,该方法包括:获取待识别的图像;将图像输入采用如第一方面任一实现方式生成的图像识别模型中,输出图像的识别结果。
第三方面,本公开的实施例提供了一种图像识别模型训练装置,该装置包括:样本获取单元,被配置成获取预置的样本集,其中,样本集包括至少一个样本,样本包括:第一域的图像和第二域的图像;网络获取单元,被配置成获取预先建立的图像识别网络,其中,图像识别网络包括:图像识别模块和特征域分离模块;输入单元,被配置成将从样本集选取的样本输入像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征;分离单元,被配置成通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征;计算单元,被配置成基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值;输出单元,被配置成若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。
在一些实施例中,上述装置还包括:调整单元,被配置成在图像识别网络不满足训练完成条件时,调整图像识别网络中的相关参数使得损失值收敛,输入单元、分离单元、计算单元、输出单元基于调整后的图像识别网络,继续执行训练步骤。
在一些实施例中,上述特征域分离模块包括:全连接网络层、标识自适应实例归一化层和属性自适应实例归一化层;上述分离单元包括:全连接模块,被配置成将第一图像特征和第二图像特征输入全连接网络层,得到与第一图像特征对应的第一输出特征,以及与第二图像特征对应的第二输出特征;标识自适应模块,被配置成将第一输出特征和第二输出特征同时输入标识自适应实例归一化层,得到与第一输出特征对应的第一标识特征,以及与第二输出特征对应的第二标识特征;属性自适应模块,被配置成将第一输出特征和第二输出特征同时输入属性自适应实例归一化层,得到与第一输出特征对应的第一属性特征,以及与第二输出特征对应的第二属性特征;赋值模块,被配置成将第一标识特征、第二标识特征、第一属性特征、第二属性特征作为分离域特征。
在一些实施例中,上述计算单元包括:第一图像损失计算模块,被配置成基于第一图像特征和该样本的第一域的图像上预设的域标签,计算得到第一图像损失值;第二图像损失计算模块,被配置成基于第二图像特征和该样本的第二域的图像上预设的域标签,计算得到第二图像损失值;域损失计算模块,被配置成基于分离域特征,计算得到分离域损失值;网络损失计算模块,被配置成基于第一图像损失值、第二图像损失值、分离域损失值,计算得到图像识别网络的损失值。
在一些实施例中,上述分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,上述域损失计算模块包括:第一损失子模块,被配置成基于第一标识特征、第一属性特征,得到第一损失值;第二损失子模块,被配置成基于第二标识特征、第二属性特征,得到第二损失值;得到子模块,被配置成将第一损失值、第二损失值相加,得到分离域损失值。
在一些实施例中,上述特征域分离模块包括:标识自适应实例归一化层和属性自适应实例归一化层;分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,第一标识特征与第二标识特征分别由标识自适应实例归一化层输出,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,第一属性特征与第二属性特征分别由属性自适应实例归一化层输出,上述域损失计算模块包括:第一损失子模块,被配置成基于第一标识特征、第一属性特征,得到第一损失值;第二损失子模块,被配置成基于第二标识特征、第二属性特征,得到第二损失值;配置子模块,被配置成分别为标识自适应实例归一化层、属性自适应实例归一化层设置标识权重值和属性权重值;权重子模块,被配置成基于标识权重值和属性权重值,计算得到权重损失值;计算子模块,被配置成将第一损失值、第二损失值和权重损失值相加,得到分离域损失值。
第四方面,本公开的实施例提供了一种图像识别装置,该装置包括:获取单元,被配置成获取待识别的图像;识别单元,被配置成将图像输入采用如第一方面任一实现方式生成的图像识别模型中,输出图像的识别结果。
第五方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面或第二方面中任一实现方式描述的方法。
第六方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面中任一实现方式描述的方法。
第七方面,本公开的实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
本公开的实施例提供的图像识别模型训练方法和装置,首先获取预置的样本集,其中,样本集包括至少一个样本,样本包括:第一域的图像和第二域的图像;其次,获取预先建立的图像识别网络,其中,图像识别网络包括:图像识别模块和特征域分离模块;再次,将从样本集选取的样本输入图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征;从次,通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征;然后,基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值;最后,若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。由此,在通过图像识别模块对第一域的图像和第二域的图像进行识别的同时,采用特征域分离模块对图像识别模块的分类结果进行域分离,并采用分离域特征对图像识别网络进行监督,从而提高了图像识别模型对不同域图像的识别效果,提高了图像识别模型对图像识别的准确率。
本公开的实施例提供的图像识别方法和模型,通过采用图像识别模型训练方法生成的图像识别模型,可以有效地区分不同域的图像,保证了对待识别的图像的识别效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的图像识别模型训练方法的一个实施例的流程图;
图3是本公开中特征域分离模块的一种结构示意图;
图4是根据本公开的图像识别方法的一个实施例的流程图;
图5是根据本公开的图像识别模型训练装置的实施例的结构示意图;
图6是根据本公开的图像识别装置的实施例的结构示意图;
图7是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的图像识别模型训练方法或图像识别方法的示例性系统架构100。
如图1所示,系统架构100可以包括终端101、102,网络103、数据库服务器104和服务器105。网络103用以在终端101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端101、102通过网络103与服务器105进行交互,以接收或发送消息等。终端101、102上可以安装有各种客户端应用,例如模型训练类应用、图像识别应用、购物类应用、支付类应用、网页浏览器和即时通讯工具等。
这里的终端101、102可以是硬件,也可以是软件。当终端101、102为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、膝上型便携计算机和台式计算机等等。当终端101、102为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
当终端101、102为硬件时,其上还可以安装有图像采集设备。图像采集设备可以是各种能实现采集图像功能的设备,如摄像头、传感器等等。用户110可以利用终端101、102上的图像采集设备,来采集待识别的图像。
数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有样本集。样本集中包含有大量的样本。其中,样本可以包括第一域的图像和第二域的图像。例如,第一域是男性,第二域是女性。或者第一域是成年人,第二域是未成年人或老年人等。这样,用户110也可以通过终端101、102,从数据库服务器104所存储的样本集中选取样本。
服务器105也可以是提供各种服务的服务器,例如对终端101、102上显示的各种应用提供支持的后台服务器。后台服务器可以利用终端101、102发送的样本集中的样本,对初始模型进行训练,并可以将训练结果(如生成的生成图像识别模型)发送给终端101、102。这样,用户可以应用生成的生成图像识别模型进行图像识别。
这里的数据库服务器104和服务器105同样可以是硬件,也可以是软件。当它们为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当它们为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开的实施例所提供的图像识别模型训练方法或图像识别方法一般由服务器105执行。相应地,图像识别模型训练装置或图像识别装置一般也设置于服务器105中。
需要指出的是,在服务器105可以实现数据库服务器104的相关功能的情况下,系统架构100中可以不设置数据库服务器104。
应该理解,图1中的终端、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络、数据库服务器和服务器。
如图2,示出了根据本公开的图像识别模型训练方法的一个实施例的流程200,该图像识别模型训练方法包括以下步骤:
步骤201,获取预置的样本集。
在本实施例中,图像识别模型训练方法的执行主体(例如图1所示的服务器)可以通过多种方式来获取样本集。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的现有的样本集。再例如,用户可以通过终端(例如图1所示的终端101、102)来收集样本。这样,执行主体可以接收终端所收集的样本,并将这些样本存储在本地,从而生成样本集。
在这里,样本集中可以包括至少一个样本。其中,样本可包括第一域的图像和第二域的图像。域指的是图像的类别,例如,男性、女性、油画、照片、老年人、未成年人、成年人等。样本可包括第一域的成人人脸图像和第二域的老年人或未成年人的人脸图像。第一域和第二域的图像类型在此不做限定,可以是任意的组合。具体实现过程可参考步骤203的样本选取步骤。
为了得到不同的图像识别结果,可以在样本中做标签标注,例如,为了得到人脸身份信息,在样本集的样本的各个图像中增加身份id标签。
步骤202,获取预先建立的图像识别网络。
在本实施例中,图像识别网络包括:图像识别模块和特征域分离模块,图像识别模型可以是用于进行图像处理的卷积神经网络(例如包含卷积层、池化层、反池化层、反卷积层的各种卷积神经网络结构,可以依次进行降采样和上采样);上述特征域分离模块可以是用于对图像识别模块输出的第一图像特征和第二图像特征进行域分离,并基于域分离特征调整图像识别网络的参数,从而保证训练完成的图像识别模块(图像识别模型)可以有效地对第一域的图像和第二域的图像进行区分。
本实施例中,图像识别模块是一种特征提取网络,通过该特征提取网络可以有效地提取输入的图像的特征,并且将一张图像输入图像识别模块,可以得到图像识别模块输出的图像识别结果。
步骤203,将从样本集选取的样本输入图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征。
在本实施例中,执行主体可以从步骤201中获取的样本集中选取样本,以及执行步骤203至步骤206的训练步骤。其中,样本的选取方式和选取数量在本公开中并不限制。例如可以是随机选取至少一个样本,也可以是从中选取清晰度较好(即像素较高)的样本。每个样本可以是一对图像。一对图像中包括一个第一域的图像和一个第二域的图像。可根据实际需求选择第一域的图像和第二域的图像。例如,如果需要对不同年龄的人进行人脸图像识别,则选择成年人图像作为第一域的图像,选择未成年人或老年人图像作为第二域的图像。
本实施例中,图像识别模块可以采用卷积神经网络,卷积神经网络用于采集图像的图像特征,基于图像特征识别图像中人物或动物的身份信息,图像识别模块可以单独对第一域的图像进行图像识别,也可以单独对第二域的图像进行图像识别。
本实施例中,也可以采用多分支联合训练技术,对图像识别网络的样本进行同批次多输入,其中分支一为第一域的图像,分支二为第二域的图像。例如,第一域的图像是成年人人脸图像,分支二为老年人或者未成年人人脸图像,这两部分数据组合成一个批次,作为输入送入到图像识别模块;然后图像识别模块通过利用卷积层和激活层完成对输入的特征提取,并且输出512维的人脸特征;之后对图像识别模块提取到的人脸特征按照输入组成分成两部分特征,一部分为成年人人脸对应的特征,即第一图像特征;另一部分为老年人或者未成年人人脸对应的特征,即第二图像特征。
步骤204,通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征。
本实施例中,域分离是指对特征进行不同种类的划分,保证域分离后的各个特征之间界线清晰。由此,得到分离域特征至少包括两种不同的域特征,例如,对于人脸图像特征,分离域特征可以包括:身份信息特征和身份信息特征以外的特征。
步骤205,基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值。
本实施例中,通过交叉熵损失监督计算,可以得到与第一图像特征对应的第一图像损失值;通过交叉熵损失监督计算,可以得到与第二图像特征对应的第二图像损失值;通过特征域损失计算,可以得到与分离域特征对应的分离域损失值;将第一图像损失值、第二图像损失值、分离域损失值三者相加,可以得到图像识别网络的损失值。在每次迭代训练中,基于图像识别网络的损失值,对图像识别网络的参数进行调整,可以得到图像识别网络的最小的损失值,此时图像识别网络的参数为最优参数,图像识别模块为图像识别模型。
步骤206,若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。
在本实施例中,训练完成条件包括以下至少一项:训练迭代次数达到预定迭代阈值,图像识别网络的损失值小于预定损失值阈值。例如,训练迭代达到5千次。损失值小于0.05。训练完成后只保留图像识别模块作为图像识别模型。设置训练完成条件可以加快模型收敛速度。
在本实施例的一些可选实现方式中,若图像识别网络不满足训练完成条件,则调整图像识别网络中的相关参数使得图像识别网络的损失值收敛,基于调整后的图像识别网络,继续执行步骤203-206。
在本实施例中,若训练未完成,则调整图像识别模块或特征域分离模块的参数来使得图像识别网络的损失值收敛。可先保持调整图像识别模块的参数不变,反复执行步骤203至步骤206,调整特征域分离模块的参数,使得图像识别网络的损失值逐渐变小直至稳定。然后再保持特征域分离模块的参数不变,反复执行步骤203至步骤206,调整图像识别模块的参数,使得损失值逐渐变小直至稳定。
本公开的实施例提供的图像识别模型训练方法和装置,首先获取预置的样本集,其中,样本集包括至少一个样本,样本包括:第一域的图像和第二域的图像;其次,获取预先建立的图像识别网络,其中,图像识别网络包括:图像识别模块和特征域分离模块;再次,将从样本集选取的样本输入图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征;从次,通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征;然后,基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值;最后,若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。由此,在通过图像识别模块对第一域的图像和第二域的图像进行识别的同时,采用特征域分离模块对图像识别模块的分类结果进行域分离,并且采用分离域特征对图像识别网络进行监督,从而提高了图像识别模型对不同域图像的识别效果,提高了图像识别模型对图像识别的准确率。
在本实施例的一些可选实现方式中,如图3所示,特征域分离模块包括:全连接网络层FC、标识自适应实例归一化层AdaIN1和属性自适应实例归一化层AdaIN2;上述通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征,包括:将第一图像特征和第二图像特征输入全连接网络层,得到与第一图像特征对应的第一输出特征,以及与第二图像特征对应的第二输出特征;将第一输出特征和第二输出特征同时输入标识自适应实例归一化层,得到与第一输出特征对应的第一标识特征,以及与第二输出特征对应的第二标识特征;将第一输出特征和第二输出特征同时输入属性自适应实例归一化层,得到与第一输出特征对应的第一属性特征,以及与第二输出特征对应的第二属性特征;将第一标识特征、第二标识特征、第一属性特征、第二属性特征作为分离域特征。
本可选实现方式中,在特征域分离模块中设置全连接网络层可以实现对第一图像特征和第二图像特征进行特征解纠缠,其中,解纠缠,也叫做解耦,就是将原始数据空间中纠缠着的数据变化,变换到一个表征空间中,在这个空间中,不同要素的变化时可以彼此分离的。
以第一图像特征y1为成年人人脸特征,第二图像特征y2为老年人或未成年人人脸特征为例,全连接网络层对成年人人脸特征和老年人或者未成年人人脸特征进行特征解纠缠,该过程可用数学公式表示为:
Y=g(y) (1)
其中式(1)中,表示老年人或者未成年人人脸特征和成年人人脸特征,g()表示8层fc网络层的变换函数,/>表示fc网络层的输出特征,在图3中,与成年人人脸特征的输出特征为第一输出特征Y1,与老年人或未成年人人脸特征的输出特征为第二输出特征Y2。此后,再利用两个自适应实例归一化层对解纠缠得到的输出特征Y进行特征分离,其中AdaIN1用于分离得到特征中包含的id信息/>
其中,式(2)中,Yi为Y中的第i个通道的特征图,μ(Yi)为特征图Yi的均值,σ(Yi)为特征图Yi的方差。as,i和bs,i为每个通道特征图的变换权重和偏置参数,该权重和偏置均是由一个全连接层计算得到,其计算过程可描述为:
ts=f1(Y) (3)
as,i=ts[i,0] (4)
bs,i=ts[i,1] (5)
其中,式(3)-(5)中,为全连接层的输出,f1()为全连接层的变换函数。
与此同时,除了使用AdaIN1网络层用于分离得到特征Y中的id信息以外,还使用AdaIN2网络层用于分离得到除id信息以外的其他域信息
其中,式(6)中,ad,i和bd,i为每个通道特征图的变换权重和偏置参数,该权重和偏置的计算原理与as,i和bs,i相同,如下公式所示:
td=f2(Y) (7)
ad,i=td[i,0] (8)
bd,i=td[i,1] (9)
其中,式(7)-(9)中,f2()为另一全连接层的变换函数,为该fc层的输出。
通过使用两个自适应实例归一化层,可以将成年人人脸特征Y1和老年人或者未成年人人脸特征Y2中包含的id信息Y1-id,Y2-id和除id信息以外的其他信息Y1-other,Y2-other分离出来。
本可选实现方式中,通过特征域分类模块中全连接网络层对第一图像特征和第二图像特征进行特征解纠缠,通过标识自适应实例归一化层AdaIN1和属性自适应实例归一化层AdaIN2进行特征域分离,分离出id域特征和除id信息的其他域特征,提高了第一图像特征和第二图像特征之间的分离效果,为图像识别模型训练时参数调整提供了可靠基础。
在一个实施例中,可选地,特征域分离模块可以包括:标识自适应实例归一化层AdaIN1和属性自适应实例归一化层AdaIN2;上述通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征,包括:将第一图像特征和第二图像特征输入同时输入标识自适应实例归一化层,得到与第一图像特征对应的第一标识特征,以及与第二图像特征对应的第二标识特征;将第一图像特征和第二图像特征同时输入属性自适应实例归一化层,得到与第一图像特征对应的第一属性特征,以及与第二图像特征对应的第二属性特征;将第一标识特征、第二标识特征、第一属性特征、第二属性特征作为分离域特征。
可选地,特征域分离模块还可以包括:权重赋值模块,该权重赋值模块可以基于图像识别网络设置需求,分别为第一标识特征、第二标识特征、第一属性特征、第二属性特征赋值不同的权重,分别为:第一权重值、第二权重值、第三权重值、第四权重值,则将第一标识特征与第一权重值的乘积、第二标识特征与第二权重值的乘积、第一属性特征与第三权重值的乘积、第二属性特征与第四权重值的乘积共同作为分离域特征。
本实施例中,可以采用多种损失计算方式计算图像识别网络的损失值,例如交叉熵损失函数。在本实施例的一些可选实现方式中,上述基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值,包括:基于第一图像特征和该样本的第一域的图像上预设的域标签,计算得到第一图像损失值;基于第二图像特征和该样本的第二域的图像上预设的域标签,计算得到第二图像损失值;基于分离域特征,计算得到分离域损失值;基于第一图像损失值、第二图像损失值、分离域损失值,计算得到图像识别网络的损失值。
本可选实现方式中,第一域的图像上预设的域标签和第二域的图像上预设的域标签是在设置样本集中的样本时设置的监督标签,通过该监督标签可以实现损失值的计算。基于图像识别模块的识别原理不同,第一域的图像上预设的域标签和第二域的图像上预设的域标签可以是多种不同的标识,例如,当图像识别模块用于识别不同的人脸图像身份时,第一域的图像上的域标签和第二域的图像上的域标签用于标识人脸的身份id。当图像识别模块用于识别不同动物的种类时,第一域的图像上的域标签和第二域的图像上的域标签用于标识动物的种类类型。
本可选实现方式中,可以采用交叉熵损失函数分别计算第一图像损失值和第二图像损失值,可以采用交叉熵损失函数或者其他损失函数计算分离域损失值。
本可选实现方式中,基于第一图像损失值、第二图像损失值、分离域损失值,共同计算得到图像识别网络的损失值,可以全面考虑图像识别模块和特征域分离模块的损失,从而保证了图像识别网络训练的可靠性。
在本实施例的一些可选实现方式中,上述分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,基于分离域特征,计算得到分离域损失值,包括:基于第一标识特征、第一属性特征,得到第一损失值;基于第二标识特征、第二属性特征,得到第二损失值;将第一损失值、第二损失值相加,得到分离域损失值。
本可选实现方式中,第一标识特征是通过标识自适应实例归一化层得到的特征,第一标识特征是一种对第一图像特征进行域分离后的值。第二标识特征是通过标识自适应实例归一化层得到的特征,第二标识特征是一种对第二图像特征进行域分离后的值。第一属性特征是通过属性自适应实例归一化层得到的特征,第一属性特征是一种对第一图像特征进行域分离后的值。第二属性特征是通过属性自适应实例归一化层得到的特征,第二属性特征是一种对第二图像特征进行域分离后的值。
以图3为例,将分离得到年人人脸特征Y1和老年人或者未成年人人脸特征Y2中包含的id信息Y1-id,Y2-id和除id信息以外的其他信息Y1-other,Y2-other的这两部分信息作为两个处于不同域的特征,进行特征域损失计算,得到如式(10)所示的分离域损失值L1,其计算原理可描述为:
L1=Ldomain1+Ldomain2 (10)
其中,式(11)-(12)中,μ()为求解均值函数。
本可选实现方式中,采用第一损失值和第二损失值的和作为分离域损失值可以涵盖标识自适应实例归一化层和属性自适应实例归一化层两者的损失值,为得到分离域损失值提供了可选的实现方式。
在本实施例的一些可选实现方式中,上述特征域分离模块包括:标识自适应实例归一化层和属性自适应实例归一化层;分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,第一标识特征与第二标识特征分别由标识自适应实例归一化层输出,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,第一属性特征与第二属性特征分别由属性自适应实例归一化层输出,基于分离域特征,计算得到分离域损失值,包括:基于第一标识特征、第一属性特征,得到第一损失值;基于第二标识特征、第二属性特征,得到第二损失值;分别为标识自适应实例归一化层、属性自适应实例归一化层设置标识权重值和属性权重值;基于标识权重值和属性权重值,计算得到权重损失值;将第一损失值、第二损失值和权重损失值相加,得到分离域损失值。
其中,在式(13)中,w1和w2分别表示标识自适应实例归一化层AdaIN1和属性自适应实例归一化层AdaIN2的标识权重值和属性权重值,分离域损失值Lw通过w1和w2计算得到。
通过实验结果证明,采用自适应实例归一化层对特征进行域分离,并且对分离得到的域特征进行特征域损失和权重损失监督,可以使得图像识别模型提升对第一域的图像和第二域的图像识别准确率,例如,提升对未成年人和老年群体的人脸图像识别的准确率。
本可选实现方式中,分别为标识自适应实例归一化层、属性自适应实例归一化层设置标识权重值和属性权重值,使用特征域损失和权重损失对图像识别模块训练进行监督,提高了图像识别模块训练的可靠性。
请参见图4,其示出了本公开提供的图像识别方法的一个实施例的流程400。该图像识别方法可以包括以下步骤:
步骤401,获取待识别的图像。
在本实施例中,图像识别方法的执行主体(例如图1所示的服务器105)可以通过多种方式来获取待识别的图像。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的待识别的图像。再例如,执行主体也可以接收终端(例如图1所示的终端101、102)或其他设备采集的待识别的图像。
在本实施例中,待识别的图像可以是彩色图像和/或灰度图像等等。且该待识别的图像的格式在本公开中也不限制。
步骤402,将图像输入采用图像识别模型训练方法生成的图像识别模型中,输出图像的识别结果。
在本实施例中,执行主体可以将步骤401中获取的待识别的图像输入图像识别模型中,从而输出图像识别结果。步骤201-206训练生成的图像识别模型可以识别待识别图像,本实施例中,图像识别模型输出的待识别图像的识别结果可以是待识别图像中人物的身份或动物的种类等信息。
在本实施例中,图像识别模型可以是采用如上述图2实施例所描述的方法而生成的。具体生成过程可以参见图2实施例的相关描述,在此不再赘述。
需要说明的是,本实施例图像识别方法可以用于测试上述各实施例所生成的图像识别模型。进而根据转换结果可以不断地优化图像识别模型。该方法也可以是上述各实施例所生成的图像识别模型的实际应用方法。采用上述各实施例所生成的图像识别模型,来进行图像识别,有助于提高图像识别的性能。
本实施例提供的图像识别方法,通过采用图像识别模型训练方法生成的图像识别模型,可以有效地区分不同域的图像,保证了对待识别的图像的识别效果。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了图像识别模型训练装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本公开的实施例提供了一种图像识别模型训练装置500,该装置500包括:样本获取单元501、网络获取单元502、输入单元503、分离单元504、计算单元505、输出单元506。其中,样本获取单元501,可以被配置成获取预置的样本集,其中,样本集包括至少一个样本,样本包括:第一域的图像和第二域的图像。网络获取单元502,可以被配置成获取预先建立的图像识别网络,其中,图像识别网络包括:图像识别模块和特征域分离模块。输入单元503,可以被配置成将从样本集选取的样本输入图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征。上述分离单元504,可以被配置成通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征。上述计算单元505,可以被配置成基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值。上述输出单元506,可以被配置成若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。
在本实施例中,图像识别模型训练装置500中,样本获取单元501、网络获取单元502、输入单元503、分离单元504、计算单元505、输出单元506的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204、步骤205、步骤206。
在一些实施例中,上述图像识别模型训练装置500还包括:隔离单元(图中未示出)。其中,上述隔离单元,可以被配置成响应于当前编码的内容是预设的隔离标签,将当前编码相邻的下一编码作为当前编码,继续控制检测单元502继续工作。
在一些实施例中,上述图像识别模型训练装置500还包括:调整单元(图中未示出)。其中,上述调整单元,可以被配置成在图像识别网络不满足训练完成条件时,调整图像识别网络中的相关参数使得损失值收敛,输入单元503、分离单元504、计算单元505、输出单元506基于调整后的图像识别网络,继续执行训练步骤。
在一些实施例中,上述特征域分离模块包括:全连接网络层、标识自适应实例归一化层和属性自适应实例归一化层;上述分离单元504包括:全连接模块(图中未示出)、标识自适应模块(图中未示出)、属性自适应模块(图中未示出)、赋值模块(图中未示出)。其中,上述全连接模块,可以被配置成将第一图像特征和第二图像特征输入全连接网络层,得到与第一图像特征对应的第一输出特征,以及与第二图像特征对应的第二输出特征。上述标识自适应模块,可以被配置成将第一输出特征和第二输出特征同时输入标识自适应实例归一化层,得到与第一输出特征对应的第一标识特征,以及与第二输出特征对应的第二标识特征。上述属性自适应模块,可以被配置成将第一输出特征和第二输出特征同时输入属性自适应实例归一化层,得到与第一输出特征对应的第一属性特征,以及与第二输出特征对应的第二属性特征。上述赋值模块,可以被配置成将第一标识特征、第二标识特征、第一属性特征、第二属性特征作为分离域特征。
在一些实施例中,上述计算单元505包括:第一图像损失计算模块(图中未示出)、第二图像损失计算模块(图中未示出)、域损失计算模块(图中未示出)、网络损失计算模块(图中未示出)。其中,上述第一图像损失计算模块,可以被配置成基于第一图像特征和该样本的第一域的图像上预设的域标签,计算得到第一图像损失值。上述第二图像损失计算模块,可以被配置成基于第二图像特征和该样本的第二域的图像上预设的域标签,计算得到第二图像损失值。上述域损失计算模块,可以被配置成基于分离域特征,计算得到分离域损失值。上述网络损失计算模块,可以被配置成基于第一图像损失值、第二图像损失值、分离域损失值,计算得到图像识别网络的损失值。
在一些实施例中,上述分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,上述域损失计算模块包括:第一损失子模块(图中未示出)、第二损失子模块(图中未示出)、得到子模块(图中未示出)。其中,上述第一损失子模块,可以被配置成基于第一标识特征、第一属性特征,得到第一损失值。上述第二损失子模块,可以被配置成基于第二标识特征、第二属性特征,得到第二损失值。上述得到子模块,可以被配置成将第一损失值、第二损失值相加,得到分离域损失值。
在一些实施例中,上述特征域分离模块包括:标识自适应实例归一化层和属性自适应实例归一化层;分离域特征包括:与第一图像特征对应的第一标识特征,与第二图像特征对应的第二标识特征,第一标识特征与第二标识特征分别由标识自适应实例归一化层输出,与第一图像特征对应的第一属性特征,与第二图像特征对应的第二属性特征,第一属性特征与第二属性特征分别由属性自适应实例归一化层输出,上述域损失计算模块包括:第一损失子模块(图中未示出)、第二损失子模块(图中未示出)、配置子模块(图中未示出)、权重子模块(图中未示出)、计算子模块(图中未示出)。其中,上述第一损失子模块,可以被配置成基于第一标识特征、第一属性特征,得到第一损失值。上述第二损失子模块,可以被配置成基于第二标识特征、第二属性特征,得到第二损失值。上述配置子模块,可以被配置成分别为标识自适应实例归一化层、属性自适应实例归一化层设置标识权重值和属性权重值。上述权重子模块,可以被配置成基于标识权重值和属性权重值,计算得到权重损失值。上述计算子模块,可以被配置成将第一损失值、第二损失值和权重损失值相加,得到分离域损失值。
本公开的实施例提供的图像识别模型训练装置,在通过图像识别模块对第一域的图像和第二域的图像进行识别的同时,采用特征域分离模块对图像识别模块的分类结果进行域分离,并采用分离域特征对图像识别网络进行监督,从而提高了图像识别模型对不同域图像的识别效果,提高了图像识别模型对图像识别的准确率。
继续参见图6,作为对上述图4所示方法的实现,本公开提供了一种图像识别装置的一个实施例。该装置实施例与图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的图像识别装置600可以包括:获取单元601,被配置成获取待识别的图像。识别单元602,被配置成将图像输入如上述图2或图4实施例所描述的方法生成的图像识别模型中,输出图像的识别结果。。
可以理解的是,该装置600中记载的诸单元与参考图4描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置600及其中包含的单元,在此不再赘述。
需要说明的是,本公开的实施例中所涉及的人脸图像、个人信息等数据均已通过用户自愿授权,个人信息数据的获取、存储、处理和传输等均符合相关法律法规的要求。
下面参考图7,其示出了适于用来实现本公开的实施例的电子设备700的结构示意图。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、等的输入装置706;包括例如液晶显示器(LCD,Liquid Crystal Display)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述服务器中所包含的;也可以是单独存在,而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:获取预置的样本集,其中,样本集包括至少一个样本,样本包括:第一域的图像和第二域的图像;获取预先建立的图像识别网络,其中,图像识别网络包括:图像识别模块和特征域分离模块;执行以下训练步骤:将从样本集选取的样本输入图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征;通过特征域分离模块对第一图像特征和第二图像特征进行域分离,得到分离域特征;基于第一图像特征、第二图像特征、分离域特征,计算图像识别网络的损失值;若图像识别网络满足训练完成条件,则将图像识别模块作为图像识别模型。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括样本获取单元、网络获取单元、输入单元、分离单元、计算单元、输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,样本获取单元还可以被描述为“被配置成获取预置的样本集,其中,样本集包括至少一个样本,样本包括:第一域的图像和第二域的图像”的单元。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种图像识别模型训练方法,所述方法包括:
获取预置的样本集,其中,所述样本集包括至少一个样本,所述样本包括:第一域的图像和第二域的图像;
获取预先建立的图像识别网络,其中,所述图像识别网络包括:图像识别模块和特征域分离模块;
执行以下训练步骤:
将从所述样本集选取的样本输入所述图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征;
通过所述特征域分离模块对所述第一图像特征和第二图像特征进行域分离,得到分离域特征;其中,分离域特征包括身份信息特征和身份信息特征以外的特征;
基于所述第一图像特征、所述第二图像特征、所述分离域特征,计算所述图像识别网络的损失值;
若所述图像识别网络满足训练完成条件,则将所述图像识别模块作为图像识别模型。
2.根据权利要求1所述的方法,所述方法还包括:
若所述图像识别网络不满足训练完成条件,则调整所述图像识别网络中的相关参数使得所述损失值收敛,基于调整后的图像识别网络,继续执行上述训练步骤。
3.根据权利要求1所述的方法,其中,所述特征域分离模块包括:全连接网络层、标识自适应实例归一化层和属性自适应实例归一化层;所述通过所述特征域分离模块对所述第一图像特征和第二图像特征进行域分离,得到分离域特征,包括:
将所述第一图像特征和所述第二图像特征输入所述全连接网络层,得到与所述第一图像特征对应的第一输出特征,以及与所述第二图像特征对应的第二输出特征;
将所述第一输出特征和所述第二输出特征同时输入所述标识自适应实例归一化层,得到与所述第一输出特征对应的第一标识特征,以及与所述第二输出特征对应的第二标识特征;
将所述第一输出特征和所述第二输出特征同时输入所述属性自适应实例归一化层,得到与所述第一输出特征对应的第一属性特征,以及与所述第二输出特征对应的第二属性特征;
将所述第一标识特征、所述第二标识特征、所述第一属性特征、所述第二属性特征作为分离域特征。
4.根据权利要求1-3之一所述的方法,所述基于所述第一图像特征、所述第二图像特征、所述分离域特征,计算所述图像识别网络的损失值,包括:
基于所述第一图像特征和该样本的第一域的图像上预设的域标签,计算得到第一图像损失值;
基于所述第二图像特征和该样本的第二域的图像上预设的域标签,计算得到第二图像损失值;
基于所述分离域特征,计算得到分离域损失值;
基于所述第一图像损失值、所述第二图像损失值、所述分离域损失值,计算得到所述图像识别网络的损失值。
5.根据权利要求4所述的方法,其中,所述分离域特征包括:与所述第一图像特征对应的第一标识特征,与所述第二图像特征对应的第二标识特征,与所述第一图像特征对应的第一属性特征,与所述第二图像特征对应的第二属性特征,所述基于所述分离域特征,计算得到分离域损失值,包括:
基于所述第一标识特征、所述第一属性特征,得到第一损失值;
基于所述第二标识特征、所述第二属性特征,得到第二损失值;
将所述第一损失值、所述第二损失值相加,得到所述分离域损失值。
6.根据权利要求4所述的方法,其中,所述特征域分离模块包括:标识自适应实例归一化层和属性自适应实例归一化层;所述分离域特征包括:与所述第一图像特征对应的第一标识特征,与所述第二图像特征对应的第二标识特征,所述第一标识特征与所述第二标识特征分别由所述标识自适应实例归一化层输出,与所述第一图像特征对应的第一属性特征,与所述第二图像特征对应的第二属性特征,所述第一属性特征与所述第二属性特征分别由所述属性自适应实例归一化层输出,所述基于所述分离域特征,计算得到分离域损失值,包括:
基于所述第一标识特征、所述第一属性特征,得到第一损失值;
基于所述第二标识特征、所述第二属性特征,得到第二损失值;
分别为所述标识自适应实例归一化层、所述属性自适应实例归一化层设置标识权重值和属性权重值;
基于所述标识权重值和所述属性权重值,计算得到权重损失值;
将所述第一损失值、所述第二损失值和所述权重损失值相加,得到所述分离域损失值。
7.一种图像识别方法,所述方法包括:
获取待识别的图像;
将所述图像输入采用如权利要求1-6中任一项所述的方法生成的图像识别模型中,输出所述图像的识别结果。
8.一种图像识别模型训练装置,所述装置包括:
样本获取单元,被配置成获取预置的样本集,其中,所述样本集包括至少一个样本,所述样本包括:第一域的图像和第二域的图像;
网络获取单元,被配置成获取预先建立的图像识别网络,其中,所述图像识别网络包括:图像识别模块和特征域分离模块;
输入单元,被配置成将从所述样本集选取的样本输入所述图像识别模块,得到对应该样本的第一域的图像的第一图像特征,和对应该样本的第二域的图像的第二图像特征;
分离单元,被配置成通过所述特征域分离模块对所述第一图像特征和第二图像特征进行域分离,得到分离域特征;其中,分离域特征包括身份信息特征和身份信息特征以外的特征;
计算单元,被配置成基于所述第一图像特征、所述第二图像特征、所述分离域特征,计算所述图像识别网络的损失值;
输出单元,被配置成若所述图像识别网络满足训练完成条件,则将所述图像识别模块作为图像识别模型。
9.一种图像识别装置,所述装置包括:
获取单元,被配置成获取待识别的图像;
识别单元,被配置成将所述图像输入采用如权利要求1-6中任一项所述的方法生成的图像识别模型中,输出所述图像的识别结果。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202111043035.XA 2021-09-07 2021-09-07 图像识别模型训练方法和装置、图像识别方法和装置 Active CN113762148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111043035.XA CN113762148B (zh) 2021-09-07 2021-09-07 图像识别模型训练方法和装置、图像识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043035.XA CN113762148B (zh) 2021-09-07 2021-09-07 图像识别模型训练方法和装置、图像识别方法和装置

Publications (2)

Publication Number Publication Date
CN113762148A CN113762148A (zh) 2021-12-07
CN113762148B true CN113762148B (zh) 2023-12-08

Family

ID=78793486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043035.XA Active CN113762148B (zh) 2021-09-07 2021-09-07 图像识别模型训练方法和装置、图像识别方法和装置

Country Status (1)

Country Link
CN (1) CN113762148B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647588A (zh) * 2018-04-24 2018-10-12 广州绿怡信息科技有限公司 物品类别识别方法、装置、计算机设备和存储介质
CN111476284A (zh) * 2020-04-01 2020-07-31 网易(杭州)网络有限公司 图像识别模型训练及图像识别方法、装置、电子设备
CN111539897A (zh) * 2020-05-09 2020-08-14 北京百度网讯科技有限公司 用于生成图像转换模型的方法和装置
CN111784565A (zh) * 2020-07-01 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、迁移模型训练方法、装置、介质及设备
CN111784566A (zh) * 2020-07-01 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、迁移模型训练方法、装置、介质及设备
CN111783603A (zh) * 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
WO2021094526A1 (en) * 2019-11-15 2021-05-20 Ariel Ai Ltd Image generation using surface-based neural synthesis
KR20210075886A (ko) * 2019-12-13 2021-06-23 경희대학교 산학협력단 듀얼 딥 네트워크를 이용한 영상기반 얼굴표정 감정인식 시스템 및 그 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11776180B2 (en) * 2020-02-26 2023-10-03 Adobe Inc. Controlled style-content image generation based on disentangling content and style

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647588A (zh) * 2018-04-24 2018-10-12 广州绿怡信息科技有限公司 物品类别识别方法、装置、计算机设备和存储介质
WO2021094526A1 (en) * 2019-11-15 2021-05-20 Ariel Ai Ltd Image generation using surface-based neural synthesis
KR20210075886A (ko) * 2019-12-13 2021-06-23 경희대학교 산학협력단 듀얼 딥 네트워크를 이용한 영상기반 얼굴표정 감정인식 시스템 및 그 방법
CN111476284A (zh) * 2020-04-01 2020-07-31 网易(杭州)网络有限公司 图像识别模型训练及图像识别方法、装置、电子设备
CN111539897A (zh) * 2020-05-09 2020-08-14 北京百度网讯科技有限公司 用于生成图像转换模型的方法和装置
CN111783603A (zh) * 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN111784565A (zh) * 2020-07-01 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、迁移模型训练方法、装置、介质及设备
CN111784566A (zh) * 2020-07-01 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、迁移模型训练方法、装置、介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度伪造视频检测技术综述;暴雨轩;芦天亮;杜彦辉;;计算机科学(09);全文 *

Also Published As

Publication number Publication date
CN113762148A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN108520220B (zh) 模型生成方法和装置
CN108427939B (zh) 模型生成方法和装置
CN109740018B (zh) 用于生成视频标签模型的方法和装置
CN108197652B (zh) 用于生成信息的方法和装置
CN111523640B (zh) 神经网络模型的训练方法和装置
CN109993150B (zh) 用于识别年龄的方法和装置
CN110555714A (zh) 用于输出信息的方法和装置
CN107766940A (zh) 用于生成模型的方法和装置
CN109919244B (zh) 用于生成场景识别模型的方法和装置
CN111666416A (zh) 用于生成语义匹配模型的方法和装置
CN112149699B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
CN110209658B (zh) 数据清洗方法和装置
CN110046571B (zh) 用于识别年龄的方法和装置
CN110457476A (zh) 用于生成分类模型的方法和装置
CN111046757A (zh) 人脸画像生成模型的训练方法、装置及相关设备
CN117253287A (zh) 基于域泛化的动作预测模型训练方法、相关方法及产品
CN115482021A (zh) 多媒体信息推荐方法、装置、电子设备及存储介质
CN113762148B (zh) 图像识别模型训练方法和装置、图像识别方法和装置
CN114419514B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112149426B (zh) 阅读任务处理方法及相关设备
CN113255819B (zh) 用于识别信息的方法和装置
CN116955543A (zh) 连贯性评估模型训练和连贯性评估方法、装置及设备
CN111259698A (zh) 用于获取图像的方法及装置
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质
CN111899747B (zh) 用于合成音频的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant