CN115620111A - 一种图像识别方法、装置、存储介质及电子设备 - Google Patents

一种图像识别方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115620111A
CN115620111A CN202210991167.3A CN202210991167A CN115620111A CN 115620111 A CN115620111 A CN 115620111A CN 202210991167 A CN202210991167 A CN 202210991167A CN 115620111 A CN115620111 A CN 115620111A
Authority
CN
China
Prior art keywords
loss
network
image
image recognition
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210991167.3A
Other languages
English (en)
Inventor
曹佳炯
丁菁汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210991167.3A priority Critical patent/CN115620111A/zh
Publication of CN115620111A publication Critical patent/CN115620111A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本说明书公开了一种图像识别方法、装置、存储介质及电子设备,其中,方法包括:基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络,采用图像样本数据对第一主网络进行主网络训练确定监督信号识别结果,然后基于监督信号识别结果对第二元网络进行元网络训练确定损失调整参数,以对第一主网络进行模型调整,得到目标图像识别模型。

Description

一种图像识别方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像识别方法、装置、存储介质及电子设备。
背景技术
随着电子设备的普及,图像、视频等可视图像数据与日俱增,可视内容感知理解已经成为可视计算、计算机视觉、计算摄像学等科学研究领域及其交叉方向国际前沿的研究方向。其中,诸如活体识别、对象识别、场景识别等图像识别是近期可视内容感知理解方向中的研究热点。
发明内容
本说明书提供了一种图像识别方法、装置、存储介质及电子设备,所述技术方案如下:
第一方面,本说明书提供了一种图像识别方法,所述方法包括:
基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型。
第二方面,本说明书提供了一种图像识别装置,所述装置包括:
模型构建模块,用于基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
模型训练模块,用于采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
所述模型训练模块,用于基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
所述模型训练模块,用于基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型。
第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
在本说明书一个或多个实施例中,电子设备可以基于图像识别任务构建包括第一主网络和第二元网络的初始图像识别模型,采用图像样本数据对第一主网络进行主网络训练以确定至少一个监督信号识别结果,然后基于各监督信号识别结果对第二元网络进行元网络训练以确定损失调整参数,再基于损失调整参数对第一主网络进行模型调整,直至得到针对初始图像识别模型的目标图像识别模型。通过若干监督信号从多个维度进行图像识别训练并结合元网络训练可实现基于损失调整参数的自适应监督,在模型训练过程中可准确高效的动态对模型网络结构以及参数分配进行调整,达到较好的资源利用率,在保证模型性能的前提下通过模型自适应监督调整可降低对模型资源的消耗,以及可大幅确保模型上线后的模型鲁棒性和模型适应能力。
附图说明
为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书提供的一种图像识别系统的场景示意图;
图2是本说明书提供的一种图像识别方法的流程示意图;
图3是本说明书提供的另一种图像识别方法的流程示意图;
图4是本说明书提供的另一种图像识别方法的流程示意图;
图5是本说明书提供的一种图像识别装置的结构示意图;
图6是本说明书提供的一种模型训练模块的结构示意图;
图7是本说明书提供的一种网络训练单元的结构示意图;
图8是本说明书提供的另一种图像识别装置的结构示意图;
图9是本说明书提供的一种电子设备的结构示意图;
图10是本说明书提供的操作系统和用户空间的结构示意图;
图11是图10中安卓操作系统的架构图;
图12是图10中IOS操作系统的架构图。
具体实施方式
下面将结合本说明书中的附图,对本说明书中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在相关技术中,图像识别常基于机器学习方法构建初始图像识别模型进行模型训练,在模型收敛后可得到训练好的图像识别模型,以应用到相应的图像识别场景中。然而目前针对图像识别模型进行模型训练的图像识别方法存在模型识别效果不佳,尤其在恶劣的应用场景中图像识别模型存在模型鲁棒性不高的现象,如以图像识别模型应用在活体识别场景中为例,相关技术所训练得到的图像识别模型需要用户在提示下进行摇头、眨眼等高度配合的操作,模型才能够准确识别,而往往图像识别模型的应用环境不是理想状态(如前述用户高度配合的应用环境),此时,图像识别模型的识别准确率就会显著降低。可见,有待对相关技术中针对图像识别模型的图像识别方法进一步改善。
下面结合具体的实施例对本申请进行详细说明。
请参见图1,为本说明书提供的一种图像识别系统的场景示意图。如图1所示,所述图像识别系统至少可以包括客户端集群和服务平台100。
所述客户端集群可以包括至少一个客户端,如图1所示,具体包括用户1对应的客户端 1、用户2对应的客户端2、…、用户n对应的客户端n,n为大于0的整数。
客户端集群中的各客户端可以是具备通信功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的电子设备等。
所述服务平台100可以是单独的服务器设备,例如:机架式、刀片、塔式、或者机柜式的服务器设备,或采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在事务链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
在本说明书的一个或多个实施例中,服务平台100与客户端集群中的至少一个客户端可建立通信连接,基于该通信连接完成图像识别过程中数据的交互,诸如线上事务数据交互,如服务平台100可基于本说明书的图像识别方法得到的目标图像识别模型可实现向若干客户端进行线上部署,由客户端基于目标图像识别模型进行图像识别;又如,服务平台100可从客户端上获取相应事务场景(如活体检测事务场景)下的待检测的目标检测图像,然后将目标检测图像输入至目标图像识别模型中,输出针对所述目标检测图像的至少一个目标监督识别结果,并基于各所述目标监督识别结果确定所述目标检测图像对应的图像检测类型,以及可将图像检测类型下发至客户端,等等。
需要说明的是,服务平台100与客户端集群中的至少一个客户端通过网络建立通信连接进行交互通信,其中,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线 (universal serial bus,USB)或控制器局域网络。在说明书一个或多个实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据(如目标压缩包)。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security, TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security, IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本说明书所提供的图像识别系统实施例与一个或多个实施例中的所述图像识别方法属于同一构思,在说明书一个或多个实施例涉及的所述图像识别方法对应的执行主体可以是上述服务平台100;在说明书一个或多个实施例涉及的所述图像识别方法对应的执行主体也可以是客户端,具体基于实际应用环境确定。图像识别系统实施例其体现实现过程可详见下述的方法实施例,这里不再赘述。
基于图1所示的场景示意图,下面对本说明书一个或多个实施例提供的图像识别方法进行详细介绍。
请参见图2,为本说明书一个或多个实施例提供了一种图像识别方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的图像识别装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述图像识别装置可以为服务平台。
具体的,该图像识别方法包括:
S102:基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
在实际事务场景中常会涉及到基于机器学习的图像识别模型对事务场景产生的图像数据进一步进行识别处理。图像识别模型基于图像识别任务不同可以分别应用在不同的图像识别场景中,也就是说图像识别模型可以为适用于不同的机器视觉下的图像识别任务的神经网络,例如:活体检测任务、自动驾驶场景涉及的物体识别任务、人机交互场景涉及的交互识别任务等等,进一步的,基于不同的图像识别任务可预先构建初始图像识别模型等等。
在本说明书一个或多个实施例中,初始图像识别模型至少包括第一主网络和第二元网络,在对初始图像识别模型的训练过程中,第一主网络主要用于图像识别,第二元网络用于调整初始图像识别模型在模型训练过程中第一主网络的网络结构、计算资源分配,达到较佳的模型计算的资源利用率
可以理解的,基于第二元网络的采取元学习进行元网络训练的方式,可以自适应调整初始图像识别模型在模型训练时多个监督信号的权重和网络的参数分配,实现使用较少的时间达到高性能和降低资源消耗。
进一步的,所述初始图像识别模型可以是基于卷积神经网络(ConvolutionalNeural Network,CNN)模型,深度神经网络(Deep Neural Network,DNN)模型、循环神经网络 (Recurrent Neural Networks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型、逻辑回归(Logistic Regression,LR)模型等机器学习模型中的一种或多种的拟合创建的。
示意性的,电子设备预先针对图像识别任务构建初始图像识别模型,初始图像识别模型基于相应图像识别任务所设置,初始图像识别模型包括第一主网络以及第二元网络;
S104:采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
图像样本数据可以是从相关数据库中获取的公开的图像数据,诸如CIFAR-10、CIFAR-100、Tiny ImageNet等中的一种或多种,也可以是实际图像识别任务对于事务场景下所搜集的用户自定义的图像样本数据,例如将从互联网中收集的图像数据打上对应的标签而制作完成的图像分类数据集。图像样本数据可以是一个或多个图像样本训练集,每个图像样本训练集中包括若干样本图像。
示意性的,以图像识别任务为活体检测任务为例,图像样本数据的数据采集过程可以是:利用图像采集装置采集活体用户的数据,例如采集500个不同用户的,每个用户在不同光照条件、面部角度的20张图像,用户应该覆盖不同因素,例如年龄、胖瘦等等;同时,采集不同攻击素材的照片,例如手机屏幕、打印纸张等等,每个攻击素材在不同光照条件、角度下采集20张图像;
进一步的,在采集到图像样本数据之后,还可以对活体检测任务下的图像样本数据进行数据筛选以及预处理,如针对采集的图像样本数据中图像,进行面部检测和面部质量判断,对于没有检测到面部或者质量过差的图像进行抛弃。
在本说明书一个或多个实施例中,各个样本图像可以携带标注标签,标注标签用于初始图像识别模型的训练,标注标签与第一主网络的输出相对应。标注标签可以是针对样本图像的监督信号识别结果标签;
在本说明书一个或多个实施例中,各个样本图像也可以不携带标注标签,采用无标注标签的样本图像进行第一主网络的训练,相应第一主网络计算监督信号损失所设置的监督信号损失函数可采用相关技术中不基于标注标签的损失函数。
在本说明书一个或多个实施例中,可以将训练图像样本数据仅对应一个图像识别任务 (task)。
可选的,图像样本数据作为第一主网络的输入主训练数据,第一主网络的输出识别数据作为第二元网络的输入元训练数据。
示意性的,采用图像样本数据对所述第一主网络进行一轮或多轮主网络训练,输出一轮或多轮分别对应的监督信号识别结果。
可以理解的,在初始图像识别模型构建时或初始图像识别模型构建之后,可以基于图像识别任务对所述第一主网络配置至少一个识别维度的图像识别监督信号,以基于所述图像识别监督信号指示所述第一主网络在所述识别维度进行图像识别,第一主网络输出的是相应识别维度的图像识别监督信号对应的识别结果。
示意性的,以活体检测任务为例,通常需要结合多个检测识别维度的识别结果综合判断某个目标图像是否为活体类型或攻击类型,而初始图像识别图像所包括第一主网络对图像样本数据进行相应图像识别监督信号对应的识别维度的识别,得到图像识别监督信号的结果,也即由第一主网络输出若干个监督信号识别结果。
以活体检测任务为例,所述活体识别监督信号包括深度估计监督信号、图像材质分类监督信号、反射图谱预测监督信号、活体分类监督信号中的至少一种。可以理解的,将图像样本数据输入至第一主网络中,由第一主网络对图像样本数据进行诸如的深度估计监督信号对应的深度估计维度、图像材质分类监督信号对应的图像材质分类维度等识别维度的图像识别,输出相应的监督信号识别结果,如深度估计监督信号对应的识别结果、图像材质分类监督信号的识别结果、反射图谱预测监督信号的反射图谱预测结果等等。
S106:基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
所述损失调整参数用于在下一轮第一主网络的主网络训练过程中,基于该损失调整参数调整第一主网络的损失函数,以基于更新的损失函数达到模型训练效果、模型识别性能以及资源消耗的均衡。
可以理解的,第一主网络的输出识别数据作为第二元网络的输入元训练数据,也即在第一主网络一轮或多轮模型训练过程中,可以实时将每一轮或多轮的输出识别数据(也即若干监督信号识别结果)输入至第二元网络中进行元网络训练,元网络训练可以实现基于第二元网络的输出,后续自适应对第一主网络从多个监督信号识别维度指示模型参数自适应调整、动态调整模型训练过程中多个监督信号识别维度的模型资源分配等。
在本说明书一个或多个实施例中,第二元网络的输出损失调整参数可以是针对多个监督信号的损失调整权重、可以是针对多个监督信号的稀疏程度的稀疏强度,等等。
可选的,初始图像识别模型包括的第二元网络可以是由全连接层MLP组成,全连接层通常也可视作多层感知机,属于多层全连接神经网络模型,通过第二元网络辅助或指示第一主网络的主网络训练过程中进行模型参数迭代更新。
S108:基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型。
在一种可行的实施方式中,初始图像识别模型的模型训练方式可以为网络交替训练方式,基于所述网络交替训练方式确定针对所述第一主网络的第一训练轮数以及针对所述第二元网络的第二训练轮数;
示意性的,可以是先对第一主网络进行第一训练轮数的主网络训练,然后第一训练轮数的主网络训练结束后,对第二元网络进行第二训练轮数的元网络训练也即执行S106;然后在第二训练轮数的元网络训练结束后,同时执行S108“基于所述损失调整参数对所述第一主网络进行模型调整”和对第一主网络进行下一第一训练轮数的主网络训练(也即S104)…,以此类推,直至初始图像识别模型达到模型结束训练条件,得到目标图像识别模型。
在一种可行的实施方式中,初始图像识别模型的模型训练方式可以为网络同步训练方式,可以先对第一主网络进行至少一轮的主网络训练以累积针对第二元网络的输入元训练数据,后续再同步对第一主网络进行主网络训练以及对第二元网络进行元网络训练,也即同步执行 S104和S106:然后同步训练过程中,基于第二元网络输出的损失调整参数对第一主网络进行模型调整,直至满足初始图像识别模型对应的模型结束训练条件,得到目标图像识别模型。
在本说明书一个或多个实施例中,其中模型结束训练条件可以包括诸如损失函数的损失值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。具体模型结束训练条件可基于实际情况确定,此处不再赘述。
在本说明书一个或多个实施例中,所述图像识别任务为活体检测任务,所述活体识别监督信号包括深度估计监督信号、图像材质分类监督信号、反射图谱预测监督信号、活体分类监督信号中的至少一种。
可选的,可以基于第二元网络输出的损失调整参数对第一主网络的损失函数进行调整,以实现在后续第一主网络的模型训练过程中基于调整后的损失函数进行模型参数调整,如对网络各层神经元之间连接权重值和/或阈值基于损失函数进行反向传播调整。
在本说明书中,电子设备可以基于图像识别任务构建包括第一主网络和第二元网络的初始图像识别模型,采用图像样本数据对第一主网络进行主网络训练以确定至少一个监督信号识别结果,然后基于各监督信号识别结果对第二元网络进行元网络训练以确定损失调整参数,再基于损失调整参数对第一主网络进行模型调整,直至得到针对初始图像识别模型的目标图像识别模型。通过若干监督信号从多个维度进行图像识别训练并结合元网络训练可实现基于损失调整参数的自适应监督,在模型训练过程中可准确高效的动态对模型网络结构以及参数分配进行调整,达到较好的资源利用率,在保证模型性能的前提下通过模型自适应监督调整可降低对模型资源的消耗,以及可大幅确保模型上线后的模型鲁棒性和模型适应能力。
请参见图3,图3是本说明书一个或多个实施例提出的一种图像识别方法的另一种实施例的流程示意图。具体的:
S202:基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
具体可参考本说明书一个或多个实施例的方法步骤,此处不再赘述。
S204:基于所述图像识别任务对所述第一主网络配置至少一个图像识别监督信号;
所述图像识别监督信号可以立即为模型监督信号的一种,用于指示或设置机器学习模型进行监督信号维度的模型识别,图像识别监督信号与图像识别模型的输出数据类型相关联,如图像识别模型的输出为文本,则图像识别监督信号可以为文本识别监督信号。如图像识别模型的输出为用于活体识别的各个活体识别维度的数据,则图像识别监督信号可以为深度估计监督信号、图像材质分类监督信号、反射图谱预测监督信号、活体分类监督信号中的至少一种。
在本说明书一个或多个实施例中,可以基于图像识别任务对所述第一主网络配置至少一个识别维度的图像识别监督信号,以基于所述图像识别监督信号指示所述第一主网络在所述识别维度进行图像识别,第一主网络输出的是相应识别维度的图像识别监督信号对应的结果。
在本说明书一个或多个实施例中,以活体检测任务为例,通常需要结合多个检测识别维度的识别结果综合判断某个目标图像是否为活体类型或攻击类型,而初始图像识别图像所包括第一主网络对图像样本数据进行相应图像识别监督信号对应的识别维度的识别,得到图像识别监督信号的结果,也即由第一主网络输出若干个监督信号识别结果,如:深度估计监督信号、图像材质分类监督信号、反射图谱预测监督信号、活体分类监督信号等监督信号中的至少一种。
S206:将所述图像样本数据输入至所述第一主网络进行主网络训练,输出至少一个所述图像识别监督信号指示的监督信号识别结果;
以下对具体过程进行释义,如下:
A2:电子设备可以将所述图像样本数据输入至所述第一主网络进行至少一轮主网络识别;
A4:在每轮主网络识别过程,电子设备可以输出至少一个所述图像识别监督信号指示的监督信号识别结果,并确定每个所述图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第一主网络进行主网络调整。
可以理解的,将图像样本数据输入至第一主网络中,由第一主网络对图像样本数据进行诸如的深度估计监督信号对应的深度估计维度、图像材质分类监督信号对应的图像材质分类维度等识别维度的图像识别,以输出相应的监督信号识别结果,如深度估计监督信号对应的结果、图像材质分类监督信号的结果、反射图谱预测监督信号的反射图谱预测结果等等。
可以理解的,预先可针对各个监督信号维度的图像识别过程,为第一主网络设置图像识别监督信号对应的监督信号损失函数,也就是说模型输出的每个图像识别监督信号的结果均对应一个监督信号损失函数,如针对深度估计监督信号对应的深度估计维度设置深度估计损失函数,等等。以在每轮主网络识别过程,电子设备可以输出至少一个所述图像识别监督信号指示的监督信号识别结果的同时,并可以基于确定每个图像识别监督信号对应的监督信号损失函数来得到监督信号损失,以基于各所述监督信号损失对所述第一主网络进行主网络调整。
示意性的,监督信号损失通常可以是第一主网络每一轮图像识别过程中的实际输出值和图像样本数据的标注标签(也即理论输出值)采用监督信号损失函数计算,得到相应的监督信号损失。
例如,以所述图像识别任务为活体检测任务,所设置的所述活体识别监督信号包括深度估计监督信号、图像材质分类监督信号、反射图谱预测监督信号、活体分类监督信号中的至少一种。针对深度估计监督信号对应的深度估计维度设置深度估计损失函数,具体可以是:
深度估计监督信号用于指示基于图像进行面部区域的深度估计,深度估计维度可以设置深度估计损失函数,例如可以是采用相关技术中将损失函数设置为欧式距离损失;
图像材质分类监督信号用于指示基于二维图像、三维图像等模态的图像判断面部区域的材质(例如正常面部材质、纸张材质、屏幕材质等等);图像材质分类监督信号可以对应设置图像材质分类损失函数,例如可以是采用相关技术中将损失函数设置为分类损失;
反射图谱预测监督信号用于指示基于二维图像、三维图像等模态的图像预测面部区域的光线反射特性图谱;反射图谱预测监督信号可以对应设置反射图谱预测损失函数,例如可以是采用相关技术中将损失函数设置为欧式距离损失;
活体分类监督信号用于指示基于二维图像、三维图像等模态的图像进行活体/攻击的分类;活体分类监督信号可以对应设置活体分类监督损失函数,例如可以是采用相关技术中将损失函数设置为分类损失;
需要说明的是,所描述的针对“图像识别监督信号的结果设置的监督信号损失函数”仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下根据相关技术所获得的其他针对“图像识别监督信号的结果设置的监督信号损失函数”实施方式理应属于本申请覆盖的范围内。
可选的,监督信号损失函数是基于相应监督信号任务所设置的,监督信号损失函数的输出可以理解为是一种针对相应监督信号维度的监督信号任务的监督损失。为进一步提升模型训练效果,还可以针对每个图像识别监督信号设置稀疏损失,也即针对每个图像识别监督信号引入稀疏损失函数,将稀疏损失函数与监督信号损失函数相结合,针对每个图像识别监督信号而言,采用监督信号损失函数可以得到监督损失,采用稀疏损失函数可以得到稀疏损失,将监督损失与稀疏损失共同作为图像识别监督信号的监督信号损失。进一步的,假设图像识别监督信号的数目为I,则可以通过Lossi(x)表示第i个所述图像识别监督信号对应的所述监督信号损失,可以通过parameteri表示第i个所述图像识别监督信号对应的稀疏损失其中i为小于或等于I的正整数。
示意性的,稀疏损失函数可以基于相关技术中计算稀疏损失的算法所设置,
在一种可行的实施方式中,电子设备执行所述基于各所述监督信号损失对所述第一主网络进行主网络调整,可以是:
B2:电子设备可以获取针对所述第一主网络的目标损失参数;
所述目标损失参数与第一主网络的损失函数相关联(如第一损失计算式);
在本说明书一个或多个实施例中,目标损失参数为第一损失计算式中的损失参数或损失因子。在本说明书中,在初始图像识别模型的训练过程中,第一损失计算式所对应的目标损失参数随着模型训练的进行会基于第二元网络的输出损失调整参数对目标损失参数进行更新,以实现后续基于损失调整参数对第一主网络进行模型调整的效果。
B4:基于所述目标损失参数以及所述各所述监督信号损失对所述第一主网络进行主网络调整。
示意性的,在图像训练的初始阶段,还未启动对第二元网络的元网络训练过程,可以对损失函数(第一损失计算式)中的目标损失参数设置一个初始值,后续在启动对第二元网络的元网络训练过程之后,再基于第二元网络的输出损失调整参数对目标损失参数进行调整,得到调整之后的目标损失参数。然后再基于目标损失参数、各所述监督信号损失输入至损失函数输出模型损失,基于该模型损失对第一主网络进行主网络参数调整,如对网络各层神经元之间连接权重值和/或阈值基于损失函数进行反向传播迭代调整,直至初始图像识别模型满足模型结束训练条件,如第一损失小于或等于损失阈值,如总训练轮数达到训练轮数阈值,得到训练完成后的目标图像识别模型。
可选的,监督信号损失可以是一些实施例中所包括的监督损失以及稀疏损失。
在一种具体的实施场景中,以所述监督信号损失包括监督损失以及稀疏损失,所述目标损失参数为针对所述监督损失的监督信号权重以及信号稀疏强度,为例,具体如下:
电子设备执行所述基于所述目标损失参数以及所述各所述监督信号损失对所述第一主网络进行主网络调整,可以是:
电子设备将所述监督损失、所述稀疏损失,所述监督信号权重以及所述信号稀疏强度输入至第一损失计算式中,基于第一损失计算式计算确定第一损失;基于所述第一损失对所述第一主网络进行主网络调整;
进一步的,第一损失计算式一定程度上可视作整个初始图像识别模型的模型损失函数,基于第一损失计算式可以视作初始图像识别模型的模型损失,通常基于第一损失计算式计算出的第一损失收敛时,如第一损失小于模型结束训练条件中的损失阈值,确定模型收敛结束模型训练,得到目标图像识别模型。
进一步的,所述第一损失计算式满足以下公式:
Figure BDA0003804005260000081
其中,LossA为第一损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)为第i个所述图像识别监督信号对应的所述监督信号损失,αi为针对第i个所述图像识别监督信号的所述监督信号权重,parameteri为第i个所述图像识别监督信号对应的稀疏损失,βi为针对第 i个所述图像识别监督信号的所述信号稀疏强度。
S208:基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
在本说明书一个或多个实施例中,所述损失调整参数用于对第一计算式对应的目标损失参数进行参数调整,如目标损失参数可以是监督信号权重、稀疏信号强度。
在一种可行的实施方式中,电子设备通过将各所述监督信号识别结果输入至所述第二元网络进行至少一轮元网络训练;
电子设备在每一轮元网络训练过程中,输出针对各所述图像识别监督信号的损失调整参数,并基于所述第一主网络获取每个图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第二元网络进行元网络调整。
可以理解的,第一主网络进行主网络训练过程中,会在每一轮输出当前一轮图像识别监督信号的同时计算图像识别监督信号对应的监督信号损失,基于此第二元网络可直接获取到第一主网络所已经计算出的图像识别监督信号对应的监督信号损失。然后在基于当前图像识别监督信号进行第二元网络的元网络训练时,同时基于监督信号损失对所述第二元网络进行元网络调整,如对第二元网络各层神经元之间连接权重值和/或阈值基于损失函数进行反向传播调整。
在一种可行的实施方式中,电子设备执行所述基于各所述监督信号损失对所述第二元网络进行元网络调整,可以是:
电子设备将各监督信号损失输入至第二损失计算式中,确定第二损失,基于所述第二损失对所述第二元网络进行元网络调整;
所述第二损失计算式可以理解为第二元网络的元网络损失函数。
可选的,所述第二损失计算式可以满足以下公式:
Figure BDA0003804005260000091
其中,LossB为第二损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i 个所述图像识别监督信号对应的所述监督信号损失。
可选的,也可以在第二损失计算式中引入监督信号的图像识别监督信号的所述监督信号权重以进一步加速模型收敛。进一步的,所述第二损失计算式可以满足以下公式:
Figure BDA0003804005260000092
其中,LossB为第二损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i 个所述图像识别监督信号对应的所述监督信号损失,αi为针对第i个所述图像识别监督信号的所述监督信号权重。
示意性的,在每一轮元网络训练过程中,输出针对各所述图像识别监督信号的损失调整参数之后,损失调整参数通常包括各所述图像识别监督信号的监监督信号权重αi,基于此,电子设备将原目标损失参数αi更新为当前损失调整参数中的αi
S210:基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新后的所述第一损失计算式;
进一步的,电子设备在对第二元网络的结束至少一轮元网络训练之后,基于输出的损失调整参数对所述第一主网络进行模型调整,直至初始图像识别模型达到模型结束训练条件,得到针对所述初始图像识别模型的目标图像识别模型。
进一步的,电子设备执行基于输出的损失调整参数对所述第一主网络进行模型调整可以是:电子设备基于损失调整参数对第一主网络的第一损失计算式进行损失参数更新,以得到更新后的第一损失计算式。
具体的,电子设备获取针对所述第一主网络的所述第一损失计算式中的目标损失参数,也即第一损失计算式中当前的监督信号权重和/或信号稀疏强度,然后基于损失调整参数(新的监督信号权重和/或信号稀疏强度)对目标损失参数(原监督信号权重和/或原信号稀疏强度)进行参数更新,得到参数更新之后的所述目标损失参数。这样在下一轮对第一主网络的主网络训练过程中,基于新的目标损失参数可以更新第一损失计算式。
S212:在所述第一主网络进行主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至得到针对所述初始图像识别模型的目标图像识别模型。
在一种可行的实施方式中,初始图像识别模型的模型训练方式可以为网络同步训练方式,可以先对第一主网络进行至少一轮的主网络训练以累积针对第二元网络的输入元训练数据,后续再同步对第一主网络进行主网络训练以及对第二元网络进行元网络训练,也即同步执行 S104和S106:然后同步训练过程中,基于第二元网络输出的损失调整参数第一主网络的第一损失计算式进行损失参数更新,得到更新后的所述第一损失计算式,在所述第一主网络进行下一主网络训练时,基于更新后的第一损失计算式对第一主网络进行主网络调整,直至满足初始图像识别模型对应的模型结束训练条件,得到目标图像识别模型。
在一种具体的实施场景中,初始图像识别模型的模型训练方式可以为网络交替训练方式,如下:
C2:电子设备可以确定针对所述初始图像识别模型的模型训练方式为网络交替训练方式,基于所述网络交替训练方式确定针对所述第一主网络的第一训练轮数以及针对所述第二元网络的第二训练轮数;
示意性的,可以自定义网络交替训练方式对应的第一训练轮数以及第二训练轮数,如针对第一主网络的第一训练轮数可以是x轮,针对第二元网络的第二训练轮数可以是y轮。
C4:基于所述第一训练轮数采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
示意性的,第一主网络的输入为图像样本数据;第一主网络的输出为至少一个监督信号识别结果。
示意性的,在第一训练轮数(如10轮)的每轮主网络训练过程中,输出至少一个图像识别监督信号指示的监督信号识别结果,并确定每个图像识别监督信号对应的监督信号损失,监督信号损失可以由监督损失和稀疏损失组成,基于各监督信号损失采用第一计算式对第一主网络进行主网络调整。
示意性的,获取针对所述第一主网络的所述第一损失计算式中的目标损失参数,目标损失参数在元网络训练未启动时,目标损失参数为自定义的初始值,在元网络训练启动后,可基于第二元网络的输出损失调整参数对目标损失参数进行调整更新。进一步的,将所述监督损失、所述稀疏损失,所述监督信号权重以及所述信号稀疏强度输入至第一损失计算式中,确定第一损失;基于第一损失对所述第一主网络进行主网络调整;
C6:基于所述第二训练轮数基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数。
在第一训练轮数(如10轮)的主网络训练结束之后,累积了第一训练轮数指示的若干组监督信号识别结果(如第一训练轮数为10轮,则存在10组监督信号识别结果),然后将若干组监督信号识别结果输入第二训练轮数进行分配,以确定每一轮的待输入的监督信号识别结果,将监督信号识别结果输入至第二元网络中进行第二训练轮数(如1轮)对应的元网络训练;在每一轮元网络训练过程中,输出针对各所述图像识别监督信号的损失调整参数,并基于所述第一主网络获取每个图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第二元网络进行元网络调整。
可选的,通常设置的模型结束训练条件在对元网络训练过程中,初始图像识别模型通常不会收敛,元网络训练过程中的每一轮输出的损失调整参数均对第一主网络的第一损失计算式进行损失参数更新。
C8:若所述初始图像识别模型不满足模型训练结束条件,则基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新之后的所述第一损失计算式;
C10:在对所述第一主网络进行下一轮主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至所述初始图像识别模型满足所述模型训练结束条件,得到针对所述初始图像识别模型的目标图像识别模型。
进一步的,在对所述第一主网络进行下一轮主网络训练时,也即基于下一第一训练轮数执行C4步骤,并同时基于所述第一损失计算式对所述第一主网络进行主网络调整。
进一步的,在每一轮主网络训练过程中,检测是否满足模型结束训练条件,如第一损失小于或等于损失阈值,又如训练总轮数达到轮数阈值。若不满足模型结束训练条件,在C4 步骤执行完成后继续执行C6,基于网络交替训练方式对第一主网络和第二元网络交替训练,直至所述初始图像识别模型满足所述模型训练结束条件,得到针对所述初始图像识别模型的目标图像识别模型。
可选的,在所述初始图像识别模型满足所述模型训练结束条件时,电子设备可以将此时的所述初始图像识别模型作为所述目标图像识别模型;需要说明的是,以此时初始图像识别模型作为目标图像识别模型,在后续模型应用阶段,通常仅基于目标图像识别模型的第一主网络进行图像识别,在线上部署之后,由于目标图像识别模型还包括第二元网络可以基于线上实际图像数据对目标图像识别模型进行再训练,以增强模型线上部署后的鲁棒性,有效的增强了模型上线后的稳定性以及图像场景泛化能力。
可选的,在所述初始图像识别模型满足所述模型训练结束条件时,电子设备可以将所述初始图像识别模型中的所述第一主网络作为所述目标图像识别模型,也即将初始图像识别模型中的第二元网络进行舍弃,仅保留第二元网络得到目标图像识别模型,以对模型进行轻量化处理,便于部署到更多的实施场景中。
在本说明书一个或多个实施例中,在得到目标图像识别模型之后,还可以进行模型剪枝处理,以得到轻量级的模型网络。
示意性的,可以采用相关技术中的模型剪枝方式对目标图像识别模型进行模型剪枝处理,如对模型神经元参数为指定值(如0)的参数进行神经元剪枝,通过模型剪枝处理得到轻量级的目标图像识别模型,此时每个监督信号在模型中分配的参数和资源已经不一致,达到了较好的资源分配。
可以理解的,本说明书一个或多个实施例的图像识别方法,实现了通过第二网络和第一网络的模型训练方式自动调整多个监督信号的权重,以及分配给多个监督信号的模型参数,从而在保证性能的前提下,降低对资源的消耗。
在本说明书中,电子设备可以基于图像识别任务构建包括第一主网络和第二元网络的初始图像识别模型,采用图像样本数据对第一主网络进行主网络训练以确定至少一个监督信号识别结果,然后基于各监督信号识别结果对第二元网络进行元网络训练以确定损失调整参数,再基于损失调整参数对第一主网络进行模型调整,直至得到针对初始图像识别模型的目标图像识别模型。通过若干监督信号从多个维度进行图像识别训练并结合元网络训练可实现基于损失调整参数的自适应监督,在模型训练过程中可准确高效的动态对模型网络结构以及参数分配进行调整,达到较好的资源利用率,在保证模型性能的前提下通过模型自适应监督调整可降低对模型资源的消耗,以及可大幅确保模型上线后的模型鲁棒性和模型适应能力。
请参见图3,图3是本说明书一个或多个实施例提出的一种图像识别方法的另一种实施例的流程示意图。具体的:
S302:基于活体检测任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
S304:采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
S306:基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
S308:基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型;
具体可参考本说明书一个或多个实施例的方法步骤,此处不再赘述。
S310:获取所述活体检测任务对应的目标检测图像;
近年来,生物识别技术被广泛应用到人们的生产和生活当中。例如刷脸支付,面部门禁,面部考勤以及面部进站等技术都需要依赖生物识别,但是,随着生物识别技术越来越广泛的应用,生物识别场景下的活体检测需求也越来越凸出,例如面部考勤、刷脸进站、刷脸支付等生物识别场景得到了广泛应用,在生物识别为人们提供方便的同时,也带来了新的风险挑战。威胁生物识别系统安全的最常见的手段为活体攻击,即通过设备屏幕、打印照片等手段尝试绕过图像生物验证的手法。为了检测活体攻击,活体防攻击技术成为了生物识别场景中必备的环节,本说明书一个或多个实施例中的活体检测任务(也可称之为活体识别任务)也正是生物识别场景下重要的一环。
在相关技术中,活体检测是在一些身份验证场景确定对象真实生理特征的方法,在面部识别应用中,活体检测常使用通过眨眼、张嘴、摇头、点头等组合动作,验证用户是否为真实活体本人操作。活体检测任务需要可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的活体攻击手段,从而帮助用户甄别欺诈行为,保障用户的利益。然而通过眨眼、张嘴、摇头、点头等组合动作需要用户高度配合,在实际应用中用户常存在抵触心理,且需要用户高度配合的应用在一定程度上存在不合理性,基于此,可使用本说明书的图像识别方法得到的目标图像识别模型应用到活体检测任务,基于目标图像识别模型不需要用户高度配合完成组合动作,优化了活体检测流程,提升了活体检测效果。
所述目标检测图像可以是生物识别场景下待检测的生物图像,如面部图像、指纹图像等等。
S312:将所述目标检测图像输入至所述目标图像识别模型中,输出针对所述目标检测图像的至少一个目标监督识别结果;
所述目标图像识别模型基于活体检测任务从多个图像识别监督信号的各个识别维度进行图像识别,对模型输入的目标检测图像进行图像识别,输出针对目标检测图像的至少一个目标监督识别结果。
示意性的,所述活体识别监督信号包括深度估计监督信号、图像材质分类监督信号、反射图谱预测监督信号、活体分类监督信号等类型中的至少一种;
示意性的,所述目标监督信号识别结果包括深度估计识别结果、图像材质分类识别结果、反射图谱预测识别结果、活体分类识别结果中的至少一种。
S314:基于各所述目标监督识别结果确定所述目标检测图像对应的图像检测类型,所述图像检测类型包括活体图像类型以及攻击图像类型。
可以理解的,电子设备可基于各活体检测维度的目标监督识别结果进一步确定图像检测类型,也即目标检测图像为活体图像类型或攻击图像类型。
在一种可行的实施方式中,可预先结合实际活体检测事务场景下的活体检测任务需求设置活体监督信号划分规则,活体监督信号划分规则用于根据各活体检测维度的目标监督识别结果判断目标检测图像为活体图像类型或攻击图像类型。
具体实施中,电子设备可以确定针对各所述目标监督识别结果对应的活体监督信号划分规则,采用所述活体监督信号划分规则对各所述目标监督识别进行活体检测,基于活体检测结果确定所述目标检测图像对应的图像检测类型。
示意性的,活体监督信号划分规则可以是:活体分类识别结果为活体类别,则可以确定目标检测图像为活体图像类型,活体分类识别结果为攻击类别,则可以确定目标检测图像为攻击图像类型;
示意性的,活体监督信号划分规则可以是:深度估计识别结果的输出均值大于提前设定的阈值,则认为目标检测图像为攻击图像类型,反之则认为目标检测图像为活体图像类型;
示意性的,活体监督信号划分规则可以是:图像材质分类识别结果不为对象面部类别,则认为目标检测图像为攻击图像类型,反之图像材质分类识别结果为对象面部类别,则认为目标检测图像为活体图像类型;
示意性的,活体监督信号划分规则可以是:反射图谱预测识别结果指示的方差小于设置的方差阈值,则认为目标检测图像为攻击图像类型,反之则认为目标检测图像为活体图像类型;
可以理解的,本说明书一个或多个实施例的图像识别方法在基于多监督信号维度(多角度)的图像识别检测(如活体识别)基础上,动态实现了基于第二元网络的对模型各个监督维度的资源分配,并自适应调整模型网络结构,达到好的资源利用率。以及可兼顾用户体验、计算资源消耗和攻击检测性能。
在本说明书一个或多个实施例中,通过若干监督信号从多个维度进行图像识别训练并结合元网络训练可实现基于损失调整参数的自适应监督,在模型训练过程中可准确高效的动态对模型网络结构以及参数分配进行调整,达到较好的资源利用率,在保证模型性能的前提下通过模型自适应监督调整可降低对模型资源的消耗,以及可大幅确保模型上线后的模型鲁棒性和模型适应能力。以及,针对活体检测任务对应的生物识别场景下,相关技术中需要用户进行配合交互,例如用户在提示下进行摇头、眨眼等操作。采用本说明书得到的目标图像识别模型线上部署之后,活体识别不需要用户进行高度配合,提升了用户体验。
下面将结合图5,对本说明书提供的图像识别装置进行详细介绍。需要说明的是,图5 所示的图像识别装置,用于执行本申请图1~图4所示实施例的方法,为了便于说明,仅示出了与本说明书相关的部分,具体技术细节未揭示的,请参照本申请图1~图4所示的实施例。
请参见图5,其示出本说明书的图像识别装置的结构示意图。该图像识别装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该图像识别装置1包括模型构建模块11和模型训练模块12,具体用于:
模型构建模块11,用于基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
模型训练模块12,用于采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
所述模型训练模块12,用于基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
所述模型训练模块12,用于基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型
可选的,如图6所示,所述模型训练模块12,包括:
网络配置单元121,用于基于所述图像识别任务对所述第一主网络配置至少一个图像识别监督信号;
网络训练单元122,用于将所述图像样本数据输入至所述第一主网络进行主网络训练,输出至少一个所述图像识别监督信号指示的监督信号识别结果。
可选的,如图7所示,所述网络训练单元122,包括:
网络训练子单元1221,用于将所述图像样本数据输入至所述第一主网络进行至少一轮主网络训练;
网络调整子单元1221,用于在每轮主网络训练过程中,输出至少一个所述图像识别监督信号指示的监督信号识别结果,并确定每个所述图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第一主网络进行主网络调整。
可选的,所述网络调整子单元1221,用于:
获取针对所述第一主网络的目标损失参数;
基于所述目标损失参数以及所述各所述监督信号损失对所述第一主网络进行主网络调整。
可选的,所述监督信号损失包括监督损失以及稀疏损失,所述目标损失参数为针对所述监督损失的监督信号权重以及信号稀疏强度,所述网络调整子单元1221,用于:
将所述监督损失、所述稀疏损失,所述监督信号权重以及所述信号稀疏强度输入至第一损失计算式中,确定第一损失;
基于所述第一损失对所述第一主网络进行主网络调整;
所述第一损失计算式满足以下公式:
Figure BDA0003804005260000131
其中,LossA为第一损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i 个所述图像识别监督信号对应的所述监督信号损失,αi为针对第i个所述图像识别监督信号的所述监督信号权重,parameteri为第i个所述图像识别监督信号对应的稀疏损失,βi为针对第i个所述图像识别监督信号的所述信号稀疏强度。
可选的,所述网络训练单元122,用于:
将各所述监督信号识别结果输入至所述第二元网络进行至少一轮元网络训练;
在每一轮元网络训练过程中,输出针对各所述图像识别监督信号的损失调整参数,并基于所述第一主网络获取每个图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第二元网络进行元网络调整。
可选的,所述网络调整子单元1221,用于:
将各所述监督信号损失输入至第二损失计算式中,确定第二损失;
基于所述第二损失对所述第二元网络进行元网络调整;
所述第二损失计算式满足以下公式:
Figure BDA0003804005260000141
其中,LossB为第二损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i 个所述图像识别监督信号对应的所述监督信号损失。
可选的,所述模型训练模块12,具体用于:
基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新后的所述第一损失计算式;
在所述第一主网络进行主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至得到针对所述初始图像识别模型的目标图像识别模型。
可选的,所述模型训练模块12,具体用于:
获取针对所述第一主网络的所述第一损失计算式中的目标损失参数;
基于所述损失调整参数对所述目标损失参数进行参数更新,得到参数更新之后的所述目标损失参数。
可选的,所述模型构建模块11,具体用于:
确定针对所述初始图像识别模型的模型训练方式为网络交替训练方式,基于所述网络交替训练方式确定针对所述第一主网络的第一训练轮数以及针对所述第二元网络的第二训练轮数;
可选的,所述模型训练模块12,具体用于:
基于所述第一训练轮数采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
基于所述第二训练轮数基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数。
可选的,所述模型训练模块12,具体用于:
若所述初始图像识别模型不满足模型训练结束条件,则基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新之后的所述第一损失计算式;
在对所述第一主网络进行下一轮主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至所述初始图像识别模型满足所述模型训练结束条件,得到针对所述初始图像识别模型的目标图像识别模型。
可选的,所述模型训练模块12,具体用于:
将所述初始图像识别模型作为所述目标图像识别模型;或,
将所述初始图像识别模型中的所述第一主网络作为所述目标图像识别模型。
可选的,所述图像识别任务为活体检测任务,所述监督信号识别结果包括深度估计识别结果、图像材质分类识别结果、反射图谱预测识别结果、活体分类识别结果中的至少一种。
可选的,如图8所示,所述装置1,还包括:
模型识别模块13,用于获取所述活体检测任务对应的目标检测图像,将所述目标检测图像输入至所述目标图像识别模型中,输出针对所述目标检测图像的至少一个目标监督识别结果;
图像检测模块14,用于基于各所述目标监督识别结果确定所述目标检测图像对应的图像检测类型,所述图像检测类型包括活体图像类型以及攻击图像类型。
可选的,所述图像检测模块14,用于:
确定针对各所述目标监督识别结果对应的活体监督信号划分规则,
采用所述活体监督信号划分规则对各所述目标监督识别进行活体检测,基于活体检测结果确定所述目标检测图像对应的图像检测类型。
需要说明的是,上述实施例提供的图像识别装置在执行图像识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本说明书序号仅仅为了描述,不代表实施例的优劣。
在本说明书一个或多个实施例中,通过若干监督信号从多个维度进行图像识别训练并结合元网络训练可实现基于损失调整参数的自适应监督,在模型训练过程中可准确高效的动态对模型网络结构以及参数分配进行调整,达到较好的资源利用率,在保证模型性能的前提下通过模型自适应监督调整可降低对模型资源的消耗,以及可大幅确保模型上线后的模型鲁棒性和模型适应能力。以及,针对活体检测任务对应的生物识别场景下,相关技术中需要用户进行配合交互,例如用户在提示下进行摇头、眨眼等操作。采用本说明书得到的目标图像识别模型线上部署之后,活体识别不需要用户进行高度配合,提升了用户体验。
本说明书还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图4所示实施例的所述图像识别方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图4所示实施例的所述图像识别方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
请参考图9,其示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列 (field-programmable gate array,FPGA)、可编程逻辑阵列(programmablelogic Array,PLA) 中的至少一种硬件形式来实现。处理器110可集成中心处理器(centralprocessing unit,CPU)、图像识别器(graphics processing unit,GPU)和调制解调器等中的一种或几种的组合。其中, CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(read-only memory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(Android) 系统,包括基于Android系统深度开发的系统、苹果公司开发的IOS系统,包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据,等。
参见图10所示,存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
以操作系统为Android系统为例,存储器120中存储的程序和数据如图11所示,存储器 120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380,其中,Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间,应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持,OpenGL/ES库提供了3D绘图的支持,Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime),它主要提供了一些核心库,能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API,开发者也可以通过使用这些API来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序等。
以操作系统为IOS系统为例,存储器120中存储的程序和数据如图12所示,IOS系统包括:核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层 460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架,比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface,UI)框架、用户界面UIKit框架、地图框架等等。
在图12所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440 中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和UI无关。而UIKit框架提供的类是基础的UI类库,用于创建基于触摸的用户界面,iOS应用程序可以基于UIKit框架来提供UI,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
其中,在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考 Android系统,本申请在此不再赘述。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本说明书对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真 (wireless fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在本说明书中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统,也可以是IOS系统,或者其它操作系统,本说明书对此不作限定。
本说明书的电子设备,其上还可以安装有显示设备,显示设备可以是各种能实现显示功能的设备,例如:阴极射线管显示器(cathode ray tubedisplay,简称CR)、发光二极管显示器 (light-emitting diode display,简称LED)、电子墨水屏、液晶显示屏(liquidcrystal display,简称LCD)、等离子显示面板(plasma display panel,简称PDP)等。用户可以利用电子设备 101上的显示设备,来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality,增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。
在图9所示的电子设备中,理器110可以用于调用存储器120中存储的应用程序,并具体执行以下操作:
基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型。
在一个实施例中,所述处理器110在执行所述采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果时,具体执行以下操作:
基于所述图像识别任务对所述第一主网络配置至少一个图像识别监督信号;
将所述图像样本数据输入至所述第一主网络进行主网络训练,输出至少一个所述图像识别监督信号指示的监督信号识别结果。
在一个实施例中,所述处理器110在执行将所述图像样本数据输入至所述第一主网络进行主网络训练,输出至少一个所述图像识别监督信号指示的监督信号识别结果时,具体执行以下操作:
将所述图像样本数据输入至所述第一主网络进行至少一轮主网络训练;
在每轮主网络训练过程中,输出至少一个所述图像识别监督信号指示的监督信号识别结果,并确定每个所述图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第一主网络进行主网络调整。
在一个实施例中,所述处理器110在执行所述基于各所述监督信号损失对所述第一主网络进行主网络调整时,具体执行以下步骤:
获取针对所述第一主网络的目标损失参数;
基于所述目标损失参数以及所述各所述监督信号损失对所述第一主网络进行主网络调整。
在一个实施例中,所述监督信号损失包括监督损失以及稀疏损失,所述目标损失参数为针对所述监督损失的监督信号权重以及信号稀疏强度,所述处理器110在执行所述基于所述目标损失参数以及所述各所述监督信号损失对所述第一主网络进行主网络调整时,具体执行以下步骤:
将所述监督损失、所述稀疏损失,所述监督信号权重以及所述信号稀疏强度输入至第一损失计算式中,确定第一损失;
基于所述第一损失对所述第一主网络进行主网络调整;
所述第一损失计算式满足以下公式:
Figure BDA0003804005260000181
其中,LossA为第一损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i 个所述图像识别监督信号对应的所述监督信号损失,αi为针对第i个所述图像识别监督信号的所述监督信号权重,parameteri为第i个所述图像识别监督信号对应的稀疏损失,βi为针对第i个所述图像识别监督信号的所述信号稀疏强度。
在一个实施例中,所述处理器110在执行所述基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数时,具体执行以下步骤:
将各所述监督信号识别结果输入至所述第二元网络进行至少一轮元网络训练;
在每一轮元网络训练过程中,输出针对各所述图像识别监督信号的损失调整参数,并基于所述第一主网络获取每个图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第二元网络进行元网络调整。
在一个实施例中,所述处理器110在执行所述基于各所述监督信号损失对所述第二元网络进行元网络调整时,具体执行以下步骤:
将各所述监督信号损失输入至第二损失计算式中,确定第二损失;
基于所述第二损失对所述第二元网络进行元网络调整;
所述第二损失计算式满足以下公式:
Figure BDA0003804005260000182
其中,LossB为第二损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i 个所述图像识别监督信号对应的所述监督信号损失。
在一个实施例中,所述处理器110在执行所述基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型时,具体执行以下步骤:
基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新后的所述第一损失计算式;
在所述第一主网络进行主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至得到针对所述初始图像识别模型的目标图像识别模型。
在一个实施例中,所述处理器110在执行所述基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新后的所述第一损失计算式时,具体执行以下步骤:
获取针对所述第一主网络的所述第一损失计算式中的目标损失参数;
基于所述损失调整参数对所述目标损失参数进行参数更新,得到参数更新之后的所述目标损失参数。
在一个实施例中,所述处理器110在执行所述图像识别方法时,还执行以下步骤:
确定针对所述初始图像识别模型的模型训练方式为网络交替训练方式,基于所述网络交替训练方式确定针对所述第一主网络的第一训练轮数以及针对所述第二元网络的第二训练轮数;
所述采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果,基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数,包括:
基于所述第一训练轮数采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
基于所述第二训练轮数基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数。
在一个实施例中,所述处理器110在执行所述基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型时,具体执行以下步骤:
若所述初始图像识别模型不满足模型训练结束条件,则基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新之后的所述第一损失计算式;
在对所述第一主网络进行下一轮主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至所述初始图像识别模型满足所述模型训练结束条件,得到针对所述初始图像识别模型的目标图像识别模型。
在一个实施例中,所述处理器110在执行所述得到针对所述初始图像识别模型的目标图像识别模型时,具体执行以下步骤:
将所述初始图像识别模型作为所述目标图像识别模型;或,
将所述初始图像识别模型中的所述第一主网络作为所述目标图像识别模型。
在一个实施例中,所述图像识别任务为活体检测任务,所述监督信号识别结果包括深度估计识别结果、图像材质分类识别结果、反射图谱预测识别结果、活体分类识别结果中的至少一种。
在一个实施例中,所述处理器110在执行所述图像识别方法时,还执行以下步骤:
获取所述活体检测任务对应的目标检测图像;
将所述目标检测图像输入至所述目标图像识别模型中,输出针对所述目标检测图像的至少一个目标监督识别结果;
基于各所述目标监督识别结果确定所述目标检测图像对应的图像检测类型,所述图像检测类型包括活体图像类型以及攻击图像类型。
在一个实施例中,所述处理器110在执行所述基于各所述目标监督识别结果确定所述目标检测图像对应的图像检测类型时,具体执行以下步骤:
确定针对各所述目标监督识别结果对应的活体监督信号划分规则,
采用所述活体监督信号划分规则对各所述目标监督识别进行活体检测,基于活体检测结果确定所述目标检测图像对应的图像检测类型。
在本说明书一个或多个实施例中,通过若干监督信号从多个维度进行图像识别训练并结合元网络训练可实现基于损失调整参数的自适应监督,在模型训练过程中可准确高效的动态对模型网络结构以及参数分配进行调整,达到较好的资源利用率,在保证模型性能的前提下通过模型自适应监督调整可降低对模型资源的消耗,以及可大幅确保模型上线后的模型鲁棒性和模型适应能力。以及,针对活体检测任务对应的生物识别场景下,相关技术中需要用户进行配合交互,例如用户在提示下进行摇头、眨眼等操作。采用本说明书得到的目标图像识别模型线上部署之后,活体识别不需要用户进行高度配合,提升了用户体验。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (19)

1.一种图像识别方法,所述方法包括:
基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型。
2.根据权利要求1所述的方法,所述采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果,包括:
基于所述图像识别任务对所述第一主网络配置至少一个图像识别监督信号;
将所述图像样本数据输入至所述第一主网络进行主网络训练,输出至少一个所述图像识别监督信号指示的监督信号识别结果。
3.根据权利要求2所述的方法,所述将所述图像样本数据输入至所述第一主网络进行主网络训练,输出至少一个所述图像识别监督信号指示的监督信号识别结果,包括:
将所述图像样本数据输入至所述第一主网络进行至少一轮主网络训练;
在每轮主网络训练过程中,输出至少一个所述图像识别监督信号指示的监督信号识别结果,并确定每个所述图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第一主网络进行主网络调整。
4.根据权利要求3所述的方法,所述基于各所述监督信号损失对所述第一主网络进行主网络调整,包括:
获取针对所述第一主网络的目标损失参数;
基于所述目标损失参数以及所述各所述监督信号损失对所述第一主网络进行主网络调整。
5.根据权利要求4所述的方法,所述监督信号损失包括监督损失以及稀疏损失,所述目标损失参数为针对所述监督损失的监督信号权重以及信号稀疏强度,
所述基于所述目标损失参数以及所述各所述监督信号损失对所述第一主网络进行主网络调整,包括:
将所述监督损失、所述稀疏损失,所述监督信号权重以及所述信号稀疏强度输入至第一损失计算式中,确定第一损失;
基于所述第一损失对所述第一主网络进行主网络调整;
所述第一损失计算式满足以下公式:
Figure FDA0003804005250000011
其中,LossA为第一损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i个所述图像识别监督信号对应的所述监督信号损失,αi为针对第i个所述图像识别监督信号的所述监督信号权重,parameteri为第i个所述图像识别监督信号对应的稀疏损失,βi为针对第i个所述图像识别监督信号的所述信号稀疏强度。
6.根据权利要求3所述的方法,所述基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数,包括:
将各所述监督信号识别结果输入至所述第二元网络进行至少一轮元网络训练;
在每一轮元网络训练过程中,输出针对各所述图像识别监督信号的损失调整参数,并基于所述第一主网络获取每个图像识别监督信号对应的监督信号损失,基于各所述监督信号损失对所述第二元网络进行元网络调整。
7.根据权利要求6所述的方法,所述基于各所述监督信号损失对所述第二元网络进行元网络调整,包括:
将各所述监督信号损失输入至第二损失计算式中,确定第二损失;
基于所述第二损失对所述第二元网络进行元网络调整;
所述第二损失计算式满足以下公式:
Figure FDA0003804005250000021
其中,LossB为第二损失,I为图像识别监督信号的总数目,i为整数,Lossi(x)表示第i个所述图像识别监督信号对应的所述监督信号损失。
8.根据权利要求1所述的方法,所述基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型,包括:
基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新后的所述第一损失计算式;
在所述第一主网络进行主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至得到针对所述初始图像识别模型的目标图像识别模型。
9.根据权利要求8所述的方法,所述基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新后的所述第一损失计算式,包括:
获取针对所述第一主网络的所述第一损失计算式中的目标损失参数;
基于所述损失调整参数对所述目标损失参数进行参数更新,得到参数更新之后的所述目标损失参数。
10.根据权利要求1所述的方法,所述方法还包括:
确定针对所述初始图像识别模型的模型训练方式为网络交替训练方式,基于所述网络交替训练方式确定针对所述第一主网络的第一训练轮数以及针对所述第二元网络的第二训练轮数;
所述采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果,基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数,包括:
基于所述第一训练轮数采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
基于所述第二训练轮数基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数。
11.根据权利要求10所述的方法,所述基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型,包括:
若所述初始图像识别模型不满足模型训练结束条件,则基于所述损失调整参数对所述第一主网络的第一损失计算式进行损失参数更新,得到更新之后的所述第一损失计算式;
在对所述第一主网络进行下一轮主网络训练时,基于所述第一损失计算式对所述第一主网络进行主网络调整,直至所述初始图像识别模型满足所述模型训练结束条件,得到针对所述初始图像识别模型的目标图像识别模型。
12.根据权利要求11所述的方法,所述得到针对所述初始图像识别模型的目标图像识别模型,包括:
将所述初始图像识别模型作为所述目标图像识别模型;或,
将所述初始图像识别模型中的所述第一主网络作为所述目标图像识别模型。
13.根据权利要求1-12任一项所述的方法,所述图像识别任务为活体检测任务,所述监督信号识别结果包括深度估计识别结果、图像材质分类识别结果、反射图谱预测识别结果、活体分类识别结果中的至少一种。
14.根据权利要求13所述的方法,所述方法还包括:
获取所述活体检测任务对应的目标检测图像;
将所述目标检测图像输入至所述目标图像识别模型中,输出针对所述目标检测图像的至少一个目标监督识别结果;
基于各所述目标监督识别结果确定所述目标检测图像对应的图像检测类型,所述图像检测类型包括活体图像类型以及攻击图像类型。
15.根据权利要求14所述的方法,所述基于各所述目标监督识别结果确定所述目标检测图像对应的图像检测类型,包括:
确定针对各所述目标监督识别结果对应的活体监督信号划分规则;
采用所述活体监督信号划分规则对各所述目标监督识别进行活体检测,基于活体检测结果确定所述目标检测图像对应的图像检测类型。
16.一种图像识别装置,所述装置包括:
模型构建模块,用于基于图像识别任务构建初始图像识别模型,所述图像识别模型包括第一主网络和第二元网络;
模型训练模块,用于采用图像样本数据对所述第一主网络进行主网络训练,确定至少一个监督信号识别结果;
所述模型训练模块,用于基于各所述监督信号识别结果对所述第二元网络进行元网络训练,确定损失调整参数;
所述模型训练模块,用于基于所述损失调整参数对所述第一主网络进行模型调整,得到针对所述初始图像识别模型的目标图像识别模型。
17.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~15任意一项的方法步骤。
18.一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如权利要求1~15任意一项的方法步骤。
19.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~15任意一项的方法步骤。
CN202210991167.3A 2022-08-18 2022-08-18 一种图像识别方法、装置、存储介质及电子设备 Pending CN115620111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210991167.3A CN115620111A (zh) 2022-08-18 2022-08-18 一种图像识别方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210991167.3A CN115620111A (zh) 2022-08-18 2022-08-18 一种图像识别方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115620111A true CN115620111A (zh) 2023-01-17

Family

ID=84856565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210991167.3A Pending CN115620111A (zh) 2022-08-18 2022-08-18 一种图像识别方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115620111A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612358A (zh) * 2023-07-20 2023-08-18 腾讯科技(深圳)有限公司 一种数据处理的方法、相关装置、设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612358A (zh) * 2023-07-20 2023-08-18 腾讯科技(深圳)有限公司 一种数据处理的方法、相关装置、设备以及存储介质
CN116612358B (zh) * 2023-07-20 2023-10-03 腾讯科技(深圳)有限公司 一种数据处理的方法、相关装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US11880509B2 (en) Hand pose estimation from stereo cameras
CN111476871B (zh) 用于生成视频的方法和装置
CN112069414A (zh) 推荐模型训练方法、装置、计算机设备及存储介质
KR102491140B1 (ko) 가상 아바타 생성 방법 및 장치
CN109189544B (zh) 用于生成表盘的方法和装置
KR20220091529A (ko) 아나포라 처리
US20240078733A1 (en) Automated gif generation platform
CN115620111A (zh) 一种图像识别方法、装置、存储介质及电子设备
CN115131603A (zh) 一种模型处理方法、装置、存储介质及电子设备
CN115049068A (zh) 一种模型处理方法、装置、存储介质及电子设备
CN112561084B (zh) 特征提取方法、装置、计算机设备及存储介质
CN116798129A (zh) 一种活体检测方法、装置、存储介质及电子设备
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN109445573A (zh) 一种用于虚拟化身形象互动的方法与装置
CN113515994A (zh) 视频特征提取方法、装置、设备以及存储介质
CN116129534A (zh) 一种图像活体检测方法、装置、存储介质及电子设备
CN116228391A (zh) 一种风险识别方法、装置、存储介质及电子设备
CN115328725A (zh) 状态监测方法、装置、存储介质及电子设备
CN112381064B (zh) 一种基于时空图卷积网络的人脸检测方法及装置
CN114500900A (zh) 丢失对象的寻找方法及装置
CN114663929A (zh) 基于人工智能的脸部识别方法、装置、设备和存储介质
CN111770510A (zh) 网络体验状态确定方法、装置、存储介质及电子设备
CN115798057A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN116152403B (zh) 一种形象生成方法、装置、存储介质及电子设备
CN116246014B (zh) 一种形象生成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination