CN114359564A - 图像识别方法、装置、计算机设备、存储介质和产品 - Google Patents

图像识别方法、装置、计算机设备、存储介质和产品 Download PDF

Info

Publication number
CN114359564A
CN114359564A CN202111481611.9A CN202111481611A CN114359564A CN 114359564 A CN114359564 A CN 114359564A CN 202111481611 A CN202111481611 A CN 202111481611A CN 114359564 A CN114359564 A CN 114359564A
Authority
CN
China
Prior art keywords
image
region
feature extraction
sample
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111481611.9A
Other languages
English (en)
Inventor
徐江河
李博
陈兆宇
张�杰
吴双
丁守鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shanghai Co Ltd
Original Assignee
Tencent Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shanghai Co Ltd filed Critical Tencent Technology Shanghai Co Ltd
Priority to CN202111481611.9A priority Critical patent/CN114359564A/zh
Publication of CN114359564A publication Critical patent/CN114359564A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像识别方法、装置、计算机设备、存储介质和产品,通过获取第一图像样本;对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本;通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息;基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过图像特征提取模型对待识别图像进行图像识别。本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,提高图像特征提取模型的特征提取能力。

Description

图像识别方法、装置、计算机设备、存储介质和产品
技术领域
本申请涉及通信技术领域,具体涉及一种图像识别方法、装置、计算机设备、存储介质和产品。
背景技术
对物理攻击的对抗防御是人脸安全系统中的重要组成部分,而对抗攻击技术的存在使得以AI模型为基础的人脸安全系统面临极大的威胁。对抗攻击是一种通过对图像施加极小的(肉眼通常难以察觉)扰动来使模型对图像内容做出错误判断的技术。
针对物理攻击,现有的防御方法主要包括两大类:经验性防御(empiricaldefense)以及可信性防御(certify defense)。其中,经验性防御是指基于对已有攻击的理解做出的针对性防御,例如,通过预处理或后处理手段修改攻击区域的像素值,破坏攻击效果;可信性防御指的是:无论攻击者采用何种生成物理攻击的方式,只要其满足一定条件都能实现100%的防御成功率,常用的方法有:设计新的网络结构以及限制模型感受野等。
经验性防御在面对适应性攻击时显得无能为力,当攻击者完全了解防御系统(包括防御模型、参数、添加的防御策略等)时,即可以设计出对应的适应性攻击,经验性防御无法修改适应性攻击,导致模型对图像内容识别的效果差。
而可信性防御采用基于卷积神经网络(Convolutional neural network,CNN)建模,CNN通常只接收完整的图像输入,在处理掩码图像时,CNN就会受困于掩码区域产生的大量冗余信息的干扰,直接影响模型对图像内容的识别效果。
发明内容
本申请实施例提供一种图像识别方法、装置、计算机设备、存储介质和产品,提高图像特征提取模型的特征提取能力。
本申请实施例提供的一种图像识别方法,包括:
获取第一图像样本,所述第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;
对所述第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,所述处理后图像样本包含至少一个掩码图像区域;
通过图像特征提取模型对所述处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到所述每个掩码图像区域对应的区域特征信息;
基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过所述图像特征提取模型对待识别图像进行图像识别。
相应的,本申请实施例还提供的一种图像识别装置,包括:
获取单元,用于获取第一图像样本,所述第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;
掩码单元,用于对所述第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,所述处理后图像样本包含至少一个掩码图像区域;
特征提取单元,用于通过图像特征提取模型对所述处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到所述每个掩码图像区域对应的区域特征信息;
训练单元,用于基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过所述图像特征提取模型对待识别图像进行图像识别。
相应的,本申请实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本申请实施例提供的任一种图像识别方法。
相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行本申请实施例提供的任一种图像识别方法。
相应的,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的任一种图像识别方法。
本申请实施例通过获取第一图像样本,第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,处理后图像样本包含至少一个掩码图像区域;通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息;基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过图像特征提取模型对待识别图像进行图像识别。
本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,通过图像特征提取模型对掩码图像区域进行图像语义关联特征提取,以基于非掩码图像区域对掩码图像区域进行恢复重建,对图像特征提取模型进行自监督训练,提高图像特征提取模型的特征提取能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像识别方法的场景图;
图2是本申请实施例提供的图像识别方法的流程图;
图3是本申请实施例提供的图像识别方法的另一流程图;
图4是本申请实施例提供的生成区域标签的示意图;
图5是本申请实施例提供的模型训练架构示意图
图6是本申请实施例提供的图像识别装置示意图;
图7是本申请实施例提供的终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种图像识别方法、装置、计算机设备和计算机可读存储介质。该图像识别装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC,Personal Computer)、以及车载计算机等。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。
例如,如图1所示,计算机设备获取第一图像样本,第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,处理后图像样本包含至少一个掩码图像区域;通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息;基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过图像特征提取模型对待识别图像进行图像识别。
本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,通过图像特征提取模型对掩码图像区域进行图像语义关联特征提取,以基于非掩码图像区域对掩码图像区域进行恢复重建,对图像特征提取模型进行自监督训练,提高图像特征提取模型的特征提取能力。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从图像识别装置的角度进行描述,该图像识别装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
本申请实施例提供的一种图像识别方法,如图2所示,该图像识别方法的具体流程可以如下:
101、获取第一图像样本,第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签。
其中,第一图像样本可以包含待识别对象,且包含区域标签的图像样本,例如,第一图像样本可以是包含文字、行人、人脸、以及物品等。基于包含不同的待识别对象的第一图像样本训练得到的训练后图像特征提取模型可以应用于不同的场景,例如,可以应用于文字识别、行人检测、物体识别、以及人脸识别等应用场景。
其中,图像区域可以是针对第一图像样本进行图像区域划分得到的区域,例如,对第一图像样本进行等分处理,得到若干个大小相同的图像区域,或者对第一图像样本进行随机划分,得到多个图像区域。
其中,区域标签可以是图像区域对应的标签,可以用于表征图像区域所包含的图像内容。
比如,具体可以是从数据库中获取第一图像样本,可选的,第一图像样本还可以存储与区块链中以及其他存储位置,在此不做限定。
第一图像样本中每个图像区域对应的区域标签可以是通过人工预先标记的,也可以通过对图像区域进行图像编码得到,即步骤“获取第一图像样本”,具体可以包括:
获取初始图像样本;
对初始图像样本进行图像区域划分,得到多个图像区域;
对初始图像样本中的每个图像区域进行图像编码处理,得到初始图像样本中每个图像区域对应的区域标签;
根据多个图像区域以及每个图像区域对应的区域标签,生成第一图像样本。
其中,初始图像样本可以是包含待识别对象的图像样本。
比如,具体可以是从数据库或者是区块链中获取初始图像样本,基于预设划分规则对初始图像样本进行图像区域划分,将初始图像样本划分为多个图像区域,对初始图像样本中的每个图像区域进行图像编码处理,得到初始图像样本的隐藏编码特征,该隐藏编码特征包含每个图像区域对应的区域标签。
可以理解的是,基于每个图像区域对应的区域标签进行图像解码处理,可以得到初始图像样本,对初始图像样本进行图像编码处理可以通过训练后图像编码模型实现,即在一实施例中,步骤“对第一图像样本中每个图像区域进行图像编码处理,得到第一图像样本中每个图像区域对应的区域标签”,具体可以包括:
通过训练后图像编码提取模型对第一图像样本中的每个图像区域进行图像编码处理,得到每个图像区域的区域标签。
其中,训练后图像编码模型可以是用于对初始图像样本进行图像编码处理,以得到隐藏编码特征作为区域标签的模型。
比如,具体可以是将初始图像样本输入训练后图像编码模型,通过训练后图像编码模型对初始图像样本进行图像编码处理,得到初始图像样本每个图像区域对应的隐藏编码特征。
可选的,训练后图像编码模型可以是训练后变分编码模型(Variational Auto-Encoder,VAE)中的解码网络,训练后变分编码模型可以基于第二图像样本进行训练,即在一实施例中,步骤“获取初始图像样本”之前,本申请实施例提供的图像识别方法,具体还可以包括:
获取第二图像样本;
通过图像编码模型对第二图像样本进行图像编码处理,得到第二图像样本的图像编码信息;
对图像编码信息进行图像还原处理,得到第二图像样本对应的还原图像;
基于第二图像样本与还原图像对图像编码模型进行训练,以得到训练后图像编码模型。
其中,第二图像样本可以是对图像编码模型进行训练的样本,第二图像样本可以与初始图像样本或者是第一图像样本相同,也可以不同。
比如,具体可以是图像编码模型可以包括编码网络和解码网络,将第二图像样本输入图像编码模型,通过图像编码网络对第二图像样本进行图像编码处理,得到第二图像样本的图像编码信息,通过解码网络对图像编码信息进行解码,以基于图像编码信息进行图像还原处理,得到第二图像样本对应的还原图像,基于将第二图像样本和还原图像之间的差异计算损失函数,基于损失函数对图像编码模型的网络参数进行更新,当图像编码模型收敛时,移除解码网络,保留解码网络作为训练后图像编码模型。
102、对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,处理后图像样本包含至少一个掩码图像区域。
其中,掩码处理可以是对图像区域进行遮盖,以保留第一图像样本的部分图像区域,即局部图像区域。
比如,具体可以是对第一图像样本中的至少一个图像区域中每个像素的像素值用固定值0替代,或者其他值替代,例如225等,进行掩码处理后的图像区域即为掩码图像区域,针对第一图像样本中的至少一个图像区域进行掩码处理后,可以得到处理后图像样本。
为了提高图像特征提取模型对局部区域的特征提取能力,可以设置有多个训练阶段以对图像特征提取模型进行多阶段渐进式训练,不同训练阶段对应有不同的掩码图像区域,对应地,第一图像样本保留的局部区域图像的图像尺寸不同,以赋予图像特征提取模型多尺度的信息,使得图像特征提取模型基于不同图像尺寸的局部图像区域更容易学习到局部图像区域的区域特征信息,从而实现更好的图像识别效果,即在一实施例中,步骤“对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本”,具体可以包括:
根据所述图像特征提取模型的当前训练阶段,确定所述第一图像样本中的待掩码区域,所述当前训练阶段为渐进式训练阶段中的训练阶段;
根据所述当前训练阶段对所述第一图像样本中的所述待掩码区域进行掩码处理,得到处理后图像样本。
其中,图像特征提取模型可以用于提取图像特征的神经网络模型,图像特征提取网络可以是基于视觉transformer架构的神经网络模型,视觉transformer是将输入的图像裁剪成一个图像区域序列来进行处理的。由于图像内容的连续性,每个图像区域之间存在一定的语义关联性,因此,当有部分图像区域被遮盖时,理论上可以通过没有被遮盖的图像区域对被遮盖的图像区域进行恢复重建。而对被遮盖的图像区域的恢复重建是一种有效的自监督训练方式,若图像特征提取模型能学习到没有被遮盖的图像区域的局部特征信息,即可以对被遮盖的图像区域进行恢复重建。
其中,渐进式训练阶段可以包括多个训练阶段,当前训练阶段可以是从渐进式训练阶段中确的一个训练阶段,当前训练阶段可以是图像特征提取模型当前所述的训练阶段,每个训练阶段对应有待掩码区域。
比如,具体可以是根据当前训练阶段确定第一图像样本的图像区域中需要进行掩码处理的图像区域,即待掩码区域,对第一图像样本的待掩码区域进行掩码处理,得到处理后图像样本。
例如,渐进式训练阶段包含三个训练阶段,分别是第一训练阶段、第二训练阶段以及第三训练阶段,第一训练阶段、第二训练阶段以及第三训练阶段分别对应于不同的掩码图像区域,第一训练阶段可以对第一图像样本中40%的图像区域进行掩码处理,第二训练阶段可以对第一图像样本中70%的图像区域进行掩码处理,第三训练阶段可以对第一图像样本中90%的图像区域进行掩码处理。基于第一训练阶段、第二训练阶段以及第三训练阶段得到的处理后图像样本依次对图像特征提取进行训练,以逐步提高图像特征提取模型的特征提取能力。
103、通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息。
比如,由于第一图像样本的内容连续性,第一图像样本中的每个图像区域之间具有一定的语义关联性,例如,包含待识别人脸的图像中,眼睛所在的图像区域与头发所在的图像区域具有一定的内容关联,即具有语义关联性,因此,可以基于局部图像区域与对被掩码处理的掩码图像区域之间的语义关联性,对掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息。
区域标签可以表征图像区域所包含的图像内容,区域标签可以是一个数据区间中的数值,区域特征信息可以表征该掩码图像区域为数据区间中的每个数值的概率,即图像特征提取模型基于局部图像区域预测掩码图像区域为数据区间中的每个数据的概率。
具体地,可以通过对局部图像区域进行局部特征提取,基于局部图像区域的局部特征信息对掩码图像区域进行恢复重建,对掩码图像区域恢复重建是一种有效的自监督训练方式,由于第一图像样本中图像区域之间具有语义关联性,因此,若图像特征提取模型能够准确地学习到局部图像区域的局部特征信息,则能够准确地对掩码图像区域进行恢复重建,即在一实施例中,步骤“通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息”,具体可以包括:
通过图像特征提取模型对第一图像样本中的每个局部图像区域进行局部特征提取,得到每个局部图像区域对应的局部特征信息;
基于局部特征信息,对第一图像样本中的每个掩码图像区域进行局部信息联立处理,得到每个掩码图像区域对应的区域特征信息。
比如,具体可以是通过图像特征提取模型对第一图像样本中的局部图像区域进行局部特征提取,以提取图局部图像区域中可以识别第一图像样本包含内容的特征信息,得到局部图像区域对应的局部特征信息。
基于局部图像区域与掩码图像区域之间的内容关联性、局部图像区域与掩码图像区域之间的位置关系、以及每个局部图像区域对应的局部特征信息,进行局部信息联立,得到掩码图像区域对应的区域特征信息。
可选地,可以通过图像特征提取模型获取局部图像区域包含的所有单位图像区域,若单位图像区域可以是长度为a的条带图像区域,那么,可以以1个像素为移动步长,从局部图像区域中逐个获取单位图像区域,以得到局部图像区域包含的所有单位图像区域,即单位图像区域之间可以是相互交叉的关系,可以理解的是单位图像区域之间可以不是相互交叉的。
对每个单位图像区域进行局部特征提取,得到每个单位图像区域的子局部特征信息,将多个子局部特征信息作为局部图像区域的局部特征信息。
104、基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过图像特征提取模型对待识别图像进行图像识别。
比如,第一图像样本中每个图像区域对应的区域标签为区间[1,8192]中的离散数值,掩码图像区域的区域特征信息为8192维的特征向量,每一维表示该掩码图像区域为区间[1,8192]中对应的数值的概率。
根据掩码图像区域的区域标签,以及区域特征信息计算损失,并进行反向传播,以对图像特征提取模型进行训练,计算损失可以采用多种损失函数,例如,softmax损失函数、权重交叉熵损失函数、以及交叉熵损失函数等,在此不做限定。
图像特征提取模型对掩码图像区域进行图像语义关联特征提取得到的区域特征信息表征掩码图像区域为区间中每个数值的预测概率,类似于分类过程,因此可以采用交叉熵损失函数计算图像特征提取模型的损失,即在一实施例中,步骤“基于区域标签与区域特征信息对图像特征提取模型进行训练”,具体可以包括:
根据区域特征信息与区域标签计算交叉熵损失;
基于交叉熵损失进行梯度反传处理,以对图像特征提取模型进行训练。
比如,具体可以是基于以下交叉熵损失函数的公式、区域特征信息和区域标签计算交叉熵损失LCE。其中,M为分类类别,即区域特征信息包含的维度数量,N为掩码图像区域的数量,yic为符号函数,若掩码图像区域的区域标签为c,则yic=1,否则yic=0,pic为掩码图像区域属于类型c的预测概率。
Figure BDA0003395435980000101
不同训练阶段对应有不同的局部图像区域以及掩码图像区域,当局部图像区域的数量较少,而掩码图像区域的数量较多时,基于局部图像区域预测掩码图像区域的区域特征信息,距离局部图像区域较远的掩码图像区域由于内容连续性较弱,预测准确性相对较低,根据此类掩码图像区域的区域特征信息与区域标签对图像提取模型的网络参数进行更新,会导致图像提取模型难以收敛,因此,可以针对不同的训练阶段设置对应的目标掩码图像区域,基于目标掩码图像区域的区域特征信息和区域标签对图像特征提取模型进行训练,即在一实施例中,步骤“基于区域标签与区域特征信息对图像特征提取模型进行训练”,具体可以包括:
根据当前训练阶段从掩码图像区域中确定目标掩码图像区域;
基于目标掩码图像区域对应的区域标签,以及目标掩码图像区域对应的区域特征信息,对图像特征提取模型进行训练。
其中,目标掩码图像区域可以是根据当前训练阶段从掩码图像区域中确定的部分图像区域。
比如,具体可以是将与当前训练阶段对应的局部图像区域相邻的掩码图像区域确定为目标掩码图像区域。
基于目标掩码图像区域对应的区域特征信息以及区域标签对图像特征提取模型进行训练。
除了针对掩码图像区域恢复重建对图像特征提取模型的网络参数进行更新,还可以基于第一图像样本包含的内容对图像特征提取模型进行训练,即在一实施例中,步骤“基于区域标签与区域特征信息对图像特征提取模型进行训练”,具体还可以包括:
根据处理后图像样本中的局部图像区域对应的局部区域特征信息,确定每个局部图像区域的区域预测结果;
根据每个局部区域的区域预测结果确定第一图像样本的图像预测结果;
根据图像预测结果和图像标签对图像特征提取模型进行训练,以及基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型。
比如,具体可以是通过全连接层进行图像分类任务,通过全连接层对每个局部图像区域的局部特征信息进行分类处理,确定每个局部图像区域所属的类别,得到区域预测结果,第一图像样本所属的类型可以根据应用场景的需要进行灵活设置,例如应用于不同物品识别的场景,又例如应用于人脸识别场景,在一个实施例中,可以应用于即时通信软件的支付时的人脸识别验证的场景,还可以应用于门禁系统,即分类的类别可以是不同的对象。
根据每个局部图像区域的区域预测结果,确定每个类别被预测的次数,将被预测次数最多的类别确定第一图像样本的类型,得到第一图像样本的图像预测结果。
基于图像预测结果和图像标签对图像特征提取模型进行训练,以及基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型。
在一实施例中,基于渐进式训练阶段对图像特征提取模型进行训练时,需要对图像特征提取模型完成一个训练阶段的训练后,才进入下一个训练阶段的训练,层层递进,逐步缩小第一图像样本包含局部区域图像的数量,以使得图像特征提取模型能够提取到更准确的局部特征信息,即在一实施例中,步骤“基于区域标签与区域特征信息对图像特征提取模型进行训练”,包括:
在当前训练阶段,基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到候选图像特征提取模型;
从渐进式训练阶段中确定当前训练阶段的关联训练阶段;
将关联训练阶段确定为当前训练阶段,并返回执行根据当前训练阶段对第一图像样本中的至少一个图像区域进行掩码处理,得到与当前训练阶段对应的处理后图像样本,直到图像特征提取模型收敛,得到训练后图像特征提取模型。
比如,具体可以是在当前训练阶段,基于区域标签和区域特征信息对图像特征提取模型进行训练,当满足预设训练条件时,比如,训练次数满足预设次数时,或者当图像特征提取模型的损失函数收敛到预设数值时,得到候选图像特征提取模型,此时,从渐进式训练阶段中确定当前训练阶段的关联训练阶段。渐进式训练阶段可以包含多个有预设训练顺序的训练阶段,当前训练阶段的关联训练阶段可以是在训练顺序上次于当前训练阶段的训练阶段。
将关联训练阶段作为当前训练阶段,返回执行根据当前训练阶段对第一图像样本中的至少一个图像区域进行掩码处理,得到与当前训练阶段对应的处理后图像样本。当该训练阶段训练完成时,对图像特征提取模型执行下一训练阶段的训练任务,直到对图像特征提取模型完成渐进式训练阶段中包含的所有训练阶段的训练,或者是图像特征提取模型收敛至最优解,得到训练后特征提取模型。
当得到训练后特征提取模型后,可以基于训练后特征提取模型进行图像识别,即本申请实施例提供的图像识别方法,具体还可以包括:
获取待识别图像;
对待识别图像进行图像区域划分,得到多个图像区域;
通过训练后图像特征提取模型,对多个图像区域分别进行局部特征提取,得到每个图像区域对应的局部特征信息;
基于每个图像区域对应的局部特征信息,确定待识别图像的图像识别结果。
其中,待识别图像可以需要进行图像识别的图像,例如,进行人脸识别的图像,或者进行物体识别的图像等。
比如,具体可以是获取待识别图像,对待识别图像进行图像区域划分,得到多个图像区域(例如,以一个像素为移动步长,逐步从待识别图像中划分出固定宽度b的图像区域,以得到待识别图像中的包含的所有图像区域),对多个图像区域进行局部特征提取,得到每个图像区域对应的局部特征信息。根据每个图像区域的局部特征信息对图像区域进行分类处理,确定每个图像区域的预测分类结果。
根据每个图像区域的预测分类结果确定待识别图像中最多图像区域预测的类别确定为待识别图像的类别。在人脸识别场景,预测分类类型可以是不同的对象。
本申请实施例提供的图像识别方法具有可推理性,具体推理过程如下:
当对一张图像进行图像识别时,首先通过训练后特征提取模型对图像进行区域划分,取出图像中所有可以取到的条带图像区域(条带区域之间可以相互重叠),并通过分类器模型分别基于每个条带图像区域的局部特征信息,对每个条带图像区域进行分类识别,确定每个条带图像区域的类别,并将该图像所有的条带图像区域的分类结果进行多数投票表决,得到该图像的分类结果。
假设该图像为x,条带图像区域的宽度为b,条带的起始位置为p,模型的参数为θ,分类器模型为fc(x,b,p,θ),其中c表征真实类别的概率,
Figure BDA0003395435980000131
Figure BDA0003395435980000132
代表被分类为类别c的条带图像区域的数量(其中w为图像的宽度),攻击图像的宽度为m。由于b与m的宽度固定,我们可以计算出最多可能被攻击的条带图像区域的数量为Δ=m+b-1(这里考虑最坏的情况,即只要条带图像区域与攻击图像交叉,就会被攻击,导致分类错误),在这样的情况下,只要公式(1)的条件成立,就可以认为该图像100%不会被攻破,图像特征提取模型对该图实现了可信性防御。具体地,攻击图像最多能够填补的条带图像区域分类数量差为2Δ(攻击最高类的Δ个区域,使其分类为次高类),最高类表示对应最多的条带图像区域薯类的类别,因此当公式(1)成立时,无论攻击者怎么操作,c都会是最高类,这样就保证了模型能够100%防御成功。
公式(1):
Figure BDA0003395435980000141
本申请实施例通过获取第一图像样本,第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,处理后图像样本包含至少一个掩码图像区域;通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息;基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过图像特征提取模型对待识别图像进行图像识别。
本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,通过图像特征提取模型对掩码图像区域进行图像语义关联特征提取,以基于非掩码图像区域对掩码图像区域进行恢复重建,对图像特征提取模型进行自监督训练,提高图像特征提取模型的特征提取能力。
在上述实施例的基础上,下面将举例做进一步详细说明。
本实施例将从图像识别装置的角度进行描述,该图像识别装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备;
本申请实施例提供的一种图像识别方法,如图3所示,该图像识别方法的具体流程可以如下:
201、服务器获取初始图像样本。
比如,具体可以是服务器从数据库或者是区块链中获取初始图像样本。
202、服务器对初始图像样本中的每个图像区域进行特征编码处理,得到每个图像区域对应的区域标签,得到第一图像样本。
比如,具体可以是如图4所示,服务器基于预设划分规则对初始图像样本进行图像区域划分,例如,将初始图像样本进行九等分划分,得到9个图像区域,或者是将初始图像划分为更多的图像区域,可以根据应用需要进行灵活调账,在此不做限定。将初始图像样本划分为多个图像区域,对初始图像样本中的每个图像区域进行图像编码处理,图像编码处理是通过消除初始图像样本的冗余,实现通过更少的数据量来表示初始图像样本包含的图像信息,通过图像编码处理可以得到初始图像样本对应的隐藏编码特征,即图4所示的矩阵。隐藏编码特征可以用于表示初始图像样本包含的图像信息,基于隐藏编码特征进行解码处理,可以恢复初始图像样本。
矩阵中的每个位置的数值分别对应于初始图像样本中的每个图像区域,矩阵中的每个位置的数值分别作为每个图像区域的区域标签,隐藏编码特征中包含的数值可以为值域(1,8192)之间的离散值。
可选的,还可以根据预先设置提取得到的隐藏编码特征的大小(矩阵大小),基于隐藏编码特征的大小对初始图像样本进行图像编码处理以及降维等处理过程,得到初始图像样本对应的隐藏编码特征。
根据初始图像样本以及初始图像样本中每个图像区域对应的区域标签,得到第一图像样本。
可选的,服务器可以通过训练后变分自编码器(Variational Auto-Encoder,VAE)中的编码器对初始图像样本中的每个图像区域进行图像编码处理,得到每个图像区域对应的区域标签。
由于基于隐藏编码特征可以恢复初始图像样本,若图像特征提取模型提取得到的局部特征信息与隐藏编码特征相同,那么,基于局部特征信息可以恢复对应的局部图像区域,则图像特征提取模型准确提取局部图像区域的局部图像特征信息,因此,可以将隐藏编码特征作为每个图像区域的区域标签。
203、服务器基于当前训练阶段,对第一图像样本进行掩码处理,得到处理后图像样本。
比如,渐进式训练阶段包含三个训练阶段,分别是第一训练阶段、第二训练阶段以及第三训练阶段,第一训练阶段、第二训练阶段以及第三训练阶段分别对应于不同的掩码图像区域,第一训练阶段可以对第一图像样本中40%的图像区域进行掩码处理,保留第一图像样本中60%的图像区域;第二训练阶段可以对第一图像样本中70%的图像区域进行掩码处理,保留第一图像样本中30%的图像区域;第三训练阶段可以保留第一图像样本中预设宽度的条带区域,对其他的图像区域进行掩码处理。
预设宽度的条带区域为训练后图像特征提取模型应用过程中对待识别图像进行裁剪,得到多个条带区域的宽度相同。
如图5所示,服务器根据当前训练阶段确定待掩码区域,对待掩码区域进行掩码处理,得到处理后图像样本,以及根据当前训练阶段确定目标掩码图像区域。
204、服务器基于处理后图像样本中的局部图像区域,对每个目标掩码图像区域进行图像语义关联特征提取,得到每个目标掩码图像区域对应的区域特征信息。
比如,具体可以是服务器将处理后图像样本输入图像特征提取模型中,通过图像特征提取模型对处理后图像样本进行裁剪成多个图像区域,例如,可以根据预设宽度将处理后图像样本裁剪为多个大小相同的条状图像区域,得到关于处理后图像样本的图像区域序列。通过图像特征提取模型对处理后图像样本中的局部图像区域进行局部特征提取,以提取图局部图像区域中可以识别处理后图像样本包含内容的特征信息,得到局部图像区域对应的局部特征信息。
由于处理后图像样本的图像内容连续性,各个图像区域之间具有一定的语义关联性,因此当遮盖住部分图像区域时,理论上能够通过其他没有遮盖的图像区域对被遮盖的图像区域进行恢复重建。
基于完整图像确定图像所属的类别,与基于图像区域确定图像所属的类型,图像特征提取模型所需要提取的特征信息量不同,因此,可以通过逐步增大掩码图像区域的大小,缩小局部图像区域的大小,逐步减少完整图像与图像区域之间的差异,加速图像特征提取模型的收敛。
距离局部图像区域越远的图像区域,与局部图像区域的语义关联性越弱,基于局部图像区域进行恢复重建越难,因此,可以根据局部图像区域的大小设置相应的恢复重建区域,即目标待掩码区域。
服务器将与当前训练阶段对应的局部图像区域相邻的掩码图像区域确定为目标掩码图像区域。例如,如图5所示,第一训练阶段的处理后图像样本中局部图像区域为60%的图像区域,可以设置目标掩码图像区域为处理后图像样本中的所有掩码图像区域,基于局部图像区域对掩码图像区域进行恢复重建。
第二训练阶段的处理后图像样本中局部图像区域为60%的图像区域,可以设置目标掩码图像区域为处理后图像样本中的所有掩码图像区域,基于局部图像区域对掩码图像区域进行恢复重建。
第三训练阶段的处理后图像样本中局部图像区域为预设宽度的条状图像区域,可以将处理后图像样本中与局部图像区域相邻的20%的掩码图像区域确定为目标掩码图像区域(图5中阴影部分),基于局部图像区域对目标掩码图像区域进行恢复重建。
可以理解的是,上述仅是一个可以实现的实施例,不同渐进式训练阶段对应的局部图像区域的大小,以及目标掩码图像区域的大小均可以根据实际应用情况进行灵活调整,在此,不做限定。
基于局部图像区域与掩码图像区域之间的内容关联性、局部图像区域与掩码图像区域之间的位置关系、以及每个局部图像区域对应的局部特征信息,进行图像语义关联特征提取,得到掩码图像区域对应的区域特征信息。
可选的,图像特征提取模型应用时是基于一整张图像预测图像所属类别,可以通过一整张图像对初始图像特征提取模型进行训练,得到图像特征提取模型,再通过进行掩码处理的处理后图像样本对图像特征提取模型进行微调,提高图像特征提取模型对局部图像区域的特征提取能力,以得到训练后图像特征提取模型。
205、服务器根据处理后图像样本中的局部图像区域对应的局部区域特征信息,确定第一图像样本的图像预测结果。
比如,具体可以是服务器通过全连接层进行图像分类任务,通过全连接层对每个局部图像区域的局部特征信息进行分类处理,确定每个局部图像区域所属的类别,得到区域预测结果,第一图像样本所属的类型可以根据应用场景的需要进行灵活设置,应用于人脸识别场景,即分类的类别可以是不同的对象。
根据每个局部图像区域的区域预测结果,确定每个类别被预测的次数,将被预测次数最多的类别确定第一图像样本的类型,得到第一图像样本的图像预测结果。
206、服务器基于区域标签与区域特征信息对图像特征提取模型进行训练,以及根据图像预测结果和图像标签对图像特征提取模型进行训练。
比如,具体可以是服务器根据掩码图像区域的区域标签,以及区域特征信息计算损失,并进行反向传播,以对图像特征提取模型进行训练;根据图像预测结果和图像标签计算损失,并进行反向传播,以对图像特征提取模型进行训练。
可以理解的是,掩码图像区域可以包括多个子图像区域,每个子图像区域对应有子区域特征信息,区域标签中包含了该掩码图像区域中多个子图像区域的对应的标签,根据每个子图像区域的子区域特征信息和对应的标签之间的损失进行反向传播。
207、当满足预设训练条件时,服务器从渐进式训练阶段中确定当前训练阶段的关联训练阶段,得到目标训练阶段。
比如,具体可以是在当前训练阶段,服务器基于区域标签和区域特征信息对图像特征提取模型进行训练,当满足预设训练条件时,比如,训练次数满足预设次数时,或者当图像特征提取模型的损失函数收敛到预设数值时,得到候选图像特征提取模型,此时,从渐进式训练阶段中确定当前训练阶段的关联训练阶段。
208、服务器将目标训练阶段作为当前训练阶段,返回执行步骤203,直到图像特征提取模型收敛,得到训练后图像特征提取模型。
比如,具体可以是服务器将关联训练阶段作为当前训练阶段,返回执行根据当前训练阶段对第一图像样本中的至少一个图像区域进行掩码处理,得到与当前训练阶段对应的处理后图像样本。当该训练阶段训练完成时,对图像特征提取模型执行下一训练阶段的训练任务,直到对图像特征提取模型完成渐进式训练阶段中包含的所有训练阶段的训练,或者是图像特征提取模型收敛至最优解,得到训练后特征提取模型。
由上可知,本申请实施例服务器通过获取初始图像样本;对初始图像样本中的每个图像区域进行特征编码处理,得到每个图像区域对应的区域标签,得到第一图像样本;基于当前训练阶段,对第一图像样本进行掩码处理,得到处理后图像样本;基于处理后图像样本中的局部图像区域,对每个目标掩码图像区域进行图像语义关联特征提取,得到每个目标掩码图像区域对应的区域特征信息;根据处理后图像样本中的局部图像区域对应的局部区域特征信息,确定第一图像样本的图像预测结果;基于区域标签与区域特征信息对图像特征提取模型进行训练,以及根据图像预测结果和图像标签对图像特征提取模型进行训练,以得到训练后图像特征提取模型;当满足预设训练条件时,服务器从渐进式训练阶段中确定当前训练阶段的关联训练阶段,得到目标训练阶段;将目标训练阶段作为当前训练阶段,返回执行步骤203,直到图像特征提取模型收敛,得到训练后图像特征提取模型。
本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,通过图像特征提取模型对掩码图像区域进行图像语义关联特征提取,以基于非掩码图像区域对掩码图像区域进行恢复重建,对图像特征提取模型进行自监督训练,提高图像特征提取模型的特征提取能力。
为了便于更好地实施本申请实施例提供的图像识别方法,在一实施例中还提供了一种图像识别装置。其中名词的含义与上述图像识别方法中相同,具体实现细节可以参考方法实施例中的说明。
该图像识别装置具体可以集成在计算机设备中,如图6所示,该图像识别装置可以包括:获取单元301、掩码单元302、特征提取单元303和训练单元304,具体如下:
(1)获取单元301:用于获取第一图像样本,所述第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签。
可选的,获取单元301可以包括样本获取子单元、区域划分子单元、编码子单元和样本生成子单元,具体地:
样本获取子单元:用于获取初始图像样本;
区域划分子单元:用于对初始图像样本进行图像区域划分,得到多个图像区域;
编码子单元:用于对初始图像样本中的每个图像区域进行图像编码处理,得到初始图像样本中每个图像区域对应的区域标签;
样本生成子单元:用于根据多个图像区域以及每个图像区域对应的区域标签,生成第一图像样本。
编码子单元还可以用于:
通过训练后图像编码提取模型对第一图像样本中的每个图像区域进行图像编码处理,得到每个图像区域的区域标签。
可选的,本申请实施例提供的图像识别装置还可以包括第二样本获取单元、图像编码单元、还原单元和模型训练单元,具体地:
第二样本获取单元:用于获取第二图像样本;
图像编码单元:用于通过图像编码模型对第二图像样本进行图像编码处理,得到第二图像样本的图像编码信息;
还原单元:用于对图像编码信息进行图像还原处理,得到第二图像样本对应的还原图像;
模型训练单元:用于基于第二图像样本与还原图像对图像编码模型进行训练,以得到训练后图像编码模型。
(2)掩码单元302:用于对所述第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,所述处理后图像样本包含至少一个掩码图像区域;
在一实施例中,掩码单元302可以包括区域确定子单元和区域掩码子单元,具体地:
区域确定子单元:用于根据所述图像特征提取模型的当前训练阶段,确定所述第一图像样本中的待掩码区域,所述当前训练阶段为渐进式训练阶段中的训练阶段;
区域掩码子单元:用于根据所述当前训练阶段对所述第一图像样本中的所述待掩码区域进行掩码处理,得到处理后图像样本。
(3)特征提取单元303:用于通过图像特征提取模型对所述处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到所述每个掩码图像区域对应的区域特征信息;
在一实施例中,步特征提取单元303可以包括局部特征提取子单元和联立子单元,具体地:
局部特征提取子单元:用于通过图像特征提取模型对第一图像样本中的每个局部图像区域进行局部特征提取,得到每个局部图像区域对应的局部特征信息;
联立子单元:用于基于局部特征信息,对第一图像样本中的每个掩码图像区域进行局部信息联立处理,得到每个掩码图像区域对应的区域特征信息。
(4)训练单元304:用于基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过所述图像特征提取模型对待识别图像进行图像识别。
在一实施例中,训练单元304可以包括损失计算子单元和梯度反传子单元,具体地:
损失计算子单元:用于根据区域特征信息与区域标签计算交叉熵损失;
梯度反传子单元:用于基于交叉熵损失进行梯度反传处理,以对图像特征提取模型进行训练。
在一实施例中,训练单元304可以包括目标区域确定子单元和第一模型训练子单元,具体地:
目标区域确定子单元:用于根据当前训练阶段从掩码图像区域中确定目标掩码图像区域;
第一模型训练子单元:用于基于目标掩码图像区域对应的区域标签,以及目标掩码图像区域对应的区域特征信息,对图像特征提取模型进行训练。
在一实施例中,训练单元304可以包括第一结果预测子单元、第二结果预测子单元和第二模型训练子单元,具体地:
第一结果预测子单元:用于根据处理后图像样本中的局部图像区域对应的局部区域特征信息,确定每个局部图像区域的区域预测结果;
第二结果预测子单元:用于根据每个局部区域的区域预测结果确定第一图像样本的图像预测结果;
第二模型训练子单元:用于根据图像预测结果和图像标签对图像特征提取模型进行训练,以及基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型。
在一实施例中,训练单元304可以包括第三模型训练子单元、阶段确定子单元和循环子单元,具体地:
第三模型训练子单元:用于在当前训练阶段,基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到候选图像特征提取模型;
阶段确定子单元:用于从渐进式训练阶段中确定当前训练阶段的关联训练阶段;
循环子单元:用于将关联训练阶段确定为当前训练阶段,并返回执行根据当前训练阶段对第一图像样本中的至少一个图像区域进行掩码处理,得到与当前训练阶段对应的处理后图像样本,直到图像特征提取模型收敛,得到训练后图像特征提取模型。
可选的,本申请实施例提供的图像识别装置还可以包括图像获取单元、划分单元、局部特征提取单元和结果确定单元,具体地:
图像获取单元:用于获取待识别图像;
划分单元:用于对待识别图像进行图像区域划分,得到多个图像区域;
局部特征提取单元:用于通过训练后图像特征提取模型,对多个图像区域分别进行局部特征提取,得到每个图像区域对应的局部特征信息;
结果确定单元:用于基于每个图像区域对应的局部特征信息,确定待识别图像的图像识别结果。
本申请实施例图像识别装置通过获取第一图像样本,第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,处理后图像样本包含至少一个掩码图像区域;通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息;基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过图像特征提取模型对待识别图像进行图像识别。
本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,通过图像特征提取模型对掩码图像区域进行图像语义关联特征提取,以基于非掩码图像区域对掩码图像区域进行恢复重建,对图像特征提取模型进行自监督训练,提高图像特征提取模型的特征提取能力。
本申请实施例还提供一种计算机设备,该计算机设备可以是终端,也可以是服务器,如图7所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解,图7中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器1001是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器1002内的软件程序和/或模块,以及调用存储在存储器1002内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器1001可包括一个或多个处理核心;优选的,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。
存储器1002可用于存储软件程序以及模块,处理器1001通过运行存储在存储器1002的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1002还可以包括存储器控制器,以提供处理器1001对存储器1002的访问。
计算机设备还包括给各个部件供电的电源1003,优选的,电源1003可以通过电源管理系统与处理器1001逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元1004,该输入单元1004可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器1001会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1002中,并由处理器1001来运行存储在存储器1002中的计算机程序,从而实现各种功能,如下:
由上可知,本申请实施例的计算机设备可以通过获取第一图像样本,第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;对第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,处理后图像样本包含至少一个掩码图像区域;通过图像特征提取模型对处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到每个掩码图像区域对应的区域特征信息;基于区域标签与区域特征信息对图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过图像特征提取模型对待识别图像进行图像识别。
本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,通过图像特征提取模型对掩码图像区域进行图像语义关联特征提取,以基于非掩码图像区域对掩码图像区域进行恢复重建,对图像特征提取模型进行自监督训练,提高图像特征提取模型的特征提取能力。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
本方案以图像区域为单位进行图像语义关联特征提取,可以降低其他图像区域带来的信息冗余,且针对当前训练阶段设置对应的掩码图像区域,通过图像特征提取模型对掩码图像区域进行图像语义关联特征提取,以基于非掩码图像区域对掩码图像区域进行恢复重建,对图像特征提取模型进行自监督训练,提高图像特征提取模型的特征提取能力。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序,能够被处理器进行加载,以执行本申请实施例所提供的任一种图像识别方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种图像识别方法,因此,可以实现本申请实施例所提供的任一种图像识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种图像识别方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种图像识别方法,其特征在于,包括:
获取第一图像样本,所述第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;
对所述第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,所述处理后图像样本包含至少一个掩码图像区域;
通过图像特征提取模型对所述处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到所述每个掩码图像区域对应的区域特征信息;
基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过所述图像特征提取模型对待识别图像进行图像识别。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,包括:
根据所述图像特征提取模型的当前训练阶段,确定所述第一图像样本中的待掩码区域,所述当前训练阶段为渐进式训练阶段中的训练阶段;
根据所述当前训练阶段对所述第一图像样本中的所述待掩码区域进行掩码处理,得到处理后图像样本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,包括:
在所述当前训练阶段,基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,以得到候选图像特征提取模型;
从所述渐进式训练阶段中确定所述当前训练阶段的关联训练阶段;
将所述关联训练阶段确定为所述当前训练阶段,并返回执行所述根据所述图像特征提取模型的当前训练阶段,确定所述第一图像样本中的待掩码区域;根据所述当前训练阶段对所述第一图像样本中的所述待掩码区域进行掩码处理,得到处理后图像样本,直到所述图像特征提取模型收敛,得到训练后图像特征提取模型。
4.根据权利要求3所述的方法,其特征在于,所述在所述当前训练阶段,基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,包括:
根据所述当前训练阶段从所述掩码图像区域中确定目标掩码图像区域;
基于所述目标掩码图像区域对应的区域标签,以及所述目标掩码图像区域对应的所述区域特征信息,对所述图像特征提取模型进行训练。
5.根据权利要求1所述的方法,其特征在于,所述至少一个图像区域包括局部图像区域,所述通过图像特征提取模型对所述处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到所述每个掩码图像区域对应的区域特征信息,包括:
通过所述图像特征提取模型对所述第一图像样本中的每个局部图像区域进行局部特征提取,得到所述每个局部图像区域对应的局部特征信息;
基于所述局部特征信息,对所述第一图像样本中的每个掩码图像区域进行局部信息联立处理,得到所述每个掩码图像区域对应的区域特征信息。
6.根据权利要求5所述的方法,其特征在于,所述第一图像样本对应有图像标签,所述基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,包括:
根据所述处理后图像样本中的局部图像区域对应的局部区域特征信息,确定每个所述局部图像区域的区域预测结果;
根据每个所述局部区域的区域预测结果确定所述第一图像样本的图像预测结果;
根据所述图像预测结果和所述图像标签对所述图像特征提取模型进行训练,以及基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,以得到所述训练后图像特征提取模型。
7.根据权利要求1所述的方法,其特征在于,所述获取第一图像样本,包括:
获取初始图像样本;
对所述初始图像样本进行图像区域划分,得到多个图像区域;
对所述初始图像样本中的每个图像区域进行图像编码处理,得到所述初始图像样本中每个图像区域对应的区域标签;
根据所述多个图像区域以及每个图像区域对应的区域标签,生成第一图像样本。
8.根据权利要求7所述的方法,其特征在于,所述对所述第一图像样本中每个图像区域进行图像编码处理,得到所述第一图像样本中每个图像区域对应的区域标签,包括:
通过训练后图像编码模型对所述第一图像样本中的每个图像区域进行图像编码处理,得到所述每个图像区域的区域标签。
9.根据权利要求8所述的方法,其特征在于,所述获取所述初始图像样本;之前,所述方法还包括:
获取第二图像样本;
通过图像编码模型对所述第二图像样本进行图像编码处理,得到所述第二图像样本的图像编码信息;
对所述图像编码信息进行图像还原处理,得到所述第二图像样本对应的还原图像;
基于所述第二图像样本与所述还原图像对所述图像编码模型进行训练,以得到训练后图像编码模型。
10.根据权利要求1所述的方法,其特征在于,所述基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,包括:
根据区域特征信息与区域标签计算交叉熵损失;
基于所述交叉熵损失进行梯度反传处理,以对所述图像特征提取模型进行训练。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述方法还包括:
获取待识别图像;
对所述待识别图像进行图像区域划分,得到多个图像区域;
通过训练后图像特征提取模型,对所述多个图像区域分别进行局部特征提取,得到所述每个图像区域对应的局部特征信息;
基于所述每个图像区域对应的所述局部特征信息,确定所述待识别图像的图像识别结果。
12.一种图像识别装置,其特征在于,包括:
获取单元,用于获取第一图像样本,所述第一图像样本包含至少一个图像区域以及每个图像区域对应的区域标签;
掩码单元,用于对所述第一图像样本中的至少一个图像区域进行掩码处理,得到处理后图像样本,所述处理后图像样本包含至少一个掩码图像区域;
特征提取单元,用于通过图像特征提取模型对所述处理后图像样本中的每个掩码图像区域进行图像语义关联特征提取,得到所述每个掩码图像区域对应的区域特征信息;
训练单元,用于基于所述区域标签与所述区域特征信息对所述图像特征提取模型进行训练,以得到训练后图像特征提取模型,以便通过所述图像特征提取模型对待识别图像进行图像识别。
13.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求图像识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行权利要求1至11任一项所述的图像识别方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的图像识别方法。
CN202111481611.9A 2021-12-06 2021-12-06 图像识别方法、装置、计算机设备、存储介质和产品 Pending CN114359564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111481611.9A CN114359564A (zh) 2021-12-06 2021-12-06 图像识别方法、装置、计算机设备、存储介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111481611.9A CN114359564A (zh) 2021-12-06 2021-12-06 图像识别方法、装置、计算机设备、存储介质和产品

Publications (1)

Publication Number Publication Date
CN114359564A true CN114359564A (zh) 2022-04-15

Family

ID=81097311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111481611.9A Pending CN114359564A (zh) 2021-12-06 2021-12-06 图像识别方法、装置、计算机设备、存储介质和产品

Country Status (1)

Country Link
CN (1) CN114359564A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693950A (zh) * 2022-04-22 2022-07-01 北京百度网讯科技有限公司 一种图像特征提取网络的训练方法、装置及电子设备
CN114882290A (zh) * 2022-05-27 2022-08-09 支付宝(杭州)信息技术有限公司 一种认证方法、训练方法、装置及设备
CN114997175A (zh) * 2022-05-16 2022-09-02 电子科技大学 一种基于领域对抗训练的情感分析方法
WO2024005711A1 (zh) * 2022-06-28 2024-01-04 脸萌有限公司 模型训练方法、装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693950A (zh) * 2022-04-22 2022-07-01 北京百度网讯科技有限公司 一种图像特征提取网络的训练方法、装置及电子设备
CN114693950B (zh) * 2022-04-22 2023-08-25 北京百度网讯科技有限公司 一种图像特征提取网络的训练方法、装置及电子设备
CN114997175A (zh) * 2022-05-16 2022-09-02 电子科技大学 一种基于领域对抗训练的情感分析方法
CN114882290A (zh) * 2022-05-27 2022-08-09 支付宝(杭州)信息技术有限公司 一种认证方法、训练方法、装置及设备
WO2024005711A1 (zh) * 2022-06-28 2024-01-04 脸萌有限公司 模型训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Chen et al. An edge traffic flow detection scheme based on deep learning in an intelligent transportation system
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN114359564A (zh) 图像识别方法、装置、计算机设备、存储介质和产品
CN109118519A (zh) 基于实例分割的目标Re-ID方法、系统、终端和存储介质
CN114331829A (zh) 一种对抗样本生成方法、装置、设备以及可读存储介质
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN111652181A (zh) 目标跟踪方法、装置及电子设备
CN110427802B (zh) Au检测方法、装置、电子设备及存储介质
CN113887615A (zh) 图像处理方法、装置、设备和介质
CN110096605B (zh) 图像处理方法及装置、电子设备、存储介质
CN113869205A (zh) 对象检测方法、装置、电子设备和存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN113674317B (zh) 一种高位视频的车辆跟踪方法及装置
CN112016493A (zh) 图像描述方法、装置、电子设备及存储介质
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN115082761A (zh) 模型产生装置及方法
CN112312205B (zh) 一种视频处理方法、装置、电子设备和计算机存储介质
CN115082598A (zh) 文本图像生成、训练、文本图像处理方法以及电子设备
CN112200055B (zh) 联合对抗生成网络的行人属性识别方法、系统及装置
CN116092094A (zh) 图像文本识别方法、装置、计算机可读介质及电子设备
CN113934842A (zh) 文本聚类方法、装置及可读存储介质
CN113221907A (zh) 一种车辆部件分割方法、装置、设备及存储介质
CN117540306B (zh) 一种多媒体数据的标签分类方法、装置、设备及介质
CN111144935A (zh) 基于大数据的睡眠会员唤醒方法及系统、服务器及介质
CN116611477B (zh) 数据剪枝方法和序列模型的训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071020

Country of ref document: HK