CN114708460A - 一种图像分类方法、系统、电子设备及存储介质 - Google Patents

一种图像分类方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN114708460A
CN114708460A CN202210378910.8A CN202210378910A CN114708460A CN 114708460 A CN114708460 A CN 114708460A CN 202210378910 A CN202210378910 A CN 202210378910A CN 114708460 A CN114708460 A CN 114708460A
Authority
CN
China
Prior art keywords
image classification
image
activation function
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210378910.8A
Other languages
English (en)
Other versions
CN114708460B (zh
Inventor
王薷泉
谢会斌
李聪廷
杨治昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Boguan Intelligent Technology Co Ltd
Original Assignee
Jinan Boguan Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Boguan Intelligent Technology Co Ltd filed Critical Jinan Boguan Intelligent Technology Co Ltd
Priority to CN202210378910.8A priority Critical patent/CN114708460B/zh
Publication of CN114708460A publication Critical patent/CN114708460A/zh
Application granted granted Critical
Publication of CN114708460B publication Critical patent/CN114708460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像分类方法,包括:设置图像分类模型的目标激活函数;确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别,本申请能够提高图像分类准确率。本申请还公开了一种图像分类系统、一种存储介质及一种电子设备,具有以上有益效果。

Description

一种图像分类方法、系统、电子设备及存储介质
技术领域
本申请涉及人工智能领域,特别涉及一种图像分类方法、系统、电子设备及存储介质。
背景技术
随着图像分类领域新需求的不断出现,现有的图像分类模型训练过程中场景分类越来越精细,需要模型对各种场景的包容度也越来越高,仅在普通场景有较高的识别率已经不能满足现有需求。由于常规的训练集中并没有这些特殊场景的数据,因此需要加入更全面、复杂、困难场景的训练数据,以提高模型的灵活性和泛化性。但这些复杂场景的训练数据往往和已有训练数据差别较大,当加入这种场景的数据时,常规的激活函数按通道对神经元进行相同的激活操作,丰富的训练数据没有得到充分利用,不利于提高模型的泛化性,降低了图像分类的准确率。
因此,如何提高图像分类准确率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种图像分类方法、系统、一种电子设备及一种存储介质,能够提高图像分类准确率。
为解决上述技术问题,本申请提供一种图像分类方法,该图像分类方法包括:
设置图像分类模型的目标激活函数;其中,所述目标激活函数包括自适应参数和可训练参数,所述自适应参数用于控制神经元是否进行激活操作,所述可训练参数用于控制激活操作的程度;
确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;
根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;
若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别。
可选的,根据所述样本特征矩阵计算损失函数值,包括:
将所述图像样本的样本特征矩阵与对应的样本标签矩阵相乘,得到每一所述图像样本的正确分类特征值;
将所述正确分类特征值、固定角度间隔和区间随机参数相加,得到训练样本与正确分类类中心的相似度;其中,所述区间随机参数为正态分布函数的值;
根据所述相似度计算损失函数值。
可选的,所述图像分类模型的损失函数LDelta为:
Figure BDA0003591787980000021
N为所述当前批次样本的样本数,i为第i个样本,e为自然对数,s为归一化超球体的弧度,n为类别总数,j为第j个类别,cosθyi为第i个样本的正确分类特征值,cosθj为第i个样本除了正确分类之外其他错误分类的特征值,yi为第i个样本的标签,m为角度间隔,Δ为区间随机参数。
可选的,设置图像分类模型的目标激活函数,包括:
将所述图像分类模型最后N个block的激活函数设置为所述目标激活函数。
可选的,所述目标激活函数YAda为:
Figure BDA0003591787980000022
a1和a2为所述可训练参数,β为所述自适应参数,x为所述目标激活函数的输入特征。
可选的,所述自适应参数的计算过程包括:对所述目标激活函数的输入特征在高和宽两个维度上进行全局平均池化操作得到目标特征,对所述目标特征执行卷积计算得到所述自适应参数;
相应的,还包括:
根据所述自适应参数和所述目标激活函数的输入特征,计算目标激活函数值。
可选的,对所述目标特征执行卷积计算得到所述自适应参数,包括:
对所述目标特征执行输出通道为C/r和C的1×1卷积计算,得到所述自适应参数;C为所述目标激活函数的输入特征的通道数,r为缩放系数。
本申请还提供了一种图像分类系统,该系统包括:
激活参数设置模块,用于设置图像分类模型的目标激活函数;其中,所述目标激活函数包括自适应参数和可训练参数,所述自适应参数用于控制神经元是否进行激活操作,所述可训练参数用于控制激活操作的程度;
激活函数模块,用于确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;
更新模块,用于根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;
分类模块,用于若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述图像分类方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述图像分类方法执行的步骤。
本申请提供了一种图像分类方法,包括:设置图像分类模型的目标激活函数;其中,所述目标激活函数包括自适应参数和可训练参数,所述自适应参数用于控制神经元是否进行激活操作,所述可训练参数用于控制激活操作的程度;确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别。
本申请设置图像分类模型的目标激活函数,目标激活函数包括自适应参数和可训练参数。在确定当前批次样本后可以利用上述目标激活函数得到对应的样本特征矩阵。由于激活函数中的自适应参数可以控制神经元是否进行激活操作,可训练参数可以控制激活操作的程度,图像分类模型能够对当前批次样本选择是否进行激活以及进行何种程度的激活操作,进而充分利用当前批次样本。通过上述方式训练得到的图像分类模型具有较好的泛化性,能够提高图像分类准确率。本申请同时还提供了一种图像分类系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种图像分类方法的流程图;
图2为本申请实施例所提供的一种Arcface loss的分类边界划分示意图;
图3为本申请实施例所提供的一种Delta_arcface loss的分类边界划分示意图;
图4为本申请实施例所提供的一种图像分类系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种图像分类方法的流程图。
具体步骤可以包括:
S101:设置图像分类模型的目标激活函数;
其中,本实施例可以应用于包含图像分类模型的电子设备,在本步骤中可以设置图像分类模型的目标激活函数,上述目标激活函数包括自适应参数和可训练参数,所述自适应参数用于控制神经元是否进行激活操作,所述可训练参数用于控制激活操作的程度。上述包括自适应参数和可训练参数的目标激活函数能够选择是否执行激活操作,也能够选择执行激活操作的程度。
S102:确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;
其中,本步骤可以从样本集中选取当前批次样本,上述当前批次样本中的样本具体可以为包含标签的图像。本实施例可以利用所述目标激活函数计算所述当前批次样本中每一样本对应的样本特征矩阵。
S103:根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;
其中,在得到样本特征矩阵之后可以利用图像分类模型的损失函数计算损失函数值,进而利用损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型。具体的,本实施例可以存在多次迭代训练图像分类模型的操作,在利用所述损失函数值更新所述图像分类模型的网络参数之后,可以确定新的当前批次样本,进而重复执行S102~S103的相关操作,直至符合迭代终止条件。
S104:若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别。
其中,未知图像为不确定图像类别的图像,本步骤可以将未知图像输入训练后的图像分类模型,进而得到未知图像的图像类别。
本实施例设置图像分类模型的目标激活函数,目标激活函数包括自适应参数和可训练参数。在确定当前批次样本后可以利用上述激活函数得到对应的样本特征矩阵。由于激活函数中的自适应参数可以控制神经元是否进行激活操作,可训练参数可以控制激活操作的程度,图像分类模型能够对当前批次样本选择是否进行激活以及进行何种程度的激活操作,进而充分利用当前批次样本。通过上述方式训练得到的图像分类模型具有较好的泛化性,能够提高图像分类准确率。
作为对于图1对应实施例的进一步介绍,由于目标激活函数中存在可训练参数,因此模型参数量会增大。图像分类模型中通常存在多个block,若每一个block都设置目标激活函数会使网络参数会变得非常巨大,影响图像分类模型的正常训练,因此本实施例可以将所述图像分类模型最后N个block的激活函数设置为所述目标激活函数。上述N的值可以为2、3或4。
本实施例可以在已有的激活函数的基础上进行调整得到目标激活函数,基于Prelu构建的目标激活函数YAda为:
Figure BDA0003591787980000061
a1和a2为所述可训练参数,β为所述自适应参数(β为0时则不执行激活操作),x为所述目标激活函数的输入特征,σ为sigmoid函数。
具体的,上述自适应参数的计算过程包括:对所述目标激活函数的输入特征在高和宽两个维度上进行全局平均池化操作得到目标特征,对所述目标特征执行卷积计算得到所述自适应参数。本实施例还可以根据所述自适应参数和所述目标激活函数的输入特征,计算目标激活函数值。上述对所述目标特征执行卷积计算得到所述自适应参数的过程为:对所述目标特征执行输出通道为C/r和C的1×1卷积计算,得到所述自适应参数;C为所述目标激活函数的输入特征的通道数,r为缩放系数。
上述实施例提供一种图像分类模型的激活函数,上述目标激活函数能够基于当前输入的训练数据训练更新自适应参数,调整识别网络中的神经元是否进行激活操作,以及进行何种程度的激活操作,进而提高了模型的识别率。本实施例提出的目标激活函数可以在Resnet结构中替换一部分原来的激活函数,以降低模型参数量。在实际应用中,上述图像分类模型可以为人脸识别模型,通过为人脸识别模型设置上述目标激活函数可以避免模型参数量激增的前提下提高人脸识别的准确率。
作为对于图1对应实施例的进一步介绍,可以通过以下方式计算损失函数值:将所述图像样本的样本特征矩阵与对应的样本标签矩阵相乘,得到每一所述图像样本的正确分类特征值;将所述正确分类特征值、固定角度间隔和区间随机参数相加,得到训练样本与正确分类类中心的相似度;其中,所述区间随机参数为正态分布函数的值;根据所述相似度计算损失函数值。
上述图像分类模型的损失函数LDelta为:
Figure BDA0003591787980000071
N为所述当前批次样本的样本数,i为第i个样本,e为自然对数,s为归一化超球体的弧度,n为类别总数,j为第j个类别,cosθyi为第i个样本的正确分类特征值,cosθj为第i个样本除了正确分类之外其他错误分类的特征值,yi为第i个样本的标签,m为角度间隔,Δ为区间随机参数。
上述实施例提供一种图像分类模型的训练方法,该图像分类模型基于一种可以提高分类灵活性的损失函数训练得到,以人脸识别模型为例,该损失函数通过加入区间随机参数,更好的调节类内及类间的距离划分,最终提升人脸识别模型的分类精确性和准确性,对以图搜图及戴口罩场景效果更佳。上述损失函数可以存在于网络结构的分类层之后,其实现和存在均不影响识别网络的任何部分,因此可用于如SENet、GCNet等其他网络结构,亦可在显存等性能更高时,替换更多部分,以便适用于多种识别网络及多种训练环境。
下面通过在实际应用中图像分类模型为人脸识别模型为例说明上述实施例描述的流程。
人脸识别广义上来讲是一个分类任务,训练时将一个人当成一个类,使不同人之间尽量在特征空间中分开。传统的分类任务是一个闭集任务,也就是说训练时的分类数和使用时是一样的,只需要类与类之间有一个清晰地分界线即可。而通过深度学习进行的人脸识别不同于传统意义上的分类任务,首先人脸识别任务的训练分类数和使用时不同,是一个开集任务;其次因为识别分类的多样性,人脸识别任务需要通过更多层的网络结构来提取高维人脸特征。在深度学习的探究过程中,发现深度的扩展远远比广度的扩展效果好,因为越往后的神经元学习特征的抽象程度越高。但事实上,太深的卷积神经网络模型准确率反而会下降,原因是由于乘法传递的原因,深度越深,导致的梯度消失、梯度爆炸的问题会越严重。而残差网络Resnet通过残差学习,使得信息更容易在各层之间流动,在前向传播时提供特征重用,反向传播时缓解梯度消失。因此本领域选择Resnet进行人脸识别模型训练。
通过Resnet结构组成的人脸识别网络中,激活函数和损失函数都是不可或缺的:通过多层的残差网络结构来提取高维人脸特征最终传给损失函数来对相似的人脸特征进行聚集,通过优化后得到人脸识别模型。而在之后的测试中,测试图片与底库照片分别通过模型得到高维特征进行比对,相似度大于一定阈值才能判定为同一个人。因此,损失函数在人脸识别过程中拥有起承转合的作用;而激活函数为整个网络引入了非线性,强化了网络的学习能力。
随着人脸识别领域新需求的不断出现,现有的人脸识别模型训练过程中,对人种、场景以及年龄段的分类越来越精细,需要模型对各种场景的包容度也越来越高,仅在普通场景有较高的识别率已经不能满足现有需求,还需要在不同地区/肤色的人种、小像素、戴口罩、以图搜图、监控、门禁等使用场景内,都有较好的识别表现。由于常规的训练集中并没有这些特殊场景的数据,因此需要加入更全面、复杂、困难场景的训练数据,以提高模型的灵活性和泛化性。但这些复杂场景的训练数据往往和已有训练数据差别较大,因此当加入这种场景的数据时,损失函数和激活函数都会遇到不同的问题。
现有方案中人脸识别模型的损失函数如Cos_Face、Arcface等,继承了softmax分类损失函数的思想,并通过加入margin来最小化类内距离以及最大化类间距离,但由于加入的是固定值的margin,因而训练过程中所有数据被同等对待,各分类的类内和类间都被施加相同的约束,而新加入的数据和常规训练数据差异较大,容易限制人脸识别模型的判断能力及鲁棒性。另一方面,人脸识别模型常用的激活函数如relu、prelu等,一般是在通道维进行激活操作,每个通道的所有神经元都会参与相同程度的激活,但是上述方式没有充分利用样本的多样性。
针对上述常用人脸识别模型存在的缺陷,本实施例提供了一种更能充分利用数据多样性、赋予模型灵活性的人脸识别模型训练方法。在选取已有残差网络的基础上,将人脸识别网络中的损失函数及部分激活函数模块进行了改进:加入区间随机参数,使得margin的在一定范围内变化,用更灵活的方式去强化类内紧凑度以及类间的区分度;根据每个mini-batch中不同的训练样本,自适应地调节激活函数中的可训练参数,以实现对各种场景训练数据的最大程度利用。加入新的损失函数与激活函数模块后训练的人脸识别模型,提升了模型泛化性和稳定性,在各个场景的识别率都有所提升,对以图搜图、戴口罩识别场景的识别率提升效果更好。mini-batch指批大小,即每次训练迭代前选取的样本数量,选取后把该批次的样本送入网络,算出它们对应的参数调整值,最后将所有的调整值取平均作为最后的调整值,以此更新优化网络参数。
本实施例的主要目的是为了人脸识别模型在提升以图搜图、戴口罩、小像素场景的识别率。要提升这些复杂场景的识别率,提升模型的灵活性以及泛化性,必须加入更多的类似场景训练数据,并加强对这些训练数据的利用。但是这些新加入的数据与之前常规场景的训练数据反差较大,各类内以及类间的差异也是参差不齐,如果还使用像arcface这样固定角度间隔margin的损失函数,会让模型不能很好的学到这种差异性,最终限制模型的灵活性和辨别能力;如果还使用像prelu这样的激活函数,就不能充分利用这些新加入数据中具有代表性的特征,最终影响模型的泛化性以及识别率。因此,本实施例的主要改进点是对人脸识别模型的损失函数和激活函数进行调整。
对损失函数的改进说明如下:
常规的损失函数,如Arcface、Cosface等,主要是在Softmax函数的基础上,对正确分类的θ加入了角度间隔m(即margin),进而对应归一化超球体中的弧度,最终达到更严格的划分分类界限的目的。Arcface的分类边界划分如图2所示,m为一个固定值的超参数,Class1和Class2为两个分类,因此所有输入的训练数据都被施加一个相同的约束。当训练集分类数较大时,各分类的差异也会非常大,类内距和类间距也会因此有较大差距,如果使用固定的margin,将非常不利于提升模型泛化性。针对上述问题,本实施例提出了新的损失函数Delta_arcface loss,定义了区间随机参数Δ,使得损失函数的角度间隔m能在一定的范围内变化,利用新的随机角度间隔,让识别模型在分类学习中更加具有灵活性及普遍性,其的分类边界划分如图3所示:
损失函数Delta_arcface loss的函数表达式如下所示:
Figure BDA0003591787980000091
其中,Δ是一个服从均值为0、标准差为σ的正态分布函数,当训练数据的高维特征输入Delta_arcface loss后,正确分类的θyi加入了角度间隔m以及随机间隔算子Δ,每一个Mini-Batch中任一训练样本的分类边界都根据Δ来随机选取。当σ=0时,Delta_arcfaceloss就相当于原来的Arcface loss。使用numpy实现Δ的方式如下:
Delta=np.random_normal(loc=0.0,scale=0.05,size=(cfg.batch_size,1))。
经过区间随机参数Δ调节后,类内的紧凑度及类间的区分度都变得更加的灵活,人脸识别模型的泛化性也会更加好。
损失函数Delta_arcface loss的更新过程包括:
步骤A1:定义区间随机参数Δ并进行初始化。在本实施例中,可以设定Δ为服从正态分布的随机数,均值为0,标准差为0.05。
步骤A2:将人脸识别前向网络输出的当前训练批次归一化样本特征矩阵与当前训练批次样本标签矩阵相乘,得到每个样本的正确分类特征值。
步骤A3:将步骤A2中得到的正确分类特征与固定角度间隔m及区间随机参数Δ相加,得到新的训练样本与正确分类类中心的余弦相似度。
步骤A4:在参数更新后,求出当前Delta_arcface loss的值,合入Loss_op后利用优化器更新网络参数。Loss_op为人脸识别模型的总损失函数。
对激活函数的改进说明如下:
常用的激活函数如Prelu给了x<0部分一个可学习梯度参数α,可以使得x<0部分的有效特征得以保留。但其对每个通道内的神经元施加相同的激活操作,不能使新加入的复杂场景训练数据得到充分利用。针对上述缺陷,本实施例提出了目标激活函数Ada_Prelu。Ada_Prelu的函数表达式如下:
Figure BDA0003591787980000101
其中,σ为sigmoid函数,β为尺寸为(N,1,1,C)的自适应参数,控制是否激活该通道的神经元(β为0则不激活)。
Figure BDA0003591787980000102
C1是输出通道为C/r的1x1卷积,C2是输出通道为C的1x1卷积,r为缩放系数。本实施例先对x在H和W维上求均值,再经过两个1x1卷积,最后有sigmoid函数得到一个(0,1)之间的数,用于控制是否激活。使用Tensorflow实现方式如下:
x_mean=tf.nn.avg_pool(X_input,ksize=[1,k,k,1],strides=[1,1,1,1],padding=’VALID’)
x_mean=tf.layers.conv2d(x_mean,filters=filters/16,kernel_size=1,padding=’SAME’,use_bias=False,trainable=training,kernel_regularizer=tfc.layers.l2_regularizer(cfg.weight_decay),name=’ada_con1’)
x_mean=tf.layers.conv2d(x_mean,filters=filters,kernel_size=1,padding=’SAME’,use_bias=False,trainable=training,kernel_regularizer=tfc.layers.l2_regularizer(cfg.weight_decay),name=’ada_con2’)
beta=tf.nn.sigmoid(x_mean,name=’ada_sig1’)
a1和a2是可训练参数,对激活函数进行自适应调整,最终激活函数的实现如下所示:
S=tf.square(a1)-2*a2)*x*tf.nn.sigmoid(beta*(tf.square(a1)-2*a2)*x)+2*a2*x.
在本实施例中,Ada_Prelu内加入了可训练参数,因此模型参数量会略微增大,如果在每一个block内将每一个Prelu都改成Ada_Prelu。那么网络参数会变得非常巨大,目前的训练环境无法训练。本实施例中在最后一个stage的3个block中,将Prelu模块替换为上述Ada_Prelu模块。这样训练出的模型大小只增加了0.3M。上述方式仅仅增加了激活函数的部分可训练参数,没有增加复杂、难以兼容的函数,且模型大小仅仅增加了0.3M,因此可以在提升模型识别率的同时,正常进行产品化等后续操作。
激活函数Ada_Prelu的更新过程包括:
步骤B1:定义自适应参数β,可训练参数a1和a2并进行初始化。在本实施例中,可以设定各参数的初始值为:a1=1,a2=0.25。
步骤B2:对输入Ada_Prelu模块的特征在高H和宽W两个维度上进行全局平均池化,使得每个通道的特征共享一个权重,得到的特征进行两次1x1卷积,求出β的值。
步骤B3:将步骤B2中得到的β,与可训练参数a1和a2进行组合,得到Ada_Prelu激活函数的输出特征。
将β、a1和a2组合可以得到:
Figure BDA0003591787980000111
步骤B4:将最后3个block中的Prelu模块更新为Ada_Prelu模块,得到的高维特征送入Delta_arcface loss中,优化识别网络参数。
为了验证本发明改进后的人脸识别模型的有效性,本实施例选用两个测试集进行测试:1.25万类的动态人脸数据作为测试底库,首先用底库和6800张错误集人脸图片卡出误识率的阈值,之后在0.1%误识率的阈值条件下,选用22000张测试图片进行测试;2.45万张以图搜图场景图片作为测试底库,选用1454张机非人测试图片和350张戴口罩测试图片,分别测试图搜场景top1、top5识别率。识别结果如表1所示:
表1识别率对比表
Figure BDA0003591787980000121
从表1中可以看出,本实施例提出的Delta_arcface loss和Ada_Prelu模块训练出的模型相比常规的基线模型,各场景识别率都有了一定程度的提升,之前较为薄弱的图搜场景以及戴口罩场景识别率有了明显的提升。可见本实施例提出的损失函数和激活函数可以显著提升各种场景的人脸识别率,且显著提高了模型泛化性。
本实施例通过充分利用不同场景、不同时间段以及不同年龄段人群中收集的训练数据,将各个数据实例的特征与mini-batch中更新的统计信息更好的结合在一起,让数据特征处于稳定分布的同时,可以更灵活的对类内和类间距进行调整,并通过有代表性的特征自适应地进行参数调整,重点解决人脸识别模型在以图搜图、戴口罩等复杂场景识别率较低的问题,最终达到优化模型识别率的目的。在新的损失函数中,定义了区间随机参数Δ,使得损失函数的margin能在一定的范围内变化,最终让模型更加灵活的控制类内紧凑度以及类间区分度;在新的激活函数模块中,定义了可训练参数β、a1、a2,利用输入特征自适应地调整β、a1、a2的值,最后用β来控制神经元是否进行激活,用a1、a2控制激活操作的程度。通过这些可训练参数,达到自适应利用训练样本特征多样性进行人脸识别模型优化的目的。
请参见图4,图4为本申请实施例所提供的一种图像分类系统的结构示意图;
该系统可以包括:
激活参数设置模块401,用于设置图像分类模型的目标激活函数;其中,所述目标激活函数包括自适应参数和可训练参数,所述自适应参数用于控制神经元是否进行激活操作,所述可训练参数用于控制激活操作的程度;
激活函数模块402,用于确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;
更新模块403,用于根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;
分类模块404,用于若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别。
本申请设置图像分类模型的目标激活函数,目标激活函数包括自适应参数和可训练参数。在确定当前批次样本后可以利用上述激活函数得到对应的样本特征矩阵。由于激活函数中的自适应参数可以控制神经元是否进行激活操作,可训练参数可以控制激活操作的程度,图像分类模型能够对当前批次样本选择是否进行激活以及进行何种程度的激活操作,进而充分利用当前批次样本。通过上述方式训练得到的图像分类模型具有较好的泛化性,能够提高图像分类准确率。
进一步的,更新模块403根据所述样本特征矩阵计算损失函数值的过程包括:将所述图像样本的样本特征矩阵与对应的样本标签矩阵相乘,得到每一所述图像样本的正确分类特征值;将所述正确分类特征值、固定角度间隔和区间随机参数相加,得到训练样本与正确分类类中心的相似度;其中,所述区间随机参数为正态分布函数的值;根据所述相似度计算损失函数值。
进一步的,所述图像分类模型的损失函数LDelta为:
Figure BDA0003591787980000131
N为所述当前批次样本的样本数,i为第i个样本,e为自然对数,s为归一化超球体的弧度,n为类别总数,j为第j个类别,cosθyi为第i个样本的正确分类特征值,cosθj为第i个样本除了正确分类之外其他错误分类的特征值,yi为第i个样本的标签,m为角度间隔,Δ为区间随机参数。
进一步的,激活参数设置模块401用于将所述图像分类模型最后N个block的激活函数设置为所述目标激活函数。
进一步的,所述目标激活函数YAda为:
Figure BDA0003591787980000141
a1和a2为所述可训练参数,β为所述自适应参数,x为所述目标激活函数的输入特征。
进一步的,还包括:
自适应参数计算模块,用于对所述目标激活函数的输入特征在高和宽两个维度上进行全局平均池化操作得到目标特征,对所述目标特征执行卷积计算得到所述自适应参数;
函数值计算模块,用于根据所述自适应参数和所述目标激活函数的输入特征,计算目标激活函数值。
进一步的,自适应参数计算模块对所述目标特征执行卷积计算得到所述自适应参数的过程包括:对所述目标特征执行输出通道为C/r和C的1×1卷积计算,得到所述自适应参数;C为所述目标激活函数的输入特征的通道数,r为缩放系数。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种图像分类方法,其特征在于,包括:
设置图像分类模型的目标激活函数;其中,所述目标激活函数包括自适应参数和可训练参数,所述自适应参数用于控制神经元是否进行激活操作,所述可训练参数用于控制激活操作的程度;
确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;
根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;
若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别。
2.根据权利要求1所述图像分类方法,其特征在于,根据所述样本特征矩阵计算损失函数值,包括:
将所述图像样本的样本特征矩阵与对应的样本标签矩阵相乘,得到每一所述图像样本的正确分类特征值;
将所述正确分类特征值、固定角度间隔和区间随机参数相加,得到训练样本与正确分类类中心的相似度;其中,所述区间随机参数为正态分布函数的值;
根据所述相似度计算损失函数值。
3.根据权利要求2所述图像分类方法,其特征在于,所述图像分类模型的损失函数LDelta为:
Figure FDA0003591787970000011
N为所述当前批次样本的样本数,i为第i个样本,e为自然对数,s为归一化超球体的弧度,n为类别总数,j为第j个类别,cosθyi为第i个样本的正确分类特征值,cosθj为第i个样本除了正确分类之外其他错误分类的特征值,yi为第i个样本的标签,m为角度间隔,Δ为区间随机参数。
4.根据权利要求1所述图像分类方法,其特征在于,所述设置图像分类模型的目标激活函数,包括:
将所述图像分类模型最后N个block的激活函数设置为所述目标激活函数。
5.根据权利要求1所述图像分类方法,其特征在于,所述目标激活函数YAda为:
Figure FDA0003591787970000021
a1和a2为所述可训练参数,β为所述自适应参数,x为所述目标激活函数的输入特征,σ为sigmoid函数。
6.根据权利要求1所述图像分类方法,其特征在于,所述自适应参数的计算过程包括:对所述目标激活函数的输入特征在高和宽两个维度上进行全局平均池化操作得到目标特征,对所述目标特征执行卷积计算得到所述自适应参数;
相应的,还包括:
根据所述自适应参数和所述目标激活函数的输入特征,计算目标激活函数值。
7.根据权利要求6所述图像分类方法,其特征在于,对所述目标特征执行卷积计算得到所述自适应参数,包括:
对所述目标特征执行输出通道为C/r和C的1×1卷积计算,得到所述自适应参数;C为所述目标激活函数的输入特征的通道数,r为缩放系数。
8.一种图像分类系统,其特征在于,包括:
激活参数设置模块,用于设置图像分类模型的目标激活函数;其中,所述目标激活函数包括自适应参数和可训练参数,所述自适应参数用于控制神经元是否进行激活操作,所述可训练参数用于控制激活操作的程度;
激活函数模块,用于确定当前批次样本,并利用所述目标激活函数计算所述当前批次样本对应的样本特征矩阵;
更新模块,用于根据所述样本特征矩阵计算损失函数值,并利用所述损失函数值更新所述图像分类模型的网络参数,以便训练所述图像分类模型;
分类模块,用于若接收到未知图像,则利用训练后的图像分类模型输出所述未知图像的图像类别。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述图像分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述图像分类方法的步骤。
CN202210378910.8A 2022-04-12 2022-04-12 一种图像分类方法、系统、电子设备及存储介质 Active CN114708460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210378910.8A CN114708460B (zh) 2022-04-12 2022-04-12 一种图像分类方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210378910.8A CN114708460B (zh) 2022-04-12 2022-04-12 一种图像分类方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114708460A true CN114708460A (zh) 2022-07-05
CN114708460B CN114708460B (zh) 2024-09-17

Family

ID=82174374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210378910.8A Active CN114708460B (zh) 2022-04-12 2022-04-12 一种图像分类方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114708460B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485259A (zh) * 2015-08-26 2017-03-08 华东师范大学 一种基于高约束高分散主成分分析网络的图像分类方法
CN108665460A (zh) * 2018-05-23 2018-10-16 浙江科技学院 基于组合神经网络和分类神经网络的图像质量评价方法
CN108898213A (zh) * 2018-06-19 2018-11-27 浙江工业大学 一种面向深度神经网络的自适应激活函数参数调节方法
US20190266731A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Image segmentation method and device
CN112215292A (zh) * 2020-10-19 2021-01-12 电子科技大学 一种基于迁移性的图像对抗样本生成装置及方法
CN112270343A (zh) * 2020-10-16 2021-01-26 苏州浪潮智能科技有限公司 一种图像分类方法、装置及相关组件
CN112329619A (zh) * 2020-11-04 2021-02-05 济南博观智能科技有限公司 一种人脸识别方法、装置、电子设备及可读存储介质
CN113297572A (zh) * 2021-06-03 2021-08-24 浙江工业大学 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置
US20210279528A1 (en) * 2020-03-03 2021-09-09 Assa Abloy Ab Systems and methods for fine tuning image classification neural networks
WO2021218060A1 (zh) * 2020-04-29 2021-11-04 深圳英飞拓智能技术有限公司 基于深度学习的人脸识别方法及装置
CN113919497A (zh) * 2021-10-25 2022-01-11 中国科学院自动化研究所 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN114118369A (zh) * 2021-11-19 2022-03-01 西南石油大学 一种基于群智能优化的图像分类卷积神经网络设计方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485259A (zh) * 2015-08-26 2017-03-08 华东师范大学 一种基于高约束高分散主成分分析网络的图像分类方法
US20190266731A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Image segmentation method and device
CN108665460A (zh) * 2018-05-23 2018-10-16 浙江科技学院 基于组合神经网络和分类神经网络的图像质量评价方法
CN108898213A (zh) * 2018-06-19 2018-11-27 浙江工业大学 一种面向深度神经网络的自适应激活函数参数调节方法
US20210279528A1 (en) * 2020-03-03 2021-09-09 Assa Abloy Ab Systems and methods for fine tuning image classification neural networks
WO2021218060A1 (zh) * 2020-04-29 2021-11-04 深圳英飞拓智能技术有限公司 基于深度学习的人脸识别方法及装置
CN112270343A (zh) * 2020-10-16 2021-01-26 苏州浪潮智能科技有限公司 一种图像分类方法、装置及相关组件
CN112215292A (zh) * 2020-10-19 2021-01-12 电子科技大学 一种基于迁移性的图像对抗样本生成装置及方法
CN112329619A (zh) * 2020-11-04 2021-02-05 济南博观智能科技有限公司 一种人脸识别方法、装置、电子设备及可读存储介质
CN113297572A (zh) * 2021-06-03 2021-08-24 浙江工业大学 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置
CN113919497A (zh) * 2021-10-25 2022-01-11 中国科学院自动化研究所 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN114118369A (zh) * 2021-11-19 2022-03-01 西南石油大学 一种基于群智能优化的图像分类卷积神经网络设计方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DE-JIA ZHOU: "Simulation for Harmonic Analysis of an Integrated Power System.", ASIASIM/SCS AUTUMNSIM, 31 December 2016 (2016-12-31) *
MICHAEL COGSWELL: "Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 25 December 2017 (2017-12-25) *
杨国亮;王志元;张雨;: "一种改进的深度卷积神经网络的精细图像分类", 江西师范大学学报(自然科学版), no. 05, 15 September 2017 (2017-09-15) *
王灵矫: "A Research on Deep Learning Model for Face Emotion Recognition Based on Swish Activation Function", 《图像与信号处理 VOL. 8 NO. 3》, 31 July 2019 (2019-07-31) *
王薷泉: "基于多参考帧假设集合优化选择的压缩感知重构算法", 信息科技辑, 30 April 2018 (2018-04-30) *
田佳鹭;邓立国;: "基于改进VGG16的猴子图像分类方法", 信息技术与网络安全, no. 05, 10 May 2020 (2020-05-10) *
黄旭;凌志刚;李绣心;: "融合判别式深度特征学习的图像识别算法", 中国图象图形学报, no. 04, 16 April 2018 (2018-04-16) *

Also Published As

Publication number Publication date
CN114708460B (zh) 2024-09-17

Similar Documents

Publication Publication Date Title
Deng et al. Active transfer learning network: A unified deep joint spectral–spatial feature learning model for hyperspectral image classification
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN111259738B (zh) 人脸识别模型构建方法、人脸识别方法及相关装置
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN110555399B (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
CN105488528B (zh) 基于改进自适应遗传算法的神经网络图像分类方法
JP7376731B2 (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
CN108182427A (zh) 一种基于深度学习模型和迁移学习的人脸识别方法
Mehrkanoon et al. Multiclass semisupervised learning based upon kernel spectral clustering
CN113468227B (zh) 基于图神经网络的信息推荐方法、系统、设备和存储介质
CN109034034A (zh) 一种基于强化学习算法优化卷积神经网络的静脉识别方法
CN113761261A (zh) 图像检索方法、装置、计算机可读介质及电子设备
CN111241992A (zh) 人脸识别模型构建方法、识别方法、装置、设备及存储介质
CN115908984B (zh) 图像聚类模型的训练方法及装置
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN110188864B (zh) 基于分布表示和分布度量的小样本学习方法
CN116542701A (zh) 一种基于cnn-lstm组合模型的碳价预测方法及系统
CN109034279B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN111737688B (zh) 基于用户画像的攻击防御系统
CN111783688A (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN114708460B (zh) 一种图像分类方法、系统、电子设备及存储介质
CN114463646B (zh) 一种基于多头自注意力卷积神经网络的遥感场景分类方法
CN115587313A (zh) 一种轨迹数据半监督分类方法及装置
CN111860556A (zh) 一种模型的处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant