CN111931592A

CN111931592A - 对象识别方法、装置及存储介质

Info

Publication number: CN111931592A
Application number: CN202010683985.8A
Authority: CN
Inventors: 史晓丽; 晋兆龙; 张震国
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-13
Anticipated expiration: 2040-07-16
Also published as: CN111931592B

Abstract

本申请涉及一种对象识别方法、装置及存储介质，属于计算机技术领域，该方法包括：将目标图像输入对象识别模型得到目标图像的对象特征和属性分类结果；对象识别模型是使用多组样本数据对神经网络模型进行多级训练得到的，每组样本数据包括样本图像、样本图像的类别标签和属性标签；在属性分类结果对应的目标特征库中搜索与对象特征相匹配的模板特征，得到该模板特征对应的对象类别信息；由于对象识别模型共同学习了对象特征和对象属性两种任务，在训练时对象特征和对象属性可以相互辅助以提高模型性能；两种任务网络参数共享可以减少模型个数、提高提取特征速度；从目标特征库中查找模板特征可以减少比对次数，提高匹配效率。

Description

对象识别方法、装置及存储介质

技术领域

本申请涉及一种对象识别方法、装置及存储介质，属于计算机技术领域。

背景技术

人脸识别实现了图像或视频中人脸的检测、分析和比对，包括人脸检测定位、人脸特征提取和人脸比对等服务模块。

现有的人脸识别方式包括使用基于深度学习的人脸识别模型对图像进行人脸识别。这种识别方式在控制和配合条件下，人脸识别可以取得比较高的识别率，但是在运动、光照、姿态等存在巨大变化、以及清晰度低下等场景下，识别准确率急剧下降。

发明内容

本申请提供了一种对象识别方法、装置及存储介质，可以解决如何提升现有的对象识别模型的识别结果准确率的问题。本申请提供如下技术方案：

第一方面，提供了一种对象识别方法，所述方法包括：

获取目标图像；

将所述目标图像输入对象识别模型，得到所述目标图像的对象特征和属性分类结果；所述对象识别模型是使用多组样本数据对神经网络模型进行多级训练得到的，每组样本数据包括样本图像、所述样本图像的类别标签和属性标签；

确定所述属性分类结果对应的目标特征库；

在所述目标特征库中搜索与所述对象特征相匹配的模板特征；

将所述模板特征对应的对象类别信息确定为所述目标图像的对象类别结果。

可选地，所述获取目标图像，包括：

对原始图像进行对象检测，得到所述原始图像中的对象关键点；

基于所述对象关键点在所述原始图像中的位置，将所述原始图像缩放至预设尺寸，得到所述目标图像。

可选地，所述将所述目标图像输入对象识别模型，得到所述目标图像的对象特征和属性识别结果之前，还包括；

使用所述多组样本数据对所述神经网络模型进行多级训练，得到所述对象识别模型；

其中，至少存在相邻的两级训练对应的学习率逐级下降；存在至少两级训练使用的损失函数不同。

可选地，所述多级训练包括第一级训练和第二级训练，所述使用多组样本数据对所述神经网络模型进行多级训练，得到所述对象识别模型，包括：

将所述多组样本数据中的样本图像输入所述神经网络模型，得到第一模型输出结果；所述神经网络模型包括第一特征提取层、位于所述第一特征提取层之后的属性分类层和位于所述第一特征提取层和所述属性分类层之后的第二特征提取层，所述第一特征提取层用于提取所述样本图像中的对象特征，得到中间特征；所述属性分类层用于基于所述中间特征确定属性分类，得到第一属性训练结果；所述第二特征提取层用于基于所述中间特征和所述第一属性训练结果提取第一训练特征，所述第一模型输出结果包括所述第一训练特征和所述第一属性训练结果；

将所述第一训练特征和所述样本图像对应的类别标签输入第一对象识别损失函数，得到第一函数结果；

将所述第一属性训练结果和所述样本图像对应的属性标签输入属性分类损失函数，得到第二函数结果；

根据所述第一函数结果和所述第二函数结果按照第一学习率对所述神经网络模型进行第一级训练，得到第一神经网络模型；

将所述多组样本数据中的样本图像输入所述第一神经网络模型，得到第二模型输出结果；所述第二模型输出结果包括所述第二训练特征和所述第二属性训练结果；

将所述第二训练特征和所述样本图像对应的类别标签分别输入所述第一对象识别损失函数和第二对象识别损失函数，得到第三函数结果和第四函数结果；

将所述第二属性训练结果和所述样本图像对应的属性标签输入属性分类损失函数，得到第五函数结果；

根据所述得到第三函数结果、第四函数结果和所述第五函数结果按照第二学习率对所述第一神经网络模型进行第二级训练，得到所述对象识别模型。

可选地，所述第一对象识别损失函数为ArcFace损失函数，所述ArcFace损失函数通过下式表示：

其中，N为样本图像的总数，i为第i个样本图像，y_i为第i个样本图像所属的类别标签，s为缩放系数，θ为网络模型的权重向量和所述第i个样本图像的训练特征的特征向量之间的角度间隔，t为角度边缘；所述训练特征包括所述第一训练特征和所述第二训练特征；1≤i≤N。

可选地，所述第二对象识别损失函数为Tripletloss函数，所述Tripletloss函数通过下式表示：

其中，N为样本图像的总数，

为第i个样本图像的训练特征，

为与第i个样本图像属于同一类别的样本图像的训练特征，

为与第i个样本图像属于不同类别的样本图像的训练特征；所述训练特征包括所述第一训练特征和所述第二训练特征；1≤i≤N。

可选地，所述多组样本数据中的样本图像的图像尺寸为预设尺寸，所述预设尺寸为所述目标图像的图像尺寸。

第二方面，提供了一种对象识别装置，所述装置包括：

图像获取模块，用于获取目标图像；

模型计算模块，用于将所述目标图像输入对象识别模型，得到所述目标图像的对象特征和属性分类结果；所述对象识别模型是使用多组样本数据对神经网络模型进行多级训练得到的，每组样本数据包括样本图像、所述样本图像的类别标签和属性标签；

特征库确定模块，用于确定所述属性分类结果对应的目标特征库；

特征匹配模块，用于在所述目标特征库中搜索与所述对象特征相匹配的模板特征；

对象识别模块，用于将所述模板特征对应的对象类别信息确定为所述目标图像的对象类别结果。

第三方面，提供一种对象识别装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的对象识别方法。

第四方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的对象识别方法。

本申请的有益效果在于：通过获取目标图像；将目标图像输入对象识别模型，得到目标图像的对象特征和属性分类结果；对象识别模型是使用多组样本数据对神经网络模型进行多级训练得到的，每组样本数据包括样本图像、样本图像的类别标签和属性标签；确定属性分类结果对应的目标特征库；在目标特征库中搜索与对象特征相匹配的模板特征；将模板特征对应的对象类别信息确定为目标图像的对象类别结果；可以解决现有的对象识别模型的识别效果不佳、且特征匹配阶段的匹配效率不高的问题；由于对象识别模型是融合对象的属性进行训练得到的，该对象识别模型共同学习了对象特征和对象属性两种任务，在训练时对象特征和对象属性可以相互辅助以提高模型性能，从而提高识别模型的识别效果；同时，在应用时两种任务网络参数共享可以减少模型个数、提高提取特征速度；另外，从目标特征库中查找模板特征可以减少比对次数，提高匹配效率。

另外，通过在神经网络模型中设置第二特征提取层可以保证得到的对象特征结合原始的特征信息和属性信息，可以提高特征提取的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的对象识别方法的流程图；

图2是本申请一个实施例提供的对象识别模型的训练方法的流程图；

图3是本申请一个实施例提供的神经网络模型的示意图；

图4是本申请一个实施例提供的对象识别装置的框图；

图5是本申请一个实施例提供的对象识别装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

学习率：用于指导通过损失函数的梯度调整网络权重的超参数的方式。学习率越低，损失函数的变化速度越慢。虽然，使用低学习率可以确保不会错过局部极小值，但是会花费更长的时间进行模型收敛。

加性角度间隔损失函数(Additive Angular Margin Loss，ArcFace loss)：在SphereFace基础上改进了对特征向量归一化和加性角度间隔，提高了类间可分性同时加强类内紧度和类间差异的损失函数。

Tripletloss函数：用于促使深度学习分类器在提取相似特征的同时，促使不相似的特征分开。

下面对本申请提供的对象识别方法进行详细介绍。本申请中，以各个实施例的执行主体为电子设备为例进行说明，该电子设备可以为视频会议终端、计算机、便携式笔记本电脑或者服务器等，本申请不对电子设备的设备类型作限定。

图1是本申请一个实施例提供的对象识别方法的流程图。该方法至少包括以下几个步骤：

步骤101，获取目标图像。

电子设备对原始图像进行对象检测，得到原始图像中的对象关键点；基于对象关键点在原始图像中的位置，将原始图像缩放至预设尺寸，得到目标图像。

本申请中的对象可以为人脸、车辆或者车牌等，本实施例不对对象的类型作限定。

本实施例中，通过将各个原始图像缩放至预设尺寸，使得对象识别模型只需要对预设尺寸的图像进行识别，可以提高对象识别模型的识别准确率。

可选地，原始图像为监控场景下采集的图像。由于在监控场景下对象是不断运动的，连续静止的画面很少。因此，在对象检测时，电子设备仅在运动区域利用对象检测算法进行对象检测，从而提高对象检测速度。

其中，对象检测算法为多任务卷积神经网络(Multi-task convolutional neuralnetwork，MTCNN)算法；或者，DenseBox算法；或者，SSH算法等，本实施例不对对象检测算法的类型作限定。

步骤102，将目标图像输入对象识别模型，得到目标图像的对象特征和属性分类结果；对象识别模型是使用多组样本数据对神经网络模型进行多级训练得到的，每组样本数据包括样本图像、样本图像的类别标签和属性标签。

其中，对象类别可以为人脸身份信息，如身份证号、手机号等；或者，预设图像编号等，本实施例不对对象类别的划分方式作限定。

不同的对象类型对应的属性分类不同。以对象类型为人脸为例，属性分类包括但不限于：人脸的脸型，眼型，眉形，嘴唇的薄厚和性别。其中，脸型又可以细分为四种：方脸，圆脸，椭圆脸，三角脸。眼型细分为三种：椭圆眼，三角眼，眯眼。眉形细分为六种：直眉，三角眉，弯眉，分离眉，上扬眉，下垂眉。嘴唇细分为两种：薄，厚。性别分为男，女。当然，属性分类也可以按照其它方式进行分类，本实施例在此不再一一列举。

本实施例中，将目标图像输入对象识别模型，得到目标图像的对象特征和属性分类结果之前，电子设备使用多组样本数据对神经网络模型进行多级训练，得到对象识别模型。其中，至少存在相邻的两级训练对应的学习率逐级下降；存在至少两级训练使用的损失函数不同。

由于学习率越低，损失函数的变化速度越慢，本实施例通过对神经网络模型进行多级训练，学习率逐级降低，使得神经网络模型先以较快的速度收敛、再以较小的收敛速度微调，既可以提高训练效率，又可以提高训练得到的对象识别模型的准确性。

本实施例中，以多级训练包括第一级训练和第二级训练为例进行说明。在进行更多级训练时，训练过程与第一级训练或者第二级训练相同，本实施例在此不再赘述。此时，参考图2，使用多组样本数据对神经网络模型进行多级训练，得到对象识别模型，包括步骤21-28：

步骤21、将多组样本数据中的样本图像输入神经网络模型，得到第一模型输出结果；神经网络模型包括第一特征提取层、位于特征提取层之后的属性分类层和位于第一特征提取层和属性分类层之后的第二特征提取层，第一特征提取层用于提取样本图像中的对象特征，得到中间特征；属性分类层用于基于中间特征确定属性分类，得到第一属性训练结果；第二特征提取层用于基于中间特征和第一属性训练结果提取第一训练特征，第一模型输出结果包括第一训练特征和第一属性训练结果。

其中，多组样本数据中的样本图像的图像尺寸为预设尺寸，预设尺寸为目标图像的图像尺寸。

可选地，第一特征提取层、属性分类层和第二特征提取层均为全连接网络。

本实施例中，通过设置第二特征提取层可以保证得到的对象特征结合原始的特征信息和属性信息，可以提高特征提取的准确性。

比如：神经网络模型参考图3所示，该神经网络模型包括输入层31(Input)，卷积层32(Conv)、池化层33(Pooling)、残差单元34(Resblock)、全连接层35(fc)，损失函数层36，每层结构的描述参考下表一。

表一：

层	描述
		输入层	输入图像数据
卷积层	提取输入的图像的特征
		池化层	下采样
Resblock1 x 3	连续3个残差单元相连
		Resblock2 x 4	连续4个残差单元相连
Resblock3 x 8	连续8个残差单元相连
		Resblock4 x 3	连续3个残差单元相连
全连层	线性加权求和
		损失函数	评估模型准确性

步骤22、将第一训练特征和样本图像对应的类别标签输入第一对象识别损失函数，得到第一函数结果。

可选地，第一对象识别损失函数为ArcFace损失函数，ArcFace损失函数通过下式表示：

其中，N为样本图像的总数，i为第i个样本图像，y_i为第i个样本图像所属的类别标签，s为缩放系数，θ为网络模型的权重向量和第i个样本图像的训练特征的特征向量之间的角度间隔，t为角度边缘；训练特征包括第一训练特征；1≤i≤N。

步骤23、将第一属性训练结果和样本图像对应的属性标签输入属性分类损失函数，得到第二函数结果。

可选地，属性分类损失函数为softmaxloss函数。

步骤24、根据第一函数结果和第二函数结果按照第一学习率对神经网络模型进行第一级训练，得到第一神经网络模型。

步骤25、将多组样本数据中的样本图像输入第一神经网络模型，得到第二模型输出结果；第二模型输出结果包括第二训练特征和第二属性训练结果。

第一神经网络模型与步骤1中的神经网络模型的结构相同，只是损失函数层中的损失函数不同。

步骤26、将第二训练特征和样本图像对应的类别标签分别输入第一对象识别损失函数和第二对象识别损失函数，得到第三函数结果和第四函数结果。

可选地，第二对象识别损失函数为Tripletloss函数，Tripletloss函数通过下式表示：

其中，N为样本图像的总数，

为第i个样本图像的训练特征，

为与第i个样本图像属于同一类别的样本图像的训练特征，

为与第i个样本图像属于不同类别的样本图像的训练特征；训练特征包括第一训练特征和第二训练特征；1≤i≤N。

步骤27、将第二属性训练结果和样本图像对应的属性标签输入属性分类损失函数，得到第五函数结果。

步骤28、根据得到第三函数结果、第四函数结果和第五函数结果按照第二学习率对第一神经网络模型进行第二级训练，得到对象识别模型。

第二学习率小于第一学习率。示意性地，第二学习率为第一学习率的1/10。比如：第一学习率为0.1，第二学习率为0.01。当然，在其它实施例中，第一学习率和第二学习率也可以为其它数值，本实施例不对第一学习率和第二学习率的取值作限定。

步骤103，确定属性分类结果对应的目标特征库。

本实施例中，对于某种属性分类，不同的属性分类结果对应不同的特征库。每个特征库中包括多个模板特征和每个模板特征对应的对象类别信息。特征库中的模板特征可以为使用对象识别模型识别得到的；或者，已存储的数据。

比如：以属性分类为性别分类，其中，男性分类对应一个特征库，女性分类对应另一个特征库。在属性分类结果包括女性分类时，可以确定出女性分类对应的目标特征库。

步骤104，在目标特征库中搜索与对象特征相匹配的模板特征。

步骤105，将模板特征对应的对象类别信息确定为目标图像的对象类别结果。

综上所述，本实施例提供的对象识别方法，通过获取目标图像；将目标图像输入对象识别模型，得到目标图像的对象特征和属性分类结果；对象识别模型是使用多组样本数据对神经网络模型进行多级训练得到的，每组样本数据包括样本图像、样本图像的类别标签和属性标签；确定属性分类结果对应的目标特征库；在目标特征库中搜索与对象特征相匹配的模板特征；将模板特征对应的对象类别信息确定为目标图像的对象类别结果；可以解决现有的对象识别模型的识别效果不佳、且特征匹配阶段的匹配效率不高的问题；由于对象识别模型是融合对象的属性进行训练得到的，该对象识别模型共同学习了对象特征和对象属性两种任务，在训练时对象特征和对象属性可以相互辅助以提高模型性能，从而提高识别模型的识别效果；同时，在应用时两种任务网络参数共享可以减少模型个数、提高提取特征速度；另外，从目标特征库中查找模板特征可以减少比对次数，提高匹配效率。

另外，通过在神经模型中设置第二特征提取层可以保证得到的对象特征结合原始的特征信息和属性信息，可以提高特征提取的准确性。

图4是本申请一个实施例提供的对象识别装置的框图。该装置至少包括以下几个模块：图像获取模块410、模型计算模块420、特征库确定模块430、特征匹配模块440和对象识别模块450。

图像获取模块410，用于获取目标图像；

模型计算模块420，用于将所述目标图像输入对象识别模型，得到所述目标图像的对象特征和属性分类结果；所述对象识别模型是使用多组样本数据对神经网络模型进行多级训练得到的，每组样本数据包括样本图像、所述样本图像的类别标签和属性标签；

特征库确定模块430，用于确定所述属性分类结果对应的目标特征库；

特征匹配模块440，用于在所述目标特征库中搜索与所述对象特征相匹配的模板特征；

对象识别模块450，用于将所述模板特征对应的对象类别信息确定为所述目标图像的对象类别结果。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的对象识别装置在进行对象识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将对象识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对象识别装置与对象识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请一个实施例提供的对象识别装置的框图。该装置至少包括处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的对象识别方法。

在一些实施例中，对象识别装置还可选包括有：外围设备接口和至少一个外围设备。处理器501、存储器502和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，对象识别装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的对象识别方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的对象识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对象识别方法，其特征在于，所述方法包括：

获取目标图像；

确定所述属性分类结果对应的目标特征库；

2.根据权利要求1所述的方法，其特征在于，所述获取目标图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述目标图像输入对象识别模型，得到所述目标图像的对象特征和属性分类结果之前，还包括；

4.根据权利要求3所述的方法，其特征在于，所述多级训练包括第一级训练和第二级训练，所述使用多组样本数据对所述神经网络模型进行多级训练，得到所述对象识别模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一对象识别损失函数为ArcFace损失函数，所述ArcFace损失函数通过下式表示：

6.根据权利要求4所述的方法，其特征在于，所述第二对象识别损失函数为Tripletloss函数，所述Tripletloss函数通过下式表示：

其中，N为样本图像的总数，

为第i个样本图像的训练特征，

为与第i个样本图像属于同一类别的样本图像的训练特征，

7.根据权利要求3所述的方法，其特征在于，所述多组样本数据中的样本图像的图像尺寸为预设尺寸，所述预设尺寸为所述目标图像的图像尺寸。

8.一种对象识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标图像；

9.一种对象识别装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的对象识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至7任一项所述的对象识别方法。