CN107818314A

CN107818314A - 脸部图像处理方法、装置及服务器

Info

Publication number: CN107818314A
Application number: CN201711174894.6A
Authority: CN
Inventors: 杨帆; 张志伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-03-20
Anticipated expiration: 2037-11-22
Also published as: CN107818314B

Abstract

本发明实施例公开了一种脸部图像处理方法、装置及服务器，包括下述步骤：获取待处理的人脸图像；将所述人脸图像输入到预先训练的卷积神经网络模型中，获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据，所述卷积神经网络模型以损失函数为约束条件，限定所述分类数据中每一类的特征余弦值趋向于1；获取所述分类数据，并根据所述分类数据对所述人脸图像进行内容理解。使维特征向量与损失函数权值之间的余弦值趋向于1，以此，达到类内距离收敛的效果，类内距离的收敛进而使分类数据的类间距离增大，类内距离的增大能够使分类数据区别更加的明显，数据的鲁邦性增加，同样也会提高内容理解的准确性。

Description

脸部图像处理方法、装置及服务器

技术领域

本发明实施例涉及图像处理领域，尤其是一种脸部图像处理方法、装置及服务器。

背景技术

随着深度学习技术的发展，卷积神经网络已经成为提取人脸特征的有力工具，对于模型固定的卷积神经网络而言，最核心的技术是如何设计损失函数，使其能有效地监督卷积神经网络的训练，从而使卷积神经网络具有提取人脸特征的能力。现有技术中主要使用Softmax的交叉熵损失函数对卷积神经网络模型进行监督训练。其中，Softmax的交叉熵损失函数训练网络提取特征的能力，利用网络的最后一层作为人脸的表达，将人脸数据映射到余弦空间上，通过比对不同人脸的余弦空间距离来判断人脸的相似性，同一个人余弦空间距离更相近，不同的人余弦空间距离更远。

但是本发明创造的发明人在研究中发现，Softmax的交叉熵损失函数的特征提取方法，是一种非端到端的方法，简单易于实现，但由于其训练所得到的类内数据内敛型不足，导致决定余弦空间距离大小的类间距离不够明显，分类数据离散性较差，导致内容理解准确率无法提高。

发明内容

本发明实施例提供一种能够提高图像提取过程中图像类间距离的脸部图像处理方法、装置及服务器。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种脸部图像处理方法，包括下述步骤：

获取待处理的人脸图像；

将所述人脸图像输入到预先训练的卷积神经网络模型中，获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据，所述卷积神经网络模型以损失函数为约束条件，限定所述分类数据中每一类的特征余弦值趋向于1；

获取所述分类数据，并根据所述分类数据对所述人脸图像进行内容理解。

具体地，所述损失函数正向传播过程描述为：

L＝-λ₁f_norm(x)*w_i+λ₂||||w_i||₂-1||₂+L_crossentropy

其中，i表示输入图像本身所属的类别，w_i表示为第i类图像分类对应的交叉熵损失函数的权值，λ₁和λ₂分别表示超参系数，f_norm(x)为归一化的图像特征，L_crossentropy表示为交叉熵损失函数。

具体地，所述损失函数反向传播过程描述为：

定义函数：

i表示输入图像本身所属的类别，t表示与i不同类别的分类类别，w_i表示为第i类图像分类对应的交叉熵损失函数的权值，w_t表示为第t类图像分类对应的交叉熵损失函数的权值，λ₁和λ₂分别表示超参系数，f_norm(x)为归一化的图像特征，L_crossentropy表示为交叉熵损失函数。

具体地，所述卷积神经网络模型通过下述步骤训练形成：

获取标记有分类判断信息的训练样本数据；

将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息；

通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致；

当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述卷积神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束。

具体地，所述获取所述分类数据，并根据所述分类数据对所述人脸图像进行内容理解的步骤，具体包括下述步骤：

获取所述卷积神经网络模型输出的分类数据；

将所述分类数据与预设的第一阈值进行比对，根据比对结果将所述分类数据转化为第一二值向量集；

将所述第一二值向量集作为检索向量，在预设的数据库中检索与所述第一二值向量集对应的图片作为检索结果。

具体地，所述将所述第一二值向量集作为检索向量，在预设的数据库中检索与所述第一二值向量集对应的图片作为检索结果的步骤，具体包括下述步骤：

将所述第一二值向量集作为检索向量，与所数据库中图片预设的第一索引标签进行比对；

将所述第一索引标签与所述第一二值向量集相同的图片进行提取作为检索结果。

具体地，所述将所述第一二值向量集作为检索向量，在预设的数据库中检索与所述第一二值向量集对应的图片作为检索结果的步骤之后，还包括下述步骤：

获取所述卷积神经网络模型输出的待分类数据；

将所述待分类数据与预设的第一阈值进行比对，根据比对结果将所述待分类数据转化为第二二值向量集；

将所述第二二值向量集作为排序向量对所述检索结果所得的图片进行排序。

具体地，所述将所述第二二值向量集作为排序向量对所述检索结果所得的图片进行排序，还包括下述步骤：

计算所述第二二值向量集与所述检索结果所得图片的预设索引标签之间的距离；

根据所述距离按由小到大的顺序对所述检索结果所得图片进行排序。

具体地，所述人脸图像进行内容理解包括：对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。

为解决上述技术问题，本发明实施例还提供一种脸部图像处理装置，包括：

第一获取模块，用于获取待处理的人脸图像；

第一计算模块，用于将所述人脸图像输入到预先训练的卷积神经网络模型中，获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据，所述卷积神经网络模型以损失函数为约束条件，限定所述分类数据中每一类的特征余弦值趋向于1；

第一处理模块，用于获取所述分类数据，并根据所述分类数据对所述人脸图像进行内容理解。

具体地，所述损失函数正向传播过程描述为：

L＝-λ₁f_norm(x)*w_i+λ₂||||w_i||₂-1||₂+L_crossentropy

具体地，所述损失函数反向传播过程描述为：

定义函数：

具体地，所述脸部图像处理装置还包括：

第一获取子模块，用于获取标记有分类判断信息的训练样本数据；

第一输入子模块，用于将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息；

第一比对子模块，用于通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致；

第一处理子模块，用于当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述卷积神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束。

具体地，所述脸部图像处理装置还包括：

第二获取子模块，获取所述卷积神经网络模型输出的待分类数据；

第二比对子模块，将所述待分类数据与预设的第一阈值进行比对，根据比对结果将所述待分类数据转化为第二二值向量集；

第二处理子模块，用于将所述第一二值向量集作为检索向量，在预设的数据库中检索与所述第一二值向量集对应的图片作为检索结果。

具体地，所述脸部图像处理装置还包括：

第三比对子模块，将所述第一二值向量集作为检索向量，与所数据库中图片预设的第一索引标签进行比对；

第三处理子模块，用于将所述第一索引标签与所述第一二值向量集相同的图片进行提取作为检索结果。

具体地，所述脸部图像处理装置还包括：

第三获取子模块，用于获取所述卷积神经网络模型输出的分类数据；

第四比对子模块，用于将所述分类数据与预设的第一阈值进行比对，根据比对结果将所述分类数据转化为第二二值向量集；

第四处理子模块，用于将所述第二二值向量集作为排序向量对所述检索结果所得的图片进行排序。

具体地，所述脸部图像处理装置还包括：

第四计算子模块，用于计算所述第二二值向量集与所述检索结果所得图片的预设索引标签之间的距离；

第五处理子模块，用于根据所述距离按由小到大的顺序对所述检索结果所得图片进行排序。

为解决上述技术问题，本发明实施例还提供一种服务器，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述所述的脸部图像处理方法。

本发明实施例的有益效果是：卷积神经网络模型以损失函数为约束条件，对卷积神经网络模型的分类数据进行限定，限定的结果使分类数据中每一维特征向量与损失函数权值之间的余弦值尽量的大，使维特征向量与损失函数权值之间的余弦值趋向于1，以此，达到类内距离收敛的效果，类内距离的收敛进而使分类数据的类间距离增大，类内距离的增大能够使分类数据区别更加的明显，数据的鲁邦性增加，同样也会提高内容理解的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例卷积神经网络模型组成示意图；

图2为本发明实施例脸部图像处理方法基本流程示意图；

图3为本发明实施例卷积神经网络模型训练流程示意图；

图4为本发明实施例图像处理方法在检索领域的一种基本应用流程图；

图5为本发明实施例图像检索的一种具体实施方式流程示意图；

图6为本发明实施例图像检索排序方法流程示意图；

图7为本发明实施例检索结果排序的具体流程示意图；

图8为本发明实施例脸部图像处理装置基本结构示意图；

图9为本发明实施例服务器基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

需要指出的是卷积神经网络的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习，所以在使用卷积神经网络时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。

VGG是牛津大学计算机视觉组(VisualGeometry Group)和GoogleDeepMind公司的研究员一起研发的的深度卷积神经网络。VGG探索了卷积神经网络的深度与其性能之间的关系，通过反复堆叠3*3的小型卷积核和2*2的最大池化层，VGG成功地构筑了16～19层深的卷积神经网络。VGG的拓展性很强，迁移到其他图片数据上的泛化性非常好。VGG的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸(3*3)和最大池化尺寸(2*2)。到目前为止，VGG依然经常被用来提取图像特征。VGG训练后的模型参数在其官方网站上开源了，可用来在特定的图像分类任务上进行再训练(相当于提供了非常好的初始化权重)。

本实施方式中，采用VGG卷积神经网络模型进行深度学习及内容理解。但不局限于此，在一些选择性实施方式中，能够采用CNN卷积神经网络模型或CNN卷积神经网络模型的分支模型。

请参阅图1，图1为本实施例卷积神经网络模型组成示意图。

如图1所示，卷积神经网络模型包括：多个卷积层(Conv_1,2,3,4…n)、2个全连接层(CF_1,2)和一个分类层(softmax_1,2)组成。

卷积神经网络模型由：卷积层、全连接和分类层组成。其中，卷积层被用于对人脸图像的局部进行感知，且卷积层通常以级联的方式进行连接，级联中位置越靠后的卷积层能够感知越全局化的信息。

全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。全连接层连接在卷积层输出位置，能够感知被测人脸图像的全具化特征。

分类层连接在全连接层的输出端，分类层输出的每一维均表示被测人脸图像属于该类别的概率。

请参阅图2，图2为本实施例脸部图像处理方法基本流程示意图。

如图2所示，一种脸部图像处理方法，包括下述步骤：

S1100、获取待处理的人脸图像；

获取人脸图像的方法包括实时采集和提取存储图像视频资料两种方法。实时采集主要用于智能终端(手机、平板电脑和监控设备)的实时应用(如：判断用户年龄、性别、颜值和相似度等)。提取存储图像视频资料主要用于对存储的图像和视频资料进行进一步的处理，也能够用于智能终端对历史照片进行应用。

S1200、将所述人脸图像输入到预先训练的卷积神经网络模型中，获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据，所述卷积神经网络模型以损失函数为约束条件，限定所述分类数据中每一类的特征余弦值趋向于1。

将获取的人脸图像输入到已经训练完成的卷积神经网络模型中，该卷积神经网络模型是通过选定的损失函数进行训练得到，具体地采用Softmax的交叉熵损失函数。

在Softmax交叉熵损失函数的基础上，提出了一种衡量特征与softmax权值之间余弦距离的损失函数，该损失函数用于监督模型学习图像特征，使图像特征向量与权值之间的余弦值应尽量大，这样，经过学习后，同一个类的图像经过模型后，得到的特征余弦均趋向接近于1。

具体地，本实施方式中的损失函数为如下：

损失函数正向传播过程描述为：

L＝-λ₁f_norm(x)*w_i+λ₂||||w_i||₂-1||₂+L_crossentropy

具体的，余弦距离的计算方式为：

若使cos<f(x)，w_i>尽量大，则-cos<f(x)，w_i>尽量小，即尽量小，那么，在实际模型中，需要固定住||f(x)||₂w_i||₂不妨使||f(x)||₂归一化到1，令正则化||w_t||₂-1||₂添加到损失函数中，那么小化即为-f(x)*w_i最小化。则经过归一化和正则化的损失函数成为：

L＝-λ₁f_norm(x)*w_i+λ₂||||w_i||₂-1||₂+L_crossentropy

其中，λ₁和λ₂分别表示超参系数，通常设定λ₁＝0.01，λ₂＝0.05。

本实施方式中损失函数反向传播的过程描述为：

定义函数：

S1300、获取所述分类数据，并根据所述分类数据对所述人脸图像进行内容理解。

获取到卷积神经网络模型的分类数据，该分类数据中包括输入的人脸图像的主要识别特征，是降维分类后表征着人脸图像最主要特征的分类数据，该分类数据中类间距离较大，及分类数据中类别之间差距的显著性进一步提高。

得到人脸图像的分类数据后，能够使用该分类数据对人脸图像内容理解，内容理解包括(不限于)进行性别识别、年龄判断、颜值打分或人脸相似度比对。分类数据表示人脸图像中主要可识别特征，将该特征与预设的分类标准进行比对，就能够对人脸图像的性别、年龄和颜值做出判断。而根据两个人脸图像分类数据的cos(余弦空间)距离的比较，就能够计算出两个人脸图像之间的相似度。

上述实施方式通过卷积神经网络模型以损失函数为约束条件，对卷积神经网络模型的分类数据进行限定，限定的结果使分类数据中每一维特征向量与损失函数权值之间的余弦值尽量的大，使维特征向量与损失函数权值之间的余弦值趋向于1，以此，达到类内距离收敛的效果，类内距离的收敛进而使分类数据的类间距离增大，类内距离的增大能够使分类数据区别更加的明显，数据的鲁邦性增加，同样也会提高内容理解的准确性。

本实施方式中，卷积神经网络模型的深度学习训练如下：

请参阅图3，图3为本实施例卷积神经网络模型训练流程示意图。

如图3所示，卷积神经网络模型的训练方法如下：

S2100、获取标记有分类判断信息的训练样本数据；

训练样本数据是整个训练集的构成单位，训练集是由若干个训练样本训练数据组成的。

训练样本数据是由人脸数据以及对人脸数据对进行标记的分类判断信息组成的。

分类判断信息是指人们根据输入卷积神经网络模型的训练方向，通过普适性的判断标准和事实状态对训练样本数据做出的人为的判断，也就是人们对卷积神经网络模型输出数值的期望目标。如，在一个训练样本数据中，人工识别出该人脸图像数据与预存储的目标人脸图像为同一个人，则标定该人脸图像分类判断信息为与预存储的目标人脸图像相同。

S2200、将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息；

将训练样本集依次输入到卷积神经网络模型中，并获得卷积神经网络模型倒数第一个全连接层输出的模型分类参照信息。

模型分类参照信息是卷积神经网络模型根据输入的人脸图像而输出的激励数据，在卷积神经网络模型未被训练至收敛之前，分类参照信息为离散性较大的数值，当卷积神经网络模型未被训练至收敛之后，分类参照信息为相对稳定的数据。

S2300、通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致；

止损函数是用于检测卷积神经网络模型中模型分类参照信息，与期望的分类判断信息是否具有一致性的检测函数。当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时，需要对卷积神经网络模型中的权重进行校正，以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。

S2400、当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述卷积神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束。

当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时，需要对卷积神经网络模型中的权重进行校正，以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。

具体的，以本实施方式在图像检索领域的应用，对人脸图像进行内容理解进行进一步的说明。

具体请参阅图4，图4为本实施例图像处理方法在检索领域的一种基本应用流程图。

如图4所示，步骤S1300包括下述步骤：

S1310、获取所述卷积神经网络模型输出的分类数据；

如图1所示，获取由Softmax1(分类层)输出的128维的分类数据。

S1320、将所述分类数据与预设的第一阈值进行比对，根据比对结果将所述分类数据转化为第一二值向量集；

将分类数据分别与预设的第一阈值进行比较，第一阈值具体的取值为0.5，但不局限与此，第一预制的设定能够根据实际应用的需求进行相应设置。

由于卷积神经网络模型输出的分类数据为0-1之间的数字，将128个0-1之间的数字分别与第一阈值进行比较，大于或等于第一阈值的数字标记为二进制的数字1，而小于第一阈值的数字则标记为二进制数字的0。以此，将分类数据转化为长度为128二值向量，记为第一二值向量集。

S1330、将所述第一二值向量集作为检索向量，在预设的数据库中检索与所述第一二值向量集对应的图片作为检索结果。

将第一二值向量集作为检索向量，对存储在数据库内的图片进行相似检索。存储在数据库内的图像设有至少两个索引标签，其中，一个索引标签为卷积神经网络模型对该图片进行分类后，根据分类数据得到的128位的二值向量，此为该图片的第一个索引标签。另一个为4096位长度的二值向量，该向量是根据卷积神经网络模型分类层与倒数第一个全连接层输出待分类数据，该向量为数据库图片的第二索引标签。

第一二值向量集作为检索向量，在数据库找出第一索引标签与第一二值向量集相同的图片作为检索结果进行呈现。

请参阅图5，图5为本实施例图像检索的一种具体实施方式流程示意图。

如图5所示，步骤S1310还包括下述步骤：

S1311、将所述第一二值向量集作为检索向量，与所数据库中图片预设的第一索引标签进行比对；

将人脸图像128位二值向量作为检索向量，依次与数据库中存储图像的第一索引标签进行比对。

S1312、将所述第一索引标签与所述第一二值向量集相同的图片进行提取作为检索结果。

在数据库找出第一索引标签与第一二值向量集相同的图片作为检索结果进行呈现作为检索结果。

为进一步的对检索结果进行排序，将与人脸图像相关度最高的图像排列在前方，方便用户查看需要进一步都检索结果进行排序。

具体请参阅图6，图6为本实施例图像检索排序方法流程示意图。

如图6所示，步骤S1310之后还包括下述步骤：

S1410、所述卷积神经网络模型输出的待分类数据；

待分类数据卷积神经网络模型分类层与倒数第一个全连接层输出，输出长度为4096维。

S1420、将所述待分类数据与预设的第一阈值进行比对，根据比对结果将所述待分类数据转化为第二二值向量集；

将待分类数据与预设的第一预制进行比对，第一阈值具体的取值为0.5，但不局限与此，第一预制的设定能够根据实际应用的需求进行相应设置。

由于卷积神经网络模型输出的待分类数据为0-1之间的数字，将4096个0-1之间的数字分别与第一阈值进行比较，大于或等于第一阈值的数字标记为二进制的数字1，而小于第一阈值的数字则标记为二进制数字的0。以此，将分类数据转化为长度为4096位的二值向量，记为第二二值向量集。

S1430、将所述第二二值向量集作为排序向量对所述检索结果所得的图片进行排序。

具体地，请参阅图7，图7为本实施例检索结果排序的具体流程示意图。

如图所示，步骤S1430具体包括下述步骤：

S1431、计算所述第二二值向量集与所述检索结果所得图片的预设索引标签之间的距离；

存储在数据库内的图像设有至少两个索引标签，其中，一个索引标签为卷积神经网络模型对该图片进行分类后，根据分类数据得到的128位的二值向量，此为该图片的第一个索引标签。另一个为4096位长度的二值向量，该向量是根据卷积神经网络模型分类层与倒数第一个全连接层输出待分类数据，该向量为数据库图片的第二索引标签。

计算第二二值向量集与检索结果图片中第二索引标签的汉明距离。

S1432、根据所述距离按由小到大的顺序对所述检索结果所得图片进行排序。

按计算出的汉明距离的大小，由小到大的依次对图片进行排序。

上述实施方式，进行图像检索时，采用分类数据转化的128位二值向量进行检索，由于检索向量较短，因此，能够获得更多的图像召回率，检索完整度较好。而采用待分类数据转化的4096位二值向量进行排序，能够使与人脸图像最相关的图片排列在最前方，提高了检索的呈现时的准确率。

上述实施方式中，是图像处理技术在检索领域的具体应用，是对人脸图像内容理解的一种具体实施方式。但本实施方式中内容理解不局限于图像检索领域，本实施方式的脸部图像处理方法还能够用于(不限于)对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对等领域。

为解决上述技术问题，本发明实施例还提供脸部图像处理装置。

具体请参阅图8，图8为本实施例脸部图像处理装置基本结构示意图。

如图8所示，一种脸部图像处理装置，包括：第一获取模块1100、第一计算模块1200和第一处理模块1300。其中，第一获取模块1100用于获取待处理的人脸图像；第一计算模块1200用于将人脸图像输入到预先训练的卷积神经网络模型中，获取卷积神经网络模型响应人脸图像输入而输出分类数据，卷积神经网络模型以损失函数为约束条件，限定分类数据中每一类的特征余弦值趋向于1；第一处理模块1300用于获取分类数据，并根据分类数据对人脸图像进行内容理解。

上述实施方式中，脸部图像处理装置通过卷积神经网络模型以损失函数为约束条件，对卷积神经网络模型的分类数据进行限定，限定的结果使分类数据中每一维特征向量与损失函数权值之间的余弦值尽量的大，使维特征向量与损失函数权值之间的余弦值趋向于1，以此，达到类内距离收敛的效果，类内距离的收敛进而使分类数据的类间距离增大，类内距离的增大能够使分类数据区别更加的明显，数据的鲁邦性增加，同样也会提高内容理解的准确性。

在一些实施方式中，损失函数正向传播过程描述为：

L＝-λ₁f_norm(x)*w_i+λ₂||||w_i||₂-1||₂+L_crossentropy

在一些实施方式中，损失函数反向传播过程描述为：

定义函数：

在一些实施方式中，脸部图像处理装置还包括：第一获取子模块、第一输入子模块、第一比对子模块和第一处理子模块。其中，第一获取子模块用于获取标记有分类判断信息的训练样本数据；第一输入子模块用于将训练样本数据输入卷积神经网络模型获取训练样本数据的模型分类参照信息；第一比对子模块用于通过止损函数比对训练样本数据内不同样本的模型分类参照信息与分类判断信息是否一致；第一处理子模块用于当模型分类参照信息与分类判断信息不一致时，反复循环迭代的更新卷积神经网络模型中的权重，至比对结果与分类判断信息一致时结束。

在一些实施方式中，脸部图像处理装置还包括：第二获取子模块、第二比对子模块和第二处理子模块。其中，第二获取子模块获取卷积神经网络模型输出的待分类数据；第二比对子模块将待分类数据与预设的第一阈值进行比对，根据比对结果将待分类数据转化为第二二值向量集；第二处理子模块用于将第一二值向量集作为检索向量，在预设的数据库中检索与第一二值向量集对应的图片作为检索结果。

在一些实施方式中，脸部图像处理装置还包括：第三比对子模块和第三处理子模块。其中，第三比对子模块将第一二值向量集作为检索向量，与所数据库中图片预设的第一索引标签进行比对；第三处理子模块用于将第一索引标签与第一二值向量集相同的图片进行提取作为检索结果。

在一些实施方式中，脸部图像处理装置还包括：第三获取子模块、第四比对子模块和第四处理子模块。其中，第三获取子模块用于获取卷积神经网络模型输出的分类数据；第四比对子模块用于将分类数据与预设的第一阈值进行比对，根据比对结果将分类数据转化为第二二值向量集；第四处理子模块用于将第二二值向量集作为排序向量对检索结果所得的图片进行排序。

在一些实施方式中，脸部图像处理装置还包括：第四计算子模块和第五处理子模块。其中，第四计算子模块用于计算第二二值向量集与检索结果所得图片的预设索引标签之间的距离；第五处理子模块用于根据距离按由小到大的顺序对检索结果所得图片进行排序。

在一些实施方式中，人脸图像进行内容理解包括：对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。

本实施例还提供一种服务器。具体请参阅图9，图9为本实施例服务器基本结构示意图。

如图7所示，服务器包括：一个或多个处理器3110和存储器3120；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：

获取待处理的人脸图像；

上述服务器通过卷积神经网络模型以损失函数为约束条件，对卷积神经网络模型的分类数据进行限定，限定的结果使分类数据中每一维特征向量与损失函数权值之间的余弦值尽量的大，使维特征向量与损失函数权值之间的余弦值趋向于1，以此，达到类内距离收敛的效果，类内距离的收敛进而使分类数据的类间距离增大，类内距离的增大能够使分类数据区别更加的明显，数据的鲁邦性增加，同样也会提高内容理解的准确性。

需要指出的是本实施列中，服务器的存储器内存储用于实现本实施例中脸部图像处理方法中的所有程序，处理器能够调用该存储器内的程序，执行上述脸部图像处理方法所列举的所有功能。由于服务器实现的功能在本实施例中的脸部图像处理方法进行了详述，在此不再进行赘述。

需要说明的是，本发明的说明书及其附图中给出了本发明的较佳的实施例，但是，本发明可以通过许多不同的形式来实现，并不限于本说明书所描述的实施例，这些实施例不作为对本发明内容的额外限制，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。并且，上述各技术特征继续相互组合，形成未在上面列举的各种实施例，均视为本发明说明书记载的范围；进一步地，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种脸部图像处理方法，其特征在于，包括下述步骤：

获取待处理的人脸图像；

2.根据权利要求1所述的脸部图像处理方法，其特征在于，所述损失函数正向传播过程描述为：

L＝-λ₁f_norm(x)*w_i+λ₂||||w_i||₂-1||₂+L_crossentropy

3.根据权利要求1所述的脸部图像处理方法，其特征在于，所述损失函数反向传播过程描述为：

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> </mrow> </msub> </mrow> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow>

定义函数：

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> </mrow> </msub> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow> </mfrac> <mo>-</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <msub> <mi>f</mi> <mrow> <mi>n</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>4</mn> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <msub> <mi>w</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> </mrow> </msub> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow> </mfrac> <mrow> <mo>(</mo> <mi>i</mi> <mo>&NotEqual;</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

4.根据权利要求1所述的脸部图像处理方法，其特征在于，所述卷积神经网络模型通过下述步骤训练形成：

获取标记有分类判断信息的训练样本数据；

5.根据权利要求1所述的脸部图像处理方法，其特征在于，所述获取所述分类数据，并根据所述分类数据对所述人脸图像进行内容理解的步骤，具体包括下述步骤：

获取所述卷积神经网络模型输出的分类数据；

6.根据权利要求5所述的脸部图像处理方法，其特征在于，所述将所述第一二值向量集作为检索向量，在预设的数据库中检索与所述第一二值向量集对应的图片作为检索结果的步骤，具体包括下述步骤：

7.根据权利要求5所述的脸部图像处理方法，其特征在于，所述将所述第一二值向量集作为检索向量，在预设的数据库中检索与所述第一二值向量集对应的图片作为检索结果的步骤之后，还包括下述步骤：

获取所述卷积神经网络模型输出的待分类数据；

8.根据权利要求7所述的脸部图像处理方法，其特征在于，所述将所述第二二值向量集作为排序向量对所述检索结果所得的图片进行排序，还包括下述步骤：

9.一种脸部图像处理装置，其特征在于，包括：

第一获取模块，用于获取待处理的人脸图像；

10.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-9任意一项所述的脸部图像处理方法。