CN111126175A

CN111126175A - 一种基于深度卷积神经网络的面部图像识别算法

Info

Publication number: CN111126175A
Application number: CN201911231906.3A
Authority: CN
Inventors: 赵航
Original assignee: Xiamen Elephant East Technology Co Ltd
Current assignee: Xiamen Elephant East Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-05-08

Abstract

一种基于深度卷积神经网络的面部图像识别算法，采用阈值法和形态学法对面部图像进行预切割处理；采用全卷积神经网络结合多示例学习方法构建基础系统结构，将多语义上下文特征融合与空洞残差操作块结合，嵌入基础系统结构中，保留系统对图像空间信息的感知，同时实现面部图像分类和怀疑区域定位；模型训练阶段的损失函数分为两方面，其一是利用图像级标签计算图像的良恶性二分类交叉熵损失，其二是利用少量定位框标签计算示例的良恶性二分类交叉熵损失，两者进行加权和，得到总损失函数，用于训练模型参数。对输入的面部图像进行预切割处理后，输入系统模型中得到示例概率回归图和图像概率回归值，得出该输入面部图像的分类和判定区域结果。

Description

一种基于深度卷积神经网络的面部图像识别算法

技术领域

本发明涉及图像处理算法领域，尤其是一种融合图像级标签和少量定位框标签的基于深度卷积神经网络的人脸面部图像的特征或异常分类和对应的身体健康状况的算法。

背景技术

随着移动通讯的不断发展和人们生活水平的不断提高，各种移动终端如手机的使用越来越普及，手机已经成为人们生活中不可缺少的通信工具。现有技术的手机功能越来越多，但是基本都不具有:通过面部拍照识别身体健康状况的功能。而现在人类生活工作压力越来越大，随之带来的身体上的小毛病，小问题等也越来越多。但是这些潜在的小疾病很少被大家关注或很少会因为一点小问题就去医院。实际上，很多疾病在初期是会在人体上有很多外在表现的，如果我们及时关注身体传递给我们的这些告警信息，及时调理或治疗，是很容易将很多疾病扼杀在萌芽状态。让我们的身体更加健康。

传统人体体质健康分类器采用了k近邻、逻辑斯特回归、支持向量机、决策树以及朴素贝叶斯等分类算法，针对人工设计特征进行癌症分类。随后出现了基于深度学习的分类算法，在目前的人脸面部图像人脸图像的特征或异常分类和对应的身体健康状况检测识别任务中，深度卷积神经网络甚至表现出超越人类的性能。然而，在已有的方法中，都需要有大量的定位框或分割标签来训练模型，但这些标注数据需要有丰富的专家领域经验才能获得，成本代价很高。所以只需要利用图像级的分类标注和少量的定位、分割标注就能实现人脸分类和定位具有十分重大的意义。

发明内容

本发明目的在于提供一种融合图像级标签和少量定位框标签的基于深度卷积神经网络的面部图像识别算法。

为实现上述目的，采用了以下技术方案：本发明所述方法包括以下步骤：

S1，采用阈值法和形态学法对面部图像进行预切割处理，剔除水印信息和大量无信息的黑色区域，放大怀疑区域的占图比例，识别出人脸各部分的细化特征；

S2，采用全卷积神经网络结合多示例学习方法构建基础系统结构，将多语义上下文特征融合与空洞残差操作块结合，嵌入基础系统结构中，在保证系统对图像语义信息有效提取的前提下，保留系统对图像空间信息的感知，同时实现面部图像分类和怀疑区域定位；从而同时实现人脸细化特征对应的身体健康状况信息，并提供对应的食补方案或健康建议；

S3，模型训练阶段的损失函数分为两方面，其一是利用图像级标签计算图像的良恶性二分类交叉熵损失；其二是利用少量定位框标签计算示例的良恶性二分类交叉熵损失，两者进行加权和，得到总损失函数；

S4，利用S2中构建的系统和S3设计的总损失函数，以S1获得的人脸图像为输入，利用反向传导过程训练S2构建系统的模型参数；

S5，对输入的人脸图像进行S1的预切割处理后，输入训练得到的系统模型中，得到示例概率回归图和图像概率回归值，得出该输入人脸面部图像的分类和判定区域结果。

进一步的，在S2中，全卷积神经网络结合多示例学习方法构建的基础系统结构抛弃了传统分类网络最后的全连接层，采用全卷积神经网络进行图像特征提取，获得通道维度为C，空间维度为W×h的语义特征图；再经过

个3x3的C维卷积核，得到

个W×h的语义特征图，经过ReLU激活函数进行非线性激活，再经过1个1x1的

维卷积核，得到1个W×h的语义特征图；接着经过逐示例的逻辑斯特回归，得到1个W×h的概率回归图；逐示例的逻辑斯特回归公式如下所示：

其中，n代表第n张输入图片，ij代表第i列第j行，

代表第n张输入图片的语义特征图在第i列第j行的概率回归值；经过逻辑斯特回归后每个示例的值被回归至[0,1]，代表各示例点为人脸细化特征对应的身体健康状况信息的概率，将概率回归图每个示例点按照空间位置对应关系还原至对应的原始图像块，概率值大于0.5的图像块即模型判定的异常区域，实现人脸细化特征对应的身体健康状况定位；

对概率回归图进行最大值滤波，得到全图的人脸细化特征对应的身体健康状况分类概率结果，实现图像的特征或异常分类；最大值滤波公式如下所示：

其中pⁿ代表第n张输入图片的特征或异常概率值；

为获得高语义特征和高空间信息，本算法在基础系统结构上，引入了多语义上下文特征融合与空洞残差模块。空洞残差模块通过在模型的第四个基础残差块中引入空洞卷积操作，将基础残差块的移窗步长设置为1，除第一个卷积层外，设置剩余的卷积层为空洞为1的空洞卷积；多语义上下文特征融合将原始图像经过四个残差块获得的四个多维特征，通过多维特征映射到语义特征得到4个包含不同语义信息的上下文特征，其中不同尺寸的上下文特征通过最大值滤波统一尺寸，最后经过逐像素点相加得到融合语义特征图。

多语义上下文特征融合与空洞残差模块相结合，在增加输出特征空间分辨率的同时，保留了神经元的原始感受野，将空间信息和语义信息进行有效结合，使得模型同时具有良好的空间细节信息保留能力和高维语义理解能力，从而同时实现人脸图像的特征或异常分类和对应的身体健康状况。

进一步的，在S3中，损失函数分为两方面，其一利用图像级标签计算图像的良恶性二分类交叉熵损失，公式如下所示：

其中yⁿ代表第n张图片的图像级分类标签，yⁿ∈(0，1)，当yⁿ＝0时，表示良性，当yⁿ＝1时，表示恶性；

进一步的，在S3中，损失函数分为两方面，其二利用少量定位框标签计算示例的正常异常性二分类交叉熵损失，公式如下所示：

其中

代表第n张图片的定位标注图在第i列第j行的分类标签，

当

时，表示良性，当

时，表示恶性；

最终总损失函数为上述两者的加权和，公式如下所示：

其中，a_n＝1表示第n个样本带有定位标注，反之则α_n＝0；β是平衡因子，β∈[0，1]；

通过反向传导过程实现模型参数训练，迭代更新直至损失值足够小时，认为模型收敛，停止训练。

与现有技术相比，本发明具有如下优点：

1、将预分割处理后的人脸图像输入系统，利用图像级标签和少量定位框标签训练得到相应的参数，得到一个可用于人脸细化特征对应的身体健康状况信息，并提供对应的食补方案或健康建议。

2、通过结合多语义上下文特征融合和空洞残差操作，保留了模型的空间细节信息和语义理解信息，通过结合基于图像的分类损失函数和基于示例的分类损失函数，同时引入图像级标签和少量定位框标签来训练模型参数，克服了先前仅利用图像级标签的方法异常区域定位效果差的问题，同时在模型训练迭代过程中不需要大量定位框标签，从而降低了数据获取成本，加速模型更新速度。

附图说明

图1是本发明中融合图像级标签和少量定位框标签的基于深度卷积神经网络的人脸细化特征对应的身体健康状况信息定位系统的模型框架图。

图2是本发明基于示例的分类损失函数使用的定位标注图。

图3是六种方法在不同IOR阈值条件下的定位准确率变化趋势以及对比图。

图4是不使用带定位标注样本、加入10张带定位标注样本和加入20张带定位标注样本参与训练情况下，本发明的算法在IOR为0.1、0.2和0.3条件下的定位准确率变化趋势图。

具体实施方式

下面结合附图对本发明做进一步说明：

本发明算法结合图1，包括以下步骤：

步骤1：采用阈值法和形态学法对人脸图像进行预切割处理，剔除水印信息和大量无信息的黑色区域，放大人脸异常区域的占图比例。

由于人脸图像成像特性，图像除了异常部分外还有很大的黑色区域，其中带有成像信息，这部分区域是无用的，预处理过程将采用形态学法和阈值法剔除掉这部分，保证异常区域部分充盈整副图像。在训练阶段，模型需统一图像尺度大小，本发明在训练时统一图像尺度为672x448。

步骤2：搭建整体网络系统结构，输入预分割处理后的人脸图像进行模型参数训练。

网络主体是四级卷积残差模块，其中最后一级卷积残差模块为空洞残差模块，每级卷积残差模块输出不同语义不同尺度的多维特征，前三级输出的特征空间大小是逐级递减的，前级为后级的四倍，最后一级特征大小与第三级相同。

将获得的四份不同语义不同尺度的多维特征通过多维特征映射到语义特征，得到四个包含不同语义信息的上下文特征，不同尺度的上下文特征通过最大值滤波操作统一尺寸，最后经过逐像素点相加输出融合语义特征。

融合语义特征经过逐示例逻辑斯特回归输出概率回归图，对概率回归图进行最大值滤波获得图像的分类概率回归值。

针对概率回归图，采用基于示例的分类损失函数，公式如下所示：

图2示出了该损失函数使用的标签样例。

针对概率回归值，采用基于图像的分类损失函数，公式如下所示：

最后将两个损失函数加权求和得到总损失函数，公式如下所示：

其中α_n＝1表示第n个样本带有定位标注，反之则α_n＝0。β是可选损失的平衡因子，β∈[0，1]。

利用总损失函数的反向传导实现模型参数更新，直至损失值降至足够小时，认为网络收敛，停止训练。

步骤3：输入人脸图像进行正常异常分类。

首先对输入测试图像进行步骤1的预分割处理，由于系统是全卷积神经网络，测试时不需要固定输入尺度，本发明在测试时将输入图像大小按照如下公式进行变换：

所得测试图像的长和宽均为16的倍数。再将变换大小后的图像输入训练好的模型中获得概率回归图和概率回归值。将概率回归图上的每个示例点的概率值对应回原图上的图像块，概率值大于0.5的为肿瘤，小于0.5的为正常，从而获得肿瘤的定位输出；概率回归值大小代表输入测试图像的良恶性概率，概率值大于0.5表示图像预测为恶性，小于0.5表示图像预测为良性。

图3显示了六种方法在不同IOR阈值条件下的定位准确率变化趋势以及对比。如图所示，当IOR阈值增大时，所有方法的定位准确率都降低了。

当T(IOR)＝0.1时，包括最基础的‘FC’方法都能达到较高的定位准确率，当T(IOR)升高时，有些方法准确率开始急剧下降，可以看出，‘MIL+MS’和‘MIL+Dilated’的下降趋势比‘MIL’和‘FC’更加平缓，说明引入多语义上下文特征融合和空洞残差模块带来了定位性能的提升。‘MIL+ODL’变化曲线反映出引入少量带定位标注样本参与训练也可以很大程度提高定位准确率。

图4显示了不使用带定位标注样本、加入10张带定位标注样本和加入20张带定位标注样本参与训练情况下，本发明的算法在IOR阈值为0.1、0.2和0.3条件下的定位准确率变化趋势。可以看出，仅加入10张带定位标注的样本就可以将定位准确率提高将近10％，在T(IOR)越大的情况下，提升的越明显。但在加入20张带定位标注样本后，定位准确率变化变缓，说明再多加入定位标注样本已经无法带来更大的性能提升。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于深度卷积神经网络的面部图像识别算法，其特征在于，所述方法包括以下步骤：

S2，采用全卷积神经网络结合多示例学习方法构建基础系统结构，将多语义上下文特征融合与空洞残差操作块结合，嵌入基础系统结构中，在保证系统对图像语义信息有效提取的前提下，保留系统对图像空间信息的感知，同时实现面部图像分类和怀疑区域定位；

2.根据权利要求1所述的一种基于深度卷积神经网络的面部图像识别算法，其特征在于：在S2中，采用全卷积神经网络进行图像特征提取，获得通道维度为C，空间维度为W×h的语义特征图；再经过

个3x3的C维卷积核，得到

其中，n代表第n张输入图片，ij代表第i列第j行，

其中pⁿ代表第n张输入图片的特征或异常概率值；

空洞残差模块通过在模型的第四个基础残差块中引入空洞卷积操作，将基础残差块的移窗步长设置为1，除第一个卷积层外，设置剩余的卷积层为空洞为1的空洞卷积；多语义上下文特征融合将原始图像经过四个残差块获得的四个多维特征，通过多维特征映射到语义特征得到4个包含不同语义信息的上下文特征，其中不同尺寸的上下文特征通过最大值滤波统一尺寸，最后经过逐像素点相加得到融合语义特征图。

3.根据权利要求1所述的一种基于深度卷积神经网络的面部图像识别算法，其特征在于：在S3中，损失函数分为两方面，其一利用图像级标签计算图像的良恶性二分类交叉熵损失，公式如下所示：