CN112633134A

CN112633134A - 基于图像识别的车内人脸识别方法、装置及介质

Info

Publication number: CN112633134A
Application number: CN202011510603.8A
Authority: CN
Inventors: 吴晓东
Original assignee: Shenzhen Saiante Technology Service Co Ltd
Current assignee: Shenzhen Saiante Technology Service Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09

Abstract

本发明涉及人工智能，揭露一种基于图像识别的车内人脸识别方法，包括：获得车内的原始输入图像；构建特征抽取网络，抽取原始输入图像的图像特征；所述特征抽取网络的输出的图像特征执行多次CBL模块的操作和卷积操作获得一种尺度的特征图；所述特征抽取网络的不同中间层分别执行多次CBL模块操作、卷积、上采样和特征拼接操作，获得至少三种不同尺度的特征图；在至少四种尺度的特征图上采用锚框的方法进行进行人脸的检测与识别；将特征图上预测得到的人脸坐标映射为原始输入图像上的坐标，从而实现图像的车内人脸识别。还提供一种装置、电子设备及计算机可读存储介质。本发明提高困难场景下人脸识别的准确率和召回率。

Description

基于图像识别的车内人脸识别方法、装置及介质

技术领域

本发明涉及人工智能，尤其涉及一种基于图像识别的车内人脸识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能技术的高速发展，深度学习越来越多的应用于计算机视觉中，尤其是图像识别领域。人脸作为人体的一个而重要标志，是进行不同人识别的基础手段。

Yolo(全称为You Only Look Once)是常用的深度学习方法，仅仅使用一个CNN网络直接预测不同目标的类别与位置，YOLO将物体检测作为回归问题求解，基于一个单独的end-to-end网络，完成从原始图像的输入到物体位置和类别的输出。YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。

基于YOLOv3的深度学习方法，由于其检测速度快，成为目前业内比较流行的人脸识别的检测算法之一。基于YOLOv3的人脸识别算法在晴天、白天、无遮挡等简单场景下可以达到实时检测且具有较高准确率的效果，但在雨天、夜间、有遮挡等困难场景下，其准确率和召回率都还相对较低。

发明内容

本发明提供一种基于图像识别的车内人脸识别方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高雾霾、雨天、夜间、人脸线模糊等困难场景下，人脸识别的准确率和召回率。

为实现上述目的，本发明提供一种基于图像识别的车内人脸识别方法，包括：

获得车内的原始输入图像；

构建特征抽取网络，抽取原始输入图像的图像特征，所述图像特征包括颜色特征、纹理特征、形状特征和空间关系特征中的一个或多个，所述特征抽取网络包括多个CSPX模块，所述CSPX模块模块包括ResX模块和两个CBL模块，ResX模块与一个CBL模块串联再与另外一个CBL模块并联拼接，所述CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程，所述ResX模块包括CBL模块和X个残差模块,所述残差模块指的是执行多个CBL模块操作与原始输入相加的运算过程；

所述特征抽取网络的输出的图像特征执行多次CBL模块的操作和卷积操作获得一种尺度的特征图；

所述特征抽取网络的不同中间层分别执行多次CBL模块操作、卷积、上采样和特征拼接操作，获得至少三种不同尺度的特征图；

在至少四种尺度的特征图上采用锚框的方法进行进行人脸的检测与识别；

将特征图上预测得到的人脸坐标映射为原始输入图像上的坐标，从而实现图像的车内人脸识别。

可选地，所述特征抽取网络为CSP-DarkNet，包括一个CBL模块、多个CSPX模块和多个CBM模块，CBM模块的输入矩阵是CSPX模块的输出矩阵，所述CBM模块指的是依次执行卷积、批归一化处理、与CBL模块不同的另一种激活操作的运算过程。

可选地，所述特征抽取网络包括五个CSPX模块和五个CBM模块，五个CSPX模块的结构为1、2、8、8、4，CSP-DarkNet依次包括CBL模块、CSP1模块、CBM模块、CSP2模块、CBM模块、CSP8模块、CBM模块、CSP8模块、CBM模块、CSP4模块和CBM模块。

可选地，所述CSP4模块的输出执行CBL模块的操作和卷积操作获得一种尺度的特征图；将CSP2模块、CSP8模块、CSP8模块和CSP4模块分别执行多次CBL模块的操作、卷积、上采样、特征拼接操作，获得三种不同尺度的特征图。

可选地，所述CSP4模块的输出执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第一尺度特征图；CSP2模块、CSP8模块、CSP8模块和CSP4分别执行1层CBL模块的操作和上采样与原始输出特征拼接后分别执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第二尺度特征图、第三尺度特征图和第四尺度特征图。

可选地，所述在至少四种尺度的特征图上采用锚框的方法进行进行人脸的检测与识别的步骤包括：

设定多个不同尺寸的锚框；

根据特征图的尺寸采用聚类方法在特征图上生成相应的多个锚框；

通过损失函数对多个锚框进行回归处理和人脸识别。

可选地，所述通过损失函数对多个锚框进行回归处理和人脸识别的步骤包括：

所述损失函数包括坐标损失、类别损失和DIOU损失，所述坐标损失包括锚框的中心点坐标损失和锚框的宽高损失

loss＝∑loss_xy+loss_wh+loss_class+loss_diou

其中，loss为总损失，loss_xy为锚框的中心点坐标损失，loss_wh为锚框的宽高损失，loss_class为锚框的类别损失，loss_diou为DIOU损失；

通过特征图上锚框的中心坐标x与坐标y的交叉熵损失之和，根据下式获得锚框的中心点坐标损失：

其中，x_{true_x}为中心坐标x的实际值，x_{predict_x}为中心坐标x的预测值，y_{true_y}为中心坐标y的实际值，y_{predict_y}为中心坐标y的预测值；

通过特征图上锚框的高和宽的均方损失之和获得锚框的宽高损失：

其中，y_{true_w}为锚框的宽的实际值，x_{predict_x}为锚框的宽的预测值，y_{predcit_w}为锚框的高的实际值，y_{predict_h}为锚框的高的预测值；

通过类别的交叉熵损失，根据下式获得锚框的类别损失

loss_class＝-(y_{true_class}logy_{predict_class}

+(1-y_{true_class})log(1-y_{predict_class}))

其中，y_{true_class}为锚框的实际类别，y_{predict_class}为锚框的预测类别；

通过锚框与真实标注框之间的损失，根据下式获得锚框的DIOU损失：

其中，

I表示锚框与真实标注框的交集面积，U表示锚框与真实标注框的并集面积；d²(box_predict,box_true)表示锚框与真实标注框的中心点之间的距离的平方；c²表示同时包围锚框与真实标注框的最小外接矩阵的对角线长度。

为实现上述目的，本发明还提供一种基于图像识别的车内人脸识别装置，包括：

采集模块，获得车内的原始输入图像；

特征抽取网络，用于抽取采集模块采集的原始输入图像的图像特征，所述图像特征包括颜色特征、纹理特征、形状特征和空间关系特征中的一个或多个，所述特征抽取网络包括多个CSPX模块，所述CSPX模块模块包括ResX模块和两个CBL模块，ResX模块与一个CBL模块串联再与另外一个CBL模块并联拼接，所述CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程，所述ResX模块包括CBL模块和X个残差模块,所述残差模块指的是执行多个CBL模块操作与原始输入相加的运算过程；

特征图生成模块，所述特征抽取网络的输出的图像特征执行多次CBL模块的操作和卷积操作获得一种尺度的特征图；所述特征抽取网络的不同中间层分别执行多次CBL模块操作、卷积、上采样和特征拼接操作，获得至少三种不同尺度的特征图；

人脸识别模块，在至少四种尺度的特征图上采用锚框的方法进行进行人脸的检测与识别；

映射模块，将特征图上预测得到的人脸坐标映射为原始输入图像上的坐标，从而实现图像的车内人脸识别。

为实现上述目的，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的基于图像识别的车内人脸识别方法。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于图像识别的车内人脸识别方法。

本发明所述基于图像识别的车内人脸识别方法、装置、电子设备及计算机可读存储介质扩展了至少四种尺度的特征图，有效扩大了更多不同尺度的人脸的召回，从而提高了人脸检测的整体召回率。在特征抽取网络中，CSPX模块在原始ResX模块中的普通残差连接的基础上增加了跨层跳跃残差连接(特征拼接操作)，可以使得在困难场景下的图像的低层和中间层特征的信息丢失进一步减少(即特征更完整)；另外跨层跳跃残差连接还能防止梯度消失现象的发生，从而使特征更精确，使得特征表达能力更强，显著增强了雨天、夜间、车内遮挡等困难场景下的特征表达能力，从而提高了车内人脸识别的整体准确率。

附图说明

图1是本发明所述基于图像识别的车内人脸识别方法的流程图；

图2是本发明一实施例提供的特征抽取网络的构成示意图；

图3是本发明所述基于图像识别的车内人脸识别方法的一个优选实施例的示意图；

图4为本发明一实施例提供的基于图像识别的车内人脸识别装置的模块示意图；

图5为本发明一实施例提供的实现基于图像识别的车内人脸识别方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是本发明所述基于图像识别的车内人脸识别方法的流程图，如图1所示，所述车内人脸识别方法包括：

步骤S1,获得车内的原始输入图像，所述原始输入图像通过行车记录仪等具有拍摄功能的设备获得；

步骤S2,构建特征抽取网络，用于抽取原始输入图像的图像特征，所述图像特征包括颜色特征、纹理特征、形状特征和空间关系特征中的一个或多个，所述特征抽取网络包括多个CSPX模块，所述CSPX模块模块包括ResX模块和两个CBL模块，ResX模块与一个CBL模块串联再与另外一个CBL模块并联拼接，所述CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程,例如，CBL＝max(0,y)+0.01*min(0,y)，其中

x＝∑I*U，I表示输入矩阵，U表示卷积核矩阵，μ表示所有x的平均值，σ表示所有x的标准差，γ和β是参数，如取γ＝1.2，β＝0.1，所述ResX模块包括CBL模块和X个Resunit(残差模块),所述残差模块指的是执行多个CBL模块操作与原始输入相加的运算过程；

步骤S3，所述特征抽取网络的输出的图像特征执行多次CBL(卷积处理+批归一化处理+激活函数)模块的操作和Conv(卷积)操作获得一种尺度的特征图，例如，Conv＝∑I*U；

步骤S4，所述特征抽取网络的不同中间层分别执行多次CBL模块操作、Conv、Upsample(上采样)、Concat(特征拼接)操作，获得至少三种不同尺度的特征图；

步骤S5，在至少四种尺度的特征图上采用anchor box(锚框)的方法进行人脸的检测与识别；

步骤S6，将特征图上预测得到的人脸坐标映射为原始输入图像上的坐标，从而实现图像的车内人脸识别。

在一个实施例中，在步骤S2中，如图2所示，所述特征抽取网络为CSP-DarkNet，包括一个CBL模块、多个CSPX模块和多个CBM模块，CBM模块的输入矩阵是CSPX模块的输出矩阵，所述CBM模块指的是依次执行卷积、批归一化处理、与CBL模块不同的另一种激活操作的运算过程，例如，CBM＝y*tanh(ln(1+e^y))，优选地，包括五个CSPX模块和五个CBM模块，五个CSPX模块的结构为1、2、8、8、4，也就是说，CSP-DarkNet依次包括CBL模块、CSP1模块、CBM模块、CSP2模块、CBM模块、CSP8模块、CBM模块、CSP8模块、CBM模块、CSP4模块和CBM模块。

特征图的尺度越多召回率越高，但是准确率会相应有所下降。另外，尺度越多的话，模型结构会越复杂，导致检测速度下降。因此，权衡准确率和召回率、召回率和检测速度，优选地为4种尺度，效果最佳(平衡效果最好)，具体地：

在步骤S3中，如图3所示，在步骤S3中，CSP4模块的输出执行CBL模块的操作(卷积处理+批归一化处理+激活函数)和Conv(卷积)操作获得一种尺度的特征图。进一步，优选地，CSP4模块的输出执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第一尺度特征图y1。

在步骤S4中，将CSP2模块、CSP8模块、CSP8模块和CSP4模块分别执行多次CBL模块的操作、Conv、Upsample(上采样)、Concat(特征拼接)操作，获得三种不同尺度的特征图，优选地，CSP2模块、CSP8模块、CSP8模块和CSP4分别执行1层CBL模块的操作和上采样与原始输出Concat(特征拼接)后分别执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第二尺度特征图y2、第三尺度特征图y3和第四尺度特征图y4。

优选地，第一尺度特征图、第二尺度特征图、第三尺度特征图和第四尺度特征图的尺度分别为8*8,16*16,32*32,64*64。

在步骤S2中，所述CBL模块的激活操作中的激活函数为LeakyRelu，所述CBM模块的激活操作中的激活函数为Mish。

本发明CSP-DarkNet改进了DarkNet53中的核心模块ResX(，主要是将ResX模块改进成了CSPX模块，特征表达能力的增强正是因为这个核心模块的改进(ResX->CBResX)带来的。之所以能够提升特征表达能力，是因为CSPX模块在原始ResX模块中的普通残差连接(即图2中的相加操作)的基础上增加了跨层跳跃残差连接(即图2中的特征拼接操作)，可以使得特征抽取网络在困难场景下的图像的低层和中间层特征的信息丢失进一步减少(即特征更完整)；另外跨层跳跃残差连接还能防止梯度消失现象的发生，从而使特征抽取网络能够训练的更好(即特征更精确)。特征更完整、更精确，也就是特征表达能力更强。

在一个实施例中，在步骤S5中，所述在至少四种尺度的特征图上采用锚框的方法进行进行人脸的检测与识别的步骤包括：

设定多个不同尺寸的锚框；

通过损失函数对多个锚框进行回归处理和人脸识别。

优选地，所述通过损失函数对多个锚框进行回归处理和人脸识别的步骤包括：

loss＝∑loss_xy+loss_wh+loss_class+loss_diou

通过类别的交叉熵损失，根据下式获得锚框的类别损失

loss_class＝-(y_{true_class}logy_{predict_class}

+(1-y_{true_class})log(1-y_{predict_class}))

其中，

现有技术中DIOU损失函数应用到YOLOv3中，将原始的改进的均方差损失直接替换成了DIOU损失(即将检测框的坐标损失由“改进的均方差损失”直接替换成了最新的“DIOU损失”)，而本发明中的应用与他们不同，本发明是在保留原始的改进的均方差损失的基础上新增加DIOU损失，可以同时利用这两种损失来对检测框的坐标进行相互校准(即DIOU损失对均方差损失回归出来的检测框坐标进行校准，均方差损失也对DIOU损失回归出来的检测框坐标进行校准)，这样回归出来的检测框坐标可以相对于单一的均方差损失或DIOU损失回归出来的坐标更加精准。

人脸检测框的坐标回归得更加精准的话，就会使得最后做NMS(非极大值抑制)后处理获取的最终预测框更加精确(即提高了正确检测框个数)，从而提高准确率和召回率。

在一个具体实施例中，对500张困难场景下的包含车内图像的原始输入图像进行人脸识别，坐标损失单独使用改进的均方差损失的准确率为91.6％，召回率为72.3％；坐标损失单独使用DIOU损失的准确率为94.1％，召回率为75.7％；坐标损失同时使用改进的均方差损失和DIOU损失的准确率为96.8％，召回率为78.2％。

在一个实施例中，在步骤S5中，包括：预先使用k-means算法聚类得到的12个anchor box分别在得到的y1、y2、y3、y4这四种不同尺度的特征图上进行人脸的检测与识别，每种特征图上分别预测3个不同anchor box的坐标和类别(即二分类，是否为人脸)，具体地，包括：

每个特征图划分成多个网格，每个特征图分配三个锚框在多个网格中滑动，每个网格中进行锚框预测和类别的预测，所述锚框预测包括预测锚框的坐标、高度和宽度，预测的坐标、高度和宽度相对于分配的三个锚框而言，优选地，锚框的坐标为分配的锚框坐标和预测的锚框坐标之和，锚框的高度和宽度是分配的锚框宽度的指数倍数，所述指数为预测的锚框的高度和宽度；类别的预测可以采用分类模型获得；

通过对每个网格的锚框预测和类别预测，实现人脸的检测，即获得人脸的坐标。

在一个具体实施例中，第一特征图y1的大小为16*16，分配给它的anchor box为3个，将这3个anchor box分别在16*16＝256个网格中滑动，每个网格进行锚框的坐标(即x,y,w,h，(x,y)表示锚框的中心点在特征图上的坐标，(w,h)表示锚框的宽和高)和类别(二分类，即是否为人脸)预测。这里预测出来的坐标和宽高值都是相对于当前这3个anchor box的坐标和宽高值而言的，例如，1个anchor box通过预先用kmeans聚类得到的宽高为(2,3)，该anchor box当前滑动到了特征图(即y1，16*16的矩阵)上第2个网格，则该anchor box的坐标为(1,0)，宽高为(2,3)，预测出来的相对于该anchor box的坐标为(0.3,0.6)、宽高为(2.1,1.3)，那么基于该anchor box得到的预测框在特征图y1上的坐标为(1+0.3,0+1.6)＝(1.3,1.6)，宽高为(2*e^2.1,3*e^1.3)＝(16.3,11.0)。另外3种尺度的特征图上也是进行类似的操作，最后实现人脸的检测(即坐标)。人脸的识别(即分类)比较简单，也就是模型直接预测就可得到，也就是模型直接预测该anchor box为人脸的概率(0～1之间的小数)，若该概率大于0.5，则为人脸，反之不是。

在一个实施例中，在步骤S6中，所述将特征图上预测得到的人脸坐标映射为原始输入图像上的坐标的步骤包括：

获得原始输入图像与特征图的比例；

将anchor box(锚框)坐标扩大所述比例得到映射坐标；

判断映射坐标是否存在超过原始输入图像尺寸的维度；

如果存在所述维度，将所述维度对应的坐标设定为原始输入图像对应的尺寸，实现特征图上人脸坐标在原始输入图像上的映射；

如果不存在所述维度，将映射坐标作为特征图上人脸坐标对应的原始输入图像上的坐标。

在一个具体实施例中，假设特征图y1的大小为16*16，特征图y1上的人脸预测框的坐标为(1.3,1.6)，宽高为(16.3,11.0)，假设原始输入图像大小为1024*768，经过调整尺寸操作后的模型输入图大小为512*512，则首先将该人脸预测框坐标(1.3,1.6)和宽高(16.3,11.0)分别映射到模型输入图上变为(1.3*(512/16),1.6*(512/16))＝(41.6,51.2)、(16.3*(512/16),11.0*(512/16))＝(521.6,352.0)(也就是模型输入图->特征图y1是缩小了32倍，现在反过来，即将特征图y1放大32倍还原到模型输入图上)，接着再将映射到模型输入图上的坐标(41.6,51.2)和宽高(521.6,352.0)分别再映射到原始输入图上变为(41.6*(1024/512),51.2*(768/512))＝(83.2,76.8)、(521.6*(1024/512),352.0*(768/512))＝(1043.2,528)，若宽超过1024，或高超过768则取最小值，宽映射后为1043.2>1024，则改为1024，最终的宽高为(1024,528)。

在一个实施例中，在步骤S1和步骤S2之间还包括：调整车内的原始输入图像的大小到设定尺寸，优选地，将原始输入图像的大小调整成固定大小512*512。

本发明所述基于图像识别的车内人脸识别方法改进了DarkNet53特征抽取网络，将其重新设计成一种全新的网络结构CSP-DarkNet，显著增强了雨天、夜间、车内遮挡等困难场景下的特征表达能力，从而提高了车内人脸识别的整体准确率；将特征图扩展尺度成了至少4种尺度，有效扩大了更多不同尺度的车内人脸的召回，从而提高了车内人脸识别的整体召回率；改进了原先的损失函数，在原先仅包含坐标损失、类别损失的基础上增加了一种先进的DIOU损失，能够更加精准地拟合车内人脸检测框的位置和大小，从而进一步提高了车内人脸识别的整体准确率和召回率，其中，准确率＝正确检测框个数/总的预测检测框个数；召回率＝正确检测框个数/总的标注检测框个数。

在一个具体实施例中，分别采用ResX模块的原始DarkNet53和采用CSPX模块的本发明CSP-DarkNet对500张困难场景下的包含车内图像的原始输入图像进行人脸识别，采用ResX模块的原始DarkNet53最终的检测准确率93.4％，而采用CSPX模块的本发明CSP-DarkNet最终的检测准确率96.9％。3种尺度的特征图召回率为72.3％，4种尺度的特征图的召回率：74.9％。

图4是本发明所述基于图像识别的车内人脸识别装置的构成框图，如图4所示，所述人脸检测装置100可以安装于电子设备中。根据实现的功能，所述人脸检测装置可以包括采集模块110、特征抽取网络120、特征图生成模块130、人脸识别模块140和映射模块150。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

采集模块110，获得车内的原始输入图像；

特征抽取网络120，用于抽取采集模块采集的原始输入图像的图像特征，所述图像特征包括颜色特征、纹理特征、形状特征和空间关系特征中的一个或多个，所述特征抽取网络包括多个CSPX模块，所述CSPX模块模块包括ResX模块和两个CBL模块，ResX模块与一个CBL模块串联再与另外一个CBL模块并联拼接，所述CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程，所述ResX模块包括CBL模块和X个残差模块,所述残差模块指的是执行多个CBL模块操作与原始输入相加的运算过程；

特征图生成模块130，所述特征抽取网络的输出的图像特征执行多次CBL模块的操作和卷积操作获得一种尺度的特征图；所述特征抽取网络的不同中间层分别执行多次CBL模块操作、卷积、上采样和特征拼接操作，获得至少三种不同尺度的特征图；

人脸识别模块140，在特征图生成模块130获得的至少四种尺度的特征图上采用锚框的方法进行进行人脸的检测与识别；

映射模块150，将特征图上预测得到的人脸坐标映射为原始输入图像上的坐标，从而实现图像的车内人脸识别。

在一个实施例中，所述特征抽取网络为CSP-DarkNet，包括一个CBL模块、多个CSPX模块和多个CBM模块，CBM模块的输入矩阵是CSPX模块的输出矩阵，所述CBM模块指的是依次执行卷积、批归一化处理、与CBL模块不同的另一种激活操作的运算过程。

优选地，所述特征抽取网络包括五个CSPX模块和五个CBM模块，五个CSPX模块的结构为1、2、8、8、4，CSP-DarkNet依次包括CBL模块、CSP1模块、CBM模块、CSP2模块、CBM模块、CSP8模块、CBM模块、CSP8模块、CBM模块、CSP4模块和CBM模块。特征图生成模块130使得SP4模块的输出执行CBL模块的操作和卷积操作获得一种尺度的特征图；将CSP2模块、CSP8模块、CSP8模块和CSP4模块分别执行多次CBL模块的操作、卷积、上采样、特征拼接操作，获得三种不同尺度的特征图。

优选地，特征图生成模块130 CSP4模块的输出执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第一尺度特征图；CSP2模块、CSP8模块、CSP8模块和CSP4分别执行1层CBL模块的操作和上采样与原始输出特征拼接后分别执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第二尺度特征图、第三尺度特征图和第四尺度特征图。

优选地，所述CBL模块的激活操作中的激活函数为Leaky Relu，所述CBM模块的激活操作中的激活函数为Mish。

本发明CSPX模块相对于ResX模块能够更加有效地防止模型训练过程中发生梯度消失现象(梯度消失的话会导致模型训练不收敛)；能够进一步减少特征的信息损失(特征信息丢失多的话会直接影响模型的特征表达能力，从而影响模型的检测效果)。CBM模块相对于CBL模块能够以更平滑的方式解决神经元死亡现象(神经元死亡会导致模型泛化能力变弱)。

在一个实施例中，人脸识别模块140包括：

设定单元，设定多个不同尺寸的锚框；

锚框生成单元，根据特征图的尺寸采用聚类方法在特征图上生成相应的多个锚框；

识别单元，通过损失函数对多个锚框进行回归处理和人脸识别，优选地，所述损失函数包括坐标损失、类别损失和DIOU损失。

在一个实施例中，映射模块150包括：

比例获得单元，获得原始输入图像与特征图的比例；

锚框扩大单元，将锚框坐标扩大所述比例得到映射坐标；

判断单元，判断映射坐标是否存在超过原始输入图像尺寸的维度；如果存在所述维度，发送信号给第一映射单元；如果不存在所述维度，发送信号给第二映射单元；

第一映射单元，将所述维度对应的坐标设定为原始输入图像对应的尺寸，实现特征图上人脸坐标在原始输入图像上的映射；

第二映射单元，将映射坐标作为特征图上人脸坐标对应的原始输入图像上的坐标。

如图5所示，是本发明实现基于图像识别的车内人脸识别方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于图像识别的车内人脸识别程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如基于图像识别的车内人脸识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如基于图数据库的数据加速访问程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于图像识别的车内人脸识别程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

获得车内的原始输入图像；

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，计算机可读存储介质中包括计算机程序，该计算机程序被处理器执行时实现如下操作：

获得车内的原始输入图像；

本申请之计算机可读存储介质的具体实施方式与上述基于图像识别的车内人脸识别方法、装置、电子设备的具体实施方式大致相同，在此不再赘述。

本发明所述基于图像识别的车内人脸识别方法、装置、电子设备及计算机可读存储介质构建了一种全新的CSP-DarkNet特征抽取网络，显著增强了困难场景下的特征表达能力，从而提高了车内人脸识别的整体准确率；扩展了原先的特征图尺度，有效增加了人脸的多尺度召回，从而提高了车内人脸识别的整体召回率；改进了原先的损失函数，新增DIOU损失，有效提高了人脸检测框回归的精准度，从而进一步提高了车内人脸识别的整体准确率和召回率。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于图像识别的车内人脸识别方法，包括：

获得车内的原始输入图像；

构建特征抽取网络，抽取原始输入图像的图像特征，所述图像特征包括颜色特征、纹理特征、形状特征和空间关系特征中的一个或多个，所述特征抽取网络包括多个CSPX模块，所述CSPX模块模块包括ResX模块和两个CBL模块，ResX模块与一个CBL模块串联再与另外一个CBL模块并联拼接，所述CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程，所述ResX模块包括CBL模块和X个残差模块，所述残差模块指的是执行多个CBL模块操作与原始输入相加的运算过程；

2.如权利要求1所述的基于图像识别的车内人脸识别方法，其特征在于，所述特征抽取网络为CSP-DarkNet，包括一个CBL模块、多个CSPX模块和多个CBM模块，CBM模块的输入矩阵是CSPX模块的输出矩阵，所述CBM模块指的是依次执行卷积、批归一化处理、与CBL模块不同的另一种激活操作的运算过程。

3.如权利要求2所述的基于图像识别的车内人脸识别方法，其特征在于，所述特征抽取网络包括五个CSPX模块和五个CBM模块，五个CSPX模块的结构为1、2、8、8、4，CSP-DarkNet依次包括CBL模块、CSP1模块、CBM模块、CSP2模块、CBM模块、CSP8模块、CBM模块、CSP8模块、CBM模块、CSP4模块和CBM模块。

4.如权利要求3所述的基于图像识别的车内人脸识别方法，其特征在于，CSP4模块的输出执行CBL模块的操作和卷积操作获得一种尺度的特征图；将CSP2模块、CSP8模块、CSP8模块和CSP4模块分别执行多次CBL模块的操作、卷积、上采样、特征拼接操作，获得三种不同尺度的特征图。

5.如权利要求1所述的基于图像识别的车内人脸识别方法，其特征在于，CSP4模块的输出执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第一尺度特征图；CSP2模块、CSP8模块、CSP8模块和CSP4分别执行1层CBL模块的操作和上采样与原始输出特征拼接后分别执行5层CBL模块的操作、1层CBL模块的操作和卷积操作获得第二尺度特征图、第三尺度特征图和第四尺度特征图。

6.如权利要求1所述的基于图像识别的车内人脸识别方法，其特征在于，所述在至少四种尺度的特征图上采用锚框的方法进行进行人脸的检测与识别的步骤包括：

设定多个不同尺寸的锚框；

通过损失函数对多个锚框进行回归处理和人脸识别。

7.如权利要求6所述的基于图像识别的车内人脸识别方法，其特征在于，所述通过损失函数对多个锚框进行回归处理和人脸识别的步骤包括：

loss＝Σloss_xy+loss_wh+loss_class+loss_diou

通过类别的交叉熵损失，根据下式获得锚框的类别损失

loss_class＝-(y_{true_class}logy_{predict_class}+(1-y_{true_class})log(1-y_{predict_class}))

其中，

I表示锚框与真实标注框的交集面积，U表示锚框与真实标注框的并集面积；d²(box_predict，box_true)表示锚框与真实标注框的中心点之间的距离的平方；c²表示同时包围锚框与真实标注框的最小外接矩阵的对角线长度。

8.一种基于图像识别的车内人脸识别装置，其特征在于，所述装置包括：

采集模块，获得车内的原始输入图像；

特征抽取网络，用于抽取采集模块采集的原始输入图像的图像特征，所述图像特征包括颜色特征、纹理特征、形状特征和空间关系特征中的一个或多个，所述特征抽取网络包括多个CSPX模块，所述CSPX模块模块包括ResX模块和两个CBL模块，ResX模块与一个CBL模块串联再与另外一个CBL模块并联拼接，所述CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程，所述ResX模块包括CBL模块和X个残差模块，所述残差模块指的是执行多个CBL模块操作与原始输入相加的运算过程；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于图像识别的车内人脸识别方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于图像识别的车内人脸识别方法。