CN111523489A

CN111523489A - 年龄分类网络的生成方法、车载人员检测方法、装置

Info

Publication number: CN111523489A
Application number: CN202010338338.3A
Authority: CN
Inventors: 周康明; 彭山珍
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-11

Abstract

本申请涉及一种年龄分类网络的生成方法、车载人员检测方法、装置、计算机设备和存储介质。所述车载人员检测方法包括：对待检测图像进行目标检测，得到两轮车区域图像；将两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像；将人脸区域图像输入至年龄分类网络，得到目标对象的年龄区间；其中，年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，基网络块的参数值是在人脸识别网络进行训练得到的；将年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。该方法基于深度学习理论实现对车载人员的自动检测，极大的节省了人力；且有助于提高车载人员检测的准确性和检测的覆盖范围。

Description

年龄分类网络的生成方法、车载人员检测方法、装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种年龄分类网络的生成方法、装置、计算机设备和存储介质，以及一种车载人员检测方法、装置、计算机设备和存储介质。

背景技术

根据道路交通安全法的相关规定：摩托车后座不得乘坐未满12周岁的未成年人，轻便摩托车不得载人。

由于摩托车本身的安全系数不够高，在驾驶过程中易发生打滑，若摩托车上有儿童，很容易导致儿童从摩托车上摔落。且在行驶过程中，如果儿童向两侧伸手或者随意扭动身体，很容易导致发生严重的交通安全事故而造成伤害。传统技术，监督摩托车是否载有儿童的方式主要靠人力检测，例如，由交警现场对摩托车辆进行排查，存在浪费人力资源的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有助于识别目标人物的年龄所属区间的年龄分类网络的生成方法、装置、计算机设备和存储介质，以及一种能够节省对车载人员进行检测所耗费的人力的车载人员检测方法、装置、计算机设备和存储介质。

为了实现上述目的，第一方面，本申请实施例提供了一种年龄分类网络的生成方法，所述方法包括：

获取年龄分类初始网络的基网络块的参数；基网络块的参数是在人脸识别网络进行训练得到的；

获取第一训练集，第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间；

将第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值；

根据第一差异值调整年龄分类初始网络中除基网络块外的其他部分的模型参数；

采用第一训练集和调整后的模型参数，继续对年龄分类初始网络的模型参数进行调整，直到满足预设停止条件，得到年龄分类网络。

第二方面，本申请实施例提供了一种车载人员检测方法，方法包括：

对待检测图像进行目标检测，得到两轮车区域图像；

将两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像；

将人脸区域图像输入至年龄分类网络，得到目标对象的年龄区间；其中，年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，基网络块的参数值是在人脸识别网络进行训练得到的，且基网络块的参数值在训练年龄分类初始网络过程中固定不变；

将年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。

第三方面，本申请实施例提供了一种年龄分类网络的生成装置，所述装置包括：

获取模块，用于获取年龄分类初始网络的基网络块的参数；基网络块的参数是在人脸识别网络进行训练得到的；

获取模块，还用于获取第一训练集，第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间；

第一差异值生成模块，用于将第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值；

模型参数调整模块，用于根据第一差异值调整年龄分类初始网络中除基网络块外的其他部分的模型参数；

年龄分类网络生成模块，用于采用第一训练集和调整后的模型参数，继续对年龄分类初始网络的模型参数进行调整，直到满足预设停止条件，得到年龄分类网络。

第四方面，本申请实施例提供了一种车载人员检测装置，所述装置包括：

目标检测模块，用于对待检测图像进行目标检测，得到两轮车区域图像；

人脸识别模块，用于将两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像；

年龄分类模块，用于将人脸区域图像输入至年龄分类网络，得到目标对象的年龄区间；其中，年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，基网络块的参数值是在人脸识别网络进行训练得到的，且基网络块的参数值在训练年龄分类初始网络过程中固定不变；

检测结果生成模块，用于将年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。

第五方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以上第一方面和第二方面所述的方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上第一方面和第二方面所述的方法的步骤。

上述年龄分类网络的生成方法、装置、计算机设备和存储介质，在对年龄分类初始网络进行训练时，通过预先使用人脸识别数据训练集训练人脸识别分支网络，得到基网络块的参数；然后，使用基网络块的配置年龄分类初始网络的基网络块；最后，对配置好的基网络块的参数的年龄分类初始网络进行训练，有助于使年龄分类初始网络的训练能够更快更好地拟合。

上述车载人员检测方法、装置、计算机设备和存储介质，采用基于深度学习的模型对待检测图像进行目标检测和人脸识别，得到目标对象的人脸区域图像；采用年龄分类网络识别人脸区域图像得到的目标对象的年龄区间；基于该年龄区间得到对车载人员的年龄进行检测的结果。该方案一方面基于深度学习理论实现对现场车载人员的自动检测，极大的节省了人力；另一方面，由于传统技术中的车载人员检测多依靠交警现场对车辆进行排查，因此使用该方案有助于提高检测的准确性和检测的覆盖范围。

附图说明

图1为一个实施例中年龄分类网络的生成方法的应用环境图；

图2为一个实施例中年龄分类网络的生成方法的流程示意图；

图3为一个实施例中得到基网络块的参数的训练步骤流程示意图；

图4为一个实施例中基网络块中每个残差网络的结构示意图；

图5a为一个实施例中得到第一差异值步骤的流程示意图；

图5b为一个实施例中年龄分类网络的结构示意图；

图6a为一个实施例中得到第二差异值步骤的流程示意图；

图6b为一个实施例中人脸识别网络的结构示意图；

图7为一个实施例中年龄分类网络的生成方法的流程示意图；

图7a为一个实施中人脸属性识别模型的结构示意图；

图8为又一个实施例中车载人员检测方法的应用环境图；

图9为又一个实施例中车载人员检测方法的流程示意图；

图10为又一个实施例中车载人员检测方法的流程示意图；

图11为一个实施例中年龄分类网络的生成装置的结构框图；

图12为一个实施例中车载人员检测装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的年龄分类网络的生成方法，可以应用于如图1所示的应用环境中。该应用环境包括终端110和服务器120。终端110通过网络与服务器120通过网络进行通信。其中，终端110中部署有年龄分类初始网络，年龄分类初始网络是指待进行训练的年龄分类网络。年龄分类初始网络的基网络块的参数可以使用终端110或者终端110外的其他终端对人脸识别初始网络进行训练得到。对年龄分类初始网络进行训练使用到的第一训练集可以预存在服务器120中，也可以预存在终端110中。

以第一训练集预存在服务器120中为例，具体地，终端110获取年龄分类初始网络的基网络块的参数；基网络块的参数是在人脸识别网络进行训练得到的。终端110从服务器120中获取第一训练集，第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间。终端110将第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值；根据第一差异值调整年龄分类初始网络中除基网络块外的其他部分的模型参数；采用第一训练集和调整后的模型参数，继续对年龄分类初始网络的模型参数进行调整，直到满足预设停止条件，得到年龄分类网络。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑，个人数字助理、穿戴式设备等。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种年龄分类网络的生成方法，以该方法应用于图1中的终端110为例进行说明，包括以下步骤：

步骤S210，获取年龄分类初始网络的基网络块的参数；基网络块的参数是在人脸识别网络进行训练得到的。

其中，基网络块可以是指由至少一个CNN(Convolutional Neural Network，卷积神经网络)构成基础特征提取网络。常见的分类CNN模型不限于包括VGGNet(VisualGeometry Group Networks，一种深度卷积神经网络)、GoogLeNet(一种神经网络)、ResNet(Residual Networks，一种深度残差网络)。具体地，在对年龄分类初始网络进行训练前，预先对人脸识别初始网络进行训练，得到基网络块的参数。可以理解的是，人脸识别初始网络与年龄分类初始网络的基网络块结构相同。在对人脸识别初始网络训练完成后，使用最终得到的人脸识别网络的基网络块的参数，配置年龄分类初始网络的基网络块的参数。在后续训练年龄分类初始网络的过程中，不更新基网络块的参数。

步骤S220，获取第一训练集，第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间。

其中，第一训练集是指包括多张已进行年龄类别标注的人脸图像样本数据集。第一训练集可以是自定义的图像数据集，也可以是现有开放数据集，例如FG-NET(一种人脸数据集)、IMDB-WIKI(一种年龄识别数据集)，在此不做限定。第一图像样本即第一训练集中的人脸图像样本。年龄区间可以按实际需求进行划分，例如，将年龄区间划分为0-6岁、6-12岁和12岁以上。年龄类别与各年龄区间对应。具体地，终端预先对多张人脸图像样本标注年龄所属类别，生成第一训练集。当需要对年龄分类初始网络进行训练时，终端获取第一训练集。

步骤S230，将第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值。

步骤S240，根据第一差异值调整年龄分类初始网络中除基网络块外的其他部分的模型参数。

步骤S250，采用第一训练集和调整后的模型参数，继续对年龄分类初始网络的模型参数进行调整，直到满足预设停止条件，得到年龄分类网络。

具体地，终端将该第一训练集输入至年龄分类初始网络，得到各第一图像样本对应的年龄所属类别预测值。在训练过程中，根据各第一图像样本对应的年龄所属类别预测值和年龄所属类别标注值，通过预先配置的损失函数计算各第一图像样本对应的第一差异值，并根据第一差异值调整年龄分类初始网络中除基网络块外的其他部分的模型参数。其中，年龄所属类别标注值是指对第一图像样本中人物年龄预先标记的值。参考上述过程，采用第一训练集和调整后的模型参数，继续对年龄分类初始网络的模型参数进行调整。当达到预设停止条件时，可以根据训练过程中损失值最小或者鲁棒性最好的年龄分类网络的模型参数，生成最终使用的年龄分类网络。其中，损失函数通常在机器学习中被用于模型的参数估计，机器学习中常用的用于分类问题的损失函数不限于包括Hinge Loss(铰链损失函数)、Exponential Loss(指数损失函数)和Cross Entropy Loss(交叉熵损失函数)。预设停止条件可以是指达到预设迭代次数，或者第一差异值不再减小。

上述年龄分类网络的生成方法，在对年龄分类初始网络进行训练时，通过预先使用人脸识别数据训练集训练人脸识别分支网络，得到基网络块的参数；然后，使用基网络块的配置年龄分类初始网络的基网络块；最后，对配置好基网络块参数的年龄分类初始网络进行训练，有助于使年龄分类初始网络的训练能够更快更好地拟合。

在一个实施例中，如图3所示，基网络块的参数的生成方式，具体包括以下步骤。

步骤S310，获取第二训练集。

其中，第二训练集是指包括多张已进行人脸标注的人脸识别图像样本数据集。第二训练集可以是自定义的图像数据集，也可以是使用现有的开放数据集，在此不做限定。当需要对人脸识别初始网络进行训练时，终端获取第二训练集。

步骤S320，将第二训练集输入至人脸识别初始网络进行训练，得到第二训练集中各第二图像样本对应的人脸类别预测值相对人脸类别标注值的第二差异值，人脸识别初始网络包括基网络块。

步骤S330，根据第二差异值调整人脸识别初始网络的模型参数。

步骤S340，采用第二训练集和调整后的人脸识别初始网络的模型参数，继续对人脸识别初始网络的模型参数进行调整，直到满足预设停止条件，得到基网络块的参数。

其中，第二图像样本即第二训练集中的人脸识别图像样本。其中，人脸类别标注值是指对第二图像样本中人脸类别预先标记的值。具体地，终端将该第二训练集输入至人脸识别初始网络，得到每张图像样本对应的人脸类别预测值。在训练过程中，根据各第二图像样本对应的人脸类别预测值和年人脸类别标注值，通过预先配置的损失函数计算各第二图像样本对应的第二差异值，并根据第二差异值调整人脸识别初始网络中的模型参数。参考上述过程，采用第二训练集和调整后的模型参数，继续对人脸识别初始网络中的模型参数进行调整。当达到预设停止条件时，可以根据训练过程中第二差异值最小或者鲁棒性最好的人脸识别初始网络的模型参数，生成训练好的人脸识别网络。其中，人脸识别初始网络可以为Facenet、DeepFace等。训练人脸识别初始网络采用的损失函数不限于包括HingeLoss、Exponential Loss和Cross Entropy Loss。预设停止条件可以是指达到预设迭代次数，或者第二差异值不再减小。当确定训练好的人脸识别网络后，获取人脸识别网络中的基网络块的参数。根据该基网络块的参数配置年龄初始网络的基网络块。

本实施例中，通过使用人脸识别网络预先训练得到的基网络块的参数对年龄分类初始网络的基网络块进行配置，可以使对年龄分类初始网络的训练能够有效利用基网络块的参数，使得年龄分类初始网络的训练能够更快更好地拟合。

在一个实施例中，基网络块包括依次连接的多个残差网络。

具体地，如图4所示，示出了一个实施例中残差网络的结构示意图，其中，ReLU代表激活函数；BN代表归一化层；Scale代表缩放平移层；Conv代表卷积层；Eltwise代表按元素操作层。不同于一般CNN网络(如VGGNet、GoogLeNet等)那样使用有参层来直接尝试学习输入、输出之间的完整映射，ResNet将部分原始输入的信息不经过矩阵乘法和非线性变换，直接传输到下一层，即ResNet通过改变学习目标，即不再学习完整的输出，而是学习残差，收敛速度更快且分类精度高，从而增强了年龄分类网络和人脸识别网络的特征提取能力。

在一个实施例中，年龄分类初始网络包括依次连接的基网络块、第一卷积层、第一归一化/缩放平移/激活层、第二卷积层、第二归一化/缩放平移/激活层、第三卷积层、第一按元素操作Eltwise层、第三归一化/缩放平移/激活层、池化层、Dropout层以及第一全连接层，以及与第二卷积层和第二归一化/缩放平移/激活层并联的第四卷积层。如图5a所示，步骤S230中，将第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值，具体包括以下步骤。

步骤S231，通过第一按元素操作Eltwise层，将依次连接的基网络块、第一卷积层、第一归一化/缩放平移/激活层、第二卷积层、第二归一化/缩放平移/激活层、第三卷积层输出的特征矩阵，和依次连接的基网络块、第一卷积层、第一归一化/缩放平移/激活层、第四卷积层输出的特征矩阵进行Eltwise运算，得到各第一图像样本对应的第一特征矩阵。

步骤S232，将第一特征矩阵输入至依次连接的第三归一化/缩放平移/激活层、池化层、Dropout层以及第一全连接层，输出各第一图像样本对应的第一目标特征矩阵。

如图5b所示，示出了一个实施例中年龄分类网络的结构示意图。其中，stage1～stage4代表构成基网络块的基础特征提取网络，例如，残差网络，每个残差网络的结构示意图如图4所示；Conv代表卷积层；BN代表归一化层；Scale代表缩放平移层；ReLU代表激活函数；Eltwise代表按元素操作层；Pooling代表池化层，池化层优先采样最大池化；FC代表全连接层；Dropout层用于防止过拟合。本实施例中的“第一”、“第二”、“第三”“第四”代表网络中各层处理特征的顺序，如图5b所示，与stage4相连的Conv层为第一卷积层，与第一卷积层相连的BN、Scale、ReLU为第一归一化/缩放平移/激活层，以此类推。第一按元素操作Eltwise层支持按元素乘积、按元素求和以及保存元素大者操作，视具体情况进行配置。第一全连接层的通道数根据年龄类别而定，例如将年龄划分为3个类别，则第一全连接层的通道数为3。具体地，第一按元素操作Eltwise层将第三卷积层输出的特征矩阵和第四卷积层输出的特征矩阵进行Eltwise运算得到各第一图像样本对应的第一特征矩阵。

步骤S233，根据第一目标特征矩阵，得到各第一图像样本对应的年龄所属类别预测值。

步骤S234，根据各第一图像样本对应的年龄所属类别预测值和年龄所属类别标注值，得到第一差异值。

具体地，第三归一化/缩放平移/激活层、池化层、Dropout层以及第一全连接层对第一按元素操作Eltwise层输出的第一特征矩阵依次进行处理，得到第一目标特征矩阵。然后，采用softmax函数对第一目标特征矩阵进行归一化处理，得到各第一图像样本对应的年龄所属类别预测值，并基于该年龄所属类别预测值和年龄所属类别标注值，得到第一差异值。

在一个实施例中，人脸识别初始网络包括依次连接的基网络块、第一归一化/缩放平移层、第五卷积层、第二归一化/缩放平移层、激活层、第六卷积层、第三归一化/缩放平移层、第二按元素操作Eltwise层、第四归一化/缩放平移层以及第二全连接层。如图6a所示，在步骤S320中，将第二训练集输入至人脸识别初始网络进行训练，得到第二训练集中各第二图像样本对应的人脸类别预测值相对人脸类别标注值的第二差异值，具体包括以下步骤。

步骤S321，通过第二按元素操作Eltwise层，将基网络块输出的特征矩阵，和依次连接的第一归一化/缩放平移层、第五卷积层、第二归一化/缩放平移层、激活层、第六卷积层、第三归一化/缩放平移层输出的特征矩阵进行Eltwise运算，得到与各第二图像样本对应的第二特征矩阵。

如图6b所示，示出了一个实施例中人脸识别网络的结构示意图。stage1～stage4代表构成基网络块的基础特征提取网络，例如，残差网络，每个残差网络的结构示意图如图4所示；Conv代表卷积层；BN代表归一化层；Scale代表缩放平移层；ReLU代表激活函数；Eltwise代表按元素操作层；FC代表全连接层；Silence代表人脸识别网络在应用过程中不使用。其中，“第一”、“第二”、“第三”“第四”等代表网络中各层处理第二图像样本的顺序，如图6b所示，与stage4相连的BN、Scale为第一归一化/缩放平移层、与第一归一化/缩放平移层相连的Conv层为第五卷基层，以此类推。第二按元素操作Eltwise层支持按元素乘积、按元素求和以及保存元素大者操作，视具体情况进行配置。具体地，第二按元素操作Eltwise层将基网络块输出的特征矩阵和第三归一化/缩放平移层进行Eltwise运算得到各第二图像样本对应的第二特征矩阵。

步骤S322，将第二特征矩阵输入至依次连接的第四归一化/缩放平移层以及第二全连接层，得到与各第二图像样本对应的第二目标特征矩阵。

步骤S323，根据第二目标特征矩阵，得到各第二图像样本对应的人脸类别预测值。

步骤S324，根据各第二图像样本对应的人脸类别预测值以及人脸类别标注值，得到第二差异值。

具体地，第四归一化/缩放平移层以及第二全连接层对第二按元素操作Eltwise层输出的第二特征矩阵依次进行处理，得到第二目标特征矩阵。然后，采用softmax函数对第二目标特征矩阵进行归一化处理，得到各第二图像样本对应的人脸类别预测值，并基于该人脸类别预测值和人脸类别标注值，得到第二差异值。

在一个实施例中，如图7所示，示出了一个具体地年龄分类网络的生成方法。在本实施例中，年龄分类网络和人脸识别网络为图7a示出的人脸属性识别网络的两个分支网络。其中，stage1～stage4代表残差块；Conv代表卷积层；BN代表归一化层；Scale代表缩放平移层；ReLU代表激活函数；Eltwise代表按元素操作层；Pooling代表池化层；FC代表全连接层；Dropout层用于防止过拟合；Silence代表人脸识别网络在应用过程中不使用。人脸属性识别网络的基网络块包括4个残差网络，每个残差网络的结构如图4所示。如图7所示，年龄分类网络的生成方法包括以下步骤：

步骤S701，获取第二训练集。

其中，第二训练集采用CelebA(CelebFaces Attribute，人脸属性数据集)和(或)PubFig(Public Figures Face Database，公众人物脸数据集)。CelebA包含10,177个名人身份的202,599张人脸图像，每张人脸图像都做好了特征标记，包含人脸bounding box标注框、5个人脸特征点坐标以及40个属性标记，可以用于人脸相关的计算机视觉训练任务，例如，人脸属性标识训练、人脸检测训练等。PubFig是一个大型的真实世界的人脸数据集，由从互联网上收集的200人的58,797张图像组成。这些图像是在非合作主体的完全不受控制的情况下拍摄的。因此，姿势，光照，表情，场景，相机，成像条件和参数等存在很大差异。

步骤S702，将第二训练集输入至人脸识别初始网络进行训练，得到第二训练集中各第二图像样本对应的人脸类别预测值相对人脸类别标注值的第二差异值。

具体的，训练人脸识别初始网络是端到端的训练，每输入一张第二训练集中的第二图像样本，人脸识别初始网络会预测出对应的人脸类别预测值，并根据人脸类别预测值和人脸类别标注值计算得到第二差异值。

步骤S703，根据第二差异值调整人脸识别初始网络的模型参数。

步骤S704，采用第二训练集和调整后的人脸识别初始网络的模型参数，继续对人脸识别初始网络的模型参数进行调整，直到满足预设停止条件，得到基网络块的参数。

步骤S705，固定基网络块的参数。即，在后续对年龄分类初始网络的训练过程中，不对基网络块的参数进行调整。

步骤S706，获取第一训练集，第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间。例如，将年龄划分为三个年龄区间：0-6岁、6-12岁和12岁以上，它们分别对应的标签是0、1和2。

步骤S707，将第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值。

示例性地，对各年龄区间对应的标签进行one-hot编码(独热编码)，例如，对于0-6岁区间，one-hot编码之后用(1,0,0)来代表标签0，表示该0-6岁年龄区间的得分为1。若输入一个图像样本预测的三个得分为(0.6,0.3,0.1)，则分别表示0-6岁的得分概率0.6，6-12岁的得分概率0.3，12岁以上的得分0.1。则使用损失函数计算(0.6,0.3,0.1)和(1,0,0)之间的差异值。

步骤S708，根据第一差异值调整年龄分类初始网络中除所述基网络块外的其他部分的模型参数。

步骤S709，采用第一训练集和调整后的模型参数，继续对年龄分类初始网络的模型参数进行调整，直到满足预设停止条件，得到年龄分类网络。

本申请提供的车载人员检测方法，可以应用于如图8所示的应用环境中。该应用环境包括终端810和图像采集装置820，终端810可以是指具有较强的数据存储和计算能力的电子设备，终端810中部署有训练完成的目标检测网络、人脸检测网络和年龄分类网络。该目标检测网络、人脸检测网络和年龄分类网络可以使用终端810外的其他终端预训练完成。图像采集装置820可以是终端810中的，也可以是单独的设备。具体地，终端810对图像采集装置820采集的待检测图像进行目标检测，得到两轮车区域图像；终端810对两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像；将人脸区域图像输入至年龄分类网络，得到目标对象的年龄区间；其中，年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，基网络块的参数值是在人脸识别网络进行训练得到的，且基网络块的参数值在训练年龄分类初始网络过程中固定不变；终端810将年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。其中，终端810可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便捷式移动设备，图像采集装置820不限于是各种照相机、摄像机。

在一个实施例中，如图9所示，提供了一种车载人员检测方法，以该方法应用于图8中的终端810为例进行说明，包括以下步骤：

步骤S910，对待检测图像进行目标检测，得到两轮车区域图像。

其中，待检测图像是指待进行车载人员检测的图像。待检测图像可以是由图像采集装置采集得到，图像采集装置可以是照相机、摄像头或者智能手机等。两轮车不限于是自行车、电动车或者摩托车。两轮车区域图像是指包含完整的两轮车区域的图像。对待检测图像进行目标检测可以采用已训练好的目标检测网络，目标检测网络不限于是RefineDet(一种基于单阶段的检测器)、Faster R-CNN(一种目标检测网络)、SSD(Single Shot MultiboxDetector)和YOLO(You Only Look Once)。具体地，在获取待检测图像后，采用训练好的目标检测网络检测待检测图像中是否存在两轮车区域。若检测存在两轮车区域，则通过裁剪等方式将两轮车区域提取出来并保存，得到对应的两轮车区域图像。进一步地，在本实施例中，若通过目标检测网络检测待检测图像中不存在两轮车区域，那么可以结束本次检测流程。

步骤S920，将两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像。

其中，对两轮车区域图像进行人脸识别可以使用人脸检测网络，人脸检测网络不限于是Hyperface(一种基于深度学习的人脸检测算法)、Faceness Net(一种基于CNN的人脸检测器)、MTCNN(Multi-task Convolutional Neural Network，多任务卷积神经网络),在此不做限定。具体地，在获取两轮车区域图像后，采用训练好的人脸检测网络识别两轮车区域图像中是否存在人脸区域，若检测存在人脸区域，则通过裁剪等方式将人脸区域提取出来并保存，得到对应的人脸区域图像。

步骤S930，将人脸区域图像输入至年龄分类网络，得到目标对象的年龄区间；其中，年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，基网络块的参数值是在人脸识别网络进行训练得到的，且基网络块的参数值在训练年龄分类初始网络过程中固定不变。

步骤S940，将年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。

其中，年龄分类网络可以采用本申请中的年龄分类网络的生成方法中的任一个实施例得到。具体地，在获取人脸区域图像后，采用训练好的年龄分类网络识别人脸区域图像中目标对象的年龄区间。然后，将该年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。示例性地，设定大于年龄阈值时，车载人员检测通过；小于或者等于年龄阈值时，车载人员检测不通过。若获取目标对象的年龄区间大于年龄阈值，则生成车载人员检测通过的检测结果；否则，生成车载人员检测不通过的检测结果。进一步地，由于两轮车区域图像中检测到的目标对象可能包括两个以上，因此，采用年龄分类网络可以识别得到两个以上年龄区间，若判断任一个年龄区间小于或者等于年龄阈值时，都生成车载人员检测不通过的检测结果。

上述车载人员检测方法，采用基于深度学习的模型对待检测图像进行目标检测和人脸识别，得到目标对象的人脸区域图像；采用年龄分类网络识别人脸区域图像得到的目标对象的年龄区间；基于该年龄区间得到车辆中人员的年龄的结果。该方案一方面基于深度学习理论实现对现场车载人员的自动检测，极大的节省了人力；另一方面，由于传统技术中的车载人员检测多依靠交警现场对车辆进行排查，因此使用该方案有助于提高检测的准确性和检测的覆盖范围。

在一个实施例中，对待检测图像进行目标检测，得到两轮车区域图像之后，还包括：根据两轮车区域图像的位置信息，获取副驾驶区域图像。

其中，对于两轮车而言，副驾驶区域为车载人员乘坐区域，即驾驶员身后的区域。具体地，在采用目标检测模型检测得到两轮车区域图像之后，可以获取两轮车区域图像的位置信息，根据该位置信息定位到副驾驶区域。例如，将两轮车区域图像的左半边或者右半边默认为是副驾驶区域，进而获取副驾驶区域图像。在本实施例中，步骤S920中的将两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像，具体包括将副驾驶区域图像进行人脸识别，得到目标对象的人脸区域图像。本实施例中，通过定位到副驾驶区域，有针对性的对副驾驶区域图像中的车载人员进行检测，可以减轻终端的运行压力。

在一个实施例中，如图10所示，对车载人员检测方法进行具体说明，包括以下步骤：

步骤S1001，获取待检测图像。待检测图像可以是由摄像头对道路上车辆进行实时拍摄的图像。

步骤S1002，采用目标检测网络对待检测图像进行目标检测，得到两轮车区域图像。其中，目标检测网络可以是SSD网络。

步骤S1003，根据两轮车区域图像的位置信息，获取副驾驶区域图像。

步骤S1004，采用人脸检测网络对副驾驶区域图像进行人脸识别，得到目标对象的人脸区域图像。其中，人脸检测网络可以是MTCNN网络。本实施例中，在将副驾驶区域图像输入至人脸检测网络前，可以对副驾驶区域图像进行预处理，将副驾驶区域图像的尺寸resize(调整)成预设尺寸，例如，200x200(像素尺寸)。

步骤S1005，采用年龄分类网络识别人脸区域图像，得到目标对象的年龄区间。

其中，年龄分类网络可以是本申请中的年龄分类网络的生成方法中的任一个实施例得到。具体地，年龄分类网络采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，基网络块的参数值是在人脸识别网络进行训练得到的，且基网络块的参数值在训练年龄分类初始网络过程中固定不变。本实施例中，在将人脸区域图像输入至年龄分类网络前，可以对人脸区域图像进行预处理，将人脸区域图像的尺寸resize成预设尺寸，例如，112x112(像素尺寸)。

步骤S1006，将年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。

示例性地，设定阈值为12岁，目标对象的年龄区间大于12岁，车载人员检测通过；否则，车载人员检测不通过。若通过年龄分类网络得到目标对象的年龄区间为0～6岁，则生成车载人员检测不通过的检测结果。

应该理解的是，虽然图1-10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种年龄分类网络的生成装置110，包括：获取模块1101、差异值生成模块1102、模型参数调整模块110和年龄分类网络生成模块1104，其中：

获取模块1101，用于获取年龄分类初始网络的基网络块的参数；基网络块的参数是在人脸识别网络进行训练得到的；

获取模块1101，还用于获取第一训练集，第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间；

第一差异值生成模块1102，用于将第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值；

模型参数调整模块1103，用于根据第一差异值调整年龄分类初始网络中除基网络块外的其他部分的模型参数；

年龄分类网络生成模块1104，用于采用第一训练集和调整后的模型参数，继续对模型参数进行调整，直到满足预设停止条件，得到年龄分类网络。

在一个实施例中，获取模块1101，还用于获取第二训练集；所述装置还包括第二差异值生成模块，用于将第二训练集输入至人脸识别初始网络进行训练，得到第二训练集中各第二图像样本对应的人脸类别预测值相对人脸类别标注值的第二差异值，人脸识别初始网络包括基网络块；第二模型参数调整模块，用于根据第二差异值调整人脸识别初始网络的模型参数；基网络块的参数生成模块，用于采用第二训练集和调整后的人脸识别初始网络的模型参数，继续对人脸识别初始网络的模型参数进行调整，直到满足预设停止条件，得到基网络块的参数。

在一个实施例中，基网络块包括依次连接的多个残差网络。

在一个实施例中，年龄分类初始网络包括依次连接的基网络块、第一卷积层、第一归一化/缩放平移/激活层、第二卷积层、第二归一化/缩放平移/激活层、第三卷积层、第一按元素操作Eltwise层、第三归一化/缩放平移/激活层、池化层、Dropout层以及第一全连接层，以及与第二卷积层和第二归一化/缩放平移/激活层并联的第四卷积层；第一差异值生成模块1102，包括：

第一特征矩阵生成单元，用于通过第一按元素操作Eltwise层，将依次连接的基网络块、第一卷积层、第一归一化/缩放平移/激活层、第二卷积层、第二归一化/缩放平移/激活层、第三卷积层输出的特征矩阵，和依次连接的基网络块、第一卷积层、第一归一化/缩放平移/激活层、第四卷积层输出的特征矩阵进行Eltwise运算，得到各第一图像样本对应的第一特征矩阵；第一目标特征矩阵生成单元，用于将第一特征矩阵输入至依次连接的第三归一化/缩放平移/激活层、池化层、Dropout层以及第一全连接层，输出各第一图像样本对应的第一目标特征矩阵；年龄类别预测值确定单元，用于根据第一目标特征矩阵，得到各第一图像样本对应的年龄所属类别预测值；第一差异值确定单元，用于根据各第一图像样本对应的年龄所属类别预测值和年龄所属类别标注值，得到第一差异值。

在一个实施例中，人脸识别初始网络包括依次连接的基网络块、第一归一化/缩放平移层、第五卷积层、第二归一化/缩放平移层、激活层、第六卷积层、第三归一化/缩放平移层、第二按元素操作Eltwise层、第四归一化/缩放平移层以及第二全连接层；第二差异值生成模块，包括：

第二特征矩阵生成单元，用于通过第二按元素操作Eltwise层，将基网络块输出的特征矩阵，和依次连接的第一归一化/缩放平移层、第五卷积层、第二归一化/缩放平移层、激活层、第六卷积层、第三归一化/缩放平移层输出的特征矩阵进行Eltwise运算，得到与各第二图像样本对应的第二特征矩阵；第二目标特征矩阵生成单元，用于将第二特征矩阵输入至依次连接的第四归一化/缩放平移层以及第二全连接层，得到与各第二图像样本对应的第二目标特征矩阵；人脸类别预测值确定单元，用于根据第二目标特征矩阵，得到各第二图像样本对应的人脸类别预测值；第二差异值确定单元，用于根据各第二图像样本对应的人脸类别预测值以及人脸类别标注值，得到第二差异值。

关于年龄分类网络的生成装置的具体限定可以参见上文中对于年龄分类网络的生成方法的限定，在此不再赘述。上述年龄分类网络的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图12所示，提供了一种车载人员检测装置1200，包括目标检测模块1201、人脸识别模块1202、年龄分类模块1203和检测结果生成模块1204，其中：

目标检测模块1201，用于对待检测图像进行目标检测，得到两轮车区域图像；

人脸识别模块1202，用于将两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像；

年龄分类模块1203，用于将人脸区域图像输入至年龄分类网络，得到目标对象的年龄区间；其中，年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，基网络块的参数值是在人脸识别网络进行训练得到的，且基网络块的参数值在训练年龄分类初始网络过程中固定不变；

检测结果生成模块1204，用于将年龄区间与年龄阈值进行比较，得到目标对象的人员类别检测结果。

在一个实施例中，所述装置还包括：副驾驶区域图像确定模块，用于根据两轮车区域图像的位置信息，获取副驾驶区域图像。在本实施中，人脸识别模块1202，用于将副驾驶区域图像进行人脸识别，得到目标对象的人脸区域图像。

关于车载人员检测装置的具体限定可以参见上文中对于车载人员检测方法的限定，在此不再赘述。上述车载人员检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种年龄分类网络的生成方法和(或)车载人员检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种年龄分类网络的生成方法，其特征在于，所述方法包括：

获取年龄分类初始网络的基网络块的参数；所述基网络块的参数是在人脸识别网络进行训练得到的；

获取第一训练集，所述第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间；

将所述第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值；

根据所述第一差异值调整所述年龄分类初始网络中除所述基网络块外的其他部分的模型参数；

采用所述第一训练集和调整后的模型参数，继续对所述年龄分类初始网络的模型参数进行调整，直到满足预设停止条件，得到所述年龄分类网络。

2.根据权利要求1所述的方法，其特征在于，所述基网络块的参数的生成方式，包括：

获取第二训练集；

将所述第二训练集输入至人脸识别初始网络进行训练，得到所述第二训练集中各第二图像样本对应的人脸类别预测值相对人脸类别标注值的第二差异值，所述人脸识别初始网络包括所述基网络块；

根据所述第二差异值调整所述人脸识别初始网络的模型参数；

采用所述第二训练集和调整后的所述人脸识别初始网络的模型参数，继续对所述人脸识别初始网络的模型参数进行调整，直到满足预设停止条件，得到所述基网络块的参数。

3.根据权利要求1或2所述的方法，其特征在于，所述基网络块包括依次连接的多个残差网络。

4.根据权利要求1或2所述的方法，其特征在于，所述年龄分类初始网络包括依次连接的所述基网络块、第一卷积层、第一归一化/缩放平移/激活层、第二卷积层、第二归一化/缩放平移/激活层、第三卷积层、第一按元素操作Eltwise层、第三归一化/缩放平移/激活层、池化层、Dropout层以及第一全连接层，以及与所述第二卷积层和所述第二归一化/缩放平移/激活层并联的第四卷积层；

所述将所述第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值，包括：

通过所述第一按元素操作Eltwise层，将依次连接的所述基网络块、所述第一卷积层、所述第一归一化/缩放平移/激活层、所述第二卷积层、所述第二归一化/缩放平移/激活层、所述第三卷积层输出的特征矩阵，和

依次连接的所述基网络块、所述第一卷积层、所述第一归一化/缩放平移/激活层、第四卷积层输出的特征矩阵进行Eltwise运算，得到各第一图像样本对应的第一特征矩阵；

将所述第一特征矩阵输入至依次连接的所述第三归一化/缩放平移/激活层、所述池化层、所述Dropout层以及所述第一全连接层，输出所述各第一图像样本对应的第一目标特征矩阵；

根据所述第一目标特征矩阵，得到所述各第一图像样本对应的年龄所属类别预测值；

根据所述各第一图像样本对应的年龄所属类别预测值和年龄所属类别标注值，得到所述第一差异值。

5.根据权利要求2所述的方法，其特征在于，所述人脸识别初始网络包括依次连接的所述基网络块、第一归一化/缩放平移层、第五卷积层、第二归一化/缩放平移层、激活层、第六卷积层、第三归一化/缩放平移层、第二按元素操作Eltwise层、第四归一化/缩放平移层以及第二全连接层；

所述将所述第二训练集输入至人脸识别初始网络进行训练，得到所述第二训练集中各第二图像样本对应的人脸类别预测值相对人脸类别标注值的第二差异值，包括：

通过所述第二按元素操作Eltwise层，将所述基网络块输出的特征矩阵，和

依次连接的所述第一归一化/缩放平移层、所述第五卷积层、所述第二归一化/缩放平移层、所述激活层、所述第六卷积层、所述第三归一化/缩放平移层输出的特征矩阵进行Eltwise运算，得到与各第二图像样本对应的第二特征矩阵；

将所述第二特征矩阵输入至依次连接的所述第四归一化/缩放平移层以及所述第二全连接层，得到与所述各第二图像样本对应的第二目标特征矩阵；

根据所述第二目标特征矩阵，得到所述各第二图像样本对应的人脸类别预测值；

根据所述各第二图像样本对应的人脸类别预测值以及人脸类别标注值，得到第二差异值。

6.一种车载人员检测方法，其特征在于，包括：

对待检测图像进行目标检测，得到两轮车区域图像；

将所述两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像；

将所述人脸区域图像输入至年龄分类网络，得到所述目标对象的年龄区间；其中，所述年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，所述基网络块的参数值是在人脸识别网络进行训练得到的，且所述基网络块的参数值在训练所述年龄分类初始网络过程中固定不变；

将所述年龄区间与年龄阈值进行比较，得到所述目标对象的人员类别检测结果。

7.根据权利要求6所述的方法，其特征在于，所述对待检测图像进行目标检测，得到两轮车区域图像之后，还包括：

根据所述两轮车区域图像的位置信息，获取副驾驶区域图像；

所述将所述两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像，包括：

将所述副驾驶区域图像进行人脸识别，得到目标对象的人脸区域图像。

8.一种年龄分类网络的生成装置，其特征在于，所述装置包括：

获取模块，用于获取年龄分类初始网络的基网络块的参数；所述基网络块的参数是在人脸识别网络进行训练得到的；

所述获取模块，还用于获取第一训练集，所述第一训练集中各第一图像样本的类别为年龄所属类别，每个年龄所属类别对应一个年龄区间；

第一差异值生成模块，用于将所述第一训练集输入至年龄分类初始网络进行训练，得到各第一图像样本对应的年龄所属类别预测值相对年龄所属类别标注值的第一差异值；

模型参数调整模块，用于根据所述第一差异值调整所述年龄分类初始网络中除所述基网络块外的其他部分的模型参数；

年龄分类网络生成模块，用于采用所述第一训练集和调整后的模型参数，继续对所述年龄分类初始网络的模型参数进行调整，直到满足预设停止条件，得到所述年龄分类网络。

9.一种车载人员检测装置，其特征在于，所述装置包括：

人脸识别模块，用于将所述两轮车区域图像进行人脸识别，得到目标对象的人脸区域图像；

年龄分类模块，用于将所述人脸区域图像输入至年龄分类网络，得到所述目标对象的年龄区间；其中，所述年龄分类网络是采用年龄分类训练图像样本对包含基网络块的年龄分类初始网络进行训练得到的，所述基网络块的参数值是在人脸识别网络进行训练得到的，且所述基网络块的参数值在训练所述年龄分类初始网络过程中固定不变；

检测结果生成模块，用于将所述年龄区间与年龄阈值进行比较，得到所述目标对象的人员类别检测结果。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。