CN111209818A

CN111209818A - 视频个体识别方法、系统、设备及可读存储介质

Info

Publication number: CN111209818A
Application number: CN201911387752.7A
Authority: CN
Inventors: 王欢; 刘小扬; 王心莹; 徐小丹
Original assignee: Newland Digital Technology Co ltd
Current assignee: Newland Digital Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-29

Abstract

本发明公开了一种视频个体识别方法，包括步骤：人脸关键点坐标以及人脸框坐标进行检测，并将人脸进行对齐；通过人脸框坐标交并比关联前后帧图像中同一个人的人脸位置，当关联失效时使用人脸追踪算法对人脸框坐标进行重新跟踪；通过多个人脸图片的质量属性进行人脸质量评估，选取同一个人的预设数量张优质图片；提取所述优质图片的特征向量，与历史个体的人脸特征向量进行比对关联，完成人脸识别。本发明提供一种基于视频人脸质量分析的，综合人脸检测技术、人脸追踪技术以及人脸识别技术的视频个体分类方法。可有效使用于视频监控范畴，实现快速识别个体身份，关联个体相关信息，应用于诸如精准营销、历史行为分析等领域。

Description

视频个体识别方法、系统、设备及可读存储介质

技术领域

本发明涉及图像识别技术领域，特别涉及一种视频个体识别方法、系统、设备及可读存储介质。

背景技术

人脸识别技术被广泛应用于安防、销售行业、银行业务等多种领域。以在零售行业为例，进店消费者流动性强，每个消费者拥有个人的消费习惯，人脸识别技术可帮助快速认出消费者身份，关联历史消费记录，从而提供准确的推荐服务。目前基于视频中人脸的监控方案主要是通过抓取视频中的人脸图像，提取有效表达的数字特征，从而将人脸匹配的过程转换为数字特征计算的方式。

但是，基于视频监控的人脸识别技术具有许多的缺点，其需要在理想的光照环境、用户主动配合的前提下，才会具有较好的性能，而传统人脸提取特征往往受到这些因素的影响，特征表达能力有限；视频数据中可使用的人脸图像数量较多，不合理的采样技术很容易抓取到低质量人脸图像，从而发生误检或漏检的现象；选择单一的评价标准或依赖于人工经验设置的硬性条件无法有效地选择优质的图像提取更具有代表性的人脸特征；监控视频捕获的人脸图像具有时间属性，随着时间的推移，图像数量呈现爆炸性增长趋势，简单的聚类算法容易导致个体类别数量急速膨胀或人脸特征被错误归类，长期的错误累积容易导致整个系统的崩盘。

发明内容

本发明要解决的技术问题是如何提供一种高效、精确的视频个体识别方法、系统、设备及可读存储介质。

为了解决上述技术问题，本发明的技术方案为：

第一方面，本发明提出一种视频个体识别方法，包括步骤：

人脸关键点坐标以及人脸框坐标进行检测，并将人脸进行对齐；

通过人脸框坐标交并比关联前后帧图像中同一个人的人脸位置，当关联失效时使用人脸追踪算法对人脸框坐标进行重新跟踪；

通过多个人脸图片的质量属性进行人脸质量评估，选取同一个人的预设数量张优质图片；

提取所述优质图片的特征向量，与历史个体的人脸特征向量进行比对关联，完成人脸识别。

优选地，将人脸进行对齐的过程包括：计算一图片的人脸关键点坐标与预存的标准人脸的关键点坐标之间的变换矩阵，并将所述变换矩阵作用于该图片，获得对齐后的人脸图像。

优选地，使用人脸追踪算法对人脸框坐标进行重新跟踪的过程包括：根据前一帧图像分别建立相关的位置滤波器与尺度滤波器，根据当前帧图像及两个滤波器分别对当前帧的人脸框坐标与人脸框尺度进行估计。

优选地，人脸质量评估使用的质量属性包括人脸姿态、眼部状态、嘴部状态、妆容状态、整体亮度、左右脸亮度差异、模糊度、遮挡。

优选地，人脸姿态、眼部状态、嘴部状态、妆容状态、模糊度及遮挡均采用MobileFaceNet结构作为主体构建多任务卷积神经网络，多个任务输出分别对应人脸的各个质量属性。

优选地，眼部状态、嘴部状态、妆容状态及人脸遮挡为分类任务，采用softmax损失函数作为目标函数；

人脸姿态、图像的光照度、图像模糊度为回归任务，采用Euclidean损失函数做为目标函数；

网络训练的总目标函数包括多个Softmax损失函数和Euclidean损失函数的组合，多个任务进行共同学习时，总目标函数为多个损失函数的线性组合。

优选地，提取所述优质图片，使用50层ResNet神经网络输出512维度的浮点向量，记做人脸特征向量；

通过比对当前个体的人脸特征向量与历史个体的人脸特征向量之间的相似程度进行关联，公式为：

其中，S_i为当前第i帧人脸特征向量，S_mn为历史存储的人脸特征向量群中第m个体的第n张人脸特征向量，N_m表示历名特征向量中属于第m个个体的向量总数，M表示总的个体数量,I表示用于判断个体ID的最大帧数。

表示当前人脸与库中第m^*个个体的均值最大，则当

大于某个预设的阈值T时，表示属于该关联个体。

另一方面，本发明还提出了一种视频个体识别系统，包括：

检测模块：人脸关键点坐标以及人脸框坐标进行检测，并将人脸进行对齐；

关联模块：通过人脸框坐标交并比关联前后帧图像中同一个人的人脸位置，当关联失效时使用人脸追踪算法对人脸框坐标进行重新跟踪；

评估模块：通过多个人脸图片的质量属性进行人脸质量评估，选取同一个人的预设数量张优质图片；

识别模块：提取所述优质图片的特征向量，与历史个体的人脸特征向量进行比对关联，完成人脸识别。

又一方面，本发明还一种视频个体识别设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的视频个体识别方法的步骤。

再一方面，本发明提出一种视频个体识别的可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时间实现上述的视频个体识别方法的步骤。

本发明技术方案通过人脸框坐标交并比关联前后帧图像中同一个人的人脸位置，当关联失效时使用人脸追踪算法对人脸框坐标进行重新跟踪；通过多个人脸图片的质量属性进行人脸质量评估，选取同一个人的预设数量张优质图片；提取所述优质图片的特征向量，与历史个体的人脸特征向量进行比对关联，完成人脸识别。通过人脸检测与人脸识别算法将人脸图像转换为可计算的人脸特征向量，不仅可以通过数值向量之间的相似程度来度量人脸图像之间的相似程度，转换的数值向量也方便使用数据库存储工具实现高效管理保存。其整体流程无需人员主动干预，完成人脸区域的捕获、特征转换与人脸优选。使用人脸图像择优的方式，不仅可以有效地提升人脸识别模型预测的稳定性，还可以减少系统的运算成本。通过人脸特征向量可以实现快速识别个体身份，关联个体相关信息，应用于诸如精准营销、历史行为分析等领域。

附图说明

图1为本发明视频个体识别方法一实施例中的步骤流程图；

图2为本发明视频个体识别方法另一实施例中的步骤流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

为了解决上述技术问题，本发明的技术方案为：

第一方面，本发明提出一种视频个体识别方法，包括步骤：

人脸关键点坐标以及人脸框坐标进行检测，计算一图片的人脸关键点坐标与预存的标准人脸的关键点坐标之间的变换矩阵，并将变换矩阵作用于该图片，将人脸进行对齐；

通过人脸框坐标交并比关联前后帧图像中同一个人的人脸位置，当关联失效时使用人脸追踪算法对人脸框坐标进行重新跟踪，根据前一帧图像分别建立相关的位置滤波器与尺度滤波器，根据当前帧图像及两个滤波器分别对当前帧的人脸框坐标与人脸框尺度进行估计。

具体地，人脸质量评估使用的质量属性包括人脸姿态、眼部状态、嘴部状态、妆容状态、整体亮度、左右脸亮度差异、模糊度、遮挡。

人脸姿态、眼部状态、嘴部状态、妆容状态、模糊度及遮挡均采用MobileFaceNet结构作为主体构建多任务卷积神经网络，多个任务输出分别对应人脸的各个质量属性。

其中眼部状态、嘴部状态、妆容状态及人脸遮挡为分类任务，采用softmax损失函数作为目标函数；人脸姿态、图像的光照度、图像模糊度为回归任务，采用Euclidean损失函数做为目标函数；

提取优质图片的特征向量，与历史个体的人脸特征向量进行比对关联，完成人脸识别。

提取优质图片，本实施例中使用50层ResNet神经网络输出512维度的浮点向量，记做人脸特征向量；

通过比对当前个体的人脸特征向量与历史个体的人脸特征向量之间的相似程度进行关联，公式为，

表示当前人脸与库中第m*个个体的均值最大，则当

大于某个预设的阈值T时，表示属于该关联个体。

本发明技术方案通过人脸框坐标交并比关联前后帧图像中同一个人的人脸位置，当关联失效时使用人脸追踪算法对人脸框坐标进行重新跟踪；通过多个人脸图片的质量属性进行人脸质量评估，选取同一个人的预设数量张优质图片；提取优质图片的特征向量，与历史个体的人脸特征向量进行比对关联，完成人脸识别。通过人脸检测与人脸识别算法将人脸图像转换为可计算的人脸特征向量，不仅可以通过数值向量之间的相似程度来度量人脸图像之间的相似程度，转换的数值向量也方便使用数据库存储工具实现高效管理保存。其整体流程无需人员主动干预，完成人脸区域的捕获、特征转换与人脸优选。使用人脸图像择优的方式，不仅可以有效地提升人脸识别模型预测的稳定性，还可以减少系统的运算成本。通过人脸特征向量可以实现快速识别个体身份，关联个体相关信息，应用于诸如精准营销、历史行为分析等领域。

在本发明的另一实施例中，视频个体识别的过程为：

S1:人脸检测

S11：使用一种级联式的神经网络算法，对图像中出现的人脸关键点坐标以及人脸框坐标进行预测。人脸关键点坐标是指人脸面部区域的106个关键点的位置，覆盖到人脸面部区域的眉毛、眼镜、鼻子、嘴巴以及面部轮廓部位；人脸框坐标是指包含人脸面部区域的矩形人脸框。

S12：计算步骤S11中提取的人脸关键点坐标与标准人脸关键点坐标之间的变换矩阵，并将变换矩阵作用于最初的人脸图像，得到对齐后的人脸图像，对齐后的人脸关键点坐标的分布更加趋于一致。

S2:人脸关联

S21：IOU关联

通过人脸框坐标交并比(简称为IOU)关联前后帧图像中同一个人的人脸位置，人脸框坐标交并比定义为，

IOU＝(A₁∩A₂)/(A₁UA₂)

其中，A₁和A₂表示人脸框坐标，人脸框坐标交并比的值越大，说明两个人脸面部区域重叠程度越高。

实际上，通过步骤S11得到的人脸框坐标具有一定的波动性，同一个人在视频前后两帧图像中的人脸框坐标交并比会低于既定阈值，造成无法关联的现象。本发明中，当关联失效时使用人脸追踪算法对人脸框坐标重新进行预测。

S22：追踪关联

追踪算法有两个相关滤波器，定义为位置滤波器和尺度滤波器，追踪算法首先根据前一帧图像分别建立位置相关滤波器与尺度滤波器，然后根据当前帧图像与建立的两个滤波器分别对当前帧的人脸框坐标与人脸框尺度进行估计。

S3:人脸优选

通过步骤S2可以得到同一个人在视频中依次出现的人脸框坐标，从其中选择人脸区域图像质量最理想的若干帧(本发明使用数量为3帧)输送到步骤S4提取人脸特征。

S31：人脸质量评估算法

人脸质量评估算法采用了深度学习和传统图像分析算法相结合的方式，实现了根据人脸图像的面部特征得到人脸姿态、眼部状态、嘴部状态、妆容状态、整体亮度、左右脸亮度差异、模糊度、遮挡等质量属性，其中，人脸图像的亮度采用了传统算法，具体为将人脸图像的RGB三个通道根据一定的比例转成灰度图像，并根据灰度级来映射光照度大小。其它属性采用深度学习的方法实现，采用了轻量级的MobileFaceNet结构作为主体来构建多任务卷积神经网络，多个任务输出分别对应人脸的各个质量属性。其中，眼部状态、嘴部状态、妆容状态、人脸遮挡等质量判断属于分类任务，采用softmax损失函数作为目标函数；人脸姿态、图像的光照度、图像模糊度等属于回归任务，采用Euclidean损失函数做为目标函数。网络训练的总目标函数为多个Softmax损失函数和Euclidean损失函数的组合，多个任务进行共同学习时，总目标函数为多个损失函数的线性组合。

计算Softmax损失：

L＝-log(p_i),其中p_i为每一个属性类计算出的归一化后的概率。

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值。

S32：人脸质量决策

使用步骤S31得到的人脸姿态属性定义人脸图像姿态质量分数，

人脸图像姿态质量分数

f_i＝[1-(|P_i|+|Y_i|)/(max|P_i|+max|Y_i|)]×[1-(|P_i|-|Y_i|)/(max|P_i|+max|Y_i|)]

其中，P_i表示左右侧脸姿态角度，Y_i表示抬头低头姿态角度。(|P_i|+|Y_i|)/(max|P_i|+max|Y_i|)衡量的是人脸姿态在两个方向上的综合大小，值越大，图像姿态质量越不理想；(|P_i|-|Y_i|)/(max|P_i|+max|Y_i|)衡量的是人脸姿态在两个方向上的差别大小，值越大，图像姿态质量越不理想。人脸姿态在两个方向上分布均衡，且均较小时，人脸图像姿态质量分数f_i越大，图像姿态质量越理想。

另外，清晰度越高、光线亮度越柔和的图像具有越多的人脸面部细节，定义人脸图像质量分数,

t_i＝0 c_i＞0.9

t_i＝f_i×(1-b_i)×(1-|l_i-0.5|) c_i≤0.9

其中，b_i表示人脸图像的模糊程度，取值范围为0到1，值越大，清晰度越差；l_i表示人脸图像的光照度，越接近于0表示光线越暗，越接近于1表示曝光度越大，趋于0.5表示光线越柔和，c_i表示人脸图像的遮挡程度。人脸图像质量分数的含义是在人脸面部区域遮挡性不强的前提下(c_i≤0.9指的是五官保持不被遮挡)，优先选择人脸姿态较小，人脸图像清晰度较高，光线条件越理想的图像。

结合当前图像周边若干帧的人脸图像质量分数的加权作为当前帧的人脸图像质量分数，即，

人脸图像质量分数T_i＝α×t_i-1+β×t_i+γ×t_i+1

其中，t_i-1表示前一帧人脸图像质量分数，t_i+1表示后一帧人脸图像姿态质量分数，α，β，γ表示前一帧、当前帧、后一帧人脸图像质量分数的权重。本发明实施例中，使用参数分别为α＝0.2，β＝0.6，γ＝0.2。

S4:个体聚类

S41经过步骤S3后，每个人在视频中挑选出若干帧(本发明使用数量为3帧)人脸图像质量分数较高的图像，使用50层ResNet神经网络输出512维度的浮点向量，记做人脸特征向量。

S42通过比对当前个体的人脸特征向量与历史个体的人脸特征向量之间的相似程度进行关联，公式为，

表示当前人脸与库中第m^*个个体的均值最大，则当

大于某个预设的阈值T(＝0.6)，表示属于该关联个体。。

通过步骤S1对视频图像中出现的人脸框坐标进行预测，使用步骤S2中的IOU及追踪算法对视频前后帧图像进行关联，步骤S3对每个个体关联的所有人脸图像质量进行评分、筛选择优，输送到步骤S4的人脸特征提取环节提取人脸特征，用于个体匹配、标志符存储。

另一方面，本发明还提出了一种视频个体识别系统，包括：

识别模块：提取优质图片的特征向量，与历史个体的人脸特征向量进行比对关联，完成人脸识别。

又一方面，本发明还一种视频个体识别设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述的视频个体识别方法的步骤。

该视频个体识别方法，至少包括步骤：

本发明使用神经网络结构，基于大量不同场景下的人脸数据进行学习训练，提取的人脸特征可以有效地判断人脸图像的模糊程度、人脸姿态、遮挡状况等质量评价要素，以及可以有效地区分不同个体；使用一种决策算法对输出的多种质量评价要素进行综合评判分析，有效采样高质量人脸图像，为后续的人脸特征匹配提供初步的筛选判断；基于提取的鲁棒人脸特征，对捕获的人脸图片进行归类。本发明基于以上技术手段，提供一种基于视频人脸质量分析的，综合人脸检测技术、人脸追踪技术以及人脸识别技术的视频个体分类方法。该方法可有效使用于视频监控范畴，实现快速识别个体身份，关联个体相关信息，应用于诸如精准营销、历史行为分析等领域。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种视频个体识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的视频个体识别方法，其特征在于，将人脸进行对齐的过程包括：计算一图片的人脸关键点坐标与预存的标准人脸的关键点坐标之间的变换矩阵，并将所述变换矩阵作用于该图片，获得对齐后的人脸图像。

3.根据权利要求1所述的视频个体识别方法，其特征在于：使用人脸追踪算法对人脸框坐标进行重新跟踪的过程包括：根据前一帧图像分别建立相关的位置滤波器与尺度滤波器，根据当前帧图像及两个滤波器分别对当前帧的人脸框坐标与人脸框尺度进行估计。

4.根据权利要求1至3任一项所述的视频个体识别方法，其特征在于：人脸质量评估使用的质量属性包括人脸姿态、眼部状态、嘴部状态、妆容状态、整体亮度、左右脸亮度差异、模糊度、遮挡。

5.根据权利要求4所述的视频个体识别方法，其特征在于：人脸姿态、眼部状态、嘴部状态、妆容状态、模糊度及遮挡均采用MobileFaceNet结构作为主体构建多任务卷积神经网络，多个任务输出分别对应人脸的各个质量属性。

6.根据权利要求5所述的视频个体识别方法，其特征在于：

眼部状态、嘴部状态、妆容状态及人脸遮挡为分类任务，采用softmax损失函数作为目标函数；

7.根据权利要求6所述的视频个体识别方法，其特征在于：提取所述优质图片，使用50层ResNet神经网络输出512维度的浮点向量，记做人脸特征向量；

其中，S_i为当前第i帧人脸特征向量，S_mn为历史存储的人脸特征向量群中第m个体的第n张人脸特征向量，N_m表示历名特征向量中属于第m个个体的向量总数，M表示总的个体数量,I表示用于判断个体ID的最大帧数，

表示当前人脸与库中第m^*个个体的均值最大，则当

大于某个预设的阈值T时，表示属于该关联个体。

8.一种视频个体识别系统，其特征在于，包括：

9.一种视频个体识别设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现权利要求1-7任一项所述的视频个体识别方法的步骤。

10.一种视频个体识别的可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时间实现权利要求1-7任一项所述的视频个体识别方法的步骤。