CN112149638A

CN112149638A - 基于多模态生物特征的人员身份识别系统构建及使用方法

Info

Publication number: CN112149638A
Application number: CN202011147717.0A
Authority: CN
Inventors: 张历; 高吉普; 文屹; 吕黔苏; 徐长宝; 林呈辉; 王宇; 范强; 辛明勇; 刘斌; 肖小兵; 古庭赟; 李博文; 陈墩辉; 李鑫卓; 冯起辉
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2020-12-29
Anticipated expiration: 2040-10-23
Also published as: CN112149638B

Abstract

本发明公开了一种基于多模态生物特征的人员身份识别系统构建方法，它包括：构建生物特征数据库；构建人脸识别子系统；构建步态识别子系统；构建文本无关的声纹识别子系统；构建融合人脸、步态和声纹的综合判别系统，将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合，作为特征向量，以最终实际人员身份编码作为输出，进行训练至收敛以最终实际人员身份编码作为输出，进行训练至收敛；解决了针对变电站工作人员进行人体生物特征的身份确认方法存在无法实时静默进行人员身份识别；单独的识别技术容易出现难以判断的情况，比如无法清晰拍摄人脸图像，拍摄的图像无人脸、背景噪声过大导致声纹识别率低等等技术问题。

Description

基于多模态生物特征的人员身份识别系统构建及使用方法

技术领域

本发明属于生物特征识别技术，尤其涉及一种基于多模态生物特征的人员身份识别系统构建及使用方法。

背景技术

变电站生产环境具有规模庞大、设备繁杂等特点。无关人员或者无权限人员进入生产环境对安全生产造成威胁，而变电站生产环境开放性较高，不易控制人员流动，因此变电站的日常安保工作是保证安全生产的重要环节之一。目前变电站的安保系统主要由人工岗哨、电子门禁、现场人工巡逻、现场环境监视设备等构成。现场环境的监视系统基本上仅仅将现场画面返回后台，仍需要后台人员值守。总体来说，目前现场实时安保系统存在较大的人为风险。

随着自动化和智能化技术及其设备的快速发展和落地实施，基于变电站巡检机器人、现场环境监视探头结合多模态人体生物特征信息识别算法具有较大的发挥空间。基于人体生物特征的身份确认方法凭借远距离、非接触、难以伪装和隐藏的特性得到广泛应用。目前，虽然通过人脸识别的门禁系统应用非常广泛，文本相关的声纹识别和步态识别也有一定应用。但是人脸识别系统需要待检测人员配合拍摄清晰人脸图像，文本相关的声纹识别需要待检测人员说出固定话术，因此二者均需要待检测人员的配合，无法做到无打扰，因此无法实时静默进行人员身份识别。另外，单独的识别技术容易出现难以判断的情况，比如无法清晰拍摄人脸图像，拍摄的图像无人脸、背景噪声过大导致声纹识别率低等。

发明内容

本发明要解决的技术问题：提供一种基于多模态生物特征的人员身份识别系统构建及使用方法，以解决现有技术针对变电站工作人员进行人体生物特征的身份确认方法存在无法实时静默进行人员身份识别；另外，单独的识别技术容易出现难以判断的情况，比如无法清晰拍摄人脸图像，拍摄的图像无人脸、背景噪声过大导致声纹识别率低等等技术问题。

本发明技术方案：

一种基于多模态生物特征的人员身份识别系统构建方法，其特征在于：它包括：

步骤1、构建生物特征数据库，以具有进出权限的工作人员个人为单位，分别采集与实际生产环境相同背景环境下不同情况下的人脸图像数据、行进数据和声音数据，将该人员身份进行编码，作为这些数据的标注并保存；

步骤2、构建人脸识别子系统，提取生物特征数据库中人脸图像数据，对图像进行预处理，以预处理后的像素矩阵作为输入，对应的人员身份编码作为输出，使用优化器进行迭代训练至收敛；

步骤3、构建步态识别子系统，提取生物特征数据库中行进数据，然后进行图像方面的预处理，包括图像增强和归一化，对预处理后的数据序列分别提取人体轮廓关键点和下肢关节点，人体轮廓关键点到中心点距离以及下肢关节点角度作为输入特征，基于深度循环网络构建步态识别子系统，同样以对应人员身份编码作为输出，使用优化器迭代训练至收敛；

步骤4、构建文本无关的声纹识别子系统，提取生物特征数据库中音频数据，进行音频数据的预处理，得到音频数据的频域特征作为输入，基于深度网络和残差网络构建声纹特征提取系统，通过聚类算法进行聚类，使同一个人的声纹特征聚为一类，并将人员身份编码作为该聚类中心的标注，使用优化器迭代训练声纹提取网络至收敛；

步骤5、构建融合人脸、步态和声纹的综合判别系统，将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合，作为特征向量，使用多分类算法构建融合人脸、步态和声纹的综合判别系统，以最终实际人员身份编码作为输出，进行训练至收敛。

在构建生物特征数据库时，每人每种生物特征的采集数量要一致，但是每人采集的声音数据不需要使用相同话术，仅需要保证每句话的长度应相同即可。

所述对图像进行预处理包括对人脸是否存在的检测、人脸扶正、图像增强和归一化处理。

若行进数据为视频数据，视频数据的预处理包括提取关键帧序列，所述关键帧序列为步态变化的前后帧。

所述的一种基于多模态生物特征的人员身份识别系统的使用方法，它包括：

步骤6、将巡检机器人搭载的传感器或现场监控探头获取的传感数据通过通信系统传输至集控平台；集控平台根据不同数据类型进行分发至各个子系统

步骤7、对于人脸图像数据进行预处理，使用步骤3同样的图像预处理方法获取像素矩阵后输入训练收敛的人脸识别子系统，对于采集的步态数据，使用步骤4同样的预处理方法进行预处理提取人体轮廓关键点和下肢关节点，人体轮廓关键点到中心点距离以及下肢关节点角度，组合后输入训练收敛的步态识别子系统中；对于音频数据，使用步骤5同样的数据预处理方法得到频域特征，输入文本无关的声纹识别子系统的声纹特征提取模块，获取声纹特征，同样通过聚类算法得到当前声纹特征属于的类别，即人员编码；

步骤8：对步骤7中三个子系统的输出进行组合，输入步骤5中训练收敛的融合人脸、步态和声纹的综合判别系统，得到最终人员身份编码；

步骤9：不断重复步骤6至步骤8。

对于人脸图像数据预处理过程中包括对是否存在人脸的判别，若不存在人脸，使用一个不影响最终判别结果的常数组成的向量代替人脸识别子系统判断的输出向量。

步骤8中如果判别得到的编码不属于生物特征数据库中任何一个人员编码，则在集控平台发出告警，并通过通信终端通知安保人员。

步骤5所述将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合作为特征向量的方法为：将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出向量进行第一维度的横向拼接，作为该综合判别系统的特征向量，相应的构建Softmax回归矩阵，以最终实际人员身份编码作为输出，使用梯度下降算法训练至收敛。

步骤4所述构建文本无关的声纹识别子系统的具体方法包括：对生物特征数据库中音频数据进行预处理，首先使用WebRTC算法对音频进行去噪，然后使用VAD算法进行切割，切除无人声的静音部分，然后对VAD片段进行加窗分帧并进行短傅里叶变换得到频谱特征，使用80维的Mel滤波器进行滤波，得到80维的Mel特征频谱作为声纹提取网络的输入，基于深度网络构建声纹提取网络，提取网络包括输入层、卷积层、残差模块和一个全连接层，全连接层的输出即为声纹特征，使用Kmeans算法无监督的对声纹特征进行聚类，将聚类结果保存在聚类中心，并以对应的embedding人员编码进行标记；使用Adam优化器训练声纹提取网络至收敛，Kmeans算法最大迭代次数设为1000次。

步骤2所述构建人脸识别子系统的具体方法为：提取生物特征数据库中人脸图像数据，对图像进行提取人脸轮廓，使用DPM模型进行人脸检测，若存在人脸数据，获取人脸轮廓角度并进行扶正，然后将图像进行增强，使得人脸特征更为突出，然后进行归一化，得到像素矩阵；基于深度卷积网络构建人脸识别系统，将预处理后的像素矩阵作为输入，将embedding向量作为输出，使用Adam优化器进行训练至收敛。

本发明的有益效果：

本发明提出一种基于文本无关的声纹识别、人脸识别和步态识别的融合算法用于确认人员身份，其中各项生物信息通过巡检机器人和现场探头静默采集的信息转化而来，避免打断现场人员正常的工作活动，同时兼具较高的隐蔽性，因此可以最大限度的避免人为因素的风险。另外，通过多种算法的融合，避免单一算法难以发挥作用或者误判时整体系统的失效或误判。

解决了现有技术针对变电站工作人员进行人体生物特征的身份确认方法存在无法实时静默进行人员身份识别；另外，单独的识别技术容易出现难以判断的情况，比如无法清晰拍摄人脸图像，拍摄的图像无人脸、背景噪声过大导致声纹识别率低等等技术问题。

附图说明：

图1是生物特征数据库结构图；

图2是人脸识别子系统流程图；

图3是步态识别子系统流程图；

图4是文本无关的声纹识别子系统流程图；

图5是融合人脸、步态和声纹的综合判别系统流程图；

图6是系统整体运行流程图。

具体实施方式

为了本领域技术人员了解技术方案，结合附图对本发明方案进行进一步的细化说明：

根据步骤1和图1构建生物特征数据库，对于具有权限的所有人员采集其生物特征数据，以个人为单位，采集人脸图片（无遮挡、正面）1张；人脸图片（无遮挡、随机角度倾斜）30张；人脸图片（安全帽遮挡、正面）1张；人脸图片（安全帽遮挡、随机角度倾斜）30张；走路视频（正面）5s；走路视频（随机多角度倾斜）30×5s；跑步视频（正面）5s；跑步视频（随机多角度倾斜）30×5s；正常说话音频>1min；高声说话音频>1min；低声说话音频>1min。采集图像和视频时，使用的背景为实际工作场景，采集音频时，背景噪声环境也使用实际工作场景的背景噪声。对所有人员采集的数据共563条，分别对相应的人员身份进行embedding编码，使得每条数据对应唯一的一个1×16维的embedding向量。将540条作为训练集，剩余23条作为测试集。

根据步骤2和图2构建人脸识别子系统。提取上述生物特征数据库中人脸图像数据，对图像进行提取人脸轮廓，使用DPM（Deformable Part Model）模型进行人脸检测，若存在人脸数据，获取人脸轮廓角度并进行扶正，然后将图像进行增强，使得人脸特征更为突出，然后进行归一化，得到像素矩阵。基于深度卷积网络构建人脸识别系统，分别包括输入层、多层卷积层、多层池化层、多个残差模块、多个全连接层和Softmax输出层，将预处理后的像素矩阵作为输入，将上述embedding向量作为输出，使用Adam优化器进行训练至收敛。

根据步骤3和图3构建步态识别子系统。对所有步态视频数据进行分帧，每秒获取8帧以上的图片，尤其是步态改变的关键时间点以及前后这些关键帧，必须采集到，对采集的图像按照时间序列进行排布，统一进行预处理，包括增强去噪和归一化，然后分别提取人体轮廓关键点和下肢关节点，求解当前图像中人体轮廓关键点到中心点距离以及下肢关节点角度，作为系统输入特征。由于步态图像具有时序性，因此基于LSTM网络构建步态识别子系统，包括输入层，两层LSTM层，一层卷积层，一层全连接层和一层Softmax输出层。同样以对应人员身份的embedding编码作为输出，使用Adam优化器迭代训练至收敛。

根据步骤4和图4构建文本无关的声纹识别子系统。对上述生物特征数据库中音频数据进行预处理，首先使用WebRTC算法对音频进行去噪，然后使用VAD算法进行切割，切除无人声的静音部分，然后对VAD片段进行加窗分帧并进行短傅里叶变换得到频谱特征，使用80维的Mel滤波器进行滤波，得到80维的Mel特征频谱，将其作为声纹提取网络的输入。基于深度网络构建声纹提取网络，包括输入层、多个卷积层、一个残差模块，一个全连接层，全连接层的输出即为声纹特征，使用Kmeans算法无监督的对声纹特征进行聚类，对于540条数据的训练集共聚540类，保存聚类中心，并以对应的embedding人员编码进行标记。使用Adam优化器训练声纹提取网络至收敛，Kmeans算法最大迭代次数设为1000次。

根据步骤5和5五使用Softmax回归算法构建融合人脸、步态和声纹的综合判别系统。将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出向量进行第一维度的横向拼接，作为该综合判别系统的特征向量，相应的构建Softmax回归矩阵。以最终实际人员身份编码作为输出，使用梯度下降算法训练至收敛。

根据步骤6至9和图6部署上线系统，集控平台对巡检机器人下达人员身份确认检测指令，机器人开启本体搭载的高清相机和高保真麦克风，开始沿着既定轨迹进行运动，达到检测点后静默采集图像、视频和音频数据，通过内部通信系统，机器人实时将数据传回集控平台，同时集控平台调用巡检机器人周围所有监控探头图像。集控平台分别将图像数据、视频数据和音频数据分别使用相应的数据预处理方法进行预处理后分别送至人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统，分别得到相应的输出向量。其中，若图像预处理中的人脸检测模块没有检测到人脸数据，则使用一个每个元素都是足够小的负值的同维度的向量替代人脸识别子系统的输出向量。将三个子系统的输出向量进行第一维度的横向拼接，输入训练收敛的综合判别系统中，得到最终代表人员身份的embedding编码，查询现有的生物特征数据库中所有人员的embedding编码，若无法找到广义距离足够近的编码，表示该人员不具有权限。重复上述步骤2次，若三次判别的结果均为该人员不具有权限，集控平台发出“发现不明身份人员”告警，并展示相应的图片和视频，同时向安保人员的通信终端发出“发现不明身份人员”的安全警告。

值得注意的是，对生物特征数据，若由于人员变动导致的数据库的数据变动时，需要重新训练三个子系统和综合判别系统以保证整个系统的良好运行。

对于三个子系统，使用的内部算法，只要能得到含有人员身份信息的输出向量、判别结果或者代表判别结果的特征，均可。

对于文本无关的声纹识别子系统，可以针对特定的常用话术使用文本相关的声纹识别系统；可以提高识别率和识别速度。

对于最后的综合判别系统，可以使用其他判别方法或者舍弃，直接将三个子系统的结果根据其他判别方法得到最终结果或者仅仅是根据少数服从多数的逻辑来确定也可以。

对于各个步骤，只要能达到相同的目的，步骤可以分为多个子步骤、子阶段，也可变更使用其他步骤或者其他子步骤和子阶段，各个步骤或者子步骤、子阶段的顺序只要不违背逻辑均可进行调整、组合或者变更。

本发明真正做到零打扰情况下完成人员身份的确认工作，与传统门禁不同，无需待检测人员的配合，不打扰正常工作，自主静默完成识别。

本发明融合三种生物特征识别算法，鲁棒性更强，避免单一算法失效或误判时整体系统失效和误判。

Claims

1.一种基于多模态生物特征的人员身份识别系统构建方法，其特征在于：它包括：

2.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统构建方法，其特征在于：在构建生物特征数据库时，每人每种生物特征的采集数量要一致，但是每人采集的声音数据不需要使用相同话术，仅需要保证每句话的长度应相同即可。

3.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统构建方法，其特征在于：所述对图像进行预处理包括对人脸是否存在的检测、人脸扶正、图像增强和归一化处理。

4.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统构建方法，其特征在于：若行进数据为视频数据，视频数据的预处理包括提取关键帧序列，所述关键帧序列为步态变化的前后帧。

5.如权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法，它包括：

步骤9：不断重复步骤6至步骤8。

6.根据权利要求5所述的一种基于多模态生物特征的人员身份识别系统的使用方法，其特征在于：对于人脸图像数据预处理过程中包括对是否存在人脸的判别，若不存在人脸，使用一个不影响最终判别结果的常数组成的向量代替人脸识别子系统判断的输出向量。

7.根据权利要求5所述的一种基于多模态生物特征的人员身份识别系统的使用方法，其特征在于：步骤8中如果判别得到的编码不属于生物特征数据库中任何一个人员编码，则在集控平台发出告警，并通过通信终端通知安保人员。

8.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法，其特征在于：步骤5所述将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合作为特征向量的方法为：将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出向量进行第一维度的横向拼接，作为该综合判别系统的特征向量，相应的构建Softmax回归矩阵，以最终实际人员身份编码作为输出，使用梯度下降算法训练至收敛。

9.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法，其特征在于：步骤4所述构建文本无关的声纹识别子系统的具体方法包括：对生物特征数据库中音频数据进行预处理，首先使用WebRTC算法对音频进行去噪，然后使用VAD算法进行切割，切除无人声的静音部分，然后对VAD片段进行加窗分帧并进行短傅里叶变换得到频谱特征，使用80维的Mel滤波器进行滤波，得到80维的Mel特征频谱作为声纹提取网络的输入，基于深度网络构建声纹提取网络，提取网络包括输入层、卷积层、残差模块和一个全连接层，全连接层的输出即为声纹特征，使用Kmeans算法无监督的对声纹特征进行聚类，将聚类结果保存在聚类中心，并以对应的embedding人员编码进行标记；使用Adam优化器训练声纹提取网络至收敛，Kmeans算法最大迭代次数设为1000次。

10.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法，其特征在于：步骤2所述构建人脸识别子系统的具体方法为：提取生物特征数据库中人脸图像数据，对图像进行提取人脸轮廓，使用DPM模型进行人脸检测，若存在人脸数据，获取人脸轮廓角度并进行扶正，然后将图像进行增强，使得人脸特征更为突出，然后进行归一化，得到像素矩阵；基于深度卷积网络构建人脸识别系统，将预处理后的像素矩阵作为输入，将embedding向量作为输出，使用Adam优化器进行训练至收敛。