CN112149638A - 基于多模态生物特征的人员身份识别系统构建及使用方法 - Google Patents
基于多模态生物特征的人员身份识别系统构建及使用方法 Download PDFInfo
- Publication number
- CN112149638A CN112149638A CN202011147717.0A CN202011147717A CN112149638A CN 112149638 A CN112149638 A CN 112149638A CN 202011147717 A CN202011147717 A CN 202011147717A CN 112149638 A CN112149638 A CN 112149638A
- Authority
- CN
- China
- Prior art keywords
- face
- voiceprint
- constructing
- data
- personnel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010276 construction Methods 0.000 title claims description 5
- 230000005021 gait Effects 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 210000003141 lower extremity Anatomy 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 239000000523 sample Substances 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000012790 confirmation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012850 discrimination method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007334 copolymerization reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Multimedia (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Public Health (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于多模态生物特征的人员身份识别系统构建方法,它包括:构建生物特征数据库;构建人脸识别子系统;构建步态识别子系统;构建文本无关的声纹识别子系统;构建融合人脸、步态和声纹的综合判别系统,将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合,作为特征向量,以最终实际人员身份编码作为输出,进行训练至收敛以最终实际人员身份编码作为输出,进行训练至收敛;解决了针对变电站工作人员进行人体生物特征的身份确认方法存在无法实时静默进行人员身份识别;单独的识别技术容易出现难以判断的情况,比如无法清晰拍摄人脸图像,拍摄的图像无人脸、背景噪声过大导致声纹识别率低等等技术问题。
Description
技术领域
本发明属于生物特征识别技术,尤其涉及一种基于多模态生物特征的人员身份识别系统构建及使用方法。
背景技术
变电站生产环境具有规模庞大、设备繁杂等特点。无关人员或者无权限人员进入生产环境对安全生产造成威胁,而变电站生产环境开放性较高,不易控制人员流动,因此变电站的日常安保工作是保证安全生产的重要环节之一。目前变电站的安保系统主要由人工岗哨、电子门禁、现场人工巡逻、现场环境监视设备等构成。现场环境的监视系统基本上仅仅将现场画面返回后台,仍需要后台人员值守。总体来说,目前现场实时安保系统存在较大的人为风险。
随着自动化和智能化技术及其设备的快速发展和落地实施,基于变电站巡检机器人、现场环境监视探头结合多模态人体生物特征信息识别算法具有较大的发挥空间。基于人体生物特征的身份确认方法凭借远距离、非接触、难以伪装和隐藏的特性得到广泛应用。目前,虽然通过人脸识别的门禁系统应用非常广泛,文本相关的声纹识别和步态识别也有一定应用。但是人脸识别系统需要待检测人员配合拍摄清晰人脸图像,文本相关的声纹识别需要待检测人员说出固定话术,因此二者均需要待检测人员的配合,无法做到无打扰,因此无法实时静默进行人员身份识别。另外,单独的识别技术容易出现难以判断的情况,比如无法清晰拍摄人脸图像,拍摄的图像无人脸、背景噪声过大导致声纹识别率低等。
发明内容
本发明要解决的技术问题:提供一种基于多模态生物特征的人员身份识别系统构建及使用方法,以解决现有技术针对变电站工作人员进行人体生物特征的身份确认方法存在无法实时静默进行人员身份识别;另外,单独的识别技术容易出现难以判断的情况,比如无法清晰拍摄人脸图像,拍摄的图像无人脸、背景噪声过大导致声纹识别率低等等技术问题。
本发明技术方案:
一种基于多模态生物特征的人员身份识别系统构建方法,其特征在于:它包括:
步骤1、构建生物特征数据库,以具有进出权限的工作人员个人为单位,分别采集与实际生产环境相同背景环境下不同情况下的人脸图像数据、行进数据和声音数据,将该人员身份进行编码,作为这些数据的标注并保存;
步骤2、构建人脸识别子系统,提取生物特征数据库中人脸图像数据,对图像进行预处理,以预处理后的像素矩阵作为输入,对应的人员身份编码作为输出,使用优化器进行迭代训练至收敛;
步骤3、构建步态识别子系统,提取生物特征数据库中行进数据,然后进行图像方面的预处理,包括图像增强和归一化,对预处理后的数据序列分别提取人体轮廓关键点和下肢关节点,人体轮廓关键点到中心点距离以及下肢关节点角度作为输入特征,基于深度循环网络构建步态识别子系统,同样以对应人员身份编码作为输出,使用优化器迭代训练至收敛;
步骤4、构建文本无关的声纹识别子系统,提取生物特征数据库中音频数据,进行音频数据的预处理,得到音频数据的频域特征作为输入,基于深度网络和残差网络构建声纹特征提取系统,通过聚类算法进行聚类,使同一个人的声纹特征聚为一类,并将人员身份编码作为该聚类中心的标注,使用优化器迭代训练声纹提取网络至收敛;
步骤5、构建融合人脸、步态和声纹的综合判别系统,将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合,作为特征向量,使用多分类算法构建融合人脸、步态和声纹的综合判别系统,以最终实际人员身份编码作为输出,进行训练至收敛。
在构建生物特征数据库时,每人每种生物特征的采集数量要一致,但是每人采集的声音数据不需要使用相同话术,仅需要保证每句话的长度应相同即可。
所述对图像进行预处理包括对人脸是否存在的检测、人脸扶正、图像增强和归一化处理。
若行进数据为视频数据,视频数据的预处理包括提取关键帧序列,所述关键帧序列为步态变化的前后帧。
所述的一种基于多模态生物特征的人员身份识别系统的使用方法,它包括:
步骤6、将巡检机器人搭载的传感器或现场监控探头获取的传感数据通过通信系统传输至集控平台;集控平台根据不同数据类型进行分发至各个子系统
步骤7、对于人脸图像数据进行预处理,使用步骤3同样的图像预处理方法获取像素矩阵后输入训练收敛的人脸识别子系统,对于采集的步态数据,使用步骤4同样的预处理方法进行预处理提取人体轮廓关键点和下肢关节点,人体轮廓关键点到中心点距离以及下肢关节点角度,组合后输入训练收敛的步态识别子系统中;对于音频数据,使用步骤5同样的数据预处理方法得到频域特征,输入文本无关的声纹识别子系统的声纹特征提取模块,获取声纹特征,同样通过聚类算法得到当前声纹特征属于的类别,即人员编码;
步骤8:对步骤7中三个子系统的输出进行组合,输入步骤5中训练收敛的融合人脸、步态和声纹的综合判别系统,得到最终人员身份编码;
步骤9:不断重复步骤6至步骤8。
对于人脸图像数据预处理过程中包括对是否存在人脸的判别,若不存在人脸,使用一个不影响最终判别结果的常数组成的向量代替人脸识别子系统判断的输出向量。
步骤8中如果判别得到的编码不属于生物特征数据库中任何一个人员编码,则在集控平台发出告警,并通过通信终端通知安保人员。
步骤5所述将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合作为特征向量的方法为:将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出向量进行第一维度的横向拼接,作为该综合判别系统的特征向量,相应的构建Softmax回归矩阵,以最终实际人员身份编码作为输出,使用梯度下降算法训练至收敛。
步骤4所述构建文本无关的声纹识别子系统的具体方法包括:对生物特征数据库中音频数据进行预处理,首先使用WebRTC算法对音频进行去噪,然后使用VAD算法进行切割,切除无人声的静音部分,然后对VAD片段进行加窗分帧并进行短傅里叶变换得到频谱特征,使用80维的Mel滤波器进行滤波,得到80维的Mel特征频谱作为声纹提取网络的输入,基于深度网络构建声纹提取网络,提取网络包括输入层、卷积层、残差模块和一个全连接层,全连接层的输出即为声纹特征,使用Kmeans算法无监督的对声纹特征进行聚类,将聚类结果保存在聚类中心,并以对应的embedding人员编码进行标记;使用Adam优化器训练声纹提取网络至收敛,Kmeans算法最大迭代次数设为1000次。
步骤2所述构建人脸识别子系统的具体方法为:提取生物特征数据库中人脸图像数据,对图像进行提取人脸轮廓,使用DPM模型进行人脸检测,若存在人脸数据,获取人脸轮廓角度并进行扶正,然后将图像进行增强,使得人脸特征更为突出,然后进行归一化,得到像素矩阵;基于深度卷积网络构建人脸识别系统,将预处理后的像素矩阵作为输入,将embedding向量作为输出,使用Adam优化器进行训练至收敛。
本发明的有益效果:
本发明提出一种基于文本无关的声纹识别、人脸识别和步态识别的融合算法用于确认人员身份,其中各项生物信息通过巡检机器人和现场探头静默采集的信息转化而来,避免打断现场人员正常的工作活动,同时兼具较高的隐蔽性,因此可以最大限度的避免人为因素的风险。另外,通过多种算法的融合,避免单一算法难以发挥作用或者误判时整体系统的失效或误判。
解决了现有技术针对变电站工作人员进行人体生物特征的身份确认方法存在无法实时静默进行人员身份识别;另外,单独的识别技术容易出现难以判断的情况,比如无法清晰拍摄人脸图像,拍摄的图像无人脸、背景噪声过大导致声纹识别率低等等技术问题。
附图说明:
图1是生物特征数据库结构图;
图2是人脸识别子系统流程图;
图3是步态识别子系统流程图;
图4是文本无关的声纹识别子系统流程图;
图5是融合人脸、步态和声纹的综合判别系统流程图;
图6是系统整体运行流程图。
具体实施方式
为了本领域技术人员了解技术方案,结合附图对本发明方案进行进一步的细化说明:
根据步骤1和图1构建生物特征数据库,对于具有权限的所有人员采集其生物特征数据,以个人为单位,采集人脸图片(无遮挡、正面)1张;人脸图片(无遮挡、随机角度倾斜)30张;人脸图片(安全帽遮挡、正面)1张;人脸图片(安全帽遮挡、随机角度倾斜)30张;走路视频(正面)5s;走路视频(随机多角度倾斜)30×5s;跑步视频(正面)5s;跑步视频(随机多角度倾斜)30×5s;正常说话音频>1min;高声说话音频>1min;低声说话音频>1min。采集图像和视频时,使用的背景为实际工作场景,采集音频时,背景噪声环境也使用实际工作场景的背景噪声。对所有人员采集的数据共563条,分别对相应的人员身份进行embedding编码,使得每条数据对应唯一的一个1×16维的embedding向量。将540条作为训练集,剩余23条作为测试集。
根据步骤2和图2构建人脸识别子系统。提取上述生物特征数据库中人脸图像数据,对图像进行提取人脸轮廓,使用DPM(Deformable Part Model)模型进行人脸检测,若存在人脸数据,获取人脸轮廓角度并进行扶正,然后将图像进行增强,使得人脸特征更为突出,然后进行归一化,得到像素矩阵。基于深度卷积网络构建人脸识别系统,分别包括输入层、多层卷积层、多层池化层、多个残差模块、多个全连接层和Softmax输出层,将预处理后的像素矩阵作为输入,将上述embedding向量作为输出,使用Adam优化器进行训练至收敛。
根据步骤3和图3构建步态识别子系统。对所有步态视频数据进行分帧,每秒获取8帧以上的图片,尤其是步态改变的关键时间点以及前后这些关键帧,必须采集到,对采集的图像按照时间序列进行排布,统一进行预处理,包括增强去噪和归一化,然后分别提取人体轮廓关键点和下肢关节点,求解当前图像中人体轮廓关键点到中心点距离以及下肢关节点角度,作为系统输入特征。由于步态图像具有时序性,因此基于LSTM网络构建步态识别子系统,包括输入层,两层LSTM层,一层卷积层,一层全连接层和一层Softmax输出层。同样以对应人员身份的embedding编码作为输出,使用Adam优化器迭代训练至收敛。
根据步骤4和图4构建文本无关的声纹识别子系统。对上述生物特征数据库中音频数据进行预处理,首先使用WebRTC算法对音频进行去噪,然后使用VAD算法进行切割,切除无人声的静音部分,然后对VAD片段进行加窗分帧并进行短傅里叶变换得到频谱特征,使用80维的Mel滤波器进行滤波,得到80维的Mel特征频谱,将其作为声纹提取网络的输入。基于深度网络构建声纹提取网络,包括输入层、多个卷积层、一个残差模块,一个全连接层,全连接层的输出即为声纹特征,使用Kmeans算法无监督的对声纹特征进行聚类,对于540条数据的训练集共聚540类,保存聚类中心,并以对应的embedding人员编码进行标记。使用Adam优化器训练声纹提取网络至收敛,Kmeans算法最大迭代次数设为1000次。
根据步骤5和5五使用Softmax回归算法构建融合人脸、步态和声纹的综合判别系统。将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出向量进行第一维度的横向拼接,作为该综合判别系统的特征向量,相应的构建Softmax回归矩阵。以最终实际人员身份编码作为输出,使用梯度下降算法训练至收敛。
根据步骤6至9和图6部署上线系统,集控平台对巡检机器人下达人员身份确认检测指令,机器人开启本体搭载的高清相机和高保真麦克风,开始沿着既定轨迹进行运动,达到检测点后静默采集图像、视频和音频数据,通过内部通信系统,机器人实时将数据传回集控平台,同时集控平台调用巡检机器人周围所有监控探头图像。集控平台分别将图像数据、视频数据和音频数据分别使用相应的数据预处理方法进行预处理后分别送至人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统,分别得到相应的输出向量。其中,若图像预处理中的人脸检测模块没有检测到人脸数据,则使用一个每个元素都是足够小的负值的同维度的向量替代人脸识别子系统的输出向量。将三个子系统的输出向量进行第一维度的横向拼接,输入训练收敛的综合判别系统中,得到最终代表人员身份的embedding编码,查询现有的生物特征数据库中所有人员的embedding编码,若无法找到广义距离足够近的编码,表示该人员不具有权限。重复上述步骤2次,若三次判别的结果均为该人员不具有权限,集控平台发出“发现不明身份人员”告警,并展示相应的图片和视频,同时向安保人员的通信终端发出“发现不明身份人员”的安全警告。
值得注意的是,对生物特征数据,若由于人员变动导致的数据库的数据变动时,需要重新训练三个子系统和综合判别系统以保证整个系统的良好运行。
对于三个子系统,使用的内部算法,只要能得到含有人员身份信息的输出向量、判别结果或者代表判别结果的特征,均可。
对于文本无关的声纹识别子系统,可以针对特定的常用话术使用文本相关的声纹识别系统;可以提高识别率和识别速度。
对于最后的综合判别系统,可以使用其他判别方法或者舍弃,直接将三个子系统的结果根据其他判别方法得到最终结果或者仅仅是根据少数服从多数的逻辑来确定也可以。
对于各个步骤,只要能达到相同的目的,步骤可以分为多个子步骤、子阶段,也可变更使用其他步骤或者其他子步骤和子阶段,各个步骤或者子步骤、子阶段的顺序只要不违背逻辑均可进行调整、组合或者变更。
本发明真正做到零打扰情况下完成人员身份的确认工作,与传统门禁不同,无需待检测人员的配合,不打扰正常工作,自主静默完成识别。
本发明融合三种生物特征识别算法,鲁棒性更强,避免单一算法失效或误判时整体系统失效和误判。
Claims (10)
1.一种基于多模态生物特征的人员身份识别系统构建方法,其特征在于:它包括:
步骤1、构建生物特征数据库,以具有进出权限的工作人员个人为单位,分别采集与实际生产环境相同背景环境下不同情况下的人脸图像数据、行进数据和声音数据,将该人员身份进行编码,作为这些数据的标注并保存;
步骤2、构建人脸识别子系统,提取生物特征数据库中人脸图像数据,对图像进行预处理,以预处理后的像素矩阵作为输入,对应的人员身份编码作为输出,使用优化器进行迭代训练至收敛;
步骤3、构建步态识别子系统,提取生物特征数据库中行进数据,然后进行图像方面的预处理,包括图像增强和归一化,对预处理后的数据序列分别提取人体轮廓关键点和下肢关节点,人体轮廓关键点到中心点距离以及下肢关节点角度作为输入特征,基于深度循环网络构建步态识别子系统,同样以对应人员身份编码作为输出,使用优化器迭代训练至收敛;
步骤4、构建文本无关的声纹识别子系统,提取生物特征数据库中音频数据,进行音频数据的预处理,得到音频数据的频域特征作为输入,基于深度网络和残差网络构建声纹特征提取系统,通过聚类算法进行聚类,使同一个人的声纹特征聚为一类,并将人员身份编码作为该聚类中心的标注,使用优化器迭代训练声纹提取网络至收敛;
步骤5、构建融合人脸、步态和声纹的综合判别系统,将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合,作为特征向量,使用多分类算法构建融合人脸、步态和声纹的综合判别系统,以最终实际人员身份编码作为输出,进行训练至收敛。
2.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统构建方法,其特征在于:在构建生物特征数据库时,每人每种生物特征的采集数量要一致,但是每人采集的声音数据不需要使用相同话术,仅需要保证每句话的长度应相同即可。
3.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统构建方法,其特征在于:所述对图像进行预处理包括对人脸是否存在的检测、人脸扶正、图像增强和归一化处理。
4.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统构建方法,其特征在于:若行进数据为视频数据,视频数据的预处理包括提取关键帧序列,所述关键帧序列为步态变化的前后帧。
5.如权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法,它包括:
步骤6、将巡检机器人搭载的传感器或现场监控探头获取的传感数据通过通信系统传输至集控平台;集控平台根据不同数据类型进行分发至各个子系统
步骤7、对于人脸图像数据进行预处理,使用步骤3同样的图像预处理方法获取像素矩阵后输入训练收敛的人脸识别子系统,对于采集的步态数据,使用步骤4同样的预处理方法进行预处理提取人体轮廓关键点和下肢关节点,人体轮廓关键点到中心点距离以及下肢关节点角度,组合后输入训练收敛的步态识别子系统中;对于音频数据,使用步骤5同样的数据预处理方法得到频域特征,输入文本无关的声纹识别子系统的声纹特征提取模块,获取声纹特征,同样通过聚类算法得到当前声纹特征属于的类别,即人员编码;
步骤8:对步骤7中三个子系统的输出进行组合,输入步骤5中训练收敛的融合人脸、步态和声纹的综合判别系统,得到最终人员身份编码;
步骤9:不断重复步骤6至步骤8。
6.根据权利要求5所述的一种基于多模态生物特征的人员身份识别系统的使用方法,其特征在于:对于人脸图像数据预处理过程中包括对是否存在人脸的判别,若不存在人脸,使用一个不影响最终判别结果的常数组成的向量代替人脸识别子系统判断的输出向量。
7.根据权利要求5所述的一种基于多模态生物特征的人员身份识别系统的使用方法,其特征在于:步骤8中如果判别得到的编码不属于生物特征数据库中任何一个人员编码,则在集控平台发出告警,并通过通信终端通知安保人员。
8.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法,其特征在于:步骤5所述将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出进行组合作为特征向量的方法为:将人脸识别子系统、步态识别子系统和文本无关的声纹识别子系统的输出向量进行第一维度的横向拼接,作为该综合判别系统的特征向量,相应的构建Softmax回归矩阵,以最终实际人员身份编码作为输出,使用梯度下降算法训练至收敛。
9.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法,其特征在于:步骤4所述构建文本无关的声纹识别子系统的具体方法包括:对生物特征数据库中音频数据进行预处理,首先使用WebRTC算法对音频进行去噪,然后使用VAD算法进行切割,切除无人声的静音部分,然后对VAD片段进行加窗分帧并进行短傅里叶变换得到频谱特征,使用80维的Mel滤波器进行滤波,得到80维的Mel特征频谱作为声纹提取网络的输入,基于深度网络构建声纹提取网络,提取网络包括输入层、卷积层、残差模块和一个全连接层,全连接层的输出即为声纹特征,使用Kmeans算法无监督的对声纹特征进行聚类,将聚类结果保存在聚类中心,并以对应的embedding人员编码进行标记;使用Adam优化器训练声纹提取网络至收敛,Kmeans算法最大迭代次数设为1000次。
10.根据权利要求1所述的一种基于多模态生物特征的人员身份识别系统的使用方法,其特征在于:步骤2所述构建人脸识别子系统的具体方法为:提取生物特征数据库中人脸图像数据,对图像进行提取人脸轮廓,使用DPM模型进行人脸检测,若存在人脸数据,获取人脸轮廓角度并进行扶正,然后将图像进行增强,使得人脸特征更为突出,然后进行归一化,得到像素矩阵;基于深度卷积网络构建人脸识别系统,将预处理后的像素矩阵作为输入,将embedding向量作为输出,使用Adam优化器进行训练至收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147717.0A CN112149638B (zh) | 2020-10-23 | 2020-10-23 | 基于多模态生物特征的人员身份识别系统构建及使用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147717.0A CN112149638B (zh) | 2020-10-23 | 2020-10-23 | 基于多模态生物特征的人员身份识别系统构建及使用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149638A true CN112149638A (zh) | 2020-12-29 |
CN112149638B CN112149638B (zh) | 2022-07-01 |
Family
ID=73954849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011147717.0A Active CN112149638B (zh) | 2020-10-23 | 2020-10-23 | 基于多模态生物特征的人员身份识别系统构建及使用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149638B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949403A (zh) * | 2021-02-01 | 2021-06-11 | 浙江大学 | 一种基于下颌骨生物特征的可靠用户认证方法及系统 |
CN112966638A (zh) * | 2021-03-22 | 2021-06-15 | 国网浙江省电力有限公司电力科学研究院 | 基于多种特征的变电站作业人员鉴别及定位方法 |
CN113673487A (zh) * | 2021-10-21 | 2021-11-19 | 杭州觅睿科技股份有限公司 | 一种宠物识别方法、装置、设备及存储介质 |
CN113688745A (zh) * | 2021-08-27 | 2021-11-23 | 大连海事大学 | 一种基于相关节点自动挖掘及统计信息的步态识别方法 |
CN113723188A (zh) * | 2021-07-28 | 2021-11-30 | 国网浙江省电力有限公司电力科学研究院 | 一种结合人脸与步态特征的着装一致人员身份核验方法 |
CN114973120A (zh) * | 2022-04-14 | 2022-08-30 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN115223278A (zh) * | 2022-07-15 | 2022-10-21 | 深圳牛智技术科技有限公司 | 一种基于人脸识别的智能门锁及开锁方法 |
CN117036620A (zh) * | 2023-10-07 | 2023-11-10 | 中国科学技术大学 | 基于单幅图像的三维人脸重建方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332093A (zh) * | 2011-09-19 | 2012-01-25 | 汉王科技股份有限公司 | 一种掌纹和人脸融合识别的身份认证方法及装置 |
US20150030212A1 (en) * | 2013-07-29 | 2015-01-29 | Lockheed Martin Corporation | Systems and methods for applying commercial web search technologies to biometric matching and identification |
CN205334561U (zh) * | 2015-12-30 | 2016-06-22 | 北京上古视觉科技有限公司 | 一种基于多模态生物识别技术的云考勤系统 |
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
CN107332659A (zh) * | 2017-05-24 | 2017-11-07 | 舒翔 | 一种基于生物特征的身份认证方法、存储介质及系统 |
CN109344740A (zh) * | 2018-09-12 | 2019-02-15 | 上海了物网络科技有限公司 | 人脸识别系统、方法及计算机可读存储介质 |
CN109614880A (zh) * | 2018-11-19 | 2019-04-12 | 国家电网有限公司 | 一种多模态生物特征融合方法及装置 |
CN109841218A (zh) * | 2019-01-31 | 2019-06-04 | 北京声智科技有限公司 | 一种针对远场环境的声纹注册方法及装置 |
CN111311809A (zh) * | 2020-02-21 | 2020-06-19 | 南京理工大学 | 基于多生物特征融合的智能化门禁系统 |
CN111507311A (zh) * | 2020-05-22 | 2020-08-07 | 南京大学 | 一种基于多模态特征融合深度网络的视频人物识别方法 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
-
2020
- 2020-10-23 CN CN202011147717.0A patent/CN112149638B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332093A (zh) * | 2011-09-19 | 2012-01-25 | 汉王科技股份有限公司 | 一种掌纹和人脸融合识别的身份认证方法及装置 |
US20150030212A1 (en) * | 2013-07-29 | 2015-01-29 | Lockheed Martin Corporation | Systems and methods for applying commercial web search technologies to biometric matching and identification |
CN205334561U (zh) * | 2015-12-30 | 2016-06-22 | 北京上古视觉科技有限公司 | 一种基于多模态生物识别技术的云考勤系统 |
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
CN107332659A (zh) * | 2017-05-24 | 2017-11-07 | 舒翔 | 一种基于生物特征的身份认证方法、存储介质及系统 |
CN109344740A (zh) * | 2018-09-12 | 2019-02-15 | 上海了物网络科技有限公司 | 人脸识别系统、方法及计算机可读存储介质 |
CN109614880A (zh) * | 2018-11-19 | 2019-04-12 | 国家电网有限公司 | 一种多模态生物特征融合方法及装置 |
CN109841218A (zh) * | 2019-01-31 | 2019-06-04 | 北京声智科技有限公司 | 一种针对远场环境的声纹注册方法及装置 |
CN111311809A (zh) * | 2020-02-21 | 2020-06-19 | 南京理工大学 | 基于多生物特征融合的智能化门禁系统 |
CN111507311A (zh) * | 2020-05-22 | 2020-08-07 | 南京大学 | 一种基于多模态特征融合深度网络的视频人物识别方法 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
Non-Patent Citations (3)
Title |
---|
E HOSSAIN 等: "Multimodal Face-Gait Fusion for Biometric Person Authentication", 《2011 IFIP 9TH INTERNATIONAL CONFERENCE ON EMBEDDED AND UBIQUITOUS COMPUTING》 * |
刘丽丽: "基于最外轮廓的步态识别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
王瑜 等: "多模态生物特征识别技术进展综述", 《计算机应用与软件》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949403A (zh) * | 2021-02-01 | 2021-06-11 | 浙江大学 | 一种基于下颌骨生物特征的可靠用户认证方法及系统 |
CN112949403B (zh) * | 2021-02-01 | 2022-08-23 | 浙江大学 | 一种基于下颌骨生物特征的可靠用户认证方法及系统 |
CN112966638A (zh) * | 2021-03-22 | 2021-06-15 | 国网浙江省电力有限公司电力科学研究院 | 基于多种特征的变电站作业人员鉴别及定位方法 |
CN113723188A (zh) * | 2021-07-28 | 2021-11-30 | 国网浙江省电力有限公司电力科学研究院 | 一种结合人脸与步态特征的着装一致人员身份核验方法 |
CN113688745A (zh) * | 2021-08-27 | 2021-11-23 | 大连海事大学 | 一种基于相关节点自动挖掘及统计信息的步态识别方法 |
CN113688745B (zh) * | 2021-08-27 | 2024-04-05 | 大连海事大学 | 一种基于相关节点自动挖掘及统计信息的步态识别方法 |
CN113673487A (zh) * | 2021-10-21 | 2021-11-19 | 杭州觅睿科技股份有限公司 | 一种宠物识别方法、装置、设备及存储介质 |
CN114973120A (zh) * | 2022-04-14 | 2022-08-30 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN114973120B (zh) * | 2022-04-14 | 2024-03-12 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN115223278A (zh) * | 2022-07-15 | 2022-10-21 | 深圳牛智技术科技有限公司 | 一种基于人脸识别的智能门锁及开锁方法 |
CN117036620A (zh) * | 2023-10-07 | 2023-11-10 | 中国科学技术大学 | 基于单幅图像的三维人脸重建方法 |
CN117036620B (zh) * | 2023-10-07 | 2024-03-01 | 中国科学技术大学 | 基于单幅图像的三维人脸重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112149638B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149638B (zh) | 基于多模态生物特征的人员身份识别系统构建及使用方法 | |
CN110569720B (zh) | 一种基于音视频处理系统的音视频智能识别处理方法 | |
CN104573679B (zh) | 监控场景下基于深度学习的人脸识别系统 | |
CN105427421A (zh) | 基于人脸识别的门禁控制方法 | |
CN106919921B (zh) | 结合子空间学习与张量神经网络的步态识别方法及系统 | |
CN104239766A (zh) | 基于视频和音频的核电站用身份认证方法和系统 | |
CN106355154B (zh) | 一种监控视频中检测频繁过人的方法 | |
KR101937323B1 (ko) | 위장 얼굴 판별 장치 및 방법 | |
CN110827832A (zh) | 一种视频身份的识别设备及其方法 | |
CN111862413A (zh) | 实现抗疫情非接触多维身份快速识别的方法及其系统 | |
CN112364696A (zh) | 一种利用家庭监控视频提高家庭安全的方法及系统 | |
CN108875907A (zh) | 一种基于深度学习的指纹识别方法和装置 | |
CN108446687A (zh) | 一种基于移动端和后台互联的自适应人脸视觉认证方法 | |
CN109447199A (zh) | 一种基于脚步信息的多模态罪犯识别方法及系统 | |
CN114218543A (zh) | 一种基于多场景表情识别的加密解锁系统及方法 | |
CN115512259A (zh) | 一种基于多模态的短视频审核方法 | |
CN111241505A (zh) | 一种终端设备及其登录验证方法、计算机存储介质 | |
CN111582195B (zh) | 一种汉语唇语单音节识别分类器构建方法 | |
CN110908718A (zh) | 人脸识别激活语音导航方法、系统、存储介质及设备 | |
TWI691923B (zh) | 金融交易詐騙偵測防範系統及其方法 | |
CN110738985A (zh) | 基于语音信号的跨模态生物特征识别方法及系统 | |
CN113591619A (zh) | 一种基于录像视频的人脸识别核验装置及其核验方法 | |
CN115205786A (zh) | 手机盗拍行为在线自动识别告警方法 | |
Chen et al. | An Identity Authentication Method Based on Multi-modal Feature Fusion | |
CN114926930A (zh) | 一种多重身份验证的智能楼宇监控系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |