CN113807287B - 一种3d结构光人脸识别方法 - Google Patents
一种3d结构光人脸识别方法 Download PDFInfo
- Publication number
- CN113807287B CN113807287B CN202111119244.8A CN202111119244A CN113807287B CN 113807287 B CN113807287 B CN 113807287B CN 202111119244 A CN202111119244 A CN 202111119244A CN 113807287 B CN113807287 B CN 113807287B
- Authority
- CN
- China
- Prior art keywords
- information
- face
- structured light
- data
- mouth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000007499 fusion processing Methods 0.000 claims abstract description 4
- 210000003414 extremity Anatomy 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 210000004247 hand Anatomy 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 210000000707 wrist Anatomy 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 210000001364 upper extremity Anatomy 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 14
- 206010011878 Deafness Diseases 0.000 abstract description 11
- 238000007500 overflow downdraw method Methods 0.000 abstract description 3
- 238000007635 classification algorithm Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 231100000895 deafness Toxicity 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001559 infrared map Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种3D结构光人脸识别方法,属于人脸识别技术领域;本发明方法包括:投射结构光,通过传感器接收信息;信息预处理,获取动作时的信息;语音识别;依嘴部信息、手部信息及音频数据进行特征融合处理,实现人脸唇语识别;本发明通过结构光的人脸识别及语音实现手语、语音、唇语三种模态信息的融合,提供一种具备聋、哑和聋哑三种人士的多元辅助的融合方法;解决了在唇部运动过程中如何产生更好地反映说话人视觉信息的特征的问题,进一步提高了识别的准确率;从不同模态到视位的映射,解决视觉歧义问题;同时多模态的融合也解决了单模态无法识别时,无法输出结果的问题,最大程度保证了方法在实际应用中的可行性。
Description
技术领域
本发明属于人脸识别技术领域,特别涉及一种3D结构光人脸识别方法。
背景技术
3D结构光人脸识别是在红外的基础上,增加一个红外点阵发射器,输出的图包括一张红外IR图和一张深度图,不管是深度图还是IR图都是利用红外光的光源,因此可以在在黑暗环境中使用,并且不易被自然光环境干扰。3D结构光的人脸识别的活体检测这块,是通过引入深度图,是使用IR和深度两个人脸图像进行3D的活体检测。而且可以在红外人脸识别防范的攻击算法基础上,加入的深度图携芾深度信息,能够有效防范平面攻击,比如说照片、视频、纸张面具弯曲等材质的攻击,还可以结合红外IR图对表面材质的检测,能防范大部分的普通材质的面具、模型等攻击。
现有结构光人脸识别已经应用于多个领域例如唇语识别、人脸建模等;其中唇语识别的应用较为空白,这是因为现有唇语识别研究多专注于提高识别精度、研究多模态输入特征等方面,对提高唇部视觉特征的有效性关注不多。现有技术将结构光应用于唇语识别的如现有技术1“CN201510837127.3一种基于可穿戴设备的唇语识别方法及系统”其采用结构光建立人脸三维模型,通过三维模型提取唇部特征进而通过特征进行训练获得唇语信息,但其缺点也较为明显,唇部视觉特征的准确有效的识别是现有技术较难以实现,单纯通过三维的嘴部特征实现唇语识别还是有难度的,其原因在于每个人的口音、强调不同发声时调动唇部的肌肉并不相同,因此此方法建立的唇语系统及方法的精度较低;又如现有技术2“CN201611076396.3基于唇语的交互方法以及交互装置”相较于现有技术1而言,现有技术2采用深度、红外、彩色三种模态的图像进行融合,通过多模态融合提高识别精度,但其问题依然在于唇部视觉特征的准确有效的识别是现有技术较难以实现;
同时唇语识别多用于聋哑人辅助,而聋哑人分为聋、哑和聋哑三种,上述的现有技术仅针对单纯的视觉特征进行识别精度较低,所采用的的手段也仅仅是从视觉的角度出发,难以满足所有聋哑人的需求;因此必须通过其他模态信息建立完整的唇语识别方法,提高唇语识别的精度。
发明内容
(一)要解决的技术问题
提供一种多模态融合的方法提高唇语识别的精度,解决现有技术中单一视觉特征识别精度低的问题。
(二)技术方案
本发明通过如下技术方案实现:一种3D结构光人脸识别方法;
步骤100:向目标用户上半部分肢体投射结构光,通过传感器接收上半部分肢体信息及音频信息;
步骤200:上半部分肢体信息预处理,获取动作时的嘴部信息、手部信息;
步骤300:音频数据预处理,基于音频数据进行语音识别;
步骤400:依据动作时的获取动作时的嘴部信息、手部信息及音频数据进行特征融合处理,实现人脸唇语识别。
作为上述方案的进一步说明,所述步骤100的投射结构光采用的是正向投射方式;
所述步骤100的上半部分肢体信息包括彩色图像数据及深度数据。
作为上述方案的进一步说明,所述步骤200上半部分肢体信息预处理包括如下流程:
步骤210:利用深度数据构建人脸轮廓模型;
步骤220:三维人脸分割算法提取嘴部特征;
步骤230:基于嘴部特征获取唇语信息。
作为上述方案的进一步说明,所述步骤210具体的包括如下步骤:
步骤211:彩色图像数据及深度数据进行配准;
步骤212:对深度图像进行降噪滤波;
步骤213:面部检测及脸部特征点提取;
步骤214:人脸轮廓模型数据归一化。
作为上述方案的进一步说明,所述步骤220具体的包括如下步骤:
步骤221:彩色图像数据及深度数据进行配准、映射;
步骤222:基于脸部特征点构建嘴部轮廓线;
步骤223:基于轮廓线对嘴部特征进行分割,并将分割结果映射至人脸轮廓模型实现人脸轮廓模型嘴部特征的切割。
作为上述方案的进一步说明,所述步骤200上半部分肢体信息预处理还包括如下流程:
步骤240:构建人体上半身骨骼关键点图
步骤250:基于彩色图像数据、深度数据及上半身骨骼关键点图进行帧间配对;
步骤260:区域分割提取手臂、手部的动作信息;
步骤270:基于手臂、手部的动作信息获取手语信息。
作为上述方案的进一步说明,所述步骤260具体包括如下步骤:
步骤261:根据上半身骨骼关键点提取右手腕、右手、左手腕、左手的轨迹二维坐标;
步骤262:将二维坐标转化为三维点云信息,并归一化,提取手臂、手部的轨迹特征形成轨迹图;
步骤263:基于手势分割算法提取手势关键帧;
步骤264:轨迹与手势关键帧进行融合学习。
作为上述方案的进一步说明,所述步骤400具体的包括如下步骤:
步骤410:输入嘴部信息、手部信息及音频数据输出的特征;
步骤420:特征融合;
步骤430:输出结果。
作为上述方案的进一步说明,所述步骤430输出结果指的是基于识别到当前人脸的目标用户所要表达语言。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的整体算法模型总体框图;
图中3D-CNN表示3D卷积神经网络;FC-Layer表示3D卷积神经网络中的全连接层;MobileNet表示MobileNet神经网络;LSTM表示长短时记忆网络结构;Softmax表示Softmax分类器。
(三)有益效果
本发明相对于现有技术,具有以下有益效果:本发明通过结构光的人脸识别及语音实现手语、语音、唇语三种模态信息的融合,提供一种具备聋、哑和聋哑三种人士的多元辅助的融合方法;解决了在唇部运动过程中如何产生更好地反映说话人视觉信息的特征的问题,进一步提高了识别的准确率;从不同模态到视位的映射,解决视觉歧义问题;同时多模态的融合也解决了单模态无法识别时,无法输出结果的问题,最大程度保证了方法在实际应用中的可行性。
具体实施方式
实施例,请参阅图1
步骤100:向目标用户上半部分肢体投射结构光,通过传感器接收上半部分肢体信息及音频信息;步骤100的投射结构光采用的是正向投射方式;所述步骤100的上半部分肢体信息包括彩色图像数据及深度数据。
需要进一步说明的是本实施例采用KinectV1进行结构光的投射及数据的提取;其原理在于KinectV1自带的红外发射器通过光栅不断辐射光至目标用户,在目标用户的上半部分肢体投射随机的散斑,再利用其自带的红外摄像头记录空间中散斑的分布,进而实现深度数据的获取;同时KinectV1自带RGB摄像头,可以同步提取彩色图像数据;需要进一步说明的是在本实施例中为了方便阐述只采用Kinect设备进行实验,也可采用其他方法代替组合,如奥比中光的3D传感摄像头;
步骤200:上半部分肢体信息预处理,获取动作时的嘴部信息、手部信息;
具体的包括如下流程:
步骤210:利用深度数据构建人脸轮廓模型;
由于Kinect摄像头的红外摄像头与RGB摄像头并非同轴拍摄,因而从目标用户身上提取到的深度数据和彩色图像数据并不匹配,所以需要对彩色图像数据及深度数据进行配准;在本实施例中采用投影变换公式进行计算,具体的投影变换公式如下:
(x,y,z)T=R*(X,Y,Z)T+T;
式中,R为旋转矩阵,T为平移矩阵,(x,y,z)T为RGB摄像头拍摄的彩色图像数据坐标系对应点的坐标,(X,Y,Z)T为深度数据对应点的坐标。
步骤212:对深度图像进行降噪滤波;
降噪滤波的方法有多种,在本实施例中采用多帧中值滤波算法进行滤波降噪,其优点在于中值滤波是图像处理中的一个常用步骤,它对于斑点噪声和椒盐噪声来说尤其有用,该方法利用直方图可以高效地获得图像中亮度、对比度、最大亮度、最小亮度及亮度中值,基于此可以快速平滑移除由KINECT传感器产生的噪声曲面,并且对称填充。需要进一步说明的是本实施例所用的降噪滤波只是其中之一,其他算法也可以实现;如平滑重采样算法等;
步骤213:面部检测及脸部特征点提取;
Kinect辐射的面为目标用户的上半部分肢体,而非直接采用面部图像数据;因此需要对人脸及上半肢体躯干的区分,实现人脸的追踪;而Kinect骨骼追踪技术可以很好的建立人体骨骼的空间坐标,区分头部及上半肢体躯干的每个空间坐标,通过这一方法可以实现脸部与上半肢体躯干的区分;区分完成后Kinect可以实现面部的追踪;追踪完成后对面部的数据进行进一步的提取,在本实施例中采用常规的鼻尖定位法,进而判断面部的轮廓数据,通过AAM算法进行特征点定位及提取。
步骤214:人脸轮廓模型数据归一化。归一化的目的在于减轻目标用户与Kinect之间的距离对数据产生的影响。
步骤220:三维人脸分割算法提取嘴部特征;
具体的包括如下流程:
步骤221:彩色图像数据及深度数据进行配准、映射;
步骤222:基于脸部特征点构建嘴部轮廓线;
步骤223:基于轮廓线对嘴部特征进行分割,并将分割结果映射至人脸轮廓模型实现人脸轮廓模型嘴部特征的切割。
此步骤的原理Kinect可以同步采集深度数据和彩色图像数据,通过采用投影变换公式可以实现两种数据的匹配和映射,此时只需要通过步骤213提取的面部特征点,利用特征点确定嘴部的坐标,在基于坐标对构建嘴部的轮廓线;轮廓线建立完成后通过轮廓线的坐标映射至人脸轮廓模型,对人脸轮廓模型进行分割提取嘴部的信息;
步骤230:基于嘴部特征获取唇语信息。
需要进一步说明的是此步骤是为了完成基于人脸识别后唇语识别,采用的是MobileNet神经网络及LSTM长短时记忆网络结构进行完成;此处不再赘述;
步骤240:构建人体上半身骨骼关键点图;此步骤采用的是Kinect带的骨骼追踪算法进行实现,上文已有阐述;
步骤250:基于彩色图像数据、深度数据及上半身骨骼关键点图进行帧间配对;帧间配对的目的在于Kinect获得的数据为时域数据,而彩色图像数据、深度数据及上半身骨骼关键点图是分开进行处理,需要将三种个数据配对,保证每种数据的特征在时间上都能得到一一对应;
步骤260:区域分割提取手臂、手部的动作信息;
具体包括如下步骤:
步骤261:根据上半身骨骼关键点提取右手腕、右手、左手腕、左手的轨迹二维坐标;
步骤262:将二维坐标转化为三维点云信息,并归一化,提取手臂、手部的轨迹特征形成轨迹图;
步骤263:基于手势分割算法提取手势关键帧;
步骤264:轨迹与手势关键帧进行融合学习。
需要进一步说明的是,本实施例手势部分仅仅识别中国手语,中国手语的特点在于一只手作为主要,另一只手作为辅助;基于Kinect可以获得手及手肘的空间坐标,基于空间坐标建立三维点云,通过点云的信息可以提取手及手肘两个部分的轨迹特征,通过SVM分类算法可以得到主手轨迹识别结果、辅手轨迹识别结果;具体的SVM分类算法采用的流程为:建立双手手语数据集—SVM算法训练识别—获得手部轨迹识别结果,SVM算法适用范围较广,案例较多此处不再对流程的具体步骤进行展开赘述;
步骤270:基于手臂、手部的动作信息获取手语信息。
需要进一步说明的是后获取手语信息是轨迹与手势进行数据融合,其融合方案如下:
A主手轨迹识别结果,主手手势识别结果,辅手轨迹识别结果,辅手手势识别结果,四类结果都有效识别了,即网络及SVM分类算法都有效识别了,此时根据四类样本的具体情况估计出识别结果的置信度,依据置信度计算权值,通过自适应权值分配策略分配权值,在基于加权平均模型获得最后的结果,公式如下:
R=wa1fa1+wb1fb1+wa2fa2+wb2fb2
式中R代表最终结果,w代表权值,f代表网络或SVM分类算法的输出;a1代表主手轨迹,a2代表辅手轨迹,b1代表主手手势,b2代表辅手手势;
B主手轨迹识别结果,主手手势识别结果,辅手轨迹识别结果,辅手手势识别结果,四类结果都无法识别了,则输出无法识别结果;
C主手轨迹识别结果,主手手势识别结果,即主手效识别了,则输出概率最大的主手类型作为最终输出的结果;
D辅手轨迹识别结果,辅手手势识别结果,即辅手有效识别了,则输出概率最大的辅手类型作为最终输出的结果;
E主手轨迹识别结果,主手手势识别结果,辅手轨迹识别结果,辅手手势识别结果,四类结果中若未识别到有效轨迹,即主手辅手的轨迹无法识别,则输出概率最大的主手辅手手势类型作为最终输出的结果;
F主手轨迹识别结果,主手手势识别结果,辅手轨迹识别结果,辅手手势识别结果,四类结果中若未识别到有效手势,则输出无法识别结果;
G主手轨迹识别结果,主手手势识别结果,辅手轨迹识别结果,辅手手势识别结果,四类结果中只识别到主手轨迹识别结果/辅手手势识别结果、主手手势识别结果/辅手轨迹识别结果,则输出无法识别结果;
需要进一步说明的是上述融合策略采用的是决策融合仅是对本实施例进行阐述,并非对融合策略部分的进一步限定;
步骤300:音频数据预处理,基于音频数据进行语音识别;
需要进一步说明的是语音识别应用范围较广,案例较多此步骤不再做过多的赘述,其语音识别的结果以文本方式进行输出;同时本实施例的音频数据采集是基于Kinect自带的语音模块进行同步采集。
步骤400:依据动作时的获取动作时的嘴部信息、手部信息及音频数据进行特征融合处理,实现人脸唇语识别。
具体的还包括如下步骤:
步骤410:输入嘴部信息、手部信息及音频数据输出的特征;
步骤420:特征融合;
步骤430:输出结果。输出结果指的是基于识别到当前人脸的目标用户所要表达语言。
需要进一步说明的是,特征融合部分依然采用决策融合的方式进行融合,仅是对本实施例进行阐述,并非对融合策略部分的进一步限定;
其融合方案如下:
A嘴部信息、手部信息及音频数据都有效识别了,此时根据四类样本的具体情况估计出特征的置信度,依据置信度计算权值,通过自适应权值分配策略分配权值,在基于加权平均模型获得最后的结果,公式如下:
R=w1f1+w2f2+w3f3
式中R代表最终结果,w代表权值,f代表输出特征;
B若音频数据未有效识别或手部信息未有效识别,其他两个特征有效识别,此时根据两类样本的具体情况估计出特征的置信度,依据置信度计算权值,通过自适应权值分配策略分配权值,在基于加权平均模型获得最后的结果,公式如下:
R=w1f1+w2f2
式中R代表最终结果,w代表权值,f代表输出特征;
C若音频数据未有效识别和手部信息未有效识别,则输出结果中概率最大的嘴部信息作为最终输出的结果;
D若嘴部信息未有效识别,则输出概率最大的音频数据作为最终输出结果。
本发明通过结构光的人脸识别及语音实现手语、语音、唇语三种模态信息的融合,提供一种具备聋、哑和聋哑三种人士的多元辅助的融合方法;解决了在唇部运动过程中如何产生更好地反映说话人视觉信息的特征的问题,进一步提高了识别的准确率;从不同模态到视位的映射,解决视觉歧义问题;同时多模态的融合也解决了单模态无法识别时,无法输出结果的问题,最大程度保证了方法在实际应用中的可行性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种3D结构光人脸识别方法;其特征在于:
步骤100:向目标用户上半部分肢体投射结构光,通过传感器接收上半部分肢体信息及音频信息,其中,所述步骤100的投射结构光采用的是正向投射方式,所述步骤100的上半部分肢体信息包括彩色图像数据及深度数据;
步骤200:上半部分肢体信息预处理,获取动作时的嘴部信息、手部信息,所述步骤200上半部分肢体信息预处理包括如下流程:
步骤210:利用深度数据构建人脸轮廓模型,所述步骤210具体的包括如下步骤:
步骤211:彩色图像数据及深度数据进行配准,其中采用投影变换公式进行配准,所述投影变换公式如下:(x,y,z)T=R*(X,Y,Z)T+T;式中,R为旋转矩阵,T为平移矩阵,(x,y,z)T为RGB摄像头拍摄的彩色图像数据坐标系对应点的坐标,(X,Y,Z)T为深度数据对应点的坐标;
步骤212:对深度数据进行降噪滤波,具体采用多帧中值滤波算法进行滤波降噪,该方法利用直方图获得图像中亮度、对比度、最大亮度、最小亮度及亮度中值,基于此快速平滑移除由KINECT传感器产生的噪声曲面,并且对称填充;
步骤213:面部检测及脸部特征点提取,具体的通过Kinect骨骼追踪技术建立人体骨骼的空间坐标,区分头部及上半肢体躯干的每个空间坐标,通过这一方法实现脸部与上半肢体躯干的区分;区分完成后Kinect实现面部的追踪;追踪完成后对面部的数据进行进一步的提取;
步骤214:人脸轮廓模型数据归一化;
步骤220:三维人脸分割算法提取嘴部特征;
步骤230:基于嘴部特征获取唇语信息;
步骤300:音频数据预处理,基于音频数据进行语音识别;
步骤400:依据动作时的获取动作时的嘴部信息、手部信息及音频数据进行特征融合处理,实现人脸唇语识别;
所述步骤200上半部分肢体信息预处理还包括如下流程:
步骤240:构建人体上半身骨骼关键点图;
步骤250:基于彩色图像数据、深度数据及上半身骨骼关键点图进行帧间配对;
步骤260:区域分割提取手臂、手部的动作信息;
步骤270:基于手臂、手部的动作信息获取手语信息;
所述步骤260具体包括如下步骤:
步骤261:根据上半身骨骼关键点提取右手腕、右手、左手腕、左手的轨迹二维坐标;
步骤262:将二维坐标转化为三维点云信息,并归一化,提取手臂、手部的轨迹特征形成轨迹图;
步骤263:基于手势分割算法提取手势关键帧;
步骤264:轨迹与手势关键帧进行融合学习。
2.如权利要求1所述的一种3D结构光人脸识别方法,其特征在于:
所述步骤220具体的包括如下步骤:
步骤221:彩色图像数据及深度数据进行配准、映射;
步骤222:基于脸部特征点构建嘴部轮廓线;
步骤223:基于轮廓线对嘴部特征进行分割,并将分割结果映射至人脸轮廓模型实现人脸轮廓模型嘴部特征的切割。
3.如权利要求1所述的一种3D结构光人脸识别方法,其特征在于:
所述步骤400具体的包括如下步骤:
步骤410:输入嘴部信息、手部信息及音频数据输出的特征;
步骤420:特征融合;
步骤430:输出结果。
4.如权利要求3所述的一种3D结构光人脸识别方法,其特征在于:所述步骤430输出结果指的是基于识别到当前人脸的目标用户所要表达语言。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119244.8A CN113807287B (zh) | 2021-09-24 | 2021-09-24 | 一种3d结构光人脸识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119244.8A CN113807287B (zh) | 2021-09-24 | 2021-09-24 | 一种3d结构光人脸识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807287A CN113807287A (zh) | 2021-12-17 |
CN113807287B true CN113807287B (zh) | 2022-07-22 |
Family
ID=78896528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111119244.8A Active CN113807287B (zh) | 2021-09-24 | 2021-09-24 | 一种3d结构光人脸识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807287B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805272B (zh) * | 2022-10-29 | 2024-07-12 | 北京华师教育科技研究院 | 一种可视化教育教学分析方法、系统及存储介质 |
CN117218716B (zh) * | 2023-08-10 | 2024-04-09 | 中国矿业大学 | 一种基于dvs的汽车座舱手势识别系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457980A (zh) * | 2018-05-08 | 2019-11-15 | 上海梓琰信息科技有限公司 | 一种人体影像识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005769B (zh) * | 2015-07-08 | 2018-05-15 | 山东大学 | 一种基于深度信息的手语识别方法 |
CN106774856B (zh) * | 2016-08-01 | 2019-08-30 | 深圳奥比中光科技有限公司 | 基于唇语的交互方法以及交互装置 |
CN106919251A (zh) * | 2017-01-09 | 2017-07-04 | 重庆邮电大学 | 一种基于多模态情感识别的虚拟学习环境自然交互方法 |
-
2021
- 2021-09-24 CN CN202111119244.8A patent/CN113807287B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457980A (zh) * | 2018-05-08 | 2019-11-15 | 上海梓琰信息科技有限公司 | 一种人体影像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113807287A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574518B (zh) | 人脸活体检测的方法和装置 | |
CN106055091B (zh) | 一种基于深度信息和校正方式的手部姿态估计方法 | |
Kar | Skeletal tracking using microsoft kinect | |
Wang et al. | Video analysis of human dynamics—a survey | |
Martin et al. | Real time head model creation and head pose estimation on consumer depth cameras | |
CN109934848B (zh) | 一种基于深度学习的运动物体精准定位的方法 | |
Yilmaz et al. | A differential geometric approach to representing the human actions | |
Uddin et al. | Human activity recognition using body joint‐angle features and hidden Markov model | |
CN113807287B (zh) | 一种3d结构光人脸识别方法 | |
CN107688391A (zh) | 一种基于单目视觉的手势识别方法和装置 | |
Kumano et al. | Pose-invariant facial expression recognition using variable-intensity templates | |
Boutellaa et al. | On the use of Kinect depth data for identity, gender and ethnicity classification from facial images | |
US20040028260A1 (en) | Posture recognition apparatus and autonomous robot | |
Tulyakov et al. | Robust real-time extreme head pose estimation | |
CN103714322A (zh) | 一种实时手势识别方法及装置 | |
CN114187665A (zh) | 一种基于人体骨架热图的多人步态识别方法 | |
Amrutha et al. | Human Body Pose Estimation and Applications | |
Rani et al. | Hand gesture control of virtual object in augmented reality | |
Neverova | Deep learning for human motion analysis | |
CN104898971B (zh) | 一种基于视线跟踪技术的鼠标指针控制方法及系统 | |
Li et al. | Posture recognition technology based on kinect | |
Amaliya et al. | Study on hand keypoint framework for sign language recognition | |
CN108648203A (zh) | 一种基于单目摄像头的人体三维姿态估计的方法 | |
Tiwari et al. | Sign language recognition through kinect based depth images and neural network | |
CN108908353B (zh) | 基于平滑约束逆向机械模型的机器人表情模仿方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A 3D structured light face recognition method Granted publication date: 20220722 Pledgee: Pingtan Comprehensive Experimental Zone Xinping Financing Guarantee Co.,Ltd. Pledgor: FUJIAN PINGTAN RUIQIAN INTELLIGENT TECHNOLOGY Co.,Ltd. Registration number: Y2024980021057 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |