CN113435422A - 辅助聋哑人士唇读的口型识别方法 - Google Patents
辅助聋哑人士唇读的口型识别方法 Download PDFInfo
- Publication number
- CN113435422A CN113435422A CN202110987380.2A CN202110987380A CN113435422A CN 113435422 A CN113435422 A CN 113435422A CN 202110987380 A CN202110987380 A CN 202110987380A CN 113435422 A CN113435422 A CN 113435422A
- Authority
- CN
- China
- Prior art keywords
- lip
- deaf
- mouth shape
- mute
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉中的目标检测技术领域,涉及一种辅助聋哑人士唇读的口型识别方法,包括如下步骤:视频收集人脸数据,并对人脸通过深度学习模型进行识别,得到识别结果。识别结果通过处理,提取人脸的唇部关键点。通过唇部关键点进行检测对齐模型,获取唇部关键点的原始数据。根据原始数据得到是否存在唇动,如果存在,则进行后续步骤。根据唇动的数据定位唇动的起始和结束,获取各次唇动的帧序列。对唇动的帧序列关键点进行模型整理。将得出的对应结果与人脸ID绑定,并输出推理结果。检测是否持续的进行口型识别,如果持续则返回前面的步骤,如果不持续则结束。本发明用于辅助聋哑人士唇读,进而达到与正常人士沟通交流的目的。
Description
技术领域
本发明涉及一种辅助聋哑人士唇读的口型识别方法,属于计算机视觉中的目标检测技术领域。
背景技术
由于手势的变化可以模拟形象或者音节以构成的一定意思或词语,因此手语是聋哑人士主要的沟通工具。但手语语法与正常的汉语语法并不完全相同,存在宾语前置、定语倒置、状语倒置、介词省略、量词省略等常见现象。当正常人士与聋哑人士沟通时,很容易产生困惑,造成无法有效交流。若聋哑人士通过唇读训练学会利用声音的视觉信息来理解语言并学会与人交流,不但可以提高聋哑人的口头语言表达能力,促进聋哑人士与正常人士交往,而且有利于提高聋哑人的书面表达能力。而目前还没有相关的技术能实现这一目的。
发明内容
发明目的:针对上述现有存在的问题和不足,本发明的目的是提供一种辅助聋哑人士唇读的口型识别方法,通过提取人脸唇部区域关键点,进行唇动检测,在此基础上使用时空卷积神经网络模型进行口型识别。
技术方案:为实现上述发明目的,本发明采用以下技术方案:一种辅助聋哑人士唇读的口型识别方法,其特征在于:包括如下步骤:
步骤1:视频收集人脸数据,并对人脸通过深度学习模型进行识别,得到识别结果;
步骤2:从步骤1中得到的识别结果通过处理,提取人脸的唇部关键点;
步骤3:通过步骤2中的唇部关键点进行检测对齐模型,获取唇部关键点的原始数据;
步骤4:根据步骤3所得的原始数据得到是否存在唇动,如果存在,则进行步骤5,如果不存在,则直接进入步骤8;
步骤5:根据唇动的数据定位唇动的起始和结束,获取各次唇动的帧序列;
步骤6:对步骤5中得到的唇动的帧序列关键点进行模型整理;
步骤7:将步骤6得出的对应结果与人脸ID绑定,并输出推理结果;
步骤8:检测是否持续的进行口型识别,如果持续则进入步骤1,如果不持续则结束。
进一步的,步骤2中对于人脸的唇部关键点的步骤为:将唇部各点进行提取并标准化,之后再对唇部各点进行筛选,得到唇部关键点。
进一步的,步骤3中唇部关键点检测的步骤为:先计算并设置唇动阈值,若帧数超过唇动阈值,则判断唇动开始,并从唇动开始后,帧数低于唇动阈值时,判断此次唇动结束。
进一步的,步骤5中获取唇动的帧序列步骤为:记录开始帧和结束帧,得到每次唇动的序列和对应序列长度,将所有唇动序列进行处理,得到唇动的帧序列。
进一步的,步骤6中的模型整理步骤为:将唇动的帧序列输入深度学习模型进行推理,从中识别唇部动作对应的说话内容,利用时空卷积神经网络刻画唇动帧序列与空间特征,得出对应结果。
进一步的,将唇部各点进行标准化之后,选择左半部分或右半部分的点进行随机均匀分布的方式筛选唇部关键点。
进一步的,对唇动序列进行处理的步骤为:将获得的唇动的帧序列进行分段性插值或删除,得到唇动的帧序列为固定长度。
进一步的,所述步骤1中采用Kmeans聚类方法对人脸进行识别。
有益效果:与现有技术相比,本发明具有以下优点:这是一种新式的辅助聋哑人士唇读的口型识别方法,提供了一种口型识别方法,用于辅助聋哑人士唇读,进而达到与正常人士沟通交流的目的。目前,本发明识别的口型限于汉语常用单词或短语,包括58个汉语拼音。
附图说明
图1是本发明的口型识别主流程图;
图2是本发明的人脸68个关键点定位图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,一种辅助聋哑人士唇读的口型识别方法。具体实施方式如下:
a)人脸检测与识别
利用深度学习模型对输入视频数据逐帧进行人脸检测与识别。
1)人脸检测
目前人脸检测技术已经比较成熟,既有高精度的两阶段方法,如Faster-RCNN模型,也有高效率的一阶段方法,如YOLO系列模型,可根据场景需要自行选择。本阶段输出为每帧图像中每个人脸框左上角和右下角的坐标,人脸框置信度,人脸特征向量,其中表示帧ID,j表示人脸框ID,一般为256、512或1024。
2)人脸识别
选用广泛使用的DeepSort模型用于人脸跟踪,模型输入为和,输出为人脸ID。该步骤为人脸初识别,为不同视频帧中同一个人的人脸分配相同的ID。将,中的人脸框ID替换成人脸ID,下文中默认j表示人脸ID。
由于遮挡等外界因素及算法本身的原因,跟踪模型可能出现人脸跟丢的情形,从而不能保证人脸得到完全正确识别,这里采用聚类方法对人脸再识别。考虑到辅助聋哑人士唇读的应用场景,视频帧中一般不会出现太多张人脸,因此选用简单经典的Kmeans聚类方法。
聚类输入为,输出为聚类族ID,也即人脸ID。当跟踪算法与聚类算法识别结果不一致时,按如下规则处理:跟踪识别为两张人脸,聚类识别为一张人脸,则按聚类结果进行人脸ID合并;跟踪识别为一张人脸,聚类识别为两张人脸,则按跟踪结果保持原有人脸ID不便。
b)唇部关键点提取
根据步骤a)中获取的人脸检测框坐标从视频帧中截取人脸图像,并利用机器学习公开库 Dlib(Digital Library Service System)中训练好的特征提取器模型,对人脸进行对齐。
1)唇部点提取及标准化
人脸 68 个关键点如图2所示,其中点28-31为鼻部区域点,点37、46为两眼外角点,点49-68 为唇部区域点,记为这些点的原始坐标。通过最小二乘法求解拟合鼻部点28-31的直线,获得的直线方向作为纵轴方向,且以点为坐标原点构建直角坐标系。计算两眼外角距离D,令,即为标准化处理后的唇部点坐标,由实际情况可知取值范围为。
2)唇部点筛选
通常情况下,人的唇部外形左右基本对称,且说话时唇动也是左右对称。为减少数据运算量,同时避免少数唇部不对称情形对后续模型推理造成干扰,只选择唇部左半部分或者右半部分点。令,,通过随机均匀分布方式选择或。
c)唇动检测
唇动检测主要是确定说话人唇动的开始进而结束时间。随着语音识别技术的发展,可利用语音检测确定唇动变化的时间。但此方法存在一定程度的不匹配问题,除了录制过程中摄像头与麦克风等硬件设备之间存在一定的延时外,说话时唇部运动的过程和发出声音的过程也并不完全同步。此外,也可以通过光流法计算出相邻帧之间嘴唇的运动信息来,从而确定视频中唇动开始与结束时间,但该方法受光照条件影响较大。本发明基于上述步骤获得的唇部关键点直接检测唇动。
1)唇动判断
令,设置阈值。若连续k帧满足,则判断唇动开始,记第1帧为唇动开始帧;检测到唇动后若连续k帧满足,则判断唇动结束,记第1帧为唇动结束帧。一般k取5,阈值的设置需能排除人们无意识的唇部运动。且实际操作中,可分别提前和滞后一帧作为唇动的开始和结束帧。
2)唇动帧获取
设置序列基准长度,将帧序列中均匀分割成份。若,每份随机均匀分布选择一帧进行删除。若,每份随机均匀分布选择一帧,在该帧与该帧后一帧之间线性插值一帧,若该帧为最后一帧,则在该帧与该帧前一帧之间线性插值一帧。处理后的帧序列记为。
d)模型推理
本步骤将上述步骤中获得的唇动关键点帧序列输入深度学习模型进行推理,从而识别唇部动作对应的说话内容。相较于大多数现有的唇语识别模型采用二阶段方式,即先利用CNN网络获取唇部视觉特征信息,再利用RNN(LSTM或GRU)网络刻画视觉特征序列间的时序关系,本发明采用一阶段方式,选用时空卷积神经网络STN同时刻画唇动帧序列时序与空间特征,可显著提升模型的识别效率。
e)推理结果输出
本步骤输出深度学习模型推理结果,并将结果与步骤a)中识别出的人脸ID关联,保证同一说话人的内容归为一类。
Claims (8)
1.一种辅助聋哑人士唇读的口型识别方法,其特征在于:包括如下步骤:
步骤1:视频收集人脸数据,并对人脸通过深度学习模型进行识别,得到识别结果;
步骤2:从步骤1中得到的识别结果通过处理,提取人脸的唇部关键点;
步骤3:通过步骤2中的唇部关键点进行检测对齐模型,获取唇部关键点的原始数据;
步骤4:根据步骤3所得的原始数据得到是否存在唇动,如果存在,则进行步骤5,如果不存在,则直接进入步骤8;
步骤5:根据唇动的数据定位唇动的起始和结束,获取各次唇动的帧序列;
步骤6:对步骤5中得到的唇动的帧序列关键点进行模型整理;
步骤7:将步骤6得出的对应结果与人脸ID绑定,并输出推理结果;
步骤8:检测是否持续的进行口型识别,如果持续则进入步骤1,如果不持续则结束。
2.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法,其特征在于:步骤2中对于人脸的唇部关键点的步骤为:将唇部各点进行提取并标准化,之后再对唇部各点进行筛选,得到唇部关键点。
3.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法,其特征在于:步骤3中唇部关键点检测的步骤为:先计算并设置唇动阈值,若帧数超过唇动阈值,则判断唇动开始,并从唇动开始后,帧数低于唇动阈值时,判断此次唇动结束。
4.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法,其特征在于:步骤5中获取唇动的帧序列步骤为:记录开始帧和结束帧,得到每次唇动的序列和对应序列长度,将所有唇动序列进行处理,得到唇动的帧序列。
5.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法,其特征在于:步骤6中的模型整理步骤为:将唇动的帧序列输入深度学习模型进行推理,从中识别唇部动作对应的说话内容,利用时空卷积神经网络刻画唇动帧序列与空间特征,得出对应结果。
6.根据权利要求2所述的辅助聋哑人士唇读的口型识别方法,其特征在于:将唇部各点进行标准化之后,选择左半部分或右半部分的点进行随机均匀分布的方式筛选唇部关键点。
7.根据权利要求4所述的辅助聋哑人士唇读的口型识别方法,其特征在于:对唇动序列进行处理的步骤为:将获得的唇动的帧序列进行分段性插值或删除,得到唇动的帧序列为固定长度。
8.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法,其特征在于:所述步骤1中采用Kmeans聚类方法对人脸进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987380.2A CN113435422A (zh) | 2021-08-26 | 2021-08-26 | 辅助聋哑人士唇读的口型识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987380.2A CN113435422A (zh) | 2021-08-26 | 2021-08-26 | 辅助聋哑人士唇读的口型识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113435422A true CN113435422A (zh) | 2021-09-24 |
Family
ID=77798047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110987380.2A Pending CN113435422A (zh) | 2021-08-26 | 2021-08-26 | 辅助聋哑人士唇读的口型识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435422A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
KR20110066628A (ko) * | 2009-12-11 | 2011-06-17 | 한국전자통신연구원 | 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법 |
CN112784864A (zh) * | 2019-11-09 | 2021-05-11 | 北京航天长峰科技工业集团有限公司 | 一种基于监控视频的人脸聚类方法 |
CN112817575A (zh) * | 2021-01-19 | 2021-05-18 | 中科方寸知微(南京)科技有限公司 | 基于唇语识别的汇编语言编辑器及识别方法 |
-
2021
- 2021-08-26 CN CN202110987380.2A patent/CN113435422A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
KR20110066628A (ko) * | 2009-12-11 | 2011-06-17 | 한국전자통신연구원 | 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법 |
CN112784864A (zh) * | 2019-11-09 | 2021-05-11 | 北京航天长峰科技工业集团有限公司 | 一种基于监控视频的人脸聚类方法 |
CN112817575A (zh) * | 2021-01-19 | 2021-05-18 | 中科方寸知微(南京)科技有限公司 | 基于唇语识别的汇编语言编辑器及识别方法 |
Non-Patent Citations (2)
Title |
---|
YIJIE ZHU: "The Research of Lip Reading Based on STCNN and ConvLSTM", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 * |
任玉强: "高安全性人脸识别身份认证系统中的唇语识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359575B (zh) | 人脸检测方法、业务处理方法、装置、终端及介质 | |
JP4612806B2 (ja) | 画像処理装置、画像処理方法、撮像装置 | |
JP2003030667A (ja) | イメージ内で目を自動的に位置決めする方法 | |
Hassanat | Visual speech recognition | |
JP2003216955A (ja) | ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体 | |
Yargıç et al. | A lip reading application on MS Kinect camera | |
WO2020244074A1 (zh) | 表情交互方法、装置、计算机设备及可读存储介质 | |
WO2023035969A1 (zh) | 语音与图像同步性的衡量方法、模型的训练方法及装置 | |
CN110738163A (zh) | 一种矿井人员违规动作识别系统 | |
Jachimski et al. | A comparative study of English viseme recognition methods and algorithms | |
CN115169507A (zh) | 类脑多模态情感识别网络、识别方法及情感机器人 | |
CN111341350A (zh) | 人机交互控制方法、系统、智能机器人及存储介质 | |
CN110866962B (zh) | 一种基于卷积神经网络的虚拟人像与表情同步方法 | |
CN115131405A (zh) | 一种基于多模态信息的发言人跟踪方法及系统 | |
Guy et al. | Learning visual voice activity detection with an automatically annotated dataset | |
CN112487978B (zh) | 一种视频中说话人定位的方法、装置及计算机存储介质 | |
WO2024001539A1 (zh) | 说话状态识别方法及模型训练方法、装置、车辆、介质、计算机程序及计算机程序产品 | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
CN113435422A (zh) | 辅助聋哑人士唇读的口型识别方法 | |
CN113449694B (zh) | 基于Android的证件照合规性检测方法及系统 | |
CN114466179A (zh) | 语音与图像同步性的衡量方法及装置 | |
CN113269068A (zh) | 一种基于多模态特征调节与嵌入表示增强的手势识别方法 | |
JPS59194274A (ja) | 人物判定装置 | |
CN114494930A (zh) | 语音与图像同步性衡量模型的训练方法及装置 | |
Kunka et al. | Multimodal English corpus for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210924 |