CN106250829A - 基于唇部纹理结构的数字识别方法 - Google Patents
基于唇部纹理结构的数字识别方法 Download PDFInfo
- Publication number
- CN106250829A CN106250829A CN201610586767.6A CN201610586767A CN106250829A CN 106250829 A CN106250829 A CN 106250829A CN 201610586767 A CN201610586767 A CN 201610586767A CN 106250829 A CN106250829 A CN 106250829A
- Authority
- CN
- China
- Prior art keywords
- lip
- short
- term
- video
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 230000015654 memory Effects 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 230000002567 autonomic effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 9
- 238000001727 in vivo Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 238000005286 illumination Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 101150077696 lip-1 gene Proteins 0.000 description 1
- YAFQFNOUYXZVPZ-UHFFFAOYSA-N liproxstatin-1 Chemical compound ClC1=CC=CC(CNC=2C3(CCNCC3)NC3=CC=CC=C3N=2)=C1 YAFQFNOUYXZVPZ-UHFFFAOYSA-N 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于唇部纹理结构的数字识别方法,该方法包括:利用深度学习中卷积神经网络较强的特征提取能力以及长短时记忆网络对时序信息的处理能力,通过卷积神经网络和长短时记忆网络根据视频中对象的唇部运动识别数字。该方法对唇部图像的类内差异,头部姿势变化和非控制环境下的光照变化有较强的鲁棒性,有效地解决了唇语识别技术在交互式活体检测中识别精度不高的问题。该方法可被广泛应用于配有分辨率较高的摄像头的场景,如:中国金融系统的交互式活体检测等。
Description
技术领域
本发明涉及计算机视觉和模式识别技术领域,特别涉及一种基于唇部纹理结构的数字识别方法。
背景技术
利用唇部图像识别数字已经为中国金融系统中活体检测的关键一步。然而,由于唇部图像的类内差异,被检测对象头部姿势的变化以及非控制环境下光照的不同使得这一任务变得困难。要解决这些问题,从视频数据中提取合适的特征表达是关键。
深度学习理论在语音识别、图像目标分类与检测等领域都取得了非常好的效果,尤其是深度卷积神经网络具有非常强的自主学习能力和高度的非线性映射。但是基于卷积神经网络的深度学习特征对时序信息的处理能力不强,现有方法大都是将视频中的空间信息和时间信息分为两个通道输入到网络中。这种方法忽略了视频信息中空间信息与时间信息的内在差异,导致在视频识别领域,只依靠卷积神经网络的分类模型难以取得非常高的识别精度。而长短时记忆网络处理时序信息的能力很强,在视频分类与视频描述等领域取得了很好的效果,这为设计基于卷积神经网络与长短时记忆网络的高精度分类模型提供了可能性。
发明内容
为了解决唇语识别技术在交互式活体检测时精度不高的问题,本发明提出了一种基于唇部纹理结构的数字识别方法,设计了一个基于卷积神经网络和长短时记忆网络的模型。通过卷积神经网络自主学习静止唇部图像的纹理特征,利用长短时记忆网络处理特征序列,更好地利用了视频数据中空间与时间信息,从而识别出视频中人所说的数字。
本发明提出的一种基于唇部纹理结构的数字识别方法的技术方案如下:
一种基于唇部纹理结构的数字识别方法,所述方法包括以下步骤:
步骤S11:对包含单个数字的训练视频提取唇部运动视频帧,并进行人工标注;
步骤S12:截取所述唇部运动视频帧中每帧图像的唇部运动图片;
步骤S13:选取N个唇部运动图片样本送入基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块,提取出每个样本所包含的唇部运动图片相对应的特征,组成特征序列;
步骤S14:将所述步骤S13得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果;
步骤S15:计算识别结果与真实结果之间的误差,根据得到的误差训练所述基于卷积神经网络和长短时记忆网络的模型;
步骤S16:重复步骤S13至S15,按顺序循环选取唇部运动图片样本序列,直至所述基于卷积神经网络和长短时记忆网络的模型收敛,得到所述基于卷积神经网络和长短时记忆网络的模型;
步骤S21:对待识别视频提取唇部运动视频帧;
步骤S22:截取所述步骤S21提取到的唇部运动视频帧中每帧图像的唇部运动图片;
步骤S23:选取N个所述步骤S22得到的待识别唇部运动图片序列送入训练好的基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块,提取出待识别视频所包含的唇部运动图片相对应的特征序列;
步骤S24:将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果。
可选地,所述步骤S11进一步包括以下步骤:
步骤S111:将包含单个数字的视频转换成帧;
步骤S112:对于每一帧进行人工标注;
步骤S113:将发音时存在唇部变化的帧挑选出来,得到唇部运动视频帧。
可选地,所述步骤S112中,基于每一帧图片对应的数字进行人工标注。
可选地,所述步骤S12还包括对于唇部运动图片进行尺度归一化的步骤。
可选地,所述步骤S13中,采用前向传播算法提取每个样本所包含的唇部运动图片相对应的特征。
可选地,所述基于卷积神经网络和长短时记忆网络的模型包含特征提取功能模块和感知机功能模块。
可选地,所述步骤S15采用误差反向传播算法,基于识别结果与真实结果之间的误差来训练所述基于卷积神经网络和长短时记忆网络的模型,其中,所述模型通过卷积神经网络自主学习静止唇部图像的纹理特征,利用长短时记忆网络来处理特征序列。
可选地,所述步骤S24中,将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型计算得到待识别视频中唇部运动与各个数字的唇部运动的相似度,然后依据相似度的大小进行数字识别,得到识别结果。
本发明的有益效果:针对唇语识别技术在交互式活体检测中由于唇部图像的类内差异,头部姿势变化和非控制环境下的光照变化等因素导致识别精度不高的问题,本发明构建了基于卷积神经网络和长短时记忆网络的模型,通过包含多种因素变化的训练视频训练该模型,并优化相应参数,使得训练得到的基于卷积神经网络和长短时记忆网络的模型对以上因素有一定的鲁棒性,在交互式活体检测时具有较高的精度。
附图说明
图1是根据本发明一实施例的基于唇部纹理结构的数字识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明构建了基于卷积神经网络和长短时记忆网络的模型,该模型包含特征提取功能模块和感知机功能模块,本发明技术方案具体包括训练过程和测试过程,图1是根据本发明一实施例的基于唇部纹理结构的数字识别方法的流程图,如图1所示,所述方法包括以下步骤:
S1训练过程:
步骤S11:对包含单个数字的训练视频提取唇部运动视频帧,并进行人工标注;
所述步骤S11进一步包括以下步骤:
步骤S111:将包含单个数字的视频转换成帧;
步骤S112:对于每一帧进行人工标注;
该步骤中,基于每一帧图片对应的数字进行人工标注。
步骤S113:将发音时存在唇部变化的帧挑选出来,得到唇部运动视频帧:帧-1、……、帧-i、……、帧-N,其中,帧-1为视频的第一帧,帧-i为视频的第i帧,1≤i≤N,帧-N为视频的最后一帧,N为一预设的数值,比如16。
步骤S12:截取所述唇部运动视频帧中每帧图像的唇部运动图片;
在本发明一实施例中,所述步骤S12还包括对于唇部运动图片进行尺度归一化的步骤,所述唇部运动图片通过缩放操作可归一化至统一尺度,得到唇部-1、……、唇部-i、……、唇部-N。
步骤S13:选取N个唇部运动图片样本送入基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块,提取出每个样本所包含的唇部运动图片相对应的特征,组成特征序列:特征-1、……、特征-i、……、特征-N;
该步骤中,采用前向传播算法提取每个样本所包含的唇部运动图片相对应的特征,在本发明一实施例中,所述卷积神经网络的参数配置为:第一层有96个7×7的卷积子,步长为2,并带有3×3且步长为2的空间聚集层;第二层有384个5×5的卷积子,步长为2,并带有3×3且步长为2的空间聚集层;第三层有512个3×3的卷积子,步长为1;第四层有512个3×3的卷积子,步长为1;第五层有384个3×3的卷积子,步长为1,并带有3×3且步长为2的空间聚集层。
步骤S14:将所述步骤S13得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果;
在本发明一实施例中,所述长短时记忆网络含有256个隐藏单元。
步骤S15:计算识别结果与真实结果之间的误差,根据得到的误差训练所述基于卷积神经网络和长短时记忆网络的模型;
在本发明一实施例中,所述步骤S15采用误差反向传播算法,基于识别结果与真实结果之间的误差来训练所述基于卷积神经网络和长短时记忆网络的模型,所述基于卷积神经网络和长短时记忆网络的模型包含特征提取功能模块和感知机功能模块,其中,所述模型通过卷积神经网络自主学习静止唇部图像的纹理特征,利用长短时记忆网络来处理特征序列。
步骤S16:重复步骤S13至S15,按顺序循环选取唇部运动图片样本序列,直至所述基于卷积神经网络和长短时记忆网络的模型收敛,得到所述基于卷积神经网络和长短时记忆网络的模型。
上述误差反向传播算法主要用于多层模型的训练,其主体是激励传播以及权重更新两个环节的反复迭代,直至达到收敛条件时停止。在激励传播阶段,先将特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果,然后将识别结果与真实结果求差,从而获得输出层与监督层的误差。在权重更新阶段,先将已知误差与本层响应对前一层响应的函数的导数相乘,从而获得两层之间权重矩阵的梯度,然后沿着这个梯度的反方向以某个比例调整权重矩阵。随后,将该梯度当作前一层的误差从而计算前一层的权重矩阵。以此类推完成对整个模型的更新。
测试过程,该过程主要利用S1训练过程中训练好的基于卷积神经网络和长短时记忆网络的模型对待识别的视频进行特征提取和相似度计算,从而进行数字识别。
步骤S21:对待识别视频提取唇部运动视频帧;
该步骤可参照步骤S11中所述方法,对待识别的视频提取唇部运动视频帧。
步骤S22:截取所述步骤S21提取到的唇部运动视频帧中每帧图像的唇部运动图片;
该步骤可参照步骤S12中所述方法,截取所述步骤S21提取到的唇部运动视频帧中每帧图像的唇部运动图片。
步骤S23:选取N个所述步骤S22得到的待识别唇部运动图片序列送入训练好的基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块,提取出待识别视频所包含的唇部运动图片相对应的特征序列;
步骤S24:将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果。
所述步骤S24中,将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型计算得到待识别视频中唇部运动与各个数字的唇部运动的相似度,然后依据相似度的大小进行数字识别,得到识别结果。
如上所述,本发明基于唇部纹理结构的数字识别方法利用深度学习中卷积神经网络较强的特征提取能力以及长短时记忆网络对时序信息的处理能力,通过卷积神经网络和长短时记忆网络根据视频中对象的唇部运动识别数字。该方法对唇部图像的类内差异,头部姿势变化和非控制环境下的光照变化有较强的鲁棒性,有效地解决了唇语识别技术在交互式活体检测中识别精度不高的问题。该方法可被广泛应用于配有分辨率较高的摄像头的场景,如:中国金融系统的交互式活体检测等。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于唇部纹理结构的数字识别方法,其特征在于,所述方法包括以下步骤:
步骤S11:对包含单个数字的训练视频提取唇部运动视频帧,并进行人工标注;
步骤S12:截取所述唇部运动视频帧中每帧图像的唇部运动图片;
步骤S13:选取N个唇部运动图片样本送入基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块,提取出每个样本所包含的唇部运动图片相对应的特征,组成特征序列;
步骤S14:将所述步骤S13得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果;
步骤S15:计算识别结果与真实结果之间的误差,根据得到的误差训练所述基于卷积神经网络和长短时记忆网络的模型;
步骤S16:重复步骤S13至S15,按顺序循环选取唇部运动图片样本序列,直至所述基于卷积神经网络和长短时记忆网络的模型收敛,得到所述基于卷积神经网络和长短时记忆网络的模型;
步骤S21:对待识别视频提取唇部运动视频帧;
步骤S22:截取所述步骤S21提取到的唇部运动视频帧中每帧图像的唇部运动图片;
步骤S23:选取N个所述步骤S22得到的待识别唇部运动图片序列送入训练好的基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块,提取出待识别视频所包含的唇部运动图片相对应的特征序列;
步骤S24:将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S11进一步包括以下步骤:
步骤S111:将包含单个数字的视频转换成帧;
步骤S112:对于每一帧进行人工标注;
步骤S113:将发音时存在唇部变化的帧挑选出来,得到唇部运动视频帧。
3.根据权利要求2所述的方法,其特征在于,所述步骤S112中,基于每一帧图片对应的数字进行人工标注。
4.根据权利要求1所述的方法,其特征在于,所述步骤S12还包括对于唇部运动图片进行尺度归一化的步骤。
5.根据权利要求1所述的方法,其特征在于,所述步骤S13中,采用前向传播算法提取每个样本所包含的唇部运动图片相对应的特征。
6.根据权利要求1所述的方法,其特征在于,所述基于卷积神经网络和长短时记忆网络的模型包含特征提取功能模块和感知机功能模块。
7.根据权利要求1所述的方法,其特征在于,所述步骤S15采用误差反向传播算法,基于识别结果与真实结果之间的误差来训练所述基于卷积神经网络和长短时记忆网络的模型,其中,所述模型通过卷积神经网络自主学习静止唇部图像的纹理特征,利用长短时记忆网络来处理特征序列。
8.根据权利要求1所述的方法,其特征在于,所述步骤S24中,将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型计算得到待识别视频中唇部运动与各个数字的唇部运动的相似度,然后依据相似度的大小进行数字识别,得到识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610586767.6A CN106250829A (zh) | 2016-07-22 | 2016-07-22 | 基于唇部纹理结构的数字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610586767.6A CN106250829A (zh) | 2016-07-22 | 2016-07-22 | 基于唇部纹理结构的数字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106250829A true CN106250829A (zh) | 2016-12-21 |
Family
ID=57604496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610586767.6A Pending CN106250829A (zh) | 2016-07-22 | 2016-07-22 | 基于唇部纹理结构的数字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250829A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108831472A (zh) * | 2018-06-27 | 2018-11-16 | 中山大学肿瘤防治中心 | 一种基于唇语识别的人工智能发声系统及发声方法 |
CN109063601A (zh) * | 2018-07-13 | 2018-12-21 | 北京科莱普云技术有限公司 | 唇纹检测方法、装置、计算机设备和存储介质 |
CN109165561A (zh) * | 2018-07-27 | 2019-01-08 | 北京以萨技术股份有限公司 | 一种基于视频特征的交通拥堵识别方法 |
CN109389085A (zh) * | 2018-10-09 | 2019-02-26 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN109858412A (zh) * | 2019-01-18 | 2019-06-07 | 东北大学 | 一种基于混合卷积神经网络的唇语识别方法 |
WO2019134463A1 (en) * | 2018-01-02 | 2019-07-11 | Boe Technology Group Co., Ltd. | Lip language recognition method and mobile terminal |
WO2020073403A1 (zh) * | 2018-10-08 | 2020-04-16 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN111339806A (zh) * | 2018-12-19 | 2020-06-26 | 马上消费金融股份有限公司 | 唇语识别模型的训练方法、活体识别方法及装置 |
CN111611827A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种图像处理方法及装置 |
US10803319B2 (en) | 2017-07-13 | 2020-10-13 | Samsung Electronics Co., Ltd. | Electronic device for classifying video and operating method thereof |
CN111860053A (zh) * | 2019-04-28 | 2020-10-30 | 北京灵汐科技有限公司 | 一种多媒体数据识别方法及装置 |
WO2020252922A1 (zh) * | 2019-06-21 | 2020-12-24 | 平安科技(深圳)有限公司 | 基于深度学习的唇语识别方法、装置、电子设备及介质 |
CN112287722A (zh) * | 2019-07-23 | 2021-01-29 | 北京中关村科金技术有限公司 | 基于深度学习的活体检测方法、装置及存储介质 |
CN112446342A (zh) * | 2020-12-07 | 2021-03-05 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102004549A (zh) * | 2010-11-22 | 2011-04-06 | 北京理工大学 | 一种适用于中文的自动唇语识别系统 |
CN102319155A (zh) * | 2011-05-30 | 2012-01-18 | 重庆邮电大学 | 基于唇部检测与跟踪的智能轮椅控制方法 |
CN103092329A (zh) * | 2011-10-31 | 2013-05-08 | 南开大学 | 一种基于唇读技术的唇语输入方法 |
CN104200146A (zh) * | 2014-08-29 | 2014-12-10 | 华侨大学 | 一种结合视频人脸和数字唇动密码的身份验证方法 |
CN104219371A (zh) * | 2013-05-31 | 2014-12-17 | 中国电信股份有限公司 | 使用唇语识别技术进行电话拨号的方法和装置 |
CN104409075A (zh) * | 2014-11-28 | 2015-03-11 | 深圳创维-Rgb电子有限公司 | 语音识别方法和系统 |
CN105022470A (zh) * | 2014-04-17 | 2015-11-04 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
CN105631427A (zh) * | 2015-12-29 | 2016-06-01 | 北京旷视科技有限公司 | 可疑人员检测方法与系统 |
-
2016
- 2016-07-22 CN CN201610586767.6A patent/CN106250829A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102004549A (zh) * | 2010-11-22 | 2011-04-06 | 北京理工大学 | 一种适用于中文的自动唇语识别系统 |
CN102319155A (zh) * | 2011-05-30 | 2012-01-18 | 重庆邮电大学 | 基于唇部检测与跟踪的智能轮椅控制方法 |
CN103092329A (zh) * | 2011-10-31 | 2013-05-08 | 南开大学 | 一种基于唇读技术的唇语输入方法 |
CN104219371A (zh) * | 2013-05-31 | 2014-12-17 | 中国电信股份有限公司 | 使用唇语识别技术进行电话拨号的方法和装置 |
CN105022470A (zh) * | 2014-04-17 | 2015-11-04 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
CN104200146A (zh) * | 2014-08-29 | 2014-12-10 | 华侨大学 | 一种结合视频人脸和数字唇动密码的身份验证方法 |
CN104409075A (zh) * | 2014-11-28 | 2015-03-11 | 深圳创维-Rgb电子有限公司 | 语音识别方法和系统 |
CN105631427A (zh) * | 2015-12-29 | 2016-06-01 | 北京旷视科技有限公司 | 可疑人员检测方法与系统 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803319B2 (en) | 2017-07-13 | 2020-10-13 | Samsung Electronics Co., Ltd. | Electronic device for classifying video and operating method thereof |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
WO2019134463A1 (en) * | 2018-01-02 | 2019-07-11 | Boe Technology Group Co., Ltd. | Lip language recognition method and mobile terminal |
CN108831472A (zh) * | 2018-06-27 | 2018-11-16 | 中山大学肿瘤防治中心 | 一种基于唇语识别的人工智能发声系统及发声方法 |
CN109063601B (zh) * | 2018-07-13 | 2020-12-22 | 广州莱德璞检测技术有限公司 | 唇纹检测方法、装置、计算机设备和存储介质 |
CN109063601A (zh) * | 2018-07-13 | 2018-12-21 | 北京科莱普云技术有限公司 | 唇纹检测方法、装置、计算机设备和存储介质 |
CN109165561A (zh) * | 2018-07-27 | 2019-01-08 | 北京以萨技术股份有限公司 | 一种基于视频特征的交通拥堵识别方法 |
WO2020073403A1 (zh) * | 2018-10-08 | 2020-04-16 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN109389085A (zh) * | 2018-10-09 | 2019-02-26 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN109389085B (zh) * | 2018-10-09 | 2020-09-25 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN111339806A (zh) * | 2018-12-19 | 2020-06-26 | 马上消费金融股份有限公司 | 唇语识别模型的训练方法、活体识别方法及装置 |
CN111339806B (zh) * | 2018-12-19 | 2021-04-13 | 马上消费金融股份有限公司 | 唇语识别模型的训练方法、活体识别方法及装置 |
CN109858412A (zh) * | 2019-01-18 | 2019-06-07 | 东北大学 | 一种基于混合卷积神经网络的唇语识别方法 |
CN111611827A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种图像处理方法及装置 |
WO2020220926A1 (zh) * | 2019-04-28 | 2020-11-05 | 北京灵汐科技有限公司 | 一种多媒体数据识别方法及装置 |
CN111860053A (zh) * | 2019-04-28 | 2020-10-30 | 北京灵汐科技有限公司 | 一种多媒体数据识别方法及装置 |
CN111860053B (zh) * | 2019-04-28 | 2023-11-24 | 北京灵汐科技有限公司 | 一种多媒体数据识别方法及装置 |
WO2020252922A1 (zh) * | 2019-06-21 | 2020-12-24 | 平安科技(深圳)有限公司 | 基于深度学习的唇语识别方法、装置、电子设备及介质 |
CN112287722A (zh) * | 2019-07-23 | 2021-01-29 | 北京中关村科金技术有限公司 | 基于深度学习的活体检测方法、装置及存储介质 |
CN112446342A (zh) * | 2020-12-07 | 2021-03-05 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
CN112446342B (zh) * | 2020-12-07 | 2022-06-24 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250829A (zh) | 基于唇部纹理结构的数字识别方法 | |
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN110728209B (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN106875373B (zh) | 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法 | |
CN105740909B (zh) | 一种基于空间变换的自然场景下文本识别方法 | |
CN113807276B (zh) | 基于优化的YOLOv4模型的吸烟行为识别方法 | |
CN113269013B (zh) | 对象行为分析方法、信息显示方法及电子设备 | |
CN107871101A (zh) | 一种人脸检测方法及装置 | |
JP2022018066A (ja) | 畳み込み知覚ハッシュアルゴリズムに基づくループ検出方法 | |
CN109271884A (zh) | 人脸属性识别方法、装置、终端设备和存储介质 | |
CN106874826A (zh) | 人脸关键点跟踪方法和装置 | |
CN109948741A (zh) | 一种迁移学习方法及装置 | |
CN112543936B (zh) | 用于动作识别的动作结构自注意力图卷积网络模型 | |
CN109816636B (zh) | 一种基于智能终端的裂缝检测方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN114565976A (zh) | 一种训练智能测试方法以及装置 | |
Vallimeena et al. | Machine vision based flood depth estimation using crowdsourced images of humans | |
CN114220043A (zh) | 基于生成对抗网络的异物检测方法 | |
CN108009512A (zh) | 一种基于卷积神经网络特征学习的人物再识别方法 | |
CN114821742A (zh) | 一种实时识别儿童或青少年面部表情的方法和装置 | |
CN107784482A (zh) | 招聘方法、电子装置及可读存储介质 | |
CN108154199B (zh) | 一种基于深度学习的高精度快速单类目标检测方法 | |
CN114511759A (zh) | 一种皮肤状态图像的类别识别和特征确定方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161221 |
|
RJ01 | Rejection of invention patent application after publication |