CN110163156A - 一种基于卷积自编码模型的唇部特征提取方法 - Google Patents
一种基于卷积自编码模型的唇部特征提取方法 Download PDFInfo
- Publication number
- CN110163156A CN110163156A CN201910437384.6A CN201910437384A CN110163156A CN 110163156 A CN110163156 A CN 110163156A CN 201910437384 A CN201910437384 A CN 201910437384A CN 110163156 A CN110163156 A CN 110163156A
- Authority
- CN
- China
- Prior art keywords
- lip
- frame
- convolution
- feature
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于卷积自编码模型的唇部特征提取方法,该发明首先通过对用户输入的视频逐帧提取唇部区域;然后对每帧唇部区域图像进行处理;处理完成后利用卷积自编码模型来提取唇部区域图像特征,最后将特征输入到LSTM进行训练,LSTM根据输入的特征对单词进行分类,从而完成对唇部的读取。本发明通过对唇部图像的压缩与重构,有助于帮助我们从唇部图像中提取视觉特征,从而得到更准确的潜在表示空间,能够有效提升唇读的准确性与可靠性。
Description
技术领域
本发明涉及一种基于卷积自编码模型的唇部特征提取方法,属于计算机视觉、图像处理、人机交互等交叉技术领域。随着人工智能的发展,人机交互技术越来越多,唇语识别将机器视觉和自然语言处理结合起来,不需要听声音,仅仅依靠识别说话者的唇语动作便可解读说话者的内容。唇语识别在智慧城市、人机交互、辅助语音识别及生命健康等诸多领域都具有广泛的应用,对于噪声环境或听力障碍者更加具有重要意义。
背景技术
计算机唇读识别是一种通过分析说话者的唇部视觉信息,包括对嘴唇、面部和舌头的运动解释来理解语言的技术,在嘈杂环境中,只利用语音识别是很复杂的,通过视觉信息来辅助语音识别提供了一种高效的理解语言的方式。由于每个人不同的口音、说话速度、面部特征以及肤色等原因,唇读变成是一个具有挑战性的问题。近些年来,唇读已经被运用到了许多应用中,唇读的应用不仅是对听障人士非常有帮助,也有助于在嘈杂环境中理解口语等,这些原因使得研究唇读这一问题具有重要的现实意义。
目前,唇读的任务主要包括两个处理块,第一个块负责从输入视频帧中提取相关特征,而另一个块负责模拟这些视频帧的特征之间的关系。前者能够从输入的视频中缩小至唇部区域并提取唇部特征,后者则是对提取的唇部区域特征进行数据分析识别,从而能够识别出说话者的内容。除此之外还包括对图像的处理等。
发明内容
技术问题:发明所要解决的技术问题是视频中对唇部区域的压缩与重构,有助于帮助我们从唇部图像中提取视觉特征,从而得到更准确的潜在表示空间,能够有效提升唇读的准确性与可靠性。
技术方案:为了实现上述目的,本发明采用以下技术方案:
一种基于卷积自编码模型的唇部特征提取方法,包括以下步骤:
步骤1)输入一个视频,所述视频为带有唇部区域的单人说话视频,逐帧提取视频中的唇部区域图像;
步骤2)当每帧唇部区域图像被提取出来后,对每帧图像进行灰度化处理,给每个视频附加黑帧,使得视频中的帧数恒定;
步骤3)通过使用卷积自编码模型来对步骤2)中处理过后的唇部区域图像进行特征提取,所述卷积自编码模型包括通过利用输入层与输出层之间的映射关系实现样本重构,其中输入层和输出层具有相同规模;
步骤31)令输入层x={x1,x2,...,xm},输出层所述x代表输入数据,代表输出数据,1,2,…m代表输入层和输出层的节点个数;
步骤32)初始化H个卷积核,每个卷积核搭配一个偏置b,与输入数据x进行卷积后生成k个特征图h,公式如下:hk=f(x*wk+bk),其中:*表示二维卷积运算,w表示连接权重,f(.)表示激活函数;
步骤33)对特征图h进行池化操作,保留池化时的位置关系的矩阵,方便之后反池化的操作;
步骤34)对特征图h进行反池化操作,用到保留池化时的位置关系的矩阵,将数据还原到原始大小的矩阵的相应位置;
步骤35)每张特征图h与其对应的权矩阵的转置进行卷积操作并将结果求和,然后加上偏置c,输出数据为:其中:表示第k个特征图的权矩阵wk的转置;
步骤36)确定损失函数来更新权值,此处采用最小均方差函数,公式如下:所述最小均方差函数是用输出数据减去输入数据的平方和再求均值,表示第i个输出数据,xi,i∈[1,n]表示第i个输入数据,i表示n中的一个数值,n表示取m中节点个数n个,2n是为了简化求导;
步骤37)当确定损失函数后,对w和b求导,通过梯度下降法调整权重参数最小化重构误差,目标函数梯度值公式如下:δhk指卷积层的k个特征图h的残差,指解码层的残差,指k个特征图h的转置,*指二维卷积运算;
步骤4)当训练好卷积自编码模型后,丢弃卷积解码器,使用卷积编码器获取视频的每一帧特征;
步骤5)当获取到每个帧的特征时,对LSTM进行训练,所述LSTM为长短期记忆网络,包括输入门、遗忘门和输出门;
步骤51)将特征输入到LSTM进行训练,LSTM根据输入的特征输出概率以对单词进行分类;
步骤52)经过步骤4)提取唇部图像的每一帧特征所述表示第j帧的特征,T表示这段视频的总帧数,N表示维度,j表示唇部图像的第j帧,R表示向量空间;
步骤53)使用LSTM完成一个输入序列到输出类别的映射:输入序列为唇部图像的每一帧特征,输出类别为在T时刻对说话内容的预测值;
步骤54)输入特征经过第1层LSTM层,输出为h1∈RN'×T,所述N'为隐藏层的节点个数;
步骤55)经过第2层LSTM层,输出为h2∈RN'×T;
步骤56)在LSTM最后一层,最后一层设为第L层,最后一个时间点输出为
步骤57)使用softmax将映射为预测值的分布所述softmax表示归一化指数函数,C表示预测值的取值范围,c'表示预测值中的一种取值,Wzy为softmax权值,softmax损失函数使用交叉熵函数作为损失函数其中:yz=1表示该段视频的唇语的标签为第z类,yz=0表示该段视频的唇语的标签不为第z类。
进一步地,所述步骤1中,通过使用opencv中的Haar-Cascade逐帧提取视频中的唇部区域图像,利用基于adaboost级联的Haar分类器来筛选有效地矩形特征,进而分类识别唇部区域图像,采用opencv中已经训练好的haarcascade_smile.xml来检测唇部区域图像。
进一步地,所述步骤2中,灰度化处理是指使用灰度缩放图像代替彩色图像。
有益效果:本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明首先通过对用户输入的视频逐帧提取唇部区域;然后对每帧唇部区域图像进行处理;处理完成后利用卷积自编码器模型来提取唇部区域图像特征,最后将特征输入到LSTM进行训练,LSTM根据输入的特征对单词进行分类,从而完成对唇部的读取。
具体来说:
(1)本发明采用了opencv中已经训练好的Haar特征分类器,直接利用haarcascade_smile.xml文件就可以方便的提取出唇部图像。
(2)本发明通过基于卷积自编码器模型的唇部特征提取方法,可以有效地帮助我们从唇部图像中提取视觉特征,以得到更准确的潜在表示空间,能够有效提升唇读的准确性和可靠性。
附图说明
图1是基于卷积自编码模型的唇部特征提取方法;
图2是卷积自编码模型。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1和2所示,一种基于卷积自编码模型的唇部特征提取方法,包括以下步骤:
步骤1)首先输入一个带有唇部区域的单人说话视频,通过使用opencv中的Haar-Cascade逐帧提取视频中的唇部区域,所述唇部区域的提取是指利用基于adaboost级联的Haar分类器来筛选有效地矩形特征来分类识别,本说明采用opencv中已经训练好的haarcascade_smile.xml来检测唇部,部分代码如下:
paths='D:/OpenCV/opencv/build/etc/haarcascades/haarcascade_smile.xml';
lip_cascade=cv.CascadeClassifier(paths);//加载分类器
lip=lip_cascade.detectMultiScale(face_re_g);//检测唇部
步骤2)当每帧唇部区域图像被提取出来后,对每帧唇部区域图像进行灰度化处理,所述灰度化处理是指使用灰度缩放图像代替彩色图像,其中给每个视频附加黑帧,使得视频中的帧数恒定,
步骤3)通过使用卷积自编码模型来对步骤2)中处理过后的唇部区域图像进行特征提取,所述的卷积自编码模型包括通过利用输入层与输出层之间的映射关系实现样本重构,其中输入层和输出层具有相同规模;
步骤31)令输入层x={x1,x2,...,xm},输出层所述x代表输入数据,代表输出数据,1,2,…m代表输入层和输出层的节点个数;
步骤32)初始化H个卷积核,每个卷积核搭配一个偏置b,与输入数据x进行卷积后生成k个特征图h,公式如下:hk=f(x*wk+bk),其中:*表示二维卷积运算,w表示连接权重,f(.)表示激活函数;
步骤33)对特征图h进行池化操作,保留池化时的位置关系的矩阵,方便之后反池化的操作;
步骤34)对特征图h进行反池化操作,用到保留池化时的位置关系的矩阵,将数据还原到原始大小的矩阵的相应位置;
步骤35)每张特征图h与其对应的权矩阵的转置进行卷积操作并将结果求和,然后加上偏置c,输出数据为:其中:表示第k个特征图的权矩阵wk的转置;
步骤36)确定损失函数来更新权值,此处采用最小均方差函数,公式如下:所述最小均方差函数是用输出数据减去输入数据的平方和再求均值,表示第i个输出数据,xi,i∈[1,n]表示第i个输入数据,i表示n中的一个数值,n表示取m中节点个数n个,2n是为了简化求导;
步骤37)当确定损失函数后,对w和b求导,通过梯度下降法调整权重参数最小化重构误差,目标函数梯度值公式如下:δhk指卷积层的k个特征图h的残差,指解码层的残差,指k个特征图h的转置,*指二维卷积运算;
步骤4)当训练好卷积自编码模型后,丢弃卷积解码器,使用卷积编码器来获取视频的每一帧特征;
步骤5)当获取到每个帧的特征时,对LSTM进行训练,所述LSTM为长短期记忆网络,包括输入门、遗忘门和输出门;
步骤51)将特征输入到LSTM进行训练,LSTM根据输入的特征输出概率以对单词进行分类;
步骤52)经过步骤4)提取唇部图像的每一帧特征所述表示第j帧的特征,T表示这段视频的总帧数,N表示维度,j表示唇部图像的第j帧,R表示向量空间;
步骤53)使用LSTM完成一个输入序列到输出类别的映射:输入序列为唇部图像的每一帧特征,输出类别为在T时刻对说话内容的预测值;
步骤54)输入特征经过第1层LSTM层,输出为h1∈RN'×T,所述N'为隐藏层的节点个数;
步骤55)经过第2层LSTM层,输出为h2∈RN'×T;
步骤56)在LSTM最后一层(设为第L层)最后一个时间点输出为
步骤57)使用softmax将映射为预测值的分布所述softmax表示归一化指数函数,C表示预测值的取值范围,c'表示预测值中的一种取值,Wzy为softmax权值,softmax损失函数使用交叉熵函数作为损失函数其中yz=1表示该段视频的唇语的标签为第z类,yz=0表示该段视频的唇语的标签不为第z类。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于卷积自编码模型的唇部特征提取方法,其特征在于,包括以下步骤:
步骤1)输入一个视频,所述视频为带有唇部区域的单人说话视频,逐帧提取视频中的唇部区域图像;
步骤2)当每帧唇部区域图像被提取出来后,对每帧图像进行灰度化处理,给每个视频附加黑帧,使得视频中的帧数恒定;
步骤3)通过使用卷积自编码模型来对步骤2)中处理过后的唇部区域图像进行特征提取,所述卷积自编码模型包括通过利用输入层与输出层之间的映射关系实现样本重构,其中输入层和输出层具有相同规模;
步骤31)令输入层x={x1,x2,...,xm},输出层所述x代表输入数据,代表输出数据,1,2,…m代表输入层和输出层的节点个数;
步骤32)初始化H个卷积核,每个卷积核搭配一个偏置b,与输入数据x进行卷积后生成k个特征图h,公式如下:hk=f(x*wk+bk),其中:*表示二维卷积运算,w表示连接权重,f(.)表示激活函数;
步骤33)对特征图h进行池化操作,保留池化时的位置关系的矩阵,方便之后反池化的操作;
步骤34)对特征图h进行反池化操作,用到保留池化时的位置关系的矩阵,将数据还原到原始大小的矩阵的相应位置;
步骤35)每张特征图h与其对应的权矩阵的转置进行卷积操作并将结果求和,然后加上偏置c,输出数据为:其中:表示第k个特征图的权矩阵wk的转置;
步骤36)确定损失函数来更新权值,此处采用最小均方差函数,公式如下:所述最小均方差函数是用输出数据减去输入数据的平方和再求均值,表示第i个输出数据,xi,i∈[1,n]表示第i个输入数据,i表示n中的一个数值,n表示取m中节点个数n个,2n是为了简化求导;
步骤37)当确定损失函数后,对w和b求导,通过梯度下降法调整权重参数最小化重构误差,目标函数梯度值公式如下:δhk指卷积层的k个特征图h的残差,指解码层的残差,指k个特征图h的转置,*指二维卷积运算;
步骤4)当训练好卷积自编码模型后,丢弃卷积解码器,使用卷积编码器获取视频的每一帧特征;
步骤5)当获取到每个帧的特征时,对LSTM进行训练,所述LSTM为长短期记忆网络,包括输入门、遗忘门和输出门;
步骤51)将特征输入到LSTM进行训练,LSTM根据输入的特征输出概率以对单词进行分类;
步骤52)经过步骤4)提取唇部图像的每一帧特征所述表示第j帧的特征,T表示这段视频的总帧数,N表示维度,j表示唇部图像的第j帧,R表示向量空间;
步骤53)使用LSTM完成一个输入序列到输出类别的映射:输入序列为唇部图像的每一帧特征,输出类别y~T为在T时刻对说话内容的预测值;
步骤54)输入特征经过第1层LSTM层,输出为h1∈RN'×T,所述N'为隐藏层的节点个数;
步骤55)经过第2层LSTM层,输出为h2∈RN'×T;
步骤56)在LSTM最后一层,最后一层设为第L层,最后一个时间点输出为
步骤57)使用softmax将映射为预测值的分布所述softmax表示归一化指数函数,C表示预测值的取值范围,c'表示预测值中的一种取值,Wzy为softmax权值,softmax损失函数使用交叉熵函数作为损失函数其中:yz=1表示该段视频的唇语的标签为第z类,yz=0表示该段视频的唇语的标签不为第z类。
2.根据权利要求1所述的基于卷积自编码模型的唇部特征提取方法,其特征在于:所述步骤1中,通过使用opencv中的Haar-Cascade逐帧提取视频中的唇部区域图像,利用基于adaboost级联的Haar分类器来筛选有效地矩形特征,进而分类识别唇部区域图像,采用opencv中已经训练好的haarcascade_smile.xml来检测唇部区域图像。
3.根据权利要求1所述的基于卷积自编码模型的唇部特征提取方法,其特征在于:所述步骤2中,灰度化处理是指使用灰度缩放图像代替彩色图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437384.6A CN110163156A (zh) | 2019-05-24 | 2019-05-24 | 一种基于卷积自编码模型的唇部特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437384.6A CN110163156A (zh) | 2019-05-24 | 2019-05-24 | 一种基于卷积自编码模型的唇部特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110163156A true CN110163156A (zh) | 2019-08-23 |
Family
ID=67632235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910437384.6A Pending CN110163156A (zh) | 2019-05-24 | 2019-05-24 | 一种基于卷积自编码模型的唇部特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163156A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
CN111370020A (zh) * | 2020-02-04 | 2020-07-03 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
WO2021051602A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于唇语密码的人脸识别方法、系统、装置及存储介质 |
CN113192530A (zh) * | 2021-04-26 | 2021-07-30 | 深圳追一科技有限公司 | 模型训练、嘴部动作参数获取方法、装置、设备及介质 |
CN113362540A (zh) * | 2021-06-11 | 2021-09-07 | 江苏苏云信息科技有限公司 | 基于多模交互的交通票务处理装置、系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100189305A1 (en) * | 2009-01-23 | 2010-07-29 | Eldon Technology Limited | Systems and methods for lip reading control of a media device |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108664953A (zh) * | 2018-05-23 | 2018-10-16 | 清华大学 | 一种基于卷积自编码器模型的图像特征提取方法 |
CN108710836A (zh) * | 2018-05-04 | 2018-10-26 | 南京邮电大学 | 一种基于级联特征提取的唇部检测及读取方法 |
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及系统 |
-
2019
- 2019-05-24 CN CN201910437384.6A patent/CN110163156A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100189305A1 (en) * | 2009-01-23 | 2010-07-29 | Eldon Technology Limited | Systems and methods for lip reading control of a media device |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108710836A (zh) * | 2018-05-04 | 2018-10-26 | 南京邮电大学 | 一种基于级联特征提取的唇部检测及读取方法 |
CN108664953A (zh) * | 2018-05-23 | 2018-10-16 | 清华大学 | 一种基于卷积自编码器模型的图像特征提取方法 |
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
胡扬: "基于视觉信息和深度学习的中文唇语数据集构建与识别", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
WO2021051602A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于唇语密码的人脸识别方法、系统、装置及存储介质 |
CN111370020A (zh) * | 2020-02-04 | 2020-07-03 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
CN111370020B (zh) * | 2020-02-04 | 2023-02-14 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
CN113192530A (zh) * | 2021-04-26 | 2021-07-30 | 深圳追一科技有限公司 | 模型训练、嘴部动作参数获取方法、装置、设备及介质 |
CN113192530B (zh) * | 2021-04-26 | 2023-08-22 | 深圳追一科技有限公司 | 模型训练、嘴部动作参数获取方法、装置、设备及介质 |
CN113362540A (zh) * | 2021-06-11 | 2021-09-07 | 江苏苏云信息科技有限公司 | 基于多模交互的交通票务处理装置、系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119703B (zh) | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 | |
CN110163156A (zh) | 一种基于卷积自编码模型的唇部特征提取方法 | |
Xie et al. | Sparse deep feature learning for facial expression recognition | |
CN111339837B (zh) | 一种连续手语识别方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN111310676A (zh) | 基于CNN-LSTM和attention的视频动作识别方法 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN107609460A (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
Barros et al. | Real-time gesture recognition using a humanoid robot with a deep neural architecture | |
CN106709419B (zh) | 一种基于显著轨迹空间信息的视频人体行为识别方法 | |
CN109961005A (zh) | 一种基于二维卷积网络的动态手势识别方法及系统 | |
CN107491729B (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN109271912A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN111028319A (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN114220154A (zh) | 一种基于深度学习的微表情特征提取与识别方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN111695455A (zh) | 一种基于耦合判别流形对齐的低分辨人脸识别方法 | |
CN106203448A (zh) | 一种基于非线性尺度空间的场景分类方法 | |
Luqman | An efficient two-stream network for isolated sign language recognition using accumulative video motion | |
Tabassum et al. | Enhancement of single-handed bengali sign language recognition based on hog features | |
CN109409246B (zh) | 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法 | |
CN114863572A (zh) | 一种多通道异构传感器的肌电手势识别方法 | |
CN115063612A (zh) | 基于面审视频的欺诈预警方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190823 |
|
RJ01 | Rejection of invention patent application after publication |