CN111062277A - 基于单目视觉的手语-唇语转化方法 - Google Patents

基于单目视觉的手语-唇语转化方法 Download PDF

Info

Publication number
CN111062277A
CN111062277A CN201911220323.0A CN201911220323A CN111062277A CN 111062277 A CN111062277 A CN 111062277A CN 201911220323 A CN201911220323 A CN 201911220323A CN 111062277 A CN111062277 A CN 111062277A
Authority
CN
China
Prior art keywords
frame
feature
video
key
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911220323.0A
Other languages
English (en)
Other versions
CN111062277B (zh
Inventor
张蒙
周舟
成宇
韩芳
王直杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201911220323.0A priority Critical patent/CN111062277B/zh
Publication of CN111062277A publication Critical patent/CN111062277A/zh
Application granted granted Critical
Publication of CN111062277B publication Critical patent/CN111062277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明涉及一种基于单目视觉的手语‑唇语转化方法,主要包括视频关键帧提取和手势识别两大部分。视频关键帧提取部分包括特征提取、清晰度优化的K‑means聚类、点密度优化三个关键步骤,主要用于消除大量冗余帧,提高手语识别的准确率和效率。对关键帧进行手势识别部分包括网络结构的改进、损失函数的改进、训练技巧的改进三个关键步骤,主要用于改善原始SSD在检测小目标时出现的漏检、误检情况。

Description

基于单目视觉的手语-唇语转化方法
技术领域
本发明属于动态手语识别领域,具体涉及一种基于单目视觉的手语-唇语转化系统。
背景技术
在聋校语言教学中,双语教学模式能有效提高聋童的语言学习效率,对于特殊教师们来说则需花费更多的耐心、时间和精力。面临着我国特殊教育学校的教师资源普遍薄弱的现状,手语识别技术便可帮助特教完成语言教学任务——聋童将手语录成视频输入计算机,进而能够学习输出的汉字和唇语,无需老师亲自教学就能完成汉语书面语的学习。另外,计算机只对标准的手语(以《中国手语》为标准)进行识别,借此还可纠正聋童手语方言化的问题。其中关键难点在于手语识别,具体分为视频关键帧提取和手势识别两个部分。
视频关键帧提取方法一般分为四大类:第一类是基于图像内容的方法,该方法将视频内容变化程度作为选择关键帧的标准,其中视频内容主要由图像的特征体现,对图像底层特征进行加权融合,用于筛选关键帧。第二类是基于运动分析的方法,一般思想是计算出每帧图像的光流场,然后对光流图进行计算,极小值对应的那一帧被选为关键帧,能很好地表达视频内的全局性运动,但计算量较大。同时这两类方法都没有使用更具特征表达能力的深度图像特征,所以手语识别准确率较低。因此,考虑到动态手语的特点和手语者的心理意识,第三种方法是基于轨迹曲线点密度特征的关键帧检测算法,利用轨迹密度曲线上点的密度大小区分关键帧与非关键帧,但有时会由于手心定位不准而产生轨迹偏差大,对关键帧的提取影响较大。第四类是目前的主流方法,即基于聚类的方法,该方法预先设定好聚类数目,将相似的帧聚为一类,每一类代表一个关键帧,但此类方法提取的关键帧往往存在大量的冗余。
目前手势识别方法大体分为两种:一是基于传统图像特征和机器学习的方法,如首先利用传统的图像分割算法从手语视频的视频帧中分割出手部,再通过机器学习的方法根据分割区域的图像特征进行特征分类。但这些特征的表征能力有限,难以从复杂内容中提取出具有代表性的语义信息,而且分步完成的手势识别实时性差。二是基于深度学习的方法:如利用目标检测神经网络学习视频帧的特征,对手部进行定位并同时进行手势分类。相比传统图像处理和机器学习算法,基于深度学习的目标检测网络往往能得到更高的准确率和识别速度,SSD作为目前动态目标检测的主流方法,能进行端到端检测,具有更好的实时性,但在检测小目标时容易出现漏检、误检等情况。
发明内容
本发明要解决的技术问题是:原K-means聚类算法中关键帧提取质量不高以及原始SSD漏检、误检小目标。
为了解决上述技术问题,本发明的技术方案是提供了一种基于单目视觉的手语-唇语转化方法,其特征在于,包括以下步骤:
步骤1、将简单自编码器的全连接层替换成卷积层形成卷积自编码器,获得手语视频后,采用卷积自编码器CAE的卷积神经网络的卷积和池化操作对输入的手语视频的每一帧图像进行下采样,实现特征不变性的无监督特征提取,提取手语视频每一帧的深度特征;
步骤2、利用清晰度优化的K-means聚类算法对步骤1提取的深度特征进行聚类,将每一帧的图像特征展开成一个56×56=3136维的向量,聚类得到K簇3136维的特征向量;
步骤3、依据步骤2得到的聚类结果将特征向量对应帧的图像分为不同类视频帧,对于每一类视频帧依据各帧图像的清晰度筛选取出最清晰的一帧图像作为初次提取的当前类视频帧的关键帧,再利用点密度方法对初次提取的关键帧进行二次优化,得到最终提取的每类视频帧的关键帧;
步骤4、利用改进的SSD网络结构对步骤3提取出的关键帧进行手势识别,基于原始SSD网络结构,改进的SSD网络结构通过以下方法获得:
将原SSD网络中的Conv_8、Conv_9两层去掉,因其在检测手部小目标时贡献不大,并在剩下的4个卷积层后嵌入SE-Net模块,对通道的权重进行重标定,以此对各通道特征进行重校准,选择性增强特征表达能力更强的通道,其中,SE-Net模块包括用于全局信息嵌入的Squeeze部分和负责自适应重新校准的Excitation部分;
步骤5、利用步骤4识别得到的手势在已经建立好的中国手语标准关键手势模板数据库中搜寻相匹配的汉语词汇,获得对应的汉语词汇后将该汉语词汇转换为可以播放的唇语。
优选地,设步骤1获得的所有帧的深度特征组成的视频特征序列为F={x0,x1,…,xn},其中,n为手语视频的总帧数;xn表示手语视频中第n帧图像的深度特征,xn为56×56的二维特征向量;并设一个关键手势的帧数不超过6帧,选取聚类数目K=len(F)/6,其中,len(F)为视频特征序列F中特征向量的个数,则所述步骤2具体包括以下步骤:
步骤201、从F中随机选取K个聚类质心,分别记为u1,u2,...,uj,...,uk,其中,uj为第j类的聚类质心;
步骤202、依次计算各个特征向量到每个聚类质心的欧氏距离,定义特征向量xi,i=0,1,2,......,n,到质心uj的欧氏距离为Dij=||xi-uj||,记集合Di={Di1,Di2,...,Dik},选取集合Di中最小值,若该最小值为Dij,则将特征向量xi归入第j类;
步骤203、再对每一类的所有特征向量取均值,重新计算每一类的聚类质心;
步骤204、重复步骤202及步骤203直到上个聚类质心与重新计算的聚类质心差距最小。
优选地,步骤3中,基于Tenengrad梯度函数的图像(x,y)的清晰度为G(x,y),则有:
Figure BDA0002300643730000031
式中,Gx(x,y)和Gy(x,y)分别是像素点(x,y)处的灰度值f(x,y)与Sobel水平方向边缘检测算子的卷积和像素点(x,y)处的灰度值f(x,y)与Sobel垂直方向边缘检测算子的卷积。
优选地,步骤3中,初次提取得到每类视频帧的关键帧后,先对关键帧序列进行帧间隔优化,若相邻帧相距小于一个阈值,则去掉序列号较小的一帧,以去除初次提取的关键帧序列中的小部分冗余,随后利用点密度方法对关键帧进行二次优化,得到最终提取的每类视频帧的关键帧。
优选地,所述利用点密度方法对关键帧进行二次优化包括以下步骤:
步骤301、依次记录经过帧间隔优化后的M个关键帧,得到关键帧位置序号数组P={pi|i=1,2,…,M},式中,pi为第i个关键帧位置序号,定义为数组P中第i个点;
步骤302、依次计算数组P中每个点的点密度,定义第j个点pj的点密度为Density(pj),则有:
Density(pj)={pi|dis(pj,pi)<δ,pi∈P}
式中,dis(pj,pi)表示pj点pj和点pi之间的欧氏距离,阈值δ为数组P上所有相邻点之间的距离之和的平均值
Figure BDA0002300643730000041
步骤303、从M个关键帧中再提取出点密度最大的N个关键帧。
优选地,步骤4中,所述改进的SSD网络结构采用以下步骤构建:
步骤401、根据空间维度进行特征压缩,将每个二维的特征通道变成一个实数,此实数携带着全局信息,输出输入维度相匹配,映射为特征通道上对应的全局分布,而且使得靠近输入的层也可获得全局信息,此部分的操作由全局平均池化操作完成,公式如下:
Figure BDA0002300643730000042
式中,zc表示携带全局信息的实数,c表示其中的通道;uc表示U中第c个二维矩阵,U表示原特征层;uc(i,j)表示U中第c个二维矩阵,c表示其中的通道;H、W表示表示U的高度和宽度;
步骤402、采用门机制,利用卷积层参数为每个特征通道生成对应的权重,其中参数被学习用来显示建立通道之间的相关性,为了限制模型复杂度和辅助泛化,通过两个全连接层完成参数的学习:在第一个全连接层按缩放因子r减少通道数为
Figure BDA0002300643730000043
激活函数为Relu;在第二个全连接层恢复通道数为C,经过Sigmoid激活后得到,其结构为C×1×1,具体公式如下:
s=Fex(z,W)=σ(W2δ(W1z))
式中,s表示每个特征通道对应的重标定权重;z表示携带全局信息的实数;W表示U的宽度;Fex(z,W)表示Excitation函数;σ表示sigmod函数;δ(W1z)表示Relu函数;W1、W2分别为两个卷积层的参数;
步骤403、s融合着各通道的特征图信息,其中每个数值都代表该通道的二维特征矩阵的权重,将s与原特征层U按通道相乘,通过加权方式,完成对原始特征的重标定,公式如下:
Figure BDA0002300643730000051
式中,
Figure BDA0002300643730000052
表示重标定值;Fscale(uc,sc)表示重标定函数;sc表示每个特征通道对应的重标定权重,c表示其中的通道;
将SSD网络结构中的特征层Conv8_2、Conv9_2去除后,将SE-Net嵌入剩下的特征层Conv4_3、Fc7、Conv6_2、Conv7_2中;
将分类的置信度损失函数Lconf替换为Focal Loss函数,记为FL(pt),其公式如下:
FL(pt)=-αt(1-pt)γlog(pt)
上式中,αt和(1-pt)γ为权重;αt用来处理正负样本不均衡问题,正样本为包含有检测目标的样本,负样本为背景,如果该类样本占比较高,则设置较小的权重αt,反之则设置较大的αt,由此降低占比高的类别损失,提高占比低的类别损失;(1-pt)γ为调制参数,其中γ≥0,将模型的注意力集中在难训练样本,所谓难训练样本就是模型预测正确的概率pt更接近0的样本,若概率pt接近1,则说明该样本属于易分类样本,当该样本是易分类样本时,调制系数趋于0,对总损失值的贡献小;当该样本为难训练样本时,则反之;当γ=0时,即为原始的交叉熵损失;通过调整γ,控制难易分类样本对总分类损失函数的贡献。
优选地,步骤4中,对所述改进的SSD网络结构进行训练时,采取数据增强的方法,通过从训练样本邻域中提取附加虚拟样本以扩充对训练分布的支持。
优选地,使用mixup作为所述数据增强方法,以线性差值的方法构建新的虚拟训练样本和标签,公式如下:
Figure BDA0002300643730000061
式中,(xi,yi)和(xi,yi)是从训练数据中随机抽取的两个样本,
Figure BDA0002300643730000062
为虚拟样本图像,
Figure BDA0002300643730000063
为虚拟样本对应的标签,λ∈[0,1],且符合Beta(α,α)分布。
本发明主要包括视频关键帧提取和手势识别两大部分。视频关键帧提取部分包括特征提取、清晰度优化的K-means聚类、点密度优化三个关键步骤,主要用于消除大量冗余帧,提高手语识别的准确率和效率。对关键帧进行手势识别部分包括网络结构的改进、损失函数的改进、训练技巧的改进三个关键步骤,主要用于改善原始SSD在检测小目标时出现的漏检、误检情况。基于上述技术方案,本发明的突出效果在于:
(1)本发明使用卷积自编码器CAE来实现手语视频每一帧的深度特征提取,避免了使用传统方法导致的携带图像语义信息不足,易受到噪声影响和计算量大等问题。
(2)本发明使用清晰度优化的K-means聚类,避免了原聚类算法中因关键帧提取不清晰而造成的手语识别精度低的问题,使提取的关键帧质量更高,进而提高后期的手势识别准确率。
(3)本发明使用点密度对初次提取出的关键帧进行二次提取,避免了提取出的关键帧在关键手势附近的冗余,确保提取的众多关键帧中存在包含这个手势的视频帧,并且尽可能减少动作过渡帧和不清晰帧的数量。
(4)本发明使用改进的SSD目标检测神经网络,实现视频手语的识别,复杂度低,避免传统图像处理算法分割手部效果不佳和机器学习分类准确率低的问题。
附图说明
图1为关键帧提取算法流程图;
图2为卷积自编码器网络结构图;
图3为改进的SSD网络结构图;
图4为目标检测结果与标准手语库进行模板匹配流程图
图5为手语-唇语转化系统功能流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供的基于单目视觉的手语-唇语转化方法具体分为视频关键帧提取、手势识别两大部分。
视频关键帧提取,主要是指利用卷积自编码器提取视频帧的深度特征,对其进行K-means聚类后,在每类视频帧中采用清晰度筛选取出最清晰的视频帧作为初次提取的关键帧,再利用点密度方法对初次提取的关键帧进行二次优化,得到最终提取的关键帧。
手势识别,主要是指对原始SSD进行以下三方面的改进:添加SE-Net模块学习每个特征通道的重要性,并加权到原特征上;将SSD损失函数中的置信度分类部分替换为FocalLoss,增大分类损失的权重,提升了网络对手部小目标的针对性;加上mixup数据增强和卷积层、特征层后的归一化操作等训练技巧,整体上提升了模型的泛化能力和鲁棒性。
具体实施方式如下,采用卷积自编码器CAE(convolutional auto-encoders)实现手语视频每一帧的深度特征提取,将简单自编码器的全连接层替换成卷积层,利用卷积神经网络的卷积和池化操作,对输入的图像进行下采样,实现特征不变性的无监督特征提取。对训练数据进行预处理,统一变成252*252的灰度图像,归一化处理后作为训练集,进行无监督训练。网络训练好后,对尺寸大小为1080*720的手语视频的每一帧做同样的数据预处理,输入编码器后得到56*56的二维特征向量,作为K-means聚类的输入。
清晰度优化的K-means聚类,利用该算法对提取的深度特征进行聚类,将每一帧的图像特征展开成一个56×56=3136维的向量,聚类得到K簇3136维的特征向量。假如视频特征序列为F={x0,x1,...,xn},xi∈RN,其中n为视频序列总帧数;xi表示第i帧的m特征向量,m=3136。一个关键手势的帧数不超过6帧,因此选取聚类数目K=len(F)/6,其中len(F)为F中特征向量的个数。具体算法如下:
(1)从F中随机选取K个聚类质心,记为u1,u2,...,uk,uj∈Rn(0<j<k),其中uj为第j类的聚类质心;
(2)依次计算各个点到每个聚类质心的欧氏距离,定义样本xi到质心uj的欧氏距离为Dij=||xi-uj||,记集合Di={Di1,Di2,...,Dik},选取Di中最小的值Dij,此时将xi归入第j类;
(3)再对第j类的所有样本取均值,重新计算该类质心;
(4)重复步骤(2)、(3)直到上个质心与重新计算的质心差距最小。
聚类所得的帧为相似帧,选取其中最清晰的一帧作为关键帧。基于Tenengrad梯度函数的图像清晰度定义如下:
Figure BDA0002300643730000081
其中Gx(x,y)和Gy(x,y)分别是像素点(x,y)处的灰度值f(x,y)与Sobel水平和垂直方向边缘检测算子的卷积,Sobel梯度算子为:
Figure BDA0002300643730000082
取每一类中G(x,y)值最大的一帧便得到首次提取的关键帧序列。进一步对关键帧序列进行帧间隔优化,若相邻帧相距小于一个阈值,则去掉序列号较小的一帧,可有效去除首次提取关键帧序列中的小部分冗余。
针对初次提取的关键帧存在大量重复帧的情况,对比发现是因为动作过于缓慢,导致本应归为一类的两帧之间相似度变小。利用点密度方法对隔优化处理后的关键帧进行二次提取,具体方法如下:
(1)依次记录提取出的关键帧,得到视频关键帧位置序号数组P={pi|i=1,2,…,M};
(2)依次计算P中每个点的点密度,定义第j个点pj的点密度为:
Density(pj)={pi|dis(pj,pi)<δ,pi∈P},
其中,dis(pj,pi)表示和pi之间的欧氏距离,上式用于计算在P中有多少个点与pj之间的距离小于阈值δ,满足条件的点pi越多,表示pj的点密度越大,定义阈值δ为P上所有相邻点之间的距离之和的平均值,即
Figure BDA0002300643730000083
对提取出的关键帧进行手势识别,在SSD卷积层后嵌入SE-Net模块,对通道的权重进行重标定,以此对各通道特征进行重校准,选择性增强特征表达能力更强的通道。SE-Net模块主要分成两部分,用于全局信息嵌入的Squeeze部分和负责自适应重新校准的Excitation部分。
(1)首先根据空间维度进行特征压缩,将每个二维的特征通道变成一个实数,此实数携带着全局信息,输出输入维度相匹配,映射为特征通道上对应的全局分布,而且使得靠近输入的层也可获得全局信息,此部分的操作由全局平均池化操作完成,公式如下:
Figure BDA0002300643730000091
其中uc表示U中第c个二维矩阵,下标c表示其中的通道。
(2)采用门机制,利用卷积层参数W为每个特征通道生成对应的权重,其中参数被学习用来显示建立通道之间的相关性。为了限制模型复杂度和辅助泛化,此部分通过两个全连接层完成:在第一个全连接层按缩放因子r减少通道数为
Figure BDA0002300643730000093
激活函数为Relu;在第二个全连接层恢复通道数为C,经过Sigmoid激活后得到,其结构为C×1×1,具体公式如下:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z)),
其中W1、W2分别为两个卷积层的参数。
(3)此时s融合着各通道的特征图信息,其中每个数值都代表该通道的二维特征矩阵的权重,将其与原特征层U按通道相乘,通过加权方式,完成对原始特征的重标定,公式如下:
Figure BDA0002300643730000092
为了增加特征层中通道间的相关性,更好地加强有效特征而抑制贡献小的特征,将SE-Net嵌入剩下的4个特征层后,改进后的网络结构如图3所示。
在原始SSD中,用于分类的置信度损失函数Lconf为交叉熵损失函数,为了让模型更注重于难分类的样本,训练正负样本不均衡中占比较少的样本,将Lconf替换为Focal Loss函数,记为FL(pt),其公式如下
FL(pt)=-αt(1-pt)γlog(pt),
其中相比交叉熵损失添加了两部分的权重αt和(1-pt)γ,αt项用来处理正负样本不均衡问题,正样本为包含有检测目标的样本,负样本为背景,如果该类样本占比较高,则设置较小的权重αt,反之则设置较大的αt,由此降低占比高的类别损失,提高占比低的类别损失。(1-pt)γ称为调制参数,其中γ≥0,其作用则是将模型的注意力集中在难训练样本,所谓难例就是模型预测正确的概率pt更接近0的样本,若pt接近1,则说明该样本属于易分类样本,当该样本是易分类样本时,调制系数趋于0,对总损失值的贡献小;当该样本为难例时,则反之。当γ=0时,即为原始的交叉熵损失;通过调整γ,控制难易分类样本对总分类损失函数的贡献。
为了使模型在复杂的环境下具有很好的检测效果,采取数据增强的方法,通过从训练样本邻域中提取附加虚拟样本以扩充对训练分布的支持。使用mixup作为数据增强方法,其关键思想是以线性差值的方法构建新的虚拟训练样本和标签。公式如下:
Figure BDA0002300643730000101
其中,(xi,yi)和(xi,yi)是从训练数据中随机抽取的两个样本,
Figure BDA0002300643730000102
为虚拟样本图像,
Figure BDA0002300643730000103
为虚拟样本对应的标签,λ∈[0,1],且符合Beta(α,α)分布。计算目标检测损失函数时,总损失为所有目标根据原图像的权重进行加权求和。为了加速模型训练收敛的速度,使模型输出特征的分布更加稳定,在SSD中每个卷积层后都添加Batch Normalization层,以批数量为单位,并在每个特征层后进行特征归一化操作,对每个像素点在通道上做L2归一化,先将数据统一映射到[0,1]区间上,再把像素点上的值放大到一定倍数,加快基于梯度下降法或随机梯度下降法模型的收敛速度,提升模型精度。
对于手语视频的每个关键帧,利用改进的SSD进行手势检测,根据时间顺序得到整个手语视频的关键手势的类别序列,为了确认该序列表达的语义,还应建立一个中国手语标准关键手势模板数据库,将标准关键手势序列与待翻译的类别序列进行匹配,从而判断是否为标准序列对应的汉语,标准模板数据库中包含每个手语的关键手势信息。经过相邻重复关键帧的去重和无意义手势的去除后,在已经建立好的中国手语标准关键手势模板数据库中搜寻结果匹配的汉语词汇,完成整个视频的手语-汉语翻译。
为了使SSD检测时其他无意义手势错分为关键手势的情况尽可能少的发生,目标检测中标注的手势类别除关键手势外,还包含2类非关键语义手势:过渡不清晰手势“background”(记作G)和无动作静止手势“static”(记作S),模板匹配具体流程见图4,其中L1、L2和R2分别为左手第一帧手势、左手第二帧手势、右手第二帧手势的缩写。经过无意义手势的去除和去除相邻的结果重复的帧后,在已经建立好的中国手语标准关键手势模板数据库中搜寻结果匹配的汉语词汇,即如果此时的待翻译结果与模板库中某词汇的标准模板(图4中为“情况”)完全相同,那么说明该手语视频的汉语意思是“情况”,否则该手语视频的意思并非该词汇,此时系统将待翻译结果再与其他词汇模板作比较,最终完成整个视频的手语-汉语翻译。基于MySQL数据库,根据汉语查找对应的拼音和唇语视频路径。
网页设计与实现,本发明要实现的功能如图5所示,为了本发明具有更强的实用性和可推广性,输入的彩色手语视频采用单目摄像头录制;为了使手语者自然地表达,手语者打手语时无需佩戴任何设备或在手上做任何标记;系统的第一个输出为汉字和拼音,第二个输出为与汉字相对应的唇语视频。其中前端使用Vue.js框架实现,后台服务器使用Spring Boot框架搭建,通过axios请求的方式来进行前后台的连接。在网页上展示时,首先播放手语视频,再等待算法输出汉字和拼音的结果,并展示在网页上,之后用户可以点击结果中的任意汉字,播放与其一一对应的唇语视频。

Claims (8)

1.一种基于单目视觉的手语-唇语转化方法,其特征在于,包括以下步骤:
步骤1、将简单自编码器的全连接层替换成卷积层形成卷积自编码器,获得手语视频后,采用卷积自编码器CAE的卷积神经网络的卷积和池化操作对输入的手语视频的每一帧图像进行下采样,实现特征不变性的无监督特征提取,提取手语视频每一帧的深度特征;
步骤2、利用清晰度优化的K-means聚类算法对步骤1提取的深度特征进行聚类,将每一帧的图像特征展开成一个56×56=3136维的向量,聚类得到K簇3136维的特征向量;
步骤3、依据步骤2得到的聚类结果将特征向量对应帧的图像分为不同类视频帧,对于每一类视频帧依据各帧图像的清晰度筛选取出最清晰的一帧图像作为初次提取的当前类视频帧的关键帧,再利用点密度方法对初次提取的关键帧进行二次优化,得到最终提取的每类视频帧的关键帧;
步骤4、利用改进的SSD网络结构对步骤3提取出的关键帧进行手势识别,基于原始SSD网络结构,改进的SSD网络结构通过以下方法获得:
在SSD卷积层后嵌入SE-Net模块,对通道的权重进行重标定,以此对各通道特征进行重校准,选择性增强特征表达能力更强的通道,其中,SE-Net模块包括用于全局信息嵌入的Squeeze部分和负责自适应重新校准的Excitation部分;
步骤5、利用步骤4识别得到的手势在已经建立好的中国手语标准关键手势模板数据库中搜寻相匹配的汉语词汇,获得对应的汉语词汇后将该汉语词汇转换为可以播放的唇语。
2.如权利要求1所述的一种基于单目视觉的手语-唇语转化方法,其特征在于,设步骤1获得的所有帧的深度特征组成的视频特征序列为F={x0,x1,...,xn},其中,n为手语视频的总帧数;xn表示手语视频中第n帧图像的深度特征,xn为56×56的二维特征向量;并设一个关键手势的帧数不超过6帧,选取聚类数目K=len(F)/6,其中,len(F)为视频特征序列F中特征向量的个数,则所述步骤2具体包括以下步骤:
步骤201、从F中随机选取K个聚类质心,分别记为u1,u2,...,uj,...,uk,其中,uj为第j类的聚类质心;
步骤202、依次计算各个特征向量到每个聚类质心的欧氏距离,定义特征向量xi,i=0,1,2,......,n,到质心uj的欧氏距离为Dij=||xi-uj||,记集合Di={Di1,Di2,...,Dik},选取集合Di中最小值,若该最小值为Dij,则将特征向量xi归入第j类;
步骤203、再对每一类的所有特征向量取均值,重新计算每一类的聚类质心;
步骤204、重复步骤202及步骤203直到上个聚类质心与重新计算的聚类质心差距最小。
3.如权利要求1所述的一种基于单目视觉的手语-唇语转化方法,其特征在于,步骤3中,基于Tenengrad梯度函数的图像(x,y)的清晰度为G(x,y),则有:
Figure FDA0002300643720000021
式中,Gx(x,y)和Gy(x,y)分别是像素点(x,y)处的灰度值f(x,y)与Sobel水平方向边缘检测算子的卷积和像素点(x,y)处的灰度值f(x,y)与Sobel垂直方向边缘检测算子的卷积。
4.如权利要求1所述的一种基于单目视觉的手语-唇语转化方法,其特征在于,步骤3中,初次提取得到每类视频帧的关键帧后,先对关键帧序列进行帧间隔优化,若相邻帧相距小于一个阈值,则去掉序列号较小的一帧,以去除初次提取的关键帧序列中的小部分冗余,随后利用点密度方法对关键帧进行二次优化,得到最终提取的每类视频帧的关键帧。
5.如权利要求4所述的一种基于单目视觉的手语-唇语转化方法,其特征在于,所述利用点密度方法对关键帧进行二次优化包括以下步骤:
步骤301、依次记录经过帧间隔优化后的M个关键帧,得到关键帧位置序号数组P={pi|i=1,2,…,M},式中,pi为第i个关键帧位置序号,定义为数组P中第i个点;
步骤302、依次计算数组P中每个点的点密度,定义第j个点pj的点密度为Density(pj),则有:
Density(pj)={pi|dis(pj,pi)<δ,pi∈P}
式中,dis(pj,pi)表示p点pj和点pi之间的欧氏距离,阈值δ为数组P上所有相邻点之间的距离之和的平均值
Figure FDA0002300643720000031
步骤303、从M个关键帧中再提取出点密度最大的N个关键帧。
6.如权利要求1所述的一种基于单目视觉的手语-唇语转化方法,其特征在于,步骤4中,所述改进的SSD网络结构采用以下步骤构建:
步骤401、根据空间维度进行特征压缩,将每个二维的特征通道变成一个实数,此实数携带着全局信息,输出输入维度相匹配,映射为特征通道上对应的全局分布,而且使得靠近输入的层也可获得全局信息,此部分的操作由全局平均池化操作完成,公式如下:
Figure FDA0002300643720000032
式中,zc表示携带全局信息的实数,c表示其中的通道;uc表示U中第c个二维矩阵,U表示原特征层;uc(i,j)表示U中第c个二维矩阵);H、W表示表示U的高度和宽度;
步骤402、采用门机制,利用卷积层参数为每个特征通道生成对应的权重,其中参数被学习用来显示建立通道之间的相关性,为了限制模型复杂度和辅助泛化,通过两个全连接层完成参数的学习:在第一个全连接层按缩放因子r减少通道数为
Figure FDA0002300643720000033
激活函数为Relu;在第二个全连接层恢复通道数为C,经过Sigmoid激活后得到,其结构为C×1×1,具体公式如下:
s=Fex(z,W)=σ(W2δ(W1z))
式中,s表示每个特征通道对应的重标定权重;z表示携带全局信息的实数;W表示U的宽度;Fex(z,W)表示Excitation函数;σ表示Sigmod函数;δ(W1z)表示Relu函数;W1、W2分别为两个卷积层的参数;
步骤403、s融合着各通道的特征图信息,其中每个数值都代表该通道的二维特征矩阵的权重,将s与原特征层U按通道相乘,通过加权方式,完成对原始特征的重标定,公式如下:
Figure FDA0002300643720000041
式中,
Figure FDA0002300643720000042
表示重标定值;Fscale(uc,sc)表示重标定函数;sc表示每个特征通道对应的重标定特征权重;
将SSD网络结构中的特征层Conv8_2、Conv9_2去除后,将SE-Net嵌入剩下的特征层Conv4_3、Fc7、Conv6_2、Conv7_2中;
将分类的置信度损失函数Lconf替换为Focal Loss函数,记为FL(pt),其公式如下:
FL(pt)=-αt(1-pt)γlog(pt)
上式中,αt和(1-pt)γ为权重;αt用来处理正负样本不均衡问题,正样本为包含有检测目标的样本,负样本为背景,如果该类样本占比较高,则设置较小的权重αt,反之则设置较大的αt,由此降低占比高的类别损失,提高占比低的类别损失;(1-pt)γ为调制参数,其中γ≥0,将模型的注意力集中在难训练样本,所谓难训练样本就是模型预测正确的概率pt更接近0的样本,若概率pt接近1,则说明该样本属于易分类样本,当该样本是易分类样本时,调制系数趋于0,对总损失值的贡献小;当该样本为难训练样本时,则反之;当γ=0时,即为原始的交叉熵损失;通过调整γ,控制难易分类样本对总分类损失函数的贡献。
7.如权利要求1所述的一种基于单目视觉的手语-唇语转化方法,其特征在于,步骤4中,对所述改进的SSD网络结构进行训练时,采取数据增强的方法,通过从训练样本邻域中提取附加虚拟样本以扩充对训练分布的支持。
8.如权利要求7所述的一种基于单目视觉的手语-唇语转化方法,其特征在于,使用mixup作为所述数据增强方法,以线性差值的方法构建新的虚拟训练样本和标签,公式如下:
Figure FDA0002300643720000043
式中,(xi,yi)和(xi,yi)是从训练数据中随机抽取的两个样本,
Figure FDA0002300643720000044
为虚拟样本图像,
Figure FDA0002300643720000045
为虚拟样本对应的标签,λ∈[0,1],且符合Beta(α,α)分布。
CN201911220323.0A 2019-12-03 2019-12-03 基于单目视觉的手语-唇语转化方法 Active CN111062277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911220323.0A CN111062277B (zh) 2019-12-03 2019-12-03 基于单目视觉的手语-唇语转化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911220323.0A CN111062277B (zh) 2019-12-03 2019-12-03 基于单目视觉的手语-唇语转化方法

Publications (2)

Publication Number Publication Date
CN111062277A true CN111062277A (zh) 2020-04-24
CN111062277B CN111062277B (zh) 2023-07-11

Family

ID=70299533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911220323.0A Active CN111062277B (zh) 2019-12-03 2019-12-03 基于单目视觉的手语-唇语转化方法

Country Status (1)

Country Link
CN (1) CN111062277B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232349A (zh) * 2020-09-23 2021-01-15 成都佳华物链云科技有限公司 模型训练方法、图像分割方法及装置
CN113499553A (zh) * 2021-06-25 2021-10-15 上海东普信息科技有限公司 基于便携式无人机的灭火方法、装置、设备及存储介质
CN114708648A (zh) * 2022-03-07 2022-07-05 杭州易视通科技有限公司 基于人工智能的手语识别方法及系统
CN115239855A (zh) * 2022-06-23 2022-10-25 安徽福斯特信息技术有限公司 一种基于移动终端的虚拟手语主播生成方法、装置及系统
CN116805272A (zh) * 2022-10-29 2023-09-26 武汉行已学教育咨询有限公司 一种可视化教育教学分析方法、系统及存储介质
CN117201790A (zh) * 2023-11-07 2023-12-08 河北省天然气有限责任公司 一种天然气管道监控视频优化编码方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268769A (zh) * 2013-02-06 2013-08-28 方科峰 基于语音键盘的影音系统应用方法
WO2016201679A1 (zh) * 2015-06-18 2016-12-22 华为技术有限公司 特征提取方法、唇语分类方法、装置及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268769A (zh) * 2013-02-06 2013-08-28 方科峰 基于语音键盘的影音系统应用方法
WO2016201679A1 (zh) * 2015-06-18 2016-12-22 华为技术有限公司 特征提取方法、唇语分类方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈甜甜;姚璜;左明章;田元;杨梦婷;: ""基于深度信息的动态手势识别综述"", 《计算机科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232349A (zh) * 2020-09-23 2021-01-15 成都佳华物链云科技有限公司 模型训练方法、图像分割方法及装置
CN112232349B (zh) * 2020-09-23 2023-11-03 成都佳华物链云科技有限公司 模型训练方法、图像分割方法及装置
CN113499553A (zh) * 2021-06-25 2021-10-15 上海东普信息科技有限公司 基于便携式无人机的灭火方法、装置、设备及存储介质
CN113499553B (zh) * 2021-06-25 2023-09-26 上海东普信息科技有限公司 基于便携式无人机的灭火方法、装置、设备及存储介质
CN114708648A (zh) * 2022-03-07 2022-07-05 杭州易视通科技有限公司 基于人工智能的手语识别方法及系统
CN115239855A (zh) * 2022-06-23 2022-10-25 安徽福斯特信息技术有限公司 一种基于移动终端的虚拟手语主播生成方法、装置及系统
CN116805272A (zh) * 2022-10-29 2023-09-26 武汉行已学教育咨询有限公司 一种可视化教育教学分析方法、系统及存储介质
CN117201790A (zh) * 2023-11-07 2023-12-08 河北省天然气有限责任公司 一种天然气管道监控视频优化编码方法及系统
CN117201790B (zh) * 2023-11-07 2024-01-09 河北省天然气有限责任公司 一种天然气管道监控视频优化编码方法及系统

Also Published As

Publication number Publication date
CN111062277B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN106649542B (zh) 用于视觉问答的系统和方法
CN111062277B (zh) 基于单目视觉的手语-唇语转化方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN110119786B (zh) 文本话题分类方法及装置
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
Liu et al. A hierarchical visual model for video object summarization
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
CN110765921B (zh) 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
US11481563B2 (en) Translating texts for videos based on video context
Tamiru et al. Recognition of Amharic sign language with Amharic alphabet signs using ANN and SVM
Yang et al. STA-TSN: Spatial-temporal attention temporal segment network for action recognition in video
De Coster et al. Machine translation from signed to spoken languages: State of the art and challenges
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN110929640A (zh) 一种基于目标检测的宽幅遥感描述生成方法
Kindiroglu et al. Temporal accumulative features for sign language recognition
CN113743389B (zh) 一种面部表情识别的方法、装置和电子设备
Zheng et al. Attention assessment based on multi‐view classroom behaviour recognition
CN113536015A (zh) 一种基于深度辨识度迁移的跨模态检索方法
Liu et al. A multimodal approach for multiple-relation extraction in videos
Rasheed et al. A deep learning-based method for Turkish text detection from videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant