CN112487951B - 一种手语识别和翻译方法 - Google Patents

一种手语识别和翻译方法 Download PDF

Info

Publication number
CN112487951B
CN112487951B CN202011356115.6A CN202011356115A CN112487951B CN 112487951 B CN112487951 B CN 112487951B CN 202011356115 A CN202011356115 A CN 202011356115A CN 112487951 B CN112487951 B CN 112487951B
Authority
CN
China
Prior art keywords
sign language
sequence
module
key point
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011356115.6A
Other languages
English (en)
Other versions
CN112487951A (zh
Inventor
尹啟坊
李凌
刘云云
辜嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Relitaihe Life Technology Co ltd
Original Assignee
Shenzhen Relitaihe Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Relitaihe Life Technology Co ltd filed Critical Shenzhen Relitaihe Life Technology Co ltd
Priority to CN202011356115.6A priority Critical patent/CN112487951B/zh
Publication of CN112487951A publication Critical patent/CN112487951A/zh
Application granted granted Critical
Publication of CN112487951B publication Critical patent/CN112487951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明属于手语识别和翻译技术领域,尤其公开了一种手语识别和翻译方法,现提出如下方案,包括特征提取模块、序列学习模块、损失优化模块和解码模块,所述特征提取模块主要负责先后提取每个视频帧的静态特征和相邻帧的连续特征。本发明添加了关键点特征学习部分选择的关键点有8个,其中额头关键点和脖子关键点用来检测头部运动,提高了特定场景下的手语翻译的精度。本发明联合优化损失策略、关键点损失优化函数和CTC损失函数相加作为最终损失函数的损失优化策略,可以直接安装在手机上实时运行,这将不仅仅可以提高产品的易用性,还可以大大减小手语翻译的应用和推广成本。

Description

一种手语识别和翻译方法
技术领域
本发明涉及手语识别和翻译技术领域,尤其涉及一种手语识别和翻译方法。
背景技术
手语是一种聋哑人执行的肢体语言表达方式,由于其本身的局部性、细节性和复杂性,同时又受到光照、背景等影响,使用传统模式识别或机器学习方法所能达到的精度与鲁棒性已达到瓶颈期,往往局限于静态手势识别、单词级手势识别或粗粒度的动态手势识别,而现存的基于深度学习的方法往往模型庞大,必须依托专用物理设备才能运行,且实时性低、易用性差、价格昂贵。
针对前述问题,我们发明了此款连续型手语翻译程序。这款手语翻译程序可以对较复杂场景下的手语手势实时翻译,不仅保证了翻译的精度,还还可以在安装在手机等轻量型终端中。该手语识别和翻译技术可用于手语翻译、日常交流、研发手语教学机器人,促进手语教学、培训和推广,可以拓宽到其他手势指令相关的领域,如交警手势识别、军事手势识别及智能家电控制等。
根据手语获取方式的不同,分为基于数据手套和基于视觉的手语识别,前者可以实时采集手势的3维运动信息和时序变化,然后应用识别算法进行处理,识别速度快,准确率高,但是设备复杂,价格昂贵,且对操作者有约束,佩戴不方便,因此基于视觉的手语识别成为主流。
目前基于视觉的手语识别技术的主流思路一般是先通过卷积网络提取特征,再用RNN(Recurrent Neural Network,循环神经网络)类神经网络解码序列,最后用CTC(Connectionist Temporal Classification,连接主义时间分类器)等作为损失函数对模型训练优化。《手语识别方法、装置、计算机可读存储介质和计算机设备》是深圳腾讯公司在2019年7月申请的一项专利,已经公布的专利号201910650159.0,该方法的流程大致是这样的:获取待识别的手语视频,从手语视频的各帧图像中提取手势特征,提取手语视频的各帧图像的手势变化特征,从手势特征与手语变化特征之间的融合特征中提取手语词信息,按照手语词信息对应的语境信息,将手语词信息组合成手语语句。该方法使用的模型框架:2DCNN+3DCNN、LSTM、BLSTM(Bidirectional Long short-term Memory RNN)和CTC。《Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition》(用于手语识别的多线索网络)是中国科学技术大学在2020年二月发表的一篇学术论文,该方法的特点是对手语视频的空间和时间特征先后建模,并融合了全帧、手部、位姿和脸部等四个线索的特征,然后利用BLSTM和CTC进行序列学习。该模型同样达到了不错的效果。但是以上是两个手语识别领域的最新技术,值得注意的是,这两个技术模型相对庞大,对设备的算力要求较高。为此,本发明提出一种手语识别和翻译方法来解决以上问题。
发明内容
本发明的目的是为了解决背景技术中存在的缺点,而提出的一种手语识别和翻译方法。
为了实现上述目的,本发明采用了如下技术方案:
一种手语识别和翻译方法,包括特征提取模块、序列学习模块、损失优化模块和解码模块,所述特征提取模块主要负责先后提取每个视频帧的静态特征和相邻帧的连续特征,其中提取到的静态特征主要是人体上肢手语相关的8个关键点特征和以手部动作为主、脸部表情为辅的全帧特征,提取到的连续特征主要是若干帧之间的手语词连续性信息,所述序列学习模块主要包含了两层BLSTM网络,该模块负责学习特征序列的连续性信息,所述损失优化模块包含关键点损失和CTC损失,所述关键点损失函数采用距离回归函数smooth-L1,所述解码模块采用beam search解码器,采用prefix beam decoder算法;
手语识别和翻译方法包括以下步骤:
步骤1,用户打开软件,用手机摄像头对准手语者,软件界面有人形框收集便于用户对准手语者;
步骤2,摄入录像后,程序对录像采样,并截取为固定大小的图像;
步骤3,然后将图像送入特征提取模块中提取特征,这一步输出一个特征序列;
步骤4,将特征序列输入序列学习模块中学习时间维度的序列特征;
步骤5,将学习到的特征序列输入到解码模块中,得到翻译的句子,将句子输出到软件的语句框中。
优选的,所述特征提取模块包括骨干网络,所述骨干网络选择resnet18,resnet18检测的输入采用的是第三层基本网络层的输出特征图,在关键点检测部分,采用两层反卷积将特征图上采样后,加入卷积核大小为1*1的二维卷积,来将特征图的维度降为8,并用Soft-Argmax算法提取出8个关键点:两个手腕、两个肘部、两个肩部、额头和脖子,8个关键点构成一个向量,然后使用全连接层将特征向量扩维,与骨干网络的向量连接。
优选的,所述序列学习模块采用了两层的BLSTM网络来学习手语视频的时序特征,时序特征为手语的动态手势。
优选的,所述解码和损失优化模块中,采用CTC分类器作为优化损失函数,采用smooth-L1函数作为关键点匹配损失函数,所述优化损失函数和关键点匹配损失函数相加作为最终的损失函数。
优选的,所述序列学习模块采用prefix-beam-search算法对序列学习模块的输出序列进行解码,得到预测的翻译句子,并在软件界面的语句框中实时展现。
与现有技术相比,本发明的有益效果是:
本发明添加了关键点特征学习部分选择的关键点有8个,其中额头关键点和脖子关键点用来检测头部运动,提高了特定场景下的手语翻译的精度。
本发明联合优化损失策略、关键点损失优化函数和CTC损失函数相加作为最终损失函数的损失优化策略,可以直接安装在手机上实时运行,这将不仅仅可以提高产品的易用性,还可以大大减小手语翻译的应用和推广成本。
附图说明
图1为本发明提出的特征提取模块的结构示意图。
图2为本发明的执行流程图。
图3为本发明提出的网络架构的执行流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,一种手语识别和翻译方法,包括特征提取模块、序列学习模块、损失优化模块和解码模块,所述特征提取模块主要负责先后提取每个视频帧的静态特征和相邻帧的连续特征,其中提取到的静态特征主要是人体上肢手语相关的8个关键点特征和以手部动作为主、脸部表情为辅的全帧特征,提取到的连续特征主要是若干帧之间的手语词连续性信息,所述序列学习模块主要包含了两层BLSTM网络,该模块负责学习特征序列的连续性信息,所述损失优化模块包含关键点损失和CTC损失,所述关键点损失函数采用距离回归函数smooth-L1,所述解码模块采用beam search解码器,采用prefix beam decoder算法;
手语识别和翻译方法包括以下步骤:
步骤1,用户打开软件,用手机摄像头对准手语者,软件界面有人形框收集便于用户对准手语者;
步骤2,摄入录像后,程序对录像采样,并截取为固定大小的图像;
步骤3,然后将图像送入特征提取模块中提取特征,这一步输出一个特征序列;
步骤4,将特征序列输入序列学习模块中学习时间维度的序列特征;
步骤5,将学习到的特征序列输入到解码模块中,得到翻译的句子,将句子输出到软件的语句框中。
本实施方式中,所述特征提取模块包括骨干网络,所述骨干网络选择resnet18,resnet18检测的输入采用的是第三层基本网络层的输出特征图,在关键点检测部分,采用两层反卷积将特征图上采样后,加入卷积核大小为1*1的二维卷积,来将特征图的维度降为8,并用Soft-Argmax算法提取出8个关键点:两个手腕、两个肘部、两个肩部、额头和脖子,8个关键点构成一个向量,然后使用全连接层将特征向量扩维,与骨干网络的向量连接。
本实施方式中,所述序列学习模块采用了两层的BLSTM网络来学习手语视频的时序特征,时序特征为手语的动态手势。
本实施方式中,所述解码和损失优化模块中,采用CTC分类器作为优化损失函数,采用smooth-L1函数作为关键点匹配损失函数,所述优化损失函数和关键点匹配损失函数相加作为最终的损失函数。
本实施方式中,所述序列学习模块采用prefix-beam-search算法对序列学习模块的输出序列进行解码,得到预测的翻译句子,并在软件界面的语句框中实时展现。
本实施方式中,方法中关键点检测的分支是从第三层基本网路块引出,方法中关键点检测的分支还可以从第四层基本网块中引出。
本实施方式中,Soft-Argmax算法提取出8个关键点还可以采用更多的关键点,比如嘴巴。
本实施方式中,序列学习模块由两个BLSTM网络组成,还可以更改成LSTM网络或BLSTM和LSTM的混合网络。
本实施方式中,可变更设备除了手机之外,本方法同样可以应用于平板或其它带有摄像头和处理器的设备上。
本实施方式中,可变更用途除了手语识别和翻译外,本方法同样可以用于手势识别、人体姿态识别等其它有人体特征的动作识别场景中。
本发明添加了关键点特征学习部分选择的关键点有8个,其中额头关键点和脖子关键点用来检测头部运动,提高了特定场景下的手语翻译的精度。本发明联合优化损失策略、关键点损失优化函数和CTC损失函数相加作为最终损失函数的损失优化策略,可以直接安装在手机上实时运行,这将不仅仅可以提高产品的易用性,还可以大大减小手语翻译的应用和推广成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种手语识别和翻译方法,其特征在于,包括特征提取模块、序列学习模块、损失优化模块和解码模块,所述特征提取模块主要负责先后提取每个视频帧的静态特征和相邻帧的连续特征,其中提取到的静态特征主要是人体上肢手语相关的8个关键点特征和以手部动作为主、脸部表情为辅的全帧特征,提取到的连续特征主要是若干帧之间的手语词连续性信息,所述序列学习模块主要包含了两层BLSTM网络,该模块负责学习特征序列的连续性信息,所述损失优化模块包含关键点损失和CTC损失,所述关键点损失函数采用距离回归函数smooth-L1,所述解码模块采用beam search解码器,采用prefix beam decoder算法;
手语识别和翻译方法包括以下步骤:
步骤1,用户打开软件,用手机摄像头对准手语者,软件界面有人形框收集便于用户对准手语者;
步骤2,摄入录像后,程序对录像采样,并截取为固定大小的图像;
步骤3,然后将图像送入特征提取模块中提取特征,这一步输出一个特征序列;
步骤4,将特征序列输入序列学习模块中学习时间维度的序列特征;
步骤5,将学习到的特征序列输入到解码模块中,得到翻译的句子,将句子输出到软件的语句框中。
2.根据权利要求1所述的一种手语识别和翻译方法,其特征在于,所述特征提取模块包括骨干网络,所述骨干网络选择resnet18,resnet18检测的输入采用的是第三层基本网络层的输出特征图,在关键点检测部分,采用两层反卷积将特征图上采样后,加入卷积核大小为1*1的二维卷积,来将特征图的维度降为8,并用Soft-Argmax算法提取出8个关键点:两个手腕、两个肘部、两个肩部、额头和脖子,8个关键点构成一个向量,然后使用全连接层将特征向量扩维,与骨干网络的向量连接。
3.根据权利要求1所述的一种手语识别和翻译方法,其特征在于,所述序列学习模块采用了两层的BLSTM网络来学习手语视频的时序特征,时序特征为手语的动态手势。
4.根据权利要求1所述的一种手语识别和翻译方法,其特征在于,所述解码和损失优化模块中,采用CTC分类器作为优化损失函数,采用smooth-L1函数作为关键点匹配损失函数,所述优化损失函数和关键点匹配损失函数相加作为最终的损失函数。
5.根据权利要求1所述的一种手语识别和翻译方法,其特征在于,所述序列学习模块采用prefix-beam-search算法对序列学习模块的输出序列进行解码,得到预测的翻译句子,并在软件界面的语句框中实时展现。
CN202011356115.6A 2020-11-26 2020-11-26 一种手语识别和翻译方法 Active CN112487951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011356115.6A CN112487951B (zh) 2020-11-26 2020-11-26 一种手语识别和翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011356115.6A CN112487951B (zh) 2020-11-26 2020-11-26 一种手语识别和翻译方法

Publications (2)

Publication Number Publication Date
CN112487951A CN112487951A (zh) 2021-03-12
CN112487951B true CN112487951B (zh) 2022-05-27

Family

ID=74936033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011356115.6A Active CN112487951B (zh) 2020-11-26 2020-11-26 一种手语识别和翻译方法

Country Status (1)

Country Link
CN (1) CN112487951B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861827B (zh) * 2021-04-08 2022-09-06 中国科学技术大学 运用单语料回译的手语翻译方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348420B (zh) * 2019-07-18 2022-03-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN111079661B (zh) * 2019-12-19 2022-07-15 中国科学技术大学 手语识别系统
CN111208509B (zh) * 2020-01-15 2020-12-29 中国人民解放军国防科技大学 一种超宽带雷达人体目标姿态可视化增强方法
CN111582039B (zh) * 2020-04-13 2022-12-02 清华大学 基于深度学习与大数据的手语识别与转换系统及方法
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks

Also Published As

Publication number Publication date
CN112487951A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
Cheng et al. Fully convolutional networks for continuous sign language recognition
US20220044463A1 (en) Speech-driven animation method and apparatus based on artificial intelligence
WO2020177673A1 (zh) 一种视频序列选择的方法、计算机设备及存储介质
JP2022515620A (ja) 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム
Zheng et al. Recent advances of deep learning for sign language recognition
CN112101329B (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN113421547B (zh) 一种语音处理方法及相关设备
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
KR20120120858A (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
CN112257513B (zh) 一种手语视频翻译模型的训练方法、翻译方法及系统
CN111046148A (zh) 智能交互系统及智能客服机器人
CN113723327A (zh) 一种基于深度学习的实时中文手语识别交互系统
Wang et al. (2+ 1) D-SLR: an efficient network for video sign language recognition
CN112487951B (zh) 一种手语识别和翻译方法
CN110096987B (zh) 一种基于双路3dcnn模型的哑语动作识别方法
CN113269279B (zh) 一种多媒体内容分类方法和相关装置
CN116543076B (zh) 图像处理方法、装置、电子设备及存储介质
CN112738555A (zh) 视频处理方法及装置
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
Goel et al. Real-time sign language to text and speech translation and hand gesture recognition using the LSTM model
CN115759293A (zh) 模型训练方法、图像检索方法、装置及电子设备
CN112487939A (zh) 一种基于深度学习的纯视觉轻量手语识别系统
CN114462539A (zh) 一种内容分类模型的训练方法、内容分类的方法及装置
CN116453005A (zh) 一种视频封面的提取方法以及相关装置
CN114510942A (zh) 获取实体词的方法、模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant