CN115546897A - 手语识别方法、装置、电子设备及可读存储介质 - Google Patents
手语识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN115546897A CN115546897A CN202211281544.0A CN202211281544A CN115546897A CN 115546897 A CN115546897 A CN 115546897A CN 202211281544 A CN202211281544 A CN 202211281544A CN 115546897 A CN115546897 A CN 115546897A
- Authority
- CN
- China
- Prior art keywords
- information
- feature information
- hand
- human body
- joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种手语识别方法、装置、电子设备及可读存储介质,属于人工智能领域。该方法包括:获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;对该第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
Description
技术领域
本申请属于人工智能领域,具体涉及一种手语识别方法、装置、电子设备及可读存储介质。
背景技术
手语是听障人士进行交流,表达思想的工具,用来传递他们的信息,表达一些复杂或抽象的语义概念。通常根据特定的语法,将手指动作配合肢体语言及面部表情来传达信息。而随着电子设备技术的发展,手语识别与翻译功能出现为这些听障人士提供了便利。
通常,手语识别方案都是采用视频流信息输入视觉模型中,进行分类训练,从固定模板中得到手语语义信息;或者是提取骨骼关键点,然后采用图网络或者生成热力图后采用卷积神经网络(Convolutional Neural Networks,CNN)模型进行分类,而这种方法会造成对应动作幅度小的一些手语动作无法充分学习。或者,采用基于翻译(transformer)模型的骨骼关键点方法,这种方法会在transformer模型中添加cnn卷积层,对transformer输入的人体的手语特征统一的进行标准化,并采用相同的注意力模块对手语特征信息进行识别。
如此,常规的手语识别方案过于单一和固定,从而可能导致无法充分学习离散词手语语义信息。
发明内容
本申请实施例的目的是提供一种手语识别方法、装置、电子设备及可读存储介质,能够解决如何充分学习离散词手语语义信息的问题。
第一方面,本申请实施例提供了一种手语识别方法,该手语识别方法包括:获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;对该第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
第二方面,本申请实施例提供了一种手语识别装置,该手语识别装置包括:获取模块和处理模块;该获取模块,用于获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;该处理模块,用于将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;所述处理模块,还用于将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;所述处理模块,还用于对该第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;对该第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。如此,将目标用户的身体特征信息和手部特征信息输入本申请提供的翻译模型中,通过采用加权处理在时间维度上将当前帧身体特征信息与前后帧身体特征信息进行融合,相应地采用加权处理在时间维度上将当前帧手部特征信息与前后帧手部特征信息进行融合,同时,通过采用加权处理在空间维度上将身体特征信息和手部特征信息进行融合,使得电子设备不仅能够根据融合后的身体特征信息和手部特征信息更加充分学习目标用户手语语义信息,同时新的翻译模型中通过将传统的人体特征翻译模型,拆分为身体特征翻译模型和手部特征翻译模型,从而减少了模型间的参数量,有利于减少模型过拟合。
附图说明
图1是本申请实施例提供的一种手语识别方法的流程示意图之一;
图2是本申请实施例提供的一种手语识别方法的模型示意图之一;
图3是本申请实施例提供的一种手语识别方法的模型示意图之二;
图4是本申请实施例提供的一种手语识别方法的示例示意图之一;
图5是本申请实施例提供的一种手语识别方法的示例示意图之二;
图6是本申请实施例提供的一种手语识别方法的流程示意图之二;
图7是本申请实施例提供的一种手语识别装置的结构示意图;
图8是本申请实施例提供的一种电子设备的硬件结构示意图之一;
图9是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的手语识别进行详细地说明。
首先,现有技术中,电子设备通常会用开源工具包(比如mediapipe、OpenPose、MMPose等,下文以mediapipe为例)提取关节点信息,然而它们提取的人体关节点坐标只有x和y轴可用,z轴坐标不可用(官方文档有说明),而z轴坐标表示了深度信息,深度信息表示手掌距离人体在深度方向的距离。它是手语识别很重要的特征,如果我们无法准确获取手掌z轴信息,则模型输入的信息熵会丢失,导致模型不能充分学习。
其次,传统transformer采用的是层标准化(layer norm)对特征进行标准化,layer norm标准化不能体现同一个坐标点在时间维度上的变化情况,批标准化(batchnorm)则不能体现单帧图像中关节点特征的相对大小情况;另外,有些人体关节点在连续几帧数据中保持不动,但是由于关键点模块(例如mediepipe)检测误差,导致坐标有细微波动,如果经过batch norm处理后的数据,就不能保留其静止未动的信息,所以,当前的标准化方案无法同时保留空间维度和时间维度上的坐标相对大小关系,而手语识别中,坐标点在空间维度和时间维度上的相对位置对手语识别有至关重要的作用。
此外,理解手语关键在于理解手型,其次是手掌相对于身体的位置,。手掌关节点非常密集且相互之间的距离变化小,而身体关节点非常稀疏且相互之间的距离变化大,以关节点坐标作为手语特征输入模型时,手掌关节点坐标变化小,却包含了最重要的手语信息,而重要性相对较弱的身体关节点坐标变化却更大,传统Transformer是将所有特征经过一个layer norm标准化,layer norm虽然可以改变数据分布,但不会改变数据的相对大小,无法深度融合身体和手掌的所有特征信息,此处如果直接将身体和手掌特征同时输入模型训练,模型就不能充分学习手掌的语义信息。
在本申请实施例中,首先,通过获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;且该人体特征信息中包含身体与手掌的深度信息,并将身体与手掌的深度信息分别进行拼接进行整体的标准化得到所述第一人体特征信息。接着,将所述第一人体特征信息输入翻译模型,该翻译模型与传统的翻译模型不同,本申请将传统的翻译模型拆分为三部分,分别对手部和身体的特征信息采用不同的权重,在时间维度和空间维度上进行处理。具体地,采用第一权重和第二权重对所述第一身体特征信息进行处理,得到第二身体特征信息,并采用所述第二权重和第三权重对所述第一手部特征信息进行处理,得到第二手部特征信息;将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息。最后将第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
如此,在获取到人体特征信息中身体与手掌的深度信息后,可以根据人体身体、手掌和摄像头的距离提取到更精确地身体特征信息和手部特征信息,从而可以将目标用户更精确的身体特征信息和手部特征信息输入本申请提供的翻译模型中,利用第一权重在时间维度上将当前帧身体特征信息与前后帧身体特征信息进行融合,相应地利用第三权重在时间维度上将当前帧手部特征信息与前后帧手部特征信息进行融合,同时,通过利用第二权重在空间维度上将身体特征信息和手部特征信息进行融合,使得电子设备不仅能够根据融合后的身体特征信息和手部特征信息更加充分学习目标用户手语语义信息,同时新的翻译模型中通过将传统的人体特征翻译模型,拆分为身体特征翻译模型和手部特征翻译模型,从而减少了模型间的参数量,有利于减少模型过拟合。
本申请实施例提供的手语识别方法的执行主体可以为手语识别装置,该手语识别装置可以为电子设备,也可以为该电子设备中的功能模块。以下将以电子设备为例进行说明。
本申请实施例提供一种手语识别方法,图1示出了本申请实施例提供的一种手语识别方法的流程图,该方法可以应用于电子设备。如图1所示,本申请实施例提供的手语识别方法可以包括下述的步骤201至步骤204。
步骤201、获取第一图像帧中的目标用户的第一人体特征信息。
在本申请实施例中,所述人体特征信息包括第一身体特征信息和第一手部特征信息。
在本申请实施例中,所述第一手部特征信息包括第一左手特征信息和第一右手特征信息。
应注意的是,本申请实施例中的身体特征信息是指目标用户的人体头部、躯干和除了手部以外的四肢部位,例如肘关节、肩关节等。同时,本申请实施例中的手部特征信息是指目标用户的手部关节特征,例如手指关节,手腕关节等。
在本申请实施例中,所述第一图像帧为目标用户参与的手语视频中所有图像帧中的其中一帧。
在本申请实施例中,所述手语视频可以包括录制好的手语视频、用户在实时通话环境中执行手语动作的视频等。
步骤202、将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息。
示例性地,将所述第一人体特征信息输入翻译模型后,分别在不同的模块中对所述第一身体特征和所述第一手部特征信息采用不同的权重,进行加权处理,从而得到第二身体特征信息和第二手部特征信息。
可选地,在本申请实施例中,在所述步骤202“分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息”的过程中,包括以下步骤202a:
步骤202a、将所述第一人体特征信息输入翻译模型,采用第一权重和第二权重对所述第一身体特征信息进行处理,得到第二身体特征信息,并采用第二权重和第三权重对所述第一手部特征信息进行处理,得到第二手部特征信息。
示例性地,所述第一权重用于表征所述第一图像帧之前的图像帧中的身体特征信息与所述第一身体特征信息间的关联性。可以理解的是,所述第一权重是在时间维度上表达所述第一图像帧之前的图像帧中的身体特征信息与所述第一身体特征信息间的关联性。
示例性地,所述第二权重用于表征所述第一身体特征信息和所述第一手部特征信息间的关联性。可以理解的是,所述第二权重是在空间维度上表达所述第一身体特征信息与所述第一手部特征信息间的关联性。
示例性地,所述第三权重用于表征所述第一图像帧之前的图像帧中的手部特征信息与所述第一手部特征信息间的关联性。可以理解的是,所述第三权重是在时间维度上表达所述第一图像帧之前的图像帧中的手部特征信息与所述第一手部特征信息间的关联性。
可选地,在本申请实施例中,所述翻译模型包括:第一多头注意力模块、第二多头注意力模块、三段式多头注意力模块残差和标准化模块以及前反馈模块。
在一种可能的实施例中,所述步骤202a“采用第一权重和第二权重对所述第一身体特征信息进行处理,得到第二身体特征信息”的过程中,包括步骤202a1至步骤202a4:
步骤202a1、基于第一多头注意力模块,采用所述第一权重对所述第一身体特征信息进行处理,得到第三身体特征信息。
步骤202a2、基于三段式多头注意力模块,采用所述第二权重对所述第一身体特征信息进行处理,得到第四身体特征信息。
示例性地,在三段式多头注意力模块中,基于第一公式、第二公式以及第三公式,对所述第一身体特征信息进行处理,得到第四身体特征信息。
其中,a=1、2、3分别代表左手特征信息、右手特征信息和身体特征信息;b=1、2、3分别代表左手特征信息、右手特征信息和身体特征信息;
za表示经过注意力加权后子部分特征信息(即所述的第四身体特征信息);αab表示第b个子部分在计算第a个子部分向量时的归一化权重。
应注意的是,三段式多头注意力模块是计算同一帧图像中身体、左手、右手的自注意力权重和相互加权后的特征信息,由于左手、右手和身体特征相互关联时,没有时间先后关系,不需要保留其位置信息,所以在此模块中不需要加入相对位置编码,也没有绝对位置编码特征。
步骤202a3、基于所述残差和标准化模块,计算所述第三身体特征信息和所述第四身体特征信息对应的均值和标准差值,并基于该均值和标准差值对所述第三身体特征信息和所述第四身体特征信息进行处理。
步骤202a4、基于所述前反馈模块,将处理后的所述第三身体特征信息和所述第四身体特征信息中的所有特征信息进行融合,得到所述第二身体特征信息。
在一种可能的实施例中,所述步骤202a“采用所述第二权重和第三权重对所述第一手部特征信息进行处理,得到第二手部特征信息”的过程中,包括步骤202a5至步骤202a8:
步骤202a5、基于所述第二多头注意力模块,采用所述第三权重对所述第一手部特征信息进行处理,得到第三手部特征信息。
步骤202a6、基于所述三段式多头注意力模块,采用所述第二权重对所述第一手部特征信息进行处理,得到第四手部特征信息。
示例性地,基于三段式多头注意力模块对第一手部特征信息的处理过程,与所述步骤202a2中基于三段式多头注意力模块对第一身体特征信息的处理过程相同,此处不再赘述。
步骤202a7、基于所述残差和标准化模块,计算所述第三手部特征信息和所述第四手部特征信息对应的均值和标准差值,并基于该均值和标准差值对所述第三手部特征信息和所述第四手部特征信息进行处理。
步骤202a8、基于所述前反馈模块,将处理后的所述第三手部特征信息和所述第四手部特征信息中的所有特征信息进行融合,得到所述第二手部特征信息。
示例性地,首先,将第一身体特征信息和第一手部特征信息进行拼接得到第一人体特征信息,输入transformer模型,本申请实施例提供的transformer模型,如图2所示。输入后将每个手语姿态拆分为三部分子姿态(左手姿态,右手姿态,以及身体姿态,即所述第一左手特征信息(Left-hand)、第一右手特征信息(Right-hand)、第一身体特征信息(body)),接着在注意力模块(即所述第一多头注意力模块和所述第二多头注意力模块,也可以说是身体多头注意力模块(body-multi-head attention)和手部多头注意力模块(hand-multi-head attention))和残差和标准化模块(Add&Norm)中,对三部分子姿态先分别进行时间维度上的自注意力学习,然后在同一帧中进行三子姿态的相互注意力学习。接着,输入前反馈网络模块(Feed Forward),将这些特征信息进一步进行融合处理。最后对三个子向量单独进行残差和标准化处理。需要注意的是,我们将左手和右手采用同一个自注意模块,是因为左右手手势在手语中是对称的,将左手手势进行对称处理,就可以和右手手势进行统一处理,所以可以共用同一个多头注意力模块。
一般的,传统的transformer通过在每一帧特征中加入相对位置编码或者绝对位置编码来保证视频帧的先后关系。结合图2,如图3所示,身体多头注意力模块(body-multi-head attention)、手部多头注意力模块(hand-multi-head attention)两个模块(即所述第一多头注意力模块和所述第二多头注意力模块)采用相对位置编码,和传统的自注意力模块一致,模型结果不需要修改,分别采用第一权重和第三权重计算身体特征和左右手掌特征在时间维度上的自注意力权重及加权后的特征信息。接着,经过三段式多头注意力模块(three-segment-multi-head-attention)注意力模块采用第二权重计算同一图像帧中身体、左手、右手的自注意力权重和相互加权后的特征信息,最终得到在时间维度和空间维度相互关联的身体特征信息和手部特征信息,此时,身体特征信息和手部特征信息之间特征也相互融合。
如此,通过拆分传统的transformer,使得模型参数减少:假设模型共有L个transformer层,而每个子姿态的向量维度为dim,那么拆分前的注意力参数量为:L*3*(3*dim)2=27*L*dim2,而拆分后的注意力参数量为:L*3*2*(dim)2=6*L*dim2,以L在10左右,而dim在100维为例,大致可以减少200万参数,对于训练数据量较少的手语识别,减少参数量有利于减少模型过拟合。
步骤203、将第二身体特征信息和第二手部特征信息拼接,得到第二人体特征信息。
示例性地,将拆分后的第二身体特征信息和同一图像帧的第二手部特征信息进行拼接,得到完整的第二人体特征信息。
示例性地,将在翻译模块中采用第一权重和第二权重处理第一身体特征信息后得到的第二身体特征信息,和同一图像帧采用第二权重和第三权重处理第一手部特征信息后得到的第二手部特征信息,进行对应拼接,得到完整图像帧中的第二人体特征信息。
步骤204、对所述第二人体特征信息进行分类处理,输出目标用户手语语义信息。
可选地,在本申请实施例中,在所述步骤204“对所述第二人体特征信息进行分类处理,输出目标用户手语语义信息”的过程中,包括步骤204a和步骤204b:
步骤204a、将所述第二人体特征信息输入语义分析模型,获取与所述第二人体特征信息存在映射关系的语义分析信息,并基于该语义分析信息,得到目标预测参数。
示例性地,所述目标预测参数包括所述第二人体特征信息所体现的用户手语的语义属于不同预设语义的概率。
示例性的,所述预设语义为系统自带的预设语义库中的语义。
步骤204b、基于所述目标预测参数,得到目标用户手语语义信息。
示例性地,将拼接后的第二人体特征信息,输入语义分析模型,经过一个全连接层和一个RELU激活层,然后再经过一个全连接层,得到第二人体特征信息存在映射关系的语义分析信息,即输出n维向量。最后,将该n维向量经过一个softmax函数得到与第二人体特征信息对应的目标用户手语语义信息的预测参数,预测参数概率最大对应的类别即为手语视频对应的手语词类别。
此外,在训练语义分析模型时,可以将n维向量和标签y放入交叉熵损失函数进行学习。
在本申请实施例提供的手语识别方法中,获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;对该第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。如此,将目标用户的身体特征信息和手部特征信息输入本申请提供的翻译模型中,通过采用加权处理在时间维度上将当前帧身体特征信息与前后帧身体特征信息进行融合,相应地采用加权处理在时间维度上将当前帧手部特征信息与前后帧手部特征信息进行融合,同时,通过采用加权处理在空间维度上将身体特征信息和手部特征信息进行融合,使得电子设备不仅能够根据融合后的身体特征信息和手部特征信息更加充分学习目标用户手语语义信息,同时新的翻译模型中通过将传统的人体特征翻译模型,拆分为身体特征翻译模型和手部特征翻译模型,从而减少了模型间的参数量,有利于减少模型过拟合。
可选地,在本申请实施例中,在所述步骤201“获取第一图像帧中的目标用户的第一人体特征信息”之前,本申请实施例提供的手语识别方法还包括步骤301至步骤303:
步骤301、获取第一图像帧中的目标用户的人体关节的关节信息。
示例性地,所述人体关节包括身体关节和手部关节,其中,手部关节包括左手关节和右手关节。
示例性地,可以采用mediapipe工具包获取目标用户的人体关节的关节信息。
示例性地,所述关节信息可以包括目标用户的骨骼关节点对应的坐标信息构成的特征序列,也可以包括人体关节的关节位置。
举例说明,如图4所示,身体关节的关节点包括头、躯干和除手部以外的四肢部分(例如,头部节点0-10,躯干节点为11、12、23、24,四肢节点为13、14),手部关节的关节点包括左手和右手的关节点(例如左手关节点0-20,右手关节点0-20)。
步骤302、将目标用户的身体关节的关节信息进行拼接,得到第一身体关节信息,并将该第一身体关节信息输入固定序列长标准化模块进行特征提取,得到所述第一身体特征信息。
步骤303、基于目标用户人体关节的关节信息,得到第一手部关节信息,并将该第一手部关节信息输入所述固定序列长标准化模块进行特征提取,得到所述第一手部特征信息。
示例性地,在固定长度序列的情况下,能同时保留了关节点坐标在空间维度和时间维度上的相对大小关系。
示例性地,所述第一手部关节信息包括第一右手关节信息和第一左手关节信息。
一种示例中,以右手为例,假设右手有m个关节点,每个关节点的x、y坐标加上深度信息(即所述的第一右手关节信息),共2m+1维特征向量,将连续k帧的右手特征(k,2m+1)拼接成k*(2m+1)维的特征,然后统一采用第四公式进行标准化,将标准化后的特征还原为原来的(k,2m+1)形状。其中所述第四公式中的参数分别采用第五公式和第六公式求得。
如此,本申请所改进的标准化方式同时包含了批标准化(batch norm)和层标准化(layer norm)的优点,从而同时保留了关节点坐标在空间维度和时间维度上的相对大小关系,且服从正态分布。
可选地,在本申请实施例中,在所述步骤303“基于目标用户人体关节的关节信息,得到第一手部关节信息”的过程中,包括步骤303a至303c:
步骤303a、基于目标用户人体关节的关节信息,计算该目标用户的人体肩宽信息。
示例性地,所述人体肩宽信息可以包括目标用户人体的肩宽长度,目标用户人体肩宽的位置。
示例性地,采用第七公式,基于目标用户人体关节的关节信息,计算该目标用户的人体肩宽信息。
其中,Lcd代表人体肩宽长度,x、y代表人体肩膀两侧的坐标点。
步骤303b、基于所述人体肩宽信息以及目标用户的手部关节的关节信息,构建目标坐标系。
示例性地,所述目标坐标系是以目标用户的人体肩宽为边长、以目标用户的手部中心为中心的坐标系。
示例性地,目标用户的手部中心点坐标采用第八公式计算。
xi、yi为手部第m个手部关节的坐标。
一种示例中,以右手手部关节为例,如图5所示,以手部中心点51为中心,以肩宽Lcd为边长画正方形EFGH。由于手部中心点坐标以及肩宽都已经确定,因此可以根据公式以及计算出正方形的四个顶点的顶点坐标。此时,以正方形顶点E作为目标坐标系原点,以正方形顶点G作为目标坐标系(1,1)的坐标点建立目标坐标系。
步骤303c、将目标用户的手部关节的关节信息映射至所述目标坐标系,得到所述第一手部关节信息。
示例性地,将手部关节信息采用第九公式将目标用户的手部关节的关节信息映射到所述目标坐标系中,得到新的关节信息。
示例性地,所述第九公式为:χi=(xi-xe)/(xg-xe)、γi=(yi-ye)/(yg-ye)
其中,χi、γi为目标坐标系上手部关节的新坐标点。
进一步示例性地,将目标用户的手部关节的关节信息映射到所述目标坐标系后,采用第十公式计算得到第一手部关节信息。
其中,Aij为目标坐标系上手部关节的分散度。
需要说明的是,建立新的坐标系,是由于手部关节点的分散度不仅与手部距离身体的深度信息有关,还与打手语人距离摄像头的距离有关,所以为了得到准确的手部距离身体的深度信息,就需要剔除身体距离摄像头的影响。
如此,通过建立以人体肩宽作为基础的新坐标系的单位长的情况下,根据身体距离摄像头的距离,将手部关键点坐标进行缩放,就可以抵消这种影响,这样算出来的手部关键点分散度就可以代表手部深度信息。
以下将以具体地手语视频来对本申请提供的手语识别方法进行示例性说明。具体地,如图6所示,该方法可以包括以下步骤101至步骤106:
步骤101:提取手语视频中人物的骨骼关节点,获得该手语视频中用户的人体关节点的坐标(即所述人体关节的关节信息),基于身体关节点的坐标计算人体肩宽。
需要说明的是,本专利将人体的每一个手语姿态拆分为:身体姿态+左手姿态+右手姿态。这样做的好处是减少手语姿态数。假设身体、左手、右手分别存在100种不同姿态,如果不拆分,则可以组成100*100*100个手语姿态,这样提高了模型学习每个姿态的关联性和重要性的难度;相反,拆分后,总共300个姿态,模型更容易学习每个姿态间的关联性和重要性。
步骤102:计算手语视频中用户左右手深度信息(即所述的第一手部关节信息),并将深度信息拼接到左右手特征。
步骤103:将连续帧身体特征(即所述的第一身体关节信息)、左右手拼接后的特征分别进行fix-length norm标准化处理。
步骤104:将身体特征、左右手拼接后的特征经过标准化处理后(即所述第一人体特征信息),输入transformer模型,提取身体、左右手的时空注意力加权特征(即所述第二身体特征信息和所述第二手部特征信息)。
应注意的是,所述加权过程可以参照上文中的步骤202所示,此处不再赘述。
步骤105:将经过时空注意力加权后的身体、左右手特征进行拼接(即所述第二人体特征信息)。
此时的身体特征不仅加权融合了其他时间维度上的身体特征,也加权融合了当前帧中的左右手特征。左右手特征也是如此。
步骤106:将transformer编码特征放入分类器中进行分类,得到最终离散词手语语义信息。
如此,本申请通过提出了一种新型获取手部深度信息的方法,以及一种结合layernorm和batch norm优点的标准化方案的新的标准化方案,并提出了一种新的transformer的输入结构和注意力机制,使模型不仅能够充分学习手掌手势信息,还大幅减少了模型参数,有利于减少模型过拟合,同时提高了识别手语语义信息的准确率。
需要说明的是,本申请实施例提供的手语识别方法,执行主体可以为手语识别装置,或者电子设备,还可以为电子设备中的功能模块或实体。本申请实施例中以手语识别装置执行手语识别的方法为例,说明本申请实施例提供的手语识别的装置。
图7示出了本申请实施例中涉及的手语识别装置的一种可能的结构示意图。如图7所示,该手语识别装置700可以包括:获取模块701和处理模块702;其中,获取模块701,用于获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;处理模块702,用于将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;所述处理模块702,还用于将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;所述处理模块702,还用于对所述第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
可选地,在本申请实施例中,所述处理模块702,具体用于将所述第一人体特征信息输入翻译模型,采用第一权重和第二权重对所述第一身体特征信息进行处理,得到第二身体特征信息,并采用所述第二权重和第三权重对所述第一手部特征信息进行处理,得到第二手部特征信息;其中,第一权重用于表征所述第一图像帧之前的图像帧中的身体特征信息与所述第一身体特征信息间的关联性;第二权重用于表征所述第一身体特征信息和所述第一手部特征信息间的关联性;第三权重用于表征所述第一图像帧之前的图像帧中的手部特征信息与所述第一手部特征信息间的关联性。
可选地,在本申请实施例中,所述处理模块702,具体用于:基于第一多头注意力模块,采用所述第一权重对所述第一身体特征信息进行处理,得到第三身体特征信息;基于三段式多头注意力模块,采用所述第二权重对所述第一身体特征信息进行处理,得到第四身体特征信息;基于残差和标准化模块,计算所述第三身体特征信息和所述第四身体特征信息对应的均值和标准差值,并基于该均值和标准差值对所述第三身体特征信息和所述第四身体特征信息进行处理;基于前反馈模块,将处理后的所述第三身体特征信息和所述第四身体特征信息中的所有特征信息进行融合,得到所述第二身体特征信息。
可选地,在本申请实施例中,所述处理模块702,具体用于:基于第二多头注意力模块,采用所述第三权重对所述第一手部特征信息进行处理,得到第三手部特征信息;基于三段式多头注意力模块,采用所述第二权重对所述第一手部特征信息进行处理,得到第四手部特征信息;基于残差和标准化模块,计算所述第三手部特征信息和所述第四手部特征信息对应的均值和标准差值,并基于该均值和标准差值对所述第三手部特征信息和所述第四手部特征信息进行处理;基于前反馈模块,将处理后的所述第三手部特征信息和所述第四手部特征信息中的所有特征信息进行融合,得到所述第二手部特征信息。
可选地,在本申请实施例中,所述获取模块701,还用于获取第一图像帧中的目标用户的人体关节的关节信息,该人体关节包括身体关节和手部关节;所述处理模块702,还用于将目标用户的身体关节的关节信息进行拼接,得到第一身体关节信息,并将所述第一身体关节信息输入固定序列长标准化模块进行特征提取,得到所述第一身体特征信息;所述处理模块702,还用于基于所述人体关节的关节信息,得到第一手部关节信息,并将所述第一手部关节信息输入所述固定序列长标准化模块进行特征提取,得到所述第一手部特征信息。
可选地,在本申请实施例中,所述处理模块702,具体用于:基于所述人体关节的关节信息,计算所述目标用户的人体肩宽信息;基于该人体肩宽信息以及所述目标用户的手部关节的关节信息,构建目标坐标系,该目标坐标系是以目标用户的人体肩宽为边长、以目标用户的手部中心为中心的坐标系;将目标用户的手部关节的关节信息映射至所述目标坐标系,得到所述第一手部关节信息。
可选地,在本申请实施例中,所述处理模块702,具体用于:将所述第二人体特征信息输入语义分析模型,获取与所述第二人体特征信息存在映射关系的语义分析信息,并基于该语义分析信息,得到目标预测参数;所述目标预测参数包括所述第二人体特征信息所体现的用户手语的语义属于不同预设语义的概率;基于该目标预测参数,得到目标用户手语语义信息。
在本申请实施例提供的手语识别装置中,该装置获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;对该第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。如此,将目标用户的身体特征信息和手部特征信息输入本申请提供的翻译模型中,通过采用加权处理在时间维度上将当前帧身体特征信息与前后帧身体特征信息进行融合,相应地采用加权处理在时间维度上将当前帧手部特征信息与前后帧手部特征信息进行融合,同时,通过采用加权处理在空间维度上将身体特征信息和手部特征信息进行融合,使得电子设备不仅能够根据融合后的身体特征信息和手部特征信息更加充分学习目标用户手语语义信息,同时新的翻译模型中通过将传统的人体特征翻译模型,拆分为身体特征翻译模型和手部特征翻译模型,从而减少了模型间的参数量,有利于减少模型过拟合。
本申请实施例中的手语识别装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的手语识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的手语识别装置能够实现图7的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图8所示,本申请实施例还提供一种电子设备800,包括处理器801和存储器802,存储器802上存储有可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现所述手语识别方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括所述所述的移动电子设备和非移动电子设备。
图9为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器110,用于获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;该处理器110,还用于将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;所述处理器110,还用于将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;所述处理器110,还用于对所述第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
可选地,在本申请实施例中,所述处理器110,具体用于将所述第一人体特征信息输入翻译模型,采用第一权重和第二权重对所述第一身体特征信息进行处理,得到第二身体特征信息,并采用所述第二权重和第三权重对所述第一手部特征信息进行处理,得到第二手部特征信息;其中,第一权重用于表征所述第一图像帧之前的图像帧中的身体特征信息与所述第一身体特征信息间的关联性;第二权重用于表征所述第一身体特征信息和所述第一手部特征信息间的关联性;第三权重用于表征所述第一图像帧之前的图像帧中的手部特征信息与所述第一手部特征信息间的关联性。
可选地,在本申请实施例中,所述处理器110,具体用于:基于第一多头注意力模块,采用所述第一权重对所述第一身体特征信息进行处理,得到第三身体特征信息;基于三段式多头注意力模块,采用所述第二权重对所述第一身体特征信息进行处理,得到第四身体特征信息;基于残差和标准化模块,计算所述第三身体特征信息和所述第四身体特征信息对应的均值和标准差值,并基于该均值和标准差值对所述第三身体特征信息和所述第四身体特征信息进行处理;基于前反馈模块,将处理后的所述第三身体特征信息和所述第四身体特征信息中的所有特征信息进行融合,得到所述第二身体特征信息。
可选地,在本申请实施例中,所述处理器110,具体用于:基于第二多头注意力模块,采用所述第三权重对所述第一手部特征信息进行处理,得到第三手部特征信息;基于三段式多头注意力模块,采用所述第二权重对所述第一手部特征信息进行处理,得到第四手部特征信息;基于残差和标准化模块,计算所述第三手部特征信息和所述第四手部特征信息对应的均值和标准差值,并基于该均值和标准差值对所述第三手部特征信息和所述第四手部特征信息进行处理;基于前反馈模块,将处理后的所述第三手部特征信息和所述第四手部特征信息中的所有特征信息进行融合,得到所述第二手部特征信息。
可选地,在本申请实施例中,所述处理器110,还用于获取第一图像帧中的目标用户的人体关节的关节信息,该人体关节包括身体关节和手部关节;所述处理器110,还用于将目标用户的身体关节的关节信息进行拼接,得到第一身体关节信息,并将所述第一身体关节信息输入固定序列长标准化模块进行特征提取,得到所述第一身体特征信息;所述处理器110,还用于基于所述人体关节的关节信息,得到第一手部关节信息,并将所述第一手部关节信息输入所述固定序列长标准化模块进行特征提取,得到所述第一手部特征信息。
可选地,在本申请实施例中,所述处理器110,具体用于:基于所述人体关节的关节信息,计算所述目标用户的人体肩宽信息;基于该人体肩宽信息以及所述目标用户的手部关节的关节信息,构建目标坐标系,该目标坐标系是以目标用户的人体肩宽为边长、以目标用户的手部中心为中心的坐标系;将目标用户的手部关节的关节信息映射至所述目标坐标系,得到所述第一手部关节信息。
可选地,在本申请实施例中,所述处理器110,具体用于:将所述第二人体特征信息输入语义分析模型,获取与所述第二人体特征信息存在映射关系的语义分析信息,并基于该语义分析信息,得到目标预测参数;所述目标预测参数包括所述第二人体特征信息所体现的用户手语的语义属于不同预设语义的概率;基于该目标预测参数,得到目标用户手语语义信息。
在本申请实施例提供的电子设备中,电子设备获取第一图像帧中的目标用户的第一人体特征信息,该人体特征信息包括第一身体特征信息和第一手部特征信息;将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;对该第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。如此,将目标用户的身体特征信息和手部特征信息输入本申请提供的翻译模型中,通过采用加权处理在时间维度上将当前帧身体特征信息与前后帧身体特征信息进行融合,相应地采用加权处理在时间维度上将当前帧手部特征信息与前后帧手部特征信息进行融合,同时,通过采用加权处理在空间维度上将身体特征信息和手部特征信息进行融合,使得电子设备不仅能够根据融合后的身体特征信息和手部特征信息更加充分学习目标用户手语语义信息,同时新的翻译模型中通过将传统的人体特征翻译模型,拆分为身体特征翻译模型和手部特征翻译模型,从而减少了模型间的参数量,有利于减少模型过拟合。
应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,所述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现所述手语识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为所述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现所述手语识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如所述手语识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到所述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于所述的具体实施方式,所述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (16)
1.一种手语识别方法,其特征在于,所述方法包括:
获取第一图像帧中的目标用户的第一人体特征信息,所述人体特征信息包括第一身体特征信息和第一手部特征信息;
将所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;
将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;
对所述第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息,包括:
将所述第一人体特征信息输入翻译模型,采用第一权重和第二权重对所述第一身体特征信息进行处理,得到所述第二身体特征信息,并采用所述第二权重和第三权重对所述第一手部特征信息进行处理,得到所述第二手部特征信息;
其中,所述第一权重用于表征所述第一图像帧之前的图像帧中的身体特征信息与所述第一身体特征信息间的关联性;
所述第二权重用于表征所述第一身体特征信息和所述第一手部特征信息间的关联性;
所述第三权重用于表征所述第一图像帧之前的图像帧中的手部特征信息与所述第一手部特征信息间的关联性。
3.根据权利要求2所述的方法,其特征在于,所述翻译模型包括:第一多头注意力模块、三段式多头注意力模块残差和标准化模块以及前反馈模块;
所述采用第一权重和第二权重对所述第一身体特征信息进行处理,得到第二身体特征信息,包括:
基于所述第一多头注意力模块,采用所述第一权重对所述第一身体特征信息进行处理,得到第三身体特征信息;
基于所述三段式多头注意力模块,采用所述第二权重对所述第一身体特征信息进行处理,得到第四身体特征信息;
基于所述残差和标准化模块,计算所述第三身体特征信息和所述第四身体特征信息对应的均值和标准差值,并基于所述均值和标准差值对所述第三身体特征信息和所述第四身体特征信息进行处理;
基于所述前反馈模块,将处理后的所述第三身体特征信息和所述第四身体特征信息中的所有特征信息进行融合,得到所述第二身体特征信息。
4.根据权利要求2或3所述的方法,其特征在于,所述翻译模型包括:第二多头注意力模块、三段式多头注意力模块残差和标准化模块以及前反馈模块;
所述采用所述第二权重和第三权重对所述第一手部特征信息进行处理,得到第二手部特征信息,包括:
基于所述第二多头注意力模块,采用所述第三权重对所述第一手部特征信息进行处理,得到第三手部特征信息;
基于所述三段式多头注意力模块,采用所述第二权重对所述第一手部特征信息进行处理,得到第四手部特征信息;
基于所述残差和标准化模块,计算所述第三手部特征信息和所述第四手部特征信息对应的均值和标准差值,并基于所述均值和标准差值对所述第三手部特征信息和所述第四手部特征信息进行处理;
基于所述前反馈模块,将处理后的所述第三手部特征信息和所述第四手部特征信息中的所有特征信息进行融合,得到所述第二手部特征信息。
5.根据权利要求1所述的方法,其特征在于,所述获取第一图像帧中的目标用户的第一人体特征信息之前,所述方法还包括:
获取第一图像帧中的所述目标用户的人体关节的关节信息,所述人体关节包括身体关节和手部关节;
将所述目标用户的身体关节的关节信息进行拼接,得到第一身体关节信息,并将所述第一身体关节信息输入固定序列长标准化模块进行特征提取,得到所述第一身体特征信息;
基于所述人体关节的关节信息,得到第一手部关节信息,并将所述第一手部关节信息输入所述固定序列长标准化模块进行特征提取,得到所述第一手部特征信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述人体关节的关节信息,得到第一手部关节信息,包括:
基于所述人体关节的关节信息,计算所述目标用户的人体肩宽信息;
基于所述人体肩宽信息以及所述目标用户的手部关节的关节信息,构建目标坐标系,所述目标坐标系是以所述目标用户的人体肩宽为边长、以所述目标用户的手部中心为中心的坐标系;
将所述目标用户的手部关节的关节信息映射至所述目标坐标系,得到所述第一手部关节信息。
7.根据权利要求1所述的方法,其特征在于,所述对所述第二人体特征信息进行分类处理,输出所述目标用户手语语义信息,包括:
将所述第二人体特征信息输入语义分析模型,获取与所述第二人体特征信息存在映射关系的语义分析信息,并基于所述语义分析信息,得到目标预测参数;所述目标预测参数包括所述第二人体特征信息所体现的用户手语的语义属于不同预设语义的概率;
基于所述目标预测参数,得到所述目标用户手语语义信息。
8.一种手语识别装置,其特征在于,所述手语识别装置包括:获取模块和处理模块;
所述获取模块,用于获取第一图像帧中的目标用户的第一人体特征信息,所述人体特征信息包括第一身体特征信息和第一手部特征信息;
所述处理模块,用于将所述获取模块获取的所述第一人体特征信息输入翻译模型,分别对所述第一身体特征和所述第一手部特征信息进行加权处理,得到第二身体特征信息和第二手部特征信息;
所述处理模块,还用于将所述第二身体特征信息和所述第二手部特征信息拼接,得到第二人体特征信息;
所述处理模块,还用于对所述第二人体特征信息进行分类处理,输出所述目标用户手语语义信息。
9.根据权利要求8所述的装置,其特征在于,
所述处理模块,具体用于将所述第一人体特征信息输入翻译模型,采用第一权重和第二权重对所述第一身体特征信息进行处理,得到所述第二身体特征信息,并采用所述第二权重和第三权重对所述第一手部特征信息进行处理,得到所述第二手部特征信息;
其中,所述第一权重用于表征所述第一图像帧之前的图像帧中的身体特征信息与所述第一身体特征信息间的关联性;
所述第二权重用于表征所述第一身体特征信息和所述第一手部特征信息间的关联性;
所述第三权重用于表征所述第一图像帧之前的图像帧中的手部特征信息与所述第一手部特征信息间的关联性。
10.根据权利要求9所述的装置,其特征在于,
所述处理模块,具体用于:
基于所述第一多头注意力模块,采用所述第一权重对所述第一身体特征信息进行处理,得到第三身体特征信息;
基于所述三段式多头注意力模块,采用所述第二权重对所述第一身体特征信息进行处理,得到第四身体特征信息;
基于所述残差和标准化模块,计算所述第三身体特征信息和所述第四身体特征信息对应的均值和标准差值,并基于所述均值和标准差值对所述第三身体特征信息和所述第四身体特征信息进行处理;
基于所述前反馈模块,将处理后的所述第三身体特征信息和所述第四身体特征信息中的所有特征信息进行融合,得到所述第二身体特征信息。
11.根据权利要求9或10所述的装置,其特征在于,
所述处理模块,具体用于:
基于所述第二多头注意力模块,采用所述第三权重对所述第一手部特征信息进行处理,得到第三手部特征信息;
基于所述三段式多头注意力模块,采用所述第二权重对所述第一手部特征信息进行处理,得到第四手部特征信息;
基于所述残差和标准化模块,计算所述第三手部特征信息和所述第四手部特征信息对应的均值和标准差值,并基于所述均值和标准差值对所述第三手部特征信息和所述第四手部特征信息进行处理;
基于所述前反馈模块,将处理后的所述第三手部特征信息和所述第四手部特征信息中的所有特征信息进行融合,得到所述第二手部特征信息。
12.根据权利要求8所述的装置,其特征在于,
所述获取模块,还用于获取第一图像帧中的所述目标用户的人体关节的关节信息,所述人体关节包括身体关节和手部关节;
所述处理模块,还用于将所述获取模块获取的所述目标用户的身体关节的关节信息进行拼接,得到第一身体关节信息,并将所述第一身体关节信息输入固定序列长标准化模块进行特征提取,得到所述第一身体特征信息;
所述处理模块,还用于基于所述人体关节的关节信息,得到第一手部关节信息,并将所述第一手部关节信息输入所述固定序列长标准化模块进行特征提取,得到所述第一手部特征信息。
13.根据权利要求12所述的装置,其特征在于,
所述处理模块,具体用于:
基于所述人体关节的关节信息,计算所述目标用户的人体肩宽信息;
基于所述人体肩宽信息以及所述目标用户的手部关节的关节信息,构建目标坐标系,所述目标坐标系是以所述目标用户的人体肩宽为边长、以所述目标用户的手部中心为中心的坐标系;
将所述目标用户的手部关节的关节信息映射至所述目标坐标系,得到所述第一手部关节信息。
14.根据权利要求8所述的装置,其特征在于,
所述处理模块,具体用于:
将所述第二人体特征信息输入语义分析模型,获取与所述第二人体特征信息存在映射关系的语义分析信息,并基于所述语义分析信息,得到目标预测参数;所述目标预测参数包括所述第二人体特征信息所体现的用户手语的语义属于不同预设语义的概率;
基于所述目标预测参数,得到所述目标用户手语语义信息。
15.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的手语识别方法的步骤。
16.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的手语识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211281544.0A CN115546897A (zh) | 2022-10-19 | 2022-10-19 | 手语识别方法、装置、电子设备及可读存储介质 |
PCT/CN2023/125121 WO2024083138A1 (zh) | 2022-10-19 | 2023-10-18 | 手语识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211281544.0A CN115546897A (zh) | 2022-10-19 | 2022-10-19 | 手语识别方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546897A true CN115546897A (zh) | 2022-12-30 |
Family
ID=84734705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211281544.0A Pending CN115546897A (zh) | 2022-10-19 | 2022-10-19 | 手语识别方法、装置、电子设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115546897A (zh) |
WO (1) | WO2024083138A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024083138A1 (zh) * | 2022-10-19 | 2024-04-25 | 维沃移动通信有限公司 | 手语识别方法、装置、电子设备及可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091045B (zh) * | 2019-10-25 | 2022-08-23 | 重庆邮电大学 | 一种基于时空注意力机制的手语识别方法 |
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
CN113221663B (zh) * | 2021-04-16 | 2022-08-12 | 南京邮电大学 | 一种实时手语智能识别方法、装置及系统 |
CN113780059A (zh) * | 2021-07-24 | 2021-12-10 | 上海大学 | 一种基于多特征点的连续手语识别方法 |
CN114202801A (zh) * | 2021-11-19 | 2022-03-18 | 杭州电子科技大学 | 基于注意力引导空域图卷积简单循环单元的手势识别方法 |
CN115546897A (zh) * | 2022-10-19 | 2022-12-30 | 维沃移动通信有限公司 | 手语识别方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-10-19 CN CN202211281544.0A patent/CN115546897A/zh active Pending
-
2023
- 2023-10-18 WO PCT/CN2023/125121 patent/WO2024083138A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024083138A1 (zh) * | 2022-10-19 | 2024-04-25 | 维沃移动通信有限公司 | 手语识别方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024083138A1 (zh) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Human posture recognition based on multiple features and rule learning | |
Abdullahi et al. | American sign language words recognition using spatio-temporal prosodic and angle features: A sequential learning approach | |
CN112949622B (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
Liu et al. | RGB-D action recognition using multimodal correlative representation learning model | |
WO2024083138A1 (zh) | 手语识别方法、装置、电子设备及可读存储介质 | |
WO2023142651A1 (zh) | 动作生成方法及相关装置、电子设备、存储介质和程序 | |
Dang | Smart home management system with face recognition based on ArcFace model in deep convolutional neural network | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
de Carvalho et al. | Action recognition for educational proposals applying concepts of Social Assistive Robotics | |
Usman et al. | Skeleton-based motion prediction: A survey | |
Karthik et al. | Survey on Gestures Translation System for Hearing Impaired People in Emergency Situation using Deep Learning Approach | |
Tai et al. | HSFE network and fusion model based dynamic hand gesture recognition | |
Kwolek | GAN-based data augmentation for visual finger spelling recognition | |
Khan et al. | Real-Time American Sign Language Realization Using Transfer Learning With VGG Architecture | |
Lu et al. | Dynamic hand gesture recognition using HMM-BPNN model | |
Zhang et al. | Expression recognition algorithm based on CM-PFLD key point detection | |
CN117877125B (zh) | 动作识别及其模型训练方法、装置、电子设备、存储介质 | |
Abhirami et al. | Indian Sign Language Phrase Estimation Using PoseNet | |
CN117576248B (zh) | 基于姿态引导的图像生成方法和装置 | |
CN117576279B (zh) | 基于多模态数据的数字人驱动方法及系统 | |
Kavitha et al. | A Real-Time Hand-Gesture Recognition Using Deep Learning Techniques | |
Khanum et al. | Smart Presentation Control by Hand Gestures Using computer vision and Google’s Mediapipe | |
CN117115918A (zh) | 手语识别方法及装置、电子设备和可读存储介质 | |
CN117808934A (zh) | 一种数据处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |