CN116343342B - 手语识别方法、系统、装置、电子设备及可读存储介质 - Google Patents

手语识别方法、系统、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN116343342B
CN116343342B CN202310620853.4A CN202310620853A CN116343342B CN 116343342 B CN116343342 B CN 116343342B CN 202310620853 A CN202310620853 A CN 202310620853A CN 116343342 B CN116343342 B CN 116343342B
Authority
CN
China
Prior art keywords
sign language
neural network
network model
result
impulse neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310620853.4A
Other languages
English (en)
Other versions
CN116343342A (zh
Inventor
王斌强
董刚
曹其春
蒋东东
杨宏斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Mass Institute Of Information Technology
Original Assignee
Shandong Mass Institute Of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Mass Institute Of Information Technology filed Critical Shandong Mass Institute Of Information Technology
Priority to CN202310620853.4A priority Critical patent/CN116343342B/zh
Publication of CN116343342A publication Critical patent/CN116343342A/zh
Application granted granted Critical
Publication of CN116343342B publication Critical patent/CN116343342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种手语识别方法、系统、装置、电子设备及可读存储介质,涉及信息分类领域,旨在解决传统手语识别技术中所存在的识别过程功耗过大、无法进行产业化应用的问题,方法包括:获取关于手语动作的视频帧序列数据和脉冲事件流数据;利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果。

Description

手语识别方法、系统、装置、电子设备及可读存储介质
技术领域
本发明涉及信息分类技术领域,特别涉及一种手语识别方法、系统、装置、电子设备及计算机可读存储介质。
背景技术
手语在聋哑人的交流中扮演着重要角色,日常实际交流过程中,手语是一套连续的包含肢体语言在内的表达方式,抽象到技术层面,就是一种序列数据的分类任务。
随着机器学习和人工智能的发展,工业界和学术界提出了很多手语识别的方法。相关技术中,主要采用人工设计的特征,配合传统的机器学习方法可以在小数据集上取得不错的效果,但是泛化能力比较差。随着深度学习的兴起,基于深度学习的手语识别逐渐成为主流解决方案。但是,随着深度学习的模型越来越大,伴随而来的功耗也越来越高,而现有的电池技术的容量限制使得大部分手势识别方案只能停留在实验室,无法实现产业的直接应用。
因此,如何实现低功耗的手语识别,进而实现手语识别技术的产业化应用是本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的是提供一种手语识别方法,该手语识别方法可以实现低功耗的手语识别,进一步实现了手语识别的产业化应用;本发明的另一目的是提供一种手语识别装置、系统、电子设备及计算机可读存储介质,均具有上述有益效果。
第一方面,本发明提供了一种手语识别方法,包括:
获取关于手语动作的视频帧序列数据和脉冲事件流数据;
利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;
利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;
根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果。
可选地,所述第一脉冲神经网络模型的构建过程包括:
构建初始脉冲神经网络模型;
将第一初始模型参数固定至所述初始脉冲神经网络模型,获得第一初始脉冲神经网络模型;所述第一初始模型参数包括第一突触权重参数和第一神经元阈值参数;
获取第一手语数据集;所述第一手语数据集为视频帧序列数据样本集;
基于第一损失函数,利用所述第一手语数据集和代理梯度函数对所述第一初始脉冲神经网络模型中的第一初始模型参数进行更新,获得所述第一脉冲神经网络模型。
可选地,所述第二脉冲神经网络模型的构建过程包括:
将第二初始模型参数固定至所述初始脉冲神经网络模型,获得第二初始脉冲神经网络模型;所述第二初始模型参数包括第二突触权重参数和第二神经元阈值参数;
获取第二手语数据集;所述第一手语数据集为脉冲事件流数据样本集;
基于第二损失函数,利用所述第二手语数据集和代理梯度函数对所述第二初始脉冲神经网络模型中的第二初始模型参数进行更新,获得所述第二脉冲神经网络模型。
可选地,所述利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果,包括:
将所述视频帧序列数据输入至所述第一脉冲神经网络模型;
利用所述第一脉冲神经网络模型的卷积层对所述视频帧序列数据进行处理,获得第一卷积结果;
利用所述第一脉冲神经网络模型的归一化层对所述第一卷积结果进行处理,获得第一归一化结果;
利用所述第一脉冲神经网络模型的池化层对所述第一归一化结果进行处理,获得第一池化结果;
利用所述第一脉冲神经网络模型的全连接层对所述第一池化结果进行处理,获得第一全连接处理结果;
将所述第一全连接处理结果作为所述第一手语识别结果。
可选地,所述利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果,包括:
将所述脉冲事件流数据输入至所述第二脉冲神经网络模型;
利用所述第二脉冲神经网络模型的卷积层对所述脉冲事件流数据进行处理,获得第二卷积结果;
利用所述第二脉冲神经网络模型的归一化层对所述第二卷积结果进行处理,获得第二归一化结果;
利用所述第二脉冲神经网络模型的池化层对所述第二归一化结果进行处理,获得第二池化结果;
利用所述第二脉冲神经网络模型的全连接层对所述第二池化结果进行处理,获得第二全连接处理结果;
将所述第二全连接处理结果作为所述第二手语识别结果。
可选地,所述卷积层的卷积核大小大于预设阈值。
可选地,所述根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果,包括:
对所述第一手语识别结果和所述第二手语识别结果进行融合计算,获得融合结果;
对所述融合结果进行文字转换,获得手语识别文字;
将所述手语识别文字作为所述手语识别结果。
可选地,所述对所述第一手语识别结果和所述第二手语识别结果进行融合计算,获得融合结果,包括:
获取预设权重分配信息;
利用所述预设权重分配信息对所述第一手语识别结果和所述第二手语识别结果进行权重计算,获得所述融合结果。
可选地,所述将所述手语识别文字作为所述手语识别结果之后,还包括:
对所述手语识别文字进行语音转换,获得手语识别语音。
可选地,所述手语识别方法还包括:
将所述手语识别文字输出至可视化设备;
将所述手语识别语音输出至语音播放设备。
可选地,所述获取关于手语动作的视频帧序列数据和脉冲事件流数据,包括:
利用动态主动视觉传感器对执行所述手语动作的目标对象进行数据采集,获得所述视频帧序列数据和所述脉冲事件流数据。
可选地,所述获取关于手语动作的视频帧序列数据和脉冲事件流数据,包括:
利用动态视觉传感器对执行所述手语动作的目标对象进行数据采集,获得所述脉冲事件流数据;
利用摄像设备对执行所述手语动作的目标对象进行数据采集,获得所述视频帧序列数据。
可选地,所述获取关于手语动作的视频帧序列数据和脉冲事件流数据之后,还包括:
对所述视频帧序列数据和所述脉冲事件流数据进行时间对齐处理。
可选地,所述利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果之前,还包括:
确定当前工作模式;
若所述当前工作模式为省电模式,则屏蔽所述视频帧序列数据,并利用所述第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果,将所述第二手语识别结果作为所述手语识别结果;
若所述当前工作模式不为所述省电模式,则执行所述利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果的步骤。
第二方面,本发明还公开了一种手语识别系统,输入设备和处理设备;
所述输入设备,用于获取关于手语动作的视频帧序列数据和脉冲事件流数据。并发送至处理设备;
所述处理设备,用于利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果。
可选地,所述输入设备为动态主动视觉传感器。
可选地,所述手语识别系统还包括:
输出设备,用于对所述手语识别结果进行输出。
可选地,所述输出设备包括可视化设备和语音播放设备;
所述可视化设备,用于输出所述手语识别结果对应的手语识别文字;
所述语音播放设备,用于输出所述手语识别结果对应的手语识别语音。
第三方面,本发明还公开了一种手语识别装置,包括:
获取模块,用于获取关于手语动作的视频帧序列数据和脉冲事件流数据;
第一处理模块,用于利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;
第二处理模块,用于利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;
确定模块,用于根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果。
第四方面,本发明还公开了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的任一种手语识别方法的步骤。
第五方面,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的任一种手语识别方法的步骤。
本发明所提供的一种手语识别方法,包括:获取关于手语动作的视频帧序列数据和脉冲事件流数据;利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果。
应用本发明所提供的技术方案,实现了基于脉冲神经网络的手语识别方案,脉冲神经网络在神经元结构上区别于传统神经网络,其可以通过脉冲传递消息,清除了传统神经网络推理计算过程中耗能高的矩阵向量乘积操作,而采用累加计算、脉冲传递的方式来降低能耗;同时,针对被识别对象所执行的手语动作,采集了两种不同类型的手语数据,即视频帧序列数据和脉冲事件流数据,并针对两种不同的数据类型构建了各自对应的脉冲神经网络模型,即对应于视频帧序列数据的第一脉冲神经网络模型和对应于脉冲事件流数据的第二脉冲神经网络模型,用以实现相应类型数据的识别处理,最后将两种识别结果进行融合确定最终的手语识别结果,以有效保证手语识别结果的准确性。可见,基于本发明所提供的技术方案,可以在保证手语识别准确性的同时实现低功耗的手语识别,有助于实现手语识别技术的产业化应用。
本发明还公开了一种手语识别装置、系统、电子设备以及计算机可读存储介质,同样具有上述技术效果,本发明在此不再赘述。
附图说明
为了更清楚地说明现有技术和本发明实施例中的技术方案,下面将对现有技术和本发明实施例描述中需要使用的附图作简要的介绍。当然,下面有关本发明实施例的附图描述的仅仅是本发明中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本发明的保护范围。
图1为本发明所提供的一种手语识别方法的流程示意图;
图2为本发明所提供的一种手语识别系统的工作原理图;
图3为本发明所提供的一种单个脉冲神经元的工作流程图;
图4为本申请所提供的第一种基于卷积网络进行数据处理的输入输出示意图;
图5为本申请所提供的第二种基于卷积网络进行数据处理的输入输出示意图;
图6为本发明所提供的一种脉冲神经网络的结构示意图;
图7为本发明所提供的一种脉冲神经网络配置单元的功能示意图;
图8为本发明所提供的一种手语识别系统的硬件部署示意图;
图9为本发明所提供的一种手语识别装置的流程示意图;
图10为本发明所提供的一种电子设备的结构示意图。
具体实施方式
本发明的核心是提供一种手语识别方法,该手语识别方法可以实现低功耗的手语识别,进一步实现了手语识别的产业化应用;本发明的另一核心是提供一种手语识别系统、装置、电子设备及计算机可读存储介质,均具有上述有益效果。
为了对本发明实施例中的技术方案进行更加清楚、完整地描述,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种手语识别方法。
请参考图1,图1为本发明所提供的一种手语识别方法的流程示意图,该手语识别方法可以包括如下S101~S104。
S101:获取关于手语动作的视频帧序列数据和脉冲事件流数据。
本步骤旨在实现手语动作的数据采集,也就是对执行手语动作的目标对象(即被识别对象)进行数据采集,得到关于手语动作的视频帧序列数据和脉冲事件流数据。其中,视频帧序列数据即视频类型的数据,脉冲事件流数据即脉冲类型的数据,二者均可通过相应的采集设备进行数据采集得到,以便于基于视频帧序列数据和脉冲事件流数据两种数据类型实现手语识别。其中,脉冲事件流数据相较于视频帧序列数据具有更高的时间分别率,脉冲事件流数据可以有效补充视频帧序列数据在时间分别率上的不足。
S102:利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果。
本步骤旨在基于第一脉冲神经网络模型实现对视频帧序列数据的识别处理,得到视频帧序列数据的识别结果,即上述第一手语识别结果。具体而言,可以预先创建对应于视频帧序列数据的第一脉冲神经网络模型,在获得视频帧序列数据之后,即可直接将其输入至第一脉冲神经网络模型进行处理,模型的输出即为第一手语识别结果。
可以理解的是,视频帧序列数据的特点是对所有场景的空间位置的光照信息进行记录,信息记录的密度较高,这样在经过第一层脉冲神经元之后会快速激发,导致带来过多能耗,为了降低能耗,可以在第一脉冲神经网络模型中设置较高的脉冲发射阈值来控制脉冲的激发数量。
S103:利用第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果。
本步骤旨在基于第二脉冲神经网络模型实现对脉冲事件流数据的识别处理,得到脉冲事件流数据的识别结果,即上述第二手语识别结果。具体而言,可以预先创建对应于脉冲事件流数据的第二脉冲神经网络模型,在获得脉冲事件流数据之后,即可直接将其输入至第二脉冲神经网络模型进行处理,模型的输出即为第一手语识别结果。
可以理解的是,脉冲事件流数据的特点是仅仅记录场景中光照发生变化超过一定阈值的空间位置信息,信息记录的密度较低,这样在经过第一层脉冲神经元之后激发脉冲较慢,为了快速获得有效信息,可以在第二脉冲神经网络模型中设置较低的脉冲发射阈值。
S104:根据第一手语识别结果和第二手语识别结果确定手语识别结果。
本步骤旨在实现最终手语识别结果的确定。在基于第一脉冲神经网络模型获得第一手语识别结果和基于第二脉冲神经网络模型获得第二手语识别结果之后,即可对两类识别结果进行融合,从而确定最终的手语识别结果。
可见,本发明实施例所提供的手语识别方法,实现了基于脉冲神经网络的手语识别方案,脉冲神经网络在神经元结构上区别于传统神经网络,其可以通过脉冲传递消息,清除了传统神经网络推理计算过程中耗能高的矩阵向量乘积操作,而采用累加计算、脉冲传递的方式来降低能耗;同时,针对被识别对象所执行的手语动作,采集了两种不同类型的手语数据,即视频帧序列数据和脉冲事件流数据,并针对两种不同的数据类型构建了各自对应的脉冲神经网络模型,即对应于视频帧序列数据的第一脉冲神经网络模型和对应于脉冲事件流数据的第二脉冲神经网络模型,用以实现相应类型数据的识别处理,最后将两种识别结果进行融合确定最终的手语识别结果,以有效保证手语识别结果的准确性。可见,基于本发明所提供的技术方案,可以在保证手语识别准确性的同时实现低功耗的手语识别,有助于实现手语识别技术的产业化应用。
在上述实施例的基础上:
在本发明的一个实施例中,第一脉冲神经网络模型的构建过程可以包括如下步骤:
构建初始脉冲神经网络模型;
将第一初始模型参数固定至初始脉冲神经网络模型,获得第一初始脉冲神经网络模型;第一初始模型参数包括第一突触权重参数和第一神经元阈值参数;
获取第一手语数据集;第一手语数据集为视频帧序列数据样本集;
基于第一损失函数,利用第一手语数据集和代理梯度函数对第一初始脉冲神经网络模型中的第一初始模型参数进行更新,获得第一脉冲神经网络模型。
本发明实施例提供了一种构建第一脉冲神经网络模型的实现方法。首先,构建初始脉冲神经网络模型,即待训练的脉冲神经网络模型,并将用户预先配置的相关参数(即上述第一初始模型参数,包括第一突触权重参数和第一神经元阈值参数)固定至初始脉冲神经网络模型中,得到用于训练第一脉冲神经网络模型的第一初始脉冲神经网络模型,最后,利用训练样本,即上述第一手语数据集(由于第一脉冲神经网络模型用于处理视频帧序列数据,因此,第一手语数据集为视频帧序列数据样本集),对第一初始脉冲神经网络模型进行迭代训练,在迭代训练过程中,可以结合第一损失函数,利用代理梯度函数对模型中的第一初始模型参数进行迭代更新,直至获得基于更新后的模型参数的第一脉冲神经网络模型,实现第一脉冲神经网络模型的构建。
在本发明的一个实施例中,第二脉冲神经网络模型的构建过程可以包括如下步骤:
将第二初始模型参数固定至初始脉冲神经网络模型,获得第二初始脉冲神经网络模型;第二初始模型参数包括第二突触权重参数和第二神经元阈值参数;
获取第二手语数据集;第一手语数据集为脉冲事件流数据样本集;
基于第二损失函数,利用第二手语数据集和代理梯度函数对第二初始脉冲神经网络模型中的第二初始模型参数进行更新,获得第二脉冲神经网络模型。
本发明实施例提供了一种构建第二脉冲神经网络模型的实现方法。首先,在上述构建获得初始脉冲神经网络模型之后,可以先将用户预先配置的相关参数(即上述第二初始模型参数,包括第二突触权重参数和第二神经元阈值参数)固定至初始脉冲神经网络模型中,得到用于训练第二脉冲神经网络模型的第二初始脉冲神经网络模型,最后,利用训练样本,即上述第二手语数据集(由于第二脉冲神经网络模型用于处理脉冲事件流数据,因此,第二手语数据集为脉冲事件流数据样本集),对第二初始脉冲神经网络模型进行迭代训练,在迭代训练过程中,可以结合第二损失函数,利用代理梯度函数对模型中的第二初始模型参数进行迭代更新,直至获得基于更新后的模型参数的第二脉冲神经网络模型,实现第二脉冲神经网络模型的构建。
参照上述两实施例,基于网络拓扑结构的重复可用性,第一脉冲神经网络模型和第二脉冲神经网络模型采用了相同的拓扑结构。可以理解的是,使用相同的网络拓扑结构,可以通过硬件重复利用,在拓扑配置上可以直接减少,只需要将原本两个不同的训练参数进行存储,就可以进一步减少硬件的资源开销。
在本发明的一个实施例中,上述卷积层的卷积核大小大于预设阈值。需要说明的是,在脉冲神经网络模型中,较大的卷积核可以有效减少卷积网络后端的神经元数目,而神经元数目的减少则可以有效降低能耗。因此,无论是第一脉冲神经网络模型还是第二脉冲神经网络模型,其中的卷积层均可以使用卷积核大小超出预设阈值(可以根据实际情况设定为较大取值)的卷积核,在一种可能的实现方式中,卷积核大小可以为31×31,如后续图6所示。
在本发明的一个实施例中,上述利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果,可以包括如下步骤:
将视频帧序列数据输入至第一脉冲神经网络模型;
利用第一脉冲神经网络模型的卷积层对视频帧序列数据进行处理,获得第一卷积结果;
利用第一脉冲神经网络模型的归一化层对第一卷积结果进行处理,获得第一归一化结果;
利用第一脉冲神经网络模型的池化层对第一归一化结果进行处理,获得第一池化结果;
利用第一脉冲神经网络模型的全连接层对第一池化结果进行处理,获得第一全连接处理结果;
将第一全连接处理结果作为第一手语识别结果。
本发明实施例提供了一种基于第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果的实现方法。具体而言,第一脉冲神经网络可以包括输入层、卷积层、归一化层、池化层、全连接层以及输出层,并且各层网络按照上述顺序进行连接,由此,即可通过输入层将视频帧序列数据输入至第一脉冲神经网络模型,经由其中的各网络层进行前向传播处理,直至通过输出层输出全连接层的输出结果,即上述第一全连接处理结果,并将其作为第一手语识别结果,实现视频帧序列数据的识别处理。
在本发明的一个实施例中,上述利用第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果,可以包括如下步骤:
将脉冲事件流数据输入至第二脉冲神经网络模型;
利用第二脉冲神经网络模型的卷积层对脉冲事件流数据进行处理,获得第二卷积结果;
利用第二脉冲神经网络模型的归一化层对第二卷积结果进行处理,获得第二归一化结果;
利用第二脉冲神经网络模型的池化层对第二归一化结果进行处理,获得第二池化结果;
利用第二脉冲神经网络模型的全连接层对第二池化结果进行处理,获得第二全连接处理结果;
将第二全连接处理结果作为第二手语识别结果。
本发明实施例提供了一种基于第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果的实现方法。具体而言,第二脉冲神经网络可以包括输入层、卷积层、归一化层、池化层、全连接层以及输出层,并且各层网络按照上述顺序进行连接,由此,即可通过输入层将脉冲事件流数据输入至第二脉冲神经网络模型,经由其中的各网络层进行前向传播处理,直至通过输出层输出全连接层的输出结果,即上述第二全连接处理结果,并将其作为第二手语识别结果,实现脉冲事件流数据的识别处理。
在本发明的一个实施例中,上述根据第一手语识别结果和第二手语识别结果确定手语识别结果,可以包括如下步骤:
对第一手语识别结果和第二手语识别结果进行融合计算,获得融合结果;
对融合结果进行文字转换,获得手语识别文字;
将手语识别文字作为手语识别结果。
本发明实施例提供了一种基于第一手语识别结果和第二手语识别结果确定最终手语识别结果的实现方法。在实现过程中,在分别获得第一手语识别结果和第二手语识别结果之后,即可对二者进行融合计算,包括但不限于均值计算、权重计算等,得到二者的融合结果;进一步,由于第一手语识别结果和第二手语识别结果均是对应脉冲神经网络模型的输出结果,其本质上仅为机器可识别的字符,因此,二者的融合结果也必然只是机器可识别的字符,有基于此,可以对融合结果进行文字转换,获得人类用户可理解的文字信息,即上述手语识别文字,并将该手语识别文字作为手语识别结果。
在本发明的一个实施例中,上述对第一手语识别结果和第二手语识别结果进行融合计算,获得融合结果,可以包括如下步骤:
获取预设权重分配信息;
利用预设权重分配信息对第一手语识别结果和第二手语识别结果进行权重计算,获得融合结果。
本发明实施例提供了一种对第一手语识别结果和第二手语识别结果进行融合计算的实现方法,即权重计算法。具体而言,可以预先配置权重分配信息,分别对应于第一手语识别结果和第二手语识别结果,并预存于相应的存储空间,当然,分配权重的具体取值由技术人员根据实际情况进行设定即可,本发明对此不做限定。由此,即可直接从存储空间中调取预设权重分配信息,并基于该预设权重分配信息对第一手语识别结果和第二手语识别结果进行权重计算,得到最终的融合结果。
其中,关于第一手语识别结果和第二手语识别结果的融合计算可以基于特征融合结构实现。具体而言,第一手语识别结果为第一脉冲神经网络模型的输出向量(假设为第一输出向量),第二手语识别结果为第二脉冲神经网络模型的输出向量(假设为第二输出向量),在此基础上,先将第一输出向量和第二输出向量拼接到一起得到拼接向量,然后将该拼接向量输入至特征融合结构进行处理得到融合向量,进一步,利用softmax函数对该融合向量进行处理后所得到的的最大数值对应的手语类别即输出类别,也即得到最终的手语识别结果。其中,特征融合结构可以包括两个全连接层,第一个全连接层设置维度可以为498,即特征融合结构的输入向量(即上述拼接向量)的向量维度为249,第二个全连接层设置维度可以为249,即特征融合结构的输出向量(即上述融合向量)的向量维度为249,两个全连接层之间通过ReLU激活函数进行连接。
在本发明的一个实施例中,上述将手语识别文字作为手语识别结果之后,还可以包括:对手语识别文字进行语音转换,获得手语识别语音。
本发明实施例所提供的手语识别方法还可以进一步实现语音转换功能,即将手语识别文字转换为手语识别语音,以便于通过不同的方式对手语识别结果进行输出,进而实现手语识别结果的多模态输出。其中,语音转换过程可以采用相应的语音转换算法实现,如TTS(text-to-speech,文本转语音)算法等。
在本发明的一个实施例中,该手语识别方法还可以包括如下步骤:
将手语识别文字输出至可视化设备;
将手语识别语音输出至语音播放设备。
本发明实施例所提供的手语识别方法还可以进一步实现手语识别结果的多模态输出,即将手语识别文字输出至可视化设备,将手语识别语音输出至语音播放设备。由此,基于双模态的输出设定,通过可视化设备对手语识别文字进行显示以供交流者通过眼睛阅读,通过语音播放设备对手语识别语音进行播放以供交流者通过耳朵倾听,有效地增强了手语交流系统展示的多样性和交流过程中信息的准确性。
在本发明的一个实施例中,上述获取关于手语动作的视频帧序列数据和脉冲事件流数据,可以包括:利用动态主动视觉传感器对执行手语动作的目标对象进行数据采集,获得视频帧序列数据和脉冲事件流数据。
本发明实施例提供了一种获取视频帧序列数据和脉冲事件流数据的实现方法,即基于动态主动视觉传感器(DAVIS,Dynamic and Active Vision Sensor)实现数据采集。可以理解的是,DAVIS设备相较于普通的拍照/摄像设备,可以实现视频帧序列数据和脉冲事件流数据的同时获取,进而可以保证二者的时间同步。其中,执行手语动作的目标对象即需要进行手语识别的对象。
在本发明的一个实施例中,上述获取关于手语动作的视频帧序列数据和脉冲事件流数据,可以包括如下步骤:
利用动态视觉传感器对执行手语动作的目标对象进行数据采集,获得脉冲事件流数据;
利用摄像设备对执行手语动作的目标对象进行数据采集,获得视频帧序列数据。
本发明实施例提供了一种获取视频帧序列数据和脉冲事件流数据的实现方法,即可以采用动态视觉传感器(DVS,Dynamic Vision Sensor)和摄像设备相结合的方式实现数据采集,其中,DVS设备用于采集脉冲事件流数据,摄像设备用于采集视频帧序列数据。其中,执行手语动作的目标对象即需要进行手语识别的对象。
在本发明的一个实施例中,上述获取关于手语动作的视频帧序列数据和脉冲事件流数据之后,还可以包括:对视频帧序列数据和脉冲事件流数据进行时间对齐处理。
在本发明实施例中,考虑到采用两种不同的设备进行不同类型数据采集时所存在的时间不同步的问题,在分别利用DVS设备采集获得脉冲事件流数据、利用摄像设备采集获得视频帧序列数据之后,还可以对二者进行时间对齐处理,然后再分别输入至各自对应的脉冲神经网络模型进行后续处理,以有效保证视频帧序列数据和脉冲事件流数据的时间同步,进而保证手语识别结果的准确性。
在本发明的一个实施例中,上述利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果之前,还可以包括如下步骤:
确定当前工作模式;
若当前工作模式为省电模式,则屏蔽视频帧序列数据,并利用第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果,将第二手语识别结果作为手语识别结果;
若当前工作模式不为省电模式,则执行利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果的步骤。
本发明实施例所提供的手语识别方法还可以实现不同工作模式下的手语识别,以适用于不同用户的不同使用需求。其中,工作模式包括省电模式和非省电模式,在省电模式下,在获取到视频帧序列数据和脉冲事件流数据之后,可以直接拦截视频帧序列数据,仅调取第二脉冲神经网络进行脉冲事件流数据的识别处理,并直接将第二手语识别结果作为最终的手语识别结果,也就是对视频帧序列数据进行任何处理;在非省电模式下,在获取到视频帧序列数据和脉冲事件流数据之后,则可以基于上述S102和S103分别对视频帧序列数据和脉冲事件流数据进行处理,最后将第一手语识别结果和第二手语识别结果的融合结果作为最终的手语识别结果。
在上述各实施例的基础上,本发明实施例提供了另一种手语识别方法。
首先,请参考图2,图2为本发明所提供的一种手语识别系统的工作原理图。首先,在手语表达场景下,利用DAVIS相机进行数据采集,DAVIS相机的输出包括两部分:RGB视频帧序列数据和脉冲事件流数据;进一步,分别设计两种脉冲神经网络(图2所示脉冲神经网络1即第一脉冲神经网络模型,图2所示脉冲神经网络2即第二脉冲神经网络模型)来处理RGB视频帧序列数据和脉冲事件流数据,两种网络的输出最终共同判定手语种类。最后,在确定了手语种类之后,可以通过查表的方法获得最终的手语文本,并通过语音转换算法将其转换成语音,从而完成日常交流。在交流过程中,可以通过可视化设备对手语文本进行展示,通过语音播放设备对手语语音进行播放,实现手语识别结果的多模态展示,以增强手语交流的有效性。其中,语音转换算法具体可以为TTS算法,在使用过程中,可以使用录音对应的方式直接查表,也可以使用现有的免费公开的接口,这取决于统是离线可用的还是在线联网可用的。
一、脉冲神经网络:
1、脉冲神经网络原理:
在脉冲神经网络中,网络推理计算的数量和脉冲神经网络的整体的脉冲发放频率有关,这是由脉冲神经元的信息传播机理决定的:脉冲神经元需要维持一个叫做膜电压阈值的中间变量,每次有脉冲输入到当前神经元,该神经元的膜电压就会增加对应的突触权重的数值,这也就是累加运算的由来。请参考图3,图3为本发明所提供的一种单个脉冲神经元的工作流程图,当神经元膜电压的数值到达设定阈值时,当前神经元就会发送一个脉冲到相连的后续神经元,从而将信息传递下去。由此可见,能量的消耗主要在膜电压的累加操作上,为了降低能耗,就要降低脉冲发放的数量,其中一个重要的参数,就是决定脉冲发放数目的电压阈值。电压阈值越低,相对而言,脉冲发放数目就越多,相反,电压阈值越高,脉冲发放数目就越少,相对而言耗能也就小。
那么,根据图2所示工作原理可知,脉冲神经网络的输入形式可以是脉冲事件流数据,也可以是视频帧序列数据。其中,视频帧序列数据的数据特点是数据密集,每个空间点上在每个采样时刻都有数据;而脉冲事件流数据的数据特点是稀疏,某一时刻,并不是所有空间上都有事件发生。为此,可以设计两种脉冲神经网络:脉冲神经网络1和脉冲神经网络2。其中,脉冲神经网络1的特点是神经元膜电压阈值高,这一点和对应的输入视频帧序列数据匹配,因为每个空间点都有数据输入,相对容易通过累积达到一个大的数值,所以可以将脉冲发射阈值的初始值设置相对高一点;脉冲神经网络2的特点是神经元膜电压阈值低,这和脉冲事件流数据的特性匹配,数据的稀疏性使得大部分的时间空间点上的数值都是空的,对应的神经元膜电压累积相对较小,为此可以将脉冲发射阈值的初始值设置相对低一点。需要说明的是,以上的高低是相对而言的设定,具体数值高低需要根据实际应用进行调节。
2、脉冲神经网络构建:
针对脉冲神经网络1和脉冲神经网络2,由于二者输入数据格式的不同,会导致两种脉冲神经网络计算方式的差异。一般情况下,脉冲神经网络的输入和层间,神经元间的信息传递方式都是脉冲形式,这样的方式也就是为什么脉冲神经元能耗低的主要原因。但是,在本方案中,由于脉冲神经网络1的输入是传统的RGB视频帧序列数据,所以脉冲神经网络1的第一层网络之间的数据传递还是浮点型数据,也就是这里存在着一层浮点型的乘法运算,在经过第一层的运算之后,后面的输入只有脉冲时间,不存在浮点型的乘法运算,只有能耗更小的累加运算,此外脉冲神经网络1和脉冲神经网络2在第一层神经元计算方式上的区别。
在脉冲神经网络中,脉冲神经元的数目是一个重要研究指标。其他条件相同的情况下,神经元数目越少,能耗也就越低。脉冲神经元指的是网络构建当中的所有层的输出中包含数值的数量。对于全连接网络来说,神经元的数目就是输出向量的维度;对于卷积结构来说,神经元的数目指的是输出的特征图中所有元素的数目。
因此,在本方案的脉冲神经网络的设计过程中,脉冲神经元数目的多少为主要考虑因素。可以理解的是,脉冲神经元的编码能力要比传统的神经网络的神经元的编码能力更强,也就是说,在达到相同应用精度需求的前提下,需要的脉冲神经网络中神经元的数目要比传统神经网络中神经元的数目要少。在此基础上,请参考图4和图5,图4为本申请所提供的第一种基于卷积网络进行数据处理的输入输出示意图,图5为本申请所提供的第二种基于卷积网络进行数据处理的输入输出示意图,对比可见,使用较大卷积核可以有效减少卷积网络输出端中神经元的数目,因此,在本发明中可以使用较大的卷积核进行卷积计算。
请参考图6,图6为本发明所提供的一种脉冲神经网络的结构示意图,该脉冲神经网络包括输入层、卷积层(采用较大卷积核31×31)、归一化层、池化层、全连接层、输出层。以脉冲事件流数据为例:首先,DAVIS相机输出的脉冲事件流数据的空间范围大小为346×260,通道数为2,为减少整体脉冲神经元的数目,这里对通道数不做扩展,在卷积过程中使用相同的通道数目。进一步,假设卷积层使用的卷积核大小为31×31,考虑短边260,单次卷积减小特征图大小为30,在这种设置下最大的卷积次数可计算得出为8,此时输出的特征图大小为106×20,随后通过池化结构将神经元数目进一步缩小为106。最后,通过全连接的网络结构输出到对应的手语类别数目中,此处数目可以参照数据集ConGD(ContinuousGesture Datasets,一种大规模的连续手势识别数据集)的类别设置,为249。其中:
(1)为提高模型推理精度,在卷积层的后面加入了二维的归一化层;
(2)为模仿大脑中神经元的集体决策,可以对池化操作进行抽象和放大,传统卷积神经网络中的池化步长一般都是2或4,本方案则直接使用40个神经元进行集体决策,通过平均40个神经元输出的脉冲神经元输出来综合前面的层输出数据的信息;
(3)通过全连接层的建模方式得到输出,如此,最后一层突触权重处理的输入就是浮点型数据,最终得到映射的手语识别结果。
由此,可以基于图6所示脉冲神经网络得到脉冲神经网络1和脉冲神经网络2,二者的区别主要在于网络输入和神经元的电压阈值,脉冲神经网络1中输入数据的通道数为3;脉冲神经网络2中输入数据的通道数为2。考虑到脉冲事件流数据的稀疏性和视频帧序列数据的稠密性,脉冲神经网络1中的神经元膜电压设置为初始值1;脉冲神经网络1中的神经元膜电压设置为初始值0.8。
此外,由于脉冲神经网络信息传递的方式是不可导的脉冲,因此,在监督梯度信号反向传播的过程中需要使用代理梯度的方式,也就是说,在前向传播时进行脉冲判断是否发放,在梯度反向传播时使用可导的曲线来代替原来的脉冲。例如,为了可导,可以寻找一个形状近似的sigmoid函数,以通过求导进行梯度的反向传播。
3、手语识别系统的软件实现:
为了更流程化地说明整个手语识别系统的构建和使用过程,这里分为两部分,步骤化地阐明手语识别系统的构建过程和使用过程。
3.1、手语识别系统的构建过程:
(1)按照图2搭建基于DAVIS和脉冲神经网络的手语识别系统,其中的脉冲神经网络权重由步骤后续(2)-(5)确定;
(2)使用DAVIS数据采集设备采集手语数据集,并对数据进行标定筛选;
(3)按照图6所示的脉冲神经网络结构进行脉冲神经网络的神经元拓扑结构连接,两个脉冲神经网络的输出在全连接层直接进行相加以做数据融合,最终获得一个输出,并对脉冲神经元的突触权重和神经元阈值参数进行初始设置;
(4)在参数初始化中,脉冲神经网络1和脉冲神经网络2的不同之处在于:参照视频帧序列数据和脉冲事件流数据的特点,突触权重初始值可以从均值为0、方差为1的高斯分布中获得,不同的是,脉冲神经网络1的权重截断设置为[-0.5,0.5],脉冲神经网络2的权重截断设置为[-2,2];对于脉冲发射阈值,脉冲神经网络1的初始阈值设置为1,脉冲神经网络2的初始阈值设置为0.8;
(5)利用监督学习技术,使用均方误差加上脉冲发放次数最少的正则化约束作为损失函数,借助代理梯度函数进行脉冲神经网络中各项参数的更新,直至得到用于进行采集数据处理的脉冲神经网络1和脉冲神经网络2。
3.2、手语识别系统的使用过程:
(1)按照图2搭建基于DAVIS和脉冲神经网络的手语识别系统,将构建过程中确定的脉冲神经元突触参数和阈值参数固定到对应的网络结构中;
(2)针对手语场景,使用DAVIS设备采集对应的数据;
(3)分别使用两种不同的数据经过两个脉冲神经网络综合获得一个输出;
(4)对类别的输出进行文字输出,同时转换得到对应语音,组合语音输出,通过音频播放设备呈现。
4、手语识别系统的硬件部署:
4.1、关于脉冲神经网络1和脉冲神经网络2:
在硬件部署上,由于脉冲神经网络1和脉冲神经网络2的拓扑结构相同,在神经元连接上可以重用,因此,只需要将两份不同的权重分别进行加载即可。当然,也可以通过设置配置单元,根据实际需要只使用脉冲神经网络2。例如,请参考图7,图7为本发明所提供的一种脉冲神经网络配置单元的功能示意图,其中,计算资源是指脉冲神经网络前向推理所需要的计算资源,并且计算资源按照网络拓扑结构排布;存储资源1用于存储脉冲神经网络1的相关参数,存储资源2用于存储脉冲神经网络2的相关参数。由此,在一般模式下,通过重复利用计算资源,可以获得两种不同结构的输出结果给到后续的操作过程;在省电模式下,通过配置单元,可以跳过存储资源1的数据加载计算,直接使用存储资源2得到系统输出。
4.2、关于整个手语识别系统:
请参考图8,图8为本发明所提供的一种手语识别系统的硬件部署示意图,为了使用该系统,可以从硬件上构建数据输入设备、数据处理设备和数据输出设备,而针对上述系统构建过程,可以另设数据训练设备,也可以直接使用数据处理设备实现系统构建。进一步,基于该手语识别系统,其手语识别方法的实现流程可以包括:
(1)使用DAVIS设备进行数据采集,相关的输出格式可以为.aedat4,可以通过接口获取对应的脉冲事件流数据和视频帧序列数据;
(2)将视频帧序列数据输入到脉冲神经网络1进行前向传播得到输出1;
(3)将脉冲事件流数据输入到脉冲神经网络2进行前向传播得到输出2;
(4)对输出1和输出2进行融合得到综合输出,从而确定手语类别,进而确定手语文本;
(5)使用TTS算法从手语文本获得语音输出;
(6)将语音输出和文本内容同时发送至输出设备上。
可见,本发明实施例所提供的手语识别方法,实现了基于脉冲神经网络的手语识别方案,脉冲神经网络在神经元结构上区别于传统神经网络,其可以通过脉冲传递消息,清除了传统神经网络推理计算过程中耗能高的矩阵向量乘积操作,而采用累加计算、脉冲传递的方式来降低能耗;同时,针对被识别对象所执行的手语动作,采集了两种不同类型的手语数据,即视频帧序列数据和脉冲事件流数据,并针对两种不同的数据类型构建了各自对应的脉冲神经网络模型,即对应于视频帧序列数据的第一脉冲神经网络模型和对应于脉冲事件流数据的第二脉冲神经网络模型,用以实现相应类型数据的识别处理,最后将两种识别结果进行融合确定最终的手语识别结果,以有效保证手语识别结果的准确性。可见,基于本发明所提供的技术方案,可以在保证手语识别准确性的同时实现低功耗的手语识别,有助于实现手语识别技术的产业化应用。
本发明实施例提供了一种手语识别系统。
本发明实施例所提供的手语识别系统可以包括输入设备和处理设备;
输入设备,用于获取关于手语动作的视频帧序列数据和脉冲事件流数据,并发送至处理设备;
处理设备,用于利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果;利用第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果;根据第一手语识别结果和第二手语识别结果确定手语识别结果。
可见,本发明实施例所提供的手语识别系统,实现了基于脉冲神经网络的手语识别方案,脉冲神经网络在神经元结构上区别于传统神经网络,其可以通过脉冲传递消息,清除了传统神经网络推理计算过程中耗能高的矩阵向量乘积操作,而采用累加计算、脉冲传递的方式来降低能耗;同时,针对被识别对象所执行的手语动作,采集了两种不同类型的手语数据,即视频帧序列数据和脉冲事件流数据,并针对两种不同的数据类型构建了各自对应的脉冲神经网络模型,即对应于视频帧序列数据的第一脉冲神经网络模型和对应于脉冲事件流数据的第二脉冲神经网络模型,用以实现相应类型数据的识别处理,最后将两种识别结果进行融合确定最终的手语识别结果,以有效保证手语识别结果的准确性。可见,基于本发明所提供的技术方案,可以在保证手语识别准确性的同时实现低功耗的手语识别,有助于实现手语识别技术的产业化应用。
在本发明的一个实施例中,上述输入设备可以为动态主动视觉传感器。
在本发明的一个实施例中,该手语识别系统还可以包括:
输出设备,用于对手语识别结果进行输出。
在本发明的一个实施例中,上述输出设备包括可以可视化设备和语音播放设备;
可视化设备,用于输出手语识别结果对应的手语识别文字;
语音播放设备,用于输出手语识别结果对应的手语识别语音。
对于本发明实施例提供的系统的介绍请参照上述方法实施例,本发明在此不做赘述。
本发明实施例提供了一种手语识别装置。
请参考图9,图9为本发明所提供的一种手语识别装置的结构示意图,该手语识别装置可以包括:
获取模块1,用于获取关于手语动作的视频帧序列数据和脉冲事件流数据;
第一处理模块2,用于利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果;
第二处理模块3,用于利用第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果;
确定模块4,用于根据第一手语识别结果和第二手语识别结果确定手语识别结果。
可见,本发明实施例所提供的手语识别装置,实现了基于脉冲神经网络的手语识别方案,脉冲神经网络在神经元结构上区别于传统神经网络,其可以通过脉冲传递消息,清除了传统神经网络推理计算过程中耗能高的矩阵向量乘积操作,而采用累加计算、脉冲传递的方式来降低能耗;同时,针对被识别对象所执行的手语动作,采集了两种不同类型的手语数据,即视频帧序列数据和脉冲事件流数据,并针对两种不同的数据类型构建了各自对应的脉冲神经网络模型,即对应于视频帧序列数据的第一脉冲神经网络模型和对应于脉冲事件流数据的第二脉冲神经网络模型,用以实现相应类型数据的识别处理,最后将两种识别结果进行融合确定最终的手语识别结果,以有效保证手语识别结果的准确性。可见,基于本发明所提供的技术方案,可以在保证手语识别准确性的同时实现低功耗的手语识别,有助于实现手语识别技术的产业化应用。
在本发明的一个实施例中,该手语识别装置还可以包括:
第一模型构建模块,用于构建初始脉冲神经网络模型;将第一初始模型参数固定至初始脉冲神经网络模型,获得第一初始脉冲神经网络模型;第一初始模型参数包括第一突触权重参数和第一神经元阈值参数;获取第一手语数据集;第一手语数据集为视频帧序列数据样本集;基于第一损失函数,利用第一手语数据集和代理梯度函数对第一初始脉冲神经网络模型中的第一初始模型参数进行更新,获得第一脉冲神经网络模型。
在本发明的一个实施例中,该手语识别装置还可以包括:
第二模型构建模块,用于将第二初始模型参数固定至初始脉冲神经网络模型,获得第二初始脉冲神经网络模型;第二初始模型参数包括第二突触权重参数和第二神经元阈值参数;获取第二手语数据集;第一手语数据集为脉冲事件流数据样本集;基于第二损失函数,利用第二手语数据集和代理梯度函数对第二初始脉冲神经网络模型中的第二初始模型参数进行更新,获得第二脉冲神经网络模型。
在本发明的一个实施例中,上述第一处理模块2可具体用于将视频帧序列数据输入至第一脉冲神经网络模型;利用第一脉冲神经网络模型的卷积层对视频帧序列数据进行处理,获得第一卷积结果;利用第一脉冲神经网络模型的归一化层对第一卷积结果进行处理,获得第一归一化结果;利用第一脉冲神经网络模型的池化层对第一归一化结果进行处理,获得第一池化结果;利用第一脉冲神经网络模型的全连接层对第一池化结果进行处理,获得第一全连接处理结果;将第一全连接处理结果作为第一手语识别结果。
在本发明的一个实施例中,上述第二处理模块3可具体用于将脉冲事件流数据输入至第二脉冲神经网络模型;利用第二脉冲神经网络模型的卷积层对脉冲事件流数据进行处理,获得第二卷积结果;利用第二脉冲神经网络模型的归一化层对第二卷积结果进行处理,获得第二归一化结果;利用第二脉冲神经网络模型的池化层对第二归一化结果进行处理,获得第二池化结果;利用第二脉冲神经网络模型的全连接层对第二池化结果进行处理,获得第二全连接处理结果;将第二全连接处理结果作为第二手语识别结果。
在本发明的一个实施例中,上述卷积层的卷积核大小大于预设阈值。
在本发明的一个实施例中,上述确定模块4可包括:
融合单元,用于对第一手语识别结果和第二手语识别结果进行融合计算,获得融合结果;
转换单元,用于对融合结果进行文字转换,获得手语识别文字;
确定单元,用于将手语识别文字作为手语识别结果。
在本发明的一个实施例中,上述融合单元可具体用于获取预设权重分配信息;利用预设权重分配信息对第一手语识别结果和第二手语识别结果进行权重计算,获得融合结果。
在本发明的一个实施例中,该手语识别装置还可以包括:
转换模块,用于在上述将手语识别文字作为手语识别结果之后,对手语识别文字进行语音转换,获得手语识别语音。
在本发明的一个实施例中,该手语识别装置还可以包括:
输出模块,用于将手语识别文字输出至可视化设备;将手语识别语音输出至语音播放设备。
在本发明的一个实施例中,上述获取模块1可具体用于利用动态主动视觉传感器对执行手语动作的目标对象进行数据采集,获得视频帧序列数据和脉冲事件流数据。
在本发明的一个实施例中,上述获取模块1可具体用于利用动态视觉传感器对执行手语动作的目标对象进行数据采集,获得脉冲事件流数据;利用摄像设备对执行手语动作的目标对象进行数据采集,获得视频帧序列数据。
在本发明的一个实施例中,该手语识别装置还可以包括:
对齐模块,用于在上述获取关于手语动作的视频帧序列数据和脉冲事件流数据之后,对视频帧序列数据和脉冲事件流数据进行时间对齐处理。
在本发明的一个实施例中,该手语识别装置还可以包括:
模式判断模块,用于在上述利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果之前,确定当前工作模式;若当前工作模式为省电模式,则屏蔽视频帧序列数据,并利用第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果,将第二手语识别结果作为手语识别结果;若当前工作模式不为省电模式,则执行利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果的步骤。
对于本发明实施例提供的装置的介绍请参照上述方法实施例,本发明在此不做赘述。
本发明实施例提供了一种电子设备。
请参考图10,图10为本发明所提供的一种电子设备的结构示意图,该电子设备可包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时可实现如上述任意一种手语识别方法的步骤。
如图10所示,为电子设备的组成结构示意图,电子设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本发明实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行手语识别方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本发明实施例中,存储器11中至少存储有用于实现以下功能的程序:
获取关于手语动作的视频帧序列数据和脉冲事件流数据;
利用第一脉冲神经网络模型对视频帧序列数据进行处理,获得第一手语识别结果;
利用第二脉冲神经网络模型对脉冲事件流数据进行处理,获得第二手语识别结果;
根据第一手语识别结果和第二手语识别结果确定手语识别结果。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图10所示的结构并不构成对本发明实施例中电子设备的限定,在实际应用中电子设备可以包括比图10所示的更多或更少的部件,或者组合某些部件。
本发明实施例提供了一种计算机可读存储介质。
本发明实施例所提供的计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上述任意一种手语识别方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明实施例提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的技术方案进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。

Claims (18)

1.一种手语识别方法,其特征在于,包括:
获取关于手语动作的视频帧序列数据和脉冲事件流数据;
利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;
利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;
根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果;
其中,所述第一脉冲神经网络模型的构建过程包括:
构建初始脉冲神经网络模型;
将第一初始模型参数固定至所述初始脉冲神经网络模型,获得第一初始脉冲神经网络模型;所述第一初始模型参数包括第一突触权重参数和第一神经元阈值参数;
获取第一手语数据集;所述第一手语数据集为视频帧序列数据样本集;
基于第一损失函数,利用所述第一手语数据集和代理梯度函数对所述第一初始脉冲神经网络模型中的第一初始模型参数进行更新,获得所述第一脉冲神经网络模型;
所述第二脉冲神经网络模型的构建过程包括:
将第二初始模型参数固定至所述初始脉冲神经网络模型,获得第二初始脉冲神经网络模型;所述第二初始模型参数包括第二突触权重参数和第二神经元阈值参数;
获取第二手语数据集;所述第一手语数据集为脉冲事件流数据样本集;
基于第二损失函数,利用所述第二手语数据集和代理梯度函数对所述第二初始脉冲神经网络模型中的第二初始模型参数进行更新,获得所述第二脉冲神经网络模型;
其中,所述根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果,包括:
对所述第一手语识别结果和所述第二手语识别结果进行融合计算,获得融合结果;
对所述融合结果进行文字转换,获得手语识别文字;
将所述手语识别文字作为所述手语识别结果。
2.根据权利要求1所述的手语识别方法,其特征在于,所述利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果,包括:
将所述视频帧序列数据输入至所述第一脉冲神经网络模型;
利用所述第一脉冲神经网络模型的卷积层对所述视频帧序列数据进行处理,获得第一卷积结果;
利用所述第一脉冲神经网络模型的归一化层对所述第一卷积结果进行处理,获得第一归一化结果;
利用所述第一脉冲神经网络模型的池化层对所述第一归一化结果进行处理,获得第一池化结果;
利用所述第一脉冲神经网络模型的全连接层对所述第一池化结果进行处理,获得第一全连接处理结果;
将所述第一全连接处理结果作为所述第一手语识别结果。
3.根据权利要求1所述的手语识别方法,其特征在于,所述利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果,包括:
将所述脉冲事件流数据输入至所述第二脉冲神经网络模型;
利用所述第二脉冲神经网络模型的卷积层对所述脉冲事件流数据进行处理,获得第二卷积结果;
利用所述第二脉冲神经网络模型的归一化层对所述第二卷积结果进行处理,获得第二归一化结果;
利用所述第二脉冲神经网络模型的池化层对所述第二归一化结果进行处理,获得第二池化结果;
利用所述第二脉冲神经网络模型的全连接层对所述第二池化结果进行处理,获得第二全连接处理结果;
将所述第二全连接处理结果作为所述第二手语识别结果。
4.根据权利要求3所述的手语识别方法,其特征在于,所述卷积层的卷积核大小大于预设阈值。
5.根据权利要求1所述的手语识别方法,其特征在于,所述对所述第一手语识别结果和所述第二手语识别结果进行融合计算,获得融合结果,包括:
获取预设权重分配信息;
利用所述预设权重分配信息对所述第一手语识别结果和所述第二手语识别结果进行权重计算,获得所述融合结果。
6.根据权利要求1所述的手语识别方法,其特征在于,所述将所述手语识别文字作为所述手语识别结果之后,还包括:
对所述手语识别文字进行语音转换,获得手语识别语音。
7.根据权利要求6所述的手语识别方法,其特征在于,还包括:
将所述手语识别文字输出至可视化设备;
将所述手语识别语音输出至语音播放设备。
8.根据权利要求1所述的手语识别方法,其特征在于,所述获取关于手语动作的视频帧序列数据和脉冲事件流数据,包括:
利用动态主动视觉传感器对执行所述手语动作的目标对象进行数据采集,获得所述视频帧序列数据和所述脉冲事件流数据。
9.根据权利要求1所述的手语识别方法,其特征在于,所述获取关于手语动作的视频帧序列数据和脉冲事件流数据,包括:
利用动态视觉传感器对执行所述手语动作的目标对象进行数据采集,获得所述脉冲事件流数据;
利用摄像设备对执行所述手语动作的目标对象进行数据采集,获得所述视频帧序列数据。
10.根据权利要求9所述的手语识别方法,其特征在于,所述获取关于手语动作的视频帧序列数据和脉冲事件流数据之后,还包括:
对所述视频帧序列数据和所述脉冲事件流数据进行时间对齐处理。
11.根据权利要求1所述的手语识别方法,其特征在于,所述利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果之前,还包括:
确定当前工作模式;
若所述当前工作模式为省电模式,则屏蔽所述视频帧序列数据,并利用所述第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果,将所述第二手语识别结果作为所述手语识别结果;
若所述当前工作模式不为所述省电模式,则执行所述利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果的步骤。
12.一种手语识别系统,其特征在于,包括输入设备和处理设备;
所述输入设备,用于获取关于手语动作的视频帧序列数据和脉冲事件流数据,并发送至处理设备;
所述处理设备,用于利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果;其中,所述根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果,包括:对所述第一手语识别结果和所述第二手语识别结果进行融合计算,获得融合结果;对所述融合结果进行文字转换,获得手语识别文字;将所述手语识别文字作为所述手语识别结果;
所述处理设备,还用于构建初始脉冲神经网络模型;将第一初始模型参数固定至所述初始脉冲神经网络模型,获得第一初始脉冲神经网络模型;所述第一初始模型参数包括第一突触权重参数和第一神经元阈值参数;获取第一手语数据集;所述第一手语数据集为视频帧序列数据样本集;基于第一损失函数,利用所述第一手语数据集和代理梯度函数对所述第一初始脉冲神经网络模型中的第一初始模型参数进行更新,获得所述第一脉冲神经网络模型;
所述处理设备,还用于将第二初始模型参数固定至所述初始脉冲神经网络模型,获得第二初始脉冲神经网络模型;所述第二初始模型参数包括第二突触权重参数和第二神经元阈值参数;获取第二手语数据集;所述第一手语数据集为脉冲事件流数据样本集;基于第二损失函数,利用所述第二手语数据集和代理梯度函数对所述第二初始脉冲神经网络模型中的第二初始模型参数进行更新,获得所述第二脉冲神经网络模型。
13.根据权利要求12所述的手语识别系统,其特征在于,所述输入设备为动态主动视觉传感器。
14.根据权利要求12所述的手语识别系统,其特征在于,还包括:
输出设备,用于对所述手语识别结果进行输出。
15.根据权利要求14所述的手语识别系统,其特征在于,所述输出设备包括可视化设备和语音播放设备;
所述可视化设备,用于输出所述手语识别结果对应的手语识别文字;
所述语音播放设备,用于输出所述手语识别结果对应的手语识别语音。
16.一种手语识别装置,其特征在于,包括:
获取模块,用于获取关于手语动作的视频帧序列数据和脉冲事件流数据;
第一处理模块,用于利用第一脉冲神经网络模型对所述视频帧序列数据进行处理,获得第一手语识别结果;
第二处理模块,用于利用第二脉冲神经网络模型对所述脉冲事件流数据进行处理,获得第二手语识别结果;
确定模块,用于根据所述第一手语识别结果和所述第二手语识别结果确定手语识别结果;
第一模型构建模块,用于构建初始脉冲神经网络模型;将第一初始模型参数固定至所述初始脉冲神经网络模型,获得第一初始脉冲神经网络模型;所述第一初始模型参数包括第一突触权重参数和第一神经元阈值参数;获取第一手语数据集;所述第一手语数据集为视频帧序列数据样本集;基于第一损失函数,利用所述第一手语数据集和代理梯度函数对所述第一初始脉冲神经网络模型中的第一初始模型参数进行更新,获得所述第一脉冲神经网络模型;
第二模型构建模块,用于将第二初始模型参数固定至所述初始脉冲神经网络模型,获得第二初始脉冲神经网络模型;所述第二初始模型参数包括第二突触权重参数和第二神经元阈值参数;获取第二手语数据集;所述第一手语数据集为脉冲事件流数据样本集;基于第二损失函数,利用所述第二手语数据集和代理梯度函数对所述第二初始脉冲神经网络模型中的第二初始模型参数进行更新,获得所述第二脉冲神经网络模型;
所述确定模块具体用于对所述第一手语识别结果和所述第二手语识别结果进行融合计算,获得融合结果;对所述融合结果进行文字转换,获得手语识别文字;将所述手语识别文字作为所述手语识别结果。
17.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至11任一项所述的手语识别方法的步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的手语识别方法的步骤。
CN202310620853.4A 2023-05-30 2023-05-30 手语识别方法、系统、装置、电子设备及可读存储介质 Active CN116343342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310620853.4A CN116343342B (zh) 2023-05-30 2023-05-30 手语识别方法、系统、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310620853.4A CN116343342B (zh) 2023-05-30 2023-05-30 手语识别方法、系统、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN116343342A CN116343342A (zh) 2023-06-27
CN116343342B true CN116343342B (zh) 2023-08-04

Family

ID=86882671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310620853.4A Active CN116343342B (zh) 2023-05-30 2023-05-30 手语识别方法、系统、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116343342B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法
CN111753774A (zh) * 2020-06-29 2020-10-09 之江实验室 一种脉冲双向联想记忆的认知方法及系统
CN113205048A (zh) * 2021-05-06 2021-08-03 浙江大学 一种手势识别方法及识别系统
CN115223243A (zh) * 2022-07-11 2022-10-21 北京理工大学 手势识别系统与方法
CN116030535A (zh) * 2023-03-24 2023-04-28 深圳时识科技有限公司 手势识别方法及装置、芯片和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法
CN111753774A (zh) * 2020-06-29 2020-10-09 之江实验室 一种脉冲双向联想记忆的认知方法及系统
CN113205048A (zh) * 2021-05-06 2021-08-03 浙江大学 一种手势识别方法及识别系统
CN115223243A (zh) * 2022-07-11 2022-10-21 北京理工大学 手势识别系统与方法
CN116030535A (zh) * 2023-03-24 2023-04-28 深圳时识科技有限公司 手势识别方法及装置、芯片和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合注意力机制和连接时序分类的多模态手语识别;王军;鹿姝;李云伟;;信号处理(09);全文 *

Also Published As

Publication number Publication date
CN116343342A (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN110162799B (zh) 模型训练方法、机器翻译方法以及相关装置和设备
CN111241985B (zh) 一种视频内容识别方法、装置、存储介质、以及电子设备
CN111709497B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN111242844B (zh) 图像处理方法、装置、服务器和存储介质
KR20160069834A (ko) Cnn의 근사화를 위한 학습 장치 및 방법
KR20180048930A (ko) 분류를 위한 강제된 희소성
CN111292262B (zh) 图像处理方法、装置、电子设备以及存储介质
WO2022078334A1 (zh) 利用神经元模型及网络处理信号的处理方法、介质、设备
CN111582105A (zh) 基于局部全局双向推理的无监督点云特征学习方法及装置
CN111079767B (zh) 一种用于分割图像的神经网络模型及其图像分割方法
TW201633181A (zh) 用於經非同步脈衝調制的取樣信號的事件驅動型時間迴旋
CN112529146A (zh) 神经网络模型训练的方法和装置
WO2022041015A1 (zh) 神经网络模型优化方法及装置
CN111079833A (zh) 图像识别方法、装置以及计算机可读存储介质
CN116541779B (zh) 个性化公共安全突发事件检测模型训练方法、检测方法及装置
CN111080746A (zh) 图像处理方法、装置、电子设备和存储介质
CN110570375B (zh) 一种图像处理方法、装置、电子设置以及存储介质
KR20220144281A (ko) 신경망 모델의 최적화 방법 및 이를 수행하는 신경망 모델 처리 시스템
CN113191479A (zh) 联合学习的方法、系统、节点及存储介质
CN116704190A (zh) 轻量级DeepLabV3+图像语义分割方法及设备
CN116432736A (zh) 神经网络模型优化方法、装置及计算设备
CN112214791B (zh) 基于强化学习的隐私策略优化方法、系统及可读存储介质
CN116343342B (zh) 手语识别方法、系统、装置、电子设备及可读存储介质
CN110163049B (zh) 一种人脸属性预测方法、装置及存储介质
CN108665455B (zh) 图像显著性预测结果的评价方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant