CN117056822A

CN117056822A - 手语识别方法及电子设备

Info

Publication number: CN117056822A
Application number: CN202310858401.XA
Authority: CN
Inventors: 杨湛星; 朱亚林; 李清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-11-14

Abstract

本发明提供一种手语识别方法及电子设备，涉及手势语言技术领域，该方法包括：获取交流信息；获取目标用户对应的手势检测传感器检测到的至少一个位置信息；基于各所述位置信息确定至少一个手语识别结果；基于交流信息，在至少一个手语识别结果中确定目标手语识别结果；将目标手语识别结果合成语音进行播放。该方法使用手势检测传感器可以精确地检测出目标用户在手语表达时每个手势动作所产生的位置信息。基于各位置信息能确定出至少一个手语识别结果。并且基于交流信息，在至少一个手语识别结果中确定出目标手语识别结果，能提高手语识别结果的准确度。

Description

手语识别方法及电子设备

技术领域

本发明涉及手势语言技术领域，尤其涉及一种手语识别方法及电子设备。

背景技术

手势语言(Gesture language)也称为手语，是一种使用手、手指、面部表情和其他身体动作来传达信息的语言。尽管它不是一种正式的语言，但在某些情况下，语言障碍人士可以使用手语与人们进行沟通交流。

使用手语交流时，通常需要翻译手语所表达的语言含义，以便于不懂手语的人士明白手语者表达的意思。随着技术的发展，逐渐出现了一些用于手语翻译的技术。例如，相关技术中使用摄像设备获取手语者的手势动作图像，并基于手势识别模型对获取到的手势动作图像进行比对和判断，从而识别出手语者的手势动作所表达的语言含义。

使用上述相关技术，通过手势动作图像识别出语言含义时，会受限于图像采集时的环境条件影响，导致手语识别结果的准确度较低。

发明内容

本发明提供一种手语识别方法及电子设备，用以解决现有技术中手语识别结果的准确度较低的缺陷，实现提高手语识别结果准确度的目的。

本发明提供一种手语识别方法，包括：

获取交流信息；

获取目标用户对应的手势检测传感器检测到的至少一个位置信息；

基于各所述位置信息确定至少一个手语识别结果；

基于所述交流信息，在至少一个所述手语识别结果中确定目标手语识别结果；

将所述目标手语识别结果合成语音进行播放。

根据本发明提供的一种手语识别方法，所述基于所述交流信息，在至少一个所述手语识别结果中确定目标手语识别结果，包括：

基于所述交流信息确定当前语境；

基于所述当前语境，在至少一个所述手语识别结果中确定所述目标手语识别结果。

根据本发明提供的一种手语识别方法，各所述手语识别结果均对应有识别概率；

所述基于所述当前语境，在至少一个所述手语识别结果中确定所述目标手语识别结果，包括：

将最大识别概率对应的手语识别结果确定为参考手语识别结果，确定所述参考手语识别结果的识别概率分别与其他手语识别结果的识别概率之间的概率差值；所述其他手语识别结果为所有所述手语识别结果中除所述参考手语识别结果之外的手语识别结果；

在各所述概率差值中包括小于预设值的概率差值的情况下，将小于预设值的概率差值对应的手语识别结果确定为待选择手语识别结果；

将各所述待选择手语识别结果中，与所述当前语境匹配的待选择手语识别结果确定为所述目标手语识别结果。

根据本发明提供的一种手语识别方法，所述方法还包括：

在与所述当前语境匹配的待选择手语识别结果的数量大于1的情况下，确定每两个与所述当前语境匹配的待选择手语识别结果之间的语义相似度；

在各所述语义相似度均大于或等于预设相似度的情况下，将任意一个与所述当前语境匹配的待选择手语识别结果确定为所述目标手语识别结果；

在各所述语义相似度均小于所述预设相似度的情况下，基于目标形式输出与所述当前语境匹配的各待选择手语识别结果；所述目标形式包括文本形式和/或手语形式。

根据本发明提供的一种手语识别方法，所述基于至少一个所述交流信息确定当前语境，包括：

确定至少一个所述交流信息对应的语义信息，并基于所述语义信息确定所述当前语境；或者，

确定所有所述交流信息中出现次数最多的词信息，基于所述词信息确定所述当前语境。

根据本发明提供的一种手语识别方法，所述至少一个位置信息是在多个预设周期内获取到的位置信息；

所述基于各所述位置信息确定至少一个手语识别结果，包括：

针对各所述预设周期，基于所述预设周期内的各目标位置信息确定至少一个手势识别结果；

基于所有预设周期对应的手势识别结果，确定至少一个所述手语识别结果。

根据本发明提供的一种手语识别方法，所述基于所述预设周期内的各目标位置信息确定至少一个手势识别结果，包括：

确定所述预设周期的前预设时长内的各所述目标位置信息是否发生变化；

在确定所述预设周期的前预设时长内的各所述目标位置信息发生变化的情况下，基于所述预设周期内的各目标位置信息确定至少一个所述手势识别结果。

根据本发明提供的一种手语识别方法，所述方法还包括：

在接收到手语识别指令的情况下，控制所述手势检测传感器检测至少一个所述位置信息。

本发明还提供一种电子设备，包括：

信息采集器，用于获取交流信息；

手势检测传感器，用于检测目标用户的至少一个位置信息；

处理器，用于基于各所述位置信息确定至少一个手语识别结果；

所述处理器，还用于基于所述交流信息，在至少一个所述手语识别结果中确定目标手语识别结果；

扬声器，用于将所述目标手语识别结果合成语音进行播放。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述手语识别方法。

本发明还提供一种手语识别装置，包括：

第一获取单元，用于获取交流信息；

第二获取单元，用于获取目标用户对应的手势检测传感器检测到的至少一个位置信息；

确定单元，用于基于各所述位置信息确定至少一个手语识别结果；

所述确定单元，还用于基于所述交流信息，在至少一个所述手语识别结果中确定目标手语识别结果；

播放单元，用于将所述目标手语识别结果合成语音进行播放。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述手语识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述手语识别方法。

本发明提供一种手语识别方法及电子设备，该手语识别方法通过获取交流信息，并获取目标用户对应的手势检测传感器检测到的至少一个位置信息；基于各位置信息确定至少一个手语识别结果，并基于交流信息，在至少一个手语识别结果中确定目标手语识别结果，将该目标手语识别结果合成语音进行播放。该方法中，通过手势检测传感器检测目标用户在手语表达时每个手势动作所产生的位置信息，基于各位置信息能确定出至少一个手语识别结果，利用交流信息所表达的信息内容，可以在手语识别结果中确定出准确度较高的目标手语识别结果，使确定出的目标手语识别结果能更符合手势动作表达的本意，从而提高手语识别结果的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的手语识别方法的流程示意图；

图2是本发明实施例提供的标准手势动作及其翻译文本的示意图之一；

图3是本发明实施例提供的标准手势动作及其翻译文本的示意图之二；

图4是本发明实施例提供的电子设备的示意图；

图5是本发明实施例提供的电子设备的功能模块示意图；

图6是本发明实施例提供的手语识别装置的结构示意图；

图7是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

许多语言功能障碍人士无法与语言功能正常者直接进行语言交流，通常需要借助手语来交流。然而语言功能正常者大部分不懂手语，不能从手语者的手势动作中直接明白手语者要表达的意思。因此，需要借助手势语言识别技术将手语交流信息翻译为语音、文本或其他形式的交流信息。

手势语言识别技术可以基于计算机视觉技术、感知和运动捕捉技术、自然语言处理技术或人机交互技术等多种学科的技术实现。

手势语言识别技术可以利用计算机视觉技术对图像或视频中的手势动作进行检测、跟踪和分类，从而识别出手势语言中的信息。随着卷积神经网络、循环神经网络等深度学习技术的发展，计算机视觉系统广泛应用于手势语言识别技术领域。

手势动作与文本之间的映射关系是实现手势语言到自然语言转换的关键。自然语言处理技术主要是开发能够将手势动作转换为文本的算法，以及能够将文本转换为手势动作的算法。

人机交互技术可以为更好地利用手势语言进行沟通，设计适合不同场景和目的的人机交互界面。包括确定哪些手势具有特定的含义，如何将这些手势组合以表达复杂的想法，以及如何根据用户的输入实时更新界面等。

感知和运动捕捉技术用于从传感器(如摄像头、麦克风、触摸屏等)捕获人体动作和位置信息。这些数据可以用于训练和评估手势识别系统，或者用于生成基于用户手势的虚拟环境。

虽然各种技术的发展已解决了手势语言自动识别和翻译的难题，但现有的手语识别方法还存在一些不足。例如，使用计算机视觉技术可以输出手语对应的文本信息，但是对采集图像或视频的摄像设备提出了很高的硬件要求，并且在一些复杂或不利于拍摄的环境中无法采集到完整的手势动作，可能因遗漏动作细节而导致识别的准确度降低；并且在确定手语识别结果时没有结合交流信息，可能导致确定出的手语识别结果的准确度更低。

针对以上存在的问题，本发明实施例提供一种手语识别方法，该方法通过手势检测传感器检测目标用户在手语表达时每个手势动作所产生的位置信息，基于各位置信息确定至少一个手语识别结果，并基于交流信息，在至少一个手语识别结果中确定出目标手语识别结果，使确定出的目标手语识别结果能更符合手势动作表达的本意，能提高手语识别结果的准确度。下面结合图1至图5对本发明实施例提供的手语识别方法进行描述。

图1是本发明实施例提供的手语识别方法的流程示意图，本发明实施例可以适用于任意需要进行手语识别的场景，例如可以是手语播报、手语对话或手语输入等场景。本方法的执行主体可以是智能手环、智能手链、智能手表、智能手套、智能手机、智能指环、计算机或专门设计的手语识别设备等电子设备，也可以是设置在该电子设备中的手语识别装置，该手语识别装置可以通过软件、硬件或两者的结合来实现。如图1所示，该手语识别方法包括步骤110～步骤150。

步骤110、获取交流信息。

示例地，交流信息可以包括交流或表达过程中的手语交流信息或非手语交流信息，其中，非手语交流信息可以包括语音交流信息、文本交流信息或其他形式的交流信息。

可以利用信息采集装置获取交流信息，例如，使用麦克风采集交流时的语音交流信息；或使用手机采集交流时的文本交流信息等。

步骤120、获取目标用户对应的手势检测传感器检测到的至少一个位置信息。

示例地，目标用户可以是使用手势动作表达手语交流信息的手语者，是手势检测传感器检测的对象。位置信息可以是产生手势动作的人体部位在动作时，处于空间中的位置信息或各位置的变化信息，可以包括手部各部位动作变化时形成的运动轨迹。

手势检测传感器可以是针对手势动作进行人体手部各部位位置信息检测的信息采集设备，可以理解为是针对手势动作，对人体的手掌、手指、手腕或手臂等与手语表达有关的人体部位进行位置信息采集的各类传感器，例如，加速度传感器、角速度传感器、位移传感器、A+G陀螺仪(Accelerometer+Gyroscope)或T陀螺仪(Traditional Gyroscope)等。

以电子设备为智能手环为例，目标用户佩戴智能手环并使用手语进行交流或表达时，可以利用智能手环中的手势检测传感器对目标用户的手势动作进行检测，以获取到针对目标用户手势动作的至少一个位置信息。

例如，在非手语者A和手语者B进行对话交流时，非手语者A说话产生了语音交流信息，手语者B用手作出手势动作，产生了手语交流信息进行回应。在获取到非手语者A的语音交流信息的情况下，使用手语者B对应的手势检测传感器对手语者B的手势动作进行检测，可以获取到针对该手势动作的至少一个位置信息。

步骤130、基于各位置信息确定至少一个手语识别结果。

示例地，手语识别结果可以是针对位置信息而确定出的对手势动作进行释义的文本结果或语言结果，可以理解为对目标用户的手势动作进行翻译识别而确定出的结果。基于各位置信息确定至少一个手语识别结果，可以理解为对所有位置信息进行分析，确定出手势动作的运动轨迹所表达的语义，用语音或文字等非手语的形式表示出来的结果。

确定至少一个手语识别结果时，例如可以在获取到各位置信息后，基于手语数据库以及获取到的各位置信息，确定出至少一个手语识别结果。其中，手语数据库可以是存储有手语映射关系的数据库。将标准手势动作的位置信息与其对应的翻译文本关联存储，可以形成手语映射关系，由多个手语映射关系构成手语数据库。

在手语数据库的基础上构建手语识别结果确定模型，手语识别结果确定模型可以基于初始神经网络模型，利用标准手势动作的位置信息作为输入经过有监督或无监督的训练方式训练后得到，用于对获取到的各位置信息与标准手势动作的位置信息进行匹配识别。将获取到的各位置信息输入手语识别结果确定模型进行识别，可以输出各位置信息对应的至少一个手语识别结果。

初始神经网络模型例如可以是深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent NeuralNetworks，RNN)、长短期记忆(Long short-term memory，LSTM)神经网络等其中的至少一种神经网络组成的模型，但不限于此。

步骤140、基于交流信息，在至少一个手语识别结果中确定目标手语识别结果。

示例地，交流信息中包含了交流时的语义、语境或情绪等信息，通过对交流信息的解读与理解，可以获取交流信息中包含的信息。基于交流信息，即，在结合交流时的语义、语境或情绪等信息的基础上，在至少一个手语识别结果中确定出最符合目标用户本意的手语识别结果作为目标手语识别结果。

步骤150、将目标手语识别结果合成语音进行播放。

示例地，在确定出目标手语识别结果后，可以基于该目标手语识别结果进行语音合成，并将合成后的语音进行播放。

例如，在非手语者A和手语者B进行对话交流的场景中，目标用户手语者B佩戴有可以实施该手语识别方法的电子设备，该电子设备中设置有A+G陀螺仪、麦克风和扬声器等。非手语者A以说话的方式向手语者B提问“你吃了吗？”。该电子设备的麦克风可以获取到交流信息“你吃了吗？”，并解析该交流信息中包含的信息。手语者B获取到交流信息“你吃了吗？”后，使用手语作出回答，该电子设备中的A+G陀螺仪对手语者B的手部动作进行检测，获取到多个位置信息，并基于该多个位置信息确定出多个手语识别结果。电子设备基于对交流信息的解析，从多个手语识别结果中确定出符合交流信息的含义以及最能反映手语者B本意的一个手语识别结果作为目标手语识别结果。电子设备将该目标手语识别结果合成语音后，通过扬声器进行播放，使非手语者A听到该语音的内容。其中，手语者B获取交流信息时可以利用听觉或者视觉中的至少之一获取，例如，直接听到非手语者A说的话，或者通过语言与文字之间的转换，采用阅读文字的方式获取交流信息。

又例如，在非手语者A和手语者B进行近距离对话交流的场景中，目标用户手语者B佩戴的电子设备中还包括蓝牙模块。非手语者A以说话的方式向手语者B提问“你吃了吗？”。该电子设备的麦克风获取到交流信息“你吃了吗？”并解析该交流信息中包含的信息。手语者B使用手语作出回答，该电子设备中的A+G陀螺仪对手语者B的手部动作进行检测，并确定出多个手语识别结果。电子设备基于对交流信息的解析，从多个手语识别结果中确定出符合交流信息的含义以及最能反映手语者B本意的一个手语识别结果作为目标手语识别结果。电子设备将该目标手语识别结果合成语音后，通过蓝牙模块将该语音发送至具有蓝牙功能的外接扬声器，例如智能音响、智能耳机、手机或平板电脑等设备。外接扬声器接收到该语音后播放该语音，使非手语者A听到该语音的内容。

再例如，在非手语者A和手语者B进行远距离对话交流的场景中，目标用户手语者B佩戴有电子设备，该电子设备中还包括网络连接模块，非手语者A使用其手机与手语者B进行远程交流。非手语者A以说话的方式利用手机的麦克风采集交流信息“你吃了吗？”，并将该交流信息通过网络连接的方式发送至手语者B佩戴的电子设备。该电子设备利用网络连接模块接收到该交流信息后，对该交流信息进行解析处理。手语者B使用手语作出回答，该电子设备中的A+G陀螺仪对手语者B的手部动作进行检测，并确定出多个手语识别结果。电子设备基于对交流信息的解析，从多个手语识别结果中确定出符合交流信息的含义以及最能反映手语者B本意的一个手语识别结果作为目标手语识别结果。电子设备将该目标手语识别结果合成语音后，通过网络连接模块将该语音发送至非手语者A的手机，非手语者A的手机在接收到该语音后播放该语音，使非手语者A听到该语音的内容。或者，也可以将该语音转换为文字在非手语者A的手机中显示。

本发明实施例提供的手语识别方法，通过获取交流信息，并获取目标用户对应的手势检测传感器检测到的至少一个位置信息；基于各位置信息确定至少一个手语识别结果，并基于交流信息，在至少一个手语识别结果中确定目标手语识别结果，将该目标手语识别结果合成语音进行播放。该方法中，通过手势检测传感器检测目标用户在手语表达时每个手势动作所产生的位置信息，基于各位置信息能确定出至少一个手语识别结果，利用交流信息所表达的信息内容，可以在手语识别结果中确定出准确度较高的目标手语识别结果，使确定出的目标手语识别结果能更符合手势动作表达的本意，从而提高手语识别结果的准确度。

为了能进一步提高手语识别结果的准确度，可以利用交流信息确定出当前语境，基于当前语境确定目标手语识别结果，可以提高其准确度。

在一实施例中，基于交流信息，在至少一个手语识别结果中确定目标手语识别结果，包括：基于交流信息确定当前语境；基于当前语境，在至少一个手语识别结果中确定目标手语识别结果。

示例地，可以使用语境确定模型对获取到的至少一个交流信息进行识别判断，确定出各交流信息中包含的当前语境。可以通过当前语境确定出交流信息整体蕴含的语言含义。

例如，语境确定模型可以通过以下的方式训练得到。在语料库中抽取用于模型训练的训练词句样本，并对训练词句样本的语境进行样本标签的标注。对初始语境确定模型进行有监督的训练，将训练词句样本分别输入初始语境确定模型中，得到初始语境确定模型输出的目标语境标签，基于目标语境标签和训练词句样本的样本标签计算对应的损失函数的值，根据损失函数的值对初始语境确定模型的各参数进行调整，最终可以得到训练好的语境确定模型。初始语境确定模型可以为讯飞星火大模型(IFlytek Spark)等。

基于至少一个交流信息确定出当前语境后，基于当前语境中包含的反映交流信息整体的语义，可用在至少一个手语识别结果中确定出目标手语识别结果。

例如，将获取到的所有交流信息输入语境确定模型中，确定出反映所有交流信息整体的语义，根据当前语境的语义，在基于各位置信息确定出的各手语识别结果中选择出最符合当前语境的手语识别结果作为目标手语识别结果。

在本实施例中，基于交流信息确定出当前语境，并利用当前语境所蕴含的上下文语义，从至少一个手语识别结果中综合分析判断，并确定出目标手语识别结果，使确定出的目标手语识别结果能更符合手势动作表达的本意，进一步提高了手语识别结果的准确度。

在实际应用中，基于各位置信息确定出多个手语识别结果时，其中的一些结果比较相近，为了结合当前语境从多个手语识别结果中确定出最符合手语本意的手语识别结果，可以基于各手语识别结果的识别概率来确定。

在一实施例中，各手语识别结果均对应有识别概率；基于当前语境，在至少一个手语识别结果中确定目标手语识别结果，具体可以通过以下方式实现：

将最大识别概率对应的手语识别结果确定为参考手语识别结果，确定参考手语识别结果的识别概率分别与其他手语识别结果的识别概率之间的概率差值；其他手语识别结果为所有手语识别结果中除参考手语识别结果之外的手语识别结果；

在各概率差值中包括小于预设值的概率差值的情况下，将小于预设值的概率差值对应的手语识别结果确定为待选择手语识别结果；

将各待选择手语识别结果中，与当前语境匹配的待选择手语识别结果确定为目标手语识别结果。

示例地，基于各位置信息确定至少一个手语识别结果时，确定各手语识别结果对应的各识别概率，该识别概率表征其对应的手语识别结果是正确结果的可能性，可以理解的是，若识别概率越大该识别概率对应的手语识别结果越有可能是正确的结果。确定各手语识别结果对应的各识别概率时，可以基于手语识别结果确定模型来确定。

图2是本发明实施例提供的标准手势动作及其翻译文本的示意图之一，如果2所示，词语“家庭”和词语“生活”在手语表达时是由不同的标准手势动作完成，因此“家庭”和“生活”的标准手势动作对应的位置信息也不相同。

在构建手语数据库时，使用手势检测传感器对标准手势动作的位置信息进行检测，提取该位置信息对应的轨迹特征，将轨迹特征与该标准手势动作的翻译文本进行关联映射，即可建立手语映射关系，进而可以构建出手语数据库。其中，提取位置信息对应的轨迹特征时，可以针对每个位置信息分别提取轨迹特征，例如，针对一个位置信息提取5个轨迹特征、6个轨迹特征、10个轨迹特征或N个轨迹特征，N为大于1的数。在手语数据库或手语识别结果确定模型的算法实现中，可以将提取的轨迹特征表达为数学公式，即用数学公式来表达手势动作轨迹。

手语识别结果确定模型在确定各位置信息对应的至少一个手语识别结果时，对输入的各位置信息提取轨迹特征，将该轨迹特征与手语数据库中标准手势动作的轨迹特征进行匹配，得到至少一个匹配结果，匹配结果包括匹配出的标准手势动作的翻译文本及识别概率，该识别概率表征该输入的各位置信息与该匹配出的标准手势动作之间的匹配度。

例如，词语“家庭”的标准手势动作的位置信息中包含5个轨迹特征，词语“生活”的标准手势动作的位置信息中包含6个轨迹特征，词语“工作”的标准手势动作的位置信息中包含10个轨迹特征。当目标用户使用手势动作表达一个手语词语后，利用手势检测传感器对目标用户的手势动作进行检测可以获取到该手语词语的位置信息，将该位置信息输入手语识别结果确定模型中，手语识别结果确定模型提取该位置信息中的N个轨迹特征，并在手语数据库中遍历匹配各标准手势动作的轨迹特征。

手语识别结果确定模型遍历手语数据库后，确定出三个手语识别结果，分别为：家庭(4/5，识别概率80％)、生活(3/6，识别概率50％)、工作(1/10，识别概率10％)，其中，“家庭”对应的识别概率为80％，可以理解为从目标用户的手语词语中提取的N个轨迹特征中有4个轨迹特征与“家庭”的标准手势动作的轨迹特征匹配一致，即4/5，则该手语词语是“家庭”的识别概率为80％；类似地，从目标用户的手语词语中提取的N个轨迹特征中有3个轨迹特征与“生活”的标准手势动作的轨迹特征匹配一致，即3/6，则该手语词语是“生活”的识别概率为50％；从目标用户的手语词语中提取的N个轨迹特征中有1个轨迹特征与“工作”的标准手势动作的轨迹特征匹配一致，即1/10，则该手语词语是“工作”的识别概率为10％。

可以理解的是，识别概率可以是字、词语或句子的识别概率，当基于各位置信息确定出的手语识别结果是句子时，可以将组成该句子的字或词语的识别概率相加，即可得到该句子的识别概率。

需要说明的是，手语中表示疑问是用表情来表示，疑问句可以借助辅助设备完成，例如可以借助手语识别设备上的实体按钮，或者还可以使用特定规则的自创手语来完成等。

在确定出的手语识别结果为至少两个的情况下，将最大识别概率对应的手语识别结果确定为参考手语识别结果，其他的手语识别结果确定为其他手语识别结果。可以通过计算，分别确定出参考手语识别结果的识别概率与每个其他手语识别结果的识别概率之间的概率差值。

预设值可以是针对各概率差值进行判断的阈值，例如，预设值为10％、20％或30％等。在各概率差值中包括小于预设值的概率差值的情况下，将小于预设值的概率差值对应的手语识别结果确定为待选择手语识别结果。需要说明的是，概率差值是其他手语识别结果与参考手语识别结果的识别概率之差，因此，一个小于预设值的概率差值对应的手语识别结果包括参考手语识别结果和一个其他手语识别结果，所以，待选择手语识别结果中包括参考手语识别结果。

图3是本发明实施例提供的标准手势动作及其翻译文本的示意图之二，如图3所示，“你”“吃”“了”分别由不同的手势动作完成。例如，手语者使用手语询问非手语者“你吃了吗？”可以使用手势检测传感器获取到手势动作产生的各位置信息。

手语识别结果确定模型可以确定出各手势动作的位置信息对应的手语识别结果为：你(识别概率100％)、我(识别概率80％)、他(识别概率60％)、睡(识别概率80％)、吃(识别概率70％)、喝(识别概率50％)、了(识别概率100％)以及吗(识别概率100％)。由识别出的字可以组成各手语识别结果：你睡了吗(识别概率380％)、你吃了吗(识别概率370％)、你喝了吗(识别概率350％)、我睡了吗(识别概率360％)、我吃了吗(识别概率350％)、我喝了吗(识别概率330％)、他睡了吗(识别概率340％)、他吃了吗(识别概率330％)以及他喝了吗(识别概率310％)。

在这些句子形式的手语识别结果中，将识别概率最大的“你睡了吗”确定为参考手语识别结果，其他的均为其他手语识别结果。计算各其他手语识别结果与参考手语识别结果之间的概率差值，例如，“你吃了吗”与参考手语识别结果之间的概率差值为10％，“我睡了吗”与参考手语识别结果之间的概率差值为20％，其他概率差值不再赘述。若预设值为20％，则将概率差值为10％对应的其他手语识别结果“你吃了吗”和参考手语识别结果“你睡了吗”均确定为待选择手语识别结果。

在确定出待选择手语识别结果后，将各待选择手语识别结果中，与当前语境匹配的待选择手语识别结果确定为目标手语识别结果。例如，基于手语者与非手语者本次对话的交流信息，确定出当前语境与“吃”的语义相关时，则可以从待选择手语识别结果“你吃了吗”和“你睡了吗”中确定出“你吃了吗”为与当前语境匹配的待选择手语识别结果，则将“你吃了吗”确定为目标手语识别结果。

在本实施例中，基于手语识别结果的识别概率以及预设值，从各手语识别结果中确定出待选择手语识别结果，并结合当前语境从待选择手语识别结果中最终确定出目标手语识别结果，使确定出的目标手语识别结果更准确。

在上述实施例中，可能出现数量大于1的与当前语境匹配的待选择手语识别结果，即出现确定出至少两个与当前语境匹配的待选择手语识别结果的情况，为了从中确定准确度较高的目标手语识别结果，可以利用语义相似度来确定。

在一实施例中，该方法还包括：在与当前语境匹配的待选择手语识别结果的数量大于1的情况下，确定每两个与当前语境匹配的待选择手语识别结果之间的语义相似度；在各语义相似度均大于或等于预设相似度的情况下，将任意一个与当前语境匹配的待选择手语识别结果确定为目标手语识别结果；在各语义相似度均小于预设相似度的情况下，基于目标形式输出与当前语境匹配的各待选择手语识别结果；目标形式包括文本形式和/或手语形式。

示例地，在确定出至少两个与当前语境匹配的待选择手语识别结果时，根据语义相似度从各与当前语境匹配的待选择手语识别结果中确定出目标手语识别结果。

语义相似度用于表征两个与当前语境匹配的待选择手语识别结果之间的相似程度，预设相似度可以是用于对语义相似度进行判断的判断阈值。例如，预设相似度可以为80％、90％或95％等。在确定语义相似度时，可以将两个与当前语境匹配的待选择手语识别结果输入语境确定模型中输出两个与当前语境匹配的待选择手语识别结果之间的语义相似度。

在各语义相似度均大于或等于预设相似度的情况下，表明确定出的各与当前语境匹配的待选择手语识别结果均符合当前语境，并且各与当前语境匹配的待选择手语识别结果之间表达的语义比较相近，无论将哪个手语识别结果确定为目标手语识别结果都能准确表达目标用户手势动作所表达的真实意思。在这种情况下，可以将任意一个与当前语境匹配的待选择手语识别结果确定为目标手语识别结果。

在各语义相似度均小于预设相似度的情况下，表明确定出的各与当前语境匹配的待选择手语识别结果均符合当前语境，但各与当前语境匹配的待选择手语识别结果之间表达的语义差距较大，此时，可以以文本形式、手语形式或同时使用文本形式和手语形式，将各与当前语境匹配的待选择手语识别结果均输出，便于目标用户从显示的各与当前语境匹配的待选择手语识别结果中选择正确的手语识别结果，基于正确的手语识别结果做出正确的响应，避免只输出一个目标识别结果时造成的准确度降低的问题。

在本实施例中，考虑了出现确定出至少两个与当前语境匹配的待选择手语识别结果的情况，在出现该情况时，可以根据每两个与当前语境匹配的待选择手语识别结果之间的语义相似度与预设相似度之间的关系，确定目标手语识别结果或将各当前语境匹配的待选择手语识别结果均输出，这样，可以避免出现多个与当前语境匹配的待选择手语识别结果的情况时，输出准确度较低的目标手语识别结果，保证本方法的准确性和可用性。

在交流或表达时，通过对各交流信息的分析或总结，可以确定出交流或表达时的当前语境，当前语境中蕴含的语言含义能极大地帮助预测或确定表达者的真实意思，本发明实施例提供的手语识别方法在确定目标手语识别结果时充分结合了当前语境，因此，准确确定当前语境能提高手语识别的准确度。

在一实施例中，基于至少一个交流信息确定当前语境，可用通过以下方式实现：确定至少一个交流信息对应的语义信息，并基于语义信息确定当前语境；或者，确定所有交流信息中出现次数最多的词信息，基于词信息确定当前语境。

示例地，语义信息可以是基于对获取到的交流信息进行分析和判断后得出信息，通过语义信息可以反映出交流或表达的真实含义。

确定语义信息时，可以基于语境确定模型从至少一个交流信息中提取表征语义的语言特征信息，将语言特征信息结合对应语种的语言体系规则进行综合分析判断，可以确定出语义信息，根据确定出的语义信息可以进一步确定当前语境。

举例来说，手语者与非手语者在对话交流时，非手语者询问：“很多人对自己的生活很不满意，请问你对生活有什么看法？”获取到该交流信息后，将该交流信息输入语境确定模型，语境确定模型对该交流信息的中的每个词以及句子的整体进行语言特征信息提取，并结合语言体系规则进行综合分析，可以确定出当前语境为询问生活幸福感的语境，生活幸福感即为对应的语义信息，从该语义信息中可以确定出当前语境为与“生活”有关的语境。以词语的手语识别结果为例，假设，家庭的识别概率为80％，生活的识别概率为50％，工作的识别概率为10％，则确定“生活”作为正确的识别结果。例如最终可以语音输出目标手语识别结果“其实我的生活蛮幸福的”。

或者，在基于至少一个交流信息确定当前语境时，可以根据所有交流信息中出现次数最多的词信息，将出现次数最多的词信息确定为当前语境。可以理解为，基于交流信息中最高频的词汇确定当前语境。

例如，在交流信息“很多人对自己的生活很不满意，请问你对生活有什么看法？”中，出现次数最大的词为“生活”，则可以将“生活”确定为当前语境，进一步，可以从各手语识别结果中确定出目标手语识别结果。

在本实施例中，基于至少一个交流信息确定当前语境时，可以从上述两种方式中任选其一来实现，结合交流信息对应的语义信息或者交流信息中的最高频词汇确定出的当前语境，能准确反映出表达者在当前表达时的本意，使确定出的当前语境准确度较高，进一步可以提高本方法确定出的目标手语识别结果的准确度。

在一实施例中，至少一个位置信息是在多个预设周期内获取到的位置信息；基于各位置信息确定至少一个手语识别结果，包括：针对各预设周期，基于预设周期内的各目标位置信息确定至少一个手势识别结果；基于所有预设周期对应的手势识别结果，确定至少一个手语识别结果。

示例地，预设周期可以是预设的获取位置信息的时间周期，例如可以是基于实验数据、统计数据或位置信息的变化规律等情况而预设的经验值。手势检测传感器实时对目标用户的手势动作进行检测，获取到至少一个位置信息，并将至少一个位置信息发送至电子设备的处理器，处理器可以基于预设周期对位置信息进行识别。

在获取到的各位置信息中，每个位置信息都可以对应一个手势识别结果，手势识别结果可以是针对目标位置信息而确定的识别结果，例如可以是字符、字或词语等。在一个表达完整句子的手势动作所对应的所有位置信息中，确定各位置信息对应的手势识别结果，将各位置信息对应的手势识别结果进行排列组合可以确定出与手势动作对应的至少一个手语识别结果。

例如，预设周期可以是通过软件调试而设置的时间周期，可以用T来表示。将一个预设周期T内获取到的位置信息输入手语识别结果确定模型，可以输出对应的至少一个手势识别结果。

将一个预设周期T内的位置信息确定为目标位置信息，基于目标位置信息确定其对应的至少一个手势识别结果，将该至少一个手势识别结果进行缓存。在连续的多个预设周期T内，将获取到的所有目标位置信息对应的各手势识别结果进行组合，可以获取该连续的多个预设周期T内对应于目标用户手势动作的至少一个手语识别结果。

在本实施例中，通过设置预设周期，可以基于预设周期内的位置信息，对对应手势动作进行识别，实现了分段式识别位置信息的目的，便于判断位置信息的完整性，并根据完整的位置信息可以确定出准确度更高的手语识别结果。

获取到的位置信息中，有一些可能是目标用户误操作而产生的位置信息，为了使获取到的位置信息有效性更高，从而得到有效的手势识别结果，在上述实施例的基础上，可以在预设周期中设置前预设时长。基于预设周期内的各目标位置信息确定至少一个手势识别结果，可以通过以下具体方式实现：

确定预设周期的前预设时长内的各目标位置信息是否发生变化；在确定预设周期的前预设时长内的各目标位置信息发生变化的情况下，基于预设周期内的各目标位置信息确定至少一个手势识别结果。

示例地，预设时长可以是在预设周期内设置的时长，可以根据预设周期内前预设时长内该目标位置信息是否发生变化，来判断是否要基于该目标位置信息确定手势识别结果。

举例来说，将预设周期T中的前t1时长确定为预设时长，比如，T为1分钟，可以将预设周期T中的前10％的时间作为预设时长t1，即T中的前6秒设置为预设时长t1。

目标用户通过手势动作表达时，一个预设周期内获取的位置信息是连续变化的，在确定预设周期的前预设时长内的各目标位置信息发生变化时，表明目标用户的手势动作产生的位置信息为有效的位置信息，此时，基于预设周期内的各目标位置信息确定至少一个手势识别结果，可以确定出有效的手势识别结果。

在本实施例中，设置前预设时长，通过对前预设时长内的各目标位置信息是否发生变化进行判断，可以过滤无效的位置信息，对无效的位置信息可以不缓存或弃用，能提高本方法确定手势识别结果的效率。

为了整体提高本方法的效率，避免手势检测传感器持续处于工作状态时无效检测而产生的电量效率、内存资源占用或计算资源浪费等问题，在一实施例中，该方法还包括：在接收到手语识别指令的情况下，控制手势检测传感器检测至少一个位置信息。

示例地，手语识别指令是控制手势检测传感器进行检测工作的指令。手语识别指令可以通过硬件触发，例如，按钮、开关、触摸屏预设区域等；也可以通过软件触发，例如，接收到语音指令后将语音指令转换为手语识别指令等。

在接收到手语识别指令的情况下，控制手势检测传感器检测至少一个位置信息。通过手势检测传感器对目标用户进行检测，可以获取到至少一个位置信息。

在本实施例中，在接收到手语识别指令的情况下，才控制手势检测传感器进行检测，以避免手势检测传感器进行无效检测，进一步避免手语的无效识别，节约了电子设备的电能，也减轻了电子设备的处理负担。

图4是本发明实施例提供的电子设备的示意图，如图4所示，该电子设备包括一个手环和五个指环，各指环与手环连接，指环可以佩戴在目标用户的手指部，手环可以佩戴在目标用户的手腕部。在手环和各个指环上均设置有手势检测传感器，且本发明对各个位置处设置的手势检测传感器的数量不做限定，该电子设备可以在目标用户的手指和/或手腕动作时生成位置信息，并将各个位置信息发送至电子设备的处理器模块，通过电子设备的处理器模块基于各个位置信息进行手势识别。

图5是本发明实施例提供的电子设备的功能模块示意图，如图5所示，该电子设备包括传感器模块、处理器模块、人工智能增强模块、供电模块和无线通信模块。

传感器模块可以包括手势检测传感器，例如A+G陀螺仪传感器等，用于采集目标用户手势动作产生的位置信息，并可以将采集到的位置信息上传至处理器模块。

处理器模块可以接收传感器模块发送的位置信息，并通过程序算法对位置信息进行处理，输出处理后的结果数据，例如可以输出手语识别结果。处理器模块可以预制手语映射关系，从而构建手语数据库。

人工智能增强模块可以包括手语识别结果确定模型和语境确定模型等，可以实现上述各实施例中相关的技术效果。通过人工智增强模块，可以对当前语境进行识别，并借助人工智能算法通过语言环境调制手势输入结果，提高手语识别的准确度。

供电模块可以为该手语识别设备提供电能。

无线通信模块可以为该电子设备提供信息交互能力，可以实现分布式交互，例如使用手机等其他设备的麦克风完成语境采集和语音输出。无线通信模块可以包括无线连接WIFI(Wireless Fidelity)子模块、比特流BT(Bit Torrent)子模块、蓝牙(Bluetooth)子模块和全球定位系统(Global Positioning System)子模块等。多个电子设备之间可以利用无线通信模块进行通信。

电子设备可以用于手语者和非手语者之间的交流，例如，手语者A的电子设备可以通过WIFI与手机建立通讯连接，可以调用手机的麦克风，或者调用集成在电子设备的麦克风获取非手语者B的交流信息。当两个或多个手语者之间交流时，电子设备之间的蓝牙或WIFI可以直接完成配对，相互上传手语交流信息，无需麦克风即可完成交流信息的获取。

该电子设备具有低功耗、高精度、高便捷性和高灵活性的特点。由于A+G陀螺仪传感器等手势检测传感器只需要检测物体的重力方向和加速度，因此它的功耗非常低。A+G陀螺仪传感器可以检测重力方向和加速度，与传统的图像采集设备相比能实现高精度的手语识别。手势检测传感器可以集成到各种设备中，具有高便捷性；A+G陀螺仪传感器可以识别多种手势，适合应用于各种不同的场景中，灵活性较高。

本发明实施例还提供一种电子设备，该电子设备包括：

信息采集器，用于获取交流信息；

手势检测传感器，用于检测目标用户的至少一个位置信息；

处理器，用于基于各位置信息确定至少一个手语识别结果；

该处理器，还用于基于交流信息，在至少一个手语识别结果中确定目标手语识别结果；

扬声器，用于将目标手语识别结果合成语音进行播放。

本发明实施例提供的电子设备，通过信息采集器获取交流信息，通过手势检测传感器获取目标用户的至少一个位置信息；处理器基于各位置信息确定至少一个手语识别结果，并基于交流信息，在至少一个手语识别结果中确定目标手语识别结果，扬声器将该目标手语识别结果合成语音进行播放。该电子设备通过手势检测传感器检测目标用户在手语表达时每个手势动作所产生的位置信息，基于各位置信息能确定出至少一个手语识别结果，利用交流信息所表达的信息内容，可以在手语识别结果中确定出准确度较高的目标手语识别结果，使确定出的目标手语识别结果能更符合手势动作表达的本意，从而提高手语识别结果的准确度。下面对本发明实施例提供的手语识别装置进行描述，下文描述的手语识别装置与上文描述的手语识别方法可相互对应参照。

图6是本发明实施例提供的手语识别装置的结构示意图，参照图6所示，手语识别装置600包括：

第一获取单元610，用于获取交流信息；

第二获取单元620，用于获取目标用户对应的手势检测传感器检测到的至少一个位置信息；

确定单元630，用于基于各位置信息确定至少一个手语识别结果；

确定单元630，还用于基于交流信息，在至少一个手语识别结果中确定目标手语识别结果；

播放单元640，用于将目标手语识别结果合成语音进行播放。

在一种示例实施例中，确定单元630具体用于：

基于交流信息确定当前语境；

基于当前语境，在至少一个手语识别结果中确定目标手语识别结果。

在一种示例实施例中，各手语识别结果均对应有识别概率；确定单元630具体用于：

在一种示例实施例中，手语识别装置600还包括输出单元；

确定单元630，还用于在与当前语境匹配的待选择手语识别结果的数量大于1的情况下，确定每两个与当前语境匹配的待选择手语识别结果之间的语义相似度；

确定单元630，还用于在各语义相似度均大于或等于预设相似度的情况下，将任意一个与当前语境匹配的待选择手语识别结果确定为目标手语识别结果；

输出单元，用于在各语义相似度均小于预设相似度的情况下，基于目标形式输出与当前语境匹配的各待选择手语识别结果；目标形式包括文本形式和/或手语形式。

在一种示例实施例中，确定单元630具体用于：

确定至少一个交流信息对应的语义信息，并基于语义信息确定当前语境；或者，

确定所有交流信息中出现次数最多的词信息，基于词信息确定当前语境。

在一种示例实施例中，至少一个位置信息是在多个预设周期内获取到的位置信息；确定单元630具体用于：

针对各预设周期，基于预设周期内的各目标位置信息确定至少一个手势识别结果；

基于所有预设周期对应的手势识别结果，确定至少一个手语识别结果。

在一种示例实施例中，确定单元630具体用于：

确定预设周期的前预设时长内的各目标位置信息是否发生变化；

在确定预设周期的前预设时长内的各目标位置信息发生变化的情况下，基于预设周期内的各目标位置信息确定至少一个手势识别结果。

在一种示例实施例中，手语识别装置600还包括：

控制单元，用于在接收到手语识别指令的情况下，控制手势检测传感器检测至少一个位置信息。

本实施例的装置，可以用于执行手语识别方法侧实施例中任一实施例的方法，其具体实现过程与技术效果与手语识别方法侧实施例中类似，具体可以参见手语识别方法侧实施例中的详细介绍，此处不再赘述。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行手语识别方法，该方法包括：在获取到至少一个交流信息的情况下，获取目标用户对应的手势检测传感器检测到的至少一个位置信息；基于各位置信息确定至少一个手语识别结果；基于至少一个交流信息确定当前语境；基于当前语境，在至少一个手语识别结果中确定目标手语识别结果。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的手语识别方法，该方法包括：在获取到至少一个交流信息的情况下，获取目标用户对应的手势检测传感器检测到的至少一个位置信息；基于各位置信息确定至少一个手语识别结果；基于至少一个交流信息确定当前语境；基于当前语境，在至少一个手语识别结果中确定目标手语识别结果。

又一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的手语识别方法，该方法包括：在获取到至少一个交流信息的情况下，获取目标用户对应的手势检测传感器检测到的至少一个位置信息；基于各位置信息确定至少一个手语识别结果；基于至少一个交流信息确定当前语境；基于当前语境，在至少一个手语识别结果中确定目标手语识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种手语识别方法，其特征在于，包括：

获取交流信息；

基于各所述位置信息确定至少一个手语识别结果；

将所述目标手语识别结果合成语音进行播放。

2.根据权利要求1所述的手语识别方法，其特征在于，所述基于所述交流信息，在至少一个所述手语识别结果中确定目标手语识别结果，包括：

基于所述交流信息确定当前语境；

3.根据权利要求2所述的手语识别方法，其特征在于，各所述手语识别结果均对应有识别概率；

4.根据权利要求3所述的手语识别方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的手语识别方法，其特征在于，所述基于至少一个所述交流信息确定当前语境，包括：

6.根据权利要求1所述的手语识别方法，其特征在于，所述至少一个位置信息是在多个预设周期内获取到的位置信息；

7.根据权利要求6所述的手语识别方法，其特征在于，所述基于所述预设周期内的各目标位置信息确定至少一个手势识别结果，包括：

8.根据权利要求1-7任一项所述的手语识别方法，其特征在于，所述方法还包括：

9.一种电子设备，其特征在于，包括：

信息采集器，用于获取交流信息；

手势检测传感器，用于检测目标用户的至少一个位置信息；

扬声器，用于将所述目标手语识别结果合成语音进行播放。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述手语识别方法。