CN112699758B

CN112699758B - 动态手势识别的手语翻译方法、装置、计算机设备及介质

Info

Publication number: CN112699758B
Application number: CN202011547760.6A
Authority: CN
Inventors: 彭钊; 陈嘉旸
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2023-11-17
Anticipated expiration: 2040-12-23
Also published as: CN112699758A

Abstract

本发明涉及人工智能领域，公开了一种基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质，该方法包括：接收动态手语手势视频数据并获取视频数据中携带的时间戳信息；基于时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；从预设图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列；从匹配的图像序列中获取各图片的第一标识，并根据第一标识读取出各项词汇信息进行语句成分分析，生语句成分信息；将各项词汇信息和语句成分信息输入至预先训练的手语翻译模型中，输出语句。因此，本申请实施例可以将手语动作翻译为文字，使得银行业务人员能够理解听障人士的意图，从而提高听障人士与银行业务人员沟通的效率。

Description

动态手势识别的手语翻译方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能领域，特别涉及一种动态手势识别的手语翻译方法、装置、计算机设备及介质。

背景技术

据不完全统计，我国大约有2000多万以上的语言障碍人士。现有银行业务办理中，若当前用户为语言障碍人士时，业务工作人员与语言残障人士交流沟通往往存在问题，从而为其顺利办理其所需要的银行业务存在困难，一般为其办理银行业务需要很长的时间，必要时还需要懂手语的其他人员协助才能顺利为其办理银行业务，从而使得银行业务人员不能够理解听障人士的意图，从而降低了听障人士与银行业务人员沟通的效率。

因此，如何提供一种有效的手语翻译方法以及能够对存在语言障碍的人士提供手语翻译的计算机设备，以使得存在语言障碍的人士与银行工作人员顺利沟通进而提高处理银行业务的效率，是待解决的技术问题。

发明内容

基于此，有必要针对银行业务人员不能够理解听障人士的意图，从而降低了听障人士与银行业务人员沟通的效率的问题，提供一种基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质。

一种动态手势识别的手语翻译方法，接收动态手语手势视频数据，并获取动态手语手势视频数据中携带的时间戳信息；基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；加载预先创建的预设图片数据库，并从图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列；从匹配的图像序列中获取各图片的第一标识，并根据各图片的第一标识读取出对应的各项词汇信息；其中，第一标识为图片的词汇标识；将读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；将各项词汇信息和生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出动态手语手势视频数据对应的语句。

在其中一个实施例中，基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列，包括：基于携带的时间戳信息将对动态手语手势视频数据进行分割生成图像序列；获取图像序列中各图像指示的时间；基于各图像指示的时间将各图像升序排列，生成排序的图像序列。

在其中一个实施例中，从图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列，包括：从排序的图像序列中获取排在第一位的图像；计算排在第一位的图像与图片数据库中各图片之间的相似度，并确定出计算的相似度最大的图片；当相似度最大的图片对应的相似度大于预设相似度阈值时，确定相似度最大的图片为排在第一位的图像的目标图像；基于排序的图像序列中各图像的先后顺序继续获取图像进行匹配，直到排序的图像序列中各图像全部匹配结束后，生成匹配的图片序列。

在其中一个实施例中，按照以下方法步骤创建预设图片数据库，包括：采集并预处理多种具备不同含义的手语手势动作视频；将预处理后的手语手势动作视频切分为多个具备完整词汇含义的手语手势子视频；对多个具备完整词汇含义的手语手势子视频分配第一标识、第二标识、第三标识以及第四标识，生成分配标识后的多个手语手势子视频；其中，第一标识为子视频的词汇信息，第二标识为子视频所应用的银行业务场景，第三标识为子视频的子视频序号，第四标识为子视频对应多种手语手势表达形式；将分配标识后的多个手语手势子视频中每一个手语手势子视频转换成对应的图片序列，生成多个图片序列；针对多个图片序列中各序列中的图片进行校验，当校验后的结果小于等于最小差异阈值时，将多个图片序列保存至图片数据库。

在其中一个实施例中，采集手语手势动作视频的方式包括软件采集方式和/或人工采集方式；采集并预处理多种具备不同含义的手语手势动作视频，包括：当使用软件采集方式时，采用网络爬虫和/或应用程序编程接口从互联网中采集多种具备不同含义的手语手势动作视频；从采集的多种具备不同含义的手语手势动作视频中抽取与银行业务相关的手语手势动作视频；去除与银行业务相关的手语手势动作视频中动作模糊的手语手势动作视频，生成预处理后的手语手势动作视频；以及当使用人工采集方式时，统计与银行业务相关的多个场景下的语句信息；采用摄像头录制与多个场景下的语句信息所对应的手语手势动作视频；去除录制的手语手势动作视频中动作模糊的手语手势动作子视频，生成预处理后的手语手势动作视频。

在其中一个实施例中，该方法包括：所述当所述模型的损失值达到最小预设阈值时，生成预先训练的手语翻译模型，包括：当所述损失值未达到最小时，基于所述损失值对所述手语翻译模型进行调整，并执行所述将所述预设图片数据库中的图片输入所述手语翻译模型进行训练的步骤。

一种动态手势识别的手语翻译装置，装置包括：视频数据接收模块，用于接收动态手语手势视频数据，并获取动态手语手势视频数据中携带的时间戳信息；视频数据预处理模块，用于基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；图片数据库加载模块，用于加载预先创建的预设图片数据库，并从图片数据库中匹配与排序的图像序列中各图像对应的图片生成匹配的图片序列；词汇信息读取模块，用于从匹配的图像序列中获取各图片的第一标识，并根据各图片的第一标识读取出对应的各项词汇信息；其中，第一标识为图片的词汇标识；语句成分分析模块，用于将读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；语句输出模块，用于将各项词汇信息和生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出动态手语手势视频数据对应的语句。

一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述基于动态手势识别的手语翻译方法的步骤。

一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基于动态手势识别的手语翻译方法的步骤。

上述基于动态手势识别的手语翻译方法、装置、计算机设备和存储介质，在本申请实施例中，首先接收动态手语手势视频数据并获取视频数据中携带的时间戳信息，再基于时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列，并从预设图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列，然后从匹配的图像序列中获取各图片的第一标识，并根据第一标识读取出各项词汇信息进行语句成分分析，生语句成分信息，最后将各项词汇信息和语句成分信息输入至预先训练的手语翻译模型中，输出语句。由于本申请通过用户终端上传的手语手势视频从预设图片数据库中匹配相似手语手势图片进行分析，对分析出的主语、谓语、表语和宾语依序进行拼接处理，经过语句成分分析处理和拼接处理，得到一组连贯的语句，从而使得对手语的翻译与用户实际要表达的含义更加匹配，使得银行业务人员能够理解听障人士的意图，从而提高听障人士与银行业务人员沟通的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本申请一个实施例中提供的基于动态手势识别的手语翻译方法的实施环境图；

图2为本申请一个实施例中计算机设备的内部结构示意图；

图3为本申请一个实施例中提供的基于动态手势识别的手语翻译方法的方法示意图；

图4是本申请实施例提供的一种基于动态手势识别的手语翻译装置的装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

本申请的执行主体可以是用户终端、服务端与客户端、客户端与大数据平台等实时场景中，本申请以应用于服务端与客户端举例说明，例如图1所示。

图1为一个实施例中提供的基于动态手势识别的手语翻译方法的实施环境图，如图1所示，在该实施环境中，包括服务端110以及客户端120。

服务端110为计算机设备，例如为客户端120采集的手语手势视频数据进行翻译等操作的计算机设备，服务端110上安装有图片匹配等工具。客户端120上安装有手语手势视频采集等操作的应用。

当需要手语翻译时，客户端120获取当前银行业务场景下用户的动态手语手势视频数据；客户端120将当前银行业务场景下用户的动态手语手势视频数据发送至服务端110。服务端110接收动态手语手势视频数据，并获取动态手语手势视频数据中携带的时间戳信息；服务端110基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；服务端110加载预先创建的预设图片数据库，并从图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列；服务端110从匹配的图像序列中获取各图片的第一标识，并根据各图片的第一标识读取出对应的各项词汇信息；其中，第一标识为图片的词汇标识；服务端110将读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；服务端110将各项词汇信息和生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出动态手语手势视频数据对应的语句发送至客户端120。

需要说明的是，客户端120可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。服务端110以及客户端120可以通过蓝牙、USB(Universal Serial Bus，通用串行总线）或者其他通讯连接方式进行连接，本发明在此不做限制。

图2为一个实施例中计算机设备的内部结构示意图。如图2所示，该计算机设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于动态手势识别的手语翻译方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于动态手势识别的手语翻译方法。该计算机设备的网络接口用于与计算机设备连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

下面将结合附图3，对本申请实施例提供的基于动态手势识别的手语翻译方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于动态手势识别的手语翻译装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图3，为本申请实施例提供了一种基于动态手势识别的手语翻译方法的流程示意图。如图3所示，本申请实施例的方法可以包括以下步骤：

S101，接收动态手语手势视频数据，并获取动态手语手势视频数据中携带的时间戳信息；

其中，接收动态手语手势视频数据的设备可以是银行窗口设置的用户终端，该用户终端可以采集听障人士的手语手势视频数据。动态手语手势视频数据为听障人士作出的一系列手语手势图像帧序列，该手语手势图像帧序列中各手语手势图像携带图像采集时的时刻。

通常，在接收动态手语手势视频数据之前，用户终端通过摄像头获取当前银行业务场景下用户的动态手语手势视频数据，然后将当前银行业务场景下用户的动态手语手势视频数据发送至用户终端的处理器进行处理操作。

在一种可能的实现方式中，听障人士需要在银行办理业务时，听障人士对着用户终端的摄像头做出手语手势，用户终端通过摄像头实时采集听障人士的手语手势图像，并对手语手势图像添加时间戳标记，最后将带有时间戳标记的手语手势图像序列发送至用户终端的处理器，用户终端的处理器接收用户终端发送的手语手势图像序列，并获取每一张图像的时间戳信息。

S102，基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；

在本申请实施例中，在进行图像预处理时，首先基于携带的时间戳信息将对动态手语手势视频数据进行分割生成图像序列，然后获取图像序列中各图像指示的时间，最后基于各图像指示的时间将各图像升序排列，生成排序的图像序列。

S103，加载预先创建的预设图片数据库，并从图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列；

在本申请实施例中，创建预设图片数据库时，首先采集并预处理多种具备不同含义的手语手势动作视频，再将预处理后的手语手势动作视频切分为多个具备完整词汇含义的手语手势子视频，再对多个具备完整词汇含义的手语手势子视频分配第一标识、第二标识、第三标识以及第四标识，生成分配标识后的多个手语手势子视频，其中，第一标识为子视频的词汇信息，第二标识为子视频所应用的银行业务场景，第三标识为子视频的子视频序号，第四标识为子视频对应多种手语手势表达形式，然后将分配标识后的多个手语手势子视频中每一个手语手势子视频转换成对应的图片序列，生成多个图片序列，最后针对多个图片序列中各序列中的图片进行校验，当校验后的结果小于等于最小差异阈值时，将多个图片序列保存至图片数据库。

进一步的，采集手语手势采集手语手势动作视频的方式包括软件采集方式和/或人工采集方式，当使用软件采集方式时，首先采用网络爬虫和/或应用程序编程接口从互联网中采集多种具备不同含义的手语手势动作视频，然后从采集的多种具备不同含义的手语手势动作视频中抽取与银行业务相关的手语手势动作视频，最后去除与银行业务相关的手语手势动作视频中动作模糊的手语手势动作视频，生成预处理后的手语手势动作视频。

具体的，在采用软件方式收集手势动作数据，需要针对不同地区，以及不同应用场景进行进一步地筛选。例如，对于大数据收集到的所有存在语言障碍的人士的手势动作数据中仅仅筛选出与银行业务场景相关联的手势动作数据；通过对手势动作数据进行预先筛选，减少了待处理手势动作数据的数量，进而提高了处理数据的效率。

在本申请实施例中，针对软件方式收集的不同地区，若具有同一词汇含义的词汇信息可能存在多种手语表达形式时，对上述手势动作子视频进一步打第四标识，第四标识用于标识出不同地区所具有的手势动作。为了简化数据处理效率，针对于不同地区具有同一词汇含义的手势动作子视频均具有同一个第三标识，这样，确保了在某一类银行应用场景下，不同地区具有相同或相似词汇含义的手势动作子视频均具有同一个且唯一的第三标识。

进一步地，当使用人工采集方式时，首先统计与银行业务相关的多个场景下的语句信息，然后采用摄像头录制与多个场景下的语句信息所对应的手语手势动作视频，最后去除录制的手语手势动作视频中动作模糊的手语手势动作子视频，生成预处理后的手语手势动作视频。

具体的，在使用人工采集方式时，采用银行业务人员与懂手语的人士协作共同完成银行业务中常用的手势动作视频与对应的词汇信息的视频录制过程。银行工作人员可以预先统计出存在语言障碍的人士办理银行业务的词汇信息，并针对不同银行业务场景下的不同词汇信息拍摄对应的手势动作视频。为了便于区分，可以针对每一个具有独立含义的词汇信息对应于一个手势动作子视频。

在实际应用场景中，为了提高数据处理效率，可以针对每一个具有独立含义的词汇信息，以及对应的手势动作子视频之间建立一一对应的映射关系，还可以同步打上标识，例如，每一个具有独立含义的手势动作子视频可以打上如下标识，标识包括第一标识、第二标识和第三标识，第一标识用于标识出当前手势动作子视频具有的词汇信息，第二标识用于标识出当前手势动作子视频所应用的银行业务场景，第三标识用于标识出当前手势动作子视频处于当前某一类银行应用场景下的手势动作子视频序号，该手势动作子视频序号是唯一的。

在一种可能的实现方式中，首先从排序的图像序列中获取排在第一位的图像，然后计算排在第一位的图像与图片数据库中各图片之间的相似度，并确定出计算的相似度最大的图片，再当相似度最大的图片对应的相似度大于预设相似度阈值时，确定相似度最大的图片为排在第一位的图像的目标图像，最后基于排序的图像序列中各图像的先后顺序继续获取图像进行匹配，直到排序的图像序列中各图像全部匹配结束后，生成匹配的图片序列。

S104，从匹配的图像序列中获取各图片的第一标识，并根据各图片的第一标识读取出对应的各项词汇信息；其中，第一标识为图片的词汇标识；

在本申请实施例中，根据步骤S103从图片数据库中匹配到与用户终端采集的手语手势相似的手语手势图片后，该匹配的手语手势图片序列可看作当前银行业务办理的听障人士表达手语手势图片，由于预先生成的图像数据库中的图片中都携带了不同的标识，该标识代表该图像中手势所表达的不同含义，标识包括第一标识、第二标识、第三标识和第四标识，第一标识用于标识出当前第一图片具有的词汇信息，第二标识用于标识出当前第一图片所应用的银行业务场景，第三标识用于标识出当前第一图片处于当前某一类银行应用场景下的第一图片序号，该第一图片序号在第一图片库中是唯一的，第四标识用于标识出当前第一图片的手势动作对应的区域。

进一步地，首先读取第一标识，根据标识和词汇信息的映射关系读取出对应的各项词汇信息。

S105，将读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；

在一种可能的实现方式中，在基于步骤S104读取出匹配图片中的词汇信息后，对上述依次得到的各项词汇信息进行语句成分的分析，得到各项词汇信息对应的语句成分信息。

具体地，语句分析的过程为：分析各项词汇信息的语句成分，即：分析各项词汇信息是主语，还是谓语，还是表语，或者是宾语。

S106，将各项词汇信息和生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出动态手语手势视频数据对应的语句。

其中，手语翻译模型是预先创建后训练的模型，可以根据语句成分信息和各项词汇信息得出动态手语手势视频数据对应的语句。

通常，在进行手语翻译模型训练时，首先采用神经网络算法创建手语翻译模型，然后将预设图片数据库中的图片输入手语翻译模型进行训练，输出模型的损失值，最后当模型的损失值达到最小预设阈值时，生成预先训练的手语翻译模型。

在一种可能的实现方式中，在基于步骤S105得到分析各项词汇信息的语句成分以及各项词汇信息后，加载预先训练的手语翻译模型，然后将分析各项词汇信息的语句成分以及各项词汇信息输入到手语翻译模型中，手语翻译模型根据不同语言的表达习惯和语句成分信息，对各项词汇信息进行拼接，在拼接的同时，考虑各项词汇信息输出的时间信息，最终拼接出能够连贯表达的语句。

进一步地，在拼接出能够连贯表达的语句后，用户终端将连贯表达的语句发送至用户终端的显示屏展示给银行业务办理人员，展示够连贯表达的语句的方式可以为以屏幕字幕的形式进行展示，也可以以语音播放的形式进行输出，这样，提高了用户体验度。

在本申请实施例中，用户终端首先接收动态手语手势视频数据并获取视频数据中携带的时间戳信息，再基于时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列，并从预设图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列，然后从匹配的图像序列中获取各图片的第一标识，并根据第一标识读取出各项词汇信息进行语句成分分析，生语句成分信息，最后将各项词汇信息和语句成分信息输入至预先训练的手语翻译模型中，输出语句。由于本申请通过用户终端上传的手语手势视频从预设图片数据库中匹配相似手语手势图片进行分析，对分析出的主语、谓语、表语和宾语依序进行拼接处理，经过语句成分分析处理和拼接处理，得到一组连贯的语句，从而使得对手语的翻译与用户实际要表达的含义更加匹配，使得银行业务人员能够理解听障人士的意图，从而提高听障人士与银行业务人员沟通的效率。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图4，其示出了本发明一个示例性实施例提供的基于动态手势识别的手语翻译装置的结构示意图。该基于动态手势识别的手语翻译系统可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括视频数据接收模块10、视频数据预处理模块20、图片数据库加载模块30、词汇信息读取模块40、语句成分分析模块50、语句输出模块60。

视频数据接收模块10，用于接收动态手语手势视频数据，并获取动态手语手势视频数据中携带的时间戳信息；

视频数据预处理模块20，用于基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；

图片数据库加载模块30，用于加载预先创建的预设图片数据库，并从图片数据库中匹配与排序的图像序列中各图像对应的图片生成匹配的图片序列；

词汇信息读取模块40，用于从匹配的图像序列中获取各图片的第一标识，并根据各图片的第一标识读取出对应的各项词汇信息；其中，第一标识为图片的词汇标识；

语句成分分析模块50，用于将读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；

语句输出模块60，用于将各项词汇信息和生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出动态手语手势视频数据对应的语句。

需要说明的是，上述实施例提供的基于动态手势识别的手语翻译系统在执行基于动态手势识别的手语翻译方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于动态手势识别的手语翻译系统与基于动态手势识别的手语翻译方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在一个实施例中，提出了一种计算机设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：接收动态手语手势视频数据，并获取动态手语手势视频数据中携带的时间戳信息；基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；加载预先创建的预设图片数据库，并从图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列；从匹配的图像序列中获取各图片的第一标识，并根据各图片的第一标识读取出对应的各项词汇信息；其中，第一标识为图片的词汇标识；将读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；将各项词汇信息和生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出动态手语手势视频数据对应的语句。

在一个实施例中，处理器执行基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列时，具体执行以下步骤：基于携带的时间戳信息将对动态手语手势视频数据进行分割生成图像序列；获取图像序列中各图像指示的时间；基于各图像指示的时间将各图像升序排列，生成排序的图像序列。

在一个实施例中，处理器执行从图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列时，从排序的图像序列中获取排在第一位的图像；计算排在第一位的图像与图片数据库中各图片之间的相似度，并确定出计算的相似度最大的图片；当相似度最大的图片对应的相似度大于预设相似度阈值时，确定相似度最大的图片为排在第一位的图像的目标图像；基于排序的图像序列中各图像的先后顺序继续获取图像进行匹配，直到排序的图像序列中各图像全部匹配结束后，生成匹配的图片序列。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收动态手语手势视频数据，并获取动态手语手势视频数据中携带的时间戳信息；基于携带的时间戳信息将动态手语手势视频数据进行预处理，生成排序的图像序列；加载预先创建的预设图片数据库，并从图片数据库中匹配与排序的图像序列中各图像对应的图片，生成匹配的图片序列；从匹配的图像序列中获取各图片的第一标识，并根据各图片的第一标识读取出对应的各项词汇信息；其中，第一标识为图片的词汇标识；将读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；将各项词汇信息和生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出动态手语手势视频数据对应的语句。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种动态手势识别的手语翻译方法，其特征在于，所述方法包括：

接收动态手语手势视频数据，并获取所述动态手语手势视频数据中携带的时间戳信息；

基于所述携带的时间戳信息将所述动态手语手势视频数据进行预处理，生成排序的图像序列；

加载预先创建的预设图片数据库，并从所述图片数据库中匹配与所述排序的图像序列中各图像对应的图片，生成匹配的图片序列；其中，

所述从所述图片数据库中匹配与所述排序的图像序列中各图像对应的图片，生成匹配的图片序列，包括：

从所述排序的图像序列中获取排在第一位的图像；

计算所述排在第一位的图像与所述图片数据库中各图片之间的相似度，并确定出所述计算的相似度最大的图片；

当所述相似度最大的图片对应的相似度大于预设相似度阈值时，确定所述相似度最大的图片为所述排在第一位的图像的目标图像；

基于所述排序的图像序列中各图像的先后顺序继续获取图像进行匹配，直到所述排序的图像序列中各图像全部匹配结束后，生成匹配的图片序列；

从所述匹配的图像序列中获取各图片的第一标识，并根据所述各图片的第一标识读取出对应的各项词汇信息；其中，所述第一标识为图片的词汇标识；

将所述读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；

将所述各项词汇信息和所述生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出所述动态手语手势视频数据对应的语句；

其中，按照以下方法步骤创建预设图片数据库，包括：

采集并预处理多种具备不同含义的手语手势动作视频；

将所述预处理后的手语手势动作视频切分为多个具备完整词汇含义的手语手势子视频；

对所述多个具备完整词汇含义的手语手势子视频分配第一标识、第二标识、第三标识以及第四标识，生成分配标识后的多个手语手势子视频；

其中，所述第一标识为所述子视频的词汇信息，所述第二标识为所述子视频所应用的银行业务场景，所述第三标识为所述子视频的子视频序号，所述第四标识为所述子视频对应多种手语手势表达形式；

将所述分配标识后的多个手语手势子视频中每一个手语手势子视频转换成对应的图片序列，生成多个图片序列；

针对所述多个图片序列中各序列中的图片进行校验，当所述校验后的结果小于等于最小差异阈值时，将所述多个图片序列保存至图片数据库。

2.根据权利要求1所述的方法，其特征在于，所述基于所述携带的时间戳信息将所述动态手语手势视频数据进行预处理，生成排序的图像序列，包括：

基于所述携带的时间戳信息将对所述动态手语手势视频数据进行分割生成图像序列；

获取所述图像序列中各图像指示的时间；

基于所述各图像指示的时间将所述各图像升序排列，生成排序的图像序列。

3.根据权利要求1所述的方法，其特征在于，采集手语手势动作视频的方式包括软件采集方式和/或人工采集方式；

所述采集并预处理多种具备不同含义的手语手势动作视频，包括：

当使用所述软件采集方式时，采用网络爬虫和/或应用程序编程接口从互联网中采集多种具备不同含义的手语手势动作视频；

从所述采集的多种具备不同含义的手语手势动作视频中抽取与银行业务相关的手语手势动作视频；

去除所述与银行业务相关的手语手势动作视频中动作模糊的手语手势动作视频，生成预处理后的手语手势动作视频；以及

当使用所述人工采集方式时，统计与银行业务相关的多个场景下的语句信息；

采用摄像头录制与所述多个场景下的语句信息所对应的手语手势动作视频；

去除所述录制的手语手势动作视频中动作模糊的手语手势动作子视频，生成预处理后的手语手势动作视频。

4.根据权利要求1所述的方法，其特征在于，按照以下方法步骤生成预先训练的手语翻译模型，包括：

采用神经网络算法创建手语翻译模型；

将所述预设图片数据库中的图片输入所述手语翻译模型进行训练，输出所述模型的损失值；

当所述模型的损失值达到最小预设阈值时，生成预先训练的手语翻译模型。

5.根据权利要求4所述的方法，其特征在于，所述当所述模型的损失值达到最小预设阈值时，生成预先训练的手语翻译模型，包括：

当所述损失值未达到最小时，基于所述损失值对所述手语翻译模型进行调整，并执行所述将所述预设图片数据库中的图片输入所述手语翻译模型进行训练的步骤。

6.一种动态手势识别的手语翻译装置，其特征在于，所述装置包括：

视频数据接收模块，用于接收动态手语手势视频数据，并获取所述动态手语手势视频数据中携带的时间戳信息；

视频数据预处理模块，用于基于所述携带的时间戳信息将所述动态手语手势视频数据进行预处理，生成排序的图像序列；

图片数据库加载模块，用于加载预先创建的预设图片数据库，并从所述图片数据库中匹配与所述排序的图像序列中各图像对应的图片生成匹配的图片序列；其中，所述从所述图片数据库中匹配与所述排序的图像序列中各图像对应的图片，生成匹配的图片序列，包括：

从所述排序的图像序列中获取排在第一位的图像；

词汇信息读取模块，用于从所述匹配的图像序列中获取各图片的第一标识，并根据所述各图片的第一标识读取出对应的各项词汇信息；其中，所述第一标识为图片的词汇标识；

语句成分分析模块，用于将所述读取出的各项词汇信息进行语句成分分析，生成各项词汇信息对应的语句成分信息；

语句输出模块，用于将所述各项词汇信息和所述生成各项词汇信息对应的语句成分信息输入至预先训练的手语翻译模型中，输出所述动态手语手势视频数据对应的语句；

其中，按照以下方法步骤创建预设图片数据库，包括：

采集并预处理多种具备不同含义的手语手势动作视频；

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项权利要求所述动态手势识别的手语翻译方法的步骤。

8.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述动态手势识别的手语翻译的步骤。