CN113822187A

CN113822187A - 手语翻译、客服、通信方法、设备和可读介质

Info

Publication number: CN113822187A
Application number: CN202111059975.8A
Authority: CN
Inventors: 王琪; 孙可; 程荣亮; 祖新星; 张家硕; 吴淑明; 林淼
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-21

Abstract

本申请实施例提供了一种手语翻译、客服、通信方法、设备和可读介质，以便捷的进行手语翻译。所述方法包括：获取图像采集单元采集的手语视频数据；对所述手语视频数据的帧图像进行断句检测，确定断句节点，以对所述手语视频数据以句子为基准进行语义翻译；确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息；输出所述手语翻译信息。能够基于断句节点对所述手语视频数据分片段对手语进行翻译，提高翻译效率，从而便捷的进行手语翻译。

Description

手语翻译、客服、通信方法、设备和可读介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种手语翻译方法、一种手语客服方法、一种手语通信方法、一种终端设备和一种机器可读介质。

背景技术

听障人士、聋哑人士等通常是通过手语进行沟通，手语(sign language)是用手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，它是听力障碍或者无法言语的人互相交际和交流思想的一种手的语言。

然而在日常生活中，能够掌握手语的人员非常少，使得听障人士、聋哑人士等难以与其他人沟通，影响日常生活的方方面面。

发明内容

本申请实施例提供了一种手语翻译方法，以便捷的进行手语翻译。

相应的，本申请实施例还提供了一种手语客服方法、一种手语通信方法、一种手语教学方法、一种电子设备和一种机器可读介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种翻译方法，包括：获取图像采集单元采集的手语视频数据；对所述手语视频数据的帧图像进行断句检测，确定断句节点，以对所述手语视频数据以句子为基准进行语义翻译；确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息；输出所述手语翻译信息。

可选的，所述对所述手语视频数据的帧图像进行断句检测，确定断句节点，包括：依次检测所述手语视频数据中各帧图像中是否满足断句条件；如果不满足断句条件，则将所述帧图像加入到缓存中；如果满足断句条件，则依据所述帧图像确定断句节点。

可选的，所述确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息，包括：对所述图像帧集合进行手语识别处理，确定对应的手语词汇序列；对所述手语词汇序列按照自然语言规则进行分析，确定自然语言对应的手语识别文本；依据所述手语识别文本生成手语翻译信息。

可选的，所述依据手语识别文本生成手语翻译信息，包括：将手语识别结果中的手语识别文本作为手语翻译信息；和/或采用手语识别结果中的手语识别文本进行语音合成，将合成的手语翻译语音作为手语翻译信息。

可选的，还包括：提供手语翻译页面；在所述手语翻译页面中播放所述手语视频数据；所述输出所述手语翻译信息，包括：在所述手语翻译页面中显示手语识别文本，和/或，基于所述手语翻译页面播放所述手语翻译音频。

可选的，还包括：响应于对所述手语翻译页面中语言选择控件的触发，显示语言可选项；响应于对语言可选项的触发，确定选择的目标语言，所述目标语言为手语视频数据翻译的语言。

可选的，响应于输出调整指令，调整所述手语翻译信息的输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。

可选的，基于设定条件确定场景信息，并依据所述场景信息确定场景参数，以通过所述场景参数辅助手语翻译。

本申请实施例还公开了一种手语翻译方法，所述方法包括：提供手语翻译页面；通过图像采集组件采集第一手语视频数据，并在所述手语翻译页面的手语输入区域显示所述第一手语视频数据；获取所述第一手语视频数据对应的手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；通过所述手语翻译页面输出所述手语翻译信息；通过音频输入组件采集语音数据；获取采集的语音数据对应合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述语音数据的语义执行手语的视频数据；在所述手语翻译页面的手语输出区域显示所述第二手语视频数据。

本申请实施例公开了一种手语客服方法，所述方法包括：提供手语客服页面；通过图像采集组件采集第一手语视频数据，并在所述手语客服页面的手语输入区域显示所述第一手语视频数据；确定所述第一手语视频数据对应的手语翻译信息，以在客服页面中输出所述手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；接收依据客服的服务答复信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述服务答复信息的语义执行手语的视频数据；在所述手语客服页面的手语输出区域显示所述第二手语视频数据。

可选的，还包括：确定服务信息对应包含虚拟形象的服务手语视频数据，所述服务信息的内容类型包括以下至少一种：提示信息、场景常用语；在检测到符合服务条件时，在所述手语翻译页面中播放所述服务手语视频数据。

可选的，还包括：在所述手语翻译页面中显示指示元素，所述指示元素用于指示输入、输出状态；所述指示元素包括以下至少一种：文字指示元素、动态指示元素、颜色指示元素。

本申请实施例公开了一种手语通信方法，所述方法包括：提供视频通信页面；通过图像采集组件采集第一视频数据，并在所述视频通话页面的本端显示区域显示所述第一视频数据，所述第一视频数据包括第一手语视频数据；在所述视频通话页面的本端显示区域显示所述第一手语视频数据的手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；接收根据对端的通信信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述通信信息的语义执行手语的视频数据，所述通信信息包括文本信息、语音信息和视频信息中的至少一种；在所述视频通话页面的对端显示区域显示所述第二手语视频数据。

本申请实施例公开了一种手语教学方法，所述方法包括：提供手语教学页面；在所述手语教学页面显示目标教学信息；通过图像采集组件采集第一手语视频数据，并在所述手语教学页面的手语输入区域显示所述第一手语视频数据，所述第一手语视频数据为手语用户依据所述目标教学信息执行手语的视频数据；上传所述第一手语视频数据；接收所述第一手语视频数据对应的手语翻译信息，以及合成的第二手语视频数据，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的，所述第二手语视频数据为所述虚拟形象执行所述目标教学信息的手语教学视频数据；在所述手语教学页面的手语输出区域显示所述第二手语视频数据，以便手语用户学习手语。

本申请实施例公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中任一项所述的方法。

本申请实施例公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中任一项所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，在采集手语视频数据后，可对手语视频数据的帧图像进行断句检测，实时检测各帧图像，从而能够基于断句节点对所述手语视频数据进行语义翻译，确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息，从而能够分片段对手语进行翻译，提高翻译效率，然后输出所述手语翻译信息，从而便捷的进行手语翻译。

附图说明

图1是本申请实施例的一种手语翻译场景的示意图；

图2是本申请的一种手语翻译方法实施例的步骤流程图；

图3是本申请实施例的一种手语翻译示例的示意图；

图4A是本申请实施例的一种手语翻译页面示例的示意图；

图4B是本申请的一种手语客服方法实施例的步骤流程图；

图4C是本申请实施例的另一种手语翻译场景的示意图；

图5A、图5B是本申请实施例的一种指示元素的示例的示意图；

图6是本申请的另一种手语翻译方法实施例的步骤流程图；

图7是本申请的另一种手语翻译方法实施例的步骤流程图；

图8是本申请的一种双向手语翻译方法实施例的步骤流程图；

图9是本申请的一种无障碍通信方法实施例的交互示意图；

图10是本申请的一种手语教学方法实施例的步骤流程图；

图11是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例中可应用于各种需要手语翻译的场景中。例如在听障人士、聋哑人士等目标用户进行购物、就医、法律服务等面对面交流的场景中，本申请实施例能够提供手语翻译服务，可以提供翻译页面，能够采集需要翻译的手语视频数据，然后进行翻译并输出翻译信息。本申请实施例不需要第三方用户作为翻译，而是自动识别听障人士、聋哑人士等目标用户的手语，输出翻译的语音、文本等数据。用户可使用手机、平板以及电脑等各种电子设备执行本申请实施例的翻译方法。

本申请实施例的电子设备可具有图像采集组件、显示组件、音频输入/输出组件等，如摄像头、显示器、麦克风、音响等组件。从而能够进行图像、视频、音频数据的采集、播放。本申请实施例中，可通过摄像头等图像采集设备采集手语视频数据，然后通过手语识别模型对手语视频数据进行手语识别，实现针对手语的自动翻译，得到对应的手语翻译信息。然后采用终端设备输出手语翻译信息，便于非手语用户明白手语用户所表达的意思。如图1所示为一种手语翻译场景的示例中，手语用户使用手机进行手语翻译，手机的摄像头等图像采集设备采集手语视频数据，并且可将采集的手语视频数据显示在手机上，方便手语用户查看自己的手语状态。然后通过手语识别模型对手语视频数据进行手语识别，实现针对手语的自动翻译，得到对应的手语翻译信息，可通过文本的形式将翻译文本显示在手机的显示屏上，也可通过语音的形式采用手机播放翻译的语音，使得非手语用户能够了解该手语的意思。

本申请实施例可对手语进行实时的识别和翻译，当然也可应用到非实时手语视频的翻译中，如对预先录制好的手语视频数据进行翻译等，具体可依据需求确定。其中，可在采集手语视频数据并分析所采集的手语视频数据中用户的手语是否输入完毕，该手语输入完毕可以理解为一句手语句子输入完毕，也可理解为手语用户指示当前输入完毕等，具体可依据断句条件确定，从而基于断句对于手语视频数据进行语义翻译。

参照图2，示出了本申请的一种手语翻译方法实施例的步骤流程图。

步骤202，获取图像采集单元采集的手语视频数据。

终端设备可通过摄像头等图像采集组件采集手语视频数据，服务端可接收终端设备采集的手语视频数据。该手语视频数据至少包括面部影像和手语影像。其中，该面部影像和手语影像用于手语识别。其中，对于手语视频数据的识别可以句子为基准进行语义翻译，逐句对手语进行识别。

其中，服务端可提供手语翻译页面，该手语翻译页面用于执行手语翻译。因此在一些实施例中，可在该手语翻译页面中显示手语视频数据。如在摄像头采集手语视频数据的同时，在手语翻译页面中显示所采集的手语视频数据。本申请实施例中，还可在手语翻译页面中显示提示信息，如针对拍摄位置的提示信息以便提醒手语用户，在指定的区域进行手语视频的拍摄，避免拍摄不完整，导致翻译不准确。其中，针对拍摄位置的提示信息包括以下至少一种文本提示信息、线条提示信息等。

为了更准确的识别手语用户的手语，可以在手语翻译页面设置手语识别区，该手语识别区能够使得手语用户的手语位于图像采集组件的采集区域内，从而减少识别失败率。相应可设置手语识别区的提示信息，以进行输入位置区域的提示。该手语识别区的提示信息可为多种形式的信息，如为文本提示信息，通过文本提示手语用户摆正姿势、位于采集区域中间等。也可为线条提示信息，如线条提示信息呈现为人性区域，以提示出手语用户身体所在的区域，从而保证手语的采集，或者各种信息相结合，通过文本提示用户身体要位于虚线框中等。

步骤204，对所述手语视频数据的帧图像进行断句检测，以对所述手语视频数据以句子为基准进行语义翻译。

本申请实施例对采集的手语视频数据进行实时的识别，因此对采集的手语视频数据进行断句检测。该断句检测指的是对手语视频数据中手语停止与否进行检测。针对断句检测可设置断句条件，例如手语动作停止的第一断句条件，又如手语用户指示停止的第二断句条件等。一般情况下，手语用户在执行手语时，在一句话的手语完毕后会有一个停顿，可以是1-2秒或者更长，在视频数据中1秒通常是24帧图像以上，因此可基于手语视频数据的图像帧检测手语动作是否停止来实现断句检测，可据此设置第一断句条件。还可默认设置第二断句条件，或由手语用户自定义停止的第二断句条件，第二断句条件可设置相应的停止动作或停止手势，如一只手水平，另一只手垂直位于水平的手下的停止手势，又如手掌从张开到握拳变化的手势动作等。因此对所述手语视频数据的帧图像进行断句检测可包括：对所述手语视频数据的帧图像进行检测，确定手语停止对应的目标帧图像，该目标帧图像为满足断句条件的帧图像。因此可在采集手语视频数据的同时对手语视频数据中各帧图像依次进行检测，检测所述图像帧中是否满足断句条件，如果不满足断句条件则继续检测，如果满足断句条件则确定将对应的帧图像确定为目标帧图像，该目标帧图像为断句节点。其中，为了提高检测的准确性，针对断句检测，连续检测满足断句条件的时间超过断句时间，或连续检测满足断句条件的图像帧的数量超过断句数量的基础上，确定当前为满足断句条件。之前可将该连续满足断句条件的图像帧中首个图像帧或者某个指定图像帧确定为断句节点对应的目标图像帧。另外一些示例中，也可指定某一时间点、时间戳为断句节点。

在一些实施例中，可对手语视频数据中各帧图像进行特征提取，将从图像中提取的手语特征存储到缓存队列中，并同步执行断句检测，在检测到断句节点后，将缓存队列中的手语特征数据集输入到属于识别模型中进行识别。

步骤206，确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息。

可基于断句节点确定停止手语的时间点或图像帧，然后可从缓存如缓存队列等获取在该断句节点之前的缓存数据，该缓存数据为手语视频数据的图像帧集合。在一些可选实施例中，可以预先从图像帧中提取手语特征存储到缓存队列中，因此所获取的图像帧集合可为各图像帧的特征集合。本申请实施例中，手语特征可通过各种特征提取模型来提取，这些特征提取模型可为各种机器学习、神经网络等训练的模型。在另外一些示例中，特征提取模型也可为手语视觉结构化模型，所述手语视觉结构化模型用于从手语视频数据中提取手语结构化特征。手语视觉结构化模型可基于视觉结构化信息进行特征提取和模型训练。其中，结构化可理解为对一个事务或物体进行描述或表达的一种信息，例如视觉结构化信息可以理解为描述视觉的结构化特征的信息，如物体的形状、轮廓、颜色、纹理等多层次的结构化特征，具体的结构化特征可依据应用场景确定。本申请实施例中，可基于手语视频数据提取视觉结构化要素，所述视觉结构化要素指的是与手语相关的细粒度的结构化视觉线索信息，如感兴趣区域(Region Of Interest，ROI)、人体姿态关键点(pose)、手部区域模糊分类信息等。然后可采用多任务的卷积神经网络同时进行物体检测、姿态估计、模糊检测等任务。

一个示例中，可基于空间结构化模型，对手语的节点、连接、部件等结构化要素进行结构化建模以及识别。空间结构化模型所需的空间信息包括空间的节点、连接和部件等空间结构化要素，通过空间结构化模型可对上述三种空间结构化要素进行分析。其中，节点(node)包括运动节点和位置节点，所述位置节点用于描述节点在2D空间中的图像坐标Node(x,y)。所述运动节点用于表达节点在2D空间中的图像坐标以及距离参考节点的偏移量，所述参考节点指的是运动节点对应的参考节点，如相应运动节点在静止位置的节点为参考节点，如肘部的参考节点，手腕的参考节点等。连接(Joint)描述了运动节点之间的2D空间矢量关系，如运动节点间的角度、距离等信息。部件(Part)包含手语相关的部件，如头部(R0)、左手(R1)、右手(R2)三个部件。这些部件中包含了丰富的信息，如头部包含了各种面部器官及表情表达，左右手可以表达不同的手势和朝向等信息。针对空间结构化模型其可以对图像进行2D空间的量化，定义节点在2D空间的位置等。结合各节点在所有节点中的权重等信息，学习各节点在空间中的关系，如通过节点，节点之间的连接以及所在的部件来描述空间结构化特征。从而能够基于上述结构化模型获取手语视频数据中的显性特征，更加准确的描述手语。其中，手语视觉结构化模型可基于空间结构化模型学习2D图像空间中关键点、连接、部件之间的矢量关系和空间特征表达。本申请实施例中，对于手语特征的数据集合还可通过时序模型来确定手语的时序顺序，如基于时序结构化模型进行时序空间特征建模，得到稳定的手语时序特征。

在获取到手语特征的数据集合后，可基于该手语特征集合进行手语识别，得到对应的手语词汇序列；对所述手语词汇序列按照自然语言规则进行分析，确定自然语言对应的手语识别文本；依据所述手语识别文本生成手语翻译信息。可以对手语特征集合进行手语识别，得到对应的手语词汇并基于特征的时序关系确定手语词汇的时序，得到手语词汇序列，然后对该手语词汇序列按照自然语言规则进行分析，其中，可基于不同的语种来确定相应的自然语言规则，从而组织该手语词汇的语义，得到相应自然语言对应的手语识别文本。其中，该自然语言是可以理解为自然地随文化演化的语言，即通过发音方式输出的语言。如汉语、英语、法语、日语等，也可为一种语言下的方言，如粤语、闽南语、上海话等方言。还可基于文本到语音(TextToSpeech，TTS)的语音技术将手语识别文本翻译成语音数据。

本申请实施例中，针对手语视频数据的特征提取以及识别过程可均在终端设备或服务端完成，也可在终端设备侧进行特征提取，然后在服务端执行手语识别，最终将翻译结果反馈到终端设备侧，具体可依据需求确定。

如图3所示的一种实时手语识别的示例。用户执行手语，设备可通过摄像头等图像采集组件采集手语视频数据，然后对该手语视频数据进行处理，可同步进行特征提取和断句检测，其中，特征提取可从手语视频数据的各图像帧中提取手语特征，如手语的结构化特征等。并可将提取的手语特征放入到缓存队列中。断句检测模块可对手语视频数据中各帧图像进行检测，依次判断各帧图像中是否满足断句条件，如果检测到满足断句条件的图像帧满足断句条件，则可确定存在断句节点。在检测到断句节点后，可将缓存队列中的手语特征集合输入到时序模型中，并清空该缓存队列。之后继续执行特征提取和断句检测直到结束采集手语视频数据，该结束采集可以指持续没有检测到手语动作。针对从缓存队列中输入到时序模型的手语特征集合，可以基于时序模型检测对应的手语词汇并确定手语词汇的时序，从而输出手语词汇序列，如手语词汇1(gloss1)、手语词汇2(gloss2)，手语词汇3(gloss3)……。将手语词汇序列输入到转换模型中，该转换模型可为手语词汇到自然语言文本的转换，该转换模型用于将手语词汇序列识别成自然语言文本。本申请实施例中，还可包括纠错模型，该纠错模型可以对手语识别文本进行检测，判断是否为正确的自然语言的句子。如果不是则进行纠错，调整为自然语言的句子，输入是在可将该手语识别文本输入到TTS(TextToSpeech，文本到语音技术)模型中，将手语识别文本转换为语音翻译信息。得到该手语视频数据对应的手语翻译信息。

步骤208，输出所述手语翻译信息。

对于服务端侧，可将手语翻译信息输出给终端设备，以便在终端设备侧展示。在终端设备侧可在手语翻译页面中显示手语识别文本，也可通过终端设备播放手语翻译语音，具体可依据需求确定。

本申请实施例在采集手语视频数据后，可实时对手语视频数据的帧图像进行断句检测，实时检测各帧图像，从而能够对所述手语视频数据以句子为基准进行语义翻译，确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息，实现对手语的实时翻译，然后输出所述手语翻译信息，从而便捷的进行手语翻译。

使用手语的用户一般分为几种情况，如具有听力障碍的听障用户，不能说话的语障用户，或者这两种情况均存在的用户，可称为聋哑用户。本申请实施例中将执行手语的用户称为手语用户。本申请实施例的手语翻译页面可基于具体的情况进行设置，如针对语障用户，可仅提供手语翻译，而对于听障用户、聋哑用户等，还可在手语翻译页面中提供针对自然语言的手语翻译，即将自然语言翻译手语，驱动虚拟形象进行手语并合成视频数据，从而便于手语用户和其他用户的双向交流。具体可以依据用户的需求设置，本申请实施例对此不做限制。其中针对双向翻译的场景，该手语翻译页面包括手语输入区域和手语输出区域，如图4A所示的一种手语翻译页面的示例。所述手语输入区域用于针对采集的手语视频数据进行展示，所采集的手语视频数据中执行手语的用户为真实用户，而手语输出区域用于展示合成的手语视频数据。在所述手语翻译页面的手语输入区域播放所述手语视频数据；在所述手语翻译页面的手语输出区域播放合成的手语视频数据，所述合成的手语视频数据为采用虚拟形象执行手语的视频数据，虚拟形象执行的手语依据输入信息确定。对于非手语用户，可通过语音或文本等方式进行信息输入，相应的输入信息可进行语义分析，然后基于语义翻译为手语，驱动虚拟形象执行手语，包括驱动虚拟形象的手部动作和/或面部表情，并合成对应的手语视频数据，之后可在手语输出区域中展示，即通过驱动虚拟形象执行手语的方式，使得手语用户可以观看到手语，理解其他用户表达的意思。从而通过上述手语翻译为自然语音，以及自然语音翻译为手语的示例，本申请实施例的手语翻译页面可提供手语的自动翻译，对于手语视频可通过语音、文本等输出翻译的自然语言，对于自然语言所翻译的手语可驱动虚拟形象执行并显示为相应的手语视频，使得手语用户可以观看到该手语视频数据。本申请实施例中合成的手语视频数据为通过虚拟形象(也称数字人)合成的手语视频数据。该虚拟形象指的是通过信息技术基于人体的形态、功能等参数仿真人体所得到的用户，例如基于3D技术结合人体的形态等参数进行人物建模，通过仿真技术得到的虚拟形象，也可称为数字人、虚拟角色等。虚拟形象可基于人体的形态、肢体、姿势等各种参数驱动执行动作，从而模拟手语动作，实现通过虚拟形象执行手语，生成相应的视频数据来进行手语交互。

本申请实施例中，针对手语的无障碍交互可应用于各种场景中。例如在与手语用户面对面交流的场景中，如应用于就医场景中手语用户挂号、付款、取药、问诊等各个交流过程；又如应用于手语用户去商场、超市、市场等购物场景中面对面的购物交流中；又如应用于为手语用户提供法律服务场景等。该无障碍通信还可应用于手语用户和远端用户的通信过程，便于手语用户远程进行通信。例如，在购物场景中，商家可通过设备提供手语翻译服务，在手语用户进入到购物环境如卖场等商家中，可以触发引导页面中翻译控件进入到手语翻译页面中。又如在就医挂号场景中，医院可提供设备在挂号窗口中，手语用户可自己触发翻译指令进入到手语翻译页面中。

在一些场景中，手语用户所使用的手语也可能不同，如不同国家的手语存在差异，又如自然手语和标准手语也存在一定的差异等，因此本申请实施例的无障碍交互也可提供使用不同手语的手语用户之间的手语翻译服务，从而便于手语用户的交流。对于不同手语用户的翻译，可通过一个设备的前后两个摄像头分别采集手语视频数据，也可为不同设备分别采集手语视频数据后，基于服务器进行传输处理，实现交互。

在上述实施例的基础上，本申请实施例还提供了一种手语用户和非手语用户交互的客服场景，如图4B、图4C所示。

步骤402，提供手语客服页面。

客服页面可给用户提供手语翻译入口，从而基于该手语翻译入口可进入手语客服页面。

步骤404，通过图像采集组件采集第一手语视频数据，并在所述手语客服页面的手语输入区域显示所述第一手语视频数据。

在手语用户(第一设备)侧采集手语视频数据，在非手语用户(第二设备)侧采集文本数据，基于文本数据合成合成的手语视频数据，发送给第一设备，使得虚拟形象可以观看该合成的手语视频数据。相应的，针对手语用户的采集的手语视频数据翻译得到的手语识别文本反馈到客服的第二设备中。其中，设备提供手语翻译页面，所述手语翻译页面包括：手语输入区域和手语输出区域。以第一设备为手语用户的设备，第二设备为非手语用户的设备为例，该翻译页面为客服页面，如购物应用程序的客服页面、就医咨询页面的服务页面等。第一设备通过图像采集组件采集第一手语视频数据。第一设备在手语输入区域显示采集的第一手语视频数据。第一设备上传所述采集的第一手语视频数据到服务端。

步骤406，确定所述第一手语视频数据对应的手语翻译信息，以在客服页面中输出所述手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的。

本申请实施例对于采集的第一手语视频数据可进行实时检测和翻译。其中，可可同步进行特征提取和断句检测，其中，特征提取可从手语视频数据的各图像帧中提取手语特征，如手语的结构化特征等。并可将提取的手语特征放入到缓存队列中。断句检测模块可对手语视频数据中各帧图像进行检测，依次判断各帧图像中是否满足断句条件，如果检测到满足断句条件的图像帧满足断句条件，则可确定存在断句节点。在检测到断句节点后，可将缓存队列中的手语特征集合输入到时序模型中，并清空该缓存队列。之后继续执行特征提取和断句检测直到结束采集手语视频数据，该结束采集可以指持续没有检测到手语动作。针对从缓存队列中输入到时序模型的手语特征集合，可以基于时序模型检测对应的手语词汇并确定手语词汇的时序，从而输出手语词汇序列将手语词汇序列输入到转换模型中，该转换模型可为手语词汇到自然语言文本的转换，该转换模型用于将手语词汇序列识别成自然语言文本。本申请实施例中，还可包括纠错模型，该纠错模型可以对手语识别文本进行检测，判断是否为正确的自然语言的句子。如果不是则进行纠错，调整为自然语言的句子，输入是在可将该手语识别文本输入到TTS模型中，将手语识别文本转换为语音翻译信息。得到该手语视频数据对应的手语翻译信息。针对手语视频数据的特征提取以及识别过程可均在终端设备或服务端完成，也可在终端设备侧进行特征提取，然后在服务端执行手语识别，最终将翻译结果反馈到终端设备侧，具体可依据需求确定。

步骤408，接收依据客服的服务答复信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述服务答复信息的语义执行手语的视频数据。

步骤410，在所述手语客服页面的手语输出区域显示所述第二手语视频数据。

第二设备接收服务答复信息，如服务答复的文本数据，上传所述文本数据到服务端。服务端依据文本数据进行语义识别并合成第二手语视频数据。依据所述文本数据确定手语参数，依据所述手语参数，生成包含虚拟形象的第二手语视频数据。服务端发送第二手语视频数据给第一设备，使得手语用户可以观看到相应的手语服务，能够为手语用户提供所需的服务。

本申请实施例中，该手语翻译页面可提供语言选择控件，该语言选择控件用于选择目标语言。目标语言可包括各种手语和各种自然语言。其中，不用国家的手语也存在一定的差异，因此可提供手语选择控件，该手语选择控件用于选择不同种类的手语，如中国手语、英国手语等，不同种类的手语可以理解为不同国家的手语，也可包括标准手语、自然手语，该自然手语指的是自然所形成的手语。语言选择控件也可包括自然语言选择控件，用于选择所翻译的自然语言，如汉语、英语、法语，还可包括方言等，从而方便各类用户使用。响应于对所述手语翻译页面中语言选择控件的触发，显示语言可选项；响应于对语言可选项的触发，确定选择的目标语言。

本申请实施例中，还可基于需求调整所需的输入、输出方式，例如在页面上设置输入调整控件、输出调整控件，可基于对相应控件的调整，切换不同的输入、输出方式。另外还可通过手势触发输入、输出方式的切换。其中，可依据第一手势操作，调整输入方式，所述输入方式包括：语音输入方式、文本输入方式和\或视频输入方式；依据第二手势操作，调整输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。本实施例的手势可为默认手势，也可为自定义手势，还可将指示切换的手语作为切换的第一手势操作、第二手势操作，从而在检测到手势操作后，可以基于该手势操作调整输入、输出方式，如从手语输入切换为语音输入，又如从语音输出调整为文本数据等，可基于需求确定。响应于输出调整指令，调整所述手语翻译信息的输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。输出调整指令可基于第二手势操作生成，也可基于页面所提供的输出方式调整控件的触发生成。

本申请实施例可应用于各种服务场景中，因此手语翻译页面还可提供各种服务信息，所述服务信息的信息类型包括：服务文本数据、服务语音数据和服务手语视频数据中的至少一种；所述服务信息的内容类型包括以下至少一种：提示信息、场景常用语。即服务信息可通过手语、语音、文本等形式输出，而服务信息所对应的内容可为各种提示信息、场景的常用语等。

其中，服务信息包括提示信息，提示信息可为各种事件的提示信息，如等待提示信息、故障提示信息、操作提示信息等。如等待提示信息可通过手语视频、文本等方式提示手语用户，请等待，正在翻译或正在输入数据，也可通过语音、文本等方式提示其他用户，请等待，正在翻译或正在输入数据等。对于故障提示信息，也可通过语音、文本、手语视频等各种形式，提示相应的用户，现在出现故障，如网络出现问题、无法翻译、翻译失败等内容。操作提示信息可通过语音、文本、手语视频等各种形式，提示相应的用户可以执行的操作，如启动翻译，结束翻译，切换语言等。还可包括关于输入的提示，例如手语用户脱离手语识别区，可以进行提示，又如其他用户的声音比较小，也可进行提示。

所述场景常用语可与翻译的场景相关，例如在购物场景中，可为购物相关的常用语如欢迎语、价格回复、商品介绍、购物问询等常用语；又如在就医场景中，对于症状、保险等的常用语；又如在法律服务场景中，对于用户基本信息的询问等场景。总之可基于实际所应用的场景，预先确定出该场景的常用语，并得到对应的文本、语音、手语视频等数据。

上述服务信息为在场景服务中信息，如使用频率比较高的信息，又如必要的提示信息等。因此这些服务信息可预先存储在设备本地，并且每个服务信息可对应服务条件，如提示条件、场景条件等，结合具体的使用场景确定，在检测到满足服务条件时，输出相应的服务信息。

在上述实施例的基础上，本申请实施例还可以确定场景信息，基于场景信息确定场景参数，以通过所述场景参数辅助手语翻译。并且可基于场景信息、场景参数确定所需的场景常用语等服务信息。例如可基于场景信息可确定场景参数，如场景的名称、标签、属性等参数，然后可基于该参数来辅助手语翻译，如调用相应的手语数据库等。该确定场景信息，包括以下至少一种信息：对所述采集的手语视频数据的背景进行分析，确定对应的场景信息；针对所采集的采集的手语视频数据，可通过视觉处理分析背景，如室外或室内，商场或旅游景点等，从而基于分析的背景确定相应的场景信息。通过音频输入组件采集环境音数据，依据所述环境音数据确定对应的场景信息；针对所采集的语音数据、视频数据等也可对环境音进行分析，确定用户当前所处的环境，得到相应的场景信息。对所述采集的语音数据进行分析，确定对应的场景信息；对于采集的语音数据的分析可包括内容分析、环境音分析等，从而确定出场景信息。获取位置信息，依据所述位置信息确定场景信息；还可从终端设备获取位置信息，基于该位置信息确定对应的场景信息，如基于位置信息确定当前位于学校、医院、商场等位置，确定相应的场景信息。确定所述翻译页面之前的目标页面，依据所述目标页面确定场景信息；翻页页面可从其他页面中进入，因此可将进入翻译页面之前的页面作为目标页面，然后基于目标页面分析场景信息，如目标页面为支付页面、购物页面、购物应用的客服页面等，可确定相应的场景信息。确定已运行的应用程序，依据所述已运行的应用程序确定场景信息；还可检测设备中已运行的应用程序，基于该应用程序的类型、功能等确定场景信息。如购物应用、社交应用、即时通讯应用等，其中已运行的应用程序包括手语翻译页面所在的应用程序，以及在后台或前台运行的其他应用程序，具体可基于需求确定。获取时间信息，依据所述时间信息确定场景信息。还可基于时间信息来确定场景信息，如白天、夜晚，工作日、休息日、节假日等，具体依据需求确定。

本申请实施例中，场景参数可综合上述各种维度所确定的场景信息得到，从而能够基于场景参数辅助手语翻译、手语合成等过程。

本申请实施例中，手语翻译页面还包括退出控件，依据对手语翻译页面中退出控件的触发，接收退出指令；依据所述退出指令，关闭所述手语翻译页面。如在完成购物、就医挂号等，可触发结束控件，关闭手语翻译页面，回到引导页面。从而在各种场景中为用户提供手语服务，辅助与手语用户交互。

本申请实施例中，在每个区域还设置有指示元素，该指示元素用于指示当前区域的输入、输出状态。可采用多种形式实现，例如指示元素为界面图标，通过不同的颜色指示输入、输出状态，如输入状态为红色、输出状态为绿色，无输入输出的空闲状态为灰色。又如指示元素为动态元素，可通过动态的指示效果来指示不同的输入、输出状态。如一种动态元素的示例为指示灯。该指示灯可通过不同的光圈来指示不同的输入、输出状态。如在输入、输出时，光圈动态的扩大、缩小，指示当前正在输入或输出。并且还可结合不同的颜色、文字等来进行提示。在手语输入区域和手语输出区域可分别设置指示原色，从而指示本区域的输入、输出状态，以及指示其他区域的输入、输出状态。也可在翻译页面中显示一个指示原色，通过不同的颜色、动态效果、文字等来提示当前输入、输出的用户。因此，可在所述翻译页面中显示指示元素，所述指示元素用于指示输入、输出状态；所述指示元素包括以下至少一种：文字指示元素、动态指示元素、颜色指示元素。如图5A的示例中，其分步骤展示出了指示元素对应呼吸灯样式的动态效果，在具有输入或输出时，指示元素可通过光圈的逐步扩大和缩小来展示动态效果，指示输入或输出正在执行。如在对方输入时，显示为“A”且颜色由深变浅的调整，在自己输入时，显示为“B”且颜色由浅变深的调整。如图5B所示的一种示例中，提供了一种呼吸灯样式的指示元素，在空闲状态下为灰色，在存在输入或输出时亮起，显示为呼吸灯样式。并且在双向翻译的场景中，还可以通过在指示元素上显示文字来表示输入或输出的用户，如“A”代表用户A，“B”代表用户B，“C”代表虚拟形象，能够直观的指示出执行示输入或输出的用户。例如，在检测到用户A执行输入或输出时，可通过指示元素显示“A”，并通过动态变化或颜色变化指示用户A正在输入或输出。又如在检测到对方执行输入或输出时，可通过指示元素显示“B”或“C”，并通过动态变化或颜色变化指示对方用户B正在输入或虚拟形象C在输出。又如在虚拟形象输出手语时，第二界面上的指示元素可显示“九”等虚拟形象的简称、昵称、代号等信息，并且通过动态变化或颜色变化指示虚拟形象正在输出手语。

本申请实施例中，手语翻页页面还包括指示标签，该指示标签可用于指示输入状态、对话时间、服务信息等。一个示例中，所述指示标签可位于手语输入区域和手语输出区域的交接位置上，可用于指示各种所需的信息。例如将服务信息显示在指示标签上，从而可以指示各种提示信息、场景常用语以及场景所对应的推荐信息等。还可与指示元素相结合来提示输入状态，以及可以显示当前翻译的持续时间等各类型的信息。该指示标签也可通过不同的颜色、图标、文字等来显示不同的信息，还可在不同信息之间切换时，通过相应的切换样式进行提示，如翻转切换、缩放切换、百叶切换等各种样式，从而能够提示信息的变化。在所述手语翻译页面中显示指示标签；在不同的指示标签之间通过设定样式进行切换。

在上述实施例的基础上，本申请实施例还提供了一种手语翻译方法，应用于终端设备侧，能够基于手语翻译页面进行手语翻译。

参照图6，示出了本申请的另一种手语翻译方法实施例的步骤流程图。

步骤602，提供手语翻译页面。

可提供翻译引导页面，该翻译引导页面可作为手语翻译服务的首页，引导用户进行翻译页面。从而翻译引导页面提供翻译控件。基于对对翻译引导页面中翻译控件的触发，可接收翻译指令。在另外一些场景中，也可在通过专门的应用程序提供翻译功能，如通过应用程序的图标、应用程序页面的功能按钮等提供翻译入口，从而通过触发翻译入口可生成翻译指令。例如可在通讯应用、支付应用、社交应用、服务应用等各种类型的应用中提供翻译引导页面或翻译入口，便于手语用户在各种场景中使用手语。

步骤604，通过图像采集组件采集手语视频数据，并在所述手语翻译页面中显示所述手语视频数据。从而手语用户可通过手语翻译页面观看到自己所作的手语，确定手语是否被完整拍摄到。

步骤606，获取所述手语视频数据对应的手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的。

步骤608，通过所述手语翻译页面输出所述手语翻译信息。在终端设备侧可在手语翻译页面中显示手语识别文本，也可通过终端设备播放手语翻译语音，具体可依据需求确定。

在上述实施例的基础上，本申请实施例还提供了一种手语翻译方法，应用于服务端，能够基于手语翻译页面进行手语翻译。

参照图7，示出了本申请的另一种手语翻译方法实施例的步骤流程图。

步骤702，接收手语视频数据。服务端可接收终端设备采集的手语视频数据。该手语视频数据至少包括面部影像和手语影像。其中，该面部影像和手语影像用于手语识别。其中，对于手语视频数据的识别可以句子为基准进行语义翻译，逐句对手语进行识别。

步骤704，对所述手语视频数据进行特征提取，将提取的手语特征放入到缓存队列，同时，对所述手语视频数据的帧图像进行断句检测。

步骤706，对所述图像帧集合中的手语识别，确定对应的手语词汇序列。

步骤708，对所述手语词汇序列按照自然语言规则进行分析，确定自然语言对应的手语识别文本。

步骤710，采用手语识别结果中的手语识别文本进行语音合成，将合成的手语翻译音频作为手语翻译信息。

步骤712，反馈所述手语翻译信息。对于服务端侧，可将手语翻译信息发送给终端设备，以便在终端设备侧展示。

以上过程与上述实施例中对应过程类似，因此不再赘述。

在上述实施例的基础上，本申请实施例还提供了一种双向翻译的示例。

参照图8，示出了本申请的一种双向手语翻译方法实施例的步骤流程图。

步骤800，提供手语翻译页面，所述手语翻译页面包括：手语输入区域(或称第一区域)和手语输出区域(或称第二区域)。

步骤810，通过图像采集组件采集第一手语视频数据。可通过本地的摄像头等图像采集组件采集手语用户的第一手语视频数据，如通过手机的前置摄像头采集手语用户的手语视频数据。

步骤812，在手语输入区域显示采集的第一手语视频数据。

步骤814，获取所述第一手语视频数据对应的手语翻译信息。其中，可依据手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息，其中，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的。手语翻译信息包括手语识别文本和/或手语翻译语音。

步骤816，通过所述手语翻译页面输出手语翻译信息。从而能够实现对手语数据的采集、识别以及翻译，并输出手语的含义，使得手语用户能够获知手语用户的意思。在终端设备侧可在手语翻译页面中显示手语识别文本，也可通过终端设备播放手语翻译语音，具体可依据需求确定。

步骤820，通过音频输入组件采集语音数据。非手语用户可通过语音进行输入，如就医场景中语音说出“带医保卡了吗”，相应设备可通过麦克风等音频输入组件采集语音数据。然后可获取采集的语音数据对应合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述语音数据的语义执行手语的视频数据，具体包括步骤922-924。另外一些示例中，也可通过文本进行输入，本实例以语音输入为例，如果是文本输入，则可执行步骤924。

步骤822，对所述采集的语音数据进行语音识别，确定对应的文本数据。

步骤824，依据所述文本数据确定手语参数，依据所述手语参数生成包含虚拟形象的第二手语视频数据。

其中，依据所述采集的语音数据识别情绪信息，依据所述情绪信息确定表情参数；所述依据所述手语参数生成包含虚拟形象的第二手语视频数据，包括：依据所述手语参数和表情参数，生成包含虚拟形象的第二手语视频数据。可以对采集的语音数据进行语音识别得到对应的第二文本数据。并且可以对采集的语音数据进行情绪识别，如基于音量、语速以及词汇等多种信息，识别出情绪信息，可基于情绪信息确定对应的表情参数。如情绪信息为生气、高兴、激动等，相应可确定对应情绪的表情参数。然后基于手语参数和表情参数驱动虚拟形象执行手语，其中，可基于3D技术建模来生成虚拟形象，然后基于驱动手语参数和表情参数驱动虚拟形象执行手语的动作以及相应的表情、口型等，并生成第二手语视频数据。

步骤826，在所述手语翻译页面的手语输出区域显示第二手语视频数据。从而手语用户可观看在手语输出区域中显示的虚拟形象的第二手语视频数据，从而了解其他用户的话语，如非手语用户的话语，实现交流。另外，还可将输入对应的文本数据显示在手语翻译页面中，如显示在手语翻译页面的手语输出区域中。

本申请实施例中，手语用户也可称为第一用户，和非手语用户也可称为第二用户。

以下提供一种基于设备和服务器交互来实现手语的无障碍通信的实施例，提供具有手语翻译功能的视频通信页面，远端用户可基于该视频通信页面实现无障碍通信，其中，两个用户可为手语用户和非手语用户。

参照图9，示出了本申请的另一种无障碍通信方法实施例的交互示意图。如图10所示，手语用户和非手语用户均通过视频进行交互，其中，在手语用户(第一设备)侧采集手语视频数据，在非手语用户(第二设备)侧采集语音数据。具体可执行以下步骤：

步骤900，设备提供视频通信页面，所述视频通信页面包括：本端显示区域和对端显示区域，以本端显示区域为手语输入区域，对端显示区域为手语输出区域为例。以第一设备为手语用户的设备，第二设备为非手语用户的设备为例。例如该手语翻译页面为即时通讯(InstantMessaging，IM)应用程序的视频通信页面。

步骤902，第一设备通过图像采集组件采集第一视频数据。所述第一视频数据包括第一手手语视频数据。

步骤904，第一设备在所述视频通话页面的本端显示区域显示所述第一视频数据。

步骤906，第一设备上传所述采集的第一手语视频数据到服务端。

步骤908，服务端依据手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息，其中，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的。手语识别和翻译过程与上述实施例类似，因此不再赘述，具体可参照上述实施例中对应论述。

步骤910，服务端下发所述采集的第一手语视频数据和手语翻译信息。其中，服务端可将手语翻译信息中合成的手语翻译语音、手语识别文本中的至少一个发送给第一设备。对于所反馈的数据可基于各种情况确定，如手语用户的设置、网络情况等确定是否返回手语翻译信息。对于第二设备，服务端可至少返回合成的手语翻译语音、手语识别文本中的至少一个，以便第二设备的用户能够理解手语用户所表达的意思。当然，也可基于设置、网络情况等反馈采集的手语视频数据到第二设备处。

如果该通信场景应用于将手语单向翻译成自然语言的场景，则服务端向第二设备侧反馈以上手语视频数据和手语翻译信息，从而可在第二设备中显示手语视频数据并输出相应的手语翻译信息，使得手语用户和非手语用户能够进行交互。例如该手语用户为语障用户，其可以听懂非手语用户的话语，但无法说话而是要采用手语沟通，在此种场景下，实现对手语的翻译，则非手语用户也可理解该手语的意思，使得两个用户实现无障碍的沟通。

而如果该通信场景要进行手语和自然语言的双向翻译，则还需要将非手语用户的自然语言翻译成手语，可执行以下步骤：

步骤912，第二设备的音频输入组件采集语音数据。

步骤914，第二设备上传所述采集的语音数据到服务端。

其中，如果第二设备采集的是视频数据，则可直接传输视频数据到服务端，服务端可从该视频数据中分离出语音数据进行翻译。

步骤916，服务端依据采集的语音数据生成合成的手语视频数据。

服务端可对所述语音数据进行语音识别，确定对应的文本数据。依据所述文本数据确定手语参数，并依据所述采集的语音数据识别情绪信息，依据所述情绪信息确定表情参数。依据所述手语参数和表情参数，生成包含虚拟形象的合成的手语视频数据。

步骤918，服务端发送合成的手语视频数据给第一设备。

服务端发送合成的手语视频数据给第一设备。也可将文本数据、采集的语音数据发送到第一设备。而对于第二设备，可基于设置、网络情况等确定是否反馈合成的手语视频数据、文本数据、采集的语音数据。

步骤920，第一设备在手语输出区域显示所述采集的手语视频数据。

从而手语用户通过手语翻译页面可以与非手语用户进行无障碍通信。

本申请实施例中，对于手语视频数据进行翻译，在翻译的过程中，还可将手语识别结果反馈给手语用户，以便手语用户确认是否准确，如果不准确可基于相应的调整控件调整文本，在调整时还可给出相应的候选建议。另外，在自然语言翻译成手语的过程中，将虚拟形象的手语视频数据展示给手语用户后，还可通过手语视频数据提示已经输出完毕，以及确认手语用户是否明白之前虚拟形象手语的意思，如果不确认，则可给出翻译调整控件，并相应的候选文本，从而基于候选文本来调整虚拟形象的手语视频数据，提高翻译的准确性。

在上述实施例的基础上，本申请实施例还提供了一种手语教学方法，如图10所示。

步骤1002，提供手语教学页面。

步骤1004，在所述手语教学页面显示目标教学信息。

步骤1006，通过图像采集组件采集第一手语视频数据，并在所述手语教学页面的手语输入区域显示所述第一手语视频数据，所述第一手语视频数据为手语用户依据所述目标教学信息执行手语的视频数据。

手语教学页面包括手语输入区域和手语输出区域，该手语输出区域用于显示虚拟形象的标准手语，以便进行教学对照。因此可在手语教学页面显示目标教学信息，该目标教学信息可为文本数据，一些示例中也可采用语音数据。目标教学信息为用户需要输入手语的信息。相应用户可基于该目标教学信息执行手语，设备通过图像采集组件采集用户的第一手语视频数据。

步骤1008，上传所述第一手语视频数据。

步骤1010，接收所述第一手语视频数据对应的手语翻译信息，以及合成的第二手语视频数据，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的，所述第二手语视频数据为所述虚拟形象执行所述目标教学信息的手语教学视频数据。

步骤1012，在所述手语教学页面的手语输出区域显示所述第二手语视频数据，以便手语用户学习手语。

可实时对所述第一手语视频数据进行断句检测，将断句节点对应的手语特征集合上传到服务端，服务端可通过基于手语特征集合进行检测和时序识别，得到手语词汇序列后基于自然语言规则转换成自然语言语句，得到手语识别文本，并结合纠错模块对手语识别文本进行纠错。基于该手语识别文本确定与目标教学信息是否一致，从而确定用户的手语是否正确。如果用户的手语存在问题，如存在错误或者不标准等，还可将虚拟形象的第二手语视频数据和第一手语视频数据进行比较，确定待矫正的手语信息。然后可基于待矫正的手语信息，在第二手语视频数据或第一手语视频数据中添加矫正标记。从而能够在设备上显示第一手语视频数据和标准的第二手语视频数据进行对照。用户还可基于手语视频数据中的矫正标记确定需要矫正的手语动作。

本申请实施例基于摄像头等图像采集组件，不需要其他穿戴任何设备，即可采集到手语的手语数据，完成手语的识别。以上处理过程中，利用AI(ArtificialIntelligence，人工智能)视觉算法实时分析手语动作，识别出手语单词，不需要提前录制大量的手语单词作为匹配的素材。

本申请实施例中，手语识别算法支持多种特征的手语，也能够捕捉其他的手语特征，包括面部，肢体，可以更好的理解手语，提高手语识别的准确性。基于断句模型可以对手语以句子为单位实现实时的识别、翻译，提高翻译效率。

可基于自然语言NLP模型对手语进行自然语言的调整，结合纠错模块可以过滤错误的翻译结果并即使纠错，还可基于NLP翻译模型进行文本到语音的转换，便于用户通过多种途径获取翻译信息。

本申请实施例采用针对视觉图像的结构化要素提取、结构化建模及学习方法，显式地增强手语识别网络的学习能力，提升最终的识别精度。并且细节的结构化要素可以提供定制化的技术服务，如自动化断句、特定动作类目分析等，提高准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种手语翻译装置，应用于终端设备中。

获取模块，用于获取手语视频数据。断句模块，用于对所述手语视频数据的帧图像进行断句检测，以对所述手语视频数据以句子为基准进行语义翻译。手语识别模块，用于确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息。输出模块，用于输出所述手语翻译信息。

所述断句模块，用于依次检测所述手语视频数据中各帧图像中是否满足断句条件；如果不满足断句条件，则将所述帧图像加入到缓存中；如果满足断句条件，则将所述帧图像确定为目标帧图像，并依据缓存获取图像帧集合。

所述手语识别模块，用于对所述图像帧集合中的手语识别，确定对应的手语词汇序列；对所述手语词汇序列按照自然语言规则进行分析，确定自然语言对应的手语识别文本；依据所述手语识别文本生成手语翻译信息。其中，可采用将手语识别结果中的手语识别文本作为手语翻译信息；和/或，采用手语识别结果中的手语识别文本进行语音合成，将合成的手语翻译语音作为手语翻译信息。

输出模块，还用于提供手语翻译页面；在所述手语翻译页面中播放所述手语视频数据；在所述手语翻译页面中显示手语识别文本，和/或，基于所述手语翻译页面播放所述手语翻译音频。

调整模块，用于响应于对所述手语翻译页面中语言选择控件的触发，显示语言可选项；响应于对语言可选项的触发，确定选择的目标语言，所述目标语言为手语视频数据翻译的语言。

所述调整模块，用于响应于输出调整指令，调整所述手语翻译信息的输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。

所述手语翻译页面包括手语输入区域和手语输出区域，输出模块，还用于在所述手语翻译页面的手语输入区域播放所述手语视频数据；在所述手语翻译页面的手语输出区域播放合成的手语视频数据，所述合成的手语视频数据为采用虚拟形象执行手语的视频数据，虚拟形象执行的手语依据输入信息确定。

辅助模块，用于基于设定条件确定场景信息，并依据所述场景信息确定场景参数，以通过所述场景参数辅助手语翻译。

一个可选实施例中，提供一种双向手语翻译装置：输出模块，用于提供手语翻译页面；在所述手语翻译页面的手语输入区域显示第一手语视频数据；获取所述第一手语视频数据对应的手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；通过所述手语翻译页面输出所述手语翻译信息；获取采集的语音数据对应合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述语音数据的语义执行手语的视频数据；在所述手语翻译页面的手语输出区域显示所述第二手语视频数据。

采集模块，用于通过图像采集组件采集第一手语视频数据；通过音频输入组件采集语音数据。

一个可选实施例中，提供一种手语客服装置：输出模块，用于提供手语客服页面；在所述手语客服页面的手语输入区域显示所述第一手语视频数据；确定所述第一手语视频数据对应的手语翻译信息，以在客服页面中输出所述手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；接收依据客服的服务答复信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述服务答复信息的语义执行手语的视频数据；在所述手语客服页面的手语输出区域显示所述第二手语视频数据。

采集模块，用于通过图像采集组件采集第一手语视频数据。

一个可选实施例中，提供一种手语通信装置：输出模块，用于提供视频通信页面；在所述视频通话页面的本端显示区域显示所述第一视频数据，所述第一视频数据包括第一手语视频数据；在所述视频通话页面的本端显示区域显示所述第一手语视频数据的手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；接收根据对端的通信信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述通信信息的语义执行手语的视频数据，所述通信信息包括文本信息、语音信息和视频信息中的至少一种；在所述视频通话页面的对端显示区域显示所述第二手语视频数据。

采集模块，用于通过图像采集组件采集第一视频数据。

一个可选实施例中，提供一种手语教学装置：输出模块，用于提供手语教学页面；在所述手语教学页面显示目标教学信息；在所述手语教学页面的手语输入区域显示所述第一手语视频数据，所述第一手语视频数据为手语用户依据所述目标教学信息执行手语的视频数据；接收所述第一手语视频数据对应的手语翻译信息，以及合成的第二手语视频数据，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的，所述第二手语视频数据为所述虚拟形象执行所述目标教学信息的手语教学视频数据；在所述手语教学页面的手语输出区域显示所述第二手语视频数据，以便手语用户学习手语。

采集模块，用于通过图像采集组件采集第一手语视频数据，并上传所述第一手语视频数据。

综上，在采集手语视频数据后，可实时对手语视频数据的帧图像进行断句检测，实时检测各帧图像，从而能够对所述手语视频数据以句子为基准进行语义翻译，确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息，实现对手语的实时翻译，然后输出所述手语翻译信息，从而便捷的进行手语翻译。。

本申请实施例基于摄像头等图像采集组件，不需要其他穿戴任何设备，即可采集到手语的手语数据，完成手语的识别。以上处理过程中，利用AI(ArtificialIntelligence，人工智能)视觉算法实时分析手语动作，识别出手语单词，不需要提前录制大量的手语单词作为匹配的素材。本申请实施例中，手语识别算法支持多种特征的手语，也能够捕捉其他的手语特征，包括面部，肢体，可以更好的理解手语，提高手语识别的准确性。基于断句模型可以对手语以句子为单位实现实时的识别、翻译，提高翻译效率。可基于自然语言NLP模型对手语进行自然语言的调整，结合纠错模块可以过滤错误的翻译结果并即使纠错，还可基于NLP翻译模型进行文本到语音的转换，便于用户通过多种途径获取翻译信息。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括数据中心内的终端设备、服务器(集群)等电子设备。图11示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1100。

对于一个实施例，图11示出了示例性装置1100，该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块(芯片组)1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到控制模块1104的一个或多个输入/输出设备1110，以及被耦合到控制模块1104的网络接口1112。

处理器1102可包括一个或多个单核或多核处理器，处理器1102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1100能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置1100可包括具有指令1114的一个或多个计算机可读介质(例如，存储器1106或NVM/存储设备1108)以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。

对于一个实施例，控制模块1104可包括任意适当的接口控制器，以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。

控制模块1104可包括存储器控制器模块，以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例，存储器1106可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1104可包括一个或多个输入/输出控制器，以向NVM/存储设备1108及(一个或多个)输入/输出设备1110提供接口。

例如，NVM/存储设备1108可被用于存储数据和/或指令1114。NVM/存储设备1108可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1108可包括在物理上作为装置1100被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110进行访问。

(一个或多个)输入/输出设备1110可为装置1100提供接口以与任意其他适当的设备通信，输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100提供接口以通过一个或多个网络通信，装置1100可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1100可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1100可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1100包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的种手语翻译方法、一种手语客服方法、一种手语通信方法、一种终端设备和一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手语翻译方法，其特征在于，所述方法包括：

获取图像采集单元采集的手语视频数据；

对所述手语视频数据的帧图像进行断句检测，确定断句节点；

确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息；

输出所述手语翻译信息。

2.根据权利要求1所述的方法，其特征在于，所述对所述手语视频数据的帧图像进行断句检测，确定断句节点，包括：

依次检测所述手语视频数据中各帧图像中是否满足断句条件；

如果不满足断句条件，则将所述帧图像加入到缓存中；

如果满足断句条件，则依据所述帧图像确定断句节点。

3.根据权利要求1所述的方法，其特征在于，所述确定断句节点对应的图像帧集合的手语识别结果，并依据所述手语识别结果确定手语翻译信息，包括：

对断句节点对应的图像帧集合进行手语识别处理，确定对应的手语词汇序列；

对所述手语词汇序列按照自然语言规则进行分析，确定自然语言对应的手语识别文本；

依据所述手语识别文本生成手语翻译信息。

4.根据权利要求3所述的方法，其特征在于，所述依据所述手语识别文本生成手语翻译信息，包括：

将手语识别结果中的手语识别文本作为手语翻译信息；和/或

采用手语识别结果中的手语识别文本进行语音合成，将合成的手语翻译音频作为手语翻译信息。

5.根据权利要求1-4任一所述的方法，其特征在于，还包括：

提供手语翻译页面；

在所述手语翻译页面中播放所述手语视频数据；

所述输出所述手语翻译信息，包括：在所述手语翻译页面中显示手语识别文本，和/或，基于所述手语翻译页面播放手语翻译音频。

6.根据权利要求5所述的方法，其特征在于，还包括：

响应于对所述手语翻译页面中语言选择控件的触发，显示语言可选项；

响应于对语言可选项的触发，确定选择的目标语言，所述目标语言为手语视频数据翻译的语言。

7.根据权利要求5所述的方法，其特征在于，还包括：

响应于输出调整指令，调整所述手语翻译信息的输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。

8.一种手语翻译方法，其特征在于，所述方法包括：

提供手语翻译页面；

通过图像采集组件采集第一手语视频数据，并在所述手语翻译页面的手语输入区域显示所述第一手语视频数据；

获取所述第一手语视频数据对应的手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；

通过所述手语翻译页面输出所述手语翻译信息；

通过音频输入组件采集语音数据；

获取采集的语音数据对应合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述语音数据的语义执行手语的视频数据；

在所述手语翻译页面的手语输出区域显示所述第二手语视频数据。

9.一种手语客服方法，其特征在于，所述方法包括：

提供手语客服页面；

通过图像采集组件采集第一手语视频数据，并在所述手语客服页面的手语输入区域显示所述第一手语视频数据；

确定所述第一手语视频数据对应的手语翻译信息，以在客服页面中输出所述手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；

接收依据客服的服务答复信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述服务答复信息的语义执行手语的视频数据；

在所述手语客服页面的手语输出区域显示所述第二手语视频数据。

10.根据权利要求9所述的方法，其特征在于，还包括：

确定服务信息对应包含虚拟形象的服务手语视频数据，所述服务信息的内容类型包括以下至少一种：提示信息、场景常用语；

在检测到符合服务条件时，在所述手语翻译页面中播放所述服务手语视频数据。

11.一种手语通信方法，其特征在于，所述方法包括：

提供视频通信页面；

通过图像采集组件采集第一视频数据，并在所述视频通话页面的本端显示区域显示所述第一视频数据，所述第一视频数据包括第一手语视频数据；

在所述视频通话页面的本端显示区域显示所述第一手语视频数据的手语翻译信息，所述手语翻译信息依据断句节点对应的图像帧集合的手语识别结果确定的，所述断句节点为对手语视频数据进行断句检测得到的；

接收根据对端的通信信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述通信信息的语义执行手语的视频数据，所述通信信息包括文本信息、语音信息和视频信息中的至少一种；

在所述视频通话页面的对端显示区域显示所述第二手语视频数据。

12.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-11中任一项所述的方法。

13.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-11中任一项所述的方法。