CN113851029B

CN113851029B - 一种无障碍通信方法和装置

Info

Publication number: CN113851029B
Application number: CN202110876040.2A
Authority: CN
Inventors: 吴淑明; 杨蕾; 叶天兵; 张龙; 刘辉; 田树东; 幸锐; 祖新星; 张家硕; 王琪; 孙可; 綦金玮
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-09-05
Anticipated expiration: 2041-07-30
Also published as: CN113851029A

Abstract

本申请实施例提供了一种无障碍通信方法和装置，以便捷的进行手语翻译和交互。所述的方法包括：提供通信页面，所述通信页面包括：第一区域和第二区域；接收第一手语视频数据，所述第一手语视频数据至少包含第一用户的面部和手部影像；在第一区域显示第一手语视频数据；播放第一语音数据，所述语音数据为对所述第一手语视频数据进行语义识别得到的第一语音数据；接收第二语音数据；在第二区域显示包含第二用户的第二手语视频数据，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述第二语音数据生成的手语视频数据。从而能够采集到用户的手语以便进行翻译，也可以将其他用户的输入翻译为手语视频并显示，便捷的进行手语翻译和交互。

Description

一种无障碍通信方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种无障碍通信方法和一种无障碍通信装置。

背景技术

听障人士、聋哑人士等通常是通过手语进行沟通，手语(sign language)是用手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，它是听力障碍或者无法言语的人互相交际和交流思想的一种手的语言。

然而在日常生活中，能够掌握手语的人员非常少，使得听障人士、聋哑人士等难以与其他人沟通，影响日常生活的方方面面。

发明内容

本申请实施例提供了一种无障碍通信方法，以便捷的进行手语翻译和交互。

相应的，本申请实施例还提供了一种无障碍通信装置和一种机器可读介质，用以保证上述装置的实现及应用。

为了解决上述问题，本申请实施例公开了一种无障碍通信方法，所述的方法包括：提供通信页面，所述通信页面包括：第一区域和第二区域；接收第一手语视频数据，所述第一手语视频数据至少包含第一用户的面部和手部影像；在第一区域显示第一手语视频数据；播放第一语音数据，所述语音数据为对所述第一手语视频数据进行语义识别得到的第一语音数据；接收第二语音数据；在第二区域显示包含第二用户的第二手语视频数据，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述第二语音数据生成的手语视频数据。

本申请实施例还公开了一种无障碍通信方法，所述方法包括：提供通信页面，所述通信页面包括：第一区域和第二区域；在第一区域显示第一手语视频数据，并在第二区域显示包含第二用户的第二手语视频数据，所述第一手语视频数据至少包含第一用户的面部和手部影像，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述输入信息生成的手语视频数据；接收对所述通信页面中页面控件的触发；显示所述页面控件对应的控件界面，以提供所述页面控件的功能。

本申请实施例还公开了一种无障碍通信装置，其特征在于，处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中任一项所述的方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中任一项所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，提供通信页面，在所述第一区域显示第一视频数据，该第一手语视频数据至少包含第一用户的面部和手部影像，从而能够获取到第一用户的手语视频并显示，还可播放对所述第一手语视频数据进行语义识别得到的第一语音数据，实现对手语的翻译。还可接收第二语音数据，并在第二区域显示包含第二用户的第二手语视频数据，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述第二语音数据生成的手语视频数据，实现将语音翻译成手语并展示，从而便捷的进行手语翻译和交互。

附图说明

图1A是本申请实施例的一种手语翻译场景的页面示意图；

图1B是本申请的一种无障碍通信方法实施例的步骤流程图；

图2是本申请实施例的启动翻译页面示例的页面示意图；

图3A是本申请实施例的一种无障碍通信示例的示意图；

图3B为本申请实施例的一种横屏展示示例的示意图；

图3C是本申请的另一种无障碍通信方法实施例的步骤流程图；

图4A、图4B是本申请实施例的另一种无障碍通信示例的示意图；

图5A是本申请实施例的再一种无障碍通信示例的示意图；

图5B是本申请实施例的再一种无障碍通信示例的示意图；

图6是本申请实施例的再一种无障碍通信示例的示意图；

图7是本申请的再一种无障碍通信方法实施例的步骤流程图；

图8A、图8B是本申请实施例的一种指示元素的示例的示意图；

图9是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例中可应用于各种需要手语翻译的场景中。例如在听障人士、聋哑人士等目标用户进行购物、就医、法律服务等面对面交流的场景中，本申请实施例能够提供手语翻译服务，可以提供通信页面，能够采集需要翻译的手语、语音等数据，然后在页面中播放对应翻译的手语视频数据。本申请实施例的手语视频数据为通过虚拟用户(也称数字人)合成的手语视频数据。该虚拟用户指的是通过信息技术基于人体的形态、功能等参数仿真人体所得到的用户，例如基于3D技术结合人体的形态等参数进行人物建模，通过仿真技术得到的虚拟用户，也可称为数字人。虚拟用户可基于人体的形态、肢体、姿势等各种参数驱动执行动作，从而模拟手语动作，实现通过虚拟用户执行手语，生成相应的视频数据来进行手语交互。

本申请实施例不需要第三人作为翻译，而是自动识别听障人士、聋哑人士等目标用户的手语，输出翻译的语音、文本等数据；相应的可接收语言、文本等数据，将其翻译成手语并确定虚拟用户执行手语，播放虚拟用户的手语视频给目标用户，从而能够实现手语的目标用户和非手语用户之间的交互。用户可使用手机、平板以及电脑等各种电子设备执行本申请实施例的翻译方法。

参照图1A，示出了本申请实施例的一种手语翻译场景的页面示意图。

参照图1B，示出了本申请的一种无障碍通信方法实施例的步骤流程图。

步骤102，提供通信页面，所述通信页面包括：第一区域和第二区域。

所述通信页面中包括第一区域和第二区域，所述第一区域为图像采集单元采集的视频数据的显示区域，所述第二区域为合成的第二用户的第二视频显示区域。图像采集单元可为摄像头等组件。本申请实施例可在通信页面中分区域显示采集的视频数据和合成的视频数据，从而方便显示所采集的手语视频数据，并且显示基于回复所合成的手语视频数据，实现手语用户、非手语用户之间的无障碍通信。采集的手语视频数据可为本地采集的手语视频数据，也可为远端采集的手语视频数据，通过服务器转发到本地显示。

在一些实施例中，电子设备可提供引导页面，该引导页面可作为手语翻译服务的首页，引导用户进行通信页面。引导页面可为专用于手语翻译的首页，也可为其他场景的页面，如支付页面、购物页面、就医页面、咨询页面等，在该页面中设置一手语翻译入口，从而通过该手语翻译入口可进入到通信页面中。

一个实施例中，所述手语翻译入口可为翻译控件的形式，在另外的实施例中，手语翻译入口也可为其他形式，如快捷方式、图片、手势操作的入口等。以在引导页面提供翻译控件为例，如图2的示例中，左侧的页面为引导页面，其中的箭头“→”控件，以及提示信息“开始翻译”等。基于对对引导页面中翻译控件的触发，可接收翻译指令。在另外一些场景中，也可在通过专门的应用程序提供翻译功能，如通过应用程序的图标、应用程序页面的功能按钮等提供翻译入口，从而通过触发翻译入口可生成翻译指令。

在一些实施例中，引导页面可显示虚拟用户，通过虚拟用户引导用户进入第一页面。例如引导页面的虚拟用户还可通过手语提示信息，如提示点击页面的按钮或指定位置可进入通信页面等。从而使得目标用户在引导页面也可获取手语提示和引导。

当在引导页面触发进入到通信页面时，如引导页面包括虚拟用户，则可将引导页面缩小为第二区域，并跟随所述第二区域显示第一区域。例如引导页面内显示全身的虚拟用户，当引导页面缩小为第二区域在通信页面时，可显示半身的虚拟用户，从而虚拟用户仍然可展示手语，且对虚拟用户的显示大小影响较小。相应第一区域也可跟随第二区域逐渐扩大显示区域，直到第一区域和第二区域达到通信页面中对应区域尺寸。

本申请实施例中，设备可横屏摆放，也可竖屏摆放，基于设备的屏幕方向即屏幕显示方式的不同，第一区域和第二区域也可相应的进行划分。例如屏幕显示方式为竖屏显示，则第一区域和第二区域可上下分区，又如屏幕显示方式为横屏显示，则第一区域和第二区域可左右分区，本申请实施例对此不做限制。

一个可选实施例中，所述将引导页面缩小为第二区域，并跟随所述第二区域显示第一区域，包括：依据终端的屏幕方向确定移动方向；依据所述移动方向滑动缩小所述引导页面的显示区域，直到满足所述第二区域的尺寸；跟随滑动方向，滑动显示第一区域。可依据终端的屏幕方向确定移动方向，例如屏幕方向为横屏，则移动方向可为向左或向右，屏幕方向为竖屏，则移动方向可为向上或向下。则将引导页面的显示区域按照所述移动方向滑动缩小，可将该显示区域作为第二区域。相应，跟随引导页面的显示区域的缩小会相应有一部分区域逐渐扩大，可将该区域作为第一区域，从而滑动显示第一区域。直到第一区域和第二区域达到通信页面的布局，完成通信页面的启动显示。

如图2的示例中，右侧的页面为通信页面，依据翻译指令，引导页面向上移动并缩小，其中的虚拟用户在通信页面中显示在第二区域中。相应第二区域下方的第一区域为摄像头等图像采集单元拍摄的图像，其中第一区域中通过线条示例性的显示第一用户，虽然未实际显示拍摄画面，但可以理解其所展示的内容为摄像头等图像采集单元实际所采集的视频数据，且可为实时的视频数据。

步骤104，接收第一手语视频数据，所述包含第一手语视频数据至少包含第一用户的面部和手部影像。

步骤106，在第一区域显示第一手语视频数据。

本申请实施例中，可在第一区域显示本地或网络侧摄像头等图像采集单元所采集的视频数据，相应，第一用户即执行手语的目标用户可执行手语，图像采集单元可采集到包含第一用户的第一视频数据，该第一视频数据包括第一用户的第一手语视频数据。从而可以通过摄像头等图像采集单元采集用户的手语。其中，本申请实施例的手语视频至少包括面部影像和手语影像。其中，该面部影像和手语影像用于手语识别。其中，对于手语视频数据的识别可以句子为基准进行语义翻译，逐句对手语进行识别。

为了与第一用户交互，使第一用户可以看到手语，从而能够与其他用户交流。因此可在第二区域中通过第二用户即虚拟用户展示相应的手语，即显示包含第二用户的第二手语视频数据。如图1A中翻译官莫小九即为第二用户。

本申请实施例中，可在所述第一区域内显示输入提示信息，以对所述第一用户进行位置提示，所述输入提示信息包括以下至少一种：文本提示信息、线条提示信息、手语提示信息。为了更准确的识别第一用户的手语，可以在第一区域设置手语识别区，该手语识别区能够使得第一用户的手语位于图像采集单元的采集区域内，从而减少识别失败率。相应可设置输入提示信息以对所述第一用户进行输入位置区域的提示。该输入提示信息可为多种形式的信息，如为文本提示信息，通过文本提示第一用户摆正姿势、位于采集区域中间等。也可为线条提示信息，该线条提示信息可在其区域内提示出第一用户身体所在的区域，从而保证手语的采集，还可包括手语提示信息，第二用户可通过手语提示第一用户摆正姿势、位于采集区域中间等等。或者各种信息相结合，通过文本、手语提示用户身体要位于虚线框中等。

步骤108，播放第一语音数据，所述语音数据为对所述第一手语视频数据进行语义识别得到的第一语音数据。

图像采集单元可实时采集第一用户的第一视频数据，对于采集到的第一手语视频数据可句子为基准进行语义翻译，逐句对手语进行识别。手语视频的识别可在本地识别，也可上传到服务端进行识别，以便通过服务端理解手语的语义并进行翻译。

在一些实施例中，可在本地检索所采集的第一视频数据是否为第一手语视频数据，例如检测第一视频数据的肢体动作、手势等是否达到手语条件，该手语条件为已手语执行的条件，基于手语条件可确认当前第一用户是否在执行手语，进而确定是否需要进行手语翻译。其中，可检测到手势，肢体动作超过一定的范围等，来确定达到手语条件。如果达到手语条件，则可确定第一用户在执行手语，当前采集的为第一手语视频数据。其中，手语条件可包括检测到手势操作、肢体动作的范围超过设定范围，肢体移动轨迹的范围(或时间)超过轨迹范围(或设定时长)等。

本申请实施例中，对于手语视频数据翻译可以基于肢体数据、手势数据、表情数据、情绪数据等多维的手语特征数据实现。通过对第一手语视频数据进行翻译，可以确定对应的第一文本数据，基于第一文本数据可生成第一语音数据。即该第一语音数据为对第一手语视频数据进行语义翻译，得到的自然语言的语音数据。该自然语言是可以理解为自然地随文化演化的语言，即通过发音方式输出的语言。如汉语、英语、法语、日语等，也可为一种语言下的方言，如粤语、闽南语、上海话等方言。可以通过音频输出单元输出该语音信息。

步骤110，接收第二语音数据。

当其他用户要和第一用户交流时，可说出交流内容，可通过设备的语音输入单元如麦克风等组件，采集用户说话的第二语音数据。当然在另外一些场景中，也可提供文本框等文本数据控件，方便用户进行文本输入。

然后可以上传所述第二语音数据到服务端。服务端可对第二语音数据语音识别得到第二文本数据。然后对第二文本数据进行处理得到相应的手语参数，再基于该手语参数驱动虚拟用户执行手语，得到第二手语视频数据，即第二语音数据翻译的手语视频数据。然后可将第二手语视频数据发送给设备。

步骤112，在第二区域显示包含第二用户的第二手语视频数据，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述第二语音数据生成的手语视频数据。

对其他用户如非手语用户的第二语音数据进行语义识别，然后基于语义翻译为手语，驱动虚拟用户执行手语，包括驱动第二用户的手部动作和/或面部表情，并生成对应的第二手语视频数据，之后可在第二区域中展示，即通过驱动虚拟用户执行手语的方式，使得第一用户可以观看到手语，理解其他用户表达的意思。

本申请实施例中，在返第二手语视频数据时，服务端还可返回第二语音数据识别的第二文本数据，将第二文本数据显示在第二区域中，方便第一用户通过屏幕观看到文本数据。

从而通过上述手语翻译为自然语音，以及自然语音翻译为手语的示例，本申请实施例的通信页面可提供手语的自动翻译，对于手语视频可通过语音、文本等输出翻译的自然语言，对于自然语言所翻译的手语可驱动虚拟用户执行并显示为相应的手语视频，使得手语用户可以观看到该手语视频数据。

综上，依据所述翻译指令，启动对应的通信页面，在在所述第一区域显示包含第一用户的第一视频数据，所述第一视频数据由图像采集单元采集，所述第一视频数据包括第一手语视频数据，从而能够采集到用户的手语并进行翻译，也可以接收其他用户的输入，在所述第二区域显示翻译的包含第二用户的第二视频数据，所述第二用户为虚拟用户，所述第二视频数据包括第二手语视频数据，从而便捷的进行手语翻译和交互。

本申请实施例中，针对手语的无障碍通信可应用于各种场景中。例如在与手语用户面对面交流的场景中，如应用于就医场景中手语用户挂号、付款、取药、问诊等各个交流过程；又如应用于手语用户去商场、超市、市场等购物场景中面对面的购物交流中；又如应用于为手语用户提供法律服务场景等。该无障碍通信还可应用于手语用户和远端用户的通信过程，便于手语用户远程进行通信。例如，在购物场景中，商家可通过设备提供手语翻译服务，在手语用户进入到购物环境如卖场等商家中，可以触发引导页面中翻译控件进入到通信页面中。又如在就医挂号场景中，医院可提供设备在挂号窗口中，第一用户可自己触发翻译指令进入到通信页面中。

在一些场景中，手语用户所使用的手语也可能不同，如不同国家的手语存在差异，又如自然手语和标准手语也存在一定的差异等，因此本申请实施例的无障碍通信也可提供使用不同手语的手语用户之间的手语翻译服务，从而便于手语用户的交流。对于不同手语用户的翻译，可通过一个设备的前后两个摄像头分别采集手语视频数据，也可为不同设备分别采集手语视频数据后，基于服务器进行传输处理，实现交互。

本申请实施例中，电子设备可为手语、平板电脑、计算机等各种具有图像采集、音视频输入输出功能的设备。

以下提供一种通过电子设备实现手语无障碍通信的实施例，可在电子设备本地进行视频、语音的采集、识别，手语翻译以及手语视频合成等处理。如图3A所示为一种手语用户和非手语用户进行面对面交互的场景，以就医场景为例，医护人员可通过语音，相应手语用户采用手语，通过设备的翻译可实现交流。又如图3B提供一种横屏展示的场景，如在医院的挂号窗口可设置一平板电脑或其他设备，从而便于手语用户的就医挂号等。

参照图3C，示出了本申请的另一种无障碍通信方法实施例的步骤流程图。

步骤300，提供通信页面，所述通信页面包括：第一区域和第二区域。

步骤310，通过图像采集单元采集第一手语视频数据。可通过本地的摄像头等图像采集单元采集第一用户的第一手语视频数据，如通过手机的前置摄像头采集第一用户的第一手语视频数据。

步骤312，在第一区域显示第一手语视频数据。

步骤314，对所述第一手语视频数据进行语义识别，确定对应的第一语音数据。

可以在设备本地对第一手语视频数据进行手语翻译，识别手语所表达的语义，确定对应的第一文本数据，再基于第一文本数据合成第一语音数据。例如基于计算机视觉算法对手语视频数据进行手语识别，然后通过自然语言处理(Neuro-LinguisticProgramming，NLP)翻译成自然语言的文本数据，再基于文本到语音(TextToSpeech，TTS)的语音技术将其翻译成语音数据。

其中，所述对所述第一手语视频数据进行语义识别，确定对应的第一语音数据，包括：对所述第一视频数据进行特征识别，提取对应的手语特征，所述手语特征包括：手势特征；对所述手语特征进行分析，确定对应的手语句子；将所述手语句子作为第一文本数据，生成对应的第一语音数据。所述对所述手语特征进行分析，确定对应的手语句子，包括：对所述手语特征进行分析，确定对应的手语词汇；对所述手语词汇进行语义分析，确定对应的手语句子。

本申请实施例中，可对于第一手语视频数据进行计算机视觉处理，基于手语视频中及其图像进行手语特征的识别处理，其中，所识别的手语特征包括手势特征。该手势特征可基于用户执行手语的肢体工作、手势等确定。所述手语特征还包括以下至少一种：轨迹特征、表情特征、情绪特征。还可从手语视频数据中识别出用户手语的轨迹特征，用户的表情特征，结合肢体工作、表情等识别出用户的情绪特征等。可以对手语特征进行分析，确定用户通过手语所表达的句子，得到相应的手语句子。其中，通过手语特征可识别出用户在手语所表达的词汇，这些手语词汇构成其手语表达的句子，基于手语词汇可进行语义分析，按照对应自然语言的语言习惯等信息，得到对应的手语句子。可基于手语句子确定第一文本数据，然后基于该第一文本数据合成第一语音数据。

步骤316，播放第一语音数据。从而能够实现对手语数据的采集、识别以及翻译，并可通过语音输出手语的含义，使得手语用户能够获知手语用户的意思。另外，在一些实施例中，可以获取该第一语音数据所对应的第一文本数据，在通信页面如第一区域中显示第一文本数据。

步骤320，通过音频采集单元采集第二语音数据。非手语用户可通过语音进行输入，如语音说出“带医保卡了吗”，相应设备可通过麦克风等音频采集单元采集第二语音数据。

步骤322，对所述第二语音数据进行语音识别，确定对应的第二文本数据。

步骤324，依据所述第二文本数据确定手语参数，依据所述手语参数生成包含第二用户的第二手语视频数据。

其中，依据所述第二语音数据识别情绪信息，依据所述情绪信息确定表情参数；所述依据所述手语参数生成包含第二用户的第二手语视频数据，包括：依据所述手语参数和表情参数，生成包含第二用户的第二手语视频数据。

可以对第二语音数据进行语音识别得到对应的第二文本数据。并且可以对第二语音数据进行情绪识别，如基于音量、语速以及词汇等多种信息，识别出情绪信息，可基于情绪信息确定对应的表情参数。如情绪信息为生气、高兴、激动等，相应可确定对应情绪的表情参数。然后基于手语参数和表情参数驱动虚拟用户执行手语，其中，可基于3D技术建模来生成虚拟用户，然后基于驱动手语参数和表情参数驱动虚拟用户执行手语的动作以及相应的表情、口型等，并生成第二手语视频数据。

步骤326，在第二区域显示第二手语视频数据。从而手语用户可观看在第二区域中显示的虚拟用户的第二手语视频数据，从而了解其他用户的话语，如非手语用户的话语，实现交流。另外，还可将第二文本数据显示在通信页面中，如显示在通信页面的第二区域中。

以下提供一种基于设备和服务器交互来实现手语的无障碍通信的实施例，如图4A所示。与上述实施例类似，设备也可通过横屏或竖屏设备进行交互，如图4A为一种设备竖屏展示的示例。该实施例中，对于手语的翻译、合成主要在服务端执行。

参照图4B，示出了本申请的另一种无障碍通信方法实施例的步骤流程图。

步骤400，提供通信页面，所述通信页面包括：第一区域和第二区域。

步骤410，通过图像采集单元采集第一手语视频数据。

步骤412，在第一区域显示第一手语视频数据。可通过设备本地的图像采集单元采集第一手语视频数据，并显示在通信页面的第一区域中。

步骤414，发送第一手语视频数据到服务端。图像采集单元可实时采集第一用户的第一视频数据，然后可将第一手语视频数据上传到服务端，以便理解手语的语义并进行翻译。

其中，可直接上传所述第一视频数据。也可在对采集的视频数据进行检测，检测第一用户在执行手语时再上传第一手语视频数据。其中，可在检测所述第一视频数据是否符合手语条件，如果不符合，则继续检测或者等待预定时间如2秒、3秒等，再检测。在检测所述第一视频数据符合手语条件时，将所述第一视频数据作为第一手语视频数据，并上传所述第一手语视频数据；所述手语条件包括以下至少一种：手势条件、肢体轨迹条件。

本申请实施例针对上传的第一手语视频数据，可先通过预处理减少数据量，以便提高检测的效率，如可以对第一视频数据进行采样处理，如通过降采样来降低数据量，得到待上传的第一视频数据。或者通过降低第一视频数据的分辨率，得到待上传的第一视频数据。在另外一些实施例中，可以在设备本地对第一手语视频数据进行预处理，可以从从所述第一视频数据中提取手语特征，将所述手语特征作为待上传的第一视频数据。从而能够进一步减少数据量，提高手语识别翻译的效率，并且能够过滤敏感信息而保留手语特征。

本实施例中针对第一手语视频数据的手语翻译处理可与上述实施例类似，或者采取所需的而各种视觉、语音、文本的处理，本申请实施例对此不做限制。服务端在识别出第一手语视频数据的语义，得到第一文本数据后，可基于该第一文本数据生成第一语音数据。将第一语音数据返回给设备侧，并且可将第一文本数据也一并返回。

步骤416，接收第一语音数据。

步骤418，播放所述第一语音数据。

该第一翻译信息为对第一手语视频数据进行语义翻译，得到的自然语言的翻译信息。该自然语言是可以理解为自然地随文化演化的语言，即通过发音方式输出的语言。如汉语、英语、法语、日语等，也可为一种语言下的方言，如粤语、闽南语、上海话等方言。本申请实施例中，第一语音数据和第一文本数据可称为第一翻译信息。

可以通过音频输出单元输出该语音信息，也可在通信页面上显示该第一文本信息，从而使得非手语用户能够获知第一用户的手语的语义，实现对手语的翻译。

步骤420，通过音频采集单元采集接收第二语音数据。

当其他非手语用户要和第一用户交流时，可说出交流内容，可通过设备的语音输入单元如麦克风等组件，采集用户说话的第二语音数据。当然在另外一些场景中，也可提供文本框等文本数据控件，方便用户进行文本输入。

步骤422，发送所述第二语音数据，以依据所述第二语音数据生成第二手语视频数据。

可以上传所述第二语音数据到服务端。服务端可对第二语音数据语音识别得到第二文本数据。然后对第二文本数据进行处理得到相应的手语参数，再基于该手语参数驱动虚拟用户执行手语，得到第二手语视频数据，即第二语音数据翻译的手语视频数据。然后可将第二手语视频数据发送给设备。

步骤424，接收服务端发送的第二手语视频数据。

步骤426，在第二区域显示所述第二手语视频数据。

将其他用户如非手语用户的第二语音数据翻译为第二手语视频数据后，可以在第二区域中展示，即通过驱动虚拟用户执行手语的方式，使得第一用户可以观看到手语，理解其他用户表达的意思。本申请实施例中，在返第二手语视频数据时，服务端还可返回第二语音数据识别的第二文本数据，将第二文本数据显示在第二区域中，方便第一用户通过屏幕观看到文本数据。

以下提供一种基于设备和服务器交互来实现手语的无障碍通信的实施例，远端用户可基于该通信页面实现无障碍通信，其中，两个用户可为手语用户和非手语用户。

参照图5A，示出了本申请的另一种无障碍通信方法实施例的交互示意图。如图5A所示，手语用户和非手语用户均通过视频进行交互，其中，在手语用户(第一设备)侧采集第一手语视频数据，在非手语用户(第二设备)侧采集第二语音数据。具体可执行以下步骤：

步骤500，设备提供通信页面，所述通信页面包括：第一区域和第二区域。以第一设备为手语用户的设备，第二设备为非手语用户的设备为例。例如该通信页面为即时通讯(Instant Messaging，IM)应用程序的通信页面，或者购物应用程序的客服页面等。

步骤502，第一设备通过图像采集单元采集第一手语视频数据。

步骤504，第一设备在第一区域显示第一手语视频数据。

步骤506，第一设备上传所述第一手语视频数据到服务端。可直接上传或在检测到满足手语条件后上传。上传视频数据之前还包括以下至少一种步骤：对第一视频数据进行采样处理，得到待上传的第一视频数据；降低第一视频数据的分辨率，得到待上传的第一视频数据；从所述第一视频数据中提取手语特征，将所述手语特征作为待上传的第一视频数据。

步骤508，服务端对所述第一手语视频数据进行手语识别，得到对应的第一翻译数据。所述第一翻译数据包括第一语音数据、第一文本数据。

步骤510，服务端下发所述第一手语视频数据、第一语音数据、第一文本数据中的至少一个给设备。其中，服务端可将第一语音数据、第一文本数据中的至少一个发送给第一设备。对于所反馈的数据可基于各种情况确定，如第一用户的设置、网络情况等确定是否返回第一翻译数据。对于第二设备，服务端可至少返回第一语音数据、第一文本数据中的至少一个，以便第二设备的用户能够理解第一用户所表达的意思。当然，也可基于设置、网络情况等反馈第一手语视频数据到第二设备处。

步骤512，第二设备的音频采集单元采集第二语音数据。

步骤514，第二设备上传所述第二语音数据到服务端。

步骤516，服务端依据第二语音数据生成第二手语视频数据。

服务端可对所述第二语音数据进行语音识别，确定对应的第二文本数据。依据所述第二文本数据确定手语参数，并依据所述第二语音数据识别情绪信息，依据所述情绪信息确定表情参数。依据所述手语参数和表情参数，生成包含第二用户的第二手语视频数据。

步骤518，服务端发送第二手语视频数据给第一设备。

服务端发送第二手语视频数据给第一设备。也可将第二文本数据、第二语音数据发送到第一设备。而对于第二设备，可基于设置、网络情况等确定是否反馈第二手语视频数据、第二文本数据、第二语音数据。

步骤520，第一设备在第二区域显示所述第一手语视频数据。

从而手语用户通过通信页面可以与非手语用户进行无障碍通信。

在上述实施例的基础上，如图5B所示，手语用户和非手语用户可应用于客户场景，客服页面可给用户提供手语翻译入口，从而基于该手语翻译入口可进入通信页面。在手语用户(第一设备)侧采集第一手语视频数据，在非手语用户(第二设备)侧采集文本数据，基于文本数据合成第二手语视频数据，发送给第一设备，使得第二用户可以观看该第二手语视频数据。相应的，针对手语用户的第一手语视频数据翻译得到的第一文本数据反馈到客服的第二设备中。其中，设备提供翻译页面，所述翻译页面包括：第一区域和第二区域。以第一设备为手语用户的设备，第二设备为非手语用户的设备为例，该翻译页面为客服页面，如购物应用程序的客服页面、就医咨询页面的服务页面等。第一设备通过图像采集单元采集第一手语视频数据。第一设备在第一区域显示第一手语视频数据。第一设备上传所述第一手语视频数据到服务端。服务端对所述第一手语视频数据进行手语识别，得到对应的第一翻译数据，如第一文本数据，可以发送该第一文本数据到第二设备，使得在客服端可以在服务页面查看文本消息。第二设备接收第二文本数据，上传所述第二文本数据到服务端。服务端依据第二语音数据生成第二手语视频数据。依据所述第二文本数据确定手语参数，依据所述手语参数，生成包含第二用户的第二手语视频数据。服务端发送第二手语视频数据给第一设备，使得第一用户可以观看到相应的手语服务，能够为手语用户提供所需的服务。

以下提供一种基于设备和服务器交互来实现手语的无障碍通信的实施例，远端用户可基于该通信页面实现无障碍通信，其中，两个用户可均为手语用户。

参照图6，示出了本申请的另一种无障碍通信方法实施例的步骤流程图。

步骤600，设备提供通信页面，所述通信页面包括：第一区域和第二区域。以第一设备为手语用户的设备，第二设备为非手语用户的设备为例。例如该通信页面为即时通讯(Instant Messaging，IM)应用程序的通信页面。

步骤602，本端设备通过图像采集单元采集第一手语视频数据。

步骤604，本端设备在第一区域显示第一手语视频数据。

步骤606，本端设备上传所述第一手语视频数据到服务端。

手语用户A可通过自己的设备采集第一手语视频数据，然后传送到服务端进行识别、翻译。其中，手语用户A和远端的手语用户B采用不同的手语进行交互，为了区分，假设手语用户A采用第一类手语，手语用户B采用第二类手语。

步骤608，服务端对所述第一手语视频数据进行手语识别，得到对应的第一翻译数据。所述第一翻译数据包括第一语音数据、第一文本数据。

步骤610，服务端依据所述第一文本数据，合成第二手语视频数据。

其中，第一文本数据可为所需要各种自然语言的文本数据。例如手语用户A采用的第一类手语为中国的手语，则第一文本数据可为汉语的文本数据。手语用户B采用的第二类手语为英国的手语，则可进一步将第一文本数据翻译为英文的文本数据。或者，在识别手语时，直接得到英文的第一文本书，可依据需求设定。可基于该第一文本数据确定手语参数，还可从第一手语视频数据中识别的情绪信息等确定表情参数，然后基于手语参数和表情参数驱动虚拟用户执行手语，并合成第二手语视频数据。

步骤612，服务端下发第二手语视频数据给对端设备。还可发送第一手语视频数据和第一文本数据到对端设备。

步骤614，对端设备在第二区域显示第二手语视频数据。

上述实施例也可应用于手语教育的场景中，则本端设备和对端设备可为同一设备，设备提供通信页面，所述通信页面包括：第一区域和第二区域。设备通过图像采集单元采集第一手语视频数据。设备在第一区域显示第一手语视频数据。设备上传所述第一手语视频数据到服务端。服务端对所述第一手语视频数据进行手语识别，得到对应的第一翻译数据。手语用户A可通过自己的设备采集第一手语视频数据，然后传送到服务端进行识别、翻译。所述第一翻译数据包括第一语音数据、第一文本数据。服务端依据所述第一文本数据，合成第二手语视频数据。基于所识别的第一文本数据，可确定对应的标准手语动作，驱动虚拟用户执行标准的手语动作，并合成第二手语视频数据。还可将第二手语视频数据和第一手语视频数据进行比较，确定待矫正的手语信息。然后可基于待矫正的手语信息，在第二手语视频数据中添加矫正标记。服务端下发第二手语视频数据给设备。还可发送第一手语视频数据和第一文本数据到对端设备。设备在第二区域显示第二手语视频数据。从而能够在设备上显示标准的第二手语视频数据，并且可基于第二手语视频数据中的矫正标记确定需要矫正的手语动作。在另外的一些场景中，在第二手语视频数据的同时，还可同步播放第一手语视频数据，从而对比显示需要调整的动作。

本申请各实施例中，不限制手语视频数据和语音数据的采集前后顺序，可基于需求、具体的通信过程来执行。

综上，本申请可应用于面对面、远端等各种手语通信场景中，实现基于手语的无障碍通信。

在上述实施例的基础上，本申请实施例还提供了一种无障碍通信方法，能够提供通信页面，基于该通信页面给用户提供手语翻译、手语合成等，并且可在页面中提供各种控件来方便用户的使用。

参照图7、示出了本申请的再一种无障碍通信方法实施例的步骤流程图。

步骤702，提供通信页面，所述通信页面包括：第一区域和第二区域。

步骤704，在第一区域显示第一手语视频数据，并在第二区域显示包含第二用户的第二手语视频数据，所述第一手语视频数据至少包含第一用户的面部和手部影像，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述输入信息生成的手语视频数据。

步骤706，接收对所述通信页面中页面控件的触发。

步骤708，显示所述页面控件对应的控件界面，以提供所述页面控件的功能。

在通信页面中可提供多种页面控件，该页面控件可提供针对页面的各种功能，如调整各种设备、输入输出信息等。例如，页面控件可包括设置控件，基于该设置控件可调整所需的设置，如页面基本设置、个人信息等。该页面控件也可对页面的显示元素、输入信息、输出信息等各种信息进行调整的控件。例如，所述页面控件包括以下至少一种：虚拟人调整控件、语言调整控件、输入调整控件、输出调整控件。用户可基于需求触发通信页面中的页面控件，触发方式可以包括点击、长按等触摸方式，也可包括各种手势操作等，可依据需求设置。依据对通信页面中页面控件的触发，可显示相应的控件界面，该控件界面可为通信页面的界面，如浮动窗口、界面版等形式的界面，也可为单独的一个页面，在触发页面控件后调整到控件界面。通过该控件界面可提供该控件所对应的功能，如切换不同的虚拟用户来执行手语，又如调整手语所翻译的语言，或者调整不同的输入、输出方式等。

本申请实施例中，该通信页面可提供语言调整控件，该语言调整控件用于选择目标语言。目标语言可包括各种手语和各种自然语言。其中，不用国家的手语也存在一定的差异，因此可提供手语选择控件，该手语选择控件用于选择不同种类的手语，如中国手语、英国手语等，不同种类的手语可以理解为不同国家的手语，也可包括标准手语、自然手语，该自然手语指的是自然所形成的手语。语言调整控件也可包括自然语言调整控件，用于选择所翻译的自然语言，如汉语、英语、法语，还可包括方言等，从而方便各类用户使用。

本申请实施例中，该引导页面、通信页面还可显示各种服务信息，所述服务信息的信息类型包括：服务文本数据、服务语音数据和服务手语视频数据中的至少一种；所述服务信息的内容类型包括以下至少一种：提示信息、场景常用语。即服务信息可通过手语、语音、文本等形式输出，而服务信息所对应的内容可为各种提示信息、场景的常用语等。

其中，服务信息包括提示信息，提示信息可为各种事件的提示信息，如等待提示信息、故障提示信息、操作提示信息等。如等待提示信息可通过手语视频、文本等方式提示第一用户，请等待，正在翻译或正在输入数据，也可通过语音、文本等方式提示其他用户，请等待，正在翻译或正在输入数据等。对于故障提示信息，也可通过语音、文本、手语视频等各种形式，提示相应的用户，现在出现故障，如网络出现问题、无法翻译、翻译失败等内容。操作提示信息可通过语音、文本、手语视频等各种形式，提示相应的用户可以执行的操作，如启动翻译，结束翻译，切换语言等。还可包括关于输入的提示，例如第一用户脱离手语识别区，可以进行提示，又如其他用户的声音比较小，也可进行提示。

所述场景常用语可与翻译的场景相关，例如在购物场景中，可为购物相关的常用语如欢迎语、价格回复、商品介绍、购物问询等常用语；又如在就医场景中，对于症状、保险等的常用语；又如在法律服务场景中，对于用户基本信息的询问等场景。总之可基于实际所应用的场景，预先确定出该场景的常用语，并得到对应的文本、语音、手语视频等数据。

上述服务信息为在场景服务中信息，如使用频率比较高的信息，又如必要的提示信息等。因此这些服务信息可预先存储在设备本地，并且每个服务信息可对应服务条件，如提示条件、场景条件等，结合具体的使用场景确定，在检测到满足服务条件时，输出相应的服务信息。

在上述实施例的基础上，本申请实施例还可以确定场景信息，基于场景信息确定场景参数，以通过所述场景参数辅助手语翻译。并且可基于场景信息、场景参数确定所需的场景常用语等服务信息。例如可基于场景信息可确定场景参数，如场景的名称、标签、属性等参数，然后可基于该参数来辅助手语翻译，如调用相应的手语数据库等。该确定场景信息，包括以下至少一种信息：

对所述第一手语视频数据的背景进行分析，确定对应的场景信息；针对所采集的第一手语视频数据，可通过视觉处理分析背景，如室外或室内，商场或旅游景点等，从而基于分析的背景确定相应的场景信息。

通过音频采集单元采集环境音数据，依据所述环境音数据确定对应的场景信息；针对所采集的语音数据、视频数据等也可对环境音进行分析，确定用户当前所处的环境，得到相应的场景信息。

对所述第二语音数据进行分析，确定对应的场景信息；对于第二语音数据的分析可包括内容分析、环境音分析等，从而确定出场景信息。

获取位置信息，依据所述位置信息确定场景信息；还可从终端设备获取位置信息，基于该位置信息确定对应的场景信息，如基于位置信息确定当前位于学校、医院、商场等位置，确定相应的场景信息。

确定所述翻译页面之前的目标页面，依据所述目标页面确定场景信息；翻页页面可从其他页面中进入，因此可将进入翻译页面之前的页面作为目标页面，然后基于目标页面分析场景信息，如目标页面为支付页面、购物页面、购物应用的客服页面等，可确定相应的场景信息。

确定已运行的应用程序，依据所述已运行的应用程序确定场景信息；还可检测设备中已运行的应用程序，基于该应用程序的类型、功能等确定场景信息。如购物应用、社交应用、即时通讯应用等，其中已运行的应用程序包括通信页面所在的应用程序，以及在后台或前台运行的其他应用程序，具体可基于需求确定。

获取时间信息，依据所述时间信息确定场景信息。还可基于时间信息来确定场景信息，如白天、夜晚，工作日、休息日、节假日等，具体依据需求确定。

本申请实施例中，场景参数可综合上述各种维度所确定的场景信息得到，从而能够基于场景参数辅助手语翻译、手语合成等过程。

本申请实施例中，通信页面还可包括虚拟人调整控件，所述虚拟人调整控件用于调整第二用户的虚拟形象，从而用户可调整所需的虚拟人物。因此可触发通信页面中虚拟人调整控件，依据对所述通信页面中虚拟人调整控件的触发，调整第二用户的虚拟形象。例如可在通信页面中显示可选择的虚拟用户的虚拟形象，通过点击、语音、手语等多种方式可发出选择操作，选择想要使用的虚拟形象。可接收对所述通信页面中虚拟人调整控件的触发；在所述通信界面中显示多个可选择的第二用户。依据所述选择指令，确定目标第二用户，以将第二手语视频数据中的虚拟用户调整为所述目标第二用户。

本申请实施例中，通信页面还包括退出控件，依据对通信页面中退出控件的触发，接收退出指令；依据所述退出指令，关闭所述通信页面。如在完成购物、就医挂号等，可触发结束控件，关闭通信页面，回到引导页面。从而在各种场景中为用户提供手语服务，辅助与手语用户交互。

本申请实施例中，在每个区域还设置有指示元素，该指示元素用于指示当前区域的输入、输出状态。可采用多种形式实现，例如指示元素为界面图标，通过不同的颜色指示输入、输出状态，如输入状态为红色、输出状态为绿色，无输入输出的空闲状态为灰色。又如指示元素为动态元素，可通过动态的指示效果来指示不同的输入、输出状态。如一种动态元素的示例为指示灯。该指示灯可通过不同的光圈来指示不同的输入、输出状态。如在输入、输出时，光圈动态的扩大、缩小，指示当前正在输入或输出。并且还可结合不同的颜色、文字等来进行提示。在第一区域和第二区域可分别设置指示原色，从而指示本区域的输入、输出状态，以及指示其他区域的输入、输出状态。也可在翻译页面中显示一个指示原色，通过不同的颜色、动态效果、文字等来提示当前输入、输出的用户。因此，可在所述翻译页面中显示指示元素，所述指示元素用于指示输入、输出状态；所述指示元素包括以下至少一种：文字指示元素、动态指示元素、颜色指示元素。

如图8A所示的一种示例中，提供了一种呼吸灯样式的指示元素，在空闲状态下为灰色，在存在输入或输出时亮起，显示为呼吸灯样式。并且可以通过在指示元素上显示文字来表示输入或输出的用户，如“A”代表用户A，“B”代表用户B，“C”代表虚拟用户，能够直观的指示出执行示输入或输出的用户。例如，在检测到用户A执行输入或输出时，可通过指示元素显示“A”，并通过动态变化或颜色变化指示用户A正在输入或输出。又如在检测到对方执行输入或输出时，可通过指示元素显示“B”或“C”，并通过动态变化或颜色变化指示对方用户B正在输入或虚拟用户C在输出。又如在虚拟用户输出手语时，第二界面上的指示元素可显示“九”等虚拟用户的简称、昵称、代号等信息，并且通过动态变化或颜色变化指示虚拟用户正在输出手语。如图8B的示例中，其分步骤展示出了指示元素对应呼吸灯样式的动态效果，在具有输入或输出时，指示元素可通过光圈的逐步扩大和缩小来展示动态效果，指示输入或输出正在执行。如在对方输入时，显示为“A”且颜色由深变浅的调整，在自己输入时，显示为“B”且颜色由浅变深的调整。

本申请实施例中，翻页页面还包括指示标签，该指示标签可用于指示输入状态、对话时间、服务信息等。一个示例中，所述指示标签可位于第一区域和第二区域的交接位置上，可用于指示各种所需的信息。例如将服务信息显示在指示标签上，从而可以指示各种提示信息、场景常用语以及场景所对应的推荐信息等。还可与指示元素相结合来提示输入状态，以及可以显示当前翻译的持续时间等各类型的信息。该指示标签也可通过不同的颜色、图标、文字等来显示不同的信息，还可在不同信息之间切换时，通过相应的切换样式进行提示，如翻转切换、缩放切换、百叶切换等各种样式，从而能够提示信息的变化。在所述翻译页面中显示指示标签；在不同的指示标签之间通过设定样式进行切换。

本申请实施例中，还可基于需求调整所需的输入、输出方式，例如在页面上设置输入调整控件、输出调整控件，可基于对相应控件的调整，切换不同的输入、输出方式。另外还可通过手势触发输入、输出方式的切换。其中，可依据第一手势操作，调整输入方式，所述输入方式包括：语音输入方式、文本输入方式和\或视频输入方式；依据第二手势操作，调整输出方式，所述输入方式包括：语音输出方式、文本输出方式和\或视频输出方式。本实施例的手势可为默认手势，也可为自定义手势，还可将指示切换的手语作为切换的第一手势操作、第二手势操作，从而在检测到手势操作后，可以基于该手势操作调整输入、输出方式，如从手语输入切换为语音输入，又如从语音输出调整为文本数据等，可基于需求确定。

本申请实施例中，手语翻译的信息以视觉展示为主，从而使得手语用户能够获知手语视频数据，便捷的与其他用户交流。针对手语识别、翻译为自然语言，以及将自然语言翻译为手语视频数据可在服务端实现。例如基于计算机视觉算法对手语视频数据进行手语识别，然后通过自然语言处理(Neuro-Linguistic Programming，NLP)翻译成自然语言的文本数据，再基于文本到语音(TextToSpeech，TTS)的语音技术将其翻译成语音数据。针对自然语言翻译为手语，可将语音数据识别为文本数据，然后通过基于该自然语言得到手语对应的手语参数，然后基于3D技术驱动虚拟角色的第二用户做出手语动作，并生成第二手语视频数据。

本申请实施例的各附图仅是一种示例的显示方式，其中所包含文字、虚拟用户等仅为示例呈现，不应理解为是对本申请实施例的限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种无障碍通信装置，应用于电子设备中。该无障碍通信装置具体可以包括如下模块：

页面提供模块，用于提供通信页面，所述通信页面包括：第一区域和第二区域；第一手语模块，用于接收第一手语视频数据，所述包含第一手语视频数据至少包含第一用户的面部和手部影像；在第一区域显示第一手语视频数据；播放第一语音数据，所述语音数据为对所述第一手语视频数据进行语义识别得到的第一语音数据；第二手语模块，用于接收第二语音数据；在第二区域显示包含第二用户的第二手语视频数据，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述第二语音数据生成的手语视频数据。

所述对所述第一手语视频数据进行语义识别包括：以句子为基准对所述第一手语视频数据的语义进行翻译。第二手语视频数据为利用所述第二语音数据的语音识别结果生成的手语视频数据。

第一手语模块，用于通过图像采集单元采集第一手语视频数据。和/或，从服务端接收第一手语视频数据，所述第一手语视频数据为远端设备的图像采集单元采集并上传到服务端的。

还包括：手语翻译模块，用于对所述第一手语视频数据进行语义识别，确定对应的第一语音数据。具体用于：对所述第一视频数据进行特征识别，提取对应的手语特征，所述手语特征包括：手势特征，所述手语特征还包括以下至少一种：轨迹特征、表情特征、情绪特征；对所述手语特征进行分析，确定对应的手语句子；将所述手语句子作为第一文本数据，生成对应的第一语音数据。其中，对所述手语特征进行分析，确定对应的手语词汇；对所述手语词汇进行语义分析，确定对应的手语句子。

第一手语模块，还用于上传所述第一手语视频数据。具体用于当检测所述第一视频数据符合手语条件时，上传所述第一手语视频数据；所述手语条件包括以下至少一种：手势条件、肢体轨迹条件。第一手语模块，还用于对第一视频数据进行采样处理，得到待上传的第一视频数据；和/或，降低第一视频数据的分辨率，得到待上传的第一视频数据；和/或，从所述第一视频数据中提取手语特征，将所述手语特征作为待上传的第一视频数据。第一手语模块，还用于接收服务端第一语音数据。接收所述第一语音数据对应的第一文本数据；在所述通信页面中显示所述第一文本数据。

第二手语模块，用于通过音频采集单元采集第二语音数据。和/或，接收服务端发送的第二语音数据，所述第二语音数据为远端设备的音频采集单元采集并上传到服务端的

还包括：手语合成模块，用于对所述第二语音数据进行语音识别，确定对应的第二文本数据。依据所述第二文本数据确定手语参数，依据所述手语参数生成包含第二用户的第二手语视频数据。手语合成模块，具体用于依据所述第二语音数据识别情绪信息，依据所述情绪信息确定表情参数；依据所述手语参数和表情参数，生成包含第二用户的第二手语视频数据。

第二手语模块，还用于从服务端接收包含第二用户的第二手语视频数据。从服务端接收第二语音数据对应的第二文本数据。在所述通信页面中显示所述第二文本数据。

所述通信界面提供有虚拟人调整控件，调整模块，用于接收对所述通信页面中虚拟人调整控件的触发；在所述通信界面中显示多个可选择的第二用户。

所述调整模块，还用于依据所述选择指令，确定目标第二用户，以将第二手语视频数据中的虚拟用户调整为所述目标第二用户。

提示模块，用于在检测到满足服务条件时，输出服务信息，所述服务信息的信息类型包括：服务文本数据、服务语音数据和服务手语视频数据中的至少一种；所述服务信息的内容类型包括以下至少一种：提示信息、场景常用语。所述提示信息包括以下至少一种：错误提示信息、等待提示信息、识别失败提示信息。所述服务信息预先存储在本地或从服务端获取。

场景辅助模块，用于确定场景信息，依据所述场景信息确定场景参数，以通过所述场景参数辅助手语翻译。场景辅助模块，还用于确定场景信息，具体用于：对所述第一手语视频数据的背景进行分析，确定对应的场景信息；和/或，通过音频采集单元采集环境音数据，依据所述环境音数据确定对应的场景信息；和/或，对所述第二语音数据进行分析，确定对应的场景信息；和/或，获取位置信息，依据所述位置信息确定场景信息；和/或，确定所述翻译页面之前的目标页面，依据所述目标页面确定场景信息；和/或，确定已运行的应用程序，依据所述已运行的应用程序确定场景信息；和/或，获取时间信息，依据所述时间信息确定场景信息。

启动模块，用于接收启动指令，依据所述启动指令启动通信页面。退出模块，用于依据对所述通信页面中退出控件的触发，退出所述通信页面。

综上，依据所述翻译指令，启动对应的通信页面，在在所述第一区域显示包含第一用户的第一视频数据，所述第一视频数据由图像采集单元采集，所述第一视频数据包括第一手语视频数据，从而能够采集到用户的手语并进行翻译，也可以接收其他用户的输入，在所述第二区域显示翻译的包含第二用户的第二视频数据，所述第二用户为虚拟用户，所述第二视频数据包括第二手语视频数据，从而便捷的进行手语翻译和交互。本申请实施例中，手语翻译的信息以视觉展示为主，从而使得手语用户能够获知手语视频数据，便捷的与其他用户交流。

针对手语识别、翻译为自然语言，以及将自然语言翻译为手语视频数据可在服务端实现。例如基于计算机视觉算法对手语视频数据进行手语识别，然后通过自然语言处理(Neuro-Linguistic Programming，NLP)翻译成自然语言的文本数据，再基于文本到语音(TextToSpeech，TTS)的语音技术将其翻译成语音数据。针对自然语言翻译为手语，可将语音数据识别为文本数据，然后通过基于该自然语言得到手语对应的手语参数，然后基于3D技术驱动虚拟角色的第二用户做出手语动作，并生成第二手语视频数据。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括数据中心内的终端设备、服务器(集群)等电子设备。图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置900。

对于一个实施例，图9示出了示例性装置900，该装置具有一个或多个处理器902、被耦合到(一个或多个)处理器902中的至少一个的控制模块(芯片组)904、被耦合到控制模块904的存储器906、被耦合到控制模块904的非易失性存储器(NVM)/存储设备908、被耦合到控制模块904的一个或多个输入/输出设备910，以及被耦合到控制模块904的网络接口912。

处理器902可包括一个或多个单核或多核处理器，处理器902可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置900能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置900可包括具有指令914的一个或多个计算机可读介质(例如，存储器906或NVM/存储设备908)以及与该一个或多个计算机可读介质相合并被配置为执行指令914以实现模块从而执行本公开中所述的动作的一个或多个处理器902。

对于一个实施例，控制模块904可包括任意适当的接口控制器，以向(一个或多个)处理器902中的至少一个和/或与控制模块904通信的任意适当的设备或组件提供任意适当的接口。

控制模块904可包括存储器控制器模块，以向存储器906提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器906可被用于例如为装置900加载和存储数据和/或指令914。对于一个实施例，存储器906可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器906可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块904可包括一个或多个输入/输出控制器，以向NVM/存储设备908及(一个或多个)输入/输出设备910提供接口。

例如，NVM/存储设备908可被用于存储数据和/或指令914。NVM/存储设备908可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备908可包括在物理上作为装置900被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备908可通过网络经由(一个或多个)输入/输出设备910进行访问。

(一个或多个)输入/输出设备910可为装置900提供接口以与任意其他适当的设备通信，输入/输出设备910可以包括通信组件、音频组件、传感器组件等。网络接口912可为装置900提供接口以通过一个或多个网络通信，装置900可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置900可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置900可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置900包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种无障碍通信方法和一种无障碍通信装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种无障碍通信方法，其特征在于，所述的方法包括：

提供引导页面，所述引导页面显示虚拟用户；

在所述引导页面触发进入到通信页面时，将所述引导页面缩小为第二区域，并跟随所述第二区域显示第一区域，生成对应的通信页面，所述通信页面包括：第一区域和第二区域；

接收第一手语视频数据，所述第一手语视频数据至少包含第一用户的面部和手部影像；

在第一区域显示第一手语视频数据；

播放第一语音数据，所述语音数据为以句子为基准对所述第一手语视频数据进行语义识别得到的第一语音数据；

接收第二语音数据；

在第二区域显示包含第二用户的第二手语视频数据，所述第二用户为虚拟用户，所述第二手语视频数据为利用所述第二语音数据生成的手语视频数据；

还包括：接收对所述通信页面中虚拟人调整控件的触发；

在所述通信界面中显示多个可选择的第二用户；

依据选择指令，确定目标第二用户，以将第二手语视频数据中的虚拟用户调整为所述目标第二用户。

2.根据权利要求1所述的方法，其特征在于，还包括：

对所述第一手语视频数据进行语义识别，生成对应的第一语音数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一手语视频数据进行语义识别，确定对应的第一语音数据，包括：

对所述第一手语视频数据进行特征识别，提取对应的手语特征，所述手语特征包括：手势特征，所述手语特征还包括以下至少一种：轨迹特征、表情特征、情绪特征；

对所述手语特征进行分析，确定对应的手语句子；

将所述手语句子作为第一文本数据，生成对应的第一语音数据。

4.根据权利要求3所述的方法，其特征在于，所述对所述手语特征进行分析，确定对应的手语句子，包括：

对所述手语特征进行分析，确定对应的手语词汇；

对所述手语词汇进行语义分析，确定对应的手语句子。

5.根据权利要求1所述的方法，其特征在于，第二手语视频数据为利用所述第二语音数据的语音识别结果生成的手语视频数据。

6.根据权利要求5所述的方法，其特征在于，第二手语视频数据中第二用户的手部动作和/或面部表情是基于第二语音数据的语音识别结果生成。

7.根据权利要求1所述的方法，其特征在于，所述接收第一手语视频数据，包括：

通过图像采集单元采集第一手语视频数据；或

从服务端接收第一手语视频数据，所述第一手语视频数据为远端设备的图像采集单元采集并上传到服务端的。

8.根据权利要求1所述的方法，其特征在于，还包括：

当检测所述第一手语视频数据符合手语条件时，上传所述第一手语视频数据到服务器；所述手语条件包括以下至少一种：手势条件、肢体轨迹条件。

9.根据权利要求8所述的方法，其特征在于，上传视频数据之前还包括以下至少一种步骤：

对第一视频数据进行采样处理，得到待上传的第一视频数据；

降低第一视频数据的分辨率，得到待上传的第一视频数据；

从所述第一视频数据中提取手语特征，将所述手语特征作为待上传的第一视频数据。

10.根据权利要求8所述的方法，其特征在于，还包括：

接收服务端第一语音数据；和/或

接收所述第一语音数据对应的第一文本数据，并在所述通信页面中显示所述第一文本数据。

11.根据权利要求1所述的方法，其特征在于，所述接收第二语音数据，包括：

通过音频采集单元采集第二语音数据；和/或

接收服务端发送的第二语音数据，所述第二语音数据为远端设备的音频采集单元采集并上传到服务端的。

12.根据权利要求1所述的方法，其特征在于，还包括：

对所述第二语音数据进行语音识别，确定对应的第二文本数据；和

依据所述第二文本数据确定手语参数，依据所述手语参数生成包含第二用户的第二手语视频数据。

13.根据权利要求12所述的方法，其特征在于，还包括：

依据所述第二语音数据识别情绪信息，依据所述情绪信息确定表情参数；

所述依据所述手语参数生成包含第二用户的第二手语视频数据，包括：

依据所述手语参数和表情参数，生成包含第二用户的第二手语视频数据。

14.根据权利要求1所述的方法，其特征在于，还包括：

从服务端接收包含第二用户的第二手语视频数据；和/或

从服务端接收第二语音数据对应的第二文本数据；以及在所述通信页面中显示所述第二文本数据。

15.根据权利要求1所述的方法，其特征在于，还包括：

确定场景信息，依据所述场景信息确定场景参数，以通过所述场景参数辅助手语翻译；

所述确定场景信息包括以下至少一种信息：

对所述第一手语视频数据的背景进行分析，确定对应的场景信息；

通过音频采集单元采集环境音数据，依据所述环境音数据确定对应的场景信息；

对所述第二语音数据进行分析，确定对应的场景信息；

获取位置信息，依据所述位置信息确定场景信息；

确定翻译页面之前的目标页面，依据所述目标页面确定场景信息；

确定已运行的应用程序，依据所述已运行的应用程序确定场景信息；

获取时间信息，依据所述时间信息确定场景信息。

16.根据权利要求1所述的方法，其特征在于，还包括：

接收启动指令，依据所述启动指令启动通信页面；和/或

依据对所述通信页面中退出控件的触发，退出所述通信页面。

17.一种无障碍通信方法，其特征在于，所述方法包括：

提供引导页面，所述引导页面显示虚拟用户；

在第一区域显示第一手语视频数据，并在第二区域显示包含第二用户的第二手语视频数据，所述第一手语视频数据至少包含第一用户的面部和手部影像，所述第二用户为虚拟用户，所述第二手语视频数据为利用输入信息生成的手语视频数据；

接收对所述通信页面中页面控件的触发；

显示所述页面控件对应的控件界面，以提供所述页面控件的功能；

还包括：接收对所述通信页面中虚拟人调整控件的触发；

在所述通信界面中显示多个可选择的第二用户；

18.一种无障碍通信装置，其特征在于，处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-17中任一项所述的方法。