CN110598576B

CN110598576B - 一种手语交互方法、装置及计算机介质

Info

Publication number: CN110598576B
Application number: CN201910773673.3A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2023-06-23
Anticipated expiration: 2039-08-21
Also published as: CN110598576A

Abstract

本申请提供一种手语交互方法、装置及计算机介质，涉及人工智能技术领域，用于解决如何与聋哑人进行顺畅的交流的问题；该方法包括：获取待识别手语视频；对所述待识别手语视频进行语义文本识别，获得所述待识别手语视频表达的语义文本；获取所述语义文本的响应文本；将所述响应文本转换成以预设动画形象为主体的响应手语动画视频；该方法中显示给聋哑人的响应文本转化成响应手语动画视频，聋哑人能根据预设动画形象的手语得知响应文本的语义，使得能够与聋哑人进行顺畅的交流沟通。

Description

一种手语交互方法、装置及计算机介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种手语交互方法、装置及计算机介质。

背景技术

聋哑人与普通人进行交流时存在听、说障碍，传统的解决方案是让聋哑人通过手语或文字进行交流，但其具有一定的局限性。一方面，文字交流受到了阅读能力、纸笔书写能力等条件的限制，另一方面，手语只有部分聋哑人和极少数专业人士掌握，普通人并不了解手语，很难通过手语与聋哑人交流。

因此，如何与聋哑人进行顺畅的交流，是一个需要考虑的问题。

发明内容

本申请实施例提供一种手语交互方法、装置及计算机介质，以使聋哑人通过手语进行顺畅的交流。

本申请第一方面，提供一种手语交互方法，包括：

获取待识别手语视频；

对所述待识别手语视频进行语义文本识别，获得所述待识别手语视频表达的语义文本；

获取所述语义文本的响应文本；

将所述响应文本转换成以预设动画形象为主体的响应手语动画视频。

本申请第二方面，提供一种手语交互装置，该装置包括：

手语视频获取单元，用于获取待识别手语视频；

手语视频识别单元，用于对所述待识别手语视频进行语义文本识别，获得所述待识别手语视频表达的语义文本；

响应文本获取单元，用于获取所述语义文本的响应文本；

响应手语动画获取单元，用于将所述响应文本转换成以预设动画形象为主体的响应手语动画视频。

可选地，所述响应手语动画获取单元用于：

将所述响应文本输入已训练的手语动画视频生成模型，获取所述响应文本对应的响应手语动画视频。

本申请第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面及一种可能的实施方式中任一所述的方法。

本申请实施例至少带来以下有益效果：

本申请提供的手语交互方法中，将响应待识别手语视频的响应文本转换成以动画形象为主体的响应手语动画视频，并可以向聋哑人播放响应手语动画视频，且该响应手语动画视频中没有复杂的背景以及其它人或物肢体动作的影响，提升了聋哑人对响应手语动画视频解读的正确性，使得聋哑人通过手语能进行顺畅的交流。

附图说明

图1为本申请实施例提供的几种示例性的预设动画形象的示意图；

图2为本申请实施例提供的一种手语交互的应用场景的示意图；

图3为本申请实施例提供的一种用于手语交互的显示界面的示意图；

图4为本申请实施例提供的在应用场景下，方案实施过程中的示意图；

图5为本申请实施例提供的一种遥控器示意图；

图6为本申请实施例提供的一种遥控器示意图；

图7为本申请实施例提供的一种手语交互方法的流程示意图；

图8为本申请实施例提供的一种获取待识别手语视频表达的语义文本的流程示意图；

图9为本申请实施例提供的一种识别手势图像的语义特征的识别框架示意图；

图10为本申请实施例提供的一种将响应文本转化为手语动画的流程示意图；

图11为本申请实施例提供的一种聋哑人和不懂手语的普通人之间的交流的流程示意图；

图12为本申请实施例提供的一种聋哑人和智能电视进行人机交互的流程示意图；

图13本申请实施例提供的另一种手语交互的应用场景的示意图；

图14为本申请实施例提供的一种手语交互装置的示意图；

图15为本申请实施例提供的一种手语交互装置作为硬件实体的示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

本发明实施例中的架构图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本发明实施例提供的技术方案的限制，对于其它的应用场景架构和业务应用，本发明实施例提供的技术方案对于类似的问题，同样适用。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的专有名词/技术术语进行说明。

手语：是指用手语手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，它是听力障碍或聋哑人使用手的指式、动作、位置和朝向，配合面部表情，按照一定的语法规则表达特定意义的交际工具，与有声语言不同，手语是有形态无声音的直观语言，它是有声语言的重要辅助工具，而对于听力障碍或者说话障碍的人来说，它则是主要的交际工具。

手语手势，手的姿态，是指人类用语言中枢建立起来的一套用手掌和手指位置、形状构成的特定语言系统。

手势图像，包含用户手势的图像信息。

人机交互，是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。

自然语言处理：研究计算机处理人类语言的一门技术，包括句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统、对话系统等。

智能语音助手：是一款智能型的应用软件，该应用软件使用自然语言处理技术，用户可以使用自然的语言与手机等终端设备进行人机交互，可以包括通过智能对话与即时问答的智能交互。

下面对本申请的设计思想进行说明：

聋哑人因存在听、说障碍，常采用手语或文字的形式与外界进行沟通，但是普通人并不能理解手语表达的语义，只有极少数懂得手语的专业人士才能理解手语表达的语义。另一方面，通过文字进行沟通，对书写者着文字书写规范的要求，若文字书写的不规范，则极有可能被错误理解。

随着人工智能技术的发展，语音交互模式已经成为人机交互中新一代家庭交互方式，在语音交互模式中，用户常常通过语音的形式与终端设备进行人机交互，终端设备采集用户的语音信号，通过自然语言处理等识别语音信号表达的语义，并向用户发送响应的语音消息，或者执行语音信号表达的操控指令等，十分便利，但是目前终端设备并不能识别手语，进而聋哑人享受不到人机交互带来的便利。

针对上述问题，现在一般采用以下方法解决聋哑人和普通人交流不便，以及聋哑人无法与终端设备进行人机交互的问题。

采集聋哑人的手语视频，对该手语视频中的手语手势进行分解，获得该手语视频表达的语义文本；进而获得聋哑人的交互对象响应该语义文本的响应语音信号，并将响应语音信号转换成手语视频显示给聋哑人。但是上述将响应语音信号转换为手语视频时，转换的手语视频中可能夹杂复杂的背景以及其它人或物的肢体动作，由于聋哑人只能根据眼睛去判断手语视频表达的语义，这些背景和其它人或物的肢体动作会严重影响聋哑人对转换的手语视频的解读，可能会使聋哑人错误地理解转换的手语视频表达的语义，进而造成一系列的严重后果。

为了解决上述问题，本申请提供一种手语交互方法、装置及计算机介质，以至少提升聋哑人在进行手语交互时，对响应的手语视频理解的准确性。

在本申请的方法中，首先获取用户的待识别手语视频，对获取的待识别手语视频进行处理，解析上述待识别手语视频表达的语义文本；并该用户的交互对象响应该语义文本的响应文本，将该响应文本转换成以预设动画形象为主题的响应手语动画视频，进而可以将该响应手语动画视频显示给用户。

根据本申请技术方案，由于将响应文本转换成以动画形象为主体的响应手语动画视频，过滤了响应的手语视频中的复杂背景以及其它人或物肢体动作的影响，使得聋哑人在解读以动画形象为主体的响应手语动画视频时，不受手语视频中复杂的背景以及其它人或物肢体动作的影响，进而提升了对响应手语动画视频解读的正确性，避免因错误解读响应的手语视频造成的不可预知的一系列严重后果。

上述用户可以是具有听、说障碍的聋哑人，也可以是进行测试的工作人员，或者是没有听、说障碍的普通人。上述交互对象可以是具有听、说、障碍的聋哑人，或者是没有听、说、障碍的普通人，还可以是聋哑人进行人机交互的终端设备。

对上述预设动画形象不做过多限定，本领域的技术人员可根据实际需求设置一个或多个预设动画形象，且设置多个预设动画形象时，可以让用户根据自己的偏好选择一个预设动画形象，以该预设动画形象为主体显示响应手语动画视频；上述预设动画形象可以采用目前市场上已有的动画形象，也可以由技术人员重新设计绘制，参见图1，在图1中给出了几个预设动画形象的示例，可以但不局限于选择其中的一个或多个动画形象为预设动画形象。

应当说明的是，因为手语需要用到人体的指定肢体如手的形状、位置、动作、面部表情以及人体的其它体态等来表达语义，因此，在选用或设计上述预设动画形象时，应根据手语表达需要的人体的构造如手、面部、胳膊、腿等，选用符合要求预设动画形象或者重新设计预设动画形象，即选用或设计的预设动画形象应具备手语表达需要的人体构造部分如手、面部、胳膊、腿等要素。

在本申请中，可以由与用户进行人机交互的终端设备采集待识别手语视频并通过通信连接发送给手语转换设备，由手语转换设备识别该待识别手语视频表达的语义文本，并获取该语义文本对应的响应文本，将响应文本转换成响应手语动画视频并发送给终端，由终端通过显示装置将响应手语动画视频显示给用户。

在本申请中，还可以在手语转换设备上设置摄像模块，直接通过该摄像模块采集待识别手语视频，进而识别该待识别手语视频表达的语义文本，获取该语义文本对应的响应文本，将响应文本转换成响应手语动画视频，并通过显示装置将响应手语动画视频显示给聋哑人。

上述用户进行手语交互的交互对象可以是普通人、聋哑人、终端设备、网络侧设备等，当上述交互对象为普通人时，手语转换设备可以直接获取交互对象响应的响应文本，也可以获取交互对象响应的语音信号，进而将该语音信号转换成响应文本，并将响应文本转换成响应手语动画视频；当上述交互对象为懂得手语表达的普通人以及聋哑人时，手语转换设备可以直接获取交互对象响应的响应手语，进而直接将响应手语转换成以预设动画形象为主体的响应手语动画视频。

当上述交互对象为终端设备或网络侧设备时，终端设备或网络侧设备在得知待识别手语视频表达的语义文本时，可以通过网络搜索该语义文本的响应文本，或者，当上述语义文本为操控上述终端设备或网络侧设备的操控指令时，该终端设备或网络侧设备执行上述操控指令，同时还可以给出操控指令的执行反馈信息，并将该执行反馈信息作为响应文本。

本申请实施例中，与用户进行手语交互的终端设备，是一种具有无线通信功能的设备，可以部署在陆地上，包括室内或室外、手持或车载；也可以部署在水面上(如轮船等)；还可以部署在空中(例如飞机、气球和卫星上等)。上述终端可以是手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端设备、无人驾驶(self driving)中的无线终端设备、远程医疗(remote medical)中的无线终端设备、智慧城市(smart city)中的无线终端设备、智慧家庭(smart home)中的终端设备，如智能电视、智能冰箱等。

上述手语转换设备可以是网络侧设备，如服务器、云端的服务器、分布式网络中的服务器等。

以下仅以用户与终端设备通过手语进行人机交互作为示例，对本申请的手语交互方法进行示例性说明：

如图2所示，首先给出一种手语交互方法的应用场景，具体如下：

该应用场景中包括与用户进行手语交互的终端设备201、手语转换设备202、用户203；其中，终端设备201用于采集用户203的手语视频作为待识别手语视频，并将待识别手语视频发送给手语转换设备；且终端设备201用于接收手语转换设备发送的响应文本转换的响应手语动画视频；其中，终端设备201和手语转换设备202可以通过无线网络连接进行通信。

该终端设备201上设置有摄像模块204，摄像模块可以是摄像头，用于采集用户的手语视频作为待识别手语视频；该终端设备201上还设置有显示模块205，显示模块可以是液晶显示屏等，用于向用户播放接收的响应手语动画视频。

在示例中，以智能电视作为上述终端设备201，服务器为手语转换设备202进行示例性解释说明，以下叙述中的终端设备和智能电视等同，服务器和手语转换设备等同。

由于智能电视不仅为有听力、说障碍的用户服务，还为没有听、说障碍的普通人服务，因此，可以在终端设备201上设置一个用于切换人机交互模式的交互模式切换按键，上述人机交互模式可以但不局限于包括不进行人机交互的常规模式、进行人机交互的语音交互模式和手语交互模式时，还可以设置长按交互模式切换按键表示按照预设的交互模式切换顺序，从当前的交互模式切换到下一个交互模式，对此不做过多限定。

在进入上述语音交互模式和手语交互模式时，需要通过智能电视的语音采集单元或摄像模块采集待识别语音信号或待识别手语信号，本实施例中对如何控制采集待识别语音信号或待识别手语信号的方式不做限定，以下仅给出几个例子进行示例性的说明：

第一种待识别信号采集方式：

交互模式切换到语音交互模式或手语交互模式时，触发语音采集单元采集待识别语音信号或摄像装置采集待识别视频；

当人机交互模式切换按键被用户长按时，结束待识别语音信号或待识别手语视频的采集。

第二种待识别信号采集方式：

单独设置一个信号采集按键，当切换到手语交互模式或者语音交互模式时，触发语音采集单元采集待识别语音信号或摄像装置采集待识别视频；信号采集按键被按下时，结束待识别语音信号或待识别手语视频的采集；或者

信号采集按键被轻按时，触发语音采集单元采集待识别语音信号或摄像装置采集待识别视频；信号采集按键被长按时，结束待识别语音信号或待识别手语视频的采集。

第三种待识别信号采集方式：

单独设置一个信号采集开始按键和信号采集结束按键，在切换到手语交互模式或者语音交互模式时，采集开始按键被按下时，触发语音采集单元采集待识别语音信号或摄像装置采集待识别视频；

信号采集结束被按下时，结束待识别语音信号或待识别手语视频的采集。

在本实施例中，对上述摄像模块204、显示模块205以及交互模式切换按键在终端设备201上的位置不做过多限定，可灵活设置。

可选地，可以将终端设备201的显示模块205的显示界面设计成如图3所示的显示界面301，其中显示界面301分成第一显示区域302和第二显示区域303，上述第一显示区域可以用于显示采集的待识别手语视频，第二显示区域可以可以用于显示响应手语动画视频，本领域的技术人员还可以根据实际需求作出其它界面设计。

为了更形象地理解本申请的方案，如图4所示，本实施例还提供了一种在图2应用场景下，方案实施过程中的示意图，其中，201-205分别为与用户进行手语交互的终端设备、手语转换设备、用户、终端设备的摄像模块、终端设备的显示模块，302和303分别为上述显示界面301中的第一显示区域和第二显示区域。

为了满足用户的个性化偏好需求，还可以在上述终端设备201上设置动画形象切换按键，当上述预设动画形象包括至少2个时，用户可以但不局限于通过该动画形象切换按键选择偏好的预设动画形象，以增加用户的体验好感。

考虑到有些人仅具有说话障碍而无听力障碍，因此，可以在终端设备上设置动画播放模式切换按键，使得用户可以根据自身的情况选择动画播放模式；其中，上述动画播放模式可以但不局限于包括：

无声动画播放模式：仅播放响应手语动画视频，不播放响应手语动画视频表达的响应文本对应的语音信号。

有声动画播放模式：播放响应手语动画视频，同时播放响应手语动画视频表达的响应文本对应的语音信号。

仅播放声音不播放动画模式：仅播放响应手语动画视频表达的响应文本对应的语音信号，不播放响应手语动画视频。

可选地，上述交互模式切换按键、动画形象切换按键以及动画播放模式切换按键还可以设置在控制终端设备的遥控器上，使得用户在遥控器的操控范围内即可选择人机交互模式、预设动画形象、动画播放模式。

如图5所示，给出上述遥控器的示意性的各个按键的分布图，其中，按键501、按键502、按键503分别为交互模式切换按键、动画形象切换按键以及动画播放模式切换按键；如图6所示，给出上述遥控器的示意性的各个按键的分布图，其中，按键区域601、按键区域602、按键区域603分别为述交互模式切换按键、动画形象切换按键以及动画播放模式切换按键的区域，其中，按键区域601内的三个按键可以分别代表控制常规模式按键、语音交互模式按键、手语交互模式按键；按键区域602内的三个按键可以分别代表选择第一种预设动画形象、第二种预设动画形象、第三种预设动画形象的按键；按键区域603内的三个按键可以分别代表无声动画播放模式按键、有声动画播放模式按键、仅播放声音不播放动画模式按键等。

上述图5和图6所示的遥控器只是示意性的说明，本领域的技术人员可根据实际需求，灵活设置上述遥控器的形式及各个按键的分布，此处不做限定。

如图7所示，基于图2和图4所示的应用场景图，本申请实施例提供了一种手语交互方法，该方法的流程可以由手语转换设备执行，具体包括以下步骤：

步骤S701，获取待识别手语视频。

可选地，可以通过网络通信连接获取终端设备通过摄像模块采集的待识别手语视频，或者，在手语转换设备上设置摄像模块，通过该摄像模块直接采集待识别手语视频，或者通过网络通信连接获取独立的摄像设备上传的待识别手语视频。

可选地，在本实施例中，上述终端设备在采集待识别手语视频时，可以将待识别手语视频实时地展示在上述显示界面301中的第一显示区域302内，具体可参见图4。

步骤S702，对待识别手语视频进行语义文本识别，确定该待识别手语视频表达的语义文本。

在本步骤中，可以对待识别手语视频进行手语手势分割处理，获取一个或多个手势图像，对每个手势图像进行语义特征分析，确定每个手势图像对应的语义特征，进而将所有手势图像的语义特征输入已训练的前向传播(back propagation，BP)神经网络模型，得到该待识别手语视频对应的语义文本。

步骤S703，获取语义文本对应的响应文本；

当上述语义文本为聊天语句或者资料查找语句时，手语转换设备可以根据该语义文本，通过网络搜索获取该语义文本的回答文本，并把该回答文本作为响应文本；当用户的交互对象为普通人时，手语转换设备还可以获取普通人响应的响应文本或者响应的语音信号，当获取的是语音信号时，可以将上述语音信号转换成文本信息，并将该文本信息作为响应文本。

当上述语义文本为控制终端执行指定操作的操控指令时，手语转换设备将该操控指令发送给终端设备执行，手语转换设备还可以在执行指令后向终端设备发送反馈终端设备执行操控指令情况的响应文本，以向用户反馈待识别语音视频表达的操控指令的执行情况。

步骤S704，将响应文本转换成以预设动画形象为主体的响应手语动画视频。

可选地，可以通过如下方式将响应文本转换成响应手语动画视频：

第一种手语转换方式：

对响应文本进行分词处理，获得至少一个分词，获取各个分词对应的手语动画；

根据各个分词在响应文本中的语序，将各个分词对应的手语动画组合为响应手语动画视频。

第二种手语转换方式：

将响应文本输入已训练的手语动画视频生成模型，获取该响应文本对应的响应手语动画视频。

在上述步骤S704之后，若手语转换设备设置有显示模块，可以在显示模块播放上述响应手语动画视频；；若手语转换设备设置没有显示模块，则可以将响应手语动画视频发送给终端设备201，在其显示界面301中的第二显示区域303中播放该响应手语动画视频；还可以将该响应手语动画视频发送至独立的显示设备播放，本领域的技术人员可根据实际需求设置。

如图8所示，上述步骤S702中获取待识别手语视频表达的语义文本具体包括如下过程：

步骤S801，对待识别手语视频进行手语手势分割，获取至少一个手势图像。

可以将待识别手语视频的每一帧图像作为一个手势图像，并对每个手势图像进行差影处理或者其它图像分割处理技术手段处理，以除去手势图像中的背景以及其它物体的影响。

可选地，当多帧图像为同一个手势图像时，可以仅保留其中一帧图像作为手势图像进行识别。

步骤S802，对每个手势图像进行语义特征分析，确定每个手势图像对应的语义特征。

可选地，针对任一手势图像，可通过图9的识别框架，按照如下步骤获取该手势图像的语义特征：

步骤S1：获取该手势图像的初步语义特征

采用图像处理中的几何矩算法，提取该手势图像的几个矩特征，选择几何矩特征中七个特征分量中的部分或全部特征分量，组合成该手势图像的初步语义特征。

步骤S2：获取该手势图像表达的语义与其它手势图像表达的语义的语义关联特征

对该手势图像进行灰度阈值分割处理，获取该手势图像的灰度图，在该灰度图上检测该手势图像的边缘，其中，可以通过直方图获取手势图像的边界方向特征，并根据预设的边界方向特征权重以及初步语义特征权重，结合初步语义特征，按照如下公式1获得该手势图像的语义关联特征，其中，任一手势图像的语义关联特征用以表明该手势图像与上述其它手势图像表达的语义的关联度，上述其它手势图像可以是按照待识别手语视频播放的时序将手势图像排序，该手势图像之后的指定数量的手势图像。

公式1：R＝S×Ws+M×Wm；

其中，公式1中的R为任一手势图像的语义关联特征，S为该手势图像的初步语义特征，M为该手势图像的边界方向特征，Ws和Wm分别为初步语义特征权重和边界方向特征权重。

步骤S3：获取该手势图像的语义分类特征

为了能准确地识别各个手势图像表达的语义，本实施例中提前采集大量的手势图像以及该手势图像对应的语义作为训练样本数据，用训练样本数据中的池化特征图训练线性支持向量机分类器，得到语义分类模型。

将该手势图像输入该语义分类模型，得到该手势图像表达的语义对应的语义分类特征。

可选地，可以按照手语手势表达的语义确定语义的分类，如将表达情绪的语义归为一类、将表达食物的语义归为一类，将表达出行方式的语义归为一类等，将表达地点的语义归为一类；也可以按照手语手势表达的语义的词性确定分类，如将动词、代词、名词、副词分别归为一类等。

步骤S4，将获取的初步语义特征、语义关联特征以及语义分类特征，作为该手势图像的语义特征。

步骤S803，根据所有手势图像的语义特征，通过已训练的BP神经网络模型获取该手势图像表达的语义文本

BP神经网络模型型能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小；该该神经网络的训练算法是反向传播算法，即神经元的链接权重的训练是从最后一层即输出层开始，然后反向依次更新前一层的链接权重。

在训练BP神经网络模型时，首先构建该BP网络模型的架构，该神经网络模型包括输入层，多个隐含层和一个输入层，其中，该输入层用以输入一个语义文本对应的所有的手势图像的语义特征，该隐含层用以学习输入发语义特征，该输出层用于输出根据语义特征识别的语义文本。

可选地，可以按照上述步骤S3的方法获取大量的手势图像对应的语义特征，让BP神经网络模型不断地学习这些手势图像和语义特征的映射关系，在BP神经网络模型的输出结果和实际结果的偏离程度满足预设识别误差时，停止对该BP神经网络模型的训练。

在使用上述已训练的BP神经网络模型时，直接将通过步骤S1-S4获得的所有语义特征输入该BP神经网络模型，即可获得该待识别手语视频表达的语义特征。

如图10所示，以下针对步骤S704中的第一种手语转换方式进行详细说明：

步骤S1001，对响应文本进行分词处理，获得至少一个分词。

通过自然语言处理等对响应文本进行分词处理，如响应文本为“我想知道你是谁”时，经过分成处理后就会获得分词“我”、“想”、“知道”、“你”、“是”、“谁”。

步骤S1002，获取各个分词对应的手语动画。

上述手语动画可以包括手势动画图像、手势动画视频等。

可选地，可以通过如下几种方式获取每个分词对应的手语动画：

第一种手语动画转换方式：

根据预设的分词和手语动画的映射关系，获取每个分词对应的一个或多个手语动画。

第二种手语动画转换方式：

根据预设的分词和手语手势的映射关系，获取每个分词对应的至少一个手语手势；根据预设的手语手势与手语动画的映射关系，获取每个手语手势对应的手势动画。

当任一分词对应一个手语手势时，则该手语手势对应的手语动画为该分词的手语动画，当任一分词对应至少两个手语手势时，则将至少两个手语手势对应的手语动画组合为该分词的手语动画。

第三种手语动画转换方式：

将任一分词输入已训练的手语动画转换模型，获得该分词对应的手语动画。

其中，上述预设的分词和手语动画的映射关系、预设的分词和手语手势的映射关系、预设的手语手势与手语动画的映射关系以及手语动画转换模型可以统一保存在手语资源管理系统中。

可选地，可以通过如下方式获得上述预设的分词和手语动画的映射关系：

根据手语表达规范获取各个分词对应的手语手势；

将各个手语手势转换成以预设动画形象为主体的手语动画；

将各个分词与其对应的手语动画保存为预设的分词和手语动画的映射关系。

其中，可以将各个分词对应的手语手势保存为上述预设的分词和手语手势的映射关系，将各个手语手势与对应的手语动画保存为上述预设的手语手势与手语动画的映射关系。

可选地，可以通过如下方式训练手语动画转换模型：

首先基于深度学习网络或卷积神经网络模型等构建手语动画转换模型，以获取的分词和按照上述方法等获取的手语动画为训练样本；在训练手语动画转换模型时，输入每个分词，得到手语动画转换模型输出的预测手语动画，将每个分词对应的预测手语动画与训练样本中的手语动画对比，确定对比结果满足设定动画转换误差时，即可停止对该手语动画转换模型的训练。

可选地，当预设动画形象有多个时，可以针对每个预设动画形象训练对应的手语动画转换模型。

步骤S1003，根据各个分词在响应文本中的语序，将各个分词对应的手语动画组合为响应手语动画视频。

以下以本申请提供的方法在几种场景下的实施过程进行示例性说明：

示例1：聋哑人和不懂手语表达的普通人之间的交流

如图11所示，具体包括如下步骤：

步骤S1100，手语转换设备获取聋哑人的待识别手语视频；

步骤S1101，手语转换设备识别获取的待识别手语视频表达的语义文本；

步骤S1102，手语转换设备将上述语义文本显示给普通人；

可以将上述语义文本直接显示给普通人，也可以将上述语义文本转换成语音信号播放。

步骤S1103，手语转换设备获取普通人响应上述语义文本的响应文本；

可以直接获取普通人响应的响应文本，也可以获取普通人响应的语音信号，将该语音信号转换成对应的文本作为响应文本。

步骤S1104，手语转换设备将响应文本转换成以预设动画形象为主题的响应手语动画视频并显示给聋哑人；

步骤S1105，聋哑人根据响应手语动画视频得知响应文本的内容。

示例2：聋哑人和智能电视进行人机交互

如图12所示，具体包括如下步骤：

步骤S1200，触发手语交互时，智能电视采集聋哑人的待识别手语视频并发送；

可选地，可以通过本实施例中上述用于切换人机交互模式的交互模式切换按键，实现从语音交互模式或者非交互模式切换到手语交互模式，此处不再重复叙述。

步骤S1201，手语转换设备接收待识别手语视频并识别，确定该待识别手语视频表达的语义文本。

此处对确定该待识别手语视频表达的语义文本的方法不再叙述。

步骤S1202，手语转换设备通过网络搜索上述语义文本的响应文本。

若识别出语义文本为控制终端执行指定操作的控制指令时，手语转换设备可以发送该控制指令给终端设备，并指示给终端设备执行该控制指令，同时还可以将在发送控制指令的同时向终端设备发送反馈信息，且可以将反馈信息作为上述响应文本。

针对不同的控制终端，上述控制指令可以不同，如上述终端设备为智能电视时，上述控制指令可以是切换电视节目，上述反馈信息可以是“即将为您切换电视节目”或者“您想观看哪类电视节目”等。

若识别出语义文本为聊天语句或询问答案语句时，手语转换设备可以通过网络设备确定聊天回应语句，或者询问答案语句对应的答案文本，并将上述聊天回应语句或答案文本作为响应文本。

如上述文本信息为询问答案语句“3+3＝？”时，上述响应文本可以为“3+3+6”或者“结果为6”等。

步骤S1203，手语转换设备将响应文本转换成以预设动画形象为主题的响应手语动画视频并发送给终端设备。

步骤S1204，终端设备的显示模块接收并播放上述响应手语动画视频。

步骤S1205，聋哑人根据终端设备播放的响应手语动画视频获知响应文本的内容。

在上述示例2中，从用户角度而言，用户做出手语动作后，便可从终端设备上直观地看到响应手语动画视频，十分便捷。

以下给出一个从产品侧展现本申请方案实施效果的例子进行示例性说明：

应用场景：具有听、说障碍的聋哑人想使用该手语交互系统与智能电视进行问答交互。

如图13所示，该应用场景包括如下设备：

终端设备201、手语转换设备202、用户203、操控终端设备201得遥控器1300；其中：

终端设备201上包括摄像模块204、显示模块205、第一显示区域302以及第二显示区域303；

遥控器1300包括开机按键1301、关机按键1302、交互模式切换按键501、动画形象切换按键502、动画播放模式切换按键503、信号采集开始按键1303以及信号采集结束按键1304。

聋哑人与智能电视进行手语交互的具体过程如下：

用户按下遥控器上的开机按键1301打开智能电视，用户通过交互模式切换按键501切换到手语交互模式，并通过动画形象切换按键502选择一个预设动画形象，通过动画播放模式切换按键503选择无声动画播放模式。

用户通过遥控器按下信号采集开始按键1303时，终端设备的摄像模块204的摄像头开始采集用户的手语视频，并在第一显示区域302中实时显示用户的手语手势；用户的手语动作结束时，按下信号采集结束按键1304，此时终端设备的摄像模块204结束手语视频的采集，并将从用户按下信号采集开始按键1303至按下信号采集结束按键1304的时间内采集的手语视频作为一个完整的待识别手语视频上传。

手语转换设备接收该待识别手语视频并识别，如识别出该待识别手语视频对应的语义文本为“3+3＝？”，此时手语转换设备通过网络搜索得到该语义文本的响应文本为“3+3＝6”，进而将“3+3＝6”转换为以用户选定的预设动画形象为主体的响应手语动画视频并发送给终端设备。

终端设备接收响应手语动画视频，并按照用户选定的无声动画播放模式播放该响应手语动画视频。

用户通过终端设备观看到无声的响应手语动画视频，得知“3+3＝6”的语义文本。

上述过程对于用户而言，当其输入询问问题的手语之后，即可在终端设备上观看到该询问问题的响应手语动画视频，十分简便，且在此过程中，还可以选择预设动画形象、动画播放模式等，提高了用户的体验好感度。

综上，本申请提供的手语交互方法中，将响应待识别手语视频的响应文本转换成以动画形象为主体的响应手语动画视频，并可以通过终端设备向聋哑人播放响应手语动画视频，且该响应手语动画视频中没有复杂的背景以及其它人或物肢体动作的影响，提升了聋哑人对响应手语动画视频解读的正确性，进而提升了聋哑人理解响应文本的准确度。

另一方面，本申请提供的方法中，还可以通过交互模式切换按键切换人机交互的模式，通过动画形象切换按键选择用户偏好的预设动画形象，进而提升了用户使用手语交互进行沟通或控制终端设备的体验。

如图14所示，基于同一技术构思，本申请实施例还提供一种手语交互装置，该装置包括：

手语视频获取单元1400，用于获取待识别手语视频；

手语视频识别单元1401，用于对上述待识别手语视频进行语义文本识别，获得上述待识别手语视频表达的语义文本；

响应文本获取单元1402，用于获取上述语义文本的响应文本；

响应手语动画获取单元1403，用于将上述响应文本转换成以预设动画形象为主体的响应手语动画视频。

可选地，上述手语视频获取单元用于获取客户端采集并发送的待识别手语视频；以及

响应手语动画获取单元还用于将上述响应手语动画视频发送给上述客户端，以使上述客户端播放上述响应手语动画视频。

可选地，上述响应手语动画获取单元用于：

对上述响应文本进行分词处理，获得至少一个分词；

获取各个分词对应的手语动画；

根据各个分词在上述响应文本中的语序，将各个分词对应的手语动画组合为上述响应手语动画视频。

可选地，上述响应手语动画获取单元还用于：

根据预设的分词与手语手势的映射关系，分别获取每个分词对应的至少一个手语手势；

根据预设的手语手势与手语动画的映射关系，获取每个手语手势对应的手势动画；

获得每个分词的手语动画，其中当分词对应一个手语手势时，则该手语手势对应的手语动画为该分词的手语动画，当分词对应至少两个手语手势时，则将至少两个手语手势对应的手语动画组合为该分词的手语动画。

可选地，上述响应手语动画获取单元用于：

将上述响应文本输入已训练的手语动画视频生成模型，获取上述响应文本对应的响应手语动画视频。

该手语交互装置作为硬件实体的一个实例如图15所示，该装置包括处理器1501、存储介质1502以及至少一个外部通信接口1503；上述处理器1501、存储介质1502以及外部通信接口1503均通过总线1504连接。

存储介质1502中存储有计算机程序；

处理器1501执行该计算机程序时实现前文论述的手语交互的方法。

图15中是以一个处理器1500为例，但是实际上不限制处理器1501的数量。

其中，存储介质1502可以是易失性存储介质(volatile memory)，例如随机存取存储介质(random-access memory，RAM)；存储介质1502也可以是非易失性存储介质(non-volatile memory)，例如只读存储介质，快闪存储介质(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储介质1502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储介质1502可以是上述存储介质的组合。

作为一种实施例，图14中的手语交互装置的各个模块的功能可以通过图15中的处理器1502来实现。

基于同一技术构思，本申请实施例还一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当上述计算机指令在计算机上运行时，使得计算机执行如前文论述手语交互的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种手语交互方法，其特征在于，包括：

获取待识别手语视频；

对所述待识别手语视频进行手语手势分割处理，获取至少一个手势图像；

针对所述至少一个手势图像中的每个手势图像，执行以下操作：

获取一个手势图像各自对应的初步语义特征；

通过直方图获取所述一个手势图像的边界方向特征，并根据预设的边界方向特征权重以及初步语义特征权重，结合所述初步语义特征，获取所述一个手势图像表达的语义与其它手势图像表达的语义的语义关联特征；

通过已训练的语义分类模型，获取所述一个手势图像的语义分类特征，并将获取的初步语义特征、语义关联特征以及语义分类特征，作为所述一个手势图像的语义特征；

将所述至少一个手势特征图像各自对应的语义特征输入至已训练的前向传播神经网络模型，获得所述待识别手语视频对应的语义文本；

获取所述语义文本的响应文本；

对所述响应文本进行分词处理，获得至少一个分词；将所述至少一个分词分别输入针对预设动画形象训练的手语动画转换模型，获得所述至少一个分词对应的手语动画；以及，根据所述至少一个分词在所述响应文本中的语序，将所述至少一个分词对应的手语动画，组合为以所述预设动画形象为主体的响应手语动画视频，所述预设动画形象是响应于目标对象触发的动画形象切换操作设置的；

其中，所述手语动画转换模型是通过以下方式训练得到的：

构建手语动画转换模型；

基于获取的各个分词，以及基于预设的分词和手语动画的映射关系，获得所述各个分词对应的以所述预设动画形象为主体的手语动画，并将所述各个分词和对应的手语动画作为训练样本；

将每个分词，输入构建的手语动画转换模型，得到输出的预测手语动画，将每个分词对应的预测手语动画与所述训练样本中的手语动画对比，直至确定对比结果满足设定动画转换误差时，输出所述手语动画转换模型。

2.如权利要求1所述的方法，其特征在于，所述获取待识别手语视频，具体包括，获取客户端采集并发送的待识别手语视频；以及

所述方法还包括：将所述响应手语动画视频发送给所述客户端，以使所述客户端播放所述响应手语动画视频。

3.一种手语交互装置，其特征在于，该装置包括：

手语视频获取单元，用于获取待识别手语视频；

手语视频识别单元，用于对所述待识别手语视频进行手语手势分割处理，获取至少一个手势图像；用于针对所述至少一个手势图像中的每个手势图像，执行以下操作：获取一个手势图像各自对应的初步语义特征，通过直方图获取所述一个手势图像的边界方向特征，并根据预设的边界方向特征权重以及初步语义特征权重，结合所述初步语义特征，获取所述一个手势图像表达的语义与其它手势图像表达的语义的语义关联特征；通过已训练的语义分类模型，获取所述一个手势图像的语义分类特征，并将获取的初步语义特征、语义关联特征以及语义分类特征，作为所述一个手势图像的语义特征；以及，用于将所述至少一个手势特征图像各自对应的语义特征输入至已训练的前向传播神经网络模型，获得所述待识别手语视频对应的语义文本；

响应文本获取单元，用于获取所述语义文本的响应文本；

响应手语动画获取单元，用于对所述响应文本进行分词处理，获得至少一个分词；将所述至少一个分词分别输入针对预设动画形象训练的手语动画转换模型，获得所述至少一个分词对应的手语动画；以及，根据所述至少一个分词在所述响应文本中的语序，将所述至少一个分词对应的手语动画，组合为以所述预设动画形象为主体的响应手语动画视频，所述预设动画形象是响应于目标对象触发的动画形象切换操作设置的；

其中，所述手语动画转换模型是通过以下方式训练得到的：

构建手语动画转换模型；

4.如权利要求3所述的装置，其特征在于，所述手语视频获取单元用于获取客户端采集并发送的待识别手语视频；以及

响应手语动画获取单元还用于将所述响应手语动画视频发送给所述客户端，以使所述客户端播放所述响应手语动画视频。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1或2所述的方法。