CN109446876B

CN109446876B - 手语信息处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN109446876B
Application number: CN201811009994.8A
Authority: CN
Inventors: 姚淼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-11-06
Anticipated expiration: 2038-08-31
Also published as: US11580983B2; US20200075011A1; CN109446876A

Abstract

本发明提供的一种手语信息处理方法、装置、电子设备和可读存储介质，通过获取用户终端实时采集的语音信息以及视频信息，实现对用户当前沟通中语言数据的实时采集；然后在所述视频信息中，确定所述语音信息对应的发言对象，从而将发言的人和其发言内容对应起来；最后将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频，用户在手语视频中看到AR手语动画的同时可以明确其对应的发言对象，从而可以在多人讨论中分辨每个发言人的发言内容，明确各谈话对象的观点，实现与健听者们的正常交流，具有较高的用户体验。

Description

手语信息处理方法、装置、电子设备和可读存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种手语信息处理方法、装置、电子设备和可读存储介质。

背景技术

手语是聋哑人等听力障碍者最重要的交际手段，但是由于大多健听者不懂手语，导致听力障碍者难以与健听者进行正常交流，使得听力障碍者难以融入社会。为了使打通听力障碍者与健听者之间的交流通道，通常需要对听力障碍者的手语和健听者的语音进行相互转化翻译。

现有的一种手语翻译技术中，听力障碍者和健听者每人持有一个语音-手语翻译器。语音-手语翻译器采集听力障碍者的手势动作以及健听者的输入语音，然后将手势动作识别翻译为语音输出，将输入语音识别翻译为文字输出。

然而，现有技术中听力障碍者在与健听者沟通过程中，双眼需要时刻注意翻译的文字信息。而在多人发言、讨论的场景中，聋哑人士即使有语音-手语翻译器，在需要看文字信息的情况下，很难分辨是哪一个发言对象发出的声音，因此无法辨明各发言对象的观点，难以实现正常交流。可见，现有的语音手语翻译方法难以区别发言对象，用户体验不高。

发明内容

本发明提供一种手语信息处理方法、装置、电子设备和可读存储介质，可以区别发言对象，提高了用户体验，提高了手语信息处理的可靠性。

根据本发明的第一方面，提供一种手语信息处理方法，包括：

获取用户终端实时采集的语音信息以及视频信息；

在所述视频信息中，确定所述语音信息对应的发言对象；

将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频。

可选地，在第一方面的一种可能实现方式中，所述在所述视频信息中，确定所述语音信息对应的发言对象，包括：

在所述视频信息中，识别得到至少一个人脸图像；

将显示嘴唇开闭动作的所述人脸图像，确定为目标人脸图像；

将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象。

可选地，在第一方面的另一种可能实现方式中，在将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象之后，还包括：

获取所述语音信息对应的声音属性信息；

将所述声音属性信息与所述目标人脸图像关联存储。

可选地，在第一方面的再一种可能实现方式中，所述在所述视频信息中，确定所述语音信息对应的发言对象，包括：

获取所述语音信息对应的声音属性信息；

在预存储的人脸集合中，确定与所述声音属性信息对应的历史人脸图像；

在所述视频信息中，查找与所述历史人脸图像匹配的目标人脸图像；

可选地，在第一方面的又一种可能实现方式中，所述声音属性信息包括：幅值信息、音频信息、和/或重音周期信息。

可选地，在第一方面的又一种可能实现方式中，在所述将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频之前，还包括：

对所述语音信息进行语义识别，得到语音文字信息；

在预存储的AR手势动画中，查询与所述语音文字信息相对应的至少一个AR手势动画；

根据所述至少一个AR手势动画，得到与所述语音信息对应的手语AR动画。

在所述视频信息中，确定所述发言对象的人脸周围区域；

在所述人脸周围区域，确定所述发言对象对应的手势区域。

可选地，在第一方面的又一种可能实现方式中，还包括：

在所述视频信息中获取用户本人的手势动作信息；

获取所述手势动作信息的动作文字信息；

在预存储的语音信息中，查找与所述动作文字信息对应的用户语音信息；

播放所述用户语音信息。

可选地，在第一方面的又一种可能实现方式中，所述在所述视频信息中获取用户本人的手势动作信息，包括：

在所述视频信息中获取手势类图像的距离，所述距离指示了所述手势类图像对应的手与摄像头之间的距离；

将所述距离小于阈值的手势类图像，确定为用户本人的手势动作信息。

根据本发明的第二方面，提供一种手语信息处理装置，包括：

采集模块，用于获取用户终端实时采集的语音信息以及视频信息；

识别模块，用于在所述视频信息中，确定所述语音信息对应的发言对象；

处理模块，用于将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频。

可选地，在第二方面的一种可能实现方式中，所述识别模块，具体用于：

在所述视频信息中，识别得到至少一个人脸图像；

可选地，在第二方面的另一种可能实现方式中，所述识别模块，在将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象之后，还用于：

获取所述语音信息对应的声音属性信息；

将所述声音属性信息与所述目标人脸图像关联存储。

可选地，在第二方面的再一种可能实现方式中，所述识别模块，具体用于：

获取所述语音信息对应的声音属性信息；

可选地，在第二方面的又一种可能实现方式中，所述声音属性信息包括：幅值信息、音频信息、和/或重音周期信息。

可选地，在第二方面的又一种可能实现方式中，还包括语音翻译模块，用于：

在所述处理模块将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频之前，

对所述语音信息进行语义识别，得到语音文字信息；

可选地，在第二方面的又一种可能实现方式中，所述处理模块，在所述将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频之前，还用于：

在所述视频信息中，确定所述发言对象的人脸周围区域；

在所述人脸周围区域，确定所述发言对象对应的手势区域。

可选地，在第二方面的又一种可能实现方式中，还包括手语翻译模块，用于：

在所述视频信息中获取用户本人的手势动作信息；

获取所述手势动作信息的动作文字信息；

播放所述用户语音信息。

可选地，在第二方面的又一种可能实现方式中，所述手语翻译模块，具体用于：

根据本发明的第三方面，提供一种电子设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能设计的所述手语信息处理方法。

根据本发明的第四方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述手语信息处理方法。

附图说明

图1是本发明实施例提供的一种应用场景示意图；

图2是本发明实施例提供的一种手语信息处理方法流程示意图；

图3是本发明实施例提供的一种用户使用场景示意图；

图4是本发明实施例提供的一种手语视频示例；

图5是本发明实施例提供的另一种手语信息处理方法流程示意图；

图6是本发明实施例提供的一种手语信息处理装置结构示意图；

图7是本发明实施例提供的另一种手语信息处理装置结构示意图；

图8是本发明实施例提供的一种电子设备的硬件结构示意图；

图9是本发明实施例提供的图8所示电子设备的一种示例。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

在本发明实施例中，视频帧是指构成视频的图片。视频可以认为是多个视频帧顺序构成的序列，视频的播放可以理解为是顺序显示该序列中的视频帧，由于视频帧的显示频率大于人眼可识别的数值范围，由此形成人眼看到的动态连续变化的视频画面。

参见图1，是本发明实施例提供的一种应用场景示意图。在图1所示的应用场景可以包含用户终端1和服务器2，其中用户终端1的个数可以是1个或者多个。且用户终端1具体可以是例如移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备和个人数字助理等具有视频和语音功能的电子设备，其中，进一步地可以是例如AR眼镜和AR头盔的AR穿戴设备。

在图1所示的场景中，用户可以是头戴或者手持用户终端1的听力障碍者，在用户终端1实时拍摄用户前方场景的视频时，用户通过该用户终端1观看在该视频中显示有AR手语动画的手语视频。其中，本发明的下述各种手语信息处理方法，可以是仅在用户终端1中完成的，也可以是通过用户终端1和服务器2联合完成的。

在一种实现方式中，手语信息处理的过程可以是主要依靠用户终端1进行处理。例如，可以是在用户终端1配置有用于执行手语信息处理的计算机程序和相关数据，以使得用户终端1在拍摄到视频信息时，利用用户终端1的本地数据库信息，对该视频信息进行手语信息处理，得到手语视频后向用户显示。

在另一种实现方式中，手语信息处理的过程可以是由用户终端1和服务器2两者联合执行的。例如，可以是本发明下述实施例方法中一部分步骤由用户终端1实现、另一部分步骤由服务器2实现。例如下列步骤S101由用户终端1执行后发送给服务器2，服务器2继续执行步骤S102-S103，服务器2将获得的手语视频发送回用户终端1，由用户终端1向用户进行显示。本发明对手语信息处理方法的执行主体是单独个体还是相互连接的多个个体不进行限定。

参见图2，是本发明实施例提供的一种手语信息处理方法流程示意图，图2所示方法的执行主体可以是软件和/或硬件装置，例如图1所示的用户终端和/或服务器。图2所示方法包括步骤S101至步骤S103，具体如下：

S101，获取用户终端实时采集的语音信息以及视频信息。

可以理解为实时主动从用户终端的摄像头获取当前拍摄的视频信息；或者是在用户打开了手语语音翻译功能时，或者获取到预设的触发信息时，再从用户终端的摄像头获取当前拍摄的视频信息。

例如，在检测到语音信息输入时，打开摄像头开始采集视频信息，然后在语音输入结束预定时长时(20分钟)，才关闭摄像头，结束视频信息的采集。反之，也可以是在摄像头被用户开启时，打开麦克风开始采集语音信息，然后在用户关闭摄像头结束视频信息的采集时，才关闭麦克风，结束语音信息的采集。

参见图3，是本发明实施例提供的一种用户使用场景示意图。在图3所示的场景中，用户是听力障碍者，发言对象A和发言对象B都是健听者。用户(听力障碍者)使用的用户终端为AR眼镜31。用户头戴AR眼镜31，在与发言对象A和发言对象B谈话的过程中，用户的AR眼镜31拍摄到发言对象A和发言对象B谈话过程的视频信息，并且还采集到他们两人的发出的语音信息。

S102，在所述视频信息中，确定所述语音信息对应的发言对象。

确定所述语音信息对应的发言对象的实现方式可以有多种，以下通过两种可选的实现方式进行举例说明。

在步骤S102的一种实现方式中，可以是通过识别当前在说话的人，来确定当前采集的语音信息属于哪个发言对象。具体地，可以是首先在所述视频信息中，识别得到至少一个人脸图像。然后将显示嘴唇开闭动作的所述人脸图像，确定为目标人脸图像。最后将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象。

其中，在所述视频信息中，识别得到至少一个人脸图像的方法，可以是在获取到视频信息时，对所述视频信息中的视频帧进行人脸识别，得到人脸图像。具体地，从用户终端的缓存中获取视频信息，或者是在服务器从用户终端接收到视频信息并存储在缓存中时，从服务器的缓存中获取该视频信息。从视频信息中解析得到的视频帧，可以是多个。然后，可以是以图片识别和图片分类的方式对视频帧处理获取人脸图像。例如对视频帧用语义分割算法(例如FCN算法)或实例分割算法(例如Mask RCNN算法)进行基于像素点的图片分类，对各视频帧中人脸图像进行识别和定位。或者是在视频帧中进行人脸特征信息的查找，将符合人脸特征的图像区域作为人脸区域。

将显示嘴唇开闭动作的所述人脸图像，确定为目标人脸图像。嘴唇开闭动作可以理解为，正在说话的发言对象A或者发言对象B嘴唇部位的动作。而获取显示嘴唇开闭动作的所述人脸图像的过程，可以是在预设时间内，从连续视频帧的人脸图像中以上述各种图片识别方法，对同一人的人脸图像顺序检测到嘴唇张开图像和嘴唇闭合图像。例如在2秒内检测到图3中发言对象B嘴唇区域图像出现张开-闭合-张开的变化，则确定发言对象B的人脸图像为目标人脸图像。

在上述得到目标人脸图像后，就可以将其对应的人像，确定为所述语音信息对应的发言对象了。继续例如发言对象B的人脸图像为目标人脸图像，那么将包含该目标人脸图像的人像作为发言对象，即图3中的发言对象B为发出语音信息的发言对象。

可选地，在将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象之后，还可以包括声音-人脸关联的过程：首先获取所述语音信息对应的声音属性信息；然后将所述声音属性信息与所述目标人脸图像关联存储。可以理解为，在上述步骤中，已经获取到了语音信息以及语音信息对应的发言对象，进而可以分析得到语音信息的声音属性信息。不同人的声音可以得到不同的声音属性信息，例如与人对应的声纹信息。然后将上述用于确定发言对象的人脸图像与得到的声音属性信息关联存储。

在步骤S102的另一种实现方式中，可以预先录入有与声音对应的熟人人脸，然后在采集到已有声音对应的语音信息时，在视频信息中查找该熟人人脸作为与语音信息对应的人脸，再以人脸确定发言对象。具体地，可以是先获取所述语音信息对应的声音属性信息。其中，声音属性信息可以是幅值信息、音频信息、和/或重音周期信息。由于不同人的发音习惯或口音不同，其声音属性信息也会存在差异，例如习惯以特定的重音周期说话。然后在预存储的人脸集合中，确定与所述声音属性信息对应的历史人脸图像。其中，预存储的人脸集合可以包含有多个人脸图像，且每个人脸图像与至少一个预存储的声音属性信息关联。通过将获取到的声音属性信息与预存储的声音属性信息进行比对，在预存储的声音属性信息中查找到与语音信息对应的声音属性信息相匹配的声音属性信息，从而可以将其相应的人脸图像作为历史人脸图像。接着，在所述视频信息中，查找与所述历史人脸图像匹配的目标人脸图像。最后将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象。

可选地，如果在所述视频信息中，查找不到与所述历史人脸图像匹配的目标人脸图像，可以再以执行上一个实现方式中的过程，通过识别当前在说话的人，来确定当前采集的语音信息属于哪个发言对象。

S103，将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频。

可以理解地，先获取与所述语音信息对应的AR手语动画，以及发言对象对应的手势区域，然后将该AR手语动画叠加显示在手势区域，合成得到手语视频。

在获取与所述语音信息对应的AR手语动画的一种实现方式中，可以是对所述语音信息进行语义识别，得到语音文字信息。其中，语音文字信息可以理解为是语音信息的语义。然后在预存储的AR手势动画中，查询与所述语音文字信息相对应的至少一个AR手势动画。可以理解为，每一个预存储的AR手势动画都对应有手势语义，在手势语义与语音文字信息匹配的情况下，获取该手势语义对应的AR手势动画。其中，语音文字信息可以是有多个，例如语音信息的语义是“你好，欢迎来到我们公司”，那么语音文字信息可以是“你好”、“欢迎”、“来到”以及“我们公司”。最后根据所述至少一个AR手势动画，得到与所述语音信息对应的手语AR动画。可以理解为以语音文字信息的顺序将至少一个AR手势动画顺序拼接，得到手语AR动画。

在获取发言对象对应的手势区域的一种实现方式中，可以是在所述视频信息中，确定所述发言对象的人脸周围区域。然后在所述人脸周围区域，确定所述发言对象对应的手势区域。参见图4，是本发明实施例提供的一种手语视频示例。如图4所示的，以发言对象的人脸左侧区域为手势区域，在发言对象说话的同时在其人脸左侧显示其语音读音的AR手语动画。方便用户在沟通中确定发言对象与其发言内容，而且在人脸附近显示AR手语动画，可以使用户的目光方向接近发言对象的人脸，避免听力障碍者一直低头看翻译信息的不礼貌，提高了用户体验。

在上述实施例的基础上，还可以同时，或者是在步骤S103(将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频)之后包括手势翻译为语音输出的过程。参见图5，是本发明实施例提供的另一种手语信息处理方法流程示意图。图5所示方法主要包括步骤S201至S204，具体如下：

S201，在所述视频信息中获取用户本人的手势动作信息。

可以理解为，手势动作信息可以理解为手势动作图像。在视频信息中识别用户本人的手势动作，可以是对预设位置的图像进行识别，例如将在视频帧的下边缘区域获取到的手势动作信息，作为用户本人的手势动作信息。还可以是以视频帧中手势类图像的深度信息，来确定手势类图像是不是用户本人的手势类图像。深度信息可以理解为是图像中各物体与摄像头的距离。具体地，可以是先在所述视频信息中获取手势类图像的距离，所述距离指示了所述手势类图像对应的手与摄像头之间的距离。然后将所述距离小于阈值的手势类图像，确定为用户本人的手势动作信息。例如将距离小于30厘米的手势类图像作为用户本人的手势动作信息。

S202，获取所述手势动作信息的动作文字信息。

可以理解为，对手势动作信息进行动作识别，将其语义作为动作文字信息。

S203，在预存储的语音信息中，查找与所述动作文字信息对应的用户语音信息。

可以理解为，每个预存储的语音信息都对应有预设语义，将动作文字信息与预设语义进行比对，将与动作文字信息相匹配的预设语义所对应的语音信息，作为用户语音信息。

S204，播放所述用户语音信息。

可选地，还可以获取用户预设的用户声音属性信息，然后以该用户声音属性新播放所述用户语音信息。用户声音属性信息可以理解为是用户预先对自己想要输出声音的特性配置，例如发出的是老年人的声音、青年的声音、小孩的声音、男子的声音或者女子的声音，从而实现用户声音的自定义，使不同用户可以根据自己的偏好进行声音的设置，而使得其他交流对象也可以更好地区别不同的听力障碍者。例如有的听力障碍者是女子，那么其可以将用户声音属性信息设置为年前女子的声音，从而与其他听力障碍者进行区别。

本实施例提供的手语信息处理方法，通过获取用户终端实时采集的语音信息以及视频信息，实现对用户当前沟通中语言数据的实时采集；然后在所述视频信息中，确定所述语音信息对应的发言对象，从而将发言的人和其发言内容对应起来；最后将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频，用户在手语视频中看到AR手语动画的同时可以明确其对应的发言对象，从而可以在多人讨论中分辨每个发言人的发言内容，明确各谈话对象的观点，实现与健听者们的正常交流，具有较高的用户体验。

参见图6，是本发明实施例提供的一种手语信息处理装置结构示意图，图6所示的手语信息处理装置50主要包括：

采集模块51，用于获取用户终端实时采集的语音信息以及视频信息；

识别模块52，用于在所述视频信息中，确定所述语音信息对应的发言对象；

处理模块53，用于将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频。

图6所示实施例的手语信息处理装置50对应地可用于执行图2所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

可选地，所述识别模块52，具体用于：

在所述视频信息中，识别得到至少一个人脸图像；

可选地，所述识别模块52，在将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象之后，还用于：

获取所述语音信息对应的声音属性信息；

将所述声音属性信息与所述目标人脸图像关联存储。

可选地，所述识别模块52，具体用于：

获取所述语音信息对应的声音属性信息；

可选地，所述声音属性信息包括：幅值信息、音频信息、和/或重音周期信息。

参见图7，是本发明实施例提供的另一种手语信息处理装置结构示意图，图7所示的手语信息处理装置50主要还包括：

语音翻译模块54，用于：

对所述语音信息进行语义识别，得到语音文字信息；

可选地，所述处理模块53，在所述将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频之前，还用于：

在所述视频信息中，确定所述发言对象的人脸周围区域；

在所述人脸周围区域，确定所述发言对象对应的手势区域。

可选地，继续参见图7，还包括手语翻译模块55，用于：

在所述视频信息中获取用户本人的手势动作信息；

获取所述手势动作信息的动作文字信息；

播放所述用户语音信息。

图7所示实施例的手语信息处理装置50对应地可用于执行图5所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

可选地，所述手语翻译模块55，具体用于：

参见图8，是本发明实施例提供的一种电子设备的硬件结构示意图，该电子设备60包括：处理器61、存储器62和计算机程序；其中

存储器62，用于存储所述计算机程序，该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器61，用于执行所述存储器存储的计算机程序，以实现上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器62既可以是独立的，也可以跟处理器61集成在一起。

当所述存储器62是独立于处理器61之外的器件时，所述电子设备60还可以包括：

总线63，用于连接所述存储器62和处理器61。

参见图9，是本发明实施例提供的图8所示电子设备的一种示例。在图9所示实施例的基础上，电子设备具体可以是如图9所示的终端设备800。例如终端设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

继续参见图9，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述电子设备的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种手语信息处理方法，其特征在于，包括：

获取用户终端实时采集的语音信息以及视频信息；

在所述视频信息中，确定所述语音信息对应的发言对象；

在所述视频信息中，确定所述发言对象的人脸周围区域；

在所述人脸周围区域，确定所述发言对象对应的手势区域；

将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频；

其中，所述在所述视频信息中，确定所述语音信息对应的发言对象，包括：

在所述视频信息中，识别得到至少一个人脸图像；

2.根据权利要求1所述的方法，其特征在于，在将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象之后，还包括：

获取所述语音信息对应的声音属性信息；

将所述声音属性信息与所述目标人脸图像关联存储。

3.根据权利要求1所述的方法，其特征在于，所述在所述视频信息中，确定所述语音信息对应的发言对象，包括：

获取所述语音信息对应的声音属性信息；

4.根据权利要求2或3所述的方法，其特征在于，所述声音属性信息包括：幅值信息、音频信息、和/或重音周期信息。

5.根据权利要求1所述的方法，其特征在于，在所述将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频之前，还包括：

对所述语音信息进行语义识别，得到语音文字信息；

6.根据权利要求1所述的方法，其特征在于，还包括：

在所述视频信息中获取用户本人的手势动作信息；

获取所述手势动作信息的动作文字信息；

播放所述用户语音信息。

7.根据权利要求6所述的方法，其特征在于，所述在所述视频信息中获取用户本人的手势动作信息，包括：

8.一种手语信息处理装置，其特征在于，包括：

处理模块，用于在所述视频信息中，确定所述发言对象的人脸周围区域，并在所述人脸周围区域，确定所述发言对象对应的手势区域，且将与所述语音信息对应的增强现实AR手语动画，叠加显示在所述发言对象对应的手势区域，得到手语视频；

其中，所述识别模块，具体用于：

在所述视频信息中，识别得到至少一个人脸图像；

9.根据权利要求8所述的装置，其特征在于，所述识别模块，在将所述目标人脸图像对应的人像，确定为所述语音信息对应的发言对象之后，还用于：

获取所述语音信息对应的声音属性信息；

将所述声音属性信息与所述目标人脸图像关联存储。

10.根据权利要求8所述的装置，其特征在于，所述识别模块，具体用于：

获取所述语音信息对应的声音属性信息；

11.根据权利要求9或10所述的装置，其特征在于，所述声音属性信息包括：幅值信息、音频信息、和/或重音周期信息。

12.根据权利要求8所述的装置，其特征在于，还包括语音翻译模块，用于：

对所述语音信息进行语义识别，得到语音文字信息；

13.根据权利要求8所述的装置，其特征在于，还包括手语翻译模块，用于：

在所述视频信息中获取用户本人的手势动作信息；

获取所述手势动作信息的动作文字信息；

播放所述用户语音信息。

14.根据权利要求13所述的装置，其特征在于，所述手语翻译模块，具体用于：

15.一种电子设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如权利要求1至7任一所述的手语信息处理方法。

16.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1至7任一所述的手语信息处理方法。