CN113660449B

CN113660449B - 手势通信方法、装置、存储介质及电子装置

Info

Publication number: CN113660449B
Application number: CN202111218290.3A
Authority: CN
Inventors: 陈小丽; 章璐; 王梦晓; 陈世林; 方琰崴
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-03-01
Anticipated expiration: 2041-10-20
Also published as: WO2023066023A1; CN113660449A

Abstract

本发明实施例提供了一种手势通信方法、装置、存储介质及电子装置，其中，该方法包括：在第一终端和第二终端进行视频通话或音频通话时，获取第一终端或第二终端发送的第一请求，第一请求用于请求创建手势识别服务；响应于第一请求，创建手势识别服务；获取第一终端采集的一组视频帧中识别出的一组手势；通过手势识别服务，对第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到一组手势所表示的目标语义；将目标语义发送给第二终端。通过本发明，解决了相关技术中存在的手势通信主要依赖于特定设备而导致成本高的技术问题，达到了降低手势通信过程中的成本的技术效果。

Description

手势通信方法、装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种手势通信方法、装置、存储介质及电子装置。

背景技术

手势在生活中经常用到，手势使用者如特殊人群聋哑人士在与正常人的沟通交流中存在着较大的障碍。他们的手势作为一种交流语言（手语）极其难懂，非专业人士，正常人很难准确的识别聋哑人的手势：聋哑用户拨打各类公共服务电话（119，110，120等）时，公共服务人员无法直接理解聋哑用户想要表达的内容；聋哑用户参与线上教学时，聋哑用户无法通过简单的方式与老师进行实时交互；聋哑用户与正常用户打电话无法进行直接的正常交流等。这需要对聋哑人的手势（手语）进行识别和翻译以及传递通讯。还有一些特定应用场景下的手势使用者如军事手语，特殊行业专用手语，也需要进行相应的识别和翻译。

但目前对手势识别多数都依赖特定设备如穿戴设备手套等。这些设备价格昂贵，只适用于一定范围内的交互，还经常存在时间、空间等限制，不是直接自然的交互和通讯；还有一部分基于视觉的手势识别，依赖特定采集器如体感器去收集手势数据和分析数据，进行基本的电话通话，依赖终端设备，对终端处理有较高要求，不够经济、便捷，信息及数据更新不及时，通讯体验较差。

针对相关技术中存在的手势通信主要依赖于特定设备而导致成本高的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种手势通信方法、装置、存储介质及电子装置，以至少解决相关技术中存在的手势通信主要依赖于特定设备而导致成本高的技术问题。

根据本发明实施例的一个方面，提供了一种手势通信方法，包括：在第一终端和第二终端进行视频通话或音频通话时，获取所述第一终端或所述第二终端发送的第一请求，其中，所述第一请求用于请求创建手势识别服务，其中，所述手势识别服务用于对所述第一终端采集到的视频帧中识别出的手势进行语义识别；响应于所述第一请求，创建所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势；通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义；将所述目标语义发送给所述第二终端。

在一个示例性实施例中，所述方法还包括：获取所述第一终端或所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道为所述第一终端或所述第二终端允许使用的通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求。

在一个示例性实施例中，所述获取所述第一终端或所述第二终端发送的第二请求，包括：获取所述第一终端或所述第二终端通过接入控制实体SBC/P-CSCF、会话控制实体I/S-CSCF以及服务控制节点向媒体服务器发送的所述第二请求；所述响应于所述第二请求，创建所述目标数据通道，包括：响应于所述第二请求，通过所述媒体服务器创建所述目标数据通道，其中，所述目标数据通道用于在所述第一终端或所述第二终端与所述媒体服务器之间传输数据。

在一个示例性实施例中，所述获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求，包括：获取所述第一终端或所述第二终端在所述目标数据通道上向应用控制节点传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：由所述应用控制节点向所述服务控制节点发出第一指令，其中，所述第一指令用于指示所述服务控制节点向所述媒体服务器发出第二指令，所述第二指令用于指示所述媒体服务器创建所述手势识别服务；响应于所述第二指令，通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务。

在一个示例性实施例中，所述方法还包括：通过服务控制节点向媒体服务器发送第三指令，其中，所述第三指令用于请求创建混合媒体服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，或者用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；响应于所述第三指令，通过所述媒体服务器创建所述混合媒体服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务。

在一个示例性实施例中，所述通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义，包括：通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的所述一组手势进行语义识别，得到一个或多个语义，其中，每个所述语义是所述一组手势中的一个或多个手势所表达的语义；基于所述一个或多个语义，生成与所述一组手势对应的所述目标语义。

在一个示例性实施例中，所述将所述目标语义发送给所述第二终端，包括：在所述目标语义是将所述一个或多个语义拼接成的语义时，将所述目标语义中包括的每个所述语义与所述一组视频帧中对应的视频帧同步发送给所述第二终端；或者，在所述目标语义是由包括与所述一组视频帧对应的数据流表示、且所述数据流为文字流和音频流时，将所述文字流与所述一组视频帧中对应的视频帧进行同步合成，得到目标视频流；将所述目标视频流与所述音频流同步发送给所述第二终端。

在一个示例性实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述第一目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第一组视频帧和对应的第一组音频帧，以及在所述第一组视频帧中识别出的第一组手势；在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对所述第一组视频帧形成的第一视频流、所述第一组音频帧形成的第一音频流以及用于表示所述目标语义的第一数据流进行同步处理，得到同步的所述第一视频流、所述第一音频流和所述第一数据流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第一视频流、所述第一音频流和所述第一数据流发送给所述第二终端，其中，所述同步的所述第一数据流在所述第二目标数据通道上发送。

在一个示例性实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务、合成服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务、所述合成服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务、所述合成服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第二组视频帧和对应的第二组音频帧，以及在所述第二组视频帧中识别出的第二组手势；在得到所述目标语义之后，所述方法还包括：通过所述合成服务，将用于表示所述目标语义的第一文字流与所述第二组视频帧形成的视频流进行合成处理，得到第二视频流，通过所述混合媒体服务，将用于表示所述目标语义的数据流中包括的第二音频流与所述第二视频流进行同步处理，得到同步的所述第二视频流和所述第二音频流,其中,所述数据流包括所述第一文字流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第二视频流、所述第二音频流发送给所述第二终端。

在一个示例性实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端不支持使用目标数据通道和所述第二终端支持使用所述目标数据通道的情况下，获取所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第二终端与媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第二终端在所述目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第三组视频帧和对应的第三组音频帧，以及在所述第三组视频帧中识别出的第三组手势；在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对所述第三组视频帧形成的第三视频流、所述第三组音频帧形成的第三音频流以及用于表示所述目标语义的第三数据流进行同步处理，得到同步的所述第三视频流、所述第三音频流和所述第三数据流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第三视频流、所述第三音频流和所述第三数据流发送给所述第二终端，其中，所述同步的所述第三数据流在所述目标数据通道上发送。

在一个示例性实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述第一目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述音频通话中，获取所述第一终端采集到的第四组视频帧和对应的第四组音频帧，以及在所述第四组视频帧中识别出的第四组手势；在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对用于表示所述目标语义的第二文字流和所述第四组音频帧形成的第四组音频流进行同步处理，得到同步的所述第二文字流和第四音频流，其中,所述数据流包括所述第二文字流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第二文字流和所述第四音频流发送给所述第二终端，其中，所述同步的所述第二文字流在所述第二目标数据通道上发送。

在一个示例性实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建所述手势识别服务；通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述音频通话中，获取所述第一终端采集到的第五组视频帧和对应的第五组音频帧，以及在所述第五组视频帧中识别出的第五组手势；所述将所述目标语义发送给所述第二终端，包括：将用于表示所述目标语义的第五音频流发送给所述第二终端。

根据本发明实施例的又一个方面，还提供了一种手势通信装置，包括：第一获取模块，用于在第一终端和第二终端进行视频通话或音频通话时，获取所述第一终端或所述第二终端发送的第一请求，其中，所述第一请求用于请求创建手势识别服务，其中，所述手势识别服务用于对所述第一终端采集到的视频帧中识别出的手势进行语义识别；第一创建模块，用于响应于所述第一请求，创建所述手势识别服务；第二获取模块，用于在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势；识别模块，用于通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义；第一发送模块，用于将所述目标语义发送给所述第二终端。

根据本发明实施例的又一个方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

根据本发明实施例的又一个方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述任一项方法实施例中的步骤。

在本发明实施例中，通信终端可以在视频通话或音频通话时请求网络侧设备创建手势识别服务，并通过网络侧设备创建的手势识别服务可以对通信终端采集到的视频帧中识别出的手势进行语义识别，而不需要在通信终端上通过在通信终端上的特定设备完成手势语义识别，从而解决了相关技术中存在的手势通信主要依赖于特定设备而导致成本高的技术问题，达到了降低手势通信过程中的成本的技术效果，进一步提升用户体验度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示例性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的手势通信方法的移动终端硬件结构框图；

图2是根据本发明实施例的手势通信方法流程图；

图3是根据本发明具体实施例的手势通信系统结构和媒体路径图；

图4是根据本发明具体实施例的手势通信方法示例图一；

图5是根据本发明具体实施例的手势通信方法示例图二；

图6是根据本发明具体实施例的手势通信方法示例图三；

图7是根据本发明具体实施例的手势通信方法示例图四；

图8是根据本发明具体实施例的手势通信方法示例图五；

图9是根据本发明实施例的手势通信装置的结构框图；

图10是根据本发明实施例的手势通信装置的优选的结构框图一；

图11是根据本发明实施例的手势通信装置的优选的结构框图二。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的手势通信方法的移动终端硬件结构框图。如图1所示，移动终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，在一个示例性实施例中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的手势通信方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种手势通信方法，图2是根据本发明实施例的手势通信方法流程图，如图2所示，该流程包括如下步骤：

步骤S2002，在第一终端和第二终端进行视频通话或音频通话时，获取所述第一终端或所述第二终端发送的第一请求，其中，所述第一请求用于请求创建手势识别服务，其中，所述手势识别服务用于对所述第一终端采集到的视频帧中识别出的手势进行语义识别；

步骤S2004，响应于所述第一请求，创建所述手势识别服务；

步骤S2006，在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势；

步骤S2008，通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义；

步骤S2010，将所述目标语义发送给所述第二终端。

通过上述步骤，通信终端可以在视频通话或音频通话时请求网络侧设备创建手势识别服务，并通过网络侧设备创建的手势识别服务可以对通信终端采集到的视频帧中识别出的手势进行语义识别，而不需要在通信终端上通过在通信终端上的特定设备完成手势语义识别，从而解决了相关技术中存在的手势通信主要依赖于特定设备而导致成本高的技术问题，达到了降低手势通信过程中的成本的技术效果，进一步提升用户体验度。

其中，上述步骤的执行主体可以为网络端，或网络侧设备，例如，包括服务控制节点、应用控制节点及媒体服务器的网络设备，或具备服务控制节点功能、应用控制节点功能及媒体服务器功能的其它网络设备，上述步骤的执行主体还可以是其他的具备类似处理能力的处理设备或处理单元等，但不限于此。下面以网络端执行上述操作为例（仅是一种示例性说明，在实际操作中还可以是其他的设备或模块来执行上述操作）进行说明：

在上述实施例中，在第一终端和第二终端进行视频通话或音频通话时，网络端获取第一终端或第二终端发送的第一请求，该第一请求用于请求创建手势识别服务，对在视频通话或音频通话中第一终端采集到的手势进行识别，具体的是请求对第一终端采集的一组视频帧中识别出的一组手势进行识别，当然，在实际应用中，如果是由第二终端采用手势进行通信的，该第一请求可用于请求对第二终端采集到的手势进行识别，接收到第一请求之后，网络端创建手势识别服务，该手势识别服务是用于对上述手势进行识别；在视频或音频通话中，获取第一终端采集的一组视频帧中识别出的一组手势，在实际应用中，可获取第一终端采集到的视频帧图像，并从帧图像中识别出一组手势，再通过上述创建的手势识别服务，对从视频帧图像中识别出的一组手势进行语义识别，得到一组手势所表示的目标语义，然后，将目标语义发送给第二终端。通过对从第一终端采集到视频帧图像中识别出的手势进行识别以得到手势所表示的目标语义，并将目标语义发送给第二终端，实现了在视频或音频通话中进行手势通信的目的，避免了相关技术中需要依赖于特定设备或者必须在视频通话中才能实现手势通信的问题，解决了相关技术中存在的手势通信主要依赖于特定设备而导致成本高及体验差的问题，达到了拓宽手势通信的应用范围及提升用户体验的效果。

在一个可选的实施例中，所述方法还包括：获取所述第一终端或所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道为所述第一终端或所述第二终端允许使用的通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求。在本实施例中，在第一终端和第二终端进行视频通话或音频通话中，可获取第一终端或第二终端发送的第二请求，以创建目标数据通道，在实际应用中，通常是由支持使用目标数据通道的终端发起第二请求，第一终端和第二终端中至少有一个终端是支持使用目标数据通道的，也可以是两个终端均支持使用目标数据通道，上述第一请求是由第一终端或第二终端通过目标数据通道传输的。通过本实施例，实现了创建数据通道的目的，以及通过数据通道传输第一请求的目的。

在一个可选的实施例中，所述获取所述第一终端或所述第二终端发送的第二请求，包括：获取所述第一终端或所述第二终端通过接入控制实体SBC/P-CSCF、会话控制实体I/S-CSCF以及服务控制节点向媒体服务器发送的所述第二请求；所述响应于所述第二请求，创建所述目标数据通道，包括：响应于所述第二请求，通过所述媒体服务器创建所述目标数据通道，其中，所述目标数据通道用于在所述第一终端或所述第二终端与所述媒体服务器之间传输数据。在本实施例中，第二请求是由第一终端或第二终端通过接入控制实体SBC/P-CSCF、会话控制实体I/S-CSCF以及服务控制节点向媒体服务器发送的，而为了响应于该第二请求，通过媒体服务器创建目标数据通道，该目标数据通道用于在第一终端或第二终端与媒体服务器之间传输数据。通过本实施例，实现了在终端与媒体服务器之间建立专用数据通道的目的。

在一个可选的实施例中，所述获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求，包括：获取所述第一终端或所述第二终端在所述目标数据通道上向应用控制节点传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：由所述应用控制节点向所述服务控制节点发出第一指令，其中，所述第一指令用于指示所述服务控制节点向所述媒体服务器发出第二指令，所述第二指令用于指示所述媒体服务器创建所述手势识别服务；响应于所述第二指令，通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务。在本实施例中，网络端获取第一请求是获取由第一终端或第二终端在目标数据通道上向应用控制节点传输的第一请求；而为了响应于第一请求，由应用控制节点向服务控制节点发出第一指令，以指示服务控制节点向媒体服务器发出第二指令，第二指令用于指示媒体服务器创建手势识别服务，再响应于第二指令，通过媒体服务器创建手势识别服务，或者，通过媒体服务器指示第三方服务组件创建手势识别服务。通过本实施例，实现了创建手势识别服务的目的。

在一个可选的实施例中，所述方法还包括：通过服务控制节点向媒体服务器发送第三指令，其中，所述第三指令用于请求创建混合媒体服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，或者用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；响应于所述第三指令，通过所述媒体服务器创建所述混合媒体服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务。在本实施例中，可由服务控制节点向媒体服务器请求创建混合媒体服务，再通过媒体服务器创建混合媒体服务，或者，由媒体服务器指示第三方服务组件创建混合媒体服务。通过本实施例，实现了创建混合媒体服务的目的，也为了在后续的手势通信过程中对相关音视频流、数据流进行处理做好了准备。

在一个可选的实施例中，所述通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义，包括：通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的所述一组手势进行语义识别，得到一个或多个语义，其中，每个所述语义是所述一组手势中的一个或多个手势所表达的语义；基于所述一个或多个语义，生成与所述一组手势对应的所述目标语义。在本实施例中，通过手势识别服务，对第一终端采集的视频帧图像中识别出的一组手势进行语义识别，以得到一个或多个语义，再基于一个或多个语义，生成与一组手势对应的完整的目标语义。通过本实施例，实现了将从采用手势进行通信的终端中获取的手势转成目标语义的目的。

在一个可选的实施例中，所述将所述目标语义发送给所述第二终端，包括：在所述目标语义是将所述一个或多个语义拼接成的语义时，将所述目标语义中包括的每个所述语义与所述一组视频帧中对应的视频帧同步发送给所述第二终端；或者，在所述目标语义是由包括与所述一组视频帧对应的数据流表示、且所述数据流为文字流和音频流时，将所述文字流与所述一组视频帧中对应的视频帧进行同步合成，得到目标视频流；将所述目标视频流与所述音频流同步发送给所述第二终端。在本实施例中，将目标语义中包括的每个语义与一组视频帧中对应的视频帧同步发送给第二终端，例如，在第二终端也支持使用目标数据通道的情况下，可将表示目标语义的数据流通过目标数据通道与由视频帧形成的视频流同步发送给第二终端；或者，在第二终端不支持使用目标数据通道的情况下，将用于表示目标语义的数据流中包括的文字流与视频帧进行同步合成，以得到目标视频流，再将目标视频流与音频流同步发送给第二终端，通过本实施例，在第二终端支持目标数据通道的情况下，通过目标数据通道传输数据流，并与视频流同步发送给第二终端，而在第二终端不支持使用目标数据通道的情况下，则将数据流中包括的文字流与视频帧进行合成，再与音频流同步发送给第二终端。

在一个可选的实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述第一目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第一组视频帧和对应的第一组音频帧，以及在所述第一组视频帧中识别出的第一组手势；在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对所述第一组视频帧形成的第一视频流、所述第一组音频帧形成的第一音频流以及用于表示所述目标语义的第一数据流进行同步处理，得到同步的所述第一视频流、所述第一音频流和所述第一数据流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第一视频流、所述第一音频流和所述第一数据流发送给所述第二终端，其中，所述同步的所述第一数据流在所述第二目标数据通道上发送。在本实施例中，当第一终端和第二终端均支持使用目标数据通道的情况下，在创建手势识别服务之后，对获取的第一终端采集到的第一组视频帧图像中识别出的一组手势进行语义识别，以得到目标语义，用于表示目标语义的第一数据流可以包括文字流、语音流，即将手势转换成语音或文字等，在识别语义之后，通过媒体服务器提供的混合媒体服务和手势识别服务，对第一视频流、第一音频流和第一数据流进行同步处理，再发送给第二终端，且第一数据流是通过第二目标数据通道（或称为专用数据通道）发送给第二终端的；在本实施例中，对于第二终端采用非手势通信方式，即采用正常的视频或语音方式进行通信，通过媒体服务器和/或第三方服务组件将第二终端的语音帧转换成手势流、目标文字流，并通过第一目标数据通道（或称为专用数据通道）将手势流、目标文字流与第二终端采集的视频帧和音频帧同步发送给第一终端。通过本实施例，当第一终端和第二终端均支持使用目标数据通道时，实现了其中一端采用手势进行交互通信的目的，并实现了将手势转换成数据流后通过目标数据通道进行发送的目的。

在一个可选的实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务、合成服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务、所述合成服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务、所述合成服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第二组视频帧和对应的第二组音频帧，以及在所述第二组视频帧中识别出的第二组手势；在得到所述目标语义之后，所述方法还包括：通过所述合成服务，将用于表示所述目标语义的第一文字流与所述第二组视频帧形成的视频流进行合成处理，得到第二视频流，通过所述混合媒体服务，将用于表示所述目标语义的数据流中包括的第二音频流与所述第二视频流进行同步处理，得到同步的所述第二视频流和所述第二音频流,其中,所述数据流包括所述第一文字流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第二视频流、所述第二音频流发送给所述第二终端。在本实施例中，当第一终端支持使用目标数据通道和第二终端不支持使用目标数据通道的情况下，在通过媒体服务器创建混合媒体服务、合成服务和手势识别服务之后，对获取的第一终端采集到的第二组视频帧图像中识别出的一组手势进行语义识别，以得到目标语义，用于表示目标语义的第一数据流可以包括第一文字流、语音流，即将手势转换成语音或文字等，在识别语义之后，通过媒体服务器提供的合成服务，将用于表示目标语义的第一文字流与第二组视频帧形成的视频流进行合成处理，得到第二视频流，再通过混合媒体服务，将用于表示目标语义的数据流中包括的第二音频流与第二视频流进行同步处理，得到同步的第二视频流和第二音频流，并发送给第二终端；在本实施例中，对于第二终端采用非手势通信方式，即采用正常的视频或语音方式进行通信，通过媒体服务器和/或第三方服务组件将第二终端的语音帧转换成手势流、目标文字流，并通过第一目标数据通道（或称为专用数据通道）将手势流、目标文字流与第二终端采集的视频帧和音频帧同步发送给第一终端。通过本实施例，当第一终端支持使用目标数据通道和第二终端不支持使用目标数据通道时，实现了其中一端采用手势进行交互通信的目的，并实现了将手势转换成文字流后与视频流进行合成后再与音频流同步进行发送的目的。

在一个可选的实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端不支持使用目标数据通道和所述第二终端支持使用所述目标数据通道的情况下，获取所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第二终端与媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第二终端在所述目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第三组视频帧和对应的第三组音频帧，以及在所述第三组视频帧中识别出的第三组手势；在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对所述第三组视频帧形成的第三视频流、所述第三组音频帧形成的第三音频流以及用于表示所述目标语义的第三数据流进行同步处理，得到同步的所述第三视频流、所述第三音频流和所述第三数据流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第三视频流、所述第三音频流和所述第三数据流发送给所述第二终端，其中，所述同步的所述第三数据流在所述目标数据通道上发送。在本实施例中，当第一终端不支持使用目标数据通道和第二终端支持使用目标数据通道的情况下，在通过媒体服务器创建混合媒体服务和手势识别服务之后，对获取的第一终端采集到的第三组视频帧图像中识别出的一组手势进行语义识别，以得到目标语义，用于表示目标语义的第三数据流可以包括文字流、语音流，即将手势转换成语音或文字等，在识别语义之后，通过媒体服务器提供混合媒体服务，对第三视频流、第三音频流和第三数据流进行同步处理，再发送给第二终端，且第三数据流在目标数据通道上发送；在本实施例中，对于第二终端采用非手势通信方式，即采用正常的视频或语音方式进行通信，通过媒体服务器和/或第三方服务组件将第二终端的语音帧转换成手势流、目标文字流，然后，再通过媒体服务器提供的合成服务，将手势流、目标文字流及第二终端采集的视频帧进行合成，以得到目标视频流，并将该目标视频流与第二终端采集的音频帧同步发送给第一终端。通过本实施例，当第一终端不支持使用目标数据通道和第二终端支持使用目标数据通道时，实现了其中一端采用手势进行交互通信的目的，并实现了将手势转换成文字流后通过目标数据通道进行发送的目的。

在一个可选的实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述第一目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述音频通话中，获取所述第一终端采集到的第四组视频帧和对应的第四组音频帧，以及在所述第四组视频帧中识别出的第四组手势；在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对用于表示所述目标语义的第二文字流和所述第四组音频帧形成的第四组音频流进行同步处理，得到同步的所述第二文字流和第四音频流，其中,所述数据流包括所述第二文字流；所述将所述目标语义发送给所述第二终端，包括：将同步的所述第二文字流和所述第四音频流发送给所述第二终端，其中，所述同步的所述第二文字流在所述第二目标数据通道上发送。在本实施例中，当第一终端和第二终端均支持使用目标数据通道的情况下，在创建手势识别服务之后，对获取的第一终端采集到的第四组视频帧图像中识别出的一组手势进行语义识别，以得到目标语义，用于表示目标语义的第一数据流可以包括文字流、语音流，即将手势转换成语音或文字等，在识别语义之后，通过媒体服务器提供的混合媒体服务和手势识别服务，对第一终端采集到的第四组音频帧形成的音频流和第一数据流进行同步处理，再发送给第二终端，且第一数据流是通过第二目标数据通道（或称为专用数据通道）发送给第二终端的；在本实施例中，对于第二终端采用非手势通信方式，即采用正常的语音方式进行通信，通过媒体服务器和/或第三方服务组件将第二终端的语音帧转换成手势流、目标文字流，并通过第一目标数据通道（或称为专用数据通道）将手势流、目标文字流与第二终端采集的视频帧和/或音频帧同步发送给第一终端。通过本实施例，当第一终端和第二终端均支持使用目标数据通道时，实现了其中一端采用手势进行交互通信的目的，并实现了将手势转换成数据流后通过目标数据通道进行发送的目的。

在一个可选的实施例中，所述方法还包括：在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述目标数据通道上传输的所述第一请求；所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建所述手势识别服务；通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务；在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述音频通话中，获取所述第一终端采集到的第五组视频帧和对应的第五组音频帧，以及在所述第五组视频帧中识别出的第五组手势；所述将所述目标语义发送给所述第二终端，包括：将用于表示所述目标语义的第五音频流发送给所述第二终端。在本实施例中，当第一终端支持使用目标数据通道和第二终端不支持使用目标数据通道的情况下，在创建手势识别服务之后，对获取的第一终端采集到的第五组视频帧图像中识别出的一组手势进行语义识别，以得到目标语义，用于表示目标语义的数据流可以包括文字流、语音流，即将手势转换成语音或文字等，在识别语义之后，将表示目标语音的第五音频流发送给第二终端的；在本实施例中，对于第二终端采用非手势通信方式，即采用正常的语音方式进行通信，通过媒体服务器和/或第三方服务组件将第二终端的语音帧转换成手势流、目标文字流，并通过目标数据通道（或称为专用数据通道）将手势流、目标文字流与第二终端采集的音频流同步发送给第一终端。通过本实施例，当第一终端支持使用目标数据通道和第二终端不支持使用目标数据通道时，实现了其中一端采用手势进行交互通信的目的，并实现了将手势转换成音频流后进行发送的目的。

显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。下面结合具体实施例对本发明进行具体说明：

图3是根据本发明具体实施例的手势通信系统结构和媒体路径图，如图3所示，该系统包括：

S101 终端（类型1）：一种新型的终端类型，类型1相当于前述支持目标数据通道的终端（以下简称为“类型1”），支持实时音视频流通道，也支持实时的数据流专用的通道（专用数据通道，对应于前述目标数据通道）；在本发明中，终端通过专用数据通道与网络侧实体交互，为最终用户提供新的业务体验，通过专用通道接收网络侧数据流，通过音视频流通道接收音视频流；本发明中本终端类型可以是独立的应用程序，也可以是专用的终端设备；

S102 终端（类型2）：传统的终端，类型2相当于前述不支持目标数据通道的终端（以下简称为“类型2”），只支持实时音视频流通道；终端通过与“SBC/P-CSCF”网络侧实体交互，为最终用户提供业务体验，通过音视频流通道接收音视频流；

S103 接入控制实体（SBC/P-CSCF）：为终端提供信令、媒体的接入，支持音视频流通道和数据流通道，对音视频流和数据流进行转发；

S104 会话控制实体（I/S-CSCF）：Interrogating/Serving-CSCF（Call SessionControl Function）查询/服务-呼叫会话控制功能，为多类型终端提供注册鉴权，会话控制，呼叫路由等IMS网络中的基本功能，将呼叫触发到“服务控制节点”；

S105 服务控制节点（Service Control Node）：作为手势通信系统的信令控制网元，承接IMS呼叫管理能力，负责控制呼叫；作为手势通信的服务提供网元，可以通过服务总线调用相关服务，对其他应用提供通信能力和服务能力，服务调用和控制各类媒体数据流转发，包括呼叫实时音视频流媒体转发以及数据流的转发；

具体增强功能包括但不限于：

（1）提供音视频呼叫和数据流通道呼叫的管理，包括但不限于，呼叫的建立，媒体透传、媒体路径的改向，呼叫的拆除，呼叫事件的上报、服务调用、服务结果通知等；

（2）提供通信能力和服务的对外开放，处理应用控制的业务请求，把业务请求转换成具体的控制操作。如应用控制节点通过服务控制节点提供的开放接口，可用对媒体服务器，第三方服务组件进行调用，资源申请，实现手势识别翻译转语音、手势流动画生成、合成音视频媒体流，数据流一体的媒体流。并对服务结果进行通知；

（3）通过服务总线对媒体服务器提供的各类服务进行调用和控制，包括但不限于，数据通道的创建、修改、删除，音视频媒体资源的申请、修改、删除，以及手势识别和翻译能力的申请、修改、删除等；

对于本申请而言，服务控制节点可以独立存在，也可以和应用控制节点合设；

S106 应用控制节点（Application Control Node）: 实现各类业务服务逻辑。具体增强功能包括但不限于：（1）可以根据终端的应用形态（版本号，设备类型，特定标签等）来决定要发送的媒体流和数据流类别；比如是发送实时数据流，还是需要把它转换成实时的媒体流下发；（2）发送应用控制请求给服务控制节点，调用第三方服务组件和媒体服务器实现图像处理、手势识别、转换、合成；（3）可以通过服务总线对媒体服务器提供的各类服务进行调用，对服务结果进行上报；

需要说明的是，应用控制节点可以独立存在，也可以和服务控制节点合设。

S107 媒体服务器（Media Server）: 提供各类媒体服务。具体功能包括但不限于：（1）图像识别，如通过特征数据比对进行图像识别，识别手势；（2）实时媒体流生成的服务，如将语音片段转成对应RTP媒体流；（3）实时手势流生成，对识别的手势自动生成手势流视频；（4）合成服务，对已有的和已生成的媒体流、手势流进行合成输出（输出到实时音视频流里），将视频流、手势流、文字流统一合成在视频流中；（5）实时音视频流转发，对当前通话的音视频流进行锚定、处理、转发；（6）数据流转发服务，对手势流、文字流等数据流通过专用数据通道进行转发，对合成的一体数据流建立专用通道，进行转发；（7）服务控制节点和应用控制节点可以通过服务总线对媒体服务器提供的各类服务进行调用；（8）混合媒体服务，支持将音视频流、数据流在一个混合媒体中进行处理；（9）建立专用数据通道，通过加密方式安全传递手势信息。

S108 第三方服务组件：可以被服务控制节点和应用控制节点调用，提供手势语言翻译，音频文本转换服务等。

S109 HSS: 提供用户业务数据等相关内容。

现对本发明实施例的整体技术方案流程大致说明如下：

1）用户UE A携带终端标识向IMS网络发起音频或视频呼叫请求，呼叫UE B。经过SBC/P-CSCF，I/SCSCF，服务控制节点等网元，与UE B建立音频或者视频通话；

UE A，UE B可以分别是不同的终端类型：终端（类型1）是一种新型的终端类型，它有实时音视频流通道，也有实时的数据流专用的通道；终端（类型2）是传统的终端，只支持实时音视频流通道；

2）视频或者音频通话建立后，有支持数据流通道的终端（类型1）用户经过“SBC/P-CSCF”，“I/SCSCF”，“服务控制节点”向“媒体服务器”申请创建数据通道资源；

3）“媒体服务器”返回创建成功的数据通道资源；

4）终端（类型1，专用数据通道）的终端通过数据通道向“应用控制节点”发起手势识别转换请求；

“应用控制节点”指示“服务控制节点”创建手势识别资源；

“服务控制节点”指示“媒体服务器”创建混合媒体服务，需要手势识别相关服务；

“媒体服务器”向“第三方服务组件”申请手势识别服务，创建混合媒体服务成功。

5）“服务控制节点”通过Reinvite方式分别邀请UE A、UE B入会；向“媒体服务器”申请UE A、UE B入会资源；

6）UE A、UE B媒体锚定到“媒体服务器”；

7）“服务控制节点”向“媒体服务器”申请手势识别、手势翻译业务种类及合成等处理；

8）“媒体服务器”向“第三方服务组件”申请手势识别、手势翻译、语音转文字、文字转语音、手势流生成、语音流生成、手势流语音流文字流视频流合成、转发等服务。“媒体服务器”、“第三方服务组件”执行相应服务；

9）“媒体服务器”向不同终端类型UE A、UE B发送不同流信息（合成和非合成），包括语音流、视频流、手势流、文字流等内容；

10）“媒体服务器”向“服务控制节点”返回手势识别手势流文字流语音流等操作响应。

具体实施例一：手势使用者（终端类型1，有专用数据通道）和非手势使用者（终端类型1，有专用数据通道）视频通话

图4是根据本发明具体实施例的手势通信方法示例图一，如图4所示，本实施例以使用终端（类型1）的手势使用者UE A拨打使用终端（类型1）的非手势使用者UE B，进行视频通话为例进行说明：

步骤S201：终端（类型1）的手势使用者UE A携带终端标识向SBC/P-CSCF发起视频呼叫，呼叫非手势使用者UE B。Inivite中携带终端音视频video和audio的SDP相关信息；

步骤S202：SBC/P-CSCF透传Invite呼叫信息到I/S-CSCF；

步骤S203：I/S-CSCF找到对应用户的服务控制节点，向其发送呼叫信息；

步骤S204～S206：视频呼叫到终端（类型1）的非手势使用者UE B；

步骤S207～S218：UE B用户发送200 OK消息携带终端标识，摘机应答；UE A返回ACK消息；UE A和UE B建立视频通话；

步骤S219～S229：UE A申请创建数据通道资源；UE A用户需要手势识别，发送携带专用数据通道 SDP数据通道的Invite请求，经过SBC/P-CSCF,I/S-CSCF,达到“服务控制节点”；“服务控制节点”向“媒体服务器”申请创建UE A数据通道；“媒体服务器”向“服务控制节点”返回数据通道创建完成；

步骤S230：UE A通过数据通道发起手势识别转换请求；

步骤S231：“应用控制节点”指示“服务控制节点”创建手势识别资源；

步骤S232：“服务控制节点”指示“媒体服务器”创建混合媒体服务，需要使用手势识别服务；

步骤S233：“媒体服务器”向“第三方服务组件”申请手势识别服务；

步骤S234：“媒体服务器”向“服务控制节点”返回创建混合媒体服务成功；

步骤S235～步骤S246：“服务控制节点” 邀请UE B入会并且为UE B申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE B；UE B返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE B所需混合媒体资源。UE B的媒体锚定到媒体服务器；

步骤S247～步骤S258：“服务控制节点” 邀请UE A入会并且为UE A申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE A；UE A返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE A所需混合媒体资源；UE A的媒体锚定到媒体服务器；

步骤S259：“服务控制节点”向“媒体服务器”申请手势翻译业务种类及合成处理；

步骤S260：“媒体服务器”向“第三方服务组件”申请对终端数据的语音转文字处理，提取特征数据的手势图像识别，实时手势流生成，实时媒体流生成，合成服务，实时音视频流转发，数据流转发等服务；

步骤S261～S264：“媒体服务器”向UE A发送手势流、文字流、语音流、视频流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；

步骤S265：“媒体服务器”向“第三方服务组件”申请手势翻译合成转发服务；

步骤S266～S268：“媒体服务器”向UE B发送语音流、文字流、视频流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；

步骤S269：“媒体服务器”向“服务控制节点”返回手势识别手势流文字流语音流等操作响应。

具体实施例二：非手势使用者（终端类型2，无专用数据通道）和手势使用者（终端类型1，有专用数据通道）视频通话

图5是根据本发明具体实施例的手势通信方法示例图二，如图5所示，本实施例以非手势使用者UE A（终端类型2，无专用数据通道）和手势使用者UE B（终端类型1，有专用数据通道）进行视频通话为例进行说明：

步骤S301：终端（类型2）的非手势使用者UE A携带终端标识向SBC/P-CSCF发起视频呼叫，呼叫手势使用者UE B，Inivite中携带终端音视频video和audio的SDP相关信息；

步骤S302：SBC/P-CSCF透传Invite呼叫信息到I/S-CSCF；

步骤S303：I/S-CSCF找到对应用户的服务控制节点，向其发送呼叫信息；

步骤S304～S306：视频呼叫到终端（类型1）的手势使用者UE B；

步骤S307～S318：UE B用户发送200 OK消息携带终端标识，摘机应答，UE A返回ACK消息；UE A和UE B建立视频通话；

步骤S319～S329：UE B申请创建数据通道资源；UE B用户需要手势识别，发送携带专用数据通道 SDP数据通道的Invite请求，经过SBC/P-CSCF,I/S-CSCF,达到“服务控制节点”；“服务控制节点”向“媒体服务器”申请创建UE B数据通道；“媒体服务器”向“服务控制节点”返回数据通道创建完成；

步骤S330：UE B通过数据通道发起手势识别转换请求；

步骤S331：“应用控制节点”指示“服务控制节点”创建手势识别资源；

步骤S332：“服务控制节点”指示“媒体服务器”创建混合媒体服务，需要使用手势识别服务；

步骤S333：“媒体服务器”向“第三方服务组件”申请手势识别服务；

步骤S334：“媒体服务器”向“服务控制节点”返回创建混合媒体服务成功：

步骤S335～步骤S346：“服务控制节点” 邀请UE A入会并且为UE A申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE A；UE A返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE A所需混合媒体资源；UE A的媒体锚定到媒体服务器；

步骤S347～步骤S358：“服务控制节点” 邀请UE B入会并且为UE B申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE B；UE A返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE B所需混合媒体资源；UE B的媒体锚定到媒体服务器；

步骤S359：“服务控制节点”向“媒体服务器”申请手势翻译业务种类及合成处理；

步骤S360：“媒体服务器”向“第三方服务组件”申请手势翻译合成转发服务，对终端数据的语音转文字处理，提取特征数据的手势图像识别，实时手势流生成，实时媒体流生成，合成服务，实时音视频流转发，数据流转发等：

步骤S361～S362：“媒体服务器”向UE A发送手势转换成的实时语音流、含有视频和文字合成的视频流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；

步骤S363：“媒体服务器”向“第三方服务组件”申请手势流生成翻译合成转发服务；

步骤S364～S367：“媒体服务器”向UE B发送手势流、语音流、文字流、视频流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；

步骤S368：“媒体服务器”向“服务控制节点”返回手势识别手势流文字流语音流等操作响应。

具体实施例三：手势使用者（终端类型2，无专用数据通道）和非手势使用者（终端类型1，有专用数据通道）视频通话

图6是根据本发明具体实施例的手势通信方法示例图三，如图6所示，本实施例以手势使用者UE A（终端类型2，无专用数据通道）和非手势使用者UE B（终端类型1，有专用数据通道）进行视频通话为例进行说明：

步骤S401：终端（类型2）的手势使用者UE A携带终端标识向SBC/P-CSCF发起视频呼叫，呼叫非手势使用者UE B；Inivite中携带终端音视频video和audio的SDP相关信息；

步骤S402：SBC/P-CSCF透传Invite呼叫信息到I/S-CSCF；

步骤S403：I/S-CSCF找到对应用户的服务控制节点，向其发送呼叫信息；

步骤S404～S406：视频呼叫到终端（类型1）的非手势使用者UE B；

步骤S407～S418：UE B用户发送200 OK消息携带终端标识，摘机应答；UE A返回ACK消息；UE A和UE B建立视频通话；

步骤S419～S429：UE B申请创建数据通道资源；UE B用户需要手势识别，发送携带专用数据通道 SDP数据通道的Invite请求，经过SBC/P-CSCF,I/S-CSCF,达到“服务控制节点”；“服务控制节点”向“媒体服务器”申请创建UE B数据通道；“媒体服务器”向“服务控制节点”返回数据通道创建完成；

步骤S430：UE B通过数据通道发起手势识别转换请求；

步骤S431：“应用控制节点”指示“服务控制节点”创建手势识别资源；

步骤S432：“服务控制节点”指示“媒体服务器”创建混合媒体服务，需要使用手势识别服务；

步骤S433：“媒体服务器”向“第三方服务组件”申请手势识别服务；

步骤S434：“媒体服务器”向“服务控制节点”返回创建混合媒体服务成功；

步骤S435～步骤S446：“服务控制节点” 邀请UE A入会并且为UE A申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE A；UE A返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE A所需混合媒体资源；UE A的媒体锚定到媒体服务器；

步骤S447～步骤S458：“服务控制节点” 邀请UE B入会并且为UE B申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE B；UE A返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE B所需混合媒体资源；UE B的媒体锚定到媒体服务器；

步骤S459：“服务控制节点”向“媒体服务器”申请手势翻译业务种类及合成处理；

步骤S460：“媒体服务器”向“第三方服务组件”申请手势翻译手势流生成合成转发服务，对终端数据的语音转文字处理，提取特征数据的手势图像识别，实时手势流生成，实时媒体流生成，合成服务，实时音视频流转发，数据流转发等；

步骤S461～S462：“媒体服务器”向UE A发送手势转换成的实时语音流、含有视频、文字、视频合成的视频流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；

步骤S463：“媒体服务器”向“第三方服务组件”申请手势流生成翻译合成转发服务；

步骤S464～S466：“媒体服务器”向UE B发送语音流、文字流、视频流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；

步骤S467：“媒体服务器”向“服务控制节点”返回手势识别手势流文字流语音流等操作响应。

具体实施例四：手势使用者（终端类型1，有专用数据通道）和非手势使用者（终端类型1，有专用数据通道）音频通话

图7是根据本发明具体实施例的手势通信方法示例图四，如图7所示，本实施例以使用终端（类型1）的手势使用者UE A拨打使用终端（类型1）的非手势使用者UE B，进行音频通话为例进行说明：

步骤S501：终端（类型1）的手势使用者UE A携带终端标识向SBC/P-CSCF发起音频呼叫，呼叫非手势使用者UE B；Inivite中携带终端音频audio的SDP相关信息；

步骤S502：SBC/P-CSCF透传Invite呼叫信息到I/S-CSCF；

步骤S503：I/S-CSCF找到对应用户的服务控制节点，向其发送呼叫信息；

步骤S504～S506：音频呼叫到终端（类型1）的非手势使用者UE B；

步骤S507～S518：UE B用户发送200 OK消息携带终端标识，摘机应答；UE A返回ACK消息；UE A和UE B建立音频通话；

步骤S519～S529：UE A启用手势识别应用打开摄像头，申请创建数据通道资源；UEA用户需要手势识别，发送携带专用数据通道 SDP数据通道的Invite请求，经过SBC/P-CSCF,I/S-CSCF,达到“服务控制节点”；“服务控制节点”向“媒体服务器”申请创建UE A数据通道；“媒体服务器”向“服务控制节点”返回数据通道创建完成；手势识别应用将采集手势数据；

步骤S530：UE A通过数据通道发起手势识别转换请求；

步骤S531：“应用控制节点”指示“服务控制节点”创建手势识别资源；

步骤S532：“服务控制节点”指示“媒体服务器”创建混合媒体服务，需要使用手势识别服务；

步骤S533：“媒体服务器”向“第三方服务组件”申请手势识别服务；

步骤S534：“媒体服务器”向“服务控制节点”返回创建混合媒体服务成功；

步骤S535～步骤S546：“服务控制节点” 邀请UE B入会并且为UE B申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE B；UE B返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE B所需混合媒体资源；UE B的媒体锚定到媒体服务器；

步骤S547～步骤S558：“服务控制节点” 邀请UE A入会并且为UE A申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE A；UE A返回携带SDP信息的200 OK消息。“服务控制节点”向“媒体服务器”申请UE A所需混合媒体资源；UE A的媒体锚定到媒体服务器；

步骤S559：“服务控制节点”向“媒体服务器”申请手势翻译业务种类及合成处理；

步骤S560：“媒体服务器”向“第三方服务组件”申请对终端数据的语音转文字处理，提取特征数据的手势图像识别，实时手势流生成，实时媒体流生成，合成服务，实时音频流转发，数据流转发等服务；

步骤S561～S563：“媒体服务器”向UE A发送手势流、文字流、语音流媒体流信息；该媒体流信息可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；

步骤S564：“媒体服务器”向“第三方服务组件”申请手势翻译流合成转发服务；

步骤S565～S566：“媒体服务器”向UE A发送语音流、文字流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；

步骤S567：“媒体服务器”向“服务控制节点”返回手势识别手势流文字流语音流等操作响应。

具体实施例五：非手势使用者（终端类型2,无专用数据通道）和手势使用者（终端类型1,有专用数据通道）音频通话

图8是根据本发明具体实施例的手势通信方法示例图五，如图8所示，本实施例以非手势使用者UE A（终端类型2，无专用数据通道）和手势使用者UE B（终端类型1，有专用数据通道）进行音频通话为例进行说明：

步骤S601：终端（类型2）的非手势使用者UE A携带终端标识向SBC/P-CSCF发起音频呼叫，呼叫手势使用者UE B；Inivite中携带终端音频audio的SDP相关信息；

步骤S602：SBC/P-CSCF透传Invite呼叫信息到I/S-CSCF；

步骤S603：I/S-CSCF找到对应用户的服务控制节点，向其发送呼叫信息；

步骤S604～S606：音频呼叫到终端（类型1）的手势使用者UE B；

步骤S607～S618：UE B用户发送200 OK消息携带终端标识，摘机应答；UE A返回ACK消息；UE A和UE B建立音频通话；

步骤S619～S629：UE B启用手势识别应用，打开摄像头，申请创建数据通道资源；UE B用户需要手势识别，发送携带专用数据通道 SDP数据通道的Invite请求，经过SBC/P-CSCF,I/S-CSCF,达到“服务控制节点”；“服务控制节点”向“媒体服务器”申请创建UE B数据通道；“媒体服务器”向“服务控制节点”返回数据通道创建完成；手势识别应用将采集手势数据；

步骤S630：UE B通过数据通道发起手势识别转换请求；

步骤S631：“应用控制节点”指示“服务控制节点”创建手势识别资源；

步骤S632：“服务控制节点”指示“媒体服务器”创建混合媒体服务，需要使用手势识别服务；

步骤S633：“媒体服务器”向“第三方服务组件”申请手势识别服务；

步骤S634：“媒体服务器”向“服务控制节点”返回创建混合媒体服务成功；

步骤S635～步骤S646：“服务控制节点” 邀请UE A入会并且为UE A申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE A；UE A返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE A所需混合媒体资源；UE A的媒体锚定到媒体服务器；

步骤S647～步骤S658：“服务控制节点” 邀请UE B入会并且为UE B申请混合媒体资源；“服务控制节点”发送Reinvite携带SDP消息给UE B；UE A返回携带SDP信息的200 OK消息；“服务控制节点”向“媒体服务器”申请UE B所需混合媒体资源；UE B的媒体锚定到媒体服务器；

步骤S659：“服务控制节点”向“媒体服务器”申请手势翻译业务种类及合成处理；

步骤S660：“媒体服务器”向“第三方服务组件”申请手势翻译转发服务，对终端数据的语音转文字处理，提取特征数据的手势图像识别，实时手势流生成，实时媒体流生成，合成服务，实时音频流转发，数据流转发等；

步骤S661：“媒体服务器”向UE A发送手势转换成的实时语音流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；

步骤S662：“媒体服务器”向“第三方服务组件”申请手势流生成翻译合成转发服务；

步骤S663～S665：“媒体服务器”向UE B发送手势流、语音流、文字流的媒体流信息；该媒体流信息可以是“媒体服务器”经过“应用控制节点”到SBC/PCSCF再到终端；也可以是“媒体服务器”经过“服务控制节点”、“应用控制节点”到SBC/PCSCF再到终端；

步骤S666：“媒体服务器”向“服务控制节点”返回手势识别手势流文字流语音流等操作响应。

通过上述实施例，可实现的目的包括：1）通过利用专用数据通道，实现传递手势信息的目的；2）通过由网络侧执行手势识别，降低对终端的要求，终端只需要是具有摄像头的集采设备如普通手机，在IMS呼叫建立时可以通过手势识别应用指示，按要求对手势进行采集，采集到的手势相关信息通过专用通道进行传递，向手势识别应用服务器发起手势识别请求；3）通过平台侧提供综合服务，包括对手势进行识别、分析、合成等，并通过专用通道传递服务信息；4）支持实现手语与语音/视频的双向转换，对手语相关手势信息进行识别，分析、处理、数据合成，加工渲染后合成带有转义后的文字，手语标准视频和原语音/视频流；5）支持对不同终端类型之间通信内容的转换；平台侧通过识别不同类型的终端，对不同终端之间的信息流进行转换，实现在不同类型终端之间的手势通信的目的。支持数据通道的终端类型可以是独立的应用程序，也可以是专用的终端设备。

通过本申请实施例，可达到的效果包括：（1）实时交互，用户交流经济便捷可用性强，效果好。本系统利用5G、6G网络专用通道，通过网络侧混合媒体模式实现多种业务流同时传送，实现手势通信的系统及方法，经济便捷，体验丰富的实现手势使用者和非手势使用者之间的交流；不再依赖特性的穿戴设备；传统的依赖穿戴设备的手势识别，设备价格昂贵，只适用于一定范围内的交互，还经常存在时间、空间等限制，可用性差，不是直接自然的交互和通讯；（2）扩展性好。平台侧提供综合服务，可以对接第三方服务组件；进行服务扩展；新架构下可提供交互式、沉浸式通话；（3）安全性好。利用5G、6G网络专用通道和IMS呼叫,终端与网络之间的数据通过加密通道传输数据，防止信息泄露；（4）支持对不同终端类型之间通信内容的转换。平台侧通过识别不同类型的终端，对不同终端之间的信息流进行转换，实现在不同类型终端之间的手势通信。具体的有益效果至少包括：1）手势使用者使用终端类型1和非手势使用者（使用终端类型1或者2）视频通话时（通话可以是手势使用者拨打非手势使用者建立的视频通话，也可以是非手势使用者拨打手势使用者建立的视频通话），手势使用者或者使用终端类型1的非手势使用者都可以申请手势识别转换；手势使用者可以接收和看到对端非手势使用者由语音转换成的标准手势流视频、文字、原语音、原视频；非手势使用者可以听到看到由手势使用者手势转换出来的语音、文字，原通话视频，其中非手势使用者使用的是终端类型1时，非手势使用者接收和看到听到的是语音流、文字流、原视频流；非手势使用者使用终端类型2时，非手势使用者接收和看到听到的是语音流、看到视频和文字合成的视频流；2）手势使用者使用终端类型2和非手势使用者（使用终端类型1）视频电话时（通话可以是手势使用者拨打非手势使用者建立的视频通话，也可以是非手势使用者拨打手势使用者建立的视频通话），非手势使用者也可以申请手势转换；手势使用者可以看到听到由非手势使用者语音转换出来的含有手势、文字、原视频合成的视频流和语音流；非手势使用者可以看到听到由手势使用者手势转换出来的语音、文字、原通话视频；3）手势使用者使用终端类型1和非手势使用者（使用终端类型1或者2）音频通话时（通话可以是手势使用者拨打非手势使用者建立的音频通话，也可以是非手势使用者拨打手势使用者建立的音频通话），手势使用者或者使用终端类型1的非手势使用者都可以申请手势识别转换；手势使用者申请手势识别转换时启用手势识别应用打开摄像头；手势使用者可以接收和看到对端非手势使用者由语音转换成的标准手势流、文字、原语音；非手势使用者可以听到看到由手势使用者手势转换出来的语音流、文字。其中非手势使用者使用的是终端类型1时，非手势用着接收和看到听到的是语音流、文字流；非手势使用者使用终端类型2时，非手势使用者接收和听到的是语音流。

第五代通信技术的出现，为用户提供带宽更高、时延更低、覆盖更广的移动网络，可以提供网络直播、虚拟现实、4K视频等更多的应用。5G技术将面向未来的五个主要应用场景：1）超高速场景，为未来移动宽带用户提供极速数据网络接入；2）支持大规模人群，为高人群密度地区或场合提供高质量移动宽带体验；3）随时随地最佳体验，确保用户在移动状态仍享有高质量服务；4）超可靠的实时连接，确保新应用和用户实例在时延和可靠性方面符合严格的标准；5）无处不在的物物通信，确保高效处理多样化的大量设备通信，包括机器类设备和传感器等。

以上应用对于5G网络中的通信系统的提出了更高的要求。3GPP（ThirdGeneration Partnership Project，第三代合作伙伴计划） R16引入了IMS（IP MultimediaSubsystem，网际协议多媒体子系统）数据通道机制（Data Chanel），利用5G网络高带宽、低时延的特性，可以在音视频基础上，为用户额外提供图片、文字、位置、名片、动作、表情、动画等信息，可以提供高清、可视、新型交互和沉浸式业务体验。

在本申请实施例中，提供了通过使用专用数据通道，利用混合媒体方式实现手势通信的系统及方法，可应用于5G、6G网络中；可避免相关技术中进行手势识别或手势翻译存在的以下问题：1）较多已实现的由终端侧使用用特定穿戴设备提供采集功能，这些设备价格昂贵，只适用于一定范围内的交互，存在时间、空间等限制不够经济、便捷，可用性差，不是直接自然的交互和通讯；2）有部分由终端侧提供手势识别、翻译、合成等系统功能，对终端要求高；没有利用网络侧提供手势识别、翻译、合成，信息更新不及时；3）不能实现不同终端类型之间的转换；4）部分技术要求通信双方必须在视频通话中才能实现手势通信，要求平台侧需要把手势内容打包后回传回终端，由终端发送给另一侧终端；无法实现用户在语音通话过程中的手势通信。

现对本申请实施例中涉及到的用户界面简述如下：在音频通话时终端可以通过终端侧“手势识别应用”打开摄像头；终端在通话过程中，可以查询到包含手势识别功能菜单，可以发起手势识别请求；终端接收数据通道发送的视频、手势、文字信息，本端手机上同步呈现这些内容。

在本实施例中还提供了一种手势通信装置，图9是根据本发明实施例的手势通信装置的结构框图，如图9所示，该装置包括：

第一获取模块902，用于在第一终端和第二终端进行视频通话或音频通话时，获取所述第一终端或所述第二终端发送的第一请求，其中，所述第一请求用于请求对在所述视频通话或音频通话中所述第一终端采集到的手势进行识别；

第一创建模块904，用于响应于所述第一请求，创建手势识别服务，其中，所述手势识别服务用于对所述第一终端采集到的手势进行识别；

第二获取模块906，用于在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势；

识别模块908，用于通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义；

第一发送模块910，用于将所述目标语义发送给所述第二终端。

在一个可选的实施例中，上述装置还包括：第三获取模块1002，第二创建模块1004，如图10所示，图10是根据本发明实施例的手势通信装置的优选的结构框图一，其中，第三获取模块1002，用于获取所述第一终端或所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；第二创建模块1004，用于响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道为所述第一终端或所述第二终端允许使用的通道；上述第一获取模块902包括：第一获取单元，用于获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求。

在一个可选的实施例中，上述第三获取模块1002包括：第二获取单元，用于获取所述第一终端或所述第二终端通过接入控制实体SBC/P-CSCF、会话控制实体I/S-CSCF以及服务控制节点向媒体服务器发送的所述第二请求；上述第二创建模块1004包括：第一创建单元，用于响应于所述第二请求，通过所述媒体服务器创建所述目标数据通道，其中，所述目标数据通道用于在所述第一终端或所述第二终端与所述媒体服务器之间传输数据。

在一个可选的实施例中，上述第一获取单元包括：第一获取子单元，用于获取所述第一终端或所述第二终端在所述目标数据通道上向应用控制节点传输的所述第一请求；上述第一创建模块904包括：第一处理单元，用于由所述应用控制节点向所述服务控制节点发出第一指令，其中，所述第一指令用于指示所述服务控制节点向所述媒体服务器发出第二指令，所述第二指令用于指示所述媒体服务器创建所述手势识别服务；第二创建单元，用于响应于所述第二指令，通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务。

在一个可选的实施例中，上述装置还包括：第二发送模块1102，第三创建模块1104，如图11所示，图11是根据本发明实施例的手势通信装置的优选的结构框图二，其中，第二发送模块1102，用于通过服务控制节点向媒体服务器发送第三指令，其中，所述第三指令用于请求创建混合媒体服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，或者用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；第三创建模块1104，用于响应于所述第三指令，通过所述媒体服务器创建所述混合媒体服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务。

在一个可选的实施例中，上述识别模块908包括：第一识别单元，用于通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的所述一组手势进行语义识别，得到一个或多个语义，其中，每个所述语义是所述一组手势中的一个或多个手势所表达的语义；生成单元，用于基于所述一个或多个语义，生成与所述一组手势对应的所述目标语义。

在一个可选的实施例中，上述第一发送模块910包括：第一发送单元，用于在所述目标语义是将所述一个或多个语义拼接成的语义时，将所述目标语义中包括的每个所述语义与所述一组视频帧中对应的视频帧同步发送给所述第二终端；或者，合成单元，用于在所述目标语义是由包括与所述一组视频帧对应的数据流表示、且所述数据流为文字流和音频流时，将所述文字流与所述一组视频帧中对应的视频帧进行同步合成，得到目标视频流；第二发送单元，用于将所述目标视频流与所述音频流同步发送给所述第二终端。

在一个可选的实施例中，上述装置还包括：第四获取模块，用于在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；第四创建模块，用于响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；上述第一获取模块902包括：第三获取单元，用于获取所述第一终端在所述第一目标数据通道上传输的所述第一请求；上述第一创建模块904包括：第二处理单元，用于响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；第三创建单元，用于通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；上述第二获取模块906包括：第四获取单元，用于在所述视频通话中，获取所述第一终端采集到的第一组视频帧和对应的第一组音频帧，以及在所述第一组视频帧中识别出的第一组手势；上述装置还包括：第一处理模块，用于通过所述混合媒体服务，对所述第一组视频帧形成的第一视频流、所述第一组音频帧形成的第一音频流以及用于表示所述目标语义的第一数据流进行同步处理，得到同步的所述第一视频流、所述第一音频流和所述第一数据流；上述第一发送模块910包括：第三发送单元，用于将同步的所述第一视频流、所述第一音频流和所述第一数据流发送给所述第二终端，其中，所述同步的所述第一数据流在所述第二目标数据通道上发送。

在一个可选的实施例中，上述装置还包括：第五获取模块，用于在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；第五创建模块，用于响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；上述第一获取模块902包括：第五获取单元，用于获取所述第一终端在所述目标数据通道上传输的所述第一请求；上述第一创建模块904包括：第三处理单元，用于响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务、合成服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；第四创建单元，用于通过所述媒体服务器创建所述混合媒体服务、所述合成服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务、所述合成服务和所述手势识别服务；上述第二获取模块906包括：第六获取单元，用于在所述视频通话中，获取所述第一终端采集到的第二组视频帧和对应的第二组音频帧，以及在所述第二组视频帧中识别出的第二组手势；上述装置还包括：第二处理模块，用于通过所述合成服务，将用于表示所述目标语义的第一文字流与所述第二组视频帧形成的视频流进行合成处理，得到第二视频流，通过所述混合媒体服务，将用于表示所述目标语义的数据流中包括的第二音频流与所述第二视频流进行同步处理，得到同步的所述第二视频流和所述第二音频流,其中,所述数据流包括所述第一文字流；上述第一发送模块910包括：第四发送单元，用于将同步的所述第二视频流、所述第二音频流发送给所述第二终端。

在一个可选的实施例中，上述装置还包括：第六获取模块，用于在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端不支持使用目标数据通道和所述第二终端支持使用所述目标数据通道的情况下，获取所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；第六创建模块，用于响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第二终端与媒体服务器之间的数据通道；上述第一获取模块902包括：第七获取单元，用于获取所述第二终端在所述目标数据通道上传输的所述第一请求；上述第一创建模块904包括：第四处理单元，用于响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；第五创建单元，用于通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；上述第二获取模块906包括：第八获取单元，用于在所述视频通话中，获取所述第一终端采集到的第三组视频帧和对应的第三组音频帧，以及在所述第三组视频帧中识别出的第三组手势；上述装置还包括：第三处理模块，用于通过所述混合媒体服务，对所述第三组视频帧形成的第三视频流、所述第三组音频帧形成的第三音频流以及用于表示所述目标语义的第三数据流进行同步处理，得到同步的所述第三视频流、所述第三音频流和所述第三数据流；上述第一发送模块910包括：第五发送单元，用于将同步的所述第三视频流、所述第三音频流和所述第三数据流发送给所述第二终端，其中，所述同步的所述第三数据流在所述目标数据通道上发送。

在一个可选的实施例中，上述装置还包括：第七获取模块，用于在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；第七创建模块，用于响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；上述第一获取模块902包括：第九获取单元，用于获取所述第一终端在所述第一目标数据通道上传输的所述第一请求；上述第一创建模块904包括：第五处理单元，用于响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；第六创建单元，用于通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；上述第二获取模块906包括：第十获取单元，用于在所述音频通话中，获取所述第一终端采集到的第四组视频帧和对应的第四组音频帧，以及在所述第四组视频帧中识别出的第四组手势；上述装置还包括：第四处理模块，用于通过所述混合媒体服务，对用于表示所述目标语义的第二文字流和所述第四组音频帧形成的第四组音频流进行同步处理，得到同步的所述第二文字流和第四音频流，其中,所述数据流包括所述第二文字流；上述第一发送模块910包括：第六发送单元，用于将同步的所述第二文字流和所述第四音频流发送给所述第二终端，其中，所述同步的所述第二文字流在所述第二目标数据通道上发送。

在一个可选的实施例中，上述装置还包括：第八获取模块，用于在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；第八创建模块，用于响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；上述第一获取模块902包括：第十一获取单元，用于获取所述第一终端在所述目标数据通道上传输的所述第一请求；上述第一创建模块904包括：第六处理单元，用于响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建所述手势识别服务；第七创建单元，用于通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务；上述第二获取模块906包括：第十二获取单元，用于在所述音频通话中，获取所述第一终端采集到的第五组视频帧和对应的第五组音频帧，以及在所述第五组视频帧中识别出的第五组手势；上述第一发送模块910包括：第七发送单元，用于将用于表示所述目标语义的第五音频流发送给所述第二终端。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种手势通信方法，其特征在于，包括：

在第一终端和第二终端进行视频通话或音频通话时，获取所述第一终端或所述第二终端发送的第一请求，其中，所述第一请求用于请求创建手势识别服务，其中，所述手势识别服务用于对所述第一终端采集到的视频帧中识别出的手势进行语义识别；

响应于所述第一请求，创建所述手势识别服务；

在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势；

通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义；

将所述目标语义发送给所述第二终端；

所述方法还包括：获取所述第一终端或所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道为所述第一终端或所述第二终端允许使用的通道；

所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求；

其中，在所述第一终端支持使用所述目标数据通道的情况下，所述方法还包括：将所述第二终端的语音帧转换成手势流和/或目标文字流并通过所述目标数据通道发送给所述第一终端。

2.根据权利要求1所述的方法，其特征在于，

所述获取所述第一终端或所述第二终端发送的第二请求，包括：获取所述第一终端或所述第二终端通过接入控制实体SBC/P-CSCF、会话控制实体I/S-CSCF以及服务控制节点向媒体服务器发送的所述第二请求；

所述响应于所述第二请求，创建所述目标数据通道，包括：响应于所述第二请求，通过所述媒体服务器创建所述目标数据通道，其中，所述目标数据通道用于在所述第一终端或所述第二终端与所述媒体服务器之间传输数据。

3.根据权利要求2所述的方法，其特征在于，

所述获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求，包括：获取所述第一终端或所述第二终端在所述目标数据通道上向应用控制节点传输的所述第一请求；

所述响应于所述第一请求，创建所述手势识别服务，包括：由所述应用控制节点向所述服务控制节点发出第一指令，其中，所述第一指令用于指示所述服务控制节点向所述媒体服务器发出第二指令，所述第二指令用于指示所述媒体服务器创建所述手势识别服务；响应于所述第二指令，通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过服务控制节点向媒体服务器发送第三指令，其中，所述第三指令用于请求创建混合媒体服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，或者用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；响应于所述第三指令，通过所述媒体服务器创建所述混合媒体服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务。

5.根据权利要求1所述的方法，其特征在于，所述通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义，包括：

通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的所述一组手势进行语义识别，得到一个或多个语义，其中，每个所述语义是所述一组手势中的一个或多个手势所表达的语义；

基于所述一个或多个语义，生成与所述一组手势对应的所述目标语义。

6.根据权利要求5所述的方法，其特征在于，所述将所述目标语义发送给所述第二终端，包括：

在所述目标语义是将所述一个或多个语义拼接成的语义时，将所述目标语义中包括的每个所述语义与所述一组视频帧中对应的视频帧同步发送给所述第二终端；或者，

在所述目标语义是由包括与所述一组视频帧对应的数据流表示、且所述数据流为文字流和音频流时，将所述文字流与所述一组视频帧中对应的视频帧进行同步合成，得到目标视频流；将所述目标视频流与所述音频流同步发送给所述第二终端。

7.根据权利要求1所述的方法，其特征在于，

所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；

所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述第一目标数据通道上传输的所述第一请求；

所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；

在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第一组视频帧和对应的第一组音频帧，以及在所述第一组视频帧中识别出的第一组手势；

在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对所述第一组视频帧形成的第一视频流、所述第一组音频帧形成的第一音频流以及用于表示所述目标语义的第一数据流进行同步处理，得到同步的所述第一视频流、所述第一音频流和所述第一数据流；

所述将所述目标语义发送给所述第二终端，包括：将同步的所述第一视频流、所述第一音频流和所述第一数据流发送给所述第二终端，其中，所述同步的所述第一数据流在所述第二目标数据通道上发送。

8.根据权利要求1所述的方法，其特征在于，

所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；

所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第一终端在所述目标数据通道上传输的所述第一请求；

所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务、合成服务和所述手势识别服务，所述混合媒体服务用于对所述视频通话中的视频流、音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务、所述合成服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务、所述合成服务和所述手势识别服务；

在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第二组视频帧和对应的第二组音频帧，以及在所述第二组视频帧中识别出的第二组手势；

在得到所述目标语义之后，所述方法还包括：通过所述合成服务，将用于表示所述目标语义的第一文字流与所述第二组视频帧形成的视频流进行合成处理，得到第二视频流，通过所述混合媒体服务，将用于表示所述目标语义的数据流中包括的第二音频流与所述第二视频流进行同步处理，得到同步的所述第二视频流和所述第二音频流,其中,所述数据流包括所述第一文字流；

所述将所述目标语义发送给所述第二终端，包括：将同步的所述第二视频流、所述第二音频流发送给所述第二终端。

9.根据权利要求1所述的方法，其特征在于，

所述方法还包括：在所述第一终端和所述第二终端进行所述视频通话、且所述第一终端不支持使用目标数据通道和所述第二终端支持使用所述目标数据通道的情况下，获取所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第二终端与媒体服务器之间的数据通道；

所述获取所述第一终端或所述第二终端发送的第一请求，包括：获取所述第二终端在所述目标数据通道上传输的所述第一请求；

在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述视频通话中，获取所述第一终端采集到的第三组视频帧和对应的第三组音频帧，以及在所述第三组视频帧中识别出的第三组手势；

在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对所述第三组视频帧形成的第三视频流、所述第三组音频帧形成的第三音频流以及用于表示所述目标语义的第三数据流进行同步处理，得到同步的所述第三视频流、所述第三音频流和所述第三数据流；

所述将所述目标语义发送给所述第二终端，包括：将同步的所述第三视频流、所述第三音频流和所述第三数据流发送给所述第二终端，其中，所述同步的所述第三数据流在所述目标数据通道上发送。

10.根据权利要求1所述的方法，其特征在于，

所述方法还包括：在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端和所述第二终端均支持使用目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道包括第一目标数据通道和第二目标数据通道，所述第一目标数据通道是所述第一终端与媒体服务器之间的数据通道，所述第二目标数据通道是所述第二终端与所述媒体服务器之间的数据通道；

所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建混合媒体服务和所述手势识别服务，所述混合媒体服务用于对所述音频通话中的音频流和数据流进行处理，所述数据流是表示所述目标语义的数据流；通过所述媒体服务器创建所述混合媒体服务和所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述混合媒体服务和所述手势识别服务；

在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述音频通话中，获取所述第一终端采集到的第四组视频帧和对应的第四组音频帧，以及在所述第四组视频帧中识别出的第四组手势；

在得到所述目标语义之后，所述方法还包括：通过所述混合媒体服务，对用于表示所述目标语义的第二文字流和所述第四组音频帧形成的第四组音频流进行同步处理，得到同步的所述第二文字流和第四音频流，其中,所述数据流包括所述第二文字流；

所述将所述目标语义发送给所述第二终端，包括：将同步的所述第二文字流和所述第四音频流发送给所述第二终端，其中，所述同步的所述第二文字流在所述第二目标数据通道上发送。

11.根据权利要求1所述的方法，其特征在于，

所述方法还包括：在所述第一终端和所述第二终端进行所述音频通话、且所述第一终端支持使用目标数据通道和所述第二终端不支持使用所述目标数据通道的情况下，获取所述第一终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道是所述第一终端与媒体服务器之间的数据通道；

所述响应于所述第一请求，创建所述手势识别服务，包括：响应于所述第一请求，通过服务控制节点向所述媒体服务器发送目标指令，其中，所述目标指令用于请求创建所述手势识别服务；通过所述媒体服务器创建所述手势识别服务，或者，通过所述媒体服务器指示第三方服务组件创建所述手势识别服务；

在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势，包括：在所述音频通话中，获取所述第一终端采集到的第五组视频帧和对应的第五组音频帧，以及在所述第五组视频帧中识别出的第五组手势；

所述将所述目标语义发送给所述第二终端，包括：将用于表示所述目标语义的第五音频流发送给所述第二终端。

12.一种手势通信装置，其特征在于，包括：

第一获取模块，用于在第一终端和第二终端进行视频通话或音频通话时，获取所述第一终端或所述第二终端发送的第一请求，其中，所述第一请求用于请求创建手势识别服务，其中，所述手势识别服务用于对所述第一终端采集到的视频帧中识别出的手势进行语义识别；

第一创建模块，用于响应于所述第一请求，创建所述手势识别服务；

第二获取模块，用于在所述视频通话或音频通话中，获取所述第一终端采集的一组视频帧中识别出的一组手势；

识别模块，用于通过所述手势识别服务，对所述第一终端采集的一组视频帧中识别出的一组手势进行语义识别，得到所述一组手势所表示的目标语义；

第一发送模块，用于将所述目标语义发送给所述第二终端；

所述装置还用于：获取所述第一终端或所述第二终端发送的第二请求，其中，所述第二请求用于请求创建目标数据通道；响应于所述第二请求，创建所述目标数据通道，其中，所述目标数据通道为所述第一终端或所述第二终端允许使用的通道；

所述第一获取模块通过如下方式获取所述第一请求：

获取所述第一终端或所述第二终端在所述目标数据通道上传输的所述第一请求；

其中，所述装置还用于：在所述第一终端支持使用所述目标数据通道的情况下，将所述第二终端的语音帧转换成手势流和/或目标文字流并通过所述目标数据通道发送给所述第一终端。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序被处理器执行时实现上述权利要求1至11中任一项所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11中任一项所述的方法。