CN116866504A

CN116866504A - 一种通信方法、装置及系统

Info

Publication number: CN116866504A
Application number: CN202210317245.1A
Authority: CN
Inventors: 冯军辉; 庄乃峰; 张春河; 王坤; 徐长月
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2023-10-10
Also published as: WO2023185650A1

Abstract

提供一种通信方法、装置及系统，涉及通信技术领域，能够节省通话过程中进行人脸识别占用的带宽资源和终端的端口资源。该方法包括：建立用于视频通话业务中的通话终端与对端通话终端传输通话视频流的视频通话媒体传输通道，通话视频流包含通话终端或对端通话终端拍摄的视频内容；从媒体服务器接收包括人脸识别请求标识的SIP消息，该人脸识别请求标识用于请求对通话终端对应的用户进行人脸识别；并向媒体服务器发送SIP消息的响应消息，该SIP消息的响应消息指示通话终端对应的用户同意进行人脸识别；然后通过视频通话媒体传输通道向媒体服务器发送人脸视频流，该人脸视频流包括通话终端对应的用户的人脸图像；进而从媒体服务器接收人脸识别结果。

Description

一种通信方法、装置及系统

技术领域

本申请实施例涉及通信技术领域，尤其涉及一种通信方法、装置及系统。

背景技术

基于运营商网络，在用户通过终端与客户服务中心进行语音/视频通话的过程中，对用户进行人脸识别实现线上的用户身份认证，能够为用户提供安全、便捷的服务。

目前，线上对用户进行人脸识别时，需在该用户持有的终端(简称为用户终端)上安装用于人脸识别的应用(application，APP)，该APP是客户服务中心指定的用于对用户进行人脸识别的APP，然后，用户终端采集用户的人脸图像并上传至该APP，由该APP完成人脸识别或者APP将人脸图像发送至识别服务器后由识别服务器完成人脸识别。

上述人脸识别的方法中，需在用户终端上安装APP并进行复杂的操作，对人员的技能要求较高；并且需要建立用户终端与APP之间专用于传输人脸图像的传输通道。若在通话过程中进行人脸识别，建立该专用于传输人脸图像的传输通道需要占用额外的带宽资源，基于该传输通道传输人脸图像也需要占用用户终端额外的端口资源。

发明内容

本申请实施例提供一种通信方法、装置及系统，能够节省通话过程中进行人脸识别占用的带宽资源和终端的端口资源。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供一种通信方法，该方法由通话终端执行，该方法包括：建立视频通话媒体传输通道，所述视频通话媒体传输通道用于视频通话业务中的所述通话终端与对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；然后从媒体服务器接收SIP消息，所述SIP消息中包括人脸识别请求标识，所述人脸识别请求标识用于请求对所述通话终端对应的用户进行人脸识别；并且向所述媒体服务器发送所述SIP消息的响应消息，所述SIP消息的响应消息指示所述通话终端对应的用户同意进行人脸识别；进而通过所述视频通话媒体传输通道向所述媒体服务器发送人脸视频流，所述人脸视频流包括所述通话终端对应的用户的人脸图像；再从所述媒体服务器接收人脸识别结果。

本申请实施例提供的通信方法，当在通话过程中需进行人脸识别时，通话终端可以通过原本用于传输通话视频流的视频通话媒体传输通道来传输人脸视频流，如此，无需花费额外的带宽资源建立专用于传输人脸视频流的传输通道，并且无需占用通话终端额外的端口资源。

进一步的，与现有的通信方法相比，本申请实施例提供的技术方案中，无需在终端上安装人脸识别APP，如此，也无需操作人员进行复杂的相关操作，不要求操作人员具有较高的操作技能，而且也无需终端通话。

一种可能的实现方式中，所述人脸视频流是通过所述通话终端的摄像装置拍摄获得的视频流；或者，所述人脸视频流是从所述通话终端的存储装置获得的视频流。

一种可能的实现方式中，本申请实施例提供的通信方法还包括：从所述媒体服务器接收来源指示信息，所述来源指示信息指示所述通话终端通过所述通话终端的摄像装置获取人脸视频流或者从所述通话终端的存储装置获取人脸视频流。

一种可能的实现方式中，所述人脸视频流是从所述通话终端的存储装置获得的视频流，在通过所述视频通话媒体传输通道向所述媒体服务器发送所述人脸视频流之前，本申请实施例提供的通信方法还包括：从所述媒体服务器接收传输通道指示信息，所述传输通道指示信息指示所述通话终端通过所述视频通话媒体传输通道传输所述人脸视频流。该传输通道指示信息可以携带在SIP消息中，上述媒体服务器可以通过显式指示的方法(即发送传输通道指示信息)指示通过视频通话媒体传输通道传输人脸视频流，在有些情况下，媒体服务器也可以通过隐式指示的方法指示通过视频通话媒体传输通道传输人脸视频流，例如在SIP消息中携带媒体服务器的SDP信息，在该SIP消息的响应消息中携带通话终端的SDP信息，以协商(或指示)使用基于这一对SDP信息(媒体服务器的SDP信息和通话终端的SDP)建立的视频通话媒体传输通道传输人脸视频流，应理解，该视频通话媒体传输通道原本是用于传输通话视频流的。

一种可能的实现方式中，在通过所述视频通话媒体传输通道向媒体服务器发送人脸视频流之前，所述方法还包括：停止通过所述视频通话媒体传输通道传输所述通话视频流，如此，可以通过该视频通话媒体传输通道传输从该通话终端的存储装置中获取的人脸视频流。

需要说明的是，当通话终端传输的人脸视频流通过通话终端的摄像装置拍摄获得的视频流时，上述视频通话媒体传输通道实际上并未停止传输通话视频流，即人脸视频流即为通话视频流，不同的是，通话视频流的内容可能从其他视频内容变为包括人脸图像的视频内容。

一种可能的实现方式中，本申请实施例提供的方法还包括：从所述媒体服务器接收姿态指示信息，所述姿态指示信息指示所述通话终端对应的用户调整所述用户的姿态，以使得所述人脸图像满足预设条件。

本申请实施例中，当人脸视频流是通过通话终端的摄像装置拍摄获得的视频流时，通话终端实时地捕获用户的人脸图像，并将人脸图像传输至媒体服务器，可以理解的，当通话终端的摄像装置捕获人脸图像时，受用户头部姿态的影响，捕获的人脸图像可能不能满足预设条件，该预设条件可以包括但不限于用户头部的位置、角度等在一定的范围内(例如人脸应位于预置的检测框内且应使得用户的脸部的正面面对摄像装置)，如此，会导致人脸识别无法执行或者导致人脸识别结果不准确。基于此，媒体服务器在接收到通话终端发送的人脸视频流之后，确定人脸视频流中的人脸图像不满足预设条件时，媒体服务器可以向通话终端发送姿态指示信息(相应的，通话终端从媒体服务器接收该姿态指示信息)，该态指示信息指示通话终端对应的用户调整用户的姿态，以使得人脸图像满足预设条件，例如，当用户的脸部未全部位于预设的检测框内时，该姿态指示信息是提示用户将脸部全部置于检测框内的信息，或者，当用户的脸部的角度不合适时，该姿态指示信息是提示用户将脸部向某个方向转动的信息(例如提示用户将头部向右转)。

一种可能的实现方式中，人脸识别结果可以包括表示人脸识别成功的信息或表示人脸识别失败的信息。可选地，当人脸视频流中提取的人脸图像与该注册在运营商系统中的人脸图像一致的情况下，人脸识别结果中还可以包括通话终端对应的注册用户的标识信息，例如该注册用户的标识信息包括但不限于用户的姓名、证件等身份信息。

一种可能的实现方式中，上述人脸识别请求标识可以携带在SIP消息的头域，或者，在SIP消息中包括媒体服务器的SDP信息的情况下，上述人脸识别请求标识也可以携带在媒体服务器的SDP信息中。

第二方面，本申请实施例提供一种通信方法，该方法由通话终端执行，该方法包括：建立视频通话媒体传输通道，所述视频通话媒体传输通道用于视频通话业务中的所述通话终端与对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；然后向所述媒体服务器发送人脸识别申请，所述人脸识别申请包括人脸识别申请标识，所述人脸识别申请标识用于申请对与所述通话终端通话的对端通话终端对应的用户进行人脸识别；并通过所述视频通话媒体传输通道从所述媒体服务器接收人脸识别结果，所述人脸识别结果是基于所述人脸视频流对所述对端通话终端对应的用户进行人脸识别的结果；再基于所述人脸识别结果，处理所述对端通话终端的业务请求。

本申请实施例提供的通信方法，当在通话过程中需进行人脸识别时，媒体服务器获得对对端通话终端对应的用户进行人脸识别的人脸识别结果之后，媒体服务器可以通过原本用于传输通话视频流的视频通话媒体传输通道来传输人脸识别结果，如此，无需花费额外的带宽资源建立专用于传输人脸识别结果的传输通道，并且无需占用通话终端额外的端口资源。

一种可能的实现方式中，所述人脸视频流是通过所述对端通话终端的摄像装置拍摄获得的视频流；或者，所述人脸视频流是从所述对端通话终端的存储装置获得的视频流。

一种可能的实现方式中，在通过所述视频通话媒体传输通道从所述媒体服务器接收人脸识别结果之前，本申请实施例提供的通信方法还包括：从所述媒体服务器接收传输通道指示信息，所述传输通道指示信息指示所述通话终端通过所述视频通话媒体传输通道接收所述人脸识别结果。与上述第一方面类似，该传输通道指示信息可以携带在SIP消息中，上述媒体服务器可以通过显式指示的方法(即发送传输通道指示信息)指示通过视频通话媒体传输通道传输人脸识别结果，在有些情况下，媒体服务器也可以通过隐式指示的方法指示通过视频通话媒体传输通道传输人脸识别结果。

一种可能的实现方式中，在通过所述视频通话媒体传输通道从所述媒体服务器接收人脸识别结果之前，本申请实施例提供的通信方法还包括：停止通过所述视频通话媒体传输通道传输所述通话视频流，如此，可以通过该视频通话媒体传输通道传输人脸识别结果。

一种可能的实现方式中，所述人脸识别结果包括表示人脸识别成功的信息或表示人脸识别失败的信息，所述基于所述人脸识别结果，处理所述对端通话终端的业务请求，包括：在所述人脸识别结果包括所述表示人脸识别成功的信息的情况下，处理所述对端通话终端的业务请求，如此，可以保证安全地处理用户的业务。

第三方面，本申请实施例提供一种通信方法，该方法由媒体服务器执行，该方法包括：建立第一视频通话媒体传输通道和第二视频通话媒体传输通道，所述第一视频通话媒体传输通道为通话终端与所述媒体服务器之间的视频通话媒体传输通道，所述第二视频通话媒体传输通道为所述媒体服务器与对端通话终端之间的视频通话媒体传输通道；所述第一视频通话媒体传输通道和所述第二视频通话媒体传输通道用于视频通话业务中的所述通话终端与所述对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；然后从所述对端通话终端接收人脸识别申请，所述人脸识别申请包括人脸识别申请标识，所述人脸识别申请标识用于申请对与所述对端通话终端通话的通话终端对应的用户进行人脸识别；并且通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流，所述人脸视频流包括所述通话终端对应的用户的人脸图像；进而获取人脸识别结果，所述人脸识别结果是基于所述人脸视频流对所述通话终端对应的用户进行人脸识别的结果；再通过所述第二视频通话媒体传输通道向所述对端通话终端发送所述人脸识别结果，以触发所述对端通话终端基于所述人脸识别结果处理所述通话终端的业务请求。

本申请实施例提供的通信方法，当在通话过程中需进行人脸识别时，媒体服务器可以通过原本用于传输通话视频流的视频通话媒体传输通道来接收人脸视频流和发送人脸识别结果，如此，无需花费额外的带宽资源建立专用于传输人脸视频流的传输通道，并且无需占用通话终端额外的端口资源。

一种可能的实现方式中，在从所述对端通话终端接收人脸识别申请之后，本申请实施例提供的通信方法还包括：向所述通话终端发送会话发起协议SIP消息，所述SIP消息中包括人脸识别请求标识，所述人脸识别请求标识用于请求对所述通话终端对应的用户进行人脸识别；并且从所述通话终端接收所述SIP消息的响应消息，所述SIP消息的响应消息指示所述通话终端对应的用户同意进行人脸识别。

本申请实施例中，上述人脸识别请求标识可以携带在SIP消息的头域，或者，在SIP消息中包括媒体服务器的SDP信息的情况下，上述人脸识别请求标识也可以携带在媒体服务器的SDP信息中。

一种可能的实现方式中，本申请实施例提供的通信方法还包括：向所述通话终端发送来源指示信息，所述来源指示信息指示所述通话终端通过所述通话终端的摄像装置获取人脸视频流或者从所述通话终端的存储装置获取人脸视频流。

一种可能的实现方式中，所述人脸视频流是从所述通话终端的存储装置获得的视频流，在通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流之前，本申请实施例提供的通信方法还包括：向所述通话终端发送第一传输通道指示信息，所述第一传输通道指示信息指示所述通话终端通过所述第一视频通话媒体传输通道传输所述人脸视频流。

一种可能的实现方式中，在通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流之前，本申请实施例提供的通信方法还包括：停止通过所述第一视频通话媒体传输通道传输所述通话视频流。

一种可能的实现方式中，在通过所述第二视频通话媒体传输通道向所述对端通话终端发送所述人脸识别结果之前，本申请实施例提供的通信方法还包括：向所述对端通话终端发送第二传输通道指示信息，所述第二传输通道指示信息指示所述对端通话终端通过所述第二视频通话媒体传输通道接收所述人脸识别结果。

一种可能的实现方式中，在通过所述第二视频通话媒体传输通道向所述对端通话终端发送所述人脸识别结果之前，本申请实施例提供的通信方法还包括：停止通过所述第二视频通话媒体传输通道传输所述通话视频流。

一种可能的实现方式中，在获取人脸识别结果之后，本申请实施例提供的通信方法还包括：向所述通话终端发送所述人脸识别结果。

本申请实施例中，人脸识别结果是基于人脸视频流对通话终端对应的用户进行人脸识别的结果，该人脸识别结果可以包括表示人脸识别成功的信息或表示人脸识别失败的信息。可选地，当人脸视频流中提取的人脸图像与该注册在运营商系统中的人脸图像一致的情况下，人脸识别结果中还可以包括通话终端对应的注册用户的标识信息，例如该注册用户的标识信息包括但不限于用户的姓名、证件等身份信息。

一种可能的实现方式中，本申请实施例提供的通信方法还包括：向所述通话终端发送姿态指示信息，所述姿态指示信息指示所述通话终端对应的用户调整所述用户的姿态，以使得所述人脸图像满足预设条件。

一种可能的实现方式中，在通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流之后，本申请实施例提供的通信方法还包括：从所述人脸视频流中提取目标人脸图像；并向人脸识别服务器发送所述目标人脸图像，以触发所述人脸识别服务器根据所述目标人脸图像对所述通话终端对应的用户进行人脸识别。基于此，上述获取人脸识别结果，包括：从所述人脸识别服务器接收所述人脸识别结果。本申请实施例中，若媒体服务器不具备人脸识别的功能，人脸识别的过程由专用于人脸识别的人脸识别服务器执行。可以理解的，该人脸识别服务器是运营商系统的服务器，人脸识别服务器维护有在运营商系统中注册的用户的人脸图像以及其他相关信息。

可选地，媒体服务器也可以具备人脸识别的功能，该媒体服务器维护有在运营商系统中注册的用户的人脸图像以及其他相关信息，此时，媒体服务器从人脸视频流中提取目标人脸图像；并根据该目标人脸图像对通话终端对应的用户进行人脸识别，得到人脸识别结果。

第三方面的相关内容和技术效果可以参考第一方面和第二方面及其可能的实现方式中任意之一所述的内容和技术效果。

第四方面，本申请实施例提供一种通话终端，包括处理模块、接收模块以及发送模块。其中，处理模块用于建立视频通话媒体传输通道，所述视频通话媒体传输通道用于视频通话业务中的所述通话终端与对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；接收模块用于从媒体服务器接收SIP消息，所述SIP消息中包括人脸识别请求标识，所述人脸识别请求标识用于请求对所述通话终端对应的用户进行人脸识别；发送模块用于向所述媒体服务器发送所述SIP消息的响应消息，所述SIP消息的响应消息指示所述通话终端对应的用户同意进行人脸识别；发送模块还用于通过所述视频通话媒体传输通道向所述媒体服务器发送人脸视频流，所述人脸视频流包括所述通话终端对应的用户的人脸图像；接收模块还用于从所述媒体服务器接收人脸识别结果。

一种可能的实现方式中，上述接收模块还用于从所述媒体服务器接收来源指示信息，所述来源指示信息指示所述通话终端通过所述通话终端的摄像装置获取人脸视频流或者从所述通话终端的存储装置获取人脸视频流。

一种可能的实现方式中，所述人脸视频流是从所述通话终端的存储装置获得的视频流，上述接收模块还用于从所述媒体服务器接收传输通道指示信息，所述传输通道指示信息指示所述通话终端通过所述视频通话媒体传输通道传输所述人脸视频流。

一种可能的实现方式中，上述处理模块还用于控制上述接收模块或发送模块停止通过所述视频通话媒体传输通道传输所述通话视频流。

一种可能的实现方式中，上述接收模块还用于从所述媒体服务器接收姿态指示信息，所述姿态指示信息指示所述通话终端对应的用户调整所述用户的姿态，以使得所述人脸图像满足预设条件。

第五方面，本申请实施例提供一种通话终端，包括处理模块、发送模块以及接收模块。其中，处理模块用于建立视频通话媒体传输通道，所述视频通话媒体传输通道用于视频通话业务中的所述通话终端与对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；发送模块用于向所述媒体服务器发送人脸识别申请，所述人脸识别申请包括人脸识别申请标识，所述人脸识别申请标识用于申请对与所述通话终端通话的对端通话终端对应的用户进行人脸识别；接收模块用于通过所述视频通话媒体传输通道从所述媒体服务器接收人脸识别结果，所述人脸识别结果是基于所述人脸视频流对所述对端通话终端对应的用户进行人脸识别的结果；处理模块还用于基于所述人脸识别结果，处理所述对端通话终端的业务请求。

一种可能的实现方式中，上述接收模块还用于从所述媒体服务器接收传输通道指示信息，所述传输通道指示信息指示所述通话终端通过所述视频通话媒体传输通道接收所述人脸识别结果。

一种可能的实现方式中，上述处理模块还用于控制所述发送模块或接收模块停止通过所述视频通话媒体传输通道传输所述通话视频流。

一种可能的实现方式中，所述人脸识别结果包括表示人脸识别成功的信息或表示人脸识别失败的信息，所述处理模块还用于在所述人脸识别结果包括所述表示人脸识别成功的信息的情况下，处理所述对端通话终端的业务请求。

第六方面，本申请实施例提供一种媒体服务器，包括：处理模块、接收模块、获取模块以及发送模块。其中，处理模块用于建立第一视频通话媒体传输通道和第二视频通话媒体传输通道，所述第一视频通话媒体传输通道为通话终端与所述媒体服务器之间的视频通话媒体传输通道，所述第二视频通话媒体传输通道为所述媒体服务器与对端通话终端之间的视频通话媒体传输通道；所述第一视频通话媒体传输通道和所述第二视频通话媒体传输通道用于视频通话业务中的所述通话终端与所述对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；接收模块用于从所述对端通话终端接收人脸识别申请，所述人脸识别申请包括人脸识别申请标识，所述人脸识别申请标识用于申请对与所述对端通话终端通话的通话终端对应的用户进行人脸识别；并且通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流，所述人脸视频流包括所述通话终端对应的用户的人脸图像；获取模块用于获取人脸识别结果，所述人脸识别结果是基于所述人脸视频流对所述通话终端对应的用户进行人脸识别的结果；发送模块用于通过所述第二视频通话媒体传输通道向所述对端通话终端发送所述人脸识别结果，以触发所述对端通话终端基于所述人脸识别结果处理所述通话终端的业务请求。

一种可能的实现方式中，所述发送模块还用于向所述通话终端发送会话发起协议SIP消息，所述SIP消息中包括人脸识别请求标识，所述人脸识别请求标识用于请求对所述通话终端对应的用户进行人脸识别；接收模块还用于从所述通话终端接收所述SIP消息的响应消息，所述SIP消息的响应消息指示所述通话终端对应的用户同意进行人脸识别。

一种可能的实现方式中，所述发送模块还用于向所述通话终端发送来源指示信息，所述来源指示信息指示所述通话终端通过所述通话终端的摄像装置获取人脸视频流或者从所述通话终端的存储装置获取人脸视频流。

一种可能的实现方式中，所述人脸视频流是从所述通话终端的存储装置获得的视频流，所述发送模块还用于向所述通话终端发送第一传输通道指示信息，所述第一传输通道指示信息指示所述通话终端通过所述第一视频通话媒体传输通道传输所述人脸视频流。

一种可能的实现方式中，所述处理模块还用于控制所述发送模块或接收模块停止通过所述第一视频通话媒体传输通道传输所述通话视频流。

一种可能的实现方式中，所述发送模块还用于向所述对端通话终端发送第二传输通道指示信息，所述第二传输通道指示信息指示所述对端通话终端通过所述第二视频通话媒体传输通道接收所述人脸识别结果。

一种可能的实现方式中，所述处理模块还用于控制所述发送模块或接收模块停止通过所述第二视频通话媒体传输通道传输所述通话视频流。

一种可能的实现方式中，所述发送模块还用于向所述通话终端发送所述人脸识别结果。

一种可能的实现方式中，所述发送模块还用于向所述通话终端发送姿态指示信息，所述姿态指示信息指示所述通话终端对应的用户调整所述用户的姿态，以使得所述人脸图像满足预设条件。

一种可能的实现方式中，所述处理模块还用于从所述人脸视频流中提取目标人脸图像；发送模块还用于并向人脸识别服务器发送所述目标人脸图像，以触发所述人脸识别服务器根据所述目标人脸图像对所述通话终端对应的用户进行人脸识别；上述获取模块具体用于从所述人脸识别服务器接收所述人脸识别结果。

第七方面，本申请实施例提供一种通话终端，包括存储器和与存储器连接的至少一个处理器，存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，当计算机指令被至少一个处理器执行时，使得通话终端执行第一方面及其可能的实现方式中任意之一所述的方法。

第八方面，本申请实施例提供一种通话终端，包括存储器和与存储器连接的至少一个处理器，存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，当计算机指令被至少一个处理器执行时，使得通话终端执行第二方面及其可能的实现方式中任意之一所述的方法。

第九方面，本申请实施例提供一种媒体服务器，包括存储器和与存储器连接的至少一个处理器，存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，当计算机指令被至少一个处理器执行时，使得媒体服务器执行第三方面及其可能的实现方式中任意之一所述的方法。

第十方面，本申请实施例提供一种计算机可读存储介质，包括计算机指令，当计算机指令在通话终端上运行时，使得通话终端执行第一方面及其可能的实现方式中任意之一所述的方法。

第十一方面，本申请实施例提供一种计算机可读存储介质，包括计算机指令，当计算机指令在通话终端上运行时，使得通话终端执行第二方面及其可能的实现方式中任意之一所述的方法。

第十二方面，本申请实施例提供一种计算机可读存储介质，包括计算机指令，当计算机指令在媒体服务器上运行时，使得媒体服务器执行第三方面及其可能的实现方式中任意之一所述的方法。

第十三方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，执行第一方面及其可能的实现方式中任意之一所述方法。

第十四方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，执行第二方面及其可能的实现方式中任意之一所述方法。

第十五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，执行第三方面及其可能的实现方式中任意之一所述方法。

第十六方面，本申请实施例提供一种芯片，包括存储器和处理器。存储器用于存储计算机指令。处理器用于从存储器中调用并运行该计算机指令，以使得通话终端执行第一方面及其可能的实现方式中任意之一所述的方法。

第十七方面，本申请实施例提供一种芯片，包括存储器和处理器。存储器用于存储计算机指令。处理器用于从存储器中调用并运行该计算机指令，以使得通话终端执行第二方面及其可能的实现方式中任意之一所述的方法。

第十八方面，本申请实施例提供一种芯片，包括存储器和处理器。存储器用于存储计算机指令。处理器用于从存储器中调用并运行该计算机指令，以使得媒体服务器执行第三方面及其可能的实现方式中任意之一所述的方法。

第十九方面，本申请实施例提供一种通信系统，包括通话终端、对端通话终端以及媒体服务器。其中，通话终端执行第一方面及其可能的实现方式中任意之一所述的方法，对端通话终端执行第二方面及其可能的实现方式中任意之一所述的方法，媒体服务器执行第三方面及其可能的实现方式中任意之一所述的方法。

应当理解的是，上述第四方面至第十九方面技术方案及对应的可能的实施方式所取得的有益效果可以参见上述对第一方面至第三方面及其对应的可能的实施方式的技术效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种人工客服的服务场景中的通信系统的架构示意图；

图2为本申请实施例提供的一种语音通话的流程示意图；

图3为本申请实施例提供的一种视频通话的流程示意图；

图4A为本申请实施例提供的一种手机的硬件示意图；

图4B为本申请实施例提供的一种手机的系统架构示意图；

图5为本申请实施例提供的一种服务器的硬件示意图；

图6为本申请实施例提供的一种通信方法示意图之一；

图7为本申请实施例提供的一种通信方法示意图之二；

图8为本申请实施例提供的一种通话终端的结构示意图；

图9为本申请实施例提供的另一种通话终端的结构示意图；

图10为本申请实施例提供的一种通话终端的结构示意图；

图11为本申请实施例提供的另一种通话终端的结构示意图；

图12为本申请实施例提供的一种媒体服务器的结构示意图；

图13为本申请实施例提供的另一种媒体服务器的结构示意图。

具体实施方式

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一视频通话媒体传输通道和第二视频通话媒体传输通道等是用于区别不同的视频通话媒体传输通道，而不是用于描述视频通话媒体传输通道的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

现阶段，基于移动网络，通过终端可以实现用户之间的语音通话或视频通话，以语音通话为例，用户1可以通过该用户1持有的终端1拨打用户2持有的终端2的号码(例如电话号码)，用户2通过终端2应答之后，用户1持有的终端1与用户2持有的终端2可以建立通话连接，从而用户1和用户2可以进行语音通话，例如，终端1采集用户1的语音，并将采集的语音发送至终端2，终端2采集用户2的语音，并将采集的语音发送至终端1。

可以理解的，终端之间进行通话的场景中，可以将其中的一个终端称为通话终端，与该通话终端通话的对端称为对端通话终端，例如上述的终端1为通话终端，则终端2为对端通话终端。

下面以两个通话终端(即一个通话终端和一个对端通话终端)为例，分别对通话终端与对端通话终端进行语音通话和视频通话过程中媒体流的传输原理进行简要介绍。

当通话终端与对端通话终端进行语音通话时，通话终端和对端通话终端之间传输的媒体流是语音流，在通话终端与对端通话终端建立语音通话媒体传输通道(也可以简称为语音流传输通道)之后，通话终端和对端通话终端可以基于语音流传输通道传输语音流。例如，通话终端将该通话终端的麦克风采集的与其对应的用户的语音流通过语音流传输通道发送至对端通话终端，对端通话终端将该对端通话终端的麦克风采集的与其对应的对端用户的语音流通过语音流传输通道发送至通话终端。

当通话终端与对端通话终端进行视频通话时，通话终端和对端通话终端之间传输的媒体流包括语音流和视频流，并且语音流与视频流的传输通道不同。具体的，在建立语音通话媒体传输通道(即语音流传输通道)和视频通话媒体传输通道(可以简称为视频流传输通道)之后，通话终端和对端通话终端可以基于语音流传输通道传输语音流，通话终端和对端通话终端可以基于视频流传输通道传输视频流。例如，通话终端将该通话终端的麦克风采集的与其对应的用户的语音流通过语音流传输通道发送至对端通话终端，对端通话终端将该对端通话终端的麦克风采集的与其对应的对端用户的语音流通过语音流传输通道发送至通话终端；通话终端将该通话终端的摄像头采集的与其对应的用户的视频流通过视频流传输通道发送至对端通话终端，对端通话终端将该对端通话终端的摄像头采集的与其对应的对端用户的视频流通过视频流传输通道发送至通话终端。

随着通信的技术的发展，为保证用户业务的安全性，在用户办理业务的过程中对用户进行身份认证非常必要，对用户进行身份认证的方法包括密码认证、指纹认证、人脸识别认证等等，其中，人脸识别作为验证用户身份的一种重要手段，越来越受欢迎。例如，用户线下办理某业务(例如银行业务)时，业务受理方的人脸信息采集设备采集该用户的人脸图像，根据该人脸图像对该用户的身份进行验证，用户身份验证成功之后，用户可以继续办理业务；又例如，用户自行通过安装在该用户持有的电子设备上的应用(application，APP)线上办理某业务(例如通过理财APP办理业务)时，该APP调用电子设备的摄像头采集用户的人脸图像，从而根据人脸图像对用户的身份进行验证，用户身份验证成功之后，用户可以继续线上办理业务。

在两个用户进行语音通话或者视频通话的场景中，若一个用户需要对另一个用户进行人脸识别以验证用户身份，例如持有上述对端通话终端的用户对持有上述通话终端的用户进行人脸识别，一种实现方式是：对端通话终端和通话终端上均需要安装用于人脸识别的应用(APP)，通话终端上的人脸识别APP与对端通话终端上的人脸识别APP之间建立通信连接；在人脸识别过程中，通话终端将采集的人脸视频流(包括一帧或多帧人脸图像)上传至该通话终端上的人脸识别APP，在人脸识别APP中，基于人脸视频流执行人脸检测、人脸特征提取、人脸特征比对(或者人脸识别APP与后端识别服务器交互实现人脸检测、人脸特征提取、人脸特征对比)等处理得到人脸识别结果(识别结果可以包括表示人脸识别成功的信息或表示人脸识别失败的信息)，然后对端通话终端基于该对端通话终端上的APP与通话终端上的APP建立的通信连接，从通话终端的人脸识别APP获取人脸识别结果。

上述两个用户进行语音通话或视频通话的过程中进行人脸识别时，需要建立通话终端与人脸识别APP之间的专用于传输人脸视频流的传输通道，该传输通道不同于上述的语音流传输通道和视频流传输通道。

应理解，若在通话终端与对端通话终端通话的过程中，通话终端与对端通话终端之间进行人脸识别，则需要花费额外的带宽资源建立用于传输人脸视频流的传输通道，并且通话终端或对端通话终端上也需要使用额外的端口发送人脸视频流，或者通过该端口接收人脸识别结果。例如，在通话终端与对端通话终端进行语音通话的过程中对通话终端对应的用户进行人脸识别，通话终端和对端通话终端之间基于语音流传输通道传输语音流，通话终端和人脸识别APP之间基于建立专用于传输人脸视频流的传输通道传输人脸频流。又例如，在通话终端与对端通话终端进行视频通话的过程中对通话终端对应的用户进行人脸识别，通话终端和对端通话终端之间基于视频流传输通道传输摄像头采集的视频流，通话终端和人脸识别APP之间基于建立的专用于传输人脸视频流的传输通道传输人脸视频流。综上可知，建立专用于传输人脸视频流的传输通道需要占用额外的带宽资源，并且这种人脸识别的方法需要占用终端额外的端口资源。

另外，在通话终端与对端通话终端首次通话的过程中进行人脸识别时，通话终端上可能没有安装该人脸识别APP，如此，通话终端可能需要与对端通话终端断开通话，安装人脸识别APP，并完成在该人脸识别APP上完成人脸识别之后，再重新呼叫对端通话终端，对端通话终端根据该对端通话终端上的人脸识别APP获得人脸识别结果，并在人脸识别成功的情况下，继续与通话终端通话。也就是说，上述人脸识别的过程中，可能需要先中断通话，再完成人脸识别，操作繁琐，给用户带来不便。

针对现有技术中的建立专用于传输人脸视频流的传输通道需要占用额外的带宽资源，并且需要占用终端额外的端口资源的问题，本申请实施例提供一种通信方法、装置及系统，该通信方法可以应用于终端之间通话的过程中进行人脸识别，具体的，通信系统中的通话终端与媒体服务器之间进行交互建立视频通话媒体传输通道，该视频通话媒体传输通道用于视频通话业务中的通话终端与对端通话终端传输通话视频流，该通话视频流包含通话终端或对端通话终端拍摄的视频内容；之后，在对端通话终端申请人脸识别并且通话终端对应的用户统一进行人脸识别之后，通话终端通过视频通话媒体传输通道向媒体服务器发送人脸视频流，该人脸视频流包含通话终端对应的用户的人脸图像；进而通话终端从媒体服务器接收人脸识别结果。通过本申请实施例提供的技术方案，当通话终端与对端通话终端通话的过程中，通话终端可以通过现有的视频通话媒体传输通道发送该人脸视频流至媒体服务器，无需花费额外的带宽资源建立专用于传输人脸视频流的传输通道，并且无需占用通话终端额外的端口资源。

进一步的，与现有的通信方法相比，本申请实施例提供的技术方案中，无需在终端上安装人脸识别APP，如此，也无需操作人员进行复杂的相关操作，不要求操作人员具有较高的操作技能，而且也无需中断通话。

可选地，本申请实施例提供的通信方法可以应用于视频会议场景、客服场景等等。其中，客服场景是用户与客户服务中心(也可以成为客户服务系统)通话的场景，用户与客户服务中心通话可以解决用户的一些服务需求，例如对于银行、保险、证券、移动通信等客服业务均涉及客服场景。一般情况下，用户可以拨打客户服务中心的电话，然后与客户服务中心建立通话连接，目前，在实际应用中，大部分的客户服务过程是：用户拨打客户服务中心的电话(即发出呼叫)，客户服务中心应答之后，先向用户推送(即播放)一些提示内容(该提示内容是客户服务中心预先存储的)，用户可以根据提示内容选择需要服务的选项，客户服务中心根据用户选择的服务选项，针对性地对用户进行服务(例如针对用户选择的服务选项进行答复，解决用户提出的问题)。另外，用户也可以根据推送的提示内容选择人工服务，这种情况下，将进入人工客服的服务场景。人工客服的服务场景指的是用户与客户服务中心通话过程中，用户与客户服务中心的工作人员通话的场景，即上述用户根据客户服务中心推送的提示内容选择人工服务之后，客户服务中心继续呼叫客户服务中心的工作人员(具体是通过该工作人员持有的终端的号码呼叫该终端)，以下实施例中，客户服务中心可以简称为客服或客服系统，客户服务中心的工作人员可以简称为客服人员。以人工客服的服务场景为例，用户通过该用户持有的通话终端(可以简称为用户通话终端)呼叫客服系统，当该呼叫转到人工服务时，客服人员应答之后，该客服人员持有的通话终端(可以简称为客服通话终端)与用户通话终端通话。

本申请实施例中，在客服通话终端与用户通话终端开始通话之后，客服人员可以申请对该用户进行人脸识别，从而执行本申请实施例提供的通信方法，在人脸识别成功之后，客服人员针对用户向客服人员提出服务需求进行服务。

以上在客服场景中，通过对用户进行人脸识别可以保证某些重要业务的安全性，而且可以通过线上通话的过程完成人脸识别，无需用户去营业厅或与服务人员面对面的线下办理业务，能够高效、便捷地为用户提供服务。

需要说明的是，本申请实施例以客服场景为例对本申请实施例提供的通信方法进行描述的。可以理解的是，在客服场景中，用户通话终端发起通话，客服系统应答并且用户选择人工服务之后，用户所持有的通话终端与客服人员所持有的终端之间进行交互以对用户进行人脸识别。

可选地，在本申请实施例中，用户通话终端发起的通话可以是语音通话，也可以是视频通话。

当用户发起的是语音通话时，客服系统客服应答之后，用户根据媒体服务器推送的音频提示内容选择了人工服务选项，进而客服通话终端发起人脸识别申请，后续地，当用户通话终端对应的用户同意进行人脸识别时，通过媒体资源协商建立用户通话终端与客服通话终端之间的视频流传输通道，以将语音通话转换为视频通话，然后基于视频通话所对应的视频流媒体传输通道传输包含用户人脸图像的人脸视频流。

当用户发起的是视频通话时，客服系统应答之后，用户根据媒体服务器推送的视频提示内容人工服务选项，进而客服通话终端发起人脸识别申请，后续地，当用户通话终端对应的用户同意进行人脸识别时，可以基于该视频通话所对应的视频流传输通道传输包含用户人脸图像的人脸视频流。

客服场景所对应的通信系统可以看作是一个会议控制系统，该通信系统涉及接入网、IP多媒体子系统(即IMS，包括4G/5G核心网和IMS核心网)以及客服平台(也可以称为客服系统)、业务系统等。下面对客服场景中的通信系统的架构进行介绍，如图1所示，该通信系统具体包括：用户通话终端101、接入网设备102、IP多媒体子系统103、客服平台104、业务系统105以及客服通话终端106。其中，IP多媒体子系统103包括核心网(可以是4G核心网和/或5G核心网)和IMS核心网，应理解，4G核心网中包括网关设备(例如S-GW、P-GW)，5G核心网中包括用户面功能(UPF)、移动管理功能(AMF)等，IMS核心网中包括会话边界控制器SBC、代理-呼叫会话控制功能P-CSCF、呼叫会话控制功能I-CSCF、服务呼叫会话控制功能S-CSCF。客服平台104中包括媒体服务器。

SBC：用于提供安全接入和媒体处理。

P-CSCF：是用户通话终端接入IMS核心网的入口节点，主要负责信令和消息的代理。

I-CSCF：是IMS核心网的统一初步入口节点，负责用户注册的S-CSCF的指配和查询。

S-CSCF：是IMS核心网的中心节点，主要用于用户的注册、鉴权控制、会话路由和业务触发控制，并维持会话状态信息。

媒体服务器：本申请实施例中，在传统的客服场景所对应的通信系统中，客服平台104包括控制服务器(也可以成为信令服务器)和媒体服务器，信令服务器的功能主要负责信令的协商和处理，控制用户通话终端、客服通话终端的加入通话或者退出通话，媒体服务器的功能主要负责音频、视频处理和播放，通话会场的申请和释放，音频编解码，视频编解码以及人脸识别处理。在有些实现方式中，媒体服务器和控制服务器的功能可以集成在一个服务器中，本申请实施例中，均以媒体服务器和控制服务器的功能均集成在媒体服务器为例对本申请实施例提供的通信方法进行描述。

业务系统：负责根据主叫(例如用户通话终端)、被叫的号码等判断触发不同的业务流程，不同的业务可以包括但不限于视频通话、视频广告、企视秀等。

结合图1所示的通信系统的架构，在用户通话终端接入接入网，并且通过4G核心网或者5G核心网，以及IMS核心网建立会话的基础上，以语音通话为例，对语音通话的流程进行描述，以便于理解客服场景中语音通话的流程。参考图2，语音通话的流程包括：

S201、用户通话终端通过IMS网元向媒体服务器发送邀请(invite)消息。

具体的，结合图1所示的通信系统的架构示意图，IMS中包括4G/5G核心网的网元(包括网关设备/用户面功能网元)、IMS核心网的SBC/P-CSCF网元、I-CSCF/S-CSCF网元，本申请实施例中，可以将IMS中的这些网元统称为IMS网元。上述用户通话终端通过IMS网元向媒体服务器发送邀请消息具体包括：用户通话终端按照图1所示的架构图依次经4G/5G核心网的网元、SBC/P-CSCF网元、I-CSCF/S-CSCF网元将邀请消息发送至媒体服务器。应注意，IMS网元用于透传用户通话终端与媒体服务器之间的消息，不对消息做处理。

需要说明的是，在以下实施例中，通过IMS网元发送或者接收的消息或者信息均与S201中通过IMS网元传输邀请消息类似，IMS网元均用于透传消息或者信息，在下述实施例中不再进行一一说明。

应理解，用户通过用户通话终端拨打客服的接入码(可以理解为客服系统的电话号码)之后，用户通话终端即执行上述S201。示例性的，该客服可以为某通信运营商的客服或者互联网运营商的客服(例如银行业务对应的客服、保险业务对应的客服等)等等，本申请对客服的类型不做限定。

需要说明的是，本申请实施例中的客服通话终端指的是客服系统中的客服人员对应的通话终端，该客服通话终端属于客服系统中的一部分。可以理解的是，用户通过用户通话终端拨呼叫客服系统，待客服系统应答之后，客服平台中的媒体服务器播放与用户的业务相关的音频提示内容，以提示用户根据实际需求选择相应的服务，在用户选择了人工服务的情况下，客服系统中的媒体服务器继续呼叫客服通话终端，具体结合下述实施例的相关步骤进行理解。

本申请实施例中，用户通话终端是通过会话发起协议(session initiationprotocol，SIP)发送该邀请消息的，也可以理解为该邀请消息是通过SIP消息发送的，该邀请消息中携带有用户通话终端的会话描述协议(session description protocol，SDP)信息，该SDP信息中包括用户通话终端的地址信息、音频端口信息以及音频编解码格式，该SDP信息用于与媒体服务器进行媒体资源协商，以建立用户通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道。本申请实施例中，设备的地址信息可以为设备的IP地址。

S202、媒体服务器向用户通话终端发送振铃消息。

该振铃消息用于指示用户拨打的客服电话正在接通中，此时用户通话终端处于等待客服系统应答(即摘机)的振铃态，该振铃消息可以是18*系列的消息，例如181消息(即call being forwarded，用于指示呼叫正在前向)或183消息(用于提示建立对话的进度)等。该振铃消息中携带媒体服务器的SDP信息，媒体服务器的IP地址、音频端口信息以及音频编解码格式，该SDP信息用于与用户通话终端进行媒体资源协商，以建立用户通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道。

S203、媒体服务器通过IMS网元向用户通话终端发送应答消息。

应理解，在媒体服务器向用户通话终端发送振铃消息之后，用户通话终端等待客服系统应答(即等待接通)，在此过程中，用户可以听到“嘟…嘟…”的等待音，或者可以听到彩铃，当客服系统应答之后，此时呼叫接通，媒体服务器执行上述S203。

同理，IMS网元用于透传该应答消息。

本申请实施例中，客服系统对用户通话终端的呼叫进行应答之后，媒体服务器可以播放与用户的业务相关的音频提示内容，具体的，媒体服务器基于上述建立的语音通话媒体传输通道向用户通话终端发送该音频提示内容，该音频提示内容可以提示用户根据需求选择不同的服务内容。示例性的，若该语音通话是用户拨打通信运营商场景下的语音通话，音频提示内容可以包括：

话费流量查询请按“1”、宽带业务请按“2”、充值服务请按“3”、业务查询和办理请按“4”、密码服务请按“5”、集团业务请按“6”、人工服务请按“0”等等，可选地，该音频提示内容还可以广告、宣传等内容，音频提示内容与具体的应用场景相关，本申请对音频提示内容不做限定。

当用户在上述音频提示内容的提示下进行操作，选择了人工服务时，媒体服务器检测到选择人工服务的操作之后，媒体服务器为该用户分配一个客服人员(即为用户通话终端选择一个对应的客服通话终端)，然后媒体服务器执行下述S204。

S204、媒体服务器向客服通话终端发送邀请(invite)消息。

该邀请消息用于呼叫客服通话终端与用户通话终端的语音通话，该邀请消息中包括媒体服务器的SDP信息，该媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息以及音频编解码格式。该SDP信息用于与客服通话终端进行媒体资源协商，以建立客服通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道。

S205、客服通话终端向媒体服务器发送应答消息。

客服通话终端发送该应答消息之后，该客服通话终端即加入了与用户通话终端的通话，该应答消息中包括客服通话终端的SDP信息，该客服通话终端的SDP信息包括客服通话终端的IP地址、音频端口信息以及音频编解码格式。该SDP信息用于与媒体服务器进行媒体资源协商，以建立客服通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道。

应理解，由于客服通话终端是客服系统中的与用户通话终端通话的新的设备，因此，在后续流程中，为实现用户通话终端与客服通话终端进行通信，需要重新进行媒体资源协商，即媒体服务器与用户通话终端进行媒体资源重协商(参考S206-S207)，媒体服务器与客服通话终端进行媒体资源重协商(参考S208-S209)，通过媒体资源重协商可以建立语音流传输通道(即语音通话媒体传输通道)。应注意，通过S206-S209建立的语音通话媒体传输通道是一条需要媒体服务器作为媒介的传输通道，即间接的语音通话媒体传输通道，该语音通话媒体传输通道包括用户通话终端与媒体服务器之间的语音通话媒体传输通道，以及媒体服务器和客服通话终端之间的语音通话媒体传输通道。

S206、媒体服务器通过IMS网元向用户通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与用户通话终端进行媒体资源重协商，以建立用户通话终端与媒体服务器之间的语音通话媒体传输通道，该重邀请消息包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息以及音频编解码格式。

S207、用户通话终端通过IMS网元向媒体服务器发送应答消息。

该应答消息中包括用户通话终端的SDP信息，用户通话终端的SDP信息包括用户通话终端的IP地址、音频端口信息以及音频编解码格式。

通过S206-S207描述的媒体资源协商过程，用户通话终端可以获得媒体服务器的SDP信息，媒体服务器也可以获得用户通话终端的SDP信息，如此，建立了用户通话终端与媒体服务器之间的语音通话媒体传输通道。

S208、媒体服务器向客服通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与客服通话终端进行媒体资源重协商，以建立客服通话终端与媒体服务器之间的语音通话媒体传输通道，该重邀请消息包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息以及音频编解码格式。

S209、客服通话终端向媒体服务器发送应答消息。

该应答消息中包括客服通话终端的SDP信息，客服通话终端的SDP信息包括客服通话终端的IP地址、音频端口信息以及音频编解码格式。

通过S208-S209描述的媒体资源协商过程，客服通话终端可以获得媒体服务器的SDP信息，媒体服务器也可以获得客服通话终端的SDP信息，如此，建立了客服通话终端与媒体服务器之间的语音通话媒体传输通道。

应理解，通过上述S206-S209建立的语音通话媒体传输通道(包括用户通话终端与媒体服务器之间的语音通话媒体传输通道，以及客服通话终端与媒体服务器之间的语音通话媒体传输通道)，该语音通话媒体传输通道用于传输客服通话终端与用户通话终端之间的通话语音流。示例性的，基于建立的语音通话媒体传输通道，当用户通话终端向客服通话终端发送通话语音流时，该用户通话终端基于该用户通话终端与媒体服务器之间的语音通话媒体传输通道将通话语音流发送至媒体服务器，然后，媒体服务器基于该媒体服务器与客服通话终端之间的语音通话媒体传输通道将其接收到的通话语音流发送至客服通话终端。

可选地，在有些情况下，通过媒体资源协商也可以建立用户通话终端与客服通话终端之间的直接用于传输通话语音流的语音通话媒体传输通道，应注意，用户通话终端与客服通话终端之间的直接用于传输通话语音流的语音通话媒体传输通道是不需要媒体服务器作为中转设备的通道，不一定是用户通话终端与客服通话终端的直连通道。在这种情况下，上述的S206-S209可以替换为S206'-S210'。

S206'、媒体服务器通过IMS网元向用户通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与用户通话终端进行媒体资源重协商，该重邀请消息包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息以及音频编解码格式。

S207'、用户通话终端通过IMS网元向媒体服务器发送应答消息。

该应答消息中包括用户通话终端的SDP信息，该用户通话终端的SDP信息包括用户通话终端的IP地址、音频端口信息以及音频编解码格式。

S208'、媒体服务器向客服通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与客服通话终端进行媒体资源重协商，该重邀请消息中包括用户通话终端的SDP信息，该用户通话终端的SDP信息包括用户通话终端的IP地址、音频端口信息以及音频编解码格式。

S209'、客服通话终端向媒体服务器发送应答消息。

该应答消息中包括客服通话终端的SDP信息，该客服通话终端的SDP信息包括该客服通话终端的IP地址、音频端口信息以及音频编解码格式。

S210'、媒体服务器向用户通话终端发送携带客服通话终端的SDP信息的应答消息。

通过S206'-S210'的媒体资源协商过程，用户通话终端可以获得客服通话终端的SDP信息，客服通话终端可以获得用户通话终端的SDP信息，即建立了用户通话终端和客服通话终端之间的语音通话媒体传输通道。基于建立的语音通话媒体传输通道，用户通话终端和客服通话终端可以直接通信，无需媒体服务器再转发通话语音流。示例性的，用户通话终端可以基于该用户通话终端与媒体服务器之间的语音通话媒体传输通道将通话语音流直接发送至客服通话终端，同理，客服通话终端也可以基于该语音通话媒体传输通道将通话语音流直接发送至用户通话终端。

结合图1所示的通信系统的架构，在用户通话终端接入接入网以及4G核心网或者5G核心网，以及IMS核心网的基础上，以视频通话为例，对视频通话的流程进行描述，以便于理解客服场景中视频通话的流程，该视频通话的流程与上述语音通话的流程类似，视频通话的流程中的相关内容可以参考语音通话的流程中的描述。参考图3，视频通话的流程包括：

S301、用户通话终端通过IMS网元向媒体服务器发送邀请(invite)消息。

该邀请消息中携带有用户通话终端的SDP信息，该SDP信息中包括用户通话终端的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式，该SDP信息用于与媒体服务器进行媒体资源协商，以建立用户通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道和用于传输通话视频流的视频通话媒体传输通道。应理解，视频通话的过程中涉及通话语音流和通话视频流的传输，因此相比于音频通话的过程，视频通话过程中的SDP信息还需包括视频端口信息和视频编解码格式。

S302、媒体服务器向用户通话终端发送振铃消息。

该振铃消息中携带媒体服务器的SDP信息，该媒体服务器的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式，该SDP信息用于与用户通话终端进行媒体资源协商，以建立用户通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道和用于传输通话视频流的视频通话媒体传输通道。

S303、媒体服务器通过IMS网元向用户通话终端发送应答消息。

本申请实施例中，在用户发起的是视频通话的情况下，客服系统对用户通话终端的呼叫进行应答之后，媒体服务器可以播放与用户的业务相关的视频提示内容，具体的，媒体服务器基于上述建立的语音通话媒体传输通道和视频通话媒体传输通道向用户通话终端发送该视频提示内容，该视频提示内容可以提示用户根据需求选择不同的服务内容。

当用户在该视频提示内容的提示下进行操作，选择了人工服务时，媒体服务器检测到选择人工服务的操作之后，媒体服务器为该用户分配一个客服人员(即为用户通话终端选择一个对应的客服通话终端)，然后媒体服务器执行下述S304。

S304、媒体服务器向客服通话终端发送邀请(invite)消息。

该邀请消息用于呼叫客服通话终端与用户通话终端的视频会话，该邀请消息中包括媒体服务器的SDP信息，该媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。该SDP信息用于与客服通话终端进行媒体资源协商，以建立客服通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道和用于传输通话视频流的视频通话媒体传输通道。

S305、客服通话终端向媒体服务器发送应答消息。

客服通话终端发送该应答消息之后，该客服通话终端即加入与用户通话终端的视频通话，该应答消息中包括客服通话终端的SDP信息，该客服通话终端的SDP信息包括客服通话终端的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。该SDP信息用于与媒体服务器进行媒体资源协商，以建立客服通话终端与媒体服务器之间的用于传输通话语音流的语音通话媒体传输通道和用于传输通话视频流的视频通话媒体传输通道。

应理解，由于客服通话终端是客服系统中的与用户通话终端通话的新的设备，因此，在后续流程中，为实现用户通话终端与客服通话终端进行通信，需要重新进行媒体资源协商，即媒体服务器与用户通话终端进行媒体资源重协商(参考S306-S307)，媒体服务器与客服通话终端进行媒体资源重协商(参考S308-S309)。通过媒体资源重协商可以建立语音通话媒体传输通道和视频通话媒体传输通道。应注意，通过S306-S309建立的语音通话媒体传输通道和视频通话媒体传输通道是需要媒体服务器作为媒介的传输通道，即间接的语音通话媒体传输通道和间接的视频通话媒体传输通道，该语音通话媒体传输通道包括用户通话终端与媒体服务器之间的语音通话媒体传输通道，以及媒体服务器和客服通话终端之间的语音通话媒体传输通道，该视频通话媒体传输通道包括用户通话终端与媒体服务器之间的视频通话媒体传输通道，以及媒体服务器和客服通话终端之间的视频通话媒体传输通道。

S306、媒体服务器通过IMS网元向用户通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与用户通话终端进行媒体资源重协商，以建立用户通话终端与媒体服务器之间的语音通话媒体传输通道，以及用户通话终端与媒体服务器器之间的视频通话媒体传输通道，该重邀请消息包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

S307、用户通话终端通过IMS网元向媒体服务器发送应答消息。

该应答消息中包括用户通话终端的SDP信息，用户通话终端的SDP信息包括用户通话终端的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

通过S306-S307描述的媒体资源协商过程，用户通话终端可以获得媒体服务器的SDP信息，媒体服务器也可以获得用户通话终端的SDP信息，如此，建立了用户通话终端与媒体服务器之间的语音通话媒体传输通道，以及用户通话终端与媒体服务器器之间的视频通话媒体传输通道。

S308、媒体服务器向客服通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与客服通话终端进行媒体资源重协商，以建立客服通话终端与媒体服务器之间的语音通话媒体传输通道，以及客服通话终端与媒体服务器之间的视频通话媒体传输通道，该重邀请消息包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

S309、客服通话终端向媒体服务器发送应答消息。

该应答消息中包括客服通话终端的SDP信息，客服通话终端的SDP信息包括客服通话终端的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

通过S308-S309描述的媒体资源协商过程，客服通话终端可以获得媒体服务器的SDP信息，媒体服务器也可以获得客服通话终端的SDP信息，如此，建立了客服通话终端与媒体服务器之间的语音通话媒体传输通道，以及客服通话终端与媒体服务器之间的视频通话媒体传输通道。

应理解，通过上述S306-S309建立的语音通话媒体传输通道(包括用户通话终端与媒体服务器之间的语音通话媒体传输通道，以及客服通话终端与媒体服务器之间的语音通话媒体传输通道)，该语音通话媒体传输通道用于传输客服通话终端与用户通话终端之间的通话语音流；通过上述S306-S309建立的视频通话媒体传输通道(包括用户通话终端与媒体服务器之间的视频通话媒体传输通道，以及客服通话终端与媒体服务器之间的视频通话媒体传输通道)，该视频通话媒体传输通道用于传输客服通话终端与用户通话终端之间的通话视频流。

与语音通话过程类似，可选地，在有些情况下，通过媒体资源协商也可以建立用户通话终端与客服通话终端之间直接用于传输通话语音流的语音通话媒体传输通道和直接用于传输通话视频流的视频通话媒体传输通道。在这种情况下，上述的S306-S309可以替换为S306'-S310'。

S306'、媒体服务器通过IMS网元向用户通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与用户通话终端进行媒体资源重协商，该重邀请消息包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的IP地址、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

S307'、用户通话终端通过IMS网元向媒体服务器发送应答消息。

S308'、媒体服务器向客服通话终端发送重邀请(reinvite)消息。

该重邀请消息用于与客服通话终端进行媒体资源重协商，该重邀请消息包括用户通话终端的SDP信息，用户通话终端的SDP信息包括用户通话终端的IP地址、音频端口信息、音频编解码格式视频端口信息以及视频编解码格式。

S309'、客服通话终端向媒体服务器发送应答消息。

该应答消息中包括客服通话终端的SDP信息，该客服通话终端的SDP信息包括客服通话终端的IP地址、音频端口信息、音频编解码格式视频端口信息以及视频编解码格式。

S310'、媒体服务器向用户通话终端发送携带客服通话终端SDP信息的应答消息。

综上，与语音通话流程不同的是，该媒体协商过程中的所有的SDP信息中均包括设备的视频端口信息和视频编解码格式。

通过S306'-S310'的媒体资源协商过程，用户通话终端可以获得客服通话终端的SDP信息，客服通话终端可以获得用户通话终端的SDP信息，即建立了用户通话终端和客服通话终端之间的直接的语音通话媒体传输通道和视频通话媒体传输通道。基于建立的直接的语音通话媒体传输通道和视频通话媒体传输通道，用户通话终端和客服通话终端之间通信时无需媒体服务器再转发通话语音流和通话视频流。

可选地，上述用户通话终端为通话终端，客服通话终端为对端通话终端，或者，客服通话终端为通话终端，用户通话终端为对端通话终端，具体根据实际情况确定，本申请实施例不做限定。

本申请实施例中，上述通话终端(通话终端和对端通话终端)可以为手机、平板电脑或个人计算机(Ultra-mobile Personal Computer，UMPC)等电子设备。或者，还可以为其他桌面型设备、膝上型设备、手持型设备、可穿戴设备、智能家居设备和车载型设备等电子设备，例如上网本、智能手表、智能相机、上网本、个人数字助理(Personal DigitalAssistant，PDA)等。本申请实施例对通话终端的具体类型和结构等不作限定。

以通话终端为手机为例，图4A为本申请实施例提供的一种手机400的硬件结构示意图，该手机400包括处理器410，外部存储器接口420，内部存储器421，通用串行总线(universal serial bus，USB)接口430，充电管理模块440，电源管理模块441，电池442，天线1，天线2，移动通信模块450，无线通信模块460，音频模块470，扬声器470A，受话器470B，麦克风470C，耳机接口470D，传感器模块480，按键490，马达491，指示器492，摄像头493，显示屏494，以及用户标识模块(subscriber identification module，SIM)卡接口495等。

可以理解的是，本申请实施例示意的结构并不构成对手机400的具体限定。在本申请另一些实施例中，手机400可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器410可以包括一个或多个处理单元，例如：处理器410可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是手机400的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器410中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器410中的存储器为高速缓冲存储器。该存储器可以保存处理器410刚用过或循环使用的指令或数据。如果处理器410需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器410的等待时间，因而提高了系统的效率。

充电管理模块440用于从充电器接收充电输入。充电管理模块440为电池442充电的同时，还可以通过电源管理模块441为电子设备供电。

电源管理模块441用于连接电池442，充电管理模块440与处理器410。电源管理模块441接收电池442和/或充电管理模块440的输入，为处理器410，内部存储器421，外部存储器，显示屏494，摄像头493，和无线通信模块460等供电。电源管理模块441还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块441也可以设置于处理器410中。在另一些实施例中，电源管理模块441和充电管理模块440也可以设置于同一个器件中。

手机400的无线通信功能可以通过天线1，天线2，移动通信模块450，无线通信模块460，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。

移动通信模块450可以提供应用在手机400上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块450可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块450还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块450的至少部分功能模块可以被设置于处理器410中。在一些实施例中，移动通信模块450的至少部分功能模块可以与处理器410的至少部分模块被设置在同一个器件中。

无线通信模块460可以提供应用在手机400上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块460可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块460经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器410。无线通信模块460还可以从处理器410接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，手机400的天线1和移动通信模块450耦合，天线2和无线通信模块460耦合，使得手机400可以通过无线通信技术与网络以及其他设备通信。

手机400通过GPU，显示屏494，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏494和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器410可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏494用于显示图像，视频等。显示屏494包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，手机400可以包括1个或N个显示屏494，N为大于1的正整数。

手机400可以通过ISP，摄像头493，视频编解码器，GPU，显示屏494以及应用处理器等实现拍摄功能。

ISP用于处理摄像头493反馈的数据，摄像头493用于捕获静态图像或视频。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号(如音频信号等)。

视频编解码器用于对数字视频压缩或解压缩。手机400可以支持一种或多种视频编解码器。这样，手机400可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

外部存储器接口420可以用于连接外部存储卡，例如Micro SD卡，实现扩展手机400的存储能力。外部存储卡通过外部存储器接口420与处理器410通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器421可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器410通过运行存储在内部存储器421的指令，从而执行手机400的各种功能应用以及数据处理。内部存储器421可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储手机400使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器421可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

手机400可以通过音频模块470，扬声器470A，受话器470B，麦克风470C，耳机接口470D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块470用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块470还可以用于对音频信号编码和解码。在一些实施例中，音频模块470可以设置于处理器410中，或将音频模块470的部分功能模块设置于处理器410中。

扬声器470A，也称“喇叭”，用于将音频电信号转换为声音信号。手机400可以通过扬声器470A收听音乐，或收听免提通话。

受话器470B，也称“听筒”，用于将音频电信号转换成声音信号。当手机400接听电话或语音信息时，可以通过将受话器470B靠近人耳接听语音。

麦克风470C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风470C发声，将声音信号输入到麦克风470C。手机400可以设置至少一个麦克风470C。在另一些实施例中，手机400可以设置两个麦克风470C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，手机400还可以设置三个，四个或更多麦克风470C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口470D用于连接有线耳机。

按键490包括开机键，音量键等。手机400可以接收按键输入，产生与手机400的用户设置以及功能控制有关的键信号输入。

马达491可以产生振动提示。马达491可以用于来电振动提示，也可以用于触摸振动反馈。

指示器492可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口495用于连接SIM卡。SIM卡可以通过插入SIM卡接口495，或从SIM卡接口495拔出，实现和手机400的接触和分离。

可以理解的，本申请实施例中，上述手机400可以执行本申请实施例中的部分或全部步骤，这些步骤或操作仅是示例，手机400还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照本申请实施例呈现的不同的顺序来执行，并且有可能并非要执行本申请实施例中的全部操作。本申请各实施例可以单独实施，也可以任意组合实施，本申请对此不作限定。

本申请实施例提供的通信方法可以应用于具有如图4A所示硬件结构的通话终端或者具有类似结构的通话终端。或者还可以应用于其他结构的通话终端中，本申请实施例对此不作限定。

在对通话终端的硬件结构进行介绍之后，本申请这里以通话终端为手机400为例，对本申请提供的通话终端的系统架构进行介绍。手机400的系统架构可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的系统为例，示例性说明手机400的软件结构。图4B是本申请实施例的通话终端的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包，如图4B所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

本申请实施例中，可以基于手机400的应用程序层中的通话应用程序(即通话APP)可以用于与其他的通话终端进行语音通话或视频通话。该通话应用程序是手机400出厂时已经具有的应用程序，无需用户进行安装、配置等操作。

应理解，本申请实施例提供的通信方法中，通话终端和对端通话终端在语音通话或视频通话过程中实现人脸识别的功能是基于通话终端和对端通话终端上的通话应用程序实现的。也可以认为，本申请实施例中的通话终端和对端通话终端具体为通话终端或对端通话终端上的通话应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图4B所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

其中，窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。电话管理器用于提供通话终端的通信功能，例如通话状态的管理(包括接通，挂断等)。资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机，Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

其中，表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明手机400软件以及硬件的工作流程。

当手机400触摸传感器接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头493捕获静态图像或视频。

本申请实施例中，上述通信系统中的媒体服务器可以为硬件形态的服务器，也可以是软件形态的服务器。以硬件形态的服务器为例，如图5所示，本申请实施例提供一种媒体服务器500，该媒体服务器500包括至少一个处理器501和存储器502。

其中，处理器501包括一个或多个中央处理器(central processing unit，CPU)。该CPU为单核CPU(single-CPU)或多核CPU(multi-CPU)。

存储器502包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmableread-only memory，EPROM)、快闪存储器、或光存储器等。存储器302中保存有操作系统的代码。

可选地，处理器501通过读取存储器502中保存的指令实现上述实施例中的方法，或者，处理器501通过内部存储的指令实现上述实施例中的方法。在处理器501通过读取存储器502中保存的指令实现上述实施例中的方法的情况下，存储器502中保存实现本申请实施例提供的通信方法的指令。

存储器502中存储的程序代码被至少一个处理器501读取后，媒体服务器500执行以下操作：触发建立视频通话媒体传输通道，该视频通话媒体传输通道用于传输通话视频流，该通话视频流包含通话终端拍摄的视频内容；并且接收人脸识别申请，并通过视频通话媒体传输通道接收人脸视频流，并向通话终端和对端通话终端返回人脸识别结果。

可选地，图5所示的媒体服务器500还包括网络接口503。网络接口503是有线接口，例如光纤分布式数据接口(fiber distributed data interface，FDDI)、千兆以太网(gigabit ethernet，GE)接口。或者，网络接口503是无线接口。网络接口503用于接收消息(例如SIP消息等)。或者，网络接口503用于接收通话视频流或通话语音流。

存储器502用于存储网络接口503接收到的音频流或视频流，至少一个处理器501进一步根据存储器502保存的这些信息来执行上述方法实施例所描述的方法。处理器501实现上述功能的更多细节请参考前面各个方法实施例中的描述，在这里不再重复。

可选地，媒体服务器500还包括总线504，上述处理器501、存储器502通常通过总线504相互连接，或采用其他方式相互连接。

可选地，媒体服务器500还包括输入输出接口505，输入输出接口505用于与输入设备连接，接收用户通过输入设备输入的指令。输入设备包括但不限于键盘、触摸屏、麦克风等等。输入输出接口505还用于与输出设备连接，输出处理器501的处理结果。输出设备包括但不限于显示器、打印机等等。

结合上述实施例的相关描述，本申请实施例提供一种通信方法，该方法可以应用于通信系统中的具有上述图4A所示的硬件结构和上述图4B所示的系统架构的通话终端(包括通话终端和该通话终端的对端通话终端)、具有上述图5所示的硬件结构的媒体服务器中实现，通过各个设备的交互实现通信方法。

在客服场景中，发起通话的设备是用户通话终端，被呼叫的设备是客服系统的终端，本申请实施例中，需对用户通话终端对应的用户进行人脸识别，即用户通话终端对应的是下述实施例中的通话终端，客服系统的终端(例如客服通话终端)是对端通话终端。

根据上述实施例的内容，可知，在客服场景中，人脸识别过程发生在人工服务的阶段，即客服人员参与通话(即客服人员所持有的客服通话终端参与通话)。

下面对本申请实施例提供的通信方法进行详细描述，如图6所示，本申请实施例提供的通信方法包括：

S601、建立视频通话媒体传输通道。

本申请实施例中，当客服人员参与通话时，上述视频通话媒体传输通道是通话终端、媒体服务器以及对端通话终端进行交互建立的，该视频通话媒体传输通道用于视频通话业务中的通话终端与对端通话终端传输通话视频流，该通话视频流包含通话终端或者对端通话终端拍摄的视频内容。应理解，本申请实施例中，通话终端和对端通话终端是相对的概念，参与通话的两个终端中，任意一个终端可以为通话终端，则另一个终端为对端通话终端。

需要说明的是，本申请实施例中，上述通话终端、对端通话终端以及媒体服务器参与建立的视频通话媒体传输通道为间接的视频通话媒体传输通道，上述建立视频通话媒体传输通道具体包括：建立第一视频通话媒体传输通道，并且建立第二视频通话媒体传输通道，第一视频通话媒体传输通道为通话终端与媒体服务器之间的视频通话媒体传输通道，第二视频通话媒体传输通道为对端通话终端与媒体服务器之间的视频通话媒体传输通道。

本申请实施例中，上述视频通话媒体传输通道的建立过程可以参考上述实施例中的S206-S209的描述，此处不再赘述。

S602、对端通话终端向媒体服务器发送人脸识别申请。相应地，媒体服务器接收对端通话终端发送的人脸识别申请。

该人脸识别申请中包括人脸识别申请标识，该人脸识别申请标识用于申请对通话终端对应的用户进行人脸识别，即在通话终端与对端通话终端进行通话的过程中对该通话终端进行人脸识别。

同理，可选地，若呼叫方(即通话终端)发起的是视频通话，通话终端根据视频提示内容选择人工服务之后，客服系统中的媒体服务器呼叫对端通话终端，并且在对端通话终端应答之后，通话终端、对端通话终端以及媒体服务器进行交互建立视频通话媒体传输通道。

可选地，若呼叫方发起的是语音通话，通话终端根据音频提示内容选择人工服务之后，客服系统中的媒体服务器呼叫对端通话终端，并且在对端通话终端应答之后，通话终端、对端通话终端以及媒体服务器进行交互建立语音通话媒体传输通道，待媒体服务器接收到人脸识别申请之后，通话终端、对端通话终端以及媒体服务器进行交互建立视频通话媒体传输通道。

S603、媒体服务器向通话终端发送SIP消息，该SIP消息中包括人脸识别请求标识，该人脸识别请求标识用于请求对通话终端对应的用户进行人脸识别。相应的，通话终端从媒体服务器接收SIP消息。

S604、通话终端向媒体服务器发送SIP消息的响应消息，该SIP消息的响应消息指示通话终端对应的用户同意进行人脸识别。

具体的，SIP消息的响应消息中包括人脸识别应答标识，该人脸识别应答标识指示通话终端对应的用户同意进行人脸识别。

本申请实施例中，上述SIP消息中的人脸识别请求标识可以携带在SIP消息的头域中。

可选地，人脸识别请求标识在SIP消息的头域中有以下两种携带方式。

第一种携带方式：在SIP消息的Contact的扩展字段中携带人脸识别请求标识(记为FR)。

以INVITE sip:02033296999@gd.ctcims.cn SIP/2.0为例，

Contact头域为：

<sip:172.27.10.10:5060；transport＝udp；zte-did＝26-3-20481-3629-12-890-3302；zte-uid＝200001+861892222222；Hpt＝8e48_16；CxtId＝4；TRC＝ffffffff-ffffffff>；audio；video；FR；+g.3gpp.mid-call；+g.3gpp.srvcc-alerting；+g.3gpp.ps2cs-srvcc-orig-pre-alerting；+g.3gpp.icsi-ref＝"urn％3Aurn-7％3A3gpp-service.ims.icsi.mmtel"；

Max-Forwards:64.

第二种携带方式：在SIP消息的Supported扩展字段中携带人脸识别请求标识(即FR)

Supported:100rel,histinfo,precondition,timer,FR.

可选地，当呼叫方发起的通话是语音通话时，上述SIP消息中还包括媒体服务器的SDP信息，该媒体服务器的SDP信息包括媒体服务器的地址信息(例如IP地址)、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

当SIP消息中包括媒体服务器的SDP信息时，该SIP消息的响应消息中包括还包括通话终端的SDP信息，该通话终端的SDP信息包括通话终端的地址信息(例如IP地址)、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

本申请实施例中，当呼叫方发起的通话是语音通话时，在媒体服务器接收到对端通话终端发送的人脸识别申请之后，媒体服务器与通话终端可以根据S603-S604中SIP消息和SIP消息的响应消息中的媒体服务器的SDP信息和通话终端的SDP信息进行媒体资源协商，建立视频通话媒体传输通道(即第一视频通话媒体传输通道)。在这种情况下，S601中的通话终端、对端通话终端以及媒体服务器进行交互以建立视频通话媒体传输通道的过程中，媒体服务器与通话终端之间进行媒体资源协商的步骤可以用步骤S603-S604进行替换。

可选地，媒体服务器与对端通话终端进行交互(例如媒体服务器向对端通话终端发送SIP消息，该SIP消息中包括媒体服务器的SDP信息，对端通话终端向媒体服务器发送SIP消息的响应消息，该SIP消息的响应消息中包括对端通话终端的SDP信息)，进行媒体资源协商，建立视频通话媒体传输通道(即第二视频通话媒体传输通道)。

可选地，在SIP消息中包括媒体服务器的SDP信息的情况下，上述人脸识别请求标识也可以携带在媒体服务器的SDP信息中。

在SDP信息中携带人脸识别请求标识(FR)的情况下，可以在SDP信息的扩展字段中进一步指示传输人脸视频流的视频端口信息。具体的，可以指示使用传输通话视频流的视频端口传输人脸视频流，下面对SDP信息的字段进行示意。

a＝sendrecv；标识双向视频通话

a＝sendonly/sendrecv；标识单向视频通话

a＝FR；人脸识别请求标识

m＝video 12082RTP/AVP 114 113；标识使用传输通话视频流的视频端口传输人脸视频流

v＝0

o＝HuaWeiUAP9600 12 12IN IP4 10.137.2.167

s＝Sip Call

c＝IN IP4 10.137.2.176//IP地址

t＝0 0

m＝audio 12080RTP/AVP 104 103 102 101 8 0 18 96 97//音频端口号

b＝AS:41

b＝RS:600

b＝RR:2000

a＝rtpmap:104AMR-WB/16000/1//音频编解码

a＝fmtp:104mode-change-capability＝2；max-red＝0

a＝rtpmap:103AMR-WB/16000/1

a＝fmtp:103octet-align＝1；mode-change-capability＝2；max-red＝0

a＝rtpmap:102AMR/8000/1

a＝fmtp:102mode-change-capability＝2；max-red＝0

a＝rtpmap:101AMR/8000/1

a＝fmtp:101octet-align＝1；mode-change-capability＝2；max-red＝0

a＝rtpmap:96telephone-event/16000

a＝fmtp:96 0-15

a＝rtpmap:97telephone-event/8000

a＝fmtp:97 0-15

a＝curr:qos local none

a＝curr:qos remote none

a＝des:qos mandatory local sendrecv

a＝des:qos optional remote sendrecv

a＝sendrecv

a＝maxptime:240

a＝ptime:20

m＝video 12082RTP/AVP 114 113//视频端口号

b＝AS:2154

b＝RS:8000

b＝RR:6000

a＝rtpmap:114H264/90000//视频编解码

a＝fmtp:114

profile-level-id＝42C01F；sprop-parameter-sets＝Z0LAH9oC0ChoBtChNQ＝＝,aM4G4g＝＝；packetizat ion-mode＝1；sar-understood＝16；sar-supported＝1

a＝imageattr:114send[x＝720,y＝1280]recv[x＝720,y＝1280]

a＝rtpmap:113H264/90000

a＝fmtp:113

profile-level-id＝42C01F；sprop-parameter-sets＝Z0LAH9oC0ChoBtChNQ＝＝,aM4G4g＝＝；packetizat ion-mode＝0；sar-understood＝16；sar-supported＝1

a＝imageattr:113send[x＝720,y＝1280]recv[x＝720,y＝1280]

a＝curr:qos local none

a＝curr:qos remote none

a＝des:qos mandatory local sendrecv

a＝des:qos optional remote sendrecv

a＝rtcp-fb:*nack

a＝rtcp-fb:*nack pli

a＝rtcp-fb:*ccm fir

a＝rtcp-fb:*ccm tmmbr

a＝sendrecv

a＝FR

a＝tcap:1RTP/AVPF

a＝pcfg:1t＝1

a＝extmap:2urn:3gpp:video-orientation.

可以理解的是，根据对SDP信息的描述可知，在SDP信息中可以指示视频通话是单向视频通话还是双向视频通话，以通话终端和对端通话终端为例，单向视频通话可以仅传输通话终端的通话视频流，不传输对端通话终端的视频流。例如，通话终端将通话终端拍摄到的视频内容发送至对端通话终端，在对端通话终端上显示通话终端的拍摄到的视频内容，而对端通话终端不拍摄视频内容或者器其拍摄的视频内容不会发送给通话终端，即在通话终端上不显示对端通话终端拍摄的视频内容。

S605、媒体服务器向通话终端发送第一传输通道指示信息，该第一传输通道指示信息用于指示通话终端通过视频通话媒体传输通道(具体为上述的第一视频通话媒体传输通道)传输人脸视频流。相应地，通话终端从媒体服务器接收第一传输通道指示信息。

该人脸视频流包含通话终端对应的用户的人脸图像，可选地，该人脸视频流是通过通话终端的摄像装置拍摄获得的视频流；或者，该人脸视频流是从通话终端的存储装置获得的视频流。

可以理解的，由于人脸视频流可以通过不同的途径获得，因此，在通话终端同意对该通话终端对应的用户进行人脸识别，并且在通话终端向媒体服务器发送人脸视频流之前，本申请实施例提供的通信方法还包括：媒体服务器向通话终端发送来源指示信息，该来源指示信息指示通话终端通过通话终端的摄像装置获取人脸视频流或者从通话终端的存储装置获取人脸视频流，相应的，通话终端从媒体服务器接收来源指示信息，并根据来源指示信息的指示获取相应的人脸视频流。

一种实现方式中，上述第一传输通道指示信息可以携带在SIP消息中，该SIP消息可以与上述S603中的SIP消息为同一消息，可以不同的SIP消息，本申请实施例不做限定。

上述媒体服务器可以通过上述S605显式指示的方法(即发送传输通道指示信息)指示通过视频通话媒体传输通道传输人脸视频流，在有些情况下，媒体服务器也可以通过隐式指示的方法指示通过视频通话媒体传输通道传输人脸视频流。例如，在S603中的SIP消息中携带媒体服务器的SDP信息，在该SIP消息的响应消息中携带通话终端的SDP信息，以协商(或指示)使用基于这一对SDP信息(媒体服务器的SDP信息和通话终端的SDP)建立的视频通话媒体传输通道传输人脸视频流，应理解，该视频通话媒体传输通道原本是用于传输通话视频流的。

S606、通话终端通过视频通话媒体传输通道向媒体服务器发送人脸视频流。相应的，媒体服务器也通过该视频通话媒体传输通道从通话终端接收人脸视频流。

S607、媒体服务器获取人脸识别结果。

在一种实现方式中，若媒体服务器不具备人脸识别的功能，人脸识别的过程由专用于人脸识别的人脸识别服务器执行，则媒体服务器通过第一视频通话媒体传输通道从通话终端接收人脸视频流之后，本申请实施例提供的通信方法还包括：媒体服务器从人脸视频流中提取目标人脸图像；并向人脸识别服务器发送目标人脸图像，以触发人脸识别服务器根据目标人脸图像对通话终端对应的用户进行人脸识别。可以理解的，该人脸识别服务器是运营商系统的服务器，人脸识别服务器维护有在运营商系统中注册的用户的人脸图像以及其他相关信息。关于人脸识别服务器根据目标人脸图像进行人脸识别的详细细节可以参考上述实施例的相关描述或者参考现有技术的相关内容，此处不再赘述。

在这种情况下，上述媒体服务器获取人脸识别结果具体包括：媒体服务器从人脸识别服务器接收人脸识别结果。

在另一种实现方式中，媒体服务器也可以具备人脸识别的功能，该媒体服务器维护有在运营商系统中注册的用户的人脸图像以及其他相关信息，此时，媒体服务器从人脸视频流中提取目标人脸图像；并根据该目标人脸图像对通话终端对应的用户进行人脸识别，得到人脸识别结果。

S608、媒体服务器向通话终端发送人脸识别结果。相应地，通话终端接收媒体服务器发送的人脸识别结果。

可以理解的是，媒体服务器与通话终端之间的传输通道可以包括上述视频通话媒体传输通道和信令通道，可选地，媒体服务器可以通过上述的视频通话媒体传输通道(即第一视频通话媒体传输通道)向通话终端发送人脸识别结果，也可以通过信令通道向通话终端发送人脸识别结果，本申请实施例不做限定。

S609、媒体服务器向对端通话终端发送第二传输通道指示信息，相应的，对端通话终端从媒体服务器接收该第二传输通道指示信息，该第二传输通道指示信息指示对端通话终端通过第二视频通话媒体传输通道接收人脸识别结果。

S610、媒体服务器通过视频通话媒体传输通道(具体为上述的第二视频通话媒体传输通道)向对端通话终端发送人脸识别结果。相应地，对端通话终端通过该视频通话媒体传输通道从媒体服务器接收人脸识别结果。

当然，媒体服务器也可以通过该媒体服务器与对端通话终端之间的信令通道向对端通话终端发送人脸识别结果。

S611、对端通话终端基于人脸识别结果，处理通话终端的业务请求。

根据上述实施例的描述可知，通话终端可以为用户通话终端，对端通话终端可以为客服通话终端，上述S601-S611的过程是客服通话终端与用户通话终端通话的过程中对用户通话终端对应的用户进行人脸识别的过程，在客服通话终端接收的人脸识别结果包括表示人脸识别成功的信息的情况下，客服通话终端确定持有用户通话终端的用户是合法用户并且与用户通话终端的注册用户一致，则客服通话终端开始处理通话终端的业务请求，从而完成后续的服务，如此，可以保证安全地处理用户的业务。

可选地，在人脸识别成功的情况下，通话终端与对端通话终端之间的交互恢复至视频通话或语音通话，通话终端、媒体服务器以及对端通话终端可以通过视频通话媒体传输通道传输通话视频流，或者，三者之间重新进行媒体资源协商，建立语音通话媒体传输通道，并且通过该语音通话媒体传输通道传输通话语音流。

可选地，当人脸视频流是从通话终端的存储装置获得的视频流时，在通过视频通话媒体传输通道向媒体服务器传输人脸视频流(即S606)之前，本申请实施例提供的通信方法还包括S612。

S612、通话终端和媒体服务器停止通过视频通话媒体传输通道传输通话视频流。

本申请实施例中，通话终端与媒体服务器之间停止通过视频通话媒体传输通道传输通话视频流(通话终端或对端通话终端拍摄的内容)，如此，可以通过该视频通话媒体传输通道传输从该通话终端的存储装置中获取的人脸视频流。

可选地，在通过视频通话媒体传输通道从媒体服务器接收人脸识别结果之前，本申请实施例提供的通信方法还包括S613。

S613、媒体服务器和对端通话终端停止通过视频通话媒体传输通道传输通话视频流。

本申请实施例中，媒体服务器与对端通话终端之间停止通过视频通话媒体传输通道传输通话视频流(通话终端或对端通话终端拍摄的内容)，如此，可以通过该视频通话媒体传输通道传输人脸识别结果。

在一种实现方式中，当人脸视频流是通过通话终端的摄像装置拍摄获得的视频流时，通话终端实时地捕获用户的人脸图像，并将人脸图像传输至媒体服务器，可以理解的，当通话终端的摄像装置捕获人脸图像时，受用户头部姿态的影响，捕获的人脸图像可能不能满足预设条件，该预设条件可以包括但不限于用户头部的位置、角度等在一定的范围内(例如人脸应位于预置的检测框内且应使得用户的脸部的正面面对摄像装置)，如此，会导致人脸识别无法执行或者导致人脸识别结果不准确。基于此，媒体服务器在接收到通话终端发送的人脸视频流之后，确定人脸视频流中的人脸图像不满足预设条件时，媒体服务器可以向通话终端发送姿态指示信息(相应的，通话终端从媒体服务器接收该姿态指示信息)，该态指示信息指示通话终端对应的用户调整用户的姿态，以使得人脸图像满足预设条件，例如，当用户的脸部未全部位于预设的检测框内时，该姿态指示信息是提示用户将脸部全部置于检测框内的信息，或者，当用户的脸部的角度不合适时，该姿态指示信息是提示用户将脸部向某个方向转动的信息(例如提示用户将头部向右转)。

综上所述，本申请实施例提供的通信方法，当在通话过程中需进行人脸识别时，通话终端可以通过原本用于传输通话视频流的视频通话媒体传输通道来传输人脸视频流，如此，无需花费额外的带宽资源建立专用于传输人脸视频流的传输通道，并且无需占用通话终端额外的端口资源。

本申请实施例中，在人工客服场景中，上述通话终端为客服场景中的用户通话终端，对端通话终端为客服场景中的客服通话终端。基于上述实施例的相关描述可知，发起通话的用户通话终端可以发起视频通话，也可以发起语音通话，下面以用户通话终端发起的通话为语音通话为例对本申请实施例提供的通信方法进行详细的描述。

如图7所示，本申请实施例提供的通信方法包括：

S701、用户通话终端通过IMS网元向媒体服务器发送邀请(invite)消息。

S702、媒体服务器通过IMS网元向用户通话终端发送振铃消息。

S703、媒体服务器通过IMS网元向用户通话终端发送应答消息。

可以理解的是，客服系统对用户通话终端的呼叫进行应答之后，媒体服务器播放与用户的业务相关的音频提示内容，以提示用户根据需求选择不同的服务内容(例如选择人工服务)，当用户在该音频提示内容的提示下进行操作，选择了人工服务时，媒体服务器检测到选择人工服务的操作之后，媒体服务器为该用户分配一个客服人员(即为用户通话终端选择一个对应的客服通话终端)。

S704、媒体服务器向客服通话终端发送邀请(invite)消息。

S705、客服通话终端向媒体服务器发送应答消息。

S706、媒体服务器通过IMS网元向用户通话终端发送重邀请(reinvite)消息。

该重邀请(reinvite)消息中包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的地址信息(例如IP地址)、音频端口信息以及音频编解码格式。

S707、用户通话终端通过IMS网元向媒体服务器发送应答消息。

该应答消息中包括用户通话终端SDP信息，用户通话终端SDP信息包括用户通话终端的地址信息(例如IP地址)、音频端口信息以及音频编解码格式。

上述S706-S707是通话终端与媒体服务器进行交互，通过媒体资源协商建立用户通话终端与媒体服务器之间的语音通话媒体传输通道的过程。

S708、媒体服务器向客服通话终端发送重邀请(reinvite)消息。

该重邀请(reinvite)消息中包括媒体服务器的SDP信息，关于媒体服务器的SDP信息的描述可以参考S906。

S709、客服通话终端向媒体服务器发送应答消息。

该应答消息中包括客服通话终端的SDP信息，客服通话终端的SDP信息包括客服通话终端的地址信息(例如IP地址)、音频端口信息以及音频编解码格式。

上述S709-S709是客服通话终端与媒体服务器进行交互，通过媒体资源协商建立客服通话终端与媒体服务器之间的语音通话媒体传输通道的过程。

可以理解的是，S701-S709是用户通话终端呼叫客服通话终端，并且建立语音通话媒体传输通道的过程。关于S701-S709的各个步骤的消息中所携带的内容可以参考上述对于S201-S209的详细描述，此处不再赘述。

S710、客服通话终端向媒体服务器发送人脸识别申请。相应地，媒体服务器接收客服通话终端发送的人脸识别申请。

S711、媒体服务器通过IMS网元向用户通话终端发送SIP消息，该SIP消息中包括人脸识别请求标识，该人脸识别请求标识用于请求对通话终端对应的用户进行人脸识别。相应的，用户通话终端从媒体服务器接收SIP消息。

该SIP消息中还包括媒体服务器的SDP信息，媒体服务器的SDP信息包括媒体服务器的地址信息、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

可选地，上述SIP消息中的人脸识别请求标识(FR)可以携带在SIP消息的头域中，或者，该人脸识别请求标识也可以携带在SIP消息中的SDP信息中，具体参考上述实施例中对于S603-S604的相关描述，此处不再赘述。

S712、用户通话终端通过IMS网元向媒体服务器发送SIP消息的响应消息，该SIP消息的响应消息指示通话终端对应的用户同意进行人脸识别。相应地，媒体服务器接收用户通话终端发送的SIP消息的响应消息。

可选地，SIP消息的响应消息中包括人脸识别应答标识，该人脸识别应答标识指示通话终端对应的用户同意进行人脸识别。

该SIP消息的响应消息中包括还用户通话终端的SDP信息，用户通话终端的SDP信息包括用户通话终端的地址信息(例如IP地址)、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

需要说明的是，上述用户通话终端发起的是语音通话，并且通过上述实施例中的S706-S709的步骤建立的是语音通话媒体传输通道，由于人脸识别过程中要传输的是人脸视频流，而语音通话过程中仅能传输通话语音流，不能传输视频流，因此，在媒体服务器接收到人脸识别申请，并且在用户同意进行人脸识别之后，该媒体服务器将触发建立视频通话媒体传输通道，即需要将语音通话转换为视频通话，以建立能够传输视频流的传输通道，并且使用该视频通话媒体传输通道传输人脸视频流。

可以理解的是，视频通话媒体传输通道包括用户通话终端与媒体服务器之间的第一视频通话媒体传输通道，以及客服通话终端与媒体服务器之间的第二视频通话终端，第一视频通话媒体传输通道和第二视频通话媒体传输通道成对存在，是用于客服通话终端与用户通话终端进行通信的传输通道。

本申请实施例中，上述S711-S712中通过SIP消息中的媒体服务器的SDP信息和SIP消息的响应消息中用户通话终端的SDP信息进行媒体资源协商以建立用户通话终端与媒体服务器之间的视频通话媒体传输通道(即第一视频通话媒体传输通道)。

第二视频通话媒体传输通道的建立过程如下S713-S714。

S713、媒体服务器向客服通话终端发送SIP消息。相应地，客服通话终端从媒体服务器接收SIP消息。该SIP消息中包括媒体服务器的SDP信息。

该媒体服务器的SDP信息包括媒体服务器的地址信息、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。应注意，与语音通话场景的媒体资源协商消息中的SDP信息(包括设备的地址信息、音频端口信息以及音频编解码格式)不同的是，视频通话场景的媒体资源协商消息中的SDP信息中还包括设备的视频端口信息和视频编解码格式。

S714、客服通话终端向媒体服务器发送SIP消息的响应消息。相应地，媒体服务器从客服通话终端接收SIP消息的响应消息，该SIP消息的响应消息中包括客服通话终端的SDP信息。

客服通话终端的SDP信息包括客服通话终端的地址信息、音频端口信息、音频编解码格式、视频端口信息以及视频编解码格式。

通过S713-S714的媒体资源协商过程可以建立客服通话终端与媒体服务器之间的视频通话媒体传输通道(即第二视频通话媒体传输通道)。

S715、媒体服务器向用户通话终端发送第一传输通道指示信息，该第一传输通道指示信息用于指示通过视频通话媒体传输通道传输人脸视频流。相应地，用户通话终端从媒体服务器接收传输通道指示信息。

至此，用于传输人脸视频流的传输通道已建立，该用于传输人脸视频流的传输通道是视频通话媒体传输通道，基于该视频通话媒体传输通道，可以完成人脸识别。

需要说明的是，当人脸视频流是通过用户通话终端的摄像装置拍摄获得的视频流时，该人脸视频流仍属于通话视频流，这种情况下，媒体服务器也可以不向用户通话终端发送第一传输通道指示信息。

S716、用户通话终端通过视频通话媒体传输通道向媒体服务器发送人脸视频流。相应地，媒体服务器通过该视频通话媒体传输通道从用户通话终端接收人脸视频流，该人脸视频流包含用户通话终端对应的用户的人脸图像。

本申请实施例中，用户通话终端根据其接收到的第一传输通道指示信息，通过上述用于传输通话视频流的视频通话媒体传输通道传输人脸视频流。该人脸视频流包含通话终端对应的用户的人脸图像，可选地，该人脸视频流是通过通话终端的摄像装置拍摄获得的视频流；或者，该人脸视频流是从通话终端的存储装置获得的视频流。

S717、媒体服务器获取人脸识别结果。

S718、媒体服务器向用户通话终端发送人脸识别结果。相应地，用户通话终端接收媒体服务器发送的人脸识别结果。

S719、媒体服务器向客服通话终端发送第二传输通道指示信息，相应的，客服通话终端从媒体服务器接收该第二传输通道指示信息，该第二传输通道指示信息指示客服通话终端通过第二视频通话媒体传输通道接收人脸识别结果。

S720、媒体服务器通过视频通话媒体传输通道向客服通话终端发送人脸识别结果。相应地，客服通话终端通过视频通话媒体传输通道从媒体服务器接收人脸识别结果。

S721、客服通话终端基于人脸识别结果，处理通话终端的业务请求。

可选地，媒体服务器向通话终端发送来源指示信息，该来源指示信息指示通话终端通过通话终端的摄像装置获取人脸视频流或者从通话终端的存储装置获取人脸视频流。

可选地，用户通话终端与媒体服务器之间通过第一视频通话媒体传输通道传输人脸视频流，并且该人脸视频流是从用户通话终端的存储装置中获得的情况下，通话终端和媒体服务器可以停止通过第一视频通话媒体传输通道传输通话视频流。

同理，可选地，客服通话终端与媒体服务器之间通过第二视频通话媒体传输通道传输人脸识别结果的情况下，客服通话终端和媒体服务器可以停止通过第二视频通话媒体传输通道传输通话视频流。

进一步的，媒体服务器也可以向用户通话终端发送姿态指示信息以指示用户调整姿态，使得人脸图像满足预设条件。

关于S701-S721的其他细节的描述可以参考上述实施例中的相关描述，此处不再赘述。

相应地，本申请实施例提供一种通话终端，根据上述方法示例可以对该通话终端进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图8示出上述实施例中所涉及的通话终端的一种可能的结构示意图。如图8所示，该通话终端包括处理模块801、接收模块802以及发送模块803。处理模块801用于建立视频通话媒体传输通道，该视频通话媒体传输通道用于视频通话业务中的通话终端与对端通话终端传输通话视频流，通话视频流包含通话终端或对端通话终端拍摄的视频内容，例如执行上述方法实施例中的S601。接收模块802用于从媒体服务器接收SIP消息，该SIP消息中包括人脸识别请求标识，该人脸识别请求标识用于请求对通话终端对应的用户进行人脸识别，例如执行上述方法实施例中的S603。发送模块803用于向媒体服务器发送SIP消息的响应消息，该SIP消息的响应消息指示通话终端对应的用户同意进行人脸识别，并且还用于通过视频通话媒体传输通道向媒体服务器发送人脸视频流，该人脸视频流包括通话终端对应的用户的人脸图像，例如执行上述方法实施例中的S604、S606。接收模块802用于从媒体服务器接收人脸识别结果，例如执行上述方法实施例中的S608。

可选地，上述接收模块802还用于从媒体服务器接收来源指示信息，该来源指示信息指示通话终端通过通话终端的摄像装置获取人脸视频流或者从通话终端的存储装置获取人脸视频流。

可选地，人脸视频流是从通话终端的存储装置获得的视频流，上述接收模块802还用于从媒体服务器接收传输通道指示信息，该传输通道指示信息指示通话终端通过视频通话媒体传输通道传输人脸视频流，例如执行上述方法实施例中的S605。

上述处理模块801还用于控制上述接收模块802或发送模块803停止通过视频通话媒体传输通道传输通话视频流，执行上述方法实施例中的S612。

上述接收模块802还用于从媒体服务器接收姿态指示信息，该姿态指示信息指示通话终端对应的用户调整用户的姿态，以使得人脸图像满足预设条件。

上述通话终端的各个模块还可以用于执行上述方法实施例中的其他动作，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在采用集成的单元的情况下，图9示出了上述实施例中所涉及的通话终端的另一种可能的结构示意图。如图9所示，本申请实施例提供的通话终端可以包括：处理模块901和通信模块902。处理模块901可以用于对该通话终端的动作进行控制管理，例如，处理模块901可以用于支持该通话终端执行上述方法实施例中的S601、S612，和/或用于本文所描述的技术的其它过程。通信模块902可以用于支持该通话终端与其他网络实体的通信，通信模块902集成了上述发送模块803和接收模块802的功能，该通信模块902可以用于支持该通话终端执行上述方法实施例中的S603、S604、S605、S606、S608。可选地，如图9所示，该通话终端还可以包括存储模块903，用于存储该通话终端的程序代码和数据，例如接收到的人脸视频流或人脸识别结果等。

其中，处理模块901可以是处理器，例如处理器可以为图4A中的处理器410。通信模块902可以是收发器、收发电路或通信接口等，例如图4A中的移动通信模块450和/或无线通信模块460，存储模块903可以是存储器，例如图4A中的内部存储器421。

上述通话终端包含的模块实现上述功能的更多细节请参考前面各个方法实施例中的描述，在这里不再重复。

相应地，本申请实施例提供一种通话终端，该通话终端是上述图8或图9所示的通话终端的对端，根据上述方法示例可以对该通话终端进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图10示出上述实施例中所涉及的通话终端的一种可能的结构示意图。如图10所示，该通话终端包括处理模块1001、发送模块1002以及接收模块1003。处理模块1001用于建立视频通话媒体传输通道，该视频通话媒体传输通道用于视频通话业务中的通话终端与对端通话终端传输通话视频流，通话视频流包含通话终端或对端通话终端拍摄的视频内容，例如执行上述方法实施例中的S601。发送模块1002用于向媒体服务器发送人脸识别申请，该人脸识别申请包括人脸识别申请标识，该人脸识别申请标识用于申请对与通话终端通话的对端通话终端对应的用户进行人脸识别，例如执行上述方法实施例中的S602、S710。接收模块1003用于通过视频通话媒体传输通道从媒体服务器接收人脸识别结果，该人脸识别结果是基于人脸视频流对对端通话终端对应的用户进行人脸识别的结果，例如执行上述方法实施例中的S610、S720；处理模块1001还用于基于人脸识别结果，处理对端通话终端的业务请求，例如执行上述方法实施例中的S611、S721。

可选地，上述接收模块1003还用于从媒体服务器接收传输通道指示信息，该传输通道指示信息指示通话终端通过视频通话媒体传输通道接收人脸识别结果，例如执行上述方法实施例中的S609、S719。

可选地，处理模块1001还用于控制发送模块1002或接收模块1003停止通过视频通话媒体传输通道传输通话视频流，例如执行上述方法实施例中的S613。

可选地，人脸识别结果包括表示人脸识别成功的信息或表示人脸识别失败的信息，处理模块1001还用于在人脸识别结果包括表示人脸识别成功的信息的情况下，处理对端通话终端的业务请求。

在采用集成的单元的情况下，图11示出了上述实施例中所涉及的通话终端的另一种可能的结构示意图。如图11所示，本申请实施例提供的通话终端可以包括：处理模块1101和通信模块1102。处理模块1101可以用于对该通话终端的动作进行控制管理，例如，处理模块1101可以用于支持该通话终端执行上述方法实施例中的S601、S611、S613、S721，和/或用于本文所描述的技术的其它过程。通信模块1102可以用于支持该通话终端与其他网络实体的通信，通信模块1102集成了上述发送模块1002和接收模块1003的功能，该通信模块1102可以用于支持该通话终端执行上述方法实施例中的S602、S609、S610、S710、S719、S720。可选地，如图11所示，该通话终端还可以包括存储模块1103，用于存储该通话终端的程序代码和数据。

其中，处理模块1101可以是处理器，例如处理器可以为图4A中的处理器410。通信模块1102可以是收发器、收发电路或通信接口等，例如图4A中的移动通信模块450和/或无线通信模块460，存储模块1103可以是存储器，例如图4A中的内部存储器421。

相应地，本申请实施例提供一种媒体服务器，根据上述方法示例可以对该媒体服务器进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图12示出上述实施例中所涉及的媒体服务器的一种可能的结构示意图。如图12所示，该媒体服务器包括处理模块1201、接收模块1202、获取模块1203和发送模块1204。处理模块1201用于建立第一视频通话媒体传输通道和第二视频通话媒体传输通道，第一视频通话媒体传输通道为通话终端与媒体服务器之间的视频通话媒体传输通道，第二视频通话媒体传输通道为媒体服务器与对端通话终端之间的视频通话媒体传输通道；第一视频通话媒体传输通道和第二视频通话媒体传输通道用于视频通话业务中的通话终端与对端通话终端传输通话视频流，通话视频流包含通话终端或对端通话终端拍摄的视频内容，例如执行上述方法实施例中的S601。接收模块1202用于从对端通话终端接收人脸识别申请，该人脸识别申请包括人脸识别申请标识，该人脸识别申请标识用于申请对与对端通话终端通话的通话终端对应的用户进行人脸识别，例如执行上述方法实施例中的S602、S710；并且通过第一视频通话媒体传输通道从通话终端接收人脸视频流，该人脸视频流包括通话终端对应的用户的人脸图像，例如执行上述方法实施例中的S606、S716。获取模块1203用于获取人脸识别结果，该人脸识别结果是基于人脸视频流对通话终端对应的用户进行人脸识别的结果，例如执行上述方法实施例中的S607、S717。发送模块1204用于通过第二视频通话媒体传输通道向对端通话终端发送人脸识别结果，以触发对端通话终端基于人脸识别结果处理通话终端的业务请求，例如执行上述方法实施例中的S608、S720。

可选地，上述发送模块1204还用于向通话终端发送SIP消息，该SIP消息中包括人脸识别请求标识，该人脸识别请求标识用于请求对通话终端对应的用户进行人脸识别，例如执行上述方法实施例中的S603、S711；接收模块1202还用于从通话终端接收SIP消息的响应消息，该SIP消息的响应消息指示通话终端对应的用户同意进行人脸识别，例如执行上述方法实施例中的S604、S712。

可选地，发送模块1204还用于向通话终端发送来源指示信息，该来源指示信息指示通话终端通过通话终端的摄像装置获取人脸视频流或者从通话终端的存储装置获取人脸视频流。

可选地，人脸视频流是从通话终端的存储装置获得的视频流，上述发送模块1204还用于向通话终端发送第一传输通道指示信息，该第一传输通道指示信息指示通话终端通过第一视频通话媒体传输通道传输人脸视频流，例如执行上述方法实施例中的S605、S715。

可选地，处理模块1201还用于控制发送模块1204或接收模块1202停止通过第一视频通话媒体传输通道传输通话视频流，例如执行上述方法实施例中的S612。

可选地，发送模块1204还用于向对端通话终端发送第二传输通道指示信息，该第二传输通道指示信息指示对端通话终端通过第二视频通话媒体传输通道接收人脸识别结果，例如执行上述方法实施例中的S609、S719。

可选地，处理模块1201还用于控制发送模块1204或接收模块1202停止通过第二视频通话媒体传输通道传输通话视频流，例如执行上述方法实施例中的S613。

可选地，发送模块1204还用于向通话终端发送人脸识别结果，例如执行上述方法实施例中的S608、S718。

可选地，发送模块1204还用于向通话终端发送姿态指示信息，该姿态指示信息指示通话终端对应的用户调整用户的姿态，以使得人脸图像满足预设条件。

可选地，处理模块1201还用于从人脸视频流中提取目标人脸图像；发送模块1204还用于并向人脸识别服务器发送目标人脸图像，以触发人脸识别服务器根据目标人脸图像对通话终端对应的用户进行人脸识别；上述获取模块1203具体用于从人脸识别服务器接收人脸识别结果。

上述媒体服务器的各个模块还可以用于执行上述方法实施例中的其他动作，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在采用集成的单元的情况下，图13示出了上述实施例中所涉及的媒体服务器的另一种可能的结构示意图。如图13所示，本申请实施例提供的媒体服务器可以包括：处理模块1301和通信模块1302。处理模块1301可以用于对该媒体服务器的动作进行控制管理，例如，处理模块1301可以用于支持该媒体服务器执行上述方法实施例中的S601、S607、S612、S613、S717，和/或用于本文所描述的技术的其它过程。通信模块1302可以用于支持该媒体服务器与其他网络实体的通信，通信模块1302集成了上述接收模块1202和发送模块1204的功能，该通信模块1302可以用于支持该媒体服务器执行上述方法实施例中的S602、S603、S604、S605、S606、S608、S609、S710、S711、S712、S715、S716、S719、S720。可选地，如图13所示，该媒体服务器还可以包括存储模块1303，用于存储该媒体服务器的程序代码和数据。

其中，处理模块1301可以是处理器，例如处理器可以为图5中的处理器501。通信模块1302可以是收发器、收发电路或网络接口等，例如图5中的网络接口503，存储模块1303可以是存储器，例如图5中的存储器502。

上述媒体服务器包含的模块实现上述功能的更多细节请参考前面各个方法实施例中的描述，在这里不再重复。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))方式或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、磁盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state drives，SSD))等。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种通信方法，其特征在于，所述方法由通话终端执行，所述方法包括：

建立视频通话媒体传输通道，所述视频通话媒体传输通道用于视频通话业务中的所述通话终端与对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；

从媒体服务器接收会话发起协议SIP消息，所述SIP消息中包括人脸识别请求标识，所述人脸识别请求标识用于请求对所述通话终端对应的用户进行人脸识别；

向所述媒体服务器发送所述SIP消息的响应消息，所述SIP消息的响应消息指示所述通话终端对应的用户同意进行人脸识别；

通过所述视频通话媒体传输通道向所述媒体服务器发送人脸视频流，所述人脸视频流包括所述通话终端对应的用户的人脸图像；

从所述媒体服务器接收人脸识别结果。

2.根据权利要求1所述的方法，其特征在于，

所述人脸视频流是通过所述通话终端的摄像装置拍摄获得的视频流；或者，

所述人脸视频流是从所述通话终端的存储装置获得的视频流。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

从所述媒体服务器接收来源指示信息，所述来源指示信息指示所述通话终端通过所述通话终端的摄像装置获取人脸视频流或者从所述通话终端的存储装置获取人脸视频流。

4.根据权利要求3所述的方法，其特征在于，所述人脸视频流是从所述通话终端的存储装置获得的视频流，在通过所述视频通话媒体传输通道向所述媒体服务器发送所述人脸视频流之前，所述方法还包括：

从所述媒体服务器接收传输通道指示信息，所述传输通道指示信息指示所述通话终端通过所述视频通话媒体传输通道传输所述人脸视频流。

5.根据权利要求4所述的方法，其特征在于，在通过所述视频通话媒体传输通道向媒体服务器发送人脸视频流之前，所述方法还包括：

停止通过所述视频通话媒体传输通道传输所述通话视频流。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

从所述媒体服务器接收姿态指示信息，所述姿态指示信息指示所述通话终端对应的用户调整所述用户的姿态，以使得所述人脸图像满足预设条件。

7.一种通信方法，其特征在于，所述方法由通话终端执行，所述方法包括：

向所述媒体服务器发送人脸识别申请，所述人脸识别申请包括人脸识别申请标识，所述人脸识别申请标识用于申请对与所述通话终端通话的对端通话终端对应的用户进行人脸识别；

通过所述视频通话媒体传输通道从所述媒体服务器接收人脸识别结果，所述人脸识别结果是基于所述人脸视频流对所述对端通话终端对应的用户进行人脸识别的结果；

基于所述人脸识别结果，处理所述对端通话终端的业务请求。

8.根据权利要求7所述的方法，其特征在于，

所述人脸视频流是通过所述对端通话终端的摄像装置拍摄获得的视频流；或者，

所述人脸视频流是从所述对端通话终端的存储装置获得的视频流。

9.根据权利要求7或8所述的方法，其特征在于，在通过所述视频通话媒体传输通道从所述媒体服务器接收人脸识别结果之前，所述方法还包括：

从所述媒体服务器接收传输通道指示信息，所述传输通道指示信息指示所述通话终端通过所述视频通话媒体传输通道接收所述人脸识别结果。

10.根据权利要求7至9任一项所述的方法，其特征在于，在通过所述视频通话媒体传输通道从所述媒体服务器接收人脸识别结果之前，所述方法还包括：

停止通过所述视频通话媒体传输通道传输所述通话视频流。

11.根据权利要求7至10任一项所述的方法，其特征在于，所述人脸识别结果包括表示人脸识别成功的信息或表示人脸识别失败的信息，所述基于所述人脸识别结果，处理所述对端通话终端的业务请求，包括：

在所述人脸识别结果包括所述表示人脸识别成功的信息的情况下，处理所述对端通话终端的业务请求。

12.一种通信方法，其特征在于，所述方法由媒体服务器执行，所述方法包括：

建立第一视频通话媒体传输通道和第二视频通话媒体传输通道，所述第一视频通话媒体传输通道为通话终端与所述媒体服务器之间的视频通话媒体传输通道，所述第二视频通话媒体传输通道为所述媒体服务器与对端通话终端之间的视频通话媒体传输通道；所述第一视频通话媒体传输通道和所述第二视频通话媒体传输通道用于视频通话业务中的所述通话终端与所述对端通话终端传输通话视频流，所述通话视频流包含所述通话终端或所述对端通话终端拍摄的视频内容；

从所述对端通话终端接收人脸识别申请，所述人脸识别申请包括人脸识别申请标识，所述人脸识别申请标识用于申请对与所述对端通话终端通话的通话终端对应的用户进行人脸识别；

通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流，所述人脸视频流包括所述通话终端对应的用户的人脸图像；

获取人脸识别结果，所述人脸识别结果是基于所述人脸视频流对所述通话终端对应的用户进行人脸识别的结果；

通过所述第二视频通话媒体传输通道向所述对端通话终端发送所述人脸识别结果，以触发所述对端通话终端基于所述人脸识别结果处理所述通话终端的业务请求。

13.根据权利要求12所述的方法，其特征在于，在从所述对端通话终端接收人脸识别申请之后，所述方法还包括：

向所述通话终端发送会话发起协议SIP消息，所述SIP消息中包括人脸识别请求标识，所述人脸识别请求标识用于请求对所述通话终端对应的用户进行人脸识别；

从所述通话终端接收所述SIP消息的响应消息，所述SIP消息的响应消息指示所述通话终端对应的用户同意进行人脸识别。

14.根据权利要求12或13所述的方法，其特征在于，

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

向所述通话终端发送来源指示信息，所述来源指示信息指示所述通话终端通过所述通话终端的摄像装置获取人脸视频流或者从所述通话终端的存储装置获取人脸视频流。

16.根据权利要求15所述的方法，其特征在于，所述人脸视频流是从所述通话终端的存储装置获得的视频流，在通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流之前，所述方法还包括：

向所述通话终端发送第一传输通道指示信息，所述第一传输通道指示信息指示所述通话终端通过所述第一视频通话媒体传输通道传输所述人脸视频流。

17.根据权利要求16所述的方法，其特征在于，在通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流之前，所述方法还包括：

停止通过所述第一视频通话媒体传输通道传输所述通话视频流。

18.根据权利要求12至17任一项所述的方法，其特征在于，在通过所述第二视频通话媒体传输通道向所述对端通话终端发送所述人脸识别结果之前，所述方法还包括：

向所述对端通话终端发送第二传输通道指示信息，所述第二传输通道指示信息指示所述对端通话终端通过所述第二视频通话媒体传输通道接收所述人脸识别结果。

19.根据权利要求12至18任一项所述的方法，其特征在于，在通过所述第二视频通话媒体传输通道向所述对端通话终端发送所述人脸识别结果之前，所述方法还包括：

停止通过所述第二视频通话媒体传输通道传输所述通话视频流。

20.根据权利要求12至19任一项所述的方法，其特征在于，在获取人脸识别结果之后，所述方法还包括：

向所述通话终端发送所述人脸识别结果。

21.根据权利要求12至20任一项所述的方法，其特征在于，所述方法还包括：

向所述通话终端发送姿态指示信息，所述姿态指示信息指示所述通话终端对应的用户调整所述用户的姿态，以使得所述人脸图像满足预设条件。

22.根据权利要求12至21任一项所述的方法，其特征在于，在通过所述第一视频通话媒体传输通道从所述通话终端接收人脸视频流之后，所述方法还包括：

从所述人脸视频流中提取目标人脸图像；

向人脸识别服务器发送所述目标人脸图像，以触发所述人脸识别服务器根据所述目标人脸图像对所述通话终端对应的用户进行人脸识别；

所述获取人脸识别结果，包括：

从所述人脸识别服务器接收所述人脸识别结果。

23.一种通话终端，其特征在于，包括存储器和与所述存储器连接的至少一个处理器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述至少一个处理器执行时，使得所述通话终端执行如权利要求1至6任一项所述的方法。

24.一种通话终端，其特征在于，包括存储器和与所述存储器连接的至少一个处理器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述至少一个处理器执行时，使得所述通话终端执行如权利要求7至11任一项所述的方法。

25.一种媒体服务器，其特征在于，包括存储器和与所述存储器连接的至少一个处理器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述至少一个处理器执行时，使得所述媒体服务器执行如权利要求12至22任一项所述的方法。

26.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在通话终端上运行时，使得所述通话终端执行如权利要求1至6任一项所述的方法。

27.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在通话终端上运行时，使得所述通话终端执行如权利要求7至11任一项所述的方法。

28.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在服务器上运行时，使得所述服务器执行如权利要求12至22任一项所述的方法。

29.一种通信系统，其特征在于，包括通话终端、对端通话终端以及媒体服务器；所述通话终端执行如权利要求1至6任一项所述的方法，所述对端通话终端执行如权利要求7至11任一项所述的方法，所述媒体服务器执行如权利要求12至22任一项所述的方法。