CN102202038B

CN102202038B - 一种实现语音能量显示的方法、系统、会议服务器和终端

Info

Publication number: CN102202038B
Application number: CN201010132685.7A
Authority: CN
Inventors: 王明武; 黄蓉军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2010-03-24
Filing date: 2010-03-24
Publication date: 2015-05-06
Anticipated expiration: 2030-03-24
Also published as: CN102202038A

Abstract

本发明实施例公开了一种实现语音能量显示的方法、系统、会议服务器和终端。其中方法的实现包括：接收来自参与会话的终端的流媒体的数据包；获取所述能量信息和所述数据源标识，对所述来自参与会话的终端的流媒体进行混音处理；将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端。终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

Description

一种实现语音能量显示的方法、系统、会议服务器和终端

技术领域

本发明涉及通信技术领域，特别涉及一种实现语音能量显示的方法、系统、会议服务器和终端。

背景技术

随着国际互联网(Internet)技术的发展，电信业务中基于网际协议(Internet Protocol，IP)的通讯应用越来越广泛，比如一对一文本聊天，多方文本会话，一对一语音通话，多方语音会话等等。在一对一的通讯中，参与通讯的只有两方，因此参与会话的双方都清楚自己在与谁进行通讯。但是在多方参与的通讯中，由于通讯来自多方，要清楚当前的信息来自哪一方，就比一对一通讯较为困难。在目前大多数的基于文本的会话通讯中，如聊天室，收到的消息中都明确指出了该条消息的发送者，因而接收者能清楚的知道这条消息来自哪个参与方，但在多方语音通讯系统中，想清楚的知道当前哪一方的正在说话，就比较困难。

出于用户界面的体验考虑，在一对一的语音通讯中，通常需要显示对方语音的能量大小(也可以称为音量)，但在多方会话通话应用中，通常能同时听到会话参与方的语音，这时只能通过声音特点，由人来判断当前话音较大的一方以及当前发言的参与方，因此，在多方会话系统中，界面显示语音能量大小的体验，要比在一对一语音通讯中，更有实际的意义和应用价值。

发明人在实现本发明的过程中发现：在多方会话通话的应用中，却不能显示通话参与方的语音能量大小。

发明内容

本发明实施例要解决的技术问题是提供一种实现语音能量显示的方法、系统、会议服务器和终端，实现多方会话的语音能量显示。

为解决上述技术问题，本发明所提供的实现语音能量信息显示的方法实施例可以通过以下技术方案实现：

接收来自参与会话的终端的流媒体的数据包；所述来自终端的流媒体的数据包携带有能量信息和数据源标识，所述能量信息用于表示终端当前的语音能量，所述数据源标识用于表示发送所述流媒体的数据包的终端；

获取所述能量信息和所述数据源标识，对所述来自参与会话的终端的流媒体进行混音处理；

将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端。

一种实现语音能量显示的方法，包括：

接收用户语音输入，并获取当前输入的语音的能量信息；

将创建的流媒体的数据包发送给会议服务器；

接收会议服务器发送的经过混音处理后的流媒体数据包；

解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；

根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量。

一种实现语音能量显示的方法，包括：

接收参与会话的其他终端发送的流媒体数据包；

一种会议服务器，包括：

接收单元，用于接收来自参与会话的终端的流媒体的数据包；所述来自终端的流媒体的数据包携带有能量信息和数据源标识，所述能量信息用于表示终端当前的语音能量，所述数据源标识用于表示发送所述流媒体的数据包的终端；

信息获取单元，用于获取能量信息和数据源标识；

混音单元，用于对所述来自参与会话的终端的流媒体进行混音处理；

发送单元，用于将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端。

一种终端，包括：

信息获取单元，用于接收用户语音输入，并获取当前输入的语音的能量信息；

发送单元，用于将创建的流媒体的数据包发送给会议服务器；

接收单元，用于接收会议服务器发送的经过混音处理后的流媒体数据包；

解析单元，用于解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；

显示单元，用于根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量。

一种终端，包括：

接收单元，用于接收参与会话的其他终端发送的流媒体数据包；

一种实现语音能量显示的系统，包括：会议服务器，以及两个或两个以上的终端，其中，

会议服务器，用于接收来自参与会话的终端的流媒体的数据包；所述来自终端的流媒体的数据包携带有能量信息和数据源标识，所述能量信息用于表示终端当前的语音能量，所述数据源标识用于表示发送所述流媒体的数据包的终端；获取能量信息和数据源标识，对所述来自参与会话的终端的流媒体进行混音处理；将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端；

终端，用于接收用户语音输入，并获取当前输入的语音的能量信息；将创建的流媒体的数据包发送给会议服务器；接收会议服务器发送的经过混音处理后的流媒体数据包；解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量。

一种实现语音能量显示的系统，包括：两个或两个以上的第一终端、第二终端，其中，

第一终端，用于接收用户语音输入，并获取当前输入的语音的能量信息；将创建的流媒体的数据包发送给参与会话的第二终端；

第二终端，用于接收第一终端发送的流媒体数据包；解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量。

上述技术方案具有如下有益效果：终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一方法流程示意图；

图2为本发明实施例二方法流程示意图；

图3为本发明实施例三方法流程示意图；

图4为本发明实施例四方法流程示意图；

图5为本发明实施例四可视界面示意图；

图6为本发明实施例五会议服务器结构示意图；

图7为本发明实施例五会议服务器结构示意图；

图8为本发明实施例六终端结构示意图；

图9为本发明实施例七终端结构示意图；

图10为本发明实施例八系统结构示意图；

图11为本发明实施例九系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、如图1所示，本发明实施例提供了一种实现语音能量显示的方法，包括：

101：接收来自参与会话的终端的流媒体的数据包；上述来自终端的流媒体的数据包携带有能量信息和数据源标识，上述能量信息用于表示终端当前的语音能量，上述数据源标识用于表示发送上述流媒体的数据包的终端；

上述接收的流媒体的数据包可以是来自于参与会话的一部分终端也可以是来自于全部与会终端，对此本发明实施例不予限定。上述会话可以是两个或两个以上的终端之间的语音交流方式，例如：语音会议，具体的通话形式本发明实施例不予限定。

具体地，上述数据包携带有能量信息和数据源标识包括：在上述数据包的协议头中携带能量信息和数据源标识，上述协议头包括实时传输协议(Real-time Transport Protocol，RTP)头、实时传输控制协议(RTP ControlProtocol，RTCP)头、独立实时传输协议头中的任意一项。当然，采用其他方式来携带能量信息和数据源标识也是可以的，并不影响本发明实施的实现，对此本发明实施例不予限定。

基于RTCP携带语音能量信息：

RTP流媒体格式介绍，互联网草案RFC3550(A SIP Event Package forConference State)给出了RTP头格式如下：

0 1 2 3

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

|V＝2|P|X| CC |M| PT | sequence number |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| timestamp |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| synchronization source(SSRC)identifier |

+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+＝+

| contributing source(CSRC)identifiers |

| .... |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

字段说明：

X(extension)：1bit，扩展指示。如果设定了X位，表示定长头字段后面会有一个头扩展。

CSRC(Contributing Source)：贡献源标识，表示那些在本报文中对RTPpayload作了贡献的源。

CC(CSRC count)：4bits，贡献源标识计数。指定了CSRC域中标识的个数，对于终端发出的RTP包，通常该值为0，只有经过混音后的RTP包，该值可以不会为0，且最大值为15。

SSRC(Synchronization Source)：32bits，标识本RTP包源的标识，由产生并发送该RTP包的源设备生成，该标识通常是唯一的。

CSRC list：该列表是可选的，对于非混音的RTP包，是不存在CSRC列表的。当对多方RTP包进行混音后，混音后RTP包会包含CSRC list，其内容是由被混音的所有的RTP包的SSRC值组成，其个数由CC指定，最多只能记录15个源的SSRC值，如果有多于15个贡献源，则只有15个源可以被标识。有些混音服务器在混音后，也可以不携带CSRC列表。

RFC3550还定义了RTP头的扩展头格式：

0 1 2 3

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| defined by profile | length |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| header extension |

| .... |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

语音能量信息的扩展说明：

语音能量信息就采用了RTP头的扩展规范，本发明实施例可以遵循RFC3550的规则定义语音能量信息的扩展头。

基于RTCP携带语音能量信息：

这种方案中的语音能量计算可以基于当前要发送的RTP中的语音能量，也可以基于一个RTCP周期内的语音能量。同时语音能量计算可以由终端执行也可以由混音服务器执行。

RTP控制协议(RTCP)是基于在会话中的对所有参与者周期传输的控制报文的，与数据报文使用相同的分发机制。

RTCP固定头格式：

0 1 2 3

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

|V＝2|P| | PT | length |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

packet type(PT)：8bits

基于独立的RTP携带语音能量信息：

这种方案中的语音能量计算可以基于当前要发送的RTP中的语音能量，也可以基于一定RTP周期内的语音能量。同时语音能量计算可以由通信终端完成也可以由混音服务器完成。

102：获取能量信息和数据源标识，对上述来自参与会话的终端的流媒体进行混音处理；在后续实施例的说明中，混音处理均指对两个或者两个以上终端的流媒体进行混音处理，后续实施例不再一一说明。

103：将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端。

具体地，将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端包括：

以列表的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，其中，数据源标识的顺序与其对应的能量信息的顺序一致；或者，以枚举的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，然后将携带有数据源标识以及与数据源标识对应的能量信息的进行混音处理后的流媒体的数据包，发送给参与会话的终端。

以下将就列表的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识和以枚举的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识分别进行说明：

混音处理后的RTP包中携带CSRC列表时：

0 1 2 3

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| 代表语音能量的标识 | length |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| 语音能量1 |

| 语音能量2 |

| 语音能量3 |

| 语音能量4 |

| .... |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

这种情况下，可以携带15个以内的RTP源的语音能量信息，语音能量信息的顺序与CSRC列表中的顺序一致。

混音RTP包中不携带CSRC列表(枚举方式)时：

0 1 2 3

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| 代表语音能量的标识 | length |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| CSRC1 |

| 语音能量1 |

| CSRC2 |

| 语音能量2 |

| .... |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

这种格式下，对携带语音能量信息的RTP源数量没有限制。

以上步骤的执行主体为会议服务器，在星形的组网场景下，参与会话的终端发送的流媒体数据包经过会议服务器，然后由会议服务器将所有参与会话的终端的流媒体数据包转发给参与会话的终端。实施例一的方案中，终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

实施例二，本实施例提供了与实施例一对应的，在终端侧实现语音能量显示的方法，如图2所示，包括：

201：接收用户语音输入，并获取当前输入的语音的能量信息；

202：将创建的流媒体的数据包发送给会议服务器；

203：接收会议服务器发送的经过混音处理后的流媒体数据包；

204：解析上述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；

具体地，上述解析流媒体数据包包括：解析上述流媒体数据包的协议头，上述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项。

205：根据得到的数据源标识以及与数据源标识对应的能量信息显示上述数据源标识的终端的语音能量。

实施例二的方案中，终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

实施例三，在网状组网场景下，参与会话的终端将自身的流媒体的数据直接发送给参与会话的其他终端，本实施例提供了在网状组网场景下的实现语音能量显示的方法，如图3所示，包括：

301：接收用户语音输入，并获取当前输入的语音的能量信息；

302：将创建的流媒体的数据包发送给参与会话的其他终端；

303：接收参与会话的其他终端发送的流媒体数据包；

304：解析上述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；

需要说明的是，如果在终端侧，终端仅实现语音接收的功能，以上301和302是不必执行的；如果在终端侧，终端仅实现语音发送的功能，以上303和304是不必执行的。

语音的能量信息扩展头格式如下：

0 1 2 3

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| 代表语音能量的标识 | length |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

| 语音能量 |

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

当语音能量在终端设备上计算时，终端发出的RTP流采用此格式，携带计

算好的语音能量信息；对于在会议系统侧计算语音能量时，终端可以不采用该格式。

305：根据得到的数据源标识以及与数据源标识对应的能量信息显示上述数据源标识的终端的语音能量。

实施例四，本发明实施例还提供了在星形组网场景下进行会话的流程说明，在本实施例中选用了基于会话初始协议(Session Initiation Protocol，SIP)的会话业务流程，并且遵循了RFC4575的规范，结合上述对RTP包的扩展方式，实现会话中，实时展示会话参与方的语音能量大小，便于识别当前主要的说话方。

如图4所示，会议系统可由多个物理上的服务器和功能模块组成，例如可以有会议应用服务器、流媒体资源服务器等，后续实施例不再赘述，以会议系统统称，用户的终端(User Equipment，UE)UE1～UE3为三个参与会话的终端，包括：

401：与会方参与会话，该流程是因特网多媒体子系统(Internet MultiediaSubsystem，IMS)会议系统的标准业务流程，这里不再详述。

402：会议系统将与会方的媒体标识与与会方的终端的统一资源标识

(Uniform Resource Identifier，URI)一一对应上，并通知到与会方，该流程遵循RFC4575。以下给出会议系统通知UE1的通告(Notify)请求的内容：

NOTIFY sip：[5555::aaa:bbb:ccc:ddd]：1357；comp＝sigcomp SIP/2.0

Via：SIP/2.0/UDP mrfc2.home2.net；branch＝z9hG4bK348923.1

Max-Forwards：70

P-Charging-Vector：

icid-value＝″AyretyU0dm+6O2IrT5tAFrbHLso＝123551024″；orig-ioi＝home1.net

Route：<sip:scscf1.home1.net；lr>，<sip:pcscf1.visited1.net；lr>

From：<sip:conference 1mrfc2.home2.net>；tag＝151170

To：<sip:user1home1.net>；tag＝31415

Call-ID：b89rjhnedlrfjflslj40a222

CSeq：42NOTIFY

Subscription-State：active；expires＝7200

Event：conference；recurse

Contact：<sip:conference 1mrfc2.home2.net>

Content-Type：application/conference-info+xml

Content-Length：(...)

<？xml version＝″1.0″encoding＝″UTF-8″？>

<conference-info version＝″0″

state＝″full″

entity＝″conference1mrfc2.home2.net″

xmlns＝″urn:ietf:params:xml:ns:conference-info″>

<status>connected</status>

<media-stream media-type＝″audio″>

</media-stream>

</user>

<status>connected</status>

<media-stream media-type＝″audio″>

</media-stream>

</user>

</conference-info>

以上实例中，UE2的语音流媒体的标识为<ssrc>583398</ssrc>；UE3的语音流媒体的标识为<ssrc>458973</ssrc>。UE1收到这个NOTIFY消息后，保存这两个值，并与用户URI对应。

403：会议系统接收来自UE1～UE3的流媒体数据包，其中上述流媒体的数据包携带有能量信息和数据源标识，上述能量信息用于表示UE当前的语音能量，上述数据源标识用于表示发送上述流媒体的数据包的UE；

404：会议系统计算参与方的语音能量，并插入到混音处理后的流媒体数据包中，然后将混音处理后的流媒体数据包发送给UE1～UE3。

可选地，步骤404中计算语音能量的步骤可以在发送流媒体数据包的终端上完成，然后由终端将语音能量携带在RTP扩展头中发送给会议系统。这样可以减轻会议系统的处理压力。

UE1～UE3收到混音处理后的流媒体数据包后，解析混音处理后的流媒体数据包得到参与方的语音能量的信息，然后可以在可视界面中显示这些信息，如图5为UE1显示UE2和UE3的语音能量大小的一个示例：

当UE1收到的混音流媒体，分别提取UE2和UE3的语音能量信息，并根据对应的CSRC值，与本地通过NOTIFY消息获得的UE2与UE3的SSRC值分别匹配，确定User2与User3的语音能量大小，并在可视界面展现出来，由图5的示例可以判断出，当前语音流中，说话声音较大者为User3，较小者为User2。

实施例五，本发明实施例还提供了一种会议服务器，如图6所示，包括：

接收单元601，用于接收来自参与会话的终端的流媒体的数据包；上述来自终端的流媒体的数据包携带有能量信息和数据源标识，上述能量信息用于表示终端当前的语音能量，上述数据源标识用于表示发送上述流媒体的数据包的终端；

信息获取单元602，用于获取能量信息和数据源标识；

混音单元603，用于对上述来自参与会话的终端的流媒体进行混音处理；

发送单元604，用于将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端。

具体地，如图7所示，上述发送单元604包括：

数据包创建单元701，用于以列表的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，其中，数据源标识的顺序与其对应的能量信息的顺序一致；或者，以枚举的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识；

发送子单元702，用于将携带有数据源标识以及与数据源标识对应的能量信息的进行混音处理后的流媒体的数据包，发送给参与会话的终端。

实施例五的方案中，终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

实施例六，本发明实施例还提供了一种终端，如图8所示，包括：

信息获取单元801，用于接收用户语音输入，并获取当前输入的语音的能量信息；

发送单元802，用于将创建的流媒体的数据包发送给会议服务器；

接收单元803，用于接收会议服务器发送的经过混音处理后的流媒体数据包；

解析单元804，用于解析上述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；

显示单元805，用于根据得到的数据源标识以及与数据源标识对应的能量信息显示上述数据源标识的终端的语音能量。

具体地，上述解析单元804，用于解析上述流媒体数据包的协议头，上述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项，得到数据源标识以及与数据源标识对应的能量信息。

实施例六的方案中，终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

实施例七，本发明实施例还提供了另一种终端，如图9所示，包括：

信息获取单元901，用于接收用户语音输入，并获取当前输入的语音的能量信息；

发送单元902，用于将创建的流媒体的数据包发送给参与会话的其他终端；

需要说明的是，如果在某终端侧仅作为语音的接收装置使用，以上信息获取单元901和发送单元902是不必要的。

接收单元903，用于接收参与会话的其他终端发送的流媒体数据包；

解析单元904，用于解析上述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；

显示单元905，用于根据得到的数据源标识以及与数据源标识对应的能量信息显示上述数据源标识的终端的语音能量。

需要说明的是，如果在终端侧仅实现语音的接收功能，以上信息获取单元901和发送单元902是不必要的。需要说明的是，如果在终端侧仅实现语音的发送功能，以上信息接收单元903、解析单元904和显示单元905是不必要的。

具体地，上述解析单元904，用于解析上述流媒体数据包的协议头，上述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项，得到数据源标识以及与数据源标识对应的能量信息。

实施例七的方案中，终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

实施例八，本发明实施例还提供了一种实现语音能量显示的系统，如图10所示，包括：会议服务器1001，以及两个或两个以上的终端1002，其中，

会议服务器1001，用于接收来自参与会话的终端1002的流媒体的数据包；上述来自终端1002的流媒体的数据包携带有能量信息和数据源标识，上述能量信息用于表示终端1002当前的语音能量，上述数据源标识用于表示发送上述流媒体的数据包的终端1002；获取能量信息和数据源标识，对上述来自参与会话的终端1002的流媒体进行混音处理；将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端1002；

终端1002，用于接收用户语音输入，并获取当前输入的语音的能量信息；将创建的流媒体的数据包发送给会议服务器1001；接收会议服务器1001发送的经过混音处理后的流媒体数据包；解析上述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示上述数据源标识的终端1002的语音能量。

具体地，上述数据包携带有能量信息和数据源标识包括：

在上述数据包的协议头中携带能量信息和数据源标识，上述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项。

具体地，将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端1002包括：

以列表的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，其中，数据源标识的顺序与其对应的能量信息的顺序一致；或者，以枚举的格式在上述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，然后将携带有数据源标识以及与数据源标识对应的能量信息的进行混音处理后的流媒体的数据包，发送给参与会话的终端1002。

实施例八的方案中，终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

实施例九，本发明实施例还提供了另一种实现语音能量显示的系统，如图11所示，包括：第一终端1101，第二终端1102，上述第一终端1101，第二终端1102仅作为区分两个终端使用，另外需要说明的是，本系统包含有两个以上的第一终端1101，第二终端的个数不限，其中，

第一终端1101，用于接收用户语音输入，并获取当前输入的语音的能量信息；将创建的流媒体的数据包发送给参与会话的第一终端1102；

第一终端1102，用于接收第一终端1101发送的流媒体数据包；解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量。

所述第一终端1101，还用于接收第一终端1102发送的流媒体数据包；解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量；

所述第一终端1102，还用于接收用户语音输入，并获取当前输入的语音的能量信息；将创建的流媒体的数据包发送给第一终端1101。

具体地，上述解析流媒体数据包包括：

解析上述流媒体数据包的协议头，上述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项。

实施例九的方案中，终端通过在自身发送的流媒体数据包中携带该数据包对应的语音的能量信息，由会议服务器将参与会话的终端的能量信息发送给参与会话的终端，这样参与会话的终端就能够获取到参与会话的终端的语音能量信息，从而实现显示通话参与方的语音能量大小。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，上述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明实施例所提供的一种实现语音能量显示的方法、系统、会议服务器和终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实现语音能量显示的方法，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：

将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给所有参与会话的终端；

其中，所述数据包携带有能量信息和数据源标识包括：

在所述数据包的协议头中携带能量信息和数据源标识，所述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项。

2.根据权利要求1所述方法，其特征在于，将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给参与会话的终端包括：

以列表的格式在所述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，其中，数据源标识的顺序与其对应的能量信息的顺序一致；或者，以枚举的格式在所述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，然后将携带有数据源标识以及与数据源标识对应的能量信息的进行混音处理后的流媒体的数据包，发送给参与会话的终端。

3.一种实现语音能量显示的方法，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：

接收用户语音输入，并获取当前输入的语音的能量信息；

将创建的流媒体的数据包发送给会议服务器；

接收会议服务器发送的经过混音处理后的流媒体数据包；

根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量；

其中，所述解析流媒体数据包包括：

解析所述流媒体数据包的协议头，所述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项。

4.一种实现语音能量显示的方法，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：

接收参与会话的其他终端发送的流媒体数据包；

其中，所述解析所述流媒体数据包包括：

5.根据权利要求4所述方法，其特征在于，还包括：

接收用户语音输入，并获取当前输入的语音的能量信息；

将创建的流媒体的数据包发送给参与会话的其他终端。

6.一种会议服务器，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：

信息获取单元，用于获取能量信息和数据源标识；

发送单元，用于将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给所有参与会话的终端；

其中，所述数据包携带有能量信息和数据源标识包括：

7.根据权利要求6所述会议服务器，其特征在于，所述发送单元包括：

数据包创建单元，用于以列表的格式在所述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识，其中，数据源标识的顺序与其对应的能量信息的顺序一致；或者，以枚举的格式在所述混音处理后的流媒体的数据包的协议头中携带能量信息和数据源标识；

发送子单元，用于将携带有数据源标识以及与数据源标识对应的能量信息的进行混音处理后的流媒体的数据包，发送给参与会话的终端。

8.一种终端，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：

显示单元，用于根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量；

其中，所述解析单元，具体用于解析所述流媒体数据包的协议头，所述协议头包括实时传输协议头、实时传输控制协议头、独立实时传输协议头中的任意一项，得到数据源标识以及与数据源标识对应的能量信息。

9.一种终端，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：

其中，所述解析所述流媒体数据包包括：

10.根据权利要求9所述终端，其特征在于，还包括：

发送单元，用于将创建的流媒体的数据包发送给参与会话的其他终端。

11.一种实现语音能量显示的系统，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：会议服务器，以及两个或两个以上的终端，其中，

会议服务器，用于接收来自参与会话的终端的流媒体的数据包；所述来自终端的流媒体的数据包携带有能量信息和数据源标识，所述能量信息用于表示终端当前的语音能量，所述数据源标识用于表示发送所述流媒体的数据包的终端；获取能量信息和数据源标识，对所述来自参与会话的终端的流媒体进行混音处理；将进行混音处理后的流媒体的数据包、数据源标识以及与数据源标识对应的能量信息，发送给所有参与会话的终端；

终端，用于接收用户语音输入，并获取当前输入的语音的能量信息；将创建的流媒体的数据包发送给会议服务器；接收会议服务器发送的经过混音处理后的流媒体数据包；解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量；

其中，所述数据包携带有能量信息和数据源标识包括：

12.一种实现语音能量显示的系统，应用于两个或两个以上个的终端会话通话中，其特征在于，包括：两个或两个以上的第一终端、第二终端，其中，

第二终端，用于接收第一终端发送的流媒体数据包；解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量；

其中，所述解析所述流媒体数据包包括：

13.根据权利要求12所述系统，其特征在于，

所述第一终端，还用于接收第二终端发送的流媒体数据包；解析所述流媒体数据包，得到数据源标识以及与数据源标识对应的能量信息；根据得到的数据源标识以及与数据源标识对应的能量信息显示所述数据源标识的终端的语音能量；

所述第二终端，还用于接收用户语音输入，并获取当前输入的语音的能量信息；将创建的流媒体的数据包发送给第一终端。