CN102572369B

CN102572369B - 语音音量提示的方法、语音音量提示终端及视频通信系统

Info

Publication number: CN102572369B
Application number: CN201010594404.XA
Authority: CN
Inventors: 盖文才
Original assignee: Huawei Device Co Ltd
Current assignee: Global Innovation Polymerization LLC; Tanous Co
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2014-11-05
Anticipated expiration: 2030-12-17
Also published as: CN102572369A

Abstract

本发明实施例提供一种语音音量提示的方法、终端及视频通信系统，其中，语音音量提示的方法包括：第一终端接收远端采集的语音，并根据所述语音获取远端的语音大小表征值；第一终端将所述远端的语音大小表征值与第一终端的回声比例相乘，得到远端在所述第一终端的语音大小指示数据；所述回声比例是第一终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值；第一终端向所述远端发送表示所述语音大小指示数据的语音信息，使所述远端获知自身的语音在第一终端的播放效果。使用该技术方案，能够使一终端获知自己采集的语音在远方终端侧播放的音量效果。

Description

语音音量提示的方法、语音音量提示终端及视频通信系统

技术领域

本发明涉及通信技术领域，特别涉及一种语音音量提示的方法、语音音量提示终端及视频通信系统。

背景技术

视讯会议业务是一种多媒体通信业务，其利用视讯终端和通信网络召开会议，可以同时实现两地或多个地点之间的图像、语音、数据的交互。会议终端将本地摄像机拍摄的图像信号、麦克风拾取的声音信号进行压缩编码，经过传输网络传至远方会场。同时，通过传输网络接收远方会场传来的数字信号，对数字信号进行解码得到模拟的图像信号和声音信号。

现在，一些会场的终端根据本会场麦克风拾取的本地与会者的声音，用音量电平指示的方式指示本会场与会者声音的音量；或者，控制本会场麦克风拾取的声音在本会场的扬声器中回放，让本会场的与会者听到自己的声音，通过这两种方式可以使本会场的与会者确定自己的声音是否正常，在不正常时调整本地会场的音频参数，使声音达到比较满意的效果。

现有技术具有如下缺点：

现有技术仅对本会场与会者的声音进行指示或者回放，让本地与会者误以为音量电平指示的声音或者扬声器回放的声音就是远端会场听到的本会场与会者的声音；实际上，由于远方会场音频系统本身的配置原因，使本地与会者的声音在远方会场播放时音量可能会发生变化，所以仅对本会场与会者的声音进行指示或者回放并不能真实的反映出本会场与会者的声音在远方会场的情况。

发明内容

本发明实施例提供一种语音音量提示的方法、终端及视频通信系统，能够使一终端获知自己采集的语音在远方终端侧播放的音量效果。

有鉴于此，本发明实施例提供：

一种语音音量提示的方法，包括：

第一终端接收远端采集的语音，并根据所述语音获取远端的语音大小表征值；

第一终端将所述远端的语音大小表征值与第一终端的回声比例相乘，得到远端在所述第一终端的语音大小指示数据；所述回声比例是第一终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值；

第一终端向所述远端发送表示所述语音大小指示数据的语音信息，使所述远端获知自身的语音在第一终端的播放效果；

其中，所述放音设备和所述拾音设备均为所述第一终端所在会场的设备；

所述远端在所述第一终端的语音大小指示数据为远方终端所在会场的与会者声音在所述第一终端所在会场的语音大小指示数据。

一种语音音量提示终端，包括：

接收单元，用于接收远端采集的语音；

语音大小表征值获取单元，用于根据所述语音获取远端的语音大小表征值；

语音大小指示数据获取单元，用于将所述远端的语音大小表征值与语音音量提示终端的回声比例相乘，得到远端在所述语音音量提示终端的语音大小指示数据；所述回声比例是语音音量提示终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值；

发送单元，用于向所述远端发送表示所述语音大小指示数据的语音信息，使所述远端获知自身的语音在语音音量提示终端的播放效果；

其中，所述放音设备和所述拾音设备均为所述语音音量提示终端所在会场的设备；

所述远端在所述语音音量提示终端的语音大小指示数据为远方终端所在会场的与会者声音在所述语音音量提示终端所在会场的语音大小指示数据。

一种视频通信系统，包括：上述语音音量提示终端和媒体服务器，其中，

所述媒体服务器，用于接收所述语音音量提示终端采集的图像，和远端在所述语音音量提示终端的语音大小指示数据，根据所述语音大小指示数据获取语音大小标识，将所述语音大小标识叠加到所述语音音量提示终端采集的图像上向所述远端发送。

一种视频通信系统，包括：第一终端和第二终端，其中，

第一终端，用于接收第二终端所采集的语音，获取第二终端所采集语音的语音大小表征值；将所述第二终端的语音大小表征值与本终端的回声比例相乘，得到所述第二终端的语音大小指示数据，向所述第二终端发送表示所述第二终端的语音大小指示数据的语音信息；所述回声比例是第一终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值；其中，所述放音设备和拾音设备是第一终端侧的放音设备和拾音设备；所述第二终端在所述第一终端的语音大小指示数据为第二终端所在会场的与会者声音在所述第一终端所在会场的语音大小指示数据；

第二终端，用于将本终端采集的语音发送给所述第一终端，以及接收所述第一终端发送的表示所述第二终端的语音大小指示数据的语音信息。

本发明实施例中第一终端将远端的语音大小表征值与第一终端的回声比例相乘，得到远端在所述第一终端的语音大小指示数据，并向远端发送表示该语音大小指示数据的语音信息，由于回声比例是第一终端接收的语音被放音设备播放后被拾音设备拾取到的语音大小与所接收到的语音大小的比值，这样远端在所述第一终端的语音大小指示数据就能表示远端采集的语音在第一终端侧播放时的真实情况，所以可以使远端所在会场的与会者获知该远端所采集的语音在第一终端侧的播放效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音音量提示的方法流程图；

图2是本发明另一实施例提供的适用于点对点会议的一种语音音量提示的方法流程图；

图3是本发明又一实施例提供的适用于多点会议的语音音量提示的方法流程图；

图4是本发明实施例提供的RTP包头结构示意图；

图5是本发明实施例提供的RTP包中扩展的头部结构示意图；

图6是本发明实施例提供的RTCP包结构示意图；

图7A是本发明实施例提供的一种终端结构图；

图7B是本发明实施例提供的另一种终端结构图；

图8是本发明实施例提供的一种视频通信系统结构图；

图9是本发明实施例提供的另一种视频通信系统结构图。

具体实施方式

参阅图1，本发明实施例提供一种语音音量提示的方法，该方法包括：

101、第一终端接收远端采集的语音，并根据所述语音获取远端的语音大小表征值。

其中，语音大小表征值可以为语音的音量值或者能量值。

其中，远端是与第一终端进行通信的远方终端，可以指一个终端，也可以指多个终端。在点对点会议中，远端指的是与本地终端进行通信的一个终端；而在点到多点会议中，远端指的是能与本地终端进行通信的多个终端。

其中，对于点对点会议和多点会议中，远端采集的语音可以是远端所在会场的与会者的语音。

102、第一终端将所述远端的语音大小表征值与第一终端的回声比例相乘，得到远端在所述第一终端的语音大小指示数据；所述回声比例是第一终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值。

其中，第一终端接收的语音可以是第一终端接收的远端采集并利用网络传输给第一终端的语音，也可以是媒体服务器发送的测试语音；语音大小指示数据可以是音量指示数据，或者能量指示数据。

其中，在点对点会议和多点会议中，放音设备、拾音设备是第一终端侧的放音设备和拾音设备，即第一终端所在会场的放音设备和拾音设备，其中，放音设备可以为扬声器或扬声器阵列，拾音设备可以为麦克风或者麦克风阵列。可以理解，所述的放音设备和拾音设备可以集成在第一终端内部，也可以采用独立的设备实现。

其中，对于点对点会议和多点会议中，远端在第一终端的语音大小指示数据可以是远方终端所在会场的与会者声音在第一终端所在会场的语音大小指示数据。

103、第一终端向所述远端发送表示所述语音大小指示数据的语音信息，使所述远端获知自身的语音在第一终端的播放效果。

其中，表示所述语音大小指示数据的语音信息可以是表示该语音大小指示数据与预定数值的比值的语音大小标识，其中，预定数值是视频通信系统中所允许的最大语音的大小表征值，语音大小标识具体可以是音量电平指示条；或者，可以就是该语音大小指示数据。当语音大小标识是由语音大小指示数据来表征时，第一终端具体可以采用RTP(Real-time Transport Protocol，实时传送协议)包或者RTCP(Real-time Control Protocol，实时传输控制协议)包携带该语音大小指示数据。

可以理解，上述的语音大小标识采用的是将语音大小指示数据和预定数值的比值来表征，还可以直接采用语音大小指示数据来表征，譬如：直接将检测得到的语音大小的分贝值作为表征。

具体的，为了使远端能够在显示第一终端采集的图像的同时显示该语音大小标识，该方法还包括：第一终端将该语音大小标识叠加到第一终端采集的图像上；该步骤中，第一终端向远端发送叠加有语音大小标识的第一终端采集的图像，这样，该语音大小标识就可以直接在远端显示出来，使远端的与会者直接看到该语音大小标识，获知远端采集的语音在第一终端侧的播放效果。

或者，在多点会议中，为了使远端能够在显示第一终端采集的图像的同时显示该语音大小标识，该步骤中，第一终端向媒体服务器发送远端在第一终端的语音大小指示数据，使媒体服务器根据该语音大小指示数据获取语音大小标识，将该语音大小标识叠加到第一终端采集的图像上后向远端发送，这样，该语音大小标识就可以直接在远端显示出来，使远端的与会者直接看到该语音大小标识，获知该远端采集的语音在第一终端侧的播放效果。其中，本实施例和本发明后续实施例中的媒体服务器可以是MCU(Multipoint ControlUnit，多点控制单元)。

可选的，步骤101中第一终端接收的远端采集的语音是会议中除第一终端以外的至少两个终端所采集的语音混音后的语音。为了获取该至少两个终端所采集的语音，该方法还包括：第一终端可利用盲源分离技术，从媒体服务器发送的混音后的语音中分离出所述至少两个终端采集的语音；相应的，步骤102中，第一终端分别将所述至少两个终端的语音大小表征值与第一终端的回声比例相乘，分别得到所述至少两个终端的语音大小指示数据，在步骤103中，第一终端分别向至少终端发送相应的语音大小指示数据。

上述对混音之后的语音进行分离，采用的是盲源分离技术，由于盲源分离技术属于现有技术，在此不再进行赘述。

本发明实施例中第一终端将远端的语音大小表征值与第一终端的回声比例相乘，得到远端在所述第一终端的语音大小指示数据，并向远端发送表示该语音大小指示数据的语音信息，由于回声比例是第一终端接收的语音被放音设备播放后被拾音设备拾取到的语音大小与所接收到的语音大小的比值，这样远端在所述第一终端的语音大小指示数据就能表示远端采集的语音在第一终端侧播放时的真实情况，所以可以使远端获知该远端所采集的语音在第一终端侧的播放效果。

为使上述实施例提供的技术方案更加清楚明白，图2所示实施例将对本发明提供的技术方案进行详细描述，该方案以点对点会议为例，其中，第一会场的终端将第二会场的与会者语音的音量值与回声比例相乘得到音量指示数据并发送给第二会场终端，其具体包括：

201、第一会场的终端接收第二会场的与会者语音。

202、第一会场的终端获取第二会场与会者的语音音量值。

具体的，该步骤202可以通过如下方式获取第二会场与会者的语音音量值：

先获取一段时间内第二会场与会者的语音波形，对第二会场与会者的语音波形进行采样，获取各采样时间点的语音能量值，具体的，可以是每隔1s采样一次，也可以是每隔200ms采样一次，不影响本发明的实现，然后通过如下公式获得各采样时间点的语音音量值；

B＝A×logE

其中，B表示语音音量，A表示语音能量；

然后根据各采样时间点的语音音量值，可以有如下几种方式获取该段时间内第二会场与会者的语音音量值：

第一种方式：将一段时间内各采样时间点对应的第二会场与会者的语音音量值相加，用相加得到的语音音量值之和除以该段时间内采样时间点的个数(该段时间内采样时间点的个数即为该段时间内采样的次数)，将得到的商作为该段时间内第二会场与会者的语音音量值。

第二种方式：获取一段时间内各采样时间点对应的第二会场与会者的语音音量值中的最大值，将最大值作为该段时间内第二会场与会者的语音音量值。

第三种方式：假定一段时间的语音波形对应5个采样时间点，获取前4个采样时间点对应的语音波形与横轴、纵轴的面积，将所述面积与第一加权系数相乘，将第5个采样时间点对应的语音音量值与第二加权系数相乘，将两个相乘的结果相加，将相加得到的和作为第二会场与会者的语音音量值。其中，第一加权系数与第二加权系数是预定值，两者和为1，如果预定的第二加权系数的值比较大，则表示在求当前第二会场与会者的语音音量值时考虑第5个采样时间点对应的语音音量值的比重比较大，则求得的当前第二会场与会者的语音音量值实时性比较强；如果预定的第一加权系数的值比较大，则表示在求第二会场与会者的语音音量值时考虑历史音量(即前4个采样时间点对应的语音波形与横轴、纵轴的面积)的比重比较大，则所求得的当前第二会场与会者的语音音量值实时性不强，但相对于以前求出的第二会场与会者的语音音量值的跳变小。

203、第一会场的终端将第二会场与会者的语音音量值与第一会场的终端的回声比例相乘，得到第二会场与会者的语音在第一会场的音量指示数据。

其中，在该步骤之前，可以采用如下方式获取回声比例：

第一会场的终端接收到某一远端会场发送的与会者语音，获取该与会者的语音音量值(具体的获取语音音量值的方法与202步骤所描述的方式相同)；利用扬声器播放该与会者的语音，扬声器播放出的声音所反映的声波被会场的墙壁、地板和天花板等反射，这些反射波被麦克风拾取，获取麦克风拾取的该与会者语音的音量值(具体的获取语音音量值的方法与202步骤所描述的方式相同)；求麦克风拾取的该与会者语音的音量值与第一会场的终端接收的该与会者的语音音量值的比值，作为回声比例。

在获取回声比例的过程中，播放设备(如扬声器)播放出来的声音在会场反射之后，又被拾音设备(如麦克风)拾取，在拾取的过程中，不可避免的会混入第一会场的噪声，为了更好的保证拾取效果，可增加音频去噪处理，将混入的噪声滤除。

204、第一会场的终端向第二会场的终端发送第二会场与会者的语音在第一会场的音量指示数据。

具体的，可以采用RTP包或者RTCP包携带该音量指示数据。

205、第二会场的终端根据所述第二会场与会者的语音在第一会场的音量指示数据和预定数值，显示音量电平指示条，该音量电平指示条表示第二会场与会者的语音在第一会场的音量指示数据与预定数值的比值。

其中，音量电平指示条类似于调音台的音量电平指示条，其指示了第二会场与会者的语音在第一会场的音量指示数据与预定数值的比值，预定数值对应该音量电平指示条的满刻度，第二会场与会者的语音在第一会场的音量指示数据对应当前的音量刻度。这样，第二会场与会者根据该音量电平指示条获知自己的声音在第一会场播放时的真实情况，如果音量电平指示条指示的音量刻度比较小，则与会者可以提高自己的声音，或者，说话时靠近麦克风，使第一会场的与会者听到的声音变大。其中，该实施例中预定数值为视频会议中允许的最大语音的音量值。

可选的，该步骤也可以通过如下方式实现：根据第二会场与会者的语音在第一会场的音量指示数据和预定数值，控制第二会场的麦克风接收的第二会场与会者的语音从第二会场的扬声器回放，并同时控制回放时的音量大小，即当第二会场与会者的语音在第一会场的音量指示数据与预定数值的比值比较小，则表示第二会场与会者的声音在第一会场中播放时声音偏小，此时第二会场与会者可以提高自己的声音，或者，说话时靠近麦克风，使第一会场的与会者听到的声音变大。

本发明实施例中第一会场的终端将第二会场与会者的语音音量值与第一会场的终端的回声比例相乘，得到第二会场与会者的语音在第一会场的音量指示数据，由于回声比例是第一会场的终端接收的语音被放音设备播放后被拾音设备拾取的语音音量值与所接收的语音的音量值的比值，所以将第二会场与会者的语音音量值与回声比例相乘后，就能模拟出第二会场与会者语音在第一会场的播放效果，并向第二会场的终端发送第二会场与会者的语音在第一会场的音量指示数据，使第二会场与会者获知自己的声音在第一会场的播放效果。

可选的，在上述步骤204中，第一会场的终端可以不向第二会场的终端发送第二会场与会者的语音在第一会场的音量指示数据，而是获取该音量指示数据与预定数值(该实施方式中是指视频会议中允许的最大语音的音量值)的比值，将表示该比值的音量电平指示条叠加到第一会场与会者图像上并向第二会场的终端发送，这样第二会场的终端在显示第一会场的与会者图像的同时就显示该音量电平指示条，使第二会场的与会者获知自己的声音在第一会场的播放效果。

如下图3所示实施例将以多点会议为例，对本发明提供的语音音量提示的方法进行详细描述：

301、媒体服务器(具体如：MCU)接收第二会场的与会者语音和第三会场的与会者语音，将第二会场的与会者语音和第三会场的与会者语音进行混音，向第一会场的终端发送混音后的语音。

302、第一会场的终端接收第二会场的与会者语音和第三会场的与会者语音混音后的语音，采用盲源分离技术，从混音后的语音中分离出第二会场的与会者语音和第三会场的与会者语音，获取第二会场与会者的语音音量值和第三会场的与会者的语音音量值。

该步骤具体的获取语音音量值的方式与步骤202相同，在此不再赘述。

303、第一会场的终端将第二会场与会者的语音音量值与第一会场的终端的回声比例相乘，得到第二会场与会者的语音在第一会场的音量指示数据，将第三会场与会者的语音音量值与第一会场的终端的回声比例相乘，得到第三会场与会者的语音在第一会场的音量指示数据。

其中，在该步骤之前，需要获取回声比例，其获取回声比例的方式可以与步骤203中所示方式相同；或者，媒体服务器向第一会场的终端发送测试语音，第一会场的终端获取该测试语音的语音音量值(具体的获取语音音量值的方法与202步骤所描述的方式相同)；利用扬声器播放测试语音，扬声器播放出的声波被会场的墙壁、地板和天花板等反射，这些反射波被麦克风拾取，获取麦克风拾取的语音音量值(具体的获取语音音量值的方法与202步骤所描述的方式相同)；求麦克风拾取的语音音量值与第一会场的终端接收的测试语音的音量值的比值，作为回声比例。

304、第一会场的终端向媒体服务器发送第二会场与会者的语音在第一会场的音量指示数据和第三会场与会者的语音在第一会场的音量指示数据。

具体的，可以采用RTP包或者RTCP包携带该音量指示数据。

305、第一会场的终端向媒体服务器发送第一会场的与会者图像。

306、媒体服务器根据第二会场与会者的语音在第一会场的音量指示数据和预定数值的比值，得到第二会场与会者的语音在第一会场的音量大小标识，将该音量大小标识叠加到第一会场的与会者图像上，将叠加有该音量大小标识的第一会场的与会者图像发送给第二会场的终端。

307、第二会场的终端显示叠加有音量大小标识的第一会场的与会者图像。

308、媒体服务器根据第三会场与会者的语音在第一会场的音量指示数据和预定数值的比值，得到第三会场与会者的语音在第一会场的音量大小标识，将该音量大小标识叠加到第一会场的与会者图像上，将叠加有该音量大小标识的第一会场的与会者图像发送给第三会场的终端。

309、第三会场的终端显示叠加有音量大小标识的第一会场的与会者图像。

其中，步骤306、步骤307是顺序执行的，步骤308和步骤309是顺序执行的，但步骤306-307与步骤308-309没有执行上的先后顺序，也可以先执行步骤308-309，再执行步骤306-307，或者步骤306和步骤308同时执行。

可选的，步骤306-309中，媒体服务器也可以直接将第二会场与会者的语音在第一会场的音量指示数据发送给第二会场的终端，将第三会场与会者的语音在第一会场的音量指示数据发送给第三会场的终端，后续第二会场的终端的操作和第三会场的终端的操作参见步骤205，在此不再赘述。

可选的，媒体服务器也可以在向各终端发送的多画面图像上增加音量大小标识，其中，多画面图像是指将多个会场的与会者图像缩小处理后拼接得到的图像。比如，会议服务器接收第一会场发送的第一会场与会者的图像、第二会场与会者的语音在第一会场的音量大小标识和第三会场与会者的语音在第一会场的音量大小标识后，在向第二会场的终端发送的多画面图像中缩小处理后的第一会场与会者的图像上增加该第二会场与会者的语音在第一会场的音量大小标识，在向第三会场的终端发送的多画面图像中缩小处理后的第一会场与会者的图像上增加该第三会场与会者的语音在第一会场的音量大小标识。

本发明实施例中媒体服务器接收到第一会场发送的第二会场与会者的语音在第一会场的音量指示数据之后，将表示第二会场与会者的语音在第一会场的音量指示数据的音量大小标识叠加到第一会场与会者图像上并发送给第二会场的终端，并在接收到第一会场发送的第三会场与会者的语音在第一会场的音量指示数据之后，将表示第三会场与会者的语音在第一会场的音量指示数据的音量大小标识叠加到第一会场与会者图像上并发送给第三会场的终端，使第二会场、第三会场的终端在显示第一会场与会者图像的同时显示相应的音量大小标识，使第二会场、第三会场的与会者分别获知自己的声音在第一会场的播放效果。

需要说明的是，本发明上述实施例是假定多点会议中有三个会场，本领域技术人员可以理解的是，本发明上述实施例所提供的技术方案可以适用于任何场景的多点会议。

其中，如下描述利用RTP包或者RTCP包携带语音大小指示数据的具体实现方式：

1、通过RTP包携带语音大小指示数据的方式：通过扩展RTP包头的字段，携带语音大小指示数据。

其中，现有的RTP包头格式如图4所示，其中，V表示版本，P表示间隙(Padding)，CC表示ＣＳＲＣ的记数位；M表示标记位；PT表示有效载荷的类型，sequence number为序列号，timestamp为时间戳；synchronizationsource(SSRC)identifier为同步源标识，contributing source(CSRC)identifier为贡献源标识；extension(x)表示是否具有扩展头部，X＝0表示没有扩展头部，X＝1表示具有扩展头部，即在固定头部之后，媒体数据之前，增加扩展头部。其中，固定头部可以包括如图4所示的同步源(SSRC)标识和CSRC标识。其中，扩展头部长度可以不固定，其可以是TLV格式的，前16比特“由上层协议定义(defined by profile)”，作为后续数据类型的标识符，接着的16位表示长度，后面是扩展的内容，即本发明实施例提供的语音大小指示数据，其可以用32位表示，具体的扩展头部的结构如图5所示。

2、通过RTCP包携带语音大小指示数据的方式：通过扩展RTCP包的字段，携带语音大小指示数据。

其中，现有的RTCP包格式如图6所示，当RTCP包的负载类型PT为非预定义类型的应用数据APP(204)时，在附加应用数据application-dependent data中携带本发明实施例提供的语音大小指示数据。

参阅图7A，本发明实施例提供一种终端，其包括：

接收单元11，用于接收远端采集的语音；

语音大小表征值获取单元10，用于根据所述语音获取远端的语音大小表征值；

语音大小指示数据获取单元20，用于将所述远端的语音大小表征值与第一终端的回声比例相乘，得到远端在所述终端的语音大小指示数据；所述回声比例是第一终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值；

发送单元30，用于向所述远端发送表示所述语音大小指示数据的语音信息，使所述远端获知自身的语音在第一终端的播放效果。

其中，表示所述语音大小指示数据的语音信息可以是表示该语音大小指示数据和预定数值的比值的语音大小标识，其中，预定数值是视频通信系统允许的最大语音的大小表征值，语音大小标识具体可以是音量电平指示条；或者，表示所述语音大小指示数据的语音信息可以就是该语音大小指示数据(譬如：可采用表征语音大小的分贝值)。

可选的，参阅图7B，为了使远端能够在显示第一终端采集的图像的同时显示该语音大小标识，该终端还包括：

语音大小标识获取单元40，用于根据所述语音大小指示数据获取语音大小标识，具体的，语音大小标识获取单元40可以获取所述语音大小指示数据与预定数值的比值，其中，预定数值是视频通信系统允许的最大语音的大小表征值；获取表示所述比值的语音大小标识，其中，语音大小标识可以是一个音量电平指示条；

叠加单元50，用于将所述语音大小标识叠加到第一终端采集的图像上。

可选的，参阅图7B，如果接收单元11接收的是视频通信系统中除第一终端以外的至少两个终端所采集的语音混音后的语音，则该终端还可以包括：分离单元60，用于从所述混音后的语音中分离出所述至少两个终端采集的语音；此时，语音大小指示数据获取单元20，具体用于分别将所述至少两个终端的语音大小表征值与第一终端的回声比例相乘，分别得到所述至少两个终端的语音大小指示数据；

发送单元30，具体用于向所述至少两个终端发送相应的语音大小指示数据。

本发明实施例中终端将远端的语音大小表征值与终端的回声比例相乘，得到远端在所述终端的语音大小指示数据，并向远端发送表示该语音大小指示数据的语音信息，由于回声比例是该终端接收的语音被放音设备播放后被拾音设备拾取到的语音大小与所接收到的语音大小的比值，这样远端在所述终端的语音大小指示数据就能表示远端采集的语音在该终端侧播放时的真实情况，所以可以使远端获知该远端所采集的语音在该终端侧的播放效果。

参阅图8，本发明实施例提供一种视频通信系统，其包括：第一终端100和第二终端200，其包括：

第一终端100，用于接收第二终端所采集的语音，获取第二终端所采集语音的语音大小表征值；将所述第二终端的语音大小表征值与本终端的回声比例相乘，得到所述第二终端的语音大小指示数据，向所述第二终端发送表示所述第二终端的语音大小指示数据的语音信息；所述回声比例是第一终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值；其中，所述放音设备和拾音设备是第一终端侧的放音设备和拾音设备；

第二终端200，用于将本终端采集的语音发送给所述第一终端，以及接收所述第一终端发送的表示所述第二终端的语音大小指示数据的语音信息。

其中，第一终端100可以为第一会场的终端，第二终端200可以为第二会场的终端，第一终端100与第二终端200的信息交互过程具体可以参见图2所对应的方法实施例的详细描述。

可选的，为了使第二终端在显示第一终端采集的图像时使第二终端所在会场的与会者获知自己的语音在第一终端所在会场的播放效果，第一终端具体用于获取所述语音大小指示数据与预定数值的比值，将表示该比值的语音大小标识叠加到第一终端采集的图像上，向第二终端发送叠加有该语音大小标识的第一终端采集的图像。

可选的，为了使第二终端所在会场的与会者获知自己的语音在第一终端所在会场的播放效果，第二终端还用于根据所述语音大小指示数据获取语音大小标识，显示该语音大小标识，具体的，根据语音大小指示数据获取语音大小标识的实现方式与方法实施例的实现方式相同，在此不再赘述；或者，第二终端还用于根据所述语音大小指示数据，控制第二终端侧的扬声设备回放所述第二终端所采集的语音的大小。

本发明实施例中第一终端将第二终端采集的语音的大小表征值与第一终端的回声比例相乘，得到语音大小指示数据，并向远方会场发送表示该语音大小指示数据的语音信息，由于回声比例是第一终端接收的语音被放音设备播放后被拾音设备拾取到的语音大小与所接收到的语音大小的比值，这样该语音大小指示数据就能表示第二终端采集的语音在第一终端侧播放时的真实情况，所以可以使第二终端获知该第二终端所采集的语音在第一终端侧的播放效果。

参阅图9，本发明实施例提供一种视频通信系统，其包括：第一终端300和媒体服务器400；

其中，第一终端300的结构和功能与上述装置实施例的相应描述相似，在此不再赘述。

媒体服务器400，用于接收所述第一终端采集的图像，和远端在所述第一终端的语音大小指示数据，根据所述语音大小指示数据获取语音大小标识，将所述语音大小标识叠加到所述第一终端采集的图像上向所述远端发送。

其中，第一终端300可以是第一会场中的终端，如图9所示，该实施例假定远端包括第二终端500和第三终端600，第二终端500和第三终端600分别是第二会场中的终端和第三会场中的终端。其中，第一会场中的终端、第二会场中的终端、第三会场中的终端与媒体服务器的具体操作可参见图3所示方法实施例的详细描述，在此不再赘述。

本发明实施例中媒体服务器根据远端在第一终端的语音大小指示数据获得语音大小标识，将该语音大小标识叠加到所述第一终端采集的图像上并向所述远端发送，可以使远端获知该远端所采集的语音在该第一终端侧的播放效果。

本发明的所有实施例中所采用视讯会议的应用场景介绍本发明的实现方式，可以理解，对于本领域技术人员，还可以将本发明的实施方式应用在非视讯会议领域，譬如：单纯的点对点的多媒体通信过程，对此，本发明并不对应用场景进行限制。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，例如只读存储器，磁盘或光盘等。

以上对本发明实施例所提供的语音音量提示的方法、终端及视频通信系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音音量提示的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在第一终端向所述远端发送表示所述语音大小指示数据的语音信息之前，该方法还包括：

所述第一终端根据所述语音大小指示数据获取语音大小标识，将所述语音大小标识叠加到第一终端采集的图像上；

所述第一终端向所述远端发送表示所述语音大小指示数据的语音信息具体为：

第一终端向所述远端发送叠加有所述语音大小标识的第一终端采集的图像。

3.根据权利要求1所述的方法，其特征在于，

所述第一终端向所述远端发送表示所述语音大小指示数据的语音信息包括：

所述第一终端向媒体服务器发送所述远端的语音大小指示数据，使媒体服务器根据所述语音大小指示数据获取语音大小标识，并将所述语音大小标识叠加到第一终端采集的图像上向远端发送。

4.根据权利要求2或者3所述的方法，其特征在于，

根据所述语音大小指示数据获取语音大小标识具体为：

获取所述语音大小指示数据与预定数值的比值，其中，所述预定数值是视频通信系统允许的最大语音的大小表征值；

获取表示所述比值的语音大小标识。

5.根据权利要求1所述的方法，其特征在于，

所述远端采集的语音是视频通信过程中除第一终端以外的至少两个终端所采集的语音混音后的语音；

该方法还包括：

第一终端从所述混音后的语音中分离出所述至少两个终端采集的语音；

所述第一终端将所述远端的语音大小表征值与第一终端的回声比例相乘，得到远端在所述第一终端的语音大小指示数据包括：

第一终端分别将所述至少两个终端的语音大小表征值与第一终端的回声比例相乘，分别得到所述至少两个终端的语音大小指示数据；

所述第一终端分别向所述至少两个终端发送表示各个所述语音大小指示数据的语音信息，使所述至少两个终端获知自身的语音在第一终端的播放效果。

6.一种语音音量提示终端，其特征在于，包括：

接收单元，用于接收远端采集的语音；

语音大小指示数据获取单元，用于将所述远端的语音大小表征值与所述语音音量提示终端的回声比例相乘，得到远端在所述语音音量提示终端的语音大小指示数据；所述回声比例是语音音量提示终端接收的语音被放音设备播放后并被拾音设备拾取到的语音大小与所接收到的语音大小的比值；

7.根据权利要求6所述的终端，其特征在于，所述语音音量提示终端还包括：

语音大小标识获取单元，用于根据所述语音大小指示数据获取语音大小标识；

叠加单元，用于将所述语音大小标识叠加到语音音量提示终端采集的图像上；

所述发送单元，用于向所述远端发送叠加有所述语音大小标识的语音音量提示终端采集的图像。

8.根据权利要求7所述的终端，其特征在于，

所述语音大小标识获取单元，用于获取所述语音大小指示数据与预定数值的比值，其中，预定数值是视频通信系统允许的最大语音的大小表征值；获取表示所述比值的语音大小标识。

9.根据权利要求6所述的终端，其特征在于，

所述远端采集的语音是视频通信系统中除语音音量提示终端以外的至少两个终端所采集的语音混音后的语音；

所述语音音量提示终端还包括：分离单元，用于从所述混音后的语音中分离出所述至少两个终端采集的语音；

所述语音大小指示数据获取单元，用于分别将所述至少两个终端的语音大小表征值与语音音量提示终端的回声比例相乘，分别得到所述至少两个终端的语音大小指示数据；

所述发送单元，用于分别向所述至少两个终端发送表示各个所述语音大小指示数据的语音信息，使所述至少两个终端获知自身的语音在语音音量提示终端的播放效果。

10.一种视频通信系统，其特征在于，包括：第一终端和第二终端，其中，

11.根据权利要求10所述的视频通信系统，其特征在于，

所述第二终端，还用于根据所述语音大小指示数据获取语音大小标识，显示所述语音大小标识；

或者，

所述第二终端，还用于根据所述语音大小指示数据，控制第二终端侧的扬声设备回放所述第二终端所采集的语音的大小。

12.一种视频通信系统，其特征在于，包括：权利要求6-9所述的语音音量提示终端和媒体服务器，其中，