CN102457700B

CN102457700B - 音频数据传输方法及系统

Info

Publication number: CN102457700B
Application number: CN201010519953.0A
Authority: CN
Inventors: 李靖
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2010-10-26
Filing date: 2010-10-26
Publication date: 2015-08-12
Anticipated expiration: 2030-10-26
Also published as: WO2012055291A1; CN102457700A

Abstract

本发明公开了一种音频数据传输方法及系统，上述音频数据传输方法包括：接收来自于网真视频会议系统中一个终端的音频数据，其中，音频数据以立体声方式输入该终端；对音频数据进行编解码处理，并发送至另一网真视频会议系统。通过本发明的技术方案，解决了现有网真视频会议系统中的重音问题，达到了改善声音效果，提高用户体验的效果。

Description

音频数据传输方法及系统

技术领域

本发明涉及通信领域，具体而言，涉及一种音频数据传输方法及系统。

背景技术

网真技术(Telepresence)是一种近几年出现的将视频通信与沟通体验融为一体的远程会议技术，具有真人大小、超高清晰、低延时的特点，其注重的是真实面对面沟通的效果，实现过程涉及到网络、通信、会商环境、功能应用等多个方面，最终呈现给会商参与者的是一种与事务应用相结合的一体化真实沟通体验。

网真系统是一个全面的产品解决方案，该产品能够在全球化经济中，帮助企业更加快捷、有效地建立与顾客的沟通，提高响应速度和生产率，同时避免差旅带来的延误和不便，加速收入增长和精简成本。

网真系统可以应用于行政会议，远程医疗，远程教育，协同办公，远程出席，远程展示等众多领域。

一个网真系统由三台终端，一个摄像头、三个麦克风和三个扬声器，以及由三个等离子显示屏和专用会议桌组成。老的实现方法是每一台终端接一个麦克风输入声音，接一个扬声器输出声音。分别称为左，中，右三席，左边的麦克风，扬声器和等离子显示屏接到左边的终端，中间的麦克风，扬声器和等离子显示屏接到中间的终端，右边的麦克风，扬声器和等离子显示屏接到右边的终端。这样声音和图像就会从左边或者右边或者中间同时出来，达到听声辨位的效果，如图1所示。

但这种实现方法有一个致命的缺点，就是当一个人说话的时候，可能会从三个麦克风同时输入，进入三个终端，经过混音处理后，传到远端的网真会议室的左中右三个终端，从左中右三个扬声器输出。由于三个终端的网络速度不一样的原因，声音到达的时间会不一样，这样就会出现同样一句话，分三次从三个终端的扬声器里出来，就像重音一样，严重影响收听效果，同时很难做到听声辨位。

发明内容

本发明的主要目的在于提供一种音频数据传输方法及系统，以至少解决上述问题之一。

根据本发明的一个方面，提供了一种应用于网真视频会议系统的音频数据传输方法，包括：接收来自于网真视频会议系统中一个终端的音频数据，其中，音频数据以立体声方式输入终端；对音频数据进行编解码处理，并发送至另一网真视频会议系统。

根据本发明的另一个方面，提供了一种音频数据传输系统，包括：网真视频会议系统、MCU，其中，网真视频会议系统包括多个终端，多个终端中的一个终端为音频传输终端，用于以立体声方式接收和输出音频信号；MCU，用于接收来自于网真视频会议系统中音频传输终端的音频数据，对该音频数据进行编解码处理，并发送至另一网真视频会议系统。

通过本发明，采用只使用网真视频会议系统中的一个终端传输音频信号的方案，解决了重音的问题，进而达到了改善声音效果，提高用户体验的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据现有技术的网真视频系统的结构示意图；

图2是根据本发明实施例的音频数据传输方法的流程图；

图3是根据本发明优选实施例的音频数据传输方法的流程图；

图4是根据本发明实例的音频数据传输方法的流程图；

图5是根据本发明实例的音频数据传输方法解码的流程图；

图6是根据本发明实例的音频数据传输方法混音的流程图；

图7是根据本发明实例的音频数据传输方法编码的流程图；

图8是根据本发明实例的音频数据传输方法发送的流程图；

图9是根据本发明实施例的音频数据传输系统的结构框图。

图10是根据本发明优选实施例的网真视频系统的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2是根据本发明实施例的音频数据传输方法的流程图。如图2所示，根据本发明实施例的音频数据传输方法包括以下处理(步骤S202-步骤S204)：

步骤S202，接收来自于网真视频会议系统中一个终端的音频数据，其中，该音频数据以立体声方式输入该终端。

步骤S204，对该音频数据进行编解码处理，并发送至另一网真视频会议系统。

通过上述方法，只使用网真视频会议系统的一个终端接收音频数据，消除了重音现象产生的根源。同时，立体声输入方式在网真视频会议系统中的应用，为真正实现听声辨位的效果打下了良好的基础。

图3是根据本发明优选实施例的音频数据传输方法的流程图。如图3所示，该音频数据传输方法包括以下处理(步骤S302-步骤S310)：

步骤S302，上述网真视频会议系统需要先确定音频信号左右声道音量的差值，当左声道音量与右声道音量的差值大于第一阈值时，将音频信号传输至对端的左屏侧输出；当右声道音量与左声道音量的差值大于第二阈值时，将音频信号传输至对端的右屏侧输出。

通过上述方法即可真正地实现听声辨位，因为此时接收音频数据的终端位于网真视频会议系统中间位置，且使用立体声的音频数据格式即包括左右两个声道，当位于该终端左侧的人说话时，左声道接收到的音量必然会大于右声道接收到的音量，同理当位于该终端右侧的人说话时，右声道接收到的音量必然会大于左声道接收到的音量，而当位于中间的人说话时，左右声道接收到的音量则大致相等，据此就可以根据左右声道接收到的音量之间的关系来判断究竟是哪个位置的人在说话。

但是，在具体实施过程中，上述的处于中间位置的说话人总是处于相对的中间位置，所以左右声道接收到音量必然有一定的差异，这时如果单纯的根据左右声道接收到的音量大小关系来判断是哪侧的人在说话可能会造成误判。为了解决这个问题，需要引入两个阈值，即当左声道音量与右声道音量的差值大于第一阈值时，判定为左侧的人说话，将音频信号传输至对端的左屏侧输出，当右声道音量与左声道音量的差值大于第二阈值时，判定为右侧的人说话，将音频信号传输至对端的右屏侧输出，这样一来就可以更为准确的判定究竟是位于哪个位置的人在说话。上述的第一阈值和第二阈的值需要根据说话人与话筒的相对位置、环境噪音的大小等因素确定，在不同的情况下使用不同的值。

上述判断实际上是针对三名说话人的情况，当有更多的说话人时阈值判定的方法其实依然是适用的，只是需要引入更多的阈值从而设置出多个差值段，例如，当左声道音量与右声道音量的差值大于第一阈值小于第三阈值时，判定为左侧第一人说话，当左声道音量与右声道音量的差值大于第三阈值小于第五阈值时，判定为左侧第二人说话，同理右侧说话人的位置也可以这样判断。根据上述分析，可以进一步的推知，即使上述接受音频数据的终端没有处在中间的位置，也可以通过调整阈值的设置来达到判定说话人位置的效果，只是这种方式更为繁琐而不易实现，且判断的可靠性也更低。

步骤S304，接收来自于网真视频会议系统中一个终端的音频数据，其中，该音频数据以立体声方式输入该终端。

步骤S306，对该音频数据进行解码处理。

步骤S308，对来自于至少两个网真视频会议系统的音频数据进行混音处理。

一般来说，在进行网真视频会议的过程中，参加会议的一个网真视频会议系统需要同时接收到除了本端(即本网真视频会议系统)以外所有参加会议的网真视频会议系统的声音，因此当两个或两个以上的网真视频会议系统同时有人说话时，就需要对这些声音进行混音处理以保证各网真视频会议系统可以同时听到这些声音。

优选地，上述步骤S308中的混音处理可以进一步包括以下处理：

(1)获取解码后的来自于至少两个网真视频会议系统中以立体声格式输入的音频数据；

(2)将获取的音频数据的采样率转换为预定频率之后，进行叠加处理。

通过上述步骤即可完成混音处理，同时解决了某些参加视频会议的端(下面简称为与会端)未采用立体声格式的问题，由于在本发明中采用的音频数据都为立体声格式，因此如果存在音频数据格式不是立体声格式与会端，则需要先将该与会端的音频数据转换为立体声格式再参与混音处理。

优选地，在混音处理过程中，获取的音频数据来自于上述至少两个网真视频会议系统中预定个数的网真视频会议系统，其中，所述预定个数的网真视频会议系统在上述至少两个网真视频会议系统中输出的音频信号强度最大。

当参与会议的与会端很多时，若还是同时混音所有参加视频会议的网真视频会议系统的声音就会造成声音难以分辨，参加视频会议的网真视频会议系统的数量越多这种现象就会越严重，最终导致根本听不清楚。因此，为了避免此种情况，当参加视频会议的网真视频会议系统的数量较多时，就需要根据音频信号强度最大的音频数据选择预定个数的端进行混音，而不是对全部的端进行混音，上述个数可以根据具体的情况进行选择。

步骤S310，对混音后的音频数据进行编码处理，并发送至另一网真视频会议系统。

图4是根据本发明实例的音频数据传输方法的流程图。下面结合图4对上述优选实施例进行详细说明。

如图4所示，根据本发明实例的音频数据传输方法包括以下处理：

步骤S402，接收终端上端的消息，从上端消息中获知终端的音频格式。

步骤S404，判断是否是立体声格式。

步骤S406，从网络接入板获取音频数据并存入一个临时缓冲区，并根据包头包尾的标识符判断是否获取了一个完整的音频包，如果已经获取了一个完整的音频包，就从临时缓冲区中拷贝数据到解码前数据缓冲区。如果终端的音频格式是立体声格式，从网络接入板获取一次音频数据存入一个临时缓冲区，从音频数据临时缓冲区中取前半部分存入左声道解码前数据缓冲区，取后半部分存入右声道解码前数据缓冲区。

在具体实施过程中，如果终端的音频格式不是立体声格式，就只从音频数据临时缓冲区中取数据存入左声道(或右声道)解码前数据缓冲区。

步骤S408，如果解码前数据缓冲区有足够的音频数据，就分别进行左声道解码和右声道解码，并把解码后的数据分别存入左右声道的解码后数据缓冲区。以下结合图5进行描述。

如图5所示，上述解码流程可以进一步包括以下处理(步骤S502-步骤S506)：

步骤S502，判断终端的解码前数据缓冲区里是否有足够一次解码的音频数据，如果有，执行步骤S504，否则，执行步骤S506；

步骤S504，从解码前缓冲区里取一帧数据，根据音频格式选择解码器进行解码，解码数据存入解码后缓冲区；

如果终端的音频格式是立体声格式，就分别从左右声道解码前数据缓冲区取数据，进行左声道解码和右声道解码，并把解码后的数据分别存入左右声道的解码后数据缓冲区。

如果终端的音频格式不是立体声格式，就从左声道解码前数据缓冲区取数据，进行左声道解码，并把解码后的数据存入左声道的解码后数据缓冲区。

步骤S506，如果数据不够一次解码，就往解码后数据缓冲区写一帧静音帧。

在具体实施过程中，如果终端的音频格式不是立体声格式，就从左声道(或右声道)解码前数据缓冲区取数据，进行左声道(或右声道)解码，并把解码后的数据存入左声道(或右声道)的解码后数据缓冲区。

步骤S410，从解码后缓冲区取数据进行混音处理。以下结合图6进行描述。

如图6所示，该混音处理的过程主要包括以下处理(步骤S602-步骤S608)：

步骤S602，判断解码后的缓冲区中是否有一帧数据，如果是，则执行步骤S604，否则，流程结束；

步骤S604，从解码后缓冲区中取一帧数据，把会议中所有的端的采样率都转换成32K，然后进行混音。其中，混音的基本原理是：

a.各端自己不能听自己。

b.在所有端中选预定个数(例如，三个)的声音最大的端进行混音(叠加)。

例如，会议中有A，B，C，D四个端，那么A听到的是B+C+D，B听到的是A+C+D，C听到的是A+B+D，D听到的是A+B+C。

步骤S606，处理转换后的数据，根据具体混音至左，中，右屏的不同，分别对左、右声道的数据进行加工。

步骤S608，进行混音处理，并把数据存入编码前的缓冲区中。

如果所有的端里既有单声道，又有立体声，那么就还要根据需要先对立体声的左右声道的数据进行处理，然后进行混音。混音完后，单声道的端得到单声道的数据，立体声的终端得到双声道的数据。混音后的数据存入编码前的数据缓冲区。

如果是普通立体声混音，那么就把所有终端的左声道和左声道进行混音，所有的右声道和右声道进行混音。如果是立体声混音至左屏，那么就要把立体声终端的右声道置0，左声道＝(左声道+右声道)/2。如果是立体声混音至右屏，那么就要把立体声终端的左声道置0，右声道＝(左声道+右声道)/2。如果是立体声混音至中屏，那么左声道＝0.707(左声道+右声道)/2，右声道＝0.707(左声道+右声道)/2。数据处理后，对所有的左声道和左声道进行混音，右声道和右声道进行混音。混音后的数据存入编码前的数据缓冲区。

如果所有的端里既有单声道，又有立体声，那么就还要根据需要先对立体声的左右声道的数据进行处理，然后进行混音。如果是单声道混音至左屏，就先把这个端转成立体声，左声道＝单声道的数据，右声道置0，然后左声道和左声道混音，右声道和右声道混音。如果是单声道混音至右屏，就先把这个端转成立体声，右声道＝单声道的数据，左声道置0，然后左声道和左声道混音，右声道和右声道混音。如果是单声道混音至中屏，就先把这个端转成立体声，右声道＝0.707*(单声道的数据)，左声道＝0.707*(单声道的数据)，然后左声道和左声道混音，右声道和右声道混音。混音完后，单声道的终端得到单声道的数据，立体声的终端得到双声道的数据。混音后的数据存入编码前的数据缓冲区。

在具体实施过程中，如果终端的音频格式不是立体声格式，就从左声道(或右声道)编码前数据缓冲区取数据，进行左声道(或右声道)编码，并把编码后的数据存入左声道(或右声道)的编码后数据缓冲区。

步骤S412，如果编码前的数据缓冲区有足够的数据，如果终端的音频格式是立体声格式，就分别进行左声道编码和右声道编码，并把编码后的数据分别存入左右声道的编码后数据缓冲区。以下结合图7进行描述。

如图7所示，上述编码流程主要包括以下处理(步骤S702-步骤S706)：

步骤S702：判断编码前缓冲区中是否有一帧数据；

步骤S704：如果终端的编码前的数据缓冲区有足够一次编码的数据(例如，一帧数据)，就根据音频格式选择编码器进行编码，编码数据存入编码后缓冲区；

如果终端的音频格式是立体声格式，就分别从左右声道编码前数据缓冲区取数据，进行左声道编码和右声道编码，并把编码后的数据分别存入左右声道的编码后数据缓冲区。

如果终端的音频格式不是立体声格式，就从左声道编码前数据缓冲区取数据，进行左声道编码，并把编码后的数据存入左声道的编码后数据缓冲区。

步骤S706：如果数据不够一次编码，就往编码后数据缓冲区写一帧静音帧。

步骤S414，如果编码后数据缓冲区有足够的数据，就把左右声道的数据打成一个包(左声道的数据放在前半部分，右声道的数据放在后半部分)，然后把整个包发给网络接入板，最终由网络接入板发送给终端进行播放。以下结合图8进行描述。

如图8所示，上述打包及发送的过程主要包括以下处理(步骤S802-步骤S804)：

步骤S802：判断编码后缓冲区中是否有一帧数据；

步骤S804：如果编码后数据缓冲区有一帧数据，就从编码后数据缓冲区中取数据进行打包，同时把包头和包尾以及音频格式以及包长打到包里。

如果终端的音频格式是立体声格式，就把左右声道的数据打成一个包(左声道的数据放在前半部分，右声道的数据放在后半部分)。然后把整个包发给网络接入板，最终由网络接入板发给终端进行播放。

如果终端的音频格式不是立体声格式，就只把左声道(或右声道)的数据打成一个包。然后把整个包发给网络接入板，最终由网络接入板发给终端进行播放。

图9是根据本发明实施例的音频数据传输系统的结构框图。如图9所示，该音频数据传输系统包括：网真视频会议系统90、MCU92，以下结合图10对网真视频会议系统进行描述。

如图10所示，网真视频会议系统90包括：多个终端，这多个终端中的唯一一个终端为音频传输终端，用于以立体声方式接收和输出音频信号。

MCU 92，用于接收来自于上述网真视频会议系统90中音频传输终端的音频数据，对该音频数据进行编解码处理，并发送至另一网真视频会议系统94。

其中，网真视频会议系统90与网真视频会议系统94的结构相同，具体可以参见图10。

从图10中可以清楚的看出，上述网真视频会议系统只使用了多个终端中的一个终端作为音频传输终端，从而消除了重音问题产生的根源，彻底解决了这个问题。同时，该音频传输终端包括左右两个麦克风及左右两个音箱，实际上就是采用了立体声格式接收和输出声音，为真正实现听声辨位效果打下了良好的基础。

优选地，如图10所示，该音频传输终端位于网真视频会议系统的多个终端的中间位置(可以是正中间位置或偏正中间位置)，还可以用于确定音频信号左右声道音量的差值，当左声道音量与右声道音量的差值大于第一阈值时，将音频信号传输至对端的左屏侧输出；当右声道音量与左声道音量的差值大于第二阈值时，将音频信号传输至对端的右屏侧输出。

这样一来即可真正实现听声辨位，理由在上述方法实施例中有详细描述，此处不再赘述。

优选地，MCU还用于在网真视频会议系统为至少两个时，对来自于至少两个网真视频会议系统的音频数据进行混音处理。

MCU的混音处理针对多个参加视频会议的网真视频会议系统同时产生的音频数据的情况，保证了参加视频会议的各个网真视频会议系统可以在同一时间接收到每个网真视频会议系统的音频数据，确保了会议的实时性、准确性。

优选地，MCU，还可以用于获取解码后的来自于至少两个网真视频会议系统中以立体声格式输入的音频数据，将获取的音频数据的采样率转换为预定频率之后，进行叠加处理。

由于本发明采用立体声格式音频数据，因此MCU需要确保每个与会端的音频数据格式都为立体声格式，当某与会端的音频数据格式不是立体声格式时，就要先将其转换为立体声格式再参与混音处理，以保证音频数据格式的一致性。

优选地，MCU，用于获取来自于上述至少两个网真视频会议系统中预定个数的网真视频会议系统的音频数据，其中，预定个数的网真视频会议系统在上述至少两个网真视频会议系统中输出的音频信号强度最大。

当参与视频会议的网真视频会议系统的数量较多时，就需要限制参与混音处理的音频数据的个数，以保证声音清楚且便于识别。本发明的做法时选取一定个数的音量最大的音频数据进行混音，具体选取几个音频数据可以根据具体情况决定。实际上，选取的策略有多种多样，还可以根据各与会端的优先级、信号传输质量等不同因素制定不同的选取策略，为不同环境下网真视频会议的应用制定不同的选取策略。

综上所述，借助本发明提供的上述实施例，可以在网真高清视频会议系统中解决重音的问题，使声音效果得到很好的改善，并真正达到听声辨位的效果。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据传输方法，应用于网真视频会议系统，其特征在于，包括以下步骤：

接收来自于所述网真视频会议系统中一个终端的音频数据，其中，所述音频数据以立体声方式输入所述终端；

对所述音频数据进行编解码处理，并发送至另一所述网真视频会议系统；

其中，所述一个终端处于所述网真视频会议系统的多个终端的中间位置，接收所述音频数据前，还包括以下步骤：所述网真视频会议系统确定所述音频信号左右声道音量的差值，当左声道音量与右声道音量的差值大于第一阈值时，将所述音频信号传输至对端的左屏侧输出；当右声道音量与左声道音量的差值大于第二阈值时，将所述音频信号传输至对端的右屏侧输出。

2.根据权利要求1所述的方法，其特征在于，当所述网真视频会议系统为至少两个时，在解码处理后编码处理前还包括以下步骤：

对来自于所述至少两个网真视频会议系统的音频数据进行混音处理。

3.根据权利要求2所述的方法，其特征在于，所述混音处理包括以下步骤：

获取解码后的来自于所述至少两个网真视频会议系统中以立体声格式输入的音频数据；

将所述获取的音频数据的采样率转换为预定频率之后，进行叠加处理。

4.根据权利要求3所述的方法，其特征在于，在混音处理中，获取所述网真视频会议系统中以立体声格式输入的音频数据时，

所述获取的音频数据来自于所述至少两个网真视频会议系统中预定个数的网真视频会议系统，其中，所述预定个数的网真视频会议系统在所述至少两个网真视频会议系统中输出的音频信号强度最大。

5.一种音频数据传输系统，包括：网真视频会议系统、MCU，其特征在于，

所述网真视频会议系统包括多个终端，所述多个终端中的一个终端为音频传输终端，用于以立体声方式接收和输出音频信号；

所述MCU，用于接收来自于所述网真视频会议系统中所述音频传输终端的所述音频数据，对该音频数据进行编解码处理，并发送至另一所述网真视频会议系统；

其中，所述音频传输终端，位于所述网真视频会议系统的多个终端的中间位置，还用于确定所述音频信号左右声道音量的差值，当左声道音量与右声道音量的差值大于第一阈值时，将所述音频信号传输至对端的左屏侧输出；当右声道音量与左声道音量的差值大于第二阈值时，将所述音频信号传输至对端的右屏侧输出。

6.根据权利要求5所述的系统，其特征在于，所述MCU还用于当所述网真视频会议系统为至少两个时，对来自于所述至少两个网真视频会议系统的音频数据进行混音处理。

7.根据权利要求6所述的系统，其特征在于，

所述MCU，用于获取解码后的来自于所述至少两个网真视频会议系统中以立体声格式输入的音频数据，将所述获取的音频数据的采样率转换为预定频率之后，进行叠加处理。

8.根据权利要求7所述的系统，其特征在于，所述MCU，用于获取来自于所述至少两个网真视频会议系统中预定个数的网真视频会议系统的音频数据，其中，所述预定个数的网真视频会议系统在所述至少两个网真视频会议系统中输出的音频信号强度最大。