CN101118746B

CN101118746B - 基于双声道音频数据标定的方法及多人语音通话系统

Info

Publication number: CN101118746B
Application number: CN2007101218831A
Authority: CN
Inventors: 盛馥钟; 李世平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-09-17
Filing date: 2007-09-17
Publication date: 2012-03-21
Anticipated expiration: 2027-09-17
Also published as: CN101118746A; WO2009036691A1

Abstract

本发明公开了一种基于双声道音频数据标定的方法，该方法包括以下步骤：获取输入的一路以上音频数据后，根据所述音频数据的路数确定每一路音频数据的虚拟位置；在所述音频数据的任一路中，根据当前一路音频数据的音量和所述当前一路音频数据的虚拟位置，相应于所述当前一路音频数据，调节左右声道的音量比例，直至相应于所述音频数据每一路的调节操作执行完为止。本发明还公开了一种基于双声道音频数据标定的多人语音通话系统。采用本发明的方法及系统，不仅能实现对多路音频数据的标定和区分，而且大大提高了系统中对多路音频数据的每一路音频数据的识别能力。

Description

基于双声道音频数据标定的方法及多人语音通话系统

技术领域

本发明涉及一种音频数据标定技术，尤其涉及一种基于双声道音频数据标定的方法及多人语音通话系统。

背景技术

人通过一只耳朵只能听到声音的大小，即为声音的强度或音量。由于凭借声音的大小不能决定声音源的距离和方向，因此，通过一只耳朵并不能定位声音的来源。人耳定位声音来源的原理为基于人的两只耳朵来实现的。具体来说，是基于两只耳朵能辨别出声音的时间差和声音的强度差，这两个特性来实现准确定位声音的来源。比如，从左边传来的声音，先到人的左耳，后到右耳，存在着声音的时间差，尽管这个声音的时间差通常很短，但是人脑的听觉神经系统完全可以辨别出来，那么，通过声音的时间差可以测定声音源的距离和方向。另外，人的耳朵有耳廓，对于从不同位置传来的声音人耳所接收到的强度是不一样的。比如，从左边传来的声音，人的左耳接收到的声音强度比右耳大，那么，通过声音的强度差也可以测定声音源的距离和方向。

目前，随着计算机和多媒体技术的发展，基于计算机的多人语音通话系统开始普及。现有的多人语音通话系统中，每个与会者都会收到多路的音频数据，多路的音频数据经混合后通过音响或耳机等发声设备进行播放。比如，如图1所示的多人语音通话系统中包括混音单元1和回放单元2。其中，混音单元1将发送方A、B和C的这三路输入音频数据混合后，先输入回放单元2；然后回放单元2对输入的每路音频数据进行回放处理后，输出至接收方。这里，接收方通过左右耳机，接收到回放处理后的每路音频数据的音量皆相同。那么，基于上述人耳定位声音来源的原理，接收方无法通过左右耳声音的强度差来定位三路音频数据的距离和方向，也就是说，不能定位音频数据的来源，从而区分出三路音频数据。

综上所述，由于现有的多人语音通话系统中，没有基于人耳定位声音来源的原理，无法通过模拟人耳定位实现对系统中多路音频数据的标定和区分。因此，接收方通常只能通过不同发送方的音色、视频画面中的唇形等有限信息来区分出多个发送方。然而，当视频画面不存在/不同步、接收方不熟悉发送方的音色或多个发送方的音色相似等情况下，接收方很容易混淆发送方或无法辨别发送方的身份。也就是说，采用现有技术无法实现对系统中多路音频数据的标定和区分，导致对多路音频数据的每一路音频数据的识别能力很低。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于双声道音频数据标定的方法，不仅能实现对多路音频数据的标定和区分，而且对多路音频数据的每一路音频数据的识别能力很高。

本发明的另一目的在于提供一种基于双声道音频数据标定的多人语音通话系统，不仅能实现对系统中多路音频数据的标定和区分，而且大大提高了系统中对多路音频数据的每一路音频数据的识别能力。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于双声道音频数据标定的方法，该方法包括以下步骤：

A、获取输入的一路以上音频数据后，根据所述音频数据的路数确定每一路音频数据的虚拟位置；确定每一路音频数据的虚拟位置时所基于的基本标定角度采用的公式为：α＝180/(n-1)；其中，α为用于确定所述音频数据中每一路音频数据虚拟位置的基本标定角度；n为所述音频数据的路数；

其中，所述确定每一路音频数据虚拟位置为：利用基本标定角度α，按照多路音频数据的输入顺序确定每一路音频数据的虚拟位置；或利用基本标定角度α，以随机赋值的方式确定每一路音频数据的虚拟位置；

B、在所述音频数据的任一路中，根据当前一路音频数据的音量和所述当前一路音频数据的虚拟位置，相应于所述当前一路音频数据，调节左右声道的音量比例，直至相应于所述音频数据每一路的调节操作执行完为止；所述调节左右声道的音量比例所采用的公式为：

V_{left} = (\frac{180 - α^{'}}{180}) * V;

V_{right} = (\frac{α^{'}}{180}) * V;

其中，V_left为左声道的音量比例；V_right为右声道的音量比例；V为在所述音频数据的任一路中，当前一路音频数据的音量；α′为当前一路音频数据的虚拟位置。

其中，所述步骤B后还包括：

C、将经调节音量比例后的每一路音频数据进行混音、回放后输出。

其中，所述利用基本标定角度α，按照多路音频数据的输入顺序确定每一路音频数据的虚拟位置为：将输入的第一路音频数据取0°，并确定第一路音频数据的虚拟位置；按照相邻两路音频数据输入的先后顺序，依次以前一路输入音频数据的虚拟位置为基准，通过增加一个所述基本标定角度，确定下一路输入音频数据的虚拟位置。

其中，所述利用基本标定角度α，以随机赋值的方式确定每一路音频数据的虚拟位置为：根据所述基本标定角度确定各路音频数据所在方向与0度基准角的夹角；将所述确定的夹角以随机赋值的方式赋值给所述每一路音频数据，并确定每一路音频数据的虚拟位置；同时，保证在各路音频数据之间所赋的值是不同的。

一种基于双声道音频数据标定的多人语音通话系统，该系统包括虚拟位置确定单元、左右声道音量比例调节单元、混音单元、回放单元；其中，

虚拟位置确定单元，用于根据一路以上音频数据的路数确定每一路音频数据的虚拟位置，并将所述虚拟位置输入所述左右声道音量比例调节单元；其中，确定每一路音频数据的虚拟位置时所基于的基本标定角度采用的公式为：α＝180/(n-1)，α为用于确定所述音频数据中每一路音频数据虚拟位置的基本标定角度，n为所述音频数据的路数；所述确定每一路音频数据虚拟位置为：利用基本标定角度α，按照多路音频数据的输入顺序确定每一路音频数据的虚拟位置；或利用基本标定角度α，以随机赋值的方式确定每一路音频数据的虚拟位置；

左右声道音量比例调节单元，从发送方获取一路以上音频数据后，用于在所述音频数据的任一路中，根据当前一路音频数据的音量和虚拟位置，相应于所述当前一路音频数据，调节左右声道的音量比例，直至相应于所述音频数据每一路的调节操作执行完为止；将经调节音量比例后的每一路音频数据输入所述混音单元；其中，所述调节左右声道的音量比例所采用的公式为：

V_{left} = (\frac{180 - α^{'}}{180}) * V;

V_{right} = (\frac{α^{'}}{180}) * V;

V_left为左声道的音量比例；V_right为右声道的音量比例；V为在所述音频数据的任一路中，当前一路音频数据的音量；α′为当前一路音频数据的虚拟位置；

混音单元，用于接收经调节音量比例后的每一路音频数据，并进行混音后输入所述回放单元；

回放单元，用于接收混音后的每一路音频数据，并进行回放后输出至接收方。

采用本发明的方法及系统，基于人耳定位声音来源的原理，对两只耳朵辨别声音强度差的特性进行模拟，并通过对左右声道声音强弱的控制来标定不同的音频数据，能提高接收方对多个发送方多路音频数据的识别能力，并实现对多路音频数据每一路音频数据的标定和区分。从而，有效地克服了现有多人语音通话系统对多路音频数据每一路音频数据识别能力低的缺点，解决了现有多人语音通话系统中发送方身份无法辨别的问题。进而，本发明的方法可以应用于多人语音通话系统中，还可以应用于其它应用场合。这里的其他应用指：在两个或两个以上多路音频数据同时发生作用，需要能区分开这些多路音频数据中每一路音频数据的应用场合。

附图说明

图1为现有多人语音通话系统的组成结构示意图；

图2为本发明方法原理的实现流程示意图；

图3为本发明一实例确定各路音频数据虚拟位置的示意图；

图4为本发明另一实例确定各路音频数据虚拟位置的示意图；

图5为本发明多人语音通话系统的组成结构示意图。

具体实施方式

本发明的核心思想是：基于人耳定位声音来源的原理，对两只耳朵辨别声音强度差的特性进行模拟，并通过对左右声道音量的控制来标定不同的音频数据，能提高接收方对多个发送方多路音频数据的识别能力，并实现对多路音频数据每一路音频数据的标定和区分。

为使本发明的目的、技术方案和优点更加清楚明白，以下举实施例并参照附图，对本发明进一步详细说明。

由人耳定位声音来源的原理可知，人耳定位声音来源是基于两只耳朵能辨别出声音的时间差和声音的强度差，这两个特性来实现的。针对计算机系统中应用和模拟人耳定位声音来源的原理，对多个音频数据的识别而言，计算机系统中常见的声音播放设备是音响或耳机，它们通常都有左右两个声道，或者更多声道。这里，左右声道相当于人左右耳听到的声音，那么，理论上，通过控制左右声道的声音强度，即为音响或耳机的音量和播放时间，就可以实现模拟人耳定位声音来源的原理，标定并识别出不同方向和距离的多个音频数据。但是，由于人耳听到不同方向和距离声音源的时间差很短，计算机系统无法达到这样的精度。因此将本发明的方法应用在计算机系统中，比如多人语音通话系统中仅实现对两只耳朵辨别声音强度差的特性进行模拟，并通过对左右声道音量的控制来标定并识别出多人语音通话系统中不同的音频数据。

如图2所示，一种基于双声道音频数据标定的方法，该方法包括以下步骤：

步骤101、获取发送方输入的多路音频数据后，根据该多路音频数据的路数确定每一路音频数据的虚拟位置。

其中，根据该多路音频数据的路数确定每一路音频数据的虚拟位置时主要基于基本标定角度，计算基本标定角度所采用的公式为：

α＝180/(n-1) (1)

公式(1)中，α为用于确定该多路音频数据中每一路音频数据虚拟位置的基本标定角度，α的单位为度(°)；n为该多路音频数据的路数。

这里，所谓基本标定角度指各路音频数据之间的夹角，而且这个夹角是相同的。并且，以人左右耳所在水平线为起止基准线，以水平线向左方向的0度角为基准角，以顺时针方向为正角。

这里，利用基本标定角度α确定每一路音频数据的虚拟位置，包括以下两种情况。

第一种情况为：利用基本标定角度α，按照多路音频数据的输入顺序确定每一路音频数据的虚拟位置。

具体来说，先对输入多路音频数据的第一路取0度角，然后，相应于多路音频数据的输入顺序，角度由小到大变化，并以依次增加一个基本标定角度的增加顺序，确定每一路音频数据相对于人左右耳所在水平线的位置，即确定每一路音频数据的虚拟位置。也就是说，对相邻的两路音频数据而言，按照输入顺序，以前一路输入的音频数据所在虚拟位置为基准，通过增加一个基本标定角度就可以获得下一路音频数据的虚拟位置。

那么，步骤101确定每一路音频数据虚拟位置具体为：

将输入的第一路音频数据取0°，并确定第一路音频数据的虚拟位置；按照相邻两路音频数据输入的先后顺序，依次以前一路输入音频数据的虚拟位置为基准，通过增加一个基本标定角度，确定下一路输入音频数据的虚拟位置。

举例来说，如图3所示，如果多路音频数据的路数为两路，则采用公式(1)，α＝180°，这两路音频数据之间的夹角为180，那么，这两路音频数据刚好位于人左右耳所在的水平线上。对于输入的第一路音频数据取0°，则输入的第一路音频数据的虚拟位置位于水平线向左方向；以第一路音频数据的虚拟位置为基准，增加一个基本标定角度180°，则输入的第二路音频数据的虚拟位置位于水平线向右方向。如图4所示，如果多路音频数据的路数为三路，则采用公式(1)，α＝90°，这三路音频数据中，各路音频数据之间的夹角均为90°，那么，这三路音频数据中的两路位于人左右耳所在的水平线上，另一路位于与人左右耳所在的水平线成90°的位置上。对于输入的第一路音频数据取0°，则输入的第一路音频数据的虚拟位置位于水平线向左方向；以第一路音频数据的虚拟位置为基准，增加一个基本标定角度90°，则输入的第二路音频数据的虚拟位置位于与人左右耳所在的水平线成90°的位置上；以第二路音频数据的虚拟位置为基准，增加一个基本标定角度90°，则输入的第三路音频数据的虚拟位置位于水平线向右方向。

第二种情况为：利用基本标定角度α，以随机赋值的方式确定每一路音频数据的虚拟位置。

那么，步骤101确定每一路音频数据虚拟位置具体为：

利用基本标定角度α确定各路音频数据所在方向与0度基准角的夹角，将该确定的夹角以随机赋值的方式赋值给每一路音频数据，来确定每一路音频数据的虚拟位置，同时，保证在各路音频数据之间所赋的值是不同的。

举例来说，如图4所示，如果多路音频数据的路数为三路，则采用公式(1)，α＝90°，这三路音频数据中，各路音频数据之间的夹角均为90°，那么，这三路音频数据中的两路位于人左右耳所在的水平线上，另一路位于与人左右耳所在的水平线成90°的位置上。也就是说，各路音频数据所在方向与0度基准角的夹角分别为0°、90°和180°。将0°、90°和180°以随机赋值的方式分别赋值给三路音频数据的每一路。比如，三路音频数据的虚拟位置可以分别为90°、0°和180°，或者0°、180°和90°等等。

需要指出的是，确定虚拟位置的操作不限于上述两种情况。

步骤102、判断相应于该多路音频数据，对其每一路音频数据的调节左右声道音量比例的操作是否执行完毕，如果是，则结束当前对该多路音频数据的标定和调节左右声道音量比例的操作，转入执行步骤104；否则，执行步骤103。

步骤103、对该多路音频数据的每一路音频数据而言，任选一路音频数据，并根据当前该路音频数据的音量和当前该路音频数据的虚拟位置，相应于当前该路音频数据，调节左右声道的音量比例。

这里，所述步骤103中调节左右声道的音量比例所采用的公式为：

V_{lefi} = (\frac{180 - α^{'}}{180}) * V - - - (2)

V_{right} = (\frac{α^{'}}{180}) * V - - - (3)

公式(2)、公式(3)中，V_left为左声道的音量比例；V_right为右声道的音量比例；V为在该多路音频数据的任一路中，当前一路音频数据的音量；α′为当前一路音频数据的虚拟位置。

举例来说，如果存在两路音频数据，则分别采用公式(2)、公式(3)，相应于当前该路音频数据，调节左右声道的音量比例，也就是确定各音频数据对应的左右声道的音量比例如下：

对音频数据A而言，V_left＝V_A，V_right＝0；对音频数据B而言，V_left＝0，V_right＝V_B，这里，V_A和V_B分别表示音频数据A和音频数据B的原始音量大小。

如果存在三路音频数据，则分别采用公式(2)、公式(3)，确定各音频数据对应的左右声道的音量比例如下：

对音频数据A而言，V_left＝V_A，V_right＝0；对音频数据B而言，V_left＝0，V_right＝V_B；对音频数据C而言，V_left＝V_C/2，V_right＝V_C/2。这里，V_A、V_B和V_c分别表示音频数据A、音频数据B和音频数据C的原始音量大小。

如果存在四路音频数据，则分别采用公式(2)、公式(3)，确定各音频数据对应的左右声道的音量比例如下：

对音频数据A而言，V_left＝V_A，V_right＝0；对音频数据B而言，V_left＝0，V_right＝V_B；对音频数据C而言，V_left＝V_C*2/3，V_right＝V_C/3；对音频数据D而言，V_left＝V_D/3，V_right＝V_D*2/3。这里，V_A、V_B、V_c和V_D 分别表示音频数据A、音频数据B、音频数据C和音频数据D的原始音量大小。

步骤104、将经调节音量比例后的每一路音频数据进行混音、回放后，输出至接收方。

方法实施例一为存在三路音频数据的情况，本实施例中的方法流程包括以下步骤：

步骤201、获取发送方输入的三路音频数据，由公式(1)可知，三路音频数据中，各路音频数据之间的夹角均为90°，即基本标定角度α为90°。那么，这三路音频数据的虚拟位置分别为：第一路音频数据位于0°基准角的位置、第二路音频数据位于距离基准角为90°的位置、第三路音频数据位于距离基准角为180°的位置。

步骤202、判断相应于该三路音频数据，对其每一路音频数据的调节左右声道音量比例的操作是否执行完毕，如果是，则结束当前对该多路音频数据的标定和调节左右声道音量比例的操作，转入执行步骤204；否则，执行步骤203。

步骤203、对该多路音频数据的每一路音频数据而言，任选一路音频数据，并根据当前该路音频数据的音量和当前该路音频数据的虚拟位置，相应于当前该路音频数据，调节左右声道的音量比例。

这里，位于0°的第一路音频数据所对应左右声道的音量比例分别为：左100％右0％；位于90°的第二路音频数据所对应左右声道的音量比例分别为：左50％右50％；位于180°的第三路音频数据所对应左右声道的音量比例分别为：左0％右100％。

步骤204、将经调节音量比例后的每一路音频数据进行混音、回放后，输出至接收方。

通过步骤201～204，由于先将输入的每一路音频数据调节了音量比例后，再进行混音，因此，传递到接收方左右耳的音量比例也都是不同的，从而接收方可以通过左右耳声音的强度差来实现定位并识别出这三路音频数据。

如图5所示，一种基于双声道音频数据标定的多人语音通话系统，该系统包括虚拟位置确定单元3、左右声道音量比例调节单元4、混音单元1、回放单元2。比如，这里的多路音频数据可以为发送方A、B和C的这三路输入音频数据。

其中，虚拟位置确定单元3用于根据输入多路音频数据的路数，确定每一路音频数据的虚拟位置，并将所述虚拟位置输入左右声道音量比例调节单元4。其中，确定每一路音频数据的虚拟位置时所基于的基本标定角度采用的公式为： α＝180/(n-1)；其中，α为用于确定所述音频数据中每一路音频数据虚拟位置的基本标定角度；n为所述音频数据的路数。

左右声道音量比例调节单元4经由虚拟位置确定单元3，从发送方获取多路音频数据后，用于在所述音频数据的任一路中，根据当前一路音频数据的音量和虚拟位置，相应于所述当前一路音频数据，调节左右声道的音量比例，直至相应于所述音频数据每一路的调节操作执行完为止；将经调节音量比例后的每一路音频数据输入混音单元1。其中，所述调节左右声道的音量比例所采用的公式为：

混音单元1用于接收经调节音量比例后的每一路音频数据，并进行混音后输入回放单元2。回放单元2用于接收混音后的每一路音频数据，并进行回放后输出至接收方。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于双声道音频数据标定的方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤B后还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述利用基本标定角度α，按照多路音频数据的输入顺序确定每一路音频数据的虚拟位置为：

将输入的第一路音频数据取0°，并确定第一路音频数据的虚拟位置；

按照相邻两路音频数据输入的先后顺序，依次以前一路输入音频数据的虚拟位置为基准，通过增加一个所述基本标定角度，确定下一路输入音频数据的虚拟位置。

4.根据权利要求1或2所述的方法，其特征在于，所述利用基本标定角度α，以随机赋值的方式确定每一路音频数据的虚拟位置为：

根据所述基本标定角度确定各路音频数据所在方向与0度基准角的夹角；将所述确定的夹角以随机赋值的方式赋值给所述每一路音频数据，并确定每一路音频数据的虚拟位置；同时，保证在各路音频数据之间所赋的值是不同的。

5.一种基于双声道音频数据标定的多人语音通话系统，其特征在于，该系统包括虚拟位置确定单元、左右声道音量比例调节单元、混音单元、回放单元；其中，

虚拟位置确定单元，用于根据一路以上音频数据的路数确定每一路音频数据的虚拟位置，并将所述虚拟位置输入所述左右声道音量比例调节单元；

其中，确定每一路音频数据的虚拟位置时所基于的基本标定角度采用的公式为：α＝180/(n-1)，α为用于确定所述音频数据中每一路音频数据虚拟位置的基本标定角度，n为所述音频数据的路数；所述确定每一路音频数据虚拟位置为：利用基本标定角度α，按照多路音频数据的输入顺序确定每一路音频数据的虚拟位置；或利用基本标定角度α，以随机赋值的方式确定每一路音频数据的虚拟位置；

左右声道音量比例调节单元，从发送方获取一路以上音频数据后，用于在所述音频数据的任一路中，根据当前一路音频数据的音量和虚拟位置，相应于所述当前一路音频数据，调节左右声道的音量比例，直至相应于所述音频数据每一路的调节操作执行完为止；将经调节音量比例后的每一路音频数据输入所述混音单元；

其中，所述调节左右声道的音量比例所采用的公式为：