CN107040862A

CN107040862A - 音频处理方法及处理系统

Info

Publication number: CN107040862A
Application number: CN201610075818.9A
Authority: CN
Inventors: 杨将
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2017-08-11

Abstract

本发明提供一种音频处理方法及处理系统，包括：接收多声道的音频文件，并对所述音频文件进行解码，以生成解码后的音频数据；解析所述解码后的音频数据中的声道个数，并按照所述声道个数对所述音频数据进行分流，以生成多个声道的音频数据流；通过头部反应传送函数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。本发明通过头部反应传送函数对音频数据中的多声道数据流进行转换，不仅可以避免音频的声源失真、还可以模拟声源的方向，实现多声道设备的听感效果。

Description

音频处理方法及处理系统

技术领域

本发明属于音频数据领域，尤其涉及一种音频处理方法及处理系统。

背景技术

实际上，不仅仅是我们的眼睛可以分辨物体的三维定位，我们的耳朵也可以做到。研发人员对3D图像的设计已经趋于成熟，但对音频数据的三维定位的研究却刚刚起步。

在1996年，出现了一个新的术语，描述了计算机音效卡的新功能―3Dsound。然而，其本质是一种环绕声，不是真正的3D音频效果。这种技术利用的不过是一些简单的时延电路和滤波器，将左右声道混频(DownMix)。

因此，人的大脑会感受到音场变的更开阔的效果。这使得人们非常方便的使用先进和专业的水平来编辑和编译CD音乐。不过，这种技术有其缺点。处理电路混合了从左声道和右声道传来的声源。

以严格的感受来评判，这种技术不能被称作3Dsound，最多只能算作2.5D，因为它仅相对改进了聆听扬声器的方位的局限。就是说，原始的声源已经失真，无法展示声音的来源方向，也无法在听感上达到多声道设备所能达到的效果。

发明内容

有鉴于此，本发明的目的在于提供一种音频处理方法及处理系统，可以解决现有技术中音频的声源失真、音频的播放仅作为环绕声、而无法展示其来源方向，且无法在听感上达到多声道设备效果的技术问题。

为解决上述技术问题，本发明实施例提供了一种音频处理方法，包括：

接收多声道的音频文件，并对所述音频文件进行解码，以生成解码后的音频数据；

解析所述解码后的音频数据中的声道个数，并按照所述声道个数对所述音频数据进行分流，以生成多个声道的音频数据流；以及

通过头部反应传送函数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

为解决上述技术问题，本发明实施例还提供了一种音频处理系统，包括：

解码模块，用于接收多声道的音频文件，并对所述音频文件进行解码，以生成解码后的音频数据；

分流模块，用于解析所述解码后的音频数据中的声道个数，并按照所述声道个数对所述音频数据进行分流，以生成多个声道的音频数据流；以及

转换模块，用于通过头部反应传送函数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

相对于现有技术，本发明实施例提供的音频处理方法及处理系统，通过头部反应传送函数对音频数据中的多声道数据流进行转换，不仅可以避免音频的声源失真、还可以模拟声源的方向，实现多声道设备的听感效果。

附图说明

图1是本发明实施例一提供的音频处理方法的流程示意图；

图2是本发明实施例二提供的音频处理方法的流程示意图；

图3是本发明实施例三提供的音频处理系统的模块示意图；

图4是本发明实施例四提供的音频处理终端的模块示意图；

图5是本发明实施例提供的声源在虚拟空间位置中示意图。

具体实施方式

请参照附图中的图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所示例的本发明的具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。

本案可应用于耳机中，基于左右两通道进行音频数据的播放。请参照以下实施例，实施例一、二侧重于音频处理方法，实施例三侧重于音频处理系统，实施例四侧重于音频处理终端。可以理解的是：虽然各实施例的侧重不同，但其设计思想是一致的。且，在某个实施例中没有详述的部分，可以参见说明书全文的详细描述，不再赘述。

实施例一

请参阅图1，所示为音频处理方法的基本流程示意图。所述音频处理方法，主要应用于耳机中，也可以应用于智能设备中，如手机、电脑、或双通道音响中，此处不一一枚举。

具体而言，所述音频处理方法，包括：

在步骤S101中，接收多声道的音频文件，并对所述音频文件进行解码，以生成解码后的音频数据。

其中，目前多通道的音频文件，主要格式为：杜比的AC(Audio Coding，音频编码)-3以及DTS(Digital Theater Systems，数字剧场系统)格式。这两种格式都是有损的音频编码格式，因此首先需要将多通道音频文件解码成脉冲编码调制(Pulse-Code Modulation，PCM)数据流。

在步骤S102中，解析所述解码后的音频数据中的声道个数，并按照所述声道个数对所述音频数据进行分流，以生成多个声道的音频数据流。

其中，若接收的音频文件为5.1声道，则解码后的数据流按照原本的通道位置进行分流为：FL(前置左声道)、FR(前置右声道)、FC(中置声道)、LFE(低音声道)、BL(后置左声道也叫Sorround-L)、BR(后置右声道也叫Surround-R)这6个声道的音频数据流。

在步骤S103中，通过头部反应传送函数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

具体而言，本步骤包括：

(1)根据声道个数，分别将每个声道的音频数据流模拟成一个独立的声源；

(2)为每个独立的声源在虚拟空间位置中生成一个相对位置；

请同时结合图5所示的声源在虚拟空间位置，由于头部反应传送函数(HRTF)具有空间位置模拟作用，也就是说，利用HRTF可以模拟音源位置在三维空间中的任何一点。因此将分流出来的每一个通道数据流作为一个独立的音源，然后利用HRTF技术按照音箱位置将音源摆放到虚拟空间位置，比如：中置声道(FC)51和低音声道(LFE)56与模拟听众点A的方位角为0°，前置左声道(FL)52方位角为-30度，前置右声道(FR)53方位角为30度，后置左声道(BL)54方位角为-110°，后置右声道(BR)55方位角为110°。

(3)计算所述每个相对位置对空间、时间、和振动频率的影响参数，所述影响参数包括但不限于：两耳时间延迟量差(Inter Aural Time Delay，ITD)、两耳音量差(Inter Aural Amplitude Difference，IAD)、耳廓振动频率、和/或不同应用场景对音频数据流的反射和吸收参数；

概而言之，关于两耳延迟量差(ITD)：声波在空气中以每秒340米的速度传播，若两耳的距离为20厘米，声源在左边，则无疑声波会先到达左耳，而580微秒(声波走过20厘米所需的时间)后到达右耳。如果声源从我们正前方传来，那么声波会同时到达双耳。至于声源从其他角度发出，很容易通过三角函数得出结果。因此，人脑通过两耳延迟量差可以毫不困难分辨不同的方位。

关于两耳音量差(IAD)，我们都会有这样的经验：如果声音被物体挡住，我们听到的声音音量会变小。想象一下，如果声音从我们的正左方传来，那么我们的左耳觉察到的声音保留了原始声音，而我们的右耳察觉到的声音的音量会减小，因为我们的头吸收了一部分音量。

关于耳廓振动频率，ITD和IAD不能描述声源从正前方和正后方传来的区别这两个数据值几乎是一样的。这种情况也会发生在当声源发声于我们的正头顶部和正脚下的时候。此时，我们的耳廓扮演着关键的角色。声波遇到物体的时候会反弹。我们的耳朵是内空的卵圆型，因此，不同波长的声波相应的在外耳产生不同的效应。按照频率分析的观点，当不同的声源从不同的角度传来，它们肯定会在鼓膜上产生不同的频率振动。正是因为耳廓的存在，才造成了从前面和从后面传来的声音截然不同。

关于应用场景对音频数据流的反射和吸收参数，用于丰富音频定位的细节，比如：不同的应用场景下房间大小、形状、和/或建筑材料都不一样，可以参考以上生成对应的音频数据流的反射和吸收参数，进而增强声音的表现质量。

(4)根据所述影响参数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

本发明实施例提供的音频处理方法，通过头部反应传送函数对音频数据中的多声道数据流进行转换，不仅可以避免音频的声源失真、还可以模拟声源的方向，实现多声道设备的听感效果。

实施例二

请参阅图2，所示为音频处理方法的优化流程示意图。所述音频处理方法，主要应用于耳机中，也可以应用于智能设备中，如手机、电脑、或双通道音响中，此处不一一枚举。

在本实施例的图文中，为了体现与图2与图3的相同与差异之处，图3中与图2相同的步骤仍保留以S20开头，差异的步骤以S30开头。

具体而言，所述音频处理方法，包括：

以5.1声道为例，其公式表达为：

第一左声道的音频数据L₁

L₁＝HRTF(FL)_L+HRTF(FR)_L+HRTF(FC)_L+HRTF(LFE)_L+HRTF(BL)_L+HRTF(BR)_L；

第一右声道的音频数据R₁

R₁＝HRTF(FL)_L+HRTF(FR)_L+HRTF(FC)_L+HRTF(LFE)_L+HRTF(BL)_L+HRTF(BR)_L。

在步骤S201中，对所述第一左声道的音频数据和第一右声道音频数据进行时域振幅分析。

可以理解的是，以有效范围为【-1,1】为例，第一左声道音频数据L1、和/或第一右声道频数据的时域振幅在累加计算之后，有可能会超过有效范围。

在步骤S202中，判断是否存成超出有效范围的振幅。

具体而言，本判断步骤包括：

(1)在所述时域振幅上设置提取滑窗，以对所述时域振幅进行截取；

其中，所述提取滑窗的窗口长度为具体时间，比如2秒、4秒、或6秒。

(2)依次判断每一提取滑窗内是否存成超出有效范围的振幅，其中，若存在，则执行步骤S203；若不存在，则执行步骤S204。

在步骤S203中，进行动态范围控制，以调整音频数据的振幅所述第一左声道的音频数据和/或第一右声道音频数据，生成第二左声道的音频数据和/或第二右声道音频数据。

其中，本步骤具体为：在所述提取滑窗内，将所述超出有效范围的振幅进行输出增益的调整，以将第一左声道的音频数据生成第二左声道的音频数据、和/或将第一右声道音频数据生成第二右声道音频数据。

比如，当提取滑窗内出现了大于有效范围的振幅，则在窗口长度内，比如2秒内将输出增益逐渐减小，从而调整一个提取滑窗内的输出振幅，以公式表示为：

L2＝C(L1)；

R2＝C(R1)，其中C为当前提取滑窗内最大振幅的倒数。

在步骤S204中，保存所述左声道的音频数据和右声道的音频数据。

可以理解的是，即，在使用音乐播放器播放多声道的音频文件时，戴上耳机也可以体验到多音响播放的效果。

实施例三

请参阅图3，所示为音频处理系统的基本模块示意图。所述音频处理系统，主要应用于耳机中，也可以应用于智能设备中，如手机、电脑、或双通道音响中，此处不一一枚举。

所述音频处理系统300，包括：解码模块31、分流模块32、转换模块33、时域分析模块34、提取滑窗35、判断模块36、动态调整模块37、以及存储模块38。

解码模块31，用于接收多声道的音频文件，并对所述音频文件进行解码，以生成解码后的音频数据。

分流模块32，连接于解码模块31，用于解析所述解码后的音频数据中的声道个数，并按照所述声道个数对所述音频数据进行分流，以生成多个声道的音频数据流。

转换模块33，连接于分流模块32，用于通过头部反应传送函数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

具体而言，所述转换模块33包括：

声源子模块331，用于根据所述声道个数，分别将每个声道的音频数据流模拟成一个独立的声源；

位置子模块332，用于为每个独立的声源在虚拟空间位置中生成一个相对位置；

请同时结合图5所示的声源在虚拟空间位置中，中间部分包含了FC以及LFE两个声道的数据。由于头部反应传送函数(HRTF)具有空间位置模拟作用，也就是说，利用HRTF可以模拟音源位置在三维空间中的任何一点。因此将分流出来的每一个通道数据流作为一个独立的音源，然后利用HRTF技术按照音箱位置将音源摆放到虚拟空间位置，比如：中置声道(FC)51和低音声道(LFE)56与模拟听众点A的方位角为0°，前置左声道(FL)52方位角为-30度，前置右声道(FR)53方位角为30度，后置左声道(BL)54方位角为-110°，后置右声道(BR)55方位角为110°。

参数子模块333，用于计算所述每个相对位置对空间、时间、和振动频率的影响参数；

具体而言，所述参数子模块333包括：延迟差子模块(未标示)，用于计算所述每个相对位置因空间、时间所导致的两耳时间延迟量差(Inter Aural TimeDelay，ITD)；音量差子模块(未标示)，用于计算所述每个相对位置因空间、时间所导致的两耳音量差(Inter Aural Amplitude Difference，IAD)；频率差子模块(未标示)，用于计算所述每个相对位置因空间、时间所导致的耳廓振动频率；和/或场景子模块(未标示)，用于计算不同应用场景对音频数据流的反射和吸收参数。

转换子模块334，用于根据所述影响参数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

以5.1声道为例，其公式表达为：

第一左声道的音频数据L₁

L₁＝HRTF(FL)_L+HRTF(FR)_L+HRTF(FC)_L+HRTF(LFE)_L+HRTF(BL)_L+HRTF(BR)_L；

第一右声道的音频数据R₁

R₁＝HRTF(FL)_L+HRTF(FR)_L+HRTF(FC)_L+HRTF(LFE)_L+HRTF(BL)_L+HRTF(BR)_L。

时域分析模块34，连接于转换模块33，对所述第一左声道的音频数据和第一右声道音频数据进行时域振幅分析。

提取滑窗35，连接于时域分析模块34，设置于所述时域振幅上以对所述时域振幅进行截取。其中，所述提取滑窗的窗口长度为具体时间，比如2秒、4秒、或6秒等。

判断模块36，连接于提取滑窗35，用于判断是否存成超出有效范围的振幅。

具体为：依次判断每一提取滑窗内是否存成超出有效范围的振幅。

动态调整模块37，连接于判断模块36，用于当存成超出有效范围的振幅时，进行动态范围控制，以调整音频数据的振幅所述第一左声道的音频数据和/或第一右声道音频数据，生成第二左声道的音频数据和/或第二右声道音频数据。

具体为：当存成超出有效范围的振幅时，在所述提取滑窗内，将所述超出有效范围的振幅进行输出增益的调整，以将第一左声道的音频数据生成第二左声道的音频数据、和/或将第一右声道音频数据生成第二右声道音频数据。

L2＝C(L1)；

R2＝C(R1)，其中C为当前提取滑窗内最大振幅的倒数。

存储模块38，连接于动态调整模块37和判断模块36，用于保存所述左声道的音频数据和右声道的音频数据。

本发明实施例提供的音频处理系统，通过头部反应传送函数对音频数据中的多声道数据流进行转换，不仅可以避免音频的声源失真、还可以模拟声源的方向，实现多声道设备的听感效果。

实施例四

相应的，本发明实施例还提供一种音频处理终端，如图4所示，所述音频处理终端包括：计算机可读存储介质的存储器41、处理器42、音频电路43、和电源部件44。本领域技术人员可以理解，图4中示出的音频处理终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

存储器41可用于存储软件程序以及模块，处理器42通过运行存储在存储器41的软件程序以及模块，从而执行各种功能应用以及数据处理。输入单元42可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

音频电路43、扬声器，传声器可提供用户与终端之间的音频接口。音频电路43可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路43接收后转换为音频数据，再将音频数据输出处理器42处理。所述音频电路43还可能包括耳塞插孔，以提供外设耳机与终端的通信。

优选的，电源部件44可以通过电源管理系统与处理器42逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出，终端还可以包括射频模块45、WiFi模块46、以及输入单元47等，在此不再赘述。具体在本实施例中，终端中的处理器42会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器41中，并由处理器42来运行存储在存储器41中的应用程序，从而实现上述实施例所提到的各种功能。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

本发明实施例提供的音频处理方法及处理系统属于同一构思，其具体实现过程详见说明书全文，此处不再赘述。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种音频处理方法，其特征在于，包括：

2.如权利要求1所述的音频处理方法，其特征在于，通过头部反应传送函数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据，包括：

根据所述声道个数，分别将每个声道的音频数据流模拟成一个独立的声源；

为每个独立的声源在虚拟空间位置中生成一个相对位置；

计算所述每个相对位置对空间、时间、和振动频率的影响参数；以及

根据所述影响参数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

3.如权利要求2所述的音频处理方法，其特征在于，计算所述每个相对位置对空间、和时间的影响参数，包括：

计算所述每个相对位置因空间、时间所导致的两耳时间延迟量差；

计算所述每个相对位置因空间、时间所导致的两耳音量差；和/或

计算所述每个相对位置因空间、时间所导致的耳廓振动频率。

4.如权利要求3所述的音频处理方法，其特征在于，计算所述每个相对位置对空间、和时间的影响参数，还包括：

计算不同应用场景对音频数据流的反射和吸收参数。

5.如权利要求1所述的音频处理方法，其特征在于，通过头部反应传送函数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据，之后还包括：

对所述第一左声道的音频数据和第一右声道音频数据进行时域振幅分析；

判断是否存成超出有效范围的振幅；

若存在，则进行动态范围控制，以调整音频数据的振幅所述第一左声道的音频数据和/或第一右声道音频数据，生成第二左声道的音频数据和/或第二右声道音频数据。

6.如权利要求5所述的音频处理方法，其特征在于，判断是否存成超出有效范围的振幅，包括：

在所述时域振幅上设置提取滑窗，以对所述时域振幅进行截取；

依次判断每一提取滑窗内是否存成超出有效范围的振幅；

若存在，则进行动态范围控制，以调整音频数据的振幅所述第一左声道的音频数据和/或第一右声道音频数据，生成第二左声道的音频数据和/或第二右声道音频数据，具体为：在所述提取滑窗内，将所述超出有效范围的振幅进行输出增益的调整，以将第一左声道的音频数据生成第二左声道的音频数据、和/或将第一右声道音频数据生成第二右声道音频数据。

7.一种音频处理系统，其特征在于，包括：

8.如权利要求7所述的音频处理系统，其特征在于，所述转换模块包括：

声源子模块，用于根据所述声道个数，分别将每个声道的音频数据流模拟成一个独立的声源；

位置子模块，用于为每个独立的声源在虚拟空间位置中生成一个相对位置；

参数子模块，用于计算所述每个相对位置对空间、时间、和振动频率的影响参数；以及

转换子模块，用于根据所述影响参数对所述多声道的音频数据流进行转换，以生成第一左声道的音频数据和第一右声道音频数据。

9.如权利要求8所述的音频处理系统，其特征在于，所述参数子模块包括：

延迟差子模块，用于计算所述每个相对位置因空间、时间所导致的两耳时间延迟量差；

音量差子模块，用于计算所述每个相对位置因空间、时间所导致的两耳音量差；和/或

频率差子模块，用于计算所述每个相对位置因空间、时间所导致的耳廓振动频率。

10.如权利要求9所述的音频处理系统，其特征在于，所述参数子模块还包括：

场景子模块，用于计算不同应用场景对音频数据流的反射和吸收参数。

11.如权利要求7所述的音频处理系统，其特征在于，还包括：

时域分析模块，对所述第一左声道的音频数据和第一右声道音频数据进行时域振幅分析；

判断模块，用于判断是否存成超出有效范围的振幅；

动态调整模块，用于当存成超出有效范围的振幅时，进行动态范围控制，以调整音频数据的振幅所述第一左声道的音频数据和/或第一右声道音频数据，生成第二左声道的音频数据和/或第二右声道音频数据。

12.如权利要求11所述的音频处理系统，其特征在于，还包括：

提取滑窗，设置于所述时域振幅上以对所述时域振幅进行截取；

所述判断模块，还用于依次判断每一提取滑窗内是否存成超出有效范围的振幅；

所述动态调整模块，用于当存成超出有效范围的振幅时，在所述提取滑窗内，将所述超出有效范围的振幅进行输出增益的调整，以将第一左声道的音频数据生成第二左声道的音频数据、和/或将第一右声道音频数据生成第二右声道音频数据。