CN102523553B

CN102523553B - 一种针对移动终端设备并基于声源内容的全息音频方法和装置

Info

Publication number: CN102523553B
Application number: CN201210020144.4A
Authority: CN
Inventors: 高成伟
Original assignee: WUDI YITONG (BEIJING) TECHNOLOGY Co Ltd
Current assignee: WUDI YITONG (BEIJING) TECHNOLOGY Co Ltd
Priority date: 2012-01-29
Filing date: 2012-01-29
Publication date: 2014-02-19
Anticipated expiration: 2032-01-29
Also published as: CN102523553A

Abstract

一种针对移动终端设备并基于声源内容的全息音频方法和装置，能够根据声源音频内容的特点扩展音场、再现音响环境、补偿频域响应，全方位重构音频信号，以产生优质的听觉效果。本发明的全息音频技术依据人体听觉的主观感知原理、音频信号在空气媒介中的传输特性、以及所播放声源音频信号本身的特点，建立了多重辅助信息流，并由这些辅助信息流构建全息音频处理引擎，声源音频信号经本发明所建立的全息音频处理引擎处理即可产生全息音频信号。本发明所设计的全息音频技术既便于实施又能高效对人体听觉系统精确建模，颠覆性地改善音频播放的听觉感受。

Description

一种针对移动终端设备并基于声源内容的全息音频方法和装置

技术领域

本发明涉及一种能够重构全息音频信号的技术，尤其涉及能够适合提升移动终端设备音频播放效果的技术。

根据本发明实例，全息音频技术提供了一种依据声源音频流信号建立多重辅助流的系统，声源音频流通过这些由辅助流构建的多种信号处理系统的处理，即可重构声源音频流的全息音频信号，并取得声源音频流信号所不能达到的优质播放效果。全息音频技术的工作原理基于以下三项技术：

●音场扩展：人的听觉系统对声源位置的判断具有频率依赖性：1)根据相对振幅的强弱来确定高频信号(一般高于1000赫兹)的声源位置；2)根据时间差来确定低频信号(一般低于1000赫兹)的声源位置。低频扩展和高频扩展的截止频率、以及对高频部分的幅频增益和对低频部分的延时时长，应依据不同声源信号的频谱分布，进行调整，以达到最优音场扩展效果。

●环境再现：声源信号通过音响环境到达人耳的过程其实就是对声源信号的滤波过程，再现不同的音响环境可以通过设计不同的滤波系统来实现。环境滤波系统的设计不仅要考虑环境的具体情况，同时也要考虑声源信号本身对滤波系统功效的影响。

●频谱补偿：一般说来，音频信号的低频部分决定该音频音色的柔和度，而高频部分则决定该音频音色的明亮度。针对声源信号的频谱特性进行频谱补偿可以显著改变听觉效果。

本发明全息音频技术是将声源音频信号经过分析处理后，生成音场扩展辅助流、环境再现辅助流、和频谱补偿辅助流；在播放时，这些辅助流构建音场扩展、环境再现、和频谱补偿系统，声源信号经由上述系统的处理，生成全息音频信号。

背景技术

本发明致力于寻求一种能够依据声源音频信号的内容重构其包括音场扩展、环境再现、和频谱补偿的全息音频信号的技术，旨在为多媒体电子设备，尤其是移动终端设备的用户提供优质的音频播放效果。

传统改善音频听觉效果的方法为，1)均衡器技术，2)音频环绕技术，3)环境再现技术。这三种传统技术都是使用固定的模型参数，不能随着音频内容的变化而加以调整。这样的技术不可能使声源信号的播放达到最优效果。

传统的均衡器技术使用低通滤波器、多个带通滤波器、和高通滤波器把音频频带分成若干子带，赋予各子带一个固定的能量增益并对各子带进行滤波处理，如图1所示。传统均衡器在运行过程中，没有考虑输入音频信号的频谱分布对各子带滤波的影响，即，无论输入音频信号频谱分布如何，都施予固定的子带能量增益。不同音频信号的频谱分布差异是极大的，传统均衡器技术难免增益不该增益的频带。这就是为什么传统均衡器技术有时会对播放效果起到适得其反作用的原因。

传统的音频环绕技术，如图2所示，使用固定截止频率分割高低频带并对高低频带分别应用振幅增益和延时方法来模拟环绕效果。该方法忽略了声源信号本身对环绕效果的影响，没有依据声源内容对振幅增益和延时时长进行调整。因而这种方法不能为声源信号提供准确的环绕模型，无法获得优质的音频环绕或音场扩展效果。

环境再现技术实际上是对某一环境回声现象的再现。自然的回声是声波在传播过程中遇到阻碍被多方向弹回的现象。通过当前声波信号与经过能量衰减的过去声波信号的累加，回声造成了自然的混声效果。从数字信号分析的角度来看，回声现象是音频信号在经过时延和能量衰减后的信号重现。时延是声波传播所需的往返时间，音频信号衰减的幅度取决于声波往返路径的长短、信号的频率及声波传输的介质等因素。

传统的环境再现技术可分为两种：1)测量技术：通过对真实环境的测量获得真实环境的单位冲激响应，如图3所示，声源信号经过与该单位冲激响应的卷积运算，重现环境的回声现象；2)合成技术：使用信号处理技术合成环境的回声现象，如图6所示。

音频信号在环境中的回声由两部分组成：1)早期反射(EarlyReflection)：音频信号在传输中遇到媒介阻碍(例如墙壁)先期反射回来的音频信号，其信号特点是方向固定、频率固定，是回声信号中能量最强的部分；2)后期散射(Subsequent Reverberation)：早期反射音频信号的再反射信号，这部分信号具有方向和频率的随机性、叠加性，且能量呈指数衰减。

测量技术所使用的单位冲激响应由声源信号响应和回声信号(早期反射信号与后期散射信号)响应组成，如图3所示。合成技术则需要建立信号处理模型来重构回声信号。由于早期反射信号与声源信号具有相同的频率特性，业界通常并联使用多个具有不同延时时长和加权权重的延时器来模拟早期反射信号；由信号处理技术可知，梳型滤波器，如图4所示，的单位冲激响应呈指数衰减，因而可用来模拟后期散射信号能量的变化。梳型滤波器的单位冲激响应由延时参数N和反馈增益参数g决定(rⁿ，r＝g^1/N，为其单位冲激响应的指数包络线(envelope))。业界通常并联使用多个具有不同延时参数N和反馈增益参数g的梳型滤波器以实现后期散射信号的叠加现象。后期散射信号的方向和频率具有随机特性，而全通滤波器，如图5所示，只调制输入信号的相频响应但不改变信号的幅频响应，其相频特性由延时参数N和反馈增益参数g决定。业界通常串连使用多个具有不同延时参数N和反馈增益参数g的全通滤波器来模拟后期散射信号的频率特性。

综上所述，传统的合成技术环境再现方法使用信号延时器、梳型滤波器、以及全通滤波器来重构回声现象，如图6所示。其中，通过调节延时器中的延时时长和加权权重、梳型滤波器中的延时参数和反馈增益参数、以及全通滤波器中的延时参数和反馈增益参数等设计参数，可以重构不同的环境回声，如音乐厅、教堂等。

传统的两种环境再现技术都有各自的弱点。测量技术的运算复杂度较高，而合成技术在运算复杂度上，优于测量技术，但对某些声源内容，其人工合成感较强。特别应该指出的是，传统的两种环境再现技术都没有考虑到输入音频内容本身对回声现象的影响。

若一种全息音频技术是实用的，它应该具备：(1)简单：因为该方法要用于移动电子终端设备上，如手机、PAD等；(2)有效：该技术必须要显著地改善听觉效果。目前尚无这样可用的全息音频技术。

发明内容

本发明的第一目标是提供一种能扩展音场、再现环境、和补偿频谱的全息音频方法和装置，颠覆性地改善音频的听觉感受。

本发明的第二目标是提供一种适用于任何消费电子设备，尤其是移动终端设备如手机、PDA等，的全息音频方法和装置。

本发明的第三目标是在不需要大量系统资源的条件下，包括CPU和存储器，能够提供一种全息音频的方法和装置。

根据本发明实例原则，通过提供全息音频引擎，以其最宽的涵盖形式，基于声源音频的内容，来确定音场扩展辅助流、环境再现辅助流、和频谱补偿辅助流；音场扩展辅助流、环境再现辅助流、和频谱补偿辅助流分别用来构建音场扩展处理器、环境再现处理器、和频谱补偿处理器，声源信号经过上述处理器的处理，以实现本发明的目标。

本发明实例将声源音频信号分割成若干数据块，并以数据块为单位进行频谱分析和处理。数据块长度的选择要依据输入声源音频信号的特性和运行终端处理能力而定。选择长度长的数据块，会减小对运行终端处理能力的需求，但对音频变化的反应会变得不精确；选择长度短的数据块，会更精确地反映音频的变化，但对运行终端处理能力的要求较高。对于变化平缓的音频信号(低频能量高，高频能量低的音频信号)，可以选择长度长的数据块；对于变化剧烈的音频信号(低频能量低，高频能量高的音频信号)，需要选择长度短的数据块，以对音频信号的变化做出及时反应。由于对数据块的频谱分析一般会基于快速傅立叶变换，因而，数据块的长度应为2的幂(2ⁿ，n为正整数)。在此基础上，生成音场扩展辅助流、环境再现辅助流、和频谱补偿辅助流。经上述辅助流构建的音场扩展处理器、环境再现处理器、频谱补偿处理器用来处理声源信号，并最终生成全息音频信号，如图7所示。

音场扩展辅助流的生成与音场扩展处理器的构建：音场扩展的实现需要对声源音频信号的低频部分进行延时处理、对声源音频信号的高频部分进行幅频增益处理，并将处理后的信号与声源信号进行加权运算，生成音场扩展信号，如图8所示。本发明的环境再现方法基于以下发现：人的听觉系统对声源方位的判断不仅与低频信号的延时和高频信号的强弱有关，也与输入声源信号频谱能量分布有关。本发明发现依据声源音频信号的频谱能量分布来设置高低频扩展的截止频率以及高频部分的幅频增益和低频部分的延时时长，能达到优质的音场扩展效果。

设置T_L和T_H为低频扩展与高频扩展部分的能量阈值，而低频扩展与高频扩展的截止频率C_L、C_H由T_L和T_H决定。具体来说，记E(F₁，F₂)为频率F₁与频率F₂区间内的能量和，则低频扩展截止频率C_L为满足

E(0，C_L)/(0，∞)≤T_L

的最高频率，高频扩展截止频率C_H为满足

E(C_H，∞)/E(0，∞)≤T_H

的最低频率。低频扩展与高频扩展能量阈值T_L和T_H的取值要考虑声源音频类型(流行音乐、古典音乐、爵士音乐等)的因素。

有两种极端情况需要考虑，低频或高频信号的能量过强。低频能量越强，则C_L、C_H的值越低；高频能量越强，则C_L、C_H的值越高。为了防止上述两种极端情况发生时，C_L、C_H的设置不合理，对C_L、C_H做如下修正：

C_L＝max(600，min(C_L，1000))

C_H＝max(1000，min(C_H，3000))

其中，min(a，b)和max(a，b)分别代表a和b中的较小值和较大值。

在获得C_L、C_H后，设置低频延时d(单位为毫秒)和声源信号、低频扩展信号、及高频扩展信号的权重w₁、w₂、w₃。具体设置为：

w_{1} = w_{2} = \frac{d}{20}

w_{3} = \frac{10 - d}{10}

其中

为不超过a的整数。C_L值越低，低频延时参数d越长、高频增益(由w₃表示)越低。

综上所述，该数据块音场扩展辅助流包括如下信息：1)以C_L为截止频率的低通滤波器的设计参数；2)以C_H为截止频率的高通滤波器的设计参数；3)低频延时参数d；4)数据块长度信息。

使用音场扩展辅助流所提供的信息，可以构建音场扩展处理器中低通滤波器单元、高通滤波器单元、以及延时器单元，并可由低频延时参数d通过简单地计算得出声源信号、低频滤波器输出信号、及高频滤波器输出信号的加权权重信息w₁、w₂、w₃。

环境再现辅助流的生成与环境再现处理器的构建：回声信号的衰减模式是由所再现的环境和声源信号本身决定的。本发明的环境再现方法基于以下发现：1)当输入信号低频能量过强时，梳型滤波器和全通滤波器对回声信号后期散射的模拟人工合成感较强，不真实；2)当高频能量过强时，延时系统对早期反射的模拟效果不佳。

针对以上发现，在保证效果和效率的前提下，本发明设计了三种模型来实现环境再现。输入信号频谱分析的结果决定系统将使用哪种模型来完成环境再现，并为所选用的模型提供设计参数；输入音频信号经环境再现处理器的处理，输出环境再现的音频信号，如图9.0所示。模型1：当E(0，F_L)/E(0，∞)≥T_L时(输入信号低频能量过强)，使用合成技术中的延时系统，由六个具有不同延时时长的延时器组成，模拟早期反射现象，使用测量技术单位冲激响应中的后期散射部分重现后期散射现象，如图9.1所示；模型2：当E(F_H，∞)/E(0，∞)≥T_H时(输入信号高频能量过强)，使用测量技术单位冲激响应中的早期反射部分重现早期反射现象，使用合成技术中的梳型滤波器组，由六个具有不同衰减参数的梳型滤波器并联组成，和全通滤波器组，由两个具有不同参数的全通滤波器串联组成，模拟后期散射现象，如图9.2所示；模型3：其它情况时，使用合成技术实现环境再现，合成技术使用六个并联延时器、六个并联梳型滤波器、与两个串联全通滤波器，如图9.3所示。其中，E(F₁，F₂)为频率F₁与频率F₂区间内的能量和，F_L为低频上限频率，F_H为高频下限频率，T_L为低频能量阈值，T_H为高频能量阈值。F_L、F_H、T_L、T_H应根据所再现环境(如，音乐厅、教堂等)的不同及声源信号类型(如，流行音乐、爵士等)的不同而调整。

在模型1和模型3中，都使用了六个延时器来模拟早期反射现象。越早反射回来的信号，则其能量损失越小。因而，延时时长越短，则信号能量越强。各延时器的加权权重由其延时时长确定如下：

w_{i} = 1 - \frac{d_{i}}{Σ_{j = 1}^{6} d_{j}}, i = 1, \cdot \cdot \cdot, 6

模型2中，并联的各梳型滤波器的输出加权权重为：

在此必须指出的是，所使用延时器、梳型滤波器、以及全通滤波器的个数越多，回声模拟效果越好，但运算复杂度也相应地提高。本发明中，所使用延时器、梳型滤波器、以及全通滤波器的个数(并联使用六个不同延时时长的延时器、六个不同衰减参数的梳型滤波器，和串联使用两个不同参数的全通滤波器)，是针对移动终端设备的运算能力和基于效果和效率的综合考虑而得出的。在实践过程中，所使用延时器、梳型滤波器、以及全通滤波器的个数可根据具体情况，做出适当调整。各梳型滤波器和各全通滤波器的设计参数应依据所模拟的环境类型(如，音乐厅、教堂等)来确定。

综上所述，该数据块环境再现辅助流包括如下信息：1)环境再现所使用的模型信息；2)数据块长度信息；3)当使用模型1时，六个延时器的延时参数，以及单位冲激响应中的后期散射部分的数据；当使用模型2时，单位冲激响应中的早期反射部分的数据，六个梳型滤波器和两个全通滤波器的设计参数；当使用模型3时，六个延时器的延时参数，六个梳型滤波器和两个全通滤波器的设计参数。

使用环境再现辅助流所提供的信息，可以构建环境再现处理器，1)模型1中，各延时器单元，以及FIR滤波器单元，并依据各延时器单元的延时时长计算各延时器单元输出信号的加权权重信息w₁，…，w₆；2)模型2中，FIR滤波器单元，各梳型滤波器单元，各全通滤波器单元，并确定各梳型滤波器单元输出信号的加权权重信息w₁，…，w₆；3)模型3中，各延时器单元，各梳型滤波器单元，各全通滤波器单元，并依据各延时器单元的延时时长计算各梳型滤波器单元输出信号的加权权重信息w₁，…，w₆。

频谱补偿辅助流的生成与频谱补偿处理器的构建：输入音频信号的频谱被分成几个子带。子带的数目越多，则频谱补偿的效果越好，但运算复杂度也越高。子带的数目要根据声源信号的特性以及运行终端的能力来确定。一般而言，子带数目应在5到10之间。

由于传统均衡器技术各子带的能量增益是固定的，与输入音频信号无关。因而可能造成对能量已经很强的子带进行能量增益，对音频播放起到适得其反的效果。

与传统均衡器技术不同，本发明各子带的能量增益是由输入音频信号的内容决定的。记F_L和F_H分别为某一子带的下限频率和上限频率，E(F₁，F₂)为频率F₁与频率F₂区间内的能量和，该子带的能量增益b由下述公式决定：

b = \{\begin{matrix} b_{\min}, \frac{E (F_{L}, F_{H})}{E (0, \infty)} &GreaterEqual; T_{H} \\ b_{\min} \times \frac{E (F_{L}, F_{H})}{E (0, \infty)} + b_{\max} \times (1 - \frac{E (F_{L}, F_{H})}{E (0, \infty)}), T_{L} \leq \frac{E (F_{L}, F_{H})}{E (0, \infty)} \leq T_{H} \\ b_{\max}, \frac{E (F_{L}, F_{H})}{E (0, \infty)} \leq T_{L} \end{matrix}

其中，T_L与T_H分别为该子带预设的能量下限与上限阈值，b_min和b_max分别为该子带能量增益的下限和上限。从以上公式可见，子带能量越高，其子带能量增益越小。子带能量增益上下限的设置要根据输入音频信号的特点而定。例如，对需要低音补偿的音频，则设置较高的低频子带能量增益上下限，可获得较好的重低音听觉效果。

综上所述，该数据块频谱补偿辅助流包括如下信息：1)子带的数目信息；2)各子带的能量增益值；3)数据块长度信息。

在各子带能量增益确定后，各子带滤波器可依据其下限频率和上限频率以及其能量增益，构建该子带的子带滤波器。输入音频信号通过各子带滤波器，输出频谱补偿的音频信号，如图10所示。

本发明基于输入声源音频信号，综合运用了音场扩展、环境再现、及频谱补偿三项音频技术，生成独创的全息音频信号，使音频的听觉效果产生更适合音频内容的变化。

本发明的全息音频技术能高度准确地实现音频的全息内容是因为，本发明在运用音场扩展、环境再现、及频谱补偿三项技术时，充分考虑到了声源内容对人体听觉系统主观感知的影响。声源音频信号被分割成较小的数据块并对其进行频谱分析，而实现音场扩展、环境再现、及频谱补偿三项技术的模型参数则根据频谱分析的结果进行调整，这就保证了本发明的技术模型能精确地反映音频信号的变化，并生成高质量的全息音频内容。

由于本发明应用于PCM音频信号，故可对任何音频和语音编解码标准进行信号的后处理，以提供全息音频内容。音场扩展、环境再现、及频谱补偿辅助流的生成，即可实时完成，也可实时或非实时完成后，存储起来，在该音频以后的播放中应用。

附图说明

图1传统频谱补偿技术工作原理图；

图2传统音频环绕技术工作原理图；

图3通过测量所获得的真实环境的单位冲激响应的示意图；

图4梳型滤波器的工作原理图；

图5全通滤波器的工作原理图；

图6传统回声系统的工作原理图；

图7本发明全息音频技术工作流程图；

图8本发明音场扩展技术的工作原理图；

图9.0本发明环境再现技术的工作流程图；

图9.1本发明环境再现技术模型1的工作原理图；

图9.2本发明环境再现技术模型2的工作原理图；

图9.3本发明环境再现技术模型3的工作原理图；

图10本发明频谱补偿技术的工作原理图。

具体实施方式

为了了解本发明全息音频技术，有必要先了解一些音频后处理技术的基本原理。音频后处理技术主要包括音场扩展的三维环绕技术、环境再现的回声技术、以及频谱补偿的均衡器技术。对于不同频率的声源音频信号，人体听觉系统主观感知的声源位置所依据的参数大不相同：(1)人体听觉系统根据延时时长的变化来判断低频信号的位置；(2)人体听觉系统依据声源信号能量的变化来判断高频信号的位置；(3)人体听觉系统对声源方位的判断不仅与低频信号的延时和高频信号的强弱有关，也与声源信号频谱能量分布有关。人体听觉系统所捕捉到的声波与声音重建的瞬变相关，瞬变是由一个频响范围所激励出的宽带信号形成，外耳的方向特性可根据这个频响范围判断出声波传入的方向。传统的三维环绕技术只考虑了前两个因素对人体听觉系统的影响，而忽略了声源信号频谱分布的因素。因而，传统的三维环绕技术在扩展音场时就缺乏准确性。

好的环境再现模型可以模拟不同的回声环境。一套能够完全提供回声质量特征的独立参数组可分为三类：

1.与频谱、声源能量和早期回声能量相关的声源感知参数

●声音强度：由声源能量与早期反射信号能量之比确定。

●音色明亮度：由回声能量高频部分的变化确定

●音色柔和度：由衰减时间低频部分的变化确定。

2.声源与环境相互作用的感知参数

●回声包络线：由声源能量确定；

●环境重建：由回声能量确定；

●回声强度：由环境冲击响应的衰减时间确定。

3.环境感知参数

●后回声强度：由环境冲击响应的后衰减时间确定；

●重音效果：由衰减时间低频部分的变化确定；

●逼真效果：由衰减时间高频部分的变化确定。

在模型中，通过控制这些参数来模拟不同的音响环境。当声源播放时，一些参数被感知为音色的丰富性，而一些其它参数从余音处被感知。音色明亮度、音色柔和度和回声强度是重要的环境参数，它的取值取决于声源的频谱分布特性，应随输入音频信号频谱的变化而调整。然而，传统的回声方法在模型中没有做到输入音频信号依赖。

频谱补偿技术的传统方法是均衡器技术。传统均衡器技术把输入音频信号的频带分割成若干子带，并为每个子带设置一个固定的能量增益值。由于输入音频信号各子带的能量分布是变化的，对能量已经很强的子带进行能量增益，不但不能起到改进音质的效果，反而会使能量增益后的音频信号变得不舒适。

如图7所示，本发明是通过对输入声源内容的分析生成音场扩展辅助流、环境再现辅助流、和频谱补偿辅助流；输入声源音频信号通过由上述辅助流构建的音场扩展处理器、环境再现处理器、频谱补偿处理器，最终生成全息音频信号。本发明适用于任何消费电子设备，特别是移动终端设备。

本发明首先对输入声源信号进行数据块分割，并以分割后的数据块为单位进行频谱分析，并生成音场扩展辅助流。输入的声源信号进入由音场扩展辅助流构建的音场扩展处理器，如图8所示。音场扩展辅助流提供音场扩展处理器中各处理单元的设计参数。音场扩展处理器由低通滤波器810、高通滤波器820、低频信号延时器830、高频信号增益840、输入信号加权850、延时后低频信号加权860、高频增益后信号加权870、以及累加器880组成。低通滤波器810的截止频率、高通滤波器820的截止频率、低频信号延时器830的延时时长d、高频信号增益840的增益幅度g、输入信号加权850的权重w₁、延时后低频信号加权860的权重w₂、高频增益后信号加权870的权重w₃均由对数据块的频谱分析结果决定，其中高频信号增益840的增益幅度g与高频增益后信号加权870的权重w₃可合并处理。这样参考输入音频信号所设计的音场扩展处理器远精确于传统的相应技术。

音场扩展处理器的输出做为环境再现处理器的输入信号先进行频谱分析并生成环境再现辅助流，频谱分析结果决定使用哪种环境再现处理器模型来处理输入音频信号。环境再现辅助流提供环境再现处理器各处理单元的设计参数。环境再现处理器模型1，如图9.1所示，由六个延时器911至916、六个延时器输出的加权921至926、累加器927、由测量技术提供的有限冲激响应后期散射部分所构成的FIR滤波器928组成；环境再现处理器模型2，如图9.2所示，由测量技术提供的有限冲激响应早期反射部分所构成的FIR滤波器930、六个梳型滤波器931至936、六个梳型滤波器输出的加权941至946、累加器947、以及两个全通滤波器948和949组成；环境再现处理器模型3，如图9.3所示，由由六个延时器951至956、六个梳型滤波器961至966、六个梳型滤波器输出的加权971至976、累加器977、以及两个全通滤波器978和979组成。模型1和模型2综合了模拟和测量两项技术的特点，在输入音频信号低频或高频能量过强的情况下，可高效、准确地再现环境的回声效果；而在一般情况下，模型3所提供的模拟技术可用来再现环境的回声效果。本发明提供多种技术模型并由输入音频内容决定使用哪种模型来再现环境，其效率和效果的综合指标是传统回声技术所无法比拟的。

最后环境再现处理器的输出做为频谱补偿处理器的输入信号进行频谱分析并生成频谱补偿辅助流，频谱补偿辅助流提供频谱补偿处理器中处理单元的设计参数，即，各子带的增益，如图10所示。输入音频信号的频谱被分割成若干相邻子带，频谱补偿处理器由各子带滤波器1010至1040组成。依据输入音频信号内容，调整频谱补偿处理器中各子带的增益，是本发明频谱补偿技术区别于传统均衡器技术的主要特点。本发明输入信号依赖的频谱补偿技术从根本上杜绝了传统均衡器技术盲目子带增益的弊端。

综上所述，本发明依据输入信号内容，调整音场扩展、环境再现、和频谱补偿技术的系统参数，从而使输出的全息音频信号，更符合输入信号的特点，并对其音场、环境回声、和频谱进行更精确的重建和补偿。本发明的效率与效果综合指标远高于传统音频信息重建与补偿技术。

业内人士应该可以看出，发明全息音频技术的首要目的是多方面对输入声源信号进行补偿，再建音频信号播放的真实场景。由于整个方法的设计都基于输入声源音频信号的内容，并对人体听觉系统精确建模，故本发明全息音频技术能够颠覆性地改善音频播放的听觉效果。

由于本发明的全息音频技术实例不需要专门的硬件支持，只通过软件即可实现其功能，但不排除专门的硬件实现方式，因此该技术可容易地应用于任何类型的消费电子产品，特别是移动终端设备上，如手机，PDA等。此外，本发明可用于任何音频和语音编解码系统，如AAC，AAC+，MP3，WMA，RA，AMR等。

前面已经十分详细地描述了本发明所提请的技术，使业内人士能够了解和使用本发明，但是，还要提请注意的是，在不偏离本发明实质的前提下，还可以对所提请的技术发明进行变更和改进，并且本发明不受以上说明或附图的限制，而是按照所附权利要求来予以限定。

Claims

1.针对移动终端设备并基于声源内容的全息音频方法，由以下步骤组成：

a.将输入声源音频信号分割成数据块，并以分割后的数据块为单位进行频谱分析；

b.使用步骤a的频谱分析结果，计算并确定低频扩展频率和高频扩展频率，并确定以低频扩展频率为截止频率的低通滤波器参数、和以高频扩展频率为截止频率的高通滤波器参数；计算并确定低频扩展音频信号的延时时长；综合上述计算结果和步骤a所分割的数据块长度信息，输出针对本数据块的音场扩展辅助流；

c.使用步骤b输出的音场扩展辅助流，构建低通滤波器和高通滤波器，并分别对输入音频信号进行低通和高通滤波，生成低频和高频扩展音频信号；由低频扩展音频信号的延时时长确定声源音频信号、低频扩展音频信号、以及高频扩展音频信号的加权权重；低频扩展音频信号经延时后，与高频扩展音频信号和输入音频信号加权累加，输出本数据块的音场扩展音频信号；

d.对步骤c的输出进行频谱分析；

e.依据步骤d的频谱分析结果，确定实现环境再现处理器模型；根据所选用的环境再现处理器模型，输出环境再现辅助流；

f.使用步骤e输出的环境再现辅助流，依据所选用的环境再现处理器模型构建梳型滤波器、全通滤波器、延时器、和FIR滤波器，确定累加器各输入信号的加权权重，并对输入音频信号进行处理；具体为，1)选用模型1：输入音频信号通过六个并联的延时器后，加权累加，并使用后期散射FIR滤波器对累加后的音频信号进行滤波，输出环境再现的音频信号；2)选用模型2：输入音频信号通过早期反射FIR滤波器，滤波后的音频信号进入六个并联的梳型滤波器，滤波后的音频信号加权累加，累加后的音频信号进入两个串联的全通滤波器，滤波后，输出环境再现的音频信号；3)选用模型3：输入音频信号通过六个并联的延时器后，分别进入六个并联的梳型滤波器，滤波后的音频信号加权累加，累加后的音频信号进入两个串联的全通滤波器，滤波后，输出环境再现的音频信号；

g.对步骤f的输出进行频谱分析；

h.依据步骤g的频谱分析结果，确定各子带的增益，输出频谱补偿辅助流；

i.使用步骤h输出的频谱补偿辅助流，构建各子带滤波器；输入音频信号通过各子带滤波器并获得各子带的能量补偿，输出最终的全息音频信号。

2.如权利要求1所述的方法，其中步骤a还包括依据输入音频信号变化的平缓度和运行终端的处理能力来确定数据块的长度。

3.如权利要求1所述的方法，其中步骤b还包括，确定低频扩展与高频扩展的能量阈值，并依据输入音频信号的频谱分布确定低频扩展频率和高频扩展频率、以及确定低频扩展音频信号的延时时长；存储音场扩展辅助流，在以后该声源音频播放时，不需再重复音场扩展辅助流的生成过程。

4.如权利要求1所述的方法，其中步骤e还包括，综合使用测量与合成技术设计多种环境再现模型，并依据对输入音频信号频谱分析的结果，选择最适合输入音频信号的环境再现模型；存储环境再现辅助流，在以后该声源音频播放时，不需再重复环境再现辅助流的生成过程。

5.如权利要求1所述的方法，其中步骤f还包括，依据所再现环境的特点和运行终端的计算能力，确定所使用延时器和梳型滤波器、全通滤波器的数目，确定梳型滤波器、全通滤波器的设计参数，确定累加器输入信号的加权权重；具体为，1)选用模型1：确定所使用延时器的数目，确定各延时器输出信号的加权权重；2)选用模型2：确定所使用梳型滤波器、全通滤波器的数目，确定梳型滤波器、全通滤波器的设计参数，确定各梳型滤波器输出信号的加权权重；3)选用模型3：确定所使用延时器和梳型滤波器、全通滤波器的数目，确定梳型滤波器、全通滤波器的设计参数，确定各梳型滤波器输出信号的加权权重。

6.如权利要求1所述的方法，其中步骤h还包括，依据输入信号特点和终端计算能力，确定所分割的子带数目；依据声源信号特点确定各子带能量的上下限值，并最终确定各子带能量增益的上下限值；存储频谱补偿辅助流，在以后该声源音频播放时，不需再重复频谱补偿辅助流的生成过程。

7.针对移动终端设备并基于声源内容的全息音频装置，由以下单元组成：

a.音场扩展输入信号处理单元：将输入声源音频信号分割成数据块，并以分割后的数据块为单位进行频谱分析；

b.生成音场扩展辅助流单元：使用单元a的频谱分析结果，计算并确定低频扩展频率和高频扩展频率，并确定以低频扩展频率为截止频率的低通滤波器参数、和以高频扩展频率为截止频率的高通滤波器参数；计算并确定低频扩展音频信号的延时时长；综合上述计算结果和单元a所分割的数据块长度信息，输出针对本数据块的音场扩展辅助流；

c.音场扩展处理器单元：使用单元b输出的音场扩展辅助流，设计低通滤波器和高通滤波器，并分别对输入音频信号进行低通和高通滤波，生成低频和高频扩展音频信号；由低频扩展音频信号的延时时长确定声源音频信号、低频扩展音频信号、以及高频扩展音频信号的加权权重；低频扩展音频信号经延时后，与高频扩展音频信号和输入音频信号加权累加，输出本数据块的音场扩展音频信号；

d.环境再现输入信号处理单元：对单元c的输出进行频谱分析；

e.生成环境再现辅助流单元：依据单元d的频谱分析结果，确定实现环境再现处理器模型单元；根据所选用的环境再现处理器模型单元，输出环境再现辅助流；

f.环境再现处理器单元：使用单元e输出的环境再现辅助流，依据所选用的环境再现处理器模型构建梳型滤波器、全通滤波器、延时器、和FIR滤波器，并对输入音频信号进行处理；具体为，1)选用模型1单元：输入音频信号通过六个并联的延时器后，加权累加，并使用后期散射FIR滤波器对累加后的音频信号进行滤波，输出环境再现的音频信号；2)选用模型2单元：输入音频信号通过早期反射FIR滤波器，滤波后的音频信号进入六个并联的梳型滤波器，滤波后的音频信号加权累加，累加后的音频信号进入两个串联的全通滤波器，滤波后，输出环境再现的音频信号；3)选用模型3单元：输入音频信号通过六个并联的延时器后，分别进入六个并联的梳型滤波器，滤波后的音频信号加权累加，累加后的音频信号进入两个串联的全通滤波器，滤波后，输出环境再现的音频信号；

g.频谱补偿输入信号处理单元：对单元f的输出进行频谱分析；

h.生成频谱补偿辅助流单元：依据单元g的频谱分析结果，确定各子带的增益，输出频谱补偿辅助流；

i.频谱补偿处理器单元：使用单元h输出的频谱补偿辅助流，构建各子带滤波器；输入音频信号通过各子带滤波器并得到各子带的能量补偿，输出最终的全息音频信号。

8.如权利要求7所述的装置，其中单元a还包括依据输入音频信号变化的平缓度和运行终端的处理能力来确定数据块的长度。

9.如权利要求7所述的装置，其中单元b还包括，确定低频扩展与高频扩展的能量阈值，并依据输入音频信号的频谱分布确定低频扩展频率和高频扩展频率、以及确定低频扩展音频信号的延时时长；存储音场扩展辅助流，在以后该声源音频播放时，不需再重复音场扩展辅助流的生成过程。

10.如权利要求7所述的装置，其中单元e还包括，综合使用测量与合成技术设计多种环境再现模型，并依据对输入音频信号频谱分析的结果，选择最适合输入音频信号的环境再现模型；存储环境再现辅助流，在以后该声源音频播放时，不需再重复环境再现辅助流的生成过程。

11.如权利要求7所述的装置，其中单元f还包括，依据所再现环境的特点和运行终端的计算能力，确定所使用延时器和梳型滤波器、全通滤波器的数目，确定梳型滤波器、全通滤波器的设计参数，确定累加器输入信号的加权权重；具体为，1)选用模型单元1：确定所使用延时器的数目，确定各延时器输出信号的加权权重；2)选用模型单元2：确定所使用梳型滤波器、全通滤波器的数目，确定梳型滤波器、全通滤波器的设计参数，确定各梳型滤波器输出信号的加权权重；3)选用模型单元3：确定所使用延时器和梳型滤波器、全通滤波器的数目，确定梳型滤波器、全通滤波器的设计参数，确定各梳型滤波器输出信号的加权权重。

12.如权利要求7所述的装置，其中单元h还包括，依据输入信号特点和终端计算能力确定所分割的子带数目；依据声源信号特点确定各子带能量的上下限值，并最终确定各子带能量增益的上下限值；存储频谱补偿辅助流，在以后该声源音频播放时，不需再重复频谱补偿辅助流的生成过程。