CN101504835B

CN101504835B - 声场中空间感知信息量的度量方法及应用

Info

Publication number: CN101504835B
Application number: CN200910061011XA
Authority: CN
Inventors: 胡瑞敏; 陈水仙; 陈文琴; 张磊; 王恒; 曹晟; 陈冰; 陈琪
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2009-03-09
Filing date: 2009-03-09
Publication date: 2011-11-16
Anticipated expiration: 2029-03-09
Also published as: CN101504835A

Abstract

本发明公开了一种声场中空间感知信息量的度量方法及应用，该方法以空间感知熵SPE代表一个多声道音频信号中可以被感知到的空间信息量的大小，即表达双耳听音中人耳接收到的空间感知信息量的大小。以双耳听音模型为基础的SPE代表了一个多声道音频信号中可以被感知到的空间信息量的大小，是空间音频编码码率的下限，解决了以单耳听音模型为基础计算的感知熵无法度量声场中空间感知信息量的问题。

Description

声场中空间感知信息量的度量方法及应用

技术领域

本发明涉及一种声场中空间感知信息量的度量方法及应用，具体地说是一种空间音频系统中基于双耳听音的空间感知信息量的度量方法及应用。

背景技术

自1948年香农提出熵的概念，创立信息论以来，熵被用来作为信息的量度。1988年，在香农熵的基础上Johnston提出感知熵(Perceptual Entropy，以下简称PE)的概念，并作为可感知音频信号信息的量度，回答感知音频编码的最基本问题——在无可感知失真的前提下最少需要多少比特才能表示一个音频序列。感知熵的理论基础是心理声学，现有主流的感知音频编码器都将PE作为一项重要的心理声学指标，如MP3和AAC编码器。

传统感知音频编码中，以感知熵来估计音频序列中可感知信息量的大小，也就是说，感知熵给出了信源无感知损失压缩的下限。与传统感知音频编码类似，空间音频编码的最基本问题就是：在无感知失真前提下最少需要多少比特才能表示一个多声道音频序列的空间信息。

2002年Faller和Baumgarte将多声道信号包含的音频信息和空间信息分离并分别编码，提出了基于双耳线索的空间音频编码技术(Binaural Cues Coding，以下简称BCC)，与传统感知音频编码技术相比，其低码率高音质的优异表现受到国内外研究机构的关注，成为近年来音频编码领域的研究热点。

听觉系统通常有两个输入通道，即左耳和右耳，而以单耳听音模型为基础的感知熵理论，只考虑了单耳听音的情况。心理声学的研究表明，双耳听音既不是左耳和右耳听音的简单叠加，也不是左耳和右耳单独听音的平均，而是引入了新的信息，即空间定位信息。

传统感知音频编码采取离散声道编码的系统框架，忽略了声道间蕴含的空间信息。而在以BCC为基础发展起来的空间音频编码系统框架中，将多声道输入信号的音频信息和空间信息分离并分别编码。在计算输入的多声道音频可感知信息量时，对于采用下混技术获得的单声道信号依旧能够应用感知熵理论进行度量。而对于采用空间参数提取技术获得的空间信息，当前的度量方法受自身度量模型的限制，已经无法适用于空间感知信息量的度量，也就是说，以单耳听音模型为基础计算的感知熵无法度量声场中的空间感知信息量，无法解决空间音频编码的最基本问题。

发明内容

本发明目的就在于克服上述现有技术的不足，提出一种声场中空间感知信息量的度量方法及应用，本发明以空间感知熵SPE(Spatial Perceptual Entropy，简称SPE)代表一个多声道音频信号中可以被感知到的空间信息量的大小，即表达双耳听音中人耳接收到的空间感知信息量的大小。

一种声场中空间感知信息量的度量方法，包括以下步骤：

(1)对输入音频信号进行分帧、时频变换处理，由临界频带滤波单元模拟听觉系统临界频带滤波过程，确定临界频带的划分规则，确定空间参数集的选取。

(2)对空间参数进行计算，得到各空间参数在临界频带上的数值。

(3)由噪音叠加单元处理由空间参数有限分辨率导致的信息量损失，计算各空间参数所包含的有效感知量。

(4)由SPE度量单元计算输入信号所具有的空间感知熵SPE。

在上述的空间感知信息量的度量方法中，在步骤1中，空间参数包含了声场中的各种空间参数，如双耳线索参数、高度角线索参数、距离线索参数和水平偏向角线索参数等。

在上述空间感知信息量的度量方法的步骤(1)中，用临界频带滤波单元模拟听觉系统临界频带滤波过程，临界频带滤波单元是耳蜗的频率位置映射的一个信号处理模型，由若干个子带的滤波器组成，每个频带的宽度为一个临界带宽。根据心理声学，每个临界频带可以近似作为一个独立听觉单元，不同临界频带间的影响忽略不计，只有来自左右耳同一个临界频带的信号才作为一次空间参数计算的输入。

在上述空间感知信息量的度量方法的步骤(2)中，从步骤(1)的输出信号中提取待度量的空间参数，用α，β，δ，ε...表示。由空间参数计算单元对提取的空间参数进行计算，得到各空间参数在临界频带上的数值。

在上述的空间感知信息量的度量方法的步骤(3)中，各空间参数所叠加的噪音需要体现听觉系统有限精度与神经系统的内在的噪音以及多声源干扰、反射、混响等非理想因素。这些因素联合使得空间参数具有一定的有限分辨率，在心理声学上被称为恰可感知差异，它反映了听觉系统总体的灵敏度，记为Δα，Δβ，Δδ，Δε...。对于不同的参数其有限分辨率不同。在不考虑这些参数之间影响的条件下，空间参数的有效感知量估计式如下：

其中，α为选取的空间参数，b为频带标志，α(b)为空间参数α在频带b上的数值，Δα(b)为空间参数α在该频带的分辨率，q_α(b)为空间参数α在频带b上所具有的有效感知量。

在上述的空间感知信息量的度量方法的步骤(4)中，将信息度量单元输出的信号输入SPE度量单元。空间感知熵SPE包含了所有空间参数的有效感知量，但考虑各空间参数之间的相互影响，SPE并不是各空间参数有效感知量的简单叠加，而是小于各空间参数在全频带上有效感知量之和。采用下面的空间感知熵估计式计算SPE：

SPE = \underset{α}{Σ} \frac{1}{N} Σ_{b = 1}^{n} σ q_{α} (b)

其中，σ反映了听觉感知的幅度压缩，N是变换帧长，n为划分的频带数。q_α(b)表示该空间参数α在b频带上所具有的有效感知量。

声场中空间感知信息量的度量方法的应用，首先按上述方法计算多路信号的空间感知熵SPE，然后在编码中，将SPE作为音频编码的下限码率，并指导空间参数的选取以及空间参数的量化编码。

本发明以空间感知熵SPE代表一个多声道音频信号中可以被感知到的空间信息量的大小，即表达双耳听音中人耳接收到的空间感知信息量的大小。以双耳听音模型为基础的SPE代表了一个多声道音频信号中可以被感知到的空间信息量的大小，是空间音频编码码率的下限。解决了以单耳听音模型为基础计算的感知熵无法度量声场中的空间感知信息量，无法解决空间音频编码的最基本问题。

附图说明

图1为本发明方法的流程图。

图2为巴克频带划分规则示意图。

图3为神经兴奋度曲面图。

图4为IC对ILD/ITD影响示意图。

图5为空间感知信息量度量方法在音频编码中的应用框图。

具体实施方式：

声场中空间感知信息量的度量方法其流程如图1所示，包括以下步骤：

(1)由预处理单元对输入音频信号进行分帧、时频变换处理。以1024采样点为分帧单位，采用FFT变换实现时域信号到频域信号的转换。

由临界频带滤波单元模拟听觉系统临界频带滤波过程，确定临界频带的划分规则。临界频带滤波单元采用巴克带划分规则，由25个子带的滤波器组成，每个频带的宽度为一个临界带宽，巴克频带划分规则示意图如图2所示。

由空间参数选取单元确定空间参数集的选取，空间参数选取单元包含了声场中的各种空间参数，如双耳线索参数，高度角线索参数，距离线索参数和水平偏向角线索参数等等。

(2)由空间参数计算单元将空间参数选取单元输出的空间参数进行计算，得到各空间参数在临界频带上的数值。从步骤(1)的输出信号中提取待度量的空间参数，用α，β，δ，ε...表示，计算各空间参数在各频带上的具体数值。

(3)由噪音叠加单元处理由空间参数有限分辨率导致的信息量损失，各空间参数所叠加的噪音需要体现听觉系统有限精度与神经系统的内在的噪音，以及多声源干扰、反射、混响等非理想因素。这些因素使得空间参数具有一定的有限分辨率；

由信息度量单元计算各空间参数所包含的有效感知量。空间参数的有效感知量估计式如下：

其中，α表示选取的空间参数，b为频带标志，α(b)为空间参数α在频带b上的数值，Δα(b)为空间参数α在该频带的分辨率，q_α(b)表示空间参数α在频带b上所具有的有效感知量。

(4)由SPE度量单元估计输入信号所具有的空间感知熵SPE，用下面的空间感知熵估计式计算SPE：

SPE = \underset{α}{Σ} \frac{1}{N} Σ_{b = 1}^{n} σ q_{α} (b)

下面以三个双耳线索：耳间相关度(以下称IC)、双耳强度差(以下称ILD)、双耳时间差(以下称ITD)为例对本发明实施例做进一步的说明，以便具体实施参考。

步骤(1)中，在预处理单元，将输入信号以1024个采样点为分帧单位进行分帧处理，采用FFT变换实现时域信号到频域信号的转换。

如附图2所示，临界频带滤波单元采用巴克带的划分规则，由25个子带滤波器组构成，每个频带的宽度为一个临界带宽，呈现低频窄高频宽的趋势。每个临界频带近似作为一个独立听觉单元，不同临界频带间的影响忽略不计，将来自左右耳同一个临界频带的信号作为一次ILD、ITD和IC计算的输入。

本实施例中空间参数选取单元选取双耳强度差ILD、双耳时间差ITD和耳间相关度IC作为待度量的空间参数。

步骤(2)中，计算步骤(1)中输出的空间参数的数值。

耳间相关度IC计算式如下：

IC (b) = \frac{| Re {Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{l} (k) X_{r}^{*} (k)} |}{\sqrt{Σ_{k = k_{b}}^{k_{b + 1} - 1} {| X_{l} (k) |}^{2}} \sqrt{Σ_{k = k_{b}}^{k_{b + 1} - 1} {| X_{r} (k) |}^{2}}}

其中b是临界频带标号，IC(b)是IC参数在临界频带b的数值，k_b和k_b+1分别是临界频带b和b+1的起始FFT谱线标号，X_l(k)和X_r(k)分别表示左右声道第k条FFT谱线，X_r ^*(k)表示X_r(k)的共轭复数，Re表示取复数实部的操作。考虑到音频信号在时域都是实数表示，公式5计算子带归一化相关度的实部，与时域信号的归一化相关度等价。

双耳强度差ILD计算式如下：

ILD (b) = 20 \log_{10} \frac{\sqrt{Σ_{k = k_{b}}^{k_{b + 1} - 1} {| X_{l} (k) |}^{2}}}{\sqrt{Σ_{k = k_{b}}^{k_{b + 1} - 1} {| X_{r} (k) |}^{2}}}

即左右声道对应临界带频谱能量比，以dB为单位。其中b是临界频带标号，ILD(b)是ILD参数在临界频带b的数值，k_b和k_b+1分别是临界频带b和b+1的起始FFT谱线标号，X_l(k)和X_r(k)分别表示左右声道第k条FFT谱线。根据FFT变换的能量守恒性质，上式与时域信号的能量比等价。

双耳时间差ITD计算式如下：

ITD (b) = \frac{1}{k_{b + 1} - k_{b}} Σ_{k = k_{b}}^{k_{b + 1} - 1} (\arg X_{l} (k + 1) - \arg X_{l} (k))

- \frac{1}{k_{b + 1} - k_{b}} Σ_{k = k_{b}}^{k_{b + 1} - 1} (\arg X_{r} (k + 1) - \arg X_{r} (k))

即左右声道临界频带群延时差。其中b是临界频带标号，ITD(b)是ITD参数在临界频带b的数值，k_b和k_b+1分别是临界频带b和b+1的起始FFT谱线标号，X_l(k)和X_r(k)分别表示左右声道第k条FFT谱线。arg表示求取相角操作。由于时域延时对应FFT域的线性相移，上式与时域信号的延时差是对应的。

步骤3中，IC、ILD、ITD所叠加的噪音需要体现听觉系统有限精度与内在的噪音以及多声源干扰、反射、和混响等非理想因素。听觉系统的有限精度是信号传输过程中的延时、衰减，以及神经系统的内在噪音所造成的。这些因素联合造成的有限分辨率，即恰可感知差异，反映了听觉系统总体的灵敏度，一般是频率的函数。记Δτ、Δλ、和Δη分别为ITD、ILD、和IC的有限分辨率，不考虑双耳线索相互影响，空间参数ITD、ILD、和IC采用如下有效感知量估计式：

其中

表示下取整。q_ITD(b)，q_ILD(b)，q_IC(b)分别表示ITD、ILD和IC在频带b的有效感知量，ITD(b)，ILD(b)，IC(b)分别为频带b内的ITD、ILD和IC数值。Δτ(b)，Δλ(b)，Δη(b)为ITD、ILD和IC参数在频带b内的有限分辨率。

其中，有限分辨率测量方法：将全频带按巴克带划分方法划分为25个子带，每个子带上分别测量ILD、ITD和IC的有限分辨率。下面以ILD为例，说明测量ILD有限分辨率的步骤：制作音频序列，设置其ILD值分别从-9到9，以1为步长变化，共生成19个测试音。其中，ILD＝0的测试音作为参考音，其声源方向来自头顶的正中心。主观测试时，使ILD值从0开始分别向正数和负数两边逐渐变化，并对相应的测试音进行测听。人耳感觉测试音与参考音声源方向是相同的，比对结果记录为0；人耳感知到了测试音与参考音声源方向不同，则比对结果记录为1。测试者对所有原始音测听结束后，记录下结果为0和1的交界处且记录为1的两个测试序列的ILD值，取这两个值的绝对值平均，作为ILD临界值。该值即为ILD的有限分辨率。

步骤(4)中，修正空间参数的有限分辨率并计算SPE。如附图3所示，ITD、ILD是神经兴奋度曲面极小值点的位置，当IC变小时，曲面的谷值点附近将趋于平缓，从而降低ITD和ILD的分辨率。反之，当IC变大时，曲面的谷值点附近将趋于陡峭，从而提高ITD和ILD的分辨率。

IC对于ILD和ITD的影响是不同的。如附图4所示，当IC减小时，神经兴奋度曲面的延时方向的曲率变化要显著大于衰减方向的曲率变化，在等高线上表现为延时方向变换明显，而衰减方向变换不明显。

信号的能量与信号的相位无关，IC的降低可以看成相位噪音的增加，因此ILD受IC的影响较小，而信号的互相关曲线的曲率受到相关度的影响很大。以相关噪音为例，其互相关函数是冲击函数，此时曲率趋于无限大，等高线在延时方向退化成一个点，此时可以精确的确定ITD；随着相关度的降低，噪音信号的互相关函数峰值处的曲率逐渐下降，表现为等高线在延时方向扩展，ITD的精度下降；在极端的非相关噪音，即独立噪音的情况下，互相关函数恒为0，此时等高线由封闭曲线变成延时方向的水平线，完全无法确定ITD。

由上述分析知，IC对ILD的影响可以忽略不计，只考虑IC对ITD的影响。由于ITD的分辨率随着IC的下降而下降，相当于ITD的恰可感知差异增大。采用ITD有限分辨率修正式，通过IC对ITD的有限分辨率进行修正：

Δτ′(b)＝Δτ(b)/IC(b)

其中Δτ′(b)为修正的ITD在频带b的有限分辨率，Δτ(b)为步骤(3)中计算的ITD在频带b的有限分辨率，IC(b)为IC在频带b的数值。当IC(b)＝1时，Δτ′(b)有最小值Δτ(b)，此时ITD有限分辨率最高；当0＜IC(b)＜1时，Δτ(b)＜Δτ′(b)＜∞，此时ITD有限分辨率下降，但能提供ITD信息；当IC(b)＝1时，Δτ′(b)＝∞，ITD有限分辨率为0，无法提供任何ITD信息。

ITD的有效感知量修正式如下：

其中q′_ITD(b)为修正的ITD在频带b的有效感知量，Δτ′(b)为修正的ITD在频带b的有限分辨率，ITD(b)为ITD在频带b的数值。

综合以上步骤，采用空间感知熵SPE估计式如下：

其中ILD(b)，ITD(b)，IC(b)分别由步骤(3)给出，Δτ(b)，Δλ(b)，Δη(b)分别是ITD、ILD、IC在临界带b的有限分辨率，通过听音测试确定。σ反映听觉感知的幅度压缩，一般取0.6。N是FFT变换的帧长。log可以任何正实数为底。通常计算机默认以2为底。

附图5为空间感知信息量度量方法在音频编码中的应用框图。

多路信号分别经预处理单元进行分帧、时频变换等处理。处理后的信号进入下混单元和空间参数选取单元。下混后的信号进入量化熵编码单元处理后进入码流复用单元。空间参数选取单元将选取后的空间参数输入空间感知信息度量单元。空间感知信息量度量单元计算信号的空间感知熵SPE。在编码中，SPE作为音频编码的下限码率，指导空间参数选取单元以及空间参数的量化编码单元。空间参数经量化编码单元后进入码流复用单元。

Claims

1.一种声场中空间感知信息量的度量方法，其特征在于包括以下步骤：

(1)对输入的音频信号进行分帧、时频变换处理，模拟听觉系统临界频带滤波过程，确定临界频带的划分规则，选取声场中的各种空间参数，作为一个空间参数集；

(2)对空间参数进行计算，得到各空间参数在临界频带上的数值；

(3)测量空间参数的有限分辨率，由下式计算各空间参数所包含的有效感知量：

其中，α表示选取的空间参数，b为频带标志，α(b)为空间参数α在频带b上的数值，Δα(b)为空间参数α在该频带的有限分辨率，q_α(b)表示空间参数α在频带b上所具有的有效感知量；

(4)由下式计算输入信号所具有的空间感知熵SPE：

SPE = \underset{α}{Σ} \frac{1}{N} Σ_{b = 1}^{n} σ q_{α} (b)

其中，q_α(b)表示空间参数α在频带b上所具有的有效感知量，σ为听觉感知的幅度压缩，N是FFT变换的帧长，n为划分的频带数；

SPE即为一个多声道音频信号中可以被感知到的空间感知信息量的大小。

2.根据权利要求1所述的声场中空间感知信息量的度量方法，其特征在于：在步骤(1)中，用临界频带滤波单元模拟听觉系统临界频带滤波过程，所用临界频带滤波单元由若干个子带的滤波器组成，每个频带的宽度为一个临界带宽。

3.根据权利要求1所述的声场中空间感知信息量的度量方法，其特征在于：将来自同一个临界频带的信号进行计算，得出各空间参数在临界频带上的数值。

4.一种权利要求1所述声场中空间感知信息量的度量方法的应用，其特征在于包括以下步骤：首先按权利要求1所述方法计算多声道音频信号的空间感知熵SPE，然后在编码中，将SPE作为音频编码的下限码率，并指导空间参数的选取以及空间参数的量化编码。