CN113449255B

CN113449255B - 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

Info

Publication number: CN113449255B
Application number: CN202110661604.0A
Authority: CN
Inventors: 史创; 杨浩聪; 刘英子; 梁江楠
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2022-11-11
Anticipated expiration: 2041-06-15
Also published as: CN113449255A

Abstract

本发明公开了一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质，属于音频处理技术领域。本发明包括：对待处理的双声道音频信号进行短时傅里叶变换，将待处理的双声道音频信号变换到时频域，得到时频域的左、右声道信号；对频率小于1.5kHz的频带，采用第一相位角估计法获取环境分量相位角估计值；对于频率大于或等于1.5kHz的频带，采用第二相位角估计法获取环境分量相位角估计值。本发明从人耳的听觉特性，对不同的频带区域进行了不同的搜索策略，相比于现有的环境分量相位角估计方法，在保障一定的提取精度的前提下，显著降低了运算量，有助于在立体声扩展中保留声音原始的感知特性，以构建更具沉浸感的声场景。

Description

一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

技术领域

本发明属于音频处理技术领域，具体涉及一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质。

背景技术

日益火热的游戏、电影、音乐等市场追求提供更加完美的用户体验。音频作为信息传递的重要媒介之一越发受到关注。构造一个更具沉浸感的声场景能够为用户带来更加直观、更有带入感的听觉体验。

通过对音频回放方式及回放内容进行设计有助于构建出一个更具沉浸感的声场景。现有的音频回放方式有基于HRTF头相关传输函数的虚拟听觉重放系统以及多通道音频回放系统。前者是在双耳声信号的重放中合成或模拟出相应的声音空间听觉，后者则是希望重放一个和理想声场尽可能相同或接近的声场。音频格式有基于通道的音频格式以及基于对象的音频格式。基于对象的音频格式由于在技术以及存储上的复杂性还没有得到广泛的应用。常见的音频信号大部分是基于通道的格式。对于针对特定的回放系统制作的通道音频信号，在该回放系统内能够得到有效的回放，而当音频信号格式与回放系统不匹配时，如何实现音频信号的有效回放是需要考虑的问题。例如将多通道音频信号在耳机中进行回放，或是将通道信号在更多通道的回放系统中进行回放，此时需对音频信号进行处理使之满足特定的回放系统。传统的处理方法有音频的上混及下混、虚拟化技术，它们可以解决音频回放系统的适应性问题，但重构的声场景的空间质量有待提高。在这一过程中，希望保留音频信号的空间信息以及感知上的特征。

具有提示意义的源分量以及烘托氛围的散射的环境分量描述了声场景的全部内容。在声场景的感知上，源分量提供了线索，环境分量则渲染了情境。在音频回放系统的信号处理过程中如果能够最大限度地保留源分量和环境分量在感知上的差异，则重构出的声场景便具有更强的带入感。并且通过对提取出的源分量和环境分量分别进行渲染重构能够设计出任何通道数目下的输入信号，使之满足任何回放系统。

对于音频信号的源分量和环境分量提取目前已存在一些研究，如线性估计框架下的基于主成分分析的(Principal Component analysis，PCA)源分量和环境分量提取算法，时频掩蔽算法(Time-frequency Masking，masking)、最小二乘算法(Least Square，LS)、最小泄漏误差下的最小二乘算法(Minimum Leakage Least Squares，MLLS)、最小失真误差下的最小二乘算法(Minimum Distortion Least Squares，MDLS)以及可调节的最小二乘算法(Adjustable Least Squares,ALS)算法。环境频谱估计框架下的算法如稀疏约束下环境分量相位角估计算法(Ambient Phase Estimation with a Sparsity Constraint,APES)及其简化算法APEX。其中环境频谱估计框架下的APES算法具有最佳的性能，然而APES算法作为在相位空间中逐点搜索的算法存在计算量大的问题。APEX算法作为APES算法的简化大大提高了计算速度，但在一定程度上损失了计算的准确度。

发明内容

本发明实施例提供了一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质，以在保障提取精度的同时降低运算量。

一方面，本发明实施例提供了一种改进的稀疏约束下环境分量相位角估计方法，所述方法包括：

步骤1：对待处理的双声道音频信号进行短时傅里叶变换，将待处理的双声道音频信号变换到时频域，得到时频域的左声道信号X₀和右声道信号X₁；

步骤2：对频率小于1.5kHz的频带，采用第一相位角估计法获取环境分量相位角估计值；对于频率大于或等于1.5kHz的频带，采用第二相位角估计法获取环境分量相位角估计值；

其中，第一相位角估计法为基于稀疏约束下的环境分量相位角估计法；

第二相位角估计法具体包括：

根据公式β＝12.75+12.5×γ计算频点的角度范围β，确定环境分量相位角θ的搜索范围：

其中，γ表示源分量能量占比，k表示幅度偏移系数；

按照至少5个搜索点数设置时频点的搜索点数，并在每一时频点选取出满足下式的最佳环境分量的相位角：

其中，

表示右声道的最佳环境分量的相位角，

表示右声道的环境分量的幅度谱的估计值，基于第一相位角估计法获取；

基于左右环境分量的相位角间的关联关系，得到每一时频点的左声道的最佳环境分量的相位角。

进一步的，步骤2中，设置时频点的搜索点数时，基于源分量能量占比γ进行设置：

若γ∈0.1±Δ，则搜索点数设置为10或11；

若γ∈0.2±Δ，则搜索点数设置为10或9；

若γ∈0.3±Δ，则搜索点数设置为10或9；

若γ∈0.4±Δ，则搜索点数设置为10或9；

若γ∈0.5±Δ，则搜索点数设置为9或8；

若γ∈0.6±Δ，则搜索点数设置为9或8；

若γ∈0.7±Δ，则搜索点数设置为8或7；

若γ∈0.8±Δ，则搜索点数设置为8或7；

若γ∈0.9±Δ，则搜索点数设置为7或6；

其中，Δ表示源分量能量占比γ的预设偏差。

另一方面，本发明实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现上述任一所述的改进的稀疏约束下环境分量相位角估计方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现上述任一所述的改进的稀疏约束下环境分量相位角估计方法。

本发明实施例提供的技术方案至少带来如下有益效果：

在本发明实施例中，从人耳的听觉特性，对不同的频带区域进行了不同的搜索策略，相比于现有的环境分量相位角估计方法，在保障一定的提取精度的前提下，显著降低了运算量，具有实际利用价值。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中，APES算法信号模型示意图；

图2是本发明实施例中，不同PPR下AEPS与APEX算法环境分量相位角角度差概率密度函数；

图3是本发明实施例中，覆盖一定比例角度差所需的角度范围；

图4是本发明实施例中，MAPEX法的搜索范围示意图；

图5是本发明实施例中，APES算法在不同搜索点数下的源分量提取误差；

图6是本发明实施例中，APES算法在不同搜索点数下的环境分量提取误差；

图7是本发明实施例中，1.5kHz以上频带中MAPEX法在不同PPR下的提取误差，其中(a)表示源分量；(b)表示环境分量

图8是本发明实施例中，不同PPR下三种不同处理方式的提取误差对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了便于理解，对本发明实施例中涉及的到的APES算法的基本原理进行说明。

将立体声信号表示为：

x_c(t)＝p_c(t)+a_c(t) (1)

其中，p_c(t)表示源分量，a_c(t)表示环境分量，立体声信号x_c(t)是源分量和环境分量的线性组合,c为通道指数(即c用于区分不同的通道，区分左右通道)，例如定义0表示左通道，定义1表示右通道，则有c∈{0,1}。由于源分量线性相关，即p₁(t)＝kp₀(t)，其中，k为幅度偏移系数，p₀(t)、p₁(t)分别表示左右通道的源分量。

对立体声信号进行短时傅里叶变换将信号变换到时频域，在每个时频点[m,h]处，将信号表示为X_c[m,h]。其中，m为时间指数，h为频率指数。立体声信号子带b中包含从h_b-1+1到h_b的若干频点，h_b为该子带的频点上限。该子带信号可被表示为X_c[m,b]＝[X_c(m,h_b-1+1)X_c(m,h_b-1+2)…X_c(m,h_b)]^T，上标“T”表示转置，且有：

其中，P_c[m,b]为源分量，A_c[m,b]为环境分量，为了简化表述，在下文的表述中，将“[m,b]”省略，即令P_c表示源分量，A_c表示环境分量。

左右通道中散射的环境分量之间具有低相关性。在音频处理过程中，音频工程师经常采用各种不同的方法来对音频信号进行去相关处理。例如，延迟、全通滤波器、人工混响、双耳人工混响。这些去相关过程通常能够保持音频信号的幅度不变，即|A₀|＝|A₁|＝|A|。将环境分量的频谱表示为：

A_c＝|A_c|⊙W_c,c∈{0,1} (3)

其中，符号“⊙”表示点乘，W_c的元素为

其中θ_c(m,h)是环境分量的相位向量θ_c中的元素，e表示自然底数，j表示虚数单位，θ_c＝∠A_c。

定义源分量能量占比为γ(Primary Power Ratio，PPR)，它为源分量能量在总能量中的占比：

其中，

分别为左右通道源分量及输入信号的能量，

且

由于源分量线性相关、源分量和环境分量不相关、环境分量不相关，因此输入信号的自相关系数r₀₀、r₁₁和互相关系数r₀₁之间有如下关系：

根据式(5)至式(7)可以得出k和γ的估计公式为：

参见图1，由于源分量之间具有线性相关性，即P₁＝kP₀，根据式(2)可知：

X₁-kX₀＝A₁-kA₀ (10)

通过将式(3)带入式(10)，可以得到：

|A|＝(X₁-kX₀)./(W₁-kW₀) (11)

式中，符号“./”表示点除。

因为环境分量的幅度|A|是非负正数，可以依此推导出两个通道中环境分量相位角之间的关系。将W₁-kW₀改写为W₁-kW₀＝(cosθ₁-kcosθ₀)+j(sinθ₁-ksinθ₀)。因为|A|是实数，有如下关系：sinθ./cosθ＝(sinθ₁-ksinθ₀)./(cosθ₁-kcosθ₀)，该式可进一步改写为：

sin(θ-θ₀)＝k^-1 sin(θ-θ₁) (12)

其中，θ＝∠(X₁-kX₀)。当对θ₀进行求解时，可获得两组解：

其中，α＝arcsin[k^-1sin(θ-θ₁)]，α∈[-0.5π,0.5π]。将α＝arcsin[k^-1sin(θ-θ₁)]改写为sinα＝k^-1sin(θ-θ₁)以及

由于环境分量的幅度|A|是非负的，因此W₁-kW₀的实部(或虚部)和X₁-kX₀的实部(或虚部)有相同的符号。

接下来依次对θ₀的两个解进行检验。当

时，有：

此时，W₁-kW₀虚部的符号和X₁-kX₀的虚部的符号不相同，不能保证环境分量的幅度|A|是非负的。因此解

不符合条件。类似地，对

进行检验。当

时，有：

确保了在该相位角下的|A|为非负，该解为满足条件的唯一解。进一步将式(11)和式(3)带入式(2)有：

式(16)中，X₁和X₀为已知信号，k可以根据式(8)求得，只有W₁和W₀未知。源分量和环境分量直接由环境分量的相位角决定。基于θ₁和θ₀之间的关系，只需对环境分量的相位角θ₁进行估计。

声音信号一个十分重要的特征是具有稀疏性，这一点常常作为许多音频和音乐信号处理中寻找最优解的一个关键的优化准则。由于源分量常常是具有指向性的声源，因此在时频域中可以被视为稀疏的。利用源分量的稀疏性来估计环境分量的相位角以及幅度谱。在稀疏约束下，该问题可以被表示为：

其中，

分别表示环境分量相位角和幅度谱的估计值，式(17)计算了源分量的一范数，其等于源分量在所有时频点上的幅度之和。因为式(17)中的优化函数不是一个凸函数，凸优化技术在这里不适用。其他方式，如模拟退火，需要对所有阶变量实行优化，存在效率低的问题。为解决这一问题，可以采用一种更加有效的离散搜索(discretesearching,DS)方法来估计环境分量的相位。即在每一频点，源分量的幅度仅仅由同一频点环境分量的相位决定，因此式(17)中的估计可以单独地在每一个频点进行。相位变量的搜索范围为[-π,π]，设d∈{1,2,…,D}，环境分量相位角的估计值为一系列离散角度

中的某一角度。根据式(15)和式(16)可以求出在D个不同环境分量相位角下的源分量，最佳环境分量相位角可以采用下式进行求解:

最后，通过式(16)计算出提取出的源分量及环境分量。

即APES算法的计算过程包括：

(1)对输入信号进行短时傅里叶变换将信号变换到时频域，得到信号X₀，X₁，并计算k，设定D的取值，然后对于每一个时频点重复步骤(2)至(7)；

(2)初始化d＝1，计算θ＝∠(X₁-kX₀)，重复步骤(3)至(6)

(3)计算

(4)计算

和

(5)根据式(3-9)计算

和

(6)更新d＝d+1，直到d＝D；

(7)找到

设置d＝d^*，利用式(3-9)计算

(8)采用傅里叶逆变换计算出时域的源分量及环境分量。

但是上述APES算法存在计算量大的问题，为了获取一种更加快速的源环境分量提取方法，可以采用APEX算法对于每一个时频点，即将式(2)改写为：

其中，θ_PA0和θ_PA1分别是0通道和1通道中源分量频谱和环境分量频谱的夹角。依据式(18)可以得出：

(1-k^-2)|P₁|²+2|A|(cosθ_PA1-k^-1cosθ_PA0)|P₁|-(|X₁|²-|X₀|²)＝0 (19)

对|P₁|进行求解，可以得出

从式(20)可以看出，当k＞1时，最小化|P₁|可以通过最小化k^-1cosθ_PA0-cosθ_PA1来求得(由于k≥1，在大多数情况下|X₁|²≥|X₀|²)。在θ_PA0＝π，θ_PA1＝0时能够取得|P₁|的最小值。根据式(15)中两个环境分量相位角之间的关系可知，不能同时满足θ_PA0＝π且θ_PA1＝0。由于k＞1，更好的选择是使θ_PA1＝0。在另一方面，当k＝1时，使θ₀-θ₁＝π能够取得|P₁|的最小值。综上可以得出环境分量相位角的近似估计方法为：

由于这个近似解采用了输入信号的相位角信息，称该方法为APEX。该方法的计算效率明显高于APES算法。统计APES算法和APEX算法在每一时频点处的计算量，结果如表1所示。表1表明APEX算法的计算量远远低于APES算法，APES算法的计算量与搜索点数D有关，随着D的增加，算法的计算量显著增大。

表1 APES算法和APEX算法计算量统计(每一时频点)

算法

均方根

加法

乘法

除法

比较

三角计算

APES

D

15D+18

15D+13

4D+6

D-1

7D+6

APEX

0

13

7

4

1

7

APEX算法的环境分量提取精度不如APES算法，即APEX算法确立的环境分量的相位角的准确度不如APES算法，对不同PPR下APES算法和APEX算法确立的环境分量的相位角之差的绝对值的概率密度函数进行统计。采用一单通道说话男声作为源分量，信号采样频率为44.1kHz，单通道海浪声作为环境分量，利用随机相位去相关滤波器构造另一通道的环境分量。设定幅度偏移系数k为2，信号帧长为4096个采样点，PPR设为0.1至0.9，步长为0.1，采用APES算法和APEX算法对信号源分量和环境分量进行提取，统计两个算法确立的环境分量的相位角之差的绝对值的概率密度函数，结果如图2所示(为了方便显示，图中只给出部分PPR下的结果)。从图中可以看出，随着角度差的增大，函数的概率密度值逐渐减小，且在角度差较大时概率密度值达到了可以忽略的量级。不同PPR下其概率密度分布不同。从图中可以看出，在0-5°的范围内PPR越大，概率密度函数值越低。在5°-30°的范围内PPR越大，概率密度函数值越高。而在30°-60°的范围内，概率密度函数值与PPR值没有呈现出明显的规律。

进一步地，对覆盖一定比例的角度差所需要的角度范围进行统计，结果如图3所示。从图中可以看出，随着PPR的增大，覆盖不同比例的角度差所需的角度范围均随之增大，且呈现线性增长的规律。以覆盖90％的角度差所需的角度范围为例，角度范围β与γ的关系可以被表示为：

β＝12.75+12.5×γ (22)

可以看出APES算法确立的环境分量的相位角大多位于APEX算法附近。统计出大部分的角度差所在的角度范围β，考虑在APEX算法的基础上增加搜索点数使得算法的提取精度提高。同时由于双耳录制立体声信号的空间信息主要表现为在1.5kHz以下的相位差和1.5kHz至3kHz以上的振幅差，相位信息的主导作用从低频到高频逐渐递减。因此该搜索策略只使用在1.5kHz及以上的频带中的时频点，1.5kHz以下频带区间的时频点继续沿用APES的搜索方式，称该新的估计方法被称为MAPEX(Modified APEX)法，即改进的稀疏约束下环境分量相位角估计方法。

如图4所示，MAPEX法在1.5kHz以上频带内，利用APEX算法快速确立一个相位角，然后在APEX算法所确立的环境分量的相位角附近的大小为β的角度范围内增加搜索点数，MAPEX法的优化准为：

下面对算法对于搜索点数的要求进行说明。

定义源分量的提取误差为：

环境分量的提取误差为：

计算APES算法及MAPEX法在不同PPR下以及不同搜索点数下的源分量提取误差ESR_P和环境分量提取误差ESR_A，结果如图5至7所示。APES算法对于搜索点数的要求与PPR相关，随着PPR的增大，算法对点数的要求逐渐减少。表2给出更多的PPR取值下APES算法所需的搜索点数。

表2 APES算法在不同PPR下所需的平均搜索点数(每一时频点)

PPR	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
										点数	85.0	75.0	70.0	65.0	60.0	55.0	45.0	35.0	30.0

图7表明不管是对于源分量还是环境分量，在不同的PPR下，在1.5kHz以上频带的对应搜索点数达到5个即可达到稳定的状态。统计更多PPR条件下MAPEX法所需的搜索点数，结果如表3所示。表3表明MAPEX法时间复杂度相比APES更低，同时在不同PPR下也更加稳定。

表3 MAPEX法在不同PPR下所需的平均搜索点数(每一时频点)

PPR	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
										点数	10.5	9.8	9.4	9.1	8.8	8.4	7.7	7.0	6.7

现通过具体实例对本发明实施例所提出的MAPEX法进行描述。

制作待分解立体声：左声道的源分量采用录制的单声道语音音频信号，右声道的源分量是将左声道的源分量乘以幅度偏移系数k，此实例中k取值为2。取双声道海浪声的左声道音频信号为左声道环境分量，右声道的环境分量通过对左声道环境分量进行随机相位去相关计算得到。

随后，计算出源分量和环境分量的功率，对左、右声道的源分量和环境分量进行进一步地处理，使PPR为0.1至0.9，步长为0.1。

再分别混合左、右声道的源分量、环境分量，得到左、右声道的输入信号，即获得待处理的立体声音频信号。

本发明实施例中，采用MAPEX法完成环境分量相位角估计的具体步骤包括：

首先，对立体声输入音频信号进行短时傅里叶变换，得到左、右声道输入信号的频谱，本实施例中，帧长为4096个采样点。

依据式(22)计算1.5kHz以上频带对应时频点的角度范围β，进一步计算MAPEX法的搜索空间：

按照表3中不同PPR下的所需的搜索点数对MAPEX法的搜索空间进行划分，在每一时频点选取出满足式(23)的最佳环境分量的相位角，进一步依据式(16)解得每一时频点的源分量和环境分量。最后采用短时傅里叶逆变换将信号变换到时域。

利用APES算法、APEX算法以及MAPEX法对输入音频信号提取源分量及环境分量，计算提取误差。下面对三种方式的提取精度进行说明，结果如图8所示。从图中可以看出，上述三种处理方式的源分量提取误差均随着PPR的增大而减小，环境分量提取误差随着PPR的增大而增大。无论是源分量还是环境分量，APES算法均有最小的提取误差，MAPEX法次之，AEPX算法的提取误差最大。MAPEX法的优化思路从人耳的听觉特性，对不同的频带区域进行了不同的搜索策略，相比于APEX算法有较高的提取精度，且计算量远低于APES算法，具有实际利用价值。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行，以实现本发明是实例提供的改进的稀疏约束下环境分量相位角估计方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由计算机设备的处理器加载并执行，以实现本发明是实例提供的改进的稀疏约束下环境分量相位角估计方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROMD)、磁带和光数据存储设备等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。