CN113518299A

CN113518299A - 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质

Info

Publication number: CN113518299A
Application number: CN202110480313.1A
Authority: CN
Inventors: 史创; 王苹洁; 杨浩聪; 刘英子
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-10-19
Anticipated expiration: 2041-04-30
Also published as: CN113518299B

Abstract

本发明公开了一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质，属于音视频处理技术领域。本发明的提取方法为：对两个声道的源分量能量之比进行估计，并求解音频在每帧的各正频率点分量值；然后获取环境分量相位角的最优估计；最后，通过共轭对称关系构建对应的负频率点分量值，并对每帧的各频率点分量值进行频域到时域的转换处理，得到待进行提取的双声道音频信号的左右升到的环境分量信号与源分量信号。本发明可用于立体声扩展，使得通道格式立体声音频可以与任意通道数的再现系统兼容。在音频质量方面，经本发明提取方法所提取出源分量、环境分量的时域波形与原始语音的左声道源分量、环境分量的波形具有高度一致性。

Description

一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质

技术领域

本发明属于音频技术领域，具体涉及一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质。

背景技术

如今基于通道的音频格式得到了广泛应用，但基于通道的音频往往具有特定的播放配置，即它无法与不同的播放系统兼容。因此考虑到当今播放系统的多样性，需要对不同通道数的音频信号进行分解和重构以满足不同配置的播放系统，并获得更好的空间质量(spatial quality)。

传统的音频重构技术根据播放系统分为两类，一种是扬声器播放，常见技术有混音(audio remixing)，另一种是耳机播放，常见技术有虚拟化(virtulization)等。基于文献《Spatial sound reproduction using conventional and parametric loudspeakers》和《Spatial audio processing:MPEG surround and other applications》可知，扬声器播放的音频重构需要额外的组件，导致相应的设备成本更加昂贵。另一方面耳机播放重构出的声音，其空间质量相对实录立体声还存在差距。

针对以上问题，一种改进的思路是通过前端算法处理的手段，建立立体声信号模型，使用音频的相位信息来营造更真实的空间听感。将双声道音频分解为源分量(primarycomponent)和环境分量(ambient component)的线性组合，其中音频左右通道分别表示为x_L和x_R,并满足：x_L＝p_L+a_L,x_R＝p_L+a_R，其中p_L、p_R分别代表左右通道的源分量，a_L和a_R分别代表左右通道的环境分量。在文献《Primary-Ambient Extraction Using Ambient SpectrumEstimation for Immersive Spatial Audio Reproduction》中，提出了一种通过对每帧每个频点的环境分量相位做最优估计来实现源分量及环境分量提取的技术，但该方法的优化目标为每帧每频点的环境分量相位，在本发明的技术方案的实现过程中，发明人发现：实际生活中一种更常见的情况是不同帧相同频点处的环境分量相位差相同，因此没有必要对左、右声道每帧、每频点处的环境分量相位均做最优估计。

发明内容

本发明公开了一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质，以减小对双声道音频的进行源分量及环境分量提取时的计算量，提升运算速度。

一方面，本发明提供了一种基于双声道音频的一种改进的源分量及环境分量提取方法，包括下列步骤：

步骤1：估算左、右通道源分量之比k；

其中，

r₀₀、r₁₁分别表示左右通道源分量的自相关系数，r₀₁表示左右通道源分量的互相关系数；

步骤2：对待进行分量提取的双声道音频信号进行分帧，将每帧信号变换到频域，并提取每一帧内左、右通道的的正频率点的音频信号分量x_L[m,f]、x_R[m,f]，其中，m表示帧数，f表示频率值；

且：x_L[m,f]＝p_L[m,f]+a_L[m,f]，x_R[m,f]＝p_R[m,f]+a_R[m,f]；

其中，p_L[m,f]、p_R[m,f]分别表示左、右通道的正频点的源分量，a_L[m,f]、a_R[m,f]分别表示左、右通道的正频点的环境分量；

步骤3：根据公式θ[m,f]＝∠(x_R[m,f]-kx_L[m,f])构造参数θ[m,f]，即θ[m,f]为音频信号分量(x_R[m,f]-kx_L[m,f])所对应的正频点的相位；

步骤4：定义左、右通道环境分量的相位差为Δθ[f]＝∠a_R[m,f]-∠a_L[m,f]，其中，∠a_R[m,f]、∠a_L[m,f]分别表示环境分量a_R[m,f]、a_L[m,f]所对应的正频点的相位；

将相位差为Δθ[f]的取值范围(-π,π]等距离划分为多个值，得到多个离散的角度θ_i，下标i表示角度编号；

遍历每个角度θ_i，计算当相位差Δθ[f]的取值为θ_i时的不同帧的同一频点的右声道源分量的1范数之和；

取不同帧同一频点的右声道源分量的1范数之和最小时的角度θ_i作为相位差Δθ[f]的最优估计值；

步骤5：计算相位∠a_R[m,f]和∠a_L[m,f]，其中∠a_R[m,f]有两组计算结果，分别定义为∠a_R[m,f]^[0]和∠a_R[m,f]^[1]：

∠a_L[m,f]＝∠a_R[m,f]-Δθ[f]；

基于相位∠a_R[m,f]和∠a_L[m,f]计算左声道的正频点的环境分量和源分量：

p_L[m,f]＝x_L[m,f]-a_L[m,f]；

以及根据p_R[m,f]＝kp_L[m,f]得到右声道的正频点的源分量p_R[m,f]；

其中，∠a_R[m,f]∈{∠a_R[m,f]^[0],∠a_R[m,f]^[1]}，并保留p_R[m,f]最小的那一组计算结果，得到每帧的左、右声道的正频点的源分量p_L[m,f]、p_R[m,f]；

即，当∠a_R[m,f]＝∠a_R[m,f]^[0]时，将计算得到的p_L[m,f]记为p_L[m,f]^[0]，进而根据p_L[m,f]＝x_L[m,f]-a_L[m,f]得到p_R[m,f]^[0]；

即，当∠a_R[m,f]＝∠a_R[m,f]^[1]时，将计算得到的p_L[m,f]记为p_L[m,f]^[1]，进而根据p_L[m,f]＝x_L[m,f]-a_L[m,f]得到p_R[m,f]^[1]；

从而得到两组正频点的源分量：

第一组：p_L[m,f]^[0]和p_R[m,f]^[0]；

第二组：p_L[m,f]^[1]和p_R[m,f]^[1]；

比较p_R[m,f]^[0]与p_R[m,f]^[1]的大小，保留两者中较小者所对应的那一组正频点的源分量(例如p_R[m,f]^[0]较小，则保留第一组)；

其中，符号“./”、“.*”分别表示点除和点乘，即两个矩阵对应元素直接除或者乘，j表示虚数单位；

步骤6：基于得到的每帧的左、右声道的正频点的源分量p_L[m,f]、p_R[m,f]，通过共轭对称关系构建每帧的左、右声道的负频率点的源分量；

步骤7：对每帧的左、右声道的源分量值进行频域到时域的转换，得到待进行分量提取的双声道音频信号的源分量信号，并分别与对应通道的双声道音频信号相减，得到左、右声道的环境分量信号。

本发明通过将优化参数从右声道环境分量相位转化为左、右声道环境分量相位差，并保证提取精度，同时基于左右声道不同帧同一频点的环境分量相位差相同的设置下，在优化时对不同帧同一频点处的值进行联合优化，以减小计算量，并提高运算速度。

另一方面，本发明提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现上述所述的基于双声道音频的一种改进的源分量及环境分量提取方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现上述所述的基于双声道音频的一种改进的源分量及环境分量提取方法。

本发明实施例提供的技术方案至少带来如下有益效果：

在本发明实施例中，让通道格式音频可以与任何再现系统兼容的同时，也同时兼顾了时间效率和处理效果。所提取出的左右声道源分量、环境分量的时域波形与原始音频的源分量、环境分量的时域波形具有高度一致性，提取误差比极低，且提取出的环境分量的左、右声道相关度很低，幅度相当。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的源环境提取方法处理流程图；

图2为本发明实施例中，原始左声道源分量的时域波形；

图3为本发明实施例中，原始左声道环境分量的时域波形；

图4为本发明实施例提供的源分量及环境分量提取方法所提取出来的左声道源分量的时域波形；

图5为本发明实施例提供的源分量及环境分量提取方法所提取出来的左声道环境分量的时域波形；

图6为本发明实施例中，源分量功率与总功率比不同时的源分量提取误差比；

图7为本发明实施例中，源分量功率与总功率比不同时的环境分量提取误差比；

图8为本发明实施例中，源分量功率与总功率比不同时的环境分量信号组内相关系数；

图9为本发明实施例中，源分量功率与总功率比不同时的通道间环境分量信号幅度差。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本发明实施例提供的基于双声道音频的改进的源分量及环境分量提取方法中，假设待处理双声道音频信号由源分量与环境分量相加组成，并且两个声道的环境分量在每一帧的同一频点上都具有相同的相位差。具体实现方式为：首先对两个声道的源分量能量之比进行估计，并求解音频在每帧的各正频率点分量值；然后求解在对其中一个通道的环境分量相位角进行不同估计时，所有帧在同一频点的值之和，找到对环境分量相位角的最优估计；最后，通过共轭对称关系构建对应的负频率点分量值，并对每帧的各频率点分量值进行频域到时域的转换处理，得到待进行提取的双声道音频信号的左右升到的环境分量信号与源分量信号。本发明可用于立体声扩展，使得通道格式立体声音频可以与任意通道数的再现系统兼容。在音频质量方面，经本发明提取方法所提取出源分量、环境分量的时域波形与原始语音的左声道源分量、环境分量的波形具有高度一致性。

双声道音频分解为源分量和环境分量的线性组合，且左、右声道的源分量满足k倍关系，左、右声道的环境分量不相关且等幅度。

令音频左、右通道分别表示为x_L和x_R,则满足：x_L＝p_L+a_L,x_R＝p_L+a_R，其中p_L、p_R分别代表左右通道的源分量，a_L和a_R分别代表左右通道的环境分量。

首先假定左、右声道的源分量比值保持稳定，利用式(1)估计左、右声道源分量比值k：

将音频信号进行分帧，并对每一帧信号进行时域到频域的转换处理，那么对每一帧的每个频点都满足式(2)、(3)：

x_L[m,f]＝p_L[m,f]+a_L[m,f] (2)

x_R[m,f]＝p_R[m,f]+a_L[m,f] (3)

其中m为帧数，f为频率值，x_L[m,f]、x_R[m，f]分别表示左、右声道的正频点的音频信号分量，p_L[m，f]、p_R[m，f]分别表示左、右声道的正频点的源分量，a_L[m，f]、a_L[m,f]分别表示左、右声道的正频点的环境分量。

由于实信号的傅里叶变换具有共轭对称性质，因此仅取频谱正频部分进行求解，并在求解完成后利用共轭对称关系构造负频率分量，以保证傅里叶逆变换后时域仍为实信号。

利用上述求解出的左、右声道源分量比值k和信号在正频点的音频信号分量x_L[m,f]、x_R[m,f]，通过式(4)构造一个新参数θ[m,f]：

θ[m，f]＝∠(x_R[m,f]-kx_L[m,f]) (4)

由于假定不同帧左、右声道环境分量同一频点的相位差相同，因此将该相位差，即Δθ[f]＝∠a_R[m,f]-∠a_L[m,f]，作为优化求解的目标参数。

由于相位差Δθ[f]∈[-π,π)，于是将该区间等间距划分为D(D为正整数)个值，并依次作为Δθ[f]的取值，计算当前右声道音频所有帧同一正频点取值的1范数之和。

随后比较当相位差Δθ[f]取不同值时，右声道音频所有帧同一正频点取值的1范数之和的大小，利用音频源分量的稀疏性，取右声道音频所有帧同一正频点取值的1范数之和最小时的Δθ[f]作为该频点双声道音频环境分量相位差的最优解。

在一种可能的实现方式中，将相位差Δθ[f]的取值序列为式(5)，d表示取值范围[-π,π)内的第d个角度取值，即角度编号：

左、右声道音频环境分量正频点的相位计算公式分别为式(6)、(7)，其中右通道环境分量有两种取值：

∠a_L[m,f]＝∠a_R[m,f]-Δθ[f] (8)

由于右声道音频环境分量的相位包含两个解，在没有附加条件的情况下无法确定哪一个为真实解，因此将两个解都算出来，在最后对Δθ[f]进行优化估计时再确定对应的左、右声道音频环境分量的正频点值。

利用估计出的每个频点最优的Δθ[f]求解左、右声道音频环境分量的相位最优估计后，再利用该估计求解左声道源分量与环境分量的正频点处的值，如式(8)-(9)：

p_L[m,f]＝x_L[m,f]-a_L[m,f] (10)

利用左、右声道音频源分量间的线性关系，得出右声道源分量正频点处的值，如式(11)：

p_R[m,f]＝kp_L[m,f] (11)

两组∠a_R[m,f]的取值对应求得两组p_R[m,f]，只保留其中p_R[m,f]取值小的那一组解。接着，利用傅里叶变换的共轭对称性质，构建左、右声道音频源分量的负频点值，并对每帧的源分量做频域到时域的傅里叶逆变换，得到左、右声道的源分量信号，最后与双声道音频信号相减，得到左、右声道的环境分量信号。

参见图1，本发明实施例提供的基于双声道音频的改进的源分量及环境分量提取方法，包括：

步骤S1：估算左右通道源分量比值k；

步骤S2：对左右通道信号进行分帧处理；

步骤S3：对酥油帧信号分别进行傅里叶变换；

遍历每帧的每个正频点，初始化帧数m＝1,频率值f＝1，角度编号d＝0；

步骤S4：读取当前正频点的音频信号分量：x_L[m,f]、x_R[m，f]；

步骤S5：根据公式(4)构建参数θ[m，f]，并令

步骤S6：计算当前正频点的左右声道音频源分量的1范数，并与不同帧同一频点处的Δθ[f]的该值累加；

步骤S7：判定是否遍历完所有帧，若是，则执行步骤S8，否则令m自增1后执行步骤S6；

步骤S8：判断是否遍历完d的所有取值，若是，则执行步骤S9，否则令d自增1后执行步骤S5；

步骤S9：求解当前正频点处对Δθ[f]的最优估计值：从D个所有帧的同频点的Δθ[f]的1范数的累加和中，基于最小累加和所对应的d得到Δθ[f]的最优估计值，再执行步骤S10；

步骤S10：判断是否遍历完所有正频点，若是，则执行步骤S11，否则令f子增1后执行步骤S4；

步骤S11：求解左、右通道源分量的频谱，即根据公式(9)～(11)进行求解；

步骤S12：构建负频部分的左、右声道音频源分量；对每帧的源分量做频域到时域的傅里叶逆变换并拼接所有帧得到左、右声道的源分量信号，最后与双声道音频信号相减，得到左、右声道的环境分量信号。

为了进一步验证本发明实施例所提供的提取方法的性能，基于所制作的待提取的双声道音频进行仿真验证。

其中，所述待提取的双声道音频的制作方式为：

左声道的源分量采用一段录制的演讲语音音频(时域波形图如图2所示，采样率44.1kHz)，左声道的环境分量采用一段海浪声(时域波形图如图3所示，采样率44.1kHz)。右声道的源分量是将左声道的源分量信号乘以参数k(本例中取为2)，右声道的环境分量由对左声道环境分量进行去相关处理得到，具体处理为：首先将左声道环境分量信号分帧(本例中帧长为1024，约23.2ms)并做时域到频域的变换，取正频点，然后对每一帧的同一频点处的复值添加相同的随机相位，以保证左、右声道环境分量在不同帧的相同频点处都具有相同的相位差，最后利用傅里叶变换的共轭对称性质补全负频点部分，并做频域到时域的傅里叶逆变换，得到右声道环境分量信号。随后根据源分量功率和总功率的比值设定(本例中取为0.8)，对源分量和环境分量的相对大小进行调整，使其功率比满足要求。最后，将左、右声道的源分量和环境分量分别相加混合，即可得到待提取的双声道音频信号。

再采用本发明实施例所提供的提取方法对上述待提取的双声道音频信号进行源环境分量提取：

首先对左、右声道音频源分量的比值k进行估计，作为后级参数使用。

然后对双声道音频信号进行分帧处理，本实施例中帧长为1024，时长约23.2ms。

接着分别对每帧左、右声道音频信号做1024点快速傅里叶变换(Fast FourierTransform,FFT),并取正频部分，得到每帧左、右声道信号的正频频谱x_L[m，f]、x_R[m，f]。

构造参数θ[m，f]＝∠(x_R[m,f]-kx_L[m,f])。

将Δθ[f]取值范围[-π,π)等间距分为D个值(本例中D＝100)，对应的对双声道音频频谱的每个点都进行D次遍历，每次代入的Δθ[f]即为上述的D个值。每一次遍历时均计算出当前所有帧在该频点的右声道源分量值的1范数之和，由于每一个Δθ[f]取值均对应两种求解情况，将两种解值均保留。

D次遍历结束后，对每一个正频点均找出能使所有帧在该频点的右声道源分量1范数之和最小的Δθ[f]取值，则该值则为当前频点对Δθ[f]的最优估计。

代入Δθ[f]的最优估计值，重复遍历过程中对左、右声道源分量的求解过程，得到左、右声道源分量正频部分的最优估计。

最后利用傅里叶变换的共轭对称关系，对左、右声道源分量的频谱进行补全，然后做从频域到时域的逆傅里叶变换，并将不同帧拼接起来，得到左、右声道的源分量信号，再与原混合信号进行相减，得到左、右声道的环境分量信号。

在衡量本发明实施例所提供的提取方法的性能时，采用了下述四种指标：

第一种是比较纯净信号和提取后信号的时域波形图，如图2、图3、图4和图5所示；

第二种是计算源分量功率与总功率比不同时的源分量提取误差比ESR_P、环境分量提取误差比ESR_A，如图6、图7所示，计算公式如式(12)、式(13)：

其中，

分别代表某一通道音频源分量、环境分量的提取信号，p_c、a_c分别代表某一通道音频源分量、环境分量的原始信号。

第三种是计算源分量功率与总功率比不同时的环境分量信号组内相关系数(intraclass correlation coefficient,ICC)，如图8所示，计算公式如式(14)所示：

第四种是计算源分量功率与总功率比不同时的通道间环境分量信号幅度差(inter channel level difference,ICLD)，如图9所示，计算公式如式(15)所示：

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行，以实现上述任一种源分量及环境分量提取方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由计算机设备的处理器加载并执行，以实现上述任一种源分量及环境分量提取方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROMD)、磁带和光数据存储设备等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于双声道音频的一种改进的源分量及环境分量提取方法，其特征在于，包括：

步骤1：估算左、右通道源分量之比k；

其中，

步骤2：对进行分量提取的双声道音频信号进行分帧，将每帧信号变换到频域，并提取每一帧内左、右通道的正频率点的音频信号分量x_L[m,f]、x_R[m,f]，其中，m表示帧数，f表示频率值；

且：x_L[m,f]＝p_L[m,f]+a_L[m,f]，x_R[m,f]＝p_R[m,f]+a_R[m,f]；

步骤3：根据公式θ[m,f]＝∠(x_R[m,f]-kx_L[m,f])构造参数θ[m,f]；

将相位差Δθ[f]的取值范围(-π,π]等距离划分为多个值，得到多个离散的角度θ_i，下标i表示角度编号；

步骤5：计算相位∠a_R[m,f]和∠a_L[m,f]，其中∠a_R[m,f]有两组计算结果，分别定义为∠a_R[m,f]^[0]和∠a_R[m,f]^[1]；

∠a_L[m,f]＝∠a_R[m,f]-Δθ[f]；

p_L[m,f]＝x_L[m,f]-a_L[m,f]；

其中，符号“./”、“.*”分别表示点除和点乘，j表示虚数单位；

步骤6：基于每帧的左、右声道的正频点的源分量p_L[m,f]、p_R[m,f]，通过共轭对称关系构建每帧的左、右声道的负频率点的源分量；

2.如权利要求1所述的源分量及环境分量提取方法，其特征在于，步骤4中，定义参数D表示角度θ_i的个数，则

其中，i＝0,1,2,…,D。

3.如权利要求2所述的源分量及环境分量提取方法，其中在于，参数D的取值为100。

4.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至3任一所述的源分量及环境分量提取方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至3任一所述的源分量及环境分量提取方法方法。