CN113449255B - 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 - Google Patents

一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 Download PDF

Info

Publication number
CN113449255B
CN113449255B CN202110661604.0A CN202110661604A CN113449255B CN 113449255 B CN113449255 B CN 113449255B CN 202110661604 A CN202110661604 A CN 202110661604A CN 113449255 B CN113449255 B CN 113449255B
Authority
CN
China
Prior art keywords
phase angle
component
frequency
angle estimation
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110661604.0A
Other languages
English (en)
Other versions
CN113449255A (zh
Inventor
史创
杨浩聪
刘英子
梁江楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110661604.0A priority Critical patent/CN113449255B/zh
Publication of CN113449255A publication Critical patent/CN113449255A/zh
Application granted granted Critical
Publication of CN113449255B publication Critical patent/CN113449255B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm

Landscapes

  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质,属于音频处理技术领域。本发明包括:对待处理的双声道音频信号进行短时傅里叶变换,将待处理的双声道音频信号变换到时频域,得到时频域的左、右声道信号;对频率小于1.5kHz的频带,采用第一相位角估计法获取环境分量相位角估计值;对于频率大于或等于1.5kHz的频带,采用第二相位角估计法获取环境分量相位角估计值。本发明从人耳的听觉特性,对不同的频带区域进行了不同的搜索策略,相比于现有的环境分量相位角估计方法,在保障一定的提取精度的前提下,显著降低了运算量,有助于在立体声扩展中保留声音原始的感知特性,以构建更具沉浸感的声场景。

Description

一种改进的稀疏约束下环境分量相位角估计方法、设备及存 储介质
技术领域
本发明属于音频处理技术领域,具体涉及一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质。
背景技术
日益火热的游戏、电影、音乐等市场追求提供更加完美的用户体验。音频作为信息传递的重要媒介之一越发受到关注。构造一个更具沉浸感的声场景能够为用户带来更加直观、更有带入感的听觉体验。
通过对音频回放方式及回放内容进行设计有助于构建出一个更具沉浸感的声场景。现有的音频回放方式有基于HRTF头相关传输函数的虚拟听觉重放系统以及多通道音频回放系统。前者是在双耳声信号的重放中合成或模拟出相应的声音空间听觉,后者则是希望重放一个和理想声场尽可能相同或接近的声场。音频格式有基于通道的音频格式以及基于对象的音频格式。基于对象的音频格式由于在技术以及存储上的复杂性还没有得到广泛的应用。常见的音频信号大部分是基于通道的格式。对于针对特定的回放系统制作的通道音频信号,在该回放系统内能够得到有效的回放,而当音频信号格式与回放系统不匹配时,如何实现音频信号的有效回放是需要考虑的问题。例如将多通道音频信号在耳机中进行回放,或是将通道信号在更多通道的回放系统中进行回放,此时需对音频信号进行处理使之满足特定的回放系统。传统的处理方法有音频的上混及下混、虚拟化技术,它们可以解决音频回放系统的适应性问题,但重构的声场景的空间质量有待提高。在这一过程中,希望保留音频信号的空间信息以及感知上的特征。
具有提示意义的源分量以及烘托氛围的散射的环境分量描述了声场景的全部内容。在声场景的感知上,源分量提供了线索,环境分量则渲染了情境。在音频回放系统的信号处理过程中如果能够最大限度地保留源分量和环境分量在感知上的差异,则重构出的声场景便具有更强的带入感。并且通过对提取出的源分量和环境分量分别进行渲染重构能够设计出任何通道数目下的输入信号,使之满足任何回放系统。
对于音频信号的源分量和环境分量提取目前已存在一些研究,如线性估计框架下的基于主成分分析的(Principal Component analysis,PCA)源分量和环境分量提取算法,时频掩蔽算法(Time-frequency Masking,masking)、最小二乘算法(Least Square,LS)、最小泄漏误差下的最小二乘算法(Minimum Leakage Least Squares,MLLS)、最小失真误差下的最小二乘算法(Minimum Distortion Least Squares,MDLS)以及可调节的最小二乘算法(Adjustable Least Squares,ALS)算法。环境频谱估计框架下的算法如稀疏约束下环境分量相位角估计算法(Ambient Phase Estimation with a Sparsity Constraint,APES)及其简化算法APEX。其中环境频谱估计框架下的APES算法具有最佳的性能,然而APES算法作为在相位空间中逐点搜索的算法存在计算量大的问题。APEX算法作为APES算法的简化大大提高了计算速度,但在一定程度上损失了计算的准确度。
发明内容
本发明实施例提供了一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质,以在保障提取精度的同时降低运算量。
一方面,本发明实施例提供了一种改进的稀疏约束下环境分量相位角估计方法,所述方法包括:
步骤1:对待处理的双声道音频信号进行短时傅里叶变换,将待处理的双声道音频信号变换到时频域,得到时频域的左声道信号X0和右声道信号X1
步骤2:对频率小于1.5kHz的频带,采用第一相位角估计法获取环境分量相位角估计值;对于频率大于或等于1.5kHz的频带,采用第二相位角估计法获取环境分量相位角估计值;
其中,第一相位角估计法为基于稀疏约束下的环境分量相位角估计法;
第二相位角估计法具体包括:
根据公式β=12.75+12.5×γ计算频点的角度范围β,确定环境分量相位角θ的搜索范围:
Figure BDA0003115594480000021
其中,γ表示源分量能量占比,k表示幅度偏移系数;
按照至少5个搜索点数设置时频点的搜索点数,并在每一时频点选取出满足下式的最佳环境分量的相位角:
Figure BDA0003115594480000022
其中,
Figure BDA0003115594480000023
表示右声道的最佳环境分量的相位角,
Figure BDA0003115594480000024
表示右声道的环境分量的幅度谱的估计值,基于第一相位角估计法获取;
基于左右环境分量的相位角间的关联关系,得到每一时频点的左声道的最佳环境分量的相位角。
进一步的,步骤2中,设置时频点的搜索点数时,基于源分量能量占比γ进行设置:
若γ∈0.1±Δ,则搜索点数设置为10或11;
若γ∈0.2±Δ,则搜索点数设置为10或9;
若γ∈0.3±Δ,则搜索点数设置为10或9;
若γ∈0.4±Δ,则搜索点数设置为10或9;
若γ∈0.5±Δ,则搜索点数设置为9或8;
若γ∈0.6±Δ,则搜索点数设置为9或8;
若γ∈0.7±Δ,则搜索点数设置为8或7;
若γ∈0.8±Δ,则搜索点数设置为8或7;
若γ∈0.9±Δ,则搜索点数设置为7或6;
其中,Δ表示源分量能量占比γ的预设偏差。
另一方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现上述任一所述的改进的稀疏约束下环境分量相位角估计方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现上述任一所述的改进的稀疏约束下环境分量相位角估计方法。
本发明实施例提供的技术方案至少带来如下有益效果:
在本发明实施例中,从人耳的听觉特性,对不同的频带区域进行了不同的搜索策略,相比于现有的环境分量相位角估计方法,在保障一定的提取精度的前提下,显著降低了运算量,具有实际利用价值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中,APES算法信号模型示意图;
图2是本发明实施例中,不同PPR下AEPS与APEX算法环境分量相位角角度差概率密度函数;
图3是本发明实施例中,覆盖一定比例角度差所需的角度范围;
图4是本发明实施例中,MAPEX法的搜索范围示意图;
图5是本发明实施例中,APES算法在不同搜索点数下的源分量提取误差;
图6是本发明实施例中,APES算法在不同搜索点数下的环境分量提取误差;
图7是本发明实施例中,1.5kHz以上频带中MAPEX法在不同PPR下的提取误差,其中(a)表示源分量;(b)表示环境分量
图8是本发明实施例中,不同PPR下三种不同处理方式的提取误差对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了便于理解,对本发明实施例中涉及的到的APES算法的基本原理进行说明。
将立体声信号表示为:
xc(t)=pc(t)+ac(t) (1)
其中,pc(t)表示源分量,ac(t)表示环境分量,立体声信号xc(t)是源分量和环境分量的线性组合,c为通道指数(即c用于区分不同的通道,区分左右通道),例如定义0表示左通道,定义1表示右通道,则有c∈{0,1}。由于源分量线性相关,即p1(t)=kp0(t),其中,k为幅度偏移系数,p0(t)、p1(t)分别表示左右通道的源分量。
对立体声信号进行短时傅里叶变换将信号变换到时频域,在每个时频点[m,h]处,将信号表示为Xc[m,h]。其中,m为时间指数,h为频率指数。立体声信号子带b中包含从hb-1+1到hb的若干频点,hb为该子带的频点上限。该子带信号可被表示为Xc[m,b]=[Xc(m,hb-1+1)Xc(m,hb-1+2)…Xc(m,hb)]T,上标“T”表示转置,且有:
Figure BDA0003115594480000041
其中,Pc[m,b]为源分量,Ac[m,b]为环境分量,为了简化表述,在下文的表述中,将“[m,b]”省略,即令Pc表示源分量,Ac表示环境分量。
左右通道中散射的环境分量之间具有低相关性。在音频处理过程中,音频工程师经常采用各种不同的方法来对音频信号进行去相关处理。例如,延迟、全通滤波器、人工混响、双耳人工混响。这些去相关过程通常能够保持音频信号的幅度不变,即|A0|=|A1|=|A|。将环境分量的频谱表示为:
Ac=|Ac|⊙Wc,c∈{0,1} (3)
其中,符号“⊙”表示点乘,Wc的元素为
Figure BDA0003115594480000051
其中θc(m,h)是环境分量的相位向量θc中的元素,e表示自然底数,j表示虚数单位,θc=∠Ac
定义源分量能量占比为γ(Primary Power Ratio,PPR),它为源分量能量在总能量中的占比:
Figure BDA0003115594480000052
其中,
Figure BDA0003115594480000053
分别为左右通道源分量及输入信号的能量,
Figure BDA0003115594480000054
Figure BDA0003115594480000055
由于源分量线性相关、源分量和环境分量不相关、环境分量不相关,因此输入信号的自相关系数r00、r11和互相关系数r01之间有如下关系:
Figure BDA0003115594480000056
Figure BDA0003115594480000057
Figure BDA0003115594480000058
根据式(5)至式(7)可以得出k和γ的估计公式为:
Figure BDA0003115594480000059
Figure BDA00031155944800000510
参见图1,由于源分量之间具有线性相关性,即P1=kP0,根据式(2)可知:
X1-kX0=A1-kA0 (10)
通过将式(3)带入式(10),可以得到:
|A|=(X1-kX0)./(W1-kW0) (11)
式中,符号“./”表示点除。
因为环境分量的幅度|A|是非负正数,可以依此推导出两个通道中环境分量相位角之间的关系。将W1-kW0改写为W1-kW0=(cosθ1-kcosθ0)+j(sinθ1-ksinθ0)。因为|A|是实数,有如下关系:sinθ./cosθ=(sinθ1-ksinθ0)./(cosθ1-kcosθ0),该式可进一步改写为:
sin(θ-θ0)=k-1 sin(θ-θ1) (12)
其中,θ=∠(X1-kX0)。当对θ0进行求解时,可获得两组解:
Figure BDA0003115594480000061
其中,α=arcsin[k-1sin(θ-θ1)],α∈[-0.5π,0.5π]。将α=arcsin[k-1sin(θ-θ1)]改写为sinα=k-1sin(θ-θ1)以及
Figure BDA0003115594480000062
由于环境分量的幅度|A|是非负的,因此W1-kW0的实部(或虚部)和X1-kX0的实部(或虚部)有相同的符号。
接下来依次对θ0的两个解进行检验。当
Figure BDA0003115594480000063
时,有:
Figure BDA0003115594480000064
此时,W1-kW0虚部的符号和X1-kX0的虚部的符号不相同,不能保证环境分量的幅度|A|是非负的。因此解
Figure BDA0003115594480000065
不符合条件。类似地,对
Figure BDA0003115594480000066
进行检验。当
Figure BDA0003115594480000067
时,有:
Figure BDA0003115594480000068
Figure BDA0003115594480000069
确保了在该相位角下的|A|为非负,该解为满足条件的唯一解。进一步将式(11)和式(3)带入式(2)有:
Figure BDA00031155944800000610
式(16)中,X1和X0为已知信号,k可以根据式(8)求得,只有W1和W0未知。源分量和环境分量直接由环境分量的相位角决定。基于θ1和θ0之间的关系,只需对环境分量的相位角θ1进行估计。
声音信号一个十分重要的特征是具有稀疏性,这一点常常作为许多音频和音乐信号处理中寻找最优解的一个关键的优化准则。由于源分量常常是具有指向性的声源,因此在时频域中可以被视为稀疏的。利用源分量的稀疏性来估计环境分量的相位角以及幅度谱。在稀疏约束下,该问题可以被表示为:
Figure BDA0003115594480000071
其中,
Figure BDA0003115594480000072
分别表示环境分量相位角和幅度谱的估计值,式(17)计算了源分量的一范数,其等于源分量在所有时频点上的幅度之和。因为式(17)中的优化函数不是一个凸函数,凸优化技术在这里不适用。其他方式,如模拟退火,需要对所有阶变量实行优化,存在效率低的问题。为解决这一问题,可以采用一种更加有效的离散搜索(discretesearching,DS)方法来估计环境分量的相位。即在每一频点,源分量的幅度仅仅由同一频点环境分量的相位决定,因此式(17)中的估计可以单独地在每一个频点进行。相位变量的搜索范围为[-π,π],设d∈{1,2,…,D},环境分量相位角的估计值为一系列离散角度
Figure BDA0003115594480000073
中的某一角度。根据式(15)和式(16)可以求出在D个不同环境分量相位角下的源分量,最佳环境分量相位角可以采用下式进行求解:
Figure BDA0003115594480000074
最后,通过式(16)计算出提取出的源分量及环境分量。
即APES算法的计算过程包括:
(1)对输入信号进行短时傅里叶变换将信号变换到时频域,得到信号X0,X1,并计算k,设定D的取值,然后对于每一个时频点重复步骤(2)至(7);
(2)初始化d=1,计算θ=∠(X1-kX0),重复步骤(3)至(6)
(3)计算
Figure BDA0003115594480000075
(4)计算
Figure BDA0003115594480000076
Figure BDA0003115594480000077
(5)根据式(3-9)计算
Figure BDA0003115594480000078
Figure BDA0003115594480000079
(6)更新d=d+1,直到d=D;
(7)找到
Figure BDA00031155944800000710
设置d=d*,利用式(3-9)计算
Figure BDA00031155944800000711
(8)采用傅里叶逆变换计算出时域的源分量及环境分量。
但是上述APES算法存在计算量大的问题,为了获取一种更加快速的源环境分量提取方法,可以采用APEX算法对于每一个时频点,即将式(2)改写为:
Figure BDA0003115594480000081
其中,θPA0和θPA1分别是0通道和1通道中源分量频谱和环境分量频谱的夹角。依据式(18)可以得出:
(1-k-2)|P1|2+2|A|(cosθPA1-k-1cosθPA0)|P1|-(|X1|2-|X0|2)=0 (19)
对|P1|进行求解,可以得出
Figure BDA0003115594480000082
从式(20)可以看出,当k>1时,最小化|P1|可以通过最小化k-1cosθPA0-cosθPA1来求得(由于k≥1,在大多数情况下|X1|2≥|X0|2)。在θPA0=π,θPA1=0时能够取得|P1|的最小值。根据式(15)中两个环境分量相位角之间的关系可知,不能同时满足θPA0=π且θPA1=0。由于k>1,更好的选择是使θPA1=0。在另一方面,当k=1时,使θ01=π能够取得|P1|的最小值。综上可以得出环境分量相位角的近似估计方法为:
Figure BDA0003115594480000083
由于这个近似解采用了输入信号的相位角信息,称该方法为APEX。该方法的计算效率明显高于APES算法。统计APES算法和APEX算法在每一时频点处的计算量,结果如表1所示。表1表明APEX算法的计算量远远低于APES算法,APES算法的计算量与搜索点数D有关,随着D的增加,算法的计算量显著增大。
表1 APES算法和APEX算法计算量统计(每一时频点)
算法 均方根 加法 乘法 除法 比较 三角计算
APES D 15D+18 15D+13 4D+6 D-1 7D+6
APEX 0 13 7 4 1 7
APEX算法的环境分量提取精度不如APES算法,即APEX算法确立的环境分量的相位角的准确度不如APES算法,对不同PPR下APES算法和APEX算法确立的环境分量的相位角之差的绝对值的概率密度函数进行统计。采用一单通道说话男声作为源分量,信号采样频率为44.1kHz,单通道海浪声作为环境分量,利用随机相位去相关滤波器构造另一通道的环境分量。设定幅度偏移系数k为2,信号帧长为4096个采样点,PPR设为0.1至0.9,步长为0.1,采用APES算法和APEX算法对信号源分量和环境分量进行提取,统计两个算法确立的环境分量的相位角之差的绝对值的概率密度函数,结果如图2所示(为了方便显示,图中只给出部分PPR下的结果)。从图中可以看出,随着角度差的增大,函数的概率密度值逐渐减小,且在角度差较大时概率密度值达到了可以忽略的量级。不同PPR下其概率密度分布不同。从图中可以看出,在0-5°的范围内PPR越大,概率密度函数值越低。在5°-30°的范围内PPR越大,概率密度函数值越高。而在30°-60°的范围内,概率密度函数值与PPR值没有呈现出明显的规律。
进一步地,对覆盖一定比例的角度差所需要的角度范围进行统计,结果如图3所示。从图中可以看出,随着PPR的增大,覆盖不同比例的角度差所需的角度范围均随之增大,且呈现线性增长的规律。以覆盖90%的角度差所需的角度范围为例,角度范围β与γ的关系可以被表示为:
β=12.75+12.5×γ (22)
可以看出APES算法确立的环境分量的相位角大多位于APEX算法附近。统计出大部分的角度差所在的角度范围β,考虑在APEX算法的基础上增加搜索点数使得算法的提取精度提高。同时由于双耳录制立体声信号的空间信息主要表现为在1.5kHz以下的相位差和1.5kHz至3kHz以上的振幅差,相位信息的主导作用从低频到高频逐渐递减。因此该搜索策略只使用在1.5kHz及以上的频带中的时频点,1.5kHz以下频带区间的时频点继续沿用APES的搜索方式,称该新的估计方法被称为MAPEX(Modified APEX)法,即改进的稀疏约束下环境分量相位角估计方法。
如图4所示,MAPEX法在1.5kHz以上频带内,利用APEX算法快速确立一个相位角,然后在APEX算法所确立的环境分量的相位角附近的大小为β的角度范围内增加搜索点数,MAPEX法的优化准为:
Figure BDA0003115594480000101
下面对算法对于搜索点数的要求进行说明。
定义源分量的提取误差为:
Figure BDA0003115594480000102
环境分量的提取误差为:
Figure BDA0003115594480000103
计算APES算法及MAPEX法在不同PPR下以及不同搜索点数下的源分量提取误差ESRP和环境分量提取误差ESRA,结果如图5至7所示。APES算法对于搜索点数的要求与PPR相关,随着PPR的增大,算法对点数的要求逐渐减少。表2给出更多的PPR取值下APES算法所需的搜索点数。
表2 APES算法在不同PPR下所需的平均搜索点数(每一时频点)
PPR 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
点数 85.0 75.0 70.0 65.0 60.0 55.0 45.0 35.0 30.0
图7表明不管是对于源分量还是环境分量,在不同的PPR下,在1.5kHz以上频带的对应搜索点数达到5个即可达到稳定的状态。统计更多PPR条件下MAPEX法所需的搜索点数,结果如表3所示。表3表明MAPEX法时间复杂度相比APES更低,同时在不同PPR下也更加稳定。
表3 MAPEX法在不同PPR下所需的平均搜索点数(每一时频点)
PPR 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
点数 10.5 9.8 9.4 9.1 8.8 8.4 7.7 7.0 6.7
现通过具体实例对本发明实施例所提出的MAPEX法进行描述。
制作待分解立体声:左声道的源分量采用录制的单声道语音音频信号,右声道的源分量是将左声道的源分量乘以幅度偏移系数k,此实例中k取值为2。取双声道海浪声的左声道音频信号为左声道环境分量,右声道的环境分量通过对左声道环境分量进行随机相位去相关计算得到。
随后,计算出源分量和环境分量的功率,对左、右声道的源分量和环境分量进行进一步地处理,使PPR为0.1至0.9,步长为0.1。
再分别混合左、右声道的源分量、环境分量,得到左、右声道的输入信号,即获得待处理的立体声音频信号。
本发明实施例中,采用MAPEX法完成环境分量相位角估计的具体步骤包括:
首先,对立体声输入音频信号进行短时傅里叶变换,得到左、右声道输入信号的频谱,本实施例中,帧长为4096个采样点。
依据式(22)计算1.5kHz以上频带对应时频点的角度范围β,进一步计算MAPEX法的搜索空间:
Figure BDA0003115594480000111
按照表3中不同PPR下的所需的搜索点数对MAPEX法的搜索空间进行划分,在每一时频点选取出满足式(23)的最佳环境分量的相位角,进一步依据式(16)解得每一时频点的源分量和环境分量。最后采用短时傅里叶逆变换将信号变换到时域。
利用APES算法、APEX算法以及MAPEX法对输入音频信号提取源分量及环境分量,计算提取误差。下面对三种方式的提取精度进行说明,结果如图8所示。从图中可以看出,上述三种处理方式的源分量提取误差均随着PPR的增大而减小,环境分量提取误差随着PPR的增大而增大。无论是源分量还是环境分量,APES算法均有最小的提取误差,MAPEX法次之,AEPX算法的提取误差最大。MAPEX法的优化思路从人耳的听觉特性,对不同的频带区域进行了不同的搜索策略,相比于APEX算法有较高的提取精度,且计算量远低于APES算法,具有实际利用价值。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以实现本发明是实例提供的改进的稀疏约束下环境分量相位角估计方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以实现本发明是实例提供的改进的稀疏约束下环境分量相位角估计方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROMD)、磁带和光数据存储设备等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种改进的稀疏约束下环境分量相位角估计方法,其特征在于,包括:
步骤1:对待处理的双声道音频信号进行短时傅里叶变换,将待处理的双声道音频信号变换到时频域,得到时频域的左声道信号X0和右声道信号X1
步骤2:对频率小于1.5kHz的频带,采用第一相位角估计法获取环境分量相位角估计值;对于频率大于或等于1.5kHz的频带,采用第二相位角估计法获取环境分量相位角估计值;
其中,第一相位角估计法为基于稀疏约束下的环境分量相位角估计法;
第二相位角估计法具体包括:
根据公式β=12.75+12.5×γ计算频点的角度范围β,确定环境分量相位角θ的搜索范围:
Figure FDA0003748581900000011
其中,γ表示源分量能量占比,k表示幅度偏移系数;
按照至少5个搜索点数设置时频点的搜索点数,并在每一时频点选取出满足下式的最佳环境分量的相位角:
Figure FDA0003748581900000012
其中,
Figure FDA0003748581900000013
表示右声道的最佳环境分量的相位角,
Figure FDA0003748581900000014
表示右声道的环境分量的幅度谱的估计值,基于第一相位角估计法获取;
基于左右环境分量的相位角间的关联关系,得到每一时频点的左声道的最佳环境分量的相位角。
2.如权利要求1所述的方法,其特征在于,步骤2中,设置时频点的搜索点数时,基于源分量能量占比γ进行设置:
若γ∈0.1±Δ,则搜索点数设置为10或11;
若γ∈0.2±Δ,则搜索点数设置为10或9;
若γ∈0.3±Δ,则搜索点数设置为10或9;
若γ∈0.4±Δ,则搜索点数设置为10或9;
若γ∈0.5±Δ,则搜索点数设置为9或8;
若γ∈0.6±Δ,则搜索点数设置为9或8;
若γ∈0.7±Δ,则搜索点数设置为8或7;
若γ∈0.8±Δ,则搜索点数设置为8或7;
若γ∈0.9±Δ,则搜索点数设置为7或6;
其中,Δ表示源分量能量占比γ的预设偏差。
3.一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现权利要求1至2任一项所述的改进的稀疏约束下环境分量相位角估计方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现权利要求1至2任一项所述的改进的稀疏约束下环境分量相位角估计方法。
CN202110661604.0A 2021-06-15 2021-06-15 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 Expired - Fee Related CN113449255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110661604.0A CN113449255B (zh) 2021-06-15 2021-06-15 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110661604.0A CN113449255B (zh) 2021-06-15 2021-06-15 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113449255A CN113449255A (zh) 2021-09-28
CN113449255B true CN113449255B (zh) 2022-11-11

Family

ID=77811413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110661604.0A Expired - Fee Related CN113449255B (zh) 2021-06-15 2021-06-15 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113449255B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
CN101889308A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 用于从两声道音频信号进行环境提取的基于相关的方法
CN108037361A (zh) * 2017-12-05 2018-05-15 南京福致通电气自动化有限公司 一种基于滑动窗dft的高精度谐波参数估计方法
CN108495235A (zh) * 2018-05-02 2018-09-04 北京小鱼在家科技有限公司 一种重低音的分离方法、装置、计算机设备及存储介质
CN109946644A (zh) * 2019-04-10 2019-06-28 中国电子科技集团公司第二十研究所 基于凸优化的嵌套阵列离网格目标波达方向角估计方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007120452A1 (en) * 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP3039674B1 (en) * 2013-08-28 2019-04-17 Landr Audio Inc. System and method for performing automatic audio production using semantic data
CN103901401B (zh) * 2014-04-10 2016-08-17 北京大学深圳研究生院 一种基于双耳匹配滤波器的双耳声音源定位方法
MC200186B1 (fr) * 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
CN109640242B (zh) * 2018-12-11 2020-05-12 电子科技大学 音频源分量及环境分量提取方法
CN109637554A (zh) * 2019-01-16 2019-04-16 辽宁工业大学 基于cdr的mclp语音去混响方法
CN110070013B (zh) * 2019-04-11 2021-06-18 杭州电子科技大学 一种ecg信号噪声污染程度与类别智能评估方法
US11521592B2 (en) * 2019-09-24 2022-12-06 Baidu Usa Llc Small-footprint flow-based models for raw audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
CN101889308A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 用于从两声道音频信号进行环境提取的基于相关的方法
CN108037361A (zh) * 2017-12-05 2018-05-15 南京福致通电气自动化有限公司 一种基于滑动窗dft的高精度谐波参数估计方法
CN108495235A (zh) * 2018-05-02 2018-09-04 北京小鱼在家科技有限公司 一种重低音的分离方法、装置、计算机设备及存储介质
CN109946644A (zh) * 2019-04-10 2019-06-28 中国电子科技集团公司第二十研究所 基于凸优化的嵌套阵列离网格目标波达方向角估计方法

Also Published As

Publication number Publication date
CN113449255A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
US10469978B2 (en) Audio signal processing method and device
US10075799B2 (en) Method and device for rendering an audio soundfield representation
US9369818B2 (en) Filtering with binaural room impulse responses with content analysis and weighting
US9093063B2 (en) Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
CN104285390B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
US9014377B2 (en) Multichannel surround format conversion and generalized upmix
US9009057B2 (en) Audio encoding and decoding to generate binaural virtual spatial signals
US12002480B2 (en) Audio decoder and decoding method
US20070223708A1 (en) Generation of spatial downmixes from parametric representations of multi channel signals
WO2009046225A2 (en) Correlation-based method for ambience extraction from two-channel audio signals
US20130044894A1 (en) System and method for efficient sound production using directional enhancement
US10827295B2 (en) Method and apparatus for generating 3D audio content from two-channel stereo content
EP4035425A1 (en) Audio processing
CN109285553A (zh) 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN113449255B (zh) 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
Liitola Headphone sound externalization
Hsu et al. Learning-based Array Configuration-Independent Binaural Audio Telepresence with Scalable Signal Enhancement and Ambience Preservation
CN111669697B (zh) 一种多通道信号的相干声与环境声提取方法及系统
CN113518299B (zh) 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质
Ben-Hur et al. Binaural reproduction based on bilateral ambisonics
Cheng Spatial squeezing techniques for low bit-rate multichannel audio coding
Lehmann et al. Towards Maximizing a Perceptual Sweet Spot
Franck et al. Optimization-based reproduction of diffuse audio objects
CN111711918A (zh) 一种多通道信号的相干声与环境声提取方法及系统
CN116615919A (zh) 双耳信号的后处理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221111