CN113449255B - 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 - Google Patents
一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113449255B CN113449255B CN202110661604.0A CN202110661604A CN113449255B CN 113449255 B CN113449255 B CN 113449255B CN 202110661604 A CN202110661604 A CN 202110661604A CN 113449255 B CN113449255 B CN 113449255B
- Authority
- CN
- China
- Prior art keywords
- phase angle
- component
- frequency
- angle estimation
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000007613 environmental effect Effects 0.000 title claims abstract description 32
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 230000001131 transforming effect Effects 0.000 claims abstract description 3
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 abstract description 23
- 238000004364 calculation method Methods 0.000 abstract description 14
- 238000012545 processing Methods 0.000 abstract description 7
- 238000007654 immersion Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008447 perception Effects 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 58
- 241001272567 Hominoidea Species 0.000 description 29
- 230000006870 function Effects 0.000 description 10
- 238000005457 optimization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
Landscapes
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质,属于音频处理技术领域。本发明包括:对待处理的双声道音频信号进行短时傅里叶变换,将待处理的双声道音频信号变换到时频域,得到时频域的左、右声道信号;对频率小于1.5kHz的频带,采用第一相位角估计法获取环境分量相位角估计值;对于频率大于或等于1.5kHz的频带,采用第二相位角估计法获取环境分量相位角估计值。本发明从人耳的听觉特性,对不同的频带区域进行了不同的搜索策略,相比于现有的环境分量相位角估计方法,在保障一定的提取精度的前提下,显著降低了运算量,有助于在立体声扩展中保留声音原始的感知特性,以构建更具沉浸感的声场景。
Description
技术领域
本发明属于音频处理技术领域,具体涉及一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质。
背景技术
日益火热的游戏、电影、音乐等市场追求提供更加完美的用户体验。音频作为信息传递的重要媒介之一越发受到关注。构造一个更具沉浸感的声场景能够为用户带来更加直观、更有带入感的听觉体验。
通过对音频回放方式及回放内容进行设计有助于构建出一个更具沉浸感的声场景。现有的音频回放方式有基于HRTF头相关传输函数的虚拟听觉重放系统以及多通道音频回放系统。前者是在双耳声信号的重放中合成或模拟出相应的声音空间听觉,后者则是希望重放一个和理想声场尽可能相同或接近的声场。音频格式有基于通道的音频格式以及基于对象的音频格式。基于对象的音频格式由于在技术以及存储上的复杂性还没有得到广泛的应用。常见的音频信号大部分是基于通道的格式。对于针对特定的回放系统制作的通道音频信号,在该回放系统内能够得到有效的回放,而当音频信号格式与回放系统不匹配时,如何实现音频信号的有效回放是需要考虑的问题。例如将多通道音频信号在耳机中进行回放,或是将通道信号在更多通道的回放系统中进行回放,此时需对音频信号进行处理使之满足特定的回放系统。传统的处理方法有音频的上混及下混、虚拟化技术,它们可以解决音频回放系统的适应性问题,但重构的声场景的空间质量有待提高。在这一过程中,希望保留音频信号的空间信息以及感知上的特征。
具有提示意义的源分量以及烘托氛围的散射的环境分量描述了声场景的全部内容。在声场景的感知上,源分量提供了线索,环境分量则渲染了情境。在音频回放系统的信号处理过程中如果能够最大限度地保留源分量和环境分量在感知上的差异,则重构出的声场景便具有更强的带入感。并且通过对提取出的源分量和环境分量分别进行渲染重构能够设计出任何通道数目下的输入信号,使之满足任何回放系统。
对于音频信号的源分量和环境分量提取目前已存在一些研究,如线性估计框架下的基于主成分分析的(Principal Component analysis,PCA)源分量和环境分量提取算法,时频掩蔽算法(Time-frequency Masking,masking)、最小二乘算法(Least Square,LS)、最小泄漏误差下的最小二乘算法(Minimum Leakage Least Squares,MLLS)、最小失真误差下的最小二乘算法(Minimum Distortion Least Squares,MDLS)以及可调节的最小二乘算法(Adjustable Least Squares,ALS)算法。环境频谱估计框架下的算法如稀疏约束下环境分量相位角估计算法(Ambient Phase Estimation with a Sparsity Constraint,APES)及其简化算法APEX。其中环境频谱估计框架下的APES算法具有最佳的性能,然而APES算法作为在相位空间中逐点搜索的算法存在计算量大的问题。APEX算法作为APES算法的简化大大提高了计算速度,但在一定程度上损失了计算的准确度。
发明内容
本发明实施例提供了一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质,以在保障提取精度的同时降低运算量。
一方面,本发明实施例提供了一种改进的稀疏约束下环境分量相位角估计方法,所述方法包括:
步骤1:对待处理的双声道音频信号进行短时傅里叶变换,将待处理的双声道音频信号变换到时频域,得到时频域的左声道信号X0和右声道信号X1;
步骤2:对频率小于1.5kHz的频带,采用第一相位角估计法获取环境分量相位角估计值;对于频率大于或等于1.5kHz的频带,采用第二相位角估计法获取环境分量相位角估计值;
其中,第一相位角估计法为基于稀疏约束下的环境分量相位角估计法;
第二相位角估计法具体包括:
根据公式β=12.75+12.5×γ计算频点的角度范围β,确定环境分量相位角θ的搜索范围:
其中,γ表示源分量能量占比,k表示幅度偏移系数;
按照至少5个搜索点数设置时频点的搜索点数,并在每一时频点选取出满足下式的最佳环境分量的相位角:
基于左右环境分量的相位角间的关联关系,得到每一时频点的左声道的最佳环境分量的相位角。
进一步的,步骤2中,设置时频点的搜索点数时,基于源分量能量占比γ进行设置:
若γ∈0.1±Δ,则搜索点数设置为10或11;
若γ∈0.2±Δ,则搜索点数设置为10或9;
若γ∈0.3±Δ,则搜索点数设置为10或9;
若γ∈0.4±Δ,则搜索点数设置为10或9;
若γ∈0.5±Δ,则搜索点数设置为9或8;
若γ∈0.6±Δ,则搜索点数设置为9或8;
若γ∈0.7±Δ,则搜索点数设置为8或7;
若γ∈0.8±Δ,则搜索点数设置为8或7;
若γ∈0.9±Δ,则搜索点数设置为7或6;
其中,Δ表示源分量能量占比γ的预设偏差。
另一方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现上述任一所述的改进的稀疏约束下环境分量相位角估计方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现上述任一所述的改进的稀疏约束下环境分量相位角估计方法。
本发明实施例提供的技术方案至少带来如下有益效果:
在本发明实施例中,从人耳的听觉特性,对不同的频带区域进行了不同的搜索策略,相比于现有的环境分量相位角估计方法,在保障一定的提取精度的前提下,显著降低了运算量,具有实际利用价值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中,APES算法信号模型示意图;
图2是本发明实施例中,不同PPR下AEPS与APEX算法环境分量相位角角度差概率密度函数;
图3是本发明实施例中,覆盖一定比例角度差所需的角度范围;
图4是本发明实施例中,MAPEX法的搜索范围示意图;
图5是本发明实施例中,APES算法在不同搜索点数下的源分量提取误差;
图6是本发明实施例中,APES算法在不同搜索点数下的环境分量提取误差;
图7是本发明实施例中,1.5kHz以上频带中MAPEX法在不同PPR下的提取误差,其中(a)表示源分量;(b)表示环境分量
图8是本发明实施例中,不同PPR下三种不同处理方式的提取误差对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了便于理解,对本发明实施例中涉及的到的APES算法的基本原理进行说明。
将立体声信号表示为:
xc(t)=pc(t)+ac(t) (1)
其中,pc(t)表示源分量,ac(t)表示环境分量,立体声信号xc(t)是源分量和环境分量的线性组合,c为通道指数(即c用于区分不同的通道,区分左右通道),例如定义0表示左通道,定义1表示右通道,则有c∈{0,1}。由于源分量线性相关,即p1(t)=kp0(t),其中,k为幅度偏移系数,p0(t)、p1(t)分别表示左右通道的源分量。
对立体声信号进行短时傅里叶变换将信号变换到时频域,在每个时频点[m,h]处,将信号表示为Xc[m,h]。其中,m为时间指数,h为频率指数。立体声信号子带b中包含从hb-1+1到hb的若干频点,hb为该子带的频点上限。该子带信号可被表示为Xc[m,b]=[Xc(m,hb-1+1)Xc(m,hb-1+2)…Xc(m,hb)]T,上标“T”表示转置,且有:
其中,Pc[m,b]为源分量,Ac[m,b]为环境分量,为了简化表述,在下文的表述中,将“[m,b]”省略,即令Pc表示源分量,Ac表示环境分量。
左右通道中散射的环境分量之间具有低相关性。在音频处理过程中,音频工程师经常采用各种不同的方法来对音频信号进行去相关处理。例如,延迟、全通滤波器、人工混响、双耳人工混响。这些去相关过程通常能够保持音频信号的幅度不变,即|A0|=|A1|=|A|。将环境分量的频谱表示为:
Ac=|Ac|⊙Wc,c∈{0,1} (3)
定义源分量能量占比为γ(Primary Power Ratio,PPR),它为源分量能量在总能量中的占比:
根据式(5)至式(7)可以得出k和γ的估计公式为:
参见图1,由于源分量之间具有线性相关性,即P1=kP0,根据式(2)可知:
X1-kX0=A1-kA0 (10)
通过将式(3)带入式(10),可以得到:
|A|=(X1-kX0)./(W1-kW0) (11)
式中,符号“./”表示点除。
因为环境分量的幅度|A|是非负正数,可以依此推导出两个通道中环境分量相位角之间的关系。将W1-kW0改写为W1-kW0=(cosθ1-kcosθ0)+j(sinθ1-ksinθ0)。因为|A|是实数,有如下关系:sinθ./cosθ=(sinθ1-ksinθ0)./(cosθ1-kcosθ0),该式可进一步改写为:
sin(θ-θ0)=k-1 sin(θ-θ1) (12)
其中,θ=∠(X1-kX0)。当对θ0进行求解时,可获得两组解:
其中,α=arcsin[k-1sin(θ-θ1)],α∈[-0.5π,0.5π]。将α=arcsin[k-1sin(θ-θ1)]改写为sinα=k-1sin(θ-θ1)以及由于环境分量的幅度|A|是非负的,因此W1-kW0的实部(或虚部)和X1-kX0的实部(或虚部)有相同的符号。
式(16)中,X1和X0为已知信号,k可以根据式(8)求得,只有W1和W0未知。源分量和环境分量直接由环境分量的相位角决定。基于θ1和θ0之间的关系,只需对环境分量的相位角θ1进行估计。
声音信号一个十分重要的特征是具有稀疏性,这一点常常作为许多音频和音乐信号处理中寻找最优解的一个关键的优化准则。由于源分量常常是具有指向性的声源,因此在时频域中可以被视为稀疏的。利用源分量的稀疏性来估计环境分量的相位角以及幅度谱。在稀疏约束下,该问题可以被表示为:
其中,分别表示环境分量相位角和幅度谱的估计值,式(17)计算了源分量的一范数,其等于源分量在所有时频点上的幅度之和。因为式(17)中的优化函数不是一个凸函数,凸优化技术在这里不适用。其他方式,如模拟退火,需要对所有阶变量实行优化,存在效率低的问题。为解决这一问题,可以采用一种更加有效的离散搜索(discretesearching,DS)方法来估计环境分量的相位。即在每一频点,源分量的幅度仅仅由同一频点环境分量的相位决定,因此式(17)中的估计可以单独地在每一个频点进行。相位变量的搜索范围为[-π,π],设d∈{1,2,…,D},环境分量相位角的估计值为一系列离散角度中的某一角度。根据式(15)和式(16)可以求出在D个不同环境分量相位角下的源分量,最佳环境分量相位角可以采用下式进行求解:最后,通过式(16)计算出提取出的源分量及环境分量。
即APES算法的计算过程包括:
(1)对输入信号进行短时傅里叶变换将信号变换到时频域,得到信号X0,X1,并计算k,设定D的取值,然后对于每一个时频点重复步骤(2)至(7);
(2)初始化d=1,计算θ=∠(X1-kX0),重复步骤(3)至(6)
(6)更新d=d+1,直到d=D;
(8)采用傅里叶逆变换计算出时域的源分量及环境分量。
但是上述APES算法存在计算量大的问题,为了获取一种更加快速的源环境分量提取方法,可以采用APEX算法对于每一个时频点,即将式(2)改写为:
其中,θPA0和θPA1分别是0通道和1通道中源分量频谱和环境分量频谱的夹角。依据式(18)可以得出:
(1-k-2)|P1|2+2|A|(cosθPA1-k-1cosθPA0)|P1|-(|X1|2-|X0|2)=0 (19)
对|P1|进行求解,可以得出
从式(20)可以看出,当k>1时,最小化|P1|可以通过最小化k-1cosθPA0-cosθPA1来求得(由于k≥1,在大多数情况下|X1|2≥|X0|2)。在θPA0=π,θPA1=0时能够取得|P1|的最小值。根据式(15)中两个环境分量相位角之间的关系可知,不能同时满足θPA0=π且θPA1=0。由于k>1,更好的选择是使θPA1=0。在另一方面,当k=1时,使θ0-θ1=π能够取得|P1|的最小值。综上可以得出环境分量相位角的近似估计方法为:
由于这个近似解采用了输入信号的相位角信息,称该方法为APEX。该方法的计算效率明显高于APES算法。统计APES算法和APEX算法在每一时频点处的计算量,结果如表1所示。表1表明APEX算法的计算量远远低于APES算法,APES算法的计算量与搜索点数D有关,随着D的增加,算法的计算量显著增大。
表1 APES算法和APEX算法计算量统计(每一时频点)
算法 | 均方根 | 加法 | 乘法 | 除法 | 比较 | 三角计算 |
APES | D | 15D+18 | 15D+13 | 4D+6 | D-1 | 7D+6 |
APEX | 0 | 13 | 7 | 4 | 1 | 7 |
APEX算法的环境分量提取精度不如APES算法,即APEX算法确立的环境分量的相位角的准确度不如APES算法,对不同PPR下APES算法和APEX算法确立的环境分量的相位角之差的绝对值的概率密度函数进行统计。采用一单通道说话男声作为源分量,信号采样频率为44.1kHz,单通道海浪声作为环境分量,利用随机相位去相关滤波器构造另一通道的环境分量。设定幅度偏移系数k为2,信号帧长为4096个采样点,PPR设为0.1至0.9,步长为0.1,采用APES算法和APEX算法对信号源分量和环境分量进行提取,统计两个算法确立的环境分量的相位角之差的绝对值的概率密度函数,结果如图2所示(为了方便显示,图中只给出部分PPR下的结果)。从图中可以看出,随着角度差的增大,函数的概率密度值逐渐减小,且在角度差较大时概率密度值达到了可以忽略的量级。不同PPR下其概率密度分布不同。从图中可以看出,在0-5°的范围内PPR越大,概率密度函数值越低。在5°-30°的范围内PPR越大,概率密度函数值越高。而在30°-60°的范围内,概率密度函数值与PPR值没有呈现出明显的规律。
进一步地,对覆盖一定比例的角度差所需要的角度范围进行统计,结果如图3所示。从图中可以看出,随着PPR的增大,覆盖不同比例的角度差所需的角度范围均随之增大,且呈现线性增长的规律。以覆盖90%的角度差所需的角度范围为例,角度范围β与γ的关系可以被表示为:
β=12.75+12.5×γ (22)
可以看出APES算法确立的环境分量的相位角大多位于APEX算法附近。统计出大部分的角度差所在的角度范围β,考虑在APEX算法的基础上增加搜索点数使得算法的提取精度提高。同时由于双耳录制立体声信号的空间信息主要表现为在1.5kHz以下的相位差和1.5kHz至3kHz以上的振幅差,相位信息的主导作用从低频到高频逐渐递减。因此该搜索策略只使用在1.5kHz及以上的频带中的时频点,1.5kHz以下频带区间的时频点继续沿用APES的搜索方式,称该新的估计方法被称为MAPEX(Modified APEX)法,即改进的稀疏约束下环境分量相位角估计方法。
如图4所示,MAPEX法在1.5kHz以上频带内,利用APEX算法快速确立一个相位角,然后在APEX算法所确立的环境分量的相位角附近的大小为β的角度范围内增加搜索点数,MAPEX法的优化准为:
下面对算法对于搜索点数的要求进行说明。
定义源分量的提取误差为:
环境分量的提取误差为:
计算APES算法及MAPEX法在不同PPR下以及不同搜索点数下的源分量提取误差ESRP和环境分量提取误差ESRA,结果如图5至7所示。APES算法对于搜索点数的要求与PPR相关,随着PPR的增大,算法对点数的要求逐渐减少。表2给出更多的PPR取值下APES算法所需的搜索点数。
表2 APES算法在不同PPR下所需的平均搜索点数(每一时频点)
PPR | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 |
点数 | 85.0 | 75.0 | 70.0 | 65.0 | 60.0 | 55.0 | 45.0 | 35.0 | 30.0 |
图7表明不管是对于源分量还是环境分量,在不同的PPR下,在1.5kHz以上频带的对应搜索点数达到5个即可达到稳定的状态。统计更多PPR条件下MAPEX法所需的搜索点数,结果如表3所示。表3表明MAPEX法时间复杂度相比APES更低,同时在不同PPR下也更加稳定。
表3 MAPEX法在不同PPR下所需的平均搜索点数(每一时频点)
PPR | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 |
点数 | 10.5 | 9.8 | 9.4 | 9.1 | 8.8 | 8.4 | 7.7 | 7.0 | 6.7 |
现通过具体实例对本发明实施例所提出的MAPEX法进行描述。
制作待分解立体声:左声道的源分量采用录制的单声道语音音频信号,右声道的源分量是将左声道的源分量乘以幅度偏移系数k,此实例中k取值为2。取双声道海浪声的左声道音频信号为左声道环境分量,右声道的环境分量通过对左声道环境分量进行随机相位去相关计算得到。
随后,计算出源分量和环境分量的功率,对左、右声道的源分量和环境分量进行进一步地处理,使PPR为0.1至0.9,步长为0.1。
再分别混合左、右声道的源分量、环境分量,得到左、右声道的输入信号,即获得待处理的立体声音频信号。
本发明实施例中,采用MAPEX法完成环境分量相位角估计的具体步骤包括:
首先,对立体声输入音频信号进行短时傅里叶变换,得到左、右声道输入信号的频谱,本实施例中,帧长为4096个采样点。
依据式(22)计算1.5kHz以上频带对应时频点的角度范围β,进一步计算MAPEX法的搜索空间:
按照表3中不同PPR下的所需的搜索点数对MAPEX法的搜索空间进行划分,在每一时频点选取出满足式(23)的最佳环境分量的相位角,进一步依据式(16)解得每一时频点的源分量和环境分量。最后采用短时傅里叶逆变换将信号变换到时域。
利用APES算法、APEX算法以及MAPEX法对输入音频信号提取源分量及环境分量,计算提取误差。下面对三种方式的提取精度进行说明,结果如图8所示。从图中可以看出,上述三种处理方式的源分量提取误差均随着PPR的增大而减小,环境分量提取误差随着PPR的增大而增大。无论是源分量还是环境分量,APES算法均有最小的提取误差,MAPEX法次之,AEPX算法的提取误差最大。MAPEX法的优化思路从人耳的听觉特性,对不同的频带区域进行了不同的搜索策略,相比于APEX算法有较高的提取精度,且计算量远低于APES算法,具有实际利用价值。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以实现本发明是实例提供的改进的稀疏约束下环境分量相位角估计方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以实现本发明是实例提供的改进的稀疏约束下环境分量相位角估计方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROMD)、磁带和光数据存储设备等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (4)
1.一种改进的稀疏约束下环境分量相位角估计方法,其特征在于,包括:
步骤1:对待处理的双声道音频信号进行短时傅里叶变换,将待处理的双声道音频信号变换到时频域,得到时频域的左声道信号X0和右声道信号X1;
步骤2:对频率小于1.5kHz的频带,采用第一相位角估计法获取环境分量相位角估计值;对于频率大于或等于1.5kHz的频带,采用第二相位角估计法获取环境分量相位角估计值;
其中,第一相位角估计法为基于稀疏约束下的环境分量相位角估计法;
第二相位角估计法具体包括:
根据公式β=12.75+12.5×γ计算频点的角度范围β,确定环境分量相位角θ的搜索范围:
其中,γ表示源分量能量占比,k表示幅度偏移系数;
按照至少5个搜索点数设置时频点的搜索点数,并在每一时频点选取出满足下式的最佳环境分量的相位角:
基于左右环境分量的相位角间的关联关系,得到每一时频点的左声道的最佳环境分量的相位角。
2.如权利要求1所述的方法,其特征在于,步骤2中,设置时频点的搜索点数时,基于源分量能量占比γ进行设置:
若γ∈0.1±Δ,则搜索点数设置为10或11;
若γ∈0.2±Δ,则搜索点数设置为10或9;
若γ∈0.3±Δ,则搜索点数设置为10或9;
若γ∈0.4±Δ,则搜索点数设置为10或9;
若γ∈0.5±Δ,则搜索点数设置为9或8;
若γ∈0.6±Δ,则搜索点数设置为9或8;
若γ∈0.7±Δ,则搜索点数设置为8或7;
若γ∈0.8±Δ,则搜索点数设置为8或7;
若γ∈0.9±Δ,则搜索点数设置为7或6;
其中,Δ表示源分量能量占比γ的预设偏差。
3.一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现权利要求1至2任一项所述的改进的稀疏约束下环境分量相位角估计方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现权利要求1至2任一项所述的改进的稀疏约束下环境分量相位角估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661604.0A CN113449255B (zh) | 2021-06-15 | 2021-06-15 | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661604.0A CN113449255B (zh) | 2021-06-15 | 2021-06-15 | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449255A CN113449255A (zh) | 2021-09-28 |
CN113449255B true CN113449255B (zh) | 2022-11-11 |
Family
ID=77811413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110661604.0A Expired - Fee Related CN113449255B (zh) | 2021-06-15 | 2021-06-15 | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449255B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004005998B3 (de) * | 2004-02-06 | 2005-05-25 | Ruwisch, Dietmar, Dr. | Verfahren und Vorrichtung zur Separierung von Schallsignalen |
CN101889308A (zh) * | 2007-10-04 | 2010-11-17 | 创新科技有限公司 | 用于从两声道音频信号进行环境提取的基于相关的方法 |
CN108037361A (zh) * | 2017-12-05 | 2018-05-15 | 南京福致通电气自动化有限公司 | 一种基于滑动窗dft的高精度谐波参数估计方法 |
CN108495235A (zh) * | 2018-05-02 | 2018-09-04 | 北京小鱼在家科技有限公司 | 一种重低音的分离方法、装置、计算机设备及存储介质 |
CN109946644A (zh) * | 2019-04-10 | 2019-06-28 | 中国电子科技集团公司第二十研究所 | 基于凸优化的嵌套阵列离网格目标波达方向角估计方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007120452A1 (en) * | 2006-04-04 | 2007-10-25 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the mdct domain |
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP3039674B1 (en) * | 2013-08-28 | 2019-04-17 | Landr Audio Inc. | System and method for performing automatic audio production using semantic data |
CN103901401B (zh) * | 2014-04-10 | 2016-08-17 | 北京大学深圳研究生院 | 一种基于双耳匹配滤波器的双耳声音源定位方法 |
MC200186B1 (fr) * | 2016-09-30 | 2017-10-18 | Coronal Encoding | Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel |
CN109640242B (zh) * | 2018-12-11 | 2020-05-12 | 电子科技大学 | 音频源分量及环境分量提取方法 |
CN109637554A (zh) * | 2019-01-16 | 2019-04-16 | 辽宁工业大学 | 基于cdr的mclp语音去混响方法 |
CN110070013B (zh) * | 2019-04-11 | 2021-06-18 | 杭州电子科技大学 | 一种ecg信号噪声污染程度与类别智能评估方法 |
US11521592B2 (en) * | 2019-09-24 | 2022-12-06 | Baidu Usa Llc | Small-footprint flow-based models for raw audio |
-
2021
- 2021-06-15 CN CN202110661604.0A patent/CN113449255B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004005998B3 (de) * | 2004-02-06 | 2005-05-25 | Ruwisch, Dietmar, Dr. | Verfahren und Vorrichtung zur Separierung von Schallsignalen |
CN101889308A (zh) * | 2007-10-04 | 2010-11-17 | 创新科技有限公司 | 用于从两声道音频信号进行环境提取的基于相关的方法 |
CN108037361A (zh) * | 2017-12-05 | 2018-05-15 | 南京福致通电气自动化有限公司 | 一种基于滑动窗dft的高精度谐波参数估计方法 |
CN108495235A (zh) * | 2018-05-02 | 2018-09-04 | 北京小鱼在家科技有限公司 | 一种重低音的分离方法、装置、计算机设备及存储介质 |
CN109946644A (zh) * | 2019-04-10 | 2019-06-28 | 中国电子科技集团公司第二十研究所 | 基于凸优化的嵌套阵列离网格目标波达方向角估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113449255A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10469978B2 (en) | Audio signal processing method and device | |
US10075799B2 (en) | Method and device for rendering an audio soundfield representation | |
US9369818B2 (en) | Filtering with binaural room impulse responses with content analysis and weighting | |
US9093063B2 (en) | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information | |
CN104285390B (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
US9014377B2 (en) | Multichannel surround format conversion and generalized upmix | |
US9009057B2 (en) | Audio encoding and decoding to generate binaural virtual spatial signals | |
US12002480B2 (en) | Audio decoder and decoding method | |
US20070223708A1 (en) | Generation of spatial downmixes from parametric representations of multi channel signals | |
WO2009046225A2 (en) | Correlation-based method for ambience extraction from two-channel audio signals | |
US20130044894A1 (en) | System and method for efficient sound production using directional enhancement | |
US10827295B2 (en) | Method and apparatus for generating 3D audio content from two-channel stereo content | |
EP4035425A1 (en) | Audio processing | |
CN109285553A (zh) | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 | |
CN113449255B (zh) | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 | |
Liitola | Headphone sound externalization | |
Hsu et al. | Learning-based Array Configuration-Independent Binaural Audio Telepresence with Scalable Signal Enhancement and Ambience Preservation | |
CN111669697B (zh) | 一种多通道信号的相干声与环境声提取方法及系统 | |
CN113518299B (zh) | 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质 | |
Ben-Hur et al. | Binaural reproduction based on bilateral ambisonics | |
Cheng | Spatial squeezing techniques for low bit-rate multichannel audio coding | |
Lehmann et al. | Towards Maximizing a Perceptual Sweet Spot | |
Franck et al. | Optimization-based reproduction of diffuse audio objects | |
CN111711918A (zh) | 一种多通道信号的相干声与环境声提取方法及系统 | |
CN116615919A (zh) | 双耳信号的后处理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221111 |