CN113518299A - 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质 - Google Patents

一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113518299A
CN113518299A CN202110480313.1A CN202110480313A CN113518299A CN 113518299 A CN113518299 A CN 113518299A CN 202110480313 A CN202110480313 A CN 202110480313A CN 113518299 A CN113518299 A CN 113518299A
Authority
CN
China
Prior art keywords
component
channel
source
source component
frequency point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110480313.1A
Other languages
English (en)
Other versions
CN113518299B (zh
Inventor
史创
王苹洁
杨浩聪
刘英子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110480313.1A priority Critical patent/CN113518299B/zh
Publication of CN113518299A publication Critical patent/CN113518299A/zh
Application granted granted Critical
Publication of CN113518299B publication Critical patent/CN113518299B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质,属于音视频处理技术领域。本发明的提取方法为:对两个声道的源分量能量之比进行估计,并求解音频在每帧的各正频率点分量值;然后获取环境分量相位角的最优估计;最后,通过共轭对称关系构建对应的负频率点分量值,并对每帧的各频率点分量值进行频域到时域的转换处理,得到待进行提取的双声道音频信号的左右升到的环境分量信号与源分量信号。本发明可用于立体声扩展,使得通道格式立体声音频可以与任意通道数的再现系统兼容。在音频质量方面,经本发明提取方法所提取出源分量、环境分量的时域波形与原始语音的左声道源分量、环境分量的波形具有高度一致性。

Description

一种改进的源分量及环境分量提取方法、设备及计算机可读 存储介质
技术领域
本发明属于音频技术领域,具体涉及一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质。
背景技术
如今基于通道的音频格式得到了广泛应用,但基于通道的音频往往具有特定的播放配置,即它无法与不同的播放系统兼容。因此考虑到当今播放系统的多样性,需要对不同通道数的音频信号进行分解和重构以满足不同配置的播放系统,并获得更好的空间质量(spatial quality)。
传统的音频重构技术根据播放系统分为两类,一种是扬声器播放,常见技术有混音(audio remixing),另一种是耳机播放,常见技术有虚拟化(virtulization)等。基于文献《Spatial sound reproduction using conventional and parametric loudspeakers》和《Spatial audio processing:MPEG surround and other applications》可知,扬声器播放的音频重构需要额外的组件,导致相应的设备成本更加昂贵。另一方面耳机播放重构出的声音,其空间质量相对实录立体声还存在差距。
针对以上问题,一种改进的思路是通过前端算法处理的手段,建立立体声信号模型,使用音频的相位信息来营造更真实的空间听感。将双声道音频分解为源分量(primarycomponent)和环境分量(ambient component)的线性组合,其中音频左右通道分别表示为xL和xR,并满足:xL=pL+aL,xR=pL+aR,其中pL、pR分别代表左右通道的源分量,aL和aR分别代表左右通道的环境分量。在文献《Primary-Ambient Extraction Using Ambient SpectrumEstimation for Immersive Spatial Audio Reproduction》中,提出了一种通过对每帧每个频点的环境分量相位做最优估计来实现源分量及环境分量提取的技术,但该方法的优化目标为每帧每频点的环境分量相位,在本发明的技术方案的实现过程中,发明人发现:实际生活中一种更常见的情况是不同帧相同频点处的环境分量相位差相同,因此没有必要对左、右声道每帧、每频点处的环境分量相位均做最优估计。
发明内容
本发明公开了一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质,以减小对双声道音频的进行源分量及环境分量提取时的计算量,提升运算速度。
一方面,本发明提供了一种基于双声道音频的一种改进的源分量及环境分量提取方法,包括下列步骤:
步骤1:估算左、右通道源分量之比k;
其中,
Figure BDA0003048975950000021
r00、r11分别表示左右通道源分量的自相关系数,r01表示左右通道源分量的互相关系数;
步骤2:对待进行分量提取的双声道音频信号进行分帧,将每帧信号变换到频域,并提取每一帧内左、右通道的的正频率点的音频信号分量xL[m,f]、xR[m,f],其中,m表示帧数,f表示频率值;
且:xL[m,f]=pL[m,f]+aL[m,f],xR[m,f]=pR[m,f]+aR[m,f];
其中,pL[m,f]、pR[m,f]分别表示左、右通道的正频点的源分量,aL[m,f]、aR[m,f]分别表示左、右通道的正频点的环境分量;
步骤3:根据公式θ[m,f]=∠(xR[m,f]-kxL[m,f])构造参数θ[m,f],即θ[m,f]为音频信号分量(xR[m,f]-kxL[m,f])所对应的正频点的相位;
步骤4:定义左、右通道环境分量的相位差为Δθ[f]=∠aR[m,f]-∠aL[m,f],其中,∠aR[m,f]、∠aL[m,f]分别表示环境分量aR[m,f]、aL[m,f]所对应的正频点的相位;
将相位差为Δθ[f]的取值范围(-π,π]等距离划分为多个值,得到多个离散的角度θi,下标i表示角度编号;
遍历每个角度θi,计算当相位差Δθ[f]的取值为θi时的不同帧的同一频点的右声道源分量的1范数之和;
取不同帧同一频点的右声道源分量的1范数之和最小时的角度θi作为相位差Δθ[f]的最优估计值;
步骤5:计算相位∠aR[m,f]和∠aL[m,f],其中∠aR[m,f]有两组计算结果,分别定义为∠aR[m,f][0]和∠aR[m,f][1]
Figure BDA0003048975950000022
Figure BDA0003048975950000031
∠aL[m,f]=∠aR[m,f]-Δθ[f];
基于相位∠aR[m,f]和∠aL[m,f]计算左声道的正频点的环境分量和源分量:
Figure BDA0003048975950000032
pL[m,f]=xL[m,f]-aL[m,f];
以及根据pR[m,f]=kpL[m,f]得到右声道的正频点的源分量pR[m,f];
其中,∠aR[m,f]∈{∠aR[m,f][0],∠aR[m,f][1]},并保留pR[m,f]最小的那一组计算结果,得到每帧的左、右声道的正频点的源分量pL[m,f]、pR[m,f];
即,当∠aR[m,f]=∠aR[m,f][0]时,将计算得到的pL[m,f]记为pL[m,f][0],进而根据pL[m,f]=xL[m,f]-aL[m,f]得到pR[m,f][0]
即,当∠aR[m,f]=∠aR[m,f][1]时,将计算得到的pL[m,f]记为pL[m,f][1],进而根据pL[m,f]=xL[m,f]-aL[m,f]得到pR[m,f][1]
从而得到两组正频点的源分量:
第一组:pL[m,f][0]和pR[m,f][0]
第二组:pL[m,f][1]和pR[m,f][1]
比较pR[m,f][0]与pR[m,f][1]的大小,保留两者中较小者所对应的那一组正频点的源分量(例如pR[m,f][0]较小,则保留第一组);
其中,符号“./”、“.*”分别表示点除和点乘,即两个矩阵对应元素直接除或者乘,j表示虚数单位;
步骤6:基于得到的每帧的左、右声道的正频点的源分量pL[m,f]、pR[m,f],通过共轭对称关系构建每帧的左、右声道的负频率点的源分量;
步骤7:对每帧的左、右声道的源分量值进行频域到时域的转换,得到待进行分量提取的双声道音频信号的源分量信号,并分别与对应通道的双声道音频信号相减,得到左、右声道的环境分量信号。
本发明通过将优化参数从右声道环境分量相位转化为左、右声道环境分量相位差,并保证提取精度,同时基于左右声道不同帧同一频点的环境分量相位差相同的设置下,在优化时对不同帧同一频点处的值进行联合优化,以减小计算量,并提高运算速度。
另一方面,本发明提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现上述所述的基于双声道音频的一种改进的源分量及环境分量提取方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现上述所述的基于双声道音频的一种改进的源分量及环境分量提取方法。
本发明实施例提供的技术方案至少带来如下有益效果:
在本发明实施例中,让通道格式音频可以与任何再现系统兼容的同时,也同时兼顾了时间效率和处理效果。所提取出的左右声道源分量、环境分量的时域波形与原始音频的源分量、环境分量的时域波形具有高度一致性,提取误差比极低,且提取出的环境分量的左、右声道相关度很低,幅度相当。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的源环境提取方法处理流程图;
图2为本发明实施例中,原始左声道源分量的时域波形;
图3为本发明实施例中,原始左声道环境分量的时域波形;
图4为本发明实施例提供的源分量及环境分量提取方法所提取出来的左声道源分量的时域波形;
图5为本发明实施例提供的源分量及环境分量提取方法所提取出来的左声道环境分量的时域波形;
图6为本发明实施例中,源分量功率与总功率比不同时的源分量提取误差比;
图7为本发明实施例中,源分量功率与总功率比不同时的环境分量提取误差比;
图8为本发明实施例中,源分量功率与总功率比不同时的环境分量信号组内相关系数;
图9为本发明实施例中,源分量功率与总功率比不同时的通道间环境分量信号幅度差。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在本发明实施例提供的基于双声道音频的改进的源分量及环境分量提取方法中,假设待处理双声道音频信号由源分量与环境分量相加组成,并且两个声道的环境分量在每一帧的同一频点上都具有相同的相位差。具体实现方式为:首先对两个声道的源分量能量之比进行估计,并求解音频在每帧的各正频率点分量值;然后求解在对其中一个通道的环境分量相位角进行不同估计时,所有帧在同一频点的值之和,找到对环境分量相位角的最优估计;最后,通过共轭对称关系构建对应的负频率点分量值,并对每帧的各频率点分量值进行频域到时域的转换处理,得到待进行提取的双声道音频信号的左右升到的环境分量信号与源分量信号。本发明可用于立体声扩展,使得通道格式立体声音频可以与任意通道数的再现系统兼容。在音频质量方面,经本发明提取方法所提取出源分量、环境分量的时域波形与原始语音的左声道源分量、环境分量的波形具有高度一致性。
双声道音频分解为源分量和环境分量的线性组合,且左、右声道的源分量满足k倍关系,左、右声道的环境分量不相关且等幅度。
令音频左、右通道分别表示为xL和xR,则满足:xL=pL+aL,xR=pL+aR,其中pL、pR分别代表左右通道的源分量,aL和aR分别代表左右通道的环境分量。
首先假定左、右声道的源分量比值保持稳定,利用式(1)估计左、右声道源分量比值k:
Figure BDA0003048975950000051
将音频信号进行分帧,并对每一帧信号进行时域到频域的转换处理,那么对每一帧的每个频点都满足式(2)、(3):
xL[m,f]=pL[m,f]+aL[m,f] (2)
xR[m,f]=pR[m,f]+aL[m,f] (3)
其中m为帧数,f为频率值,xL[m,f]、xR[m,f]分别表示左、右声道的正频点的音频信号分量,pL[m,f]、pR[m,f]分别表示左、右声道的正频点的源分量,aL[m,f]、aL[m,f]分别表示左、右声道的正频点的环境分量。
由于实信号的傅里叶变换具有共轭对称性质,因此仅取频谱正频部分进行求解,并在求解完成后利用共轭对称关系构造负频率分量,以保证傅里叶逆变换后时域仍为实信号。
利用上述求解出的左、右声道源分量比值k和信号在正频点的音频信号分量xL[m,f]、xR[m,f],通过式(4)构造一个新参数θ[m,f]:
θ[m,f]=∠(xR[m,f]-kxL[m,f]) (4)
由于假定不同帧左、右声道环境分量同一频点的相位差相同,因此将该相位差,即Δθ[f]=∠aR[m,f]-∠aL[m,f],作为优化求解的目标参数。
由于相位差Δθ[f]∈[-π,π),于是将该区间等间距划分为D(D为正整数)个值,并依次作为Δθ[f]的取值,计算当前右声道音频所有帧同一正频点取值的1范数之和。
随后比较当相位差Δθ[f]取不同值时,右声道音频所有帧同一正频点取值的1范数之和的大小,利用音频源分量的稀疏性,取右声道音频所有帧同一正频点取值的1范数之和最小时的Δθ[f]作为该频点双声道音频环境分量相位差的最优解。
在一种可能的实现方式中,将相位差Δθ[f]的取值序列为式(5),d表示取值范围[-π,π)内的第d个角度取值,即角度编号:
Figure BDA0003048975950000061
左、右声道音频环境分量正频点的相位计算公式分别为式(6)、(7),其中右通道环境分量有两种取值:
Figure BDA0003048975950000062
Figure BDA0003048975950000063
∠aL[m,f]=∠aR[m,f]-Δθ[f] (8)
由于右声道音频环境分量的相位包含两个解,在没有附加条件的情况下无法确定哪一个为真实解,因此将两个解都算出来,在最后对Δθ[f]进行优化估计时再确定对应的左、右声道音频环境分量的正频点值。
利用估计出的每个频点最优的Δθ[f]求解左、右声道音频环境分量的相位最优估计后,再利用该估计求解左声道源分量与环境分量的正频点处的值,如式(8)-(9):
Figure BDA0003048975950000064
pL[m,f]=xL[m,f]-aL[m,f] (10)
利用左、右声道音频源分量间的线性关系,得出右声道源分量正频点处的值,如式(11):
pR[m,f]=kpL[m,f] (11)
两组∠aR[m,f]的取值对应求得两组pR[m,f],只保留其中pR[m,f]取值小的那一组解。接着,利用傅里叶变换的共轭对称性质,构建左、右声道音频源分量的负频点值,并对每帧的源分量做频域到时域的傅里叶逆变换,得到左、右声道的源分量信号,最后与双声道音频信号相减,得到左、右声道的环境分量信号。
参见图1,本发明实施例提供的基于双声道音频的改进的源分量及环境分量提取方法,包括:
步骤S1:估算左右通道源分量比值k;
步骤S2:对左右通道信号进行分帧处理;
步骤S3:对酥油帧信号分别进行傅里叶变换;
遍历每帧的每个正频点,初始化帧数m=1,频率值f=1,角度编号d=0;
步骤S4:读取当前正频点的音频信号分量:xL[m,f]、xR[m,f];
步骤S5:根据公式(4)构建参数θ[m,f],并令
Figure BDA0003048975950000071
步骤S6:计算当前正频点的左右声道音频源分量的1范数,并与不同帧同一频点处的Δθ[f]的该值累加;
步骤S7:判定是否遍历完所有帧,若是,则执行步骤S8,否则令m自增1后执行步骤S6;
步骤S8:判断是否遍历完d的所有取值,若是,则执行步骤S9,否则令d自增1后执行步骤S5;
步骤S9:求解当前正频点处对Δθ[f]的最优估计值:从D个所有帧的同频点的Δθ[f]的1范数的累加和中,基于最小累加和所对应的d得到Δθ[f]的最优估计值,再执行步骤S10;
步骤S10:判断是否遍历完所有正频点,若是,则执行步骤S11,否则令f子增1后执行步骤S4;
步骤S11:求解左、右通道源分量的频谱,即根据公式(9)~(11)进行求解;
步骤S12:构建负频部分的左、右声道音频源分量;对每帧的源分量做频域到时域的傅里叶逆变换并拼接所有帧得到左、右声道的源分量信号,最后与双声道音频信号相减,得到左、右声道的环境分量信号。
为了进一步验证本发明实施例所提供的提取方法的性能,基于所制作的待提取的双声道音频进行仿真验证。
其中,所述待提取的双声道音频的制作方式为:
左声道的源分量采用一段录制的演讲语音音频(时域波形图如图2所示,采样率44.1kHz),左声道的环境分量采用一段海浪声(时域波形图如图3所示,采样率44.1kHz)。右声道的源分量是将左声道的源分量信号乘以参数k(本例中取为2),右声道的环境分量由对左声道环境分量进行去相关处理得到,具体处理为:首先将左声道环境分量信号分帧(本例中帧长为1024,约23.2ms)并做时域到频域的变换,取正频点,然后对每一帧的同一频点处的复值添加相同的随机相位,以保证左、右声道环境分量在不同帧的相同频点处都具有相同的相位差,最后利用傅里叶变换的共轭对称性质补全负频点部分,并做频域到时域的傅里叶逆变换,得到右声道环境分量信号。随后根据源分量功率和总功率的比值设定(本例中取为0.8),对源分量和环境分量的相对大小进行调整,使其功率比满足要求。最后,将左、右声道的源分量和环境分量分别相加混合,即可得到待提取的双声道音频信号。
再采用本发明实施例所提供的提取方法对上述待提取的双声道音频信号进行源环境分量提取:
首先对左、右声道音频源分量的比值k进行估计,作为后级参数使用。
然后对双声道音频信号进行分帧处理,本实施例中帧长为1024,时长约23.2ms。
接着分别对每帧左、右声道音频信号做1024点快速傅里叶变换(Fast FourierTransform,FFT),并取正频部分,得到每帧左、右声道信号的正频频谱xL[m,f]、xR[m,f]。
构造参数θ[m,f]=∠(xR[m,f]-kxL[m,f])。
将Δθ[f]取值范围[-π,π)等间距分为D个值(本例中D=100),对应的对双声道音频频谱的每个点都进行D次遍历,每次代入的Δθ[f]即为上述的D个值。每一次遍历时均计算出当前所有帧在该频点的右声道源分量值的1范数之和,由于每一个Δθ[f]取值均对应两种求解情况,将两种解值均保留。
D次遍历结束后,对每一个正频点均找出能使所有帧在该频点的右声道源分量1范数之和最小的Δθ[f]取值,则该值则为当前频点对Δθ[f]的最优估计。
代入Δθ[f]的最优估计值,重复遍历过程中对左、右声道源分量的求解过程,得到左、右声道源分量正频部分的最优估计。
最后利用傅里叶变换的共轭对称关系,对左、右声道源分量的频谱进行补全,然后做从频域到时域的逆傅里叶变换,并将不同帧拼接起来,得到左、右声道的源分量信号,再与原混合信号进行相减,得到左、右声道的环境分量信号。
在衡量本发明实施例所提供的提取方法的性能时,采用了下述四种指标:
第一种是比较纯净信号和提取后信号的时域波形图,如图2、图3、图4和图5所示;
第二种是计算源分量功率与总功率比不同时的源分量提取误差比ESRP、环境分量提取误差比ESRA,如图6、图7所示,计算公式如式(12)、式(13):
Figure BDA0003048975950000091
Figure BDA0003048975950000092
其中,
Figure BDA0003048975950000093
分别代表某一通道音频源分量、环境分量的提取信号,pc、ac分别代表某一通道音频源分量、环境分量的原始信号。
第三种是计算源分量功率与总功率比不同时的环境分量信号组内相关系数(intraclass correlation coefficient,ICC),如图8所示,计算公式如式(14)所示:
Figure BDA0003048975950000094
第四种是计算源分量功率与总功率比不同时的通道间环境分量信号幅度差(inter channel level difference,ICLD),如图9所示,计算公式如式(15)所示:
Figure BDA0003048975950000095
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以实现上述任一种源分量及环境分量提取方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以实现上述任一种源分量及环境分量提取方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROMD)、磁带和光数据存储设备等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (5)

1.基于双声道音频的一种改进的源分量及环境分量提取方法,其特征在于,包括:
步骤1:估算左、右通道源分量之比k;
其中,
Figure FDA0003048975940000011
r00、r11分别表示左右通道源分量的自相关系数,r01表示左右通道源分量的互相关系数;
步骤2:对进行分量提取的双声道音频信号进行分帧,将每帧信号变换到频域,并提取每一帧内左、右通道的正频率点的音频信号分量xL[m,f]、xR[m,f],其中,m表示帧数,f表示频率值;
且:xL[m,f]=pL[m,f]+aL[m,f],xR[m,f]=pR[m,f]+aR[m,f];
其中,pL[m,f]、pR[m,f]分别表示左、右通道的正频点的源分量,aL[m,f]、aR[m,f]分别表示左、右通道的正频点的环境分量;
步骤3:根据公式θ[m,f]=∠(xR[m,f]-kxL[m,f])构造参数θ[m,f];
步骤4:定义左、右通道环境分量的相位差为Δθ[f]=∠aR[m,f]-∠aL[m,f],其中,∠aR[m,f]、∠aL[m,f]分别表示环境分量aR[m,f]、aL[m,f]所对应的正频点的相位;
将相位差Δθ[f]的取值范围(-π,π]等距离划分为多个值,得到多个离散的角度θi,下标i表示角度编号;
遍历每个角度θi,计算当相位差Δθ[f]的取值为θi时的不同帧的同一频点的右声道源分量的1范数之和;
取不同帧同一频点的右声道源分量的1范数之和最小时的角度θi作为相位差Δθ[f]的最优估计值;
步骤5:计算相位∠aR[m,f]和∠aL[m,f],其中∠aR[m,f]有两组计算结果,分别定义为∠aR[m,f][0]和∠aR[m,f][1]
Figure FDA0003048975940000012
Figure FDA0003048975940000013
∠aL[m,f]=∠aR[m,f]-Δθ[f];
基于相位∠aR[m,f]和∠aL[m,f]计算左声道的正频点的环境分量和源分量:
Figure FDA0003048975940000021
pL[m,f]=xL[m,f]-aL[m,f];
以及根据pR[m,f]=kpL[m,f]得到右声道的正频点的源分量pR[m,f];
其中,∠aR[m,f]∈{∠aR[m,f][0],∠aR[m,f][1]},并保留pR[m,f]最小的那一组计算结果,得到每帧的左、右声道的正频点的源分量pL[m,f]、pR[m,f];
其中,符号“./”、“.*”分别表示点除和点乘,j表示虚数单位;
步骤6:基于每帧的左、右声道的正频点的源分量pL[m,f]、pR[m,f],通过共轭对称关系构建每帧的左、右声道的负频率点的源分量;
步骤7:对每帧的左、右声道的源分量值进行频域到时域的转换,得到待进行分量提取的双声道音频信号的源分量信号,并分别与对应通道的双声道音频信号相减,得到左、右声道的环境分量信号。
2.如权利要求1所述的源分量及环境分量提取方法,其特征在于,步骤4中,定义参数D表示角度θi的个数,则
Figure FDA0003048975940000022
其中,i=0,1,2,…,D。
3.如权利要求2所述的源分量及环境分量提取方法,其中在于,参数D的取值为100。
4.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至3任一所述的源分量及环境分量提取方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至3任一所述的源分量及环境分量提取方法方法。
CN202110480313.1A 2021-04-30 2021-04-30 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质 Expired - Fee Related CN113518299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110480313.1A CN113518299B (zh) 2021-04-30 2021-04-30 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110480313.1A CN113518299B (zh) 2021-04-30 2021-04-30 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113518299A true CN113518299A (zh) 2021-10-19
CN113518299B CN113518299B (zh) 2022-06-03

Family

ID=78063882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110480313.1A Expired - Fee Related CN113518299B (zh) 2021-04-30 2021-04-30 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113518299B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009031871A2 (en) * 2007-09-06 2009-03-12 Lg Electronics Inc. A method and an apparatus of decoding an audio signal
CN104053120A (zh) * 2014-06-13 2014-09-17 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置
US20140358562A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Quantization step sizes for compression of spatial components of a sound field
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法
CN109036456A (zh) * 2018-09-19 2018-12-18 电子科技大学 用于立体声的源分量环境分量提取方法
CN109640242A (zh) * 2018-12-11 2019-04-16 电子科技大学 音频源分量及环境分量提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009031871A2 (en) * 2007-09-06 2009-03-12 Lg Electronics Inc. A method and an apparatus of decoding an audio signal
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法
US20140358562A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Quantization step sizes for compression of spatial components of a sound field
CN104053120A (zh) * 2014-06-13 2014-09-17 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置
CN109036456A (zh) * 2018-09-19 2018-12-18 电子科技大学 用于立体声的源分量环境分量提取方法
CN109640242A (zh) * 2018-12-11 2019-04-16 电子科技大学 音频源分量及环境分量提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵立权等: "后非线性马尔科夫算法应用于振动信号提取", 《科学技术与工程》 *
陈璐: "用于声场景重构的源分量和环境分量提取方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Also Published As

Publication number Publication date
CN113518299B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
US10210883B2 (en) Signal processing apparatus for enhancing a voice component within a multi-channel audio signal
US9088855B2 (en) Vector-space methods for primary-ambient decomposition of stereo audio signals
KR101029077B1 (ko) 스테레오 신호 생성 방법 및 장치
US8718293B2 (en) Signal separation system and method for automatically selecting threshold to separate sound sources
US7970144B1 (en) Extracting and modifying a panned source for enhancement and upmix of audio signals
JP4896029B2 (ja) 信号処理装置、信号処理方法、信号処理プログラムおよびコンピュータに読み取り可能な記録媒体
EP3133833B1 (en) Sound field reproduction apparatus, method and program
WO2009046225A2 (en) Correlation-based method for ambience extraction from two-channel audio signals
US9031248B2 (en) Vehicle engine sound extraction and reproduction
EP3785453B1 (en) Blind detection of binauralized stereo content
US9462405B2 (en) Apparatus and method for generating panoramic sound
CN114203163A (zh) 音频信号处理方法及装置
JP2020065283A (ja) チャネル間時間差パラメータの安定性を増加させるための方法および装置
US20230254655A1 (en) Signal processing apparatus and method, and program
CN113518299B (zh) 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质
US20150063574A1 (en) Apparatus and method for separating multi-channel audio signal
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、系统及设备
He et al. Primary-ambient extraction using ambient phase estimation with a sparsity constraint
CN104424971B (zh) 一种音频文件播放方法及装置
CN116913307A (zh) 语音处理方法、装置、通信设备及可读存储介质
CN109036456B (zh) 用于立体声的源分量环境分量提取方法
CN113449255B (zh) 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
CN111669697B (zh) 一种多通道信号的相干声与环境声提取方法及系统
CN112309419B (zh) 多路音频的降噪、输出方法及其系统
KR20190069192A (ko) 오디오 신호의 채널 파라미터 예측 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220603

CF01 Termination of patent right due to non-payment of annual fee