CN115699171A - 使用最少的训练分离一般化立体声背景与平移源 - Google Patents
使用最少的训练分离一般化立体声背景与平移源 Download PDFInfo
- Publication number
- CN115699171A CN115699171A CN202180041971.9A CN202180041971A CN115699171A CN 115699171 A CN115699171 A CN 115699171A CN 202180041971 A CN202180041971 A CN 202180041971A CN 115699171 A CN115699171 A CN 115699171A
- Authority
- CN
- China
- Prior art keywords
- frequency
- processors
- spatial
- time
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004091 panning Methods 0.000 title claims description 9
- 238000012549 training Methods 0.000 title description 19
- 238000000926 separation method Methods 0.000 title description 14
- 238000009826 distribution Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 239000000203 mixture Substances 0.000 description 15
- 238000013139 quantization Methods 0.000 description 6
- 239000000872 buffer Substances 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008571 general function Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010207 Bayesian analysis Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Image Processing (AREA)
Abstract
在实施例中,通过以下方式创建空间电平滤波器(SLF):从频域中的子频带中的多个目标源电平分布和空间分布获得第一样本集;从频域中的子频带中的多个背景电平分布和空间分布获得第二样本集;将第一样本集和第二样本集相加以创建组合样本集;针对每个子带,检测组合样本集中的每个样本的电平参数和空间参数;在子带内,通过目标源和背景的相应电平分布和空间分布对检测到的电平参数和空间参数进行加权;将组合样本集中的每个样本在子带内的加权后的电平参数、空间参数和信噪比(SNR)存储在表中;以及通过子带以及加权后的电平参数和空间参数对该表重新索引。
Description
相关申请的交叉引用
本申请要求于2020年6月11日提交的美国临时专利申请63/038,046、于2020年6月11日提交的欧洲专利申请20179449.2的优先权权益,所述专利申请通过引用并入本文。
技术领域
本公开总体上涉及音频信号处理,并且具体地涉及音频源分离技术。
背景技术
双声道音频混合(例如,立体声混合)是通过将多个音频源混合在一起来创建的。存在若干期望从双声道混合中检测并提取单个音频源的示例,包括但不限于:重混(remixing)应用程序,其中将音频源重新定位在双声道混合中;上混合应用程序,其中将音频源定位或重新定位在环绕声混合中;以及音频源增强应用程序,其中增强某些音频源(例如,语音/对话)并将其添加回双声道或环绕声混合中。
发明内容
下文的附图和描述中阐述了所公开的实施方式的细节。根据本说明书、附图和权利要求,其他特征、目的和优点是显而易见的。
在实施例中,一种方法包括:使用一个或多个处理器,从多个子频带中的多个目标源电平分布和空间分布获得第一样本集的频域表示;使用所述一个或多个处理器,从所述多个子频带中的多个背景电平分布和空间分布获得第二样本集的频域表示;使用所述一个或多个处理器将所述第一样本集与所述第二样本集相加以创建组合的样本集;使用所述一个或多个处理器,针对所述多个子频带中的每个子带,检测所述组合的样本集中的每个样本的电平参数和空间参数;在所述多个子频带中的每个子带内,将检测到的电平参数和空间参数通过其对于所述目标源和所述背景相应的电平分布和空间分布进行加权;使用所述一个或多个处理器,将所述组合样本集中的每个样本在所述多个子频带内的加权后的电平参数、空间参数和信噪比(SNR)存储在表中;以及使用所述一个或多个处理器,通过子带以及所述加权后的电平参数、空间参数对所述表重新索引,使得所述表包括子带以及所述加权后的电平参数和空间参数的目标百分位数SNR,并且针对子带以及量化后的检测到的空间参数和电平参数的给定输入,从所述表中获得与所述子带以及所述量化后的检测到的空间参数和电平参数相关联的所估计的SNR。
在实施例中,所述方法进一步包括平滑按所检测到的电平中的一个或多个、空间参数中的一个或多个或子频带索引的数据。
在实施例中,所述频域表示是短时傅里叶变换(STFT)域表示。
在实施例中,所述空间参数包括混合音频信号的两个声道之间的平移和相位差。
在实施例中,使用恒幂定律对所述目标源进行振幅平移。
在实施例中,所述目标百分位数SNR是第25百分位数。
在实施例中,一种方法包括:使用一个或多个处理器将双声道时域音频信号的一个或多个帧变换为包括多个时频片的时频域表示,其中,所述时频域表示的频域包括多个频率仓,所述多个频率仓被分组为多个子带;针对每个时频片:使用所述一个或多个处理器计算所述时频片的空间参数和电平;使用所述一个或多个处理器,针对所述时频片中的每个频率仓,生成百分位数信噪比(SNR);使用所述一个或多个处理器,基于所述仓的SNR生成用于所述仓的分数值;以及使用所述一个或多个处理器,应用所述时频片的所述仓的所述分数值以生成所估计的音频源的经修改的时频片。
在实施例中,将时频片的多个帧组配成多个组块,每个组块包括多个子带,所述方法包括:针对每个组块中的每个子带:使用所述一个或多个处理器计算所述组块中的每个时频片的空间参数和电平;使用所述一个或多个处理器,针对所述时频片中的每个频率仓,生成百分位数信噪比(SNR);使用所述一个或多个处理器,基于所述仓的SNR生成用于所述仓的分数值;以及使用所述一个或多个处理器,应用所述时频片的所述仓的分数值,以生成所估计的音频源的经修改的时频片。
在实施例中,所述方法包括使用所述一个或多个处理器将所述经修改的时频片变换成多个时域音频源信号。
在实施例中,空间参数包括针对时频片中的每一个的声道之间的平移和相位差。
在实施例中,分数值是从针对平移目标源训练的空间电平滤波(SLF)系统的查找表或函数获得的。
在实施例中,将双声道时域音频信号的一个或多个帧变换成频域信号包括将短时频率变换(STFT)应用于双声道时域音频信号。
在实施例中,将多个频率仓分组为倍频程子带或近似倍频程子带。
本文公开的特定实施例提供了以下优点中的一个或多个。所公开的实施例允许从由源加上一些背景构成的混合的记录中提取目标源(源分离)。更具体地,所公开的实施例允许提取(完全或大部分)使用振幅平移(amplitude panning)混合的源,这种源是在TV和电影中混合对话的最常见方式。能够提取这种源实现了对话增强(在混合中提取并然后加强对话)或上混。另外,可以在几乎没有训练数据或时延的情况下提取高质量的源估计,这一特征使其与大多数其他源分离方法区别开。
附图说明
在下文所参考的附图中,以框图、流程图和其他图的形式图示了各种实施例。流程图或框图中的每个框可以表示包含用于执行指定逻辑功能的一个或多个可执行指令的模块、程序或代码部分。尽管这些框以执行这些方法步骤的特定顺序图示,但是它们可能不一定严格按照所图示的顺序执行。例如,取决于相应操作的性质,这些框可以按相反的顺序执行或同时执行。还应当注意的是,框图和/或流程图中的每个框及其组合可以由用于执行指定功能/操作的基于软件或基于硬件的专用系统来实施,或者由专用硬件和计算机指令的组合来实施。
图1图示了根据实施例的描绘时域混合的用于源分离的信号模型。
图2是根据实施例的用于生成经过训练以提取平移源的空间电平滤波器(SLF)查找表的系统的框图。
图3是根据实施例的经过训练以提取平移源的SLF查找表的输入和输出的视觉描绘。
图4是根据实施例的用于使用经过训练以提取平移源的SLF从双声道混合中检测并提取空间可识别子带音频源的系统的框图。
图5是根据实施例的用于生成经过训练以提取平移源的SLF查找表的过程的流程图。
图6是根据实施例的使用经过训练以提取平移源的SLF从双声道混合中检测并提取空间可识别子带音频源的过程的流程图。
图7示出了根据实施例的用于实施参考图1至图6描述的系统和过程的设备架构的框图。
各附图中使用的相同附图标记指示同样的元件。
具体实施方式
信号模型和假设
图1图示了根据实施例的描绘时域混合的用于源分离的信号模型100。信号模型100假设将目标源s1和背景b根据上下文基本时域混合为两个声道,下文称为“左声道”(x1或XL)和“右声道”(x2或XR)。这两个声道被输入到源分离系统101中,该系统估计
假设使用恒幂定律对目标源s1进行振幅平移。由于其他平移定律可以被转换为恒幂定律,因此在信号模型100中使用恒幂定律非限制性的。在恒幂定律平移下,混合到左/右(L/R)声道的源s1被描述如下:
x1=cos(Θ1)s1,
[1]
x2=sin(Θ1)s1,
[2]
其中,Θ1的范围在从0(平移至最左的源)至π/2(平移至最右的源)。可以在短时傅立叶变换(STFT)域中将其表示为
XL=cos(Θ1)S1,
[3]
XR=sin(Θ1)S1。
[4]
在STFT域中继续进行,向每个声道添加背景B表示为:
XL=cos(Θ1)S1+cos(ΘB)|B|ej∠B,
[5]
[6]
背景B包括附加参数∠B和这些参数分别描述在STFT空间中S1与B的左声道相位之间的相位差以及B的左声道相位与右声道相位之间的声道间相位差。应该注意的是,等式[5]和[6]中无需包括参数,因为平移源的声道间相位差根据定义为零。假设目标S1和背景B在STFT空间中不共享特定相位关系,因此∠B的分布被建模为均匀分布。
目标源与背景之间存在关键的空间差异。空间上,Θ1被视为特定的单个值(目标源S1的“平移参数”),但ΘB和ΦB各自具有一定统计分布,这允许使用统计模型(例如,贝叶斯模型)来执行源分离。
然后回顾一下,“目标源”被假设进行了平移,这意味着该源可以用Θ1来表征。假设目标源的声道间相位差为零。其电平上也存在分布LS=|S1|,这被假设为至少在大致倍频程子带上已知。假设空间信息完全由源的平移参数指定。
出于此模型的目的,源和背景只能在假设两者都“活动”的时间点被建模。在这个意义上,出于本目的,假设源和背景始终“开”或“关”,而分离应假设目标源和背景都“开”。可以看出,如果目标源活动但背景不活动,提取仍将近乎完美。如果目标源和平移参数未知,则可以使用本领域技术人员已知的技术来估计它们。对于某些情况,比如大多数音乐,目标源与背景之间可能存在谐波关系。在信号模型100中,这样的关系没有单独建模;假设分布包括一定程度的谐波重叠,这适合于给定的应用。
训练过程
图2是根据实施例的用于生成经过训练以提取平移源的SLF查找表的系统200的框图。SLF是已被训练以实现以下目的的系统:从包括具有给定电平分布和空间参数的背景的混合中提取具有给定电平分布和指定空间参数的目标源。
系统200包括目标源参数数据库201、目标源分布采样器202、变换203、参数检测器204、重新索引器205、目标SNR选择器206、经训练的SLF查找表207、背景参数数据库208、背景分布采样器209和变换210。分布采样器202、209和变换203、210在图2中被示为单独的块,但实际上采样器202、209和变换203、210可以组合成在目标源数据库和背景数据库201、208上操作的单个模块(例如,软件模块)。
系统200实施的训练程序的目标是创建贝叶斯模型,该模型在给定双声道输入(例如,L/R立体声输入)的情况下针对每个STFT域仓(bin)或片(tile)预测能量中属于目标源的相对分数。为了帮助实现这一目标,使用了四个参数,这些参数对于STFT域中的双声道输入是可检测的。
第一参数是b,其表示大致倍频程子频带。该参数是通过从给定频率仓ω到其所属的子带b的平凡映射(trivial mapping)获得的。下面给出了子带边界的示例。
第二参数是每个(ω,t)片的检测到的“平移”,定义为:
Θ(ω,t)=arctan(|XR(ω,t)|/|XL(ω,t)|),
[7]
其中“满左”为0,而“满右”为π/2。
第三参数是每个片的检测到的“相位差”。这被定义为:
[8]
其范围从-π到π,其中,0意味着在两个声道中检测到的相位是相同的。
第四参数是每个片的检测到的“电平”,定义为:
U(ω,t)=10*log10(|XR(ω,t)|2+|XL(ω,t)|2),
[9]
这是两个声道的“毕达哥拉斯”幅度。它可以被认为是一种单幅度声谱图。
每个频率仓ω被理解为表示特定频率。然而,数据也可以被分组在子带内,这些子带是连续仓的集合,其中每个频率仓ω属于子带。将数据分组在子带内对于系统中执行的某些估计任务是特别有用的。在实施例中,使用倍频程子带或近似倍频程子带,但是也可以使用其他子带定义。分带的一些示例包括如下定义频带边缘,其中,以Hz为单位列出值:
[0,400,800,1600,3200,6400,13200,24000],
[0,375,750,1500,3000,6000,12000,24000],以及
[0,375,750,1500,2625,4125,6375,10125,15375,24000]。
应该注意的是,如果严格遵循“倍频程”定义,则可能有无限多个这样的频带,其中最低频带宽度接近无穷小,因此需要进行一些选择以允许得到有限数量的子带。在实施例中,最低频带被选择为在大小上等于第二个频带,但是在其他实施例中可以使用其他惯例。在本文中,术语“子带”和“频带”可以互换使用。
要了解如何基于这四个参数构建贝叶斯系统,首先回顾贝叶斯规则:
p(A|B)=p(B|A)p(A)/p(B)。
[10]
[11]
现在,目标是训练可以产生等式[11]右侧的所有量的贝叶斯系统,使得可以估计等式[11]左侧的量。为此,通过考虑背景上的目标源上的电平分布来估计p(SNR)。
当以各种SNR混合目标和背景时,根据每个频带b中参数的分布来估计的条件概率。生成该数据的程序涉及:使用分布采样器202、209,分别从目标源和背景的数据库201、208通过从其已知或假设的空间分布和电平分布中采样来生成许多数据样本。变换203、210利用样本性质创建STFT域值。
回顾一下,目标源被假设为具有特定的平移参数,因此,此处描述的训练程序明确指定希望稍后提取的目标源的平移参数。本文描述的示例实施例假设目标源具有Θ1=π/4,这对应于中心平移源。生成训练数据时,假设目标与背景之间存在如上所述的随机相位关系。实际上,这可以通过将一个相位值设置为零而将另一个相位值设置为单位圆上的各种样本来实施。
为了创建训练数据,由变换模块203、210输出的频域表示被加在一起(如图1的信号模型100中所示)以创建组合的频域表示。应该注意的是,在执行贝叶斯训练时,目标数据项和背景数据项的组合会非常大量,而这种非常大量的组合将具有相当少量的同等量化的目标背景比。
为了高效利用这一现实,训练过程单独针对以下各项创建均匀采样的数据集:目标背景SNR(0到37dB,尽管可以选择更大的范围)、目标与背景之间的相位差(0到2π)、背景Θ(0到π/2)、以及背景幅度(0到π)。对于此数据的所有可能组合,训练过程计算检测到的值并将它们分别存储在storeThetaHat、storePhiHat和storeUdBHat中。应该注意的是,这种计算仍未考虑目标和背景中的每一者上的特定空间分布和电平分布。它们只是从相关输入属性的所有潜在组合映射到检测到的Θ、和U的查找表。使用这些表将提高稍后训练过程的效率。
接下来,结合目标和背景的特定空间数据和电平数据。回顾一下,目标是获得 实际上,中的每个变量上的分布可以用量化的概率密度函数(pdf)来表示,并且SNR也可以被量化。在实施例中,对于幅值(0到π)使用51个量化级别,对于Θ(0到π/2)使用51个量化级别,对于U(示例范围为0至127dB)使用1dB增量,并且对于DNR(示例范围为-40dB至+60dB)使用1dB增量。给定这种量化,信息可以存储在大小如下的多维数组“storePopularity(流行度存储)”中:7个频带×101个经训练的SNR(-40到60)×51个Θ仓×51个仓×128个dB电平(例如,0到127)。然后,对于每个项,存储在数组中的值表示特定组合相对于数组中其他组合的概率(或类似地,“流行度”)。例如,数组元(4,49,26,26,90)表示对于频带4和+8dB DNR(第49个值)、检测到的π/4(第26个值)的Θ值、π/2(第26个值)的幅度值以及89dB(第90个值)的电平U,其“流行”程度。
为了获得训练过程穷尽性地(或通过采样)循环遍历目标和源的空间数据和电平数据的所有可能组合。此时,当在训练数据中观察到特定的SNR、相位差、背景Θ和背景时,使用先前存储在storeThetaHat、storePhiHat和storeUdBHat中的数据分别查找得到的Θ、和U,以减少训练计算。该查找也可以称为“参数检测”并且由图2的块204执行。重要的是,还使用如目标和背景上的空间分布值和电平分布值所指示的每个这种组合的流行度;这些流行度加权对storePopularity数组的影响,并在这样做时根据期望结合p(SNR)。通过循环遍历所有这种组合并记录它们的流行度,创建上述storePopularity数组。该数组可能是稀疏的或有噪声的,因此应使用本领域技术人员熟悉的技术对其进行平滑。示例技术是在表的一个或多个维度上进行平滑。
在此阶段,获得了贝叶斯分析所需的数据,但没有以所期望的查找表或函数格式提供。训练过程的最终步骤是从大小如下的storePopularity中的数据中获得可用的7个频带、101个经训练的SNR(-40到60)、51个Θ仓、51个仓、128个dB电平(例如,0到128)。要理解这与的对应关系,回顾一下,可以等同地表示为或等效地这五个指标与storePopularity中的指标相同。
这种重新索引或重新映射是由图2中的块205和206完成的。应该记住的是,所期望的不是一组单个值,而是在给定每个频带b的一些检测到的的情况下的一组SNR分布。为了保持表示大小的可控性,做出如何简洁地描述这些分布的决策;这样做的典型方式包括采用均值、中值或其他参数。考虑到设计该系统的实际应用的需要,在实施例中,使用每个SNR分布的第25和第50百分位数。
为了获得训练过程工作以执行重新索引(块205)和目标SNR选择(块206)。基本目标是组装和表征来自storePopularity的与频带b中的给定的检测到的三元组相对应的所有SNR数据。由于频带被视为独立的,因此相当于考虑目标是针对N个频带中的每个频带进行N个单独练习中的每一个以找到块205执行这个任务。该块循环遍历每个频带并且遍历以下变量的每个采样的分布电平:检测到的Θ、检测到的检测到的电平。对于每个这样的值,都会从storePopularity(其由所有SNR以及其在给定检测到的Θ、和U值的特定组合时的流行度构成)创建缓冲区。更具体地,缓冲区是storePopularity的子集,如下:storePopularitySmoothed(频带索引,(所有数据),Θ索引,索引,U索引)。下一个块206分析值的缓冲区,并且在实施例中,检测并记录经训练的SLF查找表(207)中的第25和第50百分位数值。具体地,这些值被记录在新的数组中,分别是percentile25SNRvalues(百分位数25SNR值)和percentile50SNRvalues(百分位数50SNR值),每个数组的索引都是(频带索引,检测到的Θ索引,检测到的索引,检测到的U索引),这即是为所寻求的表示。
由于训练数据的潜在稀疏性,从其计算百分位数SNR的一些缓冲区可能具有的数据点太少而无法从中产生可靠的百分位数SNR值。为了解决这个问题,可以使用两种示例技术,但也可以使用其他技术。一种技术是在计算百分位数SNR之前共享来自相邻频带、Θ值、值或U值的数据(优先于频带和U电平共享)。另一种技术是即使从稀疏数据也先计算百分位数SNR,然后如果它们看起来不稳定,则用来自相邻U值(或者如果需要,频带)的SNR值替换或平滑百分位数SNR值。
在此阶段,完成了重新索引并且描述了训练系统的应用。该系统具有重新索引的表,使得该表的索引表示Θ、和U的量化值、以及所讨论频带的索引b。为了使用这样的表来获得软掩码值,函数将输入Θ、和U值分别量化为51、51和128个级别。从检测到的Θ、和U值到其索引的转换是平凡(trivial)的,并且遵循在进行上述量化分布时使用的相同的量化。该函数访问表中与这些量化索引级别相对应的值(以及与所讨论的频率仓ω相对应的频带b的索引)。
应该注意的是,虽然percentile25SNRvalues和percentile50SNRvalues在这种情况下是从具有特定索引的表中获得的,但SNR值实际上可以由采用任意(不一定量化)的Θ、U和b值的更一般的函数给出。实际上,寻求从Θ、U和b获得软掩码值的函数不需要访问表来输出软掩码值。它可以通过使用对表中的值进行近似和/或插值的曲线或一般函数(包括经训练的神经网络)来直接计算软掩码值。通过检查图3(第25百分位数SNR系统的表示)可以容易看出,曲线可以拟合表中表示的数据。在使用表的实施例中,表被理解为不是用于获得软掩码值的限制性方法,而是用于这样做的推荐的高效方法。可以使用本领域技术人员熟悉的技术来构建函数(比如从最小二乘曲线拟合得到的函数)、或对该表进行近似或插值的神经网络。
图3是根据实施例的经过训练以提取平移源的SLF查找表的输入和输出的视觉描绘。更具体地,图3示出了针对如参考图2描述的中心平移目标源的经训练的第25百分位数四维(4D)SLF查找表的视觉表示。SLF查找表很大但也很重复。可以使用本领域技术人员熟悉的技术来减少在该表中存储信息(例如,熵编码)或者如上所述地将表中的信息转换为连续函数所需的查找时间和内存。
如上所述,图3中的视觉表示是4D的。四个输入变量是每个子图的左右Θ轴线和进出轴线、以及竖直(子带b)子图索引和水平(电平U)子图索引。应该注意的是,出于实际原因,水平子图维度(电平U)并未描绘存储在SLF查找表中的所有电平;这样做将需要128个左右子图,因为在表中的128dB范围内使用了1dB增量。实际上,更精细或更粗略的增量可以分别用于更高的精度或更高的查找效率。当查看图3时,应该注意的是,从左到右有很多“未显示”的子图。
SLF查找表的输出变量是在0与1之间(含端值)的软掩码值,并示出在每个子图的竖直轴线上。软掩码值表示对应输入STFT的应该传递到输出的分数。由于每个STFT片有一个(四维)输入,因此每个STFT片也有一个输出。应用SLF表/函数的结果是STFT大小的表示,该表示由0与1之间的值构成。
如上所述,可以使用由percentile25SNRvalues或percentile50SNRvalues生成的软掩码值,尽管也可以使用其他百分位数。一般来说,使用percentile25SNRvalues会得到在包括一些背景与在源估计中产生一些伪像之间取得平衡的源分离解决方案。使用percentile50SNRvalues可以得到伪像更少但背景更多的解决方案。软掩码参数的应用在图4的块404中示出。
在实施例中,使用本领域技术人员熟悉的技术在时间和频率上对软掩码值和/或信号值进行平滑。假设为4096点的FFT,可以使用相对于频率的平滑,该平滑使用平滑器[0.17 0.33 1.0 0.33 0.17]/总和([0.17 0.33 1.0 0.33 0.17])。对于更高或更低的FFT大小,应该对平滑范围和系数执行一些合理的缩放。假设1024个样本的跳跃大小,可以使用相对于时间的大约[0.1 0.55 1.0 0.55 0.1]/总和([0.1 0.55 1.0 0.55 0.1])的平滑器。如果跳跃大小或帧长度发生变化,则可以适当调整平滑。
示例应用
图4是根据实施例的用于使用SLF从双声道混合中检测并提取空间可识别子带音频源的系统400的框图。系统400包括变换401、参数计算器402、表查找403、软掩码应用器404和逆变换405。表查找403在数据库406上进行操作,该数据库存储如参考图2所描述的经过训练以检测平移源的SLF查找表。对于这种示例应用,假设要提取的目标源具有已知的平移参数,或者使用本领域技术人员已知的任何数量的技术来执行这种参数的检测。检测平移参数的一种示例技术是从Θ值的电平加权直方图中进行峰值拾取。
参考图4,变换401被应用于双声道输入信号(例如,立体声混合信号)。在实施例中,系统400使用STFT参数,包括窗口类型和跳跃大小,本领域技术人员已知这些参数对于源分离问题是相对最优的。然而,也可以使用其他STFT参数。根据STFT表示,参数计算器402计算每个倍频程子带b的参数的值。这些值被表查找403用来对存储在数据库406中的SLF查找表执行表查找。表查找生成针对每个STFT片或仓的百分位数SNR(例如,第25百分位数)。根据SNR,系统400计算STFT要作为贝叶斯估计输出的输入的分数。例如,如果所估计的百分位数SNR为0dB,则输入中通过的分数将为0.5或50%,因为估计目标源和背景具有相同的电平U。一般公式遵循维纳滤波器的假设,并且是:输入的分数=10^(SNR/20)/(10^(SNR/20)+1)。接下来,软掩码应用器404将每个声道的输入STFT乘以针对每个STFT片的0与1之间的分数值。逆变换405然后逆变STFT表示以获得表示所估计的目标源的双声道时域信号。
尽管前述示例实施例使用STFT时频表示(例如,片),但是还可以使用任何合适的时频表示。
尽管上面描述的示例源分离应用使用SLF查找表,但是其他实施例还可以使用SLF函数而不是查找表。
示例过程
图5是根据实施例的用于生成经过训练以提取平移源的SLF查找表的过程500的流程图。过程500可以由例如参考图7所描述的设备架构700来实施。
过程500开始于从子带中的目标源电平分布和空间分布获得样本的频域表示(501),从(多个)背景电平分布和空间分布获得样本的频域表示(502),并且将第一样本集与第二样本集相加以创建组合的样本集(503),如参考图2所描述的。
过程500继续进行:针对每个子带,检测组合的样本集中的每个样本的电平参数和空间参数(504),并且在每个子带内,将检测到的电平参数和空间参数通过其对于目标源和(多个)背景相应的电平分布和空间分布进行加权(505),如参考图2所描述的。
过程500继续进行:针对组合的样本集中的每个样本,将加权的电平参数和空间参数以及SNR连同子带存储在表中(506),如参考图2和图3所描述的。
过程500继续进行:重新索引所存储的参数和SNR,使得该表包括子带以及加权后的电平参数和空间参数的目标百分位数SNR,并且针对子带以及量化后的检测到的空间参数和电平参数的给定输入,可从表中获得子带以及与量化后的检测到的空间参数和电平参数相关联的所估计的SNR(507),如参考图2和图3所描述的。然后,将SLF查找表存储(在数据库中,以供源分离应用使用,比如参考图4和6所描述的)。
图6是根据实施例的使用经过训练以检测平移源的SLF从双声道混合中检测并提取空间可识别子带音频源的过程600的流程图。过程600可以由例如参考图7所描述的设备架构700来实施。
过程600可以开始于将双声道时域音频信号变换成包括时频片的频域表示,这些时频片具有多个频率仓,该多个频率仓被分组为子带(601)。例如,可以使用STFT创建双声道时域音频信号的每个声道的STFT表示。
过程600继续进行:针对每个时频片,生成该片中每个频率仓的百分位数SNR(603),基于频率仓的SNR生成用于该频率仓的分数值(604),以及将分数值应用于时频片中这些分数值相应的频率仓,以生成所估计的音频源的经修改的时频片(605),如参考图4所描述的。SLF查找表/函数经过训练以检测平移源,如参考图2和图5所描述的。上述分数值在本文中也被称为软掩码值,并且是在0与1之间(含端值)的实数,并且表示传递到输出的对应输入STFT的分数。应用SLF表/函数的结果是STFT大小的表示,该表示由0与1之间的值构成。在实施例中,使用本领域技术人员熟悉的技术在时间和频率上对软掩码值和/或SNR值进行平滑。
过程600可选地继续进行:将所估计的目标音频源的时频片逆变换成目标音频源的双声道时域估计(606),如参考图4所描述的。应该注意的是,一些实施例可以在频域中利用所估计的音频源的时频片,而其他实施例可以利用所估计的音频源的双声道时域估计。
示例设备架构
图7示出了根据实施例的用于实施参考图1至图6描述的系统和过程的设备架构700的框图。
设备架构700可以用在能够执行上述数学计算的任何计算机或电子设备中。
在所示的示例中,设备架构700包括一个或多个处理器701(例如,CPU、DSP芯片、ASIC)、一个或多个输入设备702(例如,键盘、鼠标、触摸表面)、一个或多个输出设备(例如,LED/LCD显示器)、存储器704(例如,RAM、ROM、闪速存储器)、以及耦接至扬声器706的音频子系统706(例如,媒体播放器、音频放大器以及支持电路)。这些部件中的每一个都耦接至一个或多个总线707(例如,系统、电源、外围设备等)。在实施例中,本文描述的特征和过程可以被实现为存储在存储器704或任何其他计算机可读介质中并且由一个或多个处理器701执行的软件指令。具有更多或更少部件的其他架构也是可能的,如使用软件和硬件的混合来实施此处描述的功能和过程的架构。
虽然本文档包含许多具体实施方式细节,但是这些细节不应被解释为对可能要求的事物的范围的限制,而是被解释为对可能特定于特定实施例的特征的描述。在单独的实施例的上下文中在本说明书中所描述的某些特征还可以按组合方式实施在单一实施例中。相反,在单一实施例的上下文中描述的各种特征也可以被单独地或以任何适合的子组合的方式实施在多个实施例中。此外,尽管特征在上文可以被描述为以某些组合起作用并且甚至最初如此声明,但是在一些情况下可以从组合中去除要求保护的组合的一个或多个特征,并且所要求保护的组合可以涉及子组合或子组合的变体。在附图中描绘的逻辑流程不需要所示出的特定顺序或者有序顺序来实现期望的结果。另外,可以从所描述的流程中提供其他步骤,或者可以删除步骤,并且可以向所描述的系统添加其他部件,或者从所描述的系统中去除其他部件。因此,其他实施方式在以下权利要求的范围内。
Claims (13)
1.一种方法,包括:
使用一个或多个处理器,从多个子频带中的多个目标源电平分布和空间分布获得第一样本集的频域表示;
使用所述一个或多个处理器,从所述多个子频带中的多个背景电平分布和空间分布获得第二样本集的频域表示;
使用所述一个或多个处理器将所述第一样本集与所述第二样本集相加以创建组合的样本集;
使用所述一个或多个处理器,针对所述多个子频带中的每个子带,检测所述组合的样本集中的每个样本的电平参数和空间参数;
在所述多个子频带中的每个子带内,将检测到的电平参数和空间参数通过其对于所述目标源和所述背景相应的电平分布和空间分布进行加权;
使用所述一个或多个处理器,将所述组合样本集中的每个样本在所述多个子频带内的加权后的电平参数、空间参数和信噪比(SNR)存储在表中;以及
使用所述一个或多个处理器,通过子带以及所述加权后的电平参数、空间参数对所述表重新索引,使得所述表包括子带以及所述加权后的电平参数和空间参数的目标百分位数SNR,并且针对子带以及量化后的检测到的空间参数和电平参数的给定输入,从所述表中获得与所述子带以及所述量化后的检测到的空间参数和电平参数相关联的所估计的SNR。
2.如权利要求1所述的方法,进一步包括:
平滑按所检测到的电平参数中的一个或多个、空间参数中的一个或多个或子频带索引的数据。
3.如权利要求1或2中任一项所述的方法,其中,所述频域表示是短时傅里叶变换(STFT)域表示。
4.如前述权利要求1至3中任一项所述的方法,其中,所述空间参数包括混合音频信号的两个声道之间的平移和相位差。
5.如前述权利要求1至4中任一项所述的方法,其中,使用恒幂定律对所述目标源进行振幅平移。
6.如前述权利要求1至5中任一项所述的方法,其中,所述目标百分位数SNR是第25百分位数。
7.一种方法,包括:
使用一个或多个处理器将双声道时域音频信号的一个或多个帧变换为包括多个时频片的时频域表示,其中,所述时频域表示的频域包括多个频率仓,所述多个频率仓被分组为多个子带;
针对每个时频片:
使用所述一个或多个处理器计算所述时频片的空间参数和电平;
使用所述一个或多个处理器,针对所述时频片中的每个频率仓,生成百分位数信噪比(SNR);
使用所述一个或多个处理器,基于所述仓的SNR生成用于所述仓的分数值;以及
使用所述一个或多个处理器,应用所述时频片的所述仓的所述分数值以生成所估计的音频源的经修改的时频片。
8.如权利要求7所述的方法,进一步包括:
使用所述一个或多个处理器将所述经修改的时频片变换成多个时域音频源信号。
9.如权利要求7或8所述的方法,其中,所述分数值是从针对平移目标源训练的空间电平滤波(SLF)系统的查找表或函数获得的。
10.如前述权利要求7至9中任一项所述的方法,其中,将双声道时域音频信号的一个或多个帧变换成频域信号包括将短时频率变换(STFT)应用于所述双声道时域音频信号。
11.如前述权利要求7至10中任一项所述的方法,其中,将多个频率仓分组为倍频程子带或近似倍频程子带。
12.一种装置,包括:
一个或多个处理器;
存储器,所述存储器存储指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行如权利要求1至11所述的前述方法中的任何一种方法。
13.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质具有存储在其上的指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行如权利要求1至11所述的前述方法中的任何一种方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063038046P | 2020-06-11 | 2020-06-11 | |
EP20179449 | 2020-06-11 | ||
EP20179449.2 | 2020-06-11 | ||
US63/038,046 | 2020-06-11 | ||
PCT/US2021/037034 WO2021252912A1 (en) | 2020-06-11 | 2021-06-11 | Separation of panned sources from generalized stereo backgrounds using minimal training |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115699171A true CN115699171A (zh) | 2023-02-03 |
Family
ID=76662560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180041971.9A Pending CN115699171A (zh) | 2020-06-11 | 2021-06-11 | 使用最少的训练分离一般化立体声背景与平移源 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230245664A1 (zh) |
EP (1) | EP4165634A1 (zh) |
JP (1) | JP2023529195A (zh) |
KR (1) | KR20230008815A (zh) |
CN (1) | CN115699171A (zh) |
BR (1) | BR112022025209A2 (zh) |
WO (1) | WO2021252912A1 (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6764028B2 (ja) * | 2017-07-19 | 2020-09-30 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
-
2021
- 2021-06-11 JP JP2022575892A patent/JP2023529195A/ja active Pending
- 2021-06-11 BR BR112022025209A patent/BR112022025209A2/pt unknown
- 2021-06-11 CN CN202180041971.9A patent/CN115699171A/zh active Pending
- 2021-06-11 US US18/009,651 patent/US20230245664A1/en active Pending
- 2021-06-11 KR KR1020227042988A patent/KR20230008815A/ko not_active Application Discontinuation
- 2021-06-11 WO PCT/US2021/037034 patent/WO2021252912A1/en unknown
- 2021-06-11 EP EP21735829.0A patent/EP4165634A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021252912A1 (en) | 2021-12-16 |
US20230245664A1 (en) | 2023-08-03 |
EP4165634A1 (en) | 2023-04-19 |
KR20230008815A (ko) | 2023-01-16 |
BR112022025209A2 (pt) | 2023-01-03 |
JP2023529195A (ja) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Plumbley et al. | Sparse representations in audio and music: from coding to source separation | |
Grais et al. | Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
Févotte et al. | Sparse linear regression with structured priors and application to denoising of musical audio | |
RU2630370C9 (ru) | Способы управления межканальной когерентностью звуковых сигналов, подвергнутых повышающему микшированию | |
CN111508508A (zh) | 一种超分辨率音频生成方法及设备 | |
CN103999076A (zh) | 包括将声音信号变换成频率调频域的处理声音信号的系统和方法 | |
CN105190747A (zh) | 用于空间音频对象编码中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法 | |
AU2015226480B2 (en) | Concept for encoding of information | |
EP2940687A1 (en) | Methods and systems for processing and mixing signals using signal decomposition | |
CN104217714A (zh) | 使用音频信号的固定分区大小卷积的声音合成 | |
Perez‐Gonzalez et al. | Automatic mixing | |
US20230245671A1 (en) | Methods, apparatus, and systems for detection and extraction of spatially-identifiable subband audio sources | |
Şimşekli et al. | Non-negative tensor factorization models for Bayesian audio processing | |
Götz et al. | Online reverberation time and clarity estimation in dynamic acoustic conditions | |
Derrien et al. | Parametric audio coding with exponentially damped sinusoids | |
Shi et al. | Is CQT more suitable for monaural speech separation than STFT? An empirical study | |
Giacobello et al. | High-order sparse linear predictors for audio processing | |
Chen et al. | A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation | |
WO2023226572A1 (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
Wells | Modal decompositions of impulse responses for parametric interaction | |
Sturm et al. | Analysis, visualization, and transformation of audio signals using dictionary-based methods | |
Giannoulis et al. | On the disjointess of sources in music using different time-frequency representations | |
Müller | Short-time fourier transform and chroma features | |
CN115699171A (zh) | 使用最少的训练分离一般化立体声背景与平移源 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |