CN105989851B - 音频源分离 - Google Patents
音频源分离 Download PDFInfo
- Publication number
- CN105989851B CN105989851B CN201510082792.6A CN201510082792A CN105989851B CN 105989851 B CN105989851 B CN 105989851B CN 201510082792 A CN201510082792 A CN 201510082792A CN 105989851 B CN105989851 B CN 105989851B
- Authority
- CN
- China
- Prior art keywords
- audio
- parameters
- audio source
- parameter
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 37
- 238000000034 method Methods 0.000 claims abstract description 109
- 230000003595 spectral effect Effects 0.000 claims description 133
- 239000011159 matrix material Substances 0.000 claims description 132
- 238000001228 spectrum Methods 0.000 claims description 118
- 238000012804 iterative process Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 46
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000002156 mixing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 abstract description 14
- 239000000654 additive Substances 0.000 description 57
- 230000000996 additive effect Effects 0.000 description 57
- 230000003044 adaptive effect Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 29
- 238000012545 processing Methods 0.000 description 17
- 239000000203 mixture Substances 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000008901 benefit Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000007670 refining Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005204 segregation Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
Abstract
公开了一种从音频内容中分离音频源的方法。该方法包括基于音频内容中要被分离的音频源的线性组合特性和音频内容中要被分离的两个或更多音频源之间的正交特性,确定音频源的空间参数。该方法还包括基于空间参数,从音频内容中分离音频源。还公开了相应的系统和计算机程序产品。
Description
技术领域
本文中所公开的示例实施例总体上涉及音频内容处理,更具体地,涉及从音频内容中分离音频源的方法和系统。
背景技术
多声道格式(诸如立体声、环绕5.1、环绕7.1等)的音频内容是通过在工作室中混音不同音频信号来创建的、或者通过在真实环境中同时录制声学信号而生成的。经过混音的音频信号或内容可以包括多个不同的源。源分离是用于标识这些源中的每个源的信息的一种任务,以便例如通过单声道信号和包括空间信息、频谱信息等的元数据来重新构建音频内容。
当使用一个或多个麦克风录制声学场景时,期望基于音频源的信息被分离,从而它可以适用于随后的各种音频处理任务。如本文中所使用的,术语“音频源”指的是在音频内容中存在一定时间期间的个体音频元素。音频源可以是动态的或静态的。例如,音频源可以是人、动物或声场中的任何其他声源。音频处理任务的一些示例可以包括空间音频编码、重混音/重创作、3D声音分析和合成、和/或出于各种目的(例如,自动语音识别)的信号增强/噪声抑制。因此,通过成功的音频源分离可以实现提升的广泛用途和更好的性能。
当没有可用的采集过程中的音频源的先验信息(例如,录制设备的属性、房间的声学属性等)时,该分离过程可以被称为盲源分离(blind source separation,BSS)。盲源分离与各种应用领域相关,例如,具有多个麦克风的语音增强、多声道通信中的串音移除、多路径声道识别和均衡、传感器阵列中的到达方向(DOA)估计、针对音频和无源声呐的波束成形麦克风的提升、音乐重编辑、转录、基于对象的编码等等。
在本领域中需要用于在没有先验信息的情况下从音频内容中分离音频源的技术方案。
发明内容
为了解决前述和其他潜在的问题,本文中所公开的示例实施例提出一种从音频内容中分离音频源的方法和系统。
在一个方面,本文中所公开的示例实施例提供一种从音频内容中分离音频源的方法。该方法包括基于音频内容中要被分离的音频源的线性组合特性和音频内容中要被分离的两个或更多音频源之间的正交特性,确定音频源的空间参数。该方法还包括基于空间参数,从音频内容中分离音频源。这方面的实施例还包括相应的计算机程序产品。
在另一方面,本文中所公开的示例实施例提供一种从音频内容中分离音频源的系统。该系统包括联合确定单元,被配置为基于音频内容中要被分离的音频源的线性组合特性和音频内容中要被分离的两个或更多音频源之间的正交特性,来确定音频源的空间参数。该系统还包括音频源分离单元,被配置为基于空间参数,来从音频内容中分离音频源。
通过下文描述将会理解,根据本文中所公开的实施例,可以基于音频内容中要被分离的一个音频源的线性组合特性和音频内容中要被分离的两个或更多音频源的正交特性,来联合地确定用于音频源分离的音频源的空间参数,从而获得感知上自然的音频源、同时实现稳定和快速的收敛。本文中所公开的实施例所带来的其他益处将通过下文描述而清楚。
附图说明
通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其中:
图1示出了根据本文中所公开的一个示例实施例的从音频内容中分离音频源的方法的流程图;
图2示出了根据本文中所公开的一个示例实施例的用于空间参数确定的架构的框图;
图3示出了根据本文中所公开的一个示例实施例的音频源分离的系统的框图;
图4示出了根据本文中所公开的一个示例实施例的用于以迭代过程确定参数的伪代码的示意图;
图5示出了根据本文中所公开的一个示例实施例的用于以另一个迭代过程确定参数的另一个伪代码的示意图;
图6示出了根据本文中所公开的一个示例实施例的用于空间参数确定的过程的流程图;
图7示出了根据本文中所公开的一个示例实施例的在源参数的联合确定时的信号流的示意图;
图8示出了根据本文中所公开的另一个示例实施例的用于空间参数确定的另一个过程的流程图;
图9示出了根据本文中所公开的另一个示例实施例的在源参数的联合确定时的信号流的示意图;
图10示出了根据本文中所公开的又一个示例实施例的用于空间参数确定的另一个过程的流程图;
图11示出了根据本文中所公开的一个示例实施例的用于在图3的系统中使用的联合确定器的框图;
图12示出了根据本文中所公开的又一个示例实施例的在源参数的联合确定时的信号流的示意图;
图13示出了根据本文中所公开的一个示例实施例的用于正交控制的方法的流程图;
图14示出了根据本文中所公开的一个示例实施例的用于以迭代过程确定参数的又一个伪代码的示意图;
图15示出了根据本文中所公开的另一个示例实施例的音频源分离的系统的框图;
图16示出了根据本文中所公开的一个示例实施例的音频源分离的系统的框图;
图17示出了适于实现本文中所公开的示例实施例的示例计算机系统的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
如以上所提及的,期望的是在没有先验知识的情况下从传统的基于声道格式的音频内容中分离音频源。已经产生了许多音频源建模的技术用于解决这个音频源分离的问题。一种典型类别的技术基于音频内容中的音频源的正交假设。也就是说,被包含在音频内容中的音频源被假设为是独立或非相关的。基于独立/非相关音频源建模技术的一些典型方法包括自适应去相关方法、主成分分析(Primary Component Analysis,PCA)、和独立成分分析(Independent Component Analysis,ICA)等等。另一种典型类型的技术基于音频内容中的目标音频源的线性组合的假设。它允许在音频源在频域的频谱成分在时域中的活跃性的基础上这些频谱成分的线性组合。典型的加性源建模方法是非负矩阵分解(NMF),其在有意义的频谱成分的线性组合的基础上允许两个维度的非负成分(频谱成分和时间成分)的表示。
上述典型的类型(即正交假设和线性组合特性)在音频处理应用中(例如,重编辑实际的电影内容、分离在真实环境中的录制)具有各自的优势和缺陷。
例如,独立/非相关的源模型可以在计算时具有稳定的收敛。然而,这些模型的音频源输出通常听起来在感知上不自然,并且有时候结果是无意义的。原因在于这些模型不充分拟合真实声学场景。例如,PCA模型由D=V-1CXV来构建,具有对角矩阵D、正交矩阵V和表示输入音频信号的协方差矩阵CX。这个最小二乘法/高斯(Gaussian)模型对于声音而言可能是反直觉(counter-intuitive)的,并且有时候因为交叉消除的使用而给出了无意义的结果。
与独立/非相关的源模型相比,基于线性组合假设的源模型(也被称为加性源模型)具有生成感知上更愉悦的声音的优点。这可能是因为这些模型涉及采取更感知的分析,因为真实的声音更接近于加性模型。然而,加性源模型具有不确定性(indeterminacy)问题。这些模型通常可能仅确保收敛到目标函数的稳定点,因此它们对参数初始化非常敏感。对于原始的源信息可用于初始化的常规系统而言,加性源模型可能足够用于以合理的收敛速度来恢复这些源。这对于大多数现实应用而言是不具实用性的,因为通常不可获得初始化信息。特别地,对于高度不静止和变化的源,在加性源模型中可能无法实现收敛。
应当理解到,对于加性源模型的一些应用,可以使用训练数据。然而,采用训练数据在实践中可能造成困难,因为从训练数据中学习到的用于音频源的加性模型在实际使用情况下表现很差。这通常是因为这些加性模型与在混音时的音频源的实际属性之间的不匹配。在没有适当匹配的初始化的情况下,这种方案可能不是有效的并且实际上可能生成彼此高度相关的源,这可能导致估计的不稳定性或者甚至偏离。因此,对于许多实际的应用场景,加性建模方法、诸如NMF可能不足以获得稳定和满意的收敛。
此外,置换的不确定性对于独立/非相关源建模方法和加性源建模方法两者而言都是待解决的常见问题。独立/非相关源建模方法可以被应用在每个频段中,产生每个频段的一组源子频带估计。然而,难以标识属于每个已经分离的音频源的子频带估计。类似地,对于加性源建模方法、诸如获得频谱成分因数的NMF,难以知道哪些频谱成分属于哪个已经分离的音频源。
为了提升从基于声道的音频内容的音频源分离的性能,本文中所公开的示例实施例提供了一种通过联合地利用加性源建模和独立/非相关源建模两者的优势的用于音频源分离的技术方案。示例实施例的一种可能的优势可以包括获得感知上自然的音频源、同时实现稳定和快速的收敛。这种技术方案可以被用在需要分离音频源用于混音信号处理和分析的任何应用领域中,这些处理和分析诸如基于对象的编码、电影和音乐重编辑、到达方向(DOA)估计、多声道通信中的串音移除、语音增强、多路径声道标识和均衡等等。
相较于那些常规的技术方案,所提出的技术方案的一些优势可以总结如下:
1)可以克服加性源建模方法的估计不稳定性或者偏离的问题。如以上所讨论的,加性源建模方法、诸如NMF在许多实际应用情况下不足以获得稳定和满意的收敛性能。然而,所提出的联合确定技术方案利用了嵌入在独立/非相关源模型中的另外的原则。
2)对于加性源建模的参数初始化可以变得不重要。因为所提出的联合确定技术方案结合了独立/非相关调整,可以实现快速收敛,其不再根据不同的参数初始化而显著地变化;同时,最后的结果可能不再强烈取决于参数初始化。
3)所提出的联合确定技术方案可以在具有或者不具有训练过程和可靠的初始化的情况下,实现以稳定的收敛来处理高度不静止的源,包括快速移动的对象、时间变化的声音。
4)所提出的联合确定技术方案与独立/非相关模型相比较,通过利用了采取感知分析的方法,可以获得对于音频内容的更好的统计拟合,因此它产生更好的声音和更有意义的输出。
5)所提出的联合确定技术方案在多个模型的加和可以等于多个声音的加和的模型这个意义上,具有相对于独立/非相关模型的阶乘方法。因此,它允许广泛使用在各种应用场景中,诸如“目标”和/或“噪声”模型的灵活学习、轻松增加时间温度的约束/限制、应用空间引导、用户引导、时频引导等等。
6)所提出的联合确定技术方案可以绕开存在于加性建模方法和独立/非相关建模方法中的置换问题。它一定程度上减少了在独立准则、诸如频率置换中的不确定性的本质,在加性成分之间的不确定性和由常规的源建模方法引入的自由度。
以下给出所提出的技术方案的详细描述。
首先参照图1,其描绘了根据所公开的一个示例实施例的从音频内容中分离音频源的方法100的流程图。
在S101,基于音频内容中要被分离的音频源的线性组合特性和音频内容中要被分离的两个或更多音频源之间的正交特性,联合地确定音频源的空间参数。
要被处理的音频内容可以例如是传统的多声道音频内容,并且可以以时频域表示。时频域表示以描述多个频带的多个子频带信号来表示音频内容。例如,可以以短时傅里叶变换(STFT)域来处理I声道输入信号xi(t),其中(i=1,2,...,I,t=1,2,...T),获得Xf,n=[x1,f,n,...,xI,f,n]。除非在本文中另外地具体指明,i表示声道的索引,并且I表示音频内容中声道的数目;f表示频段索引,并且F表示频段的总数目;并且n表示时间帧索引,并且N表示时间帧的总数目。
在一个示例实施例中,通过混音模型来建模音频内容,其中音频源通过各自的混音参数而被混音在音频内容中。除了音频源之外的其余信号是噪声。音频内容的混音模型可以以矩阵形式被表示为:
Xf,n=Af,nsf,n+bf,n (1)
其中sf,n=[s1,f,n,...,sJ,f,n]表示要被分离的J个音频源的矩阵,Af,n=[aij,fn]ij表示音频源在I个声道中的混音参数矩阵(也被称为空间参数矩阵),并且bf,n=[b1,f,n,...,bI,f,n]表示加性噪声。除非在本文中另外地具体指明,j表示音频源的索引,J表示要被分离的音频源的数目。注意到,在一些情况中,在建模音频内容时,噪声信号可以被忽略。也就是说,在公式(1)中,bf,n可以被忽略。
在建模音频内容时,要被分离的音频源的数目可以是预定的。该预定数目可以是任何数值,并且可以基于用户的经验或者对音频内容的分析而设置。在一个示例实施例中,可以基于音频内容的类型来配置该预定数目。在另一个示例实施例中,该预定数目可以大于1。
给定以上混音模型,音频源分离的问题可以被解读为已知输入音频内容Xf,n,如何确定未知的音频源的空间参数Af,n,其可能是基于频率的并且可能是时间变化的。在一个示例实施例中,可以引入逆转Af,n的逆混音矩阵Df,n,以便经由例如维纳(Wiener)滤波而直接获得经过分离的音频源,并且然后获得音频源的估计其可以被确定如下:
由于噪声信号有时候可以被忽略或者可以基于输入音频内容来估计,在音频源分离时的一个重要任务是估计空间参数矩阵Af,n。
在本文中所公开的示例实施例中,可以利用加性源建模和独立/非相关源建模两者来估计要被分离的目标音频源的空间参数。如以上所提及的,加性源建模是基于目标音频源的线性组合特性,其可以产生感知上自然的声音。独立/非相关源建模基于要被分离的多个音频源的正交特性,其可以产生稳定和快速的收敛。就此而言,通过基于这两个特性而联合地确定空间参数,可以获得感知上自然的音频源,通过实现稳定和快速的收敛。
所讨论的目标音频源的线性组合特性和要被分离的多个音频源(包括目标音频源)的正交特性可以在确定目标音频源的空间参数时被联合地考虑。在一些示例实施例中,可以基于线性组合特性或正交特性之一来确定目标音频源的功率谱参数。然后,可以基于另一个未被选择的特性(例如,线性组合特性或正交特性)来更新该功率谱参数。基于经过更新的功率谱参数,可以确定目标音频源的空间参数。
在一个示例实施例中,可以首先使用加性源模型。如以上所提及的,加性源模型基于目标音频源的线性组合的假设。可以使用加性源建模中一些已知的处理算法来获得音频源的参数,诸如功率谱参数。然后,可以使用独立/非相关源模型来更新在加性源模型中获得的音频源参数。在独立/非相关源模型中,两个或更多音频源、包括目标音频源可以被认为是统计上彼此独立或不相关的、并且具有正交属性。可以使用独立/非相关源建模中的一些已知的处理算法。在另一个示例实施例中,可以首先使用独立/非相关源模型来确定音频源参数,并且然后可以使用加性源模型来更新音频源参数。
在一些示例实施例中,联合确定可以是个迭代过程。也就是说,上述确定和更新的过程可以迭代地被执行,以便获得用于音频源的适当空间参数。例如,可以使用期望最大化(expectation maximization,EM)迭代过程来获得空间参数。EM过程的每次迭代可以包括期望步骤(E步骤)和最大化步骤(M步骤)。
为了避免不同的源参数的混淆,以下给出一些用语的定义:
●主参数:要被估计并且输出用于描述和/或恢复音频源的参数,包括音频源的空间参数和频谱参数;
●中间参数:被计算以用于确定主参数的参数,包括但不限于音频源的功率谱参数、输入音频内容的协方差矩阵、音频源的协方差矩阵(covariance matrix)、输入音频内容和音频源的互协方差矩阵(cross covariance matrix)、协方差矩阵的逆矩阵等。
源参数可以指的是主参数和中间参数两者。
在基于独立/非相关源模型和加性源模型两者的联合确定中,还可以通过加性源模型来约束正交程度。在一些示例实施例中,指示要被分离的音频源之间的正交属性的正交程度控制可以被设置用于空间参数的联合确定。因此,基于空间参数,可以获得具有感知上自然的声音同时具有相对于其他音频源的适当的正交程度的音频源。如本文中所使用的,“适当的正交程度”被定义为通过控制联合的源分离而输出愉悦的声源而不管音频源之间的可接受的一定量的相关性,如以下所描述的。
可以理解到,对于要被分离的预订数目的音频源之中的每个音频源,可以据此获得相应的空间参数。
图2描绘了根据本文中所公开的一个示例实施例的用于空间参数确定的架构200的框图。在架构200中,加性源模型201可以用于基于音频源各自的线性组合特性来估计音频源的中间参数,诸如功率谱参数。独立/非相关源模型202可以用于基于正交特性来更新音频源的中间参数。空间参数联合确定器203可以首先调用模型201和202中的一个模型来估计要被分离的音频源的中间参数,并且然后调用另一个模型来更新中间参数。空间参数联合确定器203然后可以基于经过更新的中间参数来确定空间参数。估计和更新的处理可以是迭代的。正交程度控制也可以被提供给空间参数联合确定器203,以便控制要被分离的音频源之间的正交属性。
空间参数的确定的描述将在以下详细描述。
如图1中所指示的,方法100行进至S102,其中基于空间参数,从音频内容中分离出音频源。
因为确定了空间参数,对应的目标音频源可以从音频内容中被分离出来。例如,在混音建模中,音频源信号可以根据公式(2)而获得。
现在参照图3,其描绘了根据本文中所公开的一个示例实施例的音频源分离的系统300的框图。本文中所提出的音频源分离的方法可以在系统300中被实施。系统300可以被配置为接收以时频域表示的输入音频信号Xf,n以及一组源设置。该组源设置可以包括例如预定的源数目、音频源的移动性、音频源的稳定性、音频源混音的类型等中的一个或多个。系统300可以处理音频内容,包括估计空间参数,并且然后输出经过分离的音频源sf,n和它们对应的参数,包括空间参数Af,n。
系统300可以包括源参数初始化单元301,被配置为初始化源参数,包括空间参数、要被用于协助确定空间参数的频谱参数和音频内容的协方差矩阵、噪声信号。初始化可以基于输入音频内容的源设置。正交程度设置单元302可以被配置为设置用于空间参数的联合确定的正交程度。系统300包括联合确定器303,其被配置为基于线性组合特性和正交特性两者来确定音频源的空间参数。在联合确定器303中,第一中间参数确定单元3031可以被配置为基于加性源模型或独立/非相关源模型来估计音频源的中间参数,诸如功率谱参数。被包括在联合确定器303中的第二中间参数确定单元3032可以被配置为基于与第一确定单元3031不同的模型来精细化(refine)在第一确定单元3031中估计的中间参数。然后,空间参数确定单元3033可以将经过精细化的中间参数作为输入,并且确定要被分离的音频源的空间参数。确定单元3031、3032和3033可以例如以EM迭代过程来迭代地确定源参数,以便获得用于音频源分离的适当空间参数。音频源分离器304被包括在系统300中并且被配置为基于从联合确定器303获得的空间参数,从输入音频内容中分离音频源。
图3中示出的系统300的模块的功能将在以下更详细地描述。
源设置
在一些示例实施例中,空间参数确定可以基于源设置。源设置可以包括例如预定的源数目、音频源的移动性、音频源的稳定性、音频源混音的类型等中的一个或多个。可以通过用户输入或者通过音频内容的分析来获得源设置。
在一个示例实施例中,根据预定的源数目的知识,可以构建音频源的空间参数的初始化矩阵。预定的源数目还可以对空间参数确定的处理产生影响。例如,假设预定要从I声道的音频内容中分离出J个音频源,如果J>I,例如已知的信号(I个声道的音频信号)小于要估计的信号(J个音频源信号),那么可以以欠定模式(underdetermined mode)来处理空间参数确定。否则,随后的空间参数确定可以以超定模式(over-determined mode)来处理,例如已知的信号(I个声道的音频信号)大于要估计的信号(J个音频源信号)。
在一个示例实施例中,音频源的移动性(也被称为音频源移动性)可以用于设置音频源是移动的或者是静止的。如果要分离移动的源,它的空间参数可以被估计为是时间变化的。这个设置可以决定音频源的空间参数Af,n是否可以随着时间帧n而变化。
在一个示例实施例中,音频源的稳定性(也被称为音频源稳定性)可以用于设置源参数、诸如被引入用于辅助确定空间参数的频谱参数在确定过程中是否调整或者保持固定。这个设置在具有确定的引导元数据的知情使用场景中、例如在音频源的某些先验知识、诸如音频源的位置已经被提供的时候是有用的。
在一个示例实施例中,音频源混音的类型可以用于设置音频源是否以瞬态方式、或者以卷积方式被混音。这个设置可以决定音频源的空间参数Af,n是否可以随着频段f而变化。
注意到,源设置不限于以上提及的示例,而是可以被扩展至许多其他设置,诸如空间引导的元数据、用户引导的元数据、时频引导的元数据等等。
源参数初始化
源参数初始化可以在联合空间参数确定的处理之前在系统300的源参数初始化单元301中被执行。
在一些示例实施例中,在空间参数确定的过程之前,可以以初始化值来设置空间参数Af,n。例如,空间参数Af,n可以以随机数据来初始化,并且可以通过利用∑i|aij,fn|2=1来归一化。
在空间参数确定的过程中,如以下将描述的,还会引入频谱参数作为主参数,以便确定空间参数。在一些示例实施例中,音频源的频谱参数可以通过非负矩阵分解(NMF)模型来建模。据此,音频源j的频谱参数可以被初始化为非负矩阵{Wj,Hj},在这些矩阵中所有元素都是非负的随机数值。是包含目标音频源的频谱成分作为列向量的非负矩阵,并且是具有行向量对应于每个频谱成分的时间活跃性的非负矩阵。除非在本文中另外地具体指明,K表示NMF成分的数目。
在一个示例实施例中,噪声信号bf,n的功率可以被初始化为与输入音频内容的功率成比例,并且它在一些示例中可以随着联合确定器301中的联合确定的迭代次数而减小。例如,噪声信号的功率可以被确定为:
Ab,f=|bf,n|2=(0.01·∑i∑n|xi,fn|2)/(N·I) (3)
在一些示例实施例中,作为中间参数,音频内容的协方差矩阵CX,f也可以在源参数初始化中被确定以用于后续处理。该协方差矩阵可以在STFT域中被计算。在一个示例实施例中,该协方差矩阵可以通过跨所有帧对输入音频内容取平均来计算:
其中上标H表示厄米特(Hermitian)共轭置换。
空间参数的联合确定
如以上所提及的,音频源的空间参数可以通过基于音频源的线性组合特性和正交特性来联合地确定。加性源模型可以用于基于线性组合特性来建模音频内容。一种典型的加性源模型可以是NMF模型。独立/非相关源模型可以用于基于正交特性来建模音频内容。一种典型的独立/非相关源模型可以是自适应去相关模型。空间参数的联合确定可以在系统300的联合确定器303中被执行。
在描述空间参数的联合确定之前,将在以下首先阐述NMF模型和自适应去相关模型中的一些示例计算。
利用NMF模型的源参数计算
在一个示例实施例中,NMF模型可以在要被分离的音频源的功率谱的基础上被应用。要被分离的音频源的功率谱矩阵可以被表示为其中是音频源j的功率谱,并且表示所有J个音频源的功率谱的汇总。频谱参数的形式{Wj,Hj}可以利用语义上有意义(可解译)的表示来建模音频源j。利用非负矩阵{Wj,Hj}形式的频谱参数,可以使用Itakura-Saito偏离、以NMF模型来估计功率谱
在第一迭代过程的每次迭代中,NMF矩阵Wj可以被更新为:
在第一迭代过程的每次迭代中,NMF矩阵Hj可以被更新为:
应当注意到,也可以应用用于NMF估计的其他已知的偏离方法,并且本文中的示例实施例的范围在此方面不受限制。
利用自适应去相关模型的源参数计算
如以上所提及的,音频源的功率谱通过 来确定。因此,可以确定音频源的协方差矩阵CS,fn,以便在自适应去相关模型中确定功率谱。基于音频内容中的音频源的正交特性,音频源的协方差矩阵CS,fn被认为是对角的。基于在公式(4)中表示的音频内容的协方差矩阵以及在公式(1)中表示的音频内容的混音模型,音频内容的协方差矩阵可以被重写为:
在一个示例实施例中,可以基于后向模型估计音频源的协方差矩阵,如以下所给出的:
估计的不准确性可以被认为是如下的估计误差:
空间参数Af,n的逆矩阵Df,n的估计可以被估计为如下:
注意到,在欠定条件(J≥I)下,可以应用公式(10),并且在超定条件(J<I)下,为了计算的有效性,可以应用公式(11)。
可以如下地通过减小估计误差或者通过最小化估计误差,来确定逆矩阵Df,n以及音频源的协方差矩阵CS,fn:
公式(12)表示待解决的最小乘方(LS)估计问题。在一个示例实施例中,可以在第二迭代过程中以如在图5中的伪代码2所图示的梯度递减算法来解决该问题。
在梯度递减算法中,协方差矩阵CX,fn和噪声信号的功率的估计Ab,f可以用作输入。在开始第二迭代过程之前,音频源的协方差矩阵的估计可以通过功率谱来初始化,该功率谱可以通过初始化的NMF矩阵{Wj,Hj}或者在以上描述的第一迭代过程中获得的NMF矩阵{Wj,Hj}来估计。逆矩阵也可以被初始化。
并且然后,
在公式(13)中,μ表示梯度递减方法的学习步长,并且ε表示用于避免以零相除的较小数值。表示Frobenius范数的平方,其包括所有矩阵条目的平方的总和,并且对于每个向量,等于该向量与自身的点乘积。||·||F表示Frobenius范数,其等于Frobenius范数的平方的开方跟。注意到,如在公式(13)中所给出的,期望通过功率(Frobenius范数的平方)来归一化梯度项,以便于度量梯度,从而给出针对不同频率的可比较的更新步长。
在另一个示例实施例中,通过忽略加性噪声,公式(13)可以被如下地简化:
可以理解的是,无论噪声信号是否被忽略,均可以通过公式(15)和(16)来分别地更新音频源的协方差矩阵和功率谱。然而,在一些其他情况中,在更新音频源的协方差矩阵和功率谱时,可以将噪声信号考虑在内。
在一些示例实施例中,第二迭代过程的迭代次数可以是预定的,例如,被预定为1至20次。在一些其他示例实施例中,第二迭代过程的迭代次数可以通过正交程度控制而被控制,这将在以下描述。
应当理解到,自适应去相关模型自身似乎是可能对于每个频率具有任意的置换。如以下关于联合确定过程所描述的,本文中所公开的示例实施解决了这个置换问题。
利用源设置和初始化的源参数,可以例如在EM迭代过程中联合地确定音频源的空间参数。以下将描述在EM迭代过程中的联合确定的一些实施方式。
第一示例实施方式
在第一示例实施方式中,为了确定音频源的空间参数,可以首先基于线性组合特性来确定音频源的功率谱,并且然后可以基于正交特性来更新音频源的功率谱。音频源的空间参数可以基于经过更新的功率谱来确定。
在系统300的示例实施例中,联合确定器303的第一中间参数确定单元3031可以被配置为基于加性源模型、诸如NMF模型来确定被包含在输入音频内容中的音频源的功率谱参数。联合确定器303的第二中间参数确定单元3032可以被配置为基于独立/非相关源模型、诸如自适应去相关模型来精细化功率谱参数。然后,空间参数确定单元3033可以被配置为基于经过更新的功率谱参数来确定音频源的空间参数。
在一些示例实施例中,空间参数的联合确定可以以期望最大化(EM)迭代过程来处理。EM迭代过程中的每次EM迭代可以包括期望步骤和最大化步骤。在期望步骤中,可以计算用于确定空间参数的中间参数的条件期望。而在最大化步骤中,用于描述和/或恢复音频源的主参数(包括音频源的空间参数和频谱参数)可以被更新。期望步骤和最大化步骤可以被迭代,以便用有限次数来确定音频源分离的空间参数,从而可以获得感知上自然的音频源同时实现EM迭代过程的稳定和快速收敛。
在第一示例实施方式中,对于EM迭代过程中的每次EM迭代,可以通过使用在之前的EM迭代(例如,上一次的EM迭代)中确定的音频源的频谱参数,来基于线性组合特性确定音频源的功率谱参数,并且可以基于正交特性来更新音频源的功率谱参数。在每次EM迭代中,可以基于经过更新的功率谱参数来更新音频源的空间参数和频谱参数。
将基于NMF模型和自适应去相关模型的上述描述来描述示例过程。参照图6,其描绘了根据本文中所公开的一个示例实施例的用于空间参数确定的过程600的流程图。
在S601,可以初始化用于该确定的源参数。在以上描述了源参数初始化。在一些示例实施例中,源参数初始化可以由系统300的源参数初始化单元301来执行。
对于期望步骤S602,可以在S6021处通过使用每个音频源j的频谱参数{Wj,Hj}、以NMF模型来确定音频源的功率谱以NMF模型对音频源的功率谱进行确定可以参看以上关于NMF模型的描述和图4中的伪代码1。例如,功率谱在第一次EM迭代中,每个音频源j的频谱参数{Wj,Hj}可以是来自S601的初始化的频谱参数。在后续EM迭代中,可以使用来自之前的EM迭代、例如来自之前的EM迭代的最大化步骤中的经过更新的频谱参数。
在子步骤S6022,可以通过使用在S6021获得的功率谱以及空间参数Afn,根据公式(10)或(11)来估计空间参数的逆矩阵在第一次EM迭代中,空间参数Afn可以是来自S601的初始化的空间参数。在后续EM迭代中,可以使用来自之前的EM迭代、例如来自之前的EM迭代的最大化步骤中的经过更新的空间参数。
在期望步骤S602的子步骤S6023,可以在自适应去相关模型中更新功率谱和空间参数的逆矩阵该更新可以参见以上关于自适应去相关模型和图5中示出的伪代码2的描述。在步骤S6023,逆矩阵可以用来自步骤S6022的逆矩阵来初始化,并且可以根据来自步骤S6021的功率谱来初始化音频源的协方差矩阵
在一些示例实施例中,可以通过使用来自期望步骤S602的功率谱基于图4中示出的第一迭代过程来更新频谱参数{Wj,Hj}。例如,可以通过公式(5)来更新频谱参数Wj,同时根据通过公式(6)来更新频谱参数Hj。
在S603之后,EM迭代过程然后可以返回S602,并且经过更新的空间参数Afn和频谱参数{Wj,Hj}可以用作S602的输入。
在一些示例实施例中,在开始下一次EM迭代过程之前,可以通过采用∑i|aij,fn|2=1和∑fwj,fk=1、并据此缩放hj,kn,来归一化空间参数Afn和频谱参数{Wj,Hj}。归一化可以消除琐碎的尺度不确定性。
EM迭代过程的次数可以是预定的,从而可以基于最终的空间参数来获得具有感知上自然的声音以及适当的相互正交程度的音频源。
图7示出了根据本文中所公开的第一实施方式的在源参数的联合确定时的信号流的示意图。为了简单,仅将具有两个音频源(鸣响源和语音源)的单声道混音信号图示为输入音频内容。
输入音频内容首先由系统300的第一中间参数确定单元3031在加性模型(例如,NMF模型)中处理,以确定鸣响源和语音源的功率谱。图7中描绘的频谱参数{WChime,F×K,HChime,F×N}和{WSpeech,F×K,HSpeech,F×K}可以表示所确定的功率谱,因为在NMF模型中,对于每个音频源j,它的功率谱由系统300的第二中间参数确定单元3032在独立/非相关模型(例如,自适应去相关模型)中更新功率谱。图7中描绘的协方差矩阵和可以表示经过更新的功率谱,因为在自适应去相关模型中经过更新的功率谱然后可以被提供至空间参数确定单元3033,以获得鸣响源和语音源的空间参数,AChime和ASpeech。空间参数然后可以被馈送回第一中间参数确定单元3031,以用于下一次迭代处理。迭代过程可以继续,直至达到某个收敛。
第二示例实施方式
在第二示例实施方式中,为了确定音频源的空间参数,可以首先基于正交特性来确定音频源的功率谱,并且然后可以基于线性组合特性来更新音频源的功率谱。音频源的空间参数可以基于经过更新的功率谱来确定。
在系统300的示例实施例中,联合确定器303的第一中间参数确定单元3031可以被配置为基于独立/非相关源模型、诸如自适应去相关模型来确定功率谱参数。联合确定器303的第二中间参数确定单元3032可以被配置为基于加性源模型、诸如NMF模型来精细化功率谱参数。然后,空间参数确定单元3033可以被配置为基于经过更新的功率谱参数来确定音频源的空间参数。
在一些示例实施例中,空间参数的联合确定可以以期望最大化(EM)迭代过程来处理。在每次迭代过程中,对于期望步骤,可以通过使用在之前的EM迭代(例如,上一次的EM迭代)中确定的空间参数和频谱参数,来基于正交特性确定音频源的功率谱参数,可以基于线性组合特性来更新音频源的功率谱参数,并且可以基于经过更新的功率谱参数来更新音频源的空间参数和频谱参数。
将基于NMF模型和自适应去相关模型的上述描述来描述示例过程。参照图8,其描绘了根据本文中所公开的另一个示例实施例的用于空间参数确定的过程800的流程图。
在S801,可以初始化用于该确定的源参数。在以上描述了源参数初始化。在一些示例实施例中,源参数初始化可以由系统300的源参数初始化单元301来执行。
对于期望步骤S802,可以在S8021处通过使用空间参数Afn和频谱参数{Wj,Hj},根据公式(10)或(11)来估计空间参数的逆矩阵频谱参数{Wj,Hj}可以用于计算在公式(10)或(11)中使用的音频源的功率谱在EM迭代过程的第一次EM迭代中,可以使用来自S801的初始化的空间参数和频谱参数。在后续EM迭代中,可以使用来自之前的EM迭代、例如来自之前的EM迭代的最大化步骤中的经过更新的空间参数和频谱参数。
在子步骤S6022,可以在自适应去相关模型中确定功率谱和空间参数的逆矩阵这个确定可以参见以上关于自适应去相关模型和图5中示出的伪代码2的描述。在期望步骤802中,逆矩阵可以用来自子步骤S8021的逆矩阵来初始化。在第一次EM迭代中,可以使用来自S801的频谱参数{Wj,Hj}的初始化值来初始化音频源的协方差矩阵在后续的EM迭代中,可以使用来自之前的EM迭代、例如来自之前的EM迭代的最大化步骤的经过更新的频谱参数{Wj,Hj}。
在子步骤S8023,可以在NMF模型中更新功率谱并且然后更新逆矩阵功率谱的更新可以参看以上关于NMF模型的描述和图4中的伪代码1。例如,可以使用频谱参数{Wj,Hj},在该步骤中更新来自步骤S8022的功率谱伪代码1中频谱参数{Wj,Hj}的初始化可以是来自S801的初始化的值,或者可以是来自之前的EM迭代、例如之前的迭代的最大化步骤的经过更新的数值。可以通过使用公式(10)或(11)在NMF模型中基于经过更新的功率谱来更新逆矩阵
对于最大化步骤S803,可以更新空间参数Afn和频谱参数{Wj,Hj}。可以基于来自期望步骤S802的协方差矩阵和互协方差矩阵根据公式(19)来更新空间参数。在一些示例实施例中,可以通过使用来自期望步骤S802的功率谱基于图4中示出的第一迭代过程来更新频谱参数{Wj,Hj}。例如,可以通过公式(5)来更新频谱参数Wj,同时根据通过公式(6)来更新频谱参数Hj。
在S803之后,EM迭代过程然后可以返回S802,并且经过更新的空间参数Afn和频谱参数{Wj,Hj}可以用作S802的输入。
在一些示例实施例中,在开始下一次EM迭代过程之前,可以通过采用∑i|aij,fn|2=1和∑fwj,fk=1、并据此缩放hj,kn,来归一化空间参数Afn和频谱参数{Wj,Hj}。归一化可以消除琐碎的尺度不确定性。
EM迭代过程的次数可以是预定的,从而可以基于最终的空间参数来获得具有感知上自然的声音以及适当的相互正交程度的音频源。
图9示出了根据本文中所公开的第二实施方式的在源参数的联合确定时的信号流的示意图。为了简单,仅解释说明具有两个音频源(鸣响源和语音源)的单声道混音信号作为输入音频内容的情况。
输入音频内容首先由系统300的第一中间参数确定单元3031在独立/非相关模型(例如,自适应去相关模型)中处理,以确定鸣响源和语音源的功率谱。图9中描绘的协方差矩阵和可以表示所确定的功率谱因为在自适应去相关模型中由系统300的第二中间参数确定单元3032在加性模型(例如,NMF模型)中更新功率谱。图9中描绘的频谱参数{WChime,F×K,HChime,K×N}和{WSpeech,F×K,HSpeech,F×K}可以表示经过更新的功率谱,因为在NMF模型中,对于每个音频源j,它的功率谱经过更新的功率谱然后可以被提供至空间参数确定单元3033,以获得鸣响源和语音源的空间参数,AChime和ASpeech。空间参数然后可以被馈送回第一中间参数确定单元3031,以用于下一次迭代处理。迭代过程可以继续,直至达到某个收敛。
第三示例实施方式
在第三示例实施方式中,为了确定音频源的空间参数,可以首先利用正交特性并且然后利用线性组合特性。但是与第二示例实施方式的一些实施例不同,基于正交特性的功率谱的确定在EM迭代过程之外。也就是说,可以在EM迭代过程开始之前,通过使用空间参数和频谱参数的初始化值,来基于正交特性确定音频源的功率谱参数。然后在EM迭代过程中更新所确定的功率谱参。在EM迭代过程的每次EM迭代中,通过使用在之前的EM迭代(例如,上一次EM迭代)中确定的频谱参数,来基于线性组合特性更新音频源的功率谱参数,并且然后可以基于经过更新的功率谱参数来更新音频源的空间参数和频谱参数。
在第三示例实施例中,可以在EM迭代过程中使用NMF模型来更新空间参数。因为NMF模型对于初始化值很敏感,利用由自适应去相关模型确定的更合理的数值,NMF模型的结果对于音频源分离而言将会更好。
将基于NMF模型和自适应去相关模型的上述描述来描述示例过程。参照图10,其描绘了根据本文中所公开的又一个示例实施例的用于空间参数确定的过程1000的流程图。
在步骤S1001,在子步骤S10011可以初始化用于该确定的源参数。在以上描述了源参数初始化。在一些示例实施例中,源参数初始化可以由系统300的源参数初始化单元301来执行。
在子步骤S10012,可以通过使用初始化的频谱参数{Wj,Hj}和空间参数Afn,根据公式(10)或(11)来估计逆矩阵频谱参数{Wj,Hj}可以用于计算在公式(10)或(11)中使用的音频源的功率谱
在子步骤S10013,可以在自适应去相关模型中确定功率谱和空间参数的逆矩阵这个确定可以参见以上关于自适应去相关模型和图5中示出的伪代码2的描述。在伪代码2中,逆矩阵可以用在S10012确定的逆矩阵来初始化。在伪代码2中,可以使用来自S10011的频谱参数{Wj,Hj}的初始化值来初始化音频源的协方差矩阵
对于期望步骤S1002,可以在子步骤S10021处在NMF模型中更新功率谱功率谱的更新可以参看以上关于NMF模型的描述和图4中的伪代码1。伪代码1中频谱参数{Wj,Hj}的初始化可以是来自S10011的初始化的值,或者可以是来自之前的EM迭代、例如之前的迭代的最大化步骤的经过更新的数值。
在子步骤S10022,通过使用在S10021获得的功率谱和空间参数Afn,根据公式(10)或(11)来更新逆矩阵在第一次迭代中,可以使用空间参数的初始化值。在后续的迭代中,可以使用来自之前的EM迭代、例如来自之前的迭代的最大化步骤的空间参数的经过更新的数值。
对于最大化步骤S1003,可以更新空间参数Afn和频谱参数{Wj,Hj}。可以基于来自期望步骤S1002的协方差矩阵和互协方差矩阵根据公式(19)来更新空间参数。在一些示例实施例中,可以通过使用来自期望步骤S802的功率谱基于图4中示出的第一迭代过程来更新频谱参数{Wj,Hj}。例如,可以通过公式(5)来更新频谱参数Wj,同时根据通过公式(6)来更新频谱参数Hj。
在S1003之后,EM迭代过程然后可以返回S1002,并且在S1003中获得的空间参数Afn和频谱参数{Wj,Hj}可以用作S1002的输入。
在一些示例实施例中,在开始下一次EM迭代过程之前,可以通过采用∑i|aij,fn|2=1和∑fwj,fk=1、并据此缩放hj,kn,来归一化空间参数Afn和频谱参数{Wj,Hj}。归一化可以消除琐碎尺度的不确定性。
EM迭代过程的次数可以是预定的,从而可以基于最终的空间参数来获得具有感知上自然的声音以及适当的相互正交程度的音频源。
图11示出了根据本文中所公开的一个示例实施例的用于在图3的系统中使用的联合确定器303的框图。图11中描绘的联合确定器303可以被配置为执行图10的过程。如图11中所描绘的,第一中间参数确定单元3031可以被配置为在EM迭代过程之外确定中间参数。具体地,第一中间参数确定单元3031可以用于执行以上所描述的步骤S10012和S10013。为了在加性模型、例如NMF模型中更新中间参数,第二中间参数确定单元3032可以被配置为执行期望步骤S1002,并且空间参数确定单元3033可以被配置为执行最大化步骤S1003。确定单元3033的输出可以被提供给确定单元3032作为输入。
图12示出了根据本文中所公开的第三实施方式的在源参数的联合确定时的信号流的示意图。为了简单,仅将具有两个音频源(鸣响源和语音源)的单声道混音信号图示为输入音频内容。
输入音频内容首先由系统300的第一中间参数确定单元3031在独立/非相关模型(例如,自适应去相关模型)中处理,以确定鸣响源和语音源的功率谱。图12中描绘的协方差矩阵和可以表示所确定的功率谱因为在自适应去相关模型中由系统300的第二中间参数确定单元3032在加性模型(例如,NMF模型)中更新功率谱。图12中描绘的频谱参数{WChime,F×K,HChime,K×N}和{WSpeech,F×K,HSpeech,F×K}可以表示经过更新的功率谱,因为在NMF模型中,对于每个音频源j,它的功率谱经过更新的功率谱然后可以被提供至空间参数确定单元3033,以获得鸣响源和语音源的空间参数,AChime和ASpeech。空间参数然后可以被馈送回第二中间参数确定单元3032,以用于下一次迭代处理。确定单元3032和3033的迭代过程可以继续,直至达到某个收敛。
正交程度的控制
如以上所提及的,可以将要被分离的音频源的正交控制到适当的程度,从而可以获得愉悦的声源。正交程度的控制可以被结合在上述第一、第二和第三实施方式中的一个或多个实施方式中,并且可以例如由图3中的正交程度设置单元302来执行。
不具有适当的正交约束的NMF模型有时候不足够,因为不同音频源的类似的频谱模式的同时形成是有可能的。因此,难以保证一个音频源在音频源分离之后与另一个音频源是独立/非相关的。这可能导致不良的收敛性能并且在某些情况下甚至是偏离。特别地,当“音频源移动性”被设置用于估计快速移动的音频源时,空间参数可以是时间变化的,并且因此空间参数Afn可能需要逐帧地估计。如公式(19)给出的,通过计算来估计Afn,其中包括了音频源的协方差矩阵的逆。源之间的高相关性可能导致不良的逆,从而将导致估计时间变化的空间参数的不稳定性。这些问题可以通过引入对独立/非相关源模型的联合确定的正交约束来有效地解决。
另一方面,假设音频源/成分在统计上是不相关(例如,自适应去相关方法和PCA)或独立(例如,ICA)的独立/非相关源模型可以产生频谱上的卷曲,这可能降低感知上的质量。这些模型的一个缺点是源自于跨越时频平面的分散的不自然且间隔的时频(TF)段的可感知的瑕疵、诸如音乐噪声。相反,由NMF模型生成的音频源通常听起来更愉悦并且表现得较少生成这样的瑕疵。
因此,在联合确定中使用的加性源模型与独立/非相关模型之间的折衷,以便获得愉悦的声源而不管音频源之间的可接受的一定量的相关性。
在一些示例实施例中,在自适应去相关模型中执行的迭代过程,例如伪代码2示出的迭代过程可以被控制,以使得约束要被分离的音频源之间的正交。正交程度可以通过分析输入音频内容来控制。
图13描绘了根据本文中所公开的一个示例实施例的用于正交控制的方法1300的流程图。
在S1301,可以根据音频内容来确定音频内容的协方差矩阵。音频内容的协方差矩阵可以例如根据公式(4)来确定。
可以通过输入信号的偏差(bias)来度量输入音频内容的正交。输入信号的偏差可以指示输入音频内容有多接近“单位秩(unity-rank)”。例如,如果作为混音信号的音频内容是通过简单地平移单个音频源生成的,那么这个信号是“单位秩”。如果混音信号在每个声道中包括非相关的噪声或扩散信号,它可以具有秩I。如果混音信号包括单个对象源加上少量的非相关噪声,它也可以具有秩I,但是相反可能需要一个度量来描述这些信号“接近于单位秩”,通常而言,音频内容越接近单位秩,联合确定越确信/更少不确定地应用相对完全的独立/非相关约束。典型地,NMF模型可以处理非相关的噪声或扩散信号,而被认为在“接近于单位秩”的信号中满意地工作的独立/非相关模型易于引入对扩散信号的过校正,导致例如被感知为音乐噪声的分散的TF段。
用于指示“接近于单位秩”的程度的一个特征被称为音频内容的协方差矩阵CX,fn的纯度(purity)。因此,在该实施例中,音频内容的协方差矩阵CX,fn可以被计算,以用于控制要被分离的音频源之间的正交度。
在S1302,可以基于音频内容的协方差矩阵来确定正交阈值。
在一个示例实施例中,协方差矩阵CX,fn可以被归一化为特别地,协方差矩阵CX,fn的特征值λi(i=1,...,I)可以被归一化,从而所有特征值的总和等于1。可以例如通过确定特征值的平方的总和、例如通过被归一化的协方差矩阵的Frobenius范数 来确定协方差矩阵的纯度。在此,γ表示协方差矩阵CX,fn的纯度。
可以由纯度的下边界和上边界来获得正交阈值。在一些示例中,当所有特征值相等时,获得纯度的下边界,例如这指示了最扩散和不确定的情况。当一个特征值等于1且其他所有特征值是零时,获得纯度的上边界,例如γ=1,这指示了最简单和最确信的情况。的秩等于非零特征值的数目,因此说纯度特征可以反映能量在何种程度上不平等地在输入音频内容(混音信号)的潜在的成分之间,这是有道理的。
为了更好地度量正交阈值,名为输入音频内容的偏差的另一种度量可以进一步基于纯度来如下地计算:
偏差可以ΨX在0到1之间变化。ΨX=0意味着输入音频内容是完全扩散的,这进一步意味着应当在联合确定中应用较少的独立/非相关约束。ΨX=1意味着音频内容是单位秩,并且更接近于1的偏差ΨX意味着音频内容更接近于单位秩。在这些情况中,可以在联合确定中设置独立/非相关模型的更多次数的迭代。
方法1300然后行进至S1302,其中基于正交阈值来确定独立/非相关模型中的迭代过程的迭代次数。
正交阈值可以用于设置独立/非相关模型中的迭代过程(参见上述第二迭代过程以及图5中示出的伪代码2)的迭代次数,以控制正交程度。在一个示例实施例中,可以基于正交阈值来确定迭代次数的阈值,以便于控制迭代过程。在另一个示例实施例中,可以基于正交阈值来确定收敛阈值,以便控制迭代过程。独立/非相关模型中的迭代过程的收敛度可以被确定为:
在每次迭代中,如果收敛小于该阈值,迭代过程结束。
在又一个示例实施例中,两次连续迭代之间的差异阈值可以被设置用于迭代过程。两次连续迭代之间的差异可以被表示为:
如果前一次迭代与当前迭代的收敛度之间的差异小于该阈值,那么迭代过程结束。
在又一个示例实施例中,可以在迭代过程中考虑迭代次数阈值、收敛阈值和两次连续迭代之间的差异阈值中的两个或更多个。
图14描绘了根据本文中所公开的一个示例实施例的用于图5的迭代过程中的参数确定的伪代码3的示意图。在示例实施例中,可以基于正交阈值确定迭代次数iter_Gradient、收敛度量阈值thr_conv和两次连续迭代之间的差异阈值thr_conv_diff。所有这些参数可以用于引导独立/非相关模型中的迭代过程,以便控制正交程度。
在上述描述中,描述了用于音频源分离的空间参数的联合确定。联合确定可以在加性模型和独立/非相关模型的基础上来实施,从而可以基于最终的空间参数来获得感知上自然且具有适当的相互正交程度的音频源。
应当理解到,独立/非相关建模方法和加性建模方法两者均具有置换不确定性的问题。也就是说,对于独立/非相关建模方法,置换不确定性来自于对每个子频带的单独处理,这种不明确性假设了一个源的子频带的独立性。对于加性建模方法(例如,NMF),对应于全部物理实体的音频源的分离需要关于每个单独的源聚类NMF成分。NMF成分在频率上跨度,但是由于它们跨时间的固定频谱,NMF成分可能仅建模需要被进一步聚类的简单的音频对象/成分。
相反,在本文中所公开的示例实施例,诸如在图7、9和12中所描述的这些示例实施例,通过联合地估计源的空间参数和频谱参数、并且因此耦合频带来有利地解决了这个置换的不对准问题。这是基于如下的假设:源自于同一个声学源的成分共享类似的空间协方差属性,被称为对象源。基于空间系数之间的一致性,图3中所提出的系统可以用于将两个NMF成分和独立/非相关建模的时频段相关联,以便分离声学源。
在以上描述中,基于加性模型、例如NMF模型以及独立/非相关模型、例如自适应去相关模型来描述了空间参数的联合确定。
加性建模、诸如NMF建模的一个优点在于模型的总和可以等于音频声音的总和,诸如Wj,F×(K1+K2)·Hj,(K1+K2)×N=Wj,F×K1·Hj,K1×N+Wj,F×K2·Hj,K2×N。
如果输入音频内容被加性源模型建模为一组基本成分的总和,并且通过对该组基本成分进行分组来生成音频源,那么这些源可以被指示为“内部源”。如果一组音频源独立地由加性源模型建模,这些源可以被指示为“外部源”,诸如在以上EM算法中分离的音频源。本文中所公开的示例实施例提供的优势在于它们能够对以下各项均设置精细化或者约束:1)加性源模型(例如,NMF)和诸如独立/非相关模型的其他模型两者;以及2)不仅对内部源而且还可以对外部源进行精细化或约束,从而一个源可以被强制为与另一个源独立/非相关,或者具有可调节的正交程度。
因此,在本文中所公开的示例实施例中,可以获得具有感知上自然的声音以及适当的相互正交程度的音频源。
在本文中所公开的一些进一步的示例实施例中,为了更好地提取音频源,多声道的音频内容可以被分离为多声道的直达信号<Xf,n>direct和多声道的扩散信号<Xf,n>ambiance。如本文中所使用的,术语“直达信号”指的是由音频源生成的、给听者以所听到的源具有明显方向的印象的音频信号。术语“扩散信号”指的是给听者以所听到的源不具有显著的方向或者是由听者周围的大量方向传来的印象。通常,直达信号可能源自于在声道之间平移的多个直达对象源。扩散信号可能与直达声源的相关性较弱并且/或者可能在声道之间分布,诸如环境声、混响(reverberation)等。
因此,可以基于联合确定的空间参数,从直达音频信号中分离出音频源。在一个示例实施例中,可以使用如下的维纳滤波来构建多声道的音频源信号的时频域:
公式(23)中的参数Df,n在欠定条件下可以由公式(10)给出,并且在超定条件下可以由公式(11)给出。这样的维纳重建在以下方面是保守的:所提取的音频源信号和加性噪声加起来是时频域中的多声道直达信号<Xf,n>direct。
注意到,在联合确定的示例实施例中,在空间参数的联合确定中所考虑的源参数、包括Df,n,可以仍然是在原始输入音频内容Xf,n的基础上而不是在分解的直达信号<Xf,n>direct的基础上被生成的。因此,根据原始输入音频内容获得的源参数可以与分解算法解耦合并且显得更不易于产生不稳定性的瑕疵。
图15描绘了根据本文中所公开的另一个示例实施例的音频源分离的系统1500的框图。系统1500是系统300的扩展并且包括另外的组件,环境/直达分解器305。系统1500中的组件301-303的功能可以与以上参照系统399描绘的那些一样。在一些示例实施例中,联合确定器303可以由图11描绘的联合确定器来替换。
环境/直达分解器305可以被配置为接收以时频域表示的输入音频内容Xf,n,并且获得包括环境信号<Xf,n>ambiance和直达信号<Xf,n>direct的多声道音频信号。环境信号<Xf,n>ambiance可以由系统1500输出,并且直达信号<Xf,n>direct可以被提供到音频源提取器304。
音频源提取器304可以被配置为接收从原始输入音频内容中分解的直达信号<Xf,n>direct的时频域表示,并且输出分离的音频源信号sf,n。
图16描绘了根据本文中所公开的另一个示例实施例的音频源分离的系统1600的框图。如所描绘的,系统1600包括联合确定单元1601,被配置为基于音频内容中要被分离的音频源的线性组合特性和音频内容中要被分离的两个或更多音频源之间的正交特性,来确定音频源的空间参数。系统1600还包括音频源分离单元1602,被配置为基于空间参数,来从音频内容中分离音频源。
在一些示例实施例中,要被分离的音频源的数目是预定的。
在一些示例实施例中,联合确定单元1601可以包括功率谱确定单元,被配置为基于线性组合特性和正交特性中的一个特性,确定音频源的功率谱参数;功率谱更新单元,被配置为基于线性组合特性和正交特性中的另一个特性,更新功率谱参数;以及空间参数确定单元,被配置为基于经过更新的功率谱参数,确定音频源的空间参数。
在一些示例实施例中,联合确定单元1602可以进一步被配置为以期望最大化(EM)迭代过程来确定音频源的空间参数。在这些示例实施例中,系统1600进一步包括初始化单元,被配置为在EM迭代过程开始之前,为音频源的空间参数和频谱参数设置初始化值,频谱参数的初始化值是非负的。
在一些示例实施例中,在联合确定单元1601中,对于EM迭代过程中的每次EM迭代,功率谱确定单元可以被配置为通过使用在之前的EM迭代中确定的音频源的频谱参数,来基于线性组合特性确定音频源的功率谱参数;功率谱更新单元可以被配置为基于正交特性来更新音频源的功率谱参数;以及空间参数确定单元可以被配置为基于经过更新的功率谱参数来更新音频源的空间参数和频谱参数。
在一些示例实施例中,在联合确定单元1601中,对于EM迭代过程中的每次EM迭代,功率谱确定单元可以被配置为通过使用在之前的EM迭代中确定的音频源的空间参数和频谱参数,来基于正交特性确定音频源的功率谱参数;功率谱更新单元可以被配置为基于线性组合特性来更新音频源的功率谱参数;以及空间参数确定单元可以被配置为基于经过更新的功率谱参数来更新音频源的空间参数和频谱参数。
在一些示例实施例中,功率谱确定单元可以被配置为在EM迭代过程开始之前,通过使用空间参数和频谱参数的初始化值,来基于正交特性确定音频源的功率谱参数。在这些示例实施例中,对于EM迭代过程中的每次EM迭代,功率谱更新单元可以被配置为通过使用在之前的EM迭代中确定的音频源的频谱参数,来基于线性组合特性更新音频源的功率谱参数;以及空间参数确定单元可以被配置为基于经过更新的功率谱参数来更新音频源的空间参数和频谱参数。
在一些示例实施例中,音频源的频谱参数可以由非负矩阵分解模型来建模。
在一些示例实施例中,可以通过以第一迭代过程减小音频源的协方差矩阵的估计误差,来基于线性组合特性确定或更新音频源的功率谱参数。
在一些示例实施例中,系统1600进一步包括协方差矩阵确定单元,被配置为确定音频内容的协方差矩阵;正交阈值确定单元,被配置为基于音频内容的协方差矩阵,确定正交阈值;以及迭代次数确定单元,被配置为基于正交阈值,确定第一迭代过程的迭代次数。
在一些示例实施例中,在每次EM迭代之前可以归一化空间参数和频谱参数中的至少一个参数。
在一些示例实施例中,联合确定单元1601可以进一步被配置为基于音频源的移动性、音频源的稳定性和音频源的混音类型中的一项或多项,确定音频源的空间参数。
在一些示例实施例中,音频源分离单元1602可以被配置为从音频内容中提取直达音频信号,并且基于空间参数,从直达音频信号中分离音频源。
为清晰起见,在图16中没有描绘出系统1600的某些另外的部件。然而,应当理解,上文参考图1-15所描述的各个特征同样适用于系统16。而且,系统16中的各部件可以是硬件模块,也可以是软件单元模块等等。例如,在某些示例实施例中,系统1600可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,系统1600可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。
图17描绘了了适于用来实现本文中所公开的示例实施例的示例计算机系统1700的示意性框图。如所描绘的,计算机系统1700包括中央处理单元(CPU)1701,其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。如所需要的,在RAM1703中,还存储有CPU1701执行各种过程等的数据。CPU1701、ROM1702以及RAM1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。
以下部件连接至I/O接口1705:包括键盘、鼠标等的输入部分1706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707;包括硬盘等的存储部分1708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1710上,以便于从其上读出的计算机程序根据需要被安装入存储部分1708。
特别地,根据本文中所公开的示例实施例,上文参考图1-15描述的过程可以被实现为计算机软件程序。例如,本文中所公开的示例实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法或过程100、200、600、800、1000和/或1300和/或参照系统300、1500和/或1600所描述的过程的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1709从网络上被下载和安装,和/或从可拆卸介质1711被安装。
一般而言,本文中所公开的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本文中所公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本文中所公开的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本文中所公开的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。程序代码可以被分布在被特定编程的设备,这些设备通常在本文中可以被称为“模块”。这些模块的软件分组部分可以以任何具体计算机语言来编写并且可以是单片集成代码库的一部分,或者可以被开发成多个离散代码部分,诸如通常以面向对象的计算机语言来开发。此外,模块可以跨多个计算机平台、服务器、终端、移动设备等来分布。给定的模块甚至可以被实施为使得所描述的功能有单个处理器和/或计算机硬件平台来执行。
如本申请中所使用的,术语“电路装置”指的是以下的所有:(a)仅硬件电路实现方式(诸如仅模拟电路装置和/或仅数字电路装置的实现方式)以及(b)与电路和软件(和/或固件)的组合,诸如(可用的):(i)与处理器的组合或(ii)处理器/软件(包括数字信号处理器)、软件、和存储器的一部分,这些部分一起工作以使得装置(诸如移动电话或服务器)执行各种功能,以及(c)电路,诸如微处理器或微处理器的一部分,其需要软件或固件用于操作,即使软件或固件不是物理存在的。此外,本领域技术人员已知的是,通信媒介通常体现计算机可读指令、数据结构、程序模块或模块化数据信号中的其他数据,该数据信号诸如载波或其他传输机制,并且通信媒介包括任何信息传送媒介。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制本文中所公开的主题或权利要求的范围,而应解释为对可以针对特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对本文中所公开的前述示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本文中所公开的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本文中所公开的这些实施例的技术领域的技术人员将会想到此处阐明的其他实施例。
由此,本主题可以通过在此描述的任何形式来实现。例如,以下的枚举示例实施例(EEE)描述了本文中所公开的某些方面的某些结构、特征和功能。
EEE1.一种用于在时频域的输入音频信号的基础上分离音频源的装置,该时频域表示以描述多个频带的多个子频带信号来表示音频内容,该装置包括联合源分离器,该联合源分离器被配置为结合多个源参数,多个源参数包括被估计用于恢复音频源的主参数和用于精细化主参数的中间参数,从而该联合源分离器在经过精细化的参数的基础上恢复感知上自然的声源同时实现稳定和快速的收敛。该装置还包括第一确定器,该第一确定器被配置为对主参数进行估计,从而获得与输入音频信号中的未知源有关的频谱信息、和/或描述输入音频信号中存在的未知源的空间性或混音过程的信息。该装置进一步包括第二确定器,被配置为获得中间参数,从而获得用于精细化未知源的频谱属性、空间性和/或混音过程的信息。
EEE2.根据EEE1所述的装置,进一步包括正交程度确定器,其被配置为获得系数因子,从而在输入音频信号的基础上获得音频源之间的正交程度,该系数因子包括指示源之间的正交属性的多个量值化(quantitative)特征值。联合源分离器被配置为从正交程度确定器接收正交程度以控制多个源参数的结合,从而获得具有感知上自然的声音以及适当的相互正交程度的音频源,该适当的相互正交程度由正交程度确定器基于输入音频信号的属性而确定。
EEE3.根据EEE1所述的装置,其中第一确定器被配置为在输入音频信号的时频域表示的基础上,通过应用加性源模型来估计主参数,以便恢复感知上自然的声音。
EEE4.根据EEE3所述的装置,其中加性源模型被配置为使用非负矩阵分解法来将所估计的音频源的非负时频域表示分解为基本成分的总和,从而主频谱参数在非负矩阵的乘积的表示中被表示出来,非负矩阵包括一个具有频谱成分的非负矩阵,该频谱成分作为频谱约束可以被应用的列向量,非负矩阵还包括一个具有每个频谱成分的活跃性作为行向量的非负矩阵,在该行向量上可以应用时间约束。
EEE5.根据EEE1所述的装置,其中多个源参数包括空间参数和频谱参数,从而通过将频谱参数耦合至基于它们的空间参数的所分离的音频源而减少置换不确定性。
EEE6.根据EEE1所述的装置,其中第二确定器被配置为使用自适应去相关模型,从而独立/非相关约束可以被应用于精细化主参数。
EEE7.根据EEE1至6中任一项所述的装置,其中第二确定器被配置为通过最小化估
计的协方差矩阵和应用独立/非相关约束的最优的协方差矩阵之间的度量误差Ef,n,从而包
括空间参数和频谱参数中的至少一个参数的经过精细化的参数被精细化为
EEE8.根据EEE7所述的装置,其中通过应用梯度方法来最小化度量误差,并且梯度项由功率归一化,从而缩放该梯度,以给出针对不同频率的可比较的更新步长。
EEE9.根据EEE1所述的装置,其中联合源分离器被配置为将两个确定器结合起来,以在EM算法内联合地估计音频源的频谱参数和空间参数,EM算法的一次迭代包括期望步骤和最大化步步骤:
对于期望步骤:
在由第一确定器建模的所估计的主频谱参数的基础上,计算至少包括源的功率谱的中间频谱参数,
在所估计的源的频谱参数和所估计的源的主空间参数的基础上,计算至少包括逆的混音参数、例如维纳滤波器参数的中间空间参数,
在以上估计的中间参数的基础上,利用第二确定器的源模型来精细化中间空间参数和中间频谱参数,这些参数包括维纳滤波器参数、音频源的协方差矩阵和音频源的功率谱中的至少一项,以及
在经过精细化的参数的基础上计算其他中间参数,其他中间参数至少包括输入音频信号与所估计的源信号之间的互协方差矩阵;并且对于最大化步骤,
在精细化的中间参数的基础上,重新估计主参数,包括主频谱参数和主空间参数(混音参数),以及
重新归一化主参数,从而减少琐碎的尺度不确定性。
EEE10.一种源生成器装置,用于在一个或多个输入音频信号的基础上提取多个音频源信号以及它们的参数,该装置被配置为接收以时频域表示的输入音频以及一组源设置。该装置还被配置为基于一组源设置和根据从输入音频减去所估计的加性噪声而生成的差减信号来初始化源参数,并且获得一组初始化的源参数,该组源设置包括但不限于源数目、源移动性、源稳定性、源混音类别、空间引导元数据、用户引导元数据和时频引导元数据。该装置进一步被配置为基于所接收的经过初始化的源参数来联合地分离音频源,并且输出所分离的源和它们对应的参数,直至迭代分离过程收敛。迭代分离过程的每个步骤进一步包括利用初始化的和/或所接收的经过精细化的中间参数、基于加性模型来估计主参数,基于独立/非相关模型来估计中间参数并且精细化这些参数,以及基于所估计的源参数和以时频域表示的输入音频来恢复所分离的对象源信号。
EEE11.根据EEE10所述的装置,其中用于联合地分离源的步骤进一步包括基于所述输入信号和所接收的源设置组来确定未知的源的正交程度,获得源之间的正交控制的量值化程度,基于初始化的源参数和所接收的正交控制程度来联合地分离音频源,以及输出所分离的源和它们对应的参数,直至迭代分离过程收敛。迭代分离过程的每个步骤进一步包括利用所接收的初始化和/或经过精细化的中间参数、基于加性模型来估计主参数,以及利用所接收的正交控制程度、基于独立/非相关模型来估计中间参数以及精细化这些参数。
EEE12.一种多声道音频信号生成器装置,提供用于在一个或多个输入音频信号的基础上的包括至少一个对象信号的多声道音频信号,该装置被配置为接收以时频域表示的输入音频和一组音频设置,利用一组源设置和根据从输入音频减去所估计的加性噪声而生成的差减信号来初始化源参数,以及获得一组初始化的源参数,该组源设置包括但不限于源数目、源移动性、源稳定性、源混音类别、空间引导元数据、用户引导元数据和时频引导元数据。该装置还被配置为利用所述输入信号和所接收的源设置组来确定未知的源的正交程度,并且获得源之间的正交控制的量值化程度。该装置进一步被配置为利用初始化的源参数和所接收的正交控制程度来联合地分离源,并且输出所分离的源和它们对应的参数,直至迭代分离过程收敛。迭代分离过程的每个步骤进一步包括利用所接收的初始化和/或经过精细化的中间参数、基于加性模型来估计主参数,以及利用所接收的正交控制程度、基于独立/非相关模型来估计中间参数以及精细化这些参数。该装置进一步被配置为将输入音频分解为包括环境信号和直达信号的多声道音频信号,并且基于所估计的源参数和所分解的以时频域表示的直达信号,来提取所分离的对象源信号。
EEE13.根据EEE12所述的装置,其中联合地分离源进一步包括:基于所述输入信号和所接收的源设置组来确定未知的源的正交程度,获得源之间的正交控制的量值化程度,利用初始化的源参数和所接收的正交控制程度来联合地分离音频源,以及输出所分离的源和它们对应的参数,直至迭代分离过程收敛。迭代分离过程的每个步骤进一步包括利用所接收的初始化和/或经过精细化的中间参数、基于加性模型来估计主参数,以及利用所接收的正交控制程度、基于独立/非相关模型来估计中间参数以及精细化这些参数。
EEE14.一种源参数估计装置,用于利用独立/非相关模型来精细化源参数,以确保在其他模型下利用所接收的一组初始化的源参数来估计源参数的稳定和快速的收敛,重新估计的问题被解决为最小乘方(LS)估计问题,从而参数组被重新估计以最小化利用当前参数计算的协方差矩阵的条件估计与独立/非相关模型的理想协方差矩阵之间的度量误差。
EEE15.根据EEE14所述的装置,其中利用梯度递减算法,以迭代过程来解决最小乘方(LS)估计问题,并且每次迭代包括通过最小化利用当前参数计算的协方差矩阵的条件估计与独立/非相关模型的理想协方差矩阵之间的度量误差,来计算梯度递减值,使用梯度递减值来更新源参数,以及计算收敛度量,从而如果达到了收敛阈值,则跳出迭代并且输出经过更新的源参数。
EEE16.根据EEE14所述的装置,其中该装置进一步包括用于设置所估计的源之间的正交程度的确定器,从而这些估计的源是愉悦的声源、而不管它们之间的某种可接受的相关量。
EEE17.根据EEE16所述的装置,其中所述确定器使用内容自适应的度量来确定正交程度,使用内容自适应的度量包括但不限于量值化度量(偏差)、该量值化度量指示输入音频信号在多大程度上“接近于单位秩”,从而音频信号越接近于单位秩,独立/非相关限制被越确信/更少不确定地被完全应用。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。
Claims (25)
1.一种从音频内容中分离音频源的方法,所述方法包括:
确定所述音频源的空间参数,其中所述确定包括:
基于音频内容中要被分离的音频源的线性组合特性和音频内容中要被分离的两个或更多音频源之间的正交特性中的一个特性,确定所述音频源的功率谱参数,
基于所述线性组合特性和所述正交特性中的另一个特性,更新所述功率谱参数,以及
基于经过更新的功率谱参数,确定所述音频源的所述空间参数;以及
基于所述空间参数,从所述音频内容中分离所述音频源。
2.根据权利要求1所述的方法,其中要被分离的音频源的数目是预定的。
3.根据权利要求1所述的方法,其中确定所述音频源的空间参数进一步包括以期望最大化EM迭代过程来确定所述音频源的空间参数;并且
其中所述方法进一步包括:
在所述EM迭代过程开始之前,为所述音频源的所述空间参数和频谱参数设置初始化值,所述频谱参数的初始化值是非负的。
4.根据权利要求3所述的方法,其中以EM迭代过程来确定所述音频源的空间参数包括:
对于所述EM迭代过程中的每次EM迭代,
通过使用在之前的EM迭代中确定的所述音频源的所述频谱参数,来基于所述线性组合特性确定所述音频源的所述功率谱参数;
基于所述正交特性来更新所述音频源的所述功率谱参数;以及
基于经过更新的功率谱参数来更新所述音频源的所述空间参数和所述频谱参数。
5.根据权利要求3所述的方法,其中以EM迭代过程来确定所述音频源的空间参数包括:
对于所述EM迭代过程中的每次EM迭代,
通过使用在之前的EM迭代中确定的所述音频源的所述空间参数和所述频谱参数,来基于所述正交特性确定所述音频源的所述功率谱参数;
基于所述线性组合特性来更新所述音频源的所述功率谱参数;以及
基于经过更新的功率谱参数来更新所述音频源的所述空间参数和所述频谱参数。
6.根据权利要求3所述的方法,进一步包括:
在所述EM迭代过程开始之前,通过使用所述空间参数和所述频谱参数的初始化值,来基于所述正交特性确定所述音频源的所述功率谱参数;并且
其中以EM迭代过程来确定所述音频源的空间参数包括:
对于所述EM迭代过程中的每次EM迭代,
通过使用在之前的EM迭代中确定的所述音频源的所述频谱参数,来基于所述线性组合特性更新所述音频源的所述功率谱参数;以及
基于经过更新的功率谱参数来更新所述音频源的所述空间参数和所述频谱参数。
7.根据权利要求4至6中任一项所述的方法,其中所述音频源的所述频谱参数由非负矩阵分解模型来建模。
8.根据权利要求4至6中任一项所述的方法,其中通过以第一迭代过程来减小所述音频源的协方差矩阵的估计误差,而基于所述线性组合特性确定或更新所述音频源的所述功率谱参数。
9.根据权利要求8所述的方法,进一步包括:
确定所述音频内容的协方差矩阵;
基于所述音频内容的协方差矩阵,确定正交阈值;以及
基于所述正交阈值,确定所述第一迭代过程的迭代次数。
10.根据权利要求4至6中任一项所述的方法,其中在每次EM迭代之前归一化所述空间参数和所述频谱参数中的至少一个参数。
11.根据权利要求1至6中任一项所述的方法,其中所述音频源的空间参数的确定进一步基于所述音频源的移动性、所述音频源的稳定性和所述音频源的混音类型中的一项或多项。
12.根据权利要求1至6中任一项所述的方法,其中基于所述空间参数,从所述音频内容中分离所述音频源包括:
从所述音频内容中提取直达音频信号;以及
基于所述空间参数,从所述直达音频信号中分离所述音频源。
13.一种从音频内容中分离音频源的系统,所述系统包括:
联合确定单元,被配置为确定所述音频源的空间参数,所述联合确定单元包括:
功率谱确定单元,被配置为基于音频内容中要被分离的音频源的线性组合特性和音频内容中要被分离的两个或更多音频源之间的正交特性中的一个特性,确定所述音频源的功率谱参数,
功率谱更新单元,被配置为基于所述线性组合特性和所述正交特性中的另一个特性,更新所述功率谱参数,以及
空间参数确定单元,被配置为基于经过更新的功率谱参数,确定所述音频源的所述空间参数;以及
音频源分离单元,被配置为基于所述空间参数,从所述音频内容中分离所述音频源。
14.根据权利要求13所述的系统,其中要被分离的音频源的数目是预定的。
15.根据权利要求13所述的系统,其中所述联合确定单元进一步被配置为以期望最大化EM迭代过程来确定所述音频源的空间参数;并且
其中所述系统进一步包括:
初始化单元,被配置为在所述EM迭代过程开始之前,为所述音频源的所述空间参数和频谱参数设置初始化值,所述频谱参数的初始化值是非负的。
16.根据权利要求15所述的系统,其中在所述联合确定单元中,对于所述EM迭代过程中的每次EM迭代,
所述功率谱确定单元被配置为通过使用在之前的EM迭代中确定的所述音频源的所述频谱参数,来基于所述线性组合特性确定所述音频源的所述功率谱参数;
所述功率谱更新单元被配置为基于所述正交特性来更新所述音频源的所述功率谱参数;并且
所述空间参数确定单元被配置为基于经过更新的功率谱参数来更新所述音频源的所述空间参数和所述频谱参数。
17.根据权利要求15所述的系统,其中在所述联合确定单元中,对于所述EM迭代过程中的每次EM迭代,
所述功率谱确定单元被配置为通过使用在之前的EM迭代中确定的所述音频源的所述空间参数和所述频谱参数,来基于所述正交特性确定所述音频源的所述功率谱参数;
所述功率谱更新单元被配置为基于所述线性组合特性来更新所述音频源的所述功率谱参数;并且
所述空间参数确定单元被配置为基于经过更新的功率谱参数来更新所述音频源的所述空间参数和所述频谱参数。
18.根据权利要求15所述的系统,其中所述功率谱确定单元被配置为在所述EM迭代过程开始之前,通过使用所述空间参数和所述频谱参数的初始化值,来基于所述正交特性确定所述音频源的所述功率谱参数;并且
其中对于所述EM迭代过程中的每次EM迭代,
所述功率谱更新单元被配置为通过使用在之前的EM迭代中确定的所述音频源的所述频谱参数,来基于所述线性组合特性更新所述音频源的所述功率谱参数;并且
所述空间参数确定单元被配置为基于经过更新的功率谱参数来更新所述音频源的所述空间参数和所述频谱参数。
19.根据权利要求16至18中任一项所述的系统,其中所述音频源的所述频谱参数由非负矩阵分解模型来建模。
20.根据权利要求16至18中任一项所述的系统,其中通过以第一迭代过程来减小所述音频源的协方差矩阵的估计误差,而基于所述线性组合特性确定或更新所述音频源的所述功率谱参数。
21.根据权利要求20所述的系统,进一步包括:
协方差矩阵确定单元,被配置为确定所述音频内容的协方差矩阵;
正交阈值确定单元,被配置为基于所述音频内容的协方差矩阵,确定正交阈值;以及
迭代次数确定单元,被配置为基于所述正交阈值,确定所述第一迭代过程的迭代次数。
22.根据权利要求16至18中任一项所述的系统,其中在每次EM迭代之前归一化所述空间参数和所述频谱参数中的至少一个参数。
23.根据权利要求16至18中任一项所述的系统,其中所述联合确定单元进一步被配置为基于所述音频源的移动性、所述音频源的稳定性和所述音频源的混音类型中的一项或多项,确定所述音频源的所述空间参数。
24.根据权利要求13至18中任一项所述的系统,其中所述音频源分离单元被配置为从所述音频内容中提取直达音频信号,并且基于所述空间参数,从所述直达音频信号中分离所述音频源。
25.一种计算机可读介质,存储有机器可执行的指令,所述机器可执行的指令在被执行时使所述机器执行根据权利要求1至12中任一项所述的方法的步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082792.6A CN105989851B (zh) | 2015-02-15 | 2015-02-15 | 音频源分离 |
JP2017541045A JP6400218B2 (ja) | 2015-02-15 | 2016-02-12 | オーディオ源の分離 |
US15/543,938 US10192568B2 (en) | 2015-02-15 | 2016-02-12 | Audio source separation with linear combination and orthogonality characteristics for spatial parameters |
EP16706957.4A EP3257044B1 (en) | 2015-02-15 | 2016-02-12 | Audio source separation |
PCT/US2016/017681 WO2016130885A1 (en) | 2015-02-15 | 2016-02-12 | Audio source separation |
HK18103424.0A HK1244104B (zh) | 2015-02-15 | 2018-03-12 | 音頻源分離 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082792.6A CN105989851B (zh) | 2015-02-15 | 2015-02-15 | 音频源分离 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105989851A CN105989851A (zh) | 2016-10-05 |
CN105989851B true CN105989851B (zh) | 2021-05-07 |
Family
ID=56615692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510082792.6A Active CN105989851B (zh) | 2015-02-15 | 2015-02-15 | 音频源分离 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10192568B2 (zh) |
EP (1) | EP3257044B1 (zh) |
JP (1) | JP6400218B2 (zh) |
CN (1) | CN105989851B (zh) |
HK (1) | HK1244104B (zh) |
WO (1) | WO2016130885A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10573304B2 (en) * | 2015-05-26 | 2020-02-25 | Katholieke Universiteit Leuven | Speech recognition system and method using an adaptive incremental learning approach |
CN109074818B (zh) * | 2016-04-08 | 2023-05-05 | 杜比实验室特许公司 | 音频源参数化 |
US11152014B2 (en) | 2016-04-08 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Audio source parameterization |
US10410641B2 (en) * | 2016-04-08 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Audio source separation |
JP6622159B2 (ja) * | 2016-08-31 | 2019-12-18 | 株式会社東芝 | 信号処理システム、信号処理方法およびプログラム |
JP6615733B2 (ja) * | 2016-11-01 | 2019-12-04 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
JP6618493B2 (ja) * | 2017-02-20 | 2019-12-11 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
EP3392882A1 (en) * | 2017-04-20 | 2018-10-24 | Thomson Licensing | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium |
EP3662470B1 (en) | 2017-08-01 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Audio object classification based on location metadata |
CN110782911A (zh) * | 2018-07-30 | 2020-02-11 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、设备和存储介质 |
JP7167746B2 (ja) * | 2019-02-05 | 2022-11-09 | 日本電信電話株式会社 | 非負値行列分解最適化装置、非負値行列分解最適化方法、プログラム |
WO2020205175A1 (en) | 2019-04-05 | 2020-10-08 | Tls Corp. | Distributed audio mixing |
CN110111808B (zh) * | 2019-04-30 | 2021-06-15 | 华为技术有限公司 | 音频信号处理方法及相关产品 |
US20220260665A1 (en) * | 2019-06-27 | 2022-08-18 | Rensselaer Polytechnic Institute | Sound source enumeration and direction of arrival estimation using a bayesian framework |
CN112216303B (zh) * | 2019-07-11 | 2024-07-23 | 北京声智科技有限公司 | 一种语音处理方法、装置及电子设备 |
JP7450911B2 (ja) * | 2019-12-05 | 2024-03-18 | 国立大学法人 東京大学 | 音響解析装置、音響解析方法及び音響解析プログラム |
CN115116465A (zh) * | 2022-05-23 | 2022-09-27 | 佛山智优人科技有限公司 | 一种声源分离的方法及声源分离装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1855227A (zh) * | 2005-01-26 | 2006-11-01 | 索尼株式会社 | 用于分离音频信号的装置和方法 |
CN101384105A (zh) * | 2008-10-27 | 2009-03-11 | 深圳华为通信技术有限公司 | 三维声音重现的方法、装置及系统 |
CN103426436A (zh) * | 2012-05-04 | 2013-12-04 | 索尼电脑娱乐公司 | 结合声学回声消除的优化通过独立分量分析的源分离 |
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
WO2014147442A1 (en) * | 2013-03-20 | 2014-09-25 | Nokia Corporation | Spatial audio apparatus |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7660424B2 (en) | 2001-02-07 | 2010-02-09 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
GB0202386D0 (en) | 2002-02-01 | 2002-03-20 | Cedar Audio Ltd | Method and apparatus for audio signal processing |
KR100486736B1 (ko) | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
US6999593B2 (en) * | 2003-05-28 | 2006-02-14 | Microsoft Corporation | System and process for robust sound source localization |
US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
US8014536B2 (en) * | 2005-12-02 | 2011-09-06 | Golden Metallic, Inc. | Audio source separation based on flexible pre-trained probabilistic source models |
JP4952979B2 (ja) | 2006-04-27 | 2012-06-13 | 独立行政法人理化学研究所 | 信号分離装置、信号分離方法、ならびに、プログラム |
ATE527833T1 (de) | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
EP2148321B1 (en) | 2007-04-13 | 2015-03-25 | National Institute of Advanced Industrial Science and Technology | Sound source separation system, sound source separation method, and computer program for sound source separation |
US8107631B2 (en) | 2007-10-04 | 2012-01-31 | Creative Technology Ltd | Correlation-based method for ambience extraction from two-channel audio signals |
WO2009049895A1 (en) | 2007-10-17 | 2009-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding using downmix |
US8144896B2 (en) * | 2008-02-22 | 2012-03-27 | Microsoft Corporation | Speech separation with microphone arrays |
JP5294300B2 (ja) * | 2008-03-05 | 2013-09-18 | 国立大学法人 東京大学 | 音信号の分離方法 |
JP5195652B2 (ja) * | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
JP4960933B2 (ja) | 2008-08-22 | 2012-06-27 | 日本電信電話株式会社 | 音響信号強調装置とその方法と、プログラムと記録媒体 |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
US8380331B1 (en) | 2008-10-30 | 2013-02-19 | Adobe Systems Incorporated | Method and apparatus for relative pitch tracking of multiple arbitrary sounds |
US20100138010A1 (en) * | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
CA2688328A1 (en) | 2008-12-12 | 2010-06-12 | Simon Haykin | Apparatus, systems and methods for binaural hearing enhancement in auditory processing systems |
US20110078224A1 (en) * | 2009-09-30 | 2011-03-31 | Wilson Kevin W | Nonlinear Dimensionality Reduction of Spectrograms |
EP2375410B1 (en) | 2010-03-29 | 2017-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
RU2551792C2 (ru) | 2010-06-02 | 2015-05-27 | Конинклейке Филипс Электроникс Н.В. | Система и способ для обработки звука |
BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
JP5406866B2 (ja) * | 2011-02-23 | 2014-02-05 | 日本電信電話株式会社 | 音源分離装置、その方法及びプログラム |
US20120294446A1 (en) * | 2011-05-16 | 2012-11-22 | Qualcomm Incorporated | Blind source separation based spatial filtering |
US9558762B1 (en) * | 2011-07-03 | 2017-01-31 | Reality Analytics, Inc. | System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
CN102222508A (zh) * | 2011-07-12 | 2011-10-19 | 大连理工大学 | 一种基于矩阵变换的欠定盲分离方法 |
US9099096B2 (en) | 2012-05-04 | 2015-08-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis with moving constraint |
JP6109927B2 (ja) | 2012-05-04 | 2017-04-05 | カオニックス ラブス リミテッド ライアビリティ カンパニー | 源信号分離のためのシステム及び方法 |
US8880395B2 (en) * | 2012-05-04 | 2014-11-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjunction with source direction information |
US8886526B2 (en) * | 2012-05-04 | 2014-11-11 | Sony Computer Entertainment Inc. | Source separation using independent component analysis with mixed multi-variate probability density function |
US9195431B2 (en) * | 2012-06-18 | 2015-11-24 | Google Inc. | System and method for selective removal of audio content from a mixed audio recording |
JP6005443B2 (ja) | 2012-08-23 | 2016-10-12 | 株式会社東芝 | 信号処理装置、方法及びプログラム |
US20140201630A1 (en) * | 2013-01-16 | 2014-07-17 | Adobe Systems Incorporated | Sound Decomposition Techniques and User Interfaces |
US9460732B2 (en) | 2013-02-13 | 2016-10-04 | Analog Devices, Inc. | Signal source separation |
US9338551B2 (en) | 2013-03-15 | 2016-05-10 | Broadcom Corporation | Multi-microphone source tracking and noise suppression |
EP3005363A1 (en) * | 2013-06-05 | 2016-04-13 | Thomson Licensing | Method of audio source separation and corresponding apparatus |
US9601130B2 (en) * | 2013-07-18 | 2017-03-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for processing speech signals using an ensemble of speech enhancement procedures |
GB2516483B (en) | 2013-07-24 | 2018-07-18 | Canon Kk | Sound source separation method |
CN104683933A (zh) * | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
US9721202B2 (en) * | 2014-02-21 | 2017-08-01 | Adobe Systems Incorporated | Non-negative matrix factorization regularized by recurrent neural networks for audio processing |
KR101641645B1 (ko) * | 2014-06-11 | 2016-07-22 | 전자부품연구원 | 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템 |
CN105336332A (zh) * | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
-
2015
- 2015-02-15 CN CN201510082792.6A patent/CN105989851B/zh active Active
-
2016
- 2016-02-12 EP EP16706957.4A patent/EP3257044B1/en active Active
- 2016-02-12 WO PCT/US2016/017681 patent/WO2016130885A1/en active Application Filing
- 2016-02-12 US US15/543,938 patent/US10192568B2/en active Active
- 2016-02-12 JP JP2017541045A patent/JP6400218B2/ja active Active
-
2018
- 2018-03-12 HK HK18103424.0A patent/HK1244104B/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1855227A (zh) * | 2005-01-26 | 2006-11-01 | 索尼株式会社 | 用于分离音频信号的装置和方法 |
CN101384105A (zh) * | 2008-10-27 | 2009-03-11 | 深圳华为通信技术有限公司 | 三维声音重现的方法、装置及系统 |
CN103426436A (zh) * | 2012-05-04 | 2013-12-04 | 索尼电脑娱乐公司 | 结合声学回声消除的优化通过独立分量分析的源分离 |
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
WO2014147442A1 (en) * | 2013-03-20 | 2014-09-25 | Nokia Corporation | Spatial audio apparatus |
Also Published As
Publication number | Publication date |
---|---|
US10192568B2 (en) | 2019-01-29 |
JP6400218B2 (ja) | 2018-10-03 |
JP2018504642A (ja) | 2018-02-15 |
US20170365273A1 (en) | 2017-12-21 |
EP3257044A1 (en) | 2017-12-20 |
EP3257044B1 (en) | 2019-05-01 |
WO2016130885A1 (en) | 2016-08-18 |
HK1244104B (zh) | 2019-12-13 |
CN105989851A (zh) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989851B (zh) | 音频源分离 | |
EP3259755B1 (en) | Separating audio sources | |
US9668066B1 (en) | Blind source separation systems | |
CN111418012B (zh) | 用于处理音频信号的方法和音频处理设备 | |
US9830918B2 (en) | Enhanced soundfield coding using parametric component generation | |
Douglas et al. | Convolutive blind separation of speech mixtures using the natural gradient | |
CN106233382B (zh) | 一种对若干个输入音频信号进行去混响的信号处理装置 | |
RU2631023C2 (ru) | Матрицы оптимального микширования и использование декорреляторов при обработке пространственного звука | |
US9978379B2 (en) | Multi-channel encoding and/or decoding using non-negative tensor factorization | |
WO2012105885A1 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
US20200389749A1 (en) | Source separation for reverberant environment | |
Nesta et al. | Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction | |
WO2022190615A1 (ja) | 信号処理装置および方法、並びにプログラム | |
US11694707B2 (en) | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition | |
Yoshioka et al. | Dereverberation by using time-variant nature of speech production system | |
JP6201047B2 (ja) | オーディオ信号のパラメトリック再構成のための脱相関器構造 | |
US20230024675A1 (en) | Spatial audio processing | |
CN109074811B (zh) | 音频源分离 | |
Wang et al. | Independent low-rank matrix analysis based on the Sinkhorn divergence source model for blind source separation | |
Park et al. | Target speech extractionwith learned spectral bases | |
CN114503195A (zh) | 确定要应用于多声道音频信号的校正、相关编码和解码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |