CN105336332A - 分解音频信号 - Google Patents
分解音频信号 Download PDFInfo
- Publication number
- CN105336332A CN105336332A CN201410357288.8A CN201410357288A CN105336332A CN 105336332 A CN105336332 A CN 105336332A CN 201410357288 A CN201410357288 A CN 201410357288A CN 105336332 A CN105336332 A CN 105336332A
- Authority
- CN
- China
- Prior art keywords
- composition
- group
- gain
- sound signal
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 claims abstract description 87
- 238000009792 diffusion process Methods 0.000 claims abstract description 48
- 238000004590 computer program Methods 0.000 claims abstract description 17
- 239000000203 mixture Substances 0.000 claims description 258
- 238000000605 extraction Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 12
- 239000000470 constituent Substances 0.000 claims description 6
- 230000001052 transient effect Effects 0.000 claims description 2
- 239000004615 ingredient Substances 0.000 abstract description 15
- 238000012545 processing Methods 0.000 abstract description 4
- 230000002596 correlated effect Effects 0.000 abstract 3
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 38
- 230000005484 gravity Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 238000000354 decomposition reaction Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000007654 immersion Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000006854 communication Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000008521 reorganization Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
本发明的实施例涉及信号处理。公开了分解来自至少两个不同声道的多个音频信号的方法。该方法包括获得一组成分,该组成分是弱相关的,该组成分基于该多个音频信号而生成。该方法包括从该组成分提取特征,并且至少部分地基于所提取的特征来确定与该组成分相关联的一组增益,该增益中的每个增益指示相关联的成分中的扩散部分的比例。该方法还包括通过将该组增益应用到该组成分来分解该多个音频信号。还公开了相应的系统和计算机程序产品。
Description
技术领域
本发明总体上涉及信号处理,更具体地,涉及将来自至少两个不同声道的多个音频信号分解为直达和/或扩散信号。
背景技术
在诸如音频上混合、音频制作等许多应用中,可以采用上混合技术来创建具有沉浸感的声场。在这种应用中,可能通常需要将多声道音频信号分解为直达和/或扩散信号。
如本文所使用,术语“直达信号”或“直达成分”是指给收听者如下印象的音频信号或成分,即所听到的声音具有明显的方向。术语“扩散信号”或“扩散成分”是指给收听者如下印象的音频信号或成分,即所听到的声音不具有明显方向或者是从该收听者周围多个方向发出的。典型地,直达信号可以是多声道音频信号中来源于直达声音源并且在声道之间平移的较主要的声音信号。扩散信号可以是多声道音频信号中与直达声音源弱相关的并且跨声道而分布的较不主要的声音信号,诸如环境声音、混响等。如本文所使用,术语“主要信号”或“主要成分”是指多个信号或成分中具有较大功率的信号或成分。
期望提供一种较准确的分解多声道音频信号的方式,以便提供更具沉浸感的声场。
发明内容
为了解决上述问题,本发明提出一种用于分解来自至少两个不同声道的多个音频信号的方法和系统。
在一个方面,本发明的实施例提供一种用于分解来自至少两个不同声道的多个音频信号的方法。该方法包括:获得一组成分,该组成分是弱相关的,该组成分基于该多个音频信号而生成;从该组成分提取特征;至少部分地基于所提取的特征来确定与该组成分相关联的一组增益,所述增益中的每个增益指示相关联的成分中的扩散部分的比例;以及通过将该组增益应用到该组成分来分解该多个音频信号。这方面的实施例还包括相应的计算机程序产品。
在另一方面,本发明的实施例提供一种用于分解来自至少两个不同声道的多个音频信号的系统。该系统包括:成分获得单元,被配置为获得一组成分,该组成分是弱相关的,该组成分基于该多个音频信号而生成;特征提取单元,被配置为从该组成分提取特征;增益确定单元,被配置为至少部分地基于所提取的特征来确定与该组信号成分相关联的一组增益,所述增益中的每个增益指示相关联的成分中的扩散部分的比例;以及分解单元,被配置为通过将该组增益应用到该组成分而分解该多个音频信号。
通过下文描述将会理解,根据本发明的实施例,来自多个声道的多个音频信号的方向性和扩散性特性可以基于根据该音频信号生成的一组弱相关的成分来较准确地分析。因此,音频信号的分解可以较准确,以使得可以创建更具沉浸感的声场。
本发明的实施例所带来的其他益处将通过下文描述而清楚。
附图说明
通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其中:
图1示出了根据本发明的某些示例实施例的用于分解来自至少两个不同声道的多个音频信号的过程的框图;
图2示出根据本发明的某些实施例的用于分解来自至少两个不同声道的多个音频信号的方法的流程图;
图3示出了根据本发明的一个实施例的用于确定增益的方法的流程图;
图4示出了根据本发明的另一实施例的用于确定增益的方法的流程图;
图5示出根据本发明的某些实施例的用于分解多个音频信号的的过程的框图;
图6示出了根据本发明的某些示例实施例的用于分解来自至少两个不同声道的多个音频信号的系统的框图;以及
图7示出了适于用来实现本发明实施例的计算机系统的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施例
下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
如本文所使用,术语“包括”及其变型要被理解为开放的术语,即意味着“包括但不限于”。术语“基于”要被理解为“至少部分地基于”。术语“一个实施例”和“一实施例”要被理解为“至少一个实施例”。术语“另一实施例”要被理解为“至少一个其他实施例”。以下可以包括其他明确和隐含的定义。
在分解多声道音频信号的传统方式中,直接对原始多声道音频信号进行分解,并且继而将具有最大功率的成分确定为直达成分,而将其他成分确定为扩散成分。这种方式在期望输出音频信号的改善的艺术效果的应用中可能太粗糙。在该应用中,可能期望向收听者提供更具沉浸感的扩散声场,或者在没有明显方向的包络扩散声场内有较多具有明显方向的可听成分的感受。
为了解决上述以及其他潜在的问题,本发明的某些实施例提供了一种用于分解来自至少两个不同声道的多个音频信号的方法和系统。在该方法和系统中,基于该多个音频信号生成的一组弱相关成分。然后,对该弱相关成分进行分析,以基于该分析对音频信号执行直达-扩散分解。归因于所生成的成分之间的弱相关性,可以较准确地分析音频信号的方向性和扩散性特性。因此,音频信号的分解可以较准确,并且可以创建更具沉浸感的声场。
首先参照图1,其示出了根据本发明的某些示例实施例的用于分解来自至少两个不同声道的多个音频信号的过程100的框图。作为示例,可以从诸如立体声声道、5.1声道、7.1声道等多个声道中选择那些不同声道。多个音频信号中的每个音频信号与那些不同声道中的一个声道相关联。
如上所示,在传统的多声道音频信号分解中,直接将分析过程应用到原始输入多声道音频信号上。应当理解,若干相关的直达和扩散成分可以被混合到原始多声道音频信号中。直达和扩散成分之间的相关性非常有可能减低分析的准确性。根据本发明的实施例,取代直接应用分析,而基于来自至少两个不同声道的多个音频信号来生成弱相关的一组成分。然后基于所生成的成分来执行分析以及进一步的分解。如此,由分解所产生的扩散声场和/或立体声像可以具有较高质量。
如图1所示,在框101,基于该多个音频信号生成一组弱相关成分。如所示出的,从两个或多个输入声道接收音频信号,并且生成一组弱相关成分。如本文所使用,术语“弱相关成分”是指如下一组信号成分,该成分之间的相关性低于预定义的阈值。特别地,完全不相关的成分可以被视为弱相关成分。根据本发明的实施例,可以通过对输入音频信号的一个或多个组合进行变换来生成该成分,并且因此音频信号的数目和成分的数目可以相同或不同。
接下来,在框102,对弱相关成分进行分析。根据本发明的实施例,基于该分析确定与成分相关联的一组增益。继而,在框103,将输入音频信号分解成直达和扩散信号中的至少一个。如上所述,多个音频信号中的每个音频信号与至少两个不同声道中的一个声道相关联。应当理解通过对该多个音频信号进行分解获得的直达和扩散信号的数目取决于输入音频信号的直达和扩散特性。
根据本发明的实施例,用于分解音频信号的过程100可以在时域执行,或者在频域执行,包括在全频带或子频带中执行。基于通过利用过程100分解音频信号而获得的直达和扩散信号,可以创建更具沉浸感的声场。下面将参考图2-6描述框101-103更具体的过程。
图2示出根据本发明的某些实施例的用于分解来自至少两个不同声道的多个音频信号的方法200的流程图。
如图2所示,在步骤S201,获得一组弱相关成分,该成分是基于多个音频信号生成的。根据本发明的实施例,获得成分的过程包括生成该成分和/或从其他实体接收该成分。也就是说,成分的生成和后续过程可以由一个单独的实体执行,或者分别由两个不同实体执行。
如以上参考图1所述,可以通过对输入音频信号的一个或多个组合进行变换来生成成分。根据本发明的实施例,有可能采用能够生成弱相关成分的任何变换方式,包括但不限于独立成分分析(ICA)、B格式分析、主成分分析(PCA)等。
在一个实施例中,音频信号的示例变换可以使用线性方程系统来实施,诸如等式(1)给出的矩阵乘法:
其中表示代表通过组合N个输入信号而获得的M个中间信号的行向量;Alpha表示变换矩阵M·M,其中将每个列向量 (i=1,...,M),约束为单位向量;表示代表弱相关的M个成分的行向量。
根据本发明的实施例,可以在时域或频域中对音频信号进行变换。利用该变换,来自M个变量的原始空间的数据向量可以被影射到弱相关的M个变量的新空间。通过对根据音频信号生成的弱相关成分而不是混合的原始音频信号本身进行分析,音频信号内由于相关性而导致的干扰可以被显著地减小。因此,后续信号分解可以更准确。
接下来,方法200进行到步骤S202,其中从弱相关的成分中提取特征。根据本发明的实施例,所提取的特征指示成分的方向性和扩散性特性,并且将被用于促进音频信号的后续分解。
在一个实施例中,在步骤S202处提取的特征可以包括特定于一个成分的局部特征,其指示该成分的方向性和扩散性特性。备选地或附加地,所提取的特征可以包括与整组成分有关的全局特征,其指示与改组成分有关的方向性和扩散性特性。
在一个实施例中,特定于一个成分的局部特征可以包括例如该成分在多个声道中的位置统计。该统计可以在时域或频域中执行。
通常而言,直达成分在多个声道中的位置较稳定或者随时间变换较慢,而扩散成分的位置随时间较随机并且散杂。因此,成分在时域的位置统计可以指示该成分的方向性和扩散性特性。
根据本发明的实施例,成分在时域的位置统计可以由给成分在多个声道的位置随时间的变换来表示。例如,假设单位向量 指示成分Ci,t在M个声道中的位置,其中t表示当前时间戳比如当前帧。在一个实施例中,成分的位置变化的表示是如等式(2)中给出的平方欧式距离Di,t:
在另一实施例中,成分的位置变化的表示是由等式(3)中给出的余弦距离:
在等式(2)和(3)中,通过比较成分在不同时间的位置来确定时域中的地位统计。大的位置统计值指示该成分的大部分是扩散的。
备选地,通过计算成分在当前时间的位置与该成分的重心位置之间的平方欧式距离或者余弦距离来确定位置统计。重心位置可以通过在一段时间内对该成分的位置求平均来估计。重心位置还可以被估计为使得重心位置与不同时间的位置之间的距离和在一段时间内最小。应当注意,可以使用任何其他方式来估计重心位置,并且本发明的范围在此不受限制。
根据本发明的实施例,所确定的重心位置的准确度可能受执行统计的时间段影响。例如,如果该时间段过长,则统计可能跨不同音频信号源而执行,并且得到的重心位置可能不太准确。在一个实施例中,为了进一步增加所确定的重心位置的准确度,可以检测不同音频信号源之间的顺变,并且可以在顺变发生之后对重心位置进行重置。
如上所述,也可以在频域执行统计。通常而言,直达成分的位置在多个声道中跨子频带比较一致,而扩散成分的位置跨子频带比较多变。因此,成分在频域中的位置统计可以指示该成分的方向性和扩散性。根据本发明的实施例,成分在频域中的位置统计可以由该成分在多个声道中的位置跨子频带的变化来表示。
在一个实施例中,频域中的位置统计可以通过比较成分在不同子频带中的位置来确定。具体方式类似于通过比较成分在不同时间的位置来确定时域中的位置统计的方式,因此为了简洁的目的将省略具体说明。
在另一实施例中,可以跨全频带估计重心位置,并且可以通过计算成分在子频带中的位置与成分在全频带中的重心位置之间的距离来确定位置统计。
例如,假设单位向量 r表示成分Ci,f在子频带f中在M个声道中的位置,其中f=1,...,F代表子频带索引,并且F代表子频带的总数目。为了简洁的目的,在其他地方除非特别指出省略了脚标f。可以利用如单位向量 表示的F个位置来估计重心位置 以使得重心位置与所有子频带中的位置之间的距离和最小。在一个实施例中,该距离可以是平方欧式距离或余弦距离。
备选地,可以通过对成分在全频带中的位置求平均来估计重心位置。可以通过成分Ci,f在个体子频带的位置距其重心位置的距离, 来指示成分的扩散性。
出于示例的目的,以上描述了仅使用一个重心位置的示例。在输入音频信号复杂,例如包括多个直达信号的情况下,可以估计多个重心位置。在这种情况下,可以计算距这些重心位置的距离,并且选择最小距离作为统计目标。
除了成分在多个声道中的位置统计之外,描述该成分的时间和/或频谱特性的音频纹理特征也可以反映该成分的方向性和扩散性特性。在另一实施例中,特定于一个成分的局部特征可以包括该成分的音频纹理特征,比如过零率、梅尔频率倒谱系数(MFCC)、诸如频谱平坦度的子频带频谱分布、频谱波峰、频谱通量、频谱峰值等。
如上所述,在从输入音频信号获得一组弱相关成分之后,除了特定于一个成分的局部特征,还可以提取与整组成分有关的全局特征。通常而言,具有最大功率的成分包含最主要的直达信号还有在空间上与最主要的信号一致的较不主要的信号和扩散信号的一部分。当直达信号在空间上彼此一致时,具有较小功率的成分可能是扩散信号。当直达信号在空间上不一致时,具有较小功率的成分可能包含另一直达信号以及在空间上与该直达信号一致的扩散信号的一部分。因此,成分的功率分布可以指示音频信号的方向性和扩散性。
在一个实施例中,可以基于成分的功率分布来提取全局特征。根据本发明的实施例,功率分布可以在时域、在全频带或在子频带中确定。
基于功率分布的全局特征可以包括例如成分的功率之间的差。通常而言,如果一个成分包含具有最大功率的最主要的直达信号,则其与另一成分的功率差将大于两个扩散成分之间的功率差。因此,功率差越大,该成分越有可能包含主要直达信号。
如果 表示成分的归一化功率,则可以例如如等式(4)中将每两个相邻成分的功率之差计算为:
备选地或附加地,可以计算功率差之和,其指示音频信号中的直达信号是多还是少。
如果将改组成分视为具有M个结果的随机变量,则可以将归一化功率 视为每个结果的概率。则可以如在等式(5)中将成分的熵计算为:
以上计算的熵可以指示跨成分的功率分布有多平坦。如果熵较大,则跨成分的功率分布可能较平坦。其指示方向性可能不是主要的。因此,除了成分的功率之间的差之外,全局特征还可以包括基于成分的归一化功率计算的熵。
如以上参照图1所述,用于分解音频信号的过程可以在时域执行。备选地,可以将音频信号转换到频域,使得可以在全频带或子频带对该信号施加分解。与全频带或时域过程相比,子频带过程更精细并且更细致,其可以按子频带展现主要成分。如果直达信号在子频带中较稀疏,则更可能通过子频带过程将检测的直达信号作为所考虑的子频带中的主要直达信号。因此,通过子频带过程在个体子频带中获得的较主要成分之间的功率和位置与通过全频带过程或者时域过程获得的较主要成分的功率和位置之差可以指示输入音频信号中的直达信号的数目,例如一个或多个直达信号。
举例而言,假设单位向量 表示子频带f中的较主要的成分C1,f的位置,成分C1,f是通过子频带过程获得的成分中具有较大功率的成分,并且表示其功率;单位向量 表示较主要的成分的位置,成分是通过全频带过程或时域过程获得的成分中具有较大功率的成分,并且表示其功率。全局特征可以包括如以下给出的特征Δλ知ΔD:
在某些实施例中,该成分可以是通过子频带过程或者通过全频带过程或时域过程获得的成分中具有最大功率的最主要的成分。
如果Δλ和ΔD很小,则输入音频信号很可能仅包括一个直达信号。如果Δλ和ΔD很大,则输入音频信号可能包括多于一个直达信号。
备选地或附加地,除了如上所述的局部和全局特征本身之外,还可以使用这些特征的运动平均和/或运动方差作为代表性特征。
仍然参考方法200,在步骤S203,至少部分地基于在步骤S202提取的特征来确定与该组弱相关成分相关联的一组增益。根据本发明的实施例,每个增益指示相关联的成分的扩散部分的比例。因为一个成分是由直达和/或扩散部分组成的,所以指示相关联的成分的扩散部分的比例的增益也可以指示该成分的直达部分的比例。换言之,增益可以指示相关联的成分有多大部分是直达的或者扩散的。
如上所述,归因于成分之间的弱相关性,从成分中提取的特征更能代表音频信号的方向性和扩散性特性,因此给予该特征确定的增益可以更准确。
根据本发明的实施例,可以使用局部特征和全局特征中的至少一个作为用于确定增益的因子。针对一个成分的增益例如利用通过成倍增加以及按比例缩放该因子来确定。
为了改善保真度,可以对所确定的增益应用平滑处理。例如,可以通过对在不同时间或者不同子频带确定的增益求平均来对与成分相关联的增益进行平滑。
附加地,可以对所确定的增益应用重新初始化处理。例如,当检测到不同音频信号源之间的瞬变时,可以执行初始化,以避免跨不同音频信号源所确定的增益进行过平滑,以使得可以进一步提高所确定的增益的准确性。
然后,方法200继续道步骤S204,其中通过将该组增益应用到该组成分来分解来自至少两个不同声道的多个音频信号。
根据本发明的实施例,音频信号的分解过程是对成分以及相关联的增益进行的逆变换操作。例如,假设行向量代表通过分解得到的M个扩散信号,并代表与成分[C1...CM]相关联的增益。每个增益对应于一个成分。可以被计算如下:
应当注意,如上讨论的对扩散信号的确定仅出于说明目的,还可以应用根据本发明的实施例的分解方法来确定音频信号中的直达信号。
利用方法200,可以根据基于输入音频信号生成的弱相关的信号成分对输入音频信号的方向性和扩散性特性进行比较准确的分析,并且因此对音频信号的直达-扩散分解可以比较准确,并且进而可以创建更具沉浸感的声场。
图3和图4示出了用于确定与弱相关成分相关联的增益的某些示例实施例,这些实施例可以在图1中的框102处实施。
图3示出了根据本发明的一个实施例的用于确定增益的方法300的流程图。
通常而言,在来自多个声道的音频信号中,可以包括来自一个或多个直达声音源的一个或多个直达信号。音频信号中包括的直达信号越多,该音频信号的方向性越复杂。
根据本发明的实施例,音频信号可以属于以下情形之一:(1)音频信号仅包括扩散信号;(2)音频信号除了扩散信号之外还包括一个直达信号;(3)音频信号除了扩散信号之外还包括多个直达信号。
相应地,在情形(1)中,所有成分可能主要对音频信号的扩散性做出贡献;而在情形(2)和(3)中,最主要的成分可能对音频信号的扩散性做贡献。由于情形(2)和(3)中的直达信号的数目不同,居中的主要成分可能或者对音频信号的方向性或者对音频信号的扩散性做贡献。具体而言,在情形(2)中,居中的主要成分可能对扩散性做出较大贡献,而在情形(3)中,居中的主要成分可能对方向性做出较大贡献。根据本发明的实施例,可以基于例如指示音频信号术语那种情形的音频信号的复杂度来调整增益。
如图3所示,在步骤S301,可以确定多个音频信号的复杂度以指示该多个音频信号中的直达信号的数目。
在一个实施例中,可以使用硬判决来确定音频信号的复杂度。也就是说,确定音频信号属于以上情形之一。在另一实施例中,可以使用软判决来确定音频信号属于一种情形的概率。例如可以使用值为0到1的得分来表示音频信号与一种情形之间的匹配程度。
如以上参考图2所述,通过子频带过程在个体子频带中获得的最主要的成分与通过全频带过程或者时域过程获得的最主要成分的功率和位置之差可以指示输入音频信号中的直达信号的数目是多还是少。
在一个实施例中,可以基于相应全局特征的线性组合来获得复杂度得分,例如β1·Δ+β2·H+β3·Δλ.。如上所述,Δ表示成分的功率差之和。如果Δ低,则输入音频信号比较可能属于情形(1),其中仅包括扩散信号;如果Δ高,则音频信号比较可能属于情形(2)和(3),其中包括直达和扩散信号两者。H指示跨成分的功率分布有多平坦。如果H高,则音频信号比较可能属于情形(1);如果H低,则音频信号比较可能属于情形(2)和(3)。Δλ表示子频带中的局部主要成分与全频带或时域中的全局主要成分之间的功率差。如果Δλ低,则音频信号比较可能属于情形(2),其中包括单个直达信号;如果Δλ高,则音频信号比较可能属于情形(3),其中包括多个直达信号。
在确定了音频信号的复杂度之后,方法300进行到步骤S302,其中基于所确定的复杂度来调整增益。
在一个实施例中,利用针对每个成分的非线性函数fi(·)来按比例调整所确定的复杂度得分,并且增益被计算如下:
其中,Δi表示成分Ci与其相邻成分之间的功率差,A和B表示将Δi映射到与相关联的增益gi∈[0,1]的系数。作为非限制性示例,A=10并且B=-0.05。
应当注意,可以根据实际需要或者技术人员的经验来选择A和B的值。还应当注意如等式(7)所示的特征与增益的关系仅出于说明目的,特征的任何其他组合模式是可能的,并且本发明的范围在此方面不受限制。
取决于输入音频信号的期望艺术效果,可能需要例如由上混合器生成的针对多个声道的输出信号为收听者提供在没有明显方向的包络扩散声场内存在具有明显方向的一个或多个可听成分的感受。因此,可能存在对于是否保持音频信号的方向性或扩散性的偏好的需求。根据本发明的实施例,进一步基于是否保持音频信号的方向性或扩散性的偏好来确定一组增益。
图4示出了根据本发明的另一实施例的用于确定增益的方法400的流程图。
在步骤S401进入方法400,其中获得一组弱相关的参考成分。该参考成分是基于来自至少两个不同声道的多个已知音频信号生成的,其中该已知音频信号包含已知的直达和扩散信号,并且具有参考特征。继而,在步骤S402,确定与改组参考成分相关联的一组参考增益。
根据本发明的实施例,可以在图1的框101执行参考成分的生成,并且在图1的框102执行增益的确定。然后,将所确定的参考增益应用于图1的框103,以用于已知音频信号的分解。
根据本发明的实施例,参考增益可以被确定为使得已知音频信号的已知方向性和扩散性特性与通过分解该已知音频信号而获得的方向性和扩散性特性之差最小。例如,可以将参考增益确定为使得已知音频信号中的已知扩散信号的功率与通过分解该已知音频信号获得的扩散信号的功率之差最小。
备选地或附加地,如以上参考图3所描述的,可以进一步基于是否保持多个已知音频信号的方向性或扩散性的偏好来确定参考增益。
具体而言,在一个实施例中,可以通过利用以下混合模式来混合已知直达和扩散信号来生成已知音频信号:
其中mi,j(i∈[1,...,D],j∈[1,...,M])表示直达信号Si到第j个声道的平移函数,并Ai表示扩散信号。
基于等式(8)给出的混合模式,然后可以利用以下优化准则来确定参考增益[g1...gM]:
其中E(·)表示信号的功率,W1表示用于扩散到直达泄露的惩罚因子,W2表示用于直达到扩散泄露的惩罚因子,f=1,...,F表示子频带索引,并且F表示子频带的总数目。根据本发明的实施例,W1和W2可以依赖于频率或者独立于频率。
在一个实施例中,可以将递归技术应用于参考增益的确定。例如可以递归地执行参考增益的确定直至满足优化准则为止。递归方法可以包括最小二乘递归分析、贝叶斯线性递归、距离度量学习等。
备选地或附加地,还可以将分类技术应用于参考增益的确定。例如可以基于分类方法来针对已知音频信号的参考特征确定参考增益。分类方法可以包括比如高斯混合模型(GMM)的概率分类建模、比如支持向量机(SVM)或自适应强度(Adaboost)的辨别方法。在一个实施例中,可以采用最小二乘支持向量机(LS-SVM)。
根据本发明的实施例,已知音频信号的参考特征可以包括如上所述的局部特征和全局特征中的至少一个。出于简洁的目的,将不再重读与特征有关的具体描述。
仍然参考图4,在步骤S403基于针对输入音频信号提取的特征和针对已知音频信号的参考特征所确定的参考增益来确定用于分解输入音频信号的增益。例如,可以基于所提取的特征、参考特征和参考增益、使用学习的LS-SVM模型来预测最终的增益。
图5示出根据本发明的某些实施例的用于分解多个音频信号的的过程500的框图。
如图5中所示,音频信号是从5个声道(L,R,C,Ls,Rs)输入的,这些声道被分组为声道对,例如[L,R],[Ls,Rs],[C,F],其中F表示利用L和R混合的声道。
在一个实施例中,如图5所示,在成分生成的框501中,计算来自一对声道的信号的方差,并且可以通过在时间上评价来对方差进行平滑。然后,可以对方差归一化以获得相关系数。可以使用方差和相关系数来计算变换矩阵,以用于每子频带确定两个成分。
接下来,在成分分析的框502,可以确定针对每个成分的增益。
继而,在直达-扩散分解的框503中,可以通过应用逆变换矩阵来分解来自没对声道的音频信号,并且相应地生成两组音频信号,其中一组是直达的,另一组是扩散的。
具体而言,在一个实施例中,将输入音频信号表示为包含左系数和右系数的行向量X=[L,R]。计算功率和Sf、功率差Df和互相关的实部Rf。将功率和Sf、功率差Df和互相关的实部Rf的每个统计估计量在时间块上、在子频带上累加(索引为b),并且使用依赖于频率的泄露积分器来在时间上进行平滑:
可以使用如等式(13)中给出的变换矩阵来进行信号分解:
其中:
α1,1 2=1-α1,2 2,
α2,1 2=1-α2,2 2,以及
af(0<af<1)表示平滑因子。
已经参考图5描述了用于基于每个声道对执行分解的过程。在某些其他实施例中,可以基于PCA来执行分解,其中可以使用任意数目的声道来执行分解。
例如,对于如图5中所示的5声道信号(L,R,C,Ls,Rs),在使用声道对的过程500中,可以单独基于每个声道对(L-R,L-C,L-Ls,L-Rs,R-C,R-Ls,R-Rs,C-Ls,C-Rs,Ls-Rs)来执行分解,并且分别输出10个立体声直达信号和10个扩散信号。替代地,在基于PCA的过程中,可以对5声道信号的5×5协方差矩阵执行特征分解,并且可以输出5个成分。
基于PCA的示例过程如下:
1.音频信号可以从N个声道输入,并且可以对音频信号执行短时傅立叶变换(STFT)。
2.可以针对每个频带f∈[1,…,F]计算协方差矩阵,并且可以通过在时间上求平均来对协方差进行平滑。
3.可以对所获得的协方式矩阵执行特征分解,并且可以获得特征向量vm为并且特征值为λ1,...,λm,例如,λ1>λ2>λ3>...>λm的M个成分(假设M=N),其中每个特征值指示相应个体成分的功率,并且每个特征向量指示相应成分在N个声道中的位置。
4.可以对M个成分执行分析,可以从M个成分中提取局部特征和全局特征,并且继而可以基于该特征来确定针对每个成分的增益。
5.可以将增益与相应成分相乘,并且通过乘以特征向量的逆来获得最终的扩散和直达信号。
图6示出了根据本发明的某些示例实施例的用于分解来自至少两个不同声道的多个音频信号的系统600的框图。
如图6中所示,系统600可以包括成分获得单元601、特征提取单元602、增益确定单元603和分解单元604。成分获得单元601可以被配置为获得一组成分,该组成分是弱相关的,该组成分基于该多个音频信号而生成。特征提取单元602可以被配置为从该组成分提取特征。增益确定单元603可以被配置为至少部分地基于所提取的特征来确定与该组信号成分相关联的一组增益,该增益中的每个增益指示相关联的成分中的扩散部分的比例。分解单元604可以被配置为通过将该组增益应用到该组成分而分解该多个音频信号。
在某些实施例中,特征提取单元602还可以被配置为提取特定于一个成分的局部特征。在某些实施例中,特征提取单元602还可以被配置为提取与该组成分有关的全局特征。
在某些实施例中,针对特定于一个成分的局部特征,特征提取单元602还可以被配置为确定该成分在该至少两个不同声道中的位置统计。在某些实施例中,特征提取单元602还可以被配置为针对特定于一个成分的局部特征提取该成分的音频纹理特征。
在某些实施例中,特征提取单元602还可以被配置为基于该组成分的功率分布来提取全局特征。例如,特征提取单元602还可以被配置为确定该组成分的功率之间的差。备选地或附加地,特征提取单元602还可以被配置为基于该组成分的归一化功率来计算熵。
在某些实施例中,成分获得单元601还可以被配置为获得第一组成分和第二组成分,第一组成分是弱相关的,并且第二组成分是弱相关的。第一组成分基于该多个音频信号在子频带中生成,并且第二组成分基于该多个音频信号在全频带或者时域中生成。特征提取单元602还可以被配置为确定第一功率和第二功率之间的差,第一功率是第一组成分的较大功率,并且第二功率是第二组成分的较大功率。备选地或附加地,特征提取单元602还可以被配置为确定与第一功率相关联的第一成分在至少两个不同声道中的第一位置统计以及与第二功率相关联的第二成分在至少两个不同声道中的第二位置统计之间的差。
在某些实施例中,系统600还可以包括复杂度确定单元605和增益调整单元606。复杂度确定单元605可以被配置为确定该多个音频信号的复杂度,复杂度指示该多个音频信号中的直达信号的数目。增益调整单元606可以被配置为基于所确定的复杂度来调整该组增益。
在某些实施例中,增益确定单元603还可以被配置为基于所提取的特征是否保持该多个音频信号的方向性或扩散性的偏好来确定该组增益。
在某些实施例中,增益确定单元603还可以被配置为基于所提取的特征和针对参考特征确定的一组参考增益来预测该组增益。
在某些实施例中,成分获得单元601还可以被配置为获得一组参考成分,该组参考成分是弱相关的,该组参考成分基于来自该至少两个不同声道的多个已知音频信号而生成,该多个已知音频信号具有该参考特征。系统600还可以包括参考增益确定单元607。参考增益确定单元607可以被配置为确定与该组参考成分相关联的一组参考增益,以使得该多个已知音频信号的方向性和扩散性的第一特性与方向性和扩散性的第二特征之间的差最小,第二特征通过借助将该组参考增益应用于该组参考成分来分解该多个已知音频信号而获得。
在某些实施例中,参考增益确定单元607还看可以被配置为基于对于是否保护该多个已知音频信号的方向性或扩散性的确定来确定该组参考增益。
为清晰起见,在图6中没有示出系统600的某些可选部件。然而,应当理解,上文参照图4所描述的各个特征同样适用于系统600。而且,系统600中的各部件可以是硬件模块,也可以是软件单元模块。例如,在某些实施例中,系统600可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产20品。备选地或附加地,系统600可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。
下面参照图7,其示出了适于用来实现本发明实施例的计算机系统700的示意性框图。如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有设备700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参照图1-5描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行方法200、300和/或400的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
由此,本发明可以通过在此描述的任何形式来实现。例如,以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。
EEE1.一种用于将输入多声道(两个或更多声道)音频信号分解为扩散音频信号和直达音频信号的方法或装置,该装置包括:a.信号分解器,被配置为从多声道输入音频信号导出多个(两个或多个)中间成分;b.成分分析器,被配置为基于该成分导出特征,并且基于这些导出的特征预测针对每个成分的扩散增益,可选地该增益可以通过是否保持音频信号的方向性或扩散性的偏好来调整;c.扩散和直达分解器,被配置为导出扩散信号和直达信号。
EEE2.根据EEE1的装置,其中信号分解器被配置为将输入音频信号映射为多个成分,这些成分通过变换操作在数据集上不相关(或弱相关)。
EEE3.根据EEE2的装置,其中变换操作被配置为基于输入音频信号的时域、全频带频域和/或子频带频域表示来导出多个不相关(或弱相关)成分。
EEE4.根据EEE1的装置,其中成分分析器被配置为基于一个成分导出成分内特征和/或基于成分组导出成分间特征。
EEE5.根据EEE4的装置,其中成分内特征包括以下至少一项:a.时间上的成分空间统计,被配置为计算每个成分沿时间的空间变化;b.跨子频带的成分空间统计,被配置为计算每个成分跨子频带的空间变化;c.音频纹理特征,描述一个成分的时间和/或空间性质;d.上述特征的运动平均和/或运动方差。
EEE6.根据EEE4的装置,其中成分内特征提取被配置为计算相邻帧的位置之间的空间变化,和/或当前时间的位置以及一段时间的位置的运动平均或者重心位置之间的空间变化。
EEE7.根据EEE4的装置,其中成分内特征提取被配置为计算每个子频带的位置与跨所有子频带的重心位置之间的空间距离。
EEE8.根据EEE4的装置,其中成分内特征提取被配置为计算每个子频带的位置与多个重心空间位置之间的最小空间距离。
EEE9.根据EEE4和EEE5的装置,其中将空间变化计算为以下至少一项:a.余弦距离;b.欧氏距离;c.上述距离的运动平均和/或运动方差。
EEE10.根据EEE4的装置,其中成分分析器在检测到瞬变时重新发起特征计算过程。
EEE11.根据EEE4的装置,其中成分间特征提取被配置为计算成分之间的功率分布。
EEE12.根据EEE4的装置,其中成分间特征提取被配置为以下至少一项:a.基于功率排列的每两个相邻成分之间的功率差;b.指示基于功率排列的每两个相邻成分之间的功率差之和的全局特征;c.指示基于所有成分的归一化功率的熵的全局特征;d.指示在子频带频率分析中获得的最主要的成分与在全频带频率(或时域)分析获得的最主要的成分之间的功率和空间差的全局特征;e.上述特征的运动平均和/或运动方差。
EEE13.根据EEE12的装置,其中基于每个成分的归一化功率来计算功率差的特征:
其中归一化功率按降序排列:
EEE14.根据EEE12的装置,其中熵的特征基于每个特征的归一化功率来计算:
EEE15.根据EEE12的装置,其中功率差的特征基于在子频带分析中获得的功率与在全频带(或时域)分析获得的功率来计算:
EEE16.根据EEE12的装置,其中空间差的特征基于在子频带分析中获得的空间信息和在全频带(或时域)分析中获得的空间信息来计算:(在余弦距离的情况下)或者 (在欧式距离的情况下)。
EEE17.成分分析器,被配置为:a.将全局成分间特征映射到具有非线性成分相关映射函数的乘法器;b.将局部特征映射到针对每个成分的具有映射函数的另一乘法器;c.通过成倍增加以及按比例缩放上述乘法器来估计针对每个成分的扩散增益因子。
EEE18.根据EEE17的装置,其中与在时间域和/或频谱域的平滑机制并且与通过瞬变检测的重新初始化机制一起来应用估计的扩散增益因子。
EEE19.根据EEE17的装置,其中成分分析器将全局的成分间特征通过听觉复杂度分析映射到针对每个成分的因子。
EEE20.根据EEE17的装置,其中成分分析器被配置为预测属于不同类别的不同听觉复杂度,该类别包括以下至少一项:1)仅包括环境的类别,以及2)包括主要源和环境二者的类别,并且进一步属于包括以下至少一项的子类别:3)包括单个主要源和环境的类别,以及4)包括多个主要源和环境的类别。
EEE21.根据EEE17的装置,其中听觉复杂度分析器被配置为将具有线性或非线性函数的全局成分间特征进行组合,已得到音频复杂度得分。
EEE22.根据EEE17的装置,其中成分分析器被配置为:a.利用非线性函数按比例缩放音频复杂度得分,该复杂度得分是依赖于成分的,并且可根据是否保持音频信号的方向性或扩散性的偏好配置;b.利用另一非线性函数按比例缩放一个或多个局部特征;c.通过乘以上述两个按比例被缩放的值来计算针对每个成分的增益因子。
EEE23.成分分析器利用预学习的模型来配置,以用于基于一个或多个音频成分特征来预测扩散增益因子的结果。
EEE24.根据EEE23的装置,模型学习器被配置为:a.混合主要源和环境;b.将混合的音频信号分解为音频成分;c.计算音频成分特征,该特征包括成分间特征和/或成分内特征中的至少一项;d.基于上述混合模型计算针对每个成分的增益因子;e.应用递归和/或分类技术来训练模型,以基于音频成分特征来预测增益因子。
EEE25.根据EEE24的装置,其中增益确定器被配置为通过最小化与扩散到直达泄露有关的加权值和与直达到扩散泄露有关的加权值来估计增益因子。
将会理解,本发明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。
Claims (23)
1.一种用于分解来自至少两个不同声道的多个音频信号的方法,所述方法包括:
获得一组成分,所述一组成分是弱相关的,所述一组成分基于所述多个音频信号而生成;
从所述一组成分提取特征;
至少部分地基于所提取的特征来确定与所述一组成分相关联的一组增益,所述增益中的每个增益指示相关联的所述成分中的扩散部分的比例;以及
通过将所述一组增益应用到所述一组成分来分解所述多个音频信号。
2.根据权利要求1所述的方法,其中提取所述特征包括以下至少一项:
提取特定于所述成分中的一个成分的局部特征;以及
提取与所述一组成分有关的全局特征。
3.根据权利要求2所述的方法,其中提取所述局部特征包括以下至少一项:
确定所述成分中的所述一个成分在所述至少两个不同声道中的位置统计;以及
提取所述成分中的所述一个成分的音频纹理特征。
4.根据权利要求2所述的方法,其中提取所述全局特征包括:
基于所述成分的功率分布来提取所述全局特征。
5.根据权利要求4任一项所述的方法,其中基于所述成分的功率分布来提取所述全局特征包括以下至少一项:
确定所述成分的功率之间的差;以及
基于所述成分的归一化功率来计算熵。
6.根据权利要求4所述的方法,其中获得所述一组成分还包括:
获得第一组成分和第二组成分,所述第一组成分是弱相关的,所述第二组成分是弱相关的,所述第一组成分基于所述多个音频信号在子频带中生成,并且所述第二组成分基于所述多个音频信号在全频带或者时域中生成,并且
其中基于所述成分的功率分布来提取所述全局特征包括以下至少一项:
确定第一功率和第二功率之间的差,所述第一功率是所述第一组成分的较大功率,并且所述第二功率是所述第二组成分的较大功率;以及
确定与所述第一功率相关联的第一成分在所述至少两个不同声道中的第一位置统计以及与所述第二功率相关联的第二成分在所述至少两个不同声道中的第二位置统计之间的差。
7.根据权利要求1到6中的任一项所述的方法,还包括:
确定所述多个音频信号的复杂度,所述复杂度指示所述多个音频信号中的直达信号的数目;以及
基于所确定的复杂度来调整所述一组增益。
8.根据权利要求7所述的方法,其中确定所述一组增益包括:
基于所提取的特征以及是否保持所述多个音频信号的方向性或扩散性的偏好来确定所述一组增益。
9.根据权利要求1到6中的任一项所述的方法,其中确定所述一组增益包括:
基于所提取的特征和针对参考特征确定的一组参考增益来预测所述一组增益。
10.根据权利要求9所述的方法,还包括:
获得一组参考成分,所述一组参考成分是弱相关的,所述一组参考成分基于来自所述至少两个不同声道的多个已知音频信号而生成,所述多个已知音频信号具有所述参考特征;以及
确定与所述一组参考成分相关联的一组参考增益,以使得所述多个已知音频信号的方向性和扩散性的第一特性与方向性和扩散性的第二特征之间的差最小,所述第二特征通过借助将所述一组参考增益应用于所述一组参考成分来分解所述多个已知音频信号而获得。
11.根据权利要求10所述的方法,其中确定所述一组参考增益还包括:
基于是否保持所述多个已知音频信号的方向性或扩散性的偏好来确定所述一组参考增益。
12.一种用于分解来自至少两个不同声道的多个音频信号的系统,所述系统包括:
成分获得单元,被配置为获得一组成分,所述一组成分是弱相关的,所述一组成分基于所述多个音频信号而生成;
特征提取单元,被配置为从所述一组成分提取特征;
增益确定单元,被配置为至少部分地基于所提取的特征来确定与所述一组信号成分相关联的一组增益,所述增益中的每个增益指示相关联的所述成分中的扩散部分的比例;以及
分解单元,被配置为通过将所述一组增益应用到所述一组成分而分解所述多个音频信号。
13.根据权利要求12所述的系统,其中所述特征提取单元还被配置为执行以下至少一项:
提取特定于所述成分中的一个成分的局部特征;以及
提取与所述一组成分有关的全局特征。
14.根据权利要求13所述的系统,其中所述特征提取单元还被配置为执行以下至少一项:
确定所述成分中的所述一个成分在所述至少两个不同声道中的位置统计;以及
提取所述成分中的所述一个成分的音频纹理特征。
15.根据权利要求13所述的系统,其中所述特征提取单元还被配置为基于所述成分的功率分布来提取所述全局特征。
16.根据权利要求15任一项所述的系统,其中所述特征提取单元还被配置为执行以下至少一项:
确定所述成分的功率之间的差;以及
基于所述成分的归一化功率来计算熵。
17.根据权利要求15所述的系统,其中所述成分获得单元还被配置为:
获得第一组成分和第二组成分,所述第一组成分是弱相关的,所述第二组成分是弱相关的,所述第一组成分基于所述多个音频信号在子频带中生成,并且所述第二组成分基于所述多个音频信号在全频带或者时域中生成,并且
其中所述特征提取单元还被配置为执行以下至少一项:
确定第一功率和第二功率之间的差,所述第一功率是所述第一组成分的较大功率,并且所述第二功率是所述第二组成分的较大功率;以及
确定与所述第一功率相关联的第一成分在所述至少两个不同声道中的第一位置统计以及与所述第二功率相关联的第二成分在所述至少两个不同声道中的第二位置统计之间的差。
18.根据权利要求12到17中的任一项所述的系统,还包括:
复杂度确定单元,被配置为确定所述多个音频信号的复杂度,所述复杂度指示所述多个音频信号中的直达信号的数目;以及
增益调整单元,被配置为基于所确定的复杂度来调整所述一组增益。
19.根据权利要求18所述的系统,其中所述增益确定单元还被配置为:
基于所提取的特征和是否保持所述多个音频信号的方向性或扩散性的偏好来确定所述一组增益。
20.根据权利要求12到17中的任一项所述的系统,其中所述增益确定单元还被配置为:
基于所提取的特征和针对参考特征确定的一组参考增益来预测所述一组增益。
21.根据权利要求20所述的系统,其中所述成分获得单元还被配置为:
获得一组参考成分,所述一组参考成分是弱相关的,所述一组参考成分基于来自所述至少两个不同声道的多个已知音频信号而生成,所述多个已知音频信号具有所述参考特征;以及
所述系统还包括:
参考增益确定单元,被配置为确定与所述一组参考成分相关联的一组参考增益,以使得所述多个已知音频信号的方向性和扩散性的第一特性与方向性和扩散性的第二特征之间的差最小,所述第二特征通过借助将所述一组参考增益应用于所述一组参考成分来分解所述多个已知音频信号而获得。
22.根据权利要求21所述的系统,其中所述参考增益确定单元还被配置为:
基于是否保持所述多个已知音频信号的方向性或扩散性的偏好来确定所述一组参考增益。
23.一种用于分解来自至少两个不同声道的多个音频信号的计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读存储介质上,并且包括机器可执行指令,所述指令在被执行时使得所述机器执行根据权利要求1到11任一项所述的方法的步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410357288.8A CN105336332A (zh) | 2014-07-17 | 2014-07-17 | 分解音频信号 |
PCT/US2015/040403 WO2016011048A1 (en) | 2014-07-17 | 2015-07-14 | Decomposing audio signals |
EP15747639.1A EP3170174B1 (en) | 2014-07-17 | 2015-07-14 | Decomposing audio signals |
US15/326,378 US10453464B2 (en) | 2014-07-17 | 2015-07-14 | Decomposing audio signals |
US16/577,467 US10650836B2 (en) | 2014-07-17 | 2019-09-20 | Decomposing audio signals |
US16/869,477 US10885923B2 (en) | 2014-07-17 | 2020-05-07 | Decomposing audio signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410357288.8A CN105336332A (zh) | 2014-07-17 | 2014-07-17 | 分解音频信号 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105336332A true CN105336332A (zh) | 2016-02-17 |
Family
ID=55078993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410357288.8A Pending CN105336332A (zh) | 2014-07-17 | 2014-07-17 | 分解音频信号 |
Country Status (4)
Country | Link |
---|---|
US (3) | US10453464B2 (zh) |
EP (1) | EP3170174B1 (zh) |
CN (1) | CN105336332A (zh) |
WO (1) | WO2016011048A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176826B2 (en) | 2015-02-16 | 2019-01-08 | Dolby Laboratories Licensing Corporation | Separating audio sources |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105336332A (zh) * | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
CN105992120B (zh) | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
CN105989851B (zh) | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
CN106297820A (zh) | 2015-05-14 | 2017-01-04 | 杜比实验室特许公司 | 具有基于迭代加权的源方向确定的音频源分离 |
US9666192B2 (en) | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US10559303B2 (en) * | 2015-05-26 | 2020-02-11 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
CN105223575B (zh) * | 2015-10-22 | 2016-10-26 | 广州极飞科技有限公司 | 无人机、无人机的测距滤波方法及基于该方法的测距方法 |
US10923132B2 (en) | 2016-02-19 | 2021-02-16 | Dolby Laboratories Licensing Corporation | Diffusivity based sound processing method and apparatus |
US11152014B2 (en) | 2016-04-08 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Audio source parameterization |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8363865B1 (en) | 2004-05-24 | 2013-01-29 | Heather Bottum | Multiple channel sound system using multi-speaker arrays |
US8494667B2 (en) * | 2005-06-30 | 2013-07-23 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US9088855B2 (en) * | 2006-05-17 | 2015-07-21 | Creative Technology Ltd | Vector-space methods for primary-ambient decomposition of stereo audio signals |
US8712061B2 (en) | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
US20080219466A1 (en) * | 2007-03-09 | 2008-09-11 | Her Majesty the Queen in Right of Canada, as represented by the Minister of Industry, through | Low bit-rate universal audio coder |
RU2472306C2 (ru) * | 2007-09-26 | 2013-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды |
CN101981811B (zh) * | 2008-03-31 | 2013-10-23 | 创新科技有限公司 | 音频信号的自适应主体-环境分解 |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
PL2154677T3 (pl) | 2008-08-13 | 2013-12-31 | Fraunhofer Ges Forschung | Urządzenie do wyznaczania konwertowanego przestrzennego sygnału audio |
EP2154911A1 (en) | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
KR20110049863A (ko) | 2008-08-14 | 2011-05-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호 트랜스포맷팅 |
US8023660B2 (en) | 2008-09-11 | 2011-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
US8964994B2 (en) * | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
TWI444989B (zh) | 2010-01-22 | 2014-07-11 | Dolby Lab Licensing Corp | 針對改良多通道上混使用多通道解相關之技術 |
US8908874B2 (en) | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
EP2464146A1 (en) * | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
JP6009547B2 (ja) * | 2011-05-26 | 2016-10-19 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | オーディオ・システム及びオーディオ・システムのための方法 |
KR101803293B1 (ko) | 2011-09-09 | 2017-12-01 | 삼성전자주식회사 | 입체 음향 효과를 제공하는 신호 처리 장치 및 신호 처리 방법 |
US9253574B2 (en) * | 2011-09-13 | 2016-02-02 | Dts, Inc. | Direct-diffuse decomposition |
CN104704558A (zh) | 2012-09-14 | 2015-06-10 | 杜比实验室特许公司 | 基于多声道音频内容分析的上混检测 |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
RS1332U (en) | 2013-04-24 | 2013-08-30 | Tomislav Stanojević | FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS |
US9767846B2 (en) * | 2014-04-29 | 2017-09-19 | Frederick Mwangaguhunga | Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources |
CN105336332A (zh) * | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
CN105992120B (zh) * | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
-
2014
- 2014-07-17 CN CN201410357288.8A patent/CN105336332A/zh active Pending
-
2015
- 2015-07-14 EP EP15747639.1A patent/EP3170174B1/en active Active
- 2015-07-14 WO PCT/US2015/040403 patent/WO2016011048A1/en active Application Filing
- 2015-07-14 US US15/326,378 patent/US10453464B2/en active Active
-
2019
- 2019-09-20 US US16/577,467 patent/US10650836B2/en active Active
-
2020
- 2020-05-07 US US16/869,477 patent/US10885923B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176826B2 (en) | 2015-02-16 | 2019-01-08 | Dolby Laboratories Licensing Corporation | Separating audio sources |
Also Published As
Publication number | Publication date |
---|---|
EP3170174A1 (en) | 2017-05-24 |
EP3170174B1 (en) | 2024-03-27 |
US20200013419A1 (en) | 2020-01-09 |
US10453464B2 (en) | 2019-10-22 |
WO2016011048A1 (en) | 2016-01-21 |
US20170206907A1 (en) | 2017-07-20 |
US20200265849A1 (en) | 2020-08-20 |
US10885923B2 (en) | 2021-01-05 |
US10650836B2 (en) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105336332A (zh) | 分解音频信号 | |
US10176826B2 (en) | Separating audio sources | |
Smaragdis | Non-negative matrix factor deconvolution; extraction of multiple sound sources from monophonic inputs | |
US10111022B2 (en) | Processing object-based audio signals | |
Elvira et al. | Efficient multiple importance sampling estimators | |
EP3257044B1 (en) | Audio source separation | |
CN104683933A (zh) | 音频对象提取 | |
JPWO2005024788A1 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
CN106816158A (zh) | 一种语音质量评估方法、装置及设备 | |
Mirzaei et al. | Blind audio source counting and separation of anechoic mixtures using the multichannel complex NMF framework | |
US20150243289A1 (en) | Multi-Channel Audio Content Analysis Based Upmix Detection | |
JP7224302B2 (ja) | マルチチャネル空間的オーディオ・フォーマット入力信号の処理 | |
CN105657633A (zh) | 生成针对音频对象的元数据 | |
CN103875197A (zh) | 直接-发散分解 | |
CN103229236B (zh) | 信号处理装置、信号处理方法 | |
Han et al. | Speech emotion recognition based on Gaussian kernel nonlinear proximal support vector machine | |
CN105335595A (zh) | 基于感受的多媒体处理 | |
CN106297820A (zh) | 具有基于迭代加权的源方向确定的音频源分离 | |
Qin et al. | H i HOD. I. The Halo Occupation Distribution of H i Galaxies | |
Mirzaei et al. | Under-determined reverberant audio source separation using Bayesian non-negative matrix factorization | |
CN113241090B (zh) | 一种基于最小体积约束的多通道盲声源分离方法 | |
WO2018208560A1 (en) | Processing of a multi-channel spatial audio format input signal | |
US20180122626A1 (en) | Systems and Methods to Process and Group Chromatographic Peaks | |
Dubnov et al. | Audio segmentation by singular value clustering | |
George et al. | Initial developments of an objective method for the prediction of basic audio quality for surround audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160217 |