CN109644304A - 混响环境的源分离 - Google Patents
混响环境的源分离 Download PDFInfo
- Publication number
- CN109644304A CN109644304A CN201780052977.XA CN201780052977A CN109644304A CN 109644304 A CN109644304 A CN 109644304A CN 201780052977 A CN201780052977 A CN 201780052977A CN 109644304 A CN109644304 A CN 109644304A
- Authority
- CN
- China
- Prior art keywords
- source
- reconstruction model
- microphone
- estimation
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 225
- 238000000926 separation method Methods 0.000 claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims description 182
- 239000011159 matrix material Substances 0.000 claims description 81
- 238000002156 mixing Methods 0.000 claims description 13
- 241000209140 Triticum Species 0.000 claims description 11
- 235000021307 Triticum Nutrition 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 59
- 238000012549 training Methods 0.000 description 22
- 238000012360 testing method Methods 0.000 description 18
- 230000004913 activation Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 241000208340 Araliaceae Species 0.000 description 7
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 7
- 235000003140 Panax quinquefolius Nutrition 0.000 description 7
- 235000008434 ginseng Nutrition 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 241000345998 Calamus manan Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- JPKIKAADNMFDRS-UHFFFAOYSA-N phenanthrene;hydrate Chemical compound O.C1=CC=C2C3=CC=CC=C3C=CC2=C1 JPKIKAADNMFDRS-UHFFFAOYSA-N 0.000 description 2
- 235000012950 rattan cane Nutrition 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 240000001619 Prunus glandulosa Species 0.000 description 1
- 235000018992 Prunus glandulosa Nutrition 0.000 description 1
- 235000013999 Prunus japonica Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H21/00—Adaptive networks
- H03H21/0012—Digital adaptive filters
- H03H21/0025—Particular filtering methods
- H03H2021/0034—Blind source separation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
本发明揭示混响环境的源分离的实施例。根据方法,分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号。通过处理器基于所述第一麦克风信号学习用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数。分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。所述处理器通过应用所述重建模型而执行所述源分离。
Description
技术领域
本文中揭示的实例实施例涉及音频信号处理。更具体来说,实例实施例涉及从在混响环境中捕获的音频混合物的源分离。
背景技术
以多声道格式(例如,立体声、波束形成、5.1、7.1及类似者)呈现的混合音频信号是通过在演播室中混合不同音频源来创建,或从真实环境中的各种音频源的多个录音产生。源分离可用于广泛范围的音频处理应用。例如,当使用一或多个麦克风录制听觉场景时,优选地分离声源相依信息以用于各种后续音频处理任务。此类应用的实例包含重新混合/重新创作应用、空间音频编码、3D声音分析及合成,以及在扩展回放环境(而非原始的混合音频信号)中呈现源。其它应用需要源参数以实现源特定分析及后处理,例如音调校正、时间扭曲、声音效果、增强、衰减或调平某些源。
源分离包括在给定混合信号的情况下恢复源信号或其空间图像。大多数现有方法经由短时傅立叶(Fourier)变换(STFT)将信号变换到时频域,并通过复值混合矩阵或空间协方差矩阵近似表示每一频段中的混合过程。接着通过估计全部频段中的混合矩阵或空间协方差并导出源STFT系数来实现源分离。恢复源信号的实例方法是通过估计混合矩阵且随后导出源STFT系数,如A.奥泽洛夫(A.Ozerov)、C.菲沃特(C.Fevotte)的“用于音频源分离的卷积混合物中的多声道非负矩阵分解(Multichannel Nonnegative MatrixFactorization in Convolutive Mixtures for Audio Source Separation)”,IEEETrans ASLP,第18卷,第3号,2010年中描述,所述案的内容的全文以引用的方式并入本文中(此后称为“参考案1”)。恢复源的空间图像的另一实例方法是通过估计空间协方差并导出源STFT系数,如越Q.K.棠(Ngoc Q.K.Duong)、E.文森特(E.Vincent)、R.格力博瓦特(R.Gribonvoal)的“欠定混响音频源分离的空间协方差模型(Spatial Covariance Modelsfor Under-determined Reverberant Audio Source Separation)”,关于信号处理在音频及声学中的应用的IEEE研讨会,2009年中描述,所述案的内容的全文以引用的方式并入本文中(此后称为“参考案2”)。
发明内容
本文中揭示的实例实施例描述一种产生用于源分离的重建模型的方法。根据所述方法,通过处理器基于第一麦克风信号学习用于对至少一个源与至少两个麦克风之间的声路建模的混合参数。假定针对所述至少一个源中的每一个别者的所述第一麦克风信号分别由所述至少两个麦克风针对其间仅所述个别者产生声音的时段捕获。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。假定所述第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获。
本文中揭示的实例实施例还描述一种用于源分离的方法。根据所述方法,分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号。通过处理器基于所述第一麦克风信号学习用于对至少一个源与所述至少两个麦克风之间的声路建模的混合参数。分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。所述处理器通过应用所述重建模型而执行所述源分离。
下文参考附图详细描述本文中揭示的实例实施例的进一步特征及优点以及实例实施例的结构及操作。应注意,本文中仅为了说明性目的呈现实例实施例。(若干)相关领域的技术人员基于本文中含有的教示将明白额外实施例。
附图说明
本文中揭示的实施例在附图的图中通过实例而非通过限制说明且其中相同元件符号是指类似元件且其中:
图1是说明根据实例实施例的产生用于源分离的重建模型的实例方法的流程图;
图2是示意性地说明在实例实施例中源与麦克风之间的实例关系的图式;
图3是说明根据实例实施例的用于源分离的实例方法的流程图;
图4是说明根据实例实施例的产生用于源分离的重建模型的实例方法的流程图;
图5是说明根据实例实施例的用于源分离的实例方法的流程图。
图6是说明在实例实施例中学习混合参数及频谱基的实例过程的流程图,且图7是说明在此实施例中估计重建模型的实例过程的流程图;
图8是示意性地说明根据实例实施例的经由判别式非负矩阵分解(DNMF)方法估计频谱基的过程的图式;
图9是说明根据实例实施例的学习混合参数及频谱基的实例过程的流程图。
图10是说明根据实例实施例的将混合参数、频谱基及激活参数估计为M步骤的模型参数的实例过程的流程图;
图11是说明根据实例实施例的学习混合参数及频谱基的实例过程的流程图;
图12是说明在实例实施例中学习混合参数及频谱基的实例过程的流程图,且图13是说明在此实施例中估计重建模型的实例过程的流程图;及
图14是说明执行重建模型的估计的实例过程的流程图。
具体实施方式
通过参考图式描述实例实施例。应注意,为了简洁起见,在图式及描述中省略关于所属领域的技术人员已知但与实例实施例无关的那些组件及过程的表示及描述。
如所属领域的技术人员将了解,实例实施例的方面可体现为系统、方法或计算机程序产品。因此,实例实施例的方面可采取完整硬件实施例、完整软件实施例(包含固件、常驻软件、微代码等)或组合在本文中可全部统称为“电路”、“模块”或“系统”的软件及硬件方面的实施例的形式。此外,实例实施例的方面可采取有形地体现于其上体现计算机可读程序码的一或多个计算机可读媒体中的计算机程序产品的形式。
下文参考方法、设备(以及系统)及计算机程序产品的流程图说明及/或框图描述实例实施例的方面。将理解,流程图说明及/或框图的每一框及流程图说明及/或框图中的框的组合可通过计算机程序指令实施。这些计算机程序指令可提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器,使得经由计算机或其它可编程数据处理设备执行的指令创建用于实施流程图及/或框图的(若干)框中指示的功能/动作的构件。
源分离问题在混响环境中尤其困难。实际上,因为录音室的墙壁上的许多不同位置处的回声,所以混响增加每一源的空间传播。已在其中已知源位置及一些房间特性的特定背景中展示最先进方法的有效性。例如,在参考案2中描述的方法中,在假定源空间协方差矩阵已知的情况下证明混响语音混合物的源分离。然而,这对于大多数真实世界应用通常不实际,这是因为此信息通常不可用或无法获得,此信息包含麦克风的设置及源的位置、房间形状、大小、墙反射因数。
鉴于前述内容,提出用于在不知道关于录音装置的性质、房间的声学性质等的任何现有信息的情况下仅通过分析经录制音频信号而在半监督式背景中进行源分离的解决方案。
具体来说,解决方案包含用于估计用于源分离的重建模型的训练阶段及测试阶段。训练阶段具有与测试阶段相同的环境设置。每一源发出声音达特定时段(例如,几秒或至多几分钟作为典型排练长度,且内容不需要与其在测试阶段中的相同)。针对每一个别源进行多声道麦克风录制。在训练阶段中,学习参数(例如,混合参数及频谱基),所述参数取决于每一个别源及个别源与麦克风之间的声路(包含混合路径及房间脉冲响应(RIR))。由于这些参数与除参数所取决的个别源之外的源不相干,所以可仅在个别源发出声音时捕获麦克风信号且可基于麦克风信号学习参数而无其它源引发的干扰及复杂性。在测试阶段中,估计重建模型,其中在训练阶段中学习的参数固定。此外,在测试阶段中,估计取决于全部源的参数。因为已在训练阶段学习一些参数且其在测试阶段中不变或至少一致,所以可在测试阶段中以较高准确性及较低复杂性实现估计。
图1是说明根据实例实施例的产生用于源分离的重建模型的实例方法100的流程图。
根据图1,方法100从步骤101开始。在步骤103(训练阶段)处,基于麦克风信号x1、…、xI学习用于对源s1、…、sJ与麦克风mic1、…、micI之间的声路建模的混合参数A。假定针对源s1、…、sJ的每一源sj(j=1,…,J)的麦克风信号xj,1、…、xj,I分别由麦克风mic1、…、micI在仅源sj产生声音的时段内捕获。基于麦克风信号xj,1、…、xj,I学习用于对源sj与麦克风mic1、…、micI之间的声路建模的混合参数Aj。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。
在步骤105(测试阶段)处,基于在训练阶段中学习的混合参数及麦克风信号x’1、…、x’I估计重建模型。假定麦克风信号x’1、…、x’I分别由麦克风mic1、…、micI针对在其间全部源s1、…、sJ产生声音的时段捕获。在此步骤中,可通过使用在步骤103中学习的混合参数作为固定参数而应用估计重建模型的任何已知方法。在步骤107处,方法100结束。
在方法100中,一或多个源或其空间图像可由重建模型重建。数字J可为一个或一个以上。
在方法100中,要由重建模型针对源重建的信号可为源自身(例如,源信号)或麦克风上的源的空间图像。麦克风上的源的空间图像是源在由麦克风捕获的麦克风信号中的贡献。在空间图像的情况中,不需要重建源。
图3是说明根据实例实施例的用于源分离的实例方法300的流程图。根据图3,方法300从步骤301开始。
在步骤303处,针对源s1、…、sJ的每一源sj(j=1,…,J)的麦克风信号xj,1、…、x j,I分别由麦克风mic1、…、micI针对其间仅源sj产生声音的时段捕获。
在步骤305处,基于麦克风信号x1、…、xI学习用于对源s1、…、sJ与麦克风mic1、…、micI之间的声路建模的混合参数A。针对每一源sj(j=1,…,J),基于麦克风信号xj,1、…、xj,I学习用于对源sj与麦克风mic1、…、micI之间的声路建模的混合参数Aj。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。
在步骤307处,麦克风信号x’1、…、x’I分别由麦克风mic1、…、micI针对在其间全部源s1、…、sJ产生声音的时段捕获。
在步骤309处,基于在训练阶段中学习的混合参数及麦克风信号x’1、…、x’I估计重建模型。在此步骤中,可通过使用在步骤305中学习的混合参数作为固定参数而应用估计重建模型的任何已知方法。
在步骤311处,通过应用重建模型而执行源分离。在步骤313处,方法300结束。
在方法300中,步骤307也可在步骤305之前的任何时间执行。步骤303及307可在录音装置上执行。步骤305及309可在一个服务器或一或多个服务器及/或分布式服务器上执行。经捕获麦克风信号可(例如)经由存储媒体、通信连接或网络从录音装置传送到服务器用于执行训练阶段及测试阶段。可将经估计重建模型从服务器传送到录音装置,使得录音装置可将重建模型应用到经捕获麦克风信号用于源分离。还可将由录音装置录制的麦克风信号传送到除录音装置之外的装置,或甚至到服务器,使得装置或服务器可将重建模型应用到经捕获麦克风信号用于源分离。
可在方法中根据本文中揭示的实例实施例使用基于混合参数的各种重建模型。此外,可在方法中根据本文中揭示的实例实施例使用用于估计重建模型且用于学习混合参数的各种方法。将在下文中详细描述一些实例。
在进一步实例实施例中,重建模型经调适以重建麦克风mic1、…、micI上的源s1、…、sJ的空间图像。
在实例案例中,源s1、…、sJ的每一源sj可在麦克风mic1、…、micI的每一麦克风mici上产生空间图像sji img。也就是说,每一源sj可分别在麦克风mic1、…、micI上产生I个空间图像sj1 img、…、sjI img。在训练阶段中,针对源sj的麦克风信号可表达为
其中sji img=ai,jsj,sj表示源sj,ai,j表示源sj与麦克风mici,i=1、…、I之间的声路。针对每一源sj的混合参数可特性化为表示麦克风mic1、…、micI上的源sj的空间图像sj1 img、…、sjI img与麦克风mic1、…、micI中的参考者(在此实例中为mic1)上的源sj的空间图像sj1 img之间的比率。参考麦克风可为麦克风mic1、…、micI中的任一者。也在此实例中,在测试阶段中,麦克风信号可表达为
其中表示在测试阶段中的源sj。此实例中可使用基于此类混合参数的任何重建模型。可通过将更详细描述的维纳(Wiener)滤波方法实施一个实例重建模型。
在另一实例案例中,每一源sj可分别在麦克风mic1、…、micI上产生I个空间图像sj1 img、…、sjI img。针对每一源sj的混合参数可特性化为源sj的空间协方差,表示源sj的空间性质。
此实例中可使用基于此类混合参数的任何重建模型。
在进一步实例实施例中,重建模型经调适以重建原始源s1、…、sJ中的每一者的源信号。混合参数对原始源s1、…、sJ与麦克风mic1、…、micI之间的声路建模。图2是示意性地说明在此实施例中原始源与麦克风之间的关系的图式。如图2中说明,混合参数Aj=[α1j,…,αIj]T对原始源sj与麦克风mic1、…、micI之间的声路建模。
在此实施例中,频域中的卷积混合模型可近似表示为:
Xfn=AfSfn+Bf (1)
其中
f=1、…、F表示频段指数,n=1、…、N表示时间帧指数,I表示麦克风的数目,J表示源的数目,Xfn是表示针对第f个频段及第n个时间帧的I个麦克风信号的STFT的I×1矩阵,Bf是表示针对第f个频段的I声道噪声的STFT的I×1矩阵,且这些变量在以下方程式中具有相同意义。
Sfn是表示针对第f个频段及第n个时间帧的J个未知源的STFT的J×1矩阵,
Af=[αij]f是表示针对第f个频段的混合参数(其是频率相依且非时变的)的I×J矩阵。
非负矩阵分解(NMF)及判别式非负矩阵分解是用于通过将每一源的频谱图建模为基向量的非负组合(也称为频谱基)而进行源分离的方法。频谱基是源相依的且可从源的音频样本学习。还可在训练阶段中学习源的频谱基且在测试阶段中使用经学习频谱基。
图4是说明根据实例实施例的产生用于源分离的重建模型的实例方法400的流程图。根据图4,方法400从步骤401开始。
在步骤403(训练阶段)处,基于麦克风信号x1、…、xI学习用于对源s1、…、sJ与麦克风mic1、…、micI之间的声路建模的混合参数A。还基于麦克风信号x1、…、xI学习源的频谱基。可经由非负矩阵分解方法或判别式非负矩阵分解方法学习频谱基。假定针对源s1、…、sJ的每一源sj(j=1,…,J)的麦克风信号xj,1、…、xj,I分别由麦克风mic1、…、micI针对其间仅源sj产生声音的时段捕获。基于麦克风信号xj,1、…、xj,I学习用于对源sj与麦克风mic1、…、micI之间的声路建模的混合参数Aj以及相关联的频谱基。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。
在步骤405(测试阶段)处,基于在训练阶段中学习的混合参数及频谱基以及麦克风信号x’1、…、x’I估计重建模型。假定麦克风信号x’1、…、x’I分别由麦克风mic1、…、micI针对在其间全部源s1、…、sJ产生声音的时段捕获。在此步骤中,可通过使用在步骤403中学习的混合参数及频谱基作为固定参数而应用估计重建模型的任何已知方法。在步骤407处,方法400结束。
图5是说明根据实例实施例的用于源分离的实例方法500的流程图。根据图5,方法500从步骤501开始。
在步骤503处,针对源s1、…、sJ的每一源sj(j=1,…,J)的麦克风信号xj,1、…、x j,I分别由麦克风mic1、…、micI针对其间仅源sj产生声音的时段捕获。
在步骤505处,基于麦克风信号x1、…、xI学习用于对源s1、…、sJ与麦克风mic1、…、micI之间的声路建模的混合参数A。还基于麦克风信号x1、…、xI学习源的频谱基。可经由非负矩阵分解方法或判别式非负矩阵分解方法学习频谱基。针对每一源sj(j=1,…,J),基于麦克风信号xj,1、…、xj,I学习用于对源sj与麦克风mic1、…、micI之间的声路建模的混合参数Aj以及相关联的频谱基。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。
在步骤507处,麦克风信号x’1、…、x’I分别由麦克风mic1、…、micI针对在其间全部源s1、…、sJ产生声音的时段捕获。
在步骤509处,基于在训练阶段中学习的混合参数及频谱基以及麦克风信号x’1、…、x’I估计重建模型。在此步骤中,可通过使用在步骤505中学习的混合参数及频谱基作为固定参数而应用估计重建模型的任何已知方法。
在步骤511处,通过应用重建模型而执行源分离。在步骤513处,方法500结束。
在学习混合参数、频谱基或重建模型中,可应用迭代算法来更新各个参数(例如混合参数、频谱基、激活参数、源的功率谱图等)的估计。例如,迭代算法的终止准则可为已达到最大允许迭代计数,或已到达混合参数已收敛的条件(例如,经估计参数或基于经估计参数的成本在两个连续迭代之间的改变足够小)。实例收敛条件可表达为:
其中|| ||F表示弗罗贝尼乌斯(Frobenius)范数,Anew及Aold表示在当前迭代及先前迭代中估计的混合参数,且Γ表示阈值。
在方法400或方法500的进一步实施例中,在每一源的功率谱图收敛的条件下完成估计重建模型。估计重建模型包括从源的经估计协方差导出功率谱图。图6是说明在此实施例中学习混合参数及频谱基的实例过程600的流程图。图7是说明在此实施例中估计重建模型的实例过程700的流程图。在过程600及700中使用期望最大化(EM)算法。
如图6中说明,过程600从步骤601开始。在步骤603处,将计数器j设置为(例如)1。在另一实例实施例中,可将要估计的参数设置为初始值。在步骤605处,执行EM迭代的期望(E)步骤,其中将源的功率谱图、重建滤波器(例如维纳滤波器、扩展卡尔曼(Kalman)滤波器及类似者)、源之间的频谱协方差矩阵以及麦克风与源之间的交叉协方差矩阵估计为中间参数。
例如,可将J个源的功率谱图估计为:
即,
其中w1,...J,fk及h1,...J,kn是矩阵W1,...J及H1,...J的元素,且K是源sj特定的频谱分量的数目。{Wj,Hj}的形式使用语义上有意义(可解释)的表示来对源建模。是涉及源sj的频谱分量作为列向量的非负矩阵。是具有对应于每一频谱分量的激活的行向量的非负矩阵。Wj被称为源sj的频谱基。Hj被称为源sj的激活参数。
例如,可将维纳滤波器估计为
其中∑b,f是噪声的功率谱图,且可经由各种已知方法估计,且Af是在方程式1中使用的混合参数。
例如,可将源之间的频谱协方差矩阵估计为
其中CX,fn是麦克风之间的协方差矩阵。
例如,可将麦克风与源之间的交叉协方差矩阵估计为
在过程600中针对源sj的每一迭代的背景中,源的数目J=1,这是因为仅存在一个所考虑源。
在步骤607处,执行EM迭代的最大化(M)步骤,其中基于在步骤605处估计的中间参数将针对源sj的混合参数、频谱基及激活参数估计为模型参数。
例如,可将混合参数估计为
例如,可通过迭代地应用方程式7及方程式8直到收敛而估计频谱基及激活参数。例如,如果基于经估计频谱基及激活参数的成本足够小,那么迭代可收敛。在C.菲沃特、N贝尔坦(N Bertin)、JL杜列乌(JLDurrieu)的“使用板仓-斋藤(Itakura-Saito)散度的非负矩阵分解:应用于音乐分析(Nonnegative matrix factorization with the Itakura-Saitodivergence:With application to music analysis)”,神经计算,2009年中使用方程式2描述收敛准则的实例,所述案的内容的全文以引用的方式并入本文中(此后称为“参考案3”)。
其中Vj是的简化表示,其为在M步骤中估计的源的功率谱图,1P,Q代表具有维度P×Q的全单元素矩阵,⊙及分别代表元素乘积及除法。
在另一实例实施例中,为了移除尺度及相位模糊,可在每一EM迭代中通过施加∑i|aij,f|2=1.、∑fWj,fk=1且接着相应地按比例缩放Hj的行而重新归一化参数Af、Wj、Hj。
在步骤609处,确定在M步骤中估计的混合参数是否收敛。如果在M步骤中估计的混合参数收敛,那么过程600进行到步骤611,且如果未收敛,那么过程600返回到步骤605。
在步骤611处,使计数器j递增。在步骤613处,确定计数器j是否超过要由重建模型重建的源的数目。如果计数器j超过要由重建模型重建的源的数目,那么过程600进行到步骤615。在另一实例实施例中,可将要估计的参数设置为初始值。如果未超过,那么过程600返回到步骤605。在步骤615处,过程600结束。
在过程600中,通过使用EM估计而针对每一个别源计算频谱基及混合参数。这表示全部源被独立地训练,且因此可并行而非串行执行针对不同源的EM估计。
如图7中说明,过程700从步骤701开始。在过程700中,在针对其对应源的EM估计中输入经由过程600学习的频谱基及混合参数作为固定参数。
在步骤703处,执行EM迭代的期望(E)步骤,其中将源的功率谱图、重建滤波器(例如维纳滤波器、扩展卡尔曼滤波器及类似者)、源之间的频谱协方差矩阵以及麦克风与源之间的交叉协方差矩阵估计为中间参数。
例如,可通过使用方程式2估计J个源的功率谱图其中经由过程600学习的频谱基固定。J表示要由重建模型重建的源的数目。可通过使用方程式3估计此维纳滤波器其中经由过程600学习的混合参数固定。可通过使用方程式4估计源之间的频谱协方差矩阵
在步骤705处,执行EM迭代的最大化(M)步骤,其中基于在步骤703处估计的中间参数将针对源的激活参数估计为模型参数。
例如,可通过迭代地应用方程式8直到收敛而估计激活参数。
在步骤707处,确定在M步骤中估计的功率谱图是否收敛。如果在M步骤中估计的功率谱图收敛,那么过程700进行到步骤709,且如果未收敛,那么过程700返回到步骤703。在步骤709处,过程700结束。
在图6及7中说明的过程中,针对训练阶段且针对测试阶段区别使用源频谱性质及空间性质的不同约束模型。因此,可处理可用现有信息且将其嵌入估计过程中。
在图6及7中说明的过程中,使用IS(板仓-斋藤)散度以例示非负矩阵分解算法。所属领域的技术人员可了解,其它类型的散度也适用。
在测试阶段中的EM迭代达到收敛准则之后,通过应用维纳滤波而重建源的STFT,如在方程式9中给出,其中维纳滤波器是使用方程式3计算。在经估计源及相加噪声在STFT域以及时域中加总到原始输入音频的意义上,此维纳重建是保守的。
替代地,在结合图6及7描述的方法400或方法500的进一步实施例中,过程600可使用经由判别式非负矩阵分解方法学习频谱基的过程替代。图9是说明根据实例实施例的学习混合参数及频谱基的此实例过程900的流程图。
如图9中说明,过程900从步骤901开始。
在过程900中,针对要由重建模型重建的每一源sj,步骤905-j、907-j及909-j的分支j与其它分支并行开始。除训练不同源之外,全部分支具有相同功能。因此,仅提供所述分支中的分支j的详细描述。
在步骤905-j处,执行EM迭代的期望(E)步骤,其中将源的功率谱图、重建滤波器(例如维纳滤波器、扩展卡尔曼滤波器及类似者)、源之间的频谱协方差矩阵以及麦克风与源之间的交叉协方差矩阵估计为中间参数。例如,可使用方程式2估计J个源的功率谱图可使用方程式3估计维纳滤波器可使用方程式4估计源之间的频谱协方差矩阵可使用方程式5估计麦克风与源之间的交叉协方差矩阵在过程900中的每一分支j的背景中,源的数目J=1,这是因为仅存在一个所考虑源。
在步骤907-j处,执行EM迭代的最大化(M)步骤,其中基于在步骤905-j处估计的中间参数将针对源sj的混合参数、频谱基及激活参数估计为模型参数。例如,可使用方程式6估计混合参数。
例如,可通过迭代地应用方程式10及方程式11直到收敛而估计频谱基及激活参数。
其中λ是用于执行稀疏正规化的参数。这里使用广义KL散度来例示非负矩阵分解算法。1P,Q代表具有维度P×Q的全单元素矩阵,⊙及分别代表元素乘积及除法。在图8中说明Vj,l,。
图8是示意性地说明根据实例实施例的经由判别式非负矩阵分解方法估计频谱基的过程的图式。
如图8中展示,针对在训练阶段中在处理中的目标源的功率谱图Vj,其干扰源是通过加总全部剩余源的功率谱图(V′=∑p≠jVp)且每τ帧循环V′而形成。以此方式,通过分别将其与目标源的功率谱图Vj相加,可针对每一目标源的功率谱图Vj:Vj,1、Vj,2、...、Vj,N/τ产生N/τ个混合源的功率谱图Vj,l。由源形成混合源的全部可能组合的详尽数目远高于N/τ。然而,在此实施例中,通过仅循环全部剩余源的总和而将数目按比例缩小到N/τ。
可通过计算而估计目标源的功率谱图Vj。将目标源的功率谱图Vj输出到其它分支,使得每一分支可计算其功率谱图V′=∑p≠jVp。因此,如果每一分支还未接收全部剩余源的功率谱图,那么其必须在应用方程式10及方程式11之前等待所述功率谱图。
在另一实例实施例中,为了移除尺度及相位模糊,可在每一EM迭代中通过施加∑i|aij,f|2=1.、∑fWjf,k=1且接着相应地按比例缩放Hj的行而重新归一化参数Af、Wj、Hj。
在步骤909-j处,确定在M步骤中估计的混合参数是否收敛。如果在M步骤中估计的混合参数收敛,那么分支j进行到步骤913,且如果未收敛,那么分支j返回到步骤905-j。
在步骤913处,确定是否已训练全部源。如果已训练全部源,那么过程900进行到步骤915。如果未训练全部源,那么过程900重复步骤913。在步骤915处,过程900结束。
通过使用过程900替代过程600,可在无来自其它源的干扰的情况下重建干净的源。
此外,在过程900中,在学习期间,判别式学习过程与EM估计过程共同执行,使得在考虑空间及频谱信息两者的算法内部判别地优化频谱基,从而促进根据混合源计算重建信号。
在一些应用案例中,从源的集合/库/超集(通常来自一组已知源)预学习频谱基是可行的。因为源已知,所以源的功率谱图也已知。可通过迭代地应用方程式7及方程式8或方程式10及方程式11直到收敛而预学习频谱基。这使从干净的干源的超集学习频谱基成为可能,因此其独立于现场房间、麦克风及录音设置。此工作可完全离线完成,因此其非计算敏感。
在结合图6及7描述的方法400或方法500的进一步实施例中,可参考一组经预学习频谱基执行步骤607。图10是说明根据实例实施例的将混合参数、频谱基及激活参数估计为M步骤的模型参数的此实例过程1000的流程图。
如图10中说明,过程1000从步骤1001开始。
在步骤1003处,基于在步骤605处估计的中间参数将混合参数估计为模型参数。例如,可使用方程式6估计混合参数。
在步骤1005处,确定是否已从一组频谱基发现针对源sj的频谱基。如果是,那么过程1000进行到步骤1007。如果否,那么过程1000进行到步骤1009。
在步骤1009处,基于频谱基组W’1、...、W’P的每一频谱基W’p及针对其间仅源sj产生声音的时段捕获的源sj的麦克风信号计算源sj的估计。
在步骤1011处,从所述经估计源选择与源sj最近似的经估计源。
在步骤1013处,将用于计算选定经估计源的组中的频谱基W’q设置为要确定的频谱基。
在步骤1007处,可通过迭代地应用方程式8或10直到收敛,且通过将Wi固定为频谱基W’q而估计激活参数。
在另一实例实施例中,为了移除尺度及相位模糊,可在每一EM迭代中通过施加∑i|aij,f|2=1.、∑fWj,fk=1且接着相应地按比例缩放Hj的行而重新归一化参数Af、Wj、Hj。
在步骤1015处,过程1000结束。
在实例中,可将步骤1009的源sj的估计计算为功率谱图Vj。将每一经预学习频谱基Wj(其中及是针对给定应用的全部源的超集)保持固定且应用到方程式8或10以迭代地估计Hj直到收敛。在步骤1011处,搜索从全部非负矩阵分解重建(例如,V=WH)到Vj的最小散度(例如,在参考案3中定义的散度)且将对应Wj固定为最佳频谱基。
在测试阶段期间,期望经分离源的多声道图像总和等于多声道麦克风信号。因此,不同于去混响任务,目标不是恢复原始干净的干源。代替性地,应用需要将每一源的混响空间投影输出到麦克风。因此,针对混响源分离,可在训练阶段期间学习混合参数,且在测试阶段期间执行空间投影。此方法可引起以下益处:1)使训练加速;2)避免训练期间的与算法相关的估计不稳定性及不准确性;3)还可能改进测试阶段中的分离性能。此方法适用于对现场训练阶段具有高计算灵敏度的应用。
替代地,在结合图6及7描述的方法400或方法500的进一步实施例中,过程600可使用其中经由非负矩阵分解方法通过将每一源的麦克风信号的功率谱图(其是针对其间仅所述源产生声音的时段捕获)视为所述源的功率谱图而学习至少一个源的频谱基的学习频谱基及混合参数的过程替代。图11是说明根据实例实施例的学习混合参数及频谱基的此实例过程1100的流程图。
如图11中说明,过程1100从步骤1101开始。
在步骤1103处,将计数器j设置为(例如)1。
在步骤1105处,可将混合参数估计为
其中Aj,f表示特性化为麦克风mic1、…、micI上的源sj的空间图像sj1 img、…、sjI img与麦克风micp上的源sj的空间图像sjp img之间的比率的混合参数,是麦克风micp的信号的协方差矩阵(在此情况中,实际上是仅具有一个值的1×1矩阵,其表示micp信号的频谱功率),且是麦克风mic1、…、micI与micp之间的交叉协方差矩阵。
此外,可经由非负矩阵分解方法通过计算麦克风信号的功率谱图X且通过X=WjHj将功率谱图X假定为源sj的功率谱图而估计源sj的频谱基Wj。
在步骤1107处,使计数器j递增。
在步骤1109处,确定计数器j是否超过要由重建模型重建的源的数目。如果计数器j超过要由重建模型重建的源的数目,那么过程1100进行到步骤1111。如果未超过,那么过程1100返回到步骤1105。在步骤1111处,过程1100结束。
为了处理具有较长混响时间的现实混响环境,可使用满秩混响模型,其中具有I×I维度的方矩阵Aj对源sj的空间参数建模,且空间协方差矩阵表示混合参数。可将分离输出简化为源sj的空间图像的STFT,这是因为目标是获得可恢复混合源的全部源的空间图像。
在方法400或方法500的进一步实施例中,在每一源的功率谱图收敛的条件下完成估计重建模型。估计重建模型包括经由非负矩阵分解方法基于频谱基细化功率谱图。图12是说明在此实施例中学习混合参数及频谱基的实例过程1200的流程图。图13是说明在此实施例中估计重建模型的实例过程1300的流程图。
如图12中说明,过程1200从步骤1201开始。
在步骤1203处,将计数器j设置为(例如)1。在另一实例实施例中,可将要估计的参数设置为初始值。在步骤1205处,将源sj的混合参数估计为
且将源sj的功率谱图估计为
其中是源sj的空间图像的协方差矩阵,vj,fn是源sj的功率谱图。在另一实例实施例中,为了移除尺度模糊,可在每一EM迭代中通过施加trace(Rj,f)=I.而重新归一化混合参数Rj,f,这效仿在其它实施例中描述为∑i|aij,f|2=1的重新归一化过程。
针对现场训练阶段,J=1且等于麦克风信号的协方差矩阵:因此可直接计算功率谱图vj,fn及混合参数Rj,f。通过将及重新归一化trace(Rj,f)=I重新代入方程式12中,可将源sj的混合参数估计为
接着可通过将代入方程式13中而计算vj,fn,使得可将源sj的功率谱图估计为
在步骤1207处,通过迭代地应用方程式7及方程式8或方程式10及方程式11直到收敛而学习源sj的频谱基。
在步骤1209处,使计数器j递增。
在步骤1211处,确定计数器j是否超过要由重建模型重建的源的数目。如果计数器j超过要由重建模型重建的源的数目,那么过程1200进行到步骤1213。如果未超过,那么过程1200返回到步骤1205。
在步骤1213处,过程1200结束。
如图13中说明,过程1300从步骤1301开始。在过程1300中,在针对其对应源的EM估计中输入经由过程1200学习的频谱基及混合参数作为固定参数。
在步骤1303处,执行EM迭代的期望(E)步骤以估计中间参数。具体来说,在混合参数Rj,f固定的情况下,将给定参数的麦克风信号的协方差矩阵估计为
在混合参数Rj,f固定的情况下,将给定参数的每一源sj的空间图像的协方差矩阵估计为
将针对每一源sj的维纳滤波器估计为
将每一源sj的空间图像估计为
将每一源的空间图像的协方差矩阵估计为
在步骤1305处,执行EM迭代的最大化(M)步骤以基于在步骤1303处估计的中间参数估计模型参数。
具体来说,通过使用方程式13计算每一源sj的功率谱图vj,fn,其中混合参数Rj固定。
接着使用方程式8及2通过非负矩阵分解细化vj,fn,其中频谱基固定。
在步骤1307处,确定在M步骤中估计的功率谱图是否收敛。如果在M步骤中估计的功率谱图收敛,那么过程1300进行到步骤1309,且如果未收敛,那么过程1300返回到步骤1303。
在步骤1309处,过程1300结束。
在结合图1或3描述的方法100或方法300的进一步实施例中,可通过使用方程式14计算每一源sj的混合参数Rj执行步骤103或305。可经由EM算法执行步骤105或309,其中在每一源的功率谱图收敛的条件下完成重建模型的估计,且重建模型的估计包括从源的混合参数及源的空间图像的经估计协方差导出功率谱图。图14是说明执行步骤105或309的重建模型的估计的此实例过程1400的流程图。
如图14中说明,过程1400从步骤1401开始。在过程1400中,在针对其对应源的EM估计中输入经由方法100或300学习的混合参数作为固定参数。
在步骤1403处,执行EM迭代的期望(E)步骤以估计中间参数。具体来说,在混合参数Rj,f固定的情况下,使用方程式16估计给定参数的麦克风信号的协方差矩阵。在混合参数Rj,f固定的情况下,使用方程式17估计给定参数的每一源sj的空间图像的协方差矩阵。使用方程式18估计针对每一源sj的维纳滤波器。使用方程式19估计每一源sj的空间图像。使用方程式20估计每一源的空间图像的协方差矩阵。
在步骤1405处,执行EM迭代的最大化(M)步骤以基于在步骤1403处估计的中间参数估计模型参数。
具体来说,通过使用方程式13计算每一源sj的功率谱图vj,其中混合参数Rj固定。
在步骤1407处,确定在M步骤中估计的功率谱图是否收敛。如果在M步骤中估计的功率谱图收敛,那么过程1400进行到步骤1409,且如果未收敛,那么过程1400返回到步骤1403。
在步骤1409处,过程1400结束。
从以下枚举实例实施例(EEE)可了解本发明的各种方面。
EEE 1.一种产生用于源分离的重建模型的方法,其包括:
通过处理器在假定针对至少一个源中的每一个别者的第一麦克风信号分别由至少两个麦克风针对其间仅所述个别者产生声音的时段捕获的情况下基于所述第一麦克风信号学习用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数;及
通过所述处理器在假定第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获的情况下基于所述混合参数及所述第二麦克风信号估计所述重建模型。
EEE 2.根据EEE 1所述的方法,其中所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。
EEE 3.根据EEE 2所述的方法,其中将针对每一源的所述混合参数特性化为所述源的空间协方差。
EEE 4.根据EEE 3所述的方法,其进一步包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号学习所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
EEE 5.根据EEE 4所述的方法,其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括经由非负矩阵分解方法基于所述频谱基细化所述功率谱图。
EEE 6.根据EEE 3所述的方法,其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述源的所述混合参数及所述源的空间图像的经估计协方差导出所述功率谱图。
EEE 7.根据EEE 2所述的方法,其中将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。
EEE 8.根据EEE 7所述的方法,其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
EEE 9.根据EEE 1所述的方法,其中所述重建模型经调适以重建所述至少一个源中的每一者的源信号。
EEE 10.根据EEE 9所述的方法,其进一步包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号确定所述至少一个源中的每一者的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
EEE 11.根据EEE 10所述的方法,其中在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述至少一个源的经估计协方差导出所述功率谱图。
EEE 12.根据EEE 10所述的方法,其中针对所述至少一个源中的每一者,所述频谱基的所述确定包括:
基于多个预定频谱基中的每一者及所述源的所述第一麦克风信号,估计所述源;及
选择与所述源最近似的所述经估计源中的一者;及
将用于估计所述选定经估计源的所述预定频谱基设置为要确定的所述频谱基。
EEE 13.一种用于源分离的方法,其包括:
分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号;
通过处理器基于所述第一麦克风信号学习用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数;
分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号;
通过所述处理器基于所述混合参数及所述第二麦克风信号估计所述重建模型;及
通过所述处理器通过应用所述重建模型而执行所述源分离。
EEE 14.根据EEE 13所述的方法,其中所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。
EEE 15.根据EEE 14所述的方法,其中将针对每一源的所述混合参数特性化为所述源的空间协方差。
EEE 16.根据EEE 15所述的方法,其进一步包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号学习所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
EEE 17.根据EEE 16所述的方法,其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括经由非负矩阵分解方法基于所述频谱基细化所述功率谱图。
EEE 18.根据EEE 15所述的方法,其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述源的所述混合参数及所述源的空间图像的经估计协方差导出所述功率谱图。
EEE 19.根据EEE 14所述的方法,其中将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。
EEE 20.根据EEE 19所述的方法,其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
EEE 21.根据EEE 13所述的方法,其中所述重建模型经调适以重建所述至少一个源中的每一者的源信号。
EEE 22.根据EEE 21所述的方法,其进一步包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号确定所述至少一个源中的每一者的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
EEE 23.根据EEE 22所述的方法,其中在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述至少一个源的经估计协方差导出所述功率谱图。
EEE 24.根据EEE 22所述的方法,其中针对所述至少一个源中的每一者,所述频谱基的所述确定包括:
基于多个预定频谱基中的每一者及所述源的所述第一麦克风信号,估计所述源;及
选择与所述源最近似的所述经估计源中的一者;及
将用于估计所述选定经估计源的所述预定频谱基设置为要确定的所述频谱基。
EEE 25.一种信号处理设备,其包括经配置以执行根据EEE 1到EEE 12中的任一者所述的方法的处理器。
Claims (27)
1.一种产生用于源分离的重建模型的方法,其特征在于包括:
通过处理器在假定针对至少一个源中的每一个别者的第一麦克风信号分别由至少两个麦克风针对其间仅所述个别者产生声音的时段捕获的情况下基于所述第一麦克风信号学习(103)用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数;及
通过所述处理器在假定第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获的情况下基于所述混合参数及所述第二麦克风信号估计(105)所述重建模型。
2.根据权利要求1所述的方法,其特征在于所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。
3.根据权利要求2所述的方法,其特征在于将针对每一源的所述混合参数特性化为所述源的空间协方差。
4.根据权利要求3所述的方法,其特征在于其包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号学习(403)所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计(405)所述重建模型。
5.根据权利要求4所述的方法,其特征在于在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括经由非负矩阵分解方法基于所述频谱基细化(1305)所述功率谱图。
6.根据权利要求3所述的方法,其特征在于在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述源的所述混合参数及所述源的空间图像的经估计协方差导出所述功率谱图。
7.根据权利要求2所述的方法,其特征在于将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。
8.根据权利要求7所述的方法,其特征在于其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
9.根据任何前述权利要求所述的方法,其特征在于所述重建模型经调适以重建所述至少一个源中的每一者的源信号。
10.根据权利要求9所述的方法,其特征在于其进一步包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号确定所述至少一个源中的每一者的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
11.根据权利要求10所述的方法,其特征在于在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述至少一个源的经估计协方差导出所述功率谱图。
12.根据权利要求10或权利要求11所述的方法,其特征在于针对所述至少一个源中的每一者,所述频谱基的所述确定包括:
基于多个预定频谱基中的每一者及所述源的所述第一麦克风信号,估计所述源,其中所述预定频谱基是来自已知源的集合的经预学习频谱基;及
选择与所述源最近似的所述经估计源中的一者;及
将用于估计所述选定经估计源的所述预定频谱基设置为要确定的所述频谱基。
13.根据前述权利要求中的任一权利要求所述的方法,其进一步包括:
捕获所述第一麦克风信号及/或所述第二麦克风信号。
14.根据前述权利要求中的任一权利要求所述的方法,其进一步包括:
通过所述处理器通过应用所述重建模型而执行源分离。
15.一种用于源分离的方法,其特征在于包括:
分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获(303)针对每一所述个别者的第一麦克风信号;
通过处理器基于所述第一麦克风信号学习(305)用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数;
分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获(307)第二麦克风信号;
通过所述处理器基于所述混合参数及所述第二麦克风信号估计(309)所述重建模型;及
通过所述处理器通过应用所述重建模型而执行(311)所述源分离。
16.根据权利要求15所述的方法,其特征在于所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。
17.根据权利要求16所述的方法,其中将针对每一源的所述混合参数特性化为所述源的空间协方差。
18.根据权利要求17所述的方法,其进一步包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号学习所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
19.根据权利要求18所述的方法,其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括经由非负矩阵分解方法基于所述频谱基细化所述功率谱图。
20.根据权利要求17所述的方法,其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述源的所述混合参数及所述源的空间图像的经估计协方差导出所述功率谱图。
21.根据权利要求16所述的方法,其中将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。
22.根据权利要求21所述的方法,其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
23.根据权利要求15所述的方法,其中所述重建模型经调适以重建所述至少一个源中的每一者的源信号。
24.根据权利要求23所述的方法,其进一步包括:
通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号确定所述至少一个源中的每一者的频谱基,及
其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。
25.根据权利要求24所述的方法,其中在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计,及
所述重建模型的所述估计包括从所述至少一个源的经估计协方差导出所述功率谱图。
26.根据权利要求24所述的方法,其中针对所述至少一个源中的每一者,所述频谱基的所述确定包括:
基于多个预定频谱基中的每一者及所述源的所述第一麦克风信号,估计所述源,其中所述预定频谱基是来自已知源的集合的经预学习频谱基;及
选择与所述源最近似的所述经估计源中的一者;及
将用于估计所述选定经估计源的所述预定频谱基设置为要确定的所述频谱基。
27.一种信号处理设备,其特征在于包括经配置以执行根据权利要求1到14中的任一权利要求所述的方法的处理器。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662381645P | 2016-08-31 | 2016-08-31 | |
US62/381,645 | 2016-08-31 | ||
CN201610765121 | 2016-08-31 | ||
CN2016107651214 | 2016-08-31 | ||
EP16186512 | 2016-08-31 | ||
EP16186512.6 | 2016-08-31 | ||
PCT/US2017/048923 WO2018044801A1 (en) | 2016-08-31 | 2017-08-28 | Source separation for reverberant environment |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109644304A true CN109644304A (zh) | 2019-04-16 |
CN109644304B CN109644304B (zh) | 2021-07-13 |
Family
ID=59846652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780052977.XA Active CN109644304B (zh) | 2016-08-31 | 2017-08-28 | 混响环境的源分离 |
Country Status (3)
Country | Link |
---|---|
US (2) | US10667069B2 (zh) |
EP (1) | EP3507993B1 (zh) |
CN (1) | CN109644304B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019026973A1 (ja) * | 2017-08-04 | 2019-02-07 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
WO2019163487A1 (ja) * | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | 信号分析装置、信号分析方法及び信号分析プログラム |
KR20210145733A (ko) * | 2019-03-27 | 2021-12-02 | 소니그룹주식회사 | 신호 처리 장치 및 방법, 그리고 프로그램 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060204019A1 (en) * | 2005-03-11 | 2006-09-14 | Kaoru Suzuki | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
US20150365766A1 (en) * | 2014-06-11 | 2015-12-17 | Korea Electronics Technology Institute | Method for separating audio sources and audio system using the same |
CN105230044A (zh) * | 2013-03-20 | 2016-01-06 | 诺基亚技术有限公司 | 空间音频装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100174389A1 (en) | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
US20110194709A1 (en) | 2010-02-05 | 2011-08-11 | Audionamix | Automatic source separation via joint use of segmental information and spatial diversity |
US8583428B2 (en) | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
US20120143604A1 (en) | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
US9047867B2 (en) | 2011-02-21 | 2015-06-02 | Adobe Systems Incorporated | Systems and methods for concurrent signal recognition |
US8812322B2 (en) | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
GB201114737D0 (en) | 2011-08-26 | 2011-10-12 | Univ Belfast | Method and apparatus for acoustic source separation |
US9165565B2 (en) | 2011-09-09 | 2015-10-20 | Adobe Systems Incorporated | Sound mixture recognition |
US8843364B2 (en) | 2012-02-29 | 2014-09-23 | Adobe Systems Incorporated | Language informed source separation |
US9437208B2 (en) | 2013-06-03 | 2016-09-06 | Adobe Systems Incorporated | General sound decomposition models |
WO2014195132A1 (en) | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method of audio source separation and corresponding apparatus |
GB2516483B (en) | 2013-07-24 | 2018-07-18 | Canon Kk | Sound source separation method |
US9351093B2 (en) | 2013-12-24 | 2016-05-24 | Adobe Systems Incorporated | Multichannel sound source identification and location |
US10013975B2 (en) | 2014-02-27 | 2018-07-03 | Qualcomm Incorporated | Systems and methods for speaker dictionary based speech modeling |
KR101834913B1 (ko) | 2014-04-30 | 2018-04-13 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 복수의 입력 오디오 신호를 잔향제거하기 위한 신호 처리 장치, 방법 및 컴퓨터가 판독 가능한 저장매체 |
US9679559B2 (en) | 2014-05-29 | 2017-06-13 | Mitsubishi Electric Research Laboratories, Inc. | Source signal separation by discriminatively-trained non-negative matrix factorization |
FR3031225B1 (fr) | 2014-12-31 | 2018-02-02 | Audionamix | Procede de separation ameliore et produit programme d'ordinateur |
US10755726B2 (en) | 2015-01-07 | 2020-08-25 | Google Llc | Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone |
-
2017
- 2017-08-28 CN CN201780052977.XA patent/CN109644304B/zh active Active
- 2017-08-28 EP EP17764952.2A patent/EP3507993B1/en active Active
- 2017-08-28 US US16/323,763 patent/US10667069B2/en active Active
-
2020
- 2020-05-20 US US16/878,616 patent/US10904688B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060204019A1 (en) * | 2005-03-11 | 2006-09-14 | Kaoru Suzuki | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
CN105230044A (zh) * | 2013-03-20 | 2016-01-06 | 诺基亚技术有限公司 | 空间音频装置 |
US20150365766A1 (en) * | 2014-06-11 | 2015-12-17 | Korea Electronics Technology Institute | Method for separating audio sources and audio system using the same |
Non-Patent Citations (1)
Title |
---|
JOONAS NIKUNEN: "Multichannel audio separation by direction of arrival based spatial covariance model and non-negative matrix factorization", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC,SPEECH AND SIGNAL PROCESSING》 * |
Also Published As
Publication number | Publication date |
---|---|
EP3507993B1 (en) | 2020-11-25 |
US10904688B2 (en) | 2021-01-26 |
US10667069B2 (en) | 2020-05-26 |
US20190191259A1 (en) | 2019-06-20 |
EP3507993A1 (en) | 2019-07-10 |
US20200389749A1 (en) | 2020-12-10 |
CN109644304B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gamper et al. | Blind reverberation time estimation using a convolutional neural network | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
JP6668366B2 (ja) | オーディオ源の分離 | |
JP6027087B2 (ja) | スペクトル挙動の変換を実行する音響信号処理システム及び方法 | |
Cauchi et al. | Non-intrusive speech quality prediction using modulation energies and lstm-network | |
Chen et al. | Visual acoustic matching | |
EP2940687A1 (en) | Methods and systems for processing and mixing signals using signal decomposition | |
Ravanelli et al. | Realistic multi-microphone data simulation for distant speech recognition | |
Steinmetz et al. | Filtered noise shaping for time domain room impulse response estimation from reverberant speech | |
US10904688B2 (en) | Source separation for reverberant environment | |
CN112992172B (zh) | 一种基于注意力机制的单通道时域鸟鸣声分离方法 | |
Matassoni et al. | The DIRHA-GRID corpus: baseline and tools for multi-room distant speech recognition using distributed microphones | |
Duong et al. | An interactive audio source separation framework based on non-negative matrix factorization | |
Nesta et al. | Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
Mack et al. | Single-Channel Blind Direct-to-Reverberation Ratio Estimation Using Masking. | |
Wisdom et al. | Unsupervised speech separation using mixtures of mixtures | |
Papayiannis et al. | Sparse parametric modeling of the early part of acoustic impulse responses | |
Jafari et al. | Underdetermined blind source separation with fuzzy clustering for arbitrarily arranged sensors | |
Bona et al. | Automatic parameters tuning of late reverberation algorithms for audio augmented reality | |
JP2020012980A (ja) | 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置 | |
Adiloğlu et al. | A general variational Bayesian framework for robust feature extraction in multisource recordings | |
Papayiannis et al. | Data augmentation of room classifiers using generative adversarial networks | |
WO2018044801A1 (en) | Source separation for reverberant environment | |
CN113380268A (zh) | 模型训练的方法、装置和语音信号的处理方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |