CN105230044A - 空间音频装置 - Google Patents
空间音频装置 Download PDFInfo
- Publication number
- CN105230044A CN105230044A CN201380076395.7A CN201380076395A CN105230044A CN 105230044 A CN105230044 A CN 105230044A CN 201380076395 A CN201380076395 A CN 201380076395A CN 105230044 A CN105230044 A CN 105230044A
- Authority
- CN
- China
- Prior art keywords
- audio
- model
- merging
- spatial
- covariance matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 171
- 230000005236 sound signal Effects 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims description 42
- 238000005457 optimization Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 14
- 230000001934 delay Effects 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000000926 separation method Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 26
- 230000004044 response Effects 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 12
- 238000009826 distribution Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 238000012880 independent component analysis Methods 0.000 description 8
- 230000004807 localization Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 239000002775 capsule Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- VYLDEYYOISNGST-UHFFFAOYSA-N bissulfosuccinimidyl suberate Chemical compound O=C1C(S(=O)(=O)O)CC(=O)N1OC(=O)CCCCCCC(=O)ON1C(=O)C(S(O)(=O)=O)CC1=O VYLDEYYOISNGST-UHFFFAOYSA-N 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000008867 communication pathway Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种装置,其包括:输入端,其被配置为接收至少两个音频信号;频域变换器,其被配置为将所述至少两个音频信号变换为所述至少两个信号的频域表示;空间协方差处理器,其被配置为根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;波束成形器,其被配置为生成包括至少一个波束成形器内核的空间协方差矩阵模型;矩阵因式分解器,其被配置为生成音频对象的线性量值模型,将所述空间协方差矩阵模型和所述线性量值模型合并,以及进一步被配置为确定至少一个合并参数,使得用于合并的所述至少一个参数尝试优化所述合并;以及分离器,其被配置为基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。
Description
技术领域
本申请涉及用于空间音频信号处理的装置。本发明进一步涉及但不限于用于移动设备内的空间音频信号处理的装置。
背景技术
空间音频信号正被更频繁地用于产生更身临其境的音频体验。立体声或多通道记录可从记录或捕获装置传递给收听装置,并使用合适的多通道输出(诸如多通道扬声器布置)和具有虚拟环绕处理的一对立体声头戴式受话器或头戴式耳机来进行重放。
应当理解,在不久的将来,诸如移动电话这样的移动装置将有可能具有多于两个扩音器。这提供了记录真实的多通道音频的可能。通过先进的信号处理,进一步有可能的是:通过确定诸如关联于音频源的方向这样的参数和基于其方向对所述音频源进行处理,对从特定或所需方向来自扩音器的音频信号进行波束成形或定向处理。
发明内容
本申请的各个方面因而提供了一种空间音频捕获和处理,由此可以对收听方位或视频和音频捕获方位差别进行补偿。
根据第一方面,提供了一种用于分离音频源的方法,其包括:接收至少两个音频信号;将所述至少两个音频信号变换为所述至少两个信号的频域表示;根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;生成包括至少一个波束成形器内核的空间协方差矩阵模型;生成音频对象的线性量值(magnitude)模型;将所述空间协方差矩阵模型和所述线性量值模型进行合并;确定至少一个合并参数,使得用于合并的所述至少一个参数尝试优化所述合并;以及基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。
接收所述至少两个音频信号可以包括以下中的至少一个:从扩音器生成所述音频信号,其中,所述扩音器从至少一个音频源接收声波;以及从存储器接收所述音频信号,所述音频信号描述了来自至少一个音频源的声波。
将所述至少两个音频信号变换为所述至少两个信号的频域表示可以包括:对所述至少两个音频信号实施时间到频率变换。
根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵可以包括:根据所述两个频域表示的自协方差生成观察空间协方差矩阵。
所述方法可以进一步包括:通过生成对扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟,生成至少一个波束成形器内核。
生成至少一个波束成形器内核可以包括:生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的所述时间延迟的自协方差。
生成音频对象的线性模型可以包括:对音频对象量值实施非负矩阵因式分解。
对音频对象量值实施非负矩阵因式分解可以包括:利用均匀分布在零和一之间的随机值对线性模型参数zko、tik和vkj进行初始化。
将空间协方差矩阵模型和所述线性量值模型进行合并可以包括:将所述空间协方差矩阵模型乘以由所述线性模型表示的量值包络。
确定至少一个合并参数可以包括:确定空间协方差模型参数,以便最小化所述观察空间协方差矩阵与所述空间协方差模型之间的差别。
确定所述空间协方差模型参数可以包括:基于复值非负矩阵因式分解实施迭代式优化,从而使得表示所述至少一个音频对象的线性量值模型的参数被迭代地更新,直到所述线性量值模型参数在各个更新之间不显著改变,或者处理了所定义数量的迭代为止。
基于所述复值非负因式分解实施所述迭代式优化可以包括:根据复数非负矩阵因式分解的优化框架更新线性模型参数zko、tik和vkj;以及更新所述空间协方差矩阵模型量值。
更新所述空间协方差矩阵模型量值可以包括:更新所述至少两个音频信号的估计量的相对量值差别。
基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音频源可以包括:根据所述至少一个音频对象和根据所估计的线性量值模型参数生成至少一个音频源。
所述方法可以进一步包括:基于与所述至少一个音频源相关联的所述至少一个合并模型参数,合成至少一个音频信号。
根据第二方面,提供了一种装置,其包括:用于接收至少两个音频信号的构件;用于将所述至少两个音频信号变换为所述至少两个信号的频域表示的构件;用于根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵的构件;用于生成包括至少一个波束成形器内核的空间协方差矩阵模型的构件;用于生成音频对象的线性量值模型的构件;用于将所述空间协方差矩阵模型和所述线性量值模型进行合并的构件;用于确定至少一个合并参数,从而使得用于所述合并的所述至少一个参数尝试优化所述合并的构件;以及用于基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源的构件。
用于接收所述至少两个音频信号的构件可以包括以下中的至少一个:从扩音器生成所述音频信号,其中,所述扩音器从至少一个音频源接收声波;以及从存储器接收所述音频信号,所述音频信号描述了来自至少一个音频源的声波。
用于将所述至少两个音频信号变换为所述至少两个信号的频域表示的构件可以包括:用于对所述至少两个音频信号实施时间到频率变换的构件。
用于根据所述至少两个音频信号的频域表示生成所述观察空间协方差矩阵的构件可以包括:根据所述两个频域表示的自协方差生成观察空间协方差矩阵。
所述装置可以进一步包括:用于通过生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟,生成至少一个波束成形器内核的构件。
用于生成至少一个波束成形器内核的构件可以包括:生成对所述扩音器矩阵周围的空间场所进行采样的一组查看方向在频域中的时间延迟的自协方差。
用于生成音频对象的线性模型的构件可以包括:对音频对象量值实施非负矩阵因式分解。
用于对音频对象量值实施非负矩阵因式分解的构件可以包括:用于利用均匀分布在零和一之间的随机值对线性模型参数zko、tik和vkj进行初始化的构件。
用于对空间协方差矩阵和所述线性量值模型进行合并的构件可以包括:用于将所述空间协方差矩阵模型乘以由所述线性模型表示的量值包络的构件。
用于确定至少一个合并参数的构件可以包括:确定空间协方差模型参数,以便最小化所述观察空间协方差矩阵和所述空间协方差模型之间的差别。
用于确定所述空间协方差模型参数的构件可以包括:基于复值非负矩阵因式分解实施迭代式优化,从而使得表示所述至少一个音频对象的所述线性量值模型的参数被迭代地更新,直到所述线性量值模型参数在各个更新之间不显著改变,或者处理了所定义数量的迭代为止。
用于基于复值非负因式分解实施所述迭代式优化的构件可以包括:用于根据复数非负矩阵因式分解的优化框架更新线性模型参数zko、tik和vkj的构件;以及用于更新所述空间协方差矩阵模型量值的构件。
用于更新所述空间协方差矩阵模型量值的构件可以包括:用于更新所述至少两个音频信号的估计量的相对量值差别的构件。
用于基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音频源的构件可以包括:用于根据所述至少一个音频对象和根据所估计的线性量值模型参数生成至少一个音频源的构件。
所述装置可以进一步包括:用于基于与所述至少一个音频源相关联的所述至少一个合并模型参数来合成至少一个音频信号的构件。
根据第三方面,提供了一种装置,其包括:至少一个处理器以及包括用于一个或多个程序的计算机代码的至少一个存储器,所述至少一个存储器和所述计算机代码被配置为与所述至少一个处理器一起促使所述装置至少:接收至少两个音频信号;将所述至少两个音频信号变换为所述至少两个信号的频域表示;根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;生成包括至少一个波束成形器内核的空间协方差矩阵模型;生成音频对象的线性量值模型;将所述空间协方差矩阵模型和所述线性量值模型进行合并;确定至少一个合并参数,从而使得用于所述合并的所述至少一个参数尝试优化所述合并;以及基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。
接收所述至少两个音频信号可以促使所述装置执行以下中的至少一个:接收从扩音器生成的所述音频信号,其中,所述扩音器从至少一个音频源接收声波;以及从存储器接收所述音频信号,所述音频信号描述了来自至少一个音频源的声波。
将所述至少两个音频信号变换为所述至少两个信号的频域表示可以促使所述装置对所述至少两个音频信号实施时间到频率变换。
根据所述至少两个音频信号的频域表示生成所述观察空间协方差矩阵可以促使所述装置:根据所述两个频域表示的自协方差生成观察空间协方差矩阵。
可以进一步促使所述装置:通过生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟,生成至少一个波束成形器内核。
生成至少一个波束成形器内核可以促使所述装置:生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟的自协方差。
生成音频对象的线性模型可以促使所述装置:对音频对象量值实施非负矩阵因式分解。
对音频对象量值实施非负矩阵因式分解可以促使所述装置:利用均匀分布在零和一之间的随机值对线性模型参数zko、tik和vkj进行初始化。
将空间协方差矩阵模型和所述线性量值模型进行合并可以促使所述装置:将所述空间协方差矩阵模型乘以由所述线性模型表示的量值包络。
确定至少一个合并参数可以促使所述装置:确定空间协方差模型参数,以便最小化所述观察空间协方差矩阵和所述空间协方差模型之间的差别。
确定所述空间协方差模型参数可以促使所述装置:基于复值非负矩阵因式分解实施迭代式优化,从而使得表示所述至少一个音频对象的线性量值模型的参数被迭代地更新,直到所述线性量值模型参数在各个更新之间不显著改变,或者处理了所定义数量的迭代为止。
基于复值非负因式分解实施所述迭代式优化可以促使所述装置:根据复数非负矩阵因式分解更新线性模型参数zko、tik和vkj;以及更新所述空间协方差矩阵模型量值。
更新所述空间协方差矩阵模型量值可以促使所述装置:更新所述至少两个音频信号的估计量的相对量值差别。
基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音频源可以促使所述装置:根据所述至少一个音频对象和根据所估计的线性量值模型生成至少一个音频源。
可以进一步促使所述装置:基于与所述至少一个音频源相关联的所述至少一个合并模型参数,合成至少一个音频信号。
根据第四方面,提供了一种装置,其包括:输入端,其被配置为接收至少两个音频信号;频域变换器,其被配置为将所述至少两个音频信号变换为所述至少两个信号的频域表示;空间协方差处理器,其被配置为根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;波束成形器,其被配置为生成包括至少一个波束成形器内核的空间协方差矩阵模型;矩阵因式分解器,其被配置为生成音频对象的线性量值模型;将所述空间协方差矩阵模型和所述线性量值模型进行合并;以及进一步被配置为确定至少一个合并参数,从而使得用于所述合并的所述至少一个参数尝试优化所述合并;以及分离器,其被配置为基于所述至少一个合并参数对所述音频对象进行聚类,以产生分离的音频源。
所述输入端可以包括以下中的至少一个:至少一个扩音器输入端,其被配置为接收从扩音器生成的所述音频信号,其中,所述扩音器从至少一个音频源接收声波;以及至少一个存储器输入端,其被配置为从存储器接收所述音频信号,所述音频信号描述了来自至少一个音频源的声波。
所述频域变换器可被配置为:对所述至少两个音频信号实施时间到频率变换。
所述空间协方差处理器可被配置为:根据所述两个频域表示的自协方差生成观察空间协方差矩阵。
所述波束成形器可被配置为:通过生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟,生成至少一个波束成形器内核。
所述波束成形器可被配置为:生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的所述时间延迟的自协方差。
所述矩阵因式分解器可被配置为:对音频对象量值实施非负矩阵因式分解。
所述矩阵因式分解器可被配置为:利用均匀分布在零和一之间的随机值对线性模型参数zko、tik和vkj进行初始化。
被配置为将所述空间协方差矩阵模型和所述线性量值模型进行合并的所述矩阵因式分解器可被配置为:将所述空间协方差矩阵模型乘以由所述线性模型表示的量值包络。
被配置为确定至少一个合并参数的所述矩阵因式分解器可被配置为:确定空间协方差模型参数,以便最小化所述观察空间协方差矩阵和所述空间协方差模型之间的差别。
被配置为确定所述空间协方差模型参数的所述矩阵因式分解器可被配置为:基于复值非负矩阵因式分解实施迭代式优化,从而使得表示所述至少一个音频对象的线性量值模型的参数被迭代地更新,直到所述线性量值模型参数在各个更新之间不显著改变,或者处理了所定义数量的迭代为止。
被配置为基于所述复值非负因式分解实施迭代式优化的所述矩阵因式分解器可被配置为:根据复数非负矩阵因式分解的优化框架更新线性模型参数zko、tik和vkj;以及更新所述空间协方差矩阵模型量值。
被配置为更新所述空间协方差矩阵模型量值的所述矩阵因式分解器可被配置为:更新所述至少两个音频信号的估计量的相对量值差别。
被配置为基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音频源的所述分离器可被配置为:根据所述至少一个音频对象和根据所估计的线性量值模型参数生成至少一个音频源。
所述装置可以进一步包括空间合成器,所述空间合成器被配置为:基于与所述至少一个音频源相关联的所述至少一个合并模型参数,合成至少一个音频信号。
一种存储在介质上的计算机程序产品可以促使一种装置实施如在本文中所描述的方法。
一种电子设备可以包括如在本文中所描述的装置。
一种芯片集可以包括如在本文中所描述的装置。
本申请的实施例旨在解决关联于当前技术的问题。
附图说明
为了更好地理解本申请,现在将作为示例参考附图,其中:
图1示意性地示出了适于在某些实施例中采用的一种装置;
图2示意性地示出了根据某些实施例的示例音频信号处理装置;
图3示意性地示出了根据某些实施例在图2中所示的音频信号处理装置的操作的流程图;
图4示意性地示出了对根据某些实施例的装置的示例扩音器配置;
图5示出了包括两个扩音器的装置的示例阵列几何形状;
图6示出了对阵列周围的单位球体的近似均匀采样的示例波束方向;
图7示意性地示出了根据某些实施例的参数估计的操作的流程图;
图8示意性地示出了根据某些实施例的基于空间权重对CNMF分量进行聚类的一般原理;
图9示意性地示出了根据某些实施例被配置为生成双声道输出的如图2中所示的空间合成器;
图10示意性地示出了一流程图,该流程图示出了根据某些实施例被配置为生成双声道输出的如图9中所示的空间合成器的操作;
图11示出了从阵列上方描绘的某些实施例的示例而分析出的空间权重的图形,其中,原始源定位处于方位角0度(左)和90度(下)的侧向平面上;
图12示出了在某些实施例中使用的示例扩音器捕获阵列的图形,其中,扩音器由圆形标记,而零角度参考轴由箭头标记;
图13示出了实施例示例1中的源定位的图形;
图14示出了实施例示例2中的源定位的图形;
图15示出了实施例示例3中的源定位的图形;以及
图16和图17示出了由根据某些实施例的源处理生成的示例输出的图形。
具体实施方式
下面进一步详细描述了用于提供例如在音频-视频捕获装置内的音频记录的有效声场定向处理的合适装置和可能的机制。在下面的示例中描述了音频信号和处理。然而应当认识到,在某些实施例中,音频信号/音频捕获和处理是音频-视频系统的一部分。
如在本文中所描述的,移动设备或装置更为普遍地配备了适于记录或捕获该移动设备或装置周围的音频环境或音频场景的多扩音器配置或扩音器阵列。多扩音器配置实现对立体声或环绕声信号的记录,并且扩音器的已知位置和方位进一步使得所述装置能够对来自扩音器的已捕获或记录的音频信号进行处理,以便实施空间处理来相对于其它方向而突出或聚焦于来自所定义方向的音频信号。
一种实施空间处理的方式是在最初提取和操纵方向或声音源相关信息,以便在随后的应用中使用该信息。这些应用例如可以包括空间音频编码(SAC)、3D声场分析和合成、声音源分离和说话者提取,用于诸如语音识别的进一步处理。
一般来说,研究所述空间声音处理的领域被称为针对同时发射的声音源的盲源分离(BSS)。所述情况的经典示例被称为使得将每个单独的说话者从使用扩音器阵列记录的聚会中分离的鸡尾酒会问题。已对BSS领域进行了集中的研究,但仍然被归类为未决问题。捕获或记录装置或设备通常包括具有多个扩音器的小型手持设备。多个通道及其信息相关性和关系于是可用于源分离以及到达方向估计。
此外,使用所述分析(诸如3D声场分析)和合成的应用可以在对捕获场进行呈递时采用已分离源的精确和详细的方向信息,其中通过使用以下方式来定位源从而对捕获场进行呈递:借助于头部相关传输函数(HRTF)过滤的双声道合成,或者使用诸如矢量基幅值相移(VBAP)这样的源定位技术在多通道和多维度扬声器阵列中的源定位。
使用诸如通常在移动设备或装置上具有的小型和封闭式扩音器阵列记录的音频捕获的盲声音分离(BSS)可包括下面的问题和困难,所述问题和困难在本文中由如在本文中所描述的实施例解决。首先,因为设计体积和成本布置,扩音器的数量通常较少(大约2-5个囊体(capsule)),这使得源到达方向(DoA)估计困难并且使得基于纯波束成形的分离低效。
针对源到达方向检测的波束成形和相关问题以及新近的球面阵列波束成形技术已在声场捕获和分析中成功地使用,并且还被开发为诸如Eigenmike的最终产品。然而,伴随球面阵列处理的问题在于:阵列结构和所使用的实际阵列的庞大体积阻碍了其被并入单个移动设备中。此外,纯波束成形并不解决源分离的问题,但利用尽量窄的波束来分析设备周围的空间场所。用于减小波束宽度的旁瓣相消一般需要增加阵列的扩音器计数,这如同所讨论的那样在体积、设备复杂度和制造成本上较昂贵。
此外,囊体之间小的几何距离减小了扩音器之间的时间延迟,其中,所述扩音器需要使用高采样速率进行捕获以便观察到小的时刻差别。当使用了高采样频率时,基于频域的BSS方法以空间假频的形式存在问题。换句话说,波长少于扩音器分离距离的两倍的音频频率可导致具有短时傅立叶变换(STFT)之后的相位延迟形式的时间延迟解析上的模糊性。
例如,独立分量分析(ICA)可在频域中应用,以便从统计上估计每个频率处的独立分量。频域ICA导致每个频率处任意的源排序。这种排列模糊性(permutationambiguity)这些年来已通过以下不同手段解决:混合滤波器频率响应平滑、源信号的时间结构、到达时间差(TDoA)和到达方向(DoA),以及ICA混合参数的解译。此外,还存在基于ICA的方法,其通过统一跨频的源独立性来避免所述排列问题。然而,基于ICA的分离是对于在排列校准(permutationalignment)和对频率上的源独立性进行统一时由空间假频所导致的问题敏感的方法之一。
此外,在多通道情况下已提出了基于非负矩阵因式分解(NMF)的分离。这包括例如针对卷积混合物(convolutedmixtures)的多通道NMF,然而,用于参数估计的EM算法在没有谕示初始化(oracleinitialization)(换句话说,知道用于对算法进行初始化的源特征)的情况下是低效的。已提出了具有乘法更新的复形多通道NMF(CNMF),其具有很好的分离结果。所提出的CNMF算法对源空间协方差属性和量值模型进行估计。然而,空间协方差矩阵是单独针对每个频率槽(bin)进行估计和更新,这使得该算法在具有空间假频的高频率处易于出现估计误差。此外,所估计的协方差属性不与源的空间位置相连。
另外,已提出了直接源量值包络和空间协方差矩阵估计。空间属性是在频率槽级被估计的,再次导致排列模糊性,并且通过用于解决分量排序的分离算法,使其在高采样速率捕获情况下是低效的。
另外,所述问题包括解决和执行对于已分离源的3D声音合成。应当进一步理解,在关于诸如3D音频合成这样的空间音频合成实施空间处理的情况下,对于已分离源或所述源的一些部分的3D合成要求将分离算法与DoA分析进行配对,这使得该系统对于3D声音场景分析-合成循环潜在地是不连续和较低效的。这样,封闭式扩音器阵列在未知每个囊体的方向模式的情况下要求基于机器学习的算法来学习和补偿阵列的未知属性。
因而,如在本文中进一步详细描述的概念是:音频记录系统提供用于对使用一个设备中的几个扩音器的音频源进行分离的装置和/或方法。在所述实施例中,来自不同音频源的声音在不同时间到达不同扩音器。此外,每个音频源具有单独的频谱特征。所述概念因而在本文中讨论:所述装置和方法对扩音器信号进行分析以便确定时间差别和频谱特征的组合。所述实施例的效果是从音频源的混合物中分离出的声音源。
就此而言,首先参考图1,该图示出了可用于进行记录(或者操作为捕获装置)的示例性装置或电子设备10的示意框图。
电子设备10例如可以是当充当记录装置或收听装置时无线通信系统的移动终端或用户设备。在某些实施例中,所述装置可以是音频播放器或音频记录器,例如MP3播放器、媒体记录器/播放器(也称为MP4播放器)或者任何适于记录音频的合适便携式装置或音频/视频摄像机/存储器音频或视频记录器。
装置10在某些实施例中可以包括音频-视频子系统。该音频-视频子系统在某些实施例中例如可以包括用于音频信号捕获的扩音器或扩音器阵列11。在某些实施例中,所述扩音器或扩音器阵列可以是固态扩音器,换句话说,能够捕获音频信号和输出合适数字格式的信号,换句话说,不需要模拟到数字转换器。在某些其它实施例中,扩音器或扩音器阵列11可以包括任何合适的扩音器或音频捕获构件,例如电容式扩音器、电容扩音器、静电式扩音器、介电电容式扩音器、动态扩音器、带式扩音器、碳粒式扩音器、压电式扩音器或微机电系统(MEMS)扩音器。扩音器11或扩音器阵列在某些实施例中可以向模拟到数字转换器(ADC)14输出音频已捕获信号。
在某些实施例中,所述装置可以进一步包括模拟到数字转换器(ADC)14,该模拟到数字转换器(ADC)14被配置为从扩音器接收模拟的已捕获音频信号,并以合适的数字形式输出音频已捕获信号。模拟到数字转换器14可以是任何合适的模拟到数字转换或处理构件。在其中扩音器是“集成式”扩音器的某些实施例中,扩音器含有音频信号生成和模拟到数字转化能力这两者。
在某些实施例中,装置10音频-视频子系统进一步包括用于将来自处理器21的数字音频信号转换为合适的模拟格式的数字到模拟转换器32。数字到模拟转换器(DAC)或信号处理构件32在某些实施例中可以是任何合适的DAC技术。
此外,音频-视频子系统在某些实施例中可以包括扬声器33。扬声器33在某些实施例中可以接收来自数字到模拟转换器32的输出,并将模拟音频信号呈现给用户。在某些实施例中,扬声器33可表示多扬声器布置的头戴式耳机,例如一组头戴式受话器或无绳头戴式受话器。
在某些实施例中,所述装置音频-视频子系统包括被配置为向处理器21提供图像数据的照相机51或图像捕获构件。在某些实施例中,所述照相机可以被配置为随着时间的推移提供多个图像,以便提供视频流。
在某些实施例中,所述装置音频-视频子系统包括显示器52。该显示器或图像显示构件可以被配置为输出视觉图像,所述视觉图像可以被装置的用户查看。在某些实施例中,所述显示器可以是适于向所述装置提供输入数据的触摸屏显示器。所述显示器可以是任何合适的显示技术,例如,所述显示器可以由包括LCD、LED、OLED单元的扁平面板实现,或是“等离子体”显示实现。
尽管装置10被示为具有音频/视频捕获和音频/视频呈现组件这两者,但是应当理解,在某些实施例中,装置10可以仅包括音频子系统的音频捕获和音频呈现部件,从而使得在该装置的某些实施例中存在扩音器(用于音频捕获)或扬声器(用于音频呈现)。类似地,在某些实施例中,装置10可以包括视频子系统的视频捕获和视频呈现部件中的一个或另一个,从而使得在某些实施例中存在照相机51(用于视频捕获)或显示器52(用于视频呈现)。
在某些实施例中,装置10包括处理器21。处理器21耦合于音频-视频子系统,并且特别在某些示例中耦合于模拟到数字转换器14用于接收表示来自扩音器11的音频信号的数字信号、耦合于被配置为输出经处理的数字音频信号的数字到模拟转换器(DAC)32、耦合于照相机51用于接收表示视频信号的数字信号,以及耦合于被配置为输出经处理的来自处理器21的数字视频信号的显示器52。
处理器21可以被配置为执行各种程序代码。所实现的程序代码例如可以包括音频-视频记录和音频-视频呈现例程。在某些实施例中,所述程序代码可以被配置为实施音频信号处理。
在某些实施例中,所述装置进一步包括存储器22。在某些实施例中,处理器耦合于存储器22。存储器可以是任何合适的存储构件。在某些实施例中,存储器22包括用于存储可在处理器21上实现的程序代码的程序代码段23。此外,在某些实施例中,存储器22可以进一步包括用于存储数据的存储数据段24,所述数据例如是已根据应用进行编码的数据或者将经由如稍后所描述的应用实施例进行编码的数据。存储在程序代码段23内的所实现的程序代码以及存储在存储数据段24内的数据可以每当需要时由处理器21经由存储器-处理器耦合而进行检索。
在某些进一步的实施例中,装置10可以包括用户接口15。用户接口15在某些实施例中可以耦合于处理器21。在某些实施例中,处理器可以控制用户接口的操作,并且从用户接口15接收输入。在某些实施例中,用户接口15可以使得用户能够例如经由键板向电子设备或装置10输入命令,和/或例如经由显示器从装置10获取信息,其中,显示器是用户接口15的一部分。用户接口15在如本文中所描述的某些实施例中可以包括能够实现以下二者的触摸屏或触摸接口:使信息被输入到装置10以及进一步向装置10的用户显示信息。
在某些实施例中,所述装置进一步包括收发器13,该收发器在所述实施例中可以耦合于处理器,并且被配置为使得能够例如经由无线通信网络与其它装置或电子设备进行通信。收发器13或任何合适的收发器或者发射机和/或接收机构件在某些实施例中可以被配置为经由电线或有线耦合与其它电子设备或装置进行通信。
收发器13可以经由任何合适的已知通信协议与其它装置进行通信,例如,在某些实施例中,收发器13或收发器构件可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE802.X的无线局域网(WLAN)协议、诸如蓝牙的合适短距离射频通信协议,或者红外数据通信通路(IRDA)。
在某些实施例中,所述装置包括被配置为估计装置10的位置的位置传感器16。位置传感器16在某些实施例中可以是诸如GPS(全球定位系统)、GLONASS或伽利略接收机这样的卫星定位传感器。
在某些实施例中,定位传感器可以是蜂窝ID系统或辅助GPS系统。
在某些实施例中,装置10进一步包括方向或方位传感器。方位/方向传感器在某些实施例中可以是电子罗盘、加速度计和陀螺仪,或者使用定位估计根据装置的运动来确定。
再次应当理解,电子设备10的结构可以通过许多方式进行补充和改变。
关于图4,示出了示例装置实现,其中,装置10包括含有照相机51的前面301、后面303以及顶部边缘或顶面305。在图4所示的示例中,所述装置包括四个扩音器:第一(右前)扩音器111,位于该装置的右前侧,其中,右是朝着该装置的前面的顶部边缘;左前扩音器113,位于该装置的左前侧;右高扩音器112,位于该装置的顶部边缘或顶面那侧;以及左后扩音器114,位于该装置的左后侧。
关于图2,示出了根据某些实施例的示例音频信号处理装置。此外,关于图3,示出了如图2中所示的音频信号处理装置的操作的流程图。
在某些实施例中,所述装置包括扩音器或扩音器阵列,所述扩音器或扩音器阵列被配置为捕获或记录声波,并生成针对每个扩音器的音频信号,所述音频信号被传递或输入给所述音频信号处理装置。如在本文中所描述的,在某些实施例中,扩音器11被配置为输出模拟信号,该模拟信号被模拟到数字转换器(ADC)14转换为数字格式。然而,在本文中的示例中示出的扩音器是集成式扩音器,其被配置为直接向短时傅立叶变换器(STFT)101输出数字格式信号。
在本文所示的示例中,存在四个扩音器,这些扩音器在某些实施例中可以按照与图4中所示的类似的方式来布置。应当理解,在某些实施例中,可以存在多于或少于四个的扩音器,并且所述扩音器可以按照任何合适的方式来布置或放置在所述装置上。
此外,尽管如图3中所示,扩音器是所述装置的一部分,但是应当理解,在某些实施例中,扩音器阵列在物理上与所述装置分离,例如,扩音器阵列可以放置在头戴式耳机上(其中,该头戴式耳机还具有捕获视频图像的关联视频照相机,如在本文中所描述的,所述视频图像也可被传递给所述装置并且按照生成已编码视频信号的方式被处理,所述已编码视频信号可以合并经处理的音频信号),该头戴式耳机无线地或以别的方式将音频信号传递给所述装置进行处理。
可以认为扩音器阵列在时域中捕获声音或音频源,其中,所述声音或音频源已与其空间响应进行了卷积。这可以在数学上建模或描述为:
其中,是由扩音器m=1...M捕获的k=1...K个源的混合物(换句话说,扩音器m接收音频信号)。采样标引由t表示。
在该“混合”模型中,来自源k的对扩音器m的空间响应由hmk(τ)表示,并且给定源信号为sk(t)。
接收扩音器输入音频信号的操作在图3中由步骤201示出。
在某些实施例中,所述装置包括短时傅立叶变换器(STFT)101。短时傅立叶变换器101被配置为对扩音器输入音频信号实施短时傅立叶变换。
“混合”模型在STFT域中可以近似为:
其中,是阵列捕获的短时傅立叶变换(STFT),i=1...I是频率标引,以及j=1...J是帧标引。
时域信号的该STFT在某些实施例中可以如下获取:
其中,运算符FFT[...]i表示被进行短时傅立叶变换的输入信号的第i个频率元素。
STFT101对阵列扩音器信号和模型的运算用由表示的频率响应来有效地替换空间响应hmk(τ),并且源k=1...K的STFT由sijk表示。如由阵列所见的单一源信号(换句话说,与其空间脉冲响应进行了卷积的源信号)由yijk=hiksijk表示。空间响应滤波器hmk(τ)取决于捕获环境的混响时间而具有几百毫秒的长度,但由于源空间响应的主混响部分之后的可忽略的能量,已发现在频域中使用数十毫秒的分析窗口尺寸来按照hik对空间响应滤波器进行近似在实际中是有效的。
在某些实施例中,STFT被配置为将经变换的域信号输出给空间协方差处理器103。
对时域信号应用STFT的操作在图3中由步骤301示出。
在某些实施例中,所述装置包括空间协方差处理器103。空间协方差处理器103被配置为接收音频信号的频域形式并对其实施空间协方差处理。
为避免对每个通道的绝对相位进行估计和建模,空间协方差处理器生成针对每个时间-频率点的空间协方差矩阵作为信号表示。在所述实施例中,空间协方差计算将绝对相位转换为每个扩音器配对之间的相位延迟,所述相位延迟被用作如在本文中所描述的BSS算法的信号表示输入。在某些实施例中,SCM的计算确定出阵列捕获的量值平方根版本。对阵列捕获的量值平方根版本的确定确保了空间协方差矩阵(SCM)的对角线中的非负部分含有STFT量值。
在某些实施例中,捕获阵列输出的未修改的STFT可用于产生SCM的对角线上的功率谱。
在下面的示例实施例中,量值平方根STFT被用作针对由下面的方法导出的每个时间-频率点的SCM的起始点。
在某些实施例中,空间协方差处理器将针对时间-频率点(i,j)的捕获阵列表示xij=[x1,...xM]的量值平方根版本确定为:
其中,sign(z)=z/|z|是针对复数的符号函数。
此外,在某些实施例中,空间协方差处理器103可被配置为将针对来自阵列捕获向量的单一时间-频率点的SCM确定为外积:
其中,H代表厄密转置。
针对一个时间-频率点所确定的SCM()可以看作是由对角线[X]nn上的观察量值|x|=[|x1|,...,|xM|]T组成,并且非对角线值[X]nm,n≠m表示扩音器配对(n,m)之间的量值和相位差
在某些实施例中,空间协方差处理器103可以被配置为计算针对每个时间频率点i,j的SCM,并且其可被表示为具有尾随的次标引的矩阵
SCM域中的复值单声道源频谱图sijk等于实值功率谱其中,表示复数c的复共轭。在某些实施例中,由于用于计算SCM的平方根STFT,在下文中,使用源的量值频谱来表示源。
应当理解,通过使用由如上定义的等式所定义的扩音器阵列音频信号的SCM表示,源的绝对相位从参数估计的角度来说并不重要,并且仅对所有扩音器配对之间的相位延迟进行建模。因此,空间协方差信号表示由混合矩阵来替换原始模型中的混合向量hik,其中,混合矩阵表示以协方差矩阵形式表述的源空间响应hik。在该表示中,仍然针对每个STFT频率槽i来单独定义混合矩阵。在某些实施例中并且使用上面的定义,先前定义的混合模型可以针对协方差观察值而被表述为:
其中,是并入了源量值详情和混合物的源空间协方差。
在某些实施例中,可以使用近似真实但未知的SCM的厄密半正定矩阵来对每个频率处的每个源的SCM(sijk)进行建模。在所述实施例中,混合SCM和源量值仅被认识到,但还未被估计。估计源量值详情和由表示的对应混合物在所述实施例中轮流可以提供所需的BSS属性,然而,一般来说,通过以下方式来估计是困难的:其在所有频率上对应于单一源。针对每个STFT频率槽i来单独估计空间属性并不利用以下事实:协方差属性由直接通路和早期反射的到达时间差(TDoA)来连接。所述实施例中的模型依赖于以下事实:在本文中较为详细描述的非负矩阵因式分解(NMF)模型强制使对应于单一声源,并且在时间上进行平均的每个频率i处的相位延迟迹象得出对真实空间属性的正确估计。
在某些实施例中,空间协方差处理器被配置为将经变换的SCM信号输出给复数非负矩阵因式分解器105。
生成STFT的空间协方差矩阵形式的操作在图3中由步骤303示出。
在某些实施例中,所述装置包括波束成形器生成器107。该波束成形器在某些实施例中被配置为生成至少一个波束成形矩阵,所述至少一个波束成形矩阵用于由非负矩阵因式分解器105施加于空间协方差矩阵。
在本文中描述的诸如独立分量分析(ICA)和复值非负矩阵因式分解(CNMF)这样的对源空间响应进行建模的源搜索方法中,针对每个频率槽独立地对源参数进行估计和优化。然而,在如本文中描述的某些实施例中,在到达方向(DoA)估计方法中,跨整个频带的迹象被看作整体。在DoA估计方法中,假设无回声传播或者在混响条件仅考虑其直接通路传播的情况下,单一源位置被链接到扩音器之间单一的到达时间差(TDoA)。该单一TDoA统一了频率上的相位延迟,使DoA方法能够整合所有频率上的迹象以便获取对整个频谱上的DoA的估计,使源估计更稳健。然而,由于对估计算法进行公式化时的困难以及使得该过程含糊不清的空间假频,对DoA概念的应用还未在盲源分离(BSS)参数估计中被广泛使用。
在经由波束成形的DoA分析中,特定空间位置的TDoA用于校准接收信号和用于搜索波束方向,换句话说,产生最高波束成形器输出能量的源DoA。这等效于做出对所有可能的源位置的假设并搜索这样的TDoA,所述TDoA当将校准的信号一起求和时给出了生成最高信号功率的扩音器信号的时间校准。一种类似的方法可用于统一STFT槽依赖性,从而在任何遭遇到所述关于各个频率来优化模型参数的问题的一般BSS方法中估计源空间响应。差别仅在于,在BSS中,优化算法被设置为使TDoA内核的集合(在下面的实施例中称其为波束成形内核)与观察数据相配,并且这样找出所考虑的源的最可能的DoA。
采用其最简单形式的波束成形,延迟和求和波束成形(DSBF),将给定波阵面到达方向转换为每个扩音器配对之间的一组TDoA值。从阵列的几何属性导出所述TDoA值,并且该过程在本文中进行了进一步详细描述。
例如,图5示出了示例扩音器阵列,其中,一对扩音器n401和m403分别以位置n和m位于xy平面上,并且单位向量k405从阵列的几何中心p407指向源。关于下面的等式,方向向量k405用笛卡尔坐标来定义。为简单起见,并且为了使用球面坐标系统来表示源方向,定义阵列的几何中心在笛卡尔坐标系统的原点处,即p=[0,0,0]。源到达方向在下文中使用仰角θ∈[0,π]、方位角和半径r=1以球面坐标系统给出。如果DoA以度数给出,则对仰角和方位角分别定义以下范围-90°≤θ≤90°和阵列的参考轴,零仰角θ=0°和零方位角φ=0°,可被任意设置为指向空间场所中的任何方向。
通过假设源传播的远场模型以及波阵面当到达阵列时是平面的,可以将扩音器配对n,m的TDoA写作:
其中,v是声音的速度。由k表示的每个不同的源位置转换成一组TDoA,该组TDoA进一步转换成在STFT域中与频率成比例的相位延迟。然而,相位差仅在达到频率时是明确的,其中,d409是阵列中任意两个扩音器之间的最小距离。在下文中,该点被称为空间假频频率。该限制来源于以下事实:半波长比最小扩音器间距d409短的频率不能通过其相位差来辨别。
TDoA(τnm)可以被转换为频域中的相位延迟如下:
Wnm(f,k)=exp(j2πfτn,m(k))
其中,k是指向所需查看方向的单位向量。对于每个配对n=1...M和m=1...M评估Wnm给出了感兴趣的查看方向k中的波束成形内核Wnm(f,k)。所述波束成形内核在某些实施例中可以由波束成形器107输出给复数非负矩阵因式分解器。
换句话说,波束成形器107可以被配置为定义一组查看方向向量ko,其中,o=1...O,其在空间上对设置在阵列的几何中心p周围的单位球面的表面进行采样。在图6中示出了查看方向向量501的示例。这些查看方向501对扩音器阵列周围的空间场所进行采样。在某些实施例中,使用来在每个频率i=1...I处的每个查看方向上表示波束成形内核。换句话说,[Wio]nm项表示针对扩音器配对(n,m)的被表述为复数的就相位差而言的TDoA。根据上面的等式如下获得所述内核:
[Wio]nm=Wnm(f,ko)=exp(j2πfτnm(ko)),
其中,Fs是采样频率,i是所考虑的STFT频率槽标引,并且N是STFT窗口长度。
波束成形内核的生成在图3中由步骤305示出。
在某些实施例中,所述装置包括复数非负矩阵因式分解器105。复数非负矩阵因式分解器105被配置为从波束成形器接收波束成形内核,并且将这些波束成形内核应用于所接收的音频信号的空间协方差矩阵形式。在如本文中所描述的某些实施例中使用的所提出的复值非负矩阵因式分解(CNMF)模型包括:用于对由表示的源STFT量值详情进行建模的非负矩阵因式分解(NMF)量值模型核心。在实践中,使用若干非负矩阵因式分解(NMF)组件来表示一个声学声音源,然而在本文中描述的示例中,一个NMF组件表示一个声音源。该简化使得能够更直观地解释音频信号的空间协方差矩阵(SCM)模型。
源空间协方差被定义为并且由多个DSBF的加权叠加构成的SCM模型可以被定义为:
其中,zko是对应于每个查看方向中的波束成形内核的方向权重,并且对以协方差矩阵的形式表述的源空间响应hik进行建模。在本文中描述的实施例中,复数非负矩阵因式分解器105被配置为按照使对应于单一声学源的方式来对进行估计,这在本文所描述的实施例中通过对独立于频率的空间权重zko进行估计来实现。波束成形器对DSBF内核的定义考虑了由具有TDoA形式的特定源的DoA所导致的频率依赖性。此外,空间权重zko限于是正值。
在某些实施例中,给定SCM模型,复数非负矩阵因式分解器105尝试最小化观察值Xij与信号模型之间的平方欧几里德距离在某些实施例中,给定SCM模型,复数非负矩阵因式分解器105因此将协方差观察值的源模型用作:
用于对进行估计和因式分解的CNMF参数结构在本文中进行了进一步阐述。然而,给定具有方向相关权重zko的的基于DoA的解译,有可能按照使得量值对应于单一真实声学源的方式来对模型进行公式化。
例如,每个源可被建模为使得每个源具有根据以下定义的SCM:
这确定了其空间位置。
用于单一源的量值频谱图的非负矩阵因式分解(NMF)模型因而可以写作并且该源的单一通道混合物被定义为:
其中k是源标引,并且K是用于对观察量值频谱图矩阵进行建模和近似的源的总数。每个列向量t:,k含有源的DFT频谱,并且对应行的vk,:表示其在每个STFT帧中的随时间变化的增益。
在某些实施例中,DSBF内核的缩放受限于||Wio||F=1,其中,||...||F表示矩阵的弗罗宾尼斯范数。该缩放确保SCM部分仅负责对输入通道(对角线值)之间的相位延迟和相对量值差进行建模。将NMF模型代入协方差模型并且重新布置参数生成整个CNMF模型:
其中,Wio是波束成形内核,zko是源k的内核权重,即方向权重。
在某些实施例中,通过并入单一通道源量值tikvkj,可以使用源SCM来生成CNMF模型,其生成以下模型,
从其中应当理解,的对角线中的实值项负责关于每个通道对绝对源量值水平进行建模,并且非对角线值对跨通道量值和相位差属性进行建模。所获得的空间协方差矩阵进一步意味着:合并了非负权重zko的量值|Wio|最终确定了多通道量值模型。
由波束成形器生成的延迟和求和波束成形器(DSBF)导向矩阵(steeringmatrices)为所有值产生单位量值。为了对各个通道之间的量值差进行建模,复数非负矩阵因式分解器105被配置为相应地对Wio的量值进行估计和更新。这是因为这些源是关于每个扩音器在增益变化的情况下被捕获的,这进一步由以下原因导致:扩音器具有与源的不同距离以及设备可能的声学阴影产生方向相关的增益(即使使用了全向扩音器)。尽管空间协方差矩阵量值可以进行优化,但是复数非负矩阵因式分解器105在某些实施例中保持原始波束成形相位差是相同的。换句话说,由源的特定方向所导致的原始相移。这样,通过仅对与频率无关的空间权重zko进行估计,当对相位差进行建模时保留了不同频率分量之间的依赖性。
在某些实施例中,复数非负矩阵因式分解器105被配置为:采用乘法更新来迭代地导出NMF分解参数,最小化给定代价函数(例如平方欧几里德距离或Kullback-Leibler散度)。可以关于每个所估计的参数从代价函数的偏导数获得乘法更新。
然而在某些实施例中,复数非负矩阵因式分解器105被配置为经由辅助函数和期望最大化(EM)算法结构来获得所述更新。不同NMF代价函数的统计学解释已在本领域中进行了讨论。已示出了用于优化算法参数的乘法算法更新等效于合适概率分布的均值或方差的最大似然估计。在平方欧几里德距离的情况下,参数优化等于具有固定方差的高斯分布的均值的最大似然估计。
为了在模型参数的最大似然估计中使用EM算法结构,用下面的统计学解释重新定义模型:
其中,表示复数高斯分布。高斯分布矩阵记号使用Y表示分布均值,并且使用σ2来表示每个矩阵项的方差。该统计学解释将用于测量建模误差的平方弗罗宾尼斯范数转换为具有固定方差σ2的高斯分布的均值的最大似然估计。用于单一时间-频率点(i,j)中的观察空间协方差矩阵X的CNMF模型可被给作以下后验分布:
其中,θ={W,Z,T,V}表示提出的CNMF模型的参数,表示复数高斯分布,并且||...||F表示矩阵的弗罗宾尼斯范数。在某些实施例中,复数非负矩阵因式分解器105更新规则导出将所有时间-频率点上的总似然性写作:
为了估计后验分布参数和优化模型参数,复数非负矩阵因式分解器105可以确定p(X/θ)的负对数似然性,这得到下式:
复数非负矩阵因式分解器105通过最小化上面定义的负对数似然性获得给定观察量X的情况下最大化后验分布的似然性的模型参数θ={W,Z,T,V}。
在某些实施例中,复数非负矩阵因式分解器105可被配置为引入未知底层分量Cijko,其中,假设所述未知底层分量Cijko相互独立,并且通过各个高斯分布来对其进行建模。潜在分量Cijko表示未知高斯变量的空间协方差。这些潜在分量被定义为,
基于高斯变量的总和属性,这些潜在变量中的每个的方差为1/K,其中,K是源的总数。此外,所述潜在分量的总似然性可被写作:
其中,现在使用满足Εk,k,orijko=1和rijko>0的参数rijko来解决高斯变量的方差。的总似然性可用于的间接优化。这是由于辅助函数的似然性具有以下属性:
这表明:关于C、T和V对进行最小化对应于的最小化和p(X/θ)的最大似然估计。
在某些实施例中,复数非负矩阵因式分解器105可以将辅助函数定义为:
这被代入方程使其等于并且再次允许使用辅助变量及其似然性对整个模型进行间接最小化。对于方差参数,Sawada等人导出了以下定义:
其等于与用整个模型量值水平除以分量的量值成比例地将方差指派给潜在分量。
在某些实施例中,复数非负矩阵因式分解器105为了数值稳定性和为了固定参数之间的缩放而另外引入以下约束:
将zko沿DSBF内核方向维度针对单位l2范数进行缩放是通过用同一范数乘以tik来补偿的。类似地,将单位l2范数强制实施到vkj是通过缩放tik来补偿的。针对单位弗罗宾尼斯范数对波束内核协方差矩阵进行缩放,以防止其改变模型的总体量值水平。所提出的缩放是通过应用以下方式来实现:
在某些实施例中,复数非负矩阵因式分解器105关于每个模型参数实施对求偏导,并且将导数设置为零。对于zko,tik和vkj的求导,复数非负矩阵因式分解器105可以通过使用等式||A||=tr(AHA)将弗罗宾尼斯形式扩展为以下形式来重新定义似然函数
同样基于缩放,第二项简化为
关于参数zko,tik和vkj的的偏导数可以给出为:
其中,θ={W,Z,T,VC}。将导数设置为零,使用Sawada等人对其的定义代入τijko,以及关于将被更新的参数来解方程从而确定以下更新规则:
应当理解,上面的更新不是采用快速和可靠算法收敛所需的乘法形式。然而,上面的更新可以通过下面的等式来变为乘法形式:
其中,Eij=Xij-Σk,oWiozkotikvkj是模型的误差。将 放回上面确定的更新规则并且在少量操作之后,生成下面的乘法更新:
这是将在某些实施例中由复数非负矩阵因式分解器105用于对算法参数进行最大似然估计的更新,并且这通过定义来最小化由平方弗罗宾尼斯范数定义的被给出为如下的模型误差:
在某些实施例中,复数非负矩阵因式分解器105可以进一步被配置为更新或优化DSBF内核。该更新需要与上面导出的不同的更新方案,因为将要保持预先定义的波束成形内核的相位差。在某些实施例中,复数非负矩阵因式分解器105通过首先为复数Wio导出更新来估计DSBF内核量值,但将该更新限于仅针对量值。因而,该模型可被看作与量值相关的延迟和求和波束成形器。在更新之后,通过应用Wio←Wio/||Wio||将每个空间协方差矩阵缩放成单位弗罗宾尼斯范数。
经由对求偏导来获得空间协方差矩阵Wio的更新规则,得到:
将上面的导数设置为零,使用来自Sawada等人对其的定义代入τijko得到下面的更新:
其中,是相比于Wio的实际所需更新而言具有经修改的相位延迟的初步更新。由于在||Wio||F=1中定义的缩放,可以无视上面的更新中的除数,并且使用其定义 代入Cijko,上面的更新可以被修改为下面的乘法更新:
在某些实施例中,复数非负矩阵因式分解器105可以被配置为通过应用以下来生成Wio的更新
其仅更新波束成形内核的量值部分,并且因而更新源的空间协方差矩阵的量值。
特别在最高频率处对Wio的更新可以产生非半正定的矩阵,并且对角线处的负值等于并不期望的有负号的量值模型。因此,在某些实施例中,复数非负矩阵因式分解器105可以被配置为:通过应用特征值分解Wio=VDVH和将具有负特征值的特征分量设置为零而强制施行半正定波束内核矩阵,由表示。
更新波束内核的最后阶段被给出为:
可以关于图7示出波束成形器和复数非负矩阵因式分解器105的操作的总结。
首先,复数非负矩阵因式分解器105被配置为接收空间协方差矩阵。
此外,复数非负矩阵因式分解器105被配置为利用均匀分布在零和一之间的随机值对zko,tik和vkj进行初始化。
利用均匀分布在零和一之间的随机值对zko,tik和vkj进行的初始化在图7中由步骤601示出。
波束成形器107被配置为根据[Wio]nm=Wnm(f,ko)|=exp(j2πfτnm(ko)),对Wio进行初始化,并且应用Wio←Wio/||Wio||。
对Wio进行的初始化在图7中由步骤602示出。
复数非负矩阵因式分解器105被进一步配置为根据重新计算量值模型
对量值模型进行评估的操作在图7中由步骤603示出。
复数非负矩阵因式分解器105被进一步配置为根据 更新tik。
更新tik的操作在图7中由步骤604示出。
复数非负矩阵因式分解器105被进一步配置为根据重新计算量值模型
重新计算量值模型的操作在图7中由步骤605示出。
复数非负矩阵因式分解器105被进一步配置为根据 更新vkj。
更新vkj的操作在图7中由步骤606示出。
复数非负矩阵因式分解器105被进一步配置为:如在中指定的那样针对单位l2范式来缩放vkj以及通过重新缩放tik来进行补偿。
缩放vkj和tik的操作在图7中由步骤607示出。
复数非负矩阵因式分解器105被进一步配置为根据重新计算量值模型
重新计算的操作在图7中由步骤608示出。
复数非负矩阵因式分解器105被进一步配置为根据 更新zko。
更新zko的操作在图7中由步骤609示出。
复数非负矩阵因式分解器105被进一步配置为:如在中指定的那样针对l2范式来缩放zko以及通过重新缩放tik来进行补偿。
缩放zko和tik的操作在图7中由步骤610示出。
复数非负矩阵因式分解器105被进一步配置为根据重新计算量值模型
重新计算的操作在图7中由步骤611示出。
复数非负矩阵因式分解器105被进一步配置为根据 和 Wio←Wio/||Wio||更新Wio。
更新Wio的操作在图7中由步骤612示出。
复数非负矩阵因式分解器105被进一步配置为:通过将Wio强制施行为半正定的,并且应用Wio←Wio/||Wio||。
将Wio强制施行为半正定的操作在图7中由步骤613示出。
复数非负矩阵因式分解器105被进一步配置为重复步骤603到613达预定数量的迭代,或者直到参数更新收敛并且在各个更新之间不显著改变为止。
实施循环跳回步骤603的操作在图7中由步骤614示出。
此外,在某些实施例中,复数非负矩阵因式分解器105被进一步配置为输出模型参数。
模型参数tik、vkj、zko和Wio的生成或输出在图7中由步骤615示出。
在某些实施例中,模型参数被输出给分离器109。
利用波束内核实施复数非负矩阵因式分解的操作在图3中由步骤307示出。
在某些实施例中,所述装置包括分离器109。分离器109在某些实施例中被配置为接收CNMF分量和阵列输入,以及将音频信号分离为各个源。
针对真实声学源的分离因此需要对先前被解译为各个源的已进行复值非负矩阵因式分解(CNMF)的分量进行聚类。换句话说,采用CNMF分量的固定频谱基带并将其进行限制以便仅对真实源的一些部分进行建模。从源自于同一源的CNMF分量共享由空间权重zko确定的非常类似的空间协方差属性。这在图8中示出,其中示出了目标源1:Q701空间响应702被体现于阵列703,该空间响应702如在本文中描述的那样被因式分解为NMF分量705,该NMF分量705被进行估计和聚类706以便生成经估计或重构的源1:Q707。在某些实施例中,聚类是基于空间权重相似性,并且分离的聚类算法可用于解决CNMF分量与实际声学源映射的关联。
在下面的示例中,对空间权重zko应用的k均值聚类被用于测试和评估分离质量。在所述实施例中,分离器109被配置为使得每个zk,:充当特征向量,并且在以下情况下应用k均值聚类:所需聚类计数等于原始声音源的总数Q。在所述实施例中,根据k均值聚类,满足分量k属于源q的聚类判定,并且该聚类判定由二元参数bqk表示。单一源量值声谱图的CNMF量值模型然后可被定义为:
应当理解,在某些实施例中,任何其它聚类算法或CNMF分量向源的链接策略均可以用于估计二元或软判定bqk,并且选择使用被应用于空间权重的k均值聚类是用于说明DoA分析和所提出的实施例的建模性能的示例。
在某些实施例中,来自CNMF参数的其它特征(诸如频谱相似性和随时间改变的增益表现)可以并行地用于将CNMF分量关联到源。
分离器109在某些实施例中被配置为将经聚类的源输出给空间合成器111。
将源分离成聚类的操作在图3中由步骤309示出。
在某些实施例中,所述装置包括空间合成器111。空间合成器111被配置为接收经聚类的源参数以便再生源信号。在某些实施例中,源信号的重构采用维纳滤波器。在所述实施例中,利用CNMF分量聚类判定bkk将源重构滤波给出为:
其中,yijq现在担任真实声学源。从逆STFT(iSTFT)获得时域源。
关于图9,示出了根据某些实施例的示例空间合成器111。此外,关于图10,示出了图9中所示的空间合成器的操作。
在某些实施例中,空间合成器111包括逆短时傅立叶变换器(iSTFT)801,该逆短时傅立叶变换器801被配置为对由分离器109输出的经聚类的CNMF参数应用逆短时傅立叶变换。
已进行逆短时傅立叶变换的参数在某些实施例中被输出给头部相关脉冲响应(HRIR)滤波器803。
对经聚类的CNMF参数应用iSTFT的操作在图10中由步骤901示出。
在某些实施例中,所述装置包括HRIR滤波器803,该HRIR滤波器803被配置为接收iSTFT经聚类的CNMF参数。
此外,在某些实施例中,HRIR滤波器803被配置为接收原始STFT观察量xij,并根据CNMF量值模型参数构造维纳滤波器,以便在STFT域中过滤出源频谱详情。源重构滤波在某些实施例中被给出为:
其中,yijk是如由阵列所见的经估计的源信号(换句话说,已与其空间脉冲响应进行了卷积,并且xij是由阵列捕获的混合信号的STFT)。
在某些实施例中从iSTFT801获得时域信号。
在某些实施例中,HRIR滤波器803被配置为将由具有最高功率的波束确定的方向选作占优势的源方向,以及关联于该方向的单一HRTF滤波器被使用。
在某些实施例中,可以采用其它双声道空间合成方案,例如在HRIR滤波阶段对每个源使用若干占优势的方向。
在某些实施例中,空间合成器111包括HRTF数据库,所述HRTF数据库被配置为存储被检索的HRIR滤波器分量。
从HRTF数据库检索HRIR滤波器分量的操作在图10中由步骤902示出。
在下面的示例中,用非正式测试来确定双声道合成精度,因为源定位被确定为类似于源的实际定位。
在图11中给出了通过模型分析的空间权重的一个示例。原始位置为具有零仰角的0度和90度,这可以从所分析的权重中清楚地看出,其中,所分析的权重产生了良好的分离和使用双声道合成方案的精确空间合成。
在某些实施例中,针对每个CNMF分量的各个空间协方差被解译为单一源的方向,并且CNMF分量可直接用于空间合成。在其中仅期望3D声音合成的情况下,不需要任何分离阶段,但利用以上定义的空间声场合成方法之一,每个CNMF分量被单独地合成,并且它们被定位到其经分析的空间位置。
在某些实施例中,使用关联的空间权重来确定哪些HRTF以头部相关脉冲响应(HRIR)的形式被用于对经分离的源进行滤波。这模拟了通过双声道线索进行的源定位,其中,所述双声道线索例如是到达时间差和由耳廓导致的与方向相关的频率滤波器。
HRIR滤波的操作在图10中由903示出。
在某些实施例中,HRIR滤波器被配置为将经滤波的分量输出给组合器805。
在某些实施例中,空间合成器111包括组合器805,该组合器805被配置为对HRIR滤波器源进行求和或组合。换句话说,在某些实施例中,在对每个源利用其关联的与方向相关的双声道滤波器(HRIR)来进行滤波之后,全部各个源被求和到一起以形成双声道合成信号。
对滤波器源进行组合(求和)的操作在图10中由步骤905示出。
应当理解,可以使用基于已知源信号及其多维度源定位的任何其它空间声场合成技术。例如,在某些实施例中,可经由矢量基幅值相移来实施空间声场合成。
对输出量(例如双声道立体声输出)进行输出的操作在图3(和图9)中由步骤313示出。
在某些实施例中,可以对方向权重zko强制施行稀疏,这可以用于引导算法找出具有点状本质并且不包括具有混响形式的环境内容的源的空间协方差。在某些实施例中,这可以用于减少经分离的源之间的串话。在所述实施例中,在 中规定的zko的l2范数缩放被定义为使得可以使用稀疏代价Σpzko。
此外,在某些实施例中,可以直接估计CNMF分量与源的关联。在所述实施例中,聚类判定bqk是可以包括在模型中的非负参数,并且可以获得基于求偏导的更新规则。在这些实施例中,关于每个真实声学声源对SCM进行估计,并且与所呈现的模型类似,维持了使用DSBF的频率依赖性。
下面通过将实施例的结果与适于具有合理量混响的小型扩音器阵列捕获的特定情况的常规BSS方法进行比较,说明了某些实施例的分离性能。通过诸如由BSS评估工具箱提供的分离质量度量、信号失真比(SDR)、图像空间失真比(ISR)、信干比(SIR)和信伪比(SAR)来确定分离性能。
在下面的示例中,使用从各个方向在规则会议室中记录的脉冲响应来实施分离评估。使用最大长度序列(MLS)方法和使用针对MLS激发的Genelec1029A扬声器来获得每个源位置对扩音器阵列的脉冲响应。将无回声测试采样与脉冲响应进行卷积并且求和到一起以模拟同时捕获的源。所使用的采样频率为48kHz,房间尺寸大约为5x12x2.59m,并且混响时间(T60)大约为0.35s。下面的示例中的捕获阵列由4个DPA4060-BM预极化全向微型电容扩音器组成。阵列尺寸由下表给出:
并且在图12中示出具有参考轴的阵列几何形状。
给定阵列的空间假频频率为1563Hz。
要分析的示例随后的实施例的信号长度在每个测试用例中被设置为10秒,STFT窗口长度为具有50%窗口重叠的2048个采样。在下面的示例中,所确定的非负矩阵因式分解的迭代数为200个迭代。此外,对于下面的示例,从以下角度[0,45,90,135,180,305]来捕获脉冲响应,其中,选取所述角度与不同源类型(语音、音乐和噪声)的若干组合进行评估。在对脉冲响应进行卷积之后,将信号下采样至24kHz。在图6中示出了由所有查看方向向量定义的对不同DSBF的空间采样,该图包括110个波束方向,所述110个波束方向近似均匀地对阵列周围的单位球面进行采样。在该示例中,在零仰角处(换句话说,在阵列的平面处)的横向分辨率为10度,并且不同仰角以22.5度进行间隔。所述实施例中的方位角分辨率随着靠近单位球体的顶点而降低。将分离性能与在本文中提出的CNMF方法进行比较。
在所有下面的测试用例中,测试了总计五个10秒信号,并且在测试用例内的所有测试信号和所有源上对分离度量进行平均。
在第一测试用例中,测试了两个具有90度间隔的说话者。在图13中示出了源定位(说话者1在0度处,而说话者2在90度处),并且由下表给出分离结果:
在第二测试用例中,从不同角度(说话者在45度处,而粉红噪声来自135度)测试了具有90度间隔的说话者和伪造粉红噪声源的组合。在图14中示出了源定位,并且在下表中给出分离结果:
在第三测试用例中,测试了具有145度间隔的电视广播和一个说话者。在图15中示出了源定位(TV源在305度处,而说话者在90度处),并且在下表中给出分离结果:
应当理解,所获得的分离性能指示:如在示例性基于波束成形对源分离的空间协方差矩阵估计中所示的实施例相比于也基于空间协方差估计的参照物而言系统地增加了分离。此外应当理解,分离性能提升对于具有显著方位角差的语音源情况是最大的,并且对于诸如伪造粉红噪声这样的困难宽带噪声情况是降低的。
应当理解,尽管下面的示例示出了捕获音频信号、对音频信号进行分析以生成经建模的音频源以及根据经建模的音频源再生音频信号的操作,但在某些实施例中,所述装置以及例如所述空间合成器可被配置为根据任何合适的手段对经建模的音频源进行处理。
例如,如在图16和图17中所示,示出了示例性处理,其中,在图16中,出现了一男性说话者和两个其他说话者的示例。在该示例中,扩音器是全向的,并且所有说话者均出现在两个通道中。然而,男性说话者在扩音器阵列的右边,并且因此他的语音在右通道(右通道=两个通道中的较低通道)中占优势。在图17中,该图示出了以下情形:通过移除根据在本文中描述的实施例所估计的音频源,男性说话者被移除。在所述实施例中,如可见的那样,在不影响在左通道中占优势的来自其他说话者的声音的情况下,男性说话者在右通道中被衰减大约12dB。
应当认识到,术语“用户设备”旨在涵盖任何合适类型的无线用户设备,例如移动电话、便携式数据处理设备或便携式web浏览器,以及可穿戴设备。
一般来说,本发明的各种实施例可以用硬件或专用电路、软件、逻辑或者其任意组合来实现。例如,某些方面可以用硬件来实现,而其它方面可以用可由控制器、微处理器或其它计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各种方面可以作为框图、流程图或使用某种其它图片表示来示出和描述,但应当理解,在本文中描述的这些框块、装置、系统、技术或方法作为非限制性示例可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或者其某种组合来实现。
本发明的实施例可以由可由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件、或由硬件、或由软件和硬件的组合来实现。在这点上进一步应当指出,附图中的逻辑流的任何框均可表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。软件可以存储在物理介质中,所述物理介质例如是在处理器内实现的存储器芯片或存储器块、诸如硬盘或软盘的磁介质,以及诸如DVD和其数据变体CD的光介质。
存储器可以具有任何适于本地技术环境的类型,并且可以使用任何合适的数据存储技术来实现,例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可装卸存储器。数据处理器可以具有任何适于本地技术环境的类型,并且作为非限制性示例可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级别电路以及基于多核处理器体系结构的处理器中的一个或多个。
本发明的实施例可以在诸如集成电路模块这样的各种组件中来实现。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级设计转换为将被蚀刻和形成在半导体衬底上的半导体电路设计。
诸如由California的MountainView的Synopsys公司和California的SanJose的CadenceDesign提供的那些的程序使用已完善建立的设计规则以及预存储的设计模块的库来自动地在半导体芯片上规定导体的线路和放置组件。一旦半导体电路的设计已完成,则产生的采用标准化电子格式(例如Opus、GDSII等)的设计可被传送给半导体制造厂或“fab”进行制造。
前述说明书已借助于示例性和非限制性示例提供了对本发明的示例性实施例的详尽和信息丰富的描述。然而,当结合附图和所附权利要求阅读时,基于前述说明书,各种修改和调整对于相关领域的技术人员可以变得显而易见。然而,对本发明的教导的所有这样的和类似修改仍将落在如由所附权利要求定义的本发明的范围内。
Claims (18)
1.一种用于分离音频源的方法,其包括:
接收至少两个音频信号;
将所述至少两个音频信号变换为所述至少两个信号的频域表示;
根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;
生成包括至少一个波束成形器内核的空间协方差矩阵模型;
生成音频对象的线性量值模型;
将所述空间协方差矩阵模型和所述线性量值模型合并;
确定至少一个合并参数,从而使得用于合并的所述至少一个参数尝试优化所述合并;以及
基于所述至少一个合并参数对所述音频对象进行聚类,以便产生分离的音频源。
2.根据权利要求1所述的方法,其中,接收所述至少两个音频信号包括以下中的至少一个:
从扩音器生成所述音频信号,所述扩音器从至少一个音频源接收声波;以及
从存储器接收所述音频信号,所述音频信号描述了来自至少一个音频源的声波。
3.根据权利要求1到2所述的方法,其中,将所述至少两个音频信号变换为所述至少两个信号的频域表示包括:对所述至少两个音频信号实施时间到频率变换。
4.根据权利要求1到3所述的方法,其中,根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵包括:根据所述两个频域表示的自协方差生成观察空间协方差矩阵。
5.根据权利要求1到4所述的方法,其进一步包括:通过生成对扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟,生成至少一个波束成形器内核。
6.根据权利要求5所述的方法,其中,生成至少一个波束成形器内核包括:生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟的自协方差。
7.根据权利要求1到6所述的方法,其中,生成音频对象的线性模型包括:实施对音频对象量值的非负矩阵因式分解。
8.根据权利要求7所述的方法,其中,实施对音频对象量值的非负矩阵因式分解包括:利用均匀分布在零和一之间的随机值来初始化线性模型参数zko,tik和vkj。
9.根据权利要求1到8所述的方法,其中,将空间协方差矩阵模型和所述线性量值模型合并包括:用由所述线性模型表示的量值包络乘以所述空间协方差矩阵模型。
10.根据权利要求1到9所述的方法,其中,确定至少一个合并参数包括:确定用于最小化所述观察空间协方差矩阵与所述空间协方差模型之间的差别的空间协方差模型参数。
11.根据权利要求10所述的方法,其中,确定所述空间协方差模型参数包括:实施基于复值非负矩阵因式分解的迭代式优化,从而使得表示所述至少一个音频对象的线性量值模型的参数被迭代地更新,直到所述线性量值模型参数在各个更新之间不显著改变,或者处理了所定义数量的迭代为止。
12.根据权利要求11所述的方法,其中,实施基于所述复值非负因式分解的迭代式优化包括:
根据复数非负矩阵因式分解的优化框架来更新线性模型参数zko,tik和vkj;以及
更新所述空间协方差矩阵模型量值。
13.根据权利要求12所述的方法,其中,更新所述空间协方差矩阵模型量值包括:更新对所述至少两个音频信号的估计量的相对量值差值。
14.根据权利要求8和11到13所述的方法,其中,基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音频源包括:根据所述至少一个音频对象和根据所估计的线性量值模型参数生成至少一个音频源。
15.根据权利要求1到14所述的方法,其进一步包括:基于与所述至少一个音频源相关联的所述至少一个合并模型参数来合成至少一个音频信号。
16.一种装置,其包括:
用于接收至少两个音频信号的构件;
用于将所述至少两个音频信号变换为所述至少两个信号的频域表示的构件;
用于根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵的构件;
用于生成包括至少一个波束成形器内核的空间协方差矩阵模型的构件;
用于生成音频对象的线性量值模型的构件;
用于将所述空间协方差矩阵模型和所述线性量值模型合并的构件;
用于确定至少一个合并参数,从而使得用于合并的所述至少一个参数尝试优化所述合并的构件;以及
用于基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源的构件。
17.一种包括至少一个处理器和至少一个存储器的装置,所述至少一个存储器包括用于一个或多个程序的计算机代码,所述至少一个存储器和所述计算机代码被配置为与所述至少一个处理器一起促使所述装置至少:
接收至少两个音频信号;
将所述至少两个音频信号变换为所述至少两个信号的频域表示;
根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;
生成包括至少一个波束成形器内核的空间协方差矩阵模型;
生成音频对象的线性量值模型;
将所述空间协方差矩阵模型和所述线性量值模型合并;
确定至少一个合并参数,从而使得用于合并的所述至少一个参数尝试优化所述合并;以及
基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。
18.一种装置,其包括:
输入端,其被配置为接收至少两个音频信号;
频域变换器,其被配置为将所述至少两个音频信号变换为所述至少两个信号的频域表示;
空间协方差处理器,其被配置为根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;
波束成形器,其被配置为生成包括至少一个波束成形器内核的空间协方差矩阵模型;
矩阵因式分解器,其被配置为生成音频对象的线性量值模型,将所述空间协方差矩阵模型和所述线性量值模型合并,以及进一步被配置为确定至少一个合并参数,从而使得用于合并的所述至少一个参数尝试优化所述合并;以及
分离器,其被配置为基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2013/052212 WO2014147442A1 (en) | 2013-03-20 | 2013-03-20 | Spatial audio apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105230044A true CN105230044A (zh) | 2016-01-06 |
Family
ID=51579360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380076395.7A Pending CN105230044A (zh) | 2013-03-20 | 2013-03-20 | 空间音频装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9788119B2 (zh) |
EP (1) | EP2976893A4 (zh) |
CN (1) | CN105230044A (zh) |
WO (1) | WO2014147442A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107039045A (zh) * | 2016-02-03 | 2017-08-11 | 谷歌公司 | 用于语音增强的全局优化最小二乘后滤波 |
CN107484070A (zh) * | 2017-08-22 | 2017-12-15 | 李峥炜 | 池面音乐景观系统 |
CN109074818A (zh) * | 2016-04-08 | 2018-12-21 | 杜比实验室特许公司 | 音频源参数化 |
CN109119092A (zh) * | 2018-08-31 | 2019-01-01 | 广东美的制冷设备有限公司 | 基于麦克风阵列的波束指向切换方法和装置 |
CN109644304A (zh) * | 2016-08-31 | 2019-04-16 | 杜比实验室特许公司 | 混响环境的源分离 |
CN110088835A (zh) * | 2016-12-28 | 2019-08-02 | 谷歌有限责任公司 | 使用相似性测度的盲源分离 |
CN111316354A (zh) * | 2017-11-06 | 2020-06-19 | 诺基亚技术有限公司 | 目标空间音频参数和相关联的空间音频播放的确定 |
WO2021012929A1 (zh) * | 2019-07-24 | 2021-01-28 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
CN113035209A (zh) * | 2021-02-25 | 2021-06-25 | 北京达佳互联信息技术有限公司 | 三维音频获取方法和三维音频获取装置 |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10860683B2 (en) | 2012-10-25 | 2020-12-08 | The Research Foundation For The State University Of New York | Pattern change discovery between high dimensional data sets |
US20170178664A1 (en) * | 2014-04-11 | 2017-06-22 | Analog Devices, Inc. | Apparatus, systems and methods for providing cloud based blind source separation services |
US9875080B2 (en) | 2014-07-17 | 2018-01-23 | Nokia Technologies Oy | Method and apparatus for an interactive user interface |
US9825693B1 (en) * | 2014-08-26 | 2017-11-21 | Northrop Grumman Systems Corporation | Method and apparatus for symbol measurement and combining |
US20160071526A1 (en) * | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
WO2016050780A1 (en) * | 2014-10-02 | 2016-04-07 | Sony Corporation | Method, apparatus and system |
CN112802496A (zh) * | 2014-12-11 | 2021-05-14 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
US9747068B2 (en) | 2014-12-22 | 2017-08-29 | Nokia Technologies Oy | Audio processing based upon camera selection |
CN105989851B (zh) * | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
CN105989852A (zh) | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9788109B2 (en) | 2015-09-09 | 2017-10-10 | Microsoft Technology Licensing, Llc | Microphone placement for sound source direction estimation |
US10079028B2 (en) * | 2015-12-08 | 2018-09-18 | Adobe Systems Incorporated | Sound enhancement through reverberation matching |
EP3387648B1 (en) * | 2015-12-22 | 2020-02-12 | Huawei Technologies Duesseldorf GmbH | Localization algorithm for sound sources with known statistics |
EP3414925B1 (en) | 2016-02-09 | 2019-09-11 | Dolby Laboratories Licensing Corporation | System and method for spatial processing of soundfield signals |
US10142755B2 (en) * | 2016-02-18 | 2018-11-27 | Google Llc | Signal processing methods and systems for rendering audio on virtual loudspeaker arrays |
WO2017143003A1 (en) * | 2016-02-18 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
US11234072B2 (en) | 2016-02-18 | 2022-01-25 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
US9949052B2 (en) | 2016-03-22 | 2018-04-17 | Dolby Laboratories Licensing Corporation | Adaptive panner of audio objects |
US11152014B2 (en) | 2016-04-08 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Audio source parameterization |
ES2713685T3 (es) * | 2016-04-26 | 2019-05-23 | Nokia Technologies Oy | Métodos, aparatos y programas informáticos relativos a la modificación de una característica asociada a una señal de audio separada |
US9837064B1 (en) | 2016-07-08 | 2017-12-05 | Cisco Technology, Inc. | Generating spectrally shaped sound signal based on sensitivity of human hearing and background noise level |
GB2556093A (en) * | 2016-11-18 | 2018-05-23 | Nokia Technologies Oy | Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices |
US10573291B2 (en) | 2016-12-09 | 2020-02-25 | The Research Foundation For The State University Of New York | Acoustic metamaterial |
CN106898348B (zh) | 2016-12-29 | 2020-02-07 | 北京小鸟听听科技有限公司 | 一种出声设备的去混响控制方法和装置 |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
CN110603587A (zh) * | 2017-05-08 | 2019-12-20 | 索尼公司 | 信息处理设备 |
US10334357B2 (en) | 2017-09-29 | 2019-06-25 | Apple Inc. | Machine learning based sound field analysis |
EP3503592B1 (en) | 2017-12-19 | 2020-09-16 | Nokia Technologies Oy | Methods, apparatuses and computer programs relating to spatial audio |
WO2019183112A1 (en) * | 2018-03-20 | 2019-09-26 | 3Dio, Llc | Binaural recording device with directional enhancement |
CN108766457B (zh) | 2018-05-30 | 2020-09-18 | 北京小米移动软件有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
WO2019229199A1 (en) * | 2018-06-01 | 2019-12-05 | Sony Corporation | Adaptive remixing of audio content |
CN112335261B (zh) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | 图案形成麦克风阵列 |
CN108769874B (zh) * | 2018-06-13 | 2020-10-20 | 广州国音科技有限公司 | 一种实时分离音频的方法和装置 |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11227621B2 (en) | 2018-09-17 | 2022-01-18 | Dolby International Ab | Separating desired audio content from undesired content |
US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
US11438691B2 (en) | 2019-03-21 | 2022-09-06 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
WO2020237206A1 (en) | 2019-05-23 | 2020-11-26 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
WO2020243471A1 (en) | 2019-05-31 | 2020-12-03 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
JP7243840B2 (ja) * | 2019-08-21 | 2023-03-22 | 日本電信電話株式会社 | 推定装置、推定方法及び推定プログラム |
EP4018680A1 (en) | 2019-08-23 | 2022-06-29 | Shure Acquisition Holdings, Inc. | Two-dimensional microphone array with improved directivity |
CN110517702B (zh) * | 2019-09-06 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
EP4038609B1 (en) * | 2019-10-04 | 2023-07-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Source separation |
US11638111B2 (en) | 2019-11-01 | 2023-04-25 | Meta Platforms Technologies, Llc | Systems and methods for classifying beamformed signals for binaural audio playback |
US12028678B2 (en) | 2019-11-01 | 2024-07-02 | Shure Acquisition Holdings, Inc. | Proximity microphone |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
WO2021243368A2 (en) | 2020-05-29 | 2021-12-02 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
US11678111B1 (en) * | 2020-07-22 | 2023-06-13 | Apple Inc. | Deep-learning based beam forming synthesis for spatial audio |
JP7387565B2 (ja) * | 2020-09-16 | 2023-11-28 | 株式会社東芝 | 信号処理装置、学習済みニューラルネットワーク、信号処理方法及び信号処理プログラム |
JP2024505068A (ja) | 2021-01-28 | 2024-02-02 | シュアー アクイジッション ホールディングス インコーポレイテッド | ハイブリッドオーディオビーム形成システム |
CN114639398B (zh) * | 2022-03-10 | 2023-05-26 | 电子科技大学 | 一种基于麦克风阵列的宽带doa估计方法 |
CN114678037B (zh) * | 2022-04-13 | 2022-10-25 | 北京远鉴信息技术有限公司 | 一种重叠语音的检测方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441872A (zh) * | 2007-11-19 | 2009-05-27 | 三菱电机株式会社 | 利用受限非负矩阵分解对声学信号去噪 |
CN101536085A (zh) * | 2006-10-24 | 2009-09-16 | 弗劳恩霍夫应用研究促进协会 | 用于从音频信号中产生环境信号的设备和方法,用于从音频信号中导出多声道音频信号的设备和方法以及计算机程序 |
CN101604012A (zh) * | 2008-06-11 | 2009-12-16 | 索尼株式会社 | 信号处理装置、信号处理方法以及程序 |
CN102075831A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 信号处理设备、信号处理方法及其程序 |
CN102637435A (zh) * | 2011-02-09 | 2012-08-15 | 索尼公司 | 音频信号处理设备、音频信号处理方法和程序 |
KR20130006857A (ko) * | 2011-06-24 | 2013-01-18 | 서강대학교산학협력단 | 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1473964A3 (en) | 2003-05-02 | 2006-08-09 | Samsung Electronics Co., Ltd. | Microphone array, method to process signals from this microphone array and speech recognition method and system using the same |
EP1923866B1 (en) * | 2005-08-11 | 2014-01-01 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program |
JP4897519B2 (ja) * | 2007-03-05 | 2012-03-14 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
US8036601B2 (en) * | 2007-03-13 | 2011-10-11 | Nec Laboratories America, Inc. | Group LMMSE demodulation using noise and interference covariance matrix for reception on a cellular downlink |
US8175291B2 (en) | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US20110096915A1 (en) | 2009-10-23 | 2011-04-28 | Broadcom Corporation | Audio spatialization for conference calls with multiple and moving talkers |
JP4986248B2 (ja) | 2009-12-11 | 2012-07-25 | 沖電気工業株式会社 | 音源分離装置、方法及びプログラム |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US10726861B2 (en) * | 2010-11-15 | 2020-07-28 | Microsoft Technology Licensing, Llc | Semi-private communication in open environments |
-
2013
- 2013-03-20 WO PCT/IB2013/052212 patent/WO2014147442A1/en active Application Filing
- 2013-03-20 US US14/777,825 patent/US9788119B2/en active Active
- 2013-03-20 CN CN201380076395.7A patent/CN105230044A/zh active Pending
- 2013-03-20 EP EP13878649.6A patent/EP2976893A4/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101536085A (zh) * | 2006-10-24 | 2009-09-16 | 弗劳恩霍夫应用研究促进协会 | 用于从音频信号中产生环境信号的设备和方法,用于从音频信号中导出多声道音频信号的设备和方法以及计算机程序 |
CN101441872A (zh) * | 2007-11-19 | 2009-05-27 | 三菱电机株式会社 | 利用受限非负矩阵分解对声学信号去噪 |
CN101604012A (zh) * | 2008-06-11 | 2009-12-16 | 索尼株式会社 | 信号处理装置、信号处理方法以及程序 |
CN102075831A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 信号处理设备、信号处理方法及其程序 |
CN102637435A (zh) * | 2011-02-09 | 2012-08-15 | 索尼公司 | 音频信号处理设备、音频信号处理方法和程序 |
KR20130006857A (ko) * | 2011-06-24 | 2013-01-18 | 서강대학교산학협력단 | 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 |
Non-Patent Citations (1)
Title |
---|
NGOC Q. K. DUONG.ETC: "Under-Determined Reverberant Audio Source Separation Using a Full-Rank Spatial Covariance Model", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107039045B (zh) * | 2016-02-03 | 2020-10-23 | 谷歌有限责任公司 | 用于语音增强的全局优化最小二乘后滤波 |
CN107039045A (zh) * | 2016-02-03 | 2017-08-11 | 谷歌公司 | 用于语音增强的全局优化最小二乘后滤波 |
CN109074818B (zh) * | 2016-04-08 | 2023-05-05 | 杜比实验室特许公司 | 音频源参数化 |
CN109074818A (zh) * | 2016-04-08 | 2018-12-21 | 杜比实验室特许公司 | 音频源参数化 |
CN109644304A (zh) * | 2016-08-31 | 2019-04-16 | 杜比实验室特许公司 | 混响环境的源分离 |
CN110088835A (zh) * | 2016-12-28 | 2019-08-02 | 谷歌有限责任公司 | 使用相似性测度的盲源分离 |
CN110088835B (zh) * | 2016-12-28 | 2024-03-26 | 谷歌有限责任公司 | 使用相似性测度的盲源分离 |
CN107484070A (zh) * | 2017-08-22 | 2017-12-15 | 李峥炜 | 池面音乐景观系统 |
CN107484070B (zh) * | 2017-08-22 | 2019-07-19 | 广州山水比德设计股份有限公司 | 池面音乐景观系统 |
CN111316354B (zh) * | 2017-11-06 | 2023-12-08 | 诺基亚技术有限公司 | 目标空间音频参数和相关联的空间音频播放的确定 |
US11785408B2 (en) | 2017-11-06 | 2023-10-10 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
CN111316354A (zh) * | 2017-11-06 | 2020-06-19 | 诺基亚技术有限公司 | 目标空间音频参数和相关联的空间音频播放的确定 |
US12114146B2 (en) | 2017-11-06 | 2024-10-08 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
CN109119092B (zh) * | 2018-08-31 | 2021-08-20 | 广东美的制冷设备有限公司 | 基于麦克风阵列的波束指向切换方法和装置 |
CN109119092A (zh) * | 2018-08-31 | 2019-01-01 | 广东美的制冷设备有限公司 | 基于麦克风阵列的波束指向切换方法和装置 |
WO2021012929A1 (zh) * | 2019-07-24 | 2021-01-28 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
US11908483B2 (en) | 2019-07-24 | 2024-02-20 | Tencent Technology (Shenzhen) Company Limited | Inter-channel feature extraction method, audio separation method and apparatus, and computing device |
CN113035209A (zh) * | 2021-02-25 | 2021-06-25 | 北京达佳互联信息技术有限公司 | 三维音频获取方法和三维音频获取装置 |
CN113035209B (zh) * | 2021-02-25 | 2023-07-04 | 北京达佳互联信息技术有限公司 | 三维音频获取方法和三维音频获取装置 |
Also Published As
Publication number | Publication date |
---|---|
US20160073198A1 (en) | 2016-03-10 |
EP2976893A1 (en) | 2016-01-27 |
EP2976893A4 (en) | 2016-12-14 |
US9788119B2 (en) | 2017-10-10 |
WO2014147442A1 (en) | 2014-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9788119B2 (en) | Spatial audio apparatus | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
Nikunen et al. | Direction of arrival based spatial covariance model for blind sound source separation | |
Gannot et al. | A consolidated perspective on multimicrophone speech enhancement and source separation | |
JP5814476B2 (ja) | 空間パワー密度に基づくマイクロフォン位置決め装置および方法 | |
Zhang et al. | Insights into head-related transfer function: Spatial dimensionality and continuous representation | |
EP2628316B1 (en) | Apparatus and method for deriving a directional information and computer program product | |
US20200068309A1 (en) | Analysis of Spatial Metadata From Multi-Microphones Having Asymmetric Geometry in Devices | |
Salvati et al. | Incoherent frequency fusion for broadband steered response power algorithms in noisy environments | |
CN108886649B (zh) | 用于生成声场描述的装置、方法或计算机程序 | |
CN109791769A (zh) | 使用自适应捕捉从麦克风阵列生成空间音频信号格式 | |
CN109804559A (zh) | 空间音频系统中的增益控制 | |
EP3409025A1 (en) | System and apparatus for tracking moving audio sources | |
McCormack et al. | Parametric acoustic camera for real-time sound capture, analysis and tracking | |
Smaragdis et al. | Position and trajectory learning for microphone arrays | |
Yang et al. | Geometrically constrained source extraction and dereverberation based on joint optimization | |
Krause et al. | Data diversity for improving DNN-based localization of concurrent sound events | |
Çöteli et al. | Multiple sound source localization with rigid spherical microphone arrays via residual energy test | |
Salvati et al. | Iterative diagonal unloading beamforming for multiple acoustic sources localization using compact sensor arrays | |
Pertilä | Acoustic source localization in a room environment and at moderate distances | |
Pan | Spherical harmonic atomic norm and its application to DOA estimation | |
Hollebon et al. | Experimental study of various methods for low frequency spatial audio reproduction over loudspeakers | |
Carabias-Orti et al. | Multi-source localization using a DOA Kernel based spatial covariance model and complex nonnegative matrix factorization | |
EP3627850A1 (en) | Speaker array and signal processor | |
Sun et al. | From RIR to BRIR: A Sparse Recovery Beamforming Approach for Virtual Binaural Sound Rendering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160106 |