CN110114828B - 使用比率作为分离特征来分解音频信号的装置和方法 - Google Patents
使用比率作为分离特征来分解音频信号的装置和方法 Download PDFInfo
- Publication number
- CN110114828B CN110114828B CN201780071526.0A CN201780071526A CN110114828B CN 110114828 B CN110114828 B CN 110114828B CN 201780071526 A CN201780071526 A CN 201780071526A CN 110114828 B CN110114828 B CN 110114828B
- Authority
- CN
- China
- Prior art keywords
- signal
- block
- blocks
- foreground
- current block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 140
- 238000000926 separation method Methods 0.000 title claims description 135
- 238000000034 method Methods 0.000 title claims description 42
- 230000004044 response Effects 0.000 claims abstract description 8
- 230000003595 spectral effect Effects 0.000 claims description 31
- 238000005259 measurement Methods 0.000 claims description 19
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000005562 fading Methods 0.000 claims description 2
- 239000003607 modifier Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 18
- 230000001052 transient effect Effects 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000012886 linear function Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000012888 cubic function Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/035—Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
一种用于将音频信号(100)分解成背景分量信号(140)和前景分量信号(150)的装置,包括:块生成器(110),用于生成音频信号值的时间序列块;音频信号分析器(120),用于确定音频信号的当前块的块特征,并用于确定一组块的平均特征,该组块包括至少两个块;以及分离器(130),用于响应于当前块的块特征与一组块的平均特征的比率而将当前块分离成背景部分和前景部分,其中背景分量信号(140)包括当前块的背景部分,并且前景分量信号(150)包括当前块的前景部分。
Description
技术领域
本发明涉及音频处理,具体地涉及将音频信号分解为背景分量信号和前景分量信号。
背景技术
存在大量针对音频信号处理的参考文献,其中这些参考文献中的一些涉及音频信号分解。示例性参考文献是:
[1]S.Disch和A.Kuntz,A Dedicated Decorrelator for Parametric SpatialCoding of Applause-Like Audio Signals.Springer-Verlag,2012年1月,第355-363页。
[2]A.Kuntz,S.Disch,T.和J.Robilliard,“The Transient SteeringDecorrelator Toolin the Upcoming MPEG Unified Speech and Audio CodingStandard”,131st Convention of the AES,纽约,美国,2011年。
[3]A.Walther,C.Uhle和S.Disch,“Using Transient Suppression in BlindMulti-channel UpmixAlgorithms”,Proceedings,122nd AES Pro Audio Expo andConvention,2007年5月。
[4]G.Hotho,S.van de Par和J.Breebaart,“Multichannel coding of applausesignals”,EURASIP J.Adv.Signal Process,2008卷,2008年1月。[在线]。可获得:http://dx.doi.org/10.1155/2008/531693
[5]D.FitzGerald,“Harmonic/Percussive Separation Using MedianFiltering”,Proceedings of the 13th International Conference on Digital AudioEffects(DAFx-10),奥地利格拉茨,2010年。
[6]J.P.Bello,L.Daudet,S.Abdallah,C.Duxbury,M.Davies和M.B.Sandler,“ATutorialon Onset Detection in Music Signals,”IEEE Transactions on Speech andAudio Processing,第13卷,第5期,第1035-1047页,2005年。
[7]M.Goto和Y.Muraoka,“Beat tracking based on multiple-agentarchitecture-a real-time beat tracking system for audio signals”,Proceedingsof the 2nd International Conference on Multiagent Systems,1996年,第103-110页。
[8]A.Klapuri,“Sound onset detection by applying psychoacousticknowledge”,Proceedings ofthe International Conference on Acoustics,Speech,andSignal Processing(ICASSP),第6卷,1999年,第3089-3092页,第6卷。
此外,WO 2010017967公开了一种用于基于输入音频信号确定空间输出多声道音频信号的装置,该装置包括用于将输入音频信号分解成作为前景信号部分的第一分解信号和作为背景信号部分的第二分解信号的语义分解器。此外,渲染器被配置用于使用振幅平移来渲染前景信号部分并且用于通过去相关来渲染背景信号部分。最后,处理第一渲染信号和第二渲染信号以获得空间输出多声道音频信号。
此外,参考文献[1]和[2]公开了一种瞬态转向去相关器。
尚未公布的欧洲申请16156200.4公开了一种高分辨率包络处理。高分辨率包络处理是用于改进信号编码的工具,其主要由许多密集的瞬态事件组成,诸如掌声、雨滴声等。在编码器侧,通过分析输入信号、衰减并因此在时间上平坦化瞬态事件的高频部分并生成少量的边信息(诸如对于立体声信号的1至4kbps),该工具用作实际的感知音频编解码器之前的具有高时间分辨率的预处理器。在解码器侧,通过提升并因此在时间上整形瞬态事件的高频部分,该工具用作音频编解码器之后的后处理器,从而利用在编码期间生成的边信息。
上混通常涉及信号分解成直接和环境信号部分,其中直接信号在扬声器之间平移,并且环境部分被去相关并分布在给定数量的声道上。环境信号中的剩余直接分量(如瞬态)导致上混声音场景中所产生的感知环境的损害。在[3]中,提出了瞬态检测和处理,其减少环境信号内检测到的瞬变。所提出的用于瞬态检测的一种方法包括将一个时间块中的仓(bin)的频率加权和与加权长时间运行均值进行比较,以决定是否要抑制某个块。
在[4]中,解决了掌声信号的高效空间音频编码。所提出的下混和上混方法都可以用于完整的掌声信号。
此外,参考文献[5]公开了一种谐波/冲击分离,其中通过在水平和垂直方向上将中值滤波器应用于频谱图,在谐波和冲击信号分量中分离信号。
参考文献[6]表示包括频域方案、时域方案的教程,诸如在起始检测的上下文中的包络跟随器或能量跟随器。参考文献[7]公开了频域中的功率跟踪,诸如功率的快速增加,并且参考文献[8]公开了用于起始检测目的的新颖性测量。
如现有技术参考文献中所述将信号分离成前景和背景信号部分是不利的,因为这些已知过程可能导致结果信号或分解信号的音频质量降低。
发明内容
本发明的目的是提供一种改进的用于将音频信号分解成背景分量信号和前景分量信号的概念。
这个目的通过根据权利要求1的用于将音频信号分解成背景分量信号和前景分量信号的装置、根据权利要求22的用于将音频信号分解成背景分量信号和前景分量信号的方法或者通过根据权利要求23的计算机程序来实现。
在一个方面,一种用于将音频信号分解成背景分量信号和前景分量信号的装置包括:块生成器,用于生成音频信号值的时间序列块;音频信号分析器,连接到块生成器;以及分离器,连接到块生成器和音频信号分析器。根据第一方面,音频信号分析器被配置用于确定音频信号的当前块的块特征和一组块的平均特征,一组块包括至少两个块,诸如先前块、当前块和后续块或甚至更多先前块或更多后续块。
分离器被配置为响应于当前块的块特征与平均特征的比率而将当前块分离成背景部分和前景部分。因此,背景分量信号包括当前块的背景部分,并且前景分量信号包括当前块的前景部分。因此,当前块不被简单地决定为或者背景或者前景。代替地,当前块实际上被分离成非零背景部分和非零前景部分。这个过程反映了这样的情况:通常,前景信号在信号中从不会单独存在,而是总是与背景信号分量组合。因此,根据该第一方面,本发明反映了这样的情况:无论是否执行某个阈值化,实际分离或者没有任何阈值或者当比率达到某个阈值时,除了前景部分以外背景部分也总是保留。
此外,通过非常具体的分离测量进行分离,即,当前块的块特征与从至少两个块得出的(即,从一组块得出的)平均特征的比率。因此,取决于一组块的尺寸,可以设置非常缓慢改变的移动平均值或非常快速改变的移动平均值。对于一组块中的大量块,移动平均值相对缓慢地改变,而对于一组块中的少量块,移动平均值相当快速地改变。此外,使用当前块的特征与一组块上的平均特征之间的关系反映了感知情况,即,当这个块的特征相对于平均值之间的比率处于某个值时,个体将某个块感知为包括前景分量。但是,根据这个方面,这某个值不一定必须是阈值。代替地,比率本身已经可以用于执行当前块到背景部分和前景部分的定量分离。高比率导致当前块的大部分是前景部分,而低比率导致当前块的大部分或全部保留在背景部分中并且当前块仅具有小前景部分或不具有任何前景部分的情况。
优选地,确定振幅相关的特征,并且将这个振幅相关的特征(诸如当前块的能量)与一组块的平均能量进行比较,以获得比率,基于该比率执行分离。为了确保响应于分离而背景信号保持不变,确定增益因子,然后这个增益因子控制某个块的平均能量的多少保持在背景或类噪声信号中以及哪个部分进入可以是例如瞬态信号(诸如拍手信号或雨滴信号等)的前景信号部分。
在除了第一方面之外或可以与第一方面分离使用的本发明的另外的第二方面中,用于分解音频信号的装置包括块生成器、音频信号分析器和分离器。音频信号分析器被配置用于分析音频信号的当前块的特征。音频信号的当前块的特征可以是关于第一方面所讨论的比率,但是可替代地,也可以是在没有任何求平均的情况下仅从当前块得出的块特征。此外,音频信号分析器被配置用于确定一组块内的特征的可变性,其中一组块包括至少两个块,并且优选地具有或不具有当前块的至少两个先前块或者具有或不具有当前块的至少两个后续块或者同样具有或不具有当前块的至少两个先前块和至少两个后续块。在优选实施例中,块的数量大于30或甚至40。
此外,分离器被配置用于将当前块分离成背景部分和前景部分,其中这个分离器被配置为基于由信号分析器确定的可变性来确定分离阈值,并且当当前块的特征与分离阈值具有预定关系(诸如大于或等于分离阈值)时分离当前块。自然,当阈值被定义为一种倒数值时,预定关系可以是小于关系或者小于或等于关系。因此,总是以这样一种方式执行阈值化:当特征与分离阈值在预定关系内时,执行到背景部分和前景部分的分离,而当特征与分离阈值不在预定关系内时,根本不执行分离。
根据取决于一组块内特征的可变性来使用可变阈值的第二方面,分离可以是完全分离,即,当执行分离时,音频信号值的整个块被引入前景分量,或当不满足关于可变分离阈值的预定关系时,音频信号值的整个块类似于背景信号部分。在优选实施例中,这方面与第一方面的组合在于,一发现可变阈值与特征处于预定关系,就执行非二元分离,即,仅仅音频信号值的一部分被放入前景信号部分,而剩余部分留在背景信号中。
优选地,基于增益因子确定用于前景信号部分和背景信号部分的部分的分离,即,相同的信号值最终在前景信号部分和背景信号部分内,但是不同部分内的信号值的能量彼此不同并且由分离增益确定,该分离增益最终取决于特征,诸如当前块本身的块特征,或者当前块的块特征与和当前块相关联的一组块的平均特征之间的当前块的比率。
可变阈值的使用反映了这样的情况:甚至是与相当静止的信号的小偏差,即,当认为某个信号非常静止时,即,没有显著的波动时,个体也感知到前景信号部分。于是,即使小波动也已被认为是前景信号部分。但是,当存在强烈波动的信号时,看来,强烈波动的信号本身被感知是背景信号分量,并且与这个波动模式的小偏差不被感知是前景信号部分。只有与平均值或期望值更强的偏差才被感知是前景信号部分。因此,对于具有小方差的信号,优选地使用非常小的分离阈值,而对于具有高方差的信号,使用较高的分离阈值。但是,当考虑倒数值时,情况与上述情况相反。
两个方面(即,基于块特征与平均特征之间的比率非二元分离成前景信号部分和背景信号部分的第一方面,以及包括取决于一组块内特征的可变性的可变阈值的第二方面)可以彼此分离地使用,或者甚至可以一起使用(即,彼此组合)。后一种替代方案构成后面描述的优选实施例。
本发明的实施例涉及一种系统,其中输入信号被分解成两个信号分量,可以对其应用单独的处理,并且其中经处理的信号被重新合成以形成输出信号。掌声和其它瞬态信号可以被视为独特且可单独感知的瞬态拍手事件和更像噪声的背景信号的叠加。为了修改诸如这些信号的前景和背景信号密度之比等特征,有利的是能够对每个信号部分应用单独的处理。此外,获得通过人类感知驱动的信号分离。此外,该概念还可以用作测量设备,以诸如在发送器站点上测量信号特征,并在接收器站点上恢复这些特征。
本发明的实施例并非专门用于生成多声道空间输出信号。单声道输入信号被分解并且各个信号部分被处理并重新合成为单声道输出信号。在一些实施例中,如在第一或第二方面中所定义的,概念输出测量或边信息,而不是可听信号。
此外,分离基于感知方面,并且优选地定量特征或值,而不是语义方面。
根据实施例,分离基于瞬时能量相对于所考虑的短时间帧内的平均能量的偏差。虽然在这种时间帧内具有接近或低于平均能量的能量级的瞬态事件不被感知为与背景显著不同,但是具有高能量偏差的事件可以与背景信号区分开。这种信号分离采用该原理并且允许更接近人类感知而处理瞬态事件并且更接近人类感知而优先于背景事件处理前景事件。
附图说明
随后,参考附图讨论本发明的优选实施例,其中:
图1a是根据第一方面的依赖于比率来分解音频信号的装置的框图;
图1b是根据第二方面的依赖于可变分离阈值来分解音频信号的概念的实施例的框图;
图1c图示根据第一方面、第二方面或两个方面的分解音频信号的装置的框图;
图1d图示根据第一方面、第二方面或两个方面的音频信号分析器和分离器的优选图示;
图1e图示根据第二方面的信号分离器的实施例;
图1f图示根据第一方面、第二方面以及通过参考不同阈值来分解音频信号的概念的描述;
图2图示根据第一方面、第二方面或两个方面的将当前块的音频信号值分离为前景分量和背景分量的两种不同方式;
图3图示由块生成器生成的重叠块以及在分离之后生成时域前景分量信号和背景分量信号的示意图;
图4a图示基于原始可变性的平滑来确定可变阈值的第一替代方案;
图4b图示基于原始阈值的平滑来确定可变阈值;
图4c图示将(经平滑的)可变性映射到阈值的不同函数;
图5图示确定第二方面中所需的可变性的优选实现;
图6图示分离、前景处理和背景处理以及后续的信号重新合成的一般概述;
图7图示使用或不使用元数据的信号特征的测量和恢复;以及
图8图示编码器-解码器用例的框图。
具体实施方式
图1a图示用于将音频信号分解成背景分量信号和前景分量信号的装置。音频信号在音频信号输入端100处被输入。音频信号输入端连接到块生成器110,用于生成线112处输出的音频信号值的时间序列块。此外,该装置包括音频信号分析器120,音频信号分析器120用于确定音频信号的当前块的块特征,并且另外还用于确定一组块的平均特征,其中一组块包括至少2个块。优选地,一组块包括至少一个先前块或至少一个后续块,以及还有当前块。
此外,该装置包括分离器130,分离器130用于响应于当前块的块特征与平均特征的比率而将当前块分离成背景部分和前景部分。因此,当前块的块特征与平均特征的比率被用作特征,基于该特征来执行音频信号值的当前块的分离。特别地,信号输出端140处的背景分量信号包括当前块的背景部分,并且在前景分量信号输出端150处输出的前景分量信号包括当前块的前景部分。图1a中所示的过程是在逐块的基础上执行的,即,时间序列块的一个块在另一个块之后被处理,使得最后当在输入端100处输入的一系列音频信号值的块都已经处理时,背景分量信号的对应块序列和前景分量信号的相同块序列存在于线140、150处,这将在后面参考图3进行讨论。
优选地,音频信号分析器被配置用于分析振幅相关的测量作为当前块的块特征,并且此外,音频信号分析器120被配置用于附加地也分析一组块的振幅相关的特征。
优选地,当前块的功率测量或能量测量以及一组块的平均功率测量或平均能量测量由音频信号分析器确定,并且当前块的这两个值之间的比率由分离器130用于执行分离。
图2图示根据第一方面由图1a的分离器130执行的过程。步骤200表示根据第一方面的比率或根据第二方面的特征的确定,根据第二方面的特征不必是比率,而是例如也可以仅仅是块特征。
在步骤202中,根据比率或特征计算分离增益。然后,可以可选地执行步骤204中的阈值比较。当在步骤204中执行阈值比较时,结果可以是特征与阈值处于预定关系。在这种情况下,控制前进到步骤206。但是,当在步骤204中确定特征与预定阈值无关时,不执行分离,并且控制前进到块序列中的下一个块。
根据第一方面,可以执行步骤204中的阈值比较,或者可以替代地不执行,如断线208所示。当在方框204中确定特征与分离阈值处于预定关系时,或者在线208的替代方案中,在任何情况下,执行步骤206,其中使用分离增益对音频信号进行加权。为此,步骤206以时间表示或优选地如线210所示的频谱表示接收输入音频信号的音频信号值。然后,取决于分离增益的应用,计算前景分量C,如图2正下方的等式所示。具体而言,作为gN和比率ψ的函数的分离增益不直接使用,而是以差形式使用,即,从1中减去该函数。可替代地,可以通过用gN/ψ(n)的函数对音频信号A(k,n)进行实际加权来直接计算背景分量N。
图2图示了用于计算前景分量和背景分量的几种可能性,所有这些都可以由分离器130执行。一种可能性是使用分离增益计算这两个分量。替代方案是仅使用分离增益计算前景分量,并且通过从音频信号值减去前景分量来计算背景分量N,如210处所示。但是,另一种替代方案是通过方框206使用分离增益直接计算背景分量N,然后从音频信号A中减去背景分量N以最终获得前景分量C。因此,图2图示了用于计算背景分量和前景分量的3个不同实施例,而这些替代方案中的每一个都至少包括使用分离增益对音频信号值进行加权。
随后,图1b被示出,以便描述依赖于可变分离阈值的本发明的第二方面。
表示第二方面的图1b依赖于输入到块生成110的音频信号100,并且块生成器经由连接线122连接到音频信号分析器120。此外,音频信号可以经由另外的连接线111直接输入到音频信号分析器中。音频信号分析器120被配置用于一方面确定音频信号的当前块的特征,并且此外,用于确定一组块内的特征的可变性,该组块包括至少两个块并且优选地包括至少两个先前块或两个后续块或者至少两个先前块、至少两个后续块和当前块。
当前块的特征和特征的可变性都经由连接线129被转发到分离器130。然后,分离器被配置用于将当前块分离成背景部分和前景部分,以生成背景分量信号140和前景分量信号150。特别地,根据第二方面,分离器被配置为基于由音频信号分析器确定的可变性来确定分离阈值,并且,当当前块的特征与分离阈值处于预定关系时,将当前块分离成背景分量信号部分和前景分量信号部分。但是,当当前块的特征不与(可变)分离阈值处于预定关系时,不执行当前块的分离,并且整个当前块被转发到或者被用作或指派为背景分量信号140。
具体而言,分离器130被配置为确定对于第一可变性的第一分离阈值和对于第二可变性的第二分离阈值,其中第一分离阈值低于第二分离阈值并且第一可变性低于第二可变性,并且其中预定关系是“大于”。
图4c中左侧部分示出了一个示例,其中第一分离阈值在401处指示,其中第二分离阈值在402处指示,其中第一可变性在501处指示,并且第二可变性在502处指示。特别地,参考表示分离阈值的上分段线性函数410,而图4c中的下分段线性函数412图示了稍后将描述的释放阈值。图4c图示了这样的情况:其中阈值是使得为了增加可变性而确定增加的阈值。但是,当以这样的方式(例如,采用相对于图4c中的阈值的倒数阈值)实现该情况时,情况为使得分离器被配置为确定对于第一可变性的第一分离阈值和对于第二可变性的第二分离阈值,其中第一分离阈值大于第二分离阈值,并且第一可变性小于第二可变性,并且在这种情况下,预定关系是“小于”,而不是如图4c所示的第一替代方案中的“大于”。
取决于某些实现,分离器130被配置为或者使用表访问(其中存储图4c中左侧部分或右侧部分所示的函数)或者根据在第一分离阈值401和第二分离阈值402之间插值的单调插值函数来确定(可变)分离阈值,使得对于第三可变性503,获得第三分离阈值403,而对于第四可变性504,获得第四阈值,其中第一分离阈值401与第一可变性501相关联,并且第二分离阈值402与第二可变性502相关联,并且其中第三和第四可变性503、504关于它们的值位于第一和第二可变性之间,并且第三和第四分离阈值403、404关于它们的值位于第一和第二分离阈值401、402之间。
如图4c左侧部分所示,单调插值是线性函数,或者如图4c右侧部分所示,单调插值函数是立方函数或具有大于1的阶数的任何幂函数。
图6描绘了掌声信号分离、处理以及经处理的信号的合成的顶层框图。
特别地,图6中详细示出的分离级600将输入音频信号a(t)分离成背景信号n(t)和前景信号c(t),背景信号被输入到背景处理级602并且前景信号被输入到前景处理级604,并且在处理之后,两个信号n'(t)和c'(t)由组合器606组合以最终获得经处理的信号a'(t)。
优选地,基于将输入信号a(t)信号分离/分解成独特可感知的拍手c(t)和更像噪声的背景信号n(t),实现分解的信号部分的单独处理。在处理之后,重新合成经修改的前景和背景信号c'(t)和n'(t),从而得到输出信号a'(t)。
图1c图示了优选的掌声分离级的顶层图。掌声模型在等式1中给出并在图1f中示出,其中掌声信号A(k,n)由独特且可单独感知的前景拍手C(k,n)和更像噪声的背景信号N(k,n)的叠加组成。在具有高时间分辨率的频域中考虑信号,而k和n分别表示短时频率变换的离散频率k和时间n索引。
特别地,图1c中的系统图示了作为块生成器的DFT处理器110,具有图1a或图1b的音频信号分析器120和分离器130的功能的前景检测器,以及执行关于图2的步骤206讨论的功能的诸如加权器152的另外的信号分离器级,以及实现图2的步骤210中所示的功能的减法器154。此外,提供了信号合成器,其从对应的频域表示中合成时域前景信号c(t)和背景信号n(t),其中信号合成器对于每个信号分量包括DFT块160a、160b。
掌声输入信号a(t),即,包括背景分量和掌声分量的输入信号,被馈送到信号开关(图1c中未示出)以及前景检测器150,在前景检测器150中,基于信号特征,识别出与前景拍手对应的帧。检测器级150输出分离增益gs(n),该分离增益gs(n)被馈送到信号开关并控制路由到独特且可单独感知的拍手信号C(k,n)和更像噪声的信号N(k,n)的信号量。在方框170中示出了信号开关,用于示出二进制开关,即,根据第二方面,某个帧或时间/频率瓦片(即,仅某个帧的特定频率仓)被路由到C或N。根据第一方面,增益被用于将频谱表示A(k,n)的每个帧或数个频率仓分离成前景分量和背景分量,以便,根据第一方面,根据依赖于块特征与平均特征之间的比率的增益gs(n),整个帧或至少一个或多个时间/频率瓦片或频率仓被分离,使得信号C和N中的每一个中的对应仓具有相同的值,但具有不同的振幅,其中振幅的关系取决于gs(n)。
图1d图示了前景检测器150的更详细的实施例,其具体地示出音频信号分析器的功能。在实施例中,音频信号分析器接收由具有图1c的DFT(离散傅立叶变换)块110的块生成器生成的频谱表示。此外,音频信号分析器被配置为在方框170中执行具有特定预定交叉频率的高通滤波。然后,图1a或1b的音频信号分析器120在方框172中执行能量提取过程。能量提取过程导致当前块的瞬时或当前能量Φinst(n)和平均能量Φavg(n)。
然后,图1a或1b中的信号分离器130确定如180所示的比率,此外,确定自适应或非自适应阈值并执行对应的阈值化操作182。
此外,当执行根据第二方面的自适应阈值化操作时,音频信号分析器附加地执行如方框174中所示的包络可变性估计,并且将可变性测量v(n)转发到分离器,并且特别地,转发到自适应阈值化处理块182,以最终获得增益gs(n),如下面将描述的。
前景信号检测器内部的流程图在图1d中绘出。如果仅考虑上部路径,那么这与没有自适应阈值化的情况对应,而如果还考虑下部路径,那么可以进行自适应阈值化。馈送到前景信号检测器的信号被高通滤波并估计其平均和瞬时(ΦA)能量。信号X(k,n)的瞬时能量由ΦX(n)=||X(k,n)||给出,其中||·||表示向量范数,并且平均能量由下式给出:
其中w(n)表示具有窗口长度Lw=2M+1的应用于瞬时能量估计的加权窗口。作为关于独特拍手在输入信号内是否有效的指示,根据下式使用瞬时与平均能量的能量比Ψ(n)
在没有自适应阈值化的较简单情况下,对于能量比超过攻击阈值τattack的时刻,从输入信号中提取独特拍手部分的分离增益被设置为1;因此,在这些时刻,类噪声信号为零。具有硬信号切换的系统的框图在图1e中绘出。如果有必要避免类噪声信号中的信号丢失,那么可以从增益中减去校正项。一个好的起点是让输入信号的平均能量保持在类噪声信号内。这是通过从增益中减去或Ψ(n)-1完成的。平均能量的量也可以通过引入增益gN≥0来控制,该增益控制平均能量有多少保持在类噪声信号中。这导致了分离增益的一般形式:
在另一个实施例中,上述等式由以下等式代替:
注意:如果τattack=0,那么路由到独特拍手的信号量仅取决于能量比Ψ(n)和固定增益gN,从而产生依赖于信号的软判定。在经过良好调谐的系统中,能量比超过攻击阈值的时间段仅捕获实际的瞬态事件。在一些情况下,可能期望在发生攻击之后提取更长的时间段帧。例如,这可以通过引入释放阈值τrelease来完成,释放阈值指示在攻击之后在分离增益被设置回零之前能量比Ψ必须降低到的水平:
在另一个实施例中,紧接在前的等式由以下等式代替:
一种替代但更静态的方法是简单地将在检测到的攻击之后的一定数量的帧路由到独特的拍手信号。
为了增加阈值化的灵活性,可以以信号自适应方式选择阈值,分别产生τattack(n)和τrelease(n)。通过掌声输入信号的包络的可变性的估计来控制阈值,其中高可变性指示存在独特且可单独感知的拍手,并且相当低的可变性指示更像噪声且静止的信号。可变性估计可以在时域和频域中进行。在这种情况下,优选方法是在频域进行估计:
v′(n)=var([ΦA(n-M),ΦA(n-M+1),…,ΦA(n+m)]),m=-M…M
其中var(·)表示方差计算。为了产生更稳定的信号,通过低通滤波对估计的可变性进行平滑,从而产生最终的包络可变性估计
v(n)=hTP(n)*v′(n)
其中*表示卷积。包络可变性到对应阈值的映射可以通过映射函数fattack(x)和frelease(x)来完成,使得
τattack(n)=fattack(v(n))
τrelease(n)=frelease(v(n))
在一个实施例中,映射函数可以被实现为限幅线性函数,其与阈值的线性插值对应。用于这个场景的配置在图4c中绘出。此外,还可以使用立方映射函数或具有一般更高阶的函数。特别地,鞍点可以用于为在稀疏和密集掌声中定义的那些可变性值之间的可变性值定义额外的阈值水平。这在图4c中的右侧示例性地示出。
分离的信号通过下式获得
C(k,n)=gs(n)·A(k,n)
N(k,n)=A(k,n)-C(k,n)
图1f概略地图示了上面讨论的等式,并与图1a和1b中的功能方框有关。
此外,图1f图示了一种情况,其中,取决于某个实施例,不应用阈值、应用单个阈值或双阈值。
此外,如关于图1f中的等式(7)至(9)所示,可以使用自适应阈值。自然,或者将单个阈值用作单个自适应阈值。然后,只有等式(8)有效,而等式(9)不有效。但是,在某些优选实施例中,优选地执行双自适应阈值化,从而一起实现第一方面和第二方面的特性。
此外,图7和8图示了关于如何实现本发明的某个应用的进一步实现。
特别地,图7左侧部分图示了用于测量背景分量信号或前景分量信号的信号特征的信号特征测量器700。特别地,信号特征测量器700被配置为在方框702中确定前景密度,方框702示出使用前景分量信号的前景密度计算器,或者,可替代地或附加地,信号特征测量器被配置为使用前景突出度计算器704执行前景突出度计算,前景突出度计算器704计算前景相对于原始输入信号a(t)的分数。
可替代地,如图7的右侧部分所示,前景处理器604和背景处理器602在那里,其中这些处理器与图6相反,依赖于某些元数据θ,元数据可以是由图7左侧部分得出的元数据,或者可以是用于执行前景处理和背景处理的任何其它有用的元数据。
分离的掌声信号部分可以被馈送到测量级,在那里可以测量瞬态信号的某些(感知激发的)特征。在图7a中描绘了用于这种用例的示例性配置,其中估计独特且单独可感知的前景拍手的密度以及前景拍手相对于总信号能量的能量分数。
估计前景密度ΘFGD(n)可以通过统计每秒的事件率(即,每秒检测到的拍手的数量)来完成。前景突出度ΘFFG(n)由估计出的前景拍手信号C(n)与A(n)的能量比给出:
图7b中描绘了测得的信号特征的恢复的框图,其中θ和虚线表示边信息。
虽然在前面的实施例中,仅测量信号特征,但是系统用于修改信号特征。在一个实施例中,前景处理可以输出减少数量的检测到的前景拍手,从而导致朝着所产生的输出信号的降低密度的密度修改。在另一个实施例中,前景处理可以输出增加数量的前景拍手,例如,通过将前景拍手信号的延迟版本添加到其自身,从而导致朝着增加密度的密度修改。此外,通过在相应的处理级中应用权重,可以修改前景拍手与类噪声背景的平衡。此外,在两条路径中的滤波、添加混响、延迟等任何处理都可以用于修改掌声信号的特征。
图8还涉及编码器级,用于编码前景分量信号和背景分量信号以获得前景分量信号的编码表示和背景分量信号的单独的编码表示,以用于传输或存储。特别地,前景编码器在801处示出,并且背景编码器在802处示出。单独编码表示804和806被转发到解码器侧设备808,解码器侧设备808包括前景解码器810和背景解码器812,其最终解码单独的表示和解码的表示,然后由组合器606组合以最终输出解码信号a’(t)。
随后,关于图3讨论进一步优选的实施例。特别地,图3图示了在时间线300上给出的输入音频信号的示意表示,其中示意性表示图示了时间上重叠的块的情况。图3中示出的是重叠范围302为50%的情况。其它重叠范围(诸如具有多于50%的多重叠范围或其中仅小于50%的部分重叠的更少的重叠范围)也可使用。
在图3的实施例中,块通常具有少于600个采样值,并且优选地,仅具有256个或仅128个采样值以获得高时间分辨率。
示例性示出的重叠块例如由当前块304组成,当前块304在重叠范围内与先前块303或后续块305重叠。因此,当一组块包括至少两个先前块时,这组块将由相对于当前块304的先前块303和在图3中用顺序号3指示的另一个先前块组成。此外,并且类似地,当一组块包括至少两个后续块(在时间上)时,这两个后续块将包括用顺序号6指示的后续块305和用顺序号7示出的另一个块7。
这些块例如由块生成器110形成,块生成器110优选地还执行时间-频谱转换,诸如前面提到的DFT或FFT(快速傅立叶变换)。
时间-频谱转换的结果是频谱块I到VIII的序列,其中图3中方框110下面示出的每个频谱块与时间线300的八个块的一个对应。
优选地,然后在频域中执行分离,即,使用频谱表示执行分离,其中音频信号值是频谱值。在分离之后,获得再次由块I至VIII组成的前景频谱表示,以及由I至VIII组成的背景表示。自然,并且取决于阈值化操作,不一定是在分离130之后的前景表示的每个块具有不同于零的值的情况。但是,优选地,至少通过本发明的第一方面确保背景分量的频谱表示中的每个块具有不同于零的值,以避免背景信号分量中的能量下降。
对于每个分量(即,前景分量和背景分量),如在图1c的上下文中讨论的那样执行频谱-时间转换,并且对于两个分量都执行关于重叠范围302的后续淡出/淡入,如方框161a和方框161b处分别针对前景和背景分量所示。因此,最后,前景信号和背景信号都具有与分离之前的原始音频信号相同的长度L。
优选地,如图4b中所示,平滑计算可变性或阈值的分离器130。
特别地,步骤400说明了如400处所示的一般特征或者当前块的块特征与平均特征之间的比率的确定。
在方框402中,关于当前块计算原始可变性。在方框404中,计算先前或后续块的原始可变性,以通过方框402和404的输出获得原始可变性序列。在方框406中,对序列进行平滑。因此,在方框406的输出处,存在平滑的可变性序列。平滑后的序列的可变性被映射到对应的自适应阈值,如方框408中所示,以便获得当前块的可变阈值。
图4b中图示了替代实施例,其中,与平滑可变性相反,阈值被平滑。为此,再次,如方框400中所示,确定当前块的特征/比率。
在方框403中,对于由整数m指示的每个当前块,使用例如图1f的等式6来计算可变性序列。
在方框405中,根据等式8和等式9将可变性序列映射到原始阈值序列,但是与图1f的等式7相比具有非平滑的可变性。
在方框407中,对原始阈值序列进行平滑,以便最终获得当前块的(经平滑的)阈值。
随后,更详细地讨论图5,以便说明用于计算一组块内的特征的可变性的不同方式。
再次,在步骤500中,计算特征或当前块特征和平均块特征之间的比率。
在步骤502中,计算一组块的特征/比率上的平均值,或一般地,期望值。
在方框504中,计算特征/比率与平均值/期望值之间的差,并且如方框506中所示,优选地执行差或从差得出的某些值的相加,具有归一化。当相加平方差时,步骤502,504,506的序列反映了方差的计算,如关于等式6所概述的。但是,例如,当差的幅值或不同于2的差的其它幂被加在一起时,使用从特征与平均/期望值之间的差得出的不同统计值作为可变性。
但是,可替代地,如步骤508中所示,还计算相邻块的时间跟随特征/比率之间的差并将其用作可变性测量。因此,方框508确定不依赖于平均值而是依赖于从一个块到另一个块的改变的可变性,其中,如图6中所示,可以将相邻块的特征之间的差加到一起,或者平方、其幅值或者其幂,以最终从可变性中获得不同于方差的另一个值。对于本领域技术人员显而易见的是,也可以使用与关于图5所讨论的不同的其它可变性测量。
随后,定义可以与以下示例分离使用或者与以下示例中的任何示例组合使用的实施例的示例:
1.一种用于将音频信号(100)分解成背景分量信号(140)和前景分量信号(150)的装置,该装置包括:
块生成器(110),用于生成音频信号值的时间序列块;
音频信号分析器(120),用于确定音频信号的当前块的块特征,并用于确定一组块的平均特征,该组块包括至少两个块;以及
分离器(130),用于响应于当前块的块特征与一组块的平均特征的比率而将当前块分离成背景部分和前景部分,
其中背景分量信号(140)包括当前块的背景部分,并且前景分量信号(150)包括当前块的前景部分。
2.示例1的装置,
其中音频信号分析器被配置用于分析作为当前块的特征的振幅相关的测量以及作为一组块的平均特征的振幅相关的特征。
3.示例1或2的装置,
其中音频信号分析器(120)被配置用于分析当前块的功率测量或能量测量以及一组块的平均功率测量或平均能量测量。
4.前述示例之一的装置,
其中分离器(130)被配置为根据比率来计算分离增益、使用分离增益对当前块的音频信号值进行加权以获得当前帧的前景部分,并且确定背景分量以使得背景信号构成剩余信号,或者
其中分离器被配置为根据比率来计算分离增益、使用分离增益对当前块的音频信号值进行加权以获得当前帧的背景部分,以及确定前景分量以使得前景分量信号构成剩余信号。
5.前述示例之一的装置,
其中分离器(130)被配置为使用不同于零的预定加权因子对比率进行加权来计算分离增益。
6.示例5的装置,
其中分离器(130)被配置为使用项1–(gN/ψ(n)p或(max(1–(gN/ψ(n)))p来计算分离增益,其中gN是预定因子,ψ(n)是比率,并且p是大于零的幂并且是整数或非整数,并且其中n是块索引,并且其中max是最大函数。
7.前述示例之一的装置,
其中分离器(130)被配置为比较当前块的比率与阈值,并且当当前块的比率与阈值处于预定关系时分离当前块,并且其中分离器(130)被配置为不分离另一个块,该另一个块具有与阈值不具有预定关系的比率,使得另一个块完全属于背景分量信号(140)。
8.示例7的装置,
其中分离器(130)被配置为使用将后续块的比率与另外的释放阈值进行比较来分离在时间上跟随当前块的后续块,
其中另外的释放阈值被设置为使得与所述阈值不处于预定关系的块比率与所述另外的释放阈值处于预定关系。
9.示例8的装置,
其中预定关系是“大于”并且其中释放阈值小于分离阈值,或者
其中预定关系是“小于”,并且其中释放阈值大于分离阈值。
10.前述示例之一的装置,
其中块生成器(110)被配置为确定音频信号值的时间上重叠的块,或者
其中时间上重叠的块具有小于或等于600个采样值。
11.前述示例之一的装置,
其中块生成器被配置为执行时域音频信号到频域的逐块转换,以获得每个块的频谱表示,
其中音频信号分析器被配置为使用当前块的频谱表示来计算特征,以及
其中分离器(130)被配置为将频谱表示分离成背景部分和前景部分,使得对于与相同频率对应的背景部分和前景部分的频谱仓,各自具有不等于零的频谱值,其中相同频率仓内的前景部分的频谱值与背景部分的频谱值的关系取决于所述比率。
12.前述示例之一的装置,
其中块生成器(110)被配置为执行时域到频域的逐块转换,以获得每个块的频谱表示,
其中时间相邻块在重叠范围(302)内重叠,
其中装置还包括用于合成背景分量信号和用于合成前景分量信号的信号合成器(160a,161a,160b,161b),其中信号合成器被配置用于对于背景分量信号和前景分量信号执行频率-时间转换(161a,160a,160b)并且用于对重叠范围内的时间相邻块的时间表示进行交叉衰落(161a,161b),以获得时域前景分量信号和分离的时域背景分量信号。
13.前述示例之一的装置,
其中音频信号分析器(120)被配置为使用一组块中的块的各个特征的加权相加来确定该组块的平均特征。
14.前述示例之一的装置,
其中音频信号分析器(120)被配置为对一组块中的块的各个特征执行加权相加,其中,时间上与当前块接近的块的特征的加权值大于时间上与当前块较少接近的另一个块的特征的加权值。
15.示例13或14的装置,
其中音频信号分析器(120)被配置为确定一组块,使得该组块包括在对应块之前的至少20个块或在当前块之后的至少20个块。
16.前述示例之一的装置,
其中音频信号分析器被配置为使用取决于该组块中的块的数量或者取决于该组块中的块的加权值的归一化值。
17.前述示例之一的装置,还包括:
信号特征测量器(702,704),用于测量背景分量信号或前景分量信号中的至少一个的信号特征。
18.示例17的装置,
其中信号特征测量器被配置为使用前景分量信号确定前景密度(702)或使用前景分量信号和音频输入信号确定前景突出度(704)。
19.前述示例之一的装置,
其中前景分量信号包括拍手信号,其中装置还包括信号特征修改器,信号特征修改器用于通过增加拍手数量或减少拍手数量或通过对前景分量信号或背景分量信号应用权重以修改前景拍手信号和作为类噪声信号的背景分量信号之间的能量关系来修改前景分量信号。
20.前述示例之一的装置,还包括:
盲上混器,用于将音频信号上混到具有多个输出声道的表示中,其中输出声道的数量大于音频信号的声道的数量,
其中上混器被配置为将前景分量信号空间分布到输出声道中,其中多个输出声道中的前景分量信号是相关的,并且将背景分量信号频谱分布到输出声道中,其中输出声道中的背景分量信号较前景分量信号是较少相关的,或者彼此不相关。
21.前述示例之一的装置,还包括:
编码器级(801,802),用于分别对前景分量信号和背景分量信号进行编码,以获得前景分量信号的编码表示(804)和背景分量信号的分离的编码表示(806),以用于传输或存储或解码。
22.一种将音频信号(100)分解成背景分量信号(140)和前景分量信号(150)的方法,该方法包括:
生成(110)音频信号值的时间序列块;
确定(120)音频信号的的当前块的块特征并确定一组块的平均特征,该组块包括至少两个块;以及
响应于当前块的块特征与该组块的平均特征的比率,将当前块分离(130)成背景部分和前景部分,
其中背景分量信号(140)包括当前块的背景部分,并且前景分量信号(150)包括当前块的前景部分。
随后,描述可以与上述示例分离使用或与任何上述示例组合使用的其它示例。
1.一种用于将音频信号分解成背景分量信号和前景分量信号的装置,该装置包括:
块生成器(110),用于生成音频信号值的时间序列块;
音频信号分析器(120),用于确定音频信号的当前块的特征,并用于确定包括序列块的至少两个块的一组块内的特征的可变性;以及
分离器(130),用于将当前块分离成背景部分(140)和前景部分(150),其中分离器(130)被配置为基于可变性来确定(182)分离阈值并且当当前块的特征与分离阈值处于预定关系时将当前块分离成背景分量信号(140)和前景分量信号(150),或者当当前块的特征与分离阈值处于预定关系时将整个当前块确定为前景分量信号,或者当当前块的特征不与分离阈值处于预定关系时将整个当前块确定为背景分量信号。
2.示例1的装置,
其中分离器(130)被配置为确定对于第一可变性(501)的第一分离阈值(401)和对于第二可变性(502)的第二分离阈值(402),
其中第一分离阈值(401)小于第二分离阈值(402),并且第一可变性(501)小于第二可变性(502),并且其中预定关系是大于,或者
其中第一分离阈值大于第二分离阈值,其中第一可变性小于第二可变性,并且其中预定关系是小于。
3.示例1或2的装置,
其中分离器(130)被配置为使用表访问或使用在第一分离阈值(401)和第二分离阈值(402)之间插值的单调插值函数来确定分离阈值,从而对于第三可变性(503)获得第三分离阈值(403),并且对于第四可变性(504)获得第四分离阈值(404),其中第一分离阈值(401)与第一可变性(501)相关联,并且第二分离阈值(402)与第二可变性(502)相关联,
其中第三可变性(503)和第四可变性关于它们的值位于第一可变性(501)和第二可变性(502)之间,并且其中第三分离阈值(403)和第四分离阈值(404)关于它们的值位于第一分离阈值(401)和第二分离阈值(402)之间。
4.示例3的装置,
其中单调插值函数是线性函数或二次函数或三次函数或具有大于3的阶的幂函数。
5.示例1至4之一的装置,
其中分离器(130)被配置为基于关于当前块的特征的可变性来确定原始分离阈值(405)并且基于至少一个先前或后续块的可变性来确定至少一个另外的原始分离阈值(405),并通过平滑原始分离阈值的序列来确定(407)当前块的分离阈值,该序列包括所述原始分离阈值和所述至少一个另外的原始分离阈值,或者
其中分离器(130)被配置为确定当前块的特征的原始可变性(402),并且附加地,计算(404)先前块或后续块的原始可变性,并且其中分离器(130)被配置用于平滑原始可变性序列,该序列包括当前块的原始可变性和先前块或后续块的所述至少一个另外的原始可变性,以获得经平滑的可变性序列,并基于当前块的经平滑的可变性来确定分离阈值。
6.前述示例之一的装置,
其中音频信号分析器(120)被配置为通过计算一组块中的每个块的特征以获得一组特征并且通过计算一组特征的方差来确定可变性,其中可变性与方差对应或者取决于一组特征的方差。
7.前述示例之一的装置,
其中音频信号分析器(120)被配置为使用平均或期望特征(502)以及特征组中的特征与平均或期望特征之间的差(504)来计算可变性,或者
通过使用在时间上跟随的特征组的特征之间的差(508)来计算可变性。
8.前述示例之一的装置,
其中音频信号分析器(120)被配置为计算包括在当前块之前的至少两个块或在当前块之后的至少两个块的特征组内的特征的可变性。
9.前述示例之一的装置,
其中音频信号分析器(120)被配置为计算由至少30个块组成的一组块内的特征的可变性。
10.前述示例之一的装置,
其中音频信号分析器(120)被配置为将特征计算为当前块的块特征与包括至少两个块的一组块的平均特征的比率,以及
其中分离器(130)被配置为将该比率与基于与该组块内的当前块相关联的比率的可变性确定的分离阈值进行比较。
11.示例10的装置,
其中音频信号分析器(120)被配置为使用相同的块组来计算平均特征和计算可变性。
12.前述示例之一的装置,其中音频信号分析器被配置用于分析作为当前块的特征的振幅相关测量并且分析作为一组块的平均特征的振幅相关的特征。
13.前述示例之一的装置,
其中分离器(130)被配置为根据特征计算分离增益,使用分离增益对当前块的音频信号值进行加权以获得当前帧的前景部分,并确定背景分量,使得背景信号构成剩余信号,或者
其中分离器被配置为根据特征计算分离增益,使用分离增益对当前块的音频信号值进行加权以获得当前帧的背景部分,并确定前景分量,使得前景分量信号构成剩余信号。
14.前述示例之一的装置,
其中分离器(130)被配置为使用将后续块的特征与另外的释放阈值进行比较而分离时间上在当前块之后的后续块,
其中所述另外的释放阈值被设置成使得与所述阈值不存在预定关系的特征与所述另外的释放阈值处于预定关系。
15.示例14的装置,
其中分离器(130)被配置为基于可变性来确定释放阈值,并且当当前块的特征与释放阈值处于另外的预定关系时分离后续块。
16.示例14或15的装置,
其中预定关系是“大于”并且其中释放阈值小于分离阈值,或者
其中预定关系是“小于”并且其中释放阈值大于分离阈值。
17.前述示例之一的装置,
其中块生成器(110)被配置为确定音频信号值的时间上重叠的块,或者
其中时间上重叠的块具有小于或等于600个采样值。
18.前述示例之一的装置,
其中块生成器被配置为执行时域音频信号到频域的逐块转换,以获得每个块的频谱表示,
其中音频信号分析器被配置为使用当前块的频谱表示来计算特征,以及
其中分离器(130)被配置为将频谱表示分离成背景部分和前景部分,使得对于与相同频率对应的背景部分和前景部分的频谱仓,各自具有不等于零的频谱值,其中相同频率仓内的前景部分的频谱值与背景部分的频谱值的关系取决于所述特征。
19.前述示例之一的装置,
其中音频信号分析器(120)被配置为使用当前块的频谱表示来计算特征,以使用一组块的频谱表示来计算当前块的可变性。
20.一种将音频信号分解成背景分量信号和前景分量信号的方法,该方法包括:
生成(110)音频信号值的时间序列块;
确定(120)音频信号的当前块的特征并确定包括序列块中的至少两个块的一组块内的特征的可变性;以及
将当前块分离(130)成背景部分(140)和前景部分(150),其中基于可变性确定分离阈值,并且其中当当前块的特征与分离阈值处于预定关系时当前块被分离成背景分量信号(140)和前景分量信号(150),或者其中当当前块的特征与分离阈值处于预定关系时将整个当前块确定为前景分量信号,或者其中当当前块的特征不与分离阈值处于预定关系时将整个当前块确定为背景分量信号。
本发明性编码音频信号可以存储在数字存储介质或非瞬态存储介质上,或者可以在诸如无线传输介质或有线传输介质(诸如互联网)的传输介质上被发送。
虽然已经在装置的上下文中描述了一些方面,但是显然这些方面也表示对应方法的描述,其中方框或设备与方法步骤或方法步骤的特征对应。类似地,在方法步骤的上下文中描述的各方面也表示对应装置的对应块或项或特征的描述。
取决于某些实现要求,本发明的实施例可以用硬件或用软件实现。该实现可以使用其上存储有电子可读控制信号的数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器,电子可读控制信号与可编程计算机系统协作(或者能够与其协作),使得执行相应的方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,使得执行本文所述的方法之一。
一般而言,本发明的实施例可以被实现为具有程序代码的计算机程序产品,该程序代码可操作以用于在计算机程序产品在计算机上运行时执行这些方法之一。程序代码可以例如存储在机器可读载体上。
其它实施例包括用于执行本文所述方法之一的计算机程序,计算机程序存储在机器可读载体或非瞬态存储介质上。
换句话说,本发明性方法的实施例因此是具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文所述的方法之一。
因此,本发明性方法的另一个实施例是数据载体(或数字存储介质,或计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。
因此,本发明性方法的另一个实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由互联网)被传送。
另一个实施例包括处理装置,例如计算机或可编程逻辑设备,其被配置为或适于执行本文所述的方法之一。
另一个实施例包括计算机,其上安装有用于执行本文所述方法之一的计算机程序。
在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可以用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文所述的方法之一。一般而言,方法优选地由任何硬件装置执行。
上述实施例仅仅用于说明本发明的原理。应理解的是,本文所述的布置和细节的修改和变化对于本领域技术人员而言将是显而易见的。因此,意图仅受到即将给出的专利权利要求的范围的限制,而不受通过本文实施例的描述和解释所呈现的具体细节的限制。
Claims (23)
1.一种用于将音频信号(100)分解成背景分量信号(140)和前景分量信号(150)的装置,所述装置包括:
块生成器(110),用于生成音频信号值的时间序列块;
音频信号分析器(120),用于确定音频信号(100)的当前块的块特征,并用于确定一组块的平均特征,所述一组块包括至少两个块,其中音频信号分析器(120)被配置用于分析作为当前块的特征的振幅相关的测量以及作为一组块的平均特征的振幅相关的特征;以及
分离器(130),用于响应于当前块的块特征与一组块的平均特征的比率而将当前块分离成背景部分和前景部分,
其中背景分量信号(140)包括当前块的背景部分,并且前景分量信号(150)包括当前块的前景部分。
2.如权利要求1所述的装置,
其中音频信号分析器(120)被配置用于分析作为当前块的振幅相关的测量的功率测量以及作为一组块的振幅相关的测量的平均功率测量。
3.如权利要求1所述的装置,
其中音频信号分析器(120)被配置用于分析作为当前块的振幅相关的测量的能量测量以及作为一组块的振幅相关的测量的平均能量测量。
4.如权利要求1所述的装置,
其中分离器(130)被配置为从所述比率来计算分离增益,使用分离增益对当前块的音频信号值进行加权以获得当前块的前景部分,以及确定背景部分以使得背景分量信号(140)构成剩余信号,或者
其中分离器(130)被配置为从所述比率来计算分离增益,使用分离增益对当前块的音频信号值进行加权以获得当前块的背景部分,以及确定前景部分以使得前景分量信号(150)构成剩余信号。
5.如权利要求4所述的装置,
其中分离器(130)被配置为使用不同于零的预定加权因子对所述比率进行加权来计算分离增益。
6.如权利要求5所述的装置,
其中分离器(130)被配置为使用项1–(gN/ψ(n)p或(max(1–(gN/ψ(n)))p来计算分离增益,其中gN是预定加权因子,ψ(n)是比率,并且p是大于零的幂并且是整数或非整数,并且其中n是块索引,并且其中max是最大函数。
7.如权利要求1所述的装置,
其中分离器(130)被配置为将当前块的比率与阈值进行比较,以及当当前块的比率与阈值处于预定关系时分离当前块,并且其中分离器(130)被配置为不分离另一个块,所述另一个块具有与阈值不具有预定关系的比率,使得另一个块完全属于背景分量信号(140)。
8.如权利要求7所述的装置,
其中分离器(130)被配置为使用将后续块的比率与释放阈值进行比较来分离在时间上跟随当前块的后续块,
其中所述释放阈值被设置成使得与所述阈值不处于预定关系的块比率与所述释放阈值处于预定关系。
9.如权利要求8所述的装置,
其中预定关系是“大于”并且其中释放阈值小于所述阈值,或者
其中预定关系是“小于”,并且其中释放阈值大于所述阈值。
10.如权利要求1所述的装置,
其中块生成器(110)被配置为确定音频信号值的时间上重叠的块,或者
其中时间上重叠的块具有小于或等于600个采样值。
11.如权利要求1所述的装置,
其中块生成器(110)被配置为执行时域中的音频信号(100)到频域的逐块转换,以获得每个块的频谱表示,
其中音频信号分析器(120)被配置为使用当前块的频谱表示来计算块特征或平均特征,以及
其中分离器(130)被配置为将频谱表示分离成背景部分和前景部分,使得对于与相同频率对应的背景部分和前景部分的频谱仓,各自具有不等于零的频谱值,其中相同频率仓内的前景部分的频谱值与背景部分的频谱值的关系取决于当前块的块特征与一组块的平均特征的比率。
12.如权利要求1所述的装置,
其中块生成器(110)被配置为执行时域中的音频信号(100)到频域的逐块转换,以获得每个块的频谱表示,
其中时间相邻块在重叠范围(302)内重叠,
其中装置还包括用于合成背景分量信号(140)和用于合成前景分量信号(150)的信号合成器,其中信号合成器被配置用于对于背景分量信号(140)和前景分量信号(150)执行频率-时间转换并且用于对重叠范围内的时间相邻块的时间表示进行交叉衰落,以获得时域前景分量信号(150)和分离的时域背景分量信号。
13.如权利要求1所述的装置,
其中音频信号分析器(120)被配置为使用一组块中的块的各个块特征的加权相加来确定一组块的平均特征。
14.如权利要求1所述的装置,
其中音频信号分析器(120)被配置为对一组块中的块的各个块特征执行加权相加,其中,时间上与当前块接近的块的特征的加权值大于时间上与当前块较少接近的另一个块的特征的加权值。
15.如权利要求13所述的装置,
其中音频信号分析器(120)被配置为确定一组块,使得一组块包括在当前块之前的至少20个块或在当前块之后的至少20个块。
16.如权利要求1所述的装置,
其中音频信号分析器(120)被配置为使用取决于一组块中的块的数量或者取决于一组块中的块的加权值的归一化值。
17.如权利要求1所述的装置,还包括:
信号特征测量器(702,704),用于测量背景分量信号(140)和前景分量信号(150)中的至少一个的信号特征。
18.如权利要求17所述的装置,
其中信号特征测量器被配置为使用前景分量信号(150)确定指示每秒检测的拍手数量的前景密度或使用前景分量信号(150)和音频信号(100)确定指示估计的前景拍手信号和音频信号(100)的能量比的前景突出度。
19.如权利要求1所述的装置,
其中前景分量信号(150)包括拍手信号,其中装置还包括信号特征修改器,信号特征修改器用于通过增加拍手数量或减少拍手数量或通过对前景分量信号(150)或背景分量信号(140)应用权重以修改前景分量信号(150)和作为类噪声信号的背景分量信号(140)之间的能量关系来修改前景分量信号(150)。
20.如权利要求1所述的装置,还包括:
盲上混器,用于将音频信号上混到具有多个输出声道的表示中,其中输出声道的数量大于音频信号(100)的声道的数量,
其中盲上混器被配置为将前景分量信号(150)空间分布到输出声道中,其中所述多个输出声道中的前景分量信号(150)是相关的,并且将背景分量信号(140)频谱分布到输出声道中,其中输出声道中的背景分量信号(140)较前景分量信号(150)是较少相关的,或者彼此不相关。
21.如权利要求1所述的装置,还包括:
编码器级(801,802),用于分别对前景分量信号(150)和背景分量信号(140)进行编码,以获得前景分量信号(150)的编码表示(804)和背景分量信号(140)的分离的编码表示(806),用于传输或存储或解码。
22.一种将音频信号(100)分解成背景分量信号(140)和前景分量信号(150)的方法,所述方法包括:
生成(110)音频信号值的时间序列块;
确定(120)音频信号(100)的当前块的块特征并确定一组块的平均特征,所述一组块包括至少两个块,其中确定包括分析作为当前块的特征的振幅相关的测量以及作为一组块的平均特征的振幅相关的特征;以及
响应于当前块的块特征与一组块的平均特征的比率,将当前块分离(130)成背景部分和前景部分,
其中背景分量信号(140)包括当前块的背景部分,并且前景分量信号(150)包括当前块的前景部分。
23.一种计算机可读介质,具有存储在其上的计算机程序,用于当在计算机或处理器上运行时,执行如权利要求22所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16199402.5A EP3324407A1 (en) | 2016-11-17 | 2016-11-17 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP16199402.5 | 2016-11-17 | ||
PCT/EP2017/079516 WO2018091614A1 (en) | 2016-11-17 | 2017-11-16 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110114828A CN110114828A (zh) | 2019-08-09 |
CN110114828B true CN110114828B (zh) | 2023-10-27 |
Family
ID=57348523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780071526.0A Active CN110114828B (zh) | 2016-11-17 | 2017-11-16 | 使用比率作为分离特征来分解音频信号的装置和方法 |
Country Status (11)
Country | Link |
---|---|
US (1) | US11183199B2 (zh) |
EP (2) | EP3324407A1 (zh) |
JP (1) | JP7161215B2 (zh) |
KR (1) | KR102427414B1 (zh) |
CN (1) | CN110114828B (zh) |
BR (1) | BR112019009944A2 (zh) |
CA (1) | CA3043964C (zh) |
ES (1) | ES2930268T3 (zh) |
MX (1) | MX2019005739A (zh) |
RU (1) | RU2729050C1 (zh) |
WO (1) | WO2018091614A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US11023722B2 (en) * | 2018-07-11 | 2021-06-01 | International Business Machines Corporation | Data classification bandwidth reduction |
CN114097031A (zh) * | 2020-06-23 | 2022-02-25 | 谷歌有限责任公司 | 智能背景噪声估计器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002047068A2 (en) * | 2000-12-08 | 2002-06-13 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
CN102089758A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用于对采样音频信号的帧进行编码和解码的音频编码器和解码器 |
CN103402169A (zh) * | 2006-09-20 | 2013-11-20 | 哈曼国际工业有限公司 | 用于提取和改变音频输入信号的混响内容的方法和装置 |
CA2952157A1 (en) * | 2014-07-30 | 2016-02-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
Family Cites Families (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
US7006881B1 (en) | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
JP2000250568A (ja) | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | 音声区間検出装置 |
US6424960B1 (en) | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
JP4438144B2 (ja) * | 1999-11-11 | 2010-03-24 | ソニー株式会社 | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
US7930170B2 (en) * | 2001-01-11 | 2011-04-19 | Sasken Communication Technologies Limited | Computationally efficient audio coder |
US7058889B2 (en) | 2001-03-23 | 2006-06-06 | Koninklijke Philips Electronics N.V. | Synchronizing text/visual information with audio playback |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7386217B2 (en) | 2001-12-14 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Indexing video by detecting speech and music in audio |
WO2003093775A2 (en) | 2002-05-03 | 2003-11-13 | Harman International Industries, Incorporated | Sound detection and localization system |
US7567845B1 (en) | 2002-06-04 | 2009-07-28 | Creative Technology Ltd | Ambience generation for stereo signals |
KR100908117B1 (ko) * | 2002-12-16 | 2009-07-16 | 삼성전자주식회사 | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 |
US7024358B2 (en) * | 2003-03-15 | 2006-04-04 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
KR100486736B1 (ko) | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
JP4146489B2 (ja) | 2004-05-26 | 2008-09-10 | 日本電信電話株式会社 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
DE102005014477A1 (de) * | 2005-03-30 | 2006-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung |
US8086451B2 (en) * | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7830921B2 (en) * | 2005-07-11 | 2010-11-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
KR101237413B1 (ko) * | 2005-12-07 | 2013-02-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치 |
US8898056B2 (en) | 2006-03-01 | 2014-11-25 | Qualcomm Incorporated | System and method for generating a separated signal by reordering frequency components |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
JP2008015481A (ja) | 2006-06-08 | 2008-01-24 | Audio Technica Corp | 音声会議装置 |
US8311329B2 (en) | 2006-09-07 | 2012-11-13 | Lumex As | Relative threshold and use of edges in optical character recognition process |
EP2148321B1 (en) | 2007-04-13 | 2015-03-25 | National Institute of Advanced Industrial Science and Technology | Sound source separation system, sound source separation method, and computer program for sound source separation |
EP2028651A1 (en) | 2007-08-24 | 2009-02-25 | Sound Intelligence B.V. | Method and apparatus for detection of specific input signal contributions |
WO2009049895A1 (en) | 2007-10-17 | 2009-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding using downmix |
WO2009051132A1 (ja) | 2007-10-19 | 2009-04-23 | Nec Corporation | 信号処理システムと、その装置、方法及びそのプログラム |
US9374453B2 (en) * | 2007-12-31 | 2016-06-21 | At&T Intellectual Property I, L.P. | Audio processing for multi-participant communication systems |
CN101981811B (zh) | 2008-03-31 | 2013-10-23 | 创新科技有限公司 | 音频信号的自适应主体-环境分解 |
US9373339B2 (en) * | 2008-05-12 | 2016-06-21 | Broadcom Corporation | Speech intelligibility enhancement system and method |
US8630848B2 (en) * | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
US8359205B2 (en) * | 2008-10-24 | 2013-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
JP5277887B2 (ja) | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
US20100138010A1 (en) | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
US20100174389A1 (en) | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
CA2763793C (en) * | 2009-06-23 | 2017-05-09 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
ES2524428T3 (es) | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio |
WO2011029048A2 (en) | 2009-09-04 | 2011-03-10 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
JP5493655B2 (ja) | 2009-09-29 | 2014-05-14 | 沖電気工業株式会社 | 音声帯域拡張装置および音声帯域拡張プログラム |
CN102044246B (zh) | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | 一种音频信号检测方法和装置 |
JP2013508773A (ja) | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声エンコーダの方法およびボイス活動検出器 |
US20110099010A1 (en) * | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Multi-channel noise suppression system |
EP2546831B1 (en) | 2010-03-09 | 2020-01-15 | Mitsubishi Electric Corporation | Noise suppression device |
US8447595B2 (en) * | 2010-06-03 | 2013-05-21 | Apple Inc. | Echo-related decisions on automatic gain control of uplink speech signal in a communications device |
JP5706782B2 (ja) | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | 音源分離装置及び音源分離方法 |
US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN103959376B (zh) * | 2011-12-06 | 2019-04-23 | 英特尔公司 | 低功率语音检测 |
US9524730B2 (en) * | 2012-03-30 | 2016-12-20 | Ohio State Innovation Foundation | Monaural speech filter |
JP6064566B2 (ja) | 2012-12-07 | 2017-01-25 | ヤマハ株式会社 | 音響処理装置 |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
US9076459B2 (en) | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
US9384741B2 (en) | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
CN104217729A (zh) * | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
US20150127354A1 (en) | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
FR3013885B1 (fr) * | 2013-11-28 | 2017-03-24 | Audionamix | Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange |
CN104143326B (zh) | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US20170178664A1 (en) | 2014-04-11 | 2017-06-22 | Analog Devices, Inc. | Apparatus, systems and methods for providing cloud based blind source separation services |
EP3161787B1 (en) | 2014-06-30 | 2018-06-13 | Ventana Medical Systems, Inc. | Detecting edges of a nucleus using image analysis |
RU2589298C1 (ru) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |
FR3031225B1 (fr) * | 2014-12-31 | 2018-02-02 | Audionamix | Procede de separation ameliore et produit programme d'ordinateur |
CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
TWI573133B (zh) * | 2015-04-15 | 2017-03-01 | 國立中央大學 | 音訊處理系統及方法 |
US9747923B2 (en) * | 2015-04-17 | 2017-08-29 | Zvox Audio, LLC | Voice audio rendering augmentation |
MX2018003529A (es) * | 2015-09-25 | 2018-08-01 | Fraunhofer Ges Forschung | Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal. |
US9812132B2 (en) * | 2015-12-31 | 2017-11-07 | General Electric Company | Acoustic map command contextualization and device control |
US10783899B2 (en) * | 2016-02-05 | 2020-09-22 | Cerence Operating Company | Babble noise suppression |
US9881619B2 (en) | 2016-03-25 | 2018-01-30 | Qualcomm Incorporated | Audio processing for an acoustical environment |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
-
2016
- 2016-11-17 EP EP16199402.5A patent/EP3324407A1/en not_active Withdrawn
-
2017
- 2017-11-16 JP JP2019526478A patent/JP7161215B2/ja active Active
- 2017-11-16 MX MX2019005739A patent/MX2019005739A/es unknown
- 2017-11-16 BR BR112019009944A patent/BR112019009944A2/pt active Search and Examination
- 2017-11-16 KR KR1020197017323A patent/KR102427414B1/ko active IP Right Grant
- 2017-11-16 CA CA3043964A patent/CA3043964C/en active Active
- 2017-11-16 ES ES17798236T patent/ES2930268T3/es active Active
- 2017-11-16 RU RU2019118471A patent/RU2729050C1/ru active
- 2017-11-16 CN CN201780071526.0A patent/CN110114828B/zh active Active
- 2017-11-16 EP EP17798236.0A patent/EP3542362B1/en active Active
- 2017-11-16 WO PCT/EP2017/079516 patent/WO2018091614A1/en active Search and Examination
-
2019
- 2019-05-17 US US16/415,392 patent/US11183199B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002047068A2 (en) * | 2000-12-08 | 2002-06-13 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
CN103402169A (zh) * | 2006-09-20 | 2013-11-20 | 哈曼国际工业有限公司 | 用于提取和改变音频输入信号的混响内容的方法和装置 |
CN102089758A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用于对采样音频信号的帧进行编码和解码的音频编码器和解码器 |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
CA2952157A1 (en) * | 2014-07-30 | 2016-02-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
Non-Patent Citations (2)
Title |
---|
Scalable identification of mixed environmental sounds, recorded from heterogeneous sources☆;Jessica Beltrán,et al.;《Pattern Recognition Letters》;ScienceDirect;20151215;第68卷;全文 * |
背景噪声下的语音信号分离;云晓花等;《计算机工程》;中国知网;20111205;第37卷(第23期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US11183199B2 (en) | 2021-11-23 |
MX2019005739A (es) | 2019-09-11 |
CA3043964A1 (en) | 2018-05-24 |
EP3542362A1 (en) | 2019-09-25 |
US20190272835A1 (en) | 2019-09-05 |
EP3542362B1 (en) | 2022-09-21 |
BR112019009944A2 (pt) | 2019-08-20 |
KR20190085062A (ko) | 2019-07-17 |
JP7161215B2 (ja) | 2022-10-26 |
RU2729050C1 (ru) | 2020-08-04 |
CA3043964C (en) | 2022-06-28 |
KR102427414B1 (ko) | 2022-08-01 |
EP3324407A1 (en) | 2018-05-23 |
WO2018091614A1 (en) | 2018-05-24 |
ES2930268T3 (es) | 2022-12-09 |
CN110114828A (zh) | 2019-08-09 |
JP2019537750A (ja) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110114827B (zh) | 使用可变阈值来分解音频信号的装置和方法 | |
JP6641018B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
CN110114828B (zh) | 使用比率作为分离特征来分解音频信号的装置和方法 | |
US20090204397A1 (en) | Linear predictive coding of an audio signal | |
KR102563915B1 (ko) | 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법 | |
JP2019194704A (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
EP2730102B1 (en) | Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator | |
CN110998721B (zh) | 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置 | |
EP4149122A1 (en) | Method and apparatus for adaptive control of decorrelation filters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment | ||
TG01 | Patent term adjustment |