JP2019537751A - 可変閾値を使用してオーディオ信号を分解するための装置および方法 - Google Patents

可変閾値を使用してオーディオ信号を分解するための装置および方法 Download PDF

Info

Publication number
JP2019537751A
JP2019537751A JP2019526480A JP2019526480A JP2019537751A JP 2019537751 A JP2019537751 A JP 2019537751A JP 2019526480 A JP2019526480 A JP 2019526480A JP 2019526480 A JP2019526480 A JP 2019526480A JP 2019537751 A JP2019537751 A JP 2019537751A
Authority
JP
Japan
Prior art keywords
variation
current block
block
signal
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019526480A
Other languages
English (en)
Other versions
JP6911117B2 (ja
Inventor
アダミ・アレクサンダー
ハル・ユルゲン
ディッシュ・ザシャ
ギド・フロリン
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2019537751A publication Critical patent/JP2019537751A/ja
Application granted granted Critical
Publication of JP6911117B2 publication Critical patent/JP6911117B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

オーディオ信号を背景成分信号と前景成分信号に分解するための装置であって、オーディオ信号値のブロックの時間シーケンスを生成するためのブロック生成器(110)と、オーディオ信号の現在のブロックの特性を決定し、ブロックのシーケンスの少なくとも2つのブロックを含むブロックのグループ内の特性の変動を決定するためのオーディオ信号分析器(120)と、現在のブロックを背景部分(140)と前景部分(150)に分離するための分離器(130)であって、分離器(130)は、現在のブロックの特性が分離閾値と所定の関係にあるとき、変動に基づいて分離閾値を決定して(182)現在のブロックを背景成分信号(140)と前景成分信号(150)に分離する分離器(130)とを備える。

Description

本発明は、オーディオ処理に関し、具体的には、オーディオ信号の背景成分信号と前景成分信号への分解に関する。
オーディオ信号処理を対象とした多量の参考文献が存在し、これらの参考文献のいくつかは、オーディオ信号分解に関する。例示的な参考文献は、以下の通りである。
[1] S.Disch and A.Kuntz,A Dedicated Decorrelator for Parametric Spatial Coding of Applause−Like Audio Signals.Springer−Verlag,January 2012,pp.355−363
[2] A.Kuntz,S.Disch,T.Baeckstroem,and J.Robilliard,“The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard,” in 131st Convention of the AES,New York,USA,2011
[3] A.Walther,C.Uhle,and S.Disch,“Using Transient Suppression in Blind Multi−channel Upmix Algorithms,” in Proceedings,122nd AES Pro Audio Expo and Convention,May 2007
[4] G.Hotho,S.van de Par,and J.Breebaart,“Multichannel coding of applause signals”,EURASIP J.Adv.Signal Process,vol.2008,Jan.2008.[Online].Available: http://dx.doi.org/10.1155/2008/53169
[5] D.FitzGerald,“Harmonic/Percussive Separation Using Median Filtering,” in Proceedings of the 13th International Conference on Digital Audio Effects (DAFx−10),Graz,Austria,2010
[6] J.P.Bello,L.Daudet,S.Abdallah,C.Duxbury,M.Davies,and M.B.Sandler,“A Tutorial on Onset Detection in Music Signals,” IEEE Transactions on Speech and Audio Processing,vol.13,no.5,pp.1035−1047,2005
[7] M.Goto and Y.Muraoka,“Beat tracking based on multiple−agent architecture − a real−time beat tracking system for audio signals,” in Proceedings of the 2nd International Conference on Multiagent Systems,1996,pp.103−110
[8] A.Klapuri,“Sound onset detection by applying psychoacoustic knowledge,” in Proceedings of the International Conference on Acoustics,Speech,and Signal Processing (ICASSP),vol.6,1999,pp.3089−3092 vol.6。
さらに、国際公開第2010/017967号パンフレットは、入力オーディオ信号を前景信号部である第1の分解された信号と背景信号部である第2の分解された信号に分解するための意味デコンポーザ(semantic decomposer)を備える、入力オーディオ信号に基づいて空間出力マルチチャネルオーディオ信号を決定するための装置を開示している。さらに、レンダラは、振幅パンニングを使用して前景信号部分をレンダリングし、無相関化によって背景信号部分をレンダリングするように構成される。最後に、第1のレンダリングされた信号および第2のレンダリングされた信号は、空間出力マルチチャネルオーディオ信号を得るために処理される。
さらに、参考文献[1]および[2]は、過渡ステアリングデコリレータ(transient steering decorrelator)を開示している。
まだ公開されていないヨーロッパ出願第16156200.4号は、高分解能エンベロープ処理を開示している。高分解能エンベロープ処理は、主に拍手、雨滴の音などの多数の密集した過渡事象からなる信号の改良されたコーディングのためのツールである。エンコーダ側では、ツールは、入力信号を分析し、過渡事象の高周波数部を減衰させ、したがって時間的に平坦化し、ステレオ信号では1〜4kbpsなどの少量の付加情報を生成することによって、実際の知覚的オーディオコーデックの前に高い時間分解能を有するプリプロセッサとして機能する。デコーダ側では、ツールは、符号化中に生成された付加情報を利用して、過渡事象の高周波数部をブーストし、したがって時間的に整形することによって、オーディオコーデックの後にポストプロセッサとして機能する。
アップミックスは、通常、直接信号部と周囲信号部への信号分解を伴い、直接信号は、ラウドスピーカ間でパンされ、周囲部は、無相関化され、所与の数のチャネルにわたって分散される。周囲信号内にトランジェントのような直接成分が残っていると、アップミックスされたサウンドシーンにおいて結果として知覚される雰囲気が損なわれる。[3]では、周囲信号内で検出されたトランジェントを低減する過渡検出および処理が提案されている。過渡検出のために提案された1つの方法は、ある特定のブロックが抑制されるべきか否かを判定するための、1つの時間ブロックのビンの周波数重み付け合計と重み付けされた長時間移動平均との比較を含む。
[4]では、拍手信号の効率的な空間オーディオコーディングが扱われている。提案されたダウンミックスおよびアップミックス方法はすべて、完全な拍手信号に対して機能する。
さらに、参考文献[5]は、メディアンフィルタを水平方向および垂直方向にスペクトログラムに適用することによって、信号がハーモニックおよびパーカッシブ信号成分に分離されるハーモニック/パーカッシブ分離を開示している。
参考文献[6]は、立ち上がり検出に関するエンベロープフォロワまたはエネルギーフォロワなどの周波数領域手法、時間領域手法を含むチュートリアルを表す。参考文献[7]は、電力の急激な増加などの周波数領域での電力追跡を開示しており、参考文献[8]は、立ち上がり検出を目的とした新規尺度を開示している。
国際公開第2010/017967号パンフレット ヨーロッパ出願第16156200.4号
従来技術の参考文献に記載されているような信号の前景信号部と背景信号部への分離は、そのような既知の手順が結果信号または分解された信号のオーディオ品質を低下させる可能性があるという事実により、不利である。
本発明の目的は、オーディオ信号を背景成分信号と前景成分信号に分解することを目的とした改良された概念を提供することである。
この目的は、請求項1に記載のオーディオ信号を背景成分信号と前景成分信号に分解するための装置、請求項20に記載のオーディオ信号を背景成分信号と前景成分信号に分解するための方法、または請求項21に記載のコンピュータプログラムによって達成される。
一態様では、オーディオ信号を背景成分信号と前景成分信号に分解するための装置は、オーディオ信号値のブロックの時間シーケンスを生成するためのブロック生成器と、ブロック生成器に接続されたオーディオ信号分析器と、ブロック生成器およびオーディオ信号分析器に接続された分離器とを備える。第1の態様によれば、オーディオ信号分析器は、オーディオ信号の現在のブロックのブロック特性およびブロックのグループの平均特性を決定するように構成され、ブロックのグループは、先行のブロック、現在のブロックおよび後続のブロック、あるいはさらに先行のブロックまたはさらに後続のブロックなどの少なくとも2つのブロックを含む。
分離器は、現在のブロックのブロック特性と平均特性との比率に応じて、現在のブロックを背景部分と前景部分に分離するように構成される。したがって、背景成分信号は、現在のブロックの背景部分を含み、前景成分信号は、現在のブロックの前景部分を含む。したがって、現在のブロックは、背景または前景として単に判定されるわけではない。代わりに、現在のブロックは、実際には、ゼロ以外の背景部分とゼロ以外の前景部分に分離される。この手順は、典型的には、前景信号が信号に単独では存在せず、常に背景信号成分に結合されるという状況を反映する。したがって、本発明は、この第1の態様によれば、ある特定の閾値処理が実行されるか否かに関わらず、閾値なしで、またはある特定の閾値が比率によって達成されるときのいずれかで実際の分離が行われる場合、前景部分に加えて背景部分が常に残るという状況を反映する。
さらに、分離は、非常に特定的な分離尺度、すなわち、現在のブロックのブロック特性と少なくとも2つのブロックから導出された、すなわち、ブロックのグループから導出された平均特性との比率によって行われる。したがって、ブロックのグループのサイズに応じて、非常にゆっくりと変化する移動平均、または非常に急速に変化する移動平均を設定することができる。ブロックのグループのブロック数が多い場合、移動平均は、比較的ゆっくりと変化し、ブロックのグループのブロック数が少ない場合、移動平均は、非常に急速に変化する。さらに、現在のブロックからの特性とブロックのグループにわたる平均特性との間の関係の使用は、知覚的状況、すなわち、平均に対するこのブロックの特性間の比率がある特定の値にあるとき、個人がある特定のブロックを前景成分を含むものとして知覚する状況を反映する。しかしながら、この態様によれば、このある特定の値は、必ずしも閾値である必要はない。代わりに、比率自体は、現在のブロックの背景部分と前景部分への定量的な分離を実行するためにすでに使用されている可能性がある。比率が高いと、現在のブロックの大部分が前景部分となり、比率が低いと、現在のブロックのほとんどまたはすべてが背景部分に残り、現在のブロックは前景部分が少ないか、または前景部分がまったくないという状況になる。
好ましくは、振幅に関連する特性が決定され、現在のブロックのエネルギーなどのこの振幅に関連する特性は、ブロックのグループの平均エネルギーと比較されて比率を得て、それに基づいて分離が実行される。分離に応じて背景信号が残ることを確実にするために、利得係数が決定され、次にこの利得係数は、ある特定のブロックの平均エネルギーが背景またはノイズ様の信号内にどの程度残っているか、およびどの部分が、例えば、クラップ信号または雨滴信号などのような過渡信号であり得る前景信号部分に入るかを制御する。
第1の態様に加えてまたは第1の態様とは別に使用することができる本発明のさらなる第2の態様では、オーディオ信号を分解するための装置は、ブロック生成器と、オーディオ信号分析器と、分離器とを備える。オーディオ信号分析器は、オーディオ信号の現在のブロックの特性を分析するように構成される。オーディオ信号の現在のブロックの特性は、第1の態様に関して説明したような比率であり得るが、あるいは、平均化なしで現在のブロックからのみ導出されるブロック特性でもあり得る。さらに、オーディオ信号分析器は、ブロックのグループ内の特性の変動を決定するように構成され、ブロックのグループは、少なくとも2つのブロック、好ましくは、現在のブロックを伴うまたは伴わない少なくとも2つの先行のブロック、または現在のブロックを伴うまたは伴わない少なくとも2つの後続のブロック、またはやはり現在のブロックを伴うまたは伴わない少なくとも2つの先行のブロック、少なくとも2つの後続のブロックの両方を含む。好ましい実施形態では、ブロックの数は、30を超え、さらには40を超える。
さらに、分離器は、現在のブロックを背景部分と前景部分に分離するように構成され、この分離器は、信号分析器によって決定された変動に基づいて分離閾値を決定し、現在のブロックの特性が分離閾値以上などの分離閾値と所定の関係にあるときに現在のブロックを分離するように構成される。当然、閾値が一種の逆数であると定義されている場合、所定の関係は、より小さい関係またはより小さいもしくは等しい関係であり得る。したがって、閾値処理は、特性が分離閾値との所定の関係内にあるとき、背景部分と前景部分への分離が実行されるように常に実行され、特性が分離閾値との所定の関係内にないとき、分離は、まったく実行されない。
ブロックのグループ内の特性の変動に応じて可変閾値を使用する第2の態様によれば、分離は、完全分離、すなわち、分離が実行されるときにオーディオ信号値のブロック全体が前景成分に導入されるか、または可変分離閾値に対する所定の関係が満たされないときにオーディオ信号値のブロック全体が背景信号部分に類似することになり得る。好ましい実施形態では、この態様は、可変閾値が特性と所定の関係にあることが判明するとすぐに、非バイナリ分離が実行され、すなわち、オーディオ信号値の一部分のみが前景信号部分に入れられ、残りの部分が背景信号に残されるという点で第1の態様と組み合わされる。
好ましくは、前景信号部分と背景信号部分への部分的な分離は、利得係数に基づいて決定され、すなわち、同じ信号値は、最終的には前景信号部分と背景信号部分との間にあるが、異なる部分内の信号値のエネルギーは、互いに異なり、最終的には現在のブロック自体のブロック特性、または現在のブロックのブロック特性と現在のブロックと関連付けられるブロックのグループの平均特性との間の現在のブロックの比率などの特性に依存する分離利得によって決定される。
可変閾値の使用は、個人が前景信号部分を非常に定常的な信号からの小さな偏差であっても、すなわち、ある特定の信号が非常に定常的であると考えられるとき、すなわち、大きな変動を有さないときにさえ知覚する状況を反映する。その場合、わずかな変動であっても、前景信号部分であるとすでに知覚されている。しかしながら、強く変動する信号が存在するとき、強く変動する信号自体が背景信号成分であると知覚され、この変動パターンからの小さな偏差は、前景信号部分であるとは知覚されないように思われる。平均または予想値からのより強い偏差だけが、前景信号部分であると知覚される。したがって、分散が小さい信号には非常に小さい分離閾値を使用し、分散が大きい信号にはより高い分離閾値を使用することが好ましい。しかしながら、逆数が考慮されるとき、状況は上記と反対である。
両方の態様、すなわち、ブロック特性と平均特性との間の比率に基づいて前景信号部分と背景信号部分に非バイナリ分離を行う第1の態様、およびブロックのグループ内の特性の変動に応じて可変閾値を含む第2の態様は、互いに別々に使用することができ、あるいは共に、すなわち、互いに組み合わせて使用することもできる。後者の代替案は、後述するように好ましい実施形態を構成する。
本発明の実施形態は、入力信号が個々の処理を適用することができる2つの信号成分に分解され、処理された信号が再合成されて出力信号を形成するシステムに関する。拍手および他の過渡信号は、明確かつ個々に知覚可能な過渡クラップ事象とよりノイズ様の背景信号との重ね合わせとして見ることができる。そのような信号の前景信号密度と背景信号密度との比率などの特性を修正するために、個々の処理を各信号部に適用することができることが有利である。加えて、人間の知覚によって引き起こされる信号分離が得られる。さらに、概念は、送信側などの信号特性を測定し、受信側でそれらの特性を復元する測定デバイスとしても使用することができる。
本発明の実施形態は、マルチチャネル空間出力信号を生成することを専ら目的としていない。モノラル入力信号が分解され、個々の信号部は、処理されてモノラル出力信号に再合成される。いくつかの実施形態では、概念は、第1または第2の態様で定義されるように、可聴信号の代わりに測定値または付加情報を出力する。
加えて、分離は、意味的側面よりも知覚的側面および好ましくは定量的な特性または値に基づく。
実施形態によれば、分離は、考慮された短い時間フレーム内の平均エネルギーに対する瞬間エネルギーの偏差に基づく。そのような時間フレームの平均エネルギーに近いかまたはそれを下回るエネルギーレベルを有する過渡事象は、背景と実質的に異なるものとして知覚されないが、高いエネルギー偏差を有する事象は、背景信号から区別することができる。この種の信号分離は、原理を採用し、過渡事象に対する人間の知覚に近い処理と、背景事象よりも前景事象に対する人間の知覚に近い処理とを可能にする。
続いて、本発明の好ましい実施形態を添付の図面に関して説明する。
第1の態様による比率に依存するオーディオ信号を分解するための装置のブロック図である。 第2の態様による可変分離閾値に依存するオーディオ信号を分解するための概念の一実施形態のブロック図である。 第1の態様、第2の態様または両方の態様によるオーディオ信号を分解するための装置のブロック図である。 第1の態様、第2の態様または両方の態様によるオーディオ信号分析器および分離器の好ましい図である。 第2の態様による信号分離器の一実施形態を示す図である。 第1の態様、第2の態様による、かつ異なる閾値を参照することによるオーディオ信号を分解するための概念の説明を示す図である。 第1の態様、第2の態様または両方の態様による現在のブロックのオーディオ信号値を前景成分と背景成分に分離するための2つの異なる方法を示す図である。 ブロック生成器によって生成された重なり合うブロック、および分離後の時間領域の前景成分信号および背景成分信号の生成の概略図である。 生の変動の平滑化に基づいて可変閾値を決定するための第1の代替案を示す図である。 生の閾値の平滑化に基づく可変閾値の決定を示す図である。 (平滑化された)変動を閾値にマッピングするための様々な関数を示す図である。 第2の態様において必要とされる変動を決定するための好ましい実施態様を示す図である。 分離、前景処理および背景処理、ならびにその後の信号の再合成に関する一般的な概観を示す図である。 メタデータを伴うまたは伴わない信号特性の測定および復元を示す図である。 エンコーダ−デコーダの使用例のブロック図である。
図1aは、オーディオ信号を背景成分信号と前景成分信号に分解するための装置を示す。オーディオ信号は、オーディオ信号入力100に入力される。オーディオ信号入力は、ライン112で出力されるオーディオ信号値のブロックの時間シーケンスを生成するためのブロック生成器110に接続される。さらに、装置は、オーディオ信号の現在のブロックのブロック特性を決定し、加えて、ブロックのグループの平均特性を決定するためのオーディオ信号分析器120を備え、ブロックのグループは、少なくとも2つのブロックを含む。好ましくは、ブロックのグループは、少なくとも1つの先行のブロックまたは少なくとも1つの後続のブロック、加えて、現在のブロックを含む。
さらに、装置は、現在のブロックのブロック特性と平均特性との比率に応じて、現在のブロックを背景部分と前景部分に分離するための分離器130を備える。したがって、現在のブロックのブロック特性と平均特性との比率が特性として使用され、それに基づいてオーディオ信号値の現在のブロックの分離が実行される。特に、信号出力140における背景成分信号は、現在のブロックの背景部分を含み、前景成分信号出力150における前景成分信号出力は、現在のブロックの前景部分を含む。図1aに示す手順は、ブロックごとに実行され、すなわち、ブロックの時間シーケンスのうちの1つのブロックが次々に処理され、最終的に入力100で入力されたオーディオ信号値のブロックのシーケンスが処理されると、図3に関して後述するように、背景成分信号の対応するブロックのシーケンスおよび前景成分信号の同じブロックのシーケンスがライン140、150に存在する。
好ましくは、オーディオ信号分析器は、現在のブロックのブロック特性として振幅に関連する尺度を分析するように構成され、加えて、オーディオ信号分析器120は、同様にブロックのグループの振幅に関連する特性を追加的に分析するように構成される。
好ましくは、現在のブロックの電力測定値またはエネルギー測定値、およびブロックのグループの平均電力測定値または平均エネルギー測定値は、オーディオ信号分析器によって決定され、現在のブロックのこれら2つの値の間の比率は、分離を実行するために分離器130によって使用される。
図2は、第1の態様による図1aの分離器130によって実行される手順を示す。ステップ200は、必ずしも比率である必要はないが、例えばブロック特性のみであってもよい、第1の態様による比率または第2の態様による特性の決定を表す。
ステップ202において、分離利得が比率または特性から計算される。その後、ステップ204における閾値比較を任意に実行することができる。閾値比較がステップ204で実行されると、その結果、特性は閾値と所定の関係にあることになる。この場合、制御は、ステップ206に進む。しかしながら、ステップ204において、特性が所定の閾値に関係していないと決定されると、分離は実行されず、制御はブロックのシーケンスの次のブロックに進む。
第1の態様によれば、ステップ204における閾値比較を実行してもよく、またはあるいは、破線208で示すように実行しなくてもよい。ブロック204において、特性が分離閾値と所定の関係にあると決定されると、またはライン208の代わりに、いずれにせよステップ206が実行されると、オーディオ信号は、分離利得を使用して重み付けされる。この目的のために、ステップ206は、入力オーディオ信号のオーディオ信号値を時間表現、または好ましくは、ライン210で示されるようなスペクトル表現で受け取る。そして、分離利得の適用に応じて、前景成分Cが図2の直下の式で示すように算出される。具体的には、gと比率Ψの関数である分離利得は直接使用されず、異なる形で、すなわち、関数が1から減算される。あるいは、背景成分Nは、g/Ψ(n)の関数によってオーディオ信号A(k、n)を実際に重み付けすることによって直接計算することができる。
図2は、すべて分離器130によって実行することができる前景成分および背景成分を計算するためのいくつかの可能性を示す。1つの可能性は、両方の成分が分離利得を使用して計算されることである。代替案は、前景成分のみが分離利得を使用して計算され、背景成分Nが210に示すようにオーディオ信号値から前景成分を減算することによって計算されることである。しかしながら、他の代替案は、背景成分Nがブロック206によって分離利得を使用して直接計算され、次に背景成分Nがオーディオ信号Aから減算されて最終的に前景成分Cを得ることである。したがって、図2は、背景成分および前景成分を計算するための3つの異なる実施形態を示すが、これらの代替案の各々は、分離利得を使用したオーディオ信号値の重み付けを少なくとも含む。
続いて、可変分離閾値に依存する本発明の第2の態様を説明するために図1bが示される。
第2の態様を表す図1bは、ブロック生成110に入力されるオーディオ信号100に依存し、ブロック生成器は、接続ライン122を介してオーディオ信号分析器120に接続される。さらに、オーディオ信号は、さらなる接続ライン111を介して直接オーディオ信号分析器に入力することができる。オーディオ信号分析器120は、一方ではオーディオ信号の現在のブロックの特性を決定し、加えて、ブロックのグループ内の特性の変動を決定するように構成され、ブロックのグループは、少なくとも2つのブロックを含み、好ましくは、少なくとも2つの先行のブロックまたは2つの後続のブロック、または少なくとも2つの先行のブロック、少なくとも2つの後続のブロックおよび現在のブロックを同様に含む。
現在のブロックの特性と特性の変動の両方は、接続ライン129を介して分離器130に転送される。次いで、分離器は、現在のブロックを背景部分と前景部分に分離し、背景成分信号140および前景成分信号150を生成するように構成される。特に、分離器は、第2の態様に従って、オーディオ信号分析器によって決定された変動に基づいて分離閾値を決定し、現在のブロックの特性が分離閾値と所定の関係にあるときに現在のブロックを背景成分信号部分と前景成分信号部分に分離するように構成される。しかしながら、現在のブロックの特性が(可変)分離閾値と所定の関係にないとき、現在のブロックの分離は実行されず、現在のブロック全体が背景成分信号140として転送または使用されるか、または割り当てられる。
具体的には、分離器130は、第1の変動の第1の分離閾値および第2の変動の第2の分離閾値を決定するように構成され、第1の分離閾値は、第2の分離閾値よりも小さく、第1の変動は、第2の変動よりも小さく、所定の関係は、「より大きい」である。
一例が図4cの左側部分に示されており、第1の分離閾値は、401に示され、第2の分離閾値は、402に示され、第1の変動は、501に示され、第2の変動は、502に示される。特に、分離閾値を表す上側区分線形関数410を参照し、図4cの下側区分線形関数412は、後述する解放閾値を示す。図4cは、閾値が、変動を増大させるために、増大する閾値が決定されるようなものである状況を示す。しかしながら、例えば、図4cに対する逆閾値がとられるように状況が実施される場合、状況は、分離器が第1の変動の第1の分離閾値および第2の変動の第2の分離閾値を決定するように構成されるようなものであり、第1の分離閾値は、第2の分離閾値よりも大きく、第1の変動は、第2の変動よりも小さく、この状況では、所定の関係は、図4cに示す第1の代替案のように「より大きい」ではなく「より小さい」である。
ある特定の実施態様に応じて、分離器130は、図4cの左側部分または右側部分に示す関数が記憶されるテーブルアクセスを使用して、または第1の分離閾値401と第2の分離閾値402との間を補間する単調補間関数に従って(可変)分離閾値を決定するように構成され、その結果、第3の変動503に対して第3の分離閾値403が得られ、第4の変動504に対して第4の閾値が得られ、第1の分離閾値401は、第1の変動501と関連付けられ、第2の分離閾値402は、第2の変動502と関連付けられ、第3および第4の変動503、504は、それらの値に関して、第1および第2の変動の間に位置し、第3および第4の分離閾値403、404は、それらの値に関して、第1および第2の分離閾値401、402の間に位置する。
図4cの左側部分に示すように、単調補間は、線形関数であるか、または図4cの右側部分に示すように、単調補間関数は、三次関数または1よりも大きい次数の任意のべき乗関数である。
図6は、拍手信号の分離、処理および処理された信号の合成のトップレベルブロック図を示す。
特に、図6に詳細に示される分離段600は、入力オーディオ信号a(t)を背景信号n(t)と前景信号c(t)に分離し、背景信号は、背景処理段602に入力され、前景信号は、前景処理段604に入力され、処理に続いて、信号n’(t)とc’(t)の両方は、結合器606によって結合されて処理された信号a’(t)が最終的に得られる。
好ましくは、入力信号a(t)の明確に知覚可能なクラップc(t)とよりノイズ様の背景信号n(t)への信号分離/分解に基づいて、分解された信号部の個々の処理が実現される。処理後、修正された前景および背景信号c’(t)およびn’(t)は再合成され、出力信号a’(t)が得られる。
図1cは、好ましい拍手分離段のトップレベル図を示す。拍手モデルは、式1で与えられ、かつ図1fに示されており、拍手信号A(k、n)は、明確かつ個々に知覚可能な前景クラップC(k、n)とよりノイズ様の背景信号N(k、n)との重ね合わせからなる。信号は、高い時間分解能の周波数領域で考慮され、kおよびnは、それぞれ短時間周波数変換の離散周波数kおよび時間nインデックスを表す。
特に、図1cのシステムは、ブロック生成器としてのDFTプロセッサ110、図1aまたは図1bのオーディオ信号分析器120および分離器130の機能を有する前景検出器、ならびに図2のステップ206に関して説明した機能を実行する重み付け器152、および図2のステップ210に示す機能を実施する減算器154などのさらなる信号分離器段を示す。さらに、対応する周波数領域表現から、時間領域前景信号c(t)と背景信号n(t)を合成する信号合成器が提供され、信号合成器は、各信号成分に対して、DFTブロック160a、160bを含む。
拍手入力信号a(t)、すなわち、背景成分と、拍手成分とを含む入力信号は、信号スイッチ(図1cには図示せず)ならびに前景検出器150に供給され、信号特性に基づいて、前景クラップに対応するフレームが識別される。検出器段150は、信号スイッチに供給される分離利得gs(n)を出力し、明確かつ個々に知覚可能なクラップ信号C(k、n)およびさらなるノイズ線信号N(k、n)にルーティングされる信号量を制御する。信号スイッチは、ブロック170に示され、バイナリスイッチ、すなわち、ある特定のフレームまたは時間/周波数タイル、すなわち、ある特定のフレームのある特定の周波数ビンだけが第2の態様に従ってCまたはNにルーティングされることを示している。第1の態様によれば、利得は、スペクトル表現A(k、n)の各フレームまたはいくつかの周波数ビンを前景成分と背景成分に分離するために使用され、その結果、利得gs(n)に従って、第1の態様によるブロック特性と平均特性との間の比率に依存し、フレーム全体または少なくとも1つまたは複数の時間/周波数タイルまたは周波数ビンは、信号CおよびNの各々の対応するビンが同じ値を有するが、振幅の関係がgs(n)に依存する異なる振幅を有するように分離される。
図1dは、オーディオ信号分析器の機能を具体的に示す前景検出器150のより詳細な実施形態を示す。一実施形態では、オーディオ信号分析器は、図1cのDFT(離散フーリエ変換)ブロック110を有するブロック生成器によって生成されたスペクトル表現を受け取る。さらに、オーディオ信号分析器は、ブロック170においてある特定の所定のクロスオーバ周波数でハイパスフィルタリングを実行するように構成される。次に、図1aまたは図1bのオーディオ信号分析器120は、ブロック172においてエネルギー抽出手順を実行する。エネルギー抽出手順は、現在のブロックの瞬間または現在のエネルギーΦinst(n)および平均エネルギーΦavg(n)をもたらす。
次に、図1aまたは図1bの信号分離器130は、180に示すように比率を決定し、加えて、適応または非適応閾値を決定し、対応する閾値処理操作182を実行する。
さらに、第2の態様による適応閾値処理操作が実行されると、オーディオ信号分析器は、ブロック174に示すようにエンベロープ変動推定を追加的に実行し、変動尺度v(n)は、分離器、特に、適応閾値処理ブロック182に転送され、後述するように利得g(n)が最終的に得られる。
前景信号検出器の内部のフローチャートが、図1dに示されている。上位経路のみが考慮される場合、これは適応閾値処理を行わない場合に対応し、一方、下位経路も考慮に入れられる場合は適応閾値処理が可能である。前景信号検出器に供給された信号は、ハイパスフィルタリングされ、その平均
および瞬間
エネルギーが推定される。信号X(k、n)の瞬間エネルギーは、
によって与えられ、式中、‖・‖は、ベクトルノルムを表し、平均エネルギーは、以下によって与えられる:
式中、w(n)は、ウィンドウ長
の瞬時エネルギー推定値に適用される重み付けウィンドウを表す。別個のクラップが入力信号内でアクティブであるかどうかに関する指標として、瞬間エネルギーと平均エネルギーとのエネルギー比率
は、以下に従って使用される;
適応閾値処理を行わないより単純な場合、エネルギー比率がアタック閾値
を超える時点では、入力信号から別個のクラップ部を抽出する分離利得は1に設定され、その結果、ノイズ様の信号がこれらの時点ではゼロである。ハード信号の切り替えを伴うシステムのブロック図が、図1eに示されている。ノイズ様の信号で信号のドロップアウトを回避する必要がある場合、補正項を利得から減算することができる。良好な出発点は、入力信号の平均エネルギーをノイズ様の信号内に残すことである。これは、利得から
または
を減算することによって行われる。平均エネルギーの量はまた、平均エネルギーがノイズ様の信号内に残る量を制御する利得
を導入することによっても制御することができる。これにより、一般的な形式の分離利得が得られる:
さらなる実施形態では、上記の式は、以下の式によって置き換えられる:
注:
の場合、固有のクラップにルーティングされる信号の量は、信号に依存する軟判定をもたらすエネルギー比率
および固定利得
にのみ依存する。よく調整されたシステムでは、エネルギー比率がアタック閾値を超える期間は、実際の過渡事象のみを捕捉する。場合によっては、アタックが発生した後のより長い期間の時間フレームを抽出することが望ましい場合がある。これは、例えば、アタック後に分離利得がゼロに戻る前にエネルギー比率
が減少しなければならないレベルを示す解放閾値
を導入することによって行うことができる:
さらなる実施形態では、直前の式は、以下の式によって置き換えられる:
代替的ではあるがより静的な方法は、アタックが検出された後にある特定の数のフレームを別個のクラップ信号に単にルーティングすることである。
閾値処理の柔軟性を高めるために、閾値は、信号適応的に選択することができ、その結果それぞれ
および
が得られる。閾値は、拍手入力信号のエンベロープの変動の推定値によって制御され、高い変動は、明確かつ個々に知覚可能なクラップの存在を示し、低い変動ほど、よりノイズ様の定常的な信号を示す。変動推定は、時間領域ならびに周波数領域で行うことができる。この場合の好ましい方法は、周波数領域で推定を行うことである:
式中、var(・)は、分散計算を表す。より安定した信号を得るために、推定された変動は、ローパスフィルタリングによって平滑化され、最終的なエンベロープ変動推定値が得られる
式中、*は、畳み込みを表す。エンベロープ変動の対応する閾値へのマッピングは、マッピング関数
および
によって行うことができ、以下のようになる
一実施形態では、マッピング関数は、閾値の線形補間に対応するクリップされた一次関数として実現することができる。このシナリオの構成は、図4cに示されている。さらにまた、一般的に三次マッピング関数またはより高次の関数を使用することもできる。具体的には、鞍点を使用して、まばらな拍手と密集した拍手に対して定義された値の間の変動値に対する追加の閾値レベルを定義することができる。これは、図4cの右側に例示的に示されている。
分離された信号は、以下によって得ることができる
図1fは、図1aおよび図1bの機能ブロックに関連して、概観で上述した式を示す。
さらに、図1fは、ある特定の実施形態に応じて、閾値が適用されない、単一の閾値、または二重の閾値が適用される状況を示す。
さらに、図1fの式(7)〜式(9)に関して示すように、適応閾値を使用することができる。当然、単一の閾値が単一の適応閾値として使用される。そして、式(8)のみがアクティブになり、式(9)はアクティブにならない。しかしながら、ある特定の好ましい実施形態では、第1の態様および第2の態様の特徴を共に実施して、二重の適応閾値処理を実行することが好ましい。
さらに、図7および図8は、本発明のある特定の用途をどのように実施することができるかに関するさらなる実施態様を示す。
特に、図7の左側部分は、背景成分信号または前景成分信号の信号特性を測定するための信号特性測定器700を示す。特に、信号特性測定700は、前景成分信号を使用して前景密度計算部を示すブロック702で前景密度を決定するように構成され、あるいは、またはそれに加えて、信号特性測定器は、元の入力信号a(t)に関して前景の割合を計算する前景隆起計算部704を使用して前景隆起計算を実行するように構成される。
あるいは、図7の右側部分に示すように、前景プロセッサ604および背景プロセッサ602が存在し、これらのプロセッサは、図6とは対照的に、図7の左側部分によって導出されるメタデータであり得る、または前景処理および背景処理を実行するための任意の他の有用なメタデータであり得るある特定のメタデータΘに依存する。
分離された拍手信号部は、過渡信号のある特定の(知覚的に引き起こされる)特性を測定することができる測定段に供給することができる。そのような使用例の例示的な構成が、図7aに示されており、総信号エネルギーに対する明確かつ個々に知覚可能な前景クラップの密度ならびに前景クラップのエネルギー割合が推定される。
前景密度
の推定は、1秒あたりの事象レート、すなわち1秒あたりの検出されたクラップの数を数えることによって行うことができる。前景隆起
は、推定された前景クラップ信号C(n)とA(n)とのエネルギー比率によって与えられる:
測定された信号特性の復元のブロック図が、図7bに示されており、Θおよび破線は、付加情報を表す。
前述の実施形態では、信号特性は測定されただけであったが、システムが信号特性を修正するために使用される。一実施形態では、前景処理は、減少した数の検出された前景クラップを出力することができ、その結果、得られる出力信号のより低い密度に対する密度修正を行う。別の実施形態では、前景処理は、例えば、前景クラップ信号の遅延バージョンをそれ自体に追加することによって増加した数の前景クラップを出力することができ、その結果、増加した密度に対する密度修正を行う。さらに、それぞれの処理段階で重みを適用することによって、前景クラップとノイズ様の背景のバランスを修正することができる。加えて、両方の経路におけるフィルタリング、リバーブの追加、遅延などのような任意の処理を使用して、拍手信号の特性を修正することができる。
図8はさらに、前景成分信号および背景成分信号を符号化し、送信または記憶のために前景成分信号の符号化された表現および背景成分信号の別々の符号化された表現を得るためのエンコーダ段に関する。特に、前景エンコーダは、801に示され、背景エンコーダは、802に示される。別々に符号化された表現804および806は、別々の表現および復号化された表現を最終的に復号化する前景デコーダ810および背景デコーダ812からなるデコーダ側デバイス808に転送され、次に結合器606によって結合されて復号化された信号a’(t)を最終的に出力する。
続いて、さらなる好ましい実施形態を図3に関して説明する。特に、図3は、時間ライン300に与えられた入力オーディオ信号の概略図を示し、概略図は、適時に重なり合うブロックの状況を示す。図3には、50%の重なり範囲302が存在する状況が示されている。50%を超える、または50%未満の部分が重なる50%以下の重なり範囲を有する多重重なり範囲など、他の重なり範囲も使用可能である。
図3の実施形態では、ブロックは、典型的には、600未満のサンプリング値を有し、好ましくは、高い時間分解能を得るために256のみまたは128のみのサンプリング値を有する。
例示的に示された重なり合うブロックは、例えば、重なり範囲内で先行のブロック303または後続のブロック305と重なる現在のブロック304からなる。したがって、ブロックのグループが少なくとも2つの先行のブロックを含むとき、このブロックのグループは、現在のブロック304に関する先行のブロック303と、図3の順序番号3で示すさらなる先行のブロックとからなる。さらに、そして同様に、ブロックのグループが(時間的に)少なくとも2つの後続のブロックを含むとき、これらの2つの後続のブロックは、順序番号6で示す後続のブロック305と、順序番号7で示すさらなるブロック7とを含む。
これらのブロックは、例えば、好ましくは、前述のDFTまたはFFT(高速フーリエ変換)などの時間スペクトル変換も実行するブロック生成器110によって形成される。
時間スペクトル変換の結果は、スペクトルブロックのシーケンスI〜VIIIであり、ブロック110の下の図3に示す各スペクトルブロックは、時間ライン300の8つのブロックのうちの1つに対応する。
好ましくは、次に周波数領域で、すなわち、オーディオ信号値がスペクトル値であるスペクトル表現を使用して、分離が実行される。分離に続いて、同じくブロックI〜VIIIからなる前景スペクトル表現、およびI〜VIIIからなる背景表現が得られる。当然、閾値処理操作に応じて、必ずしも分離130の後の前景表現の各ブロックがゼロとは異なる値を有するということではない。しかしながら、好ましくは、背景成分のスペクトル表現における各ブロックは、背景信号成分のエネルギーのドロップアウトを回避するために、ゼロとは異なる値を有することが少なくとも本発明の第1の態様によって確かめられる。
各成分、すなわち、前景成分および背景成分について、図1cに関して説明したようにスペクトル時間変換が実行され、その後の重なり範囲302に対するフェードアウト/フェードインは、ブロック161aおよびブロック161bに示すように両方の成分、それぞれ前景および背景成分に対して実行される。したがって、最終的には、前景信号と背景信号の両方は、分離前の元のオーディオ信号と同じ長さLを有する。
好ましくは、図4bに示すように、変動または閾値を計算する分離器130は、平滑化される。
特に、ステップ400は、400において示すように、現在のブロックについての一般的な特性またはブロック特性と平均特性との間の比率の決定を示す。
ブロック402において、現在のブロックに関して生の変動が計算される。ブロック404において、ブロック402および404の出力によって、生の変動のシーケンスを得るために先行または後続のブロックに対する生の変動が計算される。ブロック406において、シーケンスは、平滑化される。したがって、ブロック406の出力には、平滑化された変動のシーケンスが存在する。平滑化されたシーケンスの変動は、ブロック408に示すように対応する適応閾値にマッピングされ、それによって現在のブロックに対する可変閾値が得られる。
変動を平滑化するのとは対照的に、閾値が平滑化される代替の実施形態が図4bに示されている。このために、同じく、現在のブロックの特性/比率がブロック400に示すように決定される。
ブロック403において、整数mによって示される各現在のブロックについて、例えば、図1fの式6を使用して変動のシーケンスが計算される。
ブロック405において、図1fの式7とは対照的に、変動のシーケンスは式8および式9に従って生の閾値のシーケンスにマッピングされるが、変動は平滑化されていない。
ブロック407において、現在のブロックに対する(平滑化された)閾値を最終的に得るために、生の閾値のシーケンスが平滑化される。
続いて、ブロックのグループ内の特性の変動を計算するための異なる方法を例示するために、図5をより詳細に説明する。
同じく、ステップ500において、現在のブロック特性と平均ブロック特性との間の特性または比率が計算される。
ステップ502において、ブロックのグループについての特性/比率に対する平均、または一般に期待値が計算される。
ブロック504において、特性/比率と平均値/期待値との間の差が計算され、ブロック506に示すように、差の加算、または差から導出されるある特定の値が正規化を用いて好ましくは実行される。平方差を足し合わせると、ステップ502、504、506のシーケンスは、式6に関して概説したように分散の計算を反映する。しかしながら、例えば、大きさの差または2とは異なる他のべき乗の差を足し合わせると、特性と平均/期待値との間の差から導出される異なる統計値が変動として使用される。
しかしながら、あるいは、ステップ508に示すように、隣接するブロックに対する時間経過特性/比率の間の差も計算され、変動尺度として使用される。したがって、ブロック508は、平均値に依存せず、一方のブロックから他方のブロックへの変化に依存する変動を決定し、図6に示すように、隣接するブロックの特性の間の差は、分散とは異なる変動から別の値を最終的に得るために、二乗、その大きさ、またはそのべき乗のいずれかで足し合わせることができる。図5に関して説明したものとは異なる他の変動尺度も同様に使用することができることは、当業者には明らかである。
続いて、以下の実施例とは別々に、または以下の実施例のいずれかと組み合わせて使用することができる実施形態の実施例を定義する。
1.オーディオ信号(100)を背景成分信号(140)と前景成分信号(150)に分解するための装置であって、
オーディオ信号値のブロックの時間シーケンスを生成するためのブロック生成器(110)と、
前記オーディオ信号の現在のブロックのブロック特性を決定し、ブロックのグループの平均特性を決定するためのオーディオ信号分析器(120)であって、前記ブロックのグループは、少なくとも2つのブロックを含むオーディオ信号分析器(120)と、
前記現在のブロックの前記ブロック特性と前記ブロックのグループの前記平均特性との比率に応じて、前記現在のブロックを背景部分と前景部分に分離するための分離器(130)とを備え、
前記背景成分信号(140)は、前記現在のブロックの前記背景部分を含み、前記前景成分信号(150)は、前記現在のブロックの前記前景部分を含む、装置。
2.前記オーディオ信号分析器が、前記現在のブロックの前記特性として振幅に関連する尺度を分析し、前記ブロックのグループの前記平均特性として前記振幅に関連する特性を分析するように構成される、
実施例1に記載の装置。
3.前記オーディオ信号分析器(120)が、前記現在のブロックの電力測定値またはエネルギー測定値、および前記ブロックのグループの平均電力測定値または平均エネルギー測定値を分析するように構成される、
実施例1または2に記載の装置。
4.前記分離器(130)が、前記比率から分離利得を計算し、前記分離利得を使用して前記現在のブロックの前記オーディオ信号値を重み付けして前記現在フレームの前記前景部分を得て、前記背景信号が残りの信号を構成するように前記背景成分を決定するように構成され、または
前記分離器が、前記比率から分離利得を計算し、前記分離利得を使用して前記現在のブロックの前記オーディオ信号値を重み付けして前記現在のフレームの前記背景部分を得て、前記前景成分信号が残りの信号を構成するように前記前景成分を決定するように構成される、
実施例1〜3のいずれか1つに記載の装置。
5.前記分離器(130)が、ゼロとは異なる所定の重み付け係数を使用する前記比率を重み付けすることを使用して分離利得を計算するように構成される、
実施例1〜4のいずれか1つに記載の装置。
6.前記分離器(130)が、項1−(g/Ψ(n))または(max(1−(g/Ψ(n)))を使用して前記分離利得を計算するように構成され、式中、gNは、所定の係数であり、Ψ(n)は、前記比率であり、pは、ゼロよりも大きく整数または非整数であるべき乗であり、式中、nは、ブロックインデックスであり、式中、maxは、最大関数である、
実施例5に記載の装置。
7.前記分離器(130)が、前記現在のブロックの比率が前記閾値と所定の関係にあるときに前記現在のブロックの前記比率を閾値と比較し、前記現在のブロックを分離するように構成され、前記分離器(130)が、さらなるブロックを分離しないように構成され、前記さらなるブロックが、前記さらなるブロックが前記背景成分信号(140)に完全に属するように前記閾値との前記所定の関係を有さない比率を有する、
実施例1〜6のいずれか1つに記載の装置。
8.前記分離器(130)が、前記後続のブロックの前記比率をさらなる解放閾値と比較することを使用して時間内に前記現在のブロックに続く後続のブロックを分離するように構成され、
前記さらなる解放閾値が、前記閾値と前記所定の関係にないブロック比率が前記さらなる解放閾値と前記所定の関係にあるように設定される、
実施例7に記載の装置。
9.前記所定の関係が、「より大きい」であり、前記解放閾値が、分離閾値よりも小さく、または
前記所定の関係が、「より小さい」であり、前記解放閾値が、前記分離閾値よりも大きい、
実施例8に記載の装置。
10.前記ブロック生成器(110)が、オーディオ信号値の適時に重なり合うブロックを決定するように構成され、または
前記時間的に重なり合うブロックが、600以下のいくつかのサンプリング値を有する、
実施例1〜9のいずれか1つに記載の装置。
11.前記ブロック生成器が、時間領域オーディオ信号の周波数領域へのブロックごとの変換を実行して各ブロックのスペクトル表現を得るように構成され、
前記オーディオ信号分析器が、前記現在のブロックの前記スペクトル表現を使用して前記特性を計算するように構成され、
前記分離器(130)が、前記スペクトル表現を前記背景部分と前記前景部分に分離し、同じ周波数に対応する前記背景部分と前記前景部分のスペクトルビンについて、各々がゼロとは異なるスペクトル値を有するように構成され、同じ周波数ビン内の前記前景部分の前記スペクトル値と前記背景部分の前記スペクトル値との関係が、前記比率に依存する、
実施例1〜10のいずれか1つに記載の装置。
12.前記ブロック生成器(110)が、前記時間領域の前記周波数領域へのブロックごとの変換を実行して各ブロックのスペクトル表現を得るように構成され、
時間隣接ブロックが、重なり合う範囲(302)で重なり合っており、
前記装置が、前記背景成分信号を合成し、前記前景成分信号を合成するための信号合成器(160a、161a、160b、161b)をさらに備え、前記信号合成器が、前記背景成分信号および前記前景成分信号について、ならびに前記重なり合う範囲内の時間隣接ブロックのクロスフェード(161a、161b)時間表現について周波数−時間変換(161a、160a、160b)を実行し、時間領域前景成分信号および別々の時間領域背景成分信号を得るように構成される、
実施例1〜11のいずれか1つに記載の装置。
13.前記オーディオ信号分析器(120)が、前記ブロックのグループのブロックの個々の特性の重み付け加算を使用して前記ブロックのグループの前記平均特性を決定するように構成される、
実施例1〜12のいずれか1つに記載の装置。
14.前記オーディオ信号分析器(120)が、前記ブロックのグループのブロックの個々の特性の重み付け加算を実行するように構成され、前記現在のブロックに時間的に近いブロックの特性の重み付け値が、前記現在のブロックに時間的に近くないさらなるブロックの特性の重み付け値よりも大きい、
実施例1〜13のいずれか1つに記載の装置。
15.前記オーディオ信号分析器(120)が、前記ブロックのグループが対応するブロックの前の少なくとも20個のブロック、または前記現在のブロックの後の少なくとも20個のブロックを含むように前記ブロックのグループを決定するように構成される、
実施例13または14に記載の装置。
16.前記オーディオ信号分析器が、前記ブロックのグループのブロックの数に応じて、または前記ブロックのグループの前記ブロックの重み付け値に応じて正規化値を使用するように構成される、
実施例1〜15のいずれか1つに記載の装置。
17.前記背景成分信号または前記前景成分信号の少なくとも1つの信号特性を測定するための信号特性測定器(702、704)をさらに備える、
実施例1〜16のいずれか1つに記載の装置。
18.前記信号特性測定器が、前記前景成分信号を使用して前景密度(702)を決定するか、または前記前景成分信号および前記オーディオ入力信号を使用して前景隆起(704)を決定するように構成される、
実施例17に記載の装置。
19.前記前景成分信号が、クラップ信号を含み、前記装置が、クラップの数を増やすかもしくはクラップの数を減らすことによって、または重みを前記前景成分信号もしくは前記背景成分信号に適用することによって前記前景成分信号を修正し、前記前景クラップ信号とノイズ様の信号である前記背景成分信号との間のエネルギー関係を修正するための信号特性修正器をさらに備える、
実施例1〜18のいずれか1つに記載の装置。
20.前記オーディオ信号を、前記オーディオ信号のチャネルの数よりも大きい出力チャネルの数を有する表現にアップミックスするためのブラインドアップミキサをさらに備え、
前記アップミキサが、前記前景成分信号を前記出力チャネルに空間的に分配するように構成され、多数の出力チャネルの前記前景成分信号が、相関され、前記背景成分信号を前記出力チャネルにスペクトル的に分配し、前記出力チャネルの前記背景成分信号が、前記前景成分信号よりも相関が低いか、または互いに相関がない、
実施例1〜19のいずれか1つに記載の装置。
21.前記前景成分信号および前記背景成分信号を別々に符号化し、送信または記憶または復号化のために前記前景成分信号の符号化された表現(804)および前記背景成分信号の別々の符号化された表現(806)を得るためのエンコーダ段(801、802)をさらに備える、
実施例1〜20のいずれか1つに記載の装置。
22.オーディオ信号(100)を背景成分信号(140)と前景成分信号(150)に分解する方法であって、
オーディオ信号値のブロックの時間シーケンスを生成すること(110)と、
前記オーディオ信号の現在のブロックのブロック特性を決定し、ブロックのグループの平均特性を決定すること(120)であって、前記ブロックのグループは、少なくとも2つのブロックを含むことと、
前記現在のブロックの前記ブロック特性と前記ブロックのグループの前記平均特性との比率に応じて、前記現在のブロックを背景部分と前景部分に分離すること(130)とを含み、
前記背景成分信号(140)は、前記現在のブロックの前記背景部分を含み、前記前景成分信号(150)は、前記現在のブロックの前記前景部分を含む、方法。
続いて、上記の実施例とは別々に、または上記の実施例のいずれかと組み合わせて使用することができるさらなる実施例を説明する。
1.オーディオ信号を背景成分信号と前景成分信号に分解するための装置であって、
オーディオ信号値のブロックの時間シーケンスを生成するためのブロック生成器(110)と、
前記オーディオ信号の現在のブロックの特性を決定し、前記ブロックのシーケンスの少なくとも2つのブロックを含むブロックのグループ内の前記特性の変動を決定するためのオーディオ信号分析器(120)と、
前記現在のブロックを背景部分(140)と前景部分(150)に分離するための分離器(130)であって、前記分離器(130)は、前記現在のブロックの前記特性が前記分離閾値と所定の関係にあるとき、前記変動に基づいて分離閾値を決定して(182)前記現在のブロックを前記背景成分信号(140)と前記前景成分信号(150)に分離するか、または前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にあるとき、前記現在のブロック全体を前景成分信号として決定するか、または前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にないとき、前記現在のブロック全体を背景成分信号として決定するように構成される分離器(130)とを備える、装置。
2.前記分離器(130)が、第1の変動(501)の第1の分離閾値(401)および第2の変動(502)の第2の分離閾値(402)を決定するように構成され、
前記第1の分離閾値(401)が、前記第2の分離閾値(402)よりも小さく、前記第1の変動(501)が、前記第2の変動(502)よりも小さく、前記所定の関係が、より大きいであり、または
前記第1の分離閾値が、前記第2の分離閾値よりも大きく、前記第1の変動が、前記第2の変動よりも小さく、前記所定の関係が、より小さいである、
実施例1に記載の装置。
3.前記分離器(130)が、テーブルアクセスを使用して、または第1の分離閾値(401)と第2の分離閾値(402)との間を補間する単調補間関数を使用して前記分離閾値を決定し、第3の変動(503)について、第3の分離閾値(403)が得られ、第4の変動(504)について、第4の分離閾値(404)が得られるように構成され、前記第1の分離閾値(401)が、第1の変動(501)と関連付けられ、前記第2の分離閾値(402)が、第2の変動(502)と関連付けられ、
前記第3の変動(503)および前記第4の変動が、それらの値に対して、前記第1の変動(501)と前記第2の変動(502)との間に位置し、前記第3の分離閾値(403)および前記第4の分離閾値(404)が、それらの値に対して、前記第1の分離閾値(401)と前記第2の分離閾値(402)との間に位置する、
実施例1または2に記載の装置。
4.前記単調補間関数が、一次関数、二次関数、三次関数、または3よりも大きい次数を有するべき乗関数である、
実施例3に記載の装置。
5.前記分離器(130)が、前記現在のブロックに対する前記特性の前記変動に基づいて、生の分離閾値(405)を決定し、少なくとも1つの先行または後続のブロックの前記変動に基づいて、少なくとも1つのさらなる生の分離閾値(405)を決定し、生の分離閾値のシーケンスを平滑化することによって前記現在のブロックの前記分離閾値を決定する(407)ように構成され、前記シーケンスが、前記生の分離閾値と、前記少なくとも1つのさらなる生の分離閾値とを含み、または
前記分離器(130)が、前記現在のブロックの前記特性の生の変動(402)を決定し、加えて、先行または後続のブロックの生の変動を計算する(404)ように構成され、前記分離器(130)が、前記現在のブロックの前記生の変動と、前記先行または前記後続のブロックの前記少なくとも1つのさらなる生の変動とを含む生の変動のシーケンスを平滑化して平滑化された変動のシーケンスを得て、前記現在のブロックの平滑化された変動に基づいて分離閾値を決定するように構成される、
実施例1〜4のいずれか1つに記載の装置。
6.前記オーディオ信号分析器(120)が、前記ブロックのグループの各ブロックの特性を計算して特性のグループを得ること、および前記特性のグループの分散を計算することによって前記変動を決定するように構成され、前記変動が、前記特性のグループの前記分散に対応するか、または前記分散に依存する、
実施例1〜5のいずれか1つに記載の装置。
7.前記オーディオ信号分析器(120)が、平均または予想特性(502)、および前記特性のグループの前記特性と前記平均または予想特性との間の差(504)を使用して前記変動を計算するように、または
時間内に後続の前記特性のグループの特性の間の差(508)を使用して前記変動を計算することによって構成される、
実施例1〜6のいずれか1つに記載の装置。
8.前記オーディオ信号分析器(120)が、前記現在のブロックに先行する少なくとも2つのブロックまたは前記現在のブロックに後続する少なくとも2つのブロックを含む前記特性のグループ内の前記特性の前記変動を計算するように構成される、
実施例1〜7のいずれか1つに記載の装置。
9.前記オーディオ信号分析器(120)が、少なくとも30個のブロックからなる前記ブロックのグループ内の前記特性の前記変動を計算するように構成される、
実施例1〜8のいずれか1つに記載の装置。
10.前記オーディオ信号分析器(120)が、前記現在のブロックのブロック特性と少なくとも2つのブロックを含むブロックのグループの平均特性との比率として前記特性を計算するように構成され、
前記分離器(130)が、前記比率を、前記ブロックのグループ内の前記現在のブロックと関連付けられる前記比率の前記変動に基づいて決定された前記分離閾値と比較するように構成される、
実施例1〜9のいずれか1つに記載の装置。
11.前記オーディオ信号分析器(120)が、前記平均特性の前記計算のために、および前記変動の前記計算のために、同じブロックのグループを使用するように構成される、
実施例10に記載の装置。
12.前記オーディオ信号分析器が、前記現在のブロックの前記特性として振幅に関連する尺度を分析し、前記ブロックのグループの前記平均特性として前記振幅に関連する特性を分析するように構成される、
実施例1〜11のいずれか1つに記載の装置。
13.前記分離器(130)が、前記特性から分離利得を計算し、前記分離利得を使用して前記現在のブロックの前記オーディオ信号値を重み付けして前記現在フレームの前記前景部分を得て、前記背景信号が残りの信号を構成するように前記背景成分を決定するように構成され、または
前記分離器が、前記特性から分離利得を計算し、前記分離利得を使用して前記現在のブロックの前記オーディオ信号値を重み付けして前記現在のフレームの前記背景部分を得て、前記前景成分信号が残りの信号を構成するように前記前景成分を決定するように構成される、
実施例1〜12のいずれか1つに記載の装置。
14.前記分離器(130)が、前記後続のブロックの前記特性をさらなる解放閾値と比較することを使用して時間内に前記現在のブロックに続く後続のブロックを分離するように構成され、
前記さらなる解放閾値が、前記閾値と前記所定の関係にない特性が前記さらなる解放閾値と前記所定の関係にあるように設定される、
実施例1〜13のいずれか1つに記載の装置。
15.前記分離器(130)が、前記現在のブロックの前記特性が前記解放閾値とさらなる所定の関係にあるとき、前記変動に基づいて前記解放閾値を決定し、前記後続のブロックを分離するように構成される、
実施例14に記載の装置。
16.前記所定の関係が、「より大きい」であり、前記解放閾値が、前記分離閾値よりも小さく、または
前記所定の関係が、「より小さい」であり、前記解放閾値が、前記分離閾値よりも大きい、
実施例14または15に記載の装置。
17.前記ブロック生成器(110)が、オーディオ信号値の適時に重なり合うブロックを決定するように構成され、または
前記適時に重なり合うブロックが、600以下のいくつかのサンプリング値を有する、
実施例1〜16のいずれか1つに記載の装置。
18.前記ブロック生成器が、時間領域オーディオ信号の周波数領域へのブロックごとの変換を実行して各ブロックのスペクトル表現を得るように構成され、
前記オーディオ信号分析器が、前記現在のブロックの前記スペクトル表現を使用して前記特性を計算するように構成され、
前記分離器(130)が、前記スペクトル表現を前記背景部分と前記前景部分に分離し、同じ周波数に対応する前記背景部分と前記前景部分のスペクトルビンについて、各々がゼロとは異なるスペクトル値を有するように構成され、同じ周波数ビン内の前記前景部分の前記スペクトル値と前記背景部分の前記スペクトル値との関係が、前記特性に依存する、
実施例1〜17のいずれか1つに記載の装置。
19.前記オーディオ信号分析器(120)が、前記現在のブロックの前記スペクトル表現を使用して前記特性を計算し、前記ブロックのグループの前記スペクトル表現を使用して前記現在のブロックの前記変動を計算するように構成される、
実施例1〜18のいずれか1つに記載の装置。
20.オーディオ信号を背景成分信号と前景成分信号に分解するための方法であって、
オーディオ信号値のブロックの時間シーケンスを生成すること(110)と、
前記オーディオ信号の現在のブロックの特性を決定し、前記ブロックのシーケンスの少なくとも2つのブロックを含むブロックのグループ内の前記特性の変動を決定すること(120)と、
前記現在のブロックを背景部分(140)と前景部分(150)に分離すること(130)であって、分離閾値は、前記変動に基づいて決定され、前記現在のブロックは、前記現在のブロックの前記特性が前記分離閾値と所定の関係にあるとき、前記背景成分信号(140)と前記前景成分信号(150)に分離され、または前記現在のブロック全体は、前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にあるとき、前景成分信号として決定され、または前記現在のブロック全体を決定することは、前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にないとき、背景成分信号として決定されることとを含む、方法。
本発明で符号化されたオーディオ信号は、デジタル記憶媒体もしくは非一時的記憶媒体に記憶することができ、または無線伝送媒体もしくはインターネットなどの有線伝送媒体などの伝送媒体に送信することができる。
いくつかの態様は装置の文脈で説明されているが、これらの態様はまた、対応する方法の説明を表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明された態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。
ある特定の実施態様要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施態様は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実行されてもよい。
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータで実行されるときに方法の1つを実行するように動作可能である。プログラムコードは、例えば機械可読キャリアに記憶することができる。
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを備える。
言い換えれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータで実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを備える。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを備える。
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
上述の実施形態は、本発明の原理を説明するための例示にすぎない。本明細書に記載の構成および詳細の修正および変形は、当業者にとって明らかであるものと理解される。したがって、差し迫った特許請求の範囲だけによって制限され、本明細書の実施形態の記載および説明によって示される具体的な詳細によって制限されないことが意図される。

Claims (21)

  1. オーディオ信号を背景成分信号と前景成分信号に分解するための装置であって、
    オーディオ信号値のブロックの時間シーケンスを生成するためのブロック生成器(110)と、
    前記オーディオ信号の現在のブロックの特性を決定し、前記ブロックのシーケンスの少なくとも2つのブロックを含むブロックのグループ内の前記特性の変動を決定するためのオーディオ信号分析器(120)と、
    前記現在のブロックを背景部分(140)と前景部分(150)に分離するための分離器(130)であって、前記分離器(130)は、前記現在のブロックの前記特性が前記分離閾値と所定の関係にあるとき、前記変動に基づいて分離閾値を決定して(182)前記現在のブロックを前記背景成分信号(140)と前記前景成分信号(150)に分離するか、または前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にあるとき、前記現在のブロック全体を前景成分信号として決定するか、または前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にないとき、前記現在のブロック全体を背景成分信号として決定するように構成される分離器(130)と
    を備える、装置。
  2. 前記分離器(130)が、第1の変動(501)の第1の分離閾値(401)および第2の変動(502)の第2の分離閾値(402)を決定するように構成され、
    前記第1の分離閾値(401)が、前記第2の分離閾値(402)よりも小さく、前記第1の変動(501)が、前記第2の変動(502)よりも小さく、前記分離閾値との前記所定の関係が、前記分離閾値よりも大きく、または
    前記第1の分離閾値が、前記第2の分離閾値よりも大きく、前記第1の変動が、前記第2の変動よりも小さく、前記分離閾値との前記所定の関係が、前記分離閾値よりも小さい、
    請求項1に記載の装置。
  3. 前記分離器(130)が、テーブルアクセスを使用して、または第1の分離閾値(401)と第2の分離閾値(402)との間を補間する単調補間関数を使用して前記分離閾値を決定し、第3の変動(503)について、第3の分離閾値(403)が得られ、第4の変動(504)について、第4の分離閾値(404)が得られるように構成され、前記第1の分離閾値(401)が、第1の変動(501)と関連付けられ、前記第2の分離閾値(402)が、第2の変動(502)と関連付けられ、
    前記第3の変動(503)および前記第4の変動が、それらの値に対して、前記第1の変動(501)と前記第2の変動(502)との間に位置し、前記第3の分離閾値(403)および前記第4の分離閾値(404)が、それらの値に対して、前記第1の分離閾値(401)と前記第2の分離閾値(402)との間に位置する、
    請求項1または2に記載の装置。
  4. 前記単調補間関数が、一次関数、二次関数、三次関数、または3よりも大きい次数を有するべき乗関数である、
    請求項3に記載の装置。
  5. 前記分離器(130)が、前記現在のブロックに対する前記特性の前記変動に基づいて、生の分離閾値(405)を決定し、少なくとも1つの先行または後続のブロックの前記変動に基づいて、少なくとも1つのさらなる生の分離閾値(405)を決定し、生の分離閾値のシーケンスを平滑化することによって前記現在のブロックの前記分離閾値を決定する(407)ように構成され、前記シーケンスが、前記生の分離閾値と、前記少なくとも1つのさらなる生の分離閾値とを含み、または
    前記分離器(130)が、前記現在のブロックの前記特性の生の変動(402)を決定し、加えて、先行または後続のブロックの生の変動を計算する(404)ように構成され、前記分離器(130)が、前記現在のブロックの前記生の変動と、前記先行または前記後続のブロックの前記少なくとも1つのさらなる生の変動とを含む生の変動のシーケンスを平滑化して平滑化された変動のシーケンスを得て、前記現在のブロックの平滑化された変動に基づいて分離閾値を決定するように構成される、
    請求項1〜4のいずれか一項に記載の装置。
  6. 前記オーディオ信号分析器(120)が、前記ブロックのグループの各ブロックの特性を計算して特性のグループを得ること、および前記特性のグループの分散を計算することによって前記変動を決定するように構成され、前記変動が、前記特性のグループの前記分散に対応するか、または前記分散に依存する、
    請求項1〜5のいずれか一項に記載の装置。
  7. 前記オーディオ信号分析器(120)が、平均または予想特性(502)、および前記特性のグループの前記特性と前記平均または予想特性との間の差(504)を使用して前記変動を計算するように、または
    時間内に後続の前記特性のグループの特性の間の差(508)を使用して前記変動を計算することによって構成される、
    請求項1〜6のいずれか一項に記載の装置。
  8. 前記オーディオ信号分析器(120)が、前記現在のブロックに先行する少なくとも2つのブロックまたは前記現在のブロックに後続する少なくとも2つのブロックを含む前記特性のグループ内の前記特性の前記変動を計算するように構成される、
    請求項1〜7のいずれか一項に記載の装置。
  9. 前記オーディオ信号分析器(120)が、少なくとも30個のブロックからなる前記ブロックのグループ内の前記特性の前記変動を計算するように構成される、
    請求項1〜8のいずれか一項に記載の装置。
  10. 前記オーディオ信号分析器(120)が、前記現在のブロックのブロック特性と少なくとも2つのブロックを含むブロックのグループの平均特性との比率として前記特性を計算するように構成され、
    前記分離器(130)が、前記比率を、前記ブロックのグループ内の前記現在のブロックと関連付けられる前記比率の前記変動に基づいて決定された前記分離閾値と比較するように構成される、
    請求項1〜9のいずれか一項に記載の装置。
  11. 前記オーディオ信号分析器(120)が、前記平均特性の前記計算のために、および前記変動の前記計算のために、同じブロックのグループを使用するように構成される、
    請求項10に記載の装置。
  12. 前記オーディオ信号分析器が、前記現在のブロックの前記特性として振幅に関連する尺度を分析し、前記ブロックのグループの前記平均特性として前記振幅に関連する特性を分析するように構成される、
    請求項1〜11のいずれか一項に記載の装置。
  13. 前記分離器(130)が、前記特性から分離利得を計算し、前記分離利得を使用して前記現在のブロックの前記オーディオ信号値を重み付けして前記現在フレームの前記前景部分を得て、前記背景信号が残りの信号を構成するように前記背景成分を決定するように構成され、または
    前記分離器が、前記特性から分離利得を計算し、前記分離利得を使用して前記現在のブロックの前記オーディオ信号値を重み付けして前記現在のフレームの前記背景部分を得て、前記前景成分信号が残りの信号を構成するように前記前景成分を決定するように構成される、
    請求項1〜12のいずれか一項に記載の装置。
  14. 前記分離器(130)が、前記後続のブロックの前記特性をさらなる解放閾値と比較することを使用して時間内に前記現在のブロックに続く後続のブロックを分離するように構成され、
    前記さらなる解放閾値が、前記閾値と前記所定の関係にない特性が前記さらなる解放閾値と前記所定の関係にあるように設定される、
    請求項1〜13のいずれか一項に記載の装置。
  15. 前記分離器(130)が、前記現在のブロックの前記特性が前記解放閾値とさらなる所定の関係にあるとき、前記変動に基づいて前記解放閾値を決定し、前記後続のブロックを分離するように構成される、
    請求項14に記載の装置。
  16. 前記所定の関係が、「より大きい」であり、前記解放閾値が、前記分離閾値よりも小さく、または
    前記所定の関係が、「より小さい」であり、前記解放閾値比率が、前記分離閾値よりも大きい、
    請求項14または15に記載の装置。
  17. 前記ブロック生成器(110)が、オーディオ信号値の適時に重なり合うブロックを決定するように構成され、または
    前記適時に重なり合うブロックが、600以下のいくつかのサンプリング値を有する、
    請求項1〜16のいずれか一項に記載の装置。
  18. 前記ブロック生成器が、時間領域オーディオ信号の周波数領域へのブロックごとの変換を実行して各ブロックのスペクトル表現を得るように構成され、
    前記オーディオ信号分析器が、前記現在のブロックの前記スペクトル表現を使用して前記特性を計算するように構成され、
    前記分離器(130)が、前記スペクトル表現を前記背景部分と前記前景部分に分離し、同じ周波数に対応する前記背景部分と前記前景部分のスペクトルビンについて、各々がゼロとは異なるスペクトル値を有するように構成され、同じ周波数ビン内の前記前景部分の前記スペクトル値と前記背景部分の前記スペクトル値との関係が、前記特性に依存する、
    請求項1〜17のいずれか一項に記載の装置。
  19. 前記オーディオ信号分析器(120)が、前記現在のブロックの前記スペクトル表現を使用して前記特性を計算し、前記ブロックのグループの前記スペクトル表現を使用して前記現在のブロックの前記変動を計算するように構成される、
    請求項1〜18のいずれか一項に記載の装置。
  20. オーディオ信号を背景成分信号と前景成分信号に分解する方法であって、
    オーディオ信号値のブロックの時間シーケンスを生成すること(110)と、
    前記オーディオ信号の現在のブロックの特性を決定し、前記ブロックのシーケンスの少なくとも2つのブロックを含むブロックのグループ内の前記特性の変動を決定すること(120)と、
    前記現在のブロックを背景部分(140)と前景部分(150)に分離すること(130)であって、分離閾値は、前記変動に基づいて決定され、前記現在のブロックは、前記現在のブロックの前記特性が前記分離閾値と所定の関係にあるとき、前記背景成分信号(140)と前記前景成分信号(150)に分離され、または前記現在のブロック全体は、前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にあるとき、前景成分信号として決定され、または前記現在のブロック全体を決定することは、前記現在のブロックの前記特性が前記分離閾値と前記所定の関係にないとき、背景成分信号として決定されることと
    を含む、方法。
  21. コンピュータまたはプロセッサで行われるとき、請求項20に記載の方法を実行するためのコンピュータプログラム。
JP2019526480A 2016-11-17 2017-11-16 可変閾値を使用してオーディオ信号を分解するための装置および方法 Active JP6911117B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16199405.8 2016-11-17
EP16199405.8A EP3324406A1 (en) 2016-11-17 2016-11-17 Apparatus and method for decomposing an audio signal using a variable threshold
PCT/EP2017/079520 WO2018091618A1 (en) 2016-11-17 2017-11-16 Apparatus and method for decomposing an audio signal using a variable threshold

Publications (2)

Publication Number Publication Date
JP2019537751A true JP2019537751A (ja) 2019-12-26
JP6911117B2 JP6911117B2 (ja) 2021-07-28

Family

ID=57348524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019526480A Active JP6911117B2 (ja) 2016-11-17 2017-11-16 可変閾値を使用してオーディオ信号を分解するための装置および方法

Country Status (11)

Country Link
US (2) US11158330B2 (ja)
EP (2) EP3324406A1 (ja)
JP (1) JP6911117B2 (ja)
KR (1) KR102391041B1 (ja)
CN (1) CN110114827B (ja)
BR (1) BR112019009952A2 (ja)
CA (1) CA3043961C (ja)
ES (1) ES2837007T3 (ja)
MX (1) MX2019005738A (ja)
RU (1) RU2734288C1 (ja)
WO (1) WO2018091618A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10796704B2 (en) 2018-08-17 2020-10-06 Dts, Inc. Spatial audio signal decoder
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
WO2020247033A1 (en) * 2019-06-06 2020-12-10 Dts, Inc. Hybrid spatial audio decoder
CN110930987B (zh) * 2019-12-11 2021-01-08 腾讯科技(深圳)有限公司 音频处理方法、装置和存储介质
CN114097031A (zh) * 2020-06-23 2022-02-25 谷歌有限责任公司 智能背景噪声估计器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
EP1855272A1 (en) * 2006-05-12 2007-11-14 QNX Software Systems (Wavemakers), Inc. Robust noise estimation
JP2008015481A (ja) * 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
WO2009051132A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation 信号処理システムと、その装置、方法及びそのプログラム
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
WO2011049515A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and voice activity detector for a speech encoder

Family Cites Families (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
JP4438144B2 (ja) 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US7472059B2 (en) 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
AU2001276588A1 (en) 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
US7058889B2 (en) * 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
CA2773294C (en) * 2002-05-03 2013-03-12 Harman International Industries, Incorporated Sound detection and localization system
US7567845B1 (en) * 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
KR100908117B1 (ko) 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
EP1604352A4 (en) 2003-03-15 2007-12-19 Mindspeed Tech Inc SINGLE NOISE DELETION MODEL
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
JP4146489B2 (ja) * 2004-05-26 2008-09-10 日本電信電話株式会社 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
DE102005014477A1 (de) 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8249861B2 (en) 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8073148B2 (en) * 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
US8032240B2 (en) 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of processing an audio signal
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
KR101237413B1 (ko) 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
US8898056B2 (en) * 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US9088855B2 (en) * 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
WO2008030104A1 (en) * 2006-09-07 2008-03-13 Lumex As Relative threshold and use of edges in optical character recognition process
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
JP4234746B2 (ja) * 2006-09-25 2009-03-04 株式会社東芝 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム
JP4950733B2 (ja) * 2007-03-30 2012-06-13 株式会社メガチップス 信号処理装置
EP2148321B1 (en) * 2007-04-13 2015-03-25 National Institute of Advanced Industrial Science and Technology Sound source separation system, sound source separation method, and computer program for sound source separation
EP2028651A1 (en) * 2007-08-24 2009-02-25 Sound Intelligence B.V. Method and apparatus for detection of specific input signal contributions
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
BRPI0816556A2 (pt) * 2007-10-17 2019-03-06 Fraunhofer Ges Zur Foerderung Der Angewandten Forsschung E V codificação de áudio usando downmix
US9374453B2 (en) 2007-12-31 2016-06-21 At&T Intellectual Property I, L.P. Audio processing for multi-participant communication systems
CN101981811B (zh) * 2008-03-31 2013-10-23 创新科技有限公司 音频信号的自适应主体-环境分解
US9373339B2 (en) 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
US8630848B2 (en) 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
EP2144171B1 (en) 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US20100138010A1 (en) * 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP3764356A1 (en) 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
EP2535892B1 (en) * 2009-06-24 2014-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
WO2011029048A2 (en) * 2009-09-04 2011-03-10 Massachusetts Institute Of Technology Method and apparatus for audio source separation
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
EP2816560A1 (en) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
US20110099010A1 (en) 2009-10-22 2011-04-28 Broadcom Corporation Multi-channel noise suppression system
EP2546831B1 (en) 2010-03-09 2020-01-15 Mitsubishi Electric Corporation Noise suppression device
US8447595B2 (en) 2010-06-03 2013-05-21 Apple Inc. Echo-related decisions on automatic gain control of uplink speech signal in a communications device
JP5706782B2 (ja) * 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
PT2866228T (pt) * 2011-02-14 2016-08-31 Fraunhofer Ges Forschung Descodificador de áudio que compreende um estimador de ruído de fundo
US8812322B2 (en) 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
EP2788979A4 (en) 2011-12-06 2015-07-22 Intel Corp LOW POWER SPEECH RECOGNITION
WO2013149123A1 (en) 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
EP2880654B1 (en) * 2012-08-03 2017-09-13 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
JP6064566B2 (ja) 2012-12-07 2017-01-25 ヤマハ株式会社 音響処理装置
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9076459B2 (en) * 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
FR3013885B1 (fr) * 2013-11-28 2017-03-24 Audionamix Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
WO2015097831A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 電子機器、制御方法およびプログラム
US9922656B2 (en) * 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
US20150243292A1 (en) * 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
US20150281839A1 (en) * 2014-03-31 2015-10-01 David Bar-On Background noise cancellation using depth
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
CA2948226C (en) * 2014-06-30 2023-09-05 Ventana Medical Systems, Inc. Detecting edges of a nucleus using image analysis
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
FR3031225B1 (fr) 2014-12-31 2018-02-02 Audionamix Procede de separation ameliore et produit programme d'ordinateur
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
EP3079151A1 (en) 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
TWI573133B (zh) 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法
US9747923B2 (en) 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法
MX2018003529A (es) 2015-09-25 2018-08-01 Fraunhofer Ges Forschung Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal.
US9812132B2 (en) 2015-12-31 2017-11-07 General Electric Company Acoustic map command contextualization and device control
WO2017136018A1 (en) 2016-02-05 2017-08-10 Nuance Communications, Inc. Babble noise suppression
US10319390B2 (en) * 2016-02-19 2019-06-11 New York University Method and system for multi-talker babble noise reduction
US9900685B2 (en) * 2016-03-24 2018-02-20 Intel Corporation Creating an audio envelope based on angular information
US9881619B2 (en) * 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
TWI617202B (zh) * 2016-07-14 2018-03-01 晨星半導體股份有限公司 立體音調頻接收器以及雙聲道分離方法
US10482899B2 (en) * 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10210756B2 (en) * 2017-07-24 2019-02-19 Harman International Industries, Incorporated Emergency vehicle alert system
US10504539B2 (en) 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
EP1855272A1 (en) * 2006-05-12 2007-11-14 QNX Software Systems (Wavemakers), Inc. Robust noise estimation
JP2008015481A (ja) * 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
WO2009051132A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation 信号処理システムと、その装置、方法及びそのプログラム
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
WO2011049515A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and voice activity detector for a speech encoder

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MICHAEL M GOODWIN ET AL.: "Frequency-Domain Algorithms for Audio Signal Enhancement Based on Transient Modification", JOURNAL OF THE AUDIO ENGINEERING SOCIETY, JPN7020002655, 1 September 2006 (2006-09-01), pages 827 - 840, ISSN: 0004335898 *

Also Published As

Publication number Publication date
KR20190082928A (ko) 2019-07-10
JP6911117B2 (ja) 2021-07-28
US11869519B2 (en) 2024-01-09
EP3324406A1 (en) 2018-05-23
BR112019009952A2 (pt) 2019-08-20
CN110114827B (zh) 2023-09-29
CA3043961A1 (en) 2018-05-24
ES2837007T3 (es) 2021-06-29
WO2018091618A1 (en) 2018-05-24
RU2734288C1 (ru) 2020-10-14
KR102391041B1 (ko) 2022-04-28
EP3542361A1 (en) 2019-09-25
MX2019005738A (es) 2019-09-11
US20190272836A1 (en) 2019-09-05
US11158330B2 (en) 2021-10-26
US20210295854A1 (en) 2021-09-23
EP3542361B1 (en) 2020-10-28
CN110114827A (zh) 2019-08-09
CA3043961C (en) 2021-08-24

Similar Documents

Publication Publication Date Title
JP6911117B2 (ja) 可変閾値を使用してオーディオ信号を分解するための装置および方法
JP6641018B2 (ja) チャネル間時間差を推定する装置及び方法
US10354634B2 (en) Method and system for denoise and dereverberation in multimedia systems
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
US11183199B2 (en) Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP2030199A1 (en) Linear predictive coding of an audio signal
JP2021519949A (ja) チャネル間時間差を推定するための装置、方法またはコンピュータプログラム
EP2427881A1 (en) Multi channel audio processing
JP2022097514A (ja) 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200831

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201125

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210707

R150 Certificate of patent or registration of utility model

Ref document number: 6911117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150