JP2014508973A - オーディオ信号において卓越周波数を減衰させるための方法および装置 - Google Patents

オーディオ信号において卓越周波数を減衰させるための方法および装置 Download PDF

Info

Publication number
JP2014508973A
JP2014508973A JP2014501033A JP2014501033A JP2014508973A JP 2014508973 A JP2014508973 A JP 2014508973A JP 2014501033 A JP2014501033 A JP 2014501033A JP 2014501033 A JP2014501033 A JP 2014501033A JP 2014508973 A JP2014508973 A JP 2014508973A
Authority
JP
Japan
Prior art keywords
spectral density
frequency
mask
evaluation
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014501033A
Other languages
English (en)
Other versions
JP5774191B2 (ja
Inventor
ニクラス サンドグレーン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2014508973A publication Critical patent/JP2014508973A/ja
Application granted granted Critical
Publication of JP5774191B2 publication Critical patent/JP5774191B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)

Abstract

オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための方法および装置。オーディオ信号の時間部分が取得され、この時間部分のスペクトル密度または「スペクトル」の評価が導出される。評価に平滑化を加えることによって、評価の近似が導出され、この近似を反転させることによって周波数マスクが導出される。次いで、オーディオ時間部分に含まれる周波数が、周波数マスクにもとづいて減衰させられる。この方法および装置は、多帯域のフィルタ処理や、アタックおよびリリース時間の選択を必要としない。

Description

本発明は、オーディオ信号の処理に関し、特にはオーディオ信号において卓越周波数を減衰させるための方法および装置に関する。
スピーチ発生源がマイクロホンによって特定の現場において取得されるオーディオ通信において、得られる信号レベル(振幅)の変化が、かなり大きくなる可能性がある。変化は、スピーチ発生源とマイクロホンとの間の距離、音声の大きさおよび音程の変化、ならびに周囲の環境の影響などといったいくつかの要因に関係しうる。取得されたオーディオ信号がデジタル化されるとき、信号レベルの大きな変化または変動は、信号のオーバーロードおよびクリッピング作用につながる可能性がある。そのような不備により、結果として、取得されたオーディオ信号の適切な事後処理が得られなくなる可能性がある他、偽のデータオーバーロードによってオーディオの再生場所における聴き取りの体験が不快なものになる可能性もある。
これらの不備または欠点を軽減するための一般的な方法は、取得された信号について、対象の信号のよりコンパクトな振幅表現が得られるように、ダイナミックレンジを低減する圧縮を使用することである。典型的な圧縮器は、注意を必要とする信号の振幅を選択するために、予め定められるしきい値を使用する。下方圧縮の場合を考えると、予め定められるしきい値を上回る信号レベルが、所定の減衰係数または減衰比にて小さくされる。
ダイナミックレンジ圧縮(DRC)を、さまざまな計算レベルを必要とするいくつかの方法で実行することができる。減衰係数は、通常は不変の値であるが、一般的には、減衰の時間変化と見ることができる「フェードイン」(アタック)および「フェードアウト」(リリース)時間区間によって平滑化される。圧縮の程度は、周波数に依存する必要はなく、したがって信号中に存在するすべての周波数について一定にすることができ、あるいは種々の周波数帯のついて動的に計算することができる。
時間変化しかつ周波数に依存する減衰を有する最も進んだ下方DRCの方法を考えると、演算の労苦がかなり大きくなる可能性がある。リアルタイムの用途においては、例えば音響エコーの打ち消し(AEC)または雑音の除去などの追加のスピーチ処理アルゴリズムを全帯域の信号(24kHzの帯域幅)の短い時間窓(典型的には、10ms)での圧縮と併せて実行すべき場合(通信において一般的である)に、多帯域分析を得ることができない可能性がある。
さらに、伝統的な時間ドメインにおける振幅の圧縮では、振幅が所定のしきい値を超えるたびに信号が変調されるため、アーチファクトが持ち込まれる。これらの影響を、アタックおよびリリース時間を注意深く選択することによって聞き取られにくくすることができるが、音波の特性は依然として変わってしまう。さらに、圧縮比、しきい値、ならびにアタックおよびリリース時間などといったユーザパラメータの選択が、漠然としており、したがって非自明な仕事である。
変動する信号レベルを有するオーディオ信号について優れた処理を実現することで、上述の先行技術によるオーディオ信号処理の問題を回避することが、望ましいと考えられる。本発明の目的は、上述の問題のうちの少なくとも一部に対処することにある。さらに、本発明の目的は、オーディオ信号の卓越周波数の減衰を可能にするための方法および装置を提供することにある。これらの目的を、添付の独立請求項に記載の方法および装置によって達成することができる。実施の形態が、従属請求項に記載される。
オーディオ圧縮の考え方は、周知であり、実際の用途において広く使用されている。提案される技術の主たる新規性は、パラメータによるものではないスペクトル分析の枠組みにもとづいており、多帯域のフィルタ処理(フィルタバンク)を必要とすることなく周波数に応じた様相で全周波数帯を対象にする点にある。さらに、計算があまり複雑でなく、堅実な結果を生み出す確固とした理論的なサウンドの方法論を使用して行なうことが可能である。
提案される技術は、振幅の傾きに急な変化が存在せず、したがって圧縮の「フェードイン」または「フェードアウト」がなくてもオーディオ信号の特性が保たれるため、アタックおよびリリース時間を選択する必要がない。さらに、圧縮のレベルを、信号の各々の時間フレームについて個別に計算されるがゆえに、時間変化させることができ、完全にデータに依存させることができる。
第1の態様によれば、オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための方法が提供される。この方法は、オーディオ信号の時間部分を取得することと、この時間部分のスペクトル密度または「スペクトル」の評価を導出することとを含む。スペクトル密度の評価に平滑化を加えることによって、評価の近似が導出される。導出された近似を反転させることによって周波数マスクが導出され、次いで周波数マスクにもとづいて、前記オーディオ時間部分に含まれる周波数が減衰させられる。
第2の態様によれば、オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための装置が提供される。この装置は、オーディオ信号の時間部分を取得するように構成された機能ユニットを備える。この装置が、前記時間部分のスペクトル密度の評価を導出するように構成された機能ユニットをさらに備える。さらに装置は、前記スペクトル密度の評価に平滑化を加えることによって前記評価の近似を導出するように構成された機能ユニットと、この近似を反転させることによって周波数マスクを導出するように構成された機能ユニットとを備える。装置は、前記オーディオ時間部分に含まれる周波数を前記周波数マスクにもとづいて減衰させるように構成された機能ユニットをさらに備える。
上述の方法および装置を、種々の実施の形態にて実現することができる。いくつかの実施の形態においては、導出されるスペクトル密度の評価が、ピリオドグラムである。いくつかの実施の形態においては、前記平滑化が、スペクトル密度の評価のケプストラム係数を導出し、振幅の絶対値が特定のしきい値を下回るケプストラム係数または予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くケプストラム分析を含む。
いくつかの実施の形態においては、周波数マスクが、1という最大利得を有するように設定され、すなわち周波数マスクが使用されるときにいかなる周波数も増幅されない。周波数マスクの最大減衰を、特定のレベルに予め定めることができ、あるいは周波数マスクにおいて、前記評価および平滑化されたスペクトル密度を、前記評価された平滑化前のスペクトル密度によって正規化することができる。減衰は、周波数ドメインにおいて前記スペクトル密度の評価に前記周波数マスクを乗算すること、またはFIRフィルタを前記周波数マスクにもとづいて設定し、時間ドメインにおいて前記オーディオ信号時間部分について使用することを含むことができる。
上述の実施の形態は、主として方法に関して説明されている。しかしながら、上述の説明は、上述の特徴の実行を可能にするように構成された装置の実施の形態も包含する。上記例示の実施の形態の種々の特徴を、必要、要件、または好みに応じてさまざまな方法で組み合わせることが可能である。
次に、本発明を、例示の実施の形態によって、添付の図面を参照してさらに詳しく説明する。
典型的な実施の形態によるオーディオ信号部分のスペクトル密度の評価(実線)および平滑化されたスペクトル密度の評価(破線)を示している。 典型的な実施の形態による平滑化されたスペクトル密度の評価にもとづく周波数マスクを示している。 典型的な実施の形態によるオーディオ処理エンティティにおける手順を説明する流れ図である。 典型的な実施の形態によるオーディオ処理エンティティにおけるそれぞれの装置を説明するブロック図である。 典型的な実施の形態によるオーディオ処理エンティティにおけるそれぞれの装置を説明するブロック図である。
要約すると、振幅の圧縮が、オーディオ信号の最も卓越した周波数において実行される。最も卓越した周波数を、周波数ドメインにおいてスペクトル分析を使用することによって検出することができる。信号全体の振幅が特定のしきい値を超えて大きくなる場合に圧縮を実行する代わりに、卓越周波数の利得を下げ、すなわち減衰させることによって、サウンドの正弦波特性を失われないようにすることができる。加えられる利得(すなわち、すべての周波数について0〜1の間の値である場合には減衰)は、自動のデータ依存の方法で決定される。
オーディオ信号が、特定のサンプリングレート(f)で時間においてデジタル的にサンプリングされると仮定する。事後処理および伝送の理由で、サンプリングされた信号は、長さNの時間部分または「フレーム」へと分割される。そのような1つのフレームにおけるデータを、以下ではy(k=0,2,・・・,N−1)と称する。
例えばフーリエ解析、特には高速フーリエ変換(FFT)を使用して、データyについてピリオドグラムなどのスペクトル密度の評価Φρ
Figure 2014508973

と得ることができ、ここで
Figure 2014508973

はフーリエ格子点である。
典型的には、オーディオ信号のピリオドグラムは、一貫性のない挙動を有する。これを、ピリオドグラムを細い実線で示している図1に見て取ることができる。ピリオドグラムなどのスペクトル情報を、どこで信号の圧縮を実行すべきかについての事前知識として使用することは、信号中のほぼすべての有用な情報を減衰させてしまうと考えられるため、あまり直観的でなく、賢明でない。
しかしながら、かなりの平滑化を生じさせ、したがって細部および鋭いピークを除きつつスペクトルの「ベースライン」を評価する技術を、卓越周波数の位置についての事前情報として使用することにより、邪魔なアーチファクトを持ち込むことなくこれらの該当の周波数において圧縮を実行することができることが、今や明らかになった。ピリオドグラムの平滑な評価を計算するために、ケプストラムしきい値処理を含む技術が使用されているが、滑らかなスペクトル密度の評価の実現に適した他の代替の技術も、使用可能である。
数列
Figure 2014508973

が、信号yに関するケプストラムまたはケプストラム係数として周知であり、ここで
Figure 2014508973

である。さらに、N個のケプストラム係数の多くが、典型的には小さな値をとることが知られている。したがって、これらの係数を理論的にサウンドの方法([1]および[2]を参照)でゼロへとしきい値処理し、あるいは断ち落とすことによって、(1)の滑らかな評価を
Figure 2014508973

として得ることができ、ここで
Figure 2014508973

であり、ならびにここで
Figure 2014508973

は正規化定数である。(4)において、数列
Figure 2014508973

は、しきい値処理され、あるいは断ち落とされた(2)の数列cに相当する。
48kHzでサンプリングされたスピーチ信号の典型的な10msの時間フレーム(の周波数成分)を示している図1において、[1]のケプストラムしきい値処理アルゴリズムを使用して得られた平滑化後のスペクトル密度の評価が、太い破線として示されている。明らかに、破線は、実線の詳細の正確な評価ではなく、それ故に、上述の目的に非常にうまく機能する。最高のスペクトルパワーを有する周波数が、粗く評価され、「なだらかなベースライン」がもたらされている。
図1の平滑化されたスペクトル密度の評価(破線)の反転を、どの周波数において圧縮が必要であるかについての情報を含む周波数マスクとして使用することができる。平滑化されたスペクトル密度の評価(破線)が、スペクトル密度の評価(実線)の正確な評価であり、すなわち平滑化が存在せず、あるいはきわめて限られているならば、それを信号フレームのための周波数マスクとして使用すると、きわめて芳しくない実質的に無用の結果がもたらされると考えられる。
周波数マスクが1という最大の利得値を有するとすると、いかなる周波数においても信号の増幅が行なわれないことを保証できる。最大の減衰に対応する周波数マスクの最小の利得値を、卓越周波数に既知の値の減衰が「常に」加えられることを保証するための予め設定されたレベル(5)に設定することができる。あるいは、最大の圧縮または減衰のレベルを、例えばピリオドグラムなどの平滑化されていないスペクトル密度の評価の最大値を用いて平滑化後のスペクトル密度の評価を正規化することによって、自動的な方法(6)で設定することができる。
Figure 2014508973

Figure 2014508973

ここで、p=0,2,・・・,N−1。
図2は、図1において考えた信号フレームに関して、いかなるパラメータも選択する必要がないがゆえに完全に自動的に(6)を使用して得られた周波数マスクを示す。(3)の計算も、スペクトル密度の評価が一貫性のない挙動を有するときにより小さなパラメータ値が選択され、スペクトル密度の評価がそれなりに一貫性のある挙動を有するときにはより大きなパラメータ値が選択されるよう、ケプストラム振幅しきい値[1][2]の値に関するパラメータの些細な選択が必要になる可能性があったとしても、自動的であると考えることができる。オーディオ信号の場合には、パラメータを、一定の値に予め定めることができる。
(6)を使用して得られる圧縮のレベルが、特定の筋書きにおいて不充分である場合には、(5)を使用して、λを0〜1の間の所望の値にすることが可能である。
次いで、フィルタマスクが、圧縮済みのデータセット、例えば
Figure 2014508973

を計算するために周波数ドメインにおいて評価によるスペクトル密度との直接の乗算によって使用され、あるいは例えば時間ドメインにおいてyへと適用することができる有限インパルス応答(FIR)フィルタの設計のための入力として使用される。
[典型的な手順、図3]
次に、オーディオ信号の時間部分の卓越周波数を減衰させる手順の典型的な実施の形態を、図3を参照して説明する。この手順を、例えばテレビ会議システムにおけるノードならびに/あるいは無線または有線通信システムにおけるノードまたは端末、オーディオ放送に関係するノード、もしくは音楽プロダクションにおいて使用されるエンティティまたは装置などのオーディオ処理エンティティにおいて実行することができる。
オーディオ信号の時間部分が、動作302において得られる。オーディオ信号を、マイクロホンなどによって取得され、或るサンプリング周波数でサンプリングされると仮定する。オーディオ信号は、例えばテレビ会議または何らかの他の種類の通信セッションに参加している1人以上の話し手が生じさせるスピーチを含むことができる。時間部分は、例えば約10msであってよく、あるいは信号処理に適した任意の他の長さであってよい。
導出された時間部分のスペクトル密度の(周波数ドメインにおける)評価が、動作304において得られる。この評価は、例えばピリオドグラムであってよく、例えばFFTなどのフーリエ変換法の使用によって導出することができる。評価されたスペクトル密度の近似が、動作306において、スペクトル密度の評価に平滑化を加えることによって導出される。近似は、或る程度「粗く」なければならず、すなわち例えばスピーチまたは音楽などのオーディオ信号(図1を参照)において典型的には一定でないスペクトル密度の評価にきわめて近くてはならない。近似を、例えばケプストラムしきい値処理アルゴリズムを使用し、特定のしきい値を下回る振幅の絶対値を有するケプストラム係数を(ケプストラムドメインにおいて)取り除き、あるいは予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くことによって、導出することができる。
周波数マスクが、動作308において、スペクトル密度の評価について導出された近似から、この導出された近似(すなわち、平滑化されたスペクトル密度の評価)を反転させることによって導出される。次いで、周波数マスクが、動作310において信号の時間部分に含まれる周波数を減衰させるために使用または適用される。減衰は、周波数ドメインにおいて評価によるスペクトル密度に周波数マスクを乗算することを含むことができ、あるいはFIRフィルタを周波数マスクにもとづいて設定し、このFIRフィルタを時間ドメインにおいてオーディオ信号の時間部分に使用することができる。
周波数マスクを、さまざまな方法で設定することができる。例えば、周波数マスクの最大利得を1に設定し、周波数マスクにもとづいて処理されたときに信号のいかなる周波数も増幅されることがないように保証することができる。さらに、周波数マスクの最大減衰(最小利得)を特定のレベルに予め定めることができ、あるいは周波数マスクにおいて、平滑化後のスペクトル密度の評価を平滑化前のスペクトル密度の評価によって正規化することができる。
[典型的な装置、図4]
以下で、オーディオ信号の時間部分における卓越周波数の減衰に関する上述の手順の実行を可能にするように構成された典型的な装置400を、図4を参照して説明する。装置は、通信システムにおけるオーディオ処理エンティティ401に位置するものとして示されている。オーディオ処理エンティティは、例えばテレビ会議システムにおけるノードまたは端末ならびに/あるいは無線または有線通信システムにおけるノードまたは端末、オーディオ放送に関係するノード、もしくは音楽プロダクションにおいて使用されるエンティティまたは装置であってよい。さらに、装置400は、通信ユニット402(無線および/または有線通信のための伝統的な手段を備えると考えてよい)を介して他のエンティティと通信するものとして示されている。装置および/またはオーディオ処理エンティティは、他の通例の機能ユニット416および1つ以上の記憶ユニット414をさらに備えることができる。
装置400は、オーディオ信号の時間部分を得るように構成された取得ユニット404を備える。オーディオ信号は、例えばテレビ会議または何らかの他の種類の通信セッションに参加している1人以上の話し手が生じさせるスピーチを含むことができる。例えば、10msの時間区間を表わす連続的なサンプルの組を取得することができる。オーディオ信号は、マイクロホンなどによって取得され、或るサンプリング周波数でサンプリングされていると仮定される。オーディオ信号は、取得ユニット404によって、あるいはオーディオ処理エンティティ401の他の機能ユニットによって、もしくは他のノードまたはエンティティにて、取得および/またはサンプリングされていてよい。
装置は、時間部分のスペクトル密度の評価を導出するように構成された評価ユニット406をさらに備える。ユニット406を、例えばピリオドグラムを例えばFFTなどのフーリエ変換法を使用することによって導出するように構成することができる。さらに、装置は、スペクトル密度の評価に平滑化を加えることによって評価の近似を導出するように構成された平滑化ユニット408を備える。近似は、或る程度「粗く」なければならず、すなわち例えばスピーチまたは音楽などのオーディオ信号(図1を参照)において典型的には一定でないスペクトル密度の評価にあまり近くてはならない。平滑化ユニット408を、ケプストラムしきい値処理アルゴリズムを使用し、特定のしきい値を下回る振幅の絶対値を有するケプストラム係数を(ケプストラムドメインにおいて)取り除き、あるいは予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くことによって、平滑化されたスペクトル密度の評価を得るように構成することができる。
装置400は、スペクトル密度の評価の近似を反転させることによって周波数マスクを導出するように構成されたマスクユニット410をさらに備える。マスクユニット410を、周波数マスクの最大利得を1に設定することによっていかなる周波数も増幅されないように保証するように構成することができる。さらに、マスクユニット410を、周波数マスクの最大減衰を特定の予め定められるレベルに設定し、あるいは周波数マスクの導出時に平滑化後のスペクトル密度の評価を平滑化前のスペクトル密度の評価によって正規化するように、構成することができる。
さらに、装置は、周波数マスクにもとづいてオーディオ時間部分に含まれる周波数を減衰させるように構成された減衰ユニット412を備える。減衰ユニット412を、例えば周波数ドメインにおいて評価によるスペクトル密度に周波数マスクを乗算するように構成でき、あるいはFIRフィルタを周波数マスクにもとづいて設定し、このFIRフィルタを使用して、時間ドメインにおいてオーディオ信号の時間部分をフィルタ処理するように構成することができる。
[別の典型的な装置、図5]
図5が、オーディオ処理エンティティにおける別の装置500を示しており、コンピュータプログラム510がプロセッサ506へと接続されたコンピュータプログラム製品508によって保持されている。コンピュータプログラム製品508は、コンピュータプログラム510を保存したコンピュータにとって読み取り可能な媒体を備えている。コンピュータプログラム510を、コンピュータプログラムモジュールに構造化されたコンピュータプログラムコードとして構成することができる。したがって、説明される典型的な実施の形態においては、コンピュータプログラム510のコード手段が、オーディオ信号の時間部分を取得するための取得モジュール510aを含む。コンピュータプログラムは、時間部分のスペクトル密度の評価を導出するための評価モジュール510bをさらに備える。さらに、コンピュータプログラム510は、スペクトル密度の評価に平滑化を加えることによって評価の近似を導出する平滑化モジュール510cと、このスペクトル密度の評価の近似を反転させることによって周波数マスクを導出するマスクモジュール510dとを備える。コンピュータプログラムは、周波数マスクにもとづいてオーディオ時間部分に含まれる周波数を減衰させる減衰モジュール510eをさらに備える。
モジュール510a〜eは、基本的には、図4に示したオーディオ処理エンティティの装置を模擬するように、図3に示した流れの各動作を実行することができる。換言すると、種々のモジュール510a〜eが、処理ユニット506において実行されるときに、図4のユニット404〜412のそれぞれの機能に対応する。例えば、コンピュータプログラム製品は、フラッシュメモリ、RAM(ランダムアクセスメモリ)、ROM(読み出し専用メモリ)、またはEEPROM(電子的に消去可能なプログラマブルROM)であってよく、コンピュータプログラムモジュール510a〜eを、別の実施の形態においては、装置500および/または送受信ノード内のメモリの形態の別々のコンピュータプログラム製品に分散させることができる。プロセッサへと接続されたユニット502および504は、例えば入力および出力などの通信ユニットを表わしている。ユニット502およびユニット504を、一体のエンティティとして構成してもよい。
図5に関連して上記で開示した実施の形態におけるコード手段は、処理ユニットにおいて実行されたときに装置および/または送受信ノードに上述の図に関連して上述した動作を実行させるコンピュータプログラムモジュールとして実現されているが、コード手段のうちの少なくとも1つを、別の実施の形態においては、少なくとも部分的にハードウェア回路として実現してもよい。
相互に作用するユニットまたはモジュールの選択ならびにユニットの名称が、あくまでも例示の目的のためのものにすぎず、上述した方法のいずれかの実行に適したネットワークノードを、上記提案のプロセスの動作を実行できるように、複数の選択肢としての方法にて構成できることに、注意すべきである。
また、本明細書において説明されたユニットまたはモジュールを、論理的なエンティティとして考えるべきであり、必ずしも別々の物理的なエンティティと考えるべきではないことに、注意すべきである。
略語
AEC 音響エコー制御
DRC ダイナミックレンジ圧縮
FIR 有限長インパルス応答
FFT 高速フーリエ変換
参考文献
[1]Stoica,P.,Sandgren,N.Smoothed Nonparametric Spectral Estimation via Cepstrum Thresholding.IEEE Sign.Proc.Mag.2006.
[2]Stoica,P.,Sandgren,N.Total Variance Reduction via Thresholding:Application to Cepstral Analysis. IEEE Trans.Sign.Proc.2007

Claims (16)

  1. オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための方法であって、前記方法は、
    オーディオ信号の時間部分を取得することと、
    前記時間部分のスペクトル密度の評価を導出することと、
    前記スペクトル密度の評価に平滑化を加えることによって、前記評価の近似を導出することと、
    前記スペクトル密度の評価の近似を反転させることによって、周波数マスクを導出することと、
    前記オーディオ時間部分に含まれる周波数を前記周波数マスクにもとづいて減衰させることと、
    を含む方法。
  2. 前記平滑化が、
    前記スペクトル密度の評価のケプストラム係数を導出すること
    を含み、さらに
    振幅の絶対値が特定のしきい値を下回るケプストラム係数を取り除くこと、および
    予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くこと
    の少なくとも一方を含む請求項1に記載の方法。
  3. 前記周波数マスクが、1という最大利得を有するように構成されている請求項1または2に記載の方法。
  4. 前記周波数マスクの最大減衰が、特定のレベルに予め定められる請求項1乃至3のいずれか一項に記載の方法。
  5. 前記周波数マスクFが、
    Figure 2014508973

    と定められ、ここで、λは0<λ<1であり、p=0,・・・,N−1であり、Nは前記オーディオ信号時間部分のサンプルの数であり、
    Figure 2014508973

    は評価および平滑化されたスペクトル密度である請求項1乃至4のいずれか一項に記載の方法。
  6. 前記周波数マスクにおいて、前記評価および平滑化されたスペクトル密度が、前記評価された平滑化前のスペクトル密度によって正規化されている請求項1乃至3のいずれか一項に記載の方法。
  7. 前記周波数マスクFが、
    Figure 2014508973

    と定められ、ここで、p=0,・・・,N−1であり、Nは前記オーディオ信号時間部分のサンプルの数であり、Φρは前記評価されたスペクトル密度であり、
    Figure 2014508973

    は前記評価および平滑化されたスペクトル密度である請求項1乃至3または6のいずれか一項に記載の方法。
  8. 前記信号部分の前記スペクトル密度の評価が、ピリオドグラムである請求項1乃至7のいずれか一項に記載の方法。
  9. 前記減衰が、
    周波数ドメインにおいて前記スペクトル密度の評価に前記周波数マスクを乗算すること、および
    FIRフィルタを前記周波数マスクにもとづいて設定し、時間ドメインにおいて前記オーディオ信号時間部分について使用すること
    の少なくとも一方を含む請求項1乃至8のいずれか一項に記載の方法。
  10. オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための装置であって、前記装置は、
    オーディオ信号の時間部分を取得するように構成された取得ユニットと、
    前記時間部分のスペクトル密度の評価を導出するように構成された評価ユニットと、
    前記スペクトル密度の評価に平滑化を加えることによって、前記評価の近似を導出するように構成された平滑化ユニットと、
    前記スペクトル密度の評価の近似を反転させることによって、周波数マスクを導出するように構成されたマスクユニットと、
    前記オーディオ時間部分に含まれる周波数を前記周波数マスクにもとづいて減衰させるように構成された減衰ユニットと
    を含む装置。
  11. 前記平滑化ユニットが、前記スペクトル密度の評価のケプストラム係数を導出し、所定の規則に従ってケプストラム係数を取り除くように構成されている請求項10に記載の装置。
  12. 前記所定の規則が、
    振幅の絶対値が特定のしきい値を下回るケプストラム係数を取り除くこと、および
    予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くこと
    の一方を含む請求項11に記載の装置。
  13. 前記マスクユニットが、前記周波数マスクの最大利得を1に設定するように構成されている請求項10乃至12のいずれか一項に記載の装置。
  14. 前記マスクユニットが、前記周波数マスクの最大減衰を特定の予め定められるレベルに設定するように構成されている請求項10乃至13のいずれか一項に記載の装置。
  15. 前記マスクユニットが、前記評価および平滑化されたスペクトル密度を前記評価された平滑化前のスペクトル密度によって正規化するように構成されている請求項10乃至13のいずれか一項に記載の装置。
  16. 前記減衰ユニットが、
    周波数ドメインにおいて前記スペクトル密度の評価に前記周波数マスクを乗算すること、および
    FIRフィルタを前記周波数マスクにもとづいて設定し、時間ドメインにおいて前記オーディオ信号時間部分について使用すること
    の少なくとも一方を行なうように構成されている請求項10乃至15のいずれか一項に記載の装置。
JP2014501033A 2011-03-21 2011-03-21 オーディオ信号において卓越周波数を減衰させるための方法および装置 Expired - Fee Related JP5774191B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2011/050306 WO2012128678A1 (en) 2011-03-21 2011-03-21 Method and arrangement for damping of dominant frequencies in an audio signal

Publications (2)

Publication Number Publication Date
JP2014508973A true JP2014508973A (ja) 2014-04-10
JP5774191B2 JP5774191B2 (ja) 2015-09-09

Family

ID=46877377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014501033A Expired - Fee Related JP5774191B2 (ja) 2011-03-21 2011-03-21 オーディオ信号において卓越周波数を減衰させるための方法および装置

Country Status (6)

Country Link
US (1) US9065409B2 (ja)
EP (1) EP2689418B1 (ja)
JP (1) JP5774191B2 (ja)
MY (1) MY167843A (ja)
TW (1) TWI594232B (ja)
WO (1) WO2012128678A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2514422A (en) * 2013-05-24 2014-11-26 Alien Audio Ltd Improvements in audio systems
US9275136B1 (en) * 2013-12-03 2016-03-01 Google Inc. Method for siren detection based on audio samples
EP3089364B1 (en) 2015-05-01 2019-01-16 Nxp B.V. A gain function controller
EP3171614B1 (en) 2015-11-23 2020-11-04 Goodix Technology (HK) Company Limited A controller for an audio system
US11727926B1 (en) * 2020-09-18 2023-08-15 Amazon Technologies, Inc. Systems and methods for noise reduction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63259696A (ja) * 1987-04-02 1988-10-26 マサチューセッツ・インスティテュート・オブ・テクノロジー 音声予処理方法および装置
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
JP2007243856A (ja) * 2006-03-13 2007-09-20 Yamaha Corp マイクロホンユニット
JP2008076676A (ja) * 2006-09-20 2008-04-03 Fujitsu Ltd 音信号処理方法、音信号処理装置及びコンピュータプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3193032B2 (ja) * 1989-12-05 2001-07-30 パイオニア株式会社 車載用自動音量調整装置
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US6459914B1 (en) * 1998-05-27 2002-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
US7574010B2 (en) * 2004-05-28 2009-08-11 Research In Motion Limited System and method for adjusting an audio signal
NO324318B1 (no) * 2005-04-29 2007-09-24 Tandberg Telecom As Fremgangsmate og anordning for stoydeteksjon.
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
DE102007030209A1 (de) * 2007-06-27 2009-01-08 Siemens Audiologische Technik Gmbh Glättungsverfahren
JP5089295B2 (ja) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
US8041325B2 (en) * 2007-12-10 2011-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Speed-based, hybrid parametric/non-parametric equalization
WO2010027509A1 (en) * 2008-09-05 2010-03-11 Sourcetone, Llc Music classification system and method
EP2209117A1 (en) * 2009-01-14 2010-07-21 Siemens Medical Instruments Pte. Ltd. Method for determining unbiased signal amplitude estimates after cepstral variance modification
US8892050B2 (en) * 2009-08-18 2014-11-18 Qualcomm Incorporated Sensing wireless communications in television frequency bands

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63259696A (ja) * 1987-04-02 1988-10-26 マサチューセッツ・インスティテュート・オブ・テクノロジー 音声予処理方法および装置
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
JP2007243856A (ja) * 2006-03-13 2007-09-20 Yamaha Corp マイクロホンユニット
JP2008076676A (ja) * 2006-09-20 2008-04-03 Fujitsu Ltd 音信号処理方法、音信号処理装置及びコンピュータプログラム

Also Published As

Publication number Publication date
WO2012128678A1 (en) 2012-09-27
US9065409B2 (en) 2015-06-23
TWI594232B (zh) 2017-08-01
MY167843A (en) 2018-09-26
TW201246193A (en) 2012-11-16
US20120243706A1 (en) 2012-09-27
EP2689418A1 (en) 2014-01-29
EP2689418B1 (en) 2017-10-25
JP5774191B2 (ja) 2015-09-09
EP2689418A4 (en) 2014-08-27

Similar Documents

Publication Publication Date Title
US10891931B2 (en) Single-channel, binaural and multi-channel dereverberation
CN110536215B (zh) 音频信号处理的方法、装置、计算设置及存储介质
US10210883B2 (en) Signal processing apparatus for enhancing a voice component within a multi-channel audio signal
KR102132500B1 (ko) 조화성 기반 단일 채널 음성 품질 추정 기법
JP6793706B2 (ja) 音声信号を検出するための方法および装置
EP2689419B1 (en) Method and arrangement for damping dominant frequencies in an audio signal
JP5774191B2 (ja) オーディオ信号において卓越周波数を減衰させるための方法および装置
CN113766073A (zh) 会议系统中的啸叫检测
CN104981870B (zh) 声音增强装置
US20230267947A1 (en) Noise reduction using machine learning
CN112309414A (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
CN112565981A (zh) 啸叫抑制方法、装置、助听器及存储介质
EP2943954B1 (en) Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
CN106847299B (zh) 延时的估计方法及装置
CN108806711A (zh) 一种提取方法及装置
EP3896999A1 (en) Systems and methods for a hearing assistive device
CN112312258B (zh) 一种具有听力防护及听力补偿的智能耳机
JP2004061567A (ja) ノイズキャンセラ
CN116072133A (zh) 一种低音增强方法、装置和音频输出设备
CN116312586A (zh) 一种降噪方法、装置、终端和存储介质
JP2015004959A (ja) 音響処理装置
CN114333880A (zh) 一种信号处理方法、装置、设备及存储介质
Koria Real-Time Adaptive Audio Mixing System Using Inter-Spectral Dependencies
Saracut et al. HUMAN AUDIOGRAM FIR MODELING WITH MATLAB TOOLKITS
SĂRĂCUŢ et al. HUMAN AUDIOGRAM FIR MODELING WITH MATLAB TOOLKITS.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150630

R150 Certificate of patent or registration of utility model

Ref document number: 5774191

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees