JP2014508973A

JP2014508973A - オーディオ信号において卓越周波数を減衰させるための方法および装置

Info

Publication number: JP2014508973A
Application number: JP2014501033A
Authority: JP
Inventors: ニクラスサンドグレーン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2011-03-21
Filing date: 2011-03-21
Publication date: 2014-04-10
Anticipated expiration: 2031-03-21
Also published as: WO2012128678A1; US9065409B2; TWI594232B; MY167843A; TW201246193A; US20120243706A1; EP2689418A1; EP2689418B1; JP5774191B2; EP2689418A4

Abstract

オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための方法および装置。オーディオ信号の時間部分が取得され、この時間部分のスペクトル密度または「スペクトル」の評価が導出される。評価に平滑化を加えることによって、評価の近似が導出され、この近似を反転させることによって周波数マスクが導出される。次いで、オーディオ時間部分に含まれる周波数が、周波数マスクにもとづいて減衰させられる。この方法および装置は、多帯域のフィルタ処理や、アタックおよびリリース時間の選択を必要としない。

Description

本発明は、オーディオ信号の処理に関し、特にはオーディオ信号において卓越周波数を減衰させるための方法および装置に関する。

スピーチ発生源がマイクロホンによって特定の現場において取得されるオーディオ通信において、得られる信号レベル（振幅）の変化が、かなり大きくなる可能性がある。変化は、スピーチ発生源とマイクロホンとの間の距離、音声の大きさおよび音程の変化、ならびに周囲の環境の影響などといったいくつかの要因に関係しうる。取得されたオーディオ信号がデジタル化されるとき、信号レベルの大きな変化または変動は、信号のオーバーロードおよびクリッピング作用につながる可能性がある。そのような不備により、結果として、取得されたオーディオ信号の適切な事後処理が得られなくなる可能性がある他、偽のデータオーバーロードによってオーディオの再生場所における聴き取りの体験が不快なものになる可能性もある。

これらの不備または欠点を軽減するための一般的な方法は、取得された信号について、対象の信号のよりコンパクトな振幅表現が得られるように、ダイナミックレンジを低減する圧縮を使用することである。典型的な圧縮器は、注意を必要とする信号の振幅を選択するために、予め定められるしきい値を使用する。下方圧縮の場合を考えると、予め定められるしきい値を上回る信号レベルが、所定の減衰係数または減衰比にて小さくされる。

ダイナミックレンジ圧縮（ＤＲＣ）を、さまざまな計算レベルを必要とするいくつかの方法で実行することができる。減衰係数は、通常は不変の値であるが、一般的には、減衰の時間変化と見ることができる「フェードイン」（アタック）および「フェードアウト」（リリース）時間区間によって平滑化される。圧縮の程度は、周波数に依存する必要はなく、したがって信号中に存在するすべての周波数について一定にすることができ、あるいは種々の周波数帯のついて動的に計算することができる。

時間変化しかつ周波数に依存する減衰を有する最も進んだ下方ＤＲＣの方法を考えると、演算の労苦がかなり大きくなる可能性がある。リアルタイムの用途においては、例えば音響エコーの打ち消し（ＡＥＣ）または雑音の除去などの追加のスピーチ処理アルゴリズムを全帯域の信号（２４ｋＨｚの帯域幅）の短い時間窓（典型的には、１０ｍｓ）での圧縮と併せて実行すべき場合（通信において一般的である）に、多帯域分析を得ることができない可能性がある。

さらに、伝統的な時間ドメインにおける振幅の圧縮では、振幅が所定のしきい値を超えるたびに信号が変調されるため、アーチファクトが持ち込まれる。これらの影響を、アタックおよびリリース時間を注意深く選択することによって聞き取られにくくすることができるが、音波の特性は依然として変わってしまう。さらに、圧縮比、しきい値、ならびにアタックおよびリリース時間などといったユーザパラメータの選択が、漠然としており、したがって非自明な仕事である。

変動する信号レベルを有するオーディオ信号について優れた処理を実現することで、上述の先行技術によるオーディオ信号処理の問題を回避することが、望ましいと考えられる。本発明の目的は、上述の問題のうちの少なくとも一部に対処することにある。さらに、本発明の目的は、オーディオ信号の卓越周波数の減衰を可能にするための方法および装置を提供することにある。これらの目的を、添付の独立請求項に記載の方法および装置によって達成することができる。実施の形態が、従属請求項に記載される。

オーディオ圧縮の考え方は、周知であり、実際の用途において広く使用されている。提案される技術の主たる新規性は、パラメータによるものではないスペクトル分析の枠組みにもとづいており、多帯域のフィルタ処理（フィルタバンク）を必要とすることなく周波数に応じた様相で全周波数帯を対象にする点にある。さらに、計算があまり複雑でなく、堅実な結果を生み出す確固とした理論的なサウンドの方法論を使用して行なうことが可能である。

提案される技術は、振幅の傾きに急な変化が存在せず、したがって圧縮の「フェードイン」または「フェードアウト」がなくてもオーディオ信号の特性が保たれるため、アタックおよびリリース時間を選択する必要がない。さらに、圧縮のレベルを、信号の各々の時間フレームについて個別に計算されるがゆえに、時間変化させることができ、完全にデータに依存させることができる。

第１の態様によれば、オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための方法が提供される。この方法は、オーディオ信号の時間部分を取得することと、この時間部分のスペクトル密度または「スペクトル」の評価を導出することとを含む。スペクトル密度の評価に平滑化を加えることによって、評価の近似が導出される。導出された近似を反転させることによって周波数マスクが導出され、次いで周波数マスクにもとづいて、前記オーディオ時間部分に含まれる周波数が減衰させられる。

第２の態様によれば、オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための装置が提供される。この装置は、オーディオ信号の時間部分を取得するように構成された機能ユニットを備える。この装置が、前記時間部分のスペクトル密度の評価を導出するように構成された機能ユニットをさらに備える。さらに装置は、前記スペクトル密度の評価に平滑化を加えることによって前記評価の近似を導出するように構成された機能ユニットと、この近似を反転させることによって周波数マスクを導出するように構成された機能ユニットとを備える。装置は、前記オーディオ時間部分に含まれる周波数を前記周波数マスクにもとづいて減衰させるように構成された機能ユニットをさらに備える。

上述の方法および装置を、種々の実施の形態にて実現することができる。いくつかの実施の形態においては、導出されるスペクトル密度の評価が、ピリオドグラムである。いくつかの実施の形態においては、前記平滑化が、スペクトル密度の評価のケプストラム係数を導出し、振幅の絶対値が特定のしきい値を下回るケプストラム係数または予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くケプストラム分析を含む。

いくつかの実施の形態においては、周波数マスクが、１という最大利得を有するように設定され、すなわち周波数マスクが使用されるときにいかなる周波数も増幅されない。周波数マスクの最大減衰を、特定のレベルに予め定めることができ、あるいは周波数マスクにおいて、前記評価および平滑化されたスペクトル密度を、前記評価された平滑化前のスペクトル密度によって正規化することができる。減衰は、周波数ドメインにおいて前記スペクトル密度の評価に前記周波数マスクを乗算すること、またはＦＩＲフィルタを前記周波数マスクにもとづいて設定し、時間ドメインにおいて前記オーディオ信号時間部分について使用することを含むことができる。

上述の実施の形態は、主として方法に関して説明されている。しかしながら、上述の説明は、上述の特徴の実行を可能にするように構成された装置の実施の形態も包含する。上記例示の実施の形態の種々の特徴を、必要、要件、または好みに応じてさまざまな方法で組み合わせることが可能である。
次に、本発明を、例示の実施の形態によって、添付の図面を参照してさらに詳しく説明する。

典型的な実施の形態によるオーディオ信号部分のスペクトル密度の評価（実線）および平滑化されたスペクトル密度の評価（破線）を示している。典型的な実施の形態による平滑化されたスペクトル密度の評価にもとづく周波数マスクを示している。典型的な実施の形態によるオーディオ処理エンティティにおける手順を説明する流れ図である。典型的な実施の形態によるオーディオ処理エンティティにおけるそれぞれの装置を説明するブロック図である。典型的な実施の形態によるオーディオ処理エンティティにおけるそれぞれの装置を説明するブロック図である。

要約すると、振幅の圧縮が、オーディオ信号の最も卓越した周波数において実行される。最も卓越した周波数を、周波数ドメインにおいてスペクトル分析を使用することによって検出することができる。信号全体の振幅が特定のしきい値を超えて大きくなる場合に圧縮を実行する代わりに、卓越周波数の利得を下げ、すなわち減衰させることによって、サウンドの正弦波特性を失われないようにすることができる。加えられる利得（すなわち、すべての周波数について０〜１の間の値である場合には減衰）は、自動のデータ依存の方法で決定される。

オーディオ信号が、特定のサンプリングレート（ｆ_ｓ）で時間においてデジタル的にサンプリングされると仮定する。事後処理および伝送の理由で、サンプリングされた信号は、長さＮの時間部分または「フレーム」へと分割される。そのような１つのフレームにおけるデータを、以下ではｙ_ｋ（ｋ＝０，２，・・・，Ｎ−１）と称する。

例えばフーリエ解析、特には高速フーリエ変換（ＦＦＴ）を使用して、データｙ_ｋについてピリオドグラムなどのスペクトル密度の評価Φ_ρを

と得ることができ、ここで

はフーリエ格子点である。

典型的には、オーディオ信号のピリオドグラムは、一貫性のない挙動を有する。これを、ピリオドグラムを細い実線で示している図１に見て取ることができる。ピリオドグラムなどのスペクトル情報を、どこで信号の圧縮を実行すべきかについての事前知識として使用することは、信号中のほぼすべての有用な情報を減衰させてしまうと考えられるため、あまり直観的でなく、賢明でない。

しかしながら、かなりの平滑化を生じさせ、したがって細部および鋭いピークを除きつつスペクトルの「ベースライン」を評価する技術を、卓越周波数の位置についての事前情報として使用することにより、邪魔なアーチファクトを持ち込むことなくこれらの該当の周波数において圧縮を実行することができることが、今や明らかになった。ピリオドグラムの平滑な評価を計算するために、ケプストラムしきい値処理を含む技術が使用されているが、滑らかなスペクトル密度の評価の実現に適した他の代替の技術も、使用可能である。

数列

が、信号ｙ_ｋに関するケプストラムまたはケプストラム係数として周知であり、ここで

である。さらに、Ｎ個のケプストラム係数の多くが、典型的には小さな値をとることが知られている。したがって、これらの係数を理論的にサウンドの方法（［１］および［２］を参照）でゼロへとしきい値処理し、あるいは断ち落とすことによって、（１）の滑らかな評価を

として得ることができ、ここで

であり、ならびにここで

は正規化定数である。（４）において、数列

は、しきい値処理され、あるいは断ち落とされた（２）の数列ｃ_ｋに相当する。

４８ｋＨｚでサンプリングされたスピーチ信号の典型的な１０ｍｓの時間フレーム（の周波数成分）を示している図１において、［１］のケプストラムしきい値処理アルゴリズムを使用して得られた平滑化後のスペクトル密度の評価が、太い破線として示されている。明らかに、破線は、実線の詳細の正確な評価ではなく、それ故に、上述の目的に非常にうまく機能する。最高のスペクトルパワーを有する周波数が、粗く評価され、「なだらかなベースライン」がもたらされている。

図１の平滑化されたスペクトル密度の評価（破線）の反転を、どの周波数において圧縮が必要であるかについての情報を含む周波数マスクとして使用することができる。平滑化されたスペクトル密度の評価（破線）が、スペクトル密度の評価（実線）の正確な評価であり、すなわち平滑化が存在せず、あるいはきわめて限られているならば、それを信号フレームのための周波数マスクとして使用すると、きわめて芳しくない実質的に無用の結果がもたらされると考えられる。

周波数マスクが１という最大の利得値を有するとすると、いかなる周波数においても信号の増幅が行なわれないことを保証できる。最大の減衰に対応する周波数マスクの最小の利得値を、卓越周波数に既知の値の減衰が「常に」加えられることを保証するための予め設定されたレベル（５）に設定することができる。あるいは、最大の圧縮または減衰のレベルを、例えばピリオドグラムなどの平滑化されていないスペクトル密度の評価の最大値を用いて平滑化後のスペクトル密度の評価を正規化することによって、自動的な方法（６）で設定することができる。

ここで、ｐ＝０，２，・・・，Ｎ−１。

図２は、図１において考えた信号フレームに関して、いかなるパラメータも選択する必要がないがゆえに完全に自動的に（６）を使用して得られた周波数マスクを示す。（３）の計算も、スペクトル密度の評価が一貫性のない挙動を有するときにより小さなパラメータ値が選択され、スペクトル密度の評価がそれなりに一貫性のある挙動を有するときにはより大きなパラメータ値が選択されるよう、ケプストラム振幅しきい値［１］［２］の値に関するパラメータの些細な選択が必要になる可能性があったとしても、自動的であると考えることができる。オーディオ信号の場合には、パラメータを、一定の値に予め定めることができる。

（６）を使用して得られる圧縮のレベルが、特定の筋書きにおいて不充分である場合には、（５）を使用して、λを０〜１の間の所望の値にすることが可能である。

次いで、フィルタマスクが、圧縮済みのデータセット、例えば

を計算するために周波数ドメインにおいて評価によるスペクトル密度との直接の乗算によって使用され、あるいは例えば時間ドメインにおいてｙ_ｋへと適用することができる有限インパルス応答（ＦＩＲ）フィルタの設計のための入力として使用される。

［典型的な手順、図３］
次に、オーディオ信号の時間部分の卓越周波数を減衰させる手順の典型的な実施の形態を、図３を参照して説明する。この手順を、例えばテレビ会議システムにおけるノードならびに／あるいは無線または有線通信システムにおけるノードまたは端末、オーディオ放送に関係するノード、もしくは音楽プロダクションにおいて使用されるエンティティまたは装置などのオーディオ処理エンティティにおいて実行することができる。

オーディオ信号の時間部分が、動作３０２において得られる。オーディオ信号を、マイクロホンなどによって取得され、或るサンプリング周波数でサンプリングされると仮定する。オーディオ信号は、例えばテレビ会議または何らかの他の種類の通信セッションに参加している１人以上の話し手が生じさせるスピーチを含むことができる。時間部分は、例えば約１０ｍｓであってよく、あるいは信号処理に適した任意の他の長さであってよい。

導出された時間部分のスペクトル密度の（周波数ドメインにおける）評価が、動作３０４において得られる。この評価は、例えばピリオドグラムであってよく、例えばＦＦＴなどのフーリエ変換法の使用によって導出することができる。評価されたスペクトル密度の近似が、動作３０６において、スペクトル密度の評価に平滑化を加えることによって導出される。近似は、或る程度「粗く」なければならず、すなわち例えばスピーチまたは音楽などのオーディオ信号（図１を参照）において典型的には一定でないスペクトル密度の評価にきわめて近くてはならない。近似を、例えばケプストラムしきい値処理アルゴリズムを使用し、特定のしきい値を下回る振幅の絶対値を有するケプストラム係数を（ケプストラムドメインにおいて）取り除き、あるいは予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くことによって、導出することができる。

周波数マスクが、動作３０８において、スペクトル密度の評価について導出された近似から、この導出された近似（すなわち、平滑化されたスペクトル密度の評価）を反転させることによって導出される。次いで、周波数マスクが、動作３１０において信号の時間部分に含まれる周波数を減衰させるために使用または適用される。減衰は、周波数ドメインにおいて評価によるスペクトル密度に周波数マスクを乗算することを含むことができ、あるいはＦＩＲフィルタを周波数マスクにもとづいて設定し、このＦＩＲフィルタを時間ドメインにおいてオーディオ信号の時間部分に使用することができる。

周波数マスクを、さまざまな方法で設定することができる。例えば、周波数マスクの最大利得を１に設定し、周波数マスクにもとづいて処理されたときに信号のいかなる周波数も増幅されることがないように保証することができる。さらに、周波数マスクの最大減衰（最小利得）を特定のレベルに予め定めることができ、あるいは周波数マスクにおいて、平滑化後のスペクトル密度の評価を平滑化前のスペクトル密度の評価によって正規化することができる。

［典型的な装置、図４］
以下で、オーディオ信号の時間部分における卓越周波数の減衰に関する上述の手順の実行を可能にするように構成された典型的な装置４００を、図４を参照して説明する。装置は、通信システムにおけるオーディオ処理エンティティ４０１に位置するものとして示されている。オーディオ処理エンティティは、例えばテレビ会議システムにおけるノードまたは端末ならびに／あるいは無線または有線通信システムにおけるノードまたは端末、オーディオ放送に関係するノード、もしくは音楽プロダクションにおいて使用されるエンティティまたは装置であってよい。さらに、装置４００は、通信ユニット４０２（無線および／または有線通信のための伝統的な手段を備えると考えてよい）を介して他のエンティティと通信するものとして示されている。装置および／またはオーディオ処理エンティティは、他の通例の機能ユニット４１６および１つ以上の記憶ユニット４１４をさらに備えることができる。

装置４００は、オーディオ信号の時間部分を得るように構成された取得ユニット４０４を備える。オーディオ信号は、例えばテレビ会議または何らかの他の種類の通信セッションに参加している１人以上の話し手が生じさせるスピーチを含むことができる。例えば、１０ｍｓの時間区間を表わす連続的なサンプルの組を取得することができる。オーディオ信号は、マイクロホンなどによって取得され、或るサンプリング周波数でサンプリングされていると仮定される。オーディオ信号は、取得ユニット４０４によって、あるいはオーディオ処理エンティティ４０１の他の機能ユニットによって、もしくは他のノードまたはエンティティにて、取得および／またはサンプリングされていてよい。

装置は、時間部分のスペクトル密度の評価を導出するように構成された評価ユニット４０６をさらに備える。ユニット４０６を、例えばピリオドグラムを例えばＦＦＴなどのフーリエ変換法を使用することによって導出するように構成することができる。さらに、装置は、スペクトル密度の評価に平滑化を加えることによって評価の近似を導出するように構成された平滑化ユニット４０８を備える。近似は、或る程度「粗く」なければならず、すなわち例えばスピーチまたは音楽などのオーディオ信号（図１を参照）において典型的には一定でないスペクトル密度の評価にあまり近くてはならない。平滑化ユニット４０８を、ケプストラムしきい値処理アルゴリズムを使用し、特定のしきい値を下回る振幅の絶対値を有するケプストラム係数を（ケプストラムドメインにおいて）取り除き、あるいは予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くことによって、平滑化されたスペクトル密度の評価を得るように構成することができる。

装置４００は、スペクトル密度の評価の近似を反転させることによって周波数マスクを導出するように構成されたマスクユニット４１０をさらに備える。マスクユニット４１０を、周波数マスクの最大利得を１に設定することによっていかなる周波数も増幅されないように保証するように構成することができる。さらに、マスクユニット４１０を、周波数マスクの最大減衰を特定の予め定められるレベルに設定し、あるいは周波数マスクの導出時に平滑化後のスペクトル密度の評価を平滑化前のスペクトル密度の評価によって正規化するように、構成することができる。

さらに、装置は、周波数マスクにもとづいてオーディオ時間部分に含まれる周波数を減衰させるように構成された減衰ユニット４１２を備える。減衰ユニット４１２を、例えば周波数ドメインにおいて評価によるスペクトル密度に周波数マスクを乗算するように構成でき、あるいはＦＩＲフィルタを周波数マスクにもとづいて設定し、このＦＩＲフィルタを使用して、時間ドメインにおいてオーディオ信号の時間部分をフィルタ処理するように構成することができる。

［別の典型的な装置、図５］
図５が、オーディオ処理エンティティにおける別の装置５００を示しており、コンピュータプログラム５１０がプロセッサ５０６へと接続されたコンピュータプログラム製品５０８によって保持されている。コンピュータプログラム製品５０８は、コンピュータプログラム５１０を保存したコンピュータにとって読み取り可能な媒体を備えている。コンピュータプログラム５１０を、コンピュータプログラムモジュールに構造化されたコンピュータプログラムコードとして構成することができる。したがって、説明される典型的な実施の形態においては、コンピュータプログラム５１０のコード手段が、オーディオ信号の時間部分を取得するための取得モジュール５１０ａを含む。コンピュータプログラムは、時間部分のスペクトル密度の評価を導出するための評価モジュール５１０ｂをさらに備える。さらに、コンピュータプログラム５１０は、スペクトル密度の評価に平滑化を加えることによって評価の近似を導出する平滑化モジュール５１０ｃと、このスペクトル密度の評価の近似を反転させることによって周波数マスクを導出するマスクモジュール５１０ｄとを備える。コンピュータプログラムは、周波数マスクにもとづいてオーディオ時間部分に含まれる周波数を減衰させる減衰モジュール５１０ｅをさらに備える。

モジュール５１０ａ〜ｅは、基本的には、図４に示したオーディオ処理エンティティの装置を模擬するように、図３に示した流れの各動作を実行することができる。換言すると、種々のモジュール５１０ａ〜ｅが、処理ユニット５０６において実行されるときに、図４のユニット４０４〜４１２のそれぞれの機能に対応する。例えば、コンピュータプログラム製品は、フラッシュメモリ、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読み出し専用メモリ）、またはＥＥＰＲＯＭ（電子的に消去可能なプログラマブルＲＯＭ）であってよく、コンピュータプログラムモジュール５１０ａ〜ｅを、別の実施の形態においては、装置５００および／または送受信ノード内のメモリの形態の別々のコンピュータプログラム製品に分散させることができる。プロセッサへと接続されたユニット５０２および５０４は、例えば入力および出力などの通信ユニットを表わしている。ユニット５０２およびユニット５０４を、一体のエンティティとして構成してもよい。

図５に関連して上記で開示した実施の形態におけるコード手段は、処理ユニットにおいて実行されたときに装置および／または送受信ノードに上述の図に関連して上述した動作を実行させるコンピュータプログラムモジュールとして実現されているが、コード手段のうちの少なくとも１つを、別の実施の形態においては、少なくとも部分的にハードウェア回路として実現してもよい。

相互に作用するユニットまたはモジュールの選択ならびにユニットの名称が、あくまでも例示の目的のためのものにすぎず、上述した方法のいずれかの実行に適したネットワークノードを、上記提案のプロセスの動作を実行できるように、複数の選択肢としての方法にて構成できることに、注意すべきである。

また、本明細書において説明されたユニットまたはモジュールを、論理的なエンティティとして考えるべきであり、必ずしも別々の物理的なエンティティと考えるべきではないことに、注意すべきである。
略語
ＡＥＣ音響エコー制御
ＤＲＣダイナミックレンジ圧縮
ＦＩＲ有限長インパルス応答
ＦＦＴ高速フーリエ変換
参考文献
［１］Ｓｔｏｉｃａ，Ｐ．，Ｓａｎｄｇｒｅｎ，Ｎ．ＳｍｏｏｔｈｅｄＮｏｎｐａｒａｍｅｔｒｉｃＳｐｅｃｔｒａｌＥｓｔｉｍａｔｉｏｎｖｉａＣｅｐｓｔｒｕｍＴｈｒｅｓｈｏｌｄｉｎｇ．ＩＥＥＥＳｉｇｎ.Ｐｒｏｃ．Ｍａｇ．２００６．
［２］Ｓｔｏｉｃａ，Ｐ．，Ｓａｎｄｇｒｅｎ，Ｎ．ＴｏｔａｌＶａｒｉａｎｃｅＲｅｄｕｃｔｉｏｎｖｉａＴｈｒｅｓｈｏｌｄｉｎｇ：ＡｐｐｌｉｃａｔｉｏｎｔｏＣｅｐｓｔｒａｌＡｎａｌｙｓｉｓ．ＩＥＥＥＴｒａｎｓ．Ｓｉｇｎ．Ｐｒｏｃ．２００７

Claims

オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための方法であって、前記方法は、
オーディオ信号の時間部分を取得することと、
前記時間部分のスペクトル密度の評価を導出することと、
前記スペクトル密度の評価に平滑化を加えることによって、前記評価の近似を導出することと、
前記スペクトル密度の評価の近似を反転させることによって、周波数マスクを導出することと、
前記オーディオ時間部分に含まれる周波数を前記周波数マスクにもとづいて減衰させることと、
を含む方法。
前記平滑化が、
前記スペクトル密度の評価のケプストラム係数を導出すること
を含み、さらに
振幅の絶対値が特定のしきい値を下回るケプストラム係数を取り除くこと、および
予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くこと
の少なくとも一方を含む請求項１に記載の方法。
前記周波数マスクが、１という最大利得を有するように構成されている請求項１または２に記載の方法。
前記周波数マスクの最大減衰が、特定のレベルに予め定められる請求項１乃至３のいずれか一項に記載の方法。
前記周波数マスクＦ_ｐが、

と定められ、ここで、λは０＜λ＜１であり、ｐ＝０，・・・，Ｎ−１であり、Ｎは前記オーディオ信号時間部分のサンプルの数であり、

は評価および平滑化されたスペクトル密度である請求項１乃至４のいずれか一項に記載の方法。
前記周波数マスクにおいて、前記評価および平滑化されたスペクトル密度が、前記評価された平滑化前のスペクトル密度によって正規化されている請求項１乃至３のいずれか一項に記載の方法。
前記周波数マスクＦ_ｐが、

と定められ、ここで、ｐ＝０，・・・，Ｎ−１であり、Ｎは前記オーディオ信号時間部分のサンプルの数であり、Φ_ρは前記評価されたスペクトル密度であり、

は前記評価および平滑化されたスペクトル密度である請求項１乃至３または６のいずれか一項に記載の方法。
前記信号部分の前記スペクトル密度の評価が、ピリオドグラムである請求項１乃至７のいずれか一項に記載の方法。
前記減衰が、
周波数ドメインにおいて前記スペクトル密度の評価に前記周波数マスクを乗算すること、および
ＦＩＲフィルタを前記周波数マスクにもとづいて設定し、時間ドメインにおいて前記オーディオ信号時間部分について使用すること
の少なくとも一方を含む請求項１乃至８のいずれか一項に記載の方法。
オーディオ処理エンティティにおいてオーディオ信号の時間部分の卓越周波数を減衰させるための装置であって、前記装置は、
オーディオ信号の時間部分を取得するように構成された取得ユニットと、
前記時間部分のスペクトル密度の評価を導出するように構成された評価ユニットと、
前記スペクトル密度の評価に平滑化を加えることによって、前記評価の近似を導出するように構成された平滑化ユニットと、
前記スペクトル密度の評価の近似を反転させることによって、周波数マスクを導出するように構成されたマスクユニットと、
前記オーディオ時間部分に含まれる周波数を前記周波数マスクにもとづいて減衰させるように構成された減衰ユニットと
を含む装置。
前記平滑化ユニットが、前記スペクトル密度の評価のケプストラム係数を導出し、所定の規則に従ってケプストラム係数を取り除くように構成されている請求項１０に記載の装置。
前記所定の規則が、
振幅の絶対値が特定のしきい値を下回るケプストラム係数を取り除くこと、および
予め設定されるしきい値よりも大きい指数を有する連続したケプストラム係数を取り除くこと
の一方を含む請求項１１に記載の装置。
前記マスクユニットが、前記周波数マスクの最大利得を１に設定するように構成されている請求項１０乃至１２のいずれか一項に記載の装置。
前記マスクユニットが、前記周波数マスクの最大減衰を特定の予め定められるレベルに設定するように構成されている請求項１０乃至１３のいずれか一項に記載の装置。
前記マスクユニットが、前記評価および平滑化されたスペクトル密度を前記評価された平滑化前のスペクトル密度によって正規化するように構成されている請求項１０乃至１３のいずれか一項に記載の装置。
前記減衰ユニットが、
周波数ドメインにおいて前記スペクトル密度の評価に前記周波数マスクを乗算すること、および
ＦＩＲフィルタを前記周波数マスクにもとづいて設定し、時間ドメインにおいて前記オーディオ信号時間部分について使用すること
の少なくとも一方を行なうように構成されている請求項１０乃至１５のいずれか一項に記載の装置。