JP2006508386A

JP2006508386A - サウンドフレームを正弦波成分と残留ノイズとに分離する方法

Info

Publication number: JP2006508386A
Application number: JP2004554732A
Authority: JP
Inventors: スヘインデルニコッレエイチファン; フエンテスミレイアゴメズ; リチャードヘウスデンス
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-11-27
Filing date: 2003-10-29
Publication date: 2006-03-09
Also published as: EP1568011A1; AU2003274526A1; KR20050086761A; WO2004049310A1; US20060149539A1; CN1717576A

Abstract

この発明は、供給される第１サウンドフレームから正弦波成分を表す第２サウンドフレーム（２０）及び残差を表すオプションとしての第３サウンドフレーム（３０）を決定（１０）する方法に関するものである。該方法は、抽出されていない成分の間から第１サウンドフレームにおける正弦波成分を決定するステップと、第１サウンドフレームに関して重要度（４０）を決定するステップと、第１サウンドフレームから上記正弦波成分を抽出し、該正弦波成分を第２サウンドフレームに組み込むステップと、上記重要度が停止規準（５０）を満たすまで上記ステップを繰り返すステップとを含む。本方法において、第１サウンドフレームに関して重要度を決定する前記ステップは、上記第３ステップの前に実行することができるか、又は第３ステップと第４ステップとの間に実行することができる。該方法は、更に、前記重要度が前記停止規準を満たした場合に、第３サウンドフレームを第１サウンドフレームに設定するステップを含む。これは、必然的に正弦波状の成分のみが後の圧縮に使用するために抽出されるのを可能にする。

Description

本発明は、供給される第１サウンドフレームから正弦波成分を表す第２サウンドフレーム及び残差を表すオプションとしての第３サウンドフレームを決定する方法に関する。

また、本発明は上記方法を実行するコンピュータシステムにも関する。

更に、本発明は上記方法を実行するコンピュータプログラム製品にも関する。

更に、本発明は上記方法のステップを実行する手段を有する装置にも関する。

米国特許第6,298,322号は、優勢な及びベクトル量子化された残留音調信号（residual tonal signal）を使用した音調的オーディオ信号の符号化及び合成を開示している。エンコーダは、当該音調的オーディオ信号の限られた数の優勢正弦波成分に関して時間的に変化する周波数、振幅及び位相を決定し、残留正弦波パラメータシーケンスを形成する。これらの（優勢な）成分は当該音調的オーディオ信号から除去されて、残留音調信号を形成する。該残留音調信号は、所謂残留音調信号エンコーダ（ＲＴＳＥ）を使用して符号化される。

オーディオ信号の正弦波プラス残留符号化において、オーディオがセグメント化され、各フレームが正弦波部プラス残差によりモデル化されることは、慣用的知識及び上述した従来技術における知識である。上記正弦波部分は、典型的には、正弦波成分の和である。殆どの正弦波コーダにおいては、上記残差は確率的信号であると仮定され、ノイズによりモデル化することができる。これが当てはまる場合、当該信号の正弦波部分は、元のフレームの全ての決定的（即ち、音調的）成分の責任を負わなければならない。

正弦波部分が全ての音調成分の責任を負わない場合、幾つかの音調成分はノイズによりモデル化される。ノイズは音調（トーン）をモデル化するには適していないので、これはアーチファクトを生じ得る。正弦波部分が決定的部分より多くの責任を負う場合、正弦波成分がノイズをモデル化している。これは２つの理由により望ましくない。一方において、シヌソイドは雑音性信号をモデル化するには適しておらず、アーチファクトが現れ得る。他方において、これら成分がノイズによりモデル化されたとしたら、より多くの圧縮を達成することができる。

現状技術は、この問題、即ち正弦波部と残差とへの良好な分離を如何に得るかを扱う幾つかの方法を提案している。

１９９８年、スタンフォード大学、物理学博士論文、S.N. Levine、“データ圧縮及び圧縮されたドメイン処理のためのオーディオ表現”；

１９９９年、オーディオ及び音響への信号処理の応用に関する１９９９ＩＥＥＥ会報、第４３〜４６頁、S. N. Levine、J. O. Smith、“スイッチパラメトリック及び変換オーディオコーダの改善”；

１９９９年、１０月１７〜２０日、ニューヨーク、ニューパルツ、オーディオ及び音響への信号処理の応用に関する１９９９ＩＥＥＥワークショップ会報、第４３〜４６頁、S. N. Levine及びJ. O. Smith三世、“スイッチパラメトリック及び変換オーディオコーダの改善”；

１９９８年、１１月、スペイン、バルセロナ、デジタルオーディオ効果会報、第１９〜２１頁、G. Peeters及びX.
Rodet“正弦波及び非正弦波成分に関する信号特徴化”；
１９９７年８月２７〜２９日、英国、コベントリー、ワーウィック大学、ＩＥＥＥ時間−周波数及びタイム−スケールワークショップ（TFTS’９７）会報、X.
Rodet“音楽サウンド信号解析／合成：正弦波＋残留及び基本波形モデル”。

幾つかの方法は、完全に信号特性に基づいている。

１９９８年１１月、スペイン、バルセロナ、デジタルオーディオ効果会報、G. Peeters及びX.
Rodet“正弦波及び非正弦波成分に関する信号特徴化”；

１９９７年８月２７〜２９日、英国、コベントリー、ワーウィック大学、ＩＥＥＥ時間−周波数及びタイム−スケールワークショップ（TFTS’９７）会報、X.
Rodet“音楽サウンド信号解析／合成：正弦波＋残留及び基本波形モデル”。

他のものは、より音響心理学的考察に基づいている。

１９９９年、１０月１７〜２０日、ニューヨーク、ニューパルツ、オーディオ及び音響への信号処理の応用に関する１９９９ＩＥＥＥワークショップ会報、第４３〜４６頁、S. N. Levine及びJ. O. Smith三世、“スイッチパラメトリック及び変換オーディオコーダの改善”。

残念ながら、正弦波部分及び残差への分離を行うことは容易ではなく、これら方法の何れも完全に満足のゆく結果を提供していない［例えば、１９９８年１１月、スペイン、バルセロナ、デジタルオーディオ効果会報、G. Peeters及びX.
Rodet“正弦波及び非正弦波成分に関する信号特徴化”参照］。

従って、本発明の目的は、入力信号の決定的及び確率的部分の間の良好な分離を有し、これによりアーチファクトを防止すると共に、斯かる分離された信号の後の圧縮において、最適且つ効率的な圧縮又は符号化を達成することにある。

上記目的は、冒頭で述べた方法が、
・前記第１サウンドフレームにおいて抽出されていない成分から正弦波成分を決定するステップと、
・前記第１サウンドフレームに関する重要度を決定するステップと、
・前記第１サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第２サウンドフレームに組み込むステップと、
・前記重要度が停止規準を満たすまで前記各ステップを繰り返すステップと、
を有する場合に達成される。

上記方法は、既存の方法より多くの利点を有する。符号化段に導入される余分な複雑さは殆ど零である。更に、該複雑さは更に低下することができる。何故なら、本方法は、最後のステップにおいて、正弦波成分の抽出を何時停止するかを示すからである。結果として、第３ステップにおいて必要以上のシヌソイドが抽出されることがない。更に、音響心理学的考慮を容易に組み込むことができる。最も重要には、本方法は、入力フレームの性質、即ち前記第１サウンドフレームの性質を考慮に入れて、良好な確率的／決定的バランスを付与する。

本発明の好ましい実施例においては、第２ステップ（重要度を決定するステップ）は、第３ステップの前に実行することができるか、又は第３ステップと第４ステップとの間に実行することができる。

本発明の好ましい実施例において、本方法は、
・前記重要度が前記停止規準を満たした場合に、前記第３サウンドフレームを前記第１サウンドフレームに設定するステップ、
を更に有する。

これにより、前記残差（即ち、第３サウンドフレーム）を、分離された信号（即ち、第２及び第３サウンドフレーム）の後の圧縮に対する入力として供給するが可能となる。

本発明の好ましい実施例においては、前記第１サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第２サウンドフレームに組み込むステップが、
・前記正弦波成分を前記第１サウンドフレームから除去するステップ、
を更に有する。

これにより、正弦波成分及び／又は重要度の後の決定が、より正確となるという利点が得られる。

本発明の他の代替実施例は請求項４ないし１０に反映されている。

以下、本発明を好ましい実施例に関し図面を参照して更に詳細に説明する。尚、全図を通して、同一の符号は同様の又は対応するフィーチャ、機能、サウンドフレーム等を示している。

図１は、正弦波抽出への停止規準の導入を示すと共に、入力フレームが如何にして２つの異なる信号、即ち正弦波モデルに導入される抽出正弦波成分及び残留信号、に分離されるかを示している。

図は、本発明の一実施例を示し、該実施例においては複雑さの少ない音響心理学的エネルギ型停止規準が当該分離に適用される。該図は当該システムのブロック図を示す。符号１０により示す入力フレームが、抽出方法に入力される。該抽出方法は各反復において１つの正弦波成分を抽出する。各抽出の後、２つの異なる信号、即ち符号２０で示す正弦波モデルに導入（即ち、追加又は添付）される抽出成分及び符号３０により示す残留信号、が得られる。次いで、広くは又は通常は符号４０で示すように重要度と呼ばれるような、音響心理学的尺度又はエネルギ量が上記残留信号から計算される。該尺度により提供される情報から、符号５０により示される停止規準に基づいて、当該残留信号に依然として何らかの重要な音調成分が存在するか否かの判断がなされる。後者の場合当該抽出方法は停止されねばならず、及びその逆となる。

この情報を提供する上記尺度は、残留信号の検出可能性（detectability）及び検出可能性低下（reduction）と呼ばれる。該検出可能性尺度は、２００２年、５月１３〜１７日、米国、オルランド、ＩＥＥＥ国際会議、音響、音声及び信号処理会報、S. van de Par、A. Kohlrausch、M. Charestan、R.Heusdensの“オーディオ符号化アプリケーション用の新たな音響心理学的マスキングモデル”に提示された音響心理学的モデルの検出可能性に基づくものである。

残差の検出可能性の値は、どの程度多くの音響心理学的関連パワーが当該残差に依然として残されているかを示す。該値が反復ｍにおいて１以下の値に到達すると、これは、残されたエネルギが聴き取り不可能であることを意味する。前記検出可能性低下は、抽出前に残存しているパワーに対して１回の抽出後に、どの程度多くの関連パワーが低減されたかを示す。符号４０で示すブロック「重要度計算」は、

なる式に従って残差の検出可能性及び該検出可能性の低下を計算することができる、上記式において、Ｒ_m(f)は残留信号のパワースペクトルを表し、ａ(f)は入力信号のマスキング閾であるmsk(f)の逆関数を表し（パワーで計算される）、ｆは周波数ビンを表し、ｍは反復番号を表し、ΔＤは検出可能性の低下分を表す。

上記検出可能性は、残されたエネルギが可聴であるかを示し、該検出可能性の低下（reduction）は、入力フレームの決定的及び確率的部分の間をどの様に区別するかの指示子を与える。その理由は、検出可能性は、抽出されたピークが音調成分である場合の方が、抽出されたピークが雑音性成分である場合よりも通常は多く減少されるからである。そして、当該抽出アルゴリズムは、検出可能性の値が１以下であるか、又は該検出可能性の低下が或る値（雑音性成分が抽出される場合の低下の値に相当すると仮定する）に到達するかの何れかの場合に成分の抽出を停止しなければならない。

導入された上記尺度は、例えば２００２年、５月１３〜１７日、米国、オルランド、ＩＥＥＥ国際会議、音響、音声及び信号処理会報、R. Heusdens、S. van de Par（２００１）の“音響心理学的マッチング追求を用いたオーディオ及び音声のレート／歪最適正弦波モデル化”に提示された音響心理学的マッチング追求のような音響心理学的抽出方法とのみ組み合わされるべきであることに注意すべきであろう。その理由は、当該抽出方法が音響心理学を使用しない場合、上記尺度は劣った指示子を提供する可能性があるからである。例えば、当該抽出方法が音響心理学的考慮を伴わないエネルギ型の抽出方法（通常のマッチング追求のような）である場合、各反復においてエネルギを最も低減させるピークが減算される。これが当てはまる場合、エネルギの低下は大きい一方、当該ピークが音響心理学的に重要でない場合、検出可能性の低下は小さいかも知れない。結果として、当該抽出方法は停止されるが、知覚的に関連する音調成分は当該信号中に依然として残存され得る。かくして、使用される抽出方法が音響心理学を含まない場合は、前記停止規準に対する変更が推奨される。この場合、決定的／確率的バランスのための指示子として、検出可能性の低下に代えてエネルギ低下を使用することが推奨される。

先に述べた解決策とは相違して、この解決策は抽出の間に判断を実行する。従って、当該システムに複雑さを持ち込む唯一の事項は、各反復ｍにおける前記尺度の計算である。しかしながら、当該方法が音響心理学的抽出方法と組み合わされた場合、持ち込まれる複雑さは無視可能である。何故なら、マスキング閾は該抽出方法により既に計算されているからである。

今まで述べた尺度、即ち重要な尺度としての音響心理学的尺度及びエネルギ量の代わりとして、他の代替尺度を重要な尺度として考慮することもできる。

前記音響心理学は聴覚的知覚（サウンドに対する人間の聴覚系の応答）に対する他の言葉である。上記音響心理学的尺度においては、人の応答が考慮される。この様に、音響心理学的尺度は、サウンドに対する人の応答を組み込む重要度の一例である。しかしながら、これは特定の実施例である。勿論、聴覚的知覚の一層進んだ実施化を行うことも可能である。更に、サウンドに対する人の応答を考慮に入れない重要度も有効である。このような重要度の一例は、前述したエネルギ量である。図２は、音楽に適用された停止規準に関する結果を示している（上側のグラフ）。各フレームにおいて費やされたシヌソイドの数が下側のグラフに示されている。

（入力）信号の確率的及び決定的部分の間を区別するための上記尺度の利用可能性をチェックするために、正弦波コーダにおいて符号５０の停止規準が実施化され、テストされた。選択されたコーダは、ＳｉＣＡＳ（オーディオ及び音声の正弦波符号化）コーダであった。デフォルト状態においては、各フレームにおいて固定数のピークが抽出される。

使用される抽出方法は、２００２年、５月１３〜１７日、米国、オルランド、ＩＥＥＥ国際会議、音響、音声及び信号処理会報、R. Heusdens、S. van de Par（２００１）の“音響心理学的マッチング追求を用いたオーディオ及び音声のレート／歪最適正弦波モデル化”に提示された音響心理学的マッチング追求である。

各反復において、該方法は、入力信号のマスキング閾に従い最も音響心理学的に関連のあるピークを抽出する。従って、式（１）におけるマスキング閾は計算する必要はない。何故なら、斯かるマスキング閾は該抽出方法により既に計算されているからである。

低下の閾値は１つの固有の値には設定されなかった。代わりに、或る範囲の値（０．２５なるステップで、３．５から５．５まで）が選択された。次いで、音声及び１つのオーディオの信号の群が、これら値の各々を用いて符号化された。両状況を比較するために、同じ信号がフレーム毎に固定数（１２から２０まで）のシヌソイドを用いて符号化された。

非公式な聴き取り実験は、次節で説明するような結果を導出した。

２つの異なる状況（本発明による停止規準による場合、及び固定数のシヌソイドによる場合）を比較するために、一対の符号化／復号信号が、品質が同一であるように選択された。そして、２つの結果が得られた。第１に、上記停止規準を用いる場合、シヌソイドの割り当ては、フレーム毎に固定数（のシヌソイド）が抽出される場合におけるより良好である。言い換えると、シヌソイドの割り当ては、より良好な決定的／確率的バランスを提供する。図は、シヌソイドが、ランダムに選択された一片の符号化例示歌にどの様に割り当てられるかを示している。図に見られる傾向は、より多くの数のシヌソイドが、（入力）信号が一層調和的な個所において、即ち、より雑音的である（即ち、開始部及び終了部の非発声部にある）場合よりも中間の発声部において消費されるということである。

このシヌソイドの良好な割り当ては、符号化された信号の正弦波部分を聴き取ることにより容易に気が付くことができる。かくして、発声された部分は明瞭に聴き取ることができる（その様にモデル化される）一方、非発声部分は聞くことができない（何故なら、これら部分は上記シヌソイドモデルによりモデル化されないからである）。

第２に、音楽の全体の部分で使用されるシヌソイドの数が通常は低減され、結果として、ビットレートも低減される。

この出願を通して、“サウンド”なる表現がなされる場合、これは人の音声、オーディオ、音楽、音調的及び非音調的成分、又は有音色及び無音色ノイズを如何なる組合せでも示そうとするものであり、サウンドは上記抽出方法に対する入力として供給することができると共に、以下に述べる方法にも供給することができる。

図３は、供給される第１サウンドフレームから、正弦波成分を表す第２サウンドフレーム及び残差を表すオプションとしての第３サウンドフレームを決定する方法を示している。

第１サウンドフレームは前述した入力信号に対応するもので、正弦波及び残差を表し、第２サウンドフレームはシヌソイドを表し、第３サウンドフレームは残差を表す。第２及び第３サウンドフレームは、最初は空であるか、又は前の（第１）サウンドフレームの本方法への適用からの内容を含むことができる。

ステップ９０において、本方法は図示の実施例に従い開始される。処理されるサウンド信号に対応する入力（第１）及び出力（第２及び第３）サウンドフレーム、成分、重要度等を追跡する変数、フラグ、バッファ等が初期化されるか又はデフォルト値に設定される。当該方法が２回目に反復される場合、損なわれた変数、フラグ、バッファ等のみがデフォルト値に設定される。

ステップ１００において、第１サウンドフレームにおける正弦波成分を決定することができる。典型的には、該成分は何らかの重要なサウンド情報を表すであろう。即ち、該成分は主に音調的、非雑音性情報を含む。

最も簡単な決定方法（上記成分決定のための）は、入力信号の（即ち、第１サウンドフレームの）スペクトルにおける最も顕著なピークを抽出することからなる。元のオーディオ信号は解析ウインドウにより乗算され、各フレームに関して高速フーリエ変換が、

と計算され、ここで,ｘ(n)は元のオーディオ信号（のフレーム）であり、ｗ(n)は解析ウインドウであり、ｗ_ｋはラジアンでのｋ番目のビン（２πｋ／Ｎ）の周波数であり、Ｎはサンプルでの当該フレームの長さであり、ｌは当該フレームの番号であり、Ｈはウインドウの時間進みである。

以下の文献には、ピーク抽出方法が記載されている：

１９９０年、スタンフォード大学、物理学博士論文、X. Serra、“決定的プラス確率的分解に基づくサウンド解析／変換／合成のためのシステム”；

１９９０年、信号処理Ｖ：理論及び応用、X. Serra及びJ.O. Smith、“決定的プラス確率的分解に基づくサウンド解析／変換／合成のためのシステム”；

１９９８年、クルウェル学術出版、M. Goodwin、“適応型信号モデル．理論、アルゴリズム及びオーディオ用途”；

１９９６年、音響、音声及び信号処理に関するＩＥＥＥ国際会議会報、第１００５〜１００８頁、M. Goodwinの“音楽解析／合成における残差モデル化”；

１９９７年、時間−周波数及びタイム−スケール方法の応用に関する第２回ＩＥＥＥシンポジウム会報、第１１１〜１２０頁、X. Rodet“音楽サウンド信号解析／合成：正弦波＋残留及び基本波形モデル”；及び

１９９８年、デジタルオーディオ効果、G. Peeters及びX. Rodet“正弦波及び非正弦波成分に関する信号特徴化”、１９９３年ICASSP’93会報、第２２１〜２２４頁、B.
Doval及びX. Rodet、“最大尤度を使用した基本周波数推定及び追跡”。

他の有効な決定技術は、２００２年、５月１３〜１７日、米国、オルランド、ＩＥＥＥ国際会議、音響、音声及び信号処理会報、R. Heusdens、S. van de Par（２００１）の“音響心理学的マッチング追求を用いたオーディオ及び音声のレート／歪最適正弦波モデル化”、に提示された音響心理学的マッチング追求である。この方法は、知覚的に最も関連のある正弦波成分を反復的に決定する。

ステップ２００において、第１サウンドフレームに対して重要度を決定することができる。該第１サウンドフレームは、本方法への入力であり、該方法の終わりにおいて更に説明するように、本方法は歌又は他の論理的に一緒に結合されたサウンド内容を有するようなサウンドフレームに適用することができる。前記重要度は、通常は、続いて決定された残存信号又は残差、即ち最終的に決定された正弦波成分（又は複数の成分）であって次のステップにおいて抽出された正弦波成分を有さない第１サウンドフレーム、が重要な音調成分を含まないか、又は幾らかの重要な音調（正弦波状）成分が（上記第１サウンドフレームに）確率的に依然として残存しているかの判断を行うために使用される。第１の場合において当該方法が停止されねばならないか、又は第２の場合において当該方法を継続することができるようになる。

第１サウンドフレームは現在のところ（特に、ステップ１００及び３００の反復の間において）、より少ない正弦波成分しか有さないかもしれないこと注意することが重要である。何故なら、ステップ１００においてその都度正弦波成分が決定され、続いて該成分はステップ３００において（第１サウンドフレームから）除去されるからである。

前記重要度は聴覚的知覚に、即ちサウンドに対する人間の応答、に基づくものとすることができる。斯様な尺度の可能性のある実施化は、

のうちの少なくとも一方を有する音響心理学的エネルギレベルである。

Ｒ_m(f)は恐らくは成分（又は複数の成分）が除去された第１サウンドフレームのパワースペクトル、ａ(f)は、パワーで計算された、自身から除去された成分（又は複数の成分）を有さない第１サウンドフレームのマスキング閾、msk(f)の逆関数、ｆは周波数ビン、ｍは、このステップ及び後続のステップ３００及び４００が、現在、何回実行されているかを表す現在の反復数（ｍは反復の開始時に０に設定される）、ΔＤは前記検出可能性のインクリメント（増分）である。前記msk(f)、即ち第１サウンドフレームのマスキング閾、は本方法の開始前に計算することができる。何故なら、該閾は開始点における、即ち成分が除去されていない時点における第１サウンドフレームを考慮に入れるからである。逆に、Ｒ_m(f)、即ち第１サウンドフレームのパワースペクトル、は成分（又は複数の成分）を有さない可能性があり（何故なら、これら成分は後続のステップ３００の間に除去される可能性があるからである）、当該方法の実行の間において現時点で計算され、これにより、前述した残差における現在の音響心理学的エネルギレベルを反映する。

上記知覚尺度の代替例として、他の一層進んだ知覚尺度を考慮することもできる。これらの進んだ知覚尺度は、例えば、サウンドの時間的特性を考慮に入れることができる。更に、聴覚的知覚を考慮しない重要度も有効である。

ステップ３００において、正弦波成分を第１サウンドフレームから抽出し、第２サウンドフレームに組み込むことができる。ここでは、幾つかの構成が可能である。一実施例においては、上記正弦波成分は該成分のパラメータ（例えば、振幅、位相等）によってのみ第１サウンドフレームから単に抽出される（即ち、該成分は物理的には除去されない）。しかしながら、この場合、該方法は上記成分（正弦波成分）が実際に抽出されたように記録し（タグ付け、注記等により）、後続の反復において全く同一の正弦波成分を抽出するのを防止する必要がある。

代わりに又は逆に、“正弦波成分を第１サウンドフレームから除去する（６００）”と記載されるように、オプション的なステップ６００において上記正弦波成分は第１サウンドフレームから除去される（即ち、実際に物理的に除去される）が、これは一層多くの処理パワーを要する。

これらの場合の何れにおいても、上記第２サウンドフレームは抽出された正弦波成分（又は複数の成分）を現時点で組み込んでいるであろう。このような理由で、第２サウンドフレームは正弦波成分のみを有する。

前記重要度は、前記検出可能性が１以下である場合に前記停止規準を満たし得る。他の例として、前記重要度は、前記低下が所定値より小さい場合に前記停止規準を満たし得る。

当該方法の実行の間において、上記検出可能性規準から上記低下規準へ、又はその逆等に切り換えることも考えられる。

ステップ４００において、上記重要度が上記停止規準を満たすまで、上記ステップ（１００〜３００）をオプションとしてステップ６００（前記第１サウンドフレームから正弦波成分を実際に削除する）と共に繰り返すことが判断される。第１サウンドフレームが依然としてもっと正弦波成分を含み、ステップ１００〜３００の反復（このステップ及び後続のステップ２００及び３００が現在のところ何回実行されているかを表す現反復番号としてのｍによる）により、新たな正弦波の抽出されていない成分が各実行において見付けられる場合もあり得る。結果として、第１サウンドフレームは、その都度、抽出された成分だけ少ないままとなる。ステップ６００としてオプション的に、第１サウンドフレームは、その都度、物理的に正弦波成分の分だけ少ないままとなる。更に、これに対応して、特に、オプションとして述べたステップ６００として、正弦波成分が第１サウンドフレームから物理的に除去された場合に、前記重要度に影響する。

第１サウンドフレームに関し重要度を決定するステップ２００は、ステップ３００の前に実行することができるか、又はステップ３００とステップ４００との間で実行することもできることに言及することも大事であろう。これは、ステップ２００を独立に計算することができる故に可能である。

オプション的ステップとしてのステップ５００において、前記重要度が前述した停止規準のうちの１つを満たす場合に、第３サウンドフレームを第１サウンドフレームに設定することができる。この時点で、第１サウンドフレームは重要でない成分のみを有する。何故なら、重要な正弦波成分はステップ１００〜４００において除去されたからである。言い換えると、この時点での第１サウンドフレームは、主に非音調成分又は重要でないと見なされる音調成分を表すような残差を有する。即ち、残存する第１サウンドフレームのコピーとしての第３サウンドフレームは、全ての重要な成分（即ち、ステップ３００で述べたように、例えばピーク等）が物理的に除去される、又はこれら（重要な成分）が第３サウンドフレームには属さないことを示す注記若しくはタグ付けを少なくとも有する場合、ここでは前述した残留若しくは残存部分若しくは信号と理解することができる。

今までに述べたステップは、下記のように要約することができる。

第１反復ステップにおいて（即ち、ステップ１００において）、（元の）入力フレーム（即ち、第１サウンドフレーム）が当該方法に入力される。次いで、正弦波成分が決定され（例えばエネルギ極大等の何らかの規準に従い）、このフレームから抽出される（即ち、この時点では依然として第１サウンドフレームのみが考察される）。この結果、残留信号（この成分を元の入力フレームから引いたもの）が得られる。次いで、第１サウンドフレーム（最終的に抽出される正弦波成分を有さない）の重要さ（即ち、前記重要度）が決定される。該重要度が充分に高い場合（即ち、上記重要度によって）、まだ停止すべき時ではなく、他の反復がなされる。上記正弦波成分はステップ３００において第２サウンドフレームに追加（即ち、抽出及び移動）される。上記重要度が充分に高くない場合、本方法は停止する。次の反復ステップにおいては、上記残差（依然として第１サウンドフレームであるが、幾つかの正弦波成分は該フレームから抽出されているかも知れない）が当該方法に入力される。再び、抽出されていない成分の間から正弦波成分が決定され、抽出される。当該重要度が決定される（（（最終的に抽出される正弦波成分のない）第１サウンドフレームに対する）前記重要度による）。その重要度（即ち、前記重要度のうちの１つ）が充分に高い場合、ステップ４００において表現される事項に応じて、当該方法は繰り返す等々となる。

従って、第１サウンドフレームは最初の反復ステップにおいては入力フレームに等しく、他の反復ステップにおいては、（残差としての）入力フレームから既に抽出された成分を引いたものに等しくなる。各反復ステップにおいては、新たな正弦波成分が抽出される。その結果は、新たな残差となる。この新たな残差は、ステップ５００においてオプション的に実行される事項に対応するような第３サウンドフレームである。この新残差、即ち第３サウンドフレームは、当該方法が自身のタスクを完了した場合には、前記第１サウンドフレームと新たに抽出された正弦波成分（又は複数の成分）との間の差分である。

第２サウンドフレームは、今までに抽出された成分の和である。従って、第２サウンドフレームはシヌソイドを表す。

重要度が決定されるステップ２００等は、ステップ３００の前、又はステップ３００と４００との間に実行することができる。

ステップ１００ないし４００は、１以上のサウンドフレームに対して、即ち第１、第２及び第３サウンドフレームの新たな組に対して更に実行することができ、新たな反復番号等が上記サウンドフレームの各々に対して対応して適用される。これに対応して、オプションとしてのステップ５００及び６００も更に適用される。例えば、歌を複数のフレームに副分割することができ、ステップ１００ないし５００等の適用により、これらフレームの各々（各フレームは最初は第１サウンドフレームと見なされる）は、正弦波の又は音調的成分を表す対応する第２サウンドフレーム及び残差を表す対応するオプションの第３サウンドフレームに分離される。

結果として、上記歌は正弦波の又は音調的成分のフレームと、残差とに各々分離される。かくして、これらは、分離されたフレームの後の圧縮に使用することができる。これにより、上記歌（上記部分に分離された）の最適且つ効率的な圧縮又は符号化を達成することができる。

通常、本方法は当該装置が給電されている限り、再び最初から開始する。さもなければ、本方法はステップ４００（又はオプションとしてステップ５００又は６００）で終了することもできるが、当該装置が再び給電等されると、本方法はステップ１００から進行する。

図４は、サウンド処理のための装置を示している。該装置は上述した方法を実行するために使用することができる。

該装置は、符号４１０により示され、前記第１サウンドフレームのようなサウンド信号（符号１０）のための入力端子を有することができる。これに対応して、該装置は前記第２及び第３サウンドフレームに分離される第１サウンドフレーム用の出力端子（符号２０及び３０）を更に有することができる。これらサウンドフレームの全ては符号４０で示すプロセッサに接続することができる。典型的な応用例では、該プロセッサは先の図で述べたような分離（サウンド信号への）を実行することができる。

上記サウンド信号（又は複数の信号）は、人の音声、オーディオ、音楽、音調的及び非音調的成分、又は音色的及び無音色ノイズを斯かる信号の処理の間に如何なる組合せでも示すことができる。

上記装置は、サウンド信号の直列結合のために同様の又は類似の装置に縦続結合することができる。付加的に又は代替的に、上記装置はサウンド信号の並列処理のために並列に結合することもできる。

尚、コンピュータ読み取り可能な媒体は、磁気テープ、光ディスク、デジタルビデオディスク（ＤＶＤ）、コンパクトディスク（ＣＤレコーダブル又はＣＤライタブル）、ミニディスク、ハードディスク、フロッピーディスク、スマートカード、PCMCIAカード等とすることができる。

更に、請求項において、括弧内の符号は当該請求項を限定すると見なしてはならない。また、“有する”なる文言は請求項に記載されたもの以外の構成要素又はステップの存在を排除するものではない。また、単数形の構成要素は複数の斯様な構成要素の存在を排除するものではない。

また、本発明は、幾つかの個別の要素を有するハードウェアにより、及び適切にプログラムされたコンピュータにより実施化することができる。また、幾つかの手段を列挙する装置の請求項において、これら手段の幾つかは１つの同一のハードウェア品目により具現化することができる。特定の手段が相互に相違する従属請求項において引用されるという単なる事実は、これら手段の組合せを有利に使用することができないということを示すものではない。

図１は本発明の一実施例を示し、該実施例において停止規準は正弦波解析段における正弦波成分の抽出を何時停止するかを示し、正弦波モデルに導入される抽出成分及び残留信号が示されている。図２は、一片の音楽に対する本方法の結果を示し（上側のグラフ）、各フレームにおいて消費されたシヌソイドの数が下側のグラフに示されている。図３は、供給される第１サウンドフレームから正弦波成分を表す第２サウンドフレーム及び残差を示すオプションとしての第３サウンドフレームを決定する方法を示す。図４は、サウンド処理のための装置を示す。

Claims

供給される第１サウンドフレームから正弦波成分を表す第２サウンドフレーム及び残差を表すオプションとしての第３サウンドフレームを決定する方法において、該方法が、
・前記第１サウンドフレームにおいて抽出されていない成分から正弦波成分を決定するステップと、
・前記第１サウンドフレームに関する重要度を決定するステップと、
・前記第１サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第２サウンドフレームに組み込むステップと、
・前記重要度が停止規準を満たすまで前記各ステップを繰り返すステップと、
を有し、前記第１サウンドフレームに関する重要度を決定するステップが、ステップ３００の前に実行されるか、又はステップ３００とステップ４００との間で実行されることを特徴とする方法。
請求項１に記載の方法において、
・前記重要度が前記停止規準を満たした場合に、前記第３サウンドフレームを前記第１サウンドフレームに設定するステップ、
を更に有することを特徴とする方法。
請求項１又は請求項２に記載の方法において、
前記第１サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第２サウンドフレームに組み込むステップが、
・前記正弦波成分を前記第１サウンドフレームから除去するステップ、
を更に有していることを特徴とする方法。
請求項１ないし３の何れか一項に記載の方法において、前記重要度がエネルギ量であることを特徴とする方法。
請求項１ないし４の何れか一項に記載の方法において、前記重要度が、サウンドに対する人間の応答のような音響心理学的情報を考慮に入れることを特徴とする方法。
請求項１ないし５の何れか一項に記載の方法において、前記重要度は知覚尺度が前記第１サウンドフレームを重要でないと見なす場合に前記停止規準を満たし、該知覚尺度がサウンドに対する耳の知覚を表すことを特徴とする方法。
請求項１ないし６の何れか一項に記載の方法において、前記重要度が、

のうちの少なくとも一方を有する音響心理学的エネルギレベルであり、ここで、Ｒ_m(f)は成分が除去された可能性のある前記第１サウンドフレームのパワースペクトルを表し、ａ(f)はパワーで計算された前記第１サウンドフレームのマスキング閾であるmsk(f)の逆関数を表し、ｆは周波数ビンを表し、ｍはステップ１００ないし３００が現在何回実行されているかを表す現反復番号を表し（ｍは当該反復の開始時に０に設定される）、ΔＤは前記検出可能性の増分を表すことを特徴とする方法。
請求項１ないし７の何れか一項に記載の方法において、前記重要度は前記検出可能性が１以下である場合に前記停止規準を満たすことを特徴とする方法。
請求項１ないし８の何れか一項に記載の方法において、前記重要度は前記低下が所定値より小さい場合に前記停止規準を満たすことを特徴とする方法。
請求項１ないし７の何れか一項に記載の方法において、オプションとしてステップ５００及び６００を伴う前記ステップが少なくとももう１つのサウンドフレームに対して更に実行され、これに対応して前記第１、第２及び第３サウンドフレームの新たな組が適用され、発生されることを特徴とする方法。
請求項１ないし１０の何れか一項に記載の方法を実行するコンピュータシステム。
コンピュータ読み取り可能な媒体上に記憶されたプログラムコード手段を有するコンピュータプログラムであって、該コンピュータプログラムがコンピュータ上で実行された場合に請求項１ないし１０の何れか一項に記載の方法を実行するコンピュータプログラム。
前記方法のステップを実行する手段を有するような装置。