JP2006508386A - サウンドフレームを正弦波成分と残留ノイズとに分離する方法 - Google Patents
サウンドフレームを正弦波成分と残留ノイズとに分離する方法 Download PDFInfo
- Publication number
- JP2006508386A JP2006508386A JP2004554732A JP2004554732A JP2006508386A JP 2006508386 A JP2006508386 A JP 2006508386A JP 2004554732 A JP2004554732 A JP 2004554732A JP 2004554732 A JP2004554732 A JP 2004554732A JP 2006508386 A JP2006508386 A JP 2006508386A
- Authority
- JP
- Japan
- Prior art keywords
- sound frame
- sound
- importance
- sine wave
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 66
- 230000007423 decrease Effects 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 5
- 230000010255 response to auditory stimulus Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 abstract description 7
- 230000006835 compression Effects 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 description 23
- 230000005236 sound signal Effects 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
この発明は、供給される第1サウンドフレームから正弦波成分を表す第2サウンドフレーム(20)及び残差を表すオプションとしての第3サウンドフレーム(30)を決定(10)する方法に関するものである。該方法は、抽出されていない成分の間から第1サウンドフレームにおける正弦波成分を決定するステップと、第1サウンドフレームに関して重要度(40)を決定するステップと、第1サウンドフレームから上記正弦波成分を抽出し、該正弦波成分を第2サウンドフレームに組み込むステップと、上記重要度が停止規準(50)を満たすまで上記ステップを繰り返すステップとを含む。本方法において、第1サウンドフレームに関して重要度を決定する前記ステップは、上記第3ステップの前に実行することができるか、又は第3ステップと第4ステップとの間に実行することができる。該方法は、更に、前記重要度が前記停止規準を満たした場合に、第3サウンドフレームを第1サウンドフレームに設定するステップを含む。これは、必然的に正弦波状の成分のみが後の圧縮に使用するために抽出されるのを可能にする。
Description
本発明は、供給される第1サウンドフレームから正弦波成分を表す第2サウンドフレーム及び残差を表すオプションとしての第3サウンドフレームを決定する方法に関する。
また、本発明は上記方法を実行するコンピュータシステムにも関する。
更に、本発明は上記方法を実行するコンピュータプログラム製品にも関する。
更に、本発明は上記方法のステップを実行する手段を有する装置にも関する。
米国特許第6,298,322号は、優勢な及びベクトル量子化された残留音調信号(residual tonal signal)を使用した音調的オーディオ信号の符号化及び合成を開示している。エンコーダは、当該音調的オーディオ信号の限られた数の優勢正弦波成分に関して時間的に変化する周波数、振幅及び位相を決定し、残留正弦波パラメータシーケンスを形成する。これらの(優勢な)成分は当該音調的オーディオ信号から除去されて、残留音調信号を形成する。該残留音調信号は、所謂残留音調信号エンコーダ(RTSE)を使用して符号化される。
オーディオ信号の正弦波プラス残留符号化において、オーディオがセグメント化され、各フレームが正弦波部プラス残差によりモデル化されることは、慣用的知識及び上述した従来技術における知識である。上記正弦波部分は、典型的には、正弦波成分の和である。殆どの正弦波コーダにおいては、上記残差は確率的信号であると仮定され、ノイズによりモデル化することができる。これが当てはまる場合、当該信号の正弦波部分は、元のフレームの全ての決定的(即ち、音調的)成分の責任を負わなければならない。
正弦波部分が全ての音調成分の責任を負わない場合、幾つかの音調成分はノイズによりモデル化される。ノイズは音調(トーン)をモデル化するには適していないので、これはアーチファクトを生じ得る。正弦波部分が決定的部分より多くの責任を負う場合、正弦波成分がノイズをモデル化している。これは2つの理由により望ましくない。一方において、シヌソイドは雑音性信号をモデル化するには適しておらず、アーチファクトが現れ得る。他方において、これら成分がノイズによりモデル化されたとしたら、より多くの圧縮を達成することができる。
現状技術は、この問題、即ち正弦波部と残差とへの良好な分離を如何に得るかを扱う幾つかの方法を提案している。
1998年、スタンフォード大学、物理学博士論文、S.N. Levine、“データ圧縮及び圧縮されたドメイン処理のためのオーディオ表現”;
1999年、オーディオ及び音響への信号処理の応用に関する1999IEEE会報、第43〜46頁、S. N. Levine、J. O. Smith、“スイッチパラメトリック及び変換オーディオコーダの改善”;
1999年、10月17〜20日、ニューヨーク、ニューパルツ、オーディオ及び音響への信号処理の応用に関する1999IEEEワークショップ会報、第43〜46頁、S. N. Levine及びJ. O. Smith三世、“スイッチパラメトリック及び変換オーディオコーダの改善”;
1998年、11月、スペイン、バルセロナ、デジタルオーディオ効果会報、第19〜21頁、G. Peeters及びX.
Rodet“正弦波及び非正弦波成分に関する信号特徴化”;
1997年8月27〜29日、英国、コベントリー、ワーウィック大学、IEEE時間−周波数及びタイム−スケールワークショップ(TFTS’97)会報、X.
Rodet“音楽サウンド信号解析/合成:正弦波+残留及び基本波形モデル”。
Rodet“正弦波及び非正弦波成分に関する信号特徴化”;
1997年8月27〜29日、英国、コベントリー、ワーウィック大学、IEEE時間−周波数及びタイム−スケールワークショップ(TFTS’97)会報、X.
Rodet“音楽サウンド信号解析/合成:正弦波+残留及び基本波形モデル”。
幾つかの方法は、完全に信号特性に基づいている。
1998年11月、スペイン、バルセロナ、デジタルオーディオ効果会報、G. Peeters及びX.
Rodet“正弦波及び非正弦波成分に関する信号特徴化”;
Rodet“正弦波及び非正弦波成分に関する信号特徴化”;
1997年8月27〜29日、英国、コベントリー、ワーウィック大学、IEEE時間−周波数及びタイム−スケールワークショップ(TFTS’97)会報、X.
Rodet“音楽サウンド信号解析/合成:正弦波+残留及び基本波形モデル”。
Rodet“音楽サウンド信号解析/合成:正弦波+残留及び基本波形モデル”。
他のものは、より音響心理学的考察に基づいている。
1998年、スタンフォード大学、物理学博士論文、S.N. Levine、“データ圧縮及び圧縮されたドメイン処理のためのオーディオ表現”;
1999年、オーディオ及び音響への信号処理の応用に関する1999IEEE会報、第43〜46頁、S. N. Levine、J. O. Smith、“スイッチパラメトリック及び変換オーディオコーダの改善”;
1999年、10月17〜20日、ニューヨーク、ニューパルツ、オーディオ及び音響への信号処理の応用に関する1999IEEEワークショップ会報、第43〜46頁、S. N. Levine及びJ. O. Smith三世、“スイッチパラメトリック及び変換オーディオコーダの改善”。
残念ながら、正弦波部分及び残差への分離を行うことは容易ではなく、これら方法の何れも完全に満足のゆく結果を提供していない[例えば、1998年11月、スペイン、バルセロナ、デジタルオーディオ効果会報、G. Peeters及びX.
Rodet“正弦波及び非正弦波成分に関する信号特徴化”参照]。
Rodet“正弦波及び非正弦波成分に関する信号特徴化”参照]。
従って、本発明の目的は、入力信号の決定的及び確率的部分の間の良好な分離を有し、これによりアーチファクトを防止すると共に、斯かる分離された信号の後の圧縮において、最適且つ効率的な圧縮又は符号化を達成することにある。
上記目的は、冒頭で述べた方法が、
・ 前記第1サウンドフレームにおいて抽出されていない成分から正弦波成分を決定するステップと、
・ 前記第1サウンドフレームに関する重要度を決定するステップと、
・ 前記第1サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第2サウンドフレームに組み込むステップと、
・ 前記重要度が停止規準を満たすまで前記各ステップを繰り返すステップと、
を有する場合に達成される。
・ 前記第1サウンドフレームにおいて抽出されていない成分から正弦波成分を決定するステップと、
・ 前記第1サウンドフレームに関する重要度を決定するステップと、
・ 前記第1サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第2サウンドフレームに組み込むステップと、
・ 前記重要度が停止規準を満たすまで前記各ステップを繰り返すステップと、
を有する場合に達成される。
上記方法は、既存の方法より多くの利点を有する。符号化段に導入される余分な複雑さは殆ど零である。更に、該複雑さは更に低下することができる。何故なら、本方法は、最後のステップにおいて、正弦波成分の抽出を何時停止するかを示すからである。結果として、第3ステップにおいて必要以上のシヌソイドが抽出されることがない。更に、音響心理学的考慮を容易に組み込むことができる。最も重要には、本方法は、入力フレームの性質、即ち前記第1サウンドフレームの性質を考慮に入れて、良好な確率的/決定的バランスを付与する。
本発明の好ましい実施例においては、第2ステップ(重要度を決定するステップ)は、第3ステップの前に実行することができるか、又は第3ステップと第4ステップとの間に実行することができる。
本発明の好ましい実施例において、本方法は、
・ 前記重要度が前記停止規準を満たした場合に、前記第3サウンドフレームを前記第1サウンドフレームに設定するステップ、
を更に有する。
・ 前記重要度が前記停止規準を満たした場合に、前記第3サウンドフレームを前記第1サウンドフレームに設定するステップ、
を更に有する。
これにより、前記残差(即ち、第3サウンドフレーム)を、分離された信号(即ち、第2及び第3サウンドフレーム)の後の圧縮に対する入力として供給するが可能となる。
本発明の好ましい実施例においては、前記第1サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第2サウンドフレームに組み込むステップが、
・ 前記正弦波成分を前記第1サウンドフレームから除去するステップ、
を更に有する。
・ 前記正弦波成分を前記第1サウンドフレームから除去するステップ、
を更に有する。
これにより、正弦波成分及び/又は重要度の後の決定が、より正確となるという利点が得られる。
本発明の他の代替実施例は請求項4ないし10に反映されている。
以下、本発明を好ましい実施例に関し図面を参照して更に詳細に説明する。尚、全図を通して、同一の符号は同様の又は対応するフィーチャ、機能、サウンドフレーム等を示している。
図1は、正弦波抽出への停止規準の導入を示すと共に、入力フレームが如何にして2つの異なる信号、即ち正弦波モデルに導入される抽出正弦波成分及び残留信号、に分離されるかを示している。
図は、本発明の一実施例を示し、該実施例においては複雑さの少ない音響心理学的エネルギ型停止規準が当該分離に適用される。該図は当該システムのブロック図を示す。符号10により示す入力フレームが、抽出方法に入力される。該抽出方法は各反復において1つの正弦波成分を抽出する。各抽出の後、2つの異なる信号、即ち符号20で示す正弦波モデルに導入(即ち、追加又は添付)される抽出成分及び符号30により示す残留信号、が得られる。次いで、広くは又は通常は符号40で示すように重要度と呼ばれるような、音響心理学的尺度又はエネルギ量が上記残留信号から計算される。該尺度により提供される情報から、符号50により示される停止規準に基づいて、当該残留信号に依然として何らかの重要な音調成分が存在するか否かの判断がなされる。後者の場合当該抽出方法は停止されねばならず、及びその逆となる。
この情報を提供する上記尺度は、残留信号の検出可能性(detectability)及び検出可能性低下(reduction)と呼ばれる。該検出可能性尺度は、2002年、5月13〜17日、米国、オルランド、IEEE国際会議、音響、音声及び信号処理会報、S. van de Par、A. Kohlrausch、M. Charestan、R.Heusdensの“オーディオ符号化アプリケーション用の新たな音響心理学的マスキングモデル”に提示された音響心理学的モデルの検出可能性に基づくものである。
残差の検出可能性の値は、どの程度多くの音響心理学的関連パワーが当該残差に依然として残されているかを示す。該値が反復mにおいて1以下の値に到達すると、これは、残されたエネルギが聴き取り不可能であることを意味する。前記検出可能性低下は、抽出前に残存しているパワーに対して1回の抽出後に、どの程度多くの関連パワーが低減されたかを示す。符号40で示すブロック「重要度計算」は、
なる式に従って残差の検出可能性及び該検出可能性の低下を計算することができる、上記式において、Rm(f)は残留信号のパワースペクトルを表し、a(f)は入力信号のマスキング閾であるmsk(f)の逆関数を表し(パワーで計算される)、fは周波数ビンを表し、mは反復番号を表し、ΔDは検出可能性の低下分を表す。
上記検出可能性は、残されたエネルギが可聴であるかを示し、該検出可能性の低下(reduction)は、入力フレームの決定的及び確率的部分の間をどの様に区別するかの指示子を与える。その理由は、検出可能性は、抽出されたピークが音調成分である場合の方が、抽出されたピークが雑音性成分である場合よりも通常は多く減少されるからである。そして、当該抽出アルゴリズムは、検出可能性の値が1以下であるか、又は該検出可能性の低下が或る値(雑音性成分が抽出される場合の低下の値に相当すると仮定する)に到達するかの何れかの場合に成分の抽出を停止しなければならない。
導入された上記尺度は、例えば2002年、5月13〜17日、米国、オルランド、IEEE国際会議、音響、音声及び信号処理会報、R. Heusdens、S. van de Par(2001)の“音響心理学的マッチング追求を用いたオーディオ及び音声のレート/歪最適正弦波モデル化”に提示された音響心理学的マッチング追求のような音響心理学的抽出方法とのみ組み合わされるべきであることに注意すべきであろう。その理由は、当該抽出方法が音響心理学を使用しない場合、上記尺度は劣った指示子を提供する可能性があるからである。例えば、当該抽出方法が音響心理学的考慮を伴わないエネルギ型の抽出方法(通常のマッチング追求のような)である場合、各反復においてエネルギを最も低減させるピークが減算される。これが当てはまる場合、エネルギの低下は大きい一方、当該ピークが音響心理学的に重要でない場合、検出可能性の低下は小さいかも知れない。結果として、当該抽出方法は停止されるが、知覚的に関連する音調成分は当該信号中に依然として残存され得る。かくして、使用される抽出方法が音響心理学を含まない場合は、前記停止規準に対する変更が推奨される。この場合、決定的/確率的バランスのための指示子として、検出可能性の低下に代えてエネルギ低下を使用することが推奨される。
先に述べた解決策とは相違して、この解決策は抽出の間に判断を実行する。従って、当該システムに複雑さを持ち込む唯一の事項は、各反復mにおける前記尺度の計算である。しかしながら、当該方法が音響心理学的抽出方法と組み合わされた場合、持ち込まれる複雑さは無視可能である。何故なら、マスキング閾は該抽出方法により既に計算されているからである。
今まで述べた尺度、即ち重要な尺度としての音響心理学的尺度及びエネルギ量の代わりとして、他の代替尺度を重要な尺度として考慮することもできる。
前記音響心理学は聴覚的知覚(サウンドに対する人間の聴覚系の応答)に対する他の言葉である。上記音響心理学的尺度においては、人の応答が考慮される。この様に、音響心理学的尺度は、サウンドに対する人の応答を組み込む重要度の一例である。しかしながら、これは特定の実施例である。勿論、聴覚的知覚の一層進んだ実施化を行うことも可能である。更に、サウンドに対する人の応答を考慮に入れない重要度も有効である。このような重要度の一例は、前述したエネルギ量である。図2は、音楽に適用された停止規準に関する結果を示している(上側のグラフ)。各フレームにおいて費やされたシヌソイドの数が下側のグラフに示されている。
(入力)信号の確率的及び決定的部分の間を区別するための上記尺度の利用可能性をチェックするために、正弦波コーダにおいて符号50の停止規準が実施化され、テストされた。選択されたコーダは、SiCAS(オーディオ及び音声の正弦波符号化)コーダであった。デフォルト状態においては、各フレームにおいて固定数のピークが抽出される。
使用される抽出方法は、2002年、5月13〜17日、米国、オルランド、IEEE国際会議、音響、音声及び信号処理会報、R. Heusdens、S. van de Par(2001)の“音響心理学的マッチング追求を用いたオーディオ及び音声のレート/歪最適正弦波モデル化”に提示された音響心理学的マッチング追求である。
各反復において、該方法は、入力信号のマスキング閾に従い最も音響心理学的に関連のあるピークを抽出する。従って、式(1)におけるマスキング閾は計算する必要はない。何故なら、斯かるマスキング閾は該抽出方法により既に計算されているからである。
低下の閾値は1つの固有の値には設定されなかった。代わりに、或る範囲の値(0.25なるステップで、3.5から5.5まで)が選択された。次いで、音声及び1つのオーディオの信号の群が、これら値の各々を用いて符号化された。両状況を比較するために、同じ信号がフレーム毎に固定数(12から20まで)のシヌソイドを用いて符号化された。
非公式な聴き取り実験は、次節で説明するような結果を導出した。
2つの異なる状況(本発明による停止規準による場合、及び固定数のシヌソイドによる場合)を比較するために、一対の符号化/復号信号が、品質が同一であるように選択された。そして、2つの結果が得られた。第1に、上記停止規準を用いる場合、シヌソイドの割り当ては、フレーム毎に固定数(のシヌソイド)が抽出される場合におけるより良好である。言い換えると、シヌソイドの割り当ては、より良好な決定的/確率的バランスを提供する。図は、シヌソイドが、ランダムに選択された一片の符号化例示歌にどの様に割り当てられるかを示している。図に見られる傾向は、より多くの数のシヌソイドが、(入力)信号が一層調和的な個所において、即ち、より雑音的である(即ち、開始部及び終了部の非発声部にある)場合よりも中間の発声部において消費されるということである。
このシヌソイドの良好な割り当ては、符号化された信号の正弦波部分を聴き取ることにより容易に気が付くことができる。かくして、発声された部分は明瞭に聴き取ることができる(その様にモデル化される)一方、非発声部分は聞くことができない(何故なら、これら部分は上記シヌソイドモデルによりモデル化されないからである)。
第2に、音楽の全体の部分で使用されるシヌソイドの数が通常は低減され、結果として、ビットレートも低減される。
この出願を通して、“サウンド”なる表現がなされる場合、これは人の音声、オーディオ、音楽、音調的及び非音調的成分、又は有音色及び無音色ノイズを如何なる組合せでも示そうとするものであり、サウンドは上記抽出方法に対する入力として供給することができると共に、以下に述べる方法にも供給することができる。
図3は、供給される第1サウンドフレームから、正弦波成分を表す第2サウンドフレーム及び残差を表すオプションとしての第3サウンドフレームを決定する方法を示している。
第1サウンドフレームは前述した入力信号に対応するもので、正弦波及び残差を表し、第2サウンドフレームはシヌソイドを表し、第3サウンドフレームは残差を表す。第2及び第3サウンドフレームは、最初は空であるか、又は前の(第1)サウンドフレームの本方法への適用からの内容を含むことができる。
ステップ90において、本方法は図示の実施例に従い開始される。処理されるサウンド信号に対応する入力(第1)及び出力(第2及び第3)サウンドフレーム、成分、重要度等を追跡する変数、フラグ、バッファ等が初期化されるか又はデフォルト値に設定される。当該方法が2回目に反復される場合、損なわれた変数、フラグ、バッファ等のみがデフォルト値に設定される。
ステップ100において、第1サウンドフレームにおける正弦波成分を決定することができる。典型的には、該成分は何らかの重要なサウンド情報を表すであろう。即ち、該成分は主に音調的、非雑音性情報を含む。
最も簡単な決定方法(上記成分決定のための)は、入力信号の(即ち、第1サウンドフレームの)スペクトルにおける最も顕著なピークを抽出することからなる。元のオーディオ信号は解析ウインドウにより乗算され、各フレームに関して高速フーリエ変換が、
と計算され、ここで,x(n)は元のオーディオ信号(のフレーム)であり、w(n)は解析ウインドウであり、wkはラジアンでのk番目のビン(2πk/N)の周波数であり、Nはサンプルでの当該フレームの長さであり、lは当該フレームの番号であり、Hはウインドウの時間進みである。
以下の文献には、ピーク抽出方法が記載されている:
1990年、スタンフォード大学、物理学博士論文、X. Serra、“決定的プラス確率的分解に基づくサウンド解析/変換/合成のためのシステム”;
1990年、信号処理V:理論及び応用、X. Serra及びJ.O. Smith、“決定的プラス確率的分解に基づくサウンド解析/変換/合成のためのシステム”;
1998年、クルウェル学術出版、M. Goodwin、“適応型信号モデル.理論、アルゴリズム及びオーディオ用途”;
1996年、音響、音声及び信号処理に関するIEEE国際会議会報、第1005〜1008頁、M. Goodwinの“音楽解析/合成における残差モデル化”;
1997年、時間−周波数及びタイム−スケール方法の応用に関する第2回IEEEシンポジウム会報、第111〜120頁、X. Rodet“音楽サウンド信号解析/合成:正弦波+残留及び基本波形モデル”;及び
1998年、デジタルオーディオ効果、G. Peeters及びX. Rodet“正弦波及び非正弦波成分に関する信号特徴化”、1993年ICASSP’93会報、第221〜224頁、B.
Doval及びX. Rodet、“最大尤度を使用した基本周波数推定及び追跡”。
Doval及びX. Rodet、“最大尤度を使用した基本周波数推定及び追跡”。
他の有効な決定技術は、2002年、5月13〜17日、米国、オルランド、IEEE国際会議、音響、音声及び信号処理会報、R. Heusdens、S. van de Par(2001)の“音響心理学的マッチング追求を用いたオーディオ及び音声のレート/歪最適正弦波モデル化”、に提示された音響心理学的マッチング追求である。この方法は、知覚的に最も関連のある正弦波成分を反復的に決定する。
ステップ200において、第1サウンドフレームに対して重要度を決定することができる。該第1サウンドフレームは、本方法への入力であり、該方法の終わりにおいて更に説明するように、本方法は歌又は他の論理的に一緒に結合されたサウンド内容を有するようなサウンドフレームに適用することができる。前記重要度は、通常は、続いて決定された残存信号又は残差、即ち最終的に決定された正弦波成分(又は複数の成分)であって次のステップにおいて抽出された正弦波成分を有さない第1サウンドフレーム、が重要な音調成分を含まないか、又は幾らかの重要な音調(正弦波状)成分が(上記第1サウンドフレームに)確率的に依然として残存しているかの判断を行うために使用される。第1の場合において当該方法が停止されねばならないか、又は第2の場合において当該方法を継続することができるようになる。
第1サウンドフレームは現在のところ(特に、ステップ100及び300の反復の間において)、より少ない正弦波成分しか有さないかもしれないこと注意することが重要である。何故なら、ステップ100においてその都度正弦波成分が決定され、続いて該成分はステップ300において(第1サウンドフレームから)除去されるからである。
Rm(f)は恐らくは成分(又は複数の成分)が除去された第1サウンドフレームのパワースペクトル、a(f)は、パワーで計算された、自身から除去された成分(又は複数の成分)を有さない第1サウンドフレームのマスキング閾、msk(f)の逆関数、fは周波数ビン、mは、このステップ及び後続のステップ300及び400が、現在、何回実行されているかを表す現在の反復数(mは反復の開始時に0に設定される)、ΔDは前記検出可能性のインクリメント(増分)である。前記msk(f)、即ち第1サウンドフレームのマスキング閾、は本方法の開始前に計算することができる。何故なら、該閾は開始点における、即ち成分が除去されていない時点における第1サウンドフレームを考慮に入れるからである。逆に、Rm(f)、即ち第1サウンドフレームのパワースペクトル、は成分(又は複数の成分)を有さない可能性があり(何故なら、これら成分は後続のステップ300の間に除去される可能性があるからである)、当該方法の実行の間において現時点で計算され、これにより、前述した残差における現在の音響心理学的エネルギレベルを反映する。
上記知覚尺度の代替例として、他の一層進んだ知覚尺度を考慮することもできる。これらの進んだ知覚尺度は、例えば、サウンドの時間的特性を考慮に入れることができる。更に、聴覚的知覚を考慮しない重要度も有効である。
ステップ300において、正弦波成分を第1サウンドフレームから抽出し、第2サウンドフレームに組み込むことができる。ここでは、幾つかの構成が可能である。一実施例においては、上記正弦波成分は該成分のパラメータ(例えば、振幅、位相等)によってのみ第1サウンドフレームから単に抽出される(即ち、該成分は物理的には除去されない)。しかしながら、この場合、該方法は上記成分(正弦波成分)が実際に抽出されたように記録し(タグ付け、注記等により)、後続の反復において全く同一の正弦波成分を抽出するのを防止する必要がある。
代わりに又は逆に、“正弦波成分を第1サウンドフレームから除去する(600)”と記載されるように、オプション的なステップ600において上記正弦波成分は第1サウンドフレームから除去される(即ち、実際に物理的に除去される)が、これは一層多くの処理パワーを要する。
これらの場合の何れにおいても、上記第2サウンドフレームは抽出された正弦波成分(又は複数の成分)を現時点で組み込んでいるであろう。このような理由で、第2サウンドフレームは正弦波成分のみを有する。
前記重要度は、前記検出可能性が1以下である場合に前記停止規準を満たし得る。他の例として、前記重要度は、前記低下が所定値より小さい場合に前記停止規準を満たし得る。
当該方法の実行の間において、上記検出可能性規準から上記低下規準へ、又はその逆等に切り換えることも考えられる。
ステップ400において、上記重要度が上記停止規準を満たすまで、上記ステップ(100〜300)をオプションとしてステップ600(前記第1サウンドフレームから正弦波成分を実際に削除する)と共に繰り返すことが判断される。第1サウンドフレームが依然としてもっと正弦波成分を含み、ステップ100〜300の反復(このステップ及び後続のステップ200及び300が現在のところ何回実行されているかを表す現反復番号としてのmによる)により、新たな正弦波の抽出されていない成分が各実行において見付けられる場合もあり得る。結果として、第1サウンドフレームは、その都度、抽出された成分だけ少ないままとなる。ステップ600としてオプション的に、第1サウンドフレームは、その都度、物理的に正弦波成分の分だけ少ないままとなる。更に、これに対応して、特に、オプションとして述べたステップ600として、正弦波成分が第1サウンドフレームから物理的に除去された場合に、前記重要度に影響する。
第1サウンドフレームに関し重要度を決定するステップ200は、ステップ300の前に実行することができるか、又はステップ300とステップ400との間で実行することもできることに言及することも大事であろう。これは、ステップ200を独立に計算することができる故に可能である。
オプション的ステップとしてのステップ500において、前記重要度が前述した停止規準のうちの1つを満たす場合に、第3サウンドフレームを第1サウンドフレームに設定することができる。この時点で、第1サウンドフレームは重要でない成分のみを有する。何故なら、重要な正弦波成分はステップ100〜400において除去されたからである。言い換えると、この時点での第1サウンドフレームは、主に非音調成分又は重要でないと見なされる音調成分を表すような残差を有する。即ち、残存する第1サウンドフレームのコピーとしての第3サウンドフレームは、全ての重要な成分(即ち、ステップ300で述べたように、例えばピーク等)が物理的に除去される、又はこれら(重要な成分)が第3サウンドフレームには属さないことを示す注記若しくはタグ付けを少なくとも有する場合、ここでは前述した残留若しくは残存部分若しくは信号と理解することができる。
今までに述べたステップは、下記のように要約することができる。
第1反復ステップにおいて(即ち、ステップ100において)、(元の)入力フレーム(即ち、第1サウンドフレーム)が当該方法に入力される。次いで、正弦波成分が決定され(例えばエネルギ極大等の何らかの規準に従い)、このフレームから抽出される(即ち、この時点では依然として第1サウンドフレームのみが考察される)。この結果、残留信号(この成分を元の入力フレームから引いたもの)が得られる。次いで、第1サウンドフレーム(最終的に抽出される正弦波成分を有さない)の重要さ(即ち、前記重要度)が決定される。該重要度が充分に高い場合(即ち、上記重要度によって)、まだ停止すべき時ではなく、他の反復がなされる。上記正弦波成分はステップ300において第2サウンドフレームに追加(即ち、抽出及び移動)される。上記重要度が充分に高くない場合、本方法は停止する。次の反復ステップにおいては、上記残差(依然として第1サウンドフレームであるが、幾つかの正弦波成分は該フレームから抽出されているかも知れない)が当該方法に入力される。再び、抽出されていない成分の間から正弦波成分が決定され、抽出される。当該重要度が決定される(((最終的に抽出される正弦波成分のない)第1サウンドフレームに対する)前記重要度による)。その重要度(即ち、前記重要度のうちの1つ)が充分に高い場合、ステップ400において表現される事項に応じて、当該方法は繰り返す等々となる。
従って、第1サウンドフレームは最初の反復ステップにおいては入力フレームに等しく、他の反復ステップにおいては、(残差としての)入力フレームから既に抽出された成分を引いたものに等しくなる。各反復ステップにおいては、新たな正弦波成分が抽出される。その結果は、新たな残差となる。この新たな残差は、ステップ500においてオプション的に実行される事項に対応するような第3サウンドフレームである。この新残差、即ち第3サウンドフレームは、当該方法が自身のタスクを完了した場合には、前記第1サウンドフレームと新たに抽出された正弦波成分(又は複数の成分)との間の差分である。
第2サウンドフレームは、今までに抽出された成分の和である。従って、第2サウンドフレームはシヌソイドを表す。
重要度が決定されるステップ200等は、ステップ300の前、又はステップ300と400との間に実行することができる。
ステップ100ないし400は、1以上のサウンドフレームに対して、即ち第1、第2及び第3サウンドフレームの新たな組に対して更に実行することができ、新たな反復番号等が上記サウンドフレームの各々に対して対応して適用される。これに対応して、オプションとしてのステップ500及び600も更に適用される。例えば、歌を複数のフレームに副分割することができ、ステップ100ないし500等の適用により、これらフレームの各々(各フレームは最初は第1サウンドフレームと見なされる)は、正弦波の又は音調的成分を表す対応する第2サウンドフレーム及び残差を表す対応するオプションの第3サウンドフレームに分離される。
結果として、上記歌は正弦波の又は音調的成分のフレームと、残差とに各々分離される。かくして、これらは、分離されたフレームの後の圧縮に使用することができる。これにより、上記歌(上記部分に分離された)の最適且つ効率的な圧縮又は符号化を達成することができる。
通常、本方法は当該装置が給電されている限り、再び最初から開始する。さもなければ、本方法はステップ400(又はオプションとしてステップ500又は600)で終了することもできるが、当該装置が再び給電等されると、本方法はステップ100から進行する。
図4は、サウンド処理のための装置を示している。該装置は上述した方法を実行するために使用することができる。
該装置は、符号410により示され、前記第1サウンドフレームのようなサウンド信号(符号10)のための入力端子を有することができる。これに対応して、該装置は前記第2及び第3サウンドフレームに分離される第1サウンドフレーム用の出力端子(符号20及び30)を更に有することができる。これらサウンドフレームの全ては符号40で示すプロセッサに接続することができる。典型的な応用例では、該プロセッサは先の図で述べたような分離(サウンド信号への)を実行することができる。
上記サウンド信号(又は複数の信号)は、人の音声、オーディオ、音楽、音調的及び非音調的成分、又は音色的及び無音色ノイズを斯かる信号の処理の間に如何なる組合せでも示すことができる。
上記装置は、サウンド信号の直列結合のために同様の又は類似の装置に縦続結合することができる。付加的に又は代替的に、上記装置はサウンド信号の並列処理のために並列に結合することもできる。
尚、コンピュータ読み取り可能な媒体は、磁気テープ、光ディスク、デジタルビデオディスク(DVD)、コンパクトディスク(CDレコーダブル又はCDライタブル)、ミニディスク、ハードディスク、フロッピーディスク、スマートカード、PCMCIAカード等とすることができる。
更に、請求項において、括弧内の符号は当該請求項を限定すると見なしてはならない。また、“有する”なる文言は請求項に記載されたもの以外の構成要素又はステップの存在を排除するものではない。また、単数形の構成要素は複数の斯様な構成要素の存在を排除するものではない。
また、本発明は、幾つかの個別の要素を有するハードウェアにより、及び適切にプログラムされたコンピュータにより実施化することができる。また、幾つかの手段を列挙する装置の請求項において、これら手段の幾つかは1つの同一のハードウェア品目により具現化することができる。特定の手段が相互に相違する従属請求項において引用されるという単なる事実は、これら手段の組合せを有利に使用することができないということを示すものではない。
Claims (13)
- 供給される第1サウンドフレームから正弦波成分を表す第2サウンドフレーム及び残差を表すオプションとしての第3サウンドフレームを決定する方法において、該方法が、
・ 前記第1サウンドフレームにおいて抽出されていない成分から正弦波成分を決定するステップと、
・ 前記第1サウンドフレームに関する重要度を決定するステップと、
・ 前記第1サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第2サウンドフレームに組み込むステップと、
・ 前記重要度が停止規準を満たすまで前記各ステップを繰り返すステップと、
を有し、前記第1サウンドフレームに関する重要度を決定するステップが、ステップ300の前に実行されるか、又はステップ300とステップ400との間で実行されることを特徴とする方法。 - 請求項1に記載の方法において、
・ 前記重要度が前記停止規準を満たした場合に、前記第3サウンドフレームを前記第1サウンドフレームに設定するステップ、
を更に有することを特徴とする方法。 - 請求項1又は請求項2に記載の方法において、
前記第1サウンドフレームから前記正弦波成分を抽出すると共に該正弦波成分を前記第2サウンドフレームに組み込むステップが、
・ 前記正弦波成分を前記第1サウンドフレームから除去するステップ、
を更に有していることを特徴とする方法。 - 請求項1ないし3の何れか一項に記載の方法において、前記重要度がエネルギ量であることを特徴とする方法。
- 請求項1ないし4の何れか一項に記載の方法において、前記重要度が、サウンドに対する人間の応答のような音響心理学的情報を考慮に入れることを特徴とする方法。
- 請求項1ないし5の何れか一項に記載の方法において、前記重要度は知覚尺度が前記第1サウンドフレームを重要でないと見なす場合に前記停止規準を満たし、該知覚尺度がサウンドに対する耳の知覚を表すことを特徴とする方法。
- 請求項1ないし7の何れか一項に記載の方法において、前記重要度は前記検出可能性が1以下である場合に前記停止規準を満たすことを特徴とする方法。
- 請求項1ないし8の何れか一項に記載の方法において、前記重要度は前記低下が所定値より小さい場合に前記停止規準を満たすことを特徴とする方法。
- 請求項1ないし7の何れか一項に記載の方法において、オプションとしてステップ500及び600を伴う前記ステップが少なくとももう1つのサウンドフレームに対して更に実行され、これに対応して前記第1、第2及び第3サウンドフレームの新たな組が適用され、発生されることを特徴とする方法。
- 請求項1ないし10の何れか一項に記載の方法を実行するコンピュータシステム。
- コンピュータ読み取り可能な媒体上に記憶されたプログラムコード手段を有するコンピュータプログラムであって、該コンピュータプログラムがコンピュータ上で実行された場合に請求項1ないし10の何れか一項に記載の方法を実行するコンピュータプログラム。
- 前記方法のステップを実行する手段を有するような装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02079940 | 2002-11-27 | ||
PCT/IB2003/004871 WO2004049310A1 (en) | 2002-11-27 | 2003-10-29 | Method for separating a sound frame into sinusoidal components and residual noise |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006508386A true JP2006508386A (ja) | 2006-03-09 |
JP2006508386A5 JP2006508386A5 (ja) | 2006-12-14 |
Family
ID=32338111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004554732A Pending JP2006508386A (ja) | 2002-11-27 | 2003-10-29 | サウンドフレームを正弦波成分と残留ノイズとに分離する方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20060149539A1 (ja) |
EP (1) | EP1568011A1 (ja) |
JP (1) | JP2006508386A (ja) |
KR (1) | KR20050086761A (ja) |
CN (1) | CN1717576A (ja) |
AU (1) | AU2003274526A1 (ja) |
WO (1) | WO2004049310A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
CN105489225B (zh) * | 2015-11-27 | 2019-07-16 | 哈尔滨工业大学 | 一种含次级通道在线辨识的前馈型窄带主动噪声控制系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5812737A (en) * | 1995-01-09 | 1998-09-22 | The Board Of Trustees Of The Leland Stanford Junior University | Harmonic and frequency-locked loop pitch tracker and sound separation system |
US5834672A (en) * | 1995-11-09 | 1998-11-10 | Chromatic Research, Inc. | Non-linear tone generator |
US6868163B1 (en) * | 1998-09-22 | 2005-03-15 | Becs Technology, Inc. | Hearing aids based on models of cochlear compression |
US6298322B1 (en) * | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
CA2349041A1 (en) * | 2001-05-28 | 2002-11-28 | Alireza Karimi Ziarani | System and method of extraction of sinusoids of time-varying characteristics |
-
2003
- 2003-10-29 AU AU2003274526A patent/AU2003274526A1/en not_active Abandoned
- 2003-10-29 KR KR1020057009340A patent/KR20050086761A/ko not_active Application Discontinuation
- 2003-10-29 WO PCT/IB2003/004871 patent/WO2004049310A1/en not_active Application Discontinuation
- 2003-10-29 EP EP03758500A patent/EP1568011A1/en not_active Withdrawn
- 2003-10-29 JP JP2004554732A patent/JP2006508386A/ja active Pending
- 2003-10-29 CN CNA2003801041530A patent/CN1717576A/zh active Pending
- 2003-10-29 US US10/536,259 patent/US20060149539A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP1568011A1 (en) | 2005-08-31 |
AU2003274526A1 (en) | 2004-06-18 |
KR20050086761A (ko) | 2005-08-30 |
WO2004049310A1 (en) | 2004-06-10 |
US20060149539A1 (en) | 2006-07-06 |
CN1717576A (zh) | 2006-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4512574B2 (ja) | 音声活動に基づくゲイン制限による音声強化についての方法、記録媒体、及び装置 | |
CA2600713C (en) | Time warping frames inside the vocoder by modifying the residual | |
AU656787B2 (en) | Auditory model for parametrization of speech | |
US6044341A (en) | Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice | |
JP6026678B2 (ja) | 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法 | |
JP4803938B2 (ja) | オーディオ符号化用のラゲール関数 | |
JP4740609B2 (ja) | 有声音および無声音の検出装置、並びにその方法 | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
EP2596496B1 (en) | A reverberation estimator | |
EP1312075B1 (en) | Method for noise robust classification in speech coding | |
EP1386313B1 (en) | Speech enhancement device | |
US6246979B1 (en) | Method for voice signal coding and/or decoding by means of a long term prediction and a multipulse excitation signal | |
US20090138271A1 (en) | Parametric audio coding comprising amplitude envelops | |
JPH07199997A (ja) | 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法 | |
JP2006508386A (ja) | サウンドフレームを正弦波成分と残留ノイズとに分離する方法 | |
US6219636B1 (en) | Audio pitch coding method, apparatus, and program storage device calculating voicing and pitch of subframes of a frame | |
US20090055171A1 (en) | Buzz reduction for low-complexity frame erasure concealment | |
US5937374A (en) | System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame | |
JP3559485B2 (ja) | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
JP2006510938A (ja) | 音声符号化における正弦波の選択 | |
WO2019216192A1 (ja) | ピッチ強調装置、その方法、およびプログラム | |
Nuzman | Audio restoration: An investigation of digital methods for click removal and hiss reduction | |
JP2006126372A (ja) | オーディオ信号符号化装置、方法及びプログラム | |
JPH1138998A (ja) | 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091006 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100302 |