JP5172965B2 - 知覚モデルの適応的調整 - Google Patents

知覚モデルの適応的調整 Download PDF

Info

Publication number
JP5172965B2
JP5172965B2 JP2010530556A JP2010530556A JP5172965B2 JP 5172965 B2 JP5172965 B2 JP 5172965B2 JP 2010530556 A JP2010530556 A JP 2010530556A JP 2010530556 A JP2010530556 A JP 2010530556A JP 5172965 B2 JP5172965 B2 JP 5172965B2
Authority
JP
Japan
Prior art keywords
signal
bit rate
parameter
mask ratio
ratio parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010530556A
Other languages
English (en)
Other versions
JP2011501228A (ja
Inventor
ザヴァレヘイ,エスファンダイアー
ハーグリーヴス,デイヴィッド
Original Assignee
ケンブリッジ シリコン ラジオ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ケンブリッジ シリコン ラジオ リミテッド filed Critical ケンブリッジ シリコン ラジオ リミテッド
Publication of JP2011501228A publication Critical patent/JP2011501228A/ja
Application granted granted Critical
Publication of JP5172965B2 publication Critical patent/JP5172965B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

知覚モデル(perceptual model)の適応的調整
音声ファイルを圧縮するのに利用可能な符号化方法がいくつかある。コンスタントビットレート(CBR)符号化は、コーデックから一定レートの出力を提供する。すなわち、CBRエンコーダは、すべてのフレームについて同じフレームサイズを利用する。これは、音声ファイルが固定の帯域幅の媒体を介し(無線チャネルなどを介し)ストリーミングされる際、音声ファイルは利用可能な帯域幅に適合したビットレートにより符号化可能であるため、有用であるかもしれない。しかしながら、音声ストリームの性質が典型的には極めて非一様的なものであるとき、このようなCBR符号化技術は、複雑なパッセージのためのビット割当てに限定されながら、シンプルなパッセージに必要とされるビットより多く使用する。特定のフレームが複雑な音声を含む場合、エンコーダは、利用可能なビット数により符号化可能となるまで信号の品質を低下させる。
しかしながら、可変的ビットレート(VBR)符号化は、何れかのパッセージの複雑さに応答して、複雑なパッセージにはより多くのビットを割当て、複雑でないパッセージにはより少ないビットを割り当てることができる。しかしながら、問題は、VBR符号化されたファイルをストリーミングする際に生じうる。なぜなら、結果としてのビットレートが予測不可であり、受信機は限られたバッファしか有しないためである。
CBRとVBRとの間の妥協案は、平均ビットレート符号化(ABR)である。ABRでは、エンコーダは、規定された期間においてターゲットとなる平均ビットレートを維持しながら、何れかのフレームにおける信号の複雑さに応じてビットをフレームに割り当てる際のフレキシビリティを有する。これは、CBRより高い品質の信号をもたらすと共に、VBRより予測可能なビットレートを生じさせる。しかしながら、エンコーダは音声の何れの部分がより複雑であって、このためより多くのビットを必要とするか予め知っていないため、ある形式のビットレート調整が、ターゲットとなる平均ビットレートを達成することを確実にするため常必要とされる。「後処理」と呼ばれるこのビットレート調整は、しばしばターゲットとなる平均ビットレートが達成されるまでにループの複数回の繰り返しを必要とし、これらの繰り返しの計算量が多いものであるかもしれない。
この概要は、以下の詳細な説明においてさらに説明される簡単化された形式によるコンセプトの選択を紹介するため与えられる。この概要は、請求された主題の主要な特徴又は不可欠な特徴を特定するためのものでなく、また請求される主題の範囲を決定するのに利用されるものでもない。
知覚モデル内の信号対マスク比パラメータが調整される知覚モデルを用いた信号符号化方法が説明される。信号対マスク比パラメータは、すでに符号化された信号の部分のビットレートと当該符号化処理のためのターゲットビットレートとの関数に基づき調整される。調整された信号対マスク比パラメータは、その後に信号を量子化するのに用いられる信号のマスキング閾値を計算するのに用いられる。
第1の態様は、信号を符号化する方法であって、前記信号を知覚モデルに入力するステップと、前記信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するステップと、前記マスキング閾値に基づき前記信号を量子化及び符号化するステップと、前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するステップとを有する方法を提供する。
本方法は、前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップをさらに有してもよい。前記信号は、フレームシーケンスに分割され、前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップは、前記信号対マスク比パラメータを調整するステップをN(Nは整数)フレーム毎に繰り返してもよい。
前記信号対マスク比パラメータは、前記符号化部分の平均ビットレートを計算し、前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整することによって調整されてもよい。
前記信号対マスク比パラメータの調整はさらに、前記符号化部分の一部に対して計算される短期平均ビットレートの関数に基づくものであってもよい。前記符号化部分の一部は、N(Nは整数)フレームから構成されてもよい。
前記信号対マスク比パラメータの調整はさらに、調整パラメータに基づくものであってもよい。前記調整パラメータは、測定されたビットレートの変化に基づき更新されてもよい。
前記信号対マスク比パラメータは、
Figure 0005172965
を用いて調整されてもよく、Bは前記ターゲットビットレートであり、
Figure 0005172965
は前記平均ビットレートであり、b(n)は前記符号化部分の一部に対して計算される短期平均ビットレートであり、β(n)は調整パラメータであり、αは所定のパラメータである。
前記調整パラメータは、
Figure 0005172965
を用いて更新されてもよく、ΔSMRは信号対マスク比パラメータの前の変化量であり、Δb(n)は前記短期平均ビットレートの対応する結果としての変化量であり、Mはスムージングファクタである。
本方法はさらに、信号対マスク比パラメータ及び/又は調整ファクタの変化量を制限してもよい。
前記知覚モデルは、心理音響モデルからなり、前記信号は、音声信号からなるものであってもよい。
第2の態様は、図3乃至8何れか1つを参照して実質的に説明された符号化方法を提供する。
第3の態様は、信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するよう構成される知覚モデルと、前記マスキング閾値に基づき、前記信号を量子化及び符号化する手段と、前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整する手段とを有するエンコーダを提供する。
前記調整する手段は、前記符号化部分の平均ビットレートを計算し、前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するよう構成されてもよい。
前記信号対マスク比パラメータの調整はさらに、前記符号化部分の一部に対して計算される短期平均ビットレートの関数に基づくものであってもよい。前記符号化部分の一部は、N(Nは整数)フレームから構成されてもよい。
前記信号対マスク比パラメータの調整はさらに、調整パラメータに基づくものであってもよい。前記調整パラメータは、測定されたビットレートの変化に基づき更新されてもよい。
前記調整する手段はさらに、
Figure 0005172965
を計算することによって、前記信号対マスク比パラメータを調整するよう構成されてもよく、Bは前記ターゲットビットレートであり、
Figure 0005172965
は前記平均ビットレートであり、b(n)は前記符号化部分の一部に対して計算される短期平均ビットレートであり、β(n)は調整パラメータであり、αは所定のパラメータである。
前記調整する手段はさらに、信号対マスク比パラメータ及び/又は調整パラメータの変化量を制限するよう構成されてもよい。
前記知覚モデルは、心理音響モデルからなり、前記信号は、音声信号からなるものであってもよい。
ここに記載される方法は、記憶媒体上のマシーン可読な形式によりファームウェア又はソフトウェアにより実行されてもよい。ソフトウェアは、方法の各ステップが何れか適切な順序又は同時に実行されるように、パラレルプロセッサ又はシリアルプロセッサ上の実行に適したものとすることができる。
第4の態様は、ここに記載された方法の何れかを実行するよう構成されたコンピュータプログラムを提供する。このコンピュータプログラムは、可読なマシーン可読媒体に格納されてもよい。
これは、ファームウェア及びソフトウェアが脆弱で別々に取引可能な商品としうることを認める。所望の機能を実行するため“ダム”又は標準的なハードウェアを実行又は制御するソフトウェアを含むことが意図される。また、所望の機能を実行するため、シリコンチップの設計又はユニバーサルプログラマブルチップの設定に用いられるようなHDL(Hardware Description Language)などのハードウェアのコンフィグレーションを“記述”又は規定するソフトウェアを含むことが意図される。
好適な特徴は、当業者に明らかなように、適切な場合に合成され、本発明の各態様の何れかと組み合わされてもよい。
以下の図面を参照することによって、本発明の実施例が説明される。
図1は、知覚エンコーダの概略図を示す。 図2は、一方がトーンをマスクするノイズを示し、他方がノイズをマスクするトーンを示す2つのグラフを示す。 図3は、一例となる信号符号化方法のフロー図を示す。 図4は、一例となる心理音響モデル調整方法のフロー図を示す。 図5は、図4の方法ステップのより詳細なフロー図を示す。 図6は、他の一例となる心理音響モデル調整方法のフロー図を示す。 図7は、信号対マスクレシオの変化を制御する一例となる関数の図を示す。 図8は、さらなる一例となる心理音響モデル調整方法のフロー図を示す。 図面を通じて、同様の特徴を示すため、共通する参照番号が使用される。
本発明の実施例が、以下において例示される。これらの具体例は、達成可能な唯一の方法ではないが、出願人に現在知られている本発明を実践するための最良の方法を表す。本記載は、実施例の機能と、実施例を構成及び処理するためのステップシーケンスとを与える。しかしながら、同一の又は等価な機能及びシーケンスが異なる実施例により実現されてもよい。
図1は、心理音響モデルを利用して人間の聴覚に知覚できない信号部分を破棄するMP3エンコーダなどの知覚エンコーダの概略図を示す。心理音響モデルの特徴は、少なくとも部分的には人間の耳の構造の結果である。心理音響モデルの利用は、エンコーダが知覚された信号の品質に影響を与えることなく高レベルの圧縮を実現することを可能にする。
図1は、一例となるMP3エンコーダ内の機能要素を示し、より多くの又は少ない要素しか存在しないかもしれないことは理解されるであろう。さらに、これらの要素は、全体的な効果を失うことなく異なる方法により組み合わされてもよく、例えば、これらのすべてが単一のチップ内部で実現されてもよい。
図1に示されるような知覚エンコーダでは、入力は実質的に同時にフィルタバンク101と心理音響モデル102とを通過する。心理音響モデル102は、グローバルマスキング閾値を規定するパラメータを出力する。グローバルマスキング閾値は、可聴なアーチファクトを招くことなく許容される何れかのバンドにおける最大ノイズ量(符号化における量子化ノイズなど)を規定する。マスキング閾値の生成が以下において詳細に説明される。心理音響モデルにより出力されるマスキング閾値は、量子化されたサンプルを生成するため、(要素103において)ビット割当て及び量子化において利用される。これらの量子化されたサンプルは、その後にそれらがハフマンコードなどを用いて符号化されることによってフォーマット化されたビットストリームフォーマット化要素104に入力される。
ターゲットとなるビットレートを実現するため(特にABRにおいて)、後処理が求められてもよい。この後処理は、ターゲットとなるビットレートが実現されるまで、信号フレームの符号化を繰り返すことを伴う(例えば、量子化ステップサイズ及び/又はサブバンドのスケーリングファクタの調整などを介し)。これらの繰り返しは、プロセッサに負荷のかかるものである。一例では、後処理は、ネスト化されたループを伴い、例えば、フレームのハフマン符号化のためのビット要求が十分小さく(ターゲットビットレートなどにより規定される)なるまで量子化サイズを変化させるインナーループと、バンドの量子化ノイズがマスキング閾値を超える場合にスケーリングファクタを適用するアウターループなどである。これら2つのループが関連付けされるとき(すなわち、量子化サイズの変化が量子化ノイズと共にビットレートに影響を与える)、繰り返し処理は複雑である。
マスキング閾値は、「ちょうど知覚可能なノイズ(just noticeable noise)」のエネルギーに対する信号エネルギーの比を決定する信号対マスクレシオ(SMR)パラメータを利用して、心理音響モデル102内で決定される。SMRは、音声が他の音声の存在により聴取不可となるという原理に基づき、これに影響を与えるファクタは、音声の周波数と音声の音量(又は音圧レベル(SPL))を含む。音声の性質、すなわち、それがトーンかノイズかということはまた、音声のマスキング効果に影響を与える可能性があり、マスキング閾値の決定はまた(心理音響モデルによる)、潜在的なノイマスカー及びトーンマスカーを特定するため、音声信号の解析を含む。図2を参照して、ノイズマスカー及びトーンマスカーであるSMRが以下においてより詳細に説明される。
図2は、ノイズがトーンをマスクするシナリオ(グラフ201)とトーンがノイズをマスクするシナリオ(グラフ202)との2つのシナリオを示す。第1のシナリオでは、狭い帯域のノイズ203が、ノイズ203の強さ(SPL)に関する閾値205をトーンが下回る同じクリティカルバンド内のトーン204をマスクし、ノイズの強さと閾値レベルとの間の差分がノイズマスキングトーン(NMT)シナリオのSMRとなる。第2のシナリオでは、トーン206は、ノイズの強さがトーン206の強さに関する閾値208以下である限り、サブクリティカル帯域幅のノイズ207をマスクする。トーンの強さと閾値レベルとの間の差分は、トーンマスキングノイズ(TMN)シナリオのSMRである。典型的には、SMR(TMN)はSMT(NMT)よりかなり大きく、文献からの一例では、SMR(TMN)は約24dBであり、SMT(NMT)は約4dBである。SMR(TMN)とSMR(NMT)との間の固定的な関係が規定されてもよい。SMRの固定値が、各ターゲットビットレート(例えば、ABR符号化のためのターゲットとなる平均ビットレートなど)の展開中に経験的に推定されてもよい。SMRパラメータは、同様にすべてのBarkバンドに影響を与える。
心理音響モデル内において、音声フレームが周波数ドメイン表現に変換された後、それは以下のように解析される。すべての潜在的なトーン/ノイズマスカーが決定され、各クリティカルバンドに対して、1つのマスカータイプ(トーン又はノイズ)が選択される。各マスカーのマスキング効果は、その後に近隣の周波数に拡散される。マスキング効果を拡散するのに利用される機能は、マスカーのタイプ(ノイズ/トーン)、エネルギー及び中心周波数に依存する。周波数ビンiにおいて周波数ビンjにおけるマスカーのマスキング効果を与える典型的な拡散関数は、
Figure 0005172965
Figure 0005172965
である。ただし、T(i,j)は、周波数jにおけるマスカーによる周波数iにおけるノイズ閾値(dB)であり、P(j)は、周波数jにおけるマスカーのパワー(dB)であり、z(j)は、jのBark等価周波数であり、K及びSMRはマスカータイプに応じた定数であり、Δは、iとjとの間の周波数差分(Barkによる)である。
マスカーの全てに対して拡散関数(dB)を取得して(式(1)などを用いて)、拡散関数は、グローバルマスキング閾値を取得するため、リニアドメインにおいて重複加算される。異なる周波数における音声に対する人間の耳の感度を表す絶対可聴閾値(ATH)の効果がまた、グローバルマスキング閾値の計算に含まれる(例えば、各周波数ポイントにおけるATHと重複加算された拡散関数の最大値をとるなどによって)。
式(1)及び(2)における定数は、網羅的な心理音響実験を介して取得され、式(2)の定数値は異なる範囲におけるマスキング拡散関数の特徴を変化させうるが、式(1)のものはよりグローバル又は大域的なものである。具体的には、SMRパラメータは、より広範な効果を有し、マスキング閾値全体に適用される固定的なオフセットを決定する。
図1のエンコーダは、ビット割当量子化要素103による量子化に使用される実際のグローバルマスキング閾値を提供するものとして示される。しかしながら、知覚音声エンコーダに用いられる多くの心理音響モデルは、信号エネルギーとグローバルマスキング閾値との間の比を提供する。各サブバンドに対して取得されるこの値(すなわち、信号エネルギーとグローバルマスキング閾値との間の比)はまた、信号対マスク比(SMR)として知られるが、この値は、式(1)に規定されるようにSMRパラメータと混同されるべきでない。ここでの説明のため、SMRのすべての言及は、式(1)に規定されるようなSMRパラメータを表す。SMRパラメータはまた、所望の知覚信号対ノイズ比(SNR)として解釈されてもよい。
典型的には、音声エンコーダは、異なるターゲットビットレートに対して異なるSMR値を有するルックアップテーブルに基づく心理音響モデルにおいてSMRパラメータ値を使用する。これらのルックアップテーブルは、文献において報告された値に基づくものであってもよい。しかしながら、このようなSMR値を利用した量子化レベルの決定は、かなり可変的なビットレートをもたらす。上述されるように、その後に平均ビットレートターゲットが所定数のフレーム(ファイル全体であってもよい)において満たされることを確実にするため、後処理が必要とされる。一部のエンコーダは、ビットレートプールを用いてフレーム間のビットレートの可変性を制限する。このようなエンコーダでは、各フレームは、あるパーセンテージのビットレートプールを使用することが許され、ターゲットビットレートを満たすように後処理が依然として必要とされる。
図3は、信号が知覚モデルに入力される(ブロック301)一例となる信号符号化方法のフロー図を示す。「知覚モデル(perceptual model)」という用語は、ここでは聴覚(知覚モデルが心理音響モデルである場合)、視覚又は他の何れかのタイプの知覚など、人間の知覚に関する情報を利用する任意のモデルを表すのに使用される。知覚モデルは、SMRを用いて信号を量子化及び符号化する(ブロック303)のに以降に使用されるマスキング閾値を生成する(ブロック302)。知覚モデル内のSMRパラメータは、すでに符号化された信号部分のビットレートとターゲットビットレートとに基づき調整され(ブロック304)、このパラメータはNフレーム毎に調整される(ただし、N≧1)。このようにモデルを調整することによって、初期的な符号化信号(繰り返し前)は、ターゲット(平均)ビットレートを生じさせる可能性が高くなり、必要とされる後処理量が低減される。
図3の方法はSMRパラメータの調整(ブロック304)前に行われる量子化及び符号化(ブロック303)を示すが、これは単なる一例である。本方法のステップは、異なる順序により(ブロック304がブロック303に先行するなど)又は実質的に同時に実行されてもよい。
以下に説明される方法は、一例として音声信号と心理音響モデルとを利用する。ここに記載される方法は、何れかの信号及び知覚モデルに適用可能である。
図4は、心理音響モデルの一例となる調整方法のフロー図を示す。図4の方法によると、時刻tまでの符号化信号の平均ビットレートが計算され(ブロック401)、その後にSMRパラメータ値が、計算された短期及び/又は長期平均ビットレートとターゲットビットレートとに基づき、以降のフレームについて調整される(ブロック402)。SMRパラメータの調整は、平均値及びターゲット値の比較に基づくものであってもよいし(図5に示されるように)、又は異なるアルゴリズムが使用されてもよい(後述されるものなど)。当該処理は、各フレーム又はNフレーム毎に繰り返されてもよい。一例では、10フレーム毎に繰り返されてもよい(N=10)。より大きなNの値を使用することによって、アルゴリズムはより安定的なものになるが、調整方法の感応度を低下させる。より小さなNの値の使用は感応度を増加させるが、SMRパラメータがよりスムース化された信号でなく、ローカルマキシマ/ミニマにより調整される場合、不安定となる。
SMRパラメータは、短期及び/又は長期ビットレート及びターゲット値に基づき調整されてもよく、これらのビットレートの1以上の何れかの関数、例えば、ビットレートの1以上の平方の関数、ビットレートの1以上の対数などに基づき調整され、及び/又は符号化サンプル数などの他のパラメータの関数(繰り返し回数の増加に伴って増加する)に基づき調整されることを含む。ビットレートの関数は、一例では、ビットレート自体であってもよい。
図4の方法の第2ステップ(ブロック402)の一例となる実現形態が図5において詳細に示される。平均ビットレートがターゲットビットレートを超える場合(ブロック501において“Yes”)、SMRパラメータは低下し(ブロック502)、平均ビットレートがターゲットビットレート以下である場合(ブロック501において“No”)、SMRパラメータは増加する(ブロック503)。この例では、SMRパラメータは、SMR(TMN)又はSMR(NMT)の何れかであってもよく、他方のパラメータは、これら2つの間の固定的な関係に従って計算されてもよい。

図4の方法の実現形態では、時間サンプルn(時刻tにおける)までの信号の始めからの平均ビットレートが、
Figure 0005172965
のように計算されてもよい(ブロック401において)。ただし、b(i)はフレームiのビットレートである。他のαnフレームの後の平均ビットレートがターゲットビットレートBに等しい場合、次のαnフレームの平均ビットレートbは、
Figure 0005172965
に等しくなるべきである。
従って、瞬間的なビットレートb(n)は、
Figure 0005172965
だけ変化する。
そして、SMRの変化量は、
Figure 0005172965
となる。ただし、β(n)はSMRの1dBの変化から生じるビットレートの変化量の指標であり、kB.s−1.dB−1により測定される。この結果、フレームn+1の新たなSMRは、
Figure 0005172965
により与えられる。
β(n)の値は、所定のパラメータであってもよく、固定値又はnに応じた値であってもよい。いくつかの例では、β(n)の値は、音楽のタイプ及び/又はターゲットビットレートに依存してもよい。一例では、β(n)は160kbpsにおける10kbps/dBであってもよい。β(n)の値は、後述されるように、調整されてもよい。
上記説明と式(5)〜(7)において、b(n)は上述されるような瞬間的なビットレートとして説明されるが、当該処理はフレーム毎に又はNフレーム毎に繰り返されてもよい。Nフレーム毎に処理が繰り返される場合、b(n)はNフレームにおいて平均化された短期の平均ビットレートであってもよい(例えば、N=10である10フレームにおいて平均化された短期の平均ビットレートなど)。N=1という制限では、短期の平均ビットレートは瞬間的なビットレートと同じである。
Figure 0005172965
の値は、時間サンプルn(時刻tにおける)までの信号の始まりからの平均ビットレートなど、長期の平均ビットレートとして説明されてもよい。
上記説明では、平均は通常の平均値として説明される。しかしながら、他の実施例では、異なる形態の平均値が使用されてもよい。例えば、
Figure 0005172965
は、非可逆(又はスムース化された)平均、すなわち、経時的にスムース化された多数のフレームにおける平均であってもよい。
一実施例では、αの値は2に等しくてもよい。このパラメータは、SMRの調整が信号及びターゲットビットレートについてこれまで計算された平均ビットレートのミスマッチを訂正するための期間を設定する。このパラメータの値は、適応的調整によるABR符号化のパフォーマンスが内部のビット蓄積を用いるより良好に実行するように選択されてもよい。この値は、固定的又は可変的であってもよく、またファイルサイズ及び/又はファイルの現在位置(すなわち、nの値)に基づき選択されてもよい。変数αの例では、この値は、
Figure 0005172965
により与えられるものであってもよい。
このようなαの可変的値は、符号化処理の開始時におけるSMRの大きな変動を回避し、それが最小値に達するまで時間と共に減少する(このケースでは、2に等しい)。
SMRの値を調整することによって、当該値は、文献からの固定値を用いるのでなく実際の信号の統計量に調整可能である。この調整により結果としてのビットレートがターゲットビットレートに近づくに従って、後処理の必要量(すなわち、繰り返し回数)は減少し、品質対ビットレートの妥協が、長期のソフト判定を用いて行われる。さらに、繰り返し回数が低下するに従って、この数はまたより予測可能になり、このことは信号の符号化のための妥当な予測可能処理時間を提供する。
本方法のさらなる変形では、β(n)の値は、SMRの変化の結果としてのビットレートの測定される変化に基づき調整されてもよい。これは、パラメータβ(n)がより正確になり、実際の信号の統計量に適応可能となる。このような方法が図6に示される。図4の方法と同様に、これまでの符号化信号の平均ビットレートが計算され(ブロック601)、以降のフレームのSMRの値が、計算された平均ビットレート、ターゲットビットレート及び調整パラメータβ(n)の比較に基づき調整される(ブロック602)。その後、調整パラメータの値β(n)は、測定されるビットレートの変化に基づき更新される(ブロック603)。
一例となる実現形態では、
Figure 0005172965
であり、ビットレート変化量Δb(n)は測定値であり、SMRの直近の変化からの短期の平均ビットレートの変化量である。ΔSMRは既知であり(上記式(6)などから)、Mはスムージングファクタである(一例では、M=10)。
上述した方法のさらなる変形では、SMRの変化は、信号におけるフレームnの位置に応じて制御されてもよい。これは、
Figure 0005172965
により与えられるSMRの制御された変化量(ΔSMR’)を生じさせる。ただし、ΔSMRは上記式(6)により決定され、f(n)はフレームの位置に応じた関数である。この関数の値は、信号の第1フレーム群について、
Figure 0005172965
などのSMR値の変化がないように選択されてもよい。
他の例では、f(n)の値は徐々に変化し、図7において、n=50において閾値を有し、その後にf(1000)=1まで増加する一例となる曲線が示される。関数f(n)の選択に応じて、これらの技術は組み合わせて使用されてもよいが、これはαの可変的値を用いたものと同様の効果を有するかもしれない(上述されるような)。
上述されるような(すなわち、関数f(n)を用いて)SMRの変化量を制御することに加えて又は代わりに、SMRの最大変化量は制限され、すなわち、ΔSMR(又は適切な場合にはΔSMR’)は最大許容値を有してもよい。SMRのステップ変化を制限することによって、沈黙のパッセージから発話/音楽へ移行する際に行われる過剰補償が低減される。
同様に、調整パラメータβ(n)がまた調整される場合(図6などに示されるように)、調整パラメータの最大変化量Δβ(n)は制限されてもよいし、及び/又は調整パラメータの変化はnなどの所定のファクタに応じて制御されてもよい。
図6の方法を用いて取得される実験結果が、以下のテーブルに示される。これらは、40個の音声ファイルにおける16,420個のMP3フレーム(429秒の音声)から取得された。
Figure 0005172965
上記テーブルにおける平均繰り返し数は、ターゲットビットレートを実現するのに求められるサブバンドに対する平均繰り返し数である(例えば、量子化ステップサイズ又はスケーリングファクタなどを変更することによって)。1つのサブバンドが複数回繰り返される場合、各繰り返しはこの図に含まれる。
これらの結果では、フレーム毎のビットレートの変化は類似しているが、ファイル毎の変化はここに記載される適応的調整方法を用いることによって実質的に低減される。これは、各ファイルのビットレート全体が、適応的調整を使用しない場合と比較して、適応的調整が適用されるときには平均値にはるかに近くなるという結果を有している。これは特に、音声信号が限られたバッファを有する受信機への又は限られた帯域幅又はパワーの媒体を介した送信のため符号化されるときに重要であるかもしれない。なぜなら、システムは、大きく変動する平均ビットレートによる信号を受信することができないかもしれないためである。繰り返し回数はまた、約10%だけ低下した。これは、ビットレートの調整はエンコーダの最も計算量を要する部分の1つであるためである。
上述された方法は、SMRパラメータの1つの値を表し、このパラメータはSMR(TMN)又はSMR(NMT)の何れかであってもよい。1つのSMRパラメータ(SMR(TMN)など)が上述された方法の1つを用いて適応的に調整される場合、他方のSMRパラメータ(本例では、SMR(NMT))の値は、2つのSMRパラメータの間の適切な関係(2つの間の一定の差分など)を維持するため、対応する方法により調整されてもよい。
しかしながら、他の例では、これら2つのSMRパラメータ(SMR(TMN)とSMR(NMT))は、図8の一例となる方法に示され、以下に説明されるように、独立に調整されてもよい。この方法では、これまでの平均ビットレート
Figure 0005172965
が計算され(ブロック801)、フレーム内のマスカーが主としてノイズマスカーであるか又は主としてトーンマスカーであるか決定するため、現在フレームnが解析される(ブロック802)。マスカーが主としてトーンマスカーである場合(ブロック802において“Yes”)、SMR(TMN)の値は、上記式(6)又は(9)などを用いて調整され(ブロック803)、マスカーが主としてノイズマスカーである場合(ブロック802において“No”)、SMR(NMT)の値は、上記式(6)又は(9)などを用いて調整されてもよい(ブロック804)。
図8に示される方法の変形では、トーンマスカーとノイズマスカーとの間のハード判定でなく(ブロック802における)、トーンマスカーであるマスカーの比率γを決定するソフト判定が利用されてもよく、この比率が、
Figure 0005172965
などのSMRの結果となる変化を決定するのに利用される。ただし、ΔSMR(TMN)とΔSMR(NMT)の各値は、式(6)又は(9)などを用いて計算されてもよい。
比率γは、多数の異なる方法により計算されてもよく、1つのフレーム又は複数のフレーム(Nフレームなど)のデータに基づくものであってもよい。例えば、
Figure 0005172965
であり、nTMは過去のNフレームの間のトーンマスカーの個数であり、nNMは過去のNフレームのノイズマスカーの個数である。他の変形では、マスカーの個数の決定は、N’フレームにおいて実行されてもよい。ただし、N’≠Nである。
上記説明は心理音響モデル内のSMRパラメータの調整について言及したが、さらなる実施例では、モデル内の異なるパラメータが同様にして調整されてもよい。例えば、パラメータK(式(1)から)が、SMRパラメータの代わりに又は加えて調整されてもよい。
心理音響モデル(又は非音声アプリケーションに等価である)が上記式(1)に示されるものとは異なる拡散関数を利用するが、この拡散関数内のパラメータは、上述したものに対応して調整されてもよい。
上記説明は本方法がABR符号化に有用であることを言及しているが、本方法はまた、CBR符号化などの他の符号化技術に適用可能である。このような実施例では、フレームは心理音響モデルにより出力されるパラメータを用いてまず符号化され、フレームの特定のビットレートがターゲットビットレートと同じになることを確実にするため、後処理が利用されてもよい。心理音響モデル内のパラメータを調整する記載された本方法の使用は、ターゲットビットレートを満たすよう求められる後処理量を低減する。一例となる実現形態では、同じ式が使用されてもよいが(上述されるような)、短期及び長期のビットレートが、量子化の最初の繰り返しから得られるビットレートから取得されてもよい。すなわち、ビットレートは、心理音響モデルにより示唆されるビットレートである。ABR以外の符号化技術(CBRなど)のためにこのような技術を使用することは、要求される繰り返し回数を減少させ、また計算要求を低減させる。
本方法は、音声信号の符号化に関して上述されたが、これは単なる一例であり、本方法はまた知覚モデルを利用する他の信号の符号化にも適用可能である。あるいは、音声信号又は心理音響モデルの言及は、任意の信号及び任意の知覚モデルに関する。映像信号について、心理音響モデルは、人間の耳及び人間の聴覚能力の生理機能でなく、人間の目及び人間の視覚能力の生理機能に基づく知覚モデルに置き換えられてもよい。上述されるように、SMRパラメータはまた所望の知覚SNRとして解釈されてもよい。
ここに与えられる何れかの範囲又は装置の値は、当業者に明らかなように、求められる効果を失うことなく拡張又は変更されてもよい。
上述される利益及び効果は、1以上の実施例に関するものであることが理解されるであろう。さらに、「ある」アイテムの参照はこれらのアイテムの1以上を意味することが理解されるであろう。
ここに記載される方法のステップは、何れか適切な順序又は適切な場合には同時に実行されてもよい。さらに、個々のブロックは、ここに記載された主題の趣旨及び範囲から逸脱することなく本方法の何れから削除されてもよい。上述された実施例の何れかの態様は、求められる効果を失うことなくさらなる実施例を形成するため、他の実施例の何れかの態様と組み合わされてもよい。
好適な実施例の上記説明は、単なる一例として与えられたものであって、各種変更が当業者により可能であることが理解されるであろう。

Claims (19)

  1. 信号を符号化する方法であって、
    前記信号を知覚モデルに入力するステップと、
    前記信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するステップと、
    前記マスキング閾値に基づき前記信号を量子化及び符号化するステップと、
    前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するステップと、
    を有する方法。
  2. 前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップをさらに有する、請求項1記載の方法。
  3. 前記信号は、フレームシーケンスに分割され、
    前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップは、前記信号対マスク比パラメータを調整するステップをN(Nは整数)フレーム毎に繰り返す、請求項2記載の方法。
  4. 前記信号対マスク比パラメータを調整するステップは、
    前記符号化部分の平均ビットレートを計算するステップと、
    前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するステップと、
    を有する、請求項1乃至3何れか一項記載の方法。
  5. 前記信号対マスク比パラメータの調整はさらに、前記符号化部分の一部に対して計算される短期平均ビットレートの関数に基づく、請求項4記載の方法。
  6. 前記符号化部分の一部は、N(Nは整数)フレームから構成される、請求項5記載の方法。
  7. 前記信号対マスク比パラメータの調整はさらに、調整パラメータに基づく、請求項4乃至6何れか一項記載の方法。
  8. 測定されたビットレートの変化に基づき、前記調整パラメータを更新するステップをさらに有する、請求項7記載の方法。
  9. 前記信号対マスク比パラメータを調整するステップは、
    Figure 0005172965
    を計算することからなり、Bは前記ターゲットビットレートであり、
    Figure 0005172965
    は前記平均ビットレートであり、b(n)は前記符号化部分の一部に対して計算される短期平均ビットレートであり、β(n)は調整パラメータであり、αは所定のパラメータである、請求項4乃至8何れか一項記載の方法。
  10. 前記調整パラメータは、
    Figure 0005172965
    を用いて更新され、ΔSMRは信号対マスク比パラメータの前の変化量であり、Δb(n)は前記短期平均ビットレートの対応する結果としての変化量であり、Mはスムージングファクタである、請求項8又は9記載の方法。
  11. 前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき前記信号対マスク比パラメータを調整するステップはさらに、信号対マスク比パラメータの変化量を制限する、請求項1乃至10何れか一項記載の方法。
  12. 前記知覚モデルは、心理音響モデルからなり、
    前記信号は、音声信号からなる、請求項1乃至11何れか一項記載の方法。
  13. 信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するよう構成される知覚モデルと、
    前記マスキング閾値に基づき、前記信号を量子化及び符号化する手段と、
    前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整する手段と、
    を有するエンコーダ。
  14. 前記調整する手段は、前記符号化部分の平均ビットレートを計算し、前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するよう構成される、請求項13記載のエンコーダ。
  15. 前記信号対マスク比パラメータの調整はさらに、前記符号化部分の一部に対して計算される短期平均ビットレートの関数に基づく、請求項14記載のエンコーダ。
  16. 前記信号対マスク比パラメータの調整はさらに、調整パラメータに基づく、請求項14又は15記載のエンコーダ。
  17. 前記調整する手段はさらに、
    Figure 0005172965
    を計算し、Bは前記ターゲットビットレートであり、
    Figure 0005172965
    は前記平均ビットレートであり、b(n)は前記符号化部分の一部に対して計算される短期平均ビットレートであり、β(n)は調整パラメータであり、αは所定のパラメータである、請求項14乃至16何れか一項記載のエンコーダ。
  18. 前記調整する手段はさらに、信号対マスク比パラメータの変化量を制限するよう構成される、請求項13乃至17何れか一項記載のエンコーダ。
  19. 前記知覚モデルは、心理音響モデルからなり、
    前記信号は、音声信号からなる、請求項13乃至18何れか一項記載のエンコーダ。
JP2010530556A 2007-10-31 2008-09-09 知覚モデルの適応的調整 Expired - Fee Related JP5172965B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0721376.2 2007-10-31
GB0721376A GB2454208A (en) 2007-10-31 2007-10-31 Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
PCT/GB2008/050804 WO2009056867A1 (en) 2007-10-31 2008-09-09 Adaptive tuning of the perceptual model

Publications (2)

Publication Number Publication Date
JP2011501228A JP2011501228A (ja) 2011-01-06
JP5172965B2 true JP5172965B2 (ja) 2013-03-27

Family

ID=38834603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010530556A Expired - Fee Related JP5172965B2 (ja) 2007-10-31 2008-09-09 知覚モデルの適応的調整

Country Status (5)

Country Link
US (2) US8326619B2 (ja)
EP (1) EP2203916B1 (ja)
JP (1) JP5172965B2 (ja)
GB (1) GB2454208A (ja)
WO (1) WO2009056867A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
IL205394A (en) * 2010-04-28 2016-09-29 Verint Systems Ltd A system and method for automatically identifying a speech encoding scheme
KR101854469B1 (ko) * 2011-11-30 2018-05-04 삼성전자주식회사 오디오 컨텐츠의 비트레이트 판단장치 및 방법
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation
US10395664B2 (en) 2016-01-26 2019-08-27 Dolby Laboratories Licensing Corporation Adaptive Quantization
WO2018069900A1 (en) * 2016-10-14 2018-04-19 Auckland Uniservices Limited Audio-system and method for hearing-impaired
CN115202163B (zh) * 2022-09-15 2022-12-30 全芯智造技术有限公司 选择光阻模型的方法、设备和计算机可读存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100269213B1 (ko) * 1993-10-30 2000-10-16 윤종용 오디오신호의부호화방법
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
US5764698A (en) * 1993-12-30 1998-06-09 International Business Machines Corporation Method and apparatus for efficient compression of high quality digital audio
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
EP0803989B1 (en) 1996-04-26 1999-06-16 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding of a digitalized audio signal
CN1106085C (zh) 1996-04-26 2003-04-16 德国汤姆逊-布朗特公司 对数字音频信号编码的方法和装置
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
TW477119B (en) * 1999-01-28 2002-02-21 Winbond Electronics Corp Byte allocation method and device for speech synthesis
EP1076295A1 (en) * 1999-08-09 2001-02-14 Deutsche Thomson-Brandt Gmbh Method and encoder for bit-rate saving encoding of audio signals
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
TW499672B (en) 2000-02-18 2002-08-21 Intervideo Inc Fast convergence method for bit allocation stage of MPEG audio layer 3 encoders
JP2001282295A (ja) * 2000-03-29 2001-10-12 Aiwa Co Ltd 符号化器及び符号化方法
JP2002006895A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
JP4055336B2 (ja) * 2000-07-05 2008-03-05 日本電気株式会社 音声符号化装置及びそれに用いる音声符号化方法
DE10113322C2 (de) * 2001-03-20 2003-08-21 Bosch Gmbh Robert Verfahren zur Codierung von Audiodaten
KR100477701B1 (ko) * 2002-11-07 2005-03-18 삼성전자주식회사 Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
JP4347634B2 (ja) * 2003-08-08 2009-10-21 富士通株式会社 符号化装置及び符号化方法
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
WO2007083934A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
US20070239295A1 (en) * 2006-02-24 2007-10-11 Thompson Jeffrey K Codec conditioning system and method
JP5260561B2 (ja) * 2007-03-19 2013-08-14 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚モデルを使用した音声の強調
US8788264B2 (en) * 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
JP4973397B2 (ja) * 2007-09-04 2012-07-11 日本電気株式会社 符号化装置および符号化方法、ならびに復号化装置および復号化方法

Also Published As

Publication number Publication date
US8589155B2 (en) 2013-11-19
EP2203916B1 (en) 2014-02-05
US20130024201A1 (en) 2013-01-24
EP2203916A1 (en) 2010-07-07
JP2011501228A (ja) 2011-01-06
US8326619B2 (en) 2012-12-04
GB2454208A (en) 2009-05-06
GB0721376D0 (en) 2007-12-12
WO2009056867A1 (en) 2009-05-07
US20100204997A1 (en) 2010-08-12

Similar Documents

Publication Publication Date Title
US10217470B2 (en) Bandwidth extension system and approach
JP5172965B2 (ja) 知覚モデルの適応的調整
US10354665B2 (en) Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
JP5986565B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
US9691398B2 (en) Method and a decoder for attenuation of signal regions reconstructed with low accuracy

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121226

R150 Certificate of patent or registration of utility model

Ref document number: 5172965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees