JP7179812B2

JP7179812B2 - 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法

Info

Publication number: JP7179812B2
Application number: JP2020184357A
Authority: JP
Inventors: トミー・ヴァイヤンクール; ミラン・ジェリネク
Original assignee: ヴォイスエイジ・イーブイエス・エルエルシー
Priority date: 2013-03-04
Filing date: 2020-11-04
Publication date: 2022-11-29
Anticipated expiration: 2034-01-09
Also published as: JP2021015301A; ES2872024T3; AU2014225223B2; PH12015501575B1; KR20150127041A; AU2014225223A1; CN111179954A; JP2016513812A; JP2023022101A; CA2898095A1; WO2014134702A1; HRP20211097T1; EP2965315A4; LT3848929T; JP6453249B2; EP3848929A1; RU2015142108A; SI3537437T1; CA2898095C; EP2965315A1

Description

本開示は、音響処理の分野に関する。より具体的には、本開示は、音響信号中の量子化雑音を低減することに関する。

現在の会話型コーデックは、8kbps程度のビットレートにおいてきれいな音声信号を非常に良い品質で表現し、16kbpsのビットレートにおいて透明性に近づく。この高い音声品質を低ビットレートで維持するために、マルチモーダル符号化スキームが一般に使用される。通常、入力信号はその特性を反映する異なるカテゴリの間で分割される。異なるカテゴリは、例えば、有声音声、無声音声、有声オンセットなどを含む。次いで、コーデックは、これらのカテゴリに最適化された異なる符号化モードを使用する。

音声モデルベースのコーデックは、通常、音楽などの汎用オーディオ信号をうまくレンダリングしない。したがって、一部の展開された音声コーデックは、特に低いビットレートにおいて良い品質で音楽を表現しない。コーデックが展開されたとき、ビットストリームが標準化されており、ビットストリームに何らかの変更を加えると、コーデックの相互運用性が破壊されることにより、エンコーダを変更することは困難である。

したがって、音声モデルベースのコーデック、例えば、線形予測(LP)ベースのコーデックの音楽コンテンツレンダリングを改善することが必要とされている。

PCT特許公開WO 2009/109050 A1 PCT特許公開WO 2003/102921 A1 PCT特許公開WO 2007/073604 A1 PCT国際出願PCT/CA2012/001011

「Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding Functions」という名称のTechnical Specification (TS) 26.190 of the 3rd Generation Partnership Program (3GPP) J. D. Johnston「Transform coding of audio signal using perceptual noise criteria」、IEEE J. Select. Areas Commun.、vol. 6、314～323ページ、1988年2月

本開示によれば、時間領域デコーダによってデコードされた時間領域励振に含まれる信号中の量子化雑音を低減するためのデバイスが提供される。デバイスは、デコードされた時間領域励振の周波数領域励振への変換器を備える。また、量子化雑音中に失われたスペクトル情報を取り出すための重み付けマスクを生じるマスクビルダも含まれる。デバイスは、重み付けマスクの適用によりスペクトルダイナミクスを増大させるための周波数領域励振の変更器も備える。デバイスは、変更された周波数領域励振の変更された時間領域励振への変換器をさらに備える。

本開示は、時間領域デコーダによってデコードされた時間領域励振に含まれる信号中の量子化雑音を低減するための方法にも関する。デコードされた時間領域励振は、時間領域デコーダによって周波数領域励振に変換される。重み付けマスクが、量子化雑音中に失われたスペクトル情報を取り出すために生じる。周波数領域励振は、重み付けマスクの適用によりスペクトルダイナミクスを増大させるために変更される。変更された周波数領域励振は、変更された時間領域励振に変換される。

前述のおよび他の特徴は、添付の図面を参照して、例だけとして与えられる、以下の、それらの例示的実施形態の非限定的説明を読めばより明らかとなるであろう。

本開示の実施形態は、添付の図面を参照して例だけとして説明される。

一実施形態による、時間領域デコーダによってデコードされた時間領域励振に含まれる信号中の量子化雑音を低減するための方法の動作を示すフローチャートである。音楽信号および他の音響信号中の量子化雑音を低減するための周波数領域後処理機能を有するデコーダの簡略化された回路図であり、図2bと合わせて図2と呼ぶ。音楽信号および他の音響信号中の量子化雑音を低減するための周波数領域後処理機能を有するデコーダの簡略化された回路図であり、図2aと合わせて図2と呼ぶ。図2のデコーダを形成するハードウェア構成要素の構成例の簡略化された構成図である。

本開示の様々な態様は、一般に、音楽信号中の量子化雑音を低減することにより、音声モデルベースのコーデック、例えば、線形予測(LP)ベースのコーデックの音楽コンテンツレンダリングを改善する課題の1つまたは複数に対処する。本開示の教示は、他の音響信号、例えば、音楽以外の汎用オーディオ信号にも適用できることに留意すべきである。

デコーダの変更は、受信側の知覚品質を改善することができる。本開示は、デコーダ側で、デコードされた合成のスペクトル中の量子化雑音を低減する音楽信号および他の音響信号の周波数領域後処理を実現するための取組みを開示する。後処理は任意の追加の符号化遅延なしで実現することができる。

本明細書に使用されるスペクトルハーモニクスと周波数後処理との間の量子化雑音の周波数領域除去の原理は、その開示が参照により本明細書に組み込まれる、2009年9月11日付のVaillancourtらへのPCT特許公開WO 2009/109050 A1(以下「Vaillancourt'050」)に基づく。概して、そのような周波数後処理は、デコードされた合成に適用され、オーバーラップを含め、処理を追加して顕著な品質利得を得るために処理遅延の増大を必要とする。さらに、従来の周波数領域後処理の場合、限定された周波数分解能により、追加される遅延がより短ければ短いほど(すなわち、変換窓がより短ければ短いほど)、後処理がより効果的でなくなる。本開示によれば、周波数後処理は、合成に遅延を追加することなく、より高い周波数分解能を達成する(より長い周波数変換が使用される)。さらに、過去のフレームスペクトルエネルギー中に存在する情報を利用して、符号化雑音中に失われたスペクトル情報を取り出す、すなわち強化するために現在のフレームスペクトルに適用される重み付けマスクを生じる。合成に遅延を追加することなくこの後処理を達成するために、この例では、対称台形窓が使用される。窓が平坦である(定数値が1である)現在のフレームを中心にし、外挿を使用して将来の信号を作製する。後処理は、一般に、任意のコーデックの合成信号に直接適用され得るが、本開示は、後処理を、3GPPのウェブサイト上で入手可能な、参照によりその全内容が本明細書に組み込まれる、「Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding Functions」という名称のTechnical Specification (TS) 26.190 of the 3rd Generation Partnership Program (3GPP)に記載の符号励振線形予測(CELP)コーデックの枠組みにおける励振信号に適用する、例示的実施形態を導入する。合成信号ではなく励振信号に取り組む利点は、後処理によって導入された任意の潜在的断絶が、その後のCELP合成フィルタの適用によって平滑化されることである。

本開示においては、12.8kHzの内部サンプリング周波数を有するAMR-WBが例示のために使用される。しかし、本開示は、合成が、合成フィルタ、例えば、LP合成フィルタを通してフィルタリングされた励振信号によって取得される、他の低いビットレートの音声デコーダに適用することができる。合成は、音楽が時間領域励振と周波数領域励振との組合せを用いて符号化される、マルチモーダルコーデックにも適用することができる。次の数行はポストフィルタの動作をまとめたものである。AMR-WBを使用する例示的実施形態の詳細な説明がその後に続く。

まず、完全なビットストリームは、デコードされ、現在のフレーム合成が、その開示が参照により本明細書に組み込まれる、Jelinekらへの2003年12月11日付のPCT特許公開WO 2003/102921 A1、Vaillancourtらへの2007年7月5日付のPCT特許公開WO 2007/073604 A1、およびVaillancourtらの名前で2012年11月1日に出願したPCT国際出願PCT/CA2012/001011(以下「Vaillancourt'011」)に開示されたものと同様の第1の段の分類器を通して処理される。本開示のために、この第1の段の分類器は、フレームを分析し、INACTIVEフレームと、UNVOICEDフレーム、例えば、アクティブなUNVOICED音声に対応するフレームとを分離する。第1の段においてINACTIVEフレームとしてまたはUNVOICEDフレームとして分類されないすべてのフレームは、第2の段の分類器を用いて分析される。第2の段の分類器は、後処理を適用するかどうか、およびどの程度まで適用するかを判定する。後処理が適用されないとき、メモリに関連する後処理だけが更新される。

第1の段の分類器によってINACTIVEフレームとしてまたはアクティブなUNVOICED音声フレームとして分類されないすべてのフレームには、過去のデコードされた励振、現在のフレームのデコードされた励振、および将来の励振の外挿を使用して、ベクトルが形成される。過去のデコードされた励振と外挿された励振との長さは同じであり、周波数変換の所望の分解能によって異なる。この例においては、使用される周波数変換の長さは、640サンプルである。過去のおよび外挿された励振を用いてベクトルを生じることにより、周波数の分解能を増大させることが可能となる。本例においては、過去のおよび外挿された励振の長さは同じであるが、窓の対称性は必ずしもポストフィルタが効率的に働くのには必要でない。

連結励振(過去のデコードされた励振、現在のフレームのデコードされた励振および将来の励振の外挿を含む)の周波数表現のエネルギー安定性は、次に、音楽の存在下での確率を決定するために第2の段の分類器を用いて分析される。この例においては、音楽の存在下であることの決定は2段プロセスで実施される。しかし、音楽の検出は、例えば、周波数変換前に単一の動作で実施され得る、またはエンコーダで決定されビットストリームで伝送されさえするなど、異なるやり方で実施され得る。

高調波間量子化雑音は、周波数ビンごとの信号対雑音比(SNR)を推定することにより、およびそのSNRにより各周波数ビンに利得を適用することにより、Vaillancourt'050の場合と同様に低減される。しかし、本開示においては、雑音エネルギー推定は、Vaillancourt'050において教示されるものとは異なって行われる。

次いで、符号化雑音中に失われた情報を取り出し、スペクトルのダイナミクスをさらに増大させる、追加の処理が使用される。このプロセスは、エネルギースペクトルの0と1との間の正規化から始まる。次いで、定数オフセットが正規化エネルギースペクトルに追加される。最後に、8の累乗が変更されたエネルギースペクトルの各周波数ビンに適用される。その結果得られるスケーリングされたエネルギースペクトルが、低周波数から高周波数まで、周波数軸に沿って平均化関数により処理される。最後に、時間とともにスペクトルの長時間の平滑化がビンごとに実施される。

この処理の第2の部分は、結果として、ピークが重要なスペクトル情報に対応し、谷が符号化雑音に対応するマスクとなる。次いで、このマスクを使用して、雑音をフィルタリング除去し、ピーク領域におけるスペクトルビンの大きさをわずかに増大させることにより、スペクトルダイナミクスを増大させ、谷におけるビンの大きさを減衰させ、したがって、ピーク対谷の比を増大させる。これらの2つの動作は、出力合成に遅延を追加せずに、高い周波数分解能を使用して行われる。

連結励振ベクトルの周波数表現が強調された(その雑音が低減され、そのスペクトルダイナミクスが増大された)後、逆周波数変換を実施して、連結励振の強化バージョンを作製する。本開示においては、現在のフレームに対応する変換窓の部分は、実質的に平坦であり、過去のおよび外挿された励振信号に適用される窓の部分だけを漸減する必要がある。これにより、逆変換の後、強化された励振の現在のフレームを根絶することが可能になる。この最後の操作は、時間領域の強化された励振を現在のフレームの位置における長方形窓で乗じることと同様である。この動作は合成領域において行うと、重要なブロックアーチファクトを追加するが、Vaillancourt'011に示すように、LP合成フィルタが1つのブロックから別のブロックへの移行を平滑化するのに役立つので、これは励振領域において代替的に行うことができる。

例示的なAMR-WB実施形態の説明
ここに説明する後処理は、音楽や残響音声などの信号のLP合成フィルタのデコードされた励振に適用される。信号の性質(音声、音楽、残響音声など)に関する判定および後処理を適用することに関する判定は、AMR-WBビットストリームの一部としてデコーダ分類情報に向けて送るエンコーダによって信号伝達することができる。そうでない場合には、信号分類は、デコーダ側で代替的に行うことができる。複雑性と分類信頼性とのトレードオフにより、合成フィルタは、一時的合成およびより良好な分類分析を得るために現在の励振に任意選択で適用することができる。この構成においては、合成は、分類が結果としてポストフィルタリングが適用されるカテゴリになる場合、上書きされる。複雑性が増すのを最小限にするために、分類は、過去のフレーム合成で行うこともでき、合成フィルタは、後処理の後、一度適用される。

次に図面を参照すると、図1は一実施形態による時間領域デコーダによってデコードされた時間領域励振に含まれる信号中の量子化雑音を低減するための方法の動作を示すフローチャートである。図1においては、シーケンス10が、可変順序で実行することができる複数の動作を含み、動作のうちの一部は場合により同時に実行され、動作のうちの一部は任意選択である。動作12では、時間領域デコーダはエンコーダによって生じたビットストリームを取り出し、デコードし、ビットストリームは、時間領域励振を再構成するのに使用可能なパラメータの形態での時間領域励振情報を含む。このため、時間領域デコーダは、入力インターフェースを介してビットストリームを受け取るまたはメモリからビットストリームを読み取ることができる。時間領域デコーダは、動作16において、デコードされた時間領域励振を周波数領域励振に変換する。動作16において励振信号を時間領域から周波数領域に変換する前に、動作14において、将来の時間領域励振を外挿することができ、したがって、時間領域励振から周波数領域励振への変換が遅延なしとなる。すなわち、余分な遅延を必要とすることなく、より良い周波数分析が実施される。このため、過去の、現在のおよび予測される将来の時間領域励振信号は、周波数領域に変換される前に連結することができる。時間領域デコーダは、次いで、動作18において、量子化雑音中に失われたスペクトル情報を取り出すための重み付けマスクを生じる。動作20では、時間領域デコーダは、重み付けマスクの適用によりスペクトルダイナミクスを増大させるために周波数領域励振を変更する。動作22では、時間領域デコーダは、変更された周波数領域励振を変更された時間領域励振に変換する。時間領域デコーダは、次いで、動作24において変更された時間領域励振の合成を生じ、動作26において、デコードされた時間領域励振の合成および変更された時間領域励振の合成のうちの一方から音響信号を生成することができる。

図1に示す方法は、いくつかの任意選択の特徴を使用して適合させることができる。例えば、デコードされた時間領域励振の合成は、第1の組の励振カテゴリおよび第2の組の励振カテゴリのうちの一方に分類することができ、その場合、第2の組の励振カテゴリは、INACTIVEまたはUNVOICEDカテゴリを含み、第1の組の励振カテゴリはOTHERカテゴリを含む。デコードされた時間領域励振から周波数領域励振への変換は、第1の組の励振カテゴリに分類されたデコードされた時間領域励振に適用することができる。取り出されたビットストリームは、デコードされた時間領域励振の合成を第1の組の励振カテゴリまたは第2の組の励振カテゴリのいずれかに分類するのに使用可能な分類情報を含むことができる。音響信号を生成するために、出力合成を、時間領域励振が第2の組の励振カテゴリに分類されたときには、デコードされた時間領域励振の合成として選択することができ、時間領域励振が第1の組の励振カテゴリに分類されたときには、変更された時間領域励振の合成として選択することができる。周波数領域励振は、周波数領域励振が音楽を含むかどうかを決定するために分析することができる。具体的には、周波数領域励振が音楽を含むことを決定するには、周波数領域励振のスペクトルエネルギー差の統計偏差を閾値と比較することを利用できる。重み付けマスクは、時間平均化または周波数平均化または両方の組合せを使用して生じさせることができる。信号対雑音比が、デコードされた時間領域励振の選択された帯域に対して推定することができ、周波数領域の雑音低減を推定信号対雑音比に基づいて実施することができる。

図2aおよび図2bは、音楽信号および他の音響信号中の量子化雑音を低減するための周波数領域後処理機能を有するデコーダの簡略化された回路図であり、両図を合わせて図2と呼ぶ。デコーダ100が図2aおよび図2bに示すいくつかの要素を備え、これらの要素は、図示するように矢印によって相互接続され、相互接続のうちの一部は、図2aの一部の要素がどのように図2bの他の要素に関連しているかを示す、コネクタA、B、C、DおよびEを使用して示される。デコーダ100は、例えば、無線通信インターフェースを介してエンコーダからAMR-WBビットストリームを受け取る受信機102を備える。あるいは、デコーダ100は、ビットストリームを記憶したメモリ(図示せず)に動作可能に接続することができる。デマルチプレクサ103が、時間領域励振、ピッチラグ情報および音声区間検出(VAD)情報を再構成するためにビットストリームから時間領域励振パラメータを抽出する。デコーダ100は、時間領域励振パラメータを受け取って、現在のフレームの時間領域励振をデコードする時間領域励振デコーダ104と、過去の励振バッファメモリ106と、2つのLP合成フィルタ108および110と、VAD信号を受け取る信号分類推定器114およびクラス選択テストポイント116を備えた第1の段の信号分類器112と、ピッチラグ情報を受け取る励振外挿器118と、励振連結器120と、窓掛けおよび周波数変換モジュール122と、第2の段の信号分類器124としてのエネルギー安定性分析器と、帯域ごとの雑音レベル推定器126と、雑音低減装置128と、スペクトルエネルギー正規化器131、エネルギー平均化器132およびエネルギー平滑化器134を備えたマスクビルダ130と、スペクトルダイナミクス変更器136と、周波数/時間領域変換器138と、フレーム励振抽出器140と、スイッチ146を制御する判定テストポイント144を備えた上書き器142と、ディエンファサイジングフィルタおよびリサンプラ148とを備える。判定テストポイント144によって行われた上書き判定が、第1の段の信号分類器112から取得されたINACTIVEまたはUNVOICEDの分類および第2の段の信号分類器124から取得された音響信号カテゴリe_CATに基づいて、LP合成フィルタ108からのコア合成信号150またはLP合成フィルタ110からの変更された、すなわち、強化された合成信号152が、ディエンファサイジングフィルタおよびリサンプラ148に供給されるかどうかを決定する。ディエンファサイジングフィルタおよびリサンプラ148の出力は、アナログ信号を提供するデジタル/アナログ(D/A)変換器154に供給され、増幅器156によって増幅され、可聴音響信号を生成するスピーカ158にさらに提供される。あるいは、ディエンファサイジングフィルタおよびリサンプラ148の出力は、通信インターフェース(図示せず)を経てデジタル形式で伝送する、またはメモリ(図示せず)内に、コンパクトディスク上に、または任意の他のデジタル記憶媒体上にデジタル形式で記憶させることができる。別の代替として、D/A変換器154の出力は、直接かまたは増幅器を通してかのいずれかで、イヤホーン(図示せず)に提供することができる。さらに別の代替として、D/A変換器154の出力は、アナログ媒体(図示せず)上に記録するまたはアナログ信号として通信インターフェース(図示せず)を介して伝送することができる。

以下の段落では、図2のデコーダ100の様々な構成要素によって実施される動作の詳細を提供する。

1) 第1の段の分類
例示的な実施形態においては、第1の段の分類は、デマルチプレクサ103からのVAD信号のパラメータに応答して、第1の段の分類器112におけるデコーダにおいて実施される。デコーダの第1の段の分類は、Vaillancourt'011の場合と同様である。以下のパラメータが、デコーダの信号分類推定器114において分類のために使用される。すなわち、正規化相関関係r_x、スペクトル傾斜測定値e_t、ピッチ安定性カウンタpc、現在のフレームの終端における信号の相対フレームエネルギーE_s、およびゼロ交差カウンタzcである。信号を分類するのに使用される、これらのパラメータの計算について、以下に説明する。

正規化相関関係r_xは、合成信号に基づいてフレームの終端において計算される。最後のサブフレームのピッチラグが使用される。

正規化相関関係r_xは、次式と同期して計算されたピッチである。

ここで、Tは最後のサブフレームのピッチラグt=L-Tであり、Lはフレームサイズである。最後のサブフレームのピッチラグが3N/2(Nはサブフレームサイズである)より大きい場合、Tは最後の2つのサブフレームの平均ピッチラグに設定される。

相関関係r_xは、合成信号x(i)を使用して計算される。ピッチラグがサブフレームサイズ(64サンプル)より低い場合、正規化相関関係は、t=L-Tおよびt=L-2Tの時点の2回計算され、r_xが2回の計算の平均として与えられる。

スペクトル傾斜パラメータe_tは、エネルギーの周波数分布に関する情報を含む。本例示的実施形態においては、デコーダにおけるスペクトル傾斜は、合成信号の第1の正規化自己相関係数として推定される。それは最後の3つのサブフレームに基づいて次式として計算される。

ここで、x(i)は合成信号であり、Nはサブフレームサイズであり、Lはフレームサイズ(この例示的実施形態においてはN=64およびL=256)である。

ピッチ安定性カウンタpcは、ピッチ周期の変動を評価する。それはデコーダにおいて次のように計算される。
pc=|p₃+p₂-p₁-p₀| (3)

値p₀、p₁、p₂およびp₃は、4つのサブフレームからの閉ループピッチラグに対応する。

相対フレームエネルギーE_sは、dB単位の現在のフレームエネルギーとその長時間平均との差として計算される。
E_s=E_f-E_lt (4)

ここで、フレームエネルギーE_fは、フレームの終端において次式と同期してdBで計算されたピッチの合成信号s_outのエネルギーである。

ここで、L=256はフレーム長であり、Tは最後の2つのサブフレームの平均ピッチラグである。Tがサブフレームサイズより小さい場合、Tは2T(短時間ピッチラグの2つのピッチ周期を使用して計算されたエネルギー)に設定される。

長時間平均化エネルギーは、以下の関係を使用してアクティブなフレームにより更新される。
E_lt=0.99E_lt+0.01E_f (6)

最後のパラメータは、1フレームの合成信号により計算されたゼロ交差パラメータzcである。この例示的実施形態においては、ゼロ交差カウンタzcは、正から負に信号の極性が変化する回数をその間隔の間カウントする。

第1の段の分類をより強固にするために、分類パラメータは、共に、メリットの関数f_mを形成するとみなされる。そのために、分類パラメータは、線形関数を使用してまずスケーリングされる。パラメータp_xを考えてみると、そのスケーリングされたバージョンは次式を使用して得られる。
p^s=k_p・p_x+c_p (7)

スケーリングされたピッチ安定性パラメータは、0と1との間でクリップされる。関数係数k_pおよびc_pは、パラメータのそれぞれに対して実験的に求められている。この例示的実施形態に使用される値は、Table 1(表1)にまとめられている。

メリット関数は次式として定義されている。

ここで、上付き文字sは、パラメータのスケーリングされたバージョンを示す。

次いで、メリット関数f_mを使用し、以下のTable 2(表2)にまとめた規則に従って分類を行う(クラス選択テストポイント116)。

この第1の段の分類に加えて、エンコーダによる音声区間検出(VAD)の情報が、AMR-WBベースの例示的例の場合のようにビットストリームで伝送することができる。したがって、1ビットをビットストリームで送って、エンコーダが現在のフレームをアクティブコンテンツ(VAD=1)とみなすのか、またはINACTIVEコンテンツ(背景雑音VAD=0)とみなすのかを指定する。コンテンツがINACTIVEとみなされたとき、分類はUNVOICEDに上書きされる。第1の段の分類スキームは、GENERIC AUDIO検出も含む。GENERIC AUDIOカテゴリは、音楽、残響音声を含み、背景音楽も含むことができる。このカテゴリを識別するために2つのパラメータが使用される。パラメータの一方は、式(5)に公式化されているように全フレームエネルギーE_fである。

まず、モジュールが2つの隣接するフレームのエネルギー差

、具体的には現在のフレームのエネルギー

と前のフレームのエネルギー

との間の差を決定する。次いで、以下の関係を使用して過去の40フレームにわたる平均エネルギー差

を計算する。

次いで、モジュールが、以下の関係を使用して最後の15フレームにわたるエネルギー変動の統計偏差σ_Eを決定する。

例示的実施形態の実用化においては、倍率pは、実験的に求められ、約0.77に設定された。その結果得られた偏差σ_Eによりデコードされた合成のエネルギー安定性についての指示が与えられる。典型的には、音楽は音声よりも高いエネルギー安定性を有する。

第1の段の分類の結果は、UNVOICEDとして分類される2つのフレームの間のフレームの数N_UVをカウントするのにさらに使用される。実用化においては、-12dBよりも高いエネルギーE_fを有するフレームだけがカウントされる。一般に、フレームがUNVOICEDとして分類されたとき、カウンタN_UVは0に初期設定される。しかし、フレームがUNVOICEDとして分類され、そのエネルギーE_fが-9dBよりも大きく、長時間平均エネルギーE_ltが40dB未満であるとき、音楽の判定の方にわずかに偏向させるためにカウンタは16に初期設定される。それ以外の場合、フレームがUNVOICEDとして分類されたが、長時間平均エネルギーE_ltが40dB超である場合、カウンタは音声の判定の方に収束させるために8だけ減少される。実用化においては、カウンタはアクティブな信号に対しては0と300との間に制限される。カウンタは、次のアクティブな信号が有効に音声であるとき、音声の判定への迅速な収束を得るためにINACTIVE信号に対しては0と125との間に制限もされる。これらの範囲は、限定するものではなく、他の範囲も特定の実現において企図することができる。この例示的例の場合、アクティブ信号とINACTIVE信号との判定は、ビットストリームに含まれる音声区間決定(VAD)から推測される。

長時間平均

は、アクティブな信号の場合、以下のように、このUNVOICEDフレームカウンタから導出され、

INACTIVE信号の場合、以下のように、このUNVOICEDフレームカウンタから導出される。

ここで、tはフレームインデックスである。以下の擬似コードは、UNVOICEDカウンタの機能およびその長時間平均を示す。

さらに、長時間平均

が非常に高く、偏差σ_Eもある一定のフレーム(現在の例では

およびσ_E>5)においてやはり高く、現在の信号が音楽である可能性がないことが意味されるとき、長時間平均はそのフレーム内で異なって更新される。100の値に収束し、判定を音声の方に偏向させるように長時間平均は更新される。これは以下に示すように行われる。

UNVOICEDに分類されたフレームの間のフレームの数の長時間平均によるこのパラメータは、フレームをGENERIC AUDIOとしてみなすべきかどうかを決定するのに使用される。UNVOICEDフレームがより多く時間的に近接していればいるほど、信号が音声特性を有する可能性がより多くある(GENERIC AUDIO信号である確率がより小さい)。例示的例においては、フレームがGENERIC AUDIO G_Aとみなされるかどうかを判定する閾値は、以下のように定義される。

ならフレームはG_Aである。

大きなエネルギー変動をGENERIC AUDIOとして分類することを避けるために、式(9)に定義されたパラメータ

が(14)で使用される。

励振により実施される後処理は、信号の分類に依存する。信号のある一定の種類の場合、後処理モジュールは、全く入力されない。次の表は、後処理が実施された場合をまとめたものである。

後処理モジュールを入力したとき、以下に説明する、別のエネルギー安定性分析が連結励振スペクトルエネルギーに対して実施される。Vaillancourt'050の場合と同様に、この第2のエネルギー安定性分析により、スペクトルのどこで後処理が開始し、どの程度まで後処理が適用されるべきかとしての指示が得られる。

2) 励振ベクトルの作製
周波数分解能を増大させるために、フレーム長より長い周波数変換が使用される。そうするために、例示的実施形態においては、連結励振ベクトルe_c(n)が、過去の励振バッファメモリ106に記憶された前のフレーム励振の最後の192サンプル、時間領域励振デコーダ104からの現在のフレームe(n)のデコードされた励振、および励振外挿器118から将来のフレームe_x(n)の192励振サンプルの外挿を連結することにより励振連結器120において作製される。これは以下に説明されるが、ただし、L_Wが過去の励振の長さならびに外挿された励振の長さであり、Lがフレーム長である。これは、それぞれ、192サンプルおよび256サンプルに対応し、例示的実施形態において全長L_c=640サンプルが得られる。

CELPデコーダにおいては、時間領域励振信号e(n)は、次式によって与えられる。
e(n)=bv(n)+gc(n)

ここで、v(n)は適応コードブック寄与であり、bは適応コードブック利得であり、c(n)は固定コードブック寄与であり、gは固定コードブック利得である。将来の励振サンプルe_x(n)の外挿は、現在のフレームの最後のサブフレームのデコードされた分数ピッチを使用して現在のフレーム励振信号e(n)を周期的に時間領域励振デコーダ104から延ばすことにより励振外挿器118において計算される。ピッチラグの分数分解能を仮定すると、35サンプルの長さのハミング窓掛けされた同期機能を使用して現在のフレーム励振のアップサンプリングが実施される。

3) 窓掛け
窓掛けおよび周波数変換モジュール122においては、時間/周波数変換の前に、窓掛けが連結励振に対して実施される。選択された窓w(n)は、現在のフレームに対応する平坦な頂部を有し、各端部においてハミング機能により0まで減少する。以下の式は使用される窓を表す。

連結励振に適用されたとき、全長L_c=640サンプル(L_c=2L_w+L)を有する周波数変換への入力が実用化において取得される。窓掛けされた連結励振e_wc(n)が現在のフレームで中心となり、以下の式により表現される。

4) 周波数変換
周波数領域後処理フェーズの間、連結励振は変換領域で表現される。この例示的実施形態においては、時間/周波数変換は、10Hzの分解能を与えるタイプII DCTを使用して窓掛けおよび周波数変換モジュール122において達成されるが、任意の他の変換を使用することができる。別の変換(または異なる変換の長さ)を使用した場合、周波数分解能(上記に定義された)、帯域の数、帯域ごとのビンの数(さらに以下に定義された)は、それに応じて改訂する必要があり得る。連結され窓掛けされた時間領域のCELP励振f_eの周波数表現は、以下に与えられる。

ここで、e_wc(n)は、連結され、窓掛けされた時間領域励振であり、L_cは周波数変換の長さである。この例示的実施形態においては、フレーム長Lは256サンプルであるが、周波数変換の長さL_cは、対応する内部サンプリング周波数が12.8kHzである場合640サンプルである。

5) 帯域ごとおよびビンごとのエネルギー分析
DCTの後、結果として得られたスペクトルは、臨界周波数帯域に分割される(実現化では、周波数範囲0～4000Hzにおいて17の臨界帯域および周波数範囲0～6400Hzにおいて20の臨界周波数帯域を使用する)。使用される臨界周波数帯域は、参照によりその内容が本明細書に組み込まれる、J. D. Johnston「Transform coding of audio signal using perceptual noise criteria」、IEEE J. Select. Areas Commun.、vol. 6、314～323ページ、1988年2月に指定されるものにできるだけ近くし、それらの上限は以下のように定義される。すなわち、C_B={100, 200, 300, 400, 510, 630, 770, 920, 1080, 1270, 1480, 1720, 2000, 2320, 2700, 3150, 3700, 4400, 5300, 6400} Hzである。

640ポイントのDCTは、結果として10Hzの周波数分解能となる(6400Hz/640ポイント)。臨界周波数帯域ごとの周波数ビンの数は、M_CB={10, 10, 10, 10, 11, 12, 14, 15, 16, 19, 21, 24, 28, 32, 38, 45, 55, 70, 90, 110}である。

臨界周波数帯域ごとの平均スペクトルエネルギーE_B(i)は、以下のように計算される。

ここで、f_e(h)は、臨界帯域のh番目の周波数ビンを表し、j_iは、
j_i={0, 10, 20, 30, 40, 51, 63, 77, 92, 108, 127, 148, 172, 200, 232, 270, 315, 370, 440, 530}
によって与えられるi番目の臨界帯域における第1のビンのインデックスである。

スペクトル分析は、以下の関係を使用して周波数ビンごとのスペクトルのエネルギーE_BIN(k)も計算する。

最後に、スペクトル分析は、以下の関係を使用して第1の17の臨界周波数帯域のスペクトルエネルギーの合計として連結励振の全スペクトルエネルギーE_Cを計算する。

6) 励振信号の第2の段の分類
Vaillancourt'050に説明されるように、デコードされた汎用音響信号を強化するための方法は、どのフレームがトーン間雑音低減によく適しているかを識別することにより高調波間雑音低減の効率をさらに最大化するように設計された励振信号の追加の分析を含む。

第2の段の信号分類器124は、デコードされた連結励振を音響信号カテゴリにさらに分離するだけでなく、低減が開始できる最大レベルの減衰および最小周波数に関する命令を高調波間雑音低減装置128に与えもする。

提示される例示的例においては、第2の段の信号分類器124は、できるだけ簡略に保持され、Vaillancourt'050に説明される信号種類分類器に非常に類似している。第1の動作は、式(9)および(10)で行われるのと同様に、ただし、式(21)に公式化されているように連結励振E_Cの全スペクトルエネルギーを入力として使用して、エネルギー安定性分析を実施することにある。

ここで、

は、2つの隣接するフレームの連結励振ベクトルのエネルギーの平均差を表し、

は、現在のフレームtの連結励振のエネルギーを表し、

は、前のフレームt-1の連結励振のエネルギーを表す。平均は最後の40フレームにわたって計算される。

次いで、最後の15フレームにわたってエネルギー変動の統計偏差σ_Cが以下の関係を使用して計算される。

ここで、実用化においては、倍率pが実験的に求められ、約0.77に設定される。その結果得られた偏差σ_Cは、高調波間の雑音をどの程度まで低減できるのかを決定するために4つの浮動閾値と比較される。この第2の段の信号分類器124の出力は、音響信号カテゴリ0から4までに命名された、5つの音響信号カテゴリe_CATに分割される。各音響信号カテゴリは、それ自体のトーン間雑音低減調整を有する。

5つの音響信号カテゴリ0～4は、以下の表に示すように決定することができる。

音響信号カテゴリ0は、トーン間雑音低減技法によって変更されない、非トーンの、非安定音響信号カテゴリである。デコードされた音響信号のこのカテゴリは、スペクトルエネルギー変動の最大の統計偏差を有し、概して、音声信号を含む。

音響信号カテゴリ1(カテゴリ0に続くスペクトルエネルギー変動の最大の統計偏差)は、スペクトルエネルギー変動の統計偏差σ_Cが閾値1より小さく、最後に検出された音響信号カテゴリが≧0であるとき、検出される。次いで、周波数帯域920～

Hz(この例では6400Hz。ここでFsはサンプリング周波数)内のデコードされたトーン励振の量子化雑音の最大低減は、6dBの最大雑音低減R_maxに制限される。

音響信号カテゴリ2は、スペクトルエネルギー変動の統計偏差σ_Cが閾値2より小さく、最後に検出された音響信号カテゴリが≧1であるとき、検出される。次いで、周波数帯域920～

Hz内のデコードされたトーン励振の量子化雑音の最大低減が最大9dBに制限される。

音響信号カテゴリ3は、スペクトルエネルギー変動の統計偏差σ_Cが閾値3より小さく、最後に検出された音響信号カテゴリが≧2であるとき、検出される。次いで、周波数帯域770～

Hz内のデコードされたトーン励振の量子化雑音の最大低減が最大12dBに制限される。

音響信号カテゴリ4は、スペクトルエネルギー変動の統計偏差σ_Cが閾値4より小さいとき、かつ最後に検出された信号種類カテゴリが≧3であるとき、検出される。次いで、周波数帯域630～

浮動閾値1～4は、間違った信号種類の分類を防止するのに役立つ。典型的には、音楽を表すデコードされたトーン音響信号は、そのスペクトルエネルギー変動の統計偏差が音声よりもずっと低くなる。しかし、音楽信号でさえ、より高い統計偏差セグメントを含むことができ、同様に音声信号はより小さい統計偏差を有するセグメントを含むことができる。それにもかかわらず、音声および音楽コンテンツは、フレームベースで一方から別のものに規則的に変化する可能性がない。浮動閾値は、判定ヒステリシスを追加し、高調波間雑音低減装置128の準最適な性能をもたらし得る任意の誤分類を実質的に防止するために前の状態の強化として働く。

音響信号分類0の連続フレームのカウンタ、および音響信号カテゴリ3または4の連続フレームのカウンタは、それぞれ、閾値を低減または増大させるのに使用される。

例えば、カウンタが音響信号カテゴリ3または4の一連の30フレーム超をカウントする場合、すべての浮動閾値(1から4までの)は、より多くのフレームが音響信号カテゴリ4とみなされることを可能にするために、所定の値だけ増加される。

音響信号カテゴリ0については逆もまた真である。例えば、音響信号カテゴリ0の一連の30フレーム超がカウントされた場合、すべての浮動閾値(1から4までの)は、より多くのフレームが音響信号カテゴリ0とみなされることを可能にするために減少される。すべての浮動閾値1～4を絶対最大値および最小値に制限して、信号分類器が確実に固定カテゴリにロックされないようにする。

フレーム消去の場合、すべての閾値1～4がそれらの最小値に再設定され、第2の段の分類器の出力が3連続フレーム(失われたフレームを含めて)に対して非トーン(音響信号カテゴリ0)とみなされる。

音声区間検出器(VAD)からの情報が利用可能であり、その情報が音声活動を何も示していない(無音の存在)場合、第2の段の分類器の判定は、音響信号カテゴリ0(e_CAT=0)に強制される。

7) 励振領域における高調波間雑音低減
トーン間または高調波間雑音低減は、強化の第1の動作として連結励振の周波数表現により実施される。トーン間量子化雑音の低減は、スケーリング利得g_sを最小利得g_minと最大利得g_maxとの間に制限して、各臨界帯域においてスペクトルをスケーリングすることにより雑音低減装置128において実施される。スケーリング利得は、その臨界帯域における推定信号対雑音比(SNR)から導出される。処理は、臨界帯域ベースではなく、周波数ビンベースで実施される。したがって、スケーリング利得は、すべての周波数ビンに適用され、そのビンを含む臨界帯域の雑音エネルギーの推定によって割られたビンエネルギーを使用して計算されたSNRから導出される。この特徴により、高調波またはトーンの近くの周波数におけるエネルギーを維持することが可能になり、したがって、実質的に歪みを防止し、高調波間の雑音を強力に低減することが可能になる。

トーン間雑音低減がすべての640ビンにわたってビンごとのやり方で実施される。トーン間雑音低減をスペクトルに適用した後、スペクトル強化の別の動作が実施される。次いで、後述するように、強化された連結励振

信号を再構成するのに逆DCTを使用する。

最小スケーリング利得g_minは、dB単位の最大許容トーン間雑音低減R_maxから導出される。上述したように、第2の段の分類により、最大許容低減が6dbから12dbまでの間で変動することが可能になる。したがって、最小スケーリング利得は次式により与えられる。

スケーリング利得は、ビンごとのSNRに関連して計算される。次いで、ビンごとの雑音低減は、上述したように実施される。現在の例においては、ビンごとの処理が6400Hzの最大周波数までスペクトル全体に適用される。この例示的実施形態においては、雑音低減は6番目の臨界帯域から開始する(すなわち、630Hz未満では低減は何も実施されない)。技法の任意の悪影響を低減するために、第2の段の分類器は、開始する臨界帯域を8番目の帯域(920Hz)まで押し上げることができる。すなわち、雑音低減が実施される第1の臨界帯域が630Hzから920Hzまでの間にあり、フレームベースで変動することができる。より控えめな実現においては、雑音低減が開始する最小帯域は、より高く設定することができる。

ある一定の周波数ビンkのスケーリングは、次式によって与えられる、SNRの関数として計算される。

通常、g_maxは1に等しく(すなわち、増幅は何も許容されず)、したがって、k_sおよびc_sの値は、SNR=1dBの場合g_s=g_min、SNR=45dBの場合g_s=1などのように決定される。すなわち、1dB以下のSNRの場合、スケーリングはg_minに制限され、45dB以上のSNRの場合、雑音低減は何も実施されない(g_s=1)。したがって、これらの2つの端点を考えると、式(25)におけるk_sおよびc_sの値は次式によって与えられる。

g_maxが1より高い値に設定された場合、処理が、最高のエネルギーを有するトーンをわずかに増幅することが可能となる。これは、実用化において使用される、CELPコーデックが周波数領域におけるエネルギーに完全には一致しないことを補償するのに使用することができる。これは一般に有声音声とは異なる信号の場合である。

ある一定の臨界帯域iにおけるビンごとのSNRは、次式として計算される。

ここで、

および

は、それぞれ、式(20)において計算される、過去のおよび現在のフレームのスペクトル分析に対する周波数ビンごとのエネルギーを表し、N_B(i)は、臨界帯域iの雑音エネルギー推定を表し、j_iはi番目の臨界帯域における第1のビンのインデックスであり、M_B(i)は上記に定義された、臨界帯域iにおけるビンの数である。

平滑化係数は、適応でき、利得自体に逆相関される。この例示的実施形態においては、平滑化係数はα_gs=1-g_sによって与えられる。すなわち、平滑化は利得g_sがより小さければより強力である。この取組みは、有声オンセットの場合のように、実質的に、低いSNRフレームによって先行される高いSNRセグメントにおける歪みを防止する。例示的実施形態においては、平滑化手順は、オンセットに対して迅速に適応し、より低いスケーリング利得を使用することができる。

インデックスiを有する臨界帯域におけるビンごとの処理の場合、式(25)におけるようにスケーリング利得を決定した後、および式(27)において定義されたSNRを使用して、実際のスケーリングを、以下のように周波数分析ごとに更新される平滑化されたスケーリング利得g_BIN,LPを使用して実施する。
g_BIN,LP(k)=α_gsg_BIN,LP (k)+(1-α_gs)g_s (28)

利得の時間平滑化は、実質的に可聴エネルギー発振を防止し、α_gsを使用して平滑化を制御することにより、有声オンセットまたはアタックの場合のように、低いSNRフレームによって先行される高いSNRセグメントにおける歪みを実質的に防止する。

臨界帯域iにおけるスケーリングは次式として実施される。

ここで、j_iは、臨界帯域iにおける第1のビンのインデックスであり、M_B(i)はその臨界帯域におけるビンの数である。

平滑化されたスケーリング利得g_BIN,LP(k)は、1に初期設定される。非トーン音響フレームが処理e_CAT=0されるたびに、平滑化された利得の値を1.0に再設定して、次のフレームにおいて任意の可能な低減があれば低減する。

あらゆるスペクトル分析において、平滑化されたスケーリング利得g_BIN,LP(k)は、スペクトル全体におけるすべての周波数ビンに対して更新されることに留意されたい。低エネルギー信号の場合、トーン間雑音低減は-1.25dBに制限される。これは、すべての臨界帯域において最大雑音エネルギーmax(N_B(i)),i=0,...,20が10以下であるとき起きる。

8) トーン間量子化雑音推定
この例示的実施形態においては、臨界周波数帯域ごとのトーン間量子化雑音エネルギーは、同じ帯域の最大ビンエネルギーを除外する、その臨界周波数帯域の平均エネルギーであるとして帯域ごとの雑音レベル推定器126において推定される。以下の公式は、具体的な帯域iの量子化雑音エネルギーの推定をまとめたものである。

ここで、j_iは臨界帯域iにおける第1のビンのインデックスであり、M_B(i)は、その臨界帯域におけるビンの数であり、E_B(i)は帯域iの平均エネルギーであり、E_BIN(h+j_i)は、特定のビンのエネルギーであり、N_B(i)は、結果として得られた特定の帯域iの推定雑音エネルギーである。雑音推定式(30)において、q(i)は、実験的に求めた帯域ごとの雑音スケーリング倍率を表し、後処理が使用される実現により変更することができる。実用化においては、雑音倍率は、以下に示すように、低周波数においてより多くの雑音を除去することができ、高周波数においてより少ない雑音を除去することができるように設定される。
q={10,10,10,10,10,10,11,11,11,11,11,11,11,11,11,15,15,15,15,15}

9) 励振のスペクトルダイナミクスの増大
周波数後処理の第2の動作は、符号化雑音内に失われた周波数情報を取り出す能力を提供する。CELPコーデックは、特に低ビットレートで使用されたとき、3.5～4kHz超で周波数コンテンツを正しく符号化するのにそれほど効率的ではない。ここでの主な考え方は、音楽スペクトルがしばしば実質的にフレームごとに変化しないことを利用することである。したがって、長時間平均化を行うことができ、符号化雑音の一部を削除することができる。以下の動作は、周波数依存利得関数を定義するのに実施される。この関数は、次いで、時間領域にまた変換する前に励振をさらに強化するのに使用される。

a. スペクトルエネルギーのビンごとの正規化
第1の動作は、連結励振のスペクトルの正規化エネルギーに基づいてマスクビルダ130において重み付けマスクを作製することにある。正規化は、トーン(または高調波)が1.0超の値を有し、谷が1.0未満の値を有するようにスペクトルエネルギー正規化器131において行われる。そうするために、ビンエネルギースペクトルE_BIN(k)を0.925と1.925との間で正規化して、以下の式を使用して正規化エネルギースペクトルE_n(k)を得る。

ここで、E_BIN(k)は、式(20)において計算されたビンエネルギーを表す。正規化がエネルギー領域において実施されるので、多くのビンは非常に低い値を有する。実用化においては、正規化エネルギービンの小さな部分だけが1.0未満の値を有するように、オフセット0.925が選択されている。正規化が行われると、結果として得られた正規化エネルギースペクトルをべき関数により処理して、スケーリングされたエネルギースペクトルを得る。この例示的例においては、以下の公式に示すように、スケーリングされたエネルギースペクトルの最小値を0.5程度に制限するのに8の累乗が使用される。
E_p(k)=E_n(k)⁸ k=0,...,639 (32)

ここで、E_n(k)は正規化エネルギースペクトルであり、E_p(k)はスケーリングされたエネルギースペクトルである。量子化雑音をさらに低減するために、より積極的なべき関数を使用することができ、例えば、10または16の累乗を選択することができ、場合によりオフセットを1により近づけることができる。しかし、あまりに多くの雑音を除去しようとすると、結果として重要な情報を失うことになることもある。

べき関数をその出力を制限せずに使用すると、急速に1より高いエネルギースペクトル値に飽和をもたらす。スケーリングされたエネルギースペクトルの最大制限は、したがって、実用化において5に固定され、最大正規化エネルギー値と最小正規化エネルギー値との間でおよそ10の比を生じる。支配的なビンがフレームによってわずかに異なる位置を有することがあり、したがって、重み付けマスクが1つのフレームから次のフレームまで相対的に安定であることが好ましいならば、これは有用である。以下の式は、どのように関数を適用するのかを示す。
E_pl(k)=min(5,E_p(k)) k=0,...,639 (33)

ここで、E_pl(k)は制限されスケーリングされたエネルギースペクトルを表し、E_p(k)は式(32)において定義されたスケーリングされたエネルギースペクトルを表す。

b. 周波数軸および時間軸に沿ったスケーリングされたエネルギースペクトルの平滑化
最後の2つの動作により、最も活動的なパルスの位置が具体化し始める。正規化エネルギースペクトルのビンに8の累乗を適用することは、スペクトルダイナミクスを増大させるための効率的なマスクを作製する第1の動作である。次の2つの動作は、このスペクトルマスクをさらに強化する。まず、スケーリングされたエネルギースペクトルは、平均化フィルタを使用して低周波数から高周波数まで周波数軸に沿ってエネルギー平均化器132において平滑化される。次いで、結果として得られたスペクトルは、時間領域軸に沿ってエネルギー平滑化器134において処理して、フレームごとにビンの値を平滑化する。

スケーリングされたエネルギースペクトルの周波数軸に沿った平滑化は、以下の関数を用いて説明することができる。

最後に、時間軸に沿った平滑化は、結果として、スペクトル

に適用される時間平均増幅/減衰重み付けマスクG_mとなる。重み付けマスクは、利得マスクとも呼ばれ、以下の式を用いて説明される。

ここで、

は、周波数軸に沿って平滑化されたスケーリングされたエネルギースペクトルであり、tはフレームインデックスであり、G_mは時間平均重み付けマスクである。

実質的に利得発振を防止するため、より遅い適応率がより低い周波数に選ばれている。トーンの位置がスペクトルのより高い部分において急速に変化する可能性がより多くあるので、より速い適応率が、より高い周波数に許容される。平均化が周波数軸で実施され、長時間平滑化が時間軸に沿って実施されると、(35)において得られた最終ベクトルが、式(29)の連結励振

の強化スペクトルに直接適用される重み付けマスクとして使用される。

10) 強化された連結励振スペクトルへの重み付けマスクの適用
上記に定義された重み付けマスクは、第2の段の励振分類器の出力(table 4(表4)に示すe_CATの値)によりスペクトルダイナミクス変更器136によって異なって適用される。重み付けマスクは、励振がカテゴリ0(e_CAT=0。すなわち、音声コンテンツの確率が高い)として分類された場合適用されない。コーデックのビットレートが高いとき、量子化雑音のレベルは、概して、より低く、周波数により変化する。すなわち、トーン増幅をスペクトル内のパルス位置およびエンコードされたビットレートにより制限することができる。CELP以外の別のエンコーディング方法を使用して、例えば、励振信号が時間および周波数領域で符号化された構成要素の組合せを含む場合、重み付けマスクの使用は、特定の事例ごとに調整され得る。例えば、パルス増幅は制限することができるが、方法は量子化雑音低減として依然として使用することができる。

最初の1kHz(実用化においては最初の100ビン)には、励振がカテゴリ0(e_CAT≠0)として分類されない場合、マスクは適用される。減衰は可能であるが、しかし、この周波数範囲において増幅は何も実施されない(マスクの最大値が1.0に制限される)。

25連続フレーム超がカテゴリ4(e_CAT=4。すなわち、音楽コンテンツの確率が高い)として分類されたが、多くて40フレームである場合、重み付けマスクは、残りのすべてのビン(ビン100から639まで)には増幅なしで適用される(最大利得G_max0が1.0に制限され、最小利得には何も制限がない)。

1kHzから2kHzまでの間の周波数(実用化においてはビン100から199まで)に対して、40フレーム超がカテゴリ4として分類されたとき、最大利得G_max1は毎秒12650ビット(bps)未満のビットレートに対して1.5に設定される。それ以外の場合、最大利得G_max1は、1.0に設定される。この周波数帯域においては、ビットレートが15850bpsより高い場合のみ、最小利得G_min1は0.75に固定され、それ以外の場合は、最小利得には何も制限がない。

2kHzから4kHzまで(実用化においてはビン200から399まで)の帯域の場合、12650bps未満のビットレートには、最大利得G_max2は2.0に制限され、12650bps以上および15850bps未満のビットレートには、1.25に制限される。それ以外の場合、最大利得G_max2は1.0に制限される。この周波数帯域においてはまだ、ビットレートが15850bps超である場合のみ、最小利得G_min2は0.5に固定され、それ以外の場合、最小利得には何も制限がない。

4kHzから6.4kHzまで(実用化においてはビン400から639まで)の帯域の場合、15850bps未満のビットレートには、最大利得G_max3は2.0に制限され、それ以外の場合は1.25に制限される。この周波数帯域においては、ビットレートが15850bps超である場合のみ、最小利得G_min3は、0.5に固定され、それ以外の場合、最小利得には何も制限がない。最大および最小利得の他の調整が、コーデックの特性により適当であり得ることに留意されたい。

次の擬似コードは、重み付けマスクG_mを強化スペクトル

に適用したとき、連結励振の最終スペクトルf^" _eがどのように影響されるかを示す。スペクトル強化の第1の動作(第7章で説明したように)は、ビンごとの利得変更のこの第2の強化動作を行うのに絶対に必要とはされないことに留意されたい。

ここで、f^' _eは、前に式(28)のSNR関係関数g_BIN,LP(k)を用いて強化された連結励振のスペクトルを表し、G_mは、式(35)において計算された重み付けマスクであり、G_maxおよびG_minは、上記に定義したように周波数範囲ごとの最大および最小利得であり、tは、現在のフレームに対応するt=0のフレームインデックスであり、最後に、f^" _eは連結励振の最終強化スペクトルである。

11) 逆周波数変換
周波数領域強化が完了した後、強化された時間領域励振を取り戻すために、逆周波数/時間変換が周波数/時間領域変換器138において実施される。この例示的な実施形態においては、周波数/時間変換は、時間/周波数変換に使用されるのと同じ種類のII DCTを用いて達成される。変更された時間領域励振

は、次式として得られる。

ここで、f^" _eは、変更された励振の周波数表現であり、

は、強化された連結励振であり、L_cは連結励振ベクトルの長さである。

12) 現在のCELP合成をフィルタリングし、上書きする合成
合成に遅延を追加することは望ましくないので、実用化の構築においてオーバーラップおよび追加のアルゴリズムを避けることが決定されている。実用化は、以下の式に示されるようにオーバーラップなしで、合成を生成するのに使用される最終励振e_fの正確な長さを強化された連結励振から直接とる。

ここで、L_wは、式(15)で説明したように、周波数変換の前に過去の励振に適用される窓掛けの長さを表す。励振変更が行われ、周波数/時間領域変換器138からの強化され変更された時間領域励振の適正な長さが、フレーム励振抽出器140を使用して連結ベクトルから抽出されると、変更された時間領域励振が、現在のフレームの強化された合成信号を得るために合成フィルタ110を通して処理される。この強化された合成は、知覚品質を上げるために合成フィルタ108からの元々デコードされた合成に上書きするのに使用される。上書きする判定は、クラス選択テストポイント116からの、および第2の段の信号分類器124からの情報に応答して、上記に説明したようにスイッチ146を制御する判定テストポイント144を含む上書き器142によって下される。

図3は、図2のデコーダを形成するハードウェア構成要素の構成例の簡略化された構成図である。デコーダ200は、モバイル端末の一部として、ポータブルメディアプレーヤの一部として、または任意の同様のデバイスにおいて実現することができる。デコーダ200は、入力202と、出力204と、プロセッサ206と、メモリ208とを備える。

入力202は、AMR-WBビットストリーム102を受け取るように構成される。入力202は、図2の受信機102を一般化したものである。入力202の非限定実現例は、モバイル端末の無線インターフェース、例えば、ポータブルメディアプレーヤのユニバーサルシリアルバス(USB)ポートなどの物理的インターフェースを備える。出力204は、図2のD/A変換器154、増幅器156およびスピーカ158を一般化したものであり、オーディオプレーヤ、スピーカ、記録デバイスなどを備えることができる。あるいは、出力204は、オーディオプレーヤ、スピーカ、記録デバイスなどに接続可能なインターフェースを備えることができる。入力202および出力204は、共通モジュール、例えば、シリアル入出力デバイスにおいて実現することができる。

プロセッサ206は、入力202に、出力204に、およびメモリ208に動作可能に接続される。プロセッサ206は、時間領域励振デコーダ104の、LP合成フィルタ108および110の、第1の段の信号分類器112およびその構成要素の、励振外挿器118の、励振連結器120の、窓掛けおよび周波数変換モジュール122の、第2の段の信号分類器124の、帯域ごとの雑音レベル推定器126の、雑音低減装置128の、マスクビルダ130およびその構成要素の、スペクトルダイナミクス変更器136の、スペクトル/時間領域変換器138の、フレーム励振抽出器140の、上書き器142およびその構成要素の、ならびにディエンファサイジングフィルタおよびリサンプラ148の機能を支持してコード命令を実行するための1つまたは複数のプロセッサとして実現される。

メモリ208は、様々な後処理動作の結果を記憶する。より詳しくは、メモリ208は、過去の励振バッファメモリ106を備える。いくつかの変形において、プロセッサ206の様々な機能から生じる中間処理結果は、メモリ208に記憶させることができる。メモリ208は、プロセッサ206によって実行可能なコード命令を記憶するための非一時的メモリをさらに備えることができる。メモリ208は、ディエンファサイジングフィルタおよびリサンプラ148からのオーディオ信号も記憶することができ、プロセッサ206からの要求があり次第、記憶されたオーディオ信号を出力204に提供する。

時間領域デコーダによってデコードされた時間領域励振に含まれる音楽信号または他の信号中の量子化雑音を低減するためのデバイスおよび方法の説明は、例示だけであり、決して限定することが意図されていないことを当業者は理解されよう。他の実施形態は、本開示の利益を有する当業者には容易に思いつくことであろう。さらに、開示されたデバイスおよび方法は、線形予測(LP)ベースのコーデックの音楽コンテンツレンダリングを改善する既存の要求および課題への価値ある解決策を提供するようにカスタマイズすることができる。

明確さのために、デバイスおよび方法の実現の日常的な特徴のすべてが示され、説明されるわけではない。もちろん、時間領域デコーダによってデコードされた時間領域励振に含まれる音楽信号中の量子化雑音を低減するためのデバイスおよび方法のそのような任意の実際の実現の開発において、数多くの実現固有の判定を、アプリケーション、システム、ネットワーク、およびビジネス関連の制約への適合など、開発者固有の目標を達成するために行われることが必要であり得ること、およびこれらの固有の目標は、実現によって、および開発者によって異なることが理解されよう。さらに、開発努力は、複雑で時間がかかり得るが、それにもかかわらず、本開示の利益を有する音響処理の分野の当業者には日常的なエンジニアリングの仕事であることが理解されよう。

本開示によれば、本明細書に説明する構成要素、プロセス動作、および/またはデータ構造は、様々な種類のオペレーティングシステム、コンピューティングプラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用機を使用して実現することができる。さらに、配線で接続されたデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)など、より汎用でない性質のデバイスも使用できることを当業者は認識されよう。一連のプロセス動作を含む方法がコンピュータまたはマシンによって実現され、それらのプロセス動作をマシンによって可読な一連の命令として記憶させることができる場合、それらは有形的媒体上に記憶させることができる。

本開示は、それらの非限定的、例示的実施形態として本明細書の上記に説明してきたが、これらの実施形態は、本開示の趣旨および性質から逸脱することなく添付の特許請求の範囲内で随意に変更することができる。

100 デコーダ
102 受信機
103 デマルチプレクサ
104 時間領域励振デコーダ
106 過去の励振バッファメモリ
108 LP合成フィルタ
110 LP合成フィルタ
112 第1の段の信号分類器
114 信号分類推定器
116 クラス選択テストポイント
118 励振外挿器
120 励振連結器
122 窓掛けおよび周波数変換モジュール
124 第2の段の信号分類器
126 帯域ごとの雑音レベル推定器
128 雑音低減装置
130 マスクビルダ
131 スペクトルエネルギー正規化器
132 エネルギー平均化器
134 エネルギー平滑化器
136 スペクトルダイナミクス変更器
138 周波数/時間領域変換器
140 フレーム励振抽出器
142 上書き器
144 判定テストポイント
146 スイッチ
148 ディエンファサイジングフィルタおよびリサンプラ
150 コア合成信号
152 合成信号
154 デジタル/アナログ変換器
156 増幅器
158 スピーカ
200 デコーダ
202 入力
204 出力
206 プロセッサ
208 メモリ
A、B、C、D、E コネクタ

Claims

音響信号の符号化時に生じた量子化雑音中の失われたスペクトル情報を取り出すために、周波数領域におけるデコードされた合成フィルタ励振に適用のための重み付けマスクを作製するマスクビルダであって、
前記デコードされた合成フィルタ励振のエネルギースペクトルの正規化器と、
スケーリングされたエネルギースペクトルを生成するために、前記正規化エネルギースペクトルをスケーリングする手段と、
周波数軸に沿って前記スケーリングされたエネルギースペクトルを平滑化する平均化フィルタと、
時間平均重み付けマスクである前記重み付けマスクを作製するために、前記平均化フィルタにおいて平滑化された前記エネルギースペクトルを時間軸に沿って処理するエネルギースペクトル平滑化器と
を備える、マスクビルダ。
前記エネルギースペクトル正規化器は、トーンが1.0を超える値を有し、谷が1.0未満の値を有するように正規化を実行する、請求項1に記載のマスクビルダ。
前記エネルギースペクトル正規化器は、第1のより低い値と、第2のより大きい値との間に位置する値に前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化する、請求項2に記載のマスクビルダ。
前記スケーリングする手段は、前記スケーリングされたエネルギースペクトルを生成するために、べき関数により前記正規化エネルギースペクトルを処理する、請求項1から3のいずれか一項に記載のマスクビルダ。
前記べき関数は、所定の数のべき乗を前記正規化エネルギースペクトルに適用する、請求項4に記載のマスクビルダ。
前記スケーリングする手段は、前記スケーリングされたエネルギースペクトルを所定の最大値に制限する、請求項1から5のいずれか一項に記載のマスクビルダ。
前記平均化フィルタは、前記周波数軸に沿って低周波数から高周波数まで前記スケーリングされたエネルギースペクトルを平滑化する、請求項1から6のいずれか一項に記載のマスクビルダ。
前記エネルギースペクトル平滑化器は、フレームからフレームへのエネルギースペクトル値を平滑化するために、前記時間軸に沿って前記平均化フィルタからの前記エネルギースペクトルを処理する、請求項1から7のいずれか一項に記載のマスクビルダ。
音響信号の符号化時に生じた量子化雑音中の失われたスペクトル情報を取り出すために、周波数領域におけるデコードされた合成フィルタ励振に適用のための重み付けマスクを作製するマスク構築方法であって、
前記デコードされた合成フィルタ励振のエネルギースペクトルの正規化するステップと、
スケーリングされたエネルギースペクトルを生成するために、前記正規化エネルギースペクトルをスケーリングするステップと、
周波数軸に沿って前記スケーリングされたエネルギースペクトルを平滑化するために、前記スケーリングされたエネルギースペクトルを平均化するステップと、
時間平均重み付けマスクである前記重み付けマスクを生成するために、前記平均化するステップにおいて前記平滑化されたエネルギースペクトルを時間軸に沿って平滑化するステップ
を含む、マスク構築方法。
前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化するステップは、トーンが1.0を超える値を有し、谷が1.0未満の値を有するように正規化を実行するステップを含む、請求項9に記載のマスク構築方法。
前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化するステップは、第1のより低い値と、第2のより大きい値との間に位置する値に前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化するステップを含む、請求項10に記載のマスク構築方法。
前記正規化エネルギースペクトルをスケーリングするステップは、前記スケーリングされたエネルギースペクトルを生成するために、べき関数により前記正規化エネルギースペクトルを処理する、請求項9から11のいずれか一項に記載のマスク構築方法。
前記べき関数は、所定の数のべき乗を前記正規化エネルギースペクトルに適用する、請求項12に記載のマスク構築方法。
前記正規化エネルギースペクトルをスケーリングするステップは、前記スケーリングされたエネルギースペクトルを所定の最大値に制限するステップを含む、請求項9から13のいずれか一項に記載のマスク構築方法。
前記スケーリングされたエネルギースペクトルを平均化するステップは、前記周波数軸に沿って低周波数から高周波数まで前記スケーリングされたエネルギースペクトルを平滑化するステップを含む、請求項9から14のいずれか一項に記載のマスク構築方法。
前記平均化するステップにおいて前記平滑化されたエネルギースペクトルを時間軸に沿って前記平滑化するステップは、フレームからフレームへのエネルギースペクトル値を平滑化するステップを含む、請求項9から15のいずれか一項に記載のマスク構築方法。