JP2011508897A

JP2011508897A - 音声コーデックの品質向上装置およびその方法

Info

Publication number: JP2011508897A
Application number: JP2010536838A
Authority: JP
Inventors: ミ−スクイ; ド−ヨンキム; ビョン−ソンイ
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2007-12-06
Filing date: 2008-11-28
Publication date: 2011-03-17
Anticipated expiration: 2028-11-28
Also published as: US9135926B2; EP2560162A1; US20130066627A1; KR101235830B1; US20130073282A1; WO2009072777A1; EP2229675A4; US9135925B2; JP5323084B2; JP5390690B2; EP2560163A1; US20100057449A1; KR101235829B1; CN101636785A; US9142222B2; CN101636785B; JP5395250B2; JP2013084002A; KR20110068961A; JP2013101366A

Abstract

音声コーデックの品質向上装置およびその方法が開示される。コアコーデックによってデコードされた信号の第１エネルギーを求め、低帯域音質向上モードによってデコードされた信号の第２エネルギーを求めた後、第１エネルギーがあらかじめ設定された第１しきい値よりも小さいか、または第１エネルギーが第２エネルギーにあらかじめ設定された第２しきい値を乗算した値よりも小さい場合、デコードされた信号の大きさをスケーリングすることにより無音区間の量子化誤差を減少させる。

Description

本発明は、音声コーデックに関し、詳細には音声コーディング時に無音区間の量子化誤差による品質低下を減らすための装置およびその方法に関する。

音声信号を圧縮するモジュールをエンコーダ（ｅｎｃｏｄｅｒ）といい、再生するモジュールをデコーダ（ｄｅｃｏｄｅｒ）という。最も基本的な音声コーデックは、ＩＴＵ−ＴＧ．７１１コーデックであって、入力信号を８ｋＨｚでサンプリングした後、８ビットで量子化する。このとき、量子化効率を上げるために数１のようにＡ−ｌａｗまたは数２のようにμ−ｌａｗ形態のログ量子化器を使用する。

上記のような従来におけるログ量子化器は、入力信号の大きさにより量子化の間隔が異なる。例えば、大きさが小さい信号は相対的に量子化の間隔を大きくし、発生可能性が高い大きさの信号は量子化の間隔を狭くして量子化の効率を上げる。

一般的に量子化雑音は、全周波数帯域にかけて均等に分布するものと知られている。しかし、人の聴覚的な特性によって信号の大きさが大きい区間にある量子化誤差は信号に埋もれてよく聞こえず、信号の大きさが小さい区間にある量子化誤差は雑音として聞こえる。従って、音声区間のみならず無音区間を効率よくコーディングすることがコーデックの全体性能において重要な影響を及ぼす。すなわち、無音区間における量子化誤差による雑音が全体の音質に影響を与えるおそれがあるためである。

また、コーデックは、入力信号の大きさに応じて性能が異なり得る。音声コーデックの性能を評価するときは主に大きさが異なる−１６、−２６、−３６ｄＢｏＶの信号に対して性能を評価する。すなわち、コーデックが入力信号の大きさの変化により性能がどのように変化するかを評価する。

Ｇ．７１１やＧ．７２２のようなコーデックは、−３６ｄＢｏＶの入力信号に対して量子化誤差による雑音が発生するが、特に無音区間で発生する量子化誤差がコーデックの全体品質を低下させる１つの原因になる。主観的な聴取テストの結果によると、−３６ｄＢｏＶ信号に対するＭＯＳ（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）の点数が−３６ｄＢＯｖ信号に比べて高いことが観察される。

本発明が解決しようとする技術的な課題は、音声コーディング時に無音区間の量子化誤差による雑音を減らすことによって、人の耳に無音区間で雑音が聞こえないようにし、全体的な聴取品質を高めることができる音声コーデックの品質向上装置およびその方法を提供することにある。

前述した技術的な課題を解決するための本発明に係る音声コーデックの品質向上装置の一実施形態は、コアコーデックによってデコードされた信号の第１エネルギーを求める第１エネルギー算出部と、前記第１エネルギーがあらかじめ設定された第１しきい値よりも小さい場合、前記デコードされた信号の大きさをスケーリングするスケーリング部と、を備える。

前述した技術的な課題を解決するための本発明に係る音声コーデックの品質向上方法の一実施形態は、コアコーデックによってデコードされた信号の第１エネルギーを求めるステップと、前記第１エネルギーがあらかじめ設定された第１しきい値よりも小さい場合、前記デコードされた信号の大きさをスケーリングするステップと、を含む。

本発明によれば、無音区間の量子化誤差によって発生する雑音を減らし、音声コーデックの品質を向上させることができる。特に、コーデックの入力信号のうち、信号の大きさが小さい場合、無音区間における量子化誤差を減らすことによって聴取品質を向上させることができる。

狭帯域コーデック基盤の広帯域拡張コーデックの一実施形態を示した図である。Ｇ．７１１コーデックを利用するエンコーダの入力信号およびデコーダの出力信号に対するスペクトルを示した図である。Ｇ．７１１コーデックを利用するエンコーダの入力信号およびデコーダの出力信号に対するスペクトルを示した図である。本発明に係る音声コーデックの品質向上装置の一実施形態の構成を示した図である。本発明に係る音声コーデックの品質向上方法の一実施形態の流れを示した図である。本発明に係る音声コーデックの品質向上方法の適用有無による、Ｇ．７１１コーデックを利用するデコーダの出力信号に対するスペクトルを示した図である。本発明に係る音声コーデックの品質向上方法の適用有無による、Ｇ．７１１コーデックを利用するデコーダの出力信号に対するスペクトルを示した図である。

以下、添付の図面を参照して本発明に係る音声コーデックの品質向上装置およびその方法に対して詳細に説明する。

図１は、狭帯域コーデック基盤の広帯域拡張コーデックの一実施形態を示した図である。

同図に示すように、広帯域拡張コーデックは、送信側１００および受信側１５０に区分され、送信側１００は、低帯域フィルタ（ｌｏｗ−ｐａｓｓｆｉｌｔｅｒ）１０５、高帯域フィルタ（ｈｉｇｈ−ｐａｓｓｆｉｌｔｅｒ）１１０、狭帯域コアコーデック（ｃｏｒｅｃｏｄｅｃ）１１５、低帯域向上モード（ｌｏｗ−ｂａｎｄｅｎｈａｎｃｅｍｅｎｔ）１２０、広帯域拡張モード（ｗｉｄｅｂａｎｄｅｘｔｅｎｓｉｏｎ）１２５、およびＭＵＸ１３０を備え、受信側１５０は、ＤＥＭＵＸ１５５、狭帯域コアコーデック１６０、低帯域向上モード１６５、広帯域拡張モード１７０、低帯域フィルタ１７５、および高帯域フィルタ１８０を備える。

送信側１００に入力される広帯域入力信号は、低帯域フィルタ１０５および高帯域フィルタ１１０を介して各々低帯域信号および高帯域信号に分離され、低帯域信号は、狭帯域コアコーデック１１５および低帯域向上モード１２０を介してコーディングされ、高帯域信号は、広帯域拡張モード１２５を介してコーディングされる。狭帯域コアコーデック１１５、低帯域向上モード１２０および広帯域拡張モード１２５を介して各々コーディングされた信号はＭＵＸ１３０によってビットストリームとして出力される。

ここで、低帯域向上モード１２０は、狭帯域コアコーデック１１５において示していない低帯域信号をコーディングすることによって、狭帯域信号の品質を向上させる役割をする。

一般的に、低帯域向上モード１２０は、狭帯域コアコーデック１１５により動作するアルゴリズムを決定するが、大部分の時間領域において動作するアルゴリズムを使用し、広帯域拡張モードは周波数領域において動作するアルゴリズムを使用する。

受信側１５０のＤＥＭＵＸ１５５は、送信側１００から出力されたビットストリームを受信し、各々狭帯域コアコーデック１６０、低帯域向上モード１６５、および広帯域拡張モード１７０に出力する。低帯域向上モード１６５および広帯域拡張モード１７０の動作の可否は、受信されたビットストリームにより決定される。

受信側１５０は、広帯域拡張モード１７０の動作の有無に応じて広帯域信号を出力することができる。出力信号の帯域幅にかかわらず、狭帯域コアコーデック１６０は基本的に動作する。もし、狭帯域コアコーデック１６０のみが動作すれば基本的な狭帯域信号を再生することができる。より優れた品質の狭帯域信号を再生するためには狭帯域コアコーデック１６０と共に低帯域向上モード１６５も動作しなければならない。また、広帯域信号を出力するためには狭帯域コアコーデック１６０および広帯域拡張モード１７０が動作しなければならない。すなわち、受信側において、広帯域出力信号を再生するためには狭帯域コアコーデック１６０および広帯域拡張モード１７０の出力信号を加えて出力する。もちろん、より優れた品質の広帯域信号を再生するためには、狭帯域コアコーデック１６０、低帯域向上モード１６５の出力信号、および広帯域拡張モード１７０の出力信号を加えて出力すればよい。

ＩＴＵ−Ｔでは、図１に示された構成と類似したＧ．７１１をコアコーデックとして使用する広帯域拡張コーデックに対する標準化を進行している。すなわち、ＩＴＵ−Ｔの推奨するＧ．７１１コーデック基盤の広帯域拡張コーデックは、狭帯域コアコーデック１１５、１６０としてＧ．７１１を使用し、図１に示された構成で表現することができる。しかし、Ｇ．７１１コーデックは、−３６ｄＢｏＶ信号の場合に量子化誤差による雑音が発生する。

図２Ａおよび図２Ｂは、Ｇ．７１１コーデックを利用するエンコーダの入力信号およびデコーダの出力信号に対するスペクトルを示した図である。図２Ａは音声信号に対するスペクトルであり、図２Ｂは無音信号に対するスペクトルである。

図２Ａに示すように、音声信号に対して、エンコーダの入力信号２００およびデコーダの出力信号２１０のスペクトルはほとんど一致する。しかし、図２Ｂに示すように、無音信号に対してエンコーダの入力信号２３０およびデコーダの出力信号２２０のスペクトルは不一致なことが分かる。すなわち、音声区間の場合、量子化誤差が小さい一方、無音区間では量子化誤差が大きいことが分かる。かかる量子化誤差は人の耳に雑音として聞こえる。

図３は、本発明に係る音声コーデックの品質向上装置の一実施形態の構成を示した図である。

同図に示すように、本発明に係る音声コーデックの品質向上装置は、第１エネルギー算出部３００、第２エネルギー算出部３１０、およびスケーリング部３２０で構成される。
第１エネルギー算出部３００は、コアコーデックによってデコードされた信号のエネルギー（以下、コアコーデックのエネルギー）を求める。第１エネルギー算出部３００は、フレーム単位でコアコーデックのエネルギーを求め、コアコーデックとしてＧ．７１１を使用する場合にフレームの大きさはＧ．７１１コーデックが使用される環境に応じて異なり得る。すなわち、第１エネルギー算出部３００は、各サンプルに対するエネルギーを全て合算して１フレームのエネルギーを求める。

第２エネルギー算出部３１０は、低帯域向上モードが動作する場合、低帯域向上モードによってデコードされた信号のエネルギー（以下、向上モードのエネルギー）を求める。スケーリング部３２０は、コアコーデックのエネルギーが所定のしきい値ＴＨＲ１よりも小さい場合、コアコーデックによってデコードされた信号の大きさをスケーリングする。また、スケーリング部３２０は、コアコーデックのエネルギーが向上モードのエネルギーに所定のしきい値ＴＨＲ２を乗算した値よりも小さい場合、コアコーデックによってデコードされた信号の大きさをスケーリングする。スケーリング部３２０は、１よりも小さい定数（ａ）の分だけデコードされた信号の大きさをスケーリングすることが好ましい。また、他の例として、スケーリング部３２０は、現フレームのエネルギー（コアコーデックのエネルギーまたは向上モードのエネルギー）に以前フレームのエネルギー（コアコーデックのエネルギーまたは向上モードのエネルギー）を加えた値に比例する１よりも小さい利得（ｇａｉｎ）をデコードされた信号に乗算してスケーリングすることによって、スケーリングによる急な変化を防止できる。

この場合、スケーリング部３２０は、以前スケーリングの大きさを考慮してスケーリングの大きさを求めることができる。すなわち、スケーリング部３２０は、現フレームのエネルギーおよび以前フレームのエネルギーに基づいて求めた利得の一定比率と以前スケーリングの大きさの一定比率とを加えることによって、スケーリングの大きさを求めることができる。スケーリングはサンプル単位で行なうことはいうまでもない。

スケーリング部３２０は、デコードされた信号のエネルギーの大部分が高帯域に存在する場合、スケーリングを行なわない場合もある。例えば、広帯域拡張モードによってデコードされた信号のエネルギーがコアコーデックのエネルギーまたは向上モードのエネルギーより、あらかじめ設定された一定の大きさ以上よりも大きい場合、スケーリング部３２０はスケーリングを行なわない。

スケーリングのために使用されるしきい値ＴＨＲ１、ＴＨＲ２およびスケーリングの大きさ（ａ）などは実験によって求めることができ、このような値は本発明の実施形態によって多様に変更されて使用され得る。

図４は、本発明に係る音声コーデックの品質向上方法の一実施形態に対する流れを示した図である。

同図に示すように、本発明に係る音声コーデックの品質向上装置（以下、装置）は、コアコーデックによってデコードされた信号のエネルギー（以下、コアコーデックのエネルギー）をフレーム単位で算出するＳ４００。フレームの大きさは、コーデックの種類およびコーデックが適用される環境に応じて多様に決定され得る。図１に示したように、狭帯域音声コーデックを利用した広帯域拡張コーデックに本発明を適用する場合、低帯域向上モードが存在し得る。したがって、装置は低帯域向上モードが動作中であるかを確認するＳ４１０。

低帯域向上モードが動作中の場合Ｓ４１０、装置は低帯域向上モードによってデコードされた信号のエネルギー（以下、向上モードのエネルギー）を算出するＳ４３０。そして、装置はコアコーデックのエネルギーが向上モードのエネルギーに所定のしきい値ＴＨＲ１を乗算した値よりも小さいか、またはコアコーデックのエネルギーが所定のしきい値ＴＨＲ２よりも小さい場合Ｓ４４０、コアコーデックによってデコードされた信号の大きさをａ（１よりも小さい定数）の分だけスケーリングするＳ４５０。

低帯域向上モードが動作中でなければＳ４１０、装置はコアコーデックのエネルギーが所定のしきい値ＴＨＲ２よりも小さい場合Ｓ４２０、デコードされた信号をスケーリングするＳ４５０。スケーリングは、現フレームのエネルギー（コアコーデックのエネルギーまたは向上モードのエネルギー）に以前フレームのエネルギー（コアコーデックのエネルギーまたは向上モードのエネルギー）を加えた値に比例する１よりも小さい利得をデコードされた信号に乗算して行なうことによって、スケーリングによる急な変化を防止できる。この場合、現フレームのエネルギーおよび以前フレームのエネルギーに基づいて求めた利得の一定比率および以前スケーリングの大きさの一定比率を加えることによって、スケーリングの大きさを求めることができる。

しきい値ＴＨＲ１、ＴＨＲ２およびスケーリングの大きさなどは、前述の説明のような実験によってあらかじめ求められた値である。

図５Ａおよび図５Ｂは、本発明に係る音声コーデックの品質向上方法の適用の有無によるＧ．７１１コーデックを利用するデコーダの出力信号に対するスペクトルを示した図である。図５Ａは音声信号に対するスペクトルであり、図５Ｂは無音信号に対するスペクトルである。

図５Ａに示すように、音声信号に対して本発明に係る音声コーデックの品質向上方法が適用される前のデコーダ出力信号５００と、本発明に係る方法が適用された場合のデコーダ出力信号５１０とのスペクトルは一致する。

図５Ｂに示すように、無音信号に対して本発明に係る音声コーデックの品質向上方法が適用される前のデコーダ出力信号５２０よりも、本発明に係る方法が適用された場合のデコーダ出力信号５３０の大きさが小さくなることが分かる。すなわち、無音区間においてデコーダの出力信号レベルが低くなり、量子化誤差が減少することが分かる。

本発明は、コンピュータで読出し可能な記録媒体にコンピュータが読出し可能なコードとして具現することも可能である。コンピュータが読出し可能な記録媒体は、コンピュータシステムによって読出し可能なデータが保存されるすべての種類の記録装置を含む。コンピュータが読出し可能な記録媒体の一例として、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光データの保存装置などがあり、また、キャリアウェーブ（例えばインターネットを介した伝送）による表示の形態で具現されるものも含む。また、コンピュータが読出し可能な記録媒体は、ネットワークに接続したコンピュータシステムに分散され、分散方式によりコンピュータが読出し可能なコードが保存かつ実行されることができる。

以上、本発明に係る好ましい実施形態を主に説明した。本発明が属する技術分野における通常の知識を有する者は、本発明が本発明の本質的な特性から離脱しない範囲内で変形された形態で具現され得ることを理解すべきである。したがって、開示された実施形態は限定的な観点でなく、説明的な観点で考慮すべきである。本発明の範囲は、前述した説明でなく、特許請求の範囲に示されており、それと同等な範囲内にあるすべての差異点は本発明に含まれていると解釈すべきであろう。

Claims

コアコーデックによってデコードされた信号の第１エネルギーを求める第１エネルギー算出部と、
前記第１エネルギーがあらかじめ設定された第１しきい値よりも小さい場合、前記デコードされた信号の大きさをスケーリングするスケーリング部と
を備えることを特徴とする音声コーデックの品質向上装置。
低帯域音質向上モードによってデコードされた信号の第２エネルギーを求める第２エネルギー算出部をさらに備え、
前記スケーリング部は、前記第１エネルギーが前記第２エネルギーにあらかじめ設定された第２しきい値を乗算した値よりも小さい場合、前記コアコーデックによってデコードされた信号の大きさをスケーリングすることを特徴とする請求項１に記載の音声コーデックの品質向上装置。
前記第１エネルギー算出部は、フレーム単位で前記第１エネルギーを算出することを特徴とする請求項１に記載の音声コーデックの品質向上装置。
前記スケーリング部は、前記デコードされた信号を１よりも小さい定数でスケーリングすることを特徴とする請求項１に記載の音声コーデックの品質向上装置。
前記スケーリング部は、前記コアコーデックによってデコードされた信号の以前フレームのエネルギーと現フレームのエネルギーとの和に比例する１よりも小さい利得を前記現フレームの信号に乗算することを特徴とする請求項１に記載の音声コーデックの品質向上装置。
コアコーデックによってデコードされた信号の第１エネルギーを求めるステップと、
前記第１エネルギーがあらかじめ設定された第１しきい値よりも小さい場合、前記デコードされた信号の大きさをスケーリングするステップと
を含むことを特徴とする音声コーデックの品質向上方法。
低帯域音質向上モードによってデコードされた信号の第２エネルギーを求めるステップと、
前記第１エネルギーが前記第２エネルギーにあらかじめ設定された第２しきい値を乗算した値よりも小さい場合、前記コアコーデックによってデコードされた信号の大きさをスケーリングするステップと
をさらに含むことを特徴とする請求項６に記載の音声コーデックの品質向上方法。
前記第１エネルギーは、フレーム単位で算出されることを特徴とする請求項６に記載の音声コーデックの品質向上方法。
前記スケーリングするステップは、前記デコードされた信号を１よりも小さい定数でスケーリングするステップを含むことを特徴とする請求項６に記載の音声コーデックの品質向上方法。
前記スケーリングするステップは、前記コアコーデックによってデコードされた信号の以前フレームのエネルギーと現フレームのエネルギーとの和に比例する１よりも小さい利得を前記現フレームの信号に乗算するステップを含むことを特徴とする請求項６に記載の音声コーデックの品質向上方法。
コアコーデックによってデコードされた信号の第１エネルギーを求めるステップと、
前記第１エネルギーがあらかじめ設定された第１しきい値よりも小さい場合、前記デコードされた信号の大きさをスケーリングするステップと
を実行するためのプログラムを記録したコンピュータで読出し可能な記録媒体。
低帯域音質向上モードによってデコードされた信号の第２エネルギーを求めるステップと、
前記第１エネルギーが前記第２エネルギーにあらかじめ設定された第２しきい値を乗算した値よりも小さい場合、前記コアコーデックによってデコードされた信号の大きさをスケーリングするステップと
を実行するための請求項１１に記載のプログラムを記録したコンピュータで読出し可能な記録媒体。