JP4292767B2 - データレート変換方法及びデータレート変換装置 - Google Patents
データレート変換方法及びデータレート変換装置 Download PDFInfo
- Publication number
- JP4292767B2 JP4292767B2 JP2002258161A JP2002258161A JP4292767B2 JP 4292767 B2 JP4292767 B2 JP 4292767B2 JP 2002258161 A JP2002258161 A JP 2002258161A JP 2002258161 A JP2002258161 A JP 2002258161A JP 4292767 B2 JP4292767 B2 JP 4292767B2
- Authority
- JP
- Japan
- Prior art keywords
- lsp
- background noise
- rate
- parameter
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、有声音の符号化に適した符号化方式と、無声音、背景雑音の符号化に適した符号化方式を含む複数の符号化方式を切り替えて符号化された固定レートの符号データを伝送するデータ伝送系におけるデータレート変換方法及びデータレート変換装置に関する。
【0002】
【従来の技術】
MPEG(Moving Picture Experts Group)4音声コーディックのアルゴリズムとして、ハーモニック符号化にCELP(Code Excited Linear Prediction)符号化を組み合わせたHVXC(HarmonicVector eXcitation Coding)と呼ばれるパラメトリック符号化方式が採用されている。
【0003】
HVXCは、2.0kbpsから4.0kbpsという非常に低いビットレートで音声信号を符号化する方式である。
【0004】
このHVXCでは、入力音声信号の有声音/無声音(V/UV:Voice /UnVoiced sound)判定を行い、有声音の場合は線形予測係数(LPC:Linear Prediction Coefficients)残差信号を求めてハーモニック符号化を行う。また、無声音の場合はノイズ源のコードブックを持つCELP符号化を行う。
【0005】
有声音の場合に行われるハーモニック符号化では、ハーモニック(Harmonic)構造を持つスペクトラムの基本周波数(入力音声信号のピッチ周波数に対応)と、そのハーモニックスペクトルの振幅形状を伝送する。デコーダには、基本周波数及びその高調波に対応する周波数可変の正弦波発振器が存在し、伝送されてきたハーモニクスの振幅に合わせて正弦波を発生し加算する。なお、位相情報は伝送せずに、各フレームでハーモニクス合成された波形が不連続にならないように調整している。
【0006】
有声音が周期的な信号であるに対し、無声音は特定の周期を持たないノイズ的な信号であるので、ノイズ源のコードブックを持つCELP符号化が行われる。
【0007】
有声音/無声音(V/UV)の判定は、入力音声信号のゼロクロス数、エネルギー、LPC予測残差の自己相関の最大値、ハーモニクス合成されたスペクトルと元のFFTスペクトルとの類似度を元にして行われる。
【0008】
HVXCは、符号化ビット全体からその一部を取り出してデコードを行うことを可能にするスケーラビリティ機能を有している。また、HVXCは、2.0kbpのベースレイヤに対して2.0kbpsのエンハンスメントレイヤが加算される階層符号化構造を有し、通常は高音質な2.0kbps+2.0kbps=4.0kbpsで使用し、回線状態が悪いときには、ベースレイヤの2.0kbpsだけを取り出してデコードするという使い方が可能になっている。また、ビットレートに関しては、通常の固定レートに加えて可変レートも選択可能となっている。
【0009】
HVXCのエンコーダにおいて、LPC係数は、最初に線スペクトル対(LSP:Line Spectral Pair)パラメータに変換される。LSPパラメータはベクトル量子化(VQ:Vector Quantization)でその後量子化される。ベースレイヤ(baselayer)の場合、LSPを量子化する2つの方法がある。
【0010】
一方はフレーム間(interframe)予測なしの2段VQ、他方はVQとフレーム間予測VQの組合せである。符号化処理では、LSPを量子化するために2つの方法が使われ、量子化誤差を最小にする一方が選択される。量子化誤差は重み付けされたユークリッド距離として計算される。
【0011】
ベースレーヤの符号化処理は次の通りである。
【0012】
重み付け係数(w[])を次の式1に示す。
【0013】
【数1】
【0014】
ここで、Npは線形予測(LP:Linear Prediction)分析次数であり、lsp[]は変換されたLSPである。
【0015】
第1段の量子化器においてはフレーム間予測と非フレーム間予測でおなじ量子化方法を使用する。LSPはベクトル量子化器を使って量子化され、相当するインデクスはLSP1に記録される。決定を先送りするため、複数のインデクスが第2段への候補として記録される。第1段での量子化誤差は、次の式2で与えられる。
【0016】
【数2】
【0017】
ここで、nは分離したベクトルの番号、mは候補となる分離したベクトルのインデクス、spはn番目の分離したベクトルの最初のLSPの次数、そして、dimはn番目のベクトルの次元である。
【0018】
第1段におけるLSPベクトルの最初の次数と次元を表1に示す。
【0019】
【表1】
【0020】
第2段において、上記の2つの量子化方法、すなわちフレーム間予測と非フレーム間予測の2つのベクトル量子化器が各々適用される。第2段の全体の量子化器誤差は第1段と第2段の候補の全ての組合せに対して計算され、最小誤差となる一つが選択される。結果として、第1段のインデクスが決定され、かつ対応する第2段のインデクスと正負号がLSP2とLSP3に記録される。選択した量子化方法を示すフラグもまたLSP4に記録される。第2段の量子化誤差err2は次の式3及び式4にて与えられる。
【0021】
すなわち、非フレーム間予測のVQにおける量子化誤差err2は次の式3にて与えられる。
【0022】
【数3】
【0023】
ここでlsp_first[]は第1段の量子化したLSPベクトル、nは分離したベクトルの番号、mは候補となる分離したベクトルのインデクス、spはn番目の分離したベクトルの最初のLSPの次数、dimはn番目の分離したベクトルの次元である。
【0024】
また、フレーム間予測のVQにおける量子化誤差err2は次の式4にて与えられる。
【0025】
【数4】
【0026】
ここでlsp_first[]は第1段の量子化したLSPベクトル、nは分離したベクトルの番号、mは候補となる分離したベクトルのインデクス、spはn番目の分離したベクトルの最初のLSPの次数、dimはn番目の分離したベクトルの次元、ratio_predict=0.7である。
【0027】
第2段におけるLSPベクトルの最初の次数と次元を表2に示す。
【0028】
【表2】
【0029】
LSP符号化処理の後、現在のLSPはメモリに保持され、次フレームの予測のため使われる。
【0030】
保持されたLSP(lsp_previous[])はエンコーダが初期化されるとき次の通り初期化される。
【0031】
また、LSPデコーダでは、LSPパラメータの量子化のために、多段量子化器構造が使われ個々の段からの出力ベクトルはLSPパラメータを得るため加算される。
【0032】
ビットレートが2.0kbpsの時、現在のフレームのLSPは2段のベクトル量子化、特に第2段目は低域と高域に分離して独立に量子化することにより符号化され、2段の復号過程を用いて復号される。4.0kbpsでは、8ビットコードブックを持つ10次元ベクトル量子化器出力が2.0kbps符号化器のLSP量子化器出力に加算される。LSPに対して必要となるビットは18bit/20msec(2.0kbps)、26bit/20msec(4.0kbps)である。多段ベクトル量子化器の構成を表3に示す。
【0033】
【表3】
【0034】
ここで、base layer(2.0kbps)に対するLSPパラメータの復号過程を説明する。
【0035】
すなわち、現在のフレームのLSP()は2段のベクトル量子化により符号化されており、2段の復号過程で復号される。個々のベクトルの次元は下記表4及び表5のとおりである。LSP1は第1段、LSP2とLSP3は第2段のインデクスを示す。
【0036】
【表4】
【0037】
【表5】
【0038】
第1段目において、第1段のLSPベクトルlsp_first[]はテーブルlsp_tbl[][][]を参照して復号される。
【0039】
第2段目において、2種類の復号過程があり、それらはinterframe予測を使用するVQとinterframe予測を使用しないVQからなる復号過程である。LSP4はこれらの処理に応じて選択される。
【0040】
【表6】
【0041】
interframe予測を使用しないVQの復号処理は次のようになる。
【0042】
すなわち、現在のフレームのLSP lsp_current[]を得るため、第2段の復号ベクトルが復号された第1段のLSPベクトル lsp_first[]に加算される。LSP2とLSP3の最上位ビットMSBは復号ベクトルの正負号を表し、残りのビットはテーブルd_tbl[][][]のインデクスを表す。
【0043】
interframe予測を使用するVQの復号処理は次のようになる。
【0044】
現在のフレームのLSP lsp_current[]を得るため、第2段の復号ベクトルが直前のフレームの復号されたLSP lsp_previous[i]と第1段のLSP lsp_first[]から予測されたLSPベクトル lsp_predict[]に加算される。interframe予測を使用しないVQの復号LSPと同様に、LSP2とLSP3のMSBが復号ベクトルの正負号を表し、残りのビットはテーブルpd_tbl[][][]のインデクスを表す。
【0045】
そして、LSP復号処理の後、次のフレームでの予測のため復号LSPは、メモリに保存される。
【0046】
また、直前フレームのLSPはデコーダの初期化時に以下のとおり初期化される。
【0047】
さらに、enhancement layerの復号処理では、enhancement layer(4.0kbps)に対して、付加的なコードベクトルとbase layerのLSPが次のとおり加算されている。
【0048】
【発明が解決しようとする課題】
しかしながら、HVXCを採用した従来の音声コーディックシステムでは、固定レートとして受信された符号化データについて、背景雑音区間は重要度が低いにもかかわらず音声区間と同じデータ量を必要とするためメモリ等に記録する際に非効率性を生ずる状態であった。
【0049】
固定レートとして受信したデータを可変レートとして記録することにより、背景雑音のような情報量の少ないフレームのデータ量を縮小し、メモリ等に記録する際にその消費量を縮小することが可能となる。
【0050】
そこで、本発明の目的は、音声信号をその特徴に応じて複数の符号化方式を切り替えて符号化する機能を有する符号化器において、その符号化方式に応じて固定レートのみでなく可変レートでも符号化できる場合に、一旦固定レートで受信したデータを可変レートのデータに変換するデータレート変換方法及びデータレート変換装置を提供することにある。
【0051】
本発明に係る符号化データ変換方法は、有声音の符号化に適した符号化方式と、無声音、背景雑音の符号化に適した符号化方式を含む複数の符号化方式を切り替えて符号化された固定レートの符号データを受信し、受信した固定レートの符号データを上記無声音、背景雑音に対する符号化方式を使用してビットレートを低下させた可変レートの符号化データに変換するにあたり、HVXC(HarmonicVector eXcitation Coding)方式で符号化された固定レートの符号データについて、前段の線スペクトル対(LSP:Line Spectral Pair)パラメータを示すLSP1、前段のLSPパラメータの符号化誤差を補填する後段のLSP2およびLSP3、そのLSPパラメータを復号する場合に直前のLSPパラメータを必要とするか否かを示すLSP4からなるLSPパラメータ、昇順に並んでいるゲインコードブックのインデックスからなるLPC残差信号のゲインパラメータのどちらか一方又はその両者を使用して、無声音フレームとして受信した符号化データから無声音か背景雑音かを識別して、可変レートの符号化データに変換し、上記ゲインパラメータを使用する際には、上記ゲインコードブックのインデックスの直近のある期間の最大値が十分小さいか、または最大値と最小値の差が十分小さい時、背景雑音と識別することを特徴とする。
【0052】
また、本発明に係る符号化データ変換装置は、有声音の符号化に適した符号化方式と、無声音、背景雑音の符号化に適した符号化方式を含む複数の符号化方式を切り替えて符号化された固定レートの符号データを受信し、受信した固定レートの符号データを上記無声音、背景雑音に対する符号化方式を使用してビットレートを低下させた可変レートの符号化データに変換するにあたり、HVXC(HarmonicVector eXcitation Coding)方式で符号化された固定レートの符号データについて、前段の線スペクトル対(LSP:Line Spectral Pair)パラメータを示すLSP1、前段のLSPパラメータの符号化誤差を補填する後段のLSP2およびLSP3、そのLSPパラメータを復号する場合に直前のLSPパラメータを必要とするか否かを示すLSP4からなるLSPパラメータ、昇順に並んでいるゲインコードブックのインデックスからなるLPC残差信号のゲインパラメータのどちらか一方又はその両者を使用して、無声音フレームとして受信した符号化データから無声音か背景雑音かを識別して、可変レートの符号化データに変換し、上記ゲインパラメータを使用する際には、上記ゲインコードブックのインデックスの直近のある期間の最大値が十分小さいか、または最大値と最小値の差が十分小さい時、背景雑音と識別する符号化データ変換部を備えることを特徴とする。
【0053】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0054】
本発明は、MPEG-4 HVXC 音声コーデック(以下、HVXCという。)において固定レートにて送られてきた符号データを可変レートの符号データに変換することにより、記録媒体に記録する際のデータサイズを縮小することを可能にするものである。
【0055】
HVXCにおいて、可変レートでは、固定レートで伝送される符号化パラメータのうちの比較的重要なものを信号の性質に応じて伝送するようになっている。
【0056】
可変レートでは、2.0kbpsについては3種類の伝送レートを、4.0kbpsについては4種類の伝送レートを各伝送フレーム毎に信号の性質に応じて切り換えている。各伝送レートを識別するため符号化パラメータのうち VUVを全ての伝送レートの符号化データの先頭に配置するようにしている。固定、可変レート時のVUVとそのモードは以下の表7の通りである。
【0057】
【表7】
【0058】
2.0kbpsの固定レートおよび可変レートの符号化パラメータの内訳は以下の表8に示す通りである。表8において“*”はその符号化パラメータを使用していることを示す。
【0059】
【表8】
【0060】
4.0kbpsの可変レートにはVUV=1の時、すなわち背景雑音時に付加的にパラメータUpdateFlagを用いることにより背景雑音更新フレームと非更新フレームを識別できるようにしている。UpdateFlagとそのモードは以下の表9の通りである。
【0061】
【表9】
【0062】
4.0kbpsの固定レートおよび可変レートの符号化パラメータの内訳は以下の表10の通りである。なお、項「VUVの値」において()内に書かれているのはUpdateFlagの値である。
【0063】
【表10】
【0064】
このように固定レート時の符号化パラメータの中から比較的重要なものを選択したものが可変レートであるが、ここでは固定レートとして受信した符号化データを可変レートの符号化データに変換する方法を述べる。
【0065】
固定レートの符号化データを可変レートの符号化データに変換するデータレート変換装置100は、図1に示すように、符号化データ変換部10と複数のスイッチSW1〜SW9にて構成される。
【0066】
このデータレート変換装置100では、符号化データ(固定レート)の出力がVUV=1,2,3の時に、スイッチSW1,SW2を閉成して、Pitch、SE_Shape1-2及びSE_gainが送られる。
【0067】
さらに、bitrate=4.0kbpsの時にスイッチSW3を閉成して、LSP5及びSE_Shape3-6が送られる。
【0068】
また、VUV=0の時、符号化データ変換部10にて背景雑音検出処理によりVUVの変換が行われる。
【0069】
そして、変換結果がVUV=0の時、すなわち無声音の時にはスイッチSW4,SW5,SW8が閉成され、LSP1〜LSP4及びVX_gain1[0,1]が出力され、bitrate=4.0kbpsの時にはスイッチSW7が閉成されVX_Shape1[0,1]が出力される。また、スイッチSW6は開成される。
【0070】
また、VUV=1(背景雑音)かつbitrate=2.0kbpsの時には、スイッチSW4,SW5,SW6が開成されVUVのみ出力される。
【0071】
同様にVUV=1かつbitrate=4.0kbpsの時に、UpdateFlag=0ならばスイッチSW4,SW5,SW8が開成され、スイッチSW6,SW9が閉成されVUV及びUpdateFlagが出力される。
【0072】
さらに、VUV=1かつbitrate=4.0kbps、UpdateFlag=1の時には、スイッチSW4,SW5,SW6,SW9が閉成され、スイッチSW8が開成され、VUV、LSP1〜LSP4、VX_gain1[0](VX_gain1[1]は出力しない)及びUpdateFlagが出力される。
【0073】
上記符号化データ変換部10は、図2に示すように、符号化データ(固定レート)の出力VUVが供給されるVUV処理部1及びuvCnt制御部2、上記符号化データ(固定レート)の出力LSP1〜4及びVX_gain1[0,1]が供給される背景雑音検出部3、上記uvCnt制御部2及び背景雑音検出部3の出力が供給されるbgnCnt,bgnIntvl制御部4を備える。
【0074】
この符号化データ変換部10では、図3のフローチャートに示す手順に従って、変換処理を行う。
【0075】
すなわち、先ず、ステップS11でVUV処理部1において入力された符号化データ(固定レート)VUVが有声音(VUV≠0)であるか否かの判定を行う。
【0076】
上記ステップS11での判定結果がYESすなわち有声音(VUV≠0)の時は、そのまま可変レートデータとして取り扱うことができるので、次のステップS12においてuvCnt制御部2でuvCnt=0にセットする。
【0077】
そして、VUV処理部1は、次のステップS13でVUV=1であるか否かの判定を行い、このステップS13での判定結果がYESすなわちVUV=1のときは、次のステップS14でVUV=2にセットする。さらに、次のステップS15において、bgnCnt,bgnIntvl制御部4でbgnCnt=0にセットして、処理を終了する。また、上記ステップS13での判定結果がNOすなわちVUV=1でないときは、上記ステップS15に移ってbgnCnt,bgnIntvl制御部4でbgnCnt=0にセットして、処理を終了する。
【0078】
また、上記ステップS11における判定結果がNOすなわち入力された符号化データ(固定レート)VUVが無声音(VUV=0)であるときには、次のステップS16においてuvCnt制御部2でuvCntを1増加させ、さらに次のステップS18においてuvCntがN以上であるか否かを判定する。
【0079】
このステップS18における判定結果がNOすなわちuvCntがNに満たないときは、VUV処理部1にて無声音フレームとして取り扱い、上記ステップS15に移ってbgnCnt,bgnIntvl制御部4でbgnCnt=0にセットして、処理を終了する。
【0080】
そして、上記ステップS18における判定結果がYESすなわちuvCntがN以上のときには、bgnCnt,bgnIntvl制御部4は、次のステップS18において背景雑音検出部3の出力フラグbgnFlagを用いて背景雑音フレームを検出し、次のステップS19において上記出力フラグbgnFlagが0であるか否かを判定する。
【0081】
このステップS19における判定結果がYESすなわちbgnFlag=0のときには、VUV処理部1にて無声音フレームとして取り扱い、上記ステップS15に移ってbgnCnt,bgnIntvl制御部4でbgnCnt=0にセットして、処理を終了する。
【0082】
また、上記ステップS19における判定結果がNOすなわちbgnFlag=1のときには、bgnCnt,bgnIntvl制御部4は、次のステップS20でbgnCntを1増加させ、さらに次のステップS21においてbgnCntが定数BGN_CNTよりも小さいか否かを判定する。
【0083】
このステップS21における判定結果がYESすなわちbgnCntが定数BGN_CNTよりも小さいときには、VUV処理部1にて無声音フレームとして取り扱い、処理を終了する。
【0084】
上記ステップS21における判定結果がNOのときには、次のステップS22においてbgnCntが定数BGN_CNTと等しい否かを判定する。
【0085】
このステップS22における判定結果がYESすなわちbgnCntが定数BGN_CNTと等しいときには、bgnCnt,bgnIntvl制御部4は、ステップS25に移ってbgnIntvlを0とし、次のステップS26で2.0kbpsの場合は無声音フレームを背景雑音更新フレーム(VUV=0)として扱い、4.0kbpsの場合は背景雑音更新フレーム(VUV=1、UpdateFlag=1)として取り扱う。
【0086】
また、上記ステップS22における判定結果がNOすなわちbgnCntが定数BGN_CNTよりも大きいときには、bgnCnt,bgnIntvl制御部4は、次にステップS23でbgnIntvlを1増加し、さらに、次のステップS24でbgnIntvlが定数BGN_INTVLに等しくなったか否かを判定する。
【0087】
このステップS22における判定結果がNOすなわちbgnIntvlが定数BGN_INTVLに満たないときには、ステップS27に移って背景雑音フレーム(非更新)として2.0kbpsの時、VUV=1、4.0kbpsの時、VUV=1、UpdateFlag=0とする。また、上記における判定結果がYESすなわちbgnIntvlが定数BGN_INTVLに等しいときには、上記ステップ25に移ってbgnIntvlを0とし、上記ステップS26で2.0kbpsの場合は無声音フレームを背景雑音更新フレーム(VUV=0)として扱い、4.0kbpsの場合は背景雑音更新フレーム(VUV=1、UpdateFlag=1)として取り扱う。
【0088】
このように、この符号化データ変換部10では、背景雑音カウンタbgnCnt、背景雑音更新カウンタbgnIntvl及び無声音フレームカウンタuvCntを導入して、固定レートから可変レートへ符号化パラメータを変換する処理を行っている。
【0089】
すなわち、このデータレート変換装置100は、有声音の符号化に適した符号化方式と、無声音、背景雑音の符号化に適した符号化方式を含む複数の符号化方式を切り替えて符号化された固定レートの符号データを受信し、受信した固定レートの符号データを上記無声音、背景雑音に対する符号化方式を使用してビットレートを低下させた可変レートの符号化データに変換する符号化データ変換部10を備える。
【0090】
そして、上記符号化データ変換部10は、上記無声音、背景雑音に対する符号化方式により、音声信号のスペクトルを示すパラメータと、音声信号からスペクトル成分を除去したLPC残差信号を、ゲイン成分を示すパラメータとシェイプ成分を示すパラメータに分解して、符号化された固定レートの符号データに対して、シェイプ成分を示すパラメータを除去することにより、ビットレートを低下させた可変レートの符号化データに変換する。
【0091】
また、上記符号化データ変換部10は、上記無声音、背景雑音に対する符号化方式により、音声信号のスペクトルを示すパラメータと、音声信号からスペクトル成分を除去した線形予測係数(LPC:Linear Prediction Coefficients)残差信号を、ゲイン成分を示すパラメータとシェイプ成分を示すパラメータに分解して、符号化された固定レートの符号データの受信信号が安定していると判断された場合に、背景雑音区間としてそれを示すパラメータのみを残すことにより、ビットレートを低下させた可変レートの符号化データに変換する。
【0092】
また、上記符号化データ変換部10は、上記無声音、背景雑音に対する符号化方式により、音声信号のスペクトルを示すパラメータと、音声信号からスペクトル成分を除去したLPC残差信号を、ゲイン成分を示すパラメータとシェイプ成分を示すパラメータに分解して、符号化された固定レートの符号データの受信信号が安定していると判断された場合に、ある周期で信号の状態を更新するパラメータを生成することで、ビットレートを低下させた可変レートの符号化データに変換する。
【0093】
さらに、上記符号化データ変換部10は、音声のスペクトルを示すパラメータがある期間安定しており、LPC残差信号のゲイン成分を示すパラメータがある期間十分小さいか、あるいは変動が少ないかを判定し、これらをある期間満たすとき背景雑音期間として検出する背景雑音検出部3を備え、上記背景雑音検出部3の検出出力に基づいて固定レートの符号データを可変レートの符号化データに変換する処理を行う。
【0094】
具体的には、上記符号化データ変換部10は、HVXC(HarmonicVector eXcitation Coding)方式で符号化された固定レートの符号データについて、無声音フレームとして受信した符号化データから無声音か背景雑音かを識別し、可変レートの符号化データに変換する。
【0095】
上記符号化データ変換部10は、前段の線スペクトル対(LSP:Line Spectral Pair)パラメータを示すLSP1、前段のLSPパラメータの符号化誤差を補填する後段のLSP2およびLSP3、そのLSPパラメータを復号する場合に直前のLSPパラメータを必要とするか否かを示すLSP4からなり、LPC残差信号のゲインパラメータとは昇順に並んでいるゲインコードブックのインデックスからなるLSPパラメータあるいはLPC残差信号のゲインパラメータ又はその両者を使用して、無声音か背景雑音を識別する背景雑音検出部3を備え、上記背景雑音検出部3の検出出力に基づいて固定レートの符号データを可変レートの符号化データに変換する処理を行う。
【0096】
ここで、背景雑音区間の検出は次のようにして行われる。
【0097】
すなわち、固定レートとして送られる符号データは、無声音(VUV=0)か有声音(VUV≠0)としか識別できず背景雑音は無声音に分類されている。そこで、無声音フレームから背景雑音らしい区間を選別するために線スペクトル対パラメータLSP1〜4とゲインコードブックパラメータVX_gain1[0,1]を用いる。
【0098】
上記背景雑音検出部3は、図4のブロック図に示すように、符号化データ(固定レート)のVX_gain1[0,1]が供給される最大・差分検出処理部31、上記符号化データ(固定レート)のLSP1〜4が供給されるLSP逆量子化処理部32、このLSP逆量子化処理部32の出力qLsp[n]が供給されるLSP最小幅検出部33及び平均LSP計算部34、この平均LSP計算部34の出力が供給されるLSP差分計算部35、上記最大・差分検出処理部31の出力VX_gmax,VX_gwth、上記LSP最小幅検出部33の出力dmin及び上記LSP差分計算部35の出力wdifが供給される判定部36からなる。
【0099】
この背景雑音検出部3において、最大・差分検出処理部31では、直近NフレームのVX_gain[0,1]の最大値VX_gmax,VX_gminを求めた後、その差VX_gwthを求める。この時VX_gmaxが低いと音量が低く、またVX_gwthが小さいと音量の変化が小さいと言える。
【0100】
また、LSP逆量子化処理部32では、LSP1〜4から線スペクトル対qLsp[1〜Np]を逆量子化により求める(Npは次数)。さらに、平均LSP計算部34により求められるVUV=0である直近NフレームのqLsp[1〜Np]の平均値avLsp[1〜Np]との差分wdifをLSP差分計算部35にて次の式に従って求める。このwdifが低いとスペクトルの変動が少ないと言える。
【0101】
【数5】
【0102】
ここで、w[1〜Np]は重み係数である。
【0103】
また、LSP最小幅検出部33では、隣接qLsp[1〜Np]の差分量dLsp[1〜N1](1<N1<Np)を次の式6にて求める。
【0104】
【数6】
【0105】
差分量dLsp[1〜N1]の最小値をdminとする。このdminが大きいとスペクトルの形状が緩やかであると考えられる。
【0106】
そして、判定部36では、これらの変数を用いて背景雑音を図5のフローチャートに示す手順に従って検出する。
【0107】
すなわち、先ず、ステップS31において、上記LSP差分計算部35の出力wdifが閾値WDより小さく、且つ、dminが閾値DTHより大きいか否かを判定する。そして、このステップS31における判定結果がYESすなわち、wdifが閾値WDより小さく、且つ、dminが閾値DTHより大きいときには次のステップS32に進み、それ以外のときにはステップS35に進む。
【0108】
ステップS32では、最大・差分検出処理部31で求められた直近NフレームのVX_gain[0,1]の最大値VX_gmaxが閾値VX_G1より小さいか否かを判定する。そして、このステップS31における判定結果がYESすなわちVX_gmaxが閾値VX_G1より小さいときにはステップS34に進み、そうでないときにはステップ次のS33に進む。
【0109】
ステップS33では、VX_gmaxが閾値VX_G2より小さく、且つ、VX_gwthが閾値VX_W1より小さいか否かを判定する。そして、このステップS33における判定結果がYESすなわち、VX_gmaxが閾値VX_G2より小さく、且つ、VX_gwthが閾値VX_W1より小さいときには次のステップS34に進み、それ以外のときにはステップS35に進む。
【0110】
ステップS34では、背景雑音と認めて出力フラグbgnFlag=1とする。
【0111】
また、ステップS35では、背景雑音と認めずbgnFlag=0とする。
【0112】
すなわち、上記背景雑音検出部3は、LSPパラメータを復号して得られたLSP周波数と直近のある期間の平均LSP周波数との差分が十分小さく、また当該フレームにおける隣接するLSP周波数がほぼ等間隔である時、背景雑音と識別する。また、上記背景雑音検出部3は、ゲインコードブックのインデックスの直近のある期間の最大値が十分小さいか、または最大値と最小値の差が十分小さい時、背景雑音と識別する。
【0113】
つぎに、背景雑音更新パラメータの生成について説明する。
【0114】
HVXCにおいて、固定レートにおけるVUV=1〜3では有声音としてVUV=1を2に変更するだけで可変レートとして使用でき、VUV=0でも先に変換アルゴリズムで無声音として判定されたときは使用しないパラメータを削除するだけでよい。また背景雑音フレームとした場合でも非更新フレームではVUV、4.0kbpsの時はさらにUpdateFlagを記録するだけでよい。
【0115】
一方背景雑音更新フレームでは、付加的な処理として、次のLSPパラメータの変更及びVX_gain1[0,1]の変更を行う。
【0116】
1) LSPパラメータの変更
LSPパラメータLSP1〜4を用いて線スペクトル対qLsp[1〜Np]を得るが、LSP4が0の時はstraight modeというそのフレームにおけるLSP1〜4で完結するものなのでそのまま記録できるが、LSP4が1の場合はinterframe modeという直前のフレームのqLsp[1〜Np]を使用するものなので間欠受信される背景雑音更新フレームに使用できない。
【0117】
そこで、次の(1)〜(3)のいずれかで対処する。
【0118】
(1)再符号化する方法
LSP4=1として一度受信したLSP1〜4を復号してqLsp[1〜Np]を求めた後、今度はLSP4=0として再符号化し、得られたLSP1〜4を記録する。
【0119】
すなわち、上記符号化データ変換部10は、上記背景雑音検出部3が背景雑音と判定した場合に、背景雑音更新フレームを挿入すべき時に、LSPパラメータを復号するために直前のLSPパラメータを必要としない場合はそのまま現在のLSPパラメータを可変レートでも採用する。
【0120】
あるいは、上記符号化データ変換部10は、上記背景雑音検出部3が背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、LSPパラメータを復号するために直前のLSPパラメータを必要とする場合は一旦LSPパラメータを復号した後、直前のLSPパラメータを必要としないモードで符号化して得られたLSPパラメータを可変レートで採用する。
【0121】
(2)LSP1を重視する方法
LSP1〜4のうち、LSP1は符号化される前のLsp[1〜Np]に近似したものを示すもので、またLSP2,LSP3は各々低次、高次の前段の符号化誤差を補填するものであるから、LSP1はそのまま、LSP4は0としLSP2、LSP3はそのコードブックのベクトルの大きさが最も小さいものを採用する。
【0122】
すなわち、上記符号化データ変換部10は、上記背景雑音検出部3が背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、LSPパラメータを復号するために直前のLSPパラメータを必要とする場合は、基本となるLSPパラメータLSP1はそのまま、符号化誤差を補填するLSPパラメータLSP2,LSP3は対応するコードブックベクトルの大きさが最小となるものを選択し、直前のLSPパラメータを必要としないモードとして可変レートで採用する。
【0123】
(3)送信側でstraight mode LSPを周期的に挿入する方法
先に述べたように、LSP4=0のときはLSP1〜4をそのまま記録できるが、LSP4=1のときは何らかの方法でLSP4=0に変換しなければならない。そこで送信側つまり符号化側で、背景雑音フレームと見られるフレームにおいて複数フレームに一回、LSP4=0のLSP1〜4を強制的に選択し、受信側でやはり先のアルゴリズムで背景雑音と判定した後、LSP4=0となるフレームを探し出してそのLSP1〜4を記録する。
【0124】
すなわち、送信側で予め背景雑音と見られる期間においてある一定間隔で強制的に直前のLSPパラメータを必要としないモードでLSPパラメータを符号化して送信し、受信側で背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、当該フレームを検出し、そのLSPパラメータを可変レートで採用する。
【0125】
2)VX_gain1[0,1]の変更
コードブックゲインパラメータVX_gain1[0,1]は、雑音コードブックのゲインを示す。これを符号化するため、過去NフレームにおけるVX_gain[0,1]の中央値又は平均値を背景雑音更新フレームのVX_gain[0,1]として採用する。
【0126】
すなわち、上記符号化データ変換部10は、上記背景雑音検出部3が背景雑音と判定した場合に、背景雑音更新フレームを挿入すべき時に、LPC残差信号のゲインパラメータとして、直近のある期間の同パラメータの中央値又は平均値を可変レートで採用する。
【0127】
【発明の効果】
以上説明したように、本発明によれば、有声音の符号化に適した符号化方式と、無声音、背景雑音の符号化に適した符号化方式を含む複数の符号化方式を切り替えて符号化された固定レートの符号データを受信し、受信した固定レートの符号データを上記無声音、背景雑音に対する符号化方式を使用してビットレートを低下させた可変レートの符号化データに変換することができる。したがって、固定レートとして受信したデータを可変レートとして記録することができ、これにより、背景雑音のような情報量の少ないフレームのデータ量を縮小し、メモリ等に記録する際にその消費量を縮小することが可能となる。
【図面の簡単な説明】
【図1】本発明に係るデータレート変換装置の構成を示すブロック図である。
【図2】上記データレート変換装置における符号化データ変換部の構成を示すブロック図である。
【図3】上記符号化データ変換部による変換処理の手順を示すフローチャートである。
【図4】上記符号化データ変換部における背景雑音検出部の構成を示すブロック図である。
【図5】上記背景雑音検出部による背景雑音の検出処理の手順を示すフローチャートである。
【符号の説明】
1 VUV処理部、2 uvCnt制御部、3 背景雑音検出部、4 bgnCnt,bgnIntvl制御部、10 符号化データ変換部、SW1〜SW9 スイッチ、31 最大・差分検出処理部、32 LSP逆量子化処理部、33 LSP最小幅検出部、34 平均LSP計算部、35 LSP差分計算部、36 判定部、100 データレート変換装置
Claims (8)
- 有声音の符号化に適した符号化方式と、無声音、背景雑音の符号化に適した符号化方式を含む複数の符号化方式を切り替えて符号化された固定レートの符号データを受信し、受信した固定レートの符号データを上記無声音、背景雑音に対する符号化方式を使用してビットレートを低下させた可変レートの符号化データに変換するにあたり、
HVXC(HarmonicVector eXcitation Coding)方式で符号化された固定レートの符号データについて、
前段の線スペクトル対(LSP:Line Spectral Pair)パラメータを示すLSP1、前段のLSPパラメータの符号化誤差を補填する後段のLSP2およびLSP3、そのLSPパラメータを復号する場合に直前のLSPパラメータを必要とするか否かを示すLSP4からなるLSPパラメータ、昇順に並んでいるゲインコードブックのインデックスからなるLPC残差信号のゲインパラメータのどちらか一方又はその両者を使用して、無声音フレームとして受信した符号化データから無声音か背景雑音かを識別して、
可変レートの符号化データに変換し、
上記ゲインパラメータを使用する際には、上記ゲインコードブックのインデックスの直近のある期間の最大値が十分小さいか、または最大値と最小値の差が十分小さい時、背景雑音と識別するデータレート変換方法。 - 上記LSPパラメータを使用する際には、LSPパラメータを復号して得られたLSP周波数と直近のある期間の平均LSP周波数との差分が十分小さく、また当該フレームにおける隣接するLSP周波数がほぼ等間隔である時、背景雑音と識別することを特徴とする請求項1記載のデータレート変換方法。
- 背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、LSPパラメータを復号するために直前のLSPパラメータを必要としない場合はそのまま現在のLSPパラメータを可変レートでも採用することを特徴とする請求項1記載のデータレート変換方法。
- 背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、LSPパラメータを復号するために直前のLSPパラメータを必要とする場合は一旦LSPパラメータを復号した後、直前のLSPパラメータを必要としないモードで符号化して得られたLSPパラメータを可変レートで採用することを特徴とする請求項1記載のデータレート変換方法。
- 背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、LSPパラメータを復号するために直前のLSPパラメータを必要とする場合は、基本となるLSPパラメータ LSP1はそのまま、符号化誤差を補填するLSPパラメータLSP2,LSP3は対応するコードブックベクトルの大きさが最小となるものを選択し、直前のLSPパラメータを必要としないモードとして可変レートで採用することを特徴とする請求項1記載のデータレート変換方法。
- 送信側で予め背景雑音と見られる期間においてある一定間隔で強制的に直前のLSPパラメータを必要としないモードでLSPパラメータを符号化して送信し、受信側で背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、当該フレームを検出し、そのLSPパラメータを可変レートで採用することを特徴とする請求項1記載のデータレート変換方法。
- 背景雑音と判定した場合に背景雑音更新フレームを挿入すべき時に、LPC残差信号のゲインパラメータとして、直近のある期間の同パラメータの中央値又は平均値を可変レートで採用することを特徴とする請求項1記載のデータレート変換方法。
- 有声音の符号化に適した符号化方式と、無声音、背景雑音の符号化に適した符号化方式を含む複数の符号化方式を切り替えて符号化された固定レートの符号データを受信し、受信した固定レートの符号データを上記無声音、背景雑音に対する符号化方式を使用してビットレートを低下させた可変レートの符号化データに変換するにあたり、HVXC(HarmonicVector eXcitation Coding)方式で符号化された固定レートの符号データについて、前段の線スペクトル対(LSP:Line Spectral Pair)パラメータを示すLSP1、前段のLSPパラメータの符号化誤差を補填する後段のLSP2およびLSP3、そのLSPパラメータを復号する場合に直前のLSPパラメータを必要とするか否かを示すLSP4からなるLSPパラメータ、昇順に並んでいるゲインコードブックのインデックスからなるLPC残差信号のゲインパラメータのどちらか一方又はその両者を使用して、無声音フレームとして受信した符号化データから無声音か背景雑音かを識別して、可変レートの符号化データに変換し、上記ゲインパラメータを使用する際には、上記ゲインコードブックのインデックスの直近のある期間の最大値が十分小さいか、または最大値と最小値の差が十分小さい時、背景雑音と識別する符号化データ変換部を備えることを特徴とするデータレート変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002258161A JP4292767B2 (ja) | 2002-09-03 | 2002-09-03 | データレート変換方法及びデータレート変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002258161A JP4292767B2 (ja) | 2002-09-03 | 2002-09-03 | データレート変換方法及びデータレート変換装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004094132A JP2004094132A (ja) | 2004-03-25 |
JP2004094132A5 JP2004094132A5 (ja) | 2005-10-27 |
JP4292767B2 true JP4292767B2 (ja) | 2009-07-08 |
Family
ID=32062893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002258161A Expired - Fee Related JP4292767B2 (ja) | 2002-09-03 | 2002-09-03 | データレート変換方法及びデータレート変換装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4292767B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4789430B2 (ja) * | 2004-06-25 | 2011-10-12 | パナソニック株式会社 | 音声符号化装置、音声復号化装置、およびこれらの方法 |
ES2634511T3 (es) * | 2004-07-23 | 2017-09-28 | Iii Holdings 12, Llc | Aparato de codificación de audio y procedimiento de codificación de audio |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
DE102006051673A1 (de) * | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
US8977543B2 (en) | 2011-04-21 | 2015-03-10 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN105513602B (zh) * | 2011-04-21 | 2019-08-06 | 三星电子株式会社 | 用于语音信号或音频信号的解码设备和方法及量化设备 |
-
2002
- 2002-09-03 JP JP2002258161A patent/JP4292767B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004094132A (ja) | 2004-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
JP4005154B2 (ja) | 音声復号化方法及び装置 | |
US6134518A (en) | Digital audio signal coding using a CELP coder and a transform coder | |
US8209190B2 (en) | Method and apparatus for generating an enhancement layer within an audio coding system | |
JP3680380B2 (ja) | 音声符号化方法及び装置 | |
US7599833B2 (en) | Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same | |
JP2006502426A (ja) | ソース制御された可変ビットレート広帯域音声の符号化方法および装置 | |
JPH1091194A (ja) | 音声復号化方法及び装置 | |
JPH09127991A (ja) | 音声符号化方法及び装置、音声復号化方法及び装置 | |
JP4438127B2 (ja) | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 | |
JP2006510947A (ja) | 可変ビットレート通話符号化における線形予測パラメータの強力な予測ベクトル量子化方法と装置 | |
CA2918345C (en) | Unvoiced/voiced decision for speech processing | |
WO2006120931A1 (ja) | 符号化装置、復号化装置及びこれらの方法 | |
JP2005338200A (ja) | 音声・楽音復号化装置および音声・楽音復号化方法 | |
JP3396480B2 (ja) | 多重モード音声コーダのためのエラー保護 | |
JP4857468B2 (ja) | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 | |
JP4292767B2 (ja) | データレート変換方法及びデータレート変換装置 | |
WO2002021091A1 (fr) | Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit | |
JP3297749B2 (ja) | 符号化方法 | |
JP3905706B2 (ja) | 音声符号化装置、音声処理装置及び音声処理方法 | |
Bouzid et al. | Optimized trellis coded vector quantization of LSF parameters, application to the 4.8 kbps FS1016 speech coder | |
JPH11219196A (ja) | 音声合成方法 | |
Xydeas et al. | A long history quantization approach to scalar and vector quantization of LSP coefficients | |
JP3578933B2 (ja) | 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体 | |
López-Soler et al. | Linear inter-frame dependencies for very low bit-rate speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050831 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050831 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |