JP4091506B2

JP4091506B2 - ２段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体

Info

Publication number: JP4091506B2
Application number: JP2003309721A
Authority: JP
Inventors: 岳至森; 仲大室; 祐介日和▲崎▼; 祥子栗原; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-09-02
Filing date: 2003-09-02
Publication date: 2008-05-28
Anticipated expiration: 2023-09-02
Also published as: JP2005080063A

Description

本発明は、多段符号化に基づく音声画像符号化方法、及びそれらを実現するための装置及びプログラム及びこのプログラムを記録した記録媒体に関する。

現在、音声や楽音など音響信号の符号化方法や画像信号の符号化方法には使用目的、復号信号品質、ビットレートなどに応じて多種多様な方法が存在する。例えば符号励振線形予測（Code Excited Linear Predictive：ＣＥＬＰ）符号化方式（非特許文献１参照）などの音声符号化方式は、低ビットレートで比較的高音質に音声を符号化することができる。また、Ｔwin ＶＱ方式（Transform-domain Weighted Interleave vector quantization）（非特許文献２、特許文献１参照）などの変形離散コサイン変換（Modified Discrete Cosine Transform：ＭＤＣＴ）を用いた変換符号化方式は楽音信号を効率的に符号化するのに適している。画像符号化においてはＪＰＥＧ（Joint Photographic Experts Group）（非特許文献３参照）やＪＰＥＧを動画符号化に適用したＭＯＴＩＯＮ−ＪＰＥＧなどにより高品質に動画像を符号化することが可能である。

上記のように異なる特徴を有する符号化方法を多段に使用することにより、音声や画像を効率的に符号化する階層符号化方法が提案されている。例えば特許文献２には、音声信号を符号化する際にＣＥＬＰ方式で音声部分を符号化した後、音声以外の楽音や背景音を原音と符号化音の差分信号として計算し、その差分信号を楽音の符号化に有利な変換符号化で符号化する方式が記載されている。
特開平０８−０４４３９９号公報特開平０８−２６３０９６号公報 M.R.Schroeder and B.S.Atal,"Code-Excited Linear Prediction（ＣＥＬＰ）：High Quality Speech at Very Low Bit Rates"，IEEE Proc.ICASSP-85,pp.937-940,1985 岩上、守谷、三樹、「周波数領域重み付けインターリーブベクトル量子化によるオーディオ符号化」、日本音響学会秋季講演論文、ｐｐ．３３９−３４０、１９９４−１０ ITU-T,"Information technology-Digital compression and coding of continuous-tone still images-Requirements and guidelines,"Rec.T.81｜ISO/IEC 10918-1

上述した従来の階層符号化法では、複数の符号化方式のそれぞれの特徴を利用し、復号化信号を効率的に符号化することができる反面、送信する符号化列のビットレートが予め決められているため、音声や画像信号の性質やネットワークの状況によらず常に一定の情報量をネットワークに送信し、ネットワークへの送信バッファのオーバーフローによる音切れや画像が停止するなどの問題があった。また複数の符号化演算を必要とするため、演算量が大きくなってしまうという問題があった。

本発明は、このような問題点に鑑みなされたもので、各符号化方式で得られる復号化信号品質とネットワークの状況により送信する符号化列の情報量を動的に切り替えることで、さまざまな音声画像信号の品質、ネットワークの状況に応じた効率的な符号化列を生成することができる２段音声画像符号化方法、およびこれらの方法を実行する装置およびプログラム、プログラムを記録した記録媒体を提供することを目的とする。

本願発明の２段階音声画像符号化方法は、入力音声画像信号を１段階目の符号化方式により符号化し符号化列を得るステップと、前記１段階目の符号化方式による前記符号化列を復号化し復号信号を得るステップと、前記１段階目入力信号と前記復号信号との差分を計算し１段階目誤差信号を計算するステップと、を備える。更に、前記１段階目誤差信号を入力としてビットレートの異なる符号化を行う複数の符号化方式による第２の符号化列を得る２段階目符号化ステップと、前記入力音声画像信号と前記１段階目誤差信号との比であるＳＮＲを計算するステップと、前記ＳＮＲと、異なる複数の値に設定される閾値との大小関係を比較し、前記ＳＮＲの大きさを段階的に評価した比較結果を得るステップと、前記ＳＮＲが全ての閾値より大きい場合は前記第２の符号化列を選択せず、それ以外の場合は、前記ＳＮＲより大きな閾値が多いほど前記複数の第２の符号化列の中から順に大きなビットレートの第２の符号化列を１つ選択するステップと、を備える。

本発明は２段音声画像符号化法における各符号化方法により符号化した符号化列を音声や画像信号の符号化信号品質を評価する信号対雑音比（ＳＮＲ）、重み付き信号対雑音比（ＷＳＮＲ）、ケプストラム距離（ＣＤ）、セグメンタルＳＮＲ、重み付きセグメンタルＳＮＲ、また音声や楽音信号の場合にはＰＥＳＱ（Perceptual Evaluation of SpeechQuality）、ＰＥＡＱ（Perceived Evaluation of Audio Quality）等を指標にして選択的に送信することにより、絶えず変動するネットワークの状況に応じた高品質な音声画像情報を伝送することを可能とする。

ここではネットワークが混雑すると減少するネットワーク送信バッファ残量情報などの輻輳情報を用いて、ネットワークが混雑しているときには符号化列が送信されにくくなるように、またネットワークが空いているときには符号化列が送信されやすくなるように閾値を増減させることで、ネットワーク送信部の送信バッファ残量を一定に保ち、バッファオーバーフローによる音切れや画像の途切れを抑制する効果がある。また、送信する音声画像の符号化品質を監視し、符号化復号化演算の動作非動作を切り替える制御を行なうことにより、演算負荷を減らす効果がある。

以下、本発明を実施するための最良の形態について説明する。
図１は、多段音声画像符号化方法で動作する多段音声画像符号化装置の第一の最良の形態を示す。第一の最良の形態においては、入力端子１１に与えられた音声画像入力信号を１段階目符号化部１２₁₁において符号化し、得られた符号化列を１段階目復号化部１３₁₁で復号化し、復号信号を得る。この復号信号と入力信号との誤差信号を誤差信号計算部１４₁で計算し、入力信号と誤差信号から次段符号化の動作を判定する判定パラメータを判定パラメータ計算部１５₁において算出する。ここで用いられる判定パラメータとしては、信号対雑音比（ＳＮＲ）、重み付き信号対雑音比（ＷＳＮＲ）、ケプストラム距離（ＣＤ）、セグメンタルＳＮＲ、重み付きセグメンタルＳＮＲ、また音声や楽音の場合にはＰＥＳＱ（Perceptual Evaluation of Speech Quality）、ＰＥＡＱ（Perceived Evaluation of Audio Quality）等を使用すると効果的である。

２段目符号化部１２₂₁が図５に示すように単一の符号化法を用いる形態とする場合には算出した判定パラメータと閾値を閾値比較部１６₁において比較し、判定パラメータと当該閾値の比較により、１段目の符号化信号の品質が十分であると判定した場合には閾値比較部１６₁は２段目以降の符号化列を送信しないように符号化列送信スイッチ１７₂を断の状態に切替え、また必要な復号化音の音質に達していないと判定した場合には２段目の符号化を送信するように、それぞれ符号化列送信スイッチ１７₂を続の状態に切り替える。
また、２段目符号化部１２₂₁が図６に示すように複数の符号化法を切り替える形態とする場合には、閾値比較部１６₁は判定パラメータとさらに細かく設定した閾値との比較により次段の符号化列の送信非送信および複数の符号化の切り替えを行なう。以下同様にｋ−１段目（１＜ｋ＜＝Ｎ）の復号化信号と入力信号より判定パラメータを計算し、閾値と比較することにより、ｋ段目の符号化列の送信または非送信の切り替えもしくは複数の符号化法の切り替えを行なう。

ここでｋ−１段階目の判定パラメータと比較するための閾値は、予め設定した固定値を使用しても良い。もしくはネットワーク送信部１９から得られるネットワーク送信バッファの残量などのネットワーク情報により、閾値算出部１８において、ネットワークが混雑している場合に符号化列が送信されにくいように、ネットワークが空いている場合には符号化列が送信されやすいように閾値を増減させる制御を行なっても良い。また符号化復号化動作制御部１０により、処理を行なわない符号化復号化部の動作を停止させ、演算量を削減する制御を行なってもよい。図１中Ｎ段階目に示す最終段ではＮ−１段階目において判定パラメータの値とさらに細かく設定した閾値との比較によりその比較結果に応じて適正な符号化部を選択して切り替える。

図２は、多段音声画像符号化装置の第二の最良の形態を示す。第二の最良の形態では、上記第一の最良の形態と同様にＮ−１段階目まで符号化を行ない、Ｎ−１段階目の判定パラメータと閾値との比較により、Ｎ段階目の単一の符号化法の動作非動作を切り替える。
図３は、多段音声画像符号化方法で動作する多段音声画像符号化装置の第三の最良の形態を示す。この第三の最良の形態においては、入力端子３１に与えられた入力信号を１段階目符号化部３２₁₁において符号化し、得られた符号化列を１段階目復号化部３３₁₁で復号化し、復号信号を得る。この復号信号と１段目入力信号との誤差信号を誤差信号計算部３４₁で計算し、１段目入力信号と誤差信号から次段符号化の動作を判定する判定パラメータを判定パラメータ計算部３５₁において算出する。

ここで用いられる判定パラメータとしては、信号対雑音比（ＳＮＲ）、重み付き信号対雑音比（ＷＳＮＲ）、ケプストラム距離（ＣＤ）、セグメンタルＳＮＲ、重み付きセグメンタルＳＮＲ、また音声や楽音信号の場合にはＰＥＳＱ（Perceptual Evaluation of Speech Quality）、ＰＥＡＱ（Perceived Evaluation of Audio Quality）等を使用すると効果的である。
２段目符号化部が図７に示すように単一の符号化法を用いる形態とする場合には算出した判定パラメータと閾値を閾値比較部３６₁において比較し、符号化信号の品質が十分であると判定した場合には２段目以降の符号化列を送信しないように、また必要な復号化音の音質に達していないと判定した場合には２段目の符号化を送信するようにそれぞれ符号化列送信スイッチ３７₂を切り替える。

また、２段目符号化部が図８に示すように複数の符号化法を切り替える形態とする場合には、閾値比較部３６₁は判定パラメータとさらに細かく設定した閾値との比較により次段の符号化列の送信非送信および複数の符号化の切り替えを行なう。以下同様にｋ−１段目（１＜ｋ＜＝Ｎ）の復号化音とｋ−１段目入力信号より判定パラメータを計算し、閾値と比較することにより、ｋ段目の符号化列の送信または非送信の切り替えもしくは複数の符号化法の切り替えを行なう。
ここでｋ−１段階目の判定パラメータと比較するための閾値は、予め設定した固定値を使用しても良い。もしくはネットワーク送信部３９から得られるネットワーク送信バッファ残量などのネットワーク状況により、閾値算出部３８において、ネットワークが混雑している場合に符号化列が送信されにくいように、ネットワークが空いている場合には符号化列が送信されやすいように閾値を増減させる制御を行なっても良い。

また符号化復号化動作制御部３０により、処理を行なわない符号化部の動作を停止させ、符号化部の演算量を削減する制御を行なっても良い。図３においてＮ段階目に示す最終段では、Ｎ−１段階目において判定パラメータの値とさらに細かく設定した閾値との比較により、その比較結果に応じて適正な符号化部３２_N1〜３２_NNの中の一つを選択して切り替える。
図４は、多段音声画像符号化方法で動作する多段音声画像符号化装置の第四の最良の形態を示す。第四の最良の形態では、上記第三の最良の形態と同様にＮ−１段階目まで符号化を行ない、Ｎ−１段階目の判定パラメータと閾値との比較により、Ｎ段階目の符号化部４２_N1の動作非動作を切り替える。

次に、本発明の実施の形態についてさらに詳細に説明すべく、本発明による実施例について図面を参照して説明する。
図９、図１０に多段音声画像符号化方法で動作する多段音声画像符号化装置及び復号化装置の第１の具体的実施例を示す。ここでは音声信号を符号化する場合の実施例を示す。ただし、説明を簡単にするため、１段目をＣＥＬＰ符号化方式により、２段目を背景技術の項での説明は各種の変換符号化方式により符号化する場合を示すが、３段目以上に変換符号化方式を適用する設計を行なっても効果的である。また２段目の符号化に３種類の変換符号化法を適用した場合を示すが、ネットワーク速度により１種類から複数種類の変換符号化法を適用する設計を行なっても良い。

図１５に１段目に適用するＣＥＬＰ符号化方式のブロック図を示す。ここでは制御部１５７により指定される周期（ピッチ）のベクトルを適応符号帳１５８より取り出し、また指定された雑音符号帳１５９から雑音ベクトルを取り出し、これらにそれぞれ利得を乗算器１５６０および１５６１で乗算後、加算器１５６２において合成し、合成フィルタ１５４に励振ベクトルとして入力する。
一方、入力端子１５１に入力した入力信号はフレーム処理単位ごとにＬＰＣ分析部１５２でＬＰＣ分析し、そのＬＰＣ予測係数を量子化部１５３で量子化し、合成フィルタ１５４へ入力することでフィルタ係数を決定する。フレーム処理単位は３０ｍｓ．程度で分析を行なうと効果が高い。入力信号から合成フィルタ１５４による合成信号を差し引いた差信号を聴覚重み付けフィルタ１５６に入力し、その出力のエネルギーが最小になるように制御部１５７により適応符号帳１５８、雑音符号帳１５９に対するベクトルの選択を行なう。

図１６に２段目に適用する変換符号化方式のブロック図を示す。ここでは入力端子１６１に入力した入力信号をＭＤＣＴ変換部１６２においてフレーム処理単位ごとにＭＤＣＴ係数に変換し、またＬＰＣ分析部１６３において入力信号からＬＰＣスペクトル包絡を計算する。フレーム単位は１０乃至２０ｍｓ．程度であると効果が高い。ＭＤＣＴ係数を平坦化部１６４においてＬＰＣスペクトル包絡により平坦化し、さらにパワー平坦化部１６５において係数パワーの平坦化を行ない残差係数を得、残差係数をベクトル量子化部１６７へ送る。また、ＬＰＣスペクトル包絡と係数パワーの平坦化係数により重み付け計算部１６６にてベクトル量子化の重み係数を算出し、ベクトル量子化部１６７に送る。ベクトル量子化部１６７では残差係数に重み係数を掛け合わせたベクトルとして量子化を行なう。

図９において入力端子９０に入力した入力信号は、ＣＥＬＰ符号化部９１により符号化し、符号化列をネットワーク送信部９７に送る。ＣＥＬＰ符号化部９１は８〜１６ｋｂｉｔ／ｓ程度のビットレートに設計すると効果的である。また符号化列をＣＥＬＰ復号化部９２により復号化し、誤差信号計算部９３において入力信号と復号信号との差分を計算することにより誤差信号を得、判定パラメータ計算部９４において入力信号と誤差信号から判定パラメータを計算する。
ここでは判定パラメータとして信号対雑音比を用いた実施例を示す。また閾値算出部９６においてネットワーク送信部９７から受信したネットワーク送信バッファ残量などに基づき閾値を算出する。ここではネットワーク送信バッファ残量から閾値を切り替える例を示しているが、閾値は固定とし、閾値算出部９６を使用しない構成も可能である。

また、閾値を変化させる場合、ネットワークの状況により２〜３段階の閾値を切り替えるように設計すると効果的である。ネットワークが混雑しているときにはネットワーク送信バッファにデータが蓄積され送信バッファ容量が増加し、バッファがオーバーフローするとデータ送信が中断するため、音声データが送信されず音切れの原因となってしまう。そこで送信バッファの残量を監視し、残量に応じて閾値を増減させることによりバッファ容量を制御することができ、オーバーフローを抑えることが出来る。
本実施例ではバッファ残量が２０％を下回ると信号対雑音比の閾値を下げ、送信する符号化列を減少させ、バッファ残量を増加させ、バッファオーバーフローによる通信断を避ける制御を行なっている。

閾値比較部９５において、信号対雑音比と閾値との比較を行ない、２段目符号化切り替え部９９で送信する符号化列を切り替える。表１に、ＣＥＬＰ符号化部９１、変換符号化部−１９８₁、変換符号化部−２９８₂、変換符号化部−３９８₃のそれぞれのビットレートを１６ｋｂｉｔ／ｓ、１６ｋｂｉｔ／ｓ、３２ｋｂｉｔ／ｓ、４８ｋｂｉｔ／ｓで設計した場合にバッファ残量により閾値を２段階に設定する例を挙げる。
本実施例で使用するＣＥＬＰ符号化による復号化音声は原音声信号に対して平均１３ｄＢ程度の信号対雑音比となることから、表１のように閾値を設定することによりバッファ残量が２０％を下回った場合には、平均的に１６ｋｂｉｔ／ｓのビットレートのみの符号化列を送信することになり、バッファ残量が２０％以上の場合の平均ビットレート６４ｋｂｉｔ／ｓ（＝ＣＥＬＰ符号化１６ｋｂｉｔ／ｓ＋変換符号化−３４８ｋｂｉｔ／ｓ）にくらべ約１／４のビットレートとなり、送信バッファの増加を抑える制御が可能となる。

上記例の場合の符号化切り替え部９９の動作は、表２のようになる。

復号化処理に関しては、図１０に示すネットワーク受信部１０１で復号化処理開始までに受信した符号化列から１段階目及び２段目の符号化列の入来の有無を監視する。各段の符号化列はパケット化されて送られており、各パケットに何段目の符号化列であるかの識別符号が付されている。この識別符号により符号化列が識別され、例えば１段目の符号列の入来が検出されると、スイッチ１０４₁が導通し、１段目の符号列がＣＥＬＰ復号化部１０３に入力され復号される。また、他の変換符号列が入来した場合はスイッチ１０４₂が導通し、変換符号列の識別によりスイッチ１０５が所定の変換復号化部１０６₁，１０６₂，１０６₃の何れかを選択し、復号が行なわれる。
ここで１段目ＣＥＬＰ復号化部１０３のための符号化列が受信できなかった場合には２段目の変換復号化部１０６₁，１０６₂，１０６₃は動作せず、０ベクトルを出力する。また復号化部１０３，１０６₁，１０６₂，１０６₃のうち動作しない復号化部は０ベクトルを出力する。復号化部１０３，１０６₁，１０６₂，１０６₃で復号した復号信号は復号信号加算部１０７にて加算され、出力信号を端子１００より出力する。

図１１、図１２に多段音声画像符号化方法及び多段音声楽音符号化装置の実施例を示す。ここでは音声信号を符号化する場合の実施例を示す。図１１の入力端子１１１に入力した入力信号は、変換符号化部−１１１２₁₁により符号化し、符号化列をネットワーク送信部１１９に送る。変換符号化部−１１１２₁₁における変換符号化はネットワークが混雑しても音切れをしない設計を行なうために１６〜３２ｋｂｉｔ／ｓ程度のビットレートに設計すると効果的である。また符号化列を変換復号化部−１１１３₁₁により復号化し、誤差信号計算部１１４₁において入力信号と復号信号との差分を計算することにより誤差信号を得、判定パラメータ計算部１１５₁において１段目入力信号と１段目誤差信号から判定パラメータを計算する。ここでは判定パラメータとしてＷＳＮＲを使用し、耳の聴覚特性により近い評価尺度を適用した実施例を示す。
また閾値比較部１１６₁においてネットワーク送信部１１９から受信したネットワーク送信バッファ残量などのネットワーク状況に基づき閾値を算出する。ここでは閾値を固定とした実施例を示しているが、実施例１で示した場合と同様にネットワーク状況から閾値を変化させることも可能である。閾値比較部１１６₁において、判定パラメータであるＷＳＮＲと閾値との比較を行ない、２段目符号化切り替え部１１７₂で２段目符号化（変換符号化部２）による符号化列の送信非送信を切り替える。同様にして、３段目の符号化（変換符号化部３）による符号化列の送信非送信を２段目符号化部−２における２段目入力信号と誤差信号から判定パラメータ計算部１１５₂にて計算される判定パラメータと閾値を閾値比較部１１６₂にて判定する。

ここで、閾値比較部１１６₁，１１６₂にて判定した符号化列の送信非送信スイッチ制御信号は符号化復号化動作制御部１１１０に送られ、動作の必要のない符号化復号化を停止させる信号をそれぞれの符号化部復号化部１１２₂₁，１１３₂₁，１１２₃₁に送る制御を行なうことで演算量を削減する実施例を示す。表３に、符号化復号化動作制御部の制御規則を示す。また表４に変換符号化部−１１１２₁₁、変換符号化部−２１１２₂₁、変換符号化部−３１１２_３1のそれぞれのビットレートを３２ｋｂｉｔ／ｓ、３２ｋｂｉｔ／ｓ、６４ｋｂｉｔ／ｓで設計した場合の閾値の設定例を挙げる。

上記例の場合の符号化切り替え部１１７₂，１１７₃の動作は、表５のようになる。

復号化処理に関しては、図１２のネットワーク受信部１２１で復号化処理開始までに受信した符号化列を１段階目及び２段目の順に符号化列の入来を監視し、図１０と同様に各段の符号化列の識別に従ってスイッチ１２４₁，１２４₂，１２４₃が制御され、変換復号化部１２３₁，１２３₂，１２３₃で復号が行なわれる。この場合も１段目変換復号化のための符号化列が受信できなかった場合には２段目の変換復号化部１２３₂は動作せず、０ベクトルを出力する。同様に２段目変換復号化のための符号化列が受信できなかった場合には３段目の変換復号化部１２３₃は動作せず、０ベクトルを出力する。また復号化部１２３₁，１２３₂，１２３₃のうち動作しない復号化部は０ベクトルを出力する。復号化部１２３₁，１２３₂，１２３₃で復号した復号信号は復号信号加算部１２５にて加算され、出力信号を端子１２０より出力する。

図１３、図１４に多段音声画像符号化方法及び多段音声画像符号化装置を画像符号化に適用した実施例を示す。ただし、説明を簡単にするため、画像符号化にＪＰＥＧを適用した例を示すが、他の画像符号化法を用いた場合にも同様である。
図１７にＪＰＥＧ符号化方式のブロック図を示す。ここでは入力端子１７１に入力された入力画像信号をＤＣＴ変換部１７２でコサイン変換（Discrete Cosine Transform：ＤＣＴ）によりＤＣＴ係数に変換し、量子化部１７３で前記ＤＣＴ係数列を量子化する。ここで量子化は量子化テーブル１７４から歪を最小とする量子化ステップを選択し行なわれ、テーブル中の量子化ステップのインデックスを符号化列として出力する。量子化された係数列はハフマン符号化部１７５にてエントロピー符号化の一種であるハフマン符号化にて圧縮され、ハフマン符号化テーブル１７６における符号化テーブルインデックスおよび符号化インデックスを符号化列として出力する。

図１３に示す入力端子１３１に入力した入力画像信号は、ＪＰＥＧ符号化部−１１３２₁₁により符号化し、符号化列をネットワーク送信部１３８に送る。ここでは入力画像信号は８０×８０サイズでＲＧＢをそれぞれ８ビットで表現する信号の例を示す。またフレームレートは３０フレーム毎秒の例を示す。上記条件の入力画像データに対しては、第１段目のＪＰＥＧ符号化は１００〜２２０ｋｂｉｔ／ｓ程度のビットレートに設計し、第２段目のＪＰＥＧ符号化を５００ｋｂｉｔ／ｓ程度にすると効果的である。符号化列をＪＰＥＧ復号化部−１１３３₁₁により復号化し、誤差計算部１３４₁において入力信号と復号信号との差分を計算することにより誤差信号を得、判定パラメータ計算部１３５₁において入力信号と誤差信号から判定パラメータを計算する。ここでは判定パラメータとして信号対雑音比を用いた実施例を示す。閾値比較部１３６において、信号対雑音比と閾値との比較を行ない、２段目符号化切り替え部１３７で２段目符号化（ＪＰＥＧ符号化部−２１３２₂₁）による符号化列の送信非送信を切り替える。ここでは閾値を固定としている実施例を示す。ＪＰＥＧ符号化部−１１３２₁₁、ＪＰＥＧ符号化部−２１３２₂₁をそれぞれ２２０ｋｂｉｔ／ｓ、５００ｋｂｉｔ／ｓで設計した場合、閾値は２０ｄＢに設定すると効果が高い。

上記例の場合の符号化切り替え部１３７の動作は、表６のようになる。

復号化処理に関しては、図１４のネットワーク受信部１４１で復号化処理開始までに受信した符号化列を１段階目から順に入来を監視し、入来を検出する毎に復号化部１４３₁，１４３₂へ送る。ここで１段目ＪＰＥＧ復号化のための符号化列が受信できなかった場合には２段目のＪＰＥＧ復号化部１４３₂は動作せず、０ベクトルを出力する。また復号化部１４３₁，１４３₂のうち動作しない復号化部は０ベクトルを出力する。ＪＰＥＧ復号化部１４３₁，１４３₂で復号した復号信号は復号信号加算部１４５にて加算され、出力画像信号を端子１４０より出力する。

図１８はこの発明による多段音声画像符号化方法および復号化方法をコンピュータで実施する場合の構成を示す。コンピュータ１８０は、バス１８８を介して互いに接続されたＣＰＵ１８１，ＲＡＭ１８２，ＲＯＭ１８３、入出力インタフェース１８４、ハードディスク１８５を含んでいる。ＲＯＭ１８３にはコンピュータ１８０を動作させる基本プログラムが格納されており、ハードディスク１８５は前述したこの発明による多段音声楽音符号化方法および復号化方法を実行するプログラムが予め格納されている。符号化時には、ＣＰＵ１８１はハードディスク１８５から符号化プログラムをＲＡＭ１８２にロードし、インタフェース１８４から入力されたオーディオ信号サンプルを符号化プログラムに従って処理することにより符号化し、インタフェース１８４から出力する。復号時には、復号プログラムをハードディスク１８５からＲＡＭ１８２にロードし、入力信号を復号プログラムに従って処理してオーディオ信号サンプルを出力する。

この発明による多段音声楽音符号化方法および復号化方法を実行するプログラムは、内部バス１８８にドライブ１８６を介して接続された外部ディスク装置１８７に記録されたものを使用しても良い。或いは、インタフェース１８４を介して外部ネットワークからプログラムをダウンロードしてハードディスク１８５に格納したものでも良い。この発明による符号化、復号化方法を実行するプログラムが記録された記録媒体としては、磁気記憶媒体、ＩＣメモリ、コンパクトディスクなどの形態の記憶媒体であっても良い。またこの発明による多段音声画像符号化方法および復号化方法を実行するプログラムはディジタルシグナルプロセッサ（ＤＳＰ）上のソフトウェアとして実装したり、ＬＳＩなどハードウェア化して実現することも可能である。

ＩＰネットワーク上でデータ通信と音声および画像通信を同時に行なう利用形態が普及してきており、本発明を適用することによって効率的な音声画像通信およびデータ通信を実現することが可能である。

この発明における第一の最良の形態を示すブロック図。この発明における第二の最良の形態を示すブロック図。この発明における第三の最良の形態を示すブロック図。この発明における第四の最良の形態を示すブロック図。第一、第二の最良の形態における、一種類の符号化法で構成されるｋ段階目の符号化法を示すブロック図。第一、第二の最良の形態における、複数種類の符号化法で構成されるｋ段階目の符号化法を示すブロック図。第三、第四の最良の形態における、一種類の符号化法で構成されるｋ段階目の符号化法を示すブロック図。第三、第四の最良の形態における、複数種類の符号化法で構成されるｋ段階目の符号化法を示すブロック図。この発明の第一の実施例に係る音声符号復号化システムにおける符号化装置のブロック図。この発明の第一の実施例に係る音声符号復号化システムにおける復号化装置のブロック図。この発明の第二の実施例に係る音声符号復号化システムにおける符号化装置のブロック図。この発明の第二の実施例に係る音声符号復号化システムにおける復号化装置のブロック図。この発明の第三の実施例に係る画像符号復号化システムにおける符号化装置のブロック図。この発明の第三の実施例に係る画像符号復号化システムにおける復号化装置のブロック図。この発明の第一の実施例に係る音声符号復号化システムにおけるＣＥＬＰ符号化のブロック図。この発明の第一及び第二の実施例に係る音声符号復号化システムにおける変換符号化のブロック図。この発明の第三の実施例に係る画像符号復号化システムにおけるＪＰＥＧ符号化のブロック図。この発明をコンピュータで実施する場合の概念構成図。

符号の説明

１２₁₁，２２₁₁，３２₁₁，４２₁₁ １段階目符号化部
１２₂₁，２２₂₁，３２₂₁，４２₂₁ ２段階目符号化部
１２_N1，２２_N1，３２_N1，４２_N1 Ｎ段階目符号化部
１３₁₁，２３₁₁，３３₁₁，４３₁₁ １段階目復号化部
１３₂₁，２３₂₁，３３₂₁，４３₂₁ ２段階目復号化部
１４₁，１４₂，２４₁，２４₂，３４₁，３４₂，４４₁，４４₂ 誤差信号計算部
１５₁，１５₂，２５₁，２５₂，３５₁，３５₂，４５₁，４５₂ 判定パラメータ計算部
１６₁，１６₂，２６₁，２６₂，３６₁，３６₂，４６₁，４６₂ 閾値比較部
１７₂，１７_N，２７₂，２７_N，３７₂，３７_N，４７₂，４７_N 符号化列送信スイッチ
１８，２８，３８，４８閾値算出部
１９，２９，３９，４９ネットワーク送信部
１０，２０，３０，４０符号化復号化動作制御部

Claims

入力音声画像信号の特徴に応じて２段階の符号化手段により符号化を行なう２段階音声画像符号化方法であって、
入力音声画像信号を１段階目の符号化方式により符号化し第１の符号化列を得るステップと、
前記１段階目の符号化方式による前記符号化列を復号化し復号信号を得るステップと、
前記１段階目入力信号と前記復号信号との差分を計算し、１段階目誤差信号を計算するステップと、
前記１段階目誤差信号を入力として、予め定めた異なる複数のビットレートに符号化し複数の第２の符号化列を得る２段目符号化ステップと、
前記入力音声画像信号と前記１段階目誤差信号との比であるＳＮＲを計算するステップと、
前記ＳＮＲと、異なる複数の値に設定される閾値との大小関係を比較し、前記ＳＮＲの大きさを段階的に評価した比較結果を得るステップと、
前記ＳＮＲが全ての閾値より大きい場合は前記第２の符号化列を選択せず、それ以外の場合は、前記ＳＮＲより大きな閾値が多いほど前記複数の第２の符号化列の中から順に大きなビットレートの第２の符号化列を１つ選択するステップと、
を備えることを特徴とする２段階音声画像符号化方法。
入力音声画像信号の特徴に応じて２段階の符号化手段により符号化を行なう２段階音声画像符号化装置であって、
入力音声画像信号を１段階目の符号化方式により符号化し符号化列を得る１段目符号化部と、
前記１段階目符号化部による前記符号化列を復号化し復号信号を得る１段目復号化部と、
前記１段階目入力信号と前記復号信号との差分を計算し、１段階目誤差信号を計算する誤差信号計算部と、
前記１段階目誤差信号を入力として、予め定めた異なる複数のビットレートに符号化し複数の第２の符号化列を得る複数の変換符号化部と、
前記入力音声画像信号と前記１段階目誤差信号との比であるＳＮＲを計算する判定パラメータ計算部と、
前記ＳＮＲと、異なる複数の値に設定される閾値との大小関係を比較し、前記ＳＮＲの大きさを段階的に評価した比較結果を得る閾値比較部と、
前記ＳＮＲが全ての閾値より大きい場合は前記第２の符号化列を選択せず、それ以外の場合は、前記ＳＮＲより大きな閾値が多いほど前記複数の第２の符号化列の中から順に大きなビットレートの第２の符号化列を１つ選択する２段階目符号化切替え部と、
を具備することを特徴とする２段階音声画像符号化装置。
請求項２に記載された２段階音声画像符号化装置としてコンピュータを機能させるためのプログラム。
請求項３に記載されたプログラムを記録したコンピュータで読み取り可能な記録媒体。