JP4091506B2 - 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体 - Google Patents

2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4091506B2
JP4091506B2 JP2003309721A JP2003309721A JP4091506B2 JP 4091506 B2 JP4091506 B2 JP 4091506B2 JP 2003309721 A JP2003309721 A JP 2003309721A JP 2003309721 A JP2003309721 A JP 2003309721A JP 4091506 B2 JP4091506 B2 JP 4091506B2
Authority
JP
Japan
Prior art keywords
stage
encoding
signal
coding
snr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003309721A
Other languages
English (en)
Other versions
JP2005080063A (ja
Inventor
岳至 森
仲 大室
祐介 日和▲崎▼
祥子 栗原
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003309721A priority Critical patent/JP4091506B2/ja
Publication of JP2005080063A publication Critical patent/JP2005080063A/ja
Application granted granted Critical
Publication of JP4091506B2 publication Critical patent/JP4091506B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、多段符号化に基づく音声画像符号化方法、及びそれらを実現するための装置及びプログラム及びこのプログラムを記録した記録媒体に関する。
現在、音声や楽音など音響信号の符号化方法や画像信号の符号化方法には使用目的、復号信号品質、ビットレートなどに応じて多種多様な方法が存在する。例えば符号励振線形予測(Code Excited Linear Predictive:CELP)符号化方式(非特許文献1参照)などの音声符号化方式は、低ビットレートで比較的高音質に音声を符号化することができる。また、Twin VQ方式(Transform-domain Weighted Interleave vector quantization)(非特許文献2、特許文献1参照)などの変形離散コサイン変換(Modified Discrete Cosine Transform:MDCT)を用いた変換符号化方式は楽音信号を効率的に符号化するのに適している。画像符号化においてはJPEG(Joint Photographic Experts Group)(非特許文献3参照)やJPEGを動画符号化に適用したMOTION−JPEGなどにより高品質に動画像を符号化することが可能である。
上記のように異なる特徴を有する符号化方法を多段に使用することにより、音声や画像を効率的に符号化する階層符号化方法が提案されている。例えば特許文献2には、音声信号を符号化する際にCELP方式で音声部分を符号化した後、音声以外の楽音や背景音を原音と符号化音の差分信号として計算し、その差分信号を楽音の符号化に有利な変換符号化で符号化する方式が記載されている。
特開平08−044399号公報 特開平08−263096号公報 M.R.Schroeder and B.S.Atal,"Code-Excited Linear Prediction(CELP):High Quality Speech at Very Low Bit Rates",IEEE Proc.ICASSP-85,pp.937-940,1985 岩上、守谷、三樹、「周波数領域重み付けインターリーブベクトル量子化によるオーディオ符号化」、日本音響学会秋季講演論文、pp.339−340、1994−10 ITU-T,"Information technology-Digital compression and coding of continuous-tone still images-Requirements and guidelines,"Rec.T.81|ISO/IEC 10918-1
上述した従来の階層符号化法では、複数の符号化方式のそれぞれの特徴を利用し、復号化信号を効率的に符号化することができる反面、送信する符号化列のビットレートが予め決められているため、音声や画像信号の性質やネットワークの状況によらず常に一定の情報量をネットワークに送信し、ネットワークへの送信バッファのオーバーフローによる音切れや画像が停止するなどの問題があった。また複数の符号化演算を必要とするため、演算量が大きくなってしまうという問題があった。
本発明は、このような問題点に鑑みなされたもので、各符号化方式で得られる復号化信号品質とネットワークの状況により送信する符号化列の情報量を動的に切り替えることで、さまざまな音声画像信号の品質、ネットワークの状況に応じた効率的な符号化列を生成することができる段音声画像符号化方法、およびこれらの方法を実行する装置およびプログラム、プログラムを記録した記録媒体を提供することを目的とする。
本願発明の2段階音声画像符号化方法は、入力音声画像信号を1段階目の符号化方式により符号化し符号化列を得るステップと、前記1段階目の符号化方式による前記符号化列を復号化し復号信号を得るステップと、前記1段階目入力信号と前記復号信号との差分を計算し1段階目誤差信号を計算するステップと、を備える。更に、前記1段階目誤差信号を入力としてビットレートの異なる符号化を行う複数の符号化方式による第2の符号化列を得る2段階目符号化ステップと、前記入力音声画像信号と前記1段階目誤差信号との比であるSNRを計算するステップと、前記SNRと、異なる複数の値に設定される閾値との大小関係を比較し、前記SNRの大きさを段階的に評価した比較結果を得るステップと、前記SNRが全ての閾値より大きい場合は前記第2の符号化列を選択せず、それ以外の場合は、前記SNRより大きな閾値が多いほど前記複数の第2の符号化列の中から順に大きなビットレートの第2の符号化列を1つ選択するステップと、を備える。
本発明は段音声画像符号化法における各符号化方法により符号化した符号化列を音声や画像信号の符号化信号品質を評価する信号対雑音比(SNR)、重み付き信号対雑音比(WSNR)、ケプストラム距離(CD)、セグメンタルSNR、重み付きセグメンタルSNR、また音声や楽音信号の場合にはPESQ(Perceptual Evaluation of SpeechQuality)、PEAQ(Perceived Evaluation of Audio Quality)等を指標にして選択的に送信することにより、絶えず変動するネットワークの状況に応じた高品質な音声画像情報を伝送することを可能とする。
ここではネットワークが混雑すると減少するネットワーク送信バッファ残量情報などの輻輳情報を用いて、ネットワークが混雑しているときには符号化列が送信されにくくなるように、またネットワークが空いているときには符号化列が送信されやすくなるように閾値を増減させることで、ネットワーク送信部の送信バッファ残量を一定に保ち、バッファオーバーフローによる音切れや画像の途切れを抑制する効果がある。また、送信する音声画像の符号化品質を監視し、符号化復号化演算の動作非動作を切り替える制御を行なうことにより、演算負荷を減らす効果がある。
以下、本発明を実施するための最良の形態について説明する。
図1は、多段音声画像符号化方法で動作する多段音声画像符号化装置の第一の最良の形態を示す。第一の最良の形態においては、入力端子11に与えられた音声画像入力信号を1段階目符号化部1211において符号化し、得られた符号化列を1段階目復号化部1311で復号化し、復号信号を得る。この復号信号と入力信号との誤差信号を誤差信号計算部141 で計算し、入力信号と誤差信号から次段符号化の動作を判定する判定パラメータを判定パラメータ計算部151 において算出する。ここで用いられる判定パラメータとしては、信号対雑音比(SNR)、重み付き信号対雑音比(WSNR)、ケプストラム距離(CD)、セグメンタルSNR、重み付きセグメンタルSNR、また音声や楽音の場合にはPESQ(Perceptual Evaluation of Speech Quality)、PEAQ(Perceived Evaluation of Audio Quality)等を使用すると効果的である。
2段目符号化部1221が図5に示すように単一の符号化法を用いる形態とする場合には算出した判定パラメータと閾値を閾値比較部161 において比較し、判定パラメータと当該閾値の比較により、1段目の符号化信号の品質が十分であると判定した場合には閾値比較部161 は2段目以降の符号化列を送信しないように符号化列送信スイッチ172 を断の状態に切替え、また必要な復号化音の音質に達していないと判定した場合には2段目の符号化を送信するように、それぞれ符号化列送信スイッチ172 を続の状態に切り替える。
また、2段目符号化部1221が図6に示すように複数の符号化法を切り替える形態とする場合には、閾値比較部161 は判定パラメータとさらに細かく設定した閾値との比較により次段の符号化列の送信非送信および複数の符号化の切り替えを行なう。以下同様にk−1段目(1<k<=N)の復号化信号と入力信号より判定パラメータを計算し、閾値と比較することにより、k段目の符号化列の送信または非送信の切り替えもしくは複数の符号化法の切り替えを行なう。
ここでk−1段階目の判定パラメータと比較するための閾値は、予め設定した固定値を使用しても良い。もしくはネットワーク送信部19から得られるネットワーク送信バッファの残量などのネットワーク情報により、閾値算出部18において、ネットワークが混雑している場合に符号化列が送信されにくいように、ネットワークが空いている場合には符号化列が送信されやすいように閾値を増減させる制御を行なっても良い。また符号化復号化動作制御部10により、処理を行なわない符号化復号化部の動作を停止させ、演算量を削減する制御を行なってもよい。図1中N段階目に示す最終段ではN−1段階目において判定パラメータの値とさらに細かく設定した閾値との比較によりその比較結果に応じて適正な符号化部を選択して切り替える。
図2は、多段音声画像符号化装置の第二の最良の形態を示す。第二の最良の形態では、上記第一の最良の形態と同様にN−1段階目まで符号化を行ない、N−1段階目の判定パラメータと閾値との比較により、N段階目の単一の符号化法の動作非動作を切り替える。
図3は、多段音声画像符号化方法で動作する多段音声画像符号化装置の第三の最良の形態を示す。この第三の最良の形態においては、入力端子31に与えられた入力信号を1段階目符号化部3211において符号化し、得られた符号化列を1段階目復号化部3311で復号化し、復号信号を得る。この復号信号と1段目入力信号との誤差信号を誤差信号計算部341 で計算し、1段目入力信号と誤差信号から次段符号化の動作を判定する判定パラメータを判定パラメータ計算部351 において算出する。
ここで用いられる判定パラメータとしては、信号対雑音比(SNR)、重み付き信号対雑音比(WSNR)、ケプストラム距離(CD)、セグメンタルSNR、重み付きセグメンタルSNR、また音声や楽音信号の場合にはPESQ(Perceptual Evaluation of Speech Quality)、PEAQ(Perceived Evaluation of Audio Quality)等を使用すると効果的である。
2段目符号化部が図7に示すように単一の符号化法を用いる形態とする場合には算出した判定パラメータと閾値を閾値比較部361 において比較し、符号化信号の品質が十分であると判定した場合には2段目以降の符号化列を送信しないように、また必要な復号化音の音質に達していないと判定した場合には2段目の符号化を送信するようにそれぞれ符号化列送信スイッチ372 を切り替える。
また、2段目符号化部が図8に示すように複数の符号化法を切り替える形態とする場合には、閾値比較部361 は判定パラメータとさらに細かく設定した閾値との比較により次段の符号化列の送信非送信および複数の符号化の切り替えを行なう。以下同様にk−1段目(1<k<=N)の復号化音とk−1段目入力信号より判定パラメータを計算し、閾値と比較することにより、k段目の符号化列の送信または非送信の切り替えもしくは複数の符号化法の切り替えを行なう。
ここでk−1段階目の判定パラメータと比較するための閾値は、予め設定した固定値を使用しても良い。もしくはネットワーク送信部39から得られるネットワーク送信バッファ残量などのネットワーク状況により、閾値算出部38において、ネットワークが混雑している場合に符号化列が送信されにくいように、ネットワークが空いている場合には符号化列が送信されやすいように閾値を増減させる制御を行なっても良い。
また符号化復号化動作制御部30により、処理を行なわない符号化部の動作を停止させ、符号化部の演算量を削減する制御を行なっても良い。図3においてN段階目に示す最終段では、N−1段階目において判定パラメータの値とさらに細かく設定した閾値との比較により、その比較結果に応じて適正な符号化部32N1〜32NNの中の一つを選択して切り替える。
図4は、多段音声画像符号化方法で動作する多段音声画像符号化装置の第四の最良の形態を示す。第四の最良の形態では、上記第三の最良の形態と同様にN−1段階目まで符号化を行ない、N−1段階目の判定パラメータと閾値との比較により、N段階目の符号化部42N1の動作非動作を切り替える。
次に、本発明の実施の形態についてさらに詳細に説明すべく、本発明による実施例について図面を参照して説明する。
図9、図10に多段音声画像符号化方法で動作する多段音声画像符号化装置及び復号化装置の第1の具体的実施例を示す。ここでは音声信号を符号化する場合の実施例を示す。ただし、説明を簡単にするため、1段目をCELP符号化方式により、2段目を背景技術の項での説明は各種の変換符号化方式により符号化する場合を示すが、3段目以上に変換符号化方式を適用する設計を行なっても効果的である。また2段目の符号化に3種類の変換符号化法を適用した場合を示すが、ネットワーク速度により1種類から複数種類の変換符号化法を適用する設計を行なっても良い。
図15に1段目に適用するCELP符号化方式のブロック図を示す。ここでは制御部157により指定される周期(ピッチ)のベクトルを適応符号帳158より取り出し、また指定された雑音符号帳159から雑音ベクトルを取り出し、これらにそれぞれ利得を乗算器1560および1561で乗算後、加算器1562において合成し、合成フィルタ154に励振ベクトルとして入力する。
一方、入力端子151に入力した入力信号はフレーム処理単位ごとにLPC分析部152でLPC分析し、そのLPC予測係数を量子化部153で量子化し、合成フィルタ154へ入力することでフィルタ係数を決定する。フレーム処理単位は30ms.程度で分析を行なうと効果が高い。入力信号から合成フィルタ154による合成信号を差し引いた差信号を聴覚重み付けフィルタ156に入力し、その出力のエネルギーが最小になるように制御部157により適応符号帳158、雑音符号帳159に対するベクトルの選択を行なう。
図16に2段目に適用する変換符号化方式のブロック図を示す。ここでは入力端子161に入力した入力信号をMDCT変換部162においてフレーム処理単位ごとにMDCT係数に変換し、またLPC分析部163において入力信号からLPCスペクトル包絡を計算する。フレーム単位は10乃至20ms.程度であると効果が高い。MDCT係数を平坦化部164においてLPCスペクトル包絡により平坦化し、さらにパワー平坦化部165において係数パワーの平坦化を行ない残差係数を得、残差係数をベクトル量子化部167へ送る。また、LPCスペクトル包絡と係数パワーの平坦化係数により重み付け計算部166にてベクトル量子化の重み係数を算出し、ベクトル量子化部167に送る。ベクトル量子化部167では残差係数に重み係数を掛け合わせたベクトルとして量子化を行なう。
図9において入力端子90に入力した入力信号は、CELP符号化部91により符号化し、符号化列をネットワーク送信部97に送る。CELP符号化部91は8〜16kbit/s程度のビットレートに設計すると効果的である。また符号化列をCELP復号化部92により復号化し、誤差信号計算部93において入力信号と復号信号との差分を計算することにより誤差信号を得、判定パラメータ計算部94において入力信号と誤差信号から判定パラメータを計算する。
ここでは判定パラメータとして信号対雑音比を用いた実施例を示す。また閾値算出部96においてネットワーク送信部97から受信したネットワーク送信バッファ残量などに基づき閾値を算出する。ここではネットワーク送信バッファ残量から閾値を切り替える例を示しているが、閾値は固定とし、閾値算出部96を使用しない構成も可能である。
また、閾値を変化させる場合、ネットワークの状況により2〜3段階の閾値を切り替えるように設計すると効果的である。ネットワークが混雑しているときにはネットワーク送信バッファにデータが蓄積され送信バッファ容量が増加し、バッファがオーバーフローするとデータ送信が中断するため、音声データが送信されず音切れの原因となってしまう。そこで送信バッファの残量を監視し、残量に応じて閾値を増減させることによりバッファ容量を制御することができ、オーバーフローを抑えることが出来る。
本実施例ではバッファ残量が20%を下回ると信号対雑音比の閾値を下げ、送信する符号化列を減少させ、バッファ残量を増加させ、バッファオーバーフローによる通信断を避ける制御を行なっている。
閾値比較部95において、信号対雑音比と閾値との比較を行ない、2段目符号化切り替え部99で送信する符号化列を切り替える。表1に、CELP符号化部91、変換符号化部−1 981 、変換符号化部−2 982 、変換符号化部−3 983 のそれぞれのビットレートを16kbit/s、16kbit/s、32kbit/s、48kbit/sで設計した場合にバッファ残量により閾値を2段階に設定する例を挙げる。
本実施例で使用するCELP符号化による復号化音声は原音声信号に対して平均13dB程度の信号対雑音比となることから、表1のように閾値を設定することによりバッファ残量が20%を下回った場合には、平均的に16kbit/sのビットレートのみの符号化列を送信することになり、バッファ残量が20%以上の場合の平均ビットレート64kbit/s(=CELP符号化16kbit/s+変換符号化−3 48kbit/s)にくらべ約1/4のビットレートとなり、送信バッファの増加を抑える制御が可能となる。
Figure 0004091506
上記例の場合の符号化切り替え部99の動作は、表2のようになる。
Figure 0004091506
復号化処理に関しては、図10に示すネットワーク受信部101で復号化処理開始までに受信した符号化列から1段階目及び2段目の符号化列の入来の有無を監視する。各段の符号化列はパケット化されて送られており、各パケットに何段目の符号化列であるかの識別符号が付されている。この識別符号により符号化列が識別され、例えば1段目の符号列の入来が検出されると、スイッチ1041 が導通し、1段目の符号列がCELP復号化部103に入力され復号される。また、他の変換符号列が入来した場合はスイッチ1042 が導通し、変換符号列の識別によりスイッチ105が所定の変換号化部1061 ,1062 ,1063 の何れかを選択し、復号が行なわれる。
ここで1段目CELP復号化部103のための符号化列が受信できなかった場合には2段目の変換復号化部1061 ,1062 ,1063 は動作せず、0ベクトルを出力する。また復号化部103,1061 ,1062 ,1063 のうち動作しない復号化部は0ベクトルを出力する。復号化部103,1061 ,1062 ,1063 で復号した復号信号は復号信号加算部107にて加算され、出力信号を端子100より出力する。
図11、図12に多段音声画像符号化方法及び多段音声楽音符号化装置の実施例を示す。ここでは音声信号を符号化する場合の実施例を示す。図11の入力端子111に入力した入力信号は、変換符号化部−111211により符号化し、符号化列をネットワーク送信部119に送る。変換符号化部−111211における変換符号化はネットワークが混雑しても音切れをしない設計を行なうために16〜32kbit/s程度のビットレートに設計すると効果的である。また符号化列を変換復号化部−111311により復号化し、誤差信号計算部1141 において入力信号と復号信号との差分を計算することにより誤差信号を得、判定パラメータ計算部1151 において1段目入力信号と1段目誤差信号から判定パラメータを計算する。ここでは判定パラメータとしてWSNRを使用し、耳の聴覚特性により近い評価尺度を適用した実施例を示す。
また閾値比較部1161 においてネットワーク送信部119から受信したネットワーク送信バッファ残量などのネットワーク状況に基づき閾値を算出する。ここでは閾値を固定とした実施例を示しているが、実施例1で示した場合と同様にネットワーク状況から閾値を変化させることも可能である。閾値比較部1161 において、判定パラメータであるWSNRと閾値との比較を行ない、2段目符号化切り替え部1172 で2段目符号化(変換符号化部2)による符号化列の送信非送信を切り替える。同様にして、3段目の符号化(変換符号化部3)による符号化列の送信非送信を2段目符号化部−2における2段目入力信号と誤差信号から判定パラメータ計算部1152 にて計算される判定パラメータと閾値を閾値比較部1162 にて判定する。
ここで、閾値比較部1161 ,1162 にて判定した符号化列の送信非送信スイッチ制御信号は符号化復号化動作制御部1110に送られ、動作の必要のない符号化復号化を停止させる信号をそれぞれの符号化部復号化部11221 ,11321,11231 に送る制御を行なうことで演算量を削減する実施例を示す。表3に、符号化復号化動作制御部の制御規則を示す。また表4に変換符号化部−1 11211、変換符号化部−2 11221、変換符号化部−3 11231のそれぞれのビットレートを32kbit/s、32kbit/s、64kbit/sで設計した場合の閾値の設定例を挙げる。
Figure 0004091506
Figure 0004091506
上記例の場合の符号化切り替え部1172 ,1173 の動作は、表5のようになる。
Figure 0004091506
復号化処理に関しては、図12のネットワーク受信部121で復号化処理開始までに受信した符号化列を1段階目及び2段目の順に符号化列の入来を監視し、図10と同様に各段の符号化列の識別に従ってスイッチ1241 ,1242 ,1243 が制御され、変換復号化部1231 ,1232 ,1233 で復号が行なわれる。この場合も1段目変換復号化のための符号化列が受信できなかった場合には2段目の変換復号化部1232 は動作せず、0ベクトルを出力する。同様に2段目変換復号化のための符号化列が受信できなかった場合には3段目の変換復号化部1233 は動作せず、0ベクトルを出力する。また復号化部1231 ,1232 ,1233 のうち動作しない復号化部は0ベクトルを出力する。復号化部1231 ,1232 ,1233 で復号した復号信号は復号信号加算部125にて加算され、出力信号を端子120より出力する。
図13、図14に多段音声画像符号化方法及び多段音声画像符号化装置を画像符号化に適用した実施例を示す。ただし、説明を簡単にするため、画像符号化にJPEGを適用した例を示すが、他の画像符号化法を用いた場合にも同様である。
図17にJPEG符号化方式のブロック図を示す。ここでは入力端子171に入力された入力画像信号をDCT変換部172でコサイン変換(Discrete Cosine Transform:DCT)によりDCT係数に変換し、量子化部173で前記DCT係数列を量子化する。ここで量子化は量子化テーブル174から歪を最小とする量子化ステップを選択し行なわれ、テーブル中の量子化ステップのインデックスを符号化列として出力する。量子化された係数列はハフマン符号化部175にてエントロピー符号化の一種であるハフマン符号化にて圧縮され、ハフマン符号化テーブル176における符号化テーブルインデックスおよび符号化インデックスを符号化列として出力する。
図13に示す入力端子131に入力した入力画像信号は、JPEG符号化部−1 13211により符号化し、符号化列をネットワーク送信部138に送る。ここでは入力画像信号は80×80サイズでRGBをそれぞれ8ビットで表現する信号の例を示す。またフレームレートは30フレーム毎秒の例を示す。上記条件の入力画像データに対しては、第1段目のJPEG符号化は100〜220kbit/s程度のビットレートに設計し、第2段目のJPEG符号化を500kbit/s程度にすると効果的である。符号化列をJPEG復号化部−1 13311により復号化し、誤差計算部1341 において入力信号と復号信号との差分を計算することにより誤差信号を得、判定パラメータ計算部1351 において入力信号と誤差信号から判定パラメータを計算する。ここでは判定パラメータとして信号対雑音比を用いた実施例を示す。閾値比較部136において、信号対雑音比と閾値との比較を行ない、2段目符号化切り替え部137で2段目符号化(JPEG符号化部−2 13221)による符号化列の送信非送信を切り替える。ここでは閾値を固定としている実施例を示す。JPEG符号化部−1 13211、JPEG符号化部−2 13221をそれぞれ220kbit/s、500kbit/sで設計した場合、閾値は20dBに設定すると効果が高い。
上記例の場合の符号化切り替え部137の動作は、表6のようになる。
Figure 0004091506
復号化処理に関しては、図14のネットワーク受信部141で復号化処理開始までに受信した符号化列を1段階目から順に入来を監視し、入来を検出する毎に復号化部1431 ,1432へ送る。ここで1段目JPEG復号化のための符号化列が受信できなかった場合には2段目のJPEG復号化部1432 は動作せず、0ベクトルを出力する。また復号化部1431 ,1432 のうち動作しない復号化部は0ベクトルを出力する。JPEG復号化部1431 ,1432 で復号した復号信号は復号信号加算部145にて加算され、出力画像信号を端子140より出力する。
図18はこの発明による多段音声画像符号化方法および復号化方法をコンピュータで実施する場合の構成を示す。コンピュータ180は、バス188を介して互いに接続されたCPU181,RAM182,ROM183、入出力インタフェース184、ハードディスク185を含んでいる。ROM183にはコンピュータ180を動作させる基本プログラムが格納されており、ハードディスク185は前述したこの発明による多段音声楽音符号化方法および復号化方法を実行するプログラムが予め格納されている。符号化時には、CPU181はハードディスク185から符号化プログラムをRAM182にロードし、インタフェース184から入力されたオーディオ信号サンプルを符号化プログラムに従って処理することにより符号化し、インタフェース184から出力する。復号時には、復号プログラムをハードディスク185からRAM182にロードし、入力信号を復号プログラムに従って処理してオーディオ信号サンプルを出力する。
この発明による多段音声楽音符号化方法および復号化方法を実行するプログラムは、内部バス188にドライブ186を介して接続された外部ディスク装置187に記録されたものを使用しても良い。或いは、インタフェース184を介して外部ネットワークからプログラムをダウンロードしてハードディスク185に格納したものでも良い。この発明による符号化、復号化方法を実行するプログラムが記録された記録媒体としては、磁気記憶媒体、ICメモリ、コンパクトディスクなどの形態の記憶媒体であっても良い。またこの発明による多段音声画像符号化方法および復号化方法を実行するプログラムはディジタルシグナルプロセッサ(DSP)上のソフトウェアとして実装したり、LSIなどハードウェア化して実現することも可能である。
IPネットワーク上でデータ通信と音声および画像通信を同時に行なう利用形態が普及してきており、本発明を適用することによって効率的な音声画像通信およびデータ通信を実現することが可能である。
この発明における第一の最良の形態を示すブロック図。 この発明における第二の最良の形態を示すブロック図。 この発明における第三の最良の形態を示すブロック図。 この発明における第四の最良の形態を示すブロック図。 第一、第二の最良の形態における、一種類の符号化法で構成されるk段階目の符号化法を示すブロック図。 第一、第二の最良の形態における、複数種類の符号化法で構成されるk段階目の符号化法を示すブロック図。 第三、第四の最良の形態における、一種類の符号化法で構成されるk段階目の符号化法を示すブロック図。 第三、第四の最良の形態における、複数種類の符号化法で構成されるk段階目の符号化法を示すブロック図。 この発明の第一の実施例に係る音声符号復号化システムにおける符号化装置のブロック図。 この発明の第一の実施例に係る音声符号復号化システムにおける復号化装置のブロック図。 この発明の第二の実施例に係る音声符号復号化システムにおける符号化装置のブロック図。 この発明の第二の実施例に係る音声符号復号化システムにおける復号化装置のブロック図。 この発明の第三の実施例に係る画像符号復号化システムにおける符号化装置のブロック図。 この発明の第三の実施例に係る画像符号復号化システムにおける復号化装置のブロック図。 この発明の第一の実施例に係る音声符号復号化システムにおけるCELP符号化のブロック図。 この発明の第一及び第二の実施例に係る音声符号復号化システムにおける変換符号化のブロック図。 この発明の第三の実施例に係る画像符号復号化システムにおけるJPEG符号化のブロック図。 この発明をコンピュータで実施する場合の概念構成図。
符号の説明
1211,2211,3211,4211 1段階目符号化部
1221,2221,3221,4221 2段階目符号化部
12N1,22N1,32N1,42N1 N段階目符号化部
1311,2311,3311,4311 1段階目復号化部
1321,2321,3321,4321 2段階目復号化部
141 ,142 ,241 ,242 ,341 ,342 ,441 ,442 誤差信号計算部
151 ,152 ,251 ,252 ,351 ,352 ,451 ,452 判定パラメータ計算部
161 ,162 ,261 ,262 ,361 ,362 ,461 ,462 閾値比較部
172 ,17N ,272 ,27N ,372 ,37N ,472 ,47N 符号化列送信スイッチ
18,28,38,48 閾値算出部
19,29,39,49 ネットワーク送信部
10,20,30,40 符号化復号化動作制御部

Claims (4)

  1. 入力音声画像信号の特徴に応じて段階の符号化手段により符号化を行なう音声画像符号化方であって
    力音声画像信号を段階目の符号化方式により符号化し第1の符号化列を得るステップと、
    前記段階目の符号化方式による前記符号化列を復号化し復号信号を得るステップと、
    前記段階目入力信号と前記復号信号との差分を計算し、1段階目誤差信号を計算するステップと、
    前記1段階目誤差信号を入力として、予め定めた異なる複数のビットレートに符号化し複数の第2の符号化列を得る2段目符号化ステップと
    前記入力音声画像信号と前記段階目誤差信号との比であるSNRを計算するステップと、
    前記SNRと、異なる複数の値に設定される閾値との大小関係を比較し、前記SNRの大きさを段階的に評価した比較結果を得るステップと、
    前記SNRが全ての閾値より大きい場合は前記第2の符号化列を選択せず、それ以外の場合は、前記SNRより大きな閾値が多いほど前記複数の第2の符号化列の中から順に大きなビットレートの第2の符号化列を1つ選択するステップと、
    を備えることを特徴とする音声画像符号化方法。
  2. 入力音声画像信号の特徴に応じて段階の符号化手段により符号化を行なう音声画像符号化装置であって
    力音声画像信号を段階目の符号化方式により符号化し符号化列を得る1段目符号化部と、
    前記段階目符号化部による前記符号化列を復号化し復号信号を得る1段目復号化部と、
    前記段階目入力信号と前記復号信号との差分を計算し、1段階目誤差信号を計算する誤差信号計算部と、
    前記1段階目誤差信号を入力として、予め定めた異なる複数のビットレートに符号化し複数の第2の符号化列を得る複数の変換符号化部と、
    前記入力音声画像信号と前記段階目誤差信号との比であるSNRを計算する判定パラメータ計算部と、
    前記SNRと、異なる複数の値に設定される閾値との大小関係を比較し、前記SNRの大きさを段階的に評価した比較結果を得る閾値比較部と
    前記SNRが全ての閾値より大きい場合は前記第2の符号化列を選択せず、それ以外の場合は、前記SNRより大きな閾値が多いほど前記複数の第2の符号化列の中から順に大きなビットレートの第2の符号化列を1つ選択する2段階目符号化切替え部と、
    を具備することを特徴とする音声画像符号化装置。
  3. 請求項2に記載された2段階音声画像符号化装置としてコンピュータを機能させるためのプログラム。
  4. 請求項3に記載されたプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2003309721A 2003-09-02 2003-09-02 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体 Expired - Lifetime JP4091506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003309721A JP4091506B2 (ja) 2003-09-02 2003-09-02 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003309721A JP4091506B2 (ja) 2003-09-02 2003-09-02 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2005080063A JP2005080063A (ja) 2005-03-24
JP4091506B2 true JP4091506B2 (ja) 2008-05-28

Family

ID=34411790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003309721A Expired - Lifetime JP4091506B2 (ja) 2003-09-02 2003-09-02 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4091506B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5058152B2 (ja) * 2006-03-10 2012-10-24 パナソニック株式会社 符号化装置および符号化方法
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
JP2008172515A (ja) 2007-01-11 2008-07-24 Sony Corp 送信装置および方法、通信装置、並びにプログラム
US20100088102A1 (en) * 2007-05-21 2010-04-08 Panasonic Corporation Audio coding and reproducing apparatus
JP5340261B2 (ja) * 2008-03-19 2013-11-13 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
JP6010539B2 (ja) 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
CN103812824A (zh) * 2012-11-07 2014-05-21 中兴通讯股份有限公司 音频多编码传输方法及相应装置

Also Published As

Publication number Publication date
JP2005080063A (ja) 2005-03-24

Similar Documents

Publication Publication Date Title
JP4731775B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
US9390720B2 (en) Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
US7433824B2 (en) Entropy coding by adapting coding between level and run-length/level modes
US9269366B2 (en) Hybrid instantaneous/differential pitch period coding
JP5688861B2 (ja) レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化
JP5583881B2 (ja) オーディオ信号の変換方法及び変換装置、オーディオ信号の適応的符号化方法及び適応的符号化装置
WO2010140546A1 (ja) 符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、復号化プログラム及びこれらの記録媒体
EP1281172A2 (en) Method and apparatus for compression of speech encoded parameters
JP5337235B2 (ja) 符号化方法、復号方法、符号化装置、復号装置、プログラム及び記録媒体
WO2010139257A1 (zh) 压缩编码和解码的方法、编码器和解码器以及编码装置
KR101100280B1 (ko) 오디오 양자화
JP4091506B2 (ja) 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体
JP4834179B2 (ja) 符号化方法、その装置、プログラム及び記録媒体
JP4848049B2 (ja) 符号化方法、復号方法、それらの装置、プログラム及び記録媒体
JP3496618B2 (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
Kohata et al. A New Segment Quantization Using Lempel–Ziv Algorithm and Its Application to Quantization of Line Spectral Frequencies
KR20090100664A (ko) 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050719

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080228

R150 Certificate of patent or registration of utility model

Ref document number: 4091506

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120307

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term