JP4548348B2

JP4548348B2 - 音声符号化装置及び音声符号化方法

Info

Publication number: JP4548348B2
Application number: JP2006010319A
Authority: JP
Inventors: 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2006-01-18
Filing date: 2006-01-18
Publication date: 2010-09-22
Anticipated expiration: 2026-01-18
Also published as: KR100904605B1; CN101004914B; JP2007193043A; TWI329302B; KR20070076519A; US20070168186A1; CN101004914A; TW200805253A

Description

本発明は、音声符号化装置、及び音声符号化方法に関する。

従来から、音声信号に対し周波数変換とエントロピー符号化を施して、生成符号量を目標値に制御する音声符号化方法が知られている。このような音声符号化方法として、特許文献１には、周波数変換係数をエントロピー符号化する際に、生成符号量が目標値に達するまで、符号化する周波数変換係数を減らしながら、符号化を繰り返す方法が知られている。
特開２００５−１２８４０４号公報

しかしながら、上述の従来の音声符号化方法は、生成符号量が目標値に達するまで何度も同様のエントロピー符号化を繰り返す必要があるため、演算量（処理量）が増大してしまうという問題があった。

本発明の課題は、音声符号化における演算量を低減させることである。

上記課題を解決するため、請求項１に記載の音声符号化装置は、音声信号に対して周波数変換を施す周波数変換手段と、前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された重要度の高い順番で、前記周波数変換手段で得られた周波数変換係数のエントロピー符号化を行う符号化手段と、前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較する比較手段と、を備え、前記符号化手段は、前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番で周波数変換係数のエントロピー符号化を行い、その後、前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行うことを特徴としている。

請求項２に記載の発明は、請求項１に記載の音声符号化装置において、前記比較手段は、周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、前記比較手段により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、前記符号化手段は、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴としている。

請求項３に記載の発明は、請求項１又は２に記載の音声符号化装置において、前記符号化手段は、前記エントロピー符号化としてレンジコーダによる符号化を用いることを特徴としている。

請求項４に記載の発明は、請求項１〜３の何れか一項に記載の音声符号化装置において、入力された音声信号を一定長のフレームに分割するフレーム化手段と、前記フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて当該音声信号の振幅を調整する振幅調整手段と、前記周波数変換手段により、前記振幅が調整された音声信号に周波数変換が施された後、当該周波数変換により得られる周波数変換係数の周波数帯域を、人間の聴覚の特性に基づいて、低域ほど狭く、高域ほど広く分割する帯域分割手段と、前記帯域分割手段により得られた各帯域毎に、周波数変換係数の絶対値の最大値を検索する検索手段と、前記検索手段により各帯域毎に得られた最大値が、各帯域で予め設定された量子化ビット数以下になるようなシフトビット数を算出するシフト数算出手段と、各帯域毎に、帯域中の周波数変換係数に対し、前記シフト数算出手段により算出されたシフトビット数分のシフト処理を施すシフト処理手段と、を備え、前記符号化手段は、前記シフト処理が施されたデータに対し、エントロピー符号化を施すことを特徴としている。

請求項５に記載の発明は、請求項１〜４の何れか一項に記載の音声符号化装置において、前記周波数変換手段は、前記周波数変換として変形離散コサイン変換を用いることを特徴としている。

請求項６に記載の音声符号化方法は、音声信号に対して周波数変換を施し、前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出し、前記算出された重要度の高い順番で周波数変換係数のエントロピー符号化を行い、前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較し、前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番でエントロピー符号化を行い、前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行うことを特徴としている。

請求項７に記載の音声符号化方法は、請求項６に記載された音声符号化方法において、周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、前記比較により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴とする。

本発明によれば、エントロピー符号化を行う前に、予め周波数帯域毎に重要度を算出し、生成符号量が目標符号量になるまで、周波数帯域の重要度の高い順番で周波数変換係数の符号化を行うことにより、従来のように何度も符号化をやり直すことがなく、演算量を削減させることが可能となり、また、目標符号量で符号化された帯域に対して再度周波数帯域順にエントロピー符号化を施すことによって、符号化順を表すデータを送信する必要がなくなる。

以下、図面を参照して、本発明の実施形態について詳細に説明する。
まず、本実施形態における構成について説明する。

図１に、本実施形態に係る音声符号化装置１００の構成を示す。音声符号化装置１００は、図１に示すように、フレーム化部１１、レベル調整部１２、周波数変換部１３、帯域分割部１４、最大値検索部１５、シフト数算出部１６、シフト処理部１７、量子化部１８、帯域重要度算出部１９、エントロピー符号化部２０により構成される。音声符号化装置１００への入力信号は、例えば、16kHzサンプリングで16bit量子化されたデジタル音声等とする。

フレーム化部１１は、入力された音声信号を、符号化（圧縮）の処理単位である一定長のフレームに分割し、レベル調整部１２に出力する。ここで、１つのフレームには、ｍ個（ｍ≧１）のブロックが含まれる長さにする。１ブロックは、１回のＭＤＣＴ（Modified Discrete Cosine Transform：変形離散コサイン変換）を行う単位であり、ＭＤＣＴの次数分の長さを有する。ＭＤＣＴのタップ長は５１２タップが理想的である。

レベル調整部１２は、フレーム毎に、入力された音声信号のレベル調整（振幅調整）を行い、レベル調整された信号を周波数変換部１３に出力する。レベル調整とは、１フレーム中に含まれる信号の振幅の最大値を、指定されたビット（以下、制圧目標ビット）数に収まるようにすることである。音声信号では、１０ビット程度に制圧することが考えられる。レベル調整は、例えば、１フレーム中の信号の最大振幅をｎbit、制圧目標ビット数
をＮとすると、フレーム中の信号を全て、式（１）を満たすshift_bit数分ＬＳＢ（Least
Significant Bit：最下位ビット）側にシフトすることによって実現できる。

なお、復号時には、振幅が制圧目標ビット以下に制圧された信号を元に戻す必要があるため、shift_bitを表す信号を、符号化信号の一部として出力する必要がある。

周波数変換部１３は、入力された音声信号に対し周波数変換を施し、帯域分割部１４に出力する。本実施形態では、音声信号の周波数変換としてＭＤＣＴ（Modified Discrete Cosine Transform：変形離散コサイン変換）を用いることとする。入力された音声信号を｛ｘ_n｜n=0,…,M-1｝とすると、ＭＤＣＴ係数（周波数変換係数）｛Ｘ_k｜k=0,…,M/2-1｝は式（２）のように定義される。

ここで、ｈ_nは窓関数であり、式（３）のように定義される。

帯域分割部１４は、周波数変換部１３から入力される周波数変換係数の周波数帯域を、人間の聴覚の特性に合わせて分割する。具体的に、帯域分割部１４は、図３に示すように、周波数変換係数を、低域（低周波数帯域）ほど狭く、高域（高周波数帯域）ほど広く分割する。例えば、音声信号のサンプリング周波数が16kHzであった場合、分割のスレッシュが、187.5Hz、437.5Hz、687.5Hz、937.5Hz、1312.5Hz、1687.5Hz、2312.5Hz、3250Hz、4625Hz、6500Hzとなる１１帯域に分割することが考えられる。

最大値検索部１５は、帯域分割部１４で分割された各帯域毎に、帯域中に含まれる周波数変換係数の絶対値の中から最大値を検索する。

シフト数算出部１６は、最大値検索部１５で得られた各分割帯域での最大値が、各分割帯域で予め設定された量子化ビット数以下になるように、シフトするビット数（以下、シフトビット数と呼ぶ。）を算出する。例えば、ある帯域での周波数変換係数の絶対値の最大値が１１０１０１０（２進数）であるときには、符号ビットを含めると８ビットとなり、その帯域で予め設定された量子化ビット数が６ビットである場合、シフトビット数は２ビットとなる。各帯域で予め設定される量子化ビット数は、人間の聴覚の特性に基づいて、低域ほど多く、高域ほど少なくなるのが好ましく、例えば、低域から高域にかけて、８〜５ビット程度が割り当てられる。

シフト処理部１７は、各分割帯域毎に、分割帯域中の全ての周波数変換係数のデータを、シフト数算出部１６で算出されたシフトビット数だけシフトし、量子化部１８に出力する。なお、復号時には、周波数変換係数を元のビット数に戻す必要があるため、各帯域毎のシフトビット数を表す信号を、符号化信号の一部として出力する必要がある。

量子化部１８は、シフト処理部１７から入力されたシフト処理後の信号に対し、所定の量子化（例えば、スカラー量子化）を施し、帯域重要度算出部１９に出力する。

帯域重要度算出部１９は、後にエントロピー符号化部２０で実行されるレンジコーダ（Range Coder）符号化によって、予め設定された目標符号量に合わせた符号を生成するため、量子化部１８で算出された量子化値から周波数帯域毎に重要度を算出する。重要度として、各周波数帯域毎の合計エネルギーを用いることができる。１フレームにｍ個のブロックが含まれる場合、フレーム中のｉ番目の周波数帯域に含まれるｍ個の周波数変換係数を｛f_ij|j＝0,…,m-1｝とすると、ｉ番目の周波数帯域のエネルギーｇｉは式（４）のように表される。

エネルギーｇｉの値が大きくなるにつれて重要度が高いものとする。図６は、帯域重要度算出部１９による算出処理が終了した段階で得られているデータの関係を示すものであり、各周波数帯域毎にｍ個の周波数変換係数とエネルギーｇｉが算出されていることを表している。なお、エネルギーｇｉの値に、周波数に依存した重み係数を乗算するようにしてもよい。例えば、500Hz未満の周波数帯域には1.3、500Hz以上3500Hz未満の周波数帯域には1.1、3500Hz以上の周波数帯域には1.0を乗算することが考えられる。

エントロピー符号化部２０は、量子化部１８で量子化が施された各周波数帯域のデータに対して、帯域重要度算出部１９で算出された重要度の高い順番で各周波数帯域毎に周波数帯域番号ｉとその周波数帯域に含まれるｍ個の周波数変換係数のエントロピー符号化を施し、予め設定された目標符号量になった時点までの生成符号を符号化データ（圧縮信号）として出力する。エントロピー符号化とは、データの統計的性質を利用して、出現頻度が多い符号には短い符号、出現頻度が少ない符号には長い符号を割り当てることで、全体の符号長を短く変換する符号化方式であり、ハフマン（Huffman）符号化、算術符号化、レンジコーダ（Range Coder）による符号化等がある。本実施形態では、エントロピー符号化としてレンジコーダによる符号化を用いるものとする。

図２に、本実施形態に係る音声復号装置２００の構成を示す。音声復号装置２００は、音声符号化装置１００で符号化された信号を復号する装置であり、図２に示すように、エントロピー復号部２１、逆量子化部２２、帯域分割部２３、シフト処理部２４、周波数逆変換部２５、レベル再現部２６、フレーム合成部２７により構成される。

エントロピー復号部２１は、エントロピー符号化された入力信号を復号し、逆量子化部２２に出力する。

逆量子化部２２は、エントロピー復号部２１で復号された周波数変換係数に対し逆量子化（例えば、スカラー逆量子化）を施す。このとき、逆量子化部２２は、現在処理の対象であるフレームに含まれる周波数変換係数の帯域数が、元の（周波数変換時の）周波数変換係数の帯域数よりも少ない場合、不足分の周波数帯域については所定の値を挿入し、全ての周波数帯域が揃った周波数変換係数を帯域分割部２３に出力する。不足分の周波数帯域に挿入する値は、入力された信号の周波数帯域のエネルギーの値よりも小さくなるような値（例えば、０）を挿入する。

帯域分割部２３は、逆量子化により得られたデータを、符号化時の帯域分割と同様に、人間の聴覚の特性に合わせて、低域ほど狭く、高域ほど広く帯域分割する。

シフト処理部２４は、逆量子化部２２の逆量子化により得られた周波数変換係数のデータを、各分割帯域毎に符号化時にシフトしたビット数分だけ符号化時とは逆方向にシフトし、周波数逆変換部２５に出力する。

周波数逆変換部２５は、シフト処理部２４でシフト処理が施された周波数変換係数データに対し、周波数逆変換（例えば、逆ＭＤＣＴ）を施して時間軸を有する音声信号に変換し、レベル再現部２６に出力する。

レベル再現部２６は、周波数逆変換部２５から入力された音声信号のレベル調整（振幅調整）を行って元のレベルに戻し、フレーム合成部２７に出力する。

フレーム合成部２７は、符号化及び復号の処理単位であったフレームを合成し、合成後の信号を再生信号として出力する。

次に、本実施形態における動作について説明する。
まず、図４のフローチャートを参照して、音声符号化装置１００において実行される音声符号化処理について説明する。

まず、入力された音声信号が一定長のフレームに分割される（ステップＳ１１）。次いで、フレーム毎に、入力された音声信号のレベル（振幅）が調整され（ステップＳ１２）、レベル調整後の音声信号に対し、ＭＤＣＴが施される（ステップＳ１３）。

次いで、ＭＤＣＴにより得られたＭＤＣＴ係数（周波数変換係数）が、人間の聴覚の特性に合わせて帯域分割される（ステップＳ１４）。次いで、各分割帯域毎に、ＭＤＣＴ係数の絶対値の最大値が検索され（ステップＳ１５）、各分割帯域での最大値が、各分割帯域で予め設定された量子化ビット数以下になるように、シフトビット数が算出される（ステップＳ１６）。

次いで、各分割帯域毎に、分割帯域中の全てのＭＤＣＴ係数に対し、ステップＳ１６で算出されたシフトビット数だけシフト処理が施され（ステップＳ１７）、シフト処理後の信号に対し、所定の量子化（例えば、スカラー量子化）が施される（ステップＳ１８）。

次いで、ステップＳ１８で算出された量子化値から周波数帯域毎に重要度が算出され（ステップＳ１９）、重要度が高い帯域の順番でエントロピー符号化が行われ（ステップＳ２０）、本音声符号化処理が終了する。ステップＳ２０のエントロピー符号化については、後に図５を参照して詳細に説明する。

次に、図５のフローチャートを参照して、エントロピー符号化部２０において実行されるエントロピー符号化（図４のステップＳ２０）について詳細に説明する。

まず、ステップＳ１９までの処理により得られた現在処理対象としているフレームの各周波数帯域についてのエネルギーに関するデータを参照して、最も重要度の高い周波数帯域のデータ（信号）が選択される（ステップＳ３０）。次いで、周波数帯域番号ｉと、その周波数帯域におけるｍ個の周波数変換係数に対してレンジコーダ符号化が施される（ステップＳ３１）。

次いで、ステップＳ３１の符号化によって、生成符号量が目標符号量になったか否かが判定される（ステップＳ３２）。ステップＳ３２において、目標符号量になったと判定された場合（ステップＳ３２；ＹＥＳ）、本エントロピー符号化が終了する。

ステップＳ３２において、生成符号量が目標符号量に達していないと判定された場合（ステップＳ３２；ＮＯ）、符号化が施されていない帯域のデータ（残データ）があるか否かが判定される（ステップＳ３３）。

ステップＳ３３において、残データがあると判定された場合（ステップＳ３３；ＹＥＳ）、次に重要度の高い周波数帯域のデータが選択され（ステップＳ３４）、その選択された周波数帯域について、ステップＳ３１及びＳ３２の処理が繰り返される。ステップＳ３３において、残データがないと判定された場合（ステップＳ３３；ＮＯ）、本エントロピー符号化が終了する。

次に、図７のフローチャートを参照して、音声復号装置２００において実行される音声復号処理について説明する。

まず、エントロピー符号化が施された符号化信号が復号処理される（ステップＴ１０）。この復号処理により、レベル調整のためのシフトビット数、分割帯域における最大値調整のためのシフトビット数、各周波数帯域における周波数帯域番号及び周波数変換係数に関するデータが得られる。そして周波数変換係数データに対し、逆量子化が施される（ステップＴ１１）。ここで、現在処理対象とするフレームのＭＤＣＴ係数の帯域数が、元のＭＤＣＴ係数の帯域数よりも少ない場合、不足分の帯域に所定の値（例えば、０）が挿入される。

次いで、逆量子化により得られたＭＤＣＴ係数が、符号化時に分割されたように、人間の聴覚の特性に合わせて帯域分割され（ステップＴ１２）、当該ＭＤＣＴ係数に対し、各周波数帯域毎に、符号化時にシフトしたビット数分だけ符号化時とは逆方向にシフト処理が行われ（ステップＴ１３）、シフト処理が施されたデータに対し、逆ＭＤＣＴが施される（ステップＴ１４）。次いで、逆ＭＤＣＴ後の音声信号がレベル調整により元のレベルに戻され（ステップＴ１５）、符号化及び復号の処理単位であったフレームが合成され、本音声復号処理が終了する。

以上のように、本実施形態の音声符号化装置１００及び音声復号装置２００によれば、エントロピー符号化を行う前に、予め周波数帯域毎に重要度を算出し、算出された重要度の高い順番で生成符号量が目標符号量になるまで符号化を行うことにより、従来のように何度も符号化をやり直すことがなく、演算量を削減させることが可能となる。

次に、本実施形態の変形例について説明する。
<変形例１>
上述の実施形態では、重要度の高い周波数帯域の順番でエントロピー符号化を行ったため、符号化データに符号化順を表す周波数帯域を示す周波数帯域番号データを含ませて復号側に送信する必要があった。そこで、変形例１では、重要度の高い順番でエントロピー符号化を行った後、目標符号量で符号化された帯域に対して再度周波数帯域順にエントロピー符号化を施すことによって、符号化順を表すデータを送信する必要がなくなるような場合を示す。変形例１のエントロピー符号化部２０において実行される符号化処理について、図８のフローチャートを参照して詳細に説明する。

まず、１回目の符号化として、図５に示すエントロピー符号化が行われる（ステップＳ４０）。次いで、この符号化によって目標符号量とするために符号化対象となった周波数帯域（選択帯域）が特定される（ステップＳ４１）。図９は、この選択帯域を特定する処理が終了した段階で得られているデータの関係を示すものであり、周波数帯域番号別に、周波数変換係数、エネルギーｇｉ（式（４）参照）、その周波数帯域が符号化対象となったことを示すフラグが付けられることを示す。ステップＳ４１において選択帯域として特定された周波数帯域は、フラグの値が１となり、選択帯域として特定されていない周波数帯域は、フラグの値が０となる。

次いで、ステップＳ４１で特定された選択帯域（フラグの値が１の周波数帯域）に対し、今度は周波数順（例えば、周波数帯域番号の低い順）にエントロピー符号化（各周波数帯域における周波数変換係数に対するレンジコーダ符号化）が施され、また何番目の帯域の周波数変換係数が符号化されたかを示すデータ（例えば、図９のフラグを連続させたデータ）も符号化されて周波数変換係数の符号化データに付加され（ステップＳ４２）、変形例１の符号化処理が終了する。

<変形例２>
特許文献１に記載のように、音声信号の入力に応じて、音声信号を示す各記号の出現確率を格納した生起確率表を逐次更新するようなレンジコーダ符号化を用いる場合、変形例１のように、１回目の符号化で所定の符号量に合うように符号化対象の周波数帯域を決定し、その後、符号化順を変えて符号化をやり直すと、生起確率表の違いから生成符号量に若干差が出てしまう場合がある。そこで、変形例２では、変形例１の符号化処理を行った後に、生成符号量が目標符号量を超えてしまった場合には、予め指定された帯域を削除することで、生成符号量を目標符号量に抑える場合を示す。変形例２のエントロピー符号化部２０において実行される符号化処理について、図１０のフローチャートを参照して詳細に説明する。

まず、変形例１と同様に、１回目の符号化として、図５に示すエントロピー符号化が行われ（ステップＳ５０）、次いで、目標符号量で符号化するための周波数帯域（選択帯域）が特定される（ステップＳ５１）。次いで、ステップＳ５１で特定された選択帯域に対し、周波数順（周波数帯域番号の低い順）にエントロピー符号化が施される（ステップＳ５２）。

次いで、現在の生成符号量が目標符号量を超えているか否かが判定される（ステップＳ５３）。ステップＳ５３において、現在の生成符号量が目標符号量を超えていないと判定された場合（ステップＳ５３；ＮＯ）、変形例２の符号化処理が終了する。

ステップＳ５３において、現在の生成符号量が目標符号量を超えていると判定された場合（ステップＳ５３；ＹＥＳ）、符号化対象となったデータの中から、予め指定された帯域のデータ（例えば、最も高域側の帯域）が削除される（ステップＳ５４）。次いで、ステップＳ５４における帯域削除後に残った帯域のデータに対し、エントロピー符号化が施され（ステップＳ５５）、変形例２の符号化処理が終了する。

本発明の実施形態に係る音声符号化装置の構成を示すブロック図。本発明の実施形態に係る音声復号装置の構成を示すブロック図。周波数変換係数の帯域分割を説明するための図。本実施形態の音声符号化装置において実行される音声符号化処理を示すフローチャート。本実施形態におけるエントロピー符号化の詳細を示すフローチャート。周波数帯域番号別に周波数変換係数とエネルギーとの関係を示す図。本実施形態の音声復号装置において実行される音声復号処理を示すフローチャート。本実施形態の変形例１における符号化処理を示すフローチャート。周波数帯域番号別に周波数変換係数、エネルギー、フラグの関係を示す図。本実施形態の変形例２における符号化処理を示すフローチャート。

符号の説明

１１フレーム化部（フレーム化手段）
１２レベル調整部（振幅調整手段）
１３周波数変換部（周波数変換手段）
１４帯域分割部（帯域分割手段）
１５最大値検索部（検索手段）
１６シフト数算出部（シフト数算出手段）
１７シフト処理部（シフト処理手段）
１８量子化部
１９帯域重要度算出部（重要度算出手段）
２０エントロピー符号化部（符号化手段、比較手段）
２１エントロピー復号部（復号手段）
２２逆量子化部
２３帯域分割部
２４シフト処理部
２５周波数逆変換部（周波数逆変換手段）
２６レベル再現部
２７フレーム合成部
１００音声符号化装置
２００音声復号装置

Claims

音声信号に対して周波数変換を施す周波数変換手段と、
前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された重要度の高い順番で、前記周波数変換手段で得られた周波数変換係数のエントロピー符号化を行う符号化手段と、
前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較する比較手段と、を備え、
前記符号化手段は、前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番で周波数変換係数のエントロピー符号化を行い、その後、前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行うことを特徴とする音声符号化装置。
前記比較手段は、周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、
前記比較手段により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、前記符号化手段は、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴とする請求項１に記載の音声符号化装置。
前記符号化手段は、前記エントロピー符号化としてレンジコーダによる符号化を用いることを特徴とする請求項１又は２に記載の音声符号化装置。
入力された音声信号を一定長のフレームに分割するフレーム化手段と、
前記フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて当該音声信号の振幅を調整する振幅調整手段と、
前記周波数変換手段により、前記振幅が調整された音声信号に周波数変換が施された後、当該周波数変換により得られる周波数変換係数の周波数帯域を、人間の聴覚の特性に基づいて、低域ほど狭く、高域ほど広く分割する帯域分割手段と、
前記帯域分割手段により得られた各帯域毎に、周波数変換係数の絶対値の最大値を検索する検索手段と、
前記検索手段により各帯域毎に得られた最大値が、各帯域で予め設定された量子化ビット数以下になるようなシフトビット数を算出するシフト数算出手段と、
各帯域毎に、帯域中の周波数変換係数に対し、前記シフト数算出手段により算出されたシフトビット数分のシフト処理を施すシフト処理手段と、を備え、
前記符号化手段は、前記シフト処理が施されたデータに対し、エントロピー符号化を施すことを特徴とする請求項１〜３の何れか一項に記載の音声符号化装置。
前記周波数変換手段は、前記周波数変換として変形離散コサイン変換を用いることを特徴とする請求項１〜４の何れか一項に記載の音声符号化装置。
音声信号に対して周波数変換を施し、
前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出し、
前記算出された重要度の高い順番で周波数変換係数のエントロピー符号化を行い、
前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較し、
前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番でエントロピー符号化を行い、
前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行う
ことを特徴とする音声符号化方法。
周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、
前記比較により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴とする請求項６に記載の音声符号化方法。