JP2776277B2

JP2776277B2 - 音声符号化装置

Info

Publication number: JP2776277B2
Application number: JP6304941A
Authority: JP
Inventors: 聡長谷川
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1994-12-08
Filing date: 1994-12-08
Publication date: 1998-07-16
Anticipated expiration: 2013-07-16
Also published as: DE69527257T2; JPH08160998A; US5799270A; DE69527257D1; EP0716409A2; EP0716409A3; EP0716409B1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声符号化装置に係
り、特に、レイヤIII標準化アルゴリズムに準拠する音
声符号化装置に関する。

【０００２】

【従来の技術】アナログ音声信号を原音に忠実に伝送或
いは蓄積するための符号化技術は、ＣＣＩＴＴ（国際電
信電話協議委員会）等により標準化が促進されている。
その有力なアルゴリズムであるサブバンド符号化方式や
適応変換符号化方式は、音声信号帯域を遥かに上回る帯
域内に遍在する信号エネルギを利用して、符号化効率を
向上せしめる点において共通する。一方、サブバンド符
号化方式では、入力信号を複数の周波数帯域に分割し、
各サブバンドの信号エネルギに応じたビット割当を行う
のに対し、適応変換符号化方式では、入力信号に線形変
換を施して電力集中性を高めた状態で量子化を行う点で
相違する。この線形変換には、フーリエ変換又はコサイ
ン変換を用いるのが一般的である。

【０００３】これらの適応変換符号化方式やサブバンド
符号化方式では、いわゆる心理聴覚特性を利用して、さ
らに総合符号化品質の改善を図ることが可能である。こ
の心理聴覚特性を利用する方法とは、人間が知覚し易い
周波数帯域での信号の劣化を最小限に抑えるように、あ
る種の重み付け（心理聴覚重み付け）を施して量子化す
るものである。この心理聴覚重み付けとは、絶対可聴し
きい値（ここで、しきい値は音圧を扱うものである）お
よびマスキング効果との関係で決まる相対可聴しきい値
から補正可聴しきい値を逐次求めるものである。そし
て、この結果に基づいてビット割当が行われる。

【０００４】以下、この従来例を更に詳述すると、人間
は、絶対可聴しきい値を越える音圧しか知覚することが
できず、また、大きな音圧を有する周波数成分（マス
カ）の近傍に位置する小さな音圧の周波数成分もマスク
の影響（マスキング効果）で知覚できない。このマスキ
ング効果は、特性上、マスカの左右で非対称的であり、
マスカの低域側よりも高域側で広範囲にマスクされる。
このため、補正可聴しきい値を越える周波数成分につい
て、その音圧と補正可聴しきい値との差に相当するビッ
トを割り当てることにより、効率的な符号化が達成され
る。

【０００５】適応変換符号化方式では、複数サンプルを
ブロック化した線形変換が行われる。通常は、大きなブ
ロック長を用いて線形変換を行った方が高解像度を得る
ことができ、符号化品質は向上する。しかし、音声信号
の振幅が急激に立ち上がる部分に対し大きなブロック長
で線形変換を施すと、当該音声信号の復号時にプリエコ
ーと呼ばれる先行雑音が発生することが明かとなってい
る。この原因は、単一ブロック内における信号振幅が急
激に変化する部分で雑音が発生するからであり、単一ブ
ロック内に均一に分布する量子化歪が信号振幅の小さな
部分で知覚されてしまうことに起因する。

【０００６】ここで、プリエコーは時間領域のマスキン
グと密接な関係があることが知られている。図４に線形
変換に用いるブロック長の違いによるプリエコーの生じ
具合を示す。この図４において、測定に用いた音源には
ドラムスを用い、図４（Ａ）がその原波形を示す。この
原波形をブロック長Ｎ＝２５６とＮ＝１０２４とで線形
変換した後に復号して得た復号信号が図４（Ｂ），図４
（Ｃ）である。両図において、信号振幅が急激に増大す
る部分（アタック部）に先行して雑音が発生しているの
がわかる。この雑音がいわゆるプリエコーであり、Ｎ＝
１０２４の場合に比べＮ＝２５６の場合の方がプリエコ
ーが短いことから、小ブロック長による線形変換がプリ
エコーの抑制に有効であることは明かである。

【０００７】しかし、前述のように小ブロック長を適用
する場合には解像度の劣化や符号化効率の低下といった
不都合を伴うのも事実である。また、実際に量子化を行
った信号には、１ブロックにつき１セットの補償情報が
必要であるため、用いるブロック長が大きいほど補償情
報の数を省くことができ効率がよい。従って、こうした
プリエコーに起因した相容れない要求に応えるために
は、必要に応じてブロック長を切り換えて処理すること
が望ましい。この要求を実現するものとして適応ブロッ
ク長符号変換方式が一般に用いられている。

【０００８】この適応ブロック長符号変換の標準化アル
ゴリズムは、適応されるビットレイヤや要求される符号
化品質に応じて、或いはシステムの複雑さ等に応じて３
階層（レイヤ）構造が採られている。このうちレイヤII
Iでは、レイヤI，IIに比べ符号化品質の向上が図られて
いる。このレイヤIIIでは、入力信号の各サブバンド信
号を変形離散コサイン変換（ＭＤＣＴ）により周波数領
域に変換する際に適応ブロック長を用いてプリエコーを
抑制するようにしている。

【０００９】変形離散コサイン変換方式では、ブロック
境界近傍で量子化雑音の不連続性がブロック歪として知
覚されないよう、隣接ブロック間で５０％のオーバラッ
プをかけ、窓関数によるフィルタ操作を行う。また、続
いて演算する離散コサイン変換の時間項にオフセットを
導入することにより、得られた変換係数が対称になるよ
うに配慮している。これがため、符号化する必要のある
変換係数がオーバラップされたブロック長２Ｎの半分と
なり、５０％オーバラップによって生ずる効率劣化を相
殺することができる。

【００１０】この変形離散コサイン符号化方式に導入さ
れる適応ブロック長の基本概念は、心理聴覚モデルに基
づくものである。この概念を利用した従来の音声符号化
装置を図５に示す。

【００１１】この図５に示す音声符号化装置は、入力信
号Ｓｉを所定のブロック長で線形変換する線形変換部５
０と、入力信号Ｓｉを２種類の異なるブロック長で高速
フーリエ変換するＦＦＴ部６０と、このＦＦＴ部６０で
変換生成したＦＦＴ信号に基づいて線形変換部５０に設
定すべき所定のブロック長Ｓｂを算出しこれを当該線形
変換部５０に設定するブロック長設定部７０と、線形変
換回路５０において変換生成した中間信号Ｓｍを符号化
してビット列Ｓｏを形成出力する符号化部８０とを備え
ている。これら各部の動作タイミングは、図示しない制
御部により逐次制御されるようになっている。

【００１２】線形変換部５０は、入力信号Ｓｉを複数の
周波数帯域（サブバンド）に分割するフィルタバンク回
路５１と、このフィルタバンク回路５１の出力信号に対
しブロック長Ｓｂに基づいて変形離散コサイン変換を行
うＭＤＣＴ回路５２と、このＭＤＣＴ回路５２の出力信
号から折り返し歪を削減して中間信号Ｓｍを出力するバ
タフライ回路５３とを備えている。

【００１３】ＦＦＴ部６０は、入力信号Ｓｉを小ブロッ
クで高速フーリエ変換してＦＦＴ信号Ｓｆを出力する第
１のＦＦＴ回路６１と、同じく入力信号Ｓｉを大ブロッ
クで高速フーリエ変換してＦＦＴ信号を出力する第２の
ＦＦＴ回路６２とを備えている。この第１及び第２のＦ
ＦＴ回路６１，６２の動作は、前述の制御部により時分
割的に逐次制御されるようになっている。

【００１４】ブロック長設定部７０は、ＦＦＴ信号から
予測不可能性を測定する予測不可能性測定回路７１と、
この予測不可能性測定回路７１の出力信号から信号対マ
スク比を算出する信号対マスク比計算回路７２と、この
信号対マスク比計算回路７２の出力信号に基づいてＭＤ
ＣＴ回路５２にブロック長Ｓｂを設定する心理聴覚エン
トロピ評価回路７３とを備えている。

【００１５】符号化部８０は、中間信号Ｓｍを非線形量
子化する非線形変換回路８１と、この非線形変換回路８
１からの出力信号を符号化するハフマン符号化回路８２
と、このハフマン符号化回路８２で符号化した信号とサ
イド情報符号化回路８６からのサイド情報とに基づいて
ビット列Ｓｏを形成し出力するするビット列形成回路８
３とを備えている。ビット列形成回路８３はＣＲＣチェ
ック機能を備えている。ここで、符号８５はスケールフ
ァクタ計算回路を示し、符号８４はバッファ制御回路を
示す。

【００１６】そして、装置に入力された音声信号（入力
信号）Ｓｉは、フィルタバンク回路５１で複数の周波数
帯域（サブバンド）に分割されＭＤＣＴ回路５２に送り
込まれると共に、ＦＦＴ部６０に入力され、ブロック長
の異なる第１及び第２のＦＦＴ回路６１，６２において
高速フーリエ変換される。その後、ブロック長設定部７
０が一組のＦＦＴ信号に基づいて心理聴覚エントロピ評
価を下し、ＭＤＣＴ回路５２にブロック長Ｓｂを設定す
る。

【００１７】これを更に詳述すると、前述したブロック
長設定部７０の予測不可能性測定回路７１は、各ＦＦＴ
信号（ＦＦＴスペクトル線）について、現在値と過去２
ブロック分のデータによる予測値とを比較し、振幅と位
相の差異から予測不可能性を測定する。ここでは、現在
値と予測値のユークリッド距離を規格化したものをカオ
ス指数と呼び、このカオス指数の０．５から０．０５
を、０から１の純音指数に写像する。周波数領域での振
幅は、１／３臨界帯域のエネルギ表現に変換された後、
内耳の広がり関数との間で畳み込み演算される。この畳
み込み演算により得られたスペクトルと純音指数を用
い、ちょうどマスクされる雑音レベルが計算される。

【００１８】信号対マスク比計算回路７２は、サブバン
ドｎにおける信号対マスク比ＳＭＲｓｂ（ｎ）を、ＳＭＲｓｂ（ｎ）＝Ｌｓｂ（ｎ）−ＬＴｍｉｎ（ｎ）・・・・（１）として計算する。ここで、Ｌｓｂ（ｎ）はサブバンドｎ
における音圧を表し、ＬＴｍｉｎ（ｎ）は、サブバンド
ｎにおける最小マスキングレベルを表す。

【００１９】プリエコーが発生するアタック近傍では時
間領域信号の急変に伴って高域成分が増加すると共にパ
ワー集中度が減少し、必要なビット数が多くなる。心理
聴覚エントロピ評価回路７３は、この現象を捕らえて、
心理聴覚エントロピが予め定められたしきい値を越えた
ときに音声信号のアタック部であると判定し、ＭＤＣＴ
回路５２に「小」ブロック長Ｓｂを設定する。一方、し
きい値以下のときは「大」ブロック長Ｓｂを設定し、高
符号化品質と高解像度が得られるようにする。

【００２０】このＭＤＣＴ回路５２において、小ブロッ
ク処理を行う場合は、フィルタバンク回路５１の出力信
号を１グラニュルについて６周波数サンプル×３小ブロ
ックの１８サンプルとして取扱う。そして、最初の６サ
ンプルと前グラニュルの最後の６サンプルとを組み合わ
せた１２サンプルを１ブロックとして変形離散コサイン
変換を行う。これにより得られる出力は、変形離散コサ
イン変換の係数対称性から、半分の６サンプルであり、
小ブロック全体としては６×３＝１８周波数サンプルで
ある。一方、大ブロック処理を行う場合は、フィルタバ
ンク回路５１の出力信号を１グラニュルについて１８サ
ンプルとし、これを前グラニュルと組み合わせた３６サ
ンプルを１ブロックとして変形離散コサイン変換を行
う。この場合も、変形離散コサイン変換の係数対称性か
ら、独立な出力は半分の１８周波数サンプルとなる。

【００２１】そして、ＭＤＣＴ回路５２において変形離
散コサイン変換された音声信号は、バタフライ回路５３
に入力される。バタフライ回路５３は、隣接するオーバ
ラップ多層フィルタバンク出力の３２帯域に対し、帯域
境界に近いサンプルから８サンプルを入力としてバタフ
ライ演算を行い、周波数領域で折り返し歪を除去する。
ここで、フィルタバンク回路５１，ＭＤＣＴ回路５２及
びバタフライ回路５３は、フィルタバンクと直交変換を
組み合わせた写像を行うため、周波数分解能はレイヤ
I，IIの１８倍に高められている。

【００２２】前述した線形変換部５０から出力された中
間信号Ｓｍは、符号化部８０に入力される。この符号化
部８０では、非心理聴覚モデルに基づくビット割当に従
って非線形量子化が行われ、時間領域でフレーム境界を
越えたビット配分が行われる。こうして量子化された信
号は、ハフマン符号化回路８２において符号化されフレ
ームに組み込まれ、サイド情報符号化回路８６から供給
されるサイド情報とともにビット列（ビットストリー
ム）形成される。形成されたビット列は、ＣＲＣチェッ
クを受けた後、伝送路に送り出すか又は蓄積媒体に蓄積
される。ここに、レイヤIIIのビットストリーム構成
は、１フレームが１１５２サンプルからなり、各フレー
ムは５７６サンプルのグラニュルに２分割されている。

【００２３】

【発明が解決しようとする課題】しかしながら、上記従
来例にあっては、ＦＦＴ部及びブロック長設定部におけ
る演算量が多く、音声信号の入力からビットストリーム
の出力までに時間がかかり、装置全体としての処理能力
が低いという不都合があった。

【００２４】この点において、処理能力の向上を図る一
手段が特開平４−３０２５４０号公報に公表されてい
る。これは、ブロック長とフローティング係数の決定を
同じ指標に基づいて行うことにより処理能力の向上を試
みたものである。しかしながら、かかる引例にあって
は、ブロック長を切り換える場合に、大ブロックとこの
大ブロックの１／２の一対の小ブロックについて当該小
ブロック内の各最大絶対値どうしを比較し、この結果に
より大小のブロックを選択するため、大ブロックを分割
した複数の小ブロックについて個々に最大絶対値を演算
し比較する必要があり、これがため、分割ブロック数が
増加するほど演算負担が増大するという不都合があっ
た。

【００２５】

【発明の目的】本発明は、かかる従来例の有する不都合
を改善し、特に、処理能力の安定した向上を図った音声
符号化装置を提供することを、その目的とする。

【００２６】

【課題を解決するための手段】発明者は、ＦＦＴ部とブ
ロック長設定部の現実の信号処理を分析した結果、小ブ
ロック長のＦＦＴ回路の処理結果が心理聴覚エントロピ
評価に活かされるのはドラムスやカスタネットなどの極
く限られた音源が発する音に対してだけであり、小ブロ
ック長のＦＦＴ回路におけるＦＦＴの実行は多くの場合
無駄になっているという事実を見いだした。本発明はこ
の点に鑑み成されたもので、以下のように構成される。

【００２７】請求項１記載の発明では、入力信号を所定
のブロック長で線形変換する線形変換部と、当該入力信
号を大小２種の異なるブロック長で高速フーリエ変換す
るＦＦＴ部とを備えている。また、このＦＦＴ部で変換
生成したＦＦＴ信号に基づいて線形変換部に設定すべき
所定のブロック長を算出しこれを当該線形変換部に設定
するブロック長設定部と、線形変換部において変換生成
した中間信号を符号化してビット列を形成出力する符号
化部とを備えている。このうち、ＦＦＴ部が、入力信号
のうち連続する信号の利得差に基づいて高速フーリエ変
換に用いるブロック長を大小２種の異なるブロック長か
ら選択するＦＦＴ選択機能を備え、前記ブロック長設定
部は、前記ＦＦＴ部が１種類のブロック長の下でのみ高
速フーリエ変換を行う場合には当該高速フーリエ変換に
より得られるＦＦＴ信号のみに基づいて前記線形変換部
に設定すべき所定のブロック長を算出する機能を備え、
前記ＦＦＴ部は、前記入力信号に対し小ブロック長のＦ
ＦＴを実行する第１のＦＦＴ回路と、前記入力信号に対
し大ブロック長のＦＦＴを実行する第２のＦＦＴ回路
と、この第２のＦＦＴ回路が出力するＦＦＴ信号から利
得を算出する利得演算回路と、この利得演算回路が出力
する利得に基づいて前記第１のＦＦＴ回路に選択的に前
記入力信号を出力するＦＦＴ選択手段とを備え、前記利
得演算回路は、１フレームごとに前記第２のＦＦＴ回路
の出力から音声利得を演算し、その演算結果を前記ＦＴ
Ｔ選択手段に送り込む機能を備え、前記ＦＦＴ選択手段
は、前記利得演算回路から供給される前フレームの音声
利得の大きさに応じて前記第１又は第２のＦＦＴ回路に
対し、双方において前記入力信号のＦＦＴを実行する
か、或いは前記第２のＦＦＴ回路のみにおいてＦＦＴを
実行するかを選択し、前記入力信号の出力先を切り換え
る機能を備えた、という構成を採っている。

【００２８】

【００２９】請求項２記載の発明では、線形変換部は、
入力信号を線形変換する変形離散コサイン変換回路を備
えている、という構成を採っている。

【００３０】請求項３記載の発明では、ブロック長設定
部は、心理聴覚エントロピ評価に基づいて線形変換部に
設定するブロック長を算出する機能を備えている、とい
う構成を採っている。これにより、前述した目的を達成
しようとするものである。

【００３１】ここで、「心理聴覚エントロピ評価」と
は、心理聴覚エントロピが予め設定されたシキイ値を越
えた場合は、サンプル数の少ない小ブロックに対して線
形変換を施すよう決定を下し、心理聴覚エントロピが予
め定められたシキイ値以下である場合は、サンプル数の
多い大ブロックに対して線形変換を施すよう決定を下す
ことを内容とする評価をいう。

【００３２】

【作用】請求項１記載の発明では、入力信号のうち連続
する信号（フレーム）の利得差が所定量以上である場合
には、ＦＦＴ部におけるＦＦＴ選択機能により、同一の
信号対象に対して大ブロック長でのＦＦＴ（高速フーリ
エ変換）と小ブロック長でのＦＦＴとの双方を実行す
る。一方、入力信号のうち連続する信号の利得差が所定
量以下である場合には、ＦＦＴ部におけるＦＦＴ選択機
能により、大ブロック長でのＦＦＴのみを実行する。

【００３３】請求項２記載の発明では、ＦＦＴ部におい
て大ブロック長でのＦＦＴのみが実行された場合、ブロ
ック長設定部は、当該ＦＦＴ信号について予測不可能性
の測定を行うことなく信号対マスク比を計算し、この結
果に基づいて線形変換部に所定のブロック長を設定す
る。

【００３４】請求項３記載の発明では、線形変換部にお
いて入力信号の線形変換が変形離散コサイン変換により
行われる。

【００３５】請求項４記載の発明では、線形変換部に設
定されるべき所定のブロック長が心理聴覚エントロピ評
価に基づいて算出される。

【００３６】

【実施例】以下、本発明の一実施例を図１乃至図２に基
づいて説明する。

【００３７】図１に示す音声符号化装置は、入力信号Ｓ
ｉを所定のブロック長で線形変換する線形変換部５０
と、当該入力信号Ｓｉを大小２種の異なるブロック長で
高速フーリエ変換するＦＦＴ部１０とを備え、このＦＦ
Ｔ部１０で変換生成したＦＦＴ信号に基づいて線形変換
部５０に設定すべき所定のブロック長Ｓｂを算出しこれ
を当該線形変換部５０に設定するブロック長設定部２０
と、線形変換部５０において変換生成した中間信号Ｓｂ
を符号化してビット列を形成出力する符号化部８０とを
備えている。このうち、ＦＦＴ部１０が、入力信号Ｓｉ
のうち連続する信号の利得差に基づいて高速フーリエ変
換（ＦＦＴ）に用いるブロック長を大小２種の異なるブ
ロック長から選択するＦＦＴ選択機能を備えている。入
力信号Ｓｉは、予め直線量子化された音声信号である。

【００３８】ここで、線形変換部５０と符号化部８０の
構成については、図５に示した従来例と同一であること
から、同一符号を付して重複説明を省略する。

【００３９】ＦＦＴ部１０は、入力信号Ｓｉに対し小ブ
ロック長のＦＦＴを実行する第１のＦＦＴ回路１２と、
入力信号Ｓｉに対し大ブロック長のＦＦＴを実行する第
２のＦＦＴ回路１３とを備えている。更に、第２のＦＦ
Ｔ回路１３が出力するＦＦＴ信号から利得を算出する利
得演算回路１４と、この利得演算回路１４が出力する利
得に基づいて第１のＦＦＴ回路１２に選択的に入力信号
Ｓｉを出力するＦＦＴ選択手段１１とを備えている。

【００４０】利得演算回路１４は、１フレームごとに第
２のＦＦＴ回路１３の出力から音声利得を演算し、その
演算結果をＦＴＴ選択手段１１に送り込む機能を備えて
いる。

【００４１】ＦＦＴ選択手段１１は、利得演算回路１４
から供給される前フレームの音声利得の大きさに応じて
第１又は第２のＦＦＴ回路１２，１３に対し、双方にお
いて入力信号ＳｉのＦＦＴを実行するか、或いは第２の
ＦＦＴ回路１３のみにおいてＦＦＴを実行するかを選択
し、入力信号Ｓｉの出力先を切り換える機能を備えてい
る。

【００４２】ブロック長設定部２０は、各ＦＦＴ回路１
２，１３の出力に対し予測不可能性の計算を施す予測不
可能性計算回路２１と、この予測不可能性計算回路２１
の出力から信号対マスク比を算出する信号対マスク比計
算回路２２と、この信号対マスク比計算回路２２の出力
を心理聴覚エントロピ評価に付し、この結果に基づいて
ＭＤＣＴ回路５２に所定のブロック長を設定する心理聴
覚エントロピ評価回路２３とを備えている。

【００４３】ＦＦＴ選択手段１１における選択処理はプ
リエコー排除が目的であり、前フレームの音声利得に基
づいてプリエコーがマスク可能であるか否かを予測し、
マスク不可能であると予測される場合には、第１及び第
２のＦＦＴ回路１２，１３の双方でＦＦＴを実行する。
一方、プリエコーがマスク可能であると予測できる場合
は、第２のＦＦＴ回路１３のみに入力信号Ｓｉを出力
し、第１のＦＦＴ回路１２には入力信号Ｓｉの出力を行
わない。以下、当該処理を含む装置の動作を図２に基づ
いて詳説する。

【００４４】．ＦＦＴ選択手段１１は、利得演算回路
１４が供給する前フレームの音声利得をシキイ値判別
し、この結果から入力信号Ｓｉの出力先を第１及び第２
のＦＦＴ１２，１３とするか、第２のＦＦＴ回路１３の
みとするかを選択する（ステップＳ１０１，Ｓ１０
２）。即ち、本段階において、復号信号に生じるプリエ
コーのマスクが可能か否かが予測の下に決定される。

【００４５】．ＦＦＴ選択手段１１は、で選択した
ＦＦＴ回路に入力信号Ｓｉを出力する。そして、この入
力信号Ｓｉを受けたＦＦＴ回路はＦＦＴを実行しＦＦＴ
信号を出力する（ステップＳ１０３，Ｓ１０４，Ｓ１１
１）。ここで、各ＦＦＴ処理は、ＤＳＰの制御により時
分割的に実行される。

【００４６】．利得演算回路１４は、第２のＦＦＴ回
路１３より出力されたＦＦＴ信号から音声利得を算出
し、その結果をＦＦＴ選択手段１１に通知する（ステッ
プＳ１０５，Ｓ１１２）。

【００４７】．予測不可能性計算回路２１は、第１及
び第２のＦＦＴ回路１２，１３の双方でＦＦＴが実行さ
れた場合には、各ＦＦＴ信号について予測不可能性の測
定（計算）を実行し、第１又は第２のＦＦＴ回路１２，
１３のどちらのＦＦＴ信号について後に信号対マスク比
を計算するかを決定する。即ち、本段階において、入力
信号Ｓｉが急激に変化する信号か否かが判断される（ス
テップＳ１０７）。一方、第２のＦＦＴ回路１３でのみ
ＦＦＴが実行された場合には、予測不可能性の計算は実
行せず、第２のＦＦＴ回路１３から出力されたＦＦＴ信
号を直接信号対マスク比計算回路２２に入力する（ステ
ップＳ１１３）。

【００４８】．信号対マスク比計算回路２２は、の
予測不可能性の計算結果に基づいて特定されたＦＦＴ信
号に対し信号対マスク比の計算を実行する（ステップＳ
１０８，Ｓ１０９）。

【００４９】．心理聴覚エントロピ評価回路２３は、
信号対マスク比計算回路２２の出力に対し心理聴覚エン
トロピ評価を行い、この結果に基づいてＭＤＣＴ回路５
２に所定のブロック長Ｓｂを設定する（ステップＳ１１
０）。

【００５０】入力信号ＳｉはＭＤＣＴ回路５２に設定さ
れたブロック長で変形離散コサイン変換された後、符号
化部８０に入力されビット列に形成され出力される。

【００５１】次に、本発明の他の実施例を図３に基づい
て説明する。この図３において、前述の実施例の構成と
異なるのはＦＦＴ部３０の構成であって、その他の構成
は前述の実施例と同一となっている。そこで、同一部分
に付いては同一符号を付して重複説明を省略すると共
に、以下にＦＦＴ部３０の構成を説明する。

【００５２】ＦＦＴ部３０は、入力信号Ｓｉを一時的に
蓄えるメモリ３１と、入力信号Ｓｉを小ブロック長で高
速フーリエ変換する第１のＦＦＴ回路３２と、入力信号
Ｓｉを大ブロック長で高速フーリエ変換する第２のＦＦ
Ｔ回路３３とを備えている。また、第２のＦＦＴ回路３
３から出力されたＦＦＴ信号のうち連続するものの利得
を比較する利得比較回路３４を備えている。この利得比
較回路３４は、内部にＦＦＴ信号を一時的に蓄積するメ
モリ３５を装備している。これらの各構成要素の動作タ
イミングは、本装置全体の動作を司る制御部４０により
制御されるようになっている。図３中の点線は制御信号
の流れを示すが、一部図示を省略してある。

【００５３】本実施例において、メモリ３１は、入力信
号Ｓｉを少なくとも２フレーム分蓄積するだけの容量を
備えたＲＡＭ（ランダム・アクセス・メモリ）である。
第１及び第２のＦＦＴ回路３２，３３は、実際には単一
のＤＳＰ（ディジタル・シグナル・プロセッサ）により
構成されていて、それぞれが時分割処理により実現され
るものである。利得比較回路３４は、第２のＦＦＴ回路
３３で算出したＦＦＴ信号から利得を算出する手段と、
当該利得のうち連続するものを比較してその差をシキイ
値判別する手段とを備えている。利得比較回路３４に内
蔵されたメモリ３５は、ＦＦＴ信号を少なくとも３フレ
ーム分蓄積するだけの容量を備えたＲＡＭである。更
に、この利得比較回路３４は、前述のシキイ値判別の結
果に基づいて、制御部４０を介し、メモリ３１及び第１
のＦＦＴ回路（小ブロック長のＦＦＴ回路）３２の動作
を駆動する機能を備えている。ＦＦＴ部３０では、これ
らの協動により、ＦＦＴ選択機能が実現される。

【００５４】そして、入力信号Ｓｉが入力されると、

【００５５】．この入力信号Ｓｉは、線形変換部５
０，メモリ３１及び第２のＦＦＴ回路３３に入力され
る。このうち、線形変換部５０に入力された入力信号Ｓ
ｉは、この線形変換部５０内部で図示しないメモリに一
時蓄積される。

【００５６】．第２のＦＦＴ回路３３は、連続する２
フレーム分の入力信号に対し大ブロック長のＦＦＴを実
行する。この間、メモリ３１は２フレーム分の入力信号
Ｓｉを蓄える。

【００５７】．利得比較回路３４は、第２のＦＦＴ回
路３３からの２フレーム分のＦＦＴ信号をメモリ３５に
蓄える。

【００５８】．利得比較回路３４は、メモリ３５に蓄
えた各ＦＦＴ信号について利得を算出し、これらの差が
所定量（シキイ値）以上である場合に、制御部４０を介
して、メモリ３１に蓄えていた入力信号Ｓｉを第１のＦ
ＦＴ回路３２に出力するよう要請する。一方、これらの
差が所定量以下である場合には、メモリ３５に蓄えた先
のフレームをブロック長設定部２０に出力し、同時にメ
モリ３１に蓄積されていた先のフレームは消去される。

【００５９】．メモリ３１が、制御部４０から信号の
出力命令を受けたときは、このメモリ３１に蓄積された
先の１フレームが第１のＦＦＴ回路３２に入力され、小
ブロック長のＦＦＴが実行される。この結果得られたＦ
ＦＴ信号は、利得比較回路３４のメモリ３５に蓄積され
る。

【００６０】．メモリ３５に大ブロック長に基づくＦ
ＦＴ信号と小ブロック長に基づくＦＦＴ信号とが蓄積さ
れた時点で、当該各ＦＦＴ信号はブロック長設定部２０
に入力される。

【００６１】．ブロック長設定部２０は、大ブロック
長に基づくＦＦＴ信号のみが入力された場合には、これ
について信号対マスク比を計算し、その後、心理聴覚エ
ントロピ評価により算出したブロック長を線形変換部５
０のＭＤＣＴ回路５２に設定する。一方、大ブロック長
に基づくＦＦＴ信号と小ブロック長に基づくＦＦＴ信号
との両方が入力された場合には、これらについて予測不
可能性の測定を行い、信号対マスク比を計算し、心理聴
覚エントロピ評価により算出したブロック長をＭＤＣＴ
回路５２に設定する。

【００６２】．線形変換部５０に入力された入力信号
Ｓｉは、ＭＤＣＴ回路５２に設定されたブロック長Ｓｂ
の下に変形離散コサイン変換を施され、その後、符号化
部８０においてビット列に形成される。

【００６３】．以下、処理対象を１フレームずつずら
して上記からの処理を繰り返す。

【００６４】このように、上記各実施例によれば、入力
信号の利得差が所定量以上変化する場合、即ち、プリエ
コー発生の恐れがある場合にのみ、小ブロック長のＦＦ
Ｔを実行するため、従来例のように、例えば、フルート
等の音色のように急激な利得の変化を伴わない信号につ
いてまで小ブロック長のＦＦＴを実行することがなく、
これにより、従来と同程度の音声解像度を保持しながら
も、音声符号化に必要な演算量を全体として低減するこ
とができ、これがため、装置の処理能力を向上すること
ができる。

【００６５】また、ブロック長設定部３では、ＦＦＴ部
２において大ブロック長のＦＦＴと小ブロック長のＦＦ
Ｔとの双方が実行された場合に限り予測不可能性の測定
を行い、前述のように大ブロック長のＦＦＴのみが実行
された場合には、予測不可能性の測定を行わないので、
これにより更に演算量を低減することができ、装置の処
理能力をより向上させることができる。

【００６６】

【発明の効果】本発明は、以上のように構成され機能す
るので、これによると、ＦＦＴ部が、入力信号の利得差
に応じてＦＦＴに用いるブロック長を選択するＦＦＴ選
択機能を備えたことから、入力信号の利得差が所定量以
上変化する場合、即ち、プリエコー発生の恐れがある場
合にのみ、小ブロック長のＦＦＴを実行するため、従来
例のように、例えば、フルート等の音色のように急激な
利得の変化を伴わない信号についてまで小ブロック長の
ＦＦＴを実行することがなく、これにより、従来と同程
度の音声解像度を保持しながらも、音声符号化に必要な
演算量を全体として低減することができ、これがため、
装置の処理能力を向上することができる、という従来に
ない優れた音声符号化装置を提供することができる。

【００６７】しかも、ブロック長設定部が、ＦＦＴ部に
おいて大ブロック長のＦＦＴと小ブロック長のＦＦＴと
の双方が実行された場合に限り予測不可能性の測定を行
い、大ブロック長のＦＦＴのみが実行された場合には、
予測不可能性の測定を行わないので、これにより更に演
算量を低減することができ、装置の処理能力をより向上
させることができる。

【００６８】請求項２記載の発明では、入力信号の線形
変換が変形離散コサイン変換回路（ＭＤＣＴ回路）によ
り実行されるので、変換対象となるサンプル数の半数に
対して量子化を行えば良く、その後の処理で扱うデータ
量を削減することができ、装置の処理能力の向上に利益
がある。また、ブロック符号化の宿命であるブロック境
界近傍での量子化雑音の不連続性を回避できるので、入
力信号に窓関数を掛けてからオーバラップさせて符号化
する手法を採用した場合でも、オーバラップによって生
ずる効率の劣化を相殺することができる。

【図面の簡単な説明】

【図１】本発明の一実施例の構成を示すブロック図であ
る。

【図２】図１に示すＦＦＴ部及びブロック長設定部の動
作を説明するためのフローチャートである。

【図３】本発明の他の実施例の構成を示すブロック図で
ある。

【図４】復号信号に生じるプリエコーを説明する線図で
あり、図４（Ａ）は原音信号、図４（Ｂ）はブロック長
２５６で符号化した場合の復号信号、図４（Ｃ）はブロ
ック長１０２４で符号化した場合の復号信号をそれぞれ
示す。

【図５】従来例の構成を示すブロック図である。

【符号の説明】

１０，３０ＦＦＴ部１２，３２第１のＦＦＴ回路（小ブロック長のＦＦＴ
回路）１３，３３第２のＦＦＴ回路（大ブロック長のＦＦＴ
回路）２０ブロック長設定部２３心理聴覚エントロピ評価回路５０線形変換部５２ＭＤＣＴ回路（変形離散コサイン変換回路）８０符号化部Ｓｉ入力信号Ｓｍ中間信号Ｓｂブロック長Ｓｏビット列（ビットストリーム）

フロントページの続き (56)参考文献特開平７−66733（ＪＰ，Ａ) Ａ．ＳＵＧＩＹＡＭＡＥＴＡＬ，”ＡＤＡＰＴＩＶＥＴＲＡＮＳＦＯＲＭＣＯＤＩＮＧＷＩＴＨＡＮＡＤＡＰＴＩＶＥＢＬＯＣＫＳＩＺＥ（ＡＴＣ−ＡＢＳ）”，ＰＲＯＣ．ＩＣＡＳＳＰ ’90（ＡＰＲ），ＰＰ．1093−1096 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/18 H03M 7/30

Claims

(57)【特許請求の範囲】

【請求項１】入力信号を所定のブロック長で線形変換
する線形変換部と、前記入力信号を大小２種の異なるブ
ロック長で高速フーリエ変換するＦＦＴ部と、このＦＦ
Ｔ部で変換生成したＦＦＴ信号に基づいて前記線形変換
部に設定すべき所定のブロック長を算出しこれを当該線
形変換部に設定するブロック長設定部と、前記線形変換
部において変換生成した中間信号を符号化してビット列
を形成出力する符号化部とを備えた音声符号化装置にお
いて、前記ＦＦＴ部が、前記入力信号のうち連続する信号の利
得差に基づいて前記高速フーリエ変換に用いるブロック
長を前記大小２種の異なるブロック長から選択するＦＦ
Ｔ選択機能を備え、前記ブロック長設定部は、前記ＦＦＴ部が１種類のブロ
ック長の下でのみ高速フーリエ変換を行う場合には当該
高速フーリエ変換により得られるＦＦＴ信号のみに基づ
いて前記線形変換部に設定すべき所定のブロック長を算
出する機能を備え、前記ＦＦＴ部は、前記入力信号に対し小ブロック長のＦ
ＦＴを実行する第１のＦＦＴ回路と、前記入力信号に対
し大ブロック長のＦＦＴを実行する第２のＦＦＴ回路
と、この第２のＦＦＴ回路が出力するＦＦＴ信号から利
得を算出する利得演算回路と、この利得演算回路が出力
する利得に基づいて前記第１のＦＦＴ回路に選択的に前
記入力信号を出力するＦＦＴ選択手段とを備え、前記利得演算回路は、１フレームごとに前記第２のＦＦ
Ｔ回路の出力から音声利得を演算し、その演算結果を前
記ＦＴＴ選択手段に送り込む機能を備え、前記ＦＦＴ選択手段は、前記利得演算回路から供給され
る前フレームの音声利得の大きさに応じて前記第１又は
第２のＦＦＴ回路に対し、双方において前記入力信号の
ＦＦＴを実行するか、或いは前記第２のＦＦＴ回路のみ
においてＦＦＴを実行するかを選択し、前記入力信号の
出力先を切り換える機能を備えている、ことを特徴とす
る音声符号化装置。
【請求項２】前記線形変換部は、前記入力信号を線形
変換する変形離散コサイン変換回路を備えていることを
特徴とする請求項１記載の音声符号化装置。
【請求項３】前記ブロック長設定部は、心理聴覚エン
トロピ評価に基づいて前記線形変換部に設定するブロッ
ク長を算出する機能を備えていることを特徴とする請求
項１又は２記載の音声符号化装置。