JP2776277B2 - 音声符号化装置 - Google Patents

音声符号化装置

Info

Publication number
JP2776277B2
JP2776277B2 JP6304941A JP30494194A JP2776277B2 JP 2776277 B2 JP2776277 B2 JP 2776277B2 JP 6304941 A JP6304941 A JP 6304941A JP 30494194 A JP30494194 A JP 30494194A JP 2776277 B2 JP2776277 B2 JP 2776277B2
Authority
JP
Japan
Prior art keywords
fft
circuit
block length
signal
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6304941A
Other languages
English (en)
Other versions
JPH08160998A (ja
Inventor
聡 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP6304941A priority Critical patent/JP2776277B2/ja
Priority to EP95119147A priority patent/EP0716409B1/en
Priority to DE69527257T priority patent/DE69527257T2/de
Priority to US08/569,737 priority patent/US5799270A/en
Publication of JPH08160998A publication Critical patent/JPH08160998A/ja
Application granted granted Critical
Publication of JP2776277B2 publication Critical patent/JP2776277B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声符号化装置に係
り、特に、レイヤIII標準化アルゴリズムに準拠する音
声符号化装置に関する。
【0002】
【従来の技術】アナログ音声信号を原音に忠実に伝送或
いは蓄積するための符号化技術は、CCITT(国際電
信電話協議委員会)等により標準化が促進されている。
その有力なアルゴリズムであるサブバンド符号化方式や
適応変換符号化方式は、音声信号帯域を遥かに上回る帯
域内に遍在する信号エネルギを利用して、符号化効率を
向上せしめる点において共通する。一方、サブバンド符
号化方式では、入力信号を複数の周波数帯域に分割し、
各サブバンドの信号エネルギに応じたビット割当を行う
のに対し、適応変換符号化方式では、入力信号に線形変
換を施して電力集中性を高めた状態で量子化を行う点で
相違する。この線形変換には、フーリエ変換又はコサイ
ン変換を用いるのが一般的である。
【0003】これらの適応変換符号化方式やサブバンド
符号化方式では、いわゆる心理聴覚特性を利用して、さ
らに総合符号化品質の改善を図ることが可能である。こ
の心理聴覚特性を利用する方法とは、人間が知覚し易い
周波数帯域での信号の劣化を最小限に抑えるように、あ
る種の重み付け(心理聴覚重み付け)を施して量子化す
るものである。この心理聴覚重み付けとは、絶対可聴し
きい値(ここで、しきい値は音圧を扱うものである)お
よびマスキング効果との関係で決まる相対可聴しきい値
から補正可聴しきい値を逐次求めるものである。そし
て、この結果に基づいてビット割当が行われる。
【0004】以下、この従来例を更に詳述すると、人間
は、絶対可聴しきい値を越える音圧しか知覚することが
できず、また、大きな音圧を有する周波数成分(マス
カ)の近傍に位置する小さな音圧の周波数成分もマスク
の影響(マスキング効果)で知覚できない。このマスキ
ング効果は、特性上、マスカの左右で非対称的であり、
マスカの低域側よりも高域側で広範囲にマスクされる。
このため、補正可聴しきい値を越える周波数成分につい
て、その音圧と補正可聴しきい値との差に相当するビッ
トを割り当てることにより、効率的な符号化が達成され
る。
【0005】適応変換符号化方式では、複数サンプルを
ブロック化した線形変換が行われる。通常は、大きなブ
ロック長を用いて線形変換を行った方が高解像度を得る
ことができ、符号化品質は向上する。しかし、音声信号
の振幅が急激に立ち上がる部分に対し大きなブロック長
で線形変換を施すと、当該音声信号の復号時にプリエコ
ーと呼ばれる先行雑音が発生することが明かとなってい
る。この原因は、単一ブロック内における信号振幅が急
激に変化する部分で雑音が発生するからであり、単一ブ
ロック内に均一に分布する量子化歪が信号振幅の小さな
部分で知覚されてしまうことに起因する。
【0006】ここで、プリエコーは時間領域のマスキン
グと密接な関係があることが知られている。図4に線形
変換に用いるブロック長の違いによるプリエコーの生じ
具合を示す。この図4において、測定に用いた音源には
ドラムスを用い、図4(A)がその原波形を示す。この
原波形をブロック長N=256とN=1024とで線形
変換した後に復号して得た復号信号が図4(B),図4
(C)である。両図において、信号振幅が急激に増大す
る部分(アタック部)に先行して雑音が発生しているの
がわかる。この雑音がいわゆるプリエコーであり、N=
1024の場合に比べN=256の場合の方がプリエコ
ーが短いことから、小ブロック長による線形変換がプリ
エコーの抑制に有効であることは明かである。
【0007】しかし、前述のように小ブロック長を適用
する場合には解像度の劣化や符号化効率の低下といった
不都合を伴うのも事実である。また、実際に量子化を行
った信号には、1ブロックにつき1セットの補償情報が
必要であるため、用いるブロック長が大きいほど補償情
報の数を省くことができ効率がよい。従って、こうした
プリエコーに起因した相容れない要求に応えるために
は、必要に応じてブロック長を切り換えて処理すること
が望ましい。この要求を実現するものとして適応ブロッ
ク長符号変換方式が一般に用いられている。
【0008】この適応ブロック長符号変換の標準化アル
ゴリズムは、適応されるビットレイヤや要求される符号
化品質に応じて、或いはシステムの複雑さ等に応じて3
階層(レイヤ)構造が採られている。このうちレイヤII
Iでは、レイヤI,IIに比べ符号化品質の向上が図られて
いる。このレイヤIIIでは、入力信号の各サブバンド信
号を変形離散コサイン変換(MDCT)により周波数領
域に変換する際に適応ブロック長を用いてプリエコーを
抑制するようにしている。
【0009】変形離散コサイン変換方式では、ブロック
境界近傍で量子化雑音の不連続性がブロック歪として知
覚されないよう、隣接ブロック間で50%のオーバラッ
プをかけ、窓関数によるフィルタ操作を行う。また、続
いて演算する離散コサイン変換の時間項にオフセットを
導入することにより、得られた変換係数が対称になるよ
うに配慮している。これがため、符号化する必要のある
変換係数がオーバラップされたブロック長2Nの半分と
なり、50%オーバラップによって生ずる効率劣化を相
殺することができる。
【0010】この変形離散コサイン符号化方式に導入さ
れる適応ブロック長の基本概念は、心理聴覚モデルに基
づくものである。この概念を利用した従来の音声符号化
装置を図5に示す。
【0011】この図5に示す音声符号化装置は、入力信
号Siを所定のブロック長で線形変換する線形変換部5
0と、入力信号Siを2種類の異なるブロック長で高速
フーリエ変換するFFT部60と、このFFT部60で
変換生成したFFT信号に基づいて線形変換部50に設
定すべき所定のブロック長Sbを算出しこれを当該線形
変換部50に設定するブロック長設定部70と、線形変
換回路50において変換生成した中間信号Smを符号化
してビット列Soを形成出力する符号化部80とを備え
ている。これら各部の動作タイミングは、図示しない制
御部により逐次制御されるようになっている。
【0012】線形変換部50は、入力信号Siを複数の
周波数帯域(サブバンド)に分割するフィルタバンク回
路51と、このフィルタバンク回路51の出力信号に対
しブロック長Sbに基づいて変形離散コサイン変換を行
うMDCT回路52と、このMDCT回路52の出力信
号から折り返し歪を削減して中間信号Smを出力するバ
タフライ回路53とを備えている。
【0013】FFT部60は、入力信号Siを小ブロッ
クで高速フーリエ変換してFFT信号Sfを出力する第
1のFFT回路61と、同じく入力信号Siを大ブロッ
クで高速フーリエ変換してFFT信号を出力する第2の
FFT回路62とを備えている。この第1及び第2のF
FT回路61,62の動作は、前述の制御部により時分
割的に逐次制御されるようになっている。
【0014】ブロック長設定部70は、FFT信号から
予測不可能性を測定する予測不可能性測定回路71と、
この予測不可能性測定回路71の出力信号から信号対マ
スク比を算出する信号対マスク比計算回路72と、この
信号対マスク比計算回路72の出力信号に基づいてMD
CT回路52にブロック長Sbを設定する心理聴覚エン
トロピ評価回路73とを備えている。
【0015】符号化部80は、中間信号Smを非線形量
子化する非線形変換回路81と、この非線形変換回路8
1からの出力信号を符号化するハフマン符号化回路82
と、このハフマン符号化回路82で符号化した信号とサ
イド情報符号化回路86からのサイド情報とに基づいて
ビット列Soを形成し出力するするビット列形成回路8
3とを備えている。ビット列形成回路83はCRCチェ
ック機能を備えている。ここで、符号85はスケールフ
ァクタ計算回路を示し、符号84はバッファ制御回路を
示す。
【0016】そして、装置に入力された音声信号(入力
信号)Siは、フィルタバンク回路51で複数の周波数
帯域(サブバンド)に分割されMDCT回路52に送り
込まれると共に、FFT部60に入力され、ブロック長
の異なる第1及び第2のFFT回路61,62において
高速フーリエ変換される。その後、ブロック長設定部7
0が一組のFFT信号に基づいて心理聴覚エントロピ評
価を下し、MDCT回路52にブロック長Sbを設定す
る。
【0017】これを更に詳述すると、前述したブロック
長設定部70の予測不可能性測定回路71は、各FFT
信号(FFTスペクトル線)について、現在値と過去2
ブロック分のデータによる予測値とを比較し、振幅と位
相の差異から予測不可能性を測定する。ここでは、現在
値と予測値のユークリッド距離を規格化したものをカオ
ス指数と呼び、このカオス指数の0.5から0.05
を、0から1の純音指数に写像する。周波数領域での振
幅は、1/3臨界帯域のエネルギ表現に変換された後、
内耳の広がり関数との間で畳み込み演算される。この畳
み込み演算により得られたスペクトルと純音指数を用
い、ちょうどマスクされる雑音レベルが計算される。
【0018】信号対マスク比計算回路72は、サブバン
ドnにおける信号対マスク比SMRsb(n)を、 SMRsb(n)=Lsb(n)−LTmin(n) ・・・・(1) として計算する。ここで、Lsb(n)はサブバンドn
における音圧を表し、LTmin(n)は、サブバンド
nにおける最小マスキングレベルを表す。
【0019】プリエコーが発生するアタック近傍では時
間領域信号の急変に伴って高域成分が増加すると共にパ
ワー集中度が減少し、必要なビット数が多くなる。心理
聴覚エントロピ評価回路73は、この現象を捕らえて、
心理聴覚エントロピが予め定められたしきい値を越えた
ときに音声信号のアタック部であると判定し、MDCT
回路52に「小」ブロック長Sbを設定する。一方、し
きい値以下のときは「大」ブロック長Sbを設定し、高
符号化品質と高解像度が得られるようにする。
【0020】このMDCT回路52において、小ブロッ
ク処理を行う場合は、フィルタバンク回路51の出力信
号を1グラニュルについて6周波数サンプル×3小ブロ
ックの18サンプルとして取扱う。そして、最初の6サ
ンプルと前グラニュルの最後の6サンプルとを組み合わ
せた12サンプルを1ブロックとして変形離散コサイン
変換を行う。これにより得られる出力は、変形離散コサ
イン変換の係数対称性から、半分の6サンプルであり、
小ブロック全体としては6×3=18周波数サンプルで
ある。一方、大ブロック処理を行う場合は、フィルタバ
ンク回路51の出力信号を1グラニュルについて18サ
ンプルとし、これを前グラニュルと組み合わせた36サ
ンプルを1ブロックとして変形離散コサイン変換を行
う。この場合も、変形離散コサイン変換の係数対称性か
ら、独立な出力は半分の18周波数サンプルとなる。
【0021】そして、MDCT回路52において変形離
散コサイン変換された音声信号は、バタフライ回路53
に入力される。バタフライ回路53は、隣接するオーバ
ラップ多層フィルタバンク出力の32帯域に対し、帯域
境界に近いサンプルから8サンプルを入力としてバタフ
ライ演算を行い、周波数領域で折り返し歪を除去する。
ここで、フィルタバンク回路51,MDCT回路52及
びバタフライ回路53は、フィルタバンクと直交変換を
組み合わせた写像を行うため、周波数分解能はレイヤ
I,IIの18倍に高められている。
【0022】前述した線形変換部50から出力された中
間信号Smは、符号化部80に入力される。この符号化
部80では、非心理聴覚モデルに基づくビット割当に従
って非線形量子化が行われ、時間領域でフレーム境界を
越えたビット配分が行われる。こうして量子化された信
号は、ハフマン符号化回路82において符号化されフレ
ームに組み込まれ、サイド情報符号化回路86から供給
されるサイド情報とともにビット列(ビットストリー
ム)形成される。形成されたビット列は、CRCチェッ
クを受けた後、伝送路に送り出すか又は蓄積媒体に蓄積
される。ここに、レイヤIIIのビットストリーム構成
は、1フレームが1152サンプルからなり、各フレー
ムは576サンプルのグラニュルに2分割されている。
【0023】
【発明が解決しようとする課題】しかしながら、上記従
来例にあっては、FFT部及びブロック長設定部におけ
る演算量が多く、音声信号の入力からビットストリーム
の出力までに時間がかかり、装置全体としての処理能力
が低いという不都合があった。
【0024】この点において、処理能力の向上を図る一
手段が特開平4−302540号公報に公表されてい
る。これは、ブロック長とフローティング係数の決定を
同じ指標に基づいて行うことにより処理能力の向上を試
みたものである。しかしながら、かかる引例にあって
は、ブロック長を切り換える場合に、大ブロックとこの
大ブロックの1/2の一対の小ブロックについて当該小
ブロック内の各最大絶対値どうしを比較し、この結果に
より大小のブロックを選択するため、大ブロックを分割
した複数の小ブロックについて個々に最大絶対値を演算
し比較する必要があり、これがため、分割ブロック数が
増加するほど演算負担が増大するという不都合があっ
た。
【0025】
【発明の目的】本発明は、かかる従来例の有する不都合
を改善し、特に、処理能力の安定した向上を図った音声
符号化装置を提供することを、その目的とする。
【0026】
【課題を解決するための手段】発明者は、FFT部とブ
ロック長設定部の現実の信号処理を分析した結果、小ブ
ロック長のFFT回路の処理結果が心理聴覚エントロピ
評価に活かされるのはドラムスやカスタネットなどの極
く限られた音源が発する音に対してだけであり、小ブロ
ック長のFFT回路におけるFFTの実行は多くの場合
無駄になっているという事実を見いだした。本発明はこ
の点に鑑み成されたもので、以下のように構成される。
【0027】請求項1記載の発明では、入力信号を所定
のブロック長で線形変換する線形変換部と、当該入力信
号を大小2種の異なるブロック長で高速フーリエ変換す
るFFT部とを備えている。また、このFFT部で変換
生成したFFT信号に基づいて線形変換部に設定すべき
所定のブロック長を算出しこれを当該線形変換部に設定
するブロック長設定部と、線形変換部において変換生成
した中間信号を符号化してビット列を形成出力する符号
化部とを備えている。このうち、FFT部が、入力信号
のうち連続する信号の利得差に基づいて高速フーリエ変
換に用いるブロック長を大小2種の異なるブロック長か
ら選択するFFT選択機能を備え、前記ブロック長設定
部は、前記FFT部が1種類のブロック長の下でのみ高
速フーリエ変換を行う場合には当該高速フーリエ変換に
より得られるFFT信号のみに基づいて前記線形変換部
に設定すべき所定のブロック長を算出する機能を備え、
前記FFT部は、前記入力信号に対し小ブロック長のF
FTを実行する第1のFFT回路と、前記入力信号に対
し大ブロック長のFFTを実行する第2のFFT回路
と、この第2のFFT回路が出力するFFT信号から利
得を算出する利得演算回路と、この利得演算回路が出力
する利得に基づいて前記第1のFFT回路に選択的に前
記入力信号を出力するFFT選択手段とを備え、前記利
得演算回路は、1フレームごとに前記第2のFFT回路
の出力から音声利得を演算し、その演算結果を前記FT
T選択手段に送り込む機能を備え、前記FFT選択手段
は、前記利得演算回路から供給される前フレームの音声
利得の大きさに応じて前記第1又は第2のFFT回路に
対し、双方において前記入力信号のFFTを実行する
か、或いは前記第2のFFT回路のみにおいてFFTを
実行するかを選択し、前記入力信号の出力先を切り換え
る機能を備えた、という構成を採っている。
【0028】
【0029】請求項記載の発明では、線形変換部は、
入力信号を線形変換する変形離散コサイン変換回路を備
えている、という構成を採っている。
【0030】請求項記載の発明では、ブロック長設定
部は、心理聴覚エントロピ評価に基づいて線形変換部に
設定するブロック長を算出する機能を備えている、とい
う構成を採っている。これにより、前述した目的を達成
しようとするものである。
【0031】ここで、「心理聴覚エントロピ評価」と
は、心理聴覚エントロピが予め設定されたシキイ値を越
えた場合は、サンプル数の少ない小ブロックに対して線
形変換を施すよう決定を下し、心理聴覚エントロピが予
め定められたシキイ値以下である場合は、サンプル数の
多い大ブロックに対して線形変換を施すよう決定を下す
ことを内容とする評価をいう。
【0032】
【作用】請求項1記載の発明では、入力信号のうち連続
する信号(フレーム)の利得差が所定量以上である場合
には、FFT部におけるFFT選択機能により、同一の
信号対象に対して大ブロック長でのFFT(高速フーリ
エ変換)と小ブロック長でのFFTとの双方を実行す
る。一方、入力信号のうち連続する信号の利得差が所定
量以下である場合には、FFT部におけるFFT選択機
能により、大ブロック長でのFFTのみを実行する。
【0033】請求項2記載の発明では、FFT部におい
て大ブロック長でのFFTのみが実行された場合、ブロ
ック長設定部は、当該FFT信号について予測不可能性
の測定を行うことなく信号対マスク比を計算し、この結
果に基づいて線形変換部に所定のブロック長を設定す
る。
【0034】請求項3記載の発明では、線形変換部にお
いて入力信号の線形変換が変形離散コサイン変換により
行われる。
【0035】請求項4記載の発明では、線形変換部に設
定されるべき所定のブロック長が心理聴覚エントロピ評
価に基づいて算出される。
【0036】
【実施例】以下、本発明の一実施例を図1乃至図2に基
づいて説明する。
【0037】図1に示す音声符号化装置は、入力信号S
iを所定のブロック長で線形変換する線形変換部50
と、当該入力信号Siを大小2種の異なるブロック長で
高速フーリエ変換するFFT部10とを備え、このFF
T部10で変換生成したFFT信号に基づいて線形変換
部50に設定すべき所定のブロック長Sbを算出しこれ
を当該線形変換部50に設定するブロック長設定部20
と、線形変換部50において変換生成した中間信号Sb
を符号化してビット列を形成出力する符号化部80とを
備えている。このうち、FFT部10が、入力信号Si
のうち連続する信号の利得差に基づいて高速フーリエ変
換(FFT)に用いるブロック長を大小2種の異なるブ
ロック長から選択するFFT選択機能を備えている。入
力信号Siは、予め直線量子化された音声信号である。
【0038】ここで、線形変換部50と符号化部80の
構成については、図5に示した従来例と同一であること
から、同一符号を付して重複説明を省略する。
【0039】FFT部10は、入力信号Siに対し小ブ
ロック長のFFTを実行する第1のFFT回路12と、
入力信号Siに対し大ブロック長のFFTを実行する第
2のFFT回路13とを備えている。更に、第2のFF
T回路13が出力するFFT信号から利得を算出する利
得演算回路14と、この利得演算回路14が出力する利
得に基づいて第1のFFT回路12に選択的に入力信号
Siを出力するFFT選択手段11とを備えている。
【0040】利得演算回路14は、1フレームごとに第
2のFFT回路13の出力から音声利得を演算し、その
演算結果をFTT選択手段11に送り込む機能を備えて
いる。
【0041】FFT選択手段11は、利得演算回路14
から供給される前フレームの音声利得の大きさに応じて
第1又は第2のFFT回路12,13に対し、双方にお
いて入力信号SiのFFTを実行するか、或いは第2の
FFT回路13のみにおいてFFTを実行するかを選択
し、入力信号Siの出力先を切り換える機能を備えてい
る。
【0042】ブロック長設定部20は、各FFT回路1
2,13の出力に対し予測不可能性の計算を施す予測不
可能性計算回路21と、この予測不可能性計算回路21
の出力から信号対マスク比を算出する信号対マスク比計
算回路22と、この信号対マスク比計算回路22の出力
を心理聴覚エントロピ評価に付し、この結果に基づいて
MDCT回路52に所定のブロック長を設定する心理聴
覚エントロピ評価回路23とを備えている。
【0043】FFT選択手段11における選択処理はプ
リエコー排除が目的であり、前フレームの音声利得に基
づいてプリエコーがマスク可能であるか否かを予測し、
マスク不可能であると予測される場合には、第1及び第
2のFFT回路12,13の双方でFFTを実行する。
一方、プリエコーがマスク可能であると予測できる場合
は、第2のFFT回路13のみに入力信号Siを出力
し、第1のFFT回路12には入力信号Siの出力を行
わない。以下、当該処理を含む装置の動作を図2に基づ
いて詳説する。
【0044】.FFT選択手段11は、利得演算回路
14が供給する前フレームの音声利得をシキイ値判別
し、この結果から入力信号Siの出力先を第1及び第2
のFFT12,13とするか、第2のFFT回路13の
みとするかを選択する(ステップS101,S10
2)。即ち、本段階において、復号信号に生じるプリエ
コーのマスクが可能か否かが予測の下に決定される。
【0045】.FFT選択手段11は、で選択した
FFT回路に入力信号Siを出力する。そして、この入
力信号Siを受けたFFT回路はFFTを実行しFFT
信号を出力する(ステップS103,S104,S11
1)。ここで、各FFT処理は、DSPの制御により時
分割的に実行される。
【0046】.利得演算回路14は、第2のFFT回
路13より出力されたFFT信号から音声利得を算出
し、その結果をFFT選択手段11に通知する(ステッ
プS105,S112)。
【0047】.予測不可能性計算回路21は、第1及
び第2のFFT回路12,13の双方でFFTが実行さ
れた場合には、各FFT信号について予測不可能性の測
定(計算)を実行し、第1又は第2のFFT回路12,
13のどちらのFFT信号について後に信号対マスク比
を計算するかを決定する。即ち、本段階において、入力
信号Siが急激に変化する信号か否かが判断される(ス
テップS107)。一方、第2のFFT回路13でのみ
FFTが実行された場合には、予測不可能性の計算は実
行せず、第2のFFT回路13から出力されたFFT信
号を直接信号対マスク比計算回路22に入力する(ステ
ップS113)。
【0048】.信号対マスク比計算回路22は、の
予測不可能性の計算結果に基づいて特定されたFFT信
号に対し信号対マスク比の計算を実行する(ステップS
108,S109)。
【0049】.心理聴覚エントロピ評価回路23は、
信号対マスク比計算回路22の出力に対し心理聴覚エン
トロピ評価を行い、この結果に基づいてMDCT回路5
2に所定のブロック長Sbを設定する(ステップS11
0)。
【0050】入力信号SiはMDCT回路52に設定さ
れたブロック長で変形離散コサイン変換された後、符号
化部80に入力されビット列に形成され出力される。
【0051】次に、本発明の他の実施例を図3に基づい
て説明する。この図3において、前述の実施例の構成と
異なるのはFFT部30の構成であって、その他の構成
は前述の実施例と同一となっている。そこで、同一部分
に付いては同一符号を付して重複説明を省略すると共
に、以下にFFT部30の構成を説明する。
【0052】FFT部30は、入力信号Siを一時的に
蓄えるメモリ31と、入力信号Siを小ブロック長で高
速フーリエ変換する第1のFFT回路32と、入力信号
Siを大ブロック長で高速フーリエ変換する第2のFF
T回路33とを備えている。また、第2のFFT回路3
3から出力されたFFT信号のうち連続するものの利得
を比較する利得比較回路34を備えている。この利得比
較回路34は、内部にFFT信号を一時的に蓄積するメ
モリ35を装備している。これらの各構成要素の動作タ
イミングは、本装置全体の動作を司る制御部40により
制御されるようになっている。図3中の点線は制御信号
の流れを示すが、一部図示を省略してある。
【0053】本実施例において、メモリ31は、入力信
号Siを少なくとも2フレーム分蓄積するだけの容量を
備えたRAM(ランダム・アクセス・メモリ)である。
第1及び第2のFFT回路32,33は、実際には単一
のDSP(ディジタル・シグナル・プロセッサ)により
構成されていて、それぞれが時分割処理により実現され
るものである。利得比較回路34は、第2のFFT回路
33で算出したFFT信号から利得を算出する手段と、
当該利得のうち連続するものを比較してその差をシキイ
値判別する手段とを備えている。利得比較回路34に内
蔵されたメモリ35は、FFT信号を少なくとも3フレ
ーム分蓄積するだけの容量を備えたRAMである。更
に、この利得比較回路34は、前述のシキイ値判別の結
果に基づいて、制御部40を介し、メモリ31及び第1
のFFT回路(小ブロック長のFFT回路)32の動作
を駆動する機能を備えている。FFT部30では、これ
らの協動により、FFT選択機能が実現される。
【0054】そして、入力信号Siが入力されると、
【0055】.この入力信号Siは、線形変換部5
0,メモリ31及び第2のFFT回路33に入力され
る。このうち、線形変換部50に入力された入力信号S
iは、この線形変換部50内部で図示しないメモリに一
時蓄積される。
【0056】.第2のFFT回路33は、連続する2
フレーム分の入力信号に対し大ブロック長のFFTを実
行する。この間、メモリ31は2フレーム分の入力信号
Siを蓄える。
【0057】.利得比較回路34は、第2のFFT回
路33からの2フレーム分のFFT信号をメモリ35に
蓄える。
【0058】.利得比較回路34は、メモリ35に蓄
えた各FFT信号について利得を算出し、これらの差が
所定量(シキイ値)以上である場合に、制御部40を介
して、メモリ31に蓄えていた入力信号Siを第1のF
FT回路32に出力するよう要請する。一方、これらの
差が所定量以下である場合には、メモリ35に蓄えた先
のフレームをブロック長設定部20に出力し、同時にメ
モリ31に蓄積されていた先のフレームは消去される。
【0059】.メモリ31が、制御部40から信号の
出力命令を受けたときは、このメモリ31に蓄積された
先の1フレームが第1のFFT回路32に入力され、小
ブロック長のFFTが実行される。この結果得られたF
FT信号は、利得比較回路34のメモリ35に蓄積され
る。
【0060】.メモリ35に大ブロック長に基づくF
FT信号と小ブロック長に基づくFFT信号とが蓄積さ
れた時点で、当該各FFT信号はブロック長設定部20
に入力される。
【0061】.ブロック長設定部20は、大ブロック
長に基づくFFT信号のみが入力された場合には、これ
について信号対マスク比を計算し、その後、心理聴覚エ
ントロピ評価により算出したブロック長を線形変換部5
0のMDCT回路52に設定する。一方、大ブロック長
に基づくFFT信号と小ブロック長に基づくFFT信号
との両方が入力された場合には、これらについて予測不
可能性の測定を行い、信号対マスク比を計算し、心理聴
覚エントロピ評価により算出したブロック長をMDCT
回路52に設定する。
【0062】.線形変換部50に入力された入力信号
Siは、MDCT回路52に設定されたブロック長Sb
の下に変形離散コサイン変換を施され、その後、符号化
部80においてビット列に形成される。
【0063】.以下、処理対象を1フレームずつずら
して上記からの処理を繰り返す。
【0064】このように、上記各実施例によれば、入力
信号の利得差が所定量以上変化する場合、即ち、プリエ
コー発生の恐れがある場合にのみ、小ブロック長のFF
Tを実行するため、従来例のように、例えば、フルート
等の音色のように急激な利得の変化を伴わない信号につ
いてまで小ブロック長のFFTを実行することがなく、
これにより、従来と同程度の音声解像度を保持しながら
も、音声符号化に必要な演算量を全体として低減するこ
とができ、これがため、装置の処理能力を向上すること
ができる。
【0065】また、ブロック長設定部3では、FFT部
2において大ブロック長のFFTと小ブロック長のFF
Tとの双方が実行された場合に限り予測不可能性の測定
を行い、前述のように大ブロック長のFFTのみが実行
された場合には、予測不可能性の測定を行わないので、
これにより更に演算量を低減することができ、装置の処
理能力をより向上させることができる。
【0066】
【発明の効果】本発明は、以上のように構成され機能す
るので、これによると、FFT部が、入力信号の利得差
に応じてFFTに用いるブロック長を選択するFFT選
択機能を備えたことから、入力信号の利得差が所定量以
上変化する場合、即ち、プリエコー発生の恐れがある場
合にのみ、小ブロック長のFFTを実行するため、従来
例のように、例えば、フルート等の音色のように急激な
利得の変化を伴わない信号についてまで小ブロック長の
FFTを実行することがなく、これにより、従来と同程
度の音声解像度を保持しながらも、音声符号化に必要な
演算量を全体として低減することができ、これがため、
装置の処理能力を向上することができる、という従来に
ない優れた音声符号化装置を提供することができる。
【0067】しかも、ブロック長設定部が、FFT部に
おいて大ブロック長のFFTと小ブロック長のFFTと
の双方が実行された場合に限り予測不可能性の測定を行
い、大ブロック長のFFTのみが実行された場合には、
予測不可能性の測定を行わないので、これにより更に演
算量を低減することができ、装置の処理能力をより向上
させることができる。
【0068】請求項記載の発明では、入力信号の線形
変換が変形離散コサイン変換回路(MDCT回路)によ
り実行されるので、変換対象となるサンプル数の半数に
対して量子化を行えば良く、その後の処理で扱うデータ
量を削減することができ、装置の処理能力の向上に利益
がある。また、ブロック符号化の宿命であるブロック境
界近傍での量子化雑音の不連続性を回避できるので、入
力信号に窓関数を掛けてからオーバラップさせて符号化
する手法を採用した場合でも、オーバラップによって生
ずる効率の劣化を相殺することができる。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】図1に示すFFT部及びブロック長設定部の動
作を説明するためのフローチャートである。
【図3】本発明の他の実施例の構成を示すブロック図で
ある。
【図4】復号信号に生じるプリエコーを説明する線図で
あり、図4(A)は原音信号、図4(B)はブロック長
256で符号化した場合の復号信号、図4(C)はブロ
ック長1024で符号化した場合の復号信号をそれぞれ
示す。
【図5】従来例の構成を示すブロック図である。
【符号の説明】
10,30 FFT部 12,32 第1のFFT回路(小ブロック長のFFT
回路) 13,33 第2のFFT回路(大ブロック長のFFT
回路) 20 ブロック長設定部 23 心理聴覚エントロピ評価回路 50 線形変換部 52 MDCT回路(変形離散コサイン変換回路) 80 符号化部 Si 入力信号 Sm 中間信号 Sb ブロック長 So ビット列(ビットストリーム)
フロントページの続き (56)参考文献 特開 平7−66733(JP,A) A.SUGIYAMA ET A L,”ADAPTIVE TRANSF ORM CODING WITH AN ADAPTIVE BLOCK SI ZE (ATC−ABS)”,PRO C.ICASSP ’90(APR),P P.1093−1096 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/18 H03M 7/30

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力信号を所定のブロック長で線形変換
    する線形変換部と、前記入力信号を大小2種の異なるブ
    ロック長で高速フーリエ変換するFFT部と、このFF
    T部で変換生成したFFT信号に基づいて前記線形変換
    部に設定すべき所定のブロック長を算出しこれを当該線
    形変換部に設定するブロック長設定部と、前記線形変換
    部において変換生成した中間信号を符号化してビット列
    を形成出力する符号化部とを備えた音声符号化装置にお
    いて、 前記FFT部が、前記入力信号のうち連続する信号の利
    得差に基づいて前記高速フーリエ変換に用いるブロック
    長を前記大小2種の異なるブロック長から選択するFF
    T選択機能を備え 前記ブロック長設定部は、前記FFT部が1種類のブロ
    ック長の下でのみ高速フーリエ変換を行う場合には当該
    高速フーリエ変換により得られるFFT信号のみに基づ
    いて前記線形変換部に設定すべき所定のブロック長を算
    出する機能を備え前記FFT部は、前記入力信号に対し小ブロック長のF
    FTを実行する第1のFFT回路と、前記入力信号に対
    し大ブロック長のFFTを実行する第2のFFT回路
    と、この第2のFFT回路が出力するFFT信号から利
    得を算出する利得演算回路と、この利得演算回路が出力
    する利得に基づいて前記第1のFFT回路に選択的に前
    記入力信号を出力するFFT選択手段とを備え、 前記利得演算回路は、1フレームごとに前記第2のFF
    T回路の出力から音声利得を演算し、その演算結果を前
    記FTT選択手段に送り込む機能を備え、 前記FFT選択手段は、前記利得演算回路から供給され
    る前フレームの音声利得の大きさに応じて前記第1又は
    第2のFFT回路に対し、双方において前記入力信号の
    FFTを実行するか、或いは前記第2のFFT回路のみ
    においてFFTを実行するかを選択し、前記入力信号の
    出力先を切り換える機能を備えている、 ことを特徴とす
    る音声符号化装置。
  2. 【請求項2】 前記線形変換部は、前記入力信号を線形
    変換する変形離散コサイン変換回路を備えていることを
    特徴とする請求項1記載の音声符号化装置。
  3. 【請求項3】 前記ブロック長設定部は、心理聴覚エン
    トロピ評価に基づいて前記線形変換部に設定するブロッ
    ク長を算出する機能を備えていることを特徴とする請求
    項1又は2記載の音声符号化装置。
JP6304941A 1994-12-08 1994-12-08 音声符号化装置 Expired - Fee Related JP2776277B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP6304941A JP2776277B2 (ja) 1994-12-08 1994-12-08 音声符号化装置
EP95119147A EP0716409B1 (en) 1994-12-08 1995-12-05 Speech coding system
DE69527257T DE69527257T2 (de) 1994-12-08 1995-12-05 System zur Sprachkodierung
US08/569,737 US5799270A (en) 1994-12-08 1995-12-08 Speech coding system which uses MPEG/audio layer III encoding algorithm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6304941A JP2776277B2 (ja) 1994-12-08 1994-12-08 音声符号化装置

Publications (2)

Publication Number Publication Date
JPH08160998A JPH08160998A (ja) 1996-06-21
JP2776277B2 true JP2776277B2 (ja) 1998-07-16

Family

ID=17939166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6304941A Expired - Fee Related JP2776277B2 (ja) 1994-12-08 1994-12-08 音声符号化装置

Country Status (4)

Country Link
US (1) US5799270A (ja)
EP (1) EP0716409B1 (ja)
JP (1) JP2776277B2 (ja)
DE (1) DE69527257T2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325860A (ja) * 1996-06-04 1997-12-16 Alps Electric Co Ltd 座標入力装置
US8306811B2 (en) * 1996-08-30 2012-11-06 Digimarc Corporation Embedding data in audio and detecting embedded data in audio
US6128593A (en) * 1998-08-04 2000-10-03 Sony Corporation System and method for implementing a refined psycho-acoustic modeler
JP3813025B2 (ja) * 1998-10-29 2006-08-23 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6266643B1 (en) 1999-03-03 2001-07-24 Kenneth Canfield Speeding up audio without changing pitch by comparing dominant frequencies
US6965859B2 (en) * 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
CN101355829B (zh) * 2007-07-25 2013-08-21 鹏智科技(深圳)有限公司 减小噪音影响的发声设备测试装置及测试方法
US10841030B2 (en) * 2018-07-30 2020-11-17 Avago Technologies International Sales Pte. Limited Leg combining by FFT selection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2844695B2 (ja) * 1989-07-19 1999-01-06 ソニー株式会社 信号符号化装置
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
JP3033156B2 (ja) * 1990-08-24 2000-04-17 ソニー株式会社 ディジタル信号符号化装置
EP0506394A2 (en) * 1991-03-29 1992-09-30 Sony Corporation Coding apparatus for digital signals
JP3134337B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル信号符号化方法
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
JP3186292B2 (ja) * 1993-02-02 2001-07-11 ソニー株式会社 高能率符号化方法及び装置
JP3173218B2 (ja) * 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
US5581654A (en) * 1993-05-25 1996-12-03 Sony Corporation Method and apparatus for information encoding and decoding
EP0657874B1 (en) * 1993-12-10 2001-03-14 Nec Corporation Voice coder and a method for searching codebooks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A.SUGIYAMA ET AL,"ADAPTIVE TRANSFORM CODING WITH AN ADAPTIVE BLOCK SIZE (ATC−ABS)",PROC.ICASSP ’90(APR),PP.1093−1096

Also Published As

Publication number Publication date
DE69527257T2 (de) 2003-03-13
JPH08160998A (ja) 1996-06-21
US5799270A (en) 1998-08-25
DE69527257D1 (de) 2002-08-08
EP0716409A2 (en) 1996-06-12
EP0716409A3 (en) 1998-01-07
EP0716409B1 (en) 2002-07-03

Similar Documents

Publication Publication Date Title
JP3623449B2 (ja) 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置
US5634082A (en) High efficiency audio coding device and method therefore
JP3185413B2 (ja) 直交変換演算並びに逆直交変換演算方法及びその装置、ディジタル信号符号化及び/又は復号化装置
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR100348368B1 (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
CA2059141C (en) Adaptive-block-length, adaptive-transform, and adaptive-window transform coder, decoder, and encoder/decoder for high quality audio
KR100469002B1 (ko) 오디오 코딩 방법 및 장치
EP0967593B1 (en) Audio coding and quantization method
JP3343962B2 (ja) 高能率符号化方法及び装置
Sinha et al. Audio compression at low bit rates using a signal adaptive switched filterbank
JPH0695698A (ja) ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置
HU213963B (en) High-activity coder and decoder for digital data
EP1047047B1 (en) Audio signal coding and decoding methods and apparatus and recording media with programs therefor
US20020004718A1 (en) Audio encoder and psychoacoustic analyzing method therefor
EP1873753A1 (en) Enhanced audio encoding/decoding device and method
JP2776277B2 (ja) 音声符号化装置
JP3353868B2 (ja) 音響信号変換符号化方法および復号化方法
KR100303580B1 (ko) 송신기,엔코딩장치및송신방법
JPH08166799A (ja) 高能率符号化方法及び装置
JP3336619B2 (ja) 信号処理装置
JP3291948B2 (ja) 高能率符号化方法及び装置、並びに伝送媒体
JPH10149197A (ja) 符号化装置および方法
JPH09288498A (ja) 音声符号化装置
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
Teh et al. Subband coding of high-fidelity quality audio signals at 128 kbps

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980331

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090501

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100501

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110501

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110501

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 14

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 14

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 14

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees