JP2776277B2 - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JP2776277B2 JP2776277B2 JP6304941A JP30494194A JP2776277B2 JP 2776277 B2 JP2776277 B2 JP 2776277B2 JP 6304941 A JP6304941 A JP 6304941A JP 30494194 A JP30494194 A JP 30494194A JP 2776277 B2 JP2776277 B2 JP 2776277B2
- Authority
- JP
- Japan
- Prior art keywords
- fft
- circuit
- block length
- signal
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006243 chemical reaction Methods 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 6
- 239000008187 granular material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- ZVQOOHYFBIDMTQ-UHFFFAOYSA-N [methyl(oxido){1-[6-(trifluoromethyl)pyridin-3-yl]ethyl}-lambda(6)-sulfanylidene]cyanamide Chemical compound N#CN=S(C)(=O)C(C)C1=CC=C(C(F)(F)F)N=C1 ZVQOOHYFBIDMTQ-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
り、特に、レイヤIII標準化アルゴリズムに準拠する音
声符号化装置に関する。
いは蓄積するための符号化技術は、CCITT(国際電
信電話協議委員会)等により標準化が促進されている。
その有力なアルゴリズムであるサブバンド符号化方式や
適応変換符号化方式は、音声信号帯域を遥かに上回る帯
域内に遍在する信号エネルギを利用して、符号化効率を
向上せしめる点において共通する。一方、サブバンド符
号化方式では、入力信号を複数の周波数帯域に分割し、
各サブバンドの信号エネルギに応じたビット割当を行う
のに対し、適応変換符号化方式では、入力信号に線形変
換を施して電力集中性を高めた状態で量子化を行う点で
相違する。この線形変換には、フーリエ変換又はコサイ
ン変換を用いるのが一般的である。
符号化方式では、いわゆる心理聴覚特性を利用して、さ
らに総合符号化品質の改善を図ることが可能である。こ
の心理聴覚特性を利用する方法とは、人間が知覚し易い
周波数帯域での信号の劣化を最小限に抑えるように、あ
る種の重み付け(心理聴覚重み付け)を施して量子化す
るものである。この心理聴覚重み付けとは、絶対可聴し
きい値(ここで、しきい値は音圧を扱うものである)お
よびマスキング効果との関係で決まる相対可聴しきい値
から補正可聴しきい値を逐次求めるものである。そし
て、この結果に基づいてビット割当が行われる。
は、絶対可聴しきい値を越える音圧しか知覚することが
できず、また、大きな音圧を有する周波数成分(マス
カ)の近傍に位置する小さな音圧の周波数成分もマスク
の影響(マスキング効果)で知覚できない。このマスキ
ング効果は、特性上、マスカの左右で非対称的であり、
マスカの低域側よりも高域側で広範囲にマスクされる。
このため、補正可聴しきい値を越える周波数成分につい
て、その音圧と補正可聴しきい値との差に相当するビッ
トを割り当てることにより、効率的な符号化が達成され
る。
ブロック化した線形変換が行われる。通常は、大きなブ
ロック長を用いて線形変換を行った方が高解像度を得る
ことができ、符号化品質は向上する。しかし、音声信号
の振幅が急激に立ち上がる部分に対し大きなブロック長
で線形変換を施すと、当該音声信号の復号時にプリエコ
ーと呼ばれる先行雑音が発生することが明かとなってい
る。この原因は、単一ブロック内における信号振幅が急
激に変化する部分で雑音が発生するからであり、単一ブ
ロック内に均一に分布する量子化歪が信号振幅の小さな
部分で知覚されてしまうことに起因する。
グと密接な関係があることが知られている。図4に線形
変換に用いるブロック長の違いによるプリエコーの生じ
具合を示す。この図4において、測定に用いた音源には
ドラムスを用い、図4(A)がその原波形を示す。この
原波形をブロック長N=256とN=1024とで線形
変換した後に復号して得た復号信号が図4(B),図4
(C)である。両図において、信号振幅が急激に増大す
る部分(アタック部)に先行して雑音が発生しているの
がわかる。この雑音がいわゆるプリエコーであり、N=
1024の場合に比べN=256の場合の方がプリエコ
ーが短いことから、小ブロック長による線形変換がプリ
エコーの抑制に有効であることは明かである。
する場合には解像度の劣化や符号化効率の低下といった
不都合を伴うのも事実である。また、実際に量子化を行
った信号には、1ブロックにつき1セットの補償情報が
必要であるため、用いるブロック長が大きいほど補償情
報の数を省くことができ効率がよい。従って、こうした
プリエコーに起因した相容れない要求に応えるために
は、必要に応じてブロック長を切り換えて処理すること
が望ましい。この要求を実現するものとして適応ブロッ
ク長符号変換方式が一般に用いられている。
ゴリズムは、適応されるビットレイヤや要求される符号
化品質に応じて、或いはシステムの複雑さ等に応じて3
階層(レイヤ)構造が採られている。このうちレイヤII
Iでは、レイヤI,IIに比べ符号化品質の向上が図られて
いる。このレイヤIIIでは、入力信号の各サブバンド信
号を変形離散コサイン変換(MDCT)により周波数領
域に変換する際に適応ブロック長を用いてプリエコーを
抑制するようにしている。
境界近傍で量子化雑音の不連続性がブロック歪として知
覚されないよう、隣接ブロック間で50%のオーバラッ
プをかけ、窓関数によるフィルタ操作を行う。また、続
いて演算する離散コサイン変換の時間項にオフセットを
導入することにより、得られた変換係数が対称になるよ
うに配慮している。これがため、符号化する必要のある
変換係数がオーバラップされたブロック長2Nの半分と
なり、50%オーバラップによって生ずる効率劣化を相
殺することができる。
れる適応ブロック長の基本概念は、心理聴覚モデルに基
づくものである。この概念を利用した従来の音声符号化
装置を図5に示す。
号Siを所定のブロック長で線形変換する線形変換部5
0と、入力信号Siを2種類の異なるブロック長で高速
フーリエ変換するFFT部60と、このFFT部60で
変換生成したFFT信号に基づいて線形変換部50に設
定すべき所定のブロック長Sbを算出しこれを当該線形
変換部50に設定するブロック長設定部70と、線形変
換回路50において変換生成した中間信号Smを符号化
してビット列Soを形成出力する符号化部80とを備え
ている。これら各部の動作タイミングは、図示しない制
御部により逐次制御されるようになっている。
周波数帯域(サブバンド)に分割するフィルタバンク回
路51と、このフィルタバンク回路51の出力信号に対
しブロック長Sbに基づいて変形離散コサイン変換を行
うMDCT回路52と、このMDCT回路52の出力信
号から折り返し歪を削減して中間信号Smを出力するバ
タフライ回路53とを備えている。
クで高速フーリエ変換してFFT信号Sfを出力する第
1のFFT回路61と、同じく入力信号Siを大ブロッ
クで高速フーリエ変換してFFT信号を出力する第2の
FFT回路62とを備えている。この第1及び第2のF
FT回路61,62の動作は、前述の制御部により時分
割的に逐次制御されるようになっている。
予測不可能性を測定する予測不可能性測定回路71と、
この予測不可能性測定回路71の出力信号から信号対マ
スク比を算出する信号対マスク比計算回路72と、この
信号対マスク比計算回路72の出力信号に基づいてMD
CT回路52にブロック長Sbを設定する心理聴覚エン
トロピ評価回路73とを備えている。
子化する非線形変換回路81と、この非線形変換回路8
1からの出力信号を符号化するハフマン符号化回路82
と、このハフマン符号化回路82で符号化した信号とサ
イド情報符号化回路86からのサイド情報とに基づいて
ビット列Soを形成し出力するするビット列形成回路8
3とを備えている。ビット列形成回路83はCRCチェ
ック機能を備えている。ここで、符号85はスケールフ
ァクタ計算回路を示し、符号84はバッファ制御回路を
示す。
信号)Siは、フィルタバンク回路51で複数の周波数
帯域(サブバンド)に分割されMDCT回路52に送り
込まれると共に、FFT部60に入力され、ブロック長
の異なる第1及び第2のFFT回路61,62において
高速フーリエ変換される。その後、ブロック長設定部7
0が一組のFFT信号に基づいて心理聴覚エントロピ評
価を下し、MDCT回路52にブロック長Sbを設定す
る。
長設定部70の予測不可能性測定回路71は、各FFT
信号(FFTスペクトル線)について、現在値と過去2
ブロック分のデータによる予測値とを比較し、振幅と位
相の差異から予測不可能性を測定する。ここでは、現在
値と予測値のユークリッド距離を規格化したものをカオ
ス指数と呼び、このカオス指数の0.5から0.05
を、0から1の純音指数に写像する。周波数領域での振
幅は、1/3臨界帯域のエネルギ表現に変換された後、
内耳の広がり関数との間で畳み込み演算される。この畳
み込み演算により得られたスペクトルと純音指数を用
い、ちょうどマスクされる雑音レベルが計算される。
ドnにおける信号対マスク比SMRsb(n)を、 SMRsb(n)=Lsb(n)−LTmin(n) ・・・・(1) として計算する。ここで、Lsb(n)はサブバンドn
における音圧を表し、LTmin(n)は、サブバンド
nにおける最小マスキングレベルを表す。
間領域信号の急変に伴って高域成分が増加すると共にパ
ワー集中度が減少し、必要なビット数が多くなる。心理
聴覚エントロピ評価回路73は、この現象を捕らえて、
心理聴覚エントロピが予め定められたしきい値を越えた
ときに音声信号のアタック部であると判定し、MDCT
回路52に「小」ブロック長Sbを設定する。一方、し
きい値以下のときは「大」ブロック長Sbを設定し、高
符号化品質と高解像度が得られるようにする。
ク処理を行う場合は、フィルタバンク回路51の出力信
号を1グラニュルについて6周波数サンプル×3小ブロ
ックの18サンプルとして取扱う。そして、最初の6サ
ンプルと前グラニュルの最後の6サンプルとを組み合わ
せた12サンプルを1ブロックとして変形離散コサイン
変換を行う。これにより得られる出力は、変形離散コサ
イン変換の係数対称性から、半分の6サンプルであり、
小ブロック全体としては6×3=18周波数サンプルで
ある。一方、大ブロック処理を行う場合は、フィルタバ
ンク回路51の出力信号を1グラニュルについて18サ
ンプルとし、これを前グラニュルと組み合わせた36サ
ンプルを1ブロックとして変形離散コサイン変換を行
う。この場合も、変形離散コサイン変換の係数対称性か
ら、独立な出力は半分の18周波数サンプルとなる。
散コサイン変換された音声信号は、バタフライ回路53
に入力される。バタフライ回路53は、隣接するオーバ
ラップ多層フィルタバンク出力の32帯域に対し、帯域
境界に近いサンプルから8サンプルを入力としてバタフ
ライ演算を行い、周波数領域で折り返し歪を除去する。
ここで、フィルタバンク回路51,MDCT回路52及
びバタフライ回路53は、フィルタバンクと直交変換を
組み合わせた写像を行うため、周波数分解能はレイヤ
I,IIの18倍に高められている。
間信号Smは、符号化部80に入力される。この符号化
部80では、非心理聴覚モデルに基づくビット割当に従
って非線形量子化が行われ、時間領域でフレーム境界を
越えたビット配分が行われる。こうして量子化された信
号は、ハフマン符号化回路82において符号化されフレ
ームに組み込まれ、サイド情報符号化回路86から供給
されるサイド情報とともにビット列(ビットストリー
ム)形成される。形成されたビット列は、CRCチェッ
クを受けた後、伝送路に送り出すか又は蓄積媒体に蓄積
される。ここに、レイヤIIIのビットストリーム構成
は、1フレームが1152サンプルからなり、各フレー
ムは576サンプルのグラニュルに2分割されている。
来例にあっては、FFT部及びブロック長設定部におけ
る演算量が多く、音声信号の入力からビットストリーム
の出力までに時間がかかり、装置全体としての処理能力
が低いという不都合があった。
手段が特開平4−302540号公報に公表されてい
る。これは、ブロック長とフローティング係数の決定を
同じ指標に基づいて行うことにより処理能力の向上を試
みたものである。しかしながら、かかる引例にあって
は、ブロック長を切り換える場合に、大ブロックとこの
大ブロックの1/2の一対の小ブロックについて当該小
ブロック内の各最大絶対値どうしを比較し、この結果に
より大小のブロックを選択するため、大ブロックを分割
した複数の小ブロックについて個々に最大絶対値を演算
し比較する必要があり、これがため、分割ブロック数が
増加するほど演算負担が増大するという不都合があっ
た。
を改善し、特に、処理能力の安定した向上を図った音声
符号化装置を提供することを、その目的とする。
ロック長設定部の現実の信号処理を分析した結果、小ブ
ロック長のFFT回路の処理結果が心理聴覚エントロピ
評価に活かされるのはドラムスやカスタネットなどの極
く限られた音源が発する音に対してだけであり、小ブロ
ック長のFFT回路におけるFFTの実行は多くの場合
無駄になっているという事実を見いだした。本発明はこ
の点に鑑み成されたもので、以下のように構成される。
のブロック長で線形変換する線形変換部と、当該入力信
号を大小2種の異なるブロック長で高速フーリエ変換す
るFFT部とを備えている。また、このFFT部で変換
生成したFFT信号に基づいて線形変換部に設定すべき
所定のブロック長を算出しこれを当該線形変換部に設定
するブロック長設定部と、線形変換部において変換生成
した中間信号を符号化してビット列を形成出力する符号
化部とを備えている。このうち、FFT部が、入力信号
のうち連続する信号の利得差に基づいて高速フーリエ変
換に用いるブロック長を大小2種の異なるブロック長か
ら選択するFFT選択機能を備え、前記ブロック長設定
部は、前記FFT部が1種類のブロック長の下でのみ高
速フーリエ変換を行う場合には当該高速フーリエ変換に
より得られるFFT信号のみに基づいて前記線形変換部
に設定すべき所定のブロック長を算出する機能を備え、
前記FFT部は、前記入力信号に対し小ブロック長のF
FTを実行する第1のFFT回路と、前記入力信号に対
し大ブロック長のFFTを実行する第2のFFT回路
と、この第2のFFT回路が出力するFFT信号から利
得を算出する利得演算回路と、この利得演算回路が出力
する利得に基づいて前記第1のFFT回路に選択的に前
記入力信号を出力するFFT選択手段とを備え、前記利
得演算回路は、1フレームごとに前記第2のFFT回路
の出力から音声利得を演算し、その演算結果を前記FT
T選択手段に送り込む機能を備え、前記FFT選択手段
は、前記利得演算回路から供給される前フレームの音声
利得の大きさに応じて前記第1又は第2のFFT回路に
対し、双方において前記入力信号のFFTを実行する
か、或いは前記第2のFFT回路のみにおいてFFTを
実行するかを選択し、前記入力信号の出力先を切り換え
る機能を備えた、という構成を採っている。
入力信号を線形変換する変形離散コサイン変換回路を備
えている、という構成を採っている。
部は、心理聴覚エントロピ評価に基づいて線形変換部に
設定するブロック長を算出する機能を備えている、とい
う構成を採っている。これにより、前述した目的を達成
しようとするものである。
は、心理聴覚エントロピが予め設定されたシキイ値を越
えた場合は、サンプル数の少ない小ブロックに対して線
形変換を施すよう決定を下し、心理聴覚エントロピが予
め定められたシキイ値以下である場合は、サンプル数の
多い大ブロックに対して線形変換を施すよう決定を下す
ことを内容とする評価をいう。
する信号(フレーム)の利得差が所定量以上である場合
には、FFT部におけるFFT選択機能により、同一の
信号対象に対して大ブロック長でのFFT(高速フーリ
エ変換)と小ブロック長でのFFTとの双方を実行す
る。一方、入力信号のうち連続する信号の利得差が所定
量以下である場合には、FFT部におけるFFT選択機
能により、大ブロック長でのFFTのみを実行する。
て大ブロック長でのFFTのみが実行された場合、ブロ
ック長設定部は、当該FFT信号について予測不可能性
の測定を行うことなく信号対マスク比を計算し、この結
果に基づいて線形変換部に所定のブロック長を設定す
る。
いて入力信号の線形変換が変形離散コサイン変換により
行われる。
定されるべき所定のブロック長が心理聴覚エントロピ評
価に基づいて算出される。
づいて説明する。
iを所定のブロック長で線形変換する線形変換部50
と、当該入力信号Siを大小2種の異なるブロック長で
高速フーリエ変換するFFT部10とを備え、このFF
T部10で変換生成したFFT信号に基づいて線形変換
部50に設定すべき所定のブロック長Sbを算出しこれ
を当該線形変換部50に設定するブロック長設定部20
と、線形変換部50において変換生成した中間信号Sb
を符号化してビット列を形成出力する符号化部80とを
備えている。このうち、FFT部10が、入力信号Si
のうち連続する信号の利得差に基づいて高速フーリエ変
換(FFT)に用いるブロック長を大小2種の異なるブ
ロック長から選択するFFT選択機能を備えている。入
力信号Siは、予め直線量子化された音声信号である。
構成については、図5に示した従来例と同一であること
から、同一符号を付して重複説明を省略する。
ロック長のFFTを実行する第1のFFT回路12と、
入力信号Siに対し大ブロック長のFFTを実行する第
2のFFT回路13とを備えている。更に、第2のFF
T回路13が出力するFFT信号から利得を算出する利
得演算回路14と、この利得演算回路14が出力する利
得に基づいて第1のFFT回路12に選択的に入力信号
Siを出力するFFT選択手段11とを備えている。
2のFFT回路13の出力から音声利得を演算し、その
演算結果をFTT選択手段11に送り込む機能を備えて
いる。
から供給される前フレームの音声利得の大きさに応じて
第1又は第2のFFT回路12,13に対し、双方にお
いて入力信号SiのFFTを実行するか、或いは第2の
FFT回路13のみにおいてFFTを実行するかを選択
し、入力信号Siの出力先を切り換える機能を備えてい
る。
2,13の出力に対し予測不可能性の計算を施す予測不
可能性計算回路21と、この予測不可能性計算回路21
の出力から信号対マスク比を算出する信号対マスク比計
算回路22と、この信号対マスク比計算回路22の出力
を心理聴覚エントロピ評価に付し、この結果に基づいて
MDCT回路52に所定のブロック長を設定する心理聴
覚エントロピ評価回路23とを備えている。
リエコー排除が目的であり、前フレームの音声利得に基
づいてプリエコーがマスク可能であるか否かを予測し、
マスク不可能であると予測される場合には、第1及び第
2のFFT回路12,13の双方でFFTを実行する。
一方、プリエコーがマスク可能であると予測できる場合
は、第2のFFT回路13のみに入力信号Siを出力
し、第1のFFT回路12には入力信号Siの出力を行
わない。以下、当該処理を含む装置の動作を図2に基づ
いて詳説する。
14が供給する前フレームの音声利得をシキイ値判別
し、この結果から入力信号Siの出力先を第1及び第2
のFFT12,13とするか、第2のFFT回路13の
みとするかを選択する(ステップS101,S10
2)。即ち、本段階において、復号信号に生じるプリエ
コーのマスクが可能か否かが予測の下に決定される。
FFT回路に入力信号Siを出力する。そして、この入
力信号Siを受けたFFT回路はFFTを実行しFFT
信号を出力する(ステップS103,S104,S11
1)。ここで、各FFT処理は、DSPの制御により時
分割的に実行される。
路13より出力されたFFT信号から音声利得を算出
し、その結果をFFT選択手段11に通知する(ステッ
プS105,S112)。
び第2のFFT回路12,13の双方でFFTが実行さ
れた場合には、各FFT信号について予測不可能性の測
定(計算)を実行し、第1又は第2のFFT回路12,
13のどちらのFFT信号について後に信号対マスク比
を計算するかを決定する。即ち、本段階において、入力
信号Siが急激に変化する信号か否かが判断される(ス
テップS107)。一方、第2のFFT回路13でのみ
FFTが実行された場合には、予測不可能性の計算は実
行せず、第2のFFT回路13から出力されたFFT信
号を直接信号対マスク比計算回路22に入力する(ステ
ップS113)。
予測不可能性の計算結果に基づいて特定されたFFT信
号に対し信号対マスク比の計算を実行する(ステップS
108,S109)。
信号対マスク比計算回路22の出力に対し心理聴覚エン
トロピ評価を行い、この結果に基づいてMDCT回路5
2に所定のブロック長Sbを設定する(ステップS11
0)。
れたブロック長で変形離散コサイン変換された後、符号
化部80に入力されビット列に形成され出力される。
て説明する。この図3において、前述の実施例の構成と
異なるのはFFT部30の構成であって、その他の構成
は前述の実施例と同一となっている。そこで、同一部分
に付いては同一符号を付して重複説明を省略すると共
に、以下にFFT部30の構成を説明する。
蓄えるメモリ31と、入力信号Siを小ブロック長で高
速フーリエ変換する第1のFFT回路32と、入力信号
Siを大ブロック長で高速フーリエ変換する第2のFF
T回路33とを備えている。また、第2のFFT回路3
3から出力されたFFT信号のうち連続するものの利得
を比較する利得比較回路34を備えている。この利得比
較回路34は、内部にFFT信号を一時的に蓄積するメ
モリ35を装備している。これらの各構成要素の動作タ
イミングは、本装置全体の動作を司る制御部40により
制御されるようになっている。図3中の点線は制御信号
の流れを示すが、一部図示を省略してある。
号Siを少なくとも2フレーム分蓄積するだけの容量を
備えたRAM(ランダム・アクセス・メモリ)である。
第1及び第2のFFT回路32,33は、実際には単一
のDSP(ディジタル・シグナル・プロセッサ)により
構成されていて、それぞれが時分割処理により実現され
るものである。利得比較回路34は、第2のFFT回路
33で算出したFFT信号から利得を算出する手段と、
当該利得のうち連続するものを比較してその差をシキイ
値判別する手段とを備えている。利得比較回路34に内
蔵されたメモリ35は、FFT信号を少なくとも3フレ
ーム分蓄積するだけの容量を備えたRAMである。更
に、この利得比較回路34は、前述のシキイ値判別の結
果に基づいて、制御部40を介し、メモリ31及び第1
のFFT回路(小ブロック長のFFT回路)32の動作
を駆動する機能を備えている。FFT部30では、これ
らの協動により、FFT選択機能が実現される。
0,メモリ31及び第2のFFT回路33に入力され
る。このうち、線形変換部50に入力された入力信号S
iは、この線形変換部50内部で図示しないメモリに一
時蓄積される。
フレーム分の入力信号に対し大ブロック長のFFTを実
行する。この間、メモリ31は2フレーム分の入力信号
Siを蓄える。
路33からの2フレーム分のFFT信号をメモリ35に
蓄える。
えた各FFT信号について利得を算出し、これらの差が
所定量(シキイ値)以上である場合に、制御部40を介
して、メモリ31に蓄えていた入力信号Siを第1のF
FT回路32に出力するよう要請する。一方、これらの
差が所定量以下である場合には、メモリ35に蓄えた先
のフレームをブロック長設定部20に出力し、同時にメ
モリ31に蓄積されていた先のフレームは消去される。
出力命令を受けたときは、このメモリ31に蓄積された
先の1フレームが第1のFFT回路32に入力され、小
ブロック長のFFTが実行される。この結果得られたF
FT信号は、利得比較回路34のメモリ35に蓄積され
る。
FT信号と小ブロック長に基づくFFT信号とが蓄積さ
れた時点で、当該各FFT信号はブロック長設定部20
に入力される。
長に基づくFFT信号のみが入力された場合には、これ
について信号対マスク比を計算し、その後、心理聴覚エ
ントロピ評価により算出したブロック長を線形変換部5
0のMDCT回路52に設定する。一方、大ブロック長
に基づくFFT信号と小ブロック長に基づくFFT信号
との両方が入力された場合には、これらについて予測不
可能性の測定を行い、信号対マスク比を計算し、心理聴
覚エントロピ評価により算出したブロック長をMDCT
回路52に設定する。
Siは、MDCT回路52に設定されたブロック長Sb
の下に変形離散コサイン変換を施され、その後、符号化
部80においてビット列に形成される。
して上記からの処理を繰り返す。
信号の利得差が所定量以上変化する場合、即ち、プリエ
コー発生の恐れがある場合にのみ、小ブロック長のFF
Tを実行するため、従来例のように、例えば、フルート
等の音色のように急激な利得の変化を伴わない信号につ
いてまで小ブロック長のFFTを実行することがなく、
これにより、従来と同程度の音声解像度を保持しながら
も、音声符号化に必要な演算量を全体として低減するこ
とができ、これがため、装置の処理能力を向上すること
ができる。
2において大ブロック長のFFTと小ブロック長のFF
Tとの双方が実行された場合に限り予測不可能性の測定
を行い、前述のように大ブロック長のFFTのみが実行
された場合には、予測不可能性の測定を行わないので、
これにより更に演算量を低減することができ、装置の処
理能力をより向上させることができる。
るので、これによると、FFT部が、入力信号の利得差
に応じてFFTに用いるブロック長を選択するFFT選
択機能を備えたことから、入力信号の利得差が所定量以
上変化する場合、即ち、プリエコー発生の恐れがある場
合にのみ、小ブロック長のFFTを実行するため、従来
例のように、例えば、フルート等の音色のように急激な
利得の変化を伴わない信号についてまで小ブロック長の
FFTを実行することがなく、これにより、従来と同程
度の音声解像度を保持しながらも、音声符号化に必要な
演算量を全体として低減することができ、これがため、
装置の処理能力を向上することができる、という従来に
ない優れた音声符号化装置を提供することができる。
おいて大ブロック長のFFTと小ブロック長のFFTと
の双方が実行された場合に限り予測不可能性の測定を行
い、大ブロック長のFFTのみが実行された場合には、
予測不可能性の測定を行わないので、これにより更に演
算量を低減することができ、装置の処理能力をより向上
させることができる。
変換が変形離散コサイン変換回路(MDCT回路)によ
り実行されるので、変換対象となるサンプル数の半数に
対して量子化を行えば良く、その後の処理で扱うデータ
量を削減することができ、装置の処理能力の向上に利益
がある。また、ブロック符号化の宿命であるブロック境
界近傍での量子化雑音の不連続性を回避できるので、入
力信号に窓関数を掛けてからオーバラップさせて符号化
する手法を採用した場合でも、オーバラップによって生
ずる効率の劣化を相殺することができる。
る。
作を説明するためのフローチャートである。
ある。
あり、図4(A)は原音信号、図4(B)はブロック長
256で符号化した場合の復号信号、図4(C)はブロ
ック長1024で符号化した場合の復号信号をそれぞれ
示す。
回路) 13,33 第2のFFT回路(大ブロック長のFFT
回路) 20 ブロック長設定部 23 心理聴覚エントロピ評価回路 50 線形変換部 52 MDCT回路(変形離散コサイン変換回路) 80 符号化部 Si 入力信号 Sm 中間信号 Sb ブロック長 So ビット列(ビットストリーム)
Claims (3)
- 【請求項1】 入力信号を所定のブロック長で線形変換
する線形変換部と、前記入力信号を大小2種の異なるブ
ロック長で高速フーリエ変換するFFT部と、このFF
T部で変換生成したFFT信号に基づいて前記線形変換
部に設定すべき所定のブロック長を算出しこれを当該線
形変換部に設定するブロック長設定部と、前記線形変換
部において変換生成した中間信号を符号化してビット列
を形成出力する符号化部とを備えた音声符号化装置にお
いて、 前記FFT部が、前記入力信号のうち連続する信号の利
得差に基づいて前記高速フーリエ変換に用いるブロック
長を前記大小2種の異なるブロック長から選択するFF
T選択機能を備え、 前記ブロック長設定部は、前記FFT部が1種類のブロ
ック長の下でのみ高速フーリエ変換を行う場合には当該
高速フーリエ変換により得られるFFT信号のみに基づ
いて前記線形変換部に設定すべき所定のブロック長を算
出する機能を備え 、前記FFT部は、前記入力信号に対し小ブロック長のF
FTを実行する第1のFFT回路と、前記入力信号に対
し大ブロック長のFFTを実行する第2のFFT回路
と、この第2のFFT回路が出力するFFT信号から利
得を算出する利得演算回路と、この利得演算回路が出力
する利得に基づいて前記第1のFFT回路に選択的に前
記入力信号を出力するFFT選択手段とを備え、 前記利得演算回路は、1フレームごとに前記第2のFF
T回路の出力から音声利得を演算し、その演算結果を前
記FTT選択手段に送り込む機能を備え、 前記FFT選択手段は、前記利得演算回路から供給され
る前フレームの音声利得の大きさに応じて前記第1又は
第2のFFT回路に対し、双方において前記入力信号の
FFTを実行するか、或いは前記第2のFFT回路のみ
においてFFTを実行するかを選択し、前記入力信号の
出力先を切り換える機能を備えている、 ことを特徴とす
る音声符号化装置。 - 【請求項2】 前記線形変換部は、前記入力信号を線形
変換する変形離散コサイン変換回路を備えていることを
特徴とする請求項1記載の音声符号化装置。 - 【請求項3】 前記ブロック長設定部は、心理聴覚エン
トロピ評価に基づいて前記線形変換部に設定するブロッ
ク長を算出する機能を備えていることを特徴とする請求
項1又は2記載の音声符号化装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6304941A JP2776277B2 (ja) | 1994-12-08 | 1994-12-08 | 音声符号化装置 |
EP95119147A EP0716409B1 (en) | 1994-12-08 | 1995-12-05 | Speech coding system |
DE69527257T DE69527257T2 (de) | 1994-12-08 | 1995-12-05 | System zur Sprachkodierung |
US08/569,737 US5799270A (en) | 1994-12-08 | 1995-12-08 | Speech coding system which uses MPEG/audio layer III encoding algorithm |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6304941A JP2776277B2 (ja) | 1994-12-08 | 1994-12-08 | 音声符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08160998A JPH08160998A (ja) | 1996-06-21 |
JP2776277B2 true JP2776277B2 (ja) | 1998-07-16 |
Family
ID=17939166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6304941A Expired - Fee Related JP2776277B2 (ja) | 1994-12-08 | 1994-12-08 | 音声符号化装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5799270A (ja) |
EP (1) | EP0716409B1 (ja) |
JP (1) | JP2776277B2 (ja) |
DE (1) | DE69527257T2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09325860A (ja) * | 1996-06-04 | 1997-12-16 | Alps Electric Co Ltd | 座標入力装置 |
US8306811B2 (en) * | 1996-08-30 | 2012-11-06 | Digimarc Corporation | Embedding data in audio and detecting embedded data in audio |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
JP3813025B2 (ja) * | 1998-10-29 | 2006-08-23 | 株式会社リコー | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
US6266643B1 (en) | 1999-03-03 | 2001-07-24 | Kenneth Canfield | Speeding up audio without changing pitch by comparing dominant frequencies |
US6965859B2 (en) * | 2003-02-28 | 2005-11-15 | Xvd Corporation | Method and apparatus for audio compression |
CN101355829B (zh) * | 2007-07-25 | 2013-08-21 | 鹏智科技(深圳)有限公司 | 减小噪音影响的发声设备测试装置及测试方法 |
US10841030B2 (en) * | 2018-07-30 | 2020-11-17 | Avago Technologies International Sales Pte. Limited | Leg combining by FFT selection |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2844695B2 (ja) * | 1989-07-19 | 1999-01-06 | ソニー株式会社 | 信号符号化装置 |
US5502789A (en) * | 1990-03-07 | 1996-03-26 | Sony Corporation | Apparatus for encoding digital data with reduction of perceptible noise |
JP3033156B2 (ja) * | 1990-08-24 | 2000-04-17 | ソニー株式会社 | ディジタル信号符号化装置 |
EP0506394A2 (en) * | 1991-03-29 | 1992-09-30 | Sony Corporation | Coding apparatus for digital signals |
JP3134337B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル信号符号化方法 |
JP3141450B2 (ja) * | 1991-09-30 | 2001-03-05 | ソニー株式会社 | オーディオ信号処理方法 |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JP3104400B2 (ja) * | 1992-04-27 | 2000-10-30 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
JP3186292B2 (ja) * | 1993-02-02 | 2001-07-11 | ソニー株式会社 | 高能率符号化方法及び装置 |
JP3173218B2 (ja) * | 1993-05-10 | 2001-06-04 | ソニー株式会社 | 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体 |
US5581654A (en) * | 1993-05-25 | 1996-12-03 | Sony Corporation | Method and apparatus for information encoding and decoding |
EP0657874B1 (en) * | 1993-12-10 | 2001-03-14 | Nec Corporation | Voice coder and a method for searching codebooks |
-
1994
- 1994-12-08 JP JP6304941A patent/JP2776277B2/ja not_active Expired - Fee Related
-
1995
- 1995-12-05 EP EP95119147A patent/EP0716409B1/en not_active Expired - Lifetime
- 1995-12-05 DE DE69527257T patent/DE69527257T2/de not_active Expired - Lifetime
- 1995-12-08 US US08/569,737 patent/US5799270A/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
A.SUGIYAMA ET AL,"ADAPTIVE TRANSFORM CODING WITH AN ADAPTIVE BLOCK SIZE (ATC−ABS)",PROC.ICASSP ’90(APR),PP.1093−1096 |
Also Published As
Publication number | Publication date |
---|---|
DE69527257T2 (de) | 2003-03-13 |
JPH08160998A (ja) | 1996-06-21 |
US5799270A (en) | 1998-08-25 |
DE69527257D1 (de) | 2002-08-08 |
EP0716409A2 (en) | 1996-06-12 |
EP0716409A3 (en) | 1998-01-07 |
EP0716409B1 (en) | 2002-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3623449B2 (ja) | 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置 | |
US5634082A (en) | High efficiency audio coding device and method therefore | |
JP3185413B2 (ja) | 直交変換演算並びに逆直交変換演算方法及びその装置、ディジタル信号符号化及び/又は復号化装置 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
KR100348368B1 (ko) | 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 | |
CA2059141C (en) | Adaptive-block-length, adaptive-transform, and adaptive-window transform coder, decoder, and encoder/decoder for high quality audio | |
KR100469002B1 (ko) | 오디오 코딩 방법 및 장치 | |
EP0967593B1 (en) | Audio coding and quantization method | |
JP3343962B2 (ja) | 高能率符号化方法及び装置 | |
Sinha et al. | Audio compression at low bit rates using a signal adaptive switched filterbank | |
JPH0695698A (ja) | ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置 | |
HU213963B (en) | High-activity coder and decoder for digital data | |
EP1047047B1 (en) | Audio signal coding and decoding methods and apparatus and recording media with programs therefor | |
US20020004718A1 (en) | Audio encoder and psychoacoustic analyzing method therefor | |
EP1873753A1 (en) | Enhanced audio encoding/decoding device and method | |
JP2776277B2 (ja) | 音声符号化装置 | |
JP3353868B2 (ja) | 音響信号変換符号化方法および復号化方法 | |
KR100303580B1 (ko) | 송신기,엔코딩장치및송신방법 | |
JPH08166799A (ja) | 高能率符号化方法及び装置 | |
JP3336619B2 (ja) | 信号処理装置 | |
JP3291948B2 (ja) | 高能率符号化方法及び装置、並びに伝送媒体 | |
JPH10149197A (ja) | 符号化装置および方法 | |
JPH09288498A (ja) | 音声符号化装置 | |
JPH0918348A (ja) | 音響信号符号化装置及び音響信号復号装置 | |
Teh et al. | Subband coding of high-fidelity quality audio signals at 128 kbps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19980331 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090501 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100501 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110501 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110501 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 14 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 14 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 14 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130501 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130501 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130501 Year of fee payment: 15 |
|
LAPS | Cancellation because of no payment of annual fees |