JP3360046B2 - 音声符号化装置、音声復号化装置及び音声符復号化方法 - Google Patents
音声符号化装置、音声復号化装置及び音声符復号化方法Info
- Publication number
- JP3360046B2 JP3360046B2 JP27511999A JP27511999A JP3360046B2 JP 3360046 B2 JP3360046 B2 JP 3360046B2 JP 27511999 A JP27511999 A JP 27511999A JP 27511999 A JP27511999 A JP 27511999A JP 3360046 B2 JP3360046 B2 JP 3360046B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum envelope
- quantization
- information
- speech
- fundamental frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000013139 quantization Methods 0.000 claims description 151
- 238000001228 spectrum Methods 0.000 claims description 151
- 230000003595 spectral effect Effects 0.000 claims description 63
- 230000009466 transformation Effects 0.000 claims description 17
- 230000035945 sensitivity Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000009825 accumulation Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 22
- 230000005284 excitation Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
電話等の無線通信システムの通信装置に使用される音声
符号化装置、音声復号化装置及び音声符復号化方法に関
する。
テムの分野では、電波資源の有効利用のため低ビットレ
ートで高品質に音声を符復号化できる装置の開発が進め
られている。
復号化装置の構成を示すブロック図である。
クトル包絡分析部11は、入力音声信号のスペクトル包
絡情報を推定する。スペクトル包絡量子化部12は、ス
ペクトル包絡分析部11にて推定されたスペクトル包絡
情報を量子化する。
て、スペクトル包絡量子化部12にて量子化されたスペ
クトル包絡情報の周波数特性の逆特性をフィルタリング
してスペクトル包絡成分を除去する。これにより、周波
数特性が平坦な信号を得ることができる。この信号は、
発声過程において声帯で生じる音源信号を模したものと
考えられる。以下、この信号を「音源信号」という。
有する信号が蓄積されている。音源符号化部15は、音
源信号に最も近い信号を音源符号帳14から探索し、そ
の符号(以下、「音源符号」という)を出力する。
12から出力されたスペクトル包絡情報の量子化値を示
す符号と、音源符号化部15から出力された音源符号と
を符号列として多重化して通信路に送出する。
重化部21は、受信した符号列をスペクトル包絡情報の
量子化値を示す符号と音源符号とに分離する。
一の信号が蓄積されている。音源選択部23は、受信し
た音源符号に対応する信号を音源符号帳22の中から選
択して抽出する。
抽出された信号が、受信したスペクトル包絡情報の周波
数特性を有するようにフィルタリングし、復号音声を出
力する。
声復号化装置では、信号のダイナミックレンジや量子化
特性が異なるスペクトル包絡情報を音源信号と分離し、
それぞれの特性に応じた量子化器を構成することによ
り、高品質な音声符復号化を実現している。
来の音声符号化装置及び音声復号化装置では、スペクト
ル包絡情報を量子化した結果に基づいてフィルタリング
を行っているため、低ビットレート化によりスペクトル
包絡情報の量子化において十分な精度を得られない場
合、音源信号を平坦化することができず量子化効率が低
下し、復号音声の品質が劣化するという問題を有する。
あり、低ビットレートで情報を送信する場合であっても
高品質に音声復号を実現することができる音声符号化装
置、音声復号化装置及び音声符復号化方法を提供するこ
とを目的とする。
は、入力音声信号から基本周波数とスペクトル包絡情報
を抽出する音声分析手段と、抽出された基本周波数を量
子化する基本周波数量子化手段と、抽出されたスペクト
ル包絡情報からスペクトル包絡曲面を生成するマトリッ
クス生成手段と、生成されたスペクトル包絡曲面に対し
時間軸方向の直交変換を行う時間軸直交変換手段と、直
交変換された時間軸変換係数に対し時間軸上の次数に応
じたモデルを適用しパラメータを抽出するモデル適用手
段と、抽出されたモデルパラメータを量子化するパラメ
ータ量子化手段と、スペクトル包絡曲面の量子化値と基
本周波数の量子化値とを多重化して送出する多重化手段
とを具備する構成を採る。
絡情報を独立して量子化し、時間軸変換係数の次数に応
じたモデルを適用して音声符号化することができるの
で、いずれかの情報の量子化精度が劣化することに伴っ
て他方の情報の量子化効率が低下することを避けること
ができ、低ビットレートで情報を送信する場合であって
も高品質に音声復号を実現することができる。
しない時間軸変換係数に対し周波数軸方向の直交変換を
行う周波数軸直交変換手段を具備し、パラメータ量子化
手段は、抽出されたモデルパラメータ及び前記周波数軸
直交変換手段から出力された変換係数を量子化する構成
を採る。
率が向上する時間軸変換係数に対してのみモデルを適用
することができるので、モデル化による量子化効率を向
上しつつモデル化歪を低減し、低ビットレートで情報を
送信する場合であっても高品質に音声復号を実現するこ
とができる。
は、入力信号に対してモデルを適用しパラメータを抽出
するモデルパラメータ推定手段と、このモデルパラメー
タ推定手段にてモデルを適用した際に生じた分析歪を推
定するモデル誤差推定手段とを具備する構成を採る。
ことができるので、モデル化による量子化効率を向上し
つつモデル化歪を低減し、低ビットレートで情報を送信
する場合であっても高品質に音声復号を実現することが
できる。
化手段は、基本周波数情報とスペクトル包絡情報の少な
くとも一方を用いて各量子化対象値に対する量子化感度
を決定する重み算出手段と、予め求めた量子化対象値毎
の統計量を蓄積する統計量蓄積手段と、前記重み算出手
段から出力された量子化対象値に対する量子化感度及び
統計量蓄積手段に蓄積されている統計量から量子化器を
設計する量子化生成手段と、この量子化生成手段の設計
結果に基づいて量子化対象値を量子化する量子化手段と
を具備する構成を採る。
クトル包絡情報に対して量子化器を適応させることがで
きるので、合成音声信号の客観的な量子化歪及び聴感上
の歪を低減することができる。
化手段は、基本周波数情報とスペクトル包絡情報の少な
くとも一方を用いてスペクトル包絡上での量子化誤差尺
度を適応的に決定する誤差尺度決定手段と、符号帳に蓄
積されている量子化値をスペクトル包絡曲面に変換する
第1スペクトル包絡構成手段と、量子化対象値をスペク
トル包絡曲面に変換する第2スペクトル包絡構成手段
と、前記第1スペクトル包絡構成手段にて構成されたス
ペクトル包絡曲面と前記第2スペクトル包絡構成手段に
て構成されたスペクトル包絡曲面との誤差を誤差尺度に
基づいて算出する誤差算出手段と、誤差が最小となる量
子化値に対応する符号を符号帳から選択する符号選択手
段とを具備する構成を採る。
クトル包絡情報に対して適応させた量子化時の誤差尺度
を用いてスペクトル包絡曲面の誤差を時間−周波数平面
上で算出することができるので、合成音声信号の客観的
な量子化歪及び聴感上の歪を低減することができる。
化手段は、基本周波数情報とスペクトル包絡情報の少な
くとも一方を用いてスペクトル包絡上での量子化誤差重
み関数を適応的に決定する誤差関数決定手段と、量子化
誤差重み関数を変換する量子化パラメータ上での誤差尺
度を定義する誤差関数変換手段と、誤差尺度に基づいて
量子化対象値と符号帳に蓄積されている量子化値との誤
差を算出する誤差算出手段と、誤差が最小となる量子化
値に対応する符号を符号帳から選択する符号選択手段と
を具備する構成を採る。
ル包絡情報に対して適応させた量子化時の誤差尺度を用
いて量子化パラメータ間の誤差を算出することができる
ので、少ない処理量で合成音声信号の客観的な量子化歪
及び聴感上の歪を低減することができる。
化装置から送信された符号列をスペクトル包絡情報の量
子化値を示す符号と基本周波数の量子化値を示す符号と
に分離する逆多重化手段と、受信したスペクトル包絡情
報から量子化されたスペクトル包絡曲面を再構成するス
ペクトル包絡構成手段と、再構成されたスペクトル包絡
曲面を基本周波数情報に基づいて切り出して復号音声を
合成する音声合成手段とを具備する構成を採る。
絡情報を独立して量子化された音声符号を復号すること
ができるので、いずれかの情報の量子化精度が劣化する
ことに伴って他方の情報の量子化効率が低下することを
避けることができ、低ビットレートで情報を送信する場
合であっても高品質に音声復号を実現することができ
る。
構成手段は、量子化対象外の各パラメータに対応して予
め統計的に求めたパラメータ値を蓄積するパラメータ蓄
積手段と、入力したスペクトル包絡情報に基づいてスペ
クトル包絡曲面を生成するスペクトル包絡生成手段とを
具備する構成を採る。
タとして統計的に求めた値を用いることができるので、
任意の値を用いた場合と比較して正確なスペクトル包絡
曲面を復元することができる。
て、入力音声信号から基本周波数とスペクトル包絡情報
を抽出し、抽出された基本周波数を量子化し、抽出され
たスペクトル包絡情報からスペクトル包絡曲面を生成
し、生成されたスペクトル包絡曲面に対し時間軸方向の
直交変換を行い、直交変換された時間軸変換係数に対し
時間軸上の次数に応じたモデルを適用しパラメータを抽
出し、抽出されたモデルパラメータを量子化し、スペク
トル包絡曲面の量子化値と基本周波数の量子化値とを多
重化して送出し、復号側にて、受信した符号列をスペク
トル包絡情報の量子化値を示す符号と基本周波数の量子
化値を示す符号とに分離し、受信したスペクトル包絡情
報から量子化されたスペクトル包絡曲面を再構成し、再
構成されたスペクトル包絡曲面を基本周波数情報に基づ
いて切り出して復号音声を合成することとした。
絡情報を独立して量子化し、時間軸変換係数の次数に応
じたモデルを適用して音声符号化することができるの
で、いずれかの情報の量子化精度が劣化することに伴っ
て他方の情報の量子化効率が低下することを避けること
ができ、低ビットレートで情報を送信する場合であって
も高品質に音声復号を実現することができる。
力音声信号から基本周波数とスペクトル包絡情報を抽出
させる手順と、抽出された基本周波数を量子化させる手
順と、抽出されたスペクトル包絡情報からスペクトル包
絡曲面を生成させる手順と、生成されたスペクトル包絡
曲面に対し時間軸方向の直交変換を行わせる手順と、直
交変換された時間軸変換係数に対し時間軸上の次数に応
じたモデルを適用しパラメータを抽出させる手順と、抽
出されたモデルパラメータを量子化させる手順と、スペ
クトル包絡曲面の量子化値と基本周波数の量子化値とを
多重化させる手順とを実行させるための音声符号化プロ
グラムを記録した機械読み取り可能なものである。
記記録媒体に記録された音声符号化プログラムの実行に
より得られる符号列をスペクトル包絡情報の量子化値を
示す符号と基本周波数の量子化値を示す符号とに分離さ
せる手順と、受信したスペクトル包絡情報から量子化さ
れたスペクトル包絡曲面を再構成させる手順と、再構成
されたスペクトル包絡曲面を基本周波数情報に基づいて
切り出させて復号音声を合成させる手順とを実行させる
ための音声復号化プログラムを記録した機械読み取り可
能なものである。
情報を独立して量子化し、時間軸変換係数の次数に応じ
たモデルを適用して音声符号化することができるので、
いずれかの情報の量子化精度が劣化することに伴って他
方の情報の量子化効率が低下することを避けることがで
き、低ビットレートで情報を送信する場合であっても高
品質に音声復号を実現することができる。
たスペクトル包絡曲面を基本周波数に基づいて切り出す
ことにより音声信号が生成されることに着目し、スペク
トル包絡情報と音源情報を完全に分離してスペクトル包
絡情報の量子化精度に影響されない音声符復号化処理を
実現すること、かつ、分析合成モデルにおいて有効なス
ペクトル包絡情報の高効率量子化手法を通して高能率音
声符復号処理を実現することである。
図面を参照して詳細に説明する。
形態1に係る音声符号化装置及び音声復号化装置の構成
を示すブロック図である。
声分析部101は、入力音声信号から基本周波数と短時
間スペクトル包絡情報を抽出する。基本周波数量子化部
102は、音声分析部101にて抽出された基本周波数
を量子化する。
間スペクトル包絡情報を抽出する音声分析に関しては、
既に[河原英紀、増田郁代、“時間周波数領域での補間
を用いた音声の変換について,”信学技報EA96-28,pp.9
-18,1996]等において、STRAIGHT分析合成モデルに基づ
いて行ったものが開示されている。このモデルにおい
て、音源情報は基本周波数のみでありスペクトル包絡情
報と完全に独立しているため、音源情報及びスペクトル
包絡情報の量子化誤差が互いの情報の量子化に影響を及
ぼすことはない。
101にて抽出された短時間スペクトル包絡情報を時間
軸に沿って並べることにより時間−周波数平面上のスペ
クトル包絡曲面を生成する。スペクトル包絡量子化部1
04は、マトリックス生成部103にて生成されたスペ
クトル包絡曲面を量子化する。
平面平面上の連続関数として量子化するのは、切り出さ
れるスペクトル包絡のみを量子化した場合、音源情報に
依存してスペクトル包絡情報を量子化することとなり、
本発明の骨子である情報の量子化処理における分離がで
きなくなるためである。
部104から出力されたスペクトル包絡曲面の量子化値
を示す符号と、基本周波数量子化部102から出力され
た基本周波数の量子化値を示す符号とを多重化して通信
路に送出する。
多重化部201は、受信した符号列をスペクトル包絡情
報の量子化値を示す符号と基本周波数の量子化値を示す
符号とに分離する。
スペクトル包絡情報から量子化されたスペクトル包絡曲
面を再構成する。音声合成部203は、スペクトル包絡
構成部202にて再構成されたスペクトル包絡曲面を、
基本周波数情報に基づいて切り出すことにより復号音声
を合成し出力する。
声符号化装置及び音声復号化装置の情報処理動作の流れ
について説明する。
101にて、入力した入力音声信号から基本周波数と短
時間スペクトル包絡情報が抽出される。抽出された基本
周波数は、基本周波数量子化部102にて量子化され
る。
報は、マトリックス生成部103にて時間軸に沿って並
べられ、時間−周波数平面上のスペクトル包絡曲面が生
成される。スペクトル包絡曲面は、スペクトル包絡量子
化部104にて量子化される。
絡曲面は、多重化部105にて多重され通信路に送出さ
れる。そして、基本周波数及びスペクトル包絡曲面は、
音声復号化装置200の逆多重化部201に受信され、
スペクトル包絡情報の量子化値と基本周波数の量子化値
とに分離される。
ル包絡構成部202に入力され、スペクトル包絡構成部
202においてスペクトル包絡曲面が再構成される。
成されたスペクトル包絡曲面が基本周波数情報に基づい
て切り出されることにより、復号音声が合成され出力さ
れる。
報を独立して量子化することにより、いずれかの情報の
量子化精度が劣化することに伴って他方の情報の量子化
効率が低下することを避けることができ、低ビットレー
トで情報を送信する場合であっても高品質に音声復号を
実現することができる。
形態2に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。
の構成は、実施の形態1の図1に示した音声符号化装置
の構成と同様であるので説明を省略する。
いて、2次元直交変換器301は、スペクトル包絡曲面
に対し時間軸方向及び周波数軸方向の2次元直交変換を
行う。パラメータ量子化器302は、2次元直交変換器
301における2次元直交変換処理にて得られた変換係
数を量子化する。
波成分の差異は聴感上認識されにくい。従って、直交変
換して得られる低周波成分の係数情報のみを用いて復号
化側で音声合成しても音声品質が大きく劣化することは
ない。そこで、パラメータ量子化器302では、低周波
成分の係数情報のみを量子化する。
上重要でない情報を削除することができ、低ビットレー
トで情報を送信する場合であっても高品質に音声復号を
実現することができる。
形態3に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。
の構成は、実施の形態1の図1に示した音声符号化装置
の構成と同様であるので説明を省略する。
いて、モデル適用器311は、スペクトル包絡曲面をモ
デル化してモデルパラメータを抽出する。
スペクトル包絡曲面をモデル化したものであり、例え
ば、図4に示すように、スペクトル包絡曲面の時間軸に
おける両断面に対する全極モデルの適用及びその補完に
よりモデル化することができる。
器311にて抽出されたモデルパラメータを量子化す
る。
化することにより、スペクトル包絡曲面の量子化効率を
向上させることができ、低ビットレートで情報を送信す
る場合であっても高品質に音声復号を実現することがで
きる。
形態4に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。
の構成は、実施の形態1の図1に示した音声符号化装置
の構成と同様であるので説明を省略する。
いて、時間軸直交変換器321は、スペクトル包絡曲面
に対し時間軸方向の直交変換を行う。モデル適用器31
1は、直交変換された時間軸変換係数に対し、時間軸上
の次数に応じたモデルを適用しパラメータを抽出する。
パラメータ量子化器302は、モデル適用器311にて
抽出されたモデルパラメータを量子化する。
たモデルを適用することにより、モデル化による量子化
効率を向上させることができ、低ビットレートで情報を
送信する場合であっても高品質に音声復号を実現するこ
とができる。
形態5に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。
の構成は、実施の形態1の図1に示した音声符号化装置
の構成と同様であるので説明を省略する。
いて、時間軸直交変換器331は、スペクトル包絡曲面
に対し時間軸方向の直交変換を行い、直交変換された時
間軸変換係数をモデル化するものとしないものとに分類
する。この分類方法として、例えば、時間軸0次の係数
は、スペクトル包絡曲面を平均したスペクトル包絡であ
るので全極モデルを適用し、それ以外の係数にはモデル
を適用しない方法等がある。
間軸変換係数の一部に対し、時間軸上の次数に応じたモ
デルを適用しパラメータを抽出する。周波数軸直交変換
器332は、モデルを適用しない時間軸変換係数に対し
周波数軸方向の直交変換を行う。パラメータ量子化器3
02は、モデル適用器311にて抽出されたモデルパラ
メータ及び周波数軸直交変換器332から出力された変
換係数を量子化する。
向上する時間軸変換係数に対してのみモデルを適用する
ことにより、モデル化による量子化効率を向上しつつモ
デル化歪を低減し、低ビットレートで情報を送信する場
合であっても高品質に音声復号を実現することができ
る。
形態6に係る音声符号化装置のモデル適用器の内部構成
を示すブロック図である。
11は、上記実施の形態3から5のいずれかに示したも
のである。
号に対してモデルを適用しパラメータを抽出する。
を考慮して全極モデルで入力信号をモデル化する。しか
し、モデルの次数が低い場合、モデルは、信号に含まれ
る零点を表すことができず、モデルによる分析歪が生じ
る。
ルを適用する際に生じた分析歪を推定してパラメータ量
子化器に出力する。
により、モデル化による量子化効率を向上しつつモデル
化歪を低減し、低ビットレートで情報を送信する場合で
あっても高品質に音声復号を実現することができる。
形態7に係る音声符号化装置のパラメータ量子化器の内
部構成を示すブロック図である。
化器302は、上記実施の形態2から5のいずれかに示
したものである。
いて各量子化対象値に対する量子化感度を決定する。以
下、重み算出器501における量子化感度の決定方法の
一例を示す。
基本周波数に従って切り出し、時間軸上で連結すること
で復号音声を生成する。このとき、基本周波数の高調波
振幅値は、その他のスペクトル振幅値と比較し重要な情
報となる。そこで、切り出されるスペクトル包絡位置の
高調波振幅値に重み付けした重み係数曲面を生成する。
を用いて変換して量子化対象パラメータ空間での重み係
数を算出することにより、各量子化対象値に対する量子
化感度を決定する。
を用いて各量子化対象値に対する量子化感度を決定す
る。以下、重み算出器502における量子化感度の決定
方法の一例を示す。
れる場合、ダイナミックレンジの小さな信号は大きな信
号と比較し、聴感上において雑音が目立つ。そこで、ス
ペクトル包絡曲面で振幅が小さい程大きく重み付けした
重み係数曲面を生成する。
を用いて変換して量子化対象パラメータ空間での重み係
数を算出することにより、各量子化対象値に対する量子
化感度を決定する。なお、重み算出器502における量
子化器の適応法は復号化処理においても必要となるた
め、復号化処理との同期をとるべく前フレームで量子化
したスペクトル包絡情報を用いることが望ましい。
化対象値毎の統計量が蓄積されている。量子化生成器5
04は、重み算出器501及び重み算出器502から出
力された量子化対象値に対する量子化感度と、統計量蓄
積器503に蓄積されている統計量から量子化器を設計
する。
統計量として量子化対象値の分散を蓄積しておき、この
分散と量子化感度に基づいて量子化ステップ幅を決定す
る。分散が同じ場合には量子化感度が大きい。すなわ
ち、量子化誤差の影響を受けやすい量子化対象値に対し
て量子化ステップ幅が小さくなるようにする。
設計結果に基づいて量子化対象値を量子化する。
絡情報に対して量子化器を適応させることにより、合成
音声信号の客観的な量子化歪及び聴感上の歪を低減する
ことができる。
及びスペクトル包絡情報の2つの情報を用いてそれぞれ
各量子化対象値に対する量子化感度を決定したが、いず
れか一方の情報を用いて量子化感度を決定し、量子化器
を設計してもよい。
形態8に係る音声符号化装置のパラメータ量子化器の内
部構成を示すブロック図である。
化器302は、上記実施の形態2から5のいずれかに示
したものである。
を用いてスペクトル包絡上での量子化誤差尺度を適応的
に決定する。誤差尺度決定器512は、スペクトル包絡
情報を用いてスペクトル包絡上での量子化誤差尺度を適
応的に決定する。誤差尺度合成器513は、誤差尺度決
定器511及び誤差尺度決定器512で得られた誤差尺
度を1つの誤差尺度に合成する。
いる。スペクトル包絡構成器515は、符号帳514に
蓄積されている量子化値をスペクトル包絡曲面に変換す
る。スペクトル包絡構成器516は、量子化対象値をス
ペクトル包絡曲面に変換する。
3から出力された誤差尺度に基づいて、スペクトル包絡
構成器515にて構成されたスペクトル包絡曲面とスペ
クトル包絡構成器516にて構成されたスペクトル包絡
曲面との誤差を算出する。
子化値に対応する符号を符号帳514から選択して出力
する。
絡情報に対して適応させた量子化時の誤差尺度を用いて
スペクトル包絡曲面の誤差を時間−周波数平面上で算出
することにより、合成音声信号の客観的な量子化歪及び
聴感上の歪を低減することができる。
スペクトル包絡情報の両方に関してスペクトル包絡上で
の量子化誤差尺度を決定したが、いずれか一方に関して
量子化誤差尺度を決定し、誤差を算出してもよい。
の形態9に係る音声符号化装置のパラメータ量子化器の
内部構成を示すブロック図である。
化器302は、上記実施の形態2から5のいずれかに示
したものである。
を用いてスペクトル包絡上での量子化誤差重み関数を適
応的に決定する。誤差関数決定器522は、スペクトル
包絡情報を用いてスペクトル包絡上での量子化誤差重み
関数を適応的に決定する。誤差関数合成器523は、誤
差関数決定器521及び誤差関数決定器522で得られ
た量子化誤差重み関数を1つの誤差関数に合成する。誤
差関数変換器524は、誤差関数合成器523から出力
された量子化誤差重み関数を変換する量子化パラメータ
上での誤差尺度を定義する。
いる。誤差算出器526は、誤差関数変換器524から
出力された誤差尺度に基づいて、量子化対象値と符号帳
525に蓄積されている量子化値との誤差を算出する。
子化値に対応する符号を符号帳525から選択して出力
する。
絡情報に対して適応させた量子化時の誤差尺度を用いて
量子化パラメータ間の誤差を算出することにより、少な
い処理量で合成音声信号の客観的な量子化歪及び聴感上
の歪を低減することができる。
スペクトル包絡情報の両方に関してスペクトル包絡上で
の量子化誤差重み関数を決定したが、いずれか一方に関
して量子化誤差重み関数を決定し、誤差を算出してもよ
い。
施の形態10に係る音声復号化装置のスペクトル包絡構
成部の内部構成を示すブロック図である。
の構成は、実施の形態1の図1に示した音声復号化装置
の構成と同様であるので説明を省略する。
に、直交変換を用いる音声符復号化方法では、符号側に
おいて、聴覚上重要でない高周波成分を伝送しないこと
で情報圧縮を図っている。そこで、本実施の形態では、
復号側において、予め統計的に求めたパラメータ値を使
用して、受信されなかったパラメータを補完することに
より包絡曲面を生成する。
いて、パラメータ蓄積器601には、量子化対象外の各
パラメータに対応して予め統計的に求めたパラメータ値
が蓄積されている。スペクトル包絡生成器602は、入
力したスペクトル包絡情報に基づいてスペクトル包絡曲
面を生成する。
して統計的に求めた値を用いることにより、任意の値を
用いた場合と比較して正確なスペクトル包絡曲面を復元
することができる。
化装置、音声復号化装置及び音声符復号化方法によれ
ば、スペクトル包絡情報と音源情報を完全に分離してス
ペクトル包絡情報の量子化精度に影響されない音声符復
号化処理を実現すること、かつ、分析合成モデルにおい
て有効なスペクトル包絡情報の高効率量子化手法を通し
て高能率音声符復号処理を実現することができるので、
低ビットレートで情報を送信する場合であっても高品質
に音声復号を実現することができる。
び音声復号化装置の構成を示すブロック図
スペクトル包絡量子化部の内部構成を示すブロック図
スペクトル包絡量子化部の内部構成を示すブロック図
デル図
スペクトル包絡量子化部の内部構成を示すブロック図
スペクトル包絡量子化部の内部構成を示すブロック図
モデル適用器の内部構成を示すブロック図
パラメータ量子化器の内部構成を示すブロック図
パラメータ量子化器の内部構成を示すブロック図
のパラメータ量子化器の内部構成を示すブロック図
置のスペクトル包絡構成部の内部構成を示すブロック図
構成を示すブロック図
Claims (11)
- 【請求項1】 入力音声信号から基本周波数とスペクト
ル包絡情報を抽出する音声分析手段と、抽出された基本
周波数を量子化する基本周波数量子化手段と、抽出され
たスペクトル包絡情報からスペクトル包絡曲面を生成す
るマトリックス生成手段と、生成されたスペクトル包絡
曲面に対し時間軸方向の直交変換を行う時間軸直交変換
手段と、直交変換された時間軸変換係数に対し時間軸上
の次数に応じたモデルを適用しパラメータを抽出するモ
デル適用手段と、抽出されたモデルパラメータを量子化
するパラメータ量子化手段と、スペクトル包絡曲面の量
子化値と基本周波数の量子化値とを多重化して送出する
多重化手段とを具備することを特徴とする音声符号化装
置。 - 【請求項2】 モデルを適用しない時間軸変換係数に対
し周波数軸方向の直交変換を行う周波数軸直交変換手段
を具備し、パラメータ量子化手段は、抽出されたモデル
パラメータ及び前記周波数軸直交変換手段から出力され
た変換係数を量子化することを特徴とする請求項1記載
の音声符号化装置。 - 【請求項3】 モデル適用手段は、入力信号に対してモ
デルを適用しパラメータを抽出するモデルパラメータ推
定手段と、このモデルパラメータ推定手段にてモデルを
適用した際に生じた分析歪を推定するモデル誤差推定手
段とを具備することを特徴とする請求項1又は請求項2
記載の音声符号化装置。 - 【請求項4】 パラメータ量子化手段は、基本周波数情
報とスペクトル包絡情報の少なくとも一方を用いて各量
子化対象値に対する量子化感度を決定する重み算出手段
と、予め求めた量子化対象値毎の統計量を蓄積する統計
量蓄積手段と、前記重み算出手段から出力された量子化
対象値に対する量子化感度及び統計量蓄積手段に蓄積さ
れている統計量から量子化器を設計する量子化生成手段
と、この量子化生成手段の設計結果に基づいて量子化対
象値を量子化する量子化手段とを具備することを特徴と
する請求項1から請求項3のいずれかに記載の音声符号
化装置。 - 【請求項5】 パラメータ量子化手段は、基本周波数情
報とスペクトル包絡情報の少なくとも一方を用いてスペ
クトル包絡上での量子化誤差尺度を適応的に決定する誤
差尺度決定手段と、符号帳に蓄積されている量子化値を
スペクトル包絡曲面に変換する第1スペクトル包絡構成
手段と、量子化対象値をスペクトル包絡曲面に変換する
第2スペクトル包絡構成手段と、前記第1スペクトル包
絡構成手段にて構成されたスペクトル包絡曲面と前記第
2スペクトル包絡構成手段にて構成されたスペクトル包
絡曲面との誤差を誤差尺度に基づいて算出する誤差算出
手段と、誤差が最小となる量子化値に対応する符号を符
号帳から選択する符号選択手段とを具備することを特徴
とする請求項1から請求項3のいずれかに記載の音声符
号化装置。 - 【請求項6】 パラメータ量子化手段は、基本周波数情
報とスペクトル包絡情報の少なくとも一方を用いてスペ
クトル包絡上での量子化誤差重み関数を適応的に決定す
る誤差関数決定手段と、量子化誤差重み関数を変換する
量子化パラメータ上での誤差尺度を定義する誤差関数変
換手段と、誤差尺度に基づいて量子化対象値と符号帳に
蓄積されている量子化値との誤差を算出する誤差算出手
段と、誤差が最小となる量子化値に対応する符号を符号
帳から選択する符号選択手段とを具備することを特徴と
する請求項1から請求項3のいずれかに記載の音声符号
化装置。 - 【請求項7】 請求項1から請求項6のいずれかに記載
の音声符号化装置から送信された符号列をスペクトル包
絡情報の量子化値を示す符号と基本周波数の量子化値を
示す符号とに分離する逆多重化手段と、受信したスペク
トル包絡情報から量子化されたスペクトル包絡曲面を再
構成するスペクトル包絡構成手段と、再構成されたスペ
クトル包絡曲面を基本周波数情報に基づいて切り出して
復号音声を合成する音声合成手段とを具備することを特
徴とする音声復号化装置。 - 【請求項8】 スペクトル包絡構成手段は、量子化対象
外の各パラメータに対応して予め統計的に求めたパラメ
ータ値を蓄積するパラメータ蓄積手段と、入力したスペ
クトル包絡情報に基づいてスペクトル包絡曲面を生成す
るスペクトル包絡生成手段とを具備することを特徴とす
る請求項7記載の音声復号化装置。 - 【請求項9】 符号側にて、入力音声信号から基本周波
数とスペクトル包絡情報を抽出し、抽出された基本周波
数を量子化し、抽出されたスペクトル包絡情報からスペ
クトル包絡曲面を生成し、生成されたスペクトル包絡曲
面に対し時間軸方向の直交変換を行い、直交変換された
時間軸変換係数に対し時間軸上の次数 に応じたモデルを
適用しパラメータを抽出し、抽出されたモデルパラメー
タを量子化し、スペクトル包絡曲面の量子化値と基本周
波数の量子化値とを多重化して送出し、復号側にて、受
信した符号列をスペクトル包絡情報の量子化値を示す符
号と基本周波数の量子化値を示す符号とに分離し、受信
したスペクトル包絡情報から量子化されたスペクトル包
絡曲面を再構成し、再構成されたスペクトル包絡曲面を
基本周波数情報に基づいて切り出して復号音声を合成す
ることを特徴とする音声符復号化方法。 - 【請求項10】 コンピュータに、入力音声信号から基
本周波数とスペクトル包絡情報を抽出させる手順と、抽
出された基本周波数を量子化させる手順と、抽出された
スペクトル包絡情報からスペクトル包絡曲面を生成させ
る手順と、生成されたスペクトル包絡曲面に対し時間軸
方向の直交変換を行わせる手順と、直交変換された時間
軸変換係数に対し時間軸上の次数に応じたモデルを適用
しパラメータを抽出させる手順と、抽出されたモデルパ
ラメータを量子化させる手順と、スペクトル包絡曲面の
量子化値と基本周波数の量子化値とを多重化させる手順
とを実行させるための音声符号化プログラムを記録した
機械読み取り可能な記録媒体。 - 【請求項11】 コンピュータに、請求項10の記録媒
体に記録された音声符号化プログラムの実行により得ら
れる符号列をスペクトル包絡情報の量子化値を示す符号
と基本周波数の量子化値を示す符号とに分離させる手順
と、受信したスペクトル包絡情報から量子化されたスペ
クトル包絡曲面を再構成させる手順と、再構成されたス
ペクトル包絡曲面を基本周波数情報に基づいて切り出さ
せて復号音声を合成させる手順とを実行させるための音
声復号化プログラムを記録した機械読み取り可能な記録
媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27511999A JP3360046B2 (ja) | 1999-09-28 | 1999-09-28 | 音声符号化装置、音声復号化装置及び音声符復号化方法 |
EP00961220A EP1132891A1 (en) | 1999-09-28 | 2000-09-25 | Voice encoder, voice decoder, and voice encoding and decoding method |
PCT/JP2000/006542 WO2001024164A1 (fr) | 1999-09-28 | 2000-09-25 | Codeur vocal, decodeur vocal et procede de codage et de decodage de la parole |
AU73212/00A AU7321200A (en) | 1999-09-28 | 2000-09-25 | Voice encoder, voice decoder, and voice encoding and decoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27511999A JP3360046B2 (ja) | 1999-09-28 | 1999-09-28 | 音声符号化装置、音声復号化装置及び音声符復号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001100798A JP2001100798A (ja) | 2001-04-13 |
JP3360046B2 true JP3360046B2 (ja) | 2002-12-24 |
Family
ID=17550984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27511999A Expired - Fee Related JP3360046B2 (ja) | 1999-09-28 | 1999-09-28 | 音声符号化装置、音声復号化装置及び音声符復号化方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1132891A1 (ja) |
JP (1) | JP3360046B2 (ja) |
AU (1) | AU7321200A (ja) |
WO (1) | WO2001024164A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9072535B2 (en) | 2011-05-27 | 2015-07-07 | Ethicon Endo-Surgery, Inc. | Surgical stapling instruments with rotatable staple deployment arrangements |
KR100738109B1 (ko) * | 2006-04-03 | 2007-07-12 | 삼성전자주식회사 | 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치 |
JP5799824B2 (ja) | 2012-01-18 | 2015-10-28 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2707577B2 (ja) * | 1988-03-07 | 1998-01-28 | 富士通株式会社 | ホルマント抽出装置 |
-
1999
- 1999-09-28 JP JP27511999A patent/JP3360046B2/ja not_active Expired - Fee Related
-
2000
- 2000-09-25 EP EP00961220A patent/EP1132891A1/en not_active Withdrawn
- 2000-09-25 AU AU73212/00A patent/AU7321200A/en not_active Abandoned
- 2000-09-25 WO PCT/JP2000/006542 patent/WO2001024164A1/ja not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
WO2001024164A1 (fr) | 2001-04-05 |
JP2001100798A (ja) | 2001-04-13 |
EP1132891A1 (en) | 2001-09-12 |
AU7321200A (en) | 2001-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5165559B2 (ja) | オーディオコーデックポストフィルタ | |
US8949119B2 (en) | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program | |
US20170236530A1 (en) | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program | |
JP5267362B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
RU2389085C2 (ru) | Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx | |
KR101835910B1 (ko) | 부호화 장치 및 방법, 복호 장치 및 방법, 및 컴퓨터 판독가능한 기록 매체 | |
JP3483958B2 (ja) | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 | |
JP5975243B2 (ja) | 符号化装置および方法、並びにプログラム | |
JP5413839B2 (ja) | 符号化装置および復号装置 | |
JP5285162B2 (ja) | ピーク検出に基づいた選択型スケーリングマスク演算 | |
KR102217709B1 (ko) | 노이즈 신호 처리 방법, 노이즈 신호 생성 방법, 인코더, 디코더, 및 인코딩/디코딩 시스템 | |
JP4606418B2 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
JP5737077B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
RU2599966C2 (ru) | Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи | |
KR20090083069A (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
JP6508551B2 (ja) | 復号装置および方法、並びにプログラム | |
KR20070070189A (ko) | 음성 부호화 장치 및 음성 부호화 방법 | |
KR20040007815A (ko) | 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치 | |
WO2010016270A1 (ja) | 量子化装置、符号化装置、量子化方法及び符号化方法 | |
KR20070051857A (ko) | 스케일러블 오디오 코딩 | |
KR20070061843A (ko) | 스케일러블 부호화 장치 및 스케일러블 부호화 방법 | |
JP3765171B2 (ja) | 音声符号化復号方式 | |
JP4603485B2 (ja) | 音声・楽音符号化装置及び音声・楽音符号化方法 | |
CN115171709A (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
EP1672619A2 (en) | Speech coding apparatus and method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081011 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091011 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091011 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101011 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111011 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121011 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131011 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |