JP3153075B2 - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JP3153075B2 JP3153075B2 JP19895094A JP19895094A JP3153075B2 JP 3153075 B2 JP3153075 B2 JP 3153075B2 JP 19895094 A JP19895094 A JP 19895094A JP 19895094 A JP19895094 A JP 19895094A JP 3153075 B2 JP3153075 B2 JP 3153075B2
- Authority
- JP
- Japan
- Prior art keywords
- delay
- subframe
- unit
- frame
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
ート、特に4.8kb/s以下で高品質に符号化するための音
声符号化方式に関する。
ートで符号化する方式としては、例えば、シュレーダー
(M. Schroeder)及びアタル(B. A. Atal)氏による
“Code-excited linear prediction: High quality sp
eech at low bit rates”(Proc.ICASSP, pp.937〜940,
1985年)と題した論文(「文献1」という)や、クラ
イン(Kleijn)氏らによる“Improved speech quality
and efficient vector quantization in SELP”(Proc.
ICASSP, pp.155〜158, 1988年)と題した論文(「文献
2」という)等に記載されているCELP(Code Excited L
PC Coding)が知られている。
ム毎(例えば20ms)に音声信号から線形予測(LP
C)分析を用いて、音声信号のスペクトル特性を表わす
スペクトルパラメータを抽出し、フレームをさらにサブ
フレーム(例えば5ms)に分割し、サブフレーム毎に
過去の音源信号をもとに適応コードブックにおけるパラ
メータ(遅延パラメータとゲインパラメータ)を抽出
し、適応コードブックにより前記サブフレームの音声信
号をピッチ予測し、ピッチ予測して求めた残差信号に対
して、予め定められた種類の雑音信号からなる音源コー
ドブック(ベクトル量子化コードブック)から最適な音
源コードベクトルを選択し最適なゲインを計算する。
した雑音信号により合成した信号と、前記残差信号との
誤差電力を最小化するように行う。そして選択されたコ
ードベクトルの種類を表すインデクスとゲイン、ならび
に、前記スペクトルパラメータと適応コードブックのパ
ラメータをマルチプレクサ部により組み合わせて伝送す
る。
装置から伝送された、コードベクトルのインデクスとゲ
イン、スペクトルパラメータ等の伝送符号に基づき、音
声信号を合成する。なお、復号化装置の構成は、本発明
の主題に直接関係しないため、その説明を省略する。
従来方法では、ビットレートを低減化するために音源コ
ードブックのビット数を低減すると、特に女性音の音質
が急激に劣化するという問題があった。
源コードブックのビット数はなるべく下げずに、適応コ
ードブックの遅延を差分表現にし、適応コードブックの
遅延を表すためのビット数を低減化する方法が知られて
いる。
フレームの遅延と現在のサブフレームの遅延との差分
を、予め定められた少ないビット数で表すことになる。
ム長が8msの場合、第1番目のサブフレームの遅延を8
ビットで表現し、第2〜5サブフレームでの遅延は、一
つ過去のサブフレームとの差分表現として5ビットで表
現することにすれば、フレーム全体では28ビットで表さ
れる。
ットを割り当てる従来法がフレーム当たり40ビット必要
であるのに比べ、30%のビット数低減となる。
詳細は、例えばガーソン(Gerson)氏らによる“Techni
ques for improving the performance of CELP type sp
eechcoders”, IEEE J. Sel. Areas in Commun, pp.858
〜865, 1992年(「文献3」という)等を参照すること
ができる。
な母音部では、遅延の値はサブフレーム間において時間
的に相関が強いので、差分表現としても、劣化は少ない
ものの、音声の過渡部や、母音部でも音韻の遷移部など
で、音声のピッチ周期が比較的大きく変化しているよう
な箇所では、差分表現をすることにより、ピッチの時間
的変化を良好に表すことができず、再生音が不明瞭にな
ったり、雑音が混入したりして再生音声の音質が劣化し
てしまうという問題がある。
いくと、特に、女性話者や、ピッチの時間的変化が激し
い話者では顕著であった。
を解決し、比較的少ない演算量及びメモリ量により、例
えば4.8kb/s以下の低ビットレートでも良好な音質が得
られる音声符号化装置を提供することにある。
1の視点によれば、音声信号を入力し予め定められた時
間長のフレームに分割し前記フレームの音声信号をフレ
ームよりも時間的に短い複数個のサブフレームに分割す
るフレーム分割部と、前記音声信号のスペクトル的特徴
を表すスペクトルパラメータを求めて量子化するスペク
トルパラメータ計算部と、サブフレーム毎に音声信号の
ピッチ周期に対応する遅延を求める適応コードブック部
と、音源信号を量子化する音源量子化部と、前記スペク
トルパラメータ計算部と、前記適応コードブック部と、
前記音源量子化部とのそれぞれの出力信号を組み合わせ
て出力するマルチプレクサ部と、を有する音声符号化装
置において、フレーム内の少なくとも一つのサブフレー
ムにおいて前記適応コードブック部の遅延を過去のサブ
フレームの遅延との差分で表すと共に、差分で表すサブ
フレームの位置と遅延を表すためのビット数のうち少な
くとも一方をフレーム毎に決定することを特徴とする音
声符号化装置によって達成される。
声信号を入力し予め定められた時間長のフレームに分割
し前記フレームの音声信号をフレームよりも時間的に短
い複数個のサブフレームに分割するフレーム分割部と、
前記音声信号のスペクトル的特徴を表すスペクトルパラ
メータを求めて量子化するスペクトルパラメータ計算部
と、前記音声信号から特徴量を計算し前記音声信号をフ
レーム又はサブフレーム毎に予め定められた複数種類の
モードの一つに分類するモード分類部と、サブフレーム
毎に音声信号のピッチ周期に対応する遅延を求める適応
コードブック部と、音源信号を量子化する音源量子化部
と、前記スペクトルパラメータ計算部と、前記モード分
類部と、前記適応コードブック部と、前記音源量子化部
と、のそれぞれの出力信号を組み合わせて出力するマル
チプレクサ部と、を備え、フレーム内の少なくとも一つ
のサブフレームにおいて前記適応コードブック部の遅延
を過去のサブフレームの遅延との差分で表すと共に、差
分で表すサブフレームの位置あるいは遅延を表すための
ビット数のうち少なくとも一方を前記モードに応じて決
定することを特徴とする音声符号化装置を提供する。
で表すサブフレームの位置と該遅延を表すビット数を予
め規定するパターンを格納蓄積するパターン蓄積部を備
えたことを特徴とする。
ードブック部が、(a)遅延を差分で表すサブフレームの
位置と該遅延を表すビット数を規定するパターンをパタ
ーン蓄積部から読み込み、(b)各サブフレームにおいて
パターンに対応したビット数に基づき遅延探索範囲を設
定し、(c)各サブフレームについて前記遅延探索範囲に
おいてピッチ予測歪を最小化する順に遅延を少なくとも
1種探索し、(d)予め定められた個数(複数)のサブフ
レームに亘って前記ピッチ予測歪を累積した累積歪を計
算し、前記工程(a)〜(d)をパターンの種類だけ繰り返し
た後に、(e)前記累積歪を最小とするパターンを選択す
ると共に、各サブフレームにおける遅延候補を算出し、
(f)クローズドループ探索により遅延探索を行なう、上
記各工程を含むことを特徴としている。
類部は、好ましくは、前記音声信号の特徴量として、フ
レーム全体でピッチ予測歪を累積した累積歪を算出し、
該累積歪の大きさに基づき、モードを決定するように構
成される。
適応コードブック部が、(a)前記モード分類部からの出
力信号に基づき、遅延を差分で表すサブフレームの位置
と該遅延を表すビット数を規定するパターンを決定し、
(b)各サブフレームにおいてパターンに対応したビット
数に基づき遅延探索範囲を設定し、(c)各サブフレーム
について前記遅延探索範囲においてピッチ予測歪を最小
化する順に遅延を少なくとも1種探索し、(d)予め定め
られた個数(複数)のサブフレームに亘って前記ピッチ
予測歪を加算した累積歪を計算し、前記工程(b)〜(d)を
パターンの種類だけ繰り返した後に、(e)前記累積歪を
最小とするパターンを選択すると共に、各サブフレーム
における遅延候補を算出し、(f)クローズドループ探索
により遅延探索を行なう、上記各工程を含むことを特徴
としている。
下に説明する。
においては、音声信号をフレーム(例えば40ms)に分割
し、さらにサブフレーム(8ms)に分割する。フレーム
毎に音声のスペクトル的特徴を表すスペクトルパラメー
タを計算し量子化する。
に、音声のピッチ周期に対応する遅延を計算する。
の位置をフレーム毎に決定する例について説明する。
数を表すパターンを予めM種類作成しておく。以下では
簡単のために、M=2について説明する。
5,8,5,5)や(8,5,5,8,5)とする。ここで、5
ビットのサブフレームでは、遅延をサブフレームで表
し、8ビットのサブフレームでは、差分表現はしないも
のとする。
(8,5,8,5,5)では、第2、4、5サブフレーム
が、2番目のパターン(8,5,5,8,5)では、第2、
3、5サブフレームが差分で表される。なお、1フレー
ム(40ms)は5個のサブフレーム(8ms)より成るもの
としている。
あるいはクローズドループによる遅延の予備選択におい
て、まず各サブフレームにおいて、次式(1)を最小にす
る遅延をL種類(L≧1)選択する。
回路230の出力信号を、Tは遅延をそれぞれ示し、また
jはサブフレーム番号を示している。
ーズドループによる遅延の選択とは、過去の音源信号を
フィルタ処理して合成信号を生成し、該合成信号と音声
信号との誤差電力を算出し、該算出された誤差電力が最
小となる順に遅延の候補を1又は複数個選択するもので
あり、一方、オープンループによる遅延の選択とは、過
去の音声信号を用いるものであり、探索においてフィル
タ処理は不要とされ、演算量が低減される。
サブフレームの遅延を基準にして、割り当てられたビッ
ト数で設定される遅延探索範囲(T3≦T≦T4、但し、
T1≦T3<T4≦T2)において、上式(1)を最小にする
遅延を選択する。すなわち、遅延を差分表現しないサブ
フレームでは、例えば、T1=20、T2=147として、1/2
刻みの小数点遅延とすれば、遅延探索範囲は256種類と
なり、8ビットで表現され、また、差分表現するサブフ
レームでは、遅延探索範囲を、T3≦T≦T4とする。
文献3等を参照することができる。
ムの個数だけ行い、次式(2)により複数個のサブフレー
ムに亘って累積した累積歪を計算する。
個数である。例えばSの値は、フレームのサブフレーム
の個数とすることができる。
の候補数だけ繰り返し、累積歪(上式(2))を最小にす
る遅延のサブフレーム毎の組合せを1種類決定する。
各々について繰り返し、累積歪の小さい方のパターンを
選択する。
レーム毎の音声信号から特徴量を計算し、これを用いて
音声信号を、予め定められた複数種類のモードのうちの
一つに分類する。
また、特徴量としては、サブフレーム毎に求めたオープ
ンループのピッチ予測歪である上式(1)を式(2)により累
積した累積歪とする。
累積歪の値を、予め定められた所定の3種類のしきい値
TH1〜TH3と比較して、モードを決定する。モードの
決定は、例えば、以下のようにして行う。
のときはモード0を、閾値TH1以下でTH2より大のと
きはモード1を、閾値TH2以下でTH3より大のときは
モード2を、閾値TH3以下のときはモード3を選択す
る。但し、TH3<TH2<TH1とする。
応じて、遅延を差分で表すサブフレームの位置及び、遅
延を表すためのビット数を決定する。例えば、モードと
ビット数の対応は下記のようになる。
ードブックを使用しない。また、上記したモードとビッ
ト数との対応において、ビット数が5ビットのサブフレ
ームでは、遅延の差分表現を行い、8ビットのサブフレ
ームでは差分表現を行わない。
いて遅延を計算する際に、フレーム内の少なくとも一つ
のサブフレームにおいて、遅延を差分で表現すると共
に、差分で表すサブフレームの位置と遅延を表すための
ビット数のうち、少なくとも一方をフレーム毎に決定す
るように構成されるため、従来の方式と比べ、適応コー
ドブック部において伝送すべき情報を低減化しており、
このため、ビットレートを低減化できるだけでなく、音
声の過渡部等で、ピッチ周期に対応する遅延が時間的に
変化していても劣化の少ない再生音声を提供できる。
フレームの音声を、複数種類のモードに分類し、モード
に応じて差分表現をするサブフレームの位置あるいは、
差分表現のときの割当ビット数を決定するように構成さ
れているため、従来の方式と比べ、適応コードブック部
において伝送すべき情報を低減化しており、ビットレー
トを低減化できるだけでなく、音声の過渡部等で、ピッ
ト周期に対応する遅延が時間的に変化していても劣化の
少ない再生音声を提供できる。
明する。
施例を示すブロック図である。
を入力し、フレーム分割回路110では音声信号をフレー
ム(例えば40ms)毎に分割し、サブフレーム分割回路12
0では、フレームの音声信号をフレームよりも短いサブ
フレーム(例えば8ms)に分割する。
少なくとも一つのサブフレームの音声信号に対して、サ
ブフレーム長よりも長い窓(window)(例えば24ms)を
かけて音声を切り出し、スペクトルパラメータを予め定
められた次数(例えばP=10次)計算する。
間での過渡区間では時間的に大きく変化するので、短い
時間毎に分析する方が望ましいが、そのようにすると分
析に必要な演算量が増大するため、ここでは、フレーム
中のいずれかL個(L>1)のサブフレーム(例えばL
=3とし、第1、3、5フレーム)に対してスペクトル
パラメータを計算することにする。
(ここでは第2、4フレーム)では、それぞれ第1と第
3サブフレーム、第3と第5サブフレームのスペクトル
パラメータを後述のLSP(線スペクトル対)上で直線
補間したものをスペクトルパラメータとして使用する。
は、周知のLPC分析(線形予測符号化)や、Burg
分析等を用いることができる。
る。なお、最大エントロピー法(MEM)に基づくスペ
クトル推定法であるBurg分析の詳細については、中
溝著による“信号解析とシステム同定”と題した単行本
(コロナ社1988年刊)の82〜87頁(「文献4」という)
に記載されているので説明は略する。
Burg法により計算された線形予測係数αi(i=1
〜10)を量子化や補間に適したLSPパラメータに変
換する。ここで、線形予測係数からLSPへの変換は、
菅村他による“線スペクトル対(LSP)音声分析合成
方式による音声情報圧縮”と題した論文(電子通信学会
論文誌、J64-A, pp.599〜606、1981年)(「文献5」と
いう)を参照することができる。なお、LSPはスペク
トルを線スペクトル対(Line Spectrum Pair)で求め周
波数軸上での量子化効率を上げるものである。
レームでBurg法により求めた線形予測係数をLSP
パラメータに変換し、第2、4サブフレームのLSPを
直線補間により求めて、第2、4サブフレームのLSP
を逆変換して線形予測係数に戻し、第1〜5サブフレー
ムの線形予測係数αil(i=1〜10、l=1〜5)を
聴感重み付け回路230に出力する。
ペクトルパラメータ量子化回路210へ出力する。
は、予め定められたサブフレームのLSPパラメータを
効率的に量子化する。
化を用いるものとし、第5サブフレームのLSPパラメ
ータを量子化するものとする。LSPパラメータのベク
トル量子化の手法は周知の手法を用いることができる。
具体的な方法は例えば、本願発明者による一連の発明、
即ち、特開平4-171500号公報(特願平2-297600号)
(「文献6」という)、特開平4-363000号公報(特願平
3-261925号)(「文献7」という)、及び特開平5-6199
号公報(特願平3-155949号)(「文献8」という)、あ
るいはT. Nomuraらによる“LSP Coding Using VQ-SVQ W
ith Interpolationin 4.075 kbps M-LCELP Speech Code
r”と題した論文(Proc. Mobile Multimedia Communica
tions, pp.B.2.5, 1993)(「文献9」という)等を参
照できるため、ここでは説明は略する。
0では、第5サブフレームで量子化したLSPパラメー
タをもとに、第1〜第4サブフレームのLSPパラメー
タを復元する。
の量子化LSPパラメータと一つ過去のフレームの第5
サブフレームの量子化LSPを直線補間して、第1〜第
4サブフレームのLSPを復元する。
SPとの誤差電力を最小化するコードベクトルを1種類
選択した後に、直線補間により第1〜第4サブフレーム
のLSPを復元できる。
差電力を最小化するコードベクトルを複数候補選択した
のちに、各々の候補について、累積歪を評価し、累積歪
を最小化する候補と補間LSPの組を選択するようにす
ることができる。詳細は、例えば、本願発明者による特
願平5-8737号明細書(「文献10」という)に記載されて
いる。
ムのLSPと第5サブフレームの量子化LSPをサブフ
レーム毎に線形予測係数α’il(i=1〜10、l=1
〜5)に変換し、インパルス応答計算回路310へ出力す
る。また、第5サブフレームの量子化LSPのコードベ
クトルを表すインデクスをマルチプレクサ400に出力す
る。
Pの補間パターンを予め定められたビット数(例えば2
ビット)分用意しておき、これらのパターンの各々に対
して第1〜第4サブフレームのLSPを復元して累積歪
を最小化するコードベクトルと補間パターンの組を選択
するようにしてもよい。
だけ伝送情報が増加するが、LSPのフレーム内での時
間的な変化をより精密に表すことができる。
のSPデータを用いて予め学習して作成してもよいし、
予め定められたパターンを格納しておいてもよい。予め
定められたパターンとしては、例えば、T.Taniguchiら
による“Improved CELP speech coding at 4kb/s and b
elow”と題した論文(Proc. ICSLP, pp.41〜44, 1992)
(「文献11」という)等に記載のパターンを用いること
ができる。
間パターンを選択した後に、予め定められたサブフレー
ムにおいて、LSPの真の値とLSPの補間値との誤差
信号を求め、前記誤差信号をさらに誤差コードブックで
表すようにしてもよい。詳細は、前記文献9等を参照で
きる。
メータ計算回路200から、各サブフレーム毎に量子化前
の線形予測係数αil(i=1〜10、l=1〜5)を入
力し、前記文献10に基づき、サブフレームの音声信号
に対して聴感重み付け信号xw(n)を出力する。
メータ計算回路200から、各サブフレーム毎に線形予測
係数αilを入力し、スペクトルパラメータ量子化回路21
0から、量子化、補間して復元した線形予測係数α’il
をサブフレーム毎に入力し、保存されているフィルタメ
モリの値を用いて、入力信号d(n)=0とした応答信号
を1サブフレーム分計算し、減算器250へ出力する。こ
こで、応答信号xz(n)は次式(3)で表される。
重み係数であり、次式(5)におけるγと同一の値であ
る。
け信号xw(n)から応答信号xz(n)を1サブフレーム分減
算し、x’w(n)を適応コードブック回路500へ出力す
る。
が次式(5)のz変換表示で表される、重み付けフィルタ
のインパルス応答hw(n)を予め定められた点数Lだけ計
算し、適応コードブック回路500、音源量子化回路350へ
出力する。
メータを求める。
の位置と遅延に割り当てるビット数をフレーム毎に決定
する例について説明する。フレーム内のサブフレームの
遅延のビット数を表すパターンを予めM種類作成してお
く。
し、パターンとしては、例えば作用の欄で説明したよう
に、(8,5,8,5,5)と(8,5,5,8,5)とする。こ
れらのパターンにおいて、5ビットのサブフレームでは
遅延を差分表現し、8ビットのサブフレームでは差分表
現はしない。
等を用いて実現する場合の処理のフローを示す。
ーン蓄積回路510に予め格納されたM種類のビット割当
パターンを読み込む。
て、ステップ501で読み込んだパターンで示されたビッ
ト数に従い、遅延探索範囲を設定する。
いサブフレームでは、T1≦T≦T2とする。一例とし
て、T1=20、T2=147として、1/2刻みの小数点遅延と
すれば、探索範囲は256種類となり、8ビットで表現で
きる。
延探索範囲は、T3≦T≦T4とし、T1≦T3<T4≦T2
とする。
して、T3=Tj-1−7・Δ、T4=Tj-1+8・Δとなる
ように設定する。ここで、Δは、遅延の刻み幅であり、
例えば1/2刻みとする。
定した遅延探索範囲において、各サブフレーム毎に遅延
を探索して、前記式(1)により歪Gjを計算し、Gjを最
小化する順に、遅延の候補をL種類(L≧1)選択す
る。
た歪GjをS個のサブフレームにわたり累積した累積歪
Gを計算する。Sは、フレームに含まれるサブフレーム
の個数とすることができる。ステップ504では、以上の
処理を遅延の候補数Lだけ繰り返し、累積歪Gを最小化
する遅延の組み合わせを選択する。
04の処理をパターンの種類だけ繰り返す。
累積歪Gを比較して累積歪を最小にするパターンを選択
すると共に、各サブフレームでの遅延を出力する。
と各サブフレームでの遅延の値を受取り、各サブフレー
ムにおいて、探索範囲を設定し、クローズドループ法に
より最適な遅延を計算する。ここで、クローズドループ
法による遅延の計算は、例えば前記文献2等を参照する
ことができる。
対応するインデクスをマルチプレクサ400に出力する。
また選択されたパターンを示すインデクスをマルチプレ
クサ400へ出力する。
チ予測を次式(6)に従って行い、適応コードブック予測
残差信号z(n)を出力する。
チ予測信号であり、次式(7)で与えられる。
イン、遅延をそれぞれ示す。v(n)は適応コードベクト
ルである。演算記号*は畳み込み演算(convolution)
を表している。
0では、音源コードブック340に格納された音源コードベ
クトルの全部あるいは一部に対して次式(8)を最小化す
るように、最良の音源コードベクトルcj(n)を選択す
る。
選択してもよいし、2種類以上のコードベクトルを予備
的に選択しておいて、ゲイン量子化の際に、1種に本選
択してもよい。ここでは、2種以上のコードベクトルを
選んでおくものとする。
のみ、上式(8)を適用するときには、複数個の音源コー
ドベクトルを予め予備選択しておき、予備選択された音
源コードベクトルに対して、上式(8)を適用することも
できる。
ック370からゲインコードベクトルを読みだし、選択さ
れた音源コードベクトルに対して、次式(9)を最小化す
るように、音源コードベクトルとゲインコードベクトル
の組み合わせを選択する。
ック370に格納された2次元ゲインコードブックにおけ
るk番目のコードベクトルである。
ードベクトルを表すインデクスをマルチプレクサ400に
出力する。
パラメータ計算回路の出力パラメータ及び、それぞれの
インデクスを入力し、インデクスからそれに対応するコ
ードベクトルを読み出し、まず次式(10)にもとづき駆動
音源信号v(n)を求める。
の出力パラメータ、スペクトルパラメータ量子化回路21
0の出力パラメータを用いて次式(11)により、重み付け
信号sw(n)をサブフレーム毎に計算し、応答信号計算回
路240へ出力する。
2の実施例を示すブロック図であり、本発明の第2の視
点に対応している。図3において、図1と同一の番号を
付した構成要素は、図1と同一の働きをするので、説明
は省略し、図1との相違点のみを以下に説明する。本実
施例では、フレーム毎の音声信号から特徴量を計算し、
これを用いて予め定められた複数種類のモードのうちの
一つに分類するものである。
は、フレーム分割回路110からの出力に基づき、フレー
ムの音声信号から特徴量を抽出してフレーム毎に複数個
のモードのいずれかに分類する。
し、特徴量としては、フレーム全体で累積した累積歪G
(前記式(2)参照)を用い、この累積歪Gを前記作用の
欄で説明した方法により、例えば予め定められた3種類
のしきい値TH1〜TH3と比較してモードを決定する。
コードブック回路550へ出力する。モード情報はマルチ
プレクサ400にも出力される。
ク回路550の処理フローを示す。図4において、図2と
同一の番号を付した各ステップは、図2と同一の処理を
行う。
ド情報を入力し、遅延を差分で表すサブフレームの位
置、及び遅延を表すためのビット数を決定する。具体的
な例は、前記作用の欄で説明した通りである。
502では、各サブフレームにおいて遅延探索範囲を設定
し、ステップ503では、各サブフレーム毎に前記式(1)に
より歪Gjを計算し、Gjを最小化する順に遅延の候補を
L種類(L≧1)選択し、ステップ504では、各サブフ
レームで求めた歪GjをS個のサブフレームにわたり累
積した累積歪Gを計算する。Sは、フレームに含まれる
サブフレームの個数とすることができる。ステップ504
では、以上の処理を遅延の候補数Lだけ繰り返し、累積
歪Gを最小化する遅延の組み合わせを選択する。
定されたパターンについて、ステップ502〜504の処理を
繰り返す。
ターンを選択すると共に、各サブフレームでの遅延の候
補を出力し、ステップ506では、ビット割当のパターン
と各サブフレームでの遅延の値を受取り、各サブフレー
ムにおいて、探索範囲を設定し、クローズドループ法に
より最適な遅延を計算する。
したが、本発明の範囲(スコープ)内において、上述し
た実施態様以外にも種々の変形が可能である。
ット配分パターンは任意の種類を選択可能である。
では、オープンループ探索を用いて最良パターンを選択
したが、クローズドループ探索を用いて選択することも
できる。
行うサブフレームの位置と、遅延に割り当てるビット数
とを、M種類のビット割当パターンを用いて同時に表し
たが、差分表現を行うサブフレームの位置をB1ビット
で表し、差分表現のときの割当ビット数を別のB2ビッ
トで表すようにしてもよい。
モードに応じて、差分表現を行うサブフレームの位置、
個数、あるいは、差分表現をするときの割当ビット数を
変えても良い。
P以外にも他の周知なパラメータを用いることができ
る。
は、フレーム中で少なくとも一つのサブフレームでスペ
クトルパラメータを計算する際に、前のサブフレームと
現在のサブフレームとのRMSの変化あるいはパワーの
変化を測定し、これらの変化が大きい複数個のサブフレ
ームに対してスペクトルパラメータを計算するようにし
てもよい。このようにすると、音声の変化点では必ずス
ペクトルパラメータを分析することになり、分析するサ
ブフレーム数を削減した場合にも、性能の劣化を防ぐこ
とができる。
の量子化には、ベクトル量子化、スカラ量子化、ベクト
ル−スカラ量子化等の周知な方法を用いることができ
る。
メータ量子化回路における補間パターンの選択には、他
の周知な距離尺度をを用いることができる。
において、コードブックが1段の場合について説明した
が、本発明では、音源量子化回路において、コードブッ
クを2段、あるいは多段構成にすることもできる。
らびに学習の際の距離尺度は、あるいは学習法は、他の
周知な尺度を用いることもできる。
ト数よりも全体で数倍大きなサイズのコードブックを予
め学習し、予め定められたモード毎に前記コードブック
の一部の領域を使用領域として割り当てておき、符号化
するときは、モードに応じて使用領域を切り替えて使用
することもできる。
適応コードブック部において遅延を計算する際に、フレ
ーム内の少なくとも一つのサブフレームにおいて、遅延
を差分で表現すると共に、差分で表すサブフレームの位
置と遅延を表すためのビット数のうち、少なくとも一方
をフレーム毎に決定しているので、従来方式と比べ、適
応コードブック部において伝送すべき情報を低減化して
いる。従って、本発明によれば、ビットレートを低減化
できるだけでなく、音声の過渡部等で、ピッチ周期に対
応する遅延が時間的に変化していても劣化の少ない再生
音声を提供できるという効果がある。
フレームの音声を、複数種類のモードに分類し、モード
に応じて差分表現をするサブフレームの位置あるいは、
差分表現のときの割当ビット数を決定しているので、従
来方式と比べ、適応コードブックにおいて伝送すべき情
報を低減化することができるため、ビットレートを低減
化できるだけでなく、音声の過渡部等で、ピット周期に
対応する遅延が時間的に変化していても劣化の少ない再
生音声を提供できるという効果がある。
ク部は、好ましくは請求項4又は5に規定された処理ス
テップを含み、比較的少ない演算量及びメモリ量とされ
るため、マイクロコンピュータ等による実装に好適であ
り、伝送情報量の低減を実現し、低ビットレートでも良
好な音質が得られる音声符号化装置を提供するものであ
る。
明の第1の視点に対応)の構成を示すブロック図であ
る。
流れ図である。
(本発明の第2の視点に対応)の構成を示すブロック図
である。
流れ図である。
Claims (6)
- 【請求項1】音声信号を入力し予め定められた時間長の
フレームに分割し前記フレームの音声信号をフレームよ
りも時間的に短い複数個のサブフレームに分割するフレ
ーム分割部と、 前記音声信号のスペクトル的特徴を表すスペクトルパラ
メータを求めて量子化するスペクトルパラメータ計算部
と、 サブフレーム毎に音声信号のピッチ周期に対応する遅延
を求める適応コードブック部と、音源信号を量子化する
音源量子化部と、 前記スペクトルパラメータ計算部と、前記適応コードブ
ック部と、前記音源量子化部とのそれぞれの出力信号を
組み合わせて出力するマルチプレクサ部と、 を有する音声符号化装置において、 フレーム内の少なくとも一つのサブフレームにおいて前
記適応コードブック部の遅延を過去のサブフレームの遅
延との差分で表すと共に、差分で表すサブフレームの位
置と遅延を表すためのビット数のうち少なくとも一方を
フレーム毎に決定することを特徴とする音声符号化装
置。 - 【請求項2】音声信号を入力し予め定められた時間長の
フレームに分割し前記フレームの音声信号をフレームよ
りも時間的に短い複数個のサブフレームに分割するフレ
ーム分割部と、 前記音声信号のスペクトル的特徴を表すスペクトルパラ
メータを求めて量子化するスペクトルパラメータ計算部
と、 前記音声信号から特徴量を計算し前記音声信号をフレー
ム又はサブフレーム毎に予め定められた複数種類のモー
ドの一つに分類するモード分類部と、サブフレーム毎に
音声信号のピッチ周期に対応する遅延を求める適応コー
ドブック部と、 音源信号を量子化する音源量子化部と、 前記スペクトルパラメータ計算部と、前記モード分類部
と、前記適応コードブック部と、前記音源量子化部と、
のそれぞれの出力信号を組み合わせて出力するマルチプ
レクサ部と、 を備え、 フレーム内の少なくとも一つのサブフレームにおいて前
記適応コードブック部の遅延を過去のサブフレームの遅
延との差分で表すと共に、差分で表すサブフレームの位
置あるいは遅延を表すためのビット数のうち少なくとも
一方を前記モードに応じて決定することを特徴とする音
声符号化装置。 - 【請求項3】遅延を差分で表すサブフレームの位置と該
遅延を表すビット数を予め規定するパターンを格納蓄積
するパターン蓄積部を備えたことを特徴とする請求項1
記載の音声符号化装置。 - 【請求項4】前記適応コードブック部が、 (a)遅延を差分で表すサブフレームの位置と該遅延を
表すビット数を規定するパターンを前記パターン蓄積部
から読み込み、 (b)各サブフレームにおいてパターンに対応したビッ
ト数に基づき遅延探索範囲を設定し、 (c)各サブフレームについて前記遅延探索範囲におい
てピッチ予測歪を最小化する順に遅延を少なくとも1種
探索し、 (d)予め定められた個数のサブフレームに亘って前記
ピッチ予測歪を累積した累積歪を計算し、 前記工程(a)〜(d)をパターンの種類だけ繰り返し
た後に、 (e)前記累積歪を最小とするパターンを選択すると共
に、各サブフレームにおける遅延候補を算出し、 (f)クローズドループ探索により遅延探索を行なう、 上記各工程を含むことを特徴とする請求項3記載の音声
符号化装置。 - 【請求項5】前記モード分類部が、前記音声信号の特徴
量として、フレーム全体でピッチ予測歪を累積した累積
歪を算出し、該累積歪の大きさに基づき、モードを決定
することを特徴とする請求項2記載の音声符号化装置。 - 【請求項6】前記適応コードブック部が、 (a)前記モード分類部からの出力に基づき、遅延を差
分で表すサブフレームの位置と遅延を表すビット数を規
定するパターンを決定し、 (b)各サブフレームにおいてパターンに対応したビッ
ト数に基づき遅延探索範囲を設定し、 (c)各サブフレームについて前記遅延探索範囲におい
てピッチ予測歪を最小化する順に遅延を少なくとも1種
探索し、 (d)予め定められた個数のサブフレームに亘って前記
ピッチ予測歪を加算した累積歪を計算し、 前記工程(b)〜(d)をパターンの種類だけ繰り返し
た後に、 (e)前記累積歪を最小とするパターンを選択すると共
に、各サブフレームにおける遅延候補を算出し、 (f)クローズドループ探索により遅延探索を行なう、 上記各工程を含むことを特徴とする請求項5記載の音声
符号化装置。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19895094A JP3153075B2 (ja) | 1994-08-02 | 1994-08-02 | 音声符号化装置 |
CA002154911A CA2154911C (en) | 1994-08-02 | 1995-07-28 | Speech coding device |
DE69530442T DE69530442T2 (de) | 1994-08-02 | 1995-08-01 | Vorrichtung zur Sprachkodierung |
EP95112094A EP0696026B1 (en) | 1994-08-02 | 1995-08-01 | Speech coding device |
EP00128106A EP1093115A3 (en) | 1994-08-02 | 1995-08-01 | Predictive coding of pitch lag in a speech coder |
EP00128160A EP1093116A1 (en) | 1994-08-02 | 1995-08-01 | Autocorrelation based search loop for CELP speech coder |
US08/510,217 US5778334A (en) | 1994-08-02 | 1995-08-02 | Speech coders with speech-mode dependent pitch lag code allocation patterns minimizing pitch predictive distortion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19895094A JP3153075B2 (ja) | 1994-08-02 | 1994-08-02 | 音声符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0844398A JPH0844398A (ja) | 1996-02-16 |
JP3153075B2 true JP3153075B2 (ja) | 2001-04-03 |
Family
ID=16399648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19895094A Expired - Fee Related JP3153075B2 (ja) | 1994-08-02 | 1994-08-02 | 音声符号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3153075B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003532149A (ja) * | 2000-04-24 | 2003-10-28 | クゥアルコム・インコーポレイテッド | 音声発話を予測的に量子化するための方法および装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4525694B2 (ja) * | 2007-03-27 | 2010-08-18 | パナソニック株式会社 | 音声符号化装置 |
US20120123788A1 (en) * | 2009-06-23 | 2012-05-17 | Nippon Telegraph And Telephone Corporation | Coding method, decoding method, and device and program using the methods |
KR101747917B1 (ko) * | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3102017B2 (ja) * | 1990-07-13 | 2000-10-23 | 日本電気株式会社 | 音声符号化方法 |
JP2800599B2 (ja) * | 1992-10-15 | 1998-09-21 | 日本電気株式会社 | 基本周期符号化装置 |
-
1994
- 1994-08-02 JP JP19895094A patent/JP3153075B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003532149A (ja) * | 2000-04-24 | 2003-10-28 | クゥアルコム・インコーポレイテッド | 音声発話を予測的に量子化するための方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0844398A (ja) | 1996-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2746039B2 (ja) | 音声符号化方式 | |
JP3196595B2 (ja) | 音声符号化装置 | |
JP3094908B2 (ja) | 音声符号化装置 | |
JP3180786B2 (ja) | 音声符号化方法及び音声符号化装置 | |
JP3266178B2 (ja) | 音声符号化装置 | |
JP3335841B2 (ja) | 信号符号化装置 | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JP2624130B2 (ja) | 音声符号化方式 | |
JP3616432B2 (ja) | 音声符号化装置 | |
JP3308764B2 (ja) | 音声符号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP3003531B2 (ja) | 音声符号化装置 | |
JP3360545B2 (ja) | 音声符号化装置 | |
JP3299099B2 (ja) | 音声符号化装置 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3144284B2 (ja) | 音声符号化装置 | |
JP3089967B2 (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
JPH08320700A (ja) | 音声符号化装置 | |
JP3024467B2 (ja) | 音声符号化装置 | |
JP2907019B2 (ja) | 音声符号化装置 | |
JP3471542B2 (ja) | 音声符号化装置 | |
JP3092654B2 (ja) | 信号符号化装置 | |
JP3144244B2 (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19980401 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080126 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090126 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100126 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110126 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110126 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120126 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130126 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130126 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |