JPH0990995A - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JPH0990995A JPH0990995A JP7249889A JP24988995A JPH0990995A JP H0990995 A JPH0990995 A JP H0990995A JP 7249889 A JP7249889 A JP 7249889A JP 24988995 A JP24988995 A JP 24988995A JP H0990995 A JPH0990995 A JP H0990995A
- Authority
- JP
- Japan
- Prior art keywords
- pulse
- sound source
- amplitude
- speech coding
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
声符号化装置の提供。 【解決手段】 音声符号化装置の音源量子化回路350
において、複数個のパルスの組合せで音源信号を表わ
す。少なくとも一つのパルスをあらかじめ定められたビ
ット数で表し、少なくとも1つのパルスの振幅が、パル
スの位置に依存してあらかじめ決定されている。
Description
関し、特に、音声信号を低いビットレートで高品質に符
号化する音声符号化装置に関する。
ては、例えば、M.Schroeder and B.Atal氏による“Code
-excited linear prediction: High quality speech at
low bit rates"(Proc.ICASSP,pp.937-940,1985 年)と
題した論文(文献1)や、Kleijn氏らによる“Improved
speech quality and efficeint vector quantizationi
n SELP" (Proc.ICASSP,pp.155-158,1988 年)と題した
論文(文献2)などに記載されているCELP(Code E
xcited Linear Predictive Coding )が知られている。
この従来例では、送信側では、フレームごと(例えば2
0ms)に音声信号から線形予測(LPC)分析を用い
て、音声信号のスペクトル特性を表すスペクトルパラメ
ータを抽出する。フレームにおけるサブフレーム(例え
ば5ms)に分割し、サブフレームごとに過去の音源信号
を基に適応コードブックにおけるパラメータ(ピッチ周
期に対応する遅延パラメータとゲインパラメータ)を抽
出し、適応コードブックにより前記サブフレームの音声
信号をピッチ予測する。ピッチ予測して求めた音源信号
に対して、あらかじめ定められた種類の雑音信号からな
る音源コードブック(ベクトル量子化コードブック)か
ら最適な音源コードベクトルを選択し、最適なゲインを
計算することにより、音源信号を量子化する。音源コー
ドベクトルの選択の仕方は、選択した雑音信号により合
成した信号と、前記残差信号との誤差電力を最小化する
ように行う。そして、選択されたコードベクトルの種類
を表すインデクスとゲインならびに、前記スペクトルパ
ラメータと適応コードブックのパラメータをマルチプレ
クサ部により組み合わせて伝送する。受信側の説明は省
略する。
コードブックから最適な音源コードベクトルを選択する
のに多大な演算量を要するという問題がある。これは、
文献1や2の方法では、音源コードベクトルを選択する
のに、各コードベクトルに対して一旦フィルタリングも
しくは畳み込み演算を行ない、この演算をコードブック
に格納されているコードベクトルの個数だけ繰り返すこ
とに起因する。例えば、コードブックのビット数がBビ
ットで、次元数がNのときは、フィルタリングあるいは
畳み込み演算のときのフィルタあるいはインパルス応答
長をKとすると、演算量は1秒当たり、N×K×2B ×
8000/Nだけ必要となる。一例として、B=10,
N=40,k=10とすると、1秒当たり81,92
0,000回の演算が必要となり、極めて膨大であると
いう問題点がある。
幅に低減する方法として、種々のものが提案されてい
る。例えば、ACELP(Argebraic Code Exited Linea
r Prediction) 方式が提案されている。これは、例え
ば、C.Laflammeらによる“16 kbps wideband speech co
ding technique based on algebraic CELP”と題した論
文(Proc.ICASSP,pp.13-16,1991)(文献3)などを参照
することができる。文献3の方法によれば、音源信号を
複数個のパルスで表し、各パルスの位置をあらかじめ定
められたビット数で表し伝送する。ここで、各パルスの
振幅は+1.0 もしくは+1.0 に限定されているため、振
幅を伝送する必要はない。さらに、このために、パルス
探索の演算量を大幅に低減化できる。
化することが可能となるが、音質も充分ではないという
問題点がある。この理由としては、各パルスが正負の極
性のみか有しておらず、絶対値振幅はパルスの位置によ
らず常に1.0 であるため、振幅を極めて粗く量子化した
ことになり、このために音質が劣化している。
ットレートが低い場合でも、比較的少ない演算量で音質
の劣化の少ない音声符号化装置を提供することにある。
た音声信号からスペクトルパラメータを求めて量子化す
るスペクトルパラメータ計算部と、前記スペクトルパラ
メータを用いて前記音声信号の音源信号を量子化して出
力する音源量子化部とを有する音声符号化装置におい
て、少なくとも一つのパルスの位置をあらかじめ定めら
れたビット数で表し、少なくとも一つのパルスの振幅が
パルスの位置に依存しあらかじめ決定されている音源量
子化部を有することを特徴とする音声符号化装置が得ら
れる。
の振幅は、位置に依存してあらかじめ音声信号を用いて
学習しておくことを特徴とする音源量子化部を有する請
求項1記載の音声符号化装置が得られる。
のとりうる位置があらかじめ制限されている音源量子化
部を有することを特徴とする請求項1または請求項2記
載の音声符号化装置が得られる。
ペクトルパラメータを求めて量子化するスペクトルパラ
メータ計算部と、前記スペクトルパラメータを用いて前
記音声信号の音源信号を量子化して出力する音源量子化
部とを有する音声符号化装置において、少なくとも一つ
のパルスの位置をあらかじめ定められたビット数で表
し、複数パルスの振幅をまとめて量子化する音源量子化
部を有することを特徴とする音声符号化装置が得られ
る。
めて量子化するために、あらかじめ音声信号を用いて学
習して決定したコードブックを使用する音源量子化部を
有することを特徴とする請求項4記載の音声符号化装置
が得られる。
のとりうる位置があらかじめ制限されている音源量子化
部を有することを特徴とする請求項4または請求項5記
載の音声符号化装置が得られる。
ードを判別し判別情報を出力するモード判定部と、前記
音声信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ計算部と、前記スペクトルパラメ
ータを用いて音源信号を量子化して出力する音源量子化
部とを有する音声符号化装置において、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で表し、少なくとも一
つのパルスの振幅がパルスの位置に依存しあらかじめ決
定されている音源量子化部を有することを特徴とする音
声符号化装置が得られる。
の振幅は、位置に依存してあらかじめ音声信号を用いて
学習して決定しておくことを特徴とする音源量子化部を
有する請求項7記載の音声符号化装置が得られる。
のとりうる位置があらかじめ制限されている音源量子化
部を有することを特徴とする請求項7または請求項8記
載の音声符号化装置が得られる。
ードを判別し判別情報を出力するモード判別部と、前記
音声信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ計算部と、前記スペクトルパラメ
ータを用いて前記音声信号の音源信号を量子化して出力
する音源量子化部とを有する音声符号化装置において、
あらかじめ定められたモードの場合に、少なくとも一つ
のパルスの位置をあらかじめ定められたビット数で表
し、複数パルスの振幅をまとめて量子化する音源量子化
部を有することを特徴とする音声符号化装置が得られ
る。
とめて量子化するために、あらかじめ音声信号を用いて
学習して決定したコードブックを使用することを特徴と
する音源量子化部を有する請求項10記載の音声符号化
装置が得られる。
スのとりうる位置があらかじめ制限されている音源量子
化部を有することを特徴とする請求項10または請求項
11記載の音声符号化装置が得られる。
一定時間間隔毎に、M個のパルスを立てて音源を量子化
すると考える。i番目のパルスの振幅、位置をそれぞ
れ、qi 、mi とする。このとき、音源信号は下式のよ
うに表せる。
ある。少なくとも一つのパルス、例えば、2つのパルス
について、位置の組合せの各々に対して、パルスの位置
に依存して、あらかじめ振幅値を決定しておく。
スの振幅値を、位置に依存して、あらかじめ、多量の音
声信号を用いて学習して決定しておく。
のとりうる位置があらかじめ制限されている。例えば、
偶数番目のサンプル位置、奇数番目のサンプル位置、L
サンプルとびのサンプル位置、などが考えられる。
個のパルス(例えば2パルス)の振幅を表す振幅パター
ンをBビット分(2B 種類)、振幅コードブックとして
あらかじめ用意しておき、最適な振幅パターンを選択す
る。
ット分の振幅コードブックをあらかじめ、多量の音声信
号を用いて学習して決定しておく。
おいて、少なくとも一つのパルスのとりうる位置があら
かじめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Lサンプルとびのサンプ
ル位置、などが考えられる。
に分割し、フレームとに特徴量を使用してモードを判別
する。以下ではモードの種類は4とする。モードは概ね
次のように対応する。モード0:無音/子音部、モード
1:過渡部、モード2:母音の弱定常部、モード3:母
音の強定常部。そして、あらかじめ定められたモードの
場合に、少なくとも一つのパルス、例えば、2つのパル
スについて、位置の組合せの各々に対して、パルスの位
置に依存してあらかじめ振幅値を決定しておく。
スの振幅値をあらかじめ、多量の音声信号を用いて学習
して決定しておく。
おいて少なくとも一つのパルスのとりうる位置があらか
じめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Lサンプルとびのサンプ
ル位置、などが考えられる。
とに分割し、フレームごとに特徴量を使用してモードを
判別する。そして、あらかじめ定められたモードの場合
に、複数個のパルス(例えば2パルス)の振幅を表す振
幅パターンをBビット分(2B 種類)振幅コードブック
としてあらかじめ用意しておき、最適なパターンを選択
する。
Bビット分の振幅コードブックをあらかじめ、多量の音
声信号を用いて学習して決定しておく。
発明において、少なくとも一つのパルスのとりうる位置
があらかじめ制限されている。例えば偶数番目のサンプ
ル位置、奇数番目のサンプル位置、Lサンプルとびのサ
ンプル位置、などが考えられる。
て図面を参照して説明する。
の実施の形態を示すブロック図である。
声信号を入力し、フレーム分割回路110では音声信号
をフレーム(例えば10ms)ごとに分割し、サブフレー
ム分割回路120では、フレームの音声信号をフレーム
よりも短いサブフレーム(例えば2ms)に分割する。
少なくとも一つのサブフレームの音声信号に対して、サ
ブフレーム長よりも長い窓(例えば24ms)をかけて音
声を切り出してスペクトルパラメータをあらかじめ定め
られた次数(例えばP=10次)計算する。ここでスペ
クトルパラメータの計算には、周知のLPC分析や、Bu
rg分析などを用いることができる。ここでは、Burg分析
を用いることとする。Burg分析の詳細については、中溝
著による“信号解析とシステム同定”と題した単行本
(コロナ社1988年刊)の82〜87頁(文献4)などに記載
されているので説明は略する。さらにスペクトルパラメ
ータ計算部200は、Burg法により計算された線形予測
係数αi (i=1,…,10)を量子化や補間に適したL
SPパラメータに変換する。ここで、線形予測係数から
LSPへの変換は、菅村他による“線スペクトル対(L
SP)音声分析合成方式による音声情報圧縮”と題した
論文(電子通信学会誌、J64 ―A 、pp.599―606 、1981
年)(文献5)を参照することができる。例えば、第
2、4サブフレームでBurg法により求めた線形予測係数
を、LSPパラメータに変換し、第1、3サブフレーム
のLSPを直線補間により求めて、第1、3サブフレー
ムのLSPを逆変換して線形予測係数に戻し、第1−4
サブフレームの線形予測係数αil(i=1,…,10,l
=1,…,5)を聴感重み付け回路230に出力する。
また、第4サブフレームのLSPをスペクトルパラメー
タ量子化回路210へ出力する。
は、あらかじめ定められたサブフレームのLSPパラメ
ータを効率的に量子化し、下式の歪みを最小化する量子
化値を出力する。
はそれぞれ、量子化前のi次目のLSP、量子化後のj
番目の結果、重み係数である。
化を用いるものとし、第4サブフレームのLSPパラメ
ータを量子化するものとする。LSPパラメータのベク
トル量子化の手法は周知の手法を用いることができる。
具体的は方法は例えば、特開平4 ―171500号公報(文献
6)や特開平4 ―363000号公報(文献7)や、特開平5
―6199号公報(文献8)や、T.Nomura et al.,による
“LSP Coding VQ-SVQWith Interpolation in 4.075kbps
M-LCELP Speech Coder ”と対した論文(Proc. Mobile
Multimedia Communications,pp.B.2.5,1993)(文献
9)などを参照できるのでここでは説明を略する。
10は、第4サブフレームで量子化したLSPパラメー
タをもとに、第1〜第4サブフレームのLSPパラメー
タを復元する。ここでは、現フレームの第4サブフレー
ムの量子化LSPパラメータと1つ過去のフレームの第
4サブフレームの量子化LSPを直線補間して、第1〜
第3サブフレームのLSPを復元する。ここで、量子化
前のLSPと量子化後のLSPとの誤差電力を最小化す
るコードベクトルを1種類選択した後に、直線補間によ
り第1〜第4のサブフレームのLSPを復元する。さら
に性能を向上させるためには、前記誤差電力を最小化す
るコードベクトルを複数候補選択したのちに、各々の候
補について、累積歪を評価し、累積歪を最小化する候補
と補間USPの組を選択するようにすることができる。
詳細は、例えは、特願平5 ―8737号明細書(文献10)
を参照することができる。
のLSPと第4サブフレームの量子化LSPをサブフレ
ームごとに線形予測係数α'il (i=1,…,10,l=
1,…,5)に変換し、インパルス応答計算回路310
へ出力する。また、第4サブフレームの量子化LSPの
コードベクトルを表すインデクスをマルチプレクサ40
0に出力する。
ラメータ計算回路200から、各サブフレームごとに量
子化前の線形予測係数α'il (i=1,…,10,l=
1,…,5)を入力し、前記文献1にもとづき、サブフ
レームの音声信号に対して聴感重み付けを行い、聴感重
み付け信号を出力する。
ラメータ計算回路200から、各サブフレームごとに線
形予測係数αilを入力し、スペクトルパラメータ量子化
回路210から、量子化、補間して復元した線形予測係
数α'il をサブフレームごとに入力し、保存されている
フィルタメモリの値を用いて、入力信号を零d(n)=0と
した応答信号を1サブフレーム分計算し、減算回路23
5へ出力する。ここで応答信号xz (n) を下式で表され
る。
聴感重み付け量を制御する重み係数であり、下記の式
(7)と同一の値である。sw (n) 、p(n) は、それぞ
れ、重み付け信号計算回路の出力信号、後述の式(7)
における右辺第1項のフィルタの分母の項の出力信号を
それぞれ示す。
付け信号から応答信号をサブフレーム分減算し、x'
w(n) を適応コードブック回路500へ出力する。
が下式で表される聴感重み付けフィルタのインパルス応
答hw(n)をあらかじめ定められた点数Lだけ計算し、適
応コードブック回路500、音源量子化回路350へ出
力する。
子化回路365から過去の音源信号v(n) を、減算回路
235から出力信号x'w(n) を、インパルス応答計算回
路310からインパルス応答hw(n)を入力する。ピッチ
に対応する遅延Tを下式の歪みを最小化するように求
め、遅延を表すインデクスをマルチプレクサ400に出
力する。
延の抽出精度を向上させるために、遅延を整数サンプル
ではなく、小数サンプル値で求めてもよい。具体的な方
法は、例えば、P.Kroon による、“Pitch predictors w
ith high terminal resolution”と対した論文(Proc.
ICASSP,pp.661-664,1990年)(文献11)などを参照す
ることができる。
下式に従いピッチ予測を行ない、予測残差信号ew(n)を
音源量子化回路350へ出力する。
に、M個のパルスをたてるとする。少なくとも一つのパ
ルスの位置をあらかじめ定められたビット数で量子化
し、位置を表すインデクスをマルチプレクサ400に出
力する。パルスにおける位置の探索法は、一パルスずつ
逐次的に探索する種々の方法が提案されており、例え
ば、K.Ozawa 氏らによる“A study on pulse search al
gorithms for multipulse excited speech coder reali
zation, ”と題した論文(文献12)などを参照できる
ので、ここでは説明を省略する。また、これ以外でも前
記文献3に記された方法や、後述の式(16)―(2
1)を記した方法などを用いることもできる。
は、位置に依存してあらかじめ定まっている。
パルスの振幅がこれらの2個のパルスの位置の組合せに
依存してあらかじめ定まっているとする。いま、第1パ
ルス、第2パルスともに2種類の位置をとりえるとする
と、これら2パルスの振幅の例としてはパルスの位置の
組合せとしては(1,1)(1,2)(2,1)(2,2)があり、位置の組
合せに対応して振幅としては、例えば、(1.0,1.0)(1.0,
0.1)(0.1,1.0)(0.1,0.1)などが考えられる。振幅は位置
の組合せに応じてあらかじめ定められているので、振幅
を表すための情報を伝送する必要はない。
に、位置に依存せずにあらかじめ定められた振幅、例え
ば、1.0 、-1.0など、をもたせることもできる。
5に出力される。
ブック390からゲインコードベクトルを読みだし、選
択された音源コードベクトルに対して、下式を最小化す
るようにゲインコードベクトルを選択する。ここでは、
適応コードブックのゲインと音源のゲインの両者を同時
にベクトル量子化する例について示す。
ク390に格納された2次元ゲインコードブックにおけ
るk番目のコードベクトルである。選択されたゲインコ
ードベクトルを表すインデクスをマルチプレクサ400
に出力する。
ルパラメータ計算回路200の出力パラメータおよび、
それぞれのインデクスを入力し、インデクスからそれに
対応するコードベクトルを読みだし、まず下式にもとづ
き駆動音源信号v(n) を求める。
力される。
ペクトルパラメータ計算回路200の出力パラメータ、
スペクトルパラメータ量子化回路210の出力パラメー
タを用いて下式により、応答信号sw(n)をサブフレーム
ごとに計算し、応答信号計算回路240に出力する。
ロック図である。この実施の形態は、図1の実施の形態
に比して、音源量子化回路355の動作が異なる。ここ
では、パルスの振幅値は、振幅パターンとして振幅パラ
メータ格納回路359に格納しておき、パルスの位置情
報を入力して読みだす。このパターンは、パルスの位置
の組合せに依存して、多量の音声データベースを用いて
学習し、位置に依存して一意に決定しておく。
ロック図である。音源量子化回路357では、各パルス
のとりうる位置があらかじめ制限されている。例えば、
偶数番目のサンプル位置、奇数番目のサンプル位置、L
サンプルとびのサンプル位置、などが考えられる。ここ
では、サンプルとびのサンプル位置をとることにし、L
の値は次のように選ぶ。
個数を示す。
パルスの位置に依存してあらかじめ決定されていてもよ
い。
ロック図である。音源量子化回路450は、第1の実施
の形態と同一の方法でパルスの位置を求め、これを量子
化してマルチプレクサ400およびゲイン量子化回路3
65へ出力する。
トル量子化する。具体的に説明すると、パルス振幅コー
ドブック451から、パルス振幅コードベクトルを読み
だし、下式の歪みを最小化する振幅コードベクトルを選
択する。
目の振幅コードベクトルにおけるi番目のパルス振幅で
ある。
できる。式(16)をパルスの振幅g'iで偏微分して0
とおくと
(17)の右辺第2項の最大化と等価となる。
うに変形できる。
g'jk を振幅コードベクトルkごとにあらかじめ計算し
てコードブックに格納しておくことにより、計算量を大
幅に低減化できる。また、サブフレームごとにφとψを
一度計算しておけば、さらに演算量を低減化できる。
は、サブフレーム当たりのパルスの個数をMとし、サブ
フレーム長をL、インパルス応答長をL、振幅コードブ
ックのビット数をBとすると、サブフレーム当たり、概
ねN2 +[(M−1)!+M]2B+NL+M2B となる。
B=10、N=40、M=4、L=20とすると、この値は、
1秒当たり、3,347,200 回となる。また、パルスの位置
を探索するには、文献12に記載されている方式1を使
用すれば、上記演算量に対して新たに発生する演算量は
ないので、文献1、2の従来方式の方法に比べ、約1/24
となる。
パルスの振幅、位置探索に必要な演算量は、従来方式に
比べ、極めて少ないことがわかる。
振幅コードベクトルのインデクスをマルチプレクサ40
0に出力する。また、各パルスの位置と振幅コードベク
トルによる各パルスの振幅をゲイン量子化回路365に
出力する。
ック図である。音源・ゲイン量子化回路550では、ゲ
インを量子化しながらパルスの振幅の量子化を行なう点
が、図4の音源量子化回路450と異なる。パルスの位
置は音源量子化回路450と同一の方法で求め、同一の
方法で量子化する。パルスの振幅とゲインは、下式を最
小化するように、パルス振幅コードブック451、ゲイ
ンコードブック390からそれぞれ、パルス振幅コード
ベクトルとゲインコードベクトルを選択することによ
り、量子化する。
ードベクトルにおけるi番目のパルス振幅である。
β'k、G'kは、ゲインコードブック390に格納された
2次元ゲインコードブックにおけるk番目のコードベク
トルである。パルス振幅ベクトルとゲインコードベクト
ルのすべての組合せに対し、式(22)を最小化するよ
うに最適な組合せを1組選択することができる。
選択を導入することもできる。例えば、式(16)ある
いは式(17)の歪みが小さい順にパルス振幅コードベ
クトルを複数個予備選択し、各候補に対してゲインコー
ドブックを探索し、式(22)を最小化するパルス振幅
コードベクトルとゲインコードベクトルの組合せを1種
類選択する。
インコードベクトルを表すインデクスをマルチプレクサ
400に出力する。
ロック図である、図4の実施の形態に比して、パルス振
幅学習コードブック580が異なる。このコードブック
は、複数パルスの振幅を量子化するためのコードブック
を、音声信号を用いてあらかじめ学習して格納してお
く。コードブックの学習法は、例えば、Linde 氏らによ
る“An algorithm for vector quantization design,”
と題した論文(IEEE Trans.Commun.,pp.84-95,January,
1980)(文献13)などを参照できる。
ドブックにより量子化しながら、パルス振幅をパルス振
幅コードブックにより量子化するような構成にすること
もできる。
ロック図である。図4の実施の形態に比して、音源量子
化回路470が異なる。各パルスのとりうる位置かあら
かじめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Lサンプルとびのサンプ
ル位置、などが考えられる。ここでは、Lサンプルとび
のサンプル位置をとることにし、Lの値は式(13)に
示したように選ぶ。
ブックを用いて量子化することもできる。
ロック図である。モード判別回路800は、聴感重み付
け回路230からフレーム単位で聴感重み付け信号を受
取り、モード判別情報を出力する。ここでは、モード判
別に、現在のフレームの特徴量を用いる。特徴量として
は、例えば、フレームで平均したピッチ予測ゲインを用
いる。ピッチ予測ゲインの計算は、例えば下式を用い
る。
ームの個数である。Pi 、Ei はそれぞれ、i番目のサ
ブフレームでの音声パワ、ピッチ予測誤差パワを示す。
遅延である。
じめ複数個のしきい値と比較して複数種類のモードに分
類する。モードの個数としては、例えば4を用いること
ができる。モード判別回路800は、モード判別情報を
音源量子化回路600、マルチプレクサ400へ出力す
る。
があらかじめ定められたモードを示す場合に以下の処理
を行なう。
るとし、少なくとも一つのパルスの位置をあらかじめ定
められたビット数で量子化し、位置に表すインデクスを
マルチプレクサに出力する。このとき、少なくとも一つ
のパルスの振幅は、位置に依存してあらかじめ定まって
いる。
パルスの振幅がこれらの2個のパルスの位置の組合せに
依存してあらかじめ定まっているとする。いま、第1パ
ルス、第2パルスともに2種類の位置をとりえるとする
と、これら2パルスの振幅の例としてはパルスの位置の
組合せとしては(1,1)(1,2)(2,1)(2,2)があり、位置の組
合せに対応して振幅としては、例えば、(1.0,1.0)(1.0,
0.1)(0.1,1.0)(0.1,0.1)などが考えられる。振幅は位置
の組合せに応じてあらかじめ定められているので、振幅
を表すための情報を伝送する必要はない。
に、位置に依存せずにあらかじめ定められた振幅、例え
ば、1.0 、-1.0など、をもたせることもできる。
5に出力される。
ロック図である。音源量子化回路650は、モード判別
回路800から判別情報を入力し、あらかじめ定められ
たモードの場合に、振幅パラメータ格納回路359か
ら、パルスの位置情報を入力して、パルスの振幅値を読
みだす。
依存して、多量の音声データベースを用いて学習し、位
置に依存して一意に決定しておく。学習法については、
前記文献13などを参照できる。
ブロック図である。音源量子化回路680は、モード判
別回路800から判別情報を入力し、あらかじめ定めら
れたモードの場合に、各パルスのとりうる位置があらか
じめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Lサンプルとびのサンプ
ル位置、などが考えられる。ここでは、Lサンプルとび
のサンプル位置をとることにし、Lの値は式(15)の
ように選ぶ。
置に依存してあらかじめ振幅パターンとして学習してお
いてもよい。
すブロック図である。音源量子化回路700は、モード
判別回路800から判別情報を入力し、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で量子化し、インデク
スをゲイン量子化回路365、マルチプレクサ400へ
出力する。次に、複数パルスの振幅をまとめてベクトル
量子化する。パルス振幅コードブック451から、パル
ス振幅コードベクトルを読みだし、式(14)の歪み最
小化する振幅コードベクトルを選択する。そして、選択
された振幅コードベクトルのインデクスをゲイン量子化
回路365、マルチプレクサ400へ出力する。
化しながら、パルス振幅を量子化する構成をとることも
できる。
すブロック図である。音源量子化回路750は、モード
判別回路800から判別情報を入力し、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で量子化し、インデク
スをゲイン量子化回路365、マルチプレクサ400へ
出力する。次に、複数パルスの振幅をまとめてベクトル
量子化する。パルス振幅学習コードブック580から、
あらかじめ学習されたパルス振幅コードベクトルを読み
だし、式(14)の歪み最小化する振幅コードベクトル
を選択する。そして、選択された振幅コードベクトルの
インデクスをゲイン量子化回路365、マルチプレクサ
400へ出力する。
化しながら、パルス振幅を量子化する構成をとることも
できる。
すブロック図である。音源量子化回路780は、モード
判別回路800から判別情報を入力し、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で量子化する。ここ
で、各パルスのとりうる位置があらかじめ制限されてい
る。例えば、偶数番目のサンプル位置、奇数番目のサン
プル位置、Lサンプルとびのサンプル位置、などが考え
られる。ここでは、Lサンプルとびのサンプル位置をと
ることにし、Lの値は式(15)のように選ぶ。インデ
クスをゲイン量子化回路365、マルチプレクサ400
へ出力する。
第11の実施の形態で述べたように、あらかじめ学習し
たコードブックを使用することもできる。
子化しながら、パルス振幅を量子化する構成をとること
もできる。
が可能である。
回路や、ゲインコードブックを切替える構成とすること
もできる。
音源量子化部において、少なくとも一つのパルスの位置
はあらかじめ定められたビット数で量子化し、パルスの
少なくとも1つのパルスの振幅がパルスの位置に依存し
てあらかじめ決定されているので、あるいは、パルスの
振幅がパルスの位置に依存して、音声信号を用いてあら
かじめ学習されているので、音源探索の演算量を低くお
さえながら、従来方式よりも音質が改善される。
幅をまとめて量子化するためにコードブックを有してい
るので、音源探索の演算量を低くおさえながら、従来方
式よりも音質が一層改善されるという大きな効果があ
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
ある。
ある。
ある。
50,680,700,750,780 音源量子化
回路 500 適応コードブック回路 550 音源・ゲイン量子化回路 359 振幅パラメータ格納回路 355 音源量子化回路 360 重み付け信号計算回路 365 ゲイン量子化回路 390 ゲインコードブック 400 マルチプレクサ 451 パルス振幅コードブック 580 パルス振幅学習コードブック 800 モード判別回路
Claims (12)
- 【請求項1】 入力した音声信号からスペクトルパラメ
ータを求めて量子化するスペクトルパラメータ計算部
と、前記スペクトルパラメータを用いて前記音声信号の
音源信号を量子化して出力する音源量子化部とを有する
音声符号化装置において、少なくとも一つのパルスの位
置をあらかじめ定められたビット数で表し、少なくとも
一つのパルスの振幅がパルスの位置に依存しあらかじめ
決定されている音源量子化部を有することを特徴とする
音声符号化装置。 - 【請求項2】 少なくとも一つのパルスの振幅は、位置
に依存してあらかじめ音声信号を用いて学習しておくこ
とを特徴とする音源量子化部を有する請求項1記載の音
声符号化装置。 - 【請求項3】 少なくとも一つのパルスのとりうる位置
があらかじめ制限されている音源量子化部を有すること
を特徴とする請求項1または請求項2記載の音声符号化
装置。 - 【請求項4】 入力した音声信号からスペクトルパラメ
ータを求めて量子化するスペクトルパラメータ計算部
と、前記スペクトルパラメータを用いて前記音声信号の
音源信号を量子化して出力する音源量子化部とを有する
音声符号化装置において、少なくとも一つのパルスの位
置をあらかじめ定められたビット数で表し、複数パルス
の振幅をまとめて量子化する音源量子化部を有すること
を特徴とする音声符号化装置。 - 【請求項5】 複数パルスの振幅をまとめて量子化する
ために、あらかじめ音声信号を用いて学習して決定した
コードブックを使用する音源量子化部を有することを特
徴とする請求項4記載の音声符号化装置。 - 【請求項6】 少なくとも一つのパルスのとりうる位置
があらかじめ制限されている音源量子化部を有すること
を特徴とする請求項4または請求項5記載の音声符号化
装置。 - 【請求項7】 入力した音声信号からモードを判別し判
別情報を出力するモード判定部と、前記音声信号からス
ペクトルパラメータを求めて量子化するスペクトルパラ
メータ計算部と、前記スペクトルパラメータを用いて音
源信号を量子化して出力する音源量子化部とを有する音
声符号化装置において、あらかじめ定められたモードの
場合に、少なくとも一つのパルスの位置をあらかじめ定
められたビット数で表し、少なくとも一つのパルスの振
幅がパルスの位置に依存しあらかじめ決定されている音
源量子化部を有することを特徴とする音声符号化装置。 - 【請求項8】 少なくとも一つのパルスの振幅は、位置
に依存してあらかじめ音声信号を用いて学習して決定し
ておくことを特徴とする音源量子化部を有する請求項7
記載の音声符号化装置。 - 【請求項9】 少なくとも一つのパルスのとりうる位置
があらかじめ制限されている音源量子化部を有すること
を特徴とする請求項7または請求項8記載の音声符号化
装置。 - 【請求項10】 入力した音声信号からモードを判別し
判別情報を出力するモード判別部と、前記音声信号から
スペクトルパラメータを求めて量子化するスペクトルパ
ラメータ計算部と、前記スペクトルパラメータを用いて
前記音声信号の音源信号を量子化して出力する音源量子
化部とを有する音声符号化装置において、あらかじめ定
められたモードの場合に、少なくとも一つのパルスの位
置をあらかじめ定められたビット数で表し、複数パルス
の振幅をまとめて量子化する音源量子化部を有すること
を特徴とする音声符号化装置。 - 【請求項11】 複数パルスの振幅をまとめて量子化す
るために、あらかじめ音声信号を用いて学習して決定し
たコードブックを使用することを特徴とする音源量子化
部を有する請求項10記載の音声符号化装置。 - 【請求項12】 少なくとも一つのパルスのとりうる位
置があらかじめ制限されている音源量子化部を有するこ
とを特徴とする請求項10または請求項11記載の音声
符号化装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24988995A JP3196595B2 (ja) | 1995-09-27 | 1995-09-27 | 音声符号化装置 |
CA002186433A CA2186433C (en) | 1995-09-27 | 1996-09-25 | Speech coding apparatus having amplitude information set to correspond with position information |
DE69636209T DE69636209T2 (de) | 1995-09-27 | 1996-09-26 | Vorrichtung zur Sprachkodierung |
EP96115471A EP0766232B1 (en) | 1995-09-27 | 1996-09-26 | Speech coding apparatus |
US08/722,635 US5826226A (en) | 1995-09-27 | 1996-09-27 | Speech coding apparatus having amplitude information set to correspond with position information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24988995A JP3196595B2 (ja) | 1995-09-27 | 1995-09-27 | 音声符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0990995A true JPH0990995A (ja) | 1997-04-04 |
JP3196595B2 JP3196595B2 (ja) | 2001-08-06 |
Family
ID=17199725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24988995A Expired - Fee Related JP3196595B2 (ja) | 1995-09-27 | 1995-09-27 | 音声符号化装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5826226A (ja) |
EP (1) | EP0766232B1 (ja) |
JP (1) | JP3196595B2 (ja) |
CA (1) | CA2186433C (ja) |
DE (1) | DE69636209T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100391527B1 (ko) * | 1999-08-23 | 2003-07-12 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템 |
US6978235B1 (en) | 1998-05-11 | 2005-12-20 | Nec Corporation | Speech coding apparatus and speech decoding apparatus |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6393391B1 (en) | 1998-04-15 | 2002-05-21 | Nec Corporation | Speech coder for high quality at low bit rates |
JP3094908B2 (ja) * | 1996-04-17 | 2000-10-03 | 日本電気株式会社 | 音声符号化装置 |
EP1136985B1 (en) * | 1996-11-07 | 2002-09-11 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for CELP speech coding and decoding |
US5970444A (en) * | 1997-03-13 | 1999-10-19 | Nippon Telegraph And Telephone Corporation | Speech coding method |
CA2233896C (en) * | 1997-04-09 | 2002-11-19 | Kazunori Ozawa | Signal coding system |
DE69836624T2 (de) * | 1997-10-22 | 2007-04-05 | Matsushita Electric Industrial Co., Ltd., Kadoma | Audiokodierer und -dekodierer |
JP3998330B2 (ja) * | 1998-06-08 | 2007-10-24 | 沖電気工業株式会社 | 符号化装置 |
JP3319396B2 (ja) * | 1998-07-13 | 2002-08-26 | 日本電気株式会社 | 音声符号化装置ならびに音声符号化復号化装置 |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
JP3824810B2 (ja) * | 1998-09-01 | 2006-09-20 | 富士通株式会社 | 音声符号化方法、音声符号化装置、及び音声復号装置 |
DE69931641T2 (de) * | 1998-09-11 | 2006-10-05 | Motorola, Inc., Schaumburg | Verfahren zur Kodierung von Informationssignalen |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6850884B2 (en) * | 2000-09-15 | 2005-02-01 | Mindspeed Technologies, Inc. | Selection of coding parameters based on spectral content of a speech signal |
US6842733B1 (en) | 2000-09-15 | 2005-01-11 | Mindspeed Technologies, Inc. | Signal processing system for filtering spectral content of a signal for speech coding |
CN1232951C (zh) * | 2001-03-02 | 2005-12-21 | 松下电器产业株式会社 | 编码装置和译码装置 |
JP3582589B2 (ja) * | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
WO2003071522A1 (fr) * | 2002-02-20 | 2003-08-28 | Matsushita Electric Industrial Co., Ltd. | Procede de production de vecteur de source sonore fixe et table de codage de source sonore fixe |
CN1890711B (zh) * | 2003-10-10 | 2011-01-19 | 新加坡科技研究局 | 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法 |
BRPI0808202A8 (pt) * | 2007-03-02 | 2016-11-22 | Panasonic Corp | Dispositivo de codificação e método de codificação. |
US20110026581A1 (en) * | 2007-10-16 | 2011-02-03 | Nokia Corporation | Scalable Coding with Partial Eror Protection |
KR101747524B1 (ko) * | 2015-06-22 | 2017-06-16 | 송태원 | 어류 유인 회전 인공미끼 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0511800A (ja) * | 1991-07-03 | 1993-01-22 | Fujitsu Ltd | 音声符号化復号化方式 |
JPH06222797A (ja) * | 1993-01-22 | 1994-08-12 | Nec Corp | 音声符号化方式 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1229681A (en) * | 1984-03-06 | 1987-11-24 | Kazunori Ozawa | Method and apparatus for speech-band signal coding |
CA1255802A (en) * | 1984-07-05 | 1989-06-13 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses |
NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
GB8630820D0 (en) * | 1986-12-23 | 1987-02-04 | British Telecomm | Stochastic coder |
CA1337217C (en) * | 1987-08-28 | 1995-10-03 | Daniel Kenneth Freeman | Speech coding |
JP2903533B2 (ja) * | 1989-03-22 | 1999-06-07 | 日本電気株式会社 | 音声符号化方式 |
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
JP3114197B2 (ja) * | 1990-11-02 | 2000-12-04 | 日本電気株式会社 | 音声パラメータ符号化方法 |
JP3151874B2 (ja) * | 1991-02-26 | 2001-04-03 | 日本電気株式会社 | 音声パラメータ符号化方式および装置 |
JP3143956B2 (ja) * | 1991-06-27 | 2001-03-07 | 日本電気株式会社 | 音声パラメータ符号化方式 |
EP0657874B1 (en) * | 1993-12-10 | 2001-03-14 | Nec Corporation | Voice coder and a method for searching codebooks |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
FR2720850B1 (fr) * | 1994-06-03 | 1996-08-14 | Matra Communication | Procédé de codage de parole à prédiction linéaire. |
-
1995
- 1995-09-27 JP JP24988995A patent/JP3196595B2/ja not_active Expired - Fee Related
-
1996
- 1996-09-25 CA CA002186433A patent/CA2186433C/en not_active Expired - Fee Related
- 1996-09-26 DE DE69636209T patent/DE69636209T2/de not_active Expired - Lifetime
- 1996-09-26 EP EP96115471A patent/EP0766232B1/en not_active Expired - Lifetime
- 1996-09-27 US US08/722,635 patent/US5826226A/en not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0511800A (ja) * | 1991-07-03 | 1993-01-22 | Fujitsu Ltd | 音声符号化復号化方式 |
JPH06222797A (ja) * | 1993-01-22 | 1994-08-12 | Nec Corp | 音声符号化方式 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6978235B1 (en) | 1998-05-11 | 2005-12-20 | Nec Corporation | Speech coding apparatus and speech decoding apparatus |
KR100391527B1 (ko) * | 1999-08-23 | 2003-07-12 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템 |
Also Published As
Publication number | Publication date |
---|---|
CA2186433C (en) | 2001-03-27 |
EP0766232B1 (en) | 2006-06-07 |
EP0766232A3 (en) | 1998-06-03 |
CA2186433A1 (en) | 1997-03-28 |
DE69636209T2 (de) | 2007-04-05 |
DE69636209D1 (de) | 2006-07-20 |
US5826226A (en) | 1998-10-20 |
JP3196595B2 (ja) | 2001-08-06 |
EP0766232A2 (en) | 1997-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3196595B2 (ja) | 音声符号化装置 | |
JP3094908B2 (ja) | 音声符号化装置 | |
JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
US6581031B1 (en) | Speech encoding method and speech encoding system | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JP3335841B2 (ja) | 信号符号化装置 | |
US6751585B2 (en) | Speech coder for high quality at low bit rates | |
JP3148778B2 (ja) | 音声の符号化方法 | |
JP3003531B2 (ja) | 音声符号化装置 | |
JP3360545B2 (ja) | 音声符号化装置 | |
JP3144284B2 (ja) | 音声符号化装置 | |
US20020007272A1 (en) | Speech coder and speech decoder | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3299099B2 (ja) | 音声符号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
JP3471542B2 (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP2808841B2 (ja) | 音声符号化方式 | |
JPH08320700A (ja) | 音声符号化装置 | |
JP3144244B2 (ja) | 音声符号化装置 | |
JPH09319399A (ja) | 音声符号化装置 | |
JPH0876800A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20001114 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20010508 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080608 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090608 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100608 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100608 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |