JPH10133696A - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JPH10133696A JPH10133696A JP8307143A JP30714396A JPH10133696A JP H10133696 A JPH10133696 A JP H10133696A JP 8307143 A JP8307143 A JP 8307143A JP 30714396 A JP30714396 A JP 30714396A JP H10133696 A JPH10133696 A JP H10133696A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound source
- pitch
- pulse
- pitch prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
いて、音源信号を個数Mの非零のパルスで構成し、スペ
クトルパラメータを用いて前記パルスの位置を探索する
際に、Mより小さい個数毎にゲインを変化させながらパ
ルスの位置を探索して出力する。
Description
つ高品質で音声信号を符号化する音声符号化装置に関す
る。
は、例えば、M.Schroeder and B.Atal氏による”Code-e
xcited linear prediction:High quality speech at ve
rylow bit rates"(Proc.ICASSP,pp. 937-940,1985年)と
題した論文(文献1)や、Klejin氏らによる”Improved
speech quality and efficeint vector quantization
in SELP”(Proc.ICASSP,pp,155-158,1988年)と題した
論文(文献2)等に記載されているCELP(Code Excited
Linear Predictive Coding)が知られている。この従来
例では、送信側では、フレーム毎(例えば20ms)に
音声信号から線形予測(LPC)分析を用いて、音声信
号のスペクトル特性を表わすスペクトルパラメータを抽
出する。フレームを更にサブフレーム(例えば5ms)
に分割し、サブフレーム毎に過去の音源信号を基に適応
コードブックにおけるパラメータ(ピッチ周期に対応す
る遅延パラメータとゲインパラメータ)を抽出し、適応
コードブックにより前記サブフレームの音声信号をピッ
チ予測する。ピッチ予測して求めた音源信号に対して、
予め定められた種類の雑音信号からなる音源コードブッ
ク(ベクトル量子化コードブック)から最適な音源コー
ドベクトルを選択し、最適なゲインを計算することによ
り、音源信号を量子化する。音源コードベクトルの選択
の仕方は、選択した雑音信号により合成した信号と、前
記残差信号との誤差電力を最小化するように行う。そし
て、選択されたコードベクトルの種類を表わすインデク
スとゲインならびに、前記スペクトルパラメータと適応
コードブックのパラメータをマルチプレクサ部により組
み合わせて伝送する。受信側の動作、構成は周知である
ので説明は省略する。
音声符号化装置では、音源コードブックから最適な音源
コードベクトルを選択するのに多大な演算量を要すると
いう問題があった。これは、文献1や2の方法では、音
源コードベクトルを選択するのに、各コードベクトルに
対してフィルタリングもしくは畳み込み演算を、コード
ブックに格納されているコードベクトルの個数だけ繰り
返さなければならないことに起因する。例えば、コード
ブックのビット数がBビットで次元数がNのときは、フ
ィルタリングあるいは畳み込み演算の時のフィルタある
いはインパルス応答長をKとすると、演算量は1秒当た
り、N×K×2B×8000/Nだけ必要となる。一例
として、B=10、N=40、K=10とすると、1秒
当たり81,920,000回の演算が必要となり、極
めて膨大な演算量になってしまうという問題点があっ
た。
算量を低減する方法として、種々のものが提案されてい
る。例えば、ACELP(Argebraic Code Excited Linear P
rediction)方式が、例えば、C.Laflammeらによる“16
kbps wideband speech coding technique based on al
gebraic CELP"と題した論文(Proc.ICASSP,pp.13-16,19
91)(文献3)等に開示されている。ACELP方式によれ
ば、音源信号を複数個のパルスで表わし、各パルスのた
つ位置は、各パルス毎に予め定められた位置の候補から
選択し、これを予め定められたビット数で表わして伝送
する。ここで、各パルスの振幅は+1.0もしくは−
1.0に限定されているため、パルス探索の演算量を大
幅に低減化できる。
減化することが可能となるが、ビットレートを低減化す
ると、サブフレーム当たりのパルスの個数が急速に減少
し、音質が大幅に劣化するという問題がある。
解決し、ビットレートが低い場合にも比較的少ない演算
量で音質の劣化の少ない音声符号化方式を提供すること
にある。
め、本発明の第1の態様による音声符号化方式は、入力
音声信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ計算部と、前記音声信号からピッ
チ周期に対応する遅延を求めてピッチ予測信号を計算し
ピッチ予測を行なう適応コードブック部と、前記音声信
号の音源信号を個数Mの振幅が非零のパルスから構成
し、前記ピッチ予測信号に対して予め定められた条件を
満たす前記パルス位置対応のサンプル位置を求め、求め
られたサンプル位置から予め定められたサンプル数だけ
ずらせた位置をもとに前記パルスの位置を探索する範囲
を設定し、設定された範囲に対して最良の位置を探索し
出力する音源量子化部とを有する。
化装置は、入力音声信号からスペクトルパラメータを求
めて量子化するスペクトルパラメータ計算部と、前記音
声信号からピッチ周期に当たる遅延を求めピッチ予測信
号を計算しピッチ予測を行なう適応コードブック部と、
前記音声信号の音源信号を個数Mの振幅が非零のパルス
で構成し、先頭からピッチ周期に等しい長さの区間にお
いて前記ピッチ予測信号に対して予め定められた条件を
満たすサンプル位置を求め前記位置から予め定められた
サンプル数だけずらせた位置をもとにパルスの位置を探
索する範囲を設定し、前記範囲に対して最良の位置を探
索し出力する音源量子化部とを有する。
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、先頭からピッチ周期に等しい長さの区間において前
記ピッチ予測信号に対して予め定められた条件を満たす
サンプル位置を求め、前記位置から予め定められたサン
プル数だけずらぜた位置をもとにパルスの位置の候補を
前記ピッチ周期だけずらせながら設定し、前記候補位置
を探索し最良の位置を出力する音源量子化部とを有す
る。
パルスの振幅もしくは極性をまとめて量子化するための
コードブックを有する。
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、前記ピッチ予測信号に対して予め定められた条件を
満たすサンプル位置を求め、複数種のずらし量の各々を
用いて前記位置からずらした後の位置をもとに前記パル
スの位置を探索する範囲を設定し前記範囲に対して位置
を探索し、最良となるずらし量とパルスの位置の組合せ
を出力する音源量子化部とを有する。
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、先頭からピッチ周期に等しい長さの区間において前
記ピッチ予測信号に対して予め定められた条件を満たす
サンプル位置を求め、複数種のずらし量の各々を用いて
前記位置からずらせた後の位置をもとに前記パルスの位
置を探索する範囲を設定し前記範囲に対して位置を探索
し、最良となるずらし量とパルスの位置の組合せを出力
する音源量子化部とを有する。
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に当たる遅延を求めピッチ予測信号を計
算しピッチ予測を行なう適応コードブック部と、前記音
声信号の音源信号を個数Mの振幅が非零のパルスで構成
し、先頭からピッチ周期に等しい長さの区間において前
記ピッチ予測信号に対して予め定められた条件を満たす
サンプル位置を求め、複数種のずらし量の各々を用いて
前記位置からずらせた後の位置をもとに、更に前記ピッ
チ周期だけずらせながら前記パルスをたてる位置の候補
を設定し、前記位置を探索し、最良となるずらし量とパ
ルスの位置の組合せを出力する音源量子化部とを有す
る。
パルスの振幅もしくは極性をまとめて量子化するための
コードブックを有する。
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、入力音声信号
から特徴量を抽出して複数のモードを判別し出力するモ
ード判別部と、前記音声信号からピッチ周期に当たる遅
延を求めピッチ予測信号を計算しピッチ予測を行なう適
応コードブック部と、前記音声信号の音源信号を個数M
の振幅が非零のパルスで構成し、予め定められたモード
の場合に、前記ピッチ予測信号に対して予め定められた
条件を満たすサンプル位置を求め、前記位置をもとに、
前記パルスの位置を探索する範囲を設定し、前記範囲に
対して最良を探索し出力する音源量子化部とを有する。
ンであり、また前記モード判別部は前記平均ピッチ予測
ゲインと予め定められた複数個のしきい値との比較結果
に基づいてモードを判別する。
は、入力音声信号からスペクトルパラメータを求めて量
子化するスペクトルパラメータ計算部と、前記音声信号
からピッチ周期に対応する遅延を求めてピッチ予測信号
を計算し、ピッチ予測を行なう適応コードブック部と、
前記適応コードブックで求めたピッチ予測信号に対して
予め定められた条件を満たす位置を求め、求められた位
置に基づいて音源信号を表わす複数個のパルスの位置の
探索範囲を設定し、この探索範囲の中で前記複数個のパ
ルスの最良の位置を探索する音源量子化部とを備えて成
る。
の実施の形態を示すブロック図である。図1において、
入力端子100から音声信号が入カされ、フレーム分割
回路110では上記音声信号がフレーム(例えば10m
s)毎に分割され、サブフレーム分割回路120では、
上記フレーム音声信号をフレームよりも短いサブフレー
ム(例えば、5ms)に分割される。
少なくとも一つのサブフレームの音声信号に対して、サ
ブフレーム長よりも長い窓(例えば、24ms)をかけ
て音声を切り出してスペクトルパラメータを予め定めら
れた次数(例えばP=10次)計算する。ここで、スペ
クトルパラメータの計算には、周知のLPC分析や、B
urg分析等を用いることができる。ここでは、Bur
g分析を用いることとする。Burg分析の詳細につい
ては、中溝著による”信号解析とシステム同定”と題し
た単行本(コロナ社1988年刊)の82〜87頁(文
献4)等に記載されているので説明は省略する。更に、
スペクトルパラメータ計算部は、Burg法により計算
された線形予測係数αi(i=1,・・・,10)を量
子化や補間に適したLSPパラメータに変換する。ここ
で、線形予測係数からLSPへの変換は、菅村他によ
る”線スペクトル対(LSP)音声分析合成方式による
音声情報圧縮”と題した論文(電子通信学会論文誌、J
64−A、pp.599−606、1981年)(文献
5)を参照することができる。例えば、第2サブフレー
ムでBurg法により求めた線形予測係数を、LSPパ
ラメータに変換し、第1サブフレームのLSPを直線補
間により求めて、第1サブフレームのLSPを逆変換し
て線形予測係数に戻し、第1,2サブフレームの線形予
測係数αil、i=1,・・・,10、l=1,・・・,
2)を聴感重み付け回路230に出力する。また、第2
サブフレームのLSPをスペクトルパラメータ量子化回
路210へ出力する。
は、予め定められたサブフレームのLSPパラメータを
コードブック220を用いて効率的に量子化し、下式の
歪みを景小化する量子化値を出力する。
れぞれ、量子化前のi次目のLSP、コードブック22
0に格納されたj番目のコードベクトル、重み係数であ
る。
化を用いるものとし、第2サブフレームのLSPパラメ
ータを量子化するものとする。LSPパラメータのベク
トル量子化の手法としては周知の手法を用いることがで
きる。具体的な手法は、例えば、特開平4−17150
0号公報(特願平5−297600号)(文献6)、特
開平4−363000号公報(特願平3−261925
号)(文献7)、特開平5−6199号公報(特願平3
−155049号)(文献8)、T.Nomura etal.,によ
る“LSP Coding Using VQSVQ with Interpolation in
4.075kbps M-LCELP Speech Coder”と題した論文(Pro
c.Mobile Multimedia Communications,pp.B.2.5,1993)
(文献9)等を参照できるのでここでは説明は略する。
10は、第2サブフレームで量子化したLSPパラメー
タをもとに、第1サブフレームのLSPパラメータを復
元する。ここでは、現フレームの第2サブフレームの量
子化LSPパラメータと1つ過去のフレームの第2サブ
フレームの量子化LSPを直線補間して、第1サブフレ
ームのLSPを復元する。ここで、量子化前のLSPと
量子化後のLSPとの誤差電力を量子化するコードベク
トルを1種類選択した後に、直線補間により第1サブフ
レームのLSPを復元できる。
SPと第2サブフレームの量子化LSPをサブフレーム
毎に線形予測係数αil'(i=1,・・・,10,l=
1,…,2)に変換し、インパルス応答計算回路310
へ出力する。また、第2サブフレームの量子化LSPの
コードベクトルを表わすインデクスをマルチプレクサ4
00に出力する。
ラメータ計算回路200から、各サブフレーム毎に量子
化前の線形予測係数αij'(i=1,・・・,P)を入
力し、前記文献1に基づき、サブフレームの音声信号に
対して聴感重み付けを行い、聴感重み付け信号を出力す
る。
ラメータ計算回路200から、各サブフレーム毎に線形
予測係数αiを入力し、スペクトルパラメータ量子化回
路210から、量子化、補間して復元した線形予測係数
αi'をサブフレーム毎に入力し、保存されているフィル
タメモリの値を用いて、入力信号を零d(n)=0とし
た応答信号を1サブフレーム分計算し、減算器235へ
出力する。ここで、応答信号xz(n)は下式で表され
る。
け量を制御する重み係数であり、下記の式(6)と同一
の値である。sw(n)、p(n)は、それぞれ、重み
付け信号計算回路の出力信号、後述の式(6)における
右辺第1項のフィルタの分母の項の出力信号をそれぞれ
示す。
け信号から応答信号を1サブフレーム分減算し、xw'
(n)を適応コードブック回路300へ出力する。
が下式で表される聴感重み付けフィルタのインパルス応
答hw(n)を予め定められた点数Lだけ計算し、適応
コードブック回路300、音源量子化回路350へ出力
する。
信号計算回路360から遇去の音源信号v(n)を、減
算器235から出力信号xw'(n)を、インパルス応答
計算回路310から聴感重み付けインパルス応答h
w(n)を入力する。ピッチ周期に対応する遅延Tを下
式の歪みを最小化するように求め、遅延を表わすインデ
クスをマルチプレクサ400に出力する。
す。ゲインβは下式に従い求める。
延の抽出楕度を向上させるために、遅延を整数サンブル
ではなく、小数サンブル値で求めてもよい。具体的な方
法は、例えぱ、P.Kroonらによる、“Pitch predictors
with high temporal resolution"と題した論文(Proc.I
CASSP,pp.661-664,1990年)(文献10)等を参照する
ことができる。
択された遅延とゲインを用いて下式に従いピッチ予測を
行ない、予測残差信号zw(n)を音源量子化回路35
0へ出力する。
子化回路350へ出力する。
に対して、振幅が非零のM個のパルスをたてる。
ク図を図2に示す。絶対値最大位置検出回路351は、
ピッチ予測信号yw(n)に対して、予め定められた条
件を満たすサンプル位置を検出する。ここでは、「振幅
の絶対値が最大」という条件を使用し、それを満たすサ
ンプル位置を検出し、位置探索範囲設定回路352へ出
力する。
サンプル位置に対して予め定められた固定のサンプル数
Lだけ未来あるいは過去にずらした後に、各パルスの位
置の探索範囲を設定する。
5msサブフレーム(40サンプル)に5個のパルスを
求める例を考えると、各パルスの探索範囲に含まれる位
置の候補の例は下表のようになる。 第1パルス D−L,D−L+5,... 第2パルス D−L+1,D−L+6,... 第3パルス D−L+2,D−L+7,... 第4パルス D−L+3,D−L+8,... 第5パルス D−L+4,D−L+9,...
1の相関関数計算回路353、第2の相関関数計算回路
354は、それぞれ、下式に従い、第1の相関関数d
(n)、第2の相関関数φを計算する。
囲設定回路352で設定された探索範囲における各パル
スの候補位置に対して、第1の相関関数d(n)の極性
を抽出し出力する。
た候補位置の組合せに対して次式を計算し、次式を最大
化する位置を最適位置として選択する。
極性を示し、パルス極性設定回路355にて予め抽出し
たものを使用する。以上により、M個のパルスの極性と
位置がゲイン量子化回路365に出力される。
ト数で量子化し、位置を表わすインデクスをマルチプレ
クサに出力する。また、パルスの極性をマルチプレクサ
400に出力する。
ブック367からゲインコードベクトルを読み出し、選
択された位置に対して、下式を最小化するゲインコード
ベクトルを選択し、最終的に歪みを最小化する振幅コー
ドベクトルとゲインコードベクトルの組合せを選択す
る。
と、パルスで表わした音源のゲインG’の2種のゲイン
を同時にベクトル量子化する例について示す。
格納された2次元ゲインコードベクトルにおけるt番目
の要素である。上式の計算を、ゲインコードベクトルの
各々に対して繰り返し、歪みDtを最小化するゲインコ
ードベクトルを選択する。選択されたゲインコードベク
トルを表わすインデクスをマルチプレクサ400に出力
する。
のインデクスを入力し、インデクスからそれに対応する
コードベクトルを読み出し、まず下式に基づき駆動音源
信号v(n)を求める。
0の出力パラメータ、スペクトルパラメータ量子化回路
210の出力パラメータを用いて下式により、応答信号
sw(n)をサブフレーム毎に計算し、応答信号計算回
路240へ出力する。
に示す。ここでは、音源量子化回路450の動作が図1
と異なる。
す。音源量子化回路450は、予測信号yw(n)、予
測残差信号zw(n)、聴感重み付けインパルス応答hw
(n)のみならず、適応コードブックの遅延Tを入力す
る。
周期に相当する遅延Tを入力し、ピッチ予測信号y
w(n)に対して、サブフレームの先頭からTサンプル
までの範囲で絶対値を最大にするサンプル位置を検出
し、位置探索範囲設定回路352出力する。
に示す。ここでは、音源量子化回路500の動作が図3
と異なる。音源量子化回路550の構成図を図6に示
す。
サンプル位置に対して予め定められた固定のサンプル数
Lだけ未来あるいは過去にずらした位置を基点とし、遅
延Tだけずらしながら、各パルスの位置の候補を設定
し、パルス位置探索回路356に出力する。
5msサブフレーム(40サンプル)に5個のパルスを
求める例を考えると、各パルスの位置の候補の例は下表
のようになる。 第1パルス D−L,D−L+T,… 第2パルス D−L+1,D−L+T,… 第3パルス D−L+2,D−L+T,… 第4パルス D−L+3,D−L+T,… 第5パルス D−L+4,D−L+T,…
に示す。ここでは、第1の実施の形態において、振幅コ
ードブックを使用する例について説明するが、第2、第
3の実施の形態に対して振幅コードブックを使用する場
合も同様の変更により実現できる。
0と振幅コードブック395が異なっている。音源量子
化回路390の構成を図8に示す。振幅コードブック3
95を用いてパルスの振幅を量子化する。
パルスに対して位置が求まった後で、振幅量子化回路3
97において、次式を最大化するように、振幅コードベ
クトルを振幅コードブック395から選択し、インデク
スを出力する。
振幅コードベクトルである。
コードベクトルを表わすインデクスをマルチプレクサ4
00に出力する。また、位置の値、振幅コードベクトル
の値をゲイン量子化回路400に出力する。
使用したが、代わりに、各パルスの極性を示す極性コー
ドブックを使用して探索してもよい。
図である。図において、音源量子化回路600の動作が
図1と異なるので、図10を用いて構成を説明する。
すブロック図である。位置探索範囲設定回路652は、
絶対値最大位置検出回路351の出力位置に対して、複
数種(例えばQ種)のずらし量の各々の分だけずらした
位置を基点として各パルスの探索範囲ならびに位置のセ
ットを設定し、パルスの位置の設置のセットをずらし量
の種類分だけパルス極性設定回路655とパルス位置探
索回路656に出力する。
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ出力する。
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回操り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。
ク図である。図において、音源量子化回路650の動作
が図3と異なるので、図12を用いて構成を説明する。
すブロック図である。位置探索範囲設定回路652は、
絶対値最大位置検出回路451の出力位置に対して、複
数種(例えばQ種)のずらし量の各々の分だけずらした
位置を基点として、各パルスの位置を設定し、パルスの
位置のセットをずらし量の種類分だけパルス極性設定回
路655とパルス位置探索回路656に出力する。
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ出力する。
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回繰り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。
ク図である。図において、音源量子化回路750の動作
が図5と異なるので、図14を用いて構成を説明する。
すブロック図である。位置探索範囲設定回路752は、
絶対値最大位置検出回路451の出力位置に対して、複
数種(例えば、Q種)のずらし量の各々の分だけずらし
た位置を基点として、更に遅延Tだけずらしながら各パ
ルスの位置を設定する。このようにして各パルスの位置
のセットをQ種類分パルス極性設定回路655とパルス
位置探索回路656に出力する。
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ抽出する。
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回繰り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。
ク図である。ここでは、第5の実施例の形態を示すブロ
ック図に、パルスの振幅を量子化する振幅コードブック
を付加する例について示すが、第6、第7の実施の形態
に付加することもできる。
が図7と異なるので、音声量子化k回路850の構成を
図16を用いて説明する。
ブロック図である。位置探索範囲設定回路652は、絶
対値最大位置検出回路351の出力位置に対して、複数
種(例えぱQ種)のずらし量の各々の分だサずらした位
置を基点として、各パルスの位置を設定し、パルスの位
置のセットをずらし量の種類分だけパルス極性設定回路
655とパルス位置探索回路656に出力する。
路652の複数種の候補位置の各々に対して極性を抽出
し、パルス位置探索回路656へ出力する。
補位置の各々に対して、第1の相関関数、第2の相関関
数、極性を用いて、式(13)を最大化する位置を探索
する。この処理をずらしの種類であるQ回操り返し、Q
種の中で、式(13)を最大化する位置を最終的に選択
し、各パルスの位置と、ずらし量とを出力する。なお、
ずらし量はマルチプレクサ400に出力される。振幅量
子化回路397は図8と同一の動作を行なう。
ク図である。ここでは、第1の実施の形態をもとにする
例について示すが、他の実施の形態をもとにすることも
できる。
路230からフレーム単位で聴感重み付け信号を受け取
り、モード判別情報を適応コードブック回路950、音
源量子化回路960、ゲイン量子化回路965とマルチ
プレクサ400へ出力する。ここでは、モード判別に、
現在のフレームの特徴量を用いる。特徴量としては、例
えば、フレームで平均したピッチ予測ゲインを用いる。
ピッチ予測ゲインの計算は例えば下式を用いる。
ある。Pi、Eiはそれぞれ、i番目のサブフレームでの
音声パワー、ピッチ予測誤差パワーを示す。
められた複数個のしきい値と比較して複数種類(例えば
R種)のモードに分類する。モードの個数Rとしては、
例えば4を用いることが出来る。
報を受け取り、予め定められたモードの場合に、図1の
適応コードブック回路300と同一の動作を行い、遅
延、適応コードブック予測信号、予測残差信号を出力す
る。その他のモードに対しては、減算器235からの入
力信号をそのまま出力する。
け取り、予め定められたモードの際に図1の音源量子化
回路350と同一の動作を行う。
入力し、モード毎に設計された複数種のゲインコードブ
ック3671から367Rを切り替えてゲイン量子化に使
用する。ゲイン量子化の動作は図1のゲイン量子化回路
365と同一である。
が可能である。例えば、複数パルスの振幅を量子化する
ためのコードブックを、音声信号を用いて予め学習して
格納しておくこともできる。コードブックの学習法は、
例えば、Linde氏らによる“An algorithm for vector
quantization design"と題した論文(IEEE Trans.Commu
n.,pp.84−95,Januay,1980)(文献11)等
を参照できる。
数に等しいビット数だけ各パルスの極性の組み合わせを
用意した極性コードブックを有するようにしてもよい。
音源量子化部において、適応コードブックで求めたピッ
チ予測信号に対して予め定められた条件を満たす位置を
求め、前記位置を基に、音源信号を表わす複数個のパル
スの位置の探索範囲を設定し、この範囲の中で最良の位
置を探索する。これにより、パルスの位置の探索範囲を
ピッチ波形に同期させて、ピッチ波形を表わすための音
源信号を良好に表わすことが出来るので、ビットレート
を低減化しても、従来方式に比べ良好な音質が得られ
る。
を抽出して複数のモードを判別し、予め定められたモー
ドにおいて、音源量子化部で上述の処理を行うことによ
り、音声の周期性が強いモード部分に対する音質を改善
することが出来る。
を示す構成ブロック図である。
0の構成を示す図である。
を示す構成ブロック図である。
0の構成を示す図である。
を示す構成ブロック図である。
0の構成を示す図である。
を示す構成ブロック図である。
0の構成を示す図である。
を示す構成ブロック図である。
00の構成を示す図である。
態を示す構成ブロック図である。
50の構成を示す図である。
態を示す構成ブロック図である。
50の構成を示す図である。
態を示す構成ブロック図である。
50の構成を示す図である。
態を示す構成ブロック図である。
50、850、960音源量子化回路 360 重み付け信号計算回路 365、965 ゲイン量子化回路 395 振幅コードブック 367 ゲインコードブック 400 マルチプレクサ 900 モード判別回路
Claims (12)
- 【請求項1】入力音声信号からスペクトルパラメータを
求めて量子化するスペクトルパラメータ計算部と、前記
音声信号からピッチ周期に対応する遅延を求めてピッチ
予測信号を計算しピッチ予測を行なう適応コードブック
部と、前記音声信号の音源信号を個数Mの振幅が非零の
パルスで構成し、前記ピッチ予測信号に対して予め定め
られた条件を満たす前記パルス位置対応のサンプル位置
を求め、求められたサンプル位置から予め定められたサ
ンプル数だけずらせた位置をもとに前記パルスの位置を
探索する範囲を設定し、設定された範囲に対して最良の
位置を探索し出力する音源量子化部とを有する音声符号
化装置。 - 【請求項2】入力音声信号からスペクトルパラメータを
求めて量子化するスペクトルパラメータ計算部と、前記
音声信号からピッチ周期に当たる遅延を求めピッチ予測
信号を計算しピッチ予測を行なう適応コードブック部
と、前記音声信号の音源信号を個数Mの振幅が非零のパ
ルスで構成し、先頭からピッチ周期に等しい長さの区間
において前記ピッチ予測信号に対して予め定められた条
件を満たすサンプル位置を求め前記位置から予め定めら
れたサンプル数だけずらせた位置をもとにパルスの位置
を探索する範囲を設定し、前記範囲に対して最良の位置
を探索し出力する音源量子化部とを有する音声符号化装
置。 - 【請求項3】入力音声信号からスペクトルパラメータを
求めて量子化するスペクトルパラメータ計算部と、前記
音声信号からピッチ周期に当たる遅延を求めピッチ予測
信号を計算しピッチ予測を行なう適応コードブック部
と、前記音声信号の音源信号を個数Mの振幅が非零のパ
ルスで構成し、先頭からピッチ周期に等しい長さの区間
において前記ピッチ予測信号に対して予め定められた条
件を満たすサンプル位置を求め、前記位置から予め定め
られたサンプル数だけずらぜた位置をもとにパルスの位
置の候補を前記ピッチ周期だけずらせながら設定し、前
記候補位置を探索し最良の位置を出力する音源量子化部
とを有する音声符号化装置。 - 【請求項4】音源量子化部において、複数個のパルスの
振幅もしくは極性をまとめて量子化するためのコードブ
ックを有することを特徴とする請求項1または2または
3記載の音声符号化装置。 - 【請求項5】入力音声信号からスペクトルパラメータを
求めて量子化するスペクトルパラメータ計算部と、前記
音声信号からピッチ周期に当たる遅延を求めピッチ予測
信号を計算しピッチ予測を行なう適応コードブック部
と、前記音声信号の音源信号を個数Mの振幅が非零のパ
ルスで構成し、前記ピッチ予測信号に対して予め定めら
れた条件を満たすサンプル位置を求め、複数種のずらし
量の各々を用いて前記位置からずらした後の位置をもと
に前記パルスの位置を探索する範囲を設定し前記範囲に
対して位置を探索し、最良となるずらし量とパルスの位
置の組合せを出力する音源量子化部とを有する音声符号
化装置。 - 【請求項6】入力音声信号からスペクトルパラメータを
求めて量子化するスペクトルパラメータ計算部と、前記
音声信号からピッチ周期に当たる遅延を求めピッチ予測
信号を計算しピッチ予測を行なう適応コードブック部
と、前記音声信号の音源信号を個数Mの振幅が非零のパ
ルスで構成し、先頭からピッチ周期に等しい長さの区間
において前記ピッチ予測信号に対して予め定められた条
件を満たすサンプル位置を求め、複数種のずらし量の各
々を用いて前記位置からずらせた後の位置をもとに前記
パルスの位置を探索する範囲を設定し前記範囲に対して
位置を探索し、最良となるずらし量とパルスの位置の組
合せを出力する音源量子化部とを有する音声符号化装
置。 - 【請求項7】入力音声信号からスペクトルパラメータを
求めて量子化するスペクトルパラメータ計算部と、前記
音声信号からピッチ周期に当たる遅延を求めピッチ予測
信号を計算しピッチ予測を行なう適応コードブック部
と、前記音声信号の音源信号を個数Mの振幅が非零のパ
ルスで構成し、先頭からピッチ周期に等しい長さの区間
において前記ピッチ予測信号に対して予め定められた条
件を満たすサンプル位置を求め、複数種のずらし量の各
々を用いて前記位置からずらせた後の位置をもとに、更
に前記ピッチ周期だけずらせながら前記パルスをたてる
位置の候補を設定し、前記位置を探索し、最良となるず
らし量とパルスの位置の組合せを出力する音源量子化部
とを有する音声符号化装置。 - 【請求項8】音源量子化部において、複数個のパルスの
振幅もしくは極性をまとめて量子化するためのコードブ
ックを有することを特徴とする請求項5または6または
7記載の音声符号化装置。 - 【請求項9】入力音声信号からスペクトルパラメータを
求めて量子化するスペクトルパラメータ計算部と、入力
音声信号から特徴量を抽出して複数のモードを判別し出
力するモード判別部と、前記音声信号からピッチ周期に
当たる遅延を求めピッチ予測信号を計算しピッチ予測を
行なう適応コードブック部と、前記音声信号の音源信号
を個数Mの振幅が非零のパルスで構成し、予め定められ
たモードの場合に、前記ピッチ予測信号に対して予め定
められた条件を満たすサンプル位置を求め、前記位置を
もとに、前記パルスの位置を探索する範囲を設定し、前
記範囲に対して最良を探索し出力する音源量子化部とを
有することを特徴とする音声符号化装置。 - 【請求項10】前記特徴量は平均ピッチ予測ゲインであ
る請求項9に記載の音声符号化装置。 - 【請求項11】前記モード判別部は前記平均ピッチ予測
ゲインと予め定められた複数個のしきい値との比較結果
に基づいてモードを判別する請求項9に記載の音声符号
化装置。 - 【請求項12】入力音声信号からスペクトルパラメータ
を求めて量子化するスペクトルパラメータ計算部と、前
記音声信号からピッチ周期に対応する遅延を求めてピッ
チ予測信号を計算し、ピッチ予測を行なう適応コードブ
ック部と、前記適応コードブックで求めたピッチ予測信
号に対して予め定められた条件を満たす位置を求め、求
められた位置に基づいて音源信号を表わす複数個のパル
スの位置の探索範囲を設定し、この探索範囲の中で前記
複数個のパルスの最良の位置を探索する音源量子化部と
を備えて成ることを特徴とする音声符号化装置。
Priority Applications (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30714396A JP3471542B2 (ja) | 1996-10-31 | 1996-10-31 | 音声符号化装置 |
CA002301994A CA2301994C (en) | 1996-08-26 | 1997-08-25 | High quality speech coder at low bit rates |
CA002301995A CA2301995C (en) | 1996-08-26 | 1997-08-25 | High quality speech coder at low bit rates |
CA002213909A CA2213909C (en) | 1996-08-26 | 1997-08-25 | High quality speech coder at low bit rates |
EP01119627A EP1162603B1 (en) | 1996-08-26 | 1997-08-26 | High quality speech coder at low bit rates |
EP97114753A EP0834863B1 (en) | 1996-08-26 | 1997-08-26 | Speech coder at low bit rates |
DE69727256T DE69727256T2 (de) | 1996-08-26 | 1997-08-26 | Sprachkodierer hoher Qualität mit niedriger Bitrate |
DE69725945T DE69725945T2 (de) | 1996-08-26 | 1997-08-26 | Sprachkodierer mit niedriger Bitrate |
US08/917,713 US5963896A (en) | 1996-08-26 | 1997-08-26 | Speech coder including an excitation quantizer for retrieving positions of amplitude pulses using spectral parameters and different gains for groups of the pulses |
EP01119628A EP1162604B1 (en) | 1996-08-26 | 1997-08-26 | High quality speech coder at low bit rates |
DE69732384T DE69732384D1 (de) | 1996-08-26 | 1997-08-26 | Sprachkodierer hoher Qualität mit niedriger Bitrate |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30714396A JP3471542B2 (ja) | 1996-10-31 | 1996-10-31 | 音声符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10133696A true JPH10133696A (ja) | 1998-05-22 |
JP3471542B2 JP3471542B2 (ja) | 2003-12-02 |
Family
ID=17965557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30714396A Expired - Fee Related JP3471542B2 (ja) | 1996-08-26 | 1996-10-31 | 音声符号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3471542B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000000963A1 (fr) * | 1998-06-30 | 2000-01-06 | Nec Corporation | Codeur vocal |
WO2001020595A1 (en) * | 1999-09-14 | 2001-03-22 | Fujitsu Limited | Voice encoder/decoder |
-
1996
- 1996-10-31 JP JP30714396A patent/JP3471542B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000000963A1 (fr) * | 1998-06-30 | 2000-01-06 | Nec Corporation | Codeur vocal |
US6973424B1 (en) | 1998-06-30 | 2005-12-06 | Nec Corporation | Voice coder |
WO2001020595A1 (en) * | 1999-09-14 | 2001-03-22 | Fujitsu Limited | Voice encoder/decoder |
US6594626B2 (en) | 1999-09-14 | 2003-07-15 | Fujitsu Limited | Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook |
Also Published As
Publication number | Publication date |
---|---|
JP3471542B2 (ja) | 2003-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3094908B2 (ja) | 音声符号化装置 | |
JP3196595B2 (ja) | 音声符号化装置 | |
CA2271410C (en) | Speech coding apparatus and speech decoding apparatus | |
EP1005022B1 (en) | Speech encoding method and speech encoding system | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JP3266178B2 (ja) | 音声符号化装置 | |
JP3335841B2 (ja) | 信号符号化装置 | |
EP1093230A1 (en) | Voice coder | |
JP3360545B2 (ja) | 音声符号化装置 | |
JP3471542B2 (ja) | 音声符号化装置 | |
JP3144284B2 (ja) | 音声符号化装置 | |
JP3299099B2 (ja) | 音声符号化装置 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP4510977B2 (ja) | 音声符号化方法および音声復号化方法とその装置 | |
JPH0830299A (ja) | 音声符号化装置 | |
JPH08185199A (ja) | 音声符号化装置 | |
JP3092654B2 (ja) | 信号符号化装置 | |
JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JPH08320700A (ja) | 音声符号化装置 | |
JPH08194499A (ja) | 音声符号化装置 | |
JPH09319399A (ja) | 音声符号化装置 | |
JPH08137496A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080912 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080912 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090912 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090912 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100912 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110912 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120912 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130912 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |