JP2870608B2

JP2870608B2 - 音声ピッチ予測装置

Info

Publication number: JP2870608B2
Application number: JP3282691A
Authority: JP
Inventors: 智一森尾
Original assignee: Consejo Superior de Investigaciones Cientificas CSIC
Current assignee: Consejo Superior de Investigaciones Cientificas CSIC
Priority date: 1991-02-27
Filing date: 1991-02-27
Publication date: 1999-03-17
Anticipated expiration: 2014-03-17
Also published as: JPH04271399A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号または音声信
号を線形予測した残差信号に対してピッチ予測を行う音
声ピッチ予測装置に関する。

【０００２】

【従来の技術】一般に音声信号は、近接サンプルの相関
が高く、近接サンプルの信号系列による線形予測に基づ
いて音声信号を効率よく情報圧縮することができる。ま
た、音声信号にはピッチによる繰り返し的な冗長性もあ
り、ピッチ予測により情報圧縮の効率をさらに高めるこ
ともできる。

【０００３】これら２つの線形予測を用いた低ビットレ
イトの音声符号化方法として、コ−ド・エキサイテッド
・リニア・プレディクション（Code-Excited Linear Pr
ediction（ＣＥＬＰ））が盛んに研究開発されている
（参考文献："Stochastic Coding of Speech Signals a
t Very Low Bit Rates : The Importance of Speech Pe
rception", M.R.Schroeder and B.S. Atal, Speech Com
munication 4, 1985, page 155-162, North-Holand）。

【０００４】ＣＥＬＰでは、予測残差信号を４０サンプ
ルの長さのベクトルとして扱い、ベクトル量子化の技術
を用いて予測残差信号を非常に低ビットレイトで圧縮符
号化している。

【０００５】図４にＣＥＬＰに基づく従来の符号化器の
一構成例を示す。

【０００６】図４に示すコードブック４０１には、一定
のサンプル長（例えば４０サンプル）の、残差信号波形
（コードワードと称する）を複数種類（例えば１０２４
種類）記憶させ、最小エラー選択器４０８の指示によ
り、全てのコードワードを順番に出力させる。

【０００７】このコードワードは掛算器４０２で増幅し
た後、ピッチ予測器４０３でピッチ構造を持たせ、次に
スペクトル予測器４０４でスペクトル的な構造を持たせ
て合成出力波形を得る。

【０００８】入力端子４０５から入力された音声信号波
形は、上記一定のサンプル長のベクトルとして加算器４
０６に入力され、加算器４０６はこの音声信号波形と予
測器４０４からの合成信号波形との差、即ちエラー波形
を出力する。

【０００９】このエラー波形は、聴覚的重み付けフィル
タ４０７でスペクトル的に整形され、最小エラー選択器
４０８に入力される。

【００１０】最小エラー選択器４０８は、この整形後の
エラー波形のエネルギーを最小にするようなコードワー
ドをコードブック４０１から選択する。

【００１１】ここで、符号化されたパラメータは、コー
ドワードのエネルギーｇａｉｎ、スペクトルパラメータ
α、ピッチパラメータｔａｕ，ａ、及び残差コードワー
ドの指標値ｉｎｄｅｘである。

【００１２】伝送情報量の具体例として、スペクトルパ
ラメータαは２０ｍｓｅｃごとに４０ｂｉｔｓ（２Ｋｂ
ｐｓ）、その他のパラメータは５ｍｓｅｃごとに、ピッ
チパラメータとしてピッチ長ｔａｕに７ｂｉｔｓと予測
係数ａに３ｂｉｔｓ（２Ｋｂｐｓ）、コードワードの指
標値ｉｎｄｅｘに１０ｂｉｔｓ（２Ｋｂｐｓ）、コード
ワードのエネルギーｇａｉｎに５ｂｉｔｓ（１Ｋｂｐ
ｓ）とすると、全体の伝送情報量は７Ｋｂｐｓとなる。

【００１３】ピッチ予測器４０３としては、最も一般的
に使用されている１タップのものを想定し、ピッチ長
（例えば４０〜１６７サンプル）は７ｂｉｔｓで符号化
し、予測係数は非線形量子化により３ｂｉｔｓに量子化
して伝送する。

【００１４】

【発明が解決しようとする課題】しかしながら、上述の
ＣＥＬＰ符号化器では、伝送情報量のうちピッチパラメ
ータ（ピッチ長と予測係数）の情報量が全体の３割程度
を占めている。従って、全体の伝送情報量を例えば４Ｋ
ｂｐｓ程度に低減するためには、ピッチパラメータの情
報量をさらに圧縮する必要がある。

【００１５】そのために従来のＣＥＬＰ符号化器は、例
えば分析区間の長さを５ｍｓｅｃから１０ｍｓｅｃに長
くしてピッチパラメータの伝送レイトを低減させて情報
量を圧縮していた。しかし、音声のピッチ構造の時間的
変化が速いので、比較的長い分析期間（１０ｍｓｅｃ）
に亘ってピッチ長や予測係数が定常であると仮定して処
理することは無理であり、従来のＣＥＬＰ符号化器で
は、圧縮音声の品質が劣化するという問題点があった。

【００１６】本発明は、上述した従来のＣＥＬＰ符号化
器における問題点に鑑み、分析区間の長さを長くするこ
となくピッチパラメータであるピッチ長と予測係数の伝
送情報量を低減することが可能な音声ピッチ予測装置を
提供する。

【００１７】

【課題を解決すための手段】本発明の音声ピッチ予測装
置は、第１メモリ、第１ピッチ予測手段、ピッチ強度判
定手段、第２メモリ、第２ピッチ予測手段、符号化手段
を備える音声ピッチ予測装置であって、第１メモリは、
第２メモリが記憶するより前のフレームの分析信号を記
憶し、第１ピッチ予測手段は、第１メモリの分析信号に
対しピッチ予測を行い、第１ピッチ長、自己相関係数を
出力し、ピッチ強度判定手段は、第１ピッチ予測手段の
自己相関係数が所定の判定閾値より大きいか小さいかを
比較して比較結果を出力し、第２メモリは、現在のフレ
ームの分析信号を記憶し、第２ピッチ予測手段は、比較
結果が小さい場合には、第２メモリの分析信号に対しピ
ッチ予測を行い、第２ピッチ長、予測係数を出力し、比
較結果が大きい場合には、第１ピッチ長に基づいてピッ
チ長の探索範囲を所定の範囲に制限した上で、第２メモ
リの分析信号に対しピッチ予測を行い、第１ピッチ長に
対する差分、予測係数を出力し、符号化手段は、比較結
果が小さい場合には、第２ピッチ長と予測係数を第１の
ビット割合で符号化し、比較結果が大きい場合には、第
１ピッチ長に対する差分と予測係数を第２のビット割合
で符号化するように構成されている。

【００１８】本発明の音声ピッチ予測装置は、第１メモ
リ、第１ピッチ予測手段、第３ピッチ予測手段、ピッチ
強度判定手段、第２メモリ、第２ピッチ予測手段、符号
化手段を備える音声ピッチ予測装置であって、第１メモ
リは、第２メモリが記憶するより前のフレームの分析信
号を記憶し、第１ピッチ予測手段は、第１メモリの分析
信号に対しピッチ予測を行い、第１ピッチ長、自己相関
係数を出力し、第３ピッチ予測手段は、第１ピッチ長に
基づいて推定平均ピッチ長を求め、ピッチ強度判定手段
は、第１ピッチ予測手段の自己相関係数が所定の判定閾
値より大きいか小さいかを比較して比較結果を出力し、
第２メモリは、現在のフレームの分析信号を記憶し、第
２ピッチ予測手段は、比較結果が小さい場合には、推定
平均ピッチ長を用いて、差分形式から第２メモリの分析
信号に対しピッチ予測を行い、第２ピッチ長、予測係数
を出力し、比較結果が大きい場合には、第１ピッチ長に
基づいてピッチ長の探索範囲を所定の範囲に制限した上
で、第２メモリの分析信号に対しピッチ予測を行い、第
１ピッチ長に対する差分、予測係数を出力し、符号化手
段は、比較結果が小さい場合には、第２ピッチ長と予測
係数を第１のビット割合で符号化し、比較結果が大きい
場合には、第１ピッチ長に対する差分と予測係数を第２
のビット割合で符号化するように構成されてもよい。

【００１９】本発明の音声ピッチ予測装置は、第１メモ
リ、第１ピッチ予測手段、ピッチ強度判定手段、第２メ
モリ、第１ピッチ予測部、第２ピッチ予測部、符号化手
段を備える音声ピッチ予測装置であって、第１メモリ
は、第２メモリが記憶するより前のフレームの分析信号
を記憶し、第１ピッチ予測手段は、第１メモリの分析信
号に対しピッチ予測を行い、第１ピッチ長、自己相関係
数を出力し、ピッチ強度判定手段は、第１ピッチ予測手
段の自己相関係数が所定の判定閾値より大きいか小さい
かを比較して比較結果を出力し、第２メモリは、現在の
フレームの分析信号を記憶し、第１ピッチ予測部は、比
較結果が小さい場合に、第２メモリの分析信号に対しピ
ッチ予測を行い、第２ピッチ長、予測係数を出力し、第
２ピッチ予測部は、第１ピッチ予測部よりタップ数が多
く、比較結果が大きい場合に、第１ピッチ長に基づいて
ピッチ長の探索範囲を所定の範囲に制限した上で、第２
メモリの分析信号に対しピッチ予測を行い、第１ピッチ
長に対する差分、予測係数を出力し、符号化手段は、比
較結果が小さい場合には、第２ピッチ長と予測係数を第
１のビット割合で符号化し、比較結果が大きい場合に
は、第１ピッチ長に対する差分と予測係数を第２のビッ
ト割合で符号化するように構成されてもよい。

【００２０】

【作用】本発明の音声ピッチ予測装置によれば、第１メ
モリは、第２メモリが記憶するより前のフレームの分析
信号を記憶し、第１ピッチ予測手段は、第１メモリの分
析信号に対しピッチ予測を行い、第１ピッチ長及び自己
相関係数を出力し、ピッチ強度判定手段は、第１ピッチ
予測手段の自己相関係数が所定の判定閾値より大きいか
小さいかを比較して比較結果を出力し、第２メモリは、
現在のフレームの分析信号を記憶し、第２ピッチ予測手
段は、比較結果が小さい場合には、第２メモリの分析信
号に対しピッチ予測を行い、第２ピッチ長及び予測係数
を出力し、比較結果が大きい場合には、第１ピッチ長に
基づいてピッチ長の探索範囲を所定の範囲に制限した上
で、第２メモリの分析信号に対しピッチ予測を行い、第
１ピッチ長に対する差分及び予測係数を出力し、符号化
手段は、比較結果が小さい場合には、第２ピッチ長と予
測係数を第１のビット割合で符号化し、比較結果が大き
い場合には、第１ピッチ長に対する差分と予測係数を第
２のビット割合で符号化する。

【００２１】

【実施例】以下、図面を参照して本発明の音声ピッチ予
測装置における実施例について説明する。

【００２２】図１は、本発明の音声ピッチ予測装置にお
ける第１実施例の構成を示すブロック図である。

【００２３】図１に示すように、本実施例の音声ピッチ
予測装置は、入力端子１０１に接続された第１メモリ１
０２、第１メモリ１０２に接続された第１ピッチ予測手
段としてのピッチ予測器１０３、ピッチ予測器１０３に
接続されたピッチ強度判定手段としてのピッチ強度判定
器１０４、ピッチ予測器１０３に接続されたスイッチ１
０５、入力端子１０６及び第１メモリ１０２に接続され
た第２メモリ１０７、第２メモリ１０７に接続された第
２ピッチ予測手段としてのピッチ予測器１０８、ピッチ
強度判定器１０４及びピッチ予測器１０８及び出力端子
１１０に接続された符号化手段としての適応ビット配分
符号化器１０９により構成されている。

【００２４】次に、本実施例の音声ピッチ予測器の動作
を説明する。

【００２５】まず、過去の分析区間（以下、分析フレー
ムと称する）の被分析信号としての音声信号または音声
信号を線形予測器により予測した残差信号（以下、音声
信号と称する）が、入力端子１０１に入力されると、第
１メモリ１０２は過去の分析フレームの音声信号を入力
して記憶する。

【００２６】ピッチ予測器１０３は、第１メモリ１０２
が保持する過去の分析フレームの音声信号に対してピッ
チ予測を行って過去の分析フレームに対する音声信号の
第１ピッチ長及びピッチ構造の強弱（以下、自己相関係
数と称する）を出力する。

【００２７】ピッチ強度判定器１０４は、ピッチ予測器
１０３から出力される自己相関係数が所定の値より高い
（大きい）ときに所定の判定信号を出力する。

【００２８】第２メモリ１０７は、入力端子１０６を通
じて現在の分析フレームの音声信号を入力して記憶す
る。

【００２９】ピッチ予測器１０８は、第２メモリ１０７
が記憶している現在の分析フレームの音声信号に対して
ピッチ予測を行い、現在の分析フレームの音声信号に対
する第２ピッチ長及び予測係数を出力する。その際に、
ピッチ強度判定器１０４が所定の判定信号を出力したと
きには、ピッチ予測器１０３が出力する第１ピッチ長に
基づいて第２ピッチ長の探索範囲を所定の範囲に制限す
る。

【００３０】適応ビット配分符号化器１０９は、ピッチ
予測器１０８が出力する第２ピッチ長及び予測係数を所
定のビット数で符号化し、出力端子１１０に出力する。
また、適応ビット配分符号化器１０９は、ピッチ強度判
定器１０４が所定の判定信号を出力したときには、第２
ピッチ長のビット数を小さくすると共に予測係数のビッ
ト数を大きくし、かつ第２ピッチ長を差分形式で符号化
する。

【００３１】入力端子１０１から過去の分析フレ−ムの
音声信号がフレームごとに入力されると、入力された過
去の分析フレームの音声信号は、第１メモリ１０２に記
憶される。式１に過去の分析フレームの音声信号を表
す。

【００３２】

【数１】

【００３３】ここで、ｎ＝１は現在の分析フレームの音
声信号に対する直前のサンプルを示す指標値である。

【００３４】ピッチ予測器１０３は、過去の分析フレー
ムの音声信号を第１メモリ１０２から受け取って、以下
に述べる方法によりピッチ長ｔａｕを推定すると共に自
己相関係数ｃｏを求める。即ち、ピッチ予測器１０３
は、式２を用いて式３により表される自己相関係数値Ｃ
ｏ２［τ］を最大にするτを、第１ピッチの所定の推定
範囲（４０〜１６７サンプル）で探索し、得られたτを
ピッチ長ｔａｕとして出力し、更にこのピッチ長ｔａｕ
（＝τ）における自己相関係数ｃｏ（＝Ｃｏ２［ｔａ
ｕ］＝Ｃｏ２［τ］）を計算して出力する。

【００３５】

【数１】

【００３６】

【数２】

【００３７】上記式２の自己相関係数の計算式は、従来
用いられていた計算式（式４）と比較すると自己相関係
数の計算範囲が推定ピッチ長になっていることが分か
る。式４に基づいてピッチ長ｔａｕを推定した場合に
は、その値は真のピッチ長の倍数になって変動が非常に
激しい値となる。式４を用いる場合、計算範囲（つまり
ピッチの分析窓長）が短いときは、ピッチとは無関係な
長さを誤って出力してしまうことが多い。しかし式２で
は、推定ピッチが低い場合には計算範囲が広がり、ピッ
チ構造を持つ大局的な波形から自己相関係数が計算され
ることになるから、局所的な波形の相似状態をピッチと
誤って判断する確率が低下する。

【００３８】

【数３】

【００３９】式３は既存の３タップのピッチ予測器で用
いられている計算式である。一般に、ピッチ周波数が高
い場合には、サンプルごとに計算される自己相関係数が
離散的になり、真のピッチ長での自己相関係数を得るこ
とは困難でありピッチ長を誤って計算してしまうことが
あるが、式３を用いることによりそれを防止できる（参
考文献：USP4,133,976; "Predictive Speech Signal Co
ding with Reduced Noise Effects", B. S. Atal. M.
R. Schroeder ）。

【００４０】ピッチ強度判定器１０４は、ピッチ予測器
１０３が出力する自己相関係数ｃｏを受け取り、予め設
定された特定の範囲における自己相関係数の値（以下、
判定閾値と称する）、例えば０．５、と比較する。

【００４１】ここで、自己相関係数ｃｏが判定閾値より
高い（大きい）場合には、過去の分析フレームの音声信
号に強いピッチ構造があるとして所定の判定信号を出力
する。

【００４２】他方、自己相関係数ｃｏが判定閾値より低
い（小さい）場合には、ピッチ強度判定器１０４は過去
の分析フレームの音声信号には弱いピッチ構造しかない
としてこの判定信号を出力せず、このときスイッチ１０
５がオフになり、ピッチ予測器１０８が従来のピッチ予
測を行う。

【００４３】入力端子１０６から入力される現在の分析
フレームの音声信号は、フレームごとにメモリ１０７に
記憶される。この現在の分析フレームの音声信号を式５
で表す。

【００４４】

【数５】

【００４５】ピッチ予測器１０８はこのように表される
現在の分析フレームの音声信号を第２メモリ１０７から
受け取り、次のようにしてピッチ長ｔａｕを推定し、予
測係数Ｃｏｅｆを算出する。なお、簡単のため、ピッチ
予測器１０８は１タップのピッチ予測器であるとする。
この１タップのピッチ予測器の処理内容は式６によって
表される。

【００４６】

【数６】

【００４７】ここで、Ｅｒｒ［ｎ］は、ピッチ予測残差
信号を表す。

【００４８】ピッチ予測器１０８は、まず、ピッチ予測
器１０３と同様に式７で表される自己相関係数を最大に
するτをピッチ探索範囲から検出し、その検出されたτ
をピッチ長Ｔａｕ（＝τ）として出力する。また、ピッ
チ予測器１０８はそのピッチ長Ｔａｕを用いて式８によ
り予測係数Ｃｏｅｆを計算して出力する。

【００４９】

【数４】

【００５０】

【数８】

【００５１】適応ビット配分符号化器１０９は、ピッチ
予測器１０８から出力されるピッチ長Ｔａｕ及び予測係
数Ｃｏｅｆを受け取る。ピッチ強度判定器１０４が、過
去の分析フレームの音声信号には弱いピッチ構造しかな
いと判定した場合を説明する。所定の判定信号を出力し
ていないので、適応ビット配分符号化器１０９は現在の
分析フレームの音声信号にも弱いピッチ構造しかないと
予測する。

【００５２】そして、ピッチ長及び予測係数へのビット
配分として、ピッチ長には多くのビット数を、予測係数
には少ないビット数をそれぞれ割り当てる（例えばピッ
チ長に７ビット、予測係数に１ビット）。

【００５３】上記のようなビット配分が有効なのは、ピ
ッチ構造が弱いフレームではピッチ予測のピッチ長は非
常に変化が激しく、予測係数に関しては音声信号の自己
相関値が低いので、予測係数のビット数を小さくしても
そのための性能の劣化が許容できるためである。なお、
予測係数の量子化誤差による性能劣化は、自己相関値ａ
と、量子化による誤差ｄの関数として式９により表され
る。

【００５４】

【数９】

【００５５】適応ビット配分符号化器１０９は、上述し
たようなビット配分でピッチ長及び予測係数を符号化
し、符号化されたピッチ長及び予測係数をピッチパラメ
ータとして出力端子１１０に出力する。

【００５６】次に、ピッチ予測器１０３から出力される
自己相関係数ｃｏが判定閾値より高く（大きく）、過去
の分析フレームの音声信号に強いピッチ構造があるとし
て所定の判定信号をピッチ強度判定器１０４が出力した
場合の動作を説明する。

【００５７】上記の場合には、所定の判定信号によって
スイッチ１０５はオンし、ピッチ予測器１０３が推定し
たピッチ長ｔａｕがピッチ予測器１０８に与えられる。
ピッチ予測器１０８はこの推定したピッチ長ｔａｕから
差分形式で表現できる範囲でピッチ長を探索する。

【００５８】例えば、後述するように、適応ビット配分
符号化器１０９がピッチ長に２ビットを割り当てる場合
には、ピッチの探索範囲は、ピッチ長ｔａｕの近傍４
点、すなわちｔａｕ−２，ｔａｕ−１，ｔａｕ，ｔａｕ
＋１のみとなる。ピッチ予測器１０８はこの範囲で、上
述のようにしてピッチ長を求め、かつ予測係数を算出す
る。

【００５９】適応ビット配分符号化器１０９は、算出さ
れたピッチ長及び予測係数をピッチ予測器１０８から受
け取って符号化するが、ピッチ強度判定器１０４が所定
の判定信号を出力しているのでピッチ長は差分形式で符
号化され、ピッチ長には少ないビット数、そして予測係
数には多くのビット数が割り当てられる、例えば、ピッ
チ長に２ビット、予測係数に６ビットのビット配分にな
る。

【００６０】ピッチ長を差分形式で、少ないビット数で
符号化するのは、現在の分析フレームの音声信号に対す
るピッチ構造が強いと予想できるからである。予測係数
に多くのビット数を割り当てるのは、予測係数に関して
は音声信号の自己相関値が高い（大きい）ので、予測ゲ
インを大きく取るためには、予測係数の量子化誤差をで
きるだけ小さく抑える必要があるからである。適応ビッ
ト配分符号化器１０９は、このようにして符号化したピ
ッチ長及び予測係数を出力端子１１０に出力する。

【００６１】上述したように本実施例による音声ピッチ
予測装置では、ピッチパラメータであるピッチ長及び予
測係数を符号化するときに、自己相関係数（ピッチ構造
の強弱）に基づいてピッチ長及び予測係数のビット数を
適応的に変化させて、ピッチ長を差分形式で符号化する
ので、ピッチパラメータを効率よく情報圧縮することが
できる。

【００６２】次に本発明の音声ピッチ予測装置における
第２実施例について説明する。

【００６３】図２は本発明による音声ピッチ予測器の第
２実施例の構成を示すブロック図である。図１の音声ピ
ッチ予測器と同一の構成要素には同一の符号を付して説
明を省略する。

【００６４】図２に示す音声ピッチ予測装置は、上述し
た図１に示すピッチ予測器１０８の代わりにピッチ予測
器２０８及びピッチ予測器２１１を備えている。また、
スイッチ１０５の代わりにスイッチ２０５を備えてい
る。

【００６５】ピッチ強度判定器１０４が所定の判定信号
を出力したときは、スイッチ２０５が第２メモリ１０７
の出力とピッチ予測器２０８の入力とを接続し、ピッチ
強度判定器１０４が所定の信号を出力しないときは、第
２メモリ１０７の出力とピッチ予測器２１１の入力とを
接続する。

【００６６】ピッチ予測器２１１は、図１のピッチ予測
器１０８と同様に１タップのピッチ予測器である。他
方、ピッチ予測器２０８は、３タップのピッチ予測器で
あり、ピッチ予測器１０３からのピッチ長に基づいてピ
ッチ長の探索範囲を制限する。

【００６７】適応ビット配分符号化器２０９は、適応ビ
ット配分符号化器１０９と基本的に同じであるが、ピッ
チ強度判定器１０４が所定の判定信号を出力した場合に
は、ピッチ予測器２０８からのピッチパラメータを符号
化し、ピッチ強度判定器１０４が所定の判定信号を出力
しない場合には、ピッチ予測器２１１からのピッチパラ
メータを符号化する。

【００６８】メモリ１０２、ピッチ予測器１０３及びピ
ッチ強度判定器１０４の動作は、図１の場合と同じであ
るので説明を省略する。

【００６９】まず、ピッチ強度判定器１０４が、過去の
分析フレームの音声信号のピッチ構造が弱いと判定し
て、所定の判定信号を出力しない場合の動作を説明す
る。

【００７０】この場合には、ピッチ予測器２１１は、ス
イッチ２０５を通じてメモリ１０７から現在の分析フレ
ームの音声信号を受け取ってピッチ長及び予測係数を求
める。

【００７１】ピッチ予測器２１１は、図１のスイッチ１
０５がオフの場合のピッチ予測器１０８と同様の動作に
よってピッチ長及び予測係数を求めて、ピッチ長及び予
測係数を適応ビット配分符号化器２０９に出力する。

【００７２】適応ビット配分符号化器２０９は、得られ
たピッチ長及び予測係数にそれぞれビット数を配分（例
えば、７ビットと１ビット）し、そのビット配分により
符号化してから端子１１０に出力する。

【００７３】ピッチ強度判定器１０４が、過去の分析フ
レームの音声信号のピッチ構造が強いと判定し、所定の
判定信号を出力した場合には、ピッチ予測器２０８は、
メモリ１０７から現在の分析フレームの音声信号を受け
取ってピッチ長及び予測係数を求める。このピッチ予測
器２０８の処理内容は式１０により表される。

【００７４】

【数１０】

【００７５】ピッチ予測器２０８には、ピッチ予測器１
０３が推定したピッチ長ｔａｕが与えられており、ピッ
チ予測器２０８は推定されたピッチ長ｔａｕに基づいて
ピッチの探索範囲を制限する。例えば適応ビット配分符
号化器２０９がピッチ長に２ビットを割り当てる場合に
は、ピッチの探索範囲は、ピッチ長ｔａｕの近傍４点、
すなわちｔａｕ−２，ｔａｕ−１，ｔａｕ，ｔａｕ＋１
のみとなる。ピッチ予測器２０８はこの範囲で、ピッチ
長を求め、かつ３つの予測係数を算出する。

【００７６】適応ビット配分符号化器２０９は、上記の
ピッチ長及び予測係数をピッチ予測器２０８から受け取
って符号化するが、ピッチ強度判定器１０４が所定の判
定信号を出力しているのでピッチ長が差分形式で符号化
され、ピッチ長には少ないビット数を、予測係数には多
くのビット数をそれぞれ配分する（例えばピッチ長に２
ビット、予測係数に６ビット）。

【００７７】図１に示した第１実施例における音声ピッ
チ予測装置では、ピッチ強度判定器１０４が所定の判定
信号を出力した場合には、適応ビット配分符号化器１０
９は、予測係数を符号化する場合のビット数を増加させ
ていた。しかしピッチ予測器１０８は１タップのピッチ
予測器であるため、予測係数に３ビット以上のビット数
を割り当てても改善効果は飽和傾向となる。

【００７８】本実施例の音声ピッチ予測装置では、上述
のようにピッチ強度判定器１０４が所定の判定信号を出
力した場合には、３タップのピッチ予測器２０８により
ピッチ長および予測係数が求められる。そして３タップ
の場合には、１タップの場合に比べ予測係数に多くの情
報量が必要となるが、予測ゲインが高く、性能が優れて
いるので、適応ビット配分符号化器２０９で予測係数に
大きいビット数を割り当てることが一層効果的となる。

【００７９】次に本発明の音声ピッチ予測装置における
第３実施例について説明する。

【００８０】図３は、本実施例における音声ピッチ予測
装置の構成を示すブロック図である。

【００８１】図１の音声ピッチ予測器と同一の構成要素
には同一の符号を付して説明を省略する。

【００８２】図３に示す音声ピッチ予測装置は、新たに
ピッチ予測器３０５を備えている。

【００８３】ピッチ予測器３０５は、ピッチ強度判定器
１０４が過去の分析フレームの音声信号のピッチ構造が
強いと判定して、所定の判定信号を出力したときに、ピ
ッチ予測器１０３が出力するピッチ長ｔａｕに基づい
て、推定平均ピッチを求めてピッチ予測器３０８に出力
する。

【００８４】ピッチ予測器３０５は、式１１、式１２に
基づいて推定平均ピッチを求める。

【００８５】

【数１１】

【００８６】

【数１２】

【００８７】ここで、ＡｖｅＰｔｃｈは推定平均ピッ
チ、ｔａｕはピッチ予測器１０３が出力するピッチ長、
ａは定数であり例えば０．１に設定される。

【００８８】Ｌｉｍｉｔ［ｘ］（但し、ｘ＝ＡｖｅＰｉ
ｔｃｈ）は、ｘを一定の範囲に抑える関数であり、本実
施例の場合にはｘを７２から１３６に制限する。式１２
で表されるＯｕｔＡＰは、ピッチ予測器３０５が出力す
る推定平均ピッチである。

【００８９】ピッチ予測器３０８は、ピッチ強度判定器
１０４が所定の判定信号を出力しない場合には、ピッチ
予測器３０５が出力する推定平均ピッチから、差分形式
で表現できる範囲でピッチ長を探索する。それ以外はピ
ッチ予測器１０８と同じである。

【００９０】適応ビット配分符号化器３０９は、ピッチ
強度判定器１０４から所定の判定信号が入力されるか否
かに応じてビット配分を設定してピッチ予測器３０８か
ら受け取ったピッチ長及び予測係数を符号化するが、適
応ビット配分符号化器１０９と異なり、所定の判定信号
が入力されない場合でもピッチ長を差分形式で符号化す
る。

【００９１】メモリ１０２、ピッチ予測器１０３及びピ
ッチ強度判定器１０４の動作は、図１の場合と同じなの
で説明を省略する。

【００９２】ピッチ予測器３０５は、ピッチ強度判定器
１０４が過去の分析フレームの音声信号に強いピッチ構
造があると判定して所定の判定信号を出力した場合に、
式１１、式１２に基づいて推定平均ピッチを求めてピッ
チ予測器３０８に出力する。

【００９３】ピッチ予測器３０８は、ピッチ強度判定器
１０４が所定の判定信号を出力した場合には、ピッチ予
測器１０３が出力するピッチ長から差分形式で表現でき
る範囲でピッチ長を探索し、予測係数を求めて適応ビッ
ト配分符号化器３０９に出力する。

【００９４】適応ビット配分符号化器３０９は、上記の
ピッチ長及び予測係数を受け取り、ピッチ長を予測係数
よりも少ないビットでビット配分（例えばピッチ長を差
分形式で２ビットに、予測係数を５ビットにビット配
分）し、ビット配分されたピッチ長及び予測係数を符号
化して出力端子１１０に出力する。ピッチ強度判定器１
０４が、過去の分析フレームの音声信号には強いピッチ
構造がないと判定し、所定の判定信号を出力しない場合
には、ピッチ予測器３０８は、ピッチ予測器３０５が出
力した上記推定平均ピッチから差分形式で表現できる範
囲でピッチ長を探索する。そして、得られたピッチ長を
予測係数と共に適応ビット配分符号化器３０９に出力す
る。

【００９５】適応ビット配分符号化器３０９は、上記の
ピッチ長及び予測係数を受け取り、それぞれをビット配
分（例えば、ピッチ長を差分形式で６ビット、予測係数
を１ビット）し、ビット配分されたピッチ長及び予測係
数を符号化して出力端子１１０に出力する。

【００９６】適応ビット配分符号化器３０９が上述のよ
うにピッチ長を差分形式で６ビットに符号化する場合に
は、ピッチ長の値は、平均ピッチ（−３２）から平均ピ
ッチ（＋３１）の範囲に入る。従って、ピッチ予測器３
０５が推定平均ピッチを求める際、推定ピッチ長の範囲
が４０〜１６７の範囲であれば、推定平均ピッチは７２
〜１３６の範囲に抑えればよいことになる。これが、式
１２のＬｉｍｉｔ［ＡｖｅＰｉｔｃｈ］で推定平均ピッ
チを７２〜１３６の範囲に制限した理由である。

【００９７】通常、個人の音声に注目すると、ピッチ周
波数の範囲はあまり広くはないのでピッチ長のビット数
を低減することが可能であり、上述したように、過去の
分析フレームの音声信号に弱いピッチ構造しかない場合
にもピッチ長が差分形式で符号化される音声ピッチ予測
装置では、ピッチ長に対するビット数の配分を少なくす
ることができるので、効率よく情報を圧縮することがで
きる。

【００９８】

【発明の効果】本発明の音声ピッチ予測装置によれば、
第１メモリ、第１ピッチ予測手段、ピッチ強度判定手
段、第２メモリ、第２ピッチ予測手段、符号化手段を備
える音声ピッチ予測装置であって、第１メモリは、第２
メモリが記憶するより前のフレームの分析信号を記憶
し、第１ピッチ予測手段は、第１メモリの分析信号に対
しピッチ予測を行い、第１ピッチ長、自己相関係数を出
力し、ピッチ強度判定手段は、第１ピッチ予測手段の自
己相関係数が所定の判定閾値より大きいか小さいかを比
較して比較結果を出力し、第２メモリは、現在のフレー
ムの分析信号を記憶し、第２ピッチ予測手段は、比較結
果が小さい場合には、第２メモリの分析信号に対しピッ
チ予測を行い、第２ピッチ長、予測係数を出力し、比較
結果が大きい場合には、第１ピッチ長に基づいてピッチ
長の探索範囲を所定の範囲に制限した上で、第２メモリ
の分析信号に対しピッチ予測を行い、第１ピッチ長に対
する差分、予測係数を出力し、符号化手段は、比較結果
が小さい場合には、第２ピッチ長と予測係数を第１のビ
ット割合で符号化し、比較結果が大きい場合には、第１
ピッチ長に対する差分と予測係数を第２のビット割合で
符号化するように構成されているので、ピッチパラメー
タを効率よく情報圧縮して伝達情報量を低減でき、分析
区間の長さを長くすることがないので、音声を高品質で
圧縮できる。

【図面の簡単な説明】

【図１】本発明による音声ピッチ予測装置の第１実施例
の構成を示すブロック図である。

【図２】本発明による音声ピッチ予測装置の第２実施例
の構成を示すブロック図である。

【図３】本発明による音声ピッチ予測装置の第３実施例
の構成を示すブロック図である。

【図４】従来のＣＥＬＰ符号化器の一例を示すブロック
図である。

【符号の説明】

１０１、１０６入力端子１０２、１０７メモリ１０３、１０８、２０８、２１１、３０５、３０８ピ
ッチ予測器１０４ピッチ強度判定器１０５、２０５スイッチ１０９、２０９、３０９適応ビット配分符号化器１１０出力端子

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 9/14 G10L 9/08 G10L 9/00

Claims

(57)【特許請求の範囲】

【請求項１】第１メモリ（１０２）、第１ピッチ予測
手段（１０３）、ピッチ強度判定手段（１０４）、第２
メモリ（１０７）、第２ピッチ予測手段（１０８）、符
号化手段（１０９）を備える音声ピッチ予測装置であっ
て、第１メモリ（１０２）は、第２メモリ（１０７）が記憶
するより前のフレームの分析信号を記憶し、第１ピッチ予測手段（１０３）は、第１メモリ（１０
２）の分析信号に対しピッチ予測を行い、第１ピッチ
長、自己相関係数を出力し、ピッチ強度判定手段（１０４）は、第１ピッチ予測手段
（１０３）の自己相関係数が所定の判定閾値より大きい
か小さいかを比較して比較結果を出力し、第２メモリ（１０７）は、現在のフレームの分析信号を
記憶し、第２ピッチ予測手段（１０８）は、比較結果が小さい場
合には、第２メモリ（１０７）の分析信号に対しピッチ
予測を行い、第２ピッチ長、予測係数を出力し、比較結
果が大きい場合には、第１ピッチ長に基づいてピッチ長
の探索範囲を所定の範囲に制限した上で、第２メモリの
分析信号に対しピッチ予測を行い、第１ピッチ長に対す
る差分、予測係数を出力し、符号化手段（１０９）は、比較結果が小さい場合には、
第２ピッチ長と予測係数を第１のビット割合で符号化
し、比較結果が大きい場合には、第１ピッチ長に対する
差分と予測係数を第２のビット割合で符号化する音声ピ
ッチ予測装置。
【請求項２】第１メモリ（１０２）、第１ピッチ予測
手段（１０３）、第３ピッチ予測手段（３０５）、ピッ
チ強度判定手段（１０４）、第２メモリ（１０７）、第
２ピッチ予測手段（３０８）、符号化手段（３０９）を
備える音声ピッチ予測装置であって、第１メモリ（１０２）は、第２メモリ（１０７）が記憶
するより前のフレームの分析信号を記憶し、第１ピッチ予測手段（１０３）は、第１メモリ（１０
２）の分析信号に対しピッチ予測を行い、第１ピッチ
長、自己相関係数を出力し、第３ピッチ予測手段（３０５）は、第１ピッチ長に基づ
いて推定平均ピッチ長を求め、ピッチ強度判定手段（１０４）は、第１ピッチ予測手段
（１０３）の自己相関係数が所定の判定閾値より大きい
か小さいかを比較して比較結果を出力し、第２メモリ（１０７）は、現在のフレームの分析信号を
記憶し、第２ピッチ予測手段（３０８）は、比較結果が小さい場
合には、推定平均ピッチ長を用いて、差分形式から第２
メモリの分析信号に対しピッチ予測を行い、第２ピッチ
長、予測係数を出力し、比較結果が大きい場合には、第
１ピッチ長に基づいてピッチ長の探索範囲を所定の範囲
に制限した上で、第２メモリの分析信号に対しピッチ予
測を行い、第１ピッチ長に対する差分、予測係数を出力
し、符号化手段（３０９）は、比較結果が小さい場合には、
第２ピッチ長と予測係数を第１のビット割合で符号化
し、比較結果が大きい場合には、第１ピッチ長に対する
差分と予測係数を第２のビット割合で符号化する音声ピ
ッチ予測装置。
【請求項３】第１メモリ（１０２）、第１ピッチ予測
手段（１０３）、ピッチ強度判定手段（１０４）、第２
メモリ（１０７）、第１ピッチ予測部（２１１）、第２
ピッチ予測部（２０８）、符号化手段（１０９）を備え
る音声ピッチ予測装置であって、第１メモリ（１０２）は、第２メモリ（１０７）が記憶
するより前のフレームの分析信号を記憶し、第１ピッチ予測手段（１０３）は、第１メモリ（１０
２）の分析信号に対しピッチ予測を行い、第１ピッチ
長、自己相関係数を出力し、ピッチ強度判定手段（１０４）は、第１ピッチ予測手段
（１０３）の自己相関係数が所定の判定閾値より大きい
か小さいかを比較して比較結果を出力し、第２メモリ（１０７）は、現在のフレームの分析信号を
記憶し、第１ピッチ予測部（２１１）は、比較結果が小さい場合
に、第２メモリ（１０７）の分析信号に対しピッチ予測
を行い、第２ピッチ長、予測係数を出力し、第２ピッチ予測部（２０８）は、第１ピッチ予測部（２
１１）よりタップ数が多く、比較結果が大きい場合に、
第１ピッチ長に基づいてピッチ長の探索範囲を所定の範
囲に制限した上で、第２メモリの分析信号に対しピッチ
予測を行い、第１ピッチ長に対する差分、予測係数を出
力し、符号化手段（１０９）は、比較結果が小さい場合には、
第２ピッチ長と予測係数を第１のビット割合で符号化
し、比較結果が大きい場合には、第１ピッチ長に対する
差分と予測係数を第２のビット割合で符号化する音声ピ
ッチ予測装置。