JP2738534B2

JP2738534B2 - 異なる型の励起情報を有するディジタル音声符号器

Info

Publication number: JP2738534B2
Application number: JP61504119A
Authority: JP
Inventors: ソーンレイハートウェル，ウォルター; ピコーン，ジョセフ; パノスプレザス，デミトリオス
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1985-08-28
Filing date: 1986-07-22
Publication date: 1998-04-08
Anticipated expiration: 2013-04-08
Also published as: DE3674782D1; WO1987001499A1; EP0236349A1; KR880700387A; EP0236349B1; CA1270331A; US4912764A; KR970001166B1; JPS63500682A

Description

【発明の詳細な説明】技術分野本発明は音声処理に係り、特に音声合成器の励起を目
的とするディジタル音声符号化装置に関する。発明の背景音声蓄積および音声応答装置を含むディジタル音声通
信システムは蓄積および／または伝送に要求されるビッ
ト速度を減少させるために信号圧縮を使用している。例
えば米国特許第3,624,302号中で述べられているような
周知のディジタル音声符号化システムは入力音声信号の
線形予測解析を行っている。音声信号は相続く時間期間
に分割され、音声の一時間期間を表わすパラメータの組
が発生される。パラメータの組は該時間期間中の音声の
スペクトル包絡線を表わす線形予測係数信号と、音声励
起に相応するピッチおよび音声信号を含んでいる。これ
らパラメータ信号は音声信号波形それ自身よりずっと低
速度で符号化され得る。入力音声信号の複製物が合成に
よってパラメータ信号符号から形成される。合成装置は
通常声道のモデルを含んでおり、この声道のモデルにお
いて励起パルスは全極予測フィルタのスペクトル包絡線
を表わす予測係数によって修正される。この型のピッチ
励起された線形予測符号化は極めて効率的であるが、発
生された音声の複製物はしばしば理解することが困難な
人造的品質を有している。他の周知のディジタル音声符号化システムが米国特許
第4,472,832号中に述べられている。この分析および合
成システムにあっては、励起に対するLPCパラメータお
よび修正された残差信号が伝送される。励起信号はLPC
フィルタのインパルス応答と元の信号の∧相互相関のピ
ークから選択されたパルス列である。この型の励起はし
ばしば当業者にあっては∧マルチパルス励起と呼ばれ
る。このシステムは良好な音声の複製物を発生するが、
最小ビット速度が約9.6kbsに制限されている。更に、有
声領域において、音声の複製物は知覚し得る程度の粗さ
を有する傾向にある。またこの方法は多数の複雑な計算
を必要とする。前述のことより、音声波の有声期間中および音声波の
無声期間中において精確な音声の複製物を発生し得るよ
うな分析・合成システムへの要求が存在する。更に、よ
り低ビット速度を有することが望ましい。発明の要旨前述の問題点は本発明の原理に従い音声の有声期間中
はピッチ励起を利用し、音声の無声期間中は雑音以外の
励起を利用することを許容する分析・合成システムなら
びに方法により解決された。音声を符号化する本発明の方法は音声を相続く時間フ
レームに分割し、各フレームに対し声道を定義する音声
パラメータ信号の組を発生し、有声音声より成る前記音
声フレームの各々に対し有声信号を発生し、無声音声よ
り成る前記音声フレームの各々に対し無声信号を発生
し、有声信号によって有声であると指示された音声フレ
ームの各々に対するピッチ型励起情報と無声信号によっ
て無声であると指示された音声フレームの各々に対する
雑音以外の型の励起情報より成る符号化された励起信号
を発生し、フレームの各々に対する結果として得られた
符号化された励起信号および音声パラメータ信号を組合
わせて音声を表わす符号化された組合わされた信号を形
成するステップより成る。有利なことに雑音以外の型の励起情報はフレームの各
々に対するパラメータ信号の組のインパルス応答と元の
音声の∧相互相関のピークから選択されたパルス列であ
る。また、パラメータ信号の組を発生するステップは声
道をモデル化する線形予測係数を生成することより成
る。また、分割ステップはフレームの各々に対する音声パ
ターンの音声サンプルを形成し、各フレームに対する音
声パターンの残余サンプルを生成することより成る。ピ
ッチ型励起情報を発生するステップは各フレームの音声
サンプルの正および負のサンプルに対し夫々第１および
第２のピッチ値を推定し、正および負の残余サンプルに
夫々応動して第３および第４のピッチ値を推定し、以前
の内で最も最近の音声フレームに対する推定されたピッ
チ値および複数個の以前の音声フレームおよび現在の音
声フレームに対するピッチ値に応動して以前の内で最も
最近の音声フレームの最終ピッチ値を決定するステップ
を含む。更にピッチ値を決定するステップは推定されたピッチ
値からピッチ値を計算し、計算されたピッチ値が以前の
フレームからの計算されたピッチ値と一致するように最
終ピッチ値を制約するステップを含んでいる。有利なことに、本方法は元の音声の複製物を発生する
以下のステップを含んでいる。即ち励起がパルスかまた
はパルス型励起かを検出し、LPCパラメータに応動して
前記声道をモデル化し、後者が検出されたときピッチ型
励起を使用してモデルを駆動するべく励起を発生し、前
者が検出されたときパルス型励起を発生するステップを
含んでいる。本発明の図示の分析および合成システムは、各々が予
め定められた数のサンプルを有する複数個の音声フレー
ムとして音声を量子化し、ディジタル化し、そして記憶
するユニットを含んでいる。他のユニットは各フレーム
のサンプルに応動して声道をモデル化する音声パラメー
タの組を計算する。検出ユニットは各フレームが有声で
あるか無声であるかを指示する信号を発生し、励起ユニ
ットは検出ユニットからの信号に応動してフレームが有
声であると指示されている場合にはピッチ型励起情報
を、またフレームが無声であると指示されている場合に
は雑音以外の型の励起情報を有する励起情報を発生す
る。最後に、チャネル符号器ユニットは励起情報と音声
パラメータの組を組合わせて合成サブシステムに伝送す
るのに使用される。励起ユニットは相互相関を表わすパルス信号を発生す
るために線形予測パラメータであって良いパラメータ信
号の組のインパルス応答と各フレームの音声の相互相関
をとることによって雑音以外の型の励起情報を発生す
る。更に励起ユニットは相互相関パルスから雑音以外の
型の励起であるパルス列を選択する。合成ユニットは励起情報と音声パラメータの組に応動
して合成フィルタを形成し、受信された情報が有声であ
る場合にはピッチ励起情報で、受信された情報が無声で
ある場合には雑音以外の型の励起情報でこのフィルタを
駆動することによって元の音声の複製物を発生する。図面の簡単な説明第１図は本発明に従うアナライザのブロック図；第２図は本発明に従うシンセサイザのブロック図；第３図は第１図のピッチ検出器148のブロック図；第４図は音声フレームの候補パルスを示す図；第５図はピッチ検出器のブロック図である。詳細な説明第１図は音声アナライザのブロック図であって、該ア
ナライザにあっては発声されたメッセージの如き音声パ
ターンはマイクロホン・トランスジューサ101によって
受信される。相応するアナログ音声信号は予測アナライ
ザ110のフィルタおよびサンプラ回路113中において帯域
制限され、パルス列に変換される。フィルタは4kHz以上
の音声信号の周波数成分を除去するよう作られており、
サンプリング速度は当業者にあっては周知の如く8kHzの
速度であって良い。サンプルのタイミングはクロック発
生器103からのサンプル・クロックCLによって制御され
ている。回路113からの各サンプルはA/D変換器115にお
いて振幅を表わすディジタル・コードに変換される。音声サンプルの系列は予測パラメータ計算機に加えら
れる。この予測パラメータ計算機119は当業者にあって
は周知の如く音声信号を10〜20ミリ秒間隔に分割し、各
間隔のＮ＞Ｐ音声サンプルの予測された短時間スペクト
ラムを表わす線形予測係数信号の組a_k、ｋ＝１、２、
…、ｐを発生させる。A/D変換器115からの音声サンプル
は信号a_kの形成に要する時間を補償するため遅延回路11
7で遅延される。遅延されたサンプルは予測残差発生器1
18の入力に加えられる。当業者にあっては周知の予測残
差発生器は遅延された音声サンプルおよび予測パラメー
タa_kに応動してLPC予測誤差に相応する信号を形成す
る。予測アナライザ110中における予測パラメータおよ
び予測残差信号の形成は米国特許第3,740,476号で述べ
られている装置あるいは当業者にあって周知の任意の他
の装置によって実行される。各々の相続くフレームに対する予測残差信号d_kおよび
予測パラメータ信号a_kは後続のフレームの開始時点にお
いて回路110から励起信号形成回路120に加えられる。回
路120はマルチエレメント・フレーム励起コードECを発
生させるよう動作する。該マルチエレメント・フレーム
励起コードECはマルチパルス・コードあるいは修正残差
コードとも呼ばれ、各フレームに対し予め定められた数
のビット位置を有している。各々の励起コードはフレー
ムの励起機能を表わす１ｉＩパルスの系列に相応し
ている。フレーム内の各パルスの振幅D_iおよび位置M_iは
励起信号形成回路で決定され、励起信号およびフレーム
の予測パラメータ信号からフレーム音声信号の複製を形
成することを許容するようになっている。D_iおよびM_i信
号はコーダ131中で符号化され、信号路159を介してセレ
クタ161に転送される。回路120による励起コードEC、D_i
およびM_i信号の形成は米国特許第4,472,832号中で述べ
られている装置あるいは当業者にあって周知の任意の他
の装置に従って実行され得る。遅延回路133および128は
110、120および130の出力を時間的に整列させ、各出力
が同じ音声サンプルから取り出されたデータを同時刻に
マルチプレクサ152に加えるようにする。ディジタル音声サンプルおよび残差サンプルに応動し
て、ピッチ検出回路130は音声フレームが有声か無声か
を決定する。音声フレームが無声であると決定される
と、ピッチ検出回路は信号路156を介して無声信号をデ
ータ・セレクタ161に送信する。これによりデータ・セ
レクタ161はコーダ131からの振幅および位置情報D_iおよ
びM_iを選択し、マルチプレクサに加える。マルチプレク
サは遅延回路128からの情報および信号路160を介して受
信された遅延回路131からのパラメータ情報に応動して
この情報を符号化し、ネットワーク153を介して第２図
のシンセサイザに伝送する。検出器回路130によりフレ
ームが有声状態であると決定されると、信号路156を介
して伝送された信号はセレクタ161をして検出回路130か
ら信号路154を介して伝送された該フレームに対するピ
ッチ情報を選択させ、マルチプレクサ152に加える。マ
ルチプレクサ152はピッチ情報およびパラメータ情報に
応動して該情報を符号化し、ネットワーク53を介して第
２図のシンセサイザに伝送する。シンセサイザは第２図に示されている。デマルチプレ
クサ201はネットワーク153から信号路155を介して受信
された情報に応動して励起がマルチ・パルスかピッチか
を決定する。励起がピッチであるときは、ピッチ情報は
信号路209を介してピッチ発生器203に転送される。更
に、マルチプレクサはセレクタ204をしてピッチ発生器2
03の出力を選択させ、それによってこの出力は合成フィ
ルタ205の入力となり得る。またデマルチプレクサ201は
合成フィルタ205に線形予測符号化パラメータを入力
し、フィルタを適正な状態にセットする。合成フィルタ
205はセレクタ204およびLPC係数から受信された励起に
応動してディジタル形態の元の音声の複製を再形成す
る。D/A変換器206はこれらディジタル・サンプルに応動
して導線207上に相応するアナログ信号を発生する。デマルチプレクサ201がネットワーク151から励起がパ
ルス励起であることを示す情報を受信すると、該デマル
チプレクサは振幅および位置情報を信号路208を介して
デコーダ202に転送し、信号路211を介してセレクタ204
をしてデコーダ202の出力を選択させ、合成フィルタ205
に加える。更に、デマルチプレクサ201はLPC係数を合成
フィルタ205に送信する。ここで合成フィルタ205および
D/A変換器206は前述と同様に機能する。ここで第１図のピッチ検出回路130を更に詳細に考察
する。クリッパ143〜146はｘおよびｄなるディジタル化
された信号を正に向う波形および負に向う波形に変換す
る。これらの信号を形成する目的は混成波形は周期性を
明白には示さないことがあるがクリップされた信号は周
期性を明白に示すことがあるからである。従って周期性
の検出がより容易となる。クリッパ143および145はｘお
よびｄ信号を夫々正に向う信号に変換し、クリッパ144
および146はｘおよびｄ信号を負に向う信号に変換す
る。ピッチ検出器147〜150は各々それ自身の個々の入力信
号に応動して入力信号の周期を決定する。ピッチ検出器
の出力は信号を受け取った２フレーム後である。各々の
フレームはこの例では160のサンプル点より成ることを
注意されたい。ピッチ選出器151は４つのピッチ検出器
の出力に応動して最終ピッチの決定を行う。ピッチ選出
器151の出力は信号路154を介して送信される。第３図はピッチ検出器148のブロック図である。他の
ピッチ検出器も類似の設計である。最大値位置決定器30
1は各フレームのディジタル化された信号に応動して周
期性チェックが実行されるパルスを見出す。最大値位置
決定器301の出力は２組の数である。即ち候補サンプル
である最大振幅を表わす数M_iと、これら振幅のフレーム
内の位置を表わす数D_iである。位置検出器302はこれら
２組の数に応動して周期的である候補パルスの部分集合
を決定する。この部分集合は距離検出器302の決定した
このフレームの周期を表わしている。距離検出器302の
出力はピッチ追尾装置303に転送される。ピッチ追尾装
置303の目的はディジタル化された信号の相続くフレー
ムの間におけるピッチ検出器のピッチの決定を束縛する
ことにある。この機能を実行するため、ピッチ追尾装置
303は以前の２フレームに対して決定されたピッチを使
用している。次に最大値位置決定装置301によって実行される動作
について更に詳細に考察する。最大値位置決定装置301
はまず最初にフレームからサンプル内において該フレー
ム中の大局的最大振幅M₀およびその位置D₀を同定する。
周期性検査のために選択された他の点は以下のすべての
条件を満さねばならない。まず第１にパルスは局部最大
でなければならない。即ち次に取り出されるパルスは既
に取り出されたかまたは除外されたすべてのパルスを除
いたフレーム中の最大振幅でなければならない。この条
件が適用されるのはピッチ・パルスは通常フレーム中の
他のサンプルより大きな振幅を有しているものと仮定し
ていることによる。第２に選択されたパルスの振幅は大
局的最大値のあるパーセンテージより大であるか等しく
なければならない。即ちM_i＞gM₀でなければならない。
ここでｇは閾値振幅パーセンテージであり、例えば25％
であってよい。第３にパルスは既に位置が決定されたす
べてのパルスから少くとも18サンプルは離れていなけれ
ばならない。この条件は人間の音声の最高ピッチは約44
4Hzであり、これは8kHzのサンプリング速度で18サンプ
ルとなるという仮定に基づいている。距離検出器302は再帰的に動作し、フレームの大局的
最大値M₀から最も近い隣接候補パルスへの距離を考察す
ることから開始する。この距離は候補距離d_cと呼ばれ次
式で与えられる。 d_c＝|D₀−D_i| ここでD_iは最も近い隣接候補パルスのフレーム内位置
である。フレーム中のパルスのこのような部分集合がこ
の距離からある幅Ｂを加減した値だけ離れていないと、
この候補距離は棄却され、新らしい候補距離を使用して
次の最も近い隣接候補パルスに対して再び過程が開始さ
れる。ここでＢは４〜７なる値を有している。この新ら
しい候補距離は次の隣接パルスと大局的最大値パルスの
間の距離である。一度ピッチ検出器302が距離dc±Ｂだけ離れた候補パ
ルスの部分集合を決定すると、内挿振幅テストが実行さ
れる。内挿振幅テストはM₀と次の隣接候補パルスの各々
の間の線形内挿を実行し、M₀に最も隣接した候補パルス
の振幅はこれら内挿値の少くともｑパーセントであるこ
とを要求する内挿振幅閾値ｑ％は75％である。第４図に
示す候補パルスの例を考える。d_cが有効な候補距離であ
るためには次の関係が成立しなければならない。およびここで d_c＝|D₀−D₁|＞18 である。また先に指摘した如く M_i＞gM₀ ｉ＝１、２、３、４、５ピッチ追尾装置は距離検出器302の出力に応動してピ
ッチの周波数と関連するピッチ距離の推定値を評価す
る。（何故ならばピッチ距離はピッチの周期を表わすか
らである。）ピッチ追尾装置303の機能は、４つのテス
ト（即ち音声セグメント開始テスト、最大息継ぎおよび
ピッチ倍化テスト、制限テストおよび急激変化テスト）
を実行することによって必要ならばピッチ検出器から受
信された任意の初期ピッチ距離の推定値を修正すること
によりピッチ距離の推定値をフレームからフレームにわ
たって矛盾のないように制約することである。前記テス
トの内の第１のものである音声セグント開始テストは有
声領域の開始時におけるピッチ距離の無矛盾性を保証す
るために実行される。このテストは有声領域の開始との
み関連しているので、該テストは現在のフレームは非零
のピッチ周期を有していると仮定している。即ち先行の
フレームおよび現在のフレームが有声領域中の第１およ
び第２の音声フレームであるという仮定である。ピッチ
距離推定値がＴ（ｉ）（ここでｉは距離検出器302から
の現在のピッチ距離推定値を表わす）で表わされるもの
とすると、ピッチ検出器303は各検出器を通ると２フレ
ーム分の遅れが生じるのでＴ^＊（ｉ−２）を出力する。
テストはＴ（ｉ−３）およびＴ（ｉ−２）が０またはＴ
（ｉ−３）およびＴ（ｉ−４）が０でＴ（ｉ−２）が０
でないとき（これはフレームｉ−２およびｉ−１が有声
領域中の第１および第２の有声フレームであることを意
味する）のみ実行される。音声セグメント開始テストは
２つの無矛盾性テストを実行する。１つは第１の有声フ
レームＴ（ｉ−２）に対するものであり、他方は第２の
有声フレームＴ（ｉ−１）に対するものである。これら
２つのテストは相続フレームの期間中に実行される。音
声セグメント・テストの目的は有声領域が実際には開始
されていないときに有声領域の開始を定義する確率を減
少させることにある。これは有声領域に対するただ１つ
の他の無矛盾性テストは最大の息継ぎおよびピッチ倍化
テストで実行され、そこではただ１つの無矛盾性条件が
要求されるので重要である。第１の無矛盾性テストはフ
レームＴ（ｉ−２）中の最右端の候補サンプルとフレー
ムＴ（ｉ−１）中の最左端候補のサンプルの距離とピッ
チ距離Ｔ（ｉ−２）がピッチ閾値Ｂ＋２以内にあること
を保証するために実行される。第１の無矛盾性テストに合格すると、第２の無矛盾性
テストが次のフレーム期間中に実行され、第１の無矛盾
性テストが示したのと同じ結果を１つだけ右にシフトさ
れたフレーム系列も与えることを確認するべく実行され
る。第２の無矛盾性テストに合格しないと、（Ｔ（ｉ−
２）が０にセットされなかったとすると）フレームｉ−
１は第２の有声フレームとはなり得ないことを示すべく
Ｔ（ｉ−１）は０にセットされる。しかし、両方の無矛
盾性テストに合格すると、フレームｉ−２およびｉ−１
は有声領域の開始を定義する。Ｔ（ｉ−１）が０にセッ
トされ、Ｔ（ｉ−２）は０でないと決定され、Ｔ（ｉ−
３）は０であると（これはフレームｉ−２が無声フレー
ムの間の有声フレームであることを示す）、急激変化テ
ストはこの状況を考慮に入れる。この特殊テストについ
ては後述する。最大息継ぎおよびピッチ倍化テストは有声領域中の２
つの隣接する有声フレームにわたるピッチの無矛盾性を
保証する。従ってこのテストはＴ（ｉ−３）、Ｔ（ｉ−
２）およびＴ（ｉ−１）が０でないときにのみ実行され
る。最大息継ぎおよびピッチ倍化テストはまた距離検出
器302によって形成されたピッチ倍化誤差をチェック
し、補正する。チェックのピッチ倍化部分はＴ（ｉ−
２）およびＴ（ｉ−１）が無矛盾であるか、またはＴ
（ｉ−２）がＴ（ｉ−１）の２倍と無矛盾（これはピッ
チ倍化誤差を意味する）であるかをチェックする。この
テストは最初に、Ａが値10を有するものとして |T（ｉ−２）−Ｔ（ｉ−１）｜Ａによって実行されるテストの最大息継ぎ部分に合格する
かどうかをチェックする。前述の式が満されると、Ｔ
（ｉ−１）はピッチ距離の良好な推定値であり、修正の
必要はない。しかし、テストの最大息継ぎ部分に失敗す
ると、テストのピッチ倍化部分に合格するかどうかを決
定するためにテストを実行しなければならない。テスト
の最初の部分はＴ（ｉ−３）が０でないとしてなる式によって定義されるピッチ閾値内にＴ（ｉ−２）
およびＴ（ｉ−１）の２倍が入っているかどうかをチェ
ックすることである。この条件に合うと、Ｔ（ｉ−１）
はＴ（ｉ−２）にセットされる。前述の条件に合わない
と、Ｔ（ｉ−１）は０にセットされる。テストのこの部
分の第２の部分はＴ（ｉ−３）が０に等しいと実行され
る。次の２つの式 |T（ｉ−２）−2T（ｉ−１）｜Ｂ |T（ｉ−１）−Ｔ（ｉ）｜＞Ａが満されると、Ｔ（ｉ−１）＝Ｔ（ｉ−２）である。前述の条件が満されないと、Ｔ（ｉ−１）は０
にセットされる。Ｔ（ｉ−１）に対して実行される制限テストは計算さ
れたピッチが50Hz〜400Hzの人間の音声の範囲内にある
ことを保証する。計算されたピッチがこの範囲内に入ら
ないと、Ｔ（ｉ−１）は０にセットされ、フレームｉ−
１は計算されたピッチを有する音声フレームではあり得
ないことを示す。急激変化テストは３つの先に述べたテストが実行され
た後で実行され、他のテストがあるフレームに対し無事
領域の中央で有声領域に、または有声領域の中央で無声
領域に入ったと判定したことを見出すのに使用される。
人間は通常このような音声フレーム系列を発生し得ない
ので、急激変化テストは有声−無声−有声または無声−
有声−無声といった系列を除去することにより有声また
は無声セグメントが少くとも２フレームは続くことを保
証する。急激変化テストは２つの前述した系列を検出す
る２つの別個の手順より成っている。ピッチ追尾装置30
3が前述の４つのテストを実行すると、該装置はＴ
^＊（ｉ−２）を第１図のピッチ選出器151に出力する。
ピッチ追尾装置303は距離検出器302からの次に受信され
るピッチ距離に対して計算を行うべく他のピッチ距離を
保持している。第５図は第１図のピッチ選出回路を更に詳細に示して
いる。ピッチ値推定器501はピッチ検出器147〜150の出
力に応動して２フレーム前のピッチの初期推定値Ｐ（ｉ
−２）を形成し、ピッチ値追尾装置502はピッチ値推定
値501の出力に応動して３つ前のフレームの最終ピッチ
値Ｐ（ｉ−３）がフレームからフレームにわたって矛盾
しないように制約を加える。さてここでピッチ値推定値501によって実行される機
能を更に詳細に考える。一般に、ピッチ値推定器501に
よって受信された４つのピッチ距離推定値がすべて０で
なく、有声フレームであることを示すと、最小および最
大の推定値は棄却され、Ｐ（ｉ−２）は残りの２つの推
定値の算術平均にセットされる。同様に、ピッチ距離推
定値の内の３つが０でないと、最大と最小の推定値は棄
却され、ピッチ値推定値501はＰ（ｉ−２）を残りの０
でない推定値にセットする。推定値の内２つのみが０で
ないと、ピッチ値推定器501は２つの値がピッチ閾値Ａ
内にあるときのみ２つのピッチ距離推定値の算術平均に
等しくＰ（ｉ−２）をセットする。２つの値がピッチ閾
値Ａ内にないとピッチ値推定器501はＰ（ｉ−２）を０
にセットする。この決定は、幾つかの個々の検出器はあ
る周期性を誤って検出したが、フレームｉ−２は無声で
あることを示している。４つのピッチ距離推定値の内の
ただ１つだけが０でないと、ピッチ値推定器501はＰ
（ｉ−２）は０でない値にセットされる。この場合、以
前のピッチ推定値との無矛盾性を保つためこのピッチ距
離推定値の妥当性がピッチ値追尾装置502によりチェッ
クされる。ピッチ距離推定値すべてが０に等しいと、ピ
ッチ値推定器501はＰ（ｉ−２）を０にセットする。ピッチ値追尾装置502は次に更に詳細に考察する。ピ
ッチ値追尾装置502はピッチ値推定器501の出力に応動し
て３つ前のフレームのピッチ推定値Ｐ^＊（ｉ−３）を発
生するがこの推定値はＰ（ｉ−２）およびＰ（ｉ−４）
に基づいている。ピッチ値Ｐ^＊（ｉ−３）はフレームか
らフレームにわたって矛盾がないように選択される。最初にチェックされるのは有声−無声−有声、無声−
有声−無声または有声−有声−無声の形を有するフレー
ムの系列である。Ｐ（ｉ−４）およびＰ（ｉ−２）が０
でなく、Ｐ（ｉ−３）が０であるような第１の系列が生
起すると、最終のピッチ値Ｐ^＊（ｉ−３）はピッチ値追
尾装置502によりＰ（ｉ−４）およびＰ（ｉ−２）の算
術平均に等しくセットされる。第２の系列が生起すると
最終のピッチ値Ｐ^＊（ｉ−３）は０にセットされる。第
３の系列に関しては、ピッチ値追尾装置はＰ（ｉ−４）
およびＰ（ｉ−３）が０でなく、Ｐ（ｉ−２）が０であ
ることに応動して、Ｐ（ｉ−３）およびＰ（ｉ−４）が
ピッチ閾値Ａ内にある限り、Ｐ（ｉ−３）およびＰ（ｉ
−４）の算術平均にＰ^＊（ｉ−３）をセットする。ピッ
チ値追尾装置502は |P（ｉ−４）−Ｐ（ｉ−３）｜Ａに応動して次の操作を実行する。Ｐ（ｉ−３）ならびにＰ（ｉ−４）が前記条件を満さ
ない（即ちＰ（ｉ−３）およびＰ（ｉ−４）がピッチ閾
値Ａ内にない）とピッチ値追尾装置502が決定すると、
ピッチ値追尾装置502はＰ^＊（ｉ−３）をＰ（ｉ−４）
の値にセットする。前述の動作に加えて、ピッチ値追尾装置502はまたあ
る型の有声−有声−有声フレーム系列に対しピッチ値推
定値を平滑化する動作を実行する。これらの平滑化動作
が実行される３つの型のフレーム系列が生じる。第１の
系列は次式が成立するときである。 |P（ｉ−４）−Ｐ（ｉ−２）｜Ａ |P（ｉ−４）−Ｐ（ｉ−３）｜＞Ａこの条件が成立するとき、ピッチ値追尾装置502はとセットすることにより平滑化操作を実行する。第２の条件の組は |P（ｉ−４）−Ｐ（ｉ−２）｜＞Ａおよび |P（ｉ−４）−Ｐ（ｉ−３）｜Ａなるときに生起する。この第２の条件の組が成立する
と、ピッチ値追尾装置502はとセットする。第３で最後の条件の組は |P（ｉ−４）−Ｐ（ｉ−２）｜＞Ａおよび |P（ｉ−４）−Ｐ（ｉ−３）｜＞Ａにより規定される。この最後の条件の組が生じると、ピ
ッチ値追尾装置502はＰ^＊（ｉ−３）＝Ｐ（ｉ−４）とセットする。ピッチ検出回路130の動作に関する更なる詳細は本出
願と同日に出願された、本出願と同じ出願人によるジェ
ー・パイコーン（J.Picone）等ケース１−４の米国特許
願「並列処理ピッチ検出器」で述べられている。ジェー
・パイコーン等のケース１−４の同時出願中の米国特許
願は引用により本出願中に併合される。前述の実施例は本発明の原理を単に例示するものであ
って、当業者にあっては本発明の精神および範囲を逸脱
することなく他の装置を考案し得ることを理解された
い。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピコーン，ジョセフアメリカ合衆国 60130 イリノイズ, フォレストパーク，サウスハナー 1044 (72)発明者プレザス，デミトリオスパノスアメリカ合衆国 60068 イリノイズ, パークリッジ，ノースグリーンウッド 1136 (56)参考文献特開昭60−87400（ＪＰ，Ａ) 特開昭57−6898（ＪＰ，Ａ) 特開昭58−12000（ＪＰ，Ａ) 特開昭56−147200（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】１．音声を処理する方法であって、音声を相続く時間フレームに分割するステップと、各音声フレームに対して声道を規定する音声パラメータ
信号の組を発生するステップ（110）と、各音声フレームに対してその音声フレームが有声である
か無声であるかを決定するステップ（130）と、有声と決定された該音声フレームの各々に対して有声信
号を発生するステップ（151）と、無声と決定された該音声フレームの各々に対して無声信
号を発生するステップ（151）と、該有声信号によって有声であると指定された該音声フレ
ームの各々に対するピッチ型の励起情報及び該無声信号
によって無声であると指定された該音声フレームの各々
に対するマルチパルスコード型の励起情報から成る符号
化された励起信号を生成するステップ（120、151、16
1）とを含み、該マルチパルスコード型の励起情報を生成する該ステッ
プは、該音声パラメータ信号の組のインパルス応答と該
各フレームについての音声との相互相関のパルスから選
択されたパルス系列を発生するステップを含むものであ
り、該方法は、さらに該フレームの各々に対し該生成され符号化された励起信
号と該音声パラメータ信号の組を組合わせて該フレーム
の各々に対する音声を表わす符号化され組合わされた信
号を形成するステップを含むことを特徴とする音声を処
理する方法。２．請求の範囲第１項に記載の方法において、該音声パラメータ信号の組を発生する該ステップが、該
各フレームの音声に応動して各フレームに対して線形予
測パラメータの組を計算するステップを含むことを特徴
とする音声を処理する方法。３．請求の範囲第１項に記載の方法において、前記分割を行うステップが、該フレームの各々に対して
の該音声パターンの音声サンプルであって正値および負
値を有する音声サンプルを形成し、該フレームの各々に
対して該音声パターンの残差サンプルであって正値およ
び負値を有する残差サンプルを発生するステップを含
み、該ピッチ型励起情報を生成するステップは、各フレームの該音声サンプルの内の正値のサンプルに応
動して該フレームの各々について第１のピッチ値を推定
し、各フレームの該音声サンプルの内の負値のサンプルに応
動して該フレームの各々について第２のピッチ値を推定
し、該残差サンプルの内の正値のサンプルに応動して該フレ
ームの各々について第３のピッチ値を推定し、各フレームの該残差サンプルの内の負値のサンプルに応
動して該フレームの各々について第４のピッチ値を推定
し、そして以前の音声フレームのうちの最後のフレームについての
該推定された第１、第２、第３および第４のピッチ、お
よび以前の複数の音声フレームおよび現在のフレームに
ついてのピッチ値に応動して最後の音声フレームの最終
ピッチ値を決定する各ステップを含むことを特徴とする
音声を処理する方法。４．請求の範囲第３項に記載の方法において、該最終ピッチ値を決定するステップが、該推定された第１、第２、第３および第４のピッチ値か
らピッチ値を計算し、計算されたピッチ値が以前のフレームからの計算された
ピッチ値と一致するように該最終ピッチ値を制約する各
ステップを含むことを特徴とする音声を処理する方法。５．請求の範囲第１項の音声を処理する方法において、
更に、ピッチ型励起情報を有する組合わされた符号化された信
号を受信したときに受信された有声信号を発生し、マルチパルスコード型の励起情報を有する該組合わされ
符号化された信号を受信したときに受信された無声信号
を発生し、各フレームに対する音声パラメータ信号の該組に応動し
て該声道をモデル化し、該受信された有声信号が発生された際該ピッチ励起情報
を使用して音声の各フレームを合成し、該受信された無声信号が発生された際該マルチパルスコ
ード型の励起情報を使用して音声の各フレームを合成す
る各ステップを含むことを特徴とする音声を処理する方
法。