JPH06337699A

JPH06337699A - ピッチ・エポック同期線形予測符号化ボコーダおよび方法

Info

Publication number: JPH06337699A
Application number: JP6133864A
Authority: JP
Inventors: Bruce A Fette; ブルース・アラン・フェッテ; Sean S You; シアン・サンソー・ユー; Chad S Bergstrom; チャド・スコット・バーグストロム
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1993-05-28
Filing date: 1994-05-25
Publication date: 1994-12-06
Also published as: CA2123188A1; US5504834A; EP0627725A2; EP0627725A3; US5579437A

Abstract

(57)【要約】【目的】音声信号の特徴をデジタル表現に適する形で
迅速かつ正確に決定する装置および方法、ならびに高い
忠実度を得ると共に広いデジタル帯域を必要とせずにデ
ジタル表現から音声信号を発生するする方法および装置
を提供する。【構成】音声信号のピッチ・エポック同期エンコード
を行なう方法は、入力音声信号を供給するステップ、前
記入力音声信号を処理して、線形予測符号化係数および
有声／無声を含む音質の特徴を決定するステップ、およ
び前記入力音声信号に対応して励起の特徴を決定し、入
力音声信号が有声音声から成る時は周波数領域技術を用
いて励起関数を発生するステップから成る。また、この
方法は、前記入力音声信号が無声音声から成る時、時間
領域技術を用いて前記入力音声信号の特徴を決定して励
起関数を発生するステップ、および前記励起関数をエン
コードして前記入力音声信号を表わすデジタル出力信号
を発生するステップも含む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的にデジタル的に
エンコードされた人間の音声の分野に関し、特にエンコ
ードおよびデコード処理技術に関するものである。更に
特定すれば、デジタル的に音声をエンコードし、これま
でより狭い帯域を用いて、デジタル的にエンコードされ
た音声を伝送すると共に、明瞭性を向上させデジタル・
コードからの音声信号を同期させる、高忠実度技術に関
するものである。

【０００２】

【従来の技術】本発明に関連する特許出願として、本願
と同一譲受人に譲渡された、１９９２年７月１４日に出
願され、「低ビット・レート・ボコーダ手段および方
法」と題する、特開平４−２０８５９号がある。

【０００３】音声信号のデジタル・エンコードおよび／
またはデジタル信号のデコードによって、情報通信に利
用可能な音声信号を供給することは、確実な通信機能、
デジタル・リンクを介した通信、またはコンピュータの
命令から得られた音声信号(speech out signal)を提供
する多くの電子製品にとって、重要なことである。

【０００４】多くのデジタル音声システムでは、合成音
声の質が悪く知覚が困難であることが問題となってい
る。入力音声基本要素の特徴決定が不十分なこと、帯域
に限界があること、およびエンコードされたデジタル表
現から後に合成音声信号を再構成することが全て、合成
音声の音質の低下によって知覚が困難となる原因であ
る。更に、ある種の情報搬送能力が失われ、話し手が伝
えようとする(imparted by)ニュアンス、イントネーシ
ョンおよび強調など、微妙であるが重要な伝達要素が、
デジタル状で伝送される音声信号のエンコードおよびそ
の後のデコード処理における転化(corruption)によっ
て、程度に差はあるものの、失われてしまうのである。

【０００５】特に、自動回帰線形予測符号化(auto-regr
essive linear predictive coding)（ＬＰＣ）技術は、
全てが極でゼロ点がないシステム伝達関数を含んでい
る。これら従来技術による符号化技術、特に線形予測符
号化分析を利用するものは、鼻腔からの共鳴が音質に与
える影響(contribution)を全て無視する傾向があり（鼻
腔からの共鳴は本来、人間音声装置を記述する伝達関数
において、「ゼロ点」を与える）、再生された音声は人
工的な「鈴の音のような(tinny)」或いは「鼻音」状の
音質を有する結果となる。

【０００６】音声をデジタル的にエンコードおよびデコ
ード処理するための標準的な技術は、信号処理分析技術
を利用するが、質の高いリアル・タイムの通信を実現す
るには、かなりの帯域を必要とする。

【０００７】

【発明が解決しようとする課題】したがって、音声信号
の特徴をデジタル表現に適する形で迅速かつ正確に決定
する装置および方法、ならびに高い忠実度(fidelity)を
得ると共に広いデジタル帯域を必要とせずに、デジタル
表現から音声信号を発生する方法および装置が、現在必
要とされているのである。

【０００８】

【課題を解決するための手段】端的に述べると、新規で
改善されたデジタル音声表現および再構成装置、ならび
にそのための方法が提供される。

【０００９】即ち、音声信号のピッチ・エポック同期エ
ンコード処理方法が提供される。この方法は、入力音声
信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声／無声(voicing)を
含む音質の特徴を決定するステップ、入力音声信号が有
声音声から成る時、周波数領域技術を用いて入力音声信
号の特徴を決定することにより励起関数(excitation fu
nction)を供給するステップ、前記入力音声信号が無有
音声から成る時、時間領域技術を用いて前記入力音声信
号の特徴を決定することにより励起関数を供給するステ
ップ、および前記励起関数をエンコードして前記入力音
声信号を表すデジタル出力信号を供給するステップから
成る。

【００１０】好適実施例では、前記装置は、エンコード
された音声信号を表すデジタル信号のピッチ・エポック
同期デコード処理のための装置から成る。前記装置は、
デジタル信号を受信する入力、前記入力に結合される入
力デジタル信号の有声／無声(voicing)を判定する装
置、前記入力デジタル信号が有声音声を表す時は周波数
領域技術を用いて音声信号を合成する第１装置、および
前記入力デジタル信号が無声音声を表す時は時間領域技
術を用いて音声信号を合成する第２装置から成る。前記
第１および第２装置は、各々前記有声／無声を判定する
装置に結合された音声信号を合成する。

【００１１】エンコードされた音声信号を表すデジタル
信号のピッチ・エポック同期デコードを行なう装置は、
デジタル信号を受信する入力と、前記入力デジタル信号
の有声／無声を判定する装置とを含む。前記有声／無声
を判定する装置は、前記入力に結合されている。前記装
置は、前記デジタル信号が有声音声を表す時は周波数領
域技術を用いて音声信号を合成する第１装置と、前記入
力デジタル信号が無声音声を表す時は時間領域技術を用
いて音声信号を合成する第２装置も含む。前記音声信号
を合成する第１および第２装置は、各々前記有声／無声
を判定する装置に結合されている。

【００１２】音声信号のピッチ・エポック同期エンコー
ドを行なう装置は、入力音声信号を受信する入力と、前
記入力音声信号の有声／無声を判定する装置とを含む。
前記有声／無声を判定する装置は前記入力に結合されて
いる。前記装置は、更に、周波数領域技術を用いて前記
入力音声信号の特徴を決定する第１装置を含み、これは
前記有声／無声を判定する装置に結合されている。前記
第１特徴決定装置は、前記入力音声信号が有声音声から
成る時に動作し、周波数領域で特徴を決定された音声を
出力信号として供給する。前記装置は更に、時間領域技
術を用いて入力音声信号の特徴を決定する第２装置も含
む。この装置も前記有声／無声を判定する装置に結合さ
れている。前記第２特徴決定装置は、入力音声信号が無
声音声から成る時に動作し、特徴が決定された音声を出
力信号として供給する。前記装置は、前記特徴が決定さ
れた信号をエンコードし、前記入力音声信号を表すデジ
タル出力信号を発生するエンコーダも含む。このエンコ
ーダは前記第１および第２特徴決定装置に結合されてい
る。

【００１３】

【実施例】ここで用いられる「励起」、「励起関数」、
「駆動関数」、および「励起波形」という用語は、等価
な意味を有し、線形予測符号化装置によってその出力信
号の１つとして発生される波形を示すものである。ま
た、ここで用いられる、「目標」、「励起目標」および
「目標エポック(target epoch)」という用語も等価な意
味を有し、第１にエンコード装置における特徴決定のた
めに選択されるエポック、そして第２に、デコード装置
における後の補間のために選択されるエポックを示す。
図１は、本発明による送信機１０内の音声デジタイザ１
５をフロー・チャート形式で示す簡略ブロック図であ
る。

【００１４】有声音声(voiced speech)（例えば、「ｓ
ｈｏｏｔ」中の「ｏｏ」）の主要成分は、変化が緩慢な
包絡線および周期を有する、擬似周期的インパルス状駆
動関数または励起関数として表すと都合がよい。この周
期のことを「ピッチ周期」またはエポックと呼び、駆動
関数内に１つの個別インパルスを含む。逆に、無声音声
（例えば、「ｈｉｓｓ」中の「ｓｓ」）に関連する駆動
関数は、元来非常にランダムであり、形状のあるノイズ
(shaped noise)、即ち時間可変包絡線を有するノイズに
似ている。ここで、包絡線形状は、主要な情報搬送成分
である。

【００１５】複合有声／無声駆動波形を、システム伝達
関数への入力として考えることができ、その出力が結果
的に得られる音声波形を発生する。この複合駆動波形
は、人間の音声のための「励起関数」と呼ぶこともでき
る。したがって、励起関数の効率的な特徴決定によっ
て、個々の話し手固有の属性により近い近似をもたらす
ことになる。前記属性は、これまでの帯域が狭い音声符
号化構成（例えば、ＬＰＣ１０ｅ）では、不十分に表現
されているか、或いは全く無視されている。

【００１６】本発明による構成においては、音声信号が
高域通過フィルタ１２に入力１１を通じて結合される。
高域通過フィルタ１２は、フレームを基準とした線形予
測符号化（ＬＰＣ）装置１４に、リンク１３を通じて結
合されている。ＬＰＣ装置１４は、リンク１６を通じて
自動相関器１７に励起関数を供給する。

【００１７】自動相関器１７は、擬似周期的励起波形の
サンプル（または領域）における整数ピッチ期間τを推
定する。励起関数およびτの推定は、リンク１８を通じ
てピッチ・ループ・フィルタ１９に入力され、入力音声
信号と関連のある励起関数構造を推定する。ピッチ・ル
ープ・フィルタ１９は、当技術では公知のものである
（例えば、"Pitch Prediction Filters In Speech Codi
ng" by R. P. Ramachandran and P. Kabal, in IEEE Tr
ansactions on Acoustics, Speech and Signal Process
ing, vol. 37, no. 4, 1989年４月号を参照された
い）。ＬＰＣ予測利得（フレーム基準ＬＰＣ装置１４か
らの）、ピッチ・ループ・フィルタ予測利得（ピッチ・
ループ・フィルタ１９からの）、およびフィルタ係数値
（ピッチ・ループ・フィルタ１９からの）に対する推定
は判断ブロック２２において用いられ、入力音声データ
が表すのは有声入力音声データか、或いは無声入力音声
データかを判断する。

【００１８】無声励起データ(unvoiced excitation dat
a)は、リンク２３を通じてブロック２４に結合され、こ
こで隣接するＲＭＳレベルが計算される。これらＲＭＳ
レベルを表す信号は、次にリンク２５を通じてベクトル
量子コードブック４１に結合される。このコードブック
４１の全体的な構造(composition)および機能は当技術
では公知である。

【００１９】典型的に、２４０サンプルから成る３０ミ
リ秒フレームの無声励起信号が、２０の隣接するタイム
・スロットに分割される。各タイム・スロット中に発生
する励起信号を分析し、それが表すレベルによって特徴
を決定する。このレベルはＲＭＳ（二乗平均）レベルと
して実現するのが好ましい。無声フレーム構造(composi
tion)を伝送のに効果的なこの技術は、再生される無声
音声信号の音質について大幅な妥協をすることなく、あ
るレベルの計算の簡略化を図るものである。このような
簡略化は、これよりもかなり精巧な周波数領域高速フー
リエ変換（ＦＦＴ）方法では不可能なことである。

【００２０】有声励起データは、ブロック２４’におい
て周波数領域で処理され、音声の特徴は「エポック毎」
を基準に分析される。これらのデータはリンク２６を通
じてブロック２７に結合され、ここでエポック位置が決
定される。エポック位置判定に続いて、データはリンク
２８を通じてブロック２７’に結合され、ピッチの端数
(fractional pitch)が判定される。次にデータはリンク
２８’を通じてブロック２９に結合され、エポック位置
決めデータを（ブロック２７から）与えられた入力音声
に対して、励起同期ＬＰＣ分析が行われる。これらは両
方ともリンク２８’を通じて供給される。

【００２１】このプロセスは、修正ＬＰＣ係数および励
起関数を発生し、これらをリンク３０を通じてブロック
３１に結合し、各フレームにおいて１つの励起エポック
を補間目標として選択する。この単一エポックは、ラン
ダムに選択してもよいし、当技術では公知のように、閉
ループ・プロセスを通じて選択してもよい。目標励起関
数に対応する励起同期ＬＰＣ係数（ＬＰＣ装置２９か
ら）は、係数補間目標として選択され、リンク３０を通
じて補間目標の選択３１に結合される。選択された補間
目標（ブロック３１）は、リンク３２を通じて相関補間
目標３３に結合される。

【００２２】ＬＰＣ係数を利用して、送信機において省
かれたデータを、受信機側で補間によって再発生する
（後に図４に関連して論ずる）。ＬＰＣ係数と１つの励
起エポックに対応する情報の１組のみが送信機において
エンコードされるので、残りの励起波形およびエポック
同期係数は、受信機において選択された「目標」から得
なければならない。伝送された目標間の線形補間を用い
ると、失われた情報をうまく再発生することができる
が、これ以外の非線形方法を用いることもできる。この
ように、送信機において１つの励起エポックのみ（即
ち、有声音声）が周波数領域で分析され、フレーム毎に
エンコードされ、中間にあるエポックには受信機９にお
ける補間によって挿入される。

【００２３】選択されたエポックは、リンク３２を通じ
てブロック３３に結合され、隣接するフレームにおいて
選択されたエポック（例えば、前のフレームにおいて選
択されたフレーム）が、相互に相関付けられ、最適エポ
ック開始インデックスを決定すると共に、補間プロセス
の有効性を改善する。２つの目標を相関付けることによ
り、補間に先だって、最大相関インデックスのシフト
を、位置決めオフセットとして導入してもよい。このオ
フセットは、２つの目標の「位相」を強制的に一致させ
ることによって、標準的な補間方法を改善するものであ
る。補間前にこの相関手順を実行できない場合、しばし
ば受信機９（図２、後に述べる)において再構成された
励起包絡線に重大なエラーを生じることがある。

【００２４】相関付けられた目標エポックは、リンク３
４を通じて循環シフト３６’に結合され、データはデー
タ・アレイ内でシフト、即ち「回転」させられる。シフ
トされたデータはリンク３７’を通じて結合され、次に
高速フーリエ変換（ＦＦＴ）（ブロック３６”）が行わ
れる。変換されたデータはリンク３７”を通じて結合さ
れ、次に周波数領域でエンコードされる（ブロック３
８）。受信機９において（後に図２に関連して論ず
る）、補間を用いて、送信機１０で省略された情報を再
発生する。送信機では、１組のＬＰＣ係数と１つの励起
エポックがエンコードされるのみであるので、残りの励
起波形およびエポック同期係数は、受信機において、選
択された「目標」から得なければ成らない。伝送された
目標間で線形補間を用いて失った情報を再発生すると良
い結果が得られるが、他の非線形な方法(schemata)も用
いることができる。

【００２５】１つの励起エポックのみについて、データ
のフレーム毎に周波数領域で特徴が決定され（そして結
果がエンコードされる）、励起エポックの際立った特徴
(feature)を適切に表現するために必要とされるのは、
少数の特徴決定サンプルのみである。例えば、４段階の
振幅(magnitude)レベルと１６段階の位相レベルを用い
るのが便利である。これらのレベルは、例えば、１６の
真値位相(real-valuedphase)および４つの真値振幅に連
続的に変化させることができるので便利である。

【００２６】周波数領域エンコード・プロセス（ブロッ
ク３６’，３６”，３８）は、高速フーリエ変換（ＦＦ
Ｔ）を含む。１つのエポックを表すデータのＭ個のサン
プル、典型的に３０ないし８０個のサンプルを巡回的に
シフトし（ブロック３６’）、位相の傾斜(slope)を減
少させるのが望ましい。これらＭ個のサンプルにインデ
ックスを付け、Ｎ番目のサンプルとして示されるエポッ
クのピークを示すサンプルがＦＦＴ入力マトリクスの最
初の位置に置かれ、このＮ番目のサンプルに先立つサン
プルが，ＦＦＴ入力マトリクスの最後のＮ−１個の位置
（即ち、位置２ｎ−Ｎから２ｎまで、ここで２ｎはフレ
ーム・サイズである）に置かれ、Ｎ＋１番目からＭ番目
のサンプルが、Ｎ番目のサンプルに続くようにするのが
望ましい。これら２つの巡回シフトを合計することによ
り、周波数領域の位相傾斜を効果的に減少させ、符号化
の正確さを向上させると共に、受信機９（図２）におけ
る補間プロセスも改善することになる。入力データによ
って占有されていないＦＦＴ入力マトリクスの２ｎ−Ｍ
個の要素にゼロを配することによって、データを「ゼロ
で満たし」、その結果を高速フーリエ変換する。ここで
２ｎはＦＦＴ入力マトリクスのサイズを表す。

【００２７】周波数領域における振幅および位相データ
は、比較的少ないサンプルで特徴を決定するのが望まし
い。例えば、周波数スペクトルを４つの１キロヘルツ帯
域に分割し、代表的な信号レベルをこれら４つの帯域の
各々について決めておけばよい。位相データは１６個の
値で特徴を決定するのが便利であり、再構成された音声
の音質が高められるのは、より低い周波数、例えば、ス
ペクトルの下から５００ヘルツ、を有する特徴決定位相
に、より大きな強調が配される時である。忠実度が高い
音声の再生が可能と考えられている、ＦＦＴ３６”から
の２５６個のデータ点を表すために選択された位置の例
を、以下の表１に示す。表１に掲げられている値は例で
あり、他の値を代わりに用いてもよいことは、本発明が
属する技術分野に精通するものであれば、認めるであろ
う。

【００２８】表１：（ブロック３８によって）選択され
た（ＦＦＴ、ブロック３６”からの）位相データの２５
６サンプルから選択されたサンプルのリスト 0, 1, 2, 3 ,4, 8, 12, 16, 20, 24, 28, 32, 48, 64,
96, 128

【００２９】表１に示すリストでは、初期（低周波数）
データ（要素０−４）に最も重い強調を行い、中間デー
タ（要素５−２３）はそれより軽く強調を行い、更に周
波数が高くなるにつれて強調が徐々に軽くなっている。
このように選択した１組のデータを用いると、励起の特
徴の内話し手に左右される特徴が強く保持されるので、
再構成される音声は高音特性(tenor charactor)と、元
の入力音声のデータ搬送ニュアンス(data-conveying nu
ances)をより正確に表すことになる。

【００３０】ここでは、有用な結果をもたらす個別レベ
ルの数の一例として、４つの振幅スペクトル帯域と１６
の位相レベルについて述べたが、他の数の特徴決定デー
タを用い、それに伴って、結果を記述するのに必要なデ
ータ量(volume of data)の増減や、音声信号再構成の忠
実度の変更も可能であることは、認められよう。

【００３１】数個の特徴決定サンプルに圧縮された励起
エポック１つのみを各フレームに用いるので、結果的に
得られるデジタル的にエンコードされた音声を伝送する
のに必要なデータ・レート（帯域）を低下させることが
できる。伝送帯域についての要求を低くしても、高音質
の音声が受信機において生成される。無声音声を表すデ
ータに用いられる特徴決定プロセス（ブロック２４）を
用いた場合のように、有声音声用の周波数領域エンコー
ド手順は、本発明においてなされるような注意深い励起
特徴のモデル化が不可能な単純で洗練されていない技術
に比較して、忠実度に関して著しい利点が得られる。

【００３２】結果的に得られた（即ち、ブロック３８か
らの）特徴決定データは、リンク３９を通じてベクトル
量子化コードブック４１に渡される。無声（リンク２
５）および有声（リンク３９）音声を表すベクトル量子
化データは、ベクトル量子化コードブック４１を用いて
符号化され、符号化されたデジタル出力信号は、伝送媒
体、暗号化装置等に、リンク４２を通じて結合される。

【００３３】図２は、図１の送信機のような装置によっ
て供給されるデジタル・データのために受信機９に設け
られた合成器４５を、フロー・チャート状に示した簡略
ブロック図である。受信機９はデジタル入力４４を有
し、音声信号を表すデジタル・データを外部装置（図示
せず）からベクトル量子化コードブック４１に結合する
と共に、暗号化された受信データの解読、受信ＲＦまた
は光データの復調、公衆電話交換システムとのインター
フェース等を行う。ベクトル量子化コードブック４１か
らの量子化データは、リンク４４’を通じて判断ブロッ
ク４６に結合され、ベクトル量子化入力データが有声フ
レームを表すのか、無声フレームを表すのかを判定す
る。

【００３４】ベクトル量子化データ（リンク４４’）が
無声フレームを表す時、これらのデータはリンク４７を
通じて時間領域信号処理ブロック４８に結合される。時
間領域信号処理ブロック４８は、リンク４７に結合され
たブロック５１を含んでいるのが望ましい。ブロック５
１は、連続ＲＭＳレベル間で線形補間を行い、無声励起
包絡線を再発生するものである。この結果が振幅変調ノ
イズ発生器５３に用いられる。振幅変調ノイズ発生器５
３は、リンク５２を通じて、ガウス乱数発生器として実
現され、無声励起信号を再構成することが望ましい。こ
の無声励起関数を、リンク５４を通じて格子合成フィル
タ６２に結合する。６２のような格子合成フィルタは当
技術では一般的であり、例えば、Digital Processing o
f SpeechSignals, by L. R. Rabiner and R. W. Schafe
r (Prentice Hall, Englewood Cliffs, NJ, 1978)に記
載されている。

【００３５】ベクトル量子化データ（リンク４４’）が
有声入力音声を表す時、これらのデータをリンク５６を
通じて振幅および位相補間器５７に結合し、失われた周
波数領域の振幅および位相データを補間する（これらの
データは伝送帯域要求を下げるために伝送されたのでは
ない）。これらのデータは逆フーリエ変換（ブロック５
９）され、結果として得られたデータはリンク６６を通
じて、後のＬＰＣ係数補間（ブロック６６’）のために
結合される。ＬＰＣ係数補間（ブロック６６’）はリン
ク６６”を通じて、エポック補間６７に結合され、ここ
で、目標励起（ｉＦＦＴ５９から）およびこれと同様の
以前に得られた励起目標（例えば、以前のフレーム）と
の間でデータを補間し、エンコード・プロセス（即ち、
図１の送信機１０の音声デジタイザ１５における）中に
用いられる励起波形を近似した励起関数（リンク６８に
対応する）を再構成する。

【００３６】リンク６８を通じて結合されたデータに現
れる逆ＦＦＴプロセスの人工的音質(artifact)の低減
は、ウインドウ処理（ブロック６９）を行い、ＦＦＴ出
力マトリクス（ブロック５９）の開始および終端で生じ
るエッジ効果または「スパイク」、即ちＦＦＴフレーム
境界部における不連続を抑制することによって達成され
る。ウインドウ処理（ブロック６９）は台形状ウインド
ウ関数(window function)を用いて行うのが便利である
が、当技術で公知の他のウインドウ関数を用いて行って
もよい。１つのフレーム内では励起包絡線およびピッチ
の変化が比較的緩やかであるために、これらの補間され
連結された励起エポックは、元の励起の特徴によく似る
ので、元の入力音声の再現を高い忠実度で行うことがで
きる。再構成された有声音声を表すウインドウ処理の結
果を、リンク１６を通じて格子合成(lattice synthesi
s)フィルタ６２に結合する。

【００３７】有声および無声フレームの双方に対して、
格子合成フィルタ６２は、外部装置（例えば、スピー
カ、イヤホン等、図２には示されていない）に結合され
る高音質の出力音声を合成する。この出力音声は、入力
された音声信号に酷似しており、話し手によって変わる
元の入力音声信号の固有の属性を保持すると同時に、必
要な帯域も狭くて済む（例えば２４００ビット／秒即ち
ボー）。

【００３８】図３は、本発明による音声デジタイザ１５
（図１）と音声合成器４５（図２）とを用いた、音声通
信装置７７の、非常に簡略化したブロック図である。音
声デジタイザ１５および音声合成器４５は、Motorola,
Inc. of Phoenix, AZから入手可能なType DSP56001、Ty
pe DSP56002またはType DSP96002集積回路のようなデジ
タル信号プロセッサにおいて、アセンブリ言語プログラ
ム等を用いて実施することができる。当技術では公知の
ように、デジタル信号処理集積回路に付随するメモリ回
路等も必要とされることもある。

【００３９】音声通信装置７７は、音声入力１１に結合
されている音声入力装置７８を含む。音声入力装置７８
は、例えばマイクロホン、ハンドセット・マイクロホン
とすることができ、或いは電話機または無線装置、また
はメモリ装置（図示せず）、またはその他の音声データ
源に結合してもよい。音声入力１１からの入力音声は、
図１および関連する説明に記載したように、音声デジタ
イザ１５によってデジタル化される。デジタル化された
音声は、出力４２を通じて音声デジタイザ１５から出力
される。

【００４０】当技術では公知なように、音声通信装置７
７は、通信プロセッサ７９を出力４２に結合し、リンク
８１を通じて出力信号を発生してもよく、通信プロセッ
サ７９は、発呼(dialing)、スピーカホーン多重化、変
調、信号の電話(telephony)または無線ネットワークへ
の結合、ファクシミリ伝送、デジタル信号の暗号化（例
えば、出力４２からのデジタル音声）、データ圧縮、請
求書交付機能等のような付加機能を実行するために設け
られるものである。

【００４１】同様に、通信プロセッサ８３は、リンク８
２を通じて入来する信号を受信し、当技術では公知なよ
うに、適切な結合、スピーカホーンの多重化、復調、暗
号解読、ファクシミリ受信、データ圧縮解除、請求書交
付機能等を行う。

【００４２】音声を表すデジタル信号は、リンク４４を
通じて、通信プロセッサ８３から音声合成器４５に結合
される。音声合成器４５は音声信号に対応する電気信号
を、リンク６１を通じて出力装置８４に供給する。出力
装置８４は、スピーカ、ハンドセット受信要素、または
このような信号を受容可能な他のいずれかの装置とする
ことができる。

【００４３】通信プロセッサ７９，８３は物理的に異な
るプロセッサである必要はないが、これら通信プロセッ
サ７９，８３によって実現される機能は、例えば、音声
デジタイザ１５および／または音声合成器４５を構成す
る同一装置によって実行可能であることは認められよ
う。

【００４４】本発明の一実施例では、リンク８１，８２
は共通双方向データ・リンクとしてもよいことは認めら
れよう。本発明の一実施例では、通信プロセッサ７９，
８３は１つの共通なプロセッサでもよく、および／また
は音声またはその他の信号を表わすデジタル・データを
記憶するための、或いは後に処理するための装置、例え
ば、テレビジョン、カムコーダ(camcorder)等へのリン
クを備えていてもよい。音声通信装置７７は、したが
って、音声信号のデジタル・エンコード、伝送およびデ
コードを行ない、忠実度の高い音声信号再生と共に、所
与の忠実度レベルに対する帯域要求の減少を可能にす
る、新規の装置および方法をもたらすものである。本発
明で用いる固有の周波数領域における励起特徴決定（有
声音声入力に対する）および再構成技術は、大幅な帯域
の節約を可能とすると共に、これまでかなり高いデータ
・レートを有するデジタル・システムでなければ達成で
きなかった音質のデジタル音声を得ることができる。

【００４５】例えば、エポックの選択、選択されたエポ
ックの高速フーリエ変換、および選択されたエポックを
表わすデータの間引きによる必要なデータ量の低減によ
って、エンコード・プロセスにおいて多大な恩恵および
利点を得ることができ、一方受信機におけるフレームか
らフレームへの補間によって、エンコードされた信号か
ら入力音声信号を忠実度高く再構成することが可能とな
る。更に、１組の音声サンプルを一連の隣接するウイン
ドウに分割することによって、無声音声の特徴を決定す
ること、および隣接するウインドウ各々についてＲＭＳ
信号レベルを測定することも、信号処理の複雑度をかな
り減少するものである。

【００４６】ここに記載されたは、音声信号のピッチ・
エポック同期エンコードを行なうための方法であり、こ
の方法は、入力音声信号を供給するステップ、前記入力
音声信号を処理して、線形予測コーディング係数および
有声／無声を含む音質の特徴を決定するステップ、入力
音声信号が有声音声から成る時は周波数領域技術を用い
て入力音声信号の特徴を決定して、励起関数を発生する
ステップ、前記入力音声信号が無声音声から成る時は時
間領域技術を用いて前記入力音声信号の特徴を決定し
て、励起関数を発生するステップ、および前記励起関数
をエンコードして前記入力音声信号を表わすデジタル出
力信号を供給するステップから成る。

【００４７】時間領域技術を用いての入力音声信号の特
徴決定は、無声音声フレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々に対して二乗平均（Ｒ
ＭＳ）振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記ＲＭＳ振幅をエンコードし、
無声音声を表わすデジタル信号を供給するステップから
なる。

【００４８】周波数領域技術を用いての入力音声信号の
特徴決定は、音声信号フレーム内のエポック励起位置を
決定するステップ、端数ピッチを判定するステップ、エ
ポック同期ＬＰＣ分析を行なうことによって１群の同期
線形予測符号化（ＬＰＣ）係数を決定するステップ、お
よび特定の音声データのエポック内から補間励起目標を
選択し、目標励起関数を発生するステップから成り、前
記目標励起関数は、エポック毎(per-epoch)の音声パラ
メータを含み、前記エンコード・ステップは端数ピッチ
および同期ＬＰＣ係数のエンコードを含む。

【００４９】更に、周波数領域技術を用いての入力音声
信号の特徴決定は、現在選択されている補間励起目標を
以前に選択された補間励起目標と相関付けるステップ、
前記相関付けられた補間励起目標のインデックスを調節
するステップ、および前記インデックスを調節され相関
付けられた補間励起目標に高速フーリエ変換を行なうス
テップを含む。

【００５０】また、エンコードされた音声信号を表わす
デジタル信号をデコードする方法が開示され、この方法
は、入力デジタル信号を供給するステップ、該入力デジ
タル信号の有声／無声を判定するステップ、前記入力デ
ジタル信号が有声音声を表わす時に周波数領域技術を用
いて音声信号を合成するステップ、および前記入力デジ
タル信号が無声音声を表わす時に時間領域技術を用いて
音声信号を合成するステップから成る。

【００５１】前記入力デジタル信号が無声音声を表わす
時に、時間領域技術を用いて音声信号を合成するステッ
プは、更に、一連の隣接する二乗平均（ＲＭＳ）振幅を
デコードするステップ、隣接するＲＭＳ振幅間で補間を
行ない励起包絡線を再発生するステップ、前記励起包絡
線を用いてノイズ発生器を変調し、無声音声励起を与え
るステップ、および前記無声励起から無声音声を合成す
るステップを含む。

【００５２】前記入力デジタル信号が有声音声を表わす
時に、周波数領域技術を用いて音声信号を合成するステ
ップは、更に、伝送された位相間で位相を補間し、位相
を記述するアレイを補間された位相データで満たすステ
ップ、補間された位相データの高速逆フーリエ変換を行
ない、再構成目標エポックを得るステップ、線形予測符
号化（ＬＰＣ）係数の補間を行ない、送信機において省
かれたＬＰＣ係数をシミュレートし、再構成されたＬＰ
Ｃ係数を得るステップ、再構成された目標エポック間で
補間を行ない、再構成された有声励起関数を得るステッ
プ、および格子合成フィルタを用いて再構成された有声
励起関数および再構成されたＬＰＣ係数から音声信号を
合成し、再構成された音声信号を得るステップから成
る。

【００５３】再構成有声励起関数からの音声信号の合成
は、再構成された有声励起関数にウインドウ処理を行な
うステップを含む。

【００５４】また、エンコードされた音声信号を表わす
デジタル信号のピッチ・エポック同期デコードを行なう
装置が開示され、この装置は、デジタル信号を受信する
入力、前記入力に結合され入力デジタル信号の有声／無
声を判定する手段、前記入力デジタル信号が有声音声を
表わす時、周波数領域技術を用いて音声信号を合成する
第１手段、および前記入力デジタル信号が無声音声を表
わす時、時間領域技術を用いて音声信号を合成する第２
手段から成り、前記第１および第２手段は、各々前記有
声／無声判定手段に結合された音声信号を合成するもの
である。

【００５５】前記音声信号を合成する第２手段は、前記
有声／無声を判定する手段に結合され、一連の隣接する
代表的振幅(representative amplitude)をデコードする
手段、および前記デコード手段に結合されたノイズ発生
器を含む。前記ノイズ発生器は、前記一連の隣接する代
表的振幅から得られた包絡線で変調されたレベルのノイ
ズを発生し、再構成された有声励起関数から合成無声音
声を発生する。

【００５６】一連の隣接する代表的振幅をデコードする
前記手段は、一連の隣接する二乗平均（ＲＭＳ）振幅を
デコードする手段である。

【００５７】前記ノイズ発生器は、ガウス・ノイズ発生
器である。

【００５８】音声信号を合成する前記第１手段は、前記
有声／無声判定手段に結合され、伝送された位相間で位
相を補間することによって、位相を記述するアレイを補
間された位相データで満たす手段、前記補間された位相
データに高速逆フーリエ変換（ｉＦＦＴ）を行なうこと
によって、再構成された目標エポックを得る手段であっ
て、前記ｉＦＦＴ手段は前記補間手段に結合する手段、
前記ｉＦＦＴ手段に結合され、線形予測符号化（ＬＰ
Ｃ）係数の補間によって１組の再構成されたＬＰＣ係数
を発生し、省かれたＬＰＣ係数をシミュレートするＬＰ
Ｃ係数補間手段、前記ＬＰＣ係数補間手段に結合され、
前記再構成された目標エポック間で補間を行ない、再構
成された有声励起関数を得るエポック補間手段、および
前記エポック補間手段に結合され、前記再構成された有
声励起関数と前記１組の再構成されたＬＰＣ係数から音
声信号を合成し、再構成音声信号を得る格子合成フィル
タ手段を含む。

【００５９】音声信号を合成する前記第１手段は、前記
エポック補間手段に結合され、前記再構成された有声励
起関数にウインドウ処理を行なうことによって前記高速
逆フーリエ変換手段からの人工的音質を除去し、前記格
子合成フィルタ手段に結合された出力を有するウインド
ウ処理手段を含む。

【００６０】また、音声信号のピッチ・エポック同期エ
ンコードを行なう装置が開示され、この装置は、入力音
声信号を受信する入力、前記入力に結合され、前記入力
音声信号の有声／無声を判定する手段、前記有声／無声
判定手段に結合され、前記入力音声信号が有声音声から
成る時に動作し、周波数領域技術を用いて前記入力音声
信号の特徴を決定し、特徴が決定された音声を出力信号
として発生する第１手段、前記有声／無声判定手段に結
合され、前記入力音声信号が無声音声から成る時に動作
し、時間領域技術を用いて前記入力音声信号の特徴を決
定し、特徴が決定された音声を出力信号として供給する
第２手段、および前記第１および第２特徴決定手段に結
合され、前記特徴が決定された音声をエンコードし、入
力音声信号を表わすデジタル出力信号を発生する手段か
ら成る。

【００６１】前記第２特徴決定手段は、前記有声／無声
判定手段に結合され、１フレーム長からなる一連の隣接
するタイム・スロットにおいて、代表的信号レベルを計
算する手段、および前記代表的信号レベルを計算する手
段に結合され、前記入力音声信号に対応するベクトル量
子化デジタル信号を発生するベクトル量子化コードブッ
クを含む。

【００６２】前記代表的信号レベルを計算する手段は、
一連の隣接タイム・スロットにおいて二乗平均信号レベ
ルを計算する手段から成る。

【００６３】前記入力音声の特徴を決定する第１手段
は、前記有声／無声判定手段に結合され、音声データ・
フレーム内のエポック励起位置を決定する手段、および
前記判定手段に結合され、特定の音声データのエポック
内から励起目標を選択し、目標励起関数を発生する補間
目標選択手段を含み、前記目標励起手段はエポック毎に
音声パラメータを含む。

【００６４】前記入力音声の特徴を決定する第１手段
は、前記目標選択手段と結合され、現在選択されている
補間励起目標を以前に選択された補間励起目標と相関付
ける手段、前記相関付け手段と結合され、相関付けられ
た補間励起目標のインデックスを調節する手段、および
前記調節手段に結合され、前記インデックスを調節され
た相関付けられた補間励起目標を変換し、変換されたデ
ータを発生する高速フーリエ変換手段を含む。

【００６５】前記入力音声の特徴を決定する第１手段
は、更に、前記エンコード手段に結合され、前記変換さ
れたデータの振幅および位相の特徴を決定し、前記変換
されたデータから散在するデータ集合を発生する手段を
含む。

【００６６】更に、音声信号のピッチ・エポック同期エ
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声／無声を含む音質の
特徴を決定するステップ、前記入力音声信号が無声音声
から成る時時間領域技術を用いて前記入力音声信号の特
徴を決定して励起関数を発生するステップ、および前記
励起関数をエンコードして、前記入力音声信号を表わす
デジタル出力信号を発生するステップから成り、前記時
間領域技術を用いて入力音声信号の特徴を決定するステ
ップは、無声音声のフレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々について二乗平均（Ｒ
ＭＳ）振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記ＲＭＳ振幅をエンコードし、
無声音声を表わすデジタル信号を発生するステップを含
む。

【００６７】更に、音声信号のピッチ・エポック同期エ
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声／無声を含む音質の
特徴を決定するステップ、前記入力音声信号が有声音声
から成る時周波数領域技術を用いて前記入力音声信号の
特徴を決定し、励起関数を発生するステップ、および前
記励起関数をエンコードして、前記入力音声信号を表わ
すデジタル出力信号を発生するステップから成り、前記
周波数領域技術を用いて入力音声信号の特徴を決定する
ステップは、音声データ・フレーム内でエポック励起位
置を決定するステップ、エポック同期ＬＰＣ分析を行な
うことによって、１群の同期線形予測符号化（ＬＰＣ）
係数を決定するステップ、および特定の音声データのエ
ポック内から補間励起目標を選択し、目標励起関数を発
生するステップを含み、前記目標励起関数はエポック毎
の音声パラメータを含み、更に、前記エンコード・ステ
ップは、端数ピッチおよび同期ＬＰＣ係数をエンコード
し、前記励起関数をエンコードして前記入力音声信号を
表わすデジタル出力信号を発生することを含む。

【００６８】このように、従来技術の方法および機構に
関連する具体的な問題を克服し、ある利点を得ることが
できる、ピッチ・エポック同期線形予測符号化ボコーダ
および方法について説明した。公知技術に対する改善は
意義深いものである。従来方法の高価、複雑、大電力消
費という欠点が回避される。同様に、達成可能なデータ
・レートを犠牲にすることなく、忠実度を向上させるこ
とができる。

【００６９】これまでの特定実施例の説明は、本発明の
全体的な特徴を完全に明らかにするので、現在の知識を
応用することにより、全体的な概念から逸脱することな
く、種々の用途のために容易に改造および／または適合
させることができよう。したがって、そのような適合お
よび改造は、開示された実施例の同等物の意味および範
囲内のものとして解釈されるべきであり、またそのよう
に意図するものである。

【００７０】ここで用いた文章および用語は、説明のた
めのものであり、限定のためではないことは理解されよ
う。したがって、本発明は、特許請求の範囲の真意およ
び広範な範囲に該当する全ての代替物、改造物、同等
物、および変更物を含むことを意図するものである。

【図面の簡単な説明】

【図１】本発明による送信機内の音声デジタイザをフロ
ー・チャート形式で表した簡略ブロック図。

【図２】図１の送信機のような装置によって供給される
デジタル・データのために、受信機内に設けられた音声
合成器をフロー・チャート形式で表した簡略ブロック
図。

【図３】本発明による図１の音声デジタイザおよび図２
の音声合成器を用いた、音声通信装置のかなり簡略化し
たブロック図。

【符号の説明】９受信機１０送信機１１入力１２高域通過フィルタ１４線形予測符号化（ＬＰＣ）装置１５音声デジタイザ１７自動相関器１９ピッチ・ループ・フィルタ４１ベクトル量子化コードブック４２出力４５合成器５３振幅変調ノイズ発生器５７振幅および位相補間器６２格子合成フィルタ７７音声通信装置７８音声入力装置７９，８３通信プロセッサ８４出力装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者チャド・スコット・バーグストロムアメリカ合衆国アリゾナ州チャンドラー、サウス・オーク501

Claims

【特許請求の範囲】

【請求項１】音声信号のピッチ・エポック同期エンコー
ドを行なう方法であって：入力音声信号（１１）を供給
するステップ；前記入力音声信号（１１）を処理し、線
形予測符号化係数および有声／無声を含む音質の特徴を
決定するステップ（１２，１４，１７，１９，２２）；
前記入力音声信号（１１）が有声音声から成る時、周波
数領域技術（２４’）を用いて入力音声信号の特徴を決
定し、励起関数（３９）を発生するステップ；前記入力
音声信号（１１）が無声音声から成る時、時間領域技術
（２４）を用いて前記入力音声信号の特徴を決定し、励
起関数（２５）を発生するステップ；および前記励起関
数（２５，３９）をエンコードし（４１）、前記入力音
声信号（１１）を表わすデジタル出力信号（４２）を発
生するステップ；から成ることを特徴とする方法。
【請求項２】エンコードされた音声信号を表わすデジタ
ル信号をデコードする方法であって：入力デジタル信号
（４４）を供給するステップ、前記入力デジタル信号
（４４）の有声／無声を判定するステップ（４６）、前
記入力デジタル信号が有声音声を表わす時周波数領域技
術（４８’）を用いて音声信号を合成するステップ、お
よび前記入力デジタル信号が無声音声を表わす時、時間
領域技術（４８）を用いて音声信号を合成するステッ
プ、から成ることを特徴とする方法。
【請求項３】エンコードされた音声信号を表わすデジタ
ル信号のピッチ・エポック同期デコードを行なう装置で
あって：デジタル信号を受信する入力（４４）；前記入
力（４４）に結合され、前記入力デジタル信号の有声／
無声を判定する手段（４５）；前記有声／無声を判定す
る手段（４５）に結合され、前記入力デジタル信号が有
声音声を表わす時、周波数領域技術を用いて音声信号を
合成する第１手段（４５）；および前記有声／無声を判
定する手段（４５）に結合され、前記入力デジタル信号
が無声音声を表わす時、時間領域技術を用いて音声信号
を合成する第２手段（４５）；から成ることを特徴とす
る装置。
【請求項４】音声信号のピッチ・エポック同期エンコー
ドを行なう装置であって：入力音声信号を受信する入力
（１１）；前記入力（１１）に結合され、前記入力音声
信号の有声／無声を判定する手段（１５）；前記有声／
無声を判定する手段（１５）に結合され、前記入力音声
信号が有声音声から成る時に動作し、周波数領域技術を
用いて前記入力音声信号の特徴を決定し、特徴が決定さ
れた音声を出力信号として発生する第１手段（１５）；
前記有声／無声を判定する手段（１５）に結合され、前
記入力音声信号が無声音声から成る時に動作し、時間領
域技術を用いて前記入力音声信号の特徴を決定し、特徴
が決定された音声を出力信号として発生する第２手段
（１５）；および前記第１および第２特徴決定手段（１
５）に結合され、前記特徴が決定された音声をエンコー
ドし、前記入力音声信号を表わすデジタル出力信号を発
生する手段（１５）；から成ることを特徴とする装置。
【請求項５】音声信号のピッチ・エポック同期エンコー
ドを行なう方法であって：入力音声信号（１１）を供給
するステップ；前記入力音声信号（１１）を処理し、線
形予測符号化係数および有声／無声を含む音質の特徴を
決定するステップ（１２，１４，１７，１９，２２）；
前記入力音声信号（１１）が無声音声から成る時、時間
領域技術（２４）を用いて前記入力音声信号の特徴を決
定し、励起関数（２５）を発生するステップ；および前
記励起関数をエンコードし（４１）、前記入力音声信号
（１１）を表わすデジタル出力信号（４２）を発生する
ステップ；から成り、前記時間領域技術（２４）を用い
て入力音声信号の特徴を決定するステップは、無声音声
のフレームを一連の隣接領域に分割するステップ（２
４）；前記隣接領域の各々について二乗平均振幅（ＲＭ
Ｓ）を決定するステップ（２４）；およびベクトル量子
化コードブックを用いて前記ＲＭＳ振幅をエンコード
し、無声音声を表わすデジタル信号を発生するステップ
（２４）；を含むことを特徴する方法。
【請求項６】音声信号のピッチ・エポック同期エンコー
ドを行なう方法であって：入力音声信号（１１）を供給
するステップ；前記入力音声信号（１１）を処理し、線
形予測符号化係数および有声／無声を含む音質の特徴を
決定するステップ（１２，１４，１７，１９，２２）；
前記入力音声信号（１１）が有声音声から成る時、周波
数領域技術（２４’）を用いて入力音声信号の特徴を決
定し、励起関数（３９）を発生するステップ；および前
記励起関数をエンコードし（４１）、前記入力音声信号
（１１）を表わすデジタル出力信号（４２）を発生する
ステップ；から成り、前記周波数領域技術（２４’）を
用いて入力音声信号の特徴を決定するステップは：音声
データ・フレーム内でエポック励起位置を決定するステ
ップ（２７）；端数ピッチを判定するステップ（２
７’）；エポック同期ＬＰＣ分析を行なうことによっ
て、１群の同期線形予測符号化（ＬＰＣ）係数を決定す
るステップ（２９）；および特定の音声データのエポッ
ク内から補間励起目標を選択して、目標励起関数を発生
するステップ（３１）であって、前記目標励起関数はエ
ポック毎の音声パラメータを含み、前記エンコード・ス
テップは端数ピッチと同期ＬＰＣ係数とをエンコードす
ることを含む、前記選択ステップ；を含むことを特徴と
する方法。