JPS6035799A

JPS6035799A - 人間の音声エンコード装置及び方法

Info

Publication number: JPS6035799A
Application number: JP59071927A
Authority: JP
Inventors: マサツド　アージマンド; ジヨージ　アール．ドツデイントン
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1983-04-13
Filing date: 1984-04-12
Publication date: 1985-02-23
Also published as: EP0124728A1; EP0124728B1; JPH0516599B2; DE3476479D1; US4667340A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の背景および要約本発明は人間の音声のエンコードおよびデコードに関す
る。特に、本発明は音声メツセージシステムに関する。

更に詳しくは、本発明は集積化された音声／デーダ通信
／記憶システムに関し、ここでは当然のこととして高帯
域幅（例えば４８００または９６００ボー）のディジタ
ルチャネルが使用できる。

音声メツセージシステムでは、発信機と受信機は、空間
的にまたは時間的に、もしくは、双方に関ｔ、、Ｉｉ！
ｔｐれている。即ち、音声メツセージは送信局でコード
化され、エンコードされた音声に対応するビットが送信
機または送信機の周辺装置に記憶され、後刻、呼び出さ
れたり、合成音声に再生される１、または、遠隔受信局
に送信されて、直ちにまたは後刻人間の音声に再生され
る。即ち、本発明は送信局と受信局が、送信機または受
信機が時間的に、または空間的に、もしくは双方に関し
て離れているといないにか＼わらず、データチャネルで
接続されたシステムに応用される。

典型的な線型予測コーディング（ＬＰＣ）ベースバンド
１１声コーデイングシステムを第１図に示す。

本発明はこのようなシステムに対して重要な修正や改良
を教示する。音声入力からＬＰＧスペクトルパラメータ
（例えば、反射系数ｋｉまたは反転フィルタ系数ａｋ’
）が抽出された後、音声入力は残留唱差イハ号を生成す
るためにＬＰＣ分析フィルタでフィルタされる。つまシ
、通常は、単純化されたＬＰＣモデルは各入力サンプル
を励起関送を用いて、直前の人＼カザンプルの線型の組
合せにする。

こ＼でｕｎは励起関数である。

数列ｕｎの平均値はおよそＯであるが、時系列ｕｎは重
要な情報を含んでいる。即ち、ＬＰＣモデルは完全なモ
デルでなく、重要で有用な情報がＬＰＣパラメータで完
全にはモデル化されないので、残留信号ｕｎ内に残って
いる。モデル次数はＬＰＣモデルの完成にある限界を与
えるが、どの有用な音声応用においても、いくらかの情
報はＬＰＣパラメータ内でなく残留信号ｕｎ内に残る。

ＬＰＣモデルは直感的には人間音声の実際の関数をモデ
ル化すると考えられる。つまり、人間音声は、音声系の
特性に対応して、パッシブな音響フィルタに印加された
励起関数〔喉頭で生成されたパルス列または無声音声中
に生成された白色雑音〕と考えられる。一般に、パッシ
ブ音響フィルタの特性（即ち、口や胸等の共振や制動特
性〕はＬＰＣパラメータでモデル化されるが、励起関数
の特性は一般に残留時系列ｕｎ内に現われる。

音声の音素特性は典型的には極めて遅い速さで変化し、
１′５饗周波数領域特性も同様にゆるやかに変わる。従
って、フレーム率は通常、比較的長期間に渡っての音声
」二の音響変化を追跡するように選択される。例えば、
フレーム率は典型的には、１０　Ｄ　１１２の近くのい
ずれかに選択され、音声信号の音響周波数領域特性は、
全てのフレーム幅で、本質的に一定であるとして取扱わ
れる。これに比べて、音声は、測定されるべき音響帯域
幅に対応するナイキスト率でサンプルされなければなら
ない。従って、典型的サンプリング率は８に１ｚで、各
フレーム内に８０サンプルが得られよう。ＬＰＧモデル
の極めて有利なことは、入力時系列が各サンプル毎に変
化するのに対して、ＬＰｃパラメータは各フレーム毎に
変化することである。残留列Ｌ１１１も各サンプル毎に
変化するが、これには入力時系列ｓ１□ｊ４０も少ない
情報が含まれていて、通常、や＼低下されたデータレー
トで効果的にモデル化さＩｔ得る。

残留時系列ｕｎは大まかには以下の情報を用いて記述で
きる：　ＲＭＳ工掃ルギ、現在のフレームカニ有声か無
声かを示すための音声ビット、および、有声音声期間中
のパルス列の間隔を定義するためのピッチ期間。無声音
声期間中には、励起関数は極めて広い周波数特性を示し
、白色雑音として旨くモデル化される。

サンプルレート入力信号Ｓｎの全ての特徴はフレーム率
パラメータに変えられるので、残留時系列ｕｎの近似は
大変コンパクトになる。しかし、これによって良好なデ
ータ圧縮が可能となる。このことは、全ての音声エンコ
ーディングシステムにとって大いに望ましい。

しかし、この単純な音声エンコードシステムは音声メツ
セージシステムには適当でない。音声メツセージシステ
ムでは、多くの応用は音声品質に極めて敏感である。例
えば、多年に渡って文献で多く指摘されたように、オフ
ィス環境に音声メールシステムを導入することは、ホワ
イトカラーの生産性を多いに改善するであろう。しかし
、音声メツセージの使用者側の受入れとしては、その品
質に大変敏感である。、これは、どのビジネスマンも自
分のメツセージを受ける人にとって自分の声が奇妙に響
くようなシステムを通常使用するとは思われないからで
ある。従来技術のシステムはこの品質要求を満足する点
で多くの困難があった。

他のデイレンマとしては、以下の２要素を満足する必要
からくる経済性である：プロセッサ負荷とデータ効率。

音声エンコーディングが通常のオフィス内のマイクロコ
ンピュータベースシステムで行われれば、エンコードと
デコードのためのプロセッサロードは十分に低くなる。

同様に、音声メツセージが簡単に記憶され、送信される
ならば、そのデータ効率（キロバイトの音声に要する時
間（秒数））は高くなるにちがいない。

従って本発明の目的は再生された音声の品質７５；高い
音声メツセージシステムを提供することである。

更に、本発明の他の目的はプロセッサ負荷がイ氏い１ｆ
声メツセージシステムを提供することでおる。

本発明の別の目、的は、音声品質が高くプロセッサ負荷
がＩＪ（い音声メツセージシステムを提供スルことであ
る。　” 更に本発明の他の目的はデータ効率の高い音声メツセー
ジシステムを提供することである。

本発明の別の目的は、データ効率が高く、生成される音
声の品質が大変よい音声メツセージシステムを提供する
ことである。

本発明の他の目的は、プロセッサロードが低く、データ
効率が高く、再生された音声の品質が極めてよい音声メ
ツセージシステムを提供することである。

高品質の達成には、単にピッチと、エネルギと、音声（
ボイシング）よりも多くの情報を残留時系列ｕｎから得
る必要がある。残留時系列ｕｎのフーリエ変換は大変適
切である。しかし、これは必要以上に多くの情報を提供
する。従来技術では、良品質音声は、残留信号ｕｎの全
帯域幅の一部のみをエンコードし、この部分帯域’１８
　号（ヘ−スハ７ドとして知られている）を受信機で全
帯域幅の励起信号を与えるため、伸長することで再生で
＠−ることか判明している。ベースバンドコード法では
残留信号ｕｎは、そのＦＦＴ　（ファストフーリエ変換
）をとることによシ周波数領域に変換される。

ベースバンドと呼ばれる、ＦＦＴの低周波数のいくつか
の゛リンゾルが選択される。このベースバンド情報は、
エンコードされピッチ、利得、ボイシング、およびり、
ＰＣパラメータと共に受信機に送出される。受（ｉ　４
１％には残留周波数スペクトルの小部分のみが送信され
るので、受信機は先ず、適当な近似によって全帯域残留
信号を作成しなければならない。この近似残留信号ｕｎ
は次にＬＰＣ合成フィルタ用の励起関数として使用でき
る。受信機での励起信号内の存在しない高い周波数の生
成処理は、Ｉｍ常、高周波再生成と称されている。

高周波再生成にはいくつかの技術がある。最も簡単なも
のとしてはベースバンドを高周波バンドにコピーするこ
とである。、即ち、例えば、１０００１１ｚベースバン
ドを使用すると、ベースバンド内の各単一周波数ｆｋは
受信機で励起信号を再生成するため、周波＃ｆｌ（＋　
１０００　、ｆｋ＋２００等で同一信号強度を提、供す
るようにコピーされる。本発明は、ベースバンド音声コ
ーデングでの高周波再生成のこのようなコピ一方法での
改良を提供するものである。

以下の文献を参考として挙げておく。

Ｖ　Ｉ　Ｓ　ｈＷａｎａｔｈａ　ｎ　ｅ　ｊ　ａ　ｌ　
、′ＩＤｅ　Ｓ　１　ｇｎ　Ｏｆ　ａ　ＲＯｂｕ　Ｓ　
ｔ１３ａｓｅｂａｎｄ　ＬＰＣＣ０ｄｅ　ｆｏｒ　Ｓｐ
ｅＦ３ＣｈＴｒａｎｓｍ１ｓｓ１ｏｎＯｖｅｒ　ａ　９
．６　Ｋｂ　／　ｓｅｃ　Ｎｏ１ｓｙ　Ｃｂａｎｎｅｌ
　、　”　ＩＦＥＥ’Ｉ’ｒａｎｓａｃｔｉｏｎｓ　ｏ
ｎ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　、　ｖａｔ　、　
３０＋Ｔ）ａｇｅ　６６ろ（１９８２）およびＫａｎｇ
　ｅｔ　ａｌ　。

’　Ｍｕｌｔｉｒａｔｅ　Ｐｒｏｃｅｓｓｏｒ　、　”
　Ｎａｖａｌ　Ｒｅ５ｅａｒｃｂＬａｂｏｒａｔｎｒｙ
　Ｒｅｐｏｒｔ　、　Ｓｅｐｔｅｍｂｈｒ　１９７８　
。

従来技術の高周波再生成処理は、合成音声内に望ましく
ない特性をもたらす。低周波数での利用可能な高調波が
コピーされ元来、励起において存在したよシ高い高調波
に代替した場合に、変換された高調波は基本ピッチ周波
数の整数倍に置かれるとは限らない。更に、コピーされ
たバンド間にはフェーズオフセットエラー（ｐＨａｓｅ
　ｏｆｆｓｅｔｅｒｒｏｒ　）があるのが普通である。

これによって、再生成された高周波残留部とベースバン
ド残留部内の強い周波数間には不適当な倍音上の関係が
生ずる０通常・ピッチ不一致（ｐｊ、ｔｃｈ　ｉｎｃｏ
ｎｇｒｕｅｎｃｅ）またはハーモニックオフセットと呼
ばれるこの効果は、処理中の音声メツセージに重ねられ
た、望ましくないパックグラウンｒピッ升として感知さ
れる。この効果は高いピンチの話者には最も顕著である
。しかし、オフィス用品質の音声メッセージシステムで
は、この効果は受入れられない。

従って、本発明の目的はピッチ不一致のないベースバン
ド音声エンコードおよびデコードを実行できる装置を提
供することである。

本発明の他の目的は、ピッチ不一致なしに高品質音声を
再生でき、残留信号のエンコードに最小の帯域幅のみを
必要とする音声コーディングシステムを接供することで
ある。

更に本発明の目的は、ピッチ不一致のない経済的な音声
コーディングシステムを提供することである。

本発明はげ一変帯域幅のベースバンドコーディングシス
テムを教示、する。入力音声の各フレームで、１、ＰＣ
パラメータの他に、入力音声のピッチの近似が得られる
。このピッチ情報を用いて、各７ｖ−ムに対するベース
バンドの実際の幅が、基本ピッチ周波数の整数倍を含む
幅（規格ベースバンド幅に出来るだけ近く）なるように
決定される。

更に、ベースバンドの下端（最初に送出されるＦＦ’Ｉ
”ザンゾル）は、基本ピッチに最も近いＦＦＴサンプル
として選択される。これによって、サブハーモニックピ
ッチ、スプリアスピンチ、および低周波広帯域雑音は、
コピー処理に不都合な影響を４えることができなくなる
。

本発明は音声信号のピッチを追跡す”ることを必要とす
る。これは、下記の説明の如く、種々の方法で行うこと
ができる。

本発明によれば、以下の装置が提供される。すなわち、入力音声信号をエンコードするための入力音声信号エン
コード装置は、前記入力音声信号からＬＰＣＰＣパラメータ応する残留
信号を抽出する線型予測コーディング（ＬＰＣ）分析フ
ィルタと、前記音声イＨ号からピッチ周波数を抽出する前記ピッチ
エステイメータと、前記ピッチ周波数の整数倍になっているベースバンドを
超えるような前記残留信号内の周波数を除くため前記残
留信号をフィルタするための装置と、前記１ｍ、ＰＣパラメータと、前記フィルタされた残留
信号とに対応する情報をエンコードするエンコーダとを
備えたことを特徴とする前記入カ音声信づエンコード装
置。

発明の実施ｔ（（１様不発明全、その実施例を参照して説明する。しかじなが
（）肖業者には当然なように、本発明は多様な修正や変
形においても実施できる。本発明はベースバンド蒔声コ
ーディングで、可変幅のベースバンドの使用を教示する
最初のものと考えられ、−’ｆ、゛れ故、以下に記述す
る特定項目に限定される方法のみならず、全てのベース
バンド音声コーディングに応用「り能である。

本発す」による音声エンコードシステムの一般的構成を
第４図に示す。即ち、音声入力（マイク１０、プリアン
プ１２、およびコンバータ１４から）は−組のＬＰＧパ
ラメータ１８を提供するためＬＰＧ分析フィルタ１６で
処理される。このＬＰＣパラメータ１８は当業者には周
知のように、反射係数によまた値他の等価な一組のパラ
メータでよい。

ＬＰＣパラメー！１８は、エンコーダ２０で直ちにエン
コードされ、エンコードされたパラメータ２２は、チャ
ネル２４を通して記憶されるか送信されるエンコード済
音声信号の一部となる。望ましい実施例では、ＬＰＣパ
ラメータは、エンコーダ後直ちに送信機でデコードされ
、これらのデコードされたパラメータはＬＰＣフィルタ
を実現するために使用される。続いて、該入力は、残留
信号２６を得るため再構成されたＬＰＧフィルタで処理
される。

即ち、望ましい実施例では、ＬＰｃ残留信号２６は、エ
ンコー−およびデコードされたＴ、ＰＣパラ、メータを
基にＬＰＧフィルタを用いて得られる。このことは厳密
には必要というのでなく（つまり、残留信号２６は当初
得られたパラメータ値からも単＋Ｖ’ｌｌに得られるが
）、望ましいのである。これは、受信機が実際に受信す
るエンコード後のパラメータ２２内に含まれるコーディ
ング雑音が残留信号ノロ内でｈ１ｉ償され得るからであ
る。

次に、残留信号２６は、ディスクリートなフーリエ変換
２８の入力としで用いられる。この変換２８は、フルパ
ント周波数サンプル３０を得るため当然なことに、ＦＦ
Ｔが望ましい。

本発明の望ましい実施例では、入力音声は、′１６ビツ
トの精度で、８ｋＨ２でサンプルされる。

１、、’Ｌ）Ｃモデルは、フレーム周期１６　ｍｓとウ
ィンドー長’ｙ　Ｏｍｓの、次数１０に選択される。勿
論、本実施例のこれらの特定な項目は大きく変化させる
ことが百丁能である。例えば、当業者に公知のように、
よシ低いまたはより高い次数のＬＰＣモデル化が可能で
あるし、フレーム周期、ウィンドー長、およびザンープ
ルレートは全て、極めて広い範囲に変化できる。

これらのサンプルおよびモデル技術を用いて、音声の各
フレームは１２０サンプルを含む。従って１２８点を有
するＦＦＴを各フレーム周期毎に計算するのが望ましい
。このことは隣接フレーム間に８点の重複があることを
意味するので、第５図に示すように、望ましくは、台形
のウィンに−が、隣接フレーム間にスムーズなウィンド
ーの重なりを与えるために使用される。従って、このス
テライの結果、ＯｋＨｚから８　ｋｌｌｚまでの１２８
個の周波数領域サンフ０ル点の昏々に、強度と位相を得
る。

続いて、エステイメータ３２が、ピッチ（およびポイシ
ング）データ３３（従来、無声フレームは零ピッチを有
するものとして示される）を検出するために使用される
。ピッチ周波数よシ低い周波数サンプルは捨てられる（
ステップ３６）。

次に、ベースバンド周波数を超える周波数に対応するＦ
Ｉｊ叩出力出力てのサンプルは捨てられる（ステップ３
８）。ベースバンド周波数は入力の２ソチに従って決定
される。

残留信号は、実際、ベースバンドを超える残留信号内の
周波数を除くためにフィルタされる。望ましい実施例で
は、これは周波数領域で行われるが、絶対に必要という
のではない。受信機内で実行されねばならないコピー処
理は望ましくは周波数領域で行われるので、残留信号を
周波数領域でフィルタするのが望ましい。望ましい実施
例では、送信機内および受信機内において、各フレーム
毎に１回のＦ’Ｆ’Ｔ動作を必要とし、これによって、
処理負荷を等しくし、全′処理負荷を減じている。

第４図に示すように、ポイシング（ｖｏｉｃｉｎｇ　）
およびピッチ決定（ステップ３２）のため、および、ピ
ッチパラメータｐ（無声音声を示すため任意に０にセッ
トできる）を作成するためにも入力音−声が使用される
。望ましい実施例では、ピッチ抽出は、Ｇｏｌｄ　−Ｒ
ａｂｉｎｅｒピッチ追跡で行われるが、当業者に周知の
いかなるピッチ抽出技術を代替として用いてもよい。Ｇ
ｏ］、ｄ　−Ｒａｂｊｎｅｒピッチ追跡は、ここで参考
文献として挙げるＡ、ｃｏｕ、ｓ　ｔｒｌｃａｌＳｏｃ
、　ｏｆＡｍｅｒｉｃａ　、　ｖｏｌ　、４６　、　ｐ
ｐ４４２　４４８（１９６９）にお、けるＧｏｌｄおよ
びＲａ　ｂ　ｊ、ｎ　ｅ　ｒによる”　Ｐａｒｎ、１．
ＬｎＪ、　Ｐｒｏｃｅｓｓｉｎｇ　Ｔｅｃｈｎｊ、ｑｕ
ｅｓ　ｆｏｒ’Ｊ：’ｒａｎｓｍｉｔｔｉｎｇ　Ｐｉｔ
ｃｈ　Ｐｅｒｉｏｄｓ　ｏｆ　５ｐｅｅｃｈ　ｉｎ　ｔ
ｈｅ’Ｉ’ｉｍｅ　Ｉ）ｏｍａｉｎ　”に記載されたよ
うに実行される。

別の参考文献としてはＲａｂｉｎｅｒおよび（）ｏｌｄ
による”　Ｔｈｅｏｒｙ　ａｎｄ　Ａｐｐｌｉｃａｔｉ
ｏｎ　ｏｆ　Ｄｉｇｉｔａｌｓｉｇｎａｌ　Ｐｒｏｃｅ
ｓｓｉｎｇ（１９７５）、があるので、特にその１２．
１１章を参照願い度い。

また、ピッチ追跡およびポイシング決定は、１９８６年
４月１６日に出願された米国特許出願第４８４．７１８
号に記載されたようにも実行できる。

入力音声が無声であると、ベースバンド幅は、望ましい
実施例では１０００１Ｔｚとした（広範囲で修正用）規
格ベースパンＰ値に、セットされるたけである（ステッ
プ４０）。

零でないピッチが検出されれば、ピッチｐに関して一致
するようにベースバンドＷ（参照番号４２）が決定され
る。望ましい実施例では、ベースバンド幅は、規格ベー
スバンド幅に最も近いピッチｐの整数倍に等しいように
選択される。即ち、例えば、望ましい実施例では、ベー
スバンド幅は１００　［Ｊ　ｌｌｚであって、こ＼で、
入力音声のフレームのピンチが２２０　Ｅｌｚであれば
、規格ペース２７１２周波数に関するこの周波数の整数
倍で最も近い（直は１　’Ｉ　［Ｊ　ＩＪ　ｌｌｚとな
り、従って、このフレームに対してに、１．　、ベース
バンド幅として１１００１１ｚが選択される１、１）−
まり、ベースバンド幅はＷ　＝＝　ｎｐ　。

即ちピッチ］）の整数値に選ばれるので、ベースバンド
が受（Ｆｒ　Ｉｆｆでコピーされると、ベースピッチと
ベースピッチの高調波がベースピンチの高次高調力砧に
重ねてコピーされｋｐ＋ｗ−（ｋ＋ｎ）ｐとなる。この
例で、局所フレームのピンチが２２０１１７でなく２２
５１１ｚであれば、規格ベースバンド周波数の整数倍に
最も近い周波数は９００　Ｈｚであシ、幅Ｗは９　Ｕ　
Ｕ　ｌｌｚにセットされる。

このステップも広範囲で修正、変化させることができる
ことに留意され度い。例えば、ベースバンド幅は入力音
声のピッチと一致すべきだが、上述の如く、所与の（規
格）ベースバンド幅に最も近い一致したピッ、チである
ように、選択される必要はない。例えば、可変ベースバ
ンド幅を、簡単に、規格幅の次の大きい、または、最大
規格幅の次に小さい一致した幅として定義することもで
きる。

更にステップ３６は、零でないピッチ周波数検出時に使
用され、ｐ未満の周波数を有する全ての周波数サンプル
を除く。このステップは本発明に、は必要でないが、低
周波雑音（１／ｆ雑音等）およびスプリアスピッチやサ
ブハーモニックピッチを防ぐのに役立つので望ましい。

この場合、ベースバンドの高周波数はＷに等しくないこ
とが望ましいが、Ｗ＋ｐであることがよい（ステップ３
８）。

しかし、コ一する周波数のノ・−モニツクの関係がピッ
チに関して保存されている限シにおいて重要ではない。

ベースバンド幅Ｗが定められると、ベースバンド内にあ
る周波数サンプル４４のみが送出される。

即ち、送出される第一周波数サンプルはピッチｐに最も
近い周波数であることが望ましく、最終周波数サンプル
はｐとベースバンド幅Ｗを加えた値に最も近いものであ
ることが望ましく、更に、これら０２個の周波数サンプ
ル間の範囲外の周波数サンプルは送出されない。

この範囲、ｐとＷの間の全ての周波数を送出することは
厳密には必要ではない。即ち、周波数サンプルの強度が
ある最小値よりも高い該範囲内の周波数の部分集合のみ
を送信するため、史にバンド幅を圧縮することが望まし
い。この周波数の部分集合（ノイズフロアを任意に加え
てもよい）は、逆Ｆ’ＦＴ　４６の入力として使用され
る。これは品質をや＼低下させるが、コーディング効率
を太いに上げる。

送出されるべき周波数サンプルをエンコードするには、
ベースバンド周波数サンプル４４は望ましくは極座標に
変換される。更に、ベースバンドサンプルの強度は、ベ
ースバンド周波数サンプルの強度をエンコードするのに
必要な動的範囲に圧縮するため、全ベースバンド（ステ
ップ５２で検出）のＲＭＳエネルギ値５０を用いて規格
化されるのが望ましい（ステン７ゾ４８）。従ってエン
コードされたパラメータの全集合は、ＬＰＣパラメータ
２２、ｚｌ？イシングおよび２ツチｐ５４、ベースバン
ドの淋侶エネル￥５６、およびベースバンド範囲内の各
周波数サンプルの規格化された強度と位相を含んでいる
。

当然ながら、等化な情報がエンコードされている限り、
これらのパラメータ通シにエンコードする必要はない。

即ち、例えば、ベースバンド内の周波数サンプルを、ピ
ッチル１従ってベースバンド幅Ｗが、ベースバンド内の
周波数の個数で示されるようにエンコードすることもオ
プションとして可能である。

このシステムのデコードステージは、デコードされたベ
ースバンド６０１をよシ高いバンド１でコピーすること
によって、フルパント残留信号の近似を再構成する。即
ち、受信機が受信したエンコードされたパラメータの集
合から、上記のように（ステップ０６４で）ピッチｐ３
３１がベースバンド幅ノψ４２１を一意的に定める。

次に送出されたベースバンド内の周波数ザンプルがデコ
ードされ、ベースバンドの間隔でコピーされる（ステッ
プ６６）。即ち、ベースバンド内の各周波数ｆｋは、所
望のフルパント幅（通常４ｋｌｌｚ　）まで、追加の周
波数Ｗ　＋ｆｋ、　２　Ｗ　＋　ｆｋ等」二にマッシさ
れる。コピーされた周波数の強度は尼の周波数の強度に
等しくとることもできるし、または、高い周波数に対し
て強度を線型にまたは指数的に上げることも（Ｊｒｏｌ
ｌｅｄ　ｏｆｆ　）できる。

つ！、シ、次式で示される時間領域内で示したベースバ
ンド周波成分Ａｋｎｘｐ　（ｉ　（ｆｌ（ｔ＋ψｋ））’　（２）を
よ、以下のす０１度の高調波、にコピーされ得る。

Ａｋ　（”Ｘｌ’ｌ　（ｉ　（（ｆｌ（＋　ｎＷ　）　
ｔ＋ψｋ））またはｕＬ　ｎｘｌ＋　（ｉ、　（（ｆｋ
＋　ｎＷ　）　ｔ＋ψｋ））（ろ）１１これらの全ての実施例は、本発明の範囲内のものである
。

本発明のシステムの合成部分に実行できる他の変更は、
コピーされた周波数に対する位相変更である。即ち、コ
ピアされた周波数の位相を、例えば、線型相シフト定数
Ｃに従って変更することも望ましいであろう。こうする
と、ベースバンド周波数は次式のように位相シフトされ
たハーモニック周波数にコピーされる。

Ａｋｅｘｐ　（ｉ　（（ｆｋ＋ｎＷ）ｔ→−ψに＋　ｎ
ｃＷ　）　）　（４）これらの変更は、望ましい実施例
の範囲ではないが、オプションであり、本発明の範囲で
はある。

最も効果的なエンコーディングのために、送信される異
ったパラメータに対して、種々のコーディング技術を使
用できることに留意願い度い。望ましい実施例では以下
のエンコーディングを使用している。

表　１パラメータ　ビット／フレーム　コーディング技術反射
係数　４２　最小偏差法ピンチ　６　ログベースバンドＲＭＳ７　線型／ログＦ’ＦＴマグニチュード　２／マグニチユード　最大エ
ントロピーＦＦ’Ｊ’フェーズ　ろ−４／フエーズ　一
様本発明は、要するに可変レートコーディングなるもの
を提供することに留意願い度い。即ちベースバンドが可
変なので、各フレーム内に送信される周波数ザンゾルの
個数も可変となシ（望ましい実施例）、これによって変
化されたコーディングレートが得られる。しかし、レー
トの変化は、発声の経過の３１′均をすることになシ、
平均コーディングレートは、使用されるベースバンドが
単に各フレーム内の規格ベースバンドである場合に得ら
れるようなコーディングレートに極めて近づく。

送信されたベースバンドが、受信機で、完全な残留信号
の周波数スペクトルを提供するためにコピ゛−されると
、逆ＦＦＴ　４６が残留エネルギ信号をｒＩ■生成する
ために実行される。望ましくは、瞬接フレームの再生成
された残留信号間で、平均処理がオーバララップし、受
信機内のＬＰＣ合成フィルタにスムーズな励起関数を与
える。

これによって、再生成された残留エネルギ信号が得られ
、単純な変換６８によって、デコードされた反射係数１
８′が反転フィルタ係数６９に変えられる。これらは、
第６図に示すように受信機内で音声４８号を再生成する
ために使用される。

即ち、ベースバンドエネルギスカラ５０′はベースバン
ド周波数サンプルの強度を再規格化するのに使用される
（ステップ８０）。更に、ピッチボイシング３３′はベ
ースバンド幅ｗ４２を計算するために使用される。再規
格化されたベースバンド周波数サンプル４４′はコピー
される（ステップ６６）。即ち、各周波数ｆｋの強度と
位相が周波数ｆｋ十Ｗ、ｆｋ＋２Ｗ等の強度と位相を定
める。

これによって、励起関数の全周波数領域表示３０′が得
られ、更にＦＦ″工゛ステップが、この周波数領域情報
を時系列ｕｋ　２６’に変換するために使用される。こ
の推定励起関数ｕｋは、ＬＰＣ反転フィルタ１０の入力
として用いられる。ＬＰＣフィルタ７０は、元の音声人
力１５の適当な推定である推定時系列Ｓｋ　７２を提供
するため、ＬＰＣパラメータ６９に従って、推定励起関
数２６をフィルタする。

オプションとして、エネルギ規格化を行うこともできる
。この場合、フレームエネルギに対応して推定時系列ｓ
ｋを調整するために、精密アンプ段が使用される。

望ましい実施例では、フレームエネルギはエンコーげさ
れたパラメータの１個ではない。しかし残留信号のエネ
ルギはフレームエネルギ（７）推定値を（不完全である
が）提供し、残留エネルギは、コピ′−ステップで乗算
されたベースパンげエネルギによって与えられる周波数
領域情報から検出される。

本発明の可変ベースバンドコーディング法では基本帯域
幅のフレーム間の変化は必らずしもスム・−ズでないこ
とは注意に値する。実際、フレーム間のベースバンド幅
には、大きなギャプが見られるのが典型的である。

ベースバンド幅の計算は多くの誤りを生ずる可能性を含
んでいる。そのような誤りの原因としては、ディスクリ
ートなフーリエ変換操作での限定された分）ｖｔがある
。他の原因としては、ピッチの１９１Ｘ子化がある。ピ
ッチの縫子化は、ピンチ周期がリーンゾル周期の整数倍
であるという本質的な制約がある。

本発明は１１．’７８０において実施されている。

しかし、上記のように、本発明の将来への応用として考
えられる最良のモードは、ミニコンピユータシステムよ
りもマイクロコンピュータシステムであり、望ましくは
、多くのマイクロコンピュータシステムが、音声メツセ
ージおよび音声メール処理のためにローカルネットワー
ク（または電話回線）を介して相互接続された環境であ
る。

即ち、こ＼で実施される本発明は、高精度データ変換（
Ｄ／Ａ　、　Ａ／Ｄ　）、高ギガバイｉ・ノーードディ
スクドライブ、および９６００ポーモデムを使用する。

これと対比して、本発明を用いるマイクロコンピュータ
ベースシステムは、望まシくハずっと経済的に構成され
る。例えば、８０８０ペースシステム（例え、ば’ＰＩ
　Ｐｒｏｆｅｓｓｉｏｎａｌ　Ｃｏｍｐｕｔｅｒ）は、
よｐ低い精度の（例えば、１２ビツトの）データ変換チ
ップ、フロッピディスクまたは小型Ｗｉｎｃｂｅｓｔｅ
ｒディスクドラ・ｉプ、および望ましくはモデム（−ｉ
：たはｃｏｄｅｒ　）と共に使用できる。上記のコーデ
ィングパラメータを用いれば、９６００ポーチ−）・ネ
ルは、はソリアルタイムの音声伝送レートを力えるが、
当然ながら、この伝送レートは、バッファリングと記憶
処理がいずれにしでも必要であるので、音声メール応用
には不適当である。

当業者に自明なように、本発明は広範囲に修正と変更と
がｉ’Ｊ能であり、従って、特許請求の範囲に記載事項
以外には制限されるものではない。

【図面の簡単な説明】

第１図は、本発明が実施されるＬＰＣベースバンド音声
コーディングシステムの一般的ブロック図であり、第２
図は、本発明による、入力音声のピッチで変化されたベ
ースバンド幅の特定例を示す図であり、第６ａ図から第
５Ｃ図は本発明の装置の効果を示すスペクトル図であっ
て、第６ａ図はｊＬの残留信号のスペクトル図、第３ｂ
図は、従来技術による固定バンド幅のベースバンドで再
生成された残留信号のスペクトル図、および、第６Ｃ図
は、本発明による可変幅ベースバンドを用いて再生成さ
れた残留−信号のスペクトル図であり、第４図は本発明
による音声エンコードシステムの−般的構成を示す図で
あｐ１第５図はＦＦＴへの入力を提供するためフレーム
オーバーラビングに使用されるのが望ましいウィンドウ
を示す図であり、第６図は本発明による音声デコード局
の一般的構成を示す図である。符号の説明１０・・マイク、１２・・・プリ′アンゾ、１４・・・
Ａ／Ｄコンバータ、１６・・・ＬＰＣ分析フィルタ、２
０・・・エンコーダ、２４・・・チャネル、２８・・・
ＦＦＴ、３２・・・ピッチおよび音声エステイメータ、
４６・・・ＦＦ’ｒ逆変換、７０・・・ＬＰＣ反転フィ
ルタ、７４・・・Ｄ／Ａコンバータ、７６・・・オーデ
ィオアンプ、１８・・音響変換器。代理人　浅　利　皓図１のｆ拓Ｚ（内容１こ変更なし）Ｆｌグ、／し二°・ノ＋同ン岩ε数（ＨｚＩＦｔ’ｇ、２手続補正書（方式）昭和【７釘　よ月／／［コ特許庁長官殿１、事件の表示１１１′拝［は７年１１１ｒ′ｌ願第２／ヌシご２　号
２、発明の名称六方（Ｌ戸Ａトｔエンつ一ド事Ｒ１３、補正をする者 −Ｉｌ′ｌとの関１．　乃、：’１ｆｌ：１１・１１人
住　所４、代理人氏　名　（６６６９）　ン曳　利　匡５．’ｌ　、：　
、”　：ｌ・ノ５、補正命令Ｑ井１イｊ＋１＋（和、ｇ’ｉ’　年７　ｒｈ　３／　）］６、補
正により増加する発明の数７、袖ｉｌの対象

Claims

【特許請求の範囲】（１）入力音声信号エンコード装置において、アナログ
音声信号を受信するための大刀装置と、前記分析フィル
タは前記大刀音声信号からＬＰＣパラメータと対応する
残留信号を抽出する線形予測コーディング（ＬＰＧ　）
分析フィルタと、前記音声信号からピッチ周波数を抽出
するピッチエステイメータと、前記残留信号内のベースバンドを超える周波数を除くた
め前記残留信号をフィルタするための装置であって、前
記ベースバンド周波数が前記ピッチ周波数の整数倍に選
択される前記フィルタ装置と、前記ＬＰＣパラメータと、前記フィルタされた残留信号
とに対応する情報をエンコードするエンコーダとを備え
た前記入力音声信号エンコード装置。（２、特許請求の範囲第１項において、前記残留信号は
、前記エンコードステップによってエンコードされた前
記ＬＰＣパラメータに従って抽出されるようになってい
る、前記人力音声信号エンコーダ装置。（３）特許請求の範囲第１項において、前記フィルタ装
置は史に、前記ピッチ周波数未満の周波数を４１する前
記残留信号の部分を除くようになっている、前記人力音
声信号エンコーｒ装置。（４）特許請求の範囲第１項において、更に、受信機を
備えており、この受信機は、データチキネルに接続され、前記ＬＰＣパラメータと前
記フィルタされた残留信号に対応する情報をデコードお
よび出力する前記デコーダと、全帯域幅励起信号を生成
するため前記フィルタされた残留信号をコピーするため
の装置と、再構成された音声信号を提供するため前記Ｌ
ＰＣパラメータに従って前記全帯域幅励起信号をフィル
タする＋−，ｐＣＯ−成フィルタとを含む、前記入力音
ノ１１信号エンコーｒ装置。（５）特ｒｔ’ｌ’　ｒ−ｔＩ１１氷の範囲第４項にお
いて、前記フィルタされた残留信号は周波数領域情報の
形でエンコードされ、前記コピー装置は前記フィルタさ
れた残留情報をシフトし続いて逆フーリエ変換を行うよ
うになっている、前記入力音声信号エンコード装置。（６）特許請求の範囲第１項において、前記フィルタさ
れた残留信号は周波数領域情報の形でエンコードされる
ようになっている、前記入力音声信号エンコード装置。（力　特許請求の範囲第１項において、前記ＬＰＣパラ
メータは反射係数である、前記入力音声信号エンコード
装置。（８）特許請求の範囲第４項において、前記ＬＰＣパラ
メータは反射係数である、前記入力音声信号エンコード
装置。（９）　’ｉ？許請求の範囲第１項において、前記エン
コーダは更に、前記ピッチ周波数に対応して情報をエン
コードするようになっている、前記入力音声信号エンコ
ード装置。００）特許請求の範囲第１項において、前記ピッチエス
テイメータは、史に、前記音声信号から音声決定を抽出
し、史に前記エンコーダは前記音声決定に対応１〜゛〔
ＩＨ報をエンコードするようになっている、前記人力音
声信号エンコード装置。（１１）特Ｆｌ’　請求の範囲第１項において、前記Ｌ
ＰＣ分セ１フィルタは更に前記人力音声信号のＲＭＳエ
ネルギを測定し、前記エンコーダは更に、８１ｆ記音声
信弓の前記■往ＩＳエネルギに対応して情報をエンコー
ドするよう釦なっている、前記人力音声信号エン；ｌ−
げ装置。（１１リ　特許請求の範囲第４項において、前記ＬＰＣ
分１）１フイルタは史に前記入力音声信号のｌ（ＭＳエ
ネル・ｒを測定し、前記エンコーダは更に、前記音声信
号の前記１”ＪＡＥ３エネルギに対応して情報をエンコ
ードするようになっている、前記入力音声信号エンニｌ
　−ド　装　置　。（１３）特許請求の範囲第１２項においで、前記デコー
ダは、史に、前記人力音声信号の前記ｉｗｓ信号に対応
して情報をデコードし出力し、史に前記入力音声信号エ
ンコード１．り置には前記ＬＰＣ，＠成フィルタに接続
され、前記入力信号の前記ＲＭＳ信号に対応する前記情
報に従って前記再構成された音声信号を増幅する前記増
幅器が備えられている、前記入力音声信号エンコード装
置。ａ４　人力音声信号エンコード方法において、前記入力
音声信号からＬＰＣパラメータと対応する残留信号を抽
出し、前記ＬＰＣパラメータは予め定められたフレーム
率でフレーム毎に１度抽出されるステップと、前記入力音声信号のピッチを推定するステップと、前記残留信号内のベースバンド周波数を超える周波数を
除くため前記残留信号をフィルタし、前記ベースバンド
周波数は前記ピッチの周波数の整数倍であるステップと
、前記ＬＰＣパラメータと前記フィルタされた残留信号と
に対応する情報をエンコードするステップとを含む前記
方法。ｕ９　特許請求の範囲第１４項において、前記フィルタ
ステップは前記残留信号をフーリエ変換することと、前
記ベースバンド周波数を超える周波数を前記フーリエ変
換された残留信号から除くことを含む前記フィルタステ
ップである、前記方法。（１６）　音声をディジタルで送信する方法において、
入力ｔη声傷信号受信するステップと、前記人力ｊｆ声
倍信号らＬＰＣパラメータと対応する残留信号とを抽出
し、前記ＬＰＧパラメータは各フレーム期間に１度抽出
され、前記フレーム期間は予め定められた時間であるス
テップと、各前記フレーム期間中に前記入力音声信号の
ピッチを推定するステップと、前記残留信号中のベースバンド周波数を超える周波数を
除くため前記残留信号をフィルタし、前記ベースバンド
周波数は前記ピッチ周波数の整数倍であるステップと、前記り、ＰＣパラメータと前記フィルタされた残留信号
とに対応する情報をエンコードするステップと、前記ＬＰＣパラ人−夕と前記フィルタされた残留信号と
に対応する情報をデータチャネルに転送するステップと
、前記データチャネルからの前記ＬＰＧパラメータと前記
フィルタされた残留信号とに対応する情報をデコードす
るステップと、全帯域幅励起信号を生成するため前記フィルタされた残
留信号をコピーするステップと、再構成された音声信号
を提供するため前記ＬＰＣパラメータに対応して前記励
起信号をフィルタするステップとを含む前記方法。