JPS59225635A

JPS59225635A - 極狭帯域通信システム

Info

Publication number: JPS59225635A
Application number: JP59085062A
Authority: JP
Inventors: ブル−ス・エ−・フエツテ
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1983-05-02
Filing date: 1984-04-26
Publication date: 1984-12-18
Also published as: DE3416238A1; DE3416238C2; US4707858A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の背景通信システムでは音声メツセージによって通信すること
が極めて望ましい。デジタル回路を利用することもまた
望ましい。何故なら回路の大部分を単一の集積回路チッ
プに組込むことができ、それは必要とされるサイズおよ
び電力を大幅に縮小又は減少させることができるからで
ある。しかし、人間の声のデジタル懺示は比較的広い帯
域全必要とし、このことは電話線および同種のものなど
の多くの種類の伝送媒体の使用を不可能にしている。

従って、メツセージのビット伝送速度（帯域）′ｆ。

できるだけ低下させる（狭くする）ことが望ましい。′
狭帯域”という用語は伝統的には約２４００ビツト／秒
のビット伝送速度を云う。先行技術のデバイスは３００
ピット／秒以上であり、３００ピット／秒以下のものは
こ＼では６極狭帯域（ｅｘｔｒｅｍｅｌｙｎａｒｒｏｗ
ｂａｎｄ）”と云う。

発明の要約本発明は、人間の言葉が電気信号に変換され分析されて
その特定の人間の話しを特徴づけている性質を表わす信
号を与える極狭帯域通信システムおよび極狭帯域におけ
る通信方法に関する。次にメツセージの語が記憶装置内
の語と比較されて特定の語が認識され、もし所望する場
合にはその語をしゃべった特定の話者が認識される。記
憶装置内の位置を示すＡＳＣＩＩ又は数字コードである
特定語を表わすデジタル信号は人間の話者の声を特徴ツ
ケるデジタル信号と組合せられて３００ビット／秒を大
幅に下回るビット伝送速度を有するメツセージを作シ、
このメツセージが遠隔端末に伝送される。この遠隔端末
は人間の声を合成するのでメツセージはあた））も元の
声を話しているように聞える。６語および特定の話者の
正確な認識を保証するために、ＬＰＣ係数を平均化した
９１話された語と記憶された語との比較が所定の不確実
領域内にある場合には話者の一致（ｉｄｅｎｔｉｌｙ）
についての決定を延期したシ、話者が認識された後に個
々の話者の記憶された語を変更又は更新したシすること
を含む種々の方法および装置が利用される。

本発明の目的は、新らしい改良された極狭帯域通信シス
テムを提供することである。

本発明のもう１つの目的は、極狭帯域によって通信する
新らしい改良された方法を提供することである。

本発明の更にもう１つの目的は、元の話者の声に似た声
を受信端末において合成する極狭帯域通信システムを提
供することである。

本発明の更にもう１つの目的は、話者の認識が非常に正
確な極狭帯域通信システムを提供することである。

本発明のこれらの、およびその他の目的は、添付の明細
書５％許請求の範囲および図面を検討することによって
当業者に明らかになるであろう。

好ましい実施例の説明特に第１図を参照すると、本発明を具体化した極狭帯域
通イぽシステムが示されている。この通信システムは一
般にｌＯと指定されている構内端末、。

および電話線又はそれと同種のものなどの何らかの便利
な手段によって構内端末１０に接続された遠隔端末１２
を含む。構内端末１０は線形予測コード（ＬＰＧ）アナ
ライザボード１５に接続され通常の方法で人間の言葉を
電気信号に変換するマイクロホン１４および語（ワード
）レコグナイザ１６を含む。アナライザボード１５は中
央処理装置（ＣＰＵ）１８と相互接続しておシ、このＣ
ＰＵ１８が今度はキーボード。

フロッピィディスクメモリおよび視覚衣示装置を有する
コンピュータ２０と相互接続している。語しコグナイザ
１６はパーソナルコンピュータ２０と相互接続しておシ
、シンセサイザボード２２もまたコンピュータ２０と相
互接続している。シンセサイザボード２２の出力は、シ
ンセサイザボード２２からの電気信号を音に変換するイ
ヤホーン２３又は何らかの便利な形のトランスジューサ
に接続されている。

第２図はＬＰＣアナライザボード１５の更に詳しいブロ
ック図である。第２図のブロック図は、１９８１年ｌθ
月８日出願の１デジタル音声処理システム”と題する係
属中の米国出願第３０９，６４０号に詳細に記述されて
いる全デジタル音声処理システムを示す。ＬＰＣアナラ
イザは第２図に示しであるシステムの一部にすぎず、１
９８３年３月２９日に発行された”人間の音声分析装置
”と題する米国特許第４　、３７８　、４６９号に詳細
に記述されている。全処理システムが示されているが、
それはそれがアナライザボード１５の一部であシ、ボー
ド１５のシンセサイザ部分を用いて人間の音声を合成す
るとそれが遠隔端末１２に話す話者のような音を出すか
らである。

本システムにおいては、ボード１５のシンセサイザは用
いられないが、それをシンセサイザボード２２０代わシ
に容易に組込みうることは当業者には明らかであろう。

特に第２回を参照すると、マイクロポン１４からのオー
ディオ（ａｕｄｉｏ）がＡＧＯ（自動利得制御）ネット
ワーク２５および低域フィルタ２Ｇを介してサンプルお
よびホールド回路２８に供給される。サンプルおよびホ
ールド回路２８はＡ−Ｄ変換器３０と協動動作し、サン
プルおよびホールド回路２８によってとられた各サンプ
ルの１２ピットデジタル表現を与える。Ａ−Ｄｉ換器３
０からのデジタル我示は上記の参考のために述べた特許
に詳述しであるＬＰＧアナライザ３２に供給される。ア
ナライザ３２はピッチ周波数（ｐｉｔｃｈ　ｆｒｅｑｕ
ｅｕｃｙ　）の範囲および音声トラック長（ｖｏｃａｌ
　ｔｒａｃｋ　ｌｅｎｇｔｈ）　　の推定値（ｅｓｔｌ
ｍａｔｅ）などの人間の声を特徴づける複数の性質、な
らびに周波数領域における声門興奮形（ｇｌｏｔｔａｌ
　ｅｘｃｉｔａ−ｔｉｏｎ　５ｈａｐｅ）　＋　ｏｉ戸
度（ｄｅｇｒｅｅ　ｏｆ　ｈｏａｒｓｅｎｅａｓ　）な
どのオプションの追加性質を表わす複数の性質を供給す
る。アナライザ３２からの信号はまたＲＭＳ値およびＬ
ＰＧ係数の所定数（この実施例では１０）を含む。アナ
ライザ３２からのすべての信号はインタフェース３４を
介してＣＰＵ１８に供給され、記憶され処理される。Ｃ
ＰＵ１８の更に詳細なブロック図は第３図に示されてお
り、とのＣＰＵはこの実施例においてはＣＭＴ　６８Ｋ
　ＣＰＵと指定されている市販のＣＰＵである。第３図
に示したＣＰＵはその動作が当業者には周知である市販
のデバイスであｐ１ブロックの各々は十分に定義されて
いるので、その動作についての具体的な説明はこ＼では
行わない。

語（ワード）レコグナイザ１６には種々のデバイスが用
いられるかもしれないが、本実施例ではＶＲＭ１０２と
指定された市販の品が用いられておシ、第４図とともに
説明する。特に第４図を参照すると、マイクロホン１４
からのオーディオがオーディオ入力に印加され、前置増
幅器あを介して１６フイルタアナライザ３７に供給され
る。この１６フイルタアナライザ３７はごく基本的には
ボード１５の分析機能を行うものであシ、当業者には語
しコグナイザもまたＬＰＧアナライザボード１５からの
信号に基づくことが明らかであろう。アナライザ３７の
出力は整流器３９を介して８ピツ）Ａ−Ｄ変換器４０に
供給される。変換器４０は６８０２マイクロプロセッサ
４２．４ＫＲＡＭ　４３および４ＫＲＯＭ４５と相互接
続している。語しコグナイザ１６はまたバーンナルコン
ピュータ２０と通信するため数個のポートおよびバッフ
ァを有し、このコンピュータ２０の動作は明らかであシ
、と＼に詳述しない。

整流器３９からのスペクトル振幅はＡ−Ｄ変換器４０に
よって５ミリ秒ごとに読取られる。システムは現在のス
ペクトルと暗騒音との間のスペクトル差を測定する。こ
の差が第１しきい値を超えると、システムは語の可能性
のある開始をマークし、スペクトルサンプルは“未知の
”テンプレートメモＩＪ　、　４Ｋ　ＲＡＭ　４３に記
録される。この時点においてスペクトル変化に対する感
度が高くなり、第２しきい値に対して測定された小さい
変化が現在のスペクトルと前の（ｌａｓｔ）スペクトル
との間に起きると新しいスペクトルが記録される。有意
の（ｓｉｇｎｉｆｉｃａｎｔ　）変化が起きる度毎に、
パーソナルコンピュータ２０内に置かれているサンプル
カウンタ（ＮＳＡＭＰ　）は増分される。このカウント
はＭＩＮＳＡＭの最小値に達しなければならない（シス
テムが肩効な語を宣言する前は１６の異なるスペクトル
形、さもないと音は暗騒音と決定される）。有意のスペ
クトル変化を示さない各５ミリ秒フレームは語の終りの
対象（ｃａｎｄｉｄａｔｅ）である。スペクトルの変化
なしに１６０ミリ秒が経過すると、前の（ｌｉｓｔ）ス
ペクトルは語の終シらしいと宣言され、パターン突合せ
が始まる。この手続のための流れ図が第６図に示されて
いる。

プロセスは“アイドル、ノーワードというラベルが付い
ている状態４７で始まる。サンプルカウンタ（ＮＳＡＭ
Ｐ　）は零で始まり、現在のスペクトルと暗騒音との間
の差がしきい値ｔ１を超えると、手続は“語開始、メイ
ビー”というラベルの付いた状態４８に移る。現在のス
ペクトルと前のスペクトルとの差が第２しきい値ｔ２を
超えると、プロセスハ”　Ｎ５ＣＮＧ＝ＮＳＣＮＧ＋１
　’　（！：　イ’）　５　ヘルｏ付イタ円４９に移る
。前のスペクトル変化以後の行間が短いと、プロセスは
円４８に戻って現在のスペクトルと前のスペクトルとの
間のスペクトル変化の測定を続ける。前のスペクトル変
化以後の時間が長いと（この実施例では約１６０ミリ秒
であると）、プロセスは語の終Ｄｌｏｗ、メイピー）と
いうラベルの付いた状態５０に移る。サンプルカウンタ
のカウントが１６よシ小さいと、プロセスは円４７に戻
って再び開始し、スペクトル変化は語としては短がすぎ
ると考えられ、従って暗騒音に違いない。サンプルカウ
ンタのカウントが１６を超えると、プロセスは″’ＥＯ
Ｗ、出力でパターン突合せを行え”というラベルの付い
た状態５２に移る。この場合にはシステムは語が話され
たという決定を下しパターン突合せが始まる。

現在のスペクトルと前のスペクトルとの間のスペクトル
変化がしきい値ｔ２を超えると、手続は６有意のスペク
トルモデルを更新せよ”というラベルの付いた状態５１
に移る。サンプルカウンタＮＳＡＭＰの入力バッファが
いっばいになっていないと、手続はシフトされて次の５
ミリ秒サンプルのために円４８に戻る。サンプルカウン
タＮＳＡＭＰへの入力バッファが大きなスペクトル変化
でいっばいになると、手続は直接に円犯に移シそこで語
の終シであることが決定され、手続は円５２に移シそこ
でパターン突合せが始まる。サンプルカウンタＮＳＡＭ
Ｐの入力バッファが語が小さしためにいっばいにならな
いと、結局はサンプルにスペクトル変化は起きず、プロ
セスは上述した円４９経路を通って移動する。

端末の本実施例においては、所定数の話者（ｓｐｅａｋ
ｅｒｓ　）が端末を用いることを許可されておシ、各話
者が話した所定の語および句のモデルがコンピュータ２
０の７０ツピイデイスクに記憶される。

語しコグナイザ１６はや＼簡略化した実施例における話
者認識を助けるのに用いられる。特定の話者がシステム
に記名（ｌｏｇ）すると、彼は氏名、２ンクおよび通し
番号６又はその他の識別番号により口頭で自己を識別す
る。６語の始めと終りは話された語をパーソナルコンピ
ュータ２０に知らせる語しコグナイザ１６によって認識
される。次に６語の発声された領域にわたって平均した
アナライザボード１５からのＬＰＣパラメータデータの
電気表現がＣＰＵ１８においてコンピュータ２０からの
記憶されたモデルと突合せられる。突合せの結果はしき
い値と比較されて、話者の身元に関する１票（ｖｏｔｅ
　）を発生させる。

ユーザがシステムの使用を続行すると、コンピュータ２
０は可能性のある次の語の数が比較的少ない文中の場所
を認識するが、これについてこ＼で更に詳しく説明する
。これらの構文ノードにおいて、パーソナルコンピュー
タ２０はこれらの次の可能性のある語のために全話者か
らテンプレート（記憶された語（ワード）のモデル）を
ロードする。

次の語が話されると、語しコグナイザはこの事実を認識
し、システムにロードされたテンプレートとたった全話
された語の表現とを比較する。次にレコグナイザはコン
ピュータ２ｏの視覚表示装置上に話された語および話者
を示す。コンピュータ２゜は可能性のある許可された各
話者に対して１つのポートカウンタ（ｖｏｔｅ　ｃｏｕ
ｎｔｅｒ）を含む。示された話者のカウンタは認識され
た６語ごとに最大郷まで増分され、示されない全話者の
カウンタは下限零まで減分される。例えば、分類された
情報（ｃｌａｓｓｉｆｉｅｄ　ｉｎｆｏｒｍａｔｉｏｎ
）が要求された場合には、これらのカウンタはチェック
され、識別された話者は１５を超えたカウントを有する
話者であシ、他方、他のすべての話者は８を下回るカラ
ントラ有しなければ々らない。これらの基準が満たされ
ないと、その分類された情報は否定される。システムは
適当なりリアランスをもったクリアウィナ−（ｃｌｅａ
ｒ　ｗｉｎｎｅｒ）　　が示されるまで識別アルゴリズ
ムを続けてユーザにランダムワードを話すように要求す
ることもできるし、或いは通常の使用法を続けることも
でき、そして後になってその情報を再び要求することも
できる。このシステムは最大１０語の範囲内で話者の変
更を認識することができる。また、話者識別アルゴリズ
ムは一般にユーザには見えず、話者は自分の声が通常の
使用法の期間中に分析されつつあることに気づかない。

確認サブシステムソフトウェアはコンピュータ２０のフ
ロッピィディスクからダウンロード（ｄｏｗｎｌｏａｄ
）され、チェックサム（ｃｈｅｃｋｓｕｍ）テストがそ
のロードを確かめる。既知の各話者の次の統計モデルも
またダウンロードされる。未知の話者が話している間に
、ＬＰＧ反射係数の長期統計が話しの最後の３０秒間に
わたって実時間で計算される。

この統計はピッチおよび最初の１０の反射係数の平均お
よび標準偏差を含む。語しコグナイザ１６によって決定
される６語の終りに、ＣＰＵは未知の話者と各話者のモ
デルとの間のＭｅｈａ　ｌ　ａｎｏｂ　ｉ　ｓ距離（メ
ートル）を計算する。Ｍｅｈａｌａｎｏｂ　ｉ　ｓ距離
は既知の話者と一般の人々とを区別する各測定回イベク
トルの能力によって距離に重みをつける（ｗｅｌｇｈｔ
）。

最後に、ＣＰＵは最もよく一致した話者を報告し、その
話者の標準偏差によって比率で示されｆＣＭｅｈａ−１
ａｎｏｂｉ８距離によって、また次に最も近い一致との
比率によって推定値の正確度を決定する。あいまいな結
果がでると、即ちその一致が所定の不確実領域内にある
と、システムに決定を延期させて正確度を高める。最後
に、使用セツションの終りに、話者はこの使用セツショ
ンの複合統計によって音声モデルを更新するオプション
を与えられる。

ＬＰＧアラナイザボード１５およびＣＰＵ１８はまた一
定の話者のこれらの統計を集めこの話者をモデルとする
固肩ベクトルおよび値を計算できる訓練モード（ｔｒａ
ｉｎｌｎｇ　ｍｏｄｅ）をＭする。次にシステムはこの
データをアップロード（ｕｐｌｏａｄ）　してコンピュ
ータ２０のフロッピィディスクに記憶することができる
。語しコグナイザ１６はシステムの別個のユニットとし
て図示しであるが、この語しコグナイザはＬＰＧアナ長
イザボード１５およびＣＰＵ１８に容易に組込むことが
できるのでこれらのユニットは語の開始および停止を認
識し、特定の語を認識し、話者を認識するタスクを行い
うることが当業者によって理解される。更に、認識され
る各特定語を一般的に衣わすテンプレート又は語モデル
は、認識される各話者によって話される６語に対する語
モデルの代シに用いることができ、この場合には特定語
のみが装置によって認識され、谷特定話者は認識されな
い。

本システムを軍事用に用いた場合の典型的な例を第７図
および第８図に関連して説明する。この特定の実施例に
おいては、システムは軍隊、支援部隊および地理的環境
の地理的モデルの更新にユーザを関与させるように設計
されている。この実施例の基本的シナリオにおいては、
ユーザは端末からの情報を要求し、もしそのユーザが適
当に認識されクリ、アされると、情報はどこかの遠隔情
報源から供給される。この特定の例では、システムはス
クリーンの４だけ左、右、上又は下にパン（ｐａｎ　）
　　することができ、或いはｎマイルだけ北。

南、東又は西にパンすることができるとみなされている
。このシステムはまたズームインおよびズームアウトす
ることができ、国、州、市、境界。

道路および丘（のうちの１つ）などの重要な地理的特徴
を表示する。この特定の応用例においては、第７図に示
すように５５語およびネットワークの各ノードに意味的
関連をもった構文ネットワークを含む。構文ネットワー
クはシステムが理解するすべて文の文脈においてシステ
ムに既知の′すべての語から可能性のある次の語の選択
を相互作用的に指導する。いつでも話者は１クリア”と
云って再び文を始めることができるし、又は、“消去”
と云って文中の１語をバンクアップすることができる。

”　ｕｈ”、“Ｔｈｅ　”などの語、呼吸による雑音お
よび“舌打ち音”はシステムによシ記憶され意図的に無
視されるモデル飴である。システムはユーザが話すとそ
のユーザを相互作用的に援助する。

システムがユーザに対し文を始めることを期待しつつあ
る（語しコグナイザ１６が第１語の開始を認識する）と
、システムは第８図人に示すように文のすべての可能性
のある第１語を表記する。第１語を話した後に、ＣＲＴ
は第８図Ｂに示すように検出した語を表記し、すべての
可能性のある第２語を表記する。これは文の終シまで進
み、その時にデータはアセンブルされ、極狭帯域通信チ
ャネルを通じて伝送される。いつでも話者はどのような
次の語が期待されているかを知ることができる。

コンピュータ２０は語の一致の正確度を監視する。

何らかの語が適合しきい値以下になると、シンセサイザ
ボード２２は文を反復して実行前の確認を要求する。す
べての語が非常に明瞭に認識されると、シンセサイザボ
ード２２は完了すると文をエコーし、一方コンピュータ
はメツセージを送９つつある。

話された６語が実行（ｅｘｅｒｃｉａｅ　）されると、
それはコンピュータ２０内の記憶装置に移シ、そこで全
メツセージは最小数のビット又は最小に近い数のビット
でデジタル信号にコード化される。必要とされる記憶装
置の量を小さくするため語はコード化された形で記憶で
きる。システムはそれが認識できる所定数の語、即ち所
定数の語モデルを含むので、コーディングは６語に対す
る特定数からなる。第８図の例を用いると、語”　５ｈ
ｉｆｔ　ｆｏｃｕｓ（移動焦点）″は数１２金石し、語
“５ｏｕｔｈ　（雨）＃は数１８を有し、数″′２＃は
数２１によって表わされる等々である。これらの語は遠
隔端末において同じ数で表わされるので、パーソナルコ
ンピュータ２０はこれらの数をデジタル信号に変換し、
その信号を遠隔端末校に伝送し、そこでデジタル信号は
再び数に変換され、次に語に変換される。

本実施例に用いられている第２のコーディング法は、６
語の各文字をＡＳＣＩ　Ｉコードに変換する方法である
。このコーディング法は１面画９や＼多くビット数を必
要とするが、いくつかの利点をもっている。それらの利
点の１つは、伝送された信号を今日の電気的に動作する
印刷装置の大部分に直接に伝送できるととである。ＡＳ
ＣＩＩコードにおいては、各文字は８ビツトで表わされ
る。従って、第８図のサンプルメツセージが”　５ｈｉ
ｆｔ　ｆｏｃｕｓｓｏｕｔｈ　２２　ｍ１ｌｅｓ　（移
動焦点南２２マイル）″であるとすると、ＡＳＣＩＩコ
ードでこのメツセージを伝送するのに必要なビット数は
２６０である。話者の声の性質を説明するのに約２０ビ
ツトが用いられ、同期、誤シ訂正およびオーバヘッド信
号が更に約Ｊビットを必要とすると、全メツセージは約
３１０ビツトの長さになる。従って、約４秒間のメツセ
ージｉ　３１０ビツト又は約７７ビツト／秒で伝送′で
きる。

上述したように、６語が特定数ヲ肩するコーディングシ
ステムを用いると、下記の理論的根拠が適用される。話
されたメツセージがすべてが同じ確率の１００の可能な
メツセージ型のうちの１つとすると、メツセージ文法構
造を記述するのには７ビツトが必要である。メツセージ
のいろいろな位置を満たすのに選択される２００の任意
選択面がシステムにあると、どの語がメツセージ中の各
任意選択位置に用いられたかを８ビツトが定義する。

上記に用いたサンプルメツセージ（”　５ｈｉｆｔ　ｆ
ｏｃｕｓｓｏｕｔｈ　２２　ｍ１ｌｅｓ　（移動焦点南
２２マイル）〕の場合には、７ビツトはメツセージ構文
を定義し、４０ビツトは敷詰のうちの１つが選択される
メツセージ内の場所におけるその５つの任意選択語全定
義し、約２０ビツトは話者の声の性質を説明し、全部で
６７ビツトとなる。今度色また同期、誤シ訂正およびオ
ーバヘッド信号用が約冊ビットとすると、メツセージ全
体は約９７ビツト又は約２５ビツト／秒となる。

この特定の実施例のシンセサイザボード２２ハマイクロ
ミント社によって識別品目名Ｍｉｃｒｏｖｏｘ　　シン
セサイザとして市販されている品物である。

ＬＰＧアナライザボード１５はシンセサイザ（第２図参
照）を含み、話者認識がシステムに含まれ合成された声
が元の話者の声と同じような音を出すことが所望される
場合にはシンセサイザボード２２の代シに用いられるこ
とが勿論当業者には理解されるであろう。しかし、この
シンセサイザはその簡潔性と理解しやすさの故にこ＼に
記述しである。

シンセサイザボード２２の記述から、当業者はＬＰＧア
ナライザボード１５に組込まれたシンセサイザの動作を
完全に理解するであろう。ＬＰＧアナライザボード１５
に含まれるシンセサイザの更に評し込記述は、上記の米
国特許出願および１９８１年５月２６日付の１平滑線形
補間ｔＯＷする言語シンセサイザと題する米国特許出願
第２６７．２０３号から得られる　　　　□であろう。

シンセサイザボード２２はＡＳＣＩＩテキストを口語英
語に変換する独立知能〜イク・プ・セッサであ　　　　
する。このシンセサイザボード２２はＭ　６５０２マイ
クロプロセッサ５５．直列インタフェース用９６００　
ＢＰＳ　　　　　　’ＵＡＲＴ　５７　、　２にビット
のメモリを有するランダムアクセースメモリ（ＲＡＭ）
　５９　、　８　Ｋビットを１１する消去可能プログラ
マブル固定メモＩＪ　（ＥＰＲＯＭ　）　６１　。

５ＣＯＩ　Ｖｏｔｒａｘ音声シンセサイザｆ５３．クロ
ックおよびプログラマブル分周器６５および種々のバッ
ファ、制御装置および増幅器からなる。シンセサイザボ
ード２２は連続入力データを語に分析する（ｐａｒ−ｓ
ｅ）アルゴリズムを使用し、次に英語の発音原則を用い
てスペリングから音素（ｐｈｏｎｅｍｅ）の流れを発生
させる。この音素の流れが次に言語シンセサイザ６３を
制御する。言語シンセサイザ６３は特定の持続時間およ
びスペクトルの一連の１〜４定常音（ｓｔｅａｄｙ　５
ｔａｔｅ　５ｏｕｎｄｓ）として音素をモデルとする固
定メモリを含む。シンセサイザボード２２の動作は、言
語シンセサイザ６３のマイクロプロセッサ５５および音
素言語合成において実施される文字−音素原則（ｌｅｔ
ｔｅｒ　ｔｏ　ｐｈｏｎｅｍｅ　ｒｕｌｅｓ）に基づい
ている。マイクロプロセッサ５５は最高１５００文字を
直列インタフェースポート５７かう内部ページバッファ
に読取る。マイクロプロセッサ５５は次に句読点によっ
て句群を、スペース区切記号によって面金識別する。マ
イクロプロセッサ５５は句群境界を用いて適当な平叙又
は疑問文のピッチおよび持続時間の変化を句に適用する
。１時に１語づ＼谷文字は語を横切って左から右へ走査
される。左および右文脈要件（隣接文字）が満たされる
場所に文字が発見されると、その文字に対する最初の適
用可能な原則が適用されてそれを音素に翻訳する。

言語シンセサイザ６３はデジタルコードトランスレータ
および音声トラックの電子モデルから成るＣＭＯＳチッ
プである。内部には音声トラックモデル全調整して言語
を合成するスペクトルパラメータのマトリックスに６ビ
ツト音素および２ビツトピツチコードを翻訳する音素制
御装置がある。音素の出力ピッチはクロックおよび分周
期６５からのクロック信号の周波数によって制御される
。ピッチの微妙な変化を引き出して抑揚（ｉｎｆｌｅｃ
ｔｉｏｎ　）に加えることができ、この抑揚は合成され
た音声が単調な、又はロボットのような響きを与えるの
を防止する。本アルゴリズムは英語テキストｔ−言語に
変換するが、そのテキスト−言語アルゴリズムは他の言
語用としても書くことができることが当業者によって理
解される。６４音素が英語全定義し、各音素はマイクロ
プロセッサＩから音声シンセサイザ６３に伝送される６
ビツトコードによって表わされる。次に音素制御装置が
そのビラトラ上述したパラメータに翻訳する。

合成言語音が識別された元の話者の声に非常によく似た
ものにするために、いろいろなコードが通信端から受信
端に伝送され、それはこれらの語についての話者の特定
発音データを伝える。このことは受信機が音声トラクト
長および平均ピッチ範囲を探索するのに用いる話者識別
コードを送るだけで達成される。その代わシに、通信機
は文の全長にわたるピッチ輪廓および音声トラクト長変
更子を説明する多項式係数を送ってもよい。これらの多
項式係数によシ適当なピッチ範囲、ピッチ衰退（ｄｅｃ
ｌｉｎａｔｌｏｎ）および強勢（ｅｍｐｈａｓｉｓ　）
　ｋきわめて少数のビットで送ることができる。音声ト
ラクト長変更子によってシンセサイザはＬＰＣ反射係数
の多項式補間を行って音声トラフトラ文字が原則を確か
める（ｓｏ　ｎｄ）のに用いる記憶されたモーゾルのそ
れよりも長くしたシ、又は短かくしたシすることができ
る。

上記に極狭帯域通信システムを開示したが、そこでは各
端末は゛人間の声を３００ビット／秒以下の速度をもつ
デジタル信号に変換する。更に、この端末は人間の戸を
衣わすデジタル信号を受信し、元の話者と同じ性質をも
った人間の声を合成することができる。更に、各端末は
非常に高い正確度で語および特定の話者を識別できる。

本明細書において本発明の′特定の実施例を示し説明し
たが、当業者には更に変形および改良が可能である。従
って本発明は上記に示した特定の形に限定されるもので
はないことが理解すべきであシ、従って添付の特許請求
の範囲において本発明の精神および範囲を逸脱しないす
べての変更を含むことを意図するものである。

【図面の簡単な説明】

第１図は、本発明を組込んだ極狭帯域通信システムの簡
略化したブロック図である。第２図は、第１図に示した装置のＬＰＣアナライザ部分
のブロック図である。第３図は、第１図に示した装置のＣＰＵ部分のブロック
図である。第４図は、第１図に示した装置の語（ワード）レコグナ
イザ部分のブロック図である。第５図は、第１図に示した装置のシンセザイザ部分のブ
ロック図である。第６図は、第４図の語（ワード）レコグナイザにおける
語識別の始めと終ｐを示す流れ図である。第７図は、典型的な軍事用に設計された流れ図／構文樹
形（トリー）図を示す。第８図は、第７図の流れ図と組合せた４つの典型的な表
示を示す。第１図において、比は遠隔端末、１５はＬＰＣアナライザボード、１６は
語しコグナイザ、１８は６８　Ｋ　ＣＰＵ　、　２０は
コンピュータ、２２はシンセザイザボード。特許出願人　　モトローラ・インコーボレーテツド代理
人弁理士　玉　蟲　久　五　部図面の、争内−（内ｉ’ｉ’Ｌ：変更なし）Ｆ’ＩＣ，
１喝　　　・ °１（１々七く口費０１１さ手続補正書昭和５９年　５月２５日昭和５９年特許願第０８５０６２号２、発明の名称極狭帯域通信システム３、補正をする者事件との関係　　特許出願人住所　　アメリカ合衆国イリノイ州６．０１９６．シャ
ンハーグ。イー・アルゴンフィン・ロード、　　１３０３番名称　
　モトローラ・インコーボレーテノド代表者　ビンセン
ト・ジェイ・ラウナー４、代理人６、補正の対象　図面（浄書、内容に変更なし）７、補
正の内容　　別紙の通り

Claims

【特許請求の範囲】１、人間の声を電気信号に変換するトランスジューサと
、前記トランスジューサから電気信号を受信し、人間の声
を特徴づける複数の性質を表わす複数の信号を供給する
ように接続されている分析手段と、複数の話された語ヲ
嵌わす信号をそこに記憶させる記憶手段と、前記分析手段および前記記憶手段に接続され、複数の信
号のうちの少なくとも一部分を受信し、複数の信号のう
ちの受信した部分と記憶されている信号と全比較し、特
定の話された語を表わす信号を供給する語認識手段と、前記語認識手段に接続され、特定の話された語全衣わす
信号を受信し、受信した信号音３００ピント／秒以下の
速度’に！するデジタル形に変換するデジタル変換手段
と、を具える極狭帯域通信システム。Ｚ　語認識手段は、話された語の始めと終シを認識する
手段を具える特許請求の範囲第１項記載の極狭帯域通信
システム。３、　記憶手段は、複数の相異なる個人にょシ話された
複数の語を表わす記憶された語を含み、システムは、更
に記憶手段に接続された話者認識手段及び分析手段を具
え、前記分析手段からの複数の信号の少なくとも一部を
受信し、受信した信号を記憶された信号と比較し、相異
なる個人の特定の１人によシ話された特定の語を表わす
信号を供給する特許請求の範囲第１項に記載の極狭帯域
通信システム。