JPS59225635A - 極狭帯域通信システム - Google Patents

極狭帯域通信システム

Info

Publication number
JPS59225635A
JPS59225635A JP59085062A JP8506284A JPS59225635A JP S59225635 A JPS59225635 A JP S59225635A JP 59085062 A JP59085062 A JP 59085062A JP 8506284 A JP8506284 A JP 8506284A JP S59225635 A JPS59225635 A JP S59225635A
Authority
JP
Japan
Prior art keywords
word
words
speaker
spoken
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59085062A
Other languages
English (en)
Inventor
ブル−ス・エ−・フエツテ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JPS59225635A publication Critical patent/JPS59225635A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の背景 通信システムでは音声メツセージによって通信すること
が極めて望ましい。デジタル回路を利用することもまた
望ましい。何故なら回路の大部分を単一の集積回路チッ
プに組込むことができ、それは必要とされるサイズおよ
び電力を大幅に縮小又は減少させることができるからで
ある。しかし、人間の声のデジタル懺示は比較的広い帯
域全必要とし、このことは電話線および同種のものなど
の多くの種類の伝送媒体の使用を不可能にしている。
従って、メツセージのビット伝送速度(帯域)′f。
できるだけ低下させる(狭くする)ことが望ましい。′
狭帯域”という用語は伝統的には約2400ビツト/秒
のビット伝送速度を云う。先行技術のデバイスは300
ピット/秒以上であり、300ピット/秒以下のものは
こ\では6極狭帯域(extremelynarrow
band)”と云う。
発明の要約 本発明は、人間の言葉が電気信号に変換され分析されて
その特定の人間の話しを特徴づけている性質を表わす信
号を与える極狭帯域通信システムおよび極狭帯域におけ
る通信方法に関する。次にメツセージの語が記憶装置内
の語と比較されて特定の語が認識され、もし所望する場
合にはその語をしゃべった特定の話者が認識される。記
憶装置内の位置を示すASCII又は数字コードである
特定語を表わすデジタル信号は人間の話者の声を特徴ツ
ケるデジタル信号と組合せられて300ビット/秒を大
幅に下回るビット伝送速度を有するメツセージを作シ、
このメツセージが遠隔端末に伝送される。この遠隔端末
は人間の声を合成するのでメツセージはあた))も元の
声を話しているように聞える。6語および特定の話者の
正確な認識を保証するために、LPC係数を平均化した
91話された語と記憶された語との比較が所定の不確実
領域内にある場合には話者の一致(identily)
についての決定を延期したシ、話者が認識された後に個
々の話者の記憶された語を変更又は更新したシすること
を含む種々の方法および装置が利用される。
本発明の目的は、新らしい改良された極狭帯域通信シス
テムを提供することである。
本発明のもう1つの目的は、極狭帯域によって通信する
新らしい改良された方法を提供することである。
本発明の更にもう1つの目的は、元の話者の声に似た声
を受信端末において合成する極狭帯域通信システムを提
供することである。
本発明の更にもう1つの目的は、話者の認識が非常に正
確な極狭帯域通信システムを提供することである。
本発明のこれらの、およびその他の目的は、添付の明細
書5%許請求の範囲および図面を検討することによって
当業者に明らかになるであろう。
好ましい実施例の説明 特に第1図を参照すると、本発明を具体化した極狭帯域
通イぽシステムが示されている。この通信システムは一
般にlOと指定されている構内端末、。
および電話線又はそれと同種のものなどの何らかの便利
な手段によって構内端末10に接続された遠隔端末12
を含む。構内端末10は線形予測コード(LPG)アナ
ライザボード15に接続され通常の方法で人間の言葉を
電気信号に変換するマイクロホン14および語(ワード
)レコグナイザ16を含む。アナライザボード15は中
央処理装置(CPU)18と相互接続しておシ、このC
PU18が今度はキーボード。
フロッピィディスクメモリおよび視覚衣示装置を有する
コンピュータ20と相互接続している。語しコグナイザ
16はパーソナルコンピュータ20と相互接続しておシ
、シンセサイザボード22もまたコンピュータ20と相
互接続している。シンセサイザボード22の出力は、シ
ンセサイザボード22からの電気信号を音に変換するイ
ヤホーン23又は何らかの便利な形のトランスジューサ
に接続されている。
第2図はLPCアナライザボード15の更に詳しいブロ
ック図である。第2図のブロック図は、1981年lθ
月8日出願の1デジタル音声処理システム”と題する係
属中の米国出願第309,640号に詳細に記述されて
いる全デジタル音声処理システムを示す。LPCアナラ
イザは第2図に示しであるシステムの一部にすぎず、1
983年3月29日に発行された”人間の音声分析装置
”と題する米国特許第4 、378 、469号に詳細
に記述されている。全処理システムが示されているが、
それはそれがアナライザボード15の一部であシ、ボー
ド15のシンセサイザ部分を用いて人間の音声を合成す
るとそれが遠隔端末12に話す話者のような音を出すか
らである。
本システムにおいては、ボード15のシンセサイザは用
いられないが、それをシンセサイザボード220代わシ
に容易に組込みうることは当業者には明らかであろう。
特に第2回を参照すると、マイクロポン14からのオー
ディオ(audio)がAGO(自動利得制御)ネット
ワーク25および低域フィルタ2Gを介してサンプルお
よびホールド回路28に供給される。サンプルおよびホ
ールド回路28はA−D変換器30と協動動作し、サン
プルおよびホールド回路28によってとられた各サンプ
ルの12ピットデジタル表現を与える。A−Di換器3
0からのデジタル我示は上記の参考のために述べた特許
に詳述しであるLPGアナライザ32に供給される。ア
ナライザ32はピッチ周波数(pitch frequ
eucy )の範囲および音声トラック長(vocal
 track length)  の推定値(estl
mate)などの人間の声を特徴づける複数の性質、な
らびに周波数領域における声門興奮形(glottal
 excita−tion 5hape) + oi戸
度(degree of hoarseneas )な
どのオプションの追加性質を表わす複数の性質を供給す
る。アナライザ32からの信号はまたRMS値およびL
PG係数の所定数(この実施例では10)を含む。アナ
ライザ32からのすべての信号はインタフェース34を
介してCPU18に供給され、記憶され処理される。C
PU18の更に詳細なブロック図は第3図に示されてお
り、とのCPUはこの実施例においてはCMT 68K
 CPUと指定されている市販のCPUである。第3図
に示したCPUはその動作が当業者には周知である市販
のデバイスであp1ブロックの各々は十分に定義されて
いるので、その動作についての具体的な説明はこ\では
行わない。
語(ワード)レコグナイザ16には種々のデバイスが用
いられるかもしれないが、本実施例ではVRM102と
指定された市販の品が用いられておシ、第4図とともに
説明する。特に第4図を参照すると、マイクロホン14
からのオーディオがオーディオ入力に印加され、前置増
幅器あを介して16フイルタアナライザ37に供給され
る。この16フイルタアナライザ37はごく基本的には
ボード15の分析機能を行うものであシ、当業者には語
しコグナイザもまたLPGアナライザボード15からの
信号に基づくことが明らかであろう。アナライザ37の
出力は整流器39を介して8ピツ)A−D変換器40に
供給される。変換器40は6802マイクロプロセッサ
42.4KRAM 43および4KROM45と相互接
続している。語しコグナイザ16はまたバーンナルコン
ピュータ20と通信するため数個のポートおよびバッフ
ァを有し、このコンピュータ20の動作は明らかであシ
、と\に詳述しない。
整流器39からのスペクトル振幅はA−D変換器40に
よって5ミリ秒ごとに読取られる。システムは現在のス
ペクトルと暗騒音との間のスペクトル差を測定する。こ
の差が第1しきい値を超えると、システムは語の可能性
のある開始をマークし、スペクトルサンプルは“未知の
”テンプレートメモIJ 、 4K RAM 43に記
録される。この時点においてスペクトル変化に対する感
度が高くなり、第2しきい値に対して測定された小さい
変化が現在のスペクトルと前の(last)スペクトル
との間に起きると新しいスペクトルが記録される。有意
の(significant )変化が起きる度毎に、
パーソナルコンピュータ20内に置かれているサンプル
カウンタ(NSAMP )は増分される。このカウント
はMINSAMの最小値に達しなければならない(シス
テムが肩効な語を宣言する前は16の異なるスペクトル
形、さもないと音は暗騒音と決定される)。有意のスペ
クトル変化を示さない各5ミリ秒フレームは語の終りの
対象(candidate)である。スペクトルの変化
なしに160ミリ秒が経過すると、前の(list)ス
ペクトルは語の終シらしいと宣言され、パターン突合せ
が始まる。この手続のための流れ図が第6図に示されて
いる。
プロセスは“アイドル、ノーワードというラベルが付い
ている状態47で始まる。サンプルカウンタ(NSAM
P )は零で始まり、現在のスペクトルと暗騒音との間
の差がしきい値t1を超えると、手続は“語開始、メイ
ビー”というラベルの付いた状態48に移る。現在のス
ペクトルと前のスペクトルとの差が第2しきい値t2を
超えると、プロセスハ” N5CNG=NSCNG+1
 ’ (!: イ’) 5 ヘルo付イタ円49に移る
。前のスペクトル変化以後の行間が短いと、プロセスは
円48に戻って現在のスペクトルと前のスペクトルとの
間のスペクトル変化の測定を続ける。前のスペクトル変
化以後の時間が長いと(この実施例では約160ミリ秒
であると)、プロセスは語の終Dlow、メイピー)と
いうラベルの付いた状態50に移る。サンプルカウンタ
のカウントが16よシ小さいと、プロセスは円47に戻
って再び開始し、スペクトル変化は語としては短がすぎ
ると考えられ、従って暗騒音に違いない。サンプルカウ
ンタのカウントが16を超えると、プロセスは″’EO
W、出力でパターン突合せを行え”というラベルの付い
た状態52に移る。この場合にはシステムは語が話され
たという決定を下しパターン突合せが始まる。
現在のスペクトルと前のスペクトルとの間のスペクトル
変化がしきい値t2を超えると、手続は6有意のスペク
トルモデルを更新せよ”というラベルの付いた状態51
に移る。サンプルカウンタNSAMPの入力バッファが
いっばいになっていないと、手続はシフトされて次の5
ミリ秒サンプルのために円48に戻る。サンプルカウン
タNSAMPへの入力バッファが大きなスペクトル変化
でいっばいになると、手続は直接に円犯に移シそこで語
の終シであることが決定され、手続は円52に移シそこ
でパターン突合せが始まる。サンプルカウンタNSAM
Pの入力バッファが語が小さしためにいっばいにならな
いと、結局はサンプルにスペクトル変化は起きず、プロ
セスは上述した円49経路を通って移動する。
端末の本実施例においては、所定数の話者(speak
ers )が端末を用いることを許可されておシ、各話
者が話した所定の語および句のモデルがコンピュータ2
0の70ツピイデイスクに記憶される。
語しコグナイザ16はや\簡略化した実施例における話
者認識を助けるのに用いられる。特定の話者がシステム
に記名(log)すると、彼は氏名、2ンクおよび通し
番号6又はその他の識別番号により口頭で自己を識別す
る。6語の始めと終りは話された語をパーソナルコンピ
ュータ20に知らせる語しコグナイザ16によって認識
される。次に6語の発声された領域にわたって平均した
アナライザボード15からのLPCパラメータデータの
電気表現がCPU18においてコンピュータ20からの
記憶されたモデルと突合せられる。突合せの結果はしき
い値と比較されて、話者の身元に関する1票(vote
 )を発生させる。
ユーザがシステムの使用を続行すると、コンピュータ2
0は可能性のある次の語の数が比較的少ない文中の場所
を認識するが、これについてこ\で更に詳しく説明する
。これらの構文ノードにおいて、パーソナルコンピュー
タ20はこれらの次の可能性のある語のために全話者か
らテンプレート(記憶された語(ワード)のモデル)を
ロードする。
次の語が話されると、語しコグナイザはこの事実を認識
し、システムにロードされたテンプレートとたった全話
された語の表現とを比較する。次にレコグナイザはコン
ピュータ2oの視覚表示装置上に話された語および話者
を示す。コンピュータ2゜は可能性のある許可された各
話者に対して1つのポートカウンタ(vote cou
nter)を含む。示された話者のカウンタは認識され
た6語ごとに最大郷まで増分され、示されない全話者の
カウンタは下限零まで減分される。例えば、分類された
情報(classified information
)が要求された場合には、これらのカウンタはチェック
され、識別された話者は15を超えたカウントを有する
話者であシ、他方、他のすべての話者は8を下回るカラ
ントラ有しなければ々らない。これらの基準が満たされ
ないと、その分類された情報は否定される。システムは
適当なりリアランスをもったクリアウィナ−(clea
r winner)  が示されるまで識別アルゴリズ
ムを続けてユーザにランダムワードを話すように要求す
ることもできるし、或いは通常の使用法を続けることも
でき、そして後になってその情報を再び要求することも
できる。このシステムは最大10語の範囲内で話者の変
更を認識することができる。また、話者識別アルゴリズ
ムは一般にユーザには見えず、話者は自分の声が通常の
使用法の期間中に分析されつつあることに気づかない。
確認サブシステムソフトウェアはコンピュータ20のフ
ロッピィディスクからダウンロード(download
)され、チェックサム(checksum)テストがそ
のロードを確かめる。既知の各話者の次の統計モデルも
またダウンロードされる。未知の話者が話している間に
、LPG反射係数の長期統計が話しの最後の30秒間に
わたって実時間で計算される。
この統計はピッチおよび最初の10の反射係数の平均お
よび標準偏差を含む。語しコグナイザ16によって決定
される6語の終りに、CPUは未知の話者と各話者のモ
デルとの間のMeha l anob i s距離(メ
ートル)を計算する。Mehalanob i s距離
は既知の話者と一般の人々とを区別する各測定回イベク
トルの能力によって距離に重みをつける(welght
)。
最後に、CPUは最もよく一致した話者を報告し、その
話者の標準偏差によって比率で示されfCMeha−1
anobi8距離によって、また次に最も近い一致との
比率によって推定値の正確度を決定する。あいまいな結
果がでると、即ちその一致が所定の不確実領域内にある
と、システムに決定を延期させて正確度を高める。最後
に、使用セツションの終りに、話者はこの使用セツショ
ンの複合統計によって音声モデルを更新するオプション
を与えられる。
LPGアラナイザボード15およびCPU18はまた一
定の話者のこれらの統計を集めこの話者をモデルとする
固肩ベクトルおよび値を計算できる訓練モード(tra
inlng mode)をMする。次にシステムはこの
データをアップロード(upload) してコンピュ
ータ20のフロッピィディスクに記憶することができる
。語しコグナイザ16はシステムの別個のユニットとし
て図示しであるが、この語しコグナイザはLPGアナ長
イザボード15およびCPU18に容易に組込むことが
できるのでこれらのユニットは語の開始および停止を認
識し、特定の語を認識し、話者を認識するタスクを行い
うることが当業者によって理解される。更に、認識され
る各特定語を一般的に衣わすテンプレート又は語モデル
は、認識される各話者によって話される6語に対する語
モデルの代シに用いることができ、この場合には特定語
のみが装置によって認識され、谷特定話者は認識されな
い。
本システムを軍事用に用いた場合の典型的な例を第7図
および第8図に関連して説明する。この特定の実施例に
おいては、システムは軍隊、支援部隊および地理的環境
の地理的モデルの更新にユーザを関与させるように設計
されている。この実施例の基本的シナリオにおいては、
ユーザは端末からの情報を要求し、もしそのユーザが適
当に認識されクリ、アされると、情報はどこかの遠隔情
報源から供給される。この特定の例では、システムはス
クリーンの4だけ左、右、上又は下にパン(pan )
  することができ、或いはnマイルだけ北。
南、東又は西にパンすることができるとみなされている
。このシステムはまたズームインおよびズームアウトす
ることができ、国、州、市、境界。
道路および丘(のうちの1つ)などの重要な地理的特徴
を表示する。この特定の応用例においては、第7図に示
すように55語およびネットワークの各ノードに意味的
関連をもった構文ネットワークを含む。構文ネットワー
クはシステムが理解するすべて文の文脈においてシステ
ムに既知の′すべての語から可能性のある次の語の選択
を相互作用的に指導する。いつでも話者は1クリア”と
云って再び文を始めることができるし、又は、“消去”
と云って文中の1語をバンクアップすることができる。
” uh”、“The ”などの語、呼吸による雑音お
よび“舌打ち音”はシステムによシ記憶され意図的に無
視されるモデル飴である。システムはユーザが話すとそ
のユーザを相互作用的に援助する。
システムがユーザに対し文を始めることを期待しつつあ
る(語しコグナイザ16が第1語の開始を認識する)と
、システムは第8図人に示すように文のすべての可能性
のある第1語を表記する。第1語を話した後に、CRT
は第8図Bに示すように検出した語を表記し、すべての
可能性のある第2語を表記する。これは文の終シまで進
み、その時にデータはアセンブルされ、極狭帯域通信チ
ャネルを通じて伝送される。いつでも話者はどのような
次の語が期待されているかを知ることができる。
コンピュータ20は語の一致の正確度を監視する。
何らかの語が適合しきい値以下になると、シンセサイザ
ボード22は文を反復して実行前の確認を要求する。す
べての語が非常に明瞭に認識されると、シンセサイザボ
ード22は完了すると文をエコーし、一方コンピュータ
はメツセージを送9つつある。
話された6語が実行(exerciae )されると、
それはコンピュータ20内の記憶装置に移シ、そこで全
メツセージは最小数のビット又は最小に近い数のビット
でデジタル信号にコード化される。必要とされる記憶装
置の量を小さくするため語はコード化された形で記憶で
きる。システムはそれが認識できる所定数の語、即ち所
定数の語モデルを含むので、コーディングは6語に対す
る特定数からなる。第8図の例を用いると、語” 5h
ift focus(移動焦点)″は数12金石し、語
“5outh (雨)#は数18を有し、数″′2#は
数21によって表わされる等々である。これらの語は遠
隔端末において同じ数で表わされるので、パーソナルコ
ンピュータ20はこれらの数をデジタル信号に変換し、
その信号を遠隔端末校に伝送し、そこでデジタル信号は
再び数に変換され、次に語に変換される。
本実施例に用いられている第2のコーディング法は、6
語の各文字をASCI Iコードに変換する方法である
。このコーディング法は1面画9や\多くビット数を必
要とするが、いくつかの利点をもっている。それらの利
点の1つは、伝送された信号を今日の電気的に動作する
印刷装置の大部分に直接に伝送できるととである。AS
CIIコードにおいては、各文字は8ビツトで表わされ
る。従って、第8図のサンプルメツセージが” 5hi
ft focussouth 22 m1les (移
動焦点南22マイル)″であるとすると、ASCIIコ
ードでこのメツセージを伝送するのに必要なビット数は
260である。話者の声の性質を説明するのに約20ビ
ツトが用いられ、同期、誤シ訂正およびオーバヘッド信
号が更に約Jビットを必要とすると、全メツセージは約
310ビツトの長さになる。従って、約4秒間のメツセ
ージi 310ビツト又は約77ビツト/秒で伝送′で
きる。
上述したように、6語が特定数ヲ肩するコーディングシ
ステムを用いると、下記の理論的根拠が適用される。話
されたメツセージがすべてが同じ確率の100の可能な
メツセージ型のうちの1つとすると、メツセージ文法構
造を記述するのには7ビツトが必要である。メツセージ
のいろいろな位置を満たすのに選択される200の任意
選択面がシステムにあると、どの語がメツセージ中の各
任意選択位置に用いられたかを8ビツトが定義する。
上記に用いたサンプルメツセージ(” 5hift f
ocussouth 22 m1les (移動焦点南
22マイル)〕の場合には、7ビツトはメツセージ構文
を定義し、40ビツトは敷詰のうちの1つが選択される
メツセージ内の場所におけるその5つの任意選択語全定
義し、約20ビツトは話者の声の性質を説明し、全部で
67ビツトとなる。今度色また同期、誤シ訂正およびオ
ーバヘッド信号用が約冊ビットとすると、メツセージ全
体は約97ビツト又は約25ビツト/秒となる。
この特定の実施例のシンセサイザボード22ハマイクロ
ミント社によって識別品目名Microvox  シン
セサイザとして市販されている品物である。
LPGアナライザボード15はシンセサイザ(第2図参
照)を含み、話者認識がシステムに含まれ合成された声
が元の話者の声と同じような音を出すことが所望される
場合にはシンセサイザボード22の代シに用いられるこ
とが勿論当業者には理解されるであろう。しかし、この
シンセサイザはその簡潔性と理解しやすさの故にこ\に
記述しである。
シンセサイザボード22の記述から、当業者はLPGア
ナライザボード15に組込まれたシンセサイザの動作を
完全に理解するであろう。LPGアナライザボード15
に含まれるシンセサイザの更に評し込記述は、上記の米
国特許出願および1981年5月26日付の1平滑線形
補間tOWする言語シンセサイザと題する米国特許出願
第267.203号から得られる    □であろう。
シンセサイザボード22はASCIIテキストを口語英
語に変換する独立知能〜イク・プ・セッサであ    
する。このシンセサイザボード22はM 6502マイ
クロプロセッサ55.直列インタフェース用9600 
BPS      ’UART 57 、 2にビット
のメモリを有するランダムアクセースメモリ(RAM)
 59 、 8 Kビットを11する消去可能プログラ
マブル固定メモIJ (EPROM ) 61 。
5COI Votrax音声シンセサイザf53.クロ
ックおよびプログラマブル分周器65および種々のバッ
ファ、制御装置および増幅器からなる。シンセサイザボ
ード22は連続入力データを語に分析する(par−s
e)アルゴリズムを使用し、次に英語の発音原則を用い
てスペリングから音素(phoneme)の流れを発生
させる。この音素の流れが次に言語シンセサイザ63を
制御する。言語シンセサイザ63は特定の持続時間およ
びスペクトルの一連の1〜4定常音(steady 5
tate 5ounds)として音素をモデルとする固
定メモリを含む。シンセサイザボード22の動作は、言
語シンセサイザ63のマイクロプロセッサ55および音
素言語合成において実施される文字−音素原則(let
ter to phoneme rules)に基づい
ている。マイクロプロセッサ55は最高1500文字を
直列インタフェースポート57かう内部ページバッファ
に読取る。マイクロプロセッサ55は次に句読点によっ
て句群を、スペース区切記号によって面金識別する。マ
イクロプロセッサ55は句群境界を用いて適当な平叙又
は疑問文のピッチおよび持続時間の変化を句に適用する
。1時に1語づ\谷文字は語を横切って左から右へ走査
される。左および右文脈要件(隣接文字)が満たされる
場所に文字が発見されると、その文字に対する最初の適
用可能な原則が適用されてそれを音素に翻訳する。
言語シンセサイザ63はデジタルコードトランスレータ
および音声トラックの電子モデルから成るCMOSチッ
プである。内部には音声トラックモデル全調整して言語
を合成するスペクトルパラメータのマトリックスに6ビ
ツト音素および2ビツトピツチコードを翻訳する音素制
御装置がある。音素の出力ピッチはクロックおよび分周
期65からのクロック信号の周波数によって制御される
。ピッチの微妙な変化を引き出して抑揚(inflec
tion )に加えることができ、この抑揚は合成され
た音声が単調な、又はロボットのような響きを与えるの
を防止する。本アルゴリズムは英語テキストt−言語に
変換するが、そのテキスト−言語アルゴリズムは他の言
語用としても書くことができることが当業者によって理
解される。64音素が英語全定義し、各音素はマイクロ
プロセッサIから音声シンセサイザ63に伝送される6
ビツトコードによって表わされる。次に音素制御装置が
そのビラトラ上述したパラメータに翻訳する。
合成言語音が識別された元の話者の声に非常によく似た
ものにするために、いろいろなコードが通信端から受信
端に伝送され、それはこれらの語についての話者の特定
発音データを伝える。このことは受信機が音声トラクト
長および平均ピッチ範囲を探索するのに用いる話者識別
コードを送るだけで達成される。その代わシに、通信機
は文の全長にわたるピッチ輪廓および音声トラクト長変
更子を説明する多項式係数を送ってもよい。これらの多
項式係数によシ適当なピッチ範囲、ピッチ衰退(dec
linatlon)および強勢(emphasis )
 kきわめて少数のビットで送ることができる。音声ト
ラクト長変更子によってシンセサイザはLPC反射係数
の多項式補間を行って音声トラフトラ文字が原則を確か
める(so nd)のに用いる記憶されたモーゾルのそ
れよりも長くしたシ、又は短かくしたシすることができ
る。
上記に極狭帯域通信システムを開示したが、そこでは各
端末は゛人間の声を300ビット/秒以下の速度をもつ
デジタル信号に変換する。更に、この端末は人間の戸を
衣わすデジタル信号を受信し、元の話者と同じ性質をも
った人間の声を合成することができる。更に、各端末は
非常に高い正確度で語および特定の話者を識別できる。
本明細書において本発明の′特定の実施例を示し説明し
たが、当業者には更に変形および改良が可能である。従
って本発明は上記に示した特定の形に限定されるもので
はないことが理解すべきであシ、従って添付の特許請求
の範囲において本発明の精神および範囲を逸脱しないす
べての変更を含むことを意図するものである。
【図面の簡単な説明】
第1図は、本発明を組込んだ極狭帯域通信システムの簡
略化したブロック図である。 第2図は、第1図に示した装置のLPCアナライザ部分
のブロック図である。 第3図は、第1図に示した装置のCPU部分のブロック
図である。 第4図は、第1図に示した装置の語(ワード)レコグナ
イザ部分のブロック図である。 第5図は、第1図に示した装置のシンセザイザ部分のブ
ロック図である。 第6図は、第4図の語(ワード)レコグナイザにおける
語識別の始めと終pを示す流れ図である。 第7図は、典型的な軍事用に設計された流れ図/構文樹
形(トリー)図を示す。 第8図は、第7図の流れ図と組合せた4つの典型的な表
示を示す。 第1図において、 比は遠隔端末、15はLPCアナライザボード、16は
語しコグナイザ、18は68 K CPU 、 20は
コンピュータ、22はシンセザイザボード。 特許出願人  モトローラ・インコーボレーテツド代理
人弁理士 玉 蟲 久 五 部 図面の、争内−(内i’i’L:変更なし)F’IC,
1 喝   ・ °1(1々 七く口 費0 11さ 手続補正書 昭和59年 5月25日 昭和59年特許願第085062号 2、発明の名称 極狭帯域通信システム 3、補正をする者 事件との関係  特許出願人 住所  アメリカ合衆国イリノイ州6.0196.シャ
ンハーグ。 イー・アルゴンフィン・ロード、  1303番名称 
 モトローラ・インコーボレーテノド代表者 ビンセン
ト・ジェイ・ラウナー4、代理人 6、補正の対象 図面(浄書、内容に変更なし)7、補
正の内容  別紙の通り

Claims (1)

  1. 【特許請求の範囲】 1、人間の声を電気信号に変換するトランスジューサと
    、 前記トランスジューサから電気信号を受信し、人間の声
    を特徴づける複数の性質を表わす複数の信号を供給する
    ように接続されている分析手段と、複数の話された語ヲ
    嵌わす信号をそこに記憶させる記憶手段と、 前記分析手段および前記記憶手段に接続され、複数の信
    号のうちの少なくとも一部分を受信し、複数の信号のう
    ちの受信した部分と記憶されている信号と全比較し、特
    定の話された語を表わす信号を供給する語認識手段と、 前記語認識手段に接続され、特定の話された語全衣わす
    信号を受信し、受信した信号音300ピント/秒以下の
    速度’に!するデジタル形に変換するデジタル変換手段
    と、を具える 極狭帯域通信システム。 Z 語認識手段は、話された語の始めと終シを認識する
    手段を具える特許請求の範囲第1項記載の極狭帯域通信
    システム。 3、 記憶手段は、複数の相異なる個人にょシ話された
    複数の語を表わす記憶された語を含み、システムは、更
    に記憶手段に接続された話者認識手段及び分析手段を具
    え、前記分析手段からの複数の信号の少なくとも一部を
    受信し、受信した信号を記憶された信号と比較し、相異
    なる個人の特定の1人によシ話された特定の語を表わす
    信号を供給する特許請求の範囲第1項に記載の極狭帯域
    通信システム。
JP59085062A 1983-05-02 1984-04-26 極狭帯域通信システム Pending JPS59225635A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/490,701 US4707858A (en) 1983-05-02 1983-05-02 Utilizing word-to-digital conversion
US490701 1983-05-02

Publications (1)

Publication Number Publication Date
JPS59225635A true JPS59225635A (ja) 1984-12-18

Family

ID=23949123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59085062A Pending JPS59225635A (ja) 1983-05-02 1984-04-26 極狭帯域通信システム

Country Status (3)

Country Link
US (1) US4707858A (ja)
JP (1) JPS59225635A (ja)
DE (1) DE3416238C2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60239798A (ja) * 1984-05-14 1985-11-28 日本電気株式会社 音声信号符号化/復号化装置
JPS61252596A (ja) * 1985-05-02 1986-11-10 株式会社日立製作所 文字音声通信方式及び装置
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
US5009143A (en) * 1987-04-22 1991-04-23 Knopp John V Eigenvector synthesizer
EP0290190B1 (en) * 1987-04-30 1991-10-09 Oki Electric Industry Company, Limited Pattern matching system
FR2642882B1 (fr) * 1989-02-07 1991-08-02 Ripoll Jean Louis Appareil de traitement de la parole
JPH03120598A (ja) * 1989-10-03 1991-05-22 Canon Inc 音声認識方法及び装置
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US5748843A (en) * 1991-09-20 1998-05-05 Clemson University Apparatus and method for voice controlled apparel manufacture
US5475798A (en) * 1992-01-06 1995-12-12 Handlos, L.L.C. Speech-to-text translator
US5402520A (en) * 1992-03-06 1995-03-28 Schnitta; Bonnie S. Neural network method and apparatus for retrieving signals embedded in noise and analyzing the retrieved signals
US5675705A (en) * 1993-09-27 1997-10-07 Singhal; Tara Chand Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary
US5696879A (en) * 1995-05-31 1997-12-09 International Business Machines Corporation Method and apparatus for improved voice transmission
JPH08335091A (ja) * 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
JPH09149133A (ja) * 1995-11-22 1997-06-06 Fujitsu Ltd テレビ会議システムのための音声入力端末および音声合成端末
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
FR2752477B1 (fr) * 1996-08-16 1998-09-25 Vernois Goulven Jean Alain Systeme de transmission de messages oraux
US5774857A (en) * 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
US6317714B1 (en) 1997-02-04 2001-11-13 Microsoft Corporation Controller and associated mechanical characters operable for continuously performing received control data while engaging in bidirectional communications over a single communications channel
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
US6041300A (en) * 1997-03-21 2000-03-21 International Business Machines Corporation System and method of using pre-enrolled speech sub-units for efficient speech synthesis
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
FR2771544B1 (fr) * 1997-11-21 2000-12-29 Sagem Procede de codage de la parole et terminaux pour la mise en oeuvre du procede
US6119086A (en) * 1998-04-28 2000-09-12 International Business Machines Corporation Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
GB2348342B (en) 1999-03-25 2004-01-21 Roke Manor Research Improvements in or relating to telecommunication systems
US6785649B1 (en) * 1999-12-29 2004-08-31 International Business Machines Corporation Text formatting from speech
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
DE10117367B4 (de) * 2001-04-06 2005-08-18 Siemens Ag Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten
DE10127558A1 (de) * 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese
US7177801B2 (en) * 2001-12-21 2007-02-13 Texas Instruments Incorporated Speech transfer over packet networks using very low digital data bandwidths
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
US9622053B1 (en) 2015-11-23 2017-04-11 Raytheon Company Methods and apparatus for enhanced tactical radio performance

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5827200A (ja) * 1981-08-03 1983-02-17 テキサス・インスツルメンツ・インコ−ポレイテツド 音声認識装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
US4392018A (en) * 1981-05-26 1983-07-05 Motorola Inc. Speech synthesizer with smooth linear interpolation
US4378469A (en) * 1981-05-26 1983-03-29 Motorola Inc. Human voice analyzing apparatus
US4424415A (en) * 1981-08-03 1984-01-03 Texas Instruments Incorporated Formant tracker
US4441200A (en) * 1981-10-08 1984-04-03 Motorola Inc. Digital voice processing system
US4590604A (en) * 1983-01-13 1986-05-20 Westinghouse Electric Corp. Voice-recognition elevator security system
US4556944A (en) * 1983-02-09 1985-12-03 Pitney Bowes Inc. Voice responsive automated mailing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5827200A (ja) * 1981-08-03 1983-02-17 テキサス・インスツルメンツ・インコ−ポレイテツド 音声認識装置

Also Published As

Publication number Publication date
DE3416238A1 (de) 1984-12-20
DE3416238C2 (de) 1995-09-14
US4707858A (en) 1987-11-17

Similar Documents

Publication Publication Date Title
JPS59225635A (ja) 極狭帯域通信システム
Holmes Speech synthesis and recognition
US4661915A (en) Allophone vocoder
CN111276120B (zh) 语音合成方法、装置和计算机可读存储介质
US5774860A (en) Adaptive knowledge base of complex information through interactive voice dialogue
Syrdal et al. Applied speech technology
US20050182630A1 (en) Multilingual text-to-speech system with limited resources
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
US4424415A (en) Formant tracker
JPH0850498A (ja) 音声をテキストに変換するための方法および装置
CN110853616A (zh) 一种基于神经网络的语音合成方法、系统与存储介质
US6502073B1 (en) Low data transmission rate and intelligible speech communication
US20020087317A1 (en) Computer-implemented dynamic pronunciation method and system
EP0071716A2 (en) Allophone vocoder
US6813604B1 (en) Methods and apparatus for speaker specific durational adaptation
RU61924U1 (ru) Статистическая модель речи
JP3914612B2 (ja) 通信システム
Westall et al. Speech technology for telecommunications
US11620978B2 (en) Automatic interpretation apparatus and method
EP1298647B1 (en) A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder
Venkatagiri The quality of digitized and synthesized speech: What clinicians should know
KR100369732B1 (ko) 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법
Burstein et al. A review of computer-based speech technology for TOEFL 2000
Furui Toward the ultimate synthesis/recognition system
US11915683B2 (en) Voice adaptation using synthetic speech processing