JP2000504848A

JP2000504848A - 非音波式音声特性記述及び認識のための方法及びその装置

Info

Publication number: JP2000504848A
Application number: JP9528567A
Authority: JP
Inventors: ジョン、エフ．ホールツリクター
Original assignee: University of California
Current assignee: University of California
Priority date: 1996-02-06
Filing date: 1997-01-28
Publication date: 2000-04-18
Also published as: DE69732096D1; US6006175A; ATE286295T1; EP0883877A4; EP0883877A1; EP0883877B1; WO1997029481A1

Abstract

(57)【要約】ＥＭ波反射（２１）と音波音声情報（２４）とを同時記録することにより、音声が調音される際の当該音声器官（２、３、４）の位置及び速度を、各音波音声単位（２０）に関して定義可能である。よく定義されたタイムフレーム及び音声について必要な程度に記述する特徴ベクトル（６、７、８、９）を形成することが出来る。この種の特徴ベクトル（６、７、８、９）は、各タイムフレームにおいて調音される音声単位（２０）の特性を一意的に記述できる。音声の開始、外部雑音の拒絶、音声化されたピッチ周期、調音器官の状態、正確なタイミング、話し手の識別、音波音声単位（２０）認識、及び、器官の機械的パラメータが決定可能である。

Description

【発明の詳細な説明】非音波式音声特性記述及び認識のための方法及びその装置米国政府は、米国エネルギ省とカリフォルニア大学との間のＬａｗｒｅｎｃｅＬｉｖｅｒｍｏｒｅ国立研究所の運営に関する契約Ｎｏ．Ｗ−７４０５−ＥＮＧ４８に従い本発明における所定の権利を有する。発明の背景本発明は全体的に音声認識に関し、更に詳細には音声認識及び関連音声技術のための音波情報との組合わせによる非音波情報の使用に関する。音声認識音声認識（ＳＲ）技術は４０年に亙って集中的に研究されてきた。１９５０年代において、ＳＲ研究は、孤立数字、単音節の語（ワード）、話し手依存性、及び、音声に基づく属性に焦点が絞られた。特徴記述は、フォルマント、ピッチ、発声／無声、エネルギー、鼻音性、及び、それぞれ明白な音素と関連した狭搾的気音のような１組の属性を含んだ。このような１組の音声的記述のうちの数値的属性は特徴ベクトルと呼ばれる。１９６０年代において、研究者は、音素、音節、または、語（ワード）のような単位によって測られた時限は話し手毎または話す速度毎に異なり、発声継続期間に対してある固定した割合に維持されないという問題に注目した。統計的解析が使用できるような手法において音を時間的に調整するための適当な解決方法が発見されなかった。話し手の音声器官位置の変化に起因する音声の調音における可変性が音声認識における重要問題であることが分かった。可変性は、部分的に、複数の音が一緒に発声されること（不完全な調音を引き起こすことも稀ではない）、或いは、器官が２つの音の中間位置を占めること（調音の随伴とも呼ばれる）に起因した。話し手における差異に起因する可変性も極めて取り扱い困難な問題であった。音声に基づく方法は、上記の諸問題を解決する能力に限界がるため、１９７０年代の初期までに事実上放棄された。音波特徴ベクトルを抽出して記憶し、そして、基礎となる音素単位及び語（ワード）に音波パターンを関係付ける一層効率的な方法が必要とされた。１９７０年代には、この技術分野における研究者は、時間波形の短い「フレーム」（例えば、１０ｍｓインタバル）が、共分散方程式を解くことによって求められる数値的な「線形予測符号（ＬＰＣ）」係数を用いた全極（ただし、ゼロを除く）解析式によって充分近似可能であることを示した。具体的な手順に関しては、Ｂ．Ｓ．Ａｔａｌ、及び、Ｓ．Ｌ．Ｈａｎａｕｅｒによる「音声波の線形予測による音声の分析と合成」Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．５０（２）、６３７（１９７１年）、及び、Ｌ．Ｒａｂｉｎｅｒ、米国特許４，０９２，４９３号明細書に記載されている。精密な音声認識を達成するための更に良好な係数は、例えば、音波音声及び信号処理ＡＳＳＰ−２９（２）、２５４（１９８１年）に関するＩＥＥＥ議事録、Ｓ．Ｆｕｒｕｉによる「話し手自動検査のためのセプストラム解析技法」に記載されているセプストラム係数であるはずであることが示された。前記係数は、対応する短い時限パワースペクトルの絶対値の対数の展開式のフーリェ係数である。セプストラム係数は、声帯の励起効果を声管の共鳴伝達関数から効果的に分離する。更に、これらの係数は、人間の聴覚は、線形変化でなくて音波パワー変化の対数に反応するという特性を捕捉する。セプストラム係数はＬＰＣ係数に直接関係する。これらの係数は、極く僅かの個数の値だけを必要とする数学的に正確な近似の方法を提供する。例えば、実測される音声時限（タイムインタバル）又は音声の「フレーム」に関する特徴ベクトルの成分値として１２個から２４個までの数値が用いられる。ＬＰＣ技法に基づいた音波特徴ベクトルの抽出には成功したが、この技法は重大な制限条件を持つ。この技法の成功は、既知の音または語（ワード）に関してライブラリ（コードブックとも呼ぶ）に記憶されているベクトルと未知の波形特徴ベクトルとの最良マッチを簡単に見付けることが可能であることに依存する。この過程は、音声の属性についての特定の詳細な記述の必要性を無くした。１つの音素が１つの基本語-音単位である場合には、ＬＰＣによって記述された波形は音声音素を表すことができる。アメリカ英語には、使用する定義に応じて、４０個から５０個の音素が有る。ただし、ＬＰＣ情報では、声管モデルの強制条件に対する生理学的条件が明確に決定不可能である。例えば、ＬＰＣ情報では、正確かつ曖昧でない声帯皺僻オン／オフ周期の測定またはピッチが可能でない。その代りに、ＬＰＣ表現は、例えば全期間に亙って１語がはっきり発音されるような比較的長い時限（タイムインタバル）を表すことが出来る。ベクトル「量子化」（ＶＱ）技法は、潜在的に非常に大きい話し手母集団から発声される同一音の有節発音の大幅な変動の取扱いに役立った。ＶＱ技法は、話し手から独立した認識能力を提供するために役立ったが、話し手正規化問題は完全には解決されず、今日の問題として残っている。自動的方法は、同一又は異なる話し手が異なる速度（レート）で話した場合に、同じ音単位を時間調整するために開発された。成功した技法の一例は特徴係数の非線形タイムスケーリングを実行する動的時間ねじれ（タイムワーピング）アルゴリズムであった。この技法は、１９６０年代に通話の不均質速度として識別された問題に部分的解決を与えた。中型語彙（例えば、約５００語）の場合には、１つの単一語に含まれる数個の音声単位に関する基本マッチング単位として特徴ベクトルの使用が許容される。１９７０年代後期においては、多くの商品が市販されるようになり、限られた範囲内における語彙認識を可能にした。ただし、ワードマッチングの場合にも、語の開始と終結に関する知識が必要とされた。従って、精巧な終結点（及び、開始）検出アルゴリズムが開発された。更に、ユーザにより語（ワード）の間に意図的なポーズ（休止）を挿入することにより、多くの用途に関してこの問題が簡素化された。この方法は離散型音声（ディスクリートスピーチ）として公知である。しかし、比較的大型語彙（例えば、１０００語以上）の場合には、マッチングライブラリは大きく、取り扱いが困難になる。更に、離散型音声（ディスクリートスピーチ）は人間の交信用としては不自然であるが、連続型音声は終結点の検出を困難にする。１９８０年代においては、連続型音声の困難を大きい語彙を用いて克服することが、音声認識（ＳＲ）研究の主要問題であった。これを達成するために、ＳＲシステムの設計者は、人間の音声を記述するために必要とする単位の個数は比較的少ないので、例えば、音素またはＰＬＵ（単音様単位）のような比較的短い音単位の使用が好ましいことを発見した。１９８０年代においては、連続型音声および大型語彙と関連した問題を解く際に、隠れたマルコフモデル（ＨＭＭ）として知られる統計的パターンマッチング技法が成功裡に用いられた。ＨＭＭは、先ず５０音素を認識し、次に、音素のパターンに基づて、語（ワード）及び語句（ワードフレーズ）を認識するように構成された。音素に関して、確率モデルは、学習局面において、特定の音波特徴ベクトルがそれぞれ特定の音素を表す尤度を示すように構成される。音波システムは、各タイムフレーム中（例えば１０ｍｓ）における各話し手の質を測定し、ソフトウェアは、話し手の速度を補正し、そして、セプトラム係数を形成する。特定のシステムにおいて、例えば音波エネルギ、微分セプトラム係数、ピッチ、及び、ゼロクロッシング（ゼロ交差）のような他の値は、更に長い特徴ベクトルを作るためにセプトラム係数を持つ成分として測定および加算される。例として、１０個のセプストラム係数が連続型音声発声から１０ｍｓ毎に抽出されるものと仮定する。音素は平均約１００ｍｓ継続するので、ＨＭＭ音素モデルは１つの状態当たり１０個の記号（即ち、セプストラム値）を持つ１０個の状態（即ち、１０個の１０ｍｓセグメント）を含むことになる。各１０ｍｓタイムフレーム内の音波信号は、セプストラム係数によって捕捉される異なる１組の音波特徴によって特性付けられるので、各音素に関して、各記号の値は状態毎に異なる。ＨＭＭ技法は、同一及び異なる語の連続体において同じ音素を言う訓練された話し手の大きい１つの集合の中から、その次の状態において同じ行為を行う話し手に関係する１つの状態においてある特定の記号が発生する頻度を統計的に算定することである。例えば、１組の状態過渡確率、及び、１０個の記号に各音素を最も良く記述する１０個の状態配列値を乗じた個数の添付配列体が得られる。未知の音素を認識するために、ユーザは１０掛ける１０個の配列を計算し、そして、結果として得られる配列を、最大尤度検出技法を用いて、事前算定済みの確率的音素モデルにマッチさせる。ＨＭＭ統計的技法は、１つのタイムシーケンス（時間列）において所定の１０個１組の状態を観察する場合における確率はただ１組の音素に関してのみ高いという事実を利用する。高度に訓練された単一ユーザによるＨＭＭに基づく今日の識別者の最高研究室的性能は、語（ワード）認識に関して約９９％正しい。周囲オフィスノイズの有る通常の作業場所においては、平均的に訓練されている場合、大型語彙自然音声（スピーチ）に関して、正確度は９０％よりも遥かに下まで降下する。ほとんど全ての申し込み者にとって、これは十分ではない。高い値の申し込み者にとっては、１０％よりも大きい誤り率は許容不可能である。信頼できる人間交信システムの一般的誤り性能仕様は、通常、話し手と聴取者との間でどの程度の誤り訂正通信が用いられるか、或いは、許容されるかに応じて、１０００に対して１エラー（誤り）から低い方は１０，０００に対して１エラーまでの範囲である。従って、この目標に到達するためには、音声（スピーチ）認識正確度における係数の１００から１０００までの改良が必要とされる。ＨＭＭに基づく認識装置、或いは、その別形（バリアント）は、１５年以上に亙って強力に開発が進められたが、正確度に関しては有力な突破口は見付かっていないようである。その主要原因の１つは、所定の人間言語において用いられる全ての音単位を正確に表すために充分な情報が音波信号に含まれていないことである。更に詳細には、不完全な調音を介するか、或いは、調音の随伴を介したこれら音声単位の可変性は、１人の特定の話し手であってもその音声毎の変動を扱うことを非常に困難にしている。しかし、更に大きいとさえ推測される問題は、話し手が異なる場合、及び、話し手の完全な正規化が出来ない場合、そして、最終的には、大きい語彙を使用して、音声と共に早口に話すことの好きな話し手の場合に発生する。コンピュータプロセッサ及び記憶装置の価格とサイズが急速に降下したとしても、失われた全ての音波情報を供給し、調音の間違いを訂正し、そして、ノイズと話し手の可変性を扱うための処理を実施することの複雑さは取り扱いを困難または不可能にする。これらの装置は、正確度、コスト、及び、スピードに関して、市場の需要に適合するリアルタイム認識を提供することが出来ないはずである。音声認識の現行例Ｊ．Ｌ．Ｆｌａｎａｇａｎによる「マルチメディア通信の技術」（１９９４年４月開催ＩＥＥＥＬ，２５９０の議事録第５９２頁）は次のように述べている、即ち、「音声認識研究の最先端は豊富な語彙と、自然言語を一層良く表す言語モデルである．．．．．．１０００語以上の語彙に関するシステムが実演中である。ただし、語誤り率は一般に約５％以上であり、従って、文誤り率は実質的に更に高い。」Ｆｌａｎａｇａｎによって記述される特性を備えた現行音声信号処理モデルは、音波音声情報を検出するためにマイクロホンを使用する。音波信号は、記憶されている特徴ベクトルライブラリと比較され、更に語及び文アセンブリに関して処理される特徴ベクトルを生成するためにＬＰＣアルゴリズムによって処理される。特徴ベクトルに関する予測の詳細は、声管に関して特徴ベクトルは、開ループ、第１０位階数の短時間静止モデルを使用することである。励起信号ｘ（ｔ）は、ランダム広帯域のホワイトノイズであると仮定される。モデル係数の算定には高速線形予測符号化（ＬＰＣ）アルゴリズムが用いられる。セプストラム係数に対するＬＰＣ係数の直接マッピングにより、統計的マッチングの基礎となる短時間振動数スペクトルの強くコンパクトな表現を提供する。図１は、現代先行技術音声認識システムの本質的な過程を示す。開ループ音声処理モデルは多くの欠点を持つ。第１に、未知の励起信号はスペクトル的に真のホワイトでなく、毎秒７０から２００回までの割合で起こる空気バースト（声に出された音声）の１つのパターンである。第２に、声管モデルの複雑さは、唇の開閉、鼻管の解放、口蓋への舌接触、その他幾つかの重要な器官構造と共に音声パターンの関数として変化する。第３に、声管モデル係数および全極ＬＰＣモデルを伴った励起発源の両方を１つの音波信号から推測することに本質的な限界が有る。理由は、励起関数におけるゼロ（即ち、空気流量ゼロ）および声管モデルにおける反共鳴（即ち、伝達関数におけるゼロ）がＬＰＣを用いて数学的にモデル化出来ないこと、そして、これらの存在がマイクロホンを用いて曖昧さ無しに測定不可能なことである。結果として、話し手の音声システムを特性付ける伝達関数を表す現在推測済みのセプストラム（即ち、ＬＰＣ派生の）係数は不正確であり、しかも、ただ１つの特定の調音器官構造とは一意的な関連性を持たない。特徴ベクトル係数にこのような誤り（エラー）の有ることは、統計的なパターンマッチング性能を直接制限する。従って、一層マッチングの良好なアルゴリズムを求めること、或いは、性能が向上するように強化されたコンピュータ処理能力を使用することは無駄である。更に、周囲ノイズと関連した人為事象、話し手の調音における日毎の変動、及び、話し手毎の可変性が難度を上げると共に訓練経費を増加させる。最後に、この過程のための自動化された技法は充分に定義できないので、多くの言語を話す多数の自然会話者用に豊富な語彙システムを開発することは非常に高くつく。最良のモデルを使用した場合、最高の所要品質音声認識を実施するには１０台のＣＲＡＹＹＭＰ−１６等価装置が必要であると推測されている（Ｒａｂｉｎｅｒ及びＪｕａｎｇによる「音声認識の基本」ＰｒｅｎｔｉｃｅＨａｌｌ、１９９３年、４９３頁）。人間の音声器官の運動と位置が話す音響と関連していることは、言語学者と音声学者によって長い間認められている。Ｏｌｉｖｅ等による「米国英語の音響学」Ｓｐｒｉｎｇｅｒ１９９３年には、米国英語における殆ど全ての単音素、対音素および３音素語及びそれらのソノグラムについて記述されている。数十年前に、ベル研究所の研究者達は所定の音に対する器官の形状を決定するために音声器官のＸ線像及び詳細なモデル化技法を使用した（Ｊ．Ｌ．Ｆｌａｎａｇａｎ著ＡｃａｄｅｍｉｃＰｒｅｓｓ、１９６５年発行「音声の分析、合成、及び、認識」参照）。これら及び他の研究者は、声門部分（即ち、声帯皺の位置）対発声時間を測定するために光学機器を使用する方法について記述し、公知の音波原理に基づいた音声システムの詳細なモデルを公表した。これらの物理的測定値技法は、全て、リアルタイムで使用可能でないという難点があり、主要器官の測定値がリアルタイムで利用可能でないので、当該器官情報を音素識別に接続する詳細なモデルは機能しない。従って、モデルは正確でないか、或いは、例えば、声管寸法、コンプライアンス、及び、音声器官の速度のような話し手の巨視的特性に容易に適合出来ない。更に、例えば、副鼻洞構造、咽頭横断面、及び、これに類する微細部分のような声管の非常に特異な生理学的な詳細構造は現在のモデル構造に適合不可能である。ただし、これらの詳細構造は個々の音声音を更に正確に定量化するために必要とされる。以上のような状態であるが、全ての上記研究によれば、あらゆる所定の音声単位（即ち、音節、音素、または、ＰＬＵ）と関連して、音声器官の運動及び位置が良く定義されることが判明している。ただし、これとは対照的に、これらの研究者は、更に、音を生成するために使われる音声通管器官構成の逆識別を実施するには音波情報だけでは不十分であることを実証している（例えば、Ｊ．Ｓｃｈｒｏｅｔｅｒ）及び、Ｍ．Ｍ．Ｓｏｎｄｈｉ、ＩＥＥＥＡＳＳＰ、２（１）１３３（１９９４年）、及び、そのリファレンス）。音波音声だけを単独使用する際に、現在の音声認識システムにおいて遭遇する多数の困難は上記の不可能性に起因する。研究者達は、話中における声管要素の位置及び形状を測定する方法を探しているが、リアルタイムで実施する効果的な方法は発見されていない。ロスアラモス国立研究室のＰａｐｃｕｎは、米国音響協会誌２２（２）Ａｕｇ．１９９２年、６８８−７００頁に、「Ｘ線マイクロビームデータ用に調整された神経網を用いた音響学からの調音および認識表示の推論」を、更に、ＰＣＴ／ＵＳ９１／００５２９に「タイムシリーズ関連性学習」を記載して、声管拘束音声認識システムについて発表している。彼は、被検者としての話し手の舌その他の音声器官に接着した金製球の低出力Ｘ線像を用いて、音声器官の運動及びそれらの拘束されたパターン及び位置を測定した。彼は、従来の数学的技法に基づいた認識アルゴリズムを改良するためにこの情報を使ったが、Ｘ線データを用いて求めた測定値によって適用された付加的な音素パターン拘束条件も併用した。彼のアルゴリズムは、許容されている声管運動に基づくが、語（ワード）認識の信頼性を高めるためにリアルタイムにおける運動は使用しない。更に、彼は、音声器官の位置及び位置の順序は多くの音声音と一意的に関連することを示した。ただし、リアルタイムの音声認識のために小さなＸ線装置の使用を考慮することは危険でもあるし、実用的でもない。１９８８年６月９日に許可されたＨ．Ｎａｋａｍｕｒａによる米国特許４，７６９，８４５号明細書は「唇像を用いて音声を認識する方法」について記述している。この種の幾つかの特許は、例えば米国特許４，９７５，９６０号明細書のように、音波音声と同時に音声器官運動を測定する電気機械光学装置について記述している。この場合、唇の形状の形成は、音波識別が唇像の形状と合致する程度によって所定の音声期間における音素の識別を定義することを助ける。この種の装置は有用であるが、非常に高価でり、そして、それらが供給する情報に限度が有るので、音声認識のためには広く使用されていない。これらの装置は、唇の動きの同期化を目的として、画像に音声を自動的に同期化するために映画またはビデオフレーム用に推薦されている。Ｂａｋｅｒ等によって出願され、Ｄｒａｇｏｎ社（有力な米国音声認識会社）に許可された米国特許４，７８３，８０３号明細書、１９８８年「音声認識装置及びその方法」は、全ての現代音波式音声認識システムの詳細について記述し、更に６件の特許がこれに続き、最も新規なこの種米国特許は、第５，４２８，７０７号明細書、１９９５年、Ｇｏｕｌｄ等による「音声認識訓練のための装置およびその方法」である。同様に、ＫｕｒｚｗｅｉｌＡｐｐｌｉｅｄＩｎｔｅｌｌｉｇｅｎｃｅ社は、特許許可された数件のアイデアを持つ。特に、１９９４年、Ｇａｎｏｎｇによる米国特許５，２８０，５６３号明細書は、複合音声認識エキスパート（システム）の方法について記述している。この特許は、音声認識を強化するための制限規則に関する２つの個別装置、即ち、音波規則に関する装置ど言語規則に関する装置の使用方法について記述している。システムからの正確度（即ち、「複数のスコア」）の確率は同時確率（即ち、「１つのスコア）に結合され、そして、多重語（マルチワード）仮説が選定される。制限規則装置を結合するこの方法は、音声認識においては一般的である。ＥＭセンサＬＬＮＬのＴｈｏｍａｓＥ．ＭｃＥｗａｎによる米国特許５，３４５，４７１号明細書、及び、５，３６１，０７０号明細書は、数十センチメートルから数メートルまでの測定距離に対してミリメートル解像度を持つ極めて簡単かつ低コストの電子式送受信モジュールを基調とするマイクロパワーインパルスレーダ（ＭＩＲ）受信機及び運動センサについて記述する。これらのディバイスは、建築物壁内木製または金属製「スタッド発見機」（米国特許５，４５７，３９４号明細書）用として、自動車衝突回避または障害物回避レーダ用、及びその他多くの用途に使用できる。更に、ＭｃＥｗａｎ等は、２ＧＨｚに近い周波数（及び、他の周波数）においてこれらのディバイスから放射されるＥＭ波は人体組織を貫いて伝播可能であることを示した。更に、彼は、出願番号０８／２８７，７４６号明細書において、この種の伝搬波は、人体組織と血液（例えば、心臓）、または、人体組織と空気（例えば、肺）との間の誘電性（或いは、一層複雑な）不連続性に十分に感応すること、拍動中の心臓その他の人体器官運動からの時間的に変動する反射された信号は検出可能であり、そして、この種の信号は値を持つことを示した。Ｄａｖｉｓにおけるカリフォルニア大学応用科学科部長ＮｅｖｉｌｌｅＬｕｈｍａｎｎ教授は、ＭｃＥｗａｎ等の設計に類似した低コストのソリッドステートミリメートル波発生器が超小形電子工学製作技法を用いて製作可能である方法について記述している。この種の発生器は、ミリメートル解像度を提供し、更に、人体透過を最適化し、そして、人体組織の加熱、または、人体の化学共振を最小限にするように調整可能な送受信モジュールとして作成可能である。Ｍｕｒｐｈｙに許可された米国特許５，０３０，９５６号明細書、及び、５，２２７，７９７号明細書は、医療目的で患者を診察するためのレーダトモグラフィ（断面撮影）システムについて記述している。無線周波数またはマイクロ波周波数を伝送可能なレーダ送信機は、複数の受信機および経過時間タイミングユニットと共に用いられる。非常に多数の受信機ユニット（マルチスタチックシステム）を使用し、そして、複数の方向から患者を見るために送信ユニットを移動させることにより、患者の人体内への複数の深さ、及び、複数の方向から人体器官の場所が測定される。反射トモグラフィディバイスは、医療結像用として患者の身体内部の画像を作るためにＥＭ波反射を使用する。時間変動器官インタフェース情報の重要性についても、単一方向性非結像システムの値の重要性についても一切説明されていない。Ｍｕｒｐｈｙは、彼のアイデアが実行に移すことが出来ることを示す画像の形成に関する一切の実験的データを提供しなかった、そして、Ｍｕｒｐｈｙの特許における提案された実施例のうちの数件は、商業的に重要な結像システムとして技術的に実現可能とは予測されない。Ａｍｌｕｎｇに許可された米国特許３，９２５，７７４号明細書及びＮｅｕｗｉｒｔｈ等に許可されたべおこく特許４，０２７，３０３号明細書は、人体組織を透過できる周波数を生成する小型レーダユニットについて記述している。Ａｍｌｕｎｇは、約０．９ＧＨｚの周波数において特定の方向に無線波を投射する離散型部品から作られたプリント回路基板サイズのレーダディバイスについて記述している。作動原理は次のようである、即ち、規定された時間単位内にＥＭ波の照準線上のあらゆる対象から受信機ユニットに向けられた反射無線信号に変化が無い限り、受信機における当該濾波作用が警報装置に無効信号を供給する。対象が濾波時間（フィルタタイム）よりも大きい当該レートで送信装置の場（フィールド）内に移動した場合には、信号が検出され、そして、音響発生ユニットをドライブするための警報が発生可能になる。この装置は、フィールド妨害運動検出装置と呼ばれる。１９７５年以前には、Ａｍｌｕｎｇによって先行技術として引用されている上記の装置および他の幾つかの装置は、声帯皺僻その他の器官の運動を検出するために、本発明の場合に類似の方法により使用された。Ｎｅｕｗｉｒｔｈ等は同様の装置について記述している。音声認識の分野においては、音声器官の位置及び運動情報は有用であり、レーダユニットは、測定を実施するために数十年間に亙って利用可能であることが数十年間認められてきたが、音声器官の運動及び場所を検出して音声を識別するためのアルゴリズムに前記情報を使用するために、送信して反射されたＥＭ波を利用する音声認識システムについては、今まで誰も提案しなかった。発明の要約従って、本発明の目的は音波情報と組合わせた非音波情報を用いる音声認識のための方法及び装置を提供することにある。更に、本発明の目的は、電磁（ＥＭ）発生、送信、及び、検出モジュールを使用する音声認識のための方法及び装置を提供することにある。更に、本発明の目的は、レーダを使用する音声認識のための方法及び装置を提供することにある。本発明の更に別の目的は、音声認識のためにマイクロパワーインパルスレーダを使用することにある。更に、本発明の他の目的は、音声の量子化、数学的近似、及び、他の音声関連アプリケーション用の情報記憶のために音声認識用に提供された方法及び装置を使用することにある。本発明は、非音波式音声認識（ＮＡＳＲ）のための用方法及び装置である。この場合、ＲＦ波、マイクロ波、ミリメートル波、赤外線、或いは、音声器官の光学波電磁（ＥＭ）測定によって得られた非音波情報は、マイクロホンを用いて測定された従来の音波情報と組合わされる。ＥＭ波必要条件は、被測定音声器官に到達することである。非音波及び音波信号は、音波情報のみから達成可能であるよりも更に正確な音声認識を行うために、アルゴリズムを用いて組合わされる。ＮＡＳＲ情報及び音波情報は、必要に応じて、例えば、話し手認識、音声合成、及び、音声電話のような他の音声技術応用において使用するためにも利用可能である。非音波式音声認識システムは、非放射性近距離場、中間（即ち、放射性及び非放射性両方）場、及び、アンテナ構造体の放射性遠距離場において作動するＥＭ発生器検出器システムを含む。レーダは、通常、アンテナを「放れて」遠距離場に伝搬する放射性ＥＭ波を使用するものと考えられている。しかし、ＥＭセンサシステムここで説明する音声器官に接近して配置されるので、ここで説明する方法および装置のために全部で３つのタイプのＥＭ波場（ウエーブフィールド）システムを使用できる。ここで透過という用語が使われる場合には、ＥＭ波が生成された後で、アンテナ様構造体に到達し、ここで、時間とともに変化する電磁場の近距離場、中間、又は、遠距離場（例えば、放射）パターンを展開するＥＭ波の伝播を記述することを意味する。人体組織は、１０⁸Ｈｚから１０¹⁴Ｈｚまでの多くのＥＭ波帯域において、ここで説明する方法のために必要とされる程度に透過性をもつ。１）ＥＭ波発生器−−周波数、タイミング、パルスフォーマット、位置、組織透過性、及び、電源（及び、安全）必要条件を満たす全ての構成のＥＭ波発生器モジュールが使用可能である。（非放射性）近距離場、波が非放射および放射の両方に作動する中間場、及び、アンテナの遠距離放射（即ち、レーダ）状態において作動するＥＭ波発生器が使用可能である。特に、２．５ＧＨｚにおいて、２ＭＨｚパルス繰返し率を以て作動するマイクロ波レーダモジュールが使用されており、これらの装置は定例人体使用に関して安全であることが実証済みである。これらは、携帯用であり、非常に経済的であることも実証されている。音声認識実験は、４種類の異なる構成のレーダ送信／受信ユニットを用いて実施された。音声器官運動は、３個のレーダユニットと１個のマイクロホンから、１個のレーダユニットと１個の音波マイクロホン信号による簡単な構成まで様々なセンサ構成を用いて同時に測定された。送信ＥＭレーダ波を頭部及び首に向ける改良された方法、並びに、音声認識及び他の関連応用のための幾つかのアンテナ設計及びビーム偏波オプションが開発された。変化する位相、変化する波長を用いる方法が考察され、複数の波長が同時に使用された（例えば、インパルスレーダ）。２）ＥＭ波検出器−−４つの異なるＥＭ波検出器或いは受信機モードが音声認識用に実演された。即ち、ＣＷ受信、単一パルス移動レンジゲート受信、多重パルス固定レンジゲート受信、及び、ヘテロダイン受信であり、他の受信機モードが識別された。各特定の受信機タイプは、送信機タイプにマッチさせられ、そして、通常、送信機と同じ回路板（或いは、チップ）に取付けられる。受信機は、送信機から分離したアンテナによって供給可能であるか、或いは、タイミング的に許容されれば、送信／受信スイッチを用いて、送信機アンテナに接続可能である。１つの実演済みモードにおいて、送信機／受信機モジュールにおける回路は、音声器官から戻されて受信された波の位相を初期送信された波と比較し、このようにして、器官運動情報を獲得する際に良好に作動する「ホモダイン」システムを作る。これは、検出される対象が遠距離界に在る場合、「コヒーレント」レーダのタイプとしての公知であり、そして、対象が近距離または中間距離ＥＭアンテナ場に在る場合には干渉装置の一タイプとみなすことができる。受信機「レンジゲート」（使用する場合）のタイミングは制御ユニットによって制御され、そして、レンジゲート回路を送信／受信板上に配置することによって実演された。受信した信号情報は、インタフェースから、及び、伝搬路における損失による減衰から、及び、複合反射からの反射に起因する可能性がある。３）構成構造体、アンテナ、及び、制御システム−−数個のＥＭセンサユニット及びマイクロフォンを人間の顔面及び首に接触して保持すると同時に支持する５種類の方法が考察された（正面、側面、最上面、及び、頭と首の背部、そして、顎の下）。これらの方法には、例えば電話交換手が使用するようなハーネス、法廷レポーターが使用するようなカバー付きエンクロージャ、計算器のようなハンドヘルドユニット、顎下ＥＭセンサモジュール用に改造した電話受話器、及び、計装用に特定の体形にこの種ユニットを注意深く配置するための研究室構造体が含まれた。送信機と受信機は相互に、或いは、ユーザーに取り付ける必要はなく、例えば、自動車のダッシュボード上のような任意の便利な手近な場所に取付けても差し支えない。音声器官から離れて配置する場合には、生成された波、及び／又は、ユーザーの追跡を適当に集中することが必要である。集中するためには、位相をずらせて配列した送信機または受信機、多重エレメントアンテナ、及び、レーダの分野では公知のその他の技法を、集中および追跡の目的で使用しても差し支えない。音波または他の入力に際してシステムを起動し、受信機スイッチのレンジゲートのタイミングを設定し、パルス化された送信ＥＭセンサユニットのパルス繰返し率を設定し、即ち、サンプル採取保持ユニットにおける受信したＥＭ波情報の獲得を制御し、そして、統計値を改良するためにデータを平均し、即ち、保持されたデータを記憶装置に向け、そして、別のサイクルのためにシステムをリセットするために制御システムが用いられる。非音波式音声認識システム用の他の設計において、制御ユニットは、送信された各パルスの所要周波数、送信ゲートにおける送信された波の位相、及び、他の類似機能を設定する。この種の制御ユニットは、システムの極めて重要な部分であるが、その構成は比較的簡単である（１つ又は数個のチップ上に構成されても差し支えない）。この種の制御システムの簡単なバージョンが、現在使用されている送信／受信チップ（回路基板）上のタイミング回路を用いて、実現された。サンプルの保持及びディスプレイは、例えば、記憶オシロスコープ及びコンピュータＡ／Ｄ変換ボード、及び、読出し装置のような、研究室設備と連携して実施される。４）処理ユニット及びアルゴリズム−−受信したＥＭ波信号の各集合に関しては、処理し、そして、未知の音声を意図した音声音または語（ワード）音に関連付けるために用いることのできる器官運動（或いは、それらの新規位置）に関する情報を獲得することが必要である。例えば、唇、顎、歯、舌、及び、ベラムの位置に関する情報は、そして、ベラムは、レンジゲート付きＥＭセンサ（即ち、レーダ）システムから、並びに、被検体としての人体の音声器官をそれぞれ異なる方向から見るように配置された他のタイプのＥＭセンサから水平方向に送信することによって獲得され得る。音声器官から受信した信号は記憶装置に記憶され、そして、変更変化に新しい新規位置に音声器官位置を次の新規ワード用の新規位置に変えるために要する時間に相当する１０ｍｓ（公称）の音声タイムフレーム毎に処理される。実際の音声フレームは、データ処理システムを最適化するように適応させることができる。ユーザーは、簡単なスレショルドテストを用いて、話し手が新規な音を出すために音声システムを変更する時を決定する音声器官状態の変化を測定することが可能であり、従って、ユーザーは、新規な音声タイムフレームの開始を自動的に定義することができる。音声タイムフレームを適応的に決定するために音声器官情報を使用すると、ユーザーは、最も明瞭なデータを獲得できるようにするために、初めて、音声出力を一定励起関数及び時間的に独立した声管状態に自動的に関連付けることができる。更に、ユーザーは、一連のタイムフレームからの特徴ベクトルをマルチタイムフレーム特徴ベクトルに合体させることも可能である。最後に、音波音声単位（例えばＰＬＵ等々）に関して、訓練された特徴ベクトルを識別するため、探索スピードを最適化するため、休止及び記憶場所を追跡、及び、類似のハウスキーピング活動を維持するために、任意の特徴ベクトルに、システム制御情報を追加係数として加えることができる。アルゴリズムは、ＥＭセンサ信号強度を正規化および数字化し、例えば、顎の下または顔正面の皮膚のような既知の基準場所を持った少数のＥＭ信号構造体のうちの１つを識別する。次に、アルゴリズムは、未加工のベクトル化されたデータを取り、そして、正規化し、量子化し、時間調整し、時間短縮し、そして、制御情報を用いて、同時測定音波音声の各フレームにおいて所定の器官構成に対応するそれぞれ一連の信号に関して、正規化済みベクトルを作成する。次に、公知の比較システム（音波音声認識プロセッサにおいてしばしば使用される）を用いて、ライブラリ内の標準化された数値特徴ベクトルに対して比較を実施することができる。そのような比較の一例としては、５０個の米語音声ＰＬＵ（或いは、類似の音波単位）の各々に関して、既知の器官運動または場所データの集合に対して比較することが挙げられる。ライブラリ内の認識済み語（ワード）‐音と関連した既知の特徴ベクトルの該当する係数に対して未知の特徴ベクトルが明確にマッチした場合には、音節、音素、または、フォーンのような単位（ＰＬＵ）、他の音波音声単位、語（ワード）、または、フレーズ（句）としてしばしば定義される認識された音単位を産出する。各タイムフレームに関して特徴ベクトルによって記述するこの方法は、例えば、更に複雑な音単位の識別に関する２フォーン、３フォーン、全ての語（ワード）、及び、フレーズ（句）のような順次的タイムフレームの集合まで拡張することができる。更に、この方法は、既知の音波音声単位と関連した発音された特徴ベクトルからライブラリを自動的に生成することを可能にする。ここに示す例は、米語音声を対象としているが、本方法は、全ての自然の人間言語、他の人間のたてる音、本方法によって測定可能な構造によって引き起こされたある種の動物の交信、及び、例えば車椅子に指示するため、ＣＲＴスクリーン上のカーソルを動かすため、或いは、セル型電話を作動化するための舌の動きのような、合成通信技法と結合した人間の音声器官運動に適用可能である。次のアルゴリズムの基礎は２つの主要係数に頼る。ｉ）非音波技法。ＥＭセンサから導出された音声器官位置及び運動測定値は、マイクロホンを用いる音波的音声測定値から統計的に独立している。従って、２組の情報集合は、統計的な測定上の意味を相互に補足する。特に、ＥＭ信号は音声的な特定の情報に加えて多くの余分な情報を含む音波信号とは対照的に調音器官、ひいては、音声に関する条件を直接示すことができる。ｉｉ）ＥＭセンサ信号は音波信号から確実に抽出することが非常に困難な特定の調音器官の活動の明白な証拠を提供する。多くの音声器官運動は「隠されて」いて、数学的技法を用いて音波信号から抽出可能でないか、或いは、動く器官は音声音に影響しないか、或いは、重要な器官運動は音声単位が発声される前または後に起きる。従って、非音波器官測定は、音声認識、音声情報のコード化、話し手の識別、及び、音声技術の分野にとって非常に重要な生理学的な特質を測定する正確度を上げるように使用するためにこれまで利用可能でなかった重要な追加的情報を提供する。非音波的音声認識情報を実行するために用いられる実例となるアルゴリズムに含まれる事例を次に示す。４Ａ）場所特定（ロケーション）アルゴリズム。既知の器官に関して、各器官上の１つ又は幾つかの場所から反射されたＥＭ波信号の振幅が、公称的に１ミリ秒毎に測定される声帯の場合を除き１０ミリ秒（公称測定時間）毎、或いは、解像度を上げるためには更に頻度を高くして測定される。伝播方向に沿った場所を決定するために経過時間のレンジゲートがしばしば用いられる。多数のＥＭ波送信パルスからのデータは平均され、修正され、正規化され、量子化され、時間調整され（基準位置に対して）、そして、一連の記憶場所（約１００箇所）に記憶される。音声器官の状態は全体を一時に測定するか、或いは、例えば、舌の前部、本体（即ち、ブレード）、及び、舌の背部の運動及び位置のように、個々の器官の部分を１０ミリ秒毎に測定することができる。別の例においては、声門組織（特に声帯皺僻）の反射状態が、リアルタイムアルゴリズムを用いて１ミリ秒毎に測定され、そして、これらの信号は正規化され、次に、特徴ベクトルに形成される。しばしば、逐次的タイムフレームからの特徴ベクトルは、時間依存性特徴ベクトルを形成するために一緒に結合される。測定された未知の器官データを既知の器官状態と関連付けることを可能にするために、これらの特徴ベクトルは、既知の音波音声単位で表した記憶されているベクトルの事前測定表（例えば、コードブックまたはライブラリ）に対して比較される。この種の情報は、マッチさせるための言語的情報を反映するために、幾つかの方法で、測定、平均、正規化、及び／又は、処理することができる。例えば、この種の特徴ベクトルは、より多くの一意的標示またはパターンを獲得するためにフーリェ又は他の変換を用いて、変換することが出来る。他の技法としては、時間周波数スケールの伸張、及び、改良された表（又は、他の統計的）比較のために振幅の対数を求めることが含まれる。数個の音声器官からのデータを一度に使用することにより、器官の１つが、他の音声器官によって引き起こされた数個の異なる音に関して、人体によって、同一の方法で使用される場合に発生する問題を解決することが出来る。話し手の音声システムを必要とされる極限まで練習させる一連の既知の語（ワード）及び句（フレーズ）（即ち、訓練シーケンス）を発音するように話し手に要求することによって特定の器官の反射特性、及び、個人の器官の移動範囲（距離および速度の両方に関して）の正規化を達成できる。その後で、各音声タイムフレームにおいて、発音中の個人の全範囲に関する各器官（或いは、器官の部分）の状態を記述する特徴ベクトル係数は、１人又は複数の基準話し手の既知の全移動行程または全速状態に対してマッピングすることが出来る。同様に、話し手の最高および最低ピッチ周期拡張、並びに、中間ピッチ値は、数個の訓練語（ワード）または句（フレーズ）を用いて測定し、そして、基準化された話し手のピッチ周期レンジにマッピングすることが可能である。これらの方法は、各特徴ベクトルから多くの音声的個性を除去し、更に正確なコードブック参照過程を可能にする。上記の特徴ベクトルの結合は、音声的結合（即ち、パターンマッチング）、ＨＭＭ、ニューラルネットワーク、または、他の公知の統計的技法を用いて実施可能である。これら技法の幾つかは、個々の語（ワード）に関して実演済みである。同様に、標準波音単位認識技法を用いて、音波特徴ベクトル及び識別データを生成することが出来る。次に、これらのベクトル及びデータは、既知の音に関する結合済みデータベクトルの既知の表に対して比較可能な結合された特徴ベクトルを生成するために、標準統計および音声認識技法を用いて、ＥＭセンサデータとの結合が可能である。４Ｂ）運動パターンアルゴリズム。このアルゴリズムは例えば、その逐次的対（ペア）が、例えば１０ミリ秒の他の全ての音声フレーム周期から相互に差し引かれる上記の音声器官場所信号を用いることにより作動する。新規な語（ワード）として形成されるこれらの変化は、測定間隔時間によって除算される。結果として得られる速度は、事前に定義された音波対（ペア）、及び、例えば半母音、二重母音、及び、破裂音のような「動く」音単位のライブラリと比較される。英語には、通常使用される約１０００個の音対（サウンドペア、即ち、２フォーン）がある。この比較的少数の音対を探索するためには、新規な音波タイムフレームの間の公称１０ミリ秒のタイムスケールよりも遥かに短い時間を要する。各ＰＬＵ（或いは同様の音波音単位）、或いは、一連のＰＬＵ用パターンに関する器官運動パターンは非常に特異であるので、これらの速度アルゴリズムは非常に重要である。更に、タイミング情報と関連した一連のＰＬＵの特徴ベクトルは、各個人にとって非常に個性的であり、そして、話し手識別アルゴリズムに関して基礎を形成する。４Ｃ）サウンドキューアルゴリズム。ユニーク音声単位表示「キュー」は、音波音声情報と共に、１つ又は少数の音声器官を測定する１つ又は複数のＥＭセンサシステムの簡素化されたバージョンを使用して獲得される。声帯皺僻運動の存在または欠如を測定するために１個の単一ＥＭセンサを使用することにより、有声音声が発生しているかどうかを決定する価値のある情報を音声認識システムに提供することが出来る。同様に、１個の単一顎運動ＥＭセンサは、音声の事前行為としての顎と舌の運動、及び、音声が或る音声的状態を表示できる期間中における舌運動を検出することが出来る。速い舌先運動は／ｔｈ／音、或いは、スペイン語式まき舌／ｒ／音を確認可能であり、そして、速い顎降下は／ｂ／または／ｐ／のような破裂音を指示可能である。これらの方法を使用することにより、ピッチ周期を求め、これらの全てが処理後モードにおいて使用可能な有声タイムフレームを定義し、ノイズを検出するために音声の存在を確認し、音の有声または無声を検査し、音素の調音レートを測定し、従来の音波認識システム（ＣＡＳＲ）に欠如した情報を供給するために類似音ＰＬＵ（／ｉｎｇ／対／ｉｎｅ／）及び他の有用なキュー情報を区別することを可能にするので、声帯皺僻運動は特に有益である。４Ｄ）ワード標示アルゴリズム。１つ又は複数のワードの調音に際して送信および受信された一連のＥＭ波信号は収集可能であり、そして、語調音の全期間中に処理可能である。同時に、音波信号が獲得され、そして、逐次的なフレーム特徴ベクトル内に処理される。例えば、２０個の単一フレームベクトルで構成されるマルチタイムフレーム、マルチセンサ特徴ベクトル（各１０ミリ秒が２００ミリ秒の音声を表す）は調音器官および正規化済みタイムフレームである。次に、必要に応じて、これらは更に処理される。例えば、典型的変換（例えば、フーリェ、Ｚ‐変換）によって時間または空間周波数に変換される。これらは、全ての語（ワード）の正規化済みマルチセンサ、マルチタイムフレーム記述子としてベクトルに形成される。この種なベクトルは、プリプロセッサ或いはポストプロセッサモードにおいて、数１０００語（ワード）の限られたライブラリ内の正規化済み語（ワード）の訓練周期に作成れた同じ構造の既知ベクトルと比較可能である。他の更に簡単な方法は、ユーザーによって発音されつつあるワードに関する最良の決定を行うために、従来の音波式音声認識システム（即ち、ＣＡＳＲ）を使用することである。この識別決定はＥＭセンサによって得られたワード特徴ベクトルを用いて同様の判断と比較可能である。ＥＭセンサによって得られたデータは、決定を確認するか、或いは、ＣＡＳＲによって行われた幾つかの代決定の間で選択を行うために用いられる。ＣＡＳＲによって選定された語（ワード）が確認された場合には、当該語（ワード）は、合同確率によって認識されたものとして、受け入れられる。確認されない場合には、ＥＭセンサによて生成されたデータ集合からのデータを用いてＣＡＳＲシステムにとって混乱の原因となる語（ワード）の小さい集合の中で最良の推測が行われる。ＥＭセンサデータは、語（ワード）としての「ｓａｉｌｉｎｇ」対「ｓａｌｉｎｅ」、及び、「ｓｉｘｔｅｅｎ」対「ｓｉｘｔｙ」における曖昧さを解決するために実験的に用いられたことがある。この考え方は、小および中サイズの語（ワード）集合に対して使用可能であり、そして、コンピュータ記憶装置及びプロセッサスピードが向上するにつれて、２０，０００語から４０，０００語以上までの非常に大きい語（ワード）集合まで拡張可能である。４Ｅ）モデルに基づくアルゴリズム。人間の音器官システムのモデルを使用することは音波音声解析における通常手段である。ソースが知られているこの場合、これらのモデルは、一般に、音波共鳴管を駆動するための励起供給源が既知であり、そこから、聴取者或いはマイクロホンに向かって音圧波が放射される性質を備える。音声には２つの主要タイプがある。「有声」の場合には、声帯皺僻は急速に開閉し、声管に周期的な空気のバーストを供給する。「無声」の場合には、声管が拘束され、空気の乱流および関連する「修正‐ホワイト」空気流ノイズが引き起こされる。（両方の過程により、少数の音が同時に発生する。）人間の声管は、励起ノイズ供給源を認職可能な音に変える複雑な線形音波‐機械式フィルタである。物理的には、音波管は、長さが異なり、局部的に形状が異なり、側方分岐共鳴構造、鼻通路結合、及び、終点構造の一連のチューブ（管）体である。励起圧力波が供給源から口（及び／又は、鼻）に進行するにつれて、この励起圧力波は、管構造体の変化によって定常的に送信および反射する。ベル研究所（Ｊ．Ｓｃｈｒｏｅｔｅｒ、及び、Ｍ．Ｍ．Ｓｏｎｄｈｉ、ＩＥＥＥＡＳＳＦ、２（１）１３３（１９９４年）、及び、引用文）及び他の場所における、人間の声管共鳴体の形状と所定の音声音との関係についての研究により、励起供給源の特性およびこれに関連した声管構成についての正確な知識により、例えばＰＬＵのような基本的な音波音声単位について一意的に特性記述することが可能であることが判明した。これらの器官構成についてのこの正確度は、特徴ベクトルの係数として形成された多数の小さい集合によって伝達可能である。音声音に変化が起きた場合には、その変化を起こすために話し手が１つ又は複数の音声器官を動かしたことも既知である。音波情報だけを用いて声管状態を一意的に決定し、それによって、音波音声の所定のタイムフレームのために意図された音波単位を一意的に定義することも不可能であることも判明した。ＥＭセンサ情報の使用は、一意的に音声フレームを定義することを可能にし、各音声フレーム期間中に起きる励起関数のタイプとその特性を決定することを可能にする。伝達関数情報は、音声器官の場所と次元を測定することによって獲得可能であり、結果的に、多くのタイプのモデルと関連させることが可能である。１つのモデルは、一般的な性質の声管の機械的および音波的構造を記述する。更に簡単なモデルは、音声タイムフレーム期間中に用いられる声管のタイプを決定するために、個人における種々共鳴器官の狭搾及び状態を記述するＥＭセンサ情報を用いる。この種のモデルは、一般的な電気回路類推に基づくことが可能であり、それらのために、測定データから伝達関数値を獲得するための種々の手順が開発され、そして、それらの係数は、特徴ベクトルの形成に用いることができる。最後に、例えば多項式またはＬＰＣ手順のような簡単な曲線フィッチングモードも使用可能である。これらはコンピュータ的には使用が容易であり、所定の音声タイムフレーム期間中および数個のエピックに亙って伝達関数適用の受け入れが許容されるためには、比較的少数のパラメータを必要とするに過ぎない。サウンドモデルを使用するための過程は、選定した器官の運動および位置を決定するためにＥＭセンサ情報を使用し、各音声タイムフレームまたは一連のタイムフレームに関する励起関数及び声管モデルの実際的な物理的更新を獲得することである。比較的少数の正しい励起関数及び各音声タイムフレームに関する伝達関数適用パラメータで構成される特徴ベクトルは、非常に高い確率で正しい語‐音識別を可能にする。数個の音声フレーム期間に亙って継続する１つのＰＬＵ（例えば、フレーム当たり１０ミリ秒で１００ミリ秒）は特徴ベクトルを作成する複数（例えば１０）の機会生成する。特徴ベクトルが、ユーザーが定義した値以上に変化しない場合には、多重タイムフレーム特徴ベクトルは、計算及び記憶を最小限にするように形成可能である。更に、多重タイムフレーム特徴ベクトルは、単一或いはゆっくり変化する特徴ベクトルについて述べた方法と全く同じ方法で使用できる。音声器官運動と音との間には直接的な関係があるので、モデルを用いる方法は、音声期間中に、過去において可能であったよりも一層基本的な音声システムのパラメータ化を供給する。モデルを用いる方法は、逐次的な音声フレームを定義することができるので、例えば２フォーン、３フォーン及び全ての語のように、結合した語音の記述を簡素化することが出来る。一旦定義され、そして、当該フォーマット用のライブラリが一旦作成されると、音声‐テンプレートパターンマッチング、隠れたマルコフモデル及びその他を含む多くの統計的技法を使用する後続する語音識別に関して選定され、測定され、そして、形成された特徴ベクトルを使用することができる。５）ポスト処理ユニット５Ａ）比較：音波プロセッサからの識別情報がＥＭセンサ音声認識システム（１個または数個のＥＭセンサ）からのワードサウンド（語音）識別情報と結合される場合にはポスト‐プロセッサが用いられる。従って、統計的技法を用いる結合決定は両方のシステムからの情報を用いて実施される。このポスト処理は、アルゴリズム４Ｃ、及び、４Ｄ以上に必要である。５Ｂ）綴字法と文法：ポスト処理コンピュータユニットは、識別された音声の第１レベルを更に分析するために使われる。前述のアルゴリズムを使う識別の第１レベルはＰＬＵを音声音及び音声器官運動と関連付けるが、完全な綴字法および完全な文法は提供しない。これらのポスト処理活動は、音波式音声認識システムにおいて現在一般的に用いられる。５Ｃ）セキュリティ（機密保護）：各話し手の個性的な特性は、ポスト処理の一部として、分析され、そして、話し手の物理的音声器官運動および形状特質並びに話し手が、例えば、パスワード、自分の名前、等々のような肝要音を発声するために自分の器官を使用する方法の既知記録と（リアルタイムにおいて）比較されることが可能である。各人の音声器官は独特の機械的特質を持ち、そして、彼が既知の語または句の集合を発音する場合に、これらの器官が協調して−位置対時間−用いられる方法は各個人に関して独特であるので、ＥＭセンサ情報は、音声単独では不可能な非常に洗練された識別プロセス過程を警備システムに加えることを可能にする。６）ディスプレイユニットコンピュータを用いた音声認識のユーザは様々な用途に利用可能でなくてはならない。コンピュータＣＲＴスクリーンは、発音された語（ワード）の書かれた語（ワード）表現を示すために用いられ、音声シンセサイザーは、話し手が、機械に向かって話した自分の制御命令または語（ワード）の流れを検査できるように、ユーザーが今発音したばかりの音声をユーザーに対してプレイバックするために使用できる。データは、印刷したり、携帯用または固定記憶装置に記憶したり、ファクシミリ、電子メール、これらと類似の応用方法のような通信リンクを介して伝送することが出来る。７）キーボード又は手動制御ユニット手動制御ユニットは、話しかけられているシステムの命令を助けることが出来る。手動制御ユニット（「マウス」に類似）の利点は、例えば、制御命令対データ入力のように入力中の音声のタイプを伝えることを助け、ユーザーによる制御の速度と確実性を増大するために、組合わされた音声−手−指示カーソルに指示を与えることによって編集を助けることである。８）外国語識別及び翻訳ユニット器官運動及び器官の相対運動の統計資料は、同時音波音と共に、話し手の言語を識別するために用いることが出来る。話し手が、既知である一連の語（ワード）または句（フレーズ）を繰り返すように要求された場合には、言語の特質を例証するようにテスト用集合が選択されるので、話し手の言語に関する集中は更に速い。更に、音声認識済みのテキストを、別の人に伝達するために、或る言語から、音声シンセサイザーへのテキストを介して別の言語に翻訳するために同じユニットを使用できる。９）補助入力ユニット認識を助けるか、或いは、例えばビデオのように同期化を必要とする他の装置は、このユニットを備えたシステムに取り付けることができる。伝送ユニットも他のシステムと交信することが必要である。図面の簡単な説明図１は先行技術による開ループ音波式音声認識システムの概略図である。図２は、ＥＭセンサと音波センサとを用いて組合わされた非音波式／音波式音声認識システムを備えた声管モデルの概略図である。図３は、音波センサと数個のＥＭセンサとを用いる音声認識システムの概略図であり、そのデータは１つの特徴ベクトルに結合される。図４は頭部の断面図であり、３個のＥＭセンサと１個の音波センサを備えた音声認識モジュールの音声器官及び位置を示す。図５は、ポストプロセッサ、ビデオ入力、及び、伝送線出力を備えたＮＡＳＲ（非音波式音声認識）システムの概略図である。図６は、音声列「ａａａ」及び「ａｎａ」に関する顎と舌先の運動に応答するＥＭセンサを示す。図７は、「ｓａｉｌｉｎｇ」及び「ｓａｌｉｎｅ」に関する顎／舌先運動に応答するＥＭセンサを示す。図８Ａ−Ｃは、話し手の首部内の声帯皺僻に対して透過および反射するＥＭパルスの概略図である。図８Ａ、Ｂは放射システムであり、図８Ｃは近距離場システムである。図Ａ、Ｂは、ワード「ｆｏｘ」に関して音波式及びＥＭセンサから同時に得られた声帯皺僻開／閉データを示す。図１０Ａ、Ｂ、Ｃは、音素／ｔ／を、次に／ｏ／を調音するために器官が休止から動くにつれて一連の音声器官から反射される１つの単一透過パルスから受信した電圧信号の例証的表現である。図１１Ａ−Ｄは、パルス伝播方向、レンジゲートの場所、レンジゲートスイッチからのディジタル化された信号が記憶されている記憶場所（即ち、ビン）と共に、１つの透過ＥＭパルス、一列配置された全ての器官から反射されたＥＭ信号アナログ電圧を示す。図１２は、予備処理、特徴ベクトル形成、及び、合同決定アルゴリズムを含む音波センサ信号検出を伴った合同ＥＭセンサ（例えば、場妨害モード）声門組織（例えば、声帯皺僻）検出のフローチャートである。図１３は、予備処理、特徴ベクトル形成、及び、合同決定を含む音波センサ信号検出を伴った多くの器官の合同ＥＭセンサ（例えば、走査レンジゲート）検出の水平図フローチャートである。図１４は、一例としての論理的決定値を用いたＮＡＳＲとＣＡＳＲアルゴリズムとを結合するアルゴリズム決定トリーを示す。図１５Ａ−Ｄは、音素／ａｈ／に関する音波及びＥＭ声帯皺僻センサデータであり、振幅対時間およびフーリェパワースペクトル表現を示す。図１６は、「ｏｎｅ」に関する声帯皺僻運動と共に舌／顎運動を示す。図１７は、舌口蓋「接触」検出に関し、接触した場合における舌口蓋システムの反射率の強い変化を検出する顎の下に取り付けられた場妨害モードＥＭセンサを用いて求めた実験的データを示す。図１８は、その中において接触が発生する音声フレームに関して舌口蓋接触情報を検出し、そして、それを特徴ベクトルに記憶するためのアルゴリズムのフローチャートである。図１９は、音声の開始、音声の終結、有声または無声音素のの識別、休止の存在、及び、外部ノイズの存在に関するアルゴリズム的手順のフローチャートである。図２０Ａ、Ｂは、ピッチレートに大きい差のある文字「ｅ」と「ｕ」とに関する同一話し手からの帯皺僻波形を検出するＥＭセンサ（場妨害モード）を用いた実験的データを示す。図２１Ａ−Ｃは、水平レンジゲートされたデータ及び声帯皺僻開／閉データの結合特徴ベクトルからディジタル化された反射対位置信号を示す。（Ａ）音声開始の少し前、（Ｂ）音声器官が音素／ｔ／を発音する位置にある場合、（Ｃ）背景を除去する方法を示す（Ａ）と（Ｂ）との間の差。図２２Ａは、音声器官がワード「ｔｏ」内の音素／ｏ／を発音する位置にあるということを除けば、図２１Ｂにおける場合と同じディジタル化反射信号を示す。図２２Ｂは、２つの音素音声フレームの間の速度または運動ベクトルを形成するためにフレームｎ−１からフレームｎに関する特徴ベクトルを減算することによって２フォーン特徴ベクトルを形成する１つの方法を示す。図２３Ａ、Ｂは、静止反射人工物を除去した状態において２つの音素／ｔ／と／ｏ／に関する特徴ベクトルパターンが、整列された水平ゲートＥＭセンサ及び場妨害声帯皺僻センサからどのようにして作られるかを図面的に示す。図２４Ａ、Ｂは、顎の下から見上げるセンサによる音「ｕｈ」及び「ｏｏ」のＥＭセンサ（即ち、レーダ）整列スイープを示す。図２４Ｃは、反射信号は基準からの場所別に「ビンに入れられ」、背景人工物が除去された状態において処理されたデータの一例を示す。図２５Ａ−Ｈは、「ｔｈｅｑｕｉｃｋｂｒｏｗｎｆｏｘｊｕｍｐｅｄｏｖｅｒｔｈｅｌａｚｙｄｏｇ’ｓｂａｃｋ」と言う文に関する音波及びＥＭ声帯皺僻信号を示す。図２６Ａ−Ｄは、「ｔｈｅｑｕｉｃｋｂｒｏｗｎｆｏｘｊｕｍｐｅｄｏｙｅｒｔｈｅｌａｚｙｄｏｇｓｂａｃｋ．」という文に関する４個のセンサ（図４に示す位置）の出力を示す。図２７は、「ｓｉｘｔｅｅｎ」及び「ｓｉｘｔｙ」に関するＥＭ舌／顎および声帯皺僻信号を示す。好ましい実施例の詳細な説明一般原理図１に示す在来型音波式音声認識（ＣＡＳＲ）システムと比較されるべき非音波式音声認識（ＮＡＳＲ）システムを図２に示す。比較すれば、先行技術ＣＡＳＲシステムは音響情報のみから特徴ベクトルを形成するが、図２のＮＡＳＲシステムは、多数の音声器官（声帯皺僻、軟口蓋、舌、及び、唇を指す）のＥＭセンサ測定を行い、次に、音響情報を記述する特徴ベクトルを用いて、音声単位時間フレームを記述する一層複雑かつ一層情報的に豊かな特徴ベクトルを作成するために、これらの信号を記述する特徴ベクトルを組み合わせる。音の生成は、実際には、加圧空気供給源を供給する肺において始まる。声に出した音声モードにおいて、声帯皺僻は、励起パルスとして空気の破裂流を生成するために開放および弾発閉止することによって空気流を変調する。オン‐オフパルス波形は、声管構造の共鳴と共に、聴取者が聞きとる音声音を決定する。声管の形状は、多くの音声器官の位置によって決定される。軟口蓋は、鼻腔に向けられて鼻から出る空気流の一部を制御する。舌の位置は、口腔の共鳴反応、及び、フリケーション（狭搾気音）と呼ばれる乱流音のための空気狭搾の大部分を規定する。最終的に、唇は、音響共鳴体の末端、空気流量、ひいては、音の強さを制御する音響孔（及び、音響アンテナ）、並びに、狭搾気音のための空気狭搾を生成するための乱流発生体として両方の機能を果たす。声帯皺僻（声門）および唇（及び、時々、鼻）は、一連の音響共鳴室の２個の末端を形成する。音響エネルギーは、一方では、口（及び、鼻）を通って外部へ向かって発散し、鼻からの信号Ｙｎ（ｔ）と口からの信号Ｙｍ（ｔ）を生成し、もう一方では、音響インピーダンスの不連続性に起因して、幾分低レベルのフィードバックＺ（ｔ）が内側に向かって伝播する。図２（多重器官フローチャート）は、重要器官の位置の特定項目を感知するＲＦセンサの可用性に基づいた音声処理モデルを示す。数個のセンサの１つ、或いは、別の組への拡張は同様に実施可能であり、これについては、後で検討することとする。声帯センサ出力信号は、リアルタイム信号としては以前には決して利用できなかった声管の真の励起信号と関係がある。励起源の動作を知ることから導出される音声処理モデルは、声管の変化（軟口蓋を介した鼻の開口部を含む）の発生場所及びその程度と共に、測定中の音声時間フレーム期間中における更に良好かつ更に精密な音声器官の位置と運動のモデルに従って、大幅に良好かつ一層精密な特徴ベクトル係数の表現を可能にする。所定の音声タイムフレーム期間中における声管の定義に参加する他の器官の位置に関する同様の測定は話し中のＰＬＵと関連し、大幅に良好かつ一層精密な特徴ベクトル係数の表現を提供する。図３において、音響マイクロフォン１からの信号と声帯皺僻、舌‐顎、及び、唇に関する３個のＥＭセンサ２、３、４からの信号は、声管の特徴ベクトル６を形成するために、声管モデル５を用いて組合わされる。同様に、センサ２、３、４からの信号も、個々の特徴ベクトル７、８、９を生成するために使用可能である。特徴ベクトル６、７、８、９は、更に処理および正規化される共同特徴ベクトル１１を形成するために、他のセンサ１０からの任意情報を用いて、組み合わせ可能である。記憶されている特徴ベクトルライブラリ１３に対して特徴ベクトル１１をパターンマッチング１２することにより、音響識別が行われる。最後に、語（ワード）組立１４及び文（センテンス）組立１５が実施され、ワードスペラ、文法及び文脈訂正システムによってテストされ、利用者が必要とする所に送られることが可能である。操作モード及び制御ＥＭと音響検出器の使用に関する多くの操作モードがある。人体のＥＭ放射を低い状態及び連邦指針内に保持し、システム、特に無線システム用の電力使用を最小限にするために、ＥＭ波伝送モジュールの作動時間を制御するために数種の技法が用いられる。音波マイクロホンは、言語音声生成と同時であるべき「定刻」に作動開始可能であり、同様に、発声テストのためにＥＭセンササンプリングを回数少なく使用することが可能であり、そして／或いは、ＥＭセンサシステムを作動開始させるためのボタン又は同様のセンサデバイスを作動化するために指その他の人体の一部を使用する回数を少なくすることができる。更に、人体とＥＭの相互作用を最小限にし、音声認識または関連音声技術ユーザーの必要性を満たすために、ＥＭセンサ周波数、パルスフォーマット、及び、パルスフォーマット繰返率をユーザーが選定する。図４は、関連音声器官を備えた頭部と図解的なＮＡＳＲセンサ２０の略図を示す。この図には３個のＥＭセンサ送信／受信モジュール２１、２２、２３を示すが、１個か又は３個以上であっても差し支えない。更に、マイクロホン２４は、同時音波情報を獲得するために用いられる。センサ２０は、必要な電子装置、例えば、タイミング及びレンジゲートチップ２６、及び、メモリチップ２７、並びに、例えば、ドライバチップ２８のような有線または無線のデータ転送手段を含む。モジュール２１は、唇、歯、及び、舌先に向かって送られ、そして、送り返されるＲＦ波を示す。モジュール２３は声帯皺僻及び声門に向けられる。モジュール２２は、下顎に向けて上方に、そして、唇口蓋器官領域に放射される波を示す。モジュール２２内の検出器に戻るこの波の反射は「開き」、或いは、上顎に対して下顎、及び、口蓋に対する舌の閉じた状態における時間の関数としての性質に関する情報を提供する。送受信モジュールが上顎に対して基準となっている場合には、下顎位置の測定の助けとなる。そのためには、小さいマイクロホンを唇の前に保持するために使用する場合と同様の方法で前記モジュールをヘッドハーネスに取り付けることができる。第２の方法は、上顎口蓋または鼻の空洞構造に対する下顎の空気‐皮膚インタフェースの相対位置を測定することである。基準位置測定値を獲得する別の方法は、比較的遅い下顎運動の累積運動を時間の経過に関して積分する（即ち、追跡する）ため（頭部全体の運動と共に顎がゆっくり動き続けるものと仮定する）、及び、次に、測定し、そして、音声に関連した速顎運動から特徴ベクトルを形成するために送信機‐受信機レンジ‐ゲート制御コンピュータを使用する。低速運動を追跡するために用いられるセンサ及び他のＥＭセンサモジュールは、発声期間中における必要な器官の所在場所、例えば、例えば声門組織（或いは、単に声帯皺僻）の開閉運動、舌の上下運動、舌の前後位置、唇の開閉および下顎の上下位置を時間の関数として測定することが出来る。これらの例は、この種の全てのモジュール位置、器官のタイプ、配線方法、等々の排他的なリストであることを意味しない。人体の当該部分にこれらのプロセッサを対面させるか又は近接させるための所定場所に保持するために必要な補助用具は図示しない。取り付けるためには、テープ接着センサから、速記者様マウスカバーを取り付けるための電話交換手様マイクロホンハーネスに至る、様々な手法を用いることが出来る。この種のマウスカバーは、ＥＭセンサ、マイクロホン、及び、他の特殊化されたセンサ（例えば、空気の動きセンサ）を保持するために特に適切である。モジュールも、同様に、人体から離れて配置される支持用具によって保持できる。この種の支持用具は、話中の人、等々によって使用されるマイクロホンに付着して車のハンドル又はサンバイザに取り付ける事も出来る。頭部位置に対するＥＭセンサ発生器及び受信機モジュール（分離していても一緒になっていても差し支えない）の設置場所は用途の価値、音声器官からモジュールまでの距離が増加するにつれて音声器官場所を正確に特定する必要性に起因するモジュールの追加コスト、及び、モジュールと人体との間が離れるにつれて増加する音声器官／空気インタフェースの追跡と関連した追加コストに依存する。ＥＭセンサレンジング音声検出モジュールは、人体に対して接触、近接、分離して配置し、マイクロホンに直接または近接して（手で保持するか、ハーネスに付着させるか、又は、通常マイクロホンスタンドに用いられるように）取り付け、或いは、ヘッドヘルメット（部分または全頭部被覆）、マウスカバー、及び、頭部に近い人体の部分に取り付けた他のディバイスに含ませることが出来る。図５は、図４のセンサ２０を用いた、ＥＭセンサと音波検出器の両方を含むＮＡＳＲシステム３０を概略図示する。センサ２０は、無線（ＲＦ又は光学）リンク、または、ケーブル通信リンク３１によって、プロセッサ３２とその関連周辺装置に接続される。他の装置、例えば、ビデオカメラ４７は、同期化または追加情報用に、ユニット４６を介してプロセッサ３２にインターフェイスできる。ＮＡＳＲプロセッサ３２は、制御ユニット及び一般プロセッサ２９へ接続される。音声シンセサイザーユニット３３、音波音声認識装置３４、ワード綴り及び文シンタックス発生器３５、外国言語識別装置／翻訳装置４２、ＮＡＳＲコードブック４３、話し手識別ユニット４４、及び、ボコーダユニット４５はプロセッサ２９に接続可能である。入力キーパッド３６、キーボードまたはマウス４０、言語フィードバック用ヘッドホン３７、及び、音波拡声器３９を備えたビデオ端末装置３８もプロセッサ２９に接続可能である。認識された文字及び語および音波信号は、無線またはケーブルリンク４１に出力出来る。システムは、制御ユニット２９によって制御および調整される。ＥＭセンサ応答データの例を図６及び７に示す。ＥＭセンサ（図４におけるセンサ２２）は、話し手が音「ａ」及び「ａｎａ」を発音する時に舌先の動きに応答する。図６のＥＭセンサデータは、開母音発声の幾つかの主要段階を明瞭に示す。即ち、顎が開くと共に始まり（上向き信号）、そして／ａ／音の後で顎／舌を閉じる（下方き信号）。舌は殆ど役割を果たさない。／ａｎａ／の場合には、／ｎ／は、／ａ／音の間の速い、しばしば不十分に調音された舌の上昇を伴い、舌を下げ、そして、顎を閉じることによって音声列が終了する。図７は、従来のＣＡＳＲ技法を用いて区別することが困難な類似音「ｓａｉｌｉｎｇ」と「ｓａｌｉｎｅ」に関して、舌の場所に対するＥＭセンサレスポンスのフィールド妨害モードを示す。これら２つの場合において、「ｉｎｇ」と「ｉｎｅ」に関連して異なる舌の位置が、異なる反射率対時間によって明瞭に示される。／ｌ／位置から／ｉｎｇ／のための後方位置までの舌の動きによって、正の信号部分に２つのこぶと、／ｉｎｇ／を発音するために舌が下がるにつれて、舌が／ｌ／から／ｉｎｅ／まで移る場合の波形に比較して遥かに大きい１つの負の反射された信号を生じさせる。非音波ＥＭセンサの原理ＥＭ波の生成、送信、及び、反射図８Ａ、Ｂは、伝搬路に沿った２つの説明的な場所から見た１つの単一線形偏極ＥＭ波パルスの送信、放射、及び、反射を示す。図８Ｃは、別の異なった配列構成を示し、この場合、ＥＭ波は非放射性であり、「近距離場」反射率の変動を測定する。図８Ａ、Ｂの場合は、ＥＭ波センサシステムはレーダタイプである。波が首部に入ると、首の組織は誘電率εが空気のε０^1/2＝１より大きい物質であるので波長は短くなり、伝搬速度「ｃ」は、ｃ掛ける１／ε^1/2に低下する。更に、電場の振幅は２つの理由により降下する。順方向に伝搬するＥＭ波のかなりの部分は最初の表面、空気と皮膚のインタフェースにおいて反射し、そして、誘電性媒体内においては、誘電率εが高いので、Ｅ場は降下する。波長が短くなること及び波の速度が低下することによって、空気中の各レーダパルス長に比較すると非常に小さい頭部の内部構造の寸法及び場所の測定を可能にする。ＥＭパルス長寸法の１／１０未満までの距離を測定することが一般的な実技なので、当該組織内における半波パルスの波長１．５ｃｍの１／１０、即ち、１．５ｍｍの構造インタフェースを検出できる。更に重要なことは、音声器官の動きが１組のＥＭサンプリングパルスと別の１組のパルスとの間で起きるにつれて、音声器官インタフェース内における０．１５ｃｍ未満の距離変化が容易に検出できることである。図８Ａ、Ｂにおいて、位置は変更は、声門組織運動体（例えば、声帯皺僻の開閉時における声帯皺僻）の運動に関連し、そして、インタフェースの場所とＥＭ波反射の程度を変化させる。実験によれば、０．００１ｃｍ未満の位置変化検出可能性が実証された。ＥＭ波送信の場合には、図８Ａ、Ｂに示す伝搬期間中の数箇所において示される正弦波の単一波パケットに加えて、各送信／受信期間中に音声器官組織からの反射を介して獲得された情報を改良するために、より多くの波サイクルを用いることを含めて、別の波形式（フォーマット）を使用することが出来る。種々異なる伝搬方向を使用可能であり、更に、１つ又は複数のＥＭ波の反射と減衰を決定するために、音声器官のサンプル採取に際して、受信機に対する発生器の向きを種々に変える方法（反対向き人体透過測定を含めて）も使用可能である。送信波は、波長が種々異なるか又はプログラムされた波長の変わる一連の波、波周期の一部から多数の波周期までに亙る波パケット、段付き又はスパイクパルスパケット（「インパルス送信」）、ランダムに変動するパルスを持つ波（例えば、「ノイズ」レーダ）、及び、１９９０年、ＭｃＧｒａｗＨｉｌｌ出版、第２版、Ｓｋｏｌｎｉｋ著「レーダーハンドブック」その他に記載された多くの形式の波で構成されることが可能である。ＥＭセンサ送信パケットは、共振効果を強化し、「スペックル（小斑点）」を除去し（例えば、直角位相技法を使用）、干渉式（例えば、ホモダイン）検出を最適化すること、及び、類似の技法により音声器官検出のために最適化することが可能である。ＥＭ波の検出及び処理１つのＥＭパルス（或いは、パルス列）は、受信された後で、処理され、他の器官からの他のパルスと相関付けられ、音波データと相関付けられ、ワード‐ユニット（例えば、ＰＬＵ）を自動的に選択するアルゴリズムに供給され、そして、ユーザー又は顧客にディスプレイされなければならない。ＥＭセンサは毎秒百万以上のパルスを容易に発生するので（実験は、２ＭＨｚパルス反復率で行われた）反射された各レンジ位置に関して、或いは、異なる１つの波長、等々について問い合わせるために１０００パルスを平均することができる。次に、別の新規レンジ、又は、波長、等々に切り替えが可能であり、従って、別の１０００パルスを平均することが出来る。それにより、ユーザーは、例えば、通常の音声タイムフレーム１０ミリ秒の期間中に２０個までのパラメータを測定出来る。（音声タイムフレームは、固定可能であるか、或いは、器官の音声率（スピーチレート）変化に適応可能であり、例えば、音声皺僻は５−１５ミリセカンド毎に開閉する）。同様に、図４は、多数の重要な音声器官インタフェースの場所を、喉の背部を通って顔面の正面から、下顎を通って上向きに、そして、首部に、順方向に直接測定する方法を示す。所定の時点におけるインタフェースの場所は、所定の音声単位、例えば、ＰＬＵと関連する。従って、各音声単位に関して、十分な個数の特徴のある音声器官の場所について、事前に知ることにより、ＮＡＳＲ情報のみを用いて、話されつつある音を識別することが出来る。しかし、ＥＭセンサの適性があまり完全でないために、ＮＡＳＲ統計と一貫性をもつ音素の個数を制限する。この限られた集合と、従来の音波技法（即ち、ＣＡＳＲシステム）によって識別される類似した音を出す音素の小さい集合とを比較することにより、正しい音波音声単位、即ち、音節、音素、ＰＬＵを識別する確率を高くすることができる。ＥＭセンサと音波センサは、完全に異なる（即ち、物理的および統計的に異なる）方法によって、音声と関連した特質を測定するので、この方法は機能する。獲得されたデータ及び計算は、全てのＮＡＳＲ器官測定値に関する正確度は９５％よりも大きい（そして、或る特定の測定値に関しては９９％よりも大きい）ことを示している。ＬａｗｒｅｎｃｅＬｉｖｅｒｍｏｒｅ研究室その他の場所における実験はＣＡＳＲ識別に関する正確度は９０％であることを示している。これらの実験によれば、この種のＣＡＳＲの誤りは、しばしば不完全な明瞭度或いは調音の随伴に起因する音波の特徴を区別することの欠如によって一般に発生することが判明している。ただし、関連した調音器官運動は、ＮＡＳＲシステムによって容易に測定される（図６参照）。両システムを一緒にした合同認識統計によれば、通常の環境において音声認識誤り率を１％未満にする。推定によれば、十分に正確なＥＭセンサおよびマイクロホンが上級アルゴリズムと共に用いられる場合、音波単位検出誤り率は１０の４乗分の１音素に近付くことが示されている。これは、高度に正確な語（ワード）認識であり、人間聴覚基準に近い。現在の音声認識技術の状況を改良するために、器官の場所と運動に関する完全な音声認識の知識は不必要である場合が多い。この種の状況については、アルゴリズムに関する幾つかの記述がここに記載されている。更に、幾つかのアルゴリズムでは、特殊化された状況と一般化された状況、例えば、語標示（ワードシグナチャ）アルゴリズム及び運動パターンアルゴリズムの両方において音声を認識する新規な方法を提供するために、ＥＭセンサからの利用可能な特殊情報が用いられる。これらのアルゴリズムは、音声における多くの調音および不完全調音状況を適切に記述するために、ＰＬＵペア（即ち、２音）、及び、ＰＬＵトリプリット（即ち、３音）、または、更に大きいＰＬＵ単位（例えば、語）が既知であるという事実を利用し、そして、これらの多重音単位に関する知識及びそれらの発声率は音声認識正確度を高くするために極めて有用であることが分かっている。ＥＭセンサデータは、音響センサの場合とは対照的に、部分的な器官の動き及び位置の特定は容易に測定可能であるので、音響学に到達するための優れた方法においてこの種のＰＬＵ集合を記述するためには特に有用である。ＥＭセンサシステムのタイプ音波音声検出と共に使用される音声器官運動のためのレーダ作動様式には２つの一般的なモードが実証済みである。（１）レーダモジュールを用いて走査済みレンジをゲートするモード（ゲート無し特別状況又は１ゲート固定状況を含む）。（２）ヘテロダイン（しばしば用いられる特別な場合としてホモダインを含む）。これによって、反射波の位相変化対時間の検出が用いられる。これら２つの一般化さされたモードは、公知の変形モード（Ｓｋｏｌｎｉｋ「レーダハンドブック」参照）及びこれらの組み合わせと共に発声器官測定のために非常に便利な構成を提供する。特に、２ＧＨｚ周波数ＥＭ送信モジュールは、インタフェース及び全器官の位置特定を時間の関数として提供する目的で音声器官運動を測定するために用いられた。２ＧＨｚ波長（約２ｃｍ）は、組織内においてよく伝達し（少なくとも２０ｃｍ）、そして、２５−８０から１箇所の誘電性の不連続部で反射される。周期が０．５ｎｓの波は、レンジゲートモードにおいて特定のインタフェースを測定するために下限は単一波、或いは、１／２波パルス周期（約０．２５から０．５ｎｓまで）まで全ての器官に対する数個の波（１−３ｎｓ）としてのパルス様式（フォーマット）において使用されるように適応する。この例は１つのＥＭセンサモジュール及び１つのアンテナに基づくが、他の「観察」方向から見た場合における器官からの情報を獲得するために多重モジュール及び多重アンテナ構成も使用可能であり、各所定の音声タイムフレームにおける更に記述的な特徴ベクトル構成に関して多くの特定器官インタフェースの場所を調査することが出来る。モジュール間の妨害は適切なトリガ制御によって回避されるか、或いは、モジュール当たりの実際の波送信デューティサイクルは極めて低いのでモジュール間に妨害が起きる機会も極めて稀であるのでモジュール間妨害は回避される。ＥＭ場妨害センサ音声および音声器官の運動を測定するために用いられる最も簡単な音声解析システムは、マイクロホン及び記録オシロスコープと共に使用される場（フィールド）妨害センサである。このセンサは、時間「平均」反射レベルと比較した場合に生じる器官から反射されたＥＭ信号レベルの変化を処理することによって作動する。１ミリ秒の時限に起きる変化を測定するためには、一般的なシステムは、器官の状態を２０００回測定して、平均する。この種の受信されて平均されたＥＭ信号を時間濾波することにより、徐々に変化する信号によって特徴付けられる非常に強力な平均背景が存在する状況において、所定の周波数または時間帯域における非常に小さい反射の変化の検出を可能にする。実例には、０．００１／ｃｍよりも小さい音波圧力波と関連した組織距離変化の測定が含まれる。音声システム及び頭部／首部構造における多くのインタフェースは異なるレンジに所在し、そして、非常に異なる速度で動くので、場妨害構成内において伝達されるウエーブ（波）パケットは、レンジゲート時間（従って、距離ゲート）内で全ての構造体によって反射される。後続するパルスが伝達され、そして、時間が経過するにつれて、１つは、１つの時定数を持つパルスの列によって構成されるリターン（復帰パルス）が積分されて、処理され、更に、別の時定数を持つ時間濾波により、この方法は、対象が異なる速度で移動する限りユーザーが多くの器官インタフェース状況に関する情報を獲得することを可能にする。例えば、前記の方法は、頭部の正常な低速運動からの迅速に変化する信号を識別することが出来る。詳細には、声門組織の動き（この場合、声帯皺僻の動きも含まれる）は声帯の開閉と関連する。例えば、５０から２０００Ｈｚ帯域の信号が、首と頭部からの強いが低速で移動する皮膚／空気反射の存在によって検出されるように、前記の声門組織の運動は周波数（或いは時間）濾波によって容易に検出される。同時に、経過時間の差に関して補正済みの音波音声信号も同様に測定および記録される。図９Ａは聴覚信号を示し、図９Ｂは、「ｆｏｘ」という語を発声するための声門組織運動信号を示す。「ｆｏｘ」における／ｆ／は、声にならない最初の音素であり、そして、「ｘ」は、声にならない／ｓ／音であり、「ｘ」の最終音への声帯皺僻「ｆｒｙ」遷移音を示す声になる／ｋ／である。／ｓ／音は、図９Ａにおけるｘ軸の範囲を越えて拡張する。その詳細を図２５Ｃに示す。図９Ｂは、音声フレームが声門組織運動パターンの変化によって定義可能である理由を示す。この図は、声になる（声帯皺僻が動く）か又は声にならない（声帯皺僻が動かない）音が各音声フレーム内において発生したかどうかを決定する簡素性及び実用性を示す。「ｆｏｘ」に含まれる声にならない／ｆ／とその次の声になる／ｏ／及び遷移／ｘ／を明瞭に認め、そして、アルゴリズム的に容易に識別することができる。レンジゲートされた動作ユーザーは、高速電子スイッチをレンジゲートと呼ばれるレーダモジュールの受信セクションにセットすることにより、組織インタフェースの存在を測定する。これにより、規定された時間、即ち、送信機から反射インタフェースまで、次に受信機に戻る往復時間の後で、受信した波からサンプルを取ることが可能になる。別の異なる時間通路に関して再びこの測定を実施することにより、時間の経過（従って、話されたメッセージの進行）につれて音声器官インタフェースの場所の変化を測定出来る。例えば、音／ｎ／を発生するために舌が持ち上げられるにつれて、空気に対する舌組織インタフェースを測定することが出来る。伝達されたパルスに関して受信機のサンプルタイム（サンプルゲート又はレンジゲートと呼ばれる）の遅延時間を変えることにより、舌‐空気インタフェース及び復帰の遅延時間を決定することが出来る。往復時間が、不連続性の無い場所、従って反射された信号が存在しない場所に対応することが起きる可能性がある。ただし、反射波が検出されるようにタイムゲートが設定される場合には、ユーザーには、インタフェースまたは不連続性が存在したことが分かる。時間の経過につれてインタフェースの運動に追従するために受信ゲートのタイミングを変えるようにユーザーがレーダに指示することが出来ることは明白である。これは、連続するパルスを送信し、そして、受信した信号が感知されるまで受信したパルスのタイミングを変える（「レンジゲートを動かす」）ことによってインタフェースの場所を見付けることによって達成される。この種のタイミング変化は、デジタルコントローラを使用するか、或いは、例えばタイミング発生器のようなアナログ回路を用いることによって達成可能である。現代のソリッドステートＥＭセンサモジュールは、毎秒百万（１，０００，０００）回の割合でパルスを送信可能であり、そして、音声器官の速度は比較的遅いので、音声器官のインタフェースの追跡を続けるためには、毎秒わずかに１００ないし１０００サンプルが必要であり、ＥＭセンサ（即ち、レーダ）の動作の走査済み受信機ゲート（或いは、レンジゲート）モードは容易に解決可能であり、そして、音声器官インタフェースの場所に追従することが出来る。図１０Ａ−Ｃは、一連のＰＬＵ／ｓｉｌｅｎｃｅ／、／ｔ／、及び、／ｏ／を介して、短い送信パルス及び走査されたレンジゲートシステムの動作を時間の関数として示す。図１１Ａは半波送信パルスを示す。図１１Ｂは、パルスの通路においてパルスが通過する全てのインタフェースから反射された図１１Ａに示す送信されたパルスによって構成される全ての受信パルスを示す。図１１Ｃは、受信したパルスサンプルをスイッチを介してビン内に向けるレンジゲートパルスを示す。レンジゲートは、往復時間中、特定のインタフェース、例えば、唇に対してセットされる。従って、固定レンジゲートの例においては、唇からの反射だけがサンプルされる。ただし、スイープされたレンジゲートシステムにおいては、レンジゲートが全レンジに亙って逐次的にスイープされ、各位置からの反射が測定される。結果として、累積的に受信されたディジタル化済みパルス（約５０〜１００）が、図１１Ｄに示すように、レンジゲート内の固定時間において各ビン内に加えられる。次に、ゲートは１時間単位だけ増加し、そして、更に５０から１００のパルスが、その次のビンに向けられる。（この種の実験を図２４Ａ及びＣに示す。）全器官感知と呼ばれる修正されたＥＭ感知モードにおいて、図１１Ｃに示すゲートは０．１ｎｓから５ないし１０ｎｓまで広げられ、そして、伝搬路内の全ての器官によって反射される全ての反射信号が受信され、受信された信号は記憶される。これは、適当なＳ／Ｎ比が得られるまで何度も繰り返される。次に、例えば１ミリ秒のような適当な時間が経過した後で、当該過程は再び繰り返されるが、完全な器官システム状態対時間のプロファイルが作りあげられるまで、平均されたデータはその次のビン（例えば、ビン２）等々の中に記憶される。通常引き去られる非常に大きな静的平均背景が有る。この背景が引き去られると、信号対時間ビンにおける差異は、例えば時間濾波のようなリアルタイム動作を用いて、増幅および処理可能である。この種の場（フィールド）妨害ソフトウェアの実施例は、背景信号が比較的一定の状態を維持する場合における高速運動に対して特に有用であり、アルゴリズムによって、調音器官の高速運動から人体の低速運動を除去することを可能にする。実例としては、舌先または声帯の高速運動測定が挙げられる。簡単な、または、低コストの音声認識強化技法としては、１回又は２回の器官インタフェース測定で十分である。音声認識の正確度を徐々に上昇させるためには、ユーザーは、多くの音声器官インタフェースの場所および速度を測定し、場所の測定精度を徐々に上昇し、所定の１つの器官の複数の場所（例えば、舌先及び舌裏）を測定し、平均化の利点を利用するためにサンプリングレートを高くして測定し、更に小さい距離運動インクリメントにおいて位置対時間を測定するはずである。更に、ユーザーは、マルチフォーン（多重音）およびマルチＰＬＵ情報パターンを獲得するために数個の音変化周期に亙って器官状態のパターンを測定するはずである。頭部、顎、等々が動いている場合であっても、例えば、頭部または顎の運動が消去されるように頭部または首にＥＭセンサモジュールを取り付けることによって、頭部、顎、及び、他の器官に関する所要音声器官インタフェースの絶対的な場所（位置）は決定可能である。付加的な方法としては、例えば、下顎の皮膚空気インタフェースのような公知の基準場所、又は、正面唇空気インタフェースの場所を検出するために、レンジゲートの走査特質を利用する。この場合には、他の全てのインタフェース場所は、この「第１」インタフェースを基準にすることが可能であり、そして、相対経過時間を知ることによって、絶対距離を容易に抽出できる。音声音素を定義するためにレンジゲートＥＭセンサ音声情報を使用する方法を例証する実験例は、前記のＰａｐｃｕｎの著書の６９７頁、図９によって示される。彼は、舌と唇に接着した金製ボールの位置を決定するためにＸ線マイクロビームを用いた。彼は、英語の子音音素の対／ｂ／と／ｐ／、／ｔ／と／ｄ／、及び、／ｋ／と／ｇ／の器官調音（舌及び唇の動き）を決定するために位置対時間データを使用した。彼は、同時に測定された音波情報と共に、この位置情報によって、話し手によって話されつつある子音を一意的に識別することを可能にした。音波音声単位を識別するために器官位置を使用するこの方法は、Ｏｌｉｖｅ等による「米国英語通話における音響学」１９９３年において分類および説明されている音声器官の場所対ソノグラムデータと一貫性をもつ。従って、器官場所及び運動のＥＭセンサ測定は、正確な音声認識に必要な情報を提供する。別々な２つの個別時間に対して器官インタフェースの位置を測定することによって速度が求められる、即ち、２つの測定実施の間の時限によって位置変化を除算することによってそ速度が求められる。器官速度情報は、例えば「破裂音」のような非常に速いか、或いは、完全には調音されないか、又は、調音に随伴するＰＬＵの存在を決定するために特に有用である。速度情報は、急速ではあるが不完全に調音された２フォーン及び３フォーンに関して特に価値がある。一例として、急速であってしばしば調音の不完全な３フォーン／ａｎａ／における／ｎ／を記述するためのＥＭセンサの使用が挙げられる（図６に示す）。２つの個別の時点に亙る器官インタフェースの速度測定は器官インタフェース加速度情報を提供する。これは、器官運動に基づくか、又は、拘束される音声器官軌道モデルに必要な機械パラメータを定義するための使用に際して役に立つ。ＥＭセンサ動作のホモダインモードＥＭセンサ検出のホモダインモード（例えば、コヒーレントレーダモード）は、基準とされる音声器官インタフェースの速度を求めるためにも使用できる。必要に応じて、時間積分することにより、速度情報から各測定インタバル内の位置変化を求めることが出来る。必要な情報の多くは「ジェスチャ（身ぶり）」の完了時でなく開始時に提供されるので、速度及び運動情報は、「同時発音」、「不完全調音」、及び、「話しての変動」問題の解決、並びに、他の音声認識問題を簡素化するために用いることが出来る。ホモダインモードの最も簡単なバージョンにおいて、短いパルス（１つの波）は、音声器官、即ち口、喉、等々に向かって送信される。２ＧＨｚのＥＭ波送信機を用いる場合、空気中におけるＥＭ波長は１５ｃｍであるので、当該モジュールは、殆どの場合、頭部、咽喉、又は、上胸部から１ウエーブの何分の１かの距離に配置される（０ウエーブから数ウエーブまでの距離が可能である）。一旦、波が器官組織（例えば、顎の皮膚、顎骨、及び、舌の筋肉）に入ると、ＥＭ波長は約２ｃｍの組織内波長まで概略８（誘電率の平方根）の係数だけ短縮する。例えば、送信機と舌‐空気インタフェースとの間には、空気中の１ないし２波長に組織内の１ないし３波長を追加した距離がある。インタフェースによって反射されると、レーダアンテナまで戻る同様の波通路は２から４波長である。アンテナ及びモジュールの受信機部分に入ると、受信機の検出器は、戻ってきた反射波の波高を内部の基準波高と比較する。この過程は、戻ってきた波と、最初に送信した波の周波数に安定化した（僅か２、３個の波だけ）同一周波数の内部波との間のコヒーレント干渉を測定する。音声調音（アーチキュレーション）に際して器官インタフェースが反射を起こさせるので、反射波の通路の長さは、最初の観測に用いられた通路と比べるとより長いか、或いは、より短いはずである。１つの語の調音（アーチキュレーション）期間中に、器官が新規な場所まで動くにつれて、反射された（戻り）波は、位相の異なるモジュール内の基準波に加えられる。送信‐受信モジュールにおける電圧加算器から異なる電圧が観察され、そして、距離によって位相変化を較正することにより、送信‐受信サイクルからその次のサイクルまでの移動距離を求め、ひいては、速度を求めることができる。各々の時間と比較との間の固定した時間を保って、この送信して比較するホモダイン過程は継続し、インタフェースが動くにつれて、位相変化は継続して測定され、そして、速度が求められる。ＥＭセンサ動作の近い近距離場（フィールド）及び混合モードにおいて、ＥＭ波は、インパルスレーダの実験的バージョンに関して既に述べた技法に非常に類似した技法を用いて生成可能であり、波は伝送線をアンテナ構造まで下方に伝搬する。ＥＭ波はアンテナ構造からは放射されない。ただし、アンテナ近傍（約１波長内で）における器官運動と関連した位相変化は反射された近距離場波の位相および振幅を変える。ホモダイン技法は、次に示す技法のうちの１つ又は複数の技法を、一緒に、又は、別々に使用することにより、音声認識及び関連技術のための種々測定条件に関して修正可能である。（１）送信されたビーム内の１つの波であるが、出て行く波が頭部または上体を通過するにつれて必要なだけ多数のインタフェースからの連続反射の受信を可能にする受信したレンジゲートにおける１波動サイクルよりも多いサイクル。従って、受信機チャネル内における時間の経過につれて、受信機からの情報のタイムストリーム内における多くの器官の位置の標示を提供するレンジゲートウィンドウ内の全てのインタフェースからのＥＭ波反射が見える。（２）走査レンジゲートは固定した幅Δｔを持つが、レンジゲート遅延は送信パルス毎に可変である。これによって、当該モジュールから異なる距離に配置された複数の動く（或いは、静止）インタフェースから情報が得られ、これらの情報は、各送信パルスの後の受信された信号（或いは、信号の欠如）として表される。このようにして、各サイクルからの信号は、コントローラによって順次に記憶場所に記憶されることが可能である。従って、アルゴリズムは、インタフェース反射強度対遅延時間のパターンを作成することが出来る。この方法は、放射および非放射システムに適用可能である。（３）１つ又は複数のインタフェースによって散乱される比較的長いＥＭ波（多数のサイクル）を送信することによる。この具体化例は、パルス列における１つ又は複数のサイクルが、頭部における多くのインタフェースの１つによって常に反射されるような長さの波列が用いられるので、使い易い。それは、波（単一送信サイクルに含まれる多くの波）のうちの１つからの反射のみを記録する固定したレンジゲートを使用することによって容易に解釈できるように作成可能である。前記の反射はレンジゲートタイミングウィンドウにおいて受信され、「ホモダイン」技法によって測定される。時間が経過し、後続パルス列が送信されるにつれて、この構成は一意的な反射標示を提供することが出来る。器官インターフェイスがどのように移動しても、固定したレンジゲートを介して受信され、或る時点において反射される波が常に存在する。これらの散乱波は、時間と共に展開する数個の音声器官インタフェースの動きの一意的組合わせと関連したパターンを作り、そして、タイムパターンは所定の音、語（ワード）、または、フレーズ（句）の一意的識別と関連させることが出来る。この多重波ＥＭセンサ構成は、動くレンジゲート、可変レンジゲート幅、及び、可変周波数を加えることによって修正可能である。これらの方法は、放射及び非放射システムに適用可能である。信号処理図１２に示すように、ＥＭセンサ制御ユニット５０は、アンテナ５３から１つ又は複数のパルスを送信するパルス発生器５２を駆動する反復率トリガ５１を駆動する。制御ユニット５０及びトリガ５１は、更に、受信したパルスをレンジゲートするために、遅延回路５４を介してスイッチ５５を動作させる。アンテナ５３から受信したパルスは、スイッチ５５を通過し、積分器５６によって積分され、次に、増幅器５７によって増幅され、そして、ＡＤコンバータ５８及びプロセッサ５９を通過する。プロセッサ５９は、利得設定、話し手の正規化、時間調整、背景除去、前のフレームからのデータとの比較、及び、他の公知の手順を含むことが出来る。ディジタル化され、処理されたデータは、メモリビン６０に記憶され、ここから、特徴ベクトル６１が形成される。同時に、マイクロホン６２からの信号は、ＡＤコンバータ６３によってディジタル化され、そして、ディジタル化されたデータは処理され、特徴ベクトルに形成される。音声の開始は適用可能であるということが注記され、情報はメモリビン６４に記憶され、ここから特徴ベクトル６５から形成される。２つの特徴ベクトル６１、６５は、更に処理され、過程６６、６７において組合わされ、そして、結果として音声認識が行われる場合には、音声認識アルゴリズム６８が適用される。多重場所音声器官標示を対象とするということを除き同様の処理システムを図１３に示す。非音波パターンの各単一水平ビンは１つの単一器官場所を記述し、そして、前記同一ビンの値が時間の経過と共に変化し、器官が動き、そして、図に示すように新規パターンが形成される。１つの単一器官のＥＭセンサグラフ６０及び特徴ベクトル６１として図１２に示すように、この種の１つの単一器官場所ビンは時間と共に発展する。図１３におけるシステムは、図１２に示すようにＡ／Ｄコンバータ５８、６３を介して本質的に同じである。ただし、図１３において、異なる器官または異なる器官の部分を測定するために順次にレンジゲートすることによって作成される複数（ｎ）のメモリビン６０ａ、６０ｂ、…６０ｎを示す。メモリビン６０ａ、６０ｂ，…６０ｎ内のデータは特徴ベクトルを生成するために使われる。この処理の残りの部分は、図１２に示す通りである。非音波センサと従来型音波情報の結合図１４は、１つの非音波音声認識（ＮＡＳＲ）アルゴリズムと１つの従来型音波音声認識（ＣＡＳＲ）アルゴリズムとを結合するアルゴリズム的な決定トリーを示す。このアルゴリズムは、図１２及び図１３にはボックス６７によって表される。図１３に示すように数個のＥＭセンサが用いられる場合には、この決定トリーは多重ＮＡＳＲへ容易に拡張される。このアルゴリズム的手順のテスト値及び結果値は、用いられるアプリケーション及び統計手法によって決定される。実験的検証 ― 好ましい実施例図１５Ａ−Ｄは、ＰＬＵ／ａｈ／に関する音波およびＥＭセンサによって測定した声帯皺僻の運動を示す。データは、固定したレンジゲートを備えたレンジゲート付きＥＭセンサシステムの変形種を用いて収集された。図１５Ｄにおいて、ＥＭ信号のフーリェ変換は、１２０Ｈｚにおける話し手の基本的な音声化された励起関数ピッチを明瞭に示す。この場合、ＥＭ波発生器によって送信された複数の波（約１０個）及びレンジゲートが開かれる時点において声帯皺僻によって反射されたこれらの波の一部分はＥＭセンサ受信機に入り、検出されて、記憶された。このセンサ構成の利点は、多数の波が用いられるので、常に１つの波が、検出を可能にするレンジゲート時間において、１つの器官インタフェースによって反射され、従って、音声器官インタフェースの発見を簡素化することである。この簡単な実験により、この音声器官場所情報を、マイクロホンからの同時音波語信号と相関性をもたせることが非常に容易であることが実証された。ＥＭセンサと同じ語（ワード）を感知するマイクロホンからの音波信号がオシロスコープの個別トレースにディスプレイされ、Ａ／Ｄコンバータにおいてサンプルされ、同じ開始時刻およびＥＭセンサデータ用のメモリビンとして同じタイムビン番号と共に記憶装置に記憶された。これら２つの（或いは、より多数の）信号の間の相関性は、測定されつつある音声器官の予測される場所または活動と共に、削減できない話された音単位（即ち、ＰＬＵ）の割当を検査するために用いられた。図１５Ｂに示すこの例において、声帯皺僻のオン-オフのサイクリングと関連した声門組織の動き、または、「声になった」活動（アクティビティ）が示される。例えば舌及び唇のような他の器官の測定値は、これらの器官の動きは声帯皺僻の動きよりも遅く、より多くのＥＭ波エネルギーを受信機へ反射するように大きいので平等かつ容易に獲得された。図１６は、顎／舌及び声門の組織の、数個の音素を持つ語「ｏｎｅ」に対するレーダモジュールのレスポンスを示す。詳細には、二重母音／Ｏ^W／を発声するための準備として顎が開くのが見える。同様に、声門組織トレースは、声を出す前に声門が締る信号を示し、次に、顎／舌の動きが始まってからかなり後に始まる二重母音としての発声開始を示す。顎が開くこのパターンは／ｓｉｌｅｎｃｅ／Ｏ^W／の３フォーンであり、次に、／ｎ／のために舌が上がり、その後で、最後の／ａ^e／が発声される時に舌が降下する。これらの簡単なＥＭセンサによって生成されたＮＡＳＲパターンは、用いられる音響装置に非常に拘束され、従って、ＣＡＳＲによって同時に認識される装置と互換性がなければならないこのＮＡＳＲは、音声の開始、顎の開き、声になった二重母音の動き、声になった高い舌位置、舌の降下、及び、沈黙−音声化と器官運動の終結を記述する。迅速かつ不完全な調音器官運動を検出する能力は、例えば「ａｎａ」のような音響的に困難なフレーズ（句）の組合わせを区別するために非常に有用である。速く話した場合、「ａｎａ」の音声ソノグラムは（記述のＯｌｉｖｅ著書ｐ．３３７参照）は、不完全な調音の一例である／ｎ／を示さないことが多い。従って、音波情報に基づいて認識判断を行うＣＡＳＲは／ｎ／を失う。ただし、ＮＡＳＲ測定は、弱い／ｎ／音と関連した速い舌の動きを示すはずである（音声文献では「ジェスチャー」と呼ばれる）。これは、図４にユニット２２として示す運動検出システムによって容易に検出される。この場合、そのデータ出力は、図６に示すように、遅い運動と非常に速い運動を除去するためのタイムフィルタリング（時間濾波機能）を伴った多重送信されたサイクルで固定したレンジゲートモードである。アルゴリズムは、最良の認識推定値を提供するために、２つの／ａ／の間に１つの／ｉｎ／が配置されることを強要するはずである。アルゴリズム従来の音波音声認識システム（ＣＡＳＲｓ）は、静かな研究室環境における公称誤り率が２％に達し、騒々しい環境において、大きい語彙により、緊張した話し手によるか、或いは、方言を使う話し手による場合には誤り率が１０％を越えるような結果をもたらす幾つかの主要問題を持つ。これらの誤り率は、大抵の用途にあまりにも高い。必要とされるのは、現在最良のシステムの公称誤り率２％以下に誤り率を引き下げるに充分な情報を提供する安定したアルゴリズムを用いる、簡単で経済的なディバイスである。ここに記述する全てのアルゴリズムは、ＥＭ波を生成し、送信し、そして、音声器官によって反射されて減衰したＥＭ波を検出することによって音声器官位置または運動情報を獲得する特質を利用する。ＥＭ情報を処理するこれら新規な方法の基礎的なアイデアは、通常（しかし、常にではなく）同時音波情報と共に使用され、そして、アルゴリズム的手順として記述される。これらのアルゴリズム構成ブロックの修正種と変形種は様々な用途に使用可能である。多重器官および多重時間アルゴリズムの基本ユニットは単一器官法によって構成されるので、先ず、単一器官法について記述する。単一器官法は、声の励起関数及び声管の状態について記述し、音声タイムフレームと呼ばれる定義済みの時限に亙って実質的に一定の特徴ベクトルによって特徴付けられる。条件の不変性を定義するためのこの新規な能力は、各タイムフレームから得られる測定された特徴ベクトルを、コードブックに前以て記憶されている特徴ベクトルと比較することを可能にする。更に、音声タイムフレーム全体に亙って声管は時間から独立しているので音波認識アルゴリズムにおいて非常に難しい時間配列問題をこの不変性は解決する。前記特徴ベクトルを、この種のタイムフレーム全体に亙って１人の平均的な話し手によって話された場合の特徴ベクトルとして作成する測定された声管器官係数を正規化する付加的方法についても記述する。更に、この種器官の特徴が備える係数の値の個数を制限する方法も記述する。次に、この種の単一器官特徴ベクトルは、多重器官単一タイムフレーム特徴ベクトルを作るために、同じ時限またはタイムフレームに亙って作成した他の器官からの特徴ベクトルと結合することができる。以下に説明するアルゴリズムによって正規化および量子化されたこの種の多重器官特徴ベクトルは、完全な非音波認識（音波を必要としない）、又は、非常に高精度の用途に用いられる非常に正確な共同非音波／音波認識システムを可能にする。単一器官アルゴリズム例えば声帯皺僻のような単一音声器官の動作は、従来型の音波音声認識システムによって行われた重要な判断に導くことができる。ただし従来型は、一般に、１つの単一音声器官運動から得た非音響（レーダ）標示を、語‐音を一意的に識別するために使用できない。従って、単一器官アルゴリズムは、主として、合併音声認識モードにおいて使用される（この場合、ＥＭセンサ及び音響センサデータ及びアルゴリズムが一緒に用いられる）。この付加的情報は、ＣＡＳＲアルゴリズムが、一層正確、迅速、かつ、経済的な全音声認識を手助けすることを支援する。図１２は、単一器官声帯皺僻位置対時間に関する音響信号およびＥＭセンサ信号両方に関して、どのようにして特徴ベクトルが形成されるか、そして、音声認識及び他の目的のために、前記両者がどのようにして合併可能であるかを示す。単一器官の種々の部分の条件を決定するために当該器官運動の時間的展開を用いる方法も単一器官運動アルゴリズムに含まれる。器官位置信号の時間微分は、既知の器官運動と関連した変化している速度を与える（例えば、舌先は舌本体よりも速い速度で動く）。他の方法は、１つの単一器官の数個のインタフェースから（例えば、舌先対舌の背部）単一器官の部分の場所の数箇所の測定値を得るための方法である。他の単一器官アルゴリズムは、器官の形または空気管器官形状寸法と関連した１つ又は複数の共鳴反射効果を検出するために１つ又は複数の波長を使用することに頼る。一例は、音の形成につれて変化する舌‐口蓋の寸法的開口部である。単一器官の正規化個人の音声と関連した特徴ベクトルは「正規化される」ことが可能であり、その後で、基準としての個人の特徴ベクトルに或いは個人のグループ（例えば、或る言語の平均的話し手）に対して一意的にマップされる。この方法は、当該用途に適した所定のＥＭセンサにとって必要とされるだけ多数の個人的調音器官の反射信号の振幅、位置限界、速度限界、及び、時限を決定するために選定された既知の１組の語を発音するように話し手に要求することによるアルゴリズムの訓練を含む。次に、アルゴリズムは、測定済みデータの間への簡単な補間を用いることにより、基準化された話し手が同じ語集合を話す場合に、同じタイプのＥＭセンサによって測定されるが、基準化された話し手から早期に得られた信号に対して、音声フレーム測定に際して各調音器官と関連したＥＭセンサ信号に基づいて１対１の割当を行う。このようにして、比較的少ないＥＭ波エネルギーを反射し、余り動かない小さい舌を持つ人は、より大きい舌を持ち、舌の運動がより広範囲に亙る平均的個人に対して正規化される。器官レンジに関するこの知識、及び、検出可能な新規な音を確立するためには、ある器官はそのレンジの所定の部分だけ動かなければならないという音声についての知識を用いることにより、音声フレーム中に測定される許容可能な変化全体に対する割合によって器官運動を量子化することが出来る。換言すれば、或る帯域に亙って認識可能な音声音変化が一切発生しないような器官位置の帯域が有る。従って、特徴ベクトル係数は量子化可能であり、そして、所定の器官の特徴ベクトル係数は、例えば、次に示す５個の数値０．０、０．２５、０．５、０．７５、及び、１．０のような極く少数の小数値によって記述可能である。これらの数には、必要に応じて、正規化された振幅値を乗じても差し支えない。例証するための一例として、舌本体（即ち、ブレード）の位置を考察することとする。即ち、前記の位置は、正規化され、かつ、量子化された特徴ベクトル係数０．２５によって記述可能である。この０．２５という値は、使用中のＥＭセンサシステムによって検出される運動範囲を示す５個の可能な位置的「帯域」の第２番目に舌が位置することを意味する。この値は、後続する次の音声タイムフレームにおいて、許容された位置的範囲の新規な「帯域」内に配置されていることが検出されるに充分なだけ舌が動くまで（そして、認識可能な新規な音は舌の新規な位置によって引き起こされるはずである）の舌の位置を示すはずである。この新規な音声フレームにおける特徴ベクトル係数は新規な値に正規化され、そして、例えば、この例においては、舌本体（タンブレード）が、最上と最下との中間位置に在ることを表す０．５のような新規な数値に量子化されるはずである。このアルゴリズムは、話し手の音声器官の運動速度を正規化するために、幾つかの方法において、拡張可能である。重要な時間正規化について、スピーチピリオド（音声期間）の定義及びピッチピリオド（ピッチ周期）の正規化を前提条件として以下に説明する。２番目に重要な時間正規化は、１つ又は複数の音声タイムフレームに亙る特徴ベクトル係数の変化率を正規化することである。アルゴリズム的手順は簡単である。即ち、２番目に近い最近処理された所要の器官場所において得られた係数から、１番目に近い最近処理された音声フレーム期間中に獲得された所要の器官場所の正規化された１つ又は複数の係数を減じる。この正規化された位置変化値を、２つの特徴ベクトルを測定した時間的間隔で除算する。例えば、１番目に近い最近形成されたフレームの開始時間から２番目に近い開始時間をを減じると経過時間が得られる。ベクトルタイムは測定されたままで使用できる。ベクトルタイムは、音波音声から得られる公知のタイムワーピング技法を用いて正規化可能であるか、或いは、ベクトルタイムは、規準化された話し手によって話され、そして、認識過程を介して獲得された音に関して正規化された時間であり得る。更に、特性運動時間は異なって定義することが出来る。即ち、例えば、各器官はその特性レートを測定可能であり、特性運動時間を求めるには、アルゴリズムは、以前に定義済みの時定数によって場所係数差を除算するに過ぎない。各器官は、研究から、或いは、個人又は規準化された個人又はグループを訓練することから、或いは、機械モデルから獲得されか、或いは、音声認識過程に際して適応可能な当該器官の既知のレスポンスに従って正規化することが出来る。更に、訓練に際して、ユーザーの特性器官運動時間は、規準化された話し手の特性器官運動時間と、１対１ベースで、関連付けることが出来る。次に、これらの速度値は、位置値に関して既に述べたように、量子化可能である。器官運動の極端な量子化の一例として、２つの速度帯域−−低速又は高速（例えば、０．０、または、１．０）の形成を挙げることが出来る。参照表IIIに示すこの簡単な量子化過程はＰＬＵの音声識別または他の音波単位に非常に強く拘束される。上記のアルゴリズム的手順を用いることにより、次の４つの演算のうちの１つ又は複数を使用することが出来る。１）個々の話し手の特徴ベクトルを平均母集団の特徴ベクトルに正規化する。２）不完全な調音（アーチキュレーション）及び調音の随伴（コアーチキュレーション）の程度を検出する。３）個人の調音習慣を予備正規化する。４）当該個人の音声器官の状態を記述するために用いられる値の個数を制限する。更に、各始業時或いは就業中に、適応可能な技法を使用して、話し手が早期に獲得した規準化された状態に従って話す場合に、システムは、話し手の時間使用を再正規化することができる。特徴ベクトルの話し手独立（即ち、正規化済み）記述に音波情報と共に非音波情報を使う方法は先ず（押しつけがましくないリアルタイム手段を用いて）、例えば音節、音素、ＰＬＵ、音波単位、語、及び、句（フレーズ）のような既知の音声単位と関連した事前形成された特徴ベクトルのライブラリに対して、獲得された特徴ベクトルの非常に速く、かつ、非常に正確な識別を獲得することを可能にする。単一器官接触及び共鳴アルゴリズム特定の重要な単一器官アルゴリズムは器官相互の接触である。音声において、存在、場所（ロケーション）、及び、口蓋に対する舌の接触率は「ｔ」または「ｄ」または同様に決定される音は舌によって形成されることを示す。舌先の口蓋への接触共鳴は実測済みであり、接触によって反射率が５倍増加する。図１７は舌の接触データを示し、そして、図１８はアルゴリズム的記述を提供する。器官接触の検出は、或る音声の音単位が明瞭に発音されていることの非常に重要なインジケータである。音声フレーム毎に異なる共鳴及び共鳴の変化の使用は、この種の状態の明瞭な証拠を提供する。器官相互の接触はＥＭ定在波構造及び器官インタフェースＥＭ境界条件状態を変え、そして、結果的に反射率に大きい変化をもたらす。レンジゲート作用、時間濾波作用、及び、他の場所特定技法を使用すると、必要に応じて接触点の特定を可能にする。従って接触強度、フレーム毎による変化、及び、場所は、記録され、正規化され、そして、後続するパターンマッチング、コードブック比較、及び、以下に説明する他の統計的技法のために特徴ベクトルに記憶される。２つ以上の器官インタフェースの次元がＥＭセンサからの伝播ＥＭ波の特定の波長と共鳴的である場合には強い共鳴状態が検出されることがある。該当する波長のＥＭ波が１つのインタフェースから反射する場合、他のインタフェースから反射するＥＭ波に干渉的に加えられる。インタフェース間の距離が、透過媒体における波長の１／４の倍数だけ離れている場合には、（例えば、空気中であれば２ＧＨｚに対して約４ｃｍ、または、組織内においては約０．５ｃｍ）反射に際してインタフェースが波の位相をどのように変えるかに応じて、全構造体的干渉が発生する。信号強度は検出器における波の振幅の和の二乗であるか、或いは、単一インタフェース反射の場合の４倍であるので、非常に大きい反射が発生する。同様に、反射された波の振幅破壊的に干渉する場合には、反射の減少が発生することがある。インタフェースの間に１／２波長の距離があり、そして、検出された反射がキャンセルされる（或いは、位相が完全に破壊的に位相差を生じていないと低下する）場合には、この種の状況が発生する。反射が減少する場合には、カメラレンズ上の反射防止膜と同様にインタフェースを越えた更に強い前方に伝播する波が起きる。組織の場合には、屈折率が非常に大きく、（実質的に１．０の屈折率を持つ空気とは対照的に）一般に、５〜９であるので、非常に大きいコヒーレント効果が起きることがある。この種の効果を検出するためには、重要な状態に関して重要なインタフェースの距離を「測定する」ために、スイープ周波数ＥＭ発生器及び相補検出器を検出を使用することができる。使用する場合にはレンジゲート情報を含めた送受信ＥＭ情報は、同時に測定された音波情報と共に記録される。単一器官アルゴリズム的記述図１９は、音波及び非音波情報をいっしょに使用した場合における、音声の開始、ノイズ拒絶、発声‐非発声音声、音声の終結、及び、休止を決定するための一方法を示す。この例は、語「ｓａｍ」を含む米国英語の場合である。時間及びその他の定数は統計的推定値であり、話し手及び言語に関して調節されなければならない。これらのアルゴリズムは手動で試験された。マイクロホン７０からの音波情報は、音波式音声センサ、Ａ／Ｄコンバータ、及び、１秒記憶装置７１へ入力される。ＥＭセンサ６９からの声帯皺僻運動情報は、積分器及びバンドパスフィルタ７２へ入力される。プロセッサは、表Ｉに記載され、次に説明するように決定する。表に示す例は、更に複雑な音声器官の記述のためのブロック作成に使用できる単一器官ＮＡＳＲアルゴリズムである。表Ｉ単一器官ＥＭセンサアルゴリズムの例音声時間アルゴリズムの開始ユーザーの環境には多くの外部ノイズがあり、これによって、ＣＡＳＲがノイズを音声と間違えて処理を開始することが有り得るので、音声の開始は音声認識にとって重要である。図１９のアルゴリズムは、声帯皺僻運動開始の言語における統計的発生に基づき、音声タイムフレームに定義及び特徴ベクトルの形成を利用する。ささやかれるか、或いは、音にならない音声の場合には、開始の定義のために追加的ＥＭセンサ情報が必要であり、これについては、次に説明する。有声音が形成されるか、同様に、ささやくため、或いは、無声音のために空気が流れることを可能にするように声帯皺僻が開く場合に声帯皺僻の開／閉運動が発生する。大抵の米語音は有声であり、ほとんど全ての語（ワード）は、音声の各秒内に１つ又は複数の有声音を含む。この音声は、一般に、１秒当たり最大１０個までのＰＬＵまたは同様の音単位を含み、無声音には、統計的に、１つから２つの無声ＰＬＵ単位毎に有声音または休止が後続する。アルゴリズムは、音波式及び１つ又は複数のＥＭセンサモジュール同時に使用することにより、音声の開始を検出する。このアルゴリズムにとって問題は、幾つかの語（ワード）が、例えば「ｓａｍ」或いは「ｓｉｘｔｅｅｎ」における「ｓ」のような無声音で始まることである。従って、本アルゴリズムは、ＥＭセンサによる声帯皺僻運動開始検出によって検出されない可能性のある音を捕捉するための補強が可能でなくてはならない。図１２及び１３に示す２つの音声処理システムにおいて、ここで説明する開始アルゴリズムは主としてボックス６６において使用される。無声継続期間タイマＴは、システムのターンオンに際してゼロに初期化されている。音波及びＥＭ音声タイムフレーム、及び、特徴ベクトルが形成された後で、音声開始テストが始められる。この例に関しては、各音声フレーム「ｉ」は、その末端時間ｔ_iによって定義される。アルゴリズム図１９はボックス６７においてエントリされ、ここで、数個の音声タイムフレームに亙って無声音の累積的な継続時間に関して（例えば、Ｔ＞０．５ｓｅｃであるか？）タイマＴのテストが行われる。テストの継続時間が０．５ｓｅｃより短く、そして、マイクロホン７０の出力信号がプリセットされたスレショルド７３を越えるが、騒々しいノイズスレショルド７７未満である場合には、本アルゴリズムは、ボックス７９における同じ音声時限内で声帯皺僻運動が発生するように探索する。該当する音波及び声帯皺僻運動が存在する場合には、１つの有声音声単位が発生し、ボックス７８における無声タイマＴはゼロのセットされ、フレームｔ_iの処理は継続する。音波条件は満足されるが、声帯皺僻運動がボックス７２内で起きない場合には、フレームｔ_iにおける音は、ボックス７９において無声音声としてのラベル表示され、処理は継続する。ボックス７７における音波信号が高すぎ、そして、声帯皺僻運動がボックス８０において検出される場合には、当該信号は高い有声音声ボックス７８として処理される。音波音声がスレショルドボックス７３未満である（サイレント又はささやかれた音声アプリケーションに関してはテストが用いられない）場合には、ＥＭセンサ特徴ベクトルはボックス８２において処理され、音波信号はボックス８２において弱過ぎるとラベル表示され、無声或いは無音カウンタＴはボックス８２において最も近い音声タイムフレームの時間ｔ_i−ｔ_i-iだけ増加し、処理は継続する。６７においてアルゴリズムにエントリする際に、Ｔのテストが、０．５ｓｅｃ以上の無声または無音音声が発生したことを示した場合には、インターバルＴ（例えば、０．５秒）内の音波エネルギ係数がε未満の音声フレームはボックス８５において削除され、ボックス８６における声帯皺僻運動の存在における低い音波信号に関してテストが行われる。音は低いが声帯皺僻運動が発生している場合には、システムは、ボックス８４において低音メッセージをオペレータに送り、開始状態を待っている制御ユニットヘ戻る。図１９におけるユニット７８及び８３からの直接メッセージによってマスター制御ユニットにおいて検出される音声開始は、一旦、開始が起きると、ボックス６７において開始するアルゴリズムによって確認可能である。重要な一例を次に示す、即ち、図４（モジュール２１、及び／又は、２２）及び図１９（モジュール６８、８３）に示すように、最初の音のための準備位置に舌及び顎が動くので、舌及び顎運動ＥＭセンサは舌及び／又は顎運動の前兆運動を測定することが出来る。語（ワード）「ｏｎｅ」を話す場合の例を図１６に示す。舌及び顎運動は音声開始の有用なインジケータであるが、音声を保証しない。従って、ボックス６７において開始するアルゴリズム始動は、開始状態がボックス８３、７８、または、７９から検出された後で、タイマＴの０．５秒以内に開始する音声に関してテストする必要がある。０．５秒後に、音声が確認されない場合には、システムは、ゼロ入力動作または他のコンディション条件状態のためにマスター制御コントロールに戻される。ささやかれるか、或いは、無音音声開始の場合には、追加ＥＭセンサ情報が必要とされる。声帯皺僻運動を記述するために用いられた同一の単一器官アーギュメント、及び、既に検討した単一器官としての舌（或いは、舌‐顎結合運動）の使用が開始インジケータとして用いられる。これには、ささやき及び無声音声に際して開くが開閉振動はしない声帯皺僻が含まれる。無音音声または機械制御通信が用いられているか、或いは、ささやきのみが必要である場合に非常に低レベルにセットされている時には、音波レベルセンサ、ボックス７３及び７７はオフできる。音声終結アルゴリズム音声開始アルゴリズムからのボートが、通話が開始したことを示す場合には、図１９におけるアルゴリズムは、音声の継続に関して各音声タイムフレームのテストを継続する。このアルゴリズムにとっての主要問題は、米語において、例えば複数の／ｓ／のように、語が無声子音で終わることが一般的であることである。このアルゴリズムは、音声化された音声停止の探索を制限するためにの０．５秒のテストタイムを使用する。プロセッサ６７はＴ＞０．５秒かどうかをテストし、真ならば、当該演算をプロセッサ８５及び８６へ導き、ここで、過程を停止し、コントローラに戻る。音波ユニット７３、７７が受け入れ可能な音波信号であることを示すが、声帯皺僻運動はボックス７２、７９において０．５秒以内（即ち、Ｔ＜０．５）に検出されない場合には、最後の有声音声フレームの後で、カウンタＴは、フレーム‐ｉ時限だけ増加し、その次の音声フレームのテストがボックス６７において開始される。これらのテストは、音波音声音として「偽信号 (alias)」の可能性のある過度の背景ノイズに関するものであるが、言語統計によれば、０．５秒毎に（一例として）声帯皺僻運動が発生しなければならないと主張されている。ただし、０．５秒の待ち時限内で処理される全ての音声フレームは、発声がなくても、無声セグメントとして処理されなければならず、そうすれば、特徴ベクトルは適切に定義される。０．５秒の処理の後で、一切の声帯皺僻運動が検出されないならば、アルゴリズム６７は、ボックス８５、８６において音声の終結を定義する。最後の０．５秒期間中に記録された音声フレームは、 ε以上の音波レベルに関してテストされ、そうでないならば、これらのフレームは削除される。物語りをする時、演技をする時、機械や動物をまねる時のように話し手が多くの無声音を用いるような非常に特殊な音声技術の応用に関しては、タイプと長さの変化する無声音の獲得を強調するために、ユーザーは、テスト期間Ｔを変えることができる。背景ノイズ抑制アルゴリズム背景ノイズの抑制には２つの問題がある。即ち、話し手が話していない時に発生するが、ＣＡＳＲが音声開始と混同するノイズの場合、及び、話し手の音声進行中に発生するノイズの場合である。第１の場合、話し手が話していない時に発生するノイズは、音声アルゴリズムの開始により有効な音声入力として除去される。第２の場合、話し中にマイクロホンに入る音波ノイズの（背景からの）除去は、非音波データの使用によって可能にされる。一定の高い背景音波レベルは、話し手による話し手自身のマイクロホンへの音波入力に匹敵するので、ＣＡＳＰが機能しないことが専門家によって認められている。ただし、多重器官ＮＡＳＲシステムは機能するはずである。理由は、前記システムは、紛失した音声単位情報を決定するのに十分な情報を提供することが可能であり、音声タイムフレームを自動的に定義することによって機能を継続し、前記システムがささやき又は無音音声モードで作動中であるかのような最良の推定音声音を提供することに因る。外部音波ノイズが大きいが、継続期間が短い場合には、この種のノイズは、１つ又は極く僅かな音声タイムフレーム期間中に図１２及び１３に示す音声処理アルゴリズムの音波出力に異常な音波信号として現れる。ボックス６７、７３、７７、８０、８１によって図１９に示されるアルゴリズムは異常なノイズ事象を検出し、フレーム情報を除去し、そして、後続処理のために「損傷」と印をつける。図１４に示す一般的な音波単位認識アルゴリズムは、ノイズを検出し、ＣＡＳＲ情報を無視し、そして、最良の可能な音波単位識別を獲得するためにＮＡＳＲ特徴ベクトル係数のみを使用するよう注意を与える。この種の事象が発生した場合には、ユーザーは、データが外部ノイズ信号によって劣化しつつあることに注意すべきである。穏当なレベルのノイズによって、話し手からマイクロホンに到達する情報の質が下げられる場合には、話し手の意図を回復するために、ＮＡＳＲシステムによって提供される追加的情報をアルゴリズムにおいて使用することができる。ユーザーは、図１４に示すアルゴリズムを次のように導くことを選定可能である。１）ＣＡＳＲ信号がＮＡＳＲデータと一貫性を持たない場合には、ＮＡＳＲテストからの最良の信号を選定する。２）数個の音声フレームに亙って既知の特徴ベクトルシーケンスと一貫性を持たないか、或いは、既知の器官運動拘束条件を満たさない特徴ベクトルを拒絶するために前の音声フレームから次の音声通話フレームまでＣＡＳＲ、および／または、ＮＡＳＲ特徴ベクトルの連続性に関する更なるテストを実施する。同様に、２フォーンまたは３フォーンライブラリが利用可能である場合には、実質的に図１４の場合と同じ過程を用いてＣＡＳＲ及びＮＡＳＲ両方からの多重フレーム信号をライブラリにおける最適データと比較することが出来る。ＣＡＳＲシステムからのマッチが得られないか、または、低確率におけるマッチのみが利用可能である場合には、音声フレーム音波信号に基づく識別が低確率で与えられ（例えば、おそらくノイズによって劣化した）、そして、アルゴリズムは、当該アルゴリズムの規則によれば最良であるようなＮＡＳＲ識別を選定する。上記の方法の持つ誤り又は不確定性が発生していることを話し手に通告することの出来る能力は非常に価値があり、特に、誤りが重大な結果を招くような高価な音声認識またはこれに類似の状況においては非常に価値がある。この安定性は「堅固な」認識システムの特徴である。有声又は無声音声識別のためのアルゴリズム − ＰＬＵ無声音が話される場合には、声帯皺僻は反復サイクルで開閉を行わない。声帯皺僻は、大抵の情況において、ささやき音或いは無声音にたいしては開く。ＣＡＳＲを混乱させる８対の有声及び無声ＰＬＵの例を表IIに示す（Ｏｌｉｖｅ等「米語音声の音響学」前記同書２４頁から引用）。前記の対は、各対が同じ声管形成であるので混同され易いが、例えば、音声化した発音／ｚ／とは対照的な殆ど唇を閉じた／ｓ／音のように、一方は有声であり（声帯皺僻が振動する）、もう一方は声管拘束部を空気が激しく通過することにより音をたてる（狭搾気音、気音、等々）。表II ＥＭセンサを用いて認識できる有声および無声英語音対ＮＡＳＲ決定アルゴリズム（図１４）と共に使用されるＣＡＳＲアルゴリズムがこの決定に適用される場合には、有声または無声の間において幾分曖昧音波音に関する標示が生成される。すなわち、識別確実性の確率は、対を構成するＰＬＵのどちらか一方に制限されるが、確実性は希望値より低くなる。有声‐無声アルゴリズムは完成した２つの方法である。最も簡単な音声認識装置「キュー」としては図１９に示すプロセッサ７２を使用する。プロセッサ７２は声帯皺僻運動を検出し、この区別が発生した音声フレームに関する特徴ベクトルの制御係数に表示する。第２の方法は、図１２及び１３に示す通常のアルゴリズム的処理を用いる。この場合、データは測定され、平均され、量子化され、そして、声帯皺僻ＦＭセンサデータが、図１４に示す音波音認識手順に利用可能であるように処理される図１４におけるアルゴリズムは、柔らかに発音される／ｚ／を扱うために、次のように進行する。音波音特徴ベクトルは、ＣＡＳＲライブラリにおけるベクトルと比較され、比較的高い確率（例えば／ｓ／及び／ｚ／）を持つ２つのＰＬＵを示す。しかし、音波信号がこれらの音波単位を識別する確率は低いことが表記される。次に、アルゴリズムは、有声音声である確率（例えば、１００％）または無声である確率（例えば、０％）を提供するために、ＮＡＳＲの出力をテストし、そして、合同アルゴリズムは、調査されつつある音声タイムフレームにおいてテスト中のＰＬＵの有声バージョンを選定する。ピッチ周期および音声フレーム決定アルゴリズム図４におけるセンサ２３からの出力は、声門の組織、詳細には声帯皺僻の運動を観察することによって測定される声門の基本的開閉レートを提供する。１）アルゴリズム１は、図２０Ａ、Ｂに示すように、声門の開／閉運動の時限（インタバル）を測定し、各音声フレームにおける、話し手の瞬間的な有声ピッチ周期を自動的に与えるために設計され、テストされた。このアルゴリズムは、ＥＭセンサデータのゼロ交差間の時間およびＥＭセンサデータのピーク間時間が継続期間となるような音声フレームを自動的に定義する。図２０Ａ、Ｂに示す２組のデータの基本周波数は２０％の係数だけ異なり、これらの周波数は、「ｅ」は「ｕ」よりも高いピッチの音であり、前者の声帯皺僻ピッチ周期は６．２５ミリ秒（１６０Ｈｚ）であり、後者は話し手による７．８１ミリ秒（１２８Ｈｚ）の周期であることを示す。このアルゴリズムの計算時間の節約度は、通常の全ての音波ピッチ追跡アルゴリズムと比較して、係数５よりも大きく、しかも、遥かに正確である。２）アルゴリズム２は、順次に測定したピッチ周期が、初期ピッチ周期測定と比較した場合、同一ピッチ周期値（ユーザーが定義した測定精度の数値帯域、例えば５％、内）を持つかどうかを決定するように設計され、テストされた。そうである場合には、このアルゴリズムは、次の周期が同じであるとカウントした場合に「カウンタ」を１単位だけ増加させる。アルゴリズムは進行し、同じ値を持つ順次的なピッチ周期の数をカウントする。次のピッチ周期値が同じでない場合には、当該アルゴリズムは、新規な初期周期が開始したことを報告する。音声フレーム３から１５までがこのような基準を満たす場合を図９に示す。２件の実験において、その一方を図１５Ｂに示すこととし、２人の男性話し手が音素／ａｈ／の音を出した場合、アルゴリズムは、一方は９０Ｈｚの基本周波数（ピッチ周期１１ミリ秒）と、１２０Ｈｚ（ピッチ周期８．３ミリ秒）の基本励起周波数を持ち、そして、語（ワード）と共に変化するピッチが、各音声フレームに関して、容易に追跡されたことが分かる。アルゴリズム２によって定義されるような一連の同一ピッチ周期は、他のＥＭセンサ、及び／又は、音波情報が関係する場合に、一定の特徴ベクトル値の多重周期音声フレームを定義するために別のアルゴリズムにおいて使用することができる。アルゴリズムが発音された音声ユニットの不変性が保たれる有声ピッチ周期サイクル数を自動的に決定できるように、一定周期の定義は一定音波信号、または、一定舌位置、等まで拡張される。３）アルゴリズム３は、ピッチ周期ファインダのために変換技法を使用し、そして、図２０Ａ、Ｂに示される場合と同様に見える図４に示すユニット２３からのデータを使用する。アルゴリズム３は、多数の同じ音声タイムフレームを定義するためにアルゴリズム２を使う。次に、本アルゴリズムは、平滑化関数（例えば、Ｈａｍｍｉｎｇ）を用いて、その期間中データが一定であるような一連のフレームからのデータを濾波し、そして、次に、１組または複数組のデータポイントのタイム列にフーリェ変換（或いは、Ｚ‐変換）を実施する。本アルゴリズムは、振幅の最も高い信号を発見するために、変換されたデータ集合に関して探索を実施し、次に、基本ピッチ周波数とするために、振幅の最も高い信号と関連した周波数を選定する。ピッチ周期を発見するための本アルゴリズムの２つのバリエーションを次に示す。即ち、３ａ）基本周波数を見つけるために第１調波と第２調波との間の周波数の差を自動的に測定し、３ｂ）ゼロ周波数から出発してピークを検索する際に、第１ピークの場所を選定する。これらのバリエーションは、最も高い振幅の選択に基づかないという利点を持ち、更に、更に正確な値を発見するために平均が可能な冗長性を測定に提供する。４）無声音声フレームの継続期間声門反復運動が一切起きない場合、即ち、無声音声または沈黙が起きている場合、音声フレーム継続期間を定義するデフォルトとしての方法が必要とされる。４ａ）タイムフレームは、その期間中、音波出力が前以て決定済みの帯域内において一定である時限として定義される。無声音が変化する場合には、新規な音声フレームが開始され、その前のタイムフレーム継続期間が記録される。このアルゴリズムは沈黙を音波変化なしと見なす。４ｂ）逐次的な音声タイムフレームの継続期間を定義するために、５０ミリ秒のデフォルトタイムが用いられる。ピッチの正規化アルゴリズムは、音声認識または便利な音声技術応用のために最低、中間、及び最高周波数において声帯皺僻を振動させる母音及び子音を話し手に発音させる一連の語（ワード）によって訓練されるように設計されている。この訓練は、前記応用において使用するために言語音の語彙訓練セットを介して個々の話し手のピッチ周期レンジを定義する。同様に、単一基準話し手または選定された基準話し手のグループは、公知の音に関して正常ピッチ周期の基準コードブックを定義するために同じ語集合を発音するように要求されているものとする。次に、アルゴリズムは、ユーザーの瞬間的な音声周期から、同じ音に関する基準話し手のピッチ周期まで、１対１に対応させる。次に、アルゴリズムは、正常な使用中において周期が測定される度に話し手のピッチ周期時間を１人又は複数の基準話し手の周期にマップする。この新規な周期は、正規化済み特徴ベクトルにおける正規化済み励起関数のピッチ周期を定義するために使われる。ＣＡＳＲと共に使用ＮＡＳＲシステムによって獲得された瞬間的なピッチ周期情報は、当該話し手の自然ピッチを発見し、話し手を平均的または基準話し手に正規化し、モデルに基づく認識システムに於ける励起関数を決定し、語（ワード）配列のための音声レート（即ち、タイムワーピング）の決定を手助けするために認識装置を訓練する目的で音素を識別する際の手助けとして従来の音声認識装置によって用いられる。ＮＡＳＲにおける使用アルゴリズムは、音声タイムフレーム、基本ピッチ周期、話し手の識別、及び、モデルに基づく認識アルゴリズムのための基礎的励起レートを定義するための基礎を提供する。最も重要なことは、ＮＡＳＲシステムが、例えば非平均的なピッチの使用及び測定された特徴ベクトルからの音波単位調音（アーチキュレーション）におけるピッチ周期の非平均数のような個人の性癖情報を充分に除去することをアルゴリズムが可能にすることである。従って、これらの方法は、例えばＰＬＵ、または、音素音波単位のような音波音単位が、混乱の原因となりうるタイミング情報でなくて、励起関数及び声管状態によって定義されることを可能にする。タイミング情報が有用である場合には、前記情報は器官位置情報から分離され、そして、最良の利点として利用可能である。直接的な音波単位の識別が後続する。音声レートアルゴリズム音声レートは、従来の音波式音声認識装置及び非音波式認識システムにとって重要である。理由は、これらの場合には、音素を識別するため及び話し手を正規化するために、音波情報流のタイムレートから導出した時限を用いることに因る。ＣＡＳＲは、話された音声のセグメントのレートを調整するためにタイムワーピングと呼ばれる技法を用いるので、これらがどれほど急速に或いはゆっくりと発音されても、前記全てのセグメントを同じ認識装置を用いて認識することが可能である。ＮＡＳＲアルゴリズムは、１秒当たり発音された音素の個数、及び、共通音素を発音するために個人が必要とする時間を決定するために音声周期長さ、１音素当たりに使用する周期の数、及び、統計学を使用する。一般原理は、先ず、当該ユーザーによって利用されつつある語彙に関して公知の音の音声調音（アーチキュレーション）と一意的に（統計的意味において）関連する音声器官運動事象の数を記録することである。第２番目に、（既知の語集合を用いた訓練期間中に）小数の公知音素を発音するために当該話し手が使用するピッチ周期の数を測定することである。＊平均音声レートのための有声‐無声統計アルゴリズム図１９におけるコンパレータ７８及び７９が所定の音声セグメントにおいて使用される回数（例えば、４秒毎）を測定することにより、短時間（例えば４秒）語集合における有声対無声ＰＬＵの比率を測定し、そして、「標準音声」における数に対してこの数を比較することが出来る。このアルゴリズムにおいては、処理用として従来のＣＡＳＲが設定されるか、或いは、ピッチ周期継続期間および音素訓練において用いられたフレームの数に関するＥＭアルゴリズムによって、基準話し手又は話し手のグループから得られる音声レートが標準として定義されるべきである。これは、当該個人話し手によって用いられたピッチ周期の継続期間および数を、基準とされた話し手グループによって用いられた数に対して正規化するために使用できる。＊平均音声レートに関する舌運動統計アルゴリズム図４に示す舌運動センサ２２を使用することにより、スレショルド以上の舌運動の回数を、音声レート情報を必要とする各タイムセグメントに関して測定することが出来る。図１６参照。このアルゴリズムは、図１９に示す処理ユニット８３におけるスレショルド検出器を簡単に使用する。毎秒当たり舌運動がスレショルドを超過する回数は、訓練統計を用いて発音中の音声における毎秒当たりのＰＬＵレートに変換される。第１に、ライブラリを定義するための基準グループと、その後で、訓練期間中のユーザと両者によって、使用されている言語‐語彙（ボキャブラリ）に適した音声がシステム内に発音される。図１２及び１３に示すように、時限演習のために、スレショルドトリガの回数がカウントされる。この場合、プロセッサ６６は図１９に示すアルゴリズムを含む。両者が比較され、そして、ユーザーの舌運動スレショルド事象を基準グループと関連付ける比率が導出される。これから、音声フレームの個数、または、１秒当たりのＰＬＵ個数を知ることにより、アルゴリズムは、基準グループと同じ平均時限であるように、話し手の特徴ベクトルを訂正する。当該話し手による正常な使用期間中に、任意の妥当な音声周期の期間中におけるスレショルドカウントを調査することにより所定の値を適用することが可能であり、更に、当該語彙（ボキャブラリ）を知ることにより、予測されたカウントレートに対してカウントを比較し、そして、修正が行われる。同様の統計資料を作成し、他の器官運動に使用出来る。＊連結器官音声レートアルゴリズム前記の２つの例から、複数のＮＡＳＲを用いることによって更に複雑な決定トリーが形成可能であることが明瞭であり、ここに、各々のＮＡＳＲは、器官スレショルドトリガのそれ自身の統計的測定に使用し、次に、音声レート信号に関する最終数を生成するために、統計的に平均することによって前記測定値を連結する。同様の音または難しい音の識別子アルゴリズム類似音パターンにおけるわずかな差は１器官運動と関連しており、不完全に調音されることが多いので、単一器官運動検出器は発音された類似音の間の区別またはほかの点では難しいワード認識問題に使用出来る。有声‐無声ＰＬＵ識別に関しては同様の手順は類似発音パターンを区別する更に一般的な方法に用いられる。器官（例えば、舌）の異なる部分が動き、従って、所定のワードサイクルにおける個々の音声タイムフレーム（各ＰＬＵを定義する）期間中に異なる時間に異なる強度の信号を反射するのでＥＭセンサを使用する正しいＰＬＵの識別は直接的であることが多い。例えば、図７Ａ、Ｂに示す語（ワード）「ｓａｌｉｎｅ」と「ｓａｉｌｉｎｇ」は類似した発音であり、位置対時間として示される舌の先端および舌の背部からのＥＭセンサ反射データが容易に区別可能であることに注意すれば識別可能である。更に、例えば、混乱させる音パターン／ｉｎｅ／及び／ｉｎｇ／に関する特徴ベクトルを含む３フォーンに関する特徴ベクトルの参照ライブラリを生成することによって、２つの異なる音に関して音声タイムフレーム期間中に得られる特徴ベクトルは、ライブラリ内の特徴ベクトルと比較され、別々に識別され、そして、図１４のアルゴリズム的手順に正しい識別に関する決定を行うために用いられる。制限付き語彙及びワード認識単一器官アルゴリズム１つの単一ＥＭセンサの使用は、例えば、バンキング用の貿易ストックまたはボンドとして特殊化された応用に用いられる制限付き語彙（ライブラリ）用として、カタログ受注用として、更に、航空システム予約用として特に有用である。これらの場合には、限られた語集合に関して非常に高い正確度であることが重要である。単一器官ＥＭセンサは、比較的複雑な音波特徴ベクトルを補足するために、各音声フレームに関して非常に簡単な特徴ベクトルを提供できる。例えば、ＥＭ声門ピッチ周期センサは、例えば（８．２，３）と（９．２，２）のような非常に簡単な２つの係数を持つその特徴ベクトルを持つことが出来る。第１のベクトルは、ＥＭセンサ及びアルゴリズムが、その期間中一定ピッチが測定された３ピッチ周期により定義されたタイムフレームに亙って８．２ミリ秒音声周期を測定したことを意味する。第２のベクトルは２つの逐次的な９．２ミリ秒ピッチ周期が測定されたことを示す。正常化された場合、この種のピッチ情報はある特定の母音識別を拘束する。水平レンジゲート付きＥＭセンサから音／ｔ／及び／ｏ／に関して得られるベクトルに類似した更に複雑なベクトルは、図２３Ａ、Ｂに示すように、唇から軟口蓋までの一列になった数個の調音器官の（正規化されていない）位置を記述する２５個の特徴ベクトル係数によって記述される。単一器官の状態を記述するために、このデータの部分集合を使用することを選定出来る。例えば、図２３Ａ、Ｂに示すビンは１１、１２、１３内の各特徴ベクトルにおける３個の係数は舌先の動きを記述する。これらの方法を用いてライブラリへの記憶と参照用として設計された特徴ベクトルに関しては、器官状態係数と関連している音を記述する更に数個の追加係数が加えられる（例えば、ＡＳＣII記号及び継続時間）。更に、あらゆる認識の困難性について記述する他の係数及びシステム制御係数が加えられる。別の例としての特徴ベクトルは、図７からの舌顎位置データを用いて作成され、そして、音声化された各ピッチ周期（或いは、１０ミリ秒のデフォルトフレームタイム継続期間値）に関しては、位置の平均値（即ち、曲線からのｙ‐値）の平均値を形成する。図７には音声化されたデータは示されていないので、ｘ軸に沿った各１０ミリ秒帯域に関してｙ‐値を平均することによってベクトルは形成される。この様にして、アルゴリズムは、各々の語「ｓａｌｉｎｅ」及び「ｓａｉｌｉｎｇ」を完全に発音することにより各タイムフレームに関して１つの係数を作成する。この特徴ベクトルがコードブックに記憶されなければならない場合には、例えば「ｓａｉｌｉｎｇ」のような当該ワードがコード化されることを記述する追加係数を必要とする。更に、この音と関連する認識問題について既述する１個または２個の係数が加えられる。この例において、追加された係数は、当該ワード内の個別ＰＬＵの個数が６であるはずであること、及び、ＣＡＳＲシステムにとって困難であることが既知であるＰＬＵは第６番目であって、この情報（６，６）に関する特徴ベクトルへ導かれることを記述する。更に、例えば、全音声フレームの継続期間、音声の開始または終結に関する情報、及び、同様のコントロールのような追加制御係数場所が、全システムの使用に関して加えられる。発音されたワード「ｓａｌｉｎｅ」「ｓａｉｌｉｎｇ」を識別するための過程の一例として、図１４に示すアルゴリズムを使用する場合には、ワード内の最終３個のＰＬＵが音「ｉｎｅ」及び「ｉｎｇ」を示すので、ＣＡＳＲが区別することが難しいことをユーザーが発見するはずである。音声学者は、これら２つのワードを含むワードライブラリを作成する際に、当該ワードを問題語としてラベル表示するはずである。舌に関するＮＡＳＲ認識装置は、「ｉｎｅ」が発音された場合には、正面位置が「ｓａｌｉｎｅ」であるものとして未知の特徴ベクトルを識別し、そして、特徴ベクトルは口蓋に対して閉じた舌が背部位置にあることを記述するので、「ｉｎｇ」が発音された場合には、当該ワードを「ｓａｉｌｉｎｇ」として識別する。ＮＡＳＲ比較に関する情報を収容するためにＰＬＵワードのＣＡＳＲライブラリに追加されるべき余分な情報単位の個数は、各器官センサによって測定されつつある器官位置の個数にＰＬＵ個数を乗じた数である。単一器官の場合には、余分な情報を持つために当該ライブラリ内のワード特徴ベクトル当たりただ１つの付加情報係数が必要とされる。典型的なＣＡＳＲ特徴ベクトルは、現在のシステムにおける係数の長さが２５〜４０である。従って、図１４に示すように、ＣＡＳＲシステムをアルゴリズムにおけるＮＡＳＲシステムとインタフェースするために１つ又は僅かな個数の係数を追加することは、困難でもなく、記憶装置サイズ又は処理速度に有意の負担もかけない。反対に、当該タイムフレーム内に発音された音波単位を識別するために、ＣＡＳＲは複雑な統計的技法、或いは、文法的または統語論的な技法を用いる必要がないので、余分な情報は収斂をはるかに速くする。ＮＡＳＲ情報によって提供される余分な情報は、次に示す幾つかの方法で使用される。即ち、１）正しい識別の確率を上げる。２）ＮＡＳＲデータはＣＡＳＲ単独よりも多くのワードを更に正確に区別し、必要とする統計的処理が少くコードブック比較が更に正確かつ速いので所定の正確度に到達するためのＣＡＳＲ処理時間を短縮する。多重器官多重状態アルゴリズム多重器官音声タイムフレーム各タイムフレーム毎に多重器官インタフェース情報を獲得するように最適化した場合、非音波式ＥＭセンサシステムは多くの情報を提供する。図２１Ａ−Ｃ、２２Ａ−Ｂ、及び、２３Ａ−Ｂ参照。時間の経過と共に、そして、音声器官が新規な音声タイムフレームに関する新規な位置に動くにつれて、新規な器官インタフェース状態（例えば、場所）は、記録、処理、正規化、量子化が可能であり、新規な特徴ベクトルが形成される。新規な音声器官状態情報が認識システムにとって利用可能になったということ、そして、前記情報は処理して、特徴ベクトルに記憶しなければならないことを注記するためには、新規な音声フレームを定義するための自動化されたアルゴリズムが必要とされる。この種のアルゴリズムは次のように定義される。１）有声音声が存在する場合には、単一器官タイムフレームアルゴリズムにおいて説明したように新規なタイムフレームは１ピッチ周期として定義される。２）音声または器官の状態が変化しない場合には（一定スペクトル声帯皺僻運動は除く）、多数の順次的な有声タイムフレームは、以下の基準に適合すれば、結合可能である。アルゴリズムは、１つ又は複数のＥＭセンサ特徴ベクトル係数と、前のタイムフレームから得たこれらの係数を用いて上記１）において定義された改めて処理された音声タイムフレームから得られた音波特徴ベクトル係数とを比較する。識別された器官係数の任意の１つが変化した（即ち、器官の部分が動いた）場合、及び、音波特徴ベクトル係数が事前に定義されたレベルを越えて変化した場合、当該アルゴリズムは、既存のフレームの終了及び新規音声タイムフレームの出現を定義する。変化が一切検出されない場合には、音声フレームの長さが１音声周期だけ増加し、そして、特徴ベクトルにおける制御係数が１だけ増加する。過去の音声フレームにおいて求められた特徴ベクトルが現在のフレームにおいて求められた１つのベクトルと比較される方法を図２１Ｃ及び２２Ｂに示す。図２１Ｃの或る係数、例えば、ビン１２における舌の接触が大きく変化した場合には、かなりの器官運動が発生し、そして、新規な音声フレームが必要とされて、定義されたことを示す。３）一切の有声音声が発生しない状態において、音声フレームの継続期間は、新規な音声フレーム（例えば、有声ＰＬＵ）の開始を決定するために声帯皺僻状態変化が調査されるということを除けば前記２）と同様に定義される。この方法は沈黙周期も記述する。この種のフレームの継続期間は、特徴ベクトル制御係数場所における１つの係数値として記録される。４）他の一切の情報が利用可能でない場合には、音声フレーム当たりのデフォルト値として５０ミリ秒が用いられ、そして、「音声の所在」アルゴリズムはシステム処理を未だ停止していない。システム状態の追跡、音声タイムフレーム係数の長さ、開始または停止時間、等々を保持するためには特徴ベクトル制御係数が用いられる。多重器官状態情報同一音声タイムフレームにおける数個の音声器官の数個のＥＭセンサ状態および同時に記録された音波情報（必要とされる場合）を使用して形成された多くの個別センサからの特徴ベクトルは、音声単位（ＰＬＵ）識別のための更に長く更に有益なベクトルを生成するために一緒に結合可能である。口器官状態並びに声帯皺僻情報を記述する１つの３０係数ベクトルを作るために、水平ＥＭセンサデータ特徴ベクトルがＥＭ声帯皺僻運動検出と結合される方法の例については、図２１Ａ−Ｃ、２２Ａ−Ｂ、及び、２３Ａ−Ｂを参照されたい。これらの手順は、単一器官ＮＡＳＲシステムに関する「制限付き語彙及びワード認識アルゴリズム」において既に説明した手順と同様である。比較的多数の多重器官多重状態ベクトルの係数の編成は充分に計画され、正しい定数及び信号レベルを得る以前にテストされなければならない。これらの方法の基本的な利点の１つは、それらの方法が、よく理解された基本物理学、音響工学、及び、各々が類似の状態において充分にテストされた数学的な原理に基づくことである。従って、数百または数千個もの係数を持つ特徴ベクトルの使用は、容易に定義、獲得、最新コンピュータを用いて処理され、そして、発音される音を伴った音声器官状態の非常に正確な識別に到達する。これらのＥＭセンサに基づく方法の出現によってのみ、リアルタイムに、強引でなく、安全に、そして、経済的に実行することが可能になった。価値のある多重器官ＥＭセンサ測定は、写真的意味において現実の位置的場所がある必要はないが、器官‐空気通路、器官の形状と波の共鳴、多重インターフェイス妨害効果、全ての器官運動、または、同様の効果に起因するＥＭ波反射の複雑な渦巻きであることもあり得る。これの実験例は、図１６に示す声帯皺僻運動と同時に得られた顎／舌運動データである。前記のデータは非常に有益な情報を提供するが、顎／舌の状態は複雑な回旋状ＥＭ波‐器官インタフェース反射／減衰信号として獲得され、舌及び顎、及び、それらの全てのインタフェースの細部の「写真的」または「断面写真的」映像ではない。しかし、多少直接的でないこれらのデータは、観察された器官の重要な状態の特性を、例えば、ＦＬＵのような、発音されている音声単位を用いて、一意的に記述する情報を提供する。これらのデータは、正規化及び量子化され、ライブラリまたはコードブックリファレンス用の各音声タイムフレームをもった多重器官特徴ベクトルに形成可能である。音声パターンマッチングに基づく結合技法、直接的なテーブ参照、隠れたマルコフモデル、結合または排他的な確率技法、ニューラルネットワークモデル、及び、テーブル索引技法の分野のエキスパートにとって既知のその他の技法を用いることにより、各タイムフレームにおいて発音されつつあるＰＬＵを識別することができる。実例的なデータ収集及び多重器官特徴ベクトルの形成一例として、１組のＥＭセンサ及びそれらの波長、並びに、パルスフォーマット、伝播の方向、例えば、サンプル‐ゲート、及び／又は、ホモダイン位相のような受信機の状態を適切に選定することにより、図１０Ａ−Ｃ及び１１Ａ−Ｄに示す様な一連の器官位置的データがを獲得される。Ａ／Ｄ変換、平均化、背景減算、正規化、量子化、及び、ＥＭデータの短期および長期記憶装置への記憶については、図１２、１３に要約して示し、実例となる特徴ベクトルは図２１Ａ−Ｃ、２２Ａ−Ｂ、及び、２３Ａ−Ｂにおいて詳細に示す。特に、これらのシミュレートされた事例は、発音された語（ワード）「ｔｏ」に関する、主として、図４のセンサ２１と同様に水平伝播波を用いて求めた、唇から喉への反射データ対時間（ひいては、距離）を示す。ただし、多重センサ多重器官情報のパワーを例証すれば、そのセンサ（図４のセンサ２３）からのディジタル化されたデータを図２１Ａ−Ｃか図２２Ａ−Ｂまでに示すように、水平デジタルデータ集合のタイムビン２５から２８までに配置することにより、声帯皺僻運動データはこの集合に加えられる。（図２２Ａは、／ｔ／に関してシミュレートされたデータの後で４０ミリ秒が経過すれば、図２１Ｂにおける音素「ｏ」に関する調音器官はこの音のために位置決め及び準備されるはずである。）音声器官に設置されたＥＭセンサ信号を、その後の１つ又は複数の音声フレームから得られたデータから差し引くことによって得られる異なる特徴ベクトル表現を図２３Ａ、Ｂに示す。この処理技法は、対象とされない音声調音器官データ、並びに、背景からのクラッタを除去する。図２３Ａ−Ｂにおける例は、語（ワード）「ｔｏ」におけるＰＬＵ／ｔ／及び／ｏ／を調音するために器官が動く場合に得られた係数から、図２１Ａに示す残りの調音器官特徴ベクトル係数を差し引くことによって作られた。記述に関するこの「差算」モードは、器官運動の方向上の変化を示す。位置における差を、残りの信号獲得から、その次のタイムフレームにおけるその次の器官構成までの継続時間によって除算すると（図２３Ａ参照）、器官状態運動の速度が得られる。この種のデータは、器官運動または位置モデルパラメータ、及び、声管調音器官位置と関連している受け入れ可能な音素に対して強い強制力を提供する。２つの音声タイムフレームに亙る位置の変化は、例えば、２フォーン及び３フォーンによって記述される倍のような音素対表現を強く拘束する。例としては、その期間中一般に調音器官が継続的に動く破裂音、流音、半母音、二重母音が挙げられる。同様に、複数のフレームからのデータは、多重音素音声表現を拘束する。上に示した場合よりも更に複雑な特徴ベクトルは、記述的係数を加えて特徴ベクトルの長さを増大することにより、充分に計画された方法において、同じ音声タイムフレームに関する音波特徴ベクトル、及び、同じ音声タイムフレームに関する他のＥＭセンサによって生成された特徴ベクトルから容易に形成される。逐次的な音声タイムフレームから作られるマルチ音声フレーム特徴ベクトルは、更に長い、より多くの情報を持ったベクトルを作るために一緒に結合することが可能であり、更に、音声認識または関連応用に適した他の組合わせを作ることが出来る。多重音声フレーム特徴ベクトルの作成における重要な概念は、先行フレームからの情報における変化に限って記憶する必要がある場合に必要になる情報記憶の経済性である。レンジゲート付き多重インタフェースデータレンジゲート付き及び他のＥＭセンサデータの使用を図１０Ａ−Ｃ及び１１Ａ −Ｄに示した。図１３及び１４に示すデータを使用するためのシステム及びこの種のデータから形成された更に複雑な特徴ベクトルの説明図を図２１Ａ−Ｃ、２２Ａ−Ｂ、及び、２３Ａ−Ｂに示す。このタイプのデータは、ＥＭ波を上方に向かって顎、舌、及び、鼻の空洞内に方向付ける２ＧＨｚマイクロパワーレーダ送信機および受信機ユニットから成るレンジゲート付きＥＭセンサによって獲得された。タイムゲートは、距離に変換された時、２、３センチメートルまで正確であった。反射及び検出された波パターンは、図２４Ａ、Ｂに示す「ｏｎｅ」における音／ｕｈ／及び「ｔｗｏ」における音／ｏｏ／に関する音声調音器官の位置決めの関数として反射されたエネルギーの様々な標示対時間（頭部への距離）を示す。／ｏｏ／信号と比較された／ｕｈ／信号は、顎における降下の差、舌本体の降下、口蓋までの舌本体（ブレード）の距離の増大、及び、／ｏｎｅ／音における／ｕｈ／を発音する場合の鼻音化に関連付けられる。これらの、及び、類似のデータは、これらのＥＭセンサ状態を用いた異なるＰＬＵｓに関して器官反射が異なることを明瞭に示す。各音声フレームからの信号から変化しない背景を減じることによってデータは強化される。更に、図２４Ｃに示すように、所定の距離間隔のデータは、平均され、そして、「ビン」に記憶される。これらの実験及び他の実験は、図１０Ａ−Ｃ、１１Ａ−Ｄ、１３、２１Ａ−Ｃ、２２Ａ−Ｂ、２３Ａ−Ｂに示す手順を確認する。多重器官多重状態から入手可能なデータ多重器官多重センサ法から容易に入手可能な（すなわち、信号処理をほとんど必要としない）情報の例を表IIIに示す。これらのデータを生成するために使われる処理、正規化、及び、量子化手順は、単一器官正規化及びピッチ正規化に示される。表III−ＮＡＳＲ（即ち、ＥＭセンサシステム）によって獲得された音声器官の簡素化された音声状態これらの器官位置及び速度状態は全て一緒になって、各音声タイムフレームの期間中に発音された５０個のＰＬＵの１つ、または、他の音波音単位へ適用されるべき数千の情報組合わせを提供する。多くのＰＬＵは、例えば「破裂音」のような「動いている」音なので、多重タイムフレーム記述を必要とする（一例は、「ｄｏｇ」における／ｄ／であり、この場合、／ｄ／は、急速に上下する舌と顎によって発音される）。動く音ＰＬＵカテゴリは、流音、半母音、二重母音、及び、その他と呼ばれる。（前述のＯｌｉｖｅ参照）。利用可能な情報単位を推測するためには、ＰＬＵ当たり２つのタイムフレームの特徴ベクトル係数の平均値を用いて、表IIIに示すように、センサからの情報の量及びそれらの許容された値は、数百万単位を超過することが極めて簡単に算定される。ただし、表IIIに記載済みの非常に多数の器官状態は、所定の言語において相互に独立していないので、組合わせ数はかなり減少するが、数１０００単位を超過する。ＥＭセンサで測定した状態の数に関するこの推定値は、一般に、各音声タイムフレーム毎に音波センサからの特徴ベクトルとして獲得および記述される追加情報を含まない。音波特徴ベクトルは、更に長く更に有益な特徴ベクトルを作るために、ＥＭ特徴ベクトルに結合可能である。利用可能な情報は、あらゆる言語において、基本的な音波音の個数を遥かに超過する。例えば、英語では、５０個のＦＬＵ、２５６−５１２個の音波単位、２０００個の英語半音節、及び、１０，０００個の音節が用いられる（前述のＲａｂｉｎｅｒｐ．４３７参照）。語（ワード）特徴ベクトルは、全語特徴ベクトルを作るために、数個のＰＬＵ特徴ベクトルが結合されることを必要とする。これが行われる場合、利用可能な情報は、自然の英語音声に用いられる語数よりも大きい百万単位を越える。各音声フレームに関する音声特徴ベクトルが正確に形成かつ正規化され、そして、最近の表探索技法を使用する場合、１０，０００個のコードブックベクトルのうちの１つに対するマッチングを識別することは簡単であり、そして、語（ワード）を識別するために、４０，０００個以上のベクトルのうちの１つに対してマッチングすることは簡単である。無声の、ささやかれた、或いは、「もぐもぐ言う」音声ＥＭセンサシステム及び処理アルゴリズムを適切に選定して利用すれば、識別パラメータの個数が非常に大きく、従って、各音声フレーム毎に音波出力を測定することなしに、発音されている音波音単位を識別することが可能である。各タイムフレーム毎に音声器官の状態に関して利用可能な情報（声帯皺僻の開／閉運動は含まれるが、反復的なサイクリングは含まれない）は、幾つかの用途において有用な有限の語彙（ライブラリ）からの意図した音声単位を識別することを可能にする。ＣＡＳＲシステムが作動化されていない場合を除き、図１４に示すとおりのアルゴリズムを用いた場合、ＮＡＳＲによる識別確率が最も高い音声単位は、認識されるとして定義される。特に、音波式ＣＡＳＰがＮＡＳＲシステムと共に用いられる場合、このアルゴリズムは、騒々しい状態に関して非常に有益である。音声器官運動の測定は、同時音声の有無に拘わらず、特殊の用途に対して最適化される合成言語の作成を可能にする。例えば、左右移動、前後移動、或いは、静止することを車椅子に指令するには非常に小さい「語彙」の片言を使用することが出来る。情報伝達は、舌を左右、上下に動かすか、或いは、それぞれの運動に関して舌を口の中で安定した状態に保持することによって、ユーザーにより達成される。この合成言語は、先ず、舌の状態に関して特徴ベクトルを形成し、そして、関連する機械制御コマンドと共に参照コードブックに前以て記憶されているベクトルとこれらの特徴ベクトルとを比較することによって用いられる。識別に際して、コマンドが実行される。同様に、急速な舌の動きは、セル式電話に電源入れを合図するためにも使用できる。多重器官運動を使用し、人間の音声を付随させることによって更に複雑な語彙を、特定の用途に対して、必要に応じて、作ることができる。ささやかれた音声（即ち、低レベル無声であるが発音された音声）を追加することは、低ノイズにおける用途において有用な無音状態に追加情報を加えることであり、意図する音声単位識別の正確度を向上させることが出来る。この場合、図１４に示すアルゴリズムはＣＡＳＲ情報を使用するが、ささやかれた音声単位のライブラリ内の特徴ベクトルは、ささやかれた音波音声データを用いて、それらの識別の困難についてラベル表示される。図１９に示すアルゴリズムも、同様に、音波音声の振幅がゼロ、或いは、ささやかれた音声に該当する値未満であるように設定される。ＷＯＲＤＳ（ワーズ）語（ワード）は、例えばＰＬＵ単位のような基本的な音波音単位の列であり、そして、１つの語（或いは、短い句）を記述する語（ワード）の特徴ベクトルは各ＰＬＵからの特徴ベクトルを更に長く、そして、更に複雑ではあるが依然として管理可能な特徴ベクトルに結合することによって構成可能である。この種の合成された特徴ベクトルは、限られた語彙とともに使用する場合に非常に効果的であり、更に複雑な語彙に関しても同様に有用である。ＮＡＳＲシステムによって提供される追加された情報は、量質両面において、語単位の定義の大幅な改良を可能にする。例えば、２から１０個までの順次的ＰＬＵのような多重音波単位特徴ベクトルを組み立てる方法については既に説明した。正規化、係数の量子化、及び、多重ピッチ周期タイムフレームの定義は、語（ワード）及びフレーズ（句）の更に大きい合成語特徴ベクトルに関して、実現が簡単である。これらの手順は、例えばＰＬＵのように、音波音単位の列が演繹的に既知である場合に、語（ワード）単位を定義するためによく機能する。これらの手順は、認識への応用を含めて音声応用アルゴリズムによって参照するためのコードブック及びライブラリを作るために用いられる。逆の問題、即ち、認識は更に難しいので、次に検討することとする。語（ワード）または句（フレーズ）に関する合成特徴ベクトルを生成するための過程の一例は、順次に獲得された特徴ベクトルからの係数の端と端とを接合して簡単にストリングを作ることである。１例としては、例えば、（８．２，３）と（９．２，２）のようなそれぞれ２つの係数を持つ「限られた語彙及び語（ワード）認識単一器官アルゴリズム」において記述される声帯皺僻ＥＭセンサからの２つの実証的な特徴ベクトルを挙げることとする。音による合計５個の音声フレームを持ち、全使用時間が４３ミリ秒である１つの仮説２ＰＬＦ語に関する合成ベクトル（８．２，３，９．２，２）を作る。更に複雑な一例は、図２３Ａ）Ｂに示す個別の音／ｔ／及び／ｏ／に関する３０係数特徴ベクトルを考察することによって示すことができる。２つの３０係数特性ベクトルを結合することによって語（ワード）／ｔｏ／に関する１つの６０係数特徴ベクトルが作られる。同様に、例えば長さがそれぞれ２５係数の２つの音声フレームに関する音波特徴ベクトルを加えることにより、そして、２０システム制御係数と特殊情報係数と２文字及びワードエンド記号に関するＡＳＣII係数とを加えることにより、語（ワード）「ｔｏ」に関する非常に良く定義された長さ１３０係数の特徴ベクトルが作られる。実験的に立証済みの第３の一例において、図７に示す顎／舌のＥＭセンサ出力を用いて約１秒の期間に亙ってそれぞれ１０ミリ秒の曲線値を使用すると、１つの特徴ベクトルが構成される。これにより、各々の語（ワード）「ｓａｌｉｎｅ」及び「ｓａｉｌｉｎｇ」に関する１つの個別の１００係数ベクトルが作られる。冗長情報を除去するために、この種の長いベクトルを簡素化するためには、「低速変化」特徴ベクトル定義、係数正規化と量子化、及び、タイムフレーム特徴ベクトル係数差生成を含む幾つかの方法が利用可能である。語（ワード）の開始と停止の問題はＮＡＳＲシステムによって自動的には解決されない。語（ワード）遷移の識別は、例えばＰＬＵのような音波単位列の識別を越える追加情報が必要である。本手順については、例えば前述のＲａｂｉｎｅｒの著作のような音波式音声認識に関する参考文献に記載されており、参照事項がここに含まれる。ただし、ＮＡＳＲシステムの正確度及び正規化能力のために、ユーザーは、次の語（ワード）を開始する事象を援助する際に使用する更に多くの「キュー」を持つ。ＮＡＳＲシステムから入手可能な多くの追加情報を同時の音波及び声声コード運動データを示す図２５Ａ−Ｈに示す。図２６Ａ−Ｄは、図４における４個全てのセンサを示す。上記両方とも、男性の話し手が次の文を話した場合である。即ち、「Ｔｈｅｑｕｉｃｋｂｒｏｗｎｆｏｘｊｕｍｐｅｄｏｖｅｒｔｈｅｌａｚｙｄｏｇ’ｓｂａｃｋ．」を話した場合である。同時音波及び声帯皺僻停止、エンファシス（即ち、韻律）変化、ＰＬＵ分類、語（ワード）の開始と停止、音声前声門緊張、及び、声帯皺僻率遷移を含む既に説明した多数の特徴の例を示す。図２５Ａ−Ｈは、異なって発声された音、／ｆ／、／ｂ／、／ｐ／、語（ワード）分離、休止、及び、他の現象に関する無声開始に関するピッチ変化の効果を明瞭に示す。それにも拘わらず、非音波ＥＭセンサデータは、複数の話し手が一緒に語を発声する状態を明瞭に示し、そして、このような状態はＮＡＳＲシステムによっては自動的に識別されない。ただし、特性ＥＭセンサ信号変化は、ＰＬＵ開始と停止を表示する全ての音変化に関して常に観察される。結果として、これらの方法のユーザーは、音波単位の間の非常に良好な目印をを持つことになる。第２に、各ＰＬＵ変化を定義する能力は、しばしば一緒に話される長いストリングを逐次的に解析することを可能にするが、明瞭に定義済み、正規化済み、及び、量子化済みの特徴ベクトルは多重語（即ち、句）ライブラリに対してテストを行うために使うことを可能にする。更に、綴語法、文法、及び、構文規則発生器は、ＣＡＳＲシステム用、相互に分離して一緒に話される語用として使用可能である。特に、不完全、或いは、調音の随伴状態、及び、情報の冗長度を発見することの出来るＮＡＳＲシステムの能力は、一緒に話されるが不完全に調音された音素を識別するための新規で重要な手順を提供する。従来の音声認識と関連した語標示限られた語彙の非常に高正確度における認識が応用されるような多くの用途がある。例としては、金融上の取引、及び、航空券予約が挙げられる。この種の状況において用いられる語彙は一般に１０００語（ワード）以下である。現在の音波プロセッサは、話し手が明瞭かつ明確に、雑音の低い環境において、話すことを要求することによって、これらの語彙を用いて機能する。新規データ集合の誤り確率は、許容誤り予定値を決定する際の音波情報の確率と結合させることができるように、測定に際して音波データから統計的に独立している追加情報が必要とされる。受け入れ可能な品質は、人間の音声様であって、１０，０００語における１つの誤りであるものと定義される。限られた語彙集合におけるこの品質は、選定される語（ワード）に非常に強く拘束されるセンサの組合わせを使用し、同時に獲得された音波データを使用し、残りの些細な問題を訂正するために綴法、構文法、及び、文法訂正装置を使うことによって達成可能である。図１４に示すアルゴリズム的決定過程は単一ＰＬＵを記述する特徴ベクトルに関して説明したと同様の方法において多重ＰＬＵ語特徴ベクトルのために使用出来る。ライブラリは、ユーザー又は基準話し手により、実際の応用に対して同じ集合のＥＭセンサを使用して、限られた語量に関して必要とされる全ての語（ワード）特徴ベクトルから組み立てられる。訓練された音声学者は、限られた語彙の中から、高い確率を以て識別することが困難であることが既知であるか、或いは、不用意に発音された場合に不適当に調音されるはずであることが既知である語（ワード）にラベル付けすることができる。これは、１０００語以上がシステム内に発音され、その後で処理され、必要に応じて正規化され、音声学的にラベル表示され、そして、ライブラリ（記憶装置）内の既知の場所に記憶される。図１４に、続いてアルゴリズムを示す。従来の認識装置、ＣＡＳＲは、最も近い語特徴ベクトルまたは幾つかの特徴機能ベクトルを、入来する特徴ベクトルパターンが当該ライブラリ内のベクトルに統計学的にどのように近いかによって、そのライブラリから識別する。ただし、このライブラリは、或る特定の語が識別困難であり、全体の認識確率を改良するためには追加的なＮＡＳＲ識別確率を必要とすると言う情報をＣＡＳＲ識別子と共に含む。ＮＡＳＲ認識装置は、音声タイムフレームからの情報について相談され、そして、（統計的意味において）ＣＡＳＲ及びＮＡＳＲの両方に適合する多重音単位特徴ベクトルが選定される。定義された語彙の問題に関して用いられる図１４のアルゴリズムは、一方はＣＡＳＲに適合し、もう一方は２つ以上のＮＡＳＲに適合する２組のデータを用いる。語の定義と識別は、予測されるＮＡＳＲ妥当性検査基準を参照する情報を有する拡大されたコードブックを用いて、先ずＣＡＳＲによって行われる。各語に関するＮＡＳＲデータ集合は幾つかのタイプの情報を含むことができる。ＰＬＵ特徴ベクトルの全てのシリーズから組み立てられた多重係数語特徴ベクトルについては既に説明したとおりである。非常に簡単なアルゴリズム的手順は、個別のＰＬＵ単位および後続する合成特徴ベクトルを形成するためにＥＭセンサデータを使用しないことになっている。その代りに、ＮＡＳＲ語のライブラリは、固定した時間過程または時間帯域を用いて、測定された器官状態対時間を記憶することによって、特殊の特徴ベクトルを形成するような「Ｗｏｒｄｓ」の下で組み立てられる。このアルゴリズムは、音「ｓａｉｌｉｎｇ」及び「ｓａｌｉｎｅ」に関して図７に示すデータを用いて実演された。この手順を使用する１つの方法として、（例えば）１０ミリ秒の音声タイムフレームインタバルに亙って、ＥＭセンサデータが数字化され、平均され、正規化され、そして、量子化され、更に、各１０ミリ秒データ集合に関して記憶装置「ビン」に記憶される。この過程は、訓練語の始めから終りまで継続し、そして、（最大継続期間が０．５秒の語に関して）長さな５０構成要素のベクトルが形成するために用いられる。比較的短い語に関しては、標準ベクトル内の多くの構成要素はゼロであり、比較的長い語に関しては、比較的長い標準ベクトルを使用可能である。このアルゴリズム的語及び句技法の改良には、器官状態及びピッチレートと共に自動音声フレーム生成と音声レート正規化の使用が含まれる。更に、ベクトルの長さは、１番目の特徴ベクトル係数を決定するために音声アルゴリズムの開始を使用し、そして、ライブラリ形成段階における最後の係数を定義するために音声アルゴリズムの終結を用いることによって、自動的に定義可能である。全ての事前定義済み時間間隔に亙って量子化され、平均され、そして、記憶されるデータの他の例を図２７に示す。この図は、話し手が２つの語「ｓｉｘｔｅｅｎ」および「ｓｉｘｔｙ」を発音する際に同時に感知された音波的舌‐顎の位置および声帯皺僻運動を示す。この例に関して、５０個の要素で構成される長さ０．７秒の語に関するベクトルが用いられ、そして、センサデータは１５ミリ秒毎に平均された。舌‐顎センサは、語の間の差を容易に感知する。比較的長い「ｓｉｘｔｅｅｎ」という語の場合には、舌‐顎信号は、「ｓｉｘｔｙ」の場合よりも長く高く留まる。「ｓｉｘｔｅｅｎ」における「ｅｅｎ」音は、語「ｓｉｘｔｙ」におけるよりも明瞭に示され、そして、「ｓｉｘｔｅｅｎ」に関する特徴ベクトルにおける更に順次的な係数は、「ｓｉｘｔｙ」におけるよりも一層類似した値を持つ。２つの語「ｓｉｘｔｙ」と「ｓｉｘｔｅｅｎ」とを区別することは、金融取引において非常に重要である。ただし、これら２つの語（ワード）は、金融取引用に最適化された従来の音波式認識システムによって相互に混同されることが多い。これとは対照的に、語（ワード）「ｓｉｘｔｙ」と「ｓｉｘｔｅｅｎ」は、この音声式認識を応用する際にしばしば用いられる例えば「ｄｏｌｌａｒｓ」及び「ｂａｎｋ」のような語と混同されることはなく、ＣＡＳＲは良好に機能する。音波的に類似した音として発音される２つの語「ｓｉｘｔｙ」と「ｓｉｘｔｅｅｎ」とを区別するようにＣＡＳＲを「助ける」ためには、余分な情報をほとんど必要とせず、結果的には、正確度において非常に向上する。類似の音として発音される語（ワード）或いは「困難語」において、この種の語を相互に区別するためには、通常、わずか１つの比較的短い情報セグメントがある。前述のＲａｂｉｎｅｒの著作ｐ．２９１参照。特徴ベクトル係数正規化技法及び音声周期正規化技法を使用すれば、差異を示すこれらの短い片（セグメント）がパターンマッチング用に利用可能であるので、個々の個性的変動を除去することを助ける。要約すれば、全ての語記述ベクトルは、順次的音声タイムフレームからの一連の特徴ベクトルから作成可能である。合成ベクトルは、ポストプロセッサモードにおいて、１００語未満から１０，０００語以上までに亙る語（ワード）を含む語彙内の該当する語以外の語に関する既知のべクトルと比較可能である。即ち、従来の音波式音声認識システムが決定した後で、図１４に示すように前記決定の妥当性を確認するために前記決定はＥＭセンサワードデータに対して比較される。許容される確率で確認された場合には、その語（ワード）は、認識済みとして受け入れられる。確認されなかった場合には、ＣＡＳＲシステムによって限定された（ただし、一意的でなく識別された）語の部分集合から区別するためにＥＭセンサによって生成されたデータ集合を用いて最良の推測が実施される。この種の音波的に混同される語は、一般に、限定された前記集合における語内の１つか２つの発音が類似する音によって混同されるに過ぎないので、ＥＭデータは、高い確率を以て、正しい語の選定を容易に可能にする。このアルゴリズム的概念を数百数千の有用にサイズ決定された語集合にまで拡張することは簡単である。話し手の識別ＮＡＳＲシステムが備えている発音された音声の期間中に音声タイムフレーム及び関連特徴ベクトルを正確に定義する能力は、このシステムを使用して話し手を識別するために特に有益である。この場合に使用するアルゴリズムは、僅かな修正を加えただけで、単一器官正規化及びピッチ周期正規化の場合と同じである。正規化アルゴリズムにおいて、話し手識別のために使われるように、基準話し手は、当該所有者または識別されるために指定された人であることが定義される。ある程度事前に、識別された人は、一連の訓練句をＮＡＳＲシステム内に発音するように要求され、それによって、当人の特徴ベクトルのライブラリが形成された。この種のライブラリは、例えば音素のような分離した音から作成することが出来るが、例えば当人の名前またはパスワードのような更に高位の多重音単位及び句（フレーズ）を使用すれば、一層改良された認識が得られる。システムは、ユーザー（或いは、詐称者）に特定のパスワードを発音するように要求するか、或いは、識別多重音単位がその中に含まれる言語片（セグメント）を発音するように要求することによって動作する。標準非音波式処理は、既に説明した方法によって実施され、そして、標準ピッチ及び特徴ベクトル正規化手順（使用される全ての器官センサに関する）が実施される。アルゴリズムは、この段階で正規化及びマッピングから分岐し、その代りに、訓練集合音単位及び参照ライブラリにおけるこの種の単位に関する各音声フレームの特徴ベクトル係数の間の差が形成される。次に、アルゴリズムは、各係数値の差を２番目の（並列作成された）特徴ベクトルに記憶する。識別参照ライブラリを形成するために利用された人と話し手が同一人である場合には、差特徴ベクトルの係数値は小さいはずである。識別度を測定するには、先ず、２番目の特徴ベクトルにおいて、テスト値として使用するために最も重要な係数を選定する。次に、これらの係数の各々の値を二乗し、全ての平方値を合計する。その後で、差の測定合計値を求めるために、アルゴリズムは平方値の合計値の平方根を求める。この値が事前に設定された閾値以下であれば、識別は受け入れられる。前記の値が閾値以上である場合には、識別のためのこの試行は拒絶される。遷移状態にある場合には、当該システムは、再試行のための追加情報を要求することが出来る。識別語彙のために用いられる特徴ベクトルのタイプは用途に応じて選定される。特別高度の警備システムに関しては、ユーザーの音声調音器官の拡張、話し手の音声周期の継続時間、音声単位の継続時間、及び、多重音パターンを測定する特別な語（テストワード）及び句（フレーズ）が選定される。そして、音声単位の間の器官速度が測定され、同様に、特徴ベクトルに記憶される。低値の用途には遥かに簡単なシステムを使用することが出来る。比較手順及びデータ選定過程は実質的に無視出来ず、特にＥＭ信号は発生器によってユーザーへ無作為に送信可能であり、これらの信号は事前に記録したデータを用いてシミュレート出来ないので、ＮＡＳＲ話し手識別システムは非常に有益である。大きいワードボキャブラリ（語彙）、自然音声アルゴリズム名前と技術用語が含まれる場合、自然な英語音声においては６０，０００語（ワード）以上が用いられる。英語および他の言語において用いられる異なる６０，０００語を容易に区別するために、データは、多重ＥＭセンサ及び関連処理アルゴリズム（即ち、ＮＡＳＲ）から入手できる。サンプル採取時間、及び、全ワードタイム期間中（ＰＬＵ間の休止を含めて）において利用可能な追加情報収集時間を利用すること、および、音波式認識技法を用いることによって、１タイムフレーム当たり必要とされる情報の数倍の量の情報が語（ワード）識別用として利用可能である。これらの語（ワード）識別ベクトルは、ＥＭセンサシステムとアルゴリズム、及び、音波センサとそれらのアルゴリズムとの組合わせによって生成可能である。現実の表検索技法（即ち、コードブックまたはライブラリの検索）は、コードブックスペースにおける直接的な音声的検索、隠れたマルコフモデリング、ニューラルネットワークモデル、及び、その他既知の統計的技法を用いて、達成可能である。正確かつ正規化済み特徴ベクトルを使用すると、特徴ベクトルの直接的な識別のために、直接的なライブラリ探索アドレスとして、ベクトル係数を使用することを可能にする。結論本発明は、音声認識、音声合成、話し手識別、音声人工補綴、音声訓練、音声コード化、音声同期化、及び、音声電話のための音波音声出力と協調して、人間の音声器官から散乱される（即ち、反射、及び／又は、減衰）電磁（ＥＭ）放射を利用する音声特性記述方法である。本方法は、正常に発音された音声、ささやかれた音声、及び、無音音声交信、例えば、ゼロ音波ではあるが「口を動かした」出力を含む音声器官の使用と関連した全ての人間的交信（意志伝達）への応用を含む。本方法は全ての人間の音波的言語に関して使用可能である。本方法は、例えばイルカの声のような有益かつ改良された動物交信を理解および実現するために有用な音響情報と共に非音波的情報を獲得するために動物の音声構造の運動が利用される全ての動物交信にも使用される。本方法は、ＥＭ放射器官状況検出器と組み合わせた、話し手の口、鼻を通るか、或いは、喉を通る音波放射によるか、或いは、話し手の身体の他の部分を通る話し手の音波出力を検出するための音波マイクロホンの使用を含む。測定される情報は、各サンプル採取期間中の音圧または音の強さを含む。幾つかのサンプルタイムに亙る音響強度の測定により、周波数の測定値、ゼロ交差時間、時間間隔当たりのエネルギー、セプストラム係数、及び、人間の音波音声に関する他の周知の特性は、周波数変換方法を用いて求めることが出来る。本方法は、ＥＭ波センサを用いて、人体の組織の音波振動を検出するＥＭ音波マイクロホンからの情報を利用することが出来る。この種のＥＭマイクロホンの間接的な性質の故に、前記ＥＭセンサユニットに対する当該個人の周波数レスポンス関数を求めるには調節過程が必要である。受信した信号を一旦このレスポンスに関して補正してしまえば、音波情報処理方法は、音波マイクロホンに関してここで説明した方法と同じである。本方法は、音波測定を用いた、あらゆるＥＭ波の生成、送信、及び、検出システムの利用を含む。前記システムには、皮膚の第１表面に浸透し、同様に、第１皮膚‐空気表面から反射するＲＦ、マイクロ波、ミリメートル波、赤外線、或いは、可視波レーダが含まれる。本方法は、非放射モード、放射モード（即ち、レーダ）、或いは、非放射／放射混合モードにおけるこれらの利用を含む。本方法は、あらゆるＥＭ波のコヒーレント或いは非コヒーレント生成及び検出の利用、及び、空間的な場所的及び時間的に変動する情報を得るためのタイミングの利用を含む。放射（即ち、レーダモード）を利用する例には、人体組織‐空気、組織 ‐骨、または、組織‐組織インタフェースから、或いは、音声処理過程中に放射を散乱する人体の部分のあらゆる他の構成体から反射されたＥＭ放射の検出と記憶のためのレンジゲート付き受信システムの利用が含まれる。この方法は、ＥＭ波が人体内で進行するにつれて、不連続性によって減衰および反射される送信ＥＭ信号と受信ＥＭ信号との間の時間を測定することによって音声器官インタフェースの位置および存否に関する情報を提供する。後続ＥＭ放出によって測定された減衰または反射率の変化は、時間経過情報を伴うか或いは伴うことなしに、インタフェース運動に関する情報を提供する。ＥＭパルスの反復的生成および検出により、この方法は、話し手の音声器官が話し手の音声サイクルを介して進行するにつれて一連の音声器官状態情報を提供する。この種の一連のＥＭパルスは、音声の音波測定、或いは、認識、電話、及び、他の用途のために記録することを目的としてコード化および処理される音声器官状態の他の測定と同時に時間的に順序付けることが出来る。この方法に関する変形（バリアント）は、送信された各パルス列が到達した全ての器官インタフェースからの反射および減衰を（１またはゼロレンジゲートを用いて）測定し、そして、後続パルスが送信および受信されるにつれて、タイムフィルタを使用することである。器官反射率の変化は、器官状態が変化するにつれて変化の時間表示（タイムシグネチャ）によって分離される（例えば、場妨害レーダ）。この方法は、ＥＭスペクトルの可視領域またはＩＲ近傍領域における、結像テレビカメラが感応し、そして、音声認識に補助的に使用される唯一の皮膚‐空気表面から散乱した非干渉性ＥＭ放射を使用しない。本方法は、例えば、唇の開閉と関連した「ｂ」のような或る特定の音声音素の音波認識において補助的に使用される可視唇形状解析において、この種の放射を利用しない。本方法は可視およびＩＲスペクトル情報を含むＥＭ放射を使用する。この場合、前記の可視およびＩＲスペクトル情報は、皮膚に浸透し、そして、内部の組織、骨、空気空洞構造を貫いて、同時性の音波情報と共に伝播することによって前記１番目の皮膚‐空気表面並びに内部表面の両方から散乱される（即ち、反射し、そして、減衰される）。本方法は、音波情報と共に干渉性モードＥＭ送信／受信システムを使用する。この場合、受信波の位相は、線形または非線形様式において、記憶されている送信波の位相と、或いは、例えば、ホモダイン、ヘテロダインのような他の局部に生成された位相情報と、或いは、他の「干渉計的」干渉検出技法と比較される。これらの方法は、標的と送信機アンテナとの距離がＥＭ波長の個数によって定義される程両者が接近している場合に使用される器官状態検出システムにとって特に有用である。これらの検出方法は、タイムゲートされる位相または波長の変化を伴うか、或いは、両者を同時に伴った順次送信を用いることが出来る。これらの干渉モードにおける方法は、アンテナ様構造の近距離場において、中間距離場において、及び／又は、放射性遠距離場において作動するＥＭ波センサを用いて実現可能である。本方法は、１つ又は複数のＥＭ送信機及び受信機から成るモノスタティック、バイスタティック、マルチスタティック反射、散乱（例えば、側方、前方、または、後方への散乱波）システムを使用する。前記システムは、人間の音声システムにおける誘電性、及び／又は、導電性の不連続性によって音波情報と共に反射されるＥＭ波を生成する。本方法は、音声器官状態情報（個々の、或いは、他の器官に関連した器官位置を含む）を獲得するために、単一、多重、または、スイープされた周波数ＥＭ送信‐受信システムを使用する。この場合、前記システムは、器官の次元、或る１つの器官内または諸器官の間の不連続性の位置、及び、ＥＭ波の散乱強さに関係のある情報を提供する。この方法において、適切な波長のＥＭ波は、１つのインタフェースから反射し、そして、他のインタフェースから反射するＥＭ波に干渉的に加わる。強め合う干渉の場合においては、波の振幅の和の平方と関係する非常に大きい反射が検出される。同様に、反射波の振幅が弱め合うように干渉する場合には減少した反射が起き、検出された反射は打ち消され（或いは、減少し）、更に強い順方向の伝播波に導く。この種のＥＭ波によって伝達されて受け取られた情報は、同時に測定された音波情報と共に記録される。本方法は特定の音声器官または器官インタフェースの状態を決定するために、音波情報の測定と共に、ＥＭ放射を方向づけ、そして、集束するための特殊アンテナ構造を用いる。本方法は、１番目の皮膚‐空気インタフェースにおける反射を最小限にするためにインピーダンス整合装置を用いる。本方法は、正確度を上げるため及び空間集束のために波が皮膚に遭遇する以前に波の伝播を減速するための誘電体材料を使用する。更に、本方法は、該当する角度からの音声生成に用いられる器官の状態を確認するために、複合アンテナを備えたＥＭセンサ、送信‐受信両ユニットを備えた単一パッケージＥＭセンサ、並びに、頭部、首部、または、上体に沿うか、或いは、その周りに配置される受信機ユニットから分離されたＥＭ波送信機ユニットも使用する。本方法は、例えば自動車のダッシュボードのような他の構造体に取付けられたセンサを有することができる。更に、本方法は、「グリント」すなわち目標器官または器官インタフェースからの干渉共鳴を利用する技法も含み、そして、本方法は、話し手の頭、首、又は、上体に対する送信機‐受信機アンテナの相対位置の変化に関連して変化するＥＭ散乱感度と関連した感度を除去する方法を含む。この方法は、例えば、オン、オフ、ゼロ入力状態タイミング、及び、音波の同時受信（経過時間修正付き）、或いは、他の検出器を含むＥＭ波の生成及び検出時間を決定する制御ユニットを使用する。本制御方法は、ＥＭ波の送信周波数およびパルスパケット継続時間の設定、当該システムにおける全ての構成要素のマスタータイミングの決定、受信レンジゲートタイミングの決定、受信時間当たりの送信パルス数の決定、平均化または他のノイズの減少、電子的に記憶されたパルスの電圧レベルのＡ／Ｄ変換の制御、平均化の量および受信ＥＭ波の前処理のタイプの設定、後続するアルゴリズム的処理および使用のための一時的または長期的記憶場所への前処理済み情報の配置を含む。この制御システムは、アナログ、デジタル、２つのタイプの混合であっても差し支えなく、また、回路基板またはチップ上の制限された場所に所在しても差し支えなく、或いは、分散配置されても差し支えない。この方法は、音声の事前に定義されたタイムフレーム期間中における音波信号の「特徴」並びに測定された器官の状態の「特徴」を正確に記述する情報の効率的なベクトルを作るためにデータ処理システムを用いる。これらの特徴にはタイミング情報が含まれる。音波特徴ベクトルとＥＭ特徴ベクトルは、初めに、別々に作成され、その後で、アルゴリズム的手順によって結合しても差し支えない。この方法は、定義「特徴ベクトル」を生成する目的を以て、例えば結線された状態において事前記憶されるか、或いは、ソフトウェアに記憶された命令としてＲＯＭに配置された命令またはアルゴリズムの集合に従って、ＥＭ情報および音波情報を処理するための手段を使用する。この方法は、当該技術分野において「訓練期間」として公知である期間中にこの種の特徴ベクトル情報を電子ライブラリに記憶する手段を使用する（同様に、音声技術におけるエキスパートには、ライブラリはコードブックとして公知である）。本方法は、一連の処理期間中において事前に記憶されたライブラリ情報にアクセスする手段、長期記憶装置またはコンピュータ記憶システムに処理済み情報を記憶する手段、時間の進行につれて処理済み音声情報を他のシステムまたはサブシステムに伝送するための手段、音声処理が展開するにつれて、導出されるか又は未加工の情報を視覚化するか、或いは、音波的に音にするための手段を使用する。本方法は、話し手によって放出された一連の音圧がゼロである状態、或いは、強度が正確な検出レベル以下である状態、即ち、意図した音声の器官運動自体が話し手による交信（意志伝達）の有効水準を決定するために十分に正確である状態の下において実施可能である。この方法は非常に騒々しい環境において使用可能である。音声と関連した他の関連信号は、存在することが可能であり、そして、話し手からの音声単位を定義するためにＥＭ信号データと共に使用可能である。この方法は、送信及び受信されたＥＭ情報と共に、音声器官運動及び音声形成、音声器官システムデータを提供する超音波音結像システムの同時記録及び使用、同時ビデオ信号情報の使用、及び、空気流情報の使用と関連した皮膚電位の同時記録を含む。更に、本方法は、例えばマイクロビームＸ線ユニット（音声器官への金属製取付け具を使用するか、或いは、使用しない）、磁気共振結像ユニット、植込まれるか、又は、接着された電気コイル、又は、音声器官に取付けられた磁石から得られる信号を用いる磁気位置検出器、並びに、音声システム内の歪みゲージ、導電材料、光学結像機器、及び、気圧または流量ゲージのような侵入的技法によって得られる情報とＥＭ散乱の関連付けを含む。更に、本方法は、１つ又は多くの音声器官インタフェース、または、器官本体の状態を決定するために、音波情報とＥＭ派生音声器官インタフェース速度情報とを同時に使用する。速度情報を獲得するためには、２つ以上の器官位置測定値が獲得されなければならない。速度は器官位置の差を測定の時間差によって除算することによって導出される。（男性の）声帯皺僻の開閉サイクルに際して起きる数ミリメートルの運動に対応する一般的な音声器官運動サイクルは１０ミリ秒であり、舌先は２０から１００ミリ秒間に１ｃｍ動き、顎の上下運動１ｃｍは０．１から０．５秒の間に行われる。ＥＭ送信‐受信システムは、器官運動のサイクルよりも１，０００倍以上速い最大毎秒数百万回の割合で情報を獲得するので、音声器官インタフェース速度情報は、当該器官インタフェースの重要な運動よりも速い速度において容易に獲得できる。全器官の平均速度または特定の器官インタフェース場所の詳細な速度は全て貴重であり、その測定方法は当該専門家により用途に応じて選定される。当該器官が移動し、そして、音素音生成またはすぐ後で発声される音素の生成のための位置まで引っ込むにつれて音声器官速度は符号が変わるので、この種の情報は特に価値がある。従って、速度ゼロ交差は正確かつ価値のあるタイミング情報を提供する。本方法は、速度情報の場合と同様に獲得して使用される加速度データを生成する２つ以上のタイムフレームに亙って速度変化を測定することが出来る。本方法は、音声処理を目的として、同時音波情報と共に、音声器官の特定インタフェース位置情報、音声器官本体の平均位置情報、及び、音声器官インタフェース速度、及び／又は、器官本体の平均速度情報の組み合わせを、これらのみに限定されることなしに利用する。本方法は、音声器官位置情報と共に音声器官速度情報を使用することが出来る。この場合、有益な非音波通信または音声器官状態測定値に関しては音波信号強度はゼロである。本方法は、音声器官位置情報と共に音声器官速度情報を使用することが可能であり、この場合、有益な非音波通信または音声器官状態測定値に関しては音波信号強度はゼロであるが、他の（例えば、磁気、ビデオ、空気流）同時記録される音声器官の記述的情報は、話し手からユーザーへの有益な通信のため、或いは、当該音声器官の状態測定のために利用可能である。本方法は、定義された単一音声時限フレーム期間中、或いは、定義された一連の時限音声フレームに対して、声帯皺僻の位置、及び／又は、速度に関する「特徴」ベクトルを作成する。これらの特徴付けられたベクトルは、話し手の励起関数のピッチ周期を獲得するために、１つの単一期間および複数の期間に亙って解析可能である。これは、ＥＭ波伝搬路の方向、周波数、及び、次元を適切に定義し、そして、１つ又は幾つかの類似周期に亙る時間領域技法または周波数領域技法を用いて反射、及び／又は、減衰された戻り信号を解析することによって達成可能である。本方法は、個人の音声の位置的及び時間的特徴ベクトルを「正規化し」、そして、それらを、基準化された個人または個人のグループの特徴ベクトルに（例えば、当該言語の平均的話し手に）一意的にマップする。この方法は、必要に応じて、使用中の１組のＥＭセンサに関する当該個人の音声調音器官の振幅レベル、位置‐限界、速度‐限界、及び、タイミング‐限界を決定する１組の語（ワード）を発音するように当該話し手に対して要求することによりアルゴリズムを訓練することを含む。次に、本方法は、測定に際して当該話し手の調音器官の状態と関連付けられる各ＥＭセンサ信号からの１対１通信を、基準化された（即ち、通常の）話し手の初期測定から得られたＥＭセンサ信号値に割り当てる。更に、当該調音器官状態が所定の帯域内にある場合には、正規化済み信号は、認知された音の不変性を反映する帯域へ量子化されることが可能である。次に、この方法は、これらの正規化済み、及び、量子化済み信号を、測定中の１つ又は複数のタイムフレームに関する１つの正規化済み特徴ベクトルとして記憶する。本方法は、定義済み時限フレームにおいて、または、定義された数個のタイムフレームに亙って、有声音声、または、無声音声、または、音声雑音または背景雑音が発生したかどうかを決定するために用いることが可能である。本方法は、音声化されるか、或いは、音声化されない音素の開始によるか、或いは、所定の音声時限フレーム期間中または数個の定義済みタイムフレームに亙る声帯皺僻運動、周囲の声門組織、または、他の器官運動の前兆に注意することによって、音声開始を定義するために使用することが出来る。同様に、この方法は、音声化されるか又は音声化されない音素、外部雑音妨害の存在、及び、休止の終結を決定することが出来る。本方法は、「声門閉鎖」の音声セグメントの存在、従って空気流の終結を決定するために使用できる。本方法は、所定の音声時限フレーム期間中における音声化の終結を、反復的な声門運動の終了として示す。同様に、無声音声の開始時における声門の開放の決定が可能であり、そして、音声化されない音声から音声化された音声への遷移を測定することが出来る。本方法は、時間領域または周波数領域技法を使用して２つ以上の有声音声周期タイムフレームから得られる声門組織位置または速度情報を用いることにより、有声音声通話のピッチ又はピッチの変化を決定するために使用可能である。本方法は、例えば、緊張度、共鳴振動数、コンプライアンス、質量、ばね定数、面積対散乱強度、及び、声帯皺僻システムの音波的、機械的、および、ＥＭ散乱モデルにおいて用いられる他の周知の定数のような個々の話し手の特性を定義する基礎的な機械、音波、そして、流体流情報を獲得するための、ＥＭシステム、及び、声門の組織構造（声帯皺僻を有する）に関する特定のＥＭセンサ及びアルゴリズムの使用を含む。本方法は、時間領域または周波数領域技法を用いて数個の音声時限フレーム期間中において定義済みの状態からの変化（ゼロ変化を含む）、及び、声門組織の位置、及び／又は、速度の反復的状態の両方を記述する「特徴機能ベクトル」を生成することを含むことができる。３つの方法を次に示す。（１）各タイムフレームが必要な係数を生成する度に、所要の器官位置のディジタル化された位置または速度（開口部の平均位置を含む）を記録する。（２）数学関数（例えば、テイラー級数またはＬＰＣ級数）と共に記録された特徴ベクトル係数を用いて、数個のタイムフレームに亙り、器官位置の運動を近似させ、そして、「特徴ベクトル」における数学関数の係数を使用する。（３）タイムフレームに亙って時間的に変化し、しばしば反復的な係数の運動を、「特徴ベクトル」を定義するために、定義済み個数のフレームに亙って、フーリェ（又は、類似の）係数を使用することによって近似させる。本方法は、声帯皺僻に適用するように、軟口蓋にも適用可能である。本方法は、軟口蓋の閉鎖程度を決定することによって鼻音化された音声が定義済み時限フレームにおいて発生したかどうかを決定するため、そして、軟口蓋の特徴ベクトルを顎の位置、及び／又は、速度のモデルに関連付けるため、そして、所定の時限フレームの期間中において鼻通路の背部と接触する軟口蓋を記述する特徴ベクトルを生成するために使用することが出来る。更に、本方法は顎にも適用可能である。顎および定義済み時限フレームにおいて発生した開いた口の容量の変化は、例えば「ｅｈ」または「ａｈ」のような単一管または二管音素の存在を定義するために使用可能である。例えば「ｂ」「ｐ」のような「破裂音の」子音、または、例えば「ｍａ」、「ｍｅ」、「ｍｙ」、「ｂｏ」、「ｂａ」のような速い子音‐母音パターンの存在は、音声タイムフレーム期間中における顎の位置または速度の変化を測定することによって決定可能である。更に、本方法は、舌本体、及び、舌の部分の平均場所または速度における変化を個別的に含み、特に、舌先、本体中央上表面、後方上表面、及び、上表面の横方向の曲線を含む舌にも適用可能である。本方法は、定義済みの時限フレームにおいて口の最後部と舌の接触が発生したかどうかを決定するために使用可能である。更に、本方法は、唇及び他の音声器官、音声空洞空気容量、及び／又は、定義された１つの単一音声フレーム期間中或いは複数の音声フレーム期間中において話し手の音声の品質の定義に参加する空気通路にも適用される。他の器官状態の例には、肺の容量および声門の開口部を通る空気流量を定義する隔膜運動も含まれる。空気通路測定の例には、肺の寸法、咽頭、声門後通路、鼻の容量次元、洞次元、顎と舌とを緩めるか、開くか、閉じた状態における口の容量、及び、ベリスポート（velicport）の次元が含まれる。本方法は、器官または通路のインタフェース又はインタフェース速度の平均場所、或いは、インタフェースの接触の変化を決定するために使用できる。本方法は、空気通路結合部、通路次元、音声化の状態および周囲のインタフェース及び壁状部分の速度状態、及び、例えば口、軟口蓋、声門のような小穴の閉鎖状態、及び、所定の音声タイムフレームに対する舌‐口蓋状態を含む話し手の全声管構造をユーザーによって定義される程度に決定するために１つ又は複数の特徴ベクトル又は音声器官状態を使用することを含む。本方法は、ＥＭ情報及び音波情報から得た要素を用いて、音声タイムフレームインターバルに亙って、部分或いは全音声管特徴ベクトルを記述するために使用することが可能である。更に、本方法は、検討対象とされる１つ又は複数のタイムフレームインターバルに亙って、音声要素に関して、話し手の音声励起源及び管構成の状態を記述する周知の音波モデルパラメータによって新たな特徴ベクトルを定義することも可能である。更に、本方法は、一連の音声タイムフレームインターバルに亙って励起関数のゆっくり変化する音単位状態（ゼロ変化を含む）及び声管状態を記述する１つの単一特徴ベクトルも記述することができる。本方法は、例えば、平均化されるか或いは個々の米国男性、女性、または、子供、或いは、米国英語における典型的な方言を話す外国人話し手、或いは、異なる性または年齢の他の言語の話し手のような以前に定義済みの公知のタイプの話し手との差異を各ベクトル要素に関して記憶することにより特徴ベクトルを記述することを含む。この方法は、音声修正、音声支援、及び、音声教育のためにこの種の情報をディスプレイすることを含む。本方法は、話し手識別のため、及び、識別の統計資料を提供するために特徴ベクトルを既知の人に関する記憶されている情報と比較することを含む。この場合には、数個のタイムフレーム単位、分離されたタイムフレーム単位、或いは、蓄えられる所望の話し手の識別に関する記憶されている情報が事前形成されたライブラリから利用可能である場合にこの種単位の列に亙ってこの種の比較を自動的に実施することも含まれる。本方法は、定義済みの語集合に関する話し手の個性的な特徴ベクトルパターンを記録するか、或いは、しばしば使われる語（ワード）またはワードパターンの正規化されない当該話し手独特のパターンを記憶し、そして、訓練された情報を識別ライブラリに記憶することによる定例的な使用以前におけるアルゴリズムの訓練を含む。本方法は、冗長性および音声の音素（或いは、他の簡単な音声単位）は所定の時限に亙って定義可能であると言うモデル拘束条件を含む十分な情報を伴った基本的音声単位の状態を記述する１つの単一音声フレーム特徴ベクトルを定義するために、ＥＭ情報を伴った、同時に記録された音波特徴ベクトル情報を使用することを含む。本方法は、例えば、文字、ピクトグラムコード、ＡＳＣIIコンピュータコード、または、電話コードのような記号を用いて、対象とされる音単位を、非常に高い確率を以て、識別することも可能である。本方法は、前記観察中の音単位の継続時間（即ち、音声タイムフレームインタバルの個数）を決定するため、、及び、数個の順次的な音声タイムフレームインタバルに亙って音状態を正確に定義する音声単位特徴ベクトルを定義する目的で継続時間情報と特徴ベクトルとを使用するために使用することが出来る。本方法は、数個の順次的タイムフレームからの数個の特徴ベクトルの列を、合成特徴ベクトルとして定義することを含む。この種の合成特徴ベクトルは、例えば、所要数の音声タイムフレームを記述するために端と端を接合した１つ又は複数の特徴ベクトルとして、記述可能である。本方法は、ある言語の全ての基本的言語音ペア（即ち、２フォーン）、トライアド（即ち、３フォーン）、または、他の多重単位（即ち、４フォーン及びそれ以上のパターン）に関する特徴ベクトル、即ち、２音、３音、または、より多くの音単位の定義に適用可能な特徴ベクトルを定義する特徴ベクトルを自動的に形成すること、及び、全ての基本的音ペア、トライアド、または、他の多重単位に関する既知特徴ベクトルのライブラリを定義する目的で、既知言語音のこの種の集合を訓練を介して生成することを含む。本方法は、或る言語の全ての語（ワード）音に関する特徴ベクトルを自動的に形成すること、即ち、各語（ワード）における個数が変化する音単位に適用可能な特徴ベクトルを定義すること、及び、訓練を介して既知の語（ワード）特徴ベクトルのライブラリを定義するために既知語（ワード）音のこの種の多重単位の集合を自動的に生成することが可能である。更に、本方法は、任意の所定言語において必要なだけ多くの語の組合わせに関する特徴ベクトルを自動的に形成する、即ち、多重語特徴ベクトルに含まれるそれぞれ一連の語における個数の変わる音単位（例えば、音素）に適用可能な特徴ベクトルを定義するためにも使用可能である。この種の多重語特徴ベクトルまたは個々の音単位特徴ベクトルのベクトルは、一度に記憶されるべき音素の個数を制限するか、或いは、加えられた各新規な語ベクトルに関して、最も旧い語の特徴ベクトルが除外される場合に、前以て決定済みの一連の作動中のベクトルを用いるか、或いは、韻律的拘束条件に基づく動的フィードバックによって生成可能である。本方法は既知の多重語特徴ベクトルのライブラリを訓練を介して定義するために既知の多重語音のこの種の多重語ベクトルを自動的に生成すること、及び、音素単位（サイレンス音素を含む）により、多重語ベクトルを、例えば、句読点と結合するか、或いは、話し手の思考における休止と結合した韻律的制約のような韻律的拘束条件によって定義された単位に自動的に解剖することが可能である。本方法は、１つ又は複数の音声器官状態（例えば、多重器官状態）のパターン（即ち、テンプレート）と音波出力を、以前に定義済みのライブラリに記憶されている特徴ベクトルに対してマッチングさせることによって、調査済みのタイムフレームにおいて発音される音素を識別するために音声調音器官特徴ベクトルを使用することを含む。本方法は、当該特徴ベクトルに関して演算することにより１つ又は複数の調査済みタイムフレームにおいて発音される音素を統計的に識別するために、特徴ベクトルに関して隠れたマルコフモデル技法（ＨＭＭ）を使用することを含むことが可能である。更に、本方法は、調査済みタイムフレームにおいて発音される音素を統計的に識別するために同時確率を使用することも可能である。先ず、音単位の識別（アイデンティティ）及び当該識別の確率を推定するために、従来の（音波式）音声認識技法が用いられる。次に、前記音単位の識別（アイデンティティ）を別々に推定し、そして、非音波式の場合に関する前記確率の推定値を指定するためにＥＭ定義済み特徴ベクトルが単独で用いられる（音波特徴情報は一切含まれない）。最後に、全ての音波システム又は追加情報なしで達成可能な全てのＥＭ特徴ベクトルシステムのどちらかよりも一層正確な語単位の識別を獲得するために各推定値の確率が組合わされる。本方法は、調査済みのタイムフレームにおいて発音される音波的に類似の音素の間を統計的に区別するために排反確率を使用することも可能である。先ず、従来の音波技法だけを用いて定義される確率と類似の確率を持つ１つ又は複数の音単位の識別（即ち、統計的には曖昧な状態のままである）を推定するために従来の（音波式）音声認識技法が用いられる。次に、１つ又は複数の音波的に識別されたＥＭ定義済み音素の各々の特徴ベクトル（音波特徴情報は一切含まれない）は、音単位の識別（アイデンティティ）を別々に推定するため、及び、曖昧な各音単位に関して、ＥＭ特徴ベクトルに基づいて確率の推定値を指定するために用いられる。ＥＭ識別と一貫性を持たない音波式識別は、これ以上の検討対象から排除される（即ち、拒絶される）。最後に、全ての音波システム又は他方からの追加情報なしで達成可能な全てのＥＭ特徴ベクトルシステムのどちらかよりも一層正確な語単位の識別を獲得するために各推定値の確率と残りの音波単位の確率が比較される。この方法により、記憶されている特徴ベクトルのライブラリとの比較によって定義される基準に適合する音単位を除く全ての音波的に識別された音単位を除外することが出来る。多重器官或いは音声パターンマッチング技法、ＨＭＭ技法、同時確率技法、及び、排反確率技法は、全て、調査されるタイムフレームにおける２フォーン、３フォーン、多重フォーン、語（ワード）、或いは、語列（ワードシーケンス）を識別するために使用される。本方法は、音波音声を伴った１つ又は複数の音声器官運動のＥＭセンサを用いて測定したパターンを１つ又は複数の音単位に関連付けるニューラルネットワークアルゴリズムの使用を含む。この方法は、入力ＥＭおよび音波信号の正規化を含み、話し手（１人又は複数の）を平均化し、そして、ニューラルネットワークアルゴリズムを介して（例えば、２つ以上の層を持つ後方伝播アルゴリズムを用いる）入力を認識された音に関連させるニューラルネットワークに関する通常の訓練方法を用いる。一旦、訓練されると、この方法からの情報は非常に正確であるので、ネットワークは、正確に定義された入力特徴ベクトルから識別された出力音声単位への迅速な収斂を提供する。更に、本方法は、センサ情報を処理し、前記情報を記憶し、特徴ベクトルの認識を実施し、視覚化技法または音響技法を介して、あらゆる処理段階において情報を呈示し、前記情報を伝送し（暗号化、外国語翻訳、話し手音声の修正、帯域幅最小限化、または、他の過程を用いるか、或いは、用いることなしに）、そして、音声作動化制御、口述、転写、言語翻訳または教示、話し手修正、人工補綴フィードバック、または、特殊技術システムの起動を支援するために使用されるキーボードまたは手動制御ユニットとインターフェイスされるシステム構成要素と共に、音波マイクロホンと協調するＥＭセンサを使用する。更に、本方法は、音波音声を唇運動、または、例えば視覚的画像を伴った顎運動のような他の視覚的な音声器官運動と同期化する。一例は映画またはビデオ産業のための音声または音楽の唇同期化である。以上、明確に記述された実施形態は、適用範囲が添付した請求の範囲によってのみ制限されることを意図された本発明の適用範囲から逸脱することなしに、その改変及び修正が実施可能である。

Claims

【特許請求の範囲】１．話し手による音声の音声特性記述の方法において、電磁（ＥＭ）放射を話し手の音声器官へ方向付ける過程と、ＥＭ音声情報を獲得するように音声器官の状態を測定するために音声器官から散乱した電磁（ＥＭ）放射を検出する過程と、音波音声情報を獲得するために話し手からの音波音声出力を検出する過程と、音声特性記述アルゴリズムを用いてＥＭ音声情報を音波音声情報と結合する過程とを有する方法。２．請求項１記載の方法において、前記音声が正常に発音された音声、ささやかれた音声、及び、発音されなかった音声から選定される方法。３．請求項１記載の方法において、前記話し手の音波音声出力が少なくとも１つの音波マイクロホンを用いて検出される方法。４．請求項３記載の方法において、更に、振幅対時間、周波数、ゼロ交差時間、時限当たりのエネルギー、及び、音波音声のＬＰＣまたはセプトラル（ceps tral）係数を獲得するために複数のサンプリングタイムに亙って音波圧力または音の強さを測定する過程を有する方法。５．請求項１記載の方法において、前記話し手の音波音声出力が音波振動を検出するための少なくとも１つのＥＭ波マイクロホンを用いて検出される方法。６．請求項１記載の方法において、ＥＭ波送信受信システムを用いてＥＭ放射が前記音声器官に向けられそして前記音声器官から検出されるシステム。７．請求項６記載の方法において、前記ＥＭ波生成、送信及び検出システムがＲＦ、マイクロ波、ミリメートル波、赤外線、或いは、可視波ＥＭセンサである方法。８．請求項７記載の方法において、前記ＥＭセンサが経過時間、非コヒーレントモードにおいて操作される方法。９．請求項８記載の方法において、ＥＭセンサがレンジゲートされる方法。１０．請求項７記載の方法において、前記ＥＭセンサがコヒーレントモードにおいて操作される方法。１１．請求項１０記載の方法において、ＥＭセンサがホモダイン、ヘテロダイン、または、他の干渉的コヒーレント検出モードにおいて操作される方法。１２．請求項７記載の方法において、前記ＥＭセンサがレンジゲートを用いるか或いは用いることなくタイム濾波された出力を用いて場妨害モードにおいて操作される方法。１３．請求項１記載の方法において、前記ＥＭ放射の生成と送信と検出と、前記音波音声出力の実質的な同時受信との時間を制御する過程を有する方法。１４．請求項１記載の方法において、更に、音声の定義済みタイムフレーム期間における音波音声出力及びＥＭセンサで測定された音声器官状態の特徴を記述する特徴ベクトルを作る過程を有する方法。１５．請求項１４記載の方法において、更に、前記特徴ベクトルにおいて各特徴ベクトルの定義済みタイムフレームの開始時間と継続時間と終結時間とを記憶する過程を有する方法。１６．請求項１４記載の方法において、更に、前記特徴ベクトルに含まれる情報をタイミングの同期化のための他の機器または装置からの情報に関連させる過程を有する方法。１７．請求項１４記載の方法において、更に、前記特徴ベクトルを電子式ライブラリに記憶する過程を有する方法。１８．請求項１４記載の方法において、更に、１人又は複数の話し手に関する特徴ベクトルを作成する過程と、１人又は複数の話し手の前記特徴ベクトルを平均する過程と、前記の平均された特徴ベクトルをライブラリに記憶する過程とを有する方法。１９．請求項１４記載の方法において、更に、前記話し手の特徴ベクトルを基準話し手または話し手のグループの特徴ベクトルに対して正規化及び量子化する過程を有する方法。２０．請求項１４記載の方法において、更に、軟口蓋と顎と舌と声門組織と唇とのうちの少なくとも１つの位置及び速度の少なくとも１つに関する特徴ベクトルを作成する過程を有する方法。２１．請求項１４記載の方法において、更に、単位様音節か音素かＰＬＵか２フォーンか３フォーンか音波単位か語か或いは語列を定義する１つの単一または多重音声フレーム特徴ベクトルを形成する過程を有する方法。２２．請求項１４記載の方法において、更に、単位音節か音素かＰＬＵか２フォーンか３フォーンか音波単位か語か或いは語列を識別するために１つの統計的技法またはパターンマッチング技法を前記特徴ベクトルに適用する過程を有する方法。２３．請求項１４記載の方法において、更に、先ず個別の音波及びＥＭ特徴ベクトルを形成することによって前記特徴ベクトルを形成する過程と、次に、前記個別の音波及びＥＭ特徴ベクトルを結合する過程とを有する方法。２４．請求項１４記載の方法において、更に、基準特徴ベクトルからの変化によって定義される新規な特徴ベクトルを定義するために音変化とＥＭ信号変化とを識別する過程を有する方法。２５．請求項１４記載の方法において、更に、新規な音声タイムフレームを定義するために、最後のタイムフレームの変化と比較した音波変化とＥＭ信号変化とを識別する過程を有する方法。２６．請求項１４記載の方法において、前記特徴ベクトルを自動的に形成する過程を有する方法。２７．請求項１４記載の方法において、複数の音声タイムフレーム期間中における少なくとも１つの音声器官の位置、及び速度の少なくとも一方の定義済み状態からの定義された状態と変化を記述する特徴ベクトルを作成する過程を有する方法。２８．請求項１４記載の方法において、更に、複数のタイムフレームに亙る速度と加速度に関する特徴ベクトルを形成する過程を有する方法。２９．請求項１４記載の方法において、更に、順次配列された一連の音声タイムフレームに亙り当該話し手によって形成された特徴ベクトルのパターンから話し手を識別する過程を有する方法。３０．請求項１７記載の方法において、特定の話し手の特徴ベクトルの時間調整を実施する過程と、前記特定の話し手の時間調整済み特徴ベクトルを前記ライブラリ内の特徴ベクトルと比較する過程とを有する方法。３１．請求項１記載の方法において、更に、前記の検出されたＥＭ放射から器官速度または加速度情報を獲得する過程を有する方法。３２．請求項１記載の方法において、前記のＥＭ音声情報及び音波音声情報以外の他の音声情報を測定する過程と、前記の他の音声情報を前記のＥＭ音声情報及び音波音声情報と結合する過程とを有する方法。３３．請求項１記載の方法において、更に、音声システムモデル化に関する前記ＥＭ音声情報及び音波音声情報から前記音声システムの１組の機械パラメータを決定する過程を有する方法。３４．請求項１記載の方法において、前記アルゴリズムが音声の開始と音声の終結と音声周期と休止と音声率と外部からのノイズとを決定する方法。３５．請求項１記載の方法において、前記アルゴリズムが有声または無声の音声の存在を決定する方法。３６．請求項２２記載の方法において、前記統計技法が隠れたマルコフモデル技法又はニューラルネットワーク技法である方法。３７．請求項２２の方法において、前記のパターンマッチング技法が音声- テンプレートマッチング技法である方法。３８．請求項２２記載の方法において、前記のアルゴリズムが、更に高い全体的な識別確率を獲得するために非音波式技法を用いて識別された特徴ベクトルに対して一般の音波的技法を用いて識別された特徴ベクトルを比較することによる識別の結合又は排除する方法を用いる方法。３９．請求項１記載の方法において、更に、１つの器官が別の器官に接触し、そして、共鳴器官または境界条件効果の変化に起因して前記のＥＭ波反射条件を著しく変えるような器官接触を測定する過程を有する方法。４０．請求項１記載の方法において、更に、前記組織及び組織インタフェースからの干渉性反射と透過を利用して器官インタフェースの間隔を検出するために一連の既知波長を生成して送信する過程を有する方法。４１．話し手による音声の音声特性記述のための装置において、ＥＭ波を前記話し手の音声器官に方向づけ、そして、ＥＭ音声情報を獲得するために前記話し手の音声器官から散乱されたＥＭ波を検出するための少なくとも１つの電磁（ＥＭ）波生成、伝送、及び、検出ユニットと、音波音声情報を獲得するために、前記話し手からの音波音声出力を検出するための少なくとも１つのマイクロホンと、音声特性記述アルゴリズムを用いて前記ＥＭ音声情報を音波音声情報と結合する手段とを有する装置。４２．請求項４１記載の装置において、各ＥＭ波生成、送信、及び、受信ユニットが１つのＲＦかマイクロ波かミリメートル波か赤外線か或いは可視波レーダである装置。４３．請求項４１記載の装置において、各マイクロホンが１つの音波マイクロホンか又は１つのＥＭマイクロホンである装置。４４．請求項４１記載の装置において、更に、少なくとも１つのＥＭ波生成、送信、及び、検出ユニットと少なくとも１つのマイクロホンとを、これらが前記話し手の音声器官の状態を検出できるように取り付けるための構造を有する装置。４５．請求項４１記載の装置において、更に、前記ＥＭ波の生成と送信と検出と、前記音波音声出力の実質的な同時受信との時間を制御するための手段を有する装置。４６．請求項４２記載の装置において、前記ＥＭユニットが、１つの経過時間、非コヒーレントレーダか、または、レンジゲートを備えるか或いは備えず、時間濾波された出力を備えた、１つの場妨害センサか、又は、１つのコヒーレントレーダである装置。４７．請求項４２記載の装置において、ＥＭユニットがレンジゲート付きレーダである装置。４８．請求項４２記載の装置において、前記ＥＭユニットが、１つのホモダイン、ヘテロダイン、または、他の干渉コヒーレント検出ＥＭセンサである装置。