JP2000504848A - 非音波式音声特性記述及び認識のための方法及びその装置 - Google Patents

非音波式音声特性記述及び認識のための方法及びその装置

Info

Publication number
JP2000504848A
JP2000504848A JP9528567A JP52856797A JP2000504848A JP 2000504848 A JP2000504848 A JP 2000504848A JP 9528567 A JP9528567 A JP 9528567A JP 52856797 A JP52856797 A JP 52856797A JP 2000504848 A JP2000504848 A JP 2000504848A
Authority
JP
Japan
Prior art keywords
sound
speech
organ
information
wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP9528567A
Other languages
English (en)
Inventor
ジョン、エフ.ホールツリクター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of JP2000504848A publication Critical patent/JP2000504848A/ja
Ceased legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • A61B5/0507Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves  using microwaves or terahertz waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/02Indexing codes associated with the analysed material
    • G01N2291/024Mixtures
    • G01N2291/02491Materials with nonlinear acoustic properties
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/02Indexing codes associated with the analysed material
    • G01N2291/028Material parameters
    • G01N2291/02872Pressure

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Surgery (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Processing (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 EM波反射(21)と音波音声情報(24)とを同時記録することにより、音声が調音される際の当該音声器官(2、3、4)の位置及び速度を、各音波音声単位(20)に関して定義可能である。よく定義されたタイムフレーム及び音声について必要な程度に記述する特徴ベクトル(6、7、8、9)を形成することが出来る。この種の特徴ベクトル(6、7、8、9)は、各タイムフレームにおいて調音される音声単位(20)の特性を一意的に記述できる。音声の開始、外部雑音の拒絶、音声化されたピッチ周期、調音器官の状態、正確なタイミング、話し手の識別、音波音声単位(20)認識、及び、器官の機械的パラメータが決定可能である。

Description

【発明の詳細な説明】 非音波式音声特性記述及び認識のための方法及びその装置 米国政府は、米国エネルギ省とカリフォルニア大学との間のLawrence Livermore国立研究所の運営に関する契約No.W−7405−EN G48に従い本発明における所定の権利を有する。 発明の背景 本発明は全体的に音声認識に関し、更に詳細には音声認識及び関連音声技術の ための音波情報との組合わせによる非音波情報の使用に関する。 音声認識 音声認識(SR)技術は40年に亙って集中的に研究されてきた。1950年 代において、SR研究は、孤立数字、単音節の語(ワード)、話し手依存性、及 び、音声に基づく属性に焦点が絞られた。特徴記述は、フォルマント、ピッチ、 発声/無声、エネルギー、鼻音性、及び、それぞれ明白な音素と関連した狭搾的 気音のような1組の属性を含んだ。このような1組の音声的記述のうちの数値的 属性は特徴ベクトルと呼ばれる。1960年代において、研究者は、音素、音節 、または、語(ワード)のような単位によって測られた時限は話し手毎または話 す速度毎に異なり、発声継続期間に対してある固定した割合に維持されないとい う問題に注目した。統計的解析が使用できるような手法において音を時間的に調 整するための適当な解決方法が発見されなかった。話し手の音声器官位置の変化 に起因する音声の調音における可変性が音声認識における重要問題であることが 分かった。可変性は、部分的に、複数の音が一緒に発声されること(不完全な調 音 を引き起こすことも稀ではない)、或いは、器官が2つの音の中間位置を占める こと(調音の随伴とも呼ばれる)に起因した。話し手における差異に起因する可 変性も極めて取り扱い困難な問題であった。音声に基づく方法は、上記の諸問題 を解決する能力に限界がるため、1970年代の初期までに事実上放棄された。 音波特徴ベクトルを抽出して記憶し、そして、基礎となる音素単位及び語(ワー ド)に音波パターンを関係付ける一層効率的な方法が必要とされた。 1970年代には、この技術分野における研究者は、時間波形の短い「フレー ム」(例えば、10msインタバル)が、共分散方程式を解くことによって求め られる数値的な「線形予測符号(LPC)」係数を用いた全極(ただし、ゼロを 除く)解析式によって充分近似可能であることを示した。具体的な手順に関して は、B.S.Atal、及び、S.L.Hanauerによる「音声波の線形予 測による音声の分析と合成」J.Acoust.Soc.Am.50(2)、6 37(1971年)、及び、L.Rabiner、米国特許4,092,493 号明細書に記載されている。精密な音声認識を達成するための更に良好な係数は 、例えば、音波音声及び信号処理ASSP−29(2)、254(1981年) に関するIEEE議事録、S.Furuiによる「話し手自動検査のためのセプ ストラム解析技法」に記載されているセプストラム係数であるはずであることが 示された。前記係数は、対応する短い時限パワースペクトルの絶対値の対数の展 開式のフーリェ係数である。セプストラム係数は、声帯の励起効果を声管の共鳴 伝達関数から効果的に分離する。更に、これらの係数は、人間の聴覚は、線形変 化でなくて音波パワー変化の対数に反応するという特性を捕捉する。セプストラ ム係数はLPC係数に直接関係する。これらの係数は、極く僅かの個数の値だけ を必要とする数学的に正確な近似の方法を提供する。例えば、実測される音声時 限(タイムインタバル)又は音声の「フレーム」に関する特徴ベクトルの成分値 として12個から24個までの数値が用いられる。 LPC技法に基づいた音波特徴ベクトルの抽出には成功したが、この技法は重 大な制限条件を持つ。この技法の成功は、既知の音または語(ワード)に関して ライブラリ(コードブックとも呼ぶ)に記憶されているベクトルと未知の波形特 徴ベクトルとの最良マッチを簡単に見付けることが可能であることに依存する。 この過程は、音声の属性についての特定の詳細な記述の必要性を無くした。1つ の音素が1つの基本語-音単位である場合には、LPCによって記述された波形 は音声音素を表すことができる。アメリカ英語には、使用する定義に応じて、4 0個から50個の音素が有る。ただし、LPC情報では、声管モデルの強制条件 に対する生理学的条件が明確に決定不可能である。例えば、LPC情報では、正 確かつ曖昧でない声帯皺僻オン/オフ周期の測定またはピッチが可能でない。そ の代りに、LPC表現は、例えば全期間に亙って1語がはっきり発音されるよう な比較的長い時限(タイムインタバル)を表すことが出来る。ベクトル「量子化 」(VQ)技法は、潜在的に非常に大きい話し手母集団から発声される同一音の 有節発音の大幅な変動の取扱いに役立った。VQ技法は、話し手から独立した認 識能力を提供するために役立ったが、話し手正規化問題は完全には解決されず、 今日の問題として残っている。自動的方法は、同一又は異なる話し手が異なる速 度(レート)で話した場合に、同じ音単位を時間調整するために開発された。成 功した技法の一例は特徴係数の非線形タイムスケーリングを実行する動的時間ね じれ(タイムワーピング)アルゴリズムであった。この技法は、1960年代に 通話の不均質速度として識別された問題に部分的解決を与えた。 中型語彙(例えば、約500語)の場合には、1つの単一語に含まれる数個の 音声単位に関する基本マッチング単位として特徴ベクトルの使用が許容される。 1970年代後期においては、多くの商品が市販されるようになり、限られた範 囲内における語彙認識を可能にした。ただし、ワードマッチングの場合にも、語 の開始と終結に関する知識が必要とされた。従って、精巧な終結点(及び、開始 ) 検出アルゴリズムが開発された。更に、ユーザにより語(ワード)の間に意図的 なポーズ(休止)を挿入することにより、多くの用途に関してこの問題が簡素化 された。この方法は離散型音声(ディスクリートスピーチ)として公知である。 しかし、比較的大型語彙(例えば、1000語以上)の場合には、マッチングラ イブラリは大きく、取り扱いが困難になる。更に、離散型音声(ディスクリート スピーチ)は人間の交信用としては不自然であるが、連続型音声は終結点の検出 を困難にする。1980年代においては、連続型音声の困難を大きい語彙を用い て克服することが、音声認識(SR)研究の主要問題であった。これを達成する ために、SRシステムの設計者は、人間の音声を記述するために必要とする単位 の個数は比較的少ないので、例えば、音素またはPLU(単音様単位)のような 比較的短い音単位の使用が好ましいことを発見した。 1980年代においては、連続型音声および大型語彙と関連した問題を解く際 に、隠れたマルコフモデル(HMM)として知られる統計的パターンマッチング 技法が成功裡に用いられた。HMMは、先ず50音素を認識し、次に、音素のパ ターンに基づて、語(ワード)及び語句(ワードフレーズ)を認識するように構 成された。音素に関して、確率モデルは、学習局面において、特定の音波特徴ベ クトルがそれぞれ特定の音素を表す尤度を示すように構成される。音波システム は、各タイムフレーム中(例えば10ms)における各話し手の質を測定し、ソ フトウェアは、話し手の速度を補正し、そして、セプトラム係数を形成する。特 定のシステムにおいて、例えば音波エネルギ、微分セプトラム係数、ピッチ、及 び、ゼロクロッシング(ゼロ交差)のような他の値は、更に長い特徴ベクトルを 作るためにセプトラム係数を持つ成分として測定および加算される。例として、 10個のセプストラム係数が連続型音声発声から10ms毎に抽出されるものと 仮定する。音素は平均約100ms継続するので、HMM音素モデルは1つの状 態当たり10個の記号(即ち、セプストラム値)を持つ10個の状態(即ち、1 0個の10msセグメント)を含むことになる。各10msタイムフレーム内の 音波信号は、セプストラム係数によって捕捉される異なる1組の音波特徴によっ て特性付けられるので、各音素に関して、各記号の値は状態毎に異なる。HMM 技法は、同一及び異なる語の連続体において同じ音素を言う訓練された話し手の 大きい1つの集合の中から、その次の状態において同じ行為を行う話し手に関係 する1つの状態においてある特定の記号が発生する頻度を統計的に算定すること である。例えば、1組の状態過渡確率、及び、10個の記号に各音素を最も良く 記述する10個の状態配列値を乗じた個数の添付配列体が得られる。未知の音素 を認識するために、ユーザは10掛ける10個の配列を計算し、そして、結果と して得られる配列を、最大尤度検出技法を用いて、事前算定済みの確率的音素モ デルにマッチさせる。HMM統計的技法は、1つのタイムシーケンス(時間列) において所定の10個1組の状態を観察する場合における確率はただ1組の音素 に関してのみ高いという事実を利用する。 高度に訓練された単一ユーザによるHMMに基づく今日の識別者の最高研究室 的性能は、語(ワード)認識に関して約99%正しい。周囲オフィスノイズの有 る通常の作業場所においては、平均的に訓練されている場合、大型語彙自然音声 (スピーチ)に関して、正確度は90%よりも遥かに下まで降下する。ほとんど 全ての申し込み者にとって、これは十分ではない。高い値の申し込み者にとって は、10%よりも大きい誤り率は許容不可能である。信頼できる人間交信システ ムの一般的誤り性能仕様は、通常、話し手と聴取者との間でどの程度の誤り訂正 通信が用いられるか、或いは、許容されるかに応じて、1000に対して1エラ ー(誤り)から低い方は10,000に対して1エラーまでの範囲である。 従って、この目標に到達するためには、音声(スピーチ)認識正確度における 係数の100から1000までの改良が必要とされる。HMMに基づく認識装置 、或いは、その別形(バリアント)は、15年以上に亙って強力に開発が進めら れ たが、正確度に関しては有力な突破口は見付かっていないようである。その主要 原因の1つは、所定の人間言語において用いられる全ての音単位を正確に表すた めに充分な情報が音波信号に含まれていないことである。更に詳細には、不完全 な調音を介するか、或いは、調音の随伴を介したこれら音声単位の可変性は、1 人の特定の話し手であってもその音声毎の変動を扱うことを非常に困難にしてい る。しかし、更に大きいとさえ推測される問題は、話し手が異なる場合、及び、 話し手の完全な正規化が出来ない場合、そして、最終的には、大きい語彙を使用 して、音声と共に早口に話すことの好きな話し手の場合に発生する。コンピュー タプロセッサ及び記憶装置の価格とサイズが急速に降下したとしても、失われた 全ての音波情報を供給し、調音の間違いを訂正し、そして、ノイズと話し手の可 変性を扱うための処理を実施することの複雑さは取り扱いを困難または不可能に する。これらの装置は、正確度、コスト、及び、スピードに関して、市場の需要 に適合するリアルタイム認識を提供することが出来ないはずである。 音声認識の現行例 J.L.Flanaganによる「マルチメディア通信の技術」(1994年 4月開催IEEE L,2590の議事録第592頁)は次のように述べている 、即ち、「音声認識研究の最先端は豊富な語彙と、自然言語を一層良く表す言語 モデルである......1000語以上の語彙に関するシステムが実演中であ る。ただし、語誤り率は一般に約5%以上であり、従って、文誤り率は実質的に 更に高い。」 Flanaganによって記述される特性を備えた現行音声信号処理モデルは 、音波音声情報を検出するためにマイクロホンを使用する。音波信号は、記憶さ れている特徴ベクトルライブラリと比較され、更に語及び文アセンブリに関して 処理される特徴ベクトルを生成するためにLPCアルゴリズムによって処理され る。 特徴ベクトルに関する予測の詳細は、声管に関して特徴ベクトルは、開ループ、 第10位階数の短時間静止モデルを使用することである。励起信号x(t)は、 ランダム広帯域のホワイトノイズであると仮定される。モデル係数の算定には高 速線形予測符号化(LPC)アルゴリズムが用いられる。セプストラム係数に対 するLPC係数の直接マッピングにより、統計的マッチングの基礎となる短時間 振動数スペクトルの強くコンパクトな表現を提供する。図1は、現代先行技術音 声認識システムの本質的な過程を示す。 開ループ音声処理モデルは多くの欠点を持つ。第1に、未知の励起信号はスペ クトル的に真のホワイトでなく、毎秒70から200回までの割合で起こる空気 バースト(声に出された音声)の1つのパターンである。第2に、声管モデルの 複雑さは、唇の開閉、鼻管の解放、口蓋への舌接触、その他幾つかの重要な器官 構造と共に音声パターンの関数として変化する。第3に、声管モデル係数および 全極LPCモデルを伴った励起発源の両方を1つの音波信号から推測することに 本質的な限界が有る。理由は、励起関数におけるゼロ(即ち、空気流量ゼロ)お よび声管モデルにおける反共鳴(即ち、伝達関数におけるゼロ)がLPCを用い て数学的にモデル化出来ないこと、そして、これらの存在がマイクロホンを用い て曖昧さ無しに測定不可能なことである。結果として、話し手の音声システムを 特性付ける伝達関数を表す現在推測済みのセプストラム(即ち、LPC派生の) 係数は不正確であり、しかも、ただ1つの特定の調音器官構造とは一意的な関連 性を持たない。特徴ベクトル係数にこのような誤り(エラー)の有ることは、統 計的なパターンマッチング性能を直接制限する。従って、一層マッチングの良好 なアルゴリズムを求めること、或いは、性能が向上するように強化されたコンピ ュータ処理能力を使用することは無駄である。更に、周囲ノイズと関連した人為 事象、話し手の調音における日毎の変動、及び、話し手毎の可変性が難度を上げ ると共に訓練経費を増加させる。最後に、この過程のための自動化された技法は 充分に定義できないので、多くの言語を話す多数の自然会話者用に豊富な語彙シ ステムを開発することは非常に高くつく。最良のモデルを使用した場合、最高の 所要品質音声認識を実施するには10台のCRAY YMP−16等価装置が必 要であると推測されている(Rabiner及びJuangによる「音声認識の 基本」Prentice Hall、1993年、493頁)。 人間の音声器官の運動と位置が話す音響と関連していることは、言語学者と音 声学者によって長い間認められている。Olive等による「米国英語の音響学 」Springer 1993年には、米国英語における殆ど全ての単音素、対 音素および3音素語及びそれらのソノグラムについて記述されている。数十年前 に、ベル研究所の研究者達は所定の音に対する器官の形状を決定するために音声 器官のX線像及び詳細なモデル化技法を使用した(J.L.Flanagan著 Academic Press、1965年発行「音声の分析、合成、及び、認 識」参照)。これら及び他の研究者は、声門部分(即ち、声帯皺の位置)対発声 時間を測定するために光学機器を使用する方法について記述し、公知の音波原理 に基づいた音声システムの詳細なモデルを公表した。 これらの物理的測定値技法は、全て、リアルタイムで使用可能でないという難 点があり、主要器官の測定値がリアルタイムで利用可能でないので、当該器官情 報を音素識別に接続する詳細なモデルは機能しない。従って、モデルは正確でな いか、或いは、例えば、声管寸法、コンプライアンス、及び、音声器官の速度の ような話し手の巨視的特性に容易に適合出来ない。更に、例えば、副鼻洞構造、 咽頭横断面、及び、これに類する微細部分のような声管の非常に特異な生理学的 な詳細構造は現在のモデル構造に適合不可能である。ただし、これらの詳細構造 は個々の音声音を更に正確に定量化するために必要とされる。以上のような状態 であるが、全ての上記研究によれば、あらゆる所定の音声単位(即ち、音節、音 素、または、PLU)と関連して、音声器官の運動及び位置が良く定義されるこ とが判明している。ただし、これとは対照的に、これらの研究者は、更に、音を 生成するために使われる音声通管器官構成の逆識別を実施するには音波情報だけ では不十分であることを実証している(例えば、J.Schroeter)及び 、M.M.Sondhi、IEEE ASSP、2(1)133(1994年) 、及び、そのリファレンス)。音波音声だけを単独使用する際に、現在の音声認 識システムにおいて遭遇する多数の困難は上記の不可能性に起因する。 研究者達は、話中における声管要素の位置及び形状を測定する方法を探してい るが、リアルタイムで実施する効果的な方法は発見されていない。ロスアラモス 国立研究室のPapcunは、米国音響協会誌22(2)Aug.1992年、 688−700頁に、「X線マイクロビームデータ用に調整された神経網を用い た音響学からの調音および認識表示の推論」を、更に、PCT/US91/00 529に「タイムシリーズ関連性学習」を記載して、声管拘束音声認識システム について発表している。彼は、被検者としての話し手の舌その他の音声器官に接 着した金製球の低出力X線像を用いて、音声器官の運動及びそれらの拘束された パターン及び位置を測定した。彼は、従来の数学的技法に基づいた認識アルゴリ ズムを改良するためにこの情報を使ったが、X線データを用いて求めた測定値に よって適用された付加的な音素パターン拘束条件も併用した。彼のアルゴリズム は、許容されている声管運動に基づくが、語(ワード)認識の信頼性を高めるた めにリアルタイムにおける運動は使用しない。更に、彼は、音声器官の位置及び 位置の順序は多くの音声音と一意的に関連することを示した。ただし、リアルタ イムの音声認識のために小さなX線装置の使用を考慮することは危険でもあるし 、実用的でもない。 1988年6月9日に許可されたH.Nakamuraによる米国特許4,7 69,845号明細書は「唇像を用いて音声を認識する方法」について記述して いる。この種の幾つかの特許は、例えば米国特許4,975,960号明細書の ように、音波音声と同時に音声器官運動を測定する電気機械光学装置について記 述している。この場合、唇の形状の形成は、音波識別が唇像の形状と合致する程 度によって所定の音声期間における音素の識別を定義することを助ける。この種 の装置は有用であるが、非常に高価でり、そして、それらが供給する情報に限度 が有るので、音声認識のためには広く使用されていない。これらの装置は、唇の 動きの同期化を目的として、画像に音声を自動的に同期化するために映画または ビデオフレーム用に推薦されている。 Baker等によって出願され、Dragon社(有力な米国音声認識会社) に許可された米国特許4,783,803号明細書、1988年「音声認識装置 及びその方法」は、全ての現代音波式音声認識システムの詳細について記述し、 更に6件の特許がこれに続き、最も新規なこの種米国特許は、第5,428,7 07号明細書、1995年、Gould等による「音声認識訓練のための装置お よびその方法」である。同様に、Kurzweil Applied Inte lligence社は、特許許可された数件のアイデアを持つ。特に、1994 年、Ganongによる米国特許5,280,563号明細書は、複合音声認識 エキスパート(システム)の方法について記述している。この特許は、音声認識 を強化するための制限規則に関する2つの個別装置、即ち、音波規則に関する装 置ど言語規則に関する装置の使用方法について記述している。 システムからの 正確度(即ち、「複数のスコア」)の確率は同時確率(即ち、「1つのスコア) に結合され、そして、多重語(マルチワード)仮説が選定される。制限規則装置 を結合するこの方法は、音声認識においては一般的である。 EMセンサ LLNLのThomas E.McEwanによる米国特許5,345,47 1号明細書、及び、5,361,070号明細書は、数十センチメートルから数 メートルまでの測定距離に対してミリメートル解像度を持つ極めて簡単かつ低コ ストの電子式送受信モジュールを基調とするマイクロパワーインパルスレーダ( MIR)受信機及び運動センサについて記述する。これらのディバイスは、建築 物壁内木製または金属製「スタッド発見機」(米国特許5,457,394号明 細書)用として、自動車衝突回避または障害物回避レーダ用、及びその他多くの 用途に使用できる。更に、McEwan等は、2GHzに近い周波数(及び、他 の周波数)においてこれらのディバイスから放射されるEM波は人体組織を貫い て伝播可能であることを示した。更に、彼は、出願番号08/287,746号 明細書において、この種の伝搬波は、人体組織と血液(例えば、心臓)、または 、人体組織と空気(例えば、肺)との間の誘電性(或いは、一層複雑な)不連続 性に十分に感応すること、拍動中の心臓その他の人体器官運動からの時間的に変 動する反射された信号は検出可能であり、そして、この種の信号は値を持つこと を示した。 Davisにおけるカリフォルニア大学応用科学科部長Neville Lu hmann教授は、McEwan等の設計に類似した低コストのソリッドステー トミリメートル波発生器が超小形電子工学製作技法を用いて製作可能である方法 について記述している。この種の発生器は、ミリメートル解像度を提供し、更に 、人体透過を最適化し、そして、人体組織の加熱、または、人体の化学共振を最 小限にするように調整可能な送受信モジュールとして作成可能である。 Murphyに許可された米国特許5,030,956号明細書、及び、5, 227,797号明細書は、医療目的で患者を診察するためのレーダトモグラフ ィ(断面撮影)システムについて記述している。無線周波数またはマイクロ波周 波数を伝送可能なレーダ送信機は、複数の受信機および経過時間タイミングユニ ットと共に用いられる。非常に多数の受信機ユニット(マルチスタチックシステ ム)を使用し、そして、複数の方向から患者を見るために送信ユニットを移動さ せることにより、患者の人体内への複数の深さ、及び、複数の方向から人体器官 の場所が測定される。反射トモグラフィディバイスは、医療結像用として患者の 身体内部の画像を作るためにEM波反射を使用する。時間変動器官インタフェー ス情報の重要性についても、単一方向性非結像システムの値の重要性についても 一切説明されていない。Murphyは、彼のアイデアが実行に移すことが出来 ることを示す画像の形成に関する一切の実験的データを提供しなかった、そして 、Murphyの特許における提案された実施例のうちの数件は、商業的に重要 な結像システムとして技術的に実現可能とは予測されない。 Amlungに許可された米国特許3,925,774号明細書及びNeuw irth等に許可されたべおこく特許4,027,303号明細書は、人体組織 を透過できる周波数を生成する小型レーダユニットについて記述している。Am lungは、約0.9GHzの周波数において特定の方向に無線波を投射する離 散型部品から作られたプリント回路基板サイズのレーダディバイスについて記述 している。作動原理は次のようである、即ち、規定された時間単位内にEM波の 照準線上のあらゆる対象から受信機ユニットに向けられた反射無線信号に変化が 無い限り、受信機における当該濾波作用が警報装置に無効信号を供給する。対象 が濾波時間(フィルタタイム)よりも大きい当該レートで送信装置の場(フィー ルド)内に移動した場合には、信号が検出され、そして、音響発生ユニットをド ライブするための警報が発生可能になる。この装置は、フィールド妨害運動検出 装置と呼ばれる。1975年以前には、Amlungによって先行技術として引 用されている上記の装置および他の幾つかの装置は、声帯皺僻その他の器官の運 動を検出するために、本発明の場合に類似の方法により使用された。Neuwi rth等は同様の装置について記述している。 音声認識の分野においては、音声器官の位置及び運動情報は有用であり、レー ダユニットは、測定を実施するために数十年間に亙って利用可能であることが数 十年間認められてきたが、音声器官の運動及び場所を検出して音声を識別するた めのアルゴリズムに前記情報を使用するために、送信して反射されたEM波を利 用する音声認識システムについては、今まで誰も提案しなかった。 発明の要約 従って、本発明の目的は音波情報と組合わせた非音波情報を用いる音声認識の ための方法及び装置を提供することにある。 更に、本発明の目的は、電磁(EM)発生、送信、及び、検出モジュールを使 用する音声認識のための方法及び装置を提供することにある。 更に、本発明の目的は、レーダを使用する音声認識のための方法及び装置を提 供することにある。 本発明の更に別の目的は、音声認識のためにマイクロパワーインパルスレーダ を使用することにある。 更に、本発明の他の目的は、音声の量子化、数学的近似、及び、他の音声関連 アプリケーション用の情報記憶のために音声認識用に提供された方法及び装置を 使用することにある。 本発明は、非音波式音声認識(NASR)のための用方法及び装置である。こ の場合、RF波、マイクロ波、ミリメートル波、赤外線、或いは、音声器官の光 学波電磁(EM)測定によって得られた非音波情報は、マイクロホンを用いて測 定された従来の音波情報と組合わされる。EM波必要条件は、被測定音声器官に 到達することである。非音波及び音波信号は、音波情報のみから達成可能である よりも更に正確な音声認識を行うために、アルゴリズムを用いて組合わされる。 NASR情報及び音波情報は、必要に応じて、例えば、話し手認識、音声合成、 及び、音声電話のような他の音声技術応用において使用するためにも利用可能で ある。 非音波式音声認識システムは、非放射性近距離場、中間(即ち、放射性及び非 放射性両方)場、及び、アンテナ構造体の放射性遠距離場において作動するEM 発生器検出器システムを含む。レーダは、通常、アンテナを「放れて」遠距離場 に伝搬する放射性EM波を使用するものと考えられている。しかし、EMセンサ システムここで説明する音声器官に接近して配置されるので、ここで説明する方 法および装置のために全部で3つのタイプのEM波場(ウエーブフィールド)シ ステムを使用できる。ここで透過という用語が使われる場合には、EM波が生成 された後で、アンテナ様構造体に到達し、ここで、時間とともに変化する電磁場 の近距離場、中間、又は、遠距離場(例えば、放射)パターンを展開するEM波 の伝播を記述することを意味する。人体組織は、108Hzから1014Hzまで の多くのEM波帯域において、ここで説明する方法のために必要とされる程度に 透過性をもつ。 1)EM波発生器−−周波数、タイミング、パルスフォーマット、位置、組織 透過性、及び、電源(及び、安全)必要条件を満たす全ての構成のEM波発生器 モジュールが使用可能である。(非放射性)近距離場、波が非放射および放射の 両方に作動する中間場、及び、アンテナの遠距離放射(即ち、レーダ)状態にお いて作動するEM波発生器が使用可能である。特に、2.5GHzにおいて、2 MHzパルス繰返し率を以て作動するマイクロ波レーダモジュールが使用されて おり、これらの装置は定例人体使用に関して安全であることが実証済みである。 これらは、携帯用であり、非常に経済的であることも実証されている。音声認識 実験は、4種類の異なる構成のレーダ送信/受信ユニットを用いて実施された。 音声器官運動は、3個のレーダユニットと1個のマイクロホンから、1個のレー ダユニットと1個の音波マイクロホン信号による簡単な構成まで様々なセンサ構 成を用いて同時に測定された。送信EMレーダ波を頭部及び首に向ける改良され た方法、並びに、音声認識及び他の関連応用のための幾つかのアンテナ設計及び ビーム偏波オプションが開発された。変化する位相、変化する波長を用いる方法 が考察され、複数の波長が同時に使用された(例えば、インパルスレーダ)。 2)EM波検出器−−4つの異なるEM波検出器或いは受信機モードが音声認 識用に実演された。即ち、CW受信、単一パルス移動レンジゲート受信、多重パ ルス固定レンジゲート受信、及び、ヘテロダイン受信であり、他の受信機モード が識別された。各特定の受信機タイプは、送信機タイプにマッチさせられ、そし て、通常、送信機と同じ回路板(或いは、チップ)に取付けられる。受信機は、 送信機から分離したアンテナによって供給可能であるか、或いは、タイミング的 に許容されれば、送信/受信スイッチを用いて、送信機アンテナに接続可能であ る。1つの実演済みモードにおいて、送信機/受信機モジュールにおける回路は 、音声器官から戻されて受信された波の位相を初期送信された波と比較し、この ようにして、器官運動情報を獲得する際に良好に作動する「ホモダイン」システ ムを作る。これは、検出される対象が遠距離界に在る場合、「コヒーレント」レ ーダのタイプとしての公知であり、そして、対象が近距離または中間距離EMア ンテナ場に在る場合には干渉装置の一タイプとみなすことができる。受信機「レ ンジゲート」(使用する場合)のタイミングは制御ユニットによって制御され、 そして、レンジゲート回路を送信/受信板上に配置することによって実演された 。受信した信号情報は、インタフェースから、及び、伝搬路における損失による 減衰から、及び、複合反射からの反射に起因する可能性がある。 3)構成構造体、アンテナ、及び、制御システム−−数個のEMセンサユニッ ト及びマイクロフォンを人間の顔面及び首に接触して保持すると同時に支持する 5種類の方法が考察された(正面、側面、最上面、及び、頭と首の背部、そして 、顎の下)。これらの方法には、例えば電話交換手が使用するようなハーネス、 法廷レポーターが使用するようなカバー付きエンクロージャ、計算器のようなハ ンドヘルドユニット、顎下EMセンサモジュール用に改造した電話受話器、及び 、 計装用に特定の体形にこの種ユニットを注意深く配置するための研究室構造体が 含まれた。送信機と受信機は相互に、或いは、ユーザーに取り付ける必要はなく 、例えば、自動車のダッシュボード上のような任意の便利な手近な場所に取付け ても差し支えない。音声器官から離れて配置する場合には、生成された波、及び /又は、ユーザーの追跡を適当に集中することが必要である。集中するためには 、位相をずらせて配列した送信機または受信機、多重エレメントアンテナ、及び 、レーダの分野では公知のその他の技法を、集中および追跡の目的で使用しても 差し支えない。 音波または他の入力に際してシステムを起動し、受信機スイッチのレンジゲー トのタイミングを設定し、パルス化された送信EMセンサユニットのパルス繰返 し率を設定し、即ち、サンプル採取保持ユニットにおける受信したEM波情報の 獲得を制御し、そして、統計値を改良するためにデータを平均し、即ち、保持さ れたデータを記憶装置に向け、そして、別のサイクルのためにシステムをリセッ トするために制御システムが用いられる。非音波式音声認識システム用の他の設 計において、制御ユニットは、送信された各パルスの所要周波数、送信ゲートに おける送信された波の位相、及び、他の類似機能を設定する。この種の制御ユニ ットは、システムの極めて重要な部分であるが、その構成は比較的簡単である( 1つ又は数個のチップ上に構成されても差し支えない)。この種の制御システム の簡単なバージョンが、現在使用されている送信/受信チップ(回路基板)上の タイミング回路を用いて、実現された。サンプルの保持及びディスプレイは、例 えば、記憶オシロスコープ及びコンピュータA/D変換ボード、及び、読出し装 置のような、研究室設備と連携して実施される。 4)処理ユニット及びアルゴリズム−−受信したEM波信号の各集合に関して は、処理し、そして、未知の音声を意図した音声音または語(ワード)音に関連 付けるために用いることのできる器官運動(或いは、それらの新規位置)に関す る情報を獲得することが必要である。例えば、唇、顎、歯、舌、及び、ベラムの 位置に関する情報は、そして、ベラムは、レンジゲート付きEMセンサ(即ち、 レーダ)システムから、並びに、被検体としての人体の音声器官をそれぞれ異な る方向から見るように配置された他のタイプのEMセンサから水平方向に送信す ることによって獲得され得る。音声器官から受信した信号は記憶装置に記憶され 、そして、変更変化に新しい新規位置に音声器官位置を次の新規ワード用の新規 位置に変えるために要する時間に相当する10ms(公称)の音声タイムフレー ム毎に処理される。実際の音声フレームは、データ処理システムを最適化するよ うに適応させることができる。ユーザーは、簡単なスレショルドテストを用いて 、話し手が新規な音を出すために音声システムを変更する時を決定する音声器官 状態の変化を測定することが可能であり、従って、ユーザーは、新規な音声タイ ムフレームの開始を自動的に定義することができる。音声タイムフレームを適応 的に決定するために音声器官情報を使用すると、ユーザーは、最も明瞭なデータ を獲得できるようにするために、初めて、音声出力を一定励起関数及び時間的に 独立した声管状態に自動的に関連付けることができる。更に、ユーザーは、一連 のタイムフレームからの特徴ベクトルをマルチタイムフレーム特徴ベクトルに合 体させることも可能である。最後に、音波音声単位(例えばPLU等々)に関し て、訓練された特徴ベクトルを識別するため、探索スピードを最適化するため、 休止及び記憶場所を追跡、及び、類似のハウスキーピング活動を維持するために 、任意の特徴ベクトルに、システム制御情報を追加係数として加えることができ る。 アルゴリズムは、EMセンサ信号強度を正規化および数字化し、例えば、顎の 下または顔正面の皮膚のような既知の基準場所を持った少数のEM信号構造体の うちの1つを識別する。次に、アルゴリズムは、未加工のベクトル化されたデー タを取り、そして、正規化し、量子化し、時間調整し、時間短縮し、そして、制 御情報を用いて、同時測定音波音声の各フレームにおいて所定の器官構成に対応 するそれぞれ一連の信号に関して、正規化済みベクトルを作成する。次に、公知 の比較システム(音波音声認識プロセッサにおいてしばしば使用される)を用い て、ライブラリ内の標準化された数値特徴ベクトルに対して比較を実施すること ができる。そのような比較の一例としては、50個の米語音声PLU(或いは、 類似の音波単位)の各々に関して、既知の器官運動または場所データの集合に対 して比較することが挙げられる。ライブラリ内の認識済み語(ワード)‐音と関 連した既知の特徴ベクトルの該当する係数に対して未知の特徴ベクトルが明確に マッチした場合には、音節、音素、または、フォーンのような単位(PLU)、 他の音波音声単位、語(ワード)、または、フレーズ(句)としてしばしば定義 される認識された音単位を産出する。各タイムフレームに関して特徴ベクトルに よって記述するこの方法は、例えば、更に複雑な音単位の識別に関する2フォー ン、3フォーン、全ての語(ワード)、及び、フレーズ(句)のような順次的タ イムフレームの集合まで拡張することができる。更に、この方法は、既知の音波 音声単位と関連した発音された特徴ベクトルからライブラリを自動的に生成する ことを可能にする。 ここに示す例は、米語音声を対象としているが、本方法は、全ての自然の人間 言語、他の人間のたてる音、本方法によって測定可能な構造によって引き起こさ れたある種の動物の交信、及び、例えば車椅子に指示するため、CRTスクリー ン上のカーソルを動かすため、或いは、セル型電話を作動化するための舌の動き のような、合成通信技法と結合した人間の音声器官運動に適用可能である。 次のアルゴリズムの基礎は2つの主要係数に頼る。 i)非音波技法。EMセンサから導出された音声器官位置及び運動測定値は、 マイクロホンを用いる音波的音声測定値から統計的に独立している。従って、2 組の情報集合は、統計的な測定上の意味を相互に補足する。特に、EM信号は音 声的な特定の情報に加えて多くの余分な情報を含む音波信号とは対照的に調音器 官、ひいては、音声に関する条件を直接示すことができる。 ii)EMセンサ信号は音波信号から確実に抽出することが非常に困難な特定 の調音器官の活動の明白な証拠を提供する。多くの音声器官運動は「隠されて」 いて、数学的技法を用いて音波信号から抽出可能でないか、或いは、動く器官は 音声音に影響しないか、或いは、重要な器官運動は音声単位が発声される前また は後に起きる。従って、非音波器官測定は、音声認識、音声情報のコード化、話 し手の識別、及び、音声技術の分野にとって非常に重要な生理学的な特質を測定 する正確度を上げるように使用するためにこれまで利用可能でなかった重要な追 加的情報を提供する。 非音波的音声認識情報を実行するために用いられる実例となるアルゴリズムに 含まれる事例を次に示す。 4A)場所特定(ロケーション)アルゴリズム。既知の器官に関して、各器官 上の1つ又は幾つかの場所から反射されたEM波信号の振幅が、公称的に1ミリ 秒毎に測定される声帯の場合を除き10ミリ秒(公称測定時間)毎、或いは、解 像度を上げるためには更に頻度を高くして測定される。伝播方向に沿った場所を 決定するために経過時間のレンジゲートがしばしば用いられる。多数のEM波送 信パルスからのデータは平均され、修正され、正規化され、量子化され、時間調 整され(基準位置に対して)、そして、一連の記憶場所(約100箇所)に記憶 される。音声器官の状態は全体を一時に測定するか、或いは、例えば、舌の前部 、本体(即ち、ブレード)、及び、舌の背部の運動及び位置のように、個々の器 官の部分を10ミリ秒毎に測定することができる。別の例においては、声門組織 (特に声帯皺僻)の反射状態が、リアルタイムアルゴリズムを用いて1ミリ秒毎 に測定され、そして、これらの信号は正規化され、次に、特徴ベクトルに形成さ れる。しばしば、逐次的タイムフレームからの特徴ベクトルは、時間依存性特徴 ベクトルを形成するために一緒に結合される。測定された未知の器官データを既 知の器官状態と関連付けることを可能にするために、これらの特徴ベクトルは、 既知の音波音声単位で表した記憶されているベクトルの事前測定表(例えば、コ ードブックまたはライブラリ)に対して比較される。この種の情報は、マッチさ せるための言語的情報を反映するために、幾つかの方法で、測定、平均、正規化 、及び/又は、処理することができる。例えば、この種の特徴ベクトルは、より 多くの一意的標示またはパターンを獲得するためにフーリェ又は他の変換を用い て、変換することが出来る。他の技法としては、時間周波数スケールの伸張、及 び、改良された表(又は、他の統計的)比較のために振幅の対数を求めることが 含まれる。数個の音声器官からのデータを一度に使用することにより、器官の1 つが、他の音声器官によって引き起こされた数個の異なる音に関して、人体によ って、同一の方法で使用される場合に発生する問題を解決することが出来る。 話し手の音声システムを必要とされる極限まで練習させる一連の既知の語(ワ ード)及び句(フレーズ)(即ち、訓練シーケンス)を発音するように話し手に 要求することによって特定の器官の反射特性、及び、個人の器官の移動範囲(距 離および速度の両方に関して)の正規化を達成できる。その後で、各音声タイム フレームにおいて、発音中の個人の全範囲に関する各器官(或いは、器官の部分 )の状態を記述する特徴ベクトル係数は、1人又は複数の基準話し手の既知の全 移動行程または全速状態に対してマッピングすることが出来る。同様に、話し手 の最高および最低ピッチ周期拡張、並びに、中間ピッチ値は、数個の訓練語(ワ ード)または句(フレーズ)を用いて測定し、そして、基準化された話し手のピ ッチ周期レンジにマッピングすることが可能である。これらの方法は、各特徴ベ クトルから多くの音声的個性を除去し、更に正確なコードブック参照過程を可能 にする。 上記の特徴ベクトルの結合は、音声的結合(即ち、パターンマッチング)、H MM、ニューラルネットワーク、または、他の公知の統計的技法を用いて実施可 能である。これら技法の幾つかは、個々の語(ワード)に関して実演済みである 。同様に、標準波音単位認識技法を用いて、音波特徴ベクトル及び識別データを 生成することが出来る。次に、これらのベクトル及びデータは、既知の音に関す る結合済みデータベクトルの既知の表に対して比較可能な結合された特徴ベクト ルを生成するために、標準統計および音声認識技法を用いて、EMセンサデータ との結合が可能である。 4B)運動パターンアルゴリズム。このアルゴリズムは 例えば、その逐次的 対(ペア)が、例えば10ミリ秒の他の全ての音声フレーム周期から相互に差し 引かれる上記の音声器官場所信号を用いることにより作動する。新規な語(ワー ド)として形成されるこれらの変化は、測定間隔時間によって除算される。結果 として得られる速度は、事前に定義された音波対(ペア)、及び、例えば半母音 、二重母音、及び、破裂音のような「動く」音単位のライブラリと比較される。 英語には、通常使用される約1000個の音対(サウンドペア、即ち、2フォー ン)がある。この比較的少数の音対を探索するためには、新規な音波タイムフレ ームの間の公称10ミリ秒のタイムスケールよりも遥かに短い時間を要する。各 PLU(或いは同様の音波音単位)、或いは、一連のPLU用パターンに関する 器官運動パターンは非常に特異であるので、これらの速度アルゴリズムは非常に 重要である。更に、タイミング情報と関連した一連のPLUの特徴ベクトルは、 各個人にとって非常に個性的であり、そして、話し手識別アルゴリズムに関して 基礎を形成する。 4C)サウンドキューアルゴリズム。ユニーク音声単位表示「キュー」は、音 波音声情報と共に、1つ又は少数の音声器官を測定する1つ又は複数のEMセン サシステムの簡素化されたバージョンを使用して獲得される。声帯皺僻運動の存 在または欠如を測定するために1個の単一EMセンサを使用することにより、有 声音声が発生しているかどうかを決定する価値のある情報を音声認識システムに 提供することが出来る。同様に、1個の単一顎運動EMセンサは、音声の事前行 為としての顎と舌の運動、及び、音声が或る音声的状態を表示できる期間中にお ける舌運動を検出することが出来る。速い舌先運動は/th/音、或いは、スペ イン語式まき舌/r/音を確認可能であり、そして、速い顎降下は/b/または /p/のような破裂音を指示可能である。 これらの方法を使用することにより、ピッチ周期を求め、これらの全てが処理 後モードにおいて使用可能な有声タイムフレームを定義し、ノイズを検出するた めに音声の存在を確認し、音の有声または無声を検査し、音素の調音レートを測 定し、従来の音波認識システム(CASR)に欠如した情報を供給するために類 似音PLU(/ing/対/ine/)及び他の有用なキュー情報を区別するこ とを可能にするので、声帯皺僻運動は特に有益である。 4D)ワード標示アルゴリズム。1つ又は複数のワードの調音に際して送信お よび受信された一連のEM波信号は収集可能であり、そして、語調音の全期間中 に処理可能である。同時に、音波信号が獲得され、そして、逐次的なフレーム特 徴ベクトル内に処理される。例えば、20個の単一フレームベクトルで構成され るマルチタイムフレーム、マルチセンサ特徴ベクトル(各10ミリ秒が200ミ リ秒の音声を表す)は調音器官および正規化済みタイムフレームである。次に、 必要に応じて、これらは更に処理される。例えば、典型的変換(例えば、フーリ ェ、Z‐変換)によって時間または空間周波数に変換される。これらは、全ての 語(ワード)の正規化済みマルチセンサ、マルチタイムフレーム記述子としてベ クトルに形成される。この種なベクトルは、プリプロセッサ或いはポストプロセ ッサモードにおいて、数1000語(ワード)の限られたライブラリ内の正規化 済み語(ワード)の訓練周期に作成れた同じ構造の既知ベクトルと比較可能であ る。 他の更に簡単な方法は、ユーザーによって発音されつつあるワードに関する最 良の決定を行うために、従来の音波式音声認識システム(即ち、CASR)を使 用することである。この識別決定はEMセンサによって得られたワード特徴ベク トルを用いて同様の判断と比較可能である。EMセンサによって得られたデータ は、決定を確認するか、或いは、CASRによって行われた幾つかの代決定の間 で選択を行うために用いられる。CASRによって選定された語(ワード)が確 認された場合には、当該語(ワード)は、合同確率によって認識されたものとし て、受け入れられる。確認されない場合には、EMセンサによて生成されたデー タ集合からのデータを用いてCASRシステムにとって混乱の原因となる語(ワ ード)の小さい集合の中で最良の推測が行われる。EMセンサデータは、語(ワ ード)としての「sailing」対「saline」、及び、「sixtee n」対「sixty」における曖昧さを解決するために実験的に用いられたこと がある。この考え方は、小および中サイズの語(ワード)集合に対して使用可能 であり、そして、コンピュータ記憶装置及びプロセッサスピードが向上するにつ れて、20,000語から40,000語以上までの非常に大きい語(ワード) 集合まで拡張可能である。 4E)モデルに基づくアルゴリズム。人間の音器官システムのモデルを使用す ることは音波音声解析における通常手段である。ソースが知られているこの場合 、これらのモデルは、一般に、音波共鳴管を駆動するための励起供給源が既知で あり、そこから、聴取者或いはマイクロホンに向かって音圧波が放射される性質 を備える。音声には2つの主要タイプがある。「有声」の場合には、声帯皺僻は 急速に開閉し、声管に周期的な空気のバーストを供給する。「無声」の場合には 、声管が拘束され、空気の乱流および関連する「修正‐ホワイト」空気流ノイズ が引き起こされる。(両方の過程により、少数の音が同時に発生する。)人間の 声管は、励起ノイズ供給源を認職可能な音に変える複雑な線形音波‐機械式フィ ルタである。物理的には、音波管は、長さが異なり、局部的に形状が異なり、側 方 分岐共鳴構造、鼻通路結合、及び、終点構造の一連のチューブ(管)体である。 励起圧力波が供給源から口(及び/又は、鼻)に進行するにつれて、この励起圧 力波は、管構造体の変化によって定常的に送信および反射する。ベル研究所(J .Schroeter、及び、M.M.Sondhi、IEEE ASSF、2 (1)133(1994年)、及び、引用文)及び他の場所における、人間の声 管共鳴体の形状と所定の音声音との関係についての研究により、励起供給源の特 性およびこれに関連した声管構成についての正確な知識により、例えばPLUの ような基本的な音波音声単位について一意的に特性記述することが可能であるこ とが判明した。これらの器官構成についてのこの正確度は、特徴ベクトルの係数 として形成された多数の小さい集合によって伝達可能である。音声音に変化が起 きた場合には、その変化を起こすために話し手が1つ又は複数の音声器官を動か したことも既知である。音波情報だけを用いて声管状態を一意的に決定し、それ によって、音波音声の所定のタイムフレームのために意図された音波単位を一意 的に定義することも不可能であることも判明した。 EMセンサ情報の使用は、一意的に音声フレームを定義することを可能にし、 各音声フレーム期間中に起きる励起関数のタイプとその特性を決定することを可 能にする。伝達関数情報は、音声器官の場所と次元を測定することによって獲得 可能であり、結果的に、多くのタイプのモデルと関連させることが可能である。 1つのモデルは、一般的な性質の声管の機械的および音波的構造を記述する。更 に簡単なモデルは、音声タイムフレーム期間中に用いられる声管のタイプを決定 するために、個人における種々共鳴器官の狭搾及び状態を記述するEMセンサ情 報を用いる。この種のモデルは、一般的な電気回路類推に基づくことが可能であ り、それらのために、測定データから伝達関数値を獲得するための種々の手順が 開発され、そして、それらの係数は、特徴ベクトルの形成に用いることができる 。最後に、例えば多項式またはLPC手順のような簡単な曲線フィッチングモー ド も使用可能である。これらはコンピュータ的には使用が容易であり、所定の音声 タイムフレーム期間中および数個のエピックに亙って伝達関数適用の受け入れが 許容されるためには、比較的少数のパラメータを必要とするに過ぎない。サウン ドモデルを使用するための過程は、選定した器官の運動および位置を決定するた めにEMセンサ情報を使用し、各音声タイムフレームまたは一連のタイムフレー ムに関する励起関数及び声管モデルの実際的な物理的更新を獲得することである 。比較的少数の正しい励起関数及び各音声タイムフレームに関する伝達関数適用 パラメータで構成される特徴ベクトルは、非常に高い確率で正しい語‐音識別を 可能にする。 数個の音声フレーム期間に亙って継続する1つのPLU(例えば、フレーム当 たり10ミリ秒で100ミリ秒)は特徴ベクトルを作成する複数(例えば10) の機会生成する。特徴ベクトルが、ユーザーが定義した値以上に変化しない場合 には、多重タイムフレーム特徴ベクトルは、計算及び記憶を最小限にするように 形成可能である。更に、多重タイムフレーム特徴ベクトルは、単一或いはゆっく り変化する特徴ベクトルについて述べた方法と全く同じ方法で使用できる。音声 器官運動と音との間には直接的な関係があるので、モデルを用いる方法は、音声 期間中に、過去において可能であったよりも一層基本的な音声システムのパラメ ータ化を供給する。モデルを用いる方法は、逐次的な音声フレームを定義するこ とができるので、例えば2フォーン、3フォーン及び全ての語のように、結合し た語音の記述を簡素化することが出来る。一旦定義され、そして、当該フォーマ ット用のライブラリが一旦作成されると、音声‐テンプレートパターンマッチン グ、隠れたマルコフモデル及びその他を含む多くの統計的技法を使用する後続す る語音識別に関して選定され、測定され、そして、形成された特徴ベクトルを使 用することができる。 5)ポスト処理ユニット 5A)比較:音波プロセッサからの識別情報がEMセンサ音声認識システム( 1個または数個のEMセンサ)からのワードサウンド(語音)識別情報と結合さ れる場合にはポスト‐プロセッサが用いられる。従って、統計的技法を用いる結 合決定は両方のシステムからの情報を用いて実施される。このポスト処理は、ア ルゴリズム4C、及び、4D以上に必要である。 5B)綴字法と文法:ポスト処理コンピュータユニットは、識別された音声の 第1レベルを更に分析するために使われる。前述のアルゴリズムを使う識別の第 1レベルはPLUを音声音及び音声器官運動と関連付けるが、完全な綴字法およ び完全な文法は提供しない。これらのポスト処理活動は、音波式音声認識システ ムにおいて現在一般的に用いられる。 5C)セキュリティ(機密保護):各話し手の個性的な特性は、ポスト処理の 一部として、分析され、そして、話し手の物理的音声器官運動および形状特質並 びに話し手が、例えば、パスワード、自分の名前、等々のような肝要音を発声す るために自分の器官を使用する方法の既知記録と(リアルタイムにおいて)比較 されることが可能である。各人の音声器官は独特の機械的特質を持ち、そして、 彼が既知の語または句の集合を発音する場合に、これらの器官が協調して−位置 対時間−用いられる方法は各個人に関して独特であるので、EMセンサ情報は、 音声単独では不可能な非常に洗練された識別プロセス過程を警備システムに加え ることを可能にする。 6)ディスプレイユニット コンピュータを用いた音声認識のユーザは様々な用途に利用可能でなくてはな らない。コンピュータCRTスクリーンは、発音された語(ワード)の書かれた 語(ワード)表現を示すために用いられ、音声シンセサイザーは、話し手が、機 械に向かって話した自分の制御命令または語(ワード)の流れを検査できるよう に、ユーザーが今発音したばかりの音声をユーザーに対してプレイバックするた めに使用できる。データは、印刷したり、携帯用または固定記憶装置に記憶した り、ファクシミリ、電子メール、これらと類似の応用方法のような通信リンクを 介して伝送することが出来る。 7)キーボード又は手動制御ユニット 手動制御ユニットは、話しかけられているシステムの命令を助けることが出来 る。手動制御ユニット(「マウス」に類似)の利点は、例えば、制御命令対デー タ入力のように入力中の音声のタイプを伝えることを助け、ユーザーによる制御 の速度と確実性を増大するために、組合わされた音声−手−指示カーソルに指示 を与えることによって編集を助けることである。 8)外国語識別及び翻訳ユニット 器官運動及び器官の相対運動の統計資料は、同時音波音と共に、話し手の言語 を識別するために用いることが出来る。話し手が、既知である一連の語(ワード )または句(フレーズ)を繰り返すように要求された場合には、言語の特質を例 証するようにテスト用集合が選択されるので、話し手の言語に関する集中は更に 速い。更に、音声認識済みのテキストを、別の人に伝達するために、或る言語か ら、音声シンセサイザーへのテキストを介して別の言語に翻訳するために同じユ ニットを使用できる。 9)補助入力ユニット 認識を助けるか、或いは、例えばビデオのように同期化を必要とする他の装置 は、このユニットを備えたシステムに取り付けることができる。伝送ユニットも 他のシステムと交信することが必要である。 図面の簡単な説明 図1は先行技術による開ループ音波式音声認識システムの概略図である。 図2は、EMセンサと音波センサとを用いて組合わされた非音波式/音波式音 声認識システムを備えた声管モデルの概略図である。 図3は、音波センサと数個のEMセンサとを用いる音声認識システムの概略図 であり、そのデータは1つの特徴ベクトルに結合される。 図4は頭部の断面図であり、3個のEMセンサと1個の音波センサを備えた音 声認識モジュールの音声器官及び位置を示す。 図5は、ポストプロセッサ、ビデオ入力、及び、伝送線出力を備えたNASR (非音波式音声認識)システムの概略図である。 図6は、音声列「aaa」及び「ana」に関する顎と舌先の運動に応答する EMセンサを示す。 図7は、「sailing」及び「saline」に関する顎/舌先運動に応 答するEMセンサを示す。 図8A−Cは、話し手の首部内の声帯皺僻に対して透過および反射するEMパ ルスの概略図である。 図8A、Bは放射システムであり、図8Cは近距離場システムである。 図A、Bは、ワード「fox」に関して音波式及びEMセンサから同時に得られ た声帯皺僻開/閉データを示す。 図10A、B、Cは、音素/t/を、次に/o/を調音するために器官が休止 から動くにつれて一連の音声器官から反射される1つの単一透過パルスから受信 した電圧信号の例証的表現である。 図11A−Dは、パルス伝播方向、レンジゲートの場所、レンジゲートスイッ チからのディジタル化された信号が記憶されている記憶場所(即ち、ビン)と共 に、1つの透過EMパルス、一列配置された全ての器官から反射されたEM信号 アナログ電圧を示す。 図12は、予備処理、特徴ベクトル形成、及び、合同決定アルゴリズムを含む 音波センサ信号検出を伴った合同EMセンサ(例えば、場妨害モード)声門組織 (例えば、声帯皺僻)検出のフローチャートである。 図13は、予備処理、特徴ベクトル形成、及び、合同決定を含む音波センサ信 号検出を伴った多くの器官の合同EMセンサ(例えば、走査レンジゲート)検出 の水平図フローチャートである。 図14は、一例としての論理的決定値を用いたNASRとCASRアルゴリズ ムとを結合するアルゴリズム決定トリーを示す。 図15A−Dは、音素/ah/に関する音波及びEM声帯皺僻センサデータで あり、振幅対時間およびフーリェパワースペクトル表現を示す。 図16は、「one」に関する声帯皺僻運動と共に舌/顎運動を示す。 図17は、舌口蓋「接触」検出に関し、接触した場合における舌口蓋システム の反射率の強い変化を検出する顎の下に取り付けられた場妨害モードEMセンサ を用いて求めた実験的データを示す。 図18は、その中において接触が発生する音声フレームに関して舌口蓋接触情 報を検出し、そして、それを特徴ベクトルに記憶するためのアルゴリズムのフロ ーチャートである。 図19は、音声の開始、音声の終結、有声または無声音素のの識別、休止の存 在、及び、外部ノイズの存在に関するアルゴリズム的手順のフローチャートであ る。 図20A、Bは、ピッチレートに大きい差のある文字「e」と「u」とに関す る同一話し手からの帯皺僻波形を検出するEMセンサ(場妨害モード)を用いた 実験的データを示す。 図21A−Cは、水平レンジゲートされたデータ及び声帯皺僻開/閉データの 結合特徴ベクトルからディジタル化された反射対位置信号を示す。(A)音声開 始の少し前、(B)音声器官が音素/t/を発音する位置にある場合、(C)背 景を除去する方法を示す(A)と(B)との間の差。 図22Aは、音声器官がワード「to」内の音素/o/を発音する位置にある ということを除けば、図21Bにおける場合と同じディジタル化反射信号を示す 。 図22Bは、2つの音素音声フレームの間の速度または運動ベクトルを形成す るためにフレームn−1からフレームnに関する特徴ベクトルを減算することに よって2フォーン特徴ベクトルを形成する1つの方法を示す。 図23A、Bは、静止反射人工物を除去した状態において2つの音素/t/と /o/に関する特徴ベクトルパターンが、整列された水平ゲートEMセンサ及び 場妨害声帯皺僻センサからどのようにして作られるかを図面的に示す。 図24A、Bは、顎の下から見上げるセンサによる音「uh」及び「oo」の EMセンサ(即ち、レーダ)整列スイープを示す。図24Cは、反射信号は基準 からの場所別に「ビンに入れられ」、背景人工物が除去された状態において処理 されたデータの一例を示す。 図25A−Hは、「the quick brown fox jumped over the lazy dog’s back」と言う文に関する音波 及びEM声帯皺僻信号を示す。 図26A−Dは、「the quick brown fox jumped oyer the lazy dogs back.」という文に関する4個 のセンサ(図4に示す位置)の出力を示す。 図27は、「sixteen」及び「sixty」に関するEM舌/顎および 声帯皺僻信号を示す。 好ましい実施例の詳細な説明 一般原理 図1に示す在来型音波式音声認識(CASR)システムと比較されるべき非音 波式音声認識(NASR)システムを図2に示す。比較すれば、先行技術CAS Rシステムは音響情報のみから特徴ベクトルを形成するが、図2のNASRシス テムは、多数の音声器官(声帯皺僻、軟口蓋、舌、及び、唇を指す)のEMセン サ測定を行い、次に、音響情報を記述する特徴ベクトルを用いて、音声単位時間 フレームを記述する一層複雑かつ一層情報的に豊かな特徴ベクトルを作成するた めに、これらの信号を記述する特徴ベクトルを組み合わせる。 音の生成は、実際には、加圧空気供給源を供給する肺において始まる。声に出 した音声モードにおいて、声帯皺僻は、励起パルスとして空気の破裂流を生成す るために開放および弾発閉止することによって空気流を変調する。オン‐オフパ ルス波形は、声管構造の共鳴と共に、聴取者が聞きとる音声音を決定する。声管 の形状は、多くの音声器官の位置によって決定される。軟口蓋は、鼻腔に向けら れて鼻から出る空気流の一部を制御する。舌の位置は、口腔の共鳴反応、及び、 フリケーション(狭搾気音)と呼ばれる乱流音のための空気狭搾の大部分を規定 する。最終的に、唇は、音響共鳴体の末端、空気流量、ひいては、音の強さを制 御する音響孔(及び、音響アンテナ)、並びに、狭搾気音のための空気狭搾を生 成するための乱流発生体として両方の機能を果たす。声帯皺僻(声門)および唇 (及び、時々、鼻)は、一連の音響共鳴室の2個の末端を形成する。音響エネル ギーは、一方では、口(及び、鼻)を通って外部へ向かって発散し、鼻からの信 号Yn(t)と口からの信号Ym(t)を生成し、もう一方では、音響インピー ダンスの不連続性に起因して、幾分低レベルのフィードバックZ(t)が内側に 向かって伝播する。 図2(多重器官フローチャート)は、重要器官の位置の特定項目を感知するR Fセンサの可用性に基づいた音声処理モデルを示す。数個のセンサの1つ、或い は、別の組への拡張は同様に実施可能であり、これについては、後で検討するこ ととする。声帯センサ出力信号は、リアルタイム信号としては以前には決して利 用できなかった声管の真の励起信号と関係がある。励起源の動作を知ることから 導出される音声処理モデルは、声管の変化(軟口蓋を介した鼻の開口部を含む) の発生場所及びその程度と共に、測定中の音声時間フレーム期間中における更に 良好かつ更に精密な音声器官の位置と運動のモデルに従って、大幅に良好かつ一 層精密な特徴ベクトル係数の表現を可能にする。所定の音声タイムフレーム期間 中における声管の定義に参加する他の器官の位置に関する同様の測定は話し中の PLUと関連し、大幅に良好かつ一層精密な特徴ベクトル係数の表現を提供する 。 図3において、音響マイクロフォン1からの信号と声帯皺僻、舌‐顎、及び、 唇に関する3個のEMセンサ2、3、4からの信号は、声管の特徴ベクトル6を 形成するために、声管モデル5を用いて組合わされる。同様に、センサ2、3、 4からの信号も、個々の特徴ベクトル7、8、9を生成するために使用可能であ る。特徴ベクトル6、7、8、9は、更に処理および正規化される共同特徴ベク トル11を形成するために、他のセンサ10からの任意情報を用いて、組み合わ せ可能である。記憶されている特徴ベクトルライブラリ13に対して特徴ベクト ル11をパターンマッチング12することにより、音響識別が行われる。最後に 、語(ワード)組立14及び文(センテンス)組立15が実施され、ワードスペ ラ、文法及び文脈訂正システムによってテストされ、利用者が必要とする所に送 られることが可能である。 操作モード及び制御 EMと音響検出器の使用に関する多くの操作モードがある。人体のEM放射を 低い状態及び連邦指針内に保持し、システム、特に無線システム用の電力使用を 最小限にするために、EM波伝送モジュールの作動時間を制御するために数種の 技法が用いられる。音波マイクロホンは、言語音声生成と同時であるべき「定刻 」に作動開始可能であり、同様に、発声テストのためにEMセンササンプリング を回数少なく使用することが可能であり、そして/或いは、EMセンサシステム を 作動開始させるためのボタン又は同様のセンサデバイスを作動化するために指そ の他の人体の一部を使用する回数を少なくすることができる。更に、人体とEM の相互作用を最小限にし、音声認識または関連音声技術ユーザーの必要性を満た すために、EMセンサ周波数、パルスフォーマット、及び、パルスフォーマット 繰返率をユーザーが選定する。 図4は、関連音声器官を備えた頭部と図解的なNASRセンサ20の略図を示 す。この図には3個のEMセンサ送信/受信モジュール21、22、23を示す が、1個か又は3個以上であっても差し支えない。更に、マイクロホン24は、 同時音波情報を獲得するために用いられる。センサ20は、必要な電子装置、例 えば、タイミング及びレンジゲートチップ26、及び、メモリチップ27、並び に、例えば、ドライバチップ28のような有線または無線のデータ転送手段を含 む。モジュール21は、唇、歯、及び、舌先に向かって送られ、そして、送り返 されるRF波を示す。モジュール23は声帯皺僻及び声門に向けられる。 モジュール22は、下顎に向けて上方に、そして、唇口蓋器官領域に放射され る波を示す。モジュール22内の検出器に戻るこの波の反射は「開き」、或いは 、上顎に対して下顎、及び、口蓋に対する舌の閉じた状態における時間の関数と しての性質に関する情報を提供する。送受信モジュールが上顎に対して基準とな っている場合には、下顎位置の測定の助けとなる。そのためには、小さいマイク ロホンを唇の前に保持するために使用する場合と同様の方法で前記モジュールを ヘッドハーネスに取り付けることができる。第2の方法は、上顎口蓋または鼻の 空洞構造に対する下顎の空気‐皮膚インタフェースの相対位置を測定することで ある。基準位置測定値を獲得する別の方法は、比較的遅い下顎運動の累積運動を 時間の経過に関して積分する(即ち、追跡する)ため(頭部全体の運動と共に顎 がゆっくり動き続けるものと仮定する)、及び、次に、測定し、そして、音声に 関連した速顎運動から特徴ベクトルを形成するために送信機‐受信機レンジ‐ゲ ー ト制御コンピュータを使用する。低速運動を追跡するために用いられるセンサ及 び他のEMセンサモジュールは、発声期間中における必要な器官の所在場所、例 えば、例えば声門組織(或いは、単に声帯皺僻)の開閉運動、舌の上下運動、舌 の前後位置、唇の開閉および下顎の上下位置を時間の関数として測定することが 出来る。これらの例は、この種の全てのモジュール位置、器官のタイプ、配線方 法、等々の排他的なリストであることを意味しない。 人体の当該部分にこれらのプロセッサを対面させるか又は近接させるための所 定場所に保持するために必要な補助用具は図示しない。取り付けるためには、テ ープ接着センサから、速記者様マウスカバーを取り付けるための電話交換手様マ イクロホンハーネスに至る、様々な手法を用いることが出来る。この種のマウス カバーは、EMセンサ、マイクロホン、及び、他の特殊化されたセンサ(例えば 、空気の動きセンサ)を保持するために特に適切である。モジュールも、同様に 、人体から離れて配置される支持用具によって保持できる。この種の支持用具は 、話中の人、等々によって使用されるマイクロホンに付着して車のハンドル又は サンバイザに取り付ける事も出来る。頭部位置に対するEMセンサ発生器及び受 信機モジュール(分離していても一緒になっていても差し支えない)の設置場所 は用途の価値、音声器官からモジュールまでの距離が増加するにつれて音声器官 場所を正確に特定する必要性に起因するモジュールの追加コスト、及び、モジュ ールと人体との間が離れるにつれて増加する音声器官/空気インタフェースの追 跡と関連した追加コストに依存する。EMセンサレンジング音声検出モジュール は、人体に対して接触、近接、分離して配置し、マイクロホンに直接または近接 して(手で保持するか、ハーネスに付着させるか、又は、通常マイクロホンスタ ンドに用いられるように)取り付け、或いは、ヘッドヘルメット(部分または全 頭部被覆)、マウスカバー、及び、頭部に近い人体の部分に取り付けた他のディ バイスに含ませることが出来る。 図5は、図4のセンサ20を用いた、EMセンサと音波検出器の両方を含むN ASRシステム30を概略図示する。センサ20は、無線(RF又は光学)リン ク、または、ケーブル通信リンク31によって、プロセッサ32とその関連周辺 装置に接続される。他の装置、例えば、ビデオカメラ47は、同期化または追加 情報用に、ユニット46を介してプロセッサ32にインターフェイスできる。N ASRプロセッサ32は、制御ユニット及び一般プロセッサ29へ接続される。 音声シンセサイザーユニット33、音波音声認識装置34、ワード綴り及び文シ ンタックス発生器35、外国言語識別装置/翻訳装置42、NASRコードブッ ク43、話し手識別ユニット44、及び、ボコーダユニット45はプロセッサ2 9に接続可能である。入力キーパッド36、キーボードまたはマウス40、言語 フィードバック用ヘッドホン37、及び、音波拡声器39を備えたビデオ端末装 置38もプロセッサ29に接続可能である。認識された文字及び語および音波信 号は、無線またはケーブルリンク41に出力出来る。システムは、制御ユニット 29によって制御および調整される。 EMセンサ応答データの例を図6及び7に示す。EMセンサ(図4におけるセ ンサ22)は、話し手が音「a」及び「ana」を発音する時に舌先の動きに応 答する。図6のEMセンサデータは、開母音発声の幾つかの主要段階を明瞭に示 す。即ち、顎が開くと共に始まり(上向き信号)、そして/a/音の後で顎/舌 を閉じる(下方き信号)。舌は殆ど役割を果たさない。/ana/の場合には、 /n/は、/a/音の間の速い、しばしば不十分に調音された舌の上昇を伴い、 舌を下げ、そして、顎を閉じることによって音声列が終了する。図7は、従来の CASR技法を用いて区別することが困難な類似音「sailing」と「sa line」に関して、舌の場所に対するEMセンサレスポンスのフィールド妨害 モードを示す。これら2つの場合において、「ing」と「ine」に関連して 異なる舌の位置が、異なる反射率対時間によって明瞭に示される。/l/位置か ら/ing/のための後方位置までの舌の動きによって、正の信号部分に2つの こぶと、 /ing/を発音するために舌が下がるにつれて、舌が/l/から/ ine/まで移る場合の波形に比較して遥かに大きい1つの負の反射された信号 を生じさせる。 非音波EMセンサの原理 EM波の生成、送信、及び、反射 図8A、Bは、伝搬路に沿った2つの説明的な場所から見た1つの単一線形偏 極EM波パルスの送信、放射、及び、反射を示す。図8Cは、別の異なった配列 構成を示し、この場合、EM波は非放射性であり、「近距離場」反射率の変動を 測定する。図8A、Bの場合は、EM波センサシステムはレーダタイプである。 波が首部に入ると、首の組織は誘電率εが空気のε01/2=1より大きい物質で あるので波長は短くなり、伝搬速度「c」は、c掛ける1/ε1/2に低下する。 更に、電場の振幅は2つの理由により降下する。順方向に伝搬するEM波のかな りの部分は 最初の表面、空気と皮膚のインタフェースにおいて反射し、そして 、誘電性媒体内においては、誘電率εが高いので、E場は降下する。波長が短く なること及び波の速度が低下することによって、空気中の各レーダパルス長に比 較すると非常に小さい頭部の内部構造の寸法及び場所の測定を可能にする。EM パルス長寸法の1/10未満までの距離を測定することが一般的な実技なので、 当該組織内における半波パルスの波長1.5cmの1/10、即ち、1.5mm の構造インタフェースを検出できる。更に重要なことは、音声器官の動きが1組 のEMサンプリングパルスと別の1組のパルスとの間で起きるにつれて、音声器 官インタフェース内における0.15cm未満の距離変化が容易に検出できるこ とである。図8A、Bにおいて、位置は変更は、声門組織運動体(例えば、声帯 皺僻の開閉時における声帯皺僻)の運動に関連し、そして、インタフェースの場 所 とEM波反射の程度を変化させる。実験によれば、0.001cm未満の位置変 化検出可能性が実証された。 EM波送信の場合には、図8A、Bに示す伝搬期間中の数箇所において示され る正弦波の単一波パケットに加えて、各送信/受信期間中に音声器官組織からの 反射を介して獲得された情報を改良するために、より多くの波サイクルを用いる ことを含めて、別の波形式(フォーマット)を使用することが出来る。種々異な る伝搬方向を使用可能であり、更に、1つ又は複数のEM波の反射と減衰を決定 するために、音声器官のサンプル採取に際して、受信機に対する発生器の向きを 種々に変える方法(反対向き人体透過測定を含めて)も使用可能である。送信波 は、波長が種々異なるか又はプログラムされた波長の変わる一連の波、波周期の 一部から多数の波周期までに亙る波パケット、段付き又はスパイクパルスパケッ ト(「インパルス送信」)、ランダムに変動するパルスを持つ波(例えば、「ノ イズ」レーダ)、及び、1990年、McGraw Hill出版、第2版、S kolnik著「レーダーハンドブック」その他に記載された多くの形式の波で 構成されることが可能である。EMセンサ送信パケットは、共振効果を強化し、 「スペックル(小斑点)」を除去し(例えば、直角位相技法を使用)、干渉式( 例えば、ホモダイン)検出を最適化すること、及び、類似の技法により音声器官 検出のために最適化することが可能である。 EM波の検出及び処理 1つのEMパルス(或いは、パルス列)は、受信された後で、処理され、他の 器官からの他のパルスと相関付けられ、音波データと相関付けられ、ワード‐ユ ニット(例えば、PLU)を自動的に選択するアルゴリズムに供給され、そして 、ユーザー又は顧客にディスプレイされなければならない。EMセンサは毎秒百 万以上のパルスを容易に発生するので(実験は、2MHzパルス反復率で行われ た) 反射された各レンジ位置に関して、或いは、異なる1つの波長、等々について問 い合わせるために1000パルスを平均することができる。次に、別の新規レン ジ、又は、波長、等々に切り替えが可能であり、従って、別の1000パルスを 平均することが出来る。それにより、ユーザーは、例えば、通常の音声タイムフ レーム10ミリ秒の期間中に20個までのパラメータを測定出来る。(音声タイ ムフレームは、固定可能であるか、或いは、器官の音声率(スピーチレート)変 化に適応可能であり、例えば、音声皺僻は5−15ミリセカンド毎に開閉する) 。同様に、図4は、多数の重要な音声器官インタフェースの場所を、喉の背部を 通って顔面の正面から、下顎を通って上向きに、そして、首部に、順方向に直接 測定する方法を示す。所定の時点におけるインタフェースの場所は、所定の音声 単位、例えば、PLUと関連する。従って、各音声単位に関して、十分な個数の 特徴のある音声器官の場所について、事前に知ることにより、NASR情報のみ を用いて、話されつつある音を識別することが出来る。 しかし、EMセンサの適性があまり完全でないために、NASR統計と一貫性 をもつ音素の個数を制限する。この限られた集合と、従来の音波技法(即ち、C ASRシステム)によって識別される類似した音を出す音素の小さい集合とを比 較することにより、正しい音波音声単位、即ち、音節、音素、PLUを識別する 確率を高くすることができる。EMセンサと音波センサは、完全に異なる(即ち 、物理的および統計的に異なる)方法によって、音声と関連した特質を測定する ので、この方法は機能する。獲得されたデータ及び計算は、全てのNASR器官 測定値に関する正確度は95%よりも大きい(そして、或る特定の測定値に関し ては99%よりも大きい)ことを示している。Lawrence Liverm ore研究室その他の場所における実験はCASR識別に関する正確度は90% であることを示している。これらの実験によれば、この種のCASRの誤りは、 しばしば不完全な明瞭度或いは調音の随伴に起因する音波の特徴を区別すること の 欠如によって一般に発生することが判明している。ただし、関連した調音器官運 動は、NASRシステムによって容易に測定される(図6参照)。両システムを 一緒にした合同認識統計によれば、通常の環境において音声認識誤り率を1%未 満にする。推定によれば、十分に正確なEMセンサおよびマイクロホンが上級ア ルゴリズムと共に用いられる場合、音波単位検出誤り率は10の4乗分の1音素 に近付くことが示されている。これは、高度に正確な語(ワード)認識であり、 人間聴覚基準に近い。 現在の音声認識技術の状況を改良するために、器官の場所と運動に関する完全 な音声認識の知識は不必要である場合が多い。この種の状況については、アルゴ リズムに関する幾つかの記述がここに記載されている。更に、幾つかのアルゴリ ズムでは、特殊化された状況と一般化された状況、例えば、語標示(ワードシグ ナチャ)アルゴリズム及び運動パターンアルゴリズムの両方において音声を認識 する新規な方法を提供するために、EMセンサからの利用可能な特殊情報が用い られる。これらのアルゴリズムは、音声における多くの調音および不完全調音状 況を適切に記述するために、PLUペア(即ち、2音)、及び、PLUトリプリ ット(即ち、3音)、または、更に大きいPLU単位(例えば、語)が既知であ るという事実を利用し、そして、これらの多重音単位に関する知識及びそれらの 発声率は音声認識正確度を高くするために極めて有用であることが分かっている 。EMセンサデータは、音響センサの場合とは対照的に、部分的な器官の動き及 び位置の特定は容易に測定可能であるので、音響学に到達するための優れた方法 においてこの種のPLU集合を記述するためには特に有用である。 EMセンサシステムのタイプ 音波音声検出と共に使用される音声器官運動のためのレーダ作動様式には2つ の一般的なモードが実証済みである。 (1)レーダモジュールを用いて走査済みレンジをゲートするモード(ゲート 無し特別状況又は1ゲート固定状況を含む)。 (2)ヘテロダイン(しばしば用いられる特別な場合としてホモダインを含む )。これによって、反射波の位相変化対時間の検出が用いられる。これら2つの 一般化さされたモードは、公知の変形モード(Skolnik「レーダハンドブ ック」参照)及びこれらの組み合わせと共に発声器官測定のために非常に便利な 構成を提供する。特に、2GHz周波数EM送信モジュールは、インタフェース 及び全器官の位置特定を時間の関数として提供する目的で音声器官運動を測定す るために用いられた。2GHz波長(約2cm)は、組織内においてよく伝達し (少なくとも20cm)、そして、25−80から1箇所の誘電性の不連続部で 反射される。周期が0.5nsの波は、レンジゲートモードにおいて特定のイン タフェースを測定するために下限は単一波、或いは、1/2波パルス周期(約0 .25から0.5nsまで)まで全ての器官に対する数個の波(1−3ns)と してのパルス様式(フォーマット)において使用されるように適応する。この例 は1つのEMセンサモジュール及び1つのアンテナに基づくが、他の「観察」方 向から見た場合における器官からの情報を獲得するために多重モジュール及び多 重アンテナ構成も使用可能であり、各所定の音声タイムフレームにおける更に記 述的な特徴ベクトル構成に関して多くの特定器官インタフェースの場所を調査す ることが出来る。モジュール間の妨害は適切なトリガ制御によって回避されるか 、或いは、モジュール当たりの実際の波送信デューティサイクルは極めて低いの でモジュール間に妨害が起きる機会も極めて稀であるのでモジュール間妨害は回 避される。 EM場妨害センサ 音声および音声器官の運動を測定するために用いられる最も簡単な音声解析シ ステムは、マイクロホン及び記録オシロスコープと共に使用される場(フィール ド)妨害センサである。このセンサは、時間「平均」反射レベルと比較した場合 に生じる器官から反射されたEM信号レベルの変化を処理することによって作動 する。1ミリ秒の時限に起きる変化を測定するためには、一般的なシステムは、 器官の状態を2000回測定して、平均する。この種の受信されて平均されたE M信号を時間濾波することにより、徐々に変化する信号によって特徴付けられる 非常に強力な平均背景が存在する状況において、所定の周波数または時間帯域に おける非常に小さい反射の変化の検出を可能にする。実例には、0.001/c mよりも小さい音波圧力波と関連した組織距離変化の測定が含まれる。音声シス テム及び頭部/首部構造における多くのインタフェースは異なるレンジに所在し 、そして、非常に異なる速度で動くので、場妨害構成内において伝達されるウエ ーブ(波)パケットは、レンジゲート時間(従って、距離ゲート)内で全ての構 造体によって反射される。後続するパルスが伝達され、そして、時間が経過する につれて、1つは、1つの時定数を持つパルスの列によって構成されるリターン (復帰パルス)が積分されて、処理され、更に、別の時定数を持つ時間濾波によ り、この方法は、対象が異なる速度で移動する限りユーザーが多くの器官インタ フェース状況に関する情報を獲得することを可能にする。 例えば、前記の方法は、頭部の正常な低速運動からの迅速に変化する信号を識 別することが出来る。詳細には、声門組織の動き(この場合、声帯皺僻の動きも 含まれる)は声帯の開閉と関連する。例えば、50から2000Hz帯域の信号 が、首と頭部からの強いが低速で移動する皮膚/空気反射の存在によって検出さ れるように、前記の声門組織の運動は周波数(或いは時間)濾波によって容易に 検出される。同時に、経過時間の差に関して補正済みの音波音声信号も同様に測 定および記録される。図9Aは聴覚信号を示し、図9Bは、「fox」という語 を発声するための声門組織運動信号を示す。「fox」における/f/は、声に ならない最初の音素であり、そして、「x」は、声にならない/s/音であり、 「x」の最終音への声帯皺僻「fry」遷移音を示す声になる/k/である。/ s/音は、図9Aにおけるx軸の範囲を越えて拡張する。その詳細を図25Cに 示す。図9Bは、音声フレームが声門組織運動パターンの変化によって定義可能 である理由を示す。この図は、声になる(声帯皺僻が動く)か又は声にならない (声帯皺僻が動かない)音が各音声フレーム内において発生したかどうかを決定 する簡素性及び実用性を示す。「fox」に含まれる声にならない/f/とその 次の声になる/o/及び遷移/x/を明瞭に認め、そして、アルゴリズム的に容 易に識別することができる。 レンジゲートされた動作 ユーザーは、高速電子スイッチをレンジゲートと呼ばれるレーダモジュールの 受信セクションにセットすることにより、組織インタフェースの存在を測定する 。これにより、規定された時間、即ち、送信機から反射インタフェースまで、次 に受信機に戻る往復時間の後で、受信した波からサンプルを取ることが可能にな る。別の異なる時間通路に関して再びこの測定を実施することにより、時間の経 過(従って、話されたメッセージの進行)につれて音声器官インタフェースの場 所の変化を測定出来る。例えば、音/n/を発生するために舌が持ち上げられる につれて、空気に対する舌組織インタフェースを測定することが出来る。伝達さ れたパルスに関して受信機のサンプルタイム(サンプルゲート又はレンジゲート と呼ばれる)の遅延時間を変えることにより、舌‐空気インタフェース及び復帰 の遅延時間を決定することが出来る。往復時間が、不連続性の無い場所、従って 反射された信号が存在しない場所に対応することが起きる可能性がある。ただし 、反射波が検出されるようにタイムゲートが設定される場合には、ユーザーには 、インタフェースまたは不連続性が存在したことが分かる。時間の経過につれて イ ンタフェースの運動に追従するために受信ゲートのタイミングを変えるようにユ ーザーがレーダに指示することが出来ることは明白である。これは、連続するパ ルスを送信し、そして、受信した信号が感知されるまで受信したパルスのタイミ ングを変える(「レンジゲートを動かす」)ことによってインタフェースの場所 を見付けることによって達成される。この種のタイミング変化は、デジタルコン トローラを使用するか、或いは、例えばタイミング発生器のようなアナログ回路 を用いることによって達成可能である。現代のソリッドステートEMセンサモジ ュールは、毎秒百万(1,000,000)回の割合でパルスを送信可能であり 、そして、音声器官の速度は比較的遅いので、音声器官のインタフェースの追跡 を続けるためには、毎秒わずかに100ないし1000サンプルが必要であり、 EMセンサ(即ち、レーダ)の動作の走査済み受信機ゲート(或いは、レンジゲ ート)モードは容易に解決可能であり、そして、音声器官インタフェースの場所 に追従することが出来る。 図10A−Cは、一連のPLU/silence/、/t/、及び、/o/を 介して、短い送信パルス及び走査されたレンジゲートシステムの動作を時間の関 数として示す。図11Aは半波送信パルスを示す。図11Bは、パルスの通路に おいてパルスが通過する全てのインタフェースから反射された図11Aに示す送 信されたパルスによって構成される全ての受信パルスを示す。図11Cは、受信 したパルスサンプルをスイッチを介してビン内に向けるレンジゲートパルスを示 す。レンジゲートは、往復時間中、特定のインタフェース、例えば、唇に対して セットされる。従って、固定レンジゲートの例においては、唇からの反射だけが サンプルされる。ただし、スイープされたレンジゲートシステムにおいては、レ ンジゲートが全レンジに亙って逐次的にスイープされ、各位置からの反射が測定 される。結果として、累積的に受信されたディジタル化済みパルス(約50〜1 00)が、図11Dに示すように、レンジゲート内の固定時間において各ビン内 に加えられる。次に、ゲートは1時間単位だけ増加し、そして、更に50から1 00のパルスが、その次のビンに向けられる。(この種の実験を図24A及びC に示す。) 全器官感知と呼ばれる修正されたEM感知モードにおいて、図11Cに示すゲ ートは0.1nsから5ないし10nsまで広げられ、そして、伝搬路内の全て の器官によって反射される全ての反射信号が受信され、受信された信号は記憶さ れる。これは、適当なS/N比が得られるまで何度も繰り返される。次に、例え ば1ミリ秒のような適当な時間が経過した後で、当該過程は再び繰り返されるが 、完全な器官システム状態対時間のプロファイルが作りあげられるまで、平均さ れたデータはその次のビン(例えば、ビン2)等々の中に記憶される。通常引き 去られる非常に大きな静的平均背景が有る。この背景が引き去られると、信号対 時間ビンにおける差異は、例えば時間濾波のようなリアルタイム動作を用いて、 増幅および処理可能である。この種の場(フィールド)妨害ソフトウェアの実施 例は、背景信号が比較的一定の状態を維持する場合における高速運動に対して特 に有用であり、アルゴリズムによって、調音器官の高速運動から人体の低速運動 を除去することを可能にする。実例としては、舌先または声帯の高速運動測定が 挙げられる。 簡単な、または、低コストの音声認識強化技法としては、1回又は2回の器官 インタフェース測定で十分である。音声認識の正確度を徐々に上昇させるために は、ユーザーは、多くの音声器官インタフェースの場所および速度を測定し、場 所の測定精度を徐々に上昇し、所定の1つの器官の複数の場所(例えば、舌先及 び舌裏)を測定し、平均化の利点を利用するためにサンプリングレートを高くし て測定し、更に小さい距離運動インクリメントにおいて位置対時間を測定するは ずである。更に、ユーザーは、マルチフォーン(多重音)およびマルチPLU情 報パターンを獲得するために数個の音変化周期に亙って器官状態のパターンを測 定するはずである。 頭部、顎、等々が動いている場合であっても、例えば、頭部または顎の運動が 消去されるように頭部または首にEMセンサモジュールを取り付けることによっ て、頭部、顎、及び、他の器官に関する所要音声器官インタフェースの絶対的な 場所(位置)は決定可能である。付加的な方法としては、例えば、下顎の皮膚空 気インタフェースのような公知の基準場所、又は、正面唇空気インタフェースの 場所を検出するために、レンジゲートの走査特質を利用する。この場合には、他 の全てのインタフェース場所は、この「第1」インタフェースを基準にすること が可能であり、そして、相対経過時間を知ることによって、絶対距離を容易に抽 出できる。音声音素を定義するためにレンジゲートEMセンサ音声情報を使用す る方法を例証する実験例は、前記のPapcunの著書の697頁、図9によっ て示される。彼は、舌と唇に接着した金製ボールの位置を決定するためにX線マ イクロビームを用いた。彼は、英語の子音音素の対/b/と/p/、/t/と/ d/、及び、/k/と/g/の器官調音(舌及び唇の動き)を決定するために位 置対時間データを使用した。彼は、同時に測定された音波情報と共に、この位置 情報によって、話し手によって話されつつある子音を一意的に識別することを可 能にした。音波音声単位を識別するために器官位置を使用するこの方法は、Ol ive等による「米国英語通話における音響学」1993年において分類および 説明されている音声器官の場所対ソノグラムデータと一貫性をもつ。従って、器 官場所及び運動のEMセンサ測定は、正確な音声認識に必要な情報を提供する。 別々な2つの個別時間に対して器官インタフェースの位置を測定することによ って速度が求められる、即ち、2つの測定実施の間の時限によって位置変化を除 算することによってそ速度が求められる。器官速度情報は、例えば「破裂音」の ような非常に速いか、或いは、完全には調音されないか、又は、調音に随伴する PLUの存在を決定するために特に有用である。速度情報は、急速ではあるが不 完全に調音された2フォーン及び3フォーンに関して特に価値がある。一例とし て、急速であってしばしば調音の不完全な3フォーン/ana/における/n/ を記述するためのEMセンサの使用が挙げられる(図6に示す)。 2つの個別の時点に亙る器官インタフェースの速度測定は器官インタフェース 加速度情報を提供する。これは、器官運動に基づくか、又は、拘束される音声器 官軌道モデルに必要な機械パラメータを定義するための使用に際して役に立つ。 EMセンサ動作のホモダインモード EMセンサ検出のホモダインモード(例えば、コヒーレントレーダモード)は 、基準とされる音声器官インタフェースの速度を求めるためにも使用できる。必 要に応じて、時間積分することにより、速度情報から各測定インタバル内の位置 変化を求めることが出来る。必要な情報の多くは「ジェスチャ(身ぶり)」の完 了時でなく開始時に提供されるので、速度及び運動情報は、「同時発音」、「不 完全調音」、及び、「話しての変動」問題の解決、並びに、他の音声認識問題を 簡素化するために用いることが出来る。ホモダインモードの最も簡単なバージョ ンにおいて、短いパルス(1つの波)は、音声器官、即ち口、喉、等々に向かっ て送信される。2GHzのEM波送信機を用いる場合、空気中におけるEM波長 は15cmであるので、当該モジュールは、殆どの場合、頭部、咽喉、又は、上 胸部から1ウエーブの何分の1かの距離に配置される(0ウエーブから数ウエー ブまでの距離が可能である)。一旦、波が器官組織(例えば、顎の皮膚、顎骨、 及び、舌の筋肉)に入ると、EM波長は約2cmの組織内波長まで概略8(誘電 率の平方根)の係数だけ短縮する。例えば、送信機と舌‐空気インタフェースと の間には、空気中の1ないし2波長に組織内の1ないし3波長を追加した距離が ある。インタフェースによって反射されると、レーダアンテナまで戻る同様の波 通路は2から4波長である。アンテナ及びモジュールの受信機部分に入ると、受 信 機の検出器は、戻ってきた反射波の波高を内部の基準波高と比較する。この過程 は、戻ってきた波と、最初に送信した波の周波数に安定化した(僅か2、3個の 波だけ)同一周波数の内部波との間のコヒーレント干渉を測定する。 音声調音(アーチキュレーション)に際して器官インタフェースが反射を起こ させるので、反射波の通路の長さは、最初の観測に用いられた通路と比べるとよ り長いか、或いは、より短いはずである。1つの語の調音(アーチキュレーショ ン)期間中に、器官が新規な場所まで動くにつれて、反射された(戻り)波は、 位相の異なるモジュール内の基準波に加えられる。送信‐受信モジュールにおけ る電圧加算器から異なる電圧が観察され、そして、距離によって位相変化を較正 することにより、送信‐受信サイクルからその次のサイクルまでの移動距離を求 め、ひいては、速度を求めることができる。各々の時間と比較との間の固定した 時間を保って、この送信して比較するホモダイン過程は継続し、インタフェース が動くにつれて、位相変化は継続して測定され、そして、速度が求められる。 EMセンサ動作の近い近距離場(フィールド)及び混合モードにおいて、EM 波は、インパルスレーダの実験的バージョンに関して既に述べた技法に非常に類 似した技法を用いて生成可能であり、波は伝送線をアンテナ構造まで下方に伝搬 する。EM波はアンテナ構造からは放射されない。ただし、アンテナ近傍(約1 波長内で)における器官運動と関連した位相変化は反射された近距離場波の位相 および振幅を変える。 ホモダイン技法は、次に示す技法のうちの1つ又は複数の技法を、一緒に、又 は、別々に使用することにより、音声認識及び関連技術のための種々測定条件に 関して修正可能である。 (1)送信されたビーム内の1つの波であるが、出て行く波が頭部または上体 を通過するにつれて必要なだけ多数のインタフェースからの連続反射の受信を可 能にする受信したレンジゲートにおける1波動サイクルよりも多いサイクル。従 って、受信機チャネル内における時間の経過につれて、受信機からの情報のタイ ムストリーム内における多くの器官の位置の標示を提供するレンジゲートウィン ドウ内の全てのインタフェースからのEM波反射が見える。 (2)走査レンジゲートは固定した幅Δtを持つが、レンジゲート遅延は送信 パルス毎に可変である。これによって、当該モジュールから異なる距離に配置さ れた複数の動く(或いは、静止)インタフェースから情報が得られ、これらの情 報は、各送信パルスの後の受信された信号(或いは、信号の欠如)として表され る。このようにして、各サイクルからの信号は、コントローラによって順次に記 憶場所に記憶されることが可能である。従って、アルゴリズムは、インタフェー ス反射強度対遅延時間のパターンを作成することが出来る。この方法は、放射お よび非放射システムに適用可能である。 (3)1つ又は複数のインタフェースによって散乱される比較的長いEM波( 多数のサイクル)を送信することによる。この具体化例は、パルス列における1 つ又は複数のサイクルが、頭部における多くのインタフェースの1つによって常 に反射されるような長さの波列が用いられるので、使い易い。それは、波(単一 送信サイクルに含まれる多くの波)のうちの1つからの反射のみを記録する固定 したレンジゲートを使用することによって容易に解釈できるように作成可能であ る。前記の反射はレンジゲートタイミングウィンドウにおいて受信され、「ホモ ダイン」技法によって測定される。時間が経過し、後続パルス列が送信されるに つれて、この構成は一意的な反射標示を提供することが出来る。器官インターフ ェイスがどのように移動しても、固定したレンジゲートを介して受信され、或る 時点において反射される波が常に存在する。これらの散乱波は、時間と共に展開 する数個の音声器官インタフェースの動きの一意的組合わせと関連したパターン を作り、そして、タイムパターンは所定の音、語(ワード)、または、フレーズ (句)の一意的識別と関連させることが出来る。この多重波EMセンサ構成は、 動くレンジゲート、可変レンジゲート幅、及び、可変周波数を加えることによっ て修正可能である。これらの方法は、放射及び非放射システムに適用可能である 。 信号処理 図12に示すように、EMセンサ制御ユニット50は、アンテナ53から1つ 又は複数のパルスを送信するパルス発生器52を駆動する反復率トリガ51を駆 動する。制御ユニット50及びトリガ51は、更に、受信したパルスをレンジゲ ートするために、遅延回路54を介してスイッチ55を動作させる。アンテナ5 3から受信したパルスは、スイッチ55を通過し、積分器56によって積分され 、次に、増幅器57によって増幅され、そして、ADコンバータ58及びプロセ ッサ59を通過する。プロセッサ59は、利得設定、話し手の正規化、時間調整 、背景除去、前のフレームからのデータとの比較、及び、他の公知の手順を含む ことが出来る。ディジタル化され、処理されたデータは、メモリビン60に記憶 され、ここから、特徴ベクトル61が形成される。同時に、マイクロホン62か らの信号は、ADコンバータ63によってディジタル化され、そして、ディジタ ル化されたデータは処理され、特徴ベクトルに形成される。音声の開始は適用可 能であるということが注記され、情報はメモリビン64に記憶され、ここから特 徴ベクトル65から形成される。2つの特徴ベクトル61、65は、更に処理さ れ、過程66、67において組合わされ、そして、結果として音声認識が行われ る場合には、音声認識アルゴリズム68が適用される。 多重場所音声器官標示を対象とするということを除き同様の処理システムを図 13に示す。非音波パターンの各単一水平ビンは1つの単一器官場所を記述し、 そして、前記同一ビンの値が時間の経過と共に変化し、器官が動き、そして、図 に示すように新規パターンが形成される。1つの単一器官のEMセンサグラフ6 0及び特徴ベクトル61として図12に示すように、この種の1つの単一器官場 所ビンは時間と共に発展する。図13におけるシステムは、図12に示すように A/Dコンバータ58、63を介して本質的に同じである。ただし、図13にお いて、異なる器官または異なる器官の部分を測定するために順次にレンジゲート することによって作成される複数(n)のメモリビン60a、60b、…60n を示す。メモリビン60a、60b,…60n内のデータは特徴ベクトルを生成 するために使われる。この処理の残りの部分は、図12に示す通りである。 非音波センサと従来型音波情報の結合 図14は、1つの非音波音声認識(NASR)アルゴリズムと1つの従来型音 波音声認識(CASR)アルゴリズムとを結合するアルゴリズム的な決定トリー を示す。このアルゴリズムは、図12及び図13にはボックス67によって表さ れる。図13に示すように数個のEMセンサが用いられる場合には、この決定ト リーは多重NASRへ容易に拡張される。このアルゴリズム的手順のテスト値及 び結果値は、用いられるアプリケーション及び統計手法によって決定される。 実験的検証 ― 好ましい実施例 図15A−Dは、PLU/ah/に関する音波およびEMセンサによって測定 した声帯皺僻の運動を示す。データは、固定したレンジゲートを備えたレンジゲ ート付きEMセンサシステムの変形種を用いて収集された。図15Dにおいて、 EM信号のフーリェ変換は、120Hzにおける話し手の基本的な音声化された 励起関数ピッチを明瞭に示す。この場合、EM波発生器によって送信された複数 の波(約10個)及びレンジゲートが開かれる時点において声帯皺僻によって反 射されたこれらの波の一部分はEMセンサ受信機に入り、検出されて、記憶され た。このセンサ構成の利点は、多数の波が用いられるので、常に1つの波が、検 出を可能にするレンジゲート時間において、1つの器官インタフェースによって 反射され、従って、音声器官インタフェースの発見を簡素化することである。こ の簡単な実験により、この音声器官場所情報を、マイクロホンからの同時音波語 信号と相関性をもたせることが非常に容易であることが実証された。EMセンサ と同じ語(ワード)を感知するマイクロホンからの音波信号がオシロスコープの 個別トレースにディスプレイされ、A/Dコンバータにおいてサンプルされ、同 じ開始時刻およびEMセンサデータ用のメモリビンとして同じタイムビン番号と 共に記憶装置に記憶された。これら2つの(或いは、より多数の)信号の間の相 関性は、測定されつつある音声器官の予測される場所または活動と共に、削減で きない話された音単位(即ち、PLU)の割当を検査するために用いられた。図 15Bに示すこの例において、声帯皺僻のオン-オフのサイクリングと関連した 声門組織の動き、または、「声になった」活動(アクティビティ)が示される。 例えば舌及び唇のような他の器官の測定値は、これらの器官の動きは声帯皺僻 の動きよりも遅く、より多くのEM波エネルギーを受信機へ反射するように大き いので平等かつ容易に獲得された。図16は、顎/舌及び声門の組織の、数個の 音素を持つ語「one」に対するレーダモジュールのレスポンスを示す。詳細に は、二重母音/OW/を発声するための準備として顎が開くのが見える。同様に 、声門組織トレースは、声を出す前に声門が締る信号を示し、次に、顎/舌の動 きが始まってからかなり後に始まる二重母音としての発声開始を示す。顎が開く このパターンは/silence/OW/の3フォーンであり、次に、/n/の ために舌が上がり、その後で、最後の/ae/が発声される時に舌が降下する。 これらの簡単なEMセンサによって生成されたNASRパターンは、用いられる 音響装置に非常に拘束され、従って、CASRによって同時に認識される装置と 互換性がなければならないこのNASRは、音声の開始、顎の開き、声になった 二重母音の動き、声になった高い舌位置、舌の降下、及び、沈黙−音声化と器官 運動の終結を記述する。 迅速かつ不完全な調音器官運動を検出する能力は、例えば「ana」のような 音響的に困難なフレーズ(句)の組合わせを区別するために非常に有用である。 速く話した場合、「ana」の音声ソノグラムは(記述のOlive著書p.3 37参照)は、不完全な調音の一例である/n/を示さないことが多い。従って 、音波情報に基づいて認識判断を行うCASRは/n/を失う。ただし、NAS R測定は、弱い/n/音と関連した速い舌の動きを示すはずである(音声文献で は「ジェスチャー」と呼ばれる)。これは、図4にユニット22として示す運動 検出システムによって容易に検出される。この場合、そのデータ出力は、図6に 示すように、遅い運動と非常に速い運動を除去するためのタイムフィルタリング (時間濾波機能)を伴った多重送信されたサイクルで固定したレンジゲートモー ドである。アルゴリズムは、最良の認識推定値を提供するために、2つの/a/ の間に1つの/in/が配置されることを強要するはずである。 アルゴリズム 従来の音波音声認識システム(CASRs)は、静かな研究室環境における公 称誤り率が2%に達し、騒々しい環境において、大きい語彙により、緊張した話 し手によるか、或いは、方言を使う話し手による場合には誤り率が10%を越え るような結果をもたらす幾つかの主要問題を持つ。これらの誤り率は、大抵の用 途にあまりにも高い。必要とされるのは、現在最良のシステムの公称誤り率2% 以下に誤り率を引き下げるに充分な情報を提供する安定したアルゴリズムを用い る、簡単で経済的なディバイスである。 ここに記述する全てのアルゴリズムは、EM波を生成し、送信し、そして、音 声器官によって反射されて減衰したEM波を検出することによって音声器官位置 または運動情報を獲得する特質を利用する。EM情報を処理するこれら新規な方 法の基礎的なアイデアは、通常(しかし、常にではなく)同時音波情報と共に使 用され、そして、アルゴリズム的手順として記述される。これらのアルゴリズム 構成ブロックの修正種と変形種は様々な用途に使用可能である。 多重器官および多重時間アルゴリズムの基本ユニットは単一器官法によって構 成されるので、先ず、単一器官法について記述する。単一器官法は、声の励起関 数及び声管の状態について記述し、音声タイムフレームと呼ばれる定義済みの時 限に亙って実質的に一定の特徴ベクトルによって特徴付けられる。条件の不変性 を定義するためのこの新規な能力は、各タイムフレームから得られる測定された 特徴ベクトルを、コードブックに前以て記憶されている特徴ベクトルと比較する ことを可能にする。更に、音声タイムフレーム全体に亙って声管は時間から独立 しているので音波認識アルゴリズムにおいて非常に難しい時間配列問題をこの不 変性は解決する。前記特徴ベクトルを、この種のタイムフレーム全体に亙って1 人の平均的な話し手によって話された場合の特徴ベクトルとして作成する測定さ れた声管器官係数を正規化する付加的方法についても記述する。更に、この種器 官の特徴が備える係数の値の個数を制限する方法も記述する。 次に、この種の単一器官特徴ベクトルは、多重器官単一タイムフレーム特徴ベ クトルを作るために、同じ時限またはタイムフレームに亙って作成した他の器官 からの特徴ベクトルと結合することができる。以下に説明するアルゴリズムによ って正規化および量子化されたこの種の多重器官特徴ベクトルは、完全な非音波 認識(音波を必要としない)、又は、非常に高精度の用途に用いられる非常に正 確な共同非音波/音波認識システムを可能にする。 単一器官アルゴリズム 例えば声帯皺僻のような単一音声器官の動作は、従来型の音波音声認識システ ムによって行われた重要な判断に導くことができる。ただし従来型は、一般に、 1つの単一音声器官運動から得た非音響(レーダ)標示を、語‐音を一意的に識 別するために使用できない。 従って、単一器官アルゴリズムは、主として、合併音声認識モードにおいて使 用される(この場合、EMセンサ及び音響センサデータ及びアルゴリズムが一緒 に用いられる)。この付加的情報は、CASRアルゴリズムが、一層正確、迅速 、かつ、経済的な全音声認識を手助けすることを支援する。図12は、単一器官 声帯皺僻位置対時間に関する音響信号およびEMセンサ信号両方に関して、どの ようにして特徴ベクトルが形成されるか、そして、音声認識及び他の目的のため に、前記両者がどのようにして合併可能であるかを示す。 単一器官の種々の部分の条件を決定するために当該器官運動の時間的展開を用 いる方法も単一器官運動アルゴリズムに含まれる。器官位置信号の時間微分は、 既知の器官運動と関連した変化している速度を与える(例えば、舌先は舌本体よ りも速い速度で動く)。他の方法は、1つの単一器官の数個のインタフェースか ら(例えば、舌先対舌の背部)単一器官の部分の場所の数箇所の測定値を得るた めの方法である。他の単一器官アルゴリズムは、器官の形または空気管器官形状 寸法と関連した1つ又は複数の共鳴反射効果を検出するために1つ又は複数の波 長を使用することに頼る。一例は、音の形成につれて変化する舌‐口蓋の寸法的 開口部である。 単一器官の正規化 個人の音声と関連した特徴ベクトルは「正規化される」ことが可能であり、そ の後で、基準としての個人の特徴ベクトルに或いは個人のグループ(例えば、或 る言語の平均的話し手)に対して一意的にマップされる。この方法は、当該用途 に適した所定のEMセンサにとって必要とされるだけ多数の個人的調音器官の反 射信号の振幅、位置限界、速度限界、及び、時限を決定するために選定された既 知の1組の語を発音するように話し手に要求することによるアルゴリズムの訓練 を含む。次に、アルゴリズムは、測定済みデータの間への簡単な補間を用いるこ とにより、基準化された話し手が同じ語集合を話す場合に、同じタイプのEMセ ンサによって測定されるが、基準化された話し手から早期に得られた信号に対し て、音声フレーム測定に際して各調音器官と関連したEMセンサ信号に基づいて 1対1の割当を行う。このようにして、比較的少ないEM波エネルギーを反射し 、余り動かない小さい舌を持つ人は、より大きい舌を持ち、舌の運動がより広範 囲に亙る平均的個人に対して正規化される。 器官レンジに関するこの知識、及び、検出可能な新規な音を確立するためには 、ある器官はそのレンジの所定の部分だけ動かなければならないという音声につ いての知識を用いることにより、音声フレーム中に測定される許容可能な変化全 体に対する割合によって器官運動を量子化することが出来る。換言すれば、或る 帯域に亙って認識可能な音声音変化が一切発生しないような器官位置の帯域が有 る。従って、特徴ベクトル係数は量子化可能であり、そして、所定の器官の特徴 ベクトル係数は、例えば、次に示す5個の数値0.0、0.25、0.5、0. 75、及び、1.0のような極く少数の小数値によって記述可能である。これら の数には、必要に応じて、正規化された振幅値を乗じても差し支えない。 例証するための一例として、舌本体(即ち、ブレード)の位置を考察すること とする。即ち、前記の位置は、正規化され、かつ、量子化された特徴ベクトル係 数0.25によって記述可能である。この0.25という値は、使用中のEMセ ンサシステムによって検出される運動範囲を示す5個の可能な位置的「帯域」の 第2番目に舌が位置することを意味する。この値は、後続する次の音声タイムフ レームにおいて、許容された位置的範囲の新規な「帯域」内に配置されているこ とが検出されるに充分なだけ舌が動くまで(そして、認識可能な新規な音は舌の 新規な位置によって引き起こされるはずである)の舌の位置を示すはずである。 この新規な音声フレームにおける特徴ベクトル係数は新規な値に正規化され、そ して、例えば、この例においては、舌本体(タンブレード)が、最上と最下との 中間位置に在ることを表す0.5のような新規な数値に量子化されるはずである 。 このアルゴリズムは、話し手の音声器官の運動速度を正規化するために、幾つ かの方法において、拡張可能である。重要な時間正規化について、スピーチピリ オド(音声期間)の定義及びピッチピリオド(ピッチ周期)の正規化を前提条件 として以下に説明する。2番目に重要な時間正規化は、1つ又は複数の音声タイ ムフレームに亙る特徴ベクトル係数の変化率を正規化することである。アルゴリ ズム的手順は簡単である。即ち、2番目に近い最近処理された所要の器官場所に おいて得られた係数から、1番目に近い最近処理された音声フレーム期間中に獲 得された所要の器官場所の正規化された1つ又は複数の係数を減じる。この正規 化された位置変化値を、2つの特徴ベクトルを測定した時間的間隔で除算する。 例えば、1番目に近い最近形成されたフレームの開始時間から2番目に近い開始 時間をを減じると経過時間が得られる。ベクトルタイムは測定されたままで使用 できる。ベクトルタイムは、音波音声から得られる公知のタイムワーピング技法 を用いて正規化可能であるか、或いは、ベクトルタイムは、規準化された話し手 によって話され、そして、認識過程を介して獲得された音に関して正規化された 時間であり得る。 更に、特性運動時間は異なって定義することが出来る。即ち、例えば、各器官 はその特性レートを測定可能であり、特性運動時間を求めるには、アルゴリズム は、以前に定義済みの時定数によって場所係数差を除算するに過ぎない。各器官 は、研究から、或いは、個人又は規準化された個人又はグループを訓練すること から、或いは、機械モデルから獲得されか、或いは、音声認識過程に際して適応 可能な当該器官の既知のレスポンスに従って正規化することが出来る。更に、訓 練に際して、ユーザーの特性器官運動時間は、規準化された話し手の特性器官運 動時間と、1対1ベースで、関連付けることが出来る。次に、これらの速度値は 、 位置値に関して既に述べたように、量子化可能である。器官運動の極端な量子化 の一例として、2つの速度帯域−−低速又は高速(例えば、0.0、または、1 .0)の形成を挙げることが出来る。参照表IIIに示すこの簡単な量子化過程は PLUの音声識別または他の音波単位に非常に強く拘束される。 上記のアルゴリズム的手順を用いることにより、次の4つの演算のうちの1つ 又は複数を使用することが出来る。1)個々の話し手の特徴ベクトルを平均母集 団の特徴ベクトルに正規化する。2)不完全な調音(アーチキュレーション)及 び調音の随伴(コアーチキュレーション)の程度を検出する。3)個人の調音習 慣を予備正規化する。4)当該個人の音声器官の状態を記述するために用いられ る値の個数を制限する。更に、各始業時或いは就業中に、適応可能な技法を使用 して、話し手が早期に獲得した規準化された状態に従って話す場合に、システム は、話し手の時間使用を再正規化することができる。 特徴ベクトルの話し手独立(即ち、正規化済み)記述に音波情報と共に非音波 情報を使う方法は先ず(押しつけがましくないリアルタイム手段を用いて)、例 えば音節、音素、PLU、音波単位、語、及び、句(フレーズ)のような既知の 音声単位と関連した事前形成された特徴ベクトルのライブラリに対して、獲得さ れた特徴ベクトルの非常に速く、かつ、非常に正確な識別を獲得することを可能 にする。 単一器官接触及び共鳴アルゴリズム 特定の重要な単一器官アルゴリズムは器官相互の接触である。音声において、 存在、場所(ロケーション)、及び、口蓋に対する舌の接触率は「t」または「 d」または同様に決定される音は舌によって形成されることを示す。舌先の口蓋 への接触共鳴は実測済みであり、接触によって反射率が5倍増加する。図17は 舌の接触データを示し、そして、図18はアルゴリズム的記述を提供する。器 官接触の検出は、或る音声の音単位が明瞭に発音されていることの非常に重要な インジケータである。音声フレーム毎に異なる共鳴及び共鳴の変化の使用は、こ の種の状態の明瞭な証拠を提供する。器官相互の接触はEM定在波構造及び器官 インタフェースEM境界条件状態を変え、そして、結果的に反射率に大きい変化 をもたらす。レンジゲート作用、時間濾波作用、及び、他の場所特定技法を使用 すると、必要に応じて接触点の特定を可能にする。従って接触強度、フレーム毎 による変化、及び、場所は、記録され、正規化され、そして、後続するパターン マッチング、コードブック比較、及び、以下に説明する他の統計的技法のために 特徴ベクトルに記憶される。 2つ以上の器官インタフェースの次元がEMセンサからの伝播EM波の特定の 波長と共鳴的である場合には強い共鳴状態が検出されることがある。該当する波 長のEM波が1つのインタフェースから反射する場合、他のインタフェースから 反射するEM波に干渉的に加えられる。インタフェース間の距離が、透過媒体に おける波長の1/4の倍数だけ離れている場合には、(例えば、空気中であれば 2GHzに対して約4cm、または、組織内においては約0.5cm)反射に際 してインタフェースが波の位相をどのように変えるかに応じて、全構造体的干渉 が発生する。信号強度は検出器における波の振幅の和の二乗であるか、或いは、 単一インタフェース反射の場合の4倍であるので、非常に大きい反射が発生する 。同様に、反射された波の振幅破壊的に干渉する場合には、反射の減少が発生す ることがある。インタフェースの間に1/2波長の距離があり、そして、検出さ れた反射がキャンセルされる(或いは、位相が完全に破壊的に位相差を生じてい ないと低下する)場合には、この種の状況が発生する。反射が減少する場合には 、カメラレンズ上の反射防止膜と同様にインタフェースを越えた更に強い前方に 伝播する波が起きる。組織の場合には、屈折率が非常に大きく、(実質的に1. 0の屈折率を持つ空気とは対照的に)一般に、5〜9であるので、非常に大きい コ ヒーレント効果が起きることがある。この種の効果を検出するためには、重要な 状態に関して重要なインタフェースの距離を「測定する」ために、スイープ周波 数EM発生器及び相補検出器を検出を使用することができる。使用する場合には レンジゲート情報を含めた送受信EM情報は、同時に測定された音波情報と共に 記録される。 単一器官アルゴリズム的記述 図19は、音波及び非音波情報をいっしょに使用した場合における、音声の開 始、ノイズ拒絶、発声‐非発声音声、音声の終結、及び、休止を決定するための 一方法を示す。この例は、語「sam」を含む米国英語の場合である。時間及び その他の定数は統計的推定値であり、話し手及び言語に関して調節されなければ ならない。これらのアルゴリズムは手動で試験された。 マイクロホン70からの音波情報は、音波式音声センサ、A/Dコンバータ、 及び、1秒記憶装置71へ入力される。EMセンサ69からの声帯皺僻運動情報 は、積分器及びバンドパスフィルタ72へ入力される。プロセッサは、表Iに記 載され、次に説明するように決定する。表に示す例は、更に複雑な音声器官の記 述のためのブロック作成に使用できる単一器官NASRアルゴリズムである。 表I 単一器官EMセンサアルゴリズムの例 音声時間アルゴリズムの開始 ユーザーの環境には多くの外部ノイズがあり、これによって、CASRがノイ ズを音声と間違えて処理を開始することが有り得るので、音声の開始は音声認識 にとって重要である。図19のアルゴリズムは、声帯皺僻運動開始の言語におけ る統計的発生に基づき、音声タイムフレームに定義及び特徴ベクトルの形成を利 用する。ささやかれるか、或いは、音にならない音声の場合には、開始の定義の ために追加的EMセンサ情報が必要であり、これについては、次に説明する。有 声音が形成されるか、同様に、ささやくため、或いは、無声音のために空気が流 れることを可能にするように声帯皺僻が開く場合に声帯皺僻の開/閉運動が発生 する。大抵の米語音は有声であり、ほとんど全ての語(ワード)は、音声の各秒 内に1つ又は複数の有声音を含む。この音声は、一般に、1秒当たり最大10個 までのPLUまたは同様の音単位を含み、無声音には、統計的に、1つから2つ の無声PLU単位毎に有声音または休止が後続する。アルゴリズムは、音波式及 び1つ又は複数のEMセンサモジュール同時に使用することにより、音声の開始 を検出する。このアルゴリズムにとって問題は、幾つかの語(ワード)が、例え ば「sam」或いは「sixteen」における「s」のような無声音で始まる ことである。従って、本アルゴリズムは、EMセンサによる声帯皺僻運動開始検 出によって検出されない可能性のある音を捕捉するための補強が可能でなくては ならない。図12及び13に示す2つの音声処理システムにおいて、ここで説明 する開始アルゴリズムは主としてボックス66において使用される。無声継続期 間タイマTは、システムのターンオンに際してゼロに初期化されている。 音波及びEM音声タイムフレーム、及び、特徴ベクトルが形成された後で、音 声開始テストが始められる。この例に関しては、各音声フレーム「i」は、その 末端時間tiによって定義される。アルゴリズム図19はボックス67において エントリされ、ここで、数個の音声タイムフレームに亙って無声音の累積的な継 続時間に関して(例えば、T>0.5secであるか?)タイマTのテストが行 われる。テストの継続時間が0.5secより短く、そして、マイクロホン70 の出力信号がプリセットされたスレショルド73を越えるが、騒々しいノイズス レショルド77未満である場合には、本アルゴリズムは、ボックス79における 同じ音声時限内で声帯皺僻運動が発生するように探索する。該当する音波及び声 帯皺僻運動が存在する場合には、1つの有声音声単位が発生し、ボックス78に おける無声タイマTはゼロのセットされ、フレームtiの処理は継続する。音波 条件は満足されるが、声帯皺僻運動がボックス72内で起きない場合には、フレ ームtiにおける音は、ボックス79において無声音声としてのラベル表示され 、処理は継続する。ボックス77における音波信号が高すぎ、そして、声帯皺僻 運動がボックス80において検出される場合には、当該信号は高い有声音声ボッ クス78として処理される。音波音声がスレショルドボックス73未満である( サイレント又はささやかれた音声アプリケーションに関してはテストが用いられ ない)場合には、EMセンサ特徴ベクトルはボックス82において処理され、音 波信号はボックス82において弱過ぎるとラベル表示され、無声或いは無音カウ ンタTはボックス82において最も近い音声タイムフレームの時間ti−ti-iだ け増加し、処理は継続する。67においてアルゴリズムにエントリする際に、T のテストが、0.5sec以上の無声または無音音声が発生したことを示した場 合には、インターバルT(例えば、0.5秒)内の音波エネルギ係数がε未満の 音声フレームはボックス85において削除され、ボックス86における声帯皺僻 運動の存在における低い音波信号に関してテストが行われる。音は低いが声帯皺 僻運動が発生している場合には、システムは、ボックス84において低音メッセ ージをオペレータに送り、開始状態を待っている制御ユニットヘ戻る。 図19におけるユニット78及び83からの直接メッセージによってマスター 制御ユニットにおいて検出される音声開始は、一旦、開始が起きると、ボックス 67において開始するアルゴリズムによって確認可能である。重要な一例を次に 示す、即ち、図4(モジュール21、及び/又は、22)及び図19(モジュー ル68、83)に示すように、最初の音のための準備位置に舌及び顎が動くので 、舌及び顎運動EMセンサは舌及び/又は顎運動の前兆運動を測定することが出 来る。語(ワード)「one」を話す場合の例を図16に示す。舌及び顎運動は 音声開始の有用なインジケータであるが、音声を保証しない。従って、ボックス 67において開始するアルゴリズム始動は、開始状態がボックス83、78、ま たは、79から検出された後で、タイマTの0.5秒以内に開始する音声に関し てテストする必要がある。0.5秒後に、音声が確認されない場合には、システ ムは、ゼロ入力動作または他のコンディション条件状態のためにマスター制御コ ントロールに戻される。 ささやかれるか、或いは、無音音声開始の場合には、追加EMセンサ情報が必 要とされる。声帯皺僻運動を記述するために用いられた同一の単一器官アーギュ メント、及び、既に検討した単一器官としての舌(或いは、舌‐顎結合運動)の 使用が開始インジケータとして用いられる。これには、ささやき及び無声音声に 際して開くが開閉振動はしない声帯皺僻が含まれる。無音音声または機械制御通 信が用いられているか、或いは、ささやきのみが必要である場合に非常に低レベ ルにセットされている時には、音波レベルセンサ、ボックス73及び77はオフ できる。 音声終結アルゴリズム 音声開始アルゴリズムからのボートが、通話が開始したことを示す場合には、 図19におけるアルゴリズムは、音声の継続に関して各音声タイムフレームのテ ストを継続する。このアルゴリズムにとっての主要問題は、米語において、例え ば複数の/s/のように、語が無声子音で終わることが一般的であることである 。 このアルゴリズムは、音声化された音声停止の探索を制限するためにの0.5秒 のテストタイムを使用する。プロセッサ67はT>0.5秒かどうかをテストし 、真ならば、当該演算をプロセッサ85及び86へ導き、ここで、過程を停止し 、コントローラに戻る。音波ユニット73、77が受け入れ可能な音波信号であ ることを示すが、声帯皺僻運動はボックス72、79において0.5秒以内(即 ち、T<0.5)に検出されない場合には、最後の有声音声フレームの後で、カ ウンタTは、フレーム‐i時限だけ増加し、その次の音声フレームのテストがボ ックス67において開始される。これらのテストは、音波音声音として「偽信号 (alias)」の可能性のある過度の背景ノイズに関するものであるが、言語統計に よれば、0.5秒毎に(一例として)声帯皺僻運動が発生しなければならないと 主張されている。ただし、0.5秒の待ち時限内で処理される全ての音声フレー ムは、発声がなくても、無声セグメントとして処理されなければならず、そうす れば、特徴ベクトルは適切に定義される。0.5秒の処理の後で、一切の声帯皺 僻運動が検出されないならば、アルゴリズム67は、ボックス85、86におい て音声の終結を定義する。最後の0.5秒期間中に記録された音声フレームは、 ε以上の音波レベルに関してテストされ、そうでないならば、これらのフレーム は削除される。物語りをする時、演技をする時、機械や動物をまねる時のように 話し手が多くの無声音を用いるような非常に特殊な音声技術の応用に関しては、 タイプと長さの変化する無声音の獲得を強調するために、ユーザーは、テスト期 間Tを変えることができる。 背景ノイズ抑制アルゴリズム 背景ノイズの抑制には2つの問題がある。即ち、話し手が話していない時に発 生するが、CASRが音声開始と混同するノイズの場合、及び、話し手の音声進 行中に発生するノイズの場合である。第1の場合、話し手が話していない時に発 生するノイズは、音声アルゴリズムの開始により有効な音声入力として除去され る。 第2の場合、話し中にマイクロホンに入る音波ノイズの(背景からの)除去は 、非音波データの使用によって可能にされる。一定の高い背景音波レベルは、話 し手による話し手自身のマイクロホンへの音波入力に匹敵するので、CASPが 機能しないことが専門家によって認められている。ただし、多重器官NASRシ ステムは機能するはずである。理由は、前記システムは、紛失した音声単位情報 を決定するのに十分な情報を提供することが可能であり、音声タイムフレームを 自動的に定義することによって機能を継続し、前記システムがささやき又は無音 音声モードで作動中であるかのような最良の推定音声音を提供することに因る。 外部音波ノイズが大きいが、継続期間が短い場合には、この種のノイズは、1 つ又は極く僅かな音声タイムフレーム期間中に 図12及び13に示す音声処理 アルゴリズムの音波出力に異常な音波信号として現れる。ボックス67、73、 77、80、81によって図19に示されるアルゴリズムは異常なノイズ事象を 検出し、フレーム情報を除去し、そして、後続処理のために「損傷」と印をつけ る。図14に示す一般的な音波単位認識アルゴリズムは、ノイズを検出し、CA SR情報を無視し、そして、最良の可能な音波単位識別を獲得するためにNAS R特徴ベクトル係数のみを使用するよう注意を与える。この種の事象が発生した 場合には、ユーザーは、データが外部ノイズ信号によって劣化しつつあることに 注意すべきである。 穏当なレベルのノイズによって、話し手からマイクロホンに到達する情報の質 が下げられる場合には、話し手の意図を回復するために、NASRシステムによ って提供される追加的情報をアルゴリズムにおいて使用することができる。ユー ザーは、図14に示すアルゴリズムを次のように導くことを選定可能である。1 )CASR信号がNASRデータと一貫性を持たない場合には、NASRテスト か らの最良の信号を選定する。2)数個の音声フレームに亙って既知の特徴ベクト ルシーケンスと一貫性を持たないか、或いは、既知の器官運動拘束条件を満たさ ない特徴ベクトルを拒絶するために前の音声フレームから次の音声通話フレーム までCASR、および/または、NASR特徴ベクトルの連続性に関する更なる テストを実施する。同様に、2フォーンまたは3フォーンライブラリが利用可能 である場合には、実質的に図14の場合と同じ過程を用いてCASR及びNAS R両方からの多重フレーム信号をライブラリにおける最適データと比較すること が出来る。CASRシステムからのマッチが得られないか、または、低確率にお けるマッチのみが利用可能である場合には、音声フレーム音波信号に基づく識別 が低確率で与えられ(例えば、おそらくノイズによって劣化した)、そして、ア ルゴリズムは、当該アルゴリズムの規則によれば最良であるようなNASR識別 を選定する。 上記の方法の持つ誤り又は不確定性が発生していることを話し手に通告するこ との出来る能力は非常に価値があり、特に、誤りが重大な結果を招くような高価 な音声認識またはこれに類似の状況においては非常に価値がある。この安定性は 「堅固な」認識システムの特徴である。 有声又は無声音声識別のためのアルゴリズム − PLU 無声音が話される場合には、声帯皺僻は反復サイクルで開閉を行わない。声帯 皺僻は、大抵の情況において、ささやき音或いは無声音にたいしては開く。CA SRを混乱させる8対の有声及び無声PLUの例を表IIに示す(Olive等「 米語音声の音響学」前記同書24頁から引用)。前記の対は、各対が同じ声管形 成であるので混同され易いが、例えば、音声化した発音/z/とは対照的な殆ど 唇を閉じた/s/音のように、一方は有声であり(声帯皺僻が振動する)、もう 一方は声管拘束部を空気が激しく通過することにより音をたてる(狭搾気音、 気音、等々)。 表II EMセンサを用いて認識できる有声および無声英語音対 NASR決定アルゴリズム(図14)と共に使用されるCASRアルゴリズム がこの決定に適用される場合には、有声または無声の間において幾分曖昧音波音 に関する標示が生成される。すなわち、識別確実性の確率は、対を構成するPL Uのどちらか一方に制限されるが、確実性は希望値より低くなる。有声‐無声ア ルゴリズムは完成した2つの方法である。最も簡単な音声認識装置「キュー」と しては図19に示すプロセッサ72を使用する。プロセッサ72は声帯皺僻運動 を検出し、この区別が発生した音声フレームに関する特徴ベクトルの制御係数に 表示する。第2の方法は、図12及び13に示す通常のアルゴリズム的処理を用 いる。この場合、データは測定され、平均され、量子化され、そして、声帯皺僻 FMセンサデータが、図14に示す音波音認識手順に利用可能であるように処理 される図14におけるアルゴリズムは、柔らかに発音される/z/を扱うために 、次のように進行する。音波音特徴ベクトルは、CASRライブラリにおけるベ クトルと比較され、比較的高い確率(例えば/s/及び/z/)を持つ2つのP LUを示す。しかし、音波信号がこれらの音波単位を識別する確率は低いことが 表記される。次に、アルゴリズムは、有声音声である確率(例えば、100%) または無声である確率(例えば、0%)を提供するために、NASRの出力をテ ス トし、そして、合同アルゴリズムは、調査されつつある音声タイムフレームにお いてテスト中のPLUの有声バージョンを選定する。 ピッチ周期および音声フレーム決定アルゴリズム 図4におけるセンサ23からの出力は、声門の組織、詳細には声帯皺僻の運動 を観察することによって測定される声門の基本的開閉レートを提供する。 1)アルゴリズム1は、図20A、Bに示すように、声門の開/閉運動の時限 (インタバル)を測定し、各音声フレームにおける、話し手の瞬間的な有声ピッ チ周期を自動的に与えるために設計され、テストされた。このアルゴリズムは、 EMセンサデータのゼロ交差間の時間およびEMセンサデータのピーク間時間が 継続期間となるような音声フレームを自動的に定義する。図20A、Bに示す2 組のデータの基本周波数は20%の係数だけ異なり、これらの周波数は、「e」 は「u」よりも高いピッチの音であり、前者の声帯皺僻ピッチ周期は6.25ミ リ秒(160Hz)であり、後者は話し手による7.81ミリ秒(128Hz) の周期であることを示す。このアルゴリズムの計算時間の節約度は、通常の全て の音波ピッチ追跡アルゴリズムと比較して、係数5よりも大きく、しかも、遥か に正確である。 2)アルゴリズム2は、順次に測定したピッチ周期が、初期ピッチ周期測定と 比較した場合、同一ピッチ周期値(ユーザーが定義した測定精度の数値帯域、例 えば5%、内)を持つかどうかを決定するように設計され、テストされた。そう である場合には、このアルゴリズムは、次の周期が同じであるとカウントした場 合に「カウンタ」を1単位だけ増加させる。アルゴリズムは進行し、同じ値を持 つ順次的なピッチ周期の数をカウントする。次のピッチ周期値が同じでない場合 には、当該アルゴリズムは、新規な初期周期が開始したことを報告する。音声フ レーム3から15までがこのような基準を満たす場合を図9に示す。2件の実験 において、その一方を図15Bに示すこととし、2人の男性話し手が音素/ah /の音を出した場合、アルゴリズムは、一方は90Hzの基本周波数(ピッチ周 期11ミリ秒)と、120Hz(ピッチ周期8.3ミリ秒)の基本励起周波数を 持ち、そして、語(ワード)と共に変化するピッチが、各音声フレームに関して 、容易に追跡されたことが分かる。 アルゴリズム2によって定義されるような一連の同一ピッチ周期は、他のEM センサ、及び/又は、音波情報が関係する場合に、一定の特徴ベクトル値の多重 周期音声フレームを定義するために別のアルゴリズムにおいて使用することがで きる。アルゴリズムが発音された音声ユニットの不変性が保たれる有声ピッチ周 期サイクル数を自動的に決定できるように、一定周期の定義は一定音波信号、ま たは、一定舌位置、等まで拡張される。 3)アルゴリズム3は、ピッチ周期ファインダのために変換技法を使用し、そ して、図20A、Bに示される場合と同様に見える図4に示すユニット23から のデータを使用する。アルゴリズム3は、多数の同じ音声タイムフレームを定義 するためにアルゴリズム2を使う。次に、本アルゴリズムは、平滑化関数(例え ば、Hamming)を用いて、その期間中データが一定であるような一連のフ レームからのデータを濾波し、そして、次に、1組または複数組のデータポイン トのタイム列にフーリェ変換(或いは、Z‐変換)を実施する。本アルゴリズム は、振幅の最も高い信号を発見するために、変換されたデータ集合に関して探索 を実施し、次に、基本ピッチ周波数とするために、振幅の最も高い信号と関連し た周波数を選定する。 ピッチ周期を発見するための本アルゴリズムの2つのバリエーションを次に示 す。即ち、3a)基本周波数を見つけるために第1調波と第2調波との間の周波 数の差を自動的に測定し、3b)ゼロ周波数から出発してピークを検索する際に 、第1ピークの場所を選定する。これらのバリエーションは、最も高い振幅の選 択 に基づかないという利点を持ち、更に、更に正確な値を発見するために平均が可 能な冗長性を測定に提供する。 4)無声音声フレームの継続期間声門反復運動が一切起きない場合、即ち、無 声音声または沈黙が起きている場合、音声フレーム継続期間を定義するデフォル トとしての方法が必要とされる。 4a)タイムフレームは、その期間中、音波出力が前以て決定済みの帯域内に おいて一定である時限として定義される。無声音が変化する場合には、新規な音 声フレームが開始され、その前のタイムフレーム継続期間が記録される。このア ルゴリズムは沈黙を音波変化なしと見なす。 4b)逐次的な音声タイムフレームの継続期間を定義するために、50ミリ秒 のデフォルトタイムが用いられる。 ピッチの正規化 アルゴリズムは、音声認識または便利な音声技術応用のために最低、中間、及 び最高周波数において声帯皺僻を振動させる母音及び子音を話し手に発音させる 一連の語(ワード)によって訓練されるように設計されている。この訓練は、前 記応用において使用するために言語音の語彙訓練セットを介して個々の話し手の ピッチ周期レンジを定義する。同様に、単一基準話し手または選定された基準話 し手のグループは、公知の音に関して正常ピッチ周期の基準コードブックを定義 するために同じ語集合を発音するように要求されているものとする。次に、アル ゴリズムは、ユーザーの瞬間的な音声周期から、同じ音に関する基準話し手のピ ッチ周期まで、1対1に対応させる。次に、アルゴリズムは、正常な使用中にお いて周期が測定される度に話し手のピッチ周期時間を1人又は複数の基準話し手 の周期にマップする。この新規な周期は、正規化済み特徴ベクトルにおける正規 化済み励起関数のピッチ周期を定義するために使われる。CASRと共に使用 NASRシステムによって獲得された瞬間的なピッチ周期情報は、当該話し手 の自然ピッチを発見し、話し手を平均的または基準話し手に正規化し、モデルに 基づく認識システムに於ける励起関数を決定し、語(ワード)配列のための音声 レート(即ち、タイムワーピング)の決定を手助けするために認識装置を訓練す る目的で音素を識別する際の手助けとして従来の音声認識装置によって用いられ る。 NASRにおける使用 アルゴリズムは、音声タイムフレーム、基本ピッチ周期、話し手の識別、及び 、モデルに基づく認識アルゴリズムのための基礎的励起レートを定義するための 基礎を提供する。最も重要なことは、NASRシステムが、例えば非平均的なピ ッチの使用及び測定された特徴ベクトルからの音波単位調音(アーチキュレーシ ョン)におけるピッチ周期の非平均数のような個人の性癖情報を充分に除去する ことをアルゴリズムが可能にすることである。従って、これらの方法は、例えば PLU、または、音素音波単位のような音波音単位が、混乱の原因となりうるタ イミング情報でなくて、励起関数及び声管状態によって定義されることを可能に する。タイミング情報が有用である場合には、前記情報は器官位置情報から分離 され、そして、最良の利点として利用可能である。直接的な音波単位の識別が後 続する。 音声レートアルゴリズム 音声レートは、従来の音波式音声認識装置及び非音波式認識システムにとって 重要である。理由は、これらの場合には、音素を識別するため及び話し手を正規 化するために、音波情報流のタイムレートから導出した時限を用いることに因る 。 CASRは、話された音声のセグメントのレートを調整するためにタイムワーピ ングと呼ばれる技法を用いるので、これらがどれほど急速に或いはゆっくりと発 音されても、前記全てのセグメントを同じ認識装置を用いて認識することが可能 である。NASRアルゴリズムは、1秒当たり発音された音素の個数、及び、共 通音素を発音するために個人が必要とする時間を決定するために音声周期長さ、 1音素当たりに使用する周期の数、及び、統計学を使用する。一般原理は、先ず 、当該ユーザーによって利用されつつある語彙に関して公知の音の音声調音(ア ーチキュレーション)と一意的に(統計的意味において)関連する音声器官運動 事象の数を記録することである。第2番目に、(既知の語集合を用いた訓練期間 中に)小数の公知音素を発音するために当該話し手が使用するピッチ周期の数を 測定することである。 * 平均音声レートのための有声‐無声統計アルゴリズム 図19におけるコンパレータ78及び79が所定の音声セグメントにおいて使 用される回数(例えば、4秒毎)を測定することにより、短時間(例えば4秒) 語集合における有声対無声PLUの比率を測定し、そして、「標準音声」におけ る数に対してこの数を比較することが出来る。このアルゴリズムにおいては、処 理用として従来のCASRが設定されるか、或いは、ピッチ周期継続期間および 音素訓練において用いられたフレームの数に関するEMアルゴリズムによって、 基準話し手又は話し手のグループから得られる音声レートが標準として定義され るべきである。これは、当該個人話し手によって用いられたピッチ周期の継続期 間および数を、基準とされた話し手グループによって用いられた数に対して正規 化するために使用できる。 * 平均音声レートに関する舌運動統計アルゴリズム 図4に示す舌運動センサ22を使用することにより、スレショルド以上の舌運 動の回数を、音声レート情報を必要とする各タイムセグメントに関して測定する ことが出来る。図16参照。このアルゴリズムは、図19に示す処理ユニット8 3におけるスレショルド検出器を簡単に使用する。毎秒当たり舌運動がスレショ ルドを超過する回数は、訓練統計を用いて発音中の音声における毎秒当たりのP LUレートに変換される。第1に、ライブラリを定義するための基準グループと 、その後で、訓練期間中のユーザと両者によって、使用されている言語‐語彙( ボキャブラリ)に適した音声がシステム内に発音される。図12及び13に示す ように、時限演習のために、スレショルドトリガの回数がカウントされる。この 場合、プロセッサ66は図19に示すアルゴリズムを含む。両者が比較され、そ して、ユーザーの舌運動スレショルド事象を基準グループと関連付ける比率が導 出される。これから、音声フレームの個数、または、1秒当たりのPLU個数を 知ることにより、アルゴリズムは、基準グループと同じ平均時限であるように、 話し手の特徴ベクトルを訂正する。当該話し手による正常な使用期間中に、任意 の妥当な音声周期の期間中におけるスレショルドカウントを調査することにより 所定の値を適用することが可能であり、更に、当該語彙(ボキャブラリ)を知る ことにより、予測されたカウントレートに対してカウントを比較し、そして、修 正が行われる。同様の統計資料を作成し、他の器官運動に使用出来る。 * 連結器官音声レートアルゴリズム 前記の2つの例から、複数のNASRを用いることによって更に複雑な決定ト リーが形成可能であることが明瞭であり、ここに、各々のNASRは、器官スレ ショルドトリガのそれ自身の統計的測定に使用し、次に、音声レート信号に関す る最終数を生成するために、統計的に平均することによって前記測定値を連結す る。 同様の音または難しい音の識別子アルゴリズム 類似音パターンにおけるわずかな差は1器官運動と関連しており、不完全に調 音されることが多いので、単一器官運動検出器は発音された類似音の間の区別ま たはほかの点では難しいワード認識問題に使用出来る。有声‐無声PLU識別に 関しては同様の手順は類似発音パターンを区別する更に一般的な方法に用いられ る。器官(例えば、舌)の異なる部分が動き、従って、所定のワードサイクルに おける個々の音声タイムフレーム(各PLUを定義する)期間中に異なる時間に 異なる強度の信号を反射するのでEMセンサを使用する正しいPLUの識別は直 接的であることが多い。例えば、図7A、Bに示す語(ワード)「saline 」と「sailing」は類似した発音であり、位置対時間として示される舌の 先端および舌の背部からのEMセンサ反射データが容易に区別可能であることに 注意すれば識別可能である。更に、例えば、混乱させる音パターン/ine/及 び/ing/に関する特徴ベクトルを含む3フォーンに関する特徴ベクトルの参 照ライブラリを生成することによって、2つの異なる音に関して音声タイムフレ ーム期間中に得られる特徴ベクトルは、ライブラリ内の特徴ベクトルと比較され 、別々に識別され、そして、図14のアルゴリズム的手順に正しい識別に関する 決定を行うために用いられる。 制限付き語彙及びワード認識単一器官アルゴリズム 1つの単一EMセンサの使用は、例えば、バンキング用の貿易ストックまたは ボンドとして特殊化された応用に用いられる制限付き語彙(ライブラリ)用とし て、カタログ受注用として、更に、航空システム予約用として特に有用である。 これらの場合には、限られた語集合に関して非常に高い正確度であることが重要 である。単一器官EMセンサは、比較的複雑な音波特徴ベクトルを補足するため に、各音声フレームに関して非常に簡単な特徴ベクトルを提供できる。例えば、 EM声門ピッチ周期センサは、例えば(8.2,3)と(9.2,2)のような 非常に簡単な2つの係数を持つその特徴ベクトルを持つことが出来る。第1のベ クトルは、EMセンサ及びアルゴリズムが、その期間中一定ピッチが測定された 3ピッチ周期により定義されたタイムフレームに亙って8.2ミリ秒音声周期を 測定したことを意味する。第2のベクトルは2つの逐次的な9.2ミリ秒ピッチ 周期が測定されたことを示す。正常化された場合、この種のピッチ情報はある特 定の母音識別を拘束する。水平レンジゲート付きEMセンサから音/t/及び/ o/に関して得られるベクトルに類似した更に複雑なベクトルは、図23A、B に示すように、唇から軟口蓋までの一列になった数個の調音器官の(正規化され ていない)位置を記述する25個の特徴ベクトル係数によって記述される。単一 器官の状態を記述するために、このデータの部分集合を使用することを選定出来 る。例えば、図23A、Bに示すビンは11、12、13内の各特徴ベクトルに おける3個の係数は舌先の動きを記述する。 これらの方法を用いてライブラリへの記憶と参照用として設計された特徴ベク トルに関しては、器官状態係数と関連している音を記述する更に数個の追加係数 が加えられる(例えば、ASCII記号及び継続時間)。更に、あらゆる認識の困 難性について記述する他の係数及びシステム制御係数が加えられる。 別の例としての特徴ベクトルは、図7からの舌顎位置データを用いて作成され 、そして、音声化された各ピッチ周期(或いは、10ミリ秒のデフォルトフレー ムタイム継続期間値)に関しては、位置の平均値(即ち、曲線からのy‐値)の 平均値を形成する。図7には音声化されたデータは示されていないので、x軸に 沿った各10ミリ秒帯域に関してy‐値を平均することによってベクトルは形成 される。この様にして、アルゴリズムは、各々の語「saline」及び「sa iling」を完全に発音することにより各タイムフレームに関して1つの係数 を作成する。この特徴ベクトルがコードブックに記憶されなければならない場合 には、例えば「sailing」のような当該ワードがコード化されることを記 述する追加係数を必要とする。更に、この音と関連する認識問題について既述す る 1個または2個の係数が加えられる。この例において、追加された係数は、当該 ワード内の個別PLUの個数が6であるはずであること、及び、CASRシステ ムにとって困難であることが既知であるPLUは第6番目であって、この情報( 6,6)に関する特徴ベクトルへ導かれることを記述する。更に、例えば、全音 声フレームの継続期間、音声の開始または終結に関する情報、及び、同様のコン トロールのような追加制御係数場所が、全システムの使用に関して加えられる。 発音されたワード「saline」「sailing」を識別するための過程 の一例として、図14に示すアルゴリズムを使用する場合には、ワード内の最終 3個のPLUが音「ine」及び「ing」を示すので、CASRが区別するこ とが難しいことをユーザーが発見するはずである。音声学者は、これら2つのワ ードを含むワードライブラリを作成する際に、当該ワードを問題語としてラベル 表示するはずである。舌に関するNASR認識装置は、「ine」が発音された 場合には、正面位置が「saline」であるものとして未知の特徴ベクトルを 識別し、そして、特徴ベクトルは口蓋に対して閉じた舌が背部位置にあることを 記述するので、「ing」が発音された場合には、当該ワードを「sailin g」として識別する。 NASR比較に関する情報を収容するためにPLUワードのCASRライブラ リに追加されるべき余分な情報単位の個数は、各器官センサによって測定されつ つある器官位置の個数にPLU個数を乗じた数である。単一器官の場合には、余 分な情報を持つために当該ライブラリ内のワード特徴ベクトル当たりただ1つの 付加情報係数が必要とされる。典型的なCASR特徴ベクトルは、現在のシステ ムにおける係数の長さが25〜40である。従って、図14に示すように、CA SRシステムをアルゴリズムにおけるNASRシステムとインタフェースするた めに1つ又は僅かな個数の係数を追加することは、困難でもなく、記憶装置サイ ズ又は処理速度に有意の負担もかけない。反対に、当該タイムフレーム内に発音 された音波単位を識別するために、CASRは複雑な統計的技法、或いは、文法 的または統語論的な技法を用いる必要がないので、余分な情報は収斂をはるかに 速くする。 NASR情報によって提供される余分な情報は、次に示す幾つかの方法で使用 される。即ち、1)正しい識別の確率を上げる。2)NASRデータはCASR 単独よりも多くのワードを更に正確に区別し、必要とする統計的処理が少くコー ドブック比較が更に正確かつ速いので所定の正確度に到達するためのCASR処 理時間を短縮する。 多重器官多重状態アルゴリズム 多重器官音声タイムフレーム 各タイムフレーム毎に多重器官インタフェース情報を獲得するように最適化し た場合、非音波式EMセンサシステムは多くの情報を提供する。図21A−C、 22A−B、及び、23A−B参照。時間の経過と共に、そして、音声器官が新 規な音声タイムフレームに関する新規な位置に動くにつれて、新規な器官インタ フェース状態(例えば、場所)は、記録、処理、正規化、量子化が可能であり、 新規な特徴ベクトルが形成される。新規な音声器官状態情報が認識システムにと って利用可能になったということ、そして、前記情報は処理して、特徴ベクトル に記憶しなければならないことを注記するためには、新規な音声フレームを定義 するための自動化されたアルゴリズムが必要とされる。この種のアルゴリズムは 次のように定義される。 1)有声音声が存在する場合には、単一器官タイムフレームアルゴリズムにお いて説明したように新規なタイムフレームは1ピッチ周期として定義される。 2)音声または器官の状態が変化しない場合には(一定スペクトル声帯皺僻運 動は除く)、多数の順次的な有声タイムフレームは、以下の基準に適合すれば、 結合可能である。アルゴリズムは、1つ又は複数のEMセンサ特徴ベクトル係数 と、前のタイムフレームから得たこれらの係数を用いて上記1)において定義さ れた改めて処理された音声タイムフレームから得られた音波特徴ベクトル係数と を比較する。識別された器官係数の任意の1つが変化した(即ち、器官の部分が 動いた)場合、及び、音波特徴ベクトル係数が事前に定義されたレベルを越えて 変化した場合、当該アルゴリズムは、既存のフレームの終了及び新規音声タイム フレームの出現を定義する。変化が一切検出されない場合には、音声フレームの 長さが1音声周期だけ増加し、そして、特徴ベクトルにおける制御係数が1だけ 増加する。過去の音声フレームにおいて求められた特徴ベクトルが現在のフレー ムにおいて求められた1つのベクトルと比較される方法を図21C及び22Bに 示す。図21Cの或る係数、例えば、ビン12における舌の接触が大きく変化し た場合には、かなりの器官運動が発生し、そして、新規な音声フレームが必要と されて、定義されたことを示す。 3)一切の有声音声が発生しない状態において、音声フレームの継続期間は、 新規な音声フレーム(例えば、有声PLU)の開始を決定するために 声帯皺僻 状態変化が調査されるということを除けば前記2)と同様に定義される。この方 法は沈黙周期も記述する。この種のフレームの継続期間は、特徴ベクトル制御係 数場所における1つの係数値として記録される。 4)他の一切の情報が利用可能でない場合には、音声フレーム当たりのデフォ ルト値として50ミリ秒が用いられ、そして、「音声の所在」アルゴリズムはシ ステム処理を未だ停止していない。システム状態の追跡、音声タイムフレーム係 数の長さ、開始または停止時間、等々を保持するためには特徴ベクトル制御係数 が用いられる。多重器官状態情報 同一音声タイムフレームにおける数個の音声器官の数個のEMセンサ状態およ び同時に記録された音波情報(必要とされる場合)を使用して形成された多くの 個別センサからの特徴ベクトルは、音声単位(PLU)識別のための更に長く更 に有益なベクトルを生成するために一緒に結合可能である。口器官状態並びに声 帯皺僻情報を記述する1つの30係数ベクトルを作るために、水平EMセンサデ ータ特徴ベクトルがEM声帯皺僻運動検出と結合される方法の例については、図 21A−C、22A−B、及び、23A−Bを参照されたい。これらの手順は、 単一器官NASRシステムに関する「制限付き語彙及びワード認識アルゴリズム 」において既に説明した手順と同様である。比較的多数の多重器官多重状態ベク トルの係数の編成は充分に計画され、正しい定数及び信号レベルを得る以前にテ ストされなければならない。これらの方法の基本的な利点の1つは、それらの方 法が、よく理解された基本物理学、音響工学、及び、各々が類似の状態において 充分にテストされた数学的な原理に基づくことである。従って、数百または数千 個もの係数を持つ特徴ベクトルの使用は、容易に定義、獲得、最新コンピュータ を用いて処理され、そして、発音される音を伴った音声器官状態の非常に正確な 識別に到達する。これらのEMセンサに基づく方法の出現によってのみ、リアル タイムに、強引でなく、安全に、そして、経済的に実行することが可能になった 。 価値のある多重器官EMセンサ測定は、写真的意味において現実の位置的場所 がある必要はないが、器官‐空気通路、器官の形状と波の共鳴、多重インターフ ェイス妨害効果、全ての器官運動、または、同様の効果に起因するEM波反射の 複雑な渦巻きであることもあり得る。これの実験例は、図16に示す声帯皺僻運 動と同時に得られた顎/舌運動データである。前記のデータは非常に有益な情報 を提供するが、顎/舌の状態は複雑な回旋状EM波‐器官インタフェース反射/ 減衰信号として獲得され、舌及び顎、及び、それらの全てのインタフェースの細 部の「写真的」または「断面写真的」映像ではない。しかし、多少直接的でない これらのデータは、観察された器官の重要な状態の特性を、例えば、FLUのよ うな、発音されている音声単位を用いて、一意的に記述する情報を提供する。こ れらのデータは、正規化及び量子化され、ライブラリまたはコードブックリファ レンス用の各音声タイムフレームをもった多重器官特徴ベクトルに形成可能であ る。音声パターンマッチングに基づく結合技法、直接的なテーブ参照、隠れたマ ルコフモデル、結合または排他的な確率技法、ニューラルネットワークモデル、 及び、テーブル索引技法の分野のエキスパートにとって既知のその他の技法を用 いることにより、各タイムフレームにおいて発音されつつあるPLUを識別する ことができる。 実例的なデータ収集及び多重器官特徴ベクトルの形成 一例として、1組のEMセンサ及びそれらの波長、並びに、パルスフォーマッ ト、伝播の方向、例えば、サンプル‐ゲート、及び/又は、ホモダイン位相のよ うな受信機の状態を適切に選定することにより、図10A−C及び11A−Dに 示す様な一連の器官位置的データがを獲得される。A/D変換、平均化、背景減 算、正規化、量子化、及び、EMデータの短期および長期記憶装置への記憶につ いては、図12、13に要約して示し、実例となる特徴ベクトルは図21A−C 、22A−B、及び、23A−Bにおいて詳細に示す。特に、これらのシミュレ ートされた事例は、発音された語(ワード)「to」に関する、主として、図4 のセンサ21と同様に水平伝播波を用いて求めた、唇から喉への反射データ対時 間(ひいては、距離)を示す。ただし、多重センサ多重器官情報のパワーを例証 すれば、そのセンサ(図4のセンサ23)からのディジタル化されたデータを図 21A−Cか図22A−Bまでに示すように、水平デジタルデータ集合のタイム ビン25から28までに配置することにより、声帯皺僻運動データはこの集合に 加 えられる。(図22Aは、/t/に関してシミュレートされたデータの後で40 ミリ秒が経過すれば、図21Bにおける音素「o」に関する調音器官はこの音の ために位置決め及び準備されるはずである。) 音声器官に設置されたEMセンサ信号を、その後の1つ又は複数の音声フレー ムから得られたデータから差し引くことによって得られる異なる特徴ベクトル表 現を図23A、Bに示す。この処理技法は、対象とされない音声調音器官データ 、並びに、背景からのクラッタを除去する。図23A−Bにおける例は、語(ワ ード)「to」におけるPLU/t/及び/o/を調音するために器官が動く場 合に得られた係数から、図21Aに示す残りの調音器官特徴ベクトル係数を差し 引くことによって作られた。記述に関するこの「差算」モードは、器官運動の方 向上の変化を示す。位置における差を、残りの信号獲得から、その次のタイムフ レームにおけるその次の器官構成までの継続時間によって除算すると(図23A 参照)、器官状態運動の速度が得られる。この種のデータは、器官運動または位 置モデルパラメータ、及び、声管調音器官位置と関連している受け入れ可能な音 素に対して強い強制力を提供する。2つの音声タイムフレームに亙る位置の変化 は、例えば、2フォーン及び3フォーンによって記述される倍のような音素対表 現を強く拘束する。例としては、その期間中一般に調音器官が継続的に動く破裂 音、流音、半母音、二重母音が挙げられる。同様に、複数のフレームからのデー タは、多重音素音声表現を拘束する。上に示した場合よりも更に複雑な特徴ベク トルは、記述的係数を加えて特徴ベクトルの長さを増大することにより、充分に 計画された方法において、同じ音声タイムフレームに関する音波特徴ベクトル、 及び、同じ音声タイムフレームに関する他のEMセンサによって生成された特徴 ベクトルから容易に形成される。逐次的な音声タイムフレームから作られるマル チ音声フレーム特徴ベクトルは、更に長い、より多くの情報を持ったベクトルを 作るために一緒に結合することが可能であり、更に、音声認識または関連応用に 適した他 の組合わせを作ることが出来る。多重音声フレーム特徴ベクトルの作成における 重要な概念は、先行フレームからの情報における変化に限って記憶する必要があ る場合に必要になる情報記憶の経済性である。 レンジゲート付き多重インタフェースデータ レンジゲート付き及び他のEMセンサデータの使用を図10A−C及び11A −Dに示した。図13及び14に示すデータを使用するためのシステム及びこの 種のデータから形成された更に複雑な特徴ベクトルの説明図を図21A−C、2 2A−B、及び、23A−Bに示す。このタイプのデータは、EM波を上方に向 かって顎、舌、及び、鼻の空洞内に方向付ける2GHzマイクロパワーレーダ送 信機および受信機ユニットから成るレンジゲート付きEMセンサによって獲得さ れた。タイムゲートは、距離に変換された時、2、3センチメートルまで正確で あった。反射及び検出された波パターンは、図24A、Bに示す「one」にお ける音/uh/及び「two」における音/oo/に関する音声調音器官の位置 決めの関数として反射されたエネルギーの様々な標示対時間(頭部への距離)を 示す。/oo/信号と比較された/uh/信号は、顎における降下の差、舌本体 の降下、口蓋までの舌本体(ブレード)の距離の増大、及び、/one/音にお ける/uh/を発音する場合の鼻音化に関連付けられる。これらの、及び、類似 のデータは、これらのEMセンサ状態を用いた異なるPLUsに関して器官反射 が異なることを明瞭に示す。各音声フレームからの信号から変化しない背景を減 じることによってデータは強化される。更に、図24Cに示すように、所定の距 離間隔のデータは、平均され、そして、「ビン」に記憶される。これらの実験及 び他の実験は、図10A−C、11A−D、13、21A−C、22A−B、2 3A−Bに示す手順を確認する。多重器官多重状態から入手可能なデータ 多重器官多重センサ法から容易に入手可能な(すなわち、信号処理をほとんど 必要としない)情報の例を表IIIに示す。これらのデータを生成するために使わ れる処理、正規化、及び、量子化手順は、単一器官正規化及びピッチ正規化に示 される。 表III−NASR(即ち、EMセンサシステム)によって獲得された音声器 官の簡素化された音声状態 これらの器官位置及び速度状態は全て一緒になって、各音声タイムフレームの 期間中に発音された50個のPLUの1つ、または、他の音波音単位へ適用され るべき数千の情報組合わせを提供する。多くのPLUは、例えば「破裂音」のよ うな「動いている」音なので、多重タイムフレーム記述を必要とする(一例は、 「dog」における/d/であり、この場合、/d/は、急速に上下する舌と顎 によって発音される)。動く音PLUカテゴリは、流音、半母音、二重母音、及 び、その他と呼ばれる。(前述のOlive参照)。利用可能な情報単位を推測 するためには、PLU当たり2つのタイムフレームの特徴ベクトル係数の平均値 を用いて、表IIIに示すように、センサからの情報の量及びそれらの許容された 値は、数百万単位を超過することが極めて簡単に算定される。ただし、表IIIに 記載済みの非常に多数の器官状態は、所定の言語において相互に独立していない ので、組合わせ数はかなり減少するが、数1000単位を超過する。EMセンサ で測定した状態の数に関するこの推定値は、一般に、各音声タイムフレーム毎に 音波センサからの特徴ベクトルとして獲得および記述される追加情報を含まない 。音波特徴ベクトルは、更に長く更に有益な特徴ベクトルを作るために、EM特 徴ベクトルに結合可能である。利用可能な情報は、あらゆる言語において、基本 的な音波音の個数を遥かに超過する。例えば、英語では、50個のFLU、25 6−512個の音波単位、2000個の英語半音節、及び、10,000個の音 節が用いられる(前述のRabiner p.437 参照)。 語(ワード)特徴ベクトルは、全語特徴ベクトルを作るために、数個のPLU 特徴ベクトルが結合されることを必要とする。これが行われる場合、利用可能な 情報は、自然の英語音声に用いられる語数よりも大きい百万単位を越える。各音 声フレームに関する音声特徴ベクトルが正確に形成かつ正規化され、そして、最 近の表探索技法を使用する場合、10,000個のコードブックベクトルのうち の1つに対するマッチングを識別することは簡単であり、そして、語(ワード) を識別するために、40,000個以上のベクトルのうちの1つに対してマッチ ングすることは簡単である。 無声の、ささやかれた、或いは、「もぐもぐ言う」音声 EMセンサシステム及び処理アルゴリズムを適切に選定して利用すれば、識別 パラメータの個数が非常に大きく、従って、各音声フレーム毎に音波出力を測定 することなしに、発音されている音波音単位を識別することが可能である。各タ イムフレーム毎に音声器官の状態に関して利用可能な情報(声帯皺僻の開/閉運 動は含まれるが、反復的なサイクリングは含まれない)は、幾つかの用途におい て有用な有限の語彙(ライブラリ)からの意図した音声単位を識別することを可 能にする。CASRシステムが作動化されていない場合を除き、図14に示すと おりのアルゴリズムを用いた場合、NASRによる識別確率が最も高い音声単位 は、認識されるとして定義される。特に、音波式CASPがNASRシステムと 共に用いられる場合、このアルゴリズムは、騒々しい状態に関して非常に有益で ある。 音声器官運動の測定は、同時音声の有無に拘わらず、特殊の用途に対して最適 化される合成言語の作成を可能にする。例えば、左右移動、前後移動、或いは、 静止することを車椅子に指令するには非常に小さい「語彙」の片言を使用するこ とが出来る。情報伝達は、舌を左右、上下に動かすか、或いは、それぞれの運動 に関して舌を口の中で安定した状態に保持することによって、ユーザーにより達 成される。この合成言語は、先ず、舌の状態に関して特徴ベクトルを形成し、そ して、関連する機械制御コマンドと共に参照コードブックに前以て記憶されてい るベクトルとこれらの特徴ベクトルとを比較することによって用いられる。識別 に際して、コマンドが実行される。同様に、急速な舌の動きは、セル式電話に電 源入れを合図するためにも使用できる。多重器官運動を使用し、人間の音声を付 随させることによって更に複雑な語彙を、特定の用途に対して、必要に応じて、 作ることができる。 ささやかれた音声(即ち、低レベル無声であるが発音された音声)を追加する ことは、低ノイズにおける用途において有用な無音状態に追加情報を加えること であり、意図する音声単位識別の正確度を向上させることが出来る。この場合、 図14に示すアルゴリズムはCASR情報を使用するが、ささやかれた音声単位 のライブラリ内の特徴ベクトルは、ささやかれた音波音声データを用いて、それ らの識別の困難についてラベル表示される。図19に示すアルゴリズムも、同様 に、音波音声の振幅がゼロ、或いは、ささやかれた音声に該当する値未満である ように設定される。 WORDS(ワーズ) 語(ワード)は、例えばPLU単位のような基本的な音波音単位の列であり、 そして、1つの語(或いは、短い句)を記述する語(ワード)の特徴ベクトルは 各PLUからの特徴ベクトルを更に長く、そして、更に複雑ではあるが依然とし て管理可能な特徴ベクトルに結合することによって構成可能である。この種の合 成された特徴ベクトルは、限られた語彙とともに使用する場合に非常に効果的で あり、更に複雑な語彙に関しても同様に有用である。NASRシステムによって 提供される追加された情報は、量質両面において、語単位の定義の大幅な改良を 可能にする。例えば、2から10個までの順次的PLUのような多重音波単位特 徴ベクトルを組み立てる方法については既に説明した。正規化、係数の量子化、 及び、多重ピッチ周期タイムフレームの定義は、語(ワード)及びフレーズ(句 )の更に大きい合成語特徴ベクトルに関して、実現が簡単である。これらの手順 は、例えばPLUのように、音波音単位の列が演繹的に既知である場合に、語( ワード)単位を定義するためによく機能する。これらの手順は、認識への応用を 含めて音声応用アルゴリズムによって参照するためのコードブック及びライブラ リを作るために用いられる。逆の問題、即ち、認識は更に難しいので、次に検討 することとする。 語(ワード)または句(フレーズ)に関する合成特徴ベクトルを生成するため の過程の一例は、順次に獲得された特徴ベクトルからの係数の端と端とを接合し て簡単にストリングを作ることである。1例としては、例えば、(8.2,3) と(9.2,2)のようなそれぞれ2つの係数を持つ「限られた語彙及び語(ワ ード)認識単一器官アルゴリズム」において記述される声帯皺僻EMセンサから の2つの実証的な特徴ベクトルを挙げることとする。音による合計5個の音声フ レームを持ち、全使用時間が43ミリ秒である1つの仮説2PLF語に関する合 成ベクトル(8.2,3,9.2,2)を作る。更に複雑な一例は、図23A) Bに示す個別の音/t/及び/o/に関する30係数特徴ベクトルを考察するこ とによって示すことができる。2つの30係数特性ベクトルを結合することによ って語(ワード)/to/に関する1つの60係数特徴ベクトルが作られる。同 様に、例えば長さがそれぞれ25係数の2つの音声フレームに関する音波特徴ベ クトルを加えることにより、そして、20システム制御係数と特殊情報係数と2 文字及びワードエンド記号に関するASCII係数とを加えることにより、語(ワ ード)「to」に関する非常に良く定義された長さ130係数の特徴ベクトルが 作られる。実験的に立証済みの第3の一例において、図7に示す顎/舌のEMセ ンサ出力を用いて約1秒の期間に亙ってそれぞれ10ミリ秒の曲線値を使用する と、1つの特徴ベクトルが構成される。これにより、各々の語(ワード)「sa line」及び「sailing」に関する1つの個別の100係数ベクトルが 作られる。冗長情報を除去するために、この種の長いベクトルを簡素化するため には、「低速変化」特徴ベクトル定義、係数正規化と量子化、及び、タイムフレ ーム特徴ベクトル係数差生成を含む幾つかの方法が利用可能である。 語(ワード)の開始と停止の問題はNASRシステムによって自動的には解決 されない。語(ワード)遷移の識別は、例えばPLUのような音波単位列の識別 を越える追加情報が必要である。本手順については、例えば前述のRabine rの著作のような音波式音声認識に関する参考文献に記載されており、参照事項 がここに含まれる。ただし、NASRシステムの正確度及び正規化能力のために 、ユーザーは、次の語(ワード)を開始する事象を援助する際に使用する更に多 く の「キュー」を持つ。NASRシステムから入手可能な多くの追加情報を同時の 音波及び声声コード運動データを示す図25A−Hに示す。図26A−Dは、図 4における4個全てのセンサを示す。上記両方とも、男性の話し手が次の文を話 した場合である。即ち、「The quick brown fox jump ed over the lazy dog’s back.」を話した場合で ある。同時音波及び声帯皺僻停止、エンファシス(即ち、韻律)変化、PLU分 類、語(ワード)の開始と停止、音声前声門緊張、及び、声帯皺僻率遷移を含む 既に説明した多数の特徴の例を示す。図25A−Hは、異なって発声された音、 /f/、/b/、/p/、語(ワード)分離、休止、及び、他の現象に関する無 声開始に関するピッチ変化の効果を明瞭に示す。 それにも拘わらず、非音波EMセンサデータは、複数の話し手が一緒に語を発 声する状態を明瞭に示し、そして、このような状態はNASRシステムによって は自動的に識別されない。ただし、特性EMセンサ信号変化は、PLU開始と停 止を表示する全ての音変化に関して常に観察される。結果として、これらの方法 のユーザーは、音波単位の間の非常に良好な目印をを持つことになる。第2に、 各PLU変化を定義する能力は、しばしば一緒に話される長いストリングを逐次 的に解析することを可能にするが、明瞭に定義済み、正規化済み、及び、量子化 済みの特徴ベクトルは多重語(即ち、句)ライブラリに対してテストを行うため に使うことを可能にする。更に、綴語法、文法、及び、構文規則発生器は、CA SRシステム用、相互に分離して一緒に話される語用として使用可能である。特 に、不完全、或いは、調音の随伴状態、及び、情報の冗長度を発見することの出 来るNASRシステムの能力は、一緒に話されるが不完全に調音された音素を識 別するための新規で重要な手順を提供する。従来の音声認識と関連した語標示 限られた語彙の非常に高正確度における認識が応用されるような多くの用途が ある。例としては、金融上の取引、及び、航空券予約が挙げられる。この種の状 況において用いられる語彙は一般に1000語(ワード)以下である。現在の音 波プロセッサは、話し手が明瞭かつ明確に、雑音の低い環境において、話すこと を要求することによって、これらの語彙を用いて機能する。新規データ集合の誤 り確率は、許容誤り予定値を決定する際の音波情報の確率と結合させることがで きるように、測定に際して音波データから統計的に独立している追加情報が必要 とされる。受け入れ可能な品質は、人間の音声様であって、10,000語にお ける1つの誤りであるものと定義される。限られた語彙集合におけるこの品質は 、選定される語(ワード)に非常に強く拘束されるセンサの組合わせを使用し、 同時に獲得された音波データを使用し、残りの些細な問題を訂正するために綴法 、構文法、及び、文法訂正装置を使うことによって達成可能である。 図14に示すアルゴリズム的決定過程は単一PLUを記述する特徴ベクトルに 関して説明したと同様の方法において多重PLU語特徴ベクトルのために使用出 来る。ライブラリは、ユーザー又は基準話し手により、実際の応用に対して同じ 集合のEMセンサを使用して、限られた語量に関して必要とされる全ての語(ワ ード)特徴ベクトルから組み立てられる。訓練された音声学者は、限られた語彙 の中から、高い確率を以て識別することが困難であることが既知であるか、或い は、不用意に発音された場合に不適当に調音されるはずであることが既知である 語(ワード)にラベル付けすることができる。これは、1000語以上がシステ ム内に発音され、その後で処理され、必要に応じて正規化され、音声学的にラベ ル表示され、そして、ライブラリ(記憶装置)内の既知の場所に記憶される。図 14に、続いてアルゴリズムを示す。従来の認識装置、CASRは、最も近い語 特徴ベクトルまたは幾つかの特徴機能ベクトルを、入来する特徴ベクトルパター ンが当該ライブラリ内のベクトルに統計学的にどのように近いかによって、その ライブラリから識別する。ただし、このライブラリは、或る特定の語が識別困難 であり、全体の認識確率を改良するためには追加的なNASR識別確率を必要と すると言う情報をCASR識別子と共に含む。NASR認識装置は、音声タイム フレームからの情報について相談され、そして、(統計的意味において)CAS R及びNASRの両方に適合する多重音単位特徴ベクトルが選定される。 定義された語彙の問題に関して用いられる図14のアルゴリズムは、一方はC ASRに適合し、もう一方は2つ以上のNASRに適合する2組のデータを用い る。語の定義と識別は、予測されるNASR妥当性検査基準を参照する情報を有 する拡大されたコードブックを用いて、先ずCASRによって行われる。各語に 関するNASRデータ集合は幾つかのタイプの情報を含むことができる。PLU 特徴ベクトルの全てのシリーズから組み立てられた多重係数語特徴ベクトルにつ いては既に説明したとおりである。 非常に簡単なアルゴリズム的手順は、個別のPLU単位および後続する合成特 徴ベクトルを形成するためにEMセンサデータを使用しないことになっている。 その代りに、NASR語のライブラリは、固定した時間過程または時間帯域を用 いて、測定された器官状態対時間を記憶することによって、特殊の特徴ベクトル を形成するような「Words」の下で組み立てられる。このアルゴリズムは、 音「sailing」及び「saline」に関して図7に示すデータを用いて 実演された。この手順を使用する1つの方法として、(例えば)10ミリ秒の音 声タイムフレームインタバルに亙って、EMセンサデータが数字化され、平均さ れ、正規化され、そして、量子化され、更に、各10ミリ秒データ集合に関して 記憶装置「ビン」に記憶される。この過程は、訓練語の始めから終りまで継続し 、そして、(最大継続期間が0.5秒の語に関して)長さな50構成要素のベク トルが形成するために用いられる。比較的短い語に関しては、標準ベクトル内の 多 くの構成要素はゼロであり、比較的長い語に関しては、比較的長い標準ベクトル を使用可能である。 このアルゴリズム的語及び句技法の改良には、器官状態及びピッチレートと共 に自動音声フレーム生成と音声レート正規化の使用が含まれる。更に、ベクトル の長さは、1番目の特徴ベクトル係数を決定するために音声アルゴリズムの開始 を使用し、そして、ライブラリ形成段階における最後の係数を定義するために音 声アルゴリズムの終結を用いることによって、自動的に定義可能である。 全ての事前定義済み時間間隔に亙って量子化され、平均され、そして、記憶さ れるデータの他の例を図27に示す。この図は、話し手が2つの語「sixte en」および「sixty」を発音する際に同時に感知された音波的舌‐顎の位 置および声帯皺僻運動を示す。この例に関して、50個の要素で構成される長さ 0.7秒の語に関するベクトルが用いられ、そして、センサデータは15ミリ秒 毎に平均された。舌‐顎センサは、語の間の差を容易に感知する。比較的長い「 sixteen」という語の場合には、舌‐顎信号は、「sixty」の場合よ りも長く高く留まる。「sixteen」における「een」音は、語「six ty」におけるよりも明瞭に示され、そして、「sixteen」に関する特徴 ベクトルにおける更に順次的な係数は、「sixty」におけるよりも一層類似 した値を持つ。 2つの語「sixty」と「sixteen」とを区別することは、金融取引 において非常に重要である。ただし、これら2つの語(ワード)は、金融取引用 に最適化された従来の音波式認識システムによって相互に混同されることが多い 。これとは対照的に、語(ワード)「sixty」と「sixteen」は、こ の音声式認識を応用する際にしばしば用いられる例えば「dollars」及び 「bank」のような語と混同されることはなく、CASRは良好に機能する。 音波的に類似した音として発音される2つの語「sixty」と「sixtee n」とを区別するようにCASRを「助ける」ためには、余分な情報をほとんど 必要とせず、結果的には、正確度において非常に向上する。類似の音として発音 される語(ワード)或いは「困難語」において、この種の語を相互に区別するた めには、通常、わずか1つの比較的短い情報セグメントがある。前述のRabi nerの著作p.291参照。特徴ベクトル係数正規化技法及び音声周期正規化 技法を使用すれば、差異を示すこれらの短い片(セグメント)がパターンマッチ ング用に利用可能であるので、個々の個性的変動を除去することを助ける。 要約すれば、全ての語記述ベクトルは、順次的音声タイムフレームからの一連 の特徴ベクトルから作成可能である。合成ベクトルは、ポストプロセッサモード において、100語未満から10,000語以上までに亙る語(ワード)を含む 語彙内の該当する語以外の語に関する既知のべクトルと比較可能である。即ち、 従来の音波式音声認識システムが決定した後で、図14に示すように前記決定の 妥当性を確認するために前記決定はEMセンサワードデータに対して比較される 。許容される確率で確認された場合には、その語(ワード)は、認識済みとして 受け入れられる。確認されなかった場合には、CASRシステムによって限定さ れた(ただし、一意的でなく識別された)語の部分集合から区別するためにEM センサによって生成されたデータ集合を用いて最良の推測が実施される。この種 の音波的に混同される語は、一般に、限定された前記集合における語内の1つか 2つの発音が類似する音によって混同されるに過ぎないので、EMデータは、高 い確率を以て、正しい語の選定を容易に可能にする。このアルゴリズム的概念を 数百数千の有用にサイズ決定された語集合にまで拡張することは簡単である。 話し手の識別 NASRシステムが備えている発音された音声の期間中に音声タイムフレーム 及び関連特徴ベクトルを正確に定義する能力は、このシステムを使用して話し手 を識別するために特に有益である。この場合に使用するアルゴリズムは、僅かな 修正を加えただけで、単一器官正規化及びピッチ周期正規化の場合と同じである 。正規化アルゴリズムにおいて、話し手識別のために使われるように、基準話し 手は、当該所有者または識別されるために指定された人であることが定義される 。ある程度事前に、識別された人は、一連の訓練句をNASRシステム内に発音 するように要求され、それによって、当人の特徴ベクトルのライブラリが形成さ れた。この種のライブラリは、例えば音素のような分離した音から作成すること が出来るが、例えば当人の名前またはパスワードのような更に高位の多重音単位 及び句(フレーズ)を使用すれば、一層改良された認識が得られる。 システムは、ユーザー(或いは、詐称者)に特定のパスワードを発音するよう に要求するか、或いは、識別多重音単位がその中に含まれる言語片(セグメント )を発音するように要求することによって動作する。標準非音波式処理は、既に 説明した方法によって実施され、そして、標準ピッチ及び特徴ベクトル正規化手 順(使用される全ての器官センサに関する)が実施される。アルゴリズムは、こ の段階で正規化及びマッピングから分岐し、その代りに、訓練集合音単位及び参 照ライブラリにおけるこの種の単位に関する各音声フレームの特徴ベクトル係数 の間の差が形成される。次に、アルゴリズムは、各係数値の差を2番目の(並列 作成された)特徴ベクトルに記憶する。識別参照ライブラリを形成するために利 用された人と話し手が同一人である場合には、差特徴ベクトルの係数値は小さい はずである。識別度を測定するには、先ず、2番目の特徴ベクトルにおいて、テ スト値として使用するために最も重要な係数を選定する。次に、これらの係数の 各々の値を二乗し、全ての平方値を合計する。その後で、差の測定合計値を求め るために、アルゴリズムは平方値の合計値の平方根を求める。この値が事前に設 定された閾値以下であれば、識別は受け入れられる。前記の値が閾値以上である 場合には、識別のためのこの試行は拒絶される。遷移状態にある場合には、当該 シ ステムは、再試行のための追加情報を要求することが出来る。 識別語彙のために用いられる特徴ベクトルのタイプは用途に応じて選定される 。特別高度の警備システムに関しては、ユーザーの音声調音器官の拡張、話し手 の音声周期の継続時間、音声単位の継続時間、及び、多重音パターンを測定する 特別な語(テストワード)及び句(フレーズ)が選定される。そして、音声単位 の間の器官速度が測定され、同様に、特徴ベクトルに記憶される。低値の用途に は遥かに簡単なシステムを使用することが出来る。比較手順及びデータ選定過程 は実質的に無視出来ず、特にEM信号は発生器によってユーザーへ無作為に送信 可能であり、これらの信号は事前に記録したデータを用いてシミュレート出来な いので、NASR話し手識別システムは非常に有益である。 大きいワードボキャブラリ(語彙)、自然音声アルゴリズム 名前と技術用語が含まれる場合、自然な英語音声においては60,000語( ワード)以上が用いられる。英語および他の言語において用いられる異なる60 ,000語を容易に区別するために、データは、多重EMセンサ及び関連処理ア ルゴリズム(即ち、NASR)から入手できる。サンプル採取時間、及び、全ワ ードタイム期間中(PLU間の休止を含めて)において利用可能な追加情報収集 時間を利用すること、および、音波式認識技法を用いることによって、1タイム フレーム当たり必要とされる情報の数倍の量の情報が語(ワード)識別用として 利用可能である。これらの語(ワード)識別ベクトルは、EMセンサシステムと アルゴリズム、及び、音波センサとそれらのアルゴリズムとの組合わせによって 生成可能である。現実の表検索技法(即ち、コードブックまたはライブラリの検 索)は、コードブックスペースにおける直接的な音声的検索、隠れたマルコフモ デリング、ニューラルネットワークモデル、及び、その他既知の統計的技法を用 いて、達成可能である。正確かつ正規化済み特徴ベクトルを使用すると、特徴 ベクトルの直接的な識別のために、直接的なライブラリ探索アドレスとして、ベ クトル係数を使用することを可能にする。 結論 本発明は、音声認識、音声合成、話し手識別、音声人工補綴、音声訓練、音声コ ード化、音声同期化、及び、音声電話のための音波音声出力と協調して、人間の 音声器官から散乱される(即ち、反射、及び/又は、減衰)電磁(EM)放射を 利用する音声特性記述方法である。本方法は、正常に発音された音声、ささやか れた音声、及び、無音音声交信、例えば、ゼロ音波ではあるが「口を動かした」 出力を含む音声器官の使用と関連した全ての人間的交信(意志伝達)への応用を 含む。本方法は全ての人間の音波的言語に関して使用可能である。本方法は、例 えばイルカの声のような有益かつ改良された動物交信を理解および実現するため に有用な音響情報と共に非音波的情報を獲得するために動物の音声構造の運動が 利用される全ての動物交信にも使用される。 本方法は、EM放射器官状況検出器と組み合わせた、話し手の口、鼻を通るか 、或いは、喉を通る音波放射によるか、或いは、話し手の身体の他の部分を通る 話し手の音波出力を検出するための音波マイクロホンの使用を含む。測定される 情報は、各サンプル採取期間中の音圧または音の強さを含む。幾つかのサンプル タイムに亙る音響強度の測定により、周波数の測定値、ゼロ交差時間、時間間隔 当たりのエネルギー、セプストラム係数、及び、人間の音波音声に関する他の周 知の特性は、周波数変換方法を用いて求めることが出来る。 本方法は、EM波センサを用いて、人体の組織の音波振動を検出するEM音波 マイクロホンからの情報を利用することが出来る。この種のEMマイクロホンの 間接的な性質の故に、前記EMセンサユニットに対する当該個人の周波数レスポ ンス関数を求めるには調節過程が必要である。受信した信号を一旦このレスポン スに関して補正してしまえば、音波情報処理方法は、音波マイクロホンに関して ここで説明した方法と同じである。 本方法は、音波測定を用いた、あらゆるEM波の生成、送信、及び、検出シス テムの利用を含む。前記システムには、皮膚の第1表面に浸透し、同様に、第1 皮膚‐空気表面から反射するRF、マイクロ波、ミリメートル波、赤外線、或い は、可視波レーダが含まれる。本方法は、非放射モード、放射モード(即ち、レ ーダ)、或いは、非放射/放射混合モードにおけるこれらの利用を含む。本方法 は、あらゆるEM波のコヒーレント或いは非コヒーレント生成及び検出の利用、 及び、空間的な場所的及び時間的に変動する情報を得るためのタイミングの利用 を含む。放射(即ち、レーダモード)を利用する例には、人体組織‐空気、組織 ‐骨、または、組織‐組織インタフェースから、或いは、音声処理過程中に放射 を散乱する人体の部分のあらゆる他の構成体から反射されたEM放射の検出と記 憶のためのレンジゲート付き受信システムの利用が含まれる。この方法は、EM 波が人体内で進行するにつれて、不連続性によって減衰および反射される送信E M信号と受信EM信号との間の時間を測定することによって音声器官インタフェ ースの位置および存否に関する情報を提供する。後続EM放出によって測定され た減衰または反射率の変化は、時間経過情報を伴うか或いは伴うことなしに、イ ンタフェース運動に関する情報を提供する。EMパルスの反復的生成および検出 により、この方法は、話し手の音声器官が話し手の音声サイクルを介して進行す るにつれて一連の音声器官状態情報を提供する。この種の一連のEMパルスは、 音声の音波測定、或いは、認識、電話、及び、他の用途のために記録することを 目的としてコード化および処理される音声器官状態の他の測定と同時に時間的に 順序付けることが出来る。この方法に関する変形(バリアント)は、送信された 各パルス列が到達した全ての器官インタフェースからの反射および減衰を(1ま たはゼロレンジゲートを用いて)測定し、そして、後続パルスが送信および受信 されるにつれて、タイムフィルタを使用することである。器官反射率の変化は、 器官状態が変化するにつれて変化の時間表示(タイムシグネチャ)によって分離 される(例えば、場妨害レーダ)。 この方法は、EMスペクトルの可視領域またはIR近傍領域における、結像テ レビカメラが感応し、そして、音声認識に補助的に使用される唯一の皮膚‐空気 表面から散乱した非干渉性EM放射を使用しない。本方法は、例えば、唇の開閉 と関連した「b」のような或る特定の音声音素の音波認識において補助的に使用 される可視唇形状解析において、この種の放射を利用しない。本方法は可視およ びIRスペクトル情報を含むEM放射を使用する。この場合、前記の可視および IRスペクトル情報は、皮膚に浸透し、そして、内部の組織、骨、空気空洞構造 を貫いて、同時性の音波情報と共に伝播することによって前記1番目の皮膚‐空 気表面並びに内部表面の両方から散乱される(即ち、反射し、そして、減衰され る)。 本方法は、音波情報と共に干渉性モードEM送信/受信システムを使用する。 この場合、受信波の位相は、線形または非線形様式において、記憶されている送 信波の位相と、或いは、例えば、ホモダイン、ヘテロダインのような他の局部に 生成された位相情報と、或いは、他の「干渉計的」干渉検出技法と比較される。 これらの方法は、標的と送信機アンテナとの距離がEM波長の個数によって定義 される程両者が接近している場合に使用される器官状態検出システムにとって特 に有用である。これらの検出方法は、タイムゲートされる位相または波長の変化 を伴うか、或いは、両者を同時に伴った順次送信を用いることが出来る。これら の干渉モードにおける方法は、アンテナ様構造の近距離場において、中間距離場 において、及び/又は、放射性遠距離場において作動するEM波センサを用いて 実現可能である。 本方法は、1つ又は複数のEM送信機及び受信機から成るモノスタティック、 バイスタティック、マルチスタティック反射、散乱(例えば、側方、前方、また は、後方への散乱波)システムを使用する。前記システムは、人間の音声システ ムにおける誘電性、及び/又は、導電性の不連続性によって音波情報と共に反射 されるEM波を生成する。本方法は、音声器官状態情報(個々の、或いは、他の 器官に関連した器官位置を含む)を獲得するために、単一、多重、または、スイ ープされた周波数EM送信‐受信システムを使用する。この場合、前記システム は、器官の次元、或る1つの器官内または諸器官の間の不連続性の位置、及び、 EM波の散乱強さに関係のある情報を提供する。この方法において、適切な波長 のEM波は、1つのインタフェースから反射し、そして、他のインタフェースか ら反射するEM波に干渉的に加わる。強め合う干渉の場合においては、波の振幅 の和の平方と関係する非常に大きい反射が検出される。同様に、反射波の振幅が 弱め合うように干渉する場合には減少した反射が起き、検出された反射は打ち消 され(或いは、減少し)、更に強い順方向の伝播波に導く。この種のEM波によ って伝達されて受け取られた情報は、同時に測定された音波情報と共に記録され る。本方法は特定の音声器官または器官インタフェースの状態を決定するために 、音波情報の測定と共に、EM放射を方向づけ、そして、集束するための特殊ア ンテナ構造を用いる。本方法は、1番目の皮膚‐空気インタフェースにおける反 射を最小限にするためにインピーダンス整合装置を用いる。本方法は、正確度を 上げるため及び空間集束のために波が皮膚に遭遇する以前に波の伝播を減速する ための誘電体材料を使用する。更に、本方法は、該当する角度からの音声生成に 用いられる器官の状態を確認するために、複合アンテナを備えたEMセンサ、送 信‐受信両ユニットを備えた単一パッケージEMセンサ、並びに、頭部、首部、 または、上体に沿うか、或いは、その周りに配置される受信機ユニットから分離 されたEM波送信機ユニットも使用する。本方法は、例えば自動車のダッシュボ ードのような他の構造体に取付けられたセンサを有することができる。更に、本 方 法は、「グリント」すなわち目標器官または器官インタフェースからの干渉共鳴 を利用する技法も含み、そして、本方法は、話し手の頭、首、又は、上体に対す る送信機‐受信機アンテナの相対位置の変化に関連して変化するEM散乱感度と 関連した感度を除去する方法を含む。この方法は、例えば、オン、オフ、ゼロ入 力状態タイミング、及び、音波の同時受信(経過時間修正付き)、或いは、他の 検出器を含むEM波の生成及び検出時間を決定する制御ユニットを使用する。本 制御方法は、EM波の送信周波数およびパルスパケット継続時間の設定、当該シ ステムにおける全ての構成要素のマスタータイミングの決定、受信レンジゲート タイミングの決定、受信時間当たりの送信パルス数の決定、平均化または他のノ イズの減少、電子的に記憶されたパルスの電圧レベルのA/D変換の制御、平均 化の量および受信EM波の前処理のタイプの設定、後続するアルゴリズム的処理 および使用のための一時的または長期的記憶場所への前処理済み情報の配置を含 む。この制御システムは、アナログ、デジタル、2つのタイプの混合であっても 差し支えなく、また、回路基板またはチップ上の制限された場所に所在しても差 し支えなく、或いは、分散配置されても差し支えない。 この方法は、音声の事前に定義されたタイムフレーム期間中における音波信号 の「特徴」並びに測定された器官の状態の「特徴」を正確に記述する情報の効率 的なベクトルを作るためにデータ処理システムを用いる。これらの特徴にはタイ ミング情報が含まれる。音波特徴ベクトルとEM特徴ベクトルは、初めに、別々 に作成され、その後で、アルゴリズム的手順によって結合しても差し支えない。 この方法は、定義「特徴ベクトル」を生成する目的を以て、例えば結線された状 態において事前記憶されるか、或いは、ソフトウェアに記憶された命令としてR OMに配置された命令またはアルゴリズムの集合に従って、EM情報および音波 情報を処理するための手段を使用する。この方法は、当該技術分野において「訓 練期間」として公知である期間中にこの種の特徴ベクトル情報を電子ライブラリ に記憶する手段を使用する(同様に、音声技術におけるエキスパートには、ライ ブラリはコードブックとして公知である)。本方法は、一連の処理期間中におい て事前に記憶されたライブラリ情報にアクセスする手段、長期記憶装置またはコ ンピュータ記憶システムに処理済み情報を記憶する手段、時間の進行につれて処 理済み音声情報を他のシステムまたはサブシステムに伝送するための手段、音声 処理が展開するにつれて、導出されるか又は未加工の情報を視覚化するか、或い は、音波的に音にするための手段を使用する。 本方法は、話し手によって放出された一連の音圧がゼロである状態、或いは、 強度が正確な検出レベル以下である状態、即ち、意図した音声の器官運動自体が 話し手による交信(意志伝達)の有効水準を決定するために十分に正確である状 態の下において実施可能である。この方法は非常に騒々しい環境において使用可 能である。音声と関連した他の関連信号は、存在することが可能であり、そして 、話し手からの音声単位を定義するためにEM信号データと共に使用可能である 。この方法は、送信及び受信されたEM情報と共に、音声器官運動及び音声形成 、音声器官システムデータを提供する超音波音結像システムの同時記録及び使用 、同時ビデオ信号情報の使用、及び、空気流情報の使用と関連した皮膚電位の同 時記録を含む。更に、本方法は、例えばマイクロビームX線ユニット(音声器官 への金属製取付け具を使用するか、或いは、使用しない)、磁気共振結像ユニッ ト、植込まれるか、又は、接着された電気コイル、又は、音声器官に取付けられ た磁石から得られる信号を用いる磁気位置検出器、並びに、音声システム内の歪 みゲージ、導電材料、光学結像機器、及び、気圧または流量ゲージのような侵入 的技法によって得られる情報とEM散乱の関連付けを含む。 更に、本方法は、1つ又は多くの音声器官インタフェース、または、器官本体 の状態を決定するために、音波情報とEM派生音声器官インタフェース速度情報 とを同時に使用する。速度情報を獲得するためには、2つ以上の器官位置測定値 が獲得されなければならない。速度は器官位置の差を測定の時間差によって除算 することによって導出される。(男性の)声帯皺僻の開閉サイクルに際して起き る数ミリメートルの運動に対応する一般的な音声器官運動サイクルは10ミリ秒 であり、舌先は20から100ミリ秒間に1cm動き、顎の上下運動1cmは0 .1から0.5秒の間に行われる。EM送信‐受信システムは、器官運動のサイ クルよりも1,000倍以上速い最大毎秒数百万回の割合で情報を獲得するので 、音声器官インタフェース速度情報は、当該器官インタフェースの重要な運動よ りも速い速度において容易に獲得できる。全器官の平均速度または特定の器官イ ンタフェース場所の詳細な速度は全て貴重であり、その測定方法は当該専門家に より用途に応じて選定される。当該器官が移動し、そして、音素音生成またはす ぐ後で発声される音素の生成のための位置まで引っ込むにつれて音声器官速度は 符号が変わるので、この種の情報は特に価値がある。従って、速度ゼロ交差は正 確かつ価値のあるタイミング情報を提供する。本方法は、速度情報の場合と同様 に獲得して使用される加速度データを生成する2つ以上のタイムフレームに亙っ て速度変化を測定することが出来る。 本方法は、音声処理を目的として、同時音波情報と共に、音声器官の特定イン タフェース位置情報、音声器官本体の平均位置情報、及び、音声器官インタフェ ース速度、及び/又は、器官本体の平均速度情報の組み合わせを、これらのみに 限定されることなしに利用する。 本方法は、音声器官位置情報と共に音声器官速度情報を使用することが出来る 。この場合、有益な非音波通信または音声器官状態測定値に関しては音波信号強 度はゼロである。本方法は、音声器官位置情報と共に音声器官速度情報を使用す ることが可能であり、この場合、有益な非音波通信または音声器官状態測定値に 関しては音波信号強度はゼロであるが、他の(例えば、磁気、ビデオ、空気流) 同時記録される音声器官の記述的情報は、話し手からユーザーへの有益な通信の た め、或いは、当該音声器官の状態測定のために利用可能である。 本方法は、定義された単一音声時限フレーム期間中、或いは、定義された一連 の時限音声フレームに対して、声帯皺僻の位置、及び/又は、速度に関する「特 徴」ベクトルを作成する。これらの特徴付けられたベクトルは、話し手の励起関 数のピッチ周期を獲得するために、1つの単一期間および複数の期間に亙って解 析可能である。これは、EM波伝搬路の方向、周波数、及び、次元を適切に定義 し、そして、1つ又は幾つかの類似周期に亙る時間領域技法または周波数領域技 法を用いて反射、及び/又は、減衰された戻り信号を解析することによって達成 可能である。 本方法は、個人の音声の位置的及び時間的特徴ベクトルを「正規化し」、そし て、それらを、基準化された個人または個人のグループの特徴ベクトルに(例え ば、当該言語の平均的話し手に)一意的にマップする。この方法は、必要に応じ て、使用中の1組のEMセンサに関する当該個人の音声調音器官の振幅レベル、 位置‐限界、速度‐限界、及び、タイミング‐限界を決定する1組の語(ワード )を発音するように当該話し手に対して要求することによりアルゴリズムを訓練 することを含む。次に、本方法は、測定に際して当該話し手の調音器官の状態と 関連付けられる各EMセンサ信号からの1対1通信を、基準化された(即ち、通 常の)話し手の初期測定から得られたEMセンサ信号値に割り当てる。更に、当 該調音器官状態が所定の帯域内にある場合には、正規化済み信号は、認知された 音の不変性を反映する帯域へ量子化されることが可能である。次に、この方法は 、これらの正規化済み、及び、量子化済み信号を、測定中の1つ又は複数のタイ ムフレームに関する1つの正規化済み特徴ベクトルとして記憶する。 本方法は、定義済み時限フレームにおいて、または、定義された数個のタイム フレームに亙って、有声音声、または、無声音声、または、音声雑音または背景 雑音が発生したかどうかを決定するために用いることが可能である。本方法は、 音声化されるか、或いは、音声化されない音素の開始によるか、或いは、所定の 音声時限フレーム期間中または数個の定義済みタイムフレームに亙る声帯皺僻運 動、周囲の声門組織、または、他の器官運動の前兆に注意することによって、音 声開始を定義するために使用することが出来る。同様に、この方法は、音声化さ れるか又は音声化されない音素、外部雑音妨害の存在、及び、休止の終結を決定 することが出来る。 本方法は、「声門閉鎖」の音声セグメントの存在、従って空気流の終結を決定 するために使用できる。本方法は、所定の音声時限フレーム期間中における音声 化の終結を、反復的な声門運動の終了として示す。同様に、無声音声の開始時に おける声門の開放の決定が可能であり、そして、音声化されない音声から音声化 された音声への遷移を測定することが出来る。本方法は、時間領域または周波数 領域技法を使用して2つ以上の有声音声周期タイムフレームから得られる声門組 織位置または速度情報を用いることにより、有声音声通話のピッチ又はピッチの 変化を決定するために使用可能である。 本方法は、例えば、緊張度、共鳴振動数、コンプライアンス、質量、ばね定数 、面積対散乱強度、及び、声帯皺僻システムの音波的、機械的、および、EM散 乱モデルにおいて用いられる他の周知の定数のような個々の話し手の特性を定義 する基礎的な機械、音波、そして、流体流情報を獲得するための、EMシステム 、及び、声門の組織構造(声帯皺僻を有する)に関する特定のEMセンサ及びア ルゴリズムの使用を含む。本方法は、時間領域または周波数領域技法を用いて数 個の音声時限フレーム期間中において定義済みの状態からの変化(ゼロ変化を含 む)、及び、声門組織の位置、及び/又は、速度の反復的状態の両方を記述する 「特徴機能ベクトル」を生成することを含むことができる。3つの方法を次に示 す。(1)各タイムフレームが必要な係数を生成する度に、所要の器官位置のデ ィジタル化された位置または速度(開口部の平均位置を含む)を記録する。(2 )数 学関数(例えば、テイラー級数またはLPC級数)と共に記録された特徴ベクト ル係数を用いて、数個のタイムフレームに亙り、器官位置の運動を近似させ、そ して、「特徴ベクトル」における数学関数の係数を使用する。(3)タイムフレ ームに亙って時間的に変化し、しばしば反復的な係数の運動を、「特徴ベクトル 」を定義するために、定義済み個数のフレームに亙って、フーリェ(又は、類似 の)係数を使用することによって近似させる。 本方法は、声帯皺僻に適用するように、軟口蓋にも適用可能である。本方法は 、軟口蓋の閉鎖程度を決定することによって鼻音化された音声が定義済み時限フ レームにおいて発生したかどうかを決定するため、そして、軟口蓋の特徴ベクト ルを顎の位置、及び/又は、速度のモデルに関連付けるため、そして、所定の時 限フレームの期間中において鼻通路の背部と接触する軟口蓋を記述する特徴ベク トルを生成するために使用することが出来る。 更に、本方法は顎にも適用可能である。顎および定義済み時限フレームにおい て発生した開いた口の容量の変化は、例えば「eh」または「ah」のような単 一管または二管音素の存在を定義するために使用可能である。例えば「b」「p 」のような「破裂音の」子音、または、例えば「ma」、「me」、「my」、 「bo」、「ba」のような速い子音‐母音パターンの存在は、音声タイムフレ ーム期間中における顎の位置または速度の変化を測定することによって決定可能 である。 更に、本方法は、舌本体、及び、舌の部分の平均場所または速度における変化 を個別的に含み、特に、舌先、本体中央上表面、後方上表面、及び、上表面の横 方向の曲線を含む舌にも適用可能である。本方法は、定義済みの時限フレームに おいて口の最後部と舌の接触が発生したかどうかを決定するために使用可能であ る。 更に、本方法は、唇及び他の音声器官、音声空洞空気容量、及び/又は、定義 された1つの単一音声フレーム期間中或いは複数の音声フレーム期間中において 話し手の音声の品質の定義に参加する空気通路にも適用される。他の器官状態の 例には、肺の容量および声門の開口部を通る空気流量を定義する隔膜運動も含ま れる。空気通路測定の例には、肺の寸法、咽頭、声門後通路、鼻の容量次元、洞 次元、顎と舌とを緩めるか、開くか、閉じた状態における口の容量、及び、ベリ スポート(velicport)の次元が含まれる。本方法は、器官または通路のインタ フェース又はインタフェース速度の平均場所、或いは、インタフェースの接触の 変化を決定するために使用できる。 本方法は、空気通路結合部、通路次元、音声化の状態および周囲のインタフェ ース及び壁状部分の速度状態、及び、例えば口、軟口蓋、声門のような小穴の閉 鎖状態、及び、所定の音声タイムフレームに対する舌‐口蓋状態を含む話し手の 全声管構造をユーザーによって定義される程度に決定するために1つ又は複数の 特徴ベクトル又は音声器官状態を使用することを含む。 本方法は、EM情報及び音波情報から得た要素を用いて、音声タイムフレーム インターバルに亙って、部分或いは全音声管特徴ベクトルを記述するために使用 することが可能である。更に、本方法は、検討対象とされる1つ又は複数のタイ ムフレームインターバルに亙って、音声要素に関して、話し手の音声励起源及び 管構成の状態を記述する周知の音波モデルパラメータによって新たな特徴ベクト ルを定義することも可能である。更に、本方法は、一連の音声タイムフレームイ ンターバルに亙って励起関数のゆっくり変化する音単位状態(ゼロ変化を含む) 及び声管状態を記述する1つの単一特徴ベクトルも記述することができる。 本方法は、例えば、平均化されるか或いは個々の米国男性、女性、または、子 供、或いは、米国英語における典型的な方言を話す外国人話し手、或いは、異な る性または年齢の他の言語の話し手のような以前に定義済みの公知のタイプの話 し手との差異を各ベクトル要素に関して記憶することにより特徴ベクトルを記述 することを含む。この方法は、音声修正、音声支援、及び、音声教育のためにこ の種の情報をディスプレイすることを含む。 本方法は、話し手識別のため、及び、識別の統計資料を提供するために特徴ベ クトルを既知の人に関する記憶されている情報と比較することを含む。この場合 には、数個のタイムフレーム単位、分離されたタイムフレーム単位、或いは、蓄 えられる所望の話し手の識別に関する記憶されている情報が事前形成されたライ ブラリから利用可能である場合にこの種単位の列に亙ってこの種の比較を自動的 に実施することも含まれる。本方法は、定義済みの語集合に関する話し手の個性 的な特徴ベクトルパターンを記録するか、或いは、しばしば使われる語(ワード )またはワードパターンの正規化されない当該話し手独特のパターンを記憶し、 そして、訓練された情報を識別ライブラリに記憶することによる定例的な使用以 前におけるアルゴリズムの訓練を含む。 本方法は、冗長性および音声の音素(或いは、他の簡単な音声単位)は所定の 時限に亙って定義可能であると言うモデル拘束条件を含む十分な情報を伴った基 本的音声単位の状態を記述する1つの単一音声フレーム特徴ベクトルを定義する ために、EM情報を伴った、同時に記録された音波特徴ベクトル情報を使用する ことを含む。本方法は、例えば、文字、ピクトグラムコード、ASCIIコンピュ ータコード、または、電話コードのような記号を用いて、対象とされる音単位を 、非常に高い確率を以て、識別することも可能である。本方法は、前記観察中の 音単位の継続時間(即ち、音声タイムフレームインタバルの個数)を決定するた め、、及び、数個の順次的な音声タイムフレームインタバルに亙って音状態を正 確に定義する音声単位特徴ベクトルを定義する目的で継続時間情報と特徴ベクト ルとを使用するために使用することが出来る。本方法は、数個の順次的タイムフ レームからの数個の特徴ベクトルの列を、合成特徴ベクトルとして定義すること を含む。この種の合成特徴ベクトルは、例えば、所要数の音声タイムフレームを 記述 するために端と端を接合した1つ又は複数の特徴ベクトルとして、記述可能であ る。 本方法は、ある言語の全ての基本的言語音ペア(即ち、2フォーン)、トライ アド(即ち、3フォーン)、または、他の多重単位(即ち、4フォーン及びそれ 以上のパターン)に関する特徴ベクトル、即ち、2音、3音、または、より多く の音単位の定義に適用可能な特徴ベクトルを定義する特徴ベクトルを自動的に形 成すること、及び、全ての基本的音ペア、トライアド、または、他の多重単位に 関する既知特徴ベクトルのライブラリを定義する目的で、既知言語音のこの種の 集合を訓練を介して生成することを含む。 本方法は、或る言語の全ての語(ワード)音に関する特徴ベクトルを自動的に 形成すること、即ち、各語(ワード)における個数が変化する音単位に適用可能 な特徴ベクトルを定義すること、及び、訓練を介して 既知の語(ワード)特徴 ベクトルのライブラリを定義するために既知語(ワード)音のこの種の多重単位 の集合を自動的に生成することが可能である。 更に、本方法は、任意の所定言語において必要なだけ多くの語の組合わせに関 する特徴ベクトルを自動的に形成する、即ち、多重語特徴ベクトルに含まれるそ れぞれ一連の語における個数の変わる音単位(例えば、音素)に適用可能な特徴 ベクトルを定義するためにも使用可能である。この種の多重語特徴ベクトルまた は個々の音単位特徴ベクトルのベクトルは、一度に記憶されるべき音素の個数を 制限するか、或いは、加えられた各新規な語ベクトルに関して、最も旧い語の特 徴ベクトルが除外される場合に、前以て決定済みの一連の作動中のベクトルを用 いるか、或いは、韻律的拘束条件に基づく動的フィードバックによって生成可能 である。 本方法は 既知の多重語特徴ベクトルのライブラリを訓練を介して定義するた めに既知の多重語音のこの種の多重語ベクトルを自動的に生成すること、及び、 音素単位(サイレンス音素を含む)により、多重語ベクトルを、例えば、句読点 と結合するか、或いは、話し手の思考における休止と結合した韻律的制約のよう な韻律的拘束条件によって定義された単位に自動的に解剖することが可能である 。本方法は、1つ又は複数の音声器官状態(例えば、多重器官状態)のパターン (即ち、テンプレート)と音波出力を、以前に定義済みのライブラリに記憶され ている特徴ベクトルに対してマッチングさせることによって、調査済みのタイム フレームにおいて発音される音素を識別するために音声調音器官特徴ベクトルを 使用することを含む。本方法は、当該特徴ベクトルに関して演算することにより 1つ又は複数の調査済みタイムフレームにおいて発音される音素を統計的に識別 するために、特徴ベクトルに関して隠れたマルコフモデル技法(HMM)を使用 することを含むことが可能である。 更に、本方法は、調査済みタイムフレームにおいて発音される音素を統計的に 識別するために同時確率を使用することも可能である。先ず、音単位の識別(ア イデンティティ)及び当該識別の確率を推定するために、従来の(音波式)音声 認識技法が用いられる。次に、前記音単位の識別(アイデンティティ)を別々に 推定し、そして、非音波式の場合に関する前記確率の推定値を指定するためにE M定義済み特徴ベクトルが単独で用いられる(音波特徴情報は一切含まれない) 。最後に、全ての音波システム又は追加情報なしで達成可能な全てのEM特徴ベ クトルシステムのどちらかよりも一層正確な語単位の識別を獲得するために各推 定値の確率が組合わされる。 本方法は、調査済みのタイムフレームにおいて発音される音波的に類似の音素 の間を統計的に区別するために排反確率を使用することも可能である。先ず、従 来の音波技法だけを用いて定義される確率と類似の確率を持つ1つ又は複数の音 単位の識別(即ち、統計的には曖昧な状態のままである)を推定するために従来 の(音波式)音声認識技法が用いられる。次に、1つ又は複数の音波的に識別さ れたEM定義済み音素の各々の特徴ベクトル(音波特徴情報は一切含まれない) は、音単位の識別(アイデンティティ)を別々に推定するため、及び、曖昧な各 音単位に関して、EM特徴ベクトルに基づいて確率の推定値を指定するために用 いられる。EM識別と一貫性を持たない音波式識別は、これ以上の検討対象から 排除される(即ち、拒絶される)。最後に、全ての音波システム又は他方からの 追加情報なしで達成可能な全てのEM特徴ベクトルシステムのどちらかよりも一 層正確な語単位の識別を獲得するために各推定値の確率と残りの音波単位の確率 が比較される。この方法により、記憶されている特徴ベクトルのライブラリとの 比較によって定義される基準に適合する音単位を除く全ての音波的に識別された 音単位を除外することが出来る。 多重器官或いは音声パターンマッチング技法、HMM技法、同時確率技法、及 び、排反確率技法は、全て、調査されるタイムフレームにおける2フォーン、3 フォーン、多重フォーン、語(ワード)、或いは、語列(ワードシーケンス)を 識別するために使用される。 本方法は、音波音声を伴った1つ又は複数の音声器官運動のEMセンサを用い て測定したパターンを1つ又は複数の音単位に関連付けるニューラルネットワー クアルゴリズムの使用を含む。この方法は、入力EMおよび音波信号の正規化を 含み、話し手(1人又は複数の)を平均化し、そして、ニューラルネットワーク アルゴリズムを介して(例えば、2つ以上の層を持つ後方伝播アルゴリズムを用 いる)入力を認識された音に関連させるニューラルネットワークに関する通常の 訓練方法を用いる。一旦、訓練されると、この方法からの情報は非常に正確であ るので、ネットワークは、正確に定義された入力特徴ベクトルから識別された出 力音声単位への迅速な収斂を提供する。 更に、本方法は、センサ情報を処理し、前記情報を記憶し、特徴ベクトルの認 識を実施し、視覚化技法または音響技法を介して、あらゆる処理段階において情 報を呈示し、前記情報を伝送し(暗号化、外国語翻訳、話し手音声の修正、帯域 幅最小限化、または、他の過程を用いるか、或いは、用いることなしに)、そし て、音声作動化制御、口述、転写、言語翻訳または教示、話し手修正、人工補綴 フィードバック、または、特殊技術システムの起動を支援するために使用される キーボードまたは手動制御ユニットとインターフェイスされるシステム構成要素 と共に、音波マイクロホンと協調するEMセンサを使用する。 更に、本方法は、音波音声を唇運動、または、例えば視覚的画像を伴った顎運 動のような他の視覚的な音声器官運動と同期化する。一例は映画またはビデオ産 業のための音声または音楽の唇同期化である。 以上、明確に記述された実施形態は、適用範囲が添付した請求の範囲によって のみ制限されることを意図された本発明の適用範囲から逸脱することなしに、そ の改変及び修正が実施可能である。

Claims (1)

  1. 【特許請求の範囲】 1. 話し手による音声の音声特性記述の方法において、 電磁(EM)放射を話し手の音声器官へ方向付ける過程と、 EM音声情報を獲得するように音声器官の状態を測定するために音声器官から 散乱した電磁(EM)放射を検出する過程と、 音波音声情報を獲得するために話し手からの音波音声出力を検出する過程と、 音声特性記述アルゴリズムを用いてEM音声情報を音波音声情報と結合する過程 とを有する方法。 2. 請求項1記載の方法において、前記音声が正常に発音された音声、ささ やかれた音声、及び、発音されなかった音声から選定される方法。 3. 請求項1記載の方法において、前記話し手の音波音声出力が少なくとも 1つの音波マイクロホンを用いて検出される方法。 4. 請求項3記載の方法において、更に、振幅対時間、周波数、ゼロ交差時 間、時限当たりのエネルギー、及び、音波音声のLPCまたはセプトラル(ceps tral)係数を獲得するために複数のサンプリングタイムに亙って音波圧力または 音の強さを測定する過程を有する方法。 5. 請求項1記載の方法において、前記話し手の音波音声出力が 音波振動 を検出するための少なくとも1つのEM波マイクロホンを用いて検出される方法 。 6. 請求項1記載の方法において、EM波送信受信システムを用いてEM放 射が前記音声器官に向けられそして前記音声器官から検出されるシステム。 7. 請求項6記載の方法において、前記EM波生成、送信及び検出システム がRF、マイクロ波、ミリメートル波、赤外線、或いは、可視波EMセンサであ る方法。 8. 請求項7記載の方法において、前記EMセンサが経過時間、非コヒーレ ントモードにおいて操作される方法。 9.請求項8記載の方法において、EMセンサがレンジゲートされる方法。 10. 請求項7記載の方法において、前記EMセンサがコヒーレントモード において操作される方法。 11. 請求項10記載の方法において、EMセンサがホモダイン、ヘテロダ イン、または、他の干渉的コヒーレント検出モードにおいて操作される方法。 12. 請求項7記載の方法において、前記EMセンサがレンジゲートを用い るか或いは用いることなくタイム濾波された出力を用いて場妨害モードにおいて 操作される方法。 13. 請求項1記載の方法において、前記EM放射の生成と送信と検出と、 前記音波音声出力の実質的な同時受信との時間を制御する過程を有する方法。 14. 請求項1記載の方法において、更に、音声の定義済みタイムフレーム 期間における音波音声出力及びEMセンサで測定された音声器官状態の特徴を記 述する特徴ベクトルを作る過程を有する方法。 15. 請求項14記載の方法において、更に、前記特徴ベクトルにおいて各 特徴ベクトルの定義済みタイムフレームの開始時間と継続時間と終結時間とを記 憶する過程を有する方法。 16. 請求項14記載の方法において、更に、前記特徴ベクトルに含まれる 情報をタイミングの同期化のための他の機器または装置からの情報に関連させる 過程を有する方法。 17. 請求項14記載の方法において、更に、前記特徴ベクトルを電子式ラ イブラリに記憶する過程を有する方法。 18. 請求項14記載の方法において、更に、1人又は複数の話し手に関す る特徴ベクトルを作成する過程と、1人又は複数の話し手の前記特徴ベクトルを 平均する過程と、前記の平均された特徴ベクトルをライブラリに記憶する過程と を有する方法。 19. 請求項14記載の方法において、更に、前記話し手の特徴ベクトルを 基準話し手または話し手のグループの特徴ベクトルに対して正規化及び量子化す る過程を有する方法。 20. 請求項14記載の方法において、更に、軟口蓋と顎と舌と声門組織と 唇とのうちの少なくとも1つの位置及び速度の少なくとも1つに関する特徴ベク トルを作成する過程を有する方法。 21. 請求項14記載の方法において、更に、単位様音節か音素かPLUか 2フォーンか3フォーンか音波単位か語か或いは語列を定義する1つの単一また は多重音声フレーム特徴ベクトルを形成する過程を有する方法。 22. 請求項14記載の方法において、更に、単位音節か音素かPLUか2 フォーンか3フォーンか音波単位か語か或いは語列を識別するために1つの統計 的技法またはパターンマッチング技法を前記特徴ベクトルに適用する過程を有す る方法。 23. 請求項14記載の方法において、更に、先ず個別の音波及びEM特徴 ベクトルを形成することによって前記特徴ベクトルを形成する過程と、次に、前 記個別の音波及びEM特徴ベクトルを結合する過程とを有する方法。 24. 請求項14記載の方法において、更に、基準特徴ベクトルからの変化 によって定義される新規な特徴ベクトルを定義するために音変化とEM信号変化 とを識別する過程を有する方法。 25. 請求項14記載の方法において、更に、新規な音声タイムフレームを 定義するために、最後のタイムフレームの変化と比較した音波変化とEM信号変 化とを識別する過程を有する方法。 26. 請求項14記載の方法において、前記特徴ベクトルを自動的に形成す る過程を有する方法。 27. 請求項14記載の方法において、複数の音声タイムフレーム期間中に おける少なくとも1つの音声器官の位置、及び速度の少なくとも一方の定義済み 状態からの定義された状態と変化を記述する特徴ベクトルを作成する過程を有す る方法。 28. 請求項14記載の方法において、更に、複数のタイムフレームに亙る 速度と加速度に関する特徴ベクトルを形成する過程を有する方法。 29. 請求項14記載の方法において、更に、順次配列された一連の音声タ イムフレームに亙り当該話し手によって形成された特徴ベクトルのパターンから 話し手を識別する過程を有する方法。 30. 請求項17記載の方法において、特定の話し手の特徴ベクトルの時間 調整を実施する過程と、前記特定の話し手の時間調整済み特徴ベクトルを前記ラ イブラリ内の特徴ベクトルと比較する過程とを有する方法。 31. 請求項1記載の方法において、更に、前記の検出されたEM放射から 器官速度または加速度情報を獲得する過程を有する方法。 32. 請求項1記載の方法において、前記のEM音声情報及び音波音声情報 以外の他の音声情報を測定する過程と、前記の他の音声情報を前記のEM音声情 報及び音波音声情報と結合する過程とを有する方法。 33. 請求項1記載の方法において、更に、音声システムモデル化に関する 前記EM音声情報及び音波音声情報から前記音声システムの1組の機械パラメー タを決定する過程を有する方法。 34. 請求項1記載の方法において、前記アルゴリズムが音声の開始と音声 の終結と音声周期と休止と音声率と外部からのノイズとを決定する方法。 35. 請求項1記載の方法において、前記アルゴリズムが有声または無声の 音声の存在を決定する方法。 36. 請求項22記載の方法において、前記統計技法が隠れたマルコフモデ ル技法又はニューラルネットワーク技法である方法。 37. 請求項22の方法において、前記のパターンマッチング技法が音声- テンプレートマッチング技法である方法。 38. 請求項22記載の方法において、前記のアルゴリズムが、更に高い全 体的な識別確率を獲得するために非音波式技法を用いて識別された特徴ベクトル に対して一般の音波的技法を用いて識別された特徴ベクトルを比較することによ る識別の結合又は排除する方法を用いる方法。 39. 請求項1記載の方法において、更に、1つの器官が別の器官に接触し 、そして、共鳴器官または境界条件効果の変化に起因して前記のEM波反射条件 を著しく変えるような器官接触を測定する過程を有する方法。 40. 請求項1記載の方法において、更に、前記組織及び組織インタフェー スからの干渉性反射と透過を利用して器官インタフェースの間隔を検出するため に一連の既知波長を生成して送信する過程を有する方法。 41. 話し手による音声の音声特性記述のための装置において、 EM波を前記話し手の音声器官に方向づけ、そして、EM音声情報を獲得する ために前記話し手の音声器官から散乱されたEM波を検出するための少なくとも 1つの電磁(EM)波生成、伝送、及び、検出ユニットと、 音波音声情報を獲得するために、前記話し手からの音波音声出力を検出するた めの少なくとも1つのマイクロホンと、 音声特性記述アルゴリズムを用いて前記EM音声情報を音波音声情報と結合す る手段とを有する装置。 42. 請求項41記載の装置において、各EM波生成、送信、及び、受信ユ ニットが1つのRFかマイクロ波かミリメートル波か赤外線か或いは可視波レー ダである装置。 43. 請求項41記載の装置において、各マイクロホンが1つの音波マイク ロホンか又は1つのEMマイクロホンである装置。 44. 請求項41記載の装置において、更に、少なくとも1つのEM波生成 、送信、及び、検出ユニットと少なくとも1つのマイクロホンとを、これらが前 記話し手の音声器官の状態を検出できるように取り付けるための構造を有する装 置。 45. 請求項41記載の装置において、更に、前記EM波の生成と送信と検 出と、前記音波音声出力の実質的な同時受信との時間を制御するための手段を有 する装置。 46. 請求項42記載の装置において、前記EMユニットが、1つの経過時 間、非コヒーレントレーダか、または、レンジゲートを備えるか或いは備えず、 時間濾波された出力を備えた、1つの場妨害センサか、又は、1つのコヒーレン トレーダである装置。 47. 請求項42記載の装置において、EMユニットがレンジゲート付きレ ーダである装置。 48. 請求項42記載の装置において、前記EMユニットが、1つのホモダ イン、ヘテロダイン、または、他の干渉コヒーレント検出EMセンサである装置 。
JP9528567A 1996-02-06 1997-01-28 非音波式音声特性記述及び認識のための方法及びその装置 Ceased JP2000504848A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/597,596 US6006175A (en) 1996-02-06 1996-02-06 Methods and apparatus for non-acoustic speech characterization and recognition
US08/597,596 1996-02-06
PCT/US1997/001489 WO1997029481A1 (en) 1996-02-06 1997-01-28 Methods and apparatus for non-acoustic speech characterization and recognition

Publications (1)

Publication Number Publication Date
JP2000504848A true JP2000504848A (ja) 2000-04-18

Family

ID=24392161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9528567A Ceased JP2000504848A (ja) 1996-02-06 1997-01-28 非音波式音声特性記述及び認識のための方法及びその装置

Country Status (6)

Country Link
US (1) US6006175A (ja)
EP (1) EP0883877B1 (ja)
JP (1) JP2000504848A (ja)
AT (1) ATE286295T1 (ja)
DE (1) DE69732096D1 (ja)
WO (1) WO1997029481A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062782A1 (fr) * 2006-11-20 2008-05-29 Nec Corporation Système d'estimation de parole, procédé d'estimation de parole et programme d'estimation de parole

Families Citing this family (188)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6542857B1 (en) * 1996-02-06 2003-04-01 The Regents Of The University Of California System and method for characterizing synthesizing and/or canceling out acoustic signals from inanimate sound sources
FR2762464B1 (fr) * 1997-04-16 1999-06-25 France Telecom Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere"
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6285979B1 (en) * 1998-03-27 2001-09-04 Avr Communications Ltd. Phoneme analyzer
JPH11296192A (ja) * 1998-04-10 1999-10-29 Pioneer Electron Corp 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
US6421453B1 (en) * 1998-05-15 2002-07-16 International Business Machines Corporation Apparatus and methods for user recognition employing behavioral passwords
DE69943018D1 (de) * 1998-10-09 2011-01-20 Sony Corp Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium
JP2000200098A (ja) * 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
WO2001018781A1 (en) * 1999-03-24 2001-03-15 Lautzenhiser John L Head-voice control of computer or other output apparatus
US6487531B1 (en) 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
US6453284B1 (en) * 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
DE19941227A1 (de) * 1999-08-30 2001-03-08 Philips Corp Intellectual Pty Verfahren und Anordnung zur Spracherkennung
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6816085B1 (en) 2000-01-14 2004-11-09 Michael N. Haynes Method for managing a parking lot
JP3520022B2 (ja) * 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
US7123166B1 (en) 2000-11-17 2006-10-17 Haynes Michael N Method for managing a parking lot
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
US6711699B1 (en) * 2000-05-04 2004-03-23 International Business Machines Corporation Real time backup system for information based on a user's actions and gestures for computer users
US6501100B1 (en) * 2000-05-15 2002-12-31 General Electric Company White light emitting phosphor blend for LED devices
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8467543B2 (en) * 2002-03-27 2013-06-18 Aliphcom Microphone and voice activity detection (VAD) configurations for use with communication systems
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
EP1189206B1 (en) * 2000-09-19 2006-05-31 Thomson Licensing Voice control of electronic devices
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US20020099541A1 (en) * 2000-11-21 2002-07-25 Burnett Gregory C. Method and apparatus for voiced speech excitation function determination and non-acoustic assisted feature extraction
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US7136630B2 (en) * 2000-12-22 2006-11-14 Broadcom Corporation Methods of recording voice signals in a mobile set
US7143044B2 (en) * 2000-12-29 2006-11-28 International Business Machines Corporation Translator for infants and toddlers
AU2002253865A1 (en) * 2001-02-14 2002-08-28 The United States Of America, As Represented By The Aministrator Of The National Aeronautics And Spa Empirical mode decomposition for analyzing acoustical signals
US6856952B2 (en) * 2001-02-28 2005-02-15 Intel Corporation Detecting a characteristic of a resonating cavity responsible for speech
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
US6928409B2 (en) * 2001-05-31 2005-08-09 Freescale Semiconductor, Inc. Speech recognition using polynomial expansion and hidden markov models
US6584437B2 (en) 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
EP1280137B1 (en) * 2001-07-24 2004-12-29 Sony International (Europe) GmbH Method for speaker identification
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7200635B2 (en) * 2002-01-09 2007-04-03 International Business Machines Corporation Smart messenger
JP2003316387A (ja) * 2002-02-19 2003-11-07 Ntt Docomo Inc 学習装置、移動通信端末、情報認識システム、及び、学習方法
JP3908965B2 (ja) * 2002-02-28 2007-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置及び音声認識方法
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US20030220787A1 (en) * 2002-04-19 2003-11-27 Henrik Svensson Method of and apparatus for pitch period estimation
US7209882B1 (en) 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
TW200425763A (en) * 2003-01-30 2004-11-16 Aliphcom Inc Acoustic vibration sensor
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
US7916848B2 (en) * 2003-10-01 2011-03-29 Microsoft Corporation Methods and systems for participant sourcing indication in multi-party conferencing and for audio source discrimination
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
EP2113227B1 (en) 2004-02-04 2015-07-29 LDR Medical Intervertebral disc prosthesis
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
JP4943335B2 (ja) * 2004-09-23 2012-05-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話者に依存しない堅牢な音声認識システム
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7809569B2 (en) * 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
GB2422238A (en) * 2005-01-17 2006-07-19 Univ Hull Generation of data from speech or voiceless mouthed speech
JP4332129B2 (ja) * 2005-04-20 2009-09-16 富士通株式会社 文書分類プログラム、文書分類方法および文書分類装置
US7346504B2 (en) * 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
FR2891135B1 (fr) 2005-09-23 2008-09-12 Ldr Medical Sarl Prothese de disque intervertebral
DE102005053109A1 (de) 2005-11-04 2007-05-10 Koehler, Ullrich, Prof. Dr. Körpergeräusch-Feststellung
WO2007057879A1 (en) * 2005-11-17 2007-05-24 Shaul Simhi Personalized voice activity detection
US20070276658A1 (en) * 2006-05-23 2007-11-29 Barry Grayson Douglass Apparatus and Method for Detecting Speech Using Acoustic Signals Outside the Audible Frequency Range
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
US7805308B2 (en) * 2007-01-19 2010-09-28 Microsoft Corporation Hidden trajectory modeling with differential cepstra for speech recognition
US20080195395A1 (en) * 2007-02-08 2008-08-14 Jonghae Kim System and method for telephonic voice and speech authentication
US8326636B2 (en) 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
WO2008157421A1 (en) 2007-06-13 2008-12-24 Aliphcom, Inc. Dual omnidirectional microphone array
US8352274B2 (en) * 2007-09-11 2013-01-08 Panasonic Corporation Sound determination device, sound detection device, and sound determination method for determining frequency signals of a to-be-extracted sound included in a mixed sound
JP5375612B2 (ja) * 2007-09-25 2013-12-25 日本電気株式会社 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
EP2045140B1 (en) * 2007-10-01 2010-01-27 Harman/Becker Automotive Systems GmbH Adjustment of vehicular elements by speech control
US8326610B2 (en) * 2007-10-24 2012-12-04 Red Shift Company, Llc Producing phonitos based on feature vectors
WO2009055715A1 (en) * 2007-10-24 2009-04-30 Red Shift Company, Llc Producing time uniform feature vectors of speech
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8817964B2 (en) * 2008-02-11 2014-08-26 International Business Machines Corporation Telephonic voice authentication and display
US8280732B2 (en) * 2008-03-27 2012-10-02 Wolfgang Richter System and method for multidimensional gesture analysis
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US9129595B2 (en) * 2008-07-01 2015-09-08 University Of The Witwatersrand Artificial larynx
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
KR101829865B1 (ko) 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
US20100131268A1 (en) * 2008-11-26 2010-05-27 Alcatel-Lucent Usa Inc. Voice-estimation interface and communication system
US8271422B2 (en) * 2008-11-29 2012-09-18 At&T Intellectual Property I, Lp Systems and methods for detecting and coordinating changes in lexical items
JP2010190955A (ja) * 2009-02-16 2010-09-02 Toshiba Corp 音声合成装置、方法及びプログラム
US20100241423A1 (en) * 2009-03-18 2010-09-23 Stanley Wayne Jackson System and method for frequency to phase balancing for timbre-accurate low bit rate audio encoding
US8064290B2 (en) * 2009-04-28 2011-11-22 Luidia, Inc. Digital transcription system utilizing small aperture acoustical sensors
WO2011025462A1 (en) * 2009-08-25 2011-03-03 Nanyang Technological University A method and system for reconstructing speech from an input signal comprising whispers
KR20110028095A (ko) * 2009-09-11 2011-03-17 삼성전자주식회사 실시간 화자 적응을 통한 음성 인식 시스템 및 방법
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US20110224541A1 (en) * 2009-12-08 2011-09-15 The General Hospital Corporation Methods and arrangements for analysis, diagnosis, and treatment monitoring of vocal folds by optical coherence tomography
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US11989659B2 (en) 2010-05-13 2024-05-21 Salesforce, Inc. Method and apparatus for triggering the automatic generation of narratives
US9208147B1 (en) 2011-01-07 2015-12-08 Narrative Science Inc. Method and apparatus for triggering the automatic generation of narratives
US8924214B2 (en) 2010-06-07 2014-12-30 The United States Of America, As Represented By The Secretary Of The Navy Radar microphone speech recognition
WO2012003602A1 (zh) * 2010-07-09 2012-01-12 西安交通大学 一种电子喉语音重建方法及其系统
US8532987B2 (en) 2010-08-24 2013-09-10 Lawrence Livermore National Security, Llc Speech masking and cancelling and voice obscuration
US20120136660A1 (en) * 2010-11-30 2012-05-31 Alcatel-Lucent Usa Inc. Voice-estimation based on real-time probing of the vocal tract
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US9720899B1 (en) 2011-01-07 2017-08-01 Narrative Science, Inc. Automatic generation of narratives from data using communication goals and narrative analytics
US9022032B2 (en) 2011-03-21 2015-05-05 Lawwrence Livermore National Security, LLC System for controlling apnea
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
US20120259554A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Tongue tracking interface apparatus and method for controlling a computer program
US8666738B2 (en) 2011-05-24 2014-03-04 Alcatel Lucent Biometric-sensor assembly, such as for acoustic reflectometry of the vocal tract
US9171548B2 (en) * 2011-08-19 2015-10-27 The Boeing Company Methods and systems for speaker identity verification
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US8787571B2 (en) * 2011-10-19 2014-07-22 General Electric Company Wired communications systems with improved capacity and security
WO2013091677A1 (en) * 2011-12-20 2013-06-27 Squarehead Technology As Speech recognition method and system
US9679575B2 (en) 2011-12-22 2017-06-13 Intel Corporation Reproduce a voice for a speaker based on vocal tract sensing using ultra wide band radar
CN103456301B (zh) * 2012-05-28 2019-02-12 中兴通讯股份有限公司 一种基于环境声音的场景识别方法及装置及移动终端
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
CN102880656B (zh) * 2012-08-30 2015-03-25 苏州大学 一种语言中枢解码方法、系统及具有该系统的锁
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9438985B2 (en) 2012-09-28 2016-09-06 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9313572B2 (en) 2012-09-28 2016-04-12 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
BR112015007625B1 (pt) * 2012-10-09 2021-12-21 Mediatek Inc Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador
EP2947658A4 (en) * 2013-01-15 2016-09-14 Sony Corp MEMORY CONTROL DEVICE, READ CONTROL DEVICE, AND RECORDING MEDIUM
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9363596B2 (en) 2013-03-15 2016-06-07 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
US10741182B2 (en) * 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
US9959477B2 (en) * 2014-03-03 2018-05-01 The Board Of Trustees Of The Leland Stanford Junior University Mapping of blood vessels for biometric authentication
US11922344B2 (en) 2014-10-22 2024-03-05 Narrative Science Llc Automatic generation of narratives from data using communication goals and narrative analytics
US11238090B1 (en) 2015-11-02 2022-02-01 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data
KR102396983B1 (ko) * 2015-01-02 2022-05-12 삼성전자주식회사 문법 교정 방법 및 장치
WO2017017572A1 (en) 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Laser microphone utilizing speckles noise reduction
US10332506B2 (en) * 2015-09-02 2019-06-25 Oath Inc. Computerized system and method for formatted transcription of multimedia content
US11232268B1 (en) 2015-11-02 2022-01-25 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts
US11170038B1 (en) 2015-11-02 2021-11-09 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from multiple visualizations
US11222184B1 (en) 2015-11-02 2022-01-11 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US10542929B2 (en) * 2016-02-23 2020-01-28 Dustin Ryan Kimmel Determining conditions based on intraoral sensing
WO2017197156A1 (en) * 2016-05-11 2017-11-16 Ossic Corporation Systems and methods of calibrating earphones
US11600269B2 (en) * 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
US11144838B1 (en) 2016-08-31 2021-10-12 Narrative Science Inc. Applied artificial intelligence technology for evaluating drivers of data presented in visualizations
CN106252885B (zh) * 2016-09-19 2018-07-20 深圳市华讯方舟太赫兹科技有限公司 应用于毫米波成像系统的电扫阵列天线装置
US11545146B2 (en) 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11068661B1 (en) 2017-02-17 2021-07-20 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on smart attributes
US10755053B1 (en) * 2017-02-17 2020-08-25 Narrative Science Inc. Applied artificial intelligence technology for story outline formation using composable communication goals to support natural language generation (NLG)
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US10943069B1 (en) 2017-02-17 2021-03-09 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on a conditional outcome framework
KR102017244B1 (ko) * 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
US10665252B2 (en) * 2017-05-22 2020-05-26 Ajit Arun Zadgaonkar System and method for estimating properties and physiological conditions of organs by analysing speech samples
US10339929B2 (en) 2017-06-27 2019-07-02 Google Llc Speech recognition using acoustic features in conjunction with distance information
WO2019051082A1 (en) * 2017-09-06 2019-03-14 Georgia Tech Research Corporation SYSTEMS, METHODS AND DEVICES FOR GESTURE RECOGNITION
US10529355B2 (en) 2017-12-19 2020-01-07 International Business Machines Corporation Production of speech based on whispered speech and silent speech
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
US11042709B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language processing
US10963649B1 (en) 2018-01-17 2021-03-30 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and configuration-driven analytics
NL2021041B1 (nl) * 2018-01-31 2019-08-07 Iebm B V Spraakherkenning met beeld signaal
WO2019150234A1 (en) 2018-01-31 2019-08-08 Iebm B.V. Speech recognition with image signal
US10885929B2 (en) * 2018-02-05 2021-01-05 TS Voice Technology, LLC Computer-aided conversion system and method for generating intelligible speech
US10938994B2 (en) * 2018-06-25 2021-03-02 Cypress Semiconductor Corporation Beamformer and acoustic echo canceller (AEC) system
US11334726B1 (en) 2018-06-28 2022-05-17 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to date and number textual features
CN112739996A (zh) 2018-07-24 2021-04-30 弗兰克公司 用于分析和显示声学数据的系统和方法
US10971132B2 (en) 2018-08-28 2021-04-06 Acer Incorporated Multimedia processing method and electronic system
TWI683226B (zh) 2018-08-28 2020-01-21 宏碁股份有限公司 多媒體處理電路及電子系統
CN109584894A (zh) * 2018-12-20 2019-04-05 西京学院 一种基于雷达语音与麦克风语音相融合的语音增强方法
TWI730585B (zh) * 2019-01-16 2021-06-11 美商Ts聲音科技有限公司 電腦輔助轉換可理解語言的測試系統及其方法
US10990767B1 (en) 2019-01-28 2021-04-27 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding
JP7331395B2 (ja) * 2019-03-20 2023-08-23 富士フイルムビジネスイノベーション株式会社 プロセス抽出装置およびプログラム
CN110223686A (zh) * 2019-05-31 2019-09-10 联想(北京)有限公司 语音识别方法、语音识别装置和电子设备
US11544458B2 (en) * 2020-01-17 2023-01-03 Apple Inc. Automatic grammar detection and correction
US20210287674A1 (en) * 2020-03-16 2021-09-16 Knowles Electronics, Llc Voice recognition for imposter rejection in wearable devices
DE102020110901B8 (de) 2020-04-22 2023-10-19 Altavo Gmbh Verfahren zum Erzeugen einer künstlichen Stimme
US20210407493A1 (en) * 2020-06-30 2021-12-30 Plantronics, Inc. Audio Anomaly Detection in a Speech Signal
KR102426792B1 (ko) * 2020-09-16 2022-07-29 한양대학교 산학협력단 무음 발화 인식 방법 및 장치
US20220192523A1 (en) * 2020-12-18 2022-06-23 Movano Inc. Method for monitoring a physiological parameter in a person that involves coherently combining data generated from an rf-based sensor system
DE102022115034A1 (de) 2022-06-15 2023-12-21 Altavo Gmbh Multi-modale sensoranordnung für körpernahe anwendung
WO2024064468A1 (en) * 2022-09-20 2024-03-28 Qualcomm Incorporated Voice user interface assisted with radio frequency sensing
CN116819482B (zh) * 2023-08-28 2023-11-10 四川省石棉县恒达粉体材料有限责任公司 一种基于雷达数据的方解石探测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04140799A (ja) * 1990-09-29 1992-05-14 Emerson & Stahn Assoc Inc 調音パラメータを音声データから決定する方法及び装置
JPH04504767A (ja) * 1990-01-31 1992-08-20 アメリカ合衆国 時系列結合学習
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH06214711A (ja) * 1992-09-25 1994-08-05 Sextant Avionique 対話システムの管理システム
JPH0824227A (ja) * 1994-07-19 1996-01-30 Hitachi Medical Corp 医用画像診断装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5361070B1 (en) * 1993-04-12 2000-05-16 Univ California Ultra-wideband radar motion sensor
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
US5573012A (en) * 1994-08-09 1996-11-12 The Regents Of The University Of California Body monitoring and imaging apparatus and method
US5549658A (en) * 1994-10-24 1996-08-27 Advanced Bionics Corporation Four-Channel cochlear system with a passive, non-hermetically sealed implant

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04504767A (ja) * 1990-01-31 1992-08-20 アメリカ合衆国 時系列結合学習
JPH04140799A (ja) * 1990-09-29 1992-05-14 Emerson & Stahn Assoc Inc 調音パラメータを音声データから決定する方法及び装置
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH06214711A (ja) * 1992-09-25 1994-08-05 Sextant Avionique 対話システムの管理システム
JPH0824227A (ja) * 1994-07-19 1996-01-30 Hitachi Medical Corp 医用画像診断装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062782A1 (fr) * 2006-11-20 2008-05-29 Nec Corporation Système d'estimation de parole, procédé d'estimation de parole et programme d'estimation de parole

Also Published As

Publication number Publication date
DE69732096D1 (de) 2005-02-03
US6006175A (en) 1999-12-21
ATE286295T1 (de) 2005-01-15
EP0883877A4 (en) 1999-08-11
EP0883877A1 (en) 1998-12-16
EP0883877B1 (en) 2004-12-29
WO1997029481A1 (en) 1997-08-14

Similar Documents

Publication Publication Date Title
JP2000504848A (ja) 非音波式音声特性記述及び認識のための方法及びその装置
Hansen et al. Speech under stress: Analysis, modeling and recognition
Wrench A Multi-Channel/Multi-Speaker Articulatory Database for Continuous Speech Recognition Research.
Cohen et al. Vocal tract normalization in speech recognition: Compensating for systematic speaker variability
Perrot et al. Voice disguise and automatic detection: review and perspectives
JP2000504849A (ja) 音響学および電磁波を用いた音声の符号化、再構成および認識
JPH09500223A (ja) 多言語音声認識システム
US7480616B2 (en) Information recognition device and information recognition method
Zlokarnik Adding articulatory features to acoustic features for automatic speech recognition
US11763799B2 (en) Electronic apparatus and controlling method thereof
Sak et al. A corpus-based concatenative speech synthesis system for Turkish
Saito Speech science and technology
Cao et al. Magtrack: A wearable tongue motion tracking system for silent speech interfaces
US10885929B2 (en) Computer-aided conversion system and method for generating intelligible speech
Chen et al. Automatic pronunciation assessment for mandarin chinese: Approaches and system overview
Stone A silent-speech interface using electro-optical stomatography
Raitio Voice source modelling techniques for statistical parametric speech synthesis
Chen Acoustic-phonetic constraints in continuous speech recognition: a case study using the digit vocabulary.
Malik et al. Efficacy of Current Dysarthric Speech Recognition Techniques
Niemann et al. Statistical Modeling of Segmental and Suprasegmental Information
Rahim et al. Parameter estimation for spectral matching in articulatory synthesis
Bhabad Speech Recognition & Rectification for Articulatory Handicapped People
Blackburn et al. Enhanced speech recognition using an articulatory production model trained on X-ray data
Macon et al. Speech synthesis based on an overlap‐add sinusoidal model
Hagmüller Recognition of regional variants of German using prosodic features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061205

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070129

A313 Final decision of rejection without a dissenting response from the applicant

Free format text: JAPANESE INTERMEDIATE CODE: A313

Effective date: 20070420

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080812