JP2000504849A - 音響学および電磁波を用いた音声の符号化、再構成および認識 - Google Patents

音響学および電磁波を用いた音声の符号化、再構成および認識

Info

Publication number
JP2000504849A
JP2000504849A JP9528568A JP52856897A JP2000504849A JP 2000504849 A JP2000504849 A JP 2000504849A JP 9528568 A JP9528568 A JP 9528568A JP 52856897 A JP52856897 A JP 52856897A JP 2000504849 A JP2000504849 A JP 2000504849A
Authority
JP
Japan
Prior art keywords
speech
feature vector
acoustic
sound
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9528568A
Other languages
English (en)
Inventor
ジョン、エフ.ホールツリクター
ローレンス、シー.エヌジー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of JP2000504849A publication Critical patent/JP2000504849A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/204Point-of-sale [POS] network systems comprising interface for record bearing medium or carrier for electronic funds transfer or payment credit
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/02Indexing codes associated with the analysed material
    • G01N2291/024Mixtures
    • G01N2291/02491Materials with nonlinear acoustic properties
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/02Indexing codes associated with the analysed material
    • G01N2291/028Material parameters
    • G01N2291/02836Flow rate, liquid level
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/02Indexing codes associated with the analysed material
    • G01N2291/028Material parameters
    • G01N2291/02872Pressure
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 同時に記録された音声情報に関連して電磁放射を使用することにより、完全に数学的な音響音声の符号化が可能になる。この方法は、有声音の各ピッチ周期に対して特徴ベクトル(12,13)を形成し、無声音の各時間フレームに対して特徴ベクトル(12,13)を形成し、さらに有声音と無声音を結合したものに対して特徴ベクトルを形成することを含む。この方法は、音響音声出力から音声刺激関数をいかにして逆たたみ込みし、各時間フレームの伝達関数(7)を記述するかを含む。良好に定義された時間フレームにわたる全ての音響音声単位を定義する特徴ベクトル(12,13)の形成は、音声符号化や、音声圧縮、話者識別、言語識別、音声認識、音声合成、通訳、音声電話方式、音声教育などのために用いることができる。

Description

【発明の詳細な説明】 音響学および電磁波を用いた音声の符号化、再構成および認識 米国政府は、ローレンス・リバモア国立研究所(Lawrence Livermore Nationa l Laboratory)の運営のために、米国エネルギー省とカリフォルニア大学との間 に締結された契約番号W−7405−ENG−48に従って、本発明の権利を有 する。 発明の背景 本発明は一般的には、音声符号化、音声認識、音声合成、話者識別、および関 連する音声技術の目的のための、結合した電磁波情報および音響情報を用いた人 間の音声の特徴化に関する。 (音声の特徴化および符号化) 音声の特徴化、符号化および発生の歴史は、この1世紀半に及ぶ。初期の機械 的音声発生器は、人間の声のような音を作り出すために、振動するリード、およ び、直径および長さの変化する管の配列を用いることに依存していた。刺激源( 例えば、リード)および音響路(例えば、管)の組合わせは、人間の声を真似る るために劇場のオルガンのように鳴った。20世紀には、音声の音響学の物理的 数学的な記述が強力に研究され始め、電話および無線通信に結びついた多くの商 業製品を増大させるために用いられた。その結果、伝達を目的とした人間の声の 電気信号への符号化が、とりわけ合衆国のベル電話研究所において、大きく発達 した。この初期の研究の完全な叙述は、J.L.Flanagan(フラナガン)の「音声の 解析、合成、および認識」Academic Press,N.Y.,1965年、である。彼は、 音声の物理学および音響音声単位の記述(すなわち符号化)の数学を叙述してい る。彼は、人間の音声を生じさせるために、人間の声の刺激源および人間の声の 管がどのように動き、どのように相互作用するかについての例を与えている。 初期の電話事業の商業的な意図は、電話線の当時は限られていた本数上で、お よび無線(すなわち、ワイヤレス)通信のために使用できる限られたパワースペ クトル上で、許容可能な声の特性を伝達するのために、可能な最小の帯域幅をど のように用いるかを理解することであった。次に、研究者たちは、アナログ音声 の伝送が、音素または言葉のような音声単位を表す単純な数字のコードが伝送さ れる場合の同じ言葉の伝送よりも通常は100倍も広い帯域幅を使用するという ことを学んだ。この技術は、「解析−合成電話方式」または「ボコーディング(V ocodimg)」と呼ばれる。例えば、8kHzにおけるサンプリングで、16ビット /アナログ信号値を用いると、128kbpsが必要であるが、解析−合成の方 法では、符号化の必要量を1.0kbpsに減じることができる。帯域幅につい ての利点にもかかわらず、それは、精密な自動化された音素符号化および再合成 を必要とし、さもなければ得られた音声は「機械的なアクセント」を持ち、あま り明瞭ではない傾向にあったために、ボコーディングは広範に用いられなかった 。音声符号化の難しさの1つの重要な側面は、ピッチ測定値、音声−非音声の識 別、および声門刺激パルスのスペクトルを含む、刺激情報の妥当性にある。 音声の音響理解および声道の数学的モデリングにおける進歩は、研究室におい て大部分なされ、非常に精巧になった。それは今では、音声刺激源、声道および それらの狭窄、側枝の、複雑化する連結(例えば、発声共鳴器)を記述する微分 方程式を用いることによって、人間の声を無理なく忠実に真似ることができる。 変換法(例えば、フーリエ変換、ラプラス変換、Z変換等によって解明される電 気的類似)が、より単純な場合に用いられ、スーパーコンピュータ上でのより洗 練された計算のモデリングが、ますます複雑化し精密になるシミュレーションの ために用いられる。モデリングの初期の叙述のためにはフラナガン(同書)を、 並びにシュレーター(Schroeter)およびソンディ(Sondhi)著「ハイブリッド時間 −周波数変域調音器音声合成器(A hybrid time-frequency domain articulators peech synthesizer)」音響音声に関するIEEE Trans.,ASSP 35(7)巻、1 987年、および「音声信号から声道の形状を見積もるための方法(Techniques for Estimating Vocal-Tract Shapes from the Speech Signal)」ASSP 2(1) 巻、1343頁、1994年を参照されたい。これらの論文は、この中で「イン バース問題(inverse problem)」と呼ばれている、結合された音声のひだ−声道 システムの独特な数学的記述を得るために、音響出力からさかのぼって作用する ことは、可能ではないということを再び強調している。声門(すなわち、発声ひ だ)の閉鎖によって引起こされる音声空気流における「ゼロ」、および声道内の 閉じた、または共振構造によって引起こされる音声気流における「ゼロ」、の両 方を独立して記述する情報を得ることは可能ではない。その結果として、最新の 信号捕捉、処理、符号化、および再構成のよく発達した数学を、必要とされる程 度まで用いることは可能ではない。 さらに、数学的な発声システムのモデルを与えられると、それを、まれな人物 例の場合、合わせるのが依然として特に困難である。なぜなら、管の長さ、直径 、断面の形状、壁のコンプライアンス、空洞の大きさ、声門の大きさおよびコン プライアンス、肺の空気圧、および他の必要なパラメータなどのそういった人物 の声道の詳細な生理学的特徴を得ることが非常に困難であるからである。場合に よっては、音響出力からの刺激源の逆たたみ込みが、「ゼロ」の無いことが知ら れているある音に対してなされ得て、したがって、管の長さのような主要な共振 構造を決定することができる。例えば、簡単な音響共振技術(Haferによる19 76年の米国特許第4,087,632号を参照されたい)が、音響ホルマント周波数( すなわち、声道共振周波数)を測定することによって、舌体位置を導き出すため に、また舌体位置および管の長さを、Coker「発声の力学モデルおよび制御(A Mo del of Articulatory Dynamics and Control)」IEEEのProc.の第64(4)巻 、4 52〜460頁、1976年による初期のよく知られた声道モデルに対して限定 するために用いられる。この方法の問題点は、管の全体の大きさのみが得られる が、人間が話をするということの生理関数を曖昧さを残さず定義するためには、 詳細な声道の諸特徴が必要とされる、ということである。より生理学的な細部の ためには、管の長さ、直径、および共鳴器官の領域・構造を求めるため声道のX 線撮像が用いられている。また、喉に挿入して発声ひだの開/閉周期を見るため の光学的な喉頭鏡が、それらの大きさおよび時間的動きを観察するために用いら れる。 音響音声認識における更なる性能の改良への限界は、インバース問題を正確に 解明することができない、ということと直接関係する。現在研究者は、時間に対 する刺激振幅とともに声道伝達関数を正確かつ容易に決定するために、音響音声 出力をさかのぼって作用させて用いることができない。声道移送関数から刺激関 数を分離することについての「失われた」情報は、それぞれの言葉の時間フレー ムのために音声符号化を自動化するにおいて、また音声に関連した技術のための 言葉の音単位のライブラリを形成することにおいて、多くの困難に至らしめる。 その問題に対する主要な理由は、研究者が刺激関数をリアルタイムに測定するこ とができないということである。これによって、言葉の音単位がずっと一定であ るそれぞれの発声セグメントの開始および終了を自動的に識別することを困難に した。これによって、個々の話者は、毎秒約10音素または毎秒2語の割合で音 を発音するので、連続する発声された音単位(例えば、音節、音素、または音素 の複合)の間の移行を結合する(または、切り離す)ことを困難にした。 刺激関数および声道のための正確なモデルの係数を得ることの困難さに、音声 セグメント識別における正確さの欠如が加わる。さらに、これによって、音声認 識のような技術的応用によって必要とされるアルゴリズムおよび計算手続きにお ける非能率をもたらす。さらに、上述した困難は、多岐にわたる人間の音声の合 成のために、またはボコーディングを満足させるために、個々人の独特な音響特 性を正確に符号化することを妨げる。さらに、「失われた」情報は、刺激の、伝 達関数からの完全な分離を妨げ、話者から独立した音声単位の正確な符号化(話 者の正規化)を妨げる。不完全な正規化は、統計的コードブック検索技術を用い た、正確で迅速な音声認識およびは話者識別の内のうちの少なくとも一方を遂行 する能力を限定する。なぜならば、話者の発音の多様性が、対応する処理におけ る不明確さを増し、追加的な統計処理を必要とするからである。失われた情報お よびタイミングの困難さは、また、補助的発音、不完全な発音、およびそこにお いて言葉が音声セグメントを含む音響単位の連続中に混合する類似の事象を正確 に操作することを妨げる。 1970年代に、音声認識の分野の研究者たちは、音声信号の短い時間「フレ ーム」(例えば、10ミリ秒)の波形が、共分散方程式を解くことによって見つ けられる数的「線形予測符号化」(LPC)係数を用いて、全てのポール(しか しゼロではない)の解析的表現によってよく近似され得ることを示した。明確な 手順が、B.S.AtalおよびS.L.Hanauer「音声波の線形予測による音声の解析およ び合成」、J.Acoust.Soc.AM.50(2)巻、第63頁、1971年において記 述されている。LPC係数は音声符号化の形式であり、現在のシステムにおいて提 供されているように典型的には1フレーム当たり20〜30個の比較的小数の変 数で音響音声を特徴化する利点を有する。それらは、音声認識のためのヒドゥン ・マルコフ(Hidden Markow)の方法を用いて、多数の言葉の表現の統計表検索 を可能にする。 音声合成器において、各々の音素のための、および十分な数の倍音素(すなわ ち、音素の対)のための、音響係数(例えば、よく知られたLPC、PARC0R、また は類似の係数)のコード・ブックが構成される。テキスト音声発生器からの要請 を受けると、それらは検索され、合成音声を発声させるために連結される。しか しながら、正確な符号化の技術として、それらは、表現する音声フレームを近似 するのみである。それらの形式および使用は、刺激関数を熟知しての使用に基づ いてはいない。その結果として、それらは、発音者の状態を正確には記述しない 。それらはまた、所与の話者の特徴を複写するには不十分である。それらは、質 の高い自然な音声への自然な連結を可能にしない。それらは、話者に特有な生理 学的パラメータを得るための音声モデルに容易に関連づけることができない。発 音形態への関連の欠如は、自然の音声の補助的発声および不完全発声の問題を扱 うことのみならず、話者の正規化を行なうことをも困難にしている。 (音声符号化の現在の例) Rabinerは、「音声処理の電気通信への応用(Applications of Voice Processi ng to Telecommunications)」IEEE 82のproc.、第82巻、199頁、199 4年2月、の中で、今日、AT & T社によって使用されているいくつかの最新の テキスト音声合成システムは、自然な発声音のための連結処理における音素−音 素変換をシミュレートするのに必要である、2000から4000の倍音素を用 いる、と指摘している。図1は、従来の技術の開ループ音声符号化システムを示 すものである。そこにおいて、マイクロフォンからの音響信号が、例えばLPCに よって処理され、特徴ベクトルが生成されライブラリに記憶される。Rabinerは また、最新のシステムにおいては、発声源の刺激および声道の相互作用が「非常 に不十分であり」、また「自然な持続時間およびピッチが、テキスト−音声の発 声の上に複写されるときには、…合成音声…の質は劇的に改善する」と指摘する (213ページ)。現在のところ、非常に高価かつ込み入った研究室の測定およ び計算によることを除けば、目下用いられているあらゆるモデルにおいて所与の 個人の声の個々の声道の特性のみならず、ピッチ持続時間および発声空気パルス の時間に対する振幅をも、経済的負担なしに捕獲することは可能でない。 J.L.Flanaganの「マルチメディア・コミュニケーションの技術(Technologies for Multimedia Communications)」、Proc.IEEE第82巻、590頁、1994 年4月、は、低周波数帯の音声符号化について次のように述べている。すなわち 「ナイキスト・サンプル当たり1ビットより少ない場合においては、ソース符号 化は、(音声における音声−非音声の区別、およびピッチ、強度、ホルマントの 諸係数といった)信号発生器の諸特性を補足的に考慮することが必要である」。 符号化の複雑さおよび続く帯域幅を最小化するために音声刺激源を説明する、現 在商業的に有効な方法はない。 (電磁センサーおよび音響情報) 音声認識の目的で音声器官の状態の測定のための電磁センサーの使用、および 関連する諸技術が、1996年6月2に出願された、Holzrichter(ホルツリヒ ター)による米国特許出願第08/597,596号に説明されている。音声認 識の分野において何十年もの間、音声器官の位置および運動の情報は有益であり 得るし、かつ電磁センサー(例えば、無線周波数およびマイクロ波レーダー)が この測定に利用できるということが認識されていたのだが、音声器官の運動およ び位置を検出するためのそのようなセンサーを用いるシステムを提唱するものは いなかった。また、それぞれの音声単位を符号化するため、および音声単位を識 別するためのアルゴリズムにおいてその符号を用いるために、または合成のよう な、他の音声技術の応用例のために、この情報をどのように用いるかを記述した 人はいなかった。ホルツリヒターは、発声器官の位置を得るために同時に得られ る音響データとともに電磁センサーの情報をどのように用いるかを、符号化技術 として用いるためにこの器官の情報から特徴ベクトルをどのように定義するかを 、および高精度の音声認識を行なうためにこの情報をどのように用いるかを示し た。彼はまた、この情報が、発声器官の状態における変化を測定することによっ て、各音素における変化を定義する自然な方法を提供することを指摘し、各音声 の時間フレームを自動的に定義するための方法を述べた。彼はまた、断層放射 線写真の、または類似の技術によって得られる、「写真のような画質の」電磁波 撮像は、彼が述べた手順の実行のためには、ここで述べられる手順のためにもま た、必要ではないということを示した。 発明の概要 従って、本発明の目的は音響情報と結合した非音響情報を用いた音声符号化の ための方法および装置を提供することである。 本発明の別の目的は、音響情報と結合した、電磁(EM)波の発生、検出モジ ュールを用いた音声符号化のための方法および装置を提供することである。 本発明のもう一つの目的は、音響情報と結合したレーダーを用いた音声符号化 のための方法および装置を提供することである。 本発明のもう一つの目的は、音声符号化のための音響情報と連結してマイクロ パワー・インパルス・レーダーを用いることである。 本発明のもう一つの目的は、音声認識、数学的近似、情報の記憶、音声圧縮、 音声合成、ボコーディング、話者識別、人工発声装置、言語教示、音声訂正、言 語識別、および他の音声に関連する応用例を目的とする音声符号化のために提供 された方法および装置を用いることである。 本発明は、非音響データと音響データとを結合するための方法および装置であ る。音声器官を記述する非音響情報は、測定のために音声器官に到達する波長で の、RF波のような電磁(EM)波、マイクロ波、ミリメートル波、赤外線、ま たは可視光線を用いることによって得られる。それらの情報は、マイクロフォン によって測定される従来の音響情報と結び付けられる。それらは、音響情報のみ を用いて得られるよりも正確な音声符号化を与えるために、逆たたみ込みされた アルゴリズムを用いて組み合わされる。音声を表す符号化された情報は、そうし て、音声圧縮、音声認識、話者識別、音声合成、および音声電話(すなわち、ボ コーディング)のような音声技術の応用例のために利用される。 同時に得られた電磁センサーおよび音響情報は、時間フレームを定義するため に、およびそれぞれの音声時間フレームにたいする話者の刺激関数および声道関 数の詳細を得るために用いられる。その方法は、それぞれの音声時間フレームで 話された音響音声単位を特徴化するための数値特徴ベクトルの構造が利用できる ようにする。これは、先行する研究者たちが利用できたよりも完全で正確な情報 の集合を用いることによって、音声の特徴化(すなわち符号化)の新しい方法を 可能にする。そのような符号化は、より正確でより経済的な、音声認識、音声圧 縮、音声合成、ボコーディング、話者識別、教示、人工発声装置、および他の応 用例の目的に用いることができる。 本発明は、使用者が、本方法を用いて、定義された各音声時間フレームに対す る、人間の音声機構の伝達関数を得ることを可能にする。さらに、本発明は、音 声認識、音声合成、話者識別、音声伝達、および他の応用例、における価値のあ る応用例のためのこれらの関数の符号化(すなわち、数値的な記述)のいくつか のアルゴリズムの方法を含む。ここにおいて述べられた符号化のシステムは、デ ータ平均化およびデータ記憶アルゴリズムとともに電磁波の発声、変換、および 検出を含む、1996年6月2に出願された米国特許出願第08/597,59 6号において記述されている装置およびデータ収集の技術の多くを利用すること ができる。出願中のこの特許出願の中で定義された手順は、NASRまたは非音 響音声認識と呼ばれる。従来の技術に基づく手順は、従来型音響音声認識(CA SR)と呼ばれ、これらの手順はまた、ここで、処理された音響情報を提供する ために用いられる。 次のような用語がここで用いられる。音響音声単位とは、本方法を用いて記述 され、認識され、または合成される、1つのまたは多重音の発声である。例は、 音節、半音節、音素、音的音声単位(すなわち、PLU)、倍音素、3倍音素、 および言葉のようなより複雑な音の連続を含む。音素の音響−音声−単位が、本 方法の音声単位の例のほとんどに用いられる。音声フレームとは、その間に(発 声ひだの反復運動を含む)音声器官の状態および音響出力が、定常度を定義する 所定の値の中で一定でありつづけるような時間である。複合時間フレームとは、 音響的なまたは音声器官の状態の時間に対する変化を記述するために、互いに結 合された時間フレームの連続である。音声周期、またはピッチ周期とは、非音声 化された音への、または沈黙への移行を含む、次の声門の周期が始まるまで声門 が開いている時間、およびそれが閉じている時間の和である。音声セグメントと は、本方法を用いて処理される発声音声の時間の周期である。声門組織は発声ひ だの組織および周囲の組織を含み、声門の開/閉周期は、発声ひだの開/閉周期 と同じである。ここで用いられる語汎関数とは、変数および記号的パラメータ係 数を伴なった数学的関数を意味するのに対して、語関数とは、定義された数値的 パラメータ係数を伴なった汎関数を意味する。 本方法および装置は、電磁センサーによって検出可能であり、後述のごとく処 理される発声器官の運動によって発生させられる動物の音と同様に、全ての人間 の発声音に対して働く。例は、アメリカ英語の音声に基づくが、それに限定され るものではない。 1)電磁センサー発生器 周波数、タイミング、パルス波形、組織伝搬、および電源(および安全)を満 たす、電磁波の発生および検出モジュールの全ての構成が用いられ得る。アンテ ナからの距離に関係するときには、近距離場モード(ほとんど非放射の)におい て、電磁波が非放射および放射の両方であるところでは中間電磁場モードにおい て、および放射遠距離場モード(すなわち、ほとんどのレーダー)において、作 動する電磁波発生器が用いられ得る。100MHzから100THzまでのいく つかの波長域内の電磁波が組織を貫通することができ、ここに述べられたように 用いられ得る。特定の例としては、2.5GHzの信号を放射し、2MHzのパ ルス繰返し数でその測定を繰り返し、頭部または首内に10cm以上貫通する広 帯域マイクロ波電磁発生器インパルス・レーダーがある。そのような装置は、そ の方法を確証するための適切なアルゴリズムとともに用いられてきた。これらの 装置は日常の人間の使用のためには経済的で安全であることが示されている。そ の音声符号化の実験は、2つの異なった構成における、電磁波の送受信装置(す なわち、インパルス・レーダー)を用いて実施された。1つの構成においては、 声門の開閉情報が、同時的な発声音情報とともに、マイクロフォンおよび1つの レーダー装置を用いて得られた。実験の第2の設定においては、3つの電磁セン サー装置および1つの音響装置が使われた。さらに、頭部および首部内への電磁 波の送受信の精度の改善のために、非常に高精度な刺激関数の記述のために、特 定の方法が説明される。 2)電磁センサー検出器 非音響音声情報を得るために、多くの異なった電磁センサー検出器モードが議 論されている。複合パルス、固定距離ゲート受信システム(すなわち、フィール ド撹乱モード)が、発声ひだの運動および近傍の組織の検出のために用いられた 。声道の状態に追加された情報を得るために他の発生組織の位置を決定する他の 方法が用いられた。電磁波検出に関するレーダー文献において、多くの他のシス テムが述べられ、そして利用することができる。 3)構成構造および制御システム 携帯式のおよび固定式の電磁センサー音響システムのための多くの異なる制御 方法が、音声符号化の目的に用いられ得る。しかしながら、ここで述べられる処 理手順は、追加的な、異なる構成および制御システムを必要とするかもしれない 。例えば、高忠実度の「擬人化された」音声合成のような応用例においては、計 装、データ収集、および音単位の構文解析の性能について、特別強調されなけれ ばならない。記録環境、計装の線形性、ダイナミックレンジ、検出器の相対的タ イミ ング(例えば、声門からマイクロフォンまでの音響伝搬時間)、交直変換器の正 確さ、処理アルゴリズムの速度および正確さ、および再生機器の品質がすべて非 常に重要である。 4)処理装置およびアルゴリズム 受信された電磁信号および音響信号の各集合については、音響出力から刺激を 逆たたみ込みする目的のために、および管の形状識別のために、組織の位置(ま たは運動)についての情報を処理し取り出し、符号化された音声を用いる必要が ある。例えば、時間に対する発生ひだ(従って、空気流のための開領域)の位置 は、反射電磁波を時間の関数として測定することによって得られる。同様に、唇 、顎、歯、舌、および軟口蓋の位置の状態に関する情報は、他の方向から電磁波 を送信し、他のパルス波形を用いることによって得られる。発生器官から反射さ れ受信された信号は、メモリに記憶され、以下に定義されるように、各音声時間 フレームごとに処理される。反射電磁信号は、時間の関数として計数化され、平 均化され、正規化され、そして特徴ベクトルが形成され得る。 本発明は、他の音声器官および音響効果の状態が実質上一定である間、発生音 声のために声門が開/閉する回数を用いて、音声時間フレームを自動的に定義す るために、電磁センサーのデータを用いる。処理のために(符号化または再構成 のために)用いられる実際の音声時間フレームの間隔は、データ処理を最適化す るために適用することができる。その間隔は、1つまたはいくつかの一定な1ピ ッチ周期によって、1ピッチ周期の値、小さな音の変化が起こる実質的に同一の 周期の数を記述する乗算器によって記述することができ、本質的に一定であるが 「ゆっくり変化する」組織の、または音響の状態を伴なう音声の時間間隔を記述 するために、ピッチ周期を用いることができる。基本的な声門周期のタイミング 単位は、マスタークロックとして役立つ。マスタータイミングのための声門周期 の使用は、発せられた音声の符号化、音声圧縮、話者識別、練習データ取得、コ ードブックまたはライブラリの生成、他の計器との同調、および他の応用例のた めの、自動化された、音声および発声器官情報の処理システムを可能にする。こ の方法は、倍音素およびより高いオーダーの多重音の音響音声単位を定義するた めに、時間の圧縮およびアライメントのために、話者の音声変化率の正規化のた めに、韻律パラメータの定義および実装のために、とくに有効である。タイミン グはまた、非音声化された音声に対して定義することができ、発生音声に用いら れる手順に対しても同様である。 音声時間フレームが定義されると、使用者は音響出力関数から音響刺激関数を 逆たたみ込みする。両方とも、定義された時間フレームにわたって同時に計測さ れる。数学的「転化」の諸問題が克服されているので、従来の方法に比べて、よ り正確で効率的な符号化が行われる。声門のひだが閉じられ空気流が止まる(す なわち、声門の「ゼロ」)時間を含む、人間の刺激源関数をリアルタイムに測定 することによって、これらの非常に重要な関数的形態をモデルの各々の音声単位 に役立てることができる。刺激関数を測定するこの新しい性能の結果、使用者は 、非常に正確で効率的なディジタル信号処理技術を、音響音声出力関数から刺激 関数を逆たたみ込みすることに役立てることができる。この時初めて、使用者は 各音声単位に対する人間の発生管の伝達関数を正確かつ完全に記述することがで きる。 人間の音声を記述する3つの音声関数、すなわち、E(t)= 刺激関数、H (t)= 伝達関数、およびI(t)=出力音響関数がある。使用者は、他の2 つの関数を知ることによって、これらの3つの関数のどの1つをも決定すること ができる。人間の発声システムは、時間に対して急速に振動する空気流(または 気圧パルス)を生み出す刺激関数E(t)を生成することによって働く。これら の(音響)パルスは、音声出力I(t)を得るために、声道転化関数H(t)に たたみ込まれる(または、それによってフィルタされる)。好都合にもリアルタ イムで、入力刺激Eおよび出力Iを測定できるということが、IからEを逆たた み込みするために線形的数学処理手法を用いることを可能にする。この手順は、 使用者が、話者の転化関数Hの正確な数値的記述を得ることを可能にする。この 方法は、好都合にも、周波数に対する多重振幅として表される、関数Hの数値的 フーリエ変換に導き、時間変域関数もまた得られる。Hに対するこれらの数値的 関数は、モデル関数に連係することがすることができ、いくつかの方法で表形式 に記憶することができる。関数Hは、各話者の声道の音響システムを詳細に記述 し、擬人化された発声音を定義する上で支配的な役割を果たすので、特に有効な ものである。 第2に、合成された出力音響関数I(t)は、それぞれの望ましい音響音声単 位のために、発声刺激関数E(t)を伝達関数H(t)にたたみ込むことによっ て生み出される。第3に、刺激関数Eは、測定された音響関数出力関数Iから先 に得られた伝達関数Hを逆たたみ込みすることによって得ることができる。この 第3の方法は、音声化されない刺激のそれぞれのタイプのための刺激関数を定義 するため、修正白色ノイズ刺激源を得るのに有効である。さらに、これらの方法 は、処理ステップの動作の正確さおよび速度を増すために、E、H、またはIの 関数形態の部分的知識を利用することができる。例えば、伝達関数Hは、唇から 聴取者への自由空間音響放射伝達関数を記述する項Rを含むことが知られている 。この関数Rは、Hから、正規化するのが容易なより簡単な関数H*を残して取 去ることができる。発声器官の、よく知られた音響物理学、よく知られた生理学 的、機械学的諸特性に基づく同様な知識が、符号化におけるおよび特定の応用例 において制約するためにまたは援護するために用いることができる。 (方法の基礎) 1)話者の発声刺激関数および話者からの音響出力は、電磁センサーおよびマ イクロフォンを用いることによって、正確にかつ同時に測定される。1つの重要 な帰結として、話者の声門の自然な開閉は、音声時間フレームの定義のためのマ スタークロックとして役立てることができる。 2)上記1)からのデータは、音響出力から刺激関数を逆たたみ込みし、話者 の声道伝達関数の各音声時間フレームを得るために用いられる。 3)ひとたび刺激関数、伝達関数および音響関数のパラメータが決定されると 、使用者は、関心の度合いにおいて、それぞれの時間フレームにおける音声を特 徴化する特徴ベクトルを形成する。 4)特徴ベクトルの形成手順は、価値があり、より正確、効率的、および経済 的な、音声符号化、音声圧縮、音声認識、音声合成、電話方式、話者識別、およ び他の関連する応用例のための新しい手順を可能にする。 (人間の音声のモデルおよび符号化) システムの数学的なモデルを用いることは、線形システムの応用例におけると 同様に音響音声の技法においても通常に行われる。そのようなモデルは、時間に 対する(例えば、音響的)信号において測定された全ての情報を保持することに 非能率的であり、測定データに対して、単純化したり物理的な知識を強制したり するために定義という強制(例えば、パターンまたは関数形態)を与えるという 理由で用いられる。使用者は、その応用例の要求を満たす十分な情報を保持する ための、および処理する電子技術およびソフトウェアの限界と両立させるための 方法を用いることを必要としている。モデルは2つの一般的なカテゴリーー、線 形および非線型、に分けられる。ここにおける方法は、従来の音声技術の技術者 には利用できなかった音声の符号化の目的のために、電磁センサーおよび音響情 報を処理するための多くの線形モデルを記述する。その方法はまた、表検索によ って、または曲線の適合によって、摂動法によって、または入力信号への出力に 関連するより洗練された技法を用いることによって定量化することができ、使用 者には利用できなかった、非線型音声モデルを用いる符号化を含む。 同時に得られた音響情報はまたよく知られた標準的な音響処理技法を用いて処 理することができる。処理された音響情報を用いる特徴ベクトルを形成するため の手順はよく知られている。その結果生じる特徴ベクトルの係数は、ここで述べ られる電磁センサー/音響方法によって生成された特徴ベクトルの係数と結合さ れる。 発声システムのモデルは、そこから音圧波が聴取者またはマイクロフォンへ放 射する音響共振管を駆動する刺激源によって、一般的に記述される。2つの主要 な音声タイプがある。一つは、1)発声ひだが約70から200Hzで急速に開 閉し、声道内に空気の周期的な突発を与える、音声化された刺激であり、他の一 つは、2)声道内での収縮が、空気乱流およびそれと結びついた修正白色音声ノ イズを引起こす「音声化されない」刺激である。(いくつかの音は、同時に両方 のプロセスによって作られる)。 人間の声道は、刺激(すなわち、ノイズ源または気圧パルス)を、ほぼ線形的 な過程を介して、認識可能な音に変換する、複雑な音響機械的濾過器である。身 体的には、人間の声道は、側枝共振構造、鼻孔連結部、および中間部、端点部の 狭窄を伴なった、異なった長さ、異なった領域形状の管の連続である。刺激の圧 力波が刺激源から口(および鼻、または鼻のみ)へ前進する際に、それは定常的 に伝送され、管構造内の変化によって反射され、唇(および鼻)に到達する出力 波は、その濾過プロセスによって強く変化させられる。さらに、圧力波は、音に 対しても同様に作用する低いレベルにおいて周囲の組織を振動させる。逆方向に 伝搬する波(すなわち、声道の変化からの反射波)が、発声ひだおよび肺の方向 へ逆方向に伝わることが知られている。それは、音響的には聞こえないが、声門 のシステムに影響を及ぼして、声道組織の振動を引き起こし得る。そのような振 動は、マイクロフォン・モードに用いられる電磁センサーによって測定すること ができる。 ベル研究所(Bell Laboratory)(フラナガン、オリーブ、ソンディ、およびシ ュレーター(Flnagan,Olive,Sondhi and Schroeter)同書)および他所の研究者 たちは、刺激源の特性および関連する声道の構成についての正確な知識が、音節 、音素、またはより多重化した単位のような所与の音響音声単位を唯一特徴化す ることができるということを示した。この知識は、それぞれの音声時間フレーム にわたって音声単位を記述する特徴ベクトルの係数として役立つ数の比較的小さ な集合によって伝えることができる。その応用例によって要求される正確さの度 合いを満たすために生成される。もし音声の音において変化があれば、それは話 者が、変化した音を生み出すために1つまたはそれ以上の音声器官を動かした、 ということもまた知られている。ここで述べられる方法は、そのような変化を検 出するために、新しい音声時間フレームを定義するために、および新しい音声条 件を記述するための新しい特徴ベクトルを形成するために、用いることができる 。 正確な声道伝達関数情報を得るための方法は、各時間フレームに対する音声路 情報の全体を記述する特徴ベクトルにおいて用いることができる係数を定義する ために用いることができる。 声道伝達関数を記述するためにしばしば用いられる線形モデルの1つのタイプ は、音響路のモデルである(ソンディおよびシュレーター(Sondhi and Schroete r)の同書を参照)。使用者は、人間の声道を多数の路のセグメント(例えば、2 0)に分け、高度の数値的技法を用いて、音の波を刺激源から最後の路のセグメ ント(すなわち、出力)に、(数値的に)伝え、出力音を得る。コンピュータは 、全ての反射、再反射、伝送、および他の伝達特徴の軌跡を保持する。専門家は 、ひとたび、全てのセグメントを記述するパラメータと全ての刺激パラメータが 得られると、その音は受入れ可能であることを知る。 この音響路モデルが知られて何年にもなるが、それを記述するパラメータは測 定するのが難しく、所与の話者からリアルタイムに取得することは実質上不可能 である。刺激関数の測定、音響出力、および逆たたみ込みする手順を記述する本 方法は、物理的な声道構造モデルの狭窄および条件がそれぞれの時間記述できる ために必要な十分な数のパラメータを生み出す。時系列の技法に基づく一次元的 数値手順が、符号化および合成のための正確なモデルを提供するために、20に 達する路セグメントを有するシステム上で実験的に示された。 声道のための線形的音響モデルの第2のタイプは、刺激源および伝達関数(ポ ールおよびゼロを伴なう)が通例用いられている電気回路の類推に基づいている 。対応する回路の値は、測定された刺激関数、出力関数、および導き出された伝 達関数の値を用いて得ることができる。そのような回路類似モデルは、1個のメ ッシュ回路の類似から20(または、それ以上)個のメッシュ回路モデルにおよ ぶ。体積空気流量を表す電流(および、空気圧を表す電圧)を定義し、それから 音響路部室内の体積を表すコンデンサ、音響路部の空気質量を表すコイル、およ び音響路部の空気摩擦および熱損失値を表す抵抗を用いることにより、使用者は 電気回路の技法を用いて声道をモデリングすることができる。(TまたはPiま たはその両者のような)回路構造は、特定の個人の管の長さ、舌の位置、および 側面共振体のような、音響システムの分離構造に対応する。原則として、使用者 は、複雑さの要求を満たす定数および構造を選択し、未知のパラメータの値をも つ汎関数を形成する。実際は、回路の類似を定義するのは容易であるが、所与の 個人を記述する値を得ることは非常に難しく、それらをリアルタイムに測定する ことはなお一層難しい。1つのメッシュ・モデルを用いて、電気的類似方法が、 リアルタイムに人間の特徴ベクトル係数を定義するための必要な情報を得るため に有効であることが実験的に示された。 第3の重要なモデルは、移動平均の自動回帰(ARMA)技法を用いる時系列 の手順(ディジタル信号処理のタイプ)に基づいている。この方法は、伝搬する 媒体における一連の移行をトラバースする際に、波の動きを特徴化するので、特 に重要である。ARMA汎関数の度数は、個人のモデルにおいて用いられる音響 路内の移行(すなわち、狭窄および他の変化)の数を反映する。そのようなモデ ルはまた、いくつかのタイプの刺激源、声道の組織媒体それ自身の上を伝搬する 波の反応、および刺激関数に向かって逆向きに伝搬する波によるフィードバック 、の合体を可能にする理由で、非常に価値がある。ARMAモデルの使用は、他 の音とともに、音素「ah」と言う話者の声道伝達関数のための特徴ベクトルを 形成するために、14個のゼロおよび10個のポールを用いて試験された。 第4の方法は、データを、測定された刺激関数および音声出力処理値の表に当 てはめるために、一般化された曲線の適合手順を用いることである。(例えば、 多項式、LPC手順、または他の数値近似法を用いる)曲線の適合処理は計算法 においてよく知られており、かつ処理される数値データへの許容し得る適合を生 み出すために限られた数のパラメータを用いる汎関数形式を使用する。汎関数形 式は部分的な物理的知識を含むこともある。これらの手順は、出力を入力に関連 付ける任意の非線型的な特性とともに線形的な特性をも測定し定量化するために 用いられる。 5)音声の符号化およびポストプロセッシング装置 次の装置は、音声符号化システムの部分として、または、すべて合わせて、応 用例に関連する様々な使用者選択音声のために、用いることができる。以下の装 置の全ては、一般的な周辺装置を除いて、本方法を利用するために特別に設計さ れたものであり、これらの方法なしには十分に作動しない。 a)電磁センサーを有する電話送受信器。本応用例のために選択された装置は 、必要とされる電磁センサー、マイクロフォン、スピーカを含み、いつでも手近 に応用例を制御する。このような、電話のような装置の内的構成要素には、1つ またはそれ以上の電磁センサー、処理装置、制御装置、合成装置、および無線伝 送装置を含むことができる。この装置は、無線または伝送線技法を用いてより複 雑 なシステムに結合することができる。 b)制御装置。定義された方法に従ってプロセッサが働くように指示すること によって、使用者の制御意図を実行する特定の装置であり、それは指定されたプ ロセッサへ情報を送り、それは、処理されたデータを指示に従って短期または長 期記憶に格納し、データを、特別の目的のための別の特定の装置に、ディスプレ イ装置に、または指示されたように通信装置に伝送する。 c)音声符号化装置。符号化プロセッサの特定のタイプは、それぞれの音声時 間フレームにおいて特徴ベクトル内に形成される一連の係数を生成するために、 音響センサーからの情報を電磁センサーシステムからの発声器官情報(例えば、 発声ひだの運動)に結合させる。これらの働きを遂行するためのアルゴリズムは 、その中に含まれる。 d)音声認識装置。ポストプロセッシング装置は、音声認識応用例のための音 声符号化装置によって形成される特徴ベクトルを識別するために用いられる。そ の音声認識装置は、c)からの特徴ベクトルを先行構成ライブラリのそれに組合 わせる。認識と結びついた他のポストプロセッシング装置(例えば、スペルチェ ッカー、文法チェッカー、および構文チェッカー)は、通例、音声符号化応用例 のために必要である。 e)音声合成およびスピーカー。符号化された音声は可聴音響出力に合成され る。このようにして符号化された情報は、使用者の新しい音声から、音響出力に 変換される記号情報(例えば、ASCII記号コード)から、他のシステムから 伝送された情報から、および使用者とのシステム通信から検索することができる 。さらに、符号化された音声は、多くの声または言語に変えられ合成することが できる。 f)話者識別。ポストプロセッシングの一部分として、それぞれの話者の特異 的な音声および器官運動の特徴が、リアルタイムに解析、比較され得る。その比 較は、話者の物理的音声器官運動、形状、および一連の言葉についての言語使用 特性の知られた記録である。電磁センサー情報が、音響音声のみを用いてはでき なかった識別処理に洗練さの新次元を加える。 g)暗号化装置。ここでの手順によって符号化された音声は、認可された使用 者以外の他人によって用いられるのを困難にするための様々な方法によって、さ らに符号化する(すなわち、暗号化する)ことができる。ここで述べられる方法 は、使用者が音声を、暗号化情報が通常用いられる帯域幅を超える付加的帯域幅 を要求することなしに、伝送音声信号に加えることができるような低帯域幅の要 件で符号化することを可能にする。 h)ディスプレイ装置。コンピュータが表した音声情報は、様々な応用例のた めに使用者が利用できるものでなければならない。ビデオ端子は、話された言葉 の書き言葉への表現を、情報(例えば、声道内の調音器官)のグラフィカルな表 現を示すために用いられ、スピーカは、先に記録され符号化された音声を使用者 に再生して聴かせるために用いられる。その情報はプリンターまたはファクス機 を用いて印刷されて表示され得る。 i)手動制御装置。手動制御装置は、ここで論じているシステムの指示を手伝 うことができる。(「マウス」と類似した)手動制御装置の利点は、入力される 音声のタイプの伝達または修正を支援することができるということである。例と しては、データの入力から制御の指示を区別すること、合成された音声手動指示 カーソルを指示すること、表示テキストセグメントの識別速度を増大させること 、使用者による制御の確実性を高めること、望まれる合成フレーズの再生を聞き 出すこと、言語補正のために話者の調音器官の位置の声道の形態を要求すること 、等がある。 j)言語認識機および翻訳機。話者がマイクロフォンに向かって話し始める際 に、この装置は音声を符号化し、測定された一連の音素を、それらが属する言語 に関して特徴化する。システムは、使用者に、認識される知られた言葉を発音す るよう要求することができ、または、システムは、それぞれの言語のためのコー ドブックを通して統計的検索を実施するために、高頻度の言葉の音のパターンの 統計を用いることができる。 1つの言語から音声認識された言葉を受入れるために、および同じ言葉のため の記号を第2の言語の音声合成コードに翻訳するために、ここで述べられるこの 同じ装置および手順を用いることは便利である。使用者は、用いられる言語を識 別するために、話者に要求する制御コマンドを実行してもよい。一方、自動言語 識別装置は、そこからおよびそこへ翻訳が行なわれる言語を識別するために、言 語の統計学を用いることができる。そして翻訳機は、第1の言語が話されている 間にシステムが生成した音声単位コードおよび関連する音声単位記号を用いて、 第2の望まれる言語への翻訳を実行する。翻訳機によって生成された音声コード はそれから、望まれる第2の言語における記号または合成音声に変換される。 k)周辺装置。使用者に新しい能力を可能にするよう要求されることにより、 システムに多くの周辺装置を取付けることができる。1つの例として、補助的な 媒体インタフェース装置は、音響音声および音声符号化との同調を要求する、ビ デオカメラのような媒体の接続を可能にする。データリンクは、他のシステムと の無線または伝送線インタフェースおよび通信を提供するので非常に有効なもの である。キーボードは、従来の方法でのシステムとのインタフェースに用いられ るだけでなく、音声技法の手順を指示するためにも用いられる。ディスク、テー プドライブ、半導体メモリのような記憶装置は、必要とされる情報の一時的な記 憶のために、処理された結果または処理の中間データを保持するために用いられ る。 図面の簡単な説明 図1は、従来技術の開ループ音響音声符号化システムの略図であり、 図2は、電磁センサーおよびマイクロフォンを用い、光学的補助媒体を含む、 合成された非音響・音響音声の符号化システムの略図であり、 図3Aは、音声符号化のシステムを測定する高度に正確で柔軟な声道実験室の 略図であり、 図3Bは、3つのマイクロパワーレーダーおよび音響マイクロフォンを用いる 音声符号化のためのシステムの図であり、 図4は、開いた状態で示された声道をもった話者の頚部内への電磁放射を行な う電磁センサーの図であり、 図5は、同時的に記録される音響データおよび電磁センサーのデータの処理、 およびそれに引続く逆たたみ込みをを示すフローチャートであり、 図6は、発声ひだのための電磁センサーおよびマイクロフォン音響検出器を示 す発声システムの音響および空気流モデルであり、 図7は、20のセグメントに分けられた声道の連続的なモデルであり、 図8は、電磁センサーおよび音響データを用いる音声符号化システムの略図で あり、 図9Aおよび図9Bは、音響圧検出器および電磁声門検出器を用いる、音声「 ah」についての時間領域データであり、 図10A、Bは、音「Ah」についての声門周期の、音響マイクロフォンデータ および電磁センサー測定値に対するフーリエパワースペクトルであり、 図11Aは、2管音素「ah」について得られるフーリエ伝達関数の振幅係数 を示す図であり、 図11Bは、単管音素「ae」について得られるフーリエ伝達関数の振幅係数 を示す図であり、 図12Aは、音素「ah」についての特徴ベクトルの図であり、 図12Bは、図9AについてのARMAのポールおよびゼロを示す図であり、 図12Cは、図11Aで示された音「ah」についての対応するARMAの「 a」および「b」を示す図であり、 図13A〜13Fは、1音声フレーム周期の間の音声ひだの開閉の形態および 特有の寸法を示す図であり、 図14Aおよび14Bは、音素「ah」について声門の時間に対する運動を示 す、実質上同時に記録された音響信号および対応する電磁センサー信号を示す図 であり、 図15Aは、単語「lazy」についてのいくつかの音響的セグメントを示す 図であり、 図15Bは、単語「lazy」における、音声化された、および合成音声化・ 非音声化された単位「z」についての、音声時間フレームおよび電磁センサー発 声ひだ信号を示す図であり、 図16は、音響モデルへの電気的類似である電源およびインピーダンス・モデ ルの図であり、 図17Aは、体積空気流量を独立変数として用いて、音「ae」の第1形式を モデリングする1メッシュ電気的類似回路の図であり、 図17Bは、空気圧を独立変数として用いる1メッシュ電気的類似回路の図で あり、 図18Aは、話者依存特徴ベクトル係数、measCnを、正規化された係数、norm alCnに正規化する方法を示す図であり、 図18Bは、正規化された係数を、それにわたって重要な音の変化が起こらな い、係数の量子化帯域を表す1つの量子化された値に量子化するための方法を示 す図であり、 図19は、音響音声音素「ah」の、測定されたおよび合成されたパワースペ クトルの間の比較を示す図であり、さらに、 図20は、符号化のための電磁センサー、復号のために合成器を含む、送受話 器およびマイクロフォンを伴なう電話ハンドセット・ボコーディング装置を示す 図である。 好ましい実施の形態の詳細な説明 (一般的な原理) 図2は、音声ひだの境界面および声門組織の運動を測定するために用いられる 電磁センサーに基づく音声処理モデルを示すものである。これらの運動は、体積 空気流量または声門の圧力に関連付けることができ、伴なう音声と同時に測定す ることができる。人間の声道の刺激入力および音響出力の知識は、出力から刺激 を正確に逆たたみ込みするための有効な情報を与える。センサーから、および逆 たたみ込み処理からの情報は、人間の音声をリアルタイムに、および経済的に、 安全に、使いやすく、および正確に、符号化する新しい方法を可能にする。 図2において、音響マイクロフォン1からの信号はブロック2で処理される。 ブロック2では、音響信号がディジタル化され、特徴ベクトルが、選択された時 間フレームにおいて形成される。電磁発声ひだ検出器3からの電磁信号は処理ブ ロック4に入力され、ここで信号がディジタル化され、時間単位が定義され、特 徴ベクトルが形成される。処理ブロック2,4からの音響および電磁特徴ベクト ルは処理ブロック5に入力され、ここで電磁信号が音響信号から逆たたみ込みさ れる。処理装置4はまたタイミング装置6を制御する。タイミング装置6は、マ スタータイミングおよび音声時間フレームを設定すると共に、処理装置2および 4にも接続される。ブロック5から出力される逆たたみ込みされた出力情報は装 置7に入力される。ここで、データが伝達関数に適合される。この伝達関数は装 置8で結合特徴ベクトルを形成するために用いられる。結合特徴ベクトルはブロ ック9のメモリまたはコードブックに記憶される。声道の状態を測定するために 電磁センサー10を用いることができ、他のセンサー11もまた利用できる。セ ンサー10,11からの特徴ベクトルがブロック12,13に形成され、逆たた み込みのための最良の伝達関数がブロック14において選ばれ、それから装置7 に入力される。さらに、ブロック2からの特徴ベクトルを、従来の音響認識シス テム(CASR)へ送ることができ、ブロック12,13からの特徴ベクトルを 、分離処理およびここで述べられる応用例の引続く使用のために、ブロック15 経由で送ることができる。 図3Aおよび図3Bは、いくつかの音声器官の同時的特性を電磁センサーを用 いて測定するための、または同時的音響情報を得るための、2つのタイプの実験 室装置を示す。図3Aは特に、それぞれの音声時間フレームの間での発声システ ムにおける非常に高い忠実度、線形性、および非常に大きなダイナミックレンジ 情報を得るように組立てられた高度に正確な実験用計測装置を示す。図3Aは、 3つのアンテナ21,22,23を持つヘッド、および支持スタンド25に据付 けられた音響マイクロフォン24を示している。アンテナ21,22,23は、 送受スイッチ27a,27b,27cを介してパルス発生器26a,26b,2 6cにそれぞれ結合されている。パルス発生器26a,26b,26cは、パル スをアンテナ21,22,23に振向け、それらは発声器官のさまざまな部分に 送られる。アンテナ21,22,23は、反射パルスを拾い、それらのパルスは それからスイッチ27a,27b,27cを介してパルス受信機およびディジタ イザ(例えば、サンプルホールド装置)28a,28b,28cへ、送り返され る。マイクロフォン24からの音響情報はまた、パルス受信機およびディジタイ ザ28dに入力される。支持スタンド25は、例えば顔位置決め構造体29およ び胸位置決め構造体30を用いて、声道の様々な部分からの信号を検出するため に、アンテナ21,22,23を位置決めする。図示されているように、アンテ ナ21は、舌や、唇、軟口蓋等を検出するように位置決めされる。アンテナ22 は舌および顎の運動を検出するように位置決めされ、アンテナ23は発声ひ だの運動を検出するように位置決めされる。 図3Bは、現在利用できるマイクロインパルスレーダーが、制御された設定に おける様々な音声器官情報を得るために、どのように用いられるかを示すもので ある。発声ひだまたは他の組織の運動を測定する電磁センサーからの電磁信号は 、ここで説明する方法を用いて、真実の発声された刺激信号(すなわち、時間に 対する体積空気流量または時間に対する圧力)に関連付けられる。図3Bは、支 持スタンド35に据付けられた3つの電磁センサー送受モジュール31,32, 33および音響マイクロフォン34を持つヘッドを示している。その構造は、残 りの関連する電子部品を伴なうアンテナが、離れたラックに据付けられる代わり に、全ての電磁センサー31,32,33がスタンド35に据付けられている、 ということを除けば、図3Aのそれに類似している。この明細書において参照さ れている多くの実験が、図3Bに示される装置に類似した装置を用いて遂行され る。 図4は、電磁波発生器からの電磁波が、人間の話者の首の中の発声ひだの状態 を測定するためにどのように用いられるかを示すものである。その電磁波は、ア ンテナから放射されるものとして示されている。しかしながら、他の測定装置は 、ほとんどのレーダーにおいて使用されるような遠距離電磁界に放射された電磁 波に加えて、近距離場または中距離場における電磁波をも用いることができる。 電磁波は、発声ひだおよび発声ひだ構造を取囲む声門組織の状態を、応用例の精 度に要求されるような頻度および正確さで測定するために、発生させられる。 図5は、音声化された刺激関数の知識が、声道伝達関数情報をそれぞれの時間 フレームで測定された音響音声出力から逆たたみ込みするために用いられるシス テムを示す。それぞれの音声時間フレームにおいて収集された、音響学、電磁セ ンサー情報、および逆たたみ込みされた伝達関数情報を含むすべての情報が、1 つまたはそれ以上の音声時間フレームの間に、(制御情報に従って)処理され、 正規化され、話者の声を表す特徴ベクトル内に格納される。同様の逆たたみ込み 手順が、無声の刺激関数について用いられる。図5に示されるように、電磁セン サー制御装置40は、アンテナ43からの1つまたはそれ以上のパルスを伝送す るパルス発生器42を駆動する繰返し数トリガ41を駆動する。電磁センサー制 御装置40は、パルス形式、時間フレーム間隔、統合時間、メモリの位置、関数 形式を設定し、パルス発生器42を制御し、初期化する。制御装置40およびト リガ41はまた、距離ゲート受信パルスへの遅延回路44を介してスイッチ45 を駆動する。アンテナ43は、発声器官に向けて送られたパルスを方向づけ、そ こから反射されたパルスを受信するように位置決めされる。受信されたパルスは 、スイッチ45を通り、積分器46によって積分され、それから増幅器47によ って増幅され、高域フィルター48を通って処理装置49へ通される。処理装置 49は、電磁信号をディジタル化するためのAD変換器を含み、またゼロ位置検 出器、メモリ検出器を含み、時間に対する声門を得る。装置49からのディジタ ル化され処理されたデータは、メモリビン50に格納され、それから刺激関数特 徴ベクトルがブロック51で形成される。同時に、音響マイクロフォン52から の信号は、AD変換器53によってディジタル化され、それはまた、電磁センサ ー制御装置40によって制御され同調される。AD変換器53からのディジタル 化されたデータは、メモリビン54に格納され、それから音響特徴ベクトルがブ ロック55で形成される。メモリビン50からのディジタル化された発声ひだデ ータは、声門のフーリエ変換を与えるために用いられ、一方、メモリビン54か らのディジタル化された音響データは、音響フーリエ変換56を与えるために用 いられる。2つのフーリエ変換56,57は、声道特徴ベクトルをブロック60 で形成するために前もって選ばれた関数形式に適合させられる声道フーリエ変換 59を与えるために、ブロック58において逆たたみ込みされる。 図6は、音響的視点から見た、人間の発声システムの略図を示すものである。 図6はまた、音声において役立てられる重要な要素を、声道のための刺激源を形 成する(発声ひだの運動を含む)声門の運動を検出するように位置決めされた電 磁センサー61、および口からの音響出力を受取るように位置決めされた音響セ ンサー62に結びつける。音響刺激パルスの物理的な動きは、それらが発声ひだ によって生まれた後に、または気道の狭窄において発声した後に、およびそれら が移動して、変化する管および気室によってフィルタされる際に、音響センサー (例えばマイクロフォン)によって、音響圧力波として測定される。ここにおい て述べられる手順は、すべての重要な声道構造の成り行きをどのように記述する かを、それらが新しい音を作り出すために変化する時をどのようにして決定する か、および引続く応用例のために、そのような状態をどのようにして符号化する かを示す。人間の音声器官の構造の状態は、その構造によって発音された音響音 声単位を識別するために十分な情報を与えることが知られている。さらに、これ らの構造は個人から個人へと変化し、一連の音響音声単位を発音するためにそれ らが形成され運動するその仕方は、言語から言語へと、個人から個人へと変化す る、ということが知られている。そのような個人的構造パターンおよび音声音を 形成するための時間的な順序付けは、話者識別および言語識別のための基礎を作 る。 図7は、人間の発声システムを通り中央平面に沿った横軸の寸法を表す切断面 の略図である。破線および番号は、声道を短く近似した円筒一定部分によって近 似すべき場所を示す。破線で示された各境界面において、円筒は直径を変え、こ うして声門から唇や鼻に伝搬する音響波は、伝送され反射される。人間の発声シ ステムにおいては、断面は円形ではないので伝送は滑らかである。この構造を十 分な数の下部構造に(例えば、20個)に分割することによって、それぞれは隣 と少しずつ寸法が変わるので、空気の流れ(および圧力)の正確な記述が得られ る。よく知られた数値的または時系列的な(例えば、ARMA)技法が、刺激源 からマイクロフォン(または人間の耳)検出器に伝搬する音響波を記述するため に用いられている。時系列解析(例えばZ変換)の手順が、それらの関数形式が 一連の反射および伝送構造に容易に調和するので、そうしたシステムを特徴化す るためには、とくに有効である。それらは、多くの伝達関数の例を述べるために 、本明細書中で用いられる。 図8は、電磁センサーおよび音響検出器の両方を含む、検出器71を用いる音 響技術システム70を図式的に示すものである。検出器71は、例えば、図3B に示される装置に似たように構成でき、または図20に示すように電話の送受装 置に組み込むことができる。検出器71は、無線(無線周波数のまたは光学的) リンクまたはケーブル通信ライン72によって、引続き制御ユニット73に連結 される符号化装置74に接続される。符号化装置74は、言語認識装置および翻 訳機75、音声合成器76、音声認識器77、および単語綴り/構文/文法生成 器78に接続される。手動制御装置79は符号化装置74に接続される。制御装 置73は、スイッチ切替えおよび情報の流れの指示のために、符号化装置74に 接続される。他の周辺装置は、制御装置73を介して符号化装置74に接続する ことができる。例えば、ビデオ端子80、ワイヤや、セルラー、ワイヤレス、フ ァイバーオプティクス等への通信リンク81、暗号化装置82、話者認識装置8 3、接続されるビデオカメラ85との補助測定器インタフェース装置84、プリ ンターまたはファクス86、またはラウド・スピーカ87、は全て制御装置73 に接続することができる。このようなシステムは、音声情報を記録処理すること を、その情報を符号化することを、および、言語コードブックの形成、音声認識 、音声合成、話者認識、ボコーディング、言語認識、同時的翻訳、音声の、ビデ オシステムおよび他の測定器との同調、低帯域符号化および暗号化、音声の修正 および人工発声装置、および言語学習、のような応用例のためにこの符号化され た情報を用いることを、可能にする。 図8において表されたシステムは、特定の応用例のために、簡単化および小型 化することができる。例えば、図20はボコーディングのための、携帯用に特殊 化された変更例を示す。なぜなら、それは電磁センサーと音響情報を取得し、処 理し、符号化し、および、その情報を、聴取者のために復号し合成するための同 様な携帯用装置へ運ぶ伝送システムに送るからである。 (発声システム刺激関数の逆たたみ込み) この方法は、発声システムの体積空気流量源関数を話者からの測定音響音声出 力から逆たたみ込みするために、1つまたはそれ以上の連続する音声時間フレー ム周期において測定された声門開口(すなわち、発生ひだ)領域情報および音響 情報を用いて論証される。図9A,9Bは、未処理の音響マイクロフォンデータ および声門運動データを示すものである。これらのデータのフーリエ変換を得る ことができ、それは図10A,10Bに示されている。これらの2つの関数の数 値的表現は、使用者が、時間フレームまたは複数の時間フレーム中の人間の声道 の音響濾過を表す伝達関数の数値的表現(すなわち、複素数係数の表現)を得る ことを可能にする。刺激関数の音響出力からの逆たたみ込みは、リアルタイム技 法、時系列技法、高速フーリエ変換技法、モデルに基づく変換技法、および、デ ータ処理および逆たたみ込みの分野の専門家にはよく知られた他の技法を用いて 、遂行される。例として、音響出力のフーリエ変換が、刺激関数の入力によって いかにして分割されるかを示す。図11Aは、図9A,9Bおよび10A,10 Bからの入力を用いて得られた2管音「ah」を示すものである。図11Bは、 2管音「ah」のデータに類似した音響および発声ひだデータを用いて逆たたみ 込みされた、単管音「ae」に対する伝達関数を示している。 同時的な音響データを伴なう、または伴なわない、他の音声器官位置情報を決 定するための(声門センサーに加えて)他の電磁センサーを用いることによって 、最良の逆たたみ込みのための、または最も正確な伝達関数の適合のための、最 適 な伝達関数構造を決定することができる。1つの例として、鼻音素「m」の発音 の間、唇が閉じられているとき、伝達関数形式が、閉じられた口腔に起因するス ペクトル・ゼロを含まなければならないということを伝えるために唇センサーを 用いることが挙げられる。 1つの例として、各音声時間フレームにおける、ポールゼロ近似数を伴なうA RMA汎関数(すなわち時系列)記述を選択することが挙げられる。ポールおよ びゼロの数は、モデルの複雑さおよび結果として生ずる符号化の望ましい精度を 表すために選択される。 I(t)およびE(t)はそれぞれ、測定された音響出力および電磁刺激であ る。z変換変数における伝達関数H(z)を用いた代数的な入出力の関係は、 I(z)=H(z)*E(z) となる。ここで、H(z)は、 によって因子ポールゼロ形式で与えられる。 同様に、伝達関数、汎関数形式は、a/bの表記法で書くことができる。そこ において、aおよびbは、それぞれm番目の分母の項、およびn番目の分子の項 の係数である。 ARMA関数のためのよく知られた逆たたみ込みの技法を用いることによって 、複素数を用いて変換された刺激源信号によって、変換マイクロフォン音響圧力 信号を分割し、そこから伝達関数の振幅および位相を得ることができる。伝達関 数 は、ポールおよびゼロによって、または上に示された2つの異なったARMA汎 関数内のaおよびbの係数によって定義される。さらにもし望めば、唇および鼻 孔における体積空気流量関数または伝達関数を得るために、マイクロフォン信号 から、よく知られた、唇からマイクロフォン放射関数を逆たたみ込みすることが できる。ARMA方式は、刺激関数および音響データの適切な関数定義とともに 、音声特徴ベクトルの各音声時間セグメントの直接的および自動的な定義を可能 にする。例えば、アルゴリズムは、時間に対する声門体積空気流量の三角近似を 定義する刺激関数パラメータを記憶し、それは、14個のポールおよび10個の ゼロ、フレーム持続時間、韻律学、いくつかの有益な音響特徴、および引続く音 響技術の目的のための制御値を用いて伝達関数を記憶する。各関数の形式のため に、情報が、リアルタイムな関数として、変換関数(例えば、フーリエ変換)と して、または必要であれば混成の関数として記憶され得る。 各音声時間フレームに対しての特徴ベクトル情報が、その時間フレームにおい て話された音声に関連する話者(または話者たち)の特徴ベクトルに対して正規 化される。正規化の方法は、測定された(および処理された)ベクトル係数を、 使用者および関連する話者の両方からの係数と比較することである。関連する話 者からの係数は、初期の訓練セッション中に記録される。正規化は、1つの装置 から他の装置への変動とともに、電磁センサーと各話者の個人的特徴の間の相互 作用における変動を取り除く。さらに、発声器官の値域を表す各個人の係数の連 続的な値域は、より少ない個数の値に量子化することができる。「量子化された 」値は、量子化された1つの係数から次の係数への変化が、本応用例における、 望ましい使用者識別効果を表す。1つの例として、量子化された各係数値は、合 成音声音における正確に識別可能な変化を表すということが挙げられる。以下に 述べるこれらの方法は、各音声セグメントに対する、話者に依存しない特徴ベク トルの形成を可能にする。各ベクトル内の係数は、時間長に依存しないように、 ピ ッチが正規化されるように、レートが正規化されるように、さらには発生器官の 振幅が正規化され量子化されるようにすることが可能であり、それらは、音響情 報の重要な諸局面を含む。本明細書中に述べられる方法は、発声システム情報の 完璧さ、音声符号化の正確さ、話者および測定器への非依存性、および関連する アルゴリズムの計算法における簡潔さのゆえに、音声符号化における大きな改良 を可能にする。 (時間フレーム定義の例および特徴ベクトル形成) 男性の話者が300msの時間セグメントを超えて、音声単位「ah」を発声 した際の11kHzにおける音声音響センサーと電磁センサーからの声帯ひだ信 号のサンプリングをした。図9Aと図9Bにそれぞれ、リアルタイムの音響およ び声門振幅を、時間信号に対して示す。伝達関数が32msのハミング窓で10 msごとに計算された。混成スペクトルが、音響と声門運動チャネルを共に用い て、256点のFFT(高速フーリエ変換)を用いて得られた。ARMAモデル を用い、最小自乗法で最も良く入出力データに適合させた。14個のポールと1 0個のゼロで最も良い適合を示した。このようなARMA係数は大きさと相の両 方の情報を含んでいる。ARMA係数の知識により、「ah」の発声音の10m s毎の音声フレームでの特徴ベクトルの構成ができた。それらの本質的に同一な 音声フレームが300msの多重ピッチ周期音声時間フレームの中に合成された (30の音声フレームの、それぞれ10ms分が1つの多重時間音声フレームの 中に結合される)。音響出力と刺激入力関数の周波数応答を図10Aと図10B にそれぞれ示し、計算された伝達関数振幅を図11Aに示した。同様のプロセス が音「ae」についての伝達関数振幅を発生するために用いられ、図11Bに示 した。 図12Aに示された「ah」音の特徴ベクトルは、処理されたデータを表すた め、p特徴ベクトル係数、C1からCpまでの合計を用いて構成された。この例 では、C1は伝達関数のタイプを表すために用いられ、例えば「1」は、「ポー ル」と「ゼロ」公式においてARMA関数的な使用を意味する。C2は「ポール 」の数を表し、C3は適合させるために用いられた「ゼロ」の数を表し、C4は 発声された音声単位の種類を示し、例えば、「0」は孤立している音素を意味す る。C5は先行する音響の音単位に用いられる接続のタイプを表し、例えば、「 0」は無音音素への接続が必要であることを意味する。C6は次の音単位への接 続を表し、例えば、「0」は次の無音音素への接続が必要であることを意味する 。C7は300ms多重フレームの音声セグメントエンベロープを表し、C8は ピッチであり(例えば、120声帯ひだサイクル/秒)、C9は基礎的な倍振動 のバンド幅を表す。第1倍振動へ第10倍振動力を通しての2番目の相対的な比 率を表す他の特徴ベクトル係数は、声の刺激の伝達力から得られる(図10B) 。加えて、オクターブ毎の倍振動の刺激力の低下は、1kHz以上、−12db /オクターブの負の傾斜を持つ直線で表すことができる。「ポール」と「ゼロ」 係数データを図12Bに示す。それらは図12A中のベクトルに適切な係数とし て保存される。最後の係数Cpは音のシンボルであり、その次から最後のCp− 1は、フレーム毎の音響エネルギーであるCASRもしくは同様のシステムから の音響情報である。もし使用者がARMA伝達関数の代わりの公式を用いること を望むなら、「a」と「b」の係数を用いることができる(図12C参照)。 「ah」という「長音」音声セグメントでの特徴ベクトルを表す代わりの方式 としては、8.3ms毎に(120Hz周期の刺激)フーリエ変換を行って、3 00msの長い多重フレーム音声セグメントの中に36の個々のピッチ周期フレ ームに結合することである。第2の代わりの方式としては、定数であるとテスト されたので、300ms全体でフーリエ変換をすることである。しかしながら、 FFTアルゴリズムは大量のデータを処理する必要がある。音響の音素単位「a h」の安定度のために、使用者は最初に安定度300msの周期を定義すること を選択し、都合が良い10ms周期の反復的な刺激と出力音響信号を30回処理 し(すなわち、FFT)、それから結果を平均する。 合成音声セグメントがテスト(音声合成の下部のセクション参照)と同じく、 図12Aに示されたようなベクトルでの情報から再構成される。声帯ひだ刺激関 数は100msの間隔以上に発生源項を発生するために倍振動振幅と相情報を用 いて最初に再構成された。刺激関数は11kHzもしくはそれ以上でサンプリン グされた。サンプリングされたシーケンス時間は、ポールとゼロの差の式により 指定されるARMAモデルを駆動するため用いられた。ARMAモデルの出力は 、音声合成(図19参照)のセクションに示したように音声音「ah」を再構成 するために用いられ、使用者は、快適音「ah」を発生させ、それを聞くことが できる。 (好ましい実施の形態の応用例) 音声の時部分を定義して特徴ベクトルを形成する手順は多くの応用例が可能で ある。最初に、基準として役立つ使用者すなわち話者もしくは他の話者が、感知 および記録システムに図3Aもしくは図3Bに示したように発音する。特徴ベク トルが、言語(例えば音節、音素、PLU)音響音声ユニット)内のすべての単 一単位音に対して形成され、多くの多重音の単位音(例えば、倍音素、3倍音素 、単語および句)も同様に使用者によって応用例に対して必要とされる。識別さ れた特徴ベクトルは、音声セグメントのために、必要な正規化ないし量子化をす ることができ、コードブック(すなわち、ライブラリ)に保存される。保存され た特徴ベクトルの識別は、いくつかの方法で行うことができる。それらはフレー ムの時間シーケンスにおけるフレーム位置によるか、またはマスタータイミング クロックによってラベルを付けることができる。それらは、使用者が提供した音 響の音声単位名と一緒にそれぞれの特徴ベクトルを周知のラベル化法を用いラベ ルを付けることができる(例えば図12A、最後の係数Cp=ahは、音素「a h」 を表す)。それらは、音声セグメントのための特徴ベクトルに欠落音響の音声単 位ラベルを加える音声認識を用いて自動的にラベルを付けることもできる。音声 器官位置、その運動量および作成された音単位の間の直接の関係により、ここに 記述された方法は、音声における音声システム条件の以前に可能であった方法よ り、より基本的なパラメータ化を供給するものである。それらは、倍音素、3倍 音素、単語全体および他の周知の組み合わせのような多数の音素を含む音響の音 声単位の記述と同様に、単一の音響の音声単位の、簡単ではあるが非常に正確な 記述をすることができる。 一旦、音声セグメントが識別され保存されると、多くの応用例が可能である。 それらは、音声認識、音声合成、電話通信のための音声再生、人工発声器官、音 声訂正、外国語認識、学習、話者認識を含むものである。音声認識のために、使 用者は自動音声単位認識の目的のためライブラリに前もってに保存された特徴ベ クトルと直接音声テンプレートとのマッチングを行うことができる。同様に、使 用者は、Hidden Markovモデル、またはニューラルネットワーク、または結合も しくは排他的な前もって保存された情報を用いて、ひとつまたはいくつかの連続 的に形成した特徴ベクトルの認識のための統計上の技術を用いることができる。 音声再構成(すなわち、音声合成)の目的のための符号化手順は、個別の話者の どのような音の特性化をも可能にする。その後、それぞれの音声セグメントの正 確な合成の方法を用いて、多くの音声セグメントが一緒に結合される。合成音声 は、望むように変えることができる。話者認識と言語認識は、音声符号化がそれ ぞれの使用者の特定の性質と使用者が発音する言語の性質を反映するゆえに可能 である。 (音声化刺激関数の記述) 望ましい方法は、声道を通過する空気流量を独立変数とし空気圧力を従属変数 とすることに基づいているものである。電磁センサーが声の箱(すなわち、咽瓦 の位置で「のど」の前に置かれる。それらの開閉につれて、声帯ひだおよび声門 の組織周囲からの電磁波反射の変化を測定する。使用者はそれぞれの音声化され た音響の音声単位の発声の間に声門の開口部を通して空気流の相対的な体積を決 定することができる。これは人が、自動化された方法で、どんな話者の正確に音 声化された音声刺激関数でも測定し、発生させ、音声時間フレーム間隔、または この関数が定数となる、周期的な反復刺激を供給する間に間隔を定義することが できるものである。 1つの実証方法としては、声門の組織運動検出のための電磁センサーを最適化 する「フィールドかく乱」を用いて、声帯ひだの開閉として声門域から電磁波反 射レベルの変化を測定することである。時間フィルタにより、約50Hzから2 kHz未満の信号バンドパスを許すために、音声化声門信号は容易に測定され、 首の他の信号および首に関連して動くセンサーの遅い胴体運動と関連付けられた それらから分離された。次のステップはそれぞれの反射条件を声門の開口域と関 連付けることである。エリア測定方法は、声門の組織の機械的および生理学のモ デルを用いること、および物理的な空気流センサーまたは圧力センサーに対して の電磁センサー信号の較正による誘電材料からの電磁波散乱の周知の物理学を用 いることに基づいている。それで空気流対エリアのモデルが、流体力学原理上に 基づいて用いられる。音声に必要とする符号化の忠実度に依存する他の応用例の ために、電磁センサーは、より正確なデータ、より広い帯域幅データと直線性お よびダイナミックレンジの増加したデータを発生するために最適化することがで きる。 発声された刺激関数を得ることについての一般化された方法は、電磁センサー 振幅対時間信号が声門のエリア対時間または空気センサー幅対時間信号(例えば 、空気流センサーまたは空気圧力センサーを用いて得られる)の咽頭鏡写真に対 して較正される手順を含む。1つの方法は、電磁反射信号の電磁センサー測定 と同時に、光学的に開口エリア対時間の写真を撮るために咽頭鏡を用いることで ある。図13A〜13Fは声門エリアの開閉をイメージした声帯ひだの例を示す ものである。別の方法は、絶対空気流対時間信号に対して、もしくは圧力対時間 信号に対して電磁センサー信号を較正するために空気センサーを種々の声道の場 所に置くことである。 所定時間での電磁センサー信号振幅と同時に関連付けられた空気流信号(また はその二つの圧力値)の間の直接の機能的な関係は、応用例での音声語葉のため に必要な条件の使用の下に両方同時に十分に測定することによって得られる。こ れらの方法は、音声合成応用例のために必要とされる符号化応用例に対して声門 の開閉時間と声門の開閉時においての空気流対時間信号の形状(すなわち、導関 数)を得ることに対して特に価値がある。正規化手順が信号を訂正するために用 いられ、その関係は、検索テーブルまたはコードブックに保存され、または関係 がモデルに基づく関数、もしくは適合関数曲線によって近似される。このように 、声門の組織からのそれぞれの電磁センサー信号値のために、空気流または空気 圧力値を関連付けることができる。 空気流量に基づく刺激関数での実験が本発明の方法を有効化するために行われ た。データは、よく知られている流動方程式を用いることによって分析的に記述 され、その1つは1965年の同上文献の41ページにFlanaganによって記述さ れた方程式3.46である。声門の開口部を通しての空気流に対する抵抗は、一 定の肺圧力において、以下に式(1)で与えられる。抵抗Rgは総空気流U(す なわち、空気流体積)で割り算されて声門の開口部のいずれかの側面(すなわち 声門伝達圧力Ps)への圧力の差と等しい。この例では、ρ=空気密度、l=声 門のスリット長、w=声門スリット開口部の横軸長である(図13B参照)。式 (1)における粘性項は無視される。なぜならその項は小さい開口部のためにの み必要で、実証実験には用いなかったからである。 (1)Rg=Ps/U=(粘性項)+ 0.875ρU/2(lw)2 (2)Ps=U*Rg (3)Ps=0.875ρU2/2(lw)2 (4)U=(lw)*(Ps/0.438ρ)1/2 声門の開口部エリアlwの変化は、声門の組織材料が動くにつれて、局部的な 誘電値の変化によって起こされる電磁波反射の変化に比例する。この例では、反 射した電磁波信号が、声門が開口した時に声門の組織量の縮小に比例して変化す る近似を用いる。この解釈は実験的な例で用いた電磁センサーのタイプが「フィ ールドかく乱」のためにうまく機能する。声門の開口部形状についての知識を用 い、開口部の組織量が式(4)におけるW、声門の幅、に比例して縮小するとい う、さらなる関係が発展させられる。このようにフィールドかく乱電磁センサー で直接「w」を測定して(もしくは領域制限電磁センサーのような他のセンサー システムを用いることによって)、必要とされるエリア値対時間の関係が得られ る。その後、式(4)を用い、必要とする体積空気流信号U対時間の関係は、エ リア値lwから得られる。図14A,14Bに、実験的に得られた音響信号およ び声門の組織運動から関連付けられた電磁センサーの信号を示す。電磁センサー 信号と体積空気流Uの間にちょうど誘導された関係を用い、一定の声門伝動圧力 Psを想定して、図14Bの信号は相対的な体積空気流U対時間を表す。 単純化された分析的な方式は、声門の組織運動の電磁センサー測定の結果とし て生じている空気流のモデル化のために上記で用いられ、刺激関数データを持つ ことについての有効性、タイミング情報の明快さと逆たたみ込みプロセスの率直 さを実証するために使用される。実験では短い音声セグメントのこの記述でそれ ぞれの音声フレームの間に一定の肺圧力と一定の声帯伝動圧力を想定した。たい ていのケースでは空気流U(t)の相対的な変化は十分で、ゆっくりとした肺圧 力の変化は問題ではない。しかしながら、もし肺圧力が必要なら、電磁センサー を肺体積変化または横隔膜運動を測定して相対的な肺体積変化を決定するために 用いることができる。必要とされる測定周期を超えて声帯伝動圧力を変えるケー スでの方法が以降で記述される。加えて、いくつかの声門周期を超えて発生する 音響音声の振幅エンベロープの変化は、特徴ベクトルに記録され、空気流および それで刺激振幅における相対的な変化の尺度を供給することができる。このよう な振幅変化は音声認識、音声合成のための重要な韻律情報を供給し、同一の発音 の句が非常に特異である個性化された発音での話者認識手順のために特に価値が ある。 手順は空気流量を独立変数として用いた。しかし、電磁センサーが他の声門組 織の条件を検知するためにどんなに最適化されたとしても、それらが空気流量ま たは局部圧力の変化に応答する限り、用いることができ、それらの応答は、体積 または圧力対符号化手順の使用のために音声化した音声発生源関数の時間を供給 する式(すなわち、アルゴリズム)に入れることができる。 (後段および伝達部の声門圧力変動ための空気流修正) 大部分の条件のために声門の開口部が、高インピーダンスの空気流オリフィス であることは周知であり、声門のインピーダンスが続く後段の声門のインピーダ ンス値より十分に高いことを意味している。この近似では、後段の声門の声道変 化は、声門伝動圧力および声門のオリフィスを通過する空気流に影響を与えない 。しかしながら、さらに現実的な近似では、このような空気流変化は重要であり 得る。使用者は、より正確に、音声化された刺激関数を記述することを望んでも よく、電磁センサー信号および有名なアルゴリズム手順を使用して以降の方法の 1つを用いることを望んでもよい。声門オリフィスを通しての空気流の上述のモ デルが声帯ひだの両側に対する一定の圧力(すなわち、一定の声門伝動圧力)を 想定するのに対し、音声時間フレームの間での後段声門圧力変化の効果は電気的 類似および物理的な原則からよく知られている近似技法を用いて予測することが で きるか、または局部的な圧力に敏感な組織運動を用いて測定され得る。これらの 圧力訂正は重要であり得る。なぜなら、図16から、後段声門圧力P1(電圧V 1として表す)が肺圧力P0(電圧V0として表す)の重要な部分になる時、そ の後、空気流量関数Uを定義するための声門エリアの使用は失敗する。必要な修 正を持っている改善された計算式が最高品質の刺激関数特性が必要とされる応用 例、例えば「妨害」音声のために用いられなくてはならない。 声門の運動のために電磁センサーを用いることによって、高感度モードで、使 用者は空気流圧力変化によって起こすことを知られている低い振幅の声帯ひだ組 織運動(例えば、振動)を測定することができる。このような圧力変動は、例え ば、後ろ向きに音響の信号を伝えることによって起こる。声門の開口部に影響を 与える振動は同じ電磁センサーによって検知されて他の周囲の組織振動から区別 することができる。図14Bに、わずかに変調した声門開口部対時間信号のピー クエンベロープ振幅信号のこのような振動の例を示す。これらは音響圧力波が関 連付けられることが知られている。なぜなら低い周波数の声門のエンベロープは 電子的に濾過されるから、より高周波の振動信号を残し、後者は増幅されて、ラ ウドスピーカに送ることができるからである。放送された信号はほとんどマイク ロホンによって記録された音響音声とほとんど同じであるとして識別可能である 。これらの信号は小さく測定され、同様にこれらの効果の大きさを表す計算でも 、大抵のケースで小さく示される。応用例における高忠実符号化は重要であり、 声門の組織のコンプライアンスが機械的モデルまたは話者認識のために必要とさ れる際、次の方法が必要とされる追加情報を供給するために用いられる。次に示 す7つの方法が、声門伝動圧力変化のための声門空気流対時間において変動を可 能にするために記述される。それらは関心のある定義された時間フレームの上に 改良された発声の刺激関数記述を形成するために用いられる。 1)空気流モデルが声帯伝動圧力の変化によって摂動させられていることは周 知であるが、声門開口部信号に対する変化をしてはいけない。空気流量関数対一 定の声帯伝動圧力を想定している時間での数値の近似を形成すること。音響の信 号から空気流量関数を逆折りたたみすること。適切な変換汎関数を用い、時間フ レームのための変換関数を表す係数数値を見いだすこと。未訂正の刺激関数、関 連した伝達関数および測定した音響信号パラメータを用いて、時間フレームのた めの特徴ベクトルを構成すること(他の係数が特徴ベクトル形成の下で以下に記 述すると同様に)。この方法で用いられる3つの音声関数は、E(t)、H(t )、I(t)であり、互いに自己整合性である。それらは、多くの特徴ベクトル パラメータ(およびこの様なコードブック)が不完全であるが、しかしそれらは すべて自己整合性であることを認めて、必要な応用例の特定コードブックを発生 するのと同様に、リアルタイム特徴ベクトル形成および時間フレーム定義のため に用いることができる。多くの応用例に対して、この方法を用いて発生する特徴 ベクトルは十分に良好なものである。 2)伝達関数の空気流音声モデルと一緒に個別の話者(または平均の人間の声 道を用いて)の生理学のデータを用いて、声門から見て前方への伝達関数のイン ピーダンスから声門の後段の圧力を計算すること。この手順は音声路での空気流 と圧力を設計する専門家によく知られている。(種々の声道器官位置を測定する ための追加の電磁センサーが機能的な伝達汎関数とその当然のインピーダンスの 選択を助けるべきデータを供給するために用いることができる)。声門伝動空気 圧力に一次修正をするためにこのインピーダンスを用いること。そうすれば空気 流に対する修正を上述の式1〜4から得られる。訂正された刺激関数特徴ベクト ルを形成するために訂正された空気流量を用いること。 3)電磁センサー信号からのならびにそれを用いて空気流量対センサー信号の 関連付けられたモデルからの声門組織および近辺組織の振動を誘発する後段の声 門圧力を除去すること。2つの関連した方法の1つを用いること。方法3A)生 の電磁センサー刺激信号の濾過を変換または、より高周波のノイズを誘発する音 響圧力を除去する回路技法を用いて行うこと。しかし空気流量値を発生するモデ ルのためおよび次の特徴ベクトル形成のために必要する低周波数刺激関数形状情 報を保存すること。方法3B)電磁センサーからの組織振動信号および後ろ向き の音響伝達関数を決定する音響出力(タイミング遅れを訂正した)を用いること 。振動信号のフーリエ変換を音響信号のそれで割り算し、伝達関数の数値(また は適合曲線)情報を必要とされる再呼び出しのためにメモリの中へ保存すること 。次に、それぞれの時間フレームのために、測定された音響信号出力と関連付け た声門の組織振動レベルを計算するために後ろ向きの伝達関数を用いること。そ れから「ノイズフリー」の刺激関数信号を得るために、発生する電磁センサーお よび処理された信号から後ろ向きの伝動された音響信号を引き算すること。この 信号は、声門の組織および空気流に横切った方向での近くの空気管組織の機械的 振動を誘発する後ろ向きの移動している音響音波を表す。この音響波は、声帯ひ だエッジの位置に対する効果をほとんど持たず、それで実際の空気流量Uに影響 を与えない。しかしながら、ある電磁センサーがこのノイズを測定し、それは刺 激関数を表す電磁信号の上に現われる(例として図14B参照)。このノイズレ べルで話者の特定ができる。話者に依存しない刺激関数符号化の高忠実度に対し て、このような全体空気流の値と混合した振動信号は望ましくない。 4)空気流軸を横断し、局部的な圧力に比例している声門の組織または近辺の 管組織動議を検出すること。例えば、空気流軸を横断する方向に圧力に敏感な組 織の運動を測定するように最適化された領域制限電磁センサーを使用すること。 電磁センサーおよび圧力に敏感な組織の近くに位置している空気圧力センサーか らの同時の信号を用いて較正すること。それぞれの時間フレームで、電磁センサ ーによって測定した圧力を用い、式(4)で空気流修正を決定すること。式(4 )で用いられた一定の声門伝動圧力近似の、(使用者定義の)エラー限界を超え る 後段の声門の圧力変動のための、それらの空気流値を修正すること。 5)すべての声帯ひだ運動の方程式と整合しない信号を取り除くことにより、 電磁センサーが声門の開口部信号に関して測定したノイズを取り除くこと(Schr oeter,J.Lara,J.N.,Sondhi,M.M.らの「Speech Parameter Extraction Usin g a Vocal Tract/Cord Model」IEEE,1987に記載のような周知のモデルを用いて )。生理学モデルセクションの下部に記述したように、定数を個人の声帯ひだ運 動を表す生理学モデル関数に測定しセットするために電磁のセンサーを用いるこ と。よく知られているKalmanモデルまたは濾過技法に基づく他のモデルを用い、 モデルと整合しない信号寄与分を濾過すること。 6)空気流センサー(または圧力センサーまたはその両者)を後段声門の空気 管に挿入し、本質的に同時の電磁センサー信号を用い、上述した式1〜4で示さ れたモデルと整合しない声門伝動空気流(または圧力)の変化、または空気流対 電磁センサー信号の他のモデルのために較正すること。訓練セッションの間に、 声道配置および身近な応用例が重要である故に測定された効果である周波数のた めに、このデータを得ること。それから、それぞれの測定された空気流値(また は圧力値またはその両者)を電磁センサー信号値と関連付けられたテーブル検索 または適合する曲線を形成すること。ここでの方法の実際の音声応用例の間に、 声門の組織運動の電磁センサー信号を得ること。センサー信号を未修正の空気流 または圧力のモデル値と関連付け、次に以下のように空気流または圧力値(また はその両者)を修正すること。6A)望ましいモデル方式(例えば、式1〜4) でそれぞれの後段声門か、または声帯伝動圧力の想定を訂正するために電磁セン サー対圧力データのテーブルを用いること。もしくは、6B)逐一修正された値 の空気流刺激関数のそれぞれの生の値を直接修正するために電磁センサー対測定 流量のテーブルを用いること。修正された圧力または振幅対時間として空気流信 号もしくはフーリエ振幅および位相対変換スペースの周波数を記述すること。 7)音声路を表す数学方程式で圧力を独立変数にするため、モデルを変えるこ と(回路モデル例として図17B参照)。空気流量を従属変数にすること。回路 および数学的近似において独立変数と従属変数間で電圧と電流(すなわち、圧力 と空気流量)を交換することはよく知られている。図16,17Aおよび17B を参照すること。上記パラグラフ6)および4)で記述したような応用例で必要 とした調音装置条件の範囲のために、電磁センサー信号値対測定圧力のテーブル を構成すること。 以上7つの方法は要するに、アルゴリズムはそれぞれの音声時間フレームのた めの刺激関数E(t)を得て、上記の7つの方法の1つによる応用例によって必 要度に応じそれを修正する。次には、伝達関数のセクションの下部に記述されて 、そして応用例のための音声時間フレームのための伝達関数を得るために音響出 力からそれを逆たたみ込みする。実験は、上記1)、3A)、6)の方法を有効 化した。方法1)はいくつかの音声認識と音声合成応用例のために十分に正確な 特徴べクトルを発生するために用いられた。方法3A)は、声帯ひだエリア対時 間信号から、高周波ノイズを取り除くために用いられ、方法6)は声道空気流に 対して電磁センサーを較正するために用いられた。 (音声化特徴ベクトルの形成) 空気流量関数データは、最初に、声に出された音声のそれぞれの声門の開閉周 期の間に、人間の音声化刺激関数の価値ある記述を供給する。最も重要なことは 、使用者が、空気流対時間と声帯ひだ閉鎖時間の持続時間(すなわち、時には声 門の「ゼロ」と呼ばれる)の正確な形状を得ることを可能にすることである。図 14A,14Bに、測定された声門の開口部対時間の注釈付きの実験的なデータ を示す。典型的な三角形的パルス形状が見られる。個別のピッチ周期のシーケン ス(すなわち単一音声時間フレーム周期)が本質的に全部同一で、それゆえ多重 時間のフレーム特徴ベクトルは容易に形成される。第二に、このデータは音響信 号 と電磁センサー信号の間に時間オフセットを示す。これは、声門の組織から反射 された電磁信号と声門から口や鼻を出て音響マイクロホンまでの長い経路を行く 、より遅い音響信号の間の、タイミングでの伝搬時間の相違により主に起こされ る。もしタイミング訂正が必要とされる場合は、咽頭鏡や、空気流、圧力センサ ー、電磁センサー較正手順、または正確な時間測定を用いて較正手順を取ること ができる。 声門の空気流(または圧力)振幅対時間を用いることができ、種々の方法で符 号化される。それらは、リアルタイムの振幅対時間間隔の記述を含み、それは、 適切な変換を用いたり、多項式のような近似関数や、1/2サインサイクル、三 角関数や他の関数による形状近似を用いて行なわれる。最小帯域幅伝達のための 刺激関数の符号化の1つの例は、声門のエリア関数対時間の三角形の開閉のパラ メータとして刺激関数特徴ベクトルを測定し保存することである。それはピッチ 周期、ひだが開いている周期の一部(声門がピッチ周期の始めには開く習慣を利 用している)、ならびに開口部がピークに達する周期中の場所およびその大きさ (ピークの広さは正規化される)によって示される。この単純な記述は現在用い られている多くの刺激関数よりいっそう正確であり、この例では、それぞれ4か ら8ビットの内の3つの数のみによって表される。さらに、もしいくつかの周期 が、ピッチ周期持続時間と音響出力で「一定」と測定されているなら、このよう な一連の周期は、単一の周期プラスもう1つの数で、多重ピッチ周期時間フレー ムを定義して、一定の周期の音響出力の数を表わすことができる。 より複雑な刺激関数特徴ベクトル形成方式は、空気流量対時間の1つまたはそ れ以上の音響の音声単位が一定で反復的である声門周期のフーリエ変換を行うこ とである。例としては、0.3秒の持続時間を超えて発声された長い「ah」音 素である。特徴ベクトルと時間フレームは十分に一定の音声の0.3秒の持続時 間を超えた刺激関数を記述するために形成される。例えば、使用者はピッチまた はピッチ周期である最も高い振幅信号(第一倍振動である)の周波数の場所を記 録することができる。加えて、使用者は基本振動、基本振動からのより高い倍振 動の位相偏差、基本帯域幅を比較してより高い倍振動の部分振幅レベルを記録す ることができる。基本振動へのより高い倍振動(例えば、ここで、nωo>10 ωo)振幅強度関係は、声帯ひだの仕組みを知って、または実験的に測定された オクターブ当たりの低下率(通常、−12db)を記録することによりモデル化 することができる。 多重時間フレームの特徴ベクトルは、いくつかの音声化音声周期にわたって安 定した、またはゆっくりと変化する波形信号があるかを試験することによって形 成される。安定しているとは、音響振幅および刺激振幅対時間が1つのフレーム から次のフレームまでほとんど同一であることを意味し、ほとんど同一であると は、各々の時間間隔内の振幅が、定義された標準の選ばれた端数以内であること を意味する。この標準への安定度の度合は、時間的に有利に自動的に用いられて 使用者により容易に定義することができる。1つまたはそれ以上の自動化された 手順を用いる音声時間フレームの安定度を定義するこの方法の性能は、計算の経 済性を可能にし、汎関数の記述の正確さを増加したので価値がある。その理由は 、それぞれおよびあらゆる音声フレームの上に別の計算を行うことを対比してよ り反復的な振幅データと一緒にいくつかの音声フレームを用いて1つがただ1つ の計算をするのみで良いからである。 その上、使用者は、複数の音声時間フレーム間隔にわたる空気流量(または圧 力)の刺激の変化を示すゆっくりと変化する関数を定義することができる。減少 するピッチ周期の例として音節強調または質問の間に発生するものがある。特徴 ベクトルは、定義された時間フレームにわたる機能的変化を示す1つまたは2つ の番号といっしょに1つの周期時間フレームから得られた基本的な刺激関数の定 数を含む、複数のピッチ周期を持つ時間フレームの間に形成することができる。 図14Bに、話者が「ah」という音素を発音するにつれて複数の音声周期の間 に音声刺激の安定度がわずかに変化する様子を示す。この手順もまた、平均的話 者の音声刺激関数または特定の話者の保存済み特徴ベクトルからの偏差に基づい て特徴ベクトルを定義する手段を提供する。この場合、特徴ベクトルには、絶対 値ではなく平均値からの偏差が含まれる。これはリアルタイムで、もしくはフー リエ空間で、またはこれらを混合した技法で実行することが可能である。 図9A,9B,10A,10Bおよび11Aに、連続する36の声門の開閉音 声周期にわたって音素「ah」を発音する男性話者によって取られたデータおよ びそれから導き出された音声関数を示す。これらの図には、音響マイクロフォン および声門EMセンサーから得られた振幅対時間信号(図9A,9B)、センサ ー信号の各々の集合のフーリエ・パワースペクトル(図10A,10B)、およ び図10Aから図10Bのデータを逆たたみ込みすることによって得られた話者 の声道伝達関数(図11A)が示されている。以下に説明する手順を用いて、特 徴ベクトルが300msという時間フレームの間に形成されたが、この中で、剌 激関数の記述子は図10B中のフーリエ変換された声門関数から取られている。 特徴ベクトルを形成するプロセスを図12Aおよび12Bに示す。図9Aおよび 9Bに示すようなデータを用いた実験によって、以下に説明する方法を用いてピ ッチ値を得るための計算時間は従来の音響処理技法を用いた場合の5倍の早さで あり、ピッチ値は従来の音響学に基づいた技法より20%以上も正確であること が分かる。 (マスタータイミング) 声門開閉サイクルを測定する方法を用いれば、使用者は、多くの音声技術応用 例の自動化のために、マスタータイミング間隔すなわち「フレーム」を定義する ことができる。特に、この方法によって、発生刺激関数周期が、処理ステップで 時間フレームを定義するためのマスタータイミングとなることができる。この方 式によって使用者は、声門の開閉サイクルの開始と終了を定義することができ、 このような1つのサイクルから次のサイクルへの情報を結合する方法が提供され ることになる。次の音声時間フレームで得られる音声時間フレームに接続される はずの1つの音声時間フレームで得られる情報を連結することが可能となる。図 14Aおよび14Bにマスタータイミングを示すが、この中で、個々の時間フレ ームは1つの声門サイクル(すなわちピッチ周期)として定義され、関連情報は 測定されてラベルが付けられる。図15Bに、「LAZY」と発音された語に対 する一連の単一ピッチ周期音声時間フレームを示し、一方、図15Aには、同時 に測定された音響情報が示されている。絶対ピッチおよび時間フレーム持続時間 を定義することができ、さらに、タイミング情報を特徴化してそれを、時間フレ ーム中に発音された音響音声単位を示す音声フレーム特徴ベクトルの一部として 保存する。音声化されなかった音声セグメントが発生する場合は、音声化されな かった剌激に関するセクションで検討する。 声門時間周期をマスタータイミング信号として使用することによって使用者は 、複数の声門周期から成る時間フレームを定義することができる。図14Bおよ び15Bの図示を参照されたい。使用者はアルゴリズム基準をセットして、測定 中の音声特徴の「安定度」を定義し、これによって音声化された音声時間フレー ムがどれくらい続くか判断する。次に、このアルゴリズムは、話者によって発せ られたばかりの音響音声単位を示すために使用中の特徴値の「安定度」が存在し たピッチ周期がどれくらい用いられたか測定する。上記の例では、このアルゴリ ズムは、300msにわたって音素「ah」が安定して発せられたと判断した。 この例では、測定され、充分に安定していると判断された「安定度」変数の内の 1つは、36の声門開閉サイクルという繰り返し周波数であった。次に、このア ルゴリズムは、図12Aおよび12Bに示すような、時間フレーム持続時間を示 した特徴ベクトル、1周期当たりの刺激関数振幅対時間および他の情報を定義し た。 このような特徴ベクトルは、時間フレームの全持続時間にわたって使用者が必要 とする程度にまで、音響音声単位を示すものである。声門周期が複数存在するの で、このアルゴリズムは、1つまたは複数の包含されたピッチ周期の間に得られ た情報を平均化でき、話者を識別するのに役に立つ平均値からの周期特徴係数の 変動(例えばピッチ周期変動)に対して小さな周期を釣り合わせ、さらに、フー リエ変換(または他の変換)を用いて、希望の数の(またはフーリエ変換アルゴ リズムが許すだけの数の)ピッチ周期間隔の間の音声刺激関数を決定したりする ことができる。 音声が音声化された状態からされていない状態に変化する場合、音声化された 音声シーケンスの最後の声門開閉周期は、その周期終了を示すために使用すべき 「次の」声門サイクルを有しない。ある方式では、このアルゴリズムは、各々の 時間フレーム内の各々の声門閉鎖時間の長さがあまり長すぎないか(例えば、先 行する声門周期の閉鎖時間より20%長いか)連続的に試験する。周期が長すぎ た場合、このアルゴリズムはこの周期を終了して、例えば、先行する時間フレー ムで測定された声門関数の端数の閉鎖時間に等しい声門閉鎖持続時間を割り当て る。 数種の声門周期で音声の安定度を定義するこの方法によって、計算時間ならび に計算用プロセッサ内の格納空間および多くの応用例に対して必要とされるメモ リが節約される。この方法によってまた、音響音声(および他の計測器の出力) が、上記のタイミング手順を用いて得られた他の特徴ベクトル情報と共に音声時 間フレーム内でタイミング付けすることができる。本明細書中の多くの例の場合 、特徴ベクトルは、プロセッサ内のマスタークロックによって提供される最初の 声門周期でタイミング付けされ、その持続時間は安定した声門周期の数によって 定義される。このプロセスによって自動的に、かなり音声が圧縮符号化されるこ とになるが、この理由は、安定度の周期を示す特徴ベクトルが、本書で定義する よ うに、1つの声門周期と用いられた声門周期の数を示す1つの数の和に短縮でき るからである。 上記の手順によって、時間フレームが定義でき、一部の係数値が一連の声門ピ ッチ周期にわたってゆっくりとしかも予測可能に変化する特徴ベクトルを形成で きる特徴値(すなわち係数)がゆっくりと変化する時間フレームをアルゴリズム は次に説明するように定義する。アルゴリズムは計数値(例えばピッチ周期)の 変化を測定して、複数の声門サイクルにわたるその一連の変化を所定のモデルに 適合させる。その値がモデルに適合しない場合、1つ以上のゆっくりと変化する 特徴ベクトル係数を持つ時間フレームは形成されない。計数値の変化が許容範囲 を越えて大きすぎる場合、最終の時間周期が定義される。例えば、ピッチ周期が 0.5ms/サイクルだけ線形に減少すると、この変化は5つの連続した声門サ イクル間で測定されるが、この理由は質問が発せられたときに話者が単一の音素 を発生する間にピッチを「屈曲させる」からである。アルゴリズムはまた、時間 フレーム中に測定されているが変化が遅いか否か検査されてはいない他の特徴ベ クトル係数を検査し、音声時間フレームをアルゴリズムが定義するに当たって必 要とされるほどこれらの係数が充分に安定していることを確認する。 このようなタイミングの一例を図14Bに示すが、この中で、最初の音声フレ ーム周期は8.5ms、2番目の周期は8.0ms、3番目の周期は8.0ms となっている。プロセッサ内のマスタークロックによって最初のフレームの開始 のタイミングが3.5msにセットされ、2番目の周期のそれは12.0ms、 3番目のそれは20.5msにセットされる。最初のフレームを基準としたピッ チ偏差は1番目のフレーム基準フレーム当たり−0.5msである。声門ひだが 迅速に閉じてから音響的設定に至る安定時間オフセットは0.7msであるが、 これは、電磁センサー信号とマイクロフォンに遅れて到達する音響信号の間にお ける信号移動の距離と速度の相違が主たる原因である。このような時間オフセッ ト値は、これらの例に用いられるようなフーリエ逆たたみ込みプロセスには影響 しない。別のオフセット数は、この方法によって音響・電磁フレームオフセット (またはAEM数)と定義される。この数は、電磁信号タイミングを基準とした 音響信号のタイミングを記録するための値を有する。これによって使用者は、音 声フレームの開始を基準とした音響信号のゼロ時間を定義することができる。こ の特徴化は、唇や他の顔の動きを同期させる必要のある唇同期応用例に対する音 声の値を有する。 多重ピッチ周期時間フレームの一例は、音素「ah」に対する図14Aに示す 測定データを用いて定義することができる。最初のピッチ周期を規準として測定 された3つのピッチ周期変化が0.5ms以下であることを試験し、0.5ms という変化が応用例にとって充分安定であると定義することによって、多重周期 時間フレームを形成することができる。この一連の特徴ベクトル中の他の情報も 試験する必要があり、それも充分安定であると仮定すると(例えば図14Aの音 響情報は充分安定である)、3声門周期だけ長い時間フレームを示す1つの特徴 ベクトル中に多重時間フレームを形成することができる。3ピッチ周期ベクトル のピッチを定義する1つの特別な方法は、3フレームにわたるピッチ周期の平均 、すなわち8.16msを用いる方法であるが、平均ピッチ偏差もまた測定して 保存することができる。この例でも、話者は、声の最後を強調するときに通常発 生するように、自身のピッチをゆっくりと上げる(すなわち、ピッチを0.5m sだけ短縮する)。この変化もまたアルゴリズムによって識別され、希望とあれ ば保存される。 これらの方法によって、話者は、プロセッサ内の連続タイミングクロックを用 いて、時間フレームの開始、持続時間および終了時間を各々の特徴ベクトルと関 連付けすることができる。話者はまた、他の情報(例えば音響信号)に対する電 磁センサー情報の絶対的なタイミング情報および相対的なタイミング情報を各々 の特徴ベクトルの一部として保存することもできる。このようなタイミング情報 を用いて、各々の信号または多重フレームベクトル内に含まれる情報に基づいて 、適当な音声順序で、音響情報および他の情報を継続的に再構成することができ る。刺激と伝達関数を合成して得られる音響信号が1つの単一声門周期音声フレ ームより長く継続することが周知である場合、この得られた伝達関数の情報によ って、使用者は、次の音声周期に伸張する音響波形の部分を識別することができ る。使用者は、関連の時間フレーム内のこのような音響信号振幅情報を必要に応 じて使用することができる。 ここに記述する方法によって使用者は、電磁センサー以外の計測器で発生器官 の状態をさらに同時に測定することができる。個々に示す方法によって使用者は 、ビデオ、フィルム、肌電位、磁気コイル期間運動検出器、磁気共振画像、超音 波伝搬や他の技法などの測定のための上記のマスタータイミング情報手順を用い て「同時性」を定義することができる。ここに記述する方法によって、このよう な計測器出力を同期させたり、個々の時間フレームに対する特徴ベクトル中に組 み込んだりすることができる。 (音声化されない刺激) 音声化された音声に対する上記の一般的方法を用いれば、話者の非音声化刺激 関数を決定したり、音声フレームタイミングおよび特徴ベクトル係数の値だけで なく非音声化伝達関数を定義したりすることができる。本方法は、1996年2 月6日に出願された米国特許出願第08/597,596号明細書に説明されて いる音声化/非音声化検出用のアルゴリズム技法を用いる。このアルゴリズムは 電磁センサー、特に声帯ひだセンサーの信号を用いて、声門開閉運動なしで音響 音声が発生していることを判断する。 使用者は、分析によって聴取者に検査され、またはここに記述するような逆た たみ込みされた関数を用いて導き出された適当な修正済みの「白色ノイズ」刺激 関数を(自動的または手動で)選択する。このようなノイズ関数の特徴は、その 単位周波数間隔当たりのパワースペクトルにある。刺激関数特徴ベクトル情報の 場合、スペクトルのパターン(または曲線の適合)が保存可能であるか、応用例 にとって必要な少ない非音声化刺激スペクトルの内の1つを表す数値が保存可能 であるかいずれかである。他の電子センサー(もし入手可能であれば)を用いて 、声道狭窄の発生源(例えば、舌先、唇、舌の裏、声門)を判断することができ 、空気かく乱源に対して適切な修正済みの白色ノイズ刺激源を適当なノイズスペ クトルで選択することができる。このような発生源が提示されたら、選ばれた刺 激関数変換を音響出力変換に分割して、声道の伝達関数の変換を得る。この伝達 関数を得るプロセスは、音声化伝達関数の上記の発生方法と同じである。 (非音声化音声時間フレームと特徴ベクトル) 非音声化刺激関数は、刺激関数を得るために出力信号から伝達関数を逆たたみ 込みする処理装置および処理アルゴリズムに関する本セクション中の上記の方法 を用いて得ることができる。使用者は最初に、話者に、音響信号が記録される訓 練セッション中の音素シーケンスを非音声化音素を用いて話すように依頼する。 次に使用者は、文書から得られた、または同一に形成された非音声化音素の音声 化された音素を用いて得られた伝達関数を用いて得られた話者の音響路に関する 一般的な知識を用いる。その一例として、音声化された音素「g」から得られた 伝達関数を用いて、非音声化音素「k」の刺激関数を得る方法がある。使用者は 逆たたみ込みを実行して、音響信号から音響路の影響を除去することによって伝 達関数を得る。次に使用者は、特定の個人に関する機能的記述を刺激関数特徴ベ クトル中の1群の係数として(例えば、ノイズ発生器のスペクトルを決定するた めに)、リアルタイム技法、変換技法またはこれらの混合技法のいずれかを用い て保存する。この関数および類似の関数の典型的な用途は、音響出力を(リアル タイム発声の間に)逆たたみ込みして、特徴ベクトル情報に関して本セクション で説明されるようなプロセスを用いて、完全な特徴ベクトル情報の伝達関数を得 ることである。これで、各々の非音声化音響音声時間フレームに対する全体のま たは部分的な特徴ベクトルが使用者が選択した応用例にとって利用可能となる。 以下に示す3つの方法を用いて、音声化された音声が発声されているときに音 響音声単位時間フレームを形成することができる。 1)音響音声単位の非音声化刺激(例えば1つまたは一連の音素)が発声され 、その間はスペクトルに「意義のある」特徴変化がまったく発生しない持続時間 を測定する。かく乱から誘導された音のこの安定度定義は通常は、所定の周波数 間隔当たりの相対的な振幅変化を容易に測定できる周波数範囲で測定される。こ の方法の場合、「意義ある変化がない」という表現は、信号レベルの変換が残留 する必要がある最初の設定変動(すなわち安定度)の制限値によって定義される 。次に、音声処理の間に、音響出力のスペクトルなどの適当な個々の信号および 他の入手可能な電子感知された器官運動信号が検査されて、「変化が発生した」 か否か判断される。「変化」の1つの例は、声門開閉運動が開始したことが電磁 感知されたことを利用して、音声化音声への移行がなされ、これによって非音声 化された音声が唯一の刺激であることを停止したことをアルゴリズムに信号通信 する。各々の非音声化された時間フレームの持続時間は、音響信号または電磁感 知された信号に充分な変化が発生して新しい時間フレームが定義されるまでの安 定した非音声化音声の合計時間と定義される。 2)デフォルトアルゴリズムは、上記の1)のように50msを超える時間( または使用者が選択した他の時間)にわたるデータを蓄積し、さらに、特徴ベク トル係数の安定度になんら変化が発生しなかった場合に50ms間の音声フレー ムを定義するものであると定義される。50ms経過する前に音響音声の変化ま たは器官状態の十分な変化が発生したら、フレームは終了され、この事象に対す る経過時間は時間フレーム持続時間となる。この変化が発生しない場合、音声 フレームは終了され、持続時間で50msと定義される。 3)一連の音声化された語および句(または正常な音声)を用いて訓練セッシ ョンの間に採られた使用者の音声化されたピッチ周期の平均値を非音声化音声セ グメントのデフォルト時間周期として用いられる。この非音声化周期は、平均化 された時間フレーム持続時間のような端数のある倍数となることがある。 ゆっくりと変化する非音声化音声を定義する方法では、非音声化音響スペクト ルを10msごとに(または使用者が選択した最小のサンプリング周期ごとに) 分析して、サンプリング時間当たりの変化の程度を測定する。スペクトルの変化 がゆっくりしたものであったりその振幅が低いものである場合、ゆっくりと変化 するノイズスペクトルの重みを特徴化する数少ないパラメータによって、より長 時間のスケールスペクトルを特徴化することができ、より短期間の変化を、数少 ない「ディザーレート」スペクトル合成パラメータによってモデリングすること ができ、オンレートパラメータおよびオフレートパラメータによって全体のオン オフ振幅エンベロープをモデリングすることができる。基本的なノイズスペクト ル値と共に記載されるこれらの値は、比較的長いセグメントの非音声化音声を示 す時間フレームを特徴化した単一の特徴ベクトル中に形成することができる。 (合成された音声と非音声化された音声) 少数の音声源を、音声化された刺激関数と非音声化された刺激関数の双方を用 いて発生する。その一例は、音素「e」(すなわち、のろく発音すると「a」) という音声化された母音から口腔中でのさらなる摩擦的剌激を含む音声化された 「z」、さらに「i」音へ移行する「lazy」という語である(図15A,1 5B参照)。2つの刺激源が作動しているこれらの例では、次の手順が用いられ る。音声化された刺激が最初に測定され、音響信号から逆たたみ込みされる。し かしながら、伝達関数のフーリエ変換はまだ、非音声化された発生源の修正され た白色ノイズによってもたらされた広い帯域スペクトルパワーを包含しているの で、必要に応じて除去可能である。このような信号を検出し、処理し、符号化す るには次の3つの手順がある。 1)伝達関数は、ノーマルポールによってもたらされたものでもなければ声道 のゼロ伝達関数で濾過されたものでもないことを示す異常に高い周波数のパター ンを持つノイズスペクトルがないか否か試験される。ノイズが検出された場合、 そのスペクトル特性を用いて、特徴ベクトル内に保存するために非音声化された 刺激関数を選択する。次に、識別された発生源を用いて、伝達関数の第2の逆た たみ込みを実行して、非音声化された刺激関数の影響を除去する。この特徴ベク トルは時間周期に対して形成され、手元にある応用例の2回逆たたみ込みされた 伝達関数、音響データ、韻律パラメータ、タイミングおよび制御番号を含む。 2)音声化された伝達関数は電磁センサーを用いて測定され、音響信号から逆 たたみ込みされる。非音声化されたノイズスペクトルを決定するに際してはなん ら特殊な試験は実行しない。その結果もたらされる伝達関数は所定の関数と適合 され、非音声化された剌激関数は適合の一部として組み込まれる。その結果は、 振幅対周波数空間における通常より高い高周波数バックグラウンドを有する。係 数は音声時間フレームの特徴ベクトル内に格納される。この手順はたいていの応 用例に対して適切であるが、非常な高忠実度合成音声が必要とされる応用例は例 外である。この方法の変更例としては、逆たたみ込みされた数値伝達関数に対し て数値的な適合をさせるために用いられる伝達関数にノイズ汎関数を意図的に組 み込む方法である。 3)1つ以上の追加の電磁センサーを用いて、非音声化された刺激に至りかね ない声道の状態を検出する。例えば、舌位置を測定する電子センサーが、舌本体 によって、歯の背後にある口蓋に対して声道が閉じられつつあることを示してい る場合、舌はかく乱空気流を引き起こす位置にある。一例は非音声化された声の 「s」であり、追加の発声によって、これは音声化された摩擦音「z」になる。 声門センサーおよび舌位置から得た音声化刺激に関する知識を用いて、アルゴリ ズムは正確な変換を選択し、それを音響波形変換から逆たたみ込みし、ノイズが ないか否か試験することができる。次のステップは、ノイズスペクトル形状がな いか変換を試験することである。もしそれがあれば、上記1)のように第2の変 換で除去する。これによって、特徴ベクトル形成用の刺激関数係数と共に音響伝 達関数変換が得られる。この方法が価値がある理由は、使用者が、音声化または 非音声化された刺激状態がないか否か、すべての音声フレームを試験する必要が ないからである。それでも、その必要があれば、本方法は必要に応じて特徴化を 正確に実行する。 (伝達関数) 人間の発声システムに対する刺激は声道の濾過特性によって修正されて、出力 音響音声を発声する。この濾過特性はほとんど線形であり、(大部分は)分かっ ている。濾過特性は、必要なデータが入手可能である限り線形システム技法によ って説明可能である。伝統的に、完全に音響的な手順では必要なデータは提供さ れない。ここに述べる方法は最初に、必要なデータを得てそれを処理して、発声 システムを非常に正確な記述とする。さらに、これらの方法はデータをリアルタ イムで迅速に得て、1つ1つの声道構成に対して数少ないパラメータ(すなわち 係数)によって人間伝達関数を記述する。その上、ここに述べるこれらの方法は 、音声品質にとって重要であるが専門家には良く理解されていない人間の声道伝 達関数の態様を述べるものである。これらの方法によって、迅速に連合された音 声と関連する迅速に変化する声道構成を記述することができる。これらの方法に よって、音声路フィルタ関数の共振および半共振の双方(すなわち、伝達関数の ポールおよびゼロ)ならびに、周波数空間においてリアルタイムで、もしくは合 成された記述を用いて情報も得ることができる。これらの方法はまた、線形共振 伝達関数だけでなく非線形の共振も記述できるが、その理由は、入力によっても た らされる出力を表形式で保存できるからである。 (ARMA技法) 伝達関数は、信号処理コミュニティには周知である時系列またはz変換の手順 を利用するARMA(移動平均の自動回帰)技法を呼ばれるポールゼロ近似技法 を用いて得ることができる。ARMAを用いる音声を符号化するこの方法は、非 常に便利で良く定義された数学的技法であり、伝達関数を定義する係数を得るこ とができる。このような伝達関数は、個々の定義された音声時間フレームに対す る声道を定義するものである。ARMA逆たたみ込み方法は、振幅、位相、強度 およびタイミングを含む電磁センサー情報および音響情報を実質的に同時に得る ステップを含む。特に、本方法は、符号化中の音声時間間隔フレームを1つまた は複数に対するポールゼロARMA記述のポールとゼロを用いて伝達関数を記述 する特徴ベクトルを提供する。別法として、a/b値記述のa値およびb値を特 徴ベクトル係数として用いることによって伝達関数を記述する特徴ベクトルを形 成する。(信号処理文献としては、0ppenheim,Schafer「離散時間ディジタル信 号処理(Discrete-Time Digital Signal Processing)」Prentice-Hall 1984、ま たはPeled,Liu「ディジタル信号処理:定理、設計および実現(Digital Signal Processing:Theory,Design,and Implementation)」Wiley,1976を参照された い)。ポールとゼロによって、声道フィルタの共振と反共振の位置が与えられる 。ここに示す方法は、最初に、声道の伝送「ゼロ」周波数を示す基本的な情報を 提供する。ポールとゼロ(この代わりにa値とb値でもよいが)によって、出力 音響信号に対する人間の声道の共振と反共振の相対的な分布が与えられる。 例えば、ARMA関数を用いて、最小自乗法適合ルーチンによって音「ah」 に対して10個のゼロと14個のポールを選択した。図9Aと9Bに最初に、同 時音響と声道電磁センサー信号の測定値を示す。声道フーリエ変換は、最初に音 響変換を取り(図10Aを参照)次にそれを電磁センサー声門関数変換によって 分割する(図10Bを参照)ことによって得られる。逆たたみ込みされた結果は 、一連の複素数、すなわち振幅と位相の値によって示される。時間フレームに対 する変換振幅対周波数の関係を図11Aに示す。10個のゼロと14個のポール を用いるARMAモデルを次に、結果として得られる声道伝達関数に適合させる 。図11Aに、ARM汎関数に対するデータの数値的適合を示し、図12Bに、 音素「ah」に適合するポール/ゼロ値を示す。図11Bに、音素「ae」に対 する類似の適合を示す。 男性話者が音「ah」を発音した音声時間フレームの特徴ベクトルは、音響音 声単位を望みの精度にまで特徴付けるのに必要とされる情報を獲得して、処理し て保存することによって形成されたが、この様子を図12Aと12Bに示す。特 徴ベクトルにはいくつかのタイプの情報が含まれる。特徴ベクトルには用いられ る伝達関数のタイプが含まれる。これは、セグメントが単一の音素を含むか複数 の音素を含むかを示す。これは音素移行情報、例えば先行する、または後続の音 素からの分離の程度を与える。これは、安定刺激の全体時間を示し、全体ベクト ル内のフレームの数をカウントする。これはまた、基本波および倍振動のフーリ エ振幅および位相を用いた刺激関数の記述を含む。この特徴ベクトルは、図12 Bに示すポール値およびゼロ値の係数に基づいた所定のARMA汎関数を用いる 。ARMA方式の別法としての汎関数の記述では、図12Cに示す「a」係数お よび「b」係数を使用してもよかった。正規化方法および量子化方法は、図12 Aに示す特徴ベクトルを形成するのには使用されなかった。 初めに、使用者は、話者個人の声のエッセンスを非常に高い精度にまで捕捉す ることができるが、この理由は、ここに示す方法の使用者は実際のデータを非常 に高い程度の精度にまで近似させることができるからである。この近似プロセス は、オリジナル信号中の情報内容および汎関数定義プロセス内で使用される数値 方法と首尾一貫して実行される。個々に説明するARMA方法によって使用者は 、 音声コミュニティには従来は入手不可能であったが人間の声(例えば、特に女性 や子供の声)を捕捉するには必要であることが周知であった濾過効果、共振およ び反共振の効果ならびにフィードバック効果を可能とする。個人の声を特徴化す る構造の例は、複雑な鼻構造、非円形の声管、組織コンプライアンス、粘液漕、 膜に対するフィードバック効果および他の音響生理的相互作用と関連しているこ とが周知である。 (事前定義された限定ARMA汎関数) ARMA汎関数表示が、(音声応用例および市場によって異なるが)使用者の 満足する程度に得られたら、使用者は、特定応用例環境におけるあらゆる業務向 け用途に対して汎関数表示を「凍結」することができる。例えば、14ポール・ 10ゼロARMA汎関数は、汎用の音声認識応用例向けの用途には最良かもしれ ないが、別の単一の汎関数または複数の汎関数(例えば、音声化された非鼻音に 対する20ポールと10ゼロまたは閉口音声化された鼻音に対する8ポールと1 0ゼロ)は、別の使用者の応用例にとってはより良い選択かもしれない。使用者 は、固定した汎関数を用いるがポールとゼロの位置が異なり、自身の生理的相違 を反映するa係数およびb係数を持つ似たタイプの多くの話者(例えば、成人男 性のアメリカ英語話者)からデータを採ることを選択することもある。多くの応 用例の場合、使用者は、汎関数の定義パラメータを平均化してそれをコードブッ ク形成のために規準特徴ベクトル内に用いる。使用者はまた、システムが個々の 話者のための重要な生理的パラメータ(例えば全体の路長)を測定し、これらの データを個々の話者に対する一次ポールとゼロを事前定義して限定する訓練プロ セスまたは適応プロセスを使用することを決定することがある。以下に定義する プロセスを用いて、これらのポール・ゼロ値を、話者の規準集合から得られた値 に対して正規化することができる。 使用者はこの手順を用い、さらに実験を通して、ARMA展開中の「より重要 な」ポールとゼロおよび「重要性の低い」ポールとゼロを定義することができる (この場合、重要さは応用例と値の関数である)。「より重要な」値は、伝達関 数データ中で容易に識別され、自動的手段によって適合される周知の主要な路寸 法(例えば、声門から唇に至る寸法ならびに口の長さおよび面積)によって固定 される。これらの値は個人によって異なることがあるが、そのポールおよびゼロ の位置は、個々に示す手順によって容易に測定される。「重要性の低い」とはデ ータの数値的適合に対する貢献度が小さいようなポールとゼロに対する用語であ る。a、b両係数とも同じように使える。これらの「重要性の低い」(より高い 値で)ポールおよびゼロは各々の話者の個別の形質と関連しており、したがって 、その値は、直接に測定するのは困難な個人の組織、路の形状、空洞構造および 類似の生理的条件の特殊な形質に非常に依存する。伝達関数を示す件数を「より 重要な」カテゴリーと「重要性の低い」カテゴリーに分割するというこの方法に よって、通信にとって簡略化され有用な特徴ベクトルを発声することができる。 例えば、「より重要な」値だけが、フレームごとに送付する必要があるが、「重 要性の低い」値は一度だけ送付すればよく、これを使用すれば、ボコーダの受信 機端で特徴ベクトルを完了させ、これによって話者の特有の形質を向上させるこ とができる。同様に、「より重要な」値だけを送付すればよく、これによって伝 送に必要な帯域幅を最小化することができる。 最後に、ARMAパラメータから、生理的モデル、回路アナログ的モデルまた はリアルタイム計算ではARMA方式より使用し易い他のモデルと関連するパラ メータに関連付ける(マッピングを開発する)ことができる。これらの他の手順 を以下に説明する。この手順は効果があることが周知であるが、その理由は、A RMAの「b」係数が、事前定義された声道セグメントから反射された信号を表 し、「a」係数を既知または未知の共振のゼロと関連付けることができるからで ある。声道セグメントからの信号の反射を、回路メッシュセグメント、すなわち 生理的路セグメントからの反射に関連付けすることができる。このように反射物 を回路パラメータに変換する光学的手順が周知である。 限定汎関数方法は、以前に測定された値に近似であるべきポールおよびゼロ( またはa係数およびb係数)の値を制限するために話者訓練という方法を利用す る。これらの限定条件は、周知の声道条件と関連することが周知であるところの 音素音を用いる初期訓練によって得られる。音声認識装置を用いる適応訓練もま た、定義段階用に用いられるべき音素を識別する目的で用いることができる。生 理的パラメータ、ある種の路構成と密接に関連するようにと選択された音素の伝 達関数から抽出される。その一例として、声門から唇に至る単一の管路であると ころの音声化された音素「eh」を用いる方法があるが、その一次伝達関数共振 位置が、話者の管の長さの生理的な尺度となる。全体の長さが音「eh」から分 かっているので、音「ah」によって使用者は、管の全体長が声門から舌隆起に 至る2つのセクションに分割されるよに自動的に定義することができる。これら の値が分かれば、これらの値を用いて、個々の自然音声フレーム間でのARMA 汎関数変数を限定することができる。このプロセスによって、方法を迅速に収束 して特徴ベクトル係数を得ることができるが、この理由はほんの少数の適合パラ メータを、各々の音声フレームから得られたデータに照らし合わせて試験する必 要しかないからである。その上、これらの生理的パラメータによって、話者個人 各々の声道を示す寸法の数値が話者の識別に役立つものとなる。 (ARMA特徴ベクトル差の符号化) 差特徴ベクトル符号化方法によって、各々の特徴ベクトル係数Cnの差を保存 することによって特徴ベクトルを定義することができる。この差は、該当するフ レーム内の測定されて得られている値を先行する時間フレーム間に形成された同 一の係数から減算することによって形成される。最小帯域幅の符号化(さらに音 声圧縮も)の場合は、圧縮は通常は、1つまたは引く数の重要な係数が変化する ことを停止したことをアルゴリズムが知らせたときの同一セグメント中の以前の フレームの間に得られた値に対して実行される。使用者の音声を1人または複数 の規準話者の音声と比較する応用例の場合、規準特徴ベクトルは、追加の認識ス テップを用いてコードブックから得られる。このような差特徴ベクトルを形成す るこの方法は価値あるものであるがその理由は、現在のフレームと規準フレーム との間で変化していない係数Cnを自動的に識別するからである。その結果、伝 送したり保存したりする必要のある情報量が減少する。 基準値が応用例に対して事前定義されている場合、完全差ベクトルを形成する ことができる(ただし、制御係数および他の不変化係数の場合はこの限りではな い)。規準話者の特徴ベクトルの例としては、アメリカ英語の男性話者、アメリ カ英語女性話者、またはアメリカ英語を話すときに典型的ななまりを持つ外国人 話者の音響音声単位を示す例がある。話者のタイプを識別することによって、使 用者の音声をより効果的に符号化するために適切な汎関数を選択することができ る。同様に、話者自身の係数を前もって測定して、後の識別応用例のための規準 セットとして保存することができる。しかしながら、最小情報発声などの応用例 が使用中の場合、「混合された」アルゴリズム方式を使用者が選択できるが、こ の場合、完全で新しい係数値最初の時間フレーム中でのそれが現れるベクトル位 置に保存され、次に、係数がまったく変化しないかまたはゆっくりと変化する後 続シーケンスの時間フレームの中には、ゼロだけまたは小さな変化値が保存され る。 差ベクトルを形成する手順は各々の音声フレームに対して実行される。プロセ ッサは得られた特徴ベクトルを定義された規準ベクトルを比較し、個々の係数の 差を減算し、その差を新しい差特徴ベクトルとして保存する。この手順では、規 準手順が、該当する音響音声単位ベクトルに対して前もって定義されている必要 がある。 もっとも簡単な方法は、以前の時間ti-qで測定されたフレーム中の係数から 現在の時間フレームtiで得られた適当な特徴ベクトル係数を減算する方法であ る。各々の係数差ΔCnは、次式に示すように、時間フレームtiに対する差ベク トルの「n」番目の位置に置かれる。 ΔCn(i,q)=Cn(ti)−Cn(ti-q) q=1という特殊な場合で、さらに、係数差ΔCnが事前定義された値未満で あれば、ゼロ値を、差特徴ベクトル中のこのn番目の係数に割り当てることがで き、例えば、ΔCn(i、i−1)=0となる。同様に、いずれかの先行するま たは後続する時間フレームから見たベクトル中に保存された値とベクトル係数と の差、例えば、q>iだけでなく、q<iの場合もti-qは、即座に発生し、さ らに必要とあれば、その差値レベルに関して検査することができる。 再構成の場合、同じようにゼロであるということによって、後続の応用例アル ゴリズムは、最初の先行時間フレーム例えば、検査された特徴ベクトル係数Cn (tf)が非ゼロであるf<i−qである場合のtfに注意するように告げられ る。非ゼロ値を見つけたら、係数値ΔCn(tf)をCn(ti)の代わりに用い て、後続の応用例で使用する。もし応用例アルゴリズムがCnの絶対値を必要と すれば、完全値特徴ベクトルを、規準係数値を最初に発見したという事前定義さ れた判断を用いて再構成する必要がある。差ベクトルを用いる場合、アルゴリズ ムは差ベクトルとの差係数値を規準係数値に加算して、該当するフレーム中に係 数Cn(ti)を発声する。 係数ベクトルの測定値を規準ベクトル係数の値と比較する必要がある応用例の 場合、2つの方式が考えられる。既知の音声セグメントがすでに記録された規準 を持つ話者によって発音されるか、さもなければ音声認識ステップを用いて該当 する特徴ベクトルを最初に識別して次に関連する規準特徴ベクトルを発見する必 要があるかどちらかである。このようにして、係数は減算されることがあり得る し、差係数を用いて、音響音声単位または時間フレーム中の単位を示す差ベクト ルを形成することができる。 差を用いるこの方法は、保存または伝送に必要とされる情報量を最小化するた めには有用であるが、この理由は多くのベクトル係数がゼロとなるからである。 その結果、保存用の空間、計算時間および伝送帯域幅は小さくてすむ。話者に対 する絶対特徴ベクトルは、係数ゼロ(または他の不変化記号)に対する定義標準 が既知であるかまたは特徴ベクトル、例えば上記の同一ゼロ符号と共に伝送され る限り、後になって再構成することができる。電話方式に対する重要性の一例は 、応用例で必要とされるすべての音素および他の音響単位に対して、最初に標準 話者の特徴ベクトル値を保存するというものである。これらのデータは認識装置 のプロセッサとシンセサイザ双方のコードブック中に保存される。次に、音響音 声単位を媒体を通じて伝送するときはいつでも、単位記号および規準話者からの 使用者話者の偏差だけを伝送するだけでよい。合成されると、受信装置に保存さ れている平均話者係数と偏差係数の和によって、テキスト記号を音声中に再構成 するためのより正確なベクトルが形成される。 別の重要な応用例は、既知の音を離す標準的な話者からの偏差を決定するこの 方法によって、アルゴリズムは自身をシステムに対して適合させるというもので ある。ある規準音が発音され、ある差ベクトル係数が所定のレベルを越えた場合 、アルゴリズムは、より正確に認識するためまたは他の応用例のために、規準話 者のベクトルに対する話者の特長ベクトルの自動的な「正規化」をトリガする。 逆に、短期間に差が大きくなりすぎると、アルゴリズムは適当な人物に、システ ムの使用者に人的変化が発声したことを信号通信する。 (音響システムの電気的類似性) 刺激関数および伝達関数は、音響システムに関する周知の電気的類似性を用い て、すでに定義したように近似させてもよい。初期のものではあるが全体的な説 明は1965年のFlanaganを参照されたい。図16に、刺激関数、声道伝達関数 インピーダンスおよび解放インピーダンスを示す人間音響システムの簡略化され た電気的類似性を示す。各々の時間フレームに対する等価電気回路の回路パラメ ータを測定された刺激関数および伝達関数の測定データに適合させることにによ って、自動化されたアルゴリズムは「回路」のパラメータ値を決定することがで きる。この方式の利点は、比較的少ない数のタイプの人間声道共鳴器条件(10 から20の条件)の各々を1群の回路素子によってモデリングできるが、特定の パラメータ値だけは時間フレームごとの音声音声情報に基づいて決定される。 例えば、図17Aと17Bに、電気的類似値、例えばL、C、Rなどの、音響 音声音「ae」に対して用いられる単一管の音響係数を表すパラメータを持つ直 状管人間音響システムの電気的類似性を示す。図5に示す逆たたみ込み方式およ び図11Bに示す伝達関数値を用いて、図16に示すインピーダンスおよび図1 7Aと17Bに示す回路値を音「ae」に対してアルゴリズムを用いて決定して 、回路値を伝達関数データに適合させることができる。特徴ベクトル件数は、汎 関数表示として電気的類似伝達関数を用い、さらに、伝達関数を表す電気回路パ ラメータを用いることによって定義することができる。これらのパラメータは、 適切に定義された伝達関数に容易に適合するが、その理由は、ここに示す方法に よって、各々の時間セグメントに対してリアルタイムで声道伝達関数から刺激源 を分離する方法が分かるからである。特徴ベクトルを形成する方法論に加えて、 電気的類似回路パラメータ値は生理的声道値を説明するのに有用であるがその理 由は、Lが気団を表し、RおよびGがそれぞれ音響的な抵抗とコンダクタンスを 示し、Cが空気量を示すからである。これらの生理的パラメータもまた特徴ベク トル係数として用いることができる。 図17Aに示す単一メッシュ回路の場合、声門と口の間の空気量速度伝達関数 は、放射負荷を含む次式で与えられる。 ここで、γおよびγrは図17A中のメッシュ回路パラメータと関連しており、 次のように定義される。 tおよびAmはそれぞれ喉および口開口部の面積であり、kは音の波番号であり 、aは口開口部の半径である。At=Amであるような単一管の場合(すなわち、 声門と口の面積が等しい場合)、伝達関数のポールが次式で与えられる。 式1中の生理的パラメータが以下の通りである:Lは声道の長さ、aは口開口 部の半径、αは声道和部の抵抗である。典型的な数値としては、F(a、L)≒ 0.94、a≒5.2e-4cm-1,音の速度c=3.5e4cm/秒である。 低位ポールを決定することができる。低位ポールを用いて、以下の式によって生 理的変数を限定することができる。3つの物理的パラメータを、S平面上の最初 の2つのポール位置の測定値から推測することができる。それらはr0、r1、ω0 およびω1であり、伝達関数の最初の2つのポールの対応する実数部および虚数 部である。次に、これら3つの物理的パラメータを次式から決定することができ る。 (生理的パラメータ) 上記の情報を得るために用いられる方法を利用して、音声時間フレーム中に離 された音響音声単位を示す係数として人間話者の声道の生理的パラメータを用い た特徴ベクトルを発声することができる。ARMAモデルを定義するために用い られた伝達関数パラメータ、電気的類似性モデル値およびここに示すリアルタイ ム技法から得られた値によって、路長、口腔長、空洞体積、口体積、咽頭寸法お よび空気通路壁のコンプライアンスが定義される。生理的パラメータの他に、特 徴ベクトルには、例えば、刺激関数情報、タイミング情報および他の制御情報が 含まれる。 すると、この生理的情報を特徴ベクトルの係数として使用したり、またはAR MA汎関数または他の伝達汎関数の形態中に含めて、係数値を限定することがで きる。例えば、音素「ae」を発音することによって声門から唇までの路の長さ が分かれば、話者の声道の基本的共振が分かり、これが、話者の最低周波数ホル マントを定義することによってデータ分析に対する限定として作用する。 ここに示す方法を用いて入手できるデータの例は、図11Bに示す音「ae」 の場合の伝達関数データに対するポールゼロの数値的適合を用いることである。 最低ホルマントポールf1は516Hzにおいて得られ、単純な式を用いると、放 射の項を省いて、次式で声道長が与えられる。 同様に、図11Aに示す音「ah」に対するポールゼロデータは、声門から舌隆 起と舌隆起から唇の和のデータとなる。 生理的値の重要な応用例は、これらの値が各々の固有の話者の伝達関数を適当 な平均的話者の伝達関数に対して正規化する方法を提供してくれることである。 このようにして、ここに示す逆たたみ込み方法によって得られる各ホルマント値 は、生理的測定値および瞬間的な測定規準値を用いて新しい値に転送される。 生理的パラメータの別の重要な用途は、音素が音声化されるにつれて、声門と 声帯ひだの機械的特性を測定することである。声門構造の動きを測定する電磁セ ンサーによって使用者は、声門のメカニズムの機械的値を限定することができる 。これらの値には、開口振幅、ピッチからのスプリングおよび質量定数、給湿、 お よび後方伝搬音響波(すなわち、低圧音響波)による交感組織振動からのコンプ ライアンスが含まれる。「uh」または「ah」のような低ポスト声門圧力を持 った音素(例えば開管音素)などの特殊な音素が校正目的に用いられる。 周知の音素に対する生理的条件および刺激関数の差によって、話者の複数の属 性を識別することができる。これは上記のような識別目的にも使用可能であるが 、各々の使用者の生理的条件に適合させるために用いられる伝達関数形態の最良 のタイプを自動的に選択する目的にも使用可能である。その例として、話者の声 道寸法の全体的特徴、例えば、成人男子、成人女子、子供および他の音声医師に 周知のさまざまな変動を識別する用途である。 (音声の符号化) 電子センサーおよび音響情報を記録して符号化する目的は、使用者が定義した 特定の用途のためにそれを用いることである。ここに示す方法には、電子センサ ーや音響利用の音声技術にとって価値があり有用なさまざまな物理的、工学的お よび数学的モデルに対する特徴化パラメータを定義するプロセスが含まれる。こ れらのプロセスは、時間フレームの定義、係数の平均化、正規化、量子化、およ び電子センサーや音響データを変換して特徴ベクトルを形成するための関数の適 合化を含む処理手順が含まれる。これらの方法はたいていは線形手順であるが、 線形技法に限られることはない。非線形手順の例には、音響データまたは伝達関 数の対数を採って人間の聴覚機能を反映させたり、関数適合化技法を用いる前に 、変換されたデータの周波数縮尺を整形的または非線形的方法で圧縮する(例え ば「Mel」縮尺や「Bark」縮尺)方法が含まれるが、これに限られること はない。このような処理は用途によって異なる。適切な時間フレームに対する特 徴ベクトルは、線形のまたは非線形の関数係数を処理済みデータに適合すること によって形成されるが、このような特徴ベクトルはコードブック、記憶装置ない しは類似の記録媒体に保存することができる。 すべての音声フレームに対して広い周波数範囲にわたって測定されたここに示 す方法で発声された大量のデータによって、このデータに適合する関数中に関数 形態を固定化するために用いられる係数を定義することができる。例えば、図9 Bおよび10Bに示す音素「ah」の電磁センサーによるデータは2MHzで発 生したものであり、同時音響データ(図9Aおよび10A)は11kHzで(1 6ビットを用いて)ディジタル化されたものである。これによって、1つの音響 ポイント当たり250の電磁データポイントが得られるが、これらのデータポイ ントは、16ビットの音響データの精度に整合するように平均化される。これに よって、各々の公称10msの音声フレームの中で、1つの電磁センサー当たり 80の平均化されたデータポイントおよび、80の音響データポイントが導かれ 、これによって1群の汎関数係数が定義される。原則として、80と160の間 の数の未知の係数を決定することが可能である。しかしながら、汎関数形態をデ ータに適合させることに習熟した当業者には、このような多量のデータの集合を 用いて、より単純なモデル利用式汎関数形態と関連したより少ない数の係数を定 義する方法が知られている。特に、ここに説明する技法のフレキシビリティによ って、非常に広範囲にわたるデータ精度およびデータ詳細に対して効果がある電 子データ・音響データ収集システムを設計することができる。 (単一時間フレームおよび複数時間フレームの特徴ベクトル) ここに示す方法を用いれば、使用者は刺激関数、伝達巻数、音声時間フレーム パラメータ、音響パラメータ、ピッチまたは振幅のエンベロープの形状(1つま たは一連の時間フレーム中で得られたもの)などの韻律的情報ならびに制御情報 (例えば、伝達汎関数およびフレームクロック時間)を示すことができる。使用 者はこれらの情報を容易に、各々の音声時間フレーム用の特徴ベクトル中に組み 立てることができる。これらの個別の時間フレーム特徴ベクトルを一緒に結合し て、2つ以上の時間フレームにわたって発生する複数の音響音声単位(例えば倍 音素または3倍音素の記述子)を示す連結されたベクトルを示すことができる。 このような複数時間フレーム特徴ベクトルは、選ばれた言語でのすべての音素、 倍音素、3倍音素、複数音素(例えば、すべての語と句)に対して構成可能であ る。これらのベクトルは迅速な探索と検索用のデータベース(例えばライブラリ やコードブック)に保存して、測定済み複数フレーム特徴ベクトルとの比較や、 合成音声および他の応用のために使用することができる。多くの時間フレームに わたる音声単位の変動を示す特徴ベクトルを形成する能力は価値あるものである が、その理由は、一連の個別ベクトル係数の時間変化するパターンがそれと対応 する一連の音声フレームによって捕捉されるからである。この方式は、倍音素お よび3倍音素の情報を保存したり、多くの(例えば10個以上)音響音声単位の 定義されたシーケンスに関するHidden Markovの音声認識統計を用いる際には特 に価値あるものとなる。 長い持続時間を持つ複数音素音声セグメントを示す特定の例は、単一時間フレ ームベクトル形成に関して上述したように、係数状態が変化したらいつでも特徴 係数を「サンプリング」して定義するものである。状態変化の時間tiごとに、 p個の係数値の特徴ベクトルcn(ti)(ここでn=1からp)が得られる(図 12Aを参照)。この手順によって、値t1,t2,…、tk…によって注記され る変化の特定時間で得られる一連の特徴ベクトル係数群が発生する。例えば、時 間値t1音声フレームの開始時間を示す。しかしながら、tiはまた、一連のフレ ーム中におけるフレーム位置を注記する連続フレーム番号を示すこともある。時 間フレーム持続時間は通常は、ピッチ周期またはピッチ周期の数(または他の表 記形態)として特徴ベクトルに含まれるので、1つのフレームまたは一連のフレ ーム(すなわち、音声セグメントを具備するもの)によって取られる合計時間を 再構成することができる。例えば、以下は開始時間ti=t1,t2,…tk各々 に対する1群となったp個の係数c1(ti)、c2(ti)、c3 (ti),…cp(ti)を示すものである。 c1(t1),c2(t1),c3(t1),…cp(t1), c1(t2),c2(t2),c3(t2),…cp(t2),… c1(tk),c2(tk),c3(tk),…cp(tk) この方法は、多くの音響(CASR)認識システムとは違って10msごとに フレーム定義を必要とすることなく、音声セグメント全体を通じて、必須の調音 装置情報を捕捉するための適用手順を説明する。係数群のこれらのパターンは、 時間t1で始まり時間tk+(最後のフレーム持続時間値)で終わる音声セグメン ト全体を示す複数時間フレーム特徴ベクトルを形成する。停止時間(すなわち無 声音素)を含むことがあるこのようなベクトルは話者一人一人にとって非常に固 有のものである。これらは符号化された音声情報を時間的に圧縮し、「変化」状 態定義の選択ならびにセンサー、精度およびここに述べる他の考慮をの選択によ る応用に対して必要とされるすべての情報を保存する。 (正規化と量子化) 正規化 ここに述べる方法によって、共調音されたまたは不完全の調音された音声単位 を含めどのタイプの音響音声でも符号化することができる。これらの符号化方法 によって、各々の発声された音声セグメントに対する各々の発声された音素を高 品質で特徴化できるが、使用者話者の調音が、規準コードブックを発声するため に用いられた音響音声単位すなわち音声単位のシーケンスを持つ話者とは異なる 場合、認識または他のプロセスは精度をいくぶん失うことになる。ここに述べる 方法の、各々の話者の咬交器の生理的情報および神経筋肉情報を特徴化するとい うユニークな能力によって、各々の固有の話者の伝達関数を適当な規準話者の伝 達関数に対して正規化することができる。これらの正規化方法によって、特徴ベ クトル係数(または単位のシーケンス)が1人の規準話者またはまたは複数の話 者に対して正規化されるので、各々の時間フレーム間に形成される特徴ベクトル の変動が減少する。 訓練セッション中、使用者は一連の音声単位または音声単位シーケンスを図3 Aおよび3Bに示すようなシステム中に発声する。希望の語彙葉を使用者に発声 するようにさせることによって、または自然音声間に音声認識して希望の語彙を 選択することによって、1群の特徴ベクトルが選択される。すべての選択された 音声時間フレームに対する各々の音声ベクトルの係数は、早い時間に規準話者が 発した同じ規準語から得られた特徴ベクトル係数と比較される。このようにして 、規準語彙で必要とされる音響音声単位に対するすべての特徴ベクトルが、より 早い時間に測定されて、規準コードブックに保存される。 このプロセスは、アルゴリズムが各々のベクトル係数測定値cnを各々の時間 フレームに対して規準話者のそれと比較すると開始される。その測定値が事前定 義されたレベル(例えば、使用者が選択した20%のという値)だけ異なる場合 、規準コードブック中の係数または話者の特徴ベクトル中の係数のいずれかが変 更されることになる。この正規化プロセスは、以下の3つの方法の内の1つを用 いて、各々の音声時間フレームに対して実行される。 1)コードブックの修正:コードブックにリストアップされており、限られた語 彙中の試験済み音響音声単位に関連するすべての特徴ベクトルは、その係数が話 者特有の特徴ベクトルの係数に変更される。また、修正する必要がある個別の語 音を含むコードブック中にある複数音素音単位シーケンスを変更するプロセスも 存在する。修正可能な音響音単位、例えば音素、倍音素および3倍音素は、「誤 調音された」音素としばしば関連する。複数音素特徴ベクトルの特定の係数は、 訓練中に決定されたままの関連単一音声単位の固有の調音を反映するように変更 される。例えば、話者が単語「the」の内の「th」を誤調音すると、語「t hat」中の「th」、「a」および「t」などのように「th」を有するすべ ての倍音素や3倍音素などは話者の特徴ベクトルに修正される。同様に、複数音 素単位を、このアルゴリズムの指定によって定義されるように発音して、比較し て、さらに、コードブック中で変更される。この手順によって、話者固有のコー ドブックが構成される。 2)キー音シーケンス修正:訓練セッションの間に、該当言語の話者によって無 満足に発音されることが周知であるところの特殊な音響音シーケンスを、話者は 調音する。この音響音単位シーケンスはここに示す方法によって測定され、特徴 ベクトルが形成される。これらの複数単位の咬交器状態を示す測定された特徴ベ クトル係数は、事前定義されたコードブックの位置中の類似の特徴ベクトル係数 の代わりに保存される。これによって、部分的に「個人化された」複数音素コー ドブックが与えられる。 3)極値の方法:話者は、話者が自身の咬交器をその極端な位置や速度(例えば 、最高位置から最低位置、最高速度から最低速度、最前部から最後部位置)で使 用する必要がある一連の訓練用音響音声単位を発音する。直接電子センサーおよ び逆たたみ込み方法を用いて、これら極値の特徴べクトル表示を見つけることに よって、各々の特徴ベクトル係数を示す係数に対する2つの極値制限が得られる 。各々の係数Cnに対する極値係数値は、minnおよびmaxnによって表される 。これら2つの極値を用いて、例えば、最長と最短の声帯ひだ周期および音響音 声谷に対する各々の伝達関数係数の内で最大と最小の値を表すことができる。特 徴ベクトル係数位置cn中の各々の係数に対する極値の平均値aven=(minn maxn)/2などの他の値も得られる。これらの特殊な値は分離した、しかし 「平行な」コードブックに保存されるが、このコードブックには、「使用者極値 」、使用者平均および、応用例に対する正規化された特徴ベクトルの形成に用い られる各々の使用者係数cnに対応する他の有用な値が含まれる。 極値方法における次のステップは、必要な規準話者の極値、平均値および他の 有用な値をも発声することである。各々の規準話者(または複数の話者)は、正 規化中の話者の訓練サイクルに対する同じ音単位の1群を調音するように要求さ れる。次に、1群の規準係数極値(さらに平均値などの他の情報)は、分離した しかし「平行な」コードブック中の各々の音響音単位に対する各々の係数cnと 関連付けされる。他の有用な値の一例は、中間咬交器係数値を定義する特殊な咬 交器状態を表す値である。これらの値は、非線形のまたは誘導された内挿法手順 を援助するのに価値がある。 これらの方法を正常に用いる間に、話者がなんらかの音単位を発声すると、時 間フレームが定義され、特徴ベクトルが発生される。この特徴ベクトルの各々の 係数測定値measnは、係数cnに対する話者の係数伸張の最大(maxn)と最小 (minn)の範囲と比較される。 話者範囲の2つの極値の間にある係数の測定値の分数fnが、例えば図18に 図示する線形方式を用いて次のように計算される。 fnmeasn/(maxnminn) 次に、係数measnは、規準話者の最小範囲と最大範囲を用いて、次のように 係数normalnによって置き換えられる。 normaln=ref minn+fn*(ref maxn-ref minn) この式において、fnは、使用者自身のcn測定値かの情報ならびに、各々の特徴 ベクトル係数cnと関連する使用者および規準話者の極値(さらに他の有用な値 も)含む極値に関する「平行な」コードブックからの情報を含んでいる。このよ うにして、使用者の咬交器の係数範囲の分数は規準話者範囲の分数に対してマッ ピングされる。 この手順は非常に実現し易いが、その理由は、各々の時間フレーム中の音響音 声単位は、正規化を必要とする比較的少ない数の係数値(例えば、図12Aの係 数c1からcpまでのサブセット)によって特徴化される。fnに対する他の内 挿法技法を、上記の線形技法の他にも、希望に応じて用いても良いことが周知で ある。さらに、各々の特徴ベクトルにある1つ以上の係数に含まれる数値を持つ タイミングや音素記号などの制御係数は上記のようには正規化されないことは明 らかである。 上記の正規化方法によって使用者は、不完全な調音を修正できるが、その理由 は、不完全な咬交器の位置付けと関連する特徴ベクトル係数が、規準話者によっ て調音され記録された正確な係数値に対して正規化されるからである。その上、 共調音は、共調音がもっとも通常に発生する倍音素、3倍音素および類似の音響 単位を示す複数音声フレームベクトルを正規化することによって修正される。1 人の規準話者または話者グループから判断されたままの複数音素シーケンス中の 各々の音素に対する極値(すなわち目標値)が、同じ規準人物から得られた個人 的な音素または他の原始的な音声単位とは異なるという重要な事実に注意された い。すなわち、咬交器は、二次、三次またはより高次の複数音素中に埋め込まれ ている同一音素を発音するときには、分離された音素と関連するcnの同一の極 値には達しない。 話者個人の音声化されたピッチ値は、上記のように1人の規準話者または複数 の話者の係数に対して正規化され得る重要な係数である。この手順は、該当する 音声化された音声フレームに対する話者のピッチ値(すなわち、ピッチ周期の逆 数)を表す適当な刺激特徴ベクトル係数cnを正規化することである。話者と規 準コードブック双方のピッチ値の極値には、最大ピッチ、最小ピッチ、さらに必 要に応じて中間ピッチ値(例えば、主要母音グループの各々のに対するピッチ値 )が含まれる。刺激関数ピッチ値係数の正規化は、上記の一般化係数の場合と同 様に進行する。 外部ストレスまたは健康要素だけでなく人間の生理的張力レベルは、使用者の ピッチ、音声速度および調音程度を変更できるので、これらを用途が許す限り頻 繁に修正することが重要である。使用者が話す最初の最初の語を用いて機械をオ ンしまたは「ログイン」することによって、毎日ピッチを正規化することができ る。簡単に認識される母音を用いて適用更新することによって、最大レベルおよ び最小レベル、さらに図18Aに示すような中間正規化値を修正できる。日が進 むに連れ、さらに使用者が疲れたりストレスを持つにつれて、自動的に認識され た音響音声単位に基づいた適用修正を用いることができる。 (特徴ベクトル係数の量子化) 咬交器は、音声音に変化が起きたことを知覚すると、その変化に対して最小量 だけ、ある条件を移動または変更する必要があることが研究の結果周知である。 (David,Denesによる「人間どうしの通信=統一見解(Human Communication--A Unified View)」McGraw Hill1972年の中のスチーブンス(Stevens)による 「音声の量的性質:調音による証拠=音響データ(Quantal Nature of Speech: Evidence from Articulatory‐Acoustic Data)」を参照されたい)。用途(例え ば音声認識や合成)での知覚される差を引き起こさないこれらの特徴係数値およ びピッチ値の変化を-緒にして、一定値の「帯域」とグループ分けすることがで きる。その結果、訓練と合成の実験の間に、使用者は、1人の規準話者または話 者グループを用いて、採用中の用途に対して知覚可能な音声変化が検出される係 数値の帯域を決定することができる。刺激関数係数を含め、各々の適用可能な特 徴ベクトル係数に対して、一定音声知覚に関するこれらの帯域が決定されると、 測定された係数値cnは帯域値中に量子化することができる。音声が発生するに つれて、各々の特徴ベクトル係数測定値は最初に正規化され、次に、ほんの少し しかない「区別可能な」値の内の1つ中に「量子化」されたり「詰め込まれる」 ということになる。図18Bに、上述され図18Aに図示する正規化手順に基づ いたこのような手順を図18Bに示す。 アルゴリズムは次のように進行する。第一に、特徴ベクトル係数が各々の音声 時間フレームに対して測定される。第二に、各々の係数が、図18Aに示すよう な係数に対する規準話者の値に対して正規化される。第三に、各々の正規化され た係数値が、係数値が変化し得る一定の受容性の帯域を表すが、使用者が定義し たような識別可能な変化をなにも発生しない1つの値中に量子化される。このよ うにして、係数の連続体をほんの少数の値中にマッピングして、いくつかの帯域 を表す。帯域係数値は通常は、帯域の中心値として選択される。正規化された係 数、normalnが、規準話者の識別可能帯域の内の第2の帯域による範囲に存在 する場合、測定値meannは最初にnormalnにマッピングされ、次に、値2n” 中に量子化される。二重アクセント”は、その係数が量子化されていることを意 味し、上添え字2は、正規化された特徴ベクトル係数normalnの範囲全体を収 める帯域の内の第2の帯域であることを意味する。 もし使用者が希望すれば、規準発生中およびその使用中に得られた量子化帯域 値をさらに量子化することができる。例えば、n個の帯域の各々を0から1(ま たは、使用者の選択による他の範囲の数値)の端数値と関連付けさせて、便利な 数としてもよい。例えば、ピッチレートを、それぞれいずれかの話者の低、中お よび高の周波数ピッチを表す1,2および3などの3つの数に量子化して、例え ば70Hzとか150Hzとかまたは類似の物理的に価値のある値などの絶対値 としてのピッチ周波数を用いないことが好ましい場合もある。量子化された値を 正規化するこの方法は価値あるものであるが、その理由は、これによって装置個 通の値と話者固有の値がすべて取り除かれ、テーブルのルックアップ速度と精度 が向上するからである。 (リアルタイムの測定、記録および逆たたみ込み) ここに説明する方法によって使用者は、希望の適用例に対してほとんど任意の 度合いの線形性、動的範囲およびサンプリング帯域幅で、情報を感知し、処理し 、保存する適切な技法を選択することができる。これらの方法をコスト、データ 価 値および携帯性や便利さに対する必要性に応じてさまざまな構成で用いることが できる。広範囲にわたる適用例による必要性をフレキシブルに満足させてくれる ので、これらの方法は非常に価値高いものとなっている。 刺激源信号特徴を関連の音響出力信号特徴に関連付けるためのリアルタイム情 報を用いる方法は、複数の用途に対して生理的な情報を得るには価値ある方法で ある。例えば、これらの手順を、ここに述べる方法に基づいて使用者がシステム を最初に使用する際に、訓練シーケンス中に組み込むことができる。使用者に一 連の既知の音素を発音するように要求することによって(または希望のタイミン グ情報が抽出できるその抽出先であるキー音素を認識する音声認識装置を用いる ことによって)、アルゴリズムは自動的に使用者に対して適応される。例えば、 これらの方法によって、既知の音素が発音されるにつれて、個人の音響管の長さ を測定できる。音素「ae」は、主として、声門から唇さらにマイクロフォンに 至る音声化された単一管共振によって引き起こされることが分かっている。刺激 信号がその長さを走行して音響信号として出力されるのに要する時間を測定して その測定値を用いて、個人の声道の音声モデルに使用されるパラメータを決定す ることができる。この長さを知ることによってより迅速なモデル適合が可能とな るが、その理由は、主要な路濾過特性の内の1つが限定されるからである。また 、固有の話者を定義するのに役立つ生理的測定値を与えることによって、話者の 識別でも価値あるものである。 同様に、鼻音「m」などの他の発声路構成においては、音は声門から鼻通路を 通り閉じた口共鳴器中に走行する。2つの信号の和が鼻から出てマイクロフォン に至る。音響エコーは(音声出力中のある周波数をキャンセルして)、閉じた口 共鳴器によってもたらされる。他の音素は、管と共鳴器の同様な組み合わせによ ってもたらされる。声門刺激は別の経路を走行し、別の遅延時間を持つ。ここに 述べるリアルタイム方法により、これらの他の路寸法も測定することができる。 この方法によって、音響出力からの刺激源をリアルタイムで逆たたみ込みして 、有用な声道情報を得ることができる。各々の音声セグメントに対する使用者の 声道セグメント寸法および他の特徴値を用いて、次の応用例での声道を示す特徴 ベクトルを形成することができる。実験によって、音素「ah」および「ae」 に対する生理的値が提供された。 (応用例) 音声圧縮 本方法によって、音声時間圧縮のための自然で物理的に良く説明できる基礎が 提供される。上述の方法は、差特徴ベクトル形成、複数時間フレーム特徴ベクト ル形成、多重声門周期時間フレーム、ゆっくりと変化する特徴ベクトル時間フレ ーム、および非音声化された時間フレームの決定に対するものであり、リアルタ イムで話された音声よりはるかに少ない時間で音声セグメントを正確に符号化す るアルゴリズム記述を示している。これらの方法を単に延長することによって、 1つのべクトルに対する無声PLU(例えば停止音声セグメント)と1つのベク トルに対する比較的長い非音声化された音声セグメントの双方を崩壊させる方法 が示される。これらの方法によって、本質的に一定な音声の時間セグメントを1 つの時間フレームおよび1つの代表的な(すなわち圧縮された)特徴ベクトル中 に崩壊させることができる。圧縮されたベクトルは、音声を必要に応じてリアル タイムに復活させる方法を示すほんの少しの追加の係数を含む。アメリカ英語で は常に「q」の後に続く「u」などの音パターンの冗長性を除去する文法的で統 語法的な規則を用いてさらに圧縮することが可能となる。これらの単純化された パターンは、音声合成の間、送信された音声記号の再構成の間またはメモリに保 存された音声から復元することができる。 話者の識別 ここに述べる特徴ベクトルを形成する方法によって、使用者は、1つまたは複 数の音声セグメントから得られた特徴ベクトルを、話者識別目的で規準話者によ って話され、コードブック中に保存されている同じ音声セグメントと比較するこ とができる。この目的のための符号化およびタイミング方法は、各々の時間フレ ームまたは一連の時間フレームにわたって特徴ベクトルを定義することによって 自動的に実行することができる。この識別動作は、分離された時間フレームから の特徴ベクトルを用いて、または複数音素時間セグメントを用いて実行すること ができる。使用者は、使用者が音を繰り返し発音する目的でシステムによって提 示された直前に同意された音声セグメント(例えば、名称またはPIN番号)を 用いて識別比較を実行することができる。別法として、音声認識を実行して、自 然音声からキー音声セグメントを抽出するようにしてもよい。識別された特徴ベ クトルパターン(すなわち複数時間フレーム特徴ベクトル)は規準コードブック 中のパターンに圧縮される。 上記で説明した規準フレームに照らし合わせてフレーム毎に圧縮することに加 えて、使用者の平均ピッチおよびピッチ変動、使用者の発声器官の生理的パラメ ータおよび使用者からの電磁波反射強度に関する追加の情報(水と組織の組成を 試験する)が入手可能である。これらのパラメータは、システムによって使用者 に対して要求された初期音から得られたり、使用者が「ログイン」して最初に得 られたりする。次に、これらのパラメータは既知の値と比較されるようにシステ ムによって用いられて、真の話者を表す。 この識別プロセスは、各々の時間セグメントに対するコードブックに保存され ている係数からの測定された特徴ベクトル係数の距離を比較する測定アルゴリズ ムを用いる。時間間隔と韻律の値を持つ20から30の音素シーケンスで毎秒5 から10音素を話す正常の話者速度が数秒以内で得られる。非常に緻密に認識す るためには、数分にも及ぶ音声が必要とされることがあり、非常に高い値を作業 するには、全使用期間を通じての話者に対する連続的なキーパターン識別と検証 のための音声認識を用いる連続的認識が用いられることがある。サンプリング時 間中は、統計的アルゴリズムがデータを処理し、正確な識別の確率を得る。 音響センサーと電磁センサーのパターンに加えて、使用者の物理的パラメータ をここに述べる方法を用いて得ることができる。寸法、位置、正常位置(例えば 正常ピッチ)および組織コンプライアンスなどの発声器官の生理的特徴を得るこ とができる。また、情報速度だけでなく各々の音響音単位の調音の品質も得られ る。各々の話者の固有の調音品質は、倍音素や3倍音素など急速発音される音の 組み合わせなどが測定されてすでに保存されているデータと比較される際に強調 される。ここに示す方法は、このような複数音素特徴ベクトルがどのように形成 されるか、距離の尺度がどのように形成されるか、尺度がどのように比較目的で 用いられるか示す。一連の音響音声音にわたって取られた器官の寸法、調音位置 および音響音声情報を結合したその時間運動パターンはどの言語を話す各々の話 者にとっても非常に特徴的である。 この方法によって、特徴ベクトル係数を用いて、使用者の特徴と、ベクトルが 形成され事前定義されたライブラリに保存される基となる同じ音響単位を試験さ れた話者が発音したときに定義された特徴との間の距離尺度を定義することがで きる。1つの測定プロセスの例は、すべての測定され保存されたベクトル係数( 制御係数および他の特殊係数は含まれない)間の距離を次式のように得ることで ある。 Δcn(ti)=measn(ti)−refn(ti) ここで、すべての時間フレームはフレーム時間tiで表されている。次にアル ゴリズムは、音シーケンス中のすべての音声時間フレームに対して、すべての係 数差Δcn(ti)の自乗の和の平方根を取る。その値が、使用者による以前の実 験に基づいて、事前定義された値未満である場合、使用者話者は有効であると認 められる。この例証方法は、すべての適当な係数に対して等しく適用される均 一な距離尺度である。不均一な係数重み付け方法、非線形測定プロセスおよび別 の統計的試験方法を用いる他の方法は周知である。 他の応用例では、話者の生理的または言語的タイプを判断するために平均化さ れた話者(または他のタイプの規準話者)から得られた係数を持つベクトルの規 準ライブラリと話者の間でなされる類似の比較手順が用いられる。例えば、アメ リカ英語の男性話者、アメリカ英語の女性話者、子供または特定の方言を持つ外 国人話者をさまざまな目的で識別することができる。 言語識別 特徴ベクトル対時間(すなわち、複数時間フレーム特徴べクトル)のパターン は、話者が話している言語を非常によく表すものである。話者が話している言語 を判断する方法は次の通りである。本方法は、分離した正規化された(さらに、 必要に応じて量子化された)言語のコードブックが、応用例で使用される1群の 言語内のすべての言語に対してすでに形成されているという点を除けば、話者識 別に関して上記されたと同じ手順を用いる。使用者が既知の試験音を発音したり 、またはリアルタイム認識技法を用いて自然音声から試験音を抽出したりすると 、アルゴリズムは、基礎として個人的な声門周期特徴べクトルを用いて各々の音 声周期に対する特徴ベクトルを形成する。このべクトルは、必要に応じて正規化 したり量子化したりすることができる。次に、アルゴリズムはこれらの基本的パ ターンをより複雑なパターンに形成して、複数の言語コードブックの1つ1つを 探索して測定済みパターンが無いか調べる。これらのパターンは各々の言語の固 有の識別音パターンを包含するようなものが選ばれる。次に、アルゴリズムは特 定のまたは小グループの特徴ベクトル係数(特に声門ピッチパターン)によって 表される特定の咬交器位置付けの、複数時価フレーム特徴ベクトルの出現回数の 統計を用い、さらに、所与の言語だけと関連する固有の音パターンの出現が無い か探索する。複数成分ベクトル距離を測定して細流の適合を試験する方法がいく つ かあるが、これらの方法は本セクションの初めで話者識別に関してすでに説明さ れている。言語コードブックの1つに対する音声セグメントの最良適合が見つか ると、音声の言語が識別され、認識の確率値が必要に応じて入手可能となる。 (音声認識) ここに示す方法によって、新たなそして強力な仕方で、任意の言語で話された すべての音響音声単位を識別することができる。この新しいタイプの認識法は、 刺激関数や逆たたみ込みされた伝達関数から得られた処理済み情報、同時に記録 され処理された音響情報およびタイミング情報を用いて上述のように定義された 特徴ベクトルの使用に基づいている。特徴ベクトルは音響技法だけに基づいたベ クトルよりも正確である。その理由は、特徴ベクトルが、音セグメントの音素形 成に直接結びついているからである。これは他の方式より正確であるが、その理 由は、ポールとゼロの双方が正確にモデリングでき、ピッチを正確にそして迅速 に測定でき、特徴ベクトル係数が容易に正規化ないし量子化できて、話者による 変動を除去できるからである。このベクトルは、各々の音声時間フレームに対し て自動式に、非常に高い確率で、音素(または他の音響音声単位)が定義できる ようにするための、冗長度とモデル限定を含む十分な情報で音声単位の状態を定 義する。音声セグメントからの測定され処理された音素特徴ベクトルが、音響音 声単位の1つのまたは複数の記号を含む保存済み規準ベクトルと関連付けされる と、識別がなされる。音響音声単位が識別されると、記号(例えば、文字、ピク トグラム、一連の文字、他の記号)が認識される。音声セグメントの識別記号は 、入手されると、自動的にASCII(または他のコンピュータ符号)または文 字、ピクトグラムまたはテキスト記号を通信チャネルを介して送信するための電 話方式符号に符号化する。認識された音響音声記号を「技術的符号」に変換する このような手順は通信技術の実践者には周知である。 トラクト特徴ベクトル(tract feature vectors)および刺激関数を正規化し て時間に依存しない音響記述や、正規化速度(すなわち時間ワープ)や共調音や 、不完全調音や音素移行を求める方法を用いて、個人間および異なった時間での 同じ個人の音声情報の測定パターンの変動を単純化することができる。このよう にして、正確な音響音声単位記号をより迅速で正確なコードブックの「ルックア ップ」が可能となる。 (訓練、テーブルのルックアップおよびテーブル発生) 訓練プロセスはここに説明するアルゴリズムによって用いられて、例えば図3 A)図3B)図8または図20に示すシステムに類似のシステム中に音声セグメ ントの既知の語葉を調音するように1人の話者(または複数の話者)に要求する 。このセグメントの複雑さは単純音素から連続自然音声まで及ぶ。この訓練プロ セスによって、ここに説明する代表的なシステムと方法に示す測定装置を用いて 既知の音響音声単位に対して測定済み特徴ベクトルの記号との周知の関連付けを 構築することができる。システム設計者は、各々の訓練された音セグメントに対 する特徴ベクトルを形成してコードブックのロケーションまたはライブラリのロ ケーション(すなわち、データベース)中に保存するための正規化、量子化、ラ ベル付けおよび他の必要な操作を含む、ここに示すアルゴリズムから適当な処理 アルゴリズムを選択することができる。これらのコードブックのデータセットは 、ここに説明するほとんどの応用例にとっての規準として働く。測定された音声 特徴ベクトルを同様に形成されたベクトル群と関連付けさせる方法は、データベ ース探索のための周知の手順を利用する。このような手順によって、アルゴリズ ムは、測定されたベクトルが保存されているベクトルを整合するデータベース中 のロケーションを迅速に発見することができる。手順が示されると、迅速にべク トル距離を測定して、最良の整合を判断し、関連付けの確率を決定する。正規化 され量子化され、正確に形成された特徴ベクトルによって、非常に迅速にデータ ベースを探索できるようになる。 (音声認識のための電磁・音響テンプレート整合モデル) 特徴ベクトルを用いて、音素テンプレート(すなわちパターン)を整合させた り、関連の音響音声単位を識別したりすることができる。各々の音響音声単位記 号は特定の調節器の構成(すなわち音素調節器のパターン)と一意に関連してい る。これらのパターンを示す形成されたベクトルは、次に、ライブラリデータと 比較され、コードブック特徴ベクトルからの「距離」および声門運動に対する「 オン」や「オフ」などの論理的動作に基づいて識別される。複数音素を持つ音声 セグメントの場合、ベクトル距離を測定する類似の方法を用いてもよい。1つの 手順として、すべての関連するベクトル係数の差の自乗の和の平方根を用いるも のがある。(制御係数距離は用いられない)。距離が、使用者が定義した値の範 囲内であれば、識別が定義され、距離測定値に基づいた関連の確率を希望に応じ て識別単位に付与することができる。論理的試験動作を用いることは周知である 。特徴ベクトルに対する良く定義された正規化と量子化技法は良く定義されたコ ードブックの比較に役立つが、その理由は、ベクトルは測定器や話者とは無関係 なものとすることができるからである。さらなる利点は、個人的話者の音素シー ケンス調音の速度を正規化して、時間整合された音声フレームを発生することが できることである。 (音声認識のための電磁・音響Hidden Markovモデル) 音響出力から剌激関数の電磁センサーによる測定値を逆たたみ込みすることに よって音声単位特徴べクトルを形成する方法を用いて、音素のシーケンスを表す 音声フレームのシーケンスからデータのベクトルを形成することができる。これ らの方法は、多くの連続的な音響単位、例えばシーケンスとなった音素、倍音素 および他の複数音素の符号化を示す。このようなベクトルは、電磁・音響Hidden Markovモデル(HMM)を用いて自然発声音声に対する記号を識別するために は特に有用である。多くの人間音声セグメントは発声された多くの音素から成 り、したがって、多くの音響単位がワードブレークする か以前に発生する。1 つ以上の音声フレーム特徴ベクトルだけでなくシーケンスとなった単一音声フレ ーム特徴ベクトルを、制限された規準特徴ベクトルデータセットの事前保存され たパターンの組み合わせに照らし合わせて試験することができる数値のパターン として取り扱うことができる。HMM統計技法は、これらの測定され形成された 特徴ベクトルシーケンスを、コードブック内にある単に限られた数の特徴ベクト ルから、アルゴリズムの必要に応じて、構築された試験パターンに関連付けるこ とができる。典型的なコードブックには、50PLUおよび1000から200 0の倍音素に対する事前記録され処理された特徴ベクトルが含まれる。 電磁センサー・音響HMMによって使用者は、既知の語や句を表すこのような 一連の特徴ベクトルを観測する確率を比較することによって1つの音素または1 パターンとなった複数音素を統計的に識別することができる。この手順を実行す るには、音響ベクトルHMM方式で技術上周知であるように、句を学習して、使 用中の語業内の語に対する特徴ベクトルの組み合わせの試験パターンを構築する 必要がある。ここに示す方法によって、HMM音声認識方法が非常に価値あるも のとなるが、その理由は、データが非常に正確で良く定義されるからである。こ こに示す方法は、記録された情報を逆たたみ込みし、正規化し、量子化し、時間 整合し、さらにモデリングすることによって合理的に特徴ベクトルを識別する非 常に正確な手順を提供する。次に、アルゴリズムは、使用中の特定の電磁/音響 HMM用に必要とされるだけの数の一連の(すなわちマトリクスとなった)特徴 ベクトルを形成する。その結果、個人話者の変動のたいていの曖昧さが除去され 、音声単位のパターンは話者による変動はほとんどなく、このため、HMMは非 常に正確な識別技法となる。 (音声認識の電磁・音響ニューラルネット方法) ニューラルネットアルゴリズムは、特徴ベクトルによって示されたパターンを 1つ以上の音響音声単位の記号表示に関連付けるに当たって有用なものである。 本方法は訓練周期方法を用いて、ニューラルネット上の調整可能パラメータを電 磁・音響入力特徴ベクトルと関連付ける。これらのパラメータは話者にも測定器 にも依存しないので、コードブック発生中に規準話者グループだけでなく1人の 使用者による音声内に定義されたベクトルは、同じ音響音声単位に対してはほと んど変動がない。リアルタイムの入力特徴ベクトルの関連付けは、周知のニュー ラルネットアルゴリズム(例えば2つ以上の層を用いるバック伝搬)を用いて実 行して、各々の入力を既知の音響音声単位、例えば音素、語または他の音声単位 に関連付ける。ここに示す手順の場合、各々の特徴ベクトルは長さが150係数 あり、3時間フレームを一度に取ると、ニューラルネットに対して約450の入 力が必要である。(制御ベクトルや同様の特徴ベクトルの係数は入力としては使 用されない)。必要出力の計算プロセスを用いてオフラインで一度訓練されると 、ネットワークアルゴリズムを使用者のプロセッサにロードして、入力特徴ベク トルから明瞭な出力音声単位に迅速に関連付けされる。(ニューラルネット応用 の実践者に周知の方式の場合の音声器官運動の「マイクロ波」X線検出の詳細は 、例えば、1992年8月発行のPapcunらによるJ.Acoust.Soc.Am.92の第一 部、688ページを参照されたい)。特徴ベクトル係数によって表される咬交器 位置に音声音記号を一意に関連付けされるので、各々の特徴ベクトルと関連する 記号が正確に識別することができる。 (電磁・音響結合確率音声認識) 結合確率方法を用いる認識によって、音声認識の精度が向上する。この認識方 法は、従来の音声認識(すなわちCASR)情報と一緒に逆たたみ込み方式を結 合して用い、さらに、認識情報(すなわちNASR)に基づいた純粋の電磁セン サーを用いることに依存している。 ステップ1:使用者は従来の音響(CASR)システムを選択して、音響音声 単位または音声単位シリーズ(例えば音素シリーズ)を検査する。CASRシス テムは、識別の基準を満足させる1つ以上の識別(例えば「ah」などの音素記 号)を選択する。使用者が選択したレベル(例えば80%)を超える識別確率を 持つすべてのこのような識別された単位の最初の集合が形成される。 ステップ2:逆たたみ込みプロセスに、ここに示す他の情報を足して用いて、 特徴ベクトルを形成する。統計的技法(例えばHMM)音素テンプレートまたは ニューラルネット)の内の1つを用いて、検査中の音声フレーム中に形成された 特徴ベクトルと関連する1つ以上の音響音声単位の記号を識別する。この識別結 果は、もし事前定義された確率帯域範囲内であれば、識別された音単位記号と関 連付けされ(さらにその実際の識別確率も記録され)、識別された音響音単位の 第2の集合に追加される。このステップに基づく、認識確率は異なるが許容可能 な、他の潜在的単位はこの第2の集合に含まれる。 ステップ3:使用者は、使用中の電磁センサーシステムからのデータを選択し て、音声時間フレームごとのNASR特徴ベクトルを発生する。NASRシステ ムは、NASR識別手順の確率規準を満足させる1つ以上の音響音声単位を推測 する。識別された音声単位の記号の第3の集合が、認識確率付きで形成される。 ステップ4:ステップ1、2および3はそれぞれ繰り返されて、一度も発見さ れなかった他のステップで識別された記号に対して識別確率を発生する。すなわ ち、(例えば)80%より高い確率を持つステップ1からの識別された単位はス テップ2で認識されなかったかもしれない、という理由は、その確率はカットオ フ値未満であるからである。確率を結合するためには、各々のステップから得ら れた記号は他の2つのステップから得られた識別確率を持つ必要がある。第2の サイクルを通じて、記号がいずれかの手順ステップにおいて確率を簡単に割り当 てられなかった場合、確率ゼロが割り当てられ得る。 ステップ5:アルゴリズムは、その確率に応じて重み付けされて、ステップ1 、 ステップ2およびステップ3のいずれか、またはその組合せから得られた分離し た確率を結合して、最も識別確率の高い音単位を得る。あるアルゴリズムは、ス テップ1、2、3の各々から得られた記号の確率の自乗の和の平方根を取ること によって結合確率を得る。 逆たたみ込み特徴ベクトルデータおよび他のここに示す手順によって得られる 重要で価値あるさらなる特徴は、それが、もしデータの1つまたは2つの分離し た集合が使用された場合、上記のデータの結合確率が向上するほどに統計的な測 定意識が異なるさらなるデータ相関の程度を与える電磁センサーデータと音響と の混合であるということである。この方式はある電磁センサーとマイクロフォン の場合には当てはまるが、使用者が音響マイクロフォン付きの2つ以上の電磁セ ンサーを採用する場合は特に価値あるものとなる。この方式はまた、非常に正確 だがしばしば不完全なデータの集合が複数個ある場合は特に効果がある。 2つの電磁センサーシステムの一例は、電磁声門運動センサーおよび顎下上向 き電磁センサーを用いる。これらのセンサーによって、使用者は次のものに基づ いて3つのデータセットを得る:1)各々の時間フレームごとの顎、舌および軟 口蓋の信号、2)刺激関数を測定する音響マイクロフォンセンサー、および3) 音響マイクロフォンデータ。データ3の集合を用いた記号識別確率は、標準の統 計的アルゴリズムを用いて単一のソフトウエア処理システムよって自然に結合す ることができる。各々の個別のセンサーを用いさらに、3)から2)を逆たたみ 込みすることによって、ある記号の集合に対しては高い確率を、そして他のすべ ての記号に対しては非常に低い確率をもたらす非常に固有の正確な特徴が提供さ れる。3つの集合をすべて一緒に使用することによって、アルゴリズムは、固有 の記号に対して非常に高い識別確率を形成する。使用者は、このような組み合わ されたシステムを用いることによって、認識目的のもっとも経済的で正確な方法 で各々のセンサーとアルゴリズムを用いるか否か選択することができる。この方 式によって、識別された音単位に対して経済的な計算と迅速な収束がなされる。 (電磁・音響排他的確率音声認識) 排他的確率方法は、結合確率音声認識に関する本セクションでのステップ1) から3)の上記の3つの特徴ベクトル集合の形成方法を用いる。本方法は連続的 手順を用いて、3つのタイプの認識システムの内のどれによる識別をも統計的に 拒絶する。本方法は論理試験を用いて、ある規準を満足しない記号を排除(すな わち拒絶)する。 ステップ1:記号識別の確率が使用者が定義した値、例えば80%を超える限 り、該当する1つの音声時間フレームまたは複数フレームに対する音響音単位を 識別するCASR方式を用いる。この段階では、確率規準は、手元にあるCAS Rによる識別の同様の確率を持ち得る記号識別値を保持するように設定される。 後続のステップは、このステップに基づく曖昧な識別を消去するために用いられ る。 ステップ2:逆たたみ込みされた特徴ベクトル集合を用いて、(CASRによ る)識別の確率規準を満足させるが、ここに示す電磁/音響方法によって形成さ れた特徴ベクトルを用いた識別確率に基づいた記号識別に対する使用者が定義し た許容確率未満の、1)に基づいた識別済み音単位を除去する。 ステップ3:NASR電磁センサー識別方法の内の1つ以上を用いて、ステッ プ2から残存している識別済み音響単位記号の各々の確率をチェックする。NA SRシステムの確率規準を満足しない音響音声単位を識別して除去する。残余の 高確率の音響単位およびその識別確率はデータセット中に残しておく。 ステップ4:ステップ3の後で、標準統計アルゴリズムを用いて、集合に残存 している識別済みの音響単位の確率を結合する。これによって、この連続した3 ステップの「排除」規準を満足する、通常は1つであるが、少数の音響音声単位 が導かれる。 このプロセスによって、各々のステップにおいて不十分なデータによってもた らされた曖昧な識別が消去される。識別確率の低い記号はプロセスの前半で除去 され、これによってプロセス後半で計算処理を減少させる。このプロセスによっ て、3つの連続するセンサー・アルゴリズム試験をパスした1つまたは数少ない 音響音声単位記号が正確に識別される確率が高くなる。特徴ベクトルを識別する 技法の順序を並べ替えることによって、この方法をデータに適用することができ る。例えば、逆たたみ込み技法をステップ1で用い、一方、CASR技法をステ ップ2で用いることができる。この排除方法はまた、3つの識別ステップではな く2つステップの場合にも効果がある。この方法は、補助センサーからの、また は主要センサーの「副産物」としての部分的情報を用いる際に価値あるものとな る。この方法によっては、すべての音響システムかすべての電磁・音響特徴ベク トルシステムのいずれかがさらなる情報無しで成し遂げることができる以上の正 確さで音響音単位を識別することができる。例えば、舌電磁センサーで測定され た1つ以上の迅速な舌先端の運動の存在は、逆たたみ込みプロセスによって識別 された音響単位は、例えば英語の「the」の「th」またはスペイン語やイタ リア語の「rosa」の巻き舌音「r」などの舌運動と一致する音素に違いない ことを示すものである。ステップ3から得られた特徴ベクトル係数が例えば、迅 速な舌運動を示さない場合、記号識別は除去される。 十分に高い確率を持つ2つの音声単位の記号が残存している場合、双方とも関 連の確率を持つ集合内に存在することになる。使用者は最高の確率を持つ単位だ けを選択することができるが、さもなければ、システムが双方の確率が希望の確 実性に類似またはそれ未満である場合は、音または句を繰り返すように話者に自 動的に要求する。確率規準を満足する認識済み記号が存在しない場合、音響音声 単位は曖昧であり、識別された音響単位は確率を持った確実性順で示されている ことを示す信号を制御装置に出力することができる。アルゴリズムをプログラム して、このような環境下での解明を繰り返し求めるように話者に自動的に要求す ることができる。 (音声の合成) 本方法は、個人的話者からまたは複数の話者の平均化された集合から得られた、 保存された電磁センサー・音響データからの高性能で特有な音声の合成を規定す る。個人的話者とは、普通の事務労働者から有名な俳優におよぶあらゆる個人を 意味する。引続く合成のために用いられることになる音声符号化の処理は、オリ ジナルの特徴ベクトルがどのようにして符号化されコードブックに保存されるか 、に依存する。ここにおける方法は、音声合成のために最適化された特徴ベクト ルの集合を形成するために用いることができる。それらは、平均的な話者または 、その音響音声が定量化されコードブックに保存される、とくに望ましい話者に 基づいてもよい。 ステップ1:使用者の合成応用例のために必要とされる各音響音声単位のため に、望ましい話者または話者集団の各音響音声単位を記録することによって、参 照コードブックを形成する。ここにおける手順に基づいて用いられるであろうす べての音響単位の特徴ベクトルを形成し、これらのベクトルの開始および終了を 定義するために、ここにおけるマスタータイミングの技法を用いる。 ステップ2:すべての要求される音声単位(音素、倍音、3倍音、句読点規則 、指示された抑揚、等)を、それらの検索の目的で、文字テキスト(written te xt book)から識別する市販のテキスト音声変換器を用いる。 ステップ3:ステップ2からの音声単位をステップ1で述べられたコードブッ クの位置に関連付けるための自動探索および検索ルーチンを用いる。 ステップ4:ステップ3で述べられたコードブックの位置から、使われる特徴 ベクトルを選ぶ。刺激関数および伝達関数に加えて、特徴ベクトル情報は、音声 単位のタイミング、フレームからフレームへの結合関係および韻律情報を含む。 ステップ5:もし音素から音素への移行がステップ2によって発呼されなけれ ば、次の1つまたはそれ以上を用いて、伝達音響音声単位を生成させる。2つの 順次的な音声化された音声単位が、音声化された音声フレームの、声門の閉鎖時 間(すなわち、声門のゼロ)において結合され、一方、非音声化されたフレーム (または非音声化−音声化フレーム)は、音響振幅ゼロにおいて結合される。も し、移行の規則が音声化された音素単位間の補間率を述べていれば、それらは、 移行時間フレームの持続時間を設定し、先行するまたは次に来る時間フレームに おける別の発声状態に対する関係によって変化する刺激および伝達関数の係数を 補間するために用いられる。補間の他の方法は、適正な強度および音声周期に正 規化され、ステップ2で呼ばれたどの2つの音素間にも自動的に置かれる、コー ドブックにプレストアされた倍音素または3倍音素の音響音声パターンを用いる ことである。 ステップ6:各音声時間フレームまたは音声時間フレームの組合わせにおいて 発声した音響音声のために韻律法を提供する。例えば、いくつかの音声フレーム にわたっての、音声レベル振幅の増大率、安定性の周期、または振幅の減少率を 設定するために、韻律規則を用いる。音声シーケンスの開始から終了までのピッ チ変化を設定するために、句節法および句読法の規則によって定義されるような 韻律規則を用いる。そのような韻律法情報は、ステップ2におけるテキスト音声 変換器から得られ、音声に合成されるテキストの要求を満たすためにコードブッ クから取られる際に、フレームベクトルを変更するために用いられる。 ステップ7:刺激関数および伝達関数を、強度レベルといっしょに、たたみ込 み、関連する時間フレームに対するディジタル的出力音声表現を生成する。この 手順は、次の音声時間フレームに敷街する音響信号を生出す。1つのフレームか らの信号は、強度を得るために、波の振幅を加算して2乗する(干渉性加算)、 または、振幅を2乗して加算する(非干渉性手順)手順によって、次のフレーム に生成した音響信号(すなわち、振幅対時間)に結合される。「ディザリング」 、またはフレームからフレームへ特徴ベクトルの係数を変えることを伴なった、 これらの方式の組合わせは、人間の音声における短時間の変化をシミュレートす ることに役立てられる。このディジタル表現は、ディジタル−アナログ変換器お よび望まれれば放送送信機を介してアナログに変換される。 図19は、満足すべき音を実験的に生み出した、再構成された音響音声単位「 ah」のためのデータを示す。オリジナルに記録された音響データが曲線上の点 によって示され、その線は、上述のステップ2から7に従って形成された、再構 成された音のスペクトルである。「ah」という音は、手動で選ばれる。 (合成された音声を変える方法) 音声特徴ベクトルを符号化し保存する方法は、使用者の音声合成の目的を満た すために、オリジナルの符号化を変えるのに用いることができる。ここに述べら れる方法は、望まれる音声の変更を達成するためによく定義され自動化された手 順を使用者に提供する。例えば、オリジナルの音声ピッチは、望まれる値に変え ることができ、音響音声単位の運搬速度は、望まれる速度に変えることができる 。それぞれの音声特徴ベクトルにおいて、いくつかの係数は刺激関数を記述する 。リアルタイムに(例えば、より少ない時間を取るために、個々の声門の三角関 数形を圧縮または展開することによって)または変換空間において(変換された 刺激振幅値をより高いまたはより低い周波数ビンに移動することによって)、の いずれにおいても、刺激関数の持続時間を変えることによって、ピッチを高くま たは低く変えることができる。これらの手順は、単位時間当たりの声門の開閉周 期の数を増大させ、それから、このより高い(またはより低い)ピッチの刺激関 数に、それぞれ新たに定義された音声時間フレームにおいて変化しなかった声道 伝達関数をたたみ込むことによって、新しいより高い(またはより低い)ピッチ の音声化された出力を得る。ピッチの変化を記述する韻律規則を実行するために 、 アルゴリズムは、いくつかのピッチ周期を含む音声セグメントの間、ピッチの導 関数を生成させる。アルゴリズムは、各フレームの刺激関数ピッチを、最初のピ ッチ値から次のフレームのわずかに高い(または低い)ピッチ値へ、ゆっくり変 化させる。またアルゴリズムは、より自然に聞こえる合成音声を生み出すために 、それぞれの構成された時間フレームにおける声門周期持続時間を「ディザリン グ(dithering)」する。 これらの新しい方法は、連続する刺激関数を、それらの声門が閉じている周期 の間、結合させるための非常に重要な手順を提供する。このようにして、リアル タイムの音響出力信号のなかに急激な変化(すなわち、引起こされた不連続)が 生じない。似たような仕方で、それぞれの音声単位の長さを調整するために、余 分な時間フレームを単に加える(または取去る)ことができ、または複数フレー ム伝達関数(すなわち、ちょうど多い周期の、一定の刺激関数および伝達関数) を展開することができる。これらの方法を用いて、なにかを話すための時間を延 長し、または、言葉をすぐに終えるための話しの速度を上げることができるが、 ここにおける方法によって与えられる基本的な音声フレーム「組立ブロック」を 用いて、優れた性質の音声を維持することができる。 これらの方法の1つの重要な応用は、音声スタジオにおいて録音された俳優の 音声の速度を、ビデオ(またはフィルム)媒体上での彼または彼女の顔の動き( 例えば、唇)に、同調させることである。顔の発声運動を得るには、唇の動きを 記録するための電磁センサーおよび電磁センサー情報を用いて得られた、既知の 音声フレームの特徴に関連付けられるビデオまたはフィルム上の主要な顔(例え ば唇)の動きを追跡するためのビデオ映像解析器を用いることが必要である。映 像解析システムは商業的に入手可能で、ビデオまたはフィルム内のパターンを追 跡することができる。ここにおける方法は、使用者が、一連の映像内の顔の動き を追うために、正確な速度で、新しい音声の合成によって音声の経過を同調さ せることを可能にする。ここにおけるアルゴリズムは、時間フレームの伸長また は圧縮によって、追加のフレームの付加または削除によって、無音の音素の付加 または削除によるフレームの時間的シフトによって、停止の導入によって、ある フレーム・パターンを一定に保つことによって、および他を伸長することによっ て、また、話者の顔の動きや身振りに一致する場合を除いて、明瞭な音声が、変 化しないような方法で、刺激関数の長さを変えることができる。 使用者はまた、話者の伝達関数を望むように変えることができる。使用者は、 生理学的または相当する回路モデルを用いて、生理学的パラメータを変更し、新 しい伝達関数を構成することができる。例は、声道を長くし、声門を口の直径の 比率に変え、または鼻孔の大きさを増大させている。本方法はまた、係数を「も て遊び」、結果する音声を合成することによって、楽しみのために、動物の音を 真似るために、調査のために、または特別の「注意を喚起する」通信応用例のた めに、伝達関数の構成におけるほとんど任意の変化を可能にする。ひとたび、変 更された伝達関数が、生理学的モデルの変更の結果として、または実験的に決定 された係数を用いて、形成されると、使用者はそれから、コードブックにおける 対応する変更を行なう。変更された伝達関数に対応するコードブック内の全ての 伝達ベクトル係数が、新しいコードブックを作るために変更される。ここにおけ る方法は、声道伝達関数、例えばARMA、相当する回路パラメータ、または生 理学を基礎とする汎関数を定義するために上述されたいくつかの汎関数が、よく 定義され、容易に変更されるので、そのような自動的変更を可能にする。変更さ れた音声を合成するために使用者は、上述の音声合成ステップに従って進む。そ れぞれの選択された音響音声単位は、変更された伝達関数情報、刺激、韻律法、 タイミングの変更、および(同調データを含む)制御情報を含む特徴ベクトルに 関連付けられる。 1人の人間からまたは平均化された人間から得られた、コードブック内に保存 されたデータを変更する別の方法は、与えられた特徴ベクトル内の刺激関数の係 数記述子を、より望ましい話者からのそれに替えることである。同様にして、オ リジナルの話者からの伝達関数または韻律パターンを、より望ましい話者からの それに替えることができる。そして使用者は、要求に基づいて、使用者の目的の ための音声出力の新しい単位を生成するために、伝達関数の刺激関数へのたたみ 込を実行する。一貫させるために、そのような変更は、用いられているコードブ ック内に保存された全ての関連する特徴ベクトル係数について行われなければな らい。例えば、もし1人の人間の声門の係数が別の人間のそれに替えられたなら ば、すべての特徴ベクトル係数内における全ての刺激関数の係数記述子が指示に 従って変えられなければならない。全ての特徴ベクトルの形式が知られており、 メモリ内のそれらの位置が知られているために、これを行なうことは容易である 。こうして、アルゴリズムの手順は、使用者が、コードブックのベクトルおよび それらの特定の係数の既知の集合を変更することを可能にする。 音声を変更し再構成するためのこれらの方法は、非常に独特な合成刺激関数お よび伝達関数を生成することを可能にする。変更の方法は、動物の発生システム のモデルを用いることによる動物の音声の生成、物理的に不可能な開閉声門時間 関数または伝達関数の構成、非常に高い発声(例えば、100kHzでのイルカ の音声)を作るためのピッチ周期のシフト、または、音楽的音または色調に伴な うような外部の刺激に反応した刺激関数の変更を含む。つまり、下手な歌手でも 、ここにおける方法に似たシステム内で唄うことができ、そして音楽的に正され た声が合成され放送される、ということである。または、動物の訓練士がプロセ ッサに話すことができ、そしてその音声を、動物が訓練されるのに最適化された 周波数帯域およびパターンに変えることができるのである。これらの技法は、誇 張された生理学的パラメータに基づく、物理的に実現不可能な特徴ベクトルを容 易に作ることができる。この技法はまた、愉快な音(例えば、シマリスの声)ま た は望ましい韻律パターンを得るために、特徴ベクトルの交代を作り出す。これら の特別な効果は、娯楽または研究の目的に用いることができ、または他の特別に 望まれる効果が、この技法を用いて容易に作ることができる。符号化の方法は、 基本的かつ使い易いので、これらの方法は非常に有効で価値が高い。 (音声電話方式) (解析合成電話方式・ボコーディング) ここで述べられる音声認識および音声合成の方法は、リアルタイムの解析・合 成電話方式(すなわち、ボコーディング)を目的とした、音声符号化および復号 の様々な新しい方法を提供する。音声セグメントの特徴ベクトルは音声合成およ び電話方式伝送のためにすぐに使用可能であるために、特徴ベクトル発声処理を 用いることは特に便利である。解析・合成電話方式(すなわち、ボコーディング )の1つの方法は、電磁センサーが声門組織の運動を測定する間、マイクロフォ ンに向かって話している話者とともにスタートする。図20は、ボコーディング 電話方式送受話器の切取り図を伴なうヘッドの図を示す。送受話器90は、電磁 センサー91,92,93および音響マイクロフォン94を含む。電磁センサー 91,92,93は、好ましくは、特定の組織状態検出のために最適化されたマ イクロパワー・レーダーであって、進行中の電磁波を指示し様々な音声組織から の反射電磁波を受信する。例えば、センサー93は、発声ひだおよび声門の運動 の測定のために位置決めされる。送受話器90はまた、有線または無線の接続器 96を介して外部に接続される送受信装置95を含む。送受信装置95はマスタ ークロック97に接続されている。マスタークロック97は音声符号化プロセッ サ、認識器コードブック、および記憶装置98を制御する。記憶装置98に電磁 センサー91,92,93およびマイクロフォン94が接続されている。制御装 置97はまた、復号器プロセッサ、音声合成器、メモリ、および受信機ラウド・ スピーカー100につながっているコードブック装置99に接続されている。装 置9 9およびスピーカー100は、スピーカー100が人間の耳を覆うようにして、 受話器の中に取付けられている。図20に示されるいくつかのシステムの機能は 、図8に示される機能に類似している。 音声は刺激関数を音響出力から逆たたみ込みすることによって解析され、特徴 ベクトルは、音声出力のそれぞれの時間フレームを記述することによって形成さ れる。これらの特徴ベクトルの数値係数は、標準的電話方式の符号化および伝送 技法を用いて、直接伝送することができる。代わりに、音声音装置は音声認識さ れることができ、(例えば、ASCIIまたは他のよく知られたコードにおける )認識装置ための記号は伝送することができる。追加的または話者特徴づけ情報 は望まれるように伝送することができる。「異なった特徴ベクトル」の形成、お よび「より重要な」および「重要性の低い」伝達関数係数の識別のための方法は 、それらを用いると符号化された声の情報を送るために必要な帯域幅を減少する ことができるので、電話方式にとって特に有益である。 電話方式のリンクの受信側の端において、伝送された信号は声に再構成される 。合成手順は、伝送された特徴ベクトルを用いてもよいし、「テキスト音声」処 理内において保存された特徴ベクトルの内部的コードブックを用いて、伝送され た音声記号から新しい音声を合成してもよい。使用者は、合成音声を望む度合い に応じて「擬人化」するために部分的話者情報を用いて組合わされた方式を用い ることができる。代わりに、受信機の自動制御装置は、入ってくる符号化された 音声を認識し、その認識された記号情報を、処理または保存の目的でローカル・ コンピュータ・システムへ、ファックス受信機か、受信された記号をプリントす るためにプリンターへ、または受信機の意図による後での使用のためにアナログ 記録システムへ、送ってもよい。 ここにおけるボコーディングの方法は、追加的な情報を、各音声フレームにお ける伝送された音声情報パケットに添付する処理を含む。この追加的情報は、受 信機によって、話者識別のために、音声を変換するために、外国語に変換するた めに、データを暗号化するために、または帯域幅を最小化するために、用いるこ とができる。このようにして形成された特徴ベクトルの伝送は、電線、光ファイ バー、音響(例えば、水面下の通信)のような伝送システムにまたがって、また は無線システムにまたがって行なうことができる。本方法はそれから、供給され た音響音を電話受話器を介して聴取者に放送する目的で、特徴ベクトルを、話者 を表現する音響音に合成することを含む。ボコーディング・システムの音声合成 部分は、平均的な話者の特性を用いるために設計することができ、または、非常 に高い忠実度の話者-特有な音声を伝送するために設計することができる。高い 忠実度の伝送は、可能な最小のものよりも、特徴ベクトル情報のより正確な記述 の伝送のために比較的高い帯域幅を用いるが、現在の高忠実度の声の伝送よりも ずっと小さな帯域幅を要求する。逆に、最小の帯域幅のシステムは、最小量の声 の情報の通信に必要な情報を除いて、話者についての全ての情報を取除く。 ボコーディング・コミュニケーション・システムにおける話者が聴取者になり 、聴取者が話者になった場合、ボコーディング・システムは、話者から聴取者へ の、および聴取者から話者へのやり取りを除いて、上記と同様に働く。さらに、 その処理はリアルタイムに動作し、それは、認知、符号化、(もし必要なら)認 識、および合成が、使用者が話している間に、または聴いている間に行なわれる ということを意味する。リアルタイムとは、符号化、伝送、および再合成に関連 する時間の遅れが、使用者にとってその処理的遅延が満足できる程度に小さいと いうことを意味する。ここで述べられた符号化、変更、およびタイミングの計算 的に効率的な方法は、必要とされる迅速な符号化および合成を可能にする。そう したシステムの基本が、いくつかの話された基本的音声音を符号化することによ って、および符号化された情報を用いてそれらを音響的に合成することによって 、実験的に示された。 (最小帯域幅伝送符号化) 最小伝送符号化は、ここで述べられる識別および符号化を用いて可能となる。 1つの方法は、上記の音声圧縮の方法を用いることである。他の方法は、合成の 音声認識部分が、言葉の識別または話者特有の最小情報の伝送に帰着したときに 可能となる。図20に示したように、システム内の音声識別を用いることにより 、それぞれの音響音声単位は言葉に翻訳され、(例えば、ASCII内の)文字 コンピュータ・コードが、伝送帯域幅を最小化する目的で、非常に少ないまたは 無い、声の特徴づけ情報に従って伝送される。記号の伝送技法は、リアルタイム の音声電話方式より100倍小さい伝送帯域幅を用いることが知られている。こ のようにして、この伝送帯域幅の値の圧縮技法は非常に高い。ここにおける符号 化の手順を用いる上記の音声圧縮技法は、帯域幅最小化においては非能率的であ るが、それは用いるのにより簡単で、話者の音声の特徴のほとんどを保持し、リ アルタイムの音声よりも10倍小さい帯域幅を用いて計算される。帯域幅の縮小 (すなわち、帯域幅最小化)は、現在の通信におけるよく知られた符号化技法の 多くを用いて達成される。そのほとんどは、使用者に認識可能で、「フレーム」 ごとに再伝送しない、情報における伝送の変更のみの原理に基づいている。上述 された「差特徴ベクトル」の方法はこの応用例に非常に有効である。さらに、帯 域幅の最小化は、この応用例に必要とされる音声特徴づけの最低限度の特性を用 いることによって、より一層増強される。音声の特徴づけおよび再構成のための 方法は、帯域幅最小化のこれらの手順に特に適している。なぜなら、ここにおけ るこれらの方法は、可能な限り単純な音声単位をどのようにして測定し特徴づけ るかを示しているからである。例えば、話者の生理学上の部分的な情報は、受信 機の処理に送られ、より擬人化された音声再構成のための合成モデルに組み入れ ることができる。ひとたび得られれば、刺激および伝達関数のこれらの音声「組 立」ブロックは、近似され、多くの方法に用いることができる。特に、使用者の 要求に適う、次の音声フレームの更新に必要な、「変更情報」におけるよく定義 された決定は、その情報が伝送媒体を通して送出される前に、行なわれなければ ならない。符号化および再合成の技法は、密接にかつ自然に結びついているので 、伝送のための最初の符号化および引続く復号および再合成は、直接的かつ経済 的である。これらの方法は、価値があり高価な伝送帯域幅を節約するための、コ ストを削減する重要な手段を提供するので、価値が高い。本方法の別の価値ある 使用は、暗号化「オーバーヘッド」または話者識別のような、追加的情報が、現 在の固定帯域幅のシステムにおける音の情報とともに伝送されることを可能にす ることである。 (同時通訳) ここに示すリアルタイム音声符号化、認識、および再合成のための方法は、人 工発声システムにおける1つの言語から別の言語へのリアルタイム音声翻訳のた めに有用なものである。 ステップ1:使用者は、図8と図20に示したように、システムへ向けて発声 する。システムはそれぞれの音響音声単位を符号化する。 ステップ2:システムは符号化音声単位を認識して、文字や単語の象徴的なテ キスト、または絵文字のような他の言語単位を形成する。 ステップ3:システムは商用言語Aから言語Bへの翻訳システムを用い、それ はステップ2から認識された音響言語単位の象徴的なテキストを得て、それらを 言語Bのための記号テキストに変換する。 ステップ4:システムは特徴ベクトルの中に、韻律則と一緒に言語Bの記号を 音声コンバータに変換するために商用(または他の)テキストを使用する。 ステップ5:システムは言語Bで音響音声の中に翻訳された記号を合成する。 上記ステップ2におけるこの方法の変形は、コードブックでのそれぞれの認識 された単語を関連付けられた外国語単語と関連付けることである。それゆえ翻訳 ステップ3およびステップ4での「テキストから音声」は単純な翻訳応用を避け られる。この言語翻訳システムはリアルタイムで稼動して、そして非常にコンパ クトである。それは、使用者が1つの言語を発声して別の言語が出てくる携帯用 メガホン(例えば図20、しかし翻訳単位とメガホンは付属している)の中にパ ッケージすることができる。より複雑で、より正確な翻訳応用のために、それは 、図8に示したような据付システムとして製造することができる。 (提示と学習) この特徴ベクトル形成の方法は、使用者にフィードバックされるそれぞれの音 声単位のために受け取る情報を表示することを可能にする。表示情報はスクリー ン上にグラフィックであり、(例えば、話者の声道画像)または情報は、音声化 、または印刷、または触覚または電気的刺激によって使用者に伝送することがで きる。特徴ベクトルの使用は、話者の声道咬交器の大きさおよび位置の視覚表示 における生理学的パラメータの支援に基づく。これらは音声訂正、リアルタイム 音声支援、音声教育の目的のために使用することができる。なぜならば、試そう とする音のために話者の発声器官の配置における問題を例示するのに情報を使用 することができるからである。逆に、ここにある方法は、正しい特徴ベクトルの 参照コードブックを使用して、望ましい音のために訂正された発声器官の配置の 例示を可能にする。これらの手順は音声訂正のためにそして外国語学習のために 非常に価値がある。使用者の音声を認識して、リアルタイムで、障害を持った使 用者に音声をバックする特性を伝達する能力は、音声を損なわれた人々に多大な 価値をもたらすものである。例えば、耳の聞こえない話者はそれらの音質上に、 触覚経由または電気の信号によって彼の皮膚または彼の内部器官に、フィードバ ック刺激を受けることができる。 (結論) 本発明は、1つまたはいくつかの連続的な音声時間フレーム間隔のための、任 意の話者の正確な音声刺激関数の自動的な手法についての測定および発生方法を 含むものである。同時に、音響信号は測定され、1つまたはいくつかの連続的な 音声時間フレーム間隔のために音声伝達関数に導いて、刺激関数は音響信号から 逆たたみ込みされる。 本発明は正確なタイミング方法、これらのデータを特徴ベクトルの中への符号 化、およびコードブックへの情報の保存を含むものである。 有声音および無声音の2つのタイプの刺激関数があり、少数の音しか両方一緒 には使用しない。音声化された刺激関数を発生するために、声門を通過する空気 流量、または後段の声門圧力は電磁波を使用して声門組織の場所の測定によって 測定される。声門の開口部の区域を通っての空気流は、声帯ひだの開閉時の声門 地域の反射レベルの変化を測定するために電磁センサーを使用し、次いで空気流 を得るために較正とモデルを使用して音声化された音声の間に測定することがで きる。同様に、圧力も測定できる。電磁センサーが話者の声箱(喉仏)の前部ま たは側面から反射変化を測定する。エリア開口部の分析的な計算が、開口部から の電磁反射のモデル従属汎関数から得られる。エリアを得る第二の技法は、測定 された話者の声門の代表的集合の開口部エリアの光学的画像と共に反射電磁信号 を関連付けることである。第三の技法は、一方または両方の声門開口部の端から 、センサーの視線内で正確に反射を追って、光学的画像でそのような信号を較正 するために1つまたはそれ以上の領域制限電磁センサーを使用することである。 第四の方法は、本来の場所で、電磁信号対較正された訓練期間の間の代表話者の 空気流または圧力センサー信号のテーブルを構成することである。 既知の式、または声門の開口部(声帯ひだの間に)を通過した空気流量を定義 した較正が、一定の声帯伝動圧力の条件の下で、絶対または相対的な方法で空気 流量対時間を定義するのに使用することができる。この空気流量関数は、それぞ れの時間フレームのために人間の声道の音声化した刺激関数の新しく、かつ価値 ある記述を供給するものである。同様に、後段の声門の空気圧力は、必要ならば 、声帯伝動の圧力想定の訂正および他の応用ために較正され、得ることができる 。 音声化された刺激関数のための時間の関数としての空気流の変化は、予測の時 間フレームの間に声帯伝動圧力が一定でないケースにおいて予測することができ る。このプロセスは予測伝達関数から計算された背圧を利用させ、それは一次空 気流修正をするためにその後使用される。予測は、周波数の関数またはそれが圧 力変動のために組織運動の直接測定を用いるとして、背圧変化のために正しい声 門運動を決定する許された声門運動のモデルを使用する。 音響学的に発生するノイズは、ノイズ信号を引き算するためにマイクロフォン 情報を使用して、または声門運動信号から音響信号を濾過するフーリエ変換技法 を使用して声門信号から除去することができる。 リアルタイムおよび変換空間(フーリエ変換またはZ変換)での空気流量刺激 関数の汎関数形状は、声門のゼロの(または閉の)時間を含めて近似することが できる。刺激特徴ベクトルは測定された刺激関数に近似汎関数(またはテーブル )を定義することによって、および定義された時間フレームの数値のデータに適 合する汎関数を記述する一連の数値係数を得ることによって構成される。 音声フレーム時間間隔の数は、刺激関数と音響出力の両方が一定である間に決 定される。定数はリアルタイムまたは変換空間における、受容できる変化の帯域 の中で残っている信号として定義される。特徴ベクトルは刺激関数およびとそれ の間に2つの関数が一定でいる間の定義された時間フレームの数の両方を記述し て定義することができる。 空気流量刺激関数のゆっくり変化している汎関数形式(ピッチ周期のような) および対応する音響出力も、いくつかの音声時間フレーム間隔上に、決定され、 刺激関数を記述した特徴ベクトルが定義され、汎関数が定義された時間フレーム のために変化する。振幅のような他の遅い変化も同様に記述することができる。 測定された刺激関数は、騒音と背圧項を含めて、平均的な話者と、平均的な話 者のまたは特定の話者の音声化された刺激関数からの偏差(すなわち、相違)の 上に基づいて定義した特徴ベクトルとを比較することができる。これはリアルタ イムまたはフーリエ空間で行うことができる。同様に、差特徴ベクトルは最近得 られた特徴あるベクトルと、より早い時間フレームから得られたそれと比較する ことにより形成することができる。 本発明はまた、音声処理の間に時間フレームの定義のためのマスタータイミン グ単位として音声化された刺激関数周期を用いることを含むものである。これは 、声門の開閉サイクルの開始と終了の定義、サイクルの中で声門の閉鎖(すなわ ち、無空気流)時間の取得、および得られた前のまたは次の時間フレームで得た それへの音声時間フレームが得たすべての情報の連結のために次への1つのその ようなサイクルとの結合を含むものである。 1つまたは多重の時間フレームタイミング単位測定は、同時の音声器官条件お よびビデオ、磁気共鳴画像、電気的な皮膚の電位、空気流、または超音波伝達の ような他の条件から行うことができる。 本発明は、自動的に発生した時間フレーム情報の特徴ベクトルの一部としての 特性化および保存、それぞれの音声時間フレームを連続的なタイミングクロック 時計と関連付け、特徴ベクトルの一部としてこの絶対タイミング情報を保存、音 声再構成、視覚画像を持つ同時音声、訓練または人工声帯のための発声器官条件 の視覚化、話者認識、外国語翻訳、符号化電話方式の目的のためのこのように定 義された時間フレームの使用を含む。 本発明は定義された音声時間フレームの間に、音声が声帯ひだ運動なしで起っ たと判断することによって話者の無声音の刺激関数を予測する方法を含む。「改 良された白色ノイズ」刺激関数はその後、聴取者および、周知の音のために測定 された音響出力をシミュレートするために平均的話者(話者の言語で)の周知の 伝達関数を刺激して正確な刺激関数を供給するための、分析によって有効とされ た汎関数形式から選ばれる。第二の方法は、音響出力から無声音のために周知の 伝達関数を逆たたみ込みして、測定された無声音刺激関数源を得ることである。 音声単位時間フレームは、無声音の音声が関与する音声時間フレームの間に話 者によって発音されている時、定義される。アルゴリズムは、音響スペクトルが それを超えて一定である持続時間を単純に測定して、フレーム持続時間であるそ の時間を記録する。または、スペクトル安定性および時間を用いて、音声化音声 周期の前後からの音声化した音声時間フレーム持続時間の外挿または内挿により 、または前もって定められた時間フレーム周期を用いることにより、(例えば5 0ms)定義される。 望ましい無声音刺激関数の特徴ベクトルは刺激関数が一定かまたはゆっくりと 変化するその間に1つまたはそれ以上の音声時間フレーム間隔のフーリエ変換に よって定義される。その間に声道の無声音刺激が一定またはゆっくりと変化が起 こる無声音の音声フレームの数は決定され、刺激関数、時間フレーム持続時間、 定義された時間フレームを超えた刺激関数の遅い変化を記述して特徴ベクトルが 定義される。 本発明は、人間の話者の音響出力の測定および記録の方法を含み、同時に電磁 センサー信号で、1つまたはそれ以上の音声時間フレームの間のそして十分な直 線性、ダイナミックレンジ、使用者の応用のためのサンプリング帯域幅での情報 を保存する方法を含む。 音声時間隔フレームまたは複数フレームの間に記録したマイクロフォン電圧振 幅対時間信号は、リアルタイムまたはフーリエ周波数空間で記録された音響出力 関数からの刺激関数を逆たたみ込みする目的のために特性化される。情報は、記 録されたマイクロフォン電圧対時間信号から選択され、それは統計学的に有効で 、望ましい時間フレームまたは複数の時間フレームの間に次の処理の目的のため に 音圧振幅対時間または音圧フーリエ振幅および位相対周波数を特性化する。唇か らマイクロフォンへの音響の放射伝達関数は、フーリエ空間またはリアルタイム 空間で、装置人工物を除去して、伝達関数を単純化し、続く処理ステップで逆た たみ込み手順のより速い収束を可能にするために、逆たたみ込みすることができ る。 本発明は、1つまたはいくつかの連続的な音声時間フレームに対し、人間の話 者からの測定された音響音声出力から発声システム源関数を逆たたみ込みする電 磁音声器官位置または速度情報(例えば、声帯ひだ)を使用する方法を含む。こ れはそれを超えた逆たたみ込みが行われる時間フレームまたは複数時間フレーム の間の使用される人間の声道の伝達関数の正確な代表数値を可能にするものであ る。逆たたみ込みはリアルタイムで、時系列技法、速いフーリエ変換技法、モデ ルに基づく変換技法、データ処理と逆たたみ込みの分野のエキスパートによく知 られている他の技法によりなされる。 1つのまたはそれ以上の音声時間間隔フレームの間に用いた人間話者の声道伝 達関数は、変換されたマイクロフォン音響圧力信号を変換された刺激発生源信号 で割り算することによる周知の逆たたみ込み技法(それがARMAアプローチと 関連付けられたような)を使用することによって得られる。唇からマイクロフォ ン伝達関数、または他の既知の汎関数は、既知の汎関数に適合させて、または他 の周知の数値の技法で逆たたみ込みすることによって必要に応じ、得ることがで きる。 個別の器官の配置の位置についての追加の情報、およびこのような声道の形状 については、他の電磁センサーデータの使用を通して得ることができ、同時の音 響のデータの有無にかかわらず、最も良い収束または最も正確な適合のための最 適な伝達関数汎関数構造を決定する。例としては、それぞれの音声時間間隔フレ ームのためにARMA汎関数記述の中にポールまたはゼロの適切な数を選択する ことである。 音声伝達関数特徴ベクトルはフーリエ変換または他の技法を用い、音響出力関 数からの刺激関数の逆たたみ込みからの振幅および位相対周波数間隔から定義す ることができる。関数は数値のテーブルによって定義されるか、または既知の汎 関数形式によって適合化され、数のパラメータ係数を関連付けることができる。 本発明は、移動平均の自動回帰(ARMA)技法で用いられるような周知のポ ールゼロ(または時系列a、b係数)近似技法を使用することにより伝達関数の 近似方法を含むものである。変換関数特徴ベクトルは、音声時間間隔フレームま たは複数のフレームのために振幅、位相、汎関数形式のタイプ、汎関数係数の定 義、特徴ベクトルの持続時間、他の必要な情報を得ることを含んで形成される。 ポール表示およびゼロ表示または音声時間間隔フレームまたは重要なフレーム のARMA記述子a,b表示を使用することにより、伝達関数を記述する機能ベ クトルは形成される。さらに使用するポールやゼロの数(または代わりに音声時 間間隔フレームまたは重要なフレームのARMA記述子のa,b値)を原則とし て固定する定義されたARMA汎関数形態を使用することでも形成される。 前に示した既知のタイプの話者から各ベクトル素子にいろいろな相違を記憶す ることにより、または過去時間フレームからいろいろな相違を一定の使用期間記 憶することにより、相違「ポール・ゼロ」(またはa,b)特徴ベクトルを定義 することが本発明に含まれる。さらに主要な路寸法を示す「より重要な」ポール ・ゼロ(またはa,b)値、および個々の話者特有の音声を示す「重要性の低い 」値の定義も本発明には含まれる。 音声時間間隔フレームのための伝達関数「特徴ベクトル」形成もその一部であ る人間の声道音響システムを予知することにより、前もって示されている音響シ ステムに似た、一般に良く知られている電子式または機械式のものを使用して伝 達関数を概算することが本発明に含まれている。電気的類似性・モデルでインピ ーダンス(すなわちZの)または回路値(すなわちL、C、R、Gの値)を使用す ることにより伝達関数を示す特徴ベクトルが形成される。前に示したタイプの話 者から、すなわち前の時間フレームで得た係数から各ベクトル素子に相違を記憶 することで特徴ベクトルの定義が可能となる。 特徴ベクトルと刺激関数情報を使用して、話者の生理学上のパラメータを定義 することができる。伝達関数パラメータは電気的類似性・モデルを定義するため に使用され、路長、口腔長、副鼻洞容積、口腔容量、咽頭容量、空気通過壁コン プライアンス、これ以外の音響音声専門家が知るパラメータが、このパラメータ と関連がある。質量、スプリング定数、声道膜の潤いを示すために刺激関数情報 が使用される。 声道構成のために測定し導いた伝達関数が表示して、重要な音声時間間隔フレ ームの間に話者が使用するその生理的寸法を使い、伝達関数を表示する機能ベク トルを形成することができる。特徴ベクトルとして前に示した既知のタイプの話 者、すなわち前の時間フレームで得た係数から各特徴ベクトル素子にいろいろな 相違を記憶することでも特徴ベクトルは形成される。 各時間フレームおよび多重時間フレームの定義法、すなわち「ベクトル中のベ クトル」である音声特徴ベクトルを本発明は含んでいる。その構成要素は使用者 が示す必要な情報、刺激関数特徴ベクトル、音声路伝達関数特徴ベクトル、韻律 学特徴ベクトル、音響特徴ベクトルからの情報、タイミング情報および必要数の 時間フレームにわたる使用言語の応用例のための音響音単位すべての制御情報で ある。訓練期間にこのようなベクトルを取得しデータベース(すなわちライブラ リまたはコードブック)の中に記憶することが本発明には含まれる。データベー スは、リアルタイムに、迅速なリサーチや検索が行なえるよう設計されている。 各特徴ある話者の明確な定義、個々または平均的話者の集合から基準となる話者 を定義すること、または正規化を使い仮想の話者に係数を置き換えること、すな わち汎関数とその係数の人為的修正などがこの方法には含まれる。さらに一回以 上の音声フレームにわたりこのようなベクトルの形成がそこには含まれ、そして そのベクトルにはすべての音節、音素、PLU,倍音素、3倍音素、複数音素、 単語、句、および使用言語と応用例に必要なこれ以外の構造に対して上記の形成 が含まれる。 汎関数のタイプに包合された記憶特徴ベクトル情報およびある話者の定義特徴 ベクトル係数は、対象の話者の発生した文を平均的な話者のものに正規化するた めに使用される。話者固有の刺激関数および既知音の伝達関数係数を訓練期間に 同じ音で基準話者の刺激関数および伝達関数係数と比較することにより個々の相 違をこの方法は認識する。最も簡単な方法は基準話者特徴ベクトルを使用者のも のと置き換えることであり、第二の方法は難解な音声合成を表示する特徴ベクト ルを置き換えることである。これらによりコードブックが擬人化され、比較が正 確に、そしてベクトルの検索が特徴あるものになる。第三の方法は極値の方法で 、その中で使用者の特徴係数ベクトルの各係数の極値から基準話者の極値までマ ッピングが行われる。応用例に必要なすべての音単位の係数範囲極値がこの値に は含まれ、それは訓練期間に取得される。次に時間フレーム毎に取得された特徴 ベクトル係数は線形断片マッピングを使用して基準話者のものに正規化される。 この方法により個々の言語音の可変性の多くが取り除かれ、話者独自の特徴ベク トルが時間フレーム毎に形成される。このようにして音声音を記憶ライブラリの 中の音記号と高い識別の確率で関連づけることが可能となる。さらにこの方式に より計測器の可変性も取り除かれる。 応用例の識別可能帯域を表す限定した集合の値に、正規化した特徴ベクトル係 数を量化することがこの方法には含まれる。明らかに咬交器は著しい音声の相違 に対してその位置を変え、一定量を調節し、使用者が大切と思うようにする必要 がある。安定していると理解される計数値の帯域はシステムのセットアップおよ び訓練の間に測定される。正規化された各係数は取得されると調音装置の「量化 された」側面を表す値の一つにマップされる。係数自体を使い、コードブック・ アドレスに直接アドレスすることで、対応する記憶規準特徴ベクトルを探し出す テーブル直接索引がこの方式により可能となる。 緩慢な変化または変化がベクトル係数では全く起こらないような時間フレーム の完全な特徴ベクトルは一個の音声フレームを表示する特徴ベクトルになってし まうことがある。さらに崩壊した特徴ベクトルに含まれるのは、連続した一定の 時間フレームの全記録持続時間を表示する追加の係数および緩慢な変化のモデル を全シーケンスにわたり一個または数個の係数で示す係数である。この手順は音 声圧縮の方法であり、過多の情報を取り除き、しかし応用例に適した数の話者の 特性はとどめる。 一個以上の時間フレームに対する完全な特徴ベクトルは、話者を識別し、その 識別の統計量を提供する目的で、既知の人間に関する記憶した情報に例えること ができる。自動的にこのような比較が実行されるのは、いくつかの時間フレーム 単位、分離した時間フレーム単位、または目的の話者の識別に関する記憶情報が 実行したライブラリから利用可能な単位のシーケンスにおいてである。話者は配 列済みの単語を発音、またはシステムが提示した情報に反応することができる。 すなわち、システムが音声認識を使い、単位のシーケンスを認識し前に作成した ライブラリから得た目的の話者の識別に関する記憶情報とそれらを比較すること ができる。 話されている言語を知らずに音声を符号化して、その言語の識別のため一連の コードブックから一個以上の言語を検索する方法を本発明は提供している。各言 語の音、音パターン、言語認識を得る特にユニークな音をこのプロセスは利用し ている。 ある言語の音単位すべてを識別するために原則として特徴ベクトルを使用する 音声認識の方法が本発明には含まれる。その正確さのためここでその方法に直接 応用可能な最も簡単な認識技法は音声テンプレート方式である。特徴ベクトルが 表示するのは冗語やモデル制約を含む十分な情報を持った音声単位という条件で あり、音声の音素(または他の単純な音声音単位)は時間周期で定義可能であり 、コードブックに記憶した作成済みベクトルに直接突き合わせることができる。 検討中の、かつては非常に高い確率で識別できた音単位は記号と関連がある。 記号は文字、ASCIIコンピュータ・コード、ピクトグラム記号、電話技法コ ードになりうるし、音声認識、統合、電話技法そして似たような活動に知られる 他の符号化にもなりうる。 本発明に含まれる音声認識の第二の方法は複数時間フレーム特徴ベクトル上で 、Hidden Markov Model(HMM)技法を使用して試験済み時間フレームで発音 されている音素のシーケンスを統計的に識別する。特徴ベクトルは非常に正確な ため、この方式が早く、正確になり、大きな自然言語、連続音声語彙を収容する 。通常の音声認識のHMM方法として良く知られる学習位相がこれに含まれる。 試験済み時間フレームの中で倍音素、3倍音素、複数音素、単語、単語シーケン スを識別するためにHMM技法の使用が可能である。 本発明は特徴ベクトル上で結合の確率を使用し、多重センサー入力で試験済み の時間フレームで発音されている音素のシーケンスを統計的に識別する。結合の 確率には最初の段階での通常の音声認識の使用が含まれる。それは一個以上の音 単位の識別を推定して、次の段階で識別の確率を記録する。第二の段階は逆たた み込みで得られた電磁・音響定義特徴ベクトルを使用して、音単位の識別を別々 に推定し、非音響ケースに第二のセットの確率推定を割り当てることである。第 三段階は電磁センサー情報だけを使用し、第三セットの識別した音声単位および その確率が作成される。最終段階で各推定の確率を結合して、全音響システム、 電磁・音響、全電磁特徴ベクトル・システムのどれかが単独で実行した場合より 正確な単語単位の識別が可能とする。結合確率技法により試験済み時間フレーム の中で倍音素、3倍音素、複数音素、単語、および単語シーケンの識別が可能と なる。 本発明には特徴ベクトル上で結合確率を使用する方法が含まれ、いくつかの異 なるセンサー情報集合で試験済みの時間フレームで発音されている音響的に似た 音素を統計的に区別する。結合確率とは、例えば通常の音声認識技法で始まり、 一個以上の音単位の識別を推定することである。それらは同じような確率で通常 の音響技法だけで定義される可能性がある(すなわち統計的な意味で曖昧さが残 る)。第二段階は、例えば一個以上の音響的に識別された音素をもつ電磁・音響 定義特徴ベクトルを使い、音単位の識別を別々に推定して、電磁・音響発生ベク トルに基づく確率の推定を各曖昧な音単位に割り当てることである。第二段階か ら最小の確率と一致しない第一段階からの音単位はすべてこれ以上検討しない。 (すなわち除外される)。これにより計算時間が減少する。なぜなら初期に除去 された単位はもはや検討しないからである。第三段階は電磁センサー情報だけを 使用して、第一段階と第二段階から残っている音単位のテストが可能であり、そ して判定基準に合わなければ、除外される。最終段階は各推定の可能性を結合し て、全音響システムまたは全電磁・音響特徴ベクトルシステムが実行しうる以上 に正確に残存する単語単位を識別することである。このようにして第一段階から 識別した単位のすべてが除外できる(すなわちこの例の中で音響的に識別した音 単位)が、以下の段階のために記憶特徴ベクトルのライブラリと比較して定義さ れた基準に合うものは除かれる。センサー方式の順序は交換可能である。結合確 率技法は試験済みの時間フレームの中で倍音素、3倍音素、複数音素、単語、お よび単語シーケンスを識別することができる。 本発明はニューラル・ネットワーク・アルゴリズムを使用する方法を含み、記 述したパターンを対応する音単位の記号表示と結びついた特徴ベクトルと関連づ ける。この方法は通常の訓練法を使用して、ニューラルネットワーク(入力特徴 ベクトルの正規化と量化が含まれる)、話者(一人以上)の平均化およびニュー ラル・ネットワーク・アルゴリズム(逆伝搬、二個以上の層など)による入力と 既知の単語または他の音声単位の関連づけを行う。この方法で入力されたデータ は非常に良く定義され、話者に依存せず、正確であるため、一度訓練したネット ワークは識別された発生音声単位記号に入力特徴ベクトルを与える。 個々の話者のために得た記憶電磁センサーから高品質で特有の音声を合成する 方法が本発明に含まれる。個々の話者とは平均的労働者の口述または有名な俳優 の音声を符号化することである。音声の特質はオリジナルの特徴ベクトルの符号 化の特質、コードブックへの記憶、検索方法と連結方法に基づいている。初めに 必要な音声単位が記録、符号化、そしてコードブックの中に関連する記号と共に 記憶される。次にコードブックから目的の音声特徴ベクトルを検索するため、文 章体テキストから、必要な音声単位すべて(音素、倍音素、3倍音素など)を識 別する音声トランスレータへ商業用テキストが使用される。次に使用する音単位 、単位のタイミングへのおよび韻律学が選択される。発生音関数を作り出すため に刺激関数を伝達関数と絡み合わせ、さらに音声インタバル・セグメントを結合 させるタイミングの「マーク」として声門を閉じる時間周期を優先的実施態様で 使用することで単位は結合する。最後に韻律は各音声単位または音声単位の合成 に与えられる、すなわち特に韻律は音のレベルを設定して、フレージングおよび 句読法により表示されるとピッチが単位の初めから最後まで変化する。手順によ り関数値と道関数の選択が容易になるため他の連結方式も使用可能である。 本発明には記憶音声特徴ベクトルを変えることにより合成音声を変更する方法 が含まれる。単位時間毎に声門の開閉周期の数を増やし、次にそれぞれの定義さ れた長の特徴時間周期のための声道伝達関数と比較的高いピッチの刺激を絡み合 わせることでピッチは変化する。刺激関数のディスクリプタを圧縮してこれは行 われ、最後に似たような短かくなったパターンが得られる。個々の音声特徴定義 された正規化した音声特徴ベクトルに変更可能である。さらに音声の持続時間は 声門周期のユニットの沈黙周期を含む音声フレームを加減することで短くなった り長くなったりする。 自動的に得たデータに基づき鼻腔の大きさを増したり声道を長くしたりするよ うな通常の方法で生理的パラメータ変えることにより話者の伝達関数の変更は行 われる。生理的パラメータが変更すると、次に調査中の時間フレームのために声 道の新しい生理に基づき(刺激ベクトル素子および韻律学ベクトル素子と共に) 新しい伝達関数ベクトルが形成される。 発声合成改良のために要求があればたたみ込みが行われる前に、理想に近い話 者の刺激関数、または特定の話者のための伝達関数か韻律学パターンの代用が可 能である。 合成刺激関数(すなわち非物理的開閉形である高ピッチ)の発生が可能となる 。すなわち(誇張した生理的パラメータに基づく)非物理的伝達関数または娯楽 、音声リサーチ、動物リサーチまたは訓練、特に目的とする効果を得るための楽 しい(amusing)、または目的とする韻律パターンの発生が可能である。 電話技法セット伝送マイクロフォンに発音する話者の特長ベクトルを符号化す る目的の符号化技法が本発明には含まれている。この符号化には話者の識別、必 要な場合に音声の変更など望むときに情報を追加して伝送にとって適切な符号に 特徴ベクトルを変更することが含まれている。音声のリアルタイム音声認識が発 生して、対応する記号が識別され、帯域幅が劇的に減少して伝送される。この方 法により暗号化が容易になり外国語の翻訳、伝線、光ファイバまたは無線により リアルタイムに符号化した単位を伝送することが可能となる。電話通信により聴 取者に変化した音響音を流すために話者を表す音響音声に符号化した音声(すな わち記号や地区長ベクトル)を合成する方法がこの方法には含まれる。音声合成 は記憶済みの平均的な話者の特質の識別、伝送や合成に使用するために設計する ことが可能であり、それにより「異なる特徴ベクトル」の伝送、「最も重要な」 汎関数適合条件および「重要性の低い」伝送汎関数適合条件を使い、部分的情報 を伝送することが可能となる。非常に高いフィデリティ話者特有の音声を伝送し て特徴ベクトル情報の比較的正確な記述子を伝送するために相対的に高い帯域幅 を使用できるよう、または帯域幅を最小化するため最小の特性を使用できるよう に音声合成を設計することも可能である。 聴取者が話者になり話者が聴取者になる場合を除き、逆コミュニケーション・ チャネルは同じ様に動作する。話者が話をしている間または音声が合成されてい る間に、しかも使用者が納得する短時間の遅れで、認識、符号化、合成が生じる ということがリアルタイムの意味である。 本発明には、結果として音声認識が単語識別になる場合、識別処理手順を使用 しての電話符号化が含まれる。伝送の帯域幅を最小化する目的で最小量の話者の 声の特性化情報と共に、またはこの情報なしで単語特性コンピュータ・コード( すなわちASCII)は伝送される。単語(すなわち言語記号で文字、ピクトグ ラム、他の記号の様なもの)伝送は現在の音声電話技法より100倍少ない伝送 帯域が必要であると言われており、このためこの伝送の価値は非常に高い。 多くの応用例に対して使用者へのコミュニケーション・フィードバックがこの 方法に含まれるのは、音響情報ばかりでなく生理的情報が正確に符号化され表示 やフィードバックに利用できるためである。音声の矯正、外国語の学習にとり発 声器官は話者が器官の位置を間違えたことを示す。耳の不自由な話者に対して、 誤った発音が識別され視覚単位、触知単位、または電気刺激単位でフィードバッ クされる。 特定的に説明した実施態様の変更や修正は、添付クレームによってのみ限定さ れることを意図する発明の範囲から逸脱することなく実行可能である。

Claims (1)

  1. 【特許請求の範囲】 1. 話者の音声器官に向けて電磁放射を出力するステップと、 前記音声器官から散乱した電磁放射を検出して音声器官情報を得るステップと 、 前記話者から出力された音響音声を検出して、音響音声情報を得るステップと 、 音声符号化アルゴリズムを用いて前記電磁音声器官情報を前記音響音声情報に 結合して、前記話者の刺激関数および声道伝達関数を得るステップと を含む、音声を特徴化する方法。 2. 音声時間フレームを定義するステップをさらに含む、請求項1に記載の 方法。 3. 前記音声時間フレームの開始時間、停止時間および持続時間を定義する ステップをさらに含む、請求項2に記載の方法。 4. 各々の音声時間フレームに対して特徴ベクトルを形成するステップをさ らに含む、請求項2に記載の方法。 5. 前記音響音声情報から前記音声刺激関数を逆たたみ込みして、逆たたみ 込みされた伝達関数を発生するステップをさらに含む、請求項1に記載の方法。 6. 前記逆たたみ込みされた伝達関数を数学的モデルに適合させることによ って特徴ベクトルを形成するステップをさらに含む、請求項5に記載の方法。 7. 前記特徴ベクトルが、数値的テーブルのルックアップ、フーリエ変換、 ARMAモデル技法、音響システムの電気的もしくは機械的アナログモデル、な らびに前記音響システムの器官寸法の生理的・音響的モデルの内の1つによって 形成される、請求項6に記載の方法。 8. 発生器官の寸法および位置を示す電磁センサー情報を用いて前記伝達関 数の数学的モデルを選択するステップをさらに含む、請求項6に記載の方法。 9. リアルタイム測定値を用いて前記伝達関数を得るステップをさらに含む 、 請求項8に記載の方法。 10. 前記電磁放射が声門領域に出力され前記声門領域から反射されて、近 傍フィールドモード、中間フィールドモードまたは遠隔フィールドモードで感知 される、請求項1に記載の方法。 11. 前記音声時間フレームが、反射電磁波を用いて声門の開閉を測定する ことによって定義される、請求項2に記載の方法。 12. 2つ以上の正門開閉時間フレームから1つの複合時間フレームを定 義するステップをさらに含む、請求項11に記載の方法。 13. 前記電磁信号が圧力および体積空気流の少なくとも一方にリアルタイ ムで変換されるように電子センサーを事前に校正するステップをさらに含む、請 求項11に記載の方法。 14. 数値テーブル値によって、または前記数値テーブル値に数学的関数モ デルを適合させることによって、音声化された刺激関数特徴ベクトルが定義され る、請求項11に記載の方法。 15. 非音声化された音声に対する刺激関数を得るステップをさらに含む、 請求項2に記載の方法。 16. 電磁検出された声門開閉が存在し、音響出力が存在しないことによっ て、非音声化された音声時間フレームを定義するステップをさらに含む、請求項 15に記載の方法。 17. 音声化された音声時間フレームと非音声化された音声時間フレームが 結合した特徴ベクトルを形成するステップをさらに含む、請求項11に記載の方 法。 18. 差特徴ベクトルを形成するステップをさらに含む、請求項4に記載の 方法。 19. 前記伝達関数を、主要声道構成を定義する「重要な」ポールゼロ項と 話者の特徴的な発声器官の物理的および音響的状態を定義する「重要度の低い」 ポールゼロ項に分割するステップをさらに含む、請求項6に記載の方法。 20. 特徴ベクトルを保存済み特徴ベクトル情報と比較して、話者を識別す るステップをさらに含む、請求項4に記載の方法。 21. 特徴ベクトルを多くの言語コードブック中の保存済み特徴ベクトル情 報と比較して、前記話者が使用している言語を識別し、これによって音響音声単 位を形成するステップをさらに含む、請求項4に記載の方法。 22. 話者の特徴ベクトルを1つ以上の規準話者に対して正規化するステッ プをさらに含む、請求項4に記載の方法。 23. 連続係数値帯域の特徴ベクトルを、各々の係数によって定義される明 瞭な使用者識別可能な用途関連の少数の音声状態を表す少数の明瞭な係数値に量 子化するステップをさらに含む、請求項4に記載の方法。 24. ある言語におけるすべての音響単位に対して、1つ以上の刺激関数特 徴ベクトル、声道伝達関数特徴ベクトル、韻律特徴ベクトル、タイミング、アル ゴリズム制御係数、隣接するフレーム接続性係数および音響特徴ベクトルを結合 することによって音響音声単位特徴ベクトルを定義するステップをさらに含む、 請求項4に記載の方法。 25. ある言語で使用されるすべての音響音声単位に対する記号を識別して 前記記号をライブラリ、コードブックまたはデータベースに保存することによっ て前記結合された特徴ベクトルを発生するステップをさらに含む、請求項24に 記載の方法。 26. 1人以上の話者の刺激関数、伝達関数、音響関数、韻律関数およびタ イミング関数に基づいて特徴ベクトル係数を平均化して、規準話者音響音単位特 徴ベクトルを形成して、コードブックまたはデータベースに保存するステップを さらに含む、請求項24に記載の方法。 27. 1人以上の話者の刺激関数、伝達関数、音響関数、韻律関数、隣接す るフレーム接続性関数およびタイミング関数特徴ベクトル係数および関数表示を 修正して、修正済み音響音単位特徴ベクトルを形成して、コードブックまたはデ ータベースに保存するステップをさらに含む、請求項24に記載の方法。 28. 第2の言語での外国語の語または句の記号を、1人または複数の話者 によって符号化された第1の言語の各々の単位と関連付けて、コードブックまた はデータベースに保存するステップをさらに含む、請求項25に記載の方法。 29. 前記音響音声単位特徴ベクトルをライブラリ、コードブックまたはデ ータベースに保存するステップをさらに含む、請求項24に記載の方法。 30. 前記特徴ベクトルに基づいて、ある言語におけるすべての音単位を識 別するステップをさらに含む、請求項4に記載の方法。 31. テンプレート整合技法、HMM技法、ニューラルネット技法、2つ以 上の識別アルゴリズムの結合確率方法および2つ以上の識別アルゴリズムによる 試験によって、識別済み単位を一連の試験で除去する排除方法から成るグループ から選択された方法で、ある言語におけるすべての音響音声単位を識別するステ ップをさらに含む、請求項30に記載の方法。 32. 識別された言語単位の記号を持つ各々の音響音声単位を識別するステ ップをさらに含む、請求項30に記載の方法。 33. 電磁音響音声および音響音声の器官の情報に基づいて音声を合成する ステップをさらに含む、請求項1に記載の方法。 34. 規準話者特徴ベクトルのコードブックを発生して記号を識別するステ ップと、 音声変換器に送られるテキストを用いて、合成用の音声単位を識別するステッ プと、 前記音単位およびタイミングを選択するステップと、 選択済み音特徴ベクトルを保存済みのデータベースから提供するステップと、 前記音単位を連結して音声音シーケンスとするステップと、 韻律規則を用いて、特徴ベクトル係数または特徴ベクトル係数のシーケンスを 修正するステップと、 個々の音の時間時間を修正するステップと、 前記修正済み伝達関数で前記修正済み刺激関数をたたみ込みすることによって 音特徴を発生し、これによって、出力音関数を発生するステップと によって音声が合成される、請求項33に記載の方法。 35. 刺激関数振幅対時間関数上の位置を測定して、音声間隔セグメントを 一緒に結合するステップをさらに含む、請求項34に記載の方法。 36. 音声フレームセグメントを結合するために、タイミングマーカーとし て声門閉鎖中の時間を用いるステップをさらに含む、請求項35に記載の方法。 37. 音響音声単位を符号化し、前記符号を受信システムに送信し、さらに 、前記送信された符号を音響音声に再構築するステップをさらに含む、請求項1 に記載の方法。 38. 前記符号が記号符号である、請求項37に記載の方法。 39. 前記符号を修正して最小情報を送信し、さらに、規準話者のローカル 保存されたコードブックを用いて前記符号を音響音声に再構築するステップをさ らに含む、請求項37に記載の方法。 40. 関連する外国語記号または音声符号を得て、前記外国語記号を前記受 信システムに送信して、前記外国語で音響音声に再構築するステップをさらに含 む、請求項37に記載の方法。 41. 第1の言語で前記音響音声単位を符号化し、前記符号化された情報を 前記第1の言語に基づいて送信し、前記送信された符号化済み単位を認識し、関 連する言語記号または音声符号を前記受信システムでのシステムコードブックか ら得られた第2の言語で得て、さらに、前記受信システムでの前記第2の言語で 音響音声を再構築するステップをさらに含む、請求項37に記載の方法。 42. 前記音声時間フレームに対する前記特徴ベクトル内の符号化されてい る音声器官による調音品質を、視覚画像、印刷情報、音響メッセージ、ならびに 触覚刺激および電気刺激の少なくとも一方から成るグループから選択された交信 手段を用いて、前記話者または他者に返信するステップをさらに含む、請求項4 に記載の方法。 43. 前記音声セグメント中の各々の連続時間フレームに対する一連の特徴 ベクトルを形成するステップと、 前記シーケンス中の各々の特徴ベクトルに対する前記特徴ベクトル係数を、前 記連続時間フレームの間の1つ以上の係数における変化を示す事前定義されたモ デルに照らし合わせて比較するステップと、 前記係数が前記事前定義されたモデルの規準を満足する複数の時間フレームに 対する1つの代表的特徴ベクトルを形成するステップと、 前記代表的特徴ベクトルに、前記事前定義されたモデルを示す余分の係数およ び前記モデルに対するパラメータ適合値を加算するステップと、 前記複数時間フレームの合計持続時間を余分の係数として、前記代表的複数時 間フレーム特徴ベクトルに加算するステップと、 圧縮されたセグメントを電子的に保存または送信するステップと によって音声セグメントが圧縮されることを特徴とする請求項24に記載の方 法。
JP9528568A 1996-02-06 1997-01-28 音響学および電磁波を用いた音声の符号化、再構成および認識 Pending JP2000504849A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/597,589 US5729694A (en) 1996-02-06 1996-02-06 Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US08/597,589 1996-02-06
PCT/US1997/001490 WO1997029482A1 (en) 1996-02-06 1997-01-28 Speech coding, reconstruction and recognition using acoustics and electromagnetic waves

Publications (1)

Publication Number Publication Date
JP2000504849A true JP2000504849A (ja) 2000-04-18

Family

ID=24392138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9528568A Pending JP2000504849A (ja) 1996-02-06 1997-01-28 音響学および電磁波を用いた音声の符号化、再構成および認識

Country Status (4)

Country Link
US (1) US5729694A (ja)
EP (1) EP0880772A4 (ja)
JP (1) JP2000504849A (ja)
WO (1) WO1997029482A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310091A (ja) * 2003-04-01 2004-11-04 Microsoft Corp 残差モデルを使用したフォルマント追跡の方法および装置
WO2008062782A1 (fr) * 2006-11-20 2008-05-29 Nec Corporation Système d'estimation de parole, procédé d'estimation de parole et programme d'estimation de parole
JP2013045104A (ja) * 2011-08-19 2013-03-04 Boeing Co:The 話者識別検証のための方法およびシステム
JP2017152864A (ja) * 2016-02-23 2017-08-31 パナソニックIpマネジメント株式会社 拡声装置およびその制御方法
JP2017152863A (ja) * 2016-02-23 2017-08-31 パナソニックIpマネジメント株式会社 拡声装置および拡声方法
JP6269771B1 (ja) * 2016-10-05 2018-01-31 パナソニックIpマネジメント株式会社 翻訳装置、拡声装置、およびその制御方法
JP6273560B1 (ja) * 2016-10-05 2018-02-07 パナソニックIpマネジメント株式会社 拡声装置およびその制御方法
KR101912010B1 (ko) * 2016-10-18 2018-12-28 연세대학교 산학협력단 레이더 신호를 이용하여 무성음성을 인식하기 위한 장치 및 방법

Families Citing this family (328)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
DE69628083T2 (de) 1995-03-31 2003-12-04 Canon Kk Bildverarbeitungsgerät und Methode
US6109923A (en) * 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
GB9519087D0 (en) 1995-09-19 1995-11-22 Cursor Positioning Sys Ltd Navigation and tracking system
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US6542857B1 (en) * 1996-02-06 2003-04-01 The Regents Of The University Of California System and method for characterizing synthesizing and/or canceling out acoustic signals from inanimate sound sources
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
KR100236974B1 (ko) 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
US6490562B1 (en) 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US6195449B1 (en) * 1997-05-18 2001-02-27 Robert Bogden Method and apparatus for analyzing data files derived from emission spectra from fluorophore tagged nucleotides
FI972723A0 (fi) * 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
GB9722324D0 (en) 1997-10-22 1997-12-17 Cambridge Positioning Sys Ltd Positioning system for digital telephone networks
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6290504B1 (en) * 1997-12-17 2001-09-18 Scientific Learning Corp. Method and apparatus for reporting progress of a subject using audio/visual adaptive training stimulii
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6233319B1 (en) * 1997-12-30 2001-05-15 At&T Corp. Method and system for delivering messages to both live recipients and recording systems
US6134529A (en) * 1998-02-09 2000-10-17 Syracuse Language Systems, Inc. Speech recognition apparatus and method for learning
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US6493666B2 (en) * 1998-09-29 2002-12-10 William M. Wiese, Jr. System and method for processing data from and for multiple channels
DE69941499D1 (de) * 1998-10-09 2009-11-12 Sony Corp Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
US6260016B1 (en) 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
JP2000200098A (ja) * 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
CA2328953A1 (en) * 1999-02-16 2000-08-24 Yugen Kaisha Gm&M Speech converting device and method
US6233552B1 (en) * 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
US6185533B1 (en) 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
GB9912724D0 (en) 1999-06-01 1999-08-04 Cambridge Positioning Sys Ltd Radio positioning system
US6487531B1 (en) 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
JP2001109489A (ja) * 1999-08-03 2001-04-20 Canon Inc 音声情報処理方法、装置および記憶媒体
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
US6492933B1 (en) 1999-09-02 2002-12-10 Mcewan Technologies, Llc SSB pulse Doppler sensor and active reflector system
US6505152B1 (en) 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
SE514875C2 (sv) * 1999-09-07 2001-05-07 Ericsson Telefon Ab L M Förfarande och anordning för konstruktion av digitala filter
US6255980B1 (en) * 1999-11-12 2001-07-03 The United States Of America As Represented By The Secretary Of The Navy Radar-acoustic hybrid detection system for rapid detection and classification of submerged stationary articles
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
EP1102242A1 (de) * 1999-11-22 2001-05-23 Alcatel Verfahren zur Personalisierung von Sprachausgabe
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6366862B1 (en) * 2000-04-19 2002-04-02 National Instruments Corporation System and method for analyzing signals generated by rotating machines
US6332116B1 (en) * 2000-04-19 2001-12-18 National Instruments Corporation System and method for analyzing signals of rotating machines
US6810341B2 (en) 2000-04-19 2004-10-26 National Instruments Corporation Time varying harmonic analysis including determination of order components
KR100387918B1 (ko) * 2000-07-11 2003-06-18 이수성 통역기
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US8467543B2 (en) * 2002-03-27 2013-06-18 Aliphcom Microphone and voice activity detection (VAD) configurations for use with communication systems
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
CA2417926C (en) 2000-07-31 2013-02-12 Eliza Corporation Method of and system for improving accuracy in a speech recognition system
CA2323883C (en) * 2000-10-19 2016-02-16 Patrick Ryan Morin Method and device for classifying internet objects and objects stored oncomputer-readable media
US7567921B1 (en) * 2000-10-23 2009-07-28 Business-To-Investor, Inc. Method and system for providing commercial information and operating an electronic commerce system over a global communications network with company and constituency nodes
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20020099541A1 (en) * 2000-11-21 2002-07-25 Burnett Gregory C. Method and apparatus for voiced speech excitation function determination and non-acoustic assisted feature extraction
IL140082A0 (en) * 2000-12-04 2002-02-10 Sisbit Trade And Dev Ltd Improved speech transformation system and apparatus
US6678354B1 (en) * 2000-12-14 2004-01-13 Unisys Corporation System and method for determining number of voice processing engines capable of support on a data processing system
US6778252B2 (en) * 2000-12-22 2004-08-17 Film Language Film language
US6889190B2 (en) 2001-01-25 2005-05-03 Rodan Enterprises, Llc Hand held medical prescription transcriber and printer unit
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
GB0112749D0 (en) * 2001-05-25 2001-07-18 Rhetorical Systems Ltd Speech synthesis
US6584437B2 (en) 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
US20030128848A1 (en) * 2001-07-12 2003-07-10 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US20030023335A1 (en) * 2001-07-26 2003-01-30 Budka Phyllis R. Method and system for managing banks of drawing numbers
DE60204902T2 (de) * 2001-10-05 2006-05-11 Oticon A/S Verfahren zum programmieren einer kommunikationseinrichtung und programmierbare kommunikationseinrichtung
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030125959A1 (en) * 2001-12-31 2003-07-03 Palmquist Robert D. Translation device with planar microphone array
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US7031914B2 (en) * 2002-04-10 2006-04-18 Qwest Communications International Inc. Systems and methods for concatenating electronically encoded voice
US7478043B1 (en) * 2002-06-05 2009-01-13 Verizon Corporate Services Group, Inc. Estimation of speech spectral parameters in the presence of noise
EP1538865B1 (en) * 2002-08-30 2010-06-30 National University Corporation Nara Institute of Science and Technology Microphone and communication interface system
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US8352248B2 (en) * 2003-01-03 2013-01-08 Marvell International Ltd. Speech compression method and apparatus
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
WO2004068464A2 (en) * 2003-01-30 2004-08-12 Aliphcom, Inc. Acoustic vibration sensor
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US8200486B1 (en) * 2003-06-05 2012-06-12 The United States of America as represented by the Administrator of the National Aeronautics & Space Administration (NASA) Sub-audible speech recognition based upon electromyographic signals
US7295831B2 (en) * 2003-08-12 2007-11-13 3E Technologies International, Inc. Method and system for wireless intrusion detection prevention and security management
US7524191B2 (en) * 2003-09-02 2009-04-28 Rosetta Stone Ltd. System and method for language instruction
US20050066004A1 (en) * 2003-09-18 2005-03-24 Gan Kenneth A. Interactive real time visual conversation system for face-to-face communication
BRPI0417636A (pt) * 2003-12-16 2007-03-27 Speechgear Inc sistema, método, e, meio legìvel por computador
US7359849B2 (en) * 2003-12-17 2008-04-15 Speechgear, Inc. Translation techniques for acronyms and ambiguities
JP2005210199A (ja) * 2004-01-20 2005-08-04 Alps Electric Co Ltd 無線ネットワークにおける端末相互間の接続方法
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
US8244542B2 (en) * 2004-07-01 2012-08-14 Emc Corporation Video surveillance
US20060046850A1 (en) * 2004-08-31 2006-03-02 Cho-Ki Chow Sound control game player
AU2005291418B2 (en) * 2004-10-05 2010-12-23 Universiteit Antwerpen Diagnostics and treatment of sleep apnea
US7483819B2 (en) * 2004-12-07 2009-01-27 Texas Instruments Incorporated Representing data having multi-dimensional input vectors and corresponding output element by piece-wise polynomials
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US20060190229A1 (en) * 2005-02-23 2006-08-24 International Business Machines Corporation Method of modeling a portion of an electrical circuit using a pole-zero approximation of an s-parameter transfer function of the circuit portion
US7269561B2 (en) * 2005-04-19 2007-09-11 Motorola, Inc. Bandwidth efficient digital voice communication system and method
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8098833B2 (en) * 2005-12-28 2012-01-17 Honeywell International Inc. System and method for dynamic modification of speech intelligibility scoring
US8103007B2 (en) * 2005-12-28 2012-01-24 Honeywell International Inc. System and method of detecting speech intelligibility of audio announcement systems in noisy and reverberant spaces
US20070260590A1 (en) * 2006-05-01 2007-11-08 Prabindh Sundareson Method to Query Large Compressed Audio Databases
US20070276658A1 (en) * 2006-05-23 2007-11-29 Barry Grayson Douglass Apparatus and Method for Detecting Speech Using Acoustic Signals Outside the Audible Frequency Range
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080260169A1 (en) * 2006-11-06 2008-10-23 Plantronics, Inc. Headset Derived Real Time Presence And Communication Systems And Methods
US9591392B2 (en) * 2006-11-06 2017-03-07 Plantronics, Inc. Headset-derived real-time presence and communication systems and methods
JP5233986B2 (ja) * 2007-03-12 2013-07-10 富士通株式会社 音声波形補間装置および方法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101281744B (zh) * 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
US8837746B2 (en) 2007-06-13 2014-09-16 Aliphcom Dual omnidirectional microphone array (DOMA)
US7797158B2 (en) * 2007-06-20 2010-09-14 At&T Intellectual Property Ii, L.P. System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8340968B1 (en) * 2008-01-09 2012-12-25 Lockheed Martin Corporation System and method for training diction
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100131268A1 (en) * 2008-11-26 2010-05-27 Alcatel-Lucent Usa Inc. Voice-estimation interface and communication system
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR20110100652A (ko) 2008-12-16 2011-09-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성 신호 프로세싱
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
ES2843628T3 (es) * 2009-06-26 2021-07-19 Cianna Medical Inc Sistema para localizar marcadores o estructuras de tejido dentro un cuerpo
US9386942B2 (en) 2009-06-26 2016-07-12 Cianna Medical, Inc. Apparatus, systems, and methods for localizing markers or tissue structures within a body
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102822888B (zh) * 2010-03-25 2014-07-02 日本电气株式会社 话音合成器和话音合成方法
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8532987B2 (en) 2010-08-24 2013-09-10 Lawrence Livermore National Security, Llc Speech masking and cancelling and voice obscuration
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US9069757B2 (en) * 2010-10-31 2015-06-30 Speech Morphing, Inc. Speech morphing communication system
US20120136660A1 (en) * 2010-11-30 2012-05-31 Alcatel-Lucent Usa Inc. Voice-estimation based on real-time probing of the vocal tract
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9022032B2 (en) 2011-03-21 2015-05-05 Lawwrence Livermore National Security, LLC System for controlling apnea
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
US8952693B2 (en) * 2011-04-22 2015-02-10 Mayo Foundation For Medical Education And Research Method for principal frequency magnetic resonance elastography inversion
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9113245B2 (en) * 2011-09-30 2015-08-18 Sennheiser Electronic Gmbh & Co. Kg Headset and earphone
US8655152B2 (en) 2012-01-31 2014-02-18 Golden Monkey Entertainment Method and system of presenting foreign films in a native language
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014168730A2 (en) 2013-03-15 2014-10-16 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
GB2513884B (en) 2013-05-08 2015-06-17 Univ Bristol Method and apparatus for producing an acoustic field
TW201446226A (zh) * 2013-06-04 2014-12-16 jing-feng Liu 人工發聲裝置
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
DE102013224417B3 (de) * 2013-11-28 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Hörhilfevorrichtung mit Grundfrequenzmodifizierung, Verfahren zur Verarbeitung eines Sprachsignals und Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN103690195B (zh) * 2013-12-11 2015-08-05 西安交通大学 一种电声门图同步的超声喉动态镜系统及其控制方法
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
EP2889804A1 (en) * 2013-12-30 2015-07-01 Alcatel Lucent Systems and methods for contactless speech recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
WO2015195954A1 (en) * 2014-06-18 2015-12-23 Northwestern University Systems and methods for neuromodulation device coding with trans-species libraries
US10186282B2 (en) * 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
GB2530036A (en) 2014-09-09 2016-03-16 Ultrahaptics Ltd Method and apparatus for modulating haptic feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9723406B2 (en) 2015-01-21 2017-08-01 Qualcomm Incorporated System and method for changing a channel configuration of a set of audio output devices
US9578418B2 (en) * 2015-01-21 2017-02-21 Qualcomm Incorporated System and method for controlling output of multiple audio output devices
US10101811B2 (en) 2015-02-20 2018-10-16 Ultrahaptics Ip Ltd. Algorithm improvements in a haptic system
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10553199B2 (en) 2015-06-05 2020-02-04 Trustees Of Boston University Low-dimensional real-time concatenative speech synthesizer
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10818162B2 (en) 2015-07-16 2020-10-27 Ultrahaptics Ip Ltd Calibration techniques in haptic systems
US10008199B2 (en) * 2015-08-22 2018-06-26 Toyota Motor Engineering & Manufacturing North America, Inc. Speech recognition system with abbreviated training
US20170069306A1 (en) * 2015-09-04 2017-03-09 Foundation of the Idiap Research Institute (IDIAP) Signal processing method and apparatus based on structured sparsity of phonological features
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10268275B2 (en) 2016-08-03 2019-04-23 Ultrahaptics Ip Ltd Three-dimensional perceptions in haptic systems
US10943578B2 (en) 2016-12-13 2021-03-09 Ultrahaptics Ip Ltd Driving techniques for phased-array systems
US10810380B2 (en) * 2016-12-21 2020-10-20 Facebook, Inc. Transliteration using machine translation pipeline
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP6801443B2 (ja) * 2016-12-26 2020-12-16 カシオ計算機株式会社 楽音生成装置および方法、電子楽器
JP7048619B2 (ja) * 2016-12-29 2022-04-05 サムスン エレクトロニクス カンパニー リミテッド 共振器を利用した話者認識方法及びその装置
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11531395B2 (en) 2017-11-26 2022-12-20 Ultrahaptics Ip Ltd Haptic effects from focused acoustic fields
EP3729418A1 (en) * 2017-12-22 2020-10-28 Ultrahaptics Ip Ltd Minimizing unwanted responses in haptic systems
US11002825B2 (en) * 2017-12-29 2021-05-11 Sonitor Technologies As Position determination system having a deconvolution decoder using a joint snr-time of arrival approach
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
SG11202010752VA (en) 2018-05-02 2020-11-27 Ultrahaptics Ip Ltd Blocking plate structure for improved acoustic transmission efficiency
US11098951B2 (en) 2018-09-09 2021-08-24 Ultrahaptics Ip Ltd Ultrasonic-assisted liquid manipulation
US10847177B2 (en) * 2018-10-11 2020-11-24 Cordio Medical Ltd. Estimating lung volume by speech analysis
US11017790B2 (en) 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
US11842517B2 (en) 2019-04-12 2023-12-12 Ultrahaptics Ip Ltd Using iterative 3D-model fitting for domain adaptation of a hand-pose-estimation neural network
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
US11374586B2 (en) 2019-10-13 2022-06-28 Ultraleap Limited Reducing harmonic distortion by dithering
US11295721B2 (en) * 2019-11-15 2022-04-05 Electronic Arts Inc. Generating expressive speech audio from text data
US11715453B2 (en) 2019-12-25 2023-08-01 Ultraleap Limited Acoustic transducer structures
DE102020110901B8 (de) 2020-04-22 2023-10-19 Altavo Gmbh Verfahren zum Erzeugen einer künstlichen Stimme
US11816267B2 (en) 2020-06-23 2023-11-14 Ultraleap Limited Features of airborne ultrasonic fields
US11874200B2 (en) * 2020-09-08 2024-01-16 International Business Machines Corporation Digital twin enabled equipment diagnostics based on acoustic modeling
WO2022058738A1 (en) 2020-09-17 2022-03-24 Ultraleap Limited Ultrahapticons
US20230259653A1 (en) * 2022-02-14 2023-08-17 Twilio Inc. Personal information redaction and voice deidentification

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897630A (en) * 1987-01-21 1990-01-30 Electronic Security Products Of California, Inc. Programmable alarm system having proximity detection with vocal alarm and reporting features
US5285521A (en) * 1991-04-01 1994-02-08 Southwest Research Institute Audible techniques for the perception of nondestructive evaluation information
US5361070B1 (en) * 1993-04-12 2000-05-16 Univ California Ultra-wideband radar motion sensor
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
US5485515A (en) * 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5573012A (en) * 1994-08-09 1996-11-12 The Regents Of The University Of California Body monitoring and imaging apparatus and method
US5549658A (en) * 1994-10-24 1996-08-27 Advanced Bionics Corporation Four-Channel cochlear system with a passive, non-hermetically sealed implant

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310091A (ja) * 2003-04-01 2004-11-04 Microsoft Corp 残差モデルを使用したフォルマント追跡の方法および装置
WO2008062782A1 (fr) * 2006-11-20 2008-05-29 Nec Corporation Système d'estimation de parole, procédé d'estimation de parole et programme d'estimation de parole
JP2013045104A (ja) * 2011-08-19 2013-03-04 Boeing Co:The 話者識別検証のための方法およびシステム
JP2017152864A (ja) * 2016-02-23 2017-08-31 パナソニックIpマネジメント株式会社 拡声装置およびその制御方法
JP2017152863A (ja) * 2016-02-23 2017-08-31 パナソニックIpマネジメント株式会社 拡声装置および拡声方法
JP6269771B1 (ja) * 2016-10-05 2018-01-31 パナソニックIpマネジメント株式会社 翻訳装置、拡声装置、およびその制御方法
JP6273560B1 (ja) * 2016-10-05 2018-02-07 パナソニックIpマネジメント株式会社 拡声装置およびその制御方法
JP2018060346A (ja) * 2016-10-05 2018-04-12 パナソニックIpマネジメント株式会社 翻訳装置、拡声装置、およびその制御方法
JP2018061129A (ja) * 2016-10-05 2018-04-12 パナソニックIpマネジメント株式会社 拡声装置およびその制御方法
KR101912010B1 (ko) * 2016-10-18 2018-12-28 연세대학교 산학협력단 레이더 신호를 이용하여 무성음성을 인식하기 위한 장치 및 방법

Also Published As

Publication number Publication date
EP0880772A4 (en) 1999-08-11
US5729694A (en) 1998-03-17
EP0880772A1 (en) 1998-12-02
WO1997029482A1 (en) 1997-08-14

Similar Documents

Publication Publication Date Title
JP2000504849A (ja) 音響学および電磁波を用いた音声の符号化、再構成および認識
O'shaughnessy Speech communications: Human and machine (IEEE)
Syrdal et al. Applied speech technology
Linggard Electronic synthesis of speech
Doi et al. Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models
NZ243731A (en) Synthesising human speech
CN113496696A (zh) 一种基于语音识别的言语功能自动评估系统和方法
Kröger et al. Articulatory synthesis of speech and singing: State of the art and suggestions for future research
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Deng et al. Speech analysis: the production-perception perspective
Raitio Hidden Markov model based Finnish text-to-speech system utilizing glottal inverse filtering
Dalva Automatic speech recognition system for Turkish spoken language
Peterson et al. Objectives and techniques of speech synthesis
Eshghi et al. An Investigation of Features for Fundamental Frequency Pattern Prediction in Electrolaryngeal Speech Enhancement
Richard et al. Simulation and visualization of articulatory trajectories estimated from speech signals
Raitio Voice source modelling techniques for statistical parametric speech synthesis
Gao Articulatory copy synthesis based on the speech synthesizer vocaltractlab
Inbanila et al. Investigation of Speech Synthesis, Speech Processing Techniques and Challenges for Enhancements
Rasilo Estimation of vocal tract shape trajectory using lossy Kelly-Lochbaum model
Mikuöová Estimating Vocal Tract Resonances of Synthesized High-Pitched Vowels Using CNN
Agbolade A THESIS SUMMARY ON VOICE CONVERSION WITH COEFFICIENT MAPPING AND NEURAL NETWORK
Turkmen Duration modelling for expressive text to speech
Sairanen Deep learning text-to-speech synthesis with Flowtron and WaveGlow