JPH09500223A

JPH09500223A - 多言語音声認識システム

Info

Publication number: JPH09500223A
Application number: JP7504646A
Authority: JP
Inventors: ボルドー、テオドール・オースチン
Original assignee: ボルドー、テオドール・オースチン
Priority date: 1993-07-13
Filing date: 1994-07-12
Publication date: 1997-01-07
Also published as: EP0708958B1; CA2167200A1; AU682380B2; DE69427083T2; EP0708958A1; DE69427083D1; AU7328294A; EP0708958A4; ATE200590T1; WO1995002879A1; US5758023A

Abstract

(57)【要約】音声入力はデジタルデータに変換され、スペクトル解析される。スペクトルは格納されたウェイトを用いて構築された標準ニューラルネットワークを用いて単音を同定するために解析される。単音はさらに音素を同定するために結合される。そして、音素は格納された言語辞書に基づいて異なる言語に翻訳され、文書出力に変換される。

Description

【発明の詳細な説明】多言語音声認識システム発明の分野本発明は、音声認識システム及び方法に関する。背景従来の技術としては、音声を文字に変換するための多くのシステムや方法が含まれる。それらの間の主要な相違の一つは、それらが達成せんとしている音声認識の困難さのレベルである。最も簡単なものは、分離して話され、音響的に異なる少数の言葉（単語）（多くの場合、離散音声と呼ばれる）の認識である。ドッディントン（Ｄｏｄｄｉｎｇｔｏｎ）等に与えられた米国特許第４，９１０，７８４号（「低コスト音声認識システム及び方法」）は、このクラスのシステムの従来技術の一例である。この種のシステムは、例えば、コンピュータを操作するための少数の命令語のセットを与えるには有用であるが、連続した音声を取扱うことはできない。より困難な課題は、一連の言葉の流れ内に含まれる一つ又はそれ以上の指定された単語の認識すなわち“単語発見”である。ボッセメイヤー（Ｂｏｓｓｅｍｅｙｅｒ）ジュニアに与えられた米国特許第４，９３７，８７０は、この種のクラスのシステムの従来技術の一例である。この種のシステムは、例えば、電話への応用において、“クレジットカード”、“集める（ｃｏｌｌｅｃｔ）”、“第三者”等の話中のキーワードやキーフレーズ（ｐｈｒａｓｅｓ）を同定するのに用いることができるであろうが、連続音声を文字に変えることはできない。さらにより困難な課題は、単語が区切って話され、かつ、その文章の文法構造が予め決められている一文における全ての単語の認識である。フィッシャー（Ｆｉｓｈｅｒ）等に与えられた米国特許第４，８８２，７５７号（「音声認識システム」）は、この種のクラスのシステムの従来技術の一例である。この種のシステムは、話者がこの種のシステムの必要性を招来するように不自然な話し方を受け入れようとするような場合に有用であろう。さらにより困難な音声認識の課題は、単語が連結され（通常連続音声と呼ばれる。）、その文章の文法構造は予め与えられており、使用できる単語（ｌｅｘｉｃｏｎ）が制約されている場合において、完全な一文中のすべての単語の認識である。ガーソン（Ｇｅｒｓｏｎ）に与えられた米国特許第５，０４０，１２７号（「連続音声認識システム」）は、この種のクラスのシステムの従来技術の一例である。この種のシステムは、使用者がシステムで用いられる語いと文法上の制約を知っており、したがって、彼もしくは彼女の話法パターンを修正することができるような課題が特化された応用に有用であろう。最も困難な課題は、構造を持たず、形式上文法に適合していない連続で我流の話の中の全ての単語の認識である。ボーディア（Ｂｏｒｄｅａｕｘ）に与えられた米国特許第４，８５２，１７０号（「リアルタイム・コンピュータ音声認識システム」）は、この種のクラスのシステムの従来技術の一例である。音声認識システム及び方法は、話者依存性（ｓｐｅａｋｅｒｄｅｐｅｎｄｅｎｔ）であるか、即ち、装置の話者による使用に先立って、特定の話者によって訓練されなければならないか、或いは話者独立性（ｓｐｅａｋｅｒｉｎｄｅｐｅｎｄｅｎｔ）であるか、即ち、装置を使用するに先立って特定の話者がその装置を訓練する必要がないかに応じて分類される。話者依存性タイプの変形として、装置の訓練をより容易かつ高速に行うことを目的とする話者適合システム（ｓｐｅａｋｅｒａｄａｐｔｉｖｅｓｙｓｔｅｍ）がある。話者独立性システムは、話者依存性タイプより達成が困難であるが、多くの場合、より大きい有用性を有する。以下に記述する本システムは、話者独立性である。音声認識システム及び方法は、同定されるべき最低の音声ユニットについてさらに分類される。各システムは、入力されてくる音声信号と比較される最低音声ユニットの各々が、同定のため最良に整合しているかを捜すための参照スペクトルパターンのセットを備えている。そのようなユニットの最大のものは、単語全体（もしくは小さな単語の群）である。この音声レベルにおいて相当な正確性でもって作動するシステムは、一般的にいって、少ない語いでの離散音声の用途に限られる。単語に組立てるために音素（ｐｈｏｎｅｍｅｓ）を同定することを目的とする方法は、話者依存性と話者独立性／離散型と連続型音声システムのクラスを横断する従来技術と見倣される。信頼性を与えるうえでの困難さは、そのようなシステムにおいて、より多くの語いが、したがってより多くの類似の発音を有する単語が導入され、多数の話者が同一単語について異なった発音をするのに従って増大する。単音（ｐｈｏｎｅ）［即ち、音声の従音声ユニット（ｓｕｂ− ｐｈｏｎｅｍｅｕｎｉｔｓｏｆｓｐｅｅｃｈ）］の同定方法は、音声信号のより多くのより短いセグメントを同定することによってより改善された信頼性を達成することを目的としている。ここに記述される本発明システムは、単音（ｐｈｏｎｅ）を正確に同定する方法を含む。音声認識システム及び方法は、音声プロセスのモデル化法によっても分類される。ある方法では、音声プロセスを一連の音響事象として記述する。このモデルは最初音素認識に用いられた。このモデルにおいて、音声信号は、最初、／イイ（ＩＹ）／，／オウ（ＯＷ）／等の母音、／フ（Ｆ）／，／ス（ｓ）／等の擦音、／ド（Ｄ）／，／ツ（Ｔ）／等の閉鎖音等の音素クラスの事象に区分される。その後、クラス内の具体的な音素が同定される。第２のモデルは、音声プロセスを直接に解析することはできないが、統計的手法において有効に解析できるとする立場をとる。隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）は、音声プロセスについて上記の立場をとった一例である。このモデルでは、音声信号のセグメントは確率的な系の状態とある状態からいずれか他の状態への遷移として捉えられる。各音素又は単音は、状態変化のシーケンスとして記述される。入力される音声信号のスペクトル状態間の遷移の確率は、確からしい音素又は単音の同定のための目標シーケンスの各々に対して確からしい対応性を決定するために計算される。多数語いの話者独立型システムにおいては、スペクトル状態の数に比して可能なスペクトル状態の数がはるかに多いので、この方法で高信頼度を達成することは困難である。第３のモデルでは、音声信号をスペクトルパターンのシーケンス則ち直接的に観測可能な信号の表現と見倣す。後に詳細に説明するように、このモデルは、本発明において採用されているモデルである。全ての音声認識法は、未知の音声信号の特徴を参照事例セットと比較し、良好な整合が得られるか否かを決定する（同定）。したがって、音声認識システムと方法を分類するいま一つの方法は、単語、音素又は単音を同定するため、未知の音声信号が比較されるべき参照データをいかに与えるかに基づいている。“規則が与えられた”システムでは、システム設計者が、最良の整合を決定するのに用いる参照データを装置に直接に与える。設計者は、テンプレートの形状を与えるか、隠れマルコフモデルにおけるように、状態遷移確率を計算する。話者独立系の応用は、話者の声の広い変化に対応すべくきわめて多いスペクトル状態を必要とする。類似のスペクトル状態は、統合することができるが、標本的な精度の低下したがって同定の信頼度の低下を招く。“規則が学習されるシステム（例えば人工ニューラルネットワーク）”においては、設計者は、興味のある各単音のスペクトルの膨大な事例とそれらの同定事例を与える。システムは、訓練モードで駆動され、ニューラルネットワークは、一つの単音を他の全てから識別する方法を“学習”する。実行モードで駆動されると、ニューラルネットワークは、遭遇した信号のセグメントが確からしい単音の各々である確率を決定する。特定の確率閾値判定基準が満たされたときに選択がなされる。この方法は本発明において用いられる方法である。話者独立系の応用におけるこのアプローチの重要な利点は、その信頼度がそれを使用する話者数に応じて改善されることである。音声認識システムの最後の分類方法は、あるとすれば、採用された単語同定に対する援助に関係する。“文脈非拘束（ｃｏｎｔｅｘｔ−ｆｒｅｅ）”構造においては、単音又は音素列が用語集もしくは辞典の見出しと比較され、各単語を直接的に同定する。“文脈支援”構造においては、許される単語対、制約された文法及び／又は統辞法（Ｓｙｎｔａｘ）等の手段が、単語同定の信頼性を向上するために用いられる。本発明は、文脈非拘束系である。これまで従来技術として述べてきた音声認識方法の大部分は、他の言語用に修正することができる。しかしながら、単語同定を支援するための許される語順、文法及び／又は統辞法等の解析手段に依存するこれらの方法は、言語変換遂行のため個別のしかも重複的な努力が要求される。世界的な通信と交易の時代にあっては、従来技術において未だかつて指向されたことのない言語独立システムの必要がある。そのようなシステムの設計と実行には異なる言語において使用される音声の重複を活用すべきである。言語間における共通音声の活用は、従来技術の場合に比して、より詳細な音声生成とその結果としての音声信号についての理解が必要となるであろう。発明の要約従来技術は、単音を認識する模擬的人間能力という能力を具備する装置の構築を示唆することはなかった。ここで“単音（ｐｈｏｎｅ）”とは、“ある言語の音声系における場所に無関係な物理事象として考えられる音声”をいう［ウェブスター第９版新大学生用辞典（Ｗｅｂｓｔｅｒ’ｓＮｉｎｔｈＮｅｗＣｏｌｌｅｇｉａｔｅＤｉｃｔｉｏｎａｒｙ）；発行者メリリアム−ウェブスター・インク、（Ｍｅｒｒｉａｍ−ＷｅｂｓｔｅｒＩｎｃ．）、スプリングフィールド、マサチューセッツ、１９９１］。“人間の言語は、単音とか音声と呼ばれる音の広範囲の多様性を示している。きわめて多数の音声があるがその数は無限大ではない。…可能な音声音のクラスは、有限であるだけでなく、人類共通である。全てのセットの一部は、人間の言語の財産目録（ｉｎｖｅｎｔｏｒｙ）において発見されるであろう”［現代言語学：序論、ウィリアム・オグラティ（ＷｉｌｌｉａｍＯ’Ｇｒａｄｙ），マイケル・ドブロボルスキイ（ＭｉｃｈａｅｌＤｏｂｒｏｖｏｌｓｋｙ）、マーク・アロオノフ（ＭａｒｋＡｒｏｎｏｆｆ）；セント・マーチン・プレス（Ｓｔ．Ｍａｒｔｉｎ’ｓＰｒｅｓｓ）；ニューヨーク；１９８９］。私の発明の一つの目的は、人間の複数の言語における音声（又は単音）の全てのセットを認識するシステム及び方法を提供することである。私の発明の他の一つの目的は、多数の言語の内の１つにおける任意の話者の話、話が連続的であり、会話的である場合を含む、を記述するシステムと方法を提供することである。本発明のさらにいま一つの目的は、音声信号を処理してその信号に含まれる全ての周波数と振幅を正確に決定することができるシステムと方法を提供することである。本発明のさらなる目的は、ごく僅かな時間間隔で知覚された音声信号のユニークな直接観察のためのシステムと方法を提供するために人間の聞取り過程を見習うことである。本発明のさらに他の一つの目的は、ある言語における単音をファジィセット即ち全ての単音セットにおける確率メンバーシップを有する全ての音声信号として取り扱うことである。本発明のさらなる目的は、ごく短い期間の間に表された確からしい単音を決定する人工ニューラルネットワークシステムと方法を提供することである。本発明のさらなる目的は、発声構造の形状（ｖｏｃａｌｔｒａｃｔｃｏｎｆｉｇｕｒａｔｉｏｎ）の目標位置への最も接近したアプローチを表す単音発生の間の時間、即ち意図した単音を表す信号の最大尤度が得られた時を同定するための人工ニューラルネットワークを採用するユニークな方法を提供することである。本発明の他の一つの目的は、同じ単語について複数の発音に対応する方法を提供することである。本発明のいま一つの目的は、同時調音により会話中にしばしば一緒に発生する単語を分離する方法を提供することである。本発明のいま一つの目的は、他の言語の組み込みが組み込まれる言語の数とともに減少する新言語導入時間で効率的に行えるように、言語間における単音の共通使用を活用する方法を提供することである。言語間の音の共用の活用は、より詳細な音声生成表現の応用、音声信号の結果的なコード化及び従来技術の場合に比して優れた音声認識を可能とするようにその信号を解読する聞き取りとパターン認識の神経細胞のメカニズムのエミュレーション（ｅｍｕｌａｔｉｏｎ）を必要とする。本発明は、人間の音声認識において起きる並行処理、即ち、スペクトル分析、音声音同定および単語認識をエミュレートする。人間の聴覚の周波数の応答性と感度が模倣され、人工ニューラルネットワークが、脳のパターン認識装置を表わすために導入され、論理処理が話者の文字単語への翻訳をエミュレートするために導入される。本発明のこれら及び他の目的及び特徴は、図面を参照した以下の説明を考慮することによってよりよく理解されるであろう：第１図は、本システムの論理ダイヤグラムである。第２Ａ図−第２Ｃ図は、発声された音の簡単化したソースフィルター分解を示す図である。第２Ａ図は典型的なソーススペクトル、第２Ｂ図は代表的な音声伝送フィルタ機能、第２Ｃ図は発音された母音のスペクトルである。第３図はある音調の周波数識別対周波数・声の大きさのグラフである。第４図は狭帯域バンドパスフィルタの周波数に対する相対応答性を示す。第５図は同じ聴音の大きさを生成するのに必要な種々の周波数の強度との関係で人間の聴覚(hearing)の周波数応答性を示す。第６Ａ図から第６Ｃ図は、音声セグメンテーションの３つの異なる考え方を図示している。第７Ａ図から第７Ｅ図は、単語“ｃａｗ”の発音の間における推定発声位置を示す。第７Ａ図は音素／Ｋ／の発声位置で、第７Ｅ図は／ＡＯ／の位置であり、第７Ｂ図、第７Ｃ図及び第７Ｄ図はそれら２つの間の推定遷移位置である。第８Ａ図は、母音／ＡＨ／についての典型的な高精度スペクトルを表し、第８Ｂ図は母音／ＯＷ／についてのスペクトルを表わす。第９図は人工ニューラルネットワーク単音同定器の図式的な表現である。第１０Ａ図から第１０Ｃ図は、ある特定の話者による特定の単語サンプルについての高精度スペクトルを便宜的に３つの部分に分けて示したものである。第１１ａ図から第１１ｄ図は人工ニューラルネットワーク単音同定器の出力例を示す。第１２図は音素を話された言語に翻訳するプログラムの論理ダイヤグラムである。第１３Ａ図と第１３Ｂ図は現存するマイクロコンピュータに搭載した本発明装置を示している。第１３Ａ図はコンピュータの側面図であり、第１３Ｂ図はコンピュータの背面図である。発明の記述第１図は、本システムの論理ダイヤグラムである。本システムは、言語セレクタ１、不揮発性メモリに格納された言語モジュール２及び先行プロセスによって与えられる音声信号の変換に際して夫々作用する並列プロセッサ３〜７を含む。各言語モジュール２は、所定の言語について、各時間間隔の間に解かれるべきニューラルネットワークのウェイト８と与えられた語い単語の音素対口語言語翻訳を収集した言語辞書９からなる。始動時において、言語セレクタ１は、格納された言語のメニューを表示し、ユーザはそれから興味のある一つを選択する。本システムは、格納物からこれを検索して、当該言語についてのニューラルネットワークのパラメータとウェイトをニューラルネットワーク単音同定器５に、対応した言語辞書９を、音声ストリング翻訳器７に夫々送る。連続的な音声信号は、従来公知のアナログ・デジタルコンバータ３に入力され、次いでスペクトル解析器４に入力される。この解析器は、後続する信号を処理するアナログ・デジタルコンバータと並列的にデジタル化された信号について動作する。スペクトル解析器４は、以下で詳細に記述されるように、それ自身、並行プロセッサである。スペクトル解析器４の出力はニューラルネットワーク単音同定器５に送られ、当該言語における音素（ｐｈｏｎｅｍｅ），音素の異音（ａｌｌｏｐｈｏｎｅ）、或いは他の正統な音声音が同定される（もしも、音素、音素の異音或いは他の正統な音声音が存在するならば）。この動作は、さらに後続の音声信号を処理するアナログ・デジタルコンバータ３及びスペクトル解析器４と同時並行に行われる。ニューラルネットワーク単音同定器５の出力は音素統合器（ｐｈｏｎｅｍｅｉｎｔｅｇｒａｔｏｒ）６に送られ、当該言語における真の音素、異音及び他の正統な音声音がそれらの間の次から次への移行から分離されることを保証するとともに全ての異音と他の正統音声音を音素に組合せるために、種々のテストが行われる。同様に、音素統合器６は、後に入力されてくる音声信号部分を処理するニューラルネットワーク単音同定器５、スペクトル解析器４及びアナログ・デジタルコンバータ３と同時並列的に、音声信号の該当部分に対して動作する。各音素の集積が完了すると、それは音素列（ストリング）翻訳器７に送られ、そこで、現在の音素列の端部に付加される。音素列内において、所定の最小数の音素が存在すると、音素列翻訳器７は言語辞書９をアクセスし、当該音素列を音声の流れの中で話された単語に解剖される。本システムの各部分が以下に詳細に記述される。アナログ・デジタルコンバータ音声信号は、電話、マイクロホン、或いはテープレコーダの如き音源から入力され、アナログ・デジタルコンバータ３でデジタル化される。好ましい実施態様において、ここに開示された音声認識システムは、入力信号を８ＫＨｚでデジタル化するとともに、０から３８００Ｈｚまでの応答性に対して４０００Ｈｚで約６０ｄｂ低い応答性を有するエイリアス除去ローパスフィルタと協動する。現代の技術に応じて、ローパスフィルタはデジタル化に先立って入力信号について動作するアナログ対応のものでも、アナログ信号のデジタル化の後に作用するデジタルフィルタであってもよい。ローパスフィルタの出力はスペクトル解析器４に入力される。スペクトル解析器スペクトル解析器を記述するに先立って、解析されるべき信号の性質を考察することは重要である。ファント（Ｆａｎｔ）はその著書「音声生成の音響理論（ＡｃｏｕｓｔｉｃＴｈｅｏｒｙｏｆｓｐｅｅｃｈＰｒｏｄｕｃｔｉｏｎ）」［グンナアファント；モートン・アンド・カンパニイ（ＭｏｕｔｏｎａｎｄＣｏｍｐａｎｙ）；ハーグ、オランダ；１９６０］において、発生された音声音のスペクトルを、第２Ａ図乃至第２Ｃ図に図示されるようなソーススペクトルと有声音透過フィルタ機能の積として記述した。ソーススペクトルは、基本周波数とオクターブにつき６ｄｂ振幅が減少する調和周波数を生成する振動有声コード（ｖｉｂｒａｔｉｎｇｖｏｃａｌｃｏｒｄ）の結果である。基本周波数は、バス声（ｂａｓｓｖｏｉｃｅ）の男性の低い６０Ｈｚから子供の約４００Ｈｚまでの範囲に分布する。“フィルタ機能”は、声の拡がりを整形することから得られ特定の音声音を生成する。ある音声音を記述するのに線形予測符号化法を用いる従来技術では、研究の対象はフィルタ機能であった。しかしながら、耳は発せられた音声音の全体を受入れるのであって、フィルタ機能の結果を聞くのではない。線形予測符号化法は、音声信号を歪ませるとともにそれが有する情報のいくつかを切り捨てる。本発明は、音声音を同定するために人工ニューラルネットワークを採用する、それ故、人間の聴音プロセスを模倣することによって信号情報をできるだけ多く保持することができる点で有利であると考えられる。例えば、アレン等（Ａｌｌｅｎｅｔａｌ）に与えられた特許第４，９０５，２８５号（人間神経応答モデルに基づいた解析構造）やライオン（Ｌｙｏｎ）に与えられた特許第４，４３６，８４４号（聴覚応答情報をシミュレートする方法と装置）のように、従来において、多くのアプローチが音声音に対する人間の反応をシミュレートするのに利用されてきた。従来技術のこれらいずれかの例においても、狙いは蝸牛殻の出力をシミュレートすることであった。本発明は、単に蝸牛殻の出力をシミュレートするだけのものではなく、音声音を脳で受信されるものとして音声信号を表現するという問題に着目する。この目的のため、聴覚テストで決定されるような人間の聴覚の周波数判別能力と周波数応答性の両方を備えた擬似ヘア細胞（ｐｓｅｕｄｏ−ｈａｉｒｃｅｌｌｓ）の構造を備えることが必要となる。周波数識別の一組のテスト結果がフィリップ・ホイットフィールド（ｐｈｉｌｉｐｗｈｉｔｆｉｅｌｄ）・ディ・エム・ストッダード（Ｄ．Ｍ．Ｓｔｏｄｄａｒｄ）の著作「聴覚、味覚及び嗅覚（Ｈｅｅａｒｉｎｇ，ＴａｓｔｅａｎｄＳｍｅｌｌ）（トースター・ブックス；ニューヨーク；１９８５）」からの引用として第３図に示されている。第３図は、接近した２つの音質を識別する人間の能力は、信号の「振幅と周波数の両方に依存することを示している、より高い周波数の音質は、識別のためには、間隔がより大きくなければならず、より大きい振幅のものは、小さい振幅のものより良好に識別することができる。人間の聴覚に匹敵する音声信号の発生スペクトルの表現を得るため、本発明の好ましい実施例では、第３図の１０ｄｂの音レベル曲線（上側）にしたがって、５８から３８００Ｈｚに亘って離間された複数の極狭バンドパスフィルタを採用している。きわめて良好な聴覚を有する人は、この信号レベルでも良好な音声近く作用を有する。このことは、最低周波数において最初約４Ｈｚ隔間し、最高周波数域において相隣るフィルタ間で約２４Ｈｚまで増加する４２０個のフィルタのセットを必要とする。このような多数のフィルタは、リアルタイム演算への電子計算機の挑戦であるが、同じ周波数領域での蝸牛殻モデルの約１０，０００〜１２，０００個のヘアセルに比較すれば比較的少ないことは注目されるべきである。第４図は、フィルタ構造の１００Ｈｚ付近の部分の図形表現である。第４図からは、約４Ｈｚのフィルタ間隔故に、この周波数領域でのある信号の真の周波数は報告された周波数の約２Ｈｚの範囲にあることが理解される。より良い周波数分解能は、第３図のより大きい音域レベルの周波数識別を用いること等、使用するフィルタの数を増加させることによって得られるであろうことが理解される。また、満足できる単音認識は、幾分低い周波数分解能、即ち、フィルタ間をより大きく離間させることによっても達成できることにも注目すべきである。バンドパスフィルタの各々の出力は、各サンプルについて演算される。８ＫＨｚのサンプリングレートにおいては、サンプル間の間隔は、０．１２５ｍｓである。並列配置の現代デジタル信号処理チップは、リアルタイム処理に必要な処理能力を与えることができる。例えば、ローラル・スペイス・インフォメーション・システムズ（ＬｏｒａｌＳｐａｃｅＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ）は、２つのプラグ−イン基板上に配置した５個のＣ−プログラマブル・テキサス・インストルメントＴＭＳ３２０Ｃ３０ＤＳＰチップ［ブレインメーカ・プロフェッショナル・アクセレレータ（ＢｒａｉｎＭａｋｅｒＰｒｏｆｅｓｓｉｏｎａｌＡｃｃｅｌｅｒａｔｏｒ）としてカリフォルニア・サイエンティフィック・ソフトウエア社により販売されている］を開発し、リアルタイムで数百個のフィルタを解くのに適した計算速度を実現した。さらに、よりコンパクトな集積回路をこの目的のため特にデザインすることができる。各周波数バンドの最大絶対振幅は短い時間間隔の間で決定される。その間隔の長さは、音声パターンに従ったダイナミックスを表現する場合における正確さのための短さと低周波数域における振幅を正確に反映させるための長さとの間のバランスである。１ＫＨｚの音調の一つの波の全長の時間は１ｍｓである。５００Ｈｚの音調の一つの波の全長の時間は２ｍｓであり、２５０Ｈｚのそれは４ｍｓである。しかしながら、典型的な男性の音調である１５０Ｈｚの半波も４ｍｓであり、全波中で得られる最大値を含むであろう。本発明の好ましい実施例では、４ｍｓの一定期間が、各周波数帯域の振幅の最大絶対値を評価するのに採用される。より長い期間を用いることができるが、より低い周波数の存在は明白性にさほど寄与しないようである。同様に、より短い期間をより高い周波数に使用することができ、それによってこれら周波数について時間領域においてより高い正確性を達成することができる。より複雑な方法がある音声解析の用途には許容されるかも知れないが、本実施例ではコスト対効果上採用しなかった。スペクトル解析フィルタ構造の出力は、音声の拡がりを捨てた音声信号の表現である。しかしながら、人間の聴覚は、平坦な周波数応答性を有するものでないことは良く知られている。音声スペクトルのうち低周波数に対しては、高周波数に比して相当に鈍感である。第５図は、等しい音の大きさとして聞こえるのに必要な相対音階強度を図示している。第５図の音の大きさのレベル（フォン）１０の曲線を参照すると、１００Ｈｚの信号では１０００Ｈｚの信号と同じ音の大きさとして聞こえるためには、約３０ｄｂ大きい音圧の信号が必要となる。本発明は、耳の周波数応答性を補償するため、フィルタバンク（ｆｉｌｔｅｒｂａｎｋ）の出力を修正する。本実施例において、バンドパスフィルタの出力の各々には、スペクトル解析器４内で第５図の音の大きさレベル（フォン）１０の曲線の逆数が掛け合わされる。これにより、高周波の振幅は低周波の振幅に比して増大される。先に述べたように、このことはオクターブ当たり６ｄｂで傾斜する音調調和周波数の振幅現象を幾分補償する効果を奏する。ニューラルネットワーク単音同定器ニューラルネットワーク単音同定器５は、スペクトル解析器４の出力を受信し、音の流れを形成する音声音や単音を同定するように訓練された人工ニューラルネットワークである主プロセッサにこれを入力する。人工ニューラルネットワークは、以下に詳述する方法によって、音素のみならず、“ム（Ｍ）”や“ン（Ｎ）”のような鼻音に先立って生ずる囁き音（ｍｕｒｍｕｒ）の如き音や音素の異音（ａｌｌｐｈｏｎｅ）（もしくは変形）、例えば音声学の分野の当業者にとってよく知られているような音節の最初の“ジィー（Ｚ）”の音響スペクトルが静になる前の“ズ（Ｚ）”の音響スペクトルとは異なるといったように、を含むある言語の全ての正統音声音を認識できるように訓練されている。アメリカ英語では僅か４０か４５の音素があるに過ぎないということが一般に考えられているが、上で述べたようにこの言語において異なる音は１００を越える。このような全ての正統音声音を指称するのに単音（ｐｈｏｎｅ）なる用語が用いられる。本発明は、単音のファジィ集合（ｆｕｚｚｙｓｅｔ）なる概念を用いる。この概念においては、音声の間の各音は、全てのファジィ単音集合における確率的なメンバーシップを有する。しかしながら、ある与えられた集合における特定の音の確率が十分に高く、他のいずれの集合における確率が十分に低いときにのみ、システムによって与えられた単音集合に属するとのラベル付けが行われる。この概念と従来技術に用いられている他の概念との間の差異は第６Ａ図乃至第６Ｃ図に図示されている。第６Ａ図において、ある音声の流れの全ての単音（もしくは音素）は隣接している。即ち一つの単音（もしくは音素）が終わるところで、次の一つが始まると考えられている。さらに、流れの中の全ての音は、ある単音（もしくは音素）の一部である。第６Ｂ図において、音は単音（又は音素）の一部であるか、一つの短音（又は音素）から次のものへの移行期間に起こり得る。しかしながら、短音（又は音素）の発生は、不連続な事象であり；音は単音（又は音素）であるかないかのいずれかである。即ち、確率は０か１のいずれかである。第６Ｃ図は、音声の流れにおける音は複数の短音ファジィ集合の確率メンバーシップを有する。このことは、発声構造（ｖｏｃａｌｔｒａｃｔ）は所望の音を生成するため常に再整形される形状可変の機械装置であるという事実からくる。各単音について発声構造の唯一の目標位置がある。音声の間、音は発声構造が連続した位置で再形成されるにしたがって連続的に生成される。第７Ａ図〜第７Ｅ図は、単語“カウ（ｃａｗ）”の発音中の発声構造の変化を示す図である。第７Ａ図は音素／Ｋ／の推定目標位置であり、第７Ｅ図は音素／ＡＯ／についての推定目標位置である（音声学講議“ＡｃｏｕｒｓｅｉｎＰｈｏｎｅｔｉｃｓ；ピーター・ラデフォーグト著“ＰｅｔｅｒＬａｄｅｆｏｇｅｄ”；ハーコート・ブレイス・ジョバノヴィッチ・カレッジ出版“ＨａｒｃｏｕｒｔＢｒａｃｅＪｏｖａｎｏｖｉｃｈＣｏｌｌｅｇｅＰｕｂｌｉｓｈｅｒｓ”；フォート・ワース、テキサス；１９９３）。第７Ｂ図及至第７Ｄ図は、上記２つの目標位置の間の遷移期間であると考えられる発声構造の推定位置である。発声構造の形は、／Ｋ／についての目標位置から離れるにしたがって、生成される音は／Ｋ／の音とは段々似なくなることが明らかである。同様に、形状が／ＡＯ／の形状に近付くにしたがって、生成される音は、／ＡＯ／のそれに増々似てくる。２つの目標位置の間では、音は２つの目標音素に対して変化しながらも類似性を有しており、実際他の単音に対してもある種の類似性を有する。人工ニューラルネットワークは、ある単音が４ｍｓの各期間毎に発声する音によって表現される場合に、以下に詳述する方法によって同定すべく訓練されている。スペクトル入力に適用されたネットワークウェイトを表わすマトリクスを解くこと及び音が単音の各々を表わす確率を演算することによって人工ニューラルネットワークはこのことを実行する。単音の一つについての確率が、特定の閾値を越えるとともに、他のすべての単音に対する確率が、１から閾値を引いた値より小さい場合には、その期間の信号は閾値をこえたその単音として同定される。本発明の一実施例では、カリフォルニア・サイエンティフィック・ソフトウェア社製作のブレインメイカー・プロフェッショナル・ニューラルネットワークが、ネットワークの訓練と解法の両方に使用される。ニューラルネットワークを解く、例えば、本発明をハードウェアとして実行する他のデザインの結果として得られ特別仕様のニューラルチップの如き他のメカニズムも利用することができる。人工ニューラルネットワークは、パターン認識や相関判定等の種々の分野に成功裡に応用されている。人工ニューラルネットワークを形成し、訓練し解く方法は、当業者によく知られている。単音認識に有効に応用するためには、任意の話者の音声音を認識するのに必要かつ十分な情報を与える方法が必要となる。正確な認識のためには、２つの条件が満足されなければならない。第１に、人工ニューラルネットワークに提供される音声信号の記述（訓練用及び認識用）は、比較的込み合った音声バンド内で単音間を識別することができる十分に高い分解能のものでなければならない。そして、第２に、ネットワークは訓練に供される音声パターンが全人口の音声パターンを表わすものであることを保証するため十分な数と広がりをもった話者の音声例で事前に訓練されていなければならない。スペクトル解析器４は、人間の聴覚と同様の分解能と感度を与えるように設計されているので、第１の条件を満足する。第２の条件に関しては、この発明を実行に移すためのニューラルネットワーク単音同定器５を訓練する過程において得られた経験則は、数百の話者による音声例が低い声から高い声をもった男性及び女性の話者及び広範囲の言語学メカニズムを適切に包括することを可能とするために必要となる。必要な話者の数は、ニューラルネットワークの訓練に関連して以下で議論される。第８Ａ図と第８Ｂ図は、訓練のためエイエヌエヌ（ＡＮＮ）に提供された母音“ア（ＡＨ）”（例えばナット／ｎｕｔ／における）と“オウ（ＯＷ）” （例えばノート／ｎｏｔｅ／における）の多数の例のうちのスペクトル例を示す。第８Ａ図と第８Ｂ図から分かるように、ある与えられた単音内において広範囲の変化が認められるのみならず、２つの単音間には相当量の類似性が存在する。人工ニューラルネットワークは、典型的には、ニューロンの入力層、出力層及び１もしくはそれ以上の隠れ層を有する。単音認識ニューラルネットワークの好ましい実施例の模式的ダイヤグラムが第９図に示されている。ニューロンの出力層は、話された言語の単音のうちの各々である。入力層は現在の時間間隔とその一つ前におけるスペクトルデータである。第９図に示すように、第１ニューロンは音声信号入力レベルの測定値を表わす。残りのニューロンは先行する期間と現在の期間における信号スペクトルを記述することによって閉止音の如き複数の単音の急変する動的力学を補足する２組の入力データである。２つの期間の分離はスペクトル中における差異を強調することによって選択される。好ましい実施例において、分離は３２ｍｓである。最適な分離は、異なる言語によってさらにある言語においても方言や地域的なアクセントの違いによって異なるであろう。２つの組の各々において、第１ニューロンは当該期間に発生するある周波数の最大振幅を与え、残りのニューロンは、その最大振幅に相対する信号スペクトルを記述する。先に示唆した如く、人工ニューラルネットワークは１つもしくはそれ以上の隠れニューロン層と協働する。人工ニューラルネットワーク構築分野の当業者は最適な隠れ層数やある隠れ層の最適ニューロン数を決定するために依拠できる理論や信頼できる規則が依然用意されていないことを認識している。この分野における標準的な慣行にしたがって、隠れ層におけるニューロン層は、ネットワークが訓練された音声信号の母集団に含まれていない話者の音声信号における単音を正しく同定する正確性に関連する最適挙動を与えるものを異なるニューロン数を持つ種々の隠れ層をテストすることによって経験的に決定される。ニューラルネットワークの訓練ニューラルネットワークの訓練は、できるだけ多くの予想されるユーザ母集団の音声特徴を表わすデータを準備することを含む。音声サンプルは、単語の組の各々において、所望の具体的な単音の各々の１つもしくはそれ以上の例を含む複数の単語の組（集合）を用いて記録される。アメリカ英語における１００余りの単音のためのシステムを訓練する１つの方法は、ニューラルネットワークを夫々約１０個の単音の個々の集合について訓練し、それら集合を徐々に徐々により大きい集合に結合することである。各訓練用集合において集めた声が、実際の応用において出合うと予想される声のピッチ周波数の範囲をカバーする話者を含むことが重要である。例えば、男性の声のみが必要な場合、約６０から約１５０Ｈｚの範囲が適切であり、女性の声のみが必要な場合、約１３０から３５０Ｈｚの範囲が必要とされるであろう。また、子供の音声をも認識しようとする場合、範囲は多分４００Ｈｚ程度の高さまで拡張されるであろう。所望の範囲に亘って声の高さ（ｐｉｔｃｈｖｏｉｃｅｓ）の数について多かれ少なかれ均一な分布をもつことが重要である。開示された発明の好ましい実施例は、声の高さ（ｖｏｉｃｅｐｉｔｃｈｅｓ）の範囲に亘って約４０の周波数バンドを有する。各音声高さについて約５０の異なる話者が母集団表現の高い信頼性を与えることが統計学的に評価されている。システムを訓練するための音声サンプルを収集する場合において、声の高さは男性と女性と（もし含まれるならば子供と）の個別のほぼ標準的な分布においてある周波数の周辺に集中する（ｃｌｕｓｔｅｒ）傾向がある。本発明の原理証明用（ｐｒｏｏｆ−ｏｆ−ｐｒｉｎｃｉｐｌｅ）システムを訓練するための音声サンプルの収集において、上記サンプル母集団について、６０から１００Ｈｚ及び１３０から１５０Ｈｚの夫々の間の男性の声は、これら範囲の間のそれに比して少ないことが見い出された。同様に、１５０から１８０Ｈｚ及び２５０から３５０Ｈｚの範囲の女性の声は、これら範囲の間のそれに比して少ない。切り捨てられるべき過剰な中間周波数ピッチ及びピッチ分布において所望の均一性を達成するため十分な数の高・低音声高さを得るのに必要な更なる工夫を見い出すことが期待される。訓練プロセスの最も重要な部分は、単語サンプルの各単音を表わすのに最良の時間、即ち単音サンプルのファジィ集合にスペクトルが属する確率が最も高くなる時間を選択することである。再び、第６Ａ図〜第６Ｃ図を参照すると、それらの時間は第６Ｃ図に示された３単音からなる単語の曲線の各ピークである。これらの時間を選択する場合に、スペクトル解析器の出力を図形的な形としてみることは極めて有用である。第１０Ａ図〜第１０Ｃ図は、題目ＪＡ９によって発声された単語“ＫＮＯＷ”についての高分解スペクトルグラムである（声のピッチが約１８０Ｈｚであるので、上記題目は多分女性のものであることがこれらの図から観察されるであろう。）。記録の表示された部分の期間は６００ミリ秒であり、図は、表示の便宜上３個の２００ｍｓ部分に分けられている。各表示部分の上縁の各目印は２０ｍｓを表わす。３００ｍｓ付近の単音“Ｎ”の先行する小声と弱い破裂放出（ｐｌｏｓｉｖｅｒｅｌｅａｓｅ）の両方が明瞭である。このようにして、これら単音についての最適の時間の選択は容易となる。母音のような他の単音の最適時間の選択は、それ程明瞭ではない。この題目は、音声サンプルが採用された他の多くのものと同様、発音された単語がＮ：ＡＨ：ＯＷであるので音素“ＡＨ”（ｎｕｔのように）が“Ｎ”と“ＯＷ”との間に挿入されている。かくして、音素“ＯＷ”は、第１０図から（及び音声学者のように、音素／ＡＨ／がしばしば挿入されることに気付いていないならば）予想される約４８０ｍｓ付近には生ぜず、５７６ｍｓ付近に生ずる。単語サンプルＫＮＯＷ．ＪＡ９についてのニューラルネットワーク単音同定器５の代表的な出力が第１１Ａ図〜第１１Ｄ図に示されている。第１１Ａ図〜第１１Ｄ図から分かるように、ある時点（例えば、２００ｍｓ付近）において、第６Ｃ図に関連して議論したように、信号は１より多い単音集合に属する相当な確率をもつ。同様に、Ｎの前の囁き音（ｘＮ）の確率が上昇し、その後、その確率はＮの確率が増加するにしたがって減少することを注目すべきである。次いで、Ｎの確率はＡＨの確率が増加するにしたがって減少し、そして、その後、ＡＨの確率はＯＷの確率が上昇するにしたがって減少する。ある与えられた訓練用集合の数千の単音例について最初に選択された時間は少なくとも複数の単音について、最大確率の時間を表わすものではないであろう。訓練の間、ニューラルネットワークは満足できるパターンを捜す。それ故、訓練後には、訓練済みのニューラルネットワークは、単語サンプル及び単音入力時間とニューラルネットワークによって最高確率時間が見い出されるにしたがって同定される単音入力時間との間の大きな差異に対して応用される。不適合のサンプル時間はその後修正され、訓練が繰り返される。この過程は、相違が許容しうる程度まで十分低いレベルに達するまで繰り返される。更に、システムを訓練した後に新しい題目についてシステムの訓練は、ある話者について低い単音認識確率を招来するかも知れない。そのような話者についてのデータは、効率を改善するためシステムの訓練にさらにフィードバックすることができる。これと同じ技法はシステムを新しい言語について訓練する場合に用いることができる。新しい言語の話者による音声サンプルは、システムが既に満足すべき結果を与えている単音とその言語について特別に訓練される必要がある単音とを同定するために、訓練された現存のネットワークを用いてテストされる。先の言語に共通でない新しい言語の単音は新しい言語の音声サンプルに関して訓練されるべきであることを理解すべきである。音素統合器人工ニューラルネットワークは、各時間間隔においてどの単音（もしあれば）が生じているかを同定する。しかしながら、母音の如き音素は一様の期間である。音素統合器６の１つの機能は、認識を確認するため連続的な所定最小数の同定（ｉｄｅｎｔｉｆｉｃａｔｉｏｎｓ）の要求を課すことによって正統な単音を音声的でない遷移から分離する。開示された発明の好ましい実施例では、母音の認識を確認するため８個の連続的な同定（３２ｍｓの期間に等しい）、準母音（ｓｅｍｉ−ｖｏｗｅｌ）と擦音について３つの連続した同定、閉止音（ｓｔｏｐｓ）と他の破裂音について僅か１つの同定が必要とされている。いま１つの機能は、（十分な期間の）小さい単音（ｍｕｒｍｕｒｐｈｏｎｅ）と放気単音（ｒｅｌｅａｓｅｐｈｏｎｅ）の両方が、認識が確認される以前に発声閉止音の如き音素について存在していることを保証することである。音素統合器の出力は、音声の流れの音素表現である。音素列翻訳器音素列翻訳器７の機能は、音素列で表れた、発声された言語の単語を同定し、分離し表示する（即ちファイルに出力する）。翻訳器の主要な構成要素は、話された音素の言語辞書と音素列を話される言語に於ける単語の綴りに音素列を変換するためにその辞書を使用するコンピュータプログラムである。辞書の重要な特徴は多数の自然語についての多重の音素入力の使用である。このことは、（ａ）異なるアクセントをもった人はしばしばある与えられた単語について異なった発音をする、及び（ｂ）１つの単音からいま一つの単音への遷移は、あるときには第３の単音であるという理由で必要であると考えられる。上記（ａ）の一例は、アメリカの北東部出身者と中西部出身者とでは単語“ｈａｒｂｏｒ”の発音が異なることである。（ｂ）の一例は単語“Ｎｏａｈ”が少なくとも／Ｎ：ＯＷ：ＡＨ／，／Ｎ：ＡＨ：ＯＷ：ＡＨ／及び／Ｎ：ＡＨ：ＯＷ：Ｗ：ＡＨ／の音素綴りを有することが出来るように、“Ｎ”と“ＯＷ”との間のよくある遷移“ＡＨ”と“ＯＷ”と“ＡＨ”との間の“Ｗ”の挿入である。コンピュータープログラム設計は、音素のより長い列の文脈において単語を同時することを基本としており、連続子音発生（ｇｅｍｉｎａｔｉｏｎ）の如き共調発音（ｃｏ−ａｒｔｉｃｕｌａｔｉｏｎ）を具体的に指定し考慮することである。プログラムを説明する前に、従来技術において注目されていなかったしばしば発生する音響的状態をまず同定することが有用である。ある１つの話された単語が、ある与えられた音素、特に閉止音や破裂音において終わり、次の単語が同じ音素で始まる時に、２つの音素は殆ど分離して発音されることはない。単語の分離位置を同定することは、音声認識システムにとって、そのような状態が得られない場合に比してより複雑となる。例えば、“ｂａｄｄｏｇ”の発声は、終わりと始めの“ｄ”の連続子音を括ることなく、適切に分離されることはない。区別されなければ、選択すべき二者は“ｂａｄｏｇ”と“ｂａｄｏｇ”であり、いずれも両方の単語を正しく同定していない。少ない語彙の応用では、そのような事態は用語集に含まれる単語を制限することによって回避できるが、この発明が意図する語彙が制限されない応用においては不可能である。全ての閉止音や破裂音及び破擦音の幾つかを含む連続発声子音（共調発音子音）候補である多くの音素が存在することを注目すべきである。コンピュータプログラムは、可能な連続発声子音発生を想到し得るように設計されている。コンピュータプログラムの論理ダイヤグラムは第１２図に示されている。そのための方法は、遭遇するであろう単一の単語より長い音素列を用いることである。本発明の好ましい実施例は、２０個の音素列長［第１２図のプロシージャ１０においてマックルストリング（ＭａｘＳｔｒｉｎｇ）と呼ばれる］に基づいている。ある発声における最初の２０個の音素（発声が２０個の音素長以下であるときは実際の長さ）は、可能な最長第１単語を発見するためプロシージャ１１において試験される。その単語が連続発声子音候補で終わらない場合、それはプロシージャ１６において出力され、次の音素はプロシージャ１７において新しい開始点となり、２０個音素長がプロシージャ１０において補充され、プロセスが繰り返される。最も長い第１単語がある連続発声子音候補で終わっている場合、プロシージャ１３は、テスト単語の音素の数に等しい音素数までマックスストリングを一時的に拡張し、プロシージャ１４は拡張されたマックスストリングにおいて後続する単語が存在するかを決定する。このことは、連続発声子音の候補に続く音素が先行する単語における最後の音素と一緒に発声されなかったことを示す。後続する単語が存在する場合、プロシージャ１６はテスト単語を出力し、プロシージャ１７において、次の音素が新しい出発点となり、２０個の音素長がプロシージャ１０において補充され、そのプロセスが繰り返される。テスト単語の後に始まる第２の単語がない場合［共調発声（ｃｏ−ａｒｔｉｃｕｌａｔｉｏｎ）が発生していることを示している］、プロシージャ１５は、その点に、共調発声候補音素の複写を挿入する。前と同様に、プロシージャ１６はテスト単語を出力し、プロシージャ１７において、次の音素が新しい出発点となり、２０個の音素長がプロシージャ１０において補給され、このプロセスが繰り返される。このプロシージャの組は音素統合器６によって音素が生成されている限り繰り返される。上記したシステムの基本設計では、ユーザは通常使用に先立って記述されるべき特定の言語を選択するものと想定しているが、レパートリイ内でどの言語が話されているかを自動的に決定し、適当な人工ニューラルネットワークと使用に供する言語辞書を選択するように修正することができる。このことは、真の単語列を生成する言語を同定するための、言語の夫々について、音声の初期の短い部分等、時間にして例えば５〜１０秒の間、処理することによって達成される。システムが真の単語列を同定するための単語が選択され、システムは、上述した如く、その時点から作動する。システムのハードウェア装置ここに開示した方法とシステムは、“スーパーコンピュータ”上で実行されない限り、リアルタイム操作のために同時平行処理を必要とするが、第一義的には、広範囲での使用のため、“パーソナルコンピュータ”や“ワークステーション ”クラスのマシーン上で好ましくは実施される。構成要素幾つかの製造業者の装置は本発明の種々のいくつかについて好適な特性を有しているが、図示の目的のため、第１３Ａ図及び第１３Ｂ図に示された特定の構成を説明する。上述したように、ローラル・スペイス・インフォーメイション・システム（ＬｏｒａｌＳｐａｃｅＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍ）はリアルタイムで数百の狭帯域バンドパスフィルタについて方程式を解く適当な計算速度を与える、２つのプラグインボード１０５と１０６上の計５個のＣ−プログラマブル・テキサス・インストルメント（Ｃ−ｐｒｏｇｒａｍｍａｂｌｅＴｅｘａｓＩｎｓｔｒｕｍｅｎｔ）ＴＭＳ３２０３Ｃ３０ＤＳＰチップの構成を開発した。ボード１０３と１０４の第２のセットは、ニューラルネットワーク方程式を解くのに用いられる。これらボードの２セットは、例えばボード１０８と１０９上に搭載された同じメモリを共有する２つの独立した処理用ボード１１０と１１１の備えを有するコンパック・システムプロ・モデル６６Ｍ（ＣｏｍｐａｑＳｙｓｔｅｍｐｒｏＭｏｄｅｌ６６Ｍ）マイクロコンピュータに装備される。これらプロセッサの１つは音素統合器６の機能を果し、他のものは、言語選択の制御プロセッサと音声対話言語翻訳と文書出力を与えるという両方の機能を果す。メディア・ビジョン・プロ・オーディオ・スペクトル１６（ＭｅｄｉａＶｉｓｉｏｎＰｒｏＡｕｄｉｏＳｐｅｃｔｒｕｍ１６）の如き他のプラグ−イン型ボード１０７はアナログ・デジタル変換機機能を与えることができ、それに付属するソフトウェアは、波形表示と、言語訓練とテストのための音声サンプルを集めるための編集を支援することができる。システムプロ（ＳｙｓｔｅｍＰｒｏ）コンピュータは、利用できる２つの空のスロットを持っている。

Claims

【特許請求の範囲】１．以下の構成を備える多言語音声認識システム：音声音をデジタル情報に変換するアナログ・デジタル・コンバータ；上記デジタル情報を受信し、人間の聴覚の周波数判別力を周波数応答性をもって、上記音声音のスペクトルを決定する解析器と；上記スペクトル解析器からのスペクトルを受信する単音同定器、該単音同定器は、上記スペクトルの特定の時間間隔内において発声する単音を同定するネットワークを備え、該ネットワークは所定の言語の単音を認識することができる；認識結果を確認するため同定された単音の所定の最小数の連続した同定を検出することによって、上記単音同定器によって同定された非音声遷移から単音を分離する音素統合器、該音素統合器は、上記スペクトルから同定された単音を表す音素列を出力として与える；及び上記音素列によって表される人間言語の単語を同定し、分離し、表示し、もしくはファイルに格納する音素列翻訳器と、該音素列翻訳器は音素として話される言語の辞書と上記音素列を話される言語の文書に変換するため該辞書を用いるプログラムを備える。２．上記ネットワークは、複数の与えられた人間言語のいずれか１つの単音を認識するため予め訓練されている請求項１のシステム。３．上記システムは、単語の複数の発音に適応する請求項１のシステム。４．上記システムは、任意の話者の連続的な会話音声を記号化する請求項１のシステム。５．上記ネットワークは、ある単音の目標位置での声の拡がり形状に最も近い上記スペクトル内の時間クレームを同定する請求項１のシステム。６．上記システムは、会話音声において生ずる連続発声子音等の共発声音事象を指定して考慮する請求項１のシステム。７．以下のステップを有する多言語音声認識方法：アナログの音声音入力を受信して該入力をデジタル出力に変換する；上記デジタル出力を受信し、人間の聴覚の周波数識別性と応答性をもって、上記音声音のスペクトルを決定する；上記スペクトルを受信し、該スペクトルを所定の言語の単音を認識するためのネットワークの情報と比較することによって、上記スペクトルの特定の時間間隔中に生ずる単音を同定する；認識を確認するため同定された単音の所定の最小数の連続的な同定を検出することによって上記比較により同定される非音声遷移から単音を分離するとともに、上記放出されたスペクトルから同定単音を表す音素列を出力として与える；及び音声で話される言語の辞書と上記音素列を話される言語の文書に変換するために上記辞書を使用するプログラムを備えた音素列翻訳手段を使用することによって上記音素列によって表された人間言語の単語を同定し、分離し、表示するかファイルに格納する。８．上記ネットワークは、複数の与えられた人間言語のいずれか１つの単音を認識するため予め訓練されている請求項７の方法。９．当該方法に付加的な言語能力を加える際には、種々の人間言語に存在する共通の単音を有効に使用する請求項７の方法。１０．上記システムは、単語の複数の発音に適応する請求項７の方法。１１．上記システムは、任意の話者の連続的な会話音声を記号化する請求項７の方法。１２．上記ネットワークは、ある単音の目標位置での声の拡がり形状に最も近い上記スペクトル内の時間クレームを同定する請求項７の方法。１３．上記システムは、会話音声において生ずる連続発声子音等の共発声音事象を指定して考慮する請求項７の方法。１４．以下の構成を有する多言語音声認識システム：ある特定の言語の可聴音声信号を受信するとともにそれらを対応する電気信号に変換する手段；上記信号の対象とする所定の最大周波数の少なくとも２倍の割合で上記信号をサンプリングするためのアナログデジタルコンバータ；上記アナログデジタルコンバータからのサンプル集合を１ミリ秒から８ミリ秒の間の時間間隔にわたって受け入れるとともに、人間の周波数識別と感度応答性をシミュレートして各サンプル集合のスペクトルの内容の解析を与えるスペクトル解析器；サンプル集合の各々が、上記話される言語に属する単音の所定の集合の１つの可聴スペクトルを確かに表すかを同定するための人工ニューラルネットワーク；該単音の存在と認識を確認するため、連続する上記サンプル集合の十分な所定の最小数の確率的同定を統合する統合器と、上記単音を話される言語の音素に統合するための手段と、上記音素のシーケンスを話される言語の単語に翻訳する翻訳器と、該翻訳器は第３の正統音声音である２つの正統音声音間の遷移を解釈するとともに、音声音が共調発音されたときに発音されなかった音声音を近傍の音声音で同定する、および翻訳された単語に対応する文書を表示し、印刷および／または格納する手段。