JPH09500223A - 多言語音声認識システム - Google Patents

多言語音声認識システム

Info

Publication number
JPH09500223A
JPH09500223A JP7504646A JP50464695A JPH09500223A JP H09500223 A JPH09500223 A JP H09500223A JP 7504646 A JP7504646 A JP 7504646A JP 50464695 A JP50464695 A JP 50464695A JP H09500223 A JPH09500223 A JP H09500223A
Authority
JP
Japan
Prior art keywords
phoneme
spectrum
speech
language
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7504646A
Other languages
English (en)
Inventor
ボルドー、テオドール・オースチン
Original Assignee
ボルドー、テオドール・オースチン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ボルドー、テオドール・オースチン filed Critical ボルドー、テオドール・オースチン
Publication of JPH09500223A publication Critical patent/JPH09500223A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

(57)【要約】 音声入力はデジタルデータに変換され、スペクトル解析される。スペクトルは格納されたウェイトを用いて構築された標準ニューラルネットワークを用いて単音を同定するために解析される。単音はさらに音素を同定するために結合される。そして、音素は格納された言語辞書に基づいて異なる言語に翻訳され、文書出力に変換される。

Description

【発明の詳細な説明】 多言語音声認識システム発明の分野 本発明は、音声認識システム及び方法に関する。背景 従来の技術としては、音声を文字に変換するための多くのシステムや方法が含 まれる。それらの間の主要な相違の一つは、それらが達成せんとしている音声認 識の困難さのレベルである。最も簡単なものは、分離して話され、音響的に異な る少数の言葉(単語)(多くの場合、離散音声と呼ばれる)の認識である。ドッ ディントン(Doddington)等に与えられた米国特許第4,910,7 84号(「低コスト音声認識システム及び方法」)は、このクラスのシステムの 従来技術の一例である。この種のシステムは、例えば、コンピュータを操作する ための少数の命令語のセットを与えるには有用であるが、連続した音声を取扱う ことはできない。より困難な課題は、一連の言葉の流れ内に含まれる一つ又はそ れ以上の指定された単語の認識すなわち“単語発見”である。ボッセメイヤー( Bossemeyer)ジュニアに与えられた米国特許第4,937,870は 、この種のクラスのシステムの従来技術の一例である。この種のシステムは、例 えば、電話への応用において、“クレジットカード”、“集める(collec t)”、“第三者”等の話中のキーワードやキーフレーズ(phrases)を 同定するのに用いることができるであろうが、連続音声を文字に変えることはで きない。さらにより困難な課題は、単語が区切って話され、かつ、その文章の文 法構造が予め決められている一文における全ての単語の認識である。フィッシャ ー(Fisher)等に与えられた米国特許第4,882,757号(「音声認 識システム」)は、この種のクラスのシステムの従来技術の一例である。この種 のシステムは、話者がこの種のシステムの必要性を招来するように不自然な話し 方を受 け入れようとするような場合に有用であろう。さらにより困難な音声認識の課題 は、単語が連結され(通常連続音声と呼ばれる。)、その文章の文法構造は予め 与えられており、使用できる単語(lexicon)が制約されている場合にお いて、完全な一文中のすべての単語の認識である。ガーソン(Gerson)に 与えられた米国特許第5,040,127号(「連続音声認識システム」)は、 この種のクラスのシステムの従来技術の一例である。この種のシステムは、使用 者がシステムで用いられる語いと文法上の制約を知っており、したがって、彼も しくは彼女の話法パターンを修正することができるような課題が特化された応用 に有用であろう。最も困難な課題は、構造を持たず、形式上文法に適合していな い連続で我流の話の中の全ての単語の認識である。ボーディア(Bordeau x)に与えられた米国特許第4,852,170号(「リアルタイム・コンピュ ータ音声認識システム」)は、この種のクラスのシステムの従来技術の一例であ る。 音声認識システム及び方法は、話者依存性(speaker depende nt)であるか、即ち、装置の話者による使用に先立って、特定の話者によって 訓練されなければならないか、或いは話者独立性(speaker indep endent)であるか、即ち、装置を使用するに先立って特定の話者がその装 置を訓練する必要がないかに応じて分類される。話者依存性タイプの変形として 、装置の訓練をより容易かつ高速に行うことを目的とする話者適合システム(s peaker adaptive system)がある。話者独立性システム は、話者依存性タイプより達成が困難であるが、多くの場合、より大きい有用性 を有する。以下に記述する本システムは、話者独立性である。 音声認識システム及び方法は、同定されるべき最低の音声ユニットについてさ らに分類される。各システムは、入力されてくる音声信号と比較される最低音声 ユニットの各々が、同定のため最良に整合しているかを捜すための参照スペクト ルパターンのセットを備えている。そのようなユニットの最大のものは、単語全 体(もしくは小さな単語の群)である。この音声レベルにおいて相当な正確性で もって作動するシステムは、一般的にいって、少ない語いでの離散音声の用途に 限られる。単語に組立てるために音素(phonemes)を同定することを目 的とする方法は、話者依存性と話者独立性/離散型と連続型音声システムのクラ スを横断する従来技術と見倣される。信頼性を与えるうえでの困難さは、そのよ うなシステムにおいて、より多くの語いが、したがってより多くの類似の発音を 有する単語が導入され、多数の話者が同一単語について異なった発音をするのに 従って増大する。単音(phone)[即ち、音声の従音声ユニット(sub− phoneme units of speech)]の同定方法は、音声信号 のより多くのより短いセグメントを同定することによってより改善された信頼性 を達成することを目的としている。ここに記述される本発明システムは、単音( phone)を正確に同定する方法を含む。 音声認識システム及び方法は、音声プロセスのモデル化法によっても分類され る。ある方法では、音声プロセスを一連の音響事象として記述する。このモデル は最初音素認識に用いられた。このモデルにおいて、音声信号は、最初、/イイ (IY)/,/オウ(OW)/等の母音、/フ(F)/,/ス(s)/等の擦音 、/ド(D)/,/ツ(T)/等の閉鎖音等の音素クラスの事象に区分される。 その後、クラス内の具体的な音素が同定される。第2のモデルは、音声プロセス を直接に解析することはできないが、統計的手法において有効に解析できるとす る立場をとる。隠れマルコフモデル(Hidden Markov Model )は、音声プロセスについて上記の立場をとった一例である。このモデルでは、 音声信号のセグメントは確率的な系の状態とある状態からいずれか他の状態への 遷移として捉えられる。各音素又は単音は、状態変化のシーケンスとして記述さ れる。入力される音声信号のスペクトル状態間の遷移の確率は、確からしい音素 又は単音の同定のための目標シーケンスの各々に対して確からしい対応性を決定 するために計算される。多数語いの話者独立型システムにおいては、スペクトル 状態の数に比して可能なスペクトル状態の数がはるかに多いので、この方法で高 信頼度を達成することは困難である。第3のモデルでは、音声信号をスペクトル パターンのシーケンス則ち直接的に観測可能な信号の表現と見倣す。後に詳細に 説明するように、このモデルは、本発明において採用されているモデルである。 全ての音声認識法は、未知の音声信号の特徴を参照事例セットと比較し、良好 な整合が得られるか否かを決定する(同定)。したがって、音声認識システムと 方法を分類するいま一つの方法は、単語、音素又は単音を同定するため、未知の 音声信号が比較されるべき参照データをいかに与えるかに基づいている。“規則 が与えられた”システムでは、システム設計者が、最良の整合を決定するのに用 いる参照データを装置に直接に与える。設計者は、テンプレートの形状を与える か、隠れマルコフモデルにおけるように、状態遷移確率を計算する。話者独立系 の応用は、話者の声の広い変化に対応すべくきわめて多いスペクトル状態を必要 とする。類似のスペクトル状態は、統合することができるが、標本的な精度の低 下したがって同定の信頼度の低下を招く。“規則が学習されるシステム(例えば 人工ニューラルネットワーク)”においては、設計者は、興味のある各単音のス ペクトルの膨大な事例とそれらの同定事例を与える。システムは、訓練モードで 駆動され、ニューラルネットワークは、一つの単音を他の全てから識別する方法 を“学習”する。実行モードで駆動されると、ニューラルネットワークは、遭遇 した信号のセグメントが確からしい単音の各々である確率を決定する。特定の確 率閾値判定基準が満たされたときに選択がなされる。この方法は本発明において 用いられる方法である。話者独立系の応用におけるこのアプローチの重要な利点 は、その信頼度がそれを使用する話者数に応じて改善されることである。 音声認識システムの最後の分類方法は、あるとすれば、採用された単語同定に 対する援助に関係する。“文脈非拘束(context−free)”構造にお いては、単音又は音素列が用語集もしくは辞典の見出しと比較され、各単語を直 接的に同定する。“文脈支援”構造においては、許される単語対、制約された文 法及び/又は統辞法(Syntax)等の手段が、単語同定の信頼性を向上する ために用いられる。本発明は、文脈非拘束系である。 これまで従来技術として述べてきた音声認識方法の大部分は、他の言語用に修 正することができる。しかしながら、単語同定を支援するための許される語順、 文法及び/又は統辞法等の解析手段に依存するこれらの方法は、言語変換遂行の ため個別のしかも重複的な努力が要求される。世界的な通信と交易の時代にあっ ては、従来技術において未だかつて指向されたことのない言語独立システムの必 要がある。そのようなシステムの設計と実行には異なる言語において使用される 音声の重複を活用すべきである。言語間における共通音声の活用は、従来技術の 場合に比して、より詳細な音声生成とその結果としての音声信号についての理解 が必要となるであろう。発明の要約 従来技術は、単音を認識する模擬的人間能力という能力を具備する装置の構築 を示唆することはなかった。ここで“単音(phone)”とは、“ある言語の 音声系における場所に無関係な物理事象として考えられる音声”をいう[ウェブ スター第9版新大学生用辞典(Webster’s Ninth New Co llegiate Dictionary);発行者メリリアム−ウェブスター ・インク、(Merriam−Webster Inc.)、スプリングフィー ルド、マサチューセッツ、1991]。“人間の言語は、単音とか音声と呼ばれ る音の広範囲の多様性を示している。きわめて多数の音声があるがその数は無限 大ではない。…可能な音声音のクラスは、有限であるだけでなく、人類共通であ る。全てのセットの一部は、人間の言語の財産目録(inventory)にお いて発見されるであろう”[現代言語学:序論、ウィリアム・オグラティ(Wi lliam O’Grady),マイケル・ドブロボルスキイ(Michael Dobrovolsky)、マーク・アロオノフ(Mark Aronoff );セント・マーチン・プレス(St.Martin’s Press);ニュ ーヨーク;1989]。 私の発明の一つの目的は、人間の複数の言語における音声(又は単音)の全て のセットを認識するシステム及び方法を提供することである。 私の発明の他の一つの目的は、多数の言語の内の1つにおける任意の話者の話 、話が連続的であり、会話的である場合を含む、を記述するシステムと方法を提 供することである。 本発明のさらにいま一つの目的は、音声信号を処理してその信号に含まれる全 ての周波数と振幅を正確に決定することができるシステムと方法を提供すること である。 本発明のさらなる目的は、ごく僅かな時間間隔で知覚された音声信号のユニー クな直接観察のためのシステムと方法を提供するために人間の聞取り過程を見習 うことである。 本発明のさらに他の一つの目的は、ある言語における単音をファジィセット即 ち全ての単音セットにおける確率メンバーシップを有する全ての音声信号として 取り扱うことである。 本発明のさらなる目的は、ごく短い期間の間に表された確からしい単音を決定 する人工ニューラルネットワークシステムと方法を提供することである。 本発明のさらなる目的は、発声構造の形状(vocal tract con figuration)の目標位置への最も接近したアプローチを表す単音発生 の間の時間、即ち意図した単音を表す信号の最大尤度が得られた時を同定するた めの人工ニューラルネットワークを採用するユニークな方法を提供することであ る。 本発明の他の一つの目的は、同じ単語について複数の発音に対応する方法を提 供することである。 本発明のいま一つの目的は、同時調音により会話中にしばしば一緒に発生する 単語を分離する方法を提供することである。 本発明のいま一つの目的は、他の言語の組み込みが組み込まれる言語の数とと もに減少する新言語導入時間で効率的に行えるように、言語間における単音の共 通使用を活用する方法を提供することである。 言語間の音の共用の活用は、より詳細な音声生成表現の応用、音声信号の結果 的なコード化及び従来技術の場合に比して優れた音声認識を可能とするようにそ の信号を解読する聞き取りとパターン認識の神経細胞のメカニズムのエミュレー ション(emulation)を必要とする。本発明は、人間の音声認識におい て起きる並行処理、即ち、スペクトル分析、音声音同定および単語認識をエミュ レートする。人間の聴覚の周波数の応答性と感度が模倣され、人工ニューラルネ ッ トワークが、脳のパターン認識装置を表わすために導入され、論理処理が話者の 文字単語への翻訳をエミュレートするために導入される。 本発明のこれら及び他の目的及び特徴は、図面を参照した以下の説明を考慮す ることによってよりよく理解されるであろう: 第1図は、本システムの論理ダイヤグラムである。 第2A図−第2C図は、発声された音の簡単化したソースフィルター分解を示 す図である。第2A図は典型的なソーススペクトル、第2B図は代表的な音声伝 送フィルタ機能、第2C図は発音された母音のスペクトルである。 第3図はある音調の周波数識別対周波数・声の大きさのグラフである。 第4図は狭帯域バンドパスフィルタの周波数に対する相対応答性を示す。 第5図は同じ聴音の大きさを生成するのに必要な種々の周波数の強度との関係 で人間の聴覚(hearing)の周波数応答性を示す。 第6A図から第6C図は、音声セグメンテーションの3つの異なる考え方を図 示している。 第7A図から第7E図は、単語“caw”の発音の間における推定発声位置を 示す。第7A図は音素/K/の発声位置で、第7E図は/AO/の位置であり、 第7B図、第7C図及び第7D図はそれら2つの間の推定遷移位置である。 第8A図は、母音/AH/についての典型的な高精度スペクトルを表し、第8 B図は母音/OW/についてのスペクトルを表わす。 第9図は人工ニューラルネットワーク単音同定器の図式的な表現である。 第10A図から第10C図は、ある特定の話者による特定の単語サンプルにつ いての高精度スペクトルを便宜的に3つの部分に分けて示したものである。 第11a図から第11d図は人工ニューラルネットワーク単音同定器の出力例 を示す。 第12図は音素を話された言語に翻訳するプログラムの論理ダイヤグラムであ る。 第13A図と第13B図は現存するマイクロコンピュータに搭載した本発明装 置を示している。第13A図はコンピュータの側面図であり、第13B図はコン ピュータの背面図である。発明の記述 第1図は、本システムの論理ダイヤグラムである。本システムは、言語セレク タ1、不揮発性メモリに格納された言語モジュール2及び先行プロセスによって 与えられる音声信号の変換に際して夫々作用する並列プロセッサ3〜7を含む。 各言語モジュール2は、所定の言語について、各時間間隔の間に解かれるべきニ ューラルネットワークのウェイト8と与えられた語い単語の音素対口語言語翻訳 を収集した言語辞書9からなる。始動時において、言語セレクタ1は、格納され た言語のメニューを表示し、ユーザはそれから興味のある一つを選択する。本シ ステムは、格納物からこれを検索して、当該言語についてのニューラルネットワ ークのパラメータとウェイトをニューラルネットワーク単音同定器5に、対応し た言語辞書9を、音声ストリング翻訳器7に夫々送る。 連続的な音声信号は、従来公知のアナログ・デジタルコンバータ3に入力され 、次いでスペクトル解析器4に入力される。この解析器は、後続する信号を処理 するアナログ・デジタルコンバータと並列的にデジタル化された信号について動 作する。スペクトル解析器4は、以下で詳細に記述されるように、それ自身、並 行プロセッサである。スペクトル解析器4の出力はニューラルネットワーク単音 同定器5に送られ、当該言語における音素(phoneme),音素の異音(a llophone)、或いは他の正統な音声音が同定される(もしも、音素、音 素の異音或いは他の正統な音声音が存在するならば)。この動作は、さらに後続 の音声信号を処理するアナログ・デジタルコンバータ3及びスペクトル解析器4 と同時並行に行われる。ニューラルネットワーク単音同定器5の出力は音素統合 器(phoneme integrator)6に送られ、当該言語における真 の音素、異音及び他の正統な音声音がそれらの間の次から次への移行から分離さ れることを保証するとともに全ての異音と他の正統音声音を音素に組合せるため に、種々のテストが行われる。同様に、音素統合器6は、後に入力されてくる音 声信号部分を処理するニューラルネットワーク単音同定器5、スペクトル解析器 4及 びアナログ・デジタルコンバータ3と同時並列的に、音声信号の該当部分に対し て動作する。各音素の集積が完了すると、それは音素列(ストリング)翻訳器7 に送られ、そこで、現在の音素列の端部に付加される。音素列内において、所定 の最小数の音素が存在すると、音素列翻訳器7は言語辞書9をアクセスし、当該 音素列を音声の流れの中で話された単語に解剖される。本システムの各部分が以 下に詳細に記述される。アナログ・デジタルコンバータ 音声信号は、電話、マイクロホン、或いはテープレコーダの如き音源から入力 され、アナログ・デジタルコンバータ3でデジタル化される。好ましい実施態様 において、ここに開示された音声認識システムは、入力信号を8KHzでデジタ ル化するとともに、0から3800Hzまでの応答性に対して4000Hzで約 60db低い応答性を有するエイリアス除去ローパスフィルタと協動する。現代 の技術に応じて、ローパスフィルタはデジタル化に先立って入力信号について動 作するアナログ対応のものでも、アナログ信号のデジタル化の後に作用するデジ タルフィルタであってもよい。ローパスフィルタの出力はスペクトル解析器4に 入力される。スペクトル解析器 スペクトル解析器を記述するに先立って、解析されるべき信号の性質を考察す ることは重要である。ファント(Fant)はその著書「音声生成の音響理論( Acoustic Theory of speech Production )」[グンナアファント;モートン・アンド・カンパニイ(Mouton a nd Company);ハーグ、オランダ;1960]において、発生された 音声音のスペクトルを、第2A図乃至第2C図に図示されるようなソーススペク トルと有声音透過フィルタ機能の積として記述した。ソーススペクトルは、基本 周波数とオクターブにつき6db振幅が減少する調和周波数を生成する振動有声 コード(vibrating vocal cord)の結果である。基本周波 数は、 バス声(bass voice)の男性の低い60Hzから子供の約400Hz までの範囲に分布する。“フィルタ機能”は、声の拡がりを整形することから得 られ特定の音声音を生成する。ある音声音を記述するのに線形予測符号化法を用 いる従来技術では、研究の対象はフィルタ機能であった。しかしながら、耳は発 せられた音声音の全体を受入れるのであって、フィルタ機能の結果を聞くのでは ない。線形予測符号化法は、音声信号を歪ませるとともにそれが有する情報のい くつかを切り捨てる。本発明は、音声音を同定するために人工ニューラルネット ワークを採用する、それ故、人間の聴音プロセスを模倣することによって信号情 報をできるだけ多く保持することができる点で有利であると考えられる。 例えば、アレン等(Allen et al)に与えられた特許第4,905 ,285号(人間神経応答モデルに基づいた解析構造)やライオン(Lyon) に与えられた特許第4,436,844号(聴覚応答情報をシミュレートする方 法と装置)のように、従来において、多くのアプローチが音声音に対する人間の 反応をシミュレートするのに利用されてきた。従来技術のこれらいずれかの例に おいても、狙いは蝸牛殻の出力をシミュレートすることであった。本発明は、単 に蝸牛殻の出力をシミュレートするだけのものではなく、音声音を脳で受信され るものとして音声信号を表現するという問題に着目する。この目的のため、聴覚 テストで決定されるような人間の聴覚の周波数判別能力と周波数応答性の両方を 備えた擬似ヘア細胞(pseudo−hair cells)の構造を備えるこ とが必要となる。周波数識別の一組のテスト結果がフィリップ・ホイットフィー ルド(philip whitfield)・ディ・エム・ストッダード(D. M.Stoddard)の著作「聴覚、味覚及び嗅覚(Heearing,Ta ste and Smell)(トースター・ブックス;ニューヨーク;198 5)」からの引用として第3図に示されている。第3図は、接近した2つの音質 を識別する人間の能力は、信号の「振幅と周波数の両方に依存することを示して いる、より高い周波数の音質は、識別のためには、間隔がより大きくなければな らず、より大きい振幅のものは、小さい振幅のものより良好に識別することがで きる。 人間の聴覚に匹敵する音声信号の発生スペクトルの表現を得るため、本発明の 好ましい実施例では、第3図の10dbの音レベル曲線(上側)にしたがって、 58から3800Hzに亘って離間された複数の極狭バンドパスフィルタを採用 している。きわめて良好な聴覚を有する人は、この信号レベルでも良好な音声近 く作用を有する。このことは、最低周波数において最初約4Hz隔間し、最高周 波数域において相隣るフィルタ間で約24Hzまで増加する420個のフィルタ のセットを必要とする。このような多数のフィルタは、リアルタイム演算への電 子計算機の挑戦であるが、同じ周波数領域での蝸牛殻モデルの約10,000〜 12,000個のヘアセルに比較すれば比較的少ないことは注目されるべきであ る。 第4図は、フィルタ構造の100Hz付近の部分の図形表現である。第4図か らは、約4Hzのフィルタ間隔故に、この周波数領域でのある信号の真の周波数 は報告された周波数の約2Hzの範囲にあることが理解される。より良い周波数 分解能は、第3図のより大きい音域レベルの周波数識別を用いること等、使用す るフィルタの数を増加させることによって得られるであろうことが理解される。 また、満足できる単音認識は、幾分低い周波数分解能、即ち、フィルタ間をより 大きく離間させることによっても達成できることにも注目すべきである。 バンドパスフィルタの各々の出力は、各サンプルについて演算される。8KH zのサンプリングレートにおいては、サンプル間の間隔は、0.125msであ る。並列配置の現代デジタル信号処理チップは、リアルタイム処理に必要な処理 能力を与えることができる。例えば、ローラル・スペイス・インフォメーション ・システムズ(Loral Space Information Syste ms)は、2つのプラグ−イン基板上に配置した5個のC−プログラマブル・テ キサス・インストルメント TMS320C30DSPチップ[ブレインメーカ ・プロフェッショナル・アクセレレータ(BrainMaker Profes sional Accelerator)としてカリフォルニア・サイエンティ フィック・ソフトウエア社により販売されている]を開発し、リアルタイムで数 百個のフィルタを解くのに適した計算速度を実現した。さらに、よりコンパクト な集積回路をこの目的のため特にデザインすることができる。 各周波数バンドの最大絶対振幅は短い時間間隔の間で決定される。その間隔の 長さは、音声パターンに従ったダイナミックスを表現する場合における正確さの ための短さと低周波数域における振幅を正確に反映させるための長さとの間のバ ランスである。1KHzの音調の一つの波の全長の時間は1msである。500 Hzの音調の一つの波の全長の時間は2msであり、250Hzのそれは4ms である。しかしながら、典型的な男性の音調である150Hzの半波も4msで あり、全波中で得られる最大値を含むであろう。本発明の好ましい実施例では、 4msの一定期間が、各周波数帯域の振幅の最大絶対値を評価するのに採用され る。より長い期間を用いることができるが、より低い周波数の存在は明白性にさ ほど寄与しないようである。同様に、より短い期間をより高い周波数に使用する ことができ、それによってこれら周波数について時間領域においてより高い正確 性を達成することができる。より複雑な方法がある音声解析の用途には許容され るかも知れないが、本実施例ではコスト対効果上採用しなかった。 スペクトル解析フィルタ構造の出力は、音声の拡がりを捨てた音声信号の表現 である。しかしながら、人間の聴覚は、平坦な周波数応答性を有するものでない ことは良く知られている。音声スペクトルのうち低周波数に対しては、高周波数 に比して相当に鈍感である。第5図は、等しい音の大きさとして聞こえるのに必 要な相対音階強度を図示している。第5図の音の大きさのレベル(フォン)10 の曲線を参照すると、100Hzの信号では1000Hzの信号と同じ音の大き さとして聞こえるためには、約30db大きい音圧の信号が必要となる。本発明 は、耳の周波数応答性を補償するため、フィルタバンク(filter ban k)の出力を修正する。本実施例において、バンドパスフィルタの出力の各々に は、スペクトル解析器4内で第5図の音の大きさレベル(フォン)10の曲線の 逆数が掛け合わされる。これにより、高周波の振幅は低周波の振幅に比して増大 される。先に述べたように、このことはオクターブ当たり6dbで傾斜する音調 調和周波数の振幅現象を幾分補償する効果を奏する。ニューラルネットワーク単音同定器 ニューラルネットワーク単音同定器5は、スペクトル解析器4の出力を受信し 、音の流れを形成する音声音や単音を同定するように訓練された人工ニューラル ネットワークである主プロセッサにこれを入力する。人工ニューラルネットワー クは、以下に詳述する方法によって、音素のみならず、“ム(M)”や“ン(N )”のような鼻音に先立って生ずる囁き音(murmur)の如き音や音素の異 音(allphone)(もしくは変形)、例えば音声学の分野の当業者にとっ てよく知られているような音節の最初の“ジィー(Z)”の音響スペクトルが静 になる前の“ズ(Z)”の音響スペクトルとは異なるといったように、を含むあ る言語の全ての正統音声音を認識できるように訓練されている。アメリカ英語で は僅か40か45の音素があるに過ぎないということが一般に考えられているが 、上で述べたようにこの言語において異なる音は100を越える。このような全 ての正統音声音を指称するのに単音(phone)なる用語が用いられる。 本発明は、単音のファジィ集合(fuzzy set)なる概念を用いる。こ の概念においては、音声の間の各音は、全てのファジィ単音集合における確率的 なメンバーシップを有する。しかしながら、ある与えられた集合における特定の 音の確率が十分に高く、他のいずれの集合における確率が十分に低いときにのみ 、システムによって与えられた単音集合に属するとのラベル付けが行われる。こ の概念と従来技術に用いられている他の概念との間の差異は第6A図乃至第6C 図に図示されている。第6A図において、ある音声の流れの全ての単音(もしく は音素)は隣接している。即ち一つの単音(もしくは音素)が終わるところで、 次の一つが始まると考えられている。さらに、流れの中の全ての音は、ある単音 (もしくは音素)の一部である。 第6B図において、音は単音(又は音素)の一部であるか、一つの短音(又は 音素)から次のものへの移行期間に起こり得る。しかしながら、短音(又は音素 )の発生は、不連続な事象であり;音は単音(又は音素)であるかないかのいず れかである。即ち、確率は0か1のいずれかである。 第6C図は、音声の流れにおける音は複数の短音ファジィ集合の確率メンバー シップを有する。このことは、発声構造(vocal tract)は所望の音 を生成するため常に再整形される形状可変の機械装置であるという事実からくる 。各単音について発声構造の唯一の目標位置がある。音声の間、音は発声構造が 連続した位置で再形成されるにしたがって連続的に生成される。第7A図〜第7 E図は、単語“カウ(caw)”の発音中の発声構造の変化を示す図である。第 7A図は音素/K/の推定目標位置であり、第7E図は音素/AO/についての 推定目標位置である(音声学講議“A course in Phonetic s;ピーター・ラデフォーグト著“Peter Ladefoged”;ハーコ ート・ブレイス・ジョバノヴィッチ・カレッジ出版“Harcourt Bra ce Jovanovich College Publishers”;フォ ート・ワース、テキサス;1993)。第7B図及至第7D図は、上記2つの目 標位置の間の遷移期間であると考えられる発声構造の推定位置である。発声構造 の形は、/K/についての目標位置から離れるにしたがって、生成される音は/ K/の音とは段々似なくなることが明らかである。同様に、形状が/AO/の形 状に近付くにしたがって、生成される音は、/AO/のそれに増々似てくる。2 つの目標位置の間では、音は2つの目標音素に対して変化しながらも類似性を有 しており、実際他の単音に対してもある種の類似性を有する。 人工ニューラルネットワークは、ある単音が4msの各期間毎に発声する音に よって表現される場合に、以下に詳述する方法によって同定すべく訓練されてい る。スペクトル入力に適用されたネットワークウェイトを表わすマトリクスを解 くこと及び音が単音の各々を表わす確率を演算することによって人工ニューラル ネットワークはこのことを実行する。単音の一つについての確率が、特定の閾値 を越えるとともに、他のすべての単音に対する確率が、1から閾値を引いた値よ り小さい場合には、その期間の信号は閾値をこえたその単音として同定される。 本発明の一実施例では、カリフォルニア・サイエンティフィック・ソフトウェア 社製作のブレインメイカー・プロフェッショナル・ニューラルネットワークが、 ネットワークの訓練と解法の両方に使用される。ニューラルネットワークを解く 、例えば、本発明をハードウェアとして実行する他のデザインの結果として得ら れ特別仕様のニューラルチップの如き他のメカニズムも利用することができる。 人 工ニューラルネットワークは、パターン認識や相関判定等の種々の分野に成功裡 に応用されている。人工ニューラルネットワークを形成し、訓練し解く方法は、 当業者によく知られている。単音認識に有効に応用するためには、任意の話者の 音声音を認識するのに必要かつ十分な情報を与える方法が必要となる。正確な認 識のためには、2つの条件が満足されなければならない。第1に、人工ニューラ ルネットワークに提供される音声信号の記述(訓練用及び認識用)は、比較的込 み合った音声バンド内で単音間を識別することができる十分に高い分解能のもの でなければならない。そして、第2に、ネットワークは訓練に供される音声パタ ーンが全人口の音声パターンを表わすものであることを保証するため十分な数と 広がりをもった話者の音声例で事前に訓練されていなければならない。スペクト ル解析器4は、人間の聴覚と同様の分解能と感度を与えるように設計されている ので、第1の条件を満足する。第2の条件に関しては、この発明を実行に移すた めのニューラルネットワーク単音同定器5を訓練する過程において得られた経験 則は、数百の話者による音声例が低い声から高い声をもった男性及び女性の話者 及び広範囲の言語学メカニズムを適切に包括することを可能とするために必要と なる。必要な話者の数は、ニューラルネットワークの訓練に関連して以下で議論 される。第8A図と第8B図は、訓練のためエイエヌエヌ(ANN)に提供され た母音“ア(AH)”(例えばナット/nut/における)と“オウ(OW)” (例えばノート/note/における)の多数の例のうちのスペクトル例を示す 。第8A図と第8B図から分かるように、ある与えられた単音内において広範囲 の変化が認められるのみならず、2つの単音間には相当量の類似性が存在する。 人工ニューラルネットワークは、典型的には、ニューロンの入力層、出力層及 び1もしくはそれ以上の隠れ層を有する。単音認識ニューラルネットワークの好 ましい実施例の模式的ダイヤグラムが第9図に示されている。ニューロンの出力 層は、話された言語の単音のうちの各々である。入力層は現在の時間間隔とその 一つ前におけるスペクトルデータである。第9図に示すように、第1ニューロン は音声信号入力レベルの測定値を表わす。残りのニューロンは先行する期間と現 在の期間における信号スペクトルを記述することによって閉止音の如き複数の単 音の急変する動的力学を補足する2組の入力データである。2つの期間の分離は スペクトル中における差異を強調することによって選択される。好ましい実施例 において、分離は32msである。最適な分離は、異なる言語によってさらにあ る言語においても方言や地域的なアクセントの違いによって異なるであろう。2 つの組の各々において、第1ニューロンは当該期間に発生するある周波数の最大 振幅を与え、残りのニューロンは、その最大振幅に相対する信号スペクトルを記 述する。先に示唆した如く、人工ニューラルネットワークは1つもしくはそれ以 上の隠れニューロン層と協働する。人工ニューラルネットワーク構築分野の当業 者は最適な隠れ層数やある隠れ層の最適ニューロン数を決定するために依拠でき る理論や信頼できる規則が依然用意されていないことを認識している。この分野 における標準的な慣行にしたがって、隠れ層におけるニューロン層は、ネットワ ークが訓練された音声信号の母集団に含まれていない話者の音声信号における単 音を正しく同定する正確性に関連する最適挙動を与えるものを異なるニューロン 数を持つ種々の隠れ層をテストすることによって経験的に決定される。ニューラルネットワークの訓練 ニューラルネットワークの訓練は、できるだけ多くの予想されるユーザ母集団 の音声特徴を表わすデータを準備することを含む。音声サンプルは、単語の組の 各々において、所望の具体的な単音の各々の1つもしくはそれ以上の例を含む複 数の単語の組(集合)を用いて記録される。アメリカ英語における100余りの 単音のためのシステムを訓練する1つの方法は、ニューラルネットワークを夫々 約10個の単音の個々の集合について訓練し、それら集合を徐々に徐々により大 きい集合に結合することである。各訓練用集合において集めた声が、実際の応用 において出合うと予想される声のピッチ周波数の範囲をカバーする話者を含むこ とが重要である。例えば、男性の声のみが必要な場合、約60から約150Hz の範囲が適切であり、女性の声のみが必要な場合、約130から350Hzの範 囲が必要とされるであろう。また、子供の音声をも認識しようとする場合、範囲 は多分400Hz程度の高さまで拡張されるであろう。 所望の範囲に亘って声の高さ(pitch voices)の数について多か れ少なかれ均一な分布をもつことが重要である。開示された発明の好ましい実施 例は、声の高さ(voice pitches)の範囲に亘って約40の周波数 バンドを有する。各音声高さについて約50の異なる話者が母集団表現の高い信 頼性を与えることが統計学的に評価されている。システムを訓練するための音声 サンプルを収集する場合において、声の高さは男性と女性と(もし含まれるなら ば子供と)の個別のほぼ標準的な分布においてある周波数の周辺に集中する(c luster)傾向がある。本発明の原理証明用(proof−of−prin ciple)システムを訓練するための音声サンプルの収集において、上記サン プル母集団について、60から100Hz及び130から150Hzの夫々の間 の男性の声は、これら範囲の間のそれに比して少ないことが見い出された。同様 に、150から180Hz及び250から350Hzの範囲の女性の声は、これ ら範囲の間のそれに比して少ない。切り捨てられるべき過剰な中間周波数ピッチ 及びピッチ分布において所望の均一性を達成するため十分な数の高・低音声高さ を得るのに必要な更なる工夫を見い出すことが期待される。 訓練プロセスの最も重要な部分は、単語サンプルの各単音を表わすのに最良の 時間、即ち単音サンプルのファジィ集合にスペクトルが属する確率が最も高くな る時間を選択することである。再び、第6A図〜第6C図を参照すると、それら の時間は第6C図に示された3単音からなる単語の曲線の各ピークである。これ らの時間を選択する場合に、スペクトル解析器の出力を図形的な形としてみるこ とは極めて有用である。第10A図〜第10C図は、題目JA9によって発声さ れた単語“KNOW”についての高分解スペクトルグラムである(声のピッチが 約180Hzであるので、上記題目は多分女性のものであることがこれらの図か ら観察されるであろう。)。記録の表示された部分の期間は600ミリ秒であり 、図は、表示の便宜上3個の200ms部分に分けられている。各表示部分の上 縁の各目印は20msを表わす。 300ms付近の単音“N”の先行する小声と弱い破裂放出(plosive release)の両方が明瞭である。このようにして、これら単音について の最適の時間の選択は容易となる。母音のような他の単音の最適時間の選択は、 それ程明瞭ではない。この題目は、音声サンプルが採用された他の多くのものと 同様、発音された単語がN:AH:OWであるので音素“AH”(nutのよう に)が“N”と“OW”との間に挿入されている。 かくして、音素“OW”は、第10図から(及び音声学者のように、音素/A H/がしばしば挿入されることに気付いていないならば)予想される約480m s付近には生ぜず、576ms付近に生ずる。 単語サンプルKNOW.JA9についてのニューラルネットワーク単音同定器 5の代表的な出力が第11A図〜第11D図に示されている。第11A図〜第1 1D図から分かるように、ある時点(例えば、200ms付近)において、第6 C図に関連して議論したように、信号は1より多い単音集合に属する相当な確率 をもつ。同様に、Nの前の囁き音(xN)の確率が上昇し、その後、その確率は Nの確率が増加するにしたがって減少することを注目すべきである。 次いで、Nの確率はAHの確率が増加するにしたがって減少し、そして、その 後、AHの確率はOWの確率が上昇するにしたがって減少する。 ある与えられた訓練用集合の数千の単音例について最初に選択された時間は少 なくとも複数の単音について、最大確率の時間を表わすものではないであろう。 訓練の間、ニューラルネットワークは満足できるパターンを捜す。それ故、訓練 後には、訓練済みのニューラルネットワークは、単語サンプル及び単音入力時間 とニューラルネットワークによって最高確率時間が見い出されるにしたがって同 定される単音入力時間との間の大きな差異に対して応用される。不適合のサンプ ル時間はその後修正され、訓練が繰り返される。この過程は、相違が許容しうる 程度まで十分低いレベルに達するまで繰り返される。更に、システムを訓練した 後に新しい題目についてシステムの訓練は、ある話者について低い単音認識確率 を招来するかも知れない。そのような話者についてのデータは、効率を改善する ためシステムの訓練にさらにフィードバックすることができる。 これと同じ技法はシステムを新しい言語について訓練する場合に用いることが できる。新しい言語の話者による音声サンプルは、システムが既に満足すべき結 果を与えている単音とその言語について特別に訓練される必要がある単音とを同 定するために、訓練された現存のネットワークを用いてテストされる。先の言語 に共通でない新しい言語の単音は新しい言語の音声サンプルに関して訓練される べきであることを理解すべきである。音素統合器 人工ニューラルネットワークは、各時間間隔においてどの単音(もしあれば) が生じているかを同定する。しかしながら、母音の如き音素は一様の期間である 。音素統合器6の1つの機能は、認識を確認するため連続的な所定最小数の同定 (identifications)の要求を課すことによって正統な単音を音 声的でない遷移から分離する。開示された発明の好ましい実施例では、母音の認 識を確認するため8個の連続的な同定(32msの期間に等しい)、準母音(s emi−vowel)と擦音について3つの連続した同定、閉止音(stops )と他の破裂音について僅か1つの同定が必要とされている。いま1つの機能は 、(十分な期間の)小さい単音(murmur phone)と放気単音(re lease phone)の両方が、認識が確認される以前に発声閉止音の如き 音素について存在していることを保証することである。音素統合器の出力は、音 声の流れの音素表現である。音素列翻訳器 音素列翻訳器7の機能は、音素列で表れた、発声された言語の単語を同定し、 分離し表示する(即ちファイルに出力する)。翻訳器の主要な構成要素は、話さ れた音素の言語辞書と音素列を話される言語に於ける単語の綴りに音素列を変換 するためにその辞書を使用するコンピュータプログラムである。辞書の重要な特 徴は多数の自然語についての多重の音素入力の使用である。このことは、(a) 異なるアクセントをもった人はしばしばある与えられた単語について異なった発 音をする、及び(b)1つの単音からいま一つの単音への遷移は、あるときには 第3の単音であるという理由で必要であると考えられる。 上記(a)の一例は、アメリカの北東部出身者と中西部出身者とでは単語“h arbor”の発音が異なることである。(b)の一例は単語“Noah”が少 なくとも/N:OW:AH/,/N:AH:OW:AH/及び/N:AH:OW :W:AH/の音素綴りを有することが出来るように、“N”と“OW”との間 のよくある遷移“AH”と“OW”と“AH”との間の“W”の挿入である。 コンピュータープログラム設計は、音素のより長い列の文脈において単語を同 時することを基本としており、連続子音発生(gemination)の如き共 調発音(co−articulation)を具体的に指定し考慮することであ る。プログラムを説明する前に、従来技術において注目されていなかったしばし ば発生する音響的状態をまず同定することが有用である。ある1つの話された単 語が、ある与えられた音素、特に閉止音や破裂音において終わり、次の単語が同 じ音素で始まる時に、2つの音素は殆ど分離して発音されることはない。単語の 分離位置を同定することは、音声認識システムにとって、そのような状態が得ら れない場合に比してより複雑となる。例えば、“bad dog”の発声は、終 わりと始めの“d”の連続子音を括ることなく、適切に分離されることはない。 区別されなければ、選択すべき二者は“bad og”と“ba dog”であ り、いずれも両方の単語を正しく同定していない。 少ない語彙の応用では、そのような事態は用語集に含まれる単語を制限するこ とによって回避できるが、この発明が意図する語彙が制限されない応用において は不可能である。全ての閉止音や破裂音及び破擦音の幾つかを含む連続発声子音 (共調発音子音)候補である多くの音素が存在することを注目すべきである。 コンピュータプログラムは、可能な連続発声子音発生を想到し得るように設計 されている。コンピュータプログラムの論理ダイヤグラムは第12図に示されて いる。そのための方法は、遭遇するであろう単一の単語より長い音素列を用いる ことである。本発明の好ましい実施例は、20個の音素列長[第12図のプロシ ージャ10においてマックルストリング(Max String)と呼ばれる] に基づいている。ある発声における最初の20個の音素(発声が20個の音素長 以下であるときは実際の長さ)は、可能な最長第1単語を発見するためプロシー ジャ11において試験される。その単語が連続発声子音候補で終わらない場合、 それはプロシージャ16において出力され、次の音素はプロシージャ17におい て新しい開始点となり、20個音素長がプロシージャ10において補充され、プ ロセスが繰り返される。最も長い第1単語がある連続発声子音候補で終わってい る場合、プロシージャ13は、テスト単語の音素の数に等しい音素数までマック スストリングを一時的に拡張し、プロシージャ14は拡張されたマックスストリ ングにおいて後続する単語が存在するかを決定する。このことは、連続発声子音 の候補に続く音素が先行する単語における最後の音素と一緒に発声されなかった ことを示す。後続する単語が存在する場合、プロシージャ16はテスト単語を出 力し、プロシージャ17において、次の音素が新しい出発点となり、20個の音 素長がプロシージャ10において補充され、そのプロセスが繰り返される。テス ト単語の後に始まる第2の単語がない場合[共調発声(co−articula tion)が発生していることを示している]、プロシージャ15は、その点に 、共調発声候補音素の複写を挿入する。前と同様に、プロシージャ16はテスト 単語を出力し、プロシージャ17において、次の音素が新しい出発点となり、2 0個の音素長がプロシージャ10において補給され、このプロセスが繰り返され る。このプロシージャの組は音素統合器6によって音素が生成されている限り繰 り返される。 上記したシステムの基本設計では、ユーザは通常使用に先立って記述されるべ き特定の言語を選択するものと想定しているが、レパートリイ内でどの言語が話 されているかを自動的に決定し、適当な人工ニューラルネットワークと使用に供 する言語辞書を選択するように修正することができる。このことは、真の単語列 を生成する言語を同定するための、言語の夫々について、音声の初期の短い部分 等、時間にして例えば5〜10秒の間、処理することによって達成される。シス テムが真の単語列を同定するための単語が選択され、システムは、上述した如く 、その時点から作動する。システムのハードウェア装置 ここに開示した方法とシステムは、“スーパーコンピュータ”上で実行されな い限り、リアルタイム操作のために同時平行処理を必要とするが、第一義的には 、広範囲での使用のため、“パーソナルコンピュータ”や“ワークステーション ”クラスのマシーン上で好ましくは実施される。構成要素幾つかの製造業者の装 置は本発明の種々のいくつかについて好適な特性を有しているが、図示の目的の ため、第13A図及び第13B図に示された特定の構成を説明する。上述したよ うに、ローラル・スペイス・インフォーメイション・システム(Loral S pace Information System)はリアルタイムで数百の狭 帯域バンドパスフィルタについて方程式を解く適当な計算速度を与える、2つの プラグインボード105と106上の計5個のC−プログラマブル・テキサス・ インストルメント(C−programmable Texas Instru ment)TMS3203 C30 DSPチップの構成を開発した。 ボード103と104の第2のセットは、ニューラルネットワーク方程式を解 くのに用いられる。これらボードの2セットは、例えばボード108と109上 に搭載された同じメモリを共有する2つの独立した処理用ボード110と111 の備えを有するコンパック・システムプロ・モデル66M(Compaq Sy stempro Model 66M)マイクロコンピュータに装備される。こ れらプロセッサの1つは音素統合器6の機能を果し、他のものは、言語選択の制 御プロセッサと音声対話言語翻訳と文書出力を与えるという両方の機能を果す。 メディア・ビジョン・プロ・オーディオ・スペクトル16(Media Vis ion Pro Audio Spectrum16)の如き他のプラグ−イン 型ボード107はアナログ・デジタル変換機機能を与えることができ、それに付 属するソフトウェアは、波形表示と、言語訓練とテストのための音声サンプルを 集めるための編集を支援することができる。システムプロ(SystemPro )コンピュータは、利用できる2つの空のスロットを持っている。

Claims (1)

  1. 【特許請求の範囲】 1.以下の構成を備える多言語音声認識システム: 音声音をデジタル情報に変換するアナログ・デジタル・コンバータ; 上記デジタル情報を受信し、人間の聴覚の周波数判別力を周波数応答性をもっ て、上記音声音のスペクトルを決定する解析器と; 上記スペクトル解析器からのスペクトルを受信する単音同定器、該単音同定器 は、上記スペクトルの特定の時間間隔内において発声する単音を同定するネット ワークを備え、該ネットワークは所定の言語の単音を認識することができる; 認識結果を確認するため同定された単音の所定の最小数の連続した同定を検出 することによって、上記単音同定器によって同定された非音声遷移から単音を分 離する音素統合器、該音素統合器は、上記スペクトルから同定された単音を表す 音素列を出力として与える;及び 上記音素列によって表される人間言語の単語を同定し、分離し、表示し、もし くはファイルに格納する音素列翻訳器と、該音素列翻訳器は音素として話される 言語の辞書と上記音素列を話される言語の文書に変換するため該辞書を用いるプ ログラムを備える。 2.上記ネットワークは、複数の与えられた人間言語のいずれか1つの単音を認 識するため予め訓練されている請求項1のシステム。 3.上記システムは、単語の複数の発音に適応する請求項1のシステム。 4.上記システムは、任意の話者の連続的な会話音声を記号化する請求項1のシ ステム。 5.上記ネットワークは、ある単音の目標位置での声の拡がり形状に最も近い上 記スペクトル内の時間クレームを同定する請求項1のシステム。 6.上記システムは、会話音声において生ずる連続発声子音等の共発声音事象を 指定して考慮する請求項1のシステム。 7.以下のステップを有する多言語音声認識方法: アナログの音声音入力を受信して該入力をデジタル出力に変換する; 上記デジタル出力を受信し、人間の聴覚の周波数識別性と応答性をもって、上 記音声音のスペクトルを決定する; 上記スペクトルを受信し、該スペクトルを所定の言語の単音を認識するための ネットワークの情報と比較することによって、上記スペクトルの特定の時間間隔 中に生ずる単音を同定する; 認識を確認するため同定された単音の所定の最小数の連続的な同定を検出する ことによって上記比較により同定される非音声遷移から単音を分離するとともに 、上記放出されたスペクトルから同定単音を表す音素列を出力として与える;及 び 音声で話される言語の辞書と上記音素列を話される言語の文書に変換するため に上記辞書を使用するプログラムを備えた音素列翻訳手段を使用することによっ て上記音素列によって表された人間言語の単語を同定し、分離し、表示するかフ ァイルに格納する。 8.上記ネットワークは、複数の与えられた人間言語のいずれか1つの単音を認 識するため予め訓練されている請求項7の方法。 9.当該方法に付加的な言語能力を加える際には、種々の人間言語に存在する共 通の単音を有効に使用する請求項7の方法。 10.上記システムは、単語の複数の発音に適応する請求項7の方法。 11.上記システムは、任意の話者の連続的な会話音声を記号化する請求項7の 方法。 12.上記ネットワークは、ある単音の目標位置での声の拡がり形状に最も近い 上記スペクトル内の時間クレームを同定する請求項7の方法。 13.上記システムは、会話音声において生ずる連続発声子音等の共発声音事象 を指定して考慮する請求項7の方法。 14.以下の構成を有する多言語音声認識システム: ある特定の言語の可聴音声信号を受信するとともにそれらを対応する電気信号 に変換する手段; 上記信号の対象とする所定の最大周波数の少なくとも2倍の割合で上記信号を サンプリングするためのアナログデジタルコンバータ; 上記アナログデジタルコンバータからのサンプル集合を1ミリ秒から8ミリ秒 の間の時間間隔にわたって受け入れるとともに、人間の周波数識別と感度応答性 をシミュレートして各サンプル集合のスペクトルの内容の解析を与えるスペクト ル解析器; サンプル集合の各々が、上記話される言語に属する単音の所定の集合の1つの 可聴スペクトルを確かに表すかを同定するための人工ニューラルネットワーク; 該単音の存在と認識を確認するため、連続する上記サンプル集合の十分な所定 の最小数の確率的同定を統合する統合器と、 上記単音を話される言語の音素に統合するための手段と、 上記音素のシーケンスを話される言語の単語に翻訳する翻訳器と、該翻訳器は 第3の正統音声音である2つの正統音声音間の遷移を解釈するとともに、音声音 が共調発音されたときに発音されなかった音声音を近傍の音声音で同定する、お よび 翻訳された単語に対応する文書を表示し、印刷および/または格納する手段。
JP7504646A 1993-07-13 1994-07-12 多言語音声認識システム Withdrawn JPH09500223A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9074793A 1993-07-13 1993-07-13
US08/090,747 1993-07-13
PCT/US1994/007742 WO1995002879A1 (en) 1993-07-13 1994-07-12 Multi-language speech recognition system

Publications (1)

Publication Number Publication Date
JPH09500223A true JPH09500223A (ja) 1997-01-07

Family

ID=22224117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7504646A Withdrawn JPH09500223A (ja) 1993-07-13 1994-07-12 多言語音声認識システム

Country Status (8)

Country Link
US (1) US5758023A (ja)
EP (1) EP0708958B1 (ja)
JP (1) JPH09500223A (ja)
AT (1) ATE200590T1 (ja)
AU (1) AU682380B2 (ja)
CA (1) CA2167200A1 (ja)
DE (1) DE69427083T2 (ja)
WO (1) WO1995002879A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE69720224T2 (de) * 1996-12-24 2003-12-04 Cellon France Sas Le Mans Verfahren zum trainieren eines spracherkennungssystems und ein gerät zum praktizieren des verfahrens, insbesondere eines tragbaren telefons
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
WO2000022609A1 (en) * 1998-10-13 2000-04-20 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition and control system and telephone
US6188984B1 (en) * 1998-11-17 2001-02-13 Fonix Corporation Method and system for syllable parsing
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
JP4292646B2 (ja) 1999-09-16 2009-07-08 株式会社デンソー ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
EP1217609A3 (en) * 2000-12-22 2004-02-25 Hewlett-Packard Company Speech recognition
US20020095274A1 (en) * 2001-01-17 2002-07-18 Richards Alfred N. Pool cover design verifying system
US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
DE10120513C1 (de) 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
US20030092423A1 (en) * 2001-11-09 2003-05-15 Roger Boivin System and method to allow law enforcement agencies to track and monitor calls made on recyclable/disposable mobile telephones
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
DE50307074D1 (de) * 2002-01-17 2007-05-31 Siemens Ag Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
US7286993B2 (en) * 2002-01-31 2007-10-23 Product Discovery, Inc. Holographic speech translation system and method
AU2003302422A1 (en) * 2002-05-03 2004-06-18 University Of Southern California Artificial neural systems with dynamic synapses
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
DE10256935A1 (de) * 2002-12-05 2004-07-01 Siemens Ag Auswahl der Benutzersprache an einem rein akustisch gesteuerten Telefon
KR100486735B1 (ko) * 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US7321852B2 (en) * 2003-10-28 2008-01-22 International Business Machines Corporation System and method for transcribing audio files of various languages
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7430503B1 (en) 2004-08-24 2008-09-30 The United States Of America As Represented By The Director, National Security Agency Method of combining corpora to achieve consistency in phonetic labeling
US7406408B1 (en) 2004-08-24 2008-07-29 The United States Of America As Represented By The Director, National Security Agency Method of recognizing phones in speech of any language
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
US8032372B1 (en) * 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US20070138267A1 (en) * 2005-12-21 2007-06-21 Singer-Harter Debra L Public terminal-based translator
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US20080126093A1 (en) * 2006-11-28 2008-05-29 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
DE102006057159A1 (de) 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
WO2008111051A2 (en) * 2007-03-09 2008-09-18 Ghost, Inc. A general object graph for web users
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
US8032384B2 (en) * 2008-03-14 2011-10-04 Jay S Rylander Hand held language translation and learning device
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
WO2011037562A1 (en) * 2009-09-23 2011-03-31 Nuance Communications, Inc. Probabilistic representation of acoustic segments
FI20106048A0 (fi) * 2010-10-12 2010-10-12 Annu Marttila Kieliprofiloinnin menetelmä
US8914242B2 (en) 2011-07-21 2014-12-16 Thermo Ramsey, Inc. Signal processing in guided wave cutoff spectroscopy
US8442825B1 (en) 2011-08-16 2013-05-14 The United States Of America As Represented By The Director, National Security Agency Biomimetic voice identifier
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
EP2736042A1 (en) * 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
US10510264B2 (en) 2013-03-21 2019-12-17 Neuron Fuel, Inc. Systems and methods for customized lesson creation and application
US9595205B2 (en) 2012-12-18 2017-03-14 Neuron Fuel, Inc. Systems and methods for goal-based programming instruction
US8800113B1 (en) * 2013-03-15 2014-08-12 Blackstone Medical, Inc. Rigid modular connector
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
CN104143328B (zh) * 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9135911B2 (en) * 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems
US10650805B2 (en) * 2014-09-11 2020-05-12 Nuance Communications, Inc. Method for scoring in an automatic speech recognition system
US20170011735A1 (en) * 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
KR20200027475A (ko) 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
CN112364658A (zh) 2019-07-24 2021-02-12 阿里巴巴集团控股有限公司 翻译以及语音识别方法、装置、设备
KR102303785B1 (ko) * 2019-08-05 2021-09-23 엘지전자 주식회사 로봇의 언어를 설정하는 인공 지능 서버 및 그 방법
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11551695B1 (en) * 2020-05-13 2023-01-10 Amazon Technologies, Inc. Model training system for custom speech-to-text models

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4536844A (en) * 1983-04-26 1985-08-20 Fairchild Camera And Instrument Corporation Method and apparatus for simulating aural response information
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
JP2717652B2 (ja) * 1986-06-02 1998-02-18 モトローラ・インコーポレーテッド 連続音声認識システム
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US4905285A (en) * 1987-04-03 1990-02-27 American Telephone And Telegraph Company, At&T Bell Laboratories Analysis arrangement based on a model of human neural responses
US4910784A (en) * 1987-07-30 1990-03-20 Texas Instruments Incorporated Low cost speech recognition system and method
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CAN J CHEM 59=1981 *
NUCLEIC ACIDS RESEARCH 15-15=1987 *
NUCLEIC ACIDS RESEARCH 18-1=1989 *
NUCLEIC ACIDS RESEARCH 19-10=1991 *
NUCLEIC ACIDS RESEARCH 19-21=1991 *
NUCLEIC ACIDS RESEARCH 19-4=1991 *
PR0C NATL ACAD SCI USA 87=1990 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法

Also Published As

Publication number Publication date
EP0708958B1 (en) 2001-04-11
CA2167200A1 (en) 1995-01-26
AU682380B2 (en) 1997-10-02
DE69427083T2 (de) 2001-12-06
EP0708958A1 (en) 1996-05-01
DE69427083D1 (de) 2001-05-17
AU7328294A (en) 1995-02-13
EP0708958A4 (en) 1997-10-15
ATE200590T1 (de) 2001-04-15
WO1995002879A1 (en) 1995-01-26
US5758023A (en) 1998-05-26

Similar Documents

Publication Publication Date Title
US5758023A (en) Multi-language speech recognition system
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
O’Shaughnessy Automatic speech recognition: History, methods and challenges
Juang et al. Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication
Rabiner et al. An overview of automatic speech recognition
Syrdal et al. Applied speech technology
CN112581963B (zh) 一种语音意图识别方法及系统
WO1996003741A1 (en) System and method for facilitating speech transcription
WO1996003741A9 (en) System and method for facilitating speech transcription
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
Bhatt et al. Feature extraction techniques with analysis of confusing words for speech recognition in the Hindi language
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Philippou-Hübner et al. The performance of the speaking rate parameter in emotion recognition from speech
Mishra et al. An Overview of Hindi Speech Recognition
Rao et al. Language identification using excitation source features
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
EP3718107B1 (en) Speech signal processing and evaluation
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
Vafaie et al. 4 Speech Recognition for Persian
Wang Automatic spoken language identification
Benzeguiba et al. Automatic speech recognition and intrinsic speech variation
Hong Malaysian English Large Vocabulary Continuous Speech Recognizer: An Improvement Using Acoustic Model Adapation
Bartošek Prosody Utilization in Continuous Speech Recognition

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees