JP2006048065A

JP2006048065A - 音声対話式言語指導法及び装置

Info

Publication number: JP2006048065A
Application number: JP2005237423A
Authority: JP
Inventors: Dimitry Rtischev; ルテイスシエフ，デイミトリー; Jared C Bernstein; バーンスタイン，ジエアード・シー; George T Chen; チエン，ジヨージ・テイー; John W Butzberger; ブツツバーガー，ジヨン・ダブリユー
Original assignee: SRI International Inc; Stanford Research Institute
Current assignee: SRI International Inc
Priority date: 1993-03-12
Filing date: 2005-08-18
Publication date: 2006-02-16
Also published as: KR960701431A; DE69425564D1; KR100309207B1; ATE195605T1; JPH08507620A; JP3899122B2; WO1994020952A1; EP0692135A1; EP0692135B1; US5634086A; EP0692135A4

Abstract

【課題】利用者と言語的コンテキスト感知の方法で対話でき、準会話的方法で利用者によるスクリプトの朗読をトラッキングし、適当に表現され自然に聞こえる音声で利用者を指導する認識及びフィードバックシステムの操作方法を提供すること。
【解決手段】入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生する言語指導及び言語評価のための自動音声認識器の操作方法であって、事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップを含む。また、入力音声の正確さの指標をアプリケーションサブシステムからレッスンプログラムに入力し、オーディオ装置及び／又は映像装置を介して、レッスンプログラムを用いて、レッスンプログラムに入力された正確さに従った動作を取ることにより話者の読み上げの正確さを話者に示す。
【選択図】図３

Description

この発明は音声（スピーチ）認識に関し、特に言語又は音声指導で用いるための隠れマルコフモデル(hidden Markov model)(ＨＭＭ)に基づいたシステムの操作方法等に関する。

背景として、隠れマルコフモデル化のプロセスについての説明は、ラビナー(Rabiner) らによる１９８６年の論文「隠れマルコフモデル入門(An Introduction to Hidden Markov Models) 」、IEEE ASSP Magazine、１９８６年１月、４〜１６頁に記載されている。

隠れマルコフモデルに基づいた種々の音声認識システムが知られており、ここでその詳細を述べる必要はないであろう。このようなシステムは一般に音素(phoneme) の認識を利用する。この場合の音素は、１組の訓練例から評価されたパラメータを有する音声セグメント（異音(allophone) 又はもっと一般的に単音(phone) を含む。）の統計的モデルである。

単音は音素の音響的認識であり、音素は単語を区別するのに用いることができる音声の最小単位であるので、単語のモデルは適当な単音モデルからネットワークを作ることにより作られる。入力音声信号に対する認識は、単語モデルの組を通る最もあり得そうな経路を探すことにより行われる。

公知の隠れマルコフモデル音声認識システムは、マルコフソースとしての音声導出モデルを基にしている。モデル化されている音声単位は、有限状態機械により表される。確率分布は各ノードを離れる遷移に関連し、ノードに到達するとき各遷移が取る確率を特定する。出力シンボルに対する確率分布は各ノードに関連する。遷移確率分布は暗黙の内に持続時間をモデル化する。出力シンボル分布は一般にスペクトルのような音声信号特性をモデル化するのに用いられる。

遷移と出力シンボルに対する確率分布は、ラベル付けされた音声例を用いて評価される。観測された列を発生する最も高い確率を有するマルコフネットワークを通る経路を求めることにより、認識がなされる。連続音声に対しては、この経路は単語モデルの列に対応するであろう。

語彙外の音声を説明するモデルが知られており、ここではリジェクト単音モデルというが、しばしば「フィルター」モデルとも言われる。このようなモデルは非特許文献１に記載されている。

本発明と共に用いられる特定の隠れマルコフモデル認識システムは、デシファー(Decipher) 音声認識器であり、これはＳＲＩインターナショナル、メンロパーク(Menlo Park)、カルフォルニアから入手できる。デシファーシステムは、確率的音韻論的情報、コンテキスト依存の様々なレベルで音声モデルを訓練できるトレーナー、単語の多様な発音、及び認識器を組み込んでいる。共同発明者は本発明の周辺に関連した指導法などの開発について他の論文やレポートを出している。その各々は、質疑応答技術の初期のものについて述べている。例えば、非特許文献２、非特許文献３及び非特許文献４を参照せよ。これらの論文は、実演の観測者が経験することを単に記載したものである。

他の言語訓練技術も知られている。例えば、エザワ(Ezawa) 他の米国特許第4,969,194 号には、言語の発音における利用者の簡単な練習用システムが開示されている。そのシステムでは音声認識は出来ないけれども、コンパレーターを用いて信号を基にしたフィードバック機構を有していると思われる。このコンパレーターは、音声の幾つかの音響的特徴及び音声の基本周波数を基準の組と比較する。

オカモト(Okamoto) の米国特許第4,380,438 号には、利用者自身の音声を記録し再生するために用いられるアナログテープレコーダーのデジタルコントローラーが開示されている。これは認識することはできない。

ボグ(Boggs) への米国特許第4,860,360 号は、通信チャンネル内の歪みが分析される音声評価用システムである。その開示は信号分析と歪み程度の計算のみに関連しており、どんな既知の語彙に対しても音声信号の整列や認識は行わない。

ハーブソン(Harbeson)への米国特許第4,276,445 号には、アナログピッチ表示より粗い音声分析システムが記載されている。それが本発明に関連するとは考えられない。

ホランド(Holland) 他への米国特許第4,641,343 号には、フォルマント周波数を引き出すアナログシステムが記載されている。このフォルマント周波数は、利用者への基本的な表示のためにマイクロプロセッサーに送られる。唯一のフィードバックは、入力信号から直接計算可能な特徴のグラフィック表現である。音声認識又はその他の如何なる高レベル処理に対する要素も存在しない。

ベーカー(Baker) 他への米国特許第4,783,803 号には、音声認識装置及び技術が開示されており、これは音声の開始を探すべくフレーム間の場所を求めるための手段を含んでいる。この開示には、音響パラメータのみを処理する低レベル音響ベースの終点検出器が含まれるが、より高いレベルのコンテキスト感知式の終点検出は可能ではない。
米国特許第４，９６９，１９４号米国特許第４，３８０，４３８号米国特許第４，８６０，３６０号米国特許第４，２７６，４４５号米国特許第４，６４１，３４３号米国特許第４，７８３，８０３号ローズ(Rose)他による「隠れマルコフモデルを基にしたキーワード認識システム(A Hidden Markov Model Based Keyword Recognition System)」、IEEE ICASSP のプロシーディング、１９９０年「英語発音の自動評価と訓練(Automatic Evaluation and Training in English Pronunciation)」、Proc. ICSLP 90、１９９０年１１月、神戸、日本、「不特定話者連続音声認識の商用応用に向けて(Toward Commercial Applications of Speaker-Independent Continuous Speech Recognition) 」、Speech Tech 91のプロシーディング、１９９１年４月２３日、ニューヨーク、ニューヨーク「音声対話式言語指導システム(A Voice Interactive Language Instruction System) 」、Eurospeech 91 のプロシーディング、ジェノア、イタリア、１９９１年９月２５日

必要とされているのは、利用者と言語的コンテキスト感知の方法で対話でき、準会話的方法で利用者によるスクリプト(script)の朗読をトラッキングし、適当に表現され自然に聞こえる音声で利用者を指導する認識及びフィードバックシステムである。

本発明の概略
本発明によると、指導及び評価のための、特に言語の指導及び言語の流暢さの評価のための言語的コンテキスト感知式の音声認識を用いた指導システムが提供される。このシステムは、非ネーティブである利用者の強い外国アクセントを許容する一方、自然な音声対話式方法でレッスン、特に言語レッスンをしてその評価を与えることができる。レッスン資料と指導は、これに制限されるものではないが、ビデオ、オーディオ又は印刷された視覚的テキストを含めて、種々の方法で学習者に提示できる。例として、言語指導の特定された用途においては、ある指導は利用者になじみの言語でできる一方、会話及び対話の全体を目標言語、即ち指導言語で行うことができる。

システムは、予め選択された視覚情報と共に、訓練を受けている人に聴覚情報を与えることができる。システムは、朗読段階中、システムに記憶されているスクリプトとの比較に基づいて選択された音声パラメータを監視しながら、被訓練者である利用者を促してテキストを大声で読むように促す。次に、システムは、利用者に特定の質問を行って、可能な応答のリストを提示する。それから、利用者は、目標言語で適当な応答を復唱することにより答えるのを期待される。システムは、利用者の下手な発音、休止、およびその他の失流暢にも拘わらず、スクリプト化された音声を正確に認識でき自然に応答できる。

特定の実施例では、レッスン中の単語列パターンの範囲に対応する有限状態文法の組が、ＨＭＭ音声認識器内の隠れマルコフモデル(ＨＭＭ) 探索装置上の制約として用いられる。このＨＭＭ音声認識器は、目標言語のネーティブ話者により作られた目標言語によるナレーション（スクリプト）の隠れマルコフモデルの組を含んでいる。

他の言語的コンテキスト感知式の音声認識器も基本的な音声認識エンジンとして用いることができるけれども、本発明は好ましくはＳＲＩインターナショナル、メンロパーク、カルフォルニアから入手可能なデシファー音声認識器のような言語的コンテキスト感知式の音声認識器の利用に基づいている。

本発明は、朗読練習のような練習を通して利用者を先導するための機構や、対話式決定機構を用いた一群の多項選択式の質問を含む。この決定機構は少なくとも３つのエラー許容レベルを用いており、それにより、人間を基にした対話式指導における自然なレベルの忍耐をシミュレートする。

朗読段階のための機構は、少なくとも４つの状態を有する有限状態機械又は同等物を通じて実現され、これはスクリプト中のどんな場所の朗読エラーも認識し、動作の第１組を用いる。対話式質問段階のための関連した機構もまた、少なくとも４つの状態を有するもう一つの有限状態機械を通じて実現されるが、動作の第２組を用い、誤った応答のみならず朗読エラーも認識する。

少なくとも休止とスクリプトを外れた発声とを含んだ失流暢を明白にモデル化しつつ、ナレーション用のスクリプトを用いることにより、音声の確率的モデルは、言語的コンテキスト感知式の音声認識器の一部として、簡素化さる。

対話式朗読及び質問／応答段階と共に、言語的に感知する発声終点の検出が、音声発声の終端を判定すべく行われ、会話音声における人の交替時をシミュレートする。

採点システムが与えられ、これは、正しい朗読中の時間部分や、対象者の朗読速度と標準のネーティブの朗読速度の比や、認識された単語ストリーム内の「アルト(alt) 」単位（新しい音声モデル）の部分に重み付けすることにより、音声及び朗読の熟達度、即ち速度とエラーレートを分析することができる。

ＤＳＰ装置又は同等の能力を有するプロセッサーと共に、本発明により特定のレッスンの科目についてシステムと利用者の間のリアルタイムの会話ができるようになる。本発明は便利にはシステムから離れた場所で電話ネットワークを介して用いることができる。利用者は電話番号を選択することによりシステムにアクセスし、システムとの対話のための視覚的又は記憶された資料を参照する。
本発明は添付の図面に関連した以下の詳細な記載を参照することによりよりよく理解されるであろう。

特定の実施例の説明
図１を参照すると、本発明による指導装置１０のシステムブロック図が示されており、装置１０の近くに位置する利用者１２を指導するか、又は装置１０から離れて位置する利用者１２’を指導し電話１４を介して通信する。ローカル利用者１２はマイクロフォン１６を通じてシステムと対話でき、スピーカー又はイヤホン１８及び映像モニター（ＣＲＴ）２０を介して指導及びフィードバックされる。リモート利用者１２’は、新聞広告などの刊行若しくは印刷されたテキスト２２を通じて促され、又はなんらかの周知又は記憶されたテキストを用いることができる。リモート利用者の電話１４はマルチプレクサー２６を介して電話ネットワーク２４を通じて結ばれる。ローカル利用者のマイクロフォン１６もマルチプレクサー２６に接続される。マルチプレクサー２６の出力はプリアンプ２８に接続され、ローパスフィルター３０を介してアナログ−デジタル変換器３２に接続される。この変換器３２は、ワークステーション又は時分割計算機３６内のデジタル信号処理（ＤＳＰ）サブシステム３４の一部である。ＤＳＰサブシステム３４からの出力は、デジタル−アナログ変換器（ＤＡＣ）３８を介してアンプ４０又は電話ネットワーク２４のどちらか一方又は両方に供給される。これらのアンプ４０及び電話ネットワーク２４は夫々スピーカー１８及び電話１４に接続される。ＣＲＴ２０は一般的にワークステーション３６の映像出力装置である。適当なＤＳＰサブシステムとしては「ソニテックスピリット３０(Sonitech Spirit 30)」ＤＳＰカードがあり、適当なワークステーションとしてはサンマイクロシステムズ(Sun Microsystems)のスパークステーション２ユニックスワークステーション(SPARCStation 2 UNIX workstation)がある。

図１に関連した図２を参照すると、基本的システムの基本操作が描かれている。システムは好ましくは、ＳＲＩインターナショナルのデシファーシステムのような音声認識システムを中心に構築される。利用者１２は映像又は音によって催促するような刺激に反応してマイクロフォン（ＭＩＣ）１４に話す。マイクロフォン１４の連続的な音声信号は電気的経路を通じて「フロントエンド」信号処理システム４２に送られる。この信号処理システム４２は主にＤＳＰサブシステム３４内に含まれ、マザーワークステーション３６の制御に従う。フロントエンド信号処理システム４２は、特徴抽出をして音響的特徴パラメータをモデル探索器４４に送る。このモデル探索器４４は、隠れマルコフモデルのモデルの組(HMM models)４６を中心に構築される。モデル探索器４４は、音響的特徴により「探索」を行う。これらの音響的特徴は、有限状態文法により、管理可能で限定的な選択の組のみに制約される。従って、利用者には、ＨＭＭモデル４６との比較の際に発音の質において相当な許容度を与えることができる。限定的な文法及び語彙の準備されたレッスンの形式のアプリケーションサブシステム４８が、モデル探索器４４と情報伝達する。アプリケーションサブシステム４８は、探索が行われるモデル探索器４４に有限状態文法を供給する。モデル探索器４４は、デシファーのような音声認識システムに組み込まれた逆トレーシングプロセスを介して逆トレース発生情報だけでなく認識や非認識をアプリケーションサブシステム４８に伝える。それから、アプリケーションサブシステム４８は本発明に従って利用者１２と対話する。

本発明と共に用いられる音声処理システムには２つの機能モードがあり、それは訓練モードと認識モードである。図３には、その処理が描かれている。訓練モードでは、訓練スクリプト１０２が訓練母集団１０４内の複数の人に与えられ、その各々は訓練スクリプト１０２に対応する複数の音声パターン１０６を作る。訓練スクリプト１０２と音声パターン１０６は、索引付けられた組として隠れマルコフモデルトレーナー１０８に与えられ、目標言語音声の一般ＨＭＭモデル１１１を作る。このことは、目標言語に対して一回だけ行われる必要があり、一般にはネーティブ話者といく人かの非ネーティブ話者を使って目標言語音声の一般ＨＭＭモデルを生成する。それから、ＨＭＭネットワークモデルコンパイラー１１０は、一般ＨＭＭモデルと予め選択されたスクリプト１１４を入力して、特に予め選択されたスクリプト用の音声モデルのネットワーク１１３を作る。ネットワークモデルコンパイラーの出力は、隠れマルコフモデルを基にした音声認識器１１２に与えられる。

認識モードでは、予め選択されたスクリプト１１４が被訓練者／利用者又は発音が評価されるべき装置１１６に対して与えられる。この予め選択されたスクリプト１１４は、訓練スクリプト１０２の機能的な一部であるが、選択されたスクリプト１０２の単語を必ずしも含まない。被訓練者／利用者１１６の音声は、予め選択されたスクリプト１１４に対応する音声パターン１１８の形式をとると推定される。予め選択されたスクリプト１１４と一つの音声パターン１１８は、索引付けられた組として隠れマルコフモデル音声認識器１１２に与えられる。現在の各評価期間（単音長、単語長、句長、又は文長の期間）中に、単語が認識器１１２により認識される。当該評価期間及び前の期間中に認識された単語の数から、認識得点の組１２０が計算され、ここに記載された種類のレッスン制御ユニットとして動作するアプリケーションサブシステム４８（図２）に送られる。得点の組１２０は、逆トレース発生情報内に組み入れられた認識プロセスのスナップショットである。この得点の組１２０は、後に説明される決定装置を具体化する有限状態機械を用いるアプリケーションサブシステム４８／レッスン制御ユニットに送られる。有限状態機械は、他にも機能はあるが、得点の組の生の情報をフィルタリングし、スクリプト化されたレッスンの良好な表現のみを同定する。具体的には、有限状態機械は得点の組の一部を同定して、それを基に、朗読速度や朗読の質を含めてレッスン実技の質を判定する。

図４Ａは、本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートである。これは、アプリケーションサブシステム４８に組み込まれた有限状態機械（ＦＳＭ）として働く。このアプリケーションサブシステム４８は、利用者１２との対話及びレッスン資料を制御する。

動作中は、ＣＲＴ上に表示し得るスクリプト又は読まれるべき印刷資料として作成されたスクリプトを参照することをＦＳＭにより指示される。ｉ＝１の文インデックスとｊ＝１の単語インデックスから始めて（ステップＡ）、トラッキングプロセスが行われる（ステップＢ）。ＦＳＭは利用者がスクリプト中の最後の文を読み終えたか否かを調べ（ステップＣ）、もし真ならばＥＮＤ（エンド）に抜け出る（ステップＤ）。そうでなければ、ＦＳＭは利用者がトラッカー(tracker) により検出されたときに休止しているか否か、及び最後のトラッキング操作以後スクリプトから適切な（認識可能な）単語を朗読したか否かを調べる（ステップＥ）。もし真ならば、ＦＳＭは好ましくは、例えば返答「オーケイ」のような、音声又は映像の肯定的返答で応答し（ステップＦ）、ＦＳＭはトラッキングプロセスを繰り返す（ステップＢ）。

他方、もしＦＳＭが最後のトラッキング操作以後利用者が適切な単語を朗読した後に休止していないことを認めるならば、ＦＳＭは利用者に「Ｐ（ｉ）から読んで下さい。」と言って催促する（ステップＧ）。Ｐ（ｉ）は、トラッキングされてない単語を含んだ句又はその直前の句におけるスクリプト中で同定された位置の最初の部分である。その後、トラッキングプロセスは再び実施され（ステップＨ）、この時点での忍耐のレベルは、利用者が事実上１ペナルティを有しているレベルである。それからＦＳＭは、この新しいレベルで上述したように最後の文の終了を調べ（ステップＩ）、もしスクリプトが終了していたら終わる（ステップＪ）。そうでなければ、ＦＳＭは利用者がトラッキング操作により検出されるとき休止しているか否か、及びスクリプトから適切な（認識可能な）単語を読んだか否かを調べる（ステップＫ）。もし真ならば、ＦＳＭは好ましくは、例えば返答「オーケイ」のような音声又は映像の肯定返答で応答し（ステップＬ）、新しい文の始まりを調べ（ステップＭ）、もし肯定ならば、ＦＳＭはトラッキングプロセスを繰り返し（ステップＢ）、もし否定ならば、ＦＳＭは現在の文内のトラッキングを繰り返す（ステップＨ）。

もしトラッキング操作により示されているように正しく単語が読まれていないならば（ステップＫ）、ＦＳＭは新しい文が始まったか否かを調べる（ステップＮ）。肯定の場合には、ＦＳＭはサイクルを繰り返し、文の初めから読むように利用者に促す（ステップＧ）。もしそれが文の初めでないならば、ＦＳＭは「違います。文はＳ（ｉ）です。Ｐ（ｉ）から読んで下さい。」と言う（ステップＰ）。換言すれば、利用者は文のモデルを与えられ、文の初めから開始すること、即ち再度試みることを催促される。

催促の後に、ＦＳＭはトラッキング手順を再実行し（ステップＱ）、それから最後の文が話されたか否かを調べる（ステップＲ）。もし肯定ならば終わり（ステップＳ）、そうでなければ、利用者がスクリプトから適切な単語を読み終わった後に休止しているのか否かを調べる（ステップＴ）。もし真ならば、ＦＳＭは「ｏｋ」を出し（ステップＵ）、新しい文を調べ（ステップＶ）、もし否定ならば、トラッキングを再び始める（ステップＱへ）。そうではなくもし新しい文ならば、トラッキングを忍耐の最高レベルに再設定する（ステップＢ）。もしＦＳＭが適切な単語をトラッキングしていないならば、新しい文が始まったか否かを調べ（ステップＷ）、もしそうならば、最初の文位置Ｐ（ｉ）から読み始めるように利用者を促す（ステップＧへ）。もしそれが新しい文でないならば、ＦＳＭは「よろしい。よくやった。今度は次の文の初めから読みなさい。（即ち、Ｐ（ｉ＋１））」のようなフレーズを述べることにより忍耐の損失を示す（ステップＺ）。それから文計数インデックスｉが１文だけ増加され（ｉ＋１）（ステップＡＡ）、単語計数インデックスｊは１にリセットされ（ステップＡＢ）、最初のトラッキングプロセスに戻り（ステップＢへ）、ＦＳＭはその忍耐の初期レベルを再び得る。

図４Ｂは図４ＡにおいてＦＳＭにより用いられるトラッキングプロセス（ステップＢ、Ｈ、Ｑ）のフロー図である。トラッキングプロセスは、例えば、予め選択されたスクリプトに対応する音声パターンの隠れマルコフモデルを用いて入力音声の１秒間を調べる（ステップＡＣ）。ＦＳＭはカウンター（ｉとｊ）を現在の位置に更新し（ステップＡＤ）、最後の文が復唱されたか否かを調べる（ステップＡＥ）。もし肯定ならば、トラッキングプロセスが終わる（ステップＡＦ）。もし最後の文が認識されなければ、ＦＳＭは、前の単語以後に認識された休止単音の数である休止指標を計算する（ステップＡＧ）。この休止指標は、一般的に休止の長さを示すものである。それから、この休止指標は、現在の位置（ｉ，ｊ）及び練習厳格さレベルに対する休止指標閾値と比較される（ステップＡＨ）。もし休止指標がこの閾値を越えるならば、トラッキングプロセスは終わる（ステップＡＩ）。もしそうでないならば、ＦＳＭはリジェクト（廃棄）指標を計算する（ステップＡＪ）。リジェクト指標とは、予め選択されたスクリプトに対応する音声を利用者が発していない可能性を一般に示し、このリジェクト指標は、例えば、最後の単語以後に認識器により戻された全てのリジェクト単音を合計することにより計算される。

その後、リジェクト指標がリジェクト指標閾値と比較される（ステップＡＫ）。この閾値は、練習採点厳格さレベル又はテキスト中の現在の位置の関数である。もしこの指標が閾値を越えるならば、当該手順は終わる（ステップＡＬ）。もしそうでないならば、リジェクト密度が計算される（ステップＡＭ）。

リジェクト密度は、スクリプト化された単語の前の数（例えば、５）を調べ、認識器により戻されたリジェクト単音の数を計数し、リジェクト単音の数をリジェクト単音の数とスクリプト化された単語の数（５）との合計で割ることにより計算される。その商がリジェクト密度である。従って、休止長の変化はリジェクト密度に影響しない。

その後、リジェクト密度がリジェクト密度閾値（練習厳格さレベル、テキスト位置又はその両方の関数）と比較される（ステップＡＮ）。もしリジェクト密度が閾値を越えていると、トラッキングプロセスは終わる（ステップＡＯ）。そうでなければ、トラッキングプロセスは続けられる（ステップＡＣ）。

リジェクト指標閾値、リジェクト密度閾値、及び休止指標閾値は、厳格さのレベル又はテキスト中の位置の関数として可変的に調節できる。調節は利用者、レッスン設計者、又は自動的にシステムにより行うことができる。

図５を参照すると、レッスンの朗読段階中の文レベル文法の構造が示されている。文レベル文法及び関連する言語的構造は、休止、ためらい雑音、及び生徒である話し手の音声に予期されるその他のスクリプト外の音声現象を許容するのに必要な構造的精巧さを与える。この文法は、スクリプト化された音声パターンから認識された文１２６、１２８、１３０を分離する「アルト」構造１２２からなる。「アルト」構造１２２（など）の目的は、読み手により朗読又は応答練習中に種々のポイントに朗読中に挿入されがちなスクリプト外（非スクリプトの又はスクリプトされてない）音声又は沈黙（単なる休止ではない）を同定又は説明することである。本発明によるアルト構造は、隠れマルコフモデルを基にした音声認識システムにおいて用いることができ、基本的な音声認識器に機能を追加して無関係な入力又は非スクリプト入力を明瞭な方法で扱うことができるようにしている。

図６を参照すると、朗読モード又は応答モードでの文に対する単語レベル文法の構造が示されている。特定のキーが検出のために探されるという公知の単語レベル文法とは違って、この文法は明らかに全ての単語の間の流暢でない復唱を予想しており、従って順序づけられた各単語１３６、１３８間のアルト構造１３２、１３４からなる。単語は、基本的単位として認識器により戻され得るが、アルト構造は、ここで更に詳細に説明するアルト構造を構成するリジェクト単音及び休止単音のストリングとして認識器により分析され戻される。これにより、アプリケーションサブシステム４８（図２）は利用者による朗読に関してより高レベルの決定ができるようになる。

図７を参照すると、応答モードにおける文レベル文法の構造が示されている。初期アルト１４０は軌線により選択肢としての複数の答え１４２、１４４、１４６、１４８のいずれか一つに接続される。答えの各々は軌線により最終アルト１５０に接続される。この文法は、初期アルト１４０上でループすることにより利用者からの予想外の返答をリジェクト（廃棄）し、また、最終アルト１５０上でループすることにより又は有効な答えのうちの一つの表現中に間投詞と休止を受け入れることにより、有効な答えの後の音声をリジェクトするためのものである。

図８は全てのアルトに共通のアルト構造１５２を示している。アルト構造１５２は隠れマルコフ状態のネットワークである。そのパラメータはスクリプト外の音声、沈黙、又は背景ノイズに対応する音響的特徴を説明べく訓練されている。アルト構造１５２は、初期ノード１６６と終端ノード１６８間の遷移弧１５８、１６０又は１６２、１６４のどちらかに向かう選択肢に沿った「休止」モデル１５４及び「リジェクト」モデル１５６からなる。初期ノード１６６と終端ノード１６８の間には、直接向かう遷移弧１７０と直接戻る遷移弧１７２も存在する。休止モデル１５４やリジェクトモデル１５６の内部構造は、３つのマルコフ状態と５つの遷移弧からなり、これは、ＳＲＩインターナショナル、メンロパーク、カルフォルニアで入手可能なデシファー音声認識システムにおいて他の単音のモデルに用いられる正確な構造である。

休止モデル１５４は、（一般に記録された）訓練データの非音声セグメントにより訓練された単音であり、主に訓練データ中に発生する沈黙又は背景ノイズの例からなる。リジェクト単音のモデル１５６は、訓練データからランダムに又は周期的に選択された広範囲の音声により訓練された単音である。

十分に訓練された休止モデル単音１５４とリジェクトモデル単音１５６とを有したアルト構造１５２は、内部で遷移弧により接続され、以下の起こり得る事象の全てを考慮できる。即ち、長期の沈黙（休止単音１５４と戻り円弧１７２を介しての多重ループ）、長期のスクリプト外の音声（リジェクト単音１５６と戻り円弧１７２を介しての多重ループ）、沈黙とスクリプト外の音声が交互する期間、及び休止無し且つスクリプト外音声無し（進行遷移弧１７０によるバイパス）である。

休止単音１５４やリジェクト単音１５６に導く初期遷移弧１５８又は１６２は、本発明の一つの実施例では、各々０．５の確率で等しく重みづけされる。

図９を参照すると、本発明による朗読速度計算器１８０が示されている。この朗読速度計算器１８０は、アプリケーションサブシステム４８（有限状態機械）から得点の組１２０の一部（データのアレイ）１８２を受け取り、種類（単語、休止要素、リジェクト要素）及び時間上の位置並びに特定の関連タイミングにより良好な音声の要素を同定する。確率情報は利用可能であるが使用する必要はない。

朗読速度は「良好な」単語を計数する単語カウンター１８４とタイマー１８６を用いて導き出される。このタイマー１８６は、フィルタリングされた（適切な）単語を含む句の持続時間を測定又は計算する。朗読速度得点１９０はデバイダー１８８により求められる。このデバイダー１８８は、「良好な」単語を含んで許容された句の復唱において経過した時間Ｔで「良好な」単語の数を割る。

ここに記載されたサブシステムは、以下に示された等式を実行する回路又は計算機プログラムにより実現できる。

図１０は朗読の質の得点２３０を決める機構１９２を示している。システムに関連して、予め選択されたスクリプト内の単語の数の計数値１９５を与える単語計数ソース１９４、スクリプトの最適朗読時間１９７を伝える機構１９６、リジェクト単音の数（１９９）を計数するための手段１９８、予め選択されたスクリプト内の全ての単語の朗読中の全経過時間２０１を測定するための手段２００、及び前記分析手段により許容できると思われる句の朗読中の「良好な」経過時間を測定するための手段２０２が存在する。

デバイダー手段２０４は、良好な時間値２０３で全時間値２０１を割り第１の商２０５を得るために設けられる。重み付け手段２０６（マルチプライヤー）は、第１重み付けパラメータ（「ａ」）で第１の商２０５を重み付けて第１得点成分を得るために設けられる。３つの重み付けパラメータａ，ｂ，ｃの合計は、慣例により好ましくは１．０であり、質の測度における３つのタイプ各々の相対的な重みの割り当てを可能にする。

セレクター手段２１０は、最適読み取り時間１９７と良好な時間２０３のうちの最大値を選択して好ましい最大値２１１を得るために設けられる。これは、速い朗読と好みに従って先導された朗読のうちの選択を数値化するのに用いられる。選択評価に関連して、デバイダー手段２１２が、最適朗読時間１９７で好ましい最大値２１１を割って第２の商２１３を得るために設けられる。第２の商は、重み付け手段２１４（マルチプライヤー）により第２重み付けパラメータ（ｂ）で重み付けられ、第２得点成分２１６が得られる。

加算器又は合計手段２１８が設けられ、リジェクト単音の数１９９とスクリプト単語の数１９５とを合計して質の値２１９を得る。デバイダー手段２２０が設けられ、質の値２１９で単語の数１９５を割って第３の商２２１を得る。第３の商は、重み付け手段２２２（マルチプライヤー）により第３重み付けパラメーター（ｃ）で重み付けられ、第３得点成分２２４が得られる。

三入力合計手段２２６が設けられ、第１、第２、及び第３得点成分２０８、２１６、２２４を合計して得点合計２２７を得る。得点合計２２７は、値が１０であるようなスケール因子２２８を掛ける重み付け手段によりパーセント又は他のスケールにスケーリングされ、朗読の質の得点２３０が得られる。

ここに記載されている朗読の質の評価サブシステムは、以下の式を用いる回路又は計算機プログラムにより実行され得る。
RQS = 10 * (a*T_g/T_t + b*(T_n/[max(T_n,T_g)]) + c*W/(R_g + W)
ここで、
RQS は１から１０のスケール上の朗読の質の得点（ここでは１０のスケール因子を基にしている。）であり、
ａ，ｂ，ｃはスケール因子で、その合計は１に等しく、特定の実施例では、ａ＝０．２５，ｂ＝０．２５，ｃ＝０．５であり、
Ｗはテキスト中の単語の数であり、
Ｔ_g は「良好な」時間又は適切な文を朗読するのに使った時間であり、
Ｔ_t は初期及び最終休止を除いて朗読に使った全朗読時間であり、
Ｔ_n は最適朗読時間、即ち適切なネーティブ話し手による朗読時間であり、
Ｒ_g は文の「適切な」表現中、即ちＴ_g 中に検出されたリジェクトの数である。

付録Ａは、計算機ワークステーション上で実現された本発明によるシステムのソースコードのリストのマイクロフィッシュ付録である。ソースコードの言語はＣである。
本発明は特定の実施例を参照して説明されてきた。他の実施例も本説明を参照の上では当業者には明らかとなるであろう。従って、この発明は添付の請求項により示されたもの以外には制限されることはないであろう。

本発明に関連の実施態様を以下に記す。
１．入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ；
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ；
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連している前記ステップ；
該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップであって、前記正確さは、入力音声の話者が読み上げるように促された事前に選ばれたスクリプトに対し、いかに良好に入力音声が一致しているかの尺度である前記ステップ；及び
アプリケーションサブシステム、オーディオ装置及び／又は映像装置から入力音声の正確さの指標を出力することで、いかに良好に話者が事前に選ばれたスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。
２．アナログ-デジタル変換器にて入力音声をデジタル化し、デジタル化した入力音声をデジタルメモリに記憶するステップ；
文法モデルと変更した文法モデルをデジタルメモリに記憶するステップ；及び
デジタルコンピュータの音声認識器において、入力音声と記憶した文法モデルを比較するステップ
をさらに含む、第1項に記載の方法。
３．入力音声に応じて、少なくとも３つの忍耐レベルに従って音声的及び意味的に的確な事前に選択したスクリプトを再度読み上げるようにオーディオ装置及び／又は映像装置を介して話者に促すステップをさらに含む、第1項に記載の方法。
４．入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ；
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連している前記ステップ；
該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ；及び
アプリケーションサブシステム、オーディオ装置及び／又は映像装置から入力音声の正確さの指標を話者に出力するステップ
を含み、前記事前に選ばれたスクリプトが代替テキストを含み、
また、該方法が、モデルトレーナーにおいて代替テキストに対する双方向性の会話文法モデルを発生するステップであって、該双方向性の会話文法モデルが、代替フレーズの選択の前に置かれた第１の共通アルト要素と、代替フレーズの選択の後に置かれた第２の共通アルト要素を含み、音声的に正確だが意味的に不的確な代替応答を可能にするステップをさらに含む上記方法。
５．長期の沈黙、長期のスクリプト外の音声、沈黙期間とスクリプト外の音声の期間を交互にもつ音声、及び休止又はスクリプト外の音声のない音声を含めた事象に対する複数の遷移弧としてアルト要素が構造化される、第４項に記載の方法。
６．入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ；
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連し、
ａ）アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止単音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ；
ｂ）アプリケーションサブシステムの有限状態機械において、現在のセグメントに対しリジェクト密度を求めるステップ；及び
ｃ）アプリケーションサブシステムの有限状態機械において、もしリジェクト密度がリジェクト密度のしきい値を超えているならば、現在のセグメントをスクリプト外の音声として表すステップ
を含む前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ；及び
アプリケーションサブシステム、オーディオ装置及び／又は映像装置から入力音声の正確さの指標を話者に出力するステップ
を含む上記方法。
７．現在のセグメントのリジェクト密度を求めるステップが、前記有限状態機械において、所定数の連続したスクリプト化された単語に対する音声認識器により戻されたリジェクト単音の数を、リジェクト単音数と該所定数の連続したスクリプト化された単語数との和で除するステップを含む、第６項に記載の方法。
８．入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ；
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連し、
ａ）アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ；
ｂ）アプリケーションサブシステムの有限状態機械において、現在のセグメントに対しリジェクト密度を求めるステップ；及び
ｃ）アプリケーションサブシステムの有限状態機械において、もしリジェクト密度がリジェクト密度のしきい値を超えているならば、現在のセグメントをスクリプト外の音声として表すステップ
を含む前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ；及び
アプリケーションサブシステム、オーディオ装置及び／又は映像装置から入力音声の正確さの指標を話者に出力することで、いかに良好に話者が所定のスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。
９．現在のセグメントに対するリジェクト指標を求めるステップが、所定数の連続したスクリプト化された単語に対し音声認識器により戻されたリジェクト単音数を合計するステップを含む、第８項に記載の方法。
１０．入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ；
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連し、
ａ）アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止単音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ；
ｂ）前記有限状態機械において、現在のセグメントに対し休止指標を求めるステップ；及び
ｃ）前記有限状態機械において、もし休止指標が休止指標のしきい値を超えているならば、現在のセグメントを有効(actionable)な休止として表すステップであって、該有効な休止は、自動音声認識器と話者の間の対話における交替点を表す前記ステップ
を含む前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ；及び
アプリケーションサブシステム、オーディオ装置及び／又は映像装置から入力音声の正確さの指標を話者に出力することで、いかに良好に話者が所定のスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。
１１．アプリケーションサブシステムにおいて、現在のセグメントの言語的文脈及び所定のスクリプト中の現在のセグメントの位置に依存したしきい値として休止指標のしきい値を発生するステップであって、休止指標のしきい値が、所定のスクリプトの文の他のところの単語間よりも文及び主節の終わりにて小さい前記ステップをさらに含む、第1０項に記載の方法。
１２．休止指標を求めるステップが、アプリケーションサブシステムにおいて、所定のスクリプトのうち所定数の連続した単語から音声認識器により戻された休止単音を合計するステップを含む、第1０項に記載の方法。
１３．文法モデル及び所定のスクリプトを読み上げるように促された話者により話された入力音声から単語列の認識結果及び単音列の認識結果を作る自動音声認識器を用いて、話者の音声をトラッキングするためのシステムであって、
主題及び所定のスクリプトについて話者に情報を与え、かつ所定のスクリプトを読み上げるように話者に促すための提示手段；
提示手段の催促に応じて話された入力音声を電子的に取り込むための音声検出手段であって、取り込んだ入力音声はコンピュータメモリに記憶される前記手段；
取り込んだ入力音声を分析し、単語及びアルトを認識すべく訓練された認識モデルと単語及びアルトを含んだ文法に基づいて単語及びアルトの列を求める自動音声認識手段であって、求められた単語及びアルトは取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声及び休止を表す前記手段；
自動音声認識手段に接続され、前記列を受け取り、その結果から発声の完全性を評価し、所定のスクリプトの読み上げの正確さを求めるための音声評価手段であって、前記正確さは、いかに良好に入力音声が、入力音声の話者が読み上げるように促された所定のスクリプトに一致しているかの尺度である前記手段；及び
評価手段に接続され、もし読み上げが正確でないならば、所定のスクリプトを正しく読み上げるよう話者に指示する応答を行うための応答手段を備える前記システム。
１４．話者にとっては外国語で指導するために用いられる第１３項に記載のシステムであって、応答手段が、ネイティブの発音及び該言語での音声の表現の例として可聴応答を発生するための手段を含む前記システム。
１５．読み上げ速度を測定するための手段をさらに含み、該手段が、
読み上げられた単語を計数して読み上げられた単語数を求めるための単語カウンター手段；
スクリプト化された単語の読み上げ時間を測定するためのタイマー手段；及び
読み上げられた単語数を、測定した経過時間で除するための第1デバイダー手段
を含む、第１３項に記載のシステム。
１６．読み上げの質を測定して読み上げの質の得点（２３０）を得るための手段（１９２）をさらに含み、該手段が、
所定のスクリプト中の単語（１９５）を計数して所定のスクリプトの単語数を求めるための単語計数手段（１９４）；
最適な読み上げ時間（１９７）を伝えるための伝達手段（１９６）；
リジェクト単音（１９９）を計数してリジェクト単音の数を求めるための計数手段（１９８）；
所定のスクリプトの読み上げ中に経過した総時間（２０１）を測定するための第1時間測定手段（２００）；
分析手段により許容可能と判断されたフレーズの読み上げ中に経過した良好時間（２０３）を測定するための第2時間測定手段（２０２）；
第2時間測定手段から良好時間（２０３）を受け取り、第1時間測定手段から総時間（２０１）を受け取り、良好時間（２０３）を総時間（２０１）で除して第１の商（２０５）を得るための第1デバイダー手段（２０４）；
伝達手段から最適読み上げ時間（１９７）を受け取り、最適読み上げ時間（１９７）と良好時間（２０３）のうちの最大である好適な最大値（２１１）を選択して出力するためのセレクター手段（２１０）；
伝達手段（１９６）に接続されて最適読み上げ時間を受け取り、セレクター手段に接続されて好適な最大値を受け取り、最適読み上げ時間（１９７）を好適な最大値（２１１）で除して第２の商（２１３）を得るための第2デバイダー手段（２１２）；
単語計数手段（１９４）に接続されて所定のスクリプトの単語数（１９５）を受け取り、計数手段（１９８）に接続されてリジェクト単音数（１９９）を受け取り、リジェクト単音数（１９９）と所定のスクリプトの単語数（１９５）とを合計し、質の値（２１９）を得るための合計手段（２１８）；
合計手段（２１８）に接続されて質の値を受け取り、単語計数手段（１９４）に接続されて所定のスクリプトの単語数（１９５）を受け取り、所定のスクリプトの単語数（１９５）を質の値（２１９）で除して第３の商（２２１）を得るための第3デバイダー手段（２２０）；及び
第1デバイダー手段（２０４）に接続されて第1得点成分（２０８）を受け取り、第2デバイダー手段（２１２）に接続されて第2得点成分（２１６）を受け取り、第3デバイダー手段（２２０）に接続されて第3得点成分（２２４）を受け取り、第１得点成分（２０８）、第２得点成分（２１６）及び第３得点成分（２２４）の重み付き合計として、読み上げの質の得点（２３０）を計算するための計算手段
を備える、第１３項に記載のシステム。
１７．文法モデル及び所定のスクリプトを読み上げるように促された話者により話された入力音声から単語列の認識結果及び単音列の認識結果を作る自動音声認識器を用いて、話者の音声をトラッキングするためのシステムであって、
主題及び所定のスクリプトについて話者に情報を与え、かつ所定のスクリプトを読み上げるように話者に促すための提示手段；
提示手段の催促に応じて話された入力音声を電子的に取り込むための手段であって、取り込んだ入力音声はコンピュータメモリに記憶される前記手段；
取り込んだ入力音声を分析し、単語及びアルトを認識すべく訓練された認識モデルと単語及びアルトを含んだ文法に基づいて単語及びアルトの列を求める音声認識手段であって、求めた単語とアルトは取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声及び休止を表す前記手段；
分析手段に接続され、発声の完全性を評価し、所定のスクリプトの読み上げの正確さを求めるための手段；
評価手段に接続され、もし読み上げが正確でないならば、所定のスクリプトを正しく読み上げるよう話者に指示する応答を行うための応答手段；
読み上げの質を測定して読み上げの質の得点（２３０）を得るための手段（１９２）であって、
（ａ）所定のスクリプト中の単語（１９５）を計数して所定のスクリプトの単語数を求めるための単語計数手段（１９４）；
（ｂ）最適な読み上げ時間（１９７）を伝えるための伝達手段（１９６）；
（ｃ）リジェクト単音（１９９）を計数してリジェクト単音の数を求めるための計数手段（１９８）；
（ｄ）所定のスクリプトの読み上げ中に経過した総時間（２０１）を測定するための第1時間測定手段（２００）；
（ｅ）分析手段により許容可能と判断されたフレーズの読み上げ中に経過した良好時間（２０３）を測定するための第2時間測定手段（２０２）；
（ｆ）第2時間測定手段から良好時間（２０３）を受け取り、第1時間測定手段から総時間を受け取り、良好時間（２０３）を総時間（２０１）で除して第１の商（２０５）を得るための第1デバイダー手段（２０４）；
（ｇ）伝達手段から最適読み上げ時間（１９７）を受け取り、最適読み上げ時間（１９７）と良好時間（２０３）のうちの最大である好適な最大値（２１１）を選択し出力するためのセレクター手段（２１０）；
（ｈ）伝達手段（１９６）から最適読み上げ時間を受け取り、セレクター手段から好適な最大値を受け取り、最適読み上げ時間（１９７）を好適な最大値（２１１）で除して第２の商（２１３）を得るための第２デバイダー手段（２１２）；
（ｉ）単語計数手段（１９４）から所定のスクリプトの単語数（１９５）を受け取り、計数手段（１９８）からリジェクト単音数（１９９）を受け取り、リジェクト単音数（１９９）と所定のスクリプトの単語数（１９５）とを合計し、質の値（２１９）を得るための合計手段（２１８）；
（ｊ）合計手段（２１８）から質の値を受け取り、単語計数手段（１９４）から所定のスクリプトの単語数（１９５）を受け取り、所定のスクリプトの単語数（１９５）を質の値（２１９）で除して第３の商（２２１）を得るための第3デバイダー手段（２２０）；及び
（ｋ）第1デバイダー手段（２０４）から第1得点成分（２０８）を受け取り、第２デバイダー手段（２１２）から第2得点成分（２１６）を受け取り、第３デバイダー手段（２２０）から第3得点成分（２２４）を受け取り、第１得点成分（２０８）、第２得点成分（２１６）及び第３得点成分（２２４）の重み付き合計として、読み上げの質の得点（２３０）を計算するための計算手段；
を含む前記手段（１９２）
を備え、前記計算手段が、
１）第１の商（２０５）を第１の重み付けパラメータ（ａ）で重み付けして第１得点成分（２０８）を得るための第1乗算手段（２０６）；
２）第２の商（２１３）を第２の重み付けパラメータ（ｂ）で重み付けして第２得点成分（２１６）を得るための第2乗算手段（２１４）；
３）第３の商（２２１）を第３の重み付けパラメータ（ｃ）で重み付けして第３得点成分（２２４）を得るための第3乗算手段（２２２）；
４）第１得点成分（２０８）、第２得点成分（２１６）及び第３得点成分（２２４）を合計して得点合計（２２７）を出すための合計手段（２２６）；及び
５）得点合計（２２７）を倍率（２２８）で重み付けして読み上げの質の得点（２３０）を得るための第4乗算手段
をさらに備える、前記システム。
１８．音声出力及びグラフィック出力と自動音声認識器とを用いて音声をトラッキングしかつ話者と対話するためのシステムであって、該自動音声認識器は、複数の所定の代替スクリプトを含んだ所定のスクリプトから読み上げるように促された後に話者が話した入力音声と文法モデルとから、単語列の認識結果と単音列の認識結果を作り、該システムは、
主題について話者に情報を提示し、複数の所定の代替スクリプトのうちの一つを読み上げるよう話者に促すための提示手段；
入力音声を電子的に取り込むための感知手段であって、取り込まれた入力音声はコンピュータメモリに記憶される前記感知手段；
取り込まれた入力音声を分析し、話者により話された入力音声に対応する入力認識結果を求めるための分析手段であって、該分析手段は単語及びアルトを認識すべく訓練された音声認識モデルと単語及びアルトを含んだ文法に基づいて入力認識結果を求め、求めた入力認識結果は取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声、休止及び／又は背景ノイズを表す前記分析手段；
分析手段に接続され、複数の所定の代替スクリプトのうちどの所定の代替スクリプトが入力認識結果に最もよく対応しているかを特定するための特定手段；
特定手段に接続され、発声の完全性を評価して特定された所定の代替スクリプトの読み上げの正確さを求めるための評価手段であって、該正確さは、入力音声が、入力音声の話者に読み上げるように促された所定のスクリプトといかに良好に一致しているかの尺度である前記評価手段；及び
評価手段に接続され、特定された所定の代替スクリプトの読み上げの正確さと、特定された所定の代替スクリプトの意味的な適切さとを話者に示す応答を、発声の完了の際に出力するための出力手段
を含む、前記システム。
１９．対話システムが、話者にとっては外国語による指導用であり、応答手段が、ネイティブの発音及び表現の例として可聴応答を発生するための手段を含む、第１８項に記載のシステム。
２０．指標を出力するステップが、指標を間接的に出力するステップであり、
アプリケーションサブシステムからレッスンプログラムに指標を入力するステップ；及び
オーディオ装置及び／又は映像装置を介して、レッスンプログラムを用いて、レッスンプログラムに入力された正確さに従った動作を取ることにより話者の読み上げの正確さを話者に示すステップ
を含む、第1項に記載の方法。

本発明によるシステムのブロック図である。本発明で用いられる認識プロセスの機能ブロック図である。本発明に関連して用いられるプロセスの機能ブロック図である。本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの最初の一部である。本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの次の一部である。本発明に従ったトラッキングプロセスのフローチャートである。本発明に従った朗読モードにおいて用いられる文レベル文法の状態図である。本発明に従って用いられる単語レベル文法の状態図である。本発明に従った応答モードにおいて用いられる文レベル文法の状態図である。本発明に従った上記文法で用いられる「アルト」構造の状態図である。朗読速度の計算器のブロック図である。朗読の質の計算器のブロック図である。

符号の説明

１０指導装置
１２利用者
１４電話
１６マイク
１８スピーカー
２０ＣＲＴ
２２テキスト
２４電話ネットワーク
２６マルチプレクサー
３４デジタル信号処理（ＤＳＰ）サブシステム
３６ワークステーション
４２フロントエンド信号処理システム
４４モデル探索器
４６ＨＭＭモデル
４８アプリケーションサブシステム
１０８ＨＭＭトレーナー
１１２音声認識器

Claims

入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ；
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ；
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ；
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連している前記ステップ；
該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップであって、前記正確さは、入力音声の話者が読み上げるように促された事前に選ばれたスクリプトに対し、いかに良好に入力音声が一致しているかの尺度である前記ステップ；及び
アプリケーションサブシステム、オーディオ装置及び／又は映像装置から入力音声の正確さの指標を出力することで、いかに良好に話者が事前に選ばれたスクリプトを読み上げたかを話者に知らせるステップ
を含み、更に、
指標を出力するステップが、指標を間接的に出力するステップであり、
アプリケーションサブシステムからレッスンプログラムに指標を入力するステップ；及び
オーディオ装置及び／又は映像装置を介して、レッスンプログラムを用いて、レッスンプログラムに入力された正確さに従った動作を取ることにより話者の読み上げの正確さを話者に示すステップ
を含む方法。