JP3899122B6 - 音声対話式言語指導のための方法及び装置 - Google Patents
音声対話式言語指導のための方法及び装置 Download PDFInfo
- Publication number
- JP3899122B6 JP3899122B6 JP1994520287A JP52028794A JP3899122B6 JP 3899122 B6 JP3899122 B6 JP 3899122B6 JP 1994520287 A JP1994520287 A JP 1994520287A JP 52028794 A JP52028794 A JP 52028794A JP 3899122 B6 JP3899122 B6 JP 3899122B6
- Authority
- JP
- Japan
- Prior art keywords
- script
- speech
- speaker
- alto
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 53
- 230000002452 interceptive effect Effects 0.000 title claims description 8
- 238000013515 script Methods 0.000 claims description 147
- 230000004044 response Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 6
- 235000003642 hunger Nutrition 0.000 claims 2
- 230000037351 starvation Effects 0.000 claims 2
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 230000002035 prolonged effect Effects 0.000 claims 1
- 230000000284 resting effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 208000019505 Deglutition disease Diseases 0.000 description 1
- 206010013954 Dysphoria Diseases 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Description
本発明の背景
この発明は音声(スピーチ)認識に関し、特に言語又は音声指導で用いるための隠れマルコフモデル(hidden Markov model)(HMM)に基づいたシステムに関する。
背景として、隠れマルコフモデル化のプロセスについての説明は、ラビナー(Rabiner)らによる1986年の論文「隠れマルコフモデル入門(An Introduction to Hidden Markov Models)」、IEEE ASSP Magazine、1986年1月、4〜16頁に記載されている。
隠れマルコフモデルに基づいた種々の音声認識システムが知られており、ここでその詳細を述べる必要はないであろう。このようなシステムは一般に音素(phoneme)の認識を利用する。この場合の音素は、1組の訓練例から評価されたパラメータを有する音声セグメント(異音(allophone)又はもっと一般的に単音(phone)を含む。)の統計的モデルである。
単音は音素の音響的認識であり、音素は単語を区別するのに用いることができる音声の最小単位であるので、単語のモデルは適当な単音モデルからネットワークを作ることにより作られる。入力音声信号に対する認識は、単語モデルの組を通る最もあり得そうな経路を探すことにより行われる。
公知の隠れマルコフモデル音声認識システムは、マルコフソースとしての音声導出モデルを基にしている。モデル化されている音声単位は、有限状態機械により表される。確率分布は各ノードを離れる遷移に関連し、ノードに到達するとき各遷移が取る確率を特定する。出力シンボルに対する確率分布は各ノードに関連する。遷移確率分布は暗黙の内に持続時間をモデル化する。出力シンボル分布は一般にスペクトルのような音声信号特性をモデル化するのに用いられる。
遷移と出力シンボルに対する確率分布は、ラベル付けされた音声例を用いて評価される。観測された列を発生する最も高い確率を有するマルコフネットワークを通る経路を求めることにより、認識がなされる。連続音声に対しては、この経路は単語モデルの列に対応するであろう。
語彙外の音声を説明するモデルが知られており、ここではリジェクト単音モデルというが、しばしば「フィルター」モデルとも言われる。このようなモデルはローズ(Rose)他による「隠れマルコフモデルを基にしたキーワード認識システム(A Hidden Markov Model Based Keyword Recognition System)」、IEEE ICASSPのプロシーディング、1990年に記載されている。
本発明と共に用いられる特定の隠れマルコフモデル認識システムは、デシファー(Decipher)音声認識器であり、これはSRIインターナショナル、メンロパーク(Menlo Park)、カルフォルニアから入手できる。デシファーシステムは、確率的音韻論的情報、コンテキスト依存の様々なレベルで音声モデルを訓練できるトレーナー、単語の多様な発音、及び認識器を組み込んでいる。共同発明者は本発明の周辺に関連した指導法などの開発について他の論文やレポートを出している。その各々は、質疑応答技術の初期のものについて述べている。例えば、「英語発音の自動評価と訓練(Automatic Evaluation and Training in English Pronunciation)」、Proc. ICSLP 90、1990年11月、神戸、日本、「不特定話者連続音声認識の商用応用に向けて(Toward Commercial Applications of Speaker-Independent Continuous Speech Recognition)」、Speech Tech 91のプロシーディング、1991年4月23日、ニューヨーク、ニューヨーク、及び「音声対話式言語指導システム(A Voice Interactive Language Instruction System)」、Eurospeech 91のプロシーディング、ジェノア、イタリア、1991年9月25日を参照せよ。これらの論文は、実演の観測者が経験することを単に記載したものである。
他の言語訓練技術も知られている。例えば、エザワ(Ezawa)他の米国特許第4,969,194号には、言語の発音における利用者の簡単な練習用システムが開示されている。そのシステムでは音声認識は出来ないけれども、コンパレーターを用いて信号を基にしたフィードバック機構を有していると思われる。このコンパレーターは、音声の幾つかの音響的特徴及び音声の基本周波数を基準の組を比較する。
オカモト(Okamoto)の米国特許第4,380,438号には、利用者自身の音声を記録し再生するために用いられるアナログテープレコーダーのデジタルコントローラーが開示されている。これは認識することはできない。
ボグ(Boggs)への米国特許第4,860,360号は、通信チャンネル内の歪みが分析される音声評価用システムである。その開示は信号分析と歪み程度の計算のみに関連しており、どんな既知の語彙に対しても音声信号の整列や認識は行わない。
ハーブソン(Harbeson)への米国特許第4,276,445号には、アナログピッチ表示より粗い音声分析システムが記載されている。それが本発明に関連するとは考えられない。
ホランド(Holland)他への米国特許第4,641,343号には、フォルマント周波数を引き出すアナログシステムが記載されている。このフォルマント周波数は、利用者への基本的な表示のためにマイクロプロセッサーに送られる。唯一のフィードバックは、入力信号から直接計算可能な特徴のグラフィック表現である。音声認識又はその他の如何なる高レベル処理に対する要素も存在しない。
ベーカー(Baker)他への米国特許第4,783,803号には、音声認識装置及び技術が開示されており、これは音声の開始を探すべくフレーム間の場所を求めるための手段を含んでいる。この開示には、音響パラメータのみを処理する低レベル音響ベースの終点検出器が含まれるが、より高いレベルのコンテキスト感知式の終点検出は可能ではない。
必要とされているのは、利用者と言語的コンテキスト感知の方法で対話でき、準会話的方法で利用者によるスクリプト(script)の朗読をトラッキングし、適当に表現され自然に聞こえる音声で利用者を指導する認識及びフィードバックシステムである。
本発明の概略
本発明によると、指導及び評価のための、特に言語の指導及び言語の流暢さの評価のための言語的コンテキスト感知式の音声認識を用いた指導システムが提供される。このシステムは、非ネーティブである利用者の強い外国アクセントを許容する一方、自然な音声対話式方法でレッスン、特に言語レッスンをしてその評価を与えることができる。レッスン資料と指導は、これに制限されるものではないが、ビデオ、オーディオ又は印刷された視覚的テキストを含めて、種々の方法で学習者に提示できる。例として、言語指導の特定された用途においては、ある指導は利用者になじみの言語でできる一方、会話及び対話の全体を目標言語、即ち指導言語で行うことができる。
システムは、予め選択された視覚情報と共に、訓練を受けている人に聴覚情報を与えることができる。システムは、朗読段階中、システムに記憶されているスクリプトとの比較に基づいて選択された音声パラメータを監視しながら、被訓練者である利用者を促してテキストを大声で読むように促す。次に、システムは、利用者に特定の質問を行って、可能な応答のリストを提示する。それから、利用者は、目標言語で適当な応答を復唱することにより答えるのを期待される。システムは、利用者の下手な発音、休止、およびその他の失流暢にも拘わらず、スクリプト化された音声を正確に認識でき自然に応答できる。
特定の実施例では、レッスン中の単語列パターンの範囲に対応する有限状態文法の組が、HMM音声認識器内の隠れマルコフモデル(HMM)探索装置上の制約として用いられる。このHMM音声認識器は、目標言語のネーティブ話者により作られた目標言語によるナレーション(スクリプト)の隠れマルコフモデルの組を含んでいる。
他の言語的コンテキスト感知式の音声認識器も基本的な音声認識エンジンとして用いることができるけれども、本発明は好ましくはSRIインターナショナル、メンロパーク、カルフォルニアから入手可能なデシファー音声認識器のような言語的コンテキスト感知式の音声認識器の利用に基づいている。
本発明は、朗読練習のような練習を通して利用者を先導するための機構や、対話式決定機構を用いた一群の多項選択式の質問を含む。この決定機構は少なくとも3つのエラー許容レベルを用いており、それにより、人間を基にした対話式指導における自然なレベルの忍耐をシミュレートする。
朗読段階のための機構は、少なくとも4つの状態を有する有限状態機械又は同等物を通じて実現され、これはスクリプト中のどんな場所の朗読エラーも認識し、動作の第1組を用いる。対話式質問段階のための関連した機構もまた、少なくとも4つの状態を有するもう一つの有限状態機械を通じて実現されるが、動作の第2組を用い、誤った応答のみならず朗読エラーも認識する。
少なくとも休止とスクリプトを外れた発声とを含んだ失流暢を明白にモデル化しつつ、ナレーション用のスクリプトを用いることにより、音声の確率的モデルは、言語的コンテキスト感知式の音声認識器の一部として、簡素化さる。
対話式朗読及び質問/応答段階と共に、言語的に感知する発声終点の検出が、音声発声の終端を判定すべく行われ、会話音声における人の交替時をシミュレートする。
採点システムが与えられ、これは、正しい朗読中の時間部分や、対象者の朗読速度と標準のネーティブの朗読速度の比や、認識された単語ストリーム内の「アルト(alt)」単位(新しい音声モデル)の部分に重み付けすることにより、音声及び朗読の熟達度、即ち速度とエラーレートを分析することができる。
DSP装置又は同等の能力を有するプロセッサーと共に、本発明により特定のレッスンの科目についてシステムと利用者の間のリアルタイムの会話ができるようになる。本発明は便利にはシステムから離れた場所で電話ネットワークを介して用いることができる。利用者は電話番号を選択することによりシステムにアクセスし、システムとの対話のための視覚的又は記憶された資料を参照する。
本発明は添付の図面に関連した以下の詳細な記載を参照することによりよりよく理解されるであろう。
【図面の簡単な説明】
図1は本発明によるシステムのブロック図である。
図2は本発明で用いられる認識プロセスの機能ブロック図である。
図3は本発明に関連して用いられるプロセスの機能ブロック図である。
図4A1は本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの最初の一部である。
図4A2は本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの次の一部である。
図4Bは本発明に従ったトラッキングプロセスのフローチャートである。
図5は本発明に従った朗読モードにおいて用いられる文レベル文法の状態図である。
図6は本発明に従って用いられる単語レベル文法の状態図である。
図7は本発明に従った応答モードにおいて用いられる文レベル文法の状態図である。
図8は本発明に従った上記文法で用いられる「アルト」構造の状態図である。
図9は朗読速度の計算器のブロック図である。
図10は朗読質の計算器のブロック図である。
特定の実施例の説明
図1を参照すると、本発明による指導装置10のシステムブロック図が示されており、装置10の近くに位置する利用者12を指導するか、又は装置10から離れて位置する利用者12’を指導し電話14を介して通信する。ローカル利用者12はマイクロフォン16を通じてシステムと対話でき、スピーカー又はイヤホン18及び映像モニター(CRT)20を介して指導及びフィードバックされる。リモート利用者12’は、新聞広告などの刊行若しくは印刷されたテキスト22を通じて促され、又はなんらかの周知又は記憶されたテキストを用いることができる。リモート利用者の電話14はマルチプレクサー26を介して電話ネットワーク24を通じて結ばれる。ローカル利用者のマイクロフォン16もマルチプレクサー26に接続される。マルチプレクサー26の出力はプリアンプ28に接続され、ローパスフィルター30を介してアナログ−デジタル変換器32に接続される。この変換器32は、ワークステーション又は時分割計算機36内のデジタル信号処理(DSP)サブシステム34の一部である。DSPサブシステム34からの出力は、デジタル−アナログ変換器(DAC)38を介してアンプ40又は電話ネットワーク24のどちらか一方又は両方に供給される。これらのアンプ40及び電話ネットワーク24は夫々スピーカー18及び電話14に接続される。CRT20は一般的にワークステーション36の映像出力装置である。適当なDSPサブシステムとしては「ソニテックスピリット30(Sonitech Spirit 30)」DSPカードがあり、適当なワークステーションとしてはサンマイクロシステムズ(Sun Microsystems)のスパークステーション2ユニックスワークステーション(SPARCStation 2 UNIX workstation)がある。
図1に関連した図2を参照すると、基本的システムの基本操作が描かれている。システムは好ましくは、SRIインターナショナルのデシファーシステムのような音声認識システムを中心に構築される。利用者12は映像又は音によって催促するような刺激に反応してマイクロフォン(MIC)14に話す。マイクロフォン14の連続的な音声信号は電気的経路を通じて「フロントエンド」信号処理システム42に送られる。この信号処理システム42は主にDSPサブシステム34内に含まれ、マザーワークステーション36の制御に従う。フロントエンド信号処理システム42は、特徴抽出をして音響的特徴パラメータをモデル探索器44に送る。このモデル探索器44は、隠れマルコフモデルのモデルの組(HMM models)46を中心に構築される。モデル探索器44は、音響的特徴により「探索」を行う。これらの音響的特徴は、有限状態文法により、管理可能で限定的な選択の組のみに制約される。従って、利用者には、HMMモデル46との比較の際に発音の質において相当な許容度を与えることができる。限定的な文法及び語彙の準備されたレッスンの形式のアプリケーションサブシステム48が、モデル探索器44と情報伝達する。アプリケーションサブシステム48は、探索が行われるモデル探索器44に有限状態文法を供給する。モデル探索器44は、デシファーのような音声認識システムに組み込まれた逆トレーシングプロセスを介して逆トレース発生情報だけでなく認識や非認識をアプリケーションサブシステム48に伝える。それから、アプリケーションサブシステム48は本発明に従って利用者12と対話する。
本発明と共に用いられる音声処理システムには2つの機能モードがあり、それは訓練モードと認識モードである。図3には、その処理が描かれている。訓練モードでは、訓練スクリプト102が訓練母集団104内の複数の人に与えられ、その各々は訓練スクリプト102に対応する複数の音声パターン106を作る。訓練スクリプト102と音声パターン106は、索引付けられた組として隠れマルコフモデルトレーナー108に与えられ、目標言語音声の一般HMMモデル111を作る。このことは、目標言語に対して一回だけ行われる必要があり、一般にはネーティブ話者といく人かの非ネーティブ話者を使って目標言語音声の一般HMMモデルを生成する。それから、HMMネットワークモデルコンパイラー110は、一般HMMモデルと予め選択されたスクリプト114を入力して、特に予め選択されたスクリプト用の音声モデルのネットワーク113を作る。ネットワークモデルコンパイラーの出力は、隠れマルコフモデルを基にした音声認識器112に与えられる。
認識モードでは、予め選択されたスクリプト114が被訓練者/利用者又は発音が評価されるべき装置116に対して与えられる。この予め選択されたスクリプト114は、訓練スクリプト102の機能的な一部であるが、選択されたスクリプト102の単語を必ずしも含まない。被訓練者/利用者116の音声は、予め選択されたスクリプト114に対応する音声パターン118の形式をとると推定される。予め選択されたスクリプト114と一つの音声パターン118は、索引付けられた組として隠れマルコフモデル音声認識器112に与えられる。現在の各評価期間(単音長、単語長、句長、又は文長の期間)中に、単語が認識器112により認識される。当該評価期間及び前の期間中に認識された単語の数から、認識得点の組120が計算され、ここに記載された種類のレッスン制御ユニットとして動作するアプリケーションサブシステム48(図2)に送られる。得点の組120は、逆トレース発生情報内に組み入れられた認識プロセスのスナップショットである。この得点の組120は、後に説明される決定装置を具体化する有限状態機械を用いるアプリケーションサブシステム48/レッスン制御ユニットに送られる。有限状態機械は、他にも機能はあるが、得点の組の生の情報をフィルタリングし、スクリプト化されたレッスンの良好な表現のみを同定する。具体的には、有限状態機械は得点の組の一部を同定して、それを基に、朗読速度や朗読の質を含めてレッスン実技の質を判定する。
図4Aは、本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートである。これは、アプリケーションサブシステム48に組み込まれた有限状態機械(FSM)として働く。このアプリケーションサブシステム48は、利用者12との対話及びレッスン資料を制御する。
動作中は、CRT上に表示し得るスクリプト又は読まれるべき印刷資料として作成されたスクリプトを参照することをFSMにより指示される。i=1の文インデックスとj=1の単語インデックスから始めて(ステップA)、トラッキングプロセスが行われる(ステップB)。FSMは利用者がスクリプト中の最後の文を読み終えたか否かを調べ(ステップC)、もし真ならばEND(エンド)に抜け出る(ステップD)。そうでなければ、FSMは利用者がトラッカー(tracker)により検出されたときに休止しているか否か、及び最後のトラッキング操作以後スクリプトから適切な(認識可能な)単語を朗読したか否かを調べる(ステップE)。もし真ならば、FSMは好ましくは、例えば返答「オーケイ」のような、音声又は映像の肯定的返答で応答し(ステップF)、FSMはトラッキングプロセスを繰り返す(ステップB)。
他方、もしFSMが最後のトラッキング操作以後利用者が適切な単語を朗読した後に休止していないことを認めるならば、FSMは利用者に「P(i)から読んで下さい。」と言って催促する(ステップG)。P(i)は、トラッキングされてない単語を含んだ句又はその直前の句におけるスクリプト中で同定された位置の最初の部分である。その後、トラッキングプロセスは再び実施され(ステップH)、この時点での忍耐のレベルは、利用者が事実上1ペナルティを有しているレベルである。それからFSMは、この新しいレベルで上述したように最後の文の終了で調べ(ステップI)、もしスクリプトが終了していたら終わる(ステップI)。そうでなければ、FSMは利用者がトラッキング操作により検出されるとき休止しているか否か、及びスクリプトから適切な(認識可能な)単語を読んだか否かを調べる(ステップK)。もし真ならば、FSMは好ましくは、例えば返答「オーケイ」のような音声又は映像の肯定返答で応答し(ステップL)、新しい文の始まりを調べ(ステップM)、もし肯定ならば、FSMはトラッキングプロセスを繰り返し(ステップB)、もし否定ならば、FSMは現在の文内のトラッキングを繰り返す(ステップH)。
もしトラッキング操作により示されているように正しく単語が読まれていないならば(ステップK)、FSMは新しい文が始まったか否かを調べる(ステップN)。肯定の場合には、FSMはサイクルを繰り返し、文の初めから読むように利用者に促す(ステップG)。もしそれが文の初めでないならば、FSMは「違います。文はS(i)です。P(i)から読んで下さい。」と言う(ステップP)。換言すれば、利用者は文のモデルを与えられ、文の初めから開始すること、即ち再度試みることを催促される。
催促の後に、FSMはトラッキング手順を再実行し(ステップQ)、それから最後の文が話されたか否かを調べる(ステップR)。もし肯定ならば終わり(ステップS)、そうでなければ、利用者がスクリプトから適切な単語を読み終わった後に休止しているのか否かを調べる(ステップT)。もし真ならば、FSMは「ok」を出し(ステップU)、新しい文を調べ(ステップV)、もし否定ならば、トラッキングを再び始める(ステップQへ)。そうではなくもし新しい文ならば、トラッキングを忍耐の最高レベルに再設定する(ステップB)。もしFSMが適切な単語をトラッキングしていないならば、新しい文が始まったか否かを調べ(ステップW)、もしそうならば、最初の文位置P(i)から読み始めるように利用者を促す(ステップGへ)。もしそれが新しい文でないならば、FSMは「よろしい。よくやった。今度は次の文の初めから読みなさい。(即ち、P(i+1))」のようなフレーズを述べることにより忍耐の損失を示す(ステップZ)。それから文計数インデックスiが1文だけ増加され(i+1)(ステップAA)、単語計数インデックスjは1にリセットされ(ステップAB)、最初のトラッキングプロセスに戻り(ステップBへ)、FSMはその忍耐の初期レベルを再び得る。
図4Bは図4AにおいてFSMにより用いられるトラッキングプロセス(ステップB、H、Q)のフロー図である。トラッキングプロセスは、例えば、予め選択されたスクリプトに対応する音声パターンの隠れマルコフモデルを用いて入力音声の1秒間を調べる(ステップAC)。FSMはカウンター(iとj)を現在の位置に更新し(ステップAD)、最後の文が復唱されたか否かを調べる(ステップAE)。もし肯定ならば、トラッキングプロセスが終わる(ステップAF)。もし最後の文が認識されなければ、FSMは、前の単語以後に認識された休止単音の数である休止指標を計算する(ステップAG)。この休止指標は、一般的に休止の長さを示すものである。それから、この休止指標は、現在の位置(i,j)及び練習厳格さレベルに対する休止指標閾値と比較される(ステップAH)。もし休止指標がこの閾値を越えるならば、トラッキングプロセスは終わる(ステップAI)。もしそうでないならば、FSMはリジェクト(廃棄)指標を計算する(ステップAJ)。リジェクト指標とは、予め選択されたスクリプトに対応する音声を利用者が発していない可能性を一般に示し、このリジェクト指標は、例えば、最後の単語以後に認識器により戻された全てのリジェクト単音を合計することにより計算される。
その後、リジェクト指標がリジェクト指標閾値と比較される(ステップAK)。この閾値は、練習採点厳格さレベル又はテキスト中の現在の位置の関数である。もしこの指標が閾値を越えるならば、当該手順は終わる(ステップAL)。もしそうでないならば、リジェクト密度が計算される(ステップAM)。
リジェクト密度は、スクリプト化された単語の前の数(例えば、5)を調べ、認識器により戻されたリジェクト単音の数を計数し、リジェクト単音の数をリジェクト単音の数とスクリプト化された単語の数(5)との合計で割ることにより計算される。その商がリジェクト密度である。従って、休止長の変化はリジェクト密度に影響しない。
その後、リジェクト密度がリジェクト密度閾値(練習厳格さレベル、テキスト位置又はその両方の関数)と比較される(ステップAN)。もしリジェクト密度が閾値を越えていると、トラッキングプロセスは終わる(ステップAO)。そうでなければ、トラッキングプロセスは続けられる(ステップAC)。
リジェクト指標閾値、リジェクト密度閾値、及び休止指標閾値は、厳格さのレベル又はテキスト中の位置の関数として可変的に調節できる。調節は利用者、レッスン設計者、又は自動的にシステムにより行うことができる。
図5を参照すると、レッスンの朗読段階中の文レベル文法の構造が示されている。文レベル文法及び関連する言語的構造は、休止、ためらい雑音、及び生徒である話し手の音声に予期されるその他のスクリプト外の音声現象を許容するのに必要な構造的精巧さを与える。この文法は、スクリプト化された音声パターンから認識された文126、128、130を分離する「アルト」構造122からなる。「アルト」構造122(など)の目的は、読み手により朗読又は応答練習中に種々のポイントに朗読中に挿入されがちなスクリプト外(非スクリプトの又はスクリプトされてない)音声又は沈黙(単なる休止ではない)を同定又は説明することである。本発明によるアルト構造は、隠れマルコフモデルを基にした音声認識システムにおいて用いることができ、基本的な音声認識器に機能を追加して無関係な入力又は非スクリプト入力を明瞭な方法で扱うことができるようにしている。
図6を参照すると、朗読モード又は応答モードでの文に対する単語レベル文法の構造が示されている。特定のキーが検出のために探されるという公知の単語レベル文法とは違って、この文法は明らかに全ての単語の間の流暢でない復唱を予想しており、従って順序づけられた各単語136、138間のアルト構造132、134からなる。単語は、基本的単位として認識器により戻され得るが、アルト構造は、ここで更に詳細に説明するアルト構造を構成するリジェクト単音及び休止単音のストリングとして認識器により分析され戻される。これにより、アプリケーションサブシステム48(図2)は利用者による朗読に関してより高レベルの決定ができるようになる。
図7を参照すると、応答モードにおける文レベル文法の構造が示されている。初期アルト140は軌線により選択肢としての複数の答え142、144、146、148のいずれか一つに接続される。答えの各々は軌線により最終アルト150に接続される。この文法は、初期アルト140上でループすることにより利用者からの予想外の返答をリジェクト(廃棄)し、また、最終アルト150上でループすることにより又は有効な答えのうちの一つの表現中に間投詞と休止を受け入れることにより、有効な答えの後の音声をリジェクトするためのものである。
図8は全てのアルトに共通のアルト構造152を示している。アルト構造152は隠れマルコフ状態のネットワークである。そのパラメータはスクリプト外の音声、沈黙、又は背景ノイズに対応する音響的特徴を説明べく訓練されている。アルト構造152は、初期ノード166と終端ノード168間の遷移弧158、160又は162、164のどちらかに向かう選択肢に沿った「休止」モデル154及び「リジェクト」モデル156からなる。初期ノード166と終端ノード168の間には、直接向かう遷移弧170と直接戻る遷移弧172も存在する。休止モデル154やリジェクトモデル156の内部構造は、3つのマルコフ状態と5つの遷移弧からなり、これは、SRIインターナショナル、メンロパーク、カルフォルニアで入手可能なデシファー音声認識システムにおいて他の単音のモデルに用いられる正確な構造である。
休止モデル154は、(一般に記録された)訓練データの非音声セグメントにより訓練された単音であり、主に訓練データ中に発生する沈黙又は背景ノイズの例からなる。リジェクト単音のモデル156は、訓練データからランダムに又は周期的に選択された広範囲の音声により訓練された単音である。
十分に訓練された休止モデル単音154とリジェクトモデル単音156とを有したアルト構造152は、内部で遷移弧により接続され、以下の起こり得る事象の全てを考慮できる。即ち、長期の沈黙(休止単音154と戻り円弧172を介しての多重ループ)、長期のスクリプト外の音声(リジェクト単音156と戻り円弧172を介しての多重ループ)、沈黙とスクリプト外の音声が交互する期間、及び休止無し且つスクリプト外音声無し(進行遷移弧170によるバイパス)である。
休止単音154やリジェクト単音156に導く初期遷移弧158又は162は、本発明の一つの実施例では、各々0.5の確率で等しく重みづけされる。
図9を参照すると、本発明による朗読速度計算器180が示されている。この朗読速度計算機180は、アプリケーションサブシステム48(有限状態機械)から得点の組120の一部(データのアレイ)182を受け取り、種類(単語、休止要素、リジェクト要素)及び時間上の位置並びに特定の関連タイミングにより良好な音声の要素を同定する。確率情報は利用可能であるが使用する必要はない。
朗読速度は「良好な」単語を計数する単語カウンター184とタイマー186を用いて導き出される。このタイマー186は、フィルタリングされた(適切な)単語を含む句の持続時間を測定又は計算する。朗読速度得点190はデバイダー188により求められる。このデバイダー188は、「良好な」単語を含んで許容された句の復唱において経過した時間Tで「良好な」単語の数を割る。
ここに記載されたサブシステムは、以下に示された等式を実行する回路又は計算機プログラムにより実現できる。
図10は朗読の質の得点230を決める機構192を示している。システムに関連して、予め選択されたスクリプト内の単語の数の計数値195を与える単語計数ソース194、スクリプトの最適朗読時間197を伝える機構196、リジェクト単音の数(199)を計数するための手段198、予め選択されたスクリプト内の全ての単語の朗読中の全経過時間201を測定するための手段200、及び前記分析手段により許容できると思われる句の朗読中の「良好な」経過時間を測定するための手段202が存在する。
デバイダー手段204は、良好な時間値203で全時間値201を割り第1の商205を得るために設けられる。重み付け手段206(マルチプライヤー)は、第1重み付けパラメータ(「a」)で第1の商205を重み付けて第1得点成分を得るために設けられる。3つの重み付けパラメータa,b,cの合計は、慣例により好ましくは1.0であり、質の測度における3つのタイプ各々の相対的な重みの割り当てを可能にする。
セレクター手段210は、最適読み取り時間197と良好な時間203のうちの最大値を選択して好ましい最大値211を得るために設けられる。これは、速い朗読と好みに従って先導された朗読のうちの選択を数値化するのに用いられる。選択評価に関連して、デバイダー手段212が、最適朗読時間197で好ましい最大値211を割って第2の商213を得るために設けられる。第2の商は、重み付け手段214(マルチプライヤー)により第2重み付けパラメータ(b)で重み付けられ、第2得点成分216が得られる。
加算器又は合計手段218が設けられ、リジェクト単音の数199とスクリプト単語の数195とを合計して質の値219を得る。デバイダー手段220が設けられ、質の値219で単語の数195を割って第3の商221を得る。第3の商は、重み付け手段222(マルチプライヤー)により第3重み付けパラメータ(c)で重み付けられ、第3得点成分224が得られる。
三入力合計手段226が設けられ、第1、第2、及び第3得点成分208、216、224を合計して得点合計227を得る。得点合計227は、値が10であるようなスケール因子228を掛ける重み付け手段によりパーセント又は他のスケールにスケーリングされ、朗読の質の得点230が得られる。
ここに記載されている朗読の質の評価サブシステムは、以下の式を用いる回路又は計算機プログラムにより実行され得る。
RQS=10*(a*Tg/Tt+b*(Tn/[max(Tn,Tg)])+c*W/(Rg+W)
ここで、
RQSは1から10のスケール上の朗読の質の得点(ここでは10のスケール因子を基にしている。)であり、
a,b,cはスケール因子で、その合計は1に等しく、特定の実施例では、a=0.25,b=0.25,c=0.5であり、
Wはテキスト中の単語の数であり、
Tgは「良好な」時間又は適切な文を朗読するのに使った時間であり、
Ttは初期及び最終休止を除いて朗読に使った全朗読時間であり、
Tnは最適朗読時間、即ち適切なネーティブ話し手による朗読時間であり、
Rgは文の「適切な」表現中、即ちTg中に検出されたリジェクトの数である。
付録Aは、計算機ワークステーション上で実現された本発明によるシステムのソースコードのリストのマイクロフィッシュ付録である。ソースコードの言語はCである。
本発明は特定の実施例を参照して説明されてきた。他の実施例も本説明を参照の上では当業者には明らかとなるであろう。従って、この発明は添付の請求項により示されたもの以外には制限されることはないであろう。
この発明は音声(スピーチ)認識に関し、特に言語又は音声指導で用いるための隠れマルコフモデル(hidden Markov model)(HMM)に基づいたシステムに関する。
背景として、隠れマルコフモデル化のプロセスについての説明は、ラビナー(Rabiner)らによる1986年の論文「隠れマルコフモデル入門(An Introduction to Hidden Markov Models)」、IEEE ASSP Magazine、1986年1月、4〜16頁に記載されている。
隠れマルコフモデルに基づいた種々の音声認識システムが知られており、ここでその詳細を述べる必要はないであろう。このようなシステムは一般に音素(phoneme)の認識を利用する。この場合の音素は、1組の訓練例から評価されたパラメータを有する音声セグメント(異音(allophone)又はもっと一般的に単音(phone)を含む。)の統計的モデルである。
単音は音素の音響的認識であり、音素は単語を区別するのに用いることができる音声の最小単位であるので、単語のモデルは適当な単音モデルからネットワークを作ることにより作られる。入力音声信号に対する認識は、単語モデルの組を通る最もあり得そうな経路を探すことにより行われる。
公知の隠れマルコフモデル音声認識システムは、マルコフソースとしての音声導出モデルを基にしている。モデル化されている音声単位は、有限状態機械により表される。確率分布は各ノードを離れる遷移に関連し、ノードに到達するとき各遷移が取る確率を特定する。出力シンボルに対する確率分布は各ノードに関連する。遷移確率分布は暗黙の内に持続時間をモデル化する。出力シンボル分布は一般にスペクトルのような音声信号特性をモデル化するのに用いられる。
遷移と出力シンボルに対する確率分布は、ラベル付けされた音声例を用いて評価される。観測された列を発生する最も高い確率を有するマルコフネットワークを通る経路を求めることにより、認識がなされる。連続音声に対しては、この経路は単語モデルの列に対応するであろう。
語彙外の音声を説明するモデルが知られており、ここではリジェクト単音モデルというが、しばしば「フィルター」モデルとも言われる。このようなモデルはローズ(Rose)他による「隠れマルコフモデルを基にしたキーワード認識システム(A Hidden Markov Model Based Keyword Recognition System)」、IEEE ICASSPのプロシーディング、1990年に記載されている。
本発明と共に用いられる特定の隠れマルコフモデル認識システムは、デシファー(Decipher)音声認識器であり、これはSRIインターナショナル、メンロパーク(Menlo Park)、カルフォルニアから入手できる。デシファーシステムは、確率的音韻論的情報、コンテキスト依存の様々なレベルで音声モデルを訓練できるトレーナー、単語の多様な発音、及び認識器を組み込んでいる。共同発明者は本発明の周辺に関連した指導法などの開発について他の論文やレポートを出している。その各々は、質疑応答技術の初期のものについて述べている。例えば、「英語発音の自動評価と訓練(Automatic Evaluation and Training in English Pronunciation)」、Proc. ICSLP 90、1990年11月、神戸、日本、「不特定話者連続音声認識の商用応用に向けて(Toward Commercial Applications of Speaker-Independent Continuous Speech Recognition)」、Speech Tech 91のプロシーディング、1991年4月23日、ニューヨーク、ニューヨーク、及び「音声対話式言語指導システム(A Voice Interactive Language Instruction System)」、Eurospeech 91のプロシーディング、ジェノア、イタリア、1991年9月25日を参照せよ。これらの論文は、実演の観測者が経験することを単に記載したものである。
他の言語訓練技術も知られている。例えば、エザワ(Ezawa)他の米国特許第4,969,194号には、言語の発音における利用者の簡単な練習用システムが開示されている。そのシステムでは音声認識は出来ないけれども、コンパレーターを用いて信号を基にしたフィードバック機構を有していると思われる。このコンパレーターは、音声の幾つかの音響的特徴及び音声の基本周波数を基準の組を比較する。
オカモト(Okamoto)の米国特許第4,380,438号には、利用者自身の音声を記録し再生するために用いられるアナログテープレコーダーのデジタルコントローラーが開示されている。これは認識することはできない。
ボグ(Boggs)への米国特許第4,860,360号は、通信チャンネル内の歪みが分析される音声評価用システムである。その開示は信号分析と歪み程度の計算のみに関連しており、どんな既知の語彙に対しても音声信号の整列や認識は行わない。
ハーブソン(Harbeson)への米国特許第4,276,445号には、アナログピッチ表示より粗い音声分析システムが記載されている。それが本発明に関連するとは考えられない。
ホランド(Holland)他への米国特許第4,641,343号には、フォルマント周波数を引き出すアナログシステムが記載されている。このフォルマント周波数は、利用者への基本的な表示のためにマイクロプロセッサーに送られる。唯一のフィードバックは、入力信号から直接計算可能な特徴のグラフィック表現である。音声認識又はその他の如何なる高レベル処理に対する要素も存在しない。
ベーカー(Baker)他への米国特許第4,783,803号には、音声認識装置及び技術が開示されており、これは音声の開始を探すべくフレーム間の場所を求めるための手段を含んでいる。この開示には、音響パラメータのみを処理する低レベル音響ベースの終点検出器が含まれるが、より高いレベルのコンテキスト感知式の終点検出は可能ではない。
必要とされているのは、利用者と言語的コンテキスト感知の方法で対話でき、準会話的方法で利用者によるスクリプト(script)の朗読をトラッキングし、適当に表現され自然に聞こえる音声で利用者を指導する認識及びフィードバックシステムである。
本発明の概略
本発明によると、指導及び評価のための、特に言語の指導及び言語の流暢さの評価のための言語的コンテキスト感知式の音声認識を用いた指導システムが提供される。このシステムは、非ネーティブである利用者の強い外国アクセントを許容する一方、自然な音声対話式方法でレッスン、特に言語レッスンをしてその評価を与えることができる。レッスン資料と指導は、これに制限されるものではないが、ビデオ、オーディオ又は印刷された視覚的テキストを含めて、種々の方法で学習者に提示できる。例として、言語指導の特定された用途においては、ある指導は利用者になじみの言語でできる一方、会話及び対話の全体を目標言語、即ち指導言語で行うことができる。
システムは、予め選択された視覚情報と共に、訓練を受けている人に聴覚情報を与えることができる。システムは、朗読段階中、システムに記憶されているスクリプトとの比較に基づいて選択された音声パラメータを監視しながら、被訓練者である利用者を促してテキストを大声で読むように促す。次に、システムは、利用者に特定の質問を行って、可能な応答のリストを提示する。それから、利用者は、目標言語で適当な応答を復唱することにより答えるのを期待される。システムは、利用者の下手な発音、休止、およびその他の失流暢にも拘わらず、スクリプト化された音声を正確に認識でき自然に応答できる。
特定の実施例では、レッスン中の単語列パターンの範囲に対応する有限状態文法の組が、HMM音声認識器内の隠れマルコフモデル(HMM)探索装置上の制約として用いられる。このHMM音声認識器は、目標言語のネーティブ話者により作られた目標言語によるナレーション(スクリプト)の隠れマルコフモデルの組を含んでいる。
他の言語的コンテキスト感知式の音声認識器も基本的な音声認識エンジンとして用いることができるけれども、本発明は好ましくはSRIインターナショナル、メンロパーク、カルフォルニアから入手可能なデシファー音声認識器のような言語的コンテキスト感知式の音声認識器の利用に基づいている。
本発明は、朗読練習のような練習を通して利用者を先導するための機構や、対話式決定機構を用いた一群の多項選択式の質問を含む。この決定機構は少なくとも3つのエラー許容レベルを用いており、それにより、人間を基にした対話式指導における自然なレベルの忍耐をシミュレートする。
朗読段階のための機構は、少なくとも4つの状態を有する有限状態機械又は同等物を通じて実現され、これはスクリプト中のどんな場所の朗読エラーも認識し、動作の第1組を用いる。対話式質問段階のための関連した機構もまた、少なくとも4つの状態を有するもう一つの有限状態機械を通じて実現されるが、動作の第2組を用い、誤った応答のみならず朗読エラーも認識する。
少なくとも休止とスクリプトを外れた発声とを含んだ失流暢を明白にモデル化しつつ、ナレーション用のスクリプトを用いることにより、音声の確率的モデルは、言語的コンテキスト感知式の音声認識器の一部として、簡素化さる。
対話式朗読及び質問/応答段階と共に、言語的に感知する発声終点の検出が、音声発声の終端を判定すべく行われ、会話音声における人の交替時をシミュレートする。
採点システムが与えられ、これは、正しい朗読中の時間部分や、対象者の朗読速度と標準のネーティブの朗読速度の比や、認識された単語ストリーム内の「アルト(alt)」単位(新しい音声モデル)の部分に重み付けすることにより、音声及び朗読の熟達度、即ち速度とエラーレートを分析することができる。
DSP装置又は同等の能力を有するプロセッサーと共に、本発明により特定のレッスンの科目についてシステムと利用者の間のリアルタイムの会話ができるようになる。本発明は便利にはシステムから離れた場所で電話ネットワークを介して用いることができる。利用者は電話番号を選択することによりシステムにアクセスし、システムとの対話のための視覚的又は記憶された資料を参照する。
本発明は添付の図面に関連した以下の詳細な記載を参照することによりよりよく理解されるであろう。
【図面の簡単な説明】
図1は本発明によるシステムのブロック図である。
図2は本発明で用いられる認識プロセスの機能ブロック図である。
図3は本発明に関連して用いられるプロセスの機能ブロック図である。
図4A1は本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの最初の一部である。
図4A2は本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの次の一部である。
図4Bは本発明に従ったトラッキングプロセスのフローチャートである。
図5は本発明に従った朗読モードにおいて用いられる文レベル文法の状態図である。
図6は本発明に従って用いられる単語レベル文法の状態図である。
図7は本発明に従った応答モードにおいて用いられる文レベル文法の状態図である。
図8は本発明に従った上記文法で用いられる「アルト」構造の状態図である。
図9は朗読速度の計算器のブロック図である。
図10は朗読質の計算器のブロック図である。
特定の実施例の説明
図1を参照すると、本発明による指導装置10のシステムブロック図が示されており、装置10の近くに位置する利用者12を指導するか、又は装置10から離れて位置する利用者12’を指導し電話14を介して通信する。ローカル利用者12はマイクロフォン16を通じてシステムと対話でき、スピーカー又はイヤホン18及び映像モニター(CRT)20を介して指導及びフィードバックされる。リモート利用者12’は、新聞広告などの刊行若しくは印刷されたテキスト22を通じて促され、又はなんらかの周知又は記憶されたテキストを用いることができる。リモート利用者の電話14はマルチプレクサー26を介して電話ネットワーク24を通じて結ばれる。ローカル利用者のマイクロフォン16もマルチプレクサー26に接続される。マルチプレクサー26の出力はプリアンプ28に接続され、ローパスフィルター30を介してアナログ−デジタル変換器32に接続される。この変換器32は、ワークステーション又は時分割計算機36内のデジタル信号処理(DSP)サブシステム34の一部である。DSPサブシステム34からの出力は、デジタル−アナログ変換器(DAC)38を介してアンプ40又は電話ネットワーク24のどちらか一方又は両方に供給される。これらのアンプ40及び電話ネットワーク24は夫々スピーカー18及び電話14に接続される。CRT20は一般的にワークステーション36の映像出力装置である。適当なDSPサブシステムとしては「ソニテックスピリット30(Sonitech Spirit 30)」DSPカードがあり、適当なワークステーションとしてはサンマイクロシステムズ(Sun Microsystems)のスパークステーション2ユニックスワークステーション(SPARCStation 2 UNIX workstation)がある。
図1に関連した図2を参照すると、基本的システムの基本操作が描かれている。システムは好ましくは、SRIインターナショナルのデシファーシステムのような音声認識システムを中心に構築される。利用者12は映像又は音によって催促するような刺激に反応してマイクロフォン(MIC)14に話す。マイクロフォン14の連続的な音声信号は電気的経路を通じて「フロントエンド」信号処理システム42に送られる。この信号処理システム42は主にDSPサブシステム34内に含まれ、マザーワークステーション36の制御に従う。フロントエンド信号処理システム42は、特徴抽出をして音響的特徴パラメータをモデル探索器44に送る。このモデル探索器44は、隠れマルコフモデルのモデルの組(HMM models)46を中心に構築される。モデル探索器44は、音響的特徴により「探索」を行う。これらの音響的特徴は、有限状態文法により、管理可能で限定的な選択の組のみに制約される。従って、利用者には、HMMモデル46との比較の際に発音の質において相当な許容度を与えることができる。限定的な文法及び語彙の準備されたレッスンの形式のアプリケーションサブシステム48が、モデル探索器44と情報伝達する。アプリケーションサブシステム48は、探索が行われるモデル探索器44に有限状態文法を供給する。モデル探索器44は、デシファーのような音声認識システムに組み込まれた逆トレーシングプロセスを介して逆トレース発生情報だけでなく認識や非認識をアプリケーションサブシステム48に伝える。それから、アプリケーションサブシステム48は本発明に従って利用者12と対話する。
本発明と共に用いられる音声処理システムには2つの機能モードがあり、それは訓練モードと認識モードである。図3には、その処理が描かれている。訓練モードでは、訓練スクリプト102が訓練母集団104内の複数の人に与えられ、その各々は訓練スクリプト102に対応する複数の音声パターン106を作る。訓練スクリプト102と音声パターン106は、索引付けられた組として隠れマルコフモデルトレーナー108に与えられ、目標言語音声の一般HMMモデル111を作る。このことは、目標言語に対して一回だけ行われる必要があり、一般にはネーティブ話者といく人かの非ネーティブ話者を使って目標言語音声の一般HMMモデルを生成する。それから、HMMネットワークモデルコンパイラー110は、一般HMMモデルと予め選択されたスクリプト114を入力して、特に予め選択されたスクリプト用の音声モデルのネットワーク113を作る。ネットワークモデルコンパイラーの出力は、隠れマルコフモデルを基にした音声認識器112に与えられる。
認識モードでは、予め選択されたスクリプト114が被訓練者/利用者又は発音が評価されるべき装置116に対して与えられる。この予め選択されたスクリプト114は、訓練スクリプト102の機能的な一部であるが、選択されたスクリプト102の単語を必ずしも含まない。被訓練者/利用者116の音声は、予め選択されたスクリプト114に対応する音声パターン118の形式をとると推定される。予め選択されたスクリプト114と一つの音声パターン118は、索引付けられた組として隠れマルコフモデル音声認識器112に与えられる。現在の各評価期間(単音長、単語長、句長、又は文長の期間)中に、単語が認識器112により認識される。当該評価期間及び前の期間中に認識された単語の数から、認識得点の組120が計算され、ここに記載された種類のレッスン制御ユニットとして動作するアプリケーションサブシステム48(図2)に送られる。得点の組120は、逆トレース発生情報内に組み入れられた認識プロセスのスナップショットである。この得点の組120は、後に説明される決定装置を具体化する有限状態機械を用いるアプリケーションサブシステム48/レッスン制御ユニットに送られる。有限状態機械は、他にも機能はあるが、得点の組の生の情報をフィルタリングし、スクリプト化されたレッスンの良好な表現のみを同定する。具体的には、有限状態機械は得点の組の一部を同定して、それを基に、朗読速度や朗読の質を含めてレッスン実技の質を判定する。
図4Aは、本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートである。これは、アプリケーションサブシステム48に組み込まれた有限状態機械(FSM)として働く。このアプリケーションサブシステム48は、利用者12との対話及びレッスン資料を制御する。
動作中は、CRT上に表示し得るスクリプト又は読まれるべき印刷資料として作成されたスクリプトを参照することをFSMにより指示される。i=1の文インデックスとj=1の単語インデックスから始めて(ステップA)、トラッキングプロセスが行われる(ステップB)。FSMは利用者がスクリプト中の最後の文を読み終えたか否かを調べ(ステップC)、もし真ならばEND(エンド)に抜け出る(ステップD)。そうでなければ、FSMは利用者がトラッカー(tracker)により検出されたときに休止しているか否か、及び最後のトラッキング操作以後スクリプトから適切な(認識可能な)単語を朗読したか否かを調べる(ステップE)。もし真ならば、FSMは好ましくは、例えば返答「オーケイ」のような、音声又は映像の肯定的返答で応答し(ステップF)、FSMはトラッキングプロセスを繰り返す(ステップB)。
他方、もしFSMが最後のトラッキング操作以後利用者が適切な単語を朗読した後に休止していないことを認めるならば、FSMは利用者に「P(i)から読んで下さい。」と言って催促する(ステップG)。P(i)は、トラッキングされてない単語を含んだ句又はその直前の句におけるスクリプト中で同定された位置の最初の部分である。その後、トラッキングプロセスは再び実施され(ステップH)、この時点での忍耐のレベルは、利用者が事実上1ペナルティを有しているレベルである。それからFSMは、この新しいレベルで上述したように最後の文の終了で調べ(ステップI)、もしスクリプトが終了していたら終わる(ステップI)。そうでなければ、FSMは利用者がトラッキング操作により検出されるとき休止しているか否か、及びスクリプトから適切な(認識可能な)単語を読んだか否かを調べる(ステップK)。もし真ならば、FSMは好ましくは、例えば返答「オーケイ」のような音声又は映像の肯定返答で応答し(ステップL)、新しい文の始まりを調べ(ステップM)、もし肯定ならば、FSMはトラッキングプロセスを繰り返し(ステップB)、もし否定ならば、FSMは現在の文内のトラッキングを繰り返す(ステップH)。
もしトラッキング操作により示されているように正しく単語が読まれていないならば(ステップK)、FSMは新しい文が始まったか否かを調べる(ステップN)。肯定の場合には、FSMはサイクルを繰り返し、文の初めから読むように利用者に促す(ステップG)。もしそれが文の初めでないならば、FSMは「違います。文はS(i)です。P(i)から読んで下さい。」と言う(ステップP)。換言すれば、利用者は文のモデルを与えられ、文の初めから開始すること、即ち再度試みることを催促される。
催促の後に、FSMはトラッキング手順を再実行し(ステップQ)、それから最後の文が話されたか否かを調べる(ステップR)。もし肯定ならば終わり(ステップS)、そうでなければ、利用者がスクリプトから適切な単語を読み終わった後に休止しているのか否かを調べる(ステップT)。もし真ならば、FSMは「ok」を出し(ステップU)、新しい文を調べ(ステップV)、もし否定ならば、トラッキングを再び始める(ステップQへ)。そうではなくもし新しい文ならば、トラッキングを忍耐の最高レベルに再設定する(ステップB)。もしFSMが適切な単語をトラッキングしていないならば、新しい文が始まったか否かを調べ(ステップW)、もしそうならば、最初の文位置P(i)から読み始めるように利用者を促す(ステップGへ)。もしそれが新しい文でないならば、FSMは「よろしい。よくやった。今度は次の文の初めから読みなさい。(即ち、P(i+1))」のようなフレーズを述べることにより忍耐の損失を示す(ステップZ)。それから文計数インデックスiが1文だけ増加され(i+1)(ステップAA)、単語計数インデックスjは1にリセットされ(ステップAB)、最初のトラッキングプロセスに戻り(ステップBへ)、FSMはその忍耐の初期レベルを再び得る。
図4Bは図4AにおいてFSMにより用いられるトラッキングプロセス(ステップB、H、Q)のフロー図である。トラッキングプロセスは、例えば、予め選択されたスクリプトに対応する音声パターンの隠れマルコフモデルを用いて入力音声の1秒間を調べる(ステップAC)。FSMはカウンター(iとj)を現在の位置に更新し(ステップAD)、最後の文が復唱されたか否かを調べる(ステップAE)。もし肯定ならば、トラッキングプロセスが終わる(ステップAF)。もし最後の文が認識されなければ、FSMは、前の単語以後に認識された休止単音の数である休止指標を計算する(ステップAG)。この休止指標は、一般的に休止の長さを示すものである。それから、この休止指標は、現在の位置(i,j)及び練習厳格さレベルに対する休止指標閾値と比較される(ステップAH)。もし休止指標がこの閾値を越えるならば、トラッキングプロセスは終わる(ステップAI)。もしそうでないならば、FSMはリジェクト(廃棄)指標を計算する(ステップAJ)。リジェクト指標とは、予め選択されたスクリプトに対応する音声を利用者が発していない可能性を一般に示し、このリジェクト指標は、例えば、最後の単語以後に認識器により戻された全てのリジェクト単音を合計することにより計算される。
その後、リジェクト指標がリジェクト指標閾値と比較される(ステップAK)。この閾値は、練習採点厳格さレベル又はテキスト中の現在の位置の関数である。もしこの指標が閾値を越えるならば、当該手順は終わる(ステップAL)。もしそうでないならば、リジェクト密度が計算される(ステップAM)。
リジェクト密度は、スクリプト化された単語の前の数(例えば、5)を調べ、認識器により戻されたリジェクト単音の数を計数し、リジェクト単音の数をリジェクト単音の数とスクリプト化された単語の数(5)との合計で割ることにより計算される。その商がリジェクト密度である。従って、休止長の変化はリジェクト密度に影響しない。
その後、リジェクト密度がリジェクト密度閾値(練習厳格さレベル、テキスト位置又はその両方の関数)と比較される(ステップAN)。もしリジェクト密度が閾値を越えていると、トラッキングプロセスは終わる(ステップAO)。そうでなければ、トラッキングプロセスは続けられる(ステップAC)。
リジェクト指標閾値、リジェクト密度閾値、及び休止指標閾値は、厳格さのレベル又はテキスト中の位置の関数として可変的に調節できる。調節は利用者、レッスン設計者、又は自動的にシステムにより行うことができる。
図5を参照すると、レッスンの朗読段階中の文レベル文法の構造が示されている。文レベル文法及び関連する言語的構造は、休止、ためらい雑音、及び生徒である話し手の音声に予期されるその他のスクリプト外の音声現象を許容するのに必要な構造的精巧さを与える。この文法は、スクリプト化された音声パターンから認識された文126、128、130を分離する「アルト」構造122からなる。「アルト」構造122(など)の目的は、読み手により朗読又は応答練習中に種々のポイントに朗読中に挿入されがちなスクリプト外(非スクリプトの又はスクリプトされてない)音声又は沈黙(単なる休止ではない)を同定又は説明することである。本発明によるアルト構造は、隠れマルコフモデルを基にした音声認識システムにおいて用いることができ、基本的な音声認識器に機能を追加して無関係な入力又は非スクリプト入力を明瞭な方法で扱うことができるようにしている。
図6を参照すると、朗読モード又は応答モードでの文に対する単語レベル文法の構造が示されている。特定のキーが検出のために探されるという公知の単語レベル文法とは違って、この文法は明らかに全ての単語の間の流暢でない復唱を予想しており、従って順序づけられた各単語136、138間のアルト構造132、134からなる。単語は、基本的単位として認識器により戻され得るが、アルト構造は、ここで更に詳細に説明するアルト構造を構成するリジェクト単音及び休止単音のストリングとして認識器により分析され戻される。これにより、アプリケーションサブシステム48(図2)は利用者による朗読に関してより高レベルの決定ができるようになる。
図7を参照すると、応答モードにおける文レベル文法の構造が示されている。初期アルト140は軌線により選択肢としての複数の答え142、144、146、148のいずれか一つに接続される。答えの各々は軌線により最終アルト150に接続される。この文法は、初期アルト140上でループすることにより利用者からの予想外の返答をリジェクト(廃棄)し、また、最終アルト150上でループすることにより又は有効な答えのうちの一つの表現中に間投詞と休止を受け入れることにより、有効な答えの後の音声をリジェクトするためのものである。
図8は全てのアルトに共通のアルト構造152を示している。アルト構造152は隠れマルコフ状態のネットワークである。そのパラメータはスクリプト外の音声、沈黙、又は背景ノイズに対応する音響的特徴を説明べく訓練されている。アルト構造152は、初期ノード166と終端ノード168間の遷移弧158、160又は162、164のどちらかに向かう選択肢に沿った「休止」モデル154及び「リジェクト」モデル156からなる。初期ノード166と終端ノード168の間には、直接向かう遷移弧170と直接戻る遷移弧172も存在する。休止モデル154やリジェクトモデル156の内部構造は、3つのマルコフ状態と5つの遷移弧からなり、これは、SRIインターナショナル、メンロパーク、カルフォルニアで入手可能なデシファー音声認識システムにおいて他の単音のモデルに用いられる正確な構造である。
休止モデル154は、(一般に記録された)訓練データの非音声セグメントにより訓練された単音であり、主に訓練データ中に発生する沈黙又は背景ノイズの例からなる。リジェクト単音のモデル156は、訓練データからランダムに又は周期的に選択された広範囲の音声により訓練された単音である。
十分に訓練された休止モデル単音154とリジェクトモデル単音156とを有したアルト構造152は、内部で遷移弧により接続され、以下の起こり得る事象の全てを考慮できる。即ち、長期の沈黙(休止単音154と戻り円弧172を介しての多重ループ)、長期のスクリプト外の音声(リジェクト単音156と戻り円弧172を介しての多重ループ)、沈黙とスクリプト外の音声が交互する期間、及び休止無し且つスクリプト外音声無し(進行遷移弧170によるバイパス)である。
休止単音154やリジェクト単音156に導く初期遷移弧158又は162は、本発明の一つの実施例では、各々0.5の確率で等しく重みづけされる。
図9を参照すると、本発明による朗読速度計算器180が示されている。この朗読速度計算機180は、アプリケーションサブシステム48(有限状態機械)から得点の組120の一部(データのアレイ)182を受け取り、種類(単語、休止要素、リジェクト要素)及び時間上の位置並びに特定の関連タイミングにより良好な音声の要素を同定する。確率情報は利用可能であるが使用する必要はない。
朗読速度は「良好な」単語を計数する単語カウンター184とタイマー186を用いて導き出される。このタイマー186は、フィルタリングされた(適切な)単語を含む句の持続時間を測定又は計算する。朗読速度得点190はデバイダー188により求められる。このデバイダー188は、「良好な」単語を含んで許容された句の復唱において経過した時間Tで「良好な」単語の数を割る。
ここに記載されたサブシステムは、以下に示された等式を実行する回路又は計算機プログラムにより実現できる。
図10は朗読の質の得点230を決める機構192を示している。システムに関連して、予め選択されたスクリプト内の単語の数の計数値195を与える単語計数ソース194、スクリプトの最適朗読時間197を伝える機構196、リジェクト単音の数(199)を計数するための手段198、予め選択されたスクリプト内の全ての単語の朗読中の全経過時間201を測定するための手段200、及び前記分析手段により許容できると思われる句の朗読中の「良好な」経過時間を測定するための手段202が存在する。
デバイダー手段204は、良好な時間値203で全時間値201を割り第1の商205を得るために設けられる。重み付け手段206(マルチプライヤー)は、第1重み付けパラメータ(「a」)で第1の商205を重み付けて第1得点成分を得るために設けられる。3つの重み付けパラメータa,b,cの合計は、慣例により好ましくは1.0であり、質の測度における3つのタイプ各々の相対的な重みの割り当てを可能にする。
セレクター手段210は、最適読み取り時間197と良好な時間203のうちの最大値を選択して好ましい最大値211を得るために設けられる。これは、速い朗読と好みに従って先導された朗読のうちの選択を数値化するのに用いられる。選択評価に関連して、デバイダー手段212が、最適朗読時間197で好ましい最大値211を割って第2の商213を得るために設けられる。第2の商は、重み付け手段214(マルチプライヤー)により第2重み付けパラメータ(b)で重み付けられ、第2得点成分216が得られる。
加算器又は合計手段218が設けられ、リジェクト単音の数199とスクリプト単語の数195とを合計して質の値219を得る。デバイダー手段220が設けられ、質の値219で単語の数195を割って第3の商221を得る。第3の商は、重み付け手段222(マルチプライヤー)により第3重み付けパラメータ(c)で重み付けられ、第3得点成分224が得られる。
三入力合計手段226が設けられ、第1、第2、及び第3得点成分208、216、224を合計して得点合計227を得る。得点合計227は、値が10であるようなスケール因子228を掛ける重み付け手段によりパーセント又は他のスケールにスケーリングされ、朗読の質の得点230が得られる。
ここに記載されている朗読の質の評価サブシステムは、以下の式を用いる回路又は計算機プログラムにより実行され得る。
RQS=10*(a*Tg/Tt+b*(Tn/[max(Tn,Tg)])+c*W/(Rg+W)
ここで、
RQSは1から10のスケール上の朗読の質の得点(ここでは10のスケール因子を基にしている。)であり、
a,b,cはスケール因子で、その合計は1に等しく、特定の実施例では、a=0.25,b=0.25,c=0.5であり、
Wはテキスト中の単語の数であり、
Tgは「良好な」時間又は適切な文を朗読するのに使った時間であり、
Ttは初期及び最終休止を除いて朗読に使った全朗読時間であり、
Tnは最適朗読時間、即ち適切なネーティブ話し手による朗読時間であり、
Rgは文の「適切な」表現中、即ちTg中に検出されたリジェクトの数である。
付録Aは、計算機ワークステーション上で実現された本発明によるシステムのソースコードのリストのマイクロフィッシュ付録である。ソースコードの言語はCである。
本発明は特定の実施例を参照して説明されてきた。他の実施例も本説明を参照の上では当業者には明らかとなるであろう。従って、この発明は添付の請求項により示されたもの以外には制限されることはないであろう。
Claims (19)
- モデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備え、入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生することにより言語指導及び言語評価を行なう自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
モデルトレーナーにおいて、事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求めるステップ;
該モデルトレーナーにおいて、入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ;
自動音声認識器において、変更した文法モデルを用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなるものであり;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語、非スクリプトの音声、及び休止による沈黙のうちの1つとして識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び休止による沈黙に関連したものであり;
該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップであって、前記正確さは、入力音声の話者が読み上げるように促された事前に選ばれたスクリプトに対し、いかに良好に入力音声が一致しているかの尺度となるものであり;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を出力することで、いかに良好に話者が事前に選ばれたスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。 - アナログ-デジタル変換器にて入力音声をデジタル化し、デジタル化した入力音声をデジタルメモリに記憶するステップ;
文法モデルと変更した文法モデルをデジタルメモリに記憶するステップ;及び
デジタルコンピュータの音声認識器において、入力音声と記憶した文法モデルを比較するステップ
をさらに含む、請求項1に記載の方法。 - 入力音声に応じて、少なくとも3つの忍耐レベルに従って音声的及び意味的に的確な事前に選択したスクリプトを再度読み上げるようにオーディオ装置及び/又は映像装置を介して話者に促すステップをさらに含む、請求項1に記載の方法。
- モデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備え、入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生することにより言語指導及び言語評価を行なう自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
モデルトレーナーにおいて、事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求めるステップ;
該モデルトレーナーにおいて、入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
自動音声認識器において、変更した文法モデルを用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなるものであり;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語、非スクリプトの音声、及び休止による沈黙のうちの1つとして識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び休止による沈黙に関連したものであり;
該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力するステップ
を含み、前記事前に選ばれたスクリプトが代替テキストを含み、
また、該方法が、モデルトレーナーにおいて代替テキストに対する双方向性の会話文法モデルを発生するステップであって、該双方向性の会話文法モデルが、代替フレーズの選択の前に置かれた第1の共通アルト要素と、代替フレーズの選択の後に置かれた第2の共通アルト要素を含み、音声的に正確だが意味的に不的確な代替応答を可能にするものをさらに含む上記方法。 - 長期の休止による沈黙、長期のスクリプト外の音声、休止による沈黙期間とスクリプト外の音声の期間を交互にもつ音声、及び休止又はスクリプト外の音声のない音声を含めた事象に対する複数の遷移弧としてアルト要素が構造化される、請求項4に記載の方法。
- モデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備え、入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生することにより言語指導及び言語評価を行なう自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
モデルトレーナーにおいて、事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求めるステップ;
該モデルトレーナーにおいて、入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
自動音声認識器において、変更した文法モデルを用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなるものであり;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語、非スクリプトの音声、及び休止による沈黙のうちの1つとして識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び休止による沈黙に関連し、
a)アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止単音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ;
b)アプリケーションサブシステムの有限状態機械において、現在のセグメントに対しリジェクト密度を求めるステップ;及び
c)アプリケーションサブシステムの有限状態機械において、もしリジェクト密度がしきい値を超えているならば、現在のセグメントをスクリプト外の音声として表すステップを含むものであり;
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力するステップ
を含む上記方法。 - 現在のセグメントのリジェクト密度を求めるステップが、前記有限状態機械において、所定数の連続したスクリプト化された単語に対する音声認識器により戻されたリジェクト単音の数を、リジェクト単音数と該所定数の連続したスクリプト化された単語数との和で除するステップを含む、請求項6に記載の方法。
- モデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備え、入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生することにより言語指導及び言語評価を行なう自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
モデルトレーナーにおいて、事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求めるステップ;
該モデルトレーナーにおいて、入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
自動音声認識器において、変更した文法モデルを用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなるものであり;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語、非スクリプトの音声、及び休止による沈黙のうちの1つとして識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び休止による沈黙に関連し、
a)アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ;
b)アプリケーションサブシステムの有限状態機械において、現在のセグメントに対しリジェクト密度を求めるステップ;及び
c)アプリケーションサブシステムの有限状態機械において、もしリジェクト密度がしきい値を超えているならば、現在のセグメントをスクリプト外の音声として表すステップを含むものであり;
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力することで、いかに良好に話者が所定のスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。 - 現在のセグメントに対するリジェクト指標を求めるステップが、所定数の連続したスクリプト化された単語に対し音声認識器により戻されたリジェクト単音数を合計するステップを含む、請求項8に記載の方法。
- モデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備え、入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生することにより言語指導及び言語評価を行なう自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
モデルトレーナーにおいて、事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求めるステップ;
該モデルトレーナーにおいて、入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
自動音声認識器において、変更した文法モデルを用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなるものであり;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語、非スクリプトの音声、及び休止による沈黙のうちの1つとして識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び休止による沈黙に関連し、
a)アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止単音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ;
b)前記有限状態機械において、現在のセグメントに対し休止指数の値を求めるステップ;及び
c)前記有限状態機械において、もし休止指標の値がしきい値を超えているならば、現在のセグメントを有効な休止として表すステップであって、該有効な休止は、自動音声認識器と話者の間の対話における交替点を表すもの;
を含むものであり;
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力することで、いかに良好に話者が所定のスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。 - アプリケーションサブシステムにおいて、現在のセグメントの言語的文脈及び所定のスクリプト中の現在のセグメントの位置に依存したしきい値として休止指標のしきい値を発生するステップであって、休止指標のしきい値が、所定のスクリプトの文の他のところの単語間よりも文及び主節の終わりにて小さいものをさらに含む、請求項10に記載の方法。
- 休止指標を求めるステップが、アプリケーションサブシステムにおいて、所定のスクリプトのうち所定数の連続した単語から音声認識器により戻された休止単音を合計するステップを含む、請求項10に記載の方法。
- 文法モデル及び所定のスクリプトを読み上げるように促された話者により話された入力音声から単語列の認識結果及び単音列の認識結果を作る自動音声認識器を用いて、話者の音声をトラッキングするためのシステムであって、
主題及び所定のスクリプトについて話者に情報を与え、かつ所定のスクリプトを読み上げるように話者に促すための提示手段;
i)事前に選ばれたスクリプトから文法モデルを発生し、ii)事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求め、iii)入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するためのモデルトレーナー手段;
提示手段の催促に応じて話された入力音声を電子的に取り込むための音声検出手段であって、取り込んだ入力音声はコンピュータメモリに記憶されるものであり;
取り込んだ入力音声を分析し、単語及びアルトを認識すべく訓練された認識モデルと単語及びアルトを含んだ前記変更した文法に基づいて単語及びアルトの列を求める自動音声認識手段であって、求められた単語及びアルトは取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声及び休止を表すものであり;
自動音声認識手段に接続され、前記列を受け取り、その結果から発声の完全性を評価し、所定のスクリプトの読み上げの正確さを求めるための音声評価手段であって、前記正確さは、いかに良好に入力音声が、入力音声の話者が読み上げるように促された所定のスクリプトに一致しているかの尺度となるものであり;及び
評価手段に接続され、もし読み上げが正確でないならば、所定のスクリプトを正しく読み上げるよう話者に指示する応答を行うための応答手段を備える前記システム。 - 話者にとっては外国語で指導するために用いられる請求項13に記載のシステムであって、応答手段が、ネイティブの発音及び該言語での音声の表現の例として可聴応答を発生するための手段を含む前記システム。
- 読み上げ速度を測定するための手段をさらに含み、該手段が、
読み上げられた単語を計数して読み上げられた単語数を求めるための単語カウンター手段;
スクリプト化された単語の読み上げ時間を測定するためのタイマー手段;及び
読み上げられた単語数を、測定した経過時間で除するための第1デバイダー手段
を含む、請求項13に記載のシステム。 - 読み上げの質を測定して読み上げの質の得点(230)を得るための手段(192)をさらに含み、該手段が、
所定のスクリプト中の単語(195)を計数して所定のスクリプトの単語数を求めるための単語計数手段(194);
最適な読み上げ時間(197)を伝えるための伝達手段(196);
リジェクト単音(199)を計数してリジェクト単音の数を求めるための計数手段(198);
所定のスクリプトの読み上げ中に経過した総時間(201)を測定するための第1時間測定手段(200);
分析手段により許容可能と判断されたフレーズの読み上げ中に経過した良好時間(203)を測定するための第2時間測定手段(202);
第2時間測定手段から良好時間(203)を受け取り、第1時間測定手段から総時間(201)を受け取り、良好時間(203)を総時間(201)で除して第1の商(205)を得るための第1デバイダー手段(204);
伝達手段から最適読み上げ時間(197)を受け取り、最適読み上げ時間(197)と良好時間(203)のうちの最大である好適な最大値(211)を選択して出力するためのセレクター手段(210);
伝達手段(196)に接続されて最適読み上げ時間を受け取り、セレクター手段に接続されて好適な最大値を受け取り、最適読み上げ時間(197)を好適な最大値(211)で除して第2の商(213)を得るための第2デバイダー手段(212);
単語計数手段(194)に接続されて所定のスクリプトの単語数(195)を受け取り、計数手段(198)に接続されてリジェクト単音数(199)を受け取り、リジェクト単音数(199)と所定のスクリプトの単語数(195)とを合計し、質の値(219)を得るための合計手段(218);
合計手段(218)に接続されて質の値を受け取り、単語計数手段(194)に接続されて所定のスクリプトの単語数(195)を受け取り、所定のスクリプトの単語数(195)を質の値(219)で除して第3の商(221)を得るための第3デバイダー手段(220);及び
第1デバイダー手段(204)に接続されて第1得点成分(208)を受け取り、第2デバイダー手段(212)に接続されて第2得点成分(216)を受け取り、第3デバイダー手段(220)に接続されて第3得点成分(224)を受け取り、第1得点成分(208)、第2得点成分(216)及び第3得点成分(224)の重み付き合計として、読み上げの質の得点(230)を計算するための計算手段
を備える、請求項13に記載のシステム。 - 変更した文法モデル及び所定のスクリプトを読み上げるように促された話者により話された入力音声から単語列の認識結果及び単音列の認識結果を作る自動音声認識器を用いて、話者の音声をトラッキングするためのシステムであって、
i)事前に選ばれたスクリプトから文法モデルを発生し、ii)事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求め、iii)入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するためのモデルトレーナー手段;
主題及び所定のスクリプトについて話者に情報を与え、かつ所定のスクリプトを読み上げるように話者に促すための提示手段;
提示手段の催促に応じて話された入力音声を電子的に取り込むための手段であって、取り込んだ入力音声はコンピュータメモリに記憶されるものであり;
取り込んだ入力音声を分析し、単語及びアルトを認識すべく訓練された認識モデルと単語及びアルトを含んだ前記変更した文法に基づいて単語及びアルトの列を求める音声認識手段であって、求めた単語とアルトは取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声及び休止を表すものであり;
分析手段に接続され、発声の安全性を評価し、所定のスクリプトの読み上げの正確さを求めるための手段;
評価手段に接続され、もし読み上げが正確でないならば、所定のスクリプトを正しく読み上げるよう話者に指示する応答を行うための応答手段;
読み上げの質を測定して読み上げの質の得点(230)を得るための手段(192)であって、
(a)所定のスクリプト中の単語(195)を計数して所定のスクリプトの単語数を求めるための単語計数手段(194);
(b)最適な読み上げ時間(197)を伝えるための伝達手段(196);
(c)リジェクト単音(199)を計数してリジェクト単音の数を求めるための計数手段(198);
(d)所定のスクリプトの読み上げ中に経過した総時間(201)を測定するための第1時間測定手段(200);
(e)分析手段により許容可能と判断されたフレーズの読み上げ中に経過した良好時間(203)を測定するための第2時間測定手段(202);
(f)第2時間測定手段から良好時間(203)を受け取り、第1時間測定手段から総時間を受け取り、良好時間(203)を総時間(201)で除して第1の商(205)を得るための第1デバイダー手段(204);
(g)伝達手段から最適読み上げ時間(197)を受け取り、最適読み上げ時間(197)と良好時間(203)のうちの最大である好適な最大値(211)を選択し出力するためのセレクター手段(210);
(h)伝達手段(196)から最適読み上げ時間を受け取り、セレクター手段から好適な最大値を受け取り、最適読み上げ時間(197)を好適な最大値(211)で除して第2の商(213)を得るための第2デバイダー手段(212);
(i)単語計数手段(194)から所定のスクリプトの単語数(195)を受け取り、計数手段(198)からリジェクト単音数(199)を受け取り、リジェクト単音数(199)と所定のスクリプトの単語数(195)とを合計し、質の値(219)を得るための合計手段(218);
(j)合計手段(218)から質の値を受け取り、単語計数手段(194)から所定のスクリプトの単語数(195)を受け取り、所定のスクリプトの単語数(195)を質の値(219)で除して第3の商(221)を得るための第3デバイダー手段(220);及び
(k)第1デバイダー手段(204)から第1得点成分(208)を受け取り、第2デバイダー手段(212)から第2得点成分(216)を受け取り、第3デバイダー手段(220)から第3得点成分(224)を受け取り、第1得点成分(208)、第2得点成分(216)及び第3得点成分(224)の重み付き合計として、読み上げの質の得点(230)を計算するための計算手段;
を含むもの(192);
を備え、前記計算手段が、
1)第1の商(205)を第1の重み付けパラメータ(a)で重み付けして第1得点成分(208)を得るための第1乗算手段(206);
2)第2の商(213)を第2の重み付けパラメータ(b)で重み付けして第2得点成分(216)を得るための第2乗算手段(214);
3)第3の商(221)を第3の重み付けパラメータ(c)で重み付けして第3得点成分(224)を得るための第3乗算手段(222);
4)第1得点成分(208)、第2得点成分(216)及び第3得点成分(224)を合計して得点合計(227)を出すための合計手段(226);及び
5)得点合計(227)を倍率(228)で重み付けして読み上げの質の得点(230)を得るための第4乗算手段
をさらに備える、前記システム。 - 音声出力及びグラフィック出力と自動音声認識器とを用いて音声をトラッキングしかつ話者と対話するためのシステムであって、該自動音声認識器は、複数の所定の代替スクリプトを含んだ所定のスクリプトから読み上げるように促された後に話者が話した入力音声と変更した文法モデルとから、単語列の認識結果と単音列の認識結果を作り、該システムは、
i)事前に選ばれたスクリプトから文法モデルを発生し、ii)事前に選ばれたスクリプトと訓練スクリプトとネーティブ話者及び/又は非ネーティブ話者の音声パターンとを用いてアルト要素の組み込み位置を求め、iii)入力音声について非スクリプトの音声及び休止による沈黙を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するためのモデルトレーナー手段;
主題について話者に情報を提示し、複数の所定の代替スクリプトのうちの一つを読み上げるよう話者に促すための提示手段;
入力音声を電子的に取り込むための感知手段であって、取り込まれた入力音声はコンピュータメモリに記憶されるものであり;
取り込まれた入力音声を分析し、話者により話された入力音声に対応する入力認識結果を求めるための分析手段であって、該分析手段は単語及びアルトを認識すべく訓練された音声認識モデルと単語及びアルトを含んだ前記変更した文法に基づいて入力認識結果を求め、求めた入力認識結果は取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声、休止及び/又は背景ノイズを表すものであり;
分析手段に接続され、複数の所定の代替スクリプトのうちどの所定の代替スクリプトが入力認識結果に最もよく対応しているかを特定するための特定手段;
特定手段に接続され、発声の安全性を評価して特定された所定の代替スクリプトの読み上げの正確さを求めるための評価手段であって、該正確さは、入力音声が、入力音声の話者に読み上げるように促された所定のスクリプトといかに良好に一致しているかの尺度となるものであり;及び
評価手段に接続され、特定された所定の代替スクリプトの読み上げの正確さと、特定された所定の代替スクリプトの意味的な適切さとを話者に示す応答を、発声の完了の際に出力するための出力手段
を含む、前記システム。 - 対話システムが、話者にとっては外国語による指導用であり、応答手段が、ネイティブの発音及び表現の例として可聴応答を発生するための手段を含む、請求項18に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/032,850 | 1992-03-12 | ||
US3285093A | 1993-03-12 | 1993-03-12 | |
US081032,850 | 1993-03-12 | ||
PCT/US1994/002542 WO1994020952A1 (en) | 1993-03-12 | 1994-03-08 | Method and apparatus for voice-interactive language instruction |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005237423A Division JP2006048065A (ja) | 1993-03-12 | 2005-08-18 | 音声対話式言語指導法及び装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPH08507620A JPH08507620A (ja) | 1996-08-13 |
JP3899122B2 JP3899122B2 (ja) | 2007-03-28 |
JP3899122B6 true JP3899122B6 (ja) | 2007-06-27 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5634086A (en) | Method and apparatus for voice-interactive language instruction | |
US5791904A (en) | Speech training aid | |
EP0708958B1 (en) | Multi-language speech recognition system | |
US8825479B2 (en) | System and method for recognizing emotional state from a speech signal | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US7840404B2 (en) | Method and system for using automatic generation of speech features to provide diagnostic feedback | |
CN110148427A (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
US20060074655A1 (en) | Method and system for the automatic generation of speech features for scoring high entropy speech | |
JPH11143346A (ja) | 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体 | |
JP2002040926A (ja) | インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法 | |
Pallett | Performance assessment of automatic speech recognizers | |
WO2002091358A1 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
US20230252971A1 (en) | System and method for speech processing | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
JP3899122B6 (ja) | 音声対話式言語指導のための方法及び装置 | |
Barczewska et al. | Detection of disfluencies in speech signal | |
CA2158062C (en) | Method and apparatus for voice-interactive language instruction | |
KR102274751B1 (ko) | 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템 | |
KR102274764B1 (ko) | 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템 | |
JP2001228890A (ja) | 音声認識装置 | |
Mathur | Session:-Jan-June 2020 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
Zhang et al. | An empathic-tutoring system using spoken language | |
i Talteknologi | Experiment with adaptation and vocal tract length normalization at automatic speech recognition of children’s speech |