JP2000501847A

JP2000501847A - 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置

Info

Publication number: JP2000501847A
Application number: JP09521379A
Authority: JP
Inventors: バーンスタイン，ジャレッド・シイ
Original assignee: バーンスタイン，ジャレッド・シイ
Priority date: 1995-12-04
Filing date: 1996-11-25
Publication date: 2000-02-15
Also published as: PT956552E; CA2239691C; WO1997021201A1; JP2005321817A; DE69622439T2; EP0956552B1; AU1128597A; US5870709A; CA2239691A1; HK1023638A1; EP0956552A1; ATE220817T1; DK0956552T3; ES2180819T3; DE69622439D1

Abstract

(57)【要約】音声認識コンポーネントを有するコンピュータシステムが、語音を介して呈示することができるユーザの能力を指導し、その実力を評価するための方法及び装置を提供する。このコンピュータシステムは、ユーザの語音入力の言語学的特徴、索引的特徴及び準言語学的特徴を追跡して、ゲーム、データアクセス、教育システム、及び試験を実行する。コンピュータシステムは、自動的に語音入力の特徴を結合して適切な題材を選択し、ユーザに適した方法で呈示する。一実施形態においては、コンピュータシステムは、ユーザの応答遅延及び話し速度を測定して、その次の会話表示を適切な話し速度で呈示する。他の実施形態では、コンピュータシステムは、ユーザの性及び母国語を識別し、その情報をユーザの発声言語内容の相対的正確さと結合して、それらの特徴を有する話し手にとってより易しい、あるいはより難しい題材を選択し、表示する。教育と試験での適応対話のための音声信号からの結合された情報のための方法と装置

Description

【発明の詳細な説明】教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置発明の背景１．発明の分野本発明は、広義には音声認識を利用した対話型の語学能力試験システムに関し、より詳しくは、この種のシステムにおいて語音入力の言語学的、索引的、準言語学的特徴を追跡するようにしたシステムに関する。２．背景技術多くのコンピュータシステムは、人間のユーザが音声言語を通してコンピュータシステムに制御を及ぼすことができる機能をサポートしている。これらのシステムは、設計に基づくアプリケーションの範囲を逸脱した発声に対する拒絶パスを含む言語モデルを参照しつつ音声認識を行うことがしばしばある。従って、そのアプリケーションの音声認識コンポーネントは、アプリケーションについて設計された言語モデルの中の最適一致をリターンするか、あるいはその音声信号を拒絶するかである。このような方法を組み込んだ様々なシステムについての適切な説明がアレックス・ワイベル（Alex Waibel）とカイ・フ・リー（Kai - Fu Le e）共編の「音声認識における読み方(Readings in Speech Recognition)」（１９９０年）に記載されている。第２言語教育用のコンピュータ支援語学学習（ＣＡＬＬ）システムは、音声認識の導入によって改善されている。バーンスタイン及びフランコ（Bernstein & Franco）（１９９５年）及びその引用文献にいくつかの例が記載されている。ほとんどの場合、ＣＡＬＬシステムの音声認識コンポーネントは、目標言語の非ネイティブの話し手のため、あるいは聴覚障害を持つ話し手のための試験及び能力鍛錬における最適一致（拒絶を伴う）、あるいは達成度の目安として用いられて来た。従来のラボデモンストレーションシステムは、ユーザの母国語でリーディングの指導を与えるように設計されている。従来の２つのシステムでは、ユーザが表示されたテキストを声を出して読む際におけるリーディングのインストラクタの対話中の選択された特徴を手本として真似ている。１つのシステムは、リーディング中の読み手の悪い発音の平均に基づいて会話表示を行うようにしたものであり（リスチェフ（Rtischev）、バーンスタイン(Bernstein)、及びチェン(Chen) ）、もう一つシステムは、共通の疑似スタートのモデルを開発して、会話表示をそれらの言語要素の発生の認識に基づいて行うようにしたものである（ＣＭＵのモストウ（Mostow））。エキスパートの教師及び他の対話指導者は、人の話の言語内容だけではなく、話し手及び音声信号の他の外見上明白な特徴を感知する。これらの従来技術には、音声信号の言語内容によって異なる応答を示すシステムが含まれる。また、従来技術のシステムは、話し手のアイデンティティや話し手の性のような索引的情報を抽出して、リーディングにおける発音得点や話し速度を計算している。しかしながら、人間のユーザの技能レベルを推定し、従って人間のユーザの総合的会話能力レベルに適切な方法でコンピュータシステムの動作を制御するために、これらの音声信号の言語外要素を言語内容と結合して、会話能力におけるユーザの総合的実力を推定することは行われていなかった。そのようなコンピュータベースの図形表示及び音声表示の制御は、ユーザの認識能力、言語能力及び発声能力に対するきめ細かい適応を容易にする上において、有用であり、かつ望ましい。発明の要旨本発明の一実施態様によれば、音声言語を介して人間ユーザと対話するコンピュータシステムが、ユーザの話に明白に現れる言語情報と言語外情報の複合的利用によって改善される。本発明は、入ってくる音声信号から言語内容、話し手の状態、話し手のアイデンティティ、発声反応時間、話しの速度、流ちょうさ、発音能力、母国語、及びその他の言語情報、索引的情報、あるいは準言語学的情報を抽出する。ユーザは、情報の要求、または単語、句、文、あるいはさらに大きい言語単位を読みなさい、繰り返しなさいという要求、あるいは図形表示集合体または言語表示集合体（例えば、画像あるいは段落）の欠けている要素、あるいは模倣例、あるいは従来話すよう促すプロンプトとして用いられている同様の図形表象または言語表象を補いなさい、入れなさい、あるいは指摘しなさいという要求として従来ユーザによって解釈されていたコンピュータ生成表示との関連で音声信号を発生する。表示は、ローカルまたはリモートのビデオディスプレイ端末あるいは電話のような、コンピュータシステムにその一部として組み込まれた装置あるいは周辺装置を介して与えられる。抽出された言語情報と言語外情報は、コンピュータ−人間の対話によるその人の娯楽、教育、あるいは評価を目的として結果的に得られるコンピュータ出力が差別的に選択されるように結合される。音声信号中の言語情報源と言語外情報源とを結合して次の音声表示または図形表示を選択することは、熟練した指導教師あるいはその他の会話指導者が行う統合的判断をシミュレートしたものである。本発明の語学教育及び言語試験における利益は、語学能力が言語能力と言語外能力との組合せであることから、直接的なものであるが、本発明はどのような内容の分野（例えば、計算や地理学）においても効果的に使用することができる。コンピュータシステムによって生成される会話表示での対応する索引的情報、準言語学的情報及び言語情報の合成によって、同じ文脈でのコミュニケーションが容易になる。図面の簡単な説明図１は、本発明の装置及び方法のための一例のプラットホームとして用いられるコンピュータシステムを示すブロック図である。図２は、本発明の一実施形態による音声認識、セマフォー機構及びアプリケーションインタフェース制御のためのトランスデューサ及びコンポーネントのサブシステムを示すブロック図である。図３は、本発明の一実施形態による自動音声認識コンポーネントシステムを示すブロック図である。図４は、本発明の一実施形態のためのセマフォーフィールドを形成するのに用いられる論理演算装置を示す概略ブロック図である。図５は、アプリケーションディスプレイコントローラの一実施形態を示す概略ブロック図である。図６は、アプリケーションディスプレイの状態を変える際のセマフォーフィールドの連携使用を表したフローチャートである。詳細な説明同様の参照記号によって同様の部分及び構成要素を指示する添付図面を参照して行う以下の説明においては、本発明の完全な理解を図るために多くの具体的な詳細事項が記載されている。しかしながら、この明細書をよく読むならば、本発明がこれらの具体的な詳細事項の記載がなくても実施可能であるということは当業者にとって明白であろう。その他の場合においては、本発明を不必要に不明瞭にしないため、周知の構成、技術及び装置については詳細な説明は省略した。図１は、本発明の装置及び方法を実施するコンピュータシステム１０を示したものである。本発明は、任意の数の総合型システムまたはスタンドアローンシステムあるいは装置によって使用することができるが、図示のコンピュータシステム１０は本発明のためのプラットホームの一つの実施形態を表す。図１に示すように、コンピュータシステム１０は、ホストＣＰＵ１２、メモリ１４、ハードディスクドライブ１６、及びフロッピィディスクドライブ１８を具備し、これらのコンポーネントすなわち構成要素はすべてシステムバス１９を介して互いに接続されている。この明細書をよく読むならば、これらの構成要素は、本発明の種々の実施形態ではその一部または全部を省くことができるということは理解されるはずである。さらに、コンピュータシステム１０の動作のために必要なオペレーティングシステム・ソフトウェア及びその他のソフトウェアはパワーアップと同時にハードディスクドライブ１６またはフロッピィディスクドライブ１８からメインメモリ１４にロードされるということは理解されるはずである。また、パワーアップ時にＣＰＵ１２によって実行されるコードの一部はＲＯＭまたはその他の不揮発性記憶装置に記憶されるということも理解されるはずである。コンピュータシステム１０は、さらに従来のキーボード２０及びカーソル位置決め装置２２を具備している。一実施形態においては、カーソル位置決め装置２２は、トラックボールと２つの輪郭ボタンによって起動される２つのスイッチとを有する。キーボード２２及びカーソル位置決め装置１３は、コンピュータシステム１０のユーザインタフェースの一部をなし、ユーザが他のコンピュータシステム１０の要素と通信することを可能にする。コンピュータシステム１０では、任意のキーボード２０及びカーソル位置決め装置２２を使用することができるが、一実施形態では、これらの２つは入出力コントローラ２４を介してシステムバス１９に接続された別個の装置である。他の実施形態では、入出力コントローラを省くことができ、さらにキーボード２０とカーソル位置決め装置２２を単一の装置にまとめることも可能である。コンピュータシステム１０は、さらにディスプレイコントローラ２８を介してシステムバス１９に接続された表示装置２６を有する。表示装置２６は、よく知られた表示装置の中の任意の一種でよく、また液晶表示装置あるいはビデオディスプレイ端末を任意に用いることも可能である。しかしながら、当業者ならば、他の実施形態では、表示装置２６は他の多くの表示装置の中の任意の一種とすることができるということも理解されるはずである。ディスプレイコントローラ２８は、通常ビデオメモリ（図示省略の）を有し、システムバス１９を介してコマンド及びデータ情報を受け取ってから、必要な信号を表示装置２６に供給することにより、テキスト情報、図形情報及びその他の情報のユーザに対する表示を達成する。コンピュータシステム１０の使用中は、コンピュータシステム１０のユーザインタフェースの一部をなすメニュー及びその他の入出力表示が表示装置２６に表示され、周知の仕方でカーソル位置決め装置２２を使って関連づけられたカーソルを画面上で動かすことができる。コンピュータシステム１０のプリンタ機能は、プリンタコントローラ３０及びプリンタ３２を介して実行される。プリンタコントローラ３０は、システムバス１９に接続され、これによってコマンド及びデータ情報の転送が可能となる。プリンタ３２は、周知の仕方でプリンタコントローラ３０に接続されている。コンピュータシステム１０の実施形態では、プリンタコントローラ３０及びプリンタ３２を使用しない実施形態もあるということは理解されるはずである。アプリケーションインタフェースユニット３４はシステムバス１９に接続され、受話器３６、表示装置３８及びスピーカ４０とシステムバス１９との間のインタフェースとしての役割を果たす。アプリケーションインタフェースユニット３４はさらにセマフォー（semaphore ）論理演算装置４２にも接続されており、後者は自動音声認識装置（ＡＳＲ）４４に接続されている。ＡＳＲ４４にはマイクロホン４６及び受話器３６が接続されている。動作について説明すると、音声信号はマイクロホン４６または受話器３６によって電気信号に変換される。次に、それらの電気信号は、以下に詳細に説明するように本発明の方法に従ってＡＳＲ４４によりデジタル化され、分析される。ＡＳＲ４４の出力信号は、信号と関連づけられた値を抽出するセマフォー論理演算装置４２へ送られる。これらの値は、アプリケーションインタフェースユニット３４に出力されて、以下に説明するようにしてさらに処理される。それらの処理結果は表示装置３８及び／またはスピーカ４０と受話器３６を介して出力される。一部の実施形態では、表示装置３８と表示装置２６は同一装置で構成することも可能なことは理解されるはずである。他の実施形態では、表示装置３８は専用装置であってもよい。アプリケーションインタフェースユニット３４を独立の装置として記載したが、本明細書を読めば、アプリケーションインタフェースユニット３４の機能はホストＣＰＵ１２を用いて達成することも可能であるということは当業者にとっては明白であろう。これまでコンピュータシステム１０を全体的に説明してきた。次に本発明を構成する個々の方法及び装置の実施形態について説明する。以下の説明では、実施における詳細はソフトウェアの形であると記載される場合があるが、ハードウェアによる代替の形態を用いることも可能であり、またその逆の場合も同様である。音声言語対話をサポートするコンピュータシステムは、アプリケーションインタフェース論理及びデータベースや周辺機器のような他の構成要素と統合された音声認識システムに基づく。図１に示すコンピュータシステム１０はそのようなシステムの一例である。コンピュータシステム１０の３つの主要構成要素、すなわち自動音声認識装置４４、セマフォー論理演算装置４２及びアプリケーションインタフェース・コントローラ３４を図２により詳細に示す。これらの構成要素は直接あるいは間接的に３つのトランスデューサ、すなわちビデオディスプレイ端末（ＶＤＴ）３８、スピーカ４０及びマイクロホン４６に接続されている。他の実施形態においては、ＶＤＴ３８は液晶表示装置のような他の形態の表示装置で構成することもできるということは理解されるはずである。これらのコンポーネントとトランスデューサは、論理データストリーム５０〜５８によって接続される。図２に示す実施形態は、ユーザがコンソールでＶＤＴ、マイクロホン及びスピーカと対話するシステムに似ている。しかしながら、図２のマイクロホンやスピーカはどちらも受話器３６に置換することも可能である。電話を介して動作する語学能力試験システムが、図２に示す本発明の一実施形態である。このような実施形態では、人間ユーザはコンピュータシステム１０から遠隔の位置で利用することができる。コンピュータシステム１０は、電話線である外行データストリーム５８上で音声信号を表示する。ユーザは、これに応答してマイクロホン４６または受話器３６に向けて話す。ユーザの音声信号は、電話線５０を介して伝送され、アプリケーションインタフェース・コントローラ３４からのデータストリーム５６で受け取られるアプリケーションインタフェースの現在の状態と関連して音声認識装置４４により処理される。音声認識装置４４は、単音（音声セグメント）、音節、単語、句及び文節単位とそろえた音声信号の表現を含むユーザの音声信号の言語内容の拡大表現を含むデータストリーム５２を生成する。セマフォー論理演算装置４２は、図２に示す実施形態ではシーケンス的に別個の処理コンポーネントの形で実施されているが、その機能は全部または一部を音声認識装置４４で実施することも可能である。セマフォー論理演算装置４２は、各装置レベルと関連づけられた一連の名目値及び数値を抽出する。この埋め込みセマフォー構造(embedded semaphore structur e)は、アプリケーションインタフェース・コントローラ３４に記憶され、種々の形で結合されて分岐判断をドライブすると共に、アプリケーションインタフェース・コントローラ３４の状態を決定するデータストリーム５４である。次に、アプリケーションインタフェース・コントローラ３４の状態は、２つのデータストリーム：すなわち、ＡＳＲ４４及びセマフォー論理演算装置４２で行われた処理に関連した現在の状態でＡＳＲ４４及びセマフォー論理演算装置４２を更新する５６、及びスピーカ４０あるいはユーザの受話器３６を通して出力される音声信号である５８を生成する。図３は音声認識装置４４の一実施形態のブロック図である。音声認識装置４４は、この実施形態の場合隠れマルコフモデル（ＨＭＭ）ベースのシステムに基づいたものであるが、本発明は他の音声認識技術を用いたシステムにも適用可能である。このコンポーネントは、当技術分野で周知のデジタル信号処理技術によって実行される特徴抽出器６０、及びアプリケーションインタフェース・コントローラ３４の現在の状態に適切な言語モデル６４を検索するデコーダ６２を具備する。ＨＭＭベースの音声認識装置を実装するために必要な技術は、当技術分野において周知である。例えば、コーエン(Cohen)他の米国特許第５，２６８，９９０号には、複数の文脈依存型電話モデルと混合された文脈非依存型隠れマルコフ電話モデルと各々表現された音声セグメントの確率ネットワークとして単語がモデル化されるシステムが記載されている。このような音声認識装置は、入力語音をサンプリングし、処理していくつかのスペクトルの特徴を得る。このような処理は、当業者にはよく知られているコードブック技術を用いて行われる。次に、それらの入力特徴を生じさせた可能性が最も高い状態シーケンスについて解を求めることによって、音声の認識が達成される。図４は、データストリーム５２を処理してデータストリーム５３を生成するセマフォー論理演算装置４２の概略ブロック図である。セマフォー論理演算装置４２は、部分的プロセス間通信によって並列に論理演算動作を行う一組の推定ルーチン７０〜７６を実装したものである。これらのプロセスは、電話語学能力試験のための実施形態では、会話応答についての話し速度と流ちょうさの測定、話し手の性と母国語の推定、及び音声セグメントと韻律の正確さの測定を含む。これらの各プロセスは、当技術分野で周知のプログラミング技術を用いて実施される。図５は、セマフォーの１０個の発声ＦＩＦＯ(10-utterance FIFO of semaphor e)を記憶するセマフォーサイロ８０、表示シーケンス状態機械８２、ディスプレイドライバ８４、及び表示シーケンス状態機械８２による表示に関して指定されるオーディオファイルが書き込まれた表示内容ライブラリ８６を具備するアプリケーションインタフェース・コントローラ３４のブロック図である。表示シーケンス状態機械８２は、セマフォーサイロ８０の内容によって状態を変える。表示シーケンス状態機械８２の現在の状態は、データストリーム５６を生成すると共に、表示内容ライブラリ８６からその記憶内容をコピーするかあるいは適応化してデータストリーム５８を生成するディスプレイドライバ８４を制御する。図６は、表示シーケンス状態機械８２に実装された状態ネットワークにおける決定論理素子を表したものである。この実施形態の組合せ論理９０は、最後のセマフォー値の決定性状態従属関数である。組合せ論理９０により、表示シーケンス状態機械８２はセマフォーサイロ８０からの入力に基づいて現在の状態９２から次の状態９４へ遷移することができる。本発明の範囲内で可能なその他の特徴としては、最後のセマフォー値の確率関数、及び最後のｎ（ｎ＜１１）セマフォーの値についての確率的関数または決定性関数が含まれる。本発明の一実施形態によれば、リモートのユーザが普通の受話器３６を介してコンピュータシステム１０との通信を開始することができる。これは、コンピュータシステム１０と対応付けられた電話番号をダイアルするとすぐに、そのユーザの呼に対して自動的に応答が返されることによって達成されるということは理解されよう。ユーザは、例えば、電話のタッチトーンキーパッドを使って音声プロンプトに応答することにより、典型的な仕方で希望する会話試験あるいは他のルーチンの動作を開始する。そのユーザ入力に応答して、コンピュータシステム１０はハードドライブ１６からメインメモリ１４に所望のアプリケーションプログラムをロードし、それに関連付けられた命令を実行し始める。命令の実行は、さらに、コンピュータシステム１０に選択されたアプリケーションプログラムの動作を実行するようそれらの命令に従って回路の構成を設定させる。いったん動作が開始されると、コンピュータシステム１０は一連の表示を生成することによってユーザの会話能力をテストし始める。表示は、全くの音声によるもの、すなわちユーザがもっぱら電話だけでコンタクトする場合は、全く音声のみによってもよく、あるいはユーザがリモート端末のところに居るか、モデムを介してコンピュータシステム１０にアクセスする場合は、音声 - 映像による表示であってもよい。コンピュータシステム１０にアクセスする一つの方法として、一般にインターネット呼ばれるコンピュータシステムのネットワークへのゲートウェイを介しアクセスすることが可能なことは理解されよう。接続の方法にかかわらず、コンピュータシステム１０によって始動される表示は、例えば単語、句、または文（あるいはより大きい言語単位）を読むか、あるいは繰り返すようにという要求の形；あるいは図形表示集合体または言語表示集合体（例えば、画像あるいは段落）の欠けている要素；あるいは模倣例；あるいは話すよう促すプロンプトとして便利に用いられている同様の図形表象または言語表象を補いなさい、入れなさい、あるいは指摘しなさいという要求の形を取ることが可能である。このプロンプトに応答して、ユーザが音声信号を供給すると、その信号は受話器３６（あるいは他の装置）を介してＡＳＲ４４に伝送される。上に述べたように、ユーザの音声信号はＡＳＲ４４によって処理されて、データストリーム５２が生成される。この情報（データストリーム５２）はセマフォー論理演算装置４２に送られ、この論理演算装置で上記のプロセスが動作して言語情報及び言語外情報を抽出する。例えば、一実施形態においては、ユーザの応答遅延と話し速度が確認される。他の実施形態では、ユーザの性と母国語情報が抽出される場合もある。この抽出された情報は、次いでコンピュータシステム１０の次の出力を選択するためにアプリケーションインタフェース３４によって利用される。語学試験との関連では、この出力は、例えば、語音特性が高いレベルの流ちょうさを実証しているユーザに対して高度の図形表示あるいは言語表示集合体を表示することを含むこともができる。もちろん、本発明の他の実施態様では、語学能力以外の利用目的を持つことが可能なことは理解されよう。例えば、本発明によって、地理の精通度あるいは計算能力を試験することもできる。また、本発明は、ユーザがコンピュータシステム１０上で走る娯楽ゲームと取り組む手段として用いることもできる。以上、音声信号からの情報を複合して適応対話を行うための方法及び装置を実装した新奇なコンピュータを開示し、説明した。本願では、特定の回路の実施形態に関連して説明したが、本発明の方法は同様に他の多くのシステムにも適用可能であることは理解できよう。従って、本願の開示内容は例示説明のためのものであると言う意味で解釈し、本発明の範囲は特許請求の範囲の記載のみに基づいて判断されるべきである。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９７年１２月１５日（１９９７．１２．１５）【補正内容】補正明細書教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置発明の背景１．発明の分野本発明は、広義には音声認識を利用した対話型の語学能力試験システムに関し、より詳しくは、この種のシステムにおいて語音入力の言語学的、索引的、準言語学的特徴を追跡するようにしたシステムに関する。２．背景技術多くのコンピュータシステムは、人間のユーザが音声言語を通してコンピュータシステムに制御を及ぼすことができる機能をサポートしている。これらのシステムは、設計に基づくアプリケーションの範囲を逸脱した発声に対する拒絶パスを含む言語モデルを参照しつつ音声認識を行うことがしばしばある。従って、そのアプリケーションの音声認識コンポーネントは、アプリケーションについて設計された言語モデルの中の最適一致をリターンするか、あるいはその音声信号を拒絶するかである。このような方法を組み込んだ様々なシステムについての適切な説明がアレックス・ワイベルWaibel （Alex Waibel）とカイ・フ・リー（Kai- Fu Lee）共編の「音声認識における読み方(Readings in Speech Recognition) 」（１９９０年）に記載されている。第２言語教育用のコンピュータ支援語学学習（ＣＡＬＬ）システムは、音声認識の導人によって改善されている。バーンスタイン及びフランコ（Bernstein & Franco）（実験音声学の原理(Principles of Experimental Phonetics)の第１１章「コンピュータによる音声認識(Speech Recognition by Computer)」（４０８〜４３４ページ；１９９６年刊））及びその参考文献にいくつかの例が記載されている。ほとんどの場合、ＣＡＬＬシステムの音声認識コンポーネントは、目標言語の非ネイティブの話し手のためあるいは聴覚障害を持つ話し手のための試験及び能力鍛錬における最適一致（拒絶を伴う）、あるいは達成度の目安として用いられて来た。従来のラボデモンストレーションシステムは、ユーザの母国語でリーディングの指導を与えるように設計されている。従来の２つのシステムでは、ユーザが表示されたテキストを声を出して読む際におけるリーディングのインストラクタの対話中の選択された特徴を手本として真似ている。１つのシステムは、リーディング中の読み手の悪い発音の平均に基づいて会話表示を行うようにしたものであり（例えば、リスチェフ（Rtischev）、バーンスタイン(Bernstein)、及びチェン(Chen)によるWO94/20952を参照）、もう一つシステムは、共通の疑似スタートのモデルを開発して、会話表示をそれらの言語要素の発生の認識に基づいて行うようにしたものである。（ジェイ・モストウ（J．Mostow）他による「ヒアリングするリーディング指導システム試作品(Prototype Reading Coach that Listen s)」、人工知能に関する１２回全国会議会報、AAAI-94（Proc．12th Nat．Conf ．Artificia1 Intelligence,AAAI-94)、（７８５〜７９２ページ、１９８４年）を参照）。エキスパートの教師及び他の対話指導者は、人の話の言語内容だけではなく、話し手及び音声信号の他の外見上明白な特徴を感知する。これらの従来技術には、音声信号の言語内容によって異なる応答を示すシステムが含まれる。また、従来技術のシステムは、話し手のアイデンティティや話し手の性のような索引的情報を抽出して、リーディングにおける発音得点や話し速度を計算している。しかしながら、人間のユーザの技能レベルを推定し、従って人間のユーザの総合的会話能力レベルに適切な方法でコンピュータシステムの動作を制御するために、これらの音声信号の言語外要素を言語内容と結合して、会話能力におけるユーザの総合的実力を推定することは行われていなかった。そのようなコンピュータベースの図形表示及び音声表示の制御は、ユーザの認識能力、言語能力及び発声能力に対するきめ細かい適応を容易にする上において、有用であり、かつ望ましい。発明の要旨本発明の一実施態様によれば、音声言語を介してユーザと対話するコンピュータシステムが、ユーザの話に明白に現れる言語情報と言語外情報の複合的利用によって改善される。本発明は、入ってくる音声信号から言語内容、話し手の状態、話し手のアイデンティティ補正請求範囲１．システムにより与えられたプロンプトに応答してユーザから会話応答が導出される対話型のコンピュータベースシステム（１０）において：ａ）ユーザの会話応答中の言語学的値、索引的値、または準言語学的値を抽出する手段（４４）と；ｂ）（ｉ）上記会話応答に含まれる単語、句または文を含む言語単位と；（ii）上記プロンプトに対する上記会話応答の遅延と；の複合値に従って、ユーザに与えられる次のプロンプトを自動的に選択する手段（３４）と；を具備したシステム。２．上記索引的値または準言語学的値を抽出する手段（４４）が、上記ユーザの会話応答から、話し手のアイデンティティ、基本振動数値、音声信号振幅、発音品質、流ちょうさ、話しの速度、話し手の母国語、話し手の年齢あるいは話し手の性を含むセマフォー値を抽出するための手段（４２）よりなる請求項１記載のシステム。３．上記索引的値または準言語学的値を抽出するための手段（４４）が、目的言語でのユーザの会話応答から導出されたユーザの母国語を含むセマフォー値を抽出するための手段（４２）よりなる請求項１記載のシステム。４．次のプロンプトを自動的にを選択する手段（３４）が、（ａ）上記ユーザの会話応答から抽出された１つ以上のセマフォー値を（ｂ）ユーザの会話応答の遅延の大きさ、及び（ｃ）前回の応答の言語単位と結合して次のプロンプトを選択する手段（８０、８２）よりなる請求項２記載のシステム。５．上記次のプロンプトを自動的に選択する手段（３４）が、２つ以上の上記で選択されたセマフォー値を結合することによりユーザの状態を推定して次のプロンプトを選択する手段（４２）よりなる請求項２記載のシステム。６．上記次のプロンプトを自動的に選択する手段（３４）が、２つ以上の上記で選択されたセマフォー値を結合することによりユーザの能力または特徴を推定して次のプロンプトを選択する手段（４２）をさらに具備する請求項２記載のシステム。７．上記ユーザの能力または特徴が：語学力、主題に関する知識、ユーザの年齢またはユーザの性の少なくとも１つよりなる請求項６記載のシステム。８．少なくとも一部、ユーザからの会話応答の言語内容、準言語学的内容または索引的内容によって上記プロンプトの言語学的特徴、準言語学的特徴または索引的特徴を選択するための手段（３８、４０）をさらに具備した請求項１記載のシステム。９．与えられる上記プロンプトの言語学的特徴、準言語学的特徴または索引的特徴が、言語単位、ユーザの応答に対する遅延、話しの速度、基本振動数値、音声信号振幅、発音品質、流ちょうさ、話し手のアイデンティティ、話し手の年齢または話し手の性よりなる請求項８記載のシステム。１０．上記プロンプトが情報を求める要求よりなる請求項８記載のシステム。ｌ１．上記プロンプトが言語単位を読めという要求よりなる請求項８記載のシステム。１２．上記プロンプトが言語単位を繰り返せという要求よりなる請求項８記載のシステム。１３．上記プロンプトが言語表示集合体を補え、記入せよ、あるいは指摘せよという要求よりなる請求項８記載のシステム。１４．上記ユーザからの会話応答が、電話または他の電気通信あるいはデータ情報ネットワーク（３６）を介して上記対話型のコンピュータシステム（１０）で受け取られる請求項記載１のシステム。１５．上記プロンプトが図形プロンプトである請求項１記載のシステム。１６．上記プロンプトが音声プロンプトである請求項１記載のシステム。１７．上記プロンプトが、言語要素と図形要素を組み合わせたプロンプトよりなる請求項１記載のシステム。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＣＺ，ＤＥ，ＤＥ，ＤＫ，ＤＫ，ＥＥ，ＥＥ，ＥＳ，ＦＩ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ

Claims

【特許請求の範囲】１．ユーザに対してプロンプトを表示するステップと；ユーザから上記プロンプトに対する１つ以上の言語単位を含む会話応答を受け取るステップと；上記会話応答から１つ以上のセマフォー値を得るステップと；ユーザに表示する次のプロンプトを少なくとも一部上記セマフォー値に基づいて選択するステップと；を具備したコンピュータ援用方法。２．上記セマフォー値が：ユーザのアイデンティティ；ユーザの母国語；ユーザの話し速度；言語単位の識別情報；会話応答の遅延；会話応答の振幅；会話応答の流ちょうさ；会話応答の発音品質；会話応答の基本振動数の値；及びユーザの；を含むリストから選択されたセマフォーを表す１つ以上の値を含む請求項１記載のコンピュータ援用方法。３．上記セマフォー値が、さらに上記会話応答以外の情報源から得られる請求項２記載のコンピュータ援用方法。４．上記情報源が、ユーザ識別コードを含む請求項３記載のコンピュータ援用方法。５．上記ユーザ識別コードが、ANI（自動番号識別コード）を含む請求項４記載のコンピュータ援用方法。６．上記次のプロンプトが、句よりなる請求項３記載のコンピュータ援用方法。７．上記次のプロンプトが、文よりなる請求項３記載のコンピュータ援用方法。８．上記次のプロンプトが、言語表示集合体を補えという要求よりなう請求項３記載のコンピュータ援用方法。９．上記次のプロンプトが、言語表示集合体で欠けている要素を指摘せよという要求よりなる請求項３記載のコンピュータ援用方法。１０．上記次のプロンプトが、上記ユーザが模倣しようとする例よりなる請求項３記載のコンピュータ援用方法。１１．上記次のプロンプトが、グラフィカル・ユーザインタフェースを介して表示される請求項３記載のコンピュータ援用方法。１２．上記次のプロンプトが、電話システムを介して表示される請求項３記載のコンピュータ援用方法。１３．上記会話応答が、電話システムを介して受け取られる請求項３記載のコンピュータ援用方法。１４．上記セマフォー値を得るステップが：１つ以上の言語学的特徴推定ルーチンを用いて上記１つ以上のセマフォー値を抽出するよう構成が設定されたセマフォー論理演算装置に上記会話応答を一連のデジタル信号として与えるステップ；を含む請求項１３記載のコンピュータ援用方法。１５．次のプロンプトを選択する上記ステップが、プロンプト中の１つ以上の言語単位；プロンプトの索引的特性；プロンプトの開始タイミング；プロンプトのタイムスケール；またはプロンプト中のノイズのレベル及び特性に対するプロンプトの相対振幅；に基づいて、ユーザにとってより易しいか、あるいはより難しい題材を選択してユーザに呈示するステップよりなる請求項１記載のコンピュータ援用方法。１６．コンピュータ援用音声言語実力判定方法において：１つ以上の言語単位を含む発声を表すデジタル信号をコンピュータで受け取るステップと；上記デジタル信号から上記１つ以上の言語単位のセマフォー値を抽出するステップと；上記１つ以上の言語単位の上記で抽出されたセマフォー値の２つ以上を結合して複合結果を生成し、該複合結果を記憶モデルと比較して比較結果を導出するステップと；上記比較結果に基づいて上記発声に実力レベルを割り当てるステップと；を具備したコンピュータ援用音声言語実力判定方法。１７．上記実力レベルに従って選択されたプロンプトをユーザに対して表示するステップ；をさらに具備し、上記プロンプトが１つ以上の選択された言語単位を含む請求項１６記載のコンピュータ援用音声言語実力判定方法。１８．上記プロンプトに応答して後続の発声を表す後続のデジタル信号を上記コンピュータで受け取るステップ；、をさらに具備した請求項１７記載のコンピュータ援用音声言語実力判定方法１９．上記後続の発声を上記プロンプトとの関連で分析することによって上記で割り当てられた実力レベルを高めるステップをさらに具備した請求項１８記載のコンピュータ援用音声言語実力判定方法。２０．上記プロンプトが、単語または句よりなる選択された言語単位を含む請求項１９記載のコンピュータ援用音声言語実力判定方法。２１．上記プロンプトが、文よりなる選択された言語単位を含む請求項１９記載のコンピュータ援用音声言語実力判定方法。２２．上記プロンプトが、言語表示集合体を補えという要求よりなる選択された言語単位を含む請求項１９記載のコンピュータ援用音声言語実力判定方法。２３．上記プロンプトが、言語表示集合体で欠けている要素を指摘せよという要求よりなる選択された言語単位を含む請求項１９記載のコンピュータ援用音声言語実力判定方法。２４．上記プロンプトが、ユーザが模倣しようとする例よりなる選択された言語単位を含む請求項１９記載のコンピュータ援用音声言語実力判定方法。２５．上記デジタル信号が電話システムを介して受け取られる請求項１６記載のコンピュータ援用音声言語実力判定方法。２６．上記デジタル信号がインターネットを介して受け取られる請求項１６記載のコンピュータ援用音声言語実力判定方法。２７．上記セマフォー値を抽出する上記ステップが：１つ以上の言語学的特徴推定ルーチンを含むセマフォー論理演算装置に上記デジタル信号を供給するステップと；上記セマフォー論理演算装置を用いて、上記デジタル信号から上記言語単位の上記セマフォー値と関連付けられた一連の値を抽出するステップと；よりなる請求項１６記載のコンピュータ援用音声言語実力判定方法。２８．上記一連の値を抽出する上記ステップが、隠れマルコフモデル特徴抽出器に基づく音声認識装置を用いて達成される請求項１６記載のコンピュータ援用音声言語実力判定方法。２９．ユーザの音声信号を第１の電気信号に変換するように構成が設定された第１のユーザインタフェースコンポーネントと；上記第１のユーザインタフェースコンポーネントに接続されていて、１つ以上の言語単位とそろえた上記音声信号の表現を含む第２の電気信号を発生するように上記第１の電気信号をデジタル化し、そして分析するように構成が設定された自動音声認識装置と；上記自動音声認識装置に接続されていて、該第２の電気信号の範囲内にある各言語単位レベルと関連付けられた値を抽出するように構成が設定されたセマフォー論理演算装置と；上記セマフォー論理演算装置に接続されていて、上記値から決定される上記ユーザの状態、特徴または属性に従ってユーザに対して表示される第３の情報よりなる電気信号を発生するように該値を処理するよう構成が設定されたアプリケーションインタフェースユニットと；を具備したディジタルシステム。３０．上記自動音声認識装置が：上記第１の電気信号を受け取り、デジタル化して、出力信号を発生するように構成が設定された特徴抽出器と；上記特徴抽出器に接続されたデコーダと；上記デコーダに接続された言語モデルと；を具備し、上記デコーダが、上記アプリケーションインタフェースユニットの現在の状態及び上記出力信号に含まれるスペクトル特徴に従って上記言語モデルを検索するように構成が設定されている、請求項２９記載のディジタルシステム。３１．上記セマフォー論理演算装置が、１つ以上の推定ルーチンをを具備する請求項３０記載のディジタルシステム。３２．上記アプリケーションインタフェースユニットが：複数のセマフォーを記憶するよう、かつ上記セマフォー論理演算装置から入力を受け取るように構成が設定されたセマフォーサイロと；上記セマフォーサイロに接続されていて、該セマフォーサイロの内容に従って状態を変えるように構成が設定された表示シーケンス状態機械と；関連付けられた表示ライブラリを有し、かつ上記表示シーケンス状態機械に接続されていて、該表示シーケンス状態機械の現在の状態に従って上記第３の電気信号を発生するように構成が設定されたディスプレイドライバと；を具備した請求項３１記載のディジタルシステム。３３．上記第３の電気信号が、上記第１のユーザインタフェースコンポーネントを介して再生される音声信号よりなる請求項３２記載のディジタルシステム。３４．上記第３の電気信号を受け取るように接続されたさらに第２のユーザインタフェースコンポーネントをさらに具備した請求項３２記載のディジタルシステム。３５．上記第３の電気信号が、上記第２のユーザインタフェースコンポーネントを介して再生される音声信号よりなる請求項３４記載のディジタルシステム。３６．上記第３の電気信号が、上記第２のユーザインタフェースコンポーネント上に表示される図形情報よりなる請求項３４記載のディジタルシステム。３７．上記第３の電気信号が、上記第２のユーザインタフェースエースコンポーネント上に表示されるテキスト情報よりなる請求項３４記載のディジタルシステム。３８．上記第１のユーザインタフェース部品と該第２のユーザインタフェース部品がユーザターミナルで場所を提供される請求項３４記載のディジタルシステム。３９．複数の命令シーケンスが記憶されたコンピュータ可読媒体において、該複数の命令シーケンスがプロセッサによって実行されると、該プロセッサをして：１つ以上の言語単位を含む発声を表すデジタル信号を受け取るステップと；上記デジタル信号から上記１つ以上の言語単位のセマフォー値を抽出するステップと；上記１つ以上の言語単位の上記で抽出されたセマフォー値の２つ以上を結合して複合結果を生成し、該複合結果を記憶モデルと比較して比較結果を導出するステップと；上記比較結果に基づいて上記発声にユーザの状態、特徴または属性をを割り当てるステップと；を実行させるコンピュータ可読媒体４０．上記プロセッサをして：上記ユーザの状態、特徴または属性の上記レベルに従って選択されたプロンプトをユーザに対して表示するステップで、該プロンプトが１つ以上の言語単位を含むステップ、を実行させる命令がさらに記憶されている請求項３９記載のコンピュータ可読媒体。４１．上記プロセッサをして：上記で選択された上記プロンプトの言語単位に対応する後続の発声を表す後続のデジタル信号を受け取るステップと；上記後続の発声を上記プロンプトに対して分析することによって、上記で割り当てられたユーザの状態、特徴または属性のレベルを高めるステップと；を実行させる命令がさらに記憶されている請求項４０記載のコンピュータ可読媒体。４２．上記プロンプトが、単語または句よりなる選択された言語単位を含む請求項４１記載のコンピュータ可読媒体。４３．上記プロンプトが、文よりなる選択された言語単位を含む請求項４１記載のコンピュータ可読媒体。４４．上記プロンプトが、言語表示集合体を補えという要求よりなる選択された言語単位を含む請求項４１記載のコンピュータ可読媒体。４５．上記プロンプトが、言語表示集合体中の欠けている要素を指摘せよという要求よりなる選択された言語単位を含む請求項４１記載のコンピュータ可読媒体。４６．上記プロンプトが、ユーザが模倣しようとする選択された例よりなる言語単位を含む請求項４１記載のコンピュータ可読媒体。４７．上記デジタル信号が、電話システムを介して受け取られる請求項３９記載のコンピュータ可読媒体。４８．上記デジタル信号が、インターネットを介して受け取られる請求項３９記載のコンピュータ可読媒体。４９．上記１つ以上の言語単位を抽出する上記ステップ中に上記プロセッサによって実行されると、上記プロセッサををして：１つ以上の言語学的特徴推定ルーチンを含むセマフォー論理演算装置に上記デジタル信号を供給出力するステップと；上記セマフォー論理演算装置を用いて上記デジタル信号から上記言語単位の上記セマフォー値と関連付けられた一連の数値を抽出するステップと；を実行させる命令がさらに記憶されている請求項３９記載コンピュータ可読媒体５０．上記プロセッサが、上記一連の数値を抽出する上記ステップを隠れマルコフモデルに基づく動作シーケンス実行することによって行う請求項３９記載のコンピュータ可読媒体。