JP2000501847A - 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置 - Google Patents

教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置

Info

Publication number
JP2000501847A
JP2000501847A JP09521379A JP52137997A JP2000501847A JP 2000501847 A JP2000501847 A JP 2000501847A JP 09521379 A JP09521379 A JP 09521379A JP 52137997 A JP52137997 A JP 52137997A JP 2000501847 A JP2000501847 A JP 2000501847A
Authority
JP
Japan
Prior art keywords
computer
user
prompt
language
semaphore
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP09521379A
Other languages
English (en)
Inventor
バーンスタイン,ジャレッド・シイ
Original Assignee
バーンスタイン,ジャレッド・シイ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バーンスタイン,ジャレッド・シイ filed Critical バーンスタイン,ジャレッド・シイ
Publication of JP2000501847A publication Critical patent/JP2000501847A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • G09B7/04Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student characterised by modifying the teaching programme in response to a wrong answer, e.g. repeating the question, supplying a further explanation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

(57)【要約】 音声認識コンポーネントを有するコンピュータシステムが、語音を介して呈示することができるユーザの能力を指導し、その実力を評価するための方法及び装置を提供する。このコンピュータシステムは、ユーザの語音入力の言語学的特徴、索引的特徴及び準言語学的特徴を追跡して、ゲーム、データアクセス、教育システム、及び試験を実行する。コンピュータシステムは、自動的に語音入力の特徴を結合して適切な題材を選択し、ユーザに適した方法で呈示する。一実施形態においては、コンピュータシステムは、ユーザの応答遅延及び話し速度を測定して、その次の会話表示を適切な話し速度で呈示する。他の実施形態では、コンピュータシステムは、ユーザの性及び母国語を識別し、その情報をユーザの発声言語内容の相対的正確さと結合して、それらの特徴を有する話し手にとってより易しい、あるいはより難しい題材を選択し、表示する。教育と試験での適応対話のための音声信号からの結合された情報のための方法と装置

Description

【発明の詳細な説明】 教育及び試験における適応対話の音声 信号から複合情報を得る方法及び装置 発明の背景 1.発明の分野 本発明は、広義には音声認識を利用した対話型の語学能力試験システムに関し 、より詳しくは、この種のシステムにおいて語音入力の言語学的、索引的、準言 語学的特徴を追跡するようにしたシステムに関する。 2.背景技術 多くのコンピュータシステムは、人間のユーザが音声言語を通してコンピュー タシステムに制御を及ぼすことができる機能をサポートしている。これらのシス テムは、設計に基づくアプリケーションの範囲を逸脱した発声に対する拒絶パス を含む言語モデルを参照しつつ音声認識を行うことがしばしばある。従って、そ のアプリケーションの音声認識コンポーネントは、アプリケーションについて設 計された言語モデルの中の最適一致をリターンするか、あるいはその音声信号を 拒絶するかである。このような方法を組み込んだ様々なシステムについての適切 な説明がアレックス・ワイベル(Alex Waibel)とカイ・フ・リー(Kai - Fu Le e)共編の「音声認識における読み方(Readings in Speech Recognition)」(1 990年)に記載されている。 第2言語教育用のコンピュータ支援語学学習(CALL)システムは、音声認 識の導入によって改善されている。バーンスタイン及びフランコ(Bernstein & Franco)(1995年)及びその引用文献にいくつかの例が記載されている。ほ とんどの場合、CALLシステムの音声認識コンポーネントは、目標言語の非ネ イティブの話し手のため、あるいは聴覚障害を持つ話し手のための試験及び能力 鍛錬における最適一致(拒絶を伴う)、あるいは達成度の目安として用いられて 来 た。 従来のラボデモンストレーションシステムは、ユーザの母国語でリーディング の指導を与えるように設計されている。従来の2つのシステムでは、ユーザが表 示されたテキストを声を出して読む際におけるリーディングのインストラクタの 対話中の選択された特徴を手本として真似ている。1つのシステムは、リーディ ング中の読み手の悪い発音の平均に基づいて会話表示を行うようにしたものであ り(リスチェフ(Rtischev)、バーンスタイン(Bernstein)、及びチェン(Chen) )、もう一つシステムは、共通の疑似スタートのモデルを開発して、会話表示を それらの言語要素の発生の認識に基づいて行うようにしたものである(CMUの モストウ(Mostow))。 エキスパートの教師及び他の対話指導者は、人の話の言語内容だけではなく、 話し手及び音声信号の他の外見上明白な特徴を感知する。これらの従来技術には 、音声信号の言語内容によって異なる応答を示すシステムが含まれる。また、従 来技術のシステムは、話し手のアイデンティティや話し手の性のような索引的情 報を抽出して、リーディングにおける発音得点や話し速度を計算している。しか しながら、人間のユーザの技能レベルを推定し、従って人間のユーザの総合的会 話能力レベルに適切な方法でコンピュータシステムの動作を制御するために、こ れらの音声信号の言語外要素を言語内容と結合して、会話能力におけるユーザの 総合的実力を推定することは行われていなかった。そのようなコンピュータベー スの図形表示及び音声表示の制御は、ユーザの認識能力、言語能力及び発声能力 に対するきめ細かい適応を容易にする上において、有用であり、かつ望ましい。 発明の要旨 本発明の一実施態様によれば、音声言語を介して人間ユーザと対話するコンピ ュータシステムが、ユーザの話に明白に現れる言語情報と言語外情報の複合的利 用によって改善される。本発明は、入ってくる音声信号から言語内容、話し手の 状態、話し手のアイデンティティ、発声反応時間、話しの速度、流ちょうさ、発 音能力、母国語、及びその他の言語情報、索引的情報、あるいは準言語学的情報 を抽出する。ユーザは、情報の要求、または単語、句、文、あるいはさらに大き い言語単位を読みなさい、繰り返しなさいという要求、あるいは図形表示集合体 または言語表示集合体(例えば、画像あるいは段落)の欠けている要素、あるい は模倣例、あるいは従来話すよう促すプロンプトとして用いられている同様の図 形表象または言語表象を補いなさい、入れなさい、あるいは指摘しなさいという 要求として従来ユーザによって解釈されていたコンピュータ生成表示との関連で 音声信号を発生する。表示は、ローカルまたはリモートのビデオディスプレイ端 末あるいは電話のような、コンピュータシステムにその一部として組み込まれた 装置あるいは周辺装置を介して与えられる。抽出された言語情報と言語外情報は 、コンピュータ−人間の対話によるその人の娯楽、教育、あるいは評価を目的と して結果的に得られるコンピュータ出力が差別的に選択されるように結合される 。 音声信号中の言語情報源と言語外情報源とを結合して次の音声表示または図形 表示を選択することは、熟練した指導教師あるいはその他の会話指導者が行う統 合的判断をシミュレートしたものである。本発明の語学教育及び言語試験におけ る利益は、語学能力が言語能力と言語外能力との組合せであることから、直接的 なものであるが、本発明はどのような内容の分野(例えば、計算や地理学)にお いても効果的に使用することができる。コンピュータシステムによって生成され る会話表示での対応する索引的情報、準言語学的情報及び言語情報の合成によっ て、同じ文脈でのコミュニケーションが容易になる。 図面の簡単な説明 図1は、本発明の装置及び方法のための一例のプラットホームとして用いられ るコンピュータシステムを示すブロック図である。 図2は、本発明の一実施形態による音声認識、セマフォー機構及びアプリケー ションインタフェース制御のためのトランスデューサ及びコンポーネントのサブ システムを示すブロック図である。 図3は、本発明の一実施形態による自動音声認識コンポーネントシステムを示 すブロック図である。 図4は、本発明の一実施形態のためのセマフォーフィールドを形成するのに用 いられる論理演算装置を示す概略ブロック図である。 図5は、アプリケーションディスプレイコントローラの一実施形態を示す概略 ブロック図である。 図6は、アプリケーションディスプレイの状態を変える際のセマフォーフィー ルドの連携使用を表したフローチャートである。 詳細な説明 同様の参照記号によって同様の部分及び構成要素を指示する添付図面を参照し て行う以下の説明においては、本発明の完全な理解を図るために多くの具体的な 詳細事項が記載されている。しかしながら、この明細書をよく読むならば、本発 明がこれらの具体的な詳細事項の記載がなくても実施可能であるということは当 業者にとって明白であろう。その他の場合においては、本発明を不必要に不明瞭 にしないため、周知の構成、技術及び装置については詳細な説明は省略した。 図1は、本発明の装置及び方法を実施するコンピュータシステム10を示した ものである。本発明は、任意の数の総合型システムまたはスタンドアローンシス テムあるいは装置によって使用することができるが、図示のコンピュータシステ ム10は本発明のためのプラットホームの一つの実施形態を表す。 図1に示すように、コンピュータシステム10は、ホストCPU12、メモリ 14、ハードディスクドライブ16、及びフロッピィディスクドライブ18を具 備し、これらのコンポーネントすなわち構成要素はすべてシステムバス19を介 して互いに接続されている。この明細書をよく読むならば、これらの構成要素は 、本発明の種々の実施形態ではその一部または全部を省くことができるというこ とは理解されるはずである。さらに、コンピュータシステム10の動作のために 必要なオペレーティングシステム・ソフトウェア及びその他のソフトウェアはパ ワーアップと同時にハードディスクドライブ16またはフロッピィディスクドラ イブ18からメインメモリ14にロードされるということは理解されるはずであ る。また、パワーアップ時にCPU12によって実行されるコードの一部はRO Mまたはその他の不揮発性記憶装置に記憶されるということも理解されるはずで ある。 コンピュータシステム10は、さらに従来のキーボード20及びカーソル位置 決め装置22を具備している。一実施形態においては、カーソル位置決め装置2 2は、トラックボールと2つの輪郭ボタンによって起動される2つのスイッチと を有する。キーボード22及びカーソル位置決め装置13は、コンピュータシス テム10のユーザインタフェースの一部をなし、ユーザが他のコンピュータシス テム10の要素と通信することを可能にする。コンピュータシステム10では、 任意のキーボード20及びカーソル位置決め装置22を使用することができるが 、一実施形態では、これらの2つは入出力コントローラ24を介してシステムバ ス19に接続された別個の装置である。他の実施形態では、入出力コントローラ を省くことができ、さらにキーボード20とカーソル位置決め装置22を単一の 装置にまとめることも可能である。 コンピュータシステム10は、さらにディスプレイコントローラ28を介して システムバス19に接続された表示装置26を有する。表示装置26は、よく知 られた表示装置の中の任意の一種でよく、また液晶表示装置あるいはビデオディ スプレイ端末を任意に用いることも可能である。しかしながら、当業者ならば、 他の実施形態では、表示装置26は他の多くの表示装置の中の任意の一種とする ことができるということも理解されるはずである。ディスプレイコントローラ2 8は、通常ビデオメモリ(図示省略の)を有し、システムバス19を介してコマ ンド及びデータ情報を受け取ってから、必要な信号を表示装置26に供給するこ とにより、テキスト情報、図形情報及びその他の情報のユーザに対する表示を達 成する。コンピュータシステム10の使用中は、コンピュータシステム10のユ ーザインタフェースの一部をなすメニュー及びその他の入出力表示が表示装置2 6に表示され、周知の仕方でカーソル位置決め装置22を使って関連づけられた カーソルを画面上で動かすことができる。 コンピュータシステム10のプリンタ機能は、プリンタコントローラ30及び プリンタ32を介して実行される。プリンタコントローラ30は、システムバス 19に接続され、これによってコマンド及びデータ情報の転送が可能となる。プ リンタ32は、周知の仕方でプリンタコントローラ30に接続されている。コン ピュータシステム10の実施形態では、プリンタコントローラ30及びプリンタ 32を使用しない実施形態もあるということは理解されるはずである。 アプリケーションインタフェースユニット34はシステムバス19に接続され 、 受話器36、表示装置38及びスピーカ40とシステムバス19との間のインタ フェースとしての役割を果たす。アプリケーションインタフェースユニット34 はさらにセマフォー(semaphore )論理演算装置42にも接続されており、後者 は自動音声認識装置(ASR)44に接続されている。ASR44にはマイクロ ホン46及び受話器36が接続されている。動作について説明すると、音声信号 はマイクロホン46または受話器36によって電気信号に変換される。次に、そ れらの電気信号は、以下に詳細に説明するように本発明の方法に従ってASR4 4によりデジタル化され、分析される。ASR44の出力信号は、信号と関連づ けられた値を抽出するセマフォー論理演算装置42へ送られる。これらの値は、 アプリケーションインタフェースユニット34に出力されて、以下に説明するよ うにしてさらに処理される。それらの処理結果は表示装置38及び/またはスピ ーカ40と受話器36を介して出力される。一部の実施形態では、表示装置38 と表示装置26は同一装置で構成することも可能なことは理解されるはずである 。他の実施形態では、表示装置38は専用装置であってもよい。 アプリケーションインタフェースユニット34を独立の装置として記載したが 、本明細書を読めば、アプリケーションインタフェースユニット34の機能はホ ストCPU12を用いて達成することも可能であるということは当業者にとって は明白であろう。 これまでコンピュータシステム10を全体的に説明してきた。次に本発明を構 成する個々の方法及び装置の実施形態について説明する。以下の説明では、実施 における詳細はソフトウェアの形であると記載される場合があるが、ハードウェ アによる代替の形態を用いることも可能であり、またその逆の場合も同様である 。 音声言語対話をサポートするコンピュータシステムは、アプリケーションイン タフェース論理及びデータベースや周辺機器のような他の構成要素と統合された 音声認識システムに基づく。図1に示すコンピュータシステム10はそのような システムの一例である。コンピュータシステム10の3つの主要構成要素、すな わち自動音声認識装置44、セマフォー論理演算装置42及びアプリケーション インタフェース・コントローラ34を図2により詳細に示す。これらの構成要素 は直接あるいは間接的に3つのトランスデューサ、すなわちビデオディスプレイ 端末(VDT)38、スピーカ40及びマイクロホン46に接続されている。他 の実施形態においては、VDT38は液晶表示装置のような他の形態の表示装置 で構成することもできるということは理解されるはずである。これらのコンポー ネントとトランスデューサは、論理データストリーム50〜58によって接続さ れる。図2に示す実施形態は、ユーザがコンソールでVDT、マイクロホン及び スピーカと対話するシステムに似ている。しかしながら、図2のマイクロホンや スピーカはどちらも受話器36に置換することも可能である。 電話を介して動作する語学能力試験システムが、図2に示す本発明の一実施形 態である。このような実施形態では、人間ユーザはコンピュータシステム10か ら遠隔の位置で利用することができる。コンピュータシステム10は、電話線で ある外行データストリーム58上で音声信号を表示する。ユーザは、これに応答 してマイクロホン46または受話器36に向けて話す。ユーザの音声信号は、電 話線50を介して伝送され、アプリケーションインタフェース・コントローラ3 4からのデータストリーム56で受け取られるアプリケーションインタフェース の現在の状態と関連して音声認識装置44により処理される。 音声認識装置44は、単音(音声セグメント)、音節、単語、句及び文節単位 とそろえた音声信号の表現を含むユーザの音声信号の言語内容の拡大表現を含む データストリーム52を生成する。セマフォー論理演算装置42は、図2に示す 実施形態ではシーケンス的に別個の処理コンポーネントの形で実施されているが 、その機能は全部または一部を音声認識装置44で実施することも可能である。 セマフォー論理演算装置42は、各装置レベルと関連づけられた一連の名目値及 び数値を抽出する。この埋め込みセマフォー構造(embedded semaphore structur e)は、アプリケーションインタフェース・コントローラ34に記憶され、種々の 形で結合されて分岐判断をドライブすると共に、アプリケーションインタフェー ス・コントローラ34の状態を決定するデータストリーム54である。次に、ア プリケーションインタフェース・コントローラ34の状態は、2つのデータスト リーム:すなわち、ASR44及びセマフォー論理演算装置42で行われた処理 に関連した現在の状態でASR44及びセマフォー論理演算装置42を更新する 56、及びスピーカ40あるいはユーザの受話器36を通して出力される音声信 号 である58を生成する。 図3は音声認識装置44の一実施形態のブロック図である。音声認識装置44 は、この実施形態の場合隠れマルコフモデル(HMM)ベースのシステムに基づ いたものであるが、本発明は他の音声認識技術を用いたシステムにも適用可能で ある。このコンポーネントは、当技術分野で周知のデジタル信号処理技術によっ て実行される特徴抽出器60、及びアプリケーションインタフェース・コントロ ーラ34の現在の状態に適切な言語モデル64を検索するデコーダ62を具備す る。 HMMベースの音声認識装置を実装するために必要な技術は、当技術分野にお いて周知である。例えば、コーエン(Cohen)他の米国特許第5,268,990 号には、複数の文脈依存型電話モデルと混合された文脈非依存型隠れマルコフ電 話モデルと各々表現された音声セグメントの確率ネットワークとして単語がモデ ル化されるシステムが記載されている。このような音声認識装置は、入力語音を サンプリングし、処理していくつかのスペクトルの特徴を得る。このような処理 は、当業者にはよく知られているコードブック技術を用いて行われる。次に、そ れらの入力特徴を生じさせた可能性が最も高い状態シーケンスについて解を求め ることによって、音声の認識が達成される。 図4は、データストリーム52を処理してデータストリーム53を生成するセ マフォー論理演算装置42の概略ブロック図である。セマフォー論理演算装置4 2は、部分的プロセス間通信によって並列に論理演算動作を行う一組の推定ルー チン70〜76を実装したものである。これらのプロセスは、電話語学能力試験 のための実施形態では、会話応答についての話し速度と流ちょうさの測定、話し 手の性と母国語の推定、及び音声セグメントと韻律の正確さの測定を含む。これ らの各プロセスは、当技術分野で周知のプログラミング技術を用いて実施される 。 図5は、セマフォーの10個の発声FIFO(10-utterance FIFO of semaphor e)を記憶するセマフォーサイロ80、表示シーケンス状態機械82、ディスプレ イドライバ84、及び表示シーケンス状態機械82による表示に関して指定され るオーディオファイルが書き込まれた表示内容ライブラリ86を具備するアプリ ケーションインタフェース・コントローラ34のブロック図である。表示シーケ ンス状態機械82は、セマフォーサイロ80の内容によって状態を変える。表示 シーケンス状態機械82の現在の状態は、データストリーム56を生成すると共 に、表示内容ライブラリ86からその記憶内容をコピーするかあるいは適応化し てデータストリーム58を生成するディスプレイドライバ84を制御する。 図6は、表示シーケンス状態機械82に実装された状態ネットワークにおける 決定論理素子を表したものである。この実施形態の組合せ論理90は、最後のセ マフォー値の決定性状態従属関数である。組合せ論理90により、表示シーケン ス状態機械82はセマフォーサイロ80からの入力に基づいて現在の状態92か ら次の状態94へ遷移することができる。本発明の範囲内で可能なその他の特徴 としては、最後のセマフォー値の確率関数、及び最後のn(n<11)セマフォ ーの値についての確率的関数または決定性関数が含まれる。 本発明の一実施形態によれば、リモートのユーザが普通の受話器36を介して コンピュータシステム10との通信を開始することができる。これは、コンピュ ータシステム10と対応付けられた電話番号をダイアルするとすぐに、そのユー ザの呼に対して自動的に応答が返されることによって達成されるということは理 解されよう。ユーザは、例えば、電話のタッチトーンキーパッドを使って音声プ ロンプトに応答することにより、典型的な仕方で希望する会話試験あるいは他の ルーチンの動作を開始する。そのユーザ入力に応答して、コンピュータシステム 10はハードドライブ16からメインメモリ14に所望のアプリケーションプロ グラムをロードし、それに関連付けられた命令を実行し始める。命令の実行は、 さらに、コンピュータシステム10に選択されたアプリケーションプログラムの 動作を実行するようそれらの命令に従って回路の構成を設定させる。 いったん動作が開始されると、コンピュータシステム10は一連の表示を生成 することによってユーザの会話能力をテストし始める。表示は、全くの音声によ るもの、すなわちユーザがもっぱら電話だけでコンタクトする場合は、全く音声 のみによってもよく、あるいはユーザがリモート端末のところに居るか、モデム を介してコンピュータシステム10にアクセスする場合は、音声 - 映像による 表示であってもよい。コンピュータシステム10にアクセスする一つの方法とし て、一般にインターネット呼ばれるコンピュータシステムのネットワークへのゲ ート ウェイを介しアクセスすることが可能なことは理解されよう。 接続の方法にかかわらず、コンピュータシステム10によって始動される表示 は、例えば単語、句、または文(あるいはより大きい言語単位)を読むか、ある いは繰り返すようにという要求の形;あるいは図形表示集合体または言語表示集 合体(例えば、画像あるいは段落)の欠けている要素;あるいは模倣例;あるい は話すよう促すプロンプトとして便利に用いられている同様の図形表象または言 語表象を補いなさい、入れなさい、あるいは指摘しなさいという要求の形を取る ことが可能である。このプロンプトに応答して、ユーザが音声信号を供給すると 、その信号は受話器36(あるいは他の装置)を介してASR44に伝送される 。 上に述べたように、ユーザの音声信号はASR44によって処理されて、デー タストリーム52が生成される。この情報(データストリーム52)はセマフォ ー論理演算装置42に送られ、この論理演算装置で上記のプロセスが動作して言 語情報及び言語外情報を抽出する。例えば、一実施形態においては、ユーザの応 答遅延と話し速度が確認される。他の実施形態では、ユーザの性と母国語情報が 抽出される場合もある。 この抽出された情報は、次いでコンピュータシステム10の次の出力を選択す るためにアプリケーションインタフェース34によって利用される。語学試験と の関連では、この出力は、例えば、語音特性が高いレベルの流ちょうさを実証し ているユーザに対して高度の図形表示あるいは言語表示集合体を表示することを 含むこともができる。もちろん、本発明の他の実施態様では、語学能力以外の利 用目的を持つことが可能なことは理解されよう。例えば、本発明によって、地理 の精通度あるいは計算能力を試験することもできる。また、本発明は、ユーザが コンピュータシステム10上で走る娯楽ゲームと取り組む手段として用いること もできる。 以上、音声信号からの情報を複合して適応対話を行うための方法及び装置を実 装した新奇なコンピュータを開示し、説明した。本願では、特定の回路の実施形 態に関連して説明したが、本発明の方法は同様に他の多くのシステムにも適用可 能であることは理解できよう。従って、本願の開示内容は例示説明のためのもの であると言う意味で解釈し、本発明の範囲は特許請求の範囲の記載のみに基づい て判断されるべきである。
【手続補正書】特許法第184条の8第1項 【提出日】1997年12月15日(1997.12.15) 【補正内容】 補正明細書 教育及び試験における適応対話の音声 信号から複合情報を得る方法及び装置 発明の背景 1.発明の分野 本発明は、広義には音声認識を利用した対話型の語学能力試験システムに関し 、より詳しくは、この種のシステムにおいて語音入力の言語学的、索引的、準言 語学的特徴を追跡するようにしたシステムに関する。 2.背景技術 多くのコンピュータシステムは、人間のユーザが音声言語を通してコンピュー タシステムに制御を及ぼすことができる機能をサポートしている。これらのシス テムは、設計に基づくアプリケーションの範囲を逸脱した発声に対する拒絶パス を含む言語モデルを参照しつつ音声認識を行うことがしばしばある。従って、そ のアプリケーションの音声認識コンポーネントは、アプリケーションについて設 計された言語モデルの中の最適一致をリターンするか、あるいはその音声信号を 拒絶するかである。このような方法を組み込んだ様々なシステムについての適切 な説明がアレックス・ワイベルWaibel (Alex Waibel)とカイ・フ・リー(Kai- Fu Lee)共編の「音声認識における読み方(Readings in Speech Recognition) 」(1990年)に記載されている。 第2言語教育用のコンピュータ支援語学学習(CALL)システムは、音声認 識の導人によって改善されている。バーンスタイン及びフランコ(Bernstein & Franco)(実験音声学の原理(Principles of Experimental Phonetics)の第11 章「コンピュータによる音声認識(Speech Recognition by Computer)」(408 〜434ページ;1996年刊))及びその参考文献にいくつかの例が記載され ている。ほとんどの場合、CALLシステムの音声認識コンポーネントは、目標 言語の非ネイティブの話し手のためあるいは聴覚障害を持つ話し手のための試験 及び能力鍛錬における最適一致(拒絶を伴う)、あるいは達成度の目安として用 いられて来た。 従来のラボデモンストレーションシステムは、ユーザの母国語でリーディング の指導を与えるように設計されている。従来の2つのシステムでは、ユーザが表 示されたテキストを声を出して読む際におけるリーディングのインストラクタの 対話中の選択された特徴を手本として真似ている。1つのシステムは、リーディ ング中の読み手の悪い発音の平均に基づいて会話表示を行うようにしたものであ り(例えば、リスチェフ(Rtischev)、バーンスタイン(Bernstein)、及びチェ ン(Chen)によるWO94/20952を参照)、もう一つシステムは、共通の疑似スタート のモデルを開発して、会話表示をそれらの言語要素の発生の認識に基づいて行う ようにしたものである。(ジェイ・モストウ(J.Mostow)他による「ヒアリン グするリーディング指導システム試作品(Prototype Reading Coach that Listen s)」、人工知能に関する12回全国会議会報、AAAI-94(Proc.12th Nat.Conf .Artificia1 Intelligence,AAAI-94)、(785〜792ページ、1984年) を参照) 。 エキスパートの教師及び他の対話指導者は、人の話の言語内容だけではなく、 話し手及び音声信号の他の外見上明白な特徴を感知する。これらの従来技術には 、音声信号の言語内容によって異なる応答を示すシステムが含まれる。また、従 来技術のシステムは、話し手のアイデンティティや話し手の性のような索引的情 報を抽出して、リーディングにおける発音得点や話し速度を計算している。しか しながら、人間のユーザの技能レベルを推定し、従って人間のユーザの総合的会 話能力レベルに適切な方法でコンピュータシステムの動作を制御するために、こ れらの音声信号の言語外要素を言語内容と結合して、会話能力におけるユーザの 総合的実力を推定することは行われていなかった。そのようなコンピュータベー スの図形表示及び音声表示の制御は、ユーザの認識能力、言語能力及び発声能力 に対するきめ細かい適応を容易にする上において、有用であり、かつ望ましい。 発明の要旨 本発明の一実施態様によれば、音声言語を介してユーザと対話するコンピュー タシステムが、ユーザの話に明白に現れる言語情報と言語外情報の複合的利用に よって改善される。本発明は、入ってくる音声信号から言語内容、話し手の状態 、話し手のアイデンティティ 補正請求範囲 1.システムにより与えられたプロンプトに応答してユーザから会話応答が導出 される対話型のコンピュータベースシステム(10)において: a)ユーザの会話応答中の言語学的値、索引的値、または準言語学的値を抽 出する手段(44)と; b)(i)上記会話応答に含まれる単語、句または文を含む言語単位と; (ii)上記プロンプトに対する上記会話応答の遅延と; の複合値に従って、ユーザに与えられる次のプロンプトを自動的に選択する手段 (34)と; を具備したシステム。 2.上記索引的値または準言語学的値を抽出する手段(44)が、上記ユーザの 会話応答から、話し手のアイデンティティ、基本振動数値、音声信号振幅、発音 品質、流ちょうさ、話しの速度、話し手の母国語、話し手の年齢あるいは話し手 の性を含むセマフォー値を抽出するための手段(42)よりなる請求項1記載の システム。 3.上記索引的値または準言語学的値を抽出するための手段(44)が、目的言 語でのユーザの会話応答から導出されたユーザの母国語を含むセマフォー値を抽 出するための手段(42)よりなる請求項1記載のシステム。 4.次のプロンプトを自動的にを選択する手段(34)が、(a)上記ユーザの 会話応答から抽出された1つ以上のセマフォー値を(b)ユーザの会話応答の遅 延の大きさ、及び(c)前回の応答の言語単位と結合して次のプロンプトを選択 する手段(80、82)よりなる請求項2記載のシステム。 5.上記次のプロンプトを自動的に選択する手段(34)が、2つ以上の上記で 選択されたセマフォー値を結合することによりユーザの状態を推定して次のプロ ンプトを選択する手段(42)よりなる請求項2記載のシステム。 6.上記次のプロンプトを自動的に選択する手段(34)が、2つ以上の上記で 選択されたセマフォー値を結合することによりユーザの能力または特徴を推定し て次のプロンプトを選択する手段(42)をさらに具備する請求項2記載のシス テム。 7.上記ユーザの能力または特徴が:語学力、主題に関する知識、ユーザの年齢 またはユーザの性の少なくとも1つよりなる請求項6記載のシステム。 8.少なくとも一部、ユーザからの会話応答の言語内容、準言語学的内容または 索引的内容によって上記プロンプトの言語学的特徴、準言語学的特徴または索引 的特徴を選択するための手段(38、40)をさらに具備した請求項1記載のシ ステム。 9.与えられる上記プロンプトの言語学的特徴、準言語学的特徴または索引的特 徴が、言語単位、ユーザの応答に対する遅延、話しの速度、基本振動数値、音声 信号振幅、発音品質、流ちょうさ、話し手のアイデンティティ、話し手の年齢ま たは話し手の性よりなる請求項8記載のシステム。 10.上記プロンプトが情報を求める要求よりなる請求項8記載のシステム。 l1.上記プロンプトが言語単位を読めという要求よりなる請求項8記載のシス テム。 12.上記プロンプトが言語単位を繰り返せという要求よりなる請求項8記載の システム。 13.上記プロンプトが言語表示集合体を補え、記入せよ、あるいは指摘せよと いう要求よりなる請求項8記載のシステム。 14.上記ユーザからの会話応答が、電話または他の電気通信あるいはデータ情 報ネットワーク(36)を介して上記対話型のコンピュータシステム(10)で 受け取られる請求項記載1のシステム。 15.上記プロンプトが図形プロンプトである請求項1記載のシステム。 16.上記プロンプトが音声プロンプトである請求項1記載のシステム。 17.上記プロンプトが、言語要素と図形要素を組み合わせたプロンプトよりな る請求項1記載のシステム。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AT,AU ,AZ,BA,BB,BG,BR,BY,CA,CH, CN,CU,CZ,CZ,DE,DE,DK,DK,E E,EE,ES,FI,FI,GB,GE,HU,IL ,IS,JP,KE,KG,KP,KR,KZ,LC, LK,LR,LS,LT,LU,LV,MD,MG,M K,MN,MW,MX,NO,NZ,PL,PT,RO ,RU,SD,SE,SG,SI,SK,SK,TJ, TM,TR,TT,UA,UG,US,UZ,VN

Claims (1)

  1. 【特許請求の範囲】 1.ユーザに対してプロンプトを表示するステップと; ユーザから上記プロンプトに対する1つ以上の言語単位を含む会話応答を受 け取るステップと; 上記会話応答から1つ以上のセマフォー値を得るステップと; ユーザに表示する次のプロンプトを少なくとも一部上記セマフォー値に基づ いて選択するステップと; を具備したコンピュータ援用方法。 2.上記セマフォー値が:ユーザのアイデンティティ;ユーザの母国語;ユーザ の話し速度;言語単位の識別情報;会話応答の遅延;会話応答の振幅;会話応答 の流ちょうさ;会話応答の発音品質;会話応答の基本振動数の値;及びユーザの ;を含むリストから選択されたセマフォーを表す1つ以上の値を含む請求項1記 載のコンピュータ援用方法。 3.上記セマフォー値が、さらに上記会話応答以外の情報源から得られる請求項 2記載のコンピュータ援用方法。 4.上記情報源が、ユーザ識別コードを含む請求項3記載のコンピュータ援用方 法。 5.上記ユーザ識別コードが、ANI(自動番号識別コード)を含む請求項4記載 のコンピュータ援用方法。 6.上記次のプロンプトが、句よりなる請求項3記載のコンピュータ援用方法。 7.上記次のプロンプトが、文よりなる請求項3記載のコンピュータ援用方法。 8.上記次のプロンプトが、言語表示集合体を補えという要求よりなう請求項3 記載のコンピュータ援用方法。 9.上記次のプロンプトが、言語表示集合体で欠けている要素を指摘せよという 要求よりなる請求項3記載のコンピュータ援用方法。 10.上記次のプロンプトが、上記ユーザが模倣しようとする例よりなる請求項 3記載のコンピュータ援用方法。 11.上記次のプロンプトが、グラフィカル・ユーザインタフェースを介して表 示される請求項3記載のコンピュータ援用方法。 12.上記次のプロンプトが、電話システムを介して表示される請求項3記載の コンピュータ援用方法。 13.上記会話応答が、電話システムを介して受け取られる請求項3記載のコン ピュータ援用方法。 14.上記セマフォー値を得るステップが: 1つ以上の言語学的特徴推定ルーチンを用いて上記1つ以上のセマフォー 値を抽出するよう構成が設定されたセマフォー論理演算装置に上記会話応答を一 連のデジタル信号として与えるステップ; を含む請求項13記載のコンピュータ援用方法。 15.次のプロンプトを選択する上記ステップが、プロンプト中の1つ以上の言 語単位;プロンプトの索引的特性;プロンプトの開始タイミング;プロンプトの タイムスケール;またはプロンプト中のノイズのレベル及び特性に対するプロン プトの相対振幅;に基づいて、ユーザにとってより易しいか、あるいはより難し い題材を選択してユーザに呈示するステップよりなる請求項1記載のコンピュー タ援用方法。 16.コンピュータ援用音声言語実力判定方法において: 1つ以上の言語単位を含む発声を表すデジタル信号をコンピュータで受け 取るステップと; 上記デジタル信号から上記1つ以上の言語単位のセマフォー値を抽出する ステップと; 上記1つ以上の言語単位の上記で抽出されたセマフォー値の2つ以上を結 合して複合結果を生成し、該複合結果を記憶モデルと比較して比較結果を導出す るステップと; 上記比較結果に基づいて上記発声に実力レベルを割り当てるステップと; を具備したコンピュータ援用音声言語実力判定方法。 17.上記実力レベルに従って選択されたプロンプトをユーザに対して表示する ステップ; をさらに具備し、上記プロンプトが1つ以上の選択された言語単位を含む請求項 16記載のコンピュータ援用音声言語実力判定方法。 18.上記プロンプトに応答して後続の発声を表す後続のデジタル信号を上記コ ンピュータで受け取るステップ;、 をさらに具備した請求項17記載のコンピュータ援用音声言語実力判定方法 19.上記後続の発声を上記プロンプトとの関連で分析することによって上記で 割り当てられた実力レベルを高めるステップをさらに具備した請求項18記載の コンピュータ援用音声言語実力判定方法。 20.上記プロンプトが、単語または句よりなる選択された言語単位を含む請求 項19記載のコンピュータ援用音声言語実力判定方法。 21.上記プロンプトが、文よりなる選択された言語単位を含む請求項19記載 のコンピュータ援用音声言語実力判定方法。 22.上記プロンプトが、言語表示集合体を補えという要求よりなる選択された 言語単位を含む請求項19記載のコンピュータ援用音声言語実力判定方法。 23.上記プロンプトが、言語表示集合体で欠けている要素を指摘せよという要 求よりなる選択された言語単位を含む請求項19記載のコンピュータ援用音声言 語実力判定方法。 24.上記プロンプトが、ユーザが模倣しようとする例よりなる選択された言語 単位を含む請求項19記載のコンピュータ援用音声言語実力判定方法。 25.上記デジタル信号が電話システムを介して受け取られる請求項16記載の コンピュータ援用音声言語実力判定方法。 26.上記デジタル信号がインターネットを介して受け取られる請求項16記載 のコンピュータ援用音声言語実力判定方法。 27.上記セマフォー値を抽出する上記ステップが: 1つ以上の言語学的特徴推定ルーチンを含むセマフォー論理演算装置に上 記デジタル信号を供給するステップと; 上記セマフォー論理演算装置を用いて、上記デジタル信号から上記言語単 位の上記セマフォー値と関連付けられた一連の値を抽出するステップと; よりなる請求項16記載のコンピュータ援用音声言語実力判定方法。 28.上記一連の値を抽出する上記ステップが、隠れマルコフモデル特徴抽出器 に基づく音声認識装置を用いて達成される請求項16記載のコンピュータ援用音 声言語実力判定方法。 29.ユーザの音声信号を第1の電気信号に変換するように構成が設定された第 1のユーザインタフェースコンポーネントと; 上記第1のユーザインタフェースコンポーネントに接続されていて、1つ 以上の言語単位とそろえた上記音声信号の表現を含む第2の電気信号を発生する ように上記第1の電気信号をデジタル化し、そして分析するように構成が設定さ れた自動音声認識装置と; 上記自動音声認識装置に接続されていて、該第2の電気信号の範囲内にあ る各言語単位レベルと関連付けられた値を抽出するように構成が設定されたセマ フォー論理演算装置と; 上記セマフォー論理演算装置に接続されていて、上記値から決定される上 記ユーザの状態、特徴または属性に従ってユーザに対して表示される第3の情報 よりなる電気信号を発生するように該値を処理するよう構成が設定されたアプリ ケーションインタフェースユニットと; を具備したディジタルシステム。 30.上記自動音声認識装置が: 上記第1の電気信号を受け取り、デジタル化して、出力信号を発生するよ うに構成が設定された特徴抽出器と; 上記特徴抽出器に接続されたデコーダと; 上記デコーダに接続された言語モデルと; を具備し、 上記デコーダが、上記アプリケーションインタフェースユニットの現在の 状態及び上記出力信号に含まれるスペクトル特徴に従って上記言語モデルを検索 するように構成が設定されている、 請求項29記載のディジタルシステム。 31.上記セマフォー論理演算装置が、1つ以上の推定ルーチンをを具備する請 求項30記載のディジタルシステム。 32.上記アプリケーションインタフェースユニットが: 複数のセマフォーを記憶するよう、かつ上記セマフォー論理演算装置から 入力を受け取るように構成が設定されたセマフォーサイロと; 上記セマフォーサイロに接続されていて、該セマフォーサイロの内容に従 って状態を変えるように構成が設定された表示シーケンス状態機械と; 関連付けられた表示ライブラリを有し、かつ上記表示シーケンス状態機械 に接続されていて、該表示シーケンス状態機械の現在の状態に従って上記第3の 電気信号を発生するように構成が設定されたディスプレイドライバと; を具備した請求項31記載のディジタルシステム。 33.上記第3の電気信号が、上記第1のユーザインタフェースコンポーネント を介して再生される音声信号よりなる請求項32記載のディジタルシステム。 34.上記第3の電気信号を受け取るように接続されたさらに第2のユーザイン タフェースコンポーネントをさらに具備した請求項32記載のディジタルシステ ム。 35.上記第3の電気信号が、上記第2のユーザインタフェースコンポーネント を介して再生される音声信号よりなる請求項34記載のディジタルシステム。 36.上記第3の電気信号が、上記第2のユーザインタフェースコンポーネント 上に表示される図形情報よりなる請求項34記載のディジタルシステム。 37.上記第3の電気信号が、上記第2のユーザインタフェースエースコンポー ネント上に表示されるテキスト情報よりなる請求項34記載のディジタルシステ ム。 38.上記第1のユーザインタフェース部品と該第2のユーザインタフェース部 品がユーザターミナルで場所を提供される請求項34記載のディジタルシステム 。 39.複数の命令シーケンスが記憶されたコンピュータ可読媒体において、該複 数の命令シーケンスがプロセッサによって実行されると、該プロセッサをして: 1つ以上の言語単位を含む発声を表すデジタル信号を受け取るステップと ; 上記デジタル信号から上記1つ以上の言語単位のセマフォー値を抽出する ステップと; 上記1つ以上の言語単位の上記で抽出されたセマフォー値の2つ以上を結 合して複合結果を生成し、該複合結果を記憶モデルと比較して比較結果を導出す るステップと; 上記比較結果に基づいて上記発声にユーザの状態、特徴または属性をを割 り当てるステップと; を実行させるコンピュータ可読媒体 40.上記プロセッサをして: 上記ユーザの状態、特徴または属性の上記レベルに従って選択されたプロ ンプトをユーザに対して表示するステップで、該プロンプトが1つ以上の言語単 位を含むステップ、 を実行させる命令がさらに記憶されている請求項39記載のコンピュータ可読媒 体。 41.上記プロセッサをして: 上記で選択された上記プロンプトの言語単位に対応する後続の発声を表す 後続のデジタル信号を受け取るステップと; 上記後続の発声を上記プロンプトに対して分析することによって、上記で 割り当てられたユーザの状態、特徴または属性のレベルを高めるステップと; を実行させる命令がさらに記憶されている請求項40記載のコンピュータ可読媒 体。 42.上記プロンプトが、単語または句よりなる選択された言語単位を含む請求 項41記載のコンピュータ可読媒体。 43.上記プロンプトが、文よりなる選択された言語単位を含む請求項41記載 のコンピュータ可読媒体。 44.上記プロンプトが、言語表示集合体を補えという要求よりなる選択された 言語単位を含む請求項41記載のコンピュータ可読媒体。 45.上記プロンプトが、言語表示集合体中の欠けている要素を指摘せよという 要求よりなる選択された言語単位を含む請求項41記載のコンピュータ可読媒体 。 46.上記プロンプトが、ユーザが模倣しようとする選択された例よりなる言語 単位を含む請求項41記載のコンピュータ可読媒体。 47.上記デジタル信号が、電話システムを介して受け取られる請求項39記載 のコンピュータ可読媒体。 48.上記デジタル信号が、インターネットを介して受け取られる請求項39記 載のコンピュータ可読媒体。 49.上記1つ以上の言語単位を抽出する上記ステップ中に上記プロセッサによ って実行されると、上記プロセッサををして: 1つ以上の言語学的特徴推定ルーチンを含むセマフォー論理演算装置に上 記デジタル信号を供給出力するステップと; 上記セマフォー論理演算装置を用いて上記デジタル信号から上記言語単位 の上記セマフォー値と関連付けられた一連の数値を抽出するステップと; を実行させる命令がさらに記憶されている請求項39記載コンピュータ可読媒体 50.上記プロセッサが、上記一連の数値を抽出する上記ステップを隠れマルコ フモデルに基づく動作シーケンス実行することによって行う請求項39記載のコ ンピュータ可読媒体。
JP09521379A 1995-12-04 1996-11-25 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置 Withdrawn JP2000501847A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US791495P 1995-12-04 1995-12-04
US60/007,914 1995-12-04
PCT/US1996/019264 WO1997021201A1 (en) 1995-12-04 1996-11-25 Method and apparatus for combined information from speech signals for adaptive interaction in teaching and testing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005168611A Division JP2005321817A (ja) 1995-12-04 2005-06-08 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置

Publications (1)

Publication Number Publication Date
JP2000501847A true JP2000501847A (ja) 2000-02-15

Family

ID=21728782

Family Applications (2)

Application Number Title Priority Date Filing Date
JP09521379A Withdrawn JP2000501847A (ja) 1995-12-04 1996-11-25 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置
JP2005168611A Pending JP2005321817A (ja) 1995-12-04 2005-06-08 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2005168611A Pending JP2005321817A (ja) 1995-12-04 2005-06-08 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置

Country Status (12)

Country Link
US (1) US5870709A (ja)
EP (1) EP0956552B1 (ja)
JP (2) JP2000501847A (ja)
AT (1) ATE220817T1 (ja)
AU (1) AU1128597A (ja)
CA (1) CA2239691C (ja)
DE (1) DE69622439T2 (ja)
DK (1) DK0956552T3 (ja)
ES (1) ES2180819T3 (ja)
HK (1) HK1023638A1 (ja)
PT (1) PT956552E (ja)
WO (1) WO1997021201A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053578A (ja) * 2005-09-12 2006-02-23 Nippon Tokei Jimu Center:Kk 試験の実施方法
JP2006252585A (ja) * 2006-06-12 2006-09-21 Nippon Tokei Jimu Center:Kk オンライン試験システム

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
US6493426B2 (en) * 1997-09-08 2002-12-10 Ultratec, Inc. Relay for personal interpreter
US6594346B2 (en) * 1997-09-08 2003-07-15 Ultratec, Inc. Relay for personal interpreter
DE19752907C2 (de) * 1997-11-28 2002-10-31 Egon Stephan Verfahren zur Führung eines Dialogs zwischen einem einzelnen oder mehreren Nutzern und einem Computer
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6192341B1 (en) * 1998-04-06 2001-02-20 International Business Machines Corporation Data processing system and method for customizing data processing system output for sense-impaired users
US7203649B1 (en) * 1998-04-15 2007-04-10 Unisys Corporation Aphasia therapy system
WO2000014700A1 (en) * 1998-09-04 2000-03-16 N.V. De Wilde Cbt Apparatus and method for personalized language exercise generation
WO2000022597A1 (en) * 1998-10-15 2000-04-20 Planetlingo Inc. Method for computer-aided foreign language instruction
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
WO2000057386A1 (en) * 1999-03-25 2000-09-28 Planetlingo, Inc. Method and system for computer assisted natural language instruction with adjustable speech recognizer
US6224383B1 (en) 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6397185B1 (en) * 1999-03-29 2002-05-28 Betteraccent, Llc Language independent suprasegmental pronunciation tutoring system and methods
US7062441B1 (en) 1999-05-13 2006-06-13 Ordinate Corporation Automated language assessment using speech recognition modeling
US6299452B1 (en) * 1999-07-09 2001-10-09 Cognitive Concepts, Inc. Diagnostic system and method for phonological awareness, phonological processing, and reading skill testing
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
DE19941227A1 (de) * 1999-08-30 2001-03-08 Philips Corp Intellectual Pty Verfahren und Anordnung zur Spracherkennung
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US6513009B1 (en) * 1999-12-14 2003-01-28 International Business Machines Corporation Scalable low resource dialog manager
KR20000049483A (ko) * 2000-03-28 2000-08-05 이헌 음성신호 비교를 이용한 외국어회화 학습장치
KR20000049500A (ko) * 2000-03-31 2000-08-05 백종관 음성 인식 및 음성 합성을 이용한 외국어 교육 서비스방법 및 그 시스템
JP3887525B2 (ja) * 2000-07-11 2007-02-28 株式会社日本統計事務センター オンライン試験システム
US6424935B1 (en) * 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
AU2001294573A1 (en) * 2000-10-20 2002-05-06 Carol M. Johnson Automated language acquisition system and method
US20020115044A1 (en) * 2001-01-10 2002-08-22 Zeev Shpiro System and method for computer-assisted language instruction
WO2002071390A1 (en) * 2001-03-01 2002-09-12 Ordinate Corporation A system for measuring intelligibility of spoken language
US20020169604A1 (en) * 2001-03-09 2002-11-14 Damiba Bertrand A. System, method and computer program product for genre-based grammars and acoustic models in a speech recognition framework
US6876728B2 (en) 2001-07-02 2005-04-05 Nortel Networks Limited Instant messaging using a wireless interface
US20030039948A1 (en) * 2001-08-09 2003-02-27 Donahue Steven J. Voice enabled tutorial system and method
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US7881441B2 (en) * 2005-06-29 2011-02-01 Ultratec, Inc. Device independent text captioned telephone service
US8644475B1 (en) 2001-10-16 2014-02-04 Rockstar Consortium Us Lp Telephony usage derived presence information
DE50109323D1 (de) * 2001-12-21 2006-05-11 Ericsson Telefon Ab L M Verfahren und vorrichtung zur spracherkennung
US20030135624A1 (en) * 2001-12-27 2003-07-17 Mckinnon Steve J. Dynamic presence management
US6953343B2 (en) * 2002-02-06 2005-10-11 Ordinate Corporation Automatic reading system and methods
TW520488B (en) * 2002-03-12 2003-02-11 Inventec Corp Computer-assisted foreign language audiolingual teaching system for contextual read-after assessment and method thereof
JP2005525597A (ja) * 2002-05-14 2005-08-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 電気機器の対話制御
USH2187H1 (en) 2002-06-28 2007-04-03 Unisys Corporation System and method for gender identification in a speech application environment
US7299188B2 (en) * 2002-07-03 2007-11-20 Lucent Technologies Inc. Method and apparatus for providing an interactive language tutor
US7181392B2 (en) * 2002-07-16 2007-02-20 International Business Machines Corporation Determining speech recognition accuracy
US7249011B2 (en) * 2002-08-12 2007-07-24 Avaya Technology Corp. Methods and apparatus for automatic training using natural language techniques for analysis of queries presented to a trainee and responses from the trainee
KR20040017896A (ko) * 2002-08-22 2004-03-02 박이희 컴퓨터를 이용한 외국어 학습용 기록매체 및 그기록매체를 이용한 학습방법
US7305336B2 (en) * 2002-08-30 2007-12-04 Fuji Xerox Co., Ltd. System and method for summarization combining natural language generation with structural analysis
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
US8392609B2 (en) 2002-09-17 2013-03-05 Apple Inc. Proximity detection for media proxies
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
US7324944B2 (en) * 2002-12-12 2008-01-29 Brigham Young University, Technology Transfer Office Systems and methods for dynamically analyzing temporality in speech
US7424420B2 (en) * 2003-02-11 2008-09-09 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on context
US7369985B2 (en) * 2003-02-11 2008-05-06 Fuji Xerox Co., Ltd. System and method for dynamically determining the attitude of an author of a natural language document
US7363213B2 (en) * 2003-02-11 2008-04-22 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on discourse hierarchy structure
US7260519B2 (en) * 2003-03-13 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for dynamically determining the attitude of a natural language speaker
US9118574B1 (en) 2003-11-26 2015-08-25 RPX Clearinghouse, LLC Presence reporting using wireless messaging
GB2448635B (en) * 2004-02-18 2009-02-11 Ultratec Inc Captioned telephone service
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
US20060008781A1 (en) * 2004-07-06 2006-01-12 Ordinate Corporation System and method for measuring reading skills
US9520068B2 (en) * 2004-09-10 2016-12-13 Jtt Holdings, Inc. Sentence level analysis in a reading tutor
US7624013B2 (en) * 2004-09-10 2009-11-24 Scientific Learning Corporation Word competition models in voice recognition
US8109765B2 (en) * 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
US20060069562A1 (en) * 2004-09-10 2006-03-30 Adams Marilyn J Word categories
US7243068B2 (en) * 2004-09-10 2007-07-10 Soliloquy Learning, Inc. Microphone setup and testing in voice recognition software
US7433819B2 (en) * 2004-09-10 2008-10-07 Scientific Learning Corporation Assessing fluency based on elapsed time
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
US20060057545A1 (en) * 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070166685A1 (en) * 2005-12-22 2007-07-19 David Gilbert Automated skills assessment
US20070179788A1 (en) * 2006-01-27 2007-08-02 Benco David S Network support for interactive language lessons
JP2008022493A (ja) * 2006-07-14 2008-01-31 Fujitsu Ltd 受付支援システムとそのプログラム
JP2008026463A (ja) * 2006-07-19 2008-02-07 Denso Corp 音声対話装置
WO2008024377A2 (en) * 2006-08-21 2008-02-28 Power-Glide Language Courses, Inc. Group foreign language teaching system and method
US20080140413A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Synchronization of audio to reading
US20080140397A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Sequencing for location determination
US20080140412A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Interactive tutoring
US20080140411A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Reading
US20080140652A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Authoring tool
US20080160487A1 (en) * 2006-12-29 2008-07-03 Fairfield Language Technologies Modularized computer-aided language learning method and system
GB2451907B (en) * 2007-08-17 2010-11-03 Fluency Voice Technology Ltd Device for modifying and improving the behaviour of speech recognition systems
US8271281B2 (en) * 2007-12-28 2012-09-18 Nuance Communications, Inc. Method for assessing pronunciation abilities
US20090209341A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Gaming Apparatus Capable of Conversation with Player and Control Method Thereof
US20100075289A1 (en) * 2008-09-19 2010-03-25 International Business Machines Corporation Method and system for automated content customization and delivery
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US10088976B2 (en) 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
CN102282610B (zh) * 2009-01-20 2013-02-20 旭化成株式会社 声音对话装置、对话控制方法
US20110166862A1 (en) * 2010-01-04 2011-07-07 Eyal Eshed System and method for variable automated response to remote verbal input at a mobile device
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
WO2012137131A1 (en) * 2011-04-07 2012-10-11 Mordechai Shani Providing computer aided speech and language therapy
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US20130282844A1 (en) 2012-04-23 2013-10-24 Contact Solutions LLC Apparatus and methods for multi-mode asynchronous communication
US9635067B2 (en) 2012-04-23 2017-04-25 Verint Americas Inc. Tracing and asynchronous communication network and routing method
BR112016017972B1 (pt) 2014-02-06 2022-08-30 Contact Solutions LLC Método para modificação de fluxo de comunicação
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US9166881B1 (en) 2014-12-31 2015-10-20 Contact Solutions LLC Methods and apparatus for adaptive bandwidth-based communication management
CN104464399A (zh) * 2015-01-03 2015-03-25 杨茹芹 一种新型英语教学用展示板
US9947322B2 (en) * 2015-02-26 2018-04-17 Arizona Board Of Regents Acting For And On Behalf Of Northern Arizona University Systems and methods for automated evaluation of human speech
WO2017024248A1 (en) 2015-08-06 2017-02-09 Contact Solutions LLC Tracing and asynchronous communication network and routing method
US10063647B2 (en) 2015-12-31 2018-08-28 Verint Americas Inc. Systems, apparatuses, and methods for intelligent network communication and engagement
US9799324B2 (en) 2016-01-28 2017-10-24 Google Inc. Adaptive text-to-speech outputs
US10431112B2 (en) 2016-10-03 2019-10-01 Arthur Ward Computerized systems and methods for categorizing student responses and using them to update a student model during linguistic education
US10049664B1 (en) * 2016-10-27 2018-08-14 Intuit Inc. Determining application experience based on paralinguistic information
US20180197438A1 (en) 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
US10593351B2 (en) * 2017-05-03 2020-03-17 Ajit Arun Zadgaonkar System and method for estimating hormone level and physiological conditions by analysing speech samples
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8817705D0 (en) * 1988-07-25 1988-09-01 British Telecomm Optical communications system
US5065345A (en) * 1988-11-04 1991-11-12 Dyned International, Inc. Interactive audiovisual control mechanism
US5036539A (en) * 1989-07-06 1991-07-30 Itt Corporation Real-time speech processing development system
US5133560A (en) * 1990-08-31 1992-07-28 Small Maynard E Spelling game method
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5302132A (en) * 1992-04-01 1994-04-12 Corder Paul R Instructional system and method for improving communication skills
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5393236A (en) * 1992-09-25 1995-02-28 Northeastern University Interactive speech pronunciation apparatus and method
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
US5487671A (en) * 1993-01-21 1996-01-30 Dsp Solutions (International) Computerized system for teaching speech
EP0692135B1 (en) * 1993-03-12 2000-08-16 Sri International Method and apparatus for voice-interactive language instruction
US5458494A (en) * 1993-08-23 1995-10-17 Edutech Research Labs, Ltd. Remotely operable teaching system and method therefor
US5540589A (en) * 1994-04-11 1996-07-30 Mitsubishi Electric Information Technology Center Audio interactive tutor

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053578A (ja) * 2005-09-12 2006-02-23 Nippon Tokei Jimu Center:Kk 試験の実施方法
JP2006252585A (ja) * 2006-06-12 2006-09-21 Nippon Tokei Jimu Center:Kk オンライン試験システム

Also Published As

Publication number Publication date
PT956552E (pt) 2002-10-31
CA2239691C (en) 2006-06-06
WO1997021201A1 (en) 1997-06-12
JP2005321817A (ja) 2005-11-17
DE69622439T2 (de) 2002-11-14
EP0956552B1 (en) 2002-07-17
AU1128597A (en) 1997-06-27
US5870709A (en) 1999-02-09
CA2239691A1 (en) 1997-06-12
HK1023638A1 (en) 2000-09-15
EP0956552A1 (en) 1999-11-17
ATE220817T1 (de) 2002-08-15
DK0956552T3 (da) 2002-11-04
ES2180819T3 (es) 2003-02-16
DE69622439D1 (de) 2002-08-22

Similar Documents

Publication Publication Date Title
JP2000501847A (ja) 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置
US6157913A (en) Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions
Gerosa et al. A review of ASR technologies for children's speech
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
CN108431883B (zh) 语言学习系统以及语言学习程序
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP2002040926A (ja) インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法
CN111833853A (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
CN109697975B (zh) 一种语音评价方法及装置
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
JP2007148170A (ja) 外国語学習支援システム
US11636858B2 (en) Audio analysis system for automatic language proficiency assessment
US11250874B2 (en) Audio quality enhancement system
JP2000075894A (ja) 音声認識方法及び装置、音声対話システム、記録媒体
JP2006201491A (ja) 発音評定装置、およびプログラム
JPH06348297A (ja) 発音練習装置
JP2001051587A (ja) 外国語学習装置、外国語学習方法、及び外国語学習用プログラムを記録したコンピュータ読み取り可能な記録媒体
JP6755509B2 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム
Furui Toward the ultimate synthesis/recognition system
JP7039637B2 (ja) 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
US11404051B2 (en) Textual analysis system for automatic language proficiency assessment
JPH07168520A (ja) 学習習熟度判別装置付き語学用教育装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050208

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060130

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060130