JP2015060056A

JP2015060056A - 教育装置並びに教育装置用ｉｃ及び媒体

Info

Publication number: JP2015060056A
Application number: JP2013193319A
Authority: JP
Inventors: 宮田　清蔵; Seizo Miyata; 清蔵宮田; 昭幸永瀬; Akiyuki Nagase; 信行高澤; Nobuyuki Takazawa
Original assignee: Nagase Co Ltd
Current assignee: Nagase Co Ltd
Priority date: 2013-09-18
Filing date: 2013-09-18
Publication date: 2015-03-30

Abstract

【課題】利用者の意思を把握できるとともに、それに基づいて適切な応答を構築し、回答することができる結果、フレキシブルな相互コミュニケーションが可能な教育装置並びに教育装置用IC及び媒体を提供する。
【解決手段】利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段２と、前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段３とを備え、前記利用者との相互コミュニケーションを行う。
【選択図】図１

Description

本発明は、教育装置、特に、予め決められた範囲内でのやり取りを行うだけでなく、利用者の意思を把握し、それに基づいて適切な応答を行うことで、従来技術に比べてより柔軟な相互コミュニケーションを実現できる教育装置並びに教育装置用IC及び媒体に関する。

近年、音声認識技術を応用したサービスが増加してきている。例えば、コールセンターの分野では、カスタマーからの通話内容をテキスト化する技術によって、より正確な記録作成を可能とし、また、音声のキーワード抽出技術によって、オペレーターの応答内容について重要事項の漏れがないかどうか等の確認が出来るようになっている。また、オンラインショッピングの分野では、音声認識技術を使用した商品の発注が行われており、キーボード操作による発注作業に比べ、よりスピーディーで正確な発注が可能となってきている。
このように、音声認識技術を用いることで、人手をかけず、より効率的なオペレーションが可能となり、経費削減にも寄与すると考えられる。

特に最近、言語教育の分野において、音声認識技術の利用が高まっている。これによって、遠隔地にいても教育を受けることが可能となり、また、指導者や利用者の時間を調整したり、受講の予約を行う必要がない、という利点がある。

音声認識技術を利用した言語教育として、例えば特許文献１には、サーバ及びサーバに所定の通信回路を介して接続される端末装置により構成され、端末装置の利用者に対し学習環境を提供する遠隔教育システムにおいて、端末装置がサーバから送信される音声による課題データを、繰り返し再生する課題データ再生手段と、これにより再生された課題データに基づいて、利用者が復唱した復唱データを取得する復唱データ取得手段と、この復唱データを、サーバに送信する復唱データ送信手段と、これにより送信された復唱データの評価結果をサーバから受信する評価受信手段とを具備し、サーバが、端末装置に音声による課題データを送信する課題データ送信手段と、これにより送信された課題データに対する音声による復唱データを端末装置から受信する復唱データ受信手段と、この復唱データの課題データに対する評価を行う復唱データ評価手段と、この評価結果を端末装置に送信する評価送信手段とを具備する遠隔教育システム、が開示されている。
この技術によれば、利用者は、端末装置から出された課題を復唱しながら、リスニングやスピーチ能力を向上させることができる。

また、特許文献２には、ネットワークを介して互いに接続された端末装置とサーバ装置とを備えるオンライン教育システムであって、模範的な発声を示す音声データを格納するモデル音声データベースと、模範的な発話動作を撮影した映像データを格納するモデル映像データベースと、複数種類の指導情報を格納する指導情報データベースと、端末装置が生成した受講者の発声を示す音声データを、モデル音声データベースに格納されている音声データと比較し、その差分を示す解析結果を生成する音声解析手段と、受講者の発話動作を撮影することにより端末装置が生成した映像データを、モデル映像データベースに格納されている映像データと比較し、その差分を示す解析結果を生成する映像解析手段と、指導情報データベースから音声解析手段及び映像解析手段の解析結果に対応する指導情報を読み出してアドバイスを作成するアドバイス作成手段と、このアドバイス作成手段により作成されたアドバイスを端末装置にて出力させるアドバイス提供手段とを備えるオンライン教育システム、が開示されている。
この技術によれば、ネットワークを利用して、受講者の発声の音声データを、モデル音声データベースの音声データと比較し、その差分を解析することで、受講者の発声を矯正できる。

さらに、特許文献３には、複数の幼児教育用コンテンツを収容したネットワークオペレーションセンターと、ユーザーによって操作される音声入力が可能なユーザー端末と、ネットワークオペレーションセンターからユーザー端末へコンテンツ等のアップデートデータを伝送する衛星回線と、ユーザー端末からネットワークオペレーションセンターへ情報伝送を行う電話回線とからなる幼児教育システム、が開示されている。
利用者は、ユーザ端末に送られるコンテンツに従って発音練習等の語学教育を受けることができ、オペレーションセンターは、教育段階の高低に応じて、音声認識の認識レベルを可変とし、音声認識基準からのズレから、発音矯正等についても行うことができる。

特開２００４−１９１５２８号公報特開２００４−１０１６３７号公報特開２０００−１６２９５３号公報

しかしながら、特許文献１〜３の技術は、いずれも、利用者が予め決められた範囲内でしか発声を行うことができず、教育装置（システム）からの応答についても決められたパターンから選択されるというものであった。すなわち、特許文献１の技術は、利用者は課題データそのものを復唱し、その正誤について回答するものであり、特許文献２の技術は、利用者が模範的な発声を示す音声データに真似て発声練習を行うものであり、特許文献３の技術は、決まった教育用コンテンツをもとに発音の矯正を行うだけのものであった。
そのため、予め決められた範囲内でのやり取りだけでなく、利用者の意思を把握し、それに基づいて適切な応答を行うことで、より柔軟な相互コミュニケーションを実現できる教育装置の開発が望まれていた。

上記課題を鑑みて、本発明の目的は、利用者の意思を把握できるとともに、それに基づいて適切な応答を構築し、回答することができる結果、従来の教育装置に比べて、よりフレキシブルな相互コミュニケーションが可能な教育装置並びに教育装置用IC及び媒体を提供することにある。

本発明は、このような知見に基づきされたもので、その要旨は以下の通りである。
（１）利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、
前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段と、前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段とを備え、前記利用者との相互コミュニケーションを行うことを特徴とする教育装置。

（２）前記利用者の発する前記音声は、予め定められたものではなく、前記利用者から自由に発せられたものであることを特徴とする上記（１）に記載の教育装置。

（３）前記応答手段は、限られた応答パターンから選定するのではなく、前記利用者の目的から、前記応答手段が検討し、作成することを特徴とする上記（１）又は（２）に記載の教育装置。

（４）前記音声認識手段は、パターンマッチングでなく、前記音声認識の意味解釈の機能を有することを特徴とする上記（１）〜（３）のいずれかに記載の教育装置。

（５）前記音声認識手段は、音声認識技術の音響モデル及び/又は言語モデルに基づいて、前記取得した音声の内容を把握することを特徴とする上記（１）〜（４）のいずれかに記載の教育装置。

（６）前記音声認識手段は、取得した前記音声のうち不要な部分をとばして前記音声認識を行うことを特徴とする上記（１）〜（５）のいずれかに記載の教育装置。

（７）前記音声認識手段は、質問分析の手法に基づいて、前記取得した音声の内容を把握することを特徴とする、上記（１）〜（６）のいずれかに記載の教育装置。

（８）前記応答手段は、テキスト検索手段と、回答抽出手段とをさらに備えることを特徴とする、上記（７）に記載の教育装置。

（９）前記テキスト検索手段は、キーワード及び/又はキーワードの類義語及び/又はキーワードの同義語を用いて、検索をすることを特徴とする、上記（８）に記載の教育装置。

（１０）前記音声認識手段及び前記応答手段は、学習機能を有し、該学習機能は、前記利用者の前記音声の癖やパターンを記憶し、前記音声認識手段による前記利用者の前記目的の解釈、及び前記応答手段による前記応答内容の検討について精度を高めることを特徴とする上記（１）〜（９）のいずれかに記載の教育装置。

（１１）前記教育装置は、言語教育に使用されることを特徴とする上記（１）〜（１０）のいずれかに記載の教育装置。

（１２）前記教育装置は、言語の試験に使用されることを特徴とする上記（１１）に記載の教育装置。

（１３）前記教育装置は、前記利用者の発する音声の発音を検討し、前記発音の間違いを認識し、正しい発音の音声で応答することを特徴とする上記（１１）又は（１２）に記載の教育装置。

（１４）前記教育装置は、前記音声認識手段及び前記応答手段が、遠隔地の端末と通信するための通信手段をさらに備えることを特徴とする、上記（１）〜（１３）に記載の教育装置。

（１５）前記教育装置は、スマートフォン、携帯電話、パソコン、ゲーム、テレビ又はカーナビであることを特徴とする上記（１）〜（１４）のいずれかに記載の教育装置。

（１６）前記教育装置を機能させるためのIC。

（１７）前記教育装置を機能させるための媒体。

本発明によれば、発する音声から利用者の利用者の意思を把握できるとともに、それに基づいて適切な応答を構築し、回答することができる結果、フレキシブルな相互コミュニケーションが可能な教育装置並びに教育装置用IC及び媒体を提供することが可能となる。

本発明に従う教育装置の一実施形態について模式的に示した図である。本発明に従う音声認識手段の動きの一例を説明するフロー図である。本発明に従う応答手段の動きの一例を説明するフロー図である。本発明に従う教育装置の一実施形態について模式的に示した図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。本発明に従う相互コミュニケーションの流れの一例を説明するための図である。

＜教育装置＞
本発明に従う教育装置について、必要に応じて図面を用いて説明する。
本発明による教育装置は、図１に示すように、利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段２と、前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段３とを備え、前記利用者との相互コミュニケーションを行うことを特徴とする。

ここで、本発明の利用者とは、語学や、音楽、自己啓発、数学、その他種々の教育を受けるため、教育装置を利用する者のことをいう。
ここで、前記教育の種類についても特に限定はされない。ただし、音声による柔軟な相互コミュニケーションの必要性が高く、本発明による効果がより発揮できるという観点からは、本発明の教育装置は言語教育に用いられることが好ましい。さらに、人手をかけず、より効率的なオペレーションが必要となるという観点からは、本発明の教育装置は言語の試験に用いられることが好ましい。

さらに、前記音声とは、利用者から発せられる音のことをいい、言語等の意味のある内容の音に限定されず、間投詞や言い直しの声といった内容を認識する上で不要な部分も含まれる。
なお、前記利用者の発する前記音声は、マニュアルに従って復唱したようなものでも良いが、本発明による教育装置では、予め定められた音声に限られず、前記利用者から自由に発せられたものを把握できるため、前記教育装置１と利用者の間において、より柔軟なコミュニケーションが可能となる。

（音声認識手段）
本発明の教育装置は、図１に示すように、音声認識手段２を備える。前記音声認識手段２とは、利用者の音声を取得し、認識するための手段である。該音声認識手段２の機能としては、前記利用者の発する音声を取得する機能と、該取得した音声から必要な内容を抽出し、音声の内容を認識する機能とが挙げられる。
上記構成を具えることで、前記音声認識手段２は、予め定められた音声に限られず、より柔軟に利用者の音声の内容を認識することができる。

ここで、前記「音声から必要な内容を抽出する」とは、利用者の音声のうち、意味のない不要な部分を取り除き、本発明による装置が、利用者からの音声に含まれた利用者の目的を解釈するために必要な部分を取り出すことをいう。ここで、「不要な部分」とは、内容には関係のない部分のことを言い、例えば、間投詞や言い直しの声といった部分のことを言う。
また、「音声の内容を認識する」とは、抽出した内容の意味を把握することをいう。
さらに、「利用者の目的を解釈する」とは、把握した意味から、利用者が音声を発生した目的を把握することをいう。

また、前記音声認識手段２は、パターンマッチングの手法によって、予め蓄積されたデータとの比較をして、認識する手法は用いず、利用者の前記音声の意味を解釈して行われるため、前記利用者から自由に発せられる音声を認識することが好ましい。パターンマッチングの場合、膨大な量のパターンを用意しなければ、フレキシブルなコミュニケーションを達成することが難しいためである。
ここで、パターンマッチングとは、利用者が読み上げ又は発声する音声が予め決められ、データとして保存されており、その保存データと実際に利用者が発する音声とを、比較して、どの程度正しく利用者が音声を発声しているか判断することである。

さらに、前記音声認識手段２は、例えば、図２に示すように、音響モデル４及び/又は言語モデル５に基づいて、前記取得した音声の内容を認識することも可能である。
ここで、音響モデル４とは、声の音の単位等がどのような周波数特性を持っているか、様々な話者や環境の波形サンプルデータを集めたものをいう。また、言語モデル５とは、音の単位の並び方に対する制約に関し、単語とその並び方の情報を集めたものをいう。
言語モデル及び/又は音声モデルに基づく認識の一例としては、言語モデルを利用して、文頭に現れやすい単語の候補を挙げ、前記音声の最初の部分と、音響モデルを用いて照合し、次に文頭の単語に接続し得る単語の候補を、言語モデルから挙げて、前記音声と、音声モデルを用いて照合する。このような処理を、前記音声の最後まで行い、前記音声の内容を認識し、後述する応答手段へとその結果を伝えることが出来る。音響モデル及び/又は言語モデルを用いることによって、予め決められた範囲内で、利用者の音声を認識するだけでなく、より柔軟に利用者の意思を把握し、フレキシブルなコミュニケーションができるようにするためである。

また、前記音声認識手段２は、利用者の発する音声の内容を認識するために、例えば、質問分析の手法を利用することが可能である。
ここで、質問分析の手法とは、利用者の発する質問について、何についてどのようなことを質問しているかを把握する手法のことである。「何について」は、例えば、利用者の質問のキーワードを抽出することで把握が可能である。また、「どのようなこと」は、例えば、どのような疑問詞が用いられているかによって把握が可能である。例えば、「いつ」と言う疑問詞が用いられている場合は、時間に関する情報を求めていると把握が可能である。
このように、質問分析の手法を利用することによって、利用者の発する質問の内容を認識し、後述する応答手段へとその結果を伝えることが可能となる。予め決められた範囲内で、利用者の音声を認識するだけでなく、利用者が発する質問に対しても、より柔軟に利用者の意思を把握し、フレキシブルなコミュニケーションができるようにするためである。

（応答手段）
本発明の教育装置は、図１に示すように、応答手段３をさらに備える。応答手段３は、教育装置から利用者へ応答を返すための手段である。前記音声認識手段２によって認識された利用者の音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う。

前記応答手段３は、予め決められた範囲内における、予め蓄積された限られた応答パターンのデータから選定するのではなく、前記音声認識手段２が解釈した利用者の目的に応じ、前記応答手段が検討し、言語による応答をすることができる結果、利用者の意思に基づいて、適切な応答を行うことでき、より柔軟な相互コミュニケーションが可能となるという効果を奏する。

ここで、前記応答手段３による応答の方法は、特に限定はされないが、例えば人工知能によって行うことができる。前記音声内容に基づいて応答内容を作り出すことは、決められた応答パターンを多く用意するだけでは難しく、人工知能によって新たに音声内容を検討して、その検討結果から最適な応答内容を作成することが効率的であると考えられる。

前記応答手段は、例えば、図３に示すように、前記音声認識手段において「質問分析の手法」を利用することにより認識された質問の内容に基づいて、テキスト検索手段６及び回答抽出手段７によって、応答することも可能である。
ここで、テキスト検索手段６とは、テキスト集合から、回答を含んでいると考えられるテキストの検索を行う手段である。このテキストの検索において、例えば、質問分析で抽出された質問のキーワードを利用することが可能である。また、テキスト集合としては、Webを情報源として利用することが可能である。
また、回答抽出手段７とは、例えば、検索された「回答を含んでいると考えられるテキスト」に対し、テキスト中にどのような固有名が出現するかを同定し、質問分析において把握された回答として期待されている固有名の種類と合致する固有名を出力する手段である。ここで、固有名の種類とは、例えば、人名及び地名及び組織名及び時間表現等を言い、固有名とは、具体的には、例えば、イチロー又は大阪等のことである。
テキスト検索手段及び回答抽出手段を用いることによって、予め決められた範囲内における、予め蓄積された限られた応答パターンのデータから選定するのではなく、利用者の目的に応じ、前記応答手段が検討し、言語による応答をすることができる結果、利用者の意思に基づいて、適切な応答を行うことでき、より柔軟な相互コミュニケーションが可能となるという効果を奏する。

なお、前記音声認識手段２及び前記応答手段３は、学習機能を有することが好ましい。利用者の音声の癖や発する音声のパターンをフィードバックし、利用者の目的の解釈や応答内容の検討に当たり、前記学習機能を活用することで、より正しい目的の解釈や応答内容の検討が可能となるからである。

ここで、学習機能とは、人工知能の機能の一つであり、利用者の音声の癖や発する音声のパターンを把握し、同じ利用者が発する音声の内容を認識する際に、以前に把握した癖やパターンと比較検討することで、より正しい音声認識が可能となる機能である。

（相互コミュニケーション）
前記「相互コミュニケーション」は、利用者と前記教育装置１の間で、情報の伝達が相互に行われることであり、例えば、利用者の発する音声に応じて、前記教育装置１が適当な応答を行うこと、又は、前記教育装置１からの応答に対して、利用者が音声を発声し、さらにその音声に対して、前記教育装置１が応答を行う結果、実現される、前記利用者との音声による応答のやり取りのことをいう。

前記「相互コミュニケーション」の一部としては、例えば、図５に示すように、前記応答手段３の応答について、利用者が聞きとれない場合は、利用者が聞きとれない等の音声を発声すれば、前記音声認識手段２が、利用者が聞きとれないことを認識し、再度、前記応答手段３が、同じ内容をより大きな音声で明瞭に及び/又はゆっくり、繰り返し応答することが挙げられる。
また、前記「相互コミュニケーション」の一部としては、それでもなお、利用者が聞きとれない場合は、利用者がまだ聞きとれない等の音声を発声すれば、前記音声認識手段２が、利用者がまだ聞きとれないことを認識し、再度、前記応答手段３が、同じ内容をより大きな音声でより明瞭に及び/又はさらにゆっくり、繰り返し応答することが挙げられる。
これによって、例えば、前記教育装置１が語学教育に使用された場合、利用者が、前記応答手段３の応答の言葉のスピードが速くて聞きとれない場合でも、利用者と前記教育装置１の間で「相互コミュニケーション」が行われることで、前記語学の言葉を聞きとることが可能になる効果がある。

前記「相互コミュニケーション」の一部としては、例えば、図６に示すように、前記応答手段３からの応答について、利用者が理解できない場合は、利用者が理解できない等の音声を発声すれば、前記音声認識手段２が、利用者が理解できないことを認識し、前記応答手段３が、同じ意味の別の言葉に言い換えて応答することや、図７に示すように、前記応答手段３が、どの部分が理解できないかという質問の応答をすることも含まれる。前記応答手段３が、どの部分が理解できないかという質問の応答をした場合は、それに対して、利用者がどの部分を理解出来ないかについて答える音声に対して、前記応答手段３が、該部分に対し、同じ意味の別の言葉に言い換えて応答することもできる。
これによって、例えば、前記教育装置１が語学教育に使用された場合、利用者が、前記応答手段３の応答の言葉の文法等がわからず理解できない部分がある場合でも、利用者と前記教育装置１の間で「相互コミュニケーション」が行われることで、前記語学の言葉を理解することが可能になり、また該語学の文法を学ぶことができる効果がある。

また、前記「相互コミュニケーション」の一部としては、例えば、図８に示すように、利用者の発声する音声について、前記音声認識手段２が、文法や内容等が間違った答えであると認識した場合は、前記応答手段３が、利用者に対して、間違いであり再度考えて答えるように応答すること又は、どの部分が誤りであることを利用者に伝え、再度考えて答えるように応答することも挙げられる。
さらにまた、前記「相互コミュニケーション」の一部としては、例えば、利用者が再度考え答えることを繰り返し、定められた回数の答え直しをしてもなお、前記音声認識手段２が、間違った答えであると認識した場合は、前記応答手段３が、正しい答えを応答することが挙げられる。また、前記「相互コミュニケーション」の一部としては、例えば、利用者の発声する音声について、前記音声認識手段２が、正しい答えであると認識した場合は、前記応答手段３が、利用者に対して、正しい答えであると応答することも挙げられる。
これによって、例えば、利用者が、前記教育装置１を使用した学習において、文法を間違え、正しい答えが出来ない場合は、前記応答手段３から誤答である等の応答があり、正しい答えができように、利用者と前記教育装置１の間で「相互コミュニケーション」が行われることで、正しい答えを学習できるようになる効果がある。

また、前記「相互コミュニケーション」の一部としては、例えば、図９に示すように、利用者が発する音声の発音に誤りがあると、前記音声認識手段２が認識した場合は、前記応答手段３が、発音に誤りがあること若しくは、どの部分の発音が誤りであることを応答し、合わせて正しい発音で発声するように利用者に応答すること又は、誤りのある部分の正しい発音を利用者に応答し、真似をして発声するように応答することが挙げられる。
さらにまた、前記「相互コミュニケーション」の一部としては、例えば、利用者が誤りを正した発音について、前記音声認識手段２が、発音の誤りを再度認識した場合は、前記応答手段３が、発音に誤りがあること若しくは、どの部分の発音が誤りであること又は、誤りのある部分の正しい発音を、再度、利用者に応答することも挙げられる。
これによって、例えば、前記教育装置１が語学教育に使用された場合、利用者が、正しい発音ができない場合でも、利用者と前記教育装置１の間で「相互コミュニケーション」が行われることで、利用者が正しい発音ができるようになるまで、繰り返し発音矯正をすることが可能になる効果がある。ここで、発音矯正とは、利用者の発音の間違いを認識した場合に、正しい発音を応答することで、利用者が正しい発音を聞いて、模倣して発音することで、利用者が正しい発音を学ぶことである。

また、前記「相互コミュニケーション」の一部としては、例えば、図１０に示すように、利用者の発声する音声について、前記音声認識手段２が、正しい答えをした回数と間違った答えをした回数を数え、それをもとに点数をつけること及び/又は、前記応答手段３が、その点数及び/又は、間違った問題のポイントを、利用者に対して伝え応答することが挙げられる。
さらにまた、前記「相互コミュニケーション」の一部としては、例えば、前記「間違った問題のポイント」等について、利用者が質問の音声を発した場合は、前記音声認識手段２が質問の内容を認識し、前記応答手段３が、該内容に基づいて、適当な答えの内容を応答すること及び、さらに利用者が該「答えの内容」について、さらに質問の音声を続け、それに対し前記応答手段３が答えの応答をし続けていく場合も挙げられる。
これによって、例えば、利用者が、前記教育装置１を使用した学習において、自分の正答率及び点数及び/又は「間違った問題のポイント」を知りたい場合、さらにまた、「間違った問題のポイント」について、質問がある場合は、利用者と前記教育装置１の間で「相互コミュニケーション」が行われることで、正答率及び質問の答えがわかるようになる。

前記「相互コミュニケーション」の一部としては、例えば、図１１に示すように、利用者が、質問をする場合には、前記音声認識装置２が、利用者の質問内容を認識し、前記応答手段３が認識された質問内容に基づいて、適当な答えの内容を検討して応答することが挙げられる。
さらに、前記「相互コミュニケーション」の一部としては、例えば、前記答えの内容に対して、利用者が、引き続いて、さらに質問をする場合には、前記音声認識装置２が、利用者の質問内容を認識し、前記応答手段３が認識された質問内容に基づいて、引き続き、さらに適当な答えの内容を検討して、応答すること及び、この質疑応答が繰り返しされていくことが挙げられる。
これによって、例えば、利用者が、前記教育装置１を使用した学習において、何か質問がある場合は、利用者と前記教育装置１の間で「相互コミュニケーション」が行われることで、利用者の質問と前記応答手段３からの回答が、繰り返しされ、利用者が納得のいく回答を得ることが可能となる。

前記利用者が行う前記発音矯正において、利用者と前記教育装置１の間で「相互コミュニケーション」が行われることで、利用者が繰り返し発音矯正をしても、なお、利用者が正しい発音ができない場合があり得る。
そのため、前記「相互コミュニケーション」の一部としては、例えば、図１２に示すように、前記音声認識手段２が、一定回数の発音矯正をしても、利用者が正しい発音ができないと認識した場合は、前記応答手段３が、利用者が正しい発音ができない部分の文字及び/又は発音記号を、利用者に提示し応答した後に、再度、利用者と前記教育装置１の間で、前記発音矯正を続けていくことが挙げられる。
これによって、例えば、前記教育装置１が語学教育に使用された場合、利用者と前記教育装置１の間で「相互コミュニケーション」が行われて前記発音矯正がされても、なお、利用者が正しい発音ができない場合には、利用者が発音記号や文字を見ることで、正しい発音ができるように視覚的に学習ができることが可能になる効果がある。

また、前記「相互コミュニケーション」の一部としては、例えば、図１３の（１）ケース１に示すように、利用者の質問又は発する音声について、前記教育装置で教育中の課題又は質問応答と関係ないと、前記教育装置が認識した場合又は、前記教育装置が、回答等の応答ができない場合は、「別の質問をして下さい」等の応答を行い、利用者を誘導して本来の質問応答の流れに戻すこと又は、直接の回答を避ける応答をすることが挙げられる。例えば、歴史の教育を行っている場合に、利用者が数学の質問をする場合等である。
さらに、前記「相互コミュニケーション」の一部としては、例えば、図１３の（２）ケース２に示すように、利用者の質問又は発する音声について、前記教育装置が応答に時間がかかると認識した場合は、「考えてみます」等の冗長な言葉によって応答してから、例えば、質問分析及びテキスト検索及び回答抽出等を行うことが挙げられる。
これによって、より円滑な会話のやり取りが可能となり、利用者と前記教育装置との間で、より柔軟な相互コミュニケーションを実現ができるようになる。

（その他）
また、本発明の教育装置１は、言語教育に使用される場合、利用者の発する音声の発音の間違いを認識し、正しい発音で応答する発音矯正の機能を有することが可能となる。さらに、本発明の教育装置１は、言語の試験に使用される場合、利用者のスピーキング及び/又はリスニング等の能力を試験することが可能となる。

前記教育装置１２は、図４に示すように、前記音声認識手段２及び前記応答手段３が、遠隔地の端末８と通信するための通信手段１０をさらに備えることが可能である。利用者は、端末を操作することで、通信手段１０によって、例えば遠隔地に存在する前記音声認識手段２及び前記応答手段３を備えるサーバー９を利用することができるため、複数の端末に対して並行して教育を行うことが可能となるためである。

前記教育装置１は、上述したサーバクライアントシステムの他、具体例としては、スマートフォン、携帯電話、パソコン、ゲーム、テレビ又はカーナビが挙げられる。その場合、スマートフォン等に前記音声認識手段２及び前記応答手段３を組み込むことで、種々の装置を本発明の教育装置１として使用することが可能となる。

＜IC＞
次に、本発明による「前記教育装置を機能させるためのIC」について説明する。
本発明の教育装置を機能させるためのICは、利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段と、前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段とを備え、前記利用者との相互コミュニケーションを行うことを特徴とする教育装置を機能させることを特徴とする。

上記構成を具備するICをコンピュータ中に組み込むことで、上述した本願発明に係る装置の効果を得ることが可能となる。
ここで、ICとは、集積回路を意味する。

＜媒体＞
次に、本発明による「前記教育装置を機能させるための媒体」について説明する。
本発明の前記教育装置を機能させるための媒体とは、利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段と、前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段とを備え、前記利用者との相互コミュニケーションを行うことを特徴とする教育装置を機能させるための媒体のことをいう。
具体的には、ソフトウエアや情報を記録できるメディアで、例えば、DVD、CD、USBメモリーやハードディスク等が挙げられる。

前記媒体を用いてコンピュータ中にインストール等を行うことによって、インストールされたコンピュータは、上述した本願発明に係る装置の効果を得ることが可能となる。

以下に、実施例を挙げて本発明をさらに詳しく説明するが、本発明は下記の実施例に何ら限定されるものではない。

（実施例１）
図１に示すように、利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段２と、前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段３とを、ICチップ内に備え、前記利用者との相互コミュニケーションを行うことを特徴とする英語教育装置を作製した。
なお、音声認識手段としては、音響モデル及び言語モデルに基づいて、音声認識を行う手法を採用した。また、英語教育用のテキストとして、本文とその本文の内容に関する質疑応答が掲載されているテキストを使用した。

（評価）
利用者に、本文を音読させ、その内容に関するテキストに掲載された質疑応答について、
実施例の教育装置の動作を評価した。なお、質疑応答の問題は、利用者によって様々な回答の表現の仕方があり得る問題を用いた。

その結果、利用者から自由に発せられた様々な回答の表現に対しても、利用者の発する音声の内容を認識し、回答の正誤を判定できることがわかった。
また、利用者の発する音声に、内容には関係のない間投詞や言い直しの声といった不要な部分がある場合でも、その不要な部分をとばして音声認識がされることがわかった。
さらに、利用者の英語の発音が正しくないために、利用者の発する音声の内容が理解できない場合には、発音が正しくない部分について、教育装置が、単に、限られた応答パターンから選択するのではなく、どの部分が正しくないかを指摘し、利用者に正しい発音を教える応答をできることもわかった。この場合、教育装置から教えられる正しい発音を真似しても、利用者が正しい発音を出来ない場合には、教育装置から、発音が誤っていること及び、正しい発音が再度、利用者に教える応答がされることも確認された。これに対し、利用者が、発音が早くて聞きとれないことを伝えると、教育装置は、より大きく及びより明瞭な音声で、応答がされることが確認された。
当該実施によって、利用者と前記教育装置１の間で「相互コミュニケーション」が行われ、前記教育装置１が、利用者に対し、正しい英語の発音をして聞かせ、発音矯正ができることがわかった。

（実施例２）
図４に示すように、利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段２と、前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段３とを備えるサーバーを準備、作製した。また、端末には、マイクとスピーカーを装備し、利用者の発声する音声を取得し、端末から言語によって、利用者に対して応答を行うことができるようにした。さらに、端末は、サーバーから遠距離の別の場所に2台配置し、各端末とサーバーの間は通信回線でつなぎ、2人の前記利用者との相互コミュニケーションを行うことを特徴とする英語教育装置を作製した。
また、音声認識手段としては、音響モデル及び言語モデルに基づいて、音声認識を行う手法を採用した。また、英語教育用のテキストとして、本文とその本文の内容に関する質疑応答が掲載されているテキストを使用した。

（評価）
2人の利用者に、本文を音読させ、その内容に関するテキストに掲載された質疑応答について、実施例の教育装置の動作を評価した。なお、質疑応答の問題は、利用者によって様々な回答の表現の仕方があり得る問題を用いた。

その結果、2人の利用者の使用する２台の端末に対して、各利用者から自由に発せられた様々な回答の表現に対しても、遠距離に配置されたサーバーと端末の間で、円滑に通信が行われ、教育装置が各利用者の発する音声の内容を認識し、回答の正誤を判定できることがわかった。
また、各利用者の発する音声に、内容には関係のない間投詞や言い直しの声といった不要な部分がある場合でも、その不要な部分をとばして音声認識がされることがわかった。
さらに、各利用者の英語の発音が正しくないために、利用者の発する音声の内容が理解できない場合には、発音が正しくない部分について、教育装置が、単に、限られた応答パターンから選択するのではなく、どの部分が正しくないかを指摘し、各利用者に正しい発音を教える応答をできることもわかった。この場合、教育装置から教えられる正しい発音を真似しても、各利用者が正しい発音を出来ない場合には、教育装置から、発音が誤っていること及び、正しい発音が再度、利用者に教える応答がされることも確認された。これに対し、各利用者が、発音が早くて聞きとれないことを伝えると、教育装置は、より大きく及びより明瞭な音声で、応答がされることが確認された。
当該実施によって、２人利用者が別の場所に配置した各々の端末を使用した場合、前記教育装置１２と利用者の間で、「相互コミュニケーション」が行われ、前記教育装置１２が、各利用者に対し、正しい英語の発音をして聞かせ、発音矯正ができることがわかった。

本発明によれば、予め決められた範囲内でのやり取りだけでなく、利用者の意思を把握できるとともに、それに基づいて適切な応答を構築し、回答することが可能となる。その結果、利用者と装置との間で従来にはなかったフレキシブルな相互コミュニケーションが可能となり、人間を介することによるコストや時間的制約を削減できることから産業上有用である。

１、１２教育装置
２音声認識手段
３応答手段
４音響モデル
５言語モデル
６テキスト検索手段
７回答抽出手段
８端末
９サーバー
１０通信手段
１１利用者

Claims

利用者の発する音声を取得し、該取得した音声から必要な内容を抽出することで、前記音声の内容を認識し、前記利用者の目的を解釈する音声認識手段と、
前記認識された音声の内容に基づいて、適当な応答内容を検討し、言語によって応答を行う応答手段とを備え、
前記利用者との相互コミュニケーションを行うことを特徴とする教育装置。
前記利用者の発する前記音声は、予め定められたものではなく、前記利用者から自由に発せられたものであることを特徴とする、請求項１に記載の教育装置。
前記応答手段は、限られた応答パターンから選定するのではなく、前記利用者の目的から、前記応答手段が検討し、作成することを特徴とする、請求項１又は２に記載の教育装置。
前記音声認識手段は、パターンマッチングでなく、前記音声認識の意味解釈の機能を有することを特徴とする、請求項１〜３のいずれか１項に記載の教育装置。
前記音声認識手段は、音声認識技術の音響モデル及び/又は言語モデルに基づいて、前記取得した音声の内容を把握することを特徴とする、請求項１〜４のいずれか１項に記載の教育装置。
前記音声認識手段は、取得した前記音声のうち不要な部分をとばして前記音声認識を行うことを特徴とする、請求項１〜５のいずれか１項に記載の教育装置。
前記音声認識手段は、質問分析の手法に基づいて、前記取得した音声の内容を把握することを特徴とする、請求項１〜６のいずれか１項に記載の教育装置。
前記応答手段は、テキスト検索手段と、回答抽出手段とをさらに備えることを特徴とする、請求項７に記載の教育装置。
前記テキスト検索手段は、キーワード及び/又はキーワードの類義語及び/又はキーワードの同義語を用いて、検索をすることを特徴とする、請求項８に記載の教育装置。
前記音声認識手段及び前記応答手段は、学習機能を有し、該学習機能は、以前に行われた前記利用者の前記音声の癖や応答パターンをフィードバックし、前記音声認識手段による前記利用者の前記目的の解釈及び前記応答手段による前記応答内容の検討についての精度を高めることを特徴とする、請求項１〜９のいずれか１項に記載の教育装置。
前記教育装置は、言語教育に使用されることを特徴とする、請求項１〜１０のいずれか１項に記載の教育装置。
前記教育装置は、言語の試験に使用されることを特徴とする、請求項１１に記載の教育装置。
前記教育装置は、前記利用者の発する音声の発音を検討し、前記発音の間違いを認識し、正しい発音の音声で応答することを特徴とする、請求項１１又は１２に記載の教育装置。
前記教育装置は、前記音声認識手段及び前記応答手段が、遠隔地の端末と通信するための通信手段をさらに備えることを特徴とする、請求項１〜１３のいずれか１項に記載の教育装置。
前記教育装置は、スマートフォン、携帯電話、パソコン、ゲーム、テレビ又はカーナビであることを特徴とする、請求項１〜１４のいずれか１項に記載の教育装置。
前記教育装置を機能させるためのIC。
前記教育装置を機能させるための媒体。