以下に添付図面を参照して、この発明にかかる学習支援装置の好適な実施の形態を詳細に説明する。この実施の形態においては、この発明にかかる学習支援装置を、通信教育システムを構成する操作端末に適用した例を示す。
(通信教育システムのシステム構成)
まず、この発明にかかる実施の形態の通信教育システムのシステム構成について説明する。図1は、この発明にかかる実施の形態の通信教育システムのシステム構成を示す説明図である。
図1において、この発明にかかる実施の形態の通信教育システム100は、サーバ110と、複数の操作端末(学習支援装置)120と、親の端末装置130と、によって構成される。サーバ110と各操作端末120、および、サーバ110と親の端末装置130とは、インターネットなどのネットワーク140を介して、相互に通信可能に接続されている。サーバ110と各操作端末120とは、たとえば、Wi−Fiなどによって相互接続性が保証されている。
サーバ110は、この発明にかかる実施の形態の通信教育システム100の運用者(管理者)などによって管理される。サーバ110は、たとえば、パーソナルコンピュータなどの汎用的なコンピュータ装置によって実現することができる(図2−1を参照)。操作端末120は、たとえば、タブレットコンピュータやタブレット端末などと称される、ディスプレイとタッチパネルとを備えた可搬性のコンピュータ装置(携帯端末装置)によって実現することができる(図2−2を参照)。操作端末120は、通信教育システム100の運用に際し、当該通信教育システム100の加入者であって学習対象者である子供(児童)などに対して、あらかじめ配布しておく。
親の端末装置130は、たとえば、親などの保護者が個人で所有し、インターネットに接続されたパーソナルコンピュータなどのコンピュータ装置によって実現することができる。親の端末装置130は、たとえば、親などの保護者が個人で所有し、スマートフォン、携帯型電話機、PHS(Personal Handy−phone System)などの良好な携帯性を備えた携帯型通信機器によって実現することができる。親の端末装置130を実現する携帯型通信機器、および、親の端末装置130を実現するパーソナルコンピュータなどのコンピュータ装置については、公知の技術であるため説明を省略する。
(サーバ110のハードウエア構成)
図2−1は、サーバ110を実現するコンピュータ装置のハードウエア構成の一例を示す説明図である。図2−1において、サーバ110を実現するコンピュータ装置は、CPU211と、ROM212と、RAM213と、HDD214と、HD215と、ネットワークインターフェース(I/F)216と、を備えている。また、この発明にかかる実施の形態の通信教育システム100においてサーバ110を実現するコンピュータ装置が備える各部211〜216は、バス210によってそれぞれ接続されている。
CPU211は、サーバ110を実現するコンピュータ装置全体の制御をつかさどる。ROM212は、ブートプログラムなどのプログラムを記憶している。RAM213は、CPU211のワークエリアとして使用される。HDD214は、CPU211の制御にしたがってHD215に対するデータのリード/ライトを制御する。HD215は、HDD214の制御で書き込まれたデータを記憶する。HD215は、たとえば、教材データベースや加入者データベースなどの各種データベースを記憶する。
ネットワークI/F216は、インターネットなどのネットワーク140に接続され、当該ネットワーク140を介して、操作端末120などの外部装置に接続される。そして、ネットワークI/F216は、ネットワーク140とサーバ110を実現するコンピュータ装置の内部とのインターフェースをつかさどり、サーバ110を実現するコンピュータ装置と外部装置との間におけるデータの入出力を制御する。
(操作端末120のハードウエア構成)
図2−2は、操作端末120を実現するコンピュータ装置のハードウエア構成の一例を示す説明図である。図2−2において、操作端末120を実現するコンピュータ装置は、CPU221と、ROM222と、RAM223と、メモリ224と、ネットワークI/F225と、タイマ226と、ディスプレイ227と、タッチパネル228と、マイク229と、スピーカー230と、カメラ231と、電源スイッチ232と、を備えている。また、この発明にかかる実施の形態の通信教育システム100において操作端末120を実現するコンピュータ装置が備える各部221〜232は、バス220によってそれぞれ接続されている。
CPU221は、操作端末120全体の制御をつかさどる。ROM222は、ブートプログラムなどのプログラムを記憶している。RAM223は、CPU221のワークエリアとして使用される。ROM222およびRAM223の少なくとも一方には、サーバ110から送信された、操作端末120を用いておこなう学習に用いる情報(学習コンテンツ)を記憶する領域が確保されている。ネットワークI/F225は、インターネットなどのネットワーク140を介して、当該ネットワーク140に接続されたサーバ110などの外部装置との間におけるデータの入出力を制御する。
ディスプレイ227は、たとえば、操作端末120が実行可能なメニューを示すアイコンなどを表示する。ディスプレイ227は、たとえば、主に液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイなどによって実現することができる。
タッチパネル228は、ディスプレイ227に積層され、操作位置に応じた信号をCPU221に対して出力する。タッチパネル228は、たとえば抵抗膜方式や静電容量方式、音響パルス認識方式、超音波表面弾性波方式、赤外遮光方式、画像認識方式など公知の各種の方式のものを用いることができる。
マイク229は、アナログデータとして入力された話者の声をアナログ/デジタル変換し、デジタル形式の音声データを生成する。スピーカー230は、たとえば、音読メニューの実行時に、デジタル形式の音声データをデジタル/アナログ変換し、アナログ形式の音声データに基づいてスピーカーコーンにおけるコイルに通電するなどして音声を出力する。
カメラ231は、タッチパネル228の操作によって撮像対象を撮像し、画像データを生成する。生成された画像データは、RAM223などに記憶される。ネットワークI/F225は、インターネットなどのネットワーク140に接続され、当該ネットワーク140と利用者の端末装置120を実現するスマートフォンの内部とのインターフェースをつかさどる。
電源スイッチ232は、図示を省略する電源から操作端末120の各部までの電力供給にかかるON/OFFの切り換えをおこなう。電源スイッチ232は、図示を省略する電源から操作端末120の各部に至る電力路における、もっとも電源側(最上流側)において、電力供給にかかるON/OFFの切り換えをおこなう。電源スイッチ232は、受け付けた操作に応じて、CPU221に対してON/OFF信号を出力する。電源スイッチ232は、電源路の最上流側において、電源による電力の供給を停止したり解除したりすることによって電力供給にかかるON/OFFの切り換えをおこなうものであってもよい。
(手本音声データベース)
図3−1は、手本音声データベースの一例を示す説明図である。図3−1において、手本音声データベース310は、たとえば、サーバ110を実現するコンピュータ装置が備えるHD215に設けることができる。手本音声データベース310は、複数の手本音声データを記憶する。
手本音声データは、それぞれ、英単語の発話の手本となる音声のデータであって、たとえば、英語のネイティブスピーカーが発話した英単語を録音した音声データによって実現することができる。また、手本音声データは、英単語に加えて、英文の発話の手本となる音声のデータであってもよい。この場合も、手本音声データは、英語のネイティブスピーカーが発話した英文を録音した音声データによって実現することができる。
手本音声データは、1つの英単語や英文ごとに、複数記憶されていてもよい。具体的には、手本音声データベース310は、たとえば、英単語や英文ごとに、通常の速度で発話した英単語や英文の手本音声データと、通常の速度よりも遅い(ゆっくり発話した)英単語や英文の手本音声データと、を記憶する。
また、手本音声データベース310は、手本音声データごとに、当該手本音声データが示す英単語や英文のスペルに関するデータを記憶する。英単語や英文のスペルに関するデータは、たとえば、該当する英単語や英文のスペルを示すテキストデータによって実現することができる。あるいは、英単語や英文のスペルに関するデータは、たとえば、該当する英単語や英文のスペルを示す画像データによって実現してもよい。
(評価基準データベース)
図3−2は、評価基準データベースの一例を示す説明図である。図3−2において、評価基準データベース320は、たとえば、サーバ110を実現するコンピュータ装置が備えるHD215に設けることができる。評価基準データベース320は、評価基準に関する情報を記憶する。
評価基準に関する情報は、評価レベルと各評価レベルの該当基準とを含む。図3−2においては、「PERFECT」、「VERY GOOD」、「GOOD」、「TRY IT AGAIN」の4段階の評価レベルを例示している。該当基準は、手本音声データと発話音声データとをフレームごとに比較した場合の、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数を示している。
具体的には、図3−2の例においては、たとえば、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数が0(ゼロ)の場合、すなわち、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置にすべて該当する場合に、評価レベルは「PERFECT」となる。また、具体的には、図3−2の例においては、たとえば、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数が1つである場合、評価レベルは「VERY GOOD」となる。
該当基準は、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数に代えて、手本音声データのフレーム数に対する、各フレームにおける発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数の割合によって定められていてもよい。
具体的には、たとえば、15個のフレームによって構成される英単語(あるいは英文)の手本音声データのアクセント位置と発話音声データのアクセント位置とをフレームごとに比較した結果、該当しない数が1つであれば、該当しない数の割合は(1/15)×100%となる。該当しない数の割合が10%以下であるものを「VERY GOOD」に該当すると判定する条件を設定した場合、(1/15)×100%はすなわち10%以下となるため、「VERY GOOD」と判定される。
サーバ110は、手本音声データベース310や評価基準データベース320が記憶する各種の情報(学習コンテンツ)を、所定のタイミングで操作端末120に送信する。サーバ110は、たとえば、操作端末120から送信されたコンテンツ送信要求を受信した場合に、当該コンテンツ送信要求の送信元となる操作端末120に対して、手本音声データベース310や評価基準データベース320が記憶する各種の情報(学習コンテンツ)を送信する。
コンテンツ送信要求に応じてサーバ110が送信する情報(学習コンテンツ)は、手本音声データベース310や評価基準データベース320が記憶する各種の情報(学習コンテンツ)のうちの一部の情報(学習コンテンツ)であってもよい。具体的には、サーバ110は、たとえば、手本音声データベース310や評価基準データベース320が記憶する各種の情報(学習コンテンツ)のうち、コンテンツ送信要求を受信した受信日が属する1ヶ月分など、所定期間における学習に要する情報(学習コンテンツ)を送信する。また、具体的には、サーバ110は、たとえば、手本音声データベース310や評価基準データベース320が記憶する各種の情報(学習コンテンツ)のうち、上記受信日において、コンテンツ送信要求の送信元となる操作端末120にダウンロードされていない情報(学習コンテンツ)を送信してもよい。
(学習の方法)
つぎに、操作端末120を用いておこなう学習の方法について説明する。操作端末120を用いておこなう学習は、発話の学習をおこなう学習アプリケーション(以下「発話学習アプリ」という)を起動した状態でおこなう。
発話学習アプリは、たとえば、毎月などの所定期間ごとに、サーバ110から各操作端末120に配信することができる。この場合、発話学習アプリは、たとえば、上記のコンテンツ送信要求を受信した場合に、当該コンテンツ送信要求に応じて操作端末120に送信する情報(学習コンテンツ)をリソースとして含んでいてもよい。
操作端末120は、起動すると、あらかじめインストールされているプログラムを実行することにより、まずサーバ110との間で通信をおこない、サーバ110に対してコンテンツ送信要求を送信する。コンテンツ送信要求は、サーバ110における処理によってサーバ110によって選択された情報(学習コンテンツ)の送信を要求するものであってもよいし、操作端末120において指定された情報(学習コンテンツ)の送信を要求するものであってもよい。
操作端末120は、起動するごとに、毎回、コンテンツ送信要求を送信するものに限らない。操作端末120は、たとえば、1ヶ月などの所定期間においてはじめて起動された時にのみ、コンテンツ送信要求を送信するようにしてもよい。あるいは、操作端末120は、コンテンツ送信要求の送信を指示する入力操作を受け付けた場合に、適宜、コンテンツ送信要求を送信するようにしてもよい。
操作端末120は、コンテンツ送信要求を送信した結果、サーバ110が手本音声データベース310や評価基準データベース320において記憶する各種の情報(学習コンテンツ)のうち、コンテンツ送信要求に応じてサーバ110から送信された情報(学習コンテンツ)を受信する。そして、受信した情報をROM222やRAM223などに確保された所定の記憶領域に記憶する。
操作端末120は、あらたな情報(学習コンテンツ)を受信した場合、ROM222やRAM223などに確保された所定の記憶領域に既に記憶されている情報(学習コンテンツ)のすべてあるいは一部を、当該記憶領域から削除してもよい。具体的には、操作端末120は、当月分の情報(学習コンテンツ)を受信した場合、前月分までの情報(学習コンテンツ)を削除して、受信したあらたな情報(学習コンテンツ)を所定の記憶領域に記憶する。これにより、学習者は、操作端末120において格別容量の大きな記憶媒体を搭載することなく、常に最新の情報(学習コンテンツ)を用いて学習をおこなうことができる。
発話の学習は、発話対象とする1つの英単語あるいは1つの英文ごとに、(1)手本音声データを聞くステップ、(2)手本音声データにしたがって発話するステップ、(3)手本音声データと発話による発話音声データとを比較するステップ、という3つのステップを順番におこなうことによって実現される。操作端末120は、発話学習アプリを起動した状態で、発話の学習をおこなう学習者によっておこなわれた所定の入力操作を受け付けた場合に、(1)〜(3)の各ステップを順番におこなう。
操作端末120は、発話学習アプリを起動した状態で所定の入力操作を受け付けた場合、まず、(1)のステップ(手本音声データを聞くステップ)をおこなう。具体的に、操作端末120は、(1)のステップにおいて、発話学習アプリを起動した状態で受け付けた所定の入力操作に応じて、手本音声データベース310から再生対象とする手本音声データを取得する。
そして、操作端末120は、取得した手本音声データを当該手本音声データの再生時間にしたがって等間隔に区切った各単位時間における当該手本音声データの音声音圧レベル(以下「手本音声音圧レベル」という)を、あらかじめ定められた複数の段階のうちのいずれかの段階に分類する。その後、単位時間ごとに分類した手本音声音圧レベルに基づいて、お手本表示画面(図4−1を参照)を、ディスプレイ227に表示する。お手本表示画面は、手本音声音圧レベルを示す画像を含む。
また、操作端末120は、(1)手本音声データを聞くステップにおいて、再生対象とする手本音声データを再生することにより、当該手本音声データをスピーカー230から出力する。これにより、学習者は、英語のネイティブスピーカーが発話した英単語や英文を聞くことができる。
つぎに、操作端末120は、(2)のステップ(手本音声データにしたがって発話するステップ)をおこなう。操作端末120は、上記の(1)のステップにより手本音声データを再生した後に、(2)のステップをおこなう。(2)のステップは、学習者による格別の操作を必要とせず、(1)のステップにより手本音声データを再生した後に、当該(1)のステップに続けておこなう。
(2)のステップにおいては、学習者の発話を録音することを示す表示画面(ユーザー音声録音画面:図4−2を参照)をディスプレイ227に表示する。学習者は、ディスプレイ227に表示されたユーザー音声録音画面の表示内容にしたがって発話する。操作端末120は、学習者の発話による音声を録音することによって、発話による音声データ(以下「発話音声データ」という)の入力を受け付ける。
発話音声データの入力を受け付けた後は、(3)のステップ(手本音声データと発話による発話音声データとを比較するステップ)をおこなう。(3)のステップにおいて、操作端末120は、(2)のステップにおいてユーザー音声録音画面の表示中に入力を受け付けた発話音声データを、手本音声データを当該手本音声データの再生時間にしたがって等間隔に区切った各単位時間における当該手本音声データの音声音圧レベル(以下「発話音声音圧レベル」という)を、上記複数の段階のうちのいずれかの段階に分類する。
その後、単位時間ごとに分類した発話音声音圧レベルに基づいて、結果表示画面(図4−3や図4−4を参照)を、ディスプレイ227に表示する。結果表示画面は、単位時間ごとに分類した発話音声音圧レベルを再生時間にしたがって配列した発話音声音圧レベルを示す画像を、手本音声音圧レベルを示す画像に重ね合わせた比較画像を含む。
操作端末120は、結果表示画面において、発話音声データの評価結果に加えて、つぎの学習を指定する操作ボタンを表示する。操作端末120は、評価を示す表示画面の表示中に、つぎの手本音声データの再生を指示する操作ボタンに対する操作を受け付けた場合、直前に再生した手本音声データとは異なる手本音声データを取得し、上記と同様の処理をおこなう。
取得する手本音声データは、手本音声データベース310が記憶する複数の手本音声データの中から特定した任意の手本音声データとすることができる。あるいは、取得する手本音声データは、手本音声データベース310が記憶する複数の手本音声データのうち、あらかじめ定められた規定の順序にしたがって順次特定されるものであってもよい。
一方、操作端末120は、評価を示す表示画面の表示中に、直前再生した手本音声データと同じ手本音声データの再生を指示する操作ボタンに対する操作を受け付けた場合、先に再生した手本音声データを用いて、上記と同様の処理をおこなう。
また、操作端末120は、取得した手本音声データを再生する際に、当該手本音声データに関連付けられた英単語や英文のスペルに関するデータに基づいて、ディスプレイ227において該当するスペルを表示する。
さらに、操作端末120は、取得した手本音声データを再生する際に、手本音声データの再生速度を案内するガイドバーを表示してもよい。ガイドバーは、手本音声音圧レベルを示す画像の上を、手本音声の再生速度にあわせて通過するように表示する。
操作端末120は、手本音声データの再生指示に先立って、再生速度の指定を受け付けた場合、指定された再生速度に応じた手本音声データを取得する。操作端末120は、通常の速度よりも遅い手本音声データを取得した場合、音声音圧レベルの判断にかかる単位時間を切り換えて処理をおこなう。操作端末120は、指定された再生速度にかかわらず、同様の処理をおこなうことによって音声音圧レベルの判断を実現する。
(表示画面例)
つぎに、操作端末120が表示する表示画面例について説明する。図4−1、図4−2、図4−3、図4−4、図4−5および図4−6は、操作端末120が表示する表示画面例を示す説明図である。図4−1、図4−2、図4−3、図4−4および図4−6に示した各表示画面410、420、430、440、460は、それぞれ、1つの英単語あるいは英文の学習の進行状態を示す画像401を表示する。
上記のように、発話の学習は、発話対象とする1つの英単語あるいは1つの英文ごとに(1)〜(3)のステップを順次おこなうことによって実現される。この実施の形態において、学習の進行状態を示す画像401は、(1)のステップを示す「きいてみよう」マーク401a、(2)のステップを示す「いってみよう」マーク401b、(3)のステップを示す「くらべてみよう」マーク401cによって構成される。学習の進行状態は、「きいてみよう」マーク401a、「いってみよう」マーク401b、あるいは「くらべてみよう」マーク401cのうち、現在のステップに該当するいずれかのマークを強調することによって案内することができる。
お手本表示画面410は、(1)〜(3)のステップのうち、(1)のステップを示す「きいていみよう」マーク401aを強調して表示する。これにより、学習者を、手本音声を聞くことに集中させ、これによって正しいアクセントの発音を覚えさせるようにすることができる。
図4−1において、お手本表示画面410は、手本音声音圧レベルを示す画像411を表示する。手本音声音圧レベルは、単位時間ごとの手本音声音圧レベルが、それぞれ、7つの段階のうちのいずれかの段階かを示す。手本音声音圧レベルを示す画像411は、各単位時間における音声音圧レベルの絶対値の積算値を示す画像411aを、再生時間にしたがって配列することによって構成されている。
図4−2において、ユーザー音声録音画面420は、(1)〜(3)のステップのうち、(2)のステップを示す「いってみよう」マーク401bを強調して表示する。これにより、学習者に、当該学習者自身が発話するステップであることを意識させ、学習者が発話を開始するタイミングを逸してしまうことを抑制することができる。また、ユーザー音声録音画面420は、学習者の発話を録音するステップであることを示すマイクの画像421を表示する。
ユーザー音声録音画面420においては、お手本表示画面410に示した画像411aはグレーアウト表示してもよい。これにより、学習者が、手本音声音圧レベルを示す画像411における画像411aを、自身の発話によるものと誤解することを抑制することができる。
図4−3において、結果表示画面430は、手本音声音圧レベルに対する発話音声音圧レベルの比較結果を示す比較画像431を表示する。比較画像431は、発話音声音圧レベルを示す画像431aを含む。発話音声音圧レベルは、単位時間ごとの発話音声音圧レベルが、それぞれ、7つの段階のうちのいずれかの段階かを示す。
比較画像(発話音声音圧レベルを示す画像)431は、各単位時間における音声音圧レベルの絶対値の積算値を示す画像431aを、再生時間にしたがって配列することによって構成されている。比較画像431において、単位時間ごとの発話音声音圧レベルを示す画像431aは、手本音声音圧レベルを示す画像411(画像411a)に重ね合わされている。
比較画像431において、単位時間ごとの発話音声音圧レベルを示す画像431aを、手本音声音圧レベルを示す画像411(画像411a)に重ね合わせて表示することにより、手本音声のアクセントと、発話音声のアクセントとの一致度合いを、学習者に対して視覚的に明確に案内することができる。
結果表示画面430は、手本音声音圧レベルと手本音声音圧レベルとが一致するか否かを単位時間ごとに判断した判断結果432を含む。判断結果432は、たとえば「VERY GOOD!!」や「すごい」などのように、学習者が分かりやすい内容であることが好ましい。結果表示画面430において、判断結果432を分かりやすく案内することにより、学習にゲーム性を付与し、学習者のやる気を高めることができる。
結果表示画面430は、直前に再生し評価した英単語あるいは英文の発話を再度おこなうことを指示する「さいチャレンジ」ボタン433や、直前に再生し評価した英単語あるいは英文とは異なる、あらたな英単語あるいは英文の発話をおこなうことを指示する「つぎへ」ボタン434を表示する。
図4−4において、結果表示画面440は、結果表示画面430において「さいチャレンジ」ボタン433が選択された場合に、結果表示画面440に切り換えてディスプレイ227に表示される。結果表示画面440は、「TRY IT AGAIN」などのように、「さいチャレンジ」であることが容易に分かるメッセージ441を表示してもよい。また、結果表示画面440は、「まえを つよく はなそう」などのように、発話におけるポイントなどを案内するメッセージ442を表示してもよい。
図4−5において、再生速度選択画面450は、操作端末120において所定の入力操作を受け付けた場合に、ディスプレイ227に表示される。再生速度選択画面450は、学習対象とする英単語や英文の再生速度を「ふつう」あるいは「ゆっくり」のいずれかに設定する操作キー451や、当該操作キー451によって設定した速度での英単語や英文の再生を開始させる「START」ボタン452などを表示する。
図4−6においては、再生速度が「ゆっくり」に設定された場合のお手本表示画面460を示している。手本音声音圧レベルを示す画像411における画像411aは、同じ英単語あるいは英文の手本音声データを再生する場合であっても、再生速度が異なる場合は、そのパターンが異なる。
(音声音圧レベルを示す画像411a、431aの生成手順)
つぎに、手本音声音圧レベルや発話音声音圧レベルなどの、音声音圧レベルを示す画像411(411a)、431(431a)の生成手順について説明する。図5−1、図5−2、図5−3、図5−4および図5−5は、音声音圧レベルを示す画像の生成手順を示す説明図である。
音声音圧レベルを示す画像の生成に際しては、まず、対象とする音声データ(手本音声データ、発話音声データ)の、再生時間ごとの音圧を算出する。再生時間ごとの音圧は、各再生時間における音の強さをあらわし、図5−1に示すように、音圧が高いほど大きな振幅になるような波形であらわされる。
音圧は、大気圧を基準として、そこからの圧力変動を示す。音圧は、音による空気の圧力が大気圧よりも高い部分はプラスの圧力(音圧)として示され、音による空気の圧力が大気圧よりも低い部分はマイナスの圧力(音圧)として示される。図5−1においては、音声による空気の圧力の粗密の繰り返しを示す波形を示している。
つぎに、図5−1に示すようにして算出した音圧の絶対値を算出する。すなわち、大気圧に対して変化した音圧を、すべてプラスの音圧に変換する。これにより、マイナス側にピークを示していた音圧は、プラス側にピークを示すように変換される。そして、この変換により、図5−1に示した波形は、図5−2に示した波形に変換される。
つぎに、音声データの再生時間にしたがって、当該音声データを等間隔(単位時間ごと)に分割し、絶対値化した音圧に基づいて分割された各単位時間における音圧の絶対値を積分する。図5−3においては、各単位時間における音圧の絶対値を積分した結果を、棒グラフ531の形態で示している。単位時間は、たとえば、6分の1秒とすることができる。
単位時間は、6分の1秒に限るものではなく、たとえば、4分の1秒、3分の1秒などのように、任意の長さに設定することができる。また、単位時間は、1種類に限るものではない。単位時間は、たとえば、6分の1秒、4分の1秒および3分の1秒などのように複数設定された単位時間の中から、学習者などが任意に選択した単位時間を設定できるようにしてもよい。
つぎに、各単位時間における音圧の絶対値に基づいて、音声音圧レベルを段階別に分類する。音声音圧レベルの分類は、たとえば、各単位時間における音圧の絶対値を積分することによって音声音圧レベルを算出し、算出した音声音圧レベルがあらかじめ定められた複数の段階のうちのいずれの段階に該当するかを特定することによっておこなう。
あらかじめ定められた複数の段階は、それぞれ、一定の音圧幅をもつ。具体的には、図5−4の例においては、単位時間ごとに積分された音圧の絶対値を、たとえば、1段階から7段階までの7段階に分類している。また、具体的には、図5−4においては、1つの段階の音圧幅が10デシベルに設定されている。
音声音圧レベルの分類に際しては、たとえば、各単位時間における音声音圧レベルが、一定の音圧幅をもつ各段階のいずれの段階に該当するかを特定し、特定した段階を各単位時間における音声音圧レベルとして分類する。具体的には、たとえば、或る単位時間における音声音圧レベルが36デシベルである場合、図5−4においては、当該単位時間の音声音圧レベルは「3」に分類される(図5−4における符号541を参照)。また、具体的には、たとえば、或る単位時間における音声音圧レベルが66デシベルである場合、図5−4においては、当該単位時間の音声音圧レベルは「7」に分類される(図5−4における符号542を参照)。
また、音声音圧レベルの分類に際しては、対象となる音声データ(手本音声データや発話音声データ)におけるアクセント位置を特定する。操作端末120は、対象となる音声データにおける音声音圧レベルに基づいて、1または複数のアクセント位置を特定する。具体的には、音声データにおいて音声音圧レベルがもっとも高い部分を第1アクセント位置として特定し、第1アクセントの音声音圧レベルよりも低いものの前後の音声データの音声音圧レベルから突出して音声音圧レベルが高い部分を第2アクセント位置、第3アクセント位置、・・・として特定する。
アクセント位置は、たとえば、一連の音圧データにおいて、前後の音声データの音声音圧レベルに対して、所定以上の割合で突出する音声音圧レベルを示す部分をアクセント位置として特定する。また、アクセント位置は、たとえば、もっとも音声音圧レベルが高いアクセント位置から、順に、第1アクセント位置、第2アクセント位置、第3アクセント位置、・・・として特定する。
つぎに、段階別に分類した音声音圧レベルに基づいて、音声音圧レベルを示す画像を生成する。音声音圧レベルを示す画像は、図5−5に示すように、縦軸によって音圧値の高低を示し、横軸によって時間の経過を示すグラフにおいて、段階別に分類した音声音圧レベルと、当該音声音圧レベルより1段階高い音声音圧レベルと、当該音声音圧レベルより1段階低い音声音圧レベルと、によって形成される音声音圧レベルバー551を、単位時間ごとに描画することによって生成される。
たとえば、上記の図5−4の例において、音声音圧レベルが「3」に分類された単位時間に関しては、音声音圧レベル「2」、「3」および「4」にかかる音声音圧レベルバーが描画される。また、たとえば、上記の図5−4の例において、音声音圧レベルが「7」に分類された単位時間に関しては、音声音圧レベル「6」、「7」および「8」にかかる音声音圧レベルバーが描画される。上記のお手本表示画面410などにおいては、このようにして生成した音声音圧レベルを示す画像を表示する。
なお、発話音声データにかかる音声音圧レベルを示す画像は、分類された段階のみを示すものであってもよい。すなわち、発話音声データにかかる音声音圧レベルは、手本音声音圧レベルのように、段階別に分類した音声音圧レベルおよびその上下の音声音圧レベルを含む3段階分の音声音圧レベルバー551ではなく、段階別に分類した音声音圧レベルのみを示す画像によって実現してもよい。
このように、手本音声データにかかる音声音圧レベルを示す画像に対して、発話音声データにかかる音声音圧レベルを示す画像の大きさを小さくすることにより、これらに基づく画像411a、431aを結果表示画面430において重ね合わせた場合に、発話音声の音圧が手本音声の音圧に対してどの程度ずれているのかを視覚的に明確に案内することができる。
通常速度の手本音声データと通常の速度よりも遅い手本音声データとは、単位時間の長さ(分解能)が異なる。通常の速度よりも遅い手本音声データの単位時間は、通常速度の手本音声データの単位時間よりも長く設定されている。具体的には、通常速度の手本音声データの単位時間を6分の1秒とする場合、通常の速度よりも遅い手本音声データの単位時間を4分の1秒とする。
通常の速度よりも遅い手本音声データの単位時間を、通常速度の手本音声データの単位時間よりも長くすることにより、通常の速度よりも遅い手本音声データを再生する場合にも、表示画面において表示される音声音圧レベルバーの数を、通常速度の手本音声データを再生する場合と同様にすることができる。すなわち、通常速度の手本音声データを再生する場合であっても、通常の速度よりも遅い手本音声データを再生する場合であっても、表示画面上の見た目を揃えることができる。
これに対し、通常の速度よりも遅い手本音声データの単位時間を、通常速度の手本音声データの単位時間と同じくした場合、通常の速度よりも遅い手本音声データを再生する場合に表示画面において表示される音声音圧レベルバーの数が、通常速度の手本音声データを再生する場合の音声音圧レベルバーの数よりも増えてしまう。本来、学習の難易度を下げ、簡単に発音できるようにするために通常の速度よりも遅い速度で再生するにもかかわらず、表示画面において表示される音声音圧レベルバーの数が増えると、一致度合いの比較数が多くなり、合格点をもらう敷居が高くなってしまう。
この実施の形態にかかる操作端末120によれば、通常の速度よりも遅い手本音声データの単位時間を、通常速度の手本音声データの単位時間よりも長くすることにより、音声データの再生および評価にかかる処理を複雑化することなく、評価が厳しくなることを回避することができる。
(タイムシフトの概要)
つぎに、タイムシフトの概要について説明する。操作端末120は、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとが一致するか否かの判断、すなわち評価の決定に際して、手本音声データの再生開始位置に対する発話音声データの再生開始位置を単位時間ごとにずらす、いわゆる「タイムシフト」をおこなう。タイムシフトは、手本音声データの再生開始位置に対して、発話音声データの再生開始位置を、単位時間ずつずらしておこなう。
操作端末120は、タイムシフトをおこない、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとの一致度合いがもっとも高くなる位置において発話音声データの評価を決定する。これにより、学習者が発話を開始するタイミングを逸してしまい、本来の発話開始位置よりも遅れて発話した場合や、本来の発話開始位置よりも先んじて発話を開始した場合であっても、発話自体を正確におこなっている場合は高い評価に決定することができ、学習者にやる気を持たせることができる。
このような、操作端末120がおこなう各種の処理は、上記のCPUが、RAMをワークエリアとして利用しながら、ROMに格納された制御プログラムを実行することによって実現される。この制御プログラムは、あらかじめ操作端末120にインストールされている。あるいは、この制御プログラムは、操作端末120に着脱可能な記録媒体に記録され、適宜操作端末120のCPUが当該記録媒体から読み出すことによって実行されるものであってもよい。また、この制御プログラムは、インターネットなどのネットワーク140を介して配布することが可能な伝送媒体であってもよい。
(操作端末120の機能的構成)
つぎに、この発明にかかる実施の形態の操作端末120の機能的構成について説明する。図6は、この発明にかかる実施の形態の操作端末120の機能的構成を示すブロック図である。図6において、この発明にかかる実施の形態の操作端末120の各機能は、記憶部601、入力操作受付部602、音声データ取得部603、音声入力受付部604、音声音圧レベル算出部605、分類部606、評価判定部607、画像生成部608、出力部609によって実現することができる。
操作端末120の各機能を実現する記憶部601、入力操作受付部602、音声データ取得部603、音声入力受付部604、音声音圧レベル算出部605、分類部606、評価判定部607、画像生成部608、出力部609は、操作端末120のハードウエアを構成する各部によって実現することができる。
記憶部601は、手本となる音声データ(以下「手本音声データ」という)を記憶する。また、記憶部601は、学習の評価の基準となるデータを記憶する。具体的に、記憶部601は、上記の手本音声データベース310や評価基準データベース320と同様の情報を格納している。記憶部601は、操作端末120からサーバ110に対してコンテンツ送信要求を送信した結果、当該サーバ110から送信された情報(学習コンテンツ)を記憶する。
入力操作受付部602は、手本音声データの再生指示を受け付ける。音声データ取得部603は、入力操作受付部602が手本音声データの再生指示を受け付けた場合に、記憶部601を参照して、指定された手本音声データを取得する。音声データ取得部603は、上記のように、手本音声データベース310が記憶する複数の手本音声データの中から、直前に再生した手本音声データとは異なる手本音声データを取得する。
また、上記の音声データ取得部603は、手本音声データを再生した後に、音声入力受付部604を介して、学習者の発話にかかる音声データ(発話音声データ)を取得する。このように、音声データ取得部603は、操作端末120においておこなう上記のステップに応じて、音声の取得元を切り換える。
音声音圧レベル算出部605は、音声データ取得部603が取得した手本音声データや発話音声データなどの音声データの、再生時間ごとの音圧を算出する。また、音声音圧レベル算出部605は、算出した音圧の絶対値を算出する。さらに、音声音圧レベル算出部605は、各音声データの再生時間にしたがって、当該音声データを等間隔(単位時間ごと)に分割し、絶対値化した音圧に基づいて分割された各単位時間における音圧の絶対値を積分することによって音声音圧レベルを算出する。
単位時間は、上記のように、6分の1秒、4分の1秒などのように、学習者が任意に指定した再生速度に応じて可変することができる。このように、学習者に指定された再生速度に応じて単位時間を可変することにより、学習者の意図に応じた評価決定をおこなうことができる。
分類部606は、音声音圧レベル算出部605が算出した音声音圧レベルを、あらかじめ定められた複数の段階のうちのいずれかの段階に分類する。この実施の形態において、分類部606は、音声音圧レベル算出部605が算出した手本音声音圧レベルを、1つ目段階から7つ目段階の7つの段階におけるいずれかの段階に分類する。
評価判定部607は、分類部606が分類した手本音声データや発話音声データにかかる音声音圧レベルに基づいて、単位時間ごとに、手本音声音圧レベルと手本音声音圧レベルとが一致するか否かを判断する。そして、評価判定部607は、一致判定の結果、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとの一致度合いに基づいて、発話音声データの評価を決定する。発話音声データの評価は、記憶部601に格納された評価基準データベース320を参照し、発話音声データにおけるアクセント位置と手本音声データにおけるアクセント位置とが一致する数に基づいて決定する。
評価判定部607は、評価の決定に際し、上記のタイムシフトをおこなう。すなわち、評価判定部607は、評価の決定に際し、手本音声データの再生開始位置に対する発話音声データの再生開始位置を単位時間ごとにずらし、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとの一致度合いがもっとも高くなる位置において評価を決定する。
これにより、手本音声データを基準として発話の開始タイミングがずれた場合にも、発話自体を正確におこなっている場合は、評価が高くなる。そして、これにより、もっとも成績が高くなるように評価を決定することができ、学習者にやる気を持たせることができる。
画像生成部608は、分類部606が分類した、単位時間ごとの手本音声音圧レベルを、再生時間にしたがって配列した手本音声音圧レベルを示す画像を生成する。画像生成部608は、上記のように、縦軸によって音圧値の高低を示し横軸によって時間の経過を示すグラフにおいて、単位時間ごとに、段階別に分類した音声音圧レベルと、当該音声音圧レベルより1段階高い音声音圧レベルと、当該音声音圧レベルより1段階低い音声音圧レベルと、によって形成される音声音圧レベルバーを描画する画像を生成する。
また、画像生成部608は、評価判定部607が決定した評価結果を示す画像を生成する。具体的には、画像生成部608は、「VERY GOOD!!」や「すごい」などのように、評価判定部607が決定した評価結果を、小学生などの学習者に分かりやすく案内する画像を生成する。
出力部609は、音声データ取得部603が取得した手本音声データを再生し、操作端末120の外部に手本音声を、スピーカー230を介して出力する。また、出力部609は、画像生成部608が生成した手本音声音圧レベルを示す画像をディスプレイ227に出力する。
上記の出力部609は、評価判定部607が決定した評価結果を出力する。出力部609は、たとえば、「PERFECT」、「VERY GOOD」、「GOOD」、「TRY IT AGAIN」などのように評価判定部607が決定した評価結果を示すメッセージを、ディスプレイ227に表示することによって評価判定部607が決定した評価結果を出力する。
(操作端末120の処理手順)
つぎに、操作端末120の処理手順について説明する。図7は、この発明にかかる実施の形態の操作端末120の処理手順を示すフローチャートである。操作端末120は、発話学習アプリを起動した状態において、図7においてフローチャートで示した処理をおこなう。
図7に示したフローチャートにおいて、まず、学習者による手本音声データの再生指示を受け付けるまで待機する(ステップS701:No)。ステップS701において、学習者による手本音声データの再生指示を受け付けた場合(ステップS701:Yes)、該当する手本音声データを取得する(ステップS702)。ステップS702においては、手本音声データベース310が記憶する複数の手本音声データの中から、直前に再生した手本音声データとは異なる手本音声データを取得する。
つぎに、ステップS702において取得した手本音声データの音声音圧レベルを算出し(ステップS703)、ステップS703において算出した音声音圧レベルを7つの段階に分類する(ステップS704)。そして、ステップS702において取得した手本音声データを再生する(ステップS705)とともに、当該再生と同時に、ディスプレイ227に手本音声音圧レベルを示す画像411を表示する(ステップS706)。
そして、ステップS705において開始した手本音声データの再生が終了するまで待機する(ステップS707:No)。ステップS707において、ステップS705において開始した手本音声データの再生が終了した場合(ステップS707:Yes)、発話音声データを取得する(ステップS708)。ステップS708においては、ディスプレイにユーザー音声録音画面420を表示し、当該ユーザー音声録音画面420の表示中にマイク229を介して入力された音声データを発話音声データとして取得する。
つぎに、ステップS708において取得した発話音声データの音声音圧レベルを算出し(ステップS709)、ステップS709において算出した音声音圧レベルを7つの段階に分類する(ステップS710)。そして、ステップS704において分類した手本音声データの音声音圧レベルとステップS709において分類した発話音声データの音声音圧レベルとを比較し、一致度合いの評価を決定する(ステップS711)。ステップS711においては、手本音声データにおけるアクセント位置に、発話音声データにおけるアクセント位置が一致するか否かを判断する。また、ステップS711においては、上記のタイムシフトをおこない、発話音声データにおけるアクセント位置が、手本音声データにおけるアクセント位置にもっとも多く一致する位置において評価の決定をおこなう。
つぎに、ステップS711において決定された評価に基づいて、比較画像431を生成し(ステップS712)、ステップS711において決定された評価結果とステップS712において生成した比較画像431とを出力する(ステップS713)。ステップS713においては、ステップS711において決定された評価結果とステップS712において生成した比較画像431とを、ディスプレイ227に表示することによって、当該評価結果および比較画像431を出力する。
その後、「さいチャレンジ」ボタン433が操作されたか否かを判断し(ステップS714)、「さいチャレンジ」ボタン433が操作された場合(ステップS714:Yes)、ステップS703へ移行する。これにより、操作端末120は、以降、直前に取得した手本音声データの再生、当該手本音声データの復唱による発話音声データの取得、および取得した発話音声データの評価をおこなう。
一方、ステップS714において、「さいチャレンジ」ボタン433が操作されていない場合(ステップS714:No)、「つぎへ」ボタン434が操作されたか否かを判断する(ステップS715)。ステップS715において、「つぎへ」ボタン434が操作されていない場合(ステップS715:No)、ステップS714へ移行して、「さいチャレンジ」ボタン433が操作されたか否かを判断する。
また、ステップS715において、「つぎへ」ボタン434が操作された場合(ステップS715:Yes)、ステップS702へ移行する。これにより、操作端末120は、以降、直前に再生した手本音声データとは異なる手本音声データの再生、当該手本音声データの復唱による発話音声データの取得、および取得した発話音声データの評価をおこなう。
以上説明したように、この実施の形態の学習支援装置である操作端末120は、学習者に指定された手本音声データを取得し、取得した手本音声データの音声音圧レベル(手本音声音圧レベル)を該当する段階に分類し、分類した手本音声音圧レベルを示す画像を表示装置に出力するとともに、手本音声データを音声出力装置に出力する。そして、手本音声音圧レベルを示す画像および手本音声データを出力した後に入力を受け付けた発話音声データの音声音圧レベル(発話音声音圧レベル)を該当する段階に分類し、分類した発話音声音圧レベルを示す画像を手本音声音圧レベルを示す画像に重ね合わせた比較画像を表示装置に出力するようにしたことを特徴としている。
この実施の形態の操作端末120によれば、手本音声データの再生に続けて、該当する英単語や英文を学習者に発話させることによって、学習者に、発音に注意しながら、発話練習をおこなわせることができるという従来の復唱学習の効果に加えて、手本音声音圧レベルを示す画像411をディスプレイ227に表示することにより、手本音声データにおける音圧の強さを視覚化し、手本音声データにおける音圧の強さを目視によって確認させながら復唱させることができる。このように、アクセントの位置を視覚化することにより、学習者に対して、手本音声データに似せた復唱をしやすくさせることができ、これによって早期の上達(学習の習熟度の向上)を期待することができる。
また、この実施の形態の操作端末120によれば、手本音声データや発話音声データにおける音声音圧レベルを単位時間ごとに区分して、単位時間ごとに音声音圧レベルを強調した画像をディスプレイ227に表示することにより、音声データを忠実に波形化した一般的な波形表示と比較して、強弱感やアクセント位置がより分かりやすくして、手本音声データに似せた復唱をしやすくさせることができる。これによって早期の上達(学習の習熟度の向上)を期待することができる。
また、この実施の形態の操作端末120によれば、手本音声データや発話音声データにおける音声音圧レベルをディスプレイ227に表示することにより、たとえばカラオケなどのように、表示画面の画像411にあわせて「強いところは強く」、「弱いところは弱く」復唱させることができる。これによって早期の上達(学習の習熟度の向上)を期待することができる。
また、この実施の形態の操作端末120によれば、学習者自身の発話による音声音圧レベルと手本音声データにかかる音声音圧レベルとを重ねた比較画像431を表示することにより、発話内容と手本音声との違い(差)を視覚化し、発話内容と手本音声との違い(差)を学習者に分かりやすく伝えることができる。このように、学習者に対して、評価の根拠や改善点を分かりやすく案内することにより、早期の上達(学習の習熟度の向上)を期待することができる。
さらに、この実施の形態の操作端末120によれば、発話するごとに、学習者の発話内容についての評価をディスプレイ227に表示することにより、学習者に対して、英単語の復唱をゲーム感覚で楽しみながらおこなわせることができる。そして、正しく発話した場合は直ちに高い評価が示されるため、学習者のやる気を持続させやすい。また、この実施の形態の操作端末120によれば、「高い評価が出るまで頑張ろう」などのように、学習に容易に熱中させることができる。
このように、この実施の形態の操作端末120によれば、学習者に苦痛を感じさせることなく学習に注力させることができるので、早期の上達(学習の習熟度の向上)を期待することができる。
また、この実施の形態の操作端末120によれば、発話音声データにおける音圧と手本音声データにおける音圧とを比較する比較画像431を学習者に対して出力することにより、英語などの外国語を話す上で重要となるアクセント位置が正しいか否かの評価結果を学習者に案内することができる。
さらに、この実施の形態の操作端末120によれば、発話音声音圧レベルを示す画像を手本音声音圧レベルを示す画像に重ね合わせた比較画像431をディスプレイ227に表示することにより、手本音声に対して発話内容がどの程度一致しているのかあるいは異なっているのかを、視覚的に明確に案内することができる。
このように、この実施の形態の操作端末120によれば、学習者に対して、教師や講師などに直接指導を受けることのない通信教育において、正しい発音を確実に身につけさせることができる。
また、この実施の形態の操作端末120は、単位時間ごとに手本音声音圧レベルと発話音声音圧レベルとが一致するか否かを判断し、単位時間ごとの手本音声音圧レベルと発話音声音圧レベルとの一致度合いに基づいて、発話音声データの評価を決定し、決定した評価結果を出力するようにしたことを特徴としている。
この実施の形態の操作端末120によれば、発話音声データにおける音圧と手本音声データにおける音圧とを比較した評価結果を学習者に対して出力することにより、英語などの外国語を話す上で重要となるアクセント位置が正しいか否かの評価結果を学習者に案内することができる。
また、この実施の形態の操作端末120は、手本音声データの再生開始位置に対する発話音声データの再生開始位置を前記単位時間ごとにずらし、一致度合いがもっとも高くなる位置で評価を決定するようにしたことを特徴としている。
この実施の形態の操作端末120によれば、学習者が発話を開始するタイミングを逸してしまい、本来の発話開始位置よりも遅れて発話した場合や、本来の発話開始位置よりも先んじて発話を開始した場合であっても、発話自体を正確におこなっている場合は高い評価に決定することができ、学習者にやる気を持たせることができる。これにより、教師や講師などに直接指導を受けることのない通信教育において、学習者のやる気を継続させ、学習を反復しておこなわせ、正しい発音を確実に身につけさせることができる。
また、この実施の形態の操作端末120は、手本音声音圧レベルおよび発話音声音圧レベルを、あらかじめ定められた複数の長さの単位時間のうち、指定された長さの単位時間ごとに特定するようにしたことを特徴としている。
この実施の形態の操作端末120によれば、手本音声データの再生速度を通常の速度よりも遅くした場合は、手本音声データや発話音声データなどの音声データの単位時間を、通常速度の音声データの単位時間よりも長くすることにより、音声データの再生速度を通常の速度よりも遅くすることによって当該手本音声データの分割数が増えてしまうことを抑制することができる。これにより、手本音声データの再生速度を通常の速度よりも遅くしたことによって評価が厳しくなることを抑制し、再生速度にあった評価を決定することができる。