JP6155102B2

JP6155102B2 - 学習支援装置

Info

Publication number: JP6155102B2
Application number: JP2013123238A
Authority: JP
Inventors: トオル栄; 圭有村; 洋佑原田; 功滝澤
Original assignee: 株式会社ジャストシステム
Priority date: 2013-06-11
Filing date: 2013-06-11
Publication date: 2017-06-28
Anticipated expiration: 2033-06-11
Also published as: JP2014240902A

Description

この発明は、言語、特に英語などの外国語の学習を支援する学習支援装置に関する。

通信教育においては、教師や講師などに直接指導を受けるのではなく、郵便や通信などを利用して間接的に教育を受けることができる。通信教育は、当該通信教育を利用して学習をおこなう学習者が、自身の都合にあわせた最適な時間帯に学習をおこなうことができるというメリットがある。

このような通信教育を利用して英語などの外国語の学習をおこなう方法として、従来、たとえば、学習者の端末装置において、ネイティブスピーカーの発話を録音した音声データを再生し、再生された音声を学習者に復唱させる方法があった。また、従来、たとえば、復唱などによる発話音声の波形と手本となる音声の波形とを比較し、一致しているか否かの判断結果を出力するようにした技術があった。

関連する技術として、具体的には、従来、原音声を所定の区切り条件で以て分割して音声単位を取得し、この音声単位のうち、人間の短期記憶の限度以上の長さを有する音声単位に関し、その再生時間が所定時間内に収まるように再生速度を上げて再生し、学習者に対して、各音声単位が出力された後に同じ音声を繰り返して発声させるとともに音声単位の再生と同時に、その意味に対応した画像を表示部上に表示させるようにした技術があった（たとえば、下記特許文献１を参照。）。

特開２０１０−１９１２３５号公報

しかしながら、再生された音声を復唱する従来の学習方法は、学習者が、自身の発話内容が正しいか否かの評価を受けることができない。このため、学習者の発話内容の正誤を確認できないまま、誤った発音のまま学習してしまう懸念がある。このように、再生された音声を復唱する従来の学習方法は、正しい発音を確実に身につけることが難しいという問題があった。

また、上述したように発話音声の波形と手本となる音声の波形とを比較する従来の技術は、学習者に対して発話内容の正誤を示すことができるが、波形の比較によって評価しているため、アクセントを含めた正しい発音を身につけることが難しいという問題があった。このため、英語などの外国語を話す上では、発音に際してのアクセントが重要であるにもかかわらず、正しい発音を確実に身につけることが難しいという問題があった。

また、この対策として、テキストにアクセント位置を示す記号や発音記号を併記した場合も、小学生などの年少者はこれらの記号を読めない（理解できない）ことが多く、効果的な学習が難しい。テキストにアクセント位置を示す記号や発音記号を併記する方法は、発話に先立って発音記号を覚えなくてはならないため、暗記教科としての傾向が強くなり、すべての学習者に対して、楽しんで学習させることが難しくなる。そして、これにより、正しい発音を確実に身につけることが難しくなりかねないという問題があった。特に、小学生などの年少者が英語の学習に苦手意識をもってしまった場合、以降の英語の学習においても悪影響を与えかねない。

この発明は、上述した従来技術による問題点を解消するため、正しい発音を確実に身につけることができる学習支援装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、この発明にかかる学習支援装置は、手本となる音声データ（以下「手本音声データ」という）を記憶する記憶部を参照して、指定された前記手本音声データを取得し、取得した前記手本音声データを当該手本音声データの再生時間にしたがって等間隔に区切った各単位時間における当該手本音声データの音声音圧レベル（以下「手本音声音圧レベル」という）を、あらかじめ定められた複数の段階のうちのいずれかの段階に分類し、分類した前記手本音声音圧レベルを前記再生時間にしたがって配列した手本音声音圧レベルを示す画像を表示装置に出力するとともに、前記手本音声データを音声出力装置に出力し、前記手本音声音圧レベルを示す画像および前記手本音声データを出力した後に、発話による音声データ（以下「発話音声データ」という）の入力を受け付け、入力を受け付けた発話音声データを当該発話音声データの再生時間にしたがって等間隔に区切った各単位時間における当該発話音声データの音声音圧レベル（以下「発話音声音圧レベル」という）を、あらかじめ定められた複数の段階のうちのいずれかの段階に分類し、分類した前記発話音声音圧レベルを前記再生時間にしたがって配列した発話音声音圧レベルを示す画像を前記手本音声音圧レベルを示す画像に重ね合わせた比較画像を前記表示装置に出力する、ことを特徴とする。

また、この発明にかかる学習支援装置は、上記の発明において、前記単位時間ごとに前記手本音声音圧レベルと前記発話音声音圧レベルとが一致するか否かを判断し、前記単位時間ごとの前記手本音声音圧レベルと前記発話音声音圧レベルとの一致度合いに基づいて、前記発話音声データの評価を決定し、決定した評価結果を出力する、ことを特徴とする。

また、この発明にかかる学習支援装置は、上記の発明において、前記評価が、前記手本音声データの再生開始位置に対する前記発話音声データの再生開始位置を前記単位時間ごとにずらし、前記一致度合いがもっとも高くなる位置で決定する、ことを特徴とする。

また、この発明にかかる学習支援装置は、上記の発明において、前記手本音声音圧レベルおよび前記発話音声音圧レベルは、あらかじめ定められた複数の長さの単位時間のうち、指定された長さの単位時間ごとに特定する、ことを特徴とする。

この発明にかかる学習支援装置によれば、正しい発音を確実に身につけることができるという効果を奏する。

この発明にかかる実施の形態の通信教育システムのシステム構成を示す説明図である。サーバを実現するコンピュータ装置のハードウエア構成の一例を示す説明図である。操作端末を実現するコンピュータ装置のハードウエア構成の一例を示す説明図である。手本音声データベースの一例を示す説明図である。評価基準データベースの一例を示す説明図である。操作端末が表示する表示画面例を示す説明図（その１）である。操作端末が表示する表示画面例を示す説明図（その２）である。操作端末が表示する表示画面例を示す説明図（その３）である。操作端末が表示する表示画面例を示す説明図（その４）である。操作端末が表示する表示画面例を示す説明図（その５）である。操作端末が表示する表示画面例を示す説明図（その６）である。音声音圧レベルを示す画像の生成手順を示す説明図（その１）である。音声音圧レベルを示す画像の生成手順を示す説明図（その２）である。音声音圧レベルを示す画像の生成手順を示す説明図（その３）である。音声音圧レベルを示す画像の生成手順を示す説明図（その４）である。音声音圧レベルを示す画像の生成手順を示す説明図（その５）である。この発明にかかる実施の形態の操作端末の機能的構成を示すブロック図である。この発明にかかる実施の形態の操作端末の処理手順を示すフローチャートである。

以下に添付図面を参照して、この発明にかかる学習支援装置の好適な実施の形態を詳細に説明する。この実施の形態においては、この発明にかかる学習支援装置を、通信教育システムを構成する操作端末に適用した例を示す。

（通信教育システムのシステム構成）
まず、この発明にかかる実施の形態の通信教育システムのシステム構成について説明する。図１は、この発明にかかる実施の形態の通信教育システムのシステム構成を示す説明図である。

図１において、この発明にかかる実施の形態の通信教育システム１００は、サーバ１１０と、複数の操作端末（学習支援装置）１２０と、親の端末装置１３０と、によって構成される。サーバ１１０と各操作端末１２０、および、サーバ１１０と親の端末装置１３０とは、インターネットなどのネットワーク１４０を介して、相互に通信可能に接続されている。サーバ１１０と各操作端末１２０とは、たとえば、Ｗｉ−Ｆｉなどによって相互接続性が保証されている。

サーバ１１０は、この発明にかかる実施の形態の通信教育システム１００の運用者（管理者）などによって管理される。サーバ１１０は、たとえば、パーソナルコンピュータなどの汎用的なコンピュータ装置によって実現することができる（図２−１を参照）。操作端末１２０は、たとえば、タブレットコンピュータやタブレット端末などと称される、ディスプレイとタッチパネルとを備えた可搬性のコンピュータ装置（携帯端末装置）によって実現することができる（図２−２を参照）。操作端末１２０は、通信教育システム１００の運用に際し、当該通信教育システム１００の加入者であって学習対象者である子供（児童）などに対して、あらかじめ配布しておく。

親の端末装置１３０は、たとえば、親などの保護者が個人で所有し、インターネットに接続されたパーソナルコンピュータなどのコンピュータ装置によって実現することができる。親の端末装置１３０は、たとえば、親などの保護者が個人で所有し、スマートフォン、携帯型電話機、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍ）などの良好な携帯性を備えた携帯型通信機器によって実現することができる。親の端末装置１３０を実現する携帯型通信機器、および、親の端末装置１３０を実現するパーソナルコンピュータなどのコンピュータ装置については、公知の技術であるため説明を省略する。

（サーバ１１０のハードウエア構成）
図２−１は、サーバ１１０を実現するコンピュータ装置のハードウエア構成の一例を示す説明図である。図２−１において、サーバ１１０を実現するコンピュータ装置は、ＣＰＵ２１１と、ＲＯＭ２１２と、ＲＡＭ２１３と、ＨＤＤ２１４と、ＨＤ２１５と、ネットワークインターフェース（Ｉ／Ｆ）２１６と、を備えている。また、この発明にかかる実施の形態の通信教育システム１００においてサーバ１１０を実現するコンピュータ装置が備える各部２１１〜２１６は、バス２１０によってそれぞれ接続されている。

ＣＰＵ２１１は、サーバ１１０を実現するコンピュータ装置全体の制御をつかさどる。ＲＯＭ２１２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ２１３は、ＣＰＵ２１１のワークエリアとして使用される。ＨＤＤ２１４は、ＣＰＵ２１１の制御にしたがってＨＤ２１５に対するデータのリード／ライトを制御する。ＨＤ２１５は、ＨＤＤ２１４の制御で書き込まれたデータを記憶する。ＨＤ２１５は、たとえば、教材データベースや加入者データベースなどの各種データベースを記憶する。

ネットワークＩ／Ｆ２１６は、インターネットなどのネットワーク１４０に接続され、当該ネットワーク１４０を介して、操作端末１２０などの外部装置に接続される。そして、ネットワークＩ／Ｆ２１６は、ネットワーク１４０とサーバ１１０を実現するコンピュータ装置の内部とのインターフェースをつかさどり、サーバ１１０を実現するコンピュータ装置と外部装置との間におけるデータの入出力を制御する。

（操作端末１２０のハードウエア構成）
図２−２は、操作端末１２０を実現するコンピュータ装置のハードウエア構成の一例を示す説明図である。図２−２において、操作端末１２０を実現するコンピュータ装置は、ＣＰＵ２２１と、ＲＯＭ２２２と、ＲＡＭ２２３と、メモリ２２４と、ネットワークＩ／Ｆ２２５と、タイマ２２６と、ディスプレイ２２７と、タッチパネル２２８と、マイク２２９と、スピーカー２３０と、カメラ２３１と、電源スイッチ２３２と、を備えている。また、この発明にかかる実施の形態の通信教育システム１００において操作端末１２０を実現するコンピュータ装置が備える各部２２１〜２３２は、バス２２０によってそれぞれ接続されている。

ＣＰＵ２２１は、操作端末１２０全体の制御をつかさどる。ＲＯＭ２２２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ２２３は、ＣＰＵ２２１のワークエリアとして使用される。ＲＯＭ２２２およびＲＡＭ２２３の少なくとも一方には、サーバ１１０から送信された、操作端末１２０を用いておこなう学習に用いる情報（学習コンテンツ）を記憶する領域が確保されている。ネットワークＩ／Ｆ２２５は、インターネットなどのネットワーク１４０を介して、当該ネットワーク１４０に接続されたサーバ１１０などの外部装置との間におけるデータの入出力を制御する。

ディスプレイ２２７は、たとえば、操作端末１２０が実行可能なメニューを示すアイコンなどを表示する。ディスプレイ２２７は、たとえば、主に液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどによって実現することができる。

タッチパネル２２８は、ディスプレイ２２７に積層され、操作位置に応じた信号をＣＰＵ２２１に対して出力する。タッチパネル２２８は、たとえば抵抗膜方式や静電容量方式、音響パルス認識方式、超音波表面弾性波方式、赤外遮光方式、画像認識方式など公知の各種の方式のものを用いることができる。

マイク２２９は、アナログデータとして入力された話者の声をアナログ／デジタル変換し、デジタル形式の音声データを生成する。スピーカー２３０は、たとえば、音読メニューの実行時に、デジタル形式の音声データをデジタル／アナログ変換し、アナログ形式の音声データに基づいてスピーカーコーンにおけるコイルに通電するなどして音声を出力する。

カメラ２３１は、タッチパネル２２８の操作によって撮像対象を撮像し、画像データを生成する。生成された画像データは、ＲＡＭ２２３などに記憶される。ネットワークＩ／Ｆ２２５は、インターネットなどのネットワーク１４０に接続され、当該ネットワーク１４０と利用者の端末装置１２０を実現するスマートフォンの内部とのインターフェースをつかさどる。

電源スイッチ２３２は、図示を省略する電源から操作端末１２０の各部までの電力供給にかかるＯＮ／ＯＦＦの切り換えをおこなう。電源スイッチ２３２は、図示を省略する電源から操作端末１２０の各部に至る電力路における、もっとも電源側（最上流側）において、電力供給にかかるＯＮ／ＯＦＦの切り換えをおこなう。電源スイッチ２３２は、受け付けた操作に応じて、ＣＰＵ２２１に対してＯＮ／ＯＦＦ信号を出力する。電源スイッチ２３２は、電源路の最上流側において、電源による電力の供給を停止したり解除したりすることによって電力供給にかかるＯＮ／ＯＦＦの切り換えをおこなうものであってもよい。

（手本音声データベース）
図３−１は、手本音声データベースの一例を示す説明図である。図３−１において、手本音声データベース３１０は、たとえば、サーバ１１０を実現するコンピュータ装置が備えるＨＤ２１５に設けることができる。手本音声データベース３１０は、複数の手本音声データを記憶する。

手本音声データは、それぞれ、英単語の発話の手本となる音声のデータであって、たとえば、英語のネイティブスピーカーが発話した英単語を録音した音声データによって実現することができる。また、手本音声データは、英単語に加えて、英文の発話の手本となる音声のデータであってもよい。この場合も、手本音声データは、英語のネイティブスピーカーが発話した英文を録音した音声データによって実現することができる。

手本音声データは、１つの英単語や英文ごとに、複数記憶されていてもよい。具体的には、手本音声データベース３１０は、たとえば、英単語や英文ごとに、通常の速度で発話した英単語や英文の手本音声データと、通常の速度よりも遅い（ゆっくり発話した）英単語や英文の手本音声データと、を記憶する。

また、手本音声データベース３１０は、手本音声データごとに、当該手本音声データが示す英単語や英文のスペルに関するデータを記憶する。英単語や英文のスペルに関するデータは、たとえば、該当する英単語や英文のスペルを示すテキストデータによって実現することができる。あるいは、英単語や英文のスペルに関するデータは、たとえば、該当する英単語や英文のスペルを示す画像データによって実現してもよい。

（評価基準データベース）
図３−２は、評価基準データベースの一例を示す説明図である。図３−２において、評価基準データベース３２０は、たとえば、サーバ１１０を実現するコンピュータ装置が備えるＨＤ２１５に設けることができる。評価基準データベース３２０は、評価基準に関する情報を記憶する。

評価基準に関する情報は、評価レベルと各評価レベルの該当基準とを含む。図３−２においては、「ＰＥＲＦＥＣＴ」、「ＶＥＲＹＧＯＯＤ」、「ＧＯＯＤ」、「ＴＲＹＩＴＡＧＡＩＮ」の４段階の評価レベルを例示している。該当基準は、手本音声データと発話音声データとをフレームごとに比較した場合の、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数を示している。

具体的には、図３−２の例においては、たとえば、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数が０（ゼロ）の場合、すなわち、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置にすべて該当する場合に、評価レベルは「ＰＥＲＦＥＣＴ」となる。また、具体的には、図３−２の例においては、たとえば、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数が１つである場合、評価レベルは「ＶＥＲＹＧＯＯＤ」となる。

該当基準は、発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数に代えて、手本音声データのフレーム数に対する、各フレームにおける発話音声データにおけるアクセント位置が手本音声データにおけるアクセント位置に該当しない数の割合によって定められていてもよい。

具体的には、たとえば、１５個のフレームによって構成される英単語（あるいは英文）の手本音声データのアクセント位置と発話音声データのアクセント位置とをフレームごとに比較した結果、該当しない数が１つであれば、該当しない数の割合は（１／１５）×１００％となる。該当しない数の割合が１０％以下であるものを「ＶＥＲＹＧＯＯＤ」に該当すると判定する条件を設定した場合、（１／１５）×１００％はすなわち１０％以下となるため、「ＶＥＲＹＧＯＯＤ」と判定される。

サーバ１１０は、手本音声データベース３１０や評価基準データベース３２０が記憶する各種の情報（学習コンテンツ）を、所定のタイミングで操作端末１２０に送信する。サーバ１１０は、たとえば、操作端末１２０から送信されたコンテンツ送信要求を受信した場合に、当該コンテンツ送信要求の送信元となる操作端末１２０に対して、手本音声データベース３１０や評価基準データベース３２０が記憶する各種の情報（学習コンテンツ）を送信する。

コンテンツ送信要求に応じてサーバ１１０が送信する情報（学習コンテンツ）は、手本音声データベース３１０や評価基準データベース３２０が記憶する各種の情報（学習コンテンツ）のうちの一部の情報（学習コンテンツ）であってもよい。具体的には、サーバ１１０は、たとえば、手本音声データベース３１０や評価基準データベース３２０が記憶する各種の情報（学習コンテンツ）のうち、コンテンツ送信要求を受信した受信日が属する１ヶ月分など、所定期間における学習に要する情報（学習コンテンツ）を送信する。また、具体的には、サーバ１１０は、たとえば、手本音声データベース３１０や評価基準データベース３２０が記憶する各種の情報（学習コンテンツ）のうち、上記受信日において、コンテンツ送信要求の送信元となる操作端末１２０にダウンロードされていない情報（学習コンテンツ）を送信してもよい。

（学習の方法）
つぎに、操作端末１２０を用いておこなう学習の方法について説明する。操作端末１２０を用いておこなう学習は、発話の学習をおこなう学習アプリケーション（以下「発話学習アプリ」という）を起動した状態でおこなう。

発話学習アプリは、たとえば、毎月などの所定期間ごとに、サーバ１１０から各操作端末１２０に配信することができる。この場合、発話学習アプリは、たとえば、上記のコンテンツ送信要求を受信した場合に、当該コンテンツ送信要求に応じて操作端末１２０に送信する情報（学習コンテンツ）をリソースとして含んでいてもよい。

操作端末１２０は、起動すると、あらかじめインストールされているプログラムを実行することにより、まずサーバ１１０との間で通信をおこない、サーバ１１０に対してコンテンツ送信要求を送信する。コンテンツ送信要求は、サーバ１１０における処理によってサーバ１１０によって選択された情報（学習コンテンツ）の送信を要求するものであってもよいし、操作端末１２０において指定された情報（学習コンテンツ）の送信を要求するものであってもよい。

操作端末１２０は、起動するごとに、毎回、コンテンツ送信要求を送信するものに限らない。操作端末１２０は、たとえば、１ヶ月などの所定期間においてはじめて起動された時にのみ、コンテンツ送信要求を送信するようにしてもよい。あるいは、操作端末１２０は、コンテンツ送信要求の送信を指示する入力操作を受け付けた場合に、適宜、コンテンツ送信要求を送信するようにしてもよい。

操作端末１２０は、コンテンツ送信要求を送信した結果、サーバ１１０が手本音声データベース３１０や評価基準データベース３２０において記憶する各種の情報（学習コンテンツ）のうち、コンテンツ送信要求に応じてサーバ１１０から送信された情報（学習コンテンツ）を受信する。そして、受信した情報をＲＯＭ２２２やＲＡＭ２２３などに確保された所定の記憶領域に記憶する。

操作端末１２０は、あらたな情報（学習コンテンツ）を受信した場合、ＲＯＭ２２２やＲＡＭ２２３などに確保された所定の記憶領域に既に記憶されている情報（学習コンテンツ）のすべてあるいは一部を、当該記憶領域から削除してもよい。具体的には、操作端末１２０は、当月分の情報（学習コンテンツ）を受信した場合、前月分までの情報（学習コンテンツ）を削除して、受信したあらたな情報（学習コンテンツ）を所定の記憶領域に記憶する。これにより、学習者は、操作端末１２０において格別容量の大きな記憶媒体を搭載することなく、常に最新の情報（学習コンテンツ）を用いて学習をおこなうことができる。

発話の学習は、発話対象とする１つの英単語あるいは１つの英文ごとに、（１）手本音声データを聞くステップ、（２）手本音声データにしたがって発話するステップ、（３）手本音声データと発話による発話音声データとを比較するステップ、という３つのステップを順番におこなうことによって実現される。操作端末１２０は、発話学習アプリを起動した状態で、発話の学習をおこなう学習者によっておこなわれた所定の入力操作を受け付けた場合に、（１）〜（３）の各ステップを順番におこなう。

操作端末１２０は、発話学習アプリを起動した状態で所定の入力操作を受け付けた場合、まず、（１）のステップ（手本音声データを聞くステップ）をおこなう。具体的に、操作端末１２０は、（１）のステップにおいて、発話学習アプリを起動した状態で受け付けた所定の入力操作に応じて、手本音声データベース３１０から再生対象とする手本音声データを取得する。

そして、操作端末１２０は、取得した手本音声データを当該手本音声データの再生時間にしたがって等間隔に区切った各単位時間における当該手本音声データの音声音圧レベル（以下「手本音声音圧レベル」という）を、あらかじめ定められた複数の段階のうちのいずれかの段階に分類する。その後、単位時間ごとに分類した手本音声音圧レベルに基づいて、お手本表示画面（図４−１を参照）を、ディスプレイ２２７に表示する。お手本表示画面は、手本音声音圧レベルを示す画像を含む。

また、操作端末１２０は、（１）手本音声データを聞くステップにおいて、再生対象とする手本音声データを再生することにより、当該手本音声データをスピーカー２３０から出力する。これにより、学習者は、英語のネイティブスピーカーが発話した英単語や英文を聞くことができる。

つぎに、操作端末１２０は、（２）のステップ（手本音声データにしたがって発話するステップ）をおこなう。操作端末１２０は、上記の（１）のステップにより手本音声データを再生した後に、（２）のステップをおこなう。（２）のステップは、学習者による格別の操作を必要とせず、（１）のステップにより手本音声データを再生した後に、当該（１）のステップに続けておこなう。

（２）のステップにおいては、学習者の発話を録音することを示す表示画面（ユーザー音声録音画面：図４−２を参照）をディスプレイ２２７に表示する。学習者は、ディスプレイ２２７に表示されたユーザー音声録音画面の表示内容にしたがって発話する。操作端末１２０は、学習者の発話による音声を録音することによって、発話による音声データ（以下「発話音声データ」という）の入力を受け付ける。

発話音声データの入力を受け付けた後は、（３）のステップ（手本音声データと発話による発話音声データとを比較するステップ）をおこなう。（３）のステップにおいて、操作端末１２０は、（２）のステップにおいてユーザー音声録音画面の表示中に入力を受け付けた発話音声データを、手本音声データを当該手本音声データの再生時間にしたがって等間隔に区切った各単位時間における当該手本音声データの音声音圧レベル（以下「発話音声音圧レベル」という）を、上記複数の段階のうちのいずれかの段階に分類する。

その後、単位時間ごとに分類した発話音声音圧レベルに基づいて、結果表示画面（図４−３や図４−４を参照）を、ディスプレイ２２７に表示する。結果表示画面は、単位時間ごとに分類した発話音声音圧レベルを再生時間にしたがって配列した発話音声音圧レベルを示す画像を、手本音声音圧レベルを示す画像に重ね合わせた比較画像を含む。

操作端末１２０は、結果表示画面において、発話音声データの評価結果に加えて、つぎの学習を指定する操作ボタンを表示する。操作端末１２０は、評価を示す表示画面の表示中に、つぎの手本音声データの再生を指示する操作ボタンに対する操作を受け付けた場合、直前に再生した手本音声データとは異なる手本音声データを取得し、上記と同様の処理をおこなう。

取得する手本音声データは、手本音声データベース３１０が記憶する複数の手本音声データの中から特定した任意の手本音声データとすることができる。あるいは、取得する手本音声データは、手本音声データベース３１０が記憶する複数の手本音声データのうち、あらかじめ定められた規定の順序にしたがって順次特定されるものであってもよい。

一方、操作端末１２０は、評価を示す表示画面の表示中に、直前再生した手本音声データと同じ手本音声データの再生を指示する操作ボタンに対する操作を受け付けた場合、先に再生した手本音声データを用いて、上記と同様の処理をおこなう。

また、操作端末１２０は、取得した手本音声データを再生する際に、当該手本音声データに関連付けられた英単語や英文のスペルに関するデータに基づいて、ディスプレイ２２７において該当するスペルを表示する。

さらに、操作端末１２０は、取得した手本音声データを再生する際に、手本音声データの再生速度を案内するガイドバーを表示してもよい。ガイドバーは、手本音声音圧レベルを示す画像の上を、手本音声の再生速度にあわせて通過するように表示する。

操作端末１２０は、手本音声データの再生指示に先立って、再生速度の指定を受け付けた場合、指定された再生速度に応じた手本音声データを取得する。操作端末１２０は、通常の速度よりも遅い手本音声データを取得した場合、音声音圧レベルの判断にかかる単位時間を切り換えて処理をおこなう。操作端末１２０は、指定された再生速度にかかわらず、同様の処理をおこなうことによって音声音圧レベルの判断を実現する。

（表示画面例）
つぎに、操作端末１２０が表示する表示画面例について説明する。図４−１、図４−２、図４−３、図４−４、図４−５および図４−６は、操作端末１２０が表示する表示画面例を示す説明図である。図４−１、図４−２、図４−３、図４−４および図４−６に示した各表示画面４１０、４２０、４３０、４４０、４６０は、それぞれ、１つの英単語あるいは英文の学習の進行状態を示す画像４０１を表示する。

上記のように、発話の学習は、発話対象とする１つの英単語あるいは１つの英文ごとに（１）〜（３）のステップを順次おこなうことによって実現される。この実施の形態において、学習の進行状態を示す画像４０１は、（１）のステップを示す「きいてみよう」マーク４０１ａ、（２）のステップを示す「いってみよう」マーク４０１ｂ、（３）のステップを示す「くらべてみよう」マーク４０１ｃによって構成される。学習の進行状態は、「きいてみよう」マーク４０１ａ、「いってみよう」マーク４０１ｂ、あるいは「くらべてみよう」マーク４０１ｃのうち、現在のステップに該当するいずれかのマークを強調することによって案内することができる。

お手本表示画面４１０は、（１）〜（３）のステップのうち、（１）のステップを示す「きいていみよう」マーク４０１ａを強調して表示する。これにより、学習者を、手本音声を聞くことに集中させ、これによって正しいアクセントの発音を覚えさせるようにすることができる。

図４−１において、お手本表示画面４１０は、手本音声音圧レベルを示す画像４１１を表示する。手本音声音圧レベルは、単位時間ごとの手本音声音圧レベルが、それぞれ、７つの段階のうちのいずれかの段階かを示す。手本音声音圧レベルを示す画像４１１は、各単位時間における音声音圧レベルの絶対値の積算値を示す画像４１１ａを、再生時間にしたがって配列することによって構成されている。

図４−２において、ユーザー音声録音画面４２０は、（１）〜（３）のステップのうち、（２）のステップを示す「いってみよう」マーク４０１ｂを強調して表示する。これにより、学習者に、当該学習者自身が発話するステップであることを意識させ、学習者が発話を開始するタイミングを逸してしまうことを抑制することができる。また、ユーザー音声録音画面４２０は、学習者の発話を録音するステップであることを示すマイクの画像４２１を表示する。

ユーザー音声録音画面４２０においては、お手本表示画面４１０に示した画像４１１ａはグレーアウト表示してもよい。これにより、学習者が、手本音声音圧レベルを示す画像４１１における画像４１１ａを、自身の発話によるものと誤解することを抑制することができる。

図４−３において、結果表示画面４３０は、手本音声音圧レベルに対する発話音声音圧レベルの比較結果を示す比較画像４３１を表示する。比較画像４３１は、発話音声音圧レベルを示す画像４３１ａを含む。発話音声音圧レベルは、単位時間ごとの発話音声音圧レベルが、それぞれ、７つの段階のうちのいずれかの段階かを示す。

比較画像（発話音声音圧レベルを示す画像）４３１は、各単位時間における音声音圧レベルの絶対値の積算値を示す画像４３１ａを、再生時間にしたがって配列することによって構成されている。比較画像４３１において、単位時間ごとの発話音声音圧レベルを示す画像４３１ａは、手本音声音圧レベルを示す画像４１１（画像４１１ａ）に重ね合わされている。

比較画像４３１において、単位時間ごとの発話音声音圧レベルを示す画像４３１ａを、手本音声音圧レベルを示す画像４１１（画像４１１ａ）に重ね合わせて表示することにより、手本音声のアクセントと、発話音声のアクセントとの一致度合いを、学習者に対して視覚的に明確に案内することができる。

結果表示画面４３０は、手本音声音圧レベルと手本音声音圧レベルとが一致するか否かを単位時間ごとに判断した判断結果４３２を含む。判断結果４３２は、たとえば「ＶＥＲＹＧＯＯＤ！！」や「すごい」などのように、学習者が分かりやすい内容であることが好ましい。結果表示画面４３０において、判断結果４３２を分かりやすく案内することにより、学習にゲーム性を付与し、学習者のやる気を高めることができる。

結果表示画面４３０は、直前に再生し評価した英単語あるいは英文の発話を再度おこなうことを指示する「さいチャレンジ」ボタン４３３や、直前に再生し評価した英単語あるいは英文とは異なる、あらたな英単語あるいは英文の発話をおこなうことを指示する「つぎへ」ボタン４３４を表示する。

図４−４において、結果表示画面４４０は、結果表示画面４３０において「さいチャレンジ」ボタン４３３が選択された場合に、結果表示画面４４０に切り換えてディスプレイ２２７に表示される。結果表示画面４４０は、「ＴＲＹＩＴＡＧＡＩＮ」などのように、「さいチャレンジ」であることが容易に分かるメッセージ４４１を表示してもよい。また、結果表示画面４４０は、「まえをつよくはなそう」などのように、発話におけるポイントなどを案内するメッセージ４４２を表示してもよい。

図４−５において、再生速度選択画面４５０は、操作端末１２０において所定の入力操作を受け付けた場合に、ディスプレイ２２７に表示される。再生速度選択画面４５０は、学習対象とする英単語や英文の再生速度を「ふつう」あるいは「ゆっくり」のいずれかに設定する操作キー４５１や、当該操作キー４５１によって設定した速度での英単語や英文の再生を開始させる「ＳＴＡＲＴ」ボタン４５２などを表示する。

図４−６においては、再生速度が「ゆっくり」に設定された場合のお手本表示画面４６０を示している。手本音声音圧レベルを示す画像４１１における画像４１１ａは、同じ英単語あるいは英文の手本音声データを再生する場合であっても、再生速度が異なる場合は、そのパターンが異なる。

（音声音圧レベルを示す画像４１１ａ、４３１ａの生成手順）
つぎに、手本音声音圧レベルや発話音声音圧レベルなどの、音声音圧レベルを示す画像４１１（４１１ａ）、４３１（４３１ａ）の生成手順について説明する。図５−１、図５−２、図５−３、図５−４および図５−５は、音声音圧レベルを示す画像の生成手順を示す説明図である。

音声音圧レベルを示す画像の生成に際しては、まず、対象とする音声データ（手本音声データ、発話音声データ）の、再生時間ごとの音圧を算出する。再生時間ごとの音圧は、各再生時間における音の強さをあらわし、図５−１に示すように、音圧が高いほど大きな振幅になるような波形であらわされる。

音圧は、大気圧を基準として、そこからの圧力変動を示す。音圧は、音による空気の圧力が大気圧よりも高い部分はプラスの圧力（音圧）として示され、音による空気の圧力が大気圧よりも低い部分はマイナスの圧力（音圧）として示される。図５−１においては、音声による空気の圧力の粗密の繰り返しを示す波形を示している。

つぎに、図５−１に示すようにして算出した音圧の絶対値を算出する。すなわち、大気圧に対して変化した音圧を、すべてプラスの音圧に変換する。これにより、マイナス側にピークを示していた音圧は、プラス側にピークを示すように変換される。そして、この変換により、図５−１に示した波形は、図５−２に示した波形に変換される。

つぎに、音声データの再生時間にしたがって、当該音声データを等間隔（単位時間ごと）に分割し、絶対値化した音圧に基づいて分割された各単位時間における音圧の絶対値を積分する。図５−３においては、各単位時間における音圧の絶対値を積分した結果を、棒グラフ５３１の形態で示している。単位時間は、たとえば、６分の１秒とすることができる。

単位時間は、６分の１秒に限るものではなく、たとえば、４分の１秒、３分の１秒などのように、任意の長さに設定することができる。また、単位時間は、１種類に限るものではない。単位時間は、たとえば、６分の１秒、４分の１秒および３分の１秒などのように複数設定された単位時間の中から、学習者などが任意に選択した単位時間を設定できるようにしてもよい。

つぎに、各単位時間における音圧の絶対値に基づいて、音声音圧レベルを段階別に分類する。音声音圧レベルの分類は、たとえば、各単位時間における音圧の絶対値を積分することによって音声音圧レベルを算出し、算出した音声音圧レベルがあらかじめ定められた複数の段階のうちのいずれの段階に該当するかを特定することによっておこなう。

あらかじめ定められた複数の段階は、それぞれ、一定の音圧幅をもつ。具体的には、図５−４の例においては、単位時間ごとに積分された音圧の絶対値を、たとえば、１段階から７段階までの７段階に分類している。また、具体的には、図５−４においては、１つの段階の音圧幅が１０デシベルに設定されている。

音声音圧レベルの分類に際しては、たとえば、各単位時間における音声音圧レベルが、一定の音圧幅をもつ各段階のいずれの段階に該当するかを特定し、特定した段階を各単位時間における音声音圧レベルとして分類する。具体的には、たとえば、或る単位時間における音声音圧レベルが３６デシベルである場合、図５−４においては、当該単位時間の音声音圧レベルは「３」に分類される（図５−４における符号５４１を参照）。また、具体的には、たとえば、或る単位時間における音声音圧レベルが６６デシベルである場合、図５−４においては、当該単位時間の音声音圧レベルは「７」に分類される（図５−４における符号５４２を参照）。

また、音声音圧レベルの分類に際しては、対象となる音声データ（手本音声データや発話音声データ）におけるアクセント位置を特定する。操作端末１２０は、対象となる音声データにおける音声音圧レベルに基づいて、１または複数のアクセント位置を特定する。具体的には、音声データにおいて音声音圧レベルがもっとも高い部分を第１アクセント位置として特定し、第１アクセントの音声音圧レベルよりも低いものの前後の音声データの音声音圧レベルから突出して音声音圧レベルが高い部分を第２アクセント位置、第３アクセント位置、・・・として特定する。

アクセント位置は、たとえば、一連の音圧データにおいて、前後の音声データの音声音圧レベルに対して、所定以上の割合で突出する音声音圧レベルを示す部分をアクセント位置として特定する。また、アクセント位置は、たとえば、もっとも音声音圧レベルが高いアクセント位置から、順に、第１アクセント位置、第２アクセント位置、第３アクセント位置、・・・として特定する。

つぎに、段階別に分類した音声音圧レベルに基づいて、音声音圧レベルを示す画像を生成する。音声音圧レベルを示す画像は、図５−５に示すように、縦軸によって音圧値の高低を示し、横軸によって時間の経過を示すグラフにおいて、段階別に分類した音声音圧レベルと、当該音声音圧レベルより１段階高い音声音圧レベルと、当該音声音圧レベルより１段階低い音声音圧レベルと、によって形成される音声音圧レベルバー５５１を、単位時間ごとに描画することによって生成される。

たとえば、上記の図５−４の例において、音声音圧レベルが「３」に分類された単位時間に関しては、音声音圧レベル「２」、「３」および「４」にかかる音声音圧レベルバーが描画される。また、たとえば、上記の図５−４の例において、音声音圧レベルが「７」に分類された単位時間に関しては、音声音圧レベル「６」、「７」および「８」にかかる音声音圧レベルバーが描画される。上記のお手本表示画面４１０などにおいては、このようにして生成した音声音圧レベルを示す画像を表示する。

なお、発話音声データにかかる音声音圧レベルを示す画像は、分類された段階のみを示すものであってもよい。すなわち、発話音声データにかかる音声音圧レベルは、手本音声音圧レベルのように、段階別に分類した音声音圧レベルおよびその上下の音声音圧レベルを含む３段階分の音声音圧レベルバー５５１ではなく、段階別に分類した音声音圧レベルのみを示す画像によって実現してもよい。

このように、手本音声データにかかる音声音圧レベルを示す画像に対して、発話音声データにかかる音声音圧レベルを示す画像の大きさを小さくすることにより、これらに基づく画像４１１ａ、４３１ａを結果表示画面４３０において重ね合わせた場合に、発話音声の音圧が手本音声の音圧に対してどの程度ずれているのかを視覚的に明確に案内することができる。

通常速度の手本音声データと通常の速度よりも遅い手本音声データとは、単位時間の長さ（分解能）が異なる。通常の速度よりも遅い手本音声データの単位時間は、通常速度の手本音声データの単位時間よりも長く設定されている。具体的には、通常速度の手本音声データの単位時間を６分の１秒とする場合、通常の速度よりも遅い手本音声データの単位時間を４分の１秒とする。

通常の速度よりも遅い手本音声データの単位時間を、通常速度の手本音声データの単位時間よりも長くすることにより、通常の速度よりも遅い手本音声データを再生する場合にも、表示画面において表示される音声音圧レベルバーの数を、通常速度の手本音声データを再生する場合と同様にすることができる。すなわち、通常速度の手本音声データを再生する場合であっても、通常の速度よりも遅い手本音声データを再生する場合であっても、表示画面上の見た目を揃えることができる。

これに対し、通常の速度よりも遅い手本音声データの単位時間を、通常速度の手本音声データの単位時間と同じくした場合、通常の速度よりも遅い手本音声データを再生する場合に表示画面において表示される音声音圧レベルバーの数が、通常速度の手本音声データを再生する場合の音声音圧レベルバーの数よりも増えてしまう。本来、学習の難易度を下げ、簡単に発音できるようにするために通常の速度よりも遅い速度で再生するにもかかわらず、表示画面において表示される音声音圧レベルバーの数が増えると、一致度合いの比較数が多くなり、合格点をもらう敷居が高くなってしまう。

この実施の形態にかかる操作端末１２０によれば、通常の速度よりも遅い手本音声データの単位時間を、通常速度の手本音声データの単位時間よりも長くすることにより、音声データの再生および評価にかかる処理を複雑化することなく、評価が厳しくなることを回避することができる。

（タイムシフトの概要）
つぎに、タイムシフトの概要について説明する。操作端末１２０は、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとが一致するか否かの判断、すなわち評価の決定に際して、手本音声データの再生開始位置に対する発話音声データの再生開始位置を単位時間ごとにずらす、いわゆる「タイムシフト」をおこなう。タイムシフトは、手本音声データの再生開始位置に対して、発話音声データの再生開始位置を、単位時間ずつずらしておこなう。

操作端末１２０は、タイムシフトをおこない、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとの一致度合いがもっとも高くなる位置において発話音声データの評価を決定する。これにより、学習者が発話を開始するタイミングを逸してしまい、本来の発話開始位置よりも遅れて発話した場合や、本来の発話開始位置よりも先んじて発話を開始した場合であっても、発話自体を正確におこなっている場合は高い評価に決定することができ、学習者にやる気を持たせることができる。

このような、操作端末１２０がおこなう各種の処理は、上記のＣＰＵが、ＲＡＭをワークエリアとして利用しながら、ＲＯＭに格納された制御プログラムを実行することによって実現される。この制御プログラムは、あらかじめ操作端末１２０にインストールされている。あるいは、この制御プログラムは、操作端末１２０に着脱可能な記録媒体に記録され、適宜操作端末１２０のＣＰＵが当該記録媒体から読み出すことによって実行されるものであってもよい。また、この制御プログラムは、インターネットなどのネットワーク１４０を介して配布することが可能な伝送媒体であってもよい。

（操作端末１２０の機能的構成）
つぎに、この発明にかかる実施の形態の操作端末１２０の機能的構成について説明する。図６は、この発明にかかる実施の形態の操作端末１２０の機能的構成を示すブロック図である。図６において、この発明にかかる実施の形態の操作端末１２０の各機能は、記憶部６０１、入力操作受付部６０２、音声データ取得部６０３、音声入力受付部６０４、音声音圧レベル算出部６０５、分類部６０６、評価判定部６０７、画像生成部６０８、出力部６０９によって実現することができる。

操作端末１２０の各機能を実現する記憶部６０１、入力操作受付部６０２、音声データ取得部６０３、音声入力受付部６０４、音声音圧レベル算出部６０５、分類部６０６、評価判定部６０７、画像生成部６０８、出力部６０９は、操作端末１２０のハードウエアを構成する各部によって実現することができる。

記憶部６０１は、手本となる音声データ（以下「手本音声データ」という）を記憶する。また、記憶部６０１は、学習の評価の基準となるデータを記憶する。具体的に、記憶部６０１は、上記の手本音声データベース３１０や評価基準データベース３２０と同様の情報を格納している。記憶部６０１は、操作端末１２０からサーバ１１０に対してコンテンツ送信要求を送信した結果、当該サーバ１１０から送信された情報（学習コンテンツ）を記憶する。

入力操作受付部６０２は、手本音声データの再生指示を受け付ける。音声データ取得部６０３は、入力操作受付部６０２が手本音声データの再生指示を受け付けた場合に、記憶部６０１を参照して、指定された手本音声データを取得する。音声データ取得部６０３は、上記のように、手本音声データベース３１０が記憶する複数の手本音声データの中から、直前に再生した手本音声データとは異なる手本音声データを取得する。

また、上記の音声データ取得部６０３は、手本音声データを再生した後に、音声入力受付部６０４を介して、学習者の発話にかかる音声データ（発話音声データ）を取得する。このように、音声データ取得部６０３は、操作端末１２０においておこなう上記のステップに応じて、音声の取得元を切り換える。

音声音圧レベル算出部６０５は、音声データ取得部６０３が取得した手本音声データや発話音声データなどの音声データの、再生時間ごとの音圧を算出する。また、音声音圧レベル算出部６０５は、算出した音圧の絶対値を算出する。さらに、音声音圧レベル算出部６０５は、各音声データの再生時間にしたがって、当該音声データを等間隔（単位時間ごと）に分割し、絶対値化した音圧に基づいて分割された各単位時間における音圧の絶対値を積分することによって音声音圧レベルを算出する。

単位時間は、上記のように、６分の１秒、４分の１秒などのように、学習者が任意に指定した再生速度に応じて可変することができる。このように、学習者に指定された再生速度に応じて単位時間を可変することにより、学習者の意図に応じた評価決定をおこなうことができる。

分類部６０６は、音声音圧レベル算出部６０５が算出した音声音圧レベルを、あらかじめ定められた複数の段階のうちのいずれかの段階に分類する。この実施の形態において、分類部６０６は、音声音圧レベル算出部６０５が算出した手本音声音圧レベルを、１つ目段階から７つ目段階の７つの段階におけるいずれかの段階に分類する。

評価判定部６０７は、分類部６０６が分類した手本音声データや発話音声データにかかる音声音圧レベルに基づいて、単位時間ごとに、手本音声音圧レベルと手本音声音圧レベルとが一致するか否かを判断する。そして、評価判定部６０７は、一致判定の結果、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとの一致度合いに基づいて、発話音声データの評価を決定する。発話音声データの評価は、記憶部６０１に格納された評価基準データベース３２０を参照し、発話音声データにおけるアクセント位置と手本音声データにおけるアクセント位置とが一致する数に基づいて決定する。

評価判定部６０７は、評価の決定に際し、上記のタイムシフトをおこなう。すなわち、評価判定部６０７は、評価の決定に際し、手本音声データの再生開始位置に対する発話音声データの再生開始位置を単位時間ごとにずらし、単位時間ごとの手本音声音圧レベルと手本音声音圧レベルとの一致度合いがもっとも高くなる位置において評価を決定する。

これにより、手本音声データを基準として発話の開始タイミングがずれた場合にも、発話自体を正確におこなっている場合は、評価が高くなる。そして、これにより、もっとも成績が高くなるように評価を決定することができ、学習者にやる気を持たせることができる。

画像生成部６０８は、分類部６０６が分類した、単位時間ごとの手本音声音圧レベルを、再生時間にしたがって配列した手本音声音圧レベルを示す画像を生成する。画像生成部６０８は、上記のように、縦軸によって音圧値の高低を示し横軸によって時間の経過を示すグラフにおいて、単位時間ごとに、段階別に分類した音声音圧レベルと、当該音声音圧レベルより１段階高い音声音圧レベルと、当該音声音圧レベルより１段階低い音声音圧レベルと、によって形成される音声音圧レベルバーを描画する画像を生成する。

また、画像生成部６０８は、評価判定部６０７が決定した評価結果を示す画像を生成する。具体的には、画像生成部６０８は、「ＶＥＲＹＧＯＯＤ！！」や「すごい」などのように、評価判定部６０７が決定した評価結果を、小学生などの学習者に分かりやすく案内する画像を生成する。

出力部６０９は、音声データ取得部６０３が取得した手本音声データを再生し、操作端末１２０の外部に手本音声を、スピーカー２３０を介して出力する。また、出力部６０９は、画像生成部６０８が生成した手本音声音圧レベルを示す画像をディスプレイ２２７に出力する。

上記の出力部６０９は、評価判定部６０７が決定した評価結果を出力する。出力部６０９は、たとえば、「ＰＥＲＦＥＣＴ」、「ＶＥＲＹＧＯＯＤ」、「ＧＯＯＤ」、「ＴＲＹＩＴＡＧＡＩＮ」などのように評価判定部６０７が決定した評価結果を示すメッセージを、ディスプレイ２２７に表示することによって評価判定部６０７が決定した評価結果を出力する。

（操作端末１２０の処理手順）
つぎに、操作端末１２０の処理手順について説明する。図７は、この発明にかかる実施の形態の操作端末１２０の処理手順を示すフローチャートである。操作端末１２０は、発話学習アプリを起動した状態において、図７においてフローチャートで示した処理をおこなう。

図７に示したフローチャートにおいて、まず、学習者による手本音声データの再生指示を受け付けるまで待機する（ステップＳ７０１：Ｎｏ）。ステップＳ７０１において、学習者による手本音声データの再生指示を受け付けた場合（ステップＳ７０１：Ｙｅｓ）、該当する手本音声データを取得する（ステップＳ７０２）。ステップＳ７０２においては、手本音声データベース３１０が記憶する複数の手本音声データの中から、直前に再生した手本音声データとは異なる手本音声データを取得する。

つぎに、ステップＳ７０２において取得した手本音声データの音声音圧レベルを算出し（ステップＳ７０３）、ステップＳ７０３において算出した音声音圧レベルを７つの段階に分類する（ステップＳ７０４）。そして、ステップＳ７０２において取得した手本音声データを再生する（ステップＳ７０５）とともに、当該再生と同時に、ディスプレイ２２７に手本音声音圧レベルを示す画像４１１を表示する（ステップＳ７０６）。

そして、ステップＳ７０５において開始した手本音声データの再生が終了するまで待機する（ステップＳ７０７：Ｎｏ）。ステップＳ７０７において、ステップＳ７０５において開始した手本音声データの再生が終了した場合（ステップＳ７０７：Ｙｅｓ）、発話音声データを取得する（ステップＳ７０８）。ステップＳ７０８においては、ディスプレイにユーザー音声録音画面４２０を表示し、当該ユーザー音声録音画面４２０の表示中にマイク２２９を介して入力された音声データを発話音声データとして取得する。

つぎに、ステップＳ７０８において取得した発話音声データの音声音圧レベルを算出し（ステップＳ７０９）、ステップＳ７０９において算出した音声音圧レベルを７つの段階に分類する（ステップＳ７１０）。そして、ステップＳ７０４において分類した手本音声データの音声音圧レベルとステップＳ７０９において分類した発話音声データの音声音圧レベルとを比較し、一致度合いの評価を決定する（ステップＳ７１１）。ステップＳ７１１においては、手本音声データにおけるアクセント位置に、発話音声データにおけるアクセント位置が一致するか否かを判断する。また、ステップＳ７１１においては、上記のタイムシフトをおこない、発話音声データにおけるアクセント位置が、手本音声データにおけるアクセント位置にもっとも多く一致する位置において評価の決定をおこなう。

つぎに、ステップＳ７１１において決定された評価に基づいて、比較画像４３１を生成し（ステップＳ７１２）、ステップＳ７１１において決定された評価結果とステップＳ７１２において生成した比較画像４３１とを出力する（ステップＳ７１３）。ステップＳ７１３においては、ステップＳ７１１において決定された評価結果とステップＳ７１２において生成した比較画像４３１とを、ディスプレイ２２７に表示することによって、当該評価結果および比較画像４３１を出力する。

その後、「さいチャレンジ」ボタン４３３が操作されたか否かを判断し（ステップＳ７１４）、「さいチャレンジ」ボタン４３３が操作された場合（ステップＳ７１４：Ｙｅｓ）、ステップＳ７０３へ移行する。これにより、操作端末１２０は、以降、直前に取得した手本音声データの再生、当該手本音声データの復唱による発話音声データの取得、および取得した発話音声データの評価をおこなう。

一方、ステップＳ７１４において、「さいチャレンジ」ボタン４３３が操作されていない場合（ステップＳ７１４：Ｎｏ）、「つぎへ」ボタン４３４が操作されたか否かを判断する（ステップＳ７１５）。ステップＳ７１５において、「つぎへ」ボタン４３４が操作されていない場合（ステップＳ７１５：Ｎｏ）、ステップＳ７１４へ移行して、「さいチャレンジ」ボタン４３３が操作されたか否かを判断する。

また、ステップＳ７１５において、「つぎへ」ボタン４３４が操作された場合（ステップＳ７１５：Ｙｅｓ）、ステップＳ７０２へ移行する。これにより、操作端末１２０は、以降、直前に再生した手本音声データとは異なる手本音声データの再生、当該手本音声データの復唱による発話音声データの取得、および取得した発話音声データの評価をおこなう。

以上説明したように、この実施の形態の学習支援装置である操作端末１２０は、学習者に指定された手本音声データを取得し、取得した手本音声データの音声音圧レベル（手本音声音圧レベル）を該当する段階に分類し、分類した手本音声音圧レベルを示す画像を表示装置に出力するとともに、手本音声データを音声出力装置に出力する。そして、手本音声音圧レベルを示す画像および手本音声データを出力した後に入力を受け付けた発話音声データの音声音圧レベル（発話音声音圧レベル）を該当する段階に分類し、分類した発話音声音圧レベルを示す画像を手本音声音圧レベルを示す画像に重ね合わせた比較画像を表示装置に出力するようにしたことを特徴としている。

この実施の形態の操作端末１２０によれば、手本音声データの再生に続けて、該当する英単語や英文を学習者に発話させることによって、学習者に、発音に注意しながら、発話練習をおこなわせることができるという従来の復唱学習の効果に加えて、手本音声音圧レベルを示す画像４１１をディスプレイ２２７に表示することにより、手本音声データにおける音圧の強さを視覚化し、手本音声データにおける音圧の強さを目視によって確認させながら復唱させることができる。このように、アクセントの位置を視覚化することにより、学習者に対して、手本音声データに似せた復唱をしやすくさせることができ、これによって早期の上達（学習の習熟度の向上）を期待することができる。

また、この実施の形態の操作端末１２０によれば、手本音声データや発話音声データにおける音声音圧レベルを単位時間ごとに区分して、単位時間ごとに音声音圧レベルを強調した画像をディスプレイ２２７に表示することにより、音声データを忠実に波形化した一般的な波形表示と比較して、強弱感やアクセント位置がより分かりやすくして、手本音声データに似せた復唱をしやすくさせることができる。これによって早期の上達（学習の習熟度の向上）を期待することができる。

また、この実施の形態の操作端末１２０によれば、手本音声データや発話音声データにおける音声音圧レベルをディスプレイ２２７に表示することにより、たとえばカラオケなどのように、表示画面の画像４１１にあわせて「強いところは強く」、「弱いところは弱く」復唱させることができる。これによって早期の上達（学習の習熟度の向上）を期待することができる。

また、この実施の形態の操作端末１２０によれば、学習者自身の発話による音声音圧レベルと手本音声データにかかる音声音圧レベルとを重ねた比較画像４３１を表示することにより、発話内容と手本音声との違い（差）を視覚化し、発話内容と手本音声との違い（差）を学習者に分かりやすく伝えることができる。このように、学習者に対して、評価の根拠や改善点を分かりやすく案内することにより、早期の上達（学習の習熟度の向上）を期待することができる。

さらに、この実施の形態の操作端末１２０によれば、発話するごとに、学習者の発話内容についての評価をディスプレイ２２７に表示することにより、学習者に対して、英単語の復唱をゲーム感覚で楽しみながらおこなわせることができる。そして、正しく発話した場合は直ちに高い評価が示されるため、学習者のやる気を持続させやすい。また、この実施の形態の操作端末１２０によれば、「高い評価が出るまで頑張ろう」などのように、学習に容易に熱中させることができる。

このように、この実施の形態の操作端末１２０によれば、学習者に苦痛を感じさせることなく学習に注力させることができるので、早期の上達（学習の習熟度の向上）を期待することができる。

また、この実施の形態の操作端末１２０によれば、発話音声データにおける音圧と手本音声データにおける音圧とを比較する比較画像４３１を学習者に対して出力することにより、英語などの外国語を話す上で重要となるアクセント位置が正しいか否かの評価結果を学習者に案内することができる。

さらに、この実施の形態の操作端末１２０によれば、発話音声音圧レベルを示す画像を手本音声音圧レベルを示す画像に重ね合わせた比較画像４３１をディスプレイ２２７に表示することにより、手本音声に対して発話内容がどの程度一致しているのかあるいは異なっているのかを、視覚的に明確に案内することができる。

このように、この実施の形態の操作端末１２０によれば、学習者に対して、教師や講師などに直接指導を受けることのない通信教育において、正しい発音を確実に身につけさせることができる。

また、この実施の形態の操作端末１２０は、単位時間ごとに手本音声音圧レベルと発話音声音圧レベルとが一致するか否かを判断し、単位時間ごとの手本音声音圧レベルと発話音声音圧レベルとの一致度合いに基づいて、発話音声データの評価を決定し、決定した評価結果を出力するようにしたことを特徴としている。

この実施の形態の操作端末１２０によれば、発話音声データにおける音圧と手本音声データにおける音圧とを比較した評価結果を学習者に対して出力することにより、英語などの外国語を話す上で重要となるアクセント位置が正しいか否かの評価結果を学習者に案内することができる。

また、この実施の形態の操作端末１２０は、手本音声データの再生開始位置に対する発話音声データの再生開始位置を前記単位時間ごとにずらし、一致度合いがもっとも高くなる位置で評価を決定するようにしたことを特徴としている。

この実施の形態の操作端末１２０によれば、学習者が発話を開始するタイミングを逸してしまい、本来の発話開始位置よりも遅れて発話した場合や、本来の発話開始位置よりも先んじて発話を開始した場合であっても、発話自体を正確におこなっている場合は高い評価に決定することができ、学習者にやる気を持たせることができる。これにより、教師や講師などに直接指導を受けることのない通信教育において、学習者のやる気を継続させ、学習を反復しておこなわせ、正しい発音を確実に身につけさせることができる。

また、この実施の形態の操作端末１２０は、手本音声音圧レベルおよび発話音声音圧レベルを、あらかじめ定められた複数の長さの単位時間のうち、指定された長さの単位時間ごとに特定するようにしたことを特徴としている。

この実施の形態の操作端末１２０によれば、手本音声データの再生速度を通常の速度よりも遅くした場合は、手本音声データや発話音声データなどの音声データの単位時間を、通常速度の音声データの単位時間よりも長くすることにより、音声データの再生速度を通常の速度よりも遅くすることによって当該手本音声データの分割数が増えてしまうことを抑制することができる。これにより、手本音声データの再生速度を通常の速度よりも遅くしたことによって評価が厳しくなることを抑制し、再生速度にあった評価を決定することができる。

以上のように、この発明にかかる学習支援装置は、英語などの外国語の学習を支援する学習支援装置に有用であり、特に、小学生などの低年齢層を対象とした外国語の学習を支援する学習支援装置に適している。

１２０操作端末
６０１記憶部
６０２入力操作受付部
６０３音声データ取得部
６０４音声入力受付部
６０５音声音圧レベル算出部
６０６分類部
６０７評価判定部
６０８画像生成部
６０９出力部

Claims

手本となる音声データ（以下「手本音声データ」という）を記憶する記憶部を参照して、指定された前記手本音声データを取得し、
取得した前記手本音声データを当該手本音声データの再生時間にしたがって等間隔に区切った各単位時間における当該手本音声データの音声音圧レベル（以下「手本音声音圧レベル」という）を、あらかじめ定められた複数の段階のうちのいずれかの段階に分類し、
分類した前記手本音声音圧レベルを前記再生時間にしたがって配列した手本音声音圧レベルを示す画像を表示装置に出力するとともに、前記手本音声データを音声出力装置に出力し、
前記手本音声音圧レベルを示す画像および前記手本音声データを出力した後に、発話による音声データ（以下「発話音声データ」という）の入力を受け付け、
入力を受け付けた発話音声データを当該発話音声データの再生時間にしたがって等間隔に区切った各単位時間における当該発話音声データの音声音圧レベル（以下「発話音声音圧レベル」という）を、あらかじめ定められた複数の段階のうちのいずれかの段階に分類し、
分類した前記発話音声音圧レベルを前記再生時間にしたがって配列した発話音声音圧レベルを示す画像を前記手本音声音圧レベルを示す画像に重ね合わせた比較画像を前記表示装置に出力する、
ことを特徴とする学習支援装置。
前記単位時間ごとに前記手本音声音圧レベルと前記発話音声音圧レベルとが一致するか否かを判断し、
前記単位時間ごとの前記手本音声音圧レベルと前記発話音声音圧レベルとの一致度合いに基づいて、前記発話音声データの評価を決定し、
決定した評価結果を出力する、
ことを特徴とする請求項１に記載の学習支援装置。
前記評価は、前記手本音声データの再生開始位置に対する前記発話音声データの再生開始位置を前記単位時間ごとにずらし、前記一致度合いがもっとも高くなる位置で決定する、
ことを特徴とする請求項２に記載の学習支援装置。
前記手本音声音圧レベルおよび前記発話音声音圧レベルは、あらかじめ定められた複数の長さの単位時間のうち、指定された長さの単位時間ごとに特定する、
ことを特徴とする請求項１〜３のいずれか一つに記載の学習支援装置。