JP2017146402A - 学習支援装置及びプログラム - Google Patents

学習支援装置及びプログラム Download PDF

Info

Publication number
JP2017146402A
JP2017146402A JP2016026895A JP2016026895A JP2017146402A JP 2017146402 A JP2017146402 A JP 2017146402A JP 2016026895 A JP2016026895 A JP 2016026895A JP 2016026895 A JP2016026895 A JP 2016026895A JP 2017146402 A JP2017146402 A JP 2017146402A
Authority
JP
Japan
Prior art keywords
mouth
user
data
image
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016026895A
Other languages
English (en)
Inventor
建彦 紀井
Tatsuhiko Kii
建彦 紀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2016026895A priority Critical patent/JP2017146402A/ja
Publication of JP2017146402A publication Critical patent/JP2017146402A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】シャドーイング学習をより簡単に且つ効果的に行なう学習支援装置を提供する。【解決手段】模範音声のうち口元の形に特徴が出る“m”の発音に対応した基準画像mと、模範音声の再生時間のうち、基準画像mの口元の形が出現する位置の各検出時間m1,m2,…とを、予め対応付けて記憶する。そして、撮影部により連続撮影されているユーザの口元の撮影画像X-n…X0…Xnのうち、基準画像mとの類似度Y-n…Y0…Ynが閾値Ythより高く最大になる撮影画像Xmaxが選択され、基準画像mの検出時間m1,m2,…と選択された撮影画像Xmaxの撮影時間との時間差dに基づき、模範音声の再生に対するユーザの発話の速さ遅さが判断される。そして、時間差dがシャドーイングの学習に効果的な範囲内(dmin<d≦dmax)になるように模範音声の再生速度が制御され調整される。【選択図】図6

Description

本発明は、例えば外国語を発話して学習するための学習支援装置及びその制御プログラムに関する。
近年、外国語を学習するための電子機器やソフトウエアの利用が広まっている。
外国語を学習する手法として、模範となる会話やテキストの音声をユーザ(学習者)が聴きながら後追いして発話するシャドーイングの手法がある。また、発音に伴う口の動きを学習する以下の手法もある。
ユーザの発音に伴う口の動きの動画を撮影し、模範となる話者の口の動きの動画との比較画像を生成して出力する語学学習装置が考えられている(例えば、特許文献1参照。)。
講師のテキストの発声に伴う予め記録されたテキスト・映像・音声の模範例データと、当該テキストの生徒の発声に伴う撮影映像とを再生しながら、前記模範例データに自動的に最適な間合いを挿入して生徒に反復練習させる反復学習装置が考えられている(例えば、特許文献2参照。)。
特開2006−163269号公報 特開2006−330395号公報
シャドーイングによる学習をより簡単に且つ効果的に行わせたい要望がある。
本発明は、このような課題に鑑みなされたもので、シャドーイングの学習をより簡単に且つ効果的に行なうことが可能になる学習支援装置及びその制御プログラムを提供することを目的とする。
本発明に係る学習支援装置は、音声データを再生する音声再生手段と、前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶している基準データ記憶手段と、前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段と、を備えたことを特徴とする。
本発明によれば、シャドーイングの学習をより簡単に且つ効果的に行なうことが可能になる。
本発明の実施形態に係る学習支援装置10の電子回路の構成を示すブロック。 前記学習支援装置10を搭載した電子機器を示す図であり、同図(A)は置き型装置10Rを示す外観図、同図(B)はタブレット端末10Hを示す外観図。 前記学習支援装置10の会話練習DB22bに記憶されたシャドーイング学習用の会話練習データ22b1を示す図。 前記学習支援装置10のシャドーイングによる発話練習の学習コンテンツにおいて、基準画像m(33a)の検出時間m1(33at)に基づき、音声データ32の再生時間tに対しユーザが発話しているタイミングのずれ(時間差)dを判断する具体例を示す概念図。 前記音声データ32の再生時間tに対しユーザが発話しているタイミングのずれdを判断する過程での再生音声(32)と基準画像m,f(33a,33b)と検出時間mn,fn(33at,33bt)と撮影画像(26b)との関係を示す図。 前記学習支援装置10のシャドーイング学習処理(1)を示すフローチャート。 前記学習支援装置10の会話練習DB22bに記憶された第2実施形態のシャドーイング学習用の会話練習データ22b1´を示す図。 前記学習支援装置10のシャドーイング学習処理(2)を示すフローチャート。 前記シャドーイング学習処理(2)での[撮影・登録処理](ステップS2a)に際してユーザに対し基準画像の撮影・登録を促すためのガイド画面G1と、[シャドーイング開始処理](ステップS3)以降のユーザに対して予め記憶された模範の口元の模範画像(34)とユーザの口元を撮影した撮影画像(26b)とを並べて確認させるためのシャドーイング確認画面G2とを示す図。
以下図面により本発明の実施の形態について説明する。
図1は、本発明の実施形態に係る学習支援装置10の電子回路の構成を示すブロックである。
図2は、前記学習支援装置10を搭載した電子機器を示す図であり、同図(A)は置き型装置10Rを示す外観図、同図(B)はタブレット端末10Hを示す外観図である。
図2(A)に示すように、置き型装置10Rの場合、例えばユーザが親しみ易いようにロボットをイメージさせる頭部と胴体部とで構成され、頭部の正面にタッチパネル付き表示部11と撮影部(カメラ)14が設けられ、胴体部に音声入力部(マイク)12と音声出力部(スピーカ)13が設けられる。
図2(B)に示すように、タブレット端末10Hの場合、端末本体の正面にタッチパネル付き表示部11、音声入力部(マイク)12、音声出力部(スピーカ)13、撮影部(カメラ)14が設けられる。
前記学習支援装置10は、各種の記録媒体に記録されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、制御装置(CPU)21が備えられる。
前記CPU21は、記憶装置22内に記憶された装置制御プログラム22aを、RAM26を作業用メモリとして実行し、回路各部の動作を制御する。なお、装置制御プログラム22aは、ROMカードなどの外部記録媒体23から記録媒体読み取り部24を介して前記記憶装置22に読み込ませたり、あるいはインターネット上のWebサーバ(この場合はプログラムサーバ)から通信部25を介して前記記憶装置22に読み込ませたりしてもよい。
前記記憶装置22に記憶された装置制御プログラム22aは、キー入力部27、タッチパネル付き表示部11からのユーザ操作に応じた入力信号、あるいは音声入力部12により入力された音声入力信号、あるいは撮影部14により撮影された画像信号、あるいは記録媒体読み取り部24による外部記録媒体23の装着信号、あるいは通信部25を介して接続されるインターネット上の各Webサーバ…(図示せず)との通信信号に応じて起動される。
このように、前記CPU21には、前記タッチパネル付き表示部11、音声入力部12、音声出力部13、撮影部14、前記記憶装置22、記録媒体読み取り部24、通信部25、RAM26、キー入力部27が接続される。
前記記憶装置22に記憶される装置制御プログラム22aとしては、装置全体の動作を司るシステムプログラム、通信部25を介して図示しないインターネット上の各Webサーバ…やPC等の外部機器とデータ通信するための通信プログラム等が記憶される。また、前記装置制御プログラム22aとして、外国語の学習を、典型的な挨拶、場面に応じた会話、シャドーイングによる発話の練習等の各種の学習コンテンツにより、ユーザに行なわせるための会話練習用プログラムも記憶される。
そして、前記記憶装置22には、会話練習DB(データベース)22b、スケジュールデータ22cなどが記憶される。
なお、前記会話練習用プログラムは、各種学習コンテンツのメニューからユーザ操作に応じて選択された学習コンテンツの処理を開始する通常の学習開始機能に加えて、ユーザのスケジュールや、当日のニュースに応じて、学習コンテンツを自動的に選択し、ユーザが学習に違和感なく入れるようなメッセージを音声出力して学習の開始を働きかける機能、更には、装置本体に人が近付いたことを撮影部14による撮影画像に基づき認識し、前記同様に学習コンテンツを自動的に選択して学習の開始を働きかける機能を有する。
図3は、前記学習支援装置10の会話練習DB22bに記憶されたシャドーイング学習用の会話練習データ22b1を示す図である。
この会話練習データ22b1には、例えば英会話練習用のテキストデータ31と、当該テキストデータ31のテキストを読み上げた模範の音声データ32が含まれる。更に、前記模範の音声データ32に含まれるテキストの発音のうち、基準とする発音、つまり口元の形に特徴が出るスペル(ここでは“m”と“f”)の発音に対応した口元の形の各基準画像データm33a,f33bと、前記音声データ32の再生時間のうち、前記各基準画像データm33a,f33bの口元の形が出現する位置に対応したmの検出時間データ(m1,m2,…)33at,fの検出時間データ(f1,f2,…)33btが記憶される。
前記RAM26には、表示データメモリ26a、撮影画像データメモリ26bなどが確保される。
前記表示データメモリ(表示バッファ)26aには、前記タッチパネル付き表示部11に表示させる表示データがビットマップパターンに展開されて記憶される。
前記撮影画像データメモリ26bには、前記撮影部14により撮影された画像データが記憶される。
前記会話練習用プログラムに含まれる各種の学習コンテンツのうち、シャドーイングによる発話練習の学習コンテンツは、発話しているユーザの口元の画像を連続撮影し、この撮影画像の中から前記基準画像データm33aやf33bと一致する(類似度高い)撮影画像を判断し、当該撮影画像が撮影された時間と前記mの検出時間データ(m1,m2,…)33atやfの検出時間データ(f1,f2,…)33btとの前後時間差を判断する。そして、前記音声データ32の再生速度がユーザの発話速度よりどの程度速いか遅いかを判断し、速すぎる場合には再生速度を遅く、遅すぎる場合には再生速度を速く制御することで、当該音声データ32の再生速度をシャドーイングに効果的な速度に調整する機能を有する。
ここで、前記シャドーイングでは、前記音声データ32の再生(速度)に対してユーザが0.5sec程度遅れて発話して行くのが効果的とされているので、本実施形態では、ユーザの発話が1sec(=dmax)を超えて遅れる場合(再生速度が速すぎる場合に相当)は、学習効果が低いと判断し再生速度を遅く制御する。一方、人間(ユーザ)の反応速度を考慮すると、前記音声データ32の再生(速度)に対してユーザが0.1sec以内の遅れで発話して行くのは難しため、本実施形態では、ユーザの発話が0.1sec(=dmin)以内の遅れであるか、あるいは再生(速度)と同じかそれより速い場合(再生速度が遅すぎる場合に相当)は、再生音声(音声データ32)を暗記してしまっている可能性が高いと判断し再生速度を速く制御する。
図4は、前記学習支援装置10のシャドーイングによる発話練習の学習コンテンツにおいて、基準画像m(33a)の検出時間m1(33at)に基づき、音声データ32の再生時間tに対しユーザが発話しているタイミングのずれ(時間差)dを判断する具体例を示す概念図である。
図5は、前記音声データ32の再生時間tに対しユーザが発話しているタイミングのずれdを判断する過程での再生音声(32)と基準画像m,f(33a,33b)と検出時間mn,fn(33at,33bt)と撮影画像(26b)との関係を示す図である。
本実施形態では、音声データ32の再生を開始するのに伴い、ユーザがシャドーイングの発話を開始した後に、前記基準画像m(33a)の検出時間m1,m2,…(33at)やf(33b)の検出時間f1,f2,…(33bt)が、所定時間Tsec(例えば1.5sec)前に近付くと、ユーザの口元の連続撮影(フレームレート24fps)を開始し同所定時間Tsec後まで行なう。
ここでは、図4に示すように、前記基準画像m(33a)の検出時間m1(33at)に基づきユーザの発話のタイミングのずれdを判断する具体例として説明する。
前記所定時間Tsec×2(=3sec)の間に連続撮影された各撮影画像X-n…X0…Xnの中から、前記基準画像m(33a)との類似度が最大(Ymax)の撮影画像Xmaxを選択する。前記選択した撮影画像Xmaxの検出時間(撮影時間)tm1と前記基準画像mの検出時間m1との時間差dで、前記音声データ32の再生速度がユーザの発話速度よりどの程度速いか遅いかを判断する。
このように構成された学習支援装置10は、前記CPU21が前記装置制御プログラム22a(前記会話練習用プログラムを含む)に記述された命令に従い回路各部の動作を制御し、ソフトウエアとハードウエアとが協働して動作することにより、以下の動作説明で述べる機能を実現する。
次に、前記構成による学習支援装置10の動作について説明する。
(第1実施形態)
図6は、前記学習支援装置10のシャドーイング学習処理(1)を示すフローチャートである。
CPU21の制御により、撮影部14により撮影されている撮影画像(26b)に基づいて、装置本体に人(ユーザ)が近付いたことが認識されると、記憶装置22に記憶されているユーザのスケジュールや、通信部25を介してWeb上から取得される当日のニュースに応じて、会話練習DB22bに予め記憶されているユーザを会話学習に導くための音声メッセージ(例えば「It is beginning to rain.…?(天気が悪くなりそう。出かけるの?)」)が選択され、選択された音声メッセージが音声出力部13から出力される。
ここで、前記会話練習用プログラムに含まれる各学習コンテンツのメニューが表示部11に表示され、表示されたメニューからシャドーイングの学習コンテンツが自動的に、あるいはユーザ操作に応じて選択されると(ステップS1)、選択されたシャドーイングの学習コンテンツが学習対象に設定される(ステップS2)。
すると、前記シャドーイングの学習コンテンツの実行が開始され、前記ユーザに対して顔を撮影部14に向けるよう促す音声メッセージが前記音声出力部13から出力される(ステップS3)。
前記撮影部14により撮影されている撮影画像(26b)において、前記ユーザの顔と口の位置が認識されると、前記会話練習DB22bに記憶されているシャドーイング学習用会話練習データ22b1(図3参照)のテキストデータ31が表示部11に表示され、また、模範の音声データ32の再生が開始される(ステップS4)。
すると、前記テキストデータ31の表示及び音声データ32の再生開始に合わせて、ユーザがシャドーイングの学習を開始する。
この後、前記図4,図5で示したように、前記基準画像データm33aの検出時間m1(33at)(又は基準画像データf33bの検出時間f1(33bt))の所定時間Tsec(=1.5sec)前に設定した基準画像“m”(又は“f”)を検出するためのタイミングになったと判断されると(ステップS5(Yes))、そのタイミングから前記検出時間m1(33at)(又は検出時間f1(33bt))後の所定時間Tsecまでの間(2Tsec=3sec)、前記撮影部14により撮影されているユーザの口元の撮影画像X-n…X0…Xnが取得され撮影画像データメモリ26bに記憶される(ステップS6)。
そして、前記取得されたユーザの口元の撮影画像X-n…X0…Xnのそれぞれについて、前記基準画像データm33a(又は基準画像データf33b)との類似度Y-n…Y0…Ynが算出される(ステップS7)。
ここで、前記撮影画像X-n…X0…Xnそれぞれの類似度Y-n…Y0…Ynのうち、予め設定された閾値Ythを超える類似度があると判断されると(ステップS8(Yes))、当該閾値Ythを超えた類似度のうち最大類似度Ymaxの撮影画像Xmax(前記テキストデータ31の“m”(又は“f”)のスペルを発音した口元の画像)が選択される(ステップS9)。つまり、最大類似度Ymaxが得られた撮影画像Xmaxが特定されると、その撮影画像Xmaxが撮影されたときに基準となる発音がされたものと推定されるのである。
すると、前記選択された撮影画像Xmaxの検出時間(撮影時間)tm1と前記基準画像m(又はf)の検出時間m1(またはf1)との時間差dが、前記予め設定されたシャドーイングに効果的な発話遅れの範囲内(dmin<d≦dmax)か否かが判断される(ステップS10)。
ここで、前記時間差dが予め設定された発話遅れの範囲内(dmin<d≦dmax)であると判断された場合は(ステップS10(Yes))、前記ステップS4からの処理に戻り、前記音声データ32の再生が継続される。
一方、前記時間差dが予め設定された発話遅れの範囲内(dmin<d≦dmax)にないと判断された場合は(ステップS10(No))、前記音声データ32の再生速度が速すぎるのか(dmax<d)、又は遅すぎるのか(d≦dmin)が判断される(ステップS11,S12)。
そして、前記音声データ32の再生速度が速すぎる(dmax<d)と判断された場合は(ステップS11(Yes))、当該音声データ32の再生を一時停止するか再生速度を遅らせて、前記時間差dが前記予め設定された発話遅れの範囲内(dmin<d≦dmax)になるよう制御する(ステップS11a)。
また、前記音声データ32の再生速度が遅すぎる(d≦dmin)と判断された場合は(ステップS12(Yes))、当該音声データ32の再生を一時飛ばす(スキップする)か再生速度を速くして、前記時間差dが前記予め設定された発話遅れの範囲内(dmin<d≦dmax)になるよう制御する(ステップS12a)。
この後、前記音声データ32の再生が終了したか否かが判断され(ステップS13)、終了していないと判断された場合は(ステップS13(No))、前記ステップS4からの処理に戻り、当該音声データ32の再生が継続される。また、前記音声データ32の再生が終了したと判断された場合は(ステップS13(Yes))、前記一連のシャドーイング学習処理(1)が終了される(End)。
したがって、前記構成の第1実施形態の学習支援装置10によれば、会話練習データ22b1(図3参照)の音声データ32を再生しながらユーザが後追いで発話して行くシャドーイングの学習において、前記音声データ32の音声のうち、口元の形に特徴が出る“m”と“f”の発音に対応した口元の形の各基準画像データm33a,f33bと、前記音声データ32の再生時間のうち、前記各基準画像データm33a,f33bの口元の形が出現する位置の各検出時間データ(m1,m2,…)33at,(f1,f2,…)33btとを、予め対応付けて記憶する。そして、撮影部14により連続撮影されているユーザの口元の撮影画像X-n…X0…Xnのうち、前記基準画像データm33a,f33bとの類似度Y-n…Y0…Ynが閾値Ythより高い撮影画像Xmaxが選択され、前記基準画像データm33a,f33bの検出時間データ(m1,m2,…)33at,(f1,f2,…)33btと前記選択された撮影画像Xmaxの撮影時間との時間差dに基づき、前記音声データ32の再生に対する前記ユーザの発話の速さ遅さが判断される。そして、前記時間差dが前記シャドーイングの学習に効果的な範囲内(dmin<d≦dmax)にない場合は、前記音声データ32の再生速度が制御され、前記時間差dが前記範囲内(dmin<d≦dmax)になるように調整される。
これにより、ユーザに対して前記音声データ32の再生によるシャドーイングの学習が常に効果的に行われるように、当該音声データ32の再生速度を自動的に制御し調整することができる。よって、シャドーイングの学習をより簡単に且つ効果的に行なうことが可能になる。
(第2実施形態)
図7は、前記学習支援装置10の会話練習DB22bに記憶された第2実施形態のシャドーイング学習用の会話練習データ22b1´を示す図である。
この第2実施形態の会話練習データ22b1´には、前記第1実施形態の会話練習データ22b1(図3参照)として記憶されているテキストデータ31と模範の音声データ32に加えて、当該音声データ32を発声した講師等の模範の話者の口元の画像を撮影した模範画像データ(動画)34が記憶される。
また、前記第1実施形態の会話練習データ22b1(図3参照)として記憶されている“m”の基準画像データ33aと“f”の基準画像データ33bに代えて、ユーザ自身に“m”の発音の口の形をさせて撮影した登録画像データm33a´と、“f”の発音の口の形をさせて撮影した登録画像データf33b´とを記憶させる。
図8は、前記学習支援装置10のシャドーイング学習処理(2)を示すフローチャートである。
このシャドーイング学習処理(2)は、前記第1実施形態のシャドーイング学習処理(1)における[学習対象設定処理](ステップS2)と[シャドーイング開始処理](ステップS3)との間に、前記登録画像データm33a´と前記登録画像データf33b´とを基準画像として撮影して登録するための[撮影・登録処理](ステップS2a)を追加して構成する。
なお、前記シャドーイング学習処理(2)におけるステップS4以降の処理は、前記シャドーイング学習処理(1)での処理と同様に、前記登録画像データm33a´(又はf33b´)の検出時間データ33at(又は22bt)と、当該登録画像データm33a´(又はf33b´)との最大類似度Ymaxの撮影画像Xmaxに対応する撮影時間との時間差dに基づき、前記音声データ32の再生に対する前記ユーザの発話の速さ遅さが判断される。そして、前記時間差dが前記シャドーイングの学習に効果的な範囲内(dmin<d≦dmax)になるように、前記音声データ32の再生速度が制御され調整される。
図9は、前記シャドーイング学習処理(2)での[撮影・登録処理](ステップS2a)に際してユーザに対し基準画像の撮影・登録を促すためのガイド画面G1と、[シャドーイング開始処理](ステップS3)以降のユーザに対して予め記憶された模範の口元の模範画像(34)とユーザの口元を撮影した撮影画像(26b)とを並べて確認させるためのシャドーイング確認画面G2とを示す図である。
すなわち、前記シャドーイング学習処理(2)の[撮影・登録処理](ステップS2a)では、図9(A)に示すようなガイド画面G1を表示部11に表示させて、ユーザに対し基準画像の撮影・登録を促すためのメッセージ「“if”と発音してください。」と“f”の発音に対応する模範の口元画像g0とを示すことで、前記登録画像データf33b´を容易に且つ正しく撮影して登録できる。なお、前記登録画像データm33a´の撮影・登録を促すためのガイド画面G1には、例えばメッセージ「“him”と発音してください。」と“m”の発音に対応する模範の口元画像g0とが示される。
また、前記シャドーイング学習処理(2)によるシャドーイングの実行中(ステップS3〜S13)には、図9(B)に示すようなシャドーイング確認画面G2によって、前記テキストデータ31と音声データ32の再生に対応した模範の口元の模範画像(34)とユーザ自身の口元の撮影画像(26b)とを並べて確認できる。これにより、模範の音声データ32の再生に対するユーザのシャドーイングによる発話の練習を更に効果的に行なうことができる。
また、前記シャドーイングの実行中にユーザの口元を撮影した各撮影画像X-n…X0…Xnの中から基準となる口元の画像を検出するための登録画像データm33a´及び登録画像データf33b´は、前記[撮影・登録処理](ステップS2a)に従い撮影・登録されたユーザ自身の口元の画像になる。これにより、前記ユーザの口元を撮影した各撮影画像X-n…X0…Xnの中から基準となる口元の画像をより正確に検出できる。
なお、前記各実施形態では、模範の音声データ32の再生時間上で、ユーザが発話している位置を検出するための口元の形の基準画像(33a,33b)や登録画像(33a´,33b´)として、“m”“f”等のテキストデータ31に含まれる特定のスペルの発音に対応した画像を用いたが、これに限らず、“The”“have”等の前記テキストデータ31に頻出する単語の発音に対応した画像(動画)を用いてもよい。
前記各実施形態において記載した学習支援装置10による各処理の手法、すなわち、図6のフローチャートに示すシャドーイング学習処理(1)、図8のフローチャートに示すシャドーイング学習処理(2)等の各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記録装置の媒体(23)に格納して配布することができる。そして、表示部、音声出力部、撮影部を備えた電子機器のコンピュータ(21)は、この外部記録装置の媒体(23)に記憶されたプログラムを記憶装置(22)に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記各実施形態において説明したシャドーイング学習機能を実現し、前述した手法による同様の処理を実行することができる。また、このようなプログラムをタッチパネル式のPDA(personal digital assistants)、PC(personal computer)、携帯電話、電子ブック、携帯ゲーム機等に読み込ませて、前記学習支援装置10と同じ機能を持たせることもできる。
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク上を伝送させることができ、この通信ネットワークに接続されたコンピュータ装置(プログラムサーバ)から前記プログラムのデータを、表示部、音声出力部、撮影部を備えた電子機器に取り込んで記憶装置(22)に記憶させ、前述したシャドーイング学習機能を実現することもできる。
本願発明は、前記各実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が異なる形態にして組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
音声データを再生する音声再生手段と、
前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶している基準データ記憶手段と、
前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段と、
を備えたことを特徴とする学習支援装置。
[2]
前記再生制御手段は、前記撮影手段により撮影されているユーザの口元の撮影画像を対象に前記基準データ記憶手段により記憶されている基準画像データとの類似度を算出する類似度算出手段を有し、前記類似度算出手段により算出された類似度に基づいて、前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該撮影画像の撮影時間と前記所定の発声が再生される時間位置との時間差に基づき前記音声データの再生速度を制御する、
ことを特徴とする[1]に記載の学習支援装置。
[3]
前記基準データ記憶手段は、ユーザに所定の発声をさせた際の当該ユーザの口元の撮影画像を基準画像データとして登録する基準画像登録手段を有する、
ことを特徴とする[1]又は[2]に記載の学習支援装置。
[4]
前記音声再生手段による音声の再生に合わせて当該音声を発声する口元の模範画像を表示させる模範画像表示手段と、
前記模範画像表示手段により表示される模範画像と並べて、前記撮影手段により撮影されるユーザの口元の撮影画像を表示させる撮影画像表示手段と、
を備えたことを特徴とする[1]乃至[3]の何れかに記載の学習支援装置。
[5]
電子機器のコンピュータを、
音声データを再生する音声再生手段と、
前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶する基準データ記憶手段と、
前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段、
として機能させるためのコンピュータ読み込み可能なプログラム。
10 …学習支援装置
10R…置き型装置(学習支援装置)
10H…タブレット端末(学習支援装置)
11 …タッチパネル付き表示部
12 …音声入力部(マイク)
13 …音声出力部(スピーカ)
14 …撮影部(カメラ)
21 …CPU
22 …記憶装置
22a…装置制御プログラム
22b…会話練習データベース
22b1…シャドーイング学習用の会話練習データ
22c…スケジュールデータ
26b…撮影画像データメモリ
31 …テキストデータ
32 …音声データ
33a…基準画像データm
33a´…登録画像データm
33at…mの検出時間データ(m1,m2,…)
33b…基準画像データf
33b´…登録画像データf
33bt…fの検出時間データ(f1,f2,…)
34 …模範画像データ
G1 …基準画像撮影・登録ガイド画面
G2 …シャドーイング確認画面

Claims (5)

  1. 音声データを再生する音声再生手段と、
    前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
    前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶している基準データ記憶手段と、
    前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段と、
    を備えたことを特徴とする学習支援装置。
  2. 前記再生制御手段は、前記撮影手段により撮影されているユーザの口元の撮影画像を対象に前記基準データ記憶手段により記憶されている基準画像データとの類似度を算出する類似度算出手段を有し、前記類似度算出手段により算出された類似度に基づいて、前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該撮影画像の撮影時間と前記所定の発声が再生される時間位置との時間差に基づき前記音声データの再生速度を制御する、
    ことを特徴とする請求項1に記載の学習支援装置。
  3. 前記基準データ記憶手段は、ユーザに所定の発声をさせた際の当該ユーザの口元の撮影画像を基準画像データとして登録する基準画像登録手段を有する、
    ことを特徴とする請求項1又は請求項2に記載の学習支援装置。
  4. 前記音声再生手段による音声の再生に合わせて当該音声を発声する口元の模範画像を表示させる模範画像表示手段と、
    前記模範画像表示手段により表示される模範画像と並べて、前記撮影手段により撮影されるユーザの口元の撮影画像を表示させる撮影画像表示手段と、
    を備えたことを特徴とする請求項1乃至請求項3の何れか1項に記載の学習支援装置。
  5. 電子機器のコンピュータを、
    音声データを再生する音声再生手段と、
    前記音声再生手段により再生される音声に合わせて発声するユーザの口元を撮影する撮影手段と、
    前記音声データに含まれる音声の所定の発声に応じた口元の基準画像データと、前記音声再生手段により前記音声データに含まれる前記所定の発声が再生される時間位置とを記憶する基準データ記憶手段と、
    前記撮影手段により撮影されているユーザの口元の撮影画像から前記所定の音声が発声されたと推定されるユーザの口元の撮影画像を特定し、当該特定した撮影画像の撮影時間と前記基準データ記憶手段に記憶されている所定の発声が再生される時間位置に基づき前記音声データの再生速度を制御する再生制御手段、
    として機能させるためのコンピュータ読み込み可能なプログラム。
JP2016026895A 2016-02-16 2016-02-16 学習支援装置及びプログラム Pending JP2017146402A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016026895A JP2017146402A (ja) 2016-02-16 2016-02-16 学習支援装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016026895A JP2017146402A (ja) 2016-02-16 2016-02-16 学習支援装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2017146402A true JP2017146402A (ja) 2017-08-24

Family

ID=59682984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016026895A Pending JP2017146402A (ja) 2016-02-16 2016-02-16 学習支援装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2017146402A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021110874A (ja) * 2020-01-14 2021-08-02 シンレイ チョウ 発話練習プログラム、発話練習方法、及び、発話練習装置
JP2021113904A (ja) * 2020-01-20 2021-08-05 泰宏 中野 音声学習システム、および音声学習方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021110874A (ja) * 2020-01-14 2021-08-02 シンレイ チョウ 発話練習プログラム、発話練習方法、及び、発話練習装置
JP2021113904A (ja) * 2020-01-20 2021-08-05 泰宏 中野 音声学習システム、および音声学習方法

Similar Documents

Publication Publication Date Title
CN113052085B (zh) 视频剪辑方法、装置、电子设备以及存储介质
CN111179923B (zh) 一种基于可穿戴设备的音频播放方法及可穿戴设备
US8393962B2 (en) Storage medium storing game program and game device
KR101789221B1 (ko) 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
JP2011257943A (ja) ジェスチャ操作入力装置
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
JP2024059809A (ja) 情報処理装置、情報処理方法、情報処理システム及び情報処理プログラム
JP2017146402A (ja) 学習支援装置及びプログラム
JP2017032693A (ja) 映像記録再生装置
US8553855B2 (en) Conference support apparatus and conference support method
WO2014077182A1 (ja) 携帯情報端末、シャドー音声管理方法及びコンピュータプログラム
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
CN103491304B (zh) 一种拍照方法及移动终端
KR20110065276A (ko) 비교 영상을 이용한 발음 학습 방법 및 장치
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
CN114356068B (zh) 一种数据处理方法、装置和电子设备
JP2004301893A (ja) 音声認識装置の制御方法
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
JP2006184589A (ja) カメラ装置、及び撮影方法
KR20120031373A (ko) 학습 서비스 시스템 및 방법
CN108364631B (zh) 一种语音合成方法和装置
JP2012105234A (ja) 字幕生成配信システム、字幕生成配信方法およびプログラム
JP2006163269A (ja) 語学学習装置
JP6977463B2 (ja) 通信装置、通信システムおよびプログラム
JP6696878B2 (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法