JP2007163801A

JP2007163801A - コンテンツ再生装置

Info

Publication number: JP2007163801A
Application number: JP2005359498A
Authority: JP
Inventors: Akane Noguchi; あかね野口
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-12-13
Filing date: 2005-12-13
Publication date: 2007-06-28

Abstract

【課題】映画などのコンテンツを利用して語学学習ができると共に、発音の良否を学習者が確認できるようにする。
【解決手段】語学学習装置は、映画コンテンツが記録されたＤＶＤから字幕を読み出し、読み出した字幕を表示する。ユーザが入力部を操作して字幕を選択すると、選択された字幕が表示される場面から映画を再生し、ユーザに字幕のセンテンスの発音を促す。語学学習装置はユーザの音声が入力されると、入力された音声と選択された字幕の再生中に再生される音声との差異に基づいて、ユーザの発音の良否を判定し、判定結果をユーザに報知する。
【選択図】図１

Description

本発明は、映像中に表示される字幕を利用して語学学習を行う技術に関する。

外国映画のセリフは、外国語の日常会話を多く含んでいるため、外国映画を記録したビデオテープやＤＶＤ（Digital Versatile Disc）は、単に映画を楽しむだけでなく語学学習の教材としても利用されている。特に、近年普及しているＤＶＤは、ビデオテープと比較して巻きもどしや早送り、繰返し再生等を容易に行うことができ、また、これらの動作を繰返し行ってもビデオテープのように記録媒体が劣化しない。このため、繰返し再生が頻繁に行われる語学学習用として注目されており、ＤＶＤを利用して語学学習を行う技術も考案されている。

例えば、特許文献１には、映画のセリフのリストを表示し、選択されたセリフが発音される場面を再生するシステムが開示されている。このシステムにおいては、学習したいセリフが選択されると、そのセリフが再生される場面が頭出しされ、学習したいセリフの音声が再生される。特許文献１に開示されたシステムにおいては、再生される映像に映画を使用すれば、日常会話等が自然な速さで発音されるので、この発音を聞いてシャドウイングやリスニングを行えば、効果的な語学学習を行うことができる。
特開２００１−２２２６５号公報

ところで、人間を相手にして会話の練習を行う場合には、相手に発音をチェックしてもらうことができるため、発音の間違いを認識してすぐに発音を修正することができる。しかしながら、特許文献１に開示されているようなシステムを利用し、一人で発音練習を行う場合には、発音している本人は正しく発音しているか判断できないため、間違った発音を身に付けてしまう虞がある。

本発明は、上述した背景の下になされたものであり、その目的は、映画などのコンテンツを利用して語学学習ができると共に、発音の良否を学習者が確認できるようにすることにある。

上述した課題を解決するために本発明は、再生時間軸に沿って記録されている映像データと、音声データと、字幕データと、前記字幕データの再生開始時刻を示す再生時刻データとを有するコンテンツを再生するコンテンツ再生装置において、前記映像データ、音声データおよび字幕データを前記再生時間軸に沿って読み出し、読み出した各データを再生する読出再生手段と、ユーザによって操作される操作手段と、前記操作手段が操作されたときに前記読出再生手段によって再生されている字幕データの再生開始時刻を示す再生時刻データを参照し、前記読出再生手段に対して当該時刻データが示すタイミングからの再生を指示する再生位置指示手段と、ユーザの音声が入力される音声入力手段と、前記再生位置指示手段によって指示されたタイミングから前記読出再生手段が再生した音声データの音声と、前記音声入力手段に入力された音声とを比較して差異を求める差異取得手段と、前記差異取得手段によって求められた差異に応じて予め定められたアルゴリズムに応じた評価を行う評価手段とを有することを特徴とするコンテンツ再生装置を提供する。

また本発明は、再生時間軸に沿って記録されている映像データと、音声データと、字幕データと、前記字幕データの再生開始時刻を示す再生時刻データとを有するコンテンツを再生するコンテンツ再生装置において、前記字幕データから再生される字幕のリストを生成するリスト生成手段と、前記リスト生成手段が生成したリストを表示する表示手段と、ユーザによって操作される操作手段と、前記操作手段の操作に応じて前記表示手段に表示されている字幕を選択する選択手段と、前記映像データ、音声データおよび字幕データを読み出し、読み出した各データを再生する読出再生手段と、前記選択手段によって選択された字幕の再生開始時刻を示す再生時刻データを参照し、前記読出再生手段に対して当該再生時刻データが示すタイミングからの再生を指示する再生位置指示手段と、ユーザの音声が入力される音声入力手段と、前記再生位置指示手段によって指示されたタイミングから前記読出再生手段が再生した音声データの音声と、前記音声入力手段に入力された音声とを比較して差異を求める差異取得手段と、前記差異取得手段によって求められた差異に応じて予め定められたアルゴリズムに応じた評価を行う評価手段とを有することを特徴とするコンテンツ再生装置を提供する。

好ましい態様においては、上記コンテンツ再生装置は、前記再生位置指示手段によって前記読出再生手段への再生の指示がされた後、ユーザに発音を促す発音要求手段を備えるようにしてもよい。

本発明によれば、映画などのコンテンツを利用して語学学習ができると共に、発音の良否を学習者が確認することができる。

［第１実施形態］
（実施形態の構成）
以下、図面を参照して本発明の実施形態について説明する。図１は、本発明の実施形態に係る語学学習装置のハードウェア構成を示したブロック図である。図１に示したように、語学学習装置の各部は、バス１０１に接続されており、このバス１０１を介して各部間で信号やデータの授受を行う。

光学ドライブ部１０９は、デジタルデータとしてＤＶＤに記録されているコンテンツを読み出すものである。ここで、コンテンツが映画コンテンツの場合、光学ドライブ部１０９はＣＰＵ１０２の制御の下、デジタルデータである映像データや音響データ、字幕データ等を含むパケットをＤＶＤから読み出し、読み出したパケットを信号処理部１０７へ出力する。ここで、映像データや音響データ、字幕データはＭＰＥＧ−２フォーマットでＤＶＤに記録されている。信号処理部１０７は、光学ドライブ部１０９から出力されたパケットをデコードするものである。信号処理部１０７は、パケットに含まれている音響データをデコードし、音響データが表す音のアナログ信号（音響信号）を生成して音響再生部１０８と音声処理部１１０へ出力する。また、信号処理部１０７は、パケットに含まれている映像データと字幕データとをデコードし、これらのデータが示す画像の映像信号を生成して表示部１０６へ出力する。

音響再生部１０８は、アンプおよびスピーカを備えており（いずれも図示略）、信号処理部１０７から出力された音響信号を増幅し、音響信号が表す音をスピーカから出力する。
表示部１０６は、例えば、液晶ディスプレイ等の表示デバイスを備えており、信号処理部１０７から出力された映像信号に従って、映像や字幕を表示する。また、表示部１０６はＣＰＵ１０２の制御の下、各種メッセージや語学学習装置を操作するためのメニュー画面等を表示する。

入力部１０５は、図２に例示したように、ユーザの音声を電気信号に変換するマイクロホン２０１と、語学学習装置を操作するための各種キーとを備えている。マイクロホン２０１は、入力される音声に対応した電気信号（以下、音声信号と称する）を音声処理部１１０へ出力する。
また、入力部１０５は、図２に示した各種キーが押下されると、押下されたキーを示すキー信号をＣＰＵ１０２へ出力する。
キー２１０〜キー２１２は、ＤＶＤに記録されている映像・音声の再生、早送り、巻き戻しを行う際に使用されるキーである。キー２１０（プレイキー）が押下されると、ＣＰＵ１０２により各部が制御され、ＤＶＤに記録されている映像や音声の再生が行われる。また、キー２１１（早送りキー）が押下されると映像や音声の早送り再生が行われ、キー２１２（巻き戻しキー）が押下されると映像や音声の巻き戻し再生が行われる。
キー２３０およびキー２３１は、ＤＶＤの再生のモードを切替える際に使用されるキーである。キー２３１（練習モードキー）は、ＤＶＤの再生モードを発音の練習を行う練習モードに移行させる際に使用され、キー２３０（通常再生モードキー）は、ＤＶＤの通常再生を行う通常再生モードに移行させる際に使用される。
キー２２１〜キー２２４は、ユーザが発音の練習を行う際に使用されるキーである。キー２２１（前文キー）およびキー２２２（次文キー）は、映像や字幕および音声の早送りや巻き戻しを行う際に使用される。また、キー２２３（再生キー）は、字幕に対応した音声が出力される場面の再生をする際に使用され、キー２２４（採点キー）は、字幕に対応した音声と、ユーザの音声とを比較する際に使用される。

音声処理部１１０は、マイクロホン２０１から出力された音声信号が表す音声と、信号処理部１０７から出力された音響信号が表す音声とを比較するものであり、比較結果をＣＰＵ１０２へ出力する。
ＲＯＭ（Read Only Memory）１０３は、語学学習装置に各種機能を実現させる制御プログラムを記憶している。ＣＰＵ１０２は、ＲＯＭ１０３から制御プログラムを読出し、ＲＡＭ（Random Access Memory）１０４を作業エリアとして制御プログラムを実行する。
ＣＰＵ１０２は、一定の周期で実行するタイマー割り込み処理により、入力部１０５から出力されたキー信号が入力されたか否かを検知する。ＣＰＵ１０２は、キー信号が入力されたことを割り込み処理のタイミングにおいて検知すると、入力されたキー信号に基づいて、入力部１０５において押下されたキーを特定し、特定したキーおよびＤＶＤの再生のモードに応じて、図３〜図１１に示した各種キーに対応した処理を実行する。
また、ＣＰＵ１０２が制御プログラムを実行すると、ＤＶＤを再生する機能や、ユーザの音声とＤＶＤに記録されている音声とを比較して比較結果を表示する機能等の各種機能が語学学習装置において実現する。

［実施形態の動作］
次にコンテンツ再生装置の動作について説明する。
ユーザが字幕入りの映画コンテンツが記録されたＤＶＤを光学ドライブ部１０９に挿入すると、ＤＶＤの再生モードが通常再生モードとなる。ここで、ユーザがキー２１０（プレイキー）を押下すると、キー２１０が押下されたことを示すキー信号が入力部１０５から出力される。ＣＰＵ１０２は、一定の周期で実行する割り込み処理により、入力部１０５から出力されたキー信号を検知する。そして、ＣＰＵ１０２は、キー信号を検知すると、押下されたキーがキー２１０であることを入力されたキー信号に基づいて特定し、図３に示した処理を実行する。具体的には、まずＣＰＵ１０２は再生モードが通常再生モードであるか発音練習モードであるかを判断する。ここでＣＰＵ１０２は、再生モードが発音練習モードである場合には何もせず（図３：ステップＳＡ１；ＮＯ）、再生モードが通常再生モードである場合には（ステップＳＡ１；ＹＥＳ）、ＤＶＤに記録されているコンテンツ（映像や字幕および音声）の再生を行う。具体的には、ＣＰＵ１０２によって光学ドライブ部１０９が制御され、映像データや音声データ、字幕データを含むパケットがＤＶＤから読み出されて信号処理部１０７へ出力される。信号処理部１０７は、読み出されたパケットに含まれている音響データをデコードし、音響データが表す音に対応した音響信号を音響再生部１０８へ出力する。また、信号処理部１０７は、読み出されたパケットに含まれている映像データと字幕データとをデコードし、デコードされた画像を示す映像信号を表示部１０６へ出力する。映像信号が表示部１０６へ出力されると共に、音響信号が音響再生部１０８へ出力されると、音響データが表す音がスピーカから出力され、映像データが表す画像と字幕データが表す字幕とが表示部１０６に表示される。また、信号処理部１０７は、再生中の字幕画像と該字幕の再生開始時刻を示す時刻管理情報とをパケットから抽出し、この抽出した字幕と時刻管理情報とをＲＡＭ１０４に記憶する。

この後、ユーザがキー２１１（早送りキー）を押下し、キー２１１が押下されたことを示すキー信号が入力部１０５からＣＰＵ１０２に入力されると、ＣＰＵ１０２は、押下されたキーを入力されたキー信号に基づいて特定し、図４に示した処理を実行する。まずＣＰＵ１０２は再生モードが通常再生モードであるか発音練習モードであるかを判断する。ここでＣＰＵ１０２は、再生モードが発音練習モードである場合には何もせず（図４：ステップＳＢ１；ＮＯ）、再生モードが通常再生モードである場合には（ステップＳＢ１；ＹＥＳ）、ＤＶＤに記録されているコンテンツ（映像や字幕および音声）の早送り再生を行う（ステップＳＢ２）。
また、ユーザがキー２１２（巻き戻しキー）を押下し、キー２１２が押下されたことを示すキー信号がＣＰＵ１０２に入力されると、ＣＰＵ１０２は、押下されたキーを入力されたキー信号に基づいて特定し、図５に示した処理を実行する。まず、ＣＰＵ１０２は再生モードが通常再生モードであるか発音練習モードであるかを判断する。ここでＣＰＵ１０２は、再生モードが発音練習モードである場合には何もせず（図５：ステップＳＣ１；ＮＯ）、再生モードが通常再生モードである場合には（ステップＳＣ１；ＹＥＳ）、ＤＶＤに記録されているコンテンツ（映像や字幕および音声）の巻き戻し再生を行う（ステップＳＣ２）。

ユーザは、再生されている画像を視聴し、学習したいと思うセリフの字幕が表示された場合、キー２３１（練習モードキー）を押下する。ＣＰＵ１０２は、キー２３１が押下されると、図６に示した処理を実行する。具体的には、まず、ＣＰＵ１０２は、ＤＶＤの再生モードが通常再生モードであるか否かを判断する。ＣＰＵ１０２は、再生モードが通常再生モードでない場合には何もしない（図６：ステップＳＤ１；ＮＯ）。一方、再生モードが通常再生モードである場合（ステップＳＤ１；ＹＥＳ）、再生モードを通常再生モードから発音練習モードへ移行させる（ステップＳＤ２）。そしてＣＰＵ１０２は、キー２３１が押下された時に表示されていた字幕の再生時点まで映像と字幕および音声の再生が行われるように、光学ドライブ部１０９と信号処理部１０７とを制御する。ＣＰＵ１０２は、キー２３１が押下された時に表示されていた字幕の再生が終了すると、映像と字幕および音声の再生を一時停止する（ステップＳＤ３）。ここでＲＡＭ１０４には、キー２３１が押下された時に再生されていた字幕の再生開始時刻を示す時刻管理情報が記憶される。

再生モードが発音練習モードに移行した後、ユーザがキー２２３（再生キー）を押下すると、ＣＰＵ１０２は図７に示した処理を実行する。具体的には、まず、ＣＰＵ１０２は、ＤＶＤの再生モードが発音練習モードであるか否かを判断する。ＣＰＵ１０２は、再生モードが発音練習モードでない場合には何もしない（図７：ステップＳＥ１；ＮＯ）。一方、再生モードが発音練習モードである場合（ステップＳＥ１；ＹＥＳ）、ＣＰＵ１０２は、ＲＡＭ１０４に記憶されている時刻管理情報を読み出し（ステップＳＥ２）、この時刻管理情報が示す再生開始時刻の場面から映像と字幕および音声の再生が行われるように、光学ドライブ部１０９および信号処理部１０７を制御する（ステップＳＥ３）。この後、ＣＰＵ１０２は、キー２３１が押下された時に表示されている字幕の再生が終了すると、光学ドライブ部１０９と信号処理部１０７とを制御して、映像と字幕および音声の再生を一時停止する（ステップＳＥ４）。これにより、ユーザは、発音練習モードにおいては練習したいセリフを繰り返し聞くことができる。

また、ユーザがキー２２４（採点キー）を押下すると、ＣＰＵ１０２は図８に示した処理を実行する。具体的には、まず、ＣＰＵ１０２は、ＤＶＤの再生モードが発音練習モードであるか否かを判断する。ＣＰＵ１０２は、再生モードが発音練習モードでない場合には何もしない（図８：ステップＳＦ１；ＮＯ）。一方、再生モードが発音練習モードである場合（ステップＳＦ１；ＹＥＳ）、ＣＰＵ１０２は、ＲＡＭ１０４に記憶されている時刻管理情報を読み出し（ステップＳＦ２）、この時刻管理情報が示す再生開始時刻の場面から映像と字幕および音声の再生が行われるように、光学ドライブ部１０９および信号処理部１０７を制御する（ステップＳＦ３）。ここで、音響信号は音声処理部１１０へも出力される。音声処理部１１０は、音響信号が入力されると、入力された音響信号をデジタル化し、発音の手本となる基準データとして一時記憶する。ＣＰＵ１０２は、キー２３１が押下された時に表示されていた字幕の再生が終了すると、映像と字幕および音声の再生を一時停止する（ステップＳＦ４）。

ＣＰＵ１０２は、映像と字幕および音声の再生を一時停止させた後、表示部１０６を制御し、ユーザに発音を促すメッセージを表示する（ステップＳＦ５）。このメッセージに促されてユーザが発音すると、ユーザの発した音声に対応した音声信号がマイクロホン２０１から音声処理部１１０へ出力される。音声処理部１１０は、マイクロホン２０１から出力された音声信号をデジタル化し、ユーザの発音を示すユーザデータとして一時記憶する。次に音声処理部１１０は、一時記憶されている基準データとユーザデータとを比較する。例えば、音声処理部１１０は、基準データが表す音声波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換して手本となる音声のスペクトル包絡を得る。また、音声処理部１１０は、ユーザデータが表す音声波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してユーザの音声のスペクトル包絡を得る。

次に音声処理部１１０は、基準データが表す音声のスペクトル包絡と、ユーザデータが表す音声のスペクトル包絡とを比較する。そして、基準データが表す音声のスペクトル包絡と、ユーザデータが表す音声のスペクトル包絡との差異が、予め決められたしきい値を超えた場合は、ユーザの発音が悪いものと判断し、予め決められたしきい値を超えていない場合には、ユーザの発音が良いものであると判断する。そして、判断結果を示す判断データをＣＰＵ１０２へ出力する。なお、基準データが表す音声とユーザデータが表す音声との差異は、例えば、特徴的なフォルマントの周波数とスペクトル密度とをスペクトル密度−周波数図に表したときの２点間の距離によって求めてもよいし、特定の周波数においてスペクトル密度を比較することによって求めてもよい。

ＣＰＵ１０２は、判断結果を示す判断データが入力されると（ステップＳＦ６；ＹＥＳ）、入力された判断データに応じて基準データとユーザデータの比較結果を表示する（ステップＳＦ７）。例えば、入力された判断データがユーザの発音が悪いことを示している場合には、ＣＰＵ１０２は表示部１０６を制御して「ｂａｄ」というメッセージを表示し、ユーザの発音が悪いことを示している場合には、ＣＰＵ１０２は表示部１０６を制御して「ｇｏｏｄ」というメッセージを表示する。ユーザは、学習したいと思うセリフを繰り返し練習する場合、再度キー２２４を押下する。キー２２４が押下されると、上述したステップＳＦ１〜ステップＳＦ７の処理が再度実行される。

また、ユーザがキー２２１（前文キー）を押下すると、ＣＰＵ１０２は図９に示した処理を実行する。具体的には、まず、ＣＰＵ１０２は、ＤＶＤの再生モードが発音練習モードであるか否かを判断する。ＣＰＵ１０２は、再生モードが発音練習モードでない場合には何もしない（図９：ステップＳＧ１；ＮＯ）。一方、再生モードが発音練習モードである場合（ステップＳＧ１；ＹＥＳ）、ＣＰＵ１０２は、ＲＡＭ１０４に記憶されている時刻管理情報を読み出す（ステップＳＧ２）。そして、ＣＰＵ１０２は、ＲＡＭ１０４から読み出した時刻管理情報が示す再生開始時刻より前に再生される字幕の時刻管理情報をＤＶＤから抽出してＲＡＭ１０４に記憶する（ステップＳＧ３）。この後、ＣＰＵ１０２は、ＲＡＭ１０４に記憶されている時刻管理情報を読み出し、この時刻管理情報が示す再生開始時刻の場面から映像と字幕および音声の再生が行われるように、光学ドライブ部１０９および信号処理部１０７を制御する（ステップＳＧ４）。ＣＰＵ１０２は、字幕の再生が終了すると、映像と字幕および音声の再生を一時停止する（ステップＳＧ５）。

また、ユーザがキー２２２（次文キー）を押下すると、ＣＰＵ１０２は図１０に示した処理を実行する。具体的には、まず、ＣＰＵ１０２は、ＤＶＤの再生モードが発音練習モードであるか否かを判断する。ＣＰＵ１０２は、再生モードが発音練習モードでない場合には何もしない（図１０：ステップＳＨ１；ＮＯ）。一方、再生モードが発音練習モードである場合（ステップＳＨ１；ＹＥＳ）、ＣＰＵ１０２は、ＲＡＭ１０４に記憶されている時刻管理情報を読み出す（ステップＳＨ２）。そして、ＣＰＵ１０２は、ＲＡＭ１０４から読み出した時刻管理情報が示す再生開始時刻より後に再生される字幕の時刻管理情報をＤＶＤから抽出してＲＡＭ１０４に記憶する（ステップＳＨ３）。この後、ＣＰＵ１０２は、ＲＡＭ１０４に記憶されている時刻管理情報を読み出し、この時刻管理情報が示す再生開始時刻の場面から映像と字幕および音声の再生が行われるように、光学ドライブ部１０９および信号処理部１０７を制御する（ステップＳＨ４）。ＣＰＵ１０２は、字幕の再生が終了すると、映像と字幕および音声の再生を一時停止する（ステップＳＨ５）。

また、ユーザがキー２３０（通常再生モードキー）を押下すると、ＣＰＵ１０２は図１１に示した処理を実行する。具体的には、まずＣＰＵ１０２は、ＣＰＵ１０２は、ＤＶＤの再生モードが発音練習モードであるか否かを判断する。ＣＰＵ１０２は、再生モードが発音練習モードでない場合には何もしない（ステップＳＪ１；ＮＯ）。一方、再生モードが発音練習モードである場合（ステップＳＪ１；ＹＥＳ）、再生モードを発音練習モードから通常再生モードへ移行させる（ステップＳＪ２）。そしてＣＰＵ１０２は、ＲＡＭ１０４に記憶されている時刻管理情報を読み出し（ステップＳＪ３）、この時刻管理情報が示す再生開始時刻の場面から映画の再生が行われるように、光学ドライブ部１０９および信号処理部１０７を制御する（ステップＳＪ４）。

以上説明したように本実施形態によれば、映画コンテンツに含まれている音声を手本として、ユーザの発音をチェックすることができる。また、本実施形態では、一般に市販される映画コンテンツをそのまま語学学習の教材として使用することができるため、コンテンツを楽しみつつ、語学の学習を行うことができる。また、本実施形態では、ＤＶＤに記録されている音声を発音の基準とし、記録されている音声の波形とユーザの音声の波形とを比較するので、言語解析の必要がなく、どのような言語であってもユーザの発音の良否を判断することができる。また、方言などについても練習することができる。

［第２実施形態］
（実施形態の構成）
以下、図面を参照して本発明の第２実施形態について説明する。
本実施形態に係わる語学学習装置のハードウェア構成は、第１実施形態に係わる語学学習装置と略同じとなっている。このため、ハードウェア構成に係わる説明を行う際には、図１を用いて説明を行う。

本実施形態においては、入力部の構成が第１実施形態と異なっている。図１２は、本実施形態に係わる入力部１０５が具備するキーおよびマイクロホンの配置を例示した図である。
入力部１０５は、図１２に例示したように、ユーザの音声を電気信号に変換するマイクロホン２０１と、語学学習装置を操作するための各種キーとを備えている。マイクロホン２０１は、入力される音声に対応した電気信号（以下、音声信号と称する）を音声処理部１１０へ出力する。
キー２１０〜キー２１２は、ＤＶＤに記録されている映像・音声の再生、早送り、巻き戻しを行う際に使用されるキーであり、キー２２０〜キー２１４は、ＤＶＤに記録されている字幕のリストの表示や、表示されたリスト中の字幕の選択を行う際に使用されるキーである。キー２１０（プレイキー）が押下されると、ＣＰＵ１０２により各部が制御され、ＤＶＤに記録されている映像や音声の再生が行われる。また、キー２１１（早送りキー）が押下されると映像や音声の早送り再生が行われ、キー２１２（巻き戻しキー）が押下されると映像や音声の巻き戻し再生が行われる。キー２２０（リスト表示キー）は、ＤＶＤに記録されている字幕のリストを表示部１０６に表示させる際に使用されるキーである。また、キー２２１（前文キー）およびキー２２２（次文キー）は、字幕のリストに表示された字幕の選択を行う際に使用されるキーである。キー２２３（再生キー）は、キー２２１，２２２によって選択された字幕が発音される場面を再生させる際に使用されるキーであり、キー２２４（採点キー）は、選択された字幕に対応した音声と、ユーザの音声とを比較する際に使用されるキーである。

ＲＯＭ（Read Only Memory）１０３は、語学学習装置に各種機能を実現させる制御プログラムを記憶している。ＣＰＵ１０２は、ＲＯＭ１０３から制御プログラムを読出し、ＲＡＭ（Random Access Memory）１０４を作業エリアとして制御プログラムを実行する。ＣＰＵ１０２が制御プログラムを実行すると、ＤＶＤを再生する機能や、ＤＶＤに記録されている字幕のリストを表示する機能、ユーザの音声とＤＶＤに記録されている音声とを比較して比較結果を表示する機能等の各種機能が実現する。

（実施形態の動作）
次に、語学学習装置の動作について説明する。
字幕入りの映画コンテンツが記録されたＤＶＤが光学ドライブ部１０９に挿入されると、ＣＰＵ１０２によって光学ドライブ部１０９が制御され、映像データや音声データ、字幕データを含むパケットがＤＶＤから読み出されて信号処理部１０７へ出力される。信号処理部１０７は、光学ドライブ部１０９から出力されたパケットをデコードし、字幕と字幕の再生時刻を示す時刻管理情報とをパケットから抽出する。この抽出された字幕は時刻管理情報に対応付けされ、字幕が再生される順番に従って、例えば図１８に示したようにＲＡＭ１０４に記憶される。

次にユーザがキー２２０（リスト表示キー）を押下すると、ＣＰＵ１０２はＲＡＭ１０４に記憶された字幕を読み出し（図１３：ステップＳＫ１）、ＲＡＭ１０４に記憶された字幕のリスト（図１９参照）が表示されるように表示部１０６を制御する（ステップＳＫ２）。

ユーザは、字幕のリストが表示された後、キー２２１（前文キー）またはキー２２２（次文キー）を使用して字幕を選択する。キー２２１が押下されると、ＣＰＵ１０２は、図１４に示した処理を実行する。具体的には、まずＣＰＵ１０２は、字幕のリストが表示中であるか否かを判断する。ＣＰＵ１０２は、字幕のリストが表示されていない場合には（図１４：ステップＳＬ１；ＮＯ）、何もしない。一方、字幕のリストが表示されている場合には（ステップＳＬ１；ＹＥＳ）、リスト中のカーソルＣを上方へ移動させる（ステップＳＬ２）。
一方、ＣＰＵ１０２はキー２２２が押下されると、図１５に示した処理を実行する。具体的には、まずＣＰＵ１０２は、字幕のリストが表示中であるか否かを判断する。ＣＰＵ１０２は、字幕のリストが表示されていない場合には（図１５：ステップＳＭ１；ＮＯ）、何もしない。一方、字幕のリストが表示されている場合には（ステップＳＭ１；ＹＥＳ）、リスト中のカーソルＣを下方へ移動させる（ステップＳＭ２）。

次にユーザは字幕の発音を確認したい場合、発音を確認したい字幕の位置へカーソルＣを移動させた後、キー２２３（再生キー）を押下する。キー２２３が押下されると、ＣＰＵ１０２は、図１６に示した処理を実行する。具体的には、まずＣＰＵ１０２は、字幕のリストが表示中であるか否かを判断する。ＣＰＵ１０２は、字幕のリストが表示されていない場合には（図１６：ステップＳＮ１；ＮＯ）、何もしない。一方、字幕のリストが表示されている場合には（ステップＳＮ１；ＹＥＳ）、字幕リスト中においてカーソルＣがある位置の字幕を特定し（ステップＳＮ２）、この特定した字幕をＲＡＭ１０４に格納されている字幕の中から検索する。ＣＰＵ１０２は、特定した字幕と同じ字幕を見つけると、見つけた字幕に対応付けて格納されている時刻管理情報を読み出す（ステップＳＮ３）。次にＣＰＵ１０２は、この時刻管理情報が示す再生時刻の場面から映画の再生が行われるように、光学ドライブ部１０９および信号処理部１０７を制御する（ステップＳＮ４）。光学ドライブ部１０９が制御され、映像データや音声データ、字幕データを含むパケットが読み出されると、読み出されたパケットが信号処理部１０７へ出力される。信号処理部１０７では、読み出されたパケットに含まれている音響データがデコードされ、音響データが表す音に対応した音響信号が音響再生部１０８へ出力される。また、読み出されたパケットに含まれている映像データと字幕データとがデコードされ、デコードされた画像を示す映像信号が表示部１０６へ出力される。映像信号が表示部１０６へ出力されると共に、音響信号が音響再生部１０８へ出力されると、音響データが表す音がスピーカから出力されると共に、映像データが表す画像と字幕データが表す字幕とが表示部１０６に表示され、選択された字幕が再生される場面から、映像および音声の再生が行われる。ＣＰＵ１０２は、選択された字幕の再生が終了すると、映像と字幕および音声の再生を一時停止する（ステップＳＮ５）。

次に、選択された字幕に対応した音声と、字幕のセンテンスを発音した時のユーザの音声とを比較する時の動作について説明する。上述したように、ＤＶＤを光学ドライブ部１０９に挿入した後、ユーザがキー２２０を押下すると、ＤＶＤに記録されている字幕のリストが表示される。ユーザは選択した字幕に対応した音声と、字幕のセンテンスを発音した時の音声とを比較したい場合、キー２２４（採点キー）を押下する。
キー２２４が押下されると、ＣＰＵ１０２は、図１７に示した処理を実行する。具体的には、まずＣＰＵ１０２は、字幕のリストが表示中であるか否かを判断する。ＣＰＵ１０２は、字幕のリストが表示されていない場合には（図１７：ステップＳＰ１；ＮＯ）、何もしない。一方、字幕のリストが表示されている場合には（ステップＳＰ１；ＹＥＳ）、ＣＰＵ１０２は字幕リスト中においてカーソルＣがある位置の字幕を特定し（ステップＳＰ２）、この特定した字幕をＲＡＭ１０４に格納されている字幕の中から検索する。ＣＰＵ１０２は、特定した字幕と同じ字幕を見つけると、見つけた字幕に対応付けて格納されている時刻管理情報を読み出す（ステップＳＰ３）。

次にＣＰＵ１０２は、この時刻管理情報が示す再生時刻の場面から映画の再生が行われるように、光学ドライブ部１０９および信号処理部１０７を制御する（ステップＳＰ４）。これにより、選択された字幕が再生される場面から、映像および音声の再生が行われる。なお、ここで、信号処理部１０７から出力される音響信号は音声処理部１１０へも出力される。音声処理部１１０は、音響信号が入力されると、入力された音響信号をデジタル化し、発音の手本となる基準データとして一時記憶する。次に、ＣＰＵ１０２は、光学ドライブ部１０９と信号処理部１０７とを制御し、選択された字幕の再生が終了すると、再生を一時停止する（ステップＳＰ５）。この後、ＣＰＵ１０２は、表示部１０６を制御し、発音を促すメッセージを表示する（ステップＳＰ６）。

次にユーザが再生された音声を真似て、選択した字幕のセンテンスをマイクロホン２０１に向かって発音すると、ユーザの発した音声に対応した音声信号がマイクロホン２０１から音声処理部１１０へ出力される。音声処理部１１０は、マイクロホン２０１から出力された音声信号をデジタル化し、ユーザの発音を示すユーザデータとして一時記憶する。次に音声処理部１１０は、一時記憶されている基準データとユーザデータとを比較する。例えば、音声処理部１１０は、基準データが表す音声波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換して手本となる音声のスペクトル包絡を得る。また、音声処理部１１０は、ユーザデータが表す音声波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してユーザの音声のスペクトル包絡を得る。

ＣＰＵ１０２は、判断結果を示す判断データが入力されると（ステップＳＰ７；ＹＥＳ）、入力された判断データに応じて基準データとユーザデータの比較結果を表示する（ステップＳＰ８）。例えば、入力された判断データがユーザの発音が悪いことを示している場合には、ＣＰＵ１０２は表示部１０６を制御して「ｂａｄ」というメッセージを表示し、ユーザの発音が悪いことを示している場合には、ＣＰＵ１０２は表示部１０６を制御して「ｇｏｏｄ」というメッセージを表示する。

以上説明したように本実施形態によれば、映画コンテンツに含まれている音声を手本として、ユーザの発音をチェックすることができる。また、本実施形態では、一般に市販される映画コンテンツをそのまま語学学習の教材として使用することができるため、コンテンツを楽しみつつ、語学の学習を行うことができる。また、本実施形態では、ＤＶＤに記録されている音声を発音の基準とし、記録されている音声とユーザの音声とを比較するので、どのような言語であってもユーザの発音の良否を判断することができる。

［変形例］
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、以下のように、他の様々な形態で実施可能である。

上述した実施形態においては、基準データとユーザデータの比較の際、基準データが表す音声と、ユーザデータが表す音声とを交互に再生するようにしてもよい。また、ユーザデータが表す音声を再生する際には、発音に問題がある箇所を特定し、問題のある発音の前後に無音区間を挿入したり、問題のある発音の部分のピッチを変えたりして、問題のある発音をユーザが認識できるようにしてもよい。

上述した実施形態においては、音声処理部１１０の機能をソフトウェアにより実現するようにしてもよい。近年のパーソナルコンピュータ装置は、音声信号を入力してデジタルデータに変換することや、ＤＶＤの再生をすることが可能である。このため、音声処理部１１０の機能、即ち、ＤＶＤから読み出された音声データが示す音声のスペクトル包絡と、ユーザの音声のスペクトル包絡とを比較し、スペクトル包絡との差異を求める機能をソフトウェアにより実現するようにすれば、パーソナルコンピュータ装置によって語学学習を行うことが可能となる。

上述した実施形態は、映画コンテンツがＤＶＤに記録されている場合を想定しているが、語学学習装置に通信機能を持たせ、通信ネットワークを介してサーバ装置から映像コンテンツを取得するようにしてもよい。
また、上述した実施形態においては、語学学習装置は、ＤＶＤ以外の光ディスク媒体や、磁気記録媒体等、ＤＶＤだけでなく様々な記録媒体から映画コンテンツを読み出して再生するようにしてもよい。
また、上述した実施形態においては、サーバ装置がコンテンツを端末装置へ提供し、端末装置において、セリフの選択および音声の入力を行い、選択されたセリフと、入力された音声との比較・評価をサーバ装置において行うようにしてもよい。

上述した実施形態においては、キー２２４が押下された際、選択された字幕が再生される場面の音声を再生しているが、音声は再生しないようにしてもよい。また、上述した実施形態においては、ユーザの音声が入力された後に、選択された字幕が再生される場面の音声を再生するようにしてもよい。

上述した実施形態においては、語学学習装置は、表示部１０６を一体化して備えるのではなく、別体で後付けできるようにしてもよい。
上述した実施形態においては、ＣＰＵ１０２が実行するプログラム、即ち、コンピュータを、再生時間軸に沿って記録されている映像データと、音声データと、字幕データと、前記字幕データの再生開始時刻を示す再生時刻データとを有するコンテンツを再生するコンテンツ再生装置として機能させるプログラムであって、コンピュータを、前記映像データ、音声データおよび字幕データを前記再生時間軸に沿って読み出し、読み出した各データを再生する読出再生手段と、ユーザによって操作される操作手段と、前記操作手段が操作されたときに前記読出再生手段によって再生されている字幕データの再生開始時刻を示す再生時刻データを参照し、前記読出再生手段に対して当該時刻データが示すタイミングからの再生を指示する再生位置指示手段と、ユーザの音声が入力される音声入力手段と、前記再生位置指示手段によって指示されたタイミングから前記読出再生手段が再生した音声データの音声と、前記音声入力手段に入力された音声とを比較して差異を求める差異取得手段と、前記差異取得手段によって求められた差異に応じて予め定められたアルゴリズムに応じた評価を行う評価手段として機能させるプログラムをサーバ装置からダウンロードしてＲＯＭ１０３に記憶させるようにしてもよい。
また、コンピュータを、再生時間軸に沿って記録されている映像データと、音声データと、字幕データと、前記字幕データの再生開始時刻を示す再生時刻データとを有するコンテンツを再生するコンテンツ再生装置として機能させるプログラムであって、コンピュータを、前記字幕データから再生される字幕のリストを生成するリスト生成手段と、前記リスト生成手段が生成したリストを表示する表示手段と、ユーザによって操作される操作手段と、前記操作手段の操作に応じて前記表示手段に表示されている字幕を選択する選択手段と、前記映像データ、音声データおよび字幕データを読み出し、読み出した各データを再生する読出再生手段と、前記選択手段によって選択された字幕の再生開始時刻を示す再生時刻データを参照し、前記読出再生手段に対して当該再生時刻データが示すタイミングからの再生を指示する再生位置指示手段と、ユーザの音声が入力される音声入力手段と、前記再生位置指示手段によって指示されたタイミングから前記読出再生手段が再生した音声データの音声と、前記音声入力手段に入力された音声とを比較して差異を求める差異取得手段と、前記差異取得手段によって求められた差異に応じて予め定められたアルゴリズムに応じた評価を行う評価手段として機能させるプログラムをサーバ装置からダウンロードしてＲＯＭ１０３に記憶させるようにしてもよい。

上述した実施形態においては、入力された音声とＤＶＤに記録されている音声との差異に基づいて、入力された音声を、予め定めた評価用のアルゴリズムに従って点数化し、この点数を表示するようにしてもよい。

上述した実施形態においては、データを永続的に記憶する記憶部を設け、練習したセリフの再生開始時刻を示す時刻管理情報を記憶部に記憶させるようにしてもよい。
また、記憶した時刻管理情報をリスト化して表示するようにしてもよい。また、リストに表示された再生開始時刻を選択し、選択した再生開始時刻に再生されるセリフについて再練習を行うようにしてもよい。また、記録した時刻管理情報が表す場面のみをつないでコンテンツを再生するようにしてもよい。

本発明の実施形態に係る語学学習装置のハードウェ構成を示すブロック図である。同語学学習装置の入力部１０５が備えるマイクロホンとキーの配置を例示した図である。キー２１０が押下された時の処理の流れを示したフローチャートである。キー２１１が押下された時の処理の流れを示したフローチャートである。キー２１２が押下された時の処理の流れを示したフローチャートである。キー２３１が押下された時の処理の流れを示したフローチャートである。キー２２３が押下された時の処理の流れを示したフローチャートである。キー２２４が押下された時の処理の流れを示したフローチャートである。キー２２１が押下された時の処理の流れを示したフローチャートである。キー２２２が押下された時の処理の流れを示したフローチャートである。キー２３０が押下された時の処理の流れを示したフローチャートである。第２実施形態に係わる入力部１０５が備えるマイクロホンとキーの配置を例示した図である。第２実施形態においてキー２２０が押下された時の処理の流れを示したフローチャートである。第２実施形態においてキー２２１が押下された時の処理の流れを示したフローチャートである。第２実施形態においてキー２２２が押下された時の処理の流れを示したフローチャートである。第２実施形態においてキー２２３が押下された時の処理の流れを示したフローチャートである。第２実施形態においてキー２２４が押下された時の処理の流れを示したフローチャートである。第２実施形態においてＲＡＭ１０４に記憶された字幕と時刻管理情報とを例示した図である。第２実施形態において表示部１０６に表示される字幕のリストを例示した図である。

符号の説明

１０２・・・ＣＰＵ、１０３・・・ＲＯＭ、１０４・・・ＲＡＭ、１０５・・・入力部、１０６・・・表示部、１０７・・・信号処理部、１０８・・・音響再生部、１０９・・・光学ドライブ部、１１０・・・音声処理部、２０１・・・マイクロホン。

Claims

再生時間軸に沿って記録されている映像データと、音声データと、字幕データと、前記字幕データの再生開始時刻を示す再生時刻データとを有するコンテンツを再生するコンテンツ再生装置において、
前記映像データ、音声データおよび字幕データを前記再生時間軸に沿って読み出し、読み出した各データを再生する読出再生手段と、
ユーザによって操作される操作手段と、
前記操作手段が操作されたときに前記読出再生手段によって再生されている字幕データの再生開始時刻を示す再生時刻データを参照し、前記読出再生手段に対して当該時刻データが示すタイミングからの再生を指示する再生位置指示手段と、
ユーザの音声が入力される音声入力手段と、
前記再生位置指示手段によって指示されたタイミングから前記読出再生手段が再生した音声データの音声と、前記音声入力手段に入力された音声とを比較して差異を求める差異取得手段と、
前記差異取得手段によって求められた差異に応じて予め定められたアルゴリズムに応じた評価を行う評価手段と
を有することを特徴とするコンテンツ再生装置。
再生時間軸に沿って記録されている映像データと、音声データと、字幕データと、前記字幕データの再生開始時刻を示す再生時刻データとを有するコンテンツを再生するコンテンツ再生装置において、
前記字幕データから再生される字幕のリストを生成するリスト生成手段と、
前記リスト生成手段が生成したリストを表示する表示手段と、
ユーザによって操作される操作手段と、
前記操作手段の操作に応じて前記表示手段に表示されている字幕を選択する選択手段と、
前記映像データ、音声データおよび字幕データを読み出し、読み出した各データを再生する読出再生手段と、
前記選択手段によって選択された字幕の再生開始時刻を示す再生時刻データを参照し、前記読出再生手段に対して当該再生時刻データが示すタイミングからの再生を指示する再生位置指示手段と、
ユーザの音声が入力される音声入力手段と、
前記再生位置指示手段によって指示されたタイミングから前記読出再生手段が再生した音声データの音声と、前記音声入力手段に入力された音声とを比較して差異を求める差異取得手段と、
前記差異取得手段によって求められた差異に応じて予め定められたアルゴリズムに応じた評価を行う評価手段と
を有することを特徴とするコンテンツ再生装置。
前記再生位置指示手段によって前記読出再生手段への再生の指示がされた後、ユーザに発音を促す発音要求手段を備えることを特徴とする請求項１または請求項２に記載のコンテンツ再生装置。