JP2005024742A - テキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラム - Google Patents

テキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラム Download PDF

Info

Publication number
JP2005024742A
JP2005024742A JP2003188358A JP2003188358A JP2005024742A JP 2005024742 A JP2005024742 A JP 2005024742A JP 2003188358 A JP2003188358 A JP 2003188358A JP 2003188358 A JP2003188358 A JP 2003188358A JP 2005024742 A JP2005024742 A JP 2005024742A
Authority
JP
Japan
Prior art keywords
text
image
data
voice
display control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003188358A
Other languages
English (en)
Inventor
Yoshiyuki Murata
嘉行 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2003188358A priority Critical patent/JP2005024742A/ja
Publication of JP2005024742A publication Critical patent/JP2005024742A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】模範のテキストに合わせたユーザ自身の発生音声と顔画像とをその場で収録し、当該テキストに対応付けた同期再生データとして容易に生成記憶する。
【解決手段】模範学習データ練習画面に表示される模範学習データ12bの朗読対象テキストおよび模範朗読者の顔画像に従い、ユーザが当該テキストの読み上げ練習を行うと、発生音声が音声入力部19aから入力されると共に顔画像がデジタルカメラ17cにより撮影されてリアルタイムでユーザ顔表示ウインドウに表示され、同期再生用テキスト・音声・画像データ12c2・12c3・12c4としてRAM12C内に保存される。するとユーザ読み上げ練習に伴う音声データ12c3の出力および画像データ12c4の表示の開始命令時点からの読み上げテキスト位置を当該テキストデータ12c2のハイライト表示命令“HL”として順次対応付けた同期再生用タイムコードファイル12cが作成される。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、テキストデータに音声データと画像データとを対応付けて記憶させるためのテキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラムに関する。
【0002】
【従来の技術】
従来、音楽,テキスト,画像などのファイルを同時並行して再生する技術としては、例えばMPEG−3により情報圧縮された音声ファイルのフレーム毎に、当該各フレームに設けられた付加データエリアに対して、音声ファイルに同期再生すべきテキストファイルや画像ファイルの同期情報を埋め込んでおくことにより、例えばカラオケの場合では、カラオケ音声とその歌詞のテキストおよびイメージ画像を同期再生するものがある。
【0003】
そして、音声と字幕テキストとの同期タイミングを取る装置が考えられている(例えば、特許文献1参照)。
【0004】
また、音声に対する文字の時間的な対応情報が予め用意されていることを前提に、当該音声信号の特徴量を抽出し対応する文字と関連付けて表示する装置も考えられている(例えば、特許文献2参照)。
【0005】
【特許文献1】
特開2002−244694号公報
【0006】
【特許文献2】
特公平06−025905号公報
【0007】
【発明が解決しようとする課題】
しかしながら、このように従来において考えられている音声とテキストとを関連付けて表示再生する技術では、各種データ同士の時間的な対応付けが予め明らかである場合において、これらのデータを同期再生するための関連付けが行えるものである。このため、例えば英語の学習教材において模範のテキストや音声に合わせてユーザ自身が発声・発音の練習を行った場合に、これの発声音声やその発音の口型画像などをテキストと共に収録し、このそれぞれ収録された発声音声・口型画像・テキストをその場で同期再生してユーザ自身における学習の状況をリアルに再現し、当該ユーザ自身あるいは第三者の立場からの評価などを行うことはできない。
【0008】
なお、ユーザ自身によるテキスト読み上げの練習状況を単にビデオ収録しただけでは、収録された顔画像および発声音声の再現ができるだけであり、その発声音声の進みに合わせたテキスト表示までもその場で再現することはできない。
【0009】
本発明は、前記のような問題に鑑みてなされたもので、模範のテキストに合わせたユーザ自身の発生音声と顔(口型)画像とをその場で収録し、当該テキストに対応付けた同期再生データとして容易に生成記憶することが可能になるテキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明の請求項1(請求項7)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)では、テキスト記憶手段に記憶されている朗読対象となるテキストをテキスト表示制御手段によって表示制御すると共に、このテキスト表示中の朗読対象のテキストに従って当該テキストを読み上げる模範朗読者の顔または口元の第1の顔画像を顔画像表示制御手段によって表示制御すると、このテキスト表示制御手段によるテキストの表示制御および顔画像表示制御手段による第1の顔画像の表示制御に合わせて学習対象者から発音された音声が音声取得手段によって順次取得されると共に、当該学習対象者の顔または口元の第2の顔画像が画像取得手段によって順次取得される。すると、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の第2の顔画像とを前記テキスト記憶手段に記憶されているテキストの記述順番に同期付けて再生するための同期再生データが同期データ作成制御手段によって作成される。
【0011】
これによれば、模範朗読者のテキストの読み上げを真似した学習対象者による読み上げ音声とその顔画像とを記憶し、この学習対象者のテキスト読み上げ状況を当該テキスト,音声,顔画像によって同期再生するための同期再生用データを作成できることになる。
【0012】
本発明の請求項2(請求項8)に係るテキスト音声画像再生装置(テキスト音声画像再生処理プログラム)では、さらに、前記請求項1(請求項7)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)の同期データ作成制御手段により作成された同期再生データに従い、音声取得手段により取得された学習対象者の音声と画像取得手段により取得された当該学習対象者の第2の顔画像とを再生制御するのに同期付けてテキスト記憶手段に記憶されているテキストをその記述順番に表示制御する同期データ再生制御手段が備えられる。
【0013】
これによれば、模範朗読者の真似をした学習対象者によるテキスト読み上げ状況を、当該テキストとその読み上げ音声・読み上げ顔画像との同期再生によって容易に再現できることになる。
【0014】
本発明の請求項3(請求項9)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)では、テキスト記憶手段に記憶されている朗読対象となるテキストをテキスト表示制御手段によって表示制御すると、このテキスト表示制御手段によるテキストの表示制御に伴い学習対象者から発音された音声が音声取得手段によって順次取得されると共に、当該学習対象者の顔または口元の顔画像が画像取得手段によって順次取得される。すると、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の顔画像とを前記テキスト記憶手段に記憶されているテキストの記述順番に同期付けて再生するための同期再生データが同期データ作成制御手段によって作成される。
【0015】
これによれば、朗読対象のテキスト表示に合わせた学習対象者による読み上げ音声とその顔画像とを記憶し、この学習対象者のテキスト読み上げ状況を当該テキスト,音声,顔画像によって同期再生するための同期再生用データを作成できることになる。
【0016】
本発明の請求項4(請求項10)に係るテキスト音声画像再生装置(テキスト音声画像再生処理プログラム)では、さらに、前記請求項3(請求項9)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)の同期データ作成制御手段により作成された同期再生データに従い、音声取得手段により取得された学習対象者の音声と画像取得手段により取得された当該学習対象者の顔画像とを再生制御するのに同期付けてテキスト記憶手段に記憶されているテキストをその記述順番に表示制御する同期データ再生制御手段が備えられる。
【0017】
これによれば、学習対象者によるテキスト読み上げ状況を、当該テキストとその読み上げ音声・読み上げ顔画像との同期再生によって容易に再現できることになる。
【0018】
本発明の請求項5に係るテキスト音声画像再生装置では、さらに、前記請求項3に係るテキスト音声画像記憶装置の同期データ作成制御手段により作成された同期再生データに従い、テキスト記憶手段に記憶されているテキストをその記述順番に識別表示制御すると共に、音声取得手段により取得された学習対象者の音声と画像取得手段により取得された当該学習対象者の顔画像とを再生制御する同期データ再生制御手段が備えられる。
【0019】
これによれば、学習対象者によるテキスト読み上げ状況を、当該テキストの記述順番の識別表示とその読み上げ音声出力・読み上げ顔画像表示との同期再生によって容易に再現できることになる。
【0020】
本発明の請求項6に係るテキスト音声画像記憶装置では、前記請求項1または請求項3に係るテキスト音声画像記憶装置にあって、同期データ作成制御手段により作成される同期再生データを、音声取得手段により取得された学習対象者の音声出力命令と画像取得手段により取得された当該学習対象者の顔画像表示命令とテキスト記憶手段に記憶されているテキストの記述順番毎の識別表示命令とを予め設定された時間経過に対応付けた命令コードのファイルとする。
【0021】
これによれば、学習対象者によるテキスト読み上げ音声とその顔画像とを記憶し、この学習対象者のテキスト読み上げ状況を当該テキスト,音声,顔画像によって同期再生するための同期再生用データを、CPUに負担の少ない予め設定された時間経過に対応付けた命令コードファイルとして作成できることになる。
【0022】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
【0023】
図1は本発明の電子機器(テキスト音声画像記憶装置)(テキスト音声画像再生装置)の実施形態に係る携帯機器10の電子回路の構成を示すブロック図である。
【0024】
この携帯機器(PDA:personal digital assistants)10は、各種の記録媒体に記録されたプログラム、又は、通信伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、CPU(central processing unit)11が備えられる。
【0025】
CPU11は、メモリ12内のROM12Aに予め記憶されたPDA(携帯機器)制御プログラム12a、あるいはROMカードなどの外部記録媒体13から記録媒体読取部14を介して前記メモリ12に読み込まれたPDA制御プログラム12a、あるいはインターネットなどの通信ネットワークN上の他のコンピュータ端末(30)から電送制御部15を介して前記メモリ12に読み込まれたPDA制御プログラム12aに応じて、回路各部の動作を制御するもので、前記メモリ12に記憶されたPDA制御プログラム12aは、スイッチやキーからなる入力部17aおよびマウスやタブレットからなる座標入力装置17bからのユーザ操作に応じた入力信号、あるいは電送制御部15に受信される通信ネットワークN上の他のコンピュータ端末(30)からの通信信号、あるいはBluetooth(R)による近距離無線接続や有線接続による通信部16を介して受信される外部の通信機器(PC:personal computer)20からの通信信号に応じて起動される。
【0026】
前記CPU11には、前記メモリ12、記録媒体読取部14、電送制御部15、通信部16、入力部17a、座標入力装置17bが接続される他に、固体撮像素子(CCD:charge coupled device)を備えたデジタルカメラ17C、LCDからなる表示部18、マイクを備え音声を入力する音声入力部19a、スピーカを備え音声を出力する音声出力部19bなどが接続される。
【0027】
また、CPU11には、処理時間計時用のタイマが内蔵される。
【0028】
この携帯機器10のメモリ12は、ROM12A、FLASHメモリ(EEP−ROM)12B、RAM12Cを備えて構成される。
【0029】
ROM12Aには、当該携帯機器10のPDA制御プログラム12aとして、その全体の動作を司るシステムプログラムや電送制御部15を介して通信ネットワークN上の各コンピュータ端末(Webサーバなど)(30)とデータ通信するためのネット通信プログラム、通信部16を介して外部の通信機器(PC)20とデータ通信するための外部機器通信プログラムが記憶される他に、スケジュール管理プログラムやアドレス管理プログラム、そして音声・テキスト・画像などの各種のファイルを同期再生するための同期再生用タイムコードファイル12cを作成する同期データ作成処理プログラム12a1、これにより作成されたタイムコードファイル12cに従い音声・テキスト・画像などの各種のファイルを同期再生するための同期データ再生処理プログラム12a2など、種々のPDA制御プログラム12anが記憶される。
【0030】
FLASHメモリ(EEP−ROM)12Bには、CD−ROMなどの外部記録媒体13から記録媒体読取部14を介して取り込まれるか、あるいは通信ネットワーク(インターネット)N上のWebサーバ30から電送制御部15を介して取り込まれた、例えば英語学習用の模範学習データ12bが記憶される。
【0031】
この模範学習データ12bは、例えば英語学習のテキストデータ、この学習テキストを読み上げる模範の発音音声データ(含む音声信号データ)、この発音音声に対応した口型の画像を含む模範の顔画像データからなり、この模範学習データ12bは、ここでは例えばビデオ収録により得られた顔画像+音声データに対して、当該顔画像+音声データに時間的に対応付けられたテキストデータが画像挿入されている。
【0032】
この他に、FLASHメモリ(EEP−ROM)12Bには、前記スケジュール管理プログラムやアドレス管理プログラムに基づき管理されるユーザのスケジュール及び友人・知人のアドレスなどが記憶される。
【0033】
RAM12Cには、前記同期データ作成処理プログラム12a1に従い作成され、また前記同期データ再生処理プログラム12a2に従い再生処理の対象となる同期再生用タイムコードファイル12c(図7参照)が記憶されると共に、このタイムコードファイル12cに従い同期再生の対象となる画像データを事前に展開して記憶するための画像展開バッファ12eが備えられる。
【0034】
ここで、前記同期再生用タイムコードファイル12cは、例えば前記模範学習データ12bに従ったユーザによる英語テキストの読み上げ練習状況を、当該テキスト・読み上げ音声・顔(口型)画像の同期再生により再現するためのファイルである。
【0035】
この作成された同期再生用タイムコードファイル12cは、本携帯機器10によりその場で同期再生してユーザ自身あるいは第三者がその英語テキストの読み上げ練習状況を再現評価するのに利用する他に、例えばCD−ROMに記録して前記模範学習データ12bの提供元に配送し同ユーザの読み上げ練習状況を再現して採点評価させたり、電送制御部15を介して通信ネットワーク(インターネット)N上にある前記模範学習データ12bの提供元Webサーバ30へ転送し同様に再現して採点評価させたり、あるいは通信部16を介して外部の通信機器(PC)20へ転送して同様に再現評価したりする。
【0036】
同期再生用タイムコードファイル12c(図7参照)は、前記同期データ作成処理プログラム12a1に従い作成(作成処理については後述する)され、前記同期データ再生処理プログラム12a2に従い再生(再生処理については後述する)されるもので、再生命令の処理単位時間(12c1a)を記憶するヘッダ情報(12c1)、および後述する同期再生用テキストデータ(12c2)、同期再生用音声データ(12c3)、同期再生用画像データ(12c4)を組み合わせて構成される。つまり、同期再生用タイムコードファイル12cに従い同期再生の対象となるテキストデータが同期再生用テキストデータ(12c2)として記憶され、同音声データが同期再生用音声データ(12c3)として記憶され、同画像データが同期再生用画像データ(12c4)として記憶される。
【0037】
そしてまた、RAM12Cには、音声と画像とテキストを同期再生するための同期再生用タイムコードファイル12cを前記同期データ作成処理プログラム12a1に従い作成処理する過程において生成される、音声とテキストを同期付けたテキスト音声同期データ12dが記憶される。
【0038】
さらに、RAM12Cには、その他各種の処理に応じてCPU11に入出力される種々のデータを一時記憶するためワークエリアが用意される。
【0039】
図7で示す同期再生用タイムコードファイル12cには、個々のデータ毎に予め設定される一定時間間隔(例えば25ms)で各種データ同期再生のコマンド処理を行うためのタイムコードが記述配列されるもので、この各タイムコードは、命令を指示するコマンドコードと、当該コマンドに関わる再生対象データの内容を対応付けするための参照番号や指定数値からなるパラメータデータとの組み合わせにより構成される。
【0040】
なお、このタイムコードに従い順次コマンド処理を行うための一定時間間隔は、当該タイムコードファイル12cのヘッダ情報12c1に処理単位時間12c1aとして記述設定される。
【0041】
図2は前記携帯機器10の同期再生用タイムコードファイル12c(図7参照)にて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム12a2に基づき解析処理される命令内容を対応付けて示す図である。
【0042】
同期再生用タイムコードファイル12cに使用されるコマンドとしては、標準コマンドと拡張コマンドがあり、標準コマンドには、LT(i番目テキストロード).VD(i番目テキスト文節表示).BL(文字カウンタリセット・i番目文節ブロック指定).HN(ハイライト無し・文字カウンタカウントアップ).HL(i番目文字までハイライト・文字カウント).LS(1行スクロール・文字カウンタカウントアップ).DH(i番目HTMLファイル表示).DI(i番目イメージファイル表示).PS(i番目サウンドファイルプレイ).CS(クリアオールファイル).PP(基本タイムi秒間停止).FN(処理終了).NP(無効)の各コマンドがある。
【0043】
すなわち、この携帯機器(PDA)10のROM12Aに記憶されている同期データ再生処理プログラム12a2を起動させた際に、RAM12Cに記憶されている同期再生用タイムコードファイル12cが、例えば図7で示したファイル内容であり、一定時間毎のコマンド処理に伴い3番目のコマンドコード“DI”およびパラメータデータ“01”が読み込まれた場合には、このコマンド“DI”はi番目のイメージファイル表示命令であるため、パラメータデータi=01からリンク付けられる同期再生用画像データ12c4における1番目の画像データが読み出されて表示される。
【0044】
また、例えば同一定時間毎のコマンド処理に伴い6番目のコマンドコード“VD”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“VD”はi番目のテキスト文節表示命令であるため、パラメータデータi=00に従い、同期再生用テキストデータ12c2におけるテキストデータの0番目(最初)の文節(例えば1sentence)が表示される。
【0045】
さらに、例えば同一定時間毎のコマンド処理に伴い9番目のコマンドコード“NP”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“NP”は無効命令であるため、現状のファイル出力状態が維持される。
【0046】
なお、このテキスト・音声・画像の各データを同期再生するための図7で示した同期再生用タイムコードファイル12cの作成動作、およびこのタイムコードファイル12cによる各同期再生用データ12c2,12c3,12c4についての詳細な再生動作は、後述にて改めて説明する。
【0047】
図3は前記携帯機器10の同期データ作成処理プログラム12a1に従いメモリ12に記憶されるテキスト音声同期データ12dを示す図である。
【0048】
このテキスト音声同期データ12dは、模範学習テキストにユーザによる発声音声とその発音顔(口型)画像を対応付けて同期再生するための同期再生用タイムコードファイル12cの作成に伴うユーザ同期データ取得保存処理(図4参照)において、表示中の模範学習テキストのユーザによる読み上げ音声を入力・音声認識して当該テキストの読み上げ位置を抽出して行くことで、当該テキスト内容の各単語(単語No.)毎にユーザによる発声音声の経過時間が対応付けされて生成される。
【0049】
次に、前記構成の携帯機器10により、例えば模範学習データ12bに応じたユーザによる練習状況をテキスト・音声・画像として収録しその同期再生(再現)を図るための同期再生用タイムコードファイル12cを作成するための同期データ作成機能について説明する。
【0050】
図4は前記携帯機器10の同期データ作成処理プログラム12a1に従ったユーザ同期データ取得保存処理を示すフローチャートである。
【0051】
図5は前記携帯機器10のユーザ同期データ取得保存処理を実施する場合の模範学習データの再生出力練習状態を示す図であり、同図(A)は模範学習データ練習画面G1の初期表示状態を示す図、同図(B)は同模範学習データ練習画面G1におけるユーザ練習中の表示状態を示す図である。
【0052】
この模範学習データ練習画面G1には、ユーザに対するガイドメッセージを表示するためのメッセージ表示エリア41、練習の開始/停止を指示するための開始ボタン(START)42/停止ボタン(STOP)43、模範学習テキストの読み上げ音声波形を表示するための模範音声波形表示エリア44、模範学習テキストを表示するための朗読対象テキスト表示エリア45、当該模範学習テキストの模範朗読者(先生)の発音顔(口型)画像を表示するための模範顔表示エリア46、そして前記朗読対象テキスト表示エリア45に表示される模範学習テキスト、および模範音声波形表示エリア44に表示される前記テキストの模範読み上げ音声波形、および模範顔表示エリア46に表示される模範顔(口型)画像を参照して、これに合わせた読み上げ練習を行っているユーザ(生徒)の顔画像をデジタルカメラ17cで撮影入力してリアルタイムで表示するためのユーザ顔表示ウインドウWが設けられる。
【0053】
入力部17aの操作により、例えばインターネットN上のWebサーバ30から予めダウンロードされてFLASHメモリ12Bに記憶されている模範学習データ12bに基づき、英語テキストの読み上げ練習を行う場合に、図4におけるユーザ同期データ取得保存処理が起動されると、図5(A)に示すように、ユーザに対してその顔の画像の撮影開始を知らせるためのガイドメッセージ「モニター画面内に入るようにカメラに顔を向けてください。」がメッセージ表示エリア41に表示される(ステップA0)。
【0054】
すると、FLASHメモリ12Bに記憶されている模範学習データ12bが読み出され(ステップA1)、音声入力部19aによるユーザ音声の入力と、デジタルカメラ17cによるユーザ顔(口型)画像の撮影入力および図5(A)に示すように、この撮影されたユーザ顔画像のユーザ顔表示ウインドウWに対する表示とが開始される(ステップA2)。
【0055】
すると、図5(B)に示すように、前記模範学習データ12bの英語テキストが模範学習データ練習画面G1上の朗読対象テキスト表示エリア45に順次表示されるのと同時に、当該英語テキストの模範朗読者の顔(口型)画像が模範顔表示エリア46に表示され、さらに当該模範朗読者の音声波形が模範音声波形表示エリア44に順次表示される(ステップA3)。
【0056】
この際、前記模範朗読者の顔(口型)画像が表示される模範顔表示エリア46には、その朗読対象のテキスト部分が吹き出し表示46aされる。
【0057】
また、ユーザ顔表示ウインドウWには、前記模範テキスト・模範顔画像・模範音声波形に合わせて読み上げ練習を行っているユーザ(生徒)の顔画像がデジタルカメラ17cにより撮影入力されリアルタイムに表示される。この際、当該ユーザ顔表示ウインドウWには、後述のユーザ音声の認識に伴い抽出されたテキスト部分が吹き出し表示Waされる。
【0058】
こうして、模範テキスト・模範顔画像・模範音声波形の表示に合わせたユーザのテキスト読み上げに伴う音声入力および顔画像入力が開始されると、当該音声入力されるユーザのテキスト読み上げに伴う発声音声が認識され(ステップA4)、この読み上げ音声に対応するテキスト位置が抽出される(ステップA5)。
【0059】
すると、このユーザ音声の認識に基づくテキスト位置の抽出に応じて、当該テキストの各単語毎に練習開始からの読み上げ経過時間がテキスト音声同期データ12d(図3参照)として順次記憶される(ステップA6)。
【0060】
すると、ユーザ音声の認識に基づくテキスト位置が模範学習テキストの最終単語と一致することで、練習終了と判断されると(ステップA7)、前記音声入力部19aによるユーザ音声の入力と、デジタルカメラ17cによるユーザ顔(口型)画像の撮影入力とが終了される(ステップA8)。
【0061】
そして、前記朗読対象テキスト表示エリア45に順次表示された模範学習データ12bのテキストデータが同期再生用テキストデータ12c2として保存される(ステップA9)と共に、前記音声入力部19aにより音声入力されて一時記憶されたユーザのテキスト読み上げに伴う音声データが同期再生用音声データ12c3として保存され(ステップA10)、さらに前記デジタルカメラ17cにより画像入力されて一時記憶されたユーザのテキスト読み上げに伴う顔(口型)画像データが同期再生用画像データ12c4として保存される(ステップA11)。
【0062】
こうして、前記ユーザ同期データ取得保存処理(ステップA0〜A11)が終了すると、これにより取得保存された各同期再生用データ12c2,12c3,12c4、およびテキスト音声同期データ12d(図3参照)に基づき、図6におけるタイムコードファイル作成処理に移行される(ステップB1〜B19)。
【0063】
図6は前記携帯機器10の同期データ作成処理プログラム12a1に従った同期再生用タイムコードファイル12cの作成処理を示すフローチャートである。
【0064】
図7は前記携帯機器10のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル12cを示す図である。
【0065】
図8は前記携帯機器10のタイムコードファイル作成処理に伴う同期再生用テキストデータ12c2に対する同期再生用音声データ12c3と同期再生用画像データ12c4との対応同期イメージを示す図である。
【0066】
このタイムコードファイル作成処理が起動されると、まず、これから作成すべき同期再生用タイムコードファイル12c(図7参照)の処理単位時間12c1aがユーザ操作により基準時間(25ms/50ms/100ms/…)の中から選択され(ステップB1)、当該タイムコードファイル12cのヘッダ情報12c1として書き込まれる(ステップB2)。
【0067】
すると、1番目の命令としてクリアスクリーン(全ファイルクリア)の命令が、コマンドコード“CS”およびパラメータデータ“00”として書き込まれ(ステップB3)、また、指定画像の表示命令が、2番目の表示エリア設定命令[コマンドコード“DH”・パラメータデータ“01”]、3番目の画像1表示命令[コマンドコード“DI”・パラメータデータ“01”]として書き込まれる(ステップB4)。
【0068】
なお、前記表示エリア設定命令[コマンドコード“DH”]は、表示すべき画像データの表示画面上でのエリアを特定する言わば背景画像の表示命令に相当し、前記画像1表示命令[コマンドコード“DI”]は、前記背景画像により特定されたエリアに対する第1の画像データの表示命令に相当する。
【0069】
さらに、4番目の命令として指定音声のスタート命令が、コマンドコード“PS”およびパラメータデータ“01”として書き込まれ(ステップB5)、また、指定テキストの0番目文節の表示命令が、5番目のテキスト指定命令[コマンドコード“LT”・パラメータデータ“01”]、6番目のテキスト文節表示命令[コマンドコード“VD”・パラメータデータ“00”]として書き込まれる(ステップB6)。
【0070】
さらに、7番目の命令として文節中の文字カウンタリセット命令が、コマンドコード“BL”およびパラメータデータ“00”として書き込まれる(ステップB7)。
【0071】
こうして、同期再生用タイムコードファイル12cの7番目の命令までに、全ファイルクリア、表示エリア設定(この場合はユーザ練習再現画面G2:図10参照)、指定画像“1”(この場合は同期再生用画像データ12c4)の表示、指定音声“1”(この場合は同期再生用音声データ12c3)の再生開始、指定テキスト“1”(この場合は同期再生用テキストデータ12c4)の表示、文字カウンタリセットの各コマンドコードおよびそのパラメータデータがセットされると、RAM12Cに保存されたテキスト音声同期データ12d(図3参照)が読み出されると共に(ステップB8)、指定のテキスト“1”が同期再生用テキストデータ12c4から読み出され(ステップB9)、当該テキスト上の単語番号が“1”に指定される(ステップB10)。
【0072】
すると、当該指定の単語番号“1”に対応する単語「I」(含スペース)までの文字数が“2”としてカウントされると共に(ステップB11)、この指定の単語番号“1”に同期付けられる音声再生時間Tn(n=1)(この場合「…00:153」)が読み出される(ステップB12)。
【0073】
そして、前記指定の単語番号の音声再生時間Tnを前記ステップB1にて選択された処理単位時間(基準時間)12c1aで割り算してタイムコードファイルの命令コード番号が求められ(ステップB13)、このコード番号は未使用か否か判断される(ステップB14)。
【0074】
ここで、ステップB13にて求められた命令コード番号が既に使用されている場合には、その次のコード番号が指定される(ステップB15)。
【0075】
すなわち、同期再生用タイムコードファイル12cによる同期データの再生処理開始から何番目の命令コードの位置に指定の単語番号に対応するユーザ読み上げ音声データの時間が到達しているか判断され、当該指定の単語までをハイライト(識別)表示させるタイミングの命令コード番号が求められるもので、この求められたコード番号が既に使用されていて次のコード番号が指定された場合に、その命令コード番号のタイミング遅れは、当該タイムコードファイル12c自体の処理単位時間(基準時間)12c1aが例えば[25ms]と極めて短いことから許容値として無視される。
【0076】
すると、前記ステップB12〜B15において求められた命令コード番号の位置に、前記ステップB11にてカウントされた指定の単語までの文字数までをハイライト表示させるための命令が書き込まれる(ステップB16)。例えば指定の単語番号“1”である場合に当該単語「I」(含スペース)までの文字数(2文字)をハイライト表示する命令が、コード番号“8”の命令として、コマンドコード“HL”およびパラメータデータ“02”として書き込まれる。
【0077】
すると、指定されているテキスト上の単語番号が(+1)されて“2”に指定され(ステップB17)、これに対応する単語「was」のデータ有りと判断されて(ステップB18)、ステップB11に戻り、当該単語番号“2”の単語「was」までの総文字数(6文字:含スペース)がカウントされる。
【0078】
この後、前記ステップB11〜B18の処理が繰り返し実行されると、指定の単語番号“2”である場合に当該単語「was」までの文字数(6文字)をハイライト表示する命令が、コード番号“12”の命令として、コマンドコード“HL”およびパラメータデータ“06”として書き込まれる。
【0079】
また、指定の単語番号“3”である場合には当該単語「enjoying」(含スペース)までの文字数(15文字)をハイライト表示する命令が、コード番号“35”の命令として、コマンドコード“HL”およびパラメータデータ“15”として書き込まれる。
【0080】
さらに、指定の単語番号“4”である場合には当該単語「the」までの文字数(19文字)をハイライト表示する命令が、コード番号“58”の命令として、コマンドコード“HL”およびパラメータデータ“19”として書き込まれる。
【0081】
なお、前記テキスト音声同期データ12dに基づいた当該テキスト中の各単語毎のハイライト表示命令“HL”が書き込まれた命令コード番号以外のコード番号の位置には、何れも無効命令としてのマンドコード“NP”およびパラメータデータ“00”が書き込まれる。
【0082】
この後、前記ステップB18において、指定の単語番号に対応する単語のデータ無しと判断されると、次のコード番号の命令として処理終了の命令が、コマンドコード“FN”およびパラメータデータ“00”として書き込まれる(ステップB19)。
【0083】
こうして、前記タイムコードファイル作成処理(ステップB1〜B19)により、前記同期再生用テキストデータ12c2・同期再生用音声データ12c3・同期再生用画像データ12c4を再生対象データとするテキスト音声同期データ12dに基づいたタイムコードファイル12cが作成されると、このタイムコードファイル12cはRAM12C内に保存される。
【0084】
こうして、模範学習データ12bに応じたユーザによるテキスト読み上げの練習状況をその発声音声入力および顔画像入力により収録保存してなるテキスト・音声・顔画像の各データを、例えば図8に示すような表示イメージで同期付けて再生再現するための同期再生用タイムコードファイル12c(図7参照)が、前記同期データ作成処理に従い、ヘッダ情報12c1,同期再生用テキストデータ12c2,同期再生用音声データ12c3,同期再生用画像データ12c4の組み合わせにより容易に作成されてRAM12Cに保存される。
【0085】
このメモリ12に保存された同期再生用タイムコードファイル12cは、本携帯機器10により再生処理されてユーザの英語の練習状況が再現再生される他に、同期データ再生処理プログラム12a2および各同期再生用データ12c2〜12c4と共に、CD−Rなどの外部記録媒体13に記録して学習データの提供元へ配送して同再現評価させたり、電送制御部15からネットワークNを介して学習データ提供元のWebサーバ30に転送して同再現評価させたり、通信部16を介して外部通信機器(PC)20…に転送して同再現評価させたりすることで、当該同期再生用タイムコードファイル12cを作成した携帯機器10自身だけでなく、その他の各コンピュータ端末においても同様にユーザの学習練習状況の再現再生処理を実行することができ、例えばユーザ自身や第三者(例えば先生)による評価や採点を行うことができる。
【0086】
次に、前記構成の携帯機器10により作成された同期再生用タイムコードファイル12cに従いユーザの学習練習状況を再生して再現するための同期データ再生機能について説明する。
【0087】
図9は前記携帯機器10の同期データ再生処理プログラム12a2に従った同期データ再生処理を示すフローチャートである。
【0088】
図10は前記携帯機器10の同期データ再生処理に伴いユーザの学習練習状況を再生再現した場合の音声・テキスト・画像同期再生画面G2を示す図である。
【0089】
前記同期データ作成処理(12a1)により作成された同期再生用タイムコードファイル12cおよび各同期再生用のテキスト・音声・画像データ12c2,12c3,12c4がRAM12Cに格納された状態において、入力部17aの操作によりこの同期再生用タイムコードファイル12cの再生が指示されると、RAM12C内の各ワークエリアのクリア処理やフラグリセット処理などのイニシャライズ処理が行われる(ステップS1)。
【0090】
そして、RAM12Cに格納された同期再生用タイムコードファイル12c(図7参照)が読み込まれ(ステップS2)、当該タイムコードファイル12cのヘッダ情報12c1に記述された処理単位時間12c1a(例えば25ms)が、CPU11による当該タイムコードファイル12cの一定時間間隔の読み出し時間として設定される(ステップS3)。
【0091】
そして、このタイムコードファイル12cの先頭に読み出しポインタがセットされ(ステップS4)、当該タイムコードファイル12cの再生処理タイミングを計時するためのタイマがスタートされる(ステップS5)。
【0092】
ここで、先読み処理が当該再生処理に並行して起動される(ステップS6)。
【0093】
この先読み処理では、タイムコードファイル12c(図7参照)に従った現在の読み出しポインタの位置のコマンド処理よりも後に画像ファイル表示の“DI”コマンドがある場合は、予め当該“DI”コマンドのパラメータデータにより指示される画像ファイルを先読みして画像展開バッファ12eに展開しておくことで、前記読み出しポインタが実際に後の“DI”コマンドの位置まで移動した場合に、処理に遅れなく指定の画像ファイルを直ちに出力表示できるようにする。
【0094】
前記ステップS5において、処理タイマがスタートされると、前記ステップS3にて設定されたタイムコードファイル12cに応じた処理単位時間(25ms)毎に、前記ステップS4にて設定された読み出しポインタの位置の当該タイムコードファイル12c(図7参照)のコマンドコードおよびそのパラメータデータが読み出される(ステップS7)。
【0095】
そして、前記タイムコードファイル12c(図7参照)から読み出されたコマンドコードが、“FN”か否か判断され(ステップS8)、“FN”と判断された場合には、その時点で当該同期データ再生処理の停止処理が指示実行される(ステップS8→S9)。
【0096】
一方、前記タイムコードファイル12c(図7参照)から読み出されたコマンドコードが、“FN”ではないと判断された場合には、各コマンドコードに応じたコマンド処理へ移行されてそのコマンド内容(図2参照)に対応する処理が実行される(ステップSC)。
【0097】
すると、前記タイマによる計時時間が次の処理単位時間12c1aに到達したか否か判断され(ステップS10)、次の処理単位時間12c1aに到達したと判断された場合には、タイムコードファイル12cに対する読み出しポインタが次の位置に更新セットされ(ステップS10→S11)、前記ステップS7における当該読み出しポインタの位置のタイムコードファイル12c(図7参照)のコマンドコードおよびそのパラメータデータ読み出しからの処理が繰り返される(ステップS11→S7〜S10)。
【0098】
すなわち、携帯機器10のCPU11は、ROM12Aに記憶された同期データ再生処理プログラム12a2に従って、同期再生用タイムコードファイル12cに予め設定記述されているコマンド処理の単位時間毎に、当該タイムコードファイル12cに配列されたコマンドコードおよびそのパラメータデータを読み出し、そのコマンドに対応する処理を指示するだけで、当該タイムコードファイル12cに記述された各コマンドに応じた各種同期再生用データ12c2,12c3,12c4の同期再生処理が実行される。
【0099】
ここで、前記同期データ作成処理プログラム12a1によって作成された図7で示すユーザ学習練習状況の同期再生用タイムコードファイル12cに基づいた、前記同期データ再生処理プログラム12a2による英語テキスト(12c2)・ユーザ読み上げ音声(12c3)・ユーザ顔(口型)画像(12c4)の同期再生動作について詳細に説明する。
【0100】
このユーザ学習練習状況の同期再生用タイムコードファイル12c(図7参照)は、そのヘッダ情報(12c1)に記述設定された処理単位時間(25ms)12c1a毎にコマンド処理が実行されるもので、まず、タイムコードファイル12cの第1コマンドコード“CS”(クリアオールファイル)およびそのパラメータデータ“00”が読み出されると、全ファイルの出力をクリアする指示が行われ、テキスト・画像・音声ファイルの出力がクリアされる。
【0101】
第2コマンドコード“DH”(i番目HTMLファイル表示)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードDHと共に読み出されたパラメータデータ(i=1)に応じて、図10に示すような音声・テキスト・画像同期再生画面G2を設定するためのHTMLデータが読み出され、表示部18の表示画面に対して、同期再生用テキストデータ12c2を表示するための朗読対象テキスト表示エリア45、同期再生用音声データ12c3に応じたユーザ読み上げ音声波形を表示するためのユーザ音声波形表示エリア47、同期再生用画像データ12c3である前記テキスト読み上げ練習時のユーザ顔画像を表示するためのユーザ顔表示ウインドウWが設定される。
【0102】
第3コマンドコード“DI”(i番目イメージ(顔画像)ファイル表示)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードDIと共に読み出されたパラメータデータ(i=1)に応じて、同期再生用画像データ12c4から読み出されて画像展開バッファ12eに展開されたユーザ顔画像データの前記ユーザ顔表示ウインドウWへの表示が開始される。
【0103】
第4コマンドコード“PS”(i番目サウンドファイルプレイ)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードPSと共に読み出されたパラメータデータ(i=1)に応じて、同期再生用音声データ12c3から読み出されたユーザ音声データの音声出力部19bへの出力が開始される。
【0104】
第5コマンドコード“LT”(i番目テキストロード)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードLTと共に読み出されたパラメータデータ(i=1)に応じて、同期再生用テキストデータ12c2から読み出された学習テキストデータがRAM12Cのワークエリアにロードされる。
【0105】
第6コマンドコード“VD”(i番目テキスト文節表示)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードVDと共に読み出されたパラメータデータ(i=0)に応じて、同期再生用テキストデータ12c2にて指定された学習テキストの第1文節(sentence)が呼び出されて表示画面上の朗読対象テキスト表示エリア45に表示される。
【0106】
第7コマンドコード“BL”(文字カウンタリセット・i番目文節ブロック指定)およびそのパラメータデータ“00”が読み出されると、前記表示中の学習テキストの文字カウンタがリセットされ、当該文節ブロックの1文字目が指定される。
【0107】
第8コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“02”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=2)に応じて、学習テキストデータの2番目の文字「I」(含スペース)までハイライト表示(強調表示)Hされる。
【0108】
そして、文字カウンタが2番目の文字までカウントアップされる。
【0109】
第9コマンドコード“NP”が読み出されると、現在の学習テキストデータおよびユーザ読み上げ音声データおよびユーザ読み上げ顔画像データの同期出力状態が維持される。
【0110】
続いて、第12コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“06”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=6)に応じて、学習テキストデータの6番目の文字「was」(含スペース)までハイライト表示(強調表示)Hされる。
【0111】
また、第35コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“15”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=15)に応じて、学習テキストデータの15番目の文字「enjoying」(含スペース)までハイライト表示(強調表示)Hされる。
【0112】
このように、前記同期データ作成処理プログラム12a1に従い作成されたユーザによる学習テキスト読み上げ練習状況の同期再生用タイムコードファイル12c(図7参照)・同期再生用テキストデータ12c2・同期再生用音声データ12c3・同期再生用画像データ12c3に基づき、当該タイムコードファイル12cに予め設定された処理単位時間(25ms)毎のコマンド処理を、同期データ再生処理プログラム12a2によって行うことで、図10で示すように、表示画面上に学習テキストデータが表示されると共に、音声出力部19bから表示中の学習テキストを読み上げたユーザ音声データが同期出力され、当該学習テキストの読み上げ文節が各文字(単語)毎に順次同期ハイライト(強調)表示Hされる。また図10のW1〜W3で示すように、前記テキスト読み上げ練習時のユーザ顔画像が前記強調同期表示の読み上げ単語を吹き出し表示Wa1〜Wa3してユーザ顔表示ウインドウWに順次同期表示されるようになる。
【0113】
この場合、携帯機器10のCPU11は、同期再生用タイムコードファイル12cに予め記述設定されたコマンド処理の単位時間毎に、当該コマンドコードおよびそのパラメータデータに従った各種コマンド処理を指示するだけで、テキストデータ、顔画像データ、発声音声データの同期再生処理を行うことができるので、CPUのメイン処理の負担が軽くなり、処理能力の比較的小さいCPUでも容易にテキスト・音声・画像を含む同期再生処理が行える。
【0114】
これにより、ユーザは模範学習データ12bによる当該学習テキストの模範的な読み上げを参考にしてユーザ自身によるテキスト読み上げ練習を行った場合に、このユーザによる読み上げ練習状況を前記テキスト・発声音声・発声顔(口型)画像の同期再生表示によってその場で確認することができ、しかも前記同期再生用タイムコードファイル12cおよびその同期再生用の各データ12c2,12c3,12c4を当該学習データ(12b)の提供元Webサーバ30へ転送したり、同提供元へCD−ROMなどの外部記憶媒体13に書き込んで配送したりすることで、学習データの提供元でもユーザによる学習テキストの読み上げ練習状況を同期再生して確認でき、これの評価,採点などを容易に行うことができるようになる。
【0115】
したがって、前記構成の携帯機器10による同期データ作成・再生機能によれば、模範学習データ練習画面G1において表示される模範学習データ12bの朗読対象テキストおよび模範朗読者の顔(口型)画像に従って、ユーザが当該学習テキストの読み上げ練習を行うと、その発生音声が音声入力部19aから入力されると共に、ユーザ顔(口型)画像がデジタルカメラ17cにより撮影されてリアルタイムでユーザ顔表示ウインドウWに表示され、それぞれ同期再生用テキストデータ12c2、同期再生用音声データ12c3、同期再生用画像データ12c4としてRAM12C内に保存される。すると、このユーザの読み上げ練習に伴う同期再生用音声データ12c3の出力および同期再生用画像データ12c4の表示の開始命令時点“DS”“PS”からの読み上げテキスト位置を当該同期再生用テキストデータ12c2のハイライト表示命令“HL”として順次対応付けた同期再生用タイムコードファイル12cが作成される。そして、この同期再生用タイムコードファイル12cに従った同期再生処理により、前記学習テキストの読み上げ練習に伴い取得保存されたユーザの発声音声(12c3)および発声顔(口型)画像(12c4)が、当該テキストデータ(12c2)の読み上げ位置を示すハイライト表示Hと同期して音声出力および画像表示されるので、例えば英語の学習教材において模範のテキストや音声に合わせてユーザ自身が発声・発音の練習を行った場合に、これの発声音声やその発音の口型画像などをテキストと共に収録し、このそれぞれ収録された発声音声・口型画像・テキストをその場で同期再生してユーザ自身における学習の状況をリアルに再現でき、当該ユーザ自身あるいは第三者の立場からの学習の評価などを容易に行うことができる。
【0116】
なお、前記実施形態では、模範学習データ12bに応じたユーザによる読み上げ練習の際には、模範学習データ練習画面G1上で朗読対象テキスト(45)と共に模範朗読者(先生)の顔(口型)画像(46)を参照表示させながら、ユーザによって当該テキストの読み上げ練習を行わせる構成としたが、前記朗読対象テキスト(45)のみを参照表示させながら、ユーザによる読み上げ練習を行わせる構成としてもよい。
【0117】
また、前記実施形態において、模範学習データ12bは、例えばビデオ収録により得られた顔画像+音声データに対して、当該顔画像+音声データに時間的に対応付けられたテキストデータを画像挿入したものであるが、この模範学習データ12bも、その提供元のコンピュータ端末にて実施される同期データ作成処理に従い模範朗読者の同期再生用タイムコードファイル12cとして作成したものであってもよい。この場合、模範学習データ練習画面G1上での朗読対象テキスト(45)の朗読位置に合わせた強調表示(ハイライト表示)Hを、練習者(生徒)であるユーザに参照させてその読み上げ練習を行わせることができる。
【0118】
なお、前記実施形態において記載した携帯機器10による各処理の手法、すなわち、図4のフローチャートに示す同期データ作成処理に伴うユーザ同期データ取得保存処理、図6のフローチャートに示す同期データ作成処理に伴うタイムコードファイル作成処理、そして、図9のフローチャートに示すユーザ同期データ再生処理などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記録媒体13に格納して配布することができる。そして、通信ネットワーク(インターネット)Nとの通信機能を備えた種々のコンピュータ端末は、この外部記録媒体13に記憶されたプログラムを記録媒体読取部14によってメモリ12に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した同期データ作成機能やその再生機能を実現し、前述した手法による同様の処理を実行することができる。
【0119】
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(インターネット)N上を伝送させることができ、この通信ネットワーク(インターネット)Nに接続されたコンピュータ端末から前記のプログラムデータを取り込み、前述した同期データ作成機能やその再生機能を実現することもできる。
【0120】
なお、本願発明は、前記各実施形態に限定されるものではなく、実施形態ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
【0121】
【発明の効果】
以上のように、本発明の請求項1(請求項7)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)によれば、テキスト記憶手段に記憶されている朗読対象となるテキストをテキスト表示制御手段によって表示制御すると共に、このテキスト表示中の朗読対象のテキストに従って当該テキストを読み上げる模範朗読者の顔または口元の第1の顔画像を顔画像表示制御手段によって表示制御すると、このテキスト表示制御手段によるテキストの表示制御および顔画像表示制御手段による第1の顔画像の表示制御に合わせて学習対象者から発音された音声が音声取得手段によって順次取得されると共に、当該学習対象者の顔または口元の第2の顔画像が画像取得手段によって順次取得される。すると、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の第2の顔画像とを前記テキスト記憶手段に記憶されているテキストの記述順番に同期付けて再生するための同期再生データが同期データ作成制御手段によって作成されるので、模範朗読者のテキストの読み上げを真似した学習対象者による読み上げ音声とその顔画像とを記憶し、この学習対象者のテキスト読み上げ状況を当該テキスト,音声,顔画像によって同期再生するための同期再生用データを作成できるようになる。
【0122】
また、本発明の請求項2(請求項8)に係るテキスト音声画像再生装置(テキスト音声画像再生処理プログラム)によれば、さらに、前記請求項1(請求項7)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)の同期データ作成制御手段により作成された同期再生データに従い、音声取得手段により取得された学習対象者の音声と画像取得手段により取得された当該学習対象者の第2の顔画像とを再生制御するのに同期付けてテキスト記憶手段に記憶されているテキストをその記述順番に表示制御する同期データ再生制御手段が備えられるので、模範朗読者の真似をした学習対象者によるテキスト読み上げ状況を、当該テキストとその読み上げ音声・読み上げ顔画像との同期再生によって容易に再現できるようになる。
【0123】
また、本発明の請求項3(請求項9)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)によれば、テキスト記憶手段に記憶されている朗読対象となるテキストをテキスト表示制御手段によって表示制御すると、このテキスト表示制御手段によるテキストの表示制御に伴い学習対象者から発音された音声が音声取得手段によって順次取得されると共に、当該学習対象者の顔または口元の顔画像が画像取得手段によって順次取得される。すると、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の顔画像とを前記テキスト記憶手段に記憶されているテキストの記述順番に同期付けて再生するための同期再生データが同期データ作成制御手段によって作成されるので、朗読対象のテキスト表示に合わせた学習対象者による読み上げ音声とその顔画像とを記憶し、この学習対象者のテキスト読み上げ状況を当該テキスト,音声,顔画像によって同期再生するための同期再生用データを作成できるようになる。
【0124】
また、本発明の請求項4(請求項10)に係るテキスト音声画像再生装置(テキスト音声画像再生処理プログラム)によれば、さらに、前記請求項3(請求項9)に係るテキスト音声画像記憶装置(テキスト音声画像記憶処理プログラム)の同期データ作成制御手段により作成された同期再生データに従い、音声取得手段により取得された学習対象者の音声と画像取得手段により取得された当該学習対象者の顔画像とを再生制御するのに同期付けてテキスト記憶手段に記憶されているテキストをその記述順番に表示制御する同期データ再生制御手段が備えられるので、学習対象者によるテキスト読み上げ状況を、当該テキストとその読み上げ音声・読み上げ顔画像との同期再生によって容易に再現できるようになる。
【0125】
また、本発明の請求項5に係るテキスト音声画像再生装置によれば、さらに、前記請求項3に係るテキスト音声画像記憶装置の同期データ作成制御手段により作成された同期再生データに従い、テキスト記憶手段に記憶されているテキストをその記述順番に識別表示制御すると共に、音声取得手段により取得された学習対象者の音声と画像取得手段により取得された当該学習対象者の顔画像とを再生制御する同期データ再生制御手段が備えられるので、学習対象者によるテキスト読み上げ状況を、当該テキストの記述順番の識別表示とその読み上げ音声出力・読み上げ顔画像表示との同期再生によって容易に再現できるようになる。
【0126】
また、本発明の請求項6に係るテキスト音声画像記憶装置によれば、前記請求項1または請求項3に係るテキスト音声画像記憶装置にあって、同期データ作成制御手段により作成される同期再生データを、音声取得手段により取得された学習対象者の音声出力命令と画像取得手段により取得された当該学習対象者の顔画像表示命令とテキスト記憶手段に記憶されているテキストの記述順番毎の識別表示命令とを予め設定された時間経過に対応付けた命令コードのファイルとしたので、学習対象者によるテキスト読み上げ音声とその顔画像とを記憶し、この学習対象者のテキスト読み上げ状況を当該テキスト,音声,顔画像によって同期再生するための同期再生用データを、CPUに負担の少ない予め設定された時間経過に対応付けた命令コードファイルとして作成できるようになる。
【0127】
よって、本発明によれば、模範のテキストに合わせたユーザ自身の発生音声と顔(口型)画像とをその場で収録し、当該テキストに対応付けた同期再生データとして容易に生成記憶することが可能になるテキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラムを提供できる。
【図面の簡単な説明】
【図1】本発明の電子機器(テキスト音声画像記憶装置)(テキスト音声画像再生装置)の実施形態に係る携帯機器10の電子回路の構成を示すブロック図。
【図2】前記携帯機器10の同期再生用タイムコードファイル12c(図7参照)にて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム12a2に基づき解析処理される命令内容を対応付けて示す図。
【図3】前記携帯機器10の同期データ作成処理プログラム12a1に従いメモリ12に記憶されるテキスト音声同期データ12dを示す図。
【図4】前記携帯機器10の同期データ作成処理プログラム12a1に従ったユーザ同期データ取得保存処理を示すフローチャート。
【図5】前記携帯機器10のユーザ同期データ取得保存処理を実施する場合の模範学習データの再生出力練習状態を示す図であり、同図(A)は模範学習データ練習画面G1の初期表示状態を示す図、同図(B)は同模範学習データ練習画面G1におけるユーザ練習中の表示状態を示す図。
【図6】前記携帯機器10の同期データ作成処理プログラム12a1に従った同期再生用タイムコードファイル12cの作成処理を示すフローチャート。
【図7】前記携帯機器10のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル12cを示す図。
【図8】前記携帯機器10のタイムコードファイル作成処理に伴う同期再生用テキストデータ12c2に対する同期再生用音声データ12c3と同期再生用画像データ12c4との対応同期イメージを示す図。
【図9】前記携帯機器10の同期データ再生処理プログラム12a2に従った同期データ再生処理を示すフローチャート。
【図10】前記携帯機器10の同期データ再生処理に伴いユーザの学習練習状況を再生再現した場合の音声・テキスト・画像同期再生画面G2を示す図。
【符号の説明】
10 …携帯機器
11 …CPU
12 …メモリ
12A…ROM
12B…FLASHメモリ
12C…RAM
12a…携帯機器(PDA)制御プログラム
12a1…同期データ作成処理プログラム
12a2…同期データ再生処理プログラム
12b…模範学習データ
12c…同期再生用タイムコードファイル
12c1…ヘッダ情報
12c1a…処理単位時間
12c2…同期再生用テキストデータ
12c3…同期再生用音声データ
12c4…同期再生用画像データ
12d…テキスト音声同期データ
12e…画像展開バッファ
13 …外部記録媒体
14 …記録媒体読取部
15 …電送制御部
16 …通信部
17a…入力部
17b…座標入力部(マウス/タブレット)
17c…デジタルカメラ
18 …表示部
19a…音声入力部
19b…音声出力部
20 …外部通信機器(PC)
30 …Webサーバ
41 …メッセージ表示エリア
42 …開始ボタン(START)
43 …停止ボタン(STOP)
44 …模範音声波形表示エリア
45 …朗読対象テキスト表示エリア
46 …模範顔表示エリア
46a…朗読テキスト吹き出し表示
47 …ユーザ音声波形表示エリア
N …通信ネットワーク(インターネット)
G1…模範学習データ練習画面
G2…音声・テキスト・画像同期再生画面
W …ユーザ顔表示ウインドウ
Wa…読み上げ単語吹き出し表示
H …ハイライト(識別)表示

Claims (10)

  1. 朗読対象となるテキストを記憶しているテキスト記憶手段と、
    このテキスト記憶手段に記憶されているテキストを表示制御するテキスト表示制御手段と、
    このテキスト表示制御手段による表示中の朗読対象のテキストに従って当該テキストを読み上げる模範朗読者の顔または口元の第1の顔画像を表示制御する顔画像表示制御手段と、
    前記テキスト表示制御手段によるテキストの表示制御および前記顔画像表示制御手段による第1の顔画像の表示制御に合わせて学習対象者から発音された音声を順次取得する音声取得手段と、
    前記テキスト表示制御手段によるテキストの表示制御および前記顔画像表示制御手段による第1の顔画像の表示制御に合わせて学習対象者の顔または口元の第2の顔画像を順次取得する画像取得手段と、
    前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の第2の顔画像とを前記テキスト記憶手段に記憶されているテキストの記述順番に同期付けて再生するための同期再生データを作成する同期データ作成制御手段と、
    を備えていることを特徴とするテキスト音声画像記憶装置。
  2. さらに、
    前記請求項1に記載のテキスト音声画像記憶装置の同期データ作成制御手段により作成された同期再生データに従い、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の第2の顔画像とを再生制御するのに同期付けて前記テキスト記憶手段に記憶されているテキストをその記述順番に表示制御する同期データ再生制御手段を備えたことを特徴とするテキスト音声画像再生装置。
  3. 朗読対象となるテキストを記憶しているテキスト記憶手段と、
    このテキスト記憶手段に記憶されているテキストを表示制御するテキスト表示制御手段と、
    前記テキスト表示制御手段によるテキストの表示制御に伴い学習対象者から発音された音声を順次取得する音声取得手段と、
    前記テキスト表示制御手段によるテキストの表示制御に伴い学習対象者の顔または口元の顔画像を順次取得する画像取得手段と、
    前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の顔画像とを前記テキスト記憶手段に記憶されているテキストの記述順番に同期付けて再生するための同期再生データを作成する同期データ作成制御手段と、
    を備えていることを特徴とするテキスト音声画像記憶装置。
  4. さらに、
    前記請求項3に記載のテキスト音声画像記憶装置の同期データ作成制御手段により作成された同期再生データに従い、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の顔画像とを再生制御するのに同期付けて前記テキスト記憶手段に記憶されているテキストをその記述順番に表示制御する同期データ再生制御手段を備えたことを特徴とするテキスト音声画像再生装置。
  5. さらに、
    前記請求項3に記載のテキスト音声画像記憶装置の同期データ作成制御手段により作成された同期再生データに従い、前記テキスト記憶手段に記憶されているテキストをその記述順番に識別表示制御すると共に、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の顔画像とを再生制御する同期データ再生制御手段を備えたことを特徴とするテキスト音声画像再生装置。
  6. 前記同期データ作成制御手段により作成される同期再生データは、前記音声取得手段により取得された学習対象者の音声出力命令と前記画像取得手段により取得された当該学習対象者の顔画像表示命令と前記テキスト記憶手段に記憶されているテキストの記述順番毎の識別表示命令とを予め設定された時間経過に対応付けた命令コードのファイルからなることを特徴とする請求項1または請求項3に記載のテキスト音声画像記憶装置。
  7. コンピュータを制御してテキスト,音声,画像を記憶し同期付けするためのテキスト音声画像記憶処理プログラムであって、
    前記コンピュータを、
    朗読対象となるテキストを記憶するテキスト記憶手段、
    このテキスト記憶手段により記憶されたテキストを表示制御するテキスト表示制御手段、
    このテキスト表示制御手段による表示中の朗読対象のテキストに従って当該テキストを読み上げる模範朗読者の顔または口元の第1の顔画像を表示制御する顔画像表示制御手段、
    前記テキスト表示制御手段によるテキストの表示制御および前記顔画像表示制御手段による第1の顔画像の表示制御に合わせて学習対象者から発音された音声を順次取得する音声取得手段、
    前記テキスト表示制御手段によるテキストの表示制御および前記顔画像表示制御手段による第1の顔画像の表示制御に合わせて学習対象者の顔または口元の第2の顔画像を順次取得する画像取得手段、
    前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の第2の顔画像とを前記テキスト記憶手段により記憶されたテキストの記述順番に同期付けて再生するための同期再生データを作成する同期データ作成制御手段、
    として機能させるようにしたコンピュータ読み込み可能なテキスト音声画像記憶処理プログラム。
  8. さらに、前記コンピュータを、
    前記請求項7に記載のテキスト音声画像記憶処理プログラムの同期データ作成制御手段により作成された同期再生データに従い、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の第2の顔画像とを再生制御するのに同期付けて前記テキスト記憶手段により記憶されたテキストをその記述順番に表示制御する同期データ再生制御手段として機能させるようにしたコンピュータ読み込み可能なテキスト音声画像再生処理プログラム。
  9. コンピュータを制御してテキスト,音声,画像を記憶し同期付けするためのテキスト音声画像記憶処理プログラムであって、
    前記コンピュータを、
    朗読対象となるテキストを記憶するテキスト記憶手段、
    このテキスト記憶手段により記憶されたテキストを表示制御するテキスト表示制御手段、
    前記テキスト表示制御手段によるテキストの表示制御に伴い学習対象者から発音された音声を順次取得する音声取得手段、
    前記テキスト表示制御手段によるテキストの表示制御に伴い学習対象者の顔または口元の顔画像を順次取得する画像取得手段、
    前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の顔画像とを前記テキスト記憶手段により記憶されたテキストの記述順番に同期付けて再生するための同期再生データを作成する同期データ作成制御手段、
    として機能させるようにしたコンピュータ読み込み可能なテキスト音声画像記憶処理プログラム。
  10. さらに、前記コンピュータを、
    前記請求項9に記載のテキスト音声画像記憶処理プログラムの同期データ作成制御手段により作成された同期再生データに従い、前記音声取得手段により取得された学習対象者の音声と前記画像取得手段により取得された当該学習対象者の顔画像とを再生制御するのに同期付けて前記テキスト記憶手段により記憶されたテキストをその記述順番に表示制御する同期データ再生制御手段として機能させるようにしたコンピュータ読み込み可能なテキスト音声画像再生処理プログラム。
JP2003188358A 2003-06-30 2003-06-30 テキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラム Pending JP2005024742A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003188358A JP2005024742A (ja) 2003-06-30 2003-06-30 テキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003188358A JP2005024742A (ja) 2003-06-30 2003-06-30 テキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラム

Publications (1)

Publication Number Publication Date
JP2005024742A true JP2005024742A (ja) 2005-01-27

Family

ID=34186927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003188358A Pending JP2005024742A (ja) 2003-06-30 2003-06-30 テキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラム

Country Status (1)

Country Link
JP (1) JP2005024742A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072057A (ja) * 2008-09-16 2010-04-02 Winbond Electron Corp 音声の録音と再生方法及び該方法を用いる電子辞書
JP2013061369A (ja) * 2011-09-12 2013-04-04 Kyoto Univ 情報処理装置、情報処理システムおよびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756494A (ja) * 1993-08-10 1995-03-03 Oki Electric Ind Co Ltd 発音訓練装置
JPH07319374A (ja) * 1994-05-20 1995-12-08 Kanaasu Data Kk 学習指導装置
JPH09190150A (ja) * 1996-01-09 1997-07-22 Moritex Corp 教育装置
JPH1195653A (ja) * 1997-09-19 1999-04-09 Mayumi Oba 英語の発音習得方法
JP2001159865A (ja) * 1999-09-09 2001-06-12 Lucent Technol Inc 対話型語学指導のための方法および装置
JP2001265207A (ja) * 2000-03-17 2001-09-28 Nec Corp 通信教育用のビジネスシステム又は通信教育システム
JP2002258738A (ja) * 2001-03-01 2002-09-11 Nna Japan Co Ltd 語学学習支援システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756494A (ja) * 1993-08-10 1995-03-03 Oki Electric Ind Co Ltd 発音訓練装置
JPH07319374A (ja) * 1994-05-20 1995-12-08 Kanaasu Data Kk 学習指導装置
JPH09190150A (ja) * 1996-01-09 1997-07-22 Moritex Corp 教育装置
JPH1195653A (ja) * 1997-09-19 1999-04-09 Mayumi Oba 英語の発音習得方法
JP2001159865A (ja) * 1999-09-09 2001-06-12 Lucent Technol Inc 対話型語学指導のための方法および装置
JP2001265207A (ja) * 2000-03-17 2001-09-28 Nec Corp 通信教育用のビジネスシステム又は通信教育システム
JP2002258738A (ja) * 2001-03-01 2002-09-11 Nna Japan Co Ltd 語学学習支援システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072057A (ja) * 2008-09-16 2010-04-02 Winbond Electron Corp 音声の録音と再生方法及び該方法を用いる電子辞書
JP2013061369A (ja) * 2011-09-12 2013-04-04 Kyoto Univ 情報処理装置、情報処理システムおよびプログラム

Similar Documents

Publication Publication Date Title
JP2005070645A (ja) テキスト音声同期装置およびテキスト音声同期処理プログラム
US20080275700A1 (en) Method of and System for Modifying Messages
US8364488B2 (en) Voice models for document narration
US6772122B2 (en) Character animation
JP2004347786A (ja) 音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラム
JP2003186379A (ja) 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム
CN110324709A (zh) 一种视频生成的处理方法、装置、终端设备及存储介质
JP2013061369A (ja) 情報処理装置、情報処理システムおよびプログラム
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2004266576A (ja) メディアデータ記憶装置、およびメディアデータ記憶処理プログラム
JP2003323104A (ja) 語学学習システム
US8553855B2 (en) Conference support apparatus and conference support method
JP3110215B2 (ja) 発音訓練装置
JP3569278B1 (ja) 発音学習支援方法、学習者端末及び処理プログラム並びに該プログラムを記録した記録媒体
JP2005024742A (ja) テキスト音声画像記憶装置、テキスト音声画像再生装置、およびテキスト音声画像記憶処理プログラム、テキスト音声画像再生処理プログラム
JP2007292979A (ja) 失語症練習支援装置
JP2017146402A (ja) 学習支援装置及びプログラム
JP4742912B2 (ja) 画像音声記録装置、画像音声記録方法および画像音声記録制御プログラム
JP2005077678A (ja) テキスト音声同期装置およびテキスト音声同期処理プログラム
CN113259778A (zh) 将虚拟人物用于视频自动生产的方法、系统和存储介质
KR20110065276A (ko) 비교 영상을 이용한 발음 학습 방법 및 장치
JP4277512B2 (ja) 電子機器及びプログラム
JP4407119B2 (ja) 命令コード作成装置
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법
JP4985714B2 (ja) 音声表示出力制御装置、および音声表示出力制御処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100413