JP2005070645A

JP2005070645A - テキスト音声同期装置およびテキスト音声同期処理プログラム

Info

Publication number: JP2005070645A
Application number: JP2003303092A
Authority: JP
Inventors: Naotoshi Isogo; 直利五十子; Koji Toriyama; 康治鳥山; Toshihisa Nakamura; 利久中村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2003-08-27
Filing date: 2003-08-27
Publication date: 2005-03-17

Abstract

【課題】テキスト音声同期装置であって、テキストデータと音声データとを高精度に同期再生するための関連付け情報を容易に生成すること。
【解決手段】テキスト／音声同期付け画面Ｇ１の模範テキスト表示エリア４４に表示される模範学習データのテキストデータに従って、当該模範テキストの模範的読み上げを行うと、その読み上げ音声入力と共に音声認識された音声波形および認識テキストがそれぞれ順次入力音声波形表示エリア４７および認識テキスト表示エリア４６に対応表示され、読み上げ音声認識単語毎にその読み上げ経過時間を記録したテキスト音声同期データが取得される。この際、模範テキストと読み上げ音声の認識テキストとが比較され、当該読み上げ音声に模範テキストに対する差異が生じているか判断され、認識テキスト表示エリア４６上の差異抽出部分において当該差異の種類に応じた識別表示が行われる。
【選択図】図６

Description

本発明は、テキストデータと音声データを同期させるためのテキスト音声同期装置およびテキスト音声同期処理プログラムに関する。

従来、音楽，テキスト，画像などのファイルを同時並行して再生する技術としては、例えばMPEG-3により情報圧縮された音声ファイルのフレーム毎に、当該各フレームに設けられた付加データエリアに対して、音声ファイルに同期再生すべきテキストファイルや画像ファイルの同期情報を埋め込んでおくことにより、例えばカラオケの場合では、カラオケ音声とその歌詞のテキストおよびイメージ画像を同期再生するものがある。

また、番組画像とその音声に合わせて字幕を送出するタイミングを設定するための字幕送出タイミング検出装置として、番組音声の中から所定話者音声が存在する音声区間を識別し、当該所定話者音声の音声区間と字幕原稿文とを照合することにより、この字幕原稿文と音声との同期タイミングを検出設定するものも考えられている（例えば、特許文献１参照。）。
特開２００２−２４４６９４号公報

しかしながら、このように従来行われているＭＰＥＧファイルの付加データエリアを利用した複数種類のファイルの同期再生技術では、同期情報の埋め込みが主たるＭＰ３音声ファイルの各フレーム毎の付加データエリアに規定されるため、当該ＭＰ３音声ファイルを再生させない限り同期情報を取り出すことが出来ず、ＭＰ３ファイルの再生を軸としてしか他の種類のファイルの同期再生を行うことが出来ない。

このため、例えばＭＰ３音声ファイルにテキストファイルの同期情報を埋め込んだ場合に、音声ファイルの再生を行わない期間にあっても無音声ファイルとして音声再生処理を継続的に行っていないと同期対象ファイルの再生を行うことが出来ない問題がある。

従って、従来この複数種類ファイルの同期再生処理は、ＭＰ３ファイルの再生処理をベースとして行われるため、再生装置のＣＰＵにおける処理の負荷が重くなる問題がある。

一方、前記特許文献１に記載の装置は、ＭＰＥＧファイルの付加データエリアを利用するものではなく、所定話者音声が存在する音声区間と字幕原稿文とを照合し、当該話者音声に対応する字幕文を関連付けて記憶しておくことで、所定話者音声の出力に伴い対応する字幕文を送出表示できるようにするものであるが、話者音声に対する字幕原稿文の関連付けは、音声発声の開始時間と字幕文の文頭、および発声終了時間と文末との関連付けにより行われるため、例えば語学学習のテキストとその読み上げ音声とを同期再生するなどのテキストの文字列とその個々の読み上げ音声との精密な同期付けが要求されるような場合に、前記処理負担の重いＭＰＥＧ等によらないで、高精度に且つ容易に関連付け情報を生成することはできない。

本発明は、前記のような問題に鑑みてなされたもので、テキストデータと音声データとを高精度に同期再生するための関連付け情報を容易に生成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供することを目的とする。

本発明の請求項１（請求項１１）に係るテキスト音声同期装置（テキスト音声同期処理プログラム）では、テキスト記憶手段により記憶されたテキストを第１のテキスト表示手段により表示し、この第１のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を音声入力手段により入力すると、この音声入力手段により入力された読み上げ音声は音声認識手段によりテキストとして認識され、この音声認識手段により認識された読み上げ音声の認識テキストは第２のテキスト表示手段により表示される。すると、差異抽出手段によって前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストが比較されてその差異が抽出され、この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が前記第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で差異報知手段によって報知される。そして、前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの記述順番に対応付けされた同期データとして同期データ取得手段によって取得される。

本発明の請求項２に係るテキスト音声同期装置は、前記請求項１に係るテキスト音声同期装置にあって、前記差異抽出手段では、第１のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが単語毎に比較されてその差異が抽出され、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で単語単位で報知され、前記同期データ取得手段では、テキスト記憶手段により記憶されたテキストと音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの単語毎の記述順番に対応付けられた同期データとして取得される。

本発明の請求項３に係るテキスト音声同期装置では、前記請求項１または請求項２に係るテキスト音声同期装置にあって、さらに、第１のテキスト音声波形表示手段によってテキスト記憶手段により記憶されたテキストに対応する音声波形が表示され、第２のテキスト音声波形表示手段によって音声入力手段により入力された読み上げ音声の音声波形が表示される。

本発明の請求項４に係るテキスト音声同期装置は、前記請求項１ないし請求項３の何れか１項に係るテキスト音声同期装置にあって、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で識別表示されて報知される。

本発明の請求項５に係るテキスト音声同期装置は、前記請求項１ないし請求項４の何れか１項に係るテキスト音声同期装置にあって、前記差異抽出手段では、前記第１のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが比較されてその追加，変更，削除による差異が抽出される。

本発明の請求項６に係るテキスト音声同期装置では、前記請求項１ないし請求項５の何れか１項に係るテキスト音声同期装置にあって、さらに、前記差異抽出手段により前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストの差異が抽出された場合は、同期修正手段によって前記同期データ取得手段により取得された同期データが修正される。

本発明の請求項７に係るテキスト音声同期装置では、前記請求項６に係るテキスト音声同期装置にあって、前記同期修正手段は、前記差異抽出手段により抽出された前記読み上げ音声認識テキストの差異および前記同期データ取得手段により取得された同期データにおける前記読み上げ音声認識テキストに対応する読み上げ時間情報を基に、当該時間情報を前記テキスト記憶手段により記憶されたテキストに合わせて修正する同期時間の修正手段とされる。

本発明の請求項８に係るテキスト音声同期装置では、前記請求項６に係るテキスト音声同期装置にあって、前記同期修正手段は、前記同期データ取得手段により取得された同期データにおいて対応付けられたテキストを、前記音声認識手段により認識された読み上げ音声の認識テキスト合わせて修正するテキストの修正手段とされる。

本発明の請求項９に係るテキスト音声同期装置では、前記請求項１ないし請求項８の何れか１項に係るテキスト音声同期装置にあって、さらに、前記同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた読み上げ時間情報に従って順次識別表示させるのに伴い前記音声入力手段により入力された読み上げ音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成される。

本発明の請求項１０に係るテキスト音声同期装置では、前記請求項９に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成される。

本発明の請求項１（請求項１１）に係るテキスト音声同期装置（テキスト音声同期処理プログラム）によれば、テキスト記憶手段により記憶されたテキストを第１のテキスト表示手段により表示し、この第１のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を音声入力手段により入力すると、この音声入力手段により入力された読み上げ音声は音声認識手段によりテキストとして認識され、この音声認識手段により認識された読み上げ音声の認識テキストは第２のテキスト表示手段により表示される。すると、差異抽出手段によって前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストが比較されてその差異が抽出され、この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が前記第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で差異報知手段によって報知される。そして、前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの記述順番に対応付けされた同期データとして同期データ取得手段によって取得されるので、例えば模範の第１テキスト表示に対しその読み上げ音声認識テキストの差異を第２の認識テキスト表示上で容易且つ明確に知ることができ、読み上げ音声の再入力や同期データの修正を対策できるようになる。

本発明の請求項２に係るテキスト音声同期装置によれば、前記請求項１に係るテキスト音声同期装置にあって、前記差異抽出手段では、第１のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが単語毎に比較されてその差異が抽出され、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で単語単位で報知され、前記同期データ取得手段では、テキスト記憶手段により記憶されたテキストと音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの単語毎の記述順番に対応付けられた同期データとして取得されるので、例えば模範の第１テキスト表示に対する読み上げ音声認識テキストの第２テキスト表示においてその差異抽出部分を単語単位で明確に知ることができ、またテキスト対読み上げ音声の同期データを単語毎の同期データとして取得できるようになる。

本発明の請求項３に係るテキスト音声同期装置によれば、前記請求項１または請求項２に係るテキスト音声同期装置にあって、さらに、第１のテキスト音声波形表示手段によってテキスト記憶手段により記憶されたテキストに対応する音声波形が表示され、第２のテキスト音声波形表示手段によって音声入力手段により入力された読み上げ音声の音声波形が表示されるので、例えば模範の第１テキスト表示に対する読み上げ音声を、その模範のテキストに対応する音声波形と自己の読み上げ音声に対応する音声波形とを対比参照しながら高精度に入力できるようになる。

本発明の請求項４に係るテキスト音声同期装置によれば、前記請求項１ないし請求項３の何れか１項に係るテキスト音声同期装置にあって、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で識別表示されて報知されるので、例えば模範の第１テキスト表示に対する読み上げ音声認識テキストの差異抽出部分をより明確且つ容易に知ることができ、読み上げ音声の再入力や同期データの修正を適切に対策できるようになる。

本発明の請求項５に係るテキスト音声同期装置によれば、前記請求項１ないし請求項４の何れか１項に係るテキスト音声同期装置にあって、前記差異抽出手段では、前記第１のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが比較されてその追加，変更，削除による差異が抽出されるので、第１テキスト表示に対する読み上げ音声認識テキストの差異をその追加，変更，削除の種類に分けてより明確に知ることができ、読み上げ音声の再入力や同期データの修正に際し適切な内容の対策を実施できるようになる。

本発明の請求項６に係るテキスト音声同期装置によれば、前記請求項１ないし請求項５の何れか１項に係るテキスト音声同期装置にあって、さらに、前記差異抽出手段により前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストの差異が抽出された場合は、同期修正手段によって前記同期データ取得手段により取得された同期データが修正されるので、例えば模範の第１テキスト表示に対する読み上げ音声の入力に読み上げミスがあっても、これに対応する同期データの不具合を修正できるようになる。

本発明の請求項７に係るテキスト音声同期装置によれば、前記請求項６に係るテキスト音声同期装置にあって、前記同期修正手段は、前記差異抽出手段により抽出された前記読み上げ音声認識テキストの差異および前記同期データ取得手段により取得された同期データにおける前記読み上げ音声認識テキストに対応する読み上げ時間情報を基に、当該時間情報を前記テキスト記憶手段により記憶されたテキストに合わせて修正する同期時間の修正手段とされるので、例えば模範の第１テキスト表示に対する読み上げ音声の入力に読み上げミスがあっても、同期データにおいて対応付けされる読み上げ時間情報を模範のテキストに合わせた時間情報に修正できるようになる。

本発明の請求項８に係るテキスト音声同期装置によれば、前記請求項６に係るテキスト音声同期装置にあって、前記同期修正手段は、前記同期データ取得手段により取得された同期データにおいて対応付けられたテキストを、前記音声認識手段により認識された読み上げ音声の認識テキスト合わせて修正するテキストの修正手段とされるので、例えば模範の第１テキスト表示に対する読み上げ音声の入力に正しい差異が生じた場合は、同期データにおいて対応付けされるテキストを読み上げ音声の認識テキストに変更修正できるようになる。

本発明の請求項９に係るテキスト音声同期装置によれば、前記請求項１ないし請求項８の何れか１項に係るテキスト音声同期装置にあって、さらに、前記同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた読み上げ時間情報に従って順次識別表示させるのに伴い前記音声入力手段により入力された読み上げ音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成されるので、テキストとその読み上げ時間情報との同期データに基づいて当該テキストおよびその読み上げ音声の同期再生情報を容易且つ正確に作成できるようになる。

本発明の請求項１０に係るテキスト音声同期装置によれば、前記請求項９に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成されるので、テキストおよびその読み上げ音声の同期再生を、一定時間毎に読み出される命令コードの実行のみによって実現できるようになる。

よって、本発明によれば、テキストデータと音声データとを高精度に同期再生するための関連付け情報を容易に生成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供できる。

以下図面により本発明の実施の形態について説明する。

図１は本発明のテキスト音声同期装置の実施形態に係る携帯機器１０の電子回路の構成を示すブロック図である。

この携帯機器(ＰＤＡ:personal digital assistants)１０は、各種の記録媒体に記録されたプログラム、又は、通信伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、ＣＰＵ(central processing unit)１１が備えられる。

ＣＰＵ１１は、メモリ１２内のＲＯＭ１２Ａに予め記憶されたＰＤＡ（携帯機器）制御プログラム１２ａ、あるいはＲＯＭカードなどの外部記録媒体１３から記録媒体読取部１４を介して前記メモリ１２に読み込まれたＰＤＡ制御プログラム１２ａ、あるいはインターネットなどの通信ネットワークＮ上の他のコンピュータ端末（３０）から電送制御部１５を介して前記メモリ１２に読み込まれたＰＤＡ制御プログラム１２ａに応じて、回路各部の動作を制御するもので、前記メモリ１２に記憶されたＰＤＡ制御プログラム１２ａは、スイッチやキーからなる入力部１７ａおよびマウスやタブレットからなる座標入力装置１７ｂからのユーザ操作に応じた入力信号、あるいは電送制御部１５に受信される通信ネットワークＮ上の他のコンピュータ端末（３０）からの通信信号、あるいはBluetooth(R)による近距離無線接続や有線接続による通信部１６を介して受信される外部の通信機器（ＰＣ:personal computer）２０からの通信信号に応じて起動される。

前記ＣＰＵ１１には、前記メモリ１２、記録媒体読取部１４、電送制御部１５、通信部１６、入力部１７ａ、座標入力装置１７ｂが接続される他に、ＬＣＤからなる表示部１８、マイクを備え音声を入力する音声入力部１９ａ、スピーカを備え音声を出力する音声出力部１９ｂなどが接続される。

また、ＣＰＵ１１には、処理時間計時用のタイマが内蔵される。

この携帯機器１０のメモリ１２は、ＲＯＭ１２Ａ、FLASHメモリ(EEP-ROM)１２Ｂ、ＲＡＭ１２Ｃを備えて構成される。

ＲＯＭ１２Ａには、当該携帯機器１０のＰＤＡ制御プログラム１２ａとして、その全体の動作を司るシステムプログラムや電送制御部１５を介して通信ネットワークＮ上の各コンピュータ端末（Ｗｅｂサーバなど）（３０）とデータ通信するためのネット通信プログラム、通信部１６を介して外部の通信機器（ＰＣ）２０とデータ通信するための外部機器通信プログラムが記憶される他に、スケジュール管理プログラムやアドレス管理プログラム、そして例えば英会話学習用のテキストデータに対して当該テキストを読み上げる音声データを同期付けするためのテキスト音声同期データ１２ｆ（図３参照）を取得する同期取得処理プログラム１２a1、このテキスト対音声の同期処理に際して入力される読み上げ音声データを音声認識して読み上げテキストに変換する音声認識処理プログラム１２a2、前記テキスト音声同期データ１２ｆの取得に際して読み上げ音声に誤りが存在した場合に同期付けの修正を行うための同期修正処理プログラム１２a3、音声・テキストなどの各種のデータを同期再生するための同期再生用タイムコードファイル１２ｃ（図１４参照）を前記テキスト音声同期データ１２ｆに基づき作成する同期データ作成処理プログラム１２a4、これにより作成されたタイムコードファイル１２ｃに従い音声・テキストなどの各種のデータを同期再生するための同期データ再生処理プログラム１２a5など、種々のＰＤＡ制御プログラム１２anが記憶される。

FLASHメモリ(EEP-ROM)１２Ｂには、ＲＯＭカードなどの外部記録媒体１３から記録媒体読取部１４を介して取り込まれるか、あるいは通信ネットワーク（インターネット）Ｎ上のＷｅｂサーバ３０から電送制御部１５を介して取り込まれた、例えば英語学習用の模範学習データ１２ｂが記憶される。

この模範学習データ１２ｂは、例えば英語学習の模範のテキストデータ、この模範テキストを読み上げる模範的な発音の音声波形データからなる。

この他に、FLASHメモリ(EEP-ROM)１２Ｂには、前記スケジュール管理プログラムやアドレス管理プログラムに基づき管理されるユーザのスケジュール及び友人・知人のアドレスなどが記憶される。

ＲＡＭ１２Ｃには、前記同期データ作成処理プログラム１２a4に従い作成され、また前記同期データ再生処理プログラム１２a5に従い再生処理の対象となる同期再生用タイムコードファイル１２ｃ（図１４参照）が記憶されると共に、前記音声認識プログラム１２a2に従い認識変換された音声認識テキストデータ（含む入力音声波形データ）１２ｄ、前記模範学習データ１２ｂの模範テキストデータと当該模範テキストを読み上げた音声認識テキストデータ１２ｄとの差異を抽出した模範／認識（テキスト）差異抽出データ１２ｅが記憶される。

ここで、前記同期再生用タイムコードファイル１２ｃは、例えば前記模範学習データ１２ｂにネイティブによる模範的読み上げ音声データを同期付けて再生するためのファイルである。

この作成された同期再生用タイムコードファイル１２ｃは、本携帯機器１０によりその場で同期再生してユーザ自身あるいは第三者が利用する他に、例えばＣＤ−ＲＯＭに記録して他の学習者に配布したり、電送制御部１５を介して通信ネットワーク（インターネット）Ｎ上にある前記模範学習データ１２ｂの提供元Ｗｅｂサーバ３０へ転送し同様に他の学習者に配信して利用したりする。

同期再生用タイムコードファイル１２ｃ（図１４参照）は、前記同期データ作成処理プログラム１２a4に従い作成（作成処理については後述する）され、前記同期データ再生処理プログラム１２a5に従い再生（再生処理については後述する）されるもので、再生命令の処理単位時間（１２c1a）を記憶するヘッダ情報（１２c1）、および後述する同期再生用テキストデータ（１２c2）、同期再生用音声データ（１２c3）を組み合わせて構成される。つまり、同期データ作成処理プログラム１２a3による同期再生用タイムコードファイル１２ｃの作成に従い、同期再生の対象となるテキストデータが同期再生用テキストデータ（１２c2）として記憶され、同音声データが同期再生用音声データ（１２c3）として記憶される。

そしてまた、ＲＡＭ１２Ｃには、テキストと音声を同期再生するための同期再生用タイムコードファイル１２ｃを前記同期データ作成処理プログラム１２a4に従い作成処理する過程において、前記同期取得処理プログラム１２a1に従い生成されるテキストデータの単語Ｎｏ．（ｗｎ）と読み上げ音声時間（ｔｎ）とを同期付けたテキスト音声同期データ１２ｆが記憶される。

さらに、ＲＡＭ１２Ｃには、その他各種の処理に応じてＣＰＵ１１に入出力される種々のデータを一時記憶するためワークエリアが用意される。

図１４で示す同期再生用タイムコードファイル１２ｃには、個々のデータ毎に予め設定される一定時間間隔（例えば25ms）で各種データ同期再生のコマンド処理を行うためのタイムコードが記述配列されるもので、この各タイムコードは、命令を指示するコマンドコードと、当該コマンドに関わる再生対象データの内容を対応付けするための参照番号や指定数値からなるパラメータデータとの組み合わせにより構成される。

なお、このタイムコードに従い順次コマンド処理を行うための一定時間間隔は、当該タイムコードファイル１２ｃのヘッダ情報１２c1に処理単位時間１２ｃ1aとして記述設定される。

図２は前記携帯機器１０の同期再生用タイムコードファイル１２ｃ（図１４参照）にて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム１２a5に基づき解析処理される命令内容を対応付けて示す図である。

同期再生用タイムコードファイル１２ｃに使用されるコマンドとしては、標準コマンドと拡張コマンドがあり、標準コマンドには、ＬＴ（ｉ番目テキストロード）．ＶＤ（ｉ番目テキスト文節表示）．ＢＬ（文字カウンタリセット・ｉ番目文節ブロック指定）．ＨＮ（ハイライト無し・文字カウンタカウントアップ）．ＨＬ（ｉ番目文字までハイライト・文字カウント）．ＬＳ（１行スクロール・文字カウンタカウントアップ）．ＤＨ（ｉ番目ＨＴＭＬファイル表示）．ＤＩ（ｉ番目イメージファイル表示）．ＰＳ（ｉ番目サウンドファイルプレイ）．ＣＳ（クリアオールファイル）．ＰＰ（基本タイムｉ秒間停止）．ＦＮ（処理終了）．ＮＰ（無効）の各コマンドがある。

すなわち、この携帯機器（ＰＤＡ）１０のＲＯＭ１２Ａに記憶されている同期データ再生処理プログラム１２a5を起動させた際に、ＲＡＭ１２Ｃに記憶されている同期再生用タイムコードファイル１２ｃが、例えば図１４で示したファイル内容であり、一定時間毎のコマンド処理に伴い２番目のコマンドコード“ＰＳ”およびパラメータデータ“０１”が読み込まれた場合には、このコマンド“ＰＳ”はｉ番目のサウンドファイル再生命令であるため、パラメータデータｉ＝０１からリンク付けられる同期再生用音声データ１２c3における１番目の音声データが読み出されて表示される。

また、例えば同一定時間毎のコマンド処理に伴い４番目のコマンドコード“ＶＤ”およびパラメータデータ“００”が読み込まれた場合には、このコマンド“ＶＤ”はｉ番目のテキスト文節表示命令であるため、パラメータデータｉ＝００に従い、同期再生用テキストデータ１２c2におけるテキストデータの０番目（最初）の文節（例えば１sentence）が表示される。

さらに、例えば同一定時間毎のコマンド処理に伴い６番目のコマンドコード“ＮＰ”およびパラメータデータ“００”が読み込まれた場合には、このコマンド“ＮＰ”は無効命令であるため、現状のデータ出力状態が維持される。

なお、このテキスト・音声の各データを同期再生するための図１４で示した同期再生用タイムコードファイル１２ｃの作成動作、およびこのタイムコードファイル１２ｃによる各同期再生用データ１２c2，１２c3についての詳細な再生動作は、後述にて改めて説明する。

図３は前記携帯機器１０の同期データ作成処理プログラム１２a4に従いメモリ１２に記憶されるテキスト音声同期データ１２ｆを示す図である。

このテキスト音声同期データ１２ｆは、模範学習テキストに模範の発声音声を対応付けて同期再生するための同期再生用タイムコードファイル１２ｃの作成に伴う同期取得処理（図４参照）において、表示中の模範学習テキストの模範の読み上げ音声を入力・音声認識して当該テキストの読み上げ単語を認識して行くことで、当該各単語Ｎｏ．（ｗｎ）毎に模範の発声音声の読み上げ経過時間（ｔｎ）が対応付けされて生成される。

次に、前記構成の携帯機器１０により、例えば模範学習データ１２ｂである英会話テキストデータをネイティブにより模範的に読み上げる音声データを入力し、その同期再生を図るための同期再生用タイムコードファイル１２ｃを作成するための同期データ作成機能について説明する。

図４は前記携帯機器１０の同期取得処理プログラム１２a1に従った同期取得処理を示すフローチャートである。

図５は前記携帯機器１０の同期取得処理に伴う同期修正処理プログラム１２a3に従った同期修正処理を示すフローチャートである。

図６は前記携帯機器１０の同期取得処理およびこれに伴う同期修正処理を実施する場合の模範学習データと読み上げ音声データの同期付け状態を示す図であり、同図（Ａ）はテキスト／音声同期付け画面Ｇ１の初期表示状態を示す図、同図（Ｂ）は同テキスト／音声同期付け画面Ｇ１における読み上げ音声入力中の表示状態を示す図である。

このテキスト／音声同期付け画面Ｇ１には、ガイドメッセージを表示するためのメッセージ表示エリア４１、同期付け処理の開始／停止を指示するための開始ボタン(START)４２／停止ボタン(STOP)４３、模範学習テキストを表示するための模範テキスト表示エリア４４、当該模範学習テキストに対応する模範音声波形を表示するための模範音声波形表示エリア４５、模範学習テキスト（４４）および模範音声波形（４５）に合わせて入力された読み上げ音声データの音声認識テキストを表示するための認識テキスト表示エリア４６、当該入力された読み上げ音声波形を表示するための入力音声波形表示エリア４７が設けられる。

入力部１７ａの操作により、例えばインターネットＮ上のＷｅｂサーバ３０から予めダウンロードされてFLASHメモリ１２Ｂに記憶されている模範学習データ１２ｂに基づき、模範の英語テキストに対して例えばネイティブによる模範の音声データを同期付けする場合に、図４における同期取得処理が起動されると、図６（Ａ）に示すように、模範テキストの読み上げガイドメッセージ「テキストを読み上げてください。」がテキスト／音声同期付け画面Ｇ１上のメッセージ表示エリア４１に表示される（ステップＡ０）。

これと共に、FLASHメモリ１２Ｂに記憶されている模範学習データ１２ｂが読み出され（ステップＡ１）、図６（Ａ）に示すように、前記模範学習データ１２ｂの英語テキストがテキスト／音声同期付け画面Ｇ１上の模範テキスト表示エリア４４に表示され、さらに当該模範の英語テキストに対応する音声波形が模範音声波形表示エリア４５に表示される（ステップＡ２）。

そして、模範テキスト・模範音声波形の表示に合わせたネイティブによる当該模範テキストの読み上げに伴う音声入力が行われると（ステップＡ３）、当該音声入力される模範テキストの読み上げに伴う発声音声が認識されると共に（ステップＡ４）、この読み上げ音声に対応するテキストデータ１２ｄが抽出されＲＡＭ１２Ｃに記憶される（ステップＡ５）。

すると、この音声認識されたテキスト１２ｄの各単語ｗｎ毎に入力開始からの読み上げ経過時間ｔｎがテキスト音声同期データ１２ｆ（図３参照）として順次ＲＡＭ１２Ｃ内に記憶される（ステップＡ６）。

図７は前記携帯機器１０での同期取得処理に伴う模範学習テキストとその読み上げ音声認識テキストの時間同期状態を示す図であり、同図（Ａ）は模範学習テキスト１２ｂを示す図、同図（Ｂ）は読み上げ音声認識テキスト１２ｄの読み上げ経過時間ｔｎを示す図である。

図８は前記携帯機器１０での同期取得処理に伴う読み上げ音声認識の各認識単語ｗｎに対応する各読み上げ経過時間ｔｎを示す図であり、同図（Ａ）は読み上げられた各音声認識単語ｗｎを示す図、同図（Ｂ）は各読み上げ単語ｗｎ認識時点での読み上げ経過時間ｔｎを示す図である。

図９は前記携帯機器１０での同期取得処理に伴う模範テキスト１２ｂと読み上げ音声認識テキスト１２ｄとの差異抽出データ１２ｅを示す図であり、同図（Ａ）は模範テキストとの差異ありと判断された読み上げ音声認識テキストの単語Ｎｏ．（ｗｎ）を示す図、同図（Ｂ）は差異ありと判断された読み上げ音声認識テキストｗｎにおける差異の種類データ（追加“add”／変更“def”／削除“no”）を示す図、同図（Ｃ）は差異ありと判断された読み上げ音声認識テキストｗｎにおける差異の内容データを示す図である。

すなわち、図７（Ａ）で示すような模範学習データ１２ｂに対して、図７（Ｂ）で示すように読み上げ音声が文字認識１２ｄされ、図８に示すようにその認識単語ｗｎ毎にその読み上げ経過時間ｔｎが同期付けされて、図３で示すようなテキスト音声同期データ１２ｆとして作成取得されるもので、この際、読み上げ音声の認識単語毎に模範テキストとの比較処理が実施され（ステップＡ７）、その差異の有無が判断される（ステップＡ８）。

ここで、模範テキスト１２ｂの単語と読み上げ音声認識テキスト１２ｄの単語との差異がないと判断された場合には、図６（Ｂ）に示すように、当該認識単語単位でその読み上げ音声認識テキストデータ１２ｄが前記テキスト／音声同期付け画面Ｇ１上の認識テキスト表示エリア４６に順次ハイライト表示ＨＬされて識別表示されると共に、その認識された読み上げ音声波形データが入力音声波形表示エリア４７に順次表示される（ステップＡ８→Ａ９）。

一方、模範テキスト１２ｂの単語と読み上げ音声認識テキスト１２ｄの単語との差異があると判断された場合には、図９（Ａ）〜（Ｃ）で示すように当該差異の抽出データ１２ｅが作成されてＲＡＭ１２Ｃに記憶され（ステップＡ８→Ａ１０）、差異ありと判断された認識単語が前記テキスト／音声同期付け画面Ｇ１上の認識テキスト表示エリア４６にその差異の種類（追加“add”／変更“def”／削除“no”）によって異なる表示形態によって識別表示されると共に、その読み上げ音声波形データが入力音声波形表示エリア４７に表示される（ステップＡ９）。

ここで、模範テキスト１２ｂとの差異ありと判断された読み上げ音声認識単語の差異の種類が、例えば図６（Ｂ）〜図９で示すように、“ａ”の「追加“add”」である場合には、当該読み上げ追加された音声認識単語“ａ”は青色にマーキングされて識別表示され、また“meditation→medication”の「変更“def”」である場合には、当該読み上げ変更された音声認識単語“medication”は枠に囲まれて識別表示され、また“ａ”の「削除“no”」である場合には、当該読み上げ削除されたテキスト表示部分は赤色にマーキングされて識別表示される。

これにより、模範学習データ１２ｂのテキストデータを読み上げながらその音声入力を行い同期付け作業を行っている当該機器１０のオペレータは、その読み上げ音声の内容に模範テキスト１２ｂとどのような種類の差異が何処に生じたかを一目で簡単に確認することができる。

そして、読み上げ音声の認識に基づく認識テキスト単語が模範学習テキスト１２ｂの最終単語と全く一致しないことで、当該模範テキスト１２ｂの読み上げが終了してないと判断されると（ステップＡ１１）、前記ステップＡ３からの処理に戻り、個々の読み上げ音声の認識単語ｗｎ毎にその読み上げ経過時間ｔｎを対応付けたテキスト音声同期データ１２ｆの作成が繰り返されると共に（ステップＡ３〜Ａ６）、模範テキスト１２ｂに対する認識単語との比較およびその差異抽出が行われ、この差異抽出の有無および差異の種類に応じた認識単語毎の識別表示が繰り返される（ステップＡ７〜Ａ１１）。

この後、読み上げ音声の認識に基づく認識テキスト単語が模範学習テキスト１２ｂの最終単語と完全一致あるいは部分一致することで、当該模範テキスト１２ｂの読み上げ終了と判断されると（ステップＡ１１）、前記ステップＳ１０において読み上げ音声認識テキスト１２ｄの差異抽出データ１２ｅが作成記憶されているか否か判断される（ステップＡ１２）。

ここで、前記模範学習テキスト１２ｂとその読み上げ音声認識テキスト１２ｄとの間に差異はなく、差異抽出データ１２ｅはないと判断されると、前記模範テキスト表示エリア４４に表示された模範学習データ１２ｂのテキストデータが同期再生用テキストデータ１２c2として保存される（ステップＡ１２→Ａ１３）と共に、前記音声入力部１９ａにより音声入力されて一時記憶された例えばネイティブのテキスト読み上げに伴う音声データが同期再生用音声データ１２c3として保存される（ステップＡ１４）。

一方、前記ステップＡ１２において、前記模範学習テキスト１２ｂとその読み上げ音声認識テキスト１２ｄとの間に、例えば前記図９で示した差異抽出データ１２ｅがあると判断されると、図６（Ｂ）で示すように、テキスト／音声同期付け画面Ｇ１のメッセージ表示エリア４１に対して、同期データ修正を促すガイドメッセージ「同期修正しますか？」が表示されその有無が判断される（ステップＡ１２→Ａ１５）。

ここで、模範学習データ１２ｂのテキストデータに対して読み上げ音声認識テキストに差異が生じたことで、例えば当該模範テキスト１２ｂの読み上げによる同期付け処理をもう一度やり直したい場合に、前記テキスト／音声同期付け画面Ｇ１の「ＮＯ」ボタン４９が操作されると、前記一連の同期取得処理がステップＡ０から新たに実行される（ステップＡ１５→Ａ０）。

一方、模範学習データ１２ｂのテキストデータに対して読み上げ音声認識テキストに差異が生じた場合でも、例えば模範のテキスト１２ｂよりも今回のネイティブによる読み上げ音声を学習素材として優先使用したい場合に、前記テキスト／音声同期付け画面Ｇ１の「ＹＥＳ」ボタン４８が操作されると、図５における同期修正処理に移行され、模範テキスト１２ｂを基準にして前記各読み上げ認識単語ｗｎ毎の同期時間データｔｎの修正が図られるか、または読み上げ音声の認識テキストを基準にしたテキストの修正が図られる（ステップＡ１５→ＡＸ）。

図５における同期修正処理が起動されると、まず、前記模範／認識（テキスト）差異抽出データ１２ｅとして存在する差異あり単語Ｎｏ．（ｗｎ）およびその前後の単語Ｎｏ．（ｗｎ±１）それぞれの読み上げ時間ｔｎがテキスト音声同期データ１２ｆ（図３・図８参照）に基づき検出される（ステップＸ１）。

すると、図６（Ｂ）に示すように、テキスト／音声同期付け画面Ｇ１上のメッセージ表示エリア４１に隣接して、「時間修正」ボタン４８ａおよび「テキスト修正」ボタン４８ｂが表示され、模範テキスト１２ｂを基準とした各読み上げ認識単語ｗｎ毎の同期時間データｔｎの修正を行うか、または読み上げ音声の認識テキストを基準としたテキストの修正を行うかの判断がユーザに促される（ステップＸ２）。

ここで、模範テキスト１２ｂを基準とした各読み上げ認識単語ｗｎ毎の同期時間データｔｎの修正を行うために「時間修正」ボタン４８ａが操作されると、前記テキスト音声同期データ１２ｆの中で音声認識テキスト１２ｄの差異のある単語ｗｎに対応する前後の時間データｔｎ±１が模範テキスト１２ｂの各単語を基準にして修正される（ステップＸ２→Ｘ３）。

図１０は前記携帯機器１０での同期取得処理に伴う差異抽出データ１２ｅの種類が「追加“add”」である場合のテキスト音声同期データ１２ｆに対する時間データｔｎの具体的修正手順を示す図である。

すなわち、図１０（Ａ）に示すように、模範テキスト１２ｂにおける第７，第８単語「ｗ７“of”」「ｗ８“meditation”」に対し、図１０（Ｂ）に示すように、その読み上げ音声認識テキスト１２ｄが「ｗ７“of”」「ｗ８“ａ”」「ｗ９“medication”」となって“ａ”の「追加“add”」の差異が抽出され、図１０（Ｃ）に示すように、その読み上げ時間が「ｔ７“4.25”」「ｔ８“4.50”」「ｔ９“5.75”」としてテキスト音声同期データ１２ｆに記録された場合は、図１０（Ｄ）に示すように、模範テキスト１２ｂの第７，第８単語「ｗ７“of”」「ｗ８“meditation”」に読み上げ時間「ｔ７“4.25”」「ｔ８“4.50”」を対応付けてテキスト音声同期データ１２ｆの時間修正が図られる。

図１１は前記携帯機器１０での同期取得処理に伴う差異抽出データ１２ｅの種類が「変更“def”」である場合のテキスト音声同期データ１２ｆに対する時間データｔｎの具体的修正手順を示す図である。

すなわち、図１１（Ａ）に示すように、模範テキスト１２ｂにおける第８単語「ｗ８“meditation”」に対し、図１１（Ｂ）に示すように、その読み上げ音声認識テキスト１２ｄが「ｗ８“ａ”」「ｗ９“medication”」となって“meditation→medication”の「変更“def”」の差異が抽出され、図１１（Ｃ）に示すように、その読み上げ時間が「ｔ８“4.50”」「ｔ９“5.75”」としてテキスト音声同期データ１２ｆに記録された場合は、図１１（Ｄ）に示すように、当該変更差異の生じた模範テキスト１２ｂの単語“meditation”と読み上げ認識テキスト１２ｄの単語“medication”との文字数比“１”(=10/10)に基づき、図１１（Ｅ）に示すように、前記読み上げ認識単語“medication”と同じ速度で模範単語“meditation”を読み上げたと仮定した読み上げ時間“5.75”[=4.50+((5.75-4.50)*1)]が求められ、図１１（Ｆ）に示すように、模範テキスト１２ｂの第８単語「ｗ８“meditation”」に読み上げ時間「ｔ９“5.75”」を対応付けてテキスト音声同期データ１２ｆの時間修正が図られる。

図１２は前記携帯機器１０での同期取得処理に伴う差異抽出データ１２ｅの種類が「削除“no”」である場合のテキスト音声同期データ１２ｆに対する時間データｔｎの具体的修正手順を示す図である。

すなわち、図１２（Ａ）に示すように、模範テキスト１２ｂにおける第８〜第１１単語「ｗ８“meditation”」「ｗ９“and”」「ｗ１０“a”」「ｗ１１“meerschaum”」に対し、図１２（Ｂ）に示すように、その読み上げ音声認識テキスト１２ｄが「ｗ９“medication”」「ｗ１０“and”」「ｗ１１“meerschaum”」となって“a”の「削除“no”」の差異が抽出され、図１２（Ｃ）に示すように、その読み上げ時間が「ｔ９“5.75”」「ｔ１０“6.25”」「ｔ１１“8.00”」としてテキスト音声同期データ１２ｆに記録された場合は、図１２（Ｄ）（Ｅ）に示すように、削除差異として抽出された模範テキスト単語“ａ”の前後の各読み上げ認識単語「ｗ１０“and”」「ｗ１１“meerschaum”」間での１文字あたりの平均読み上げ時間“0.17”(=2.25/13)に基づき、図１１（Ｆ）に示すように、前記削除の模範単語“a”を読み上げたと仮定した読み上げ時間“6.42”[=6.25+(0.17*1)]が求められ、図１１（Ｇ）に示すように、模範テキスト１２ｂの第１０，第１１単語「ｗ１０“a”」「ｗ１１“meerschaum”」に読み上げ時間“6.42”“8.17”[=6.42+(8.00-6.25)]を対応付けてテキスト音声同期データ１２ｆの時間修正が図られる。

これにより、模範テキスト１２ｂに対してその読み上げ音声認識テキスト１２ｄとの間に差異が生じた場合に、当該模範テキスト１２ｂを基準にして各読み上げ認識単語ｗｎ毎の同期時間データｔｎを容易に修正することができる。

こうして、模範テキスト１２ｂを基準にしたテキスト音声同期データ１２ｆにおける同期時間データｔｎの修正が行われると、前記同様に模範テキスト表示エリア４４に表示された模範学習データ１２ｂのテキストデータが同期再生用テキストデータ１２c2として保存される（ステップＡ１６→Ａ１３）と共に、前記音声入力部１９ａにより音声入力されて一時記憶された例えばネイティブのテキスト読み上げに伴う音声データが同期再生用音声データ１２c3として保存される（ステップＡ１４）。

一方、前記ステップＸ２において、読み上げ音声の認識テキストを基準にしたテキストの修正を行うために「テキスト修正」ボタン４８ｂが操作されると、前記テキスト音声同期データ１２ｆをそのままに音声認識テキスト１２ｄの差異のある単語ｗｎに合わせて本来同期付けすべき模範テキスト１２ｂの各単語が修正される（ステップＸ２→Ｘ４）。

すなわち、この場合にはテキスト・音声の同期再生データとして作成すべきそのテキストデータを、前記模範学習データ１２ｂのテキストデータではなく、これに従い例えばネイティブにより読み上げられた読み上げ音声認識テキスト１２ｄそのものに設定するもので、これにより、音声認識テキストデータ１２ｄが同期再生用テキストデータ１２c2として保存される（ステップＡ１６→Ａ１７）と共に、前記音声入力部１９ａにより音声入力されて一時記憶されたテキスト読み上げに伴う音声データが同期再生用音声データ１２c3として保存される（ステップＡ１４）。

このようにして、前記図３〜図１２を主に参照して説明した同期取得処理が終了すると、これにより取得保存された各同期再生用データ１２c2，１２c3、およびテキスト音声同期データ１２ｆ（図３参照）に基づき、図１３におけるタイムコードファイル作成処理に移行される（ステップＢ１〜Ｂ１８）。

図１３は前記携帯機器１０の同期データ作成処理プログラム１２a4に従った同期再生用タイムコードファイル１２ｃの作成処理を示すフローチャートである。

図１４は前記携帯機器１０のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル１２ｃを示す図である。

図１５は前記携帯機器１０のタイムコードファイル作成処理に伴う同期再生用テキストデータ１２c2を音声認識テキストデータ１２ｄとした場合の同期再生用音声データ１２c3との対応同期イメージを示す図である。

本実施形態におけるタイムコードファイル作成処理の説明では、同期再生用テキストデータ１２c2として音声認識テキストデータ１２ｄ（図７（Ｂ）・図８参照）が保存され、同期再生用音声データ１２c3として同テキスト読み上げに伴う音声データが保存されている場合について説明する。

このタイムコードファイル作成処理が起動されると、まず、これから作成すべき同期再生用タイムコードファイル１２ｃ（図１４参照）の処理単位時間１２c1aがユーザ操作により基準時間(25ms/50ms/100ms/…)の中から選択され（ステップＢ１）、当該タイムコードファイル１２ｃのヘッダ情報１２c1として書き込まれる（ステップＢ２）。

すると、１番目の命令としてクリアスクリーン（全ファイルクリア）の命令が、コマンドコード“ＣＳ”およびパラメータデータ“００”として書き込まれる（ステップＢ３）。

そして、２番目の命令として指定音声のスタート命令が、コマンドコード“ＰＳ”およびパラメータデータ“０１”として書き込まれ（ステップＢ４）、また、指定テキストの０番目文節（例えば１sentence）の表示命令が、３番目のテキスト指定命令［コマンドコード“ＬＴ”・パラメータデータ“０１”］、４番目のテキスト文節表示命令［コマンドコード“ＶＤ”・パラメータデータ“００”］として書き込まれる（ステップＢ５）。

さらに、５番目の命令として文節中の文字カウンタリセット命令が、コマンドコード“ＢＬ”およびパラメータデータ“００”として書き込まれる（ステップＢ６）。

こうして、同期再生用タイムコードファイル１２ｃの５番目の命令までに、全ファイルクリア、指定音声“１”（この場合は同期再生用音声データ１２c3）の再生開始、指定テキスト“１”（この場合は同期再生用テキストデータ１２c2）の表示、文字カウンタリセットの各コマンドコードおよびそのパラメータデータがセットされると、ＲＡＭ１２Ｃに保存されたテキスト音声同期データ１２ｆ（図３参照）が読み出されると共に（ステップＢ７）、指定のテキスト“１”が同期再生用テキストデータ１２c2から読み出され（ステップＢ８）、当該テキスト上の単語番号ｗｎが“１”に指定される（ステップＢ９）。

すると、当該指定の単語番号ｗｎ“１”に対応する単語「I」（含スペース）までの文字数が“２”としてカウントされると共に（ステップＢ１０）、この指定の単語番号ｗｎ“１”に同期付けられる音声再生時間（読み上げ時間）ｔｎ(ｎ＝１）（この場合「…00:250」）が前記テキスト音声同期データ１２ｆから読み出される（ステップＢ１１）。

そして、前記指定の単語番号ｗｎの音声再生時間ｔｎを前記ステップＢ１にて選択された処理単位時間（基準時間）１２c1aで割り算してタイムコードファイルの命令コード番号が求められ（ステップＢ１２）、このコード番号は未使用か否か判断される（ステップＢ１３）。

ここで、ステップＢ１２にて求められた命令コード番号が既に使用されている場合には、その次のコード番号が指定される（ステップＢ１４）。

すなわち、同期再生用タイムコードファイル１２ｃによる同期データの再生処理開始から何番目の命令コードの位置に指定の単語番号ｗｎに対応する読み上げ音声データの時間ｔｎが到達しているか判断され、当該指定の単語までをハイライト（識別）表示させるタイミングの命令コード番号が求められるもので、この求められたコード番号が既に使用されていて次のコード番号が指定された場合に、その命令コード番号のタイミング遅れは、当該タイムコードファイル１２ｃ自体の処理単位時間（基準時間）１２c1aが例えば［25ms］と極めて短いことから許容値として無視される。

すると、前記ステップＢ１１〜Ｂ１４において求められた命令コード番号の位置に、前記ステップＢ１０にてカウントされた指定の単語までの文字数までをハイライト表示させるための命令が書き込まれる（ステップＢ１５）。例えば指定の単語番号ｗｎ“１”である場合に当該単語「I」（含スペース）までの文字数（２文字）をハイライト表示する命令が、コード番号“１１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“０２”として書き込まれる。

すると、指定されているテキスト上の単語番号が（＋１）されて“２”に指定され（ステップＢ１６）、これに対応する単語「was」のデータ有りと判断されて（ステップＢ１７）、ステップＢ１０に戻り、当該単語番号ｗｎ“２”の単語「was」までの総文字数（６文字：含スペース）がカウントされる。

この後、前記ステップＢ１０〜Ｂ１７の処理が繰り返し実行されると、指定の単語番号ｗｎ“２”である場合に当該単語「was」までの文字数（６文字）をハイライト表示する命令が、コード番号“３１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“０６”として書き込まれる。

また、指定の単語番号ｗｎ“３”である場合には当該単語「enjoying」（含スペース）までの文字数（１５文字）をハイライト表示する命令が、指定の単語番号ｗｎ“４”である場合には当該単語「the」までの文字数（１９文字）をハイライト表示する命令が、それぞれ前記テキスト音声同期データ１２ｆに記録されている音声再生時間（読み上げ時間）ｔｎ（ｎ＝３）（＝４）に基づき各対応するコード番号の命令として、前記同様にコマンドコード“ＨＬ”およびパラメータデータ“１５”“１９”として書き込まれる。

さらにこの後同様の命令コード書き込み処理が繰り返され、指定の単語番号ｗｎ“７”である場合に当該単語「of」までの文字数（３７文字）をハイライト表示する命令が、コード番号“１７１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“３７”として書き込まれ、また指定の単語番号ｗｎ“８”である場合に当該単語「a」までの文字数（３９文字）をハイライト表示する命令が、コード番号“１８１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“３９”として書き込まれて行く。

なお、前記テキスト音声同期データ１２ｆに基づいた当該テキスト中の各単語ｗｎ毎のハイライト表示命令“ＨＬ”が書き込まれた命令コード番号以外のコード番号の位置には、何れも無効命令としてのマンドコード“ＮＰ”およびパラメータデータ“００”が書き込まれる。

この後、前記ステップＢ１７において、指定の単語番号ｗｎに対応する単語のデータ無しと判断されると、次のコード番号の命令として処理終了の命令が、コマンドコード“ＦＮ”およびパラメータデータ“００”として書き込まれる（ステップＢ１８）。

こうして、前記タイムコードファイル作成処理（ステップＢ１〜Ｂ１８）により、前記同期再生用テキストデータ１２c2・同期再生用音声データ１２c3を再生対象データとするテキスト音声同期データ１２ｆに基づいたタイムコードファイル１２ｃが作成されると、このタイムコードファイル１２ｃはＲＡＭ１２Ｃ内に保存される。

こうして、模範学習データ１２ｂに応じた例えばネイティブによる英語テキストの読み上げ状況をその発声音声の入力により収録保存してなるテキスト・音声の各データを、例えば図１５に示すような表示イメージで同期付けて再生再現するための同期再生用タイムコードファイル１２ｃ（図１４参照）が、前記同期データ作成処理に従い、ヘッダ情報１２c1，同期再生用テキストデータ１２c2，同期再生用音声データ１２c3の組み合わせにより容易に作成されてＲＡＭ１２Ｃに保存される。

このメモリ１２に保存された同期再生用タイムコードファイル１２ｃは、本携帯機器１０により再生処理されて例えば語学学習教材として再生される他に、ＣＤ−Ｒなどの外部記録媒体１３に記録して他の学習対象者へ配送して同再生させたり、電送制御部１５からネットワークＮを介して学習データ提供元のＷｅｂサーバ３０に転送して他の学習対象者へ配信させたり、通信部１６を介して外部通信機器（ＰＣ）２０…に転送して同再生させたりすることで、当該同期再生用タイムコードファイル１２ｃを作成した携帯機器１０自身だけでなく、その他の各コンピュータ端末においても同様に模範学習テキストとその模範的読み上げ音声による学習教材の再生処理を実行することができる。

次に、前記構成の携帯機器１０により作成された同期再生用タイムコードファイル１２ｃに従い模範テキストとその模範的読み上げ音声による語学学習教材を再生するための同期データ再生機能について説明する。

図１６は前記携帯機器１０の同期データ再生処理プログラム１２a5に従った同期データ再生処理を示すフローチャートである。

前記同期データ作成処理（１２a4）により作成された同期再生用タイムコードファイル１２ｃおよび各同期再生用のテキスト・音声データ１２c2，１２c3がＲＡＭ１２Ｃに格納された状態において、入力部１７ａの操作によりこの同期再生用タイムコードファイル１２ｃの再生が指示されると、まずユーザに対してスピーキング学習を行うのかまたはヒアリング学習を行うかの質問メッセージが表示される（ステップＳ０１）。

つまり、同期再生用テキストデータ１２c2であるテキストデータをその模範的読み上げ速度に同期付けた識別表示のみ行ってスピーキング練習を行うのか、または同期再生用音声データ１２c3である当該模範的読み上げ音声も同期再生してヒアリング練習を行うのかの選択が促されるもので、ここで、“スピーキング”が選択された場合には、音声出力部１９ｂの動作がオフされ、これ以後の同期再生処理に伴う音声の出力は強制的に阻止される（ステップＳ０２）。

すると、ＲＡＭ１２Ｃ内の各ワークエリアのクリア処理やフラグリセット処理などのイニシャライズ処理が行われる（ステップＳ１）。

そして、ＲＡＭ１２Ｃに格納された同期再生用タイムコードファイル１２ｃ（図１４参照）が読み込まれ（ステップＳ２）、当該タイムコードファイル１２ｃのヘッダ情報１２c1に記述された処理単位時間１２c1a(例えば25ms)が、ＣＰＵ１１による当該タイムコードファイル１２ｃの一定時間間隔の読み出し時間として設定される（ステップＳ３）。

そして、このタイムコードファイル１２ｃの先頭に読み出しポインタがセットされ（ステップＳ４）、当該タイムコードファイル１２ｃの再生処理タイミングを計時するためのタイマがスタートされる（ステップＳ５）。

このステップＳ５において、処理タイマがスタートされると、前記ステップＳ３にて設定されたタイムコードファイル１２ｃに応じた処理単位時間(25ms)毎に、前記ステップＳ４にて設定された読み出しポインタの位置の当該タイムコードファイル１２ｃ（図１４参照）のコマンドコードおよびそのパラメータデータが読み出される（ステップＳ６）。

そして、前記タイムコードファイル１２ｃ（図１４参照）から読み出されたコマンドコードが、“ＦＮ”か否か判断され（ステップＳ７）、“ＦＮ”と判断された場合には、その時点で当該同期データ再生処理の停止処理が指示実行される（ステップＳ７→Ｓ８）。

一方、前記タイムコードファイル１２ｃ（図１４参照）から読み出されたコマンドコードが、“ＦＮ”ではないと判断された場合には、各コマンドコードに応じたコマンド処理へ移行されてそのコマンド内容（図２参照）に対応する処理が実行される（ステップＳＣ）。

すると、前記タイマによる計時時間が次の処理単位時間１２c1aに到達したか否か判断され（ステップＳ９）、次の処理単位時間１２c1aに到達したと判断された場合には、タイムコードファイル１２ｃに対する読み出しポインタが次の位置に更新セットされ（ステップＳ９→Ｓ１０）、前記ステップＳ６における当該読み出しポインタの位置のタイムコードファイル１２ｃ（図１４参照）のコマンドコードおよびそのパラメータデータ読み出しからの処理が繰り返される（ステップＳ１０→Ｓ６〜Ｓ９）。

すなわち、携帯機器１０のＣＰＵ１１は、ＲＯＭ１２Ａに記憶された同期データ再生処理プログラム１２a5に従って、同期再生用タイムコードファイル１２ｃに予め設定記述されているコマンド処理の単位時間毎に、当該タイムコードファイル１２ｃに配列されたコマンドコードおよびそのパラメータデータを読み出し、そのコマンドに対応する処理を指示するだけで、当該タイムコードファイル１２ｃに記述された各コマンドに応じた各種同期再生用データ１２c2，１２c3の同期再生処理を実行できる。

ここで、前記同期データ作成処理プログラム１２a4によって作成された図１４で示す語学学習教材の同期再生用タイムコードファイル１２ｃに基づいた、前記同期データ再生処理プログラム１２a5による模範学習英語テキスト（１２c2）・模範的読み上げ音声（１２c3）の同期再生動作について詳細に説明する。

この英語学習教材の同期再生用タイムコードファイル１２ｃ（図１４参照）は、そのヘッダ情報（１２c1）に記述設定された処理単位時間(25ms)１２c1a毎にコマンド処理が実行されるもので、まず、タイムコードファイル１２ｃの第１コマンドコード“ＣＳ”（クリアオールファイル）およびそのパラメータデータ“００”が読み出されると、全ファイルの出力をクリアする指示が行われ、テキスト・音声ファイルの出力がクリアされる。

第２コマンドコード“ＰＳ”（ｉ番目サウンドファイルプレイ）およびそのパラメータデータ“０１”が読み出されると、当該コマンドコードＰＳと共に読み出されたパラメータデータ（ｉ＝１）に応じて、同期再生用音声データ１２c3から読み出された読み上げ音声データの音声出力部１９ｂへの出力が開始される。

第３コマンドコード“ＬＴ”（ｉ番目テキストロード）およびそのパラメータデータ“０１”が読み出されると、当該コマンドコードＬＴと共に読み出されたパラメータデータ（ｉ＝１）に応じて、同期再生用テキストデータ１２c2から読み出された学習テキストデータがＲＡＭ１２Ｃのワークエリアにロードされる。

第４コマンドコード“ＶＤ”（ｉ番目テキスト文節表示）およびそのパラメータデータ“００”が読み出されると、当該コマンドコードＶＤと共に読み出されたパラメータデータ（ｉ＝０）に応じて、同期再生用テキストデータ１２c2にて指定された学習テキストの第１文節（１sentence）が呼び出されて表示部１８に表示される。

第５コマンドコード“ＢＬ”（文字カウンタリセット・ｉ番目文節ブロック指定）およびそのパラメータデータ“００”が読み出されると、前記表示された学習テキストの文字カウンタがリセットされ、当該文節ブロックの１文字目が指定される。

第６コマンドコード“ＮＰ”が読み出されると、次に新たなコマンドコードが読み出されるまで現時点の状態が維持される。

そして、第１１コマンドコード“ＨＬ”（ｉ番目文字までハイライト・文字カウント）およびそのパラメータデータ“０２”が読み出されると、当該コマンドコードＨＬと共に読み出されたパラメータデータ（ｉ＝２）に応じて、学習テキストデータの２番目の文字「I」（含スペース）までハイライト表示（強調表示）ＨＬされる。

そして、文字カウンタが２番目の文字までカウントアップされる。

第１２コマンドコード“ＮＰ”が読み出されると、現在の学習テキストデータおよび読み上げ音声データの同期出力状態が維持される。

続いて、第３１コマンドコード“ＨＬ”（ｉ番目文字までハイライト・文字カウント）およびそのパラメータデータ“０６”が読み出されると、当該コマンドコードＨＬと共に読み出されたパラメータデータ（ｉ＝６）に応じて、学習テキストデータの６番目の文字「was」（含スペース）までハイライト表示（強調表示）ＨＬされる。

続いて、前記同様にタイムコードファイル１２ｃに従ったコマンド処理が行われることで、表示部１８に表示されている学習テキストについて、１５番目の文字「enjoying」（含スペース）までのハイライト表示（強調表示）ＨＬ、１９番目の文字「the」（含スペース）までのハイライト表示（強調表示）ＨＬ、２７番目の文字「twofold」（含スペース）までのハイライト表示（強調表示）ＨＬ、３４番目の文字「luxury」（含スペース）までのハイライト表示（強調表示）ＨＬ、・・・と順次その読み上げ音声が同期出力されながら識別表示されるもので、さらに、第３２１コマンドコード“ＨＬ”（ｉ番目文字までハイライト・文字カウント）およびそのパラメータデータ“６５”が読み出されると、当該コマンドコードＨＬと共に読み出されたパラメータデータ（ｉ＝６５）に応じて、学習テキストデータの６５番目の文字「meerschaum.」までハイライト表示（強調表示）ＨＬされる。

このように、前記同期データ作成処理プログラム１２a4に従い作成された同期再生用タイムコードファイル１２ｃ（図１４参照）・同期再生用テキストデータ１２c2・同期再生用音声データ１２c3に基づき、当該タイムコードファイル１２ｃに予め設定された処理単位時間(25ms)毎のコマンド処理を、同期データ再生処理プログラム１２a5によって行うことで、表示画面上に学習テキストデータが表示されると共に、音声出力部１９ｂから表示中の学習テキストを読み上げる音声データが同期出力され、当該学習テキストの読み上げ文節が各文字（単語）毎に順次同期ハイライト（強調）表示ＨＬされる。

この場合、携帯機器１０のＣＰＵ１１は、同期再生用タイムコードファイル１２ｃに予め記述設定されたコマンド処理の単位時間毎に、当該コマンドコードおよびそのパラメータデータに従った各種コマンド処理を指示するだけで、テキストデータ、読み上げ音声データの同期再生処理を行うことができるので、ＣＰＵのメイン処理の負担が軽くなり、処理能力の比較的小さいＣＰＵでも容易にテキスト・音声を含む同期再生処理が行える。

これにより、模範の学習テキスト１２ｂとこれに対する模範的読み上げ音声とを高精度に同期再生するための同期再生用タイムコードファイル１２ｃを容易に生成できるだけでなく、携帯機器１０のユーザは模範学習データ１２ｂによる当該学習テキストの模範的な読み上げ速度あるいはその読み上げ音声を参考にしてスピーキングあるいはヒアリング学習を行うことができ、しかも前記同期再生用タイムコードファイル１２ｃおよびその同期再生用の各データ１２c2，１２c3を当該学習データ（１２ｂ）の提供元Ｗｅｂサーバ３０へ転送したり、同提供元へＣＤ−ＲＯＭなどの外部記憶媒体１３に書き込んで配送したりすることで、他の学習対象者に対しても同様のテキスト・音声同期再生教材を提供できるようになる。

したがって、前記構成の携帯機器１０による同期データ作成機能によれば、テキスト／音声同期付け画面Ｇ１の模範テキスト表示エリア４４に表示される模範学習データ１２ｂのテキストデータに従って、当該模範テキストの模範的読み上げを行うと、その読み上げ音声が音声入力部１９ａから入力されると共に、音声認識された音声波形データおよび認識テキストデータがそれぞれ順次入力音声波形表示エリア４７および認識テキスト表示エリア４６に対応表示され、読み上げ音声認識単語ｗｎ毎にその読み上げ経過時間ｔｎを記録したテキスト音声同期データ１２ｆが作成取得される。

この際、模範テキストデータ１２ｂと読み上げ音声の認識データ１２ｄとが比較され、当該読み上げ音声に模範テキストに対する追加，変更部分や削除部分などの差異が生じているか判断され、前記認識テキスト表示エリア４６上の差異抽出部分において当該差異の種類に応じた識別表示が行われるので、模範テキストデータ１２ｂに対し対応付けすべき読み上げ音声に生じた差異とその内容とをリアルタイムで容易且つ明確に知ることができ、改めて読み上げ音声を入力してテキスト音声同期データ１２ｆの作成をやり直したり、あるいは模範テキストを基準にしてテキスト音声同期データ１２ｆの時間情報ｔｎを修正したり、あるいは当該時間情報ｔｎをそのままに同期再生対象のテキスト自体を読み上げ音声の認識テキストに修正することができる。

そして、これにより得られたテキスト音声同期データ１２ｆに基づき、テキストデータを各単語毎の読み上げ速度（時間）に応じて順次識別表示（ハイライト表示ＨＬ）させると共に、その読み上げ音声データを同期再生させるための同期再生用タイムコードファイル１２ｃを容易に作成することができる。

なお、前記実施形態では、模範のテキストデータ１２ｂに対する読み上げ音声認識テキストデータ１２ｄの差異を抽出するのに、当該音声認識されたテキストそれ自体の比較によりその差異を抽出する構成としたが、模範学習データ１２ｂとしてその模範テキストデータと共に記憶された模範テキストの音声波形データと前記音声認識された読み上げ音声の音声波形データとの比較により、その差異を抽出し対応テキスト部分を識別表示する構成としてもよい。

また、前記実施形態では、テキスト・音声の同期再生用タイムコードファイル１２ｃを作成するためのテキスト音声同期データ１２ｆを取得する過程において、模範テキスト表示エリア４４に表示された模範テキストデータ１２ｂを見ながらその模範的な読み上げ音声を入力することで、当該読み上げ音声の認識テキストをその認識単語毎に認識テキスト表示エリア４６に順次ハイライト表示ＨＬにより識別表示させ、模範テキストとの差異が抽出された場合にはその差異の生じたテキスト部分を差異の種類に応じて識別表示させる構成としたが、これはそのまま模範テキストの読み上げ練習を行う学習ユーザのために利用することで、リアルタイムに読み上げのミスやその内容を容易且つ明確に知ることができる。

なお、前記実施形態において記載した携帯機器１０による各処理の手法、すなわち、図４のフローチャートに示す同期データ作成処理に伴う同期取得処理、図５のフローチャートに示す前記同期取得処理に伴う同期修正処理、図１３のフローチャートに示す同期データ作成処理に伴うタイムコードファイル作成処理、そして、図１６のフローチャートに示す同期データ再生処理などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード（ＲＯＭカード、ＲＡＭカード等）、磁気ディスク（フロッピディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の外部記録媒体１３に格納して配布することができる。そして、通信ネットワーク（インターネット）Ｎとの通信機能を備えた種々のコンピュータ端末は、この外部記録媒体１３に記憶されたプログラムを記録媒体読取部１４によってメモリ１２に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した同期データ作成機能やその再生機能を実現し、前述した手法による同様の処理を実行することができる。

また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク（インターネット）Ｎ上を伝送させることができ、この通信ネットワーク（インターネット）Ｎに接続されたコンピュータ端末から前記のプログラムデータを取り込み、前述した同期データ作成機能やその再生機能を実現することもできる。

なお、本願発明は、前記各実施形態に限定されるものではなく、実施形態ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。

本発明のテキスト音声同期装置の実施形態に係る携帯機器１０の電子回路の構成を示すブロック図。前記携帯機器１０の同期再生用タイムコードファイル１２ｃにて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム１２a5に基づき解析処理される命令内容を対応付けて示す図。前記携帯機器１０の同期データ作成処理プログラム１２a4に従いメモリ１２に記憶されるテキスト音声同期データ１２ｆを示す図。前記携帯機器１０の同期取得処理プログラム１２a1に従った同期取得処理を示すフローチャート。前記携帯機器１０の同期取得処理に伴う同期修正処理プログラム１２a3に従った同期修正処理を示すフローチャート。前記携帯機器１０の同期取得処理およびこれに伴う同期修正処理を実施する場合の模範学習データと読み上げ音声データの同期付け状態を示す図であり、同図（Ａ）はテキスト／音声同期付け画面Ｇ１の初期表示状態を示す図、同図（Ｂ）は同テキスト／音声同期付け画面Ｇ１における読み上げ音声入力中の表示状態を示す図。前記携帯機器１０での同期取得処理に伴う模範学習テキストとその読み上げ音声認識テキストの時間同期状態を示す図であり、同図（Ａ）は模範学習テキスト１２ｂを示す図、同図（Ｂ）は読み上げ音声認識テキスト１２ｄの読み上げ経過時間ｔｎを示す図。前記携帯機器１０での同期取得処理に伴う読み上げ音声認識の各認識単語ｗｎに対応する各読み上げ経過時間ｔｎを示す図であり、同図（Ａ）は読み上げられた各音声認識単語ｗｎを示す図、同図（Ｂ）は各読み上げ単語ｗｎ認識時点での読み上げ経過時間ｔｎを示す図。前記携帯機器１０での同期取得処理に伴う模範テキスト１２ｂと読み上げ音声認識テキスト１２ｄとの差異抽出データ１２ｅを示す図であり、同図（Ａ）は模範テキストとの差異ありと判断された読み上げ音声認識テキストの単語Ｎｏ．（ｗｎ）を示す図、同図（Ｂ）は差異ありと判断された読み上げ音声認識テキストｗｎにおける差異の種類データ（追加“add”／変更“def”／削除“no”）を示す図、同図（Ｃ）は差異ありと判断された読み上げ音声認識テキストｗｎにおける差異の内容データを示す図。前記携帯機器１０での同期取得処理に伴う差異抽出データ１２ｅの種類が「追加“add”」である場合のテキスト音声同期データ１２ｆに対する時間データｔｎの具体的修正手順を示す図。前記携帯機器１０での同期取得処理に伴う差異抽出データ１２ｅの種類が「変更“def”」である場合のテキスト音声同期データ１２ｆに対する時間データｔｎの具体的修正手順を示す図。前記携帯機器１０での同期取得処理に伴う差異抽出データ１２ｅの種類が「削除“no”」である場合のテキスト音声同期データ１２ｆに対する時間データｔｎの具体的修正手順を示す図。前記携帯機器１０の同期データ作成処理プログラム１２a4に従った同期再生用タイムコードファイル１２ｃの作成処理を示すフローチャート。前記携帯機器１０のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル１２ｃを示す図。前記携帯機器１０のタイムコードファイル作成処理に伴う同期再生用テキストデータ１２c2を音声認識テキストデータ１２ｄとした場合の同期再生用音声データ１２c3との対応同期イメージを示す図。前記携帯機器１０の同期データ再生処理プログラム１２a5に従った同期データ再生処理を示すフローチャート。

符号の説明

１０ …携帯機器
１１ …ＣＰＵ
１２ …メモリ
１２Ａ…ＲＯＭ
１２Ｂ…FLASHメモリ
１２Ｃ…ＲＡＭ
１２ａ…携帯機器（ＰＤＡ）制御プログラム
１２a1…同期取得処理プログラム
１２a2…音声認識処理プログラム
１２a3…同期修正処理プログラム
１２a4…同期データ作成処理プログラム
１２a5…同期データ再生処理プログラム
１２ｂ…模範学習データ（テキスト・音声波形）
１２ｃ…同期再生用タイムコードファイル
１２c1…ヘッダ情報
１２c1a…処理単位時間
１２c2…同期再生用テキストデータ
１２c3…同期再生用音声データ
１２ｄ…音声認識テキストデータ（波形データ）
１２ｅ…模範／認識（テキスト）差異抽出データ
１２ｆ…テキスト音声同期データ
１３ …外部記録媒体
１４ …記録媒体読取部
１５ …電送制御部
１６ …通信部
１７ａ…入力部
１７ｂ…座標入力部（マウス／タブレット）
１８ …表示部
１９ａ…音声入力部
１９ｂ…音声出力部
２０ …外部通信機器（ＰＣ）
３０ …Ｗｅｂサーバ
４１ …メッセージ表示エリア
４２ …開始ボタン(START)
４３ …停止ボタン(STOP)
４４ …模範テキスト表示エリア
４５ …模範音声波形表示エリア
４６ …認識テキスト表示エリア
４７ …入力音声波形表示エリア
４８ａ…「時間修正」ボタン
４８ｂ…「テキスト修正」ボタン
Ｎ …通信ネットワーク（インターネット）
Ｇ１…テキスト／音声同期付け画面
ＨＬ…ハイライト（識別）表示

Claims

テキストを記憶するテキスト記憶手段と、
このテキスト記憶手段により記憶されたテキストを表示する第１のテキスト表示手段と、
この第１のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を入力する音声入力手段と、
この音声入力手段により入力された読み上げ音声をテキストとして認識する音声認識手段と、
この音声認識手段により認識された読み上げ音声の認識テキストを表示する第２のテキスト表示手段と、
前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを比較してその差異を抽出する差異抽出手段と、
この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で報知する差異報知手段と、
前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段と、
を備えたことを特徴とするテキスト音声同期装置。
前記差異抽出手段は、前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを単語毎に比較してその差異を抽出し、
前記差異報知手段は、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で単語単位で報知し、
前記同期データ取得手段は、前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とを当該テキストの単語毎の記述順番に対応付けた同期データとして取得する、
ことを特徴とする請求項１に記載のテキスト音声同期装置。
前記テキスト記憶手段により記憶されたテキストに対応する音声波形を表示する第１のテキスト音声波形表示手段と、
前記音声入力手段により入力された読み上げ音声の音声波形を表示する第２のテキスト音声波形表示手段と、
を備えたことを特徴とする請求項１または請求項２に記載のテキスト音声同期装置。
前記差異報知手段は、前記差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で識別表示して報知する、
ことを特徴とする請求項１ないし請求項３の何れか１項に記載のテキスト音声同期装置。
前記差異抽出手段は、前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを比較してその追加，変更，削除による差異を抽出する、
ことを特徴とする請求項１ないし請求項４の何れか１項に記載のテキスト音声同期装置。
前記差異抽出手段により前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストの差異が抽出された場合は、前記同期データ取得手段により取得された同期データを修正する同期修正手段を備えたことを特徴とする請求項１ないし請求項５の何れか１項に記載のテキスト音声同期装置。
前記同期修正手段は、前記差異抽出手段により抽出された前記読み上げ音声認識テキストの差異および前記同期データ取得手段により取得された同期データにおける前記読み上げ音声認識テキストに対応する読み上げ時間情報を基に、当該時間情報を前記テキスト記憶手段により記憶されたテキストに合わせて修正する同期時間の修正手段である、
ことを特徴とする請求項６に記載のテキスト音声同期装置。
前記同期修正手段は、前記同期データ取得手段により取得された同期データにおいて対応付けられたテキストを、前記音声認識手段により認識された読み上げ音声の認識テキスト合わせて修正するテキストの修正手段である、
ことを特徴とする請求項６に記載のテキスト音声同期装置。
前記同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた読み上げ時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された読み上げ音声を同期出力させるための同期再生情報を作成する同期再生情報作成手段を備えたことを特徴とする請求項１ないし請求項８の何れか１項に記載のテキスト音声同期装置。
前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成することを特徴とする請求項９に記載のテキスト音声同期装置。
コンピュータを制御してテキストと音声を同期付けするためのテキスト音声同期処理プログラムであって、
前記コンピュータを、
テキストを記憶するテキスト記憶手段、
このテキスト記憶手段により記憶されたテキストを表示する第１のテキスト表示手段、
この第１のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を入力する音声入力手段、
この音声入力手段により入力された読み上げ音声をテキストとして認識する音声認識手段、
この音声認識手段により認識された読み上げ音声の認識テキストを表示する第２のテキスト表示手段、
前記第１のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを比較してその差異を抽出する差異抽出手段、
この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第２のテキスト表示手段により表示される読み上げ音声の認識テキスト上で報知する差異報知手段、
前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段、
として機能させるようにしたコンピュータ読み込み可能なテキスト音声同期処理プログラム。