JP2005077678A

JP2005077678A - テキスト音声同期装置およびテキスト音声同期処理プログラム

Info

Publication number: JP2005077678A
Application number: JP2003307305A
Authority: JP
Inventors: Naotoshi Isogo; 直利五十子; Koji Toriyama; 康治鳥山; Toshihisa Nakamura; 利久中村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2003-08-29
Filing date: 2003-08-29
Publication date: 2005-03-24

Abstract

【課題】テキスト音声同期装置であって、テキストデータと音声データとを高精度に同期再生するための関連付け情報を非常に簡単に作成すること。
【解決手段】模範的な発声音声による語学学習文の音声入力を行うと、その発声音声が入力されるのに伴い、音声認識された音声波形および認識テキストがそれぞれ順次入力音声波形表示エリア４５および認識テキスト表示エリア４４に対応表示され、当該音声認識テキストを前記語学学習文の発声音声に対応する学習テキストとして容易に取得できると共に、その音声認識単語ｗｎ毎に音声入力の経過時間ｔｎを記録したテキスト音声同期データを簡単に作成取得できる。そしてこのテキスト音声同期データ１２ｅに基づき、学習テキストを各単語毎の発声速度（時間）に応じて順次識別表示させると共に、その発声音声を同期再生させるための同期再生用タイムコードファイルを非常に簡単に作成できる。
【選択図】図１０

Description

本発明は、テキストデータと音声データを同期させるためのテキスト音声同期装置およびテキスト音声同期処理プログラムに関する。

従来、音楽，テキスト，画像などのファイルを同時並行して再生する技術としては、例えばMPEG-3により情報圧縮された音声ファイルのフレーム毎に、当該各フレームに設けられた付加データエリアに対して、音声ファイルに同期再生すべきテキストファイルや画像ファイルの同期情報を埋め込んでおくことにより、例えばカラオケの場合では、カラオケ音声とその歌詞のテキストおよびイメージ画像を同期再生するものがある。

また、番組画像とその音声に合わせて字幕を送出するタイミングを設定するための字幕送出タイミング検出装置として、番組音声の中から所定話者音声が存在する音声区間を識別し、当該所定話者音声の音声区間と字幕原稿文とを照合することにより、この字幕原稿文と音声との同期タイミングを検出設定するものも考えられている（例えば、特許文献１参照。）。
特開２００２−２４４６９４号公報

しかしながら、このように従来行われているＭＰＥＧファイルの付加データエリアを利用した複数種類のファイルの同期再生技術では、同期情報の埋め込みが主たるＭＰ３音声ファイルの各フレーム毎の付加データエリアに規定されるため、当該ＭＰ３音声ファイルを再生させない限り同期情報を取り出すことが出来ず、ＭＰ３ファイルの再生を軸としてしか他の種類のファイルの同期再生を行うことが出来ない。

このため、例えばＭＰ３音声ファイルにテキストファイルの同期情報を埋め込んだ場合に、音声ファイルの再生を行わない期間にあっても無音声ファイルとして音声再生処理を継続的に行っていないと同期対象ファイルの再生を行うことが出来ない問題がある。

従って、従来この複数種類ファイルの同期再生処理は、ＭＰ３ファイルの再生処理をベースとして行われるため、再生装置のＣＰＵにおける処理の負荷が重くなる問題がある。

一方、前記特許文献１に記載の装置は、ＭＰＥＧファイルの付加データエリアを利用するものではなく、所定話者音声が存在する音声区間と字幕原稿文とを照合し、当該話者音声に対応する字幕文を関連付けて記憶しておくことで、所定話者音声の出力に伴い対応する字幕文を送出表示できるようにするものであるが、話者音声に対する字幕原稿文の関連付けは、音声発声の開始時間と字幕文の文頭、および発声終了時間と文末との関連付けにより行われるため、例えば語学学習のテキストとその読み上げ音声とを同期再生するなどのテキストの文字列とその個々の読み上げ音声との精密な同期付けが要求されるような場合に、前記処理負担の重いＭＰＥＧ等によらないで、高精度に且つ容易に関連付け情報を生成することはできない。

しかも、前記何れの従来技術の場合でも、同期付けすべきテキストデータと音声データのうちの少なくとも一方のデータは予め与えられたデータであり、この一方のデータをベースに入力された他方のデータとの関係付けを図るため、その関係付けるタイミングの割り出しや位置検出のための処理が非常に面倒で重いという問題がある。

本発明は、前記のような問題に鑑みてなされたもので、テキストデータと音声データとを高精度に同期再生するための関連付け情報を非常に簡単に作成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供することを目的とする。

本発明の請求項１（請求項７）に係るテキスト音声同期装置（テキスト音声同期処理プログラム）では、音声入力手段によって言語の発声に伴う音声を入力すると、この音声入力手段により入力された発声音声が音声認識手段によってテキストとして認識され、この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが同期データ取得手段によって当該テキストの記述順番に対応付けされた同期データとして取得される。

本発明の請求項２に係るテキスト音声同期装置は、前記請求項１に係るテキスト音声同期装置にあって、前記同期データ取得手段では、前記音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが当該テキストの単語毎の記述順番に対応付けされた同期データとして取得される。

本発明の請求項３に係るテキスト音声同期装置では、前記請求項１または請求項２に係るテキスト音声同期装置にあって、さらに、入力音声波形表示手段によって音声入力手段により入力された発声音声の音声波形が表示され、認識テキスト表示手段によって音声認識手段により認識された発声音声の認識テキストが表示される。

本発明の請求項４に係るテキスト音声同期装置では、前記請求項１ないし請求項３の何れか１項に係るテキスト音声同期装置にあって、前記同期データ取得手段により取得された同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた発声音声の時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された発声音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成される。

本発明の請求項５に係るテキスト音声同期装置では、前記請求項４に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成される。

本発明の請求項６に係るテキスト音声同期装置では、前記請求項５に係るテキスト音声同期装置にあって、さらに、同期再生手段によって前記同期再生情報作成手段により作成された同期再生情報に従い、予め設定された一定時間毎に命令コードを読み出して実行し、前記音声入力手段により入力された言語の発声音声と前記音声認識手段により認識されたテキストとが同期再生される。

本発明の請求項１（請求項７）に係るテキスト音声同期装置（テキスト音声同期処理プログラム）によれば、音声入力手段によって言語の発声に伴う音声を入力すると、この音声入力手段により入力された発声音声が音声認識手段によってテキストとして認識され、この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが同期データ取得手段によって当該テキストの記述順番に対応付けされた同期データとして取得されるので、例えば学習対象言語の模範の発声音声を入力するだけで、その発声音声に対応する学習テキストを取得でき、当該学習テキストに発声音声を対応付ける同期データを得ることができる。

本発明の請求項２に係るテキスト音声同期装置によれば、前記請求項１に係るテキスト音声同期装置にあって、前記同期データ取得手段では、前記音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが当該テキストの単語毎の記述順番に対応付けされた同期データとして取得されるので、例えば学習テキスト対発声音声の同期データを単語毎の同期データとして取得できるようになる。

本発明の請求項３に係るテキスト音声同期装置によれば、前記請求項１または請求項２に係るテキスト音声同期装置にあって、さらに、入力音声波形表示手段によって音声入力手段により入力された発声音声の音声波形が表示され、認識テキスト表示手段によって音声認識手段により認識された発声音声の認識テキストが表示されるので、発声音声の認識により得られるテキストと当該発声音声との同期状態を表示で見ることができるようになる。

本発明の請求項４に係るテキスト音声同期装置によれば、前記請求項１ないし請求項３の何れか１項に係るテキスト音声同期装置にあって、前記同期データ取得手段により取得された同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた発声音声の時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された発声音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成されるので、テキストとその発声音声の時間情報との同期データに基づいて当該テキストおよびその発声音声の同期再生情報を容易且つ正確に作成できるようになる。

本発明の請求項５に係るテキスト音声同期装置によれば、前記請求項４に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成されるので、テキストおよびその発声音声の同期再生を、一定時間毎に読み出される命令コードの実行のみによって実現できるようになる。

本発明の請求項６に係るテキスト音声同期装置によれば、前記請求項５に係るテキスト音声同期装置にあって、さらに、同期再生手段によって前記同期再生情報作成手段により作成された同期再生情報に従い、予め設定された一定時間毎に命令コードを読み出して実行し、前記音声入力手段により入力された言語の発声音声と前記音声認識手段により認識されたテキストとが同期再生されるので、例えば学習対象言語の模範の発声音声を入力するだけで取得されたその発声音声に対応する学習テキストと当該発声音声とを簡単な処理で同期再生できるようになる。

よって、本発明によれば、テキストデータと音声データとを高精度に同期再生するための関連付け情報を非常に簡単に作成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供できる。

以下図面により本発明の実施の形態について説明する。

図１は本発明のテキスト音声同期装置の実施形態に係る携帯機器１０の電子回路の構成を示すブロック図である。

この携帯機器(ＰＤＡ:personal digital assistants)１０は、各種の記録媒体に記録されたプログラム、又は、通信伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、ＣＰＵ(central processing unit)１１が備えられる。

ＣＰＵ１１は、メモリ１２内のＲＯＭ１２Ａに予め記憶されたＰＤＡ（携帯機器）制御プログラム１２ａ、あるいはＲＯＭカードなどの外部記録媒体１３から記録媒体読取部１４を介して前記メモリ１２内のFLASHメモリ１２Ｂに読み込まれたＰＤＡ制御プログラム１２ａ（１２ｂ）、あるいはインターネットなどの通信ネットワークＮ上の他のコンピュータ端末（３０）から電送制御部１５を介して前記メモリ１２内のFLASHメモリ１２Ｂに読み込まれたＰＤＡ制御プログラム１２ａ（１２ｂ）に応じて、回路各部の動作を制御するもので、前記メモリ１２に記憶されたＰＤＡ制御プログラム１２ａ（１９ｂ）は、スイッチやキーからなる入力部１７ａおよびマウスやタブレットからなる座標入力装置１７ｂからのユーザ操作に応じた入力信号、あるいは電送制御部１５に受信される通信ネットワークＮ上の他のコンピュータ端末（３０）からの通信信号、あるいはBluetooth(R)による近距離無線接続や有線接続による通信部１６を介して受信される外部の通信機器（ＰＣ:personal computer）２０からの通信信号に応じて起動される。

前記ＣＰＵ１１には、前記メモリ１２、記録媒体読取部１４、電送制御部１５、通信部１６、入力部１７ａ、座標入力装置１７ｂが接続される他に、ＬＣＤからなる表示部１８、マイクを備え音声を入力する音声入力部１９ａ、スピーカを備え音声を出力する音声出力部１９ｂなどが接続される。

また、ＣＰＵ１１には、処理時間計時用のタイマが内蔵される。

この携帯機器１０のメモリ１２は、ＲＯＭ１２Ａ、FLASHメモリ(EEP-ROM)１２Ｂ、ＲＡＭ１２Ｃを備えて構成される。

ＲＯＭ１２Ａには、当該携帯機器１０のＰＤＡ制御プログラム１２ａとして、その全体の動作を司るシステムプログラムや電送制御部１５を介して通信ネットワークＮ上の各コンピュータ端末（Ｗｅｂサーバなど）（３０）とデータ通信するためのネット通信プログラム、通信部１６を介して外部の通信機器（ＰＣ）２０とデータ通信するための外部機器通信プログラムが記憶される他に、スケジュール管理プログラムやアドレス管理プログラム、そして例えば英会話学習用のテキストデータと当該テキストに対応する音声データを同期付けするためのテキスト音声同期データ１２ｅ（図３参照）を取得する同期取得処理プログラム１２a1、このテキスト対音声の同期処理に際して入力される音声データを音声認識してテキストデータに変換する音声認識処理プログラム１２a2、音声・テキストなどの各種のデータを同期再生するための同期再生用タイムコードファイル１２ｃ（図１４参照）を前記テキスト音声同期データ１２ｅに基づき作成する同期データ作成処理プログラム１２a3、これにより作成されたタイムコードファイル１２ｃに従い音声・テキストなどの各種のデータを同期再生するための同期データ再生処理プログラム１２a4など、種々のＰＤＡ制御プログラム１２anが記憶される。

FLASHメモリ(EEP-ROM)１２Ｂには、ＲＯＭカードなどの外部記録媒体１３から記録媒体読取部１４を介して取り込まれるか、あるいは通信ネットワーク（インターネット）Ｎ上のＷｅｂサーバ３０から電送制御部１５を介して取り込まれた、各種の制御プログラム（外部入力プログラム）１２ｂが記憶される。

この他に、FLASHメモリ(EEP-ROM)１２Ｂには、前記スケジュール管理プログラムやアドレス管理プログラムに基づき管理されるユーザのスケジュール及び友人・知人のアドレスなどが記憶される。

ＲＡＭ１２Ｃには、前記同期データ作成処理プログラム１２a3に従い作成され、また前記同期データ再生処理プログラム１２a4に従い再生処理の対象となる同期再生用タイムコードファイル１２ｃ（図９参照）が記憶されると共に、前記音声認識プログラム１２a2に従い認識変換された音声認識テキストデータ（含む入力音声波形データ）１２ｄが記憶される。

ここで、前記同期再生用タイムコードファイル１２ｃは、例えばネイティブによる模範的な英語の発音音声データ入力に基づき作成されるもので、この入力された音声データに当該音声データに対応する英文テキストデータを自動生成し同期付けて再生するためのファイルである。

この作成された同期再生用タイムコードファイル１２ｃは、本携帯機器１０によりその場で同期再生してユーザ自身あるいは第三者が利用する他に、例えばＣＤ−ＲＯＭに記録して他の学習者に配布したり、電送制御部１５を介して通信ネットワーク（インターネット）Ｎ上にある学習データ提供元のＷｅｂサーバ３０へ転送し同様に他の学習者に配信して利用したりする。

同期再生用タイムコードファイル１２ｃ（図９参照）は、前記同期データ作成処理プログラム１２a3に従い作成（作成処理については後述する）され、前記同期データ再生処理プログラム１２a4に従い再生（再生処理については後述する）されるもので、再生命令の処理単位時間（１２c1a）を記憶するヘッダ情報（１２c1）、および後述する同期再生用テキストデータ（１２c2）、同期再生用音声データ（１２c3）を組み合わせて構成される。つまり、同期データ作成処理プログラム１２a3による同期再生用タイムコードファイル１２ｃの作成に従い、同期再生の対象となるテキストデータが同期再生用テキストデータ（１２c2）として記憶され、同音声データが同期再生用音声データ（１２c3）として記憶される。

そしてまた、ＲＡＭ１２Ｃには、テキストと音声を同期再生するための同期再生用タイムコードファイル１２ｃを前記同期データ作成処理プログラム１２a3に従い作成処理する過程において、前記同期取得処理プログラム１２a1に従い生成されるテキストデータの単語Ｎｏ．（ｗｎ）とこれに対応する音声時間（ｔｎ）とを同期付けたテキスト音声同期データ１２ｅが記憶される。

さらに、ＲＡＭ１２Ｃには、その他各種の処理に応じてＣＰＵ１１に入出力される種々のデータを一時記憶するためワークエリア１２ｆが用意される。

図９で示す同期再生用タイムコードファイル１２ｃには、個々のデータ毎に予め設定される一定時間間隔（例えば25ms）で各種データ同期再生のコマンド処理を行うためのタイムコードが記述配列されるもので、この各タイムコードは、命令を指示するコマンドコードと、当該コマンドに関わる再生対象データの内容を対応付けするための参照番号や指定数値からなるパラメータデータとの組み合わせにより構成される。

なお、このタイムコードに従い順次コマンド処理を行うための一定時間間隔は、当該タイムコードファイル１２ｃのヘッダ情報１２c1に処理単位時間１２ｃ1aとして記述設定される。

図２は前記携帯機器１０の同期再生用タイムコードファイル１２ｃ（図９参照）にて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム１２a4に基づき解析処理される命令内容を対応付けて示す図である。

同期再生用タイムコードファイル１２ｃに使用されるコマンドとしては、標準コマンドと拡張コマンドがあり、標準コマンドには、ＬＴ（ｉ番目テキストロード）．ＶＤ（ｉ番目テキスト文節表示）．ＢＬ（文字カウンタリセット・ｉ番目文節ブロック指定）．ＨＮ（ハイライト無し・文字カウンタカウントアップ）．ＨＬ（ｉ番目文字までハイライト・文字カウント）．ＬＳ（１行スクロール・文字カウンタカウントアップ）．ＤＨ（ｉ番目ＨＴＭＬファイル表示）．ＤＩ（ｉ番目イメージファイル表示）．ＰＳ（ｉ番目サウンドファイルプレイ）．ＣＳ（クリアオールファイル）．ＰＰ（基本タイムｉ秒間停止）．ＦＮ（処理終了）．ＮＰ（無効）の各コマンドがある。

すなわち、この携帯機器（ＰＤＡ）１０のＲＯＭ１２Ａに記憶されている同期データ再生処理プログラム１２a4を起動させた際に、ＲＡＭ１２Ｃに記憶されている同期再生用タイムコードファイル１２ｃが、例えば図９で示したファイル内容であり、一定時間毎のコマンド処理に伴い２番目のコマンドコード“ＰＳ”およびパラメータデータ“０１”が読み込まれた場合には、このコマンド“ＰＳ”はｉ番目のサウンドファイル再生命令であるため、パラメータデータｉ＝０１からリンク付けられる同期再生用音声データ１２c3における１番目の音声データが読み出されて表示される。

また、例えば同一定時間毎のコマンド処理に伴い４番目のコマンドコード“ＶＤ”およびパラメータデータ“００”が読み込まれた場合には、このコマンド“ＶＤ”はｉ番目のテキスト文節表示命令であるため、パラメータデータｉ＝００に従い、同期再生用テキストデータ１２c2におけるテキストデータの０番目（最初）の文節（例えば１sentence）が表示される。

さらに、例えば同一定時間毎のコマンド処理に伴い６番目のコマンドコード“ＮＰ”およびパラメータデータ“００”が読み込まれた場合には、このコマンド“ＮＰ”は無効命令であるため、現状のデータ出力状態が維持される。

なお、このテキスト・音声の各データを同期再生するための図９で示した同期再生用タイムコードファイル１２ｃの作成動作、およびこのタイムコードファイル１２ｃによる各同期再生用データ１２c2，１２c3についての詳細な再生動作は、後述にて改めて説明する。

図３は前記携帯機器１０の同期データ作成処理プログラム１２a3に従いメモリ１２に記憶されるテキスト音声同期データ１２ｅを示す図である。

このテキスト音声同期データ１２ｅは、模範の発声音声データに当該音声データの認識により得られたテキストデータを対応付けて同期再生するための同期再生用タイムコードファイル１２ｃの作成に伴う同期取得処理（図４参照）において、模範の発声音声を入力・音声認識して当該入力音声の単語を認識して行くことで、当該各単語Ｎｏ．（ｗｎ）毎に模範の発声音声の入力時間（ｔｎ）が対応付けされて生成される。

次に、前記構成の携帯機器１０により、例えばネイティブによる模範的英語の発声音声データを入力し、この発声音声に対応付けて音声認識したテキストデータを同期再生するための同期再生用タイムコードファイル１２ｃを作成するための同期データ作成機能について説明する。

図４は前記携帯機器１０の同期取得処理プログラム１２a1に従った同期取得処理を示すフローチャートである。

図５は前記携帯機器１０の同期取得処理を実施する場合の入力音声データと音声認識テキストデータの同期付け状態を示す音声／テキスト同期付け画面Ｇ１を示す図である。

この音声／テキスト同期付け画面Ｇ１には、ガイドメッセージを表示するためのメッセージ表示エリア４１、同期付け処理の開始／停止を指示するための開始ボタン(START)４２／停止ボタン(STOP)４３、入力された音声データの音声認識テキストを表示するための認識テキスト表示エリア４４、当該入力された音声波形を表示するための入力音声波形表示エリア４５が設けられる。

例えばネイティブにより発声される模範の英文の音声データとこの音声データから音声認識して得られる該英文テキストとを同期付けする場合に、図４における同期取得処理が起動されると、図５に示すように、模範発声音声の入力ガイドメッセージ「音声を入力してください。」が音声／テキスト同期付け画面Ｇ１上のメッセージ表示エリア４１に表示される（ステップＡ１）。

そして、ネイティブの発声による英文の音声入力が行われると（ステップＡ２）、当該音声入力される英文の発声音声が認識されると共に（ステップＡ３）、発声音声に対応するテキストデータ１２ｄが抽出されＲＡＭ１２Ｃに記憶される（ステップＡ４）。

すると、この音声認識されたテキストデータ１２ｄの各単語ｗｎ毎に音声入力開始からの経過時間ｔｎがテキスト音声同期データ１２ｅ（図３参照）として順次ＲＡＭ１２Ｃ内に記憶される（ステップＡ５）。

図６は前記携帯機器１０での同期取得処理に伴う模範発声音声による音声認識テキスト１２ｄの時間同期状態を示す図である。

図７は前記携帯機器１０での同期取得処理に伴う音声認識の各認識単語ｗｎに対応する各音声入力経過時間ｔｎを示す図であり、同図（Ａ）は音声入力に伴う各音声認識単語ｗｎを示す図、同図（Ｂ）は各単語ｗｎ認識時点での音声入力経過時間ｔｎを示す図である。

すなわち、図６で示すように音声入力された英文の発声音声が文字認識１２ｄされ、図７に示すようにその認識単語ｗｎ毎にその音声入力の経過時間ｔｎが同期付けされて、図３で示すようなテキスト音声同期データ１２ｅとして作成取得される（ステップＡ５）。

すると、図５に示すように、当該音声認識された単語単位でその音声認識テキストデータ１２ｄが前記音声／テキスト同期付け画面Ｇ１上の認識テキスト表示エリア４４に順次ハイライト表示ＨＬされて識別表示されると共に、その認識された入力音声の波形データが入力音声波形表示エリア４５に順次表示される（ステップＡ６）。

そして、模範の発声音声の入力が継続されることで、当該音声入力が終了してないと判断されると（ステップＡ７）、前記ステップＡ２からの処理に戻り、個々の入力音声の認識単語ｗｎ毎にその音声入力経過時間ｔｎを対応付けたテキスト音声同期データ１２ｅの作成が繰り返されると共に（ステップＡ２〜Ａ５）、音声認識単語毎の識別表示（波形表示）が繰り返される（ステップＡ６）。

この後、模範の発声音声の入力終了と判断されると（ステップＡ７）、音声認識されて表示されている音声認識テキストデータ１２ｄが同期再生用テキストデータ１２c2として保存される（ステップＡ７→Ａ８）と共に、前記音声入力部１９ａにより音声入力されて一時記憶された模範の発声音声データが同期再生用音声データ１２c3として保存される（ステップＡ９）。

すなわち、このテキスト音声同期装置の実施形態における同期処理では、入力された英語の発声音声データを音声認識して得た英文のテキストデータが同期再生用テキストデータ１２c2として保存され、当該入力された英語の音声データそのものが同期再生用音声データ１２c3として保存されると共に、音声認識された英文のテキストデータの各単語ｗｎ毎に音声データの入力経過時間ｔｎが対応付けされたテキスト音声同期データ１２ｅが作成されるようになり、例えばネイティブによる模範的な英文の音声入力を行うだけで、英語学習用のテキストデータおよびその読み上げ音声データを取得でき、各データ同期付け再生のためのテキスト音声同期データ１２ｅも取得できるようになる。

このようにして、前記図３〜図７を主に参照して説明した同期取得処理が終了すると、これにより取得保存された各同期再生用データ１２c2，１２c3、およびテキスト音声同期データ１２ｅ（図３参照）に基づき、図８におけるタイムコードファイル作成処理に移行される（ステップＢ１〜Ｂ１８）。

図８は前記携帯機器１０の同期データ作成処理プログラム１２a3に従った同期再生用タイムコードファイル１２ｃの作成処理を示すフローチャートである。

図９は前記携帯機器１０のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル１２ｃを示す図である。

図１０は前記携帯機器１０のタイムコードファイル作成処理に伴い表示される同期再生用テキストデータ１２c2としての音声認識テキストデータ１２ｄと同期再生用音声データ１２c3としての入力音声データの入力経過時間とを対応付けたタイムコードファイル作成画面Ｇ２を示す図である。

本実施形態におけるタイムコードファイル作成処理では、同期再生用テキストデータ１２c2として音声認識テキストデータ１２ｄ（図６参照）が保存され、同期再生用音声データ１２c3として同テキストの認識元である入力音声データが保存されている場合について説明する。

このタイムコードファイル作成処理が起動されると、まず、これから作成すべき同期再生用タイムコードファイル１２ｃ（図９参照）の処理単位時間１２c1aがユーザ操作により基準時間(25ms/50ms/100ms/…)の中から選択され（ステップＢ１）、当該タイムコードファイル１２ｃのヘッダ情報１２c1として書き込まれる（ステップＢ２）。

すると、１番目の命令としてクリアスクリーン（全ファイルクリア）の命令が、コマンドコード“ＣＳ”およびパラメータデータ“００”として書き込まれる（ステップＢ３）。

そして、２番目の命令として指定音声のスタート命令が、コマンドコード“ＰＳ”およびパラメータデータ“０１”として書き込まれ（ステップＢ４）、また、指定テキストの０番目文節（例えば１sentence）の表示命令が、３番目のテキスト指定命令［コマンドコード“ＬＴ”・パラメータデータ“０１”］、４番目のテキスト文節表示命令［コマンドコード“ＶＤ”・パラメータデータ“００”］として書き込まれる（ステップＢ５）。

さらに、５番目の命令として文節中の文字カウンタリセット命令が、コマンドコード“ＢＬ”およびパラメータデータ“００”として書き込まれる（ステップＢ６）。

こうして、同期再生用タイムコードファイル１２ｃの５番目の命令までに、全ファイルクリア、指定音声“１”（この場合は同期再生用音声データ１２c3）の再生開始、指定テキスト“１”（この場合は同期再生用テキストデータ１２c2）の表示、文字カウンタリセットの各コマンドコードおよびそのパラメータデータがセットされると、ＲＡＭ１２Ｃに保存されたテキスト音声同期データ１２ｅ（図３参照）が読み出されると共に（ステップＢ７）、指定のテキスト“１”が同期再生用テキストデータ１２c2から読み出され（ステップＢ８）、当該テキスト上の単語番号ｗｎが“１”に指定される（ステップＢ９）。

すると、当該指定の単語番号ｗｎ“１”に対応する単語「I」（含スペース）までの文字数が“２”としてカウントされると共に（ステップＢ１０）、この指定の単語番号ｗｎ“１”に同期付けられる音声再生時間（音声入力経過時間）ｔｎ(ｎ＝１）（この場合「…00:250」）が前記テキスト音声同期データ１２ｅから読み出される（ステップＢ１１）。

そして、前記指定の単語番号ｗｎの音声再生時間ｔｎを前記ステップＢ１にて選択された処理単位時間（基準時間）１２c1aで割り算してタイムコードファイルの命令コード番号が求められ（ステップＢ１２）、このコード番号は未使用か否か判断される（ステップＢ１３）。

ここで、ステップＢ１２にて求められた命令コード番号が既に使用されている場合には、その次のコード番号が指定される（ステップＢ１４）。

すなわち、同期再生用タイムコードファイル１２ｃによる同期データの再生処理開始から何番目の命令コードの位置に指定の単語番号ｗｎに対応する音声データの経過時間ｔｎが到達しているか判断され、当該指定の単語までをハイライト（識別）表示させるタイミングの命令コード番号が求められるもので、この求められたコード番号が既に使用されていて次のコード番号が指定された場合に、その命令コード番号のタイミング遅れは、当該タイムコードファイル１２ｃ自体の処理単位時間（基準時間）１２c1aが例えば［25ms］と極めて短いことから許容値として無視される。

すると、前記ステップＢ１１〜Ｂ１４において求められた命令コード番号の位置に、前記ステップＢ１０にてカウントされた指定の単語までの文字数までをハイライト表示させるための命令が書き込まれる（ステップＢ１５）。例えば指定の単語番号ｗｎ“１”である場合に当該単語「I」（含スペース）までの文字数（２文字）をハイライト表示する命令が、コード番号“１１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“０２”として書き込まれる。

すると、指定されているテキスト上の単語番号が（＋１）されて“２”に指定され（ステップＢ１６）、これに対応する単語「was」のデータ有りと判断されて（ステップＢ１７）、ステップＢ１０に戻り、当該単語番号ｗｎ“２”の単語「was」までの総文字数（６文字：含スペース）がカウントされる。

この後、前記ステップＢ１０〜Ｂ１７の処理が繰り返し実行されると、指定の単語番号ｗｎ“２”である場合に当該単語「was」までの文字数（６文字）をハイライト表示する命令が、コード番号“３１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“０６”として書き込まれる。

また、指定の単語番号ｗｎ“３”である場合には当該単語「enjoying」（含スペース）までの文字数（１５文字）をハイライト表示する命令が、指定の単語番号ｗｎ“４”である場合には当該単語「the」までの文字数（１９文字）をハイライト表示する命令が、それぞれ前記テキスト音声同期データ１２ｅに記録されている音声再生時間（音声入力経過時間）ｔｎ（ｎ＝３）（＝４）に基づき各対応するコード番号の命令として、前記同様にコマンドコード“ＨＬ”およびパラメータデータ“１５”“１９”として書き込まれる。

さらにこの後同様の命令コード書き込み処理が繰り返され、指定の単語番号ｗｎ“７”である場合に当該単語「of」までの文字数（３７文字）をハイライト表示する命令が、コード番号“１７１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“３７”として書き込まれ、また指定の単語番号ｗｎ“８”である場合に当該単語「a」までの文字数（３９文字）をハイライト表示する命令が、コード番号“１８１”の命令として、コマンドコード“ＨＬ”およびパラメータデータ“３９”として書き込まれて行く。

なお、前記テキスト音声同期データ１２ｅに基づいた当該テキスト中の各単語ｗｎ毎のハイライト表示命令“ＨＬ”が書き込まれた命令コード番号以外のコード番号の位置には、何れも無効命令としてのマンドコード“ＮＰ”およびパラメータデータ“００”が書き込まれる。

この後、前記ステップＢ１７において、指定の単語番号ｗｎに対応する単語のデータ無しと判断されると、次のコード番号の命令として処理終了の命令が、コマンドコード“ＦＮ”およびパラメータデータ“００”として書き込まれる（ステップＢ１８）。

こうして、前記タイムコードファイル作成処理（ステップＢ１〜Ｂ１８）により、前記同期再生用テキストデータ１２c2・同期再生用音声データ１２c3を再生対象データとするテキスト音声同期データ１２ｅに基づいたタイムコードファイル１２ｃが作成されると、このタイムコードファイル１２ｃはＲＡＭ１２Ｃ内に保存される。

こうして、例えばネイティブによる英文の音声入力に伴い認識・収録保存してなるテキスト・音声の各データを、例えば図１０に示すようなタイムコードファイル作成画面Ｇ２にて表示される同期付けイメージで再生再現するための同期再生用タイムコードファイル１２ｃ（図９参照）が、前記同期データ作成処理に従い、ヘッダ情報１２c1，同期再生用テキストデータ１２c2，同期再生用音声データ１２c3の組み合わせにより容易に作成されてＲＡＭ１２Ｃに保存される。

このメモリ１２に保存された同期再生用タイムコードファイル１２ｃは、本携帯機器１０により再生処理されて例えば語学学習教材として再生される他に、ＣＤ−Ｒなどの外部記録媒体１３に記録して他の学習対象者へ配送して同再生させたり、電送制御部１５からネットワークＮを介して学習データ提供元のＷｅｂサーバ３０に転送して他の学習対象者へ配信させたり、通信部１６を介して外部通信機器（ＰＣ）２０…に転送して同再生させたりすることで、当該同期再生用タイムコードファイル１２ｃを作成した携帯機器１０自身だけでなく、その他の各コンピュータ端末においても同様に語学学習教材としての再生処理を実行することができる。

次に、前記構成の携帯機器１０により作成された同期再生用タイムコードファイル１２ｃに従い英文テキストと対応音声による語学学習教材を再生するための同期データ再生機能について説明する。

図１１は前記携帯機器１０の同期データ再生処理プログラム１２a4に従った同期データ再生処理を示すフローチャートである。

前記同期データ作成処理（１２a3）により作成された同期再生用タイムコードファイル１２ｃおよび各同期再生用のテキスト・音声データ１２c2，１２c3がＲＡＭ１２Ｃに格納された状態において、入力部１７ａの操作によりこの同期再生用タイムコードファイル１２ｃの再生が指示されると、まずユーザに対してスピーキング学習を行うのかまたはヒアリング学習を行うかの質問メッセージが表示される（ステップＳ０１）。

つまり、同期再生用テキストデータ１２c2であるテキストデータをその模範的発声速度に同期付けた識別表示のみ行ってスピーキング練習を行うのか、または同期再生用音声データ１２c3である当該模範的発声音声も同期再生してヒアリング練習を行うのかの選択が促されるもので、ここで、“スピーキング”が選択された場合には、音声出力部１９ｂの動作がオフされ、これ以後の同期再生処理に伴う音声の出力は強制的に阻止される（ステップＳ０２）。

すると、ＲＡＭ１２Ｃ内の各ワークエリアのクリア処理やフラグリセット処理などのイニシャライズ処理が行われる（ステップＳ１）。

そして、ＲＡＭ１２Ｃに格納された同期再生用タイムコードファイル１２ｃ（図９参照）が読み込まれ（ステップＳ２）、当該タイムコードファイル１２ｃのヘッダ情報１２c1に記述された処理単位時間１２c1a(例えば25ms)が、ＣＰＵ１１による当該タイムコードファイル１２ｃの一定時間間隔の読み出し時間として設定される（ステップＳ３）。

そして、このタイムコードファイル１２ｃの先頭に読み出しポインタがセットされ（ステップＳ４）、当該タイムコードファイル１２ｃの再生処理タイミングを計時するためのタイマがスタートされる（ステップＳ５）。

このステップＳ５において、処理タイマがスタートされると、前記ステップＳ３にて設定されたタイムコードファイル１２ｃに応じた処理単位時間(25ms)毎に、前記ステップＳ４にて設定された読み出しポインタの位置の当該タイムコードファイル１２ｃ（図９参照）のコマンドコードおよびそのパラメータデータが読み出される（ステップＳ６）。

そして、前記タイムコードファイル１２ｃ（図９参照）から読み出されたコマンドコードが、“ＦＮ”か否か判断され（ステップＳ７）、“ＦＮ”と判断された場合には、その時点で当該同期データ再生処理の停止処理が指示実行される（ステップＳ７→Ｓ８）。

一方、前記タイムコードファイル１２ｃ（図９参照）から読み出されたコマンドコードが、“ＦＮ”ではないと判断された場合には、各コマンドコードに応じたコマンド処理へ移行されてそのコマンド内容（図２参照）に対応する処理が実行される（ステップＳＣ）。

すると、前記タイマによる計時時間が次の処理単位時間１２c1aに到達したか否か判断され（ステップＳ９）、次の処理単位時間１２c1aに到達したと判断された場合には、タイムコードファイル１２ｃに対する読み出しポインタが次の位置に更新セットされ（ステップＳ９→Ｓ１０）、前記ステップＳ６における当該読み出しポインタの位置のタイムコードファイル１２ｃ（図９参照）のコマンドコードおよびそのパラメータデータ読み出しからの処理が繰り返される（ステップＳ１０→Ｓ６〜Ｓ９）。

すなわち、携帯機器１０のＣＰＵ１１は、ＲＯＭ１２Ａに記憶された同期データ再生処理プログラム１２a4に従って、同期再生用タイムコードファイル１２ｃに予め設定記述されているコマンド処理の単位時間毎に、当該タイムコードファイル１２ｃに配列されたコマンドコードおよびそのパラメータデータを読み出し、そのコマンドに対応する処理を指示するだけで、当該タイムコードファイル１２ｃに記述された各コマンドに応じた各種同期再生用データ１２c2，１２c3の同期再生処理を実行できる。

ここで、前記同期データ作成処理プログラム１２a3によって作成された図９で示す語学学習教材の同期再生用タイムコードファイル１２ｃに基づいた、前記同期データ再生処理プログラム１２a4による模範学習英文テキスト（１２c2）・模範的発声音声（１２c3）の同期再生動作について詳細に説明する。

この英語学習教材の同期再生用タイムコードファイル１２ｃ（図９参照）は、そのヘッダ情報（１２c1）に記述設定された処理単位時間(25ms)１２c1a毎にコマンド処理が実行されるもので、まず、タイムコードファイル１２ｃの第１コマンドコード“ＣＳ”（クリアオールファイル）およびそのパラメータデータ“００”が読み出されると、全ファイルの出力をクリアする指示が行われ、テキスト・音声ファイルの出力がクリアされる。

第２コマンドコード“ＰＳ”（ｉ番目サウンドファイルプレイ）およびそのパラメータデータ“０１”が読み出されると、当該コマンドコードＰＳと共に読み出されたパラメータデータ（ｉ＝１）に応じて、同期再生用音声データ１２c3から読み出された発声音声データの音声出力部１９ｂへの出力が開始される。

第３コマンドコード“ＬＴ”（ｉ番目テキストロード）およびそのパラメータデータ“０１”が読み出されると、当該コマンドコードＬＴと共に読み出されたパラメータデータ（ｉ＝１）に応じて、同期再生用テキストデータ１２c2から読み出された学習テキストデータがＲＡＭ１２Ｃのワークエリア１２ｆにロードされる。

第４コマンドコード“ＶＤ”（ｉ番目テキスト文節表示）およびそのパラメータデータ“００”が読み出されると、当該コマンドコードＶＤと共に読み出されたパラメータデータ（ｉ＝０）に応じて、同期再生用テキストデータ１２c2にて指定された学習テキストの第１文節（１sentence）が呼び出されて表示部１８に表示される。

第５コマンドコード“ＢＬ”（文字カウンタリセット・ｉ番目文節ブロック指定）およびそのパラメータデータ“００”が読み出されると、前記表示された学習テキストの文字カウンタがリセットされ、当該文節ブロックの１文字目が指定される。

第６コマンドコード“ＮＰ”が読み出されると、次に新たなコマンドコードが読み出されるまで現時点の状態が維持される。

そして、第１１コマンドコード“ＨＬ”（ｉ番目文字までハイライト・文字カウント）およびそのパラメータデータ“０２”が読み出されると、当該コマンドコードＨＬと共に読み出されたパラメータデータ（ｉ＝２）に応じて、学習テキストデータの２番目の文字「I」（含スペース）までハイライト表示（強調表示）ＨＬされる。

そして、文字カウンタが２番目の文字までカウントアップされる。

第１２コマンドコード“ＮＰ”が読み出されると、現在の学習テキストデータおよびこれを読み上げる発声音声データの同期出力状態が維持される。

続いて、第３１コマンドコード“ＨＬ”（ｉ番目文字までハイライト・文字カウント）およびそのパラメータデータ“０６”が読み出されると、当該コマンドコードＨＬと共に読み出されたパラメータデータ（ｉ＝６）に応じて、学習テキストデータの６番目の文字「was」（含スペース）までハイライト表示（強調表示）ＨＬされる。

続いて、前記同様にタイムコードファイル１２ｃに従ったコマンド処理が行われることで、表示部１８に表示されている学習テキストについて、１５番目の文字「enjoying」（含スペース）までのハイライト表示（強調表示）ＨＬ、１９番目の文字「the」（含スペース）までのハイライト表示（強調表示）ＨＬ、２７番目の文字「twofold」（含スペース）までのハイライト表示（強調表示）ＨＬ、３４番目の文字「luxury」（含スペース）までのハイライト表示（強調表示）ＨＬ、・・・と順次その読み上げ音声が同期出力されながら識別表示されるもので、さらに、第３２１コマンドコード“ＨＬ”（ｉ番目文字までハイライト・文字カウント）およびそのパラメータデータ“６５”が読み出されると、当該コマンドコードＨＬと共に読み出されたパラメータデータ（ｉ＝６５）に応じて、学習テキストデータの６５番目の文字「meerschaum.」までハイライト表示（強調表示）ＨＬされる。

このように、前記同期データ作成処理プログラム１２a3に従い作成された同期再生用タイムコードファイル１２ｃ（図９参照）・同期再生用テキストデータ１２c2・同期再生用音声データ１２c3に基づき、当該タイムコードファイル１２ｃに予め設定された処理単位時間(25ms)毎のコマンド処理を、同期データ再生処理プログラム１２a4によって行うことで、表示画面上に学習テキストデータが表示されると共に、音声出力部１９ｂから表示中の学習テキストを読み上げる発声音声データが同期出力され、当該学習テキストの読み上げ文節が各文字（単語）毎に順次同期ハイライト（強調）表示ＨＬされる。

この場合、携帯機器１０のＣＰＵ１１は、同期再生用タイムコードファイル１２ｃに予め記述設定されたコマンド処理の単位時間毎に、当該コマンドコードおよびそのパラメータデータに従った各種コマンド処理を指示するだけで、テキストデータ、発声音声データの同期再生処理を行うことができるので、ＣＰＵのメイン処理の負担が軽くなり、処理能力の比較的小さいＣＰＵでも容易にテキスト・音声を含む同期再生処理が行える。

これにより、模範の発声音声による語学学習のための音声入力を行うだけで、これを音声認識した模範の学習テキスト１２ｄとこれに対応する模範的読み上げ音声とを簡単に取得して高精度に同期再生するための同期再生用タイムコードファイル１２ｃを容易に生成できるだけでなく、携帯機器１０のユーザは当該学習テキストの模範的な読み上げ速度あるいはその読み上げ発声音声を参考にしてスピーキングあるいはヒアリング学習を行うことができ、しかも前記同期再生用タイムコードファイル１２ｃおよびその同期再生用の各データ１２c2，１２c3を当該学習データ提供元のＷｅｂサーバ３０へ転送したり、同提供元へＣＤ−ＲＯＭなどの外部記憶媒体１３に書き込んで配送したりすることで、他の学習対象者に対しても同様のテキスト・音声同期再生教材を提供できるようになる。

したがって、前記構成の携帯機器１０による同期データ作成機能によれば、例えば模範的な発声音声による語学学習文の音声入力を行うと、その発声音声が音声入力部１９ａから入力されるのに伴い、音声認識された音声波形データおよび認識テキストデータがそれぞれ順次入力音声波形表示エリア４５および認識テキスト表示エリア４４に対応表示され、当該音声認識テキストを前記語学学習文の発声音声に対応する学習テキストデータとして容易に取得できると共に、その音声認識単語ｗｎ毎に音声入力の経過時間ｔｎを記録したテキスト音声同期データ１２ｅを簡単に作成取得できる。よって、このテキスト音声同期データ１２ｅに基づき、テキストデータを各単語毎の発声速度（時間）に応じて順次識別表示（ハイライト表示ＨＬ）させると共に、その発声音声データを同期再生させるための同期再生用タイムコードファイル１２ｃを非常に簡単に作成することができる。

また、この同期再生用タイムコードファイル１２ｃに従って、前記入力された模範の発声音声データとその音声認識により取得された対応テキストデータとを、ＣＰＵ１１への負担少なく容易に同期再生することができる。

なお、前記実施形態において記載した携帯機器１０による各処理の手法、すなわち、図４のフローチャートに示す同期データ作成処理に伴う同期取得処理、図８のフローチャートに示す同期データ作成処理に伴うタイムコードファイル作成処理、そして、図１１のフローチャートに示す同期データ再生処理などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード（ＲＯＭカード、ＲＡＭカード等）、磁気ディスク（フロッピディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の外部記録媒体１３に格納して配布することができる。そして、通信ネットワーク（インターネット）Ｎとの通信機能を備えた種々のコンピュータ端末は、この外部記録媒体１３に記憶されたプログラムを記録媒体読取部１４によってメモリ１２に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した同期データ作成機能やその再生機能を実現し、前述した手法による同様の処理を実行することができる。

また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク（インターネット）Ｎ上を伝送させることができ、この通信ネットワーク（インターネット）Ｎに接続されたコンピュータ端末から前記のプログラムデータを取り込み、前述した同期データ作成機能やその再生機能を実現することもできる。

なお、本願発明は、前記各実施形態に限定されるものではなく、実施形態ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。

本発明のテキスト音声同期装置の実施形態に係る携帯機器１０の電子回路の構成を示すブロック図。前記携帯機器１０の同期再生用タイムコードファイル１２ｃにて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム１２a4に基づき解析処理される命令内容を対応付けて示す図。前記携帯機器１０の同期データ作成処理プログラム１２a3に従いメモリ１２に記憶されるテキスト音声同期データ１２ｅを示す図。前記携帯機器１０の同期取得処理プログラム１２a1に従った同期取得処理を示すフローチャート。前記携帯機器１０の同期取得処理を実施する場合の入力音声データと音声認識テキストデータの同期付け状態を示す音声／テキスト同期付け画面Ｇ１を示す図。前記携帯機器１０での同期取得処理に伴う模範発声音声による音声認識テキスト１２ｄの時間同期状態を示す図。前記携帯機器１０での同期取得処理に伴う音声認識の各認識単語ｗｎに対応する各音声入力経過時間ｔｎを示す図であり、同図（Ａ）は音声入力に伴う各音声認識単語ｗｎを示す図、同図（Ｂ）は各単語ｗｎ認識時点での音声入力経過時間ｔｎを示す図。前記携帯機器１０の同期データ作成処理プログラム１２a3に従った同期再生用タイムコードファイル１２ｃの作成処理を示すフローチャート。前記携帯機器１０のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル１２ｃを示す図。前記携帯機器１０のタイムコードファイル作成処理に伴い表示される同期再生用テキストデータ１２c2としての音声認識テキストデータ１２ｄと同期再生用音声データ１２c3としての入力音声データの入力経過時間とを対応付けたタイムコードファイル作成画面Ｇ２を示す図。前記携帯機器１０の同期データ再生処理プログラム１２a4に従った同期データ再生処理を示すフローチャート。

符号の説明

１０ …携帯機器
１１ …ＣＰＵ
１２ …メモリ
１２Ａ…ＲＯＭ
１２Ｂ…FLASHメモリ
１２Ｃ…ＲＡＭ
１２ａ…携帯機器（ＰＤＡ）制御プログラム
１２a1…同期取得処理プログラム
１２a2…音声認識処理プログラム
１２a3…同期データ作成処理プログラム
１２a4…同期データ再生処理プログラム
１２ｂ…外部入力プログラム
１２ｃ…同期再生用タイムコードファイル
１２c1…ヘッダ情報
１２c1a…処理単位時間
１２c2…同期再生用テキストデータ
１２c3…同期再生用音声データ
１２ｄ…音声認識テキストデータ（波形データ）
１２ｅ…テキスト音声同期データ
１２ｆ…ワークエリア
１３ …外部記録媒体
１４ …記録媒体読取部
１５ …電送制御部
１６ …通信部
１７ａ…入力部
１７ｂ…座標入力部（マウス／タブレット）
１８ …表示部
１９ａ…音声入力部
１９ｂ…音声出力部
２０ …外部通信機器（ＰＣ）
３０ …Ｗｅｂサーバ
４１ …メッセージ表示エリア
４２ …開始ボタン(START)
４３ …停止ボタン(STOP)
４４ …認識テキスト表示エリア
４５ …入力音声波形表示エリア
Ｎ …通信ネットワーク（インターネット）
Ｇ１…音声／テキスト同期付け画面
Ｇ２…タイムコードファイル作成画面
ＨＬ…ハイライト（識別）表示

Claims

言語の発声に伴う音声を入力する音声入力手段と、
この音声入力手段により入力された発声音声をテキストとして認識する音声認識手段と、
この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段と、
を備えたことを特徴とするテキスト音声同期装置。
前記同期データ取得手段は、前記音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とを当該テキストの単語毎の記述順番に対応付けた同期データとして取得する、
ことを特徴とする請求項１に記載のテキスト音声同期装置。
前記音声入力手段により入力された発声音声の音声波形を表示する入力音声波形表示手段と、
前記音声認識手段により認識された発声音声の認識テキストを表示する認識テキスト表示手段と、
を備えたことを特徴とする請求項１または請求項２に記載のテキスト音声同期装置。
前記同期データ取得手段により取得された同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた発声音声の時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された発声音声を同期出力させるための同期再生情報を作成する同期再生情報作成手段を備えたことを特徴とする請求項１ないし請求項３の何れか１項に記載のテキスト音声同期装置。
前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成することを特徴とする請求項４に記載のテキスト音声同期装置。
前記同期再生情報作成手段により作成された同期再生情報に従い、予め設定された一定時間毎に命令コードを読み出して実行し、前記音声入力手段により入力された言語の発声音声と前記音声認識手段により認識されたテキストとを同期して再生する同期再生手段を備えたことを特徴とする請求項５に記載のテキスト音声同期装置。
コンピュータを制御してテキストと音声を同期付けするためのテキスト音声同期処理プログラムであって、
前記コンピュータを、
言語の発声に伴う音声を入力する音声入力手段、
この音声入力手段により入力された発声音声をテキストとして認識する音声認識手段、
この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段、
として機能させるようにしたコンピュータ読み込み可能なテキスト音声同期処理プログラム。