JP2005077678A - テキスト音声同期装置およびテキスト音声同期処理プログラム - Google Patents

テキスト音声同期装置およびテキスト音声同期処理プログラム Download PDF

Info

Publication number
JP2005077678A
JP2005077678A JP2003307305A JP2003307305A JP2005077678A JP 2005077678 A JP2005077678 A JP 2005077678A JP 2003307305 A JP2003307305 A JP 2003307305A JP 2003307305 A JP2003307305 A JP 2003307305A JP 2005077678 A JP2005077678 A JP 2005077678A
Authority
JP
Japan
Prior art keywords
text
voice
data
speech
synchronization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003307305A
Other languages
English (en)
Inventor
Naotoshi Isogo
直利 五十子
Koji Toriyama
康治 鳥山
Toshihisa Nakamura
利久 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2003307305A priority Critical patent/JP2005077678A/ja
Publication of JP2005077678A publication Critical patent/JP2005077678A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】テキスト音声同期装置であって、テキストデータと音声データとを高精度に同期再生するための関連付け情報を非常に簡単に作成すること。
【解決手段】模範的な発声音声による語学学習文の音声入力を行うと、その発声音声が入力されるのに伴い、音声認識された音声波形および認識テキストがそれぞれ順次入力音声波形表示エリア45および認識テキスト表示エリア44に対応表示され、当該音声認識テキストを前記語学学習文の発声音声に対応する学習テキストとして容易に取得できると共に、その音声認識単語wn毎に音声入力の経過時間tnを記録したテキスト音声同期データを簡単に作成取得できる。そしてこのテキスト音声同期データ12eに基づき、学習テキストを各単語毎の発声速度(時間)に応じて順次識別表示させると共に、その発声音声を同期再生させるための同期再生用タイムコードファイルを非常に簡単に作成できる。
【選択図】 図10

Description

本発明は、テキストデータと音声データを同期させるためのテキスト音声同期装置およびテキスト音声同期処理プログラムに関する。
従来、音楽,テキスト,画像などのファイルを同時並行して再生する技術としては、例えばMPEG-3により情報圧縮された音声ファイルのフレーム毎に、当該各フレームに設けられた付加データエリアに対して、音声ファイルに同期再生すべきテキストファイルや画像ファイルの同期情報を埋め込んでおくことにより、例えばカラオケの場合では、カラオケ音声とその歌詞のテキストおよびイメージ画像を同期再生するものがある。
また、番組画像とその音声に合わせて字幕を送出するタイミングを設定するための字幕送出タイミング検出装置として、番組音声の中から所定話者音声が存在する音声区間を識別し、当該所定話者音声の音声区間と字幕原稿文とを照合することにより、この字幕原稿文と音声との同期タイミングを検出設定するものも考えられている(例えば、特許文献1参照。)。
特開2002−244694号公報
しかしながら、このように従来行われているMPEGファイルの付加データエリアを利用した複数種類のファイルの同期再生技術では、同期情報の埋め込みが主たるMP3音声ファイルの各フレーム毎の付加データエリアに規定されるため、当該MP3音声ファイルを再生させない限り同期情報を取り出すことが出来ず、MP3ファイルの再生を軸としてしか他の種類のファイルの同期再生を行うことが出来ない。
このため、例えばMP3音声ファイルにテキストファイルの同期情報を埋め込んだ場合に、音声ファイルの再生を行わない期間にあっても無音声ファイルとして音声再生処理を継続的に行っていないと同期対象ファイルの再生を行うことが出来ない問題がある。
従って、従来この複数種類ファイルの同期再生処理は、MP3ファイルの再生処理をベースとして行われるため、再生装置のCPUにおける処理の負荷が重くなる問題がある。
一方、前記特許文献1に記載の装置は、MPEGファイルの付加データエリアを利用するものではなく、所定話者音声が存在する音声区間と字幕原稿文とを照合し、当該話者音声に対応する字幕文を関連付けて記憶しておくことで、所定話者音声の出力に伴い対応する字幕文を送出表示できるようにするものであるが、話者音声に対する字幕原稿文の関連付けは、音声発声の開始時間と字幕文の文頭、および発声終了時間と文末との関連付けにより行われるため、例えば語学学習のテキストとその読み上げ音声とを同期再生するなどのテキストの文字列とその個々の読み上げ音声との精密な同期付けが要求されるような場合に、前記処理負担の重いMPEG等によらないで、高精度に且つ容易に関連付け情報を生成することはできない。
しかも、前記何れの従来技術の場合でも、同期付けすべきテキストデータと音声データのうちの少なくとも一方のデータは予め与えられたデータであり、この一方のデータをベースに入力された他方のデータとの関係付けを図るため、その関係付けるタイミングの割り出しや位置検出のための処理が非常に面倒で重いという問題がある。
本発明は、前記のような問題に鑑みてなされたもので、テキストデータと音声データとを高精度に同期再生するための関連付け情報を非常に簡単に作成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供することを目的とする。
本発明の請求項1(請求項7)に係るテキスト音声同期装置(テキスト音声同期処理プログラム)では、音声入力手段によって言語の発声に伴う音声を入力すると、この音声入力手段により入力された発声音声が音声認識手段によってテキストとして認識され、この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが同期データ取得手段によって当該テキストの記述順番に対応付けされた同期データとして取得される。
本発明の請求項2に係るテキスト音声同期装置は、前記請求項1に係るテキスト音声同期装置にあって、前記同期データ取得手段では、前記音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが当該テキストの単語毎の記述順番に対応付けされた同期データとして取得される。
本発明の請求項3に係るテキスト音声同期装置では、前記請求項1または請求項2に係るテキスト音声同期装置にあって、さらに、入力音声波形表示手段によって音声入力手段により入力された発声音声の音声波形が表示され、認識テキスト表示手段によって音声認識手段により認識された発声音声の認識テキストが表示される。
本発明の請求項4に係るテキスト音声同期装置では、前記請求項1ないし請求項3の何れか1項に係るテキスト音声同期装置にあって、前記同期データ取得手段により取得された同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた発声音声の時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された発声音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成される。
本発明の請求項5に係るテキスト音声同期装置では、前記請求項4に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成される。
本発明の請求項6に係るテキスト音声同期装置では、前記請求項5に係るテキスト音声同期装置にあって、さらに、同期再生手段によって前記同期再生情報作成手段により作成された同期再生情報に従い、予め設定された一定時間毎に命令コードを読み出して実行し、前記音声入力手段により入力された言語の発声音声と前記音声認識手段により認識されたテキストとが同期再生される。
本発明の請求項1(請求項7)に係るテキスト音声同期装置(テキスト音声同期処理プログラム)によれば、音声入力手段によって言語の発声に伴う音声を入力すると、この音声入力手段により入力された発声音声が音声認識手段によってテキストとして認識され、この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが同期データ取得手段によって当該テキストの記述順番に対応付けされた同期データとして取得されるので、例えば学習対象言語の模範の発声音声を入力するだけで、その発声音声に対応する学習テキストを取得でき、当該学習テキストに発声音声を対応付ける同期データを得ることができる。
本発明の請求項2に係るテキスト音声同期装置によれば、前記請求項1に係るテキスト音声同期装置にあって、前記同期データ取得手段では、前記音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とが当該テキストの単語毎の記述順番に対応付けされた同期データとして取得されるので、例えば学習テキスト対発声音声の同期データを単語毎の同期データとして取得できるようになる。
本発明の請求項3に係るテキスト音声同期装置によれば、前記請求項1または請求項2に係るテキスト音声同期装置にあって、さらに、入力音声波形表示手段によって音声入力手段により入力された発声音声の音声波形が表示され、認識テキスト表示手段によって音声認識手段により認識された発声音声の認識テキストが表示されるので、発声音声の認識により得られるテキストと当該発声音声との同期状態を表示で見ることができるようになる。
本発明の請求項4に係るテキスト音声同期装置によれば、前記請求項1ないし請求項3の何れか1項に係るテキスト音声同期装置にあって、前記同期データ取得手段により取得された同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた発声音声の時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された発声音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成されるので、テキストとその発声音声の時間情報との同期データに基づいて当該テキストおよびその発声音声の同期再生情報を容易且つ正確に作成できるようになる。
本発明の請求項5に係るテキスト音声同期装置によれば、前記請求項4に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成されるので、テキストおよびその発声音声の同期再生を、一定時間毎に読み出される命令コードの実行のみによって実現できるようになる。
本発明の請求項6に係るテキスト音声同期装置によれば、前記請求項5に係るテキスト音声同期装置にあって、さらに、同期再生手段によって前記同期再生情報作成手段により作成された同期再生情報に従い、予め設定された一定時間毎に命令コードを読み出して実行し、前記音声入力手段により入力された言語の発声音声と前記音声認識手段により認識されたテキストとが同期再生されるので、例えば学習対象言語の模範の発声音声を入力するだけで取得されたその発声音声に対応する学習テキストと当該発声音声とを簡単な処理で同期再生できるようになる。
よって、本発明によれば、テキストデータと音声データとを高精度に同期再生するための関連付け情報を非常に簡単に作成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供できる。
以下図面により本発明の実施の形態について説明する。
図1は本発明のテキスト音声同期装置の実施形態に係る携帯機器10の電子回路の構成を示すブロック図である。
この携帯機器(PDA:personal digital assistants)10は、各種の記録媒体に記録されたプログラム、又は、通信伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、CPU(central processing unit)11が備えられる。
CPU11は、メモリ12内のROM12Aに予め記憶されたPDA(携帯機器)制御プログラム12a、あるいはROMカードなどの外部記録媒体13から記録媒体読取部14を介して前記メモリ12内のFLASHメモリ12Bに読み込まれたPDA制御プログラム12a(12b)、あるいはインターネットなどの通信ネットワークN上の他のコンピュータ端末(30)から電送制御部15を介して前記メモリ12内のFLASHメモリ12Bに読み込まれたPDA制御プログラム12a(12b)に応じて、回路各部の動作を制御するもので、前記メモリ12に記憶されたPDA制御プログラム12a(19b)は、スイッチやキーからなる入力部17aおよびマウスやタブレットからなる座標入力装置17bからのユーザ操作に応じた入力信号、あるいは電送制御部15に受信される通信ネットワークN上の他のコンピュータ端末(30)からの通信信号、あるいはBluetooth(R)による近距離無線接続や有線接続による通信部16を介して受信される外部の通信機器(PC:personal computer)20からの通信信号に応じて起動される。
前記CPU11には、前記メモリ12、記録媒体読取部14、電送制御部15、通信部16、入力部17a、座標入力装置17bが接続される他に、LCDからなる表示部18、マイクを備え音声を入力する音声入力部19a、スピーカを備え音声を出力する音声出力部19bなどが接続される。
また、CPU11には、処理時間計時用のタイマが内蔵される。
この携帯機器10のメモリ12は、ROM12A、FLASHメモリ(EEP-ROM)12B、RAM12Cを備えて構成される。
ROM12Aには、当該携帯機器10のPDA制御プログラム12aとして、その全体の動作を司るシステムプログラムや電送制御部15を介して通信ネットワークN上の各コンピュータ端末(Webサーバなど)(30)とデータ通信するためのネット通信プログラム、通信部16を介して外部の通信機器(PC)20とデータ通信するための外部機器通信プログラムが記憶される他に、スケジュール管理プログラムやアドレス管理プログラム、そして例えば英会話学習用のテキストデータと当該テキストに対応する音声データを同期付けするためのテキスト音声同期データ12e(図3参照)を取得する同期取得処理プログラム12a1、このテキスト対音声の同期処理に際して入力される音声データを音声認識してテキストデータに変換する音声認識処理プログラム12a2、音声・テキストなどの各種のデータを同期再生するための同期再生用タイムコードファイル12c(図14参照)を前記テキスト音声同期データ12eに基づき作成する同期データ作成処理プログラム12a3、これにより作成されたタイムコードファイル12cに従い音声・テキストなどの各種のデータを同期再生するための同期データ再生処理プログラム12a4など、種々のPDA制御プログラム12anが記憶される。
FLASHメモリ(EEP-ROM)12Bには、ROMカードなどの外部記録媒体13から記録媒体読取部14を介して取り込まれるか、あるいは通信ネットワーク(インターネット)N上のWebサーバ30から電送制御部15を介して取り込まれた、各種の制御プログラム(外部入力プログラム)12bが記憶される。
この他に、FLASHメモリ(EEP-ROM)12Bには、前記スケジュール管理プログラムやアドレス管理プログラムに基づき管理されるユーザのスケジュール及び友人・知人のアドレスなどが記憶される。
RAM12Cには、前記同期データ作成処理プログラム12a3に従い作成され、また前記同期データ再生処理プログラム12a4に従い再生処理の対象となる同期再生用タイムコードファイル12c(図9参照)が記憶されると共に、前記音声認識プログラム12a2に従い認識変換された音声認識テキストデータ(含む入力音声波形データ)12dが記憶される。
ここで、前記同期再生用タイムコードファイル12cは、例えばネイティブによる模範的な英語の発音音声データ入力に基づき作成されるもので、この入力された音声データに当該音声データに対応する英文テキストデータを自動生成し同期付けて再生するためのファイルである。
この作成された同期再生用タイムコードファイル12cは、本携帯機器10によりその場で同期再生してユーザ自身あるいは第三者が利用する他に、例えばCD−ROMに記録して他の学習者に配布したり、電送制御部15を介して通信ネットワーク(インターネット)N上にある学習データ提供元のWebサーバ30へ転送し同様に他の学習者に配信して利用したりする。
同期再生用タイムコードファイル12c(図9参照)は、前記同期データ作成処理プログラム12a3に従い作成(作成処理については後述する)され、前記同期データ再生処理プログラム12a4に従い再生(再生処理については後述する)されるもので、再生命令の処理単位時間(12c1a)を記憶するヘッダ情報(12c1)、および後述する同期再生用テキストデータ(12c2)、同期再生用音声データ(12c3)を組み合わせて構成される。つまり、同期データ作成処理プログラム12a3による同期再生用タイムコードファイル12cの作成に従い、同期再生の対象となるテキストデータが同期再生用テキストデータ(12c2)として記憶され、同音声データが同期再生用音声データ(12c3)として記憶される。
そしてまた、RAM12Cには、テキストと音声を同期再生するための同期再生用タイムコードファイル12cを前記同期データ作成処理プログラム12a3に従い作成処理する過程において、前記同期取得処理プログラム12a1に従い生成されるテキストデータの単語No.(wn)とこれに対応する音声時間(tn)とを同期付けたテキスト音声同期データ12eが記憶される。
さらに、RAM12Cには、その他各種の処理に応じてCPU11に入出力される種々のデータを一時記憶するためワークエリア12fが用意される。
図9で示す同期再生用タイムコードファイル12cには、個々のデータ毎に予め設定される一定時間間隔(例えば25ms)で各種データ同期再生のコマンド処理を行うためのタイムコードが記述配列されるもので、この各タイムコードは、命令を指示するコマンドコードと、当該コマンドに関わる再生対象データの内容を対応付けするための参照番号や指定数値からなるパラメータデータとの組み合わせにより構成される。
なお、このタイムコードに従い順次コマンド処理を行うための一定時間間隔は、当該タイムコードファイル12cのヘッダ情報12c1に処理単位時間12c1aとして記述設定される。
図2は前記携帯機器10の同期再生用タイムコードファイル12c(図9参照)にて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム12a4に基づき解析処理される命令内容を対応付けて示す図である。
同期再生用タイムコードファイル12cに使用されるコマンドとしては、標準コマンドと拡張コマンドがあり、標準コマンドには、LT(i番目テキストロード).VD(i番目テキスト文節表示).BL(文字カウンタリセット・i番目文節ブロック指定).HN(ハイライト無し・文字カウンタカウントアップ).HL(i番目文字までハイライト・文字カウント).LS(1行スクロール・文字カウンタカウントアップ).DH(i番目HTMLファイル表示).DI(i番目イメージファイル表示).PS(i番目サウンドファイルプレイ).CS(クリアオールファイル).PP(基本タイムi秒間停止).FN(処理終了).NP(無効)の各コマンドがある。
すなわち、この携帯機器(PDA)10のROM12Aに記憶されている同期データ再生処理プログラム12a4を起動させた際に、RAM12Cに記憶されている同期再生用タイムコードファイル12cが、例えば図9で示したファイル内容であり、一定時間毎のコマンド処理に伴い2番目のコマンドコード“PS”およびパラメータデータ“01”が読み込まれた場合には、このコマンド“PS”はi番目のサウンドファイル再生命令であるため、パラメータデータi=01からリンク付けられる同期再生用音声データ12c3における1番目の音声データが読み出されて表示される。
また、例えば同一定時間毎のコマンド処理に伴い4番目のコマンドコード“VD”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“VD”はi番目のテキスト文節表示命令であるため、パラメータデータi=00に従い、同期再生用テキストデータ12c2におけるテキストデータの0番目(最初)の文節(例えば1sentence)が表示される。
さらに、例えば同一定時間毎のコマンド処理に伴い6番目のコマンドコード“NP”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“NP”は無効命令であるため、現状のデータ出力状態が維持される。
なお、このテキスト・音声の各データを同期再生するための図9で示した同期再生用タイムコードファイル12cの作成動作、およびこのタイムコードファイル12cによる各同期再生用データ12c2,12c3についての詳細な再生動作は、後述にて改めて説明する。
図3は前記携帯機器10の同期データ作成処理プログラム12a3に従いメモリ12に記憶されるテキスト音声同期データ12eを示す図である。
このテキスト音声同期データ12eは、模範の発声音声データに当該音声データの認識により得られたテキストデータを対応付けて同期再生するための同期再生用タイムコードファイル12cの作成に伴う同期取得処理(図4参照)において、模範の発声音声を入力・音声認識して当該入力音声の単語を認識して行くことで、当該各単語No.(wn)毎に模範の発声音声の入力時間(tn)が対応付けされて生成される。
次に、前記構成の携帯機器10により、例えばネイティブによる模範的英語の発声音声データを入力し、この発声音声に対応付けて音声認識したテキストデータを同期再生するための同期再生用タイムコードファイル12cを作成するための同期データ作成機能について説明する。
図4は前記携帯機器10の同期取得処理プログラム12a1に従った同期取得処理を示すフローチャートである。
図5は前記携帯機器10の同期取得処理を実施する場合の入力音声データと音声認識テキストデータの同期付け状態を示す音声/テキスト同期付け画面G1を示す図である。
この音声/テキスト同期付け画面G1には、ガイドメッセージを表示するためのメッセージ表示エリア41、同期付け処理の開始/停止を指示するための開始ボタン(START)42/停止ボタン(STOP)43、入力された音声データの音声認識テキストを表示するための認識テキスト表示エリア44、当該入力された音声波形を表示するための入力音声波形表示エリア45が設けられる。
例えばネイティブにより発声される模範の英文の音声データとこの音声データから音声認識して得られる該英文テキストとを同期付けする場合に、図4における同期取得処理が起動されると、図5に示すように、模範発声音声の入力ガイドメッセージ「音声を入力してください。」が音声/テキスト同期付け画面G1上のメッセージ表示エリア41に表示される(ステップA1)。
そして、ネイティブの発声による英文の音声入力が行われると(ステップA2)、当該音声入力される英文の発声音声が認識されると共に(ステップA3)、発声音声に対応するテキストデータ12dが抽出されRAM12Cに記憶される(ステップA4)。
すると、この音声認識されたテキストデータ12dの各単語wn毎に音声入力開始からの経過時間tnがテキスト音声同期データ12e(図3参照)として順次RAM12C内に記憶される(ステップA5)。
図6は前記携帯機器10での同期取得処理に伴う模範発声音声による音声認識テキスト12dの時間同期状態を示す図である。
図7は前記携帯機器10での同期取得処理に伴う音声認識の各認識単語wnに対応する各音声入力経過時間tnを示す図であり、同図(A)は音声入力に伴う各音声認識単語wnを示す図、同図(B)は各単語wn認識時点での音声入力経過時間tnを示す図である。
すなわち、図6で示すように音声入力された英文の発声音声が文字認識12dされ、図7に示すようにその認識単語wn毎にその音声入力の経過時間tnが同期付けされて、図3で示すようなテキスト音声同期データ12eとして作成取得される(ステップA5)。
すると、図5に示すように、当該音声認識された単語単位でその音声認識テキストデータ12dが前記音声/テキスト同期付け画面G1上の認識テキスト表示エリア44に順次ハイライト表示HLされて識別表示されると共に、その認識された入力音声の波形データが入力音声波形表示エリア45に順次表示される(ステップA6)。
そして、模範の発声音声の入力が継続されることで、当該音声入力が終了してないと判断されると(ステップA7)、前記ステップA2からの処理に戻り、個々の入力音声の認識単語wn毎にその音声入力経過時間tnを対応付けたテキスト音声同期データ12eの作成が繰り返されると共に(ステップA2〜A5)、音声認識単語毎の識別表示(波形表示)が繰り返される(ステップA6)。
この後、模範の発声音声の入力終了と判断されると(ステップA7)、音声認識されて表示されている音声認識テキストデータ12dが同期再生用テキストデータ12c2として保存される(ステップA7→A8)と共に、前記音声入力部19aにより音声入力されて一時記憶された模範の発声音声データが同期再生用音声データ12c3として保存される(ステップA9)。
すなわち、このテキスト音声同期装置の実施形態における同期処理では、入力された英語の発声音声データを音声認識して得た英文のテキストデータが同期再生用テキストデータ12c2として保存され、当該入力された英語の音声データそのものが同期再生用音声データ12c3として保存されると共に、音声認識された英文のテキストデータの各単語wn毎に音声データの入力経過時間tnが対応付けされたテキスト音声同期データ12eが作成されるようになり、例えばネイティブによる模範的な英文の音声入力を行うだけで、英語学習用のテキストデータおよびその読み上げ音声データを取得でき、各データ同期付け再生のためのテキスト音声同期データ12eも取得できるようになる。
このようにして、前記図3〜図7を主に参照して説明した同期取得処理が終了すると、これにより取得保存された各同期再生用データ12c2,12c3、およびテキスト音声同期データ12e(図3参照)に基づき、図8におけるタイムコードファイル作成処理に移行される(ステップB1〜B18)。
図8は前記携帯機器10の同期データ作成処理プログラム12a3に従った同期再生用タイムコードファイル12cの作成処理を示すフローチャートである。
図9は前記携帯機器10のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル12cを示す図である。
図10は前記携帯機器10のタイムコードファイル作成処理に伴い表示される同期再生用テキストデータ12c2としての音声認識テキストデータ12dと同期再生用音声データ12c3としての入力音声データの入力経過時間とを対応付けたタイムコードファイル作成画面G2を示す図である。
本実施形態におけるタイムコードファイル作成処理では、同期再生用テキストデータ12c2として音声認識テキストデータ12d(図6参照)が保存され、同期再生用音声データ12c3として同テキストの認識元である入力音声データが保存されている場合について説明する。
このタイムコードファイル作成処理が起動されると、まず、これから作成すべき同期再生用タイムコードファイル12c(図9参照)の処理単位時間12c1aがユーザ操作により基準時間(25ms/50ms/100ms/…)の中から選択され(ステップB1)、当該タイムコードファイル12cのヘッダ情報12c1として書き込まれる(ステップB2)。
すると、1番目の命令としてクリアスクリーン(全ファイルクリア)の命令が、コマンドコード“CS”およびパラメータデータ“00”として書き込まれる(ステップB3)。
そして、2番目の命令として指定音声のスタート命令が、コマンドコード“PS”およびパラメータデータ“01”として書き込まれ(ステップB4)、また、指定テキストの0番目文節(例えば1sentence)の表示命令が、3番目のテキスト指定命令[コマンドコード“LT”・パラメータデータ“01”]、4番目のテキスト文節表示命令[コマンドコード“VD”・パラメータデータ“00”]として書き込まれる(ステップB5)。
さらに、5番目の命令として文節中の文字カウンタリセット命令が、コマンドコード“BL”およびパラメータデータ“00”として書き込まれる(ステップB6)。
こうして、同期再生用タイムコードファイル12cの5番目の命令までに、全ファイルクリア、指定音声“1”(この場合は同期再生用音声データ12c3)の再生開始、指定テキスト“1”(この場合は同期再生用テキストデータ12c2)の表示、文字カウンタリセットの各コマンドコードおよびそのパラメータデータがセットされると、RAM12Cに保存されたテキスト音声同期データ12e(図3参照)が読み出されると共に(ステップB7)、指定のテキスト“1”が同期再生用テキストデータ12c2から読み出され(ステップB8)、当該テキスト上の単語番号wnが“1”に指定される(ステップB9)。
すると、当該指定の単語番号wn“1”に対応する単語「I」(含スペース)までの文字数が“2”としてカウントされると共に(ステップB10)、この指定の単語番号wn“1”に同期付けられる音声再生時間(音声入力経過時間)tn(n=1)(この場合「…00:250」)が前記テキスト音声同期データ12eから読み出される(ステップB11)。
そして、前記指定の単語番号wnの音声再生時間tnを前記ステップB1にて選択された処理単位時間(基準時間)12c1aで割り算してタイムコードファイルの命令コード番号が求められ(ステップB12)、このコード番号は未使用か否か判断される(ステップB13)。
ここで、ステップB12にて求められた命令コード番号が既に使用されている場合には、その次のコード番号が指定される(ステップB14)。
すなわち、同期再生用タイムコードファイル12cによる同期データの再生処理開始から何番目の命令コードの位置に指定の単語番号wnに対応する音声データの経過時間tnが到達しているか判断され、当該指定の単語までをハイライト(識別)表示させるタイミングの命令コード番号が求められるもので、この求められたコード番号が既に使用されていて次のコード番号が指定された場合に、その命令コード番号のタイミング遅れは、当該タイムコードファイル12c自体の処理単位時間(基準時間)12c1aが例えば[25ms]と極めて短いことから許容値として無視される。
すると、前記ステップB11〜B14において求められた命令コード番号の位置に、前記ステップB10にてカウントされた指定の単語までの文字数までをハイライト表示させるための命令が書き込まれる(ステップB15)。例えば指定の単語番号wn“1”である場合に当該単語「I」(含スペース)までの文字数(2文字)をハイライト表示する命令が、コード番号“11”の命令として、コマンドコード“HL”およびパラメータデータ“02”として書き込まれる。
すると、指定されているテキスト上の単語番号が(+1)されて“2”に指定され(ステップB16)、これに対応する単語「was」のデータ有りと判断されて(ステップB17)、ステップB10に戻り、当該単語番号wn“2”の単語「was」までの総文字数(6文字:含スペース)がカウントされる。
この後、前記ステップB10〜B17の処理が繰り返し実行されると、指定の単語番号wn“2”である場合に当該単語「was」までの文字数(6文字)をハイライト表示する命令が、コード番号“31”の命令として、コマンドコード“HL”およびパラメータデータ“06”として書き込まれる。
また、指定の単語番号wn“3”である場合には当該単語「enjoying」(含スペース)までの文字数(15文字)をハイライト表示する命令が、指定の単語番号wn“4”である場合には当該単語「the」までの文字数(19文字)をハイライト表示する命令が、それぞれ前記テキスト音声同期データ12eに記録されている音声再生時間(音声入力経過時間)tn(n=3)(=4)に基づき各対応するコード番号の命令として、前記同様にコマンドコード“HL”およびパラメータデータ“15”“19”として書き込まれる。
さらにこの後同様の命令コード書き込み処理が繰り返され、指定の単語番号wn“7”である場合に当該単語「of」までの文字数(37文字)をハイライト表示する命令が、コード番号“171”の命令として、コマンドコード“HL”およびパラメータデータ“37”として書き込まれ、また指定の単語番号wn“8”である場合に当該単語「a」までの文字数(39文字)をハイライト表示する命令が、コード番号“181”の命令として、コマンドコード“HL”およびパラメータデータ“39”として書き込まれて行く。
なお、前記テキスト音声同期データ12eに基づいた当該テキスト中の各単語wn毎のハイライト表示命令“HL”が書き込まれた命令コード番号以外のコード番号の位置には、何れも無効命令としてのマンドコード“NP”およびパラメータデータ“00”が書き込まれる。
この後、前記ステップB17において、指定の単語番号wnに対応する単語のデータ無しと判断されると、次のコード番号の命令として処理終了の命令が、コマンドコード“FN”およびパラメータデータ“00”として書き込まれる(ステップB18)。
こうして、前記タイムコードファイル作成処理(ステップB1〜B18)により、前記同期再生用テキストデータ12c2・同期再生用音声データ12c3を再生対象データとするテキスト音声同期データ12eに基づいたタイムコードファイル12cが作成されると、このタイムコードファイル12cはRAM12C内に保存される。
こうして、例えばネイティブによる英文の音声入力に伴い認識・収録保存してなるテキスト・音声の各データを、例えば図10に示すようなタイムコードファイル作成画面G2にて表示される同期付けイメージで再生再現するための同期再生用タイムコードファイル12c(図9参照)が、前記同期データ作成処理に従い、ヘッダ情報12c1,同期再生用テキストデータ12c2,同期再生用音声データ12c3の組み合わせにより容易に作成されてRAM12Cに保存される。
このメモリ12に保存された同期再生用タイムコードファイル12cは、本携帯機器10により再生処理されて例えば語学学習教材として再生される他に、CD−Rなどの外部記録媒体13に記録して他の学習対象者へ配送して同再生させたり、電送制御部15からネットワークNを介して学習データ提供元のWebサーバ30に転送して他の学習対象者へ配信させたり、通信部16を介して外部通信機器(PC)20…に転送して同再生させたりすることで、当該同期再生用タイムコードファイル12cを作成した携帯機器10自身だけでなく、その他の各コンピュータ端末においても同様に語学学習教材としての再生処理を実行することができる。
次に、前記構成の携帯機器10により作成された同期再生用タイムコードファイル12cに従い英文テキストと対応音声による語学学習教材を再生するための同期データ再生機能について説明する。
図11は前記携帯機器10の同期データ再生処理プログラム12a4に従った同期データ再生処理を示すフローチャートである。
前記同期データ作成処理(12a3)により作成された同期再生用タイムコードファイル12cおよび各同期再生用のテキスト・音声データ12c2,12c3がRAM12Cに格納された状態において、入力部17aの操作によりこの同期再生用タイムコードファイル12cの再生が指示されると、まずユーザに対してスピーキング学習を行うのかまたはヒアリング学習を行うかの質問メッセージが表示される(ステップS01)。
つまり、同期再生用テキストデータ12c2であるテキストデータをその模範的発声速度に同期付けた識別表示のみ行ってスピーキング練習を行うのか、または同期再生用音声データ12c3である当該模範的発声音声も同期再生してヒアリング練習を行うのかの選択が促されるもので、ここで、“スピーキング”が選択された場合には、音声出力部19bの動作がオフされ、これ以後の同期再生処理に伴う音声の出力は強制的に阻止される(ステップS02)。
すると、RAM12C内の各ワークエリアのクリア処理やフラグリセット処理などのイニシャライズ処理が行われる(ステップS1)。
そして、RAM12Cに格納された同期再生用タイムコードファイル12c(図9参照)が読み込まれ(ステップS2)、当該タイムコードファイル12cのヘッダ情報12c1に記述された処理単位時間12c1a(例えば25ms)が、CPU11による当該タイムコードファイル12cの一定時間間隔の読み出し時間として設定される(ステップS3)。
そして、このタイムコードファイル12cの先頭に読み出しポインタがセットされ(ステップS4)、当該タイムコードファイル12cの再生処理タイミングを計時するためのタイマがスタートされる(ステップS5)。
このステップS5において、処理タイマがスタートされると、前記ステップS3にて設定されたタイムコードファイル12cに応じた処理単位時間(25ms)毎に、前記ステップS4にて設定された読み出しポインタの位置の当該タイムコードファイル12c(図9参照)のコマンドコードおよびそのパラメータデータが読み出される(ステップS6)。
そして、前記タイムコードファイル12c(図9参照)から読み出されたコマンドコードが、“FN”か否か判断され(ステップS7)、“FN”と判断された場合には、その時点で当該同期データ再生処理の停止処理が指示実行される(ステップS7→S8)。
一方、前記タイムコードファイル12c(図9参照)から読み出されたコマンドコードが、“FN”ではないと判断された場合には、各コマンドコードに応じたコマンド処理へ移行されてそのコマンド内容(図2参照)に対応する処理が実行される(ステップSC)。
すると、前記タイマによる計時時間が次の処理単位時間12c1aに到達したか否か判断され(ステップS9)、次の処理単位時間12c1aに到達したと判断された場合には、タイムコードファイル12cに対する読み出しポインタが次の位置に更新セットされ(ステップS9→S10)、前記ステップS6における当該読み出しポインタの位置のタイムコードファイル12c(図9参照)のコマンドコードおよびそのパラメータデータ読み出しからの処理が繰り返される(ステップS10→S6〜S9)。
すなわち、携帯機器10のCPU11は、ROM12Aに記憶された同期データ再生処理プログラム12a4に従って、同期再生用タイムコードファイル12cに予め設定記述されているコマンド処理の単位時間毎に、当該タイムコードファイル12cに配列されたコマンドコードおよびそのパラメータデータを読み出し、そのコマンドに対応する処理を指示するだけで、当該タイムコードファイル12cに記述された各コマンドに応じた各種同期再生用データ12c2,12c3の同期再生処理を実行できる。
ここで、前記同期データ作成処理プログラム12a3によって作成された図9で示す語学学習教材の同期再生用タイムコードファイル12cに基づいた、前記同期データ再生処理プログラム12a4による模範学習英文テキスト(12c2)・模範的発声音声(12c3)の同期再生動作について詳細に説明する。
この英語学習教材の同期再生用タイムコードファイル12c(図9参照)は、そのヘッダ情報(12c1)に記述設定された処理単位時間(25ms)12c1a毎にコマンド処理が実行されるもので、まず、タイムコードファイル12cの第1コマンドコード“CS”(クリアオールファイル)およびそのパラメータデータ“00”が読み出されると、全ファイルの出力をクリアする指示が行われ、テキスト・音声ファイルの出力がクリアされる。
第2コマンドコード“PS”(i番目サウンドファイルプレイ)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードPSと共に読み出されたパラメータデータ(i=1)に応じて、同期再生用音声データ12c3から読み出された発声音声データの音声出力部19bへの出力が開始される。
第3コマンドコード“LT”(i番目テキストロード)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードLTと共に読み出されたパラメータデータ(i=1)に応じて、同期再生用テキストデータ12c2から読み出された学習テキストデータがRAM12Cのワークエリア12fにロードされる。
第4コマンドコード“VD”(i番目テキスト文節表示)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードVDと共に読み出されたパラメータデータ(i=0)に応じて、同期再生用テキストデータ12c2にて指定された学習テキストの第1文節(1sentence)が呼び出されて表示部18に表示される。
第5コマンドコード“BL”(文字カウンタリセット・i番目文節ブロック指定)およびそのパラメータデータ“00”が読み出されると、前記表示された学習テキストの文字カウンタがリセットされ、当該文節ブロックの1文字目が指定される。
第6コマンドコード“NP”が読み出されると、次に新たなコマンドコードが読み出されるまで現時点の状態が維持される。
そして、第11コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“02”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=2)に応じて、学習テキストデータの2番目の文字「I」(含スペース)までハイライト表示(強調表示)HLされる。
そして、文字カウンタが2番目の文字までカウントアップされる。
第12コマンドコード“NP”が読み出されると、現在の学習テキストデータおよびこれを読み上げる発声音声データの同期出力状態が維持される。
続いて、第31コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“06”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=6)に応じて、学習テキストデータの6番目の文字「was」(含スペース)までハイライト表示(強調表示)HLされる。
続いて、前記同様にタイムコードファイル12cに従ったコマンド処理が行われることで、表示部18に表示されている学習テキストについて、15番目の文字「enjoying」(含スペース)までのハイライト表示(強調表示)HL、19番目の文字「the」(含スペース)までのハイライト表示(強調表示)HL、27番目の文字「twofold」(含スペース)までのハイライト表示(強調表示)HL、34番目の文字「luxury」(含スペース)までのハイライト表示(強調表示)HL、・・・と順次その読み上げ音声が同期出力されながら識別表示されるもので、さらに、第321コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“65”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=65)に応じて、学習テキストデータの65番目の文字「meerschaum.」までハイライト表示(強調表示)HLされる。
このように、前記同期データ作成処理プログラム12a3に従い作成された同期再生用タイムコードファイル12c(図9参照)・同期再生用テキストデータ12c2・同期再生用音声データ12c3に基づき、当該タイムコードファイル12cに予め設定された処理単位時間(25ms)毎のコマンド処理を、同期データ再生処理プログラム12a4によって行うことで、表示画面上に学習テキストデータが表示されると共に、音声出力部19bから表示中の学習テキストを読み上げる発声音声データが同期出力され、当該学習テキストの読み上げ文節が各文字(単語)毎に順次同期ハイライト(強調)表示HLされる。
この場合、携帯機器10のCPU11は、同期再生用タイムコードファイル12cに予め記述設定されたコマンド処理の単位時間毎に、当該コマンドコードおよびそのパラメータデータに従った各種コマンド処理を指示するだけで、テキストデータ、発声音声データの同期再生処理を行うことができるので、CPUのメイン処理の負担が軽くなり、処理能力の比較的小さいCPUでも容易にテキスト・音声を含む同期再生処理が行える。
これにより、模範の発声音声による語学学習のための音声入力を行うだけで、これを音声認識した模範の学習テキスト12dとこれに対応する模範的読み上げ音声とを簡単に取得して高精度に同期再生するための同期再生用タイムコードファイル12cを容易に生成できるだけでなく、携帯機器10のユーザは当該学習テキストの模範的な読み上げ速度あるいはその読み上げ発声音声を参考にしてスピーキングあるいはヒアリング学習を行うことができ、しかも前記同期再生用タイムコードファイル12cおよびその同期再生用の各データ12c2,12c3を当該学習データ提供元のWebサーバ30へ転送したり、同提供元へCD−ROMなどの外部記憶媒体13に書き込んで配送したりすることで、他の学習対象者に対しても同様のテキスト・音声同期再生教材を提供できるようになる。
したがって、前記構成の携帯機器10による同期データ作成機能によれば、例えば模範的な発声音声による語学学習文の音声入力を行うと、その発声音声が音声入力部19aから入力されるのに伴い、音声認識された音声波形データおよび認識テキストデータがそれぞれ順次入力音声波形表示エリア45および認識テキスト表示エリア44に対応表示され、当該音声認識テキストを前記語学学習文の発声音声に対応する学習テキストデータとして容易に取得できると共に、その音声認識単語wn毎に音声入力の経過時間tnを記録したテキスト音声同期データ12eを簡単に作成取得できる。よって、このテキスト音声同期データ12eに基づき、テキストデータを各単語毎の発声速度(時間)に応じて順次識別表示(ハイライト表示HL)させると共に、その発声音声データを同期再生させるための同期再生用タイムコードファイル12cを非常に簡単に作成することができる。
また、この同期再生用タイムコードファイル12cに従って、前記入力された模範の発声音声データとその音声認識により取得された対応テキストデータとを、CPU11への負担少なく容易に同期再生することができる。
なお、前記実施形態において記載した携帯機器10による各処理の手法、すなわち、図4のフローチャートに示す同期データ作成処理に伴う同期取得処理、図8のフローチャートに示す同期データ作成処理に伴うタイムコードファイル作成処理、そして、図11のフローチャートに示す同期データ再生処理などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記録媒体13に格納して配布することができる。そして、通信ネットワーク(インターネット)Nとの通信機能を備えた種々のコンピュータ端末は、この外部記録媒体13に記憶されたプログラムを記録媒体読取部14によってメモリ12に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した同期データ作成機能やその再生機能を実現し、前述した手法による同様の処理を実行することができる。
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(インターネット)N上を伝送させることができ、この通信ネットワーク(インターネット)Nに接続されたコンピュータ端末から前記のプログラムデータを取り込み、前述した同期データ作成機能やその再生機能を実現することもできる。
なお、本願発明は、前記各実施形態に限定されるものではなく、実施形態ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
本発明のテキスト音声同期装置の実施形態に係る携帯機器10の電子回路の構成を示すブロック図。 前記携帯機器10の同期再生用タイムコードファイル12cにて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム12a4に基づき解析処理される命令内容を対応付けて示す図。 前記携帯機器10の同期データ作成処理プログラム12a3に従いメモリ12に記憶されるテキスト音声同期データ12eを示す図。 前記携帯機器10の同期取得処理プログラム12a1に従った同期取得処理を示すフローチャート。 前記携帯機器10の同期取得処理を実施する場合の入力音声データと音声認識テキストデータの同期付け状態を示す音声/テキスト同期付け画面G1を示す図。 前記携帯機器10での同期取得処理に伴う模範発声音声による音声認識テキスト12dの時間同期状態を示す図。 前記携帯機器10での同期取得処理に伴う音声認識の各認識単語wnに対応する各音声入力経過時間tnを示す図であり、同図(A)は音声入力に伴う各音声認識単語wnを示す図、同図(B)は各単語wn認識時点での音声入力経過時間tnを示す図。 前記携帯機器10の同期データ作成処理プログラム12a3に従った同期再生用タイムコードファイル12cの作成処理を示すフローチャート。 前記携帯機器10のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル12cを示す図。 前記携帯機器10のタイムコードファイル作成処理に伴い表示される同期再生用テキストデータ12c2としての音声認識テキストデータ12dと同期再生用音声データ12c3としての入力音声データの入力経過時間とを対応付けたタイムコードファイル作成画面G2を示す図。 前記携帯機器10の同期データ再生処理プログラム12a4に従った同期データ再生処理を示すフローチャート。
符号の説明
10 …携帯機器
11 …CPU
12 …メモリ
12A…ROM
12B…FLASHメモリ
12C…RAM
12a…携帯機器(PDA)制御プログラム
12a1…同期取得処理プログラム
12a2…音声認識処理プログラム
12a3…同期データ作成処理プログラム
12a4…同期データ再生処理プログラム
12b…外部入力プログラム
12c…同期再生用タイムコードファイル
12c1…ヘッダ情報
12c1a…処理単位時間
12c2…同期再生用テキストデータ
12c3…同期再生用音声データ
12d…音声認識テキストデータ(波形データ)
12e…テキスト音声同期データ
12f…ワークエリア
13 …外部記録媒体
14 …記録媒体読取部
15 …電送制御部
16 …通信部
17a…入力部
17b…座標入力部(マウス/タブレット)
18 …表示部
19a…音声入力部
19b…音声出力部
20 …外部通信機器(PC)
30 …Webサーバ
41 …メッセージ表示エリア
42 …開始ボタン(START)
43 …停止ボタン(STOP)
44 …認識テキスト表示エリア
45 …入力音声波形表示エリア
N …通信ネットワーク(インターネット)
G1…音声/テキスト同期付け画面
G2…タイムコードファイル作成画面
HL…ハイライト(識別)表示

Claims (7)

  1. 言語の発声に伴う音声を入力する音声入力手段と、
    この音声入力手段により入力された発声音声をテキストとして認識する音声認識手段と、
    この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段と、
    を備えたことを特徴とするテキスト音声同期装置。
  2. 前記同期データ取得手段は、前記音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とを当該テキストの単語毎の記述順番に対応付けた同期データとして取得する、
    ことを特徴とする請求項1に記載のテキスト音声同期装置。
  3. 前記音声入力手段により入力された発声音声の音声波形を表示する入力音声波形表示手段と、
    前記音声認識手段により認識された発声音声の認識テキストを表示する認識テキスト表示手段と、
    を備えたことを特徴とする請求項1または請求項2に記載のテキスト音声同期装置。
  4. 前記同期データ取得手段により取得された同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた発声音声の時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された発声音声を同期出力させるための同期再生情報を作成する同期再生情報作成手段を備えたことを特徴とする請求項1ないし請求項3の何れか1項に記載のテキスト音声同期装置。
  5. 前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成することを特徴とする請求項4に記載のテキスト音声同期装置。
  6. 前記同期再生情報作成手段により作成された同期再生情報に従い、予め設定された一定時間毎に命令コードを読み出して実行し、前記音声入力手段により入力された言語の発声音声と前記音声認識手段により認識されたテキストとを同期して再生する同期再生手段を備えたことを特徴とする請求項5に記載のテキスト音声同期装置。
  7. コンピュータを制御してテキストと音声を同期付けするためのテキスト音声同期処理プログラムであって、
    前記コンピュータを、
    言語の発声に伴う音声を入力する音声入力手段、
    この音声入力手段により入力された発声音声をテキストとして認識する音声認識手段、
    この音声認識手段により認識されたテキストと前記音声入力手段により入力された発声音声の時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段、
    として機能させるようにしたコンピュータ読み込み可能なテキスト音声同期処理プログラム。
JP2003307305A 2003-08-29 2003-08-29 テキスト音声同期装置およびテキスト音声同期処理プログラム Pending JP2005077678A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003307305A JP2005077678A (ja) 2003-08-29 2003-08-29 テキスト音声同期装置およびテキスト音声同期処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003307305A JP2005077678A (ja) 2003-08-29 2003-08-29 テキスト音声同期装置およびテキスト音声同期処理プログラム

Publications (1)

Publication Number Publication Date
JP2005077678A true JP2005077678A (ja) 2005-03-24

Family

ID=34410132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003307305A Pending JP2005077678A (ja) 2003-08-29 2003-08-29 テキスト音声同期装置およびテキスト音声同期処理プログラム

Country Status (1)

Country Link
JP (1) JP2005077678A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140079A (ja) * 2005-11-17 2007-06-07 Yamaha Corp 再生装置
JP2009145434A (ja) * 2007-12-12 2009-07-02 O Chuhei 音声認識システム
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
KR101155856B1 (ko) 2010-06-09 2012-06-20 윤창훈 외국어 음성 파형창에 지문을 중첩하여 표시하는 외국어 음성 파형 표시방법과 이를 이용한 외국어 학습방법
KR101326275B1 (ko) * 2011-07-29 2013-11-11 김희곤 문자 및 음성 동기화 출력 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140079A (ja) * 2005-11-17 2007-06-07 Yamaha Corp 再生装置
JP4654889B2 (ja) * 2005-11-17 2011-03-23 ヤマハ株式会社 再生装置
JP2009145434A (ja) * 2007-12-12 2009-07-02 O Chuhei 音声認識システム
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
KR101155856B1 (ko) 2010-06-09 2012-06-20 윤창훈 외국어 음성 파형창에 지문을 중첩하여 표시하는 외국어 음성 파형 표시방법과 이를 이용한 외국어 학습방법
KR101326275B1 (ko) * 2011-07-29 2013-11-11 김희곤 문자 및 음성 동기화 출력 장치

Similar Documents

Publication Publication Date Title
JP2005070645A (ja) テキスト音声同期装置およびテキスト音声同期処理プログラム
JP2004347786A (ja) 音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラム
US20180130462A1 (en) Voice interaction method and voice interaction device
JP2013152365A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2004266576A (ja) メディアデータ記憶装置、およびメディアデータ記憶処理プログラム
JP2014222290A (ja) 議事録記録装置、議事録記録方法及びプログラム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
KR101877559B1 (ko) 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체
JP2010085727A (ja) 辞書機能を備えた電子装置およびプログラム
JP4622728B2 (ja) 音声再生装置および音声再生処理プログラム
JP2005077678A (ja) テキスト音声同期装置およびテキスト音声同期処理プログラム
JP6044490B2 (ja) 情報処理装置、話速データ生成方法、及びプログラム
JP4591481B2 (ja) 表示制御装置および表示制御処理プログラム
JP4407119B2 (ja) 命令コード作成装置
JP4277512B2 (ja) 電子機器及びプログラム
JP7013702B2 (ja) 学習支援装置、学習支援方法、及び、プログラム
JP4970392B2 (ja) 音声の録音と再生方法及び該方法を用いる電子辞書
JP2009116107A (ja) 情報処理装置及び方法
JP2008009221A (ja) 音声再生制御装置及び音声再生制御プログラム
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2004266577A (ja) メディア同期再生装置、サーバ装置、およびメディア同期再生処理プログラム、サーバ処理プログラム
JP2016004172A (ja) 発音学習支援装置およびプログラム
JP4985714B2 (ja) 音声表示出力制御装置、および音声表示出力制御処理プログラム
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100309