JP2008299032A

JP2008299032A - 語学教材および文字データ再生装置

Info

Publication number: JP2008299032A
Application number: JP2007144457A
Authority: JP
Inventors: Akira Nishimura; 明西村; Shinichi Sakamoto; 真一坂本; Tamotsu Koyama; 有小山
Original assignee: KATO Natsuko
Current assignee: KATO Natsuko
Priority date: 2007-05-31
Filing date: 2007-05-31
Publication date: 2008-12-11

Abstract

【課題】英会話の英単語を埋め込んだ英会話音声信号から、文字データ再生装置を文字データ再生装置として使い利用者の語学力に合わせて早出し又は遅早出し表示する語学教材を提供する。
【解決手段】音楽媒体としては、音楽データと文字データとを記録し、前記音楽データと文字データとは同時に再生可能となるように音楽データに文字データを埋め込んだ複合音響信号として記録され、且つこの複合音響信号には音楽データと文字データとを相対的に同期させて再生する相対位置同期信号が含まれているようにした。再生時には、前記相対位置同期信号を使って、英会話教師が発音するタイミングと同時だけでなく、選択により早出し又は遅早出し表示することにより初心者から上級者まで同じ複合音響信号で語学が学べるようにした。
【選択図】図３

Description

本発明は、外国語音声データ、この外国語音声データの文字データ、これら外国語音声データと文字データとの相対位置同期信号が含まれる前記複合音響信号を使うことにより文字データ表示と発音を相対的に同期させて画面表示する語学教材および文字データ再生装置に関する。

語学を学習する者にとって、授業中に先生の発音を全員でリピートしたりする時、注意力が鈍ると教科書のどのセンテンスを読んでいるのかわからなくなってしまうことがある。もしモニターテレビなどのディスプレイに読んでいる文章が表示され、今読んでいる単語だけ色が変わったりする教材があれば便利であるが、これとても前記モニターテレビの遠くに座っている人にとってはあまり役に経たないことがある。

特許文献１（段落００４０）には、オーディオ信号を記録したオーディオトラックと、音源を駆動するための演奏データを前記オーディオ信号と同期して記録した演奏データトラックとを備えたオーディオメディアについて開示されている。

特許文献２（段落００３０）には、電子透かし技術を利用して、文字データ再生装置にラジオやＴＶで流されている音楽の曲名、演奏者名等を表示する内容が開示されている。

特許文献３には、インターネットにアクセス可能な文字データ再生装置を用いた学習方法において、学習情報提供者により作成された学習スケジュール情報および該学習に係わる文字情報および音声情報を上記インターネット上のサーバーに予め登録し、上記学習スケジュール情報に基づき上記学習に係わる文字情報を上記サーバーのアクセス番号とともにメールとして学習対象者の携帯する文字データ再生装置へ定期的に配信し、上記学習対象者は、上記文字データ再生装置へ配信されたメールに含まれるアクセス番号に基づき上記サーバーにアクセスすることにより上記文字情報に対応する音声情報を取得する文字データ再生装置を用いた学習方法が開示されている。

特許文献４には、プラグインである動画再生部と文字表示部が組み込まれた端末のブラウザを使い、事業者システムは、ユーザの端末に英会話学習用のコンテンツを配信する。動画再生部は、事業者システムが配信する動画を英会話音声と共にストリーミング再生するモジュールであり、文字表示部は、動画が再生されている場面の会話例を文字で表示すると共に、文字表示部が事業者システムからダウンロードしたプログラムにより、動画で発話されている部分を動画の文字表示部に、動画再生部からコールバック関数で取得したポジションとステイタスを用いることにより同期させてハイライト表示する技術が開示されている。

特開２０００−１５６０４９号公報特開２００２−０９１４５５号公報特開２００１−３５６６７９号公報特開２００３−２５０１１８号公報

特許文献１には、演奏データトラックや歌詞表示データトラックはＰＣＭ録音のオーディオトラックに対して、いわゆる電子透かしの技術で埋め込むようにしてもよいと記載されているが、演奏データのトラック番号に歌詞表示データを紐付けした構成であり、絶対番地によるポジション情報しか存在しない。したがって、この技術を外国語の学習などに応用したとしても、外国語の音声データ（演奏データに相当）とその文字データ（歌詞データ）とがずれることなく再生され、外国語学習の効率は従来と変わらない。

特許文献２には、電子音楽配信システムにおいて、曲情報埋め込み手段によって曲名、演奏者名、各コンテンツを識別するための曲ＩＤ等の曲情報を電子透かしとしてコンテンツの音声信号自体に埋め込む記載があるだけで、流れる音声の中の特定フレーズ／単語部分と表示される前記特定フレーズ／単語部分の文字情報との時間的な関係についての考慮は何らなされていない。したがって、この技術を外国語の学習などに応用したとしても、せいぜい今しゃべっている会話の表題程度を表示することになるので、外国語の学習には役立たない。

特許文献３で開示されている文字データ再生装置を用いた学習方法においては、ＷＷＷサーバーから各顧客の携帯する文字データ再生装置に、各顧客別に設定登録された内容の有用な英会話表現を表す英文（文字情報）を含むレッスン情報を定期的に配信し、各顧客がこのレッスン情報に応答して、このレッスン情報に含まれるアクセス番号を各文字データ再生装置から入力することで、ＷＷＷサーバーから前記英文（文字情報）に対応する該英文の発音を示す音声情報を取得することが出来るが、文字データ再生装置の台数が増えると管理が大変になることと、文字データ再生装置を使う人が局地的に数多く存在した場合に、電波が使えなって学習に支障を来す可能性があり、安価で安定的に質の高い学習環境を提供することが難しい。
また、特許文献３では英文（文字情報）と発音（音声情報）を単なる再生の対象として捉えてるだけで、学習させる上での別々の要素と考えておらず、これらをどのようなタイミングで学習する者に提供すべきかなどについては何ら考慮されていない。

特許文献４には、タイムコードを動画と文字の共通の位置情報として管理する手法が開示されているが、図１３の説明にあるように、文字情報は英語と日本語の両方の文字データを含むスクリプト再生プログラムを一括ダウンロードする必要があるので例えば一般的な文字データ再生装置のワーキングメモリーＲＡＭ容量では不十分であり、また米国リアルネットワーク社製のＲｅａｌＰｌａｙｅｒ（登録商標）を使って動画を再生し、米国マクロメディア社が開発したＳｈｏｃｋＷａｖｅ（登録商標）を使ってスクリプト再生プログラムを構成する記載があるがこれも文字データ再生装置のＣＰＵで動作させるには能力を超えてしまい、結果的に高額なシステムとなってしまうので、安価かつ安定的に質の高い学習環境を提供することが難しい。

上記のいずれの特許文献においても、外国語の音声データとその文字データとを、互いに関連づけて再生を制御する点についての開示がない。そこで本発明に係る語学教材においては、音声再生装置によって再生される複合音響信号が記録された本発明の語学教材の前記複合音響信号に外国語音声データと、この外国語音声データの文字データと、前記外国語音声データに対してその文字データを時間的にずらして再生するための相対位置同期信号とを含むようにした。これにより、前記外国語音声データと文字データを任意の相対的なタイミング、例えば英会話の特定発音部分に同期させた前出し／後出しといった文字データのタイミングで再生できるようになる。

また、本発明に係る音声再生装置から出力される複合音響信号に含まれる文字データを再生する文字データ再生装置は、前記複合音響信号には外国語音声データ、この外国語音声データの文字データ、前記外国語音声データに対してその文字データを時間的にずらして再生するための相対位置同期信号が含まれ、前記文字データ再生装置は前記複合音響信号中の文字データと相対位置同期信号を蓄積するメモリーを備え、前記外国語音声データの相対位置同期信号と前記文字データの相対位置同期信号を比較することにより前記文字データを前記音声データに対して設定した時間または語数だけ先または後に表示するようにした。

更に上記の文字データ再生装置においては、音声再生装置の再生速度を変化させた時に、再生速度だけ変化させる音声ピッチコントロールを使って再生すること、前記文字データ再生装置に文字データ再生装置を使うことも考えられる。

本発明による語学教材は、外国語音声データに対してその文字データを時間的にずらして再生するための相対位置同期信号を使うことにより、モノラル音声データに文字データを埋め込んだモノラルの複合音響信号が音波として空気中を伝搬させ、これを文字データ再生装置のマイクロフォンで受け取り再生することにより、正確に発音される単語の文字表示と聞こえる音声の同期が取れ、前記音声を実際の発音に対して既定時間又は既定単語数だけ早く表示させることが出来るので、初級の学習者の学習に使う場合、あらかじめ単語を認識してから先生の発音を聞くことが出来るので理解が早くなる効果が期待出来る。

また、本発明による文字データ再生装置は、前記とは逆に、前記文字表示を学習者が耳で聞く発音に対して既定時間又は既定単語数だけ遅く表示させることが出来るので、上級の学習者の学習に使う場合、あらかじめ先生の単語を聞いてから単語を確認出来るので、単語を誤認した場合のフォローアップが出来て、学習効果が上がる効果が期待出来る。

前記の文字データ再生装置においては、例えば、安価なモノラルスピーカーでしか再生できないＡＭラジオを通じて提供される語学講座において、当該ラジオから提供されるモノラル音声に予め音響透かしによって文字データを重畳しておき、表示手段を持つ安価な複合音響信号再生装置を用意すれば、ラジオを通して聞こえる外人講師の発音する単語が前記表示手段によって視覚的に同期をとりながら文字データ再生装置で実際に発音される文字を確認出来るので、従来のように「では何頁の何行目から読みますからテキストを見て後について発音して下さい。」といった漫然と音声とテキストだけを使う場合と比較して語学習得レベルの向上が期待できる。

以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、同一機能を有するものは同一の符号とし、その繰り返しの説明は省略する。

図１は、本発明に係る吹き込みシステムの概要図である。吹き込み者１は、マイクロフォン２に向かって文章３を吹き込んでいる。文章の番号は再生時の画面番号を表していて、吹き込み者１は、各画面番号に相当する単語を読む時にタイミングボタン４を押すことにより、相対位置同期信号発生装置５から相対位置同期信号を発生させ、マイクロフォン２からの音声信号を拡声装置６で適宜のレベルに拡声して記録装置７において前記相対位置同期信号と音声信号を合成して複合音響信号８を生成する。

ここで、前記記録装置７は、例えば埋め込み信号生成部、埋め込み処理部および文字データ再生装置における埋め込み信号検出部で構成されることが考えられ、これは、例えば特開２００６−２５１６７６号公報に記載の「音響信号に電子透かし情報を埋め込む前記電子透かし埋込装置において、前記音響信号を帯域通過フィルタ群によって帯域分割したときの対となる隣接する帯域通過信号にそれぞれ逆位相の振幅変調を与えて、その連続的な変化の中および他の離れた帯域に与える振幅変調との位相差および変調強度差の中、および時間的に離れた区間に与える振幅変調の位相差および変調強度差の中に前記電子透かし情報を埋め込む手段と、あらかじめ前記帯域通過信号に含まれている振幅変動量と前記帯域通過信号の強度とを元に知覚されにくい振幅変調強度を決定するための手段と、付与する振幅変調の帯域間位相差に電子透かし抽出時の鍵となる位相差を与える手段と、電子透かしの埋め込まれた帯域通過信号およびそうでない帯域通過信号の全てを加算することによって電子透かし情報の埋め込まれた音響信号を出力する手段とを具備する電子透かし埋込装置」などを用いれば容易に実現できる。

図２は、複合音声信号に含まれる複合音声信号のデータフレーム構造を図示したものである。前記複合音声信号８ｂには外国語音声データ、この外国語音声データの文字データ、及びこれら外国語音声データと文字データとのＩＤデータが含まれる。ここで、ＩＤデータとは前記外国語音声データに対してその文字データを時間的にずらして再生するための同期信号を意味する。

このデータフレーム構造９は、プリアンプル部１０、ＳＦＤ部１１、宛先データ部１２、送信元データ部１３、タイプデータ部１４、本文データ部１５、エラー検出部１６の７つの部分に分かれている。以下に、それぞれのデータについて個別説明をする。

最初のプリアンプル部１０は、同期のための信号で、イーサネット（登録商標）においてフレームの先頭を意味するポイントとして使われているプリアンプルと同じ役割を持っている。

次のＳＦＤ部１１は、これ以降に宛先アドレスが開始されることを通知するフレームである。このフレームは、イーサネット（登録商標）などでも使われているＳＦＤフィールドと同じものが使える。この場合は、送信先アドレス部の開始を示す１オクテット（８ビット）長のフィールドとなり、パターン例としては“１０１０１０１１”などが使われ、簡易的には、オクテットパターンの検出ではなく、最後の連続した“１”の検出でその代用とすることも可能である。

宛先データ部１２は、例えば、イーサネット（登録商標）に準拠して６バイト（４８ビット）の領域とすることが考えられる。これはイーサネット（登録商標）ではＭＡＣアドレスと呼ばれるアドレス表記と同じものが使え，イーサネット（登録商標）においては固定的に割り当てられている固有の番号であり、本発明においてもイーサネット（登録商標）に準拠して番号管理をしている。

送付先データ部１３も、宛先データと同様に、イーサネット（登録商標）に準拠して６バイト（４８ビット）のＭＡＣアドレスを使うことも可能であるし、また後続のデータを暗号化する場合の秘密鍵を格納しても良い。

次のタイプデータ部１４は２バイトのデータで構成されている。イーサネット（登録商標）のＤＩＸ規格では，そのフレーム内に格納しているデータの種別を指定していて、例えば，ＩＰｖ４やＵＰｖ６、ＡｐｐｌｅＴａｌｋ，ＩＰＸなどを伝えるビット列（コード）が入り、ＩＥＥＥ８０２．３規格のフレームではデータ部分の長さに関する情報が入るが、本発明の複合音響信号においては、暗号の有無や秘密鍵の数などを既定する目的で使っている。

本実施例のように、文字データ再生装置を用いて英単語表示サービスを提供するためには、文字データ再生装置からサービス利用の手続きを行う必要がある。この場合には、複合音響信号に埋め込まれた情報を復号化するために復号鍵が必要であり、この復号鍵は文字データ再生装置にあらかじめ入力しておく必要がある。

この復号鍵の提示端末への通知には、既存の鍵暗号化システムを用いて、暗号化復号鍵情報として通知することができる。また、異なる復号鍵によって異なる情報を同一の音響信号に同時に埋め込むことも可能であり、利用者の必要な情報に応じて、その情報を復号化する鍵を通知することとする。

前記復号鍵を複数使用することにより、複合音響信号中に複数のデータを入れることが考えられる。これは、例えば、音声で発音している英単語のスペリングと、その日本語訳といったものが考えられ、利用者が再生装置の表示ボタンを切り替えるだけで、簡単に使用する秘密鍵の変更が可能なので、学習効果を高めることが出来る。

次の本文データ部１５の部分が，実際にやりとりするデータを格納する領域である。この領域は可変長となっており，例えば、最小は４６バイトで最大は１５００バイトとすることが考えられる。イーサネット（登録商標）と同様に、ＴＣＰやＩＰで使うヘッダー部分があれば、該部分もこの本文データ部１５に含まれる。

本発明においては、スピーカーから流れる複合音響信号には外国語音声データ、この外国語音声データの文字データ、及びこれら外国語音声データと文字データとの相対位置同期信号が含まれ、これらのデータ全てが前記本文データ部１５に含まれている。

前記のように複数の復号鍵を使うことにより、前記本文データ部１５に複数のデータ、例えば音声で発音している単語のスペリングと、その訳語を格納しておくことが出来る。

もしデータ長が４６バイトに満たないようなサイズのデータの場合は，パディングデータと呼ぶ無意味なダミーのデータを付加して４６バイトになるように調節するが、実体的にデータ量が少ない運用であれば４６バイトよりも少ないデータ量を最低データ量としてフレーム設計することも可能である。

エラー検出部１６は，受け取ったフレーム全体が送信時の内容と全く同じものであるかどうかを判断するための検査用データを入れる領域である。ここには，例えば、ＦＣＳと呼ぶ、宛先アドレス１２，送信元アドレス１３，タイプ１４，本文データ１５の４つの領域に格納したデータを一定の計算式に当てはめて算出した４バイトの値を格納する。そして，フレームを受け取った側で同じ計算を実行してみて，付加してあるＦＣＳの値と一致すれば，データの誤りや入れ替わりといったエラーが発生していないと判断する。逆に，値が異なっていれば，データの一部に誤り（ビットの値が変わってしまうこと）が生じているエラーチェック機能を持つ。

なお、データフレーム構造は上記の構造１に限定せず、他の構成によるフレームを使っても良いし、データ間が空いていて、フレーム転送しなくともデータの混同が無い場合には、例えばテレビ信号のように相対位置同期信号にデータだけを付加する方法で通信しても良い。

図３は、本発明に係る受信システムの機能説明図である。この構成は、従来からの複合音響信号処理と似ているが、文字データを先送りして、音声と同期させて文字を表示させるための時間制御部およびメモリー部が追加されている点で従来とは異なる構成となっている。

利用者１８が文字データ再生装置１９のマイクロフォン２０によって受けた前記複合音響信号８は音響信号受信部２１に入力される。次に、埋め込み信号検出部２２によって、埋め込まれた複合音響信号が検出される。

前述した通り、前記複合音響信号中には、外国語音声データ、この外国語音声データの文字データ、これら外国語音声データと文字データとの相対位置同期信号が含まれているが、この中の文字データおよびこの文字データの相対位置同期信号は実際に音として聞こえる外国語音声データで発音される文字データよりも前の文字データが先に送られて来ていて、これら文字データおよびこの文字データの相対位置同期信号は、同期情報算出部２３を通過してメモリー部２５に蓄積される。

一方、前記複合音響信号に埋め込まれた前記外国語音声データの相対位置同期信号は、同期情報算出部２３によって検出され、前記外国語音声データの相対位置同期信号のデータに合わせて時間制御部２４によって計算された相対位置同期信号を持つ文字データがメモリー部２５から読み出されて、文字情報提示部２６に提示される。

時間制御部２５は、前記音響信号はメモリー２５に格納された前記音響信号をＦＡＴにより管理しながら決められた基準時間に対する遅延時間分だけ遅延させたタイミングで前記文字データを文字情報提示部２６に送出し、文字データ再生装置１９の表示手段２７によって音声に同期した文字を表示する。

ここで、前記基準時間とは、データ部１５を持たない短いダミーフレームを２個連続で作って、２個目のダミーフレームにおける前記ダミーフレームのＳＦＤ部１１の次、即ち宛先アドレス部１２の開始タイミングを基準とすることも出来るし、叉例えば、複合音響信号の持つ振幅変動波形の位相を利用することも考えられる。

また、サブディスプレイを備えた文字データ再生装置の場合には、メインディスプレイに文章全体を表示し、サブディスプレイに発音される単語だけを表示する、或いはその逆の表示方法も考えられる。

同じ画面に文章全体と発音される単語を並記して表示する場合には、文字データ再生装置１９のデータ保存用メモリーをＲＡＭディスクとして使い、一時的に前記メモリーを作業領域として使うことにより、発音される単語が替わる前に前記メモリー上で画面合成を行ってから画面表示システムのグラフィックＲＡＭに転送すると良い。

なお、前述したように、文字データは外国語音声データよりも前に送られて来るので、複数の秘密鍵を使って複数言語対応にする場合には、メモリー部２５に全ての秘密鍵に対応する文字データを蓄積しておく必要があり、時間制御部２４は文字データ再生装置１９で選択された秘密鍵に対応する文字データを音声データの相対位置同期信号に対応させてメモリー部２５から出力させる。

図４は、文字データ再生装置１９に再生された文字データを表示した例である。画面２７の上部には読まれる文章全体が表示され、画面下部には今読まれている単語が表示されている。なお、後述する遅出し画面においては、前記文章全体を表示すると学習効果が減る可能性があるので、表示させないことが望ましい。

図５（ａ）〜（ｃ）は本発明に係る音声信号と画面表示のタイミングが同時である場合の例である。図５（ａ）には、例えば英会話テープにおいてひとつのレッスンの開始から０２分００秒から０２分３０秒までの５秒毎の時間フレームが示されている。また、図５（ｂ）には、前記時間フレーム内の発音情報を文字情報として複合音響信号に埋め込むタイミングが示されている。更に、図５（ｃ）には、前記複合音響信号を前記文字データ再生装置１９で受信して表示手段２７に文字データを表示するタイミングが示されている。

以下の説明において、タイミングは処理する文字データの量、送信側および受信側のハードウェアおよびソフトウェアに依存するので、必ずしも実施例の時間で全てのデータが処理されるとは限らない。処理の遅いシステムにおいては、あらかじめ処理時間を考慮して前もって文字データを送信しておく必要がある。安全を考えれば、早く文字データを送っておいた方が良いが、文字データの送出タイミングを早めると、それだけ受信側のバッファメモリが必要となるので、むやみに早く文字データを送ることは出来ない。経験値としては、例えば１０文字を複合音響信号として送る場合には、実際の音声開始タイミングよりも５秒、望ましくは１０秒早めて送出すると良い。

図５（ａ）においては、前記英会話テープの開始から０２分１０秒から０２分１５秒までのタイミングで第１フレーム２８が、０２分２０秒から０２分２５秒までのタイミングで第２フレーム２９が英会話の先生によって発音される。図５（ｂ）において、前記第１フレーム２８の文字データ３０は０１分４０秒から０１分４５秒までのタイミングで、前記第２フレームの文字データ３１は０１分５０秒から０１分５５秒までのタイミングでそれぞれ複合音響信号として送出される。

次に、前記複合音響信号が文字データ再生装置１９のマイクロフォンによって捕らえられると信号処理され、前述の通り図３のプロセスで文字が再生され、図５（ｃ）の第１表示画面３２および第２表示画面３３に分けて表示される。このとき、第１表示画面３２および第２表示画面３３には、図４に示した様に、共通して合成文章３４の内容が画面の上側に全文表示され、画面下側には０２分１０秒から０２分１５秒までのタイミングで第１フレーム２８の単語が、０２分２０秒から０２分２５秒までのタイミングで第２フレーム２９の単語がそれぞれ合成画面内に表示される。

図６（ａ）〜（ｃ）は、本発明に係る音声信号よりも画面表示が後になるタイミングの例である。図６（ａ）には、例えば英会話テープにおいてひとつのレッスンの開始から０２分００秒から０２分３０秒までの５秒毎の時間フレームが示されている。また、図６（ｂ）には、前記時間フレーム内の発音情報を文字情報として複合音響信号に埋め込むタイミングが示されている。更に、図６（ｃ）には、前記複合音響信号を前記文字データ再生装置１９で受信して表示手段２７に文字データを表示するタイミングが示されている。

図６（ａ）においては、前記英会話テープの開始から０２分１０秒から０２分１５秒までのタイミングで第１フレーム２８が、０２分２０秒から０２分２５秒までのタイミングで第２フレーム２９が収録されている。

図６（ｂ）において、前記第１フレーム２８の第１文字データ３０は０１分４０秒から０１分４５秒までのタイミングで、前記第２フレームの第２文字データ３１は０１分５０秒から０１分５５秒までのタイミングでそれぞれ複合音響信号として送出される。

前記複合音響信号が文字データ再生装置１９のマイクロフォンによって捕らえられ、信号処理されると、前述の通り図３のプロセスで文字が再生されて、図６（ａ）における英会話の先生の音声ではフレーム２８として０２分１０秒から０２分１５秒まで発音されたフレーム２８の内容が、図６（ｃ）では、０２分１５秒から０２分２０秒のタイミングでフレーム３２として遅延して画面表示される。更に、英会話の先生の音声では図６（ａ）のフレーム２９として０２分２０秒から０２分２５秒まで発音された内容が、図６（ｃ）では０２分２５秒から０２分３０秒のタイミングでフレーム３３として遅延して画面表示される。

図７（ａ）〜（ｃ）は、本発明に係る音声信号よりも画面表示が先になるタイミングの例である。図７（ａ）には、例えば英会話テープにおいてひとつのレッスンの開始から０２分００秒から０２分３０秒までの５秒毎の時間フレームが示されている。また、図７（ｂ）には、前記時間フレーム内の発音情報を文字情報として複合音響信号に埋め込むタイミングが示されている。更に、図７（ｃ）には、前記複合音響信号を前記文字データ再生装置１９で受信して表示手段２７に文字データを表示するタイミングが示されている。

図７（ａ）においては、前記英会話テープの開始から０２分１０秒から０２分１５秒までのタイミングで第１フレーム２８が、０２分２０秒から０２分２５秒までのタイミングで第２フレーム２９が英会話の先生によって収録されている。

図７（ｂ）において、前記第１フレーム２８の文字データ３０は０１分４０秒から０１分４５秒までのタイミングで、前記第２フレームの文字データ３１は０１分５０秒から０１分５５秒までのタイミングでそれぞれ複合音響信号として送出される。

更に、図７（ｃ）は、前記文字データ再生装置１９の表示手段２７に表示される文字データを時系列で示していて、前記フレーム２８の内容“Ｔｏｂｅ”が、前記英会話の先生が発音する前のタイミング、つまり時系列で０２分０５秒から０２分１０秒までのフレーム３２と、前記英会話の先生が実際に発音するタイミング、つまり時系列で０２分１０秒から０２分１５秒までのフレーム３２の２回連続で文字表示される。

その後、前記フレーム２９の内容“ｏｒｎｏｔｔｏｂｅ”が、前記英会話の先生が発音する前のタイミング、つまり時系列で０２分１５秒から０２分２０秒までのフレーム３３と、前記英会話の先生が実際に発音するタイミング、つまり時系列で０２分２０秒から０２分２５秒までのフレーム３３の２回連続で文字表示される。

本発明による語学教材を字幕の入った映画に使えば、例えば映画では英語が話され、字幕では日本語が見られ、複合音響信号再生機の画面には英語の台詞がリアルタイムあるいは語学力によって早出し又は遅早出しでも見られるようになるので、映画を利用して楽しく学習することが出来るようになる。

なお、ハードウェアの能力的に余裕があるのであれば、受信した文字データを文字データ表示端末に蓄積データとして、画面で発音された文字群だけでなく、例えば、前記蓄積データも画面下部に上記画面で発音された文字群とは異なる色で表示しておくことにより、文章全体を把握し易くすることが可能である。

また、文字データ再生装置に、文字及び画像を表示する表示手段と、外国語の音声データとその訳文の文字データとこれらの相対位置同期信号が重畳された複合音響信号を受信する手段と、前記表示手段に前記外国語の音声データに対し訳文の文字データを設定した時間または語数だけ先に（または後に）表示するアプリケーションを組み込むことも考えられる。

更に、例えばＤＶＤやブルーレイなどの記録媒体に保存された映画タイトルやテレビ放送などで受信した映画タイトルなどにおいて、これらの映画タイトルに字幕が入っていない場合でも、前記映画タイトルの音声と同じ外国語音声データと、この外国語音声データに対して音響透かしによって重畳された前記外国語音声データに対応する文字データと、前記外国語音声データに対してその字幕文字データを時間的にずらして再生するための相対位置同期信号を含む字幕の語学教材を字幕表示の補助システムとして使うことも考えられる。

前述した様に、該語学教材はＣＤやテープなどに記録したメディアを使っても良いし、インターネットを使ってＷｅｂサイトから音声データとしてダウンロードしながら字幕表示を同期させても良い。時間データを持つＤＶＤなどのメディアを使う場合は、前記映画タイトルの外国語音声データなどと同じ音声データを使い、チャプター内の時間データと共に同期させた字幕を文字データとして埋め込むことにより、文字データ再生装置の表示画面に前記映画タイトルに同期させた字幕表示が可能となる。

前記メディアにＤＶＤなどの時間情報を持つメディアを使う場合以外、つまり映像と音声のみからなる放送番組などには時間データが含まれていないので、前記映画タイトルの最初から見る場合には手操作で映像と字幕を同期させることは容易であるが、映画タイトルの途中から見る場合においてもチャプターの立ち上がりを基準として、プログラム内のストップウォッチをスタートさせてチャプター内の時間を計測すると共に、音声や音楽の特徴を音響学的に検知することにより前記映画タイトルの場所を検知できるので音声に同期させて字幕を画面表示することが可能となる。また更に、例えば任意のチャプターから前記映画タイトルを再生させた場合に、チャプターの開始位置を検出したタイミングを時間的なスタートポイントとして最初に音声が検出できるまでの時間を測定し、あらかじめ作成しておいたデーターベースを使うことにより、今見ているチャプターに該当するチャプターを検索することが出来る。

前記データーベースは、Ｗｅｂ経由で入手しても良いし、複合音響信号の最初の部分に挿入しておいても良い。また、文字データ再生装置のプログラム内にストップウォッチ機能を持たせ、前記映画タイトルのチャプターが開始した時点から最初の台詞までの時間をストップウォッチで時間を計測する機能を持たせれば、前記データーベースと併用することにより短時間で適切なチャプターの字幕を表示できるようになる。

また、もし時間データを持たない映像を再生する場合にチャプターの映画の実演されているチャプターと再生している字幕の属するチャプターが異なることが判断できれば、チャプターを検出した時点でプログラム内の前記ストップウォッチをリセットし、画面操作に設けられたチャプターサーチ機能でチャプターを変更することも可能である。これにより、映画のチャプタースタート時間はプログラム内のリアルタイムクロックに同期させている間に、チャプター単位でチャプターだけスキップさせて任意のチャプター内のリアルタイムクロックに同期させた時間に該当する字幕を表示することが出来る。

更に、文字データ再生装置の文字データ表示時間も任意に設定可能とし、音声は次の台詞になっても気に入った台詞が画面表示された状態で画面上に静止させることも可能である。また、今何を話したかを聞き取れなかった場合には、相対位置同期信号を使うことにより、文字表示だけを前の画面に戻して直前あるいは更に前の台詞字幕を表示することもできる。これらの操作中も、ＤＶＤなどの時間情報を持つメディアを使わなくとも、前記ストップウォッチを動作させておくことにより、いつもで画面に合った字幕表示に戻すことや、戻った後に映像再生場面の台詞字幕を画面表示することが可能である。

上記の字幕表示方法のメリットは、映画の外国語音声データに対応する文字データを別の言語に翻訳すれば翻訳可能な任意の言語に対応できる点である。従来からパソコンを使ってＤＶＤに記録された映画タイトルに後から制作した字幕をＰＣ画面表示するサービスはあったが、ＤＶＤの再生出来るパソコンを使わなければならない不便さがあった。コンピューターを使えばＤＶＤから字幕だけを取り出すことは容易であり、字幕が表示されるタイミングをチャプター内の時間情報として付加し、字幕の文字データと前記時間情報で構成されるテキストファイルを翻訳して生成した文字データをオリジナルの音声データに埋め込むことにより複合音響信号を生成できるので、複数言語に対応した複合音響信号の生成は容易である。

音響透かしを埋め込んだ英会話音楽は、例えばカセットテープなどの安価な記憶媒体でも記録再生が可能であり、例えば文字データ再生装置のアプリケーションとして文字提示機能を用意すれば、テープレコーダーと該文字データ再生装置だけで英会話が楽しめるし、また、見えるラジオ（登録商標）など文字多重受信機能の有る高価なラジオを使わなくとも、普通のラジオでも複合音響信号から文字データを抽出して文字データ再生装置などの文字データ再生装置で再生することが出来る。しかも、文字表示のタイミングを選択出来るので、語学の初心者から上級者まで同じ複合音響信号を使って自分の語学力に合わせた学習を遂行することができるので、利用者に大きな設備負担を強いることなく様々なラジオリスナーに対して語学教育の振興を啓蒙できる。

本発明に係る吹き込みシステムの概要図複合音響信号に含まれる複合音響信号のデータフレーム構造本発明に係る受信システムの機能説明図文字データ再生装置に再生された文字データを表示した例本発明に係る音声信号と画面表示が同時タイミングの例本発明に係る音声信号よりも画面表示が後になるタイミングの例本発明に係る音声信号よりも画面表示が先になるタイミングの例

符号の説明

１…吹き込み者、２…マイクロフォン、３…文章、４…タイミングボタン、５…相対位置同期信号発生装置、６…拡声装置、７…記録装置、８ａ…オリジナルの音声、８ｂ…複合音響信号、９…データフレーム構造、１０…プリアンプル部、１１…ＳＦＤ部、１２…宛先データ部、１３…送信元データ部、１４…タイプデータ部、１５…本文データ部、１６…エラー検出部、１７…複合音響信号、１８…利用者、１９…文字データ再生装置、２０…マイクロフォン、２１…音響信号受信部、２２…埋め込み信号検出部、２３…同期情報算出部、２４…時間制御部、２５…メモリー部、２６…文字情報提示部、２７…表示手段、２８…第１フレーム、２９…第２フレーム、３０…第１文字データ、３１…第２文字データ、３２…フレーム、３３…フレーム、３４…合成文章。

Claims

音声再生装置によって再生される複合音響信号が記録された語学教材であって、前記複合音響信号には外国語音声データと、この外国語音声データに対して音響透かしによって重畳された前記外国語音声データに対応する文字データと、前記外国語音声データに対してその文字データを時間的にずらして再生するための相対位置同期信号とが含まれることを特徴とする語学教材。
音声再生装置から出力される複合音響信号に含まれる文字データを再生する文字データ再生装置において、前記複合音響信号には外国語音声データ、この外国語音声データの文字データ、前記外国語音声データに対してその文字データを時間的にずらして再生するための相対位置同期信号が含まれ、前記文字データ再生装置は前記複合音響信号中の文字データと相対位置同期信号を蓄積するメモリーを備え、前記外国語音声データの相対位置同期信号と前記文字データの相対位置同期信号を比較することにより前記文字データを前記音声データに対して設定した時間または語数だけ先または後に表示することを特徴とする文字データ再生装置。
請求項２に記載の文字データ再生装置において、前記音声再生装置の再生速度を変化させた時に、再生速度だけ変化させる音声ピッチコントロールを使って音声データを再生することを特徴とする文字データ再生装置。