JP4070742B2

JP4070742B2 - オーディオファイルとテキストを同期化させる同期信号の埋込／検出方法及び装置

Info

Publication number: JP4070742B2
Application number: JP2004121995A
Authority: JP
Inventors: シン・スンウォン; リ・ウォンハ; キム・ナムフン
Original assignee: Marktek Inc; DIGITAL FLOW Co Ltd
Current assignee: Marktek Inc; DIGITAL FLOW Co Ltd
Priority date: 2003-04-17
Filing date: 2004-04-16
Publication date: 2008-04-02
Anticipated expiration: 2024-04-16
Also published as: JP2004318162A; US20040249862A1

Description

本発明は、デジタル携帯用再生装置（ｐｏｒｔａｂｌｅｄｉｇｉｔａｌｐｌａｙｂａｃｋｄｅｖｉｃｅ）において、デジタルオーディオファイルとそれに対応するテキストとの間の同期化方法及び装置に関する。

最近、コンピュータ技術の発展に応じて、コンピュータを使用してオーディオファイルを再生する技術が急速に発展している。これに従い、オーディオファイルを再生すると同時に、オーディオファイルの内容を視覚的に表示する機能が注目されている。例えば、歌謡に関するオーディオファイルを再生すると同時に、その歌詞を画面に表示する技術がこれに該当する。

図１０を参照して、従来技術におけるオーディオファイルの再生時にファイルの内容を同時に表示する構成を説明する。
先ず、再生対象となるオーディオファイル、及びオーディオファイルの内容を保存しているテキストファイルが設けられる。図１０は、従来のオーディオコンテンツの内容を保存するテキストファイルをテーブルの形態で再構成した図面である。図１０において、テキストファイルには、オーディオファイルの内容だけでなく、そのオーディオファイルの内容を視覚的に表示する再生時点が保存されている。図１０の例においては、圧縮された音声又は音楽ファイルが再生される間に、テキストを出力する時間を知らせる再生時点が１／１０００秒単位で保存されている。

例えば、再生時点０００００４０ｍｓにおいて、オーディオファイルが再生され、そのオーディオファイルに対応する“この発明は、携帯用デジタル再生装置において”という文字列が所定のディスプレイを通じて視覚的に出力される。オーディオファイルが再生されるにつれて、再生時点０００１０５５ｍｓにおいて、オーディオコンテンツの再生と同時に“音楽や音声ファイルを再生するうちに”という文字列が出力される。

即ち、オーディオファイルを再生させながら再生時点を監視し、再生時点がテーブルに表された出力文字列の再生時点と一致する場合、出力文字列が出力されるようにする。
前記のようなテキストファイルの構造は、動画像に字幕を出力するための、例えば、“．ｓｍｉファイル”の構造と実質的に類似するものであり、コンピュータのように使用可能なリソースが十分に提供される場合に適した構造である。

しかし、上述の方法により、デジタルオーディオファイルとそれに対応するテキストをデジタル携帯用再生装置で同期化させる場合は、使用可能なリソースに限界がある。従って、デジタル携帯用再生装置において、オーディオファイルのｍｓ単位の再生時間を監視し、このような微細な再生時間に一致させてテキストを出力することは実際には不可能である。そのため、テキストファイルに再生時間及びテキストをテーブルの形式で保存し、テーブルの情報に基づいてテキストを出力する上述の方法は、デジタル携帯用再生装置においては適当でない。

また、従来のテキストを出力する方法においては、再生される時間によって任意にテキスト情報を液晶画面に出力するため、実際に再生される内容と液晶に出力される内容が一致しない問題点があった。

次に、デジタルオーディオファイルに同期信号を周波数変換等を通じて透かしとして埋め込む方法を検討する。一般的に、透かし技術は、著作物に対する著作権の保護、著作物の偽・変造の有無の判別等のために音源に一般人が認識できない著作物の情報を保存する技術を意味する。透かし技術は、著作物の実質的な音源にユーザが定義した情報を秘匿するために、信号処理攻撃、圧縮変換等にも強靭であり、悪意的な目的で除去し難い特徴を有する強靭な透かし（ｒｏｂｕｓｔｗａｔｅｒｍａｒｋ）を使用するのが一般的である。

このような透かしは、データをデジタルコンテンツの音源に埋め込むため、秘匿した情報を再び検出するためには、非常に複雑な演算過程が行われなければならず、多くのメモリ容量と計算量が伴わなければならない。透かし技術を通常ＤＰＳで具現するためには、相当量のリソースを消耗するため、ＤＳＰを使用する携帯用ＭＰ３プレーヤーのような携帯用デジタル再生装置には使用し難い問題点がある。また、多くのリソースを消耗する付加的な機能は、携帯用再生装置の制限されたバッテリーの使用時間を考慮するとき好ましくない。特に、大部分のオーディオデータは、対象ファイルを圧縮するフォーマットからなっているため、通常の透かし技術は使用することができない。

圧縮されたデータに情報を秘匿する技術は、Ｆ.Ｐｅｔｉｔｃｏｌａｓが提案したＭＰ３Ｓｔｅｇｏ（ＣｏｍｐｕｔｅｒＬａｂｏｒａｔｏｒｙ、Ｃａｍｂｒｉｄｇｅ、Ａｕｇｕｓｔ、１９９８）に開示されている。この技術は、音源を圧縮する過程中にデータを秘匿するため、高速埋込処理ができないとの問題点がある。

また、Ｌ. ＱｉａとＫ. Ｎａｈｒｓｔｅｄｔが提案したＮｏｎ−Ｉｎｖｅｒｔｉｂｌｅ
ＷａｔｅｒｍａｒｋｉｎｇＭｅｔｈｏｄｓＦｏｒＭＰＥＧＥｎｃｏｄｅｄＡｕｄｉｏ（ＳｅｃｕｒｉｔｙａｎｄｗａｔｅｒｍａｒｋｉｎｇｏｆＭｕｌｔｉｍｅｄｉａＣｏｎｔｅｎｔｓ、Ｊａｎｕａｒｙ１９９９）においては、ＭＰ３の音源を変質させる恐れが高く、秘匿可能な情報量に限界があるとの問題点がある。

また、Ｄ. Ｋ. ＫｏｕｋｏｐｏｕｌｏｓとＹ. Ｃ. Ｓｔａｍａｔｉｏｕが提案したＡｃｏｍｐｒｅｓｓｅｄ−ｄｏｍａｉｎｗａｔｅｒｍａｒｋｉｎｇａｌｇｏｒｉｔｈｍｆｏｒＭＰＥＧＡｕｄｉｏＬａｙｅｒ３（ＡＣＭＭｕｌｔｉｍｅｄｉａ２００１、Ｓｅｐｔｅｍｂｅｒ３０-Ｏｃｔｏｂｅｒ５、Ｏｔｔａｗａ、Ｏｎｔａｒｉｏ、Ｃａｎａｄａ）においては、高速抽出は可能であり得るが、高速埋込処理は不可能であるとの問題点がある。

本発明は、上述のような問題点を解決するために案出されたものであって、テキスト同期化が音質に与える影響を最小化し、オーディオファイルの再生時点とテキストの出力時点を一致させながら、高速埋込／処理が可能な、オーディオファイルとテキストを同期化させるようにオーディオファイルにテキスト及び同期信号を埋め込む同期信号の埋込方法を提供することをその目的とする。

さらに、本発明は、オーディオファイルの再生及びそれと同期化されるテキストの出力時に、オーディオファイル再生装置に過度なリソース消耗が発生しないようにする方法を提供することをその目的とする。

また、本発明は、同期信号が埋め込まれているオーディオファイルから同期信号を検出する同期信号の検出方法及び装置を提供することをその目的とする。

上述の目的を達成するために、本発明は、オーディオコンテンツが保存された第１の部分、少なくとも前記第１の部分の大きさに関する情報を含む第２の部分、及び前記第２の部分においてテキスト及び同期信号を埋め込んだ後にも音質に殆ど影響を与えない部分である第３の部分をそれぞれ有する複数のフレームを含むオーディオファイルに同期信号を埋め込む方法において、フレームの第２の部分から前記フレームの第１の部分の大きさに関する情報を得るステップ；前記得られた情報に基づいて、前記フレームの第３の部分の開始位置及び大きさを判定するステップ；及び前記フレームの前記第３の部分に同期信号の少なくとも一部を埋め込むステップを含む同期信号の埋込方法を提供する。

ここで、前記第１の部分は前記オーディオコンテンツを含み、前記第２の部分は前記オーディオファイルのヘッダ情報及び副情報を含み、前記第３の部分は前記オーディオデータからオーディオファイルを再生する際に音質に影響を与えないか、最小限に与える部分である。また、前記第３の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含む。

また、前記同期信号は、前記フレームの前記第１の部分に対応するテキストの位置に関する情報を含むことができ、前記フレームの前記第３の部分に同期信号の少なくとも一部を埋め込むステップは、前記フレームの前記第３の部分へ同期信号を埋め込むか否かを決定するステップ；及び同期信号を埋め込まないものとの決定に応じて、前記フレームの前記第３の部分に前記フレームの前記第１の部分に対応するテキスト情報を埋め込むステップを含むこともできる。

また、前記フレームの前記第３の部分に同期信号の少なくとも一部を埋め込むステップは、前記第３の部分における同期信号の埋込空間と同期信号の大きさを比較し、前記第３の部分における前記同期信号の埋込空間が前記同期信号の大きさよりも小さい場合、前記同期信号の埋込空間と同じ大きさ分の前記同期信号の部分を前記第３の部分に埋め込むことが好ましい。

また、前記オーディオコンテンツは、前記テキストをＴＴＳ（Ｔｅｘｔ−ｔｏ−Ｓｐｅｅｃｈ）変換して生成されることもできる。

なお、本発明は、オーディオコンテンツが保存された第１の部分、少なくとも前記第１の部分の大きさに関する情報を含む第２の部分、及び前記第２の部分内に位置し、テキスト又は同期信号を埋め込むことができる第３の部分をそれぞれ有する複数のフレームを含むオーディオファイルから同期信号を検出する方法において、前記第１の部分の大きさに関する情報に基づいて、前記第３の部分の開始位置と大きさに関する情報を抽出するステップ；前記第３の部分を分析して、同期信号の存在の有無を判定するステップ；及び同期信号が存在するものとの判定に応じて、前記第３の部分から同期信号の少なくとも一部を得るステップを含む同期信号の検出方法を提供する。

ここで、前記第１の部分は前記オーディオコンテンツを含み、前記第２の部分は前記オーディオファイルのヘッダ情報を含み、前記第３の部分は前記オーディオファイルのオーディオコンテンツの再生に使用されない部分である。また、前記第３の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含む。

また、同期信号が存在しないものとの判定に応じて、前記第３の部分からテキスト情報を抽出するステップをさらに含むこともでき、同期信号の内容を分析した後、前記分析に基づいて、対応するテキストの位置を選択するステップをさらに含むこともできる。

また、前記第３の部分から得られた同期信号の少なくとも一部が同期信号と同一でない場合は、前記同期信号の少なくとも一部を後続するフレームの同期信号の少なくとも一部と結合させるステップをさらに含むことが好ましい。

なお、本発明は、オーディオコンテンツが保存された第１の部分、少なくとも前記第１の部分の大きさに関する情報を含む第２の部分、及び前記第２の部分内に位置し、テキスト又は同期信号を埋め込むことができる第３の部分をそれぞれ有する複数のフレームを含むオーディオファイルから同期信号を検出する装置において、前記第１の部分の大きさに関する情報に基づいて、前記第３の部分の開始位置と大きさに関する情報を抽出し、前記第３の部分を分析して、同期信号の存在の有無を判定する同期信号の存在の有無の判定部；及び同期信号が存在するものとの判定に応じて、前記第３の部分から同期信号の少なくとも一部を得る同期信号の獲得部を備える同期信号の検出装置を提供する。

本発明は、デジタル携帯用再生装置にテキスト同期化装置を添加することにより、音楽ファイル又は音声ファイルを再生し、自動に再生される音楽の歌詞又は音声内容を液晶に表示できる機能を提供する。

本発明は、圧縮されたファイルが再生される間に、音楽ファイルに秘匿されている同期信号を実時間で検出して、コンテンツファイルの現在再生される時点と同期を合わせて液晶画面にディスプレイする。従って、ユーザは、再生装置の液晶画面を通じて現在再生される内容を確認することが可能となる。また、テキスト情報とテキストが出力されるべき時点までの全ての情報をデジタルコンテンツに秘匿することにより、ユーザが付加的にテキストファイルやその他の情報を別途に保存しなくてもよい。

特に、本発明は、一般の音楽の歌詞を始め、外国語学習のための教材内容まで包括的に活用することができ、語学学習用デジタル携帯用再生装置に極めて効果的に用いられ得る。

以下、添付図面を参照し、本発明の好ましい実施例についてより具体的に説明すると、次のとおりである。

図１は、デジタル携帯用再生装置において、オーディオファイルとそれに対応するテキストを同期化させるための全体的な過程を示す概念図である。

図１を参照すると、先ず、オーディオファイル１０３とそれに対応するテキスト１０１がテキスト同期化装置１０５に入力される。入力された情報を用いて、テキスト同期化装置１０５においては、ユーザから各歌詞が出力されるべき時点が直接入力される。ユーザから入力された情報は、それぞれ出力しようとするテキストと再生時間が連結された情報で構成され得る。テキスト同期化装置１０５は、本発明による同期信号の埋込方法により、オーディオファイル１０３の所定の位置に対応するテキスト出力のためのテキストの位置を示す情報を埋め込む。マネージャプログラム１０７においては、テキスト同期化装置１０５から同期化されたＭＰ３ファイル及びテキストが転送され、これを携帯用再生装置１０９にダウンロードする。

その後、携帯用再生装置１０９でオーディオファイル１０３を再生する場合、オーディオファイル再生中に同期信号が検出されれば、その同期信号を分析し、同期信号に応じてテキストデータを検出し、検出された文字列を携帯用再生装置１０９のディスプレイ手段により出力するようになる。

以下、本発明の実施例においては、音楽ファイルのフォーマットをＭＰ３を例に挙げて説明するが、ＷＭＡ、ＡＡＣ及びＡＣ３等、他のオーディオファイルフォーマットにより保存された音楽ファイルの場合も、本発明による同期信号の埋込方法を適用又は応用できることは当業者にとって自明である。

図２は、ＭＰ３フレームの構造を示す図面である。図２を参照してＭＰ３フレームの構造を説明すると、ＭＰ３オーディオファイルは、複数のフレームの連続で構成され、各フレームは、１２ビットの同期ビットで構成されたヘッダ２０１、副情報（ｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）２０３、メインデータ２０５及びスタッフィング空間２０７とで構成される。

ヘッダ２０１及び副情報２０３には、同期（ｓｙｎｃ）を含めフレームの構成等に関する全般的な情報が保存されている。メインデータ２０５には、ハフマン・コーディング（ＨｕｆｆｍａｎＣｏｄｉｎｇ）方式によりオーディオコンテンツが無損失圧縮されて保存される。

無損失圧縮されたメインデータ２０５は、バイト単位で保存されるようになり、ハフマン・コーディングの結果、オーディオコンテンツの内容が全く含まれていない余剰ビットが発生するようになる。

この余剰ビットをスタッフィングビット（ｓｔｕｆｆｉｎｇｂｉｔ）とし、このスタッフィングビットを使用すると、音質に全く影響を与えることなくテキストデータを埋め込むことができる。しかし、スタッフィングビットは、圧縮方式によりその大きさに多少差があるが、テキストデータをＭＰ３に全て含め得る程度に十分ではないため、スタッフィングビットのみではテキスト情報を埋め込むことができない。

従って、メインデータ２０５を分析し、音質に影響を最小限に与えるデータ領域を検索してテキストの秘匿空間として追加的に活用することが好ましい。音質に最小限の影響を与える空間は、メインデータ２０５のうち高周波帯域を表現する領域であって、このデータ領域にテキストデータを埋め込むことができる。このように、メインデータにおいて音質に影響を殆ど与えないオーディオ信号から高周波帯域信号を表現する部分を透かし空間２０７とし、前記透かし空間２０７を用いてデータを埋め込む。

以下でより詳しく説明するように、本発明においては、このようなフレームの構造的な特性を用いて透かし空間に同期信号を埋め込むことになる。

図３は、本発明の第１の実施例による同期信号の埋込過程を示すフローチャートである。図３を参照すると、先ず、再生すべきＭＰ３オーディオファイルが選択されると、これをフレーム単位に分割する（Ｓ３０１）。

分割された各フレームに対してフレームの分析が行われる（Ｓ３０３）。フレームの分析は、ヘッダ２０１と副情報２０３を分析して、メインデータ２０５の開始位置とその大きさに関する情報を得る。その後、メインデータ２０５の大きさに関する情報に基づいて、透かし空間２０７の大きさ及び位置が得られる。透かし空間２０７は、フレームに残る余剰ビットと高周波信号を表現する領域のうちデータの変更が可能な領域になる。

その後、該当フレームに同期信号が埋め込まれるべきか否かが判定される（Ｓ３１１）。同期信号を埋め込むか否かは、ユーザから予め入力された情報により判定されることもある。例えば、ユーザは、オーディオファイルを再生しながら、どの時点でテキストのど
の部分を出力すべきかをテキスト同期化装置の所定の入力装置を通じて直接入力することができる。また、後述するＴＴＳ方式による場合のように、自動的に判定されることもある。同期信号が埋め込まれなければならない場合は、透かし空間に同期信号を埋め込むことになる(Ｓ３１３)。同期信号の大きさは、一般的に透かし空間のビット数よりも大きいため、一つの同期信号全てを一つの透かし空間に埋め込むのではなく、同期信号の少なくとも一部を一つの透かし空間に埋め込む。複数個の透かし空間に一つの同期信号を埋め込むこともできる。例示的な実施例において、透かし空間は、同期信号の存在を示す部分、及び同期信号の内容としてテキストの位置及び出力されるテキストの文字数を示す部分を含む。同期信号のうちの何ビットを該当フレームに埋め込むかは、与えられた透かし空間が何ビットであるかによって決定される。

上述した過程を各フレームに対して繰返すことにより、フレームで構成されたオーディオファイルに同期信号を埋め込むことになる。

従って、上述した構成を通じて、オーディオファイルとテキストを同期化させるように同期信号をオーディオファイルに埋め込む同期信号を提供することにより、オーディオファイルの再生及びそれと同期化されるテキストの出力時に、オーディオファイル再生装置において過度なリソース消耗が発生しなくなる。

次に、図４及び図５を参照し、本発明の第２の実施例について説明する。図４は、本発明の第２の実施例による同期信号の埋込過程を示すフローチャートである。

図４に示してはいないが、図３のＳ３０１乃至Ｓ３０９のステップが、図４のＳ４１１のステップ以前に同一に存在するが、図示及び説明の便宜上、省略する。

先ず、同期信号が埋め込まれる必要があるか否かが判定される(Ｓ４１１)。

同期信号が埋め込まれる必要がない場合、透かし空間にテキストを埋め込む(Ｓ４１５)。テキスト文字列の長さは、一般的に透かし空間のビット数よりも大きいため、与えられたテキスト文字列の全てを一つの透かし空間に埋め込むのではなく、テキスト文字列の少なくとも一部を一つの透かし空間に埋め込む。即ち、複数の透かし空間に一つのテキスト文字列を埋め込む。

図５は、本発明の第２の実施例による同期信号が埋め込まれたオーディオファイルをフレーム単位で示す概略図である。図５において、オーディオファイルをフレーム単位で区画して概略的に示した。各フレームに対し、テキスト情報埋込に該当するフレームにおいてはテキスト情報を含んでおり、テキスト出力時点に該当するフレームにおいては同期信号を含んでいる。テキスト情報の埋込に該当するフレームにおいてもスタッフィング空間に何らの情報も埋め込まれない場合があり、これは、上述のとおり、待機領域を意味する。同期信号が含まれているフレームの再生時点が、それ以前のフレームに埋め込まれたテキストを出力する時点になるように、先ず、出力すべきテキスト情報を一つ以上のフレームに埋め込む。出力すべきテキスト情報を全て埋め込んだ後は、同期信号を埋め込むまで待機状態にあることになる。待機状態においては、フレームに別途の情報を埋め込まず、各フレームに存在するスタッフィングビットを全て‘０’に初期化する。その後、現在のフレームの位置がテキストを出力すべき時間情報と一致すると、同期信号を埋め込む。

再度図４に戻って、同期信号が埋め込まれなければならない場合、透かし空間に同期信号を埋め込むことになる(Ｓ４１３)。図３を参照して上述したとおり、同期信号の大きさは、一般的に透かし空間のビット数よりも大きいため、一つの同期信号の全てを一つの透かし空間に埋め込むこともできるが、同期信号の少なくとも一部を一つの透かし空間に埋
め込むこともできる。即ち、複数個の透かし空間に一つの同期信号を埋め込むこともできる。透かし空間に埋め込まれる同期信号は、同期信号の存在を示す部分のみを含むことで十分である。オーディオファイルの再生時において、同期信号が検出されたフレームの以前のフレームの透かし空間に保存された情報が、テキスト情報の一部であるため、これらを組み合わせると、同期信号の存在を検出する時、ディスプレイに出力するテキストが得られるためである。

上述した過程を各フレームに対して繰り返すことにより、フレームで構成されたオーディオファイルに同期信号及びオーディオコンテンツに対応するテキストを埋め込むことになる。

一方、本発明によるオーディオファイルと歌詞テキストを同期化させる過程は、
ＴＴＳエンジンを用いて生成されたものであり得る。図６は、ＴＴＳ技術により生成された音声ファイルとテキストとを同期化させる過程を示す概念図である。

ＴＴＳは、テキストを音声合成して音声ファイルにする技術であり、テキスト文字をオーディオファイルに変換するにおいて、ＴＴＳエンジン６０３は、各国の言語に対する最小発音単位で音素ＤＢを構築した後、テキスト文字の前後の脈絡を考慮して検索された音素ＤＢを合成して音声信号を生成する。図１を参照して上述した本発明の構成においては、ユーザからオーディオファイルと同期化させるためのテキストの位置が直接入力されなければならないが、ＴＴＳによる音声合成の場合は、音声ファイルの生成と同時にそれに対応するテキストファイルにおけるテキストの位置が自動的に把握されるため、別途のユーザ入力過程は不要である。

以下、本発明による同期信号の検出過程を説明する。

図７は、本発明による同期信号の検出過程を概略的に説明する概略図である。

ＭＰ３オーディオファイルはメモリに保存されている。ＭＰ３オーディオファイルに対する再生命令に応じて、メモリからＭＰ３オーディオファイルの情報が読み取られる（Ｓ７０１）。読み取られたＭＰ３オーディオファイルは、ＭＰ３ストリームの形式でフレーム分析のために提供される。

その後、ＭＰ３ストリームの形式で伝送されたオーディオファイルをフレーム単位に分割する（Ｓ７０３）。

その後、各フレームについて、ヘッダ及び副情報を用いてオーディオコンテンツの大きさを抽出する。オーディオコンテンツの大きさに基づいて、フレームで圧縮されたオーディオデータを分析し、最適の高周波帯域信号を示す値の位置とスタッフィングビットの位置を把握することができる。その後、透かし情報が埋め込まれている場合は、検出された情報と情報のビットの大きさを同期信号及びテキスト構成機に転送する。

その後、検出された同期信号の内容を分析し、同期信号及びテキストを構成することになる（Ｓ７０７）。前記第１の実施例の場合は、同期信号が表示しているテキストファイルにおけるテキストの位置及び表示すべき文字列の長さを決定し、該当文字列の部分をテキストファイルから読み取る。一方、テキストがＭＰ３オーディオファイルに含まれている前記第２の実施例の場合は、同期信号が存在しない場合に、透かし空間のビット内容を読み取り、これを別途のメモリ空間に連続的に保存し、同期信号の存在が検出される場合に、メモリ空間に保存された内容をテキストとして出力することになる。テキストとして出力されてからは、前記内容はメモリ空間から除去される。その後、テキストで構成され
た文字列はＬＣＤへの出力のために提供される。

その後、ＬＣＤコントローラ（図示しない）は、ＬＣＤに現在出力されている文字列を消し、新たな文字列を出力するようにＬＣＤを制御する（Ｓ７０９）。この場合、ＬＣＤに同時に出力可能な文字列よりも長いテキストを出力しなければならない場合は、自動的に文字列が右側から左側にスクロールされるようにすることができ、このようなスクロール過程は当業者であれば誰にも分かる。

図７の同期信号の検出装置は、図８及び図９のように、デジタル携帯用再生装置で具現することができる。ＤＳＰで具現されるのが一般的であるが、テキスト同期化作業は、ＭＩＣＯＭで全ての外部装置を制御しているため、ＭＩＣＯＭにリソースが十分に残っていれば、図８のようにＭＩＣＯＭで具現することが有利である。本発明で提案した方法で同期化を具現する場合に、所要される処理速度とメモリが非常に小さいため、ＭＩＣＯＭで処理しても十分に可能である。

図８は、本発明によるテキスト同期化のための同期信号の検出装置を携帯用デジタル再生装置のＤＳＰで具現する場合の内部構成図であり、図９は、携帯用デジタル再生装置のＤＳＰで具現する場合の内部構成図である。

図８及び図９は、一般的な再生装置の内部構成図であり、ユーザが再生ボタンを押したとき、ＭＩＣＯＭにおいては生成するファイル名を持ってくる。再生するファイル名を持ってきた後は、そのファイルのデータを読み取ってバッファに伝達し、ＤＳＰにおいては、バッファにある圧縮されたデータを復号化してスピーカを通じて音楽を聞かせることになる。

この過程に歌詞や再生されるファイルの音声情報を液晶に表出する本発明を埋め込むと、全体構造が次のように変更される。ＭＩＣＯＭにおいて再生するファイルを持ってくる過程は同一である。再生するファイルを持ってきた後に、再生ファイルから読み取ったデータをバッファに伝達し、伝達したデータに同期信号があるか否かを同期信号の検出器で探すことになる。このとき、同期信号の検出器で同期信号を見つけると、ＭＩＣＯＭのコントローラで同期信号を見つけたことと、その見つけた同期信号の内容が何であるかを知らせることになる。ＭＩＣＯＭのＬＣＤコントローラにおいては、液晶画面に同期信号の検出器から知らせてきた情報を送り出すことになる。

図８及び図９の相違点は、同期信号の検出器が内部のどこに位置しているのかのみが異なるが、これは、携帯用再生装置の構造的な特性に合わせていかなる形態を取っても、全体的な実行手続きは同一に動作される。

本発明を特定のアプリケーションに関する特定の実施例を参照して説明した。当業界の通常の知識を有し、本教示に接近する者は、その範囲内の付加的な変形、アプリケーション及び実施例が分かるものである。

従って、添付の請求の範囲は、本発明の思想内のこのような任意の、かつ全ての応用、変形及び実施例をカバーすることを意図している。

デジタル携帯用再生装置において、オーディオファイルとそれに対応するテキストを同期化させるための全体的な過程を示す概念図である。ＭＰ３フレームの構造を示す図である。本発明の第１の実施例による同期信号の埋込過程を示すフローチャートである。本発明の第２の実施例による同期信号の埋込過程を示すフローチャートである。本発明の第２の実施例による同期信号が埋め込まれたオーディオファイルをフレーム単位で示す概略図である。 TTS技術により生成された音声ファイルとテキストを同期化させる過程を示す概念図である。本発明による同期信号の検出過程を概略的に説明する概略図である。本発明によるテキスト同期化のための同期信号の検出装置を携帯用デジタル再生装置のＤＳＰで具現する場合の内部構成図である。携帯用デジタル再生装置のＤＳＰで具現する場合の内部構成図である。従来のオーディオコンテンツの内容を保存するテキストファイルをテーブルの形態で再構成した図面である。

符号の説明

１０１テキスト、１０３オーディオファイル、１０５テキスト同期化装置、１０７マネージャプログラム、１０９携帯用保存装置、２０１ヘッダ、２０３副情報、２０５メインデータ、２０７透かし空間

Claims

処理装置を用いて、オーディオコンテンツが保存された第１の部分、少なくとも前記第１の部分の大きさに関する情報を含む第２の部分、及び前記第１の部分内に位置する第３の部分をそれぞれ有する複数のフレームを含むオーディオファイルに、前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま同期信号を埋め込む方法において、
前記処理装置が各フレームの第２の部分から前記フレームの第１の部分の大きさに関する情報を得るステップ；
前記処理装置が、前記得られた情報に基づいてハフマン・コーディング方式によりスタッフィングビットが配置される領域を算出するとともに、前記オーディオコンテンツの内容を分析して高周波帯域を表現する領域を算出することで、前記第３の部分の開始位置及び大きさを判定するステップ；
前記処理装置が、少なくとも１つの前記フレームの前記第３の部分に前記テキストを埋め込むステップ；及び
前記処理装置が、前記テキストを埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第３の部分に、それ以前のフレームに埋め込まれた前記テキストを同期して出力するための前記同期信号を埋め込むステップを含むことを特徴とする同期信号の埋込方法。
前記第１の部分は前記オーディオコンテンツを含み、
前記第２の部分は前記オーディオファイルのヘッダ情報を含み、
前記第３の部分は前記第１の部分の一部の領域であることを特徴とする請求項１に記載の同期信号の埋込方法。
前記第３の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含むことを特徴とする請求項１に記載の同期信号の埋込方法。
前記同期信号は、前記フレームの前記第１の部分に対応するテキストの位置に関する情報を含むことを特徴とする請求項１に記載の同期信号の埋込方法。
前記埋込方法は、前記フレームの前記第３の部分に同期信号を埋め込むか否かを決定するステップをさらに含み、
前記テキストを埋め込むステップは、同期信号を埋め込まないものとの決定に応じて、前記テキストを埋め込むことを特徴とする請求項１に記載の同期信号の埋込方法。
前記同期信号を埋め込むステップは、前記第３の部分が前記同期信号を埋め込むのに十分でないときに、前記同期信号の一部を前記フレームに埋め込むとともに、前記同期信号の残部を後続するフレームに埋め込むことを特徴とする請求項１乃至５のいずれか１項に記載の同期信号の埋込方法。
前記オーディオコンテンツは、前記テキストをTTS(Text-to-Speech)変換して生成されることを特徴とする請求項１に記載の同期信号の埋込方法。
処理装置を用いて、ハフマン・コーディングされたオーディオコンテンツが保存された第１の部分、少なくとも前記第１の部分の大きさに関する情報を含む第２の部分、及び前記第１の部分内に位置する第３の部分をそれぞれ有する複数のフレームを含むオーディオファイルから前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま埋め込まれた同期信号を検出する方法において、
前記複数のフレームの少なくとも１つのフレームの前記第３の部分には前記テキストが埋め込まれるとともに、前記テキストが埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第３の部分にはそれ以前のフレームに埋め込まれた前記テキストを同期して出力するための同期信号が埋め込まれており、
前記検出方法は、
前記処理装置が、各フレームの前記第１の部分の大きさに関する情報に基づいて、前記オーディオコンテンツの内容を分析して、高周波帯域を表現する領域の位置およびスタッフィングビットの位置を取得するステップ；
前記高周波帯域を表現する領域の位置および前記スタッフィングビットの位置に基づいて得られる前記第３の部分において、情報の存在の有無を判定するステップ；
前記第３の部分において前記情報が存在するものとの判定に応じて、前記情報が前記同期信号であるかを判定するステップ；
前記情報が前記同期信号であるとの判定に応じて、前記第３の部分から前記同期信号を得るステップ；及び
得られた前記同期信号に基づいて、それ以前のフレームに埋め込まれていた前記テキストを出力するステップを含むことを特徴とする同期信号の検出方法。
前記第１の部分は前記オーディオコンテンツを含み、
前記第２の部分は前記オーディオファイルのヘッダ情報を含み、
前記第３の部分は前記オーディオファイルのオーディオコンテンツの再生に使用されない部分であることを特徴とする請求項８に記載の同期信号の検出方法。
前記第３の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含むことを特徴とする請求項８に記載の同期信号の検出方法。
同期信号が存在しないものとの判定に応じて、前記第３の部分から前記テキストを抽出するステップをさらに含むことを特徴とする請求項８に記載の同期信号の検出方法。
同期信号の内容に基づいて、それ以前のフレームに埋め込まれた前記テキストのうち出力すべきテキストを構成するステップをさらに含むことを特徴とする請求項８に記載の同期信号の検出方法。
前記フレームに同期信号の一部が埋め込まれている場合には、当該同期信号の一部と、後続するフレームに埋め込まれた前記同期信号の残部とを結合するステップをさらに含むことを特徴とする請求項８乃至１２のいずれか１項に記載の同期信号の検出方法。
ハフマン・コーディングされたオーディオコンテンツが保存された第１の部分、少なくとも前記第１の部分の大きさに関する情報を含む第２の部分、及び前記第１の部分内に位置する第３の部分をそれぞれ有する複数のフレームを含むオーディオファイルから前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま埋め込まれた同期信号を検出する装置において、
前記複数のフレームの少なくとも１つのフレームの前記第３の部分には前記テキストが埋め込まれるとともに、前記テキストが埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第３の部分には先行するそれ以前のフレームに埋め込まれた前記テキストを同期して出力するための同期信号が埋め込まれており、
前記装置は、
各フレームの前記第１の部分の大きさに関する情報に基づいて、前記オーディオコンテンツの内容を分析して、高周波帯域を表現する領域の位置およびスタッフィングビットの位置を取得する手段；
前記高周波帯域を表現する領域の位置および前記スタッフィングビットの位置に基づいて得られる前記第３の部分において、情報の存在の有無を判定する手段；
前記第３の部分において前記情報が存在するものとの判定に応じて、前記情報が前記同期信号であるかを判定する手段；
前記情報が前記同期信号であるとの判定に応じて、前記第３の部分から前記同期信号を得る手段；及び
得られた前記同期信号に基づいて、それ以前のフレームに埋め込まれていた前記テキストを出力する手段を備えることを特徴とする同期信号の検出装置。