JP4070742B2 - オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置 - Google Patents

オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置 Download PDF

Info

Publication number
JP4070742B2
JP4070742B2 JP2004121995A JP2004121995A JP4070742B2 JP 4070742 B2 JP4070742 B2 JP 4070742B2 JP 2004121995 A JP2004121995 A JP 2004121995A JP 2004121995 A JP2004121995 A JP 2004121995A JP 4070742 B2 JP4070742 B2 JP 4070742B2
Authority
JP
Japan
Prior art keywords
synchronization signal
text
frame
embedded
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004121995A
Other languages
English (en)
Other versions
JP2004318162A (ja
Inventor
シン・スンウォン
リ・ウォンハ
キム・ナムフン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marktek Inc
DIGITAL FLOW Co Ltd
Original Assignee
Marktek Inc
DIGITAL FLOW Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020030024306A external-priority patent/KR100577558B1/ko
Application filed by Marktek Inc, DIGITAL FLOW Co Ltd filed Critical Marktek Inc
Publication of JP2004318162A publication Critical patent/JP2004318162A/ja
Application granted granted Critical
Publication of JP4070742B2 publication Critical patent/JP4070742B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、デジタル携帯用再生装置(portable digital playback device)において、デジタルオーディオファイルとそれに対応するテキストとの間の同期化方法及び装置に関する。
最近、コンピュータ技術の発展に応じて、コンピュータを使用してオーディオファイルを再生する技術が急速に発展している。これに従い、オーディオファイルを再生すると同時に、オーディオファイルの内容を視覚的に表示する機能が注目されている。例えば、歌謡に関するオーディオファイルを再生すると同時に、その歌詞を画面に表示する技術がこれに該当する。
図10を参照して、従来技術におけるオーディオファイルの再生時にファイルの内容を同時に表示する構成を説明する。
先ず、再生対象となるオーディオファイル、及びオーディオファイルの内容を保存しているテキストファイルが設けられる。図10は、従来のオーディオコンテンツの内容を保存するテキストファイルをテーブルの形態で再構成した図面である。図10において、テキストファイルには、オーディオファイルの内容だけでなく、そのオーディオファイルの内容を視覚的に表示する再生時点が保存されている。図10の例においては、圧縮された音声又は音楽ファイルが再生される間に、テキストを出力する時間を知らせる再生時点が1/1000秒単位で保存されている。
例えば、再生時点0000040msにおいて、オーディオファイルが再生され、そのオーディオファイルに対応する“この発明は、携帯用デジタル再生装置において”という文字列が所定のディスプレイを通じて視覚的に出力される。オーディオファイルが再生されるにつれて、再生時点0001055msにおいて、オーディオコンテンツの再生と同時に“音楽や音声ファイルを再生するうちに”という文字列が出力される。
即ち、オーディオファイルを再生させながら再生時点を監視し、再生時点がテーブルに表された出力文字列の再生時点と一致する場合、出力文字列が出力されるようにする。
前記のようなテキストファイルの構造は、動画像に字幕を出力するための、例えば、“.smiファイル”の構造と実質的に類似するものであり、コンピュータのように使用可能なリソースが十分に提供される場合に適した構造である。
しかし、上述の方法により、デジタルオーディオファイルとそれに対応するテキストをデジタル携帯用再生装置で同期化させる場合は、使用可能なリソースに限界がある。従って、デジタル携帯用再生装置において、オーディオファイルのms単位の再生時間を監視し、このような微細な再生時間に一致させてテキストを出力することは実際には不可能である。そのため、テキストファイルに再生時間及びテキストをテーブルの形式で保存し、テーブルの情報に基づいてテキストを出力する上述の方法は、デジタル携帯用再生装置においては適当でない。
また、従来のテキストを出力する方法においては、再生される時間によって任意にテキスト情報を液晶画面に出力するため、実際に再生される内容と液晶に出力される内容が一致しない問題点があった。
次に、デジタルオーディオファイルに同期信号を周波数変換等を通じて透かしとして埋め込む方法を検討する。一般的に、透かし技術は、著作物に対する著作権の保護、著作物の偽・変造の有無の判別等のために音源に一般人が認識できない著作物の情報を保存する技術を意味する。透かし技術は、著作物の実質的な音源にユーザが定義した情報を秘匿するために、信号処理攻撃、圧縮変換等にも強靭であり、悪意的な目的で除去し難い特徴を有する強靭な透かし(robust watermark)を使用するのが一般的である。
このような透かしは、データをデジタルコンテンツの音源に埋め込むため、秘匿した情報を再び検出するためには、非常に複雑な演算過程が行われなければならず、多くのメモリ容量と計算量が伴わなければならない。透かし技術を通常DPSで具現するためには、相当量のリソースを消耗するため、DSPを使用する携帯用MP3プレーヤーのような携帯用デジタル再生装置には使用し難い問題点がある。また、多くのリソースを消耗する付加的な機能は、携帯用再生装置の制限されたバッテリーの使用時間を考慮するとき好ましくない。特に、大部分のオーディオデータは、対象ファイルを圧縮するフォーマットからなっているため、通常の透かし技術は使用することができない。
圧縮されたデータに情報を秘匿する技術は、F.Petitcolasが提案したMP3 Stego(Computer Laboratory、Cambridge、August、1998)に開示されている。この技術は、音源を圧縮する過程中にデータを秘匿するため、高速埋込処理ができないとの問題点がある。
また、L. QiaとK. Nahrstedtが提案したNon−Invertible
Watermarking Methods For MPEG Encoded Audio(Security and watermarking of Multimedia Contents、January 1999)においては、MP3の音源を変質させる恐れが高く、秘匿可能な情報量に限界があるとの問題点がある。
また、D. K. KoukopoulosとY. C. Stamatiouが提案したA compressed−domain watermarking algorithm for MPEG Audio Layer3(ACM Multimedia 2001、September30-October5、Ottawa、Ontario、Canada)においては、高速抽出は可能であり得るが、高速埋込処理は不可能であるとの問題点がある。
本発明は、上述のような問題点を解決するために案出されたものであって、テキスト同期化が音質に与える影響を最小化し、オーディオファイルの再生時点とテキストの出力時点を一致させながら、高速埋込/処理が可能な、オーディオファイルとテキストを同期化させるようにオーディオファイルにテキスト及び同期信号を埋め込む同期信号の埋込方法を提供することをその目的とする。
さらに、本発明は、オーディオファイルの再生及びそれと同期化されるテキストの出力時に、オーディオファイル再生装置に過度なリソース消耗が発生しないようにする方法を提供することをその目的とする。
また、本発明は、同期信号が埋め込まれているオーディオファイルから同期信号を検出する同期信号の検出方法及び装置を提供することをその目的とする。
上述の目的を達成するために、本発明は、オーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第2の部分においてテキスト及び同期信号を埋め込んだ後にも音質に殆ど影響を与えない部分である第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルに同期信号を埋め込む方法において、フレームの第2の部分から前記フレームの第1の部分の大きさに関する情報を得るステップ;前記得られた情報に基づいて、前記フレームの第3の部分の開始位置及び大きさを判定するステップ;及び前記フレームの前記第3の部分に同期信号の少なくとも一部を埋め込むステップを含む同期信号の埋込方法を提供する。
ここで、前記第1の部分は前記オーディオコンテンツを含み、前記第2の部分は前記オーディオファイルのヘッダ情報及び副情報を含み、前記第3の部分は前記オーディオデータからオーディオファイルを再生する際に音質に影響を与えないか、最小限に与える部分である。また、前記第3の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含む。
また、前記同期信号は、前記フレームの前記第1の部分に対応するテキストの位置に関する情報を含むことができ、前記フレームの前記第3の部分に同期信号の少なくとも一部を埋め込むステップは、前記フレームの前記第3の部分へ同期信号を埋め込むか否かを決定するステップ;及び同期信号を埋め込まないものとの決定に応じて、前記フレームの前記第3の部分に前記フレームの前記第1の部分に対応するテキスト情報を埋め込むステップを含むこともできる。
また、前記フレームの前記第3の部分に同期信号の少なくとも一部を埋め込むステップは、前記第3の部分における同期信号の埋込空間と同期信号の大きさを比較し、前記第3の部分における前記同期信号の埋込空間が前記同期信号の大きさよりも小さい場合、前記同期信号の埋込空間と同じ大きさ分の前記同期信号の部分を前記第3の部分に埋め込むことが好ましい。
また、前記オーディオコンテンツは、前記テキストをTTS(Text−to−Speech)変換して生成されることもできる。
なお、本発明は、オーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第2の部分内に位置し、テキスト又は同期信号を埋め込むことができる第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルから同期信号を検出する方法において、前記第1の部分の大きさに関する情報に基づいて、前記第3の部分の開始位置と大きさに関する情報を抽出するステップ;前記第3の部分を分析して、同期信号の存在の有無を判定するステップ;及び同期信号が存在するものとの判定に応じて、前記第3の部分から同期信号の少なくとも一部を得るステップを含む同期信号の検出方法を提供する。
ここで、前記第1の部分は前記オーディオコンテンツを含み、 前記第2の部分は前記オーディオファイルのヘッダ情報を含み、前記第3の部分は前記オーディオファイルのオーディオコンテンツの再生に使用されない部分である。また、前記第3の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含む。
また、同期信号が存在しないものとの判定に応じて、前記第3の部分からテキスト情報を抽出するステップをさらに含むこともでき、同期信号の内容を分析した後、前記分析に基づいて、対応するテキストの位置を選択するステップをさらに含むこともできる。
また、前記第3の部分から得られた同期信号の少なくとも一部が同期信号と同一でない場合は、前記同期信号の少なくとも一部を後続するフレームの同期信号の少なくとも一部と結合させるステップをさらに含むことが好ましい。
なお、本発明は、オーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第2の部分内に位置し、テキスト又は同期信号を埋め込むことができる第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルから同期信号を検出する装置において、前記第1の部分の大きさに関する情報に基づいて、前記第3の部分の開始位置と大きさに関する情報を抽出し、前記第3の部分を分析して、同期信号の存在の有無を判定する同期信号の存在の有無の判定部;及び同期信号が存在するものとの判定に応じて、前記第3の部分から同期信号の少なくとも一部を得る同期信号の獲得部を備える同期信号の検出装置を提供する。
本発明は、デジタル携帯用再生装置にテキスト同期化装置を添加することにより、音楽ファイル又は音声ファイルを再生し、自動に再生される音楽の歌詞又は音声内容を液晶に表示できる機能を提供する。
本発明は、圧縮されたファイルが再生される間に、音楽ファイルに秘匿されている同期信号を実時間で検出して、コンテンツファイルの現在再生される時点と同期を合わせて液晶画面にディスプレイする。従って、ユーザは、再生装置の液晶画面を通じて現在再生される内容を確認することが可能となる。また、テキスト情報とテキストが出力されるべき時点までの全ての情報をデジタルコンテンツに秘匿することにより、ユーザが付加的にテキストファイルやその他の情報を別途に保存しなくてもよい。
特に、本発明は、一般の音楽の歌詞を始め、外国語学習のための教材内容まで包括的に活用することができ、語学学習用デジタル携帯用再生装置に極めて効果的に用いられ得る。
以下、添付図面を参照し、本発明の好ましい実施例についてより具体的に説明すると、次のとおりである。
図1は、デジタル携帯用再生装置において、オーディオファイルとそれに対応するテキストを同期化させるための全体的な過程を示す概念図である。
図1を参照すると、先ず、オーディオファイル103とそれに対応するテキスト101がテキスト同期化装置105に入力される。入力された情報を用いて、テキスト同期化装置105においては、ユーザから各歌詞が出力されるべき時点が直接入力される。ユーザから入力された情報は、それぞれ出力しようとするテキストと再生時間が連結された情報で構成され得る。テキスト同期化装置105は、本発明による同期信号の埋込方法により、オーディオファイル103の所定の位置に対応するテキスト出力のためのテキストの位置を示す情報を埋め込む。マネージャプログラム107においては、テキスト同期化装置105から同期化されたMP3ファイル及びテキストが転送され、これを携帯用再生装置109にダウンロードする。
その後、携帯用再生装置109でオーディオファイル103を再生する場合、オーディオファイル再生中に同期信号が検出されれば、その同期信号を分析し、同期信号に応じてテキストデータを検出し、検出された文字列を携帯用再生装置109のディスプレイ手段により出力するようになる。
以下、本発明の実施例においては、音楽ファイルのフォーマットをMP3を例に挙げて説明するが、WMA、AAC及びAC3等、他のオーディオファイルフォーマットにより保存された音楽ファイルの場合も、本発明による同期信号の埋込方法を適用又は応用できることは当業者にとって自明である。
図2は、MP3フレームの構造を示す図面である。図2を参照してMP3フレームの構造を説明すると、MP3オーディオファイルは、複数のフレームの連続で構成され、各フレームは、12ビットの同期ビットで構成されたヘッダ201、副情報(side information)203、メインデータ205及びスタッフィング空間207とで構成される。
ヘッダ201及び副情報203には、同期(sync)を含めフレームの構成等に関する全般的な情報が保存されている。メインデータ205には、ハフマン・コーディング(Huffman Coding)方式によりオーディオコンテンツが無損失圧縮されて保存される。
無損失圧縮されたメインデータ205は、バイト単位で保存されるようになり、ハフマン・コーディングの結果、オーディオコンテンツの内容が全く含まれていない余剰ビットが発生するようになる。
この余剰ビットをスタッフィングビット(stuffing bit)とし、このスタッフィングビットを使用すると、音質に全く影響を与えることなくテキストデータを埋め込むことができる。しかし、スタッフィングビットは、圧縮方式によりその大きさに多少差があるが、テキストデータをMP3に全て含め得る程度に十分ではないため、スタッフィングビットのみではテキスト情報を埋め込むことができない。
従って、メインデータ205を分析し、音質に影響を最小限に与えるデータ領域を検索してテキストの秘匿空間として追加的に活用することが好ましい。音質に最小限の影響を与える空間は、メインデータ205のうち高周波帯域を表現する領域であって、このデータ領域にテキストデータを埋め込むことができる。このように、メインデータにおいて音質に影響を殆ど与えないオーディオ信号から高周波帯域信号を表現する部分を透かし空間207とし、前記透かし空間207を用いてデータを埋め込む。
以下でより詳しく説明するように、本発明においては、このようなフレームの構造的な特性を用いて透かし空間に同期信号を埋め込むことになる。
図3は、本発明の第1の実施例による同期信号の埋込過程を示すフローチャートである。図3を参照すると、先ず、再生すべきMP3オーディオファイルが選択されると、これをフレーム単位に分割する(S301)。
分割された各フレームに対してフレームの分析が行われる(S303)。フレームの分析は、ヘッダ201と副情報203を分析して、メインデータ205の開始位置とその大きさに関する情報を得る。その後、メインデータ205の大きさに関する情報に基づいて、透かし空間207の大きさ及び位置が得られる。透かし空間207は、フレームに残る余剰ビットと高周波信号を表現する領域のうちデータの変更が可能な領域になる。
その後、該当フレームに同期信号が埋め込まれるべきか否かが判定される(S311)。同期信号を埋め込むか否かは、ユーザから予め入力された情報により判定されることもある。例えば、ユーザは、オーディオファイルを再生しながら、どの時点でテキストのど
の部分を出力すべきかをテキスト同期化装置の所定の入力装置を通じて直接入力することができる。また、後述するTTS方式による場合のように、自動的に判定されることもある。同期信号が埋め込まれなければならない場合は、透かし空間に同期信号を埋め込むことになる(S313)。同期信号の大きさは、一般的に透かし空間のビット数よりも大きいため、一つの同期信号全てを一つの透かし空間に埋め込むのではなく、同期信号の少なくとも一部を一つの透かし空間に埋め込む。複数個の透かし空間に一つの同期信号を埋め込むこともできる。例示的な実施例において、透かし空間は、同期信号の存在を示す部分、及び同期信号の内容としてテキストの位置及び出力されるテキストの文字数を示す部分を含む。同期信号のうちの何ビットを該当フレームに埋め込むかは、与えられた透かし空間が何ビットであるかによって決定される。
上述した過程を各フレームに対して繰返すことにより、フレームで構成されたオーディオファイルに同期信号を埋め込むことになる。
従って、上述した構成を通じて、オーディオファイルとテキストを同期化させるように同期信号をオーディオファイルに埋め込む同期信号を提供することにより、オーディオファイルの再生及びそれと同期化されるテキストの出力時に、オーディオファイル再生装置において過度なリソース消耗が発生しなくなる。
次に、図4及び図5を参照し、本発明の第2の実施例について説明する。図4は、本発明の第2の実施例による同期信号の埋込過程を示すフローチャートである。
図4に示してはいないが、図3のS301乃至S309のステップが、図4のS411のステップ以前に同一に存在するが、図示及び説明の便宜上、省略する。
先ず、同期信号が埋め込まれる必要があるか否かが判定される(S411)。
同期信号が埋め込まれる必要がない場合、透かし空間にテキストを埋め込む(S415)。テキスト文字列の長さは、一般的に透かし空間のビット数よりも大きいため、与えられたテキスト文字列の全てを一つの透かし空間に埋め込むのではなく、テキスト文字列の少なくとも一部を一つの透かし空間に埋め込む。即ち、複数の透かし空間に一つのテキスト文字列を埋め込む。
図5は、本発明の第2の実施例による同期信号が埋め込まれたオーディオファイルをフレーム単位で示す概略図である。図5において、オーディオファイルをフレーム単位で区画して概略的に示した。各フレームに対し、テキスト情報埋込に該当するフレームにおいてはテキスト情報を含んでおり、テキスト出力時点に該当するフレームにおいては同期信号を含んでいる。テキスト情報の埋込に該当するフレームにおいてもスタッフィング空間に何らの情報も埋め込まれない場合があり、これは、上述のとおり、待機領域を意味する。同期信号が含まれているフレームの再生時点が、それ以前のフレームに埋め込まれたテキストを出力する時点になるように、先ず、出力すべきテキスト情報を一つ以上のフレームに埋め込む。出力すべきテキスト情報を全て埋め込んだ後は、同期信号を埋め込むまで待機状態にあることになる。待機状態においては、フレームに別途の情報を埋め込まず、各フレームに存在するスタッフィングビットを全て‘0’に初期化する。その後、現在のフレームの位置がテキストを出力すべき時間情報と一致すると、同期信号を埋め込む。
再度図4に戻って、同期信号が埋め込まれなければならない場合、透かし空間に同期信号を埋め込むことになる(S413)。図3を参照して上述したとおり、同期信号の大きさは、一般的に透かし空間のビット数よりも大きいため、一つの同期信号の全てを一つの透かし空間に埋め込むこともできるが、同期信号の少なくとも一部を一つの透かし空間に埋
め込むこともできる。即ち、複数個の透かし空間に一つの同期信号を埋め込むこともできる。透かし空間に埋め込まれる同期信号は、同期信号の存在を示す部分のみを含むことで十分である。オーディオファイルの再生時において、同期信号が検出されたフレームの以前のフレームの透かし空間に保存された情報が、テキスト情報の一部であるため、これらを組み合わせると、同期信号の存在を検出する時、ディスプレイに出力するテキストが得られるためである。
上述した過程を各フレームに対して繰り返すことにより、フレームで構成されたオーディオファイルに同期信号及びオーディオコンテンツに対応するテキストを埋め込むことになる。
一方、本発明によるオーディオファイルと歌詞テキストを同期化させる過程は、
TTSエンジンを用いて生成されたものであり得る。図6は、TTS技術により生成された音声ファイルとテキストとを同期化させる過程を示す概念図である。
TTSは、テキストを音声合成して音声ファイルにする技術であり、テキスト文字をオーディオファイルに変換するにおいて、TTSエンジン603は、各国の言語に対する最小発音単位で音素DBを構築した後、テキスト文字の前後の脈絡を考慮して検索された音素DBを合成して音声信号を生成する。図1を参照して上述した本発明の構成においては、ユーザからオーディオファイルと同期化させるためのテキストの位置が直接入力されなければならないが、TTSによる音声合成の場合は、音声ファイルの生成と同時にそれに対応するテキストファイルにおけるテキストの位置が自動的に把握されるため、別途のユーザ入力過程は不要である。
以下、本発明による同期信号の検出過程を説明する。
図7は、本発明による同期信号の検出過程を概略的に説明する概略図である。
MP3オーディオファイルはメモリに保存されている。MP3オーディオファイルに対する再生命令に応じて、メモリからMP3オーディオファイルの情報が読み取られる(S701)。読み取られたMP3オーディオファイルは、MP3ストリームの形式でフレーム分析のために提供される。
その後、MP3ストリームの形式で伝送されたオーディオファイルをフレーム単位に分割する(S703)。
その後、各フレームについて、ヘッダ及び副情報を用いてオーディオコンテンツの大きさを抽出する。オーディオコンテンツの大きさに基づいて、フレームで圧縮されたオーディオデータを分析し、最適の高周波帯域信号を示す値の位置とスタッフィングビットの位置を把握することができる。その後、透かし情報が埋め込まれている場合は、検出された情報と情報のビットの大きさを同期信号及びテキスト構成機に転送する。
その後、検出された同期信号の内容を分析し、同期信号及びテキストを構成することになる(S707)。前記第1の実施例の場合は、同期信号が表示しているテキストファイルにおけるテキストの位置及び表示すべき文字列の長さを決定し、該当文字列の部分をテキストファイルから読み取る。一方、テキストがMP3オーディオファイルに含まれている前記第2の実施例の場合は、同期信号が存在しない場合に、透かし空間のビット内容を読み取り、これを別途のメモリ空間に連続的に保存し、同期信号の存在が検出される場合に、メモリ空間に保存された内容をテキストとして出力することになる。テキストとして出力されてからは、前記内容はメモリ空間から除去される。その後、テキストで構成され
た文字列はLCDへの出力のために提供される。
その後、LCDコントローラ(図示しない)は、LCDに現在出力されている文字列を消し、新たな文字列を出力するようにLCDを制御する(S709)。この場合、LCDに同時に出力可能な文字列よりも長いテキストを出力しなければならない場合は、自動的に文字列が右側から左側にスクロールされるようにすることができ、このようなスクロール過程は当業者であれば誰にも分かる。
図7の同期信号の検出装置は、図8及び図9のように、デジタル携帯用再生装置で具現することができる。DSPで具現されるのが一般的であるが、テキスト同期化作業は、MICOMで全ての外部装置を制御しているため、MICOMにリソースが十分に残っていれば、図8のようにMICOMで具現することが有利である。本発明で提案した方法で同期化を具現する場合に、所要される処理速度とメモリが非常に小さいため、MICOMで処理しても十分に可能である。
図8は、本発明によるテキスト同期化のための同期信号の検出装置を携帯用デジタル再生装置のDSPで具現する場合の内部構成図であり、図9は、携帯用デジタル再生装置のDSPで具現する場合の内部構成図である。
図8及び図9は、一般的な再生装置の内部構成図であり、ユーザが再生ボタンを押したとき、MICOMにおいては生成するファイル名を持ってくる。再生するファイル名を持ってきた後は、そのファイルのデータを読み取ってバッファに伝達し、DSPにおいては、バッファにある圧縮されたデータを復号化してスピーカを通じて音楽を聞かせることになる。
この過程に歌詞や再生されるファイルの音声情報を液晶に表出する本発明を埋め込むと、全体構造が次のように変更される。MICOMにおいて再生するファイルを持ってくる過程は同一である。再生するファイルを持ってきた後に、再生ファイルから読み取ったデータをバッファに伝達し、伝達したデータに同期信号があるか否かを同期信号の検出器で探すことになる。このとき、同期信号の検出器で同期信号を見つけると、MICOMのコントローラで同期信号を見つけたことと、その見つけた同期信号の内容が何であるかを知らせることになる。MICOMのLCDコントローラにおいては、液晶画面に同期信号の検出器から知らせてきた情報を送り出すことになる。
図8及び図9の相違点は、同期信号の検出器が内部のどこに位置しているのかのみが異なるが、これは、携帯用再生装置の構造的な特性に合わせていかなる形態を取っても、全体的な実行手続きは同一に動作される。
本発明を特定のアプリケーションに関する特定の実施例を参照して説明した。当業界の通常の知識を有し、本教示に接近する者は、その範囲内の付加的な変形、アプリケーション及び実施例が分かるものである。
従って、添付の請求の範囲は、本発明の思想内のこのような任意の、かつ全ての応用、変形及び実施例をカバーすることを意図している。
デジタル携帯用再生装置において、オーディオファイルとそれに対応するテキストを同期化させるための全体的な過程を示す概念図である。 MP3フレームの構造を示す図である。 本発明の第1の実施例による同期信号の埋込過程を示すフローチャートである。 本発明の第2の実施例による同期信号の埋込過程を示すフローチャートである。 本発明の第2の実施例による同期信号が埋め込まれたオーディオファイルをフレーム単位で示す概略図である。 TTS技術により生成された音声ファイルとテキストを同期化させる過程を示す概念図である。 本発明による同期信号の検出過程を概略的に説明する概略図である。 本発明によるテキスト同期化のための同期信号の検出装置を携帯用デジタル再生装置のDSPで具現する場合の内部構成図である。 携帯用デジタル再生装置のDSPで具現する場合の内部構成図である。 従来のオーディオコンテンツの内容を保存するテキストファイルをテーブルの形態で再構成した図面である。
符号の説明
101 テキスト、103 オーディオファイル、105 テキスト同期化装置、107 マネージャプログラム、109 携帯用保存装置、201 ヘッダ、203 副情報、205 メインデータ、207 透かし空間

Claims (14)

  1. 処理装置を用いて、オーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第1の部分内に位置する第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルに、前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま同期信号を埋め込む方法において、
    前記処理装置が各フレームの第2の部分から前記フレームの第1の部分の大きさに関する情報を得るステップ;
    前記処理装置が、前記得られた情報に基づいてハフマン・コーディング方式によりスタッフィングビットが配置される領域を算出するとともに、前記オーディオコンテンツの内容を分析して高周波帯域を表現する領域を算出することで、前記第3の部分の開始位置及び大きさを判定するステップ;
    前記処理装置が、少なくとも1つの前記フレームの前記第3の部分に前記テキストを埋め込むステップ;及び
    前記処理装置が、前記テキストを埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第3の部分に、それ以前のフレームに埋め込まれた前記テキストを同期して出力するための前記同期信号を埋め込むステップを含むことを特徴とする同期信号の埋込方法。
  2. 前記第1の部分は前記オーディオコンテンツを含み、
    前記第2の部分は前記オーディオファイルのヘッダ情報を含み、
    前記第3の部分は前記第1の部分の一部の領域であることを特徴とする請求項1に記載の同期信号の埋込方法。
  3. 前記第3の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含むことを特徴とする請求項1に記載の同期信号の埋込方法。
  4. 前記同期信号は、前記フレームの前記第1の部分に対応するテキストの位置に関する情報を含むことを特徴とする請求項1に記載の同期信号の埋込方法。
  5. 前記埋込方法は、前記フレームの前記第3の部分に同期信号を埋め込むか否かを決定するステップをさらに含み、
    前記テキストを埋め込むステップは、同期信号を埋め込まないものとの決定に応じて、前記テキストを埋め込むことを特徴とする請求項1に記載の同期信号の埋込方法。
  6. 前記同期信号を埋め込むステップは、前記第3の部分が前記同期信号を埋め込むのに十分でないときに、前記同期信号の一部を前記フレームに埋め込むとともに、前記同期信号の残部を後続するフレームに埋め込むことを特徴とする請求項1乃至5のいずれか1項に記載の同期信号の埋込方法。
  7. 前記オーディオコンテンツは、前記テキストをTTS(Text-to-Speech)変換して生成されることを特徴とする請求項1に記載の同期信号の埋込方法。
  8. 処理装置を用いて、ハフマン・コーディングされたオーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第1の部分内に位置する第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルから前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま埋め込まれた同期信号を検出する方法において、
    前記複数のフレームの少なくとも1つのフレームの前記第3の部分には前記テキストが埋め込まれるとともに、前記テキストが埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第3の部分にはそれ以前のフレームに埋め込まれた前記テキストを同期して出力するための同期信号が埋め込まれており、
    前記検出方法は、
    前記処理装置が、各フレームの前記第1の部分の大きさに関する情報に基づいて、前記オーディオコンテンツの内容を分析して、高周波帯域を表現する領域の位置およびスタッフィングビットの位置を取得するステップ;
    前記高周波帯域を表現する領域の位置および前記スタッフィングビットの位置に基づいて得られる前記第3の部分において、情報の存在の有無を判定するステップ;
    前記第3の部分において前記情報が存在するものとの判定に応じて、前記情報が前記同期信号であるかを判定するステップ;
    前記情報が前記同期信号であるとの判定に応じて、前記第3の部分から前記同期信号を得るステップ;及び
    得られた前記同期信号に基づいて、それ以前のフレームに埋め込まれていた前記テキストを出力するステップを含むことを特徴とする同期信号の検出方法。
  9. 前記第1の部分は前記オーディオコンテンツを含み、
    前記第2の部分は前記オーディオファイルのヘッダ情報を含み、
    前記第3の部分は前記オーディオファイルのオーディオコンテンツの再生に使用されない部分であることを特徴とする請求項8に記載の同期信号の検出方法。
  10. 前記第3の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含むことを特徴とする請求項8に記載の同期信号の検出方法。
  11. 同期信号が存在しないものとの判定に応じて、前記第3の部分から前記テキストを抽出するステップをさらに含むことを特徴とする請求項8に記載の同期信号の検出方法。
  12. 同期信号の内容に基づいて、それ以前のフレームに埋め込まれた前記テキストのうち出力すべきテキストを構成するステップをさらに含むことを特徴とする請求項8に記載の同期信号の検出方法。
  13. 前記フレームに同期信号の一部が埋め込まれている場合には、当該同期信号の一部と、後続するフレームに埋め込まれた前記同期信号の残部とを結合するステップをさらに含むことを特徴とする請求項8乃至12のいずれか1項に記載の同期信号の検出方法。
  14. ハフマン・コーディングされたオーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第1の部分内に位置する第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルから前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま埋め込まれた同期信号を検出する装置において、
    前記複数のフレームの少なくとも1つのフレームの前記第3の部分には前記テキストが埋め込まれるとともに、前記テキストが埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第3の部分には先行するそれ以前のフレームに埋め込まれた前記テキストを同期して出力するための同期信号が埋め込まれており、
    前記装置は、
    各フレームの前記第1の部分の大きさに関する情報に基づいて、前記オーディオコンテンツの内容を分析して、高周波帯域を表現する領域の位置およびスタッフィングビットの位置を取得する手段;
    前記高周波帯域を表現する領域の位置および前記スタッフィングビットの位置に基づいて得られる前記第3の部分において、情報の存在の有無を判定する手段;
    前記第3の部分において前記情報が存在するものとの判定に応じて、前記情報が前記同期信号であるかを判定する手段;
    前記情報が前記同期信号であるとの判定に応じて、前記第3の部分から前記同期信号を得る手段及び
    得られた前記同期信号に基づいて、それ以前のフレームに埋め込まれていた前記テキストを出力する手段を備えることを特徴とする同期信号の検出装置。
JP2004121995A 2003-04-17 2004-04-16 オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置 Expired - Lifetime JP4070742B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030024306A KR100577558B1 (ko) 2003-03-15 2003-04-17 오디오 컨텐츠와 텍스트를 동기화시키는 동기신호삽입/검출 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2004318162A JP2004318162A (ja) 2004-11-11
JP4070742B2 true JP4070742B2 (ja) 2008-04-02

Family

ID=33475973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004121995A Expired - Lifetime JP4070742B2 (ja) 2003-04-17 2004-04-16 オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置

Country Status (2)

Country Link
US (1) US20040249862A1 (ja)
JP (1) JP4070742B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8230094B1 (en) * 2003-04-29 2012-07-24 Aol Inc. Media file format, system, and method
KR100615626B1 (ko) * 2004-05-22 2006-08-25 (주)디지탈플로우 음원과 가사를 하나의 파일로 제공하는 멀티미디어 음악컨텐츠 서비스 방법 및 시스템
JP2007127861A (ja) * 2005-11-04 2007-05-24 Kddi Corp 付属情報埋め込み装置および再生装置
CN100444106C (zh) * 2005-11-25 2008-12-17 北京中星微电子有限公司 在可变比特率格式的mp3文件中实现定位的方法
CN101346741A (zh) * 2005-12-22 2009-01-14 皇家飞利浦电子股份有限公司 通过嵌入水印实现脚本同步
US8326609B2 (en) * 2006-06-29 2012-12-04 Lg Electronics Inc. Method and apparatus for an audio signal processing
JP2008225232A (ja) * 2007-03-14 2008-09-25 Crimson Technology Inc 信号処理方法および音声コンテンツ配信方法
KR20090047159A (ko) * 2007-11-07 2009-05-12 삼성전자주식회사 오디오-북 재생 방법 및 장치
US8143508B2 (en) * 2008-08-29 2012-03-27 At&T Intellectual Property I, L.P. System for providing lyrics with streaming music
EP2362383A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Watermark decoder and method for providing binary message data
CN102402509B (zh) * 2010-09-07 2017-01-18 无锡中感微电子股份有限公司 一种变码率音频文件的寻址方法和装置
US20130080384A1 (en) * 2011-09-23 2013-03-28 Howard BRIGGS Systems and methods for extracting and processing intelligent structured data from media files
US9118867B2 (en) * 2012-05-30 2015-08-25 John M. McCary Digital radio producing, broadcasting and receiving songs with lyrics
CN116778935A (zh) * 2023-08-09 2023-09-19 北京百度网讯科技有限公司 水印生成、信息处理、音频水印生成模型训练方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2353927B (en) * 1999-09-06 2004-02-11 Nokia Mobile Phones Ltd User interface for text to speech conversion
US20010015917A1 (en) * 1999-12-31 2001-08-23 Heo Jung-Kwon Recording medium having data recorded in data structure capable of editing additional data related to audio data, method and apparatus of recording and/or reproducing thereof
US6442517B1 (en) * 2000-02-18 2002-08-27 First International Digital, Inc. Methods and system for encoding an audio sequence with synchronized data and outputting the same
US20020165720A1 (en) * 2001-03-02 2002-11-07 Johnson Timothy M. Methods and system for encoding and decoding a media sequence
AU2002306173A1 (en) * 2001-06-18 2003-01-02 First International Digital, Inc Enhanced encoder for synchronizing multimedia files into an audio bit stream

Also Published As

Publication number Publication date
JP2004318162A (ja) 2004-11-11
US20040249862A1 (en) 2004-12-09

Similar Documents

Publication Publication Date Title
JP4070742B2 (ja) オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020113733A1 (zh) 动画生成方法、装置、电子设备及计算机可读存储介质
JP2007537483A (ja) マルチメディア音楽コンテンツのサービス方法及びシステム
JP2011030224A (ja) マルチメディア字幕表示システム及びマルチメディア字幕表示方法
JP5050445B2 (ja) 動画再生装置及び動画再生方法
WO2019039196A1 (ja) 画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造
KR100577558B1 (ko) 오디오 컨텐츠와 텍스트를 동기화시키는 동기신호삽입/검출 방법 및 장치
JP5371574B2 (ja) 背景映像中の顔画像を避けるように歌詞字幕を表示するカラオケ装置
KR100670443B1 (ko) 음악/이미지 동조용 데이터 파일이 기록된 컴퓨터로 읽을수 있는 기록매체 및 이미지 데이터 샘플을 오디오 파일에삽입하는 방법
JP2007199574A (ja) 楽曲再生装置、楽曲テロップ検索サーバ
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法
JP4277512B2 (ja) 電子機器及びプログラム
JP2005122664A (ja) オーディオデータ記録装置、オーディオデータ再生装置、及びオーディオデータ記録再生装置、並びにオーディオデータ記録方法、オーディオデータ再生方法及びオーディオデータ記録再生方法
JP4407119B2 (ja) 命令コード作成装置
JP2006050045A (ja) 動画像データ編集装置及び動画像データ編集方法
KR100745250B1 (ko) 오디오/비디오 동기용 멀티미디어 파일 작성 프로그램을기록한 컴퓨터로 읽을 수 있는 기록매체 및 오디오/비디오동조화 장치
JP3846416B2 (ja) 再生制御装置および再生制御処理プログラム
US20240112691A1 (en) Synthesizing audio for synchronous communication
JP4570026B2 (ja) 電子透かしの埋め込み方法
JP2005250242A (ja) 情報処理装置、情報処理方法、情報処理用プログラム、及び記録媒体
KR100693658B1 (ko) 휴대용 어학학습 장치 및 방법
JP2013162370A (ja) 画像音声処理装置及び画像音声処理プログラム
JP2012039391A (ja) 再生装置及び方法、並びにプログラム
JP2005062481A (ja) 楽音発生装置及びそのプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070511

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4070742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110125

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120125

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130125

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140125

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term