JP4070742B2 - オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置 - Google Patents
オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置 Download PDFInfo
- Publication number
- JP4070742B2 JP4070742B2 JP2004121995A JP2004121995A JP4070742B2 JP 4070742 B2 JP4070742 B2 JP 4070742B2 JP 2004121995 A JP2004121995 A JP 2004121995A JP 2004121995 A JP2004121995 A JP 2004121995A JP 4070742 B2 JP4070742 B2 JP 4070742B2
- Authority
- JP
- Japan
- Prior art keywords
- synchronization signal
- text
- frame
- embedded
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 230000001360 synchronised effect Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 239000004973 liquid crystal related substance Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
先ず、再生対象となるオーディオファイル、及びオーディオファイルの内容を保存しているテキストファイルが設けられる。図10は、従来のオーディオコンテンツの内容を保存するテキストファイルをテーブルの形態で再構成した図面である。図10において、テキストファイルには、オーディオファイルの内容だけでなく、そのオーディオファイルの内容を視覚的に表示する再生時点が保存されている。図10の例においては、圧縮された音声又は音楽ファイルが再生される間に、テキストを出力する時間を知らせる再生時点が1/1000秒単位で保存されている。
前記のようなテキストファイルの構造は、動画像に字幕を出力するための、例えば、“.smiファイル”の構造と実質的に類似するものであり、コンピュータのように使用可能なリソースが十分に提供される場合に適した構造である。
Watermarking Methods For MPEG Encoded Audio(Security and watermarking of Multimedia Contents、January 1999)においては、MP3の音源を変質させる恐れが高く、秘匿可能な情報量に限界があるとの問題点がある。
の部分を出力すべきかをテキスト同期化装置の所定の入力装置を通じて直接入力することができる。また、後述するTTS方式による場合のように、自動的に判定されることもある。同期信号が埋め込まれなければならない場合は、透かし空間に同期信号を埋め込むことになる(S313)。同期信号の大きさは、一般的に透かし空間のビット数よりも大きいため、一つの同期信号全てを一つの透かし空間に埋め込むのではなく、同期信号の少なくとも一部を一つの透かし空間に埋め込む。複数個の透かし空間に一つの同期信号を埋め込むこともできる。例示的な実施例において、透かし空間は、同期信号の存在を示す部分、及び同期信号の内容としてテキストの位置及び出力されるテキストの文字数を示す部分を含む。同期信号のうちの何ビットを該当フレームに埋め込むかは、与えられた透かし空間が何ビットであるかによって決定される。
め込むこともできる。即ち、複数個の透かし空間に一つの同期信号を埋め込むこともできる。透かし空間に埋め込まれる同期信号は、同期信号の存在を示す部分のみを含むことで十分である。オーディオファイルの再生時において、同期信号が検出されたフレームの以前のフレームの透かし空間に保存された情報が、テキスト情報の一部であるため、これらを組み合わせると、同期信号の存在を検出する時、ディスプレイに出力するテキストが得られるためである。
TTSエンジンを用いて生成されたものであり得る。図6は、TTS技術により生成された音声ファイルとテキストとを同期化させる過程を示す概念図である。
た文字列はLCDへの出力のために提供される。
Claims (14)
- 処理装置を用いて、オーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第1の部分内に位置する第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルに、前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま同期信号を埋め込む方法において、
前記処理装置が各フレームの第2の部分から前記フレームの第1の部分の大きさに関する情報を得るステップ;
前記処理装置が、前記得られた情報に基づいてハフマン・コーディング方式によりスタッフィングビットが配置される領域を算出するとともに、前記オーディオコンテンツの内容を分析して高周波帯域を表現する領域を算出することで、前記第3の部分の開始位置及び大きさを判定するステップ;
前記処理装置が、少なくとも1つの前記フレームの前記第3の部分に前記テキストを埋め込むステップ;及び
前記処理装置が、前記テキストを埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第3の部分に、それ以前のフレームに埋め込まれた前記テキストを同期して出力するための前記同期信号を埋め込むステップを含むことを特徴とする同期信号の埋込方法。 - 前記第1の部分は前記オーディオコンテンツを含み、
前記第2の部分は前記オーディオファイルのヘッダ情報を含み、
前記第3の部分は前記第1の部分の一部の領域であることを特徴とする請求項1に記載の同期信号の埋込方法。 - 前記第3の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含むことを特徴とする請求項1に記載の同期信号の埋込方法。
- 前記同期信号は、前記フレームの前記第1の部分に対応するテキストの位置に関する情報を含むことを特徴とする請求項1に記載の同期信号の埋込方法。
- 前記埋込方法は、前記フレームの前記第3の部分に同期信号を埋め込むか否かを決定するステップをさらに含み、
前記テキストを埋め込むステップは、同期信号を埋め込まないものとの決定に応じて、前記テキストを埋め込むことを特徴とする請求項1に記載の同期信号の埋込方法。 - 前記同期信号を埋め込むステップは、前記第3の部分が前記同期信号を埋め込むのに十分でないときに、前記同期信号の一部を前記フレームに埋め込むとともに、前記同期信号の残部を後続するフレームに埋め込むことを特徴とする請求項1乃至5のいずれか1項に記載の同期信号の埋込方法。
- 前記オーディオコンテンツは、前記テキストをTTS(Text-to-Speech)変換して生成されることを特徴とする請求項1に記載の同期信号の埋込方法。
- 処理装置を用いて、ハフマン・コーディングされたオーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第1の部分内に位置する第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルから前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま埋め込まれた同期信号を検出する方法において、
前記複数のフレームの少なくとも1つのフレームの前記第3の部分には前記テキストが埋め込まれるとともに、前記テキストが埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第3の部分にはそれ以前のフレームに埋め込まれた前記テキストを同期して出力するための同期信号が埋め込まれており、
前記検出方法は、
前記処理装置が、各フレームの前記第1の部分の大きさに関する情報に基づいて、前記オーディオコンテンツの内容を分析して、高周波帯域を表現する領域の位置およびスタッフィングビットの位置を取得するステップ;
前記高周波帯域を表現する領域の位置および前記スタッフィングビットの位置に基づいて得られる前記第3の部分において、情報の存在の有無を判定するステップ;
前記第3の部分において前記情報が存在するものとの判定に応じて、前記情報が前記同期信号であるかを判定するステップ;
前記情報が前記同期信号であるとの判定に応じて、前記第3の部分から前記同期信号を得るステップ;及び
得られた前記同期信号に基づいて、それ以前のフレームに埋め込まれていた前記テキストを出力するステップを含むことを特徴とする同期信号の検出方法。 - 前記第1の部分は前記オーディオコンテンツを含み、
前記第2の部分は前記オーディオファイルのヘッダ情報を含み、
前記第3の部分は前記オーディオファイルのオーディオコンテンツの再生に使用されない部分であることを特徴とする請求項8に記載の同期信号の検出方法。 - 前記第3の部分は、同期信号の存在の有無を示す領域及び前記同期信号の内容を示す領域を含むことを特徴とする請求項8に記載の同期信号の検出方法。
- 同期信号が存在しないものとの判定に応じて、前記第3の部分から前記テキストを抽出するステップをさらに含むことを特徴とする請求項8に記載の同期信号の検出方法。
- 同期信号の内容に基づいて、それ以前のフレームに埋め込まれた前記テキストのうち出力すべきテキストを構成するステップをさらに含むことを特徴とする請求項8に記載の同期信号の検出方法。
- 前記フレームに同期信号の一部が埋め込まれている場合には、当該同期信号の一部と、後続するフレームに埋め込まれた前記同期信号の残部とを結合するステップをさらに含むことを特徴とする請求項8乃至12のいずれか1項に記載の同期信号の検出方法。
- ハフマン・コーディングされたオーディオコンテンツが保存された第1の部分、少なくとも前記第1の部分の大きさに関する情報を含む第2の部分、及び前記第1の部分内に位置する第3の部分をそれぞれ有する複数のフレームを含むオーディオファイルから前記オーディオコンテンツとテキストとを同期化させることができるように、各フレームのビット数を維持したまま埋め込まれた同期信号を検出する装置において、
前記複数のフレームの少なくとも1つのフレームの前記第3の部分には前記テキストが埋め込まれるとともに、前記テキストが埋め込まれたフレームに後続し、かつ前記テキストを出力すべき時点に対応するフレームの前記第3の部分には先行するそれ以前のフレームに埋め込まれた前記テキストを同期して出力するための同期信号が埋め込まれており、
前記装置は、
各フレームの前記第1の部分の大きさに関する情報に基づいて、前記オーディオコンテンツの内容を分析して、高周波帯域を表現する領域の位置およびスタッフィングビットの位置を取得する手段;
前記高周波帯域を表現する領域の位置および前記スタッフィングビットの位置に基づいて得られる前記第3の部分において、情報の存在の有無を判定する手段;
前記第3の部分において前記情報が存在するものとの判定に応じて、前記情報が前記同期信号であるかを判定する手段;
前記情報が前記同期信号であるとの判定に応じて、前記第3の部分から前記同期信号を得る手段;及び
得られた前記同期信号に基づいて、それ以前のフレームに埋め込まれていた前記テキストを出力する手段を備えることを特徴とする同期信号の検出装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030024306A KR100577558B1 (ko) | 2003-03-15 | 2003-04-17 | 오디오 컨텐츠와 텍스트를 동기화시키는 동기신호삽입/검출 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004318162A JP2004318162A (ja) | 2004-11-11 |
JP4070742B2 true JP4070742B2 (ja) | 2008-04-02 |
Family
ID=33475973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004121995A Expired - Lifetime JP4070742B2 (ja) | 2003-04-17 | 2004-04-16 | オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040249862A1 (ja) |
JP (1) | JP4070742B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8230094B1 (en) * | 2003-04-29 | 2012-07-24 | Aol Inc. | Media file format, system, and method |
KR100615626B1 (ko) * | 2004-05-22 | 2006-08-25 | (주)디지탈플로우 | 음원과 가사를 하나의 파일로 제공하는 멀티미디어 음악컨텐츠 서비스 방법 및 시스템 |
JP2007127861A (ja) * | 2005-11-04 | 2007-05-24 | Kddi Corp | 付属情報埋め込み装置および再生装置 |
CN100444106C (zh) * | 2005-11-25 | 2008-12-17 | 北京中星微电子有限公司 | 在可变比特率格式的mp3文件中实现定位的方法 |
CN101346741A (zh) * | 2005-12-22 | 2009-01-14 | 皇家飞利浦电子股份有限公司 | 通过嵌入水印实现脚本同步 |
US8326609B2 (en) * | 2006-06-29 | 2012-12-04 | Lg Electronics Inc. | Method and apparatus for an audio signal processing |
JP2008225232A (ja) * | 2007-03-14 | 2008-09-25 | Crimson Technology Inc | 信号処理方法および音声コンテンツ配信方法 |
KR20090047159A (ko) * | 2007-11-07 | 2009-05-12 | 삼성전자주식회사 | 오디오-북 재생 방법 및 장치 |
US8143508B2 (en) * | 2008-08-29 | 2012-03-27 | At&T Intellectual Property I, L.P. | System for providing lyrics with streaming music |
EP2362383A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Watermark decoder and method for providing binary message data |
CN102402509B (zh) * | 2010-09-07 | 2017-01-18 | 无锡中感微电子股份有限公司 | 一种变码率音频文件的寻址方法和装置 |
US20130080384A1 (en) * | 2011-09-23 | 2013-03-28 | Howard BRIGGS | Systems and methods for extracting and processing intelligent structured data from media files |
US9118867B2 (en) * | 2012-05-30 | 2015-08-25 | John M. McCary | Digital radio producing, broadcasting and receiving songs with lyrics |
CN116778935A (zh) * | 2023-08-09 | 2023-09-19 | 北京百度网讯科技有限公司 | 水印生成、信息处理、音频水印生成模型训练方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2353927B (en) * | 1999-09-06 | 2004-02-11 | Nokia Mobile Phones Ltd | User interface for text to speech conversion |
US20010015917A1 (en) * | 1999-12-31 | 2001-08-23 | Heo Jung-Kwon | Recording medium having data recorded in data structure capable of editing additional data related to audio data, method and apparatus of recording and/or reproducing thereof |
US6442517B1 (en) * | 2000-02-18 | 2002-08-27 | First International Digital, Inc. | Methods and system for encoding an audio sequence with synchronized data and outputting the same |
US20020165720A1 (en) * | 2001-03-02 | 2002-11-07 | Johnson Timothy M. | Methods and system for encoding and decoding a media sequence |
AU2002306173A1 (en) * | 2001-06-18 | 2003-01-02 | First International Digital, Inc | Enhanced encoder for synchronizing multimedia files into an audio bit stream |
-
2004
- 2004-04-16 JP JP2004121995A patent/JP4070742B2/ja not_active Expired - Lifetime
- 2004-04-16 US US10/825,807 patent/US20040249862A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2004318162A (ja) | 2004-11-11 |
US20040249862A1 (en) | 2004-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4070742B2 (ja) | オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置 | |
JP4127668B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2020113733A1 (zh) | 动画生成方法、装置、电子设备及计算机可读存储介质 | |
JP2007537483A (ja) | マルチメディア音楽コンテンツのサービス方法及びシステム | |
JP2011030224A (ja) | マルチメディア字幕表示システム及びマルチメディア字幕表示方法 | |
JP5050445B2 (ja) | 動画再生装置及び動画再生方法 | |
WO2019039196A1 (ja) | 画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造 | |
KR100577558B1 (ko) | 오디오 컨텐츠와 텍스트를 동기화시키는 동기신호삽입/검출 방법 및 장치 | |
JP5371574B2 (ja) | 背景映像中の顔画像を避けるように歌詞字幕を表示するカラオケ装置 | |
KR100670443B1 (ko) | 음악/이미지 동조용 데이터 파일이 기록된 컴퓨터로 읽을수 있는 기록매체 및 이미지 데이터 샘플을 오디오 파일에삽입하는 방법 | |
JP2007199574A (ja) | 楽曲再生装置、楽曲テロップ検索サーバ | |
JPH08249343A (ja) | 音声情報取得装置及び音声情報取得方法 | |
JP4277512B2 (ja) | 電子機器及びプログラム | |
JP2005122664A (ja) | オーディオデータ記録装置、オーディオデータ再生装置、及びオーディオデータ記録再生装置、並びにオーディオデータ記録方法、オーディオデータ再生方法及びオーディオデータ記録再生方法 | |
JP4407119B2 (ja) | 命令コード作成装置 | |
JP2006050045A (ja) | 動画像データ編集装置及び動画像データ編集方法 | |
KR100745250B1 (ko) | 오디오/비디오 동기용 멀티미디어 파일 작성 프로그램을기록한 컴퓨터로 읽을 수 있는 기록매체 및 오디오/비디오동조화 장치 | |
JP3846416B2 (ja) | 再生制御装置および再生制御処理プログラム | |
US20240112691A1 (en) | Synthesizing audio for synchronous communication | |
JP4570026B2 (ja) | 電子透かしの埋め込み方法 | |
JP2005250242A (ja) | 情報処理装置、情報処理方法、情報処理用プログラム、及び記録媒体 | |
KR100693658B1 (ko) | 휴대용 어학학습 장치 및 방법 | |
JP2013162370A (ja) | 画像音声処理装置及び画像音声処理プログラム | |
JP2012039391A (ja) | 再生装置及び方法、並びにプログラム | |
JP2005062481A (ja) | 楽音発生装置及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070511 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4070742 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110125 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120125 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130125 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140125 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |