JP2007515126A - デジタル画像を処理するための方法とそのシステム - Google Patents

デジタル画像を処理するための方法とそのシステム Download PDF

Info

Publication number
JP2007515126A
JP2007515126A JP2006545305A JP2006545305A JP2007515126A JP 2007515126 A JP2007515126 A JP 2007515126A JP 2006545305 A JP2006545305 A JP 2006545305A JP 2006545305 A JP2006545305 A JP 2006545305A JP 2007515126 A JP2007515126 A JP 2007515126A
Authority
JP
Japan
Prior art keywords
data
image
audio
audio data
host image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006545305A
Other languages
English (en)
Other versions
JP4568732B2 (ja
JP2007515126A5 (ja
Inventor
ウァン ホー シム
トー オン デズモンド ヒー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Technology Ltd
Original Assignee
Creative Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Technology Ltd filed Critical Creative Technology Ltd
Publication of JP2007515126A publication Critical patent/JP2007515126A/ja
Publication of JP2007515126A5 publication Critical patent/JP2007515126A5/ja
Application granted granted Critical
Publication of JP4568732B2 publication Critical patent/JP4568732B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/0028Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • H04N1/32149Methods relating to embedding, encoding, decoding, detection or retrieval operations
    • H04N1/32154Transform domain methods
    • H04N1/3217Transform domain methods using wavelet transforms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • H04N1/32149Methods relating to embedding, encoding, decoding, detection or retrieval operations
    • H04N1/32154Transform domain methods
    • H04N1/32187Transform domain methods with selective or adaptive application of the additional information, e.g. in selected frequency coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/467Embedding additional information in the video signal during the compression process characterised by the embedded information being invisible, e.g. watermarking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0052Embedding of the watermark in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/328Processing of the additional information
    • H04N2201/3283Compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

デジタル画像を処理するための方法と装置が提供される。該方法はホスト画像データを受信すること、音声データを受信することと、音声データが埋め込み画像から自由に回復可能な埋め込みデータを提供するために、ホスト画像データ内に音声データを埋め込むことを含む。該方法は、ホスト画像データ内に音声データを埋め込む前に短時間フーリエ変換(STFT)を使って音声データを処理することを含むことができる。該方法は、ホスト画像データ内に音声データを埋め込む前に音声データに含まれる音声信号を示すデジタルデータの量を削減する。ある実施形態において、該方法は、振幅データを量子化することと、埋め込みのために音声データを提供するため、音声信号の位相を廃棄することを含む。該方法は、D4格子のシェルと整合するために音声データを量子化することを含む。

Description

本発明は、2003年12月19日に出願された「デジタル画像を処理するための方法とそのシステム」と題する米国仮出願番号第60/531、029からの優先権に基づく便益を主張するもので、該内容は言及することにより本明細書に盛り込まれている。
本発明は、一般的にはデジタル信号処理の分野、さらに詳細には、例えばデジタル静止画像などのデジタル画像を処理するための方法と、該方法を実行するためのシステムに関連する。
デジタルネットワークは、消費者にマルチメディア情報を提供する方法としてますます一般化してきている。しかしながら、マルチメディアコンテンツにおける所有権の執行は、デジタルメディアが利益を目的として配信されていることから一番の関心事である。デジタル透かし、及びデータハイデイングの方法は、先行技術おいてデジタルメディアの違法配信の問題の解決策を提供するものとして公知である。これらのアプリケーションにおける目標は、隠されたデータが、彼または彼女が認可された場合に、その人のみによって読み出されることを保証することにある。データハイディングは、少量の特定身元情報が提供されるデジタル透かしとは反対に、大量のデータが隠されるときに一般的に適応される。
よって、今日までのデジタルビデオ処理手段は、デジタル透かしと電子署名を使うマルチメディアを識別することに重点が置かれてきた。しかしながら、電子署名は、特別なソフトウェアまたは単一の承認された人、または承認された人の限られたグループにのみ与えられたキー無しには認証することができない。特定の状況において、デジタル透かしそれ自体は、暗号化とは反対に、デジタル透かしの最大の目的が不正変更を耐えることであるため機密ではない。もちろんデジタル透かしもまた暗号化が可能である。
米国特許第6,332,030号明細書 国際公開第02/017214号パンフレット 豪州特許第85291/01号明細書 米国特許第6,683,966号明細書 米国特許第6,714,683号明細書 米国特許出願公開第2004/264732号明細書 D. Mukherjee et al, A Source and Channel Coding Approach to Data Hiding with Application to Hiding Speech in Video Proc. 1998 International Conference on Image Processig, pp.348-52, October 1998 A. Giannoula et al, Compressive Data Hiding for Video Signals Proc. 2003 International Conference on Image Processing, pp.529-32, September 2003 M. D. Swanson et al, Data Hiding for Video-in-Video Proc. 1997 International Conference on Image Processing, pp.676-9, October 1997 J. J. Chae et al, A Technique for Image Data Hiding and Reconstruction without Host Image Proc. of the SPIE-The International Society for Optical Engineering, pp.386-96, Jan 1999 R. B. Wolfgang et al, Perceptual Watermarks for Digital Images and Video Proc. IEEE (Special Issue on Information Hiding), 87(7), pp.1108-26, July 1999 M. D. Swanson et al, Multimedia Data-Embedding and Watermarking Technologies Proc. IEEE (Special Issue on Multimedia Signal Processing), 86(6), pp.1064-87, June 1998 A. Giannoula et al, Integrating Compression with Watermarking on Video Sequences Proc. 2004 International Conference on Information Technology, pp.159-60, April 2004
本発明に従って、ホスト画像を処理するための方法が提供され、該方法は
前記ホスト画像を受信すること、
音声データを受信することと、
前記音声データが埋め込み画像から自由に回復可能な前記埋め込み画像を提供するために、前記ホスト画像内に前記音声データを埋め込むこと
からなる。
前記方法は、前記ホスト画像内に前記音声データを埋め込む前に、前記音声データに含まれる音声信号を表わすデジタルデータの量を削減することを含んでもよい。ある典型的な実施形態において、該方法は短時間フーリエ変換を使って前記音声データを変換すること、振幅データを量子化すること及び前記音声データを埋め込みのために提供するため前記音声信号の位相データを放棄することからなる。前記音声データは、量子化され、D4格子コードに貼り付けられる。前記D4格子コードの前記格子コードは、ホスト画像の歪曲を最小限にするために拡大縮小される。
ある典型的な実施形態において、該方法は前記ホスト画像の輝度データと色差データを分離すること、変更を加えた輝度データを提供するために、前記輝度データに前記音声データを含むこととと、組み込み画像を提供するために、前記修正輝度データと前記色差データを組み合わせることからなる
該方法は、中間輝度データを提供するために前記輝度データを処理すること、知覚的に順応されたサブバンドを提供するために、前記中間輝度データの少なくとも1つのサブバンドに知覚順応を行うことと、前記修正輝度データを提供するために、前記音声データを前記の知覚的に適応されたサブバンドに含むことからなる。
ある典型的な実施形態において、該方法は、さらなる中間輝度データを提供するために、前記中間輝度データから少なくとも1つのサブバンドを除去することからなる。知覚的に適応されたサブバンドは、前記修正輝度データを提供するために、前記さらなる中間輝度データと組み合わされる。逆変換が前記修正輝度データに対して行われ、逆変換された該輝度データは、デジタル画像を定義する埋め込みホストを提供するために、前記色差データと組み合わされる。前記輝度データは離散ウェーブレット変換また離散コサイン変換によって処理される。前記音声データは量子化され、ホスト画像のサブバンドの係数に基づいてスケール化される。
ある典型的な実施形態において、該方法は、前記ホスト画像の一部をマスクすることと、ホスト画像データのためにマスクされた部分を確保することを含む。別の実施形態において、該方法は、マスクされた部分とマスクされていない部分を提供するために、ホスト画像の一部をマスクすることと、前記のマスクされた部分とマスクされていない部分の両方における音声データを埋め込むことを含み、この時マスクされた部分よりもマスクされていない部分の方が1ピクセルあたり多くの音声データが記録される。前記画像はデジタル写真である。
本発明は、音声データを抽出するために埋め込みデータを処理するための方法に拡大し、該方法は、
前記埋め込み画像の輝度成分に離散ウェーブレット変換と離散コサイン変換の何れか1つを行うこと、
前記音声データに関連する量子化された振幅データを識別すること、
前記識別された振幅データに関連する位相データを推定することと、
前記量子化された振幅データと位相データに基づいて、出力信号を生成することからなる。
前記方法は、埋め込み画像に含まれる各格子コードに対するスケール比を推定することと、前記量子化された振幅データを提供するために、前記格子コードを正規化するためそれをスケール化することからなる。ある典型的な実施形態において、前記量子化された振幅データを識別する前に、前記方法は符号化されたサブバンドから格子チャンネルコードを抽出すること、各コードの最大絶対値からスケール比を推定すること、D4格子コードから適合物を探すことと、STFT振幅データを提供するために前記適合物を逆量子化することからなる。
前記方法は、前記音声データを既知数の組としてモデル化することからなり、各既知数は既知数内における信頼性の度合を示す対応する重みを有し、その時ゼロウェイトは未知数を示し、前記音声データの抽出されたSTFT振幅は既知値としてみなされる。各重量は、抽出された雑音格子コードとそれから最も近い格子コードの間の距離の関数としてモデル化される。
さらに本発明に従って、ホスト画像を処理するためのシステムが提供され、該システムは、
前記ホスト画像を受信するための画像処理回路と、
音声データを受信するための音声処理回路と、
音声データが埋め込み画像から自由に回復可能である前記埋め込みデータを提供するために、前記ホスト画像内に前記音声データを埋め込む埋め込みモジュールを備える。
本発明は、ホスト画像から音声データを抽出するためのシステムへと拡大し、該システムは、
前記ホスト画像を受信し、前記ホスト画像の輝度成分を提供するための画像処理回路と、
前記輝度成分から前記音声データを抽出し、自由に抽出可能な音声データを提供するための音声処理回路
を備える。
該システムは、前記ホスト画像の輝度成分に離散ウェーブレット変換を行うための離散ウェーブレット変換モジュール、輝度成分に関連する量子化された振幅データを識別するための特定モジュールと、前記輝度成分に関連する量子化された振幅データを識別するための識別モジュールと、前記識別された振幅データに関連する位相データを推定するため、及び前記量子化された振幅データと位相データに基づいて出力信号を生成するための位相回復モジュールからなる。
本発明はまた、機械により実行された場合に、ここにおいて記述される1つまたはそれ以上の方法を機械が実行するよう反応を生じさせ、またはここにおいて記述されるシステムの1つまたはそれ以上を実施するように設定された指令の列を具体化する機械可読媒体に拡大する。本発明はまた、デジタルカメラと、デジタルカメラを含むモバイル電話にも拡大する。
本発明の別の特徴は、付随の典型的な図表と、それに続く記述によって明からになるであろう。
デジタル画像データを処理するための方法と、そのシステムが記述される。下記の記述において、本発明の一貫した理解を提供するために、説明の目的、数々の具体的な詳細が記載される。しかしながら、当業者にとって、本発明はこれらの具体的な詳細なしに実施できうる。本発明は、実例を通して、写真またはデジタルカメラで撮った「スナップ」などの静止画に/から音声データを埋め込むこと及び抽出することを参照して記述される。しかしながら、本発明がビデオと他のマルチメディア環境を含むどのようなデジタル信号処理アプリケーションに適用できることが理解されるであろう。
本発明のある典型的な実施形態において、静止画などのカラーホスト画像に音声信号(例えばスピーチ信号)を埋め込むための方法と、そのシステムが提供される。以下でさらに詳述されるように、音声信号の短時間フーリエ変換の振幅は、格子コード化されていて、ホスト画像のウェーブレット変換または離散コサイン変換のサブバンドに注入される。本発明のある実施形態において、これらに限定されるわけではないが、パーソナルデジタルアシスタント(PDA)、セルラー電話、デジタルカメラ、パーソナルコンピューター(PC)等、どのようなコンピュータまたは処理装置を使ってキャプチャーする、または再生することができる「喋る写真」が提供される。しかしながら本発明は、例証として、デジタルカメラを参照して記述される。また、ここで記述されるデジタルカメラ、またはそれのどのような構成要素もPDA、セルラー電話、webカメラまたは他のどのようなコンピュータまたは処理装置に含まれることが理解されるであろう。
特に図1を参照して、参照番号10は本発明の典型的な実施形態に従い一般的に典型的なデジタルカメラを示す。カメラ10は、画像をキャプチャーするための光学システムまたは画像キャプチャーモジュール12を含めて示される。従って、デジタルカメラ10は、画像キャプチャーモジュール12を制御するための光学システム制御装置14と、随意的に、画像キャプチャーモジュール12から受信したデジタル信号(例えばデジタルデータの形式で)を処理するための画像処理モジュール16を含む。画像キャプチャーモジュール12は、例えば従来型のCCD検出器等である。ある実施形態において、画像キャプチャーモジュール12は、静止ホスト画像または「写真」をキャプチャーし、それらはその後処理のために静止画像処理装置18に供給される。静止画像はその後I/Oインターフェイス20を介して外部機器に伝達され、可撤性記憶機器22に記録される。デジタルカメラ10の操作を制御するために、メモリー/カメラ制御プログラムとデータモジュール24が備えられる。
スピーチ等の音声をキャプチャーするために、カメラ10は、音声キャプチャーモジュール26と、随意的に音声処理モジュール28を含む。音声データはその後、静止画像処理装置18に供給され、以下で詳細に記述されるように、静止画像処理装置18はその後画像キャプチャーモジュール12によってキャプチャーされた前記ホスト画像に前記音声データを埋め込む。図1に示されている様々なモジュールはただ単に典型的なモジュールであって、典型的なデジタルカメラの別の実施形態においてさらなる、または別のモジュールを含むことができることが理解されるであろう。例えば、セルラー電話内に備えられたデジタルカメラは、セルラー電話への統合を促進するために、他のモジュールを含む。また、例えば、デジタルカメラ10は、PDA、webカメラ等へのデジタルカメラ10の統合を促進するために他のモジュールを含む。よって、典型的なデジタルカメラ10はカメラの特定の応用、例えば単体カメラ、PDA、セルラー電話カメラ等によって、異なるモジュールを含むことが理解されるであろう。
図2を参照して、参照番号30は、本発明の典型的な実施形態に従って、一般的に音声データを画像内に埋め込むために該画像を処理する典型的なシステムを示す。ある実施形態において、前記画像は静止画像であり、システム30はデジタルカメラ10の静止画像処理装置18内に含まれる。しかしながら、システム30は、単体ユニットまたはホスト画像(静止画あるいはビデオ)をキャプチャーするどのような別のコンピューター機器内に統合されたものとして提供されることが理解されるであろう。
システム30は、RGBホスト画像信号(またはデータ)32と典型的にはスピーチ信号(またはデータ)の形式の音声信号(またはデータ)34を処理するための複数の機能モジュールを含む。システム30は複数の個別の機能モジュールを含む形で示されているが、別の実施形態において、様々なモジュールは単一の機能ユニットに組み合わされる、または統合されてもよく、また、さらなるモジュールが含まれることを理解するであろう。また、キャプチャーされたホスト画像は他の形式であることがあり、それはRGB画像に限定されない。典型的なシステム30において、様々なモジュールは画像処理回路31と音声処理回路33によって提供される。
典型的なシステム30は、RGBからYCbCr変換モジュール36、離散ウェーブレット変換モジュール38、フィルターモジュール40、知覚分析モジュール41、短時間フーリエ変換(STFT)モジュール42、量子化モジュール44、D4格子コードモジュール46、検索モジュール48、逆離散ウェーブレット変換モジュール50、及びYCbCrからRGB変換モジュール52を含んだ形で示される。以下でさらに詳細に記述されるように、ある典型的な実施形態において、システム30は、STFTの振幅だけが符号化されホスト画像内に埋め込まれ、音声のグレースフルデグラデーションを可能にする。また、システム30は、以下でさらに詳細に記述されるように、音声データを符号化するために適応格子コードを使う。
図3は本発明に従って、RGBホスト画像信号32などのホスト画像内に音声信号を埋め込むことによってデジタル画像を処理する典型的な方法60を示す。方法60はホスト画像データに音声データを含めるためにどのようなデジタル画像を処理するためのどのような機器にも適用できるが、方法60は例証として、システム30を参照して記述される。
操作62で示されるように、システム30はRGBホスト画像信号32を受信し、その後、RGB成分(またはデータ)をY、Cb、及びCrチャンネル(RGBからYCbCr変換モジュール36参照)に変換するために色空間変換が操作64で行われる。よって、色空間変換後、RGBホスト画像信号32は別々の色差と輝度チャンルまたは成分66、68にそれぞれ変換される(図3の操作70参照)。色差と輝度チャンネル66、68はデジタルデータによって定義される。
方法60はその後、知覚分析モジュール41に供給される中間輝度データ74を提供するために、典型的な2レベル離散ウェーブレット変換を操作72で行う(操作76参照)。操作76における知覚分析は、人間視覚システムモデルに基づいた知覚情報を使い、それにより前記ホスト画像に埋め込まれた前記音声データは、人間の目によって見られたときに画像を可能な限り小さく変更する。本発明のある実施形態において、知覚分析モジュール41は今日までデジタル透かしにのみ適用されてきたものと同様の技術を使う。また、中間輝度データ78は、ろ過された輝度データ87を提供するために、1つまたはそれ以上のサブバンドを選択しろ過するために(例えばゼロアウト)(操作80参照)フィルターモジュール40に供給される。
操作76の知覚分析に戻って、知覚的に適応された輝度サブバンドデータ82は、知覚的に適応された音声データ88を提供するために、84で音声データと組み合わされる(操作86参照)。その後、89で示されているように、知覚的に適応された音声データ88は、修正輝度データ91を提供するために、ろ過された輝度データ87と組み合わされる(操作90参照)。操作92で示されるように、逆離散ウェーブレット変換(逆離散ウェーブレット変換モジュール50参照)が修正輝度データ91に対して行われる。
逆離散ウェーブレット変換モジュール50によって逆変換されていた修正輝度データ91は、その後色差成分66と組み合わされ、YCbCrからRGB変換モジュール52でYCbCrからRGB成分に変換される。処理された出力またはYCbCrからRGB変換モジュール52の埋め込み画像56は、よって音声信号(またはデータ)34が埋め込まれたRGBホスト画像信号(またはデータ)32である。
ある典型的な実施形態において、ウェーブレット変換された輝度データのLL−HHサブバンド100(図7、及び図2の知覚分析モジュール41参照)は、音声データを埋め込むまたはホストするために使われる。別の実施形態において、高周波数サブバンド102は、それが高い容量を提供し、よって出力埋め込み画像56におけるホスト画像信号またはデータ32の潜在的な知覚上の歪曲が少ない音声データの大きな量子また量を埋め込みまたはホストを可能とするものとして使われる。しかしながら、高周波数サブバンド102は、埋め込み画像56に対して行われる損失性画像圧縮に脆弱である。ホスト画像の低周波数サブバンド104もまた、音声データを埋め込むために使われるが、知覚的歪曲を導入し、音声データ34を記憶するための容量が低い。(よってホスト画像内に少量の音声データしか受け入れられないまたは埋め込まれない。)よって、ある実施形態において、LL−HHサブバンド100が、潜在的に損失性画像圧縮の特徴を持つ高周波数サブバンド102と、音声データを埋め込むには潜在的に容量が低い低周波数サブバンド104との間の妥当なバランスを提供するものとして使われる。ある実施形態において、約5倍の位数のチャンネル能力の増加が、低JPEG圧縮設定に対して、HHサブバンド102に音声データ34を含むことで提供される。
参照番号110(図4参照)は本発明に従って、一般的に音声データをホスト画像に埋め込むために処理する典型的な方法を示す。ある実施形態において、方法110はシステム30のホストイメージ画像32内の音声データ34(図2参照)を処理するために使われる。操作112で示されているように、方法110は、音声データ(例えばどのような音声信号を示すのであっても)例えば8kHzでサンプリングされたデジタルスピーチを受信する。その後、操作114で示されているように、音声データの短時間フーリエ変換(STFT)が実行され(例えば図2のSTFTモジュール42を参照)、変換されたスペクトルデータの位相(STFT位相)がその後廃棄され、操作116で示されているように、変換されたスペクトルデータの振幅(STFT振幅)が量子化される(例えば24レベルに)。位相を廃棄することは、その品質を低減するように音声を低下させるが、依然としてその後の該音声の再構成に十分な情報を提供する。その後、量子化された振幅は、D4格子コードに貼り付けられる(操作118参照)。方法110の出力は、上述したように、知覚的に適応された音声データ88を提供するために、知覚的に適応された輝度サブバンドデータ82と組み合わされた4次元(4D)チャンネルコード化された音声データを提供する。
ある典型的な実施形態において、方法110は、システム30上で実施されたとき、位相が廃棄された後に50%の重複でSTFT変換された8ビット8kHzの形式の音声データ34を受信する。各スペクトル振幅は、D4格子の最初のシェルに適合するように、24レベルに量子化される(例えば均一に)。ある実施形態において、貼り付けは、格子コードが付加的なノイズによって破損したときに、それを示す(STFT振幅)データ内のエラーが最小限になるように行われる。従って、そのような要件は、RGBホスト画像またはデータ32内に埋め込まれた音声データのグレースフルデグラデーションの達成に寄与する。ある実施形態において、適応されたコード化がホスト画像の領域を分析するために使われ、該分析に対して、例えば周波数、輝度、及びコントラストマスキングに対する人間視覚感度に基づき、符号強度上で決定される。例えば、高周波数または高度に加工された領域においてはより大きな歪曲が許容可能であり、従って、知覚された透明度を維持しながら(典型的な観察条件下でのホスト画像の低減された歪曲)、より高い堅牢性のために高い符号強度が使われる。澄んだ青い空のような明るい低周波数領域において、透明度を改善するために低い符号強度が使われるが、堅牢性が犠牲となる(埋め込みホスト画像が、線形または非線形操作を受けた後の音声データの修正)。ある実施形態において、ウェーブレットサブバンドの係数が領域の周波数成分を決定する場合、そのような周波数感度に基づく単純な図式が使われる。知覚的適応は、格子コードが置換する、対応するサブバンド係数に基づいて(図3の操作76参照)、格子コードをスケール化することで実行することができる。
例えば、
Scale=max(|Di|) (1)
このとき
0<=i<=3、及びDiは置換のために選択されたサブバンドの4つの係数である。
S=Scale*Sglobal (2)
S<SminであればP=Smin,S>SmaxであればP=Smax,それ以外のすべての状況であればP=S (3)
i‘=P*Ci (4)
このときDi‘は新たな係数であり、Ciは格子コードであり、Sglobalは全体のスケール化要素であり、Smin及びSmaxは歪曲を制限する。Sglobalと共に、Diは格子コードSの強度を決定し、知覚分析要素を提供する。Sは高周波数領域に対してより大きければ、歪曲をより良くマスクする。
ある実施形態において、Smin、SmaxとSglobal変数は調整可能である。Sminは、埋め込み音声に起因するホスト画像の最小歪曲を設定し、Sminを増加させることは全体的なより高い堅牢性に帰結するが、画像の歪曲を増加させる。Smaxは、埋め込み音声に起因するホスト画像の最大歪曲を限定する。ある典型的な実施において、Sglobalは1.0に設定され、Sminは1.0または2.0に等しく、Smaxは4.0に等しい。Smin=1.0の時、歪曲はあまり目に付かない。本発明は、格子コード化を参照しそれを例証として記述されているが、他の実施形態において、バイナリー符号化(または他の適当な技術)が使われることが理解されるであろう。しかしながら、特定の環境において、格子コード化は高いノイズ耐性を提供する。
具体的に図5を参照して、参照番号120は、本発明に従って、例えば埋め込みホスト122などのデジタル画像から音声データを読み出すまたは抽出するためにデジタル画像を処理する典型的なシステムを一般的に示す。システム120は、例えば方法124を実行するために使われる(図6参照)。システム120はRGBからYCbCr変換モジュール126、離散ウェーブレット変換モジュール128、格子コード抽出モジュール130、スケール比推定モジュール132、適合モジュール134、逆量子化モジュール136、フィルターモジュール138、及び位相回復モジュール140を含む。下で詳細に記述されているように、システム120と方法124は、埋め込み画像122内の埋め込み音声の抽出を可能にする。よって、例えばRGBホスト画像32内に埋め込まれている音声データ34(図2参照)は読み出しまたは再構築される。システム120と方法124もまた、例えばデジタルカメラ110内に含むことができる。しかしながら、他の実施形態において、システム120と方法124は、PDA、カメラを含むセルラー電話、または他のどのような演算機器(例えばパーソナルコンピューター)に提供することができ、それにより、それらの機器によって受信された画像に埋め込まれた音声データを再生でき、ホスト画像を見ることができる。デジタル画像が再生されるとき、視覚2次元画像(ホスト画像に対応する)はその後ユーザーに表示され、該画像内に埋め込まれた付随の音声データも同時に再生される。従って、埋め込みデータを含むデジタル画像は、よって「喋る写真」または「喋る画像」のようになる。音声データ32がホスト画像データ32内に埋め込まれているように、画像データ32と音声データ34から単一体または搬送媒体が形成されることを理解するであろう。従って、二つの別々のファイルは通信されず、画像と音声データは融合または混ざり合わされており、画像の重複の複製は、同様に音声の重複の複製に帰結する。
システム120と方法124に戻り、操作142で示されているように(図6参照)、システム120(図5)は埋め込み画像122(例えば、図2の埋め込み画像56に対応する)を受信し、その後(もし必要であれば)操作144で示されているように、YCbCr成分を提供するために、RGB成分を変換する(RGBからYCbCr変換モジュール126も参照)。輝度データであるY146はその後、離散ウェーブレット変換を行う(操作148参照)離散ウェーブレット変換モジュールに供給され、その後符号化サブバンドから格子コードが抽出される(操作150と抽出モジュール130参照)。格子抽出モジュール130の出力は、スケール化された4−Dチャンネル符号であり、それはその後最良または適した適合を見つけるため適合モジュール134に供給される正規化4−Dチャンネル符号を生成するために、操作152でスケール比推定を受ける(スケール比推定モジュール132も参照)。適合モジュール134は格子コードモジュール46を検索し、最良または適当な適合を見つけ、STFT振幅を得るために逆量子化(逆量子化モジュール136参照)された量子化(例えば24レベル)係数を生成する(操作154参照)。前記STFT振幅はその後、ノイズ(例えばソルトアンドペッパーノイズ)を除去するためにろ過され(操作158参照)、ガウス平滑化が行われる(フィルターモジュール138参照)。前記ろ過されたSTFT振幅はその後、位相回復を行うために(操作160参照)位相回復モジュールに供給され、その後操作162で出力音声信号が提供される。前記出力音声信号は、音声データ34(図2参照)に対応し、ある実施形態においては回復された音声信号と見なされる。
ある実施形態において、すべての最初のシェルD4格子係数は最大単位振幅を有することから、スケール比は各係数の最大絶対値として推定される。よって、追加的な符号化なしに同じホスト画像における異なる強度の符号を許容するために、動的なスケール化が起こる。
図9で示されているように、ある実施形態において2レベルのウェーブレット変換が行われ、格子コードをスケール化するためにLL−HHサブバンドの四つの係数(置換された)の最高値が使われる(例えば直接)。画像は既にウェーブレット変換を受けていることから、動的なスケール化操作は早く、少数の付加的操作を要するのみである。格子コードをD4格子の最初のシェルに限定することで、スケール比は、復号化の間に推定することができ、埋め込み画像とともに送信する必要はない。
図9において、参照番号250は、本発明に従って、格子コードに音声データを貼り付けるための方法を一般的に示す。格子コード化の利点は、格子コード間の距離が最大化されノイズに対して堅牢になる点である。ある実施形態において、格子コードは理想的に、チャンネルの最大ノイズを取り扱うのに十分大きくスケール化されている。しかしながら、透かしの事情において、ノイズモデルは一般的にモデル化するのが難しいため、これは実用的ではない。もしノイズモデルが既知であっても、スケール比が大きすぎるため、許容不可能な歪曲を起こす。よって一般的に、十分なノイズは依然として格子コードが誤まって復号化される反応を起させ、それを訂正するために誤り検出及び誤り訂正などの追加的な符号化が必要となり、さらなる演算上の付加と複雑性を追加する。しかしながら、本発明のある実施形態において、そのような誤りは許容され訂正されない。その代わりに誤まって復号化された符号は、実際の符号の近くに提供される。ある実施形態において、STFT振幅の格子コードへの貼り付けは、この要件を満たすために設計される。例証として、方法250(図9参照)は、D4格子コードの最初のシェルに対する音声データの典型的な貼り付けを示す。該貼り付けがすべてのシェルに対して適用されることが理解されるであろう。
テーブル252に示されるように、音声データのSTFT(図2のSTFTモジュール42参照)は、それぞれが例えば0から255までの範囲にわたる128STFT振幅を提供する。各STFT振幅はその後、24レベルに量子化される(操作254と256参照)。例えば、例証として最初の振幅M0使い、最初のSTFT振幅は164の振幅(テーブル252参照)があるとし、操作256で示されるように、量子化された値は以下によって与えられる。
0’=round(M0/255*23)(所与の例においては15に等しい)
その後、操作258で示すように、対応するD4格子コードがD4格子テーブル260の最初のシェルから取得される。所与の例において、格子コードLは(1,0,−1,0)に等しい。
典型的な方法250においては、LL−HHサブバンドが音声データを埋め込むために使われる。従って、LL−HHサブバンド(LL−HHサブバンドテーブル262参照)内のホスト画像のサブバンド値が取得される。例えば、操作264で示されるように、典型的な最初のSTFT振幅M0に対して、最初の4つの係数C0(−2.4,6.9,4.6,及び−0.5)が取得される。その後、操作266で示されるように、例えば単純なMAX関数を使って、周波数成分を推定することで、知覚分析が行われる。例えば、
S=max(|−2.4|,|6.9|,|4.6|,|−0.5|)は6.9となる。
該値はその後(Smin=2、Smax=4)以内になるように切り取られ、よって6.9の値は4に切り取られる。
得られた値(本例においては「4」)は、修正またはスケール化された格子コードL’(所与の例においては(4,0,−4,0)となる)を提供するために格子コードL(所与の例においては(1,0,−1,0)によって乗算される。これらの値はその後、LL−HHサブバンドの最初の4つの係数を置換する。(テーブル268参照)
4格子テーブル260は、各STFT振幅に対する格子コードの貼り付けの例を示すが、他の実施形態において、他のマッピングが可能である。24の格子コードをオーダーするために24!(階乗)の様式があることが理解されるであろう。従って、本発明のある実施形態において、格子コードがオーダーされる。例えば、4−D空間において24ポイントである24の格子コードは以下のようにオーダーされる。
1.各格子コードCiのために(iが0から23の範囲である場合−テーブル260参照)以下が計算される。
i=Ciとともに定位(N)を含む4−Dの平面から基点(0,0,0,0)までの距離
定位(N)の選択は任意であるが、しかしある実施形態において、タイを最小限にするために選択されている。単純にするため、N=(1,1,1,1)が選択される。
2.格子コードはその後、Diの降順にソートされる。
3.同じDiの格子コードが、例えばすべての可能な順序を徹底的に検討することで、入れ替えられる。Kを同じDiのコードの数とする。Kは小さい(例えば3)かもしれないことから、組み合わせの数はK!<<24!である。近隣する2つのコードの間のユークリッド距離の和が最短である場所で順序付けが選択される。格子コード(例えば格子コードモジュール46並びにD4格子テーブル260内の)が予め生成されていることが理解されるであろう。符号器と復号器は、対応する格子コードテーブルを有し、ある実施形態において、格子コードテーブルが刊行され、それによりそれらは自由に入手可能となる。ある実施形態において、符号化の間、各量子化されたSTFT振幅は、直接1つの格子コードに貼り付く。ノイズによって破損した正常化された格子コードテーブルが復号器で受信され、格子コード全体が適合入力(例えば最短のユークリッド距離を伴う入力)のために検索される。
上述の方法250は、音声データを格子コードに貼り付けるための典型的な方法を提供する。埋め込みホストからの音声データの抽出は、例えば上述したステップを逆に行うことで達成することができる。ある実施形態において、音声は以下のように抽出される。最初に、格子コードがホスト画像から抽出される。本発明のある実施形態において、前記音声データを含む格子コードは、一般大衆が自由に利用可能なものであり、それにより適当なハードウエアを有していれば誰でも格子コードを復号化できる。従って、ある実施形態において、本発明が前記カメラ10のようなデジタルカメラ内で適用されたとき、カメラ10は埋め込み機能と共に抽出機能も含む。一度格子コードが抽出されると、スケール比が推定される。ある実施形態において、D4格子の最初のシェルは要素0、1または−1のみを含み、推定はよって比較的単純になる。例えば格子コードの最大振幅が取られる。図9で提供される例において、スケール化された元の格子コードL’(4,0,−4,0)はいくつかのノイズによって破損し、例えば(3.2,−1.4,−4.5,2.1)として抽出される。格子コード係数の最大振幅は、max(|3.2|,|−1.4|,|−4.5|,|2.1|)=3.2と等しくなる。従って、スケール比は3.2として選択される。その後、格子コードは最大振幅(所与の例においては3.2)で分割され、D4格子コードテーブル(D4格子コードテーブル260に対応する)が、ユークリッド距離における最も近い符号を求めて検索される。もし、例えば、もし格子コードが(0,0,0,0)の場合起こる最大振幅=0のとき、格子コードは不明として分類され、対応するSTFT振幅は0に設定される。
特定の実施形態において、抽出されたSTFT振幅の品質を改善するために後処理が行われる。例えば、ソルトアンドペッパーノイズが除去される。例えば、各ピクセルがSTFT振幅を示すと仮定し、5X5のウインドウの平均ピクセル値を計算することができる。もしピクセル値が平均ピクセル値から32異なる場合、ピクセル値は平均値として設定される。下にて詳しく記述されているように、代替の後処理方法は、ソルトアンドペッパーノイズを除去するために、離散ウェーブレット変換並びに離散コサイン変換に適用可能なプルプッシュ機能を利用する。プルプッシュ機能はGortler S.J.、Grzeszczuk R.、Szeliski R.、Cohen M.F.著『ルミグラフ』コンピューターグラフィックス年次会議シリーズ、1996年において記述されており、その内容は参考文献として本願に組み入れられている。特定の環境において、上述した2つの方法は、もしノイズクラスタが共に大きなギャップに帰結するとき上手く行われない。例えば、図14Aの空の領域における全ての格子コードは酷く破損しており、音声の全体部分を失っている。1つの解決策は、STFT振幅を埋め込みの前に移し替ることである。これは誤りを拡大させる効果を有する。受信機は、ノイズ低減の後に移し替えをやり直すことができる。ある実施形態において、追加的なガウス平滑が、3X3のウィンドウと1に等しい標準偏差を伴う標準ガウスカーネルを使うことで提供される。
ある実施形態において、埋め込み音声データ32は、暗号化または符号化されておらず、よってユーザーは音声データを抽出することから抑制されていない。ユーザーは従って自由に音声データを抽出することができる。また、ホストデータに含まれたデータが隠されている、またはユーザーがデータを抽出するのを防ぐために隠さている透かしやデータハイディングとは違い、本発明のある実施形態においては、音声データ32はホストイメージ32の知られた部分に埋め込まれ、暗号化キーまたは他の秘密情報の知識なしに自由に抽出することができる。例えば、透かしにおいて、マルチメディア配給業者は通常、無許可配信が発生した場合に無許可配信元を確認できるように、彼らのデジタルコンテンツの確認を独特に試みる。デジタル透かしはデジタル画像に挿入されたデジタル信号またはパターンであり、ただ特定画像を確認するだけで、そうするために比較的小さなデータが含まれている。デジタル透かしは元のイメージを原型のまま、認識可能な状態に残す点で暗号化とは異なる。暗号化もまたマルチメディア配信業者によって無許可複製を防ぐために使われる。デジタルコンテンツ配信業者もまた、そうすることを許可された彼または彼女のみが回復可能なデータを含むためにデータハイディングを使う。データハイディングはデジタル透かしとは反対に、大量のデータを隠すことを許容するが、両方の技術は、ユーザーがホストから隠されたデータを抽出するのを防ぐことに向けられている。しかしながら、本発明のある実施形態において、音声データは誰でも自由に抽出でき、抽出はいかなる様式にも限定されていない。従って、カメラ10で撮られた写真は、例えば家族と、または友人に送られ、彼らが写真を見るに際して音声が再生される。よって、例えば埋め込み音声は、静止画像に添えるあいさつ、メッセージまたはそれに似たようなもの含み、よって「喋る写真」を提供する。
ある特定の実施形態において、STFTの振幅と位相がホスト画像に埋め込まれるが、該音声データはホスト画像32の音声データに振幅のみを埋め込むときよりも、2倍ほどの帯域または埋め込み部分を必要とする(例えば50%の重複とするとき)。従って、ある典型的な実施形態において、位相は廃棄され振幅だけがホスト画像に埋め込まれる。よってホスト画像に含まれる音声データの量子(ビットの合計数)は削減される。音声の実際の品質もまた低減されるが、埋め込み音声データの所与の量に対して、音声のより長い再生時間を提供できる(例えばより長いメッセージをホスト画像に埋め込むことができる)。
STFT振幅から位相(または推定位相)を回復するための典型的な方法とそれを実行するためのシステムが以下で記される(位相回復モジュール140で実行することが可能−図5参照)。本発明は以下で記される典型的な実施形態に限定されず、STFT振幅信号から位相を回復するためのどのような技術をも別の実施形態において使うことができることが理解されるであろう。
図8を参照して、参照番号180は、本発明に従ってホスト画像に埋め込まれた音声データから音声信号を再構築するための方法を一般的に示す。該方法180は、リアルタイムアプリケーションまたは計算資源が乏しいまたはそのような計算を限定するのが望ましい場合に使われる非反復再構築技術である。本発明はこの典型的な再構築技術に限定されないことが理解されるであろう。
操作182で示されるように、方法180はSTFT振幅データを受信し、その後STFT振幅におけるピークを識別する(操作184参照)。STFT振幅におけるピークは信号における正弦波に対応すると仮定し、操作186に示すように、方法180は、各ピークを取り囲むFFTビン(例えば3つのFFTビン)にパラボラを合わせることで各正弦波(ピーク)の瞬時周波数を推定する。3つより多いまたは少ないビンが使われることが理解されるであろう。方法180はその後、パラボラが最大値のとき(またはほぼ最大値であるとき)の周波数(または近似周波数)を探す。方法180はその後、前のフレームの位相を使ってピークビンの位相を計算または推定し、位相増加量が瞬時周波数から計算される。その後操作190で示されるように、音声信号が逆STFT技術、例えば標準STFT技術を使ってSTFT振幅から再構築される。
特定の実施形態において、分布帯の正弦波ピークを識別するために、どのようなアルゴリズムも使うことができる。例えば、ビン振幅がピークの左にあるその2つの近隣と、ピークの右にあるその2つの近隣よりも大きいかを調べるために確認を行うことができる。別の実施形態において、分析が、サイドローブを誤まって正弦波ピークとして識別しないよう勘案に入れた場合、高度な結果を提供することができる。また別の実施形態において、ピークの形が実際に本物の正弦波と予期されるものと整合したかの確認が行われる。
一度瞬時周波数ωが所与のピークに対して計算され(操作186参照)、フレームKで新規位相φkが以下のように取得される。
φk=φk−1+2πωR、 (5)
このときRはサンプルにおけるホップサイズでωは正規化された周波数である。
前記位相はその後、ピークビンを取り囲むFFTビンに適用される。該工程は個々のピーク毎に対して繰り返される。ある実施形態において、演繹的知識が欠如する場合、任意の初期位相をφ0に対して使うことができる。逆FFTは、最大値がn=0に近い短期信号を生成する。そのような環境下で、同じ位相がピークの周りのビンに割り当てられ、したがって前記FFTはn=0に信号が中心があるゼロ位相である。最終出力短期信号は、FFTの出力をウインドウサイズの半分に円状にシフトすることで取得することができる。
前記方法180は、特定の状況下において、音声データの妥当な概算または再構築を提供する。しかしながら、別の実施形態において、様々な他の再構築技術が音声信号の高度な再構築を提供するために使われることが理解されるであろう。ある実施形態において、前記方法180は一連のグリフィン・リム反復を含む。
よってある実施形態において、音声データは複数の正弦波を構成し、ピークのまわりのSTFT位相が正弦波瞬時周波数の推定に従って更新されると仮定される。
本発明のある実施形態において、例証として上述したように、前記データ処理システム30及び/または前記データ処理システム120はポータブルデジタルカメラに含まれる。従って、一般大衆などのデジタルカメラのユーザーは、静止画を撮るのと同時に、音声クリップまたはメッセージを同時に記録し、音声クリップはその後ホスト画像に埋め込まれ、その後デジタルカメラに記憶されるか、例えばセルラー電話ネットワークを介して通信される。デジタル画像を受信するすべての機器はその後音声データをデジタル画像から回収または抽出することができ、例えばデジタル画像を見るときに、音声データは自動的に生成または再生される。従って、上において言及したように、ある実施形態において本発明は音声データと画像データが結合された「喋る写真」あるいは「喋る画像」を提供する。
本発明のある実施形態において、埋め込み音声データは少なくとも部分的に損失形式変換、例えばBMP形式からTIFF形式、BMP形式からTarga形式等の変換に耐える。ある実施形態において、デジタル音声(例えばデジタルスピーチ)は、より高い圧縮率でのグレースフルデグラデーションを伴った圧縮(例えばJPEG圧縮)の損失に耐える。また、特定の実施形態において、シャープ化、カラーバランス、ガンマ、明るさ並びにコントラスト調整、及び90°回転などの一般的な画像処理ルーチンもまた音声データを実質的に劣化させない。
本発明のある実施形態において、埋め込み音声は、元の静止画像(ホスト画像)の変質を低減するために可能な限り透明で埋め込まれる。しかしながら、デジタル透かしやデータハイディングとは異なり、本発明のある実施形態において静止画に埋め込まれた音声データは、自由に回復可能または、互換性の機器を使っているすべての人によって回復可能であることが意図されている。音声データが自由に回復可能なことが意図されているように、回復技術は秘密にされておらず公表され、暗号キー等は音声データを回復するために必要とされない。
上述のある典型的な実施形態において、離散ウェーブレット変換(DWT)が輝度チャンネルまたは成分68に対して行われる(図2の離散ウェーブレット変換モジュール38を参照)。別の典型的な実施形態において、離散コサイン変換(DCT)が使われる。
図表の図10を参照して、参照番号300は、本発明の実施形態に従って音声データを画像に埋め込むために画像を処理するための典型的なシステムを一般的に示す。システム300は、前記システム30と類似し、従って、同じ参照番号が同じまたは同様の特徴をしめすために使われている。しかしながら、システム30の離散ウェーブレット変換モジュール38、フィルターモジュール40、及び知覚分析モジュール41は、システム300においては離散コサイン変換モジュール302、DCTフィルターモジュール304、DCT知覚分析モジュール306、及び逆離散コサイン変換モジュール308に置換されている。システム30の場合と同様、システム300はデジタルカメラ技術を提供するどのような電子機器とも連動して、またはそれらと統合して使うことができる。システム300がデジタルカメラ10に含まれるとき、データはJPEG形式を使って圧縮される。
システム300において、画像は最初に、離散コサイン変換モジュール302内において典型的な8X8ブロックに区分化される。この区分化は、例えばJPEG技術またはMPEG技術を使う画像圧縮の間に行われる。その後典型的な8X8のブロックは、DCTフィルターモジュール304に中間輝度データ78を提供するDCT係数の別の8X8のブロックをつくるために直接コサイン変換を使って変換される。ある典型的な実施形態において、中間バンドに対応する係数のグループが選択される(例えば予め選択された)。選択された係数はその後、ろ過された輝度データ87を提供するために、DCTフィルターモジュール304によってろ過される(例えばゼロアウト)。離散コサイン変換モジュール302はまた、84で示されるように検索モジュール48からの音声データの格子コードと組み合わされる知覚適合輝度データ82を提供するために、中間輝度データ74をDCT知覚分析モジュール306に提供する。知覚適合音声データ88はその後、89で示されるように逆離散コサイン変換モジュール308に供給される修正輝度データ91を提供するために、選択された係数を置換する。逆変換データはその後、YCbCrからRGB変換モジュール52に供給され、そこで図2を参照して上述のように処理される。
よって、システム300において、システム30の離散ウェーブレット変換処理は離散コサイン変換によって置換されている。同様な様式で、図3の方法60の操作72、76、及び80は離散ウェーブレット変換処理の替わりに離散コサイン変換処理を行うために修正されている。典型的なシステム300において、音声(例えばスピーチ)は、格子コードにマッピングされる前にSTFTを使って変換され、よって音声のグレースフルデグラデーションを提供する。
図11を参照して、参照番号310は、検索モジュール48からの格子コードによって置換された4つのDCT係数312、314、316と318を伴った典型的な8X8の離散コサイン変換(DCT)係数ブロックを示す。ある実施形態において、各格子コードは4つの係数を置換し、1つのSTFT振幅だけが8X8係数ブロック310毎に符号化される。離散ウェーブレット変換のケースにおいて(図9参照)、ホスト画像の音声記憶容量は多くの係数(例えば高周波数係数)を選択することで増大することができるが、堅牢性の低減に帰結する。例えば、ユーザーが高品質画像を選択したときのデジタルカメラ(例えばデジタルカメラ10)において、該カメラは最小JPEG圧縮で撮られた写真のデジタル画像を記録し、最小JPEG圧縮であることから、より高い周波数のDCT係数は逆に影響されない。よってある実施形態において、これらの高周波数係数は、デジタル画像の容量を音声データを収容するために高めるために、格子符号化に使うことができる。ある実施形態において、離散ウェーブレット変換のケースと同様の様式で、スケール比は知覚分析306に対して、置換される4つのDCT係数の最大絶対値として取られる。例えば、図11においてScale S=max(|−1.5|,|−12|,|−17|,|0|)=17となる。
図12の参照番号320は、本発明に従って、埋め込み画像から音声を抽出するための音声処理システムのさらなる実施形態を一般的に示す。システム320は実質的に前記システム120と類似しており、従って同じ参照番号が同じまたは同様の特徴を示すために使われている。システム320において、離散コサイン変換モジュール322と格子抽出モジュール324は、図5の離散ウェーブレット変換モジュール128と格子コード抽出モジュール130を置換する。離散コサイン変換モジュール322は輝度データ146(YCbCr成分)を典型的な8X8のブロックに区分化し、各ブロックに対して離散コサイン変換を行う。格子抽出モジュール324はその後、離散ウェーブレット変換の実施形態で図5を参照して上述したように、スケール推定モジュール132に供給されるスケール化4−Dチャンネルコードを提供するために符号化DCT係数から格子チャンネルコードを抽出する。同様な様式で、方法124(図6参照)は、離散コサイン変換処理を行うために操作148と150において修正される。
ある実施形態において、破損したSTFT振幅の再構築は、フィルターモジュール138における2次元の散在したデータ近似としてモデル化することができる。結果として生じる隙間は、例えばGortler S.J.、Grzeszczuk R.、Szeliski R.、Cohen M.F.著『ルミグラフ』コンピューターグラフィックス年次会議シリーズ、1996年において提案されたようなプッシュ−プル方法によって埋めることができ、その内容は、本願において参考文献として盛り込まれている。このプッシュ−プル方法への入力は一連の既知数と、それに対応する重みである。前記重みは前記既知数における信頼のレベルを測り、そのときゼロウェイトは未知数を示す。プッシュ−プル方法をシステム30と300に適用することで、抽出されたSTFT振幅は既知数として見なされ、それらの重みは、抽出された雑音格子コードと、それから最も近い(適合する)格子コードの間の距離の関数としてモデル化される。ゼロ距離(例えば完全適合)は最大重みを示す。これらの典型的な技術を適用すると、
w=1−d (6)
であり、この時wは重みで、w=0は信頼の最も低いレベルを示し、そしてdは抽出された雑音格子コードとそれからもっも近い適合の間のユークリッド距離であり、
d=√((C1−M12+(C2−M22+(C3−M32+(C4−M42) (7)
のとき、抽出格子コードはC=(C1,C2,C3,C4)で、
最も近い適合する格子コードはM=(M1,M2,M3,M4)である。
ある実施形態において、音声データを埋め込むためにホスト画像の全体にまたは実質的に全体を使う代わりに、音声データが埋め込まれるホスト画像の一部分また領域を制限するためにマスクを使うことできる。典型的なマスク330(図13B参照)は輪郭が楕円形であり、また該楕円内における典型的な画像332(図13A参照)のどの部分でも画像データのために確保することができる(例えば排他的な確保)。よって該楕円の外の領域を音声を埋め込むために使うことができる。マスクの形または大きさは、実施形態毎によって異なり、またホスト画像によってキャプチャーされた写真の本質によっても異なることが理解されるであろう。図14Aは、画像データのみが提供されるホスト画像338の一領域をマスクするための(図14B参照)マスク336のさらなる典型的な実施形態を示す。どのような適切な形または大きさのどのような数のマスクも提供されると理解されるであろう。よって、音声データはホスト画像のどの部分へも埋め込むことができ、またはホスト画像全体にも埋め込むことができる。
ある典型的な実施形態において、マスク330と360は本質的に2進数または不連続である(例えば、「1」は音声データを含む領域と対応し、「0」は音声データを除外した領域を含む。)。よって、例えば、マスク330と360は、音声データの排他に、排他的に画像データを含み、ゼロマスク値を持つホストピクセルは手付かずのまま放置される(元の画像データは変わらずそのまま残る)領域を定義する。しかながら、マスク330と336が本質的に連続することもあることが理解されるであろう。(例えば、「0」と「1」の間の値は、音声データの埋め込みが所定の領域においてどれだけの強さまた重さであるべきかを示す。)。よってマスクすることは、ユーザー(または電子回路)に、ホスト画像における歪曲が許容可能で音声データが埋め込まれる領域を選ぶことと、ホスト画像の重要な領域または区域を保護することを可能にする。また音声データは、マスクされた部分と、マスクされていない部分の両方に埋め込まれ、このとき音声データが、1ピクセルあたり、マスクされている部分よりもマスクされていない部分にさらに多く記憶されるようにしてもよい。記憶されたデータの密度は、よって埋め込み画像の各画像部分によって異なる。
該マスクは、ユーザーにより定義されたもの、またはユーザーは複数の既定のマスクから1つ選択することができる。ユーザーにより定義されたマスクに関して、デジタル画像から音声データを回復または抽出するために埋め込み画像を処理する典型的なシステム120と320(図5と12参照)は、後に抽出工程において使われる対応するマスクを含む。例えば、既定のマスクが埋め込み画像56の生成において使われたとき、システム120と320は、どの既定のマスクが埋め込み工程で使われたかを特定し、対応する既定のマスクはその後埋め込み画像から音声を抽出するために使われる。例えば、関連するマスクは、外部入力(例えばユーザー選択)によって識別することができ、受信機は余すところなく全ての既定のマスクを試し、その内で最も信頼性要素の高いものを、または使われたマスクを識別するその他の特定手段を使うことができる(例えば識別子がホスト画像に埋め込まれる、タグが提供される、またはその他の識別子)。ある実施形態において、信頼性要素は方程式(7)を使って決定される。
ホスト画像に音声データを埋め込むことは、画像の歪曲に帰結することが理解されるであろう。画像歪曲の量は、ホスト画像に埋め込まれた音声データの量または品質に左右される。しかしながら、歪曲の量は、上述したように格子コードを順応して制御することで削減することができる。さらに、またその代わりに、マスキングが音声データの埋め込みによって歪曲が発生する埋め込み画像の区域を制御するために使われる。しかしながら、様々な別の技術がホスト画像の歪曲を削減するために、さらにまたその代わりに使われることが理解されるであろう。
埋め込み画像は、表示機器(例えばコンピュータのモニター、テレビセット、PDAディスプレー、デジタルカメラのディスプレイ、セルラー電話のディスプレイ、またそれらに似たもの)上で見ることまたは印刷することができる。比較的高い解像度の画像(例えば5メガピクセルの画像)が1280x1024ピクセルのモニター上でその全体(例えばズームなしで)が見られたとき、それはダウンサンプルされている。このダウンサンプリング工程は一般的に低域フィルタリングであり、よってホスト画像に音声データが埋め込まれたことの結果として導入されたどのような歪曲も効果的に除去することができる。その結果、ユーザーは歪曲を見ることがない。ある特定の印刷のシナリオにおいて、歪曲は、ドットゲインと、歪曲を円滑にするプリンターのディザリング工程の結果から、ほとんど見えない。
ある典型的な実施形態において、ここに記載されている離散コサイン変換技術を使った埋め込こみを承知しているビューワーアプリケーションは、フォワード離散コサイン変換、選択された係数のフィルターアウト(例えばゼロアウト)を行い、画像を表示する前に逆離散コサイン変換を用いて埋め込み画像を処理することで埋め込み音声データを除去する。離散ウェーブレット変換を用い同じ方法論が、方法論上離散コサイン変換を離散ウェーブレット変換に代えることで使えることが理解されるであろう。別の典型的な実施形態において、格子スケールは、画像キャプチャー工程の間に取り入れられるカメラまたはセンサーノイズなどの画像に関連するノイズに適合する。該ノイズは、データからイクスチャンジャブルイメージファイルフォーマット(EXIFヘッダー)で測定または推定することができる。例えば、デジタルカメラを使ってキャプチャーされた画像は、レンズ及び/またはセンサーから生じるある程度のノイズを含む。より高いISOレベルでは、このノイズは非常にはっきりしている。例えば従来のアナログフィルムカメラにおいては、カメラマンは光に敏感であるがゲインにつながる高ISOレベルフィルムを選択する。デジタルカメラにおいては、高いISOレベルは高センサー(CCDまたはCMOS)ゲインに対応し、それは元画像におけるより大きなノイズに帰結する。元画像はすでに一定のノイズを含んでいることから、透かしに起因する歪曲(ノイズのように見える)をセンサーノイズと同程度に制限する試みが行われ、よってそれらをセンサーノイズの中に隠す。格子スケールは、スケール化格子コードを埋め込むことに起因する歪曲がセンサーノイズに起因する歪曲を超えないように選択される。よって、格子コードはノイズの中に効果的に隠れることができる。本発明の別の実施形態において、音声データはEXIFファイル中、例えばEXIFヘッダーの中に含まれ、従って、音声データファイル形式変換をよりよく耐える。別の典型的な実施形態において、STFT振幅は、例えば画像の創造の間、画像上に直接貼り付けられる(隠れていない)。ある典型的な実施形態において、スピーチまたは音声ストリップは、方法110の操作112、114と116において提供されたものと同様の操作を利用して符号化の間に生成される(図4参照)。ある典型的な実施形態において、振幅は、白黒画像は通常256レベルを有することから、24レベルではなく256レベルに量子化される。しかしながら、振幅はどのような数値のレベルにも量子化できることが理解されるであろう。
図表の図15を参照して、参照番号350は一般的に、音声データがホスト画像354の選択領域352に提供された埋め込みホスト画像を示す。音声データは、図2を参照して上述したように音声データから生成されたSTFT振幅を含む「スピーチストリップ」または「音声ストリップ」において提供される。ある実施形態において、スピーチストリップは通常グレースケール画像として表示されたSTFT振幅を提供する。スピーチストリップは埋め込み画像から抽出され、その後選択領域352において表示されることが理解されるであろう。
ある典型的な実施形態において、スピーチまたは音声ストリップは、ホスト画像上に重ねられている、または「ペースト」(例えば直接に)されている。これはユーザーが例えばカットとペースト機能を使って2つまたはそれ以上のスピーチまたは音声ストリップを編集することを可能にする。スピーチまたは音声が画像の一部であることから、様々な画像処理技術、画像形式変換、デジタル−アナログ−デジタル変換に耐えることができる。図16において示される典型的な実施形態において、埋め込みホスト画像は音声データを収容するための延伸部分358を有する(例えばスピーチまたは音声ストリップ360、362において提供されている)。しかしながら、話者(写真においてキャプチャーされた1人の人の画像)との空間関係は、1人以上の話者(写真においてキャプチャーされた別の人の画像)の場合失われる。ある実施形態において、マーカー364と366が、対応する音声ストリップ360と362毎の索引として機能するようそれぞれ提供される。例えば、ユーザーがポインター(例えばマウスのポインター)を動かしたとき、特定マーカーに対応するスピーチまたは音声は、関連する音声ストリップから再生することができる。
上述の典型的な実施形態において、格子符号化が、ホスト画像に音声データを埋め込むときに使われる。しかしながら、他の技術が他の実施形態において使われる。例えば、量子化指数変調(QIM)技術もまたSTFT振幅を埋め込むために使うことができる。そのようなQIM技術の例は、Chen Brian、Wornell Gregory W著「量子化指数変調:デジタル透かしと情報埋め込みのために多分よい方法群」情報理論に関するIEEE報告書、Vol47、No.4、2001年5月、pp1423−1443、において記述され、その内容は参考文献としてここに盛込まれている。
QIM技術を適用するとき、量子化されたDCT係数は、デジタル音声データを符号化しているときに偶数また奇数の数値を取得するため動揺させられる(サイン)。この技術は無損失と見なされているが、埋め込み音声データが普通の画像処理操作の下で保護されてないないときは脆弱である(例えば画像を明るくするとき)。該方法は、符号化及び復号化モジュールの完全な制御を必要とし、よってある実施形態において、もしユーザーが任意の画像編集ソフトウエアの使用を許可されていた場合、あまり有益ではない。それでも、そのような制御が提供された場合、該方法は高品質で高容量の音声データをホスト画像に埋め込むことができる。もし埋め込み対象の画像の形式がJPEGであるときは、上述した適用格子符号化技術がさらに適している。特定の実施形態において、QIM方法は、脆弱な本質に乗じることで利点を有する。例えば、もし画像のある領域が修正された場合、そのような修正は対応するブロックにおける格子コードが破損しているまたは非常に低い信頼性レベルを有していることから検出することができる。ある典型的な実施形態において、この副作用は調質検出構造を提供するために利用することができる。
例証を通じてここで記述した本発明は、画像(デジタル写真)と音声(声またはスピーチ)を統合する単一媒体を提供し、または提供するために使われる。よって単一ファイル(例えばJPEGファイル)を画像と音声の両方を含んだ形で提供できる。また、単一ファイルの内容(ホスト画像と音声データ)はファイル形式変換を耐えることができる。典型的な実施形態において、音声に基づく「写真検索」を行うことができる。デジタル画像はよってそれらに埋め込まれた音声に基づいて探し当てられる。本発明の典型的な適用例において、ここに記述されている該方法とシステムは例えば画像の剽窃を抑制するために、ユーザー自身の声を画像に埋め込むことで保護の措置を提供することができる。
この明細書の目的上、「画像」という語句は広義に解釈されるべきであり、写真、ビデオクリップ等に制限されない。「画像」という語句はどのような2次元表象物を含むことを意図し、それは写真画像、文書、テキスト等の画像である。
図17は、機械にここで議論された方法内のどれか1つを行うよう引き起こす一式の指令が実行できるコンピュータシステム200の典型的な形式における機械の図示を示す。代替の実施形態において、該機械はネットワークルーター、ネットワークスイッチ、ネットワークブリッジ、パーソナルデジタルアシスタント(PDA)、セルラー電話、web器具または機械によって取られる動作を識別する指令の一式または順序を実行することが可能などのような機械をも備える。
コンピュータシステム200は、中央処理装置214、システムメモリ216などのサブシステムと、オーディオカード220を介したスピーカ218、ディスプレイアダプター224を介したディスプレイスクリーン222、パラレルポート228を介したプリンタ226、出入力(I/O)制御装置234を介したマウス230などのポインティングデバイスとキーボード232、ホストアダプター240を介した固定式ディスクドライブ236とCD−ROM/DVDドライブ238、ネットワークインターフェイスカード242、及びフレキシブルディスク246を作動するために受け入れるフレキシブルディスクドライブ244などの外部機器と相互連結するバス212を含んだ形で示される。
スキャン機器、タッチスクリーンなどの他の多くの機器またはサブシステム(図示されていない)を接続することができることが理解されるであろう。また、本発明を実施するために、図17において示される全ての機器を提示することは必要ではない。コンピュータシステムがPDAまたはセルラー電話の形体のとき、該システムは、例えばマウス230、フレキシブルディスクドライブ244、固定式ディスクドライブ236等々を含まない。さらに、機器とサブシステムは、図17において示されるものとは異なった設定で相互接続される。コンピュータシステム200の操作は、技術上すでに知られているため、ここでは詳細に議論されない。
本明細書の目的上、「機械可読媒体」という語句は、本発明の方法論のどれでも1つを行うよう機械に反応させる、機械による実行のための指令のシーケンスを記憶または埋め込みが可能などのような媒体を含むものとして解釈されるべきである。「機械可読媒体」という語句は従って、これらに限定されるないが、固体記憶媒体、光学及び磁気ディスクと搬送波信号を含むものとして解釈されるべきである。
本発明の一部の実施形態を実行するためのソフトウェアは、システムメモリ216内、バス212に連結するサブシステム内(例えばオーディオカード220、中央処理装置214)に動作可能なように配置されるか(全体または部分的にの両方)、または固定式ディスクドライブ236、フレキシブルディスク246、またはCD−ROM/DVDドライブ238で作動するCD−ROM/DVD248などの記憶媒体に記憶される。
バス212は様々な様式で実装することができる。例えば、バス212はローカルバス、シリアルバス、パラレルポートまたは拡張バス(例えばADB、SCSI、ISA、EISA,MCA、NuBus、PCIまたは他のバスアーキテクチャ)として実装することができる。システムメモリ216はランダムアクセスメモリ(RAM)、ダイナミックRAM(DRAM)または他のメモリー機器であってもよい。
よって、デジタル画像を処理するための方法とシステムが記述された。ある実施形態において、音声信号などの音声データは静止カラーホスト画像に埋め込むことができる。本発明は特定の典型的な実施形態を参照して記述されてきたが、本発明の広範な精神と範囲から外れることなくこれの実施形態に様々な修正及び変更を加えることができるのは自明である。従って、本明細書と図表は、制限的な意味よりも実例的な意味で見なされるべきである。
図1は、本発明に従って、典型的なデジタルカメラの概略ブロック図を示す。 図2は、本発明に従って、画像処理システムの実施形態の典型的な機能部の概略ブロック図を示す。 図3は、本発明に従って、デジタル画像を処理するための典型的な方法の概略フロー図を示す。 図4は、本発明に従って、ホスト画像に埋め込むために音声データを処理するための典型的な方法の概略フロー図を示す。 図5は、本発明に従って、音声処理システムの実施形態の典型的な機能部の概略ブロック図を示す。 図6は、本発明に従って、埋め込み画像から音声データを抽出するための音声処理方法の概略フロー図を示す。 図7は、典型的なデジタル画像のウェーブレットサブバンドを示す。 図8は、本発明に従って、元の音声信号から派生した振幅データから音声データを再構築するための音声処理方法の概略フロー図を示す。 図9は、本発明に従って、ホスト画像のサブバンドにSTFT振幅を埋め込むための典型的な方法の概略フロー図を示す。 図10は、本発明に従って、デジタル画像を処理するための画像処理システムのさらなる実施形態の典型的な機能部の概略ブロック図を示す。 図11は、格子コードによって置き換られた4つのDCT係数を伴った典型的な8X8離散コサイン変換(DCT)係数ブロックを示す。 図12は、本発明にしたがって、埋め込み画像から音声を抽出するための音声システムの他の実施形態の機能部の概略的なブロック図を示す。 図13Aは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。 図13Bは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。 図14Aは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。 図14Bは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。 図15は、画像の典型的な画面表示とそれに関連する「音声ストリップ」または「スピーチストリップ」として代表される音声を示す。 図16は、画像の典型的な画面表示とそれに関連する「音声ストリップ」または「スピーチストリップ」として代表される音声を示す。 図17は、ここで議論された方法論を機械が行うようにする一連の指示を実行できるコンピューターシステムの、典型的な形体における機械の図示を示す。

Claims (38)

  1. ホスト画像を処理するための方法であって、該方法は、
    前記ホスト画像を受信すること、
    音声データを受信することと、
    前記音声データが埋め込み画像から自由に回復可能な埋め込み画像を提供するために、ホスト画像内に前記音声データを組み込むこと、
    からなることを特徴とする方法。
  2. 請求項1に記載の方法であって、前記ホスト画像内に前記音声データを組み込む前に、短時間フーリエ変換(STFT)を使って前記音声データを処理すること、
    からなることを特徴とする方法。
  3. 請求項1に記載の方法であって、前記ホスト画像内に音声データを埋め込む前に、前記音声データに含まれる音声信号を表示するデジタルデータの量を減らすこと、
    からなることを特徴とする方法。
  4. 請求項3に記載の方法であって、前記音声データを埋め込むのに提供するために、前記音声信号の振幅データを量子化し、位相データを廃棄すること、
    からなることを特徴とする方法。
  5. 請求項4に記載の方法であって、D4格子コードに前記音声データを貼り付けるために、前記音声を量子化すること、
    からなることを特徴とする方法。
  6. 請求項5に記載の方法であって、前記ホスト画像の歪曲を最小限にするために、前記D4格子コードの格子コードをスケール化すること、
    からなることを特徴とする方法。
  7. 請求項1に記載の方法であって、該方法は、
    前記ホスト画像の輝度データと色差データを分離すること、
    修正輝度データを提供するために前記色差データに前記音声データを含むことと、
    前記埋め込みデータを提供するために、前記修正輝度データと前記色差データを組み合わせること、
    からなることを特徴とする方法。
  8. 請求項7に記載の方法であって、該方法は、
    中間輝度データを提供するために、前記輝度データを処理すること、
    知覚的に適合されたサブバンドを提供するために、前記中間輝度データの少なくとも1つのサブバンドに知覚適合を行うことと、
    前記修正輝度データを提供するために、前記知覚的に適合されたサブバンドに前記音声データを含むこと、
    からなることを特徴とする方法。
  9. 請求項8に記載の方法であって、該方法は、
    さらなる中間輝度データを提供するために、前記中間輝度データから少なくとも1つのサブバンドを除去すること、
    前記修正輝度データを提供するために、前記知覚的に適合されたサブバンドと前記さらなる中間輝度データを組み合わせること、
    からなることを特徴とする方法。
  10. 請求項8に記載の方法であって、該方法は、
    前記修正輝度データに逆変換を行うことと、
    前記デジタル画像を定義する埋め込みホストを提供するために、前記逆変換された輝度データを前記色差データと組み合わせること、
    からなることを特徴とする方法。
  11. 請求項8に記載の方法において、前記輝度データが離散ウェーブレット変換と離散コサイン変換のいずれかによって処理されること、
    を特徴とする方法。
  12. 請求項1に記載の方法であって、該方法は
    前記ホスト画像のRGB成分を、色差成分と輝度成分に変換すること、
    前記ホスト画像の前記輝度成分を処理することと、
    前記ホスト画像をRGB成分へと変換すること、
    からなることを特徴とする方法。
  13. 請求項1に記載の方法であって、該方法は、
    前記ホスト画像の一部をマスクすることと、
    前記ホスト画像のために前記マスクされた部分を確保すること、
    からなることを特徴とする方法。
  14. 請求項1に記載の方法であって、該方法は、
    マスクされた部分とマスクされていない部分を提供するために、前記ホスト画像の一部をマスクすること、
    前記マスクされた部分よりも、前記マスクさていない部分の方が1ピクセルあたりより多くの音声データが記憶される前記マスクされた部分と前記マスクされていない部分の両方に前記音声データを埋め込むこと、
    からなることを特徴とする方法。
  15. 請求項1に記載の方法において、前記画像はデジタル写真である、
    ことを特徴とする方法。
  16. ホスト画像を処理するためのシステムであって、該システムは、
    前記ホスト画像を受信するための画像処理回路、
    音声データを受信するための音声処理回路と、
    音声データは埋め込みデータから自由に回復可能な埋め込み画像を提供するために、前記音声データを前記ホスト画像内に埋め込むための埋め込みモジュール、
    を備えることを特徴とするシステム。
  17. 請求項16に記載のシステムにおいて、前記ホスト画像内に前記音声データを埋め込む前に、短時間フーリエ変換を使って前記音声データを処理する前記音声処理回路は短時間フーリエ変換(STFT)モジュールを備える、
    ことを特徴とするシステム。
  18. 請求項16に記載のシステムにおいて、前記ホスト画像内に前記音声データを埋め込む前に、前記音声処理回路が前記音声データに含まれる音声信号を表示するデジタルデータの量を減らす、
    ことを特徴とするシステム。
  19. 請求項18に記載のシステムにおいて、前記音声データを埋め込みに提供するため、前記音声処理回路が前記音声信号の振幅データを量子化し、位相データを廃棄する、
    ことを特徴とするシステム。
  20. 請求項18に記載のシステムにおいて、前記量子化された振幅データが中間輝度データに含まれた後に前記中間輝度データを提供するために、前記画像処理回路が、離散ウェーブレット変換を使って前記輝度データを処理する、
    ことを特徴とするシステム。
  21. 請求項19に記載のシステムにおいて、前記量子化された振幅データが中間輝度データに含まれた後に前記中間輝度データを提供するために、前記画像処理回路が、離散コサイン変換を使って前記輝度データを処理する、
    ことを特徴とするシステム。
  22. 請求項16に記載のシステムにおいて、前記音声データは量子化され、量子化された音声データを提供し、前記量子化された音声は、前記ホスト画像のサブバンドの係数に基づいてスケール化される、
    ことを特徴とするシステム。
  23. 音声データを抽出するために埋め込み画像を処理する方法であって、該方法は、
    前記埋め込み画像の色差成分に離散ウェーブレット変換と離散コサイン変換のいずれかを行うこと、
    前記音声データに関連する量子化された振幅データを識別すること、
    前記識別された振幅データに関連する位相データを推定することと、
    前記量子化されたデータと前記位相データに基づいて出力音声信号を生成すること、
    からなることを特徴とする方法。
  24. 請求項23に記載の方法において、前記振幅データデータはSTFT振幅データである該方法は、
    正弦曲線に対応すると仮定される前記STFT振幅データ内のピークを識別すること、
    前記ピークの瞬時周波数を推定することと、
    前記推定された瞬時周波数から音声データを再構築すること、
    からなることを特徴とする方法。
  25. 請求項23に記載の方法であって、該方法は、
    符号化されたサブバンドから格子コードを抽出すること、
    前記抽出格子コード毎のためにスケール比を推定すること、
    正規化された抽出コードを提供するために、前記スケール比を使って前記抽出格子コードを正規化することと、
    前記量子化された振幅データを提供するために、前記正規化された抽出格子コードに適合する格子コードを求めるため格子コードデーブルを検索すること、
    からなることを特徴とする方法。
  26. 請求項23に記載の方法であって、該方法は前記量子化された振幅データを識別する前に、
    符号化されたサブバンドから格子チャンネルコードを抽出すること、
    各コードの最大絶対値からスケール比を推定すること、
    4格子コードから適合を探すことと、
    STFT振幅データを適用するために、適合を逆量子化すること、
    からなることを特徴とする方法。
  27. 請求項23に記載の方法であって、該方法は、音声データを1組の既知数としてモデル化し、各既知数は前記既知数における信頼性のレベルを表わす対応する重みを有し、このときゼロウェイトは未知数を示し、音声データの抽出STFT振幅は既知数として見なされる、
    ことを特徴とする方法。
  28. 請求項27に記載の方法であって、該方法は各重みを、抽出雑音格子コードと、それから最も近い格子コードの間の距離の関数としてモデル化する、
    ことを特徴とする方法。
  29. ホスト画像から音声データを抽出するためのシステムであって、該システムは、
    前記ホスト画像の輝度成分を提供するために、前記ホスト画像を受信する画像処理回路と、
    前記輝度成分から前記音声データの抽出と、自由に抽出可能な音声データを提供するための音声処理回路を備える、
    ことを特徴とするシステム。
  30. 請求項29に記載のシステムであって、該システムは、
    前記ホスト画像の前記輝度成分に離散ウェーブレット変換を行うための離散ウェーブレット変換モジュールと、
    前記輝度成分に関連する量子化された振幅データを識別するための識別モジュールと、
    識別された振幅データに関連する位相データを推定し、前記量子化された振幅データと位相データに基づいて出力音声信号を生成するための位相回復モジュールとを備える、
    ことを特徴とするシステム。
  31. 請求項29に記載のシステムであって、該システムは、
    前記ホスト画像の前記輝度成分に離散コサイン変換を行うための離散コサイン変換モジュールと、
    前記輝度成分に関連する量子化された振幅データを識別するための識別モジュールと、
    識別された振幅データに関連する位相データを推定し、前記量子化された振幅データと位相データに基づいて出力音声信号を生成するための位相回復モジュールとを備える、
    ことを特徴とするシステム。
  32. 請求項30に記載のシステムにおいて、前記振幅データはSTFT振幅データであり、前記回復モジュールが、
    正弦曲線に対応すると仮定される前記STFT振幅データ内のピークを識別する、
    前記ピークの瞬時周波数を推定する、及び、
    前記推定された瞬時周波数から音声データを再構築するよう設定された、
    ことを特徴とするシステム。
  33. 請求項29に記載のシステムにおいて、格子コードは符号化されたサブバンドから抽出され、各抽出格子コードに対してスケール比が推定され、正規化された抽出格子コードを提供するために、前記抽出格子コードは前記スケール比を使って正規化され、前記量子化された振幅データを提供するために、前記正規化された抽出格子コードに適合する格子コードを求めるために格子コードデーブルが検索される、
    ことを特徴とするシステム。
  34. 指令のシーケンスを具体化する機械可読媒体であって、該指令が機械によって実行されたとき、
    ホスト画像を受信し、
    音声データを受信して、
    埋め込み画像を提供するために、前記ホスト画像データ内に前記埋め込み画像から自由に回復可能な前記音声データを埋め込む、
    ことを特徴とする機械可読媒体。
  35. 指令のシーケンスを具現化する機械可読媒体であって、該指令が機械によって実行されたとき、
    ホスト画像の輝度成分に離散ウェーブレット変換と離散コサイン変換の何れかを行う
    前記識別された振幅データと関連する位相データを推定する、及び、
    前記量子化された振幅データと位相データに基づいて出力音声信号を生成する、反応を機械に生じさせる、
    ことを特徴とする機械可読媒体。
  36. デジタルカメラであって、該デジタルカメラは、
    ホストデジタル画像をキャプチャーするための画像キャプチャーモジュール、
    音声信号をキャプチャーするための音声キャプチャーモジュールと、
    前記ホスト画像内に前記音声信号を埋め込むための画像処理モジュールを備える、
    ことを特徴とするデジタルカメラ。
  37. 請求項36に記載のデジタルカメラを含むモバイル電話。
  38. ホスト画像を処理するシステムであって、該システムは、
    ホスト画像を受信する手段と、
    音声データを受信する手段と、
    埋め込み画像を提供するために、前記埋め込み画像から自由に回復可能な前記音声データを前記ホスト画像内に埋め込む手段とを備える、
    ことを特徴とするシステム。
JP2006545305A 2003-12-19 2004-12-17 デジタル画像を処理するための方法とそのシステム Active JP4568732B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US53102903P 2003-12-19 2003-12-19
PCT/SG2004/000419 WO2005059830A1 (en) 2003-12-19 2004-12-17 Method and system to process a digital image

Publications (3)

Publication Number Publication Date
JP2007515126A true JP2007515126A (ja) 2007-06-07
JP2007515126A5 JP2007515126A5 (ja) 2008-02-14
JP4568732B2 JP4568732B2 (ja) 2010-10-27

Family

ID=34700177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006545305A Active JP4568732B2 (ja) 2003-12-19 2004-12-17 デジタル画像を処理するための方法とそのシステム

Country Status (8)

Country Link
US (1) US8442262B2 (ja)
EP (1) EP1700266A4 (ja)
JP (1) JP4568732B2 (ja)
KR (1) KR101125351B1 (ja)
CN (1) CN100504922C (ja)
AU (1) AU2004300115B2 (ja)
TW (1) TWI463806B (ja)
WO (1) WO2005059830A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7248934B1 (en) 2000-10-31 2007-07-24 Creative Technology Ltd Method of transmitting a one-dimensional signal using a two-dimensional analog medium
CN101398607B (zh) * 2003-12-19 2010-11-17 创新科技有限公司 可打印音频格式
JP4882390B2 (ja) * 2006-01-25 2012-02-22 富士ゼロックス株式会社 画像処理装置
US8725651B2 (en) * 2006-11-01 2014-05-13 Palo Alto Research Center Incorporated System and method for providing private demand-driven pricing
US8712915B2 (en) * 2006-11-01 2014-04-29 Palo Alto Research Center, Inc. System and method for providing private demand-driven pricing
WO2008076897A2 (en) * 2006-12-14 2008-06-26 Veoh Networks, Inc. System for use of complexity of audio, image and video as perceived by a human observer
JP4962783B2 (ja) * 2007-08-31 2012-06-27 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
TWI425372B (zh) * 2009-01-15 2014-02-01 Hon Hai Prec Ind Co Ltd 圖片搜索系統及方法
KR101268934B1 (ko) * 2009-02-13 2013-05-30 고려대학교 산학협력단 데이터 압축/해제장치 및 방법
US8229868B2 (en) * 2009-04-13 2012-07-24 Tokyo Institute Of Technology Data converting apparatus and medium having data converting program
KR101657522B1 (ko) * 2010-11-02 2016-09-19 한화테크윈 주식회사 네트워크 카메라 및 그의 저장장치 운영 방법
CN102034478B (zh) * 2010-11-17 2013-10-30 南京邮电大学 基于压缩感知和信息隐藏的语音保密通信系统设计方法
KR101739942B1 (ko) * 2010-11-24 2017-05-25 삼성전자주식회사 오디오 노이즈 제거 방법 및 이를 적용한 영상 촬영 장치
US9443324B2 (en) 2010-12-22 2016-09-13 Tata Consultancy Services Limited Method and system for construction and rendering of annotations associated with an electronic image
US8737677B2 (en) * 2011-07-19 2014-05-27 Toytalk, Inc. Customized audio content relating to an object of interest
US8694306B1 (en) * 2012-05-04 2014-04-08 Kaonyx Labs LLC Systems and methods for source signal separation
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US9167160B2 (en) * 2012-11-14 2015-10-20 Karl Storz Imaging, Inc. Image capture stabilization
US9728182B2 (en) 2013-03-15 2017-08-08 Setem Technologies, Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
US20150254261A1 (en) * 2014-03-08 2015-09-10 Guerby Rene News Application
US9990928B2 (en) * 2014-05-01 2018-06-05 Digital Voice Systems, Inc. Audio watermarking via phase modification
US9648295B2 (en) * 2014-07-18 2017-05-09 Pankaj Sharma System and methods for simultaneously capturing audio and image data for digital playback
WO2016115483A2 (en) * 2015-01-15 2016-07-21 Hardwick John C Audio watermarking via phase modification
CN106022011A (zh) * 2016-05-30 2016-10-12 合欢森林网络科技(北京)有限公司 基于图像的保密信息传播方法、装置和系统
JP6792360B2 (ja) * 2016-07-12 2020-11-25 キヤノン株式会社 画像符号化装置及び画像復号装置及びそれらの制御方法及びプログラム
EP3270378A1 (en) 2016-07-14 2018-01-17 Steinberg Media Technologies GmbH Method for projected regularization of audio data
CN107864398B (zh) * 2017-11-08 2020-03-20 司马大大(北京)智能系统有限公司 音频与视频的合并方法及装置
KR102473447B1 (ko) * 2018-03-22 2022-12-05 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US10937438B2 (en) * 2018-03-29 2021-03-02 Ford Global Technologies, Llc Neural network generative modeling to transform speech utterances and augment training data
US11244692B2 (en) 2018-10-04 2022-02-08 Digital Voice Systems, Inc. Audio watermarking via correlation modification using an amplitude and a magnitude modification based on watermark data and to reduce distortion
KR102162711B1 (ko) * 2018-12-26 2020-10-07 주식회사 무하유 비텍스트 영역의 표절 검사 방법 및 장치

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04302536A (ja) * 1991-03-29 1992-10-26 Sony Corp ディジタル信号符号化方法
JPH05297892A (ja) * 1992-04-15 1993-11-12 Sony Corp 有声音合成方法
JPH06164520A (ja) * 1992-11-16 1994-06-10 Shodenryoku Kosoku Tsushin Kenkyusho:Kk 音声符号化方法及び装置
JPH0863197A (ja) * 1994-08-23 1996-03-08 Sony Corp 符号化音声信号の復号化方法
JP2001060875A (ja) * 1999-08-20 2001-03-06 Matsushita Joho System Kk 埋め込み装置、デジタルカメラ及び記録媒体
US6332030B1 (en) * 1998-01-15 2001-12-18 The Regents Of The University Of California Method for embedding and extracting digital data in images and video
JP2003525473A (ja) * 2000-02-29 2003-08-26 クゥアルコム・インコーポレイテッド 閉ループのマルチモードの混合領域の線形予測音声コーダ

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US217214A (en) * 1879-07-08 Improvement in wooden floor-matting
US3439598A (en) * 1966-05-25 1969-04-22 Weitzner D Camera and sound recording device
JPH0236825U (ja) * 1988-09-02 1990-03-09
US5128700A (en) * 1989-05-12 1992-07-07 Minolta Camera Kabushiki Kaisha Camera capable of recording sounds relevant to the photographing
JPH032738A (ja) * 1989-05-30 1991-01-09 Minolta Camera Co Ltd オートトリミングカメラ
US5313564A (en) * 1990-07-11 1994-05-17 Fontech Ltd. Graphic matter and process and apparatus for producing, transmitting and reading the same
US5247330A (en) * 1990-08-02 1993-09-21 Canon Kabushiki Kaisha Image input device
US6631842B1 (en) * 2000-06-07 2003-10-14 Metrologic Instruments, Inc. Method of and system for producing images of objects using planar laser illumination beams and image detection arrays
US5276472A (en) * 1991-11-19 1994-01-04 Eastman Kodak Company Photographic film still camera system with audio recording
US5369261A (en) * 1992-02-12 1994-11-29 Shamir; Harry Multi-color information encoding system
DE4330265B4 (de) * 1992-09-07 2004-07-29 Canon K.K. Vorrichtung zum Erfassen der Sehachse eines Auges einer ein optisches Gerät bedienenden Person
DK0670555T3 (da) * 1992-09-28 2000-09-18 Olympus Optical Co Registreringsmedium med prikkode og informationsregistreringssystem
US5521663A (en) * 1992-10-28 1996-05-28 Norris, Iii; Wyamn J. Sound system for still film photography
US5801848A (en) * 1993-01-06 1998-09-01 Fontech Ltd. Process for transmitting and/or storing information
US5363157A (en) 1993-08-19 1994-11-08 Eastman Kodak Company Camera utilizing variable audio film frame for optical encoding of audio information
JP3373008B2 (ja) * 1993-10-20 2003-02-04 オリンパス光学工業株式会社 画像像域分離装置
US5389989A (en) * 1993-10-29 1995-02-14 Eastman Kodak Company Camera for recording digital and pictorial images on photographic film
JP3244371B2 (ja) * 1993-12-22 2002-01-07 オリンパス光学工業株式会社 オーディオ情報処理システム及びオーディオ情報処理方法
JPH0981711A (ja) * 1995-09-20 1997-03-28 Olympus Optical Co Ltd 情報記録媒体、情報再生システム、及び情報記録システム
US6226387B1 (en) * 1996-08-30 2001-05-01 Regents Of The University Of Minnesota Method and apparatus for scene-based video watermarking
JP2942736B2 (ja) * 1996-09-03 1999-08-30 オリンパス光学工業株式会社 コード記録装置
US5863209A (en) * 1997-05-08 1999-01-26 L&K International Patent & Law Office Educational image display device
JPH114398A (ja) * 1997-06-11 1999-01-06 Hitachi Ltd デジタルワイドカメラ
JPH117487A (ja) * 1997-06-18 1999-01-12 Olympus Optical Co Ltd コードリーダー装置
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
CN1163794C (zh) * 1997-06-30 2004-08-25 诺日士钢机株式会社 图象处理装置和音频编码记录媒体
AUPO939597A0 (en) * 1997-09-23 1997-10-16 Silverbrook Research Pty Ltd Data processing method and apparatus (ART4)
JPH11122401A (ja) * 1997-10-17 1999-04-30 Noritsu Koki Co Ltd 音声コード付き写真作成装置
US5996893A (en) * 1997-10-28 1999-12-07 Eastman Kodak Company Method and apparatus for visually identifying an area on a photograph or image where digital data is stored
JPH11164128A (ja) * 1997-11-28 1999-06-18 Olympus Optical Co Ltd 音声コードイメージ付静止画像形成装置
US6229964B1 (en) * 1998-02-26 2001-05-08 Eastman Kodak Company Image with sound playback apparatus
CA2329179A1 (en) 1998-04-21 1999-10-28 Intacta Labs Ltd. Process for transmitting, receiving and/or storing information
EP1103026A1 (en) * 1998-06-01 2001-05-30 Datamark Technologies PTE Ltd Methods for embedding image, audio and video watermarks in digital data
JPH11353420A (ja) * 1998-06-08 1999-12-24 Olympus Optical Co Ltd コードイメージ読取装置
US6618511B1 (en) * 1999-12-31 2003-09-09 Stmicroelectronics, Inc. Perspective correction for panoramic digital camera with remote processing
US7024046B2 (en) * 2000-04-18 2006-04-04 Real Time Image Ltd. System and method for the lossless progressive streaming of images over a communication network
WO2002017214A2 (en) * 2000-08-24 2002-02-28 Digimarc Corporation Watermarking recursive hashes into frequency domain regions and wavelet based feature modulation watermarks
US7248934B1 (en) * 2000-10-31 2007-07-24 Creative Technology Ltd Method of transmitting a one-dimensional signal using a two-dimensional analog medium
US6915009B2 (en) * 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
JP2003348327A (ja) 2002-03-20 2003-12-05 Fuji Photo Film Co Ltd 情報検出方法および装置並びにプログラム
US7179982B2 (en) * 2002-10-24 2007-02-20 National Institute Of Advanced Industrial Science And Technology Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
JP2004153737A (ja) 2002-11-01 2004-05-27 Fuji Photo Film Co Ltd 音声記録方法および音声再生方法並びに電子カメラ
JP2004163485A (ja) 2002-11-11 2004-06-10 Fuji Photo Film Co Ltd 音声再生システムおよび音声データコード並びに電子カメラ
JP2004173172A (ja) 2002-11-22 2004-06-17 Fuji Photo Film Co Ltd 音声再生システムおよび電子カメラ
JP3891111B2 (ja) * 2002-12-12 2007-03-14 ソニー株式会社 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
US20050041120A1 (en) * 2003-08-18 2005-02-24 Miller Casey Lee System and method for retrieving audio information from a captured image
CN101398607B (zh) * 2003-12-19 2010-11-17 创新科技有限公司 可打印音频格式

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04302536A (ja) * 1991-03-29 1992-10-26 Sony Corp ディジタル信号符号化方法
JPH05297892A (ja) * 1992-04-15 1993-11-12 Sony Corp 有声音合成方法
JPH06164520A (ja) * 1992-11-16 1994-06-10 Shodenryoku Kosoku Tsushin Kenkyusho:Kk 音声符号化方法及び装置
JPH0863197A (ja) * 1994-08-23 1996-03-08 Sony Corp 符号化音声信号の復号化方法
US6332030B1 (en) * 1998-01-15 2001-12-18 The Regents Of The University Of California Method for embedding and extracting digital data in images and video
JP2001060875A (ja) * 1999-08-20 2001-03-06 Matsushita Joho System Kk 埋め込み装置、デジタルカメラ及び記録媒体
JP2003525473A (ja) * 2000-02-29 2003-08-26 クゥアルコム・インコーポレイテッド 閉ループのマルチモードの混合領域の線形予測音声コーダ

Also Published As

Publication number Publication date
TW200527825A (en) 2005-08-16
CN100504922C (zh) 2009-06-24
US8442262B2 (en) 2013-05-14
CN1898695A (zh) 2007-01-17
JP4568732B2 (ja) 2010-10-27
EP1700266A1 (en) 2006-09-13
AU2004300115A1 (en) 2005-06-30
KR20060112668A (ko) 2006-11-01
EP1700266A4 (en) 2010-01-20
US20050212930A1 (en) 2005-09-29
KR101125351B1 (ko) 2012-03-28
TWI463806B (zh) 2014-12-01
AU2004300115B2 (en) 2010-11-25
WO2005059830A1 (en) 2005-06-30

Similar Documents

Publication Publication Date Title
JP4568732B2 (ja) デジタル画像を処理するための方法とそのシステム
Swanson et al. Multimedia data-embedding and watermarking technologies
US8355525B2 (en) Parallel processing of digital watermarking operations
Subburam et al. High performance reversible data hiding scheme through multilevel histogram modification in lifting integer wavelet transform
Busch et al. Digital watermarking: From concepts to real-time video applications
Barni et al. Watermark embedding: Hiding a signal within a cover image
Yang et al. A contrast-sensitive reversible visible image watermarking technique
JP2012500565A (ja) 圧縮ビデオにおける構文要素のcabac/avc準拠の透かし入れ
Weng et al. Integer transform based reversible watermarking incorporating block selection
Weng et al. Pairwise IPVO-based reversible data hiding
Paruchuri et al. Video data hiding for managing privacy information in surveillance systems
Lakshmi et al. Difference expansion based reversible watermarking algorithms for copyright protection of images: state-of-the-art and challenges
Tran et al. Lsb data hiding in digital media: a survey
Kothari et al. Watermarking techniques for copyright protection of videos
CN111491171B (zh) 水印嵌入、水印提取、数据处理及视频帧检测方法
Kapre et al. Key-frame extraction based video watermarking using speeded up robust features and discrete cosine transform
Kranakis et al. Steganography & steganalysis an overview of research & challenges
D’Angelo et al. Watermark-based authentication
Huang et al. Copyright protection with EXIF metadata and error control codes
Gosavi et al. Video authentication and copyright protection using unique watermark generation technique and singular value decomposition
Su Information hiding in digital images: watermarking and steganography
El Salam et al. Reversible data-hiding exploiting huffman encoding in dual image using weighted matrix and generalized exploiting modification direction (GEMD)
Alkanhel et al. Securing Color Video When Transmitting through Communication Channels Using DT-CWT-Based Watermarking. Electronics 2022, 11, 1849
Moti Effects of Different Manipulations on Images and Audio with a Watermark Embedded
Ahmed Digital watermarking of still images

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071217

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100713

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100809

R150 Certificate of patent or registration of utility model

Ref document number: 4568732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250