JP2007515126A

JP2007515126A - デジタル画像を処理するための方法とそのシステム

Info

Publication number: JP2007515126A
Application number: JP2006545305A
Authority: JP
Inventors: ウァンホーシム; トーオンデズモンドヒー
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2003-12-19
Filing date: 2004-12-17
Publication date: 2007-06-07
Anticipated expiration: 2024-12-17
Also published as: TW200527825A; CN100504922C; US8442262B2; CN1898695A; JP4568732B2; EP1700266A1; AU2004300115A1; KR20060112668A; EP1700266A4; US20050212930A1; KR101125351B1; TWI463806B; AU2004300115B2; WO2005059830A1

Abstract

デジタル画像を処理するための方法と装置が提供される。該方法はホスト画像データを受信すること、音声データを受信することと、音声データが埋め込み画像から自由に回復可能な埋め込みデータを提供するために、ホスト画像データ内に音声データを埋め込むことを含む。該方法は、ホスト画像データ内に音声データを埋め込む前に短時間フーリエ変換（ＳＴＦＴ）を使って音声データを処理することを含むことができる。該方法は、ホスト画像データ内に音声データを埋め込む前に音声データに含まれる音声信号を示すデジタルデータの量を削減する。ある実施形態において、該方法は、振幅データを量子化することと、埋め込みのために音声データを提供するため、音声信号の位相を廃棄することを含む。該方法は、Ｄ４格子のシェルと整合するために音声データを量子化することを含む。

Description

本発明は、２００３年１２月１９日に出願された「デジタル画像を処理するための方法とそのシステム」と題する米国仮出願番号第６０／５３１、０２９からの優先権に基づく便益を主張するもので、該内容は言及することにより本明細書に盛り込まれている。

本発明は、一般的にはデジタル信号処理の分野、さらに詳細には、例えばデジタル静止画像などのデジタル画像を処理するための方法と、該方法を実行するためのシステムに関連する。

デジタルネットワークは、消費者にマルチメディア情報を提供する方法としてますます一般化してきている。しかしながら、マルチメディアコンテンツにおける所有権の執行は、デジタルメディアが利益を目的として配信されていることから一番の関心事である。デジタル透かし、及びデータハイデイングの方法は、先行技術おいてデジタルメディアの違法配信の問題の解決策を提供するものとして公知である。これらのアプリケーションにおける目標は、隠されたデータが、彼または彼女が認可された場合に、その人のみによって読み出されることを保証することにある。データハイディングは、少量の特定身元情報が提供されるデジタル透かしとは反対に、大量のデータが隠されるときに一般的に適応される。

よって、今日までのデジタルビデオ処理手段は、デジタル透かしと電子署名を使うマルチメディアを識別することに重点が置かれてきた。しかしながら、電子署名は、特別なソフトウェアまたは単一の承認された人、または承認された人の限られたグループにのみ与えられたキー無しには認証することができない。特定の状況において、デジタル透かしそれ自体は、暗号化とは反対に、デジタル透かしの最大の目的が不正変更を耐えることであるため機密ではない。もちろんデジタル透かしもまた暗号化が可能である。
米国特許第６，３３２，０３０号明細書国際公開第０２／０１７２１４号パンフレット豪州特許第８５２９１／０１号明細書米国特許第６，６８３，９６６号明細書米国特許第６，７１４，６８３号明細書米国特許出願公開第２００４／２６４７３２号明細書 D. Mukherjee et al, A Source and Channel Coding Approach to Data Hiding with Application to Hiding Speech in Video Proc. 1998 International Conference on Image Processig, pp.348-52, October 1998 A. Giannoula et al, Compressive Data Hiding for Video Signals Proc. 2003 International Conference on Image Processing, pp.529-32, September 2003 M. D. Swanson et al, Data Hiding for Video-in-Video Proc. 1997 International Conference on Image Processing, pp.676-9, October 1997 J. J. Chae et al, A Technique for Image Data Hiding and Reconstruction without Host Image Proc. of the SPIE-The International Society for Optical Engineering, pp.386-96, Jan 1999 R. B. Wolfgang et al, Perceptual Watermarks for Digital Images and Video Proc. IEEE (Special Issue on Information Hiding), 87(7), pp.1108-26, July 1999 M. D. Swanson et al, Multimedia Data-Embedding and Watermarking Technologies Proc. IEEE (Special Issue on Multimedia Signal Processing), 86(6), pp.1064-87, June 1998 A. Giannoula et al, Integrating Compression with Watermarking on Video Sequences Proc. 2004 International Conference on Information Technology, pp.159-60, April 2004

本発明に従って、ホスト画像を処理するための方法が提供され、該方法は
前記ホスト画像を受信すること、
音声データを受信することと、
前記音声データが埋め込み画像から自由に回復可能な前記埋め込み画像を提供するために、前記ホスト画像内に前記音声データを埋め込むこと
からなる。

前記方法は、前記ホスト画像内に前記音声データを埋め込む前に、前記音声データに含まれる音声信号を表わすデジタルデータの量を削減することを含んでもよい。ある典型的な実施形態において、該方法は短時間フーリエ変換を使って前記音声データを変換すること、振幅データを量子化すること及び前記音声データを埋め込みのために提供するため前記音声信号の位相データを放棄することからなる。前記音声データは、量子化され、Ｄ₄格子コードに貼り付けられる。前記Ｄ₄格子コードの前記格子コードは、ホスト画像の歪曲を最小限にするために拡大縮小される。

ある典型的な実施形態において、該方法は前記ホスト画像の輝度データと色差データを分離すること、変更を加えた輝度データを提供するために、前記輝度データに前記音声データを含むこととと、組み込み画像を提供するために、前記修正輝度データと前記色差データを組み合わせることからなる

該方法は、中間輝度データを提供するために前記輝度データを処理すること、知覚的に順応されたサブバンドを提供するために、前記中間輝度データの少なくとも１つのサブバンドに知覚順応を行うことと、前記修正輝度データを提供するために、前記音声データを前記の知覚的に適応されたサブバンドに含むことからなる。

ある典型的な実施形態において、該方法は、さらなる中間輝度データを提供するために、前記中間輝度データから少なくとも１つのサブバンドを除去することからなる。知覚的に適応されたサブバンドは、前記修正輝度データを提供するために、前記さらなる中間輝度データと組み合わされる。逆変換が前記修正輝度データに対して行われ、逆変換された該輝度データは、デジタル画像を定義する埋め込みホストを提供するために、前記色差データと組み合わされる。前記輝度データは離散ウェーブレット変換また離散コサイン変換によって処理される。前記音声データは量子化され、ホスト画像のサブバンドの係数に基づいてスケール化される。

ある典型的な実施形態において、該方法は、前記ホスト画像の一部をマスクすることと、ホスト画像データのためにマスクされた部分を確保することを含む。別の実施形態において、該方法は、マスクされた部分とマスクされていない部分を提供するために、ホスト画像の一部をマスクすることと、前記のマスクされた部分とマスクされていない部分の両方における音声データを埋め込むことを含み、この時マスクされた部分よりもマスクされていない部分の方が１ピクセルあたり多くの音声データが記録される。前記画像はデジタル写真である。

本発明は、音声データを抽出するために埋め込みデータを処理するための方法に拡大し、該方法は、
前記埋め込み画像の輝度成分に離散ウェーブレット変換と離散コサイン変換の何れか１つを行うこと、
前記音声データに関連する量子化された振幅データを識別すること、
前記識別された振幅データに関連する位相データを推定することと、
前記量子化された振幅データと位相データに基づいて、出力信号を生成することからなる。

前記方法は、埋め込み画像に含まれる各格子コードに対するスケール比を推定することと、前記量子化された振幅データを提供するために、前記格子コードを正規化するためそれをスケール化することからなる。ある典型的な実施形態において、前記量子化された振幅データを識別する前に、前記方法は符号化されたサブバンドから格子チャンネルコードを抽出すること、各コードの最大絶対値からスケール比を推定すること、Ｄ₄格子コードから適合物を探すことと、ＳＴＦＴ振幅データを提供するために前記適合物を逆量子化することからなる。

前記方法は、前記音声データを既知数の組としてモデル化することからなり、各既知数は既知数内における信頼性の度合を示す対応する重みを有し、その時ゼロウェイトは未知数を示し、前記音声データの抽出されたＳＴＦＴ振幅は既知値としてみなされる。各重量は、抽出された雑音格子コードとそれから最も近い格子コードの間の距離の関数としてモデル化される。

さらに本発明に従って、ホスト画像を処理するためのシステムが提供され、該システムは、
前記ホスト画像を受信するための画像処理回路と、
音声データを受信するための音声処理回路と、
音声データが埋め込み画像から自由に回復可能である前記埋め込みデータを提供するために、前記ホスト画像内に前記音声データを埋め込む埋め込みモジュールを備える。

本発明は、ホスト画像から音声データを抽出するためのシステムへと拡大し、該システムは、
前記ホスト画像を受信し、前記ホスト画像の輝度成分を提供するための画像処理回路と、
前記輝度成分から前記音声データを抽出し、自由に抽出可能な音声データを提供するための音声処理回路
を備える。

該システムは、前記ホスト画像の輝度成分に離散ウェーブレット変換を行うための離散ウェーブレット変換モジュール、輝度成分に関連する量子化された振幅データを識別するための特定モジュールと、前記輝度成分に関連する量子化された振幅データを識別するための識別モジュールと、前記識別された振幅データに関連する位相データを推定するため、及び前記量子化された振幅データと位相データに基づいて出力信号を生成するための位相回復モジュールからなる。

本発明はまた、機械により実行された場合に、ここにおいて記述される１つまたはそれ以上の方法を機械が実行するよう反応を生じさせ、またはここにおいて記述されるシステムの１つまたはそれ以上を実施するように設定された指令の列を具体化する機械可読媒体に拡大する。本発明はまた、デジタルカメラと、デジタルカメラを含むモバイル電話にも拡大する。

本発明の別の特徴は、付随の典型的な図表と、それに続く記述によって明からになるであろう。

デジタル画像データを処理するための方法と、そのシステムが記述される。下記の記述において、本発明の一貫した理解を提供するために、説明の目的、数々の具体的な詳細が記載される。しかしながら、当業者にとって、本発明はこれらの具体的な詳細なしに実施できうる。本発明は、実例を通して、写真またはデジタルカメラで撮った「スナップ」などの静止画に／から音声データを埋め込むこと及び抽出することを参照して記述される。しかしながら、本発明がビデオと他のマルチメディア環境を含むどのようなデジタル信号処理アプリケーションに適用できることが理解されるであろう。

本発明のある典型的な実施形態において、静止画などのカラーホスト画像に音声信号（例えばスピーチ信号）を埋め込むための方法と、そのシステムが提供される。以下でさらに詳述されるように、音声信号の短時間フーリエ変換の振幅は、格子コード化されていて、ホスト画像のウェーブレット変換または離散コサイン変換のサブバンドに注入される。本発明のある実施形態において、これらに限定されるわけではないが、パーソナルデジタルアシスタント（ＰＤＡ）、セルラー電話、デジタルカメラ、パーソナルコンピューター（ＰＣ）等、どのようなコンピュータまたは処理装置を使ってキャプチャーする、または再生することができる「喋る写真」が提供される。しかしながら本発明は、例証として、デジタルカメラを参照して記述される。また、ここで記述されるデジタルカメラ、またはそれのどのような構成要素もＰＤＡ、セルラー電話、ｗｅｂカメラまたは他のどのようなコンピュータまたは処理装置に含まれることが理解されるであろう。

特に図1を参照して、参照番号１０は本発明の典型的な実施形態に従い一般的に典型的なデジタルカメラを示す。カメラ１０は、画像をキャプチャーするための光学システムまたは画像キャプチャーモジュール１２を含めて示される。従って、デジタルカメラ１０は、画像キャプチャーモジュール１２を制御するための光学システム制御装置１４と、随意的に、画像キャプチャーモジュール１２から受信したデジタル信号（例えばデジタルデータの形式で）を処理するための画像処理モジュール１６を含む。画像キャプチャーモジュール１２は、例えば従来型のＣＣＤ検出器等である。ある実施形態において、画像キャプチャーモジュール１２は、静止ホスト画像または「写真」をキャプチャーし、それらはその後処理のために静止画像処理装置１８に供給される。静止画像はその後Ｉ／Ｏインターフェイス２０を介して外部機器に伝達され、可撤性記憶機器２２に記録される。デジタルカメラ１０の操作を制御するために、メモリー／カメラ制御プログラムとデータモジュール２４が備えられる。

スピーチ等の音声をキャプチャーするために、カメラ１０は、音声キャプチャーモジュール２６と、随意的に音声処理モジュール２８を含む。音声データはその後、静止画像処理装置１８に供給され、以下で詳細に記述されるように、静止画像処理装置１８はその後画像キャプチャーモジュール１２によってキャプチャーされた前記ホスト画像に前記音声データを埋め込む。図１に示されている様々なモジュールはただ単に典型的なモジュールであって、典型的なデジタルカメラの別の実施形態においてさらなる、または別のモジュールを含むことができることが理解されるであろう。例えば、セルラー電話内に備えられたデジタルカメラは、セルラー電話への統合を促進するために、他のモジュールを含む。また、例えば、デジタルカメラ１０は、ＰＤＡ、ｗｅｂカメラ等へのデジタルカメラ１０の統合を促進するために他のモジュールを含む。よって、典型的なデジタルカメラ１０はカメラの特定の応用、例えば単体カメラ、ＰＤＡ、セルラー電話カメラ等によって、異なるモジュールを含むことが理解されるであろう。

図２を参照して、参照番号３０は、本発明の典型的な実施形態に従って、一般的に音声データを画像内に埋め込むために該画像を処理する典型的なシステムを示す。ある実施形態において、前記画像は静止画像であり、システム３０はデジタルカメラ１０の静止画像処理装置１８内に含まれる。しかしながら、システム３０は、単体ユニットまたはホスト画像（静止画あるいはビデオ）をキャプチャーするどのような別のコンピューター機器内に統合されたものとして提供されることが理解されるであろう。

システム３０は、ＲＧＢホスト画像信号（またはデータ）３２と典型的にはスピーチ信号（またはデータ）の形式の音声信号（またはデータ）３４を処理するための複数の機能モジュールを含む。システム３０は複数の個別の機能モジュールを含む形で示されているが、別の実施形態において、様々なモジュールは単一の機能ユニットに組み合わされる、または統合されてもよく、また、さらなるモジュールが含まれることを理解するであろう。また、キャプチャーされたホスト画像は他の形式であることがあり、それはＲＧＢ画像に限定されない。典型的なシステム３０において、様々なモジュールは画像処理回路３１と音声処理回路３３によって提供される。

典型的なシステム３０は、ＲＧＢからＹＣｂＣｒ変換モジュール３６、離散ウェーブレット変換モジュール３８、フィルターモジュール４０、知覚分析モジュール４１、短時間フーリエ変換（ＳＴＦＴ）モジュール４２、量子化モジュール４４、Ｄ₄格子コードモジュール４６、検索モジュール４８、逆離散ウェーブレット変換モジュール５０、及びＹＣｂＣｒからＲＧＢ変換モジュール５２を含んだ形で示される。以下でさらに詳細に記述されるように、ある典型的な実施形態において、システム３０は、ＳＴＦＴの振幅だけが符号化されホスト画像内に埋め込まれ、音声のグレースフルデグラデーションを可能にする。また、システム３０は、以下でさらに詳細に記述されるように、音声データを符号化するために適応格子コードを使う。

図３は本発明に従って、ＲＧＢホスト画像信号３２などのホスト画像内に音声信号を埋め込むことによってデジタル画像を処理する典型的な方法６０を示す。方法６０はホスト画像データに音声データを含めるためにどのようなデジタル画像を処理するためのどのような機器にも適用できるが、方法６０は例証として、システム３０を参照して記述される。

操作６２で示されるように、システム３０はＲＧＢホスト画像信号３２を受信し、その後、ＲＧＢ成分（またはデータ）をＹ、Ｃｂ、及びＣｒチャンネル（ＲＧＢからＹＣｂＣｒ変換モジュール３６参照）に変換するために色空間変換が操作６４で行われる。よって、色空間変換後、ＲＧＢホスト画像信号３２は別々の色差と輝度チャンルまたは成分６６、６８にそれぞれ変換される（図３の操作７０参照）。色差と輝度チャンネル６６、６８はデジタルデータによって定義される。

方法６０はその後、知覚分析モジュール４１に供給される中間輝度データ７４を提供するために、典型的な２レベル離散ウェーブレット変換を操作７２で行う（操作７６参照）。操作７６における知覚分析は、人間視覚システムモデルに基づいた知覚情報を使い、それにより前記ホスト画像に埋め込まれた前記音声データは、人間の目によって見られたときに画像を可能な限り小さく変更する。本発明のある実施形態において、知覚分析モジュール４１は今日までデジタル透かしにのみ適用されてきたものと同様の技術を使う。また、中間輝度データ７８は、ろ過された輝度データ８７を提供するために、１つまたはそれ以上のサブバンドを選択しろ過するために（例えばゼロアウト）（操作８０参照）フィルターモジュール４０に供給される。

操作７６の知覚分析に戻って、知覚的に適応された輝度サブバンドデータ８２は、知覚的に適応された音声データ８８を提供するために、８４で音声データと組み合わされる（操作８６参照）。その後、８９で示されているように、知覚的に適応された音声データ８８は、修正輝度データ９１を提供するために、ろ過された輝度データ８７と組み合わされる（操作９０参照）。操作９２で示されるように、逆離散ウェーブレット変換（逆離散ウェーブレット変換モジュール５０参照）が修正輝度データ９１に対して行われる。

逆離散ウェーブレット変換モジュール５０によって逆変換されていた修正輝度データ９１は、その後色差成分６６と組み合わされ、ＹＣｂＣｒからＲＧＢ変換モジュール５２でＹＣｂＣｒからＲＧＢ成分に変換される。処理された出力またはＹＣｂＣｒからＲＧＢ変換モジュール５２の埋め込み画像５６は、よって音声信号（またはデータ）３４が埋め込まれたＲＧＢホスト画像信号（またはデータ）３２である。

ある典型的な実施形態において、ウェーブレット変換された輝度データのＬＬ−ＨＨサブバンド１００（図７、及び図２の知覚分析モジュール４１参照）は、音声データを埋め込むまたはホストするために使われる。別の実施形態において、高周波数サブバンド１０２は、それが高い容量を提供し、よって出力埋め込み画像５６におけるホスト画像信号またはデータ３２の潜在的な知覚上の歪曲が少ない音声データの大きな量子また量を埋め込みまたはホストを可能とするものとして使われる。しかしながら、高周波数サブバンド１０２は、埋め込み画像５６に対して行われる損失性画像圧縮に脆弱である。ホスト画像の低周波数サブバンド１０４もまた、音声データを埋め込むために使われるが、知覚的歪曲を導入し、音声データ３４を記憶するための容量が低い。（よってホスト画像内に少量の音声データしか受け入れられないまたは埋め込まれない。）よって、ある実施形態において、ＬＬ−ＨＨサブバンド１００が、潜在的に損失性画像圧縮の特徴を持つ高周波数サブバンド１０２と、音声データを埋め込むには潜在的に容量が低い低周波数サブバンド１０４との間の妥当なバランスを提供するものとして使われる。ある実施形態において、約５倍の位数のチャンネル能力の増加が、低ＪＰＥＧ圧縮設定に対して、ＨＨサブバンド１０２に音声データ３４を含むことで提供される。

参照番号１１０（図４参照）は本発明に従って、一般的に音声データをホスト画像に埋め込むために処理する典型的な方法を示す。ある実施形態において、方法１１０はシステム３０のホストイメージ画像３２内の音声データ３４（図２参照）を処理するために使われる。操作１１２で示されているように、方法１１０は、音声データ（例えばどのような音声信号を示すのであっても）例えば８ｋＨｚでサンプリングされたデジタルスピーチを受信する。その後、操作１１４で示されているように、音声データの短時間フーリエ変換（ＳＴＦＴ）が実行され（例えば図２のＳＴＦＴモジュール４２を参照）、変換されたスペクトルデータの位相（ＳＴＦＴ位相）がその後廃棄され、操作１１６で示されているように、変換されたスペクトルデータの振幅（ＳＴＦＴ振幅）が量子化される（例えば２４レベルに）。位相を廃棄することは、その品質を低減するように音声を低下させるが、依然としてその後の該音声の再構成に十分な情報を提供する。その後、量子化された振幅は、Ｄ₄格子コードに貼り付けられる（操作１１８参照）。方法１１０の出力は、上述したように、知覚的に適応された音声データ８８を提供するために、知覚的に適応された輝度サブバンドデータ８２と組み合わされた４次元（４Ｄ）チャンネルコード化された音声データを提供する。

ある典型的な実施形態において、方法１１０は、システム３０上で実施されたとき、位相が廃棄された後に５０％の重複でＳＴＦＴ変換された８ビット８ｋＨｚの形式の音声データ３４を受信する。各スペクトル振幅は、Ｄ₄格子の最初のシェルに適合するように、２４レベルに量子化される（例えば均一に）。ある実施形態において、貼り付けは、格子コードが付加的なノイズによって破損したときに、それを示す（ＳＴＦＴ振幅）データ内のエラーが最小限になるように行われる。従って、そのような要件は、ＲＧＢホスト画像またはデータ３２内に埋め込まれた音声データのグレースフルデグラデーションの達成に寄与する。ある実施形態において、適応されたコード化がホスト画像の領域を分析するために使われ、該分析に対して、例えば周波数、輝度、及びコントラストマスキングに対する人間視覚感度に基づき、符号強度上で決定される。例えば、高周波数または高度に加工された領域においてはより大きな歪曲が許容可能であり、従って、知覚された透明度を維持しながら（典型的な観察条件下でのホスト画像の低減された歪曲）、より高い堅牢性のために高い符号強度が使われる。澄んだ青い空のような明るい低周波数領域において、透明度を改善するために低い符号強度が使われるが、堅牢性が犠牲となる（埋め込みホスト画像が、線形または非線形操作を受けた後の音声データの修正）。ある実施形態において、ウェーブレットサブバンドの係数が領域の周波数成分を決定する場合、そのような周波数感度に基づく単純な図式が使われる。知覚的適応は、格子コードが置換する、対応するサブバンド係数に基づいて（図３の操作７６参照）、格子コードをスケール化することで実行することができる。

例えば、
Ｓｃａｌｅ＝ｍａｘ（｜Ｄ_i｜）（1）
このとき
０＜＝ｉ＜＝３、及びＤ_iは置換のために選択されたサブバンドの４つの係数である。
Ｓ＝Ｓｃａｌｅ＊Ｓｇｌｏｂａｌ（2）
Ｓ＜ＳｍｉｎであればＰ＝Ｓｍｉｎ，Ｓ＞ＳｍａｘであればＰ＝Ｓｍａｘ，それ以外のすべての状況であればＰ＝Ｓ（3）
Ｄ_i‘＝Ｐ＊Ｃ_i （4）
このときＤ_i‘は新たな係数であり、Ｃ_iは格子コードであり、Ｓｇｌｏｂａｌは全体のスケール化要素であり、Ｓｍｉｎ及びＳｍａｘは歪曲を制限する。Ｓｇｌｏｂａｌと共に、Ｄ_iは格子コードＳの強度を決定し、知覚分析要素を提供する。Ｓは高周波数領域に対してより大きければ、歪曲をより良くマスクする。

ある実施形態において、Ｓｍｉｎ、ＳｍａｘとＳｇｌｏｂａｌ変数は調整可能である。Ｓｍｉｎは、埋め込み音声に起因するホスト画像の最小歪曲を設定し、Ｓｍｉｎを増加させることは全体的なより高い堅牢性に帰結するが、画像の歪曲を増加させる。Ｓｍａｘは、埋め込み音声に起因するホスト画像の最大歪曲を限定する。ある典型的な実施において、Ｓｇｌｏｂａｌは１．０に設定され、Ｓｍｉｎは１．０または２．０に等しく、Ｓｍａｘは４．０に等しい。Ｓｍｉｎ＝１．０の時、歪曲はあまり目に付かない。本発明は、格子コード化を参照しそれを例証として記述されているが、他の実施形態において、バイナリー符号化（または他の適当な技術）が使われることが理解されるであろう。しかしながら、特定の環境において、格子コード化は高いノイズ耐性を提供する。

具体的に図５を参照して、参照番号１２０は、本発明に従って、例えば埋め込みホスト１２２などのデジタル画像から音声データを読み出すまたは抽出するためにデジタル画像を処理する典型的なシステムを一般的に示す。システム１２０は、例えば方法１２４を実行するために使われる（図６参照）。システム１２０はＲＧＢからＹＣｂＣｒ変換モジュール１２６、離散ウェーブレット変換モジュール１２８、格子コード抽出モジュール１３０、スケール比推定モジュール１３２、適合モジュール１３４、逆量子化モジュール１３６、フィルターモジュール１３８、及び位相回復モジュール１４０を含む。下で詳細に記述されているように、システム１２０と方法１２４は、埋め込み画像１２２内の埋め込み音声の抽出を可能にする。よって、例えばＲＧＢホスト画像３２内に埋め込まれている音声データ３４（図２参照）は読み出しまたは再構築される。システム１２０と方法１２４もまた、例えばデジタルカメラ１１０内に含むことができる。しかしながら、他の実施形態において、システム１２０と方法１２４は、ＰＤＡ、カメラを含むセルラー電話、または他のどのような演算機器（例えばパーソナルコンピューター）に提供することができ、それにより、それらの機器によって受信された画像に埋め込まれた音声データを再生でき、ホスト画像を見ることができる。デジタル画像が再生されるとき、視覚２次元画像（ホスト画像に対応する）はその後ユーザーに表示され、該画像内に埋め込まれた付随の音声データも同時に再生される。従って、埋め込みデータを含むデジタル画像は、よって「喋る写真」または「喋る画像」のようになる。音声データ３２がホスト画像データ３２内に埋め込まれているように、画像データ３２と音声データ３４から単一体または搬送媒体が形成されることを理解するであろう。従って、二つの別々のファイルは通信されず、画像と音声データは融合または混ざり合わされており、画像の重複の複製は、同様に音声の重複の複製に帰結する。

システム１２０と方法１２４に戻り、操作１４２で示されているように（図６参照）、システム１２０（図５）は埋め込み画像１２２（例えば、図２の埋め込み画像５６に対応する）を受信し、その後（もし必要であれば）操作１４４で示されているように、ＹＣｂＣｒ成分を提供するために、ＲＧＢ成分を変換する（ＲＧＢからＹＣｂＣｒ変換モジュール１２６も参照）。輝度データであるＹ１４６はその後、離散ウェーブレット変換を行う（操作１４８参照）離散ウェーブレット変換モジュールに供給され、その後符号化サブバンドから格子コードが抽出される（操作１５０と抽出モジュール１３０参照）。格子抽出モジュール１３０の出力は、スケール化された４−Ｄチャンネル符号であり、それはその後最良または適した適合を見つけるため適合モジュール１３４に供給される正規化４−Ｄチャンネル符号を生成するために、操作１５２でスケール比推定を受ける（スケール比推定モジュール１３２も参照）。適合モジュール１３４は格子コードモジュール４６を検索し、最良または適当な適合を見つけ、ＳＴＦＴ振幅を得るために逆量子化（逆量子化モジュール１３６参照）された量子化（例えば２４レベル）係数を生成する（操作１５４参照）。前記ＳＴＦＴ振幅はその後、ノイズ（例えばソルトアンドペッパーノイズ）を除去するためにろ過され（操作１５８参照）、ガウス平滑化が行われる（フィルターモジュール１３８参照）。前記ろ過されたＳＴＦＴ振幅はその後、位相回復を行うために（操作１６０参照）位相回復モジュールに供給され、その後操作１６２で出力音声信号が提供される。前記出力音声信号は、音声データ３４（図２参照）に対応し、ある実施形態においては回復された音声信号と見なされる。

ある実施形態において、すべての最初のシェルＤ４格子係数は最大単位振幅を有することから、スケール比は各係数の最大絶対値として推定される。よって、追加的な符号化なしに同じホスト画像における異なる強度の符号を許容するために、動的なスケール化が起こる。

図９で示されているように、ある実施形態において２レベルのウェーブレット変換が行われ、格子コードをスケール化するためにＬＬ−ＨＨサブバンドの四つの係数（置換された）の最高値が使われる（例えば直接）。画像は既にウェーブレット変換を受けていることから、動的なスケール化操作は早く、少数の付加的操作を要するのみである。格子コードをＤ₄格子の最初のシェルに限定することで、スケール比は、復号化の間に推定することができ、埋め込み画像とともに送信する必要はない。

図９において、参照番号２５０は、本発明に従って、格子コードに音声データを貼り付けるための方法を一般的に示す。格子コード化の利点は、格子コード間の距離が最大化されノイズに対して堅牢になる点である。ある実施形態において、格子コードは理想的に、チャンネルの最大ノイズを取り扱うのに十分大きくスケール化されている。しかしながら、透かしの事情において、ノイズモデルは一般的にモデル化するのが難しいため、これは実用的ではない。もしノイズモデルが既知であっても、スケール比が大きすぎるため、許容不可能な歪曲を起こす。よって一般的に、十分なノイズは依然として格子コードが誤まって復号化される反応を起させ、それを訂正するために誤り検出及び誤り訂正などの追加的な符号化が必要となり、さらなる演算上の付加と複雑性を追加する。しかしながら、本発明のある実施形態において、そのような誤りは許容され訂正されない。その代わりに誤まって復号化された符号は、実際の符号の近くに提供される。ある実施形態において、ＳＴＦＴ振幅の格子コードへの貼り付けは、この要件を満たすために設計される。例証として、方法２５０（図９参照）は、Ｄ₄格子コードの最初のシェルに対する音声データの典型的な貼り付けを示す。該貼り付けがすべてのシェルに対して適用されることが理解されるであろう。

テーブル２５２に示されるように、音声データのＳＴＦＴ（図２のＳＴＦＴモジュール４２参照）は、それぞれが例えば０から２５５までの範囲にわたる１２８ＳＴＦＴ振幅を提供する。各ＳＴＦＴ振幅はその後、２４レベルに量子化される（操作２５４と２５６参照）。例えば、例証として最初の振幅Ｍ０使い、最初のＳＴＦＴ振幅は１６４の振幅（テーブル２５２参照）があるとし、操作２５６で示されるように、量子化された値は以下によって与えられる。
Ｍ₀’＝ｒｏｕｎｄ（Ｍ₀／２５５＊２３）（所与の例においては１５に等しい）

その後、操作２５８で示すように、対応するＤ₄格子コードがＤ₄格子テーブル２６０の最初のシェルから取得される。所与の例において、格子コードＬは（１,０,−１,０）に等しい。

典型的な方法２５０においては、ＬＬ−ＨＨサブバンドが音声データを埋め込むために使われる。従って、ＬＬ−ＨＨサブバンド（ＬＬ−ＨＨサブバンドテーブル２６２参照）内のホスト画像のサブバンド値が取得される。例えば、操作２６４で示されるように、典型的な最初のＳＴＦＴ振幅Ｍ₀に対して、最初の４つの係数Ｃ₀（−２．４,６．９,４．６,及び−０．５）が取得される。その後、操作２６６で示されるように、例えば単純なＭＡＸ関数を使って、周波数成分を推定することで、知覚分析が行われる。例えば、
Ｓ＝ｍａｘ（｜−２．４｜，｜６．９｜，｜４．６｜，｜−０．５｜）は６．９となる。
該値はその後（Ｓｍｉｎ＝２、Ｓｍａｘ＝4）以内になるように切り取られ、よって６．９の値は４に切り取られる。

得られた値（本例においては「４」）は、修正またはスケール化された格子コードＬ’（所与の例においては（４，０，−４，０）となる）を提供するために格子コードＬ（所与の例においては（１，０，−１，０）によって乗算される。これらの値はその後、ＬＬ−ＨＨサブバンドの最初の４つの係数を置換する。（テーブル２６８参照）

Ｄ₄格子テーブル２６０は、各ＳＴＦＴ振幅に対する格子コードの貼り付けの例を示すが、他の実施形態において、他のマッピングが可能である。２４の格子コードをオーダーするために２４！（階乗）の様式があることが理解されるであろう。従って、本発明のある実施形態において、格子コードがオーダーされる。例えば、４−Ｄ空間において２４ポイントである２４の格子コードは以下のようにオーダーされる。
１．各格子コードＣ_iのために（_iが０から２３の範囲である場合−テーブル２６０参照）以下が計算される。
Ｄ_i＝Ｃ_iとともに定位（Ｎ）を含む４−Ｄの平面から基点（０，０，０，０）までの距離
定位（Ｎ）の選択は任意であるが、しかしある実施形態において、タイを最小限にするために選択されている。単純にするため、Ｎ＝（１，１，１，１）が選択される。
２．格子コードはその後、Ｄ_iの降順にソートされる。
３．同じＤ_iの格子コードが、例えばすべての可能な順序を徹底的に検討することで、入れ替えられる。Ｋを同じＤ_iのコードの数とする。Ｋは小さい（例えば３）かもしれないことから、組み合わせの数はＫ！＜＜２４！である。近隣する２つのコードの間のユークリッド距離の和が最短である場所で順序付けが選択される。格子コード（例えば格子コードモジュール４６並びにＤ４格子テーブル２６０内の）が予め生成されていることが理解されるであろう。符号器と復号器は、対応する格子コードテーブルを有し、ある実施形態において、格子コードテーブルが刊行され、それによりそれらは自由に入手可能となる。ある実施形態において、符号化の間、各量子化されたＳＴＦＴ振幅は、直接１つの格子コードに貼り付く。ノイズによって破損した正常化された格子コードテーブルが復号器で受信され、格子コード全体が適合入力（例えば最短のユークリッド距離を伴う入力）のために検索される。

上述の方法２５０は、音声データを格子コードに貼り付けるための典型的な方法を提供する。埋め込みホストからの音声データの抽出は、例えば上述したステップを逆に行うことで達成することができる。ある実施形態において、音声は以下のように抽出される。最初に、格子コードがホスト画像から抽出される。本発明のある実施形態において、前記音声データを含む格子コードは、一般大衆が自由に利用可能なものであり、それにより適当なハードウエアを有していれば誰でも格子コードを復号化できる。従って、ある実施形態において、本発明が前記カメラ１０のようなデジタルカメラ内で適用されたとき、カメラ１０は埋め込み機能と共に抽出機能も含む。一度格子コードが抽出されると、スケール比が推定される。ある実施形態において、Ｄ₄格子の最初のシェルは要素０、１または−１のみを含み、推定はよって比較的単純になる。例えば格子コードの最大振幅が取られる。図９で提供される例において、スケール化された元の格子コードＬ’（４，０，−４，０）はいくつかのノイズによって破損し、例えば（３．２，−１．４，−４．５，２．１）として抽出される。格子コード係数の最大振幅は、ｍａｘ（｜３．２｜，｜−１．４｜，｜−４．５｜，｜２．１｜）＝３．２と等しくなる。従って、スケール比は３．２として選択される。その後、格子コードは最大振幅（所与の例においては３．２）で分割され、Ｄ４格子コードテーブル（Ｄ₄格子コードテーブル２６０に対応する）が、ユークリッド距離における最も近い符号を求めて検索される。もし、例えば、もし格子コードが（０，０，０，０）の場合起こる最大振幅＝０のとき、格子コードは不明として分類され、対応するＳＴＦＴ振幅は０に設定される。

特定の実施形態において、抽出されたＳＴＦＴ振幅の品質を改善するために後処理が行われる。例えば、ソルトアンドペッパーノイズが除去される。例えば、各ピクセルがＳＴＦＴ振幅を示すと仮定し、５Ｘ５のウインドウの平均ピクセル値を計算することができる。もしピクセル値が平均ピクセル値から３２異なる場合、ピクセル値は平均値として設定される。下にて詳しく記述されているように、代替の後処理方法は、ソルトアンドペッパーノイズを除去するために、離散ウェーブレット変換並びに離散コサイン変換に適用可能なプルプッシュ機能を利用する。プルプッシュ機能はＧｏｒｔｌｅｒＳ．Ｊ．、ＧｒｚｅｓｚｃｚｕｋＲ．、ＳｚｅｌｉｓｋｉＲ．、ＣｏｈｅｎＭ．Ｆ．著『ルミグラフ』コンピューターグラフィックス年次会議シリーズ、１９９６年において記述されており、その内容は参考文献として本願に組み入れられている。特定の環境において、上述した２つの方法は、もしノイズクラスタが共に大きなギャップに帰結するとき上手く行われない。例えば、図１４Ａの空の領域における全ての格子コードは酷く破損しており、音声の全体部分を失っている。１つの解決策は、ＳＴＦＴ振幅を埋め込みの前に移し替ることである。これは誤りを拡大させる効果を有する。受信機は、ノイズ低減の後に移し替えをやり直すことができる。ある実施形態において、追加的なガウス平滑が、３Ｘ３のウィンドウと１に等しい標準偏差を伴う標準ガウスカーネルを使うことで提供される。

ある実施形態において、埋め込み音声データ３２は、暗号化または符号化されておらず、よってユーザーは音声データを抽出することから抑制されていない。ユーザーは従って自由に音声データを抽出することができる。また、ホストデータに含まれたデータが隠されている、またはユーザーがデータを抽出するのを防ぐために隠さている透かしやデータハイディングとは違い、本発明のある実施形態においては、音声データ３２はホストイメージ３２の知られた部分に埋め込まれ、暗号化キーまたは他の秘密情報の知識なしに自由に抽出することができる。例えば、透かしにおいて、マルチメディア配給業者は通常、無許可配信が発生した場合に無許可配信元を確認できるように、彼らのデジタルコンテンツの確認を独特に試みる。デジタル透かしはデジタル画像に挿入されたデジタル信号またはパターンであり、ただ特定画像を確認するだけで、そうするために比較的小さなデータが含まれている。デジタル透かしは元のイメージを原型のまま、認識可能な状態に残す点で暗号化とは異なる。暗号化もまたマルチメディア配信業者によって無許可複製を防ぐために使われる。デジタルコンテンツ配信業者もまた、そうすることを許可された彼または彼女のみが回復可能なデータを含むためにデータハイディングを使う。データハイディングはデジタル透かしとは反対に、大量のデータを隠すことを許容するが、両方の技術は、ユーザーがホストから隠されたデータを抽出するのを防ぐことに向けられている。しかしながら、本発明のある実施形態において、音声データは誰でも自由に抽出でき、抽出はいかなる様式にも限定されていない。従って、カメラ１０で撮られた写真は、例えば家族と、または友人に送られ、彼らが写真を見るに際して音声が再生される。よって、例えば埋め込み音声は、静止画像に添えるあいさつ、メッセージまたはそれに似たようなもの含み、よって「喋る写真」を提供する。

ある特定の実施形態において、ＳＴＦＴの振幅と位相がホスト画像に埋め込まれるが、該音声データはホスト画像３２の音声データに振幅のみを埋め込むときよりも、２倍ほどの帯域または埋め込み部分を必要とする（例えば５０％の重複とするとき）。従って、ある典型的な実施形態において、位相は廃棄され振幅だけがホスト画像に埋め込まれる。よってホスト画像に含まれる音声データの量子（ビットの合計数）は削減される。音声の実際の品質もまた低減されるが、埋め込み音声データの所与の量に対して、音声のより長い再生時間を提供できる（例えばより長いメッセージをホスト画像に埋め込むことができる）。

ＳＴＦＴ振幅から位相（または推定位相）を回復するための典型的な方法とそれを実行するためのシステムが以下で記される（位相回復モジュール１４０で実行することが可能−図５参照）。本発明は以下で記される典型的な実施形態に限定されず、ＳＴＦＴ振幅信号から位相を回復するためのどのような技術をも別の実施形態において使うことができることが理解されるであろう。

図８を参照して、参照番号１８０は、本発明に従ってホスト画像に埋め込まれた音声データから音声信号を再構築するための方法を一般的に示す。該方法１８０は、リアルタイムアプリケーションまたは計算資源が乏しいまたはそのような計算を限定するのが望ましい場合に使われる非反復再構築技術である。本発明はこの典型的な再構築技術に限定されないことが理解されるであろう。

操作１８２で示されるように、方法１８０はＳＴＦＴ振幅データを受信し、その後ＳＴＦＴ振幅におけるピークを識別する（操作１８４参照）。ＳＴＦＴ振幅におけるピークは信号における正弦波に対応すると仮定し、操作１８６に示すように、方法１８０は、各ピークを取り囲むＦＦＴビン（例えば３つのＦＦＴビン）にパラボラを合わせることで各正弦波（ピーク）の瞬時周波数を推定する。３つより多いまたは少ないビンが使われることが理解されるであろう。方法１８０はその後、パラボラが最大値のとき（またはほぼ最大値であるとき）の周波数（または近似周波数）を探す。方法１８０はその後、前のフレームの位相を使ってピークビンの位相を計算または推定し、位相増加量が瞬時周波数から計算される。その後操作１９０で示されるように、音声信号が逆ＳＴＦＴ技術、例えば標準ＳＴＦＴ技術を使ってＳＴＦＴ振幅から再構築される。

特定の実施形態において、分布帯の正弦波ピークを識別するために、どのようなアルゴリズムも使うことができる。例えば、ビン振幅がピークの左にあるその２つの近隣と、ピークの右にあるその２つの近隣よりも大きいかを調べるために確認を行うことができる。別の実施形態において、分析が、サイドローブを誤まって正弦波ピークとして識別しないよう勘案に入れた場合、高度な結果を提供することができる。また別の実施形態において、ピークの形が実際に本物の正弦波と予期されるものと整合したかの確認が行われる。

一度瞬時周波数ωが所与のピークに対して計算され（操作１８６参照）、フレームＫで新規位相φｋが以下のように取得される。
φｋ＝φｋ−１+２πωＲ、（５）
このときＲはサンプルにおけるホップサイズでωは正規化された周波数である。

前記位相はその後、ピークビンを取り囲むＦＦＴビンに適用される。該工程は個々のピーク毎に対して繰り返される。ある実施形態において、演繹的知識が欠如する場合、任意の初期位相をφ０に対して使うことができる。逆ＦＦＴは、最大値がｎ＝０に近い短期信号を生成する。そのような環境下で、同じ位相がピークの周りのビンに割り当てられ、したがって前記ＦＦＴはｎ＝０に信号が中心があるゼロ位相である。最終出力短期信号は、ＦＦＴの出力をウインドウサイズの半分に円状にシフトすることで取得することができる。

前記方法１８０は、特定の状況下において、音声データの妥当な概算または再構築を提供する。しかしながら、別の実施形態において、様々な他の再構築技術が音声信号の高度な再構築を提供するために使われることが理解されるであろう。ある実施形態において、前記方法１８０は一連のグリフィン・リム反復を含む。

よってある実施形態において、音声データは複数の正弦波を構成し、ピークのまわりのＳＴＦＴ位相が正弦波瞬時周波数の推定に従って更新されると仮定される。

本発明のある実施形態において、例証として上述したように、前記データ処理システム３０及び／または前記データ処理システム１２０はポータブルデジタルカメラに含まれる。従って、一般大衆などのデジタルカメラのユーザーは、静止画を撮るのと同時に、音声クリップまたはメッセージを同時に記録し、音声クリップはその後ホスト画像に埋め込まれ、その後デジタルカメラに記憶されるか、例えばセルラー電話ネットワークを介して通信される。デジタル画像を受信するすべての機器はその後音声データをデジタル画像から回収または抽出することができ、例えばデジタル画像を見るときに、音声データは自動的に生成または再生される。従って、上において言及したように、ある実施形態において本発明は音声データと画像データが結合された「喋る写真」あるいは「喋る画像」を提供する。

本発明のある実施形態において、埋め込み音声データは少なくとも部分的に損失形式変換、例えばＢＭＰ形式からＴＩＦＦ形式、ＢＭＰ形式からＴａｒｇａ形式等の変換に耐える。ある実施形態において、デジタル音声（例えばデジタルスピーチ）は、より高い圧縮率でのグレースフルデグラデーションを伴った圧縮（例えばＪＰＥＧ圧縮）の損失に耐える。また、特定の実施形態において、シャープ化、カラーバランス、ガンマ、明るさ並びにコントラスト調整、及び９０°回転などの一般的な画像処理ルーチンもまた音声データを実質的に劣化させない。

本発明のある実施形態において、埋め込み音声は、元の静止画像（ホスト画像）の変質を低減するために可能な限り透明で埋め込まれる。しかしながら、デジタル透かしやデータハイディングとは異なり、本発明のある実施形態において静止画に埋め込まれた音声データは、自由に回復可能または、互換性の機器を使っているすべての人によって回復可能であることが意図されている。音声データが自由に回復可能なことが意図されているように、回復技術は秘密にされておらず公表され、暗号キー等は音声データを回復するために必要とされない。

上述のある典型的な実施形態において、離散ウェーブレット変換（ＤＷＴ）が輝度チャンネルまたは成分６８に対して行われる（図２の離散ウェーブレット変換モジュール３８を参照）。別の典型的な実施形態において、離散コサイン変換（ＤＣＴ）が使われる。

図表の図１０を参照して、参照番号３００は、本発明の実施形態に従って音声データを画像に埋め込むために画像を処理するための典型的なシステムを一般的に示す。システム３００は、前記システム３０と類似し、従って、同じ参照番号が同じまたは同様の特徴をしめすために使われている。しかしながら、システム３０の離散ウェーブレット変換モジュール３８、フィルターモジュール４０、及び知覚分析モジュール４１は、システム３００においては離散コサイン変換モジュール３０２、ＤＣＴフィルターモジュール３０４、ＤＣＴ知覚分析モジュール３０６、及び逆離散コサイン変換モジュール３０８に置換されている。システム３０の場合と同様、システム３００はデジタルカメラ技術を提供するどのような電子機器とも連動して、またはそれらと統合して使うことができる。システム３００がデジタルカメラ１０に含まれるとき、データはＪＰＥＧ形式を使って圧縮される。

システム３００において、画像は最初に、離散コサイン変換モジュール３０２内において典型的な８Ｘ８ブロックに区分化される。この区分化は、例えばＪＰＥＧ技術またはＭＰＥＧ技術を使う画像圧縮の間に行われる。その後典型的な８Ｘ８のブロックは、ＤＣＴフィルターモジュール３０４に中間輝度データ７８を提供するＤＣＴ係数の別の８Ｘ８のブロックをつくるために直接コサイン変換を使って変換される。ある典型的な実施形態において、中間バンドに対応する係数のグループが選択される（例えば予め選択された）。選択された係数はその後、ろ過された輝度データ８７を提供するために、ＤＣＴフィルターモジュール３０４によってろ過される（例えばゼロアウト）。離散コサイン変換モジュール３０２はまた、８４で示されるように検索モジュール４８からの音声データの格子コードと組み合わされる知覚適合輝度データ８２を提供するために、中間輝度データ７４をＤＣＴ知覚分析モジュール３０６に提供する。知覚適合音声データ８８はその後、８９で示されるように逆離散コサイン変換モジュール３０８に供給される修正輝度データ９１を提供するために、選択された係数を置換する。逆変換データはその後、ＹＣｂＣｒからＲＧＢ変換モジュール５２に供給され、そこで図２を参照して上述のように処理される。

よって、システム３００において、システム３０の離散ウェーブレット変換処理は離散コサイン変換によって置換されている。同様な様式で、図３の方法６０の操作７２、７６、及び８０は離散ウェーブレット変換処理の替わりに離散コサイン変換処理を行うために修正されている。典型的なシステム３００において、音声（例えばスピーチ）は、格子コードにマッピングされる前にＳＴＦＴを使って変換され、よって音声のグレースフルデグラデーションを提供する。

図１１を参照して、参照番号３１０は、検索モジュール４８からの格子コードによって置換された４つのＤＣＴ係数３１２、３１４、３１６と３１８を伴った典型的な８Ｘ８の離散コサイン変換（ＤＣＴ）係数ブロックを示す。ある実施形態において、各格子コードは４つの係数を置換し、１つのＳＴＦＴ振幅だけが８Ｘ８係数ブロック３１０毎に符号化される。離散ウェーブレット変換のケースにおいて（図９参照）、ホスト画像の音声記憶容量は多くの係数（例えば高周波数係数）を選択することで増大することができるが、堅牢性の低減に帰結する。例えば、ユーザーが高品質画像を選択したときのデジタルカメラ（例えばデジタルカメラ１０）において、該カメラは最小ＪＰＥＧ圧縮で撮られた写真のデジタル画像を記録し、最小ＪＰＥＧ圧縮であることから、より高い周波数のＤＣＴ係数は逆に影響されない。よってある実施形態において、これらの高周波数係数は、デジタル画像の容量を音声データを収容するために高めるために、格子符号化に使うことができる。ある実施形態において、離散ウェーブレット変換のケースと同様の様式で、スケール比は知覚分析３０６に対して、置換される４つのＤＣＴ係数の最大絶対値として取られる。例えば、図１１においてＳｃａｌｅＳ＝ｍａｘ（｜−１．５｜，｜−１２｜，｜−１７｜，｜０｜）＝１７となる。

図１２の参照番号３２０は、本発明に従って、埋め込み画像から音声を抽出するための音声処理システムのさらなる実施形態を一般的に示す。システム３２０は実質的に前記システム１２０と類似しており、従って同じ参照番号が同じまたは同様の特徴を示すために使われている。システム３２０において、離散コサイン変換モジュール３２２と格子抽出モジュール３２４は、図５の離散ウェーブレット変換モジュール１２８と格子コード抽出モジュール１３０を置換する。離散コサイン変換モジュール３２２は輝度データ１４６（ＹＣｂＣｒ成分）を典型的な８Ｘ８のブロックに区分化し、各ブロックに対して離散コサイン変換を行う。格子抽出モジュール３２４はその後、離散ウェーブレット変換の実施形態で図５を参照して上述したように、スケール推定モジュール１３２に供給されるスケール化４−Ｄチャンネルコードを提供するために符号化ＤＣＴ係数から格子チャンネルコードを抽出する。同様な様式で、方法１２４（図６参照）は、離散コサイン変換処理を行うために操作１４８と１５０において修正される。

ある実施形態において、破損したＳＴＦＴ振幅の再構築は、フィルターモジュール１３８における２次元の散在したデータ近似としてモデル化することができる。結果として生じる隙間は、例えばＧｏｒｔｌｅｒＳ．Ｊ．、ＧｒｚｅｓｚｃｚｕｋＲ．、ＳｚｅｌｉｓｋｉＲ．、ＣｏｈｅｎＭ．Ｆ．著『ルミグラフ』コンピューターグラフィックス年次会議シリーズ、１９９６年において提案されたようなプッシュ−プル方法によって埋めることができ、その内容は、本願において参考文献として盛り込まれている。このプッシュ−プル方法への入力は一連の既知数と、それに対応する重みである。前記重みは前記既知数における信頼のレベルを測り、そのときゼロウェイトは未知数を示す。プッシュ−プル方法をシステム３０と３００に適用することで、抽出されたＳＴＦＴ振幅は既知数として見なされ、それらの重みは、抽出された雑音格子コードと、それから最も近い（適合する）格子コードの間の距離の関数としてモデル化される。ゼロ距離（例えば完全適合）は最大重みを示す。これらの典型的な技術を適用すると、
ｗ＝１−ｄ（６）
であり、この時ｗは重みで、ｗ＝０は信頼の最も低いレベルを示し、そしてｄは抽出された雑音格子コードとそれからもっも近い適合の間のユークリッド距離であり、
ｄ＝√（（Ｃ₁−Ｍ₁）²＋（Ｃ₂−Ｍ₂）²＋（Ｃ₃−Ｍ₃）²+（Ｃ₄−Ｍ₄）²）（７）
のとき、抽出格子コードはＣ＝（Ｃ₁，Ｃ₂，Ｃ₃，Ｃ４）で、
最も近い適合する格子コードはＭ＝（Ｍ₁，Ｍ₂，Ｍ₃，Ｍ₄）である。

ある実施形態において、音声データを埋め込むためにホスト画像の全体にまたは実質的に全体を使う代わりに、音声データが埋め込まれるホスト画像の一部分また領域を制限するためにマスクを使うことできる。典型的なマスク３３０（図１３Ｂ参照）は輪郭が楕円形であり、また該楕円内における典型的な画像３３２（図１３Ａ参照）のどの部分でも画像データのために確保することができる（例えば排他的な確保）。よって該楕円の外の領域を音声を埋め込むために使うことができる。マスクの形または大きさは、実施形態毎によって異なり、またホスト画像によってキャプチャーされた写真の本質によっても異なることが理解されるであろう。図１４Ａは、画像データのみが提供されるホスト画像３３８の一領域をマスクするための（図１４Ｂ参照）マスク３３６のさらなる典型的な実施形態を示す。どのような適切な形または大きさのどのような数のマスクも提供されると理解されるであろう。よって、音声データはホスト画像のどの部分へも埋め込むことができ、またはホスト画像全体にも埋め込むことができる。

ある典型的な実施形態において、マスク３３０と３６０は本質的に２進数または不連続である（例えば、「１」は音声データを含む領域と対応し、「０」は音声データを除外した領域を含む。）。よって、例えば、マスク３３０と３６０は、音声データの排他に、排他的に画像データを含み、ゼロマスク値を持つホストピクセルは手付かずのまま放置される（元の画像データは変わらずそのまま残る）領域を定義する。しかながら、マスク３３０と３３６が本質的に連続することもあることが理解されるであろう。（例えば、「０」と「１」の間の値は、音声データの埋め込みが所定の領域においてどれだけの強さまた重さであるべきかを示す。）。よってマスクすることは、ユーザー（または電子回路）に、ホスト画像における歪曲が許容可能で音声データが埋め込まれる領域を選ぶことと、ホスト画像の重要な領域または区域を保護することを可能にする。また音声データは、マスクされた部分と、マスクされていない部分の両方に埋め込まれ、このとき音声データが、１ピクセルあたり、マスクされている部分よりもマスクされていない部分にさらに多く記憶されるようにしてもよい。記憶されたデータの密度は、よって埋め込み画像の各画像部分によって異なる。

該マスクは、ユーザーにより定義されたもの、またはユーザーは複数の既定のマスクから１つ選択することができる。ユーザーにより定義されたマスクに関して、デジタル画像から音声データを回復または抽出するために埋め込み画像を処理する典型的なシステム１２０と３２０（図５と１２参照）は、後に抽出工程において使われる対応するマスクを含む。例えば、既定のマスクが埋め込み画像５６の生成において使われたとき、システム１２０と３２０は、どの既定のマスクが埋め込み工程で使われたかを特定し、対応する既定のマスクはその後埋め込み画像から音声を抽出するために使われる。例えば、関連するマスクは、外部入力（例えばユーザー選択）によって識別することができ、受信機は余すところなく全ての既定のマスクを試し、その内で最も信頼性要素の高いものを、または使われたマスクを識別するその他の特定手段を使うことができる（例えば識別子がホスト画像に埋め込まれる、タグが提供される、またはその他の識別子）。ある実施形態において、信頼性要素は方程式（７）を使って決定される。

ホスト画像に音声データを埋め込むことは、画像の歪曲に帰結することが理解されるであろう。画像歪曲の量は、ホスト画像に埋め込まれた音声データの量または品質に左右される。しかしながら、歪曲の量は、上述したように格子コードを順応して制御することで削減することができる。さらに、またその代わりに、マスキングが音声データの埋め込みによって歪曲が発生する埋め込み画像の区域を制御するために使われる。しかしながら、様々な別の技術がホスト画像の歪曲を削減するために、さらにまたその代わりに使われることが理解されるであろう。

埋め込み画像は、表示機器（例えばコンピュータのモニター、テレビセット、ＰＤＡディスプレー、デジタルカメラのディスプレイ、セルラー電話のディスプレイ、またそれらに似たもの）上で見ることまたは印刷することができる。比較的高い解像度の画像（例えば５メガピクセルの画像）が１２８０ｘ１０２４ピクセルのモニター上でその全体（例えばズームなしで）が見られたとき、それはダウンサンプルされている。このダウンサンプリング工程は一般的に低域フィルタリングであり、よってホスト画像に音声データが埋め込まれたことの結果として導入されたどのような歪曲も効果的に除去することができる。その結果、ユーザーは歪曲を見ることがない。ある特定の印刷のシナリオにおいて、歪曲は、ドットゲインと、歪曲を円滑にするプリンターのディザリング工程の結果から、ほとんど見えない。

ある典型的な実施形態において、ここに記載されている離散コサイン変換技術を使った埋め込こみを承知しているビューワーアプリケーションは、フォワード離散コサイン変換、選択された係数のフィルターアウト（例えばゼロアウト）を行い、画像を表示する前に逆離散コサイン変換を用いて埋め込み画像を処理することで埋め込み音声データを除去する。離散ウェーブレット変換を用い同じ方法論が、方法論上離散コサイン変換を離散ウェーブレット変換に代えることで使えることが理解されるであろう。別の典型的な実施形態において、格子スケールは、画像キャプチャー工程の間に取り入れられるカメラまたはセンサーノイズなどの画像に関連するノイズに適合する。該ノイズは、データからイクスチャンジャブルイメージファイルフォーマット（ＥＸＩＦヘッダー）で測定または推定することができる。例えば、デジタルカメラを使ってキャプチャーされた画像は、レンズ及び／またはセンサーから生じるある程度のノイズを含む。より高いＩＳＯレベルでは、このノイズは非常にはっきりしている。例えば従来のアナログフィルムカメラにおいては、カメラマンは光に敏感であるがゲインにつながる高ＩＳＯレベルフィルムを選択する。デジタルカメラにおいては、高いＩＳＯレベルは高センサー（ＣＣＤまたはＣＭＯＳ）ゲインに対応し、それは元画像におけるより大きなノイズに帰結する。元画像はすでに一定のノイズを含んでいることから、透かしに起因する歪曲（ノイズのように見える）をセンサーノイズと同程度に制限する試みが行われ、よってそれらをセンサーノイズの中に隠す。格子スケールは、スケール化格子コードを埋め込むことに起因する歪曲がセンサーノイズに起因する歪曲を超えないように選択される。よって、格子コードはノイズの中に効果的に隠れることができる。本発明の別の実施形態において、音声データはＥＸＩＦファイル中、例えばＥＸＩＦヘッダーの中に含まれ、従って、音声データファイル形式変換をよりよく耐える。別の典型的な実施形態において、ＳＴＦＴ振幅は、例えば画像の創造の間、画像上に直接貼り付けられる（隠れていない）。ある典型的な実施形態において、スピーチまたは音声ストリップは、方法１１０の操作１１２、１１４と１１６において提供されたものと同様の操作を利用して符号化の間に生成される（図４参照）。ある典型的な実施形態において、振幅は、白黒画像は通常２５６レベルを有することから、２４レベルではなく２５６レベルに量子化される。しかしながら、振幅はどのような数値のレベルにも量子化できることが理解されるであろう。

図表の図１５を参照して、参照番号３５０は一般的に、音声データがホスト画像３５４の選択領域３５２に提供された埋め込みホスト画像を示す。音声データは、図２を参照して上述したように音声データから生成されたＳＴＦＴ振幅を含む「スピーチストリップ」または「音声ストリップ」において提供される。ある実施形態において、スピーチストリップは通常グレースケール画像として表示されたＳＴＦＴ振幅を提供する。スピーチストリップは埋め込み画像から抽出され、その後選択領域３５２において表示されることが理解されるであろう。

ある典型的な実施形態において、スピーチまたは音声ストリップは、ホスト画像上に重ねられている、または「ペースト」（例えば直接に）されている。これはユーザーが例えばカットとペースト機能を使って２つまたはそれ以上のスピーチまたは音声ストリップを編集することを可能にする。スピーチまたは音声が画像の一部であることから、様々な画像処理技術、画像形式変換、デジタル−アナログ−デジタル変換に耐えることができる。図１６において示される典型的な実施形態において、埋め込みホスト画像は音声データを収容するための延伸部分３５８を有する（例えばスピーチまたは音声ストリップ３６０、３６２において提供されている）。しかしながら、話者（写真においてキャプチャーされた１人の人の画像）との空間関係は、１人以上の話者（写真においてキャプチャーされた別の人の画像）の場合失われる。ある実施形態において、マーカー３６４と３６６が、対応する音声ストリップ３６０と３６２毎の索引として機能するようそれぞれ提供される。例えば、ユーザーがポインター（例えばマウスのポインター）を動かしたとき、特定マーカーに対応するスピーチまたは音声は、関連する音声ストリップから再生することができる。

上述の典型的な実施形態において、格子符号化が、ホスト画像に音声データを埋め込むときに使われる。しかしながら、他の技術が他の実施形態において使われる。例えば、量子化指数変調（ＱＩＭ）技術もまたＳＴＦＴ振幅を埋め込むために使うことができる。そのようなＱＩＭ技術の例は、ＣｈｅｎＢｒｉａｎ、ＷｏｒｎｅｌｌＧｒｅｇｏｒｙＷ著「量子化指数変調：デジタル透かしと情報埋め込みのために多分よい方法群」情報理論に関するＩＥＥＥ報告書、Ｖｏｌ４７、Ｎｏ．４、２００１年５月、ｐｐ１４２３−１４４３、において記述され、その内容は参考文献としてここに盛込まれている。

ＱＩＭ技術を適用するとき、量子化されたＤＣＴ係数は、デジタル音声データを符号化しているときに偶数また奇数の数値を取得するため動揺させられる（サイン）。この技術は無損失と見なされているが、埋め込み音声データが普通の画像処理操作の下で保護されてないないときは脆弱である（例えば画像を明るくするとき）。該方法は、符号化及び復号化モジュールの完全な制御を必要とし、よってある実施形態において、もしユーザーが任意の画像編集ソフトウエアの使用を許可されていた場合、あまり有益ではない。それでも、そのような制御が提供された場合、該方法は高品質で高容量の音声データをホスト画像に埋め込むことができる。もし埋め込み対象の画像の形式がＪＰＥＧであるときは、上述した適用格子符号化技術がさらに適している。特定の実施形態において、ＱＩＭ方法は、脆弱な本質に乗じることで利点を有する。例えば、もし画像のある領域が修正された場合、そのような修正は対応するブロックにおける格子コードが破損しているまたは非常に低い信頼性レベルを有していることから検出することができる。ある典型的な実施形態において、この副作用は調質検出構造を提供するために利用することができる。

例証を通じてここで記述した本発明は、画像（デジタル写真）と音声（声またはスピーチ）を統合する単一媒体を提供し、または提供するために使われる。よって単一ファイル（例えばＪＰＥＧファイル）を画像と音声の両方を含んだ形で提供できる。また、単一ファイルの内容（ホスト画像と音声データ）はファイル形式変換を耐えることができる。典型的な実施形態において、音声に基づく「写真検索」を行うことができる。デジタル画像はよってそれらに埋め込まれた音声に基づいて探し当てられる。本発明の典型的な適用例において、ここに記述されている該方法とシステムは例えば画像の剽窃を抑制するために、ユーザー自身の声を画像に埋め込むことで保護の措置を提供することができる。

この明細書の目的上、「画像」という語句は広義に解釈されるべきであり、写真、ビデオクリップ等に制限されない。「画像」という語句はどのような２次元表象物を含むことを意図し、それは写真画像、文書、テキスト等の画像である。

図１７は、機械にここで議論された方法内のどれか１つを行うよう引き起こす一式の指令が実行できるコンピュータシステム２００の典型的な形式における機械の図示を示す。代替の実施形態において、該機械はネットワークルーター、ネットワークスイッチ、ネットワークブリッジ、パーソナルデジタルアシスタント（ＰＤＡ）、セルラー電話、ｗｅｂ器具または機械によって取られる動作を識別する指令の一式または順序を実行することが可能などのような機械をも備える。

コンピュータシステム２００は、中央処理装置２１４、システムメモリ２１６などのサブシステムと、オーディオカード２２０を介したスピーカ２１８、ディスプレイアダプター２２４を介したディスプレイスクリーン２２２、パラレルポート２２８を介したプリンタ２２６、出入力（Ｉ／Ｏ）制御装置２３４を介したマウス２３０などのポインティングデバイスとキーボード２３２、ホストアダプター２４０を介した固定式ディスクドライブ２３６とＣＤ−ＲＯＭ／ＤＶＤドライブ２３８、ネットワークインターフェイスカード２４２、及びフレキシブルディスク２４６を作動するために受け入れるフレキシブルディスクドライブ２４４などの外部機器と相互連結するバス２１２を含んだ形で示される。

スキャン機器、タッチスクリーンなどの他の多くの機器またはサブシステム（図示されていない）を接続することができることが理解されるであろう。また、本発明を実施するために、図１７において示される全ての機器を提示することは必要ではない。コンピュータシステムがＰＤＡまたはセルラー電話の形体のとき、該システムは、例えばマウス２３０、フレキシブルディスクドライブ２４４、固定式ディスクドライブ２３６等々を含まない。さらに、機器とサブシステムは、図１７において示されるものとは異なった設定で相互接続される。コンピュータシステム２００の操作は、技術上すでに知られているため、ここでは詳細に議論されない。

本明細書の目的上、「機械可読媒体」という語句は、本発明の方法論のどれでも１つを行うよう機械に反応させる、機械による実行のための指令のシーケンスを記憶または埋め込みが可能などのような媒体を含むものとして解釈されるべきである。「機械可読媒体」という語句は従って、これらに限定されるないが、固体記憶媒体、光学及び磁気ディスクと搬送波信号を含むものとして解釈されるべきである。

本発明の一部の実施形態を実行するためのソフトウェアは、システムメモリ２１６内、バス２１２に連結するサブシステム内（例えばオーディオカード２２０、中央処理装置２１４）に動作可能なように配置されるか（全体または部分的にの両方）、または固定式ディスクドライブ２３６、フレキシブルディスク２４６、またはＣＤ−ＲＯＭ／ＤＶＤドライブ２３８で作動するＣＤ−ＲＯＭ／ＤＶＤ２４８などの記憶媒体に記憶される。

バス２１２は様々な様式で実装することができる。例えば、バス２１２はローカルバス、シリアルバス、パラレルポートまたは拡張バス（例えばＡＤＢ、ＳＣＳＩ、ＩＳＡ、ＥＩＳＡ，ＭＣＡ、ＮｕＢｕｓ、ＰＣＩまたは他のバスアーキテクチャ）として実装することができる。システムメモリ２１６はランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）または他のメモリー機器であってもよい。

よって、デジタル画像を処理するための方法とシステムが記述された。ある実施形態において、音声信号などの音声データは静止カラーホスト画像に埋め込むことができる。本発明は特定の典型的な実施形態を参照して記述されてきたが、本発明の広範な精神と範囲から外れることなくこれの実施形態に様々な修正及び変更を加えることができるのは自明である。従って、本明細書と図表は、制限的な意味よりも実例的な意味で見なされるべきである。

図１は、本発明に従って、典型的なデジタルカメラの概略ブロック図を示す。図２は、本発明に従って、画像処理システムの実施形態の典型的な機能部の概略ブロック図を示す。図３は、本発明に従って、デジタル画像を処理するための典型的な方法の概略フロー図を示す。図４は、本発明に従って、ホスト画像に埋め込むために音声データを処理するための典型的な方法の概略フロー図を示す。図５は、本発明に従って、音声処理システムの実施形態の典型的な機能部の概略ブロック図を示す。図６は、本発明に従って、埋め込み画像から音声データを抽出するための音声処理方法の概略フロー図を示す。図７は、典型的なデジタル画像のウェーブレットサブバンドを示す。図８は、本発明に従って、元の音声信号から派生した振幅データから音声データを再構築するための音声処理方法の概略フロー図を示す。図９は、本発明に従って、ホスト画像のサブバンドにＳＴＦＴ振幅を埋め込むための典型的な方法の概略フロー図を示す。図１０は、本発明に従って、デジタル画像を処理するための画像処理システムのさらなる実施形態の典型的な機能部の概略ブロック図を示す。図１１は、格子コードによって置き換られた４つのＤＣＴ係数を伴った典型的な８Ｘ８離散コサイン変換（ＤＣＴ）係数ブロックを示す。図１２は、本発明にしたがって、埋め込み画像から音声を抽出するための音声システムの他の実施形態の機能部の概略的なブロック図を示す。図１３Ａは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。図１３Ｂは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。図１４Ａは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。図１４Ｂは、音声埋め込みが除外される画像の一部を定義する典型的なホスト画像と典型的に関連したマスクを示す。図１５は、画像の典型的な画面表示とそれに関連する「音声ストリップ」または「スピーチストリップ」として代表される音声を示す。図１６は、画像の典型的な画面表示とそれに関連する「音声ストリップ」または「スピーチストリップ」として代表される音声を示す。図１７は、ここで議論された方法論を機械が行うようにする一連の指示を実行できるコンピューターシステムの、典型的な形体における機械の図示を示す。

Claims

ホスト画像を処理するための方法であって、該方法は、
前記ホスト画像を受信すること、
音声データを受信することと、
前記音声データが埋め込み画像から自由に回復可能な埋め込み画像を提供するために、ホスト画像内に前記音声データを組み込むこと、
からなることを特徴とする方法。
請求項１に記載の方法であって、前記ホスト画像内に前記音声データを組み込む前に、短時間フーリエ変換（ＳＴＦＴ）を使って前記音声データを処理すること、
からなることを特徴とする方法。
請求項１に記載の方法であって、前記ホスト画像内に音声データを埋め込む前に、前記音声データに含まれる音声信号を表示するデジタルデータの量を減らすこと、
からなることを特徴とする方法。
請求項３に記載の方法であって、前記音声データを埋め込むのに提供するために、前記音声信号の振幅データを量子化し、位相データを廃棄すること、
からなることを特徴とする方法。
請求項４に記載の方法であって、Ｄ₄格子コードに前記音声データを貼り付けるために、前記音声を量子化すること、
からなることを特徴とする方法。
請求項５に記載の方法であって、前記ホスト画像の歪曲を最小限にするために、前記Ｄ₄格子コードの格子コードをスケール化すること、
からなることを特徴とする方法。
請求項１に記載の方法であって、該方法は、
前記ホスト画像の輝度データと色差データを分離すること、
修正輝度データを提供するために前記色差データに前記音声データを含むことと、
前記埋め込みデータを提供するために、前記修正輝度データと前記色差データを組み合わせること、
からなることを特徴とする方法。
請求項７に記載の方法であって、該方法は、
中間輝度データを提供するために、前記輝度データを処理すること、
知覚的に適合されたサブバンドを提供するために、前記中間輝度データの少なくとも１つのサブバンドに知覚適合を行うことと、
前記修正輝度データを提供するために、前記知覚的に適合されたサブバンドに前記音声データを含むこと、
からなることを特徴とする方法。
請求項８に記載の方法であって、該方法は、
さらなる中間輝度データを提供するために、前記中間輝度データから少なくとも１つのサブバンドを除去すること、
前記修正輝度データを提供するために、前記知覚的に適合されたサブバンドと前記さらなる中間輝度データを組み合わせること、
からなることを特徴とする方法。
請求項８に記載の方法であって、該方法は、
前記修正輝度データに逆変換を行うことと、
前記デジタル画像を定義する埋め込みホストを提供するために、前記逆変換された輝度データを前記色差データと組み合わせること、
からなることを特徴とする方法。
請求項８に記載の方法において、前記輝度データが離散ウェーブレット変換と離散コサイン変換のいずれかによって処理されること、
を特徴とする方法。
請求項１に記載の方法であって、該方法は
前記ホスト画像のＲＧＢ成分を、色差成分と輝度成分に変換すること、
前記ホスト画像の前記輝度成分を処理することと、
前記ホスト画像をＲＧＢ成分へと変換すること、
からなることを特徴とする方法。
請求項１に記載の方法であって、該方法は、
前記ホスト画像の一部をマスクすることと、
前記ホスト画像のために前記マスクされた部分を確保すること、
からなることを特徴とする方法。
請求項１に記載の方法であって、該方法は、
マスクされた部分とマスクされていない部分を提供するために、前記ホスト画像の一部をマスクすること、
前記マスクされた部分よりも、前記マスクさていない部分の方が１ピクセルあたりより多くの音声データが記憶される前記マスクされた部分と前記マスクされていない部分の両方に前記音声データを埋め込むこと、
からなることを特徴とする方法。
請求項１に記載の方法において、前記画像はデジタル写真である、
ことを特徴とする方法。
ホスト画像を処理するためのシステムであって、該システムは、
前記ホスト画像を受信するための画像処理回路、
音声データを受信するための音声処理回路と、
音声データは埋め込みデータから自由に回復可能な埋め込み画像を提供するために、前記音声データを前記ホスト画像内に埋め込むための埋め込みモジュール、
を備えることを特徴とするシステム。
請求項１６に記載のシステムにおいて、前記ホスト画像内に前記音声データを埋め込む前に、短時間フーリエ変換を使って前記音声データを処理する前記音声処理回路は短時間フーリエ変換（ＳＴＦＴ）モジュールを備える、
ことを特徴とするシステム。
請求項１６に記載のシステムにおいて、前記ホスト画像内に前記音声データを埋め込む前に、前記音声処理回路が前記音声データに含まれる音声信号を表示するデジタルデータの量を減らす、
ことを特徴とするシステム。
請求項１８に記載のシステムにおいて、前記音声データを埋め込みに提供するため、前記音声処理回路が前記音声信号の振幅データを量子化し、位相データを廃棄する、
ことを特徴とするシステム。
請求項１８に記載のシステムにおいて、前記量子化された振幅データが中間輝度データに含まれた後に前記中間輝度データを提供するために、前記画像処理回路が、離散ウェーブレット変換を使って前記輝度データを処理する、
ことを特徴とするシステム。
請求項１９に記載のシステムにおいて、前記量子化された振幅データが中間輝度データに含まれた後に前記中間輝度データを提供するために、前記画像処理回路が、離散コサイン変換を使って前記輝度データを処理する、
ことを特徴とするシステム。
請求項１６に記載のシステムにおいて、前記音声データは量子化され、量子化された音声データを提供し、前記量子化された音声は、前記ホスト画像のサブバンドの係数に基づいてスケール化される、
ことを特徴とするシステム。
音声データを抽出するために埋め込み画像を処理する方法であって、該方法は、
前記埋め込み画像の色差成分に離散ウェーブレット変換と離散コサイン変換のいずれかを行うこと、
前記音声データに関連する量子化された振幅データを識別すること、
前記識別された振幅データに関連する位相データを推定することと、
前記量子化されたデータと前記位相データに基づいて出力音声信号を生成すること、
からなることを特徴とする方法。
請求項２３に記載の方法において、前記振幅データデータはＳＴＦＴ振幅データである該方法は、
正弦曲線に対応すると仮定される前記ＳＴＦＴ振幅データ内のピークを識別すること、
前記ピークの瞬時周波数を推定することと、
前記推定された瞬時周波数から音声データを再構築すること、
からなることを特徴とする方法。
請求項２３に記載の方法であって、該方法は、
符号化されたサブバンドから格子コードを抽出すること、
前記抽出格子コード毎のためにスケール比を推定すること、
正規化された抽出コードを提供するために、前記スケール比を使って前記抽出格子コードを正規化することと、
前記量子化された振幅データを提供するために、前記正規化された抽出格子コードに適合する格子コードを求めるため格子コードデーブルを検索すること、
からなることを特徴とする方法。
請求項２３に記載の方法であって、該方法は前記量子化された振幅データを識別する前に、
符号化されたサブバンドから格子チャンネルコードを抽出すること、
各コードの最大絶対値からスケール比を推定すること、
Ｄ₄格子コードから適合を探すことと、
ＳＴＦＴ振幅データを適用するために、適合を逆量子化すること、
からなることを特徴とする方法。
請求項２３に記載の方法であって、該方法は、音声データを１組の既知数としてモデル化し、各既知数は前記既知数における信頼性のレベルを表わす対応する重みを有し、このときゼロウェイトは未知数を示し、音声データの抽出ＳＴＦＴ振幅は既知数として見なされる、
ことを特徴とする方法。
請求項２７に記載の方法であって、該方法は各重みを、抽出雑音格子コードと、それから最も近い格子コードの間の距離の関数としてモデル化する、
ことを特徴とする方法。
ホスト画像から音声データを抽出するためのシステムであって、該システムは、
前記ホスト画像の輝度成分を提供するために、前記ホスト画像を受信する画像処理回路と、
前記輝度成分から前記音声データの抽出と、自由に抽出可能な音声データを提供するための音声処理回路を備える、
ことを特徴とするシステム。
請求項２９に記載のシステムであって、該システムは、
前記ホスト画像の前記輝度成分に離散ウェーブレット変換を行うための離散ウェーブレット変換モジュールと、
前記輝度成分に関連する量子化された振幅データを識別するための識別モジュールと、
識別された振幅データに関連する位相データを推定し、前記量子化された振幅データと位相データに基づいて出力音声信号を生成するための位相回復モジュールとを備える、
ことを特徴とするシステム。
請求項２９に記載のシステムであって、該システムは、
前記ホスト画像の前記輝度成分に離散コサイン変換を行うための離散コサイン変換モジュールと、
前記輝度成分に関連する量子化された振幅データを識別するための識別モジュールと、
識別された振幅データに関連する位相データを推定し、前記量子化された振幅データと位相データに基づいて出力音声信号を生成するための位相回復モジュールとを備える、
ことを特徴とするシステム。
請求項３０に記載のシステムにおいて、前記振幅データはＳＴＦＴ振幅データであり、前記回復モジュールが、
正弦曲線に対応すると仮定される前記ＳＴＦＴ振幅データ内のピークを識別する、
前記ピークの瞬時周波数を推定する、及び、
前記推定された瞬時周波数から音声データを再構築するよう設定された、
ことを特徴とするシステム。
請求項２９に記載のシステムにおいて、格子コードは符号化されたサブバンドから抽出され、各抽出格子コードに対してスケール比が推定され、正規化された抽出格子コードを提供するために、前記抽出格子コードは前記スケール比を使って正規化され、前記量子化された振幅データを提供するために、前記正規化された抽出格子コードに適合する格子コードを求めるために格子コードデーブルが検索される、
ことを特徴とするシステム。
指令のシーケンスを具体化する機械可読媒体であって、該指令が機械によって実行されたとき、
ホスト画像を受信し、
音声データを受信して、
埋め込み画像を提供するために、前記ホスト画像データ内に前記埋め込み画像から自由に回復可能な前記音声データを埋め込む、
ことを特徴とする機械可読媒体。
指令のシーケンスを具現化する機械可読媒体であって、該指令が機械によって実行されたとき、
ホスト画像の輝度成分に離散ウェーブレット変換と離散コサイン変換の何れかを行う
前記識別された振幅データと関連する位相データを推定する、及び、
前記量子化された振幅データと位相データに基づいて出力音声信号を生成する、反応を機械に生じさせる、
ことを特徴とする機械可読媒体。
デジタルカメラであって、該デジタルカメラは、
ホストデジタル画像をキャプチャーするための画像キャプチャーモジュール、
音声信号をキャプチャーするための音声キャプチャーモジュールと、
前記ホスト画像内に前記音声信号を埋め込むための画像処理モジュールを備える、
ことを特徴とするデジタルカメラ。
請求項３６に記載のデジタルカメラを含むモバイル電話。
ホスト画像を処理するシステムであって、該システムは、
ホスト画像を受信する手段と、
音声データを受信する手段と、
埋め込み画像を提供するために、前記埋め込み画像から自由に回復可能な前記音声データを前記ホスト画像内に埋め込む手段とを備える、
ことを特徴とするシステム。