CN100504922C

CN100504922C - 处理数字图像的方法和系统

Info

Publication number: CN100504922C
Application number: CNB2004800380310A
Authority: CN
Inventors: 沈望傅; 道恩·德斯蒙德·许
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2003-12-19
Filing date: 2004-12-17
Publication date: 2009-06-24
Anticipated expiration: 2024-12-17
Also published as: EP1700266A4; US20050212930A1; US8442262B2; AU2004300115B2; KR101125351B1; CN1898695A; KR20060112668A; TW200527825A; WO2005059830A1; EP1700266A1; JP2007515126A; AU2004300115A1; JP4568732B2; TWI463806B

Abstract

本发明提供了一种用于处理数字图像的方法和装置。该方法可包括接收宿主图像数据，接收音频数据以及将所述音频数据嵌入所述宿主图像数据内以提供嵌入后图像，其中所述音频数据可从所述嵌入后图像自由地恢复。该方法可包括在将所述音频数据嵌入所述宿主图像数据内之前使用短时傅立叶变换(STFT)来处理所述音频数据。该方法可在将所述音频数据嵌入所述宿主图像内之前减少所述音频数据中包括的代表音频信号的数字数据的量。在一个实施例中，该方法包括量化幅值数据并丢弃所述音频信号的相位数据，以提供所述音频数据以便嵌入。该方法可包括量化所述音频数据以与D₄点阵的外壳相匹配。

Description

处理数字图像的方法和系统

相关申请

本申请要求享受2003年12月19日提交的题为“Method and System toProcess a Digital Image”的美国临时专利申请60/531,029的优先权，该申请的内容通过引用而被包含于此。

技术领域

本发明总地涉及数字信号处理领域，更具体而言，涉及处理例如数字静止图像这样的数字图像的方法和系统。

背景技术

数字网络在向消费者提供多媒体资源方面正变得越来越普遍。但是，在数字媒体被分销以获得利润时，对多媒体内容的所有权的实施是考虑的主要问题。在现有技术中，已知水印和数据隐藏的方法可为数字媒体的非法分销问题提供解决方案。这些应用的目的是确保隐藏的数据只能被得到授权的人取得。当要隐藏大量数据时一般应用数据隐藏，而当提供少量特定标识信息时则应用数字水印。

因此，现今的数字视频处理方法致力于使用水印和数字签名来标识多媒体。但是，如果没有仅被提供给单个被授权者或有限的一组被授权者的专门软件或密钥，数字签名就不能被验证。在某些情况下，水印本身可能就不是保密的(与加密不同)，因为水印的主要目的是防止篡改。当然，水印也可被加密。

发明内容

根据本发明提供了一种用于处理宿主图像的方法，该方法包括：

接收所述宿主图像；

接收音频数据；以及

将所述音频数据嵌入所述宿主图像内以提供嵌入后图像，其中所述音频数据可从所述嵌入后图像自由地恢复。

该方法可包括在将所述音频数据嵌入所述宿主图像内之前减少所述音频数据中包括的代表音频信号的数字数据的量。在一个示例性实施例中，该方法包括使用短时傅立叶变换来变换所述音频数据，量化幅值数据并丢弃所述音频信号的相位数据，以提供所述音频数据以便嵌入。所述音频数据可以被量化和映射到D₄点阵代码。所述D₄点阵的点阵代码可以按比例缩放(scale)，以将所述宿主图像的失真最小化。

在一个示例性实施例中，该方法包括分离所述宿主图像的亮度数据和色度数据，将所述音频数据包括在所述亮度数据中，以提供修改后的亮度数据，以及将所述修改后的亮度数据和所述色度数据组合起来以提供所述嵌入后图像。

该方法可包括处理所述亮度数据以提供中间亮度数据，对所述中间亮度数据的至少一个子带执行感知自适应，以提供经感知自适应的子带，以及将所述音频数据包括在所述经感知自适应的子带中，以提供所述修改后的亮度数据。

在一个示例性实施例中，该方法包括从所述中间亮度数据去除所述至少一个子带，以提供进一步的中间亮度数据。可将所述经感知自适应的子带与所述进一步的中间亮度数据组合起来以提供所述修改后的亮度数据。可以对所述修改后的亮度数据执行逆变换，以及将已经过逆变换的亮度数据与所述色度数据组合起来以提供限定了所述数字图像的嵌入后宿主。所述亮度数据可被离散小波变换或离散余弦变换处理。所述音频数据可被量化并基于所述宿主图像的子带的系数而被按比例缩放。

在一个示例性实施例中，该方法包括掩蔽所述宿主图像的一部分，以及为宿主图像数据保留被掩蔽的部分。在其他实施例中，该方法包括掩蔽所述宿主图像的一部分，以提供被掩蔽部分和未被掩蔽部分，以及将所述音频数据既嵌入所述被掩蔽部分也嵌入所述未被掩蔽部分中，其中所述未被掩蔽部分中的每个像素比所述被掩蔽部分中的每个像素存储更多的音频数据。所述图像可以是数字照片。

本发明延及一种用于处理嵌入后图像来提取音频数据的方法，该方法包括：

对所述嵌入后图像的亮度分量执行离散小波变换和离散余弦变换之一；

识别与所述音频数据相关联的量化后的幅值数据；

估计与识别出的幅值数据相关联的相位数据；以及

基于所述量化后的幅值数据和所述相位数据生成输出音频信号。

该方法可包括对所述嵌入后图像中包括的每个点阵代码估计比例，并对所述点阵代码进行按比例缩放以将其归一化，从而提供所述量化后的幅值数据。在一个示例性实施例中，在识别所述量化后的幅值数据之前该方法包括：从编码后的子带提取点阵通道代码；从每个代码的最大绝对值估计比例；从D₄点阵代码找出匹配；以及对所述匹配进行逆量化以提供STFT幅值数据。

该方法可包括将所述音频数据建模为一组已知值，每个已知值都具有相应的代表对所述已知值的置信度级别的权重，其中零权重指示未知的值，而提取出的所述音频数据的STFT幅值被视为已知值。每个权重可被建模为提取出的有噪声点阵代码和它的最近的点阵代码之间的距离的函数。

此外，根据本发明提供了一种用于处理宿主图像的系统，所述系统包括：

图像处理电路，用于接收所述宿主图像；

音频处理电路，用于接收音频数据；以及

嵌入模块，用于将所述音频数据嵌入所述宿主图像内以提供嵌入后图像，其中所述音频数据可从所述嵌入后图像自由地恢复。

本发明延及一种用于从宿主图像提取音频数据的系统，该系统包括：

图像处理电路，用于接收所述宿主图像和提供所述宿主图像的亮度分量；以及

音频处理电路，用于从所述亮度分量提取所述音频数据和提供可被自由地提取的音频数据。

该系统可包括：离散小波变换模块，用于对所述宿主图像的亮度分量执行离散小波变换；识别模块，用于识别与所述亮度分量相关联的量化后的幅值数据；以及相位恢复模块，用于估计与识别出的幅值数据相关联的相位数据，并基于所述量化后的幅值数据和所述相位数据来生成输出音频信号。

本发明还延及一种包含指令序列的机器可读介质，当所述指令序列被机器执行时使得所述机器这里描述的任何一种或多种方法，或者所述指令序列被配置为实现这里描述的任何一个或多个系统。本发明还延及数字照相机和包括数字照相机的移动电话。

本发明的其他特征将从附图和下面的描述中变得很清楚。

附图说明

在附图中以示例而非限制的方式示出了本发明，其中除非特别指明，否则相似的标号指示相同或相似的特征。

附图中：

图1示出了根据本发明的示例性数字照相机的示意性框图；

图2示出了根据本发明的用于处理数字图像的图像处理系统实施例的示例性功能单元的示意性框图；

图3示出了根据本发明的用于处理数字图像的示例性方法的示意性流程图；

图4示出了根据本发明的用于处理嵌入宿主图像中的音频数据的方法的示意性流程图；

图5示出了根据本发明的用于从嵌入后图像中提取音频的音频处理系统实施例的示例性功能单元的示意性框图；

图6示出了根据本发明的用于从嵌入后图像中提取音频数据的音频处理方法的示意性流程图；

图7示出了数字图像的示例性小波子带；

图8示出了根据本发明的用于从自原始音频信号导出的幅值数据重建音频数据的音频处理方法的示意性流程图；

图9示出了根据本发明的用于将STFT幅值嵌入宿主图像的子带的示例性方法；

图10示出了根据本发明的用于处理数字图像的图像处理系统的另一实施例的示例性功能单元的示意性框图；

图11示出了示例性8 x 8离散余弦变换(DCT)系数块，其中4个DCT系数被点阵代码(lattice code)替换；

图12示出了根据本发明的用于从嵌入后图像中提取音频的音频处理系统的另一示例性实施例的功能单元的示意性框图；

图13A、13B、14A和14B示出了示例性宿主图像和限定了不包括音频嵌入的图像部分的示例性相关遮罩(mask)；

图15和16示出了图像的示例性屏幕显示以及图象的被表示为“声音带”或“话音带”的相关音频；并且

图17示出了机器的示意性表示，所述机器采取计算机系统的示例性形式，在该计算机系统中可执行用于致使机器执行这里讨论的任何一种方法的一组指令。

具体实施方式

这里描述了处理数字图像数据的方法和系统。在以下描述中，为了说明的目的列举了大量具体细节，以提供对本发明的透彻理解。但是本领域的技术人员应当很清楚，本发明可在没有这些具体细节的情况下实现。以示例的形式，参考向例如由数字照相机摄取的照片或“快照(snap-shot)”这样的静止图像嵌入音频数据和从其中提取音频数据来描述本发明。但是应当理解，本发明可应用于包括视频和其他多媒体环境的任何数字信号处理应用中。

在本发明的一个示例性实施例中，提供了用于向例如静止图像这样的彩色宿主图像嵌入音频信号(例如话音信号)的方法和系统。如下所详述的那样，音频信号的短时傅立叶变换(STFT)的幅值可以被点阵编码，并被注入到宿主图像的小波变换或离散余弦变换的子带中。在本发明的一个实施例中，可以提供“有声图片(talking picture)”，其可以用任何计算机或处理设备来捕获和/或重放，所述处理设备例如但不限于个人数字助理(PDA)、蜂窝电话、数字照相机、个人计算机(PC)等。但是，以示例的方式参考数字照相机描述本发明。此外应当理解，这里描述的数字照相机或其任何组件都可被包括在PDA、蜂窝电话、web照相机或任何其他计算机或处理设备中。

具体参考图1，根据本发明的示例性实施例，标号10总地指示示例性数字照相机。照相机10被示为包括用于捕获图像的光学系统或图像捕获模块12。相应地，照相机10可包括用于控制图像捕获模块12的光学系统控制器14，并且可选地包括用于处理从图像捕获模块12接收的数字信号(例如以数字数据的形式)的图像处理模块16。图像捕获模块12例如可以是传统的CCD探测器等。在一个实施例中，图像捕获模块12捕获静止的宿主图像或“照片”，然后所述宿主图像或照片被馈入静止图像处理器18以供处理。然后，静止图像可经由I/O接口20被传送到外部设备，和/或被存储在可移动存储设备22上。为了控制数字照相机10的操作，可以提供存储器/照相机控制程序和数据模块24。

为了捕获例如话音之类的音频，照相机10包括音频捕获模块26，并且可选地包括音频处理模块28。于是，音频数据可被馈入静止图像处理器18，然后如下所详述的那样，静止图像处理器18将音频数据嵌入由图像捕获模块12捕获的宿主图像中。应当理解，图1所示的各个模块只是示例性模块，在示例性数字照相机1的不同实施例中可包括更多的或其他模块。例如，在蜂窝电话内提供的数字照相机可包括不同的模块，以便帮助集成到蜂窝电话中。此外，例如，数字照相机10可包括其他模块，以便帮助照相机10集成到PDA、web照相机等中。因此应当理解，示例性数字照相机10可依赖于特定的照相机应用(例如作为独立照相机、PDA、蜂窝电话照相机等等)而包括不同的模块。

参考图2，标号30总地指示根据本发明实施例的用于处理图像以便将音频数据嵌入其中的示例性系统。在一个实施例中，图像是静止图像，系统30可以被包括在数字照相机10的静止图像处理器18内。但是应当理解，系统30可作为独立单元提供，或被集成在捕获宿主图像(静止的或视频)的任何其他计算机设备内。

系统30包括多个功能模块，用于处理RGB宿主图像信号(或数据)32和例如采取示例性的话音信号(或数据)形式的音频信号34。虽然系统30被示为包括多个分立的功能模块，但是应当理解，各个模块可被组合或集成到单个功能单元中，并且在其他实施例中还可包括更多的模块。此外，被捕获的宿主图像可以是其他格式的，并不限于RGB图像。在示例性系统30中，各个模块可由图像处理电路31和音频处理电路33提供。

示例性系统30被示为包括RGB到YCbCr转换模块36、离散小波变换模块38、滤波器模块40、感知分析模块41、短时傅立叶变换(STFT)模块42、量化器模块44、D₄点阵代码模块46、查找模块48、逆离散小波变换模块50、YCbCr到RGB转换模块52。如下所详述的那样，在一个示例性实施例中，系统30允许适度的音频恶化，其中仅STFT的幅值被编码和嵌入宿主图像中。此外，系统30可使用自适应点阵代码来对音频编码，如下所详述的那样。

图3示出了根据本发明的用于通过在例如RGB宿主图像信号32这样的宿主图像中嵌入音频数据来处理数字图像的示例性方法60。虽然方法60可应用于处理任何数字图像以便在宿主图像数据中包括音频数据的任何设备，但是方法60是参考系统30以示例形式描述的。

如操作62所示，系统30接收RGB宿主图像信号32，然后，颜色空间转换在操作64被执行，以将RGB分量(或数据)转换为Y、Cb和Cr通道(见RGB到YCbCr转换模块36)。因此，在颜色空间转换之后，RGB宿主图像信号32被分别转换为独立的色度和亮度通道或分量66、68(见图3中的操作70)。色度和亮度通道66和68可由数字数据来定义。

然后，方法60在操作72执行示例性的两级离散小波变换，以提供中间亮度数据74，该中间亮度数据74被馈入感知分析模块41(见操作76)。操作76中的感知分析可使用基于人类视觉系统模型的感知信息，从而当被人眼观看时被嵌入宿主图像中的音频数据对宿主图像的改变尽可能地小。在本发明的一个实施例中，感知分析模块41可使用类似于目前仅应用于数字水印中的技术。此外，中间亮度数据78被馈入滤波器模块40，以选择一个或多个子带并对其进行滤波(例如滤除)(见操作80)，以提供滤波后的亮度数据87。

返回操作76中的感知分析，经感知自适应的(perceptually adapted)亮度子带数据82与音频数据在84处被组合(见操作86)，以提供经感知自适应的音频数据88。然后，如89所示，经感知自适应的音频数据88与滤波后的亮度数据87被组合在一起，以提供修改后的亮度数据91(见操作90)。如操作92处所示，对修改后的亮度数据91执行逆离散小波变换(见逆离散小波变换模块50)。

然后，利用逆离散小波变换模块50逆变换后的修改后的亮度数据91与色度分量66在YCbCr到RGB转换模块52处被组合并被从YCbCr转换为RGB分量。因此，YCbCr到RGB转换模块52的处理后输出或嵌入后图像56是其中嵌入了音频信号(或数据)34的RGB宿主图像信号(或数据)32。

在一个示例性实施例中，小波变换后的亮度数据的LL-HH子带100(见图7和图2的感知分析模块41)可被用来嵌入或容宿音频数据。在另一实施例中，高频子带102可被使用，因为它可提供更高的容量，从而允许嵌入或容宿更大量或更大数量的音频数据，同时在输出的嵌入后图像56中宿主图像信号或数据32的潜在感知失真更小。但是，高频子带102对于对嵌入后图像56执行的有损图像压缩来说可能是较脆弱的。宿主图像的低频子带104也可被用来嵌入音频数据，但是可能引入感知失真，并且用于容纳音频数据34的容量也可能较低(因此在宿主图像中容宿或嵌入的音频数据更少)。因此，在一个实施例中，LL-HH子带100被使用，因为它可提供高频子带102和低频子带104之间的合理平衡，其中高频子带102具有潜在的有损图像压缩特性，而低频子带104用于嵌入音频数据的容量潜在地较低。在一个特定实施例中，通过在HH子带102中包括音频数据34以用于低JPEG压缩设置，可以提供大约5倍的通道容量增加。

标号110(见图4)总地指示根据本发明的用于处理音频数据以便嵌入到宿主图像中的示例性方法。在一个实施例中，方法110被用来处理系统30的宿主图像数据32中的音频数据34(见图2)。如操作112所示，方法110可接收例如可以是以8kHz采样的数字话音的音频数据(例如代表任何音频信号)。然后，如操作114所示，进行音频数据的短时傅立叶变换(STFT)(例如见图2的STFT模块42)，然后，变换后的频谱数据的相位(STFT相位)可被丢弃，而变换后的频谱数据的幅值(STFT幅值)可被量化(例如量化为24级)，如操作116所示。应当理解，丢弃相位可能会使音频恶化，降低其质量，但仍提供足够的信息以供随后的音频重建。然后，量化后的幅值可被映射到D₄点阵代码(见操作118)。方法110的输出可提供4维(4D)通道编码音频数据，该音频数据如上所述地与经感知自适应的亮度子带数据82组合，以提供经感知自适应的音频数据88。

在一个示例性实施例中，当在系统30上实现时，方法110接收8位8kHz话音形式的音频数据34，该音频数据34以50％的重叠被STFT变换，然后相位被丢弃。每个频谱幅值可被量化(例如均匀地)为24级，以与D₄点阵的第一外壳(shell)相匹配。在一个实施例中，该映射可以用这样的方式进行：当点阵代码被加性噪声干扰时，在其代表的数据(STFT幅值)中引起最小差错。因此，这样的要求可能有助于嵌入RGB宿主图像或数据32内的音频数据的适度恶化。在一个实施例中，自适应编码可被用来分析宿主图像中的区域，并且响应于该分析，基于例如对频率、亮度和对比度掩蔽的人类视觉灵敏感度来决定编码强度。例如，在高频或纹理明显的区域中，可以接受较大的失真，因此可以使用高编码强度以获得较大的鲁棒性，并同时保持感观透明度(perceived transparency)(在典型观看条件下减小的宿主图像失真)。在类似于明朗的蓝天这样的明亮低频区域中，低编码强度可被用来提高透明度，但是会牺牲鲁棒性(在嵌入后图像经历线性或非线性操作后对音频数据的修改)。在一个实施例中，可以使用基于这种频率敏感度的一种简单方案，其中小波子带的系数确定一个区域的频率内容。通过基于被点阵代码替换的相应的子带系数(见图3中的操作76)来按比例缩放点阵代码，可以实现感知自适应。例如，在D₄点阵代码的情形下，比例因子可以是其将替换的四个子带系数的最大绝对值。

例如，

Scale＝max(|D_i|) (1)

其中，

0<＝i<＝3，并且D_i是用于替换的选定子带的四个系数。

S＝Scale*S_global (2)

P＝S_min(如果S<S_min)，S_max(如果S>S_max)，或S(在所有其他情况下)。 (3)

D_i ⁶＝P*C_i， (4)

其中D_i ⁶是新系数，C_i是点阵代码，S_global是整体比例因子，S_min和S_max可以限制失真。D_i和S_global一起可确定点阵代码S的强度，并提供感知分析元素。对于高频区域来说，S可以较大，这可以更好地掩蔽失真。

在一个实施例中，S_min、S_max和S_global变量可以是可调节的。S_min可以设置由于嵌入音频而造成的宿主图像的最小失真，增大S_min可得到整体的较大鲁棒性，但是会增大图像失真。S_max可以限制由于嵌入音频而造成的宿主图像的最大失真。在一个示例性实施例中，S_global可以被设置为1.0，S_min可以等于1.0或2.0，S_max可以等于4.0。在S_min＝1.0时，失真可能较不明显。虽然参考点阵编码以示例形式描述了本发明，但是应当理解，在其他实施例中可以使用二进制编码(或任何其他合适的技术)。但是，在某些情况下，点阵编码可能提供较高的抗噪能力。

具体参考图5，标号120总地指示根据本发明的用于处理数字图像以从数字图像(例如嵌入后宿主122)中取得或提取音频数据的示例性系统。系统120例如可被用来实现方法124(见图6)。系统120包括RGB到YCbCr转换模块126、离散小波变换模块128、点阵代码提取模块130、比例估计模块132、匹配模块134、逆量化模块136、滤波器模块138和相位恢复模块140。如下所详述的那样，系统120和方法124允许提取嵌入后图像122中的嵌入的音频数据。因此，例如，嵌入RGB宿主图像数据32中的音频数据34(见图2)可以被取得或重建。系统120和方法124例如还可以被包括在数字照相机10中。但是，在其他实施例中，系统120和方法124可以被提供在PDA、包括照相机的蜂窝电话和任何其他计算设备(例如PC)中，从而嵌入在被设备接收的图像中的音频数据可以被再现，并且宿主图像可被观看。当数字图像被再现时，视觉二维图像(对应于宿主图像)则可被显示给用户，并且被嵌入图像中的伴随的音频数据可同时被重放或再现。因此，包括嵌入的数据的数字图像可能类似于“有声照片”或“有声图片”。应当理解，因为音频数据34被嵌入宿主图像数据32中，因此图像数据32和音频数据34形成了单个实体或承载介质。因此，不是传送两个独立的文件，而是音频和视觉数据被合并或混合，并且对图像复本的拷贝会导致音频数据也被拷贝或复制。

返回系统120和方法124，如操作142(见图6)所示，系统120(图5)可接收嵌入后图像122(例如对应于图2的嵌入后图像56)，然后(如果有必要的话)对RGB分量进行转换以提供YCbCr分量，如操作144所示(另见RGB到YCbCr转换模块126)。然后，亮度数据Y146被馈入执行离散小波变换(见操作148)的离散小波变换模块128，然后，点阵代码从编码后子带中被提取(见操作150和提取模块130)。点阵提取模块130的输出可以是按比例缩放后的4-D通道代码，该代码然后在操作152经历比例估计(也见比例估计模块132)，以产生归一化的4-D通道代码，归一化的4-D通道代码被馈入匹配模块134，以找出最佳或合适的匹配。匹配模块134搜索点阵代码模块46，并找出最佳或合适的匹配，产生量化(例如24级)系数(见操作154)，该量化系数被逆量化(见逆量化模块136)以获得STFT幅值(见操作156)。然后，STFT幅值被滤波(见操作158)以去除噪声(例如盐/胡椒型(salt/pepper)噪声)，并且高斯平滑(见滤波器138)被执行。然后，滤波后的STFT幅值被馈入相位恢复模块140，以执行相位恢复(见操作160)，然后在操作162提供输出音频信号。输出音频信号对应于音频数据34(见图2)，而在一个实施例中可被认为是恢复后的音频信号。

在一个实施例中，比例可以被估计为每个系数的最大绝对值，因为所有第一外壳D₄点阵代码都可能具有最大单位幅值。因此，可以采用动态比例缩放，以允许在无需额外编码的情况下同一宿主图像内有不同强度的代码。

如图9所示，在一个实施例中执行两级小波变换，并且使用(例如直接地)LL—HH子带的四个系数(被替换的)的最大值来按比例缩放点阵代码。由于图像已经经历了小波变换，因此动态比例缩放操作可以很快而且仅需要一些附加操作。通过将点阵代码限制到D₄点阵的第一外壳，比例可在解码期间被估计，并且不需要与嵌入后图像一起被传送。

在图9中，标号250总地指示根据本发明的用于将音频数据映射到点阵代码的方法。点阵编码的优点是点阵代码之间的距离可被最大化，以使其对噪声鲁棒。在一个实施例中，点阵代码在理论上可被按比例放大到足够大，以处理通道的最大噪声。但是，在水印的上下文中，这可能是不实际的，因为噪声模型一般很难建模。即使噪声模型是已知的，比例也可能太大，造成可能是不可接受的失真。因此，一般来说足够的噪声可能仍会导致点阵代码被错误地解码，可能需要例如检错和纠错这样的额外编码来对其进行校正，从而增加了计算开销和复杂度。但是，在本发明的一个实施例中，这种差错可以被允许并且不被校正。相反，可以提供接近实际代码的被错误地解码的代码。在一个实施例中，可以设计STFT幅值到点阵代码的映射来满足这一要求。通过示例方式，方法250(见图9)示出了用于D₄点阵代码的第一外壳的示例性音频数据映射。应当理解，该映射可以应用于所有外壳。

如表252所示，音频数据的STFT(见图2的STFT模块42)可以提供128个STFT幅值，每个幅值的范围例如是从0到255。然后，每个STFT幅值被量化为24级(见操作254和256)。例如，使用第一幅值M₀，假设第一STFT具有幅值164(见表252)，则如操作256所示，量化值可由下式给出：

M₀＝round(M₀/255*23)(在给出的示例中等于15)

然后，如操作258所示，从D₄点阵第一外壳表260获得相应的D₄点阵代码。在给出的示例中，点阵代码L等于(1，0，-1，0)。

在示例性方法250中，LL—HH子带被用来嵌入音频数据。因此，获得了LL—HH子带中宿主图像的子带值(见LL—HH子带表262)。例如，如操作264所示，对于示例性第一STFT幅值M₀，可获得前四个系数C₀(-2.4，6.9，4.6和-0.5)。然后，如操作266所示，通过使用例如简单最大值函数来估计频率内容可执行感知分析。例如，

S＝max(|-2.4|，|6.9|，|4.6|，|-0.5|)，结果为6.9

然后，该值可被限幅在(S_min＝2，S_max＝4)之内，因此值6.9可被限幅为4。

然后，所得到的值(在本例中是“4”)可乘以点阵代码L(在本例中是(1，0，-1，0))，以提供修改后或按比例缩放后的点阵代码L’(在本例中是(4，0，-4，0))。然后，这些值可替换LL—HH子带的前四个系数(见表268)。

D₄点阵表260示出了对于每个STFT幅值的点阵代码映射的示例，但是在其他实施例中，其他映射也是可能的。应当理解，有24！(阶乘)种方法来对24个点阵代码排序。因此在本发明的一个实施例中，点阵代码被排序。例如，作为4-D空间中的24个点的24个点阵代码可以被排序如下：

1.对于每个点阵代码C_i(其中i的范围是从0到23——见表260)，可以计算以下内容：

D_i＝包含C_i并具有法线(N)的4-D平面到原点(0，0，0，0)之间的距离。

对法线(N)的选择可以是任意的，但是在一个实施例中被选择以使平局(tie)最小化。为了简明起见，可选择N＝(1，1，1，1)。

2.然后，点阵代码可以按D_i的降序排序。

3.例如通过穷尽性地评估每个可能的排序，可以交换相同D_i的点阵代码。K可以是相同D_i的代码数目。由于K可以很小(例如3)，因此组合的数目是K！<<24！。可以选择这样的排序，其中两个相邻代码之间的欧几里德距离的和最小。应当理解，点阵代码(例如在点阵代码模块46和D₄点阵表260中)可以被预先生成。编码器和解码器可以具有对应的点阵代码表，并且在一个示例性实施例中，点阵代码表被公布，从而它们可被自由获得。在一个示例性实施例中，在编码期间，每个量化的STFT幅值都直接映射到一个点阵代码。因为在解码器处可能接收到被噪声干扰的归一化的点阵代码，因此可以搜索整个点阵代码表以获得匹配条目(例如具有最小欧几里德距离的条目)。

上述方法250提供了用于将音频数据映射到点阵代码的示例性方法。例如通过反向执行上述步骤中的至少一些，可从嵌入后宿主提取音频数据。在一个实施例中，可如下提取音频。最初，可从宿主图像提取点阵代码。在本发明的一个实施例中，包括音频数据的点阵代码可被一般大众自由获得，因此具有合适硬件的任何人都可对点阵代码解码。因此，在一个实施例中，当本发明被应用在例如照相机10这样的数字照相机中时，照相机10可既包括嵌入功能又包括提取功能。一旦已提取出点阵代码，就可估计比例。在一个实施例中，D₄点阵的第一外壳可仅包含元素0或-1，因此估计可以相对简单。例如，可采用点阵代码的最大幅值。在图9中提供的示例中，按比例缩放的原始点阵代码L’(4，0，-4，0)可能被某些噪声干扰，例如被提取为(3.2，-1.4，-4.5，2.1)。于是，点阵代码系数的最大幅值可以等于max(|3.2|，|-1.4|，|-4.5|，|2.1|)＝3.2。因此，比例可被选择为3.2。然后，点阵代码可被除以最大幅值(在给出的示例中是3.2)，D₄点阵代码表(对应于D₄点阵代码表260)可被搜索，以获得就欧几里德距离而言的最近代码。例如，如果最大幅值＝0(这可能发生在提取出的点阵代码是(0，0，0，0)时)，则点阵代码可被分类为未知，并且相应的STFT幅值被设置为0。

在某些实施例中，可执行后处理以提高提取出的STFT幅值的质量。例如，可以去除盐胡椒型噪声。例如，假设像素代表STFT幅值，则对于每个像素，可以计算5 x 5窗口的平均像素值。如果像素值与平均像素值相差32，则像素值可被设置为平均值。如下所详述的那样，另一种后处理方法可利用推拉(Pull-Push)功能来去除盐胡椒型噪声，该功能可适用于离散小波变换和离散余弦变换。推拉功能在Gortler S.J，Grzeszczuk R，Szeliski R.，Cohen M.F.的“The Lumigraph”，Computer Graphics，AnnualConference Series，1996中有所描述，该文献的全部内容通过引用而被包含于此。在某些情况下，如果噪声集中在一起导致很大的间隙(gap)，则上述两种方法的性能可能很差。例如，图14A中天空区域的所有点阵代码都可能被严重干扰，丢失了全部音频部分。一个解决方案是在编码之前混排(shuffle)STFT幅值。这具有扩展差错的效果。接收机可在降噪之后取消混排。在一个实施例中，通过使用具有3 x 3窗口和标准偏差＝1的标准高斯核，可以提供额外的高斯平滑。

在一个实施例中，嵌入的音频数据32不被加密或编码，因此用户对音频数据的提取不受限制。因此，用户可自由地提取音频数据。此外，与水印和数据隐藏(其中宿主数据中包括的数据被隐藏或隐蔽以防止用户提取数据)不同，在本发明的一个实施例中，音频数据34被嵌入宿主图像34中已知图像部分中，并且可被自由提取，而无需有关密钥或任何其他保密信息的知识。例如，在水印中，多媒体分销商一般试图唯一地标识他们的数字内容，以便在发生未经授权的分销时，他们可以识别未经授权的分销的源。数字水印是被插入数字图像中的数字信号或模式，其仅标识特定图像，并且为了这样做，包括了相对较少的数据。数字水印与加密的不同之处在于其保持了原始图像的完整性和可识别性。多媒体分销商还使用加密来防止对媒体的未经授权的复制。数字内容分销商还使用数据隐藏来包括仅可由被授权者取得的数据。与数字水印不同，数据隐藏允许隐藏更大量的数据，但是两种技术的目的都是防止用户从宿主中提取被隐藏的数据。但是，在本发明的一个实施例中，任何人都可自由地提取音频数据，而且可以用任何方法进行提取。因此，用照相机10拍摄的照片例如可被发送到家庭和/或朋友，在这些人观看照片时可以重放音频。因此，例如嵌入的音频可包括伴随静止图片的问候、消息等等，从而提供“有声照片”。

在某些实施例中，STFT的幅值和相位可被嵌入宿主图像中，但是音频数据可能就需要二倍于仅将音频数据的幅值嵌入宿主图像32所需的带宽或嵌入区域(例如假设50％重叠)。因此，在一个示例性实施例中，相位被丢弃，仅幅值被嵌入宿主图像中。因此宿主图像中包括的音频数据的量(比特总数)可以减少。虽然音频的实际质量也随之降低，但是给定量的嵌入的音频数据可提供更长的音频播放时间(例如更长的消息可被嵌入宿主图像中)。

下面描述用于从STFT幅值恢复相位(或估计的相位)的示例性方法和系统(可使用相位恢复模块140——见图5来实现)。但是应当理解，本发明不需要被限制于以下描述的示例性实施例，而是可以在不同实施例中使用用于从STFT幅值信号恢复相位的任何技术。

参考附图，标号180总地指示根据本发明的用于从嵌入宿主图像中的音频数据重建音频信号的方法。方法180可以是非迭代型重建技术，其可被用于实时应用或计算资源稀缺或者希望限制这种计算的情况。应当理解，本发明并不限于这种示例性重建技术。

如操作182所示，方法180接收STFT幅值数据，然后识别STFT幅值中的峰(见操作184)。STFT幅值中的峰被假设为对应于信号中的正弦曲线，并且如操作186所示，方法180通过用抛物线拟合可以围绕每个峰的FFT桶(FFT bin)(例如3个FFT桶)来估计每个正弦曲线(峰)的瞬时频率。应当理解可以使用多于或少于3个桶。然后，方法180找出抛物线处于其最大值(或接近其最大值)时的频率(或近似频率。)然后，方法180使用前一帧处的相位以及从瞬时频率计算得到的相位增量来计算或估计峰桶的相位(见操作188)。然后，如操作190所示，使用逆STFT技术(例如标准STFT技术)来从STFT幅值重建音频信号。

在一些实施例中，任何算法都可被用来识别频谱中的正弦曲线峰。例如，可以进行检查以查看桶幅值是否大于它在峰左侧的两个邻居和它在峰右侧的两个邻居。在另一实施例中，当分析考虑了旁瓣未被错误地识别为正弦曲线峰时，可以提供改良的结果。在另一实施例中，可以检查峰的形状事实上与可被预期为真正的正弦曲线的形状相匹配。

一旦对给定的峰计算了瞬时频率ω(见操作186)，就可根据下式获得第k帧处的新相位φ_k：

φ_k＝φ_k+2πωR， (5)

其中R是样本中跳的大小，ω是归一化的频率。

然后，相位可被应用到围绕峰桶的FFT桶。可以对各个峰重复该过程。在一个实施例中，在没有任何先验知识的情况下可以对φ₀使用任意初始相位。逆FFT可以生成具有靠近n＝0的最大值的短时信号。在这些情况下，相同的相位可被指派给峰附近的桶，因此FFT是“零相位”的，其中信号可以集中于n＝0。通过按半窗口大小对FFT的输出进行循环移位，可以获得最终输出的短时信号。

在某些情况下，方法180可提供对音频数据的合理近似或重建。但是，在其他实施例中，应当理解各种其他重建技术可被用来提供改良的音频信号重建。在一个实施例中，方法180可包括一系列Griffin-Lim迭代。

因此，在一个实施例中，可以假设音频数据包括多个正弦曲线，并且峰附近的STFT相位根据对正弦曲线瞬时频率的估计而被更新。

在本发明的一个实施例中，如上通过示例所描述的那样，数据处理系统30和/或数据处理系统120可被包括在便携式数字照相机中。因此，数字照相机的用户(例如公众)可以在拍摄静止图片的同时记录音频片断或消息，然后音频片断被嵌入宿主图像内，然后宿主图像可被存储在数字照相机上或例如经由蜂窝电话网络而被传送。然后，接收数字图像的任何设备都可从数字图像中取得或提取音频数据，并且例如当观看数字图像时，音频数据可被自动生成或再现。因此在一个如上所述的实施例中，本发明提供了“有声照片”或“有声图片”，其中集成了音频数据和图像数据。

在本发明的一个实施例中，嵌入的音频数据可以至少部分地从有损格式转换中幸存下来，例如从BMP格式到TIFF格式的转换，BMP格式到Targa格式的转换等等。在一个实施例中，数字音频(例如数字话音)可以从有损压缩(例如JPEG压缩)中幸存下来，并且较高压缩比下具有适度的恶化。此外，在某些实施例中，例如锐化、颜色平衡、伽马(gamma)、亮度和对比度调节以及90°旋转这样的普通图像处理程序也不会明显恶化音频数据。

在本发明的一个实施例中，嵌入的音频数据被尽可能透明地嵌入，从而减少对原始静止图像(宿主图像)的改变。但是，与数字水印和数字隐藏不同，在本发明的一个实施例中，嵌入在静止图片中的音频数据倾向于可被使用兼容设备的任何人自由地取得或恢复。因为音频数据倾向于能被自由恢复，因此恢复技术不是保密的而是可被公开，并且不需要密钥等就能取得音频数据。

在上述示例性实施例中，对亮度通道或分量68执行离散小波变换(DWT)(见图2中的离散小波变换模块38)。在另一示例性实施例中，使用离散余弦变换(DCT)。

参考图10，标号300总地指示根据本发明的实施例的用于处理图像以在其中嵌入音频数据的示例性系统。系统300与系统30类似，因此相似的标号被用来示出相同或类似的特征。但是，系统30的离散小波变换模块38、滤波器模块40和感知分析模块41在系统300中被替换为离散余弦变换模块302、DCT滤波器模块304、DCT感知分析模块306和逆离散余弦变换模块308。与系统30的情形一样，系统300可以与提供数字照相机技术的任何电子设备一起使用，或被集成在这样的电子设备内。当系统300被包括在数字照相机10中时，可使用JPEG格式来压缩数据。

在系统300中，图像首先在离散余弦变换模块302中被划分为示例性的8 x 8个块。该划分可使用例如JPEG技术或MPEG技术在图像压缩期间执行。然后，使用直接余弦变换来对这示例性的8 x 8个块进行变换，以产生向DCT滤波器模块304提供中间亮度数据78的DCT系数的另外8 x 8个块。在一个示例性实施例中，选择(例如预先选择)对应于中间带的一组系数。然后，选定的系数被DCT滤波器模块304滤波(例如滤除)，以提供滤波后的亮度数据87。离散余弦变换模块302还将中间亮度数据74提供给DCT感知分析模块306，以提供经感知自适应的亮度数据82，该亮度数据82被与来自查找模块48的音频数据的点阵代码组合，如84所示。然后，经感知自适应的音频数据88替换选定的系数，如89所示，以提供修改后的亮度数据91，该修改后的亮度数据91被馈入逆离散余弦变换模块308中。然后，逆变换后的数据被馈入YCbCr到RGB转换模块52中，在这里如上参考图2所述地对其进行处理。

因此，在系统300中，系统30的离散小波变换处理被替换为离散余弦变换处理。以类似的方式，图3的方法60中的操作72、76和80可被修改以执行离散余弦变换处理而非离散小波变换处理。在示例性系统300中，在进行到点阵代码的映射之前，使用STFT对音频(例如话音)进行变换，从而可提供适度的音频恶化。

参考图11，标号310示出了示例性的8 x 8离散余弦变换(DCT)系数块，其中有四个DCT系数312、314、316和318被来自查找模块48的点阵代码替换。在一个示例性实施例中，每个点阵代码替换四个系数，并且对于每个8 x 8系数块310仅编码一个STFT幅值。与离散小波系数(见图9)一样，通过选择更多的系数(例如高频系数)可增大宿主图像的音频存储容量，但是这将导致鲁棒性降低。例如在用户选择了高质量图像的数字照相机(例如数字照相机10)中，照相机可以存储利用最小JPEG压缩拍摄的图片的数字图像，并且由于最小JPEG压缩，较高频的DCT系数可以不受不利影响。因此，在一个示例性实施例中，这些高频系数可被用于点阵编码，从而提高数字图像容纳音频数据的容量。在一个示例性实施例中，以与离散小波变换类似的方式，对于感知分析306，比例可取为要被替换的四个DCT系数的最大绝对值。例如在图11中，比例S＝max(|-15|，|-12|，|-17|，|0|)＝17。

图12中的标号320总地指示根据本发明的用于从嵌入后图像中提取音频的音频处理系统的又一实施例。系统320与系统120基本类似，因此相似的标号被用来指示相同或类似的特征。在系统320中，离散余弦变换模块322和点阵提取模块324替换了图5的离散小波变换模块128和点阵代码提取模块130。离散余弦变换模块322将亮度数据146(YCbCr分量)划分为示例性的8 x 8个块，并对每个块执行离散余弦变换。然后，点阵提取模块324从编码后的DCT系数中提取点阵通道代码，以提供按比例缩放后的4-D通道代码，4-D通道代码被馈入比例估计模块132，如上在离散小波变换实施例中参考图5所述。以类似的方式，方法124(见图6)可在操作148和150中被修改，以执行离散余弦变换处理。

在一个示例性实施例中，被干扰的STFT幅值的重建可以在滤波器模块138中被建模为2维散射数据(scattered data)近似。所得到的间隙例如可利用推拉方法填充，如在Gortler S.J，Grzeszczuk R，Szeliski R.，CohenM.F.的“The Lumigraph”，Computer Graphics，Annual Conference Series，1996中所提出的那样，该文献的内容通过引用而被包含于此。到该推拉方法的输入是一组已知值和它们的相应权重。该权重度量对已知值的置信度级别，其中零权重指示未知的值。在向系统30、300应用该推拉方法的情况下，提取出的STFT幅值可被认为是已知值，它们的权重可被建模为提取出的有噪声点阵代码和它们的最近(匹配)的点阵代码之间的距离的函数。零距离(例如完全匹配)可以指示最大权重。应用这些示例性技术：

w＝1—d (6)

其中w是权重，w＝0表示最低置信度级别，d是提取出的有噪声点阵代码和它的最近匹配之间的欧几里德距离：

d = \sqrt{({(C_{1} - M_{1})}^{2} + {(C_{2} - M_{2})}^{2} + {(C_{3} - M_{3})}^{2} + {(C_{4} - M_{4})}^{2})},

其中 (7)

提取出的点阵代码，C＝(C₁，C₂，C₃，C₄)，并且

最近的匹配点阵代码，M＝(M₁，M₂，M₃，M₄)。

在一个示例性实施例中，不是使用整个或基本上整个宿主图像来嵌入音频数据，而是可使用遮罩来限制宿主图像中要嵌入音频数据的部分或区域。示例性遮罩330(见图13B)的外形是椭圆形的，示例性图像332(见图13A)在椭圆内的任何部分都可以被保留(例如全部保留)以用于图像数据。因此，椭圆外部的区域334可以被用来嵌入音频数据。应当理解，遮罩的形状和/或大小在各个实施例中可能有所不同，并且可以依赖于由宿主图像捕获的图片的性质而变化。图14A示出了用于掩蔽宿主图像338的一个区域的遮罩336(见图14B)的又一示例性实施例，其中仅提供图像数据。在遮罩336中，音频数据仅被嵌入区域340中。应当理解，可以提供任何合适形状和/或大小的任何数目的遮罩。因此，音频数据可被嵌入任何部分中或被嵌入整个宿主图像中。

在一个示例性实施例中，遮罩330、336本质上可以是二进制的或离散的(例如“1”对应于包括音频数据的区域，“0”对应于不包括音频数据的区域)。因此，例如，遮罩330、336可限定不包括音频数据的只包括图像数据的区域，具有零遮罩值的宿主像素可不被改变(原始图像数据保持不变)。但是应当理解，示例性遮罩330、336在本质上可以是连续的(例如“0”和“1”之间的值用于指示给定区域中音频嵌入的程度应当有多强或多重)。因此，掩蔽可以允许用户(或电子电路)选择宿主图像中可容忍失真的区域，并将音频数据嵌入其中，并且保护宿主图像的重要区域或部分。此外，音频数据既可被嵌入被掩蔽的部分，又可被嵌入未被掩蔽的部分，其中与被掩蔽的部分相比，未被掩蔽的部分中的每个像素存储的音频数据更多。因此在嵌入后图像中，对于不同图像部分，存储的音频数据的“密度”可能不同。

遮罩可以由用户定义，或者用户可选择几个预定的遮罩之一。对于用户定义的遮罩，用于处理嵌入后图像以从数字图像中取得或提取音频数据的示例性系统120、320(见图5和12)包括相应的遮罩，该遮罩随后被用于提取处理。例如，当预定的遮罩被用来生成嵌入后图像56时，系统120、320识别在嵌入过程期间使用了哪个预定遮罩，然后相应的预定遮罩被用来从嵌入后图像中提取音频。例如，相关联的遮罩可以由外部输入(例如用户选择)标识，接收机可穷举性地尝试所有预定遮罩，并使用具有最高置信度因子的一个遮罩，或者任何其他识别方法都可被用来识别所使用的遮罩(例如在宿主图像中可嵌入标识符、可以提供标签或任何其他标识符)。在一个实施例中，可以使用公式(7)来确定置信度因子。

应当理解，将音频数据嵌入宿主图像中将导致图像失真。图像失真的量依赖于被嵌入宿主图像中的音频数据的量或数量。但是，通过如上所述自适应地控制点阵代码比例，可以减小失真的量。此外/或者，遮罩可被用来控制嵌入后图像中由于嵌入音频数据而发生失真的区域。但是应当理解，此外/或者，各种其他技术可被用来减小宿主图像的失真。

嵌入后图像例如可在显示设备(例如计算机监视器、电视机、PDA显示器、数字照相机、显示器、蜂窝电话显示器等)上被观看，或被打印。当较高分辨率的图像(例如5兆像素的图像)在1280 x 1024像素监视器上被整体(例如没有缩放)观看时，可以被下采样(down sample)。这种下采样过程一般是低通滤波，其可以有效地去除由于音频数据被嵌入宿主图像中而引入的任何失真。因此，用户将不会看到失真。在某些打印的情形下，由于打印机的字点增益(dot gain)和抖动过程平滑掉了失真，因此几乎看不出失真。

在一个示例性实施例中，知晓使用这里描述的离散余弦变换技术进行了嵌入的观看者应用可通过执行前向离散余弦变换来去除嵌入的音频数据，滤出(滤除)选定的系数，并在显示图像之前利用逆离散余弦变换来处理嵌入后宿主图像。应当理解，通过在方法中用离散小波变换替换离散余弦变换，相同的方法可以与离散小波变换一起使用。在另一示例性实施例中，可将点阵比例与和图像相关联的噪声(例如在图像捕获过程期间引入的照相机或传感器噪声)匹配。从可交换图像文件格式中的数据(EXIF头部)可测量或估计噪声。例如，使用数字照相机捕获的图像可能包含从镜头和/或传感器产生的某种级别的噪声。在较高的ISO级别，该噪声可能非常明显。例如，在传统的模拟胶片照相机中，摄影师可选择高ISO级别胶片，这种胶片对光更敏感，但是会导致更多“颗粒”。在数字照相机中，高ISO级别对应于高传感器(CCD或CMOS)增益，这会导致原始图像中的较大噪声。由于原始图像已经包含了某些噪声，因此可以尝试将水印引起的失真(看上去与噪声类似)限制到与传感器噪声相同的程度，从而将其隐藏在传感器噪声中。点阵比例可以被选择为使得由于嵌入按比例缩放的点阵代码而导致的失真不会超过传感器噪声所引起的失真。因此，点阵代码可被有效地隐藏在噪声中。在本发明的另一示例性实施例中，音频数据可被包括在EXIF文件中，例如在EXIF头部中，因此，音频数据可以更好地从文件格式转换中幸存下来。在另一示例性实施例中，例如在创建图像期间，STFT幅值可以被直接粘贴(例如不隐藏)在图像上。在一个示例性实施例中，可在编码期间使用与在方法110的操作112、114和116中提供的操作(见图4)类似的操作来生成话音或声音带。在一个示例性实施例中，幅值可被量化为256级而非24级，因为灰度图像一般具有256级。但是应当理解，幅值可被量化为任何数目的级。

参考图15，标号350总地指示嵌入后宿主图像，其中音频数据是在宿主图像354的选定区域352中提供的。音频数据可在“话音带”或“音频带”中提供，所述“话音带”或“音频带”包括如参考图2所述的从音频数据生成的STFT幅值。在一个实施例中，话音带提供STFT幅值，STFT幅值作为常规的灰度级图像被呈现。应当理解，话音带可从嵌入后图像中提取，然后在选定区域352中显示。

在一个示例性实施例中，话音或音频带被重叠或“粘贴”(例如直接地)到宿主图像上。这将允许用户例如使用剪切和粘贴功能来编辑话音带，并将两个或多个话音或音频带混合在一起。由于话音或音频带是图像的一部分，因此它可以从各种图像处理技术、图像格式转换和数—模—数转换中幸存下来。在图16所示的示例性实施例中，嵌入后宿主图像具有扩展部分358，用于容纳音频数据(例如在话音或音频带360、362中提供)。但是，与发言者(在照片中捕获的一个人的图像)的空间关系在多于一个发言者的情况下(在照片中捕获另一人的图像)可能会丢失。在一个实施例中，可以提供标记364、366，它们分别充当相应的话音带360、362的索引。电子设备(例如任何数字处理设备)可以检测和解码标记364、366和话音带360、362。例如，当用户移动指针(例如鼠标指针)到标记364、366中的一个时，对应于识别出的标记的话音或音频可从与其相关联的话音带再现。

在上述示例性实施例中，在将音频数据嵌入宿主图像中时使用了点阵编码。但是，在其他实施例中可使用其他技术。例如，量化索引调制(QIM)技术也可被用来嵌入STFT幅值。这种QIM技术的一个示例在Brian Chen和Gregory W.的“Quantization Index Modulation：A class ofprovably good methods for digital watermarking and information embedding”，IEEE Transaction on Information Theory，Vol 47.No.4，May 2001，pp 1423-1443中有所描述，该文献的全部内容通过引用而被包含于此。

在应用QIM技术时，量化的DCT系数可受到扰动，以在对数字音频数据编码时取偶数或奇数值(“签名”)。虽然这一技术可被视为无损的，但是它可能是很脆弱的，其中嵌入的音频数据在普通图像处理操作(例如使图像变亮)下是不受保护的。该方法可能需要对编码和解码模块的完全控制，因此在某些实施例中可能是不太有利的，如果用户被允许使用任意图像编辑软件的话。不过，如果提供了这种控制，则该方法可将高质量和高容量的音频数据嵌入宿主图像中。如果嵌入的目标图像格式的是JPEG，则上述自适应点阵编码技术可能是更适合的。在某些实施例中，通过利用其脆弱性，QIM方法可以具有优点。例如，如果图像中的区域被修改，则这种修改可被检测到，因为相应的块中的点阵代码可能被干扰或具有很低的置信度级别。在一个示例性实施例中，这一副作用可被用来提供特征(temper)检测机制。

这里通过示例描述的本发明可提供或被用来提供集成图像(例如数字照片)和音频(例如语音或话音)的单个媒体。因此，可以提供既包含图像也包含音频的单个文件(例如JPEG文件)。此外，单个文件的内容(宿主图像和音频数据)可在文件格式转换中幸存下来。在一个示例性实施例中，可执行基于音频的“照片搜索”。因此数字图像可基于其中嵌入的音频数据而被定位。在一个本发明的示例性应用中，这里描述的方法和系统可被用来通过将用户自己的语音嵌入图像中来提供保护措施，以例如防止图像被剽窃。

在本说明书中，术语“图像”应被广义地理解，而不限于例如照片、视频片断之类的图像。术语“图像”意图包括任何二维表示并且可以是例如照片图像、文档图像、文本之类的图像。

图17示出了呈计算机系统200这样的示例性形式的机器的图示，其中可执行用于致使机器执行这里讨论的任意一种方法的一组指令。在另一种实施例中，机器可包括网络路由器、网络交换机、网桥、个人数字助理(PDA)、蜂窝电话、web用具或任何能够执行指定了要被该机器执行的动作的指令集合/序列的机器。

计算机系统200被示为包括总线212，总线212互连多个例如中央处理器214、系统存储器216和外部设备这样的子系统，其中在到外部设备的连接中，总线212经由音频卡220连接扬声器218，经由显示适配器224连接显示屏222，经由并行端口228连接打印机226，经由输入/输出(I/O)控制器234连接指向设备例如鼠标230和键盘232，经由主机适配器240连接固定盘驱动器236和CD-ROM/DVD驱动器238，还连接网络接口卡242以及可操作来接收软盘246的软盘驱动器244。

应当理解，很多其他设备或子系统(未示出)也可被连接，例如扫描设备、触摸屏等。此外，要实现本发明并不需要图17所示的所有设备。当计算机系统采用PDA或蜂窝电话形式时，它可不包括例如鼠标230、软盘驱动器244、固定盘驱动器236等。此外，这些设备和子系统可以用不同于图17所示的配置互连。计算机系统200的操作是本领域已知的，这里不再详细讨论。

在本说明书中，术语“机器可读介质”应被理解为包括能够存储或编码用于被机器执行并致使机器执行本发明的任何一种方法的指令序列的任何介质。术语“机器可读介质”应相应地被理解为包括但不限于固态存储器、光和磁盘以及载波信号。

用于实现本发明某些实施例的软件可以被可操作地部署(全部或部分)在系统存储器216内，在耦合到总线212的子系统(例如音频卡220、中央处理器214)内，或者被存储在存储介质(例如固定盘驱动器236、软盘246或可利用CD-ROM/DVD驱动器238操作的CD-ROM/DVD248上。

可以用多种方式实现总线212。例如，总线212可被实现为本地总线、串行总线、并行端口或扩展总线(例如ADB、SCSI、ISA、EISA、MCA、NuBus、PCI或其他总线体系结构)。系统存储器216可以是随机访问存储器(RAM)、动态RAM(DRAM)或其他存储器设备。

因此，已经描述了用于处理数字图像的方法和系统。在一个实施例中，例如话音信号这样的音频数据可被嵌入静止彩色宿主图像中。虽然参考具体的示例性实施例描述了本发明，但是很明显，在不脱离本发明的更广的精神和范围的情况下可对这些实施例作出各种修改和改变。因此，说明书和附图应被理解为说明性而非限制性的。

Claims

1.一种用于处理宿主图像的方法，该方法包括：

接收所述宿主图像；

接收音频数据；以及

将所述音频数据嵌入所述宿主图像内以提供嵌入后图像，其中所述音频数据的音频信号的幅值数据被量化而相位数据被丢弃，并且其中所述音频数据可从所述嵌入后图像自由地恢复。

2.如权利要求1所述的方法，包括在将所述音频数据嵌入所述宿主图像内之前使用短时傅立叶变换来处理所述音频数据。

3.如权利要求1所述的方法，包括量化所述音频数据以将其映射到D₄点阵代码。

4.如权利要求3所述的方法，包括将所述D₄点阵的点阵代码按比例缩放，以将所述宿主图像的失真最小化。

5.如权利要求1所述的方法，包括：

分离所述宿主图像的亮度数据和色度数据；

将所述音频数据包括在所述亮度数据中，以提供修改后的亮度数据；以及

将所述修改后的亮度数据和所述色度数据组合起来以提供所述嵌入后图像。

6.如权利要求5所述的方法，包括：

通过离散小波变换和离散余弦变换之一处理所述亮度数据以提供中间亮度数据；

对所述中间亮度数据的至少一个子带执行感知自适应，以提供经感知自适应的子带；以及

将所述音频数据包括在所述经感知自适应的子带中，以提供所述修改后的亮度数据。

7.如权利要求6所述的方法，包括：

从所述中间亮度数据去除所述至少一个子带，以提供进一步的中间亮度数据；以及

将所述经感知自适应的子带与所述进一步的中间亮度数据组合起来以提供所述修改后的亮度数据。

8.如权利要求6所述的方法，包括：

对所述修改后的亮度数据执行逆变换；以及

将已经过逆变换的亮度数据与所述色度数据组合起来以提供限定了所述嵌入后图像的嵌入后宿主。

9.如权利要求1所述的方法，包括：

在嵌入所述音频数据之前，

将所述宿主图像的RGB分量转换为色度分量和亮度分量；以及

通过离散小波变换和离散余弦变换之一来处理所述宿主图像的所述亮度分量，并且

在嵌入所述音频数据之后，

将所述宿主图像转换为RGB分量。

10.如权利要求1所述的方法，包括：

掩蔽所述宿主图像的一部分；以及

为宿主图像数据保留被掩蔽的部分。

11.如权利要求1所述的方法，包括：

掩蔽所述宿主图像的一部分，以提供被掩蔽部分和未被掩蔽部分；以及

将所述音频数据既嵌入所述被掩蔽部分也嵌入所述未被掩蔽部分中，其中所述未被掩蔽部分中的每个像素比所述被掩蔽部分中的每个像素存储更多的音频数据。

12.如权利要求1所述的方法，其中所述图像是数字照片。

13.一种用于处理宿主图像的系统，所述系统包括：

图像处理电路，用于接收所述宿主图像；

音频处理电路，用于接收音频数据；以及

嵌入模块，用于将所述音频数据嵌入所述宿主图像内以提供嵌入后图像，其中所述音频处理电路量化所述音频数据的音频信号的幅值数据而丢弃相位数据，并且其中所述音频数据可从所述嵌入后图像自由地恢复。

14.如权利要求13所述的系统，其中所述音频处理电路包括短时傅立叶变换模块，用于在将所述音频数据嵌入所述宿主图像内之前使用短时傅立叶变换处理所述音频数据。

15.如权利要求13所述的系统，其中所述图像处理电路利用离散小波变换来处理所述宿主图像的亮度数据以提供中间亮度数据，然后量化后的幅值数据被包括在所述中间亮度数据中。

16.如权利要求13所述的系统，其中所述图像处理电路利用离散余弦变换来处理所述宿主图像的亮度数据以提供中间亮度数据，然后量化后的幅值数据被包括在所述中间亮度数据中。

17.如权利要求13所述的系统，其中所述量化后的音频数据基于所述宿主图像的子带的系数而被按比例缩放。

18.一种用于处理嵌入后图像来提取音频数据的方法，该方法包括：

识别与所述音频数据相关联的量化后的幅值数据；

估计与识别出的幅值数据相关联的相位数据；以及

19.如权利要求18所述的方法，其中所述幅值数据是短时傅立叶变换幅值数据，所述方法包括：

识别所述短时傅立叶变换幅值数据中被假设为与正弦曲线相对应的峰；

估计所述峰的瞬时频率；以及

从估计出的瞬时频率重建音频数据。

20.如权利要求18所述的方法，包括：

从编码后的子带提取点阵代码；

对于每个提取出的点阵代码估计比例；

使用所述比例来归一化所述提取出的点阵代码，以提供归一化的提取出的点阵代码；以及

搜索点阵代码表，以获得与所述归一化的提取出的点阵代码相匹配的点阵代码，以提供所述量化后的幅值数据。

21.如权利要求18所述的方法，在识别所述量化后的幅值数据之前包括：

从编码后的子带提取点阵通道代码；

从每个代码的最大绝对值估计比例；

从D₄点阵代码找出匹配；以及

对所述匹配进行逆量化以提供短时傅立叶变换幅值数据。

22.如权利要求18所述的方法，包括将所述音频数据建模为一组已知值，每个已知值都具有相应的代表对所述已知值的置信度级别的权重，其中零权重指示未知的值，而提取出的所述音频数据的短时傅立叶变换幅值被视为已知值。

23.如权利要求22所述的方法，包括将每个权重建模为提取出的有噪声点阵代码和它的最近的点阵代码之间的距离的函数。

24.一种用于从宿主图像提取音频数据的系统，该系统包括：

音频处理电路，用于从所述亮度分量提取所述音频数据和提供可被自由地提取的音频数据；

其中所述音频数据的音频信号的幅值数据被量化而相位数据被丢弃。

25.如权利要求24所述的系统，包括：

离散小波变换模块，用于对所述宿主图像的亮度分量执行离散小波变换；

识别模块，用于识别与所述亮度分量相关联的量化后的幅值数据；以及

相位恢复模块，用于估计与识别出的幅值数据相关联的相位数据，并基于所述量化后的幅值数据和所述相位数据来生成输出音频信号。

26.如权利要求24所述的系统，包括：

离散余弦变换模块，用于对所述宿主图像的亮度分量执行离散余弦变换；

27.如权利要求25所述的系统，其中所述幅值数据是短时傅立叶变换幅值数据，所述恢复模块被配置为：

估计所述峰的瞬时频率；以及

从估计出的瞬时频率重建音频数据。

28.如权利要求24所述的系统，其中从编码后的子带中提取点阵代码，对每个提取出的点阵代码估计比例，使用所述比例来归一化所述提取出的点阵代码以提供归一化的提取出的点阵代码，并且搜索点阵代码表以获得与所述归一化的提取出的点阵代码相匹配的点阵代码，以提供所述量化后的幅值数据。

29.一种用于处理嵌入后图像来提取音频数据的装置，包括：

用于对所述嵌入后图像的亮度分量执行离散小波变换和离散余弦变换之一的装置；

用于识别与所述音频数据相关联的量化后的幅值数据的装置；

用于估计与识别出的幅值数据相关联的相位数据的装置；以及

用于基于所述量化后的幅值数据和所述相位数据生成输出音频信号的装置。

30.一种数字照相机，包括：

图像捕获模块，用于捕获宿主数字图像；

音频捕获模块，用于捕获音频信号；以及

图像处理模块，用于将所述音频信号嵌入所述宿主图像中以提供嵌入后图像；

其中所述图像处理模块量化所述音频信号的幅值数据而丢弃相位数据，并且其中所述音频信号可从所述嵌入后图像自由地恢复。

31.一种包括如权利要求30所述的数字照相机的移动电话。