CN100378730C

CN100378730C - 用于文档检索和相似性匹配的特征

Info

Publication number: CN100378730C
Application number: CNB2004100904962A
Authority: CN
Inventors: 凯瑟琳·伯克纳; 马丁·博利克
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-11-10
Filing date: 2004-11-10
Publication date: 2008-04-02
Anticipated expiration: 2024-11-10
Also published as: JP2005141758A; CN1617143A; EP1548616B1; US20050100219A1; EP1548616A2; EP1548616A3; US7912291B2; DE602004022381D1

Abstract

描述了一种用于图像处理的方法和装置。在一个实施例中，该方法包括：从第一文档图像的压缩数据的多分辨率码流中的头提取至少一个多分辨率位分布；使用至少一个多分辨率位分布生成第一文档图像的一个或多个属性；以及通过比较第一文档图像的属性和至少一个其它文档图像的属性，在第一文档图像和所述其它文档图像之间执行相似性匹配，从而确定第一文档图像和所述其它文档图像的相似度。

Description

用于文档检索和相似性匹配的特征

技术领域

本发明一般涉及图像处理的领域。更具体地，本发明涉及使用来自压缩数据的一个或多个多分辨率码流来生成用于检索和相似性匹配的特征。

背景技术

今天，由于电子文档图像的创建和传输和对纸件文档的扫描的增加，很多文档图像被保持在包括检索工具的数据库系统中。由此，因为存储在数据库中的重复文档将不必要地耗费先前的存储空间，所以能够有效并可靠地确定所提交的要插入的文档的副本是否已存在于数据库中变得越来越重要。将确定数据库是否包含文档的副本称为文档匹配。

图像和文档检索的领域是非常完善的领域。图像和文档检索的一个目标为将图像信息转化为允许容易的浏览、搜索、以及检索的形式。在过去的二十年中，已开发了从文本索引到使用诸如面部、动物等的复杂对象描述的文档匹配的很多方法。传统上说，在像素域中执行从图像中提取期望信息所需的图像分析。因而，对于诸如扫描文档的大图像而言，速度和计算复杂度成为问题。

图像和/或文档检索有着丰富而悠久的历史。典型地说，将从原始图像导出的特有的图像特征合并为一维或多维特征向量。随后使用那些特征向量来测定图像之间的相似性。特征(或属性)可分为两类：语义属性和视觉属性。语义属性通常基于光学字符识别(OCR)和语言理解。视觉属性使用纯图像信息，并包括如颜色直方图(histogram)的特征。一些方法将这两个和链接图像合并为邻近文本。图象检索的领域的较好的综述在下面文献中给出，即“ImageRetrieval：Current Techniques，Promising Directions，and Open Issues(图像检索：当前技术、有前途的方向、以及开放课题)”，by Y.Rui and T.S.Huang，Journalof Visual Communication and Image Representation(视觉通信和图像表示期刊)，vol.10，pp.39-62，1999。

在当前可用的基于图像-内容的检索系统中，频繁使用颜色、纹理和形状特征来进行文档匹配。匹配最大程度双色调(bitonal)且形状和纹理近似的文档图像引起了不同的问题。一种普通的文档匹配技术为分析文档的布局(layout)，并在数据库中寻找结构上相似的文档。遗憾的是，这种方法需要计算密集的页面分析。因此，大多数检索方法被定位在像素域。

由于数据库中大多文档图像以压缩格式存储，所以对压缩文件执行文档匹配是有优势的。这消除了对于解压缩和再压缩的需要，并通过减少所需要的存储器数量，使得更容易商业化。显然，匹配压缩文件提出了额外的挑战。一些工作已专注于用于G4图像的压缩域。更具体地说，用于G4图像的压缩域的现有技术集中在匹配G-4压缩的传真文档。对于CCITT组4(CCITT Group4)压缩文件来说，已示出通码(pass code)，其包含对于识别相似文档有用的信息。在一种现有技术中，从较小的文本区域中提取通码，并与Hausdorff(豪斯多夫)距离尺度一起用于正确地识别高百分率的重复文档。然而，Hausdorff距离的计算是计算密集的。在另一种基于G4的检索方法中，从压缩文件(多组文本行)中提取上端和下端，并用于生成位简档(bit profile)。匹配过程分为粗匹配和细匹配。从位简档导出的特征向量用于粗匹配。位简档的小片段在细匹配中使用。要得到更多信息，可参看2002年3月26日授予D.S.Lee和J.Hull的美国专利第6,363,381号，题为“Compressed Document Matching(压缩文档匹配)”。

在涉及压缩文档的另一种现有技术中，文档片段出现在压缩的JPEG域中。更具体地说，在这种技术中，通过将一些数据解码，而从JPEG编码图像提取单分辨率位分布，以提取编码8x8块所耗用的位数。基于此分布，执行片段操作，以将图像分割为文本、半色调(halftone)、连续色调(contone)、以及背景区域。要得到更多信息，可参看R.L.deQueiroz和R.Eschbach的“FastSegmentation of the JPEG Compressed Documents(JPEG压缩文档的快速分割)”，Journal of Electronic Imaging(电子图像期刊)，vol 7，no.2，pp.367-377，1998。

在涉及从压缩数据域提取特征的另一种现有技术中，将边信息(sideinformation)编码为包含每个块中的系数的第一和第二矩(moment)。矩是用于检索的仅有信息。要得到更多信息，可参看Z.Xiong和T.S.Huang的“Wavelet-based Texture Features can be Extracted Efficiently fromCompressed-Domain for JPEG2000 Coded Images(对于JPEG2000编码图像可从压缩域有效地提取基于小波的纹理特征)”，Proc.of Intl’Conf.on ImageProcessing(ICIP)2002(2002年国际图像处理会议论文集)，Sept.22-25，2002，Rochester，New York。

在另一种现有技术中，在对JPEG2000码流解码期间提取特征。更具体地说，在解码期间，通过使重要的小波系数局域化，导出类似边缘图(map)的图。注意，这种技术需要执行一些数据解码。要得到更多信息，可参看Jian.J.，Guo，B.，Li，P.，“Extracting Shape Features in JPEG-2000 Compressed Images(提取JPEG-2000压缩图像中的形状特征)”，Lecture Notes in ComputerScience，vol 2457，Springer Verlag，Berlin，2002。

通常，通过捕捉文档的全局和局部特性的一维特征向量来描述二进制文档的视觉相似性。随后使用特征向量以通过求两个向量的内积来测定与其它特征向量的相似性。通常使用的特征包括全局特征、投影特征(projectionfeature)、以及局部特征。全局特征包括内容(文本、图像、图片、非文本)的百分比、用于文本的显著(dominant)点大小、连接要素(component)的统计量(statistic)(计数、求和、平均、中值、标准(std.)、高度、宽度、面积、周长、矩心(centroid)、密度、圆度(circularity)、纵横比、空心(cavity)等)、颜色直方图、较大文本的存在、以及表格的存在。投影特征包括行/列中的内容的百分比、列布局、以及连接要素的统计量(宽度、高度)。局部特征包括显著内容类型、连接要素的统计量(宽度、高度等)、列结构、基于区域的颜色直方图、要素的相关位置。这些特征仅在像素域中使用。

要得到有关二进制文档的视觉相似性的更多信息，可参看M.Aiello等人的“Document Understanding for a Broad Class of Documents(用于文档的粗分类的文档理解)”，2002；1999年8月3日授予J.Cullen等人的题为“ImageDatabase Browsing and Query using Texture Analysis(使用纹理分析的图像数据库浏览和查询)”的美国专利第5,933,823号；以及C.K.Shin和D.S.Doermann的“Classification of Document Page Images Based on Visual Similarity of layoutstructures(基于布局结构视觉相似性的文档页面分类)”，Proc，SPIE，Vol.3967，Document Recognition and Retrieval(文档识别和检索)VII，pp.182-190，SanJose，CA，2000。

有很多其它用于摄影图片的基于内容的图像检索方法和系统。Y.Rui和T.S.Huang的讨论上面内容的调查报告给出了对从图像导出的特征类型的概述。另一篇论文，题为“Content-Based Image Retrieval Systems：A Survey(基于内容的图像检索系统：调查)”by R.D.Veltcamp、R.C and M.Tanase，TechnicalReport UU-CS-200-34，Department of Computing Science，Utrecht University，October 2000，给出了对完整的系统和它们的特征的概述。广为人知的一个很可能是IBM的QBIC，但还有很多。这些文献中讨论的方法基于处理图像值，并且不在压缩域中执行。从图像导出的典型特征为颜色直方图、几何直方图、纹理、形状、面部(face)、背景、对象之间的空间关系、室内/室外、以及连接要素(尺寸、中心、垂直和水平投影等)。此外，这些特征仅从像素域中表示的图像导出。

发明内容

描述了一种用于图像处理的方法和装置。在一个实施例中，该方法包括从第一文档图像的压缩数据的多分辨率码流访问头数据、从该头信息导出一个或多个检索属性，并基于一个或多个检索属性来执行第一文档图像和第二文档图像之间的图像分析。

根据本发明的一个方面，提供一种方法，包括从第一文档图像的压缩数据的多分辨率码流中的头提取至少一个多分辨率位分布；使用至少一个多分辨率位分布生成第一文档图像的一个或多个属性；以及通过比较第一文档图像的属性和至少一个其它文档图像的属性，在第一文档图像和所述其它文档图像之间执行相似性匹配，从而确定第一文档图像和所述其它文档图像的相似度。

根据本发明的另一个方面，提供一种装置，包括：用于从第一文档文档图像的压缩数据的多分辨率码流中的头提取至少一个多分辨率位分布的部件；用于使用至少一个多分辨率位分布生成第一文档文档图像的一个或多个属性的部件；以及用于通过比较第一文档图像的属性和至少一个其它文档图像的属性，在第一文档图像和所述其它文档图像之间执行相似性匹配，从而确定第一文档图像和所述其它文档图像的相似度的部件。

根据本发明的另一个方面，提供一种装置，包括：输入端口，用于接收第一文档文档图像；检索属性计算单元，其耦接到输入端口，以使用从第一文档文档图像的压缩数据的多分辨率码流中的头提取的至少一个多分辨率位分布，来生成第一文档文档图像的一个或多个属性；以及文档管理系统，用于通过比较第一文档图像的属性和至少一个其它文档图像的属性，在第一文档图像和所述其它文档图像之间执行相似性匹配，从而确定第一文档图像和所述其它文档图像的相似度。

附图说明

本发明通过举例来说明，而不限于附图的特征，其中，相同的附图标记表示相同的元件。

图1为用于图像和/或文档检索的过程的一个实施例的流程图；

图2为颜色复合文档的例子；

图3为对于五级的多分辨率位分布的例子；

图4为来自图2的示例图像的分辨率-级别分割图(segmentation map)；

图5为用于计算列布局的过程的一个实施例的流程图；

图6A为用于列布局的计算的、用高分辨率级别分割图(下部)来遮蔽的高分辨率位分布(上部)的例子；

图6B为用于图6A的被遮蔽的高分辨率位分布的轮廓图(contour map)；

图7为说明在检索应用中用于彩色文档的JPEG 2000码流的布局方案的一个实施例的图；

图8为说明具有与文档管理系统相联系的J2K压缩/解压缩的MFP的图；

图9为示例计算机系统的方框图；

图10说明了用于图像的多尺度(multi-scale)的熵分布；

图11为说明用于分割图像的过程的一个实施例的流程图；以及

图12说明了叠加到女人的示例图像上的分割图。

具体实施方式

描述了一种用于图像处理的方法和装置。在一个实施例中，该方法包括从图像的压缩数据的多分辨率码流(例如，遵循JPEG 2000标准的码流)访问头数据，并从该头信息导出一个或多个检索属性。在一个实施例中，头信息包括每个码块的位数。图像可包括扫描的复合文档(即具有文本和图像数据的文档)、文档图像、或照片。

在一个实施例中，从多分辨率码流访问头数据时，从该头提取一个或多个多分辨率位分布。在一个实施例中，多分辨率位分布提供文档图像在码块分辨率下的信息，并指示有关第一文档图像的视觉文档布局的信息。每个多分辨率位分布对应于一个图像要素。所述一个图像要素可为亮度、色度、颜色平面(color plane)、分割平面、JPEG 2000要素、多色性(colorfulness)、噪声、或多光谱信息。

在一个实施例中，通过处理多分辨率位分布而从一个多分辨率位分布创建分辨率-级别分割图，来生成文档图像的属性。可生成多个分辨率-级别分割图。这些分割中的每个可对应于彩色平面、亮度、以及色度平面(chrominanceplane)。在一个实施例中，多个多分辨率位分布被合并为一个。这可通过将对应于每个多分辨率位分布中相同位置的位加到一起来完成。这些图中的一个或多个可与其它不同地被加权，以使得所得的合成图受到那些不同分割图的影响。多分辨率位分布的合并可包括使用遮蔽(例如，分割面)来在创建合成多分辨率位分布之前遮蔽部分分割图。

检索属性可包括分辨率敏感特征。在一个实施例中，该属性包括以下内容中的一个或多个：文档图像中与文本、图像、颜色和/或背景量相关的内容百分比；分辨率-级别分割图中连接要素的统计量；分辨率-级别分割图和/或位分布图像中要素之间的空间关系；码块分区(partition)的直方图；分辨率-级别直方图；列布局；以及分辨率-级别分割图中的文本块、背景块、颜色块和分辨率值的投影直方图；。

在一个实施例中，从导出的检索属性创建检索属性向量。该向量可为一维(1-D)向量，并因此，从2-D文档图像生成1-D向量。

使用导出的检索属性，可在基于检索属性的两个文档图像之间执行图像分析(例如，文档相似性匹配、用于文档分类的群集(cluster)、特征匹配)。在一个实施例中，通过将第一向量和与第二文档图像相关的一个或多个检索属性的第二向量相比较，来执行图像分析。基于图像分析的结果，特别是在图像分析为文档相似性匹配的情况下，可检索、分类、和/或群集(cluster)文档图像。

在下面的描述中，提到了很多细节，以提供对本发明更全面的说明。然而，对于本领域的技术人员来说，显然本发明可不通过这些特定细节来实现。在其它实例中，为了避免混淆本发明，以方框图形式示出了公知的结构和设备，而不进行详细地描述。

下面详细描述的一些部分按照对计算机存储器内的数据位的操作的算法和符号表示而给出。这些算法描述和表示为数据处理领域中技术人员使用的、最有效地将其工作实质传达到该领域中的其他技术人员的方式。这里一般认为算法是产生期望结果的步骤的自相容(self-consistent)序列。所述步骤为那些需要物理量的物理操作的步骤。尽管不必要，但通常，这些量采用能够被存储、传输、合并、比较、以及其它操作的电或磁信号的形式。原理上，为了普通使用的原因，已多次证明了将这些信号称为位、值、元素、符号、字符、术语、数字等的便利性。

然而，应当记住，所有这些和类似的术语与适当的物理量相关，并且其仅为应用于这些量的方便的标记。除非下面的讨论中明确指出使用其它方式，应当理解，在整个描述中，使用诸如“处理”或“计算”(compute)或“算出”(caculate)或“确定”或“显示”等的术语的讨论表示计算机系统或类似的电子计算设备的动作和过程，所述计算机系统或类似的电子计算设备操作以计算机系统的寄存器和存储器内的物理(电子)量表示的数据，并将其变换为以计算机系统的存储器或寄存器或其它这样的信息存储、传输或显示设备内的物理量类似地表示的其它数据。

本发明还涉及用于执行这里的操作的装置。此装置可特别地为所需的目的而构造，或其可包括通过存储在计算机中的计算机程序被选择激活或重新配置的通用计算机。可将这样的计算机程序存储在计算机可读存储介质中，例如，但不限于，任意类型的盘，包括软盘、光盘、CD-ROM、以及磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、磁或光卡、或适合于存储电子指令的任意类型的介质，并且，其都耦接到计算机系统总线。

这里给出的算法和显示与任何特定的计算机和其它装置没有本质上的关联。可根据这里的讲述内容，通过程序来使用各种通用系统，或者可以证明，构建更专用的装置来执行所需的方法步骤是方便的。对于各种这样的系统所需要的结构将从下面的描述中呈现。另外，本发明并不参照任何特定的程序设计语言来描述。应当理解，可使用各种程序设计语言来实现和这里所描述的一样的本发明的讲述内容。

机器可读介质包括用于以机器(例如，计算机)可读形式存储或传送信息的任意机制。例如，机器可读介质包括只读存储器(“ROM”)；随机存取存储器(“RAM”)；磁盘存储介质；光存储介质；闪存设备；电、光、声或其它形式的传播信号(例如，载波、红外信号、数字信号等)等。

压缩域中的相似性匹配和检索概述

图1为用于在压缩域中进行图像处理的过程的一个实施例的流程图。由处理逻辑来执行该过程，其中，所述处理逻辑可包括硬件(例如，电路、专用逻辑等)、软件(如在通用计算机系统或专用机器上运行)、或所述两者的组合。

参照图1，该过程以处理逻辑从文档图像的压缩数据的多分辨率码流访问头信息(处理块101)开始。文档图像可为二进制、灰度级或彩色的。在一个实施例中，文档图像包括复合文档(例如，既具有文本又具有图像数据的文档)。文档图像可以是对硬拷贝文档执行的扫描操作的结果。然后，处理逻辑从头信息中提取多分辨率位分布(处理块102)，并从多分辨率位分布导出一个或多个检索属性(处理块103)。由此，从头信息中导出检索属性。

为了检索的目的，在一个实施例中，处理逻辑从遵循JPEG 2000的码流的头数据提取多分辨率位分布，如R.Neelamani和K.Berkner的“AdaptiveRepresentation of JPEG 2000 Images Using Header-based Processing(使用基于头的处理的JPEG 2000图像的自适应表示)”，Proceedings of Int.Conf.ImageProcessing-ICIP，2002，vol.1，pp.381-384中所描述的。这一分布以码块分辨率(例如，32x32或64x64小波系数)提供了图像信息的描述，并且反映了有关视觉文档布局的信息。

利用检索属性，处理逻辑对文档图像执行图像分析(处理块104)。利用图像分析的结果，例如，处理逻辑执行诸如文档的检索或相似性匹配、分类、或群集的操作(处理块105)。

由此，该过程在压缩数据域中工作，以从文档导出视觉属性。在一个实施例中，该过程在JPEG 2000压缩数据域中工作，其中，使用遵循JPEG 2000的码流的头信息来导出检索属性。这与在像素域中工作形成了对比。

属性及其生成

处理逻辑从多分辨率位分布计算几个特征。即使用于特征计算的算法工具是从现有技术借用的，但由于这些特征是基于分辨率-级别分割和多分辨率位分布图-检索领域中新类型的数据集-而计算的，所以这些特征自身也是新颖的。从压缩数据生成分辨率-级别分割图已在2002年1月10日提交的题为“Header-Based Processing Of Images Compressed Using Multi-ScaleTransforms(使用多尺度变换压缩的图像的基于头的处理)”、并转让给了本发明的共同受让人的美国专利申请第10/044,420号中描述，通过引用将其合并于此，包括其从多分辨率位分布如连接要素的颜色布局统计量的生成器。下面讨论如何从压缩数据生成特征的例子。

在一个实施例中，为了确定属性，多分辨率位分布以本领域公知的方式被二进制化(即将一个级别设为1，而将余下的级别设为0)。这产生了二进制图。利用二进制图，应用如下更为详细地描述的公知的现有技术方法和算法，来识别感兴趣的属性。

有很多属性可使用头数据来识别。例如，可识别边缘。更具体地说，恒定颜色(例如白色)的边缘通常具有0位，而密集的文本区域具有高分辨率下的大量的位。因此，通过检查多分辨率和分布中的0和非0位，可识别边缘区域。

类似地，可识别图像区域。在一个实施例中，由于高分辨率下的不同数量的位的缘故，可通过人类观察者来从文本区域中区分出文本文档中的图像区域。由此，可将很多公知的算法方法应用于多分辨率位分布，并且可导出特征。例如，参见与下面给出的图5有关的讨论。由于头数据的大小与原始图像大小相比非常小，所以简单算法较快，并可提供更复杂的算法。

在一个实施例中，可导出类似已使用的哪些特征的特征，例如，1999年8月3日授予J.Cullen，J等人的题为“Image Database Browsing and Query usingTexture Analysis(使用纹理分析的图像数据库浏览和查询)”的美国专利第5,933,823号。然而，注意，位分布具有与像素值不同的性质；也就是说，位分布不包含任何实(real)颜色值(即黑对白、蓝对红等)，而仅包含对存在或不存在视觉信息的了解。例如，当确定文档的列布局时，没有清楚的文本信息，由于不给出颜色，所以也没有黑色和白色区域。

图2为颜色复合文档的例子。图3示出了用于来自图2的示例文档的5-级分解的亮度分量的多分辨率位分布的例子。参照图3，上部示出了最高分辨率下的位，而下部示出了最低分辨率下的位。

具有相似分辨率性质的图像区域组可形成具有特定的分辨率标记(label)的一类。换句话说，使用位分布来创建文档图像的图像区域，并随后基于一个或多个标准来对其进行比较和处理。图4示出了来自图2的图像例子的分辨率-级别图。参照图4，不同灰度值对应于不同的分辨率级别(黑＝1，...白＝5)。

可有多个分割图，其各自与不同要素、或平面(例如，颜色平面、亮度平面、色度平面)相关。可有很多方式来获得分割图。分割图可为JPEG 2000图、或基于为某些文件格式如JPM或PDF而分割的数据的分割图。在分别压缩不同的对象(例如，JPM中分割的文本和大小)的某些文件格式中，可合并对象的多位分布。无论如何，可将分割对象或要素二进制化，以获得位分布。

可以使用公知的过程，从三个不同颜色平面Y、Cb、Cr的分辨率-级别分割图中，导出通常用来描述形状的拓扑和尺度性质、以及凸性(convexity)、框架(skeleton)等的普通特征。例如，在R.O.Duba和P.E.Hart的“PatternClassification and Scene Analysis(模式分类和场景分析)”，John Wiley&Sons，NewYork，1973中描述了一个示例过程。可计算具有统计量的连接要素、要素之间的空间关系、直方图等，并将其组织在特征向量中。特征可被划分为全局、局部、以及投影特征，并可为亮度和色度通道而导出。

全局特征是对应于作为整体的图像的那些特征。示例的全局特征包括内容(例如，文本、图像、颜色、背景)的百分比；分割图中的连接要素的统计量(例如计数、求和、平均、中值、标准、高度、宽度、面积、周长、矩心、密度、圆度、纵横比、空心等)；以及分辨率-级别直方图。通过将分割图划分为块，并对具有相同色分辨率值并满足预定的图像标准的块计数，来创建基于分辨率的直方图。

局部特征是对应于码流块的各个组的那些特征。局部特征可包括：分辨率-级别图或位分布图像中的要素的相对位置(例如，右上部等)；分辨率-级别图或位分布图像中的连接要素的统计量(例如宽度、高度、中心等)；以及用于低分辨率下的码块分区的直方图。位分布图像是通过多分辨率位分布生成的图像。要素的相对位置可包括文本区域相对于图像区域的空间位置。这可包括这样的区域之间是否存在空间。一旦识别出这样的特征，便可识别出具有相似特征的文档。由于不同颜色或其它特征具有不同的位分布，所以可通过将位分布划分为块，并在每个块中确定位的数目来生成直方图。

图5是用于计算列布局的过程的一个实施例的流程图。参照图5，处理逻辑计算高分辨率信息。最高分辨率级别取决于原始图像的dpi分辨率。通常，空间域的码块的支持应当覆盖文档中的平均特性。那意味着，通过最小的分解级别m来给出适合于最高分辨率的分辨率，以使得：

2^(m+1)·code_block_size＞height_of average_character_in_pixels。对于300dpi的文档，平均字符大小为30个像素。给定32x32系数大小的码块，分辨率级别m应为m＝1。对于600dpi的文档(平均字符大小＝60个像素)，m＝2。

在一个实施例中，通过用高分辨率级别下的分辨率分割图而遮蔽高分辨率下的位分布，来计算高分辨率信息(处理块501)。图6A中示出了示例结果。

接下来，处理逻辑将带有两个分布的高斯混合模型(Gaussian MixtureModel)应用于到遮蔽的图像，以将信息分为两类：文本和非文本(处理块502)。然后，处理逻辑将标记文本分配到一类，而将标记非文本分配到另一类(处理块503)。由于没有有关实际颜色的信息可用，所以使用此附加步骤。最后，处理逻辑将公知的投影方法应用于文本类数据，以确定列数(处理块504)。参看Baird，H.S.，“Global-to-Local Layout Analysis(全局到局部布局分析)”，Proc.ofIAPR Workshop on Syntactic and Structural Pattern Recognition，pp.136-147，Pont-a-Mousson，France，September 1988；以及Srihari，S.N.，Govindaraju，V.，“Analysis of Textual Images Using the Hough Transform(使用Hough变换的文本图像的分析)”，Machine Vision and applications，vol.2，no.3，pp.141-153，1989。

由于位分布示出码块信息而不是详细的颜色信息的区域的事实，因而现有技术中的用于特征检测的一些算法被修改并且适应于该数据。例如，关于列布局，通常，列布局通过分析页面上的白色空间而导出。由于低分辨率下的码块分辨率对应于太粗糙以至不能捕捉列的白色空间的像素分辨率，所以仅使用高分辨率信息来捕捉列布局。

在一个实施例中，通过投影简档方法来确定列布局。在Cattoni，R，Coianiz，T.，Messelodi，S.，Modena，C.M.，“Geometric Layout AnalysisTechniques for Document Image Understanding：A review(用于文档图像理解的几何布局分析技术：评述)”，Technical Report，IRST，Trento，Italy，1998中给出了对两种不同技术的概述。一种方法基于文本区域的投影简档包含分别对应于文本行和行空间之间的峰和谷的观测报告(Srihari，S.N.，Govindaraju，V.，“Analysis of Textual Images Using the Hough Transform(使用Hough变换的文本图像的分析)”，Machine Vision and applications，vol.2，no.3，pp.141-153，1989)。估计出与峰相对应的底部和顶部行的位置。另一种方法，“全局到局部”(global-to-local)定义了一般的文本列的参数模型(Baird，H.S.，“Global-to-Local Layout Analysis(全局到局部布局分析)”，Proc.of IAPRWorkshop on Syntactic and Structural Pattern Recognition，pp.136-147，Pont-a-Mousson，France，September 1988)。

投影特征可包括：文本块、图像块、背景(例如，边缘)块、颜色块、分割图中的分辨率级别值等的投影直方图(水平和垂直)；以及列布局。可使用投影直方图来确定列数和行数。

通常，有可能使用多分辨率位分布来将多分辨率位分布分割为彩色及非彩色区域和/或文本及背景和图像区域。

用于相似性匹配的签名(空间布局遮蔽)

在一个实施例中，处理逻辑从遮蔽的高分辨率位分布导出空间布局轮廓图。这可以与通过从压缩的G4文件提取上端和下端来计算空间布局签名的方案相似的概念方式来执行。参看2002年3月26日授予D.S.Lee和J.Hull的美国专利第6,363,381号，题为“Compressed Document Matching(压缩文档匹配)”。为此目的，将边缘检测算法应用于提供轮廓。更具体地说，施加遮蔽，以获得文本区域，并随后施加边缘滤波器，以计算边缘(即文本区域的外形)。这产生了二进制图像。图6B中示出了所得的轮廓图。

在一个实施例中，给定用于文档收集的轮廓图，通过计算两个轮廓图之间的相关性或Hausdorff距离来执行文档相似性匹配。可以以相同的方式来计算相关性或Hausdorff距离，如2002年3月26日授予D.S.Lee和J.Hull的题为“Compressed Document Matching(压缩文档匹配)”的美国专利第6,363,381号中所述。

有可能对于其它分辨率重复所述相关性计算步骤，并基于几个轮廓图尺度来计算匹配。从高分辨率遮蔽的图像导出上面描述的轮廓图。以类似的方式，可通过用给定分辨率级别m下的分辨率分割图来遮蔽该分辨率m下的位分布，而从较低分辨率遮蔽的图像导出轮廓图。可使用各种分辨率下的轮廓图的组之间的相关性，作为相似性度量Sim。例子如下：

Sim(im1，im2)＝∑_mcorrelation(CM_im1(m)，CM_im2(m))，

其中，CM_im1(m)为图像1在分辨率级别m下的轮廓图。

由于粗糙的码块分辨率，此匹配过程对于歪斜(skew)相对不敏感。由于多分辨率位分布提供了每个码块的位的信息，并且由于码块覆盖至少两倍码块尺寸(例如，对于32x32码块为64x64像素)的空间区域，所以以较小的斜角(skew angle)对文档进行编码将导致与0斜角情况下类似的多分辨率位分布。对于＞30度的斜角来说，位分布有可能不同。通常，在执行歪斜校正之后应用页面分割算法。在Cattoni，R，Coianiz，T.，Messelodi，S.，Modena，C.M.，“Geometric Layout Analysis Techniques for Document Image Understanding：Areview”(用于文档图像理解的几何布局分析技术：评述)，Technical Report，IRST，Trento，Italy，1998中给出了对歪斜校正的评述。

JPEG 2000码流的分层

JPEG 2000支持编码数据的分层。JPEG 2000标准不描述如何分配那些层。为了检索和相似性匹配的目的，在一个实施例中，使用至少三层的分层方案，如图7所示。参照图7，第一层为低比特率(例如，0.2bpp)的亮度，第二层为高比特率或无损的色品(chroma)，而第三层为剩余位。根据应用，可将第三层分为各种层。来自这些层的数据可被访问，并以与上面所述相同的方式利用，包括在期望的地方合并位分布。

示例检索/匹配系统

可将这里描述的用于基于头的检索和相似性匹配的讲述内容应用于访问多功能外设(MFP)的文档管理系统。图8为一个这样的集成的方框图。参照图8，输入端口802接收文档图像。可将扫描仪801耦接到输入端口802，以创建文档图像。由第一图像处理设备803来接收文档图像，其中，第一图像处理设备803耦接到输入端口802，并执行图像处理功能，例如伽玛校正和噪声消除。接下来，压缩器804压缩文档图像，并将其存储在存储器805中。

存储之后，检索属性计算单元809以与上面所述相同的方式，使用从第一文档图像的压缩数据的多分辨率码流中的头提取的至少一个多分辨率位分布，来生成文档图像的属性。由检索属性计算单元809产生的结果被发送到文档管理系统810，其执行文档图像和一个或多个其它文档的一个或多个其它文档图像之间的相似性匹配。可使用文档管理系统810来检索文档。如果文档满足相似性阈值，则将该文档视为匹配原始文档。基于有关其相似性的预定阈值的这样的匹配文档的过程为本领域中公知的。

图像处理单元806耦接到存储器805，以执行诸如半色调(halftoning)等功能。输出端口807耦接到存储器805，以输出一个或多个检索出的文档(如果有的话)。而且，打印机808可以耦接到输出端口807，以打印至少一个检索出的文档。

基于JPEG 2000的检索特征对于后面跟随有在像素域中对所选择的图像区域执行的高级别检索步骤的低级别检索步骤也是有用的。该低级别检索步骤为使用上面描述的特征来在压缩数据域中识别相似文档的一个步骤，而该高级别检索步骤为在像素域中对文档图像执行的操作(例如，OCR、颜色直方图等)。

由此，可将本发明应用于使用至少一个多分辨率位分布从压缩的多分辨率域(例如，JPEG 2000域)导出的图像检索和相似性匹配，其中，所述多分辨率位分布提供指示在各种分辨率下描述图像块的内容所需要的位数的信息。

分割图的生成

在一个实施例中，使用头中的信息来生成熵分布图，其指示压缩的图像数据的哪部分包含后续处理中期望的数据。这样的图的例子在图1中给出。其它图也是可能的，并可能指示层数(其在下面通过JPEG 2000的说明来描述)，以获得期望的比特率(尤其是对于当层分配与失真相关时的情况)或多个比特率中的每一个的熵分布。在后一种情况下，图上的每个矩形区域具有与其相关的向量。该向量可指示多层的值。

利用多尺度变换以压缩图像描述位的图像表示格式通常合并头中许多组织细节，以使得可以正确而方便地对有关数字图像的像素方面(pixel-wise)的描述进行解码。JPEG 2000是图像压缩标准的例子，其在文件头中提供多尺度位分布。图像描述位经常在较小的单元之间划分，并且将由编码器分配到这些单元的位数存储在图像头中，以协助诸如部分图像访问、对网络环境的适应等的特征。使用信息论的惯例，分配的位数称为每个小单元的熵。图像编码器使用的熵分布提供了压缩图像中对视觉重要性的优秀的定量量度。对于无损压缩来说，图像编码器使用较多位来描述高活动性(较多细节)的区域，而使用较少位来转达带有较少细节信息的区域。对于有损压缩来说，图像编码器通常争取在分配的位内转达图像的最佳的可能描述。因此，编码器设计为明智地耗用描述图像中的视觉重要特征的可用的较少位。

图10说明了图像的一个多尺度熵分布。该图像起初经过了JPEG 2000编码。底层图案(underlying pattern)为图像的小波系数。细线表示小波域系数到码块的JPEG 2000划分，而粗线分隔了不同的小波子带。在JPEG 2000中，执行编码过程的编码器将小波域系数分配并划分到称为码块的小单元中。每个正方形中示出的数为由使用三级分解以每像素0.5位操作的JPEG 2000编码器分配到各码块的位或熵。这些数表示多尺度熵分布。

仅使用JPEG 2000文件头来访问的熵分配提供对各种尺度的不同特征的视觉重要性的较好量度，并帮助区分在以不同的多尺度性质为特性的不同类别的重要图像特征。例如，为了描述图像中的特征区域，多尺度图像编码器耗用很多位来编码精细尺度系数，而对粗糙尺度系数耗用比例如对应于特征区域的精细尺度系数少的位。另一方面，为编码面部区域(face region)，多尺度图像编码器耗用较多的位来编码对应于面部区域的中间(intermediate)尺度系数。平滑背景接收较少位。由此，多尺度熵分布提供了有关底层图像特征的重要信息。假定从头获得多尺度熵分布的知识，可执行一个或多个操作。例如，这些操作可为图像分割、自动活动区域识别和定标(scaling)、和/或自适应的图像定标。

JPEG 2000为用来以相干码流和文件格式表示数字图像的标准(例如，参看www-iso.ch中的ITU-T Rec.T.800|ISO/IEC 15444-1：2000，“JPEG 2000image coding standard(JPEG 2000图像编码标准)”)。JPEG 2000通过使用下面的步骤有效地对图像的小波系数进行编码，来有效地表示数字图像。典型的图像由一个或多个要素(例如，红、绿、蓝)组成。要素为样本的矩形阵列。可选地，这些阵列被进一步划分为矩形拼接块(tile)。在逐个拼接块(tile-by-tile)的基础上，可选地通过色空间转换而将要素去相关。独立地压缩每个拼接块-要素(tile-component)。获得拼接块中每个颜色要素的小波系数。将小波系数分为小波域中的局部组。这些称为码块。可选地使用围区(precinct)来对码块排序。使用算术编码来独立地对这些不同的小波系数组编码。可选地将编码的系数组织为层，以有利于发展。将从一个拼接块的一个要素的一个围区的一个分辨率的一层的编码数据存储在称为分组的单元中。除了编码数据，每个分组具有分组头。编码之后，可选地将拼接块-要素划分为拼接块-部分(tile-part)，否则，拼接块-要素由单个拼接块-部分组成。拼接块-部分为对应于语法(syntax)的码流中的最小单元。JPEG 2000码流由语法(主和拼接块-部分头，加上EOC)和一个或多个比特流组成。比特流由分组(码块的编码数据，加上包括内流(instream)分组头的任意内流标志(maker))组成。可将解析编码数据的组织信息、分组头存储在主头、拼接块头(tile header)、或内流中。JPEG2000具有主头和拼接块头，其包含标志片段。JPEG 2000还具有分组头，其可包含于标志片段中、或为比特流中的内流。读取头，并将其用作对处理的输入，所述处理包含多尺度熵分布。表1总结了与基于头的处理相关的各种JPEG 2000头中包含的信息。

表1：JPEG 2000文件头信息的使用

头条目	信息类型	熵估计的任务	王	拼接块	内流
头条目	信息类型	熵估计的任务	王	拼接块	内流	分组头(PPM、PPT、内流)	编码数据的长度；零位平面和编码通过的数目	提供拼接块的每个要素的每个子带的每个码块的熵。帮助较低比特流下的熵分配的估计。提供系数能量和大小的粗略估计	√	√	√
分组长度(PLM、PLT)	分组的长度	帮助一些JPEG 2000文件的码块熵的更快的估计	√	√		分组头(PPM、PPT、内流)	编码数据的长度；零位平面和编码通过的数目	提供拼接块的每个要素的每个子带的每个码块的熵。帮助较低比特流下的熵分配的估计。提供系数能量和大小的粗略估计	√	√	√
分组长度(PLM、PLT)	分组的长度	帮助一些JPEG 2000文件的码块熵的更快的估计	√	√		拼接块-长度部分(TLM、SOT)	拼接块的长度	提供每个拼接块的熵。帮助局部和全局熵比较	√	√
SIZ	图像大小	帮助确定码块的位置	√			拼接块-长度部分(TLM、SOT)	拼接块的长度	提供每个拼接块的熵。帮助局部和全局熵比较	√	√
SIZ	图像大小	帮助确定码块的位置	√			COD、COC、QCC、QCD	编码样式	变换级别的数目、码块大小、系数的最大尺寸、围区信息	√	√
RGN	区域信息	估计感兴趣的区域的大小和重要性。变更上述信息中的大多数的含义	√	√		COD、COC、QCC、QCD	编码样式	变换级别的数目、码块大小、系数的最大尺寸、围区信息	√	√

在分组头(PPM、PPT、内流)的情况下，其可在主头、拼接块头或内流中，但不是同时任意两个或更多的这些的组合。另一方面，分组长度和拼接块-长度部分可在主头或拼接块头中，或同时在上述两者中。

从高比特率图像对低比特率图像的估计

低比特率下的多尺度熵分布提供了对视觉重要性的鲁棒量度。在高比特率下，在来自任意传感器或捕捉设备的数字图像中出现的图像噪声的存在会破坏整个熵分布。根据应用，将图像无损或有损地编码。可使用JPEG 2000标准中的分层方案来将无损或高比特率编码的图像的码流定制(order)为视觉或基于均方误差(MSE，Mean-Squared-Error-Based)的重要性。此例中，可通过仅从某些层中的分组提取信息，而忽略其它层中的分组，来获得图像的低比特率版本。如果解码器不使用这样的层，则来自头的分组长度信息可给出仅在编码器选择的比特率(例如，无损、高比特率或低比特率)下的多尺度熵分布。

如果编码器选择为无损或高比特率，则在应用后面说明的任意图像处理算法之前，获得对图像的低比特率版本的估计。下面描述用于执行这样的估计的一个实施例。为确定分配位的顺序，使用来自头的码块中的系数绝对值的最大值和编码通过(coding pass)的数目的信息、以及有关各种分辨率下的子带的视觉或基于(MSE)的重要性的启发式(heuristic)统计信息。

所述估计从每码块的总位数中连续地减位，直到达到对图像给定的比特率。减法的顺序为位分配算法的反转。分配算法可与编码器所使用的算法相同，但不要求相同。

码块的长度，即在编码期间使用的位“B”的数目、零位平面“NZ”的数目和编码通过“CP”的数目可以从JPEG 2000文件的分组头获得。可通过计算最大的非零位平面，从零位平面的数目获得码块中的系数绝对值的最大值的估计，即2^maxB。

MaxB＝MSB(码块子带)-NZ (1)

其中，MSB为码块所属的特定子带的位平面的最大数目。由JPEG 2000的适当的QCC或QCD头条目中的信息来定义MSB。基于图像的视觉或基于MSE的加权或统计性质，可导出子带和位平面的顺序，其反映位平面在给定子带中的重要性。例如，基于MSE重要性，位平面在5级分解的子带中的重要性的排序通过表2中的显示给出。

表2-基于MSE加权的位平面和子带的重要性的顺序

i中的顺序(最不重要l＝1到最重要)	位平面b(i)	子带s(i)	级别l(i)
i中的顺序(最不重要l＝1到最重要)	位平面b(i)	子带s(i)	级别l(i)	1234567891011121314151617181920212223242526272829...	第一位平面第一位平面第一位平面第二位平面第一位平面第一位平面第二位平面第二位平面第一位平面第一位平面第三位平面第二位平面第二位平面第一位平面第一位平面第三位平面第三位平面第二位平面第二位平面第四位平面第三位平面第三位平面第二位平面第二位平面第四位平面第四位平面第三位平面第三位平面第二位平面...	HHLH/HLHHHHLH/HLHHLH/HLHHLH/HLHHHHLH/HLHHLH/HLHHLH/HLHHLH/HLHHHHLH/HLHHLH/HLHHLH/HLHHLH/HLHHLH/HL...	级别1级别1级别2级别1级别2级别3级别1级别2级别3级别4级别1级别2级别3级别4级别5级别1级别2级别3级别4级别1级别2级别3级别4级别2级别1级别2级别3级别4级别5...

估计算法使用该顺序，并对每个顺序号i的码块，计算包含子带s(i)和对应级别l(i)中的特定位平面b(i)的编码通过的数目CP(b(i))，即

CP(b(i))＝CP-((MaxB(s(I)，l(i))-b(i))*3-1) (2)

如果该数为正，则从码块位中减去特定的位数。在一个实施例中，计算特定的位数作为特定子带或特定分辨率中每个编码通过的平均位数。在下一个步骤中，对于级别l(i+1)的子带s(i+1)的位平面b(i+1)，以相似的方式从码块中减去顺序号(i+1)、导出的位数。以伪码形式将0.5位/像素的示例目标速率的示例估计算法表示如下。

Max_I＝largest_order_number

target_rate＝0.5

new_B＝B；

new_CP＝CP；

i＝1

while((i≤max_i)&&(new_rate＞target_rate)){

for each codeblock m in subband s(i)

elim_CP[m](b(i))＝new_CP[m]-((MaxB(s(i)，l(i))-b(i))＊3+1)；

if(elim_CP[m](b(i))＞0)

av_bits＝new_B[m](s(i))/new_CP[m](s(i))；

new_B[m]-＝av_bits＊elim_CP[m](b(i))；

if(new_B[m]＜0)new_B[m]＝0；

new_CP[m]-＝elim_cp[m](b(i))；

end

new_rate＝sum(new_B＊8)/ImageSize；

i++；

end

new_B和new_CP为码块的数目的大小的数组。

一旦达到了目标速率，便在熵处理算法中使用新估计的位值“new_B”。

有很多替代方案来从高比特率图像来估计低比特率图像。在替换实施例中，可使用用于低比特率图像的估计的另一种方法。此方案使用图像的小波系数的分布的模型。

假定可通过高斯或拉普拉斯分布来描述小波系数的分布。由于很多自然图像被测试为近似遵循指数分布，所以经常使用后者(拉普拉斯分布)来对印刷品(literature)的建模。拉普拉斯分布的密度为：

对于λ＞0，f(x)＝λe^-λ|x| (3)

熵的理论定义为：

H＝-∑p_ilog(p_i) (4)

其中，p_i为事件A_i的概率，即p_i＝P(A_i)。对于有损压缩的图像，事件为系数落入特定的量化区(bin)的情形。在通过量化器Q进行标量量化的情况下，将事件A_i描述为系数在区间[i*2^Q，(i+1)*2^Q)中的事件，即：

p_i＝P(A_i)＝P(小波系数d∈[i*2^Q，(i+1)*2^Q)) (5)

对于拉普拉斯分布，其结果为：

p_i＝e^{-λi2^Q}-e^{-λ(i+1)2^Q} (6)

如果参数λ可从编码单元的头数据中估计出，那么可估计出该编码单元中的系数的pdf，并且可确定对于任意给定的量化器Q的熵。

JPEG 2000文件的分组头包括有关码块中的零位平面的数目的信息。从此信息，可通过来自等式1的变量MaxB来获得对那个码块中的系数的最大绝对值的估计。使用此变量，可估计出参数λ为：

λ^*＝log₂(#每个码块的系数)/(2^MaxB) (7)

通过将此估计插入到等式(6)和(4)中的公式中，获得对于给定特定量化的熵的估计。值H给出每像素的位。由于码块长度以字节来测定，所以估计的值H必须乘以8^*(#每个码块的系数)。最后的算法可使用与先前描述的方法相同的顺序，以依次减少不同分辨率级别下的不同子带中的位数。通过将量化器设置到来自表2的位平面参数b(i)来给出位的减少。

通过利用可从头访问的多尺度熵分布，可使用多种技术来执行图像分析或计算机视觉和相似操作，例如(但不限于)分割。在一个实施例中，取代精确的采样方面(sample-wise)多尺度熵分布，还有多尺度系数的局部块(如JPEG2000中的码块)上的熵分布-一种颗粒状(granular)熵分布-可用。在一个实施例中，使用颗粒状熵分布来处理底层图像。

如在此描述的，在几个图像分析算法(或计算机视觉)的框架中说明了对来自JPEG 2000头中可用的图像的多尺度信息的使用。在一个实施例中，所使用的头参数为PPM、PPT、SIZ、COD、COC、QCC和QCD。可从这些参数中提取小波域中码块的位置和编码器用来对对应的系数进行编码的位数。可使用这些数来导出图像的多尺度表示的位分布。码块的尺度和空间定位，以及从头推断出的多尺度位分布产生不同的图像处理应用，如多尺度分割。

分类技术将类标记分配给图像中的每个小区域。这样的区域可以是单个像素或一组像素，例如，正方形块包含的像素。各种图像分析技术以不同的方式使用类分配，例如，分割技术将图像分为具有均匀性质如相同的类标记的区域。

使用多尺度熵分布，将尺度作为类标记分配给每个图像区域，以使得即使忽略了来自较精细的尺度的系数，也会以所分配的尺度保持有关底层区域的视觉相关信息。这样标记识别底层图像特征的频带。作为优化问题，而调用统计方案来解决该问题。

通过二维(2D)空间位置(i，k)和尺度j来给出小波域中的码块的位置。例如，如果处理大小为512x512的图像，并且码块大小为32x32，则级别1的每个带中有8x8个大小为32x32的码块，在级别2每带中有4x4个码块，而在级别3每带中有2x2个码块。添加对于级别j的三个不同带LH、HL和HH在级别j的每个码块位置(i，k)的位数B_i(i，k)，以给出在小波域位置(i，k)对全部系数进行编码所需的位数。在实践中，也可使用将不同熵的线性或非线性组合来帮助区分垂直和水平特征之间。

将尺度，j∈{1...J}分配给每个块，以使得成本函数(cost function)Λ最大化，

S_{opt} = \arg \max_{S &Element; {1 . . . J}^{M \times N}} Λ (S, B) - - - (8)

其中，S_opt是整个图像的最佳分割图，S是大小为M×N的块的J^MN个可能标记中的一个，其中每个块被分配到{1...J}中的一个尺度，并且Λ(S，B)给出给定任意分割S和任意熵分布B的成本。

在一个实施例中，从统计学中采用现有技术的最大化后验(Maximum APosteriori，“MAP”)方案来解决分割问题，因为这一方案可调整为适合于最终应用。由MAP用来设置成本函数Λ的基本因素(ingredient)为似然性户P(B|S)，其为给定分割图S以及先验概率(prior)P(S)下图像的熵分布B的概率，其中先验概率P(S)为分割图S的概率。MAP成本函数Λ由下面的等式给出：

Λ(B，S)＝P(B，S)＝P(B|S)P(S) (贝叶斯准则)。 (9)

MAP分割解决方案对应于使用等式(9)来优化等式(8)。

级别1的码块中包含的系数包含有关像素域中尺寸的大约两倍的块的信息。如果将像素域分割为特定尺寸的块，则在像素域中有小波分解的级别1的码块4倍那么多的块，有小波分解的级别2的码块16倍那么多的块，等等。因此，大小为nxn的码块B_j(i，k)的位将信息贡献给位置(i2^jn，k2^jn)处大小为2^jnx2^jn像素域中的块。反过来，位置(x，y)处大小为nxn的像素块从码块B_j(i，k)接收估计为1/4^j的一小部分位，其中

i = [\frac{x}{2^{j}}]

而

k = [\frac{y}{2^{j}}]

。在一个实施例中，与像素域相关的级别j的位的数目定义为：

{\hat{B}}_{j} (x, y) = \frac{B_{j} (i, k)}{4^{j}} - - - (10)

上面的计算等价于熵值在片段方面(piece wise)的插值。也可使用诸如多项式插值或其它非线性插值的其它插值算法来计算级别j位。

位置(x，y)处大小为2nx2n的像素块的累积加权分辨率-j熵由下式给出：

{\hat{B}}_{j}^{pixel} (x, y) = Σ_{l = 1}^{J} γ_{j, l} {\hat{B}}_{l} (i, k) - - - (11)

其中，对于等式(10)中的

(i，k)中的位置i和k，

i = [\frac{x}{2^{l}}]

而

k = [\frac{y}{2^{l}}],

并且权重为γ_j，l。用于权重的集合的例子为：

对于l＜j，γ_j，l＝0，而对于l≥j，γ_j，l＝w_j (12)

其中，w₀＝1，w₁＝3.5，w₂＝5.5，w₃＝13，w₄＝20。参数w_i和权重γ_j，l可根据应用而改变。这组值

被称为图像在分辨率j下的累积加权熵。

位置(x，y)处像素域块的熵

的似然性设置为

相对于与像素域位置(x，y)相关的所有级别的总加权位的值，即：

P ({\hat{B}}^{pixel} (x, y) | S (x, y) = j) = \frac{{\hat{B}}_{j}^{pixel} (x, y)}{Σ_{l = 1}^{J} {\hat{B}}_{l}^{pixel} (x, y)} - - - (13)

在像素域块独立的假定下，总似然性通过下式给出：

P (B | (S = j)) = \underset{(x, y)}{Π} P ({\hat{B}}^{pixel} (x, y) | (S (x, y) = j)) . - - - (14)

提供了原始图像的多尺度熵分布。

现在，必须确定先验概率P(s)。下面的讨论反映有关典型的分割图的现有知识。有很多可能的方式来选择先验概率。例如，在下面的文献中描述了其它选择先验概率的方式，即R.Neelamani，J.K.Romberg，H.Choi，R.Riedi，R.G.Baraniuk，“Multiscale image segmentation using joint texture and shapeanalysis(使用结合纹理和形状分析的多尺度图像分割)”，in Proceedings ofWavelet Applications in Signal and Image Processing VIII，part of SPIE’sInternational Symposium on Optical Science and Technology，San Diego，CA，July，2000；H.Cheng and C.A.Bouman，“Trainable context model for multiscalesegmentation(用于多尺度分割的可训练上下文模型)”，in Proc.IEEE Int.Conf.on Image Proc.-ICIP’98，Chicago，IL，Oct.4-7，1998；以及H.Choi and R.Baraniuk，“Multiscale texture segmentation using wavelet-domain hiddenMarkov models(使用小波域隐式马尔可夫模型的多尺度纹理分割)”，in Proc.32nd Asilomar Conf.on Signals，Systems and Computers，Pacific Grove，CA，Nov.1-4，1998。

由于期望分割图具有连续的区域，所以基于每个位置(x，y)紧邻的N(x，y)，对每个位置(x，y)设置先验概率，其中N(x，y)由九个块组成(在边界处使用镜像(reflection))。单个先验概率为：

P (S (x, y) | N (x, y)) = \frac{{(# (N (x, y) = s (x, y))}^{α}}{Σ_{j = 1}^{J} {(# (N (x, y) = j))}^{α}}, - - - (15)

其中，#(N(x，y)＝S(x，y))为与S(x，y)相同的近邻的数目，而α为可增加到偏好(favor)的连续区域的参数；α＝0意味着分割图块彼此无关。在一个实施例中，总先验概率选为：

P(S)＝∏_x，yP(S(x，y)|N(x，y)) (16)

＝∏_x，y(#N(x，y)＝S(x，y))^α。 (17)

在一个实施例中，α等于0.02到0.08。现在，可通过优化成本函数Λ(S，B)来获得期望的分割图。可使用很多现有技术的迭代技术来搜索局部最大值。一种迭代技术包括首先计算初始分割图，其在等式(12)中使用α＝0来优化成本函数。由于向量优化退耦(decouple)成为标量优化问题，因而获得将所得成本函数最大化的分割图。分割图由下式给出：

对于所有(x，y)，

S^{0} (a, b) = \arg \max_{j &Element; {1 . . . J}} P ({\hat{B}}^{pixel} (x, y) | S (x, y) = j) - - - (18)

对于所有(x，y)，使用下式来更新(x，y)处的分割图。

S^{m} (x, y) = \arg \max_{j &Element; {1 . . . J}} P ({\hat{B}}^{pixel} (x, y) | S (x, y) = j) P (S (x, y) = j | N (x, y)), - - - (19)

其中，从S^m-1得到N(x，y)。在每次迭代中，将m增加为m＝m+1。重复该迭代循环，直到S^m＝S^m-1。由于成本函数Λ(B，S^m)为迭代m的非递减函数，并且成本函数有界，所以该迭代算法总是收敛的。收敛后获得的S^m为分割估计。

随后，通过将下面的MAP成本函数最大化，给出根据对区域标记的实际分割输出。

Λ(B，S_m)＝P(B|S_m)·P(S_m)， (20)

如上面的等式(3)中提到的。

图11为用于分割图像的过程的一个实施例的流程图。参照图11，在处理块201中，接收包含头的文件，其中所述头包含图像的块上的多尺度熵分布信息。在一个实施例中，文件以JPEG 2000格式表示图像。在处理块202中，对于每个块，将来自一组尺度的尺度分配到使成本函数最大化的块。成本函数为总似然性和先验概率的乘积。总似然性为块的似然性的乘积。在一个实施例中，块的每个似然性与这组尺度中的每个尺度的权重与在该尺度下对块编码所耗用的位数的乘积的总和成正比。在一个实施例中，在该尺度下对块编码所耗用的位数为分子除以分母。分子为该尺度下块的多尺度系数的熵分布。分母为4的尺度次幂。在处理块203中，通过将已分配了等价尺度的块分到一组来分割图像。

图12说明了在示例的女人图像上叠加的分割图。在一个实施例中，(上述)分割过程用精细尺度来标记图像301的面部区域，并用粗糙尺度来标记背景，以反映图像的底层特征。不同的阴影表示具有不同类特征的区域被不同地标识。在一个实施例中，分割过程基于底层特征，将尺度分配给不同区域。右边的色条302示出了分配给不同区域的尺度。用精细尺度303来标记包含许多边缘的诸如面部的区域。相反，给背景区域分配较粗糙的尺度304。

示例计算机系统

图9为可执行这里描述的一个或多个操作的示例计算机系统的方框图。参照图9，计算机系统900可包括示例客户950或服务器900计算机系统。计算机系统900包括用于传递信息的通信机制或总线911以及与总线911耦接用于处理信息的处理器912。处理器912包括微处理器，如Pentium^TM、PowerPC^TM等，但不限于微处理器。

系统900还包括耦接到总线911的随机存取存储器(RAM)或其它动态存储设备904(称为主存储器)，用于存储信息和要由处理器912运行的指令。主存储器904还可用于在处理器912运行指令期间，存储临时变量或其它中间信息。

计算机系统900还包括：耦接到总线111的只读存储器(ROM)和/或其它静态存储设备906，用于存储处理器912的静态信息和指令；以及数据存储设备907，如磁盘或光盘，及其对应的盘驱动器。数据存储设备907耦接到总线911，以存储信息和指令。

计算机系统900还可耦接到显示设备921，如阴极射线管(CRT)或液晶显示器(LCD)，显示设备921耦接到总线911，用于将信息显示给计算机用户。也可将包括文字数字和其它键的文字数字输入设备922耦接到总线911，用于将信息和命令选择传递给处理器912。附加用户输入设备为光标控制器923，如鼠标、轨迹球、轨迹板(trackpad)、输入笔(stylus)、或光标方向键，其耦接到总线911，用于将方向信息和命令选择传递给处理器912，并且用于控制光标在显示器921上的移动。

可耦接到总线911的另一个设备为硬拷贝设备924，其可用于在诸如纸件、胶片的介质或类似类型的介质上打印指令、数据、或其它信息。此外，可选地，可将声音记录和回放设备如扬声器和/或麦克风耦接到总线911，用于与计算机系统900音频对接。可耦接到总线911的另一个设备为有线/无线通信能力923，以与电话或手持手掌设备通信。

注意，可在本发明中使用系统900的任何或所有组件和相关硬件。然而，可以理解，计算机系统的其它配置可包括某些或所有所述设备。

然而，对于本领域的技术人员来说，在阅读了前面的描述之后，本发明的很多替换和修改无疑会显而易见，应当理解，通过图解的方式示出并描述的任何具体实施例决不试图被视为限制。因此，对各种实施例的细节的引用并不试图限制权利要求的范围，其自身仅引用那些特征作为本发明的本质。

Claims

1.一种方法，包括

从第一文档图像的压缩数据的多分辨率码流中的头提取至少一个多分辨率位分布；

使用至少一个多分辨率位分布生成第一文档图像的一个或多个属性；以及

通过比较第一文档图像的属性和至少一个其它文档图像的属性，在第一文档图像和所述其它文档图像之间执行相似性匹配，从而确定第一文档图像和所述其它文档图像的相似度。

2.如权利要求1所述的方法，其中，至少一个多分辨率位分布中的每一个对应于一个文档图像要素。

3.如权利要求2所述的方法，其中，一个文档图像要素包括从由亮度平面、色度平面、以及彩色平面组成的组中选择的一个。

4.如权利要求1所述的方法，其中，至少一个多分辨率位分布提供第一文档文档图像在码块分辨率下的信息。

5.如权利要求4所述的方法，其中，至少一个多分辨率位分布指示有关第一文档文档图像的视觉文档布局的信息。

6.如权利要求1所述的方法，其中，生成第一文档图像的一个或多个属性包括：通过对至少一个多分辨率位分布实施算法而导出所述一个或多个属性。

7.如权利要求1所述的方法，其中，生成一个或多个属性包括从至少一个多分辨率位分布中的一个生成至少一个分辨率-级别分割图。

8.如权利要求7所述的方法，其中，生成至少一个分辨率-级别分割图包括：为从由彩色平面组成的组以及亮度和色度平面的组中选择的一个的平面生成一个分辨率-级别分割图。

9.如权利要求7所述的方法，其中，一个或多个属性包括从一组中选择的一个或多个，该组包括：与第一文档文档图像中文本、文档图像、颜色和背景中的一个或多个的量相关的一个或多个内容百分比；至少一个分割图中的连接要素的一个或多个统计量；至少一个分割图和一个或多个位分布文档图像中的一个或所述两者中要素之间的空间关系；码块分区的一个或多个直方图；一个或多个分辨率-级别直方图；列布局；以及至少一个分辨率-级别分割图中的文本块、背景块、颜色块和分辨率值的一个或多个的投影直方图。

10.如权利要求7所述的方法，还包括：

从至少一个分辨率-级别分割图计算高分辨率信息；

将信息分类为文本数据和非文本数据类；以及

对被分类为文本数据的信息实施投影方法，以确定列数。

11.如权利要求10所述的方法，其中，从至少一个分辨率-级别分割图计算高分辨率信息包括：用第二分辨率级别下的分辨率-级别分割图，遮蔽第一分辨率级别下的至少一个多分辨率位分布。

12.如权利要求1所述的方法，还包括基于相似度比较的结果，将具有满足预定的阈值的相似度水平的文档图像作为与第一文档图像匹配的文档图像检索。

13.如权利要求1所述的方法，其中，第一文档图像包括扫描的复合文档。

14.如权利要求1所述的方法，还包括将与第一文档图像匹配的检索的文档图像输出。

15.一种装置，包括：

用于从第一文档文档图像的压缩数据的多分辨率码流中的头提取至少一个多分辨率位分布的部件；

用于使用至少一个多分辨率位分布生成第一文档文档图像的一个或多个属性的部件；以及

用于通过比较第一文档图像的属性和至少一个其它文档图像的属性，在第一文档图像和所述其它文档图像之间执行相似性匹配，从而确定第一文档图像和所述其它文档图像的相似度的部件。

16.如权利要求15所述的装置，其中，基于相似度比较的结果，将具有满足预定的阈值的相似度水平的文档图像作为与第一文档图像匹配的文档图像检索。

17.如权利要求15所述的装置，其中，第一文档图像包括扫描的复合文档。

18.如权利要求15所述的装置，其中，将与第一文档图像匹配的检索的文档图像输出。

19.一种装置，包括：

输入端口，用于接收第一文档文档图像；

检索属性计算单元，其耦接到输入端口，以使用从第一文档文档图像的压缩数据的多分辨率码流中的头提取的至少一个多分辨率位分布，来生成第一文档文档图像的一个或多个属性；以及

文档管理系统，用于通过比较第一文档图像的属性和至少一个其它文档图像的属性，在第一文档图像和所述其它文档图像之间执行相似性匹配，从而确定第一文档图像和所述其它文档图像的相似度。

20.如权利要求19所述的装置，还包括输出端口，耦接其以用于在存在检索的文档的情况下，输出至少一个检索的文档。

21.如权利要求20所述的装置，还包括耦接到输出端口的打印机，用于打印至少一个检索的文档。

22.如权利要求19所述的装置，还包括耦接到输入端口的扫描仪，用于创建第一文档文档图像。

23.如权利要求19所述的装置，其中，至少一个多分辨率位分布中的每一个对应于一个文档图像要素。

24.如权利要求23所述的装置，其中，一个文档图像要素包括亮度平面、色度平面、以及彩色平面。

25.如权利要求19所述的装置，其中，至少一个多分辨率位分布提供第一文档文档图像在码块分辨率下的信息。

26.如权利要求25所述的装置，其中，至少一个多分辨率位分布指示有关第一文档文档图像的视觉文档布局的信息。

27.如权利要求19所述的装置，其中，检索属性计算单元通过对至少一个多分辨率位分布实施算法来导出一个或多个属性，而生成第一文档文档图像的一个或多个属性。

28.如权利要求19所述的装置，其中，检索属性计算单元通过从至少一个多分辨率位分布中的一个生成至少一个分辨率-级别分割图，而生成一个或多个属性。

29.如权利要求28所述的装置，其中，检索属性计算单元通过为从由彩色平面组成的组和亮度和色度平面的组中选择的一个的平面生成一个分辨率-级别分割图，而生成至少一个分辨率-级别分割图。

30.如权利要求28所述的装置，其中，一个或多个属性包括从一组中选择的一个或多个，该组包括：与第一文档文档图像中文本、文档图像、颜色和背景中的一个或多个的量相关的一个或多个内容百分比；至少一个分割图中的连接要素的一个或多个统计量；至少一个分割图和一个或多个位分布文档图像中的一个或所述两者中要素之间的空间关系；码块分区的一个或多个直方图；一个或多个分辨率-级别直方图；列布局；以及至少一个分辨率-级别分割图中的文本块、背景块、颜色块和分辨率值的一个或多个的投影直方图。

31.如权利要求28所述的装置，其中，检索属性计算单元：

从至少一个分辨率-级别分割图计算高分辨率信息；

将信息分类为文本数据和非文本数据类；以及

对被分类为文本数据的信息实施投影方法，以确定列数。

32.如权利要求31所述的装置，其中，检索属性计算单元从至少一个分辨率-级别分割图计算高分辨率信息包括：用第二分辨率级别下的分辨率-级别分割图，遮蔽第一分辨率级别下的至少一个多分辨率位分布。

33.如权利要求19所述的装置，其中，基于相似度比较的结果，将具有满足预定的阈值的相似度水平的文档图像作为与第一文档图像匹配的文档图像检索。

34.如权利要求19所述的装置，其中，第一文档图像包括扫描的复合文档。

35.如权利要求19所述的装置，其中，将与第一文档图像匹配的检索的文档图像输出。