CN101820489B

CN101820489B - 图像处理设备及图像处理方法

Info

Publication number: CN101820489B
Application number: CN2010101228411A
Authority: CN
Inventors: 三沢玲司; 小坂亮; 金津知俊; 相马英智
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-02-27
Filing date: 2010-02-26
Publication date: 2013-05-29
Anticipated expiration: 2030-02-26
Also published as: JP5274305B2; JP2010204705A; US20100220929A1; CN101820489A; KR101332912B1; EP2224359A3; EP2224359B1; EP2224359A2; US8411960B2; KR20100098332A

Abstract

本发明涉及一种图像处理设备及图像处理方法。图像处理设备从输入图像获得对象区域(例如字符、图片、线图和表格)并且获取与该对象相关联的元数据。该图像处理设备生成具有需要生成透明图形描述的属性的对象区域的透明图形描述，并且在将该透明图形描述与元数据相关联的同时生成电子文档。作为透明图形描述，可以使用任意形状的图形。因此，该图像处理设备可以生成适合强调表示的电子文档数据，用户容易在使用关键词的搜索操作中进行识别，以搜索电子文档中包括的对象。

Description

图像处理设备及图像处理方法

技术领域

本发明涉及一种能够生成能够从文档图像中搜索对象的电子文档数据的图像处理设备、图像处理方法及计算机程序。

背景技术

传统上，期望构建一种能够在文档图像中搜索字符以外的对象(例如图片(picture)、图形、线图(line drawing)和表格)，使得能够容易地使用这些对象的图像处理系统。除非特别指出，否则在下面的说明中描述的对象是字符以外的对象。

例如，图像处理系统从文档图像中提取对象，并判断在该对象附近是否存在注释(caption)字符串(即解释对象的字符串)。如果判断为存在注释字符串，则图像处理系统将注释字符串指定为与该对象相关联的元数据(metadata)，从而能够基于元数据来搜索对象。

然后，对与元数据相关联的各个对象进行JPEG压缩，并将其存储为单个电子文档。当应用程序使用上述电子文档时，应用程序能够使用元数据作为关键词来进行搜索，以找到对象。

此外，在邻近对象的注释是图号(例如“图1”)的情况下，一般的文档图像包括正文，在正文中描述代表相同图号的字符串以解释对象。更具体来说，可以在正文中找到与在注释中描述的图号相同的表达。

如在日本特开平10-228473号公报中所讨论的，存在一种传统技术，其能够通过在注释中的图号和正文中的图号之间自动生成链接，来形成超文本。例如，在邻近对象的注释包括图号“图1”并且正文包括语句“图1是AAA。”的情况下，可以在注释中的“图1”和正文中的“图1”之间生成超链接。此外，在上述现有技术中讨论的技术可以通过在对象和相关正文之间自动生成链接来形成超文本。

另一方面，多功能外围设备(MFP，multifunction peripheral)具有通过对扫描的输入文档图像进行图像处理和格式转换处理来生成电子文档的能力，并且具有经由网络将生成的电子文档发送到个人计算机(PC)的发送功能。

图像处理包括通过对文档图像中包含的字符图像进行字符识别处理来获取字符代码的处理。图像处理还包括将文档图像中的图形转换为矢量数据的矢量化处理。在格式转换处理中，将经过上述图像处理的数据转换为预定电子文档格式(例如便携式文档格式(PDF，portable documentformat))，以生成电子文档文件。

如在日本特开2009-009526号公报中讨论的，存在一种传统技术，其用于将字符识别结果作为透明文本(即通过将透明颜色指定为描绘颜色而以隐形的状态描绘的字符代码)嵌入到图像文件中，并将数据转换为电子文档格式(例如PDF或XPS)。当显示以这种方式生成的电子文档文件时，在文档图像的字符部分中描绘透明文本。

在这种情况下，如果用户进行关键词搜索，则系统搜索透明文本。然而，用户不能在视觉上识别透明文本本身。因此，用户感觉好像搜索到了文档图像中的目标字符图像部分。以这种方式，可以以强调的状态显示对应于要搜索的关键词的字符图像部分。因此，用户能够有效地识别目标字符图像部分。

另一方面，在将注释字符串作为元数据添加到字符以外的对象、使得可以在电子文档中搜索该对象的情况下，希望强调在关键词搜索中命中的搜索结果(即目标对象)。

然而，在这种情况下要搜索的目标对象是颜色和形状差别很大的图片、图形和表格对象中的任何一个。因此，强调显示可能不带来期望的效果。用户不能识别在搜索中命中的目标对象。

例如，在用红色强调搜索到的对象的轮廓的情况下，如果搜索到的对象是在搜索到的对象附近或在整个区域的大部分中包括红色部分的图片对象，则搜索结果的强调显示不是有效的。更具体来说，识别在搜索中命中的对象，对于用户来说是非常困难的。

此外，在通过网络发送生成的电子文档数据的情况下，希望减小电子文档数据的数据大小。然而，如果对从文档图像中提取的各对象(例如图片)进行独立压缩，并将压缩后的图像数据与背景图像数据组合并作为单个电子文件存储，则获得的文件的大小与通过压缩一个整体原始文档图像获得的文件大小相比，趋于变大。

更具体来说，在发送包含图片的文档图像的情况下，通过压缩包括图片部分和背景的整个图像来作为一个压缩图像数据，而不是作为独立的压缩图像数据来存储提取的图片对象和背景，可以有效地减小发送的图像的总数据大小。

一般来说，构成上述数据的元素是图像信息和压缩头信息。如果对象数据的数量增加，则针对各数据重复存储头信息。尤其，在高级图像压缩方法中，压缩中需要的头信息趋于变大。

因此，在基于包括多个对象(例如图片)的文档图像生成电子文档文件的情况下，希望压缩所有对象作为单个图像，而不是分开压缩各对象，以有效地减小总数据大小。

例如，在将图像数据存储为JPEG压缩流的情况下，各个流伴随有700字节或更大的头信息，其包括进行光栅化(rasterization)时使用的量化表和霍夫曼(Huffman)代码。在一页图像包括100个图片的情况下，与将背景和图片分别压缩为总共101个独立图像数据的情况相比较，通过将所有图片和背景压缩为一个图像数据，可以获得相当于每一页70K字节或更大的大小减小效果。

然而，如果将对象和背景压缩为一个图像数据，则以搜索目标对象与背景合并的状态存储电子文档数据。因此，在搜索中难以识别和强调目标对象。

发明内容

根据本发明的一方面，本发明提供一种图像处理设备，所述图像处理设备包括：区域分割单元，其配置成从输入图像中提取对象区域；确定单元，其配置成确定由所述区域分割单元提取的所述对象区域的属性；元数据处理单元，其配置成获取要与由所述区域分割单元提取的所述对象区域相关联的元数据；图形描述生成单元，其配置成针对具有需要生成透明图形描述的属性的对象区域，生成所述透明图形描述；以及电子文档生成单元，其配置成将所述图形描述生成单元生成的所述透明图形描述与所述元数据相关联，并生成包括基于所述输入图像生成的图像数据和与所述元数据相关联的所述透明图形描述的电子文档。

根据本发明的图像处理设备能够生成用户容易在搜索操作中使用关键词进行识别，以搜索电子文档中包括的字符以外的对象，而不依赖于搜索目标对象的形状和颜色、或者不依赖于图像压缩状态的适合强调表示的电子文档数据。

从以下参照附图对实施例的详细描述，本发明的其它特征和方面将变得明显。

附图说明

包括在说明书中并构成说明书的一部分的附图与本说明一起示出本发明的实施例、特征和方面，并且用于解释本发明的原理。

图1是示出根据本发明的实施例的图像处理系统的框图。

图2是示出图1所示的多功能外围设备(MFP)100的框图。

图3是示出图2所示的数据处理单元218的示例配置的框图。

图4是根据本发明的实施例的图像处理系统执行的处理的示例过程的流程图。

图5是示出图3所示的格式转换单元305的示例配置的框图。

图6示出提取区域的示例。

图7示出存储在存储单元211中的信息的示例。

图8A至图8D是图3所示的格式转换单元305的对应关系表(即控制信息)的示例。

图9示出根据本发明的实施例的输入图像数据的示例。

图10示出从图9所示的示例图像数据中提取的信息的示例。

图11示出根据本发明的实施例生成的电子文档数据的示例。

图12是示出图3所示的元数据处理单元304执行的处理的示例过程的流程图。

图13是示出图3所示的格式转换单元305执行的处理的示例过程的流程图。

图14A至图14D示出由使得用户能够浏览和搜索电子文档数据的应用程序提供的显示画面的示例。

图15示出注释区域中的锚定(anchor)字符串和元数据字符串的示例。

图16示出当输入图9所示的图像数据的第一页时生成的图形数据的示例。

图17示出根据电子文档格式的页面描述的示例。

图18示出输出的电子文档数据的示例。

图19是示出根据本发明的第二实施例的图3所示的格式转换单元305执行的处理的示例过程的流程图。

图20示出根据本发明的第二实施例的与生成电子文档数据的意图相关的UI画面的示例。

图21示出根据本发明的第三实施例的与透明框描述相关的UI画面的示例。

图22是示出根据本发明的第四实施例的面部识别处理的示例配置的框图。

图23是示出根据本发明的第四实施例的图2所示的数据处理单元218的示例配置的框图。

图24示出根据本发明的第四实施例的由使得用户能够浏览和搜索电子文档数据的应用程序提供的显示的示例。

具体实施方式

下面，参照附图详细描述本发明的各种实施例、特征和方面。

下文中，参照附图描述本发明的第一实施例。图1是示出根据本发明的实施例的图像处理系统的配置的框图。

在图1中，多功能外围设备(MFP)100连接到安装在办公室A中的局域网(LAN)102。MFP 100是可以实现多个功能(例如复印功能、打印功能和传输功能)的多功能机。LAN 102经由代理服务器103连接到外部网络104。

客户PC 101可以经由LAN 102接收来自MFP 100的传输数据，并且可以使用MFP 100的功能。例如，客户PC 101将打印数据传送到MFP 100，以使MFP 100基于接收到的打印数据生成打印产品。

图1所示的配置仅仅是示例。各个具有类似于图1所示的组成部分的多个办公室可以经由网络104相互连接。网络104是可以例如通过因特网、局域网(LAN)、广域网(WAN)、电话电路、专用数字电路、ATM和帧中继电路、通信卫星电路、有线电视电路或数据广播无线电路实现的通信网络。网络104可以由能够实现数据发送和接收的任何其它通信网络构成。

客户PC 101和代理服务器103中的各个包括基本组成部分(例如中央处理单元(CPU)、随机存取存储器(RAM)、只读存储器(ROM)、硬盘、外部存储装置、网络接口、显示装置、键盘和鼠标)，它们与通用计算机中安装的类似。

图2示出了根据本实施例的MFP(即图像处理设备)100的详细配置。MFP 100包括可以作为图像输入装置的扫描器单元201、可以作为图像输出装置的打印机单元202、包括中央处理单元(CPU)205的控制单元204和可以作为用户接口的操作单元203。

控制单元204是可以进行通过与扫描器单元201、打印机单元202和操作单元203的通信、以及与经由局域网(LAN)219和公共线路(WAN)220可访问的外部装置的通信，来输入和输出图像信息和装置信息的处理的控制器。还将公共线路(WAN)220称为普通电话电路。

CPU 205可以控制设置在控制单元204中的各种功能单元。随机存取存储器(RAM)206是在CPU 205进行各种操作时作为能够临时存储图像数据的图像存储器的系统工作存储器。只读存储器(ROM)210是可以存储系统引导程序和其它程序的引导ROM。存储单元211是可以存储系统控制软件程序和图像数据的硬盘驱动器。

操作单元I/F 207是连接到操作单元(UI)203的接口单元。操作单元I/F 207可以将图像数据输出到操作单元203。操作单元203显示从操作单元I/F 207接收到的图像数据。此外，如果用户经由操作单元203将信息输入到图像处理设备，则操作单元I/F 207可以将输入信息传送到CPU 205。

网络I/F 208将图像处理设备连接到LAN 219，以进行输入和输出包格式信息的处理。调制解调器209将图像处理设备连接到公共电话电路220，以进行输入和输出信息的数据解调和调制处理。上述装置经由系统总线221相互连接。

图像总线接口212是连接系统总线221和图像总线222的总线桥。图像总线222可以快速传输图像数据。图像总线接口212可以转换数据结构。图像总线222例如是PCI总线或IEEE1394。

以下装置经由图像总线222相互连接。光栅图像处理器(RIP，rasterimage processor)213可以实现分析页面描述语言(PDL，page descriptionlanguage)代码并将PDL代码光栅化为具有指定分辨率的位图图像的绘制(rendering)处理。

当RIP 213进行上述光栅化处理时，按像素或者按区域来添加属性信息。通常将该处理称为图像区域确定处理。通过图像区域确定处理，可以向各个像素或各个区域添加代表诸如字符(文本)、线、图形或图像的对象类型的属性信息。

例如，根据PDL代码中的PDL描述的对象类型，从RIP 213输出图像区域信号。与对应于对象的像素或区域相关联地存储代表由信号值表示的属性的属性信息。因此，图像数据伴随有与图像数据相关联的属性信息。

装置I/F单元214经由信号线223将扫描器单元201(即图像输入装置)连接到控制单元204。此外，装置I/F单元214经由信号线224将打印机单元202(即图像输出装置)连接到控制单元204。装置I/F单元214可以对图像数据进行同步/异步转换处理。

扫描器图像处理单元215可以对输入的图像数据进行修正、修改和编辑处理。打印机图像处理单元216可以根据打印机单元202对要输出到打印机单元202的打印输出图像数据进行修正和分辨率转换处理。图像旋转单元217可以旋转输入的图像数据以输出竖立的图像。数据处理单元218可以进行以下处理。

接下来，参照图3详细描述数据处理单元218。数据处理单元218包括区域分割单元(或者区域提取单元)301、属性信息添加单元302、字符识别单元303、元数据处理单元304和格式转换单元305。数据处理单元218响应于通过扫描图像从扫描器单元输入的图像数据300，使各处理单元301至305进行处理。数据处理单元218作为电子文档数据310输出处理后的数据。

区域分割单元301输入由图2所示的扫描器单元201扫描的图像数据或者存储在存储单元211中的图像数据(即文档图像)。区域分割单元301可以对数据的像素进行提取和分组处理，以提取对象区域(即诸如布置在页面中的字符、图片、图形和表格的对象的区域)。

在这种情况下，区域分割单元301可以使用传统上已知的适当的区域提取方法(即区域分割方法)。根据作为示例的方法，区域分割单元301将输入图像二值化以生成二值图像，并且降低二值图像的分辨率以生成稀疏(thin)的图像(即缩小的图像)。例如，为了生成1/(M×N)的稀疏图像，区域分割单元301将二值图像分割成多个组，每组包括M×N个像素。区域分割单元301判断在各个M×N个像素的组中是否存在黑色像素。如果判断为目标组包括黑色像素，则区域分割单元301将黑色像素设置为作为要生成的稀疏图像的要生成的缩小图像的对应像素。另一方面，如果判断为目标组不包括黑色像素，则区域分割单元301将白色像素设置为要生成的稀疏图像。

接下来，区域分割单元301从稀疏图像中提取相连的黑色像素(即黑色像素连续排列的黑色相连成分)，并生成外接相连的黑色像素的矩形。如果排列了与文档图像中的字符部分具有类似大小的矩形(每个对应于一个字符)，或者如果提取的矩形的垂直边或水平边的大小与字符图像大小类似(即外接黑色像素相连的一些字符图像的矩形)并且类似的矩形布置在其短边处，则可以将其视为构成一个字符行的字符图像。在这种情况下，区域分割单元301通过连接矩形来获得代表一个字符行的矩形。

然后，可以将各个代表一个字符行的矩形的短边长度基本相同并且在列方向上以相同的间隔排列的矩形的集合视为正文部分。因此，区域分割单元301通过连接这些矩形来提取正文区域。此外，区域分割单元301可以作为与字符图像相比具有较大尺寸的连续相连的黑色像素部分来提取图片区域、图形区域和表格区域中的各个。

结果，例如可以提取图6所示的区域601至605。如下所述，可以基于各个区域的大小、长宽比、黑色像素密度或应用到相连的黑色像素内部存在的白色像素的轮廓跟踪结果来确定其属性。

属性信息添加单元302向区域分割单元301分割的各个区域添加属性。例如，为了作为输入图像数据来处理图6所示的示例图像，属性信息添加单元302进行以下处理。区域605具有构成页面中的段落的多行字符。因此，属性信息添加单元302将属性“正文”添加到区域605。

然后，属性信息添加单元302判断其余区域是否包括与字符图像具有类似大小的矩形。特别地，如果区域包括字符图像，则在该区域中周期性地出现外接各个字符图像的类似的矩形。因此，属性信息添加单元302可以将该区域识别为包括字符的区域。

结果，因为属性信息添加单元302判断为区域601和区域604包括字符，所以将属性“字符区域”添加到这些区域中的各个。在这种情况下，区域601和区域604中的各个都不包括构成段落的多行字符。因此，属性信息添加单元302不向区域601和区域604中的各个添加属性“正文”。

另一方面，如果其它区域的区域大小非常小，则属性信息添加单元302确定该区域是“噪声”。此外，属性信息添加单元302对具有较低像素密度的相连黑色像素内部存在的白色像素进行轮廓跟踪处理。如果白色像素轮廓的外接矩形整齐地排列，则属性信息添加单元302确定识别的区域是“表格”。如果白色像素轮廓的外接矩形未整齐地排列，则属性信息添加单元302确定识别的区域是“线图”。此外，可以将具有较高像素密度的其余区域视为插图或图片。因此，属性信息添加单元302将属性“图片”添加到这些区域。

此外，如果在添加了“表格”、“线图”或“图片”属性的区域附近(例如上面或下面)存在未识别为正文的字符区域，则属性信息添加单元302确定识别的区域是解释对应的“表格”、“线图”或“图片”区域的字符区域。因此，属性信息添加单元302将“注释”属性添加到该字符区域。属性信息添加单元302将添加了属性“注释”的区域与识别伴随区域(即表格、线图、图片区域)的信息相关联地存储，从而可以容易地识别“注释”伴随的区域。

此外，如果区域大小大于正文部分的字符图像，并且区域位置不同于正文部分的多列(multiple column)，则属性信息添加单元302将属性“标题”添加到识别的字符区域。此外，如果区域大小大于正文部分的字符图像，并且区域位置在正文部分的多列之上，则属性信息添加单元302将属性“副标题”添加到识别的字符区域。此外，如果区域大小等于或小于正文部分的字符图像，并且区域位置是原稿的上端部或下端部，则属性信息添加单元302将属性“页”(或者“页眉”或“页脚”)添加到识别的字符区域。

此外，如果识别的字符区域不是“正文”、“标题”、“副标题”、“注释”和“页”区域中的任何一个，则属性信息添加单元302将属性“字符”添加到识别的字符区域。

如果对图6所示的示例进行上述属性信息添加处理，则向区域601添加属性“标题”。向区域602添加属性“表格”。向区域603添加属性“图片”。向区域604添加伴随区域603的属性“注释”。向区域605添加属性“正文”。

字符识别单元303以传统上已知的方式对添加了属性“字符”、“正文”、“标题”、“副标题”或“注释”的区域(即包括字符图像的区域)执行字符识别处理。字符识别单元303作为字符信息存储得到的字符代码行，并且将存储的字符信息与处理后的区域相关联。

区域位置和大小、区域属性信息、页信息和字符代码信息(即从字符识别处理得到的字符信息)，即由区域分割单元301、属性信息添加单元302和字符识别单元303提取的各种信息和数据存储在存储单元211中。

图7示出了可以通过对图6所示的输入图像数据进行的处理而获得的存储在存储单元211中的信息的示例。尽管在图6和图7中没有详细描述，但是希望将属性“表格字符”添加到表格中的字符图像区域并进行字符识别处理，以存储如图7所示的信息。

元数据处理单元304将元数据(即搜索对象所需的信息)与属性信息添加单元302检测到的附有注释的对象(例如图片、线图或表格对象)相关联，并将相关联的数据存储在存储单元211中。在本实施例中，将在对象的注释中描述的字符串与包含类似于注释的字符的字符(或字)的正文的一部分(例如语句)彼此相关联，作为可用于搜索对象的元数据。

本实施例使用注释标识符来确定用作元数据的字符串。注释标识符可以用于将附有注释的对象与注释和正文字符信息相关联。可以从各种标识符(例如用于标识各个对象的标识信息(ID)、表示注释和正文字符信息的存储位置的位置信息(例如表示记录位置的地址和指针)以及参照信息(例如XMLPath或URL))中选择注释标识符。

本实施例使用可以在下面的输入一页或依次输入多页的处理中标识各个附有注释的对象的ID信息。例如，可以使用各个页的序号。

首先，元数据处理单元304进行生成由属性信息添加单元302检测到的附有注释的对象的注释标识符(即标识信息)的处理。然后，元数据处理单元304将生成的注释标识符添加到该对象。

接下来，元数据处理单元304从字符识别单元303输出的注释和正文字符信息中提取对应于该对象的元数据字符串(指南、关键词等)。元数据处理单元304进行将提取的元数据字符串与对应的注释标识符相关联并将相关联的数据存储在存储单元211中的处理。在这种情况下，元数据处理单元304分配唯一的ID来表达附有注释的对象和元数据字符串之间的对应关系。

以这种方式，元数据处理单元304可以将附有注释的对象(即由属性信息添加单元302检测到的对象)与其元数据相关联，并且可以将相关联的信息存储在存储单元211中。

格式转换单元305进行基于输入图像数据300将通过区域分割单元301、属性信息添加单元302、字符识别单元303和元数据处理单元304进行的上述连续处理得到的信息(例如区域位置和大小信息、页信息、区域属性、区域字符信息和元数据)转换为具有预定格式(PDF、SVG、XPS、OfficeOpenXML等)的电子文档的处理。

通过上述格式转换生成的电子文档包括基于图形的页显示信息(例如要显示的图像)和基于字符或其它含义描述的内容信息(例如元数据)。

图5是示出格式转换单元305的配置的示例的框图。图像过滤单元501可以对输入图像数据进行过滤处理(例如平坦化、平滑化、边缘加强、颜色量化以及二值化)。矢量转换处理单元502可以将图像数据(例如对应于添加了线图属性的区域的部分的图像)转换为矢量路径描述图形数据(即矢量数据)。矢量转换处理单元502可以使用用于将图像数据转换为矢量数据的传统技术。

图像切割处理单元503可以将图像数据(例如对应于添加了图片属性的区域的部分的图像)切割为图像部分图形数据(例如JEPG数据)。电子文档描述处理单元504可以生成按照预定格式描述的电子文档，电子文档包括由矢量转换处理单元502和图像切割处理单元503生成的图形数据以及由字符识别单元303和元数据处理单元304获得的含义描述(例如字符信息和元数据)。

格式转换控制单元505可以基于存储在图2所示的存储单元211中的区域信息(例如位置、大小和属性)511、区域字符信息512和元数据513将图像数据300的各个区域分配到处理单元501至503中的适当的一个。格式转换控制单元505可以对格式转换单元305进行整体控制，使得电子文档描述处理单元504可以适当地集成从各处理单元输出的数据。

图像过滤处理单元501是可以对图像进行图像过滤处理(例如平坦化、平滑化、边缘加强、颜色量化和二值化)的处理单元。当矢量转换处理单元502和图像切割处理单元503进行上述处理时，图像过滤处理单元501根据需要进行图像处理。尽管没有详细描述，图像过滤处理单元501可以进行适合要进行的矢量转换处理的图像处理，并且可以进行适合要进行的图像切割处理的图像处理。

矢量转换处理单元502使用矢量路径描述数据，将构成图像区域(线图、表格规定线等)的目标像素的集合转换为使用矢量路径描绘函数的图形描绘表达，更具体来说，转换为矢量路径描述数据。

下面描述矢量转换处理的示例。首先，将转换目标图像转换为二值图像数据。例如，在转换目标图像是灰度级图像(gray scale image)的情况下，进行使用图像过滤处理单元501将各个像素的亮度与预定阈值比较以获得二值数据的处理。如果转换目标图像包括多个颜色，则可以将各颜色分量分离，并生成各个颜色的二值数据。

接下来，对二值数据中相互连接的黑色像素的集合进行轮廓跟踪处理，以获取各个集合的轮廓坐标点组。随后，将轮廓坐标点组适当地分割为多个区间，并且用线性函数或曲线函数来近似各个区间。曲线函数例如是样条(spline)曲线或贝济埃(Bezier)曲线。最后，将数据转换为定义起点、直线和曲线以及终点的矢量路径描述。

获得矢量的方法不限于上述方法。可以使用任何其它适当的方法。例如，代替使用上述近似轮廓的函数，可以使用通过对线图的核心线施加函数近似来获得矢量的方法。

图像切割处理单元503仅基于输入图像的目标区域的像素数据来生成该区域的各图像部分数据。在执行上述处理时，可以考虑各个区域的特征来适当地改变像素数据类型和压缩方法。

例如，如果目标区域是伴随有“线图”或“字符”属性的区域，则图像过滤处理单元501针对各个颜色将图像数据转换为一个或多个二值图像。然后，使用MMR或其它传统上已知的二值压缩方法处理转换后的数据，以生成添加了对应于各个二值图像的颜色信息的数据。另一方面，如果目标区域是伴随有“图片”属性的区域，则对图像数据进行适合自然图像的JPEG或JPEG 2000压缩。

可以考虑各个区域的属性，任意地省略由矢量转换处理单元502进行的矢量转换和由图像切割处理单元503进行的图像压缩中的一个。作为选择，期望使矢量转换处理单元502进行矢量转换处理并使图像切割处理单元503进行图像压缩处理。此外，在字符识别结果中字符区域(例如正文、标题或注释)具有较高相似性的情况下，可以通过描述字符识别结果中包括的字符代码、字符大小信息和字符位置信息来再现字符区域部分的图形。

电子文档描述处理单元504生成按照预定格式描述的电子文档，电子文档包括由矢量转换处理单元502和图像切割处理单元503生成的图形数据以及由字符识别单元303和元数据处理单元304获得的含义描述(例如字符信息和元数据)。

图11示出了生成的电子文档数据310的示例。图11所示的示例是基于图7所示的通过处理图6所示的图像数据300获得的并存储在存储单元211中的数据，按照可缩放矢量图形(SVG，Scalable Vector Graphics)格式描述的数据。

图11所示的详细描述1101至1105是分别对应于图6所示的区域601至605的图形描述。图形描述1101、1104和1105是基于字符代码的字符描绘描述的示例。图形描述1102是进行矢量转换后的矢量路径描述的示例。图形描述1103是用于粘贴切割处理后的图片图像的描述的示例。

具有值“1”的注释标识符1107(即caption id)被添加到伴随有注释的图片对象1103。在图11所示的示例中，坐标值X1和Y1代表实际描述的数值。

图11示出了元数据描述1106的示例。元数据描述1106包括基于注释604的字符串和正文的字符串而提取的作为字符串1109的描述“AAA”。字符串“AAA”与类似于注释标识符1107的标识符1108相关联。

根据图11所示的示例，从包括字“图1”的正文部分，也就是从语句“…图1是AAA。…”中提取字符串“AAA”，并且将所提取的字“AAA”描述为元数据1109。然而，元数据不限于字。可以添加任意语句(例如包括字符串“图1”的语句)作为元数据。此外，图11所示的元数据包括从正文中提取的字符串。另外，可以添加从注释的字符串中提取的字作为元数据。

尽管基于符合SVG格式的数据描述了本实施例，但是输出格式不限于SVG。例如，可以使用PDF、XPS、Office Open XML和其它PDL数据格式用于上述转换。

下面描述由格式转换控制单元505进行的转换处理控制的示例。由格式转换单元305对各个区域进行的转换处理方法依据各个区域的属性而变化。例如，格式转换控制单元505优选对作为由单色或少量颜色构成的图形图像的字符和线图施加矢量转换处理。另一方面，格式转换控制单元505不优选对图片或其它渐变(gradational)的图像区域施加矢量转换处理。以这种方式，为了使得格式转换控制单元505能够根据各个区域的属性适当地进行转换处理，希望预先设置多个对应关系表，如图8A至图8D所示。

例如，根据图8A所示的设置，格式转换控制单元505对具有“字符”、“线图”和“表格”属性的各区域进行矢量转换处理。此外，格式转换控制单元505对附有“图片”属性的区域进行图像切割处理。

此外，图8A至图8D所示的对应关系表包括从图像数据300中删除区域的像素信息的处理的执行。例如，在根据图8A所示的设置将附有“字符”属性的区域转换为矢量路径描述数据的情况下，格式转换控制单元505根据删除处理指令，进行利用周边颜色标出图像数据300的对应于由转换后的矢量路径覆盖的部分的像素的处理。

类似地，在将附有“图片”属性的区域切割为矩形图像部分的情况下，格式转换控制单元505进行利用周边颜色标出图像数据300的对应于各个切割的区域的像素的处理。进行上述删除处理的目的是在对各个区域的处理完成后(即标出处理完成后)使用图像数据300作为“背景”的图像部分数据。

背景的图像数据(即背景图像)包括通过区域分割处理提取的区域以外的剩余部分(例如图像数据300的对应于背景的像素)。因此，在电子文档数据的描述中，格式转换控制单元505可以通过在背景图像部分数据(即背景图像)上叠加由矢量转换处理单元502和图像切割处理单元503获得的图形数据并显示获得的合成图像，来构成不丢失背景像素(背景颜色)的任何信息的无冗余图形数据。

图8B示出了对应关系表的另一示例。根据图8B所示的设置，格式转换控制单元505对附有“字符”属性的区域进行二值图像切割处理，还对图像数据300进行像素删除处理。另一方面，格式转换控制单元505不对附有其余属性的区域进行矢量化处理和图像切割处理。更具体来说，处理目标中不包括的像素(例如伴随有“图片”、“线图”和“表格”属性的区域的像素信息)保留在背景图像部分数据中。因此，格式转换控制单元505在背景图像上叠加“字符”图像部分。

格式转换控制单元505可以基于在图8C和图8D所示的另一对应关系表中定义的设置进行类似的处理，下面详细说明。

此外，格式转换控制单元505可以根据要输出的电子文档数据的用途(即使用目的)或者根据各个文档的内容，选择如图8A至图8D所示的预先准备的多个对应关系表中最佳的一个。例如，从图8A所示的对应关系表定义的设置得到的输出图像数据包括其大部分被转换为矢量路径描述的对象。因此，输出图像可以在放大/缩小处理中保持良好的图像质量，并且可以优选地为图形编辑器再利用。

此外，图8B所示的对应关系表中定义的设置的用处在于通过针对字符图像的各个字符颜色生成各二值图像并且对各个二值图像进行无损压缩，可作为高质量图像来再现各个字符图像部分，并且通过对作为背景图像的其余部分进行JPEG压缩，数据大小压缩率可以保持在较高的水平。因此，图8B所示的对应关系表中定义的设置可以优选用于生成包括即使压缩率很高时也容易读取的字符的图像的输出图像。

接下来，参照图4所示的流程图描述根据本实施例的图像处理系统执行的整个处理的示例。图2所示的数据处理单元218(即图3所示的各个处理单元)可以执行图4所示的流程图的处理。

在本实施例中，CPU 205从存储单元211(即计算机可读存储介质)中读取计算机程序，并执行读取的程序，以实现数据处理单元218(即图3所示的各个处理单元)的功能。然而，本发明不限于上述配置。例如，可以由电子电路或其它相当的硬件配置来实现数据处理单元218(即图3所示的各个处理单元)。

图4是示出由根据本发明的图像处理系统执行的用于将图1所示的MFP 100输入的包括多个页面的图像数据转换为包括多个页面的电子文档数据的处理的示例过程的流程图。例如，可以输入图9所示的页面图像901至904作为包括多个页面的图像数据。图9示出了包括4页的文档图像的示例。图像901至904分别对应于第一至第四页。下面详细描述图4所示的流程图的各个处理。

在步骤S401，区域分割单元301从一页的输入图像数据中提取切割的区域。例如，区域分割单元301从图9所示的图像数据901(即第一页)中提取两个区域905和906。

在步骤S402，属性信息添加单元302向在步骤S401中切割的各个区域添加属性。根据图9所示的第一页的示例，属性信息添加单元302向区域905添加属性“图片”，还向区域906添加属性“注释”。在这种情况下，添加到注释906的信息包括表示“区域”905伴随有区域906的信息。

在步骤S403，字符识别单元303对在步骤S402中添加了字符属性(例如正文、注释、标题或副标题)的区域执行字符识别处理。字符识别单元303作为字符信息与目标区域相关联地存储各个处理结果。根据图9所示的第一页的示例，字符识别单元303对添加了字符属性“注释”的区域906执行字符识别处理，并将获得的字符信息“图1”与区域906相关联。

在步骤S404，数据处理单元218判断是否对所有页面完成了步骤S401至S403中的信息提取处理。如果判断为对所有页面完成了步骤S401至S403中的信息提取处理(步骤S404中的“是”)，则处理前进到步骤S405。如果判断为没有对所有页面完成步骤S401至S403中的信息提取处理(步骤S404中的“否”)，则图像处理系统重复上述步骤S401至S403中的处理。

图10示出了作为对图9所示的图像901至904进行的步骤S401至S404的处理结果而获得的提取的区域位置/大小信息、页信息、区域属性和区域字符信息的示例。在图10中，区域907至909是从第二页至第四页中提取的“正文”属性区域。将提取的信息存储在存储单元211中。

在步骤S405，元数据处理单元304进行元数据提取处理和元数据添加处理。下面参照图12所示的流程图详细描述步骤S405中由元数据处理单元304执行的处理。

在图12的步骤S1201，元数据处理单元304从存储在存储单元211中的区域信息中选择还没有经过元数据处理的添加了“注释”属性的区域中的一个。更具体来说，如果判断为存在未处理的注释区域(步骤S1201中的“是”)，则元数据处理单元304选择未处理的注释区域作为处理目标。然后，处理前进到步骤S1202。如果判断为不存在任何注释区域，或者判断为已经完成了对所有区域的处理(步骤S1201中的“否”)，则元数据处理单元304终止该处理。在输入图9所示的图像901至904的情况下，元数据处理单元304选择注释区域906。

在步骤S1202，元数据处理单元304向伴随有处理目标注释的对象添加注释标识符。元数据处理单元304还在存储单元211中确保元数据存储区域，作为添加的注释标识符专用的存储区域。在本实施例中，元数据处理单元304将注释标识符#1分配给伴随有注释906的图片对象905，并在存储单元211中确保注释标识符#1专用的元数据存储区域。

在步骤S1203，元数据处理单元304从代表注释区域中的字符识别结果的字符信息中提取锚定字符串和元数据字符串。锚定字符串是标识原始文档中伴随有注释的对象的字符信息。元数据字符串是解释对象的字符信息。

图15示出了作为注释区域中的锚定字符串和元数据字符串的示例的锚定字符串1501和1502以及元数据字符串1503和1504。如从图15了解到的，对象伴随有锚定字符串和元数据字符串中的一个或者二者。

在许多情况下，锚定字符串的表达是特定字符串(例如“图”)和数字(或符号)的组合。因此，希望预先准备登记了多个特定字符串的锚定字符串词典。在这种情况下，可以基于注释字符串和词典之间的比较来指定锚定部分(即锚定字符串+数字(或符号))。此外，可以将注释区域中锚定部分以外的字符串标识为元数据字符串。

在步骤S1204，元数据处理单元304判断是否存在在步骤S1203的处理中从注释区域中提取的任何元数据字符串。如果判断为提取了元数据字符串(步骤S1204中的“是”)，则处理前进到步骤S1205。如果判断为没有提取元数据字符串(步骤S1204中的“否”)，则处理前进到步骤S1206。

在步骤S1205，元数据处理单元304将从注释区域中提取的元数据字符串存储到在步骤S1202中添加的注释标识符存储区域中。然后，处理前进到步骤S1206。更具体来说，元数据处理单元304将从注释区域中提取的元数据字符串与注释标识符相关联。

在步骤S1206，元数据处理单元304判断是否存在在步骤S1203的处理中从注释区域中提取的任何锚定字符串。如果判断为提取了锚定字符串(步骤S1206中的“是”)，则处理前进到步骤S1207。另一方面，如果判断为没有提取锚定字符串(步骤S1206中的“否”)，则处理返回到步骤S1201。在步骤S1201，元数据处理单元304判断是否还有剩余的未处理的注释区域。

根据图9所示的输入图像数据，可以从注释906中提取“图1”作为锚定字符串。然而，无法提取元数据字符串。因此，处理从步骤S1204前进到步骤S1206和S1207。

在步骤S1207，元数据处理单元304从存储在存储单元211中的“正文”区域的字符信息中检测与提取的锚定字符串类似的字符串表达。如果判断为检测到类似的字符串表达(步骤S1207中的“是”)，则处理前进到步骤S1208。如果判断为没有任何类似的字符串表达(步骤S1207中的“否”)，则处理返回到步骤S1201，以判断是否存在剩余的未处理的注释区域。

在步骤S1208，元数据处理单元304在步骤S1207的处理中从正文检测到的锚定字符串的周围区域中提取与对象的元数据相对应的字符串。根据图9所示的输入图像数据，可以从正文区域909中检测到字符串910作为类似于锚定字符串“图1”906的字符串。因此，如果对相邻的字符串“图1是AAA。…”进行词素(morpheme)分析，则可以提取字“AAA”作为元数据字符串。

为了识别元数据字符串，可以在自然语言处理的词素分析中使用字切割功能。在本实施例中，提取单个字作为元数据字符串。然而，元数据字符串的提取不限于上述示例。例如，可以使用包括锚定字符串的整个语句作为元数据字符串。

在步骤S1209中，元数据处理单元304将在步骤S1208中提取的元数据字符串添加(存储)到注释标识符存储区域。然后，处理返回到S1207。元数据处理单元304在正文的另一部分中重复上述检测锚定字符串的描述的处理，如果检测到锚定字符串，则继续存储检测到的各个字符串。因此，可以将两个或更多个元数据与一个注释标识符相关联。

回到图4，在步骤S406，格式转换单元305基于图像数据300和存储在存储单元211中的图10的信息进行从图像数据到电子文档数据310的转换。

如图5中所描述的，格式转换单元305在格式转换控制单元505的控制下，根据描述要对各个区域施加的转换处理方法的对应关系表，对图5所示的图像数据300中的区域执行转换处理。在本实施例中，下面参照图13所示的流程图描述使用图8C所示的对应关系表控制转换的处理的示例。

在步骤S1301，格式转换控制单元505将处理页数计数器“n”初始化为1。在步骤S1302，格式转换控制单元505从图5所示的区域信息511中的第n页的数据中选择未处理的区域，作为处理目标区域。

在步骤S1303，格式转换控制单元505根据处理目标区域的属性和对应关系表对该处理进行分支。在本实施例中，格式转换控制单元505参照图8C所示的对应关系表判断所选择的处理目标区域的属性是否是“字符”。更具体来说，如果判断为所选择的处理目标区域的属性是“字符”(例如“正文”、“注释”、“页面”或“标题”)(步骤S1303中的“是”)，则处理前进到步骤S1304。如果判断为所选择的处理目标区域的属性是“图片”、“线图”或“表格”(步骤S1303中的“否”)，则处理前进到步骤S1306。

在步骤S1304，图像切割处理单元503根据在图8C所示的对应关系表中定义的设置，生成与图像数据300中的附有字符属性的区域(即处理目标)相对应的部分的二值图像(即二值图像部分)。可以例如根据PNG格式压缩生成的二值图像部分，并且可以将其存储在图2所示的存储单元211中。

在本实施例中，字符颜色信息被添加到二值图像部分中对应于字符线的像素。可以根据图像数据300中的字符像素的颜色来获取字符颜色信息。同时，分配给其它像素的颜色信息是透明颜色。

在步骤S1305，因为图8C所示的对应关系表中对字符区域设置了删除处理指令，所以格式转换控制单元505利用周边像素的颜色进行标出图5所示的图像数据300中对应于字符部分的像素的删除处理。

在步骤S1306，格式转换控制单元505判断是否存在附加到处理目标区域的注释标识符。如果判断为存在附加到处理目标区域的注释标识符(步骤S1306中的“是”)，则处理前进到步骤S1307。如果判断为没有注释标识符附加到处理目标区域(步骤S1306中的“否”)，则处理前进到步骤S1308。

在步骤S1307，格式转换控制单元505根据在图8C所示的对应关系表中定义的设置，使矢量转换处理单元502生成围绕处理目标区域的框的矢量路径描述数据。可以例如基于在图5所示的区域信息511中登记的代表左上角的坐标值和大小(宽度和高度)，利用定义处理目标区域的四条线，来描述围绕处理目标区域的框的矢量路径描述数据。

在本实施例中，格式转换控制单元505描述比处理目标区域的外接矩形稍大的矩形框。围绕处理目标区域的框不限于矩形框。可以用具有圆角的框代替该框。框线可以加粗。可以任意修改框的形状。

描述框形状的另一方法包括：从图像数据300中的区域图像中提取边缘信息的轮廓(例如对象图像的轮廓)，并且使用矢量转换处理单元502将提取的轮廓信息转换为框的矢量路径信息。

此外，在步骤S1307，格式转换控制单元505向生成的框的矢量路径描述数据添加处理目标区域的注释标识符。此外，格式转换控制单元505分配透明颜色，作为用于框的矢量路径描述数据的描绘颜色。可以将以这种方式生成的矢量路径描述数据存储在图2所示的存储单元211中。

在步骤S1308，格式转换单元305判断第n页中是否存在未处理的区域。如果判断为第n页中存在未处理的区域(步骤S1308中的“是”)，则处理返回到步骤S1302，重复上述步骤S1302至S1308的处理。如果判断为完成了对第n页中所有区域的处理(步骤S1308中的“否”)，则处理前进到步骤S1309。

在步骤S1309，格式转换控制单元505通过利用周边颜色标出图5所示的图像数据300中对应于由图像切割处理单元503切割出的区域的部分，来生成背景图像部分。因为通过利用周边颜色标出字符像素的处理删除了构成字符部分的像素，所以背景图像部分不包括构成在步骤S1305中从图像数据300作为图像部分切割出的字符部分的任何像素(例如对应于字符线的像素)。

另一方面，不伴随字符属性的区域仍未处理。在本实施例中，格式转换控制单元505将背景图像部分的分辨率减小到一半的水平，并根据JPEG压缩方法将背景图像部分压缩成图像数据。可以将压缩图像数据存储在图2所示的存储单元211中。然而，格式转换控制单元505可以进行其它图像处理(例如平滑处理)，并根据另一格式压缩处理后的数据。

图16示出了在对图9所示的第一页的图像901进行上述步骤S1302至S1309的处理时可以生成的图像部分和矢量路径描述数据的示例。

图16所示的示例图像1601包括在步骤S1309中生成的背景图像部分。因为通过标出处理利用周边颜色删除了字符图像部分，所以背景图像部分图像1601不包括任何字符图像部分。在这方面，背景图像部分图像1601是包括作为该页中的字符而提取的部分以外的所有部分的一个图像。

图16所示的示例图像1602包括在步骤S1304中生成的字符部分的二值图像部分。在再现字符部分的二值图像部分时，可以根据分开存储的字符颜色信息，由字符颜色的像素构成字符线部分，并且可以由透明颜色的像素构成其余白色部分。尽管可以在围绕字符部分的最小化的矩形区中定义实际图像部分，但是表示图像1602的外框的实线是为了方便。

图16所示的示例图像1603包括在步骤S1307中生成的框的矢量路径描述数据。尽管使用虚线来表示框的矢量路径描述，但是因为矢量路径描述使用透明颜色，所以实际的矢量路径描述是不可见的。此外，表示图像1603的外框的实线是为了方便，其不作为数据而存在。

在步骤S1310，格式转换控制单元505使电子文档描述处理单元504根据要输出的电子文档数据的格式进行描述当前处理的页来作为电子文档页的处理。

图17示出了根据本实施例的基于图9所示的第一页的图像901可描述的电子文档页的示例。图17所示的电子文档页1700是根据可缩放矢量图形(SVG)格式描述的示例。

电子文档页1700包括在步骤S1309中生成的背景图像数据的描述1701、在步骤S1304中生成的字符部分的二值图像部分描述1702和在步骤S1307中生成的框的矢量路径描述1703(尽管框是用透明颜色描绘的)。

在矢量路径描述1703中，描述stroke＝“transparent”表示框是用透明颜色描绘的线。更具体来说，描述d＝“M440，608 L2040，608 L2040，1880L440，1880 L440，608s”表示具有矢量路径描述形状的图形是用透明颜色描绘的。

如上所述，矢量路径描述不限于矩形框的形状。可以使用任意形状用于矢量路径描述，而不依赖于目标对象的原始形状或者图形描述中的配置。

图形描绘描述1701至1703分别对应于图16所示的图像1601至1603。描述1701至1703定义了叠加的图形数据的顺序。更具体来说，作为最下层来描绘背景图像。作为叠加在背景图像上的中间层来描绘字符图像。作为叠加在字符图像上的上层来描绘透明框。透明矢量路径描述(即图形描述)1703包括注释标识符1704。

在步骤S1311，格式转换控制单元505判断当前处理的页的页号“n”是否是最后的页号(即所有页的总数)。如果判断为当前处理的页的页号“n”等于最后的页号(步骤S1311中的“是”)，则格式转换控制单元505确定完成了对所有页的转换处理。处理前进到步骤S1313。如果判断为当前处理的页的页号“n”小于所有页的总数(步骤S1311中的“否”)，则处理前进到步骤S1312。在步骤S1312，格式转换控制单元505将页号“n”加1(即n＝n+1)。然后，处理返回到步骤S1302，针对下一页重复上述处理。

在步骤S1313，电子文档描述处理单元504集合在步骤S1310中描述的所有电子文档页并添加元数据描述，以生成要输出的电子文档数据。

图18示出了要输出的电子文档的示例描述。电子文档数据1800包括分别对应于第一至第四页的电子文档页面描述1801、1802、1803和1804。电子文档数据1800还包括元数据描述1805。元数据描述1805包括与注释标识符1807相关联地描述的元数据字符串1806。注释标识符1807与添加到第一页的矢量路径描述1809的注释标识符1808相同。

如上所述，元数据1806和透明框矢量路径描述1809与注释标识符1807彼此关联(链接)。因此，如果通过输入关键词“AAA.”进行搜索处理，则可以找到透明框矢量路径描述1809。

上述实施例涉及根据本发明第一实施例的电子文档数据生成处理。

接下来，参照图14描述在将上述元数据指定为进行搜索的关键词时，从在上述第一实施例中生成的电子文档数据中搜索对象的示例操作。

图14A至图14D示出了由图1所示的客户PC 101或其它客户PC执行的可用于搜索对象的应用软件提供的显示画面(GUI)的示例。例如，Adobe Reader

是要生成的文档的格式是PDF时可使用的应用软件。

图14A是应用程序基于图11所示的文档显示的示例画面。输入窗口1401使得用户能够输入(指定)要搜索的字或短语。搜索执行按钮1402使得用户能够在输入要搜索的字(或短语)之后指示执行搜索。显示图像1403是根据图11所示的电子文档数据1100得到的示例。显示内容基于图形描述1101至1105。

图14所示的应用程序具有强调显示功能，该功能用于在输入窗口1401中作为要搜索的字(或短语)输入的字符串与添加到当前显示的电子文档数据的元数据一致的情况下，强调包括与该元数据相关联的注释标识符的图形描述。

图14B示出了基于指定为要搜索的字的“AAA”1404执行的搜索的结果。在电子文档数据1100中，元数据描述1106中的字符串1109和字符描绘描述1105中的字符串“AAA”与要搜索的字一致。因此，应用程序进行在命中搜索的字时要进行的操作。可以根据来自用户的指令依次显示搜索结果。当命中元数据描述1106中的字符串1109时，进行根据本实施例的示例操作。

图14所示的应用程序从电子文档1100中检测到与要搜索的字(或短语)一致的元数据的注释标识符1108。图14所示的应用程序进一步检测到附加了相同的标识符1107的图形描述1103。然后，图14所示的应用程序描绘目标图形描述，使得可以在页面显示中强调对应的部分。在本实施例中，图形描述是图像的粘贴。因此，图14所示的应用程序进行的显示包括添加围绕图像对象的强调颜色(例如红色)的框。

图14B所示的红色框1405是表示作为执行的搜索的结果而命中的对象的强调部分。强调显示方法不限于上述示例。还可以使用其它框颜色。可以对整个区域加色。可以修改颜色。可以将颜色反转。此外，在命中的对象的描述不限于图像的粘贴，而是还包括矢量路径的情况下，可以使用不同于普通颜色的颜色或粗线来描绘矢量路径。

图14C示出了通过基于图8C所示的对应关系表来进行图13所示的流程图的处理，而可以从图9所示的四页图像转换的图18所示的电子文档数据1800的第一页。

显示内容是第一页的图形描述1801的描绘结果，其相当于通过在图16所示的背景部分图像1601上叠加字符图像1602可获得的合成图像。框图像1603的矢量路径描述包括透明颜色的指定。因此，框在普通状态下是不可见的。

图14D示出了对图14C所示的电子文档数据1800执行的搜索的结果。在输入窗口1414中输入要搜索的字“AAA”。在电子文档数据1800中，元数据描述1805中的字符串“AAA”与要搜索的字一致。因此，应用程序进行在命中搜索的字时进行的操作。

更具体来说，与上述描述类似，应用程序检测到具有与元数据的注释标识符1807相同的附加值的图形描述。然后，应用程序在页面显示中对命中部分进行强调显示。在这种情况下，强调的目标是添加了注释标识符1808的透明框矢量路径描述1809。代替使用预先指定的透明颜色，应用程序利用强调颜色(例如红色)描绘对应于矢量路径描述1809的框。

因此，作为叠加在背景图像上的可视状态的强调框，来显示与通过搜索而命中的元数据对应的变为红色的图形描述1415。因此，用户可以识别背景图像中对应于搜索命中部分的图片部分。

如上所述，当基于在图8C所示的对应关系表中定义的设置，将文档图像转换为电子文档数据时，通过步骤S401至S405的处理，可以从提取自文档图像的区域对象中彼此相关联地提取附有注释的对象和搜索使用的元数据。

此外，关于字符以外的对象，根据在图8C所示的对应关系表中定义的设置，这些对象包括在背景图像中。因此，通过步骤S406的处理(见图13)，代替要搜索的对象，通过基于透明颜色的矢量路径描绘描述来添加在搜索中要强调的形状。当用户通过应用程序浏览并搜索电子文档数据时，基于透明颜色的矢量路径描述是不可见的，因此直接显示该页的背景图像。

另一方面，如果在搜索中命中元数据，则应用程序利用强调颜色显示透明颜色矢量路径描述。在矢量路径描述中可以指定任意的形状，而不依赖于目标对象的原始形状或图形描述中的配置。因此，可以使用反映用户在电子文档数据的生成中的意图的任意形状进行强调显示。

例如，通过描述稍大于目标对象的外接矩形的矩形框，可以在搜索中用框包围对应于目标对象的部分。因此，用户可以容易地识别目标对象。例如，如果在矢量路径描述中指定具有圆角的框，则在搜索的显示中可以用圆框来强调对应于目标对象的部分。

更具体来说，在生成使得用户能够指定字符以外的对象以进行关键词搜索的电子文档数据的处理中，本实施例可以生成用户容易在搜索中识别的、而不依赖于搜索目标对象的形状或数据状态的适合强调表示的电子文档数据。

此外，即使在背景图像中包括字符以外的对象的状态下，根据上述实施例而实现的显示可以带来使用户感觉好像在搜索中已经命中目标对象的效果。在这种情况下，不必压缩字符以外的各对象。可以减小数据量。

在上述第一实施例中，根据图8C所示的对应关系表，在背景图像中包括字符以外的所有对象(例如图片、线图和表格)。针对添加了注释标识符的对应对象生成透明矢量路径描述。第二实施例与上述第一实施例的不同之处在于，在背景图像中不包括伴随有特定属性的对象，并且作为部分来描述伴随有特定属性的对象。也就是说，第二实施例不将字符以外的所有对象合并到背景图像中。此外，在第二实施例中，单独生成用于强调显示的透明矢量路径描述。

在第二实施例中，图3所示的格式转换单元305基于图8D所示的对应关系表进行如下控制处理。根据在图8D所示的对应关系表中定义的设置，格式转换单元305进行图像切割处理，以生成“图片”对象的图像部分描述。格式转换单元305通过执行矢量转换，进一步生成“线图”和“表格”对象的矢量路径描述。另外，如果向对象添加了注释标识符，则格式转换单元305单独添加透明框矢量路径描述。

因此，根据在图8C所示的对应关系表中定义的设置，格式转换单元305向各“图片”对象的图形描述添加注释标识符，并向各“线图”和“表格”对象的透明框描述添加注释标识符。

如果对经过上述转换的电子文档数据进行搜索，则在各个矩形“图片”区域中强调代表图形描述本身的切割区的矩形区域，并且针对“线图”和“表格”对象强调被描述为透明框的形状。

因此，可以使用由添加的透明矢量路径描述定义的预定形状来实现强调显示，而不依赖于“线图”或“表格”的形状。这带来了实现使得用户能够容易地识别在搜索中命中的部分的显示的效果。此外，可以根据属性来设置使用透明矢量路径描述的对象的类型。

此外，使得用户能够适当地选择针对基于从电子文档数据切割搜索目标(“图片”、“线图”、“表格”等)的图像部分描述以及向描述添加注释标识符的最佳方法是有用的。

例如，在要生成的电子文档数据的数据大小优先，并请求实现对象搜索的情况下，希望将“图片”对象合并到“背景”中，并进行透明框描述以添加注释标识符，如图8C所示。这带来了使用户感到好像搜索到了图像中的对象的效果。可以提高图像数据的压缩率。可以减小数据大小。

此外，在另一文档中再利用“图片”和“线图”对象的情况下，格式转换单元305切割“图片”图像部分并增加图像分辨率，如图8A所示。格式转换单元305还基于对“线图”的矢量转换进行矢量路径描述，并向各个对象直接添加注释标识符。

此外，格式转换单元305可以根据各个“图片”对象的类型，进行更精确的转换处理，如图8D所示。在这种情况下，格式转换单元305可以将搜索到的部分的信息复制到其它文档，以再利用获取的图像信息，而不是无用地丢弃它。

如上所述，格式转换单元305适当地选择基于图像切割的图像部分描述方法，并适当地选择注释标识符添加方法。因此，格式转换单元305可以根据使用目的来生成电子文档数据。因此，本实施例可以带来提供用户可容易地处理的电子文档数据的效果。

在本实施例中，代替允许用户选择喜好的方法，可以根据文档中或者页面中的“图片”对象的数量，或者根据各个对象的大小或特征，自动选择基于图像切割的图像部分描述方法和注释标识符添加方法。此外，在这种情况下，可以针对各个文档或各个页面，自动选择基于图像切割的图像部分描述方法和注释标识符添加方法。

下面，参照图19所示的流程图描述在处理电子文档数据的“文档大小优先”模式和“可再利用性优先”模式之间进行切换的示例方法，可以由数据处理单元218根据在图8D所示的对应关系表中定义的设置执行该方法。在本实施例中，用相同的步骤编号表示与第一实施例中描述的步骤(见图13)类似的步骤，并且不再重复这些步骤的详细描述。

在步骤S1901，数据处理单元218判断是否选择了“文件大小优先”模式。

图20示出了使得用户能够输入用于生成设置在图1所示的MFP 100中的图2所示的操作单元203上显示的电子文档数据的意图的用户接口(UI)画面的示例。图20所示的UI画面2001包括可被按下以减小电子文档数据的文件大小的文件大小优先按钮2002和可被按下以使其它文档再利用“图片”和“线图”对象的可再利用性优先按钮2003。UI画面2001还包括可被按下以取消所选内容的取消按钮2004和可被按下以确定所选内容的确定按钮2005。

在本实施例中，可以根据用户在UI画面2001上的操作来切换使用电子文档数据的目的。然而，该系统可被配置成根据文档中或页面中的“图片”对象或“线图”对象的数量，或者根据页面大小或数量，自动切换模式。

如果判断为所选模式是“文件大小优先”模式(步骤S1901中的“是”)，则处理前进到步骤S1902。在步骤S1902，数据处理单元218进行与图13所示的流程图中描述的处理类似的处理，以生成电子文档数据。

另一方面，如果判断为所选模式是“可再利用性优先”模式(步骤S1901中的“否”)，则处理前进到图19所示的步骤S1301，数据处理单元218根据在图8D所示的对应关系表中定义的设置进行处理。在图19的步骤S1301至S1305中进行的处理与参照图13所示的流程图描述的处理类似。因此，不再重复这些步骤的详细描述。

如果判断为所选的处理目标区域的属性是“图片”、“线图”或“表格”(图19中步骤S1303中的“否”)，则在步骤S1903中，图5所示的图像切割处理单元503和矢量转换处理单元502根据在图8D所示的对应关系表中定义的设置进行图形描述。更具体来说，图像切割处理单元503和矢量转换处理单元502合作生成“图片”对象的基于图像切割的图像部分描述，并生成“线图”和“表格”对象的基于矢量转换的矢量路径描述。

随后，在步骤S1904中，图5所示的格式转换控制单元505根据图8D所示的删除处理指令，进行利用周边像素的颜色标出对应于图像数据300上的“图片”、“线图”和“表格”对象的像素信息的删除处理。

在步骤S1306中，格式转换控制单元505判断是否存在附加到处理目标区域的注释标识符。如果判断为存在附加到处理目标区域的注释标识符(步骤S1306中的“是”)，则处理前进到步骤S1905。如果判断为没有注释标识符附加到处理目标区域(步骤S1306中的“否”)，则处理前进到步骤S1308。

在步骤S1905，格式转换控制单元505判断所选的处理目标区域的属性是否是“图片”。如果判断为所选的处理目标区域的属性是“图片”(步骤S1905中的“是”)，则处理前进到步骤S1308，进行向区域对象本身添加注释标识符的处理。另一方面，如果判断为所选的处理对象区域的属性是“线图”或“表格”(步骤S1905中的“否”)，则处理前进到步骤S1307，进行生成对应于目标对象的透明矢量路径描述的处理。在图19的步骤S1307至S1313中进行的处理类似于参照图13所示的流程图描述的处理。因此，不再重复这些步骤的详细描述。

如上所述，第二实施例可以根据使用目的生成适当描述的电子文档。此外，第二实施例使用透明矢量路径描述来生成用户在搜索中容易识别，而不依赖于搜索目标对象的形状或数据状态的适合强调表示的电子文档数据。

上述第一实施例描述了基于对象区域的位置/大小或者通过对对象施加的图像处理可获得的信息(例如边缘信息)在对象区域中描绘的透明框。本发明的第三实施例提供一种使得用户能够自由设置要描绘的透明框的形状和线宽度的系统。

图21示出了可以在设置在MFP 100中的操作单元203上显示的用户接口(UI)画面的示例。UI画面2101包括可被操作以选择透明框的基本形状的按钮2102、可被操作以选择线宽度的按钮2103以及可被操作以选择强调颜色的按钮2104。

如果用户通过操作UI画面2101的选择按钮2102至2104选择了透明框的描述方法，然后按下确定按钮2106，则设置在数据处理单元218中的控制单元(未示出)将与用户经由UI画面2101指定的透明框描述有关的信息发送到格式转换单元305。

如果按下了取消按钮2105以取消用户设置，则控制单元将默认设置信息发送到格式转换单元305。在步骤S1307中，格式转换单元305基于接收到的信息进行透明框的矢量描述。在这种情况下，为了确保识别对象，希望根据对象的大小来改变所选的基本形状的大小。

对透明框描述的设置不限于上述设置。例如，设置可以定义大小和线型(例如实线、虚线和双线)。此外，如果显示单元116是触摸面板类型的，则可以将用户在显示单元116上描绘的形状转换为矢量路径描述数据，从而可以描述具有任意形状的透明框。

在上述第一实施例中，元数据处理单元304从字符识别单元303输出的注释和正文的字符信息中提取对应于对象指南或关键词的元数据字符串作为与对象区域相关的元数据的示例，。

然而，元数据提取方法不限于上述方法。例如，元数据处理单元304可以提取根据对象区域的图像识别结果获得的与对象区域相关的元数据。在本公开的背景下，“图像识别”是指图像识别技术，例如传统上已知的“面部识别”和“人名识别”。例如，在经过图像识别的对象区域是人的图片的情况下，元数据处理单元304可以提取人名作为与对象区域相关的元数据。

作为普通图像识别方法的示例，图22示出了用于识别上述图片中的人的面部识别方法的示例。在本实施例中，可以使用图22所示的配置，基于面部识别技术来提取人名作为元数据。以下处理是由CPU 205实现的计算处理。

在这种情况下，当如上面在第一实施例中所描述的，从图片图像中获得图像信息2201时，图像输入单元2202改变输入图像的大小和分辨率，使得面部识别引擎2203和人脸标识引擎2205可以处理输入图像。图像输入单元2202将处理后的图像发送到面部识别引擎2203。

面部识别引擎2203参照面部识别词典2204进行识别面部区域的处理。可以预先准备面部识别词典2204，并将其存储在图2所示的ROM 210或存储单元211中。此外，如果需要，可以将面部识别词典2204复制到RAM 206，使得CPU 205可以快速访问面部识别词典2204。

为了准备面部识别词典2204，希望收集包括人脸的多个图像，并且使学习机(例如支持矢量机(Support Vector Machine))例如根据反向传播方法(Back Propagation method)进行监督学习，以获得正确的面部区域确定信息作为监控信息。

如果图2所示的CPU 205判断为存在面部区域，则面部识别引擎2203生成代表图像中面部区域的左上点和右下点的坐标值作为面部区域信息。如果判断为存在多个面部区域，则面部识别引擎2203相应地生成多个面部区域信息。然后，面部识别引擎2203将面部区域信息与从图像输入单元2202接收到的输入图像一起发送到人脸标识引擎2205。

人脸标识引擎2205参照预先准备的人脸标识词典2206，进行识别人的机器学习处理。可以通过从要识别的面部的图像信息中提取面部特征量信息(例如相对于整个面部区域的眼睛和鼻子距离)，并将要识别的面部与人名相关联作为监控信息，来获得人脸标识词典2206。

人脸标识引擎2205使图2所示的CPU 205从图像输入单元2202生成的图像中剪切由面部识别引擎2203指示的面部区域。人脸标识引擎2205提取面部特征量作为面部图像。然后，如果人脸标识词典2206存储了拥有类似的面部特征量的候选对象，则人脸标识引擎2205输出拥有类似的面部特征量的面部的人名。

如果存在从面部识别引擎2203生成的多个面部区域，则人脸标识引擎2205对各个面部区域进行上述处理。面部识别引擎2203将面部的人名与面部区域信息相关联，并输出人名(即个人标识信息)2207。

可以预先准备人脸标识词典2206，并将其存储在图2所示的存储单元211中。此外，如果需要，可以将人脸标识词典2206复制到RAM 206，使得CPU 205可以快速地访问人脸标识词典2206。如上所述，可以使用面部识别技术来获得图片中的面部区域和面部的人名信息。

图23示出了根据本实施例的包括能够实现图22所示的面部识别的图像识别单元的示例配置。图23所示的框图与图3所示的框图类似。在图23中，用相同的附图标记表示与图3所示类似的功能单元，并且不再重复对它们的描述。

在图23中，图像识别单元2301可以实现图22所示的面部识别。因此，图像识别单元2301带来了使得该系统能够使用图片中的人的信息作为元数据的效果。

特别地，不仅可以将透明框应用于整个图像(例如图片)，还可以将其应用于图像中的人的部分。此外，可以描述具有适合面部轮廓的任意形状的透明框。因此，可以将元数据添加到图片中的有限区域，如面部区域。如上面在第一实施例中所描述的，在许多情况下，将图片部分作为一个图像来处理。因此，如果将透明框应用于图像中的人的面部部分，并且添加对应的人名作为元数据，则可以基于人名检测包括同一人的其它图片。并且，可以指示其它图片中的人的面部区域。

图24示出了通过执行上述搜索可获得的结果的示例。如图24所示，在与图14D所示的部分类似的输入部分1413中指定要搜索的字“BBB”。在这种情况下，如果将作为元数据的字符串“BBB”(更具体来说是在面部识别中获得的人名)添加到图片2401中的面部区域部分2402中，则以与参照图14D描述的方式相同的方式，要搜索的字与其一致。

因此，应用程序进行在命中搜索的词时进行的操作。更具体来说，与上述描述类似，应用程序检测到具有与一致的元数据的注释标识符相同的附加值的图形描述。然后，应用程序在页面显示中对命中部分进行强调显示。

在这种情况下，要强调的目标是添加了注释标识符1808的透明框矢量路径描述(即沿着面部区域2402的外围的描述)。代替使用预先指定的透明颜色，应用程序利用强调颜色(例如红色)来描绘该框。因此，应用程序可以实现包括围绕在搜索中命中的对象部分2402的强调的框的显示的有用页面显示。

如上所述，本实施例使得该系统能够搜索文档图像中的特定部分(例如包括在图片区域中的有限部分)。此外，即使在根据在图8C所示的对应关系表中定义的设置将图片区域合并到背景图像中的情况下，本实施例也可以对图片区域中的特定部分进行强调显示。

本发明的各方面还能够通过读出并执行记录在存储装置上的用于执行上述实施例的功能的程序的系统或设备的计算机(或诸如CPU或MPU的装置)、以及由系统或设备的计算机例如读出并执行记录在存储装置上的用于执行上述实施例的功能的程序来执行步骤的方法来实现。鉴于此，例如经由网络或者从用作存储装置的各种类型的记录介质(例如计算机可读介质)向计算机提供程序。在这种情况下，系统或设备以及存储该程序的记录介质包括在本发明的范围内。

虽然参照上述实施例对本发明进行了说明，但是应当理解，本发明不限于所公开的实施例。所附权利要求的范围符合最宽的解释，以使其涵盖所有变型、等同结构及功能。

Claims

1.一种图像处理设备，所述图像处理设备包括：

区域分割单元，其配置成从输入图像中提取对象区域；

确定单元，其配置成确定由所述区域分割单元提取的所述对象区域的各属性，所述对象区域包括具有预定属性的第一对象区域和具有注释属性的第二对象区域，其中，所述预定属性为表格属性、线图属性或图片属性；

元数据处理单元，其配置成基于从具有注释属性的所述第二对象区域获得的字符识别结果，获取要与伴随有所述第二对象区域的具有预定属性的所述第一对象区域相关联的元数据；

图形描述生成单元，其配置成生成围绕所述第一对象区域的透明图形描述；以及

电子文档生成单元，其配置成将所述透明图形描述与所述元数据相关联，并生成包括基于所述输入图像生成的图像数据和与所述元数据相关联的所述透明图形描述的电子文档，其中所生成的透明图形描述以叠加在所述图像数据上的方式被描绘。

2.根据权利要求1所述的图像处理设备，其中，所述元数据处理单元基于从具有所述注释属性的所述第二对象区域获得的所述字符识别结果和从具有正文属性的第三对象区域获得的字符识别结果，来获取与伴随有所述第二对象区域的具有预定属性的所述第一对象区域相关联的所述元数据。

3.根据权利要求1所述的图像处理设备，其中，所述电子文档生成单元使用能够将所述透明图形描述与所述元数据相关联的标识符。

4.根据权利要求1所述的图像处理设备，其中，基于所述输入图像生成的所述图像数据是包括所述第一对象区域的图像部分数据的背景图像。

5.根据权利要求1所述的图像处理设备，其中，基于所述输入图像生成的所述图像数据包括所述第一对象区域的图像部分数据或与所述第一对象区域的图像部分数据对应的经过矢量转换的数据。

6.根据权利要求1所述的图像处理设备，所述图像处理设备还包括：

设置单元，其配置成根据要生成的电子文档的使用目的，来设置生成所述透明图形描述的属性。

7.根据权利要求6所述的图像处理设备，所述图像处理设备还包括显示单元，该显示单元配置成显示使得用户能够选择要生成的电子文档的使用目的的用户界面。

8.根据权利要求1所述的图像处理设备，其中，用围绕所述第一对象区域的框来描述所述透明图形描述。

9.根据权利要求1所述的图像处理设备，其中，用预定的图形形状来描述所述透明图形描述。

10.根据权利要求1所述的图像处理设备，其中，用根据用户指示的图形形状来描述所述透明图形描述。

11.根据权利要求10所述的图像处理设备，所述图像处理设备还包括：

显示单元，其配置成显示使得用户能够选择所述透明图形描述的图形的形状、线宽度和强调颜色中的至少一个的用户界面。

12.根据权利要求1所述的图像处理设备，其中，所述元数据处理单元还基于对所述第一对象区域进行的图像识别处理来获取所述元数据。

13.一种图像处理方法，所述图像处理方法包括：

使用区域分割单元从输入图像中提取对象区域；

使用确定单元确定由所述区域分割单元提取的所述对象区域的各属性，所述对象区域包括具有预定属性的第一对象区域和具有注释属性的第二对象区域，其中，所述预定属性为表格属性、线图属性或图片属性；

使用元数据处理单元基于从具有注释属性的所述第二对象区域获得的字符识别结果，获取要与伴随有所述第二对象区域的具有预定属性的所述第一对象区域相关联的元数据；

使用图形描述生成单元，生成外接所述第一对象区域的透明图形描述；以及

使用电子文档生成单元，将所述透明图形描述与所述元数据相关联，并生成包括基于所述输入图像生成的图像数据和与所述元数据相关联的所述透明图形描述的电子文档，其中所生成的透明图形描述以叠加在所述图像数据上的方式被描绘。