CN102222079B

CN102222079B - 图像处理设备及图像处理方法

Info

Publication number: CN102222079B
Application number: CN201110083039.0A
Authority: CN
Inventors: 三沢玲司; 小坂亮; 金津知俊; 相马英智
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-04-07
Filing date: 2011-04-01
Publication date: 2014-07-02
Anticipated expiration: 2031-04-01
Also published as: CN102222079A; JP5733907B2; US20110252315A1; US8954845B2; JP2011221701A

Abstract

本发明提供一种图像处理设备及图像处理方法。区域划分部从基于纸文档和电子文档的图像数据中，提取“对象”、“伴随对象的锚表述”以及“包括锚表述的文本”。链接处理部生成将“对象”、“包括在文本中的锚表述”或者“包括锚表述的文本”彼此双向关联的链接信息。接着，格式转换部将链接信息转换为包括双向链接信息的电子文档数据。当通过应用显示该电子文档数据，并选择了“对象”以及“包括在文本中的锚表述”中的一个时，能够根据链接信息显示另一个。

Description

图像处理设备及图像处理方法

技术领域

本发明涉及一种从纸文档或者电子文档数据生成包括双向链接信息的电子文档数据的图像处理设备及图像处理方法。

背景技术

通常，纸文档和电子文档包括字符、图形等。例如，存在包括图16A所示的“对象”(区域1614)、“伴随对象的锚表述(anchor expression)(例如诸如“图号”、“附图1”或者“图1”的表述)”(区域1612)以及“包括锚表述的文本”(区域1613)的纸文档、电子文档等。具体地说，这种文档的示例包括学术论文、专利文献、安装手册以及产品目录。这里，本说明书中的“对象”是指包括在文档中的“图”、“照片”、“图示(illustration)”等的区域。“包括锚表述的文本”是指包括描述或者说明“对象”的句子的文本。“锚表述”是指例如像区域1611中包括的“图1”那样用于识别对象的字符(例如图号)。在下面的描述中，将“包括锚表述的文本”称为“对象的描述文本”。如上所述，当文档包括“对象”时，文档的阅读者需要考虑“对象”与“对象的描述文本”之间的双向对应关系来阅读文档。

然而，当阅读者难以掌握文档中的“对象”与“对象的描述文本”之间的对应关系时，阅读者需要大量时间阅读它以便正确地理解。阅读者需要额外的时间来理解文档的内容。这里，作为难以掌握“对象”与“对象的描述文本”之间的对应关系的纸文档的示例，对图16B的示例进行说明。图16B示出了由N页(即页1到N(N为整数))构成的纸文档的示例，其单独具有“对象”页和“对象的描述文本”页。区域1604是“对象”，区域1605是“伴随对象的注释”，区域1606是“注释中的锚表述”，区域1602是“文本中的锚表述”。区域1601是“包括锚表述的文本”，即“对象的描述文本”，区域1603是其它文本。通常，当文档的阅读者阅读页1上的区域1601内的文本时，阅读者在包括由区域1602中的“文本中的锚表述”(图16B 所示的“图1”)表示的对象的其它页中进行搜索。接着，阅读者在页N上的区域1606中进行搜索，并在阅读区域1604和1605之后，阅读者返回页1，阅读区域1602之后的文本中的句子。相反，当阅读者首先看到页N时，阅读者搜索包括如区域1606的“注释中的锚表述”(这里为“图1”)的文本的部分。如上所述，阅读者在页1上的区域1602中进行搜索，阅读包括作为锚表述的“图1”的文本，之后返回页N。如上所述，当使用难以掌握“对象”与“对象的描述文本”之间的对应关系的纸文档时，阅读者手动地将页翻到相应页，并搜索描述“对象”或者“对象的描述文本”的位置(哪页、哪段以及哪行)。这花费大量时间。然后，阅读在搜索到的位置描述的内容、之后返回到起始页的起始位置耗费时间。另一方面，当使用电子文档时，需要使用个人计算机(以下称为PC)中的应用的页面滚动功能和搜索功能来搜索描述有“对象”或者“对象的描述文本”的位置，这也是耗费时间的操作。此外，阅读其内容、之后返回到起始页的起始位置也耗费时间。图16B所示的示例表示在由N页(即页1到N)构成的文档中，在N页中的每一页中存在一个“对象”和一个“对象的描述文本”。不用说，随着页数、“对象”的数量以及“对象的描述文本”的数量的增加，变得更为耗时。在图16C中示出了难以掌握“对象”与“对象的描述文本”之间的对应关系的文档的其它示例。在图16C中，尽管“对象”和“对象的描述文本”在同一页上，但是它们的位置相互分离。

如上所述，在难以掌握“对象”与“对象的描述文本”之间的对应关系的文档中，该文档的阅读者不利地花费大量时间来阅读它，并且还花费额外的时间来理解文档的内容。

为了克服该问题，日本特开平11-066196(1999)号公报公开了一种发明，其中，对纸文档进行光学读取，并且能够生成可以在与利用目的相对应的各种计算机中利用的文档。具体地说，通过对图及图号产生超文本来生成电子文档。接着，使用鼠标等点击文本中的“图号”，由此能够在画面上显示与“图号”相对应的图。

然而，在日本特开平11-066196(1999)号公报中，生成了从“文本中的锚表述”到“对象”的链接信息，而未生成在相反方向上从“对象”到“文本中的锚表述”或者到“对象的描述文本”的链接信息。因此，从“对象”搜索“对象的描述文本”耗费时间。

对于阅读者来说，首先阅读“对象的描述文本”并参照“文本中的锚表述”来寻找“对象”，之后返回先前刚刚阅读的“对象的描述文本”，也耗费时间。换句话说，搜索“对象的描述文本”的位置(哪页、哪段以及哪行)耗费时间。

发明内容

为了克服上述问题，根据本发明的图像处理设备包括：输入单元，其被配置为输入文档图像数据；区域划分单元，其被配置为根据属性将所述文档图像数据划分为多个区域，所划分的区域包括文本区域、注释区域以及由所述注释区域伴随的对象区域；字符识别单元，其被配置为通过对所述区域划分单元划分的所述文本区域和所述注释区域中的各个内的各个字符执行字符识别处理来获得字符信息；锚表述提取单元，其被配置为从所述注释区域中的字符信息中提取包括识别所述对象区域的预定字符串的锚表述；文本搜索单元，其被配置为从所述文本区域中的字符信息中搜索由所述锚表述提取单元提取的所述锚表述；链接信息生成单元，其被配置为当所述文本搜索单元在所述文本区域中找到多个所述锚表述时，生成将多个锚表述周边区域与图像周边区域相互关联的双向链接信息，所述锚表述周边区域是包括所述文本搜索单元在所述文本区域中搜索的所述锚表述中的各个的区域，所述图像周边区域是包括所述对象区域的区域，其中，所述双向链接信息包括候选对象显示信息，所述候选对象显示信息用于显示关于所述多个所述锚表述周边区域的信息，作为从所述图像周边区域的链接目的地的多个候选对象；以及格式转换单元，其被配置为生成包括文档图像数据和双向链接信息的电子文档数据，所述双向链接信息包括所述候选对象显示信息，其中，所生成的电子文档数据由电子文档显示设备来显示，并且其中，所述电子文档显示设备包括：信息保持单元，其被配置为当用户选择了所述锚表述周边区域中的一个时，保持所选择的锚表述周边区域的位置信息，其中，所选择的锚表述周边区域的所述位置信息是指示所述锚表述周边区域的位置的信息、用于识别所述锚表述周边区域的识别信息或者与所述锚表述周边区域相对应的链接标识符；以及显示单元，其被配置为当所述用户选择了所述图像周边区域时，确定所述信息保持单元是否保持了所述位置信息，当保持了所述位置信息时，显示基于所述位置信息参照的所述锚表述周边区域，而当未保持所述位置信息时，基于所述候选对象显示信息来显示所述链接目的地的多个候选对象。

在本发明中，在“对象”与“对象的描述文本”之间，自动生成作为本发明的特征并且包括双向链接信息的电子文档数据，由此能够获得以下效果。当阅读者阅读“包括锚表述的文本”(即“对象的描述文本”)，并搜索相应的“对象”时，能够通过简单的操作显示“对象”。

从以下对示例性实施例的描述(参照附图)，本发明的其它特征将变得清楚。

附图说明

图1是示出本发明的图像处理系统的框图；

图2是示出MFP 100的配置的示例的框图；

图3是示出数据处理部218的配置的示例的框图；

图4是示出链接处理部304的配置的示例的框图；

图5A示出了图像数据的示例；

图5B示出了由数据处理部生成的各种数据；

图5C示出了对应表；

图6示出了在本发明中使用的输入图像数据上的电子文档数据的示例；

图7示出了第一实施例中的总体处理的流程图；

图8示出了第一实施例中的链接处理的流程图；

图9A示出了第一实施例中的图像数据的示例；

图9B示出了第一实施例中的由数据处理部生成的各种数据；

图9C示出了第一实施例中的链接信息；

图9D示出了第一实施例中的电子文档的示例；

图10A-10C是示出第一实施例中的应用进行的显示示例的图；

图11A和11B是示出第一实施例中的图形数据的图；

图12A示出了第二实施例中的图像数据的示例；

图12B示出了第二实施例中的由数据处理部生成的各种数据；

图12C示出了第二实施例中的链接信息以及候选对象显示信息；

图13示出了第二实施例中的链接处理的流程图；

图14A示出了第二实施例中的点击锚表述周边区域时的流程图；

图14B示出了第二实施例中的点击图像周边区域时的流程图；

图15A-15G示出了图示第二实施例中的应用进行的显示示例的图；

图16A示出了文档的示例；

图16B示出了由N页构成的文档的示例；以及

图16C示出了在同一页上对象与对象的描述文本的位置相互分离的情况的示例。

具体实施方式

下面，参照附图说明本发明的优选实施例。

(第一实施例)

图1是示出本实施例的图像处理系统的配置的框图。

在图1中，作为具有多个功能(复印功能、打印功能、发送功能等)的复合机的MFP(多功能外围设备)100连接到办公室A中构建的LAN102。LAN 102还通过代理服务器103连接到网络104。客户端PC 101通过LAN 102接收来自MFP 100的发送数据，并能够利用MFP 100的功能。例如，客户端PC 101向MFP 100发送打印数据，由此能够使用MFP100基于打印数据打印打印物。图1的配置是示例，具有与办公室A相同的构成元素的多个办公室可以连接到网络104。网络104是由互联网、LAN、WAN、电话线路、专用数字线路、ATM(异步传送模式，Asynchronous Transfer Mode)、帧中继线路、通信卫星频道、有线电视线路、数据广播无线电频道等实现的典型通信网络。可以使用任意网络，只要其能够发送、接收数据即可。客户端PC 101和代理服务器103各种终端具有在通用计算机中安装的标准构成元素。例如，它们具有CPU、RAM、ROM、硬盘、外部存储设备、网络接口、显示器、键盘、鼠标等。

图2是示出作为本实施例的图像处理机的MFP 100的详细配置的图。图2所示的MFP 100具有作为图像输入设备的扫描器部201、作为图像输出设备的打印机部202、包括CPU 205等的控制单元204、作为用户接口等的操作部203。控制单元204连接到扫描器部201、打印机部202以及操作部203；另一方面，控制单元204是当连接到LAN 219以及作为公用电话线路的公共线路(WAN)220时输入、输出图像信息和设备信息的控制器。CPU 205控制包括在控制单元204中的单元。RAM 206是用于操作CPU 205的系统工作存储器，并且还是用于临时存储图像数据的图像存储器。ROM 210是存储诸如系统的引导程序的程序的引导ROM。存储部211是存储系统控制软件和图像数据的硬盘驱动器。操作部I/F 207是到操作部(UI)203的接口部，其向操作部203输出要在操作部203上显示的图像数据。操作部I/F 207还用来向CPU 205发送图像处理设备的用户使用操作部203输入的信息。网络I/F 208将图像处理设备连接到LAN 219，并输入、输出包(packet)格式的信息。调制解调器209将图像处理设备连接到WAN 220，并对数据进行解调和调制，以输入、输出信息。上述设备布置在系统总线221上。

图像总线I/F 212是将系统总线221与以高速传送图像数据的图像总线222连接并改变数据结构的总线桥。图像总线222由例如PCI总线或者IEEE 1394总线构成。在图像总线222上布置有以下设备。光栅图像处理器(RIP)213分析PDL(页面描述语言)代码，并将它扩展为具有指定分辨率的位图图像，即实现所谓的绘制(rendering)处理。当进行该扩展时，以像素为单位或者以区域为单位添加属性信息。这被称为图像区域确定处理。进行图像区域确定处理，以针对各个像素或者各个区域添加表示对象(例如字符(文本)以及线、图形以及图像)的属性信息。例如，根据PDL代码内的PDL描述的对象类型从RIP 213输出图像区域信号，并将与由其信号值表示的属性相对应的属性信息与对应于对象的像素或者区域相关联地存储。因此，图像数据包括相关联的属性信息。设备I/F 214通过信号线223将作为图像输入设备的扫描器部201连接到控制单元204，并且通过信号线224将作为图像输出设备的打印机部202连接到控制单元204，由此改变图像数据的同步系统/异步系统。扫描器图像处理部215对输入图像数据进行校正、处理和编辑。打印机图像处理部216对需要输出到打印机部202的打印输出图像数据进行与打印机部202相对应的校正、分辨率改变等。图像翻转部217对输入的图像数据进行翻转以使图像数据竖立，并将其输出。稍后将描述数据处理部218。

现在，参照图3描述图2所示的数据处理部218的配置和操作。数据处理部218包括区域划分部301、属性信息添加部302、字符识别部303、链接处理部304以及格式转换部305。例如，当接收到由扫描器部201扫描的图像数据300时，数据处理部218在各个处理部301至305进行处理，以生成并输出电子文档数据310。

将图2所示的扫描器部201扫描的图像数据或者存储在存储部211中的图像数据(文档图像)输入到区域划分部301中。接着，区域划分部301将输入图像数据划分为各个区域(例如布置在页内的字符、照片、图以及表)。

在这种情况下，可以使用已知方法作为区域划分方法。将说明其示例。首先，将输入图像二值化以生成二值图像，并降低二值图像的分辨率以生成稀疏(thinned-out)图像(缩小图像)。例如，当生成1/(M×N)的稀疏图像时，针对每M×N个像素划分二值图像，如果在M×N个像素内存在黑色像素，则将缩小后的相应像素设置为黑色像素，而如果不存在黑色像素，则将相应像素设置为白色像素，由此生成稀疏图像。接着，在稀疏图像中，提取耦合到黑色像素的部分(耦合黑色像素)，以生成外接耦合黑色像素的矩形。当接近字符图像大小的矩形(一个字符的矩形)并排布置时，或者当纵向矩形或横向矩形是接近字符图像大小的矩形(连接几个字符的耦合黑色像素的矩形)，并且类似的矩形布置在短边的附近时，其很可能是构成一个字符串的字符图像。在这种情况下，矩形相互耦合，由此获得表示一个字符串的矩形。由于表示一个字符串的、短边长度大体相同并且在列方向上以大体相等的间距布置的矩形组很可能是文本部分，因此将它们耦合并提取文本区域。使用大小大于字符图像的耦合黑色像素来提取照片区域、图区域以及表区域。结果，将其划分为例如图5A所示的区域501至506。如稍后所描述的，基于其大小、纵横比、黑色像素密度、通过跟踪耦合黑色像素中包括的白色像素的轮廓而获得的结果等来确定各个区域的属性。将划分的区域作为区域信息存储在存储部211中。

属性信息添加部302向由区域划分部301进行划分而获得的各个区域添加属性。现在，使用图5A所示的输入图像数据500作为示例说明属性信息添加部302的处理操作。由于区域506由连续字符串构成，使得其在页内具有特定数量的字符和行以及一定数量的字符和行、段落等的形式，因此属性信息添加部302向区域506添加“文本”属性。首先确定剩余区域是否包括接近字符图像大小的矩形。尤其，由于字符图像的矩形周期性地出现在包括字符图像的区域内，因此能够确定在该区域中是否包括字符。结果，属性信息添加部302将区域501、504以及505视为包括字符的区域，并向这些区域添加“字符”属性。由于这些区域不具有一定数量的字符和行、段落等的形式，因此它们与文本区域不同。

另一方面，当其它区域的大小非常小时，属性信息添加部302确定这些区域为“噪声”。当属性信息添加部302对像素密度小的耦合黑色像素的内部进行白色像素轮廓跟踪，并且外接白色像素轮廓的矩形规则地布置时，属性信息添加部302确定这些区域为“表”，而当它们未规则地布置时，确定这些区域为“线图(图)”。将像素密度高的其它区域确定为图片或照片，并向其添加“照片”属性。添加了“表”、“线图”以及“照片”属性的区域与上述“对象”相对应，其特征在于它们具有字符以外的属性。此外，当在添加了“表”、“线图”以及“照片”属性的区域的附近(例如区域的上面或者下面)存在被确定为不是文本的字符区域时，属性信息添加部302确定其为描述“表”、“线图”以及“照片”的区域的字符区域。接着，属性信息添加部302向该区域添加“注释”属性。将添加了“注释”属性的区域与伴随“注释”的区域彼此相关联地存储在添加了“注释”属性的区域中，以便识别伴随“注释”的区域(对象“表”、“线图”以及“照片”)。具体地说，如图5B所示，在区域505(注释区域)中，将“伴随注释的区域”的项目与“区域503”相关联。属性信息添加部302向布置在与文本部分的栏不同的位置的、大于文本部分的字符图像的区域添加“标题”属性。属性信息添加部302向位于文本区域的栏的上部的、大于文本区域的字符图像的区域添加“小标题”属性。此外，属性信息添加部302向位于由大小比文本区域的字符图像小的字符图像构成并构成图像数据的页的下端部和上端部的区域，添加“页”(或者“页眉”或“页脚”)属性。属性信息添加部302向被确定为字符区域、但不与“文本”、“标题”、“小标题”、“注释”以及“页”中的任意一个相对应的区域，添加“字符”属性。

当进行上述属性信息添加处理时，在图5A所示的图像数据中，向区域501添加“标题”属性，向区域502添加“表”属性，向区域503添加“照片”属性，向区域504添加“字符”属性，向区域505添加“注释”属性，并且向区域506添加“文本”属性。由于向区域505添加了“注释”属性，因此将区域503作为伴随“注释”的区域与区域505相关联。添加了“照片”属性的区域503适用于本实施例中的“对象”，并且由于区域506包括作为锚表述的“图1”，因此添加了“文本”属性的区域506适用于先前描述的“对象的描述文本”。属性信息添加部302进行的属性的添加表示例如，如在图5B所示的数据表中，将确定的属性与通过区域划分部301进行的划分而获得的各个区域相关联，并存储在存储部211等中。

字符识别部303对包括字符图像的区域(即属性为“字符”、“文本”、“标题”、“小标题”以及“注释”等的区域)，进行已知的字符识别处理，并且将结果作为字符信息与关注区域相关联，并将其存储在存储部211中。例如，如图5B所示，在区域501以及504至506中，“字符信息”的项目与作为字符识别处理的结果的字符信息相关联。

如上所述，针对各个区域，将由区域划分部301、属性信息添加部302以及字符识别部303提取的关于位置、大小和区域属性的信息、关于页的信息、关于字符识别结果的字符信息(字符代码信息)等相关联，并将这些信息存储在存储部211中。例如，当处理图5A所示的输入图像数据示例时，图5B中示出了存储在存储部211中的数据表的示例。尽管在图5A和图5B中，省略了详细说明，但是优选对属性为“表”的区域中的字符图像的区域给予“表中的字符”的属性，对其进行字符识别处理，并将处理的结果作为字符信息进行存储。如图5B所示，由于区域504是关于包括在照片或者图中的字符图像的区域，因此添加“503的照片内”的属性。

链接处理部304生成属性信息添加部302检测到的伴随注释的区域(属性为“照片”、“线图”、“表”、“图示”等的区域)与“包括锚表述的文本”之间的链接信息。接着，链接处理部304将生成的链接信息存储在存储部211中。稍后说明链接处理部304的细节。

格式转换部305使用从区域划分部301、属性信息添加部302、字符识别部303以及链接处理部304获得的信息，将输入图像数据300转换为电子文档数据310。电子文档数据310的示例包括诸如SVG、XPS(XML纸张规范，XML Paper Specification)、PDF(可移植文档格式，Portable Document Format)以及Office Open XML(可扩展标记语言，Extensible Markup Language)的文件格式。将转换后的电子文档数据310存储在存储部211中，或者通过LAN 102发送到客户端PC 101。文档的用户使用安装在客户端PC 101中的应用(例如Internet Explorer、Adobe Reader或者MS Office)来阅读电子文档数据310。稍后将详细描述使用应用对电子文档数据310的阅读。电子文档数据310包括使用图形等的页显示信息(例如用于显示的图像)以及使用字符等的语义描述的内容信息(例如元数据)。

在格式转换部305中进行的处理主要是两个。一个是对各个区域进行平坦和平滑、边缘增强、颜色量化、二值化等，以进行转换为指定格式的处理并使得能够存储在电子文档数据310中。对例如属性为“字符”、“线图”或者“表”的区域，进行向矢量路径描述的图形数据(矢量数据)或者向位图描述的图形数据(JPEG数据)的转换。作为向矢量数据的转换的技术，可以使用已知的矢量化技术。使存储在存储部211中的区域信息(位置、大小以及属性)、区域内的字符信息以及链接信息与它们相对应，并进行向电子文档数据310的转换。

在格式转换部305中，对各个区域进行的转换处理方法根据区域属性而不同。例如，矢量转换处理适用于颜色由黑白或者几种颜色构成的图形(例如字符和线图)，而矢量转换处理不适用于具有灰阶(gradation)的图像区域(例如照片)。为了根据各个区域的属性如上所述进行适当的转换，预先设置图5C所示的对应表，并基于该对应表进行转换处理。

例如，根据图5C所示的对应表，对属性是“字符”、“线图”以及“表”的区域进行矢量转换处理，而对具有“照片”属性的区域进行图像剪切(clipping)处理。

在图5C所示的对应表中，与各个属性相关联地存储表示是否存在用于从图像数据300中擦除区域的图像信息的处理的数据。例如，当根据图5C所示的对应表将“字符”属性的区域转换为矢量路径描述数据时，指示存在擦除处理。因此，对图像数据300进行使用周围颜色涂覆与由转换后的矢量路径覆盖的部分相对应的像素的处理。同样，当作为矩形图像部分剪切“照片”属性的区域时，对图像数据300进行使用周围颜色等涂覆与剪切的区域相对应的区域范围的处理。

进行上述擦除处理的目的是，可以利用对各个区域的处理完成后(涂覆处理完成之后)的图像数据300作为“背景”的图像的部分数据。在该用于背景的图像数据(背景图像)中，剩余通过区域划分处理的划分而获得的区域以外的部分(例如与图像数据300内的基底相对应的像素)。当描述电子文档数据310时，通过将通过矢量转换处理或图像剪切处理获得的图形数据(前景图像)叠加在背景图像部分数据(背景图像)上并显示它来进行描述。以这种方式，能够防止背景图像(基底的颜色)的信息缺失，并且能够形成无冗余的图形数据。

因此，尽管对“字符”属性的区域(字符区域)进行使用二值化的图像剪切处理以及从图像数据300的图像擦除处理，但是不能对其它属性的区域进行矢量化处理和图像剪切处理。换句话说，在背景图像部分数据内剩余未进行处理的像素(属性为“照片”、“线图”或“表”的区域内的像素信息)，并以将“字符”的图像部分叠加在背景图像上的方式描述它们。

预先准备多个图5C所示的对应表，可以根据作为输出的电子文档数据310的用途以及电子文档的内容来进行选择。例如，基于图5C所示的对应表的输出适合图形编辑器等的再利用用途，因为大部分对象被转换为矢量路径描述，从而在放大或缩小时图像质量良好。在其它对应表中，以各种字符颜色为基础作为各个二值图像生成字符图像，并进行可逆压缩，因此能够再现高质量的字符图像部分，将其它部分作为背景图像进行JPEG压缩，因此能够提高数据大小的压缩率。该方法适合提高压缩率以及生成容易阅读字符图像的数据。通过如上所述的可选择使用，能够使生成的电子文档数据合适。

在图6中示出了生成的电子文档数据310的示例。在图6所示的示例中，示出了通过在处理图5A所示的图像数据500时基于存储在存储部211中的数据表(图5B)进行SVG(可缩放矢量图形，scalable vector graphics)格式的描述而获得的示例。尽管这里使用SVG格式作为示例给出了描述，但是格式不限于SVG格式。可以使用PDF、XPS、Office Open XML、基于其它PDL的数据格式等代替。

图6的描述601至606分别是对图5A所示的区域501至506的图形描述。这里，描述601、604、605和606是与字符代码相对应的字符描绘描述的示例；描述602是矢量转换表的框的矢量路径描述的示例；描述603是指示附加了进行了剪切处理的照片图像的描述的示例。在图5B和图6的示例中，在使用诸如坐标值X1和Y1的符号描述的部分中实际描述值。描述607是对链接信息的描述的示例。描述607由描述608和609构成。描述608是从“与注释相关联的区域(以下称为对象)”到“对象的描述文本”的链接信息。描述610是链接标识符，并与由描述603指示的对象以及由描述611指示的图形数据相关联。这里，图形数据是指，例如当在正在使用应用阅读在本实施例的输入图像中生成的电子文档的同时，使用鼠标点击文本区域中的锚表述时显示的描绘信息。描述612是关于操作的信息。换句话说，描述612是关于当文档的阅读者使用应用阅读电子文档数据310时由描述611指示的图像数据的信息。作为另选方案，描述612是关于当按下(或者选择)由与由描述610指示的链接标识符相关联的描述603指示的对象时在应用侧的操作的信息。描述609是从“对象的描述文本”到“对象”的链接信息。描述613至615与描述610至612相同。

图4是示出链接处理部304的配置的示例的框图。下面说明由链接处理部304进行的处理的内容。链接信息提供目标选择部401对输入的图像数据选择链接信息生成的目标对象。

锚表述提取部402对伴随由链接信息提供目标选择部401选择的对象的注释区域中的字符信息进行分析，并从分析的字符信息中提取锚表述。当找到锚表述时，锚表述提取部402从字符信息中提取相应的部分作为锚表述，并提取其它部分作为注释表述。锚表述提取部402还具有使用字符代码的特性、词典等去除无用的字符串(例如无意义的符号串)的功能。这是因为，锚表述提取部402应对字符识别的错误识别等，在该错误识别中，将出现在文档的文本部分的边界的修饰(decoration)、分隔线以及图像解释为字符。为了提取锚表述，在词典中存储诸如图号的多语言字符串模式以及相应的字符识别的错误识别模式，因此能够提高锚表述的提取精度并进行锚表述的字符校正。可以以如上所述相同的方式处理注释表述。换句话说，可以进行使用自然语言处理的分析、字符识别的错误识别校正等，并且还可以给出以下功能：校正出现在锚表述的边界以及锚表述的前后的符号、字符修饰等并且将它们去除。

文本搜索部403使用由锚表述提取部402提取的锚表述来搜索文档的各个文本区域中的字符信息，并检测相同的锚表述。文本搜索部403在包括提取的锚表述并描述对象的文本中的描述表述(即“对象的描述文本”)中指定相应的区域。这里，能够生成用于实现高速搜索的搜索索引(作为生成索引的技术以及利用它来实现高速搜索的技术，可以使用已知的索引生成/搜索技术)。而且，通过使用大量锚表述的批量搜索，也能够实现高速搜索。通过对“对象的描述文本”存储和利用诸如图号的多语言字符串模式以及相应的字符识别的错误识别模式，能够提供提高搜索精度以及进行校正的功能。

链接信息生成部404生成将由链接信息提供目标选择部401选择的对象与由文本搜索部403搜索并提取的“对象的描述文本”相关联的链接信息。具体地说，链接信息生成部404根据选择的“对象”生成指示指定的“对象的描述文本”的链接信息。同时，链接信息生成部404根据“对象的描述文本”(主要是文本中的锚表述)生成反方向的链接信息，即指示“对象”的链接信息。将生成的链接信息作为链接信息413存储在存储部211中。在本实施例中，将与一个方向相关联的链接信息称为单向链接信息，而将与两个方向相关联的链接信息称为双向链接信息。

链接信息收集/输出部405使用由链接信息生成部404生成的链接信息413，将它转换为格式转换部305能够处理的格式，并将其输出。因此，格式转换部305生成电子文档数据310。

链接处理控制部406总体控制链接处理部304。链接处理控制部406主要将图像数据300的各个区域，与存储在图2的存储部211中的区域信息411(关于与各个区域相关联的位置、大小以及属性的信息)以及区域内的字符信息412一起，分配给适当的处理部401至405。链接处理控制部406还进行将从处理部401至405输出的信息给送到适当的处理部的控制。如图5B所示，区域信息411和字符信息412以与由区域划分部301对图像数据300进行划分而获得的各个区域相关联的数据表的格式，存储在存储部211中。

使用实际进行处理的示例，再次更详细地说明链接处理部304的各个部分的操作。

现在，参照图7的流程图，说明第一实施例的图像处理系统进行的总体处理的概要。假定图7所示的流程图由图2的数据处理部218(图3的处理部301至305)进行。在本实施例中，CPU 205读取并执行存储在存储部211(计算机可读存储介质)中的计算机程序，由此用作数据处理部218(图3的处理部301至305)。然而，应当注意，本发明不限于此。例如，数据处理部218(图3的处理部301至305)可以通过诸如电子电路的硬件来实现。

图7是示出对由图1的MFP 100输入的由多页构成的图像数据进行处理并将它转换为由多页构成的电子文档数据的过程的流程图。在第一实施例中，参照图9A所示的图像数据描述多页的图像数据。下面描述图 7的流程图的各个步骤。

在步骤S701中，区域划分部301将输入图像数据的一页划分为区域，以提取区域。例如，从图9A所示的图像数据901(页1)中提取区域908。此外，在步骤S701中，如图9B所示，区域划分部301确定关于区域908的“坐标X”、“坐标Y”、“宽度W”、“高度H”以及“页”，并将其存储在存储部211中。

在步骤S702中，属性信息添加部302根据在步骤S701中划分的区域的类型，向各个区域添加属性。例如，在图9A所示的页1中，向区域908添加“文本”属性。在图9A所示的页3的示例中，向区域911添加“照片”属性，而向区域912添加“注释”属性。还向区域912添加了指示区域911伴随区域912的信息。换句话说，区域911是上述的“对象”。添加了“照片”属性的照片区域911是本实施例中的“对象”，由于包括稍后描述的锚表述，因此添加了“文本”属性的文本区域908是“对象的描述文本”。属性信息添加部302将“属性”和“伴随注释的区域”与相应的各个区域相关联，并将其存储在存储部211中。

在步骤S703中，字符识别部303对在步骤S702中添加了字符属性(例如文本、注释、标题或小标题)的区域进行字符识别处理，将结果作为字符信息与该区域相关联，并将其存储在存储部211中。例如，在步骤S703中，将图9B所示的“字符信息”作为字符识别处理的结果存储在存储部211中。

在步骤S704中，数据处理部218确定是否对所有页进行了步骤S701至S703的处理。如果对所有页进行了处理(步骤S704中的“是”)，则处理进入步骤S705。如果存在未处理的页(步骤S704中的“否”)，则处理返回步骤S701。如上所述，对图9A所示的四页图像数据901至904，进行步骤S701至S704的处理。

接着，在步骤S705中，链接处理部304进行用于锚表述的提取、图形数据的生成以及链接信息的生成的链接处理。稍后参照图8的流程图，描述在步骤S705中由链接处理部304进行的链接处理的细节。在链接处理完成之后，处理进入步骤S706。

在步骤S706中，格式转换部305基于如图9B和9C所示的存储在存储部211中的信息，将图像数据300转换为电子文档数据310。如图4所述，格式转换部305根据指示需要对各个区域进行的转换处理方法的对应表，对图像数据300内的区域进行转换处理。这里，假定使用图5C所示的对应表进行转换。

至此，对图7的说明完成。

现在，参照图8的流程图描述图7的步骤S705中的链接处理的细节。

在步骤S801中，链接信息提供目标选择部401参照存储在存储部211中的区域信息411，并从指示“对象”的区域(诸如图、照片以及图示的区域)中选择未进行链接信息生成处理的区域中的一个。换句话说，如果存在未处理的对象，则选择未处理的对象作为要处理的对象，接着处理进入步骤S802。如果不存在对象，或者已处理了所有对象，则处理进入步骤S812。例如，从图9A所示的四页的图像数据901至904中，首先选择照片区域911。

在步骤S802中，针对链接信息提供目标选择部401选择的对象，锚表述提取部402从伴随对象的注释区域中的字符信息中，提取锚表述和注释表述。这里，锚表述是指用于识别对象的字符信息(字符串)，注释表述是指用于描述对象的字符信息(字符串)。在包括在伴随对象的注释区域中的字符信息中，可能存在以下情况：其中仅描述了锚表述的情况；其中仅描述了注释表述的情况；其中描述了两种表述的情况；以及其中未描述这些表述的情况。例如，锚表述经常被表述为诸如“附图”或“图”的特定字符串与编号或符号的组合。因此，预先准备登记了那些特定字符串的锚字符串词典，通过将注释表述与词典进行比较，能够识别锚表述(即锚字符串+编号/符号)。在注释区域中的字符串中，将锚表述以外的字符串确定为注释表述。换句话说，对于注释区域912中的字符信息“图1AAA”来说，锚表述是“图1”，注释表述是“AAA”。具体地说，如图9B所示，由于将注释区域912作为伴随照片区域911的注释而相关联，因此锚表述提取部402从注释区域912中的字符信息中，提取锚表述“图1”。接着，如图9B所示，锚表述提取部402将注释区域912与锚表述“图1”相关联，并将其存储在存储部211中。如果在步骤S802中，在选择的对象中不存在注释区域，或者在与注释区域相对应的字符信息中不包括锚表述，则不提取锚表述。

在步骤S803中，链接处理控制部406确定在步骤S802中是否从注释区域中提取了锚表述。如果提取了锚表述(步骤S803中的“是”)，则处理进入步骤S804，而如果未提取锚表述(步骤S803中的“否”)，则处理返回步骤S801。由于在图9A所示的图像数据中，从与对象911相关的注释区域912中提取了锚表述，因此处理进入步骤S804。

在步骤S804中，文本搜索部403在存储在存储部211中的文本区域中的字符信息中，搜索与由锚表述提取部402提取的锚表述相同的锚表述。例如，文本搜索部403在图9B所示的文本区域908、910和913中的字符信息中，搜索与从注释区域912中提取的相同锚表述。这里，由于在与文本区域908相对应的字符信息中包括“图1”，因此文本搜索部403从文本区域908中的字符信息中提取该锚表述。

在步骤S805中，文本搜索部403确定在步骤S804中是否从文本区域中的字符信息中检测到了锚表述。如果检测到了锚表述(步骤S805中的“是”)，则处理进入步骤S806，而如果未检测到锚表述(步骤S805中的“否”)，则处理返回到步骤S801。如果在步骤S805中从文本区域中检测到了锚表述，则将该文本区域与锚表述相关联，并将其存储在存储部中。例如，如图9B所示，将文本区域908与锚表述“图1”相关联，并将其存储在存储部211中。

以下，在步骤S806和S807中，进行对在步骤S801中选择的对象的处理。此外，在步骤S808和S809中，进行对在步骤S804中检测到了锚表述的文本区域的处理。

在步骤S806中，链接信息生成部404生成关于对象的链接标识符，将其与由链接信息提供目标选择部401选择的对象相关联，并将其存储在存储部211中。例如，如图9B所示，链接信息生成部404生成链接标识符“image_01”，将链接标识符与对象的照片区域911相关联。如果存在M个与对象相对应的区域，则链接信息生成部404作为链接标识符“image_01”至“image_M”生成M个链接标识符，并将其与相应的区域相关联。

在步骤S807中，链接信息生成部404生成关于对象的图形数据，将图形数据与在步骤S806中生成的链接标识符相关联，并将其存储在存储部211中。这里，在步骤S807中生成的图形数据指示至少包括对象内的图、表等的图像周边区域。例如，如图9C所示，图形数据是由“坐标X”、“坐标Y”、“宽度W”和“高度H”构成的数据。在图9C的示例中，与链接标识符“image_01”相关联的图形数据(“坐标X”、“坐标Y”、“宽度W”和“高度H”)＝(“X15”、“Y15”、“W15”和“H15”)，指示图11A所示的图像周边区域1102。换句话说，在坐标X(X15)、坐标Y(Y15)的位置，区域是宽度W为“W15”并且高度H为“H15”的区域。与图9C的915所示的链接标识符“image_01”相关联的颜色，指示当稍后描述的应用作为矩形线段表示图像周边区域1102时的线段的颜色。该颜色可以设置为任意颜色。尽管在本实施例中，将基于图形数据的图形描述为矩形，但是图形不限于矩形，可以使用任意形状。

在步骤S808中，链接信息生成部404生成关于文本区域的链接标识符，将其与具有由文本搜索部403检测到的“锚表述”的文本区域相关联，并将其存储在存储部211中。例如，如图9B所示，链接信息生成部404生成链接标识符“text_01”，并将该链接标识符与文本区域908相关联。如果存在N个具有相同锚表述的文本区域，则链接信息生成部404作为链接标识符“text_01”至“text_N”生成N个链接标识符，并将其与相应的区域相关联。

接着，在步骤S809中，链接信息生成部404生成图形数据，将图形数据与在步骤S808中生成的链接标识符相关联，并将其存储在存储部211中。这里，在步骤S809中生成的图形数据指示至少包括在步骤S804 中提取的锚表述的锚表述周边区域。例如，图9C所示的与链接标识符“text_01”相关联的图形数据(“坐标X”、“坐标Y”、“宽度W”和“高度H”)＝(“X14”、“Y14”、“W14”和“H14”)，指示锚表述周边区域1101。换句话说，在坐标X(X14)、坐标Y(Y14)的位置，区域是宽度W为“W14”并且高度H为“H14”的区域；如图11A所示，该区域至少包括锚表述“图1”。如同图11B所示的锚表述周边区域1103那样，该区域的范围不仅仅是锚表述“图1”的周边，该范围可以是包括锚表述的整个文本区域。尽管在本实施例中，将由图形数据指示的锚表述周边区域以及图像周边区域描述为矩形，但是其不限于矩形，可以使用任意形状、线等，只要其是突出显示的描绘信息以便应用的阅读者容易地理解即可。

在步骤S810中，链接信息生成部404生成从“对象”到“对象的描述文本”的链接。生成的链接信息包括指示当本实施例中的电子文档的阅读者对对象采取任意动作时的响应操作的信息。响应操作是指例如当阅读者用鼠标等点击正在阅读的电子文档内的对象时、移动到存在针对对象的描述表述的页的操作，以及使用指定颜色突出显示与链接目的地相对应的图形数据部分的操作。这里，步骤S810中的链接的生成与图9C所示的链接信息915中的“阅读者的动作”以及“应用的动作”相关。图9C所示的“阅读者的动作”与关于阅读者对对象进行的操作的信息相关联。这里，就使用鼠标等点击对象而言，链接信息915中的“阅读者的动作”与“点击”相关联。当检测到进行了由“阅读者的动作”指定的操作时，将指示应用如何进行响应操作的信息存储在“应用的动作”中。例如，就作为应用的操作的移动到链接目的地而言，图9C所示的链接信息915中的“应用的动作”与“移动到链接目的地(text_01)”相关联。这里“(text_01)”是在步骤S808中生成的链接标识符。在步骤S810中，将关于“阅读者的动作”、“应用的动作”以及“颜色”的信息与链接标识符相关联，将其作为链接信息915存储在存储部211中。尽管上面的描述讨论了针对各个链接标识符单独指定关于颜色的信息的示例，但是可以进行默认指定，以便一次指定相同的颜色。

现在，下面使用具体示例描述图9C所示的链接信息915。例如，当阅读者点击与链接标识符(image_01)相关联的照片区域911(“对象”)时，阅读者移动到包括与链接标识符(text_01)相关联的文本区域908(“对象的描述文本”)的页。接着，用红色(指定颜色)显示基于与链接标识符“text_01”相关联的图形数据(“坐标X”、“坐标Y”、“宽度W”和“高度H”)＝(“X14”、“Y14”、“W14”和“H14”)的矩形。

在步骤S811中，链接信息生成部404针对“对象的描述文本”生成到对象的链接。生成的链接包括指示当本实施例中的电子文档的阅读者对“对象的描述文本”(主要是指示文本中的锚表述的附近的图形数据的区域)采取任意动作时的响应操作的信息。这里，步骤S811中的链接的生成与图9C所示的链接信息914中的“阅读者的动作”以及“应用的动作”相关。例如，就阅读者使用鼠标等点击与阅读的电子文档内的文本中的锚表述相对应的部分而言，链接信息914中的“阅读者的动作”与“点击”相关联。就作为应用的操作的移动到链接目的地而言，链接信息914中的“应用的动作”与“移动到链接目的地(image_01)”相关联。这里，“(image_01)”是在步骤S806中生成的链接标识符。在步骤S811中，将关于“阅读者的动作”、“应用的动作”以及“颜色”的信息与链接标识符相关联，将其作为链接信息914存储在存储部211中。

现在，下面使用具体示例来说明图9C所示的链接信息914。阅读者首先点击对应于与链接标识符(text_01)相关联的图形数据的部分区域(文本区域908(即“对象的描述文本”))。当点击它时，阅读者移动到包括与链接标识符(image_01)相关联的照片区域911(“对象”)的页。接着，用红色(指定颜色)显示基于与链接标识符“image_01”相关联的图形数据(“坐标X”、“坐标Y”、“宽度W”和“高度H”)＝(“X15”、“Y15”、“W15”和“H15”)的矩形。

如上所述，在步骤S810和S811中，生成从“对象”到“对象的描述文本”的链接信息以及从“对象的描述文本”(主要是文本中的锚表述)到“对象”的反方向的链接信息。在本实施例中生成的链接信息是双向的链接信息，即双向链接信息。

之后，对所有对象进行步骤S802至S811的处理，如果在步骤S801中，确定不存在未处理的对象，则处理进入步骤S812。

在步骤S812中，收集在步骤S802至S811中存储在存储部211中的图9B和9C所示的信息。接着，格式转换部305以在步骤S706中能够接收的格式输出信息，并且处理完成。如果在步骤S801中确定不存在对象(步骤S801中的“否”)，则不进行处理。接着，处理完成。

如上所述，对图8的说明完成。

现在，参照图10A至10C，描述当文档的阅读者使用应用阅读在本实施例中生成的电子文档数据时进行的操作。

图10A至10C是作为用于阅读包括链接信息的电子文档数据的应用的由图1的客户端PC 101、其它客户端PC等执行的虚拟GUI软件的显示画面的示例。这种应用的实际示例包括Adobe Reader。此外，它可以是可以由MFP 100的操作部203显示并操作的应用。当应用是Adobe Reader时，图6所示的上述电子文档数据的格式需要为PDF。

图10A示出了用于阅读通过图7和图8的处理而生成的电子数据的应用1001的示例。图10A示出了作为电子文档的示例，如何在应用1001上显示图9A所示的图像数据(已生成了本实施例中的链接信息)中的页1。页滚动按钮1002是阅读者使用鼠标等在画面上按下以显示前页或后续页的按钮。窗口1004是输入搜索关键词的输入区域；搜索执行按钮1003是在输入要搜索的关键词之后用来开始进行搜索的按钮。状态栏1005示出了当前显示的页的页编号。

在传统技术中，当阅读者阅读电子文档数据，并搜索由包括在锚表述周边区域1006中的锚表述(例如“图1”)指示的对象时，通常使用通过按下页滚动按钮1002来搜索它的方法。通常还使用通过输入“图1”作为搜索关键词来搜索它的另一方法。接着，阅读者阅读锚表述指示的对象，之后按下页滚动按钮1002以返回到页1，并阅读后续句子。

另一方面，在本发明中，当阅读者阅读包括上述链接信息的电子文档数据时，阅读者点击包括图10A所示的锚表述的锚表述周边区域1006。当进行点击时，如图10B所示，根据图9C所示的链接信息914，在应用的画面上显示包括图像周边区域1007的页。换句话说，显示包括由锚表述“图1”指示的对象的页4，由此阅读者能够容易地找到由锚表述指示的对象。根据链接信息914，用红色显示图像周边区域1007的外周的线段。接着，当阅读者使用鼠标在应用1001的画面上，点击图像周边区域1007时，如图10C所示，根据链接信息915显示包括锚表述周边区域1006的页。此时，根据链接信息915，用红色显示锚表述周边区域1006的外周的线段。

当作为电子文档的示例，阅读图9D所示的图像数据(已生成了本实施例中的链接信息)时，应用的操作与操作的示例相同。在这种情况下，由于在应用中在页1上显示图，因此阅读者开始使用鼠标点击对象的操作，以搜索用于描述图的描述表述。省略了对应用的后续操作的描述。

如上所述，在本实施例中，在包括“对象”和“对象的描述文本”的纸文档中，自动生成包括“对象”与“对象的描述文本”之间的双向链接信息的电子文档数据，由此获得以下效果。当阅读者阅读“包括锚表述的文本”(即“对象的描述文本”)，并搜索相应的“对象”时，能够通过简单的操作显示“对象”。而且，通过利用突出“对象”的描绘信息(图形数据)，能够使“对象”的位置清晰。还能够通过简单的操作返回到“对象的描述文本”。此外，在返回到“对象的描述文本”时，能够使先前刚刚阅读的位置(哪页、哪段以及哪行)清晰。同样，即使首先阅读“对象”时，也能够通过简单的操作显示“对象的描述文本”。

在本实施例中，主要对以下情况进行了说明：在具有多页的文档中，将具有“对象”的页和具有“对象的描述文本”的页相互分离。然而，本发明不限于此；即使在难以理解“对象”与“对象的描述文本”之间的对应的纸文档中，也能够获得相同的效果。一个示例是具有“对象”的页和具有“对象的描述文本”的页相同，但其位置相互远离的纸文档。另一示例是将“对象”以及“对象的描述文本”中的至少一个作为小描述(包括小字符)进行描述的纸文档。此外，另一示例是具有复杂布局的文档。

(第二实施例)

第一实施例处理如图9A所示的、在文本中存在一个“对象”的一个锚表述的情况。在第二实施例中，参照图12A至15G，描述在文本中预先设置与“对象”相对应的多个锚表述的情况。不再重复对与图9A至图9C相同部分的描述。

图12A示出了由标号1201至1204指示的四页构成的图像数据；区域1211指示“对象”，区域1208和1213指示“对象的描述文本”。区域1209、1214和1215是包括在“对象的描述文本”中的锚表述周边区域。对图12A所示的图像数据进行与第一实施例中的图7和图8所示的流程图相同的处理，由此生成包括双向链接信息的电子文档数据。然而，在图8所示的步骤S810中，进行与图13所示的流程图相对应的处理，由此生成从对象到“对象的描述文本”的链接。

图13是示出在先前描述的图8所示的步骤S810中的链接生成中生成关于“应用的动作”的信息的处理的流程图。生成关于“阅读者的动作”的信息的处理与第一实施例中的处理相同，因此省略其描述。

在步骤S1301中，链接信息生成部404确定在步骤S804中从文本中提取的锚表述的数量是否是两个或更多个。如果是一个(步骤S1301中的“否”)，则处理进入步骤S1302，而如果是两个或更多个(步骤S1301中的“是”)，则处理进入步骤S1303。

在步骤S1302中，链接信息生成部404针对“应用的动作”，生成指示用于移动到链接目的地的指令的信息。接着，链接信息生成部404将生成的信息与链接标识符相关联，并将其存储在存储部211中。

在步骤S1303中，链接信息生成部404作为“应用的动作”的信息，生成指示用于显示列表的指令的信息，将其与候选对象显示信息相关联，并将其存储在存储部211中。显示列表是用于给出用于显示目的地的选择的列表的指令的信息，从而由于文本中的针对一个“对象”的锚表述的数量是两个或更多个，因此阅读者能够选择阅读者移动到锚表述的哪一个位置。该关于显示列表的信息包括关于与提取的锚表述相关联的链接标识符的信息。在第二实施例中，将用于给出用于移动到链接目的地的指令的信息称为链接信息，将用于给出用于显示列表的指令的信息称为候选对象显示信息，并将它们相互区分。换句话说，重要的是，如果针对一个“对象”的锚表述的数量是一个，则生成链接信息，而如果存在多个锚表述，则生成候选对象显示信息。

现在，描述根据第二实施例的由图像处理设备进行的处理的结果。通过进行根据第二实施例的处理，从图12A所示的页1上的文本区域1208中，提取了两个锚表述“图1”。因此，如图12B所示，将文本区域1208与两个链接标识符“text_01”和“text_02”相关联。当如上所述，通过在文本区域中进行搜索而获得了多个锚表述时，将一个文本区域与多个链接标识符相关联。由于从图12A所示的页4上的文本区域1213中也提取了锚表述“图1”，因此将文本区域1213与一个链接标识符“text_03”相关联。接着，如同第一实施例中那样，进行步骤S808、S809以及S811中的处理，由此将链接标识符“text_01”至“text_03”与图12C所示的链接信息1216至1218相关联。换句话说，将“图形数据”、“阅读者的动作”、“应用的动作”以及“颜色”相关联。这里，假定“应用的动作”包括用于“移动到链接目的地(image_01)”的指令，应用还包括用于“临时存储关于点击的锚表述的周边区域的信息”的指令。

另一方面，通过步骤S806中的处理将对象1211与链接标识符“(image_01)”相关联，还通过步骤S807中的处理将对象1211与对应于链接标识符“(image_01)”的图形数据相关联。接着，由于从文本中提取了多个锚表述，因此在图13的流程图的步骤S1303中，将“显示列表”作为“应用的动作”相关联，并且“颜色”变成“-”(不使用颜色的意思)。与候选对象显示信息1219相关联的“列表显示”包括关于链接标识符“(text_01)”至“(text_03)”的信息。

现在，参照图12A-C、14A、14B以及15A-G，描述当文档的阅读者使用应用阅读第二实施例的电子文档数据时进行的操作。

图14A和14B是示出应用根据在第二实施例中生成的电子文档数据的描述进行的过程的流程图。图14A示出了当点击文本中的锚表述周边区域时进行的处理；图14B示出了当点击图像周边区域时进行的处理。

首先，描述图14A所示的流程图。

在步骤S1401中，当阅读者在应用上点击锚表述周边区域时，应用根据链接信息，显示包括与由“移动到链接目的地”指示的标识符相关联的区域的页。具体地说，根据图12C所示的链接信息1216至1218中的关于“应用的动作”的信息，即用于“移动到链接目的地”的指令，来进行操作。接着，根据图12C所示的链接信息1216至1218中的关于“颜色”的信息，用红色图形一起突出图像周边区域的外周的线段。更具体地说，在图15A中示出了通过点击锚表述周边区域1209、1214和1215而获得的结果。图15A示出了不管点击哪个锚表述周边区域，阅读者如何移动到页3，并且使用红色显示图像周边区域1501的外周的线段。

在步骤S1402中，应用临时保持阅读者在步骤S1401中选择的锚表述周边区域的位置信息。换句话说，在步骤S1401中显示的图像周边区域保持位置信息，以使得能够识别阅读者选择并显示了锚表述周边区域1216至1218中的哪一个。具体地说，位置信息是关于点击的锚表述周边区域的信息(指示锚表述周边区域的位置的位置信息、用于识别锚表述周边区域的识别信息或者与锚表述周边区域相对应的链接标识符)。在当点击图14B所示的图像周边区域时进行的处理中，使用临时保持的位置信息。

现在，说明图14B所示的流程图。

在步骤S1403中，当阅读者点击图像周边区域时，应用进行参照，以检查是否保持了位置信息。如果保持了位置信息，则这指示阅读者通过之前刚刚对锚表述周边区域中的任意一个的选择，来显示图像周边区域。

在步骤S1404中，应用基于在步骤S1403中参照的位置信息，来确定是否根据链接信息显示图像周边区域。如果存在位置信息，则确定要根据链接信息从锚表述周边区域显示图像周边区域，接着处理进入步骤S1408。如果不存在位置信息，则处理进入步骤S1405。

在步骤S1408中，应用基于位置信息，来参照在显示图像周边区域之前、阅读者选择的锚表述周边区域的位置，并显示与该位置相对应的锚表述周边区域。对通过点击例如图12A所示的锚表述周边区域1215来显示图15A所示的图像周边区域1501的情况给出描述。当点击该图像周边区域1501时，如图15B所示，显示包括在显示移动之前点击的锚表述周边区域1502的图像。

接着，在步骤S1405中，应用确定关于与对应于阅读者点击的图像周边区域的链接标识符相关联的“应用的动作”的信息，是“移动到链接目的地”还是“显示列表”。如上所述，作为对电子文档数据的描述，“应用的动作”包括如下描述：如果锚表述的数量是一个，则进行“移动到链接目的地”，而如果锚表述的数量是两个或者更多个，则描述“显示列表”。如果进行“移动到链接目的地”(步骤S1405；移动到链接目的地)，则处理进入步骤S1406，而如果进行“显示列表”(步骤S1405；显示列表)，则处理进入步骤S1407。

在步骤S1406中，应用显示包括与由“移动到链接目的地”指示的链接标识符相关联的锚表述周边区域的文本区域，并用红色突出它，以使得能够识别锚表述周边区域。由于移动到链接目的地与在第一实施例中相同，因此不再重复其描述。

在步骤S1407中，应用参照包括在关于“显示列表”的信息中的链接标识符，并且根据与链接标识符相关联的文本区域上的字符信息，作为列表来显示各个锚表述前后的字符信息。例如，当阅读者点击图15C所示的图像周边区域1501时，如图15D所示，显示作为目的地的候选对象的锚表述前后的字符信息1503至1505。文档1503包括与链接标识符“text_01”相关联的文本区域1208上的字符信息中的、锚表述前后的字符信息。文档1504包括与链接标识符“text_02”相关联的文本区域1208上的字符信息中的、锚表述前后的字符信息。文档1505包括与链接标识符 “text_03”相关联的文本区域1213上的字符信息中的、锚表述前后的字符信息。列表的显示不限于文档，其可以是诸如缩略图的图像。

在步骤S1409中，应用确定阅读者是否从在步骤S1407中显示的列表显示中选择了文档。如果选择了文档，则处理进入步骤S1410，而如果未选择文档，则处理完成。例如，如果选择了图15D所示的文档1503，则如图15E所示，显示包括与相应的链接标识符相关联的锚表述的页1，并且用红色突出相应的锚表述周边区域1506的外周的线段。如果选择了图15D所示的文档1504，则如图15F所示，显示包括与相应的链接标识符相关联的锚表述的页1，并且用红色突出相应的锚表述周边区域1507的外周的线段。如果选择了图15D所示的文档1505，则如图15E所示，显示包括与相应的链接标识符相关联的锚表述的页4，并且用红色突出相应的锚表述周边区域1508的外周的线段。

尽管在上述第二实施例中，按步骤S1404和S1405的顺序说明了步骤S1404和S1405，但是可以将顺序颠倒(首先进行步骤S1405中的确定，如果在步骤S1405中确定为“显示列表”，则进行步骤S1404中的处理)。

对图14A-14B以及15A-15G的说明完成。

如上所述，根据锚表述的数量是一个、还是两个或更多个，来生成不同类型的链接信息，由此能够获得以下效果。即使当针对“对象”的锚表述的数量是两个或更多个时，阅读者也能够通过简单的操作，从具有“对象”的页移动到阅读者期望并且具有“对象的描述文本”的页。此外，由于以列表的形式提交各个锚表述前后的字符信息，因此阅读者能够容易地确定和选择阅读者移动哪一页。此外，即使当从“对象的描述文本”的页移动到“对象”的页时，也能够通过简单的操作返回到先前刚刚看过的“对象的描述文本”的页。

(其它实施例)

第一和第二实施例处理以下情况：扫描器将包括“对象”和“对象的描述文本”的纸文档扫描成图像数据，输入该图像数据，并生成具有双向链接信息的电子文档数据。然而，输入的文档不限于纸文档；可以是电子文档。换句话说，输入不包括双向链接信息的诸如SVG、XPS、PDF或Office Open XML的电子文档，可以生成具有双向链接信息的电子文档数据。此外，当输入的电子文档已经具有区域信息(位置、大小和属性)以及字符信息时，省略在区域划分部301、属性信息添加部302以及字符识别部303中进行的处理，由此能够提高处理的效率。

尽管在第二实施例中，候选对象显示信息的示例是“显示列表”，但是不限于列表形式的显示。例如，可以使用指示目的地的多个选择的“消息显示”或“错误显示”。

本发明的各方面还能够通过读出并执行记录在存储装置上的用于执行上述实施例的功能的程序的系统或设备的计算机(或诸如CPU或MPU的装置)、以及由系统或设备的计算机例如读出并执行记录在存储装置上的用于执行上述实施例的功能的程序来执行步骤的方法来实现。鉴于此，例如经由网络或者从用作存储装置的各种类型的记录介质(例如计算机可读介质)向计算机提供程序。

虽然参照示例性实施例对本发明进行了说明，但是应当理解，本发明不限于所公开的示例性实施例。所附权利要求的范围符合最宽的解释，以使其涵盖所有这种变型、等同结构及功能。

Claims

1.一种图像处理设备，所述图像处理设备包括：

输入单元，其被配置为输入文档图像数据；

区域划分单元，其被配置为根据属性将所述文档图像数据划分为多个区域，所划分的区域包括文本区域、注释区域以及由所述注释区域伴随的对象区域；

字符识别单元，其被配置为通过对由所述区域划分单元划分的所述文本区域和所述注释区域中的各个内的各个字符执行字符识别处理，来获得字符信息；

锚表述提取单元，其被配置为从所述注释区域中的字符信息中，提取包括识别所述对象区域的预定字符串的锚表述；

文本搜索单元，其被配置为从所述文本区域中的字符信息中，搜索由所述锚表述提取单元提取的所述锚表述；

链接信息生成单元，其被配置为当所述文本搜索单元在所述文本区域中找到多个所述锚表述时，生成将多个锚表述周边区域与图像周边区域彼此相关联的双向链接信息，所述锚表述周边区域是包括所述文本搜索单元在所述文本区域中搜索到的所述锚表述中的各个的区域，所述图像周边区域是包括所述对象区域的区域，其中，所述双向链接信息包括候选对象显示信息，所述候选对象显示信息用于显示关于所述多个所述锚表述周边区域的信息，作为从所述图像周边区域的链接目的地的多个候选对象；以及

格式转换单元，其被配置为生成包括所述文档图像数据和所述双向链接信息的电子文档数据，所述双向链接信息包括所述候选对象显示信息，其中，所生成的电子文档数据由电子文档显示设备来显示，并且

其中，所述电子文档显示设备包括：

信息保持单元，其被配置为当用户选择了所述锚表述周边区域中的一个时，保持所选择的锚表述周边区域的位置信息，其中，所选择的锚表述周边区域的所述位置信息是指示所述锚表述周边区域的位置的信息、用于识别所述锚表述周边区域的识别信息或者与所述锚表述周边区域相对应的链接标识符；以及

显示单元，其被配置为当所述用户选择了所述图像周边区域时，确定所述信息保持单元是否保持了所述位置信息，当保持了所述位置信息时，显示基于所述位置信息参照的所述锚表述周边区域，而当未保持所述位置信息时，基于所述候选对象显示信息来显示所述链接目的地的多个候选对象。

2.根据权利要求1所述的图像处理设备，其中，当所述文本搜索单元找到所述多个所述锚表述时，所述链接信息生成单元生成的所述双向链接信息还包括用于显示指示存在所述多个所述锚表述的消息的信息。

3.根据权利要求1所述的图像处理设备，其中，

所述对象区域包括表、线图以及照片的区域中的至少一个。

4.根据权利要求1所述的图像处理设备，其中，

所述锚表述提取单元提取图号的字符串作为所述锚表述。

5.根据权利要求1所述的图像处理设备，其中，

所述电子文档数据的文件格式是关于SVG、XPS、PDF以及OfficeOpen XML的文件格式。

6.根据权利要求1所述的图像处理设备，其中，

所述双向链接信息包括从所述图像周边区域到所述锚表述周边区域的第一链接以及从所述锚表述周边区域到所述图像周边区域的第二链接，

所述第一链接包括用于当所述电子文档数据的阅读者对所述图像周边区域采取预定动作时、显示相关联的锚表述周边区域的信息，并且

所述第二链接包括用于当所述电子文档数据的阅读者对所述锚表述周边区域采取预定动作时、显示相关联的图像周边区域的信息。

7.根据权利要求1所述的图像处理设备，其中，

所述候选对象显示信息是如下信息，所述信息用于当所述电子文档数据的阅读者对所述图像周边区域采取预定动作时，显示关于所述多个所述锚表述周边区域的列表，作为从所述图像周边区域的链接目的地的所述多个候选对象，以使得所述阅读者能够选择显示所述锚表述周边区域中的哪一个。

8.根据权利要求1所述的图像处理设备，其中，

所生成的电子文档数据中包括的所述文档图像数据是通过执行矢量转换处理和图像压缩处理中的至少一个处理而获得的数据。

9.一种电子文档显示设备，其显示由图像处理设备生成的电子文档数据，

其中，所述图像处理设备包括：

输入单元，其被配置为输入文档图像数据；

链接信息生成单元，其被配置为当所述文本搜索单元在所述文本区域中找到多个所述锚表述时，生成将图像周边区域与多个锚表述周边区域相关联的双向链接信息，所述锚表述周边区域是包括所述文本搜索单元在所述文本区域中找到的所述锚表述中的各个的区域，所述图像周边区域是包括所述对象区域的区域，其中，所述双向链接信息包括候选对象显示信息，所述候选对象显示信息用于显示关于所述多个所述锚表述周边区域的信息，作为从所述图像周边区域的链接目的地的多个候选对象；以及

格式转换单元，其被配置为生成包括所述文档图像数据以及所述双向链接信息的所述电子文档数据，所述双向链接信息包括所述候选对象显示信息，

所述电子文档显示设备包括：

位置信息保持单元，其被配置为当用户选择了所述锚表述周边区域中的一个时，保持所选择的锚表述周边区域的位置信息，其中，所选择的锚表述周边区域的所述位置信息是指示所述锚表述周边区域的位置的信息、用于识别所述锚表述周边区域的识别信息或者与所述锚表述周边区域相对应的链接标识符；以及

显示单元，其被配置为当所述用户选择了所述图像周边区域时，确定所述位置信息保持单元是否保持了所述位置信息，当保持了所述位置信息时，基于由所述位置信息指示的所述锚表述周边区域的位置来显示所述锚表述周边区域，而当未保持所述位置信息时，基于所述候选对象显示信息来显示所述链接目的地的多个候选对象。

10.一种图像处理方法，所述图像处理方法包括：

输入步骤，输入文档图像数据；

区域划分步骤，根据属性将所述文档图像数据划分为多个区域，所划分的区域包括文本区域、注释区域以及由所述注释区域伴随的对象区域；

字符识别步骤，通过对在所述区域划分步骤中划分的所述文本区域和所述注释区域中的各个内的各个字符执行字符识别处理，来获得字符信息；

锚表述提取步骤，从所述注释区域中的字符信息中，提取包括识别所述对象区域的预定字符串的锚表述；

文本搜索步骤，从所述文本区域中的字符信息中，搜索在所述锚表述提取步骤中提取的所述锚表述；

链接信息生成步骤，当在所述文本区域中找到多个所述锚表述时，生成将多个锚表述周边区域与图像周边区域彼此相关联的双向链接信息，所述锚表述周边区域是包括所述文本搜索步骤在所述文本区域中搜索到的所述锚表述中的各个的区域，所述图像周边区域是包括所述对象区域的区域，其中，所述双向链接信息包括候选对象显示信息，所述候选对象显示信息用于显示关于所述多个所述锚表述周边区域的信息，作为从所述图像周边区域的链接目的地的多个候选对象；以及

格式转换步骤，生成包括所述文档图像数据和所述双向链接信息的电子文档数据，所述双向链接信息包括所述候选对象显示信息，其中，所生成的电子文档数据由电子文档显示设备来显示，并且

其中，所述电子文档显示设备执行如下处理：

当用户选择了所述锚表述周边区域中的一个时，保持所选择的锚表述周边区域的位置信息，其中，所选择的锚表述周边区域的所述位置信息是指示所述锚表述周边区域的位置的信息、用于识别所述锚表述周边区域的识别信息或者与所述锚表述周边区域相对应的链接标识符；

当所述用户选择了所述图像周边区域时，确定是否保持了所述位置信息；

当保持了所述位置信息时，显示基于所述位置信息参照的所述锚表述周边区域；以及

当未保持所述位置信息时，基于所述候选对象显示信息来显示所述链接目的地的多个候选对象。