CN101515984A - 电子文档生成设备及电子文档生成方法 - Google Patents

电子文档生成设备及电子文档生成方法 Download PDF

Info

Publication number
CN101515984A
CN101515984A CNA2009100065630A CN200910006563A CN101515984A CN 101515984 A CN101515984 A CN 101515984A CN A2009100065630 A CNA2009100065630 A CN A2009100065630A CN 200910006563 A CN200910006563 A CN 200910006563A CN 101515984 A CN101515984 A CN 101515984A
Authority
CN
China
Prior art keywords
image
character
electronic document
baseline
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100065630A
Other languages
English (en)
Other versions
CN101515984B (zh
Inventor
梅田一郎
田中哲臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN101515984A publication Critical patent/CN101515984A/zh
Application granted granted Critical
Publication of CN101515984B publication Critical patent/CN101515984B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3877Image rotation
    • H04N1/3878Skew detection or correction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种电子文档生成设备及电子文档生成方法。该电子文档生成设备具有用于校正第一图像的畸变以获得校正图像的校正单元,以及用于对包含在该校正图像中的多个字符图像执行字符识别处理以获得文本数据的字符识别单元。该电子文档生成设备还具有用于求出该第一图像中的各字符行的基线的单元,以及用于就该第一图像中的各字符图像、求出该字符图像相对于该基线的相对位置的单元。该电子文档生成设备还包括用于生成包含有该文本数据及该第一图像的电子文档的生成单元,其中,该文本数据的位置是基于相对于该基线的该相对位置而描述的。

Description

电子文档生成设备及电子文档生成方法
技术领域
本发明总体上涉及由具有畸变的图像生成可搜索电子文档的电子文档生成设备及电子文档生成方法。
背景技术
已提出关于扫描图像校正的多种常规方法。日本专利特开第S60-65668(1958)号公报公开了一种校正书本的装订部分中的弯曲畸变的方法。日本专利特开第2002-77578号公报公开了一种进行图像校正的方法,该方法利用原稿上下两端间的距离、摄像设备与原稿间的距离及摄像设备的相对位置,来校正由于拍摄对象表面高度的不均匀而产生的所拍摄图像的畸变。
在日本专利特开第H7-93374(1995)号公报公开的技术中,对文档图像执行字符识别处理,并预先将作为字符识别结果的测试数据与示出文档图像上文本数据的相应位置的坐标信息相关联。此外,在搜索文本时,显示包含与所搜索文本相对应的部分的文档图像页。另外,在日本专利特开第H8-63583(1996)号公报公开的技术中,预先将作为对文档图像执行字符识别处理的结果的文本数据,与分辨率降低了的文档图像相关联,并寄存相关联后的结果,从而使生成可搜索的文档成为可能。
然而,在根据日本专利特开第S60-65668(1985)号公报与日本专利特开第2002-77578号公报的图像校正方法中,在校正之后,由于畸变校正变换中的估计误差所产生的校正误差导致图像中进一步产生畸变,这可能会进一步产生图像质量劣化。也就是说,当执行畸变校正处理时,估计误差等可能会产生进一步的畸变。因此,对用户而言,畸变校正之后的图像有可能比校正之前的图像更难以识别。
另一方面,当对包含畸变的文档图像执行字符识别处理时,从文档图像中提取字符的准确度可能会降低。因此,整个文档图像的字符识别准确度可能会降低。
发明内容
根据本发明的一个实施例,提供一种电子文档生成设备,该电子文档生成设备具有:校正单元,用于校正第一图像的畸变,以获得校正图像;字符识别单元,用于对包含在所述校正图像中的多个字符图像执行字符识别处理,以获得文本数据;用于求出所述第一图像中的各字符行的基线的单元;用于就所述第一图像中的各字符图像,求出该字符图像相对于所述基线的相对位置的单元;以及生成单元,用于生成包含有所述文本数据及所述第一图像的电子文档,其中该文本数据的位置是基于相对于所述基线的所述相对位置而描述的。
通过下面结合附图的对示例性实施例的说明,本发明的其他特征将变得更加清楚。
附图说明
图1是示出根据实施例1的电子文档生成设备的示例的概要的框图。
图2是示出根据实施例1的电子文档生成设备的示例的概要的系统图。
图3是示出电子文档生成处理的实施例的框图。
图4是示出电子文档生成处理的实施例的流程图。
图5A是示出输入图像的示例的一部分的图。
图5B是示出输入图像的示例的一部分的图。
图6A是示出通过旋转输入图像而获得的直立图像的示例的一部分的图。
图6B是示出通过旋转输入图像而获得的直立图像的示例的一部分的图。
图7A是示出通过对直立图像进行畸变校正变换而获得的畸变校正图像的示例的一部分的图。
图7B是示出通过对直立图像进行畸变校正变换而获得的畸变校正图像的示例的一部分的图。
图8A是示出畸变校正图像中的基于测量误差的畸变的示例的图。
图8B是示出畸变校正图像中的基于测量误差的畸变的示例的图。
图9A是示出畸变校正图像上的文本区域的示例的图。
图9B是示出畸变校正图像上的文本区域的示例的图。
图10A是示出从图9A中所示出的文本区域中获得的文本的示例的图。
图10B是示出从图9B中所示出的文本区域中获得的文本的示例的图。
图11A是示出图6A中的区域601的放大图。
图11B是示出图6B中的区域601的放大图。
图12A是示出图11A中的区域1106的放大图。
图12B是示出图11B中的区域1106的放大图。
图13A是示出设定基线及默认字符宽度的文本对象的PDF描述的示例的图。
图13B是示出设定基线及默认字符宽度的文本对象的PDF描述的示例的图。
图14A是示出图13A中的示例的绘制(rendering)的图。
图14B是示出图13B中的示例的绘制的图。
图15A是示出对图13A中各字符设定字符宽度比的文本对象的PDF描述的示例的图。
图15B是示出对图13B中各字符设定字符宽度比的文本对象的PDF描述的示例的图。
图16A是示出图15A中的示例的绘制的图。
图16B是示出图15B中的示例的绘制的图。
图17A是示出对图15A中的各字符设定文本高度(rise)的文本对象的PDF描述的示例的图。
图17B是示出对图15B中的各字符设定文本高度的文本对象的PDF描述的示例的图。
图18A是示出图17A中的示例的绘制的图。
图18B是示出图17B中的示例的绘制的图。
图19A是示出所生成电子文档的图像对象的示例的一部分的图。
图19B是示出所生成电子文档的图像对象的示例的一部分的图。
图20A是示出在利用显示电子文档的软件来搜索单词“センサ”的情况下的输出的示例的图。
图20B是示出在利用显示电子文档的软件来搜索单词“setting”的情况下的输出的示例的图。
具体实施方式
图1是示出根据实施例1的示例电子文档生成设备的概要的框图。
根据此实施例,CPU 101执行存储在ROM 102中的控制程序,以对整个当前设备进行控制。ROM 102中存储有由CPU 101执行的计算机程序,以及各种参数数据。计算机程序可以由CPU 101来执行,以操作该设备(例如计算机)作为用于执行后面要描述的一个或更多个流程图中示出的各处理的各种装置(例如各处理部)。应当指出的是,在该实施例中,可以通过使用计算机(CPU)由软件来实现与(后面所述的)流程图的各步骤相对应的处理,并且,也可以利用诸如电子电路的硬件来实现这些处理的部分或全部。本发明的电子文档生成设备的各实施例,可以利用通用个人计算机来实现,也可以实现为专用于电子文档生成的设备。
在所示的实施例中,RAM 103中存储有图像及各种信息。RAM 103可以用作CPU的工作区,或者用作数据的临时保存区域。
外部存储设备104可以存储各种数据,例如字典。外部存储设备104例如可以包含硬盘、CD-ROM等中的至少一个。具有用于使计算机实现根据本发明的多个方面的功能的计算机可执行指令的计算机程序,例如可以存储在计算机可读的外部存储介质中,或者可以通过网络而提供。显示器105例如可以是LCD或CRT。
根据此实施例的输入设备106,例如可以是用于连接图像输入设备的接口(例如用于连接到数码相机或扫描仪的接口),或者可以是图像输入设备本身(例如数码相机)。在一种方案中,为了将根据本发明各方面的设备实现为数码相机或扫描仪的一部分,可以将本发明的设备并入到数码相机或扫描仪中。
在所示的实施例中,网络接口(I/F)107与连接到网络的外部设备(例如,服务器、外部存储设备、图像输入设备等中的至少一个)进行通信,以读或写程序或数据。所述网络通常是所谓的“通信网络”,例如互联网、LAN、WAN或电话线,即用于数据的发送与接收。显示器105或输入设备106可以通过网络接口107进行连接。
在一种方案中,此种电子文档生成设备例如可以在如图2的示例所示的系统中实现。图2是示出在实施例1中可以采用的计算机系统的示例的图。计算机设备201接收扫描仪202所拍摄的图像数据,以执行电子文档生成的处理。应当了解的是,根据本发明的电子文档生成设备的实施例不仅局限于此构造,也可以被构造为例如能够在其中容装有扫描仪的设备(例如复合机(MPF)等)中生成电子文档。电子文档可以例如利用数码相机等所拍摄的图像来生成。
接下来,图3示出了表示在执行实施例1的电子文档生成处理时各处理部的示例的框图,以及在各处理部输入及输出的数据。
根据如图3所示的实施例,图像旋转部301对整个输入图像进行旋转,以使得输入图像中所包含的字符图像处于基本上直立的姿势,由此获得直立图像。这可以通过如下所述的图4中的步骤S401的处理来实现。例如,当在执行步骤S401之前输入图像处于基本上直立的姿势时,可以跳过步骤S401。
图像畸变校正部302对直立图像进行畸变校正变换,由此获得畸变校正图像。这可以通过如下所述的图4中的步骤S402至步骤S404的处理来实现。
字符识别部303对畸变校正图像执行字符识别处理,以获得字符识别结果的文本数据,以及该文本在畸变校正图像上的坐标。这可以通过如下所述的图4中的步骤S405来实现。
坐标变换部304将由字符识别部303获得的字符识别结果的文本在畸变校正图像上的坐标,变换为在畸变校正之前的直立图像上的坐标。这可以通过如下所述的图4中的步骤S406来实现。
电子文档生成部305根据由图像旋转部301获得的直立图像,以及由字符识别部303获得的字符识别结果的文本数据,生成电子文档。在这里,确定位于直立图像中的各文本区域中的文本数据。这可以通过如下所述的图4中的步骤S407至步骤S409来实现。
文本畸变再现部306根据由电子文档生成部305获得的电子文档,以及由坐标变换部304获得的坐标,求出交叠在该电子文档上的透明字符的基线,以调整字符宽度比及相对位置,从而再现文本的畸变。这可以通过如下所述的图4中的步骤S410至步骤S415来实现。
接下来,图4中将示出实施例1中的处理的流程图的示例。
在步骤S401,CPU 101将输入图像朝直立姿势旋转,以获得直立图像。图5A及图5B各自示出了根据实施例1的输入图像的示例的一部分。图5A是用日文描述的文档图像的示例,图5B是用英文描述的文档图像的示例。由于该输入图像的整个图像(所有字符图像)大部分是倾斜的,所以在这种状态下不能执行字符识别处理。因此,对整个输入图像进行旋转,以使得除书本装订部分中的字符行以外的字符行都处于基本上直立的姿势。图6A及图6B各自示出了通过旋转并变换图5A及图5B各图中的图像而获得的直立图像的一部分。应当指出,可以利用基本上不出现误差的位图变换来进行图像的旋转。旋转角度可以由用户来指示,也可以自动求出。在自动求出旋转角度的情况下,例如可以将图5A及图5B各自中的图像划分为多个小部分,可以找出各小部分中所含字符行的倾斜角度。在从各小部分获得的倾斜角度之中,可以找出出现最频繁的那个角度,作为整个图像的倾斜角度。
由于在步骤S401获得的直立图像中,书本装订部分中的畸变等保持原有状态,因此在步骤S402,CPU 101求出用于上述获得的直立图像的畸变校正变换(例如,在校正时使用的校正公式、系数、变量等的至少一个)。畸变校正变换可以旨在校正图像中的畸变部分,以提供正确姿势。该畸变校正方法可以是如日本专利特开第S60-65668(1985)号公报或日本专利特开第2002-77578号公报中所述的方法,或者是其他畸变校正变换方法。不过,该方法还可以涉及求出逆变换。
在步骤S403,CPU 101根据以上所获得的畸变校正变换(例如畸变校正计算公式等),求出畸变校正逆变换(例如逆变换的计算公式等)。
在步骤S404,CPU 101对在步骤S401获得的直立图像(即在畸变校正之前获得的图像),进行在步骤S402获得的畸变校正变换,以获得畸变校正图像(即在畸变校正之后获得的图像)。在对图6A及图6B的各图中的图像的示例进行畸变校正变换的情况下,可以获得如图7A及图7B中示例各自所示的畸变校正图像。也就是说,图7A是用日文描述的文档的畸变校正之后的图像的示例,图7B是用英文描述的文档的畸变校正之后的图像的示例。由于在对畸变的测量中可能会出现测量误差,因此,基于测量误差,在畸变校正图像中往往更容易出现畸变。图8A及图8B各自示出了可能在校正之后出现的这种畸变的示例。如图8A及图8B各自所示,由于在由于测量误差等导致的、校正之后出现的畸变,是相对不自然的畸变,因此,用户可能认为该畸变是过于不自然的和/或令人迷惑的,以致于图像可能难以识别。也就是说,对用户而言,保留有更自然的畸变(例如在书本的装订部分等处)的直立图像(例如如图6A及图6B各图中所示),可能比出现有更不自然的畸变的畸变校正图像(例如如图8A及图8B各图中所示)更容易识别。然而,在执行字符识别处理时,在保留有更自然的畸变的状态下(如图6A及图6B各图的示例中所示),由于在装订部分处字符提取处理的失败,整个文档中的字符识别准确度可能往往更容易降低。也就是说,对于字符识别处理而言,在许多情况下,图7A及图7B各图中所示的畸变校正图像(相对应地,图8A及图8B各图中所示的畸变校正图像),比保留有图6A及图6B各图中所示的畸变的直立图像更适合这种处理。
在步骤S405,CPU 101对畸变校正图像执行字符识别处理,以求出字符识别结果的文本,以及在畸变校正图像上的坐标。在图9A及图9B的各图中示出了如图7A及图7B各图的示例中所示的畸变校正图像上的文本区域701;而图10A及图10B各自示出了从其中获得的文本的示例。应当指出,可以使用字符识别技术来进行字符识别处理。以下,将实施例1中的畸变校正图像上的坐标,设计成被获得作为由多个字符图像构造的文本区域的位置坐标,以及各字符图像的位置坐标,但不局限于此。
在步骤S406中,CPU 101基于在步骤S403所获得的畸变校正逆变换(例如逆变换公式)以及在步骤S405获得的畸变校正图像上的坐标,获得与畸变校正之前获得的图像相对应的直立图像上的坐标。例如,当对图7A及图7B各图的示例中所示的文本区域701内的各顶点的坐标进行逆变换,以求出包围逆变换之后的顶点坐标的外切矩形时,可以获得图6A及图6B各图的示例中所示的区域601。另外,当对包围图9A及图9B各图的示例中所示的字符901的矩形的各顶点坐标进行逆变换时,获得包围逆变换结果的顶点坐标的矩形,作为如图6A及图6B各图中的示例中所示的字符602的坐标。
在步骤S407,CPU 101生成电子文档。应当指出,该电子文档可以是如下的一种文档,在该文档中,至少存在图像对象和字符对象,并且二者在相同坐标上交叠,而且还可以将字符对象处理为可搜索且不显示的字符对象(例如透明对象)。在根据实施例1的一个方案中,生成有PDF文档。
在步骤S408,CPU 101将直立图像作为图像对象定位在电子文档中。例如,可以定位如图6A及图6B各图的示例中所示的直立图像。
在步骤S409,CPU 101确定位于在步骤S406所获得的各文本区域的坐标处的文本对象(例如对应于字符识别结果的文本数据)。例如,在图6A及图6B各图的示例中,可以确定位于文本区域601中的文本对象。另外,可以将位于各文本区域中的文本数据,按照作为透明字符交叠在由步骤S408所定位的图像对象上以进行绘制的方式描述在PDF文档内。
在步骤S410,CPU 101针对在步骤S409的定位中确定的文本对象,求出各字符行的默认基线及默认字符宽度。另外,在电子文档中描述默认基线及默认字符宽度的信息。默认基线例如可以等于相同行中大多数字符所具有的基线。默认字符宽度例如可以等于相同行中大多数字符所具有的字符宽度。举例来说,在图6A及图6B各图中所示的区域601中,如图11A及图11B各图中所示,基线可以对应于基线1101至基线1104,默认字符宽度例如可以对应于默认字符宽度1105等。图11A是用日文描述的文档的示例,图11B是用英文描述的文档的示例。在对已在步骤S409确定位置的文本对象设定基线1101至基线1104及默认字符宽度1105的情况下,文本对象的PDF描述的一部分可以如图13A及图13B各图的示例中所示。应当指出,为了便于进行说明,图13A中的示例是提取并示出文档描述示例的一部分的图,而由“<...>”标记所包围的部分示出字符代码。图13B中的示例也是提取并示出文档描述示例的一部分的图,而由“()”标记所包围的部分示出字符(即字符代码)。应当指出,为了便于进行说明,图13B中的示例也省略了一部分描述。如果对如图13A及图13B各图的示例中所示的PDF描述进行了绘制,则该绘制的结果可以如图14A及图14B各图的示例中所示。在图14A及图14B各图的示例中,所述绘制是利用如图11A及图11B各图的示例中所确定的默认基线及默认字符宽度来进行的,各字符行被基本线性地定位。应当指出,图13A及图14A各图是用日文描述的文档的示例,图13B及图14B各自是用英文描述的文档的示例。
步骤S411示出了以下循环的结束,在该循环中,CPU 101针对文本对象中的各字符重复执行从步骤S412到步骤415的处理。当从步骤S412至步骤S415的所述循环处理完成时,生成实施例1的电子文档。
在步骤S412中,CPU 101求出各字符图像对象的字符宽度与文本区域中的默认字符宽度之间的比。在图12A及图12B各图的示例中示出在图11A及图11B各图的示例中所示的区域1106的放大图。举例来说,在步骤S412,可以求出字符1201的字符宽度1202与文本对象的默认字符宽度1105之间的比。
在步骤S413,CPU 101对文本对象中的各字符设定在步骤S412获得的字符宽度比。图15A及图15B各自示出了如下文本对象的PDF描述的一部分的示例,在该文本对象中对图13A及图13B各图的示例中所示的文本对象中的各字符设定了字符宽度比。另外,在对图15A及图15B各图中的示例进行绘制的情况下,该绘制结果如图16A及图16B各图的示例中所示。在示出PDF描述示例的图15A及图15B中,对各字符设定的字符宽度比是在描述符Tj随后的值。应当指出,对于宽度等于默认字符宽度的字符,省略了字符宽度比的描述。
在步骤S414,CPU 101求出从文本对象的基线到各字符图像位置坐标的相对位置(例如偏移量)。举例来说,对于在图12A及图12B各图的示例中所示的字符1201,求出相对于在步骤S410所获得的基线1102的相对位置1203。
在步骤S415,CPU 101将在步骤S414求出的相对位置,表示为文本对象中的字符的文本高度。当对如图15A及15B各图的示例中所示的文本对象的PDF描述示例设定了文本高度时,该设定结果如图17A及图17B各图的示例中所示。在对如图17A及图17B各图的示例中所示的文本对象描述进行绘制的情况下,该绘制结果可以如图18A及图18B各图的示例中所示。应当指出,在示出PDF描述示例的图17A及图17B各图的示例中,所设定的文本高度是在描述符Ts之前描述的值。
根据以上所描述的实施例而生成的电子文档,是按以下方式描述的PDF文档:将如图18A及图18B各图的示例中所示的文本对象,与如图19A及图19B各图的示例中所示的图像对象相交叠,并作为透明字符定位在该图像对象上。在该生成的文档中,利用文本高度的描述,将文本对象的各字符的描绘位置作为相对于基线的相对位置进行描述。
另外,图20A示出了在显示这样生成的电子文档的软件(例如
Figure A20091000656300131
公司的Acrobat
Figure A20091000656300132
等)中搜索日文单词“センサ”情况下的输出的示例。图20B示出了在搜索英文单词“setting”的情况下的输出的示例。结果,在实施例1中,当搜索电子文档时,由于对交叠在直立图像上的透明字符的字符代码进行搜索,因此,如同对直立图像的相应位置2001进行了搜索一样显示字符。
如上所述,在当前实施例中,由于利用校正了畸变的图像来执行字符识别,因此有可能提高整个文档图像的字符识别率(例如字符识别的准确度)。另一方面,用于显示的图像使用了在畸变校正之前获得的图像(例如,只进行过几乎不导致图像质量劣化的旋转的图像),因此能够防止显示可能发生图像质量劣化的图像(该图像可能被认为不自然的或令人迷惑的)。另外,在文本搜索中,对应于在进行畸变校正之前的图像上的位置被反转显示,因此该搜索可以被视为如同对该图像进行文本搜索一样。
另外,当按其原状通过绝对坐标来描述图12A及图12B各图的示例中的字符1201的位置时,由于字符1201被置于基线1102与基线1103之间,因此不容易明确字符1201属于哪个字符行。然而,根据本实施例的各方面,由于利用文本高度的描述、以相对于基线的相对位置来描述字符1201的位置,因此字符1201显然属于基线1102的字符行。也就是说,属于图像上相同行的字符行被构造为即使在电子文档描述中也属于一个行。因此,此结构可以防止字符属于不同字符行进而在搜索过程中遗漏字符的情况发生。此外,在复制或粘贴电子文档中的文本时,可以保留准确的新行信息。
另外,尽管实施例1示出的是PDF文档生成的示例,可是该发明的各方面同样适用于除PDF以外的其他格式电子文档(例如XPS(XML纸张规格)文档)的生成。
此外,在实施例1中,在步骤S410,可以由各字符在水平方向上的位置坐标,来求出字符间隔(例如水平方向上的字符间距量),从而描述电子文档中的字符间隔。该字符间隔可以在各个字符处求出,并进行描述。另外,还可以求出平均字符间隔作为默认字符间隔,并利用默认字符间隔来描述字符。
因此,本发明的各方面可以提供一种电子文档,该电子文档能够显示用户相对容易识别的图像,同时保持字符识别的准确度。本发明的各实施例可以还顾及到甚至在字符识别结果以诸如PDF(可移植文档格式)等格式方式嵌入的情况下进行的文本搜索。
根据本发明的实施例,在搜索基于依据本发明的方法而生成的电子文档时,能够在对未经历畸变校正的图像上显示搜索结果。另外,由于可以利用经历了畸变校正的图像来执行字符识别,因此能够提高整个文档图像的字符识别率(例如字符识别的准确度)。此外,由于可以使用在畸变校正之前获得的图像作为用于显示的图像,因此这可以防止对由于畸变校正误差而出现图像质量劣化的图像的显示,否则其可能对于用户看来是不自然的和/或令人迷惑的。此外,由于可以利用相对于基线的相对位置,来描述属于一字符行的各个文本数据,因此可以明确各个文本数据所属的字符行,从而提高进行搜索或复制的准确度。
虽然参照示例性实施例对本发明进行了描述,然而应理解,本发明并不局限于所公开的示例性实施例。应对所附权利要求的范围给予最宽泛的解释,以涵盖所有的这种变型、等同结构和功能。

Claims (8)

1.一种电子文档生成设备,该电子文档生成设备包括:
校正单元,用于校正第一图像的畸变,以获得校正图像;
字符识别单元,用于对包含在所述校正图像中的多个字符图像执行字符识别处理,以获得文本数据;
用于求出所述第一图像中的各字符行的基线的单元;
用于就所述第一图像中的各字符图像、求出该字符图像相对于所述基线的相对位置的单元;以及
生成单元,用于生成包含有所述文本数据及所述第一图像的电子文档,其中,所述文本数据的位置是基于相对于所述基线的所述相对位置而描述的。
2.根据权利要求1的电子文档生成设备,该电子文档生成设备还包括:
旋转单元,用于旋转输入图像以获得直立图像,其中,所述第一图像是由所述旋转单元所获得的所述直立图像。
3.根据权利要求1的电子文档生成设备,其中,所述生成单元生成包含有作为透明字符与所述第一图像相交叠的所述文本数据,其中所述文本数据的位置是基于相对于所述基线的所述相对位置而描述的。
4.根据权利要求1的电子文档生成设备,其中,所述生成单元通过使用文本高度的描述,来生成包含有基于相对于所述基线的所述相对位置而描述的所述文本数据的所述电子文档。
5.根据权利要求1的电子文档生成设备,该电子文档生成设备还包括:
逆变换单元,用于对包含在所述校正图像中的各字符图像的位置坐标执行畸变校正逆变换,以求出所述第一图像中的各字符图像的位置坐标,其中,相对于所述基线的所述相对位置,是基于由所述逆变换单元求出的所述第一图像中的各字符图像的所述位置坐标而求出的。
6.根据权利要求1的电子文档生成设备,该电子文档生成设备还包括:
用于求出所述字符图像的默认字符宽度的单元,以及
用于求出所述第一图像中的各字符图像的字符宽度与所述默认字符宽度之间的比的单元,其中,所述生成单元基于相对于所述基线的所述相对位置来描述所述文本数据在所述第一图像上的所述位置,并进一步生成包含有利用与所述默认字符宽度的所述比来描述所述字符宽度的所述文本数据的所述电子文档。
7.根据权利要求1的电子文档生成设备,其中,由所述生成单元所生成的所述电子文档是PDF文档。
8.一种电子文档生成方法,该电子文档生成方法包括:
校正第一图像的畸变,以获得校正图像;
对包含在所述校正图像中的多个字符图像执行字符识别处理,以获得文本数据;
求出所述第一图像中的各字符行的基线;
就所述第一图像中的各字符图像,求出该字符图像相对于所述基线的相对位置;以及
生成包含有所述文本数据及所述第一图像的电子文档,其中,所述文本数据的位置是基于相对于所述基线的所述相对位置而描述的。
CN2009100065630A 2008-02-19 2009-02-19 电子文档生成设备及电子文档生成方法 Expired - Fee Related CN101515984B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008037774 2008-02-19
JP2008037774A JP4902568B2 (ja) 2008-02-19 2008-02-19 電子文書生成装置、電子文書生成方法、コンピュータプログラム、および記憶媒体
JP2008-037774 2008-02-19

Publications (2)

Publication Number Publication Date
CN101515984A true CN101515984A (zh) 2009-08-26
CN101515984B CN101515984B (zh) 2011-08-17

Family

ID=40405096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100065630A Expired - Fee Related CN101515984B (zh) 2008-02-19 2009-02-19 电子文档生成设备及电子文档生成方法

Country Status (5)

Country Link
US (1) US8532386B2 (zh)
EP (1) EP2093994B1 (zh)
JP (1) JP4902568B2 (zh)
KR (1) KR101018310B1 (zh)
CN (1) CN101515984B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592120A (zh) * 2010-12-01 2012-07-18 柯尼卡美能达商用科技株式会社 电子文档生成系统和电子文档生成方法
CN105225218A (zh) * 2014-06-24 2016-01-06 佳能株式会社 用于文档图像的畸变校正方法和设备
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN105654082A (zh) * 2014-11-12 2016-06-08 佳能株式会社 字符识别后处理方法、设备及包括该设备的图像拾取设备
WO2021051527A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于图像分割的文字定位方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010109448A (ja) * 2008-10-28 2010-05-13 Canon Inc 画像処理方法及び画像読取装置
CN102201053B (zh) 2010-12-10 2013-07-24 上海合合信息科技发展有限公司 一种文本图像的切边方法
KR101294306B1 (ko) * 2011-06-09 2013-08-08 엘지전자 주식회사 휴대 전자기기 및 이의 제어방법
CN106156766B (zh) 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
JP2017187988A (ja) * 2016-04-07 2017-10-12 東芝テック株式会社 コード認識装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4251799A (en) * 1979-03-30 1981-02-17 International Business Machines Corporation Optical character recognition using baseline information
JPS6065668A (ja) 1983-09-20 1985-04-15 Ricoh Co Ltd 画像処理方式
JP3576570B2 (ja) * 1991-11-19 2004-10-13 ゼロックス コーポレイション 比較方法
JP3186246B2 (ja) 1992-09-24 2001-07-11 株式会社日立製作所 文書読取装置
JP3491962B2 (ja) 1993-05-07 2004-02-03 キヤノン株式会社 文書検索方法及びシステム
EP0677812B1 (en) 1994-04-15 2001-11-21 Canon Kabushiki Kaisha Document storage and retrieval system
US5930001A (en) * 1994-10-25 1999-07-27 Canon Kabushiki Kaisha Copier which rotates an image based on the recognition of an extracted character from various directions
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
JP2000322417A (ja) 1999-05-06 2000-11-24 Canon Inc 画像ファイリング装置及び方法及び記憶媒体
JP2002077578A (ja) 2000-08-30 2002-03-15 Minolta Co Ltd 歪み補正装置およびその方法ならびに歪み補正プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002108940A (ja) 2000-09-29 2002-04-12 Toshiba Corp 情報検索方法及び情報検索装置
JP2002358514A (ja) * 2000-12-14 2002-12-13 Ricoh Co Ltd 画像歪み補正装置、プログラム、記憶媒体、画像歪み補正方法、画像読取装置および画像形成装置
GB0104664D0 (en) * 2001-02-23 2001-04-11 Hewlett Packard Co Improvements relating to document capture
US6996290B2 (en) * 2002-01-31 2006-02-07 Hewlett-Packard Development Company, L.P. Binding curvature correction
CN1623164A (zh) * 2002-09-30 2005-06-01 松下电器产业株式会社 图像校正装置及图像校正方法
JP4136860B2 (ja) 2003-02-20 2008-08-20 株式会社リコー 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
US7602995B2 (en) 2004-02-10 2009-10-13 Ricoh Company, Ltd. Correcting image distortion caused by scanning
JP4760362B2 (ja) * 2005-12-21 2011-08-31 三菱電機株式会社 文字読取装置
US7903876B2 (en) * 2007-02-27 2011-03-08 Seiko Epson Corporation Distortion correction of a captured image

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592120A (zh) * 2010-12-01 2012-07-18 柯尼卡美能达商用科技株式会社 电子文档生成系统和电子文档生成方法
CN102592120B (zh) * 2010-12-01 2015-05-06 柯尼卡美能达商用科技株式会社 电子文档生成系统和电子文档生成方法
CN105225218A (zh) * 2014-06-24 2016-01-06 佳能株式会社 用于文档图像的畸变校正方法和设备
CN105225218B (zh) * 2014-06-24 2018-12-21 佳能株式会社 用于文档图像的畸变校正方法和设备
CN105654082A (zh) * 2014-11-12 2016-06-08 佳能株式会社 字符识别后处理方法、设备及包括该设备的图像拾取设备
CN105654082B (zh) * 2014-11-12 2019-04-12 佳能株式会社 字符识别后处理方法、设备及包括该设备的图像拾取设备
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
WO2021051527A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于图像分割的文字定位方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20090297027A1 (en) 2009-12-03
JP2009200622A (ja) 2009-09-03
CN101515984B (zh) 2011-08-17
KR20090089793A (ko) 2009-08-24
US8532386B2 (en) 2013-09-10
JP4902568B2 (ja) 2012-03-21
EP2093994B1 (en) 2016-05-04
KR101018310B1 (ko) 2011-03-04
EP2093994A1 (en) 2009-08-26

Similar Documents

Publication Publication Date Title
CN101515984B (zh) 电子文档生成设备及电子文档生成方法
CN102117269B (zh) 对文档进行数字化的装置及方法
US8732570B2 (en) Non-symbolic data system for the automated completion of forms
US8112706B2 (en) Information processing apparatus and method
US8233671B2 (en) Reading device with hierarchal navigation
CN102622593B (zh) 一种文本识别方法及系统
US20170011732A1 (en) Low-vision reading vision assisting system based on ocr and tts
JP7387339B2 (ja) 画像処理システム、画像処理方法、及びプログラム
JP2008052372A (ja) 画像処理装置、手書き情報認識方法、手書き情報認識プログラム
JP7262993B2 (ja) 画像処理システム、画像処理方法、画像処理装置
CN109508712A (zh) 一种基于图像的汉语文字识别方法
EP2302592B1 (en) Layout editing system, layout editing method, and image processing apparatus
JP6167528B2 (ja) 画像コーナーを修正する方法及び装置並びに画像処理設備
JP2022066321A (ja) 情報処理装置及びプログラム
US10306095B2 (en) Image processing apparatus and method
CN112365402B (zh) 智能组卷方法、装置、存储介质及电子设备
US20040191731A1 (en) Paper document-based assistive technologies for the visually impaired
US20110199627A1 (en) Font reproduction in electronic documents
US20200396351A1 (en) Character recognition device, method of generating document file, and storage medium
JP4177325B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP4924990B2 (ja) 文書処理装置および文書処理プログラム
JP2006309443A (ja) 情報処理システム、情報処理装置、情報処理端末、情報処理方法、その方法をコンピュータで実行するプログラム、および記録媒体
CN113869301A (zh) 一种扫描打印方法、装置、设备及存储介质
JP6194781B2 (ja) 画像処理装置及びプログラム
CN111669478A (zh) 图像处理装置、图像处理系统、存储介质及图像处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110817

CF01 Termination of patent right due to non-payment of annual fee