CN113762064A

CN113762064A - 图像处理装置、方法、存储介质

Info

Publication number: CN113762064A
Application number: CN202110615820.1A
Authority: CN
Inventors: 伊藤真也
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-06-03
Filing date: 2021-06-02
Publication date: 2021-12-07
Also published as: US20210383108A1; JP7528542B2; JP2021189952A

Abstract

本发明涉及提供在提高了图像中包含的字符串的再现性的基础上生成文本文件的图像处理装置、方法以及存储介质。本发明提供的图像处理装置包括，根据从图像中提取的多个字符串的位置关系，设定多个字符串各自的布置方法的布置方法设定部(342c)；以及根据布置方法设定部(342c)设定的所述布置方法，生成图像的字符串的文件生成部(343)。

Description

图像处理装置、方法、存储介质

技术领域

本发明涉及用于生成图像中包含的字符串的文本文件的图像处理装置、方法以及存储介质。

背景技术

众所周知，印有文档的纸张可以通过扫描、OCR等字符识别，把该文档的内容转换为Office Open XML Document格式文件的处理。通过这种处理，由于纸张上的文档可以转换为文本数据文件，因而，通过个人电脑等可以对文档进行重新编辑。

目前，已经开发了用于在上述处理中提高识别文件内字符串精度的技术。如专利第5538812号公报(专利文献1)公开了一种基于受到扫描的稿件的文字得字体和大小来补偿文字识别结果的技术。

但是，如图9所示，以专利文献1为首的现有技术在某些情况下会无法根据文件内字符串的构成恰当地生成文本文件。图9是一例用现有技术生成图像中包含的字符串的文本文件的示意图。其中，(a)是将要转换为文本文件对象的纸张，是一例印有以两个栏目构成的文件的纸张。

在此，扫描图9的(a)所示的纸张，生成文本文件后，有时会生成为图9的(b)所示的文本文件。图9的(b)显示了一例用文字处理软件展开的未能正确转换文档的文本文件的画面。如图9的(b)所示，当两个栏目构成的文档没有被正确转换时，会输出把各个栏目连在一起的文档。比如如图9所示，"新年好"之后接着应该是"恭喜发财"，但却把旁边的栏的"盛夏之际"的字符串识别为是同一行的字符串，由此输出了错误文档。由于输出了这种再现性差的文本文件，因而需要费时费力重新编辑，降低了可用性。

因此，需要一种能够考虑到文档构成来生成文本文件的技术。

发明内容

鉴于上述现有技术中的问题，本发明旨在提供能够在提高图像中包含的字符串的再现性的基础上生成文本文件的图像处理装置、方法以及存储介质。

为了达到上述目的，本发明提供的图像处理装置包括，设定单元，用于根据从图像中提取的多个字符串的位置关系，设定所述多个字符串各自的布置方法；以及生成单元，用于根据所述设定单元设定的所述布置方法，生成所述图像的字符串的文本文件。

本发明的效果在于，能够提供在提高了图像中包含的字符串的再现性的基础上生成文本文件的图像处理装置、方法以及存储介质。

附图说明

图1是本实施方式涉及中的系统整体的硬件结构示意图。

图2是本实施方式的MFP所包含的硬件结构示意图。

图3是本实施方式的MFP所包含的软件框图。

图4是本实施方式的文件变换部的示意图。

图5是本实施方式的MFP的文本文件变换处理流程图。

图6是一例利用本实施方式的文本文件变换处理生成的文本文件的示意图，文本文件包含具有栏目关系的字符串。

图7是一例利用本实施方式的文本文件变换处理生成的文本文件的示意图，文本文件包含具有重叠关系的字符串。

图8是一例利用本实施方式的文本文件变换处理生成的文本文件的示意图，文本文件包含没有栏目关系且没有重叠关系的字符串。

图9是一例用现有技术来生成图像中包含的文章的文本文件的示意图。

具体实施方式

以下，用实施方式说明本发明，但本发明并不限于后述的实施方式。在以下参考的各个附图中，对于共同的要素使用相同的符号，并适当省略其说明。

图1是本实施方式的系统100整体的硬件结构模块图。图1中例示了MFP(Multi-Function Peripheral)110和个人计算机终端120通过互联网或LAN等网络130连接的环境。MFP110或个人计算机终端120与网络130连接的连接方法既可以是有线也可以是无线。

MFP110是本实施方式的图像处理装置，执行基于打印作业的打印处理或通过读取纸张执行扫描处理等。

个人计算机终端120是本实施方式的信息处理装置，除了向MFP110发送打印作业之外，还可以对MFP110扫描的图像和MFP110输出的文本文件进行显示和编辑等处理。在其他实施方式中，个人计算机终端120也可以构成为图像处理装置，例如也可以用个人计算机终端120来处理MFP110扫描的图像，将图像内的字符串变换为文本文件。

接下来说明MFP110的硬件构成。图2是本实施方式的MFP110所具有的硬件结构模块图。MFP110包括CPU210、RAM220、ROM230、存储装置240、打印装置250、扫描装置260、通信I/F270、显示器280、输入装置290，各硬件通过总线连接。

CPU210是执行控制MFP110动作的程序，进行规定处理的装置。RAM220是用于提供CPU210所执行的程序的执行空间的挥发性存储装置，用于程序和数据的存储、展开。ROM230是用于保存CPU210执行的程序和固件等的非易失性存储装置。

存储装置240是保存使MFP110发挥功能的OS或各种软件、设定信息、各种数据等的可读写非易失性存储装置。存储装置240如有HDD(Hard Disk Drive)和SSD(Solid StateDrive)等。

打印机装置250通过激光方式或喷墨方式等在纸张上形成图像。扫描仪装置260读取打印物的图像并进行数据化处理。MFP110还可以通过例如扫描装置260和打印装置250的协作进行打印物的复印。

通信I/F270把MFP110和网络130连接起来，使得MFP110可以通过网络130与其他装置通信。通过网络130的通信既可以是有线通信也可以是无线通信，能够使用TCP/IP等规定的通信协议来发送和接收各种数据。

显示器280是向用户显示各种数据和MFP110状态等的装置，如LCD(LiquidCrystal Display)等。输入装置290是用于用户操作MFP110的装置，例如键盘、鼠标等。显示器280和输入装置290既可以是各自不同的装置，也可以是类似触摸面板显示器，兼具两者功能的装置。

以上说明了本实施例的MFP110所包含的硬件构成。接下来参考图3说明本实施方式中由各硬件执行的功能单元。

图3是本实施方式的MFP110所具有的软件框图。本实施方式的FMP110包括图像读取部310、图像处理部320、打印部330、文件变换部340、存储部350的各模块。

图像读取部310用于控制扫描装置260读取稿件并输出图像数据。图像读取部310读取的稿件的图像数据被输出到图像处理部320。

图像处理部320用于对图像数据进行各种补偿处理，包括伽玛补偿部321、区域检测部322、数据I/F部323、颜色处理/UCR部324、打印机补偿部325。图像处理部320处理的图像数据既可以是图像读取部310输出的数据，也可以是保存在存储部350中的数据，还可以是从个人计算机终端120等取得的数据。

伽马补偿部321用于为保持图像数据(A/D变换后的R、G、B各色8位)的各色色调平衡一致而对各信号实施一维变换。在此为了说明，由伽玛补偿部321补偿后的浓度线性信号(RGB信号)被输出到区域检测部322和数据I/F部323。

区域检测部322用于通过判断图像数据的关注像素或像素块是文字区域还是非文字区域(即图案)，进而判断是有彩色还是无彩色，来检测该像素的区域。区域检测部322检测出的结果被输出到颜色处理/UCR部324。

数据I/F部323是在将区域检测部322的检测结果及伽玛补偿部321补偿后的图像数据暂时保存到存储装置240时的HDD管理接口。

颜色处理/UCR部324用于根据每个像素区域或像素块的判断结果，对处理对象的图像数据进行颜色处理或UCR(undercolorremoval)处理。

打印机补偿部325用于接受来自颜色处理/UCR部324的C、M、Y、Bk的图像信号，进行考虑了打印机特性的伽玛补偿处理和仿色处理。

打印部330用于根据由图像处理部320处理的图像数据，控制打印机装置250的动作，执行打印作业。

文件变换部34用于将包含在图像数据中的字符串变换为文本文件。被变换的图像数据既可以是图像读取部310输出的数据，也可以是保存在存储部350中的数据，还可以是从个人计算机终端120等取得的数据。例如，本实施方式的文件变换部340将图像数据变换为Microsoft(注册商标)Word等文字处理软件所采用的Office Open XML Document格式。但是，文本文件的格式并不局限于上述内容，可以是各种格式的文本文件。以下，将本实施方式中的变换处理作为"文本文件变换"参考。

在此，用图4来详述文件变换部340。图4是本实施方式的文件变换部340构成的示意图。文件变换部340用于将图像数据转换为文本文件，其中包括字符串提取部341、字符串处理部342、以及文件生成部343。

字符串提取部341用于对图像进行OCR(Optical Character Recognition)处理，提取图像内的字符串。字符串提取部341将提取的字符串数据与文本文件变换之前的图像数据一起输出到字符串处理部342。另外，提取图像内字符串的方法不限于OCR，也可以是除此之外的其他方法。例如，在其他实施方式中，可以通过像域分离等已知的类似字符识别技术，来提取图像中的字符串。

字符串处理部342用于进行文本文件中字符串布置方法的选择处理，选择字符串提取部341所提取的图像内的字符串在文本文件中的布置方法。关于文本文件中的字符串布置方法，可以例举出把字符串布置到文本框中的方法、把字符串布置到文本文件的文档之中的方法等等。在下面描述的实施方式中，把布置在文本文件正文中的字符串作为"标准文本"来参考。另外，从图像数据中提取多个字符串时，也可以生成布置在文本框中的字符串和作为标准文本布置的字符串混合存在的文本文件。

字符串处理部342如图4所示，包括行矩形区域提取部342a、区域关系判断部342b、以及布置方法设定部342c。

行矩形区域提取部342a用于提取包围一行字符串的矩形区域(以下称为"行矩形区域")。当从图像中提取多个字符串时，行矩形区域提取部342a提取各个字符串的行矩形区域。

区域关系判断部342b用于判断被提取的各个行矩形区域的位置关系。区域关系判断部342b基于一个行矩形区域和其他与该行矩形区域邻接的行矩形区域之间的位置关系，判断字符串的布局。例如，区域关系判断部342b判断一个行矩形区域与其他行矩形区域之间是否存在栏目关系、是否存在重叠关系、或者既不存在栏目关系也不非重叠关系。区域关系判断部342b将各行矩形区域和判断结果一起输出到布置方法设定部342c。

布置方法设定部342c基于区域关系判断部342b的判断结果，设定与各判断结果相关的字符串的布置方法。布置方法设定部342c把诸如与其他行矩形区域具有栏目关系或者重叠关系的字符串的布置方法设定为布置在文本框中，而把与其他行矩形区域的关系既不是栏目关系也不是重叠关系的字符串的布置方法设定为作为标准文本来布置。

文件生成部343用于在由字符串处理部342设定了各字符串的布置方法之后，生成将图像信息内的各字符串以各自设定的布置方式布置了的Office Open XML Document格式的文本文件。文件生成部343生成的文本文件保存在存储部350中，或发送到个人个人计算机终端120，用于文本的再编集。

上述软件模块相当于通过CPU210执行本实施方式的程序而使各硬件发挥功能所实现的功能单元。各实施方式所示的功能但单元既可以全部由软件实现，也可以将其中一部分或全部作为提供同等功能的硬件来实现。

进而，上述各功能单元并不一定完全如图3及图4所示，构成为包含在MFP110中。例如，在另一个优选实施方式中，当把个人计算机终端120作为图像处理装置时，个人计算机终端120可以具备文件转换单元340。

至此，对本实施方式的MFP110的软件模块构成进行了说明。接下来说明MFP110执行的处理。图5是本实施方式的MFP110的文本文件变换处理的流程图。

MFP110从步骤S1000启动文本文件变换处理，在步骤S1001，取得作为文本文件变换对象的图像数据。进行文本文件变换处理的图像数据既可以是图像读取部310输出的数据，也可以是保存在存储部350中的数据，还可以是从个人计算机终端120等其他装置取得的数据。

接着，在步骤S1002中，字符串提取部341通过OCR处理等提取所取得的图像数据中包含的字符串。在此设定，图像内包含多个字符串。步骤S1002之后，字符串处理部342分别对提取的字符串分别进行以下处理。

在步骤S1003中，行矩形区域提取部342a提取在步骤S1002中提取的各字符串的行矩形区域。在接下来的步骤S1004中，区域关系判断部342b判断某个行矩形区域和其他行矩形区域之间的关系。在步骤S1005中，根据步骤S1004判断的结果，即根据与其他行矩形区域之间是否为栏目关系，分别执行不同的处理。如果是栏目关系(是)，则前往步骤S1007，如果不是栏目关系(否)，则前往步骤S1006。

在步骤S1006中，根据进一步判断与其他行矩形区域之间是否存在重叠关系的判断结果，分别进行不同的处理。如果是重叠关系(是)，则前往步骤S1007，而如果不是重叠关系(是)，前往步骤S1008。

当上述某个行矩形区域与其他行矩形区域之间具有栏目关系或者重叠关系时，在步骤S1007中，布置方法设定部342c把该行矩形区域中的字符串的布置方法设定为布置在文本框中。另一方面，当该某个行矩形区域和其他的行矩形区域之间既不是栏目关系也不是重叠关系时，在步骤S1008中，布置方法设定部342c把该行矩形区域中的字符串的布置方法设定为作为标准文本来布置。

在步骤S1007或步骤S1008中，对上述某个行矩形区域中的字符串在文本文件中的布置方法进行设定后，在步骤S1009中，判断是否设定了所有行矩形区域的布置方法，按照是否设定了所有行矩形区域的布置方法，进行不同的处理。如果尚未对所有的行矩形区域的布置方法进行设定(否)，即还存在未设定的行矩形区域时，返回步骤S1004，进行其他行矩形区域重复上述的判断处理及布置方法的设定处理。而如果设定了所有行矩形区域的布置方法(是)，则前往步骤S1010。

在步骤S1010中，文件生成部343生成按照各自设定的布置方法布置了各字符串的文本文件。生成了的文本文件既可以保存在存储部350中，也可以发送到个人计算机终端120。步骤S1010之后，在步骤S1011中，MFP110结束本实施方式的文本文件变换处理。

通过图5所示的处理，文本文件变换可以顾及图像中包含的文章的布置，从而能够在提高了可用性的基础上生成文本文件。

接着，参考图6～图8进一步举例详述本实施方式的文本文件变换。需要注意的是，图6～图8所示的引出线及其附带的符号只是为了方便说明，与本实施例中的文本文件变换处理无关。

首先说明图6。图6是一例利用本实施方式的文本文件变换处理生成包含具有栏目关系的字符串的文本文件的示意图。

图6中(a)显示利用OCR处理等从文本文件变换对象的图像数据中提取字符串。在(a)所示的例子中，从图像中提取了"abcdefgh"(字符串t1)、"ijklmnop"(字符串t2)、"qrstuvwx"(字符串t3)、"yz123456"(字符串t4)的字符串。

图6中，(b)显示上述(a)的字符串各自的行矩形区域的提取。在(b)所示的例子中，提取包围字符串t1的矩形作为行矩形区域r1，提取包围字符串t2的矩形作为行矩形区域r2，提取包围字符串t3的矩形作为行矩形区域r3，提取包围字符串t4的矩形作为行矩形区域r4。

图6中的(c)显示所提取的各行矩形区域与其他行矩形区域之间关系的判断。在(c)所示的例子中，由于判断行矩形区域r1和行矩形区域r2接近，因此将该两者合并，作为新的行矩形区域R1。同样，由于判断行矩形区域r3和行矩形区域r4接近，因此将两者合并为新的行矩形区域R2。另一方面，行矩形区域R1和行矩形区域R2之间，由于不是接近的位置关系，因此判断为栏目关系的字符串。因此，布置方法设定部342c把布置在文本框中设定为行矩形区域R1及行矩形区域R2的配置方法。

图6中的(d)显示按照设定了的布置方法布置各字符串的文本文件的显示画面。由于行矩形区域R1及行矩形区域R2是布置在文本框中的设定，因此，图6的(d)的示例生成的文本文件包含布置了字符串t1及字符串t2的文本框和布置了字符串t3及字符串t4的文本框。

接下来说明图7。图7是一例利用本实施方式的文本文件变换处理生成包含具有重叠关系的字符串的文本文件的示意图。

图7中，(a)显示利用OCR处理等从成为文本文件变换对象的图像数据中提取字符串。在图7的(a)所示的例子中，从图像中提取了"abcdefghi"(字符串t1)、"jklmn"(字符串t2)、"opqrstu"(字符串t3)等字符串。

图7中，(b)显示上述(a)的字符串各自的行矩形区域的提取。在(b)所示的例子中，提取包围字符串t1的矩形作为行矩形区域r1，提取包围字符串t2的矩形作为行矩形区域r2，提取包围字符串t3的矩形作为行矩形区域r3。

图7中的(c)显示所提取的各行矩形区域与其他行矩形区域之间关系的判断。在图7的(c)所示的例子中，由于判断为行矩形区域r1和行矩形区域r2接近，所以将该两者合并，作为新的行矩形区域R1。行矩形区域r3与行矩形区域R1的一部分重叠。即判断行矩形区域R1和行矩形区域r3是具有重叠关系的字符串。因此，布置方法设定部342c把布置在文本框中设定为行矩形区域R1及行矩形区域r3的布置方法。

图7中的(d)显示一例根据设定的布置方法布置各字符串的文本文件的显示画面。由于行矩形区域R1及行矩形区域r3是布置在文本框中的设定，因此，图7的(d)的示例生成的文本文件包含布置了字符串t1及字符串t2的文本框和布置了字符串t3的文本框。

接下来说明图8。图8是一例利用本实施方式的文本文件变换处理生成包含没有段落关系而且也没有重叠关系的字符串的文本文件的示意图。

图8中，(a)显示利用OCR处理等从成为文本文件变换对象的图像数据提取字符串。在图8的(a)所示的例子中，从图像中提取了"abcdefghi"(字符串t1)、"jklmn"(字符串t2)的字符串。

图8中，(b)显示上述(a)的字符串各自的行矩形区域的提取。在(b)所示的例子中，提取包围字符串t1的矩形作为行矩形区域r1，提取包围字符串t2的矩形作为行矩形区域r2。

图8中的(c)显示所提取的各行矩形区域与其他行矩形区域之间关系的判断。在图8的(c)所示的例子中，由于判断为行矩形区域r1和行矩形区域r2接近，所以将两者合并，作为新的行矩形区域R1。由于行矩形区域R1没有其它邻近的行矩形区域，所以判断为没有栏目关系且没有重叠关系的字符串。为此，布置方法设定部342c把当作为文本文件的标准文本来布置设定为行矩形区域R1的布置方法。

图8中的(d)显示按照设定了的布置方法布置了各字符串的文本文件的显示画面。由于行矩形区域R1是标准文本布置的设定，所以在图8的(d)的例子中，生成在文档中布置字符串t1及字符串t2的文本文件。

至此说明了本实施方式的文本文件变换的具体示例。虽然可以以接近程度等为基准来判断与各行矩形区域相关的区域关系，但并不特别限于实施方式，除此之外的参数也可以用来为基准进行判断处理。判断处理还可以是根据机器学习的学习效果所生成的判断基准。

在此所说的机器学习是指使得计算机获得像人一样的学习能力的技术，是指计算机从事先获取的学习数据中自主生成数据识别等判断所需要的算法，并应用到新的数据中进行预测的技术。机器学习的学习方式可以是有教师学习、无教师学习、半教师学习、强化学习、深层学习中的任意一种，也可以是这些学习方式的组合，无论机器学习的学习方式是什么。

根据以上说明的本发明的实施方式，可以提供改善图像中包含的字符串的再现性生成文本文件的图像处理装置、方法以及存储介质。

上述本发明实施例的各功能可以通过用C、C++、C#、Java(注册商标)等记述的装置可执行程序来实现，本实施方式的程序可以保存在硬盘装置、CD-ROM、MO、DVD、软盘、EEPROM(注册商标)、EPROM等装置可读取的记录媒体中进行发布，也可以是其他装置以可能的格式通过网络进行传送。

上述实施方式中的各项功能可以通过一个或多个处理电路来实现。在此，本说明书中的"处理电路"是指，包括如同通过电子电路安装的处理器，通过软件执行各项功能而被编程的处理器、或用于执行上述各项功能而设计的ASIC(Application SpecificIntegrated Circuit)、DSP(数字信号处理器)、FPGA(现场可编程门阵列)或现有的电路模块等的设备。

以上用实施方式说明了本发明，但本发明并不限于上述的实施方式，只要是在本领域技术人员可推知的实施方式范围内起到本发明的作用、效果，就包含在本发明的范围内。

符号说明

100系统，110MFP，120个人计算机终端，130网络，210CPU，220RAM，230ROM，240存储装置，250打印装置，260扫描装置，270通信I/F，280显示器，290输入装置，310图像读取部，320图像处理部，321伽马补偿部，322区域检测部，323数据I/F部，324色处理/UCR部，325打印机补偿部，330打印部，340文件变换部，341字符串提取部，342字符串处理部，342a行矩形区域提取部，342b区域关系判断部，342c布置方法设定部，343文件生成部，350存储部。

Claims

1.一种图像处理装置，其中包括

设定单元，用于根据从图像中提取的多个字符串的位置关系，设定所述多个字符串各自的布置方法；以及

生成单元，用于根据所述设定单元设定的所述布置方法，生成所述图像的字符串的文本文件。

2.根据权利要求1所述的图像处理装置，其中，所述设定单元设定,把字符串作为文本框布置或把字符串布置在文档之中。

3.根据权利要求2所述的图像处理装置，其中，所述设定单元设定，把具有栏目关系或重叠关系的字符串布置在文本框中。

4.根据权利要求2所述的图像处理装置，其中，所述设定单元设定，把既非栏目关系又非重叠关系的字符串布置在文档中。

5.根据权利要求1所述的图像处理装置，其特征在于，利用OCR处理或像域分离处理，提取所述图像中包含的字符串。

6.根据权利要求1所述的图像处理装置，其特征在于，

进一步具有读取单元，用于读取稿件的图像，

从所述读取单元所读取的图像中提取所述多个字符串。

7.一种用于把包含字符串的图像变换为文本文件的图像处理方法，其中包括

设定步骤，根据从图像中提取的多个字符串的位置关系，设定所述多个字符串各自的布置方法；以及

生成步骤，根据所述设定单元设定的所述布置方法，生成所述图像的字符串的文本文件。

8.根据权利要求7所述的图像处理方法，其中，在所述设定步骤中设定,把字符串作为文本框布置或把字符串布置在文档之中。

9.根据权利要求8所述的图像处理方法，其中，在所述设定步骤中设定，把具有栏目关系或重叠关系的字符串布置在文本框中。

10.根据权利要求8所述的图像处理方法，其中，在所述设定步骤中设定，把既非栏目关系又非重叠关系的字符串布置在文档中。

11.根据权利要求7所述的图像处理方法，其特征在于，利用OCR处理或像域分离处理，提取所述图像中包含的字符串。

12.根据权利要求7所述的图像处理方法，其特征在于，

进一步具有读取步骤，读取稿件的图像，

从在所述读取步骤中读取的图像中提取所述多个字符串。

13.一种计算机可读的存储介质，其中保存供信息处理装置执行，使得所述信息处理装置具备以下功能的程序，

14.一种信息处理装置，其中具备处理器和保存了程序的存储装置，所述程序通过所述处理器执行，使得所述信息处理装置具备以下功能，