CN110390323B

CN110390323B - 信息处理装置以及计算机可读介质

Info

Publication number: CN110390323B
Application number: CN201910163323.5A
Authority: CN
Inventors: 小林邦彦; 安达真太郎; 冈田茂; 山口聡之; 清水淳一; 大谷和宏; 中村慎也; 阿部茜
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-04-18
Filing date: 2019-03-05
Publication date: 2023-09-05
Anticipated expiration: 2039-03-05
Also published as: US20190325210A1; CN110390323A; US11163992B2; JP7031465B2; JP2019192959A

Abstract

本发明提供一种信息处理装置及计算机可读介质。信息处理装置包括：第一指定部件，从第一读取图像中指定包含输出区域与客体区域的广域区域；第二指定部件，从已被指定的广域区域内指定输出区域；位置取得部件，取得相对于第一读取图像的广域区域的位置信息与相对于广域区域的输出区域的位置信息；存储部件，存储广域区域的位置信息与输出区域的位置信息；以及提取部件，根据由存储部件所存储的广域区域的位置信息，确定与第一读取图像相同的形式的第二读取图像的广域区域的位置，并根据广域区域的位置与由存储部件所存储的输出区域的位置信息，提取第二读取图像的输出区域。

Description

信息处理装置以及计算机可读介质

技术领域

本发明涉及一种信息处理装置以及存储程序的计算机可读介质。

背景技术

近年来，提出有一种从票据等读取对象中切出对象物来输出的信息处理装置(例如，参照专利文献1)。

专利文献1中记载的信息处理装置包括：扫描部件、表格登记部件、区域(zone)光学字符识别(Optical Character Recognition，OCR)部件、索引修正部件、将由索引修正部件所取得的数据作为文件的索引的索引部件、将图像与索引数据作为文件而保存在文件管理系统中的保存部件。

现有技术文献

专利文献

专利文献1日本专利特开2008-40598号公报

发明内容

发明所要解决的问题

但是，例如在读取多个原稿时从原稿中所读取的位置产生了误差的情况下，有时无法从读取图像中提取事先指定的区域。因此，本发明的目的在于提供一种在读取多个原稿的情况下，即便不通过表示读取图像中的输出对象的位置的位置信息，也可以提取输出对象的信息处理装置以及程序。

解决问题的技术手段

[1]一种信息处理装置，其包括：

第一指定部件，从第一读取图像中指定包含输出区域与客体(object)区域的广域区域；

第二指定部件，从已被指定的所述广域区域内指定所述输出区域；

位置取得部件，取得相对于所述第一读取图像的所述广域区域的位置信息与相对于所述广域区域的所述输出区域的位置信息；

存储部件，存储所述广域区域的位置信息与所述输出区域的位置信息；以及

提取部件，根据由所述存储部件所存储的所述广域区域的位置信息，确定与所述第一读取图像相同的形式的所述第二读取图像的广域区域的位置，并根据所述广域区域的位置与由所述存储部件所存储的所述输出区域的位置信息，提取所述第二读取图像的输出区域。

[2]根据所述[1]中记载的信息处理装置，其中所述提取部件根据作为所述输出区域的位置信息的表示在所述广域区域中位于第几行的特定行信息，提取所述输出区域。

[3]根据所述[1]或[2]中记载的信息处理装置，其中当在所述广域区域中不存在对应于所述输出区域的行时，所述提取部件使所述广域区域朝事先决定的方向扩张后重新提取广域区域。

[4]根据所述[1]至[3]的任一项中记载的信息处理装置，其中所述第二指定部件将所述输出区域指定为包含共同的字符串的行。

[5]根据所述[4]中记载的信息处理装置，其中当在所述广域区域中不存在对应于所述输出区域的所述共同的字符串时，所述提取部件使所述广域区域朝事先决定的方向扩张后重新提取广域区域。

[6]一种程序，其用于使包括存储包含输出区域与客体区域的广域区域的位置信息与输出区域的位置信息的存储部件的计算机作为如下的部件发挥功能：

第一指定部件，从第一读取图像中指定所述广域区域；

位置取得部件，取得相对于所述第一读取图像的所述广域区域的位置信息与相对于所述广域区域的所述输出区域的位置信息；以及

发明的效果

根据技术方案1、技术方案6的发明，在读取多个原稿的情况下，即便不通过表示读取图像中的输出对象的位置的位置信息，也可以提取输出对象。

根据技术方案2的发明，可根据在广域区域中位于第几行来提取输出对象。

根据技术方案3的发明，当在广域区域中不存在已被指定的行时，也可以提取输出对象。

根据技术方案4的发明，可根据字符串的信息从广域区域中提取输出对象。

根据技术方案5的发明，当在广域区域中不存在共同的字符串时，也可以提取输出对象。

附图说明

图1是表示本发明的实施方式的信息处理装置的控制系统的一例的框图。

图2是表示区域指定数据的一例的图。

图3是表示区域的一例的图。

图4是表示设定区域指定信息的设定画面的一例的图。

图5是表示本实施方式的信息处理装置的设定区域指定信息的处理的动作的一例的流程图。

图6是表示本实施方式的信息处理装置的提取输出对象的处理的动作的一例的流程图。

图7是表示广域区域的扩张的一例的图。

符号的说明

1：信息处理装置

2：控制部

20：受理部件

21：区域设定部件

22：OCR部件

23：提取部件

3：存储部

30：程序保存部

31：区域指定数据保存部

310：区域指定数据

311：区域指定信息

311a：区域确定信息

311b：特定行信息

32：结果保存部

4：操作显示部

5：图像读取部

6：请款单图像

6A：票据图像

60、60A、60B：广域区域

61：收件人地址信息

611：邮政编码信息

612：住址信息

62：收件人姓名信息

621：公司名信息

622：部门名信息

7：设定画面

71：第一部分画面

72：第二部分画面

710：第一输入栏

720：第二输入栏

730：第三输入栏

具体实施方式

以下，参照附图对本发明的实施方式进行说明。再者，各附图中，对实质上具有相同的功能的元件赋予相同的符号并省略其重复的说明。

实施方式的概要

本实施方式的信息处理装置包括：第一指定部件，从第一读取图像中指定包含输出区域与客体区域的广域区域；第二指定部件，从已被指定的所述广域区域内指定所述输出区域；位置取得部件，取得相对于所述第一读取图像的所述广域区域的位置信息与相对于所述广域区域的所述输出区域的位置信息；存储部件，存储所述广域区域的位置信息与所述输出区域的位置信息；以及提取部件，根据由所述存储部件所存储的所述广域区域的位置信息，确定与所述第一读取图像相同的形式的所述第二读取图像的广域区域的位置，并根据所述广域区域的位置与由所述存储部件所存储的所述输出区域的位置信息，提取所述第二读取图像的输出区域。

读取对象并无特别限定，例如发票等票据、或各种请款单、或收据等是适用的。所谓“广域区域”，是指如下的具有矩形的形状的区域，其包括包含作为进行输出的对象的输出对象的矩形的输出区域、及包含输出对象以外的客体的矩形的客体区域。

实施方式

(信息处理装置的结构)

图1是表示本发明的实施方式的信息处理装置的控制系统的一例的框图。在信息处理装置1中，例如包含图像形成装置、个人计算机、多功能手机(智能手机)等。以下，作为信息处理装置1，列举图像形成装置为例进行说明。在图像形成装置中，例如包含扫描器或复合机。所述信息处理装置1包括：控制部2，对各部进行控制；存储部3，存储各种数据；操作显示部4，进行信息的输入及显示；以及图像读取部5，以光学方式对读取对象进行读取并形成读取图像。

控制部2包含中央处理器(Central Processing Unit，CPU)、接口等。CPU按照已被记录在存储部3的程序保存部30中的程序进行动作，由此作为受理部件20、区域设定部件21、OCR部件22、提取部件23等发挥功能。区域设定部件21是第一指定部件、第二指定部件及位置信息取得部件的一例。各部件20～部件23的详细情况将后述。

存储部3包含只读存储器(Read Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、硬盘等，其包括保存程序的程序保存部30、保存区域指定数据310(参照图2)的区域指定数据保存部31、及保存OCR结果的OCR结果保存部32。存储部3是存储部件的一例。

操作显示部4例如为触摸屏显示器，具有将触摸屏重叠配置在液晶显示器等显示器上的结构。

图像读取部5包括已被设置在原稿台上的自动原稿供纸装置(自动输稿器(Automatic Document Feeder，ADF)或双面自动输稿器(Duplex Automatic DocumentFeeder，DADF))、及扫描器，以光学方式读取已被配置在原稿台上的读取对象、或已由自动原稿供纸装置输送的读取对象，并形成读取图像。

(区域指定数据310的结构)

图2是表示区域指定数据310的一例的图。如图2所示，区域指定数据310是将区域指定信息311与票据标识符(Identifier，ID)建立了关联的数据。此处，区域指定信息311包括区域确定信息311a与位置信息，所述区域确定信息311a表示包括包含进行输出的对象(以下，也称为“输出对象”)的输出区域、及包含输出对象以外的客体的客体区域的矩形的区域(以下，也称为“广域区域”)的位置及大小，所述位置信息表示所述广域区域中的输出对象的位置。

所谓“客体”，是指包含字符或字符串、符号或图形、表(包含标题)、及将它们组合而成的信息的图像的构成要素。在广域区域中的输出对象的位置信息中，例如包含表示输出对象位于广域区域内的第几行(以下，也称为“特定行”)的信息311b(以下，也称为“特定行信息311b”)。特定行信息311b是位置信息的一例。位置信息是输出对象的属性信息的一例。另外，票据ID是识别作为读取对象的票据的信息。

区域确定信息311a例如包括：构成广域区域的四个顶点中的任一个顶点的坐标值(x，y)，即关于所述一个顶点的表示从读取图像的一端(例如左端)起的位置x的信息、及表示从与所述一端邻接的另一端(例如上端)起的位置y的信息；表示区域的宽度w的信息；以及表示区域的高度h的信息。再者，各位置x、位置y，宽度w，及高度h能够以实际的距离(例如单位为“mm”)来给予，也能够以读取图像的像素值来给予。

特定行信息311b例如能够以确定一行的形式(例如“第几行”等)来给予，也能够以确定多行的形式(例如，“第几行～第几行”等)来给予。

(区域)

继而，对区域进行说明。图3是表示区域的一例的图。区域根据包含输出对象的广域区域60、及所述广域区域60中的输出对象的位置来设定。以下，列举已读取作为读取对象的一例的请款单的请款单图像6中所设定的区域为例进行说明。再者，所述请款单图像6是用于指定广域区域(输出区域及客体区域)的样本图像。即，请款单图像6是第一读取图像的一例。

如图3所示，广域区域60是包含请款单图像6中所记载的特定的对象物、及所述特定的对象物的周围所存在的空白的区域的矩形的区域。

在图3中所示的例子中，广域区域60例如包括：作为特定的对象物的包含邮政编码信息611与住址信息612的收件人地址信息61、及包含公司名信息621与部门名信息622的收件人姓名信息62，以及所述收件人地址信息61及收件人姓名信息62的周围的特定的空白的区域。在所述广域区域60中包含输出对象。

请款单图像6中的输出对象的位置利用所述特定行信息311b来设定。具体而言，在图3中所示的例子中，例如当将输出对象设为公司名时，也可以将特定行信息311b设定成“第四行”。另外，例如当将输出对象设为住址时，也可以将特定行信息311b设定成记载有公司名的“第一行～第三行”。

(控制部2的结构)

继而，对构成控制部2的各部件20～部件23进行说明。受理部件20受理操作者对于操作显示部4的操作。另外，受理部件20受理图像读取部5对读取对象进行读取所形成的读取图像。

区域设定部件21对应于受理部件20已受理的操作者的操作，进行区域指定信息311的设定。具体而言，区域设定部件21对应于操作者的操作，进行广域区域的区域确定信息311a的设定、及特定行信息311b的设定。另外，区域设定部件21将所设定的区域指定信息311作为区域指定数据310而记录在存储部3的区域指定数据保存部31中。

再者，利用区域设定部件21的区域指定信息311的设定也可以针对各读取对象来进行。另外，也可以对一个读取对象设定多个区域指定信息311。

OCR部件22对受理部件20已受理的读取图像实施光学字符识别(OpticalCharacter Recognition，OCR)处理，而取得OCR结果。在OCR结果中，例如包含与字符或字符串中所记载的内容相关的信息、或表示字符或字符串的位置的信息。另外，OCR部件22将已取得的OCR结果保存在存储部3的OCR结果保存部32中。

提取部件23从受理部件20已受理的读取图像中，提取由区域设定部件21对应于读取对象所设定的广域区域。具体而言，提取部件23取得已被保存在存储部3的区域指定数据保存部31中的区域指定数据310的区域指定信息311，并根据已取得的区域指定信息311，从存储部3的OCR结果保存部32中取得对应于广域区域的OCR结果。另外，提取部件23从已取得的对应于广域区域的OCR结果中取得对应于特定行的OCR结果，并将所述OCR结果作为输出对象来提取。

继而，参照图4对设定区域指定信息的画面进行说明。图4是表示设定区域指定信息的设定画面的一例的图。如图4所示，设定画面7包含设定区域确定信息311a的第一部分画面71、及设定特定行信息311b的第二部分画面72来构成。

第一部分画面71包括：第一输入栏710，输入所述广域区域60在读取图像中的位置，即从左端起的位置x、及从上端起的位置y；以及第二输入栏720，输入广域区域60的宽度w及高度h。第二部分画面72包括指定进行提取的行，即输入表示在由第一部分画面71所设定的广域区域60中输出对象位于第几行的信息的第三输入栏730。

由操作者对设定画面7输入的信息被保存在存储部3的区域指定数据保存部31中。

再者，广域区域60的设定、及广域区域60中的输出对象的位置的设定并不限定于将坐标值输入图4中所示的设定画面7中的方法。例如，也可以通过对于操作显示部4中所显示的包含读取图像的画面(以下，也称为“用户接口(User Interface，UI)画面”)的操作，设定广域区域60及广域区域60中的输出对象的位置。

在对于UI画面的操作中，例如包括：使手指接触(以下，也称为“触摸”)操作显示部4，由此选择构成广域区域60的特定的点(例如，广域区域60的左上方的坐标与右下方的坐标的两点)的操作；利用手指在操作显示部4上描摹，由此指定广域区域60的外框的操作；触摸表示输出对象的行(遍及多行时触摸多行)的操作等。

(实施方式的动作)

继而，参照图5及图6对本发明的实施方式的信息处理装置1的动作的一例进行说明。图5是表示设定区域指定信息的处理(以下，也称为“区域设定处理”)的动作的一例的流程图。图6是表示本实施方式的信息处理装置的提取输出对象的处理(以下，也称为“提取处理”)的动作的一例的流程图。再者，对如所述般成为样本的一个读取图像(“第一读取图像”)执行图5中所示的区域指定信息的设定。另外，对具有与所述第一读取图像相同的形式的多个读取图像执行图6中所示的提取处理。具有与第一读取图像相同的形式的读取图像是第二读取图像的一例。

(1)区域设定处理

在由操作者对操作显示部4进行的设定区域指定信息311的操作继续的情况(S1：是)下，区域设定部件21对应于所述操作来设定广域区域(S2)。

当在所设定的广域区域中包含多行时，即，当必须设定输出对象的特定行信息311b时(S3：是)，区域设定部件21对应于操作者的操作来设定特定行信息311b(S4)。

进而，在其他区域指定信息311的设定继续的情况下，即，在由操作者所进行的设定区域指定信息311的操作继续的情况(S5：否)下，进行所述步骤S2以后的处理。例如，在一个读取对象中设定多个区域的情况相当于“区域指定信息311的设定继续的情况”。

(2)提取处理

图像读取部5读取由自动原稿供纸装置所输送的读取对象(S11)，形成与所述读取对象相关的读取图像并发送至控制部2中。受理部件20受理所述读取图像。

OCR部件22对受理部件20已受理的读取图像的整体实施OCR处理(S12)，而取得OCR结果。另外，OCR部件22将OCR结果保存在存储部3的OCR结果保存部32中。

继而，提取部件23取得已被保存在存储部3的区域指定数据保存部31中的区域指定数据310的区域指定信息311(S13)。另外，提取部件23根据区域指定信息311而取得对应于广域区域的OCR结果(S14)。即，提取部件23提取广域区域。

另外，提取部件23从已取得的对应于广域区域的OCR结果中取得对应于特定行的OCR结果(S15)，并将所述OCR结果作为输出对象来提取。

再者，当在一个读取对象中设定有多个(例如N个)区域时，对各区域进行所述步骤S14及步骤S15的处理。

若如以上般进行处理，则当连续地读取多张(例如100张以上)原稿时，即便在例如因自动原稿供纸装置的性能或读取对象的配置等而导致读取对象的读取位置产生了偏移的情况下，也可以不通过表示读取图像中的输出对象的位置的位置信息而提取输出对象。

＜变形例1＞

在所述实施方式中，作为输出对象的属性信息，使用广域区域内的输出对象的位置信息，具体而言，使用表示输出对象位于广域区域内的第几行的特定行信息311b，但并不限定于此。作为输出对象的属性信息，例如也可以使用表示共同的字符串等识别输出对象的特定的构成要素的信息。

在与特定的构成要素相关的信息中，例如包含输出对象中所记载的共同的内容、输出对象字符的共同的属性、字符数的共同性等信息。表示输出对象中所记载的内容的信息例如包含与字符相关的信息(以下，也称为“字符信息”)、或与符号相关的信息(以下，也称为“符号信息”)。

在字符信息中，例如包含表示识别作为输出对象中所记载的内容的一例的住址的“都”、“道”、“府”、“县”、“市”、“町”、“村”、“巷”、“门”、“号”，或识别作为输出对象中所记载的内容的一例的公司名的“股份有限公司”等特定的关键字的信息。

另外，在符号信息中，例如包含表示识别作为输出对象中所记载的内容的一例的住址的表示邮政编码的“〒”、或识别作为输出对象中所记载的内容的一例的金额的“￥”、识别作为输出对象中所记载的内容的一例的公司名的“(股份)”等符号的信息。

提取部件23对应于表示所述输出对象中所记载的内容的信息，从广域区域60中进一步提取输出对象。

另外，在设定多行作为特定行的情况下，使用表示关键字的信息或符号信息来确定行的方法特别有效。例如，在图3中所示的例子中，在将输出对象设为住址而将特定行信息311b设定成“第一行～第三行”的情况下，当在两行内记载了住址时，为了检测第三行为与住址不同的信息，也可以使用表示关键字的信息或符号信息。具体而言，当在第三行中包含“有限公司”的关键字时，即便事先将“第一行～第三行”如所述般设定为住址，也可以从输出对象中排除并非表示住址的信息的第三行。再者，提取部件23也可以进行这些处理。

另外，提取部件23也可以对应于字符的属性或字符数而提取输出对象。例如，在作为字符的属性，已判断字符为数字的情况下，提取部件23也可以在所述字符中提取表示金额或邮政编码的信息。另外，提取部件23也可以根据字符数来确定输出对象的种类。

＜变形例2＞

图7是表示广域区域60的扩张的一例的图。在图7中，列举已读取作为读取对象的票据的票据图像6A为例进行说明。当在广域区域中不存在与输出对象的行对应的行时，提取部件23使广域区域朝事先决定的方向扩张后重新提取广域区域。

具体而言，当提取部件23已提取的广域区域60A中所包含的行数未满与特定行相关的行数时，重新提取以包含特定行的方式进行了扩张的广域区域60B。

作为一例，以作为特定行信息311b，设定有“第三行”的情况为例进行说明。如图7所示，当提取部件23已提取的广域区域60A中所包含的行数未满3行时，重新提取以包含作为特定行的第三行的方式进行了扩张的广域区域60B(参照图7的箭头)。

以上，对本发明的实施方式进行了说明，但本发明的实施方式并不限定于所述实施方式，可在不变更本发明的主旨的范围内实施各种变形。例如，在所述实施方式中，列举信息处理装置1包括图像读取部5的结构为例进行了说明，但图像读取部5并非必需的结构，信息处理装置1也可以受理由外部的装置所读取的读取图像来进行处理。

例如，在所述实施方式中，对读取图像的整体实施了OCR处理，但并不限定于此，也可以仅对由提取部件23所提取的广域区域实施OCR处理。另外，在所述实施方式中，表示了将横写的读取对象作为前提来确定行的例子，但针对纵写的读取对象确定列也包含在本发明的范畴内。

控制部2的各部件分别可通过可重构电路(现场可编程门阵列(FieldProgrammable Gate Array，FPGA))、面向特定用途的集成电路(专用集成电路(Application Specific Integrated Circuit，ASIC))等硬件电路来构成一部分或全部。

另外，在不变更本发明的主旨的范围内，可省略或变更所述实施方式的元件的一部分。另外，在不变更本发明的主旨的范围内，可在所述实施方式的流程中进行步骤的追加、删除、变更、调换等。另外，可将所述实施方式中所使用的程序记录在光盘只读存储器(Compact Disc-Read Only Memory，CD-ROM)等计算机可读取的记录介质中来提供，也可以先保存在云服务器等外部服务器中，经由网络来利用。

Claims

1.一种信息处理装置，其特征在于，包括：

第一指定部件，从第一读取图像中指定包含输出区域与客体区域的广域区域；

提取部件，根据由所述存储部件所存储的所述广域区域的位置信息，确定与所述第一读取图像相同的形式的第二读取图像的广域区域的位置，并根据所述广域区域的位置与由所述存储部件所存储的所述输出区域的位置信息，提取所述第二读取图像的输出区域。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述提取部件根据作为所述输出区域的位置信息的表示在所述广域区域中位于第几行的特定行信息，提取所述输出区域。

3.根据权利要求1或2所述的信息处理装置，其特征在于，

当在所述广域区域中不存在对应于所述输出区域的行时，所述提取部件使所述广域区域朝事先决定的方向扩张后重新提取广域区域。

4.根据权利要求1至3中任一项所述的信息处理装置，其特征在于，

所述第二指定部件将所述输出区域指定为包含共同的字符串的行。

5.根据权利要求4所述的信息处理装置，其特征在于，

当在所述广域区域中不存在对应于所述输出区域的所述共同的字符串时，所述提取部件使所述广域区域朝事先决定的方向扩张后重新提取广域区域。

6.一种存储程序的计算机可读介质，其特征在于，

所述程序用于使包括存储包含输出区域与客体区域的广域区域的位置信息与所述输出区域的位置信息的存储部件的计算机作为如下的部件发挥功能：

第一指定部件，从第一读取图像中指定所述广域区域；