CN106557733A

CN106557733A - 信息处理装置和信息处理方法

Info

Publication number: CN106557733A
Application number: CN201610124207.9A
Authority: CN
Inventors: 重枝信之; 鹿岛洋三
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-09-30
Filing date: 2016-03-04
Publication date: 2017-04-05
Anticipated expiration: 2036-03-04
Also published as: US20170091547A1; EP3151159A1; JP2017068562A; JP6578858B2; US9818028B2; CN106557733B

Abstract

本申请涉及信息处理装置和信息处理方法。该信息处理装置包括：第一获取单元、添加单元、第二获取单元、以及提取单元。第一获取单元获取在通过读取文档而生成的第一图像中所包括的第一元素组。添加单元通过将彼此不同的噪声添加到第一图像，来生成多个第二图像。第二获取单元获取在各多个第二图像中所包括的第二元素组。提取单元根据在第一元素组中所包括的元素和在多个第二元素组中所包括的元素之间的相似性程度，来从第一元素组中提取表示文档的特征的元素。

Description

信息处理装置和信息处理方法

技术领域

本发明涉及一种信息处理装置和信息处理方法。

背景技术

日本未审查专利申请公开号2003-115028中描述的文档处理系统就文档识别字典(document identification dictionary)的记录而言，从文档图像中提取字符串，针对每个所提取的字符串从位置信息计算字符的稳定性程度和字符串的发生频率，针对每个所提取的字符串从同一区域中字符串出现的文档类型的次数计算字符串的唯一性程度，并从稳定性程度和唯一性程度，计算字符串的优先等级。

为了提高文档的处理效率，转换成数字形式可以是有效方法。例如，表示多种类型文档的特征的元素被预先记录在计算机中。使用扫描仪来读取文档，并生成其图像。提取包括在所生成的图像中的元素。所读文档的类型通过将所提取的元素与预先记录的元素进行比较来判断。然而，可能存在通过读取文档而生成的图像包括噪声的情况。噪声的示例是文档上的污垢和文档的折痕、透显(Show-Through)、和书写字符等。这些噪声可能是导致错误判断文档类型的原因(文档类型被判断为非真的特定类型)。当发生错误判断时，需要执行复杂的操作，来纠正判断结果，并且这是低效的。

发明内容

因此，本发明的目的是减少由在通过读取文档而生成的图像中所包括的噪声所导致的错误判断文档类型的次数。

根据本发明的第一方面，提供了一种信息处理装置，其包括第一获取单元、添加单元、第二获取单元、及提取单元。第一获取单元获取在通过读取文档而生成的第一图像中所包括的第一元素组。添加单元通过将彼此不同的噪声添加到第一图像，来生成多个第二图像。第二获取单元获取在各多个第二图像中所包括的第二元素组。提取单元根据在第一元素组中所包括的元素和在多个第二元素组中所包括的元素之间的相似性程度，来从第一元素组中提取表示文档的特征的元素。

根据本发明的第二方面，添加单元通过把是多个噪声中的预定类型的噪声的一个特定噪声添加到第一图像来生成多个第二图像中的每个，使得在各多个第二图像中所包括的多个特定噪声彼此不同。

根据本发明的第三方面，添加单元通过把是多个噪声中的预定类型的噪声的多个特定噪声添加到第一图像来生成多个第二图像中的每个，使得在各多个第二图像中所包括的多个特定噪声彼此不同。

根据本发明的第四方面，提取单元提取相似性程度达到阈值的元素，作为表示文档的特征的元素。

根据本发明的第五方面，提取单元提取相似性程度最高的元素，作为表示文档特征的元素。

根据本发明的第六方面，提供了一种信息处理方法，其包括如下步骤：获取在通过读取文档而生成的第一图像中所包括的第一元素组；通过将彼此不同的噪声添加到第一图像，来生成多个第二图像；获取在各多个第二图像中所包括的第二元素组；并且根据在第一元素组中所包括的元素和在多个第二元素组中所包括的元素之间的相似性程度，来从第一元素组中提取表示文档的特征的元素。

根据本发明的第一和第六方面，与不存在使用通过将彼此不同的噪声添加到第一图像而获得的多个第二图像，提取表示文档的元素的构造的情况相比，包括在通过读取文档而生成的图像中的噪声所导致的错误判断文档类型的次数可减少。

根据本发明的第二方面，与随机地改变噪声的构造相比，可以添加更接近实际噪声的噪声。

根据本发明的第三方面，与添加一种噪声的构造相比，可以添加更接近实际噪声的噪声。

根据本发明的第四方面，用于提取指示文档类型的元素的标准可以不太严格。

根据本发明的第五方面，可以提取具有最高可靠性的元素。

附图说明

将基于以下附图来详细描述本发明的示例性实施方式，其中：

图1是例示了根据示例性实施方式的系统的整体的图；

图2是例示了信息处理装置的硬件构造的图；

图3是例示了文档的示例的图；

图4是例示了噪声的示例的图；

图5是例示了信息处理装置的功能的框图；

图6是例示了信息处理装置的操作的流程图；

图7是例示了与第一元素组有关的列表的图；

图8是例示了与第二元素组有关的列表的图；及

图9是例示了特征列表的图。

具体实施方式

将描述根据本发明的示例性实施方式的实施例。

<构造>

图1是例示了根据示例性实施方式的系统的整体的图。信息处理装置1和读取装置2经由诸如局域网(LAN)这样的通信单元3进行连接。读取装置2读取文档的样本，生成图像数据，并将该图像数据发送到信息处理装置1。信息处理装置1从由接收到的图像数据所表示的图像中提取表示文档特征的元素。所提取的元素用于判断实际文书(actual paperwork)工作中使用的文档的类型。

图2是例示了信息处理装置1的硬件构造的图。信息处理装置1是包括控制器11、存储器12、及通信单元13的计算机。控制器11包括：诸如中央处理器(CPU)这样的运算单元、和诸如只读存储器(ROM)以及随机存取存储器(RAM)这样的存储设备、。ROM存储描述了硬件设备的启动过程和操作系统(OS)的启动过程的硬件程序。当CPU执行计算时，RAM用于存储数据。存储器12包括例如硬盘设备，并存储例如操作系统和应用程序。通信单元13包括用于与读取装置2进行通信的通信接口(I/F)。显示设备14和接收设备15连接到信息处理装置1。显示设备14包括例如液晶显示设备，并显示例如操作者操作信息处理装置1的画面。接收设备15包括例如键盘和鼠标。接收设备15接收由操作者执行的操作，并将与该操作相对应的信息输出到控制器11。

读取装置2是例如图像扫描仪，该图像扫描仪包括：玻璃台板、挡板、光源、光学系统、图像拾取设备、及运算单元(未示出)。光源用光照射放置在玻璃台板上的文档，并且由文档反射的光经由光学系统进入图像拾取设备。图像拾取设备将已经进入图像拾取设备的光转换成图像信号，并将图像信号输出到运算单元。运算单元根据图像信号生成光栅图像数据，并将该图像数据发送到信息处理装置1。需要注意的是，复印机和信息处理装置1可以经由通信单元3进行连接，并且可以使用包括在复印机中的读取设备来读取文档。此外，可以使用诸如通用串行总线(USB)存储器这样的记录介质，来将文档的图像数据从读取装置2传输到信息处理装置1。

图3是例示了文档的示例的图。通过例如打印已经在文档上形成了诸如字符和格线这样的元素。在该示例中，已经形成了“Form A-1”、“Filing date Month/Day/Year”、“To Credit Department”、“Home Loan Application Form”、“Content of Application”、及“Name Seal”的字符串。此外，形成了指示应用内容的字段的格线。

图4是例示了噪声的示例的图。可能存在噪声包括在通过读取文档而生成的图像中的情况。例如，噪声分类如下。

(a)填充式

填充式示例为手写字符和标记，通过加盖图章而形成的加盖印章，和铅笔写入的标记，以便示出应填写的部分。在例示的示例中，“Taro Fuji”(噪声N1)的字符串被手写在姓名字段中。此外，提交日期字段和姓名字段处写入包围应填写部分的标记(噪声N2)。此外，在姓名字段处形成印章(噪声N3)的加盖。

(b)水印

可能存在文档中设定隐藏字符，从而当读取装置2读取文档时生成包括水印的图像的情况。形成有水印，从而具有一定的暗度，使得水印不干扰文档的填写和查看。为了确保水印本身的可见度，使用例如多个水印的大尺寸、倾斜排列、或规则或不规则排列的字符，来执行水印形成。在所示示例中，形成了水印“不能复制”(噪声N4)(出于制图的原因，使用剖面线)。需要注意的是，还可能存在文档上形成明显水印而不使用隐藏字符的情况。

(c)污垢

例如，可能存在诸如橡皮碎片、油墨污点、或灰尘这样的污垢粘在文档的情况。还可能存在文档的折痕或折皱成为线状污垢的情况。还可能存在污垢附着于读取装置2的玻璃台板的情况。在所示的示例中，存在平面状污垢(噪声N5)和线状污垢(噪声N6)。出于制图的原因，剖面线用于平面状污垢。

(d)透显

可能存在例如字符形成在文档反面上的情况。例如，可能存在反面上描述了应用完成指令的情况和在两侧上设置要填写的字段的情况。通过这种方式，在例如文档的反面上描述了字符，且使用薄纸片和反面上的字符透显薄纸片的情况下，可以由读取装置2来读取反面上的字符。

(e)倾斜(斜度)

根据本示例性实施方式的噪声的概念包括在读取时由文档的倾斜所导致的噪声。例如，在将文档布置在读取装置2的读取位置时，可能发生文档的倾斜。另外，在装备有用于将文档传输到读取位置的设备的情况下，可以以倾斜取向传输文档。根据该倾斜的大小，例如，可能没有识别出字符，且可能错误地识别出格线的方向。因此，可能没有准确地识别出文档的特征。

图5是例示了信息处理装置1的功能的框图。第一获取单元101获取包括在通过读取文档而生成的第一图像中的第一元素组。添加单元102生成通过将彼此不同的噪声添加到第一图像而获得的多个第二图像。第二获取单元103获取包括在各多个第二图像中的第二元素组。提取单元104根据包括在第一元素组中的元素和包括在多个第二元素组中的元素之间的相似性程度，从第一元素组中提取表示文档特征的元素。用于实现这些功能的具体构造如下。

<操作>

图6是例示了信息处理装置1的操作的流程图。在信息处理装置1中安装了描述提取表示文档特征的元素的流程的应用程序。信息处理装置1的控制器11通过执行该应用程序，来执行如下处理。

<步骤S01>(第一获取单元101的示例)

首先，用户致使读取装置2读取文档的样本。读取装置2读取文档的样本，生成第一图像数据，并将第一图像数据发送到信息处理装置1。信息处理装置1的控制器11对由从读取装置2接收到的第一图像数据所表示的第一图像执行字符识别和格线(ruled-line)识别。在字符识别中，例如，使用了光学字符识别(OCR)方法。在格线识别中，例如，使用了用于从X轴方向上的黑色像素值和Y轴方向上的黑色像素值的累计总和中识别出格线的方法，日本未审查专利申请公开号2003-109007的0051段中描述了该方法。本示例性实施方式示出了获取字符串作为第一元素组的实施例。在图3所示的实施例中，识别出了“Form A-1”、“Filing date Month/Day/Year”、“ToCredit Department”、“Home Loan Application Form”、“Content of Application”和“NameSeal”的字符串。控制器11获取这些字符串作为第一元素组。

图7是例示了与第一元素组有关的列表的图。在获取第一元素组时，控制器11生成与第一元素组有关的列表(以下称为“第一元素组列表”)。第一元素组列表是这样的列表，其中，针对元素ID，每个元素ID与元素的内容和位置信息相关联且被存储。元素ID是用于识别特定元素的标识符。在该实施例中，元素的内容是通过字符识别而识别出的字符串。位置信息是指示第一图像中的特定元素的位置的信息，并且是例如围绕特定字符串的矩形的左上顶点的坐标。

<步骤S02>(添加单元102的示例)

控制器11将噪声添加到第一图像。要被添加的噪声是例如上述(a)填充式、(b)水印、(c)污垢、(d)透显、及(e)倾斜。假定透显的字符可以是镜像或可以不是镜像。存储器12存储噪声的初始值。噪声的初始值是例如：针对(a)的字符数和线条数，针对(b)的字符串的面积，针对(c)的污垢覆盖区域的面积，针对(d)的透显区域的面积，以及针对(e)的倾斜。此外，例如，对于包括在第一元素组中的每个元素(本示例性实施方式中的字符串)，覆盖有特定噪声的区域与包围元素的矩形的面积百分比还可以被判断作为噪声的初始值之一。

控制器11通过将这些噪声添加到第一图像，来生成多个第二图像。在此，控制器11执行控制，使得彼此不同的噪声将被包括在对应的第二图像中。例如，在包围特定元素的矩形中将噪声添加到的位置，可以利用随机数从第二图像到第二图像改变。此外，例如，在包围特定元素的矩形中覆盖有特定噪声的区域的面积或覆盖有特定噪声的区域与包围元素的矩形的区域的面积百分比，还可以利用随机数从第二图像成第二图像改变。总之，控制器11通过随机地改变噪声(其是预定的多种类型的噪声)，在步骤S02中从第二图像到第二图像生成多个第二图像。图4所示的图像是多个第二图像中的一个。多个第二图像就噪声N1至N6的区域、位置等方面而言彼此不同。

<步骤S03>(第二获取单元103的示例)

与步骤S01相似，控制器11对每个第二图像执行字符识别，识别出字符串，并获取所识别出的字符串作为第二元素组。由于没有识别出添加了噪声的字符，所以图4所示的示例中识别出了“Fo A-1”、“Filing Month/Day/Year”、“To Credit Department”、“Home Loan Applicat Form”、“Content of Application”、及“Na Fuji Taro”的字符串。控制器11获取这些字符串作为第二元素组。需要注意的是，如上所述，多个第二图像就噪声的区域、位置等方面而言彼此不同。因此，例如由于噪声被添加到“Home Loan Application Form”的“ion”，所以图4所示的示例中没有识别出“ion”。如果噪声添加到其它字符，则没有识别出这些字符。因此，从第二图像到第二图像，要获取的第二元素组不同。控制器11获取来自各多个第二图像的第二元素组。因此，要获取的第二元素组的数量与第二图像的数量相同。

图8是例示了与第二元素组的列表有关的图。在获取第二元素组时，控制器11生成与第二元素组有关的列表(以下称为“第二元素组列表”)。第二元素组列表是这样的列表，其中，针对元素ID，每个元素ID与元素的内容和位置信息相关联且被存储。要生成的第二元素组列表的数量与第二图像的数量相同。

<步骤S04>(提取单元104的示例)

控制器11从第一元素组列表和第二元素组列表中读取出与相同元素ID相对应的元素，并计算出两个元素之间的相似性程度。在字符串的情况下，相似性程度是匹配字符的数量与字符串的字符的总数的百分比。例如，针对元素ID＝004，由于第一元素组列表具有“Home Loan Application Form”而第二元素组列表具有“Home LoanApplicat Form”，相似性程度大约为0.870。

控制器11针对所有第二元素组列表执行该处理，并计算出每个元素ID的相似性程度的平均值。例如，当从五个第二图像中获取的、具有元素ID＝004的元素的内容是“Home Loan Applicat Form”、“Home Loan cation Form”、“Home Loan ApplicForm”、“Home Loan Application Form”、和“Home Loan Ap Form”时，该相似性程度的平均值大约为(0.870+0.783+0.783+1.0+0.609)/5＝0.809。当特定元素的相似性程度的平均达到预定阈值时，控制器11判断该元素为表示文档特征的元素。例如，在阈值为0.4的情况下，具有元素ID＝004的元素的相似性程度的平均值超过阈值，并且因此该元素被判断为表示文档特征的元素。

图9是例示了特征列表的图。当完成了针对所有元素ID的上述处理时，控制器11生成特征列表。特征列表是这样的列表，其中，表示文档特征的元素的元素ID、元素的内容、及位置信息彼此相关联且被存储。在该示例中，具有元素ID＝006的“Name Seal”的相似性程度的平均值并未达到阈值，并且因此具有元素ID＝001至005的元素被提取作为表示文档特征的元素。控制器11生成对应文档的特征列表。控制器11生成作为用于识别特征列表中的所生成的特征列表的标识符的文档ID，并且该文档ID与特征列表相关联。在该示例中，所生成的特征列表与特征ID＝001相关联。如上所述，从第一元素组中提取出表示文档特征的元素。需要注意的是，可以使得显示设备14显示这样的图像，该图像表示表示文档特征的元素的提取结果。例如，可以使得显示设备14显示所生成的特征列表。还可以使得显示设备14显示表示这样文件的图像，其中，在视觉上强调提取作为表示文档特征的元素的元素。

<实施例>

接下来，将描述使用如上述生成的特征列表的文档处理的实施例。存储器12存储根据上述流程生成的多个特征列表。这些特征列表与彼此不同的、对应文档ID相关联。首先，用户使得读取装置2读取文档。该文档是例如申请人填写的用于住房贷款的、图3所示的文档(住房贷款申请表(Home Loan Application Form))。读取装置2读取该文档，生成第三图像数据，并将第三图像数据发送到信息处理装置1。信息处理装置1的控制器11针对由从读取装置2接收到的第三图像数据所表示的第三图像执行字符识别，获取所识别的字符串作为第三元素组，并生成与第三元素组有关的列表(以下称为“第三元素组列表”)。第三元素组列表的构造与上述第一元素组列表的构造基本相同。

控制器11从特定特征列表中读取出与包括在第三元素组列表中的元素有关的多条位置信息相对应的元素，并计算出包括在第三元素组列表中的元素和从特征列表中读取出的元素之间的相似性程度。对于每个包括在第三元素组列表中的元素，当特征列表不包括与包括在第三元素组列表中的元素有关的位置信息相对应的元素时，该元素的相似性程度为0.0。针对每个特征列表，控制器11计算出根据包括在特征列表中的元素的相似性程度的点，并提取出特征列表，其点大于或等于阈值且是最高的。

存储器12设置有用于存储第三图像数据的目录。在紧接该目录下的层中，设置有与对应文档ID相关联的多个目录和一个与任何文档ID(未知文档的目录)不相关的目录。控制器11存储与所提取的特征列表的文档ID相同的文档ID相关联的目录中的第三图像数据。在所有特征列表的点没有达到阈值的情况下，控制器11存储未知文档的目录中的第三图像数据。以该方式判断文档类型。

根据本示例性实施方式，与不存在使用通过将彼此不同的噪声添加到第一图像而获得的多个第二图像，提取表示文档的元素的构造的情况相比，包括在通过读取文档而生成的图像中的噪声所导致的错误判断文档类型的次数可减少。此外，根据本示例性实施方式，与随机地改变噪声的构造相比，添加了更接近实际噪声的噪声。此外，根据本示例性实施方式，与添加了一种噪声的构造相比，添加了更接近实际噪声的噪声。此外，根据本示例性实施方式，用于提取指示文档类型的元素的标准可以不太严格。

<变形>

示例性实施方式可作如下变形。此外，可以组合多个变形。

<第一变形>

上述示例性实施方式已经示出，作为实施例，信息处理装置1的控制器11使用例如字符识别和格线识别，来提取第一元素组和第二元素组。然而，例如，用户使用鼠标在显示文档图像的画面上指定特定元素，并且控制器11可以获取所指定的元素作为第一元素组和第二元素组。

<第二变形>

可以针对要添加到第一图像的噪声设置条件。具体地，使得显示设备14显示指示噪声类型的菜单，且可以将由用户在菜单上指定的噪声类型添加到由用户指定的、在显示第一图像的画面上的区域。通过该构造，例如，在要执行手写的区域中实现添加模仿手写字符的噪声。

<第三变形>

在上述实施例中，上述示例性实施方式的步骤S04中判断了当特定元素的相似性程度的平均值达到预定阈值时，该元素是表示文档特征的元素。然而，具有相似性程度的最高平均值的特定元素可被判断为表示文档特征的元素。另外，当特定元素的相似性程度的平均值达到预定阈值且特定元素具有相似性程度的最高平均值时，特定元素可被判断为表示文档特征的元素。

<第四变形>

可能存在当进一步复制通过复制而生成的文档，且重复执行进一步复制所生成的文档时，降低了字符和线条的清晰度并错误地识别出特征部分的情况。重复执行这种进一步的复制所导致的清晰度降低被认为是一种噪声。在这种情况下，可以通过执行例如对字符的边缘进行模糊处理，和改变线条宽度的处理，而将噪声添加到第一图像。

<第五变形>

上述示例性实施方式已经示出了，作为实施例，利用随机数来从第二图像到第二图像改变噪声的位置或区域。然而，例如，噪声的位置或区域可以经常从第二图像到第二图像改变。总之，任何构造都是可用的，只要通过将彼此不同的噪声添加到第一图来生成多个第二图像。

<第六变形>

上述示例性实施方式已经示出，作为实施例，通过信息处理装置1执行应用程序来实现上述功能。然而，还可以使用硬件电路来实现部分或全部的上述功能。此外，可以将应用程序记录在诸如光记录介质或半导体存储器这样的计算机可读记录介质上，并进行提供。可以从该计算机可读记录介质中读取并安装应用程序。此外，该应用程序还可以通过电信线路进行设置。

为了图示和说明的目的，已经提供了本发明的示例性实施方式的上述说明。其不旨在是穷举的，或者不旨在将本发明限制于所公开的精确形式。明显地，许多修改和变化对于本领域技术人员而言将是显而易见的。选择并描述实施方式，以便最佳地解释本发明及其实际应用的原理，从而使本领域技术人员能够理解本发明的各种实施方式，并且各种修改适于特定预期用途。其旨在通过所附权利要求及其等同物来限定本发明的范围。

Claims

1.一种信息处理装置，所述信息处理装置包括：

第一获取单元，所述第一获取单元获取在通过读取文档而生成的第一图像中所包括的第一元素组；

添加单元，所述添加单元通过将彼此不同的噪声添加到所述第一图像，来生成多个第二图像；

第二获取单元，所述第二获取单元获取在各所述多个第二图像中所包括的多个第二元素组；以及

提取单元，所述提取单元根据在所述第一元素组中所包括的元素和在所述多个第二元素组中所包括的元素之间的相似性程度，来从所述第一组元素中提取表示所述文档的特征的元素。

2.根据权利要求1所述的信息处理装置，

其中，所述添加单元通过把作为多个所述噪声中的预定类型的噪声的一个特定噪声添加到所述第一图像来生成所述多个第二图像中的每个第二图像，使得在各所述多个第二图像中所包括的多个特定噪声彼此不同。

3.根据权利要求1所述的信息处理装置，

其中，所述添加单元通过把作为多个所述噪声中的预定类型的噪声的多个特定噪声添加到所述第一图像来生成所述多个第二图像中的每个第二图像，使得在各所述多个第二图像中所包括的多个特定噪声彼此不同。

4.根据权利要求1到3中任一项所述的信息处理装置，其中，所述提取单元提取相似性程度达到阈值的元素，作为表示所述文档的特征的元素。

5.根据权利要求1到4中任一项所述的信息处理装置，其中，所述提取单元提取相似性程度最高的元素，作为表示所述文档的特征的元素。

6.一种信息处理方法，所述信息处理方法包括如下步骤：

获取在通过读取文档而生成的第一图像中所包括的第一元素组；

通过将彼此不同的噪声添加到所述第一图像，来生成多个第二图像；

获取在各所述多个第二图像中所包括的多个第二元素组；以及

根据在所述第一元素组中所包括的元素和在所述多个第二元素组中所包括的元素之间的相似性程度，来从所述第一元素组中提取表示所述文档的特征的元素。