CN109934244A

CN109934244A - 格式类别学习系统以及图像处理装置

Info

Publication number: CN109934244A
Application number: CN201810714643.0A
Authority: CN
Inventors: 西田笃志
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2017-12-15
Filing date: 2018-07-03
Publication date: 2019-06-25
Anticipated expiration: 2038-07-03
Also published as: JP6928876B2; CN109934244B; JP2019109562A; US20190188462A1; US10762343B2

Abstract

本发明提供格式类别学习系统以及图像处理装置。格式类别学习系统包括原始文件图像获取部、图像缩小部、噪声附加部、标签附加部及机器学习处理部。原始文件图像获取部获取已记入格式的图像作为原始文件图像。图像缩小部缩小原始文件图像。噪声附加部向由图像缩小部缩小之前的原始文件图像或由图像缩小部缩小之后的原始文件图像附加噪声，并生成多个机器学习用图像。标签附加部将原始文件图像的格式类别作为标签而与多个机器学习用图像相关联。机器学习处理部将多个机器学习用图像及标签设为训练数据而执行分类器的机器学习，所述分类器将已记入格式的图像作为输入并将格式类别作为输出。本发明能够无需使用格式布局信息就能够准确地进行格式分类。

Description

格式类别学习系统以及图像处理装置

技术领域

本发明涉及格式类别学习系统以及图像处理装置。

背景技术

在某文件管理系统中，确定由数码复合机扫描的文件的格式，并且在与格式对应的文件夹中保存该文件。另外，在该文件管理系统中，基于表示格式内的框/表的位置以及大小、格式内的文字等的格式布局信息，来识别格式。

发明内容

本发明涉及的格式类别学习系统具备原始文件图像获取部、图像缩小部、噪声附加部、标签附加部以及机器学习处理部。原始文件图像获取部获取已记入格式的图像作为原始文件图像。图像缩小部缩小所述原始文件图像。噪声附加部向对由所述图像缩小部缩小之前的所述原始文件图像或者由所述图像缩小部缩小之后的所述原始文件图像附加噪声，来生成多个机器学习用图像。标签附加部将所述原始文件图像的格式类别作为标签而与所述多个机器学习用图像相关联。机器学习处理部将所述多个机器学习用图像以及所述标签作为训练数据而执行分类器的机器学习，所述分类器将已记入格式的图像作为输入，将格式类别作为输出。

附图说明

图1示出本发明的实施方式涉及的格式类别学习系统的结构；

图2示出在图1中的分类器27的机器学习中使用的已记入格式的一个例子；

图3示出与图2所示的已记入格式对应的机器学习用图像的一个例子；

图4说明图1所示的格式类别学习系统中的格式类别的机器学习。

具体实施方式

以下，基于附图，对本发明的实施方式进行说明。

图1是示出本发明的实施方式涉及的格式类别学习系统的结构的框图。在图1所示的系统中，图像处理装置1经由网络2而与服务器装置3之间进行通信。

图1中的图像处理装置1例如为数码复合机等图像形成装置，包括图像读取装置11、输入装置12、显示装置13、存储装置14、通信装置15以及运算处理装置16。

图像读取装置11以光学方式读取文件(这里是已记入的格式)的图像，并生成该图像的图像数据。

输入装置12是检测用户操作并输出表示用户操作的信息的硬键、触控面板等装置。显示装置13是向用户显示各种信息的液晶显示器等装置。例如，输入装置12以及显示装置13被配置在操作面板上，该操作面板设置于框体的表面上。

存储装置14是硬盘、闪存等非易失性的存储装置。

通信装置15是与网络2连接、且在与其他装置(服务器装置3等)之间进行数据通信的网络接口等装置。

运算处理装置16包括执行各种程序的计算机、ASIC(Application SpecificIntegrated Circuit，专用集成电路)等，通过计算机、ASIC等，作为各种处理部而工作。

这里，为了格式类别的机器学习，运算处理装置16作为原始文件图像获取部21、图像缩小部22、噪声附加部23以及标签附加部24而工作。另外，为了格式的分类，运算处理装置16作为格式图像获取部25、图像缩小部26、分类器27、格式处理部28以及参数设定部29而工作。

原始文件图像获取部21获取在分类器27的机器学习中使用的已记入格式的图像来作为原始文件图像。在该实施方式中，原始文件图像获取部21使用图像读取装置11而获取从已记入格式中读取的格式图像。

图2是示出在图1中的分类器27的机器学习中使用的已记入格式的一个例子的图。

图像缩小部22缩小该原始文件图像。即，图像缩小部22对原始文件图像进行分辨率转换。此外，图像缩小部22缩小原始文件图像，以使缩小后的原始文件图像的大小(纵横的像素数)变成预定值(例如，纵向100像素，横向00像素)。

噪声附加部23对由图像缩小部22缩小之前的原始文件图像或者由图像缩小部缩小之后的原始文件图像(这里是缩小后的原始文件图像)附加噪声，并生成多个机器学习用图像。

噪声附加部23通过以彼此不同的位置模式附加噪声，来生成彼此不同的多个机器学习用图像。例如，噪声附加部23随机确定预定数量的噪声的附加位置，并向这些附加位置附加噪声。

或者，噪声附加部23对缩小前的原始文件图像以彼此不同的模式配置噪声并生成多个中间图像，并分别缩小多个中间图像，由此生成彼此不同的多个机器学习用图像。

并且，在该实施方式中，噪声附加部23将伪字符图像附加到原始文件图像来作为上述噪声，并生成多个机器学习用图像。该伪字符图像不是文字图像，而是预定形状且预定大小的图像。例如，将固定浓度的矩形形状的图像设为伪字符图像。

这里，在向由图像缩小部22缩小之前的原始文件图像附加噪声的情况下，“预定大小”是在缩小前的原始文件图像内可能使用的文字的从最小大小到最大大小中的任意大小。另一方面，在向由图像缩小部22缩小之后的原始文件图像附加噪声的情况下，“预定大小”是在原始文件图像内能够使用的缩小后的文字的从最小大小到最大大小为止的任意大小。例如，“预定大小”被设定为(缩小前或者缩小后的)原始文件图像的大小的1～10％的范围内的任意值。

另外，噪声附加部23在应当附加上述噪声的位置(以下，称为附加位置)的浓度与背景浓度(例如，白色)不同的情况下，可以将附加位置变更为具有背景浓度的其他位置。该其他位置例如再次被随机选择。

图3是示出与图2所示的已记入格式对应的机器学习用图像的一个例子的图。例如，如图3所示，多个伪字符图像作为噪声而被附加到随机的位置。

并且，噪声附加部23可以以彼此不同的纵横比向多个附加位置附加伪字符图像。

并且，噪声附加部23可以检测原始文件图像内的框，并向所检测出的框的内部附加伪字符图像。此外，框能够通过现有的方法(边缘提取、模式匹配等)来检测出。

标签附加部24将原始文件图像的格式类别作为标签而与所生成的多个机器学习用图像相关联，并生成包含多个机器学习用图像和格式类别在内的机器学习用的训练数据。

例如，标签附加部24按照通过输入装置12所检测出的用户操作，将原始文件图像的格式类别(交货单、收据等)确定为标签。

另外，格式图像获取部25获取已记入格式的图像，该已记入格式的图像是想要通过机器学习后的分类器27来确定格式的类别的图像。在该实施方式中，格式图像获取部25使用图像读取装置11来获取从这样的已记入格式中读取的格式图像。

图像缩小部26将所获取的已记入格式的图像缩小为预定大小。即，图像缩小部26将所获取的已记入格式的图像缩小为与用于机器学习中的机器学习用图像相同的大小。即，图像缩小部26对已记入格式的图像进行分辨率转换。

分类器27是将缩小的已记入格式的图像作为输入、将格式类别作为输出的分类器，确定与缩小的已记入格式的图像对应的格式类别。

分类器27包括进行了机器学习的神经网络(例如，深度神经网络)，通过该神经网络，来确定与已记入格式的图像对应的格式类别。作为该神经网络，例如，能够使用如VGG16等那样的现有的卷积神经网络。

格式处理部28按照由分类器27确定的格式类别，对已记入格式的图像执行特定处理。例如，格式处理部28在与格式类别对应的文件夹保存已记入格式的图像文件。

参数设定部29从机器学习处理部32获取由机器学习处理部32确定的机器学习后的参数，并将其设定在分类器27中。

另外，图1中的服务器装置3是云服务器、与局域网连接的服务器等，包括通信装置31以及机器学习处理部32。

通信装置31是与网络2连接、并在与其他装置(图像处理装置1等)之间进行数据通信的网络接口等装置。

机器学习处理部32将上述多个机器学习用图像以及标签设为训练数据而执行分类器27的机器学习。

具体而言，机器学习处理部32基于训练数据以现有的深度学习的方式对作为神经网络的分类器27的参数(神经元之间的耦合系数、神经元的偏倚等)进行最佳化，由此执行分类器27的机器学习。

此外，在图1中，图像处理装置1仅仅为一台，但该系统可以包括多个图像处理装置1，针对这些图像处理装置1的分类器27，机器学习处理部32可以一起进行机器学习，也可以分别进行机器学习。

接着，对上述系统的动作进行说明。

在上述系统中进行格式类别的机器学习，并且在图像处理装置1中，通过进行了机器学习的分类器来进行格式图像的分类。

(a)格式类别的机器学习

图4是说明图1所示的格式类别学习系统中的格式类别的机器学习的图。

首先，准备用于机器学习的、多个格式类别的已记入格式(表单等)。然后，原始文件图像获取部21使用图像读取装置11而获取该已记入格式的图像(格式图像)。

图像缩小部22将该格式图像缩小为预定大小，噪声附加部23如上面所述那样以不同的模式将噪声附加到缩小后的格式图像，由此生成多个机器学习用图像。

标签附加部24将该已记入格式的格式类别作为标签而附加到多个机器学习用图像。

机器学习处理部32获取该多个机器学习用图像和该格式类别作为训练数据，将各机器学习用图像作为输入并将所对应的格式类别作为输出而执行分类器27的参数的最佳化处理，由此进行分类器27的机器学习。

在机器学习的结束之后，参数设定部29从服务器装置3的机器学习处理部32中获取机器学习后的参数，并将其设定在分类器27中。

(b)格式图像的分类

格式图像获取部25使用图像读取装置11而获取应当以格式类别分类的已记入格式的图像(格式图像)。

图像缩小部26将所获取的格式图像缩小为预定大小。

分类器27确定与缩小的格式图像对应的格式类别。

格式处理部28针对所获取的格式图像执行与所确定的格式类别对应的特定处理。

如以上所述，根据上述实施方式，图像处理装置1通过分类器27确定已记入格式的格式类别，该分类器27将已记入格式的图像被缩小为预定大小的、缩小后的已记入格式的图像作为输入，并将格式类别作为输出。并且，该分类器27是通过格式类别学习系统而进行了机器学习的分类器，该格式类别学习系统包括：获取已记入格式的图像作为原始文件图像的原始文件图像获取部21；缩小原始文件图像的图像缩小部22；向由图像缩小部22缩小之前的原始文件图像或者由图像缩小部22缩小之后的原始文件图像附加噪声、并生成多个机器学习用图像的噪声附加部23；将原始文件图像的格式类别作为标签而与多个机器学习用图像相关联的标签附加部24；以及将多个机器学习用图像以及标签设为训练数据而执行分类器27的机器学习的机器学习处理部32。

由此，无需使用格式布局信息而准确地进行格式的分类。另外，通过上述的噪声附加，格式的记入内容难以在机器学习中反映出来，除了记入以外的格式固有的布局容易被进行机器学习，其结果为，难以受到记入内容的影响，格式容易被准确地分类。

此外，对于本领域技术人员来说，对上述实施方式的各种变更和修改是显而易见的。在不脱离该主题的宗旨和范围的且不会削弱其预期的优点的情况下，可以做出这些变更和修改。即，这样的变更和修改旨在包含于权利要求书的范围内。

例如，在上述实施方式中，原始文件图像获取部21、图像缩小部22、噪声附加部23、以及标签附加部24可以设置于与格式图像获取部25、图像缩小部26、分类器27、格式处理部28以及参数设定部29不同的装置中。

另外，在上述实施方式中，机器学习处理部32设置于与图像处理装置1不同的服务器装置3中，但可以设置于图像处理装置1中。

并且，在上述实施方式中，噪声附加部23在上述附加位置的浓度与背景浓度(例如，白色)不同的情况下，可以将伪字符图像转换为白色，并将转换后的伪字符图像附加到该附加位置。

而且，在上述实施方式中，可以使用原始文件图像获取部21以及格式图像获取部25中的一个来替代另一个。在该情况下，可以省略原始文件图像获取部21以及格式图像获取部25中的一个。另外，在上述实施方式中，可以使用图像缩小部22、26中的一个来替代另一个。在该情况下，可以省略图像缩小部22、26中的一个。

本发明例如能够应用于数码复合机中。

Claims

1.一种格式类别学习系统，其特征在于，包括：

原始文件图像获取部，获取已记入格式的图像作为原始文件图像；

图像缩小部，缩小所述原始文件图像；

噪声附加部，对由所述图像缩小部缩小之前的所述原始文件图像或者由所述图像缩小部缩小之后的所述原始文件图像附加噪声，来生成多个机器学习用图像；

标签附加部，将所述原始文件图像的格式类别作为标签而与所述多个机器学习用图像相关联；以及

机器学习处理部，将所述多个机器学习用图像以及所述标签作为训练数据而执行分类器的机器学习，所述分类器将所述已记入格式的图像作为输入，将所述格式类别作为输出。

2.根据权利要求1所述的格式类别学习系统，其特征在于，

所述噪声附加部将伪字符图像作为所述噪声附加到所述原始文件图像，来生成多个机器学习用图像，

所述伪字符图像是预定形状且预定大小的图像。

3.根据权利要求2所述的格式类别学习系统，其特征在于，

所述预定大小是在由所述图像缩小部缩小之前的所述原始文件图像或者由所述图像缩小部缩小之后的所述原始文件图像中可能存在的文字的最小大小至最大大小中的任意大小。

4.根据权利要求2所述的格式类别学习系统，其特征在于，

所述噪声附加部以彼此不同的纵横比向多个附加位置附加所述伪字符图像。

5.根据权利要求2所述的格式类别学习系统，其特征在于，

所述噪声附加部检测所述原始文件图像内的框，向所检测出的所述框的内部附加所述伪字符图像。

6.根据权利要求1所述的格式类别学习系统，其特征在于，

所述噪声附加部随机确定所述噪声的附加位置，在所确定的所述附加位置的浓度与背景浓度不同的情况下，将所述附加位置变更为具有所述背景浓度的其他位置。

7.一种图像处理装置，其特征在于，包括：

格式图像获取部，获取已记入格式的图像；

第一图像缩小部，将所获取的所述已记入格式的图像缩小为预定大小；以及

分类器，将缩小的所述已记入格式的图像作为输入，将格式类别作为输出，

其中，所述分类器是通过格式类别学习系统进行了机器学习的分类器，

所述格式类别学习系统包括：

第二图像缩小部，缩小所述原始文件图像；

噪声附加部，对由所述第二图像缩小部缩小之前的所述原始文件图像或者由所述第二图像缩小部缩小之后的所述原始文件图像附加噪声，来生成多个机器学习用图像；

机器学习处理部，将所述多个机器学习用图像以及所述标签作为训练数据而执行分类器的机器学习，所述分类器将已记入格式的图像作为输入，并将格式类别作为输出。