CN113255673A - 信息处理装置、记录介质及信息处理方法 - Google Patents

信息处理装置、记录介质及信息处理方法 Download PDF

Info

Publication number
CN113255673A
CN113255673A CN202010756418.0A CN202010756418A CN113255673A CN 113255673 A CN113255673 A CN 113255673A CN 202010756418 A CN202010756418 A CN 202010756418A CN 113255673 A CN113255673 A CN 113255673A
Authority
CN
China
Prior art keywords
information
processing
preprocessing
processing apparatus
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010756418.0A
Other languages
English (en)
Inventor
上条裕义
山中优辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Publication of CN113255673A publication Critical patent/CN113255673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

一种信息处理装置、记录介质及信息处理方法,能够以局部区域为单位提高在后级侧处理中得到的结果的精度。信息处理装置具有处理器,所述处理器进行如下处理:对所获取的图像数据执行预处理;在从对预处理后的所述图像数据进行处理的后级侧处理中接收在与该图像数据对应的图像中确定至少一个局部区域的信息的情况下,将所确定的局部区域作为对象而执行特定的预处理。

Description

信息处理装置、记录介质及信息处理方法
技术领域
本发明涉及一种信息处理装置、记录介质及信息处理方法。
背景技术
已知有一种将印刷在印刷品上的字符或手写字符图像转换成在计算机中可利用的字符代码的技术。该技术被称为OCR(=Optical Character Recognition:光学字符识别)处理。在获取与包括字符的文档对应的图像中,使用所谓的扫描仪或数码相机。
虽然也能够将由扫描仪或数码相机拍摄到的图像数据直接输出到OCR处理,但是为了增大表示通过OCR处理进行的字符识别的结果的准确性的值(以下,称为“可信度”),有时提前追加处理。例如,有时在OCR处理之前执行去除包括在图像中的噪声或色块等的清理处理。此外,有时将获取时的图像的分辨率设定得较高。以下,将在OCR处理之前执行的处理称为预处理。
专利文献1:日本特开2015-146075号公报
目前,OCR处理的可信度将处理对象即整个图像或整个数据文件作为单位而算出。因此,即使在包括OCR处理的可信度降低的区域的情况下,若整体的可信度高,则预处理也不会关注包括可信度低的区域。
发明内容
本发明的目的在于,与将与在后级侧处理中得到的局部区域有关的信息不通知到前级侧处理的情况相比,以局部区域为单位提高在后级侧处理中得到的结果的精度。
方案1所述的发明为一种信息处理装置,其具有处理器,所述处理器进行如下处理:对所获取的图像数据执行预处理;在从对预处理后的所述图像数据进行处理的后级侧处理中接收在与该图像数据对应的图像中确定至少一个局部区域的信息的情况下,将所确定的局部区域作为对象而执行特定的预处理。
方案2所述的发明在方案1所述的信息处理装置中,确定局部区域的所述信息包括与精度有关的信息,所述精度是对与局部区域对应的所述图像数据进行了处理的结果的精度。
方案3所述的发明在方案2所述的信息处理装置中,与所述精度有关的信息以局部区域为单位被赋予。
方案4所述的发明在方案2或3所述的信息处理装置中,与所述精度有关的信息表示处理结果的精度低于预先确定的阈值。
方案5所述的发明在方案1所述的信息处理装置中,确定局部区域的所述信息包括与处理结果的精度低的原因有关的信息。
方案6所述的发明在方案5所述的信息处理装置中,与所述原因有关的信息是与包括在局部区域中的字符或背景有关的信息。
方案7所述的发明在方案1所述的信息处理装置中,确定局部区域的所述信息包括指示预处理内容的信息。
方案8所述的发明在方案7所述的信息处理装置中,指示预处理内容的所述信息包括指示在预处理中使用的参数值的信息。
方案9所述的发明在方案1所述的信息处理装置中,所述处理器对根据确定局部区域的所述信息所确定的局部区域,执行与上一次为止不同内容的预处理。
方案10所述的发明在方案9所述的信息处理装置中,在确定局部区域的所述信息中包括表示将局部区域作为对象的处理结果的精度低于预先确定的阈值的信息的情况下,所述处理器对所对应的局部区域执行与上一次为止不同的预处理。
方案11所述的发明在方案10所述的信息处理装置中,所述处理器根据表示处理结果的精度低于预先确定的阈值的所述信息来推定原因。
方案12所述的发明在方案11所述的信息处理装置中,所述处理器包括将所述整个图像数据作为对象的后级处理的结果的精度而推定所述原因。
方案13所述的发明在方案10所述的信息处理装置中,所述处理器根据在预处理过程中得到的信息来推定原因。
方案14所述的发明在方案10所述的信息处理装置中,所述处理器根据对类似于所述图像数据的其他图像数据的预处理的履历来推定原因。
方案15所述的发明在方案10所述的信息处理装置中,所述处理器根据相同类型的局部区域之间的精度的差异来推定原因。
方案16所述的发明在方案9所述的信息处理装置中,所述处理器将对已执行特定的预处理的局部区域进行确定的信息通知到后级处理。
方案17所述的发明在方案9所述的信息处理装置中,所述处理器将对预处理后的所述图像数据进行识别的信息与后级处理共享。
方案18所述的发明在方案9所述的信息处理装置中,在确定局部区域的所述信息中包括与局部区域的精度低的原因有关的信息的情况下,所述处理器执行与该原因对应的预处理。
方案19所述的发明在方案9所述的信息处理装置中,在确定局部区域的所述信息中包括指示预处理内容的信息的情况下,所述处理器执行所指示内容的预处理。
方案20所述的发明为一种记录介质,其记录有用于使计算机实现如下功能的程序:对所获取的图像数据执行预处理的功能;及在从对预处理后的所述图像数据进行处理的后级处理中接收在与该图像数据对应的图像中确定至少一个局部区域的信息的情况下,将所确定的该局部区域作为对象而执行特定的预处理的功能。
方案21所述的发明为一种信息处理方法,其包括如下步骤:对所获取的图像数据执行预处理的步骤;及在从对预处理后的所述图像数据进行处理的后级侧处理中接收在与该图像数据对应的图像中确定至少一个局部区域的信息的情况下,将所确定的局部区域作为对象而执行特定的预处理的步骤。
发明效果
根据本发明的第1方案,与将与在后级侧处理中得到的局部区域有关的信息不通知给前级侧处理的情况相比,能够以局部区域为单位提高在后级侧处理中得到的结果的精度。
根据本发明的第2方案,能够在预处理侧确认在所确定的局部区域中执行的预处理的内容对后级处理的结果带来的影响。
根据本发明的第3方案,能够以局部区域为单位确认在预处理中执行的内容对后级处理的结果带来的影响。
根据本发明的第4方案,能够确认存在后级处理结果的精度低的局部区域。
根据本发明的第5方案,能够有效地确定提高后级处理结果的精度的预处理内容。
根据本发明的第6方案,能够有效地确定使后级处理结果的精度提高的预处理内容。
根据本发明的第7方案,能够有效地提高后级处理结果的精度。
根据本发明的第8方案,能够有效地提高后级处理结果的精度。
根据本发明的第9方案,能够改变与所确定的局部区域对应的后级处理结果的精度。
根据本发明的第10方案,在与精度的高低无关地通知处理结果的精度的情况下,能够仅在精度低的局部区域变更预处理内容。
根据本发明的第11方案,能够有效地提高后级处理结果的精度。
根据本发明的第12方案,能够确定由将整个图像作为对象的预处理引起的原因。
根据本发明的第13方案,能够有效地提高后级处理结果的精度。
根据本发明的第14方案,能够有效地提高后级处理结果的精度。
根据本发明的第15方案,能够有效地提高后级处理结果的精度。
根据本发明的第16方案,能够省略进行无用的后级处理。
根据本发明的第17方案,能够省略在预处理及后级处理两者中进行无用的处理。
根据本发明的第18方案,能够有效地提高后级处理结果的精度。
根据本发明的第19方案,能够有效地提高后级处理结果的精度。
根据本发明的第20方案,与将与在后级侧处理中得到的局部区域有关的信息不通知给前级侧处理的情况相比,能够以局部区域为单位提高在后级侧处理中得到的结果的精度。
根据本发明的第21方案,与将与在后级侧处理中得到的局部区域有关的信息不通知给前级侧处理的情况相比,能够以局部区域为单位提高在后级侧处理中得到的结果的精度。
附图说明
根据以下附图,对本发明的实施方式进行详细叙述。
图1是表示在实施方式中使用的信息处理系统的结构例的图;
图2是对在实施方式1中使用的图像处理装置的硬件结构的一例进行说明的图;
图3是对在实施方式1中执行的处理的概要进行说明的图;
图4是对由实施方式1中的图像处理装置执行的处理的一例进行说明的流程图;
图5是对作为读取对象的原稿的一例进行说明的图;
图6是对从图像数据分离的对象的示例进行说明的图;
图7是对在实施方式1的步骤S11中执行的处理的一例进行说明的流程图;
图8是对在实施方式2中执行的处理的概要进行说明的图;
图9是对实施方式2中的图像处理装置执行的处理的一例进行说明的流程图;
图10是对在实施方式2的步骤S21中执行的处理的一例进行说明的流程图;
图11是对在实施方式3中执行的处理的概要进行说明的图;
图12是对实施方式3中的图像处理装置执行的处理的一例进行说明的流程图;
图13是对在实施方式3的步骤S32中执行的处理的一例进行说明的流程图;
图14是对在实施方式3的步骤S32中执行的处理的其他例进行说明的流程图;
图15是对在对象数据为表区域的情况下被推定的原因的示例进行说明的图。图15中,(A)表示关于一个表区域所反馈的可信度的组合,(B)表示所推定的原因;
图16是对在实施方式4中执行的处理的概要进行说明的图;
图17是对实施方式4中的图像处理装置执行的处理的一例进行说明的流程图;
图18是对在实施方式4的步骤S42中执行的处理的一例进行说明的流程图;
图19是对被通知的原因的一例进行说明的图;
图20是对在实施方式5中执行的处理的概要进行说明的图;
图21是对实施方式5中的图像处理装置执行的处理的一例进行说明的流程图;
图22是对在实施方式6中执行的处理的概要进行说明的图;
图23是对实施方式6中的图像处理装置执行的处理的一例进行说明的流程图;
图24是对实施方式7中的图像处理装置执行的处理的一例进行说明的流程图;
图25是对在实施方式8中执行的处理的概要进行说明的图。
符号说明
1-信息处理系统,10-图像处理装置,11-控制单元,11A-处理器,12-存储装置,13-图像读取单元,14-图像处理单元,15-图像形成单元,16-操作接收单元,17-显示单元,18-通信装置,20-OCR处理服务器,30-云网络。
具体实施方式
以下,参考附图,对本发明的实施方式进行说明。
<实施方式>
<系统结构>
图1是表示在实施方式中使用的信息处理系统1的结构例的图。
图1所示的信息处理系统1具有图像处理装置10、对从图像处理装置10赋予的图像数据中所包括的字符进行识别的OCR处理服务器20、作为网络环境的云网络30。
本实施方式中的图像处理装置10具备生成原稿复制品的功能、在纸张上印刷文档或图像的功能、以光学方式读取原稿并生成图像数据的功能、收发传真的功能等。
在图1所示的图像处理装置10的主体上部,配备有将原稿一张一张地输送到以光学方式读取信息的位置上的机构。这种机构被称为例如ADF(=Auto Document Feeder:自动文档进纸器)。ADF使用于读取复制原稿或读取发送传真的原稿。
在生成复制品中,也使用在纸张上印刷文档或图像的功能。文档或图像的数据除了在图像处理装置10中以光学方式被读取以外,还从连接在主体上的记录介质或外部的信息终端赋予。
在图像处理装置10中设置的功能并不限定于前述功能。然而,在本实施方式的情况下,若在图像处理装置10中设置有以光学方式读取原稿的信息并生成图像数据的功能,则其他功能是任意的。
本实施方式中的原稿除了印刷有字符或图像的纸张以外,还可以是记入有手写字符的文档或图像。手写记入的字符可以是文档或图像的一部分。即,文档内的字符不需要全部是手写的。
在本实施方式中,作为手写文档,例如假定申请书、账单、交货单、发票等手写表单。在手写表单中,在提前印刷的框内记入有字符。手写文档并不限定于表单类型,也可以是联络用备忘录、传阅用文档、明信片、封口书信等。
在本实施方式中的图像处理装置10中,也具备在从原稿读取的图像中去除噪声或色块等功能。在本实施方式的情况下,去除噪声等之后的图像数据发送到OCR处理服务器20。
图1中仅示出一台图像处理装置10,但是构成信息处理系统1的图像处理装置10可以是复数台。本实施方式中的图像处理装置10是信息处理装置的一例。
本实施方式中的OCR处理服务器20设计成,对从图像处理装置10赋予的图像数据进行OCR处理,并将作为处理结果的文本数据移交给图像处理装置10。被移交文本数据的图像处理装置10对所接收到的文本数据执行后处理。在后处理中,例如有语言处理、将文本数据与管理上的正确位置建立关联的处理、与文本数据相关的文档的检索、在传递物品中使用的路径的检索。另外,后处理内容根据要读取的原稿内容或所要求的处理内容而设置。
此外,在本实施方式的OCR处理服务器20中,还设置有针对每个局部区域将与OCR处理结果的可信度有关的信息反馈到预处理的功能。该功能是为了提高通过OCR处理而得到的字符识别结果的准确性、或者为了提高后处理结果的质量或精度而设置。
然而,本实施方式中的图像处理装置10的操作员和OCR处理服务器20的操作员可以相同,也可以不同。
在本实施方式中,使用专用于OCR处理的OCR处理服务器20,但是可以使用与复数种功能对应的通用型服务器。另外,执行OCR处理的计算机并不限定于服务器。执行OCR处理的计算机例如可以是台式计算机或笔记本计算机,也可以是智能手机或平板终端。
在图1的情况下,OCR处理服务器20是一台,但是构成信息处理系统1的OCR处理服务器20可以是复数台。复数台OCR处理服务器20可以对一个图像数据进行分散处理。本实施方式中的OCR处理服务器20是执行后级侧处理的装置的一例。
在本实施方式的情况下,在图像处理装置10与OCR处理服务器20的通信中使用云网络30,但是并不限定于经由云网络30的通信。例如,在图像处理装置10与OCR处理服务器20的通信中,可以使用简称为LAN(=Local Area Network:局域网)、4G或5G的移动通信系统。
<图像处理装置的结构>
图2是对在实施方式1中使用的图像处理装置10的硬件结构的一例进行说明的图。图2所示的图像处理装置10具有:控制单元11,控制整个装置;存储装置12,存储图像数据等;图像读取单元13,以光学方式读取原稿并生成图像数据;图像处理单元14,将转换灰度的处理或校正颜色的处理等追加到图像数据;图像形成单元15,将与图像数据对应的图像形成于纸张上;操作接收单元16,接收用户操作;显示单元17,显示用户界面画面等;及通信装置18,使用于与外部的通信。控制单元11和各部通过总线19或未图示的信号线而连接。
本实施方式中的控制单元11具有处理器11A、存储有固件或BIOS(=Basic InputOutput System:基本输入输出系统)等的未图示的ROM(=Read Only Memory:只读存储器)、用作工作区的未图示的RAM(=Random Access Memory:随机存取存储器)。控制单元11作为所谓的计算机而发挥功能。前述预处理或后处理通过处理器11A执行程序而实现。
存储装置12由硬盘装置或非易失性可重写半导体存储器等构成。在存储装置12中存储有例如由图像读取单元13读取的图像数据等。在存储装置12中可以存储应用程序。
图像读取单元13具备例如CIS(=Contact Image Sensor:接触图像传感器)。CIS包括射出照明光的LED(=Light Emitting Diode:发光二极管)、接收在原稿上反射的光的光传感器、将在原稿上反射的光聚集在光传感器上的光学系统。
在一边由ADF将原稿输送到读取位置,一边读取图像的情况下,CIS在固定于读取位置上的状态下被使用。在光透射的玻璃表面上配置有原稿的状态下读取图像的模式的情况下,CIS被控制成相对于原稿相对移动。
图像处理单元14由执行转换灰度的处理或校正颜色的处理等的GPU(=GraphicsProcessing Unit:图形处理单元)、FPGA(=Field Programmable Gate Array:现场可编程门阵列)等构成。
图像形成单元15具有与如下方式对应的机构:电子照相方式,将转印到纸张上的调色剂通过加热而定影,由此将与图像数据对应的图像形成于纸面上;及喷墨方式,将液滴射出到纸张上,由此将与图像数据对应的图像形成于纸面上。
操作接收单元16由配置在显示单元17的显示面上的触摸传感器、物理开关或按钮等构成。
显示单元17例如由液晶显示器或有机EL显示器构成。将操作接收单元16和显示单元17设为一体化的器件也被称为触摸面板。触摸面板用于接收用户对以软件方式显示的键(以下,也称为“软键”)的操作。
通信装置18由依据基于有线或无线方式的通信标准的模块构成。在通信装置18中例如使用EtherNet(注册商标)模块、USB(=Universal Serial Bus:通用串行总线)、无线LAN、传真用调制解调器等。
<处理内容>
以下,对通过图像处理装置10和OCR处理服务器20的协作而执行的处理进行说明。
<处理的概要>
图3是对在实施方式1中执行的处理的概要进行说明的图。本实施方式中的处理由5种处理构成。5种处理是获取原稿的图像数据的处理、对所获取的图像数据的预处理、对预处理后的图像数据的OCR处理、对OCR处理的结果即文本数据进行处理的后处理、将后处理的结果存储于存储装置12(参考图2)中的处理。
在本实施方式的情况下,由OCR处理服务器20(参考图1)执行OCR处理,除此以外的4种处理由图像处理装置10(参考图1)执行。
在本实施方式的情况下,作为预处理,执行去除噪声或色块等的清理处理或分离为对象的处理。另一方面,作为后处理,参考注册有与键(=skey)对应的值(=value)的组合的词典来执行提取与键对应的值或与值对应的键的处理。本实施方式中的键及值对应于字符或图像。例如,在键为名称的情况下,富士太郎对应于值。换言之,键是表示项目的字符或图形,值是表示与项目对应的具体内容的字符或图形。
在本实施方式的情况下,在预处理和OCR处理之间确定处理对象的信息从预处理通知到OCR处理。在图3的情况下,通知作为确定处理对象的信息的文件名,作为附属于预处理后的图像数据中的数据。在本实施方式的情况下,文件名由读取日期和时间或已进行读取作业的用户名、区分用于读取的图像处理装置10的信息等构成。然而,确定文件名的信息并不限定于此。
另一方面,OCR处理在对预处理反馈信息时,例如使用文件名明确指示处理对象。通过通知该文件名,预处理和OCR处理能够协作。例如,在预处理和OCR处理并行处理复数个图像数据的情况下,通过使用文件名而能够区分处理对象。另外,只要能够确定处理对象即可,因此从预处理通知到OCR处理的信息并不限定于文件名。
在本实施方式的情况下,在预处理中也执行将图像数据分离为复数个对象的处理。
在本实施方式的情况下,作为对象,使用字符的区域(以下,称为“字符区域”)、表的区域(以下,称为“表区域”)、图形的区域(以下,称为“图形区域”)、图的区域(以下,称为“图区域”)4个区域。
例如,包括原稿的标题、字符、数值的区域被剪切为字符区域。表本身或表所附带的标题被剪切为表区域。将公司名称等图案化的区域被剪切为图形区域或图区域。除此以外的区域是背景。各个对象是局部区域的一例。
另外,背景、图形区域及图区域从OCR处理对象中被排除。因此,与字符区域和表区域对应的图像数据作为对象数据从图像处理装置10发送到OCR处理服务器20。另外,各对象数据被赋予识别各个局部区域的信息。
在本实施方式的情况下,预处理后的图像数据以局部区域单位从预处理发送到OCR处理。
此外,可以将对所执行的预处理的内容进行确定的信息从预处理通知到OCR处理。预处理内容在OCR处理侧推定可信度低的原因的情况下能够利用。
在本实施方式的情况下,以局部区域单位请求的预处理的内容从OCR处理反馈到预处理,或者反馈表示经过OCR处理的结果的可信度低的信息。可信度是与精度有关的信息的一例。
在本实施方式的情况下,局部区域以被剪切为对象的各个区域的含义而使用。换言之,在存在复数个字符区域的情况下,有可能对每个字符区域反馈不同的信息。关于表区域也相同。另外,关于表区域,也有可能以行或列单位反馈不同的信息。
在本实施方式的情况下,识别各个局部区域的信息从预处理通知到OCR处理。从而,从OCR处理到预处理的反馈中包括识别各个局部区域的信息。然而,在OCR处理中,也能够将对象种类相同的复数个局部区域视为一个局部区域而计算可信度,并将表示该可信度低的信息与对算出可信度的复数个局部区域进行识别的信息一起进行反馈。
在本实施方式的情况下,关于可信度超过预先确定的阈值的局部区域不执行反馈。从而,关于所有局部区域,在各个可信度超过预先确定的阈值的情况下,不执行从OCR处理到预处理的反馈。这是因为,得到了可信度高的文本数据。
在本实施方式中,求出关于从对应的局部区域中提取的各个字符所算出的可信度的平均值作为局部区域的可信度。这里的字符中也包括数字或符号。可以对每个局部区域使用不同的加权来计算平均值。例如,在字符区域的情况和表区域的情况下,可以使用不同的权重。并且,在相同类型的局部区域中,也可以在标题部分和本文中使用不同的权重。
针对局部区域对应的对象的每种类型,在局部区域的可信度评价中使用的阈值可以不同,也可以相同。例如,可以在字符区域和表区域使用不同的权重来计算可信度。
另外,从OCR处理到预处理的反馈也可以是不指定局部区域的反馈。在该情况下,OCR处理也识别哪个局部区域的可信度高、以及哪个局部区域的可信度低。
从而,在OCR处理中,能够从追加了新的预处理的图像数据中仅选择在上一次OCR处理中可信度低的局部区域,并确认可信度的变化。并且,在OCR处理中,也能够仅将得到高于阈值的可信度的文本数据选择性地输出到后处理。
<图像处理装置执行的处理>
图4是对实施方式1中的图像处理装置10执行的处理的一例进行说明的流程图。图中所示的符号S是指步骤。图4所示的处理由处理器11A(参考图2)执行。
图4所示的处理通过接收伴随OCR处理的原稿读取指示而开始。在对图像处理装置10的读取指示中,例如使用开始按钮的操作。
在读取指示中,能够设定读取的条件或前提。例如,能够指定读取对象即原稿的种类。在指定有原稿的种类的情况下,与原稿的种类对应地准备的预处理的内容由处理器11A来选择。另外,在通过机械学习而学习原稿的种类与可得到高可信度的预处理的内容之间的关系的情况下,处理器11A选择与所指定的原稿的种类对应的预处理的内容。
然而,也能够进行不设定读取的条件或前提的读取指示。在该情况下,由处理器11A选择与通过读取而推定的原稿的种类或对应于原稿特征的内容的预处理。并且,在由图像处理装置10能够读取原稿的标题的情况下,由处理器11A选择与所读取的标题对应的内容的预处理。
而且,若接收伴随OCR处理的原稿读取指示,则处理器11A获取原稿的图像数据(步骤S1)。图像数据例如以PDF(=Portable Document Format:便携式文档格式)等预先确定的形式输出。
图5是对读取对象即原稿的一例进行说明的图。图5所示的原稿的标题是报价单,在整个纸张上附加有色块。图5所示的报价单包括两个表。上段是表A,下段是表B。图5所示的表A和表B均由3行构成。记载表A和表B的标题的项目名称均在黑色背景上空白印刷有字符。表A的第2行和第3行在白色背景上印刷有黑色字符。表B的第2行和第3行在彩色背景上印刷有字符。字符可以是黑色字符、空白字符及彩色字符中的任一个。另外,也可以假定背景是阴影的情况。
返回到图4的说明。
接着,处理器11A对所获取的图像数据执行预处理(步骤S2)。在本实施方式的情况下,在预处理中执行对象分离。在对象分离中使用已知技术。并且,也执行预先选择的或者在初始设定中所确定的清理处理。
图6是对从图像数据分离的对象的示例进行说明的图。在图6的情况下,包括“报价单”、“ABC工业”、“XYZ商会”、“总金额16,000日元”的字符串的区域,作为字符区域从图像数据中被分离。并且,包括与表A的字符对应的表及与表B的字符对应的表的区域,作为表区域从图像数据中被分离。并且,配置在图像数据的右下方的标识作为图形区域或图区域从图像数据被分离。
预处理可以在对象分离之前或之后进行。在本实施方式中,在执行预处理之后,执行对象分离。
返回到图4的说明。
接着,处理器11A将对象数据发送到OCR处理服务器20(步骤S3)。在本实施方式的情况下,对象数据是与字符区域和表区域对应的图像数据。即,判定为图形区域及图区域的部分的图像数据不被发送到OCR处理服务器20。
然后,处理器11A判定从OCR处理服务器20是否反馈信息(步骤S4)。
例如,在预先确定的时间内不存在信息反馈的情况下,处理器11A在步骤S4中得到否定结果。在本实施方式的情况下,不存在信息反馈是指,在所有局部区域OCR处理的结果的可信度高。如上所述,在本实施方式中,以局部区域为单位计算可信度。另外,可以以整个表为单位来计算可信度,也可以以构成表的行或列为单位来计算可信度。
在步骤S4中得到否定结果的情况下,处理器11A从存储装置12(参考图2)中删除在步骤S1中获取的图像数据(步骤S5)。这是因为,关于目标图像数据不需要再次执行预处理。在此,删除是用于预处理的图像数据的删除。从而,能够以用于其他用途来保存图像数据。
接着,处理器11A对从OCR处理服务器20获取的文本数据进行后处理(步骤S6)。然后,处理器11A将处理结果存储于存储装置12中(步骤S7)。另外,步骤S5可以在步骤S6或步骤S7之后执行。
在本实施方式的情况下,在执行步骤S5~步骤S7中,或者在执行这些处理之后,处理器11A学习如下内容:在对整个图像数据或特定的局部区域上一次执行的预处理的内容中,得到了高可信度。学习单位与后述可信度低的情况相同。
在步骤S4中得到肯定结果的情况下,处理器11A确定反馈的对象数据(步骤S8)。在本实施方式的情况下,当存在可信度不超过预先确定的阈值的局部区域时,存在从OCR处理服务器20到图像处理装置10的反馈。在本实施方式的情况下,从OCR处理服务器20反馈的信息中包括识别目标局部区域的信息。在识别局部区域的信息中,例如使用表示拍摄到原稿的图像数据内的位置的坐标或序列号。坐标例如以规定区域外缘的一个或复数个坐标点的方式赋予。在局部区域为矩形形状的情况下,使用局部区域的例如左上角的坐标点。识别局部区域的信息包括在步骤S3中发送到OCR处理服务器20的对象数据中。若对象数据被确定,则目标图像数据或对象的种类也被确定。
接着,处理器11A判定在所反馈的信息中是否包括对预处理内容的指示(步骤S9)。如图3中已说明,在本实施方式的OCR处理服务器20中设置有将表示可信度低于阈值的信息或对预处理请求的处理内容反馈到图像处理装置10的预处理的功能。在所请求的处理内容中,例如包括清理处理的种类、清理处理的强度、在清理处理中使用的参数值。在清理处理的种类中,例如存在去除色块或阴影的处理、去除污渍的处理、去除背景颜色并将空白字符或彩色字符转为黑色字符的处理。
另外,在去除色块或阴影等中,例如应用被称为生成对抗网络(GAN:GenerativeAdversarial Networks)的方法。由于使用GAN来去除噪声等的技术已被实用化,因此省略详细说明。
在步骤S9中得到肯定结果的情况下,处理器11A执行所指示的预处理的内容(步骤S10)。在本实施方式的情况下,仅对在步骤S8中所确定的对象数据执行新的预处理。然而,可以将新内容的预处理对象设为原稿的整个图像数据。
在执行步骤S10之后,处理器11A返回到步骤S3。在本实施方式的情况下,处理器11A仅对在步骤S8中所确定的局部区域,将预处理后的图像数据作为对象数据而发送到OCR处理服务器20。此时,处理器11A将对再次执行预处理的局部区域进行确定的信息通知到OCR处理服务器20。
另外,在步骤S3中发送到OCR处理服务器20的对象数据中,也能够包括除了在步骤S8中所确定的对象数据以外的其他对象数据。即使包括其他对象数据,OCR处理服务器20也能够选择性地提取与可信度低的局部区域对应的对象数据。
在步骤S9中得到否定结果的情况下,处理器11A确定并执行应执行的预处理的内容(步骤S11)。
图7是对在实施方式1的步骤S11中执行的处理的一例进行说明的流程图。图中所示的符号S是指步骤。
开始了步骤S11的处理器11A关于所确定的对象数据确定完成执行的预处理的内容(步骤S111)。在关于同一原稿的同一对象数据已执行复数次预处理的情况下,处理器11A确定复数次预处理的内容。
接着,处理器11A关于对象数据选择与上一次为止不同内容的预处理(步骤S112)。这是因为,在本实施方式的情况下,从OCR处理服务器20仅反馈表示可信度低于阈值的信息。
接着,处理器11A关于对象数据执行所选择内容的预处理(步骤S113)。通过执行不同内容的预处理,有可能OCR处理服务器20中的可信度超过阈值。然而,由于可信度低的原因尚不明确,因此也有可能可信度反而降低。
另外,在步骤S113中,也能够对整个图像数据执行在步骤S112中选择的预处理。
接着,处理器11A使用关于对象数据在上一次执行的预处理的内容和与可信度有关的信息来学习局部区域与预处理的内容之间的关系(步骤S114)。在此,与可信度有关的信息是表示可信度低的信息。
在本实施方式的情况下,对局部区域在上一次执行的预处理的内容作为教师数据而被机械学习。学习单位并不限定于局部区域,可以是对象的种类单位,也可以是原稿的种类单位,也可以是类似的图像单位。另外,即使对象种类相同,如图6中的表A和表B,若背景或字符的组合不同,则有助于提高可信度的预处理的内容不同。因此,在本实施方式中,以局部区域为单位进行机械学习。
在本实施方式中,在机械学习中采用强化学习。在强化学习中,以奖励增加的方式进行学习。因此,对仅得到低于阈值的可信度的预处理的内容,不给予奖励或仅赋予低的奖励。另一方面,如在步骤S4中得到否定结果的情况,对得到高于阈值的可信度时的预处理的内容给予高的奖励。
机械学习的结果用于决定下一次以后执行的预处理的内容。在下一次以后执行的预处理中,包括伴随反馈重新执行预处理,也包括对新读取的原稿的图像数据进行的预处理。
若对已强化学习的完成学习模型赋予与局部区域对应的图像数据,则输出在步骤S2中使用的预处理的内容。通过提高强化学习的精度,重新进行次数也减少。并且,经过机械学习的完成学习模型也能够应用于步骤S112中的预处理内容的选择。与随机选择预处理内容的情况相比,也能够提高可信度高于阈值的可能性。
在步骤S114之后,处理器11A判定关于所通知的所有对象数据是否结束处理(步骤S115)。
在步骤S115中得到否定结果的情况下,处理器11A返回到步骤S111,关于与另一个局部区域对应的对象数据重复进行一系列处理。
另一方面,在步骤S115中得到肯定结果的情况下,处理器11A返回到步骤S3。
重复以上处理,直至在执行步骤S10或步骤S11之后执行的步骤S4中得到否定结果。其结果,在图像处理装置10执行的后处理中赋予可信度高于阈值的文本数据,提高了对后处理结果的精度或可靠性。并且,减少手动确认或手动修正所识别的文本数据的劳力和时间。
<实施方式2>
在前述实施方式中,关于对从OCR处理服务器20对图像处理装置10具体地反馈所请求的预处理内容的情况进行了说明。然而,为了具体地确定预处理内容,需要在OCR处理服务器20侧备有与如下处理对应的功能:推定在OCR处理服务器20中可信度低的原因的处理;及对消除所推定的原因的处理的内容进行确定的处理等。然而,在OCR处理服务器20中未必始终具备相同的功能。
图8是对在实施方式2中执行的处理的概要进行说明的图。图8中标注对应于图3的对应部分的符号而示出。
在图8所示处理的情况下,从OCR处理反馈到预处理的信息与实施方式1不同。
在本实施方式的情况下,反馈请求变更预处理内容的信息。即,未反馈对预处理请求的具体的处理内容。
变更预处理内容的请求能够以存在可信度低的局部区域的内容作为契机而输出,不需要前述推定等处理。
图9是对实施方式2中的图像处理装置10执行的处理的一例进行说明的流程图。图9中标注对应于图4的对应部分的符号而示出。
在本实施方式的情况下,从OCR处理服务器20到图像处理装置10仅反馈请求变更预处理内容的信息。
因此,处理器11A在执行步骤S8之后,确定并执行将关于所确定的对象数据应执行的预处理的内容(步骤S21)。
图10是对在实施方式2的步骤S21中执行的处理的一例进行说明的流程图。图10中标注对应于图7的对应部分的符号而示出。图中所示符号S是指步骤。
开始了步骤S21的处理器11A关于所确定的对象数据确定完成执行的预处理的内容(步骤S111)。
接着,处理器11A推定降低可信度的原因(步骤S211)。处理器11A例如参考在步骤S111中获取的完成执行的预处理的内容的履历来推定原因。
另外,在图像处理装置10中存储有处理对象即原始图像数据。从而,处理器11A从图像数据中读取有无色块、有无背景、字体尺寸、有无污渍、有无折痕、背景与字符颜色的关系、原稿的种类等信息,并利用于推定原因。
此外,在原因的推定中,还能够参考整个图像数据的可信度。整个图像数据的可信度能够在图像处理装置10中计算。
整个图像数据的可信度例如能够根据在步骤S3中作为对象数据而发送的各局部区域在原稿上的面积比例和相对于各局部区域的可信度的高低来计算。例如,计算如下值之和:得到高于阈值的可信度的局部区域的面积乘以作为权重的“1”的值;及得到低于阈值的可信度的局部区域的面积乘以作为权重的“0”的值。然后,将成为OCR处理对象的局部区域的总面积除以所算出的值而进行标准化,通过比较经过标准化的值与阈值而计算可信度。例如,若经过标准化的值高于阈值,则判定为整个图像数据的可信度高,若经过标准化的值低于阈值,则判定为整个图像数据的可信度低。
另外,视为不要求变更预处理内容的局部区域的可信度高,要求变更预处理内容的局部区域的可信度低。
例如,在整个图像数据的可信度高,且只有特定的局部区域的可信度低的情况下,可以考虑特定的局部区域中所固有的原因。另一方面,在不仅特定的局部区域,而且作为整个图像数据的可信度也低的情况下,可以推定不取决于对象种类的差异的共同的原因。例如,可以推定污渍或折痕可能是原因。
并且,在存在关于类似的或相同类型的局部区域使用的预处理内容和与其可信度有关的信息的履历的情况下,也能够根据得到高可信度时的预处理内容来推定原因。在此,局部区域类似的或相同类型是指,与局部区域对应的图像数据的内容是类似的或相同类型。然而,在该情况下,不需要推定原因,也能够将得到高可信度时的预处理内容赋予到步骤S212。
在步骤S211的推定中,例如使用提前准备的对应关系表、通过机械学习而更新的完成学习模型、判定程序。
在对应关系表中存储有从整个图像数据中提取的特征或局部区域的特征的组合、以及在可信度低的情况下假定的原因。然而,可以存储有对每个组合推荐的预处理内容。
并且,在使用完成学习模型的情况下,若将与局部区域对应的图像数据输入到完成学习模型,则输出原因。然而,还可以设为若将与局部区域对应的图像数据输入到完成学习模型,则可以输出被推荐的预处理内容。
并且,在使用判定程序的情况下,通过重复一次或复数次由单独的判定引起的分歧而输出认为降低可信度的原因。在该情况下,不仅输出原因,而且也可以输出被推荐的预处理内容。
若在步骤S211中推定出原因,则处理器11A关于对象数据执行消除所推定的原因的内容的预处理(步骤S212)。所推定的原因与该消除中具有效果的预处理内容之间的关系,例如存储在存储装置12中。另外,如上所述,跳过原因的推定而确定消除降低可信度的原因的预处理内容的情况下,执行所确定的预处理内容。
接着,处理器11A使用关于对象数据在上一次执行的预处理的内容和与可信度有关的信息来学习局部区域与预处理内容之间的关系(步骤S213)。
在本实施方式的情况下,从OCR处理服务器20不直接通知与可信度有关的信息。因此,处理器11A针对每个局部区域判断与可信度有关的信息。如上所述,判断为不要求变更预处理内容的局部区域的可信度高,另一方面,判断为要求变更预处理内容的局部区域的可信度低。
在步骤S213之后,处理器11A判定关于所通知的所有对象数据是否结束处理(步骤S115)。
在步骤S115中得到否定结果的情况下,处理器11A返回到步骤S111,关于与另一个局部区域对应的对象数据重复进行一系列处理。
另一方面,在步骤S115中得到肯定结果的情况下,处理器11A返回到步骤S3。
以上处理重复至在步骤S4中得到否定结果。其结果,在图像处理装置10执行的后处理中被赋予可信度高于阈值的文本数据,并提高对后处理结果的精度或可靠性。并且,减少手动确认所识别的文本数据或手动修正的劳力和时间。
另外,在图10所示流程图中,关于对象数据执行消除降低可信度的原因的内容的预处理,但是也可以不推定原因,而选择并执行关于同一图像数据中的同一局部区域未执行的内容的预处理之一。
在该情况下,未必消除降低可信度的原因,但是可期待在重复进行变更预处理内容的过程中消除可信度的降低。另外,即使流程上的重复次数比图10所示处理增加,对计算资源的负荷也可以减少相当于不需要推定等处理的量。
<实施方式3>
图11是对在实施方式3中执行的处理的概要进行说明的图。图11中标注对应于图8的对应部分的符号而示出。
在本实施方式的情况下,从OCR处理反馈到预处理的信息的一部分与实施方式1不同。具体而言,经过OCR处理的结果的可信度本身被反馈。可信度的发送是在可信度低的情况和可信度高的情况这两种情况下执行。
图12是对实施方式3中的图像处理装置10执行的处理的一例进行说明的流程图。图12中标注对应于图9的对应部分的符号而示出。图中所示符号S是指步骤。
在本实施方式的情况下,从OCR处理服务器20到图像处理装置10每次反馈OCR处理结果的可信度。
因此,处理器11A在执行步骤S3之后,判定可信度是否均为阈值以上(步骤S31)。在此,阈值可以是相同的值,而不取决于对象的差异,也可以针对每个对象是不同的值。
在步骤S31中得到肯定结果的情况下,处理器11A转移到步骤S5。这是因为,在关于发送到OCR处理服务器20的所有对象数据得到高于阈值的可信度的情况下,不需要重新进行预处理。
在步骤S31中得到否定结果的情况下,处理器11A确定并执行应执行的预处理的内容(步骤S32)。
图13是对在实施方式3的步骤S32中执行的处理的一例进行说明的流程图。
首先,处理器11A关于可信度低的对象数据确定完成执行的预处理的内容(步骤S321)。
接着,处理器11A关于可信度低的对象数据选择与上一次为止不同内容的预处理(步骤S322)。然而,与实施方式2的情况同样地,可以推定降低可信度的原因,并选择消除所推定的原因的内容的预处理。关于该示例进行后述。
接着,处理器11A关于对象数据执行所选择的内容的预处理(步骤S323)。
接着,处理器11A使用关于对象数据在上一次执行的预处理的内容和与可信度有关的信息来学习局部区域与预处理内容之间的关系(步骤S324)。在本实施方式的情况下,不仅在可信度低的情况下,而且关于判定为可信度高的对象数据,也学习局部区域与预处理的内容之间的关系。然而,也有可能仅学习其中之一。
若处理结束,则处理器11A返回到步骤S3。以上处理重复至在步骤S31中得到肯定结果。
其结果,在图像处理装置10执行的后处理中被赋予可信度高于阈值的文本数据,并提高对后处理结果的精度或可靠性。并且,减少手动确认所识别的文本数据或手动修正的劳力和时间。
图14是对在实施方式3的步骤S32中执行的处理的其他例进行说明的流程图。图14中标注对应于图13的对应部分的符号而示出。
在图14所示处理中使用复数个可信度的组合。
首先,处理器11A使用可信度的组合,并推定降低可信度的原因(步骤S325)。可信度的组合可以是关于对象种类共同的复数个局部区域所获取的复数个可信度的组合,也可以是构成局部区域的行或列单位的可信度的组合。并且,也可以是以处理对象即图像数据为单位整合的复数个可信度的组合。
图15是对在对象数据为表区域的情况下推定的原因的示例进行说明的图。图中,(A)表示关于一个表区域所反馈的可信度的组合,(B)表示所推定的原因。另外,图15的示例是针对每行计算并反馈可信度的情况的示例。在以整个表区域为单位反馈可信度的情况下,难以推定如图15所示的详细原因。
图15所示例假定图5中的表A或表B。因此,行数为3行。在图15的情况下,关于一个表区域的可信度的组合为8个。在图15中,这些由组合1~8来表示。组合数量取决于构成表区域的行数或关于一个表区域通知的可信度的数量。
另外,如与图15的组合1~8对应的各行的背景颜色,在表A或表B的背景颜色在偶数行和奇数行中不同的情况下,即使行数增加,也可以以奇数行和偶数行为单位来计算可信度。
组合1是与第1行~第3行对应的各可信度高于阈值的情况。在该情况下,由于在上一次执行的预处理的内容没有问题,因此不需要推定可信度低的原因。
组合2是与第1行和第2行对应的各可信度高于阈值,但是与第3行对应的可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定值单元为彩色背景。
组合3是与第1行和第3行对应的各可信度高于阈值,而与第2行对应的可信度低于阈值的情况。在该情况下,作为降低可信度的原因,也可以推定值单元为彩色背景。
组合4是与第1行对应的可信度高于阈值,而与第2行和第3行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定只有值单元为阴影。在此,阴影中也包括色块。
组合5是与第2行和第3行对应的各可信度高于阈值,而与第1行对应的可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定项目名称单元为空白字符。
组合6是与第2行对应的可信度高于阈值,但是与第1行和第3行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定项目名称单元为空白字符,并且值单元为彩色背景。
组合7是与第3行对应的可信度高于阈值,但是与第1行和第2行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定项目名称单元为空白字符,并且值单元为彩色背景。
组合8是与第1行~第3行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定整面为色块或整面为彩色背景,并且各字符为彩色字符等。
另外,以上推定着重于原始原稿的图像上的特征。因此,为了推定因污渍或折痕等的影响而可信度的降低,也需要其他信息。例如,需要以原稿单位的可信度或原始图像数据的信息。
返回到图14的说明。
若在步骤S325中推定出原因,则处理器11A关于对象数据执行消除所推定的原因的内容的预处理(步骤S326)。
接着,处理器11A使用关于对象数据在上一次执行的预处理的内容和与可信度有关的信息来学习局部区域与预处理内容之间的关系(步骤S324)。在本实施方式的情况下,学习可信度低的对象数据与所执行的预处理的内容之间的关系、以及可信度高的对象数据与所执行的预处理的内容之间的关系两者。然而,也能够仅学习其中之一。
处理结束之后的处理内容如对图12已说明。
<实施方式4>
图16是对在实施方式4中执行的处理的概要进行说明的图。图16中标注对应于图11的对应部分的符号而示出。
在本实施方式的情况下,不是可信度,而是所推定的原因从OCR处理反馈到预处理。在该情况下,在实施方式3中所执行的推定在OCR处理服务器20侧执行。
图17是对实施方式4中的图像处理装置10执行的处理的一例进行说明的流程图。图17中标注对应于图12的对应部分的符号而示出。图中所示符号S是指步骤。
在本实施方式的情况下,处理器11A若将对象数据发送到OCR处理服务器20(步骤S3),则判定是否已反馈原因(步骤S41)。
反馈原因并不限定于在对象数据中存在可信度低的局部区域的情况。因此,在步骤S41中得到否定结果的情况下,处理器11A转移到步骤S5,然后,执行与图12的情况相同的处理。
相比之下,在步骤S41中得到肯定结果的情况下,处理器11A确定并执行应执行的预处理的内容(步骤S42)。
图18是对在实施方式4的步骤S42中执行的处理的一例进行说明的流程图。
首先,处理器11A关于对象数据执行消除被通知的原因的内容的预处理(步骤S421)。
图19是对被通知的原因的一例进行说明的图。
图19所示的原因1~原因5与图15所示的原因对应。原因1表示值单元为彩色背景。原因2表示值单元为彩色背景。原因3表示项目名称单元为空白字符。原因4表示项目名称单元为空白字符,并且值单元为彩色背景。原因5表示整面为色块或整面为彩色背景,并且各字符为彩色字符等。另外,也有可能通知污渍或折痕等作为原因。
返回到图18的说明。
若关于对象数据执行与原因对应的预处理,则处理器11A使用关于对象数据在上一次执行的预处理的内容和与可信度有关的信息来学习局部区域与预处理内容之间的关系(步骤S422)。
另外,已通知原因是指对应的局部区域的可信度低于阈值,相反,不通知原因是指对应的局部区域的可信度高于阈值。因此,处理器11A根据是否已通知原因来确定可信度的高低。
处理结束之后的处理内容如对图12已说明。
<实施方式5>
图20是对在实施方式5中执行的处理的概要进行说明的图。图20中标注对应于图3的对应部分的符号而示出。
在本实施方式的情况下,在从后处理向预处理追加完成后处理的反馈这一点上,与实施方式1不同。
图21是对实施方式5中的图像处理装置10执行的处理的一例进行说明的流程图。图21中标注对应于图4的对应部分的符号而示出。
在本实施方式的情况下,在步骤S4中得到否定结果的情况下,处理器11A不执行步骤S5,而依次执行步骤S6及7。即,在步骤S4中得到否定结果的情况下,处理器11A根据从OCR处理服务器20获取的文本数据来执行后处理,并将该处理结果存储于存储装置12。
在本实施方式中,在执行步骤S7之后,接收完成后处理的通知(步骤S51)。在接收该通知之后,处理器11A删除图像数据(步骤S5)。由于在确认完成后处理的通知之后删除图像数据,因此在删除图像数据之后不会请求图像数据。
另外,在本实施方式中,将完成后处理的反馈追加到实施方式1,但是也可以追加到实施方式2~4中的任一个。
<实施方式6>
图22是对在实施方式6中执行的处理的概要进行说明的图。图22中标注对应于图3的对应部分的符号而示出。
在本实施方式的情况下,在完成存储反馈到预处理的功能被追加这一点上,与实施方式1不同。
图23是对实施方式6中的图像处理装置10执行的处理的一例进行说明的流程图。图23中标注对应于图4的对应部分的符号而示出。
在本实施方式的情况下,在步骤S4中得到否定结果的情况下,处理器11A不执行步骤S5,而依次执行步骤S6及7。即,在步骤S4中得到否定结果的情况下,处理器11A根据从OCR处理服务器20获取的文本数据来执行后处理,并将该处理结果存储于存储装置12。
在本实施方式中,在执行步骤S7之后,接收完成存储处理结果的通知(步骤S61)。在接收该通知之后,处理器11A删除图像数据(步骤S5)。由于在存储处理结果之后删除图像数据,因此在删除图像数据之后不会请求图像数据。
另外,在本实施方式中,将完成存储处理结果的反馈追加到实施方式1,但是也可以追加到实施方式2~4中的任一个。
<实施方式7>
图24是对由实施方式7中的图像处理装置10执行的处理的一例进行说明的流程图。图24中标注对应于图4的对应部分的符号而示出。
在图4所示流程图的情况下,对在步骤S10或步骤S11中仅重新进行预处理内容的情况进行了说明。
然而,如图24所示,在再次执行预处理时,可以从对象分离开始重新进行。在图24中,将包括重新进行对象分离在内的步骤S10及11示为步骤S10A及11A。
另外,在前述其他实施方式中,在再次执行预处理时,可以重新进行对象分离。
<实施方式8>
图25是对在实施方式8中执行的处理的概要进行说明的图。图25中标注对应于图3的对应部分的符号而示出。
在前述实施方式的情况下,OCR处理对预处理执行反馈,但是在本实施方式的情况下,OCR处理对获取原稿的图像数据的处理执行反馈。
例如,相对于打印或记入在原稿上的字符的尺寸,在获取图像数据时所使用的分辨率小的情况下,OCR处理的结果的可信度有可能降低。在分辨率的不一致是可信度降低的原因的情况下,即使变更预处理的内容,可信度也得不到改善。
因此,在本实施方式中,在认为OCR处理对象即图像数据中所包括的字体的尺寸是可信度低的原因的情况下,图像数据的分辨率的变更反馈到获取原稿的图像数据的处理。图25的示例中,指示从200dpi变更到600dpi。另外,检测字体尺寸的大小的技术是已知的。
本实施方式中已说明的反馈也能够与前述实施方式中的任一个进行组合。
<其他实施方式>
以上,对本发明的实施方式进行了说明,但是本发明的技术范围并不限定于前述实施方式中所记载的范围。根据本发明的技术范围的记载明确了,在前述实施方式中追加各种变更或改进的内容也包括在本发明的技术范围内。
(1)例如,在前述实施方式中,作为对预处理后的图像数据进行处理的后级侧处理的一例而假定OCR处理,但是后级侧处理并不限定于OCR处理。例如,在前述实施方式7中已说明的后处理或在实施方式8中已说明的存储处理也包括在后级侧处理中。
并且,预处理和所述后级侧处理的组合并不限定于清理处理和OCR处理的组合。例如,也可以为如下:预处理提取用于脸部识别的特征量,后级侧处理是使用所提取的特征量的脸部识别。在该情况下,可信度是表示已被脸部识别的结果的精度的信息等。如此,在前述实施方式中,以执行OCR处理为前提对预处理内容进行说明,但是预处理和其所述后级侧处理的组合可以是任意的。
(2)在前述实施方式的情况下,以图5所示的原稿为前提,并以构成表的行单位来计算可信度,但是在以列单位来计算可信度的情况下也能够应用。
(3)在前述实施方式中,作为对赋予到OCR处理服务器20的图像数据追加预处理的装置的一例,例示出包括以光学方式读取原稿并生成图像数据的功能等的图像处理装置10,但是作为图像处理装置10,也可以使用专用于读入与原稿对应的图像数据的图像扫描仪。在图像扫描仪中可以设置有ADF(=Auto Document Feeder:自动文档进纸器)。
并且,作为对赋予到OCR处理服务器20的图像数据追加预处理的装置,除了用于拍摄原稿的智能手机或数码相机以外,还可以使用从外部获取拍摄到原稿的图像数据的计算机。在此,计算机使用于预处理和OCR处理后的数据的后处理等,可以不具有拍摄原稿图像的功能或以光学方式读取原稿信息的功能。
(4)在前述实施方式中,对图像处理装置10和OCR处理服务器20构成为独立的装置的情况进行了说明,但是OCR处理的功能可以内置于图像处理装置10。在该情况下,在像处理装置10的内部执行预处理、OCR处理及后处理等全部处理。
(5)在前述实施方式中,对于在图像处理装置10中执行针对每个对象分离与图像数据对应的图像区域的处理的情况进行了说明,但是也可以由OCR处理服务器20来执行。
(6)在前述实施方式中,对于将处理通过OCR处理得到的文本数据的后处理移交到已执行预处理的图像处理装置10的情况进行了说明,但是也可以将通过OCR处理得到的文本数据输出到与已执行预处理的图像处理装置10不同的处理装置。
(7)前述各实施方式中的处理器是指广义上的处理器,除了通用的处理器(例如CPU(=Central Processing Unit:中央处理单元)等)以外,还包括专用的处理器(例如,GPU、ASIC(=Application Specific Integrated Circuit:专用集成电路)、FPGA、程序逻辑器件等)。
并且,前述各实施方式中的处理器的动作可以由一个处理器单独执行,但是也可以由存在于物理上分开的位置上的复数个处理器协作执行。并且,执行处理器中的各动作的顺序并不仅限于前述各实施方式中所记载的顺序,而可以单独进行变更。
上述本发明的实施方式是以例示及说明为目的而提供的。另外,本发明的实施方式并不整面详尽地包括本发明,并且并不将本发明限定于所公开的方式。很显然,对本发明所属的领域中的技术人员而言,各种变形及变更是自知之明的。本实施方式是为了最容易理解地说明本发明的原理及其应用而选择并说明的。由此,本技术领域中的其他技术人员能够通过对假定为各种实施方式的特定使用最优化的各种变形例来理解本发明。本发明的范围由以上的权利要求书及其等同物来定义。

Claims (21)

1.一种信息处理装置,其具有处理器,
所述处理器进行如下处理:
对所获取的图像数据执行预处理;
在从对预处理后的所述图像数据进行处理的后级侧处理中接收在与所述图像数据对应的图像中确定至少一个局部区域的信息的情况下,将所确定的局部区域作为对象而执行特定的预处理。
2.根据权利要求1所述的信息处理装置,其中,
确定局部区域的所述信息包括与精度有关的信息,所述精度为对与局部区域对应的所述图像数据进行了处理的结果的精度。
3.根据权利要求2所述的信息处理装置,其中,
与所述精度有关的信息以局部区域为单位被赋予。
4.根据权利要求2或3所述的信息处理装置,其中,
与所述精度有关的信息表示处理结果的精度低于预先确定的阈值。
5.根据权利要求1所述的信息处理装置,其中,
确定局部区域的所述信息包括与处理结果的精度低的原因有关的信息。
6.根据权利要求5所述的信息处理装置,其中,
与所述原因有关的信息是与包括在局部区域中的字符或背景有关的信息。
7.根据权利要求1所述的信息处理装置,其中,
确定局部区域的所述信息包括指示预处理内容的信息。
8.根据权利要求7所述的信息处理装置,其中,
指示预处理内容的所述信息包括指示在预处理中使用的参数值的信息。
9.根据权利要求1所述的信息处理装置,其中,
所述处理器对根据确定局部区域的所述信息所确定的局部区域,执行与上一次为止不同内容的预处理。
10.根据权利要求9所述的信息处理装置,其中,
在确定局部区域的所述信息中包括表示将局部区域作为对象的处理结果的精度低于预先确定的阈值的信息的情况下,所述处理器对所对应的局部区域执行与上一次为止不同的预处理。
11.根据权利要求10所述的信息处理装置,其中,
所述处理器根据表示处理结果的精度低于预先确定的阈值的所述信息来推定原因。
12.根据权利要求11所述的信息处理装置,其中,
所述处理器包括将整个所述图像数据作为对象的后级处理的结果的精度而推定所述原因。
13.根据权利要求10所述的信息处理装置,其中,
所述处理器根据在预处理过程中得到的信息来推定原因。
14.根据权利要求10所述的信息处理装置,其中,
所述处理器根据对类似于所述图像数据的其他图像数据的预处理的履历来推定原因。
15.根据权利要求10所述的信息处理装置,其中,
所述处理器根据相同类型的局部区域之间的精度的差异来推定原因。
16.根据权利要求9所述的信息处理装置,其中,
所述处理器将对已执行特定的预处理的局部区域进行确定的信息通知到后级处理。
17.根据权利要求9所述的信息处理装置,其中,
所述处理器将对预处理后的所述图像数据进行识别的信息与后级处理共享。
18.根据权利要求9所述的信息处理装置,其中,
在确定局部区域的所述信息中包括与局部区域的精度低的原因有关的信息的情况下,所述处理器执行与所述原因对应的预处理。
19.根据权利要求9所述的信息处理装置,其中,
在确定局部区域的所述信息中包括指示预处理内容的信息的情况下,所述处理器执行所指示的内容的预处理。
20.一种记录介质,其记录有用于使计算机实现如下功能的程序:
对所获取的图像数据执行预处理的功能;及
在从对预处理后的所述图像数据进行处理的后级处理中接收在与所述图像数据对应的图像中确定至少一个局部区域的信息的情况下,将所确定的所述局部区域作为对象而执行特定的预处理的功能。
21.一种信息处理方法,其包括如下步骤:
对所获取的图像数据执行预处理的步骤;及
在从对预处理后的所述图像数据进行处理的后级侧处理中接收在与所述图像数据对应的图像中确定至少一个局部区域的信息的情况下,将所确定的局部区域作为对象而执行特定的预处理的步骤。
CN202010756418.0A 2020-02-12 2020-07-31 信息处理装置、记录介质及信息处理方法 Pending CN113255673A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-021691 2020-02-12
JP2020021691A JP7452059B2 (ja) 2020-02-12 2020-02-12 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
CN113255673A true CN113255673A (zh) 2021-08-13

Family

ID=77178388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010756418.0A Pending CN113255673A (zh) 2020-02-12 2020-07-31 信息处理装置、记录介质及信息处理方法

Country Status (3)

Country Link
US (1) US11238305B2 (zh)
JP (1) JP7452059B2 (zh)
CN (1) CN113255673A (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007086954A (ja) 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム
JP5334042B2 (ja) 2008-11-23 2013-11-06 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
JP5674615B2 (ja) 2011-09-28 2015-02-25 株式会社日立情報通信エンジニアリング 文字認識装置及び文字認識方法
US9098888B1 (en) * 2013-12-12 2015-08-04 A9.Com, Inc. Collaborative text detection and recognition
JP6528147B2 (ja) 2014-01-31 2019-06-12 株式会社日本デジタル研究所 会計データ入力支援システム、方法およびプログラム
US11341739B2 (en) 2016-02-15 2022-05-24 Nec Corporation Image processing device, image processing method, and program recording medium
US10776434B1 (en) * 2016-11-16 2020-09-15 First American Financial Corporation System and method for document data extraction, data indexing, data searching and data filtering

Also Published As

Publication number Publication date
US11238305B2 (en) 2022-02-01
JP7452059B2 (ja) 2024-03-19
JP2021128443A (ja) 2021-09-02
US20210248411A1 (en) 2021-08-12

Similar Documents

Publication Publication Date Title
US8619278B2 (en) Printed matter examination apparatus, printed matter examination method, and printed matter examination system
JP4631133B2 (ja) 文字認識処理のための装置、方法及び記録媒体
JP5195519B2 (ja) 文書管理装置、文書処理システム、文書管理方法
US11574489B2 (en) Image processing system, image processing method, and storage medium
US8760675B2 (en) Image reading apparatus and image reading system having a reading preference input operation
JP6221661B2 (ja) 検査装置、検査システムおよび検査方法、ならびに、印刷システム
US20170124390A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
US8606049B2 (en) Image management apparatus, image management method, and storage medium
EP2432210A2 (en) Print correction using additional data embedded in a printed image
US11223743B2 (en) Image processing system, image processing apparatus, method of controlling the image processing apparatus, and storage medium
US9215344B2 (en) Image forming apparatus, image processing apparatus, image forming method, image processing method, and non-transitory computer readable medium
US20230062113A1 (en) Information processing apparatus, information processing method and non-transitory storage medium
CN113255673A (zh) 信息处理装置、记录介质及信息处理方法
US20220180114A1 (en) Image processing apparatus capable of restoring degraded image with high accuracy, image processing method, and storage medium
US11301180B2 (en) Information processing apparatus registering redo or erroneous process request
JP7452060B2 (ja) 情報処理装置及びプログラム
KR20200010777A (ko) 유사 문자의 과거 인식 결과를 이용하는 문자 인식
US20230101897A1 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium
US20240106938A1 (en) Information processing system, method, and non-transitory computer readable medium
US20110149351A1 (en) Image reading device, method of reading image, and recording medium storing control program for controlling image reading device
JP2024035965A (ja) 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2019220906A (ja) 画像処理システム、印刷指示装置、画像処理装置及びプログラム
US11811984B2 (en) Image processing system, image processing apparatus and method of controlling the same, and storage medium
JP2019168856A (ja) 画像処理装置、画像処理方法および画像処理プログラム
US20240064250A1 (en) Information processing apparatus, non-transitory computer readable medium, and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination