CN113255707A - 信息处理装置、记录介质及信息处理方法 - Google Patents

信息处理装置、记录介质及信息处理方法 Download PDF

Info

Publication number
CN113255707A
CN113255707A CN202010759409.7A CN202010759409A CN113255707A CN 113255707 A CN113255707 A CN 113255707A CN 202010759409 A CN202010759409 A CN 202010759409A CN 113255707 A CN113255707 A CN 113255707A
Authority
CN
China
Prior art keywords
information
preprocessing
processing
image data
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010759409.7A
Other languages
English (en)
Inventor
上条裕义
山中优辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Publication of CN113255707A publication Critical patent/CN113255707A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Quality & Reliability (AREA)

Abstract

本发明提供一种信息处理装置、记录介质及信息处理方法,与将与有关局部区域的处理结果有关的信息不通知到前级侧处理的情况相比,能够减少对处理结果的修正的劳力和时间。信息处理装置,其具有处理器,所述处理器进行如下处理:从预处理中获取图像数据;针对与所获取的所述图像数据对应的图像的每个局部区域计算与处理结果的精度有关的信息;及将与所计算出的所述精度有关的信息与确定所对应的局部区域的信息一同通知到所述预处理。

Description

信息处理装置、记录介质及信息处理方法
技术领域
本发明涉及一种信息处理装置、记录介质及信息处理方法。
背景技术
已知有一种将印刷在印刷品上的字符或手写字符图像转换成在计算机中可利用的字符代码的技术。该技术被称为OCR(=Optical Character Recognition:光学字符识别)处理。在获取与包括字符的文档对应的图像中,使用所谓的扫描仪或数码相机。
虽然也能够将由扫描仪或数码相机拍摄到的图像数据直接输出到OCR处理,但是为了增大表示通过OCR处理进行的字符识别的结果的准确性的值(以下,称为“可信度”),有时提前追加处理。例如,有时在OCR处理之前执行去除包括在图像中的噪声或色块等的清理处理。此外,有时将获取时的图像的分辨率设定得较高。以下,将在OCR处理之前执行的处理称为预处理。
专利文献1:日本特开2015-146075号公报
目前,清理处理以整个图像为单位而执行。同样地,OCR处理的可信度将处理对象即整个图像或整个数据文件为单位而算出。因此,即使在包括OCR处理的可信度降低的区域的情况下,若整体的可信度高,则包括可信度低的区域的处理结果直接进一步传递到下游处理。因此,若在可信度低的区域中包括重要的信息,则可能会带来下游处理的精度降低的影响。
发明内容
本发明的目的在于,与将与有关局部区域的处理结果有关的信息不通知到前级侧处理的情况相比,减少对处理结果的修正的劳力和时间。
方案1所述的发明为一种信息处理装置,其具有处理器,所述处理器进行如下处理:从预处理中获取图像数据;针对与所获取的所述图像数据对应的图像的每个局部区域计算与处理结果的精度有关的信息;及将与所计算出的所述精度有关的信息与确定所对应的局部区域的信息一同通知到所述预处理。
方案2所述的发明在方案1所述的信息处理装置中,所述处理器针对进一步划分局部区域的复数个小区域的每一个计算与处理结果的所述精度有关的信息,并将针对复数个小区域的每一个所计算出的处理结果的精度一并或单独通知到所述预处理。
方案3所述的发明在方案1或2所述的信息处理装置中,与所述精度有关的信息表示处理结果的精度低于预先确定的阈值。
方案4所述的发明在方案1所述的信息处理装置中,所述处理器推定处理结果的精度低于预先确定的阈值的原因,并将所推定的原因作为与所述精度有关的信息而通知到所述预处理。
方案5所述的发明在方案4所述的信息处理装置中,与所述原因有关的信息是与包括在局部区域中的字符或背景有关的信息。
方案6所述的发明在方案4所述的信息处理装置中,所述处理器包括将所述整个图像数据作为对象的处理结果的精度在内而推定所述原因。
方案7所述的发明在方案4所述的信息处理装置中,所述处理器根据从所述预处理赋予的处理内容的信息来推定原因。
方案8所述的发明在方案4所述的信息处理装置中,所述处理器根据关于与所述图像数据类似的其他图像数据所推定的原因的履历来推定原因。
方案9所述的发明在方案4所述的信息处理装置中,所述处理器根据相同类型的局部区域之间的精度差异来推定原因。
方案10所述的发明在方案1所述的信息处理装置中,所述处理器将指示所述预处理变更内容的信息通知到该预处理。
方案11所述的发明在方案1所述的信息处理装置中,所述处理器将指示对所述预处理请求的处理内容的信息通知到该预处理。
方案12所述的发明在方案11所述的信息处理装置中,指示所述预处理内容的信息包括指示在该预处理中使用的参数值的信息。
方案13所述的发明在方案11所述的信息处理装置中,所述处理器根据对与所述图像数据类似的其他图像数据的指示履历来推定对所述预处理请求的处理内容。
方案14所述的发明在方案11所述的信息处理装置中,所述处理器学习通知到所述预处理的内容和对通知之后再次获取的局部区域进行了处理的结果的精度作为教师数据,并推定对所述预处理请求的处理内容。
方案15所述的发明在方案1所述的信息处理装置中,所述处理器在再次获取重新执行了不同的预处理的所述图像数据的情况下,当与该图像数据对应的各局部区域的处理结果均高于预先确定的阈值时,输出对再次获取的该图像数据进行了处理的结果。
方案16所述的发明在方案1所述的信息处理装置中,所述处理器在再次获取关于得到低于预先确定的阈值的精度的局部区域执行了不同内容的预处理的图像数据,且其处理结果高于该阈值的情况下,将该局部区域的处理结果与对上一次处理中得到高于该阈值的精度的其他局部区域的处理结果进行组合并输出。
方案17所述的发明在方案1所述的信息处理装置中,所述处理器在与所述预处理之间共享对所述通知的对象即所述图像数据进行识别的信息。
方案18所述的发明在方案1所述的信息处理装置中,所述处理器对生成所述图像数据的所述预处理指示提高分辨率。
方案19所述的发明在方案1所述的信息处理装置中,关于所有局部区域,在处理结果的精度超过预先确定的阈值的情况下,所述处理器将处理结束通知到所述预处理。
本发明的方案20为一种记录介质,其记录有用于使计算机实现如下功能的程序:从预处理中获取图像数据的功能;针对与所获取的所述图像数据对应的图像的每个局部区域计算与处理结果的精度有关的信息的功能;及将与所计算出的所述精度有关的信息与确定所对应的局部区域的信息一同通知到所述预处理的功能。
本发明的方案21为一种信息处理方法,其包括如下步骤:从预处理中获取图像数据;针对与所获取的所述图像数据对应的图像的每个局部区域计算与处理结果的精度有关的信息;及将与所计算出的所述精度有关的信息与确定所对应的局部区域的信息一同通知到所述预处理。
发明效果
根据本发明的第1方案,与将与有关局部区域的处理结果有关的信息不通知到前级侧处理的情况相比,能够减少对处理结果的修正的劳力和时间。
根据本发明的第2方案,局部区域也能够以更小的区域单位通知精度。
根据本发明的第3方案,能够选择性地通知需要变更预处理内容的区域。
根据本发明的第4方案,能够有效地变更预处理侧的预处理内容。
根据本发明的第5方案,能够有效地变更预处理侧的预处理内容。
根据本发明的第6方案,能够确定由将整个图像作为对象的预处理引起的原因。
根据本发明的第7方案,能够提高推定原因的精度。
根据本发明的第8方案,能够提高推定原因的精度。
根据本发明的第9方案,能够提高推定原因的精度。
根据本发明的第10方案,能够改变后处理结果的精度。
根据本发明的第11方案,能够有效地变更预处理侧的预处理内容。
根据本发明的第12方案,能够有效地变更预处理侧的预处理内容。
根据本发明的第13方案,能够提高通知到预处理的指示的精度。
根据本发明的第14方案,能够提高通知到预处理的指示的精度。
根据本发明的第15方案,可以不需要对处理结果的修正。
根据本发明的第16方案,能够有效地获得处理结果。
根据本发明的第17方案,能够省略在预处理及后级处理两者中进行无用的处理。
根据本发明的第18方案,能够有效地提高后级处理结果的精度。
根据本发明的第19方案,能够通知预处理可以删除图像数据。
根据本发明的第20方案,与将与有关局部区域的处理结果有关的信息不通知到前级侧处理的情况相比,能够减少对处理结果的修正的劳力和时间。
根据本发明的第21方案,与将与有关局部区域的处理结果有关的信息不通知到前级侧处理的情况相比,能够减少对处理结果的修正的劳力和时间。
附图说明
根据以下附图,对本发明的实施方式进行详细叙述。
图1是表示在实施方式中使用的信息处理系统的结构例的图;
图2是对在实施方式1中使用的OCR处理服务器的硬件结构的一例进行说明的图;
图3是对在实施方式1中执行的处理的概要进行说明的图;
图4是对实施方式1中的OCR处理服务器执行的处理的一例进行说明的流程图;
图5是对作为图像处理装置读取的对象的原稿的一例进行说明的图;
图6是对从图像数据分离的对象的示例进行说明的图;
图7是对关于一个表区域所计算出的可信度与阈值的关系进行说明的图;
图8是对在实施方式2中执行的处理的概要进行说明的图;
图9是对实施方式2中的OCR处理服务器执行的处理的一例进行说明的流程图;
图10是对在实施方式3中执行的处理的概要进行说明的图;
图11是对实施方式3中的OCR处理服务器执行的处理的一例进行说明的流程图;
图12是对在实施方式4中执行的处理的概要进行说明的图;
图13是对实施方式4中的OCR处理服务器执行的处理的一例进行说明的流程图;
图14是对在对象数据为表区域的情况下被推定的原因的示例进行说明的图;
图15是对在实施方式5中执行的处理的概要进行说明的图;
图16是对实施方式5中的OCR处理服务器执行的处理的一例进行说明的流程图;
图17是对实施方式6中的OCR处理服务器执行的处理的一例进行说明的流程图;
图18是对在实施方式7中执行的处理的概要进行说明的图;
图19是对在实施方式8中执行的处理的概要进行说明的图;
图20是对实施方式8中的OCR处理服务器执行的处理的一例进行说明的流程图;
图21是对在实施方式9中执行的处理的概要进行说明的图。
符号说明
1-信息处理系统,10-图像处理装置,20-OCR处理服务器,21-运算单元,21A-处理器,22-存储装置,23-通信装置,30-云网络。
具体实施方式
以下,参考附图,对本发明的实施方式进行说明。
<实施方式>
<系统结构>
图1是表示在实施方式中使用的信息处理系统1的结构例的图。
图1所示的信息处理系统1具有图像处理装置10、对从图像处理装置10赋予的图像数据中所包括的字符进行识别的OCR处理服务器20、作为网络环境的云网络30。
本实施方式中的图像处理装置10具备生成原稿复制品的功能、在纸张上印刷文档或图像的功能、以光学方式读取原稿并生成图像数据的功能、收发传真的功能等。
在图1所示的图像处理装置10的主体上部,配备有将原稿一张一张地输送到以光学方式读取信息的位置上的机构。这种机构被称为例如ADF(=Auto Document Feeder:自动文档进纸器)。ADF使用于读取复制原稿或读取发送传真的原稿。
在生成复制品中,也使用在纸张上印刷文档或图像的功能。文档或图像的数据除了在图像处理装置10中以光学方式被读取以外,还从连接在主体上的记录媒体或外部的信息终端赋予。
在图像处理装置10中设置的功能并不限定于前述功能。然而,在本实施方式的情况下,若在图像处理装置10中设置有以光学方式读取原稿的信息并生成图像数据的功能,则其他功能是任意的。
本实施方式中的原稿除了印刷有字符或图像的纸张以外,还可以是记入有手写字符的文档或图像。手写记入的字符可以是文档或图像的一部分。即,文档内的字符不需要全部是手写的。
在本实施方式中,作为手写文档,例如假定申请书、账单、交货单、发票等手写表单。在手写表单中,在提前印刷的框内记入有字符。手写文档并不限定于表单类型,也可以是联络用备忘录、传阅用文档、明信片、封口书信等。
在本实施方式中的图像处理装置10中,也具备在从原稿读取的图像中去除噪声或色块等功能。在本实施方式的情况下,去除噪声等之后的图像数据发送到OCR处理服务器20。
图1中仅示出一台图像处理装置10,但是构成信息处理系统1的图像处理装置10可以是复数台。本实施方式中的图像处理装置10是外部装置的一例。
本实施方式中的OCR处理服务器20设计成,对从图像处理装置10赋予的图像数据进行OCR处理,并将作为处理结果的文本数据移交给图像处理装置10。被移交文本数据的图像处理装置10对所接收到的文本数据执行后处理。在后处理中,例如有语言处理、将文本数据与管理上的正确位置建立关联的处理、与文本数据相关的文档的检索、在传递物品中使用的路径的检索。另外,后处理内容根据要读取的原稿内容或所要求的处理内容而设置。
此外,在本实施方式的OCR处理服务器20中,也设置有针对每个局部区域将与OCR处理结果的可信度有关的信息反馈到预处理的功能。该功能是为了提高通过OCR处理而得到的字符识别结果的准确性、或者为了提高后处理结果的质量或精度而设置。
本实施方式中的OCR处理服务器20是信息处理装置的一例。
然而,本实施方式中的图像处理装置10的操作员和OCR处理服务器20的操作员可以相同,也可以不同。
在本实施方式中,使用专用于OCR处理的OCR处理服务器20,但是可以使用与复数种功能对应的通用型服务器。另外,执行OCR处理的计算机并不限定于服务器。执行OCR处理的计算机例如可以是台式计算机或笔记本计算机,也可以是智能手机或平板终端。
在图1的情况下,OCR处理服务器20是一台,但是构成信息处理系统1的OCR处理服务器20可以是复数台。复数台OCR处理服务器20可以对一个图像数据进行分散处理。
在本实施方式的情况下,在图像处理装置10与OCR处理服务器20的通信中使用云网络30,但是并不限定于经由云网络30的通信。例如,在图像处理装置10与OCR处理服务器20的通信中,可以使用简称为LAN(=Local Area Network:局域网)、4G或5G的移动通信系统。
<OCR处理服务器的结构>
图2是对在实施方式1中使用的OCR处理服务器20的硬件结构的一例进行说明的图。图2所示的OCR处理服务器20具有:运算单元21,执行OCR处理;存储装置22,存储从图像处理装置10获取的图像数据等;及通信装置23,用于与外部进行通信。另外,在OCR处理服务器20上,可以连接有接收用户指示的接收装置、或将信息提示给用户的显示装置。运算单元21和各部通过总线24或未图示的信号线而连接。
本实施方式中的运算单元21具有处理器21A、存储有基本软件或BIOS(=BasicInput Output System:基本输入输出系统)等的未图示的ROM(=Read Only Memory:只读存储器)、用作工作区的未图示的RAM(=Random Access Memory:随机存取存储器)。运算单元21作为所谓的计算机而发挥功能。前述OCR处理通过处理器21A执行程序而实现。
存储装置22由硬盘装置或非易失性可重写半导体存储器等构成。在存储装置22中存储例如从图像处理装置10获取的图像数据、在OCR处理中得到的文本数据等。在存储装置22中可以存储应用程序。
通信装置23由依据基于有线或无线方式的通信标准的模块构成。在通信装置23中例如使用EtherNet(注册商标)模块、USB(=Universal Serial Bus:通用串行总线)、无线LAN、传真用调制解调器等。
<处理内容>
以下,对通过图像处理装置10和OCR处理服务器20的协作而执行的处理进行说明。
<处理的概要>
图3是对在实施方式1中执行的处理的概要进行说明的图。本实施方式中的处理由5种处理构成。5种处理是获取原稿的图像数据的处理、对所获取的图像数据的预处理、对预处理后的图像数据的OCR处理、对OCR处理的结果即文本数据进行处理的后处理、将后处理的结果存储于存储装置22(参考图2)中的处理。
在本实施方式的情况下,由OCR处理服务器20(参考图1)执行OCR处理,除此以外的4种处理由图像处理装置10(参考图1)执行。
在本实施方式的情况下,作为预处理,执行去除噪声或色块等的清理处理或分离为对象的处理。另一方面,作为后处理,参考注册有与键(=skey)对应的值(=value)的组合的词典来执行提取与键对应的值或与值对应的键的处理。本实施方式中的键及值对应于字符或图像。例如,在键为名称的情况下,富士太郎对应于值。换言之,键是表示项目的字符或图形,值是表示与项目对应的具体内容的字符或图形。
在本实施方式的情况下,在预处理和OCR处理之间确定处理对象的信息从预处理通知到OCR处理。在图3的情况下,通知作为确定处理对象的信息的文件名,作为附属于预处理后的图像数据中的数据。在本实施方式的情况下,文件名由读取日期和时间或已进行读取作业的用户名、区分用于读取的图像处理装置10的信息等构成。然而,确定文件名的信息并不限定于此。
另一方面,OCR处理在对预处理反馈信息时,例如使用文件名明确指示处理对象。通过通知该文件名,预处理和OCR处理能够协作。例如,在预处理和OCR处理并行处理复数个图像数据的情况下,通过使用文件名而能够区分处理对象。另外,只要能够确定处理对象即可,因此从预处理通知到OCR处理的信息并不限定于文件名。
在本实施方式的情况下,在预处理中也执行将图像数据分离为复数个对象的处理。
在本实施方式的情况下,作为对象,使用字符的区域(以下,称为“字符区域”)、表的区域(以下,称为“表区域”)、图形的区域(以下,称为“图形区域”)、图的区域(以下,称为“图区域”)这4个区域。
例如,包括原稿的标题、字符、数值的区域被剪切为字符区域。表本身或表所附带的标题被剪切为表区域。将公司名称等图案化的区域被剪切为图形区域或图区域。除此以外的区域是背景。各个对象是局部区域的一例。
另外,背景、图形区域及图区域从OCR处理对象中被排除。因此,与字符区域和表区域对应的图像数据作为对象数据从图像处理装置10发送到OCR处理服务器20。另外,各对象数据被赋予识别各个局部区域的信息。
在识别局部区域的信息中,例如使用表示拍摄到原稿的图像数据内的位置的坐标或序列号。坐标例如以规定区域外缘的一个或复数个坐标点的方式赋予。在局部区域为矩形形状的情况下,使用局部区域的例如左上角的坐标点。
在本实施方式的情况下,预处理后的图像数据以局部区域单位从预处理发送到OCR处理。
此外,可以将对所执行的预处理的内容进行确定的信息从预处理通知到OCR处理。预处理内容能够用于推定在OCR处理侧可信度低的原因。
在本实施方式的情况下,表示经过OCR处理的结果的可信度低的信息从OCR处理反馈到预处理。可信度是与精度有关的信息的一例。
在本实施方式的情况下,局部区域以被剪切为对象的各个区域的含义而使用。换言之,在存在复数个字符区域的情况下,有可能对每个字符区域反馈不同的信息。关于表区域也相同。另外,关于表区域,也有可能以行或列单位反馈不同的信息。
在本实施方式的情况下,识别各个局部区域的信息从预处理通知到OCR处理。从而,从OCR处理到预处理的反馈中包括识别各个局部区域的信息。然而,在OCR处理中,也能够将对象种类相同的复数个局部区域视为一个局部区域而计算可信度,并将表示该可信度低的信息与对算出可信度的复数个局部区域进行识别的信息一起进行反馈。
在本实施方式的情况下,关于可信度超过预先确定的阈值的局部区域不执行反馈。从而,关于所有局部区域,在各个可信度超过预先确定的阈值的情况下,不执行从OCR处理到预处理的反馈。这是因为,得到了可信度高的文本数据。
在本实施方式中,求出关于从对应的局部区域中提取的各个字符所计算的可信度的平均值作为局部区域的可信度。这里的字符中也包括数字或符号。可以对每个局部区域使用不同的加权来计算平均值。例如,在字符区域的情况和表区域的情况下,可以使用不同的权重。
并且,针对局部区域对应的对象的每种类型,在局部区域的可信度评价中使用的阈值可以不同,也可以相同。例如,可以在字符区域和表区域使用不同的权重来计算可信度。并且,在相同类型的局部区域中,也可以在标题部分和本文中使用不同的权重。
另外,从OCR处理到预处理的反馈也可以是不指定局部区域的反馈。在该情况下,OCR处理也识别哪个局部区域的可信度高、以及哪个局部区域的可信度低。
从而,在OCR处理中,能够从追加了新的预处理的图像数据中仅选择在上一次OCR处理中可信度低的局部区域,并确认可信度的变化。并且,在OCR处理中,也能够仅将得到高于阈值的可信度的文本数据选择性地输出到后处理。
<OCR处理服务器执行的处理>
图4是对实施方式1中的OCR处理服务器20执行的处理的一例进行说明的流程图。图中所示符号S是指步骤。图4所示的处理由处理器21A(参考图2)执行。
在本实施方式的情况下,从接收到伴随OCR处理而读取原稿的指示的图像处理装置10接收完成预处理的图像数据,由此开始图4所示的处理。另外,各个图像数据对应于判定为字符区域或表区域的各个局部区域。各个图像数据被赋予识别局部区域的信息。
首先,对OCR处理服务器20作为处理对象的图像数据源的原稿进行说明。
图5是对作为图像处理装置10读取的对象的原稿的一例进行说明的图。图5所示的原稿的标题是报价单,在整个纸张上附加有色块。图5所示的报价单包括两个表。上级是表A,下级是表B。图5所示的表A和表B均由3行构成。记载表A和表B的标题的项目名称均在黑色背景上空白印刷有字符。另一方面,表A的第2行和第3行在白色背景上印刷有黑色字符。表B的第2行和第3行在彩色背景上印刷有字符。字符可以是黑色字符、空白字符及彩色字符中的任一个。另外,也可以假定背景是阴影的情况。
图6是对从图像数据分离的对象的示例进行说明的图。在图6的情况下,包括“报价单”、“ABC工业”、“XYZ商会”、“总金额16,000日元”的字符串的区域作为字符区域从图像数据中被分离。并且,包括与表A的字符对应的表及与表B的字符对应的表的区域作为表区域从图像数据中被分离。并且,配置在图像数据的右下方的标识作为图形区域或图区域从图像数据被分离。
预处理可以在对象分离之前或之后进行。在本实施方式中,在执行预处理之后,执行对象分离。
返回到图4的说明。
接收到与判定为字符区域或表区域的各个局部区域对应的图像数据的处理器21A对与各个局部区域对应的每个图像数据进行OCR处理(步骤S1)。通过OCR处理,从各个图像数据中提取文本数据。
在本实施方式的情况下,在预处理中已执行对OCR处理对象即图像数据去除噪声、色块等的清理处理。然而,不能保证清理处理的内容与实际的局部区域的内容一致。
并且,在各局部区域中附加有识别各区域的信息。识别该局部区域的信息也与所提取的文本数据建立关联。
接着,处理器21A对每个局部区域计算可信度(步骤S2)。例如,以与字符区域对应的各个局部区域或与表区域对应的各个局部区域为单位而计算可信度。然而,也可以以进一步划分局部区域内部的区域单位而计算可信度。例如,也可以以行单位或列单位而计算可信度。
接着,处理器21A判定所计算出的可信度是否均为阈值以上(步骤S3)。在此,如上所述,根据局部区域所对应的对象的每个种类,阈值可以不同,也可以相同。
图7是对关于一个表区域所计算出的可信度与阈值的关系进行说明的图。图7所示的示例针对构成表的每一行计算出可信度。当然,也能够比较不区分行所计算出的一个可信度与阈值。
图7所示的示例假定图5中的表A或表B。因此,行数为3行。在图7的情况下,关于一个表区域的可信度的组合为8个。在图7中,将这些用组合1~8来表示。组合数量取决于构成表区域的行数或关于一个表区域所通知的可信度的数量。
另外,如与图7的组合1~8对应的各行的背景颜色,在表A或表B的背景颜色在偶数行和奇数行中不同的情况下,即使行数增加,也可以以奇数行和偶数行为单位来计算可信度。
组合1是与第1行~第3行对应的各可信度高于阈值的情况。
组合2是与第1行和第2行对应的各可信度高于阈值,但是与第3行对应的可信度低于阈值的情况。
组合3是与第1行和第3行对应的各可信度高于阈值,但是与第2行对应的可信度低于阈值的情况。
组合4是与第1行对应的可信度高于阈值,但是与第2行和第3行对应的各可信度低于阈值的情况。
组合5是与第2行和第3行对应的各可信度高于阈值,但是与第1行对应的可信度低于阈值的情况。
组合6是与第2行对应的可信度高于阈值,但是与第1行和第3行对应的各可信度低于阈值的情况。
组合7是与第3行对应的可信度高于阈值,但是与第1行和第2行对应的各可信度低于阈值的情况。
组合8是与第1行~第3行对应的各可信度低于阈值的情况。
返回到图4的说明。
在步骤S3中得到肯定结果的情况下,处理器21A将OCR处理结果输出到图像处理装置10的后处理(步骤S4)。这是因为,在步骤S3中得到肯定结果的情况下,所有区域的可信度高于阈值,并且不需要重新进行预处理。
另一方面,在步骤S3中得到否定结果的情况下,处理器21A将表示与特定的区域有关的OCR处理结果的可信度低的信息反馈到图像处理装置10的预处理(步骤S5)。可信度低是指,可信度低于阈值。
在此,反馈中还包括识别可信度低的局部区域的信息。在将预处理的重新执行限定于相应的特定的局部区域的情况下,需要识别局部区域的信息。
在对预处理的反馈中,可以反馈表示整个表区域的可信度低的信息,但是如图7中例示,也可以指定构成表区域的行以反馈表示可信度低的信息。作为可信度低的区域,通过指定比局部区域窄的范围,可以提高推定OCR处理结果的可信度降低的原因时的精度。
另外,即使仅反馈表示可信度低的局部区域的信息,也能够推定预处理侧比未被通知的其他区域的可信度高。
在执行步骤S5之后,处理器21A返回到步骤S1。具体而言,成为等待接收重新执行了预处理的图像数据的状态。另外,前述处理重复至在步骤S3中得到肯定结果。
如此,在本实施方式中,在包括所计算出的可信度低于预先确定的阈值的局部区域的期间,该内容被反馈到预处理。并且,关于接收到表示可信度低的信息的反馈的预处理,选择性地执行与上一次为止不同内容的预处理,能够将重新得到的图像数据再次赋予到OCR处理。通过变更预处理内容而提高得到高于阈值的可信度的可能性。
然而,在本实施方式的情况下,仅反馈得到低可信度的事实。因此,对执行另一内容的预处理之后的图像数据经过OCR处理的结果的可信度未必限定于超过阈值。相反,可信度也有可能低于上一次。
然而,通过重复反馈表示可信度低的信息,关于所有局部区域得到高可信度的可能性提高。其结果,在图像处理装置10执行的后处理中被赋予可信度高于阈值的文本数据,并提高对后处理结果的精度或可靠性。并且,减少手动确认或手动修正所识别的文本数据的劳力和时间。
另外,在本实施方式中,仅反馈可信度低的信息,但是也可以一起反馈表示可信度高的局部区域的信息。
<实施方式2>
图8是对在实施方式2中执行的处理的概要进行说明的图。图8中标注对应于与图3的对应部分的符号而示出。
在本实施方式的情况下,对每个局部区域计算出的可信度从OCR处理反馈到预处理。
图9是对实施方式2中的OCR处理服务器20执行的处理的一例进行说明的流程图。图9中标注对应于与图4的对应部分的符号而示出。
在图9的情况下,在步骤S3中得到否定结果时执行的步骤S5A的内容与实施方式1不同。在实施方式1的情况下,反馈了表示与特定的区域有关的OCR处理结果的可信度低的信息,但是在本实施方式的情况下反馈可信度本身。
由于反馈可信度本身,因此在预处理侧也执行可信度是否高于阈值的判定。
<实施方式3>
图10是对在实施方式3中执行的处理的概要进行说明的图。图10中标注对应于与图3的对应部分的符号而示出。
在本实施方式的情况下,关于特定的局部区域请求变更预处理内容的信息从OCR处理反馈到预处理。
图11是对实施方式3中的OCR处理服务器20执行的处理的一例进行说明的流程图。图11中标注对应于与图4的对应部分的符号而示出。
在图11的情况下,在步骤S3中得到否定结果时执行的步骤S5B的内容与实施方式1不同。在实施方式1的情况下,反馈了表示与特定的区域有关的OCR处理结果的可信度低的信息,但是在本实施方式的情况下,反馈请求变更预处理内容的信息。在前述实施方式1及2的情况下,反馈了对OCR处理结果进行了评价的信息,但是在本实施方式中,反馈对预处理的请求。
<实施方式4>
图12是对在实施方式4中执行的处理的概要进行说明的图。图12中标注对应于与图3的对应部分的符号而示出。
在本实施方式的情况下,降低可信度的原因从OCR处理反馈到预处理。
图13是对实施方式4中的OCR处理服务器20执行的处理的一例进行说明的流程图。图13中标注对应于与图4的对应部分的符号而示出。
在图13的情况下,在步骤S3中得到否定结果时执行的步骤S5C的内容与实施方式1不同。
本实施方式的情况下的处理器21A在步骤S3中得到否定结果的情况下,关于对应的区域推定可信度降低的原因,并将所推定的原因反馈到图像处理装置10的预处理。
处理器21A从图像数据中读取例如有无色块、有无背景、字体尺寸、有无污渍、有无折痕、背景与字符颜色的关系、原稿的种类等信息,并利用于推定原因。
在步骤S5C中的推定中,例如也能够使用提前准备的对应关系表、通过机械学习被更新的完成学习模型、判定程序。
对应关系表中存储有从局部区域的图像数据中获取的特征的组合、以及在可信度低的情况下假定的原因。然而,可以存储有对每个组合推荐的预处理内容。
并且,在使用完成学习模型的情况下,若将与局部区域对应的图像数据输入到完成学习模型,则输出原因。然而,还可以设为若将与局部区域对应的图像数据输入到完成学习模型,则可以输出被推荐的预处理内容。
并且,在使用判定程序的情况下,通过重复一次或复数次由单独的判定引起的分歧而输出认为降低可信度的原因。在该情况下,不是输出原因,而是可以输出被推荐的预处理内容。
在本实施方式的情况下,判定为可信度低的局部区域的图像数据和关于相应的图像数据所推定的上一次原因作为教师数据而被机械学习。
学习单位并不限定于局部区域,可以是对象的种类单位,也可以是原稿的种类单位,也可以是类似的图像单位。
另外,即使对象种类相同,如图5中的表A和表B,若背景或字符的组合不同,则有助于提高可信度的预处理的内容有可能不同。因此,在本实施方式中,以局部区域为单位进行机械学习。
在本实施方式中,在机械学习中采用强化学习。在强化学习中,以奖励增加的方式进行学习。因此,对仅得到低于阈值的可信度的预处理的内容,不给予奖励或仅赋予低的奖励。另一方面,如在步骤S3中得到肯定结果的情况,对得到高于阈值的可信度时的预处理的内容给予高的奖励。
机械学习的结果用于推定下一次以后可信度低的原因。若对已强化学习的完成学习模型赋予与局部区域对应的图像数据,则输出相应的局部区域的可信度低的原因。通过提高强化学习的精度,也可以减少反馈次数。与随机请求变更预处理内容的情况相比,能够提高可信度高于阈值的可能性。在此,学习可以以局部区域为单位,可以以对象为单位,也可以以图像数据所对应的原稿的类别。
此外,在原因的推定中,也能够参考整个图像数据的可信度。整个图像数据的可信度以关于同一页面所接收到的所有局部区域为对象而算出。同一页面包括在从预处理通知的信息中。
整个图像数据的可信度例如能够通过将从关于同一页面所接收到的所有局部区域中所提取的文本总数设为分母,并将针对每个字符所计算的可信度中可信度低的文本数量设为分子而算出。
例如,在整个图像数据的可信度高,而只有特定的局部区域的可信度低的情况下,可以考虑特定的局部区域中所固有的原因。另一方面,在不仅是特定的局部区域,而且作为整个图像数据的可信度也低的情况下,可以推定不取决于对象种类的差异的共同的原因。例如,可以推定污渍或折痕可能是原因。
并且,在存在关于类似或相同类型的局部区域使用的预处理内容和与其可信度有关的信息的履历的情况下,也能够根据得到高可信度时的预处理内容来推定原因。然而,需要将预处理内容从预处理侧通知到OCR处理侧,并且将这些信息与对应于局部区域的图像数据建立关联地存储。在此,局部区域类似或相同类型是指,与局部区域对应的图像数据的内容是类似或相同类型。
即使不标准化,在存储有与所推定的原因对应的可信度的组合履历的情况下,也能够使用可得到高可信度时的原因。另外,在存储有与预处理内容对应的可信度的组合履历的情况下,根据得到高可信度时的预处理内容,也能够推定作为前提的原因。
此外,在存在关于类似或相同种类的局部区所推定的原因的履历的情况下,也能够参考关于与此次的处理对象即图像数据类似或相同种类的局部区域的履历来推定原因。
图14是对在对象数据为表区域的情况下推定的原因的示例进行说明的图。图14中,(A)表示关于一个表区域所计算出的可信度的组合,(B)表示所推定的原因。另外,图14的示例是针对每一个行计算可信度的例子。在以整个表区域为单位计算可信度的情况下,难以推定如图14所示的详细的原因。(A)所示的表与图7相同。
组合1是与第1行~第3行对应的各可信度高于阈值的情况。在该情况下,由于在上一次执行的预处理的内容没有问题,因此不需要推定可信度低的原因。
组合2是与第1行和第2行对应的各可信度高于阈值,但是与第3行对应的可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定值单元为彩色背景。
组合3是与第1行和第3行对应的各可信度高于阈值,而与第2行对应的可信度低于阈值的情况。在该情况下,作为降低可信度的原因,也可以推定值单元为彩色背景。
组合4是与第1行对应的可信度高于阈值,而与第2行和第3行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定只有值单元为阴影。在此,阴影中还包括色块。
组合5是与第2行和第3行对应的各可信度高于阈值,而与第1行对应的可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定项目名称单元为空白字符。
组合6是与第2行对应的可信度高于阈值,但是与第1行和第3行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定项目名称单元为空白字符,并且值单元为彩色背景。
组合7是与第3行对应的可信度高于阈值,但是与第1行和第2行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,也可以推定项目名称单元为空白字符,并且值单元为彩色背景。
组合8是与第1行~第3行对应的各可信度低于阈值的情况。在该情况下,作为降低可信度的原因,可以推定整面为色块或整面为彩色背景,并且各字符为彩色字符等。
另外,以上推定着重于原始原稿的图像上的特征。因此,为了推定因污渍或折痕等的影响而可信度降低,还需要其他信息。例如,需要以页面单位的可信度或原始图像数据的信息。
<实施方式5>
图15是对在实施方式5中执行的处理的概要进行说明的图。图15中标注对应于与图3的对应部分的符号而示出。
在本实施方式的情况下,关于特定的局部区域所请求的预处理内容从OCR处理反馈到预处理。
图16是对实施方式5中的OCR处理服务器20执行的处理的一例进行说明的流程图。图16中标注对应于与图4的对应部分的符号而示出。
在图16的情况下,在步骤S3中得到否定结果时执行的处理的内容与实施方式1不同。
本实施方式中的处理器21A若在步骤S3中得到否定结果,则关于所对应的区域推定可信度降低的原因(步骤S6)。推定内容在实施方式4中已进行说明,因此省略说明。
接着,处理器21A将消除所推定的原因的预处理内容反馈到图像处理装置10的预处理(步骤S7)。
在所请求的处理内容中,例如包括清理处理的种类、清理处理的强度、在清理处理中使用的参数值。在清理处理的种类中,例如存在去除色块或阴影的处理、去除污渍的处理、去除背景颜色并将空白字符或彩色字符转为黑色字符的处理。
在此,在反馈的预处理内容的决定中,例如也能够使用提前准备的对应关系表、通过机械学习而被更新的完成学习模型、判定程序。
在对应关系表中,对应关联地存储有所推定的原因和消除原因的预处理内容。然而,将步骤S6和步骤S7的处理设为一体化,关于与对应于局部区域的图像数据类似的图像的分类,可以对应关联地存储有被推荐的预处理内容。
并且,在使用完成学习模型的情况下,若将所推定的原因输入到完成学习模型,则输出消除原因的预处理内容。在该情况下,也可以将步骤S6和步骤S7的处理设为一体化,若将与局部区域对应的图像数据输入到完成学习模型,则可以输出被推荐的预处理内容。
并且,在使用判定程序的情况下,通过重复一次或复数次由单独的判定引起的分歧而输出消除认为降低可信度的原因的预处理内容。在该情况下,也可以通过将步骤S6和步骤S7的处理设为一体化,并重复进行从与局部区域对应的图像数据中提取的特征所对应的判定,而输出被推荐的预处理内容。
在本实施方式的情况下,上一次所推定的原因和对预处理请求的预处理内容作为教师数据而被机械学习。学习单位并不限定于局部区域,可以是对象的种类单位,也可以是原稿的种类单位,也可以是类似的图像单位。另外,即使对象种类相同,如图5中的表A和表B,若背景或字符的组合不同,则有助于提高可信度的预处理的内容有可能不同。因此,在本实施方式中,以局部区域为单位进行机械学习。
在本实施方式中,在机械学习中采用强化学习。在强化学习中,以奖励增加的方式进行学习。因此,对仅得到低于阈值的可信度的预处理的内容,不给予奖励或仅赋予低的奖励。另一方面,如在步骤S3中得到肯定结果的情况,对得到高于阈值的可信度时的预处理的内容给予高的奖励。
机械学习的结果用于决定下一次以后的预处理的内容。在下一次以后的预处理中,不仅包括伴随反馈重新执行预处理,而且还包括对新读取的原稿的图像数据进行的预处理。
若已强化学习的完成学习模型被赋予所推定的原因,则输出对消除该原因所请求的预处理内容。通过提高强化学习的精度,也可以减少反馈次数。与随机选择预处理内容的情况相比,也能够提高可信度高于阈值的可能性。
在执行步骤S7之后,处理器21A返回到步骤S1,等待接收以所请求的预处理内容被处理的图像数据。其结果,在图像处理装置10执行的后处理中被赋予可信度高于阈值的文本数据,并提高对后处理结果的精度或可靠性。并且,可以减少手动确认或修正所识别的文本数据的劳力和时间。
<实施方式6>
在此,对由OCR处理服务器20执行的其他处理进行说明。
在前述实施方式中,在所有局部区域的可信度均成为阈值以上之后,OCR处理结果一并输出到图像处理装置10的后处理。即,在前述实施方式中,仅汇集关于各局部区域最终得到高可信度的阶段的COR处理结果,并输出到图像处理装置10的后处理。
在本实施方式的情况下,针对得到高于阈值的可信度的每个局部区域,OCR处理结果即文本数据单独输出到图像处理装置10的后处理。
图17是对实施方式6中的OCR处理服务器20执行的处理的一例进行说明的流程图。图17中标注对应于与图4的对应部分的符号而示出。
在图17的情况下,处理器21A在执行步骤S2之后,针对每个局部区域判定可信度是否为阈值以上(步骤S3A)。顺便一提,在前述其他实施方式的情况下,关于所有局部区域也均判定了可信度是否为阈值以上。
关于在步骤S3A中得到否定结果的局部区域,处理器21A执行步骤S5的处理。具体而言,处理器21A将表示与得到否定结果的特定的区域有关的OCR处理结果的可信度低的信息反馈到图像处理装置10的预处理。
另外,可以如同前述实施方式2,反馈可信度本身,也可以如同实施方式3,反馈请求变更预处理内容的信息,也可以如同实施方式4,反馈降低可信度的原因,也可以如同实施方式5,反馈对图像处理装置10请求的预处理内容。
另一方面,关于在步骤S3A中得到肯定结果的局部区域,处理器21A执行将OCR处理结果输出到图像处理装置10的后处理的处理(步骤S4)。然而,在此,每当确认可信度为阈值以上时,针对每个局部区域执行输出。
在执行步骤S4之后,处理器21A判定在所有局部区域中可信度是否成为阈值以上(步骤S8)。
在步骤S8中得到否定结果的情况下,处理器21A返回到步骤S1。在该情况下,是指在OCR处理对象即局部区域中残留有可信度低的局部区域。
在步骤S8中得到肯定结果的情况下,处理器21A结束对处理对象即原稿的OCR处理。
在本实施方式的情况下,将通过OCR处理按顺序从可信度高于阈值的局部区域中得到的文本数据依次输出到后处理,但是也可以暂且将所有文本数据输出到后处理,随后仅将关于得到高可信度的局部区域所得到的文本数据作为替换用或覆盖用文本数据而输出到后处理。
<实施方式7>
在前述实施方式的情况下,图像处理装置10将图像数据分离成对象,但是将图像数据分离成对象的处理还可以在OCR处理服务器20侧执行。
图18是对在实施方式7中执行的处理的概要进行说明的图。图18中标注对应于与图3的对应部分的符号而示出。
在图18的情况下,从预处理到OCR处理中被发送用于区分处理对象的文件名和预处理后的图像数据。在此,图像数据对应于从原稿中读取的整个图像数据。这是因为,不执行分离成对象的处理。
另一方面,在从OCR处理到预处理的反馈中,表示OCR的结果的可信度低的信息以局部区域单位被反馈。并且,反馈中还包括识别局部区域的信息。
在本实施方式的情况下,图像处理装置10不知道各个局部区域的范围。因此,在识别矩形局部区域的信息中,可以包括例如限定区域外缘的对角位置上的两个坐标点。并且,例如在识别矩形局部区域的信息中,可以包括赋予区域的一个角的坐标点和以相同坐点为起点的两个边的方向和长度。识别局部区域的信息若能够确定反馈对象即局部区域,则并不限定于前述两个示例。
另外,在实施方式2~6中的任一方式的情况下,均能够通过OCR处理来执行分离成对象的处理。
<实施方式8>
在前述实施方式的情况下,若从可信度成为阈值以上的字符区域或表区域中所提取的文本数据输出到后处理,则对处理对象即原稿的OCR处理结束。
在这些情况下,通过在预处理中检测文本数据从OCR处理输出到后处理,或者在预处理中检测通过后处理而接收文本数据,能够在预处理中检测OCR处理结束。
然而,有时希望在预处理侧明确地获知OCR处理结束。例如,在预处理的可能性消失的阶段删除图像数据的情况。并且,在执行预处理的图像处理装置10和执行后处理的图像处理装置10不同的情况下,也有可能无法获知文本数据从OCR处理输出到后处理、或通过后处理而接收的文本数据。
因此,在本实施方式中,在OCR处理中备有将OCR处理结束通知到预处理的功能。
图19是对在实施方式8中执行的处理的概要进行说明的图。图19中标注对应于与图3的对应部分的符号而示出。
在图19的情况下,在包括可信度低的局部区域的期间,表示经过OCR处理的结果的可信度低的信息从OCR处理反馈到预处理,另一方面,若可信度低的局部区域消失,则通知OCR处理结束。
图20是对实施方式8中的OCR处理服务器20执行的处理的一例进行说明的流程图。图20中标注对应于与图4的对应部分的符号而示出。
在图20的情况下,处理器21A在执行步骤S4之后,将OCR处理结束通知到图像处理装置10的预处理(步骤S9)。接收到OCR处理结束的预处理是指,将通知对象即原稿的图像数据使用于预处理的必要性消失。因此,在预处理侧,能够放心地删除目标图像数据。
另外,通知OCR处理结束的功能还能够组合到前述实施方式中的任一方式。
<实施方式9>
图21是对在实施方式9中执行的处理的概要进行说明的图。图21中标注对应于与图3的对应部分的符号而示出。
在前述实施方式中,信息反馈目的地只有预处理,但是在本实施方式中,对获取原稿的图像数据的处理中也反馈信息。
例如,相对于打印或记入在原稿上的字符的尺寸,在获取图像数据时所使用的分辨率小的情况下,OCR处理的结果的可信度有可能降低。在分辨率的不一致是可信度降低的原因的情况下,即使变更预处理的内容,可信度也得不到改善。
因此,在本实施方式中,在认为OCR处理对象即图像数据中所包括的字体的尺寸是可信度低的原因的情况下,执行将图像数据的分辨率的变更反馈到获取原稿的图像数据的处理。图21的示例中,指示从200dpi变更到600dpi。另外,检测字体尺寸的大小的技术是已知的。
本实施方式中已说明的反馈也能够与前述实施方式中的任一个进行组合。
<其他实施方式>
以上,对本发明的实施方式进行了说明,但是本发明的技术范围并不限定于前述实施方式中所记载的范围。根据本发明的技术范围的记载明确了,在前述实施方式中追加各种变更或改进的内容也包括在本发明的技术范围内。
(1)例如,在前述实施方式中,对预处理及其后级侧处理的组合是清理处理和OCR处理的组合的情况进行了说明。然而,在其他情况下,也可以考虑预处理与后级侧处理的关系。例如,也可以为如下:预处理提取用于脸部识别的特征量,后级侧处理是使用所提取的特征量的脸部识别。在该情况下,可信度是表示已被脸部识别的结果的精度的信息等。如此,在前述实施方式中,以后级侧处理是OCR处理为前提,但是预处理及其后级侧处理的组合可以是任意的。
(2)在前述实施方式的情况下,以图5所示的原稿为前提,并以构成表的行单位来计算可信度,但是在以列单位来计算可信度的情况下也能够应用。
(3)在前述实施方式中,作为对赋予到OCR处理服务器20的图像数据追加预处理的装置的一例,例示出包括以光学方式读取原稿并生成图像数据的功能等的图像处理装置10,但是作为图像处理装置10,也可以使用专用于读入与原稿对应的图像数据的图像扫描仪。在图像扫描仪中可以设置有ADF(=Auto Document Feeder:自动文档进纸器)。
并且,作为对赋予到OCR处理服务器20的图像数据追加预处理的装置,除了用于拍摄原稿的智能手机或数码相机以外,还可以使用从外部获取拍摄到原稿的图像数据的计算机。在此,计算机使用于预处理和OCR处理后的数据的后处理等,可以不具有拍摄原稿图像的功能或以光学方式读取原稿信息的功能。
(4)在前述实施方式中,对图像处理装置10和OCR处理服务器20构成为独立的装置的情况进行了说明,但是在图像处理装置10中也可以执行OCR处理。在该情况下,在像处理装置10的内部执行预处理、OCR处理及后处理等全部处理。
(5)在前述实施方式中,对于将处理通过OCR处理得到的文本数据的后处理移交到已执行预处理的图像处理装置10的情况进行了说明,但是也可以将通过OCR处理得到的文本数据输出到与已执行预处理的图像处理装置10不同的处理装置。
(6)前述各实施方式中的处理器是指广义上的处理器,除了通用的处理器(例如CPU(=Central Processing Unit:中央处理单元)等)以外,还包括专用的处理器(例如,GPU、ASIC(=Application Specific Integrated Circuit:专用集成电路)、FPGA、程序逻辑器件等)。
并且,前述各实施方式中的处理器的动作可以由一个处理器单独执行,但是也可以由存在于物理上分开的位置上的复数个处理器协作执行。并且,执行处理器中的各动作的顺序并不仅限于前述各实施方式中所记载的顺序,而可以单独进行变更。
上述本发明的实施方式是以例示及说明为目的而提供的。另外,本发明的实施方式并不全面详尽地包括本发明,并且并不将本发明限定于所公开的方式。很显然,对本发明所属的领域中的技术人员而言,各种变形及变更是自知之明的。本实施方式是为了最容易理解地说明本发明的原理及其应用而选择并说明的。由此,本技术领域中的其他技术人员能够通过对假定为各种实施方式的特定使用最优化的各种变形例来理解本发明。本发明的范围由以上的权利要求书及其等同物来定义。

Claims (21)

1.一种信息处理装置,其具有处理器,
所述处理器进行如下处理:
从预处理中获取图像数据;
针对与所获取的所述图像数据对应的图像的每个局部区域计算与处理结果的精度有关的信息;及
将与所计算出的所述精度有关的信息与确定所对应的局部区域的信息一同通知到所述预处理。
2.根据权利要求1所述的信息处理装置,其中,
所述处理器针对进一步划分局部区域的复数个小区域的每一个计算与处理结果的所述精度有关的信息,
将针对复数个小区域的每一个所计算出的处理结果的精度一并或单独通知到所述预处理。
3.根据权利要求1或2所述的信息处理装置,其中,
与所述精度有关的信息表示处理结果的精度低于预先确定的阈值。
4.根据权利要求1所述的信息处理装置,其中,
所述处理器推定处理结果的精度低于预先确定的阈值的原因,
将所推定的原因作为与所述精度有关的信息而通知到所述预处理。
5.根据权利要求4所述的信息处理装置,其中,
与所述原因有关的信息是与包括在局部区域中的字符或背景有关的信息。
6.根据权利要求4所述的信息处理装置,其中,
所述处理器包括将整个所述图像数据作为对象的处理结果的精度在内而推定所述原因。
7.根据权利要求4所述的信息处理装置,其中,
所述处理器根据从所述预处理赋予的处理内容的信息来推定原因。
8.根据权利要求4所述的信息处理装置,其中,
所述处理器根据关于与所述图像数据类似的其他图像数据所推定的原因的履历来推定原因。
9.根据权利要求4所述的信息处理装置,其中,
所述处理器根据相同类型的局部区域之间的精度差异来推定原因。
10.根据权利要求1所述的信息处理装置,其中,
所述处理器将指示所述预处理变更内容的信息通知到所述预处理。
11.根据权利要求1所述的信息处理装置,其中,
所述处理器将指示对所述预处理请求的处理内容的信息通知到所述预处理。
12.根据权利要求11所述的信息处理装置,其中,
指示所述预处理内容的信息包括指示在所述预处理中使用的参数值的信息。
13.根据权利要求11所述的信息处理装置,其中,
所述处理器根据对与所述图像数据类似的其他图像数据的指示履历来推定对所述预处理请求的处理内容。
14.根据权利要求13所述的信息处理装置,其中,
所述处理器学习通知到所述预处理的内容和对通知之后再次获取的局部区域进行了处理的结果的精度作为教师数据,
推定对所述预处理请求的处理内容。
15.根据权利要求1所述的信息处理装置,其中,
所述处理器在再次获取重新执行了不同的预处理的所述图像数据的情况下,当与所述图像数据对应的各局部区域的处理结果均高于预先确定的阈值时,输出对再次获取的所述图像数据进行了处理的结果。
16.根据权利要求1所述的信息处理装置,其中,
所述处理器在再次获取关于得到低于预先确定的阈值的精度的局部区域执行了不同内容的预处理的图像数据,且其处理结果高于所述阈值的情况下,将所述局部区域的处理结果与对上一次处理中得到高于所述阈值的精度的其他局部区域的处理结果进行组合并输出。
17.根据权利要求1所述的信息处理装置,其中,
所述处理器在与所述预处理之间共享对所述通知的对象即所述图像数据进行识别的信息。
18.根据权利要求1所述的信息处理装置,其中,
所述处理器对生成所述图像数据的所述预处理指示提高分辨率。
19.根据权利要求1所述的信息处理装置,其中,
关于所有局部区域,在处理结果的精度超过预先确定的阈值的情况下,所述处理器将处理结束通知到所述预处理。
20.一种记录介质,其记录有用于使计算机实现如下功能的程序:
从预处理中获取图像数据的功能;
针对与所获取的所述图像数据对应的图像的每个局部区域计算与处理结果的精度有关的信息的功能;及
将与所计算出的所述精度有关的信息与确定所对应的局部区域的信息一同通知到所述预处理的功能。
21.一种信息处理方法,其包括如下步骤:
从预处理中获取图像数据;
针对与所获取的所述图像数据对应的图像的每个局部区域计算与处理结果的精度有关的信息;及
将与所计算出的所述精度有关的信息与确定所对应的局部区域的信息一同通知到所述预处理。
CN202010759409.7A 2020-02-12 2020-07-31 信息处理装置、记录介质及信息处理方法 Pending CN113255707A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-021692 2020-02-12
JP2020021692A JP7452060B2 (ja) 2020-02-12 2020-02-12 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
CN113255707A true CN113255707A (zh) 2021-08-13

Family

ID=77178392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010759409.7A Pending CN113255707A (zh) 2020-02-12 2020-07-31 信息处理装置、记录介质及信息处理方法

Country Status (3)

Country Link
US (1) US11354890B2 (zh)
JP (1) JP7452060B2 (zh)
CN (1) CN113255707A (zh)

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204293B2 (en) * 2007-03-09 2012-06-19 Cummins-Allison Corp. Document imaging and processing system
JP3485020B2 (ja) 1999-04-09 2004-01-13 日本電気株式会社 文字認識方法及び装置ならびに記憶媒体
US7343049B2 (en) * 2002-03-07 2008-03-11 Marvell International Technology Ltd. Method and apparatus for performing optical character recognition (OCR) and text stitching
JP2006011967A (ja) 2004-06-28 2006-01-12 Fuji Xerox Co Ltd 文字認識装置、文字認識プログラム
US8390874B2 (en) * 2004-10-14 2013-03-05 Hewlett-Packard Development Company, L.P. Optimal resolution imaging system and method
JP2006259830A (ja) * 2005-03-15 2006-09-28 Toshiba Corp 光学的文字認識装置および光学的文字認識結果確認方法
JP2007086954A (ja) 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
JP5334042B2 (ja) 2008-11-23 2013-11-06 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
JP5674615B2 (ja) 2011-09-28 2015-02-25 株式会社日立情報通信エンジニアリング 文字認識装置及び文字認識方法
US9697182B2 (en) * 2012-12-11 2017-07-04 Xerox Corporation Method and system for navigating a hard copy of a web page
WO2015113635A1 (en) * 2014-01-31 2015-08-06 Longsand Limited Optical character recognition
JP6528147B2 (ja) 2014-01-31 2019-06-12 株式会社日本デジタル研究所 会計データ入力支援システム、方法およびプログラム
US10089555B2 (en) * 2014-03-28 2018-10-02 Hyland Software, Inc. Method, apparatus, and computer program product for providing automated testing of an optical character recognition system
KR20160027862A (ko) * 2014-09-02 2016-03-10 삼성전자주식회사 이미지 데이터를 처리하는 방법과 이를 지원하는 전자 장치
US9984287B2 (en) * 2015-03-05 2018-05-29 Wipro Limited Method and image processing apparatus for performing optical character recognition (OCR) of an article
GB2538265A (en) * 2015-05-13 2016-11-16 Asda Stores Ltd Barcode scanner device and inventory management system
US11341739B2 (en) 2016-02-15 2022-05-24 Nec Corporation Image processing device, image processing method, and program recording medium
US10395393B2 (en) * 2016-12-22 2019-08-27 I.R.I.S. Method for assessing the quality of an image of a document
JP2019012361A (ja) * 2017-06-29 2019-01-24 キヤノン株式会社 情報処理装置、プログラム及び情報処理方法
US10482170B2 (en) * 2017-10-17 2019-11-19 Hrb Innovations, Inc. User interface for contextual document recognition
JP2020067959A (ja) * 2018-10-26 2020-04-30 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
JP7241506B2 (ja) * 2018-10-30 2023-03-17 ウイングアーク1st株式会社 光学式文字認識結果の修正支援装置および修正支援用プログラム

Also Published As

Publication number Publication date
JP2021128444A (ja) 2021-09-02
JP7452060B2 (ja) 2024-03-19
US20210248402A1 (en) 2021-08-12
US11354890B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
US6788810B2 (en) Optical character recognition device and method and recording medium
US8619278B2 (en) Printed matter examination apparatus, printed matter examination method, and printed matter examination system
US8126270B2 (en) Image processing apparatus and image processing method for performing region segmentation processing
US20050271275A1 (en) Text character identification system and method thereof
US8391607B2 (en) Image processor and computer readable medium
US9626738B2 (en) Image processing apparatus, image processing method, and storage medium
US11715018B2 (en) Image processing apparatus and non-transitory computer readable medium
JP2007081458A (ja) 画像処理装置および画像処理装置の制御方法
US8682075B2 (en) Removing character from text in non-image form where location of character in image of text falls outside of valid content boundary
US11430235B2 (en) Image processing apparatus, image processing method, and storage medium
US10887491B2 (en) Image processing apparatus for processing of highlighted regions
JP2007072642A (ja) 画像処理装置および画像処理装置の制御方法
US10706337B2 (en) Character recognition device, character recognition method, and recording medium
US9215344B2 (en) Image forming apparatus, image processing apparatus, image forming method, image processing method, and non-transitory computer readable medium
CN113255707A (zh) 信息处理装置、记录介质及信息处理方法
JP4396710B2 (ja) 画像処理装置、画像処理装置の制御方法、および画像処理装置の制御プログラム
US8125691B2 (en) Information processing apparatus and method, computer program and computer-readable recording medium for embedding watermark information
US11238305B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
Gupta et al. A Practical Implementation of Automatic Document Analysis and Verification using Tesseract [1][2]
US10623598B2 (en) Image processing apparatus and non-transitory computer readable medium for extracting and connecting inherent regions of multiple pages of document data
US11811984B2 (en) Image processing system, image processing apparatus and method of controlling the same, and storage medium
JP2024035965A (ja) 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2008124975A (ja) 画像データ作成装置、画像出力装置、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination