CN107665346A - 信息提取装置、具有信息提取装置的图像形成装置、信息提取装置的控制方法 - Google Patents

信息提取装置、具有信息提取装置的图像形成装置、信息提取装置的控制方法 Download PDF

Info

Publication number
CN107665346A
CN107665346A CN201710579911.8A CN201710579911A CN107665346A CN 107665346 A CN107665346 A CN 107665346A CN 201710579911 A CN201710579911 A CN 201710579911A CN 107665346 A CN107665346 A CN 107665346A
Authority
CN
China
Prior art keywords
region
data
information
extraction
colouring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710579911.8A
Other languages
English (en)
Inventor
山田笃志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Publication of CN107665346A publication Critical patent/CN107665346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00795Reading arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Signal Processing (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供信息提取装置、图像形成装置、信息提取装置的控制方法。信息提取装置包括存储部、图像读取装置以及控制部。基于参照原稿(参照图像数据)中的上色区域的颜色,控制部将上色区域分类成第一上色区域和第二上色区域。存储部存储包含第一上色区域的特征图像数据和表示从特征图像数据到第二上色区域的距离和方向的位置数据。控制部根据比较图像数据中的与特征图像数据匹配的区域的位置和位置数据规定提取区域。控制部使从提取区域提取的提取信息存储于存储部。

Description

信息提取装置、具有信息提取装置的图像形成装置、信息提取 装置的控制方法
技术领域
本发明涉及从图像数据中提取信息的装置以及该装置的控制方法。
背景技术
有时会事先录入好资料的格式(文档格式)。然后,从包含录入格式的图像数据中提取信息。例如,从通过扫描资料(原稿)而获得的图像数据中提取信息。有时在提取信息前,会判定通过扫描而获得的图像数据是否与录入格式一致。已知有以下那样的与基于格式的信息的提取相关的技术的一例。
具体来说,已知有一种系统,该系统参照存储的格式数据对多个单元按照某种规则配置的文本的布局进行解析,并存储存在于各单元的信息的类型和规定了单元间的邻接关系的格式数据,提取文本的图像数据,求出来自图像数据的多个单元的提取和单元间的邻接关系,并将文本的单元间的邻接关系与格式数据规定的单元间的邻接关系进行比较,特定文本的单元中的对应的格式数据规定的单元并特定文本中的信息的配置,按照所特定的信息的配置来识别包含于文本的信息。
在账簿那样的资料中记录有信息。例如记录有姓名、住所、电话号码。如果能从资料的图像数据中自动提取期望的信息进行数据化,则很方便。不需要输入者一边看资料一边通过键盘手动输入信息。另外,有时也会在资料中设置有回答栏。回答栏是回答者的选项的填写栏。例如,回答栏包括复选框、被圆环绕的记号。填写者点击符合的框。或者,用圆环绕符合的记号。如果能自动提取在回答栏中进行选择的信息(什么样的记号被填写在哪个位置),则也可以不对每张资料都确认选择的回答。
以往,要自动提取资料的信息,需要预先录入信息提取区域的位置。例如,在信息处理装置中录入资料的格式定义用的图像数据中的提取信息的区域(信息提取区域)的位置。例如,在PC中阅览格式的图像数据。然后,使用者使用指示设备(例如鼠标)规定矩形区域。这样,规定出信息提取区域。正常情况下,在格式的录入、信息提取区域的设定操作中使用PC。
另外,因为设定的信息提取区域的偏移,有时无法准确地获取信息。因此,有时要能够细致地调整(设定)信息提取区域的大小、位置。但是,存在操作越细则信息提取区域的设定操作越容易变难的问题。
在上述的公知技术中,用一个格式数据来识别单元的大小不同但邻接关系相同的文本。但是,前提是在PC中使用。另外,没有设定提取信息的区域的功能。因此,在上述的公知的技术中,无法解决上述的问题。
发明内容
(一)要解决的技术问题
本发明就是鉴于上述问题点而完成的,其能够不使用PC而容易地设定提取信息的区域。
(二)技术方案
本发明的第一方面的信息提取装置包括存储部、图像读取装置以及控制部。所述存储部存储数据。所述图像读取装置读取原稿并生成所述原稿的图像数据。所述控制部对所述图像读取装置通过读取参照原稿而获得的参照图像数据中的作为被上色的区域的上色区域进行识别。所述控制部基于所述上色区域的颜色将所述上色区域分类成第一上色区域和第二上色区域。所述控制部使所述参照图像数据中的包含所述第一上色区域的特征图像数据存储于所述存储部。所述控制部使表示从所述特征图像数据到所述第二上色区域的距离和方向的位置数据存储于所述存储部。所述控制部判定读取所述参照原稿后的所述图像读取装置通过读取比较原稿而获得的比较图像数据内是否包含与所述特征图像数据匹配的区域。在判定为包含时,所述控制部根据所述比较图像数据内的与所述特征图像数据匹配的区域的位置以及基于所述位置数据的距离和方向规定提取区域。所述控制部将包含于所述提取区域的信息作为提取信息提取。所述控制部使所述提取信息存储于所述存储部。在判定为未包含时,所述控制部不规定所述提取区域且不提取所述提取信息。
本发明的第二方面的图像形成装置包括上述的信息提取装置。
本发明的第三方面的信息提取装置的控制方法,存储数据,读取原稿并生成所述原稿的图像数据,对通过读取参照原稿而获得的参照图像数据中的作为被上色的区域的上色区域进行识别,基于所述上色区域的颜色将所述上色区域分类成第一上色区域和第二上色区域,存储所述参照图像数据中的包含所述第一上色区域的特征图像数据,存储表示从所述特征图像数据到所述第二上色区域的距离和方向的位置数据,判定读取所述参照原稿后通过读取比较原稿而获得的比较图像数据内是否包含与所述特征图像数据匹配的区域,在判定为包含时,根据所述比较图像数据内的与所述特征图像数据匹配的区域的位置以及基于所述位置数据的距离和方向规定提取区域,将包含于所述提取区域的信息作为提取信息提取,并存储所述提取信息,在判定为未包含时,不规定所述提取区域且不提取所述提取信息。
(三)有益效果
根据这些信息提取装置、图像形成装置、信息提取装置的控制方法,能够仅在为了在特定发送方式下发送图像数据而进行表读入时自动地使图像形成装置成为连续读入模式。由此,在特定发送方式下的发送中,能够消除只发送一页图像数据的误发送。另外,能够提高图像形成装置的使用性。
本发明的进一步的特征、优点通过以下所示的实施方式更加明确。
附图说明
图1是表示实施方式的多功能一体机的一例的图。
图2是表示在实施方式的信息提取装置中读取参照原稿的流程的一例的流程图。
图3是表示实施方式的参照原稿的一例的图。
图4是表示实施方式的信息提取模式设定画面的一例的图。
图5是表示在实施方式的信息提取装置中读取比较原稿的流程的一例的流程图。
具体实施方式
本发明能够不使用PC而容易地设定提取信息的区域。以下使用图1~图5来说明本发明的信息提取装置1。对包含信息提取装置1的图像形成装置进行说明。作为图像形成装置举出多功能一体机100为例进行说明。但是,在本实施方式中记录的结构、配置等各要素并不限定发明的范围,仅是说明例而已。
(多功能一体机100的概要)
首先,使用图1来说明实施方式的多功能一体机100。多功能一体机100包括控制部2和存储部3。控制部2对装置整体的动作进行综合控制。控制部2对多功能一体机100的各部进行控制。控制部2包括CPU 21、图像处理部22、匹配处理部23以及OCR处理部24。CPU 21进行与控制相关的运算。图像处理部22对图像数据实施任务所需要的图像处理。
匹配处理部23对特征图像数据D2与比较图像数据D4进行比较。匹配处理部23判定与特征图像数据D2匹配的区域(类似度达到阈值以上的区域)是否包含于比较图像数据D4中。OCR处理部24进行对图像数据的OCR处理。OCR处理部24从图像数据中提取文本数据。存储部3包括ROM、RAM、HDD那样的存储装置。存储部3存储控制用程序、各种数据。
控制部2与图像读取装置4能够通信地连接。图像读取装置4包括原稿传递部4a、图像读取部4b。原稿传递部4a向读取位置传递设置好的原稿。图像读取部4b是包括光源、图像传感器的扫描器单元。图像读取部4b读取原稿传递部4a传递的原稿。另外,图像读取部4b读取设置于原稿台(接触玻璃)上的原稿。然后,图像读取部4b生成图像数据。图像读取部4b能够进行彩色模式的读取。控制部2对原稿传递部4a和图像读取部4b的动作进行控制。
操作面板5包括显示面板51(相当于消息输出部)、触控面板52以及硬键53。控制部2对显示面板51的显示进行控制。控制部2使设定用画面显示于显示面板51。控制部使操作图像显示于显示面板51。操作图像例如是软键。基于触控面板52的输出,控制部2识别触控的操作图像。另外,控制部2识别被操作的硬键53。控制部2使显示面板51进行向与操作对应的画面的切换。控制部2识别在操作面板5中进行的设定操作的内容。控制部2对多功能一体机100进行控制以使得其按照设定进行动作。
多功能一体机100包括印刷部6。印刷部6包括供纸部6a、传递部6b、图像形成部6c、中间转印部6d以及定影部6e。在执行印刷任务时,控制部2使供纸部6a逐张提供纸张。控制部2使传递部6b传递纸张。纸张经由图像形成部6c、定影部6e被传递到机外(排出托盘)。控制部2使图像形成部6c形成将会印在传递纸张上的调色剂像。控制部2使中间转印部6d进行把在图像形成部6c中形成的调色剂像转印到中间转印带的一次转印。控制部2使中间转印部6d进行把中间转印带上的调色剂像转印到纸张的二次转印。控制部2使定影部6e进行纸张的加热、加压。由此,调色剂像定影于纸张上。已印刷的纸张被传递部6b排出到排出托盘上。
多功能一体机100包括通信部25。通信部25与PC、服务器那样的计算机200通信。通信部25从计算机200接收任务用数据。任务用数据包括图像数据那样的表示印刷内容的数据。任务用数据包括表示与印刷相关的设定的数据。控制部2使印刷部6进行基于任务用数据的印刷。
(参照原稿7的读取)
接着,使用图2~图4对在实施方式的信息提取装置1中读取参照原稿7的流程的一例进行说明。使用者在操作面板5中进行用于设定为从原稿提取信息的模式的操作。由此,多功能一体机100成为信息提取模式。当处于信息提取模式时,存储部3、图像读取装置4、控制部2以及操作面板5作为信息提取装置1发挥作用。换言之,多功能一体机100包括信息提取装置1。
在信息提取模式中进行信息的提取。在读取要提取信息的原稿前,读取一张参照原稿7。参照原稿7是格式为随后将要提取信息的资料的格式的原稿。另外,参照原稿7是被使用者上色的原稿。当读取参照原稿7后,进行读取要提取信息的原稿的处理。然后,进行从通过读取而获得的图像数据中提取信息的信息提取处理(信息提取的详情在后面说明)。
使用图2的流程图来说明对参照原稿7的读取。图2的开始是在操作面板5中进行了利用信息提取模式的操作的时刻。随着信息提取模式的开始,参照原稿7被使用者设置于原稿传递部4a或者图像读取部4b(步骤#11)。
图3表示参照原稿7的一例。图3表示某个申请书的一例。参照原稿7是从具有将要提取信息的资料的格式的原稿中选出的一张。参照原稿7与将要提取信息的资料具有相同的格式。参照原稿7的信息的填写栏也可以是空栏状态(未填写的纸张)。参照原稿7只要有一张即可。
使用者用某种色彩的标记物对格式的特征点(特征位置71)上色。特征点是例如框线、标题、样式编号。而且,使用者用与特征位置71不同颜色的某种色彩的标记物对信息位置72上色。信息位置72是记载有将要在格式内提取的信息的部分。例如,标记物是荧光笔。能够使用可以识别特征位置71的文字、图形、记号的程度的浓度的标记物。例如,用绿色的荧光笔对特征位置71上色,用蓝色的荧光笔对信息位置72上色。
图3的各图示出将“○○申请书”这样的标题部分作为特征位置71上色的例子。另外,图3的各图示出将姓名栏作为信息位置72上色的例子。
如图3的左侧的图所示,特征位置71的区域可以被全面涂抹。在这种情况下,使用者用作为特征位置71的颜色而选择的颜色的标记物进行全面涂抹。另外,作为信息位置72的区域也可以被全面涂抹。使用者用作为信息位置72的颜色而选择的颜色的标记物进行全面涂抹。
另外,如图3的右侧的图所示,也可以用线围绕作为特征位置71的区域。使用者用作为特征位置71的颜色而选择的颜色的标记物进行围绕。另外,也可以用线围绕作为信息位置72的区域。在这种情况下,使用者用作为信息位置72的颜色而选择的颜色的标记物进行围绕。即,使用者用标记物沿着构成特征位置71或者信息位置72的框线或者文字、图形、记号的周围进行描绘。这样,区域内可以不进行全面涂抹。
控制部2使图像读取装置4读取设置好的参照原稿7(步骤#12)。接着,控制部2使通过读取参照原稿7而获得的图像数据(参照图像数据D1)存储于存储部3(步骤#13)。控制部2使以彩色模式读取参照原稿7而获得的图像数据被存储。
控制部2(图像处理部22)识别参照图像数据D1中的被上色的区域(上色区域、某种色彩的区域)(步骤#14)。基于上色区域的颜色,控制部2将上色区域分类成第一上色区域71a和第二上色区域72a(步骤#15)。第一上色区域71a包括特征位置71。第二上色区域72a包括信息位置72。在图3的例子中,控制部2将以包含“○○申请书”的文字的方式被上色的区域分类成第一上色区域71a。另外,控制部2将姓名填写栏的区域分类成第二上色区域72a。
控制部2(图像处理部22)确认参照图像数据D1内的各像素的像素值。控制部2将用与作为特征位置71的颜色而选择的颜色对应的像素值的像素涂敷(覆盖)的区域识别为第一上色区域71a。或者,控制部2将用与作为特征位置71的颜色而选择的颜色对应的像素值的颜色的线围绕的区域(轮廓内的区域)识别为第一上色区域71a。
另外,控制部2(图像处理部22)将用与作为信息位置72的颜色而选择的颜色对应的像素值的像素涂敷(覆盖)的区域识别为第二上色区域72a。或者,控制部2将用与作为信息位置72的颜色而选择的颜色对应的像素值的颜色的线围绕的区域(轮廓内的区域)识别为第二上色区域72a。
如图4所示,能够设定对特征位置71上色的颜色(分类成第一上色区域71a的颜色)。另外,能够设定对信息位置72上色的颜色(分类成第二上色区域72a的颜色)。图4表示信息提取模式设定画面S1的一例。当在操作面板5的画面中进行了规定的操作时,控制部2使信息提取模式设定画面S1显示于显示面板51。在信息提取模式设定画面S1中设置有多个颜色选择键K1。基于对颜色选择键K1的操作,控制部2识别对特征位置71和信息位置72上色的颜色。
设置有粉、红、黄、蓝、绿、橙、紫那样的颜色选择键K1。按照颜色(按照颜色选择键K1)预先规定被视为该颜色的像素值(颜色成分)的组合。定义了组合的数据被存储于存储部3。举出24比特的RGB形式的情况为例。例如,预先规定R:G:B=103:228:126(淡绿色)、11:218:81(孔雀绿)、127:246:85(葱芽绿)那样的被视为绿色的值的组合。
控制部2基于参照图像数据D1中的第一上色区域71a规定被视为特征图像数据D2的部分(步骤#16)。然后,控制部2使特征图像数据D2存储于存储部3(步骤#17)。
控制部2也可以使第一上色区域71a其本身作为特征图像数据D2存储于存储部3。另外,也存在第一上色区域71a包含于框内的情况。因此,控制部2也可以将包含第一上色区域71a的框内的整个区域作为特征图像数据D2存储。例如,控制部2(图像处理部22)将参照图像数据D1中的由规定值以上的浓度的像素值连续规定长度以上而成的直线识别为边框线。控制部2将用多条(四条)边框线封闭的区域识别为框。
进行基于标记物的上色。因此,特征图像数据D2的各像素的像素值包含在未上色的参照原稿(未上色的相同格式的原稿)中未包含的颜色成分。即,特征图像数据D2的像素中具有包含标记物的颜色成分的部分。因此,控制部2也可以进行特征图像数据D2的颜色的调整。在进行调整的情况下,控制部2除去为了标记物的上色而添加的颜色成分。例如,控制部2的图像处理部22修正特征图像数据D2的像素的色调。色调的修正处理的内容只要是对每一种在特征位置71的指定中所使用的颜色进行规定即可。例如,规定将何种颜色的浓度减弱何种程度的数据。
控制部2基于第二上色区域72a的位置使位置数据D3存储于存储部3(步骤#18)。位置数据D3表示从特征图像数据D2到第二上色区域72a的距离和方向。此外,在以后的处理中不使用参照图像数据D1。因此,控制部2使存储部3消除参照图像数据D1(步骤#19)。结束与参照原稿7的读取相关的处理(结束)。
控制部2将特征图像数据D2中的特定位置的像素作为第一基准像素。控制部2将第二上色区域72a中的特定位置的像素作为第二基准像素。控制部2使表示从第一基准像素到第二基准像素的距离和方向的数据作为位置数据D3存储。特定位置能够适当规定。特定位置也可以是特征图像数据D2、第二上色区域72a的中心。特定位置也可以将右上、右下、左上、左下那样的角作为特定位置。控制部2也可以将特征图像数据D2与第二上色区域72a的相对位置(坐标)的差存储为位置数据D3。例如,控制部2使第二基准像素相对于第一基准像素向上(或者下)方偏移几个像素、向左(或者右)方偏移几个像素这样的数据作为位置数据D3存储。
(比较原稿的读取和信息提取)
接着,使用图5对在实施方式的信息提取装置1中读取比较原稿的流程的一例进行说明。
以下来说明对比较原稿的读取和从通过读取比较原稿而获得的图像数据提取信息的信息提取。比较原稿被设置于图像读取装置4(原稿传递部4a)。使用者也可以仅将格式与参照原稿7相同的资料的束作为比较原稿进行设置。另外,在比较原稿的束中也可以包含格式与参照原稿7不同的原稿。例如,从包含多种资料的资料文件中取出全部资料。可以将取出的全部资料直接设置于原稿传递部4a。在图5的流程图中,对将多张原稿束设置于原稿传递部4a来进行数据提取的例子进行说明。
图5的开始比图2的流程图完成时刻(参照原稿7的读取完成时刻)靠后。随着参照原稿7的读取完成,比较原稿被使用者设置于原稿传递部4a(步骤#21)。此外,也可以在图2的步骤#11的阶段,将以参照原稿7为第一张且第二张之后的作为比较原稿而成的原稿束设置于原稿传递部4a。
原稿传递部4a包括原稿托盘(未图示)。在原稿托盘上可载置原稿。在原稿传递部4a上设置原稿设置传感器41(参照图1)。原稿设置传感器41例如是光传感器。原稿设置传感器41的输出值的电平在设置有原稿时和未设置原稿时不同。控制部2基于原稿设置传感器41的输出来识别:在原稿传递部4a(原稿托盘)上是否设置有原稿。
控制部2使原稿传递部4a对一张设置好的比较原稿进行传递。然后,控制部2使图像读取部4b读取被传递的比较原稿(步骤#22)。原稿传递部4a将进行了读取的比较原稿排出至排出托盘(未图示)。另外,控制部2使通过读取比较原稿而获得的图像数据(比较图像数据D4)存储于存储部3(步骤#23)。
控制部2(匹配处理部23)判定比较图像数据D4中是否包含与特征图像数据D2匹配的区域(步骤#24)。例如,匹配处理部23也可以进行将特征图像数据D2作为模板的模板匹配。在进行模板匹配的情况下,匹配处理部23将特征图像数据D2作为模板。匹配处理部23使模板在比较图像数据D4上移动。每当移动时,匹配处理部23都对比较图像数据D4的像素与特征图像数据D2的像素进行比较。匹配处理部23求出类似度最大的位置。当最大类似度为规定值以上时,匹配处理部23判定为与特征图像数据D2匹配的区域包含于比较图像数据D4中。当不足规定值时,匹配处理部23判定为与特征图像数据D2匹配的区域未包含于比较图像数据D4中。另外,匹配处理部23也可以分别从特征图像数据D2和比较图像数据D4中检测与预先规定的条件一致的特征点。然后,匹配处理部23可以基于特征点的配置进行匹配。
在匹配的判定中也可以使用OCR处理部24。在这种情况下,OCR处理部24将比较图像数据D4和特征图像数据D2的信息(文字、数字)文本数据化。控制部2(匹配处理部23)判定与从特征图像数据D2提取的文本串相同的文本串是否包含于从比较图像数据D4提取的文本中。在包含时,控制部2判定为与特征图像数据D2匹配的区域包含于比较图像数据D4中。在未包含时,控制部2判定为与特征图像数据D2匹配的区域未包含于比较图像数据D4中。
基于判定结果,控制部2确认比较原稿与参照原稿7是否为相同格式的资料(步骤#25)。当与特征图像数据D2匹配的区域包含于比较图像数据D4中时(步骤#25的是),控制部2判断为是相同格式的资料。当与特征图像数据D2匹配的区域未包含于比较图像数据D4中时(步骤#25的否),控制部2判断为是不同格式的资料。
当是相同格式时(步骤#25的是),控制部2规定提取区域(步骤#26)。基于比较图像数据D4中的与特征图像数据D2匹配的区域(最匹配的区域)和位置数据D3,控制部2规定提取区域。
例如,控制部2将匹配的区域中的特定位置的像素规定为第三基准像素。另外,控制部2将从第三基准像素移动了与位置数据D3表示的距离、方向相对应的量而到达的位置的像素规定为提取区域的特定位置的像素(第四基准像素)。控制部2使第三基准像素与第四基准像素的位置关系以及第一基准像素与第二基准像素的位置关系相同。
控制部2以第四基准像素成为提取区域的特定位置的像素的方式规定提取区域。另外,控制部2也可以以成为与第二上色区域72a相同面积(大小)的方式规定提取区域。另外,当第四基准像素是框内的像素时,控制部2也可以将包含第四基准像素的框内的整个区域规定为提取区域。在这种情况下,提取区域可以比第二上色区域72a大。
控制部2提取包含于提取区域的信息,并使提取信息D5存储于存储部3(步骤#27)。控制部2也可以使提取区域的图像数据作为提取信息D5存储于存储部3。另外,控制部2的OCR处理部24也可以对提取区域的图像数据进行OCR处理。控制部2也可以将获得的文本数据作为提取信息D5存储于存储部3。另外,控制部2也可以使图像数据和文本数据双方存储于存储部3。此外,如图4所示,在信息提取模式设定画面S1中设置复选框C1、C2。操作面板5受理作为提取信息D5存储的数据的类型的设定。控制部2使设定的类型的数据作为提取信息D5存储于存储部3。
能够将比较原稿中的期望区域的信息(印刷的信息、手写的信息)自动地数据化。控制部2使大意为提取信息D5已被提取的消息在显示面板51中显示输出(步骤#28)。
另一方面,当与特征图像数据D2匹配的区域未包含于比较图像数据D4中时(步骤#25的否),控制部2判定为进行了读取的比较原稿与参照原稿7不是相同格式(步骤#29)。控制部2使大意为提取信息D5未被提取的消息在显示面板51中显示输出(步骤#210)。
在步骤#28和步骤#210之后,控制部2基于原稿设置传感器41的输出,确认是否剩余有应该读取的比较原稿(步骤#211)。当未剩余比较原稿时(步骤#211的否),本流程终结(结束)。此外,与参照原稿7时同样地,控制部2也可以使存储部3消除全部的比较图像数据D4。
另一方面,当剩余有比较原稿时(步骤#211的是),控制部2使原稿传递部4a开始下一个比较原稿的供纸(步骤#212)。然后,流程返回步骤#22。
(提取信息D5的输出)
接着,使用图1,对从比较原稿中提取的提取信息D5的输出进行说明。在信息提取装置1(多功能一体机100)中,能够将被数据化的提取信息D5印刷输出。操作面板5受理指示提取信息D5的印刷输出的指示操作。当进行了指示操作时,控制部2使印刷部6印刷被数据化的提取信息D5。
在信息提取装置1(多功能一体机100)中,能够经由通信部25,将被数据化的提取信息D5发送输出至计算机200。操作面板5受理指示提取信息D5的发送输出的发送指示。当进行了发送指示时,控制部2使通信部25将被数据化的提取信息D5向被指定的计算机200发送。在提取信息D5被文本数据化的情况下,进行发送的提取信息D5的格式为在数据编辑中容易使用的数据格式(例如CSV文件)。此外,如图4所示,也可以在信息提取模式设定画面S1中设置发送目的地设定栏C3。也可以预先设定发送目的地的计算机200。
这样,实施方式的信息提取装置1包括存储部3、图像读取装置4以及控制部2。存储部3存储数据。图像读取装置4读取原稿并生成原稿的图像数据。控制部2识别图像读取装置4通过读取参照原稿7而获得的参照图像数据D1中的作为已上色的区域的上色区域,并基于上色区域的颜色将上色区域分类成第一上色区域71a和第二上色区域72a,使在参照图像数据D1中包含第一上色区域71a的特征图像数据D2存储于存储部3,使表示从特征图像数据D2到第二上色区域72a的距离和方向的位置数据D3存储于存储部3,并判定读取参照原稿7后的图像读取装置4通过读取比较原稿而获得的比较图像数据D4内是否包含与特征图像数据D2匹配的区域,当判定为包含时,根据比较图像数据D4内的与特征图像数据D2匹配的区域的位置以及基于位置数据D3的距离和方向规定提取区域,并将包含于提取区域的信息作为提取信息D5提取,使提取信息D5存储于存储部3,当判定为未包含时,不规定提取区域且不提取提取信息D5。
由此,仅通过用标记物(荧光笔那样的书写工具)在参照原稿7上标注颜色就能够指定特征部分(特征图像数据D2)。特征部分是用于识别资料的格式(文档格式)的部分。仅通过用标记物在参照原稿7上标注颜色就能够指定要提取信息的区域。因此,即使在比较原稿的束中混有多种格式的资料,也能够仅从格式与参照原稿7相同的原稿中提取期望的信息。换言之,能够提取以与第二上色区域72a对应的颜色被上色的上色位置的信息。在对提取信息的格式的指定和对提取信息的区域的指定中不需要使用PC。另外,只要用标记物在参照原稿7上标注颜色即可。因此,能够容易地进行对格式和信息提取区域的指定。
另外,有时会将电子表格软件作为文字处理软件使用来制作资料(文件)。有时会使用电子表格软件来制作优先考虑视觉美感(美观)的资料。例如,将单元像方格绘图纸块那样处理。另外,可灵活自如地进行单元的合并。即使用电子表格软件制作,美观优先的资料的数据的再利用性也极低。例如,在进行了CSV文件化的情况下,单元合并、边框线消失,变得不明白是什么意思。但是,根据本发明,能够从特定格式的资料中提取期望的信息。也可以不对用电子表格软件制作的美观优先的资料进行文件的解析、加工。
信息提取装置1包括消息输出部(显示面板51),当读取参照原稿7后,每读取一次所述比较原稿,该信息输出部输出表示提取信息D5是否已被提取的消息。由此,能够向使用者示出图像读取装置4进行了读取的原稿中的信息被提取的原稿和信息未被提取的原稿。使用者能够识别在格式与参照原稿7相同的资料中有信息的提取遗漏的情况。另外,使用者能够识别从格式与参照原稿7不同的资料中错误地提取了信息的情况。
控制部2使提取区域的图像数据和对提取区域的图像数据进行OCR处理而获得的文本数据的任意一方或者双方作为提取信息D5存储于存储部3。由此,能够将记录于比较原稿内的期望区域的信息作为图像数据、文本数据提取。
另外,控制部2将与第二上色区域72a相同的大小或者比第二上色区域72a大的区域规定为提取区域。由此,能够从比较原稿中准确地提取期望的信息。另外,控制部2以框为基准规定特征图像数据D2的范围和提取区域。由此,能够不遗漏框内的信息而进行提取。
操作面板5受理分类为第一上色区域71a的颜色和分类为第二上色区域72a的颜色的设定。控制部2基于在操作面板5中设定的颜色来分类第一上色区域71a和第二上色区域72a。由此,能够设定在特征图像数据D2的指定中使用的颜色。另外,能够设定要提取信息的区域的指定颜色。因此,使用者能够使用期望颜色的标记物从资料中提取信息。
控制部2将特征图像数据D2(第一上色区域71a)中的特定位置的像素作为第一基准像素。控制部2将第二上色区域72a中的特定位置的像素作为第二基准像素。控制部2使表示从第一基准像素到第二基准像素的距离和方向的数据作为位置数据D3存储。由此,能够使基于一定基准的位置数据D3被存储。能够使表示从特征图像数据D2到第二上色区域72a的距离和方向的准确的数据被存储。
多功能一体机100包括操作面板5,该操作面板5受理对作为提取信息D5存储的数据的类型的设定。控制部2使设定的类型的数据作为提取信息D5存储于存储部3。由此,能够使期望格式的提取信息D5存储于存储部3。
图像形成装置包括信息提取装置1。能够提供即使在资料束中混有多种资料时也可提取期望信息的图像形成装置。
以上对本发明的实施方式进行了说明,但本发明的范围不限于此,能够在不脱离发明主旨的范围内施加各种变更进行实施。

Claims (10)

1.一种信息提取装置,其包括:
存储部,其存储数据;
图像读取装置,其读取原稿,并生成所述原稿的图像数据;以及
控制部,其对所述图像读取装置通过读取参照原稿而获得的参照图像数据中的作为被上色的区域的上色区域进行识别,
并基于所述上色区域的颜色将所述上色区域分类成第一上色区域和第二上色区域,
使所述参照图像数据中的包含所述第一上色区域的特征图像数据存储于所述存储部,
使表示从所述特征图像数据到所述第二上色区域的距离和方向的位置数据存储于所述存储部,
并判定读取所述参照原稿后的所述图像读取装置通过读取比较原稿而获得的比较图像数据内是否包含与所述特征图像数据匹配的区域,
在判定为包含时,根据所述比较图像数据内的与所述特征图像数据匹配的区域的位置以及基于所述位置数据的距离和方向规定提取区域,并将包含于所述提取区域的信息作为提取信息提取,使所述提取信息存储于所述存储部,
在判定为未包含时,不规定所述提取区域且不提取所述提取信息。
2.根据权利要求1所述的信息提取装置,其特征在于,
所述信息提取装置包括消息输出部,当读取所述参照原稿后,每读取一次所述比较原稿,所述信息输出部输出表示所述提取信息是否已被提取的消息。
3.根据权利要求1或2所述的信息提取装置,其特征在于,
所述控制部使所述提取区域的图像数据和对所述提取区域的图像数据进行OCR处理而获得的文本数据的任意一方或者双方作为所述提取信息存储于所述存储部。
4.根据权利要求1或2所述的信息提取装置,其特征在于,
所述控制部将与所述第二上色区域相同大小或者比所述第二上色区域大的区域规定为所述提取区域。
5.根据权利要求1或2所述的信息提取装置,其特征在于,
所述控制部以框为基准规定所述特征图像数据的范围以及所述提取区域。
6.根据权利要求1或2所述的信息提取装置,其特征在于,
所述信息提取装置包括操作面板,该操作面板受理分类为所述第一上色区域的颜色和分类为所述第二上色区域的颜色的设定,
所述控制部基于在所述操作面板中设定的颜色来分类所述第一上色区域和所述第二上色区域。
7.根据权利要求1所述的信息提取装置,其特征在于,
所述控制部使表示从第一基准像素到第二基准像素的距离和方向的数据作为所述位置数据存储,
所述第一基准像素是所述特征图像数据中的特定位置的像素,
所述第二基准像素是所述第二上色区域中的所述特定位置的像素。
8.根据权利要求3所述的信息提取装置,其特征在于,
所述信息提取装置包括操作面板,该操作面板受理作为所述提取信息存储的数据的类型的设定,
所述控制部使设定的类型的数据作为所述提取信息存储于所述存储部。
9.一种图像形成装置,其特征在于,
所述图像形成装置包括权利要求1~8中任意一项所述的信息提取装置。
10.一种信息提取装置的控制方法,其包括如下步骤,
存储数据,
读取原稿并生成所述原稿的图像数据,
对通过读取参照原稿而获得的参照图像数据中的作为被上色的区域的上色区域进行识别,
基于所述上色区域的颜色将所述上色区域分类成第一上色区域和第二上色区域,
存储所述参照图像数据中的包含所述第一上色区域的特征图像数据,
存储表示从所述特征图像数据到所述第二上色区域的距离和方向的位置数据,
判定读取所述参照原稿后通过读取比较原稿而获得的比较图像数据内是否包含与所述特征图像数据匹配的区域,在判定为包含时,根据所述比较图像数据内的与所述特征图像数据匹配的区域的位置以及基于所述位置数据的距离和方向规定提取区域,
将包含于所述提取区域的信息作为提取信息提取,
并存储所述提取信息,
在判定为未包含时,不规定所述提取区域且不提取所述提取信息。
CN201710579911.8A 2016-07-28 2017-07-17 信息提取装置、具有信息提取装置的图像形成装置、信息提取装置的控制方法 Pending CN107665346A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-148095 2016-07-28
JP2016148095A JP2018018303A (ja) 2016-07-28 2016-07-28 情報抽出装置及びこれを備えた画像形成装置

Publications (1)

Publication Number Publication Date
CN107665346A true CN107665346A (zh) 2018-02-06

Family

ID=61010097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710579911.8A Pending CN107665346A (zh) 2016-07-28 2017-07-17 信息提取装置、具有信息提取装置的图像形成装置、信息提取装置的控制方法

Country Status (3)

Country Link
US (1) US10452903B2 (zh)
JP (1) JP2018018303A (zh)
CN (1) CN107665346A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264478A (zh) * 2019-06-21 2019-09-20 腾讯科技(深圳)有限公司 一种线稿图像上色的方法及装置
CN110390323A (zh) * 2018-04-18 2019-10-29 富士施乐株式会社 信息处理装置以及计算机可读介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019191725A (ja) * 2018-04-20 2019-10-31 京セラドキュメントソリューションズ株式会社 画像形成装置及び画像形成プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276677A (ja) * 2007-05-07 2008-11-13 Fuji Xerox Co Ltd 文字認識支援装置、文字認識装置及びプログラム
JP2010231541A (ja) * 2009-03-27 2010-10-14 Oki Electric Ind Co Ltd 情報処理装置、文字認識方法、およびプログラム
US8467614B2 (en) * 2007-11-28 2013-06-18 Lumex As Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置
JP2014170452A (ja) * 2013-03-05 2014-09-18 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN105095900A (zh) * 2014-05-04 2015-11-25 阿里巴巴集团控股有限公司 一种提取标准卡片中特定信息的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1063744A (ja) 1996-07-18 1998-03-06 Internatl Business Mach Corp <Ibm> 文書のレイアウト解析方法及びシステム
JP2004246597A (ja) * 2003-02-13 2004-09-02 Ricoh Co Ltd 画像処理装置、記録媒体およびプログラム
US20060122956A1 (en) * 2004-12-03 2006-06-08 Kabushiki Kaisha Toshiba Electronic document management apparatus and electronic document management program
JP5967441B2 (ja) * 2010-12-07 2016-08-10 株式会社プロスパークリエイティブ 色処理方法、色処理装置及び色処理システム
JP5202677B2 (ja) * 2011-04-08 2013-06-05 株式会社富士通マーケティング レシートデータ認識装置およびそのプログラム
US9165188B2 (en) * 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276677A (ja) * 2007-05-07 2008-11-13 Fuji Xerox Co Ltd 文字認識支援装置、文字認識装置及びプログラム
US8467614B2 (en) * 2007-11-28 2013-06-18 Lumex As Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
JP2010231541A (ja) * 2009-03-27 2010-10-14 Oki Electric Ind Co Ltd 情報処理装置、文字認識方法、およびプログラム
JP2014170452A (ja) * 2013-03-05 2014-09-18 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置
CN105095900A (zh) * 2014-05-04 2015-11-25 阿里巴巴集团控股有限公司 一种提取标准卡片中特定信息的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390323A (zh) * 2018-04-18 2019-10-29 富士施乐株式会社 信息处理装置以及计算机可读介质
CN110390323B (zh) * 2018-04-18 2023-09-05 富士胶片商业创新有限公司 信息处理装置以及计算机可读介质
CN110264478A (zh) * 2019-06-21 2019-09-20 腾讯科技(深圳)有限公司 一种线稿图像上色的方法及装置

Also Published As

Publication number Publication date
JP2018018303A (ja) 2018-02-01
US10452903B2 (en) 2019-10-22
US20180032809A1 (en) 2018-02-01

Similar Documents

Publication Publication Date Title
US9336437B2 (en) Segregation of handwritten information from typographic information on a document
US8794978B2 (en) Educational material processing apparatus, educational material processing method, educational material processing program and computer-readable recording medium
US8498024B2 (en) Image processing apparatus, method, and storage medium for information processing according to information on a scanned sheet
US9454696B2 (en) Dynamically generating table of contents for printable or scanned content
US9641705B2 (en) Image forming apparatus for reading indicia on a sheet and inserting images on a subsequent printed sheet at a location corresponding to the location of the read indicia
CN102572210A (zh) 颜色值获取方法和装置、图像处理方法和装置及记录介质
US20100232700A1 (en) Image processing apparatus, image processing method, and program
CN104754160B (zh) 图像处理装置
US10051156B2 (en) System and method for producing correlation and gloss mark images
JP2005174260A (ja) 文書処理装置及び文書処理方法
CN107665346A (zh) 信息提取装置、具有信息提取装置的图像形成装置、信息提取装置的控制方法
CN102331914A (zh) 表单处理系统、ocr装置、表单制作装置及其处理方法
US20150248777A1 (en) Image processing apparatus, image forming apparatus, and recording medium
EP1347632B1 (en) Apparatus and method for recording document described in markup language
US8463028B2 (en) Image processing apparatus, image processing method, and program
US20130056542A1 (en) Method and apparatus for producing a barcode on a substrate and data carrier
JP2007005950A (ja) 画像処理装置及びネットワークシステム
US7983485B2 (en) System and method for identifying symbols for processing images
US20110188745A1 (en) Image processing apparatus and processing method of the image processing apparatus
US8320027B2 (en) Image processing apparatus, data processing method executed by image processing apparatus, and computer-readable storage medium storing program for causing computer to execute data processing method
US8437038B2 (en) Image forming apparatus and method of controlling the same
CN107147820A (zh) 信息处理装置
US8213043B2 (en) Printing apparatus, printing apparatus control method, printing apparatus control program, and printing system
JP7059734B2 (ja) 文書読取装置及びプログラム
US20020031270A1 (en) Image processing apparatus, image processing method, and computer readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180206