CN102591596A - 信息处理装置以及信息处理方法 - Google Patents
信息处理装置以及信息处理方法 Download PDFInfo
- Publication number
- CN102591596A CN102591596A CN2011103092834A CN201110309283A CN102591596A CN 102591596 A CN102591596 A CN 102591596A CN 2011103092834 A CN2011103092834 A CN 2011103092834A CN 201110309283 A CN201110309283 A CN 201110309283A CN 102591596 A CN102591596 A CN 102591596A
- Authority
- CN
- China
- Prior art keywords
- list
- definition
- data
- information
- formal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Abstract
提供一种能够生成表单的识别信息的信息处理装置、信息处理方法及程序,该表单的识别信息能够应付周围环境的变化。本发明的信息处理装置具有:存储部(11),其用于存储包括表单的格式定义的表单定义数据;输入部(14),其用于读入表单的图像数据;控制部(12),其用于对由输入部(14)读入的图像数据和与该图像数据相对应的表单定义数据进行比较,并将该比较的结果应用于表单定义数据,由此生成根据表单的结构要素来能够识别该表单的识别用信息。
Description
技术领域
本发明涉及一种用于生成表单的定义及表单的识别用信息的信息处理装置以及信息处理方法的技术。
背景技术
近年,从业务改善及节俭成本的观点出发,各种业务都趋向无纸化办公,但还存在很多使用纸张(表单)的情形,例如交易文件等。在现有技术中,为了改善这样的使用纸张(表单)的业务的效率,一直使用着OCR(Optical Character Recognition:光学字符识别)软件。例如,用户通过OCR软件来对纸张(表单)进行识别。然后,用户利用该识别结果来自动地对纸张(表单)进行分类,如按照相同种类的纸张(表单)来进行分组等,从而改善了业务效率。
然而,在纸张(表单)的布局、格式不恰当的情况下,无法恰当地进行OCR处理,从而无法对纸张(表单)进行分类。因此,有必要生成适于OCR处理的纸张(表单)的布局、格式。在下面提及的专利文献1及专利文献2中,公开了用于解决上述问题的技术。
在专利文献1中公开了如下技术:通过设定所使用的OCR机型、行字段数目、文字数目,生成利用所使用的OCR来进行识别的固定的表单。另外,在专利文献2中公开了如下技术:一边对如连续表单那样重复着同一格式的部分进行计算,一边生成OCR定义域。
现有技术文献
专利文献
专利文献1:JP特开平8-30659号公报,
专利文献2:JP特许第3392530号公报。
然而,在上述专利文献1及专利文献2所公开的技术中,并未考虑周围环境的变化,例如,由于使用了不同机型的打印机,所以打印位置发生错位,或者,利用扫描仪读取表单的数据时,表单发生了错位等。因此,在上述专利文献1及专利文献2所公开的技术中,各用户未能恰当地生成识别用信息,该识别用信息是通过表单的结构要素来识别该表单的信息。
发明内容
本发明考虑到这样的问题而提出的,其目的在于提供一种能够生成表单的识别用信息的信息处理装置、信息处理方法及程序,上述的表单的识别用信息能够应付周围环境的变化。
本发明为了解决上述课题而采用如下结构。
即,本发明的信息处理装置具有:存储部,其用于存储包括表单的格式定义的表单定义数据;输入部,其用于读入表单的图像数据;控制部,其用于对由输入部读入的图像数据和与该图像数据相对应的表单定义数据进行比较,并将该比较的结果应用于表单定义数据,由此生成根据表单的结构要素来能够识别该表单的识别用信息。
若采用上述结构,则对包括表单的格式定义的表单定义数据和由输入部读入的图像数据进行比较。然后,通过将该比较的结果应用于表单定义数据,来生成用于识别表单的识别用信息。因此,能够生成即使所读入的图像数据因周围环境而变化也可适应于该变化的表单的识别用信息。由此,若采用上述结构,则能够生成可应付周围环境的变化的表单的识别用信息。
另外,若采用上述结构,则根据表单定义数据来生成表单的识别用信息。因此,各用户无需重复进行表单用和识别用的定义生成处理。
另外,上述存储部可以存储多个表单定义数据。而且,上述控制部对图像数据的结构要素进行识别,并通过对照从存储部中确定出包括与识别出的图像数据的结构要素相适配的格式定义的表单定义数据,由此取得与图像数据相对应的表单定义数据。
若采用上述结构,则通过对照从存储部中确定出包括与识别出的图像数据的结构要素相适配的格式定义的表单定义数据,由此取得与图像数据相对应的表单定义数据。由此,若采用上述结构,则即使用户未指定在生成根据表单的结构要素就能够识别该表单的识别用信息时所使用的表单定义数据用户,也能够生成该识别用信息。
另外,上述表单定义数据所包含的表单的格式定义可以包括多个格式定义。另外,上述控制部可以针对每一格式定义,分别生成根据特定表单的结构要素能够识别该特定表单的识别用信息,所述特定表单是按照包含在表单的格式定义中的多个格式定义来生成的表单。
若采用上述结构,则能够生成可以使用多个格式定义来识别表单的识别用信息。
另外,上述输入部还可以读入多个测试数据。另外,上述控制部可以利用按照所述多个格式定义来生成的识别用信息,对所述多个测试数据进行识别,并基于能否识别的结果来求出各格式定义的测试数据的识别率,由此生成特定识别用信息,该特定识别用信息是指,基于所求出的识别率来对各格式定义设定了在识别表单时所使用的优先度的识别用信息。
若采用上述结构,则根据由输入部读入的多个测试数据,来设定在识别表单时所使用的格式定义的优先度。另外,对各格式定义设定即使所读入的数据因周围环境而变化也可适应于该变化的优先度。由此,若采用上述结构,则能够生成保持着用于对表单进行识别的格式定义的顺序的表单的识别用信息,该表单的识别用信息能够应付周围环境的变化。
另外,上述多个格式定义可以包括格式定义中的至少一种,这些格式定义是指:设定了与表单的外观相关的格式的格式定义;设定了用于识别表单所具有的光学标识的标识属性值的格式定义;设定了与在特定区域所执行的文字识别相关的属性值的格式定义。
此外,具体地讲,光学标识识别用的标识是指标识贴纸或条形码,能够存储规定的信息且按照预先决定的规则记入或印刷在纸张等上的标识。而且,用于识别光学标识的标识属性值是指,在表单上附上该标识的位置信息、该标识的大小以及该标识所存储的规定的信息等。
另外,与在特定区域所执行的文字识别相关的属性值是指,执行该文字识别的特定区域在表单上的位置信息、区域信息以及记载在该特定区域的文字信息等。
若采用上述结构,则能够设定包括设定了与表单的外观相关的格式的格式定义、设定了用于识别表单所具有的光学标识的标识属性值的格式定义以及设定了与在特定区域所执行的文字识别相关的属性值的格式定义中的至少一种格式定义的表单的识别用信息。
另外,包含在上述表单定义数据中的表单的格式定义可以包括以下格式定义中的至少一种,这些格式定义是指:设定了与表单的外观相关的格式的格式定义;设定了用于识别表单所具有的光学标识的标识属性值的格式定义;设定了与在特定区域所执行的文字识别相关的属性值的格式定义。另外,上述控制部可以生成根据特定表单的结构要素来能够识别的该特定表单的识别用信息,该特定表单是按照包含在表单的格式定义中的格式定义来生成的表单。
若采用上述结构,则能够生成包括基于以下格式定义中的至少一种格式定义的分类定义的表单分类定义数据,这些格式定义是指:设定了与表单的外观相关的格式的格式定义;设定了用于识别表单所具有的光学标识的标识属性值的格式定义;设定了与在特定区域所执行的文字识别相关的属性值的格式定义。
此外,作为本发明的其他方面,可以采用用于实现以上各结构的信息处理方法,也可以采用程序,也可以采用记录有这样的程序的计算机可读取的记录介质。另外,作为本发明的其他方面,也可以采用由用于实现以上的各结构的多个装置以能够通信的方式构成的系统。
若采用本发明,则能够提供一种能够生成表单的识别用信息的信息处理装置,信息处理方法及程序,上述的表单的识别用信息是指能够应付周围环境的变化的识别用信息。
附图说明
图1是举例示出了与实施方式的信息处理装置相连接的装置的图。
图2是举例示出了实施方式的信息处理装置的结构的图。
图3是举例示出了表单的图。
图4是举例示出了实施方式的表单定义数据库的记录(record)的图。
图5是举例示出了实施方式的表单分类定义数据库的记录的图。
图6是示出了生成实施方式的表单定义数据时的处理步骤的一例的流程图。
图7是示出了生成实施方式的表单分类定义数据时的处理步骤的一例的流程图。
附图标记的说明
1 信息处理装置
2 扫描仪
3 打印机
11 存储部
12 控制部
13 总线
14 输入部
15 输出部
21 表单定义数据库
22 表单分类定义数据库
30 表单定义生成部
31 表单定义设计部
32 表单定义生成部
33 表单分类定义生成部
34 表单分类处理部
具体实施方式
下面,将本发明一个方面的信息处理装置、信息处理方法及程序作为实施方式(下面,称之为“本实施方式”)进行说明。但是,下面所提及的实施方式只是例示,本发明并不限定于下面的实施方式的内容。
此外,在下面所提及的实施方式中,例如,在图4及图5中通过自然语言(中文等)来例示了数据库的记录例的字段名等,但更具体地讲,是利用计算机可识别的拟语言、命令、参数、机器语言等来指定的。
§1各装置的连接例
首先,对与本实施方式的信息处理装置相连接的装置的例子进行说明。图1举例示出了与本实施方式的信息处理装置相连接的装置。如图1所示,本实施方式的信息处理装置1与扫描仪2及打印机3相连接。扫描仪2及打印机3在可被信息处理装置1控制的状态下与信息处理装置1相连接。
在本实施方式中,信息处理装置1生成表单定义数据和表单分类定义数据,该表单定义数据包括表单的格式定义,该表单分类定义数据包括根据表单的结构要素来能够对该表单进行分类的分类定义。此外,对表单进行分类是指,例如,按照相同种类的表单来进行分组等。信息处理装置1基于表单分类定义数据来对表单进行识别。然后,信息处理装置1基于该识别的结果,对表单进行分类。表单分类定义数据,是根据本发明的表单的结构要素能够对该表单进行识别的识别用信息的一例。
此外,理所当然地,各装置(信息处理装置1、扫描仪2、打印机3)的动作并不仅限定于本实施方式中的处理。
§2信息处理装置1的结构例
接下来,对本实施方式的信息处理装置1的结构例进行说明。图2示出了本实施方式的信息处理装置1的结构例。
如图2所示,作为硬件结构,信息处理装置1具有存储部11、控制部12、输入部14、输出部15等现有的硬件,这些硬件通过总线13相连接。存储部11例如为硬盘,用于存储利用于控制部12所执行的处理中的各种数据及程序。控制部12是如CPU(Central Processing Unit:中央处理单元)等1个或多个处理器,具有利用于该处理器的处理中的外围电路(ROM(ReadOnly Memory:只读存储器)、RAM(Random Access Memory:随机存取存储器)、接口电路等)。输入部14是用于接收由扫描仪2读入的图像数据及测试数据的接口。另外,输出部15是用于向打印机3输出识别测试用表单数据的接口。进而,本实施方式的信息处理装置1与未图示的用户界面(显示屏、键盘、鼠标等输入输出装置)相连接。
此外,信息处理装置1可以由PC等通用计算机构成,也可以由如网络连接存储器(Network Attached storage)那样的专用计算机构成。
另外,作为本实施方式的另外实施方式,在信息处理装置1经由网络与扫描仪2及打印机3相连接的情况下,输入部14及输出部15例如构成为收发IP(Intemet Protocol:互联网协议)数据包等的通信部。
在本实施方式中,信息处理装置1由控制部12处理存储部11中存储的数据,由此生成表单定义数据和用于设定分类定义的表单分类定义数据,该表单定义数据包括表单的格式定义,该分类定义是根据表单的结构要素能够对该表单进行分类的分类定义。另外,在本实施方式中,信息处理装置1由控制部12对存储在存储部11中的数据进行处理,由此执行对表单的分类。
首先,在对用于实现以上的处理的存储部11及控制部12进行具体说明之前,对表单进行简单的说明。
图3示出了表单的例子。如图3所示,表单100包括栏部101、条形码102、OCR指定区域103。栏部101例如用于通过手写、盖印或压印等来记载业务上的信息。另外,条形码102例如用于存储表单的种类信息,或存储表单的个体识别编号。此外,条形码102例如也可以用于存储多种信息,如保持表单的种类信息及个体识别编号等。进而,OCR指定区域103是进行指定区域OCR的区域。指定区域OCR是指,只对特定区域进行OCR处理来提取文字信息。在该区域,例如记载有表单的种类信息或业务上的特定信息。如上所述,表单的结构要素例如包括栏部、条形码、OCR指定区域。
在本实施方式中,信息处理装置1生成这样的包括表单的格式定义的表单定义数据。另外,信息处理装置1生成表单分类定义数据,该表单分类定义数据用于设定对这样的表单进行分类(识别)的分类定义。进而,信息处理装置1对这样的表单执行分类。此外,信息处理装置1对表单的结构要素进行布局等外观上的图案匹配、OCR或OMR(Optical Mark Recognition:光学标记识别)等处理,由此执行表单的分类(识别)。下面,对信息处理装置1的存储部11及控制部12进行具体的说明。
§2-1存储部11
如图2所示,存储部11包括表单定义数据库21及表单分类定义数据库22。例如以存储于硬盘中的数据的形式实现表单定义数据库21及表单分类定义数据库22。
<表单定义数据库21>
表单定义数据库21用于存储表单定义数据。表单定义数据是包括表单的格式定义的数据,例如以表单的种类为单位准备该表单定义数据。而且,就表单定义数据而言,例如,通过打印机等来打印基于该表单定义数据的表单,并使用于业务中。
图4示出了本实施方式的表单定义数据库21的记录例(表单定义数据)。如图4所示,本实施方式的表单定义数据包括OCR格式定义字段、条形码格式定义字段、指定区域OCR格式定义字段。
OCR格式定义字段用于存储表单的结构要素(栏部等)的式样以及配置等信息。例如,如图4所示,OCR格式定义字段用于存储表单所采用的颜色信息、匹配信息、读取后的处理信息等。
颜色信息是指,表单所采用的颜色的信息。例如,如图4所示,可以指定为彩色或黑白。
匹配信息是指,表单的结构要素的配置等信息,包括线条信息、所采用的文字、标识等信息。此外,线条信息是指,表单所采用的线条的信息,例如该线条在表单上的位置信息等。线条在表单上的位置信息,是例如通过该线条所满足的条件式、坐标等公知的方法来规定的。坐标例如为将表单的左上角设定为(0,0)的全体坐标。
读取后的处理信息是指,在通过扫描仪等对表单进行电子数据化处理时所进行的处理的信息。此外,图4所示的“倾斜度校正开启(ON)”是指,执行通过公知的方法来对读取画像的倾斜度进行校正的功能。
如上所述,存储在OCR格式定义字段中的信息是与表单的布局等外观相关的信息,OCR格式定义是用于设定与本发明的表单的外观相关的格式的格式定义的一例。此外,在本实施方式中,当对表单进行分类时,存储于OCR格式定义字段中的匹配信息使用在图案匹配的处理中。此外,例如,信息处理装置1对分类对象的表单的结构要素的布局等外观进行识别,并根据该外观的图案是否与匹配信息相适配(匹配)来求出适配率。然后,信息处理装置1将分类对象的表单作为具有所求出的适配率超出规定的值的匹配信息的表单来进行分类。
条形码格式定义字段用于存储表单所采用的条形码的信息。例如,如图4所示,在条形码格式定义字段中存储有表示条形码的种类的信息、表示打印条形码的打印位置的坐标的信息、表示条形码的数据形式等的条形码信息等。此外,条形码格式定义是设定了标识的属性值的格式定义的一例,该标识的属性值用于识别本发明的表单所具有光学标识。本实施方式的信息处理装置1对分类对象的表单的结构要素(条形码)进行OMR处理,由此对表单执行分类。
表示条形码的种类的信息是指表单所采用的条形码的种类。表单所采用的条形码的种类是任意的,例如为图4所示的QR码、NW-7、CODE39等。
表示打印条形码的打印位置的坐标的信息是指,在表单上打印条形码的位置坐标。该位置坐标可以采用任意形式。例如,条形码的位置坐标是该条形码的中心在将表单的左上角设定为(0,0)的全体坐标上的位置坐标。另外,例如,条形码的位置坐标是该条形码的打印区域的左上角在将表单的左上角设定为(0,0)的全体坐标上的坐标。此外,表示打印条形码的打印位置的坐标的信息可以包括与条形码的打印区域的范围相关的信息。在本实施方式的对表单的分类处理中,该信息用于确定条形码的取得位置。
条形码信息是指,存储于条形码中的数据形式及数据信息。例如,条形码信息包括“key-value(键值对)型”、“分隔符”或“分隔位”等存储于条形码中的数据形式的信息,还包括条形码所保持的数据的信息。此外,这里所谓的“key-value型”、“分隔符”或“分隔位”是表示存储于条形码中的数据的读取方法的信息。例如通过如下形式来指定表示读取位置的信息:某一分隔符之后为读取对象的数据。
这里,条形码所保持的数据包括用于对表单进行分类的信息。该用于对表单进行分类的信息例如为用于识别表单的种类的种类信息,在本实施方式中,使用于对表单的分类处理中。此外,除此之外,在条形码中也可以存储表单的个体识别编号。另外,在条形码中也可以存储多种信息,例如,存储表单的种类信息和个体识别编号等。
指定区域OCR格式定义字段用于存储与对表单进行的指定区域OCR相关的信息。例如,如图4所示,在指定区域OCR格式定义字段中存储有表示进行指定区域OCR的该指定区域的坐标的信息、通过指定区域OCR来应读取的读取信息等。此外,指定区域OCR格式定义,是用于设定本发明的与对特定区域所执行的文字识别相关的属性值的格式定义的一例。本实施方式的信息处理装置1对分类对象的表单的结构要素进行OCR处理,由此对表单执行分类。
表示指定区域的坐标的信息是指,在表单上进行指定区域OCR的位置坐标。例如,指定区域的位置坐标是该指定区域的中心在将表单的左上角设定为(0,0)的全体坐标上的位置坐标。另外,例如,指定区域的位置坐标是该指定区域的左上角在将表单的左上角设定为(0,0)的全体坐标上的坐标。此外,表示指定区域的坐标的信息也可以包括与指定区域的范围相关的信息。在本实施方式对表单的分类处理中,该信息用于确定进行指定区域OCR的位置。
读取信息包括存储于指定区域中的数据形式及数据的信息。例如,读取信息包括“分隔符”、“分隔位”或“文字种类”等存储于指定区域中的数据形式的信息,还包括存储于指定区域中的数据的信息。这一点与上述“条形码信息”相同。
另外,与条形码信息同样地,读取信息包括用于对表单进行分类的信息。该用于对表单进行分类的信息例如为用于识别表单的种类的种类信息,在本实施方式中,使用于对表单的分类处理中。此外,除此之外,读取信息也可以包括表单的个体识别编号。另外,读取信息也可以包括多种信息,例如包括表单的种类信息和个体识别编号等。
此外,作为本实施方式的另外的实施方式,表单定义数据并非一定要具有OCR格式定义、条形码格式定义以及指摘区域OCR格式定义的全部。例如,表单定义数据可以具有OCR格式定义、条形码格式定义以及指摘区域OCR格式定义中的至少1个格式定义或多个格式定义。
另外,表单定义数据并不仅限定于OCR格式定义、条形码格式定义以及指摘区域OCR格式定义。只要是与表单的格式相关的数据,表单定义数据也可以是除了OCR格式定义、条形码格式定义以及指摘区域OCR格式定义以外的数据。
<表单分类定义数据库22>
表单分类定义数据库22用于存储表单分类定义数据。表单分类定义数据是根据其结构要素来对表单的分类建立规则的数据,例如,以业务部门为单位准备该表单分类定义数据。而且,例如,在该业务部门,表单分类定义数据使用于对通过扫描仪等进行了电子数据化处理的表单的分类(例如,按照相同种类的表单进行分组)中。
图5示出了本实施方式的表单分类定义数据库22的记录例(表单分类定义数据)。如图5所示,本实施方式的表单分类定义数据包括OCR格式定义字段、条形码格式定义字段、指定区域OCR格式定义字段。而且,本实施方式的表单分类定义数据以表单的分类对象(例如,表单的种类)为单位存储OCR格式定义、条形码格式定义以及指摘区域OCR格式定义。这里,OCR格式定义、条形码格式定义以及指摘区域OCR格式定义与上述的表单定义数据相同,所以省略其说明。
此外,作为本实施方式的另外的实施方式,表单分类定义数据并非一定要存储OCR格式定义、条形码格式定义以及指摘区域OCR格式定义的全部。例如,表单分类定义数据也可以包括OCR格式定义、条形码格式定义以及指摘区域OCR格式定义中的至少1个格式定义或多个格式定义。
另外,表单分类定义数据并不仅限定于OCR格式定义、条形码格式定义以及指摘区域OCR格式定义。只要是使用于对表单的分类中的数据,表单分类定义数据也可以是除了OCR格式定义、条形码格式定义以及指摘区域OCR格式定义以外的数据。
§2-2控制部12
如图2所示,控制部12包括表单定义生成部30、表单分类定义生成部33以及表单分类处理部34。存储于存储部11中的程序等在作为控制部12的外围电路的RAM等中展开,并被控制部12的处理器执行,由实现表单定义生成部30、表单分类定义生成部33以及表单分类处理部34。
如上所述,控制部12利用存储于存储部11中的信息,来进行表单定义数据的生成处理、表单分类定义数据的生成处理、表单的分类处理。下面,对控制器的各结构进行说明。
<表单定义生成部30>
表单定义生成部30用于生成表单定义数据。如图2所示,表单定义生成部30包括表单定义设计部31以及表单定义生成部32。存储于存储部11中的程序等在作为控制部12的外围电路的RAM等中展开,并被控制部12的处理器执行,实现表单定义设计部31以及表单定义生成部32。
在本实施方式中,表单定义设计部31根据用户经由用户界面输入的输入信息,取得用于生成表单的数据。表单定义设计部31为了取得用于生成表单的数据,例如向用户提供经由用户界面来输入该信息的任意的界面。作为任意的界面,表单定义设计部31例如向用户提供公知的描画工具、对选择信息进行提示等的界面。用户经由鼠标、键盘等用户界面来对该描画工具进行操作,以完成对选择信息的确定操作,由此对如图3所示的表单的栏部进行设计、输入条形码信息或确定用于进行指定区域OCR的区域。另外,用户经由该界面,输入条形码、用于对进行指定区域OCR的区域中所存储的表单进行识别的信息。该输入用于将信息存储于上述的表单定义数据的各格式定义字段的项目中。表单定义设计部31为了生成表单定义数据而将这些输入信息输出至表单定义生成部32。
表单定义生成部32基于从表单定义设计部31接收到的用于生成表单的数据来生成表单定义数据。具体地讲,表单定义生成部32准备处于数据为空的状态的表单定义数据(图4所示的记录),并将从表单定义设计部31接收到的用户的输入信息以规定的形式存储在各项目中,由此生成表单定义数据。此时,若从表单定义设计部31接收到的用于生成表单的数据与表单定义数据的数据形式不同,则表单定义生成部32执行规定的数据形式的变换。然后,将执行过数据形式的变换的用于生成表单的数据存储在表单定义数据的各项目中。
如果通过上述处理,将从表单定义设计部31接收到的用于生成表单的所有数据存储在表单定义数据的各项目中,那么,表单定义生成部32结束表单定义数据的生成处理。然后,表单定义生成部32将结束了生成处理的表单定义数据存储在表单定义数据库21中。
此外,此时,无需向表单定义数据的所有字段存储信息。例如,可以只向OCR格式定义字段中存储信息。但是,在本实施方式中,若因用户的输入信息不足而无法生成表单数据,则表单定义设计部31或表单定义生成部32例如在用户界面(显示屏等)上显示输入信息不足,并进行停止处理等出错处理。此外,“因用户的输入信息不足而无法生成表单数据”的情形是指,例如表单的信息完全未指定的情形等。
<表单分类定义生成部33>
表单分类定义生成部33用于生成表单分类定义数据。表单分类定义生成部33基于表单定义数据和向输入部14输入的图像数据,生成表单分类定义数据。此外,上述的“生成表单分类定义数据”,也包括对已生成的表单分类定义数据进行更新。
在本实施方式中,表单分类定义生成部33从表单定义数据库21取得表单定义数据。此外,在取得该表单定义数据时,表单分类定义生成部33进行用于确认所取得的数据是否为表单定义数据的确认处理(数据形式的确认)。表单分类定义生成部33例如通过与预先准备的确认列表进行对照等来进行该确认处理。
另外,在本实施方式中,表单分类定义生成部33为了生成表单分类定义数据而接受图像数据的输入。例如,表单分类定义生成部33从输入部14取得图像数据。图像数据例如为通过扫描仪2对表单进行电子数据化处理所得到的数据,该表单是通过打印机3打印出基于表单定义数据来生成的表单数据所得到的。此外,图像数据例如也可以为通过扫描仪2对表单进行电子数据化处理所得到的数据,该表单是用户按照表单定义数据通过手写、盖印或粘贴贴纸等来生成的。本实施方式的通过扫描仪2进行电子数据化处理的表单可以是任意的表单。然后,将通过扫描仪2进行了电子数据化处理的表单作为图像数据向输入部14输入,由此表单分类定义生成部33从输入部14取得图像数据。此外,表单分类定义生成部33可以取得多个图像数据,也可以取得1个图像数据。另外,可以以任一方式输入图像数据,例如,经由网络向信息处理装置1输入等。
表单分类定义生成部33若从输入部14取得图像数据,则在所取得的表单定义数据中确定出与所取得的图像数据(表单)相对应的表单定义数据。本处理以任意方式进行。表单分类定义生成部33也可以例如基于用户经由用户界面所输入的信息(表单定义数据的选择信息)来确定表单定义数据。
另外,表单分类定义生成部33也可以任意地选择在所取得的表单定义数据中包含的各格式定义,并与所取得的图像数据进行对照,由此确定出与所取得的图像数据相对应的表单定义数据。
例如,在该对照中使用OCR格式定义的情况下,表单分类定义生成部33使用存储于表单定义数据中的OCR格式定义来进行图像数据的对照。具体地讲,表单分类定义生成部33使用存储于表单定义数据的OCR格式定义字段中的匹配信息,对图像数据进行图案匹配,由此进行上述对照。然后,表单分类定义生成部33将具有超出规定的适配率的匹配信息的表单定义数据确定为与该图像数据相对应的表单定义数据。此外,规定的适配率,是为了应付打印机3、扫描仪2等周围环境所引起的误差、用户的手写、盖印等所引起的误差等,而任意设定的。
另外,例如,在上述对照中使用条形码格式定义的情况下,表单分类定义生成部33使用存储于表单定义数据中的条形码格式定义来进行图像数据的对照。具体地讲,基于在表单定义数据的条形码格式定义字段中所存储的条形码的打印位置的坐标信息,确定出条形码的取得位置。表单分类定义生成部33为了应付上述的打印机3、扫描仪2等周围环境所引起的误差、用户的手写、盖印等所引起的误差等,针对以条形码的打印位置为基准的任意的规定区域取得条形码。针对通过该处理来取得了条形码的表单定义数据,表单分类定义生成部33基于条形码的信息来确定出与图像数据相对应的表单定义数据。表单分类定义生成部33基于在条形码格式定义字段中所存储的表示条形码的种类的信息,对所取得的条形码的种类进行识别,由此进行译码。然后,表单分类定义生成部33根据译码后的该条形码的数据、存储于条形码格式定义字段中的条形码信息中所包含的用于对表单进行分类的信息,确定出与图像数据相对应的表单定义数据。此外,在上述处理中,例如,若未能取得条形码或者未能对条形码进行译码,则存储该信息的表单定义数据就不是与图像数据相对应的表单定义数据。因此,表单分类定义生成部33将这些表单定义数据视为不是与图像数据相对应的表单定义数据。但是,例如会存在因超出了设定有上述误差的任意的规定区域而对所有的表单定义数据都无法取得条形码的情形。在这样的情况下,表单分类定义生成部33可以在所有图像数据中搜索条形码来取得条形码。另外,在通过该处理检查出多个条形码的情况下,表单分类定义生成部33可以通过任意的方法来确定出在上述对照中所使用的条形码。例如,表单分类定义生成部33可以基于用户经由用户界面来输入的信息(条形码的选择信息),来确定出在上述对照中所使用的条形码。
另外,例如,在上述对照中使用指定区域OCR格式定义的情况下,表单分类定义生成部33使用存储于表单定义数据中的指定区域OCR格式定义来进行图像数据的对照。具体地讲,基于在表单定义数据的指定区域OCR格式定义字段中所存储的指定区域的坐标信息,确定出指定区域OCR的实施位置及区域。表单分类定义生成部33为了应付上述的打印机3、扫描仪2等周围环境所引起的误差、用户的手写、盖印等所引起的误差等,针对以该指定区域的坐标信息为基准的任意的规定区域实施该指定区域OCR。针对通过该处理取得了信息的表单定义数据,表单分类定义生成部33基于读取信息来确定出与图像数据相对应的表单定义数据。表单分类定义生成部33根据上述所取得的信息、存储在指定区域OCR格式定义字段中的读取信息所包含的用于对表单进行分类的信息,确定出与图像数据相对应的表单定义数据。此外,在上述处理中,例如,若通过指定区域OCR未能取得信息,则存储该信息的表单定义数据就不是与图像数据相对应的表单定义数据。因此,表单分类定义生成部33将这些表单定义数据视为不是与图像数据相对应的表单定义数据。
此外,在与所取得的图像数据相对应的表单定义数据存在多个的情况下,表单分类定义生成部33通过任意的方法来确定出与所取得的图像数据相对应的表单定义数据。表单分类定义生成部33例如使用多个格式定义来进行上述对照,将相适配的格式定义多的表单定义数据确定为与所取得的图像数据相对应的表单定义数据。另外,表单分类定义生成部33例如可以将上述多个表单定义数据显示在用户界面上,宁接受来自用户的输入信息。在这样的情况下,表单分类定义生成部33将与该来自用户的输入信息(表单定义数据的选择)相对应的表单定义数据确定为与所取得的图像数据相对应的表单定义数据。由此,表单分类定义生成部33确定出作为生成分类定义的对象的表单。在本实施方式中,表单分类定义生成部33取得如图5所示的表单名称(“表单A”、“表单B”等)。
通过上述的处理,表单分类定义生成部33使用从输入部14取得的图像数据、与该图像数据相对应的表单定义数据来生成表单分类定义数据。此外,在本实施方式中,表单分类定义生成部33此时保持着已确定表单名称的标签的分类定义数据(相当于图5所示的表单分类定义数据的行数据)。但在此时,在分类定义数据的各格式定义字段中任何数据都没有存储。另外,在本实施方式中,此时,表单分类定义生成部33保持着任何信息都未存储的表单分类定义数据。
在表单的分类中使用OCR格式定义的情况下,表单分类定义生成部33从表单定义数据的OCR格式定义字段中取得要存储于分类定义数据的OCR格式定义字段中的信息。然后,表单分类定义生成部33根据从表单定义数据的OCR格式定义字段中取得的信息所包含的匹配信息,进行图像数据的图案匹配。由此,表单分类定义生成部33求出利用匹配信息来指定的线条信息等和图像数据之间的误差,并生成对该误差进行修正(校正)的匹配信息。然后,表单分类定义生成部33将所生成的匹配信息和存储在表单定义数据的OCR格式定义字段中的除了匹配信息以外的信息,存储在分类定义数据的OCR格式定义字段中。
此外,在针对同一个表单取得了多个图像数据的情况下,表单分类定义生成部33例如可以通过公知的数学方法来求出这些多个图像数据之间的误差(例如,误差的平均值)。然后,表单分类定义生成部33可以根据求出的误差来对匹配信息的坐标信息等进行修正(校正)。
另外,基于存储在OCR格式定义字段中的读取后的处理信息,可以对该修正(校正)进行变更。例如,在读取后的处理信息示出了对上述读取画像进行倾斜度校正的情况下,表单分类定义生成部33可以利用比求出的误差还小的误差来对匹配信息的坐标信息等进行修正(校正)。
另外,表单分类定义生成部33通过任意的方式判断是否将OCR格式定义使用于表单的分类中。该判断,可以通过对于存储在存储部11中的程序等的参数设定来进行,也可以根据在与图像数据相对应的表单定义数据中是否存储有OCR格式定义来进行。另外,也可以基于用户经由用户界面所输入的输入信息来进行该判断。这一点,与如下所述的在表单的分类中是否使用条形码格式定义的判断以及在表单的分类中是否使用指定区域OCR格式定义的判断相同。
接下来,在表单的分类中使用条形码格式定义的情况下,表单分类定义生成部33从表单定义数据的条形码格式定义字段中取得要存储于分类定义数据的条形码格式定义字段中的信息。然后,表单分类定义生成部33基于表示打印有从表单定义数据的条形码格式定义字段中取得的信息所包含的条形码的打印位置的坐标的信息(条形码的位置坐标),从图像数据检测条形码。此外,与上述的表单定义数据的确定处理同样地,在该检测中加以考虑打印机3、扫描仪2等周围环境所引起的误差、用户的手写、盖印等所引起的误差等。
在检测到条形码的情况下,表单分类定义生成部33取得条形码在图像数据上的位置坐标,并计算该位置坐标和从表单定义数据的条形码格式定义字段取得的条形码的位置坐标之间的误差(差异)。
另一方面,在没有检测到条形码的情况下,表单分类定义生成部33可以从所有图像数据中搜索条形码来取得条形码。另外,在通过该处理检测到多个条形码的情况下,表单分类定义生成部33可以通过任意的方法来确定出使用于分类中的条形码。例如,表单分类定义生成部33可以基于用户经由用户界面来输入的信息(条形码的选择信息)来确定出分类中所使用的条形码。表单分类定义生成部33取得通过该处理检测到的条形码的位置坐标,并计算该位置坐标和从表单定义数据的条形码格式定义字段取得的条形码的位置坐标之间的误差。
此外,由于上述误差的修正(校正)与上述匹配信息的坐标信息等的修正(校正)相同,所以省略其说明。表单分类定义生成部33将修正(校正)后的该条形码的位置坐标的信息和表单定义数据的条形码格式定义字段的除了打印位置的坐标信息以外的信息,存储在分类定义数据的条形码格式定义字段中。
另外,在从所有图像数据检测不到条形码的情况下,表单分类定义生成部33可以判定为在该表单的分类中不使用条形码格式定义,也可以将存储在表单定义数据的条形码格式定义字段中的信息直接存储于分类定义数据的条形码格式定义字段中。也就是说,表单分类定义生成部33可以在不进行上述修正(校正)的情况下,将存储在表单定义数据的条形码格式定义字段中的信息存储于分类定义数据的条形码格式定义字段中。
接下来,在表单的分类中使用指定区域OCR格式定义的情况下,表单分类定义生成部33从表单定义数据的指定区域OCR格式定义字段中取得要存储于分类定义数据的指定区域OCR格式定义字段中的信息。然后,表单分类定义生成部33基于从表单定义数据的指定区域OCR格式定义字段中取得的信息所包含的表示执行指定区域OCR的指定区域的坐标的信息(指定区域的位置坐标),对图像数据执行指定区域OCR。此外,与上述的表单定义数据的确定处理同样地,在该指定区域OCR的执行中加以考虑打印机3、扫描仪2等周围环境所引起的误差、用户的手写、盖印等所引起的误差等。
在从指定区域取得了信息的情况下,表单分类定义生成部33取得该信息的取得位置在图像数据上的位置坐标,并计算该位置坐标和从表单定义数据的指定区域OCR格式定义字段中取得的指定区域的位置坐标之间的误差。
由于该误差的修正(校正)与上述匹配信息的坐标信息等的修正(校正)相同,所以省略其说明。表单分类定义生成部33将修正(校正)过的该指定区域的位置坐标的信息和表单定义数据的指定区域OCR格式定义字段的除了指定区域的位置坐标信息以外的信息,存储在分类定义数据的指定区域OCR格式定义字段中。
另一方面,在从指定区域未能取得信息的情况下,表单分类定义生成部33可以判定为在该表单的分类中不使用指定区域OCR格式定义,也可以将存储在表单定义数据的指定区域OCR格式定义字段中的信息直接存储于分类定义数据的指定区域OCR格式定义字段中。
通过以上的处理,表单分类定义生成部33生成了在OCR格式定义字段、条形码格式定义字段、指定区域OCR格式定义字段的各字段中存储有信息的(也包括各字段中未能存储信息的情况)分类定义数据。然后,表单分类定义生成部33将所生成的分类定义数据作为表单分类定义数据的行数据进行存储。
在本实施方式中,表单分类定义生成部33反复进行以上处理,来生成用户所设定的或以图像数据输入的表单的分类定义数据,并将所生成的分类定义数据作为行数据追加至表单分类定义数据中。然后,在应生成分类定义数据的生成对象的表单已不存在时,表单分类定义生成部33判定为分类定义数据的生成处理结束,结束上述分类定义数据的追加处理。即,表单分类定义生成部33结束生成表单分类定义数据。此外,应生成分类定义数据的生成对象的表单已不存在时是指,在本实施方式中,生成了用户所设定的或以图像数据输入的表单的所有分类定义数据,并追加了表单分类定义数据的行数据的时间点。表单分类定义生成部33为了还生成分类定义数据,可以再次接受图像数据的输入。
在本实施方式中,信息处理装置1进行该表单分类定义数据的生成处理,并执行用于测出识别率(相当于本发明的识别率)的识别测试,该识别率是使用各格式定义时的表单的分类的识别率。由于通过后述的表单分类处理部34来执行表单的分类,所以以后再叙述该识别测试。
在执行识别测试的情况下,后述的表单分类处理部34使用由表单分类定义生成部33生成结束的表单分类定义数据来执行表单的分类处理,其结果,测定根据各格式定义的表单的分类率(识别率)。然后,表单分类定义生成部33从表单分类处理部34接收针对各格式定义的表单的识别率,并基于该识别率,针对各格式定义分别设定在表单的分类中使用的优先度。例如,表单分类定义生成部33对识别率高的格式定义赋予高的优先度。该优先度的赋予,可以对每一分类定义数据分别进行,也可以不对分类定义数据加以区分而对所有表单分类定义数据进行。然后,表单分类定义生成部33将赋予了优先度的表单分类定义数据存储于表单分类定义数据库22中。
另一方面,在不执行识别测试的情况下,表单分类定义生成部33将生成结束的表单分类定义数据存储于表单分类定义数据库22中。
此外,可以与表单分类定义数据的生成处理相独立地实施该识别测试。另外,关于是否执行该识别测试,根据用户经由用户界面所输入的输入信息(或,用户所输入的设定)或存储在存储部11中的程序等参数等来任意地设定。表单分类定义生成部33根据这些设定来判断是否执行识别测试。
此外,例如,关于在表单分类定义数据中追加新的表单的分类定义数据(相当于图5所示的表单分类定义数据的行数据)的情形,表单分类定义生成部33也通过与上述处理同样的处理来执行。在这样的情况下,表单分类定义生成部33通过上述处理来取得分类对象的表单、在该表单的分类中所使用的各格式定义信息。然后,表单分类定义生成部33将通过这些处理取得的各信息追加至存储在表单分类定义数据库22中的表单分类定义数据中。
<表单分类处理部34>
表单分类处理部34在任意的时间点都对通过扫描仪2等进行了电子数据化处理并从输入部14取得的表单数据进行表单的分类处理。表单分类处理部34使用存储在表单分类定义数据库22中的表单分类定义数据来进行表单的分类处理。此外,可以以任意方式输入成为表单的分类处理的对象的表单数据,例如,可以经由网络输入至信息处理装置1。
表单分类处理部34基于存储在表单分类定义数据的各格式定义字段中的信息来进行表单的分类处理。
例如,在基于存储在OCR格式定义字段中的信息来进行表单的分类处理的情况下,表单分类处理部34使用OCR格式定义字段中的匹配信息来进行表单数据的图案匹配。然后,表单分类处理部34确定出图案匹配的适配率超出规定的值的分类定义数据,并将分类处理的对象的表单数据与给所确定的分类定义数据赋予的表单名称的表单进行识别。进而,表单分类处理部34使用该识别结果,例如将分类处理的对象的表单数据分组至该表单名称的组。
另外,例如,在基于存储在条形码格式定义字段中的信息来进行表单的分类处理的情况下,表单分类处理部34从以存储在条形码格式定义字段中的条形码的打印位置为基准的任意的规定区域取得条形码。此外,这里所谓的规定区域,是与上述的内容同样地加以考虑周围环境等所引起的误差的区域。
然后,使用存储在条形码格式定义字段中的表示条形码的种类的信息以及条形码信息来所取得的条形码进行译码等,由此确定出相适配的分类定义数据。如上所述,用于确定相适配的分类定义数据的数据即用于对表单进行分类的数据,包含在条形码信息中。表单分类处理部34对所取得的条形码进行译码,并将译码过的信息(数据)与条形码信息所包含的用于对表单进行分类的数据进行对照,由此确定出与表单数据相适配的分类定义数据。然后,表单分类处理部34将分类处理的对象的表单数据与给所确定的分类定义数据赋予的表单名称的表单进行识别。进而,表单分类处理部34使用该识别结果,例如将分类处理的对象的表单数据分组至该表单名称的组。此外,在未能取得条形码的情况下或未能对条形码进行译码的情况下,表单分类处理部34判定为根据该分类定义数据无法对表单数据进行分类。也就是说,表单分类处理部34判定为该分类定义数据不与表单数据相适配。
另外,例如,在基于存储在指定区域OCR格式定义字段中的信息来进行表单的分类处理的情况下,表单分类处理部34对以存储在指定区域OCR格式定义字段中的指定区域的坐标信息为基准的任意的规定区域执行指定区域OCR。此外,这里所谓的规定区域,是上述的内容同样地加以考虑周围环境等引起的误差的区域。
然后,使用存储在指定区域OCR格式定义字段中的读取信息,在通过指定区域OCR取得的信息中确定出相适配的分类定义数据。如上所述,用于确定相适配的分类定义数据的数据即用于对表单进行分类的数据,包含在读取信息中。表单分类处理部34将通过指定区域OCR来取得的信息(数据)与读取信息所包含的用于对表单进行分类的数据进行对照,由此确定出与表单数据相适配的分类定义数据。然后,表单分类处理部34将分类处理的对象的表单数据与给所确定的分类定义数据赋予的表单名称的表单进行识别。进而,表单分类处理部34使用该识别结果,例如将分类处理的对象的表单数据分组至该表单名称的组。此外,在通过指定区域OCR未能取得信息的情况下,表单分类处理部34判定为根据该分类定义数据无法对表单数据进行分类。也就是说,表单分类处理部34判定为该分类定义数据不与表单数据相适配。
此外,进行该分类处理的格式定义的顺序可以是任意的。但是,在赋予了上述优先度的情况下,表单分类处理部34以优先度从高到低的顺序使用格式定义来进行分类处理。
在本实施方式中,表单分类处理部34通过上述的分类处理来执行识别测试。在本实施方式中,识别测试是为了在上述表单分类定义生成部33生成表单分类定义数据时给各格式定义赋予在表单的分类中使用的优先度而进行的。
在本实施方式中,如上所述,按照任意的设定来实施识别测试。若实施识别测试,则表单分类处理部34例如从输入部14取得多个用于进行识别测试的分类对象的表单数据(测试数据)。这里,为了与上述的图像数据、表单数据相区分,将在该识别测试中成为分类对象的表单数据称为测试数据。测试数据例如为通过扫描仪2对表单进行电子数据化处理所得到的数据,该表单是通过打印机3打印出基于表单定义数据来生成的表单数据所得到的。另外,测试数据例如为通过扫描仪2对表单进行电子数据化处理所得到的数据,该表单是用户按照表单定义数据通过手写、盖印或粘贴贴纸等来生成的。另外,测试数据也可以是以任意方式输入的,例如,经由网络向信息处理装置1输入等。
此外,作为测试数据所输入的数据数目,例如可以根据用户经由用户界面所输入的输入信息(或用户所输入的设定)或存储于存储部11中的程序等参数等来任意设定。表单分类处理部34接收测试数据,直到达到这样设定的数据数目为止。
然后,若测试数据达到所设定的数据数目,则表单分类处理部34对接收到的测试数据执行上述表单的分类处理。然后,表单分类处理部34对每一格式定义都分别测定表单的分类率(识别率)。在本实施方式中,表单分类处理部34通过任意的数学方法来测定(计算)表单的识别率,该任意的数学方法例如为,将在使用各格式定义时确定出相适配的分类定义数据的次数除以测试数据的数据数目。此外,可以对每一分类定义数据分别测定该识别率,也可以在对分类定义数据不加以区分的情况下对所有表单分类定义数据测定该识别率。
在对各格式定义结束了上述识别率的测定,则表单分类处理部34将测定出的识别率输出至表单分类定义生成部33。
§3动作例
接下来,利用图6及图7,对本实施方式的表单定义数据的生成及表单分类定义数据的生成的处理步骤进行说明。图6示出了生成本实施方式的表单定义数据时的处理步骤的一例。另外,图7示出了生成本实施方式的表单分类定义数据时的处理步骤的一例。此外,由于各步骤的具体处理在“§2信息处理装置1的结构例”中已有记载,所以省略其记载。
<表单定义数据的生成>
首先,利用图6来对表单定义数据的生成处理进行说明。例如,控制部12基于用户经由用户界面的操作信息,来执行存储于存储部11中的程序,由此开始表单定义数据的生成处理。
若表单定义数据的生成处理开始,则表单定义设计部31通过用户界面向用户提供输入用于生成表单的数据的界面。然后,表单定义设计部31根据用户经由用户界面所输入的输入信息,取得用于生成表单的数据(S201)。另外,表单定义设计部31将所取得的用于设计表单的数据输出至表单定义生成部32。
表单定义生成部32准备处于数据为空的状态的表单定义数据,并将从表单定义设计部31接收到的用于生成表单的数据存储在各项目中,由此生成表单定义数据。
接下来,如图6所示,表单定义生成部32判断在从表单定义设计部31接收到的用于生成表单的数据中是否包含有要存储于OCR格式定义字段中的数据(S202)。然后,在从表单定义设计部31接收到的用于生成表单的数据中包含有要存储于OCR格式定义字段中的数据的情况下,表单定义生成部32向所准备的表单定义数据的OCR格式定义字段的各项目中存储该数据(S203)。
接下来,表单定义生成部32判断在从表单定义设计部31接收到的用于生成表单的数据中是否包含有要存储于条形码格式定义字段中的数据(S204)。然后,在从表单定义设计部31接收到的用于生成表单的数据中包含有要存储于条形码格式定义字段中的数据的情况下,表单定义生成部32向所准备的表单定义数据的条形码格式定义字段的各项目中存储该数据(S205)。
接下来,表单定义生成部32判断在从表单定义设计部31接收到的用于生成表单的数据中是否包含有要存储于指定区域OCR格式定义字段中的数据(S206)。然后,在从表单定义设计部31接收到的用于生成表单的数据中包含有要存储于指定区域OCR格式定义字段中的数据的情况下,表单定义生成部32向所准备的表单定义数据的OCR格式定义字段的各项目中存储该数据(S207)。
若通过以上处理来结束向所准备的表单定义数据中的数据存储,则表单定义生成部32结束表单定义数据的生成处理。然后,表单定义生成部32将生成结束的表单定义数据存储在表单定义数据库21中(S208),并结束与表单定义数据的生成处理相关的处理。
<表单分类定义数据的生成>
接下来,利用图7来对表单分类定义数据的生成处理进行说明。例如,与表单定义数据的生成处理同样地,控制部12基于用户经由用户界面的操作信息来执行存储于存储部11中的程序,由此开始表单分类定义数据的生成处理。
若表单分类定义数据的生成处理开始,则表单分类定义生成部33从表单定义数据库21取得表单定义数据(S301)。然后,表单分类定义生成部33对所取得的表单定义数据的数据形式进行确认(S302)。
接着,表单分类定义生成部33接受图像数据的输入(S303)。例如,通过扫描仪2进行了电子数据化处理所得到的表单以图像数据输入至输入部14,由此表单分类定义生成部33从输入部14取得图像数据。
表单分类定义生成部33若取得了图像数据,则确定出与图像数据相对应的表单定义数据(S304)。其详细内容如上所述。
若确定出表单定义数据,则表单分类定义生成部33准备空的表单分类定义数据和作为行数据追加至空的表单分类定义数据中的空的分类定义数据。
接着,表单分类定义生成部33判断OCR格式定义是否使用于生成分类定义数据的对象的表单的分类中(S305)。然后,在判定为OCR格式定义使用于表单的分类中的情况下,表单分类定义生成部33,将与图像数据相对应的表单定义数据和根据图像数据来生成或取得的信息,存储在分类定义数据的OCR格式定义字段的各项目中(S306)。另一方面,在判定为OCR格式定义不使用于表单的分类中的情况下,表单分类定义生成部33省略S306的处理。
接着,表单分类定义生成部33判断条形码格式定义是否使用于生成分类定义数据的对象的表单的分类中(S307)。然后,在判定为条形码格式定义使用于表单的分类中的情况下,表单分类定义生成部33将与图像数据相对应的表单定义数据和根据图像数据生成或取得的信息,存储在分类定义数据的条形码格式定义字段的各项目中(S308)。另一方面,在判定为条形码格式定义不使用于表单的分类中的情况下,表单分类定义生成部33省略S308的处理。
接着,表单分类定义生成部33判断指定区域OCR格式定义是否使用于生成分类定义数据的对象的表单的分类中(S309)。然后,在判定为指定区域OCR格式定义使用于表单的分类中的情况下,表单分类定义生成部33将与图像数据相对应的表单定义数据和根据图像数据生成或取得的信息,存储在分类定义数据的指定区域OCR格式定义字段的各项目中(S310)。另一方面,在判定为指定区域OCR格式定义不使用于表单的分类中的情况下,表单分类定义生成部33省略S310的处理。
通过以上的S303~S310的处理,表单分类定义生成部33结束分类定义数据的生成处理。然后,表单分类定义生成部33将生成结束的分类定义数据作为表单分类定义数据的行数据进行追加。若将分类定义数据追加至表单分类定义数据中,则表单分类定义生成部33判断是否结束分类定义数据的生成处理(S311)。早判定为不结束分类定义数据的生成处理的情况下,表单分类定义生成部33例如再次从S303起重复进行处理。
另一方面,在判定为结束分类定义数据的生成处理的情况下,表单分类定义生成部33结束表单分类定义数据的生成处理。然后,表单分类定义生成部33判断对生成结束的表单分类定义数据是否实施识别测试(S312)。
在判定为对生成结束的表单分类定义数据不实施识别测试的情况下,表单分类定义生成部33将生成结束的表单分类定义数据存储在表单分类定义数据库22中(S314),并结束与表单分类定义数据的生成处理相关的处理。
另一方面,在判定为对生成结束的表单分类定义数据实施识别测试的情况下,表单分类处理部34使用由表单分类定义生成部33生成结束的表单分类定义数据,来实施表单的分类处理的识别测试(S313)。然后,表单分类处理部34根据识别测试的结果历来测定各格式定义的表单的分类处理中的识别率。若测定结束,则表单分类处理部34将测定出的识别率输出至表单分类定义生成部33。表单分类定义生成部33若接收到由表单分类处理部34测定出的识别率,则针对各格式定义分别决定在表单的分类中使用的优先度。然后,表单分类定义生成部33对各格式定义分别设定所决定的优先度。若优先度的设定结束,则表单分类定义生成部33将优先度的设定结束的表单分类定义数据存储在表单分类定义数据库22中(S314),并结束与表单分类定义数据的生成处理相关的处理。
§4实施方式的作用及效果
从以上内容可知,在本实施方式的信息处理装置中,通过基于用户的输入信息来生成的表单定义数据和通过扫描仪等来读入的图像数据之间的相互影响,来生成用于对表单进行分类的表单分类定义数据。因此,即使所读入的图像数据因周围环境而变化,也能够生成可适应于该变化的表单分类定义数据。由此,若采用本实施方式的信息处理装置,则能够生成对各用户来说是恰当的分类定义。
另外,在本实施方式的信息处理装置中,对所生成的表单分类定义数据实施表单的分类处理的识别测试。然后,基于识别测试的结果,对存储在表单分类定义数据中的使用于表单的分类中的各格式定义,测定表单的识别率。进而,基于测定出的表单的识别率,对使用于表单的分类中的各格式定义决定在表单的分类中使用的优先度。因此,在本实施方式的信息处理装置中,对各格式定义,能够设定即使所读入的数据因周围环境而变化也可适应于该变化的优先度。由此,在本实施方式的信息处理装置中,能够生成恰当的表单分类定义数据,该表单分类定义数据能够给各用户提供可适应于周围环境的变化等且在表单的分类中使用的格式定义的顺序。
另外,在本实施方式中,当生成数据时需要用户输入的情形仅仅是生成表单定义数据的情形。在本实施方式的信息处理装置中,只要生成表单定义数据,则基于所生成的表单定义数据来生成表单分类定义数据。由此,若采用本实施方式的信息处理装置,则各用户无需重复进行表单用及分类定义用的定义生成处理。
§5变形例
可以通过分别独立的装置来进行表单定义数据的生成处理、表单分类定义数据的生成处理以及表单的分类处理。在这样的情况下,例如,通过分别独立的装置上的控制部,来实现用于进行表单定义数据的生成处理的表单定义生成部30、用于进行表单分类定义数据的生成处理的表单分类定义生成部33以及用于进行表单的分类处理的表单分类部34。另外,例如,上述分别独立的装置经由网络共享表单定义数据库21以及表单分类定义数据库22。而且,例如,在各处理中经由网络来收发数据,由此实现本实施方式的信息处理装置1的各处理。
§6补充事项
通过以上内容,对本发明的实施方式进行了详细的说明,但以上所述的说明在所有方面应视为本发明的例示,而不可视为对其范围的限定。理所当然地,在不脱离本发明的范围的情况下,能够进行各种各样的改良及变形。应仅通过权利要求书的内容来解释本发明的范围应。另外,本领域技术人员根据上述本实施方式的记载内容,能够基于权利要求书的记载内容以及技术常识来实施与其等价的范围。另外,若没有特别提及,则本说明书中使用的术语的含义为该领域中通常使用的含义。因此,只要没有另外进行定义,则本说明书中使用的所有的专业术语及技术术语的含义为本发明所属领域的技术人员通常理解的含义。若两者之间存在矛盾,则本说明书中使用的术语应理解为本说明书(包括定义)中所记载的含义。
Claims (7)
1.一种信息处理装置,其特征在于,
具有:
存储部,其用于存储包括表单的格式定义的表单定义数据;
输入部,其用于读入表单的图像数据;
控制部,其用于对由所述输入部读入的图像数据和与该图像数据相对应的表单定义数据进行比较,并将该比较的结果应用于表单定义数据,由此生成根据表单的结构要素来能够识别该表单的识别用信息。
2.根据权利要求1记载的信息处理装置,其特征在于,
所述存储部存储多个表单定义数据;
所述控制部,对所述图像数据的结构要素进行识别,并通过对照在所述存储部中确定出特定表单定义数据,由此取得与所述图像数据相对应的表单定义数据,所述特定表单定义数据是包括与识别出的所述图像数据的结构要素相适配的格式定义的表单定义数据。
3.根据权利要求1或2记载的信息处理装置,其特征在于,
包含在所述表单定义数据中的表单的格式定义包括多个格式定义;
所述控制部针对每一个格式定义,分别生成根据特定表单的结构要素来能够识别该特定表单的识别用信息,所述特定表单是按照包含在表单的格式定义中的多个格式定义来生成的表单。
4.根据权利要求3记载的信息处理装置,其特征在于,
所述输入部还读入多个测试数据;
所述控制部,利用按照所述多个格式定义来生成的识别用信息,对所述多个测试数据进行识别,并基于能否识别的识别结果来求出各格式定义的测试数据的识别率,由此生成特定识别用信息,所述特定识别用信息是指,基于所求出的识别率来对各格式定义设定了在识别表单时所用的优先级的识别用信息。
5.根据权利要求4记载的信息处理装置,其特征在于,
所述多个格式定义包括以下格式定义中的至少一种,这些格式定义是指:设定了与表单的外观相关的格式的格式定义,设定了用于识别表单所具有的光学标识的标识属性值的格式定义,设定了与在特定区域所执行的文字识别相关的属性值的格式定义。
6.根据权利要求1或2记载的信息处理装置,其特征在于,
包含在所述表单定义数据中的表单的格式定义包括以下格式定义中的至少一种,这些格式定义是指:设定了与表单的外观相关的格式的格式定义,设定了用于识别表单所具有的光学标识的标识属性值的格式定义,设定了与在特定区域所执行的文字识别相关的属性值的格式定义;
所述控制部生成根据特定表单的结构要素来能够识别特定表单的识别用信息,所述特定表单是按照包含在表单的格式定义中的格式定义来生成的表单。
7.一种信息处理方法,其特征在于,
使计算机执行以下的步骤:
读入表单的图像数据的步骤;
生成识别用信息的步骤,在该生成识别用信息的步骤中,对读入的图像数据和与该图像数据相对应的表单定义数据进行比较,并将该比较的结果应用于表单定义数据,由此生成根据表单的结构要素来能够识别表单的识别用信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-229714 | 2010-10-12 | ||
JP2010229714A JP2012083951A (ja) | 2010-10-12 | 2010-10-12 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102591596A true CN102591596A (zh) | 2012-07-18 |
Family
ID=45924907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103092834A Pending CN102591596A (zh) | 2010-10-12 | 2011-10-10 | 信息处理装置以及信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120086963A1 (zh) |
JP (1) | JP2012083951A (zh) |
CN (1) | CN102591596A (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10431336B1 (en) | 2010-10-01 | 2019-10-01 | Cerner Innovation, Inc. | Computerized systems and methods for facilitating clinical decision making |
US11398310B1 (en) | 2010-10-01 | 2022-07-26 | Cerner Innovation, Inc. | Clinical decision support for sepsis |
US10734115B1 (en) | 2012-08-09 | 2020-08-04 | Cerner Innovation, Inc | Clinical decision support for sepsis |
US11348667B2 (en) | 2010-10-08 | 2022-05-31 | Cerner Innovation, Inc. | Multi-site clinical decision support |
US10628553B1 (en) | 2010-12-30 | 2020-04-21 | Cerner Innovation, Inc. | Health information transformation system |
US8856156B1 (en) | 2011-10-07 | 2014-10-07 | Cerner Innovation, Inc. | Ontology mapper |
US10249385B1 (en) | 2012-05-01 | 2019-04-02 | Cerner Innovation, Inc. | System and method for record linkage |
US9454588B2 (en) * | 2012-08-14 | 2016-09-27 | International Business Machines Corporation | Custom object-in-memory format in data grid network appliance |
US11894117B1 (en) | 2013-02-07 | 2024-02-06 | Cerner Innovation, Inc. | Discovering context-specific complexity and utilization sequences |
US10946311B1 (en) | 2013-02-07 | 2021-03-16 | Cerner Innovation, Inc. | Discovering context-specific serial health trajectories |
US10769241B1 (en) | 2013-02-07 | 2020-09-08 | Cerner Innovation, Inc. | Discovering context-specific complexity and utilization sequences |
US10483003B1 (en) | 2013-08-12 | 2019-11-19 | Cerner Innovation, Inc. | Dynamically determining risk of clinical condition |
US10446273B1 (en) | 2013-08-12 | 2019-10-15 | Cerner Innovation, Inc. | Decision support with clinical nomenclatures |
US20150193583A1 (en) * | 2014-01-06 | 2015-07-09 | Cerner Innovation, Inc. | Decision Support From Disparate Clinical Sources |
JP6406867B2 (ja) * | 2014-04-30 | 2018-10-17 | キヤノン株式会社 | 管理装置、コンピュータプログラム、管理方法 |
CN108121982B (zh) * | 2016-11-30 | 2020-02-07 | 杭州海康机器人技术有限公司 | 面单图像的获取方法及装置 |
US11730420B2 (en) | 2019-12-17 | 2023-08-22 | Cerner Innovation, Inc. | Maternal-fetal sepsis indicator |
US11557136B1 (en) * | 2022-02-23 | 2023-01-17 | Scandit Ag | Identity document verification based on barcode structure |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434933A (en) * | 1993-10-09 | 1995-07-18 | International Business Machines Corporation | Image processing |
US20020003901A1 (en) * | 2000-04-21 | 2002-01-10 | Akihiro Kawaoka | Sheet-recognizing machine |
CN1525378A (zh) * | 2003-02-24 | 2004-09-01 | 株式会社日立制作所 | 票据定义数据生成方法以及票据处理装置 |
-
2010
- 2010-10-12 JP JP2010229714A patent/JP2012083951A/ja active Pending
-
2011
- 2011-09-01 US US13/223,732 patent/US20120086963A1/en not_active Abandoned
- 2011-10-10 CN CN2011103092834A patent/CN102591596A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434933A (en) * | 1993-10-09 | 1995-07-18 | International Business Machines Corporation | Image processing |
US20020003901A1 (en) * | 2000-04-21 | 2002-01-10 | Akihiro Kawaoka | Sheet-recognizing machine |
CN1525378A (zh) * | 2003-02-24 | 2004-09-01 | 株式会社日立制作所 | 票据定义数据生成方法以及票据处理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2012083951A (ja) | 2012-04-26 |
US20120086963A1 (en) | 2012-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102591596A (zh) | 信息处理装置以及信息处理方法 | |
US9483220B2 (en) | Image processing system, management system, image processing apparatus and method of proofreading document | |
JP2008204226A (ja) | 帳票認識装置およびそのプログラム | |
US10878232B2 (en) | Automated processing of receipts and invoices | |
JP2016048444A (ja) | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 | |
JP2008021068A (ja) | 帳票認識装置及び帳票認識プログラム | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
JP2021043775A (ja) | 情報処理装置及びプログラム | |
CN106557775A (zh) | 图像处理装置和图像处理方法 | |
CN111462388A (zh) | 一种票据检验方法、装置、终端设备及存储介质 | |
US7694216B2 (en) | Automatic assignment of field labels | |
US20210397798A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
KR102282025B1 (ko) | 컴퓨터를 이용한 문서 분류 및 문자 추출 방법 | |
CN112613367A (zh) | 票据信息文本框获取方法、系统、设备及存储介质 | |
JP2022069813A (ja) | 文字読取装置及び検査装置 | |
CN112287936A (zh) | 光学字符识别测试方法、装置、可读存储介质及终端设备 | |
CN110942075A (zh) | 信息处理装置、存储介质及信息处理方法 | |
JP6980927B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2005251050A (ja) | ページ誤り検査装置 | |
WO2022029874A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP3648050B2 (ja) | 帳票画像分類方法、帳票画像登録方法および帳票画像分類装置 | |
JP2022075467A (ja) | データ処理装置、データ処理方法及びプログラム | |
CN112287828A (zh) | 一种基于机器学习的财务报表生成方法及装置 | |
CN105989042A (zh) | 信息录入方法及其装置 | |
JP6810302B1 (ja) | データ処理装置、データ処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120718 |