CN109753964A - 计算机以及文件识别方法 - Google Patents
计算机以及文件识别方法 Download PDFInfo
- Publication number
- CN109753964A CN109753964A CN201810962608.0A CN201810962608A CN109753964A CN 109753964 A CN109753964 A CN 109753964A CN 201810962608 A CN201810962608 A CN 201810962608A CN 109753964 A CN109753964 A CN 109753964A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- classification
- attribute
- file
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/96—Management of image or video recognition tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及计算机以及文件识别方法,用于抑制业务上损失的产生且从文件中高精度地提取审查需要的字符串。提取任意审查对象的文件中包括的字符串即属性的计算机存储用于定义了属性类别的多个模板的模板信息,针对文件的图像数据执行字符识别处理,使用字符识别处理的结果以及多个模板来提取与属性的类别对应的属性,根据提取出的属性来选择模板,生成包括使用选择的模板提取出的属性且用于审查的输出信息,根据表示输出信息的可靠性的评价值与阈值的比较结果来决定在进行审查之前对输出信息进行的确认操作的类别,根据文件中包括的字符串来修正所决定的确认操作的类别。
Description
技术领域
本发明涉及识别文件的计算机以及方法。
背景技术
随着数字化的发展使用电子申请的机会增加。在电子申请中,不是将对象的文件全部数字化,而是大多使用通过扫描纸质的文件或纸而生成的图像。
在本说明书中,将电子化后的文件记载为电子基础文件,也将通过扫描纸质的文件以及纸所生成的图像记载为纸基础文件。另外,在不区别电子基础文件以及纸基础文件的情况下,也简单记载为文件。
例如在企业的出纳业务中,执行以下手续:(1)申请人从请求者接受账单;(2)申请人通过电子申请向财务部门提交记载了对请求者支付的账单金额的账单;(3)财务部门所属的人员在确认账单中记载的属性,并判断为电子申请适当的情况下,从企业向请求者支付账单金额。
这里,属性指审查对象,并且是表示文件特征的字符串。例如,在出纳业务的情况下,请求者的姓名以及名称、账单内容、账单金额、账单日、支付期限日期以及账单金额的转账目的地银行账号等相当于属性。
在处理纸基础文件的电子申请的情况下,需要人员确认纸基础文件,因此会有业务的效率低且业务所需要的成本大的问题。
针对上述问题,已知一种使用光学字符识别(OCR:Optical CharacterRecognition)的技术从纸基础文件读出属性的方法。例如,已知专利文献1记载的技术。
专利文献1中记载了“一种电子提示顾客的账单的方法,从顾客接受电子的账单以及纸件的账单,从纸件的账单生成电子图像信息,通过扫描从电子图像信息提取第一OCR数据,从第一OCR数据检索所扫描的纸币的种类的至少一个数值识别符,根据数值识别符的比较结果来确定被扫描的纸件账单的类型,使用与确定的类型对应的模板从电子图像信息提取第二OCR数据,从第二OCR数据提取账单信息,将账单信息与所知道的信息进行比较,提示将电子账单与账单信息组合后的顾客请求提示”。
通过使用专利文献1中记载的技术,能够削减在电子申请业务中由人进行的处理的时间,因此能够改善业务的效率,还能够削减业务所需要的成本。
在专利文献1记载的技术中,需要预先设定数值识别符和账单的类别。然而,虽然使用包括类似的属性的文件,但存在审查内容不同的电子申请时,用户有可能无法将数值识别符和账单的类别适当地关联。另外,也考虑不包括数值识别符的可能性。另外,需要按照每个账单的类别来生成模板。也可能通过账单格式的变更等来变更与数值识别符以及账单的类别对应的模板。
因此,在现有技术中,由于不能够选择最优的模板而使属性的提取精度变低,业务效率的改善以及业务所需要的成本削减效果低。
通过使用了装置的自动识别,能够削减业务效率的改善以及业务所需要的成本。另一方面,可能由于基于错误的自动识别等的审查而产生业务上的损失。因此,在使用了装置的自动识别中,需要抑制上述那样的业务上的损失的机制。
专利文献1:美国专利第8630949号说明书
发明内容
本发明提供一种抑制业务上损失的产生且以高精度提取审查所使用的属性的装置以及文件识别方法。
如果示出本申请中公开的发明的代表一例则为以下那样。即,一种提取任意审查对象的文件中包括的字符串即属性的计算机,上述计算机具备处理器以及与上述处理器连接的存储装置,上述存储装置存储用于管理定义了至少一个属性类别的多个模板的模板信息,上述模板信息包括多个由上述模板的识别信息以及表示上述属性的类别的识别信息构成的目录(Entry),上述处理器针对上述文件的图像数据执行字符识别处理,使用上述字符识别处理的结果以及上述多个模板来提取在上述多个模板中分别定义的上述属性的类别所对应的属性,根据提取出的上述属性来选择模板,生成包括使用选择的上述模板提取出的属性且用于上述审查的输出信息,计算表示上述输出信息的可靠性的评价值,根据上述评价值与阈值的比较结果来决定在进行上述审查之前对上述输出信息进行的确认操作的类别,根据上述文件中包括的字符串来判定是否需要修正所决定的上述确认操作类别,在判定为需要修正所决定的上述确认操作的类别的时,修正所决定的上述确认操作的类别。
根据本发明,能够抑制业务损失的产生并且能够高精度地从文件提取出审查所使用的属性。通过以下实施例的说明来明确上述以外的问题、结构以及效果。
附图说明
图1表示实施例1的系统结构例。
图2说明实施例1的计算机硬件结构以及软件结构。
图3表示实施例1的模板信息的数据结构的一例。
图4表示实施例1的单词词典的数据结构的一例。
图5表示实施例1的标识(notation)词典的数据结构的一例。
图6表示实施例1的风险确定规则管理信息的数据结构的一例。
图7表示实施例1的修正规则管理信息的数据结构的一例。
图8是说明实施例1的计算机所执行的文件审查处理的概要的流程图。
图9表示实施例1的文件审查模块所执行的文件摘要信息生成处理的概要。
图10表示实施例1的文件审查模块所生成的OCR要素的数据结构的一例。
图11是说明实施例1的文件审查模块所执行的文件摘要信息生成处理的流程图。
图12是说明实施例1的风险回避判定模块所执行的风险回避判定处理的流程图。
图13是说明实施例1的学习处理模块所执行的学习用数据积累处理的一例的流程图。
图14是说明实施例1的规则生成模块所执行的推荐金额提示处理的一例的流程图。
图15表示实施例1的计算机所显示的设定画面的一例。
图16是说明实施例1的规则生成模块所执行的推荐风险单词提示处理的一例的流程图。
图17表示实施例1的计算机所显示的设定画面的一例。
图18表示实施例1的计算机所显示的模板输入画面的一例。
附图标记的说明
100:计算机、110:输入终端、120:客户终端、130:扫描仪、150:网络、201:处理器、202:主存储装置、203:副存储装置、204:网络接口、205:输入装置、206:输出装置、211:文件审查模块、212:学习处理模块、213:风险回避判定模块、214:规则生成模块、215:模板设定模块、221:模板信息、222:单词词典、223:标识词典、224:风险确定规则管理信息、225:修正规则管理信息、901:文件图像数据、902:OCR要素、903:代表OCR要素、904:特征向量、905:文件摘要信息。
具体实施方式
以下,参照附图来说明本发明的实施例。
另外,在说明实施例的附图中,在具有相同功能的场所标注相同的附图标记,省略其重复的说明。另外,以下所说明的实施例不限定专利请求书涉及的发明。另外,实施例中说明的各个要素及其所有的组合不是本发明的解决手段所必需的。
另外,在以下的说明中,作为信息的一例有使用“xxx表”这样的表现的情况,但是信息的数据结构可以是任何结构。即,为了表示信息不依赖于数据结构,能够将“xxx表”称为“xxx信息”。另外,在以下的说明中,各个表的结构是一例,一个表可以被分割为2个以上的表,2个以上的表的全部或一部分也可以是一个表。
[实施例1]
图1表示实施例1的系统结构例。
系统由计算机100、输入终端110、客户终端120以及扫描仪130构成。计算机100、输入终端110以及客户终端120经由网络150相互连接。另外,扫描仪130直接或经由网络与计算机100连接。
另外,本发明不限于网络150的种类。关于网络150可以考虑LAN(Local AreaNetwork:局域网)以及WAN(Wide Area Network:广域网)等。本发明也不限定于网络150的连接方式,可以是无线以及有线的任意一个。另外,扫描仪130可以直接或者经由网络与计算机100连接。
另外,本发明的系统中包括的计算机100、输入终端110、客户终端120以及扫描仪130的数量能够设定为任意的数量。
计算机100执行电子申请相关的处理。后面详细描述计算机100所执行的处理。
客户终端120是进行电子申请的用户(申请人)所操作的终端。用户操作客户终端120,输入电子申请所需的信息,提交与电子申请关联的纸件文件。关于所提交的纸件文件,考虑例如是表示电子申请为正当的证明书等。
用户在提交纸件文件时,也可以向进行电子申请的公司或行政设施直接提交文件。在扫描仪130与客户终端120连接时,也可以使用扫描仪130从纸件文件生成文件图像数据901(参照图9),并提交文件图像数据901。另外,本发明不限于所处理的电子申请的种类以及文件。关于文件,例如考虑账单、交付书、收据、税收证明书以及缴税通知书等各种文件、驾驶执照以及国民身份证等各种证书。
在电子申请时被输入的文件中包括多个电子申请审查所使用的字符串即属性。例如当文件是账单的情况下,作为属性包括账单金额、请求者名、请求目的地名、发行日以及指定转账目的地的银行名、分行名、账户类别以及账号等字符串,还包括请求者按压的印记。
在本实施例中,将属性的类别(属性的名称)以及作为属性提取出的字符串对应来管理属性。另外,在本实施例中,字符串不仅是一般的字符,也是包括箭头、四角以及圆等记号的概念。
输入终端110是管理计算机100的审查员或审查电子申请的审查员进行操作的终端。扫描仪130从纸件文件生成文件图像数据901。扫描仪130考虑平板扫描仪以及附带自动送纸器的扫描仪等。
另外,可以代替扫描仪130而具备使用CCD(Charge Coupled Device:电荷耦合器件)等元件拍摄图像的数字摄像机。
图2说明实施例1的计算机100的硬件结构以及软件结构。
计算机100具有处理器201、主存储装置202、副存储装置203、网络接口204、输入装置205以及输出装置206。各个硬件经由内部总线等相互连接。图2中,各个软件的数量可以是一个,但是也可以是2个以上。
另外,输入终端110以及客户终端120的硬件结构与计算机100相同。
处理器201执行主存储装置202中存储的程序。处理器201根据程序执行处理,从而作为实现特定功能的模块而动作。在以下的说明中,表示以模块为主题说明处理时由处理器201执行用于实现该模块的程序的情况。
主存储装置202存储处理器201所执行的程序以及程序所使用的信息。另外,主存储装置202包括程序暂时所使用的工作区域。关于主存储装置202例如考虑存储器等。
本实施例的主存储装置202存储用于实现文件审查模块211、学习处理模块212、风险回避判定模块213、规则生成模块214以及模板设定模块215的程序。另外,主存储装置202存储模板信息221、单词词典222、标识词典223、风险确定规则管理信息224以及修正规则管理信息225。
主存储装置202也可以不存储用于实现所有模块的程序。
文件审查模块211执行电子申请的审查处理。具体地说,文件审查模块211接受电子申请,生成包括使用模板提取出的属性的文件摘要信息905(参照图9)。另外,文件审查模块211决定对文件摘要信息905进行的确认操作的类别。在以下的说明中,将确认操作的类别记载为类(class)。在本实施例中,决定为事例(case)0、事例1、事例2三类的任意一个。文件审查模块211在进行了按照所决定的确认操作的类别的文件摘要信息905的确认操作后,使用文件摘要信息905来审查电子申请。后面详细描述文件审查模块211文件所执行的处理。
这里说明确认操作的内容。在事例0中,文件摘要信息905的可靠性高,因此审查员不进行文件摘要信息905的修正。在事例1中,计算机100督促一个审查员输入文件摘要信息。审查员生成文件摘要信息,操作输入终端110将文件摘要信息输入给计算机100。在事例2中,计算机100督促两个审查员输入文件摘要信息。两个审查员分别生成文件摘要信息,操作输入终端110将文件摘要信息输入给计算机100。在以下的说明中,将由管理者生成的文件摘要信息记载为输入文件摘要信息。
另外,上述三类是一例并不限于此。例如,如果一个审查员进行了确认操作,则可以是审查员不进行确认的操作的两类。另外,也可以是对结果进行目视的简单确认操作、使审查员输入必要项目而判定数据的一致性的详细确认操作的两类。
学习处理模块212执行与数据的选择方法、提取方法、推荐方法以及分类方法相关的学习处理。另外,机器学习的算法中公知有逻辑回归(logistic regression)、决策森林(decision forest)、决策丛林(decision jungle)、增强决策树(boost decision tree)、神经网络、平均感知器(averaged perceptron)、支持向量机(support vector machine)、局域详细支持向量机(local detailed support vector machine)以及贝叶斯点机(Bayespoint machine)等。
风险回避判定模块213修正由文件审查模块211决定的类。后面描述风险回避判定模块213所执行的处理。
规则生成模块214生成后述的风险确定规则管理信息224以及修正规则管理信息225。
模板设定模块215进行后述模板信息221的生成以及变更。
模板信息221是用于管理从文件读出审查所使用的字符串的模板的信息。使用图3详细说明模板信息221。
单词词典222以及标识词典223是定义了作为属性提取的字符串的信息。使用图4详细说明单词词典222,另外,使用图5详细说明标识词典223。
风险确定规则管理信息224是用于管理考虑业务上的损失(风险)而设定的风险确定规则的信息。使用图6详细说明风险确定规则管理信息224。这里,业务上的损失是包括金钱的损失、业务信用的损失以及审查的错误等的概念。另外,风险确定规则是定义用于确定在文件的审查中有可能产生的风险的类别的字符串或字符串的条件的信息。
修正规则管理信息225是用于管理定义风险的修正方法的修正规则的信息。使用图7详细说明修正规则管理信息225。
副存储装置203永久地存储数据。关于副存储装置203,例如考虑HDD(Hard DiskDrive:硬盘驱动器)以及SSD(Solid State Drive:固态硬盘)等。另外,存储在主存储装置202中的程序以及信息也可以存储在副存储装置203中。此时,处理器201从副存储装置203读出程序以及信息,并加载到主存储装置202中。
网络接口204是用于经由网络与其他装置连接的接口。
输入装置205是用于对计算机100输入数据的装置。例如,输入装置205包括键盘、鼠标以及触摸面板等。
输出装置206是输出数据的输入画面以及处理结果等的装置。输出装置206包括触摸面板以及显示器等。
图3表示实施例1的模板信息221的数据结构的一例。
模板信息221包括由模板编号301、属性302、位置信息303以及请求者名304构成的目录。一个目录对应一个模板。另外,一个目录中包括一个以上在模板中进行定义的属性的行。
模板编号301是存储用于唯一识别模板的识别信息的字段。在本实施例中,模板的识别信息被用作目录的识别信息。
属性302是存储表示模板中包括的属性类别的识别名称的字段。
位置信息303是存储与构成文件的一个区域的属性类别对应的属性位置相关的信息的字段。更具体地说,位置信息303中存储与对应一页的纸面上的属性类别对应的属性的位置相关的信息。例如,位置信息303中存储矩形区域的左上以及右下的坐标。另外,坐标可以是表示属性间相对的位置关系的相对坐标,也可以是表示纸面上的绝对位置的绝对坐标。另外,位置信息303中也可以存储指定多个位置的信息。
另外,本发明不限于位置信息303中所存储的信息。例如,目录也可以包括存储属性的长度以及记载有属性的范围等的字段。
请求者名304是存储用于表示适用模板的用户以及公司等的信息的字段。只针对包括特定的请求者的名称(字符串)的文件适用模板。
另外,作为用于选择要适用的模板的信息,目录除了包括请求者名304以外,也可以包括存储申请人名的字段,另外,也可以包括存储请求者以及申请人的组合的字段。
图3所示的模板信息221是将模板编号301设为目录的识别信息的表形式的信息,但是也可以是将请求者名304设为目录的识别信息的表形式的信息。
图4表示实施例1的单词词典222的数据结构的一例。
单词词典222是定义与作为属性而提取的单词对应的字符串的信息,包括由属性401以及字符串402构成的目录。一个目录对应一个属性。
属性401存储属性的识别名称。字符串402存储被分类为属性401的单词(字符串)。
图5表示实施例1的标识词典223的数据结构的一例。
标识词典223是定义与作为属性而提取的数值对应的字符串的信息,包括由属性501以及标识502构成的目录。一个目录对应一个属性。
属性501存储属性的识别名称。标识502存储被分类为属性501的数值(字符串)的标识规则。
图6表示实施例1的风险确定规则管理信息224的数据结构的一例。
风险确定规则管理信息224包括管理种类不同的每个风险的风险确定规则的管理表600。各个管理表600被赋予识别信息。
图6所示的风险确定规则管理信息224中包括两个管理表600-1、600-2。管理表600-1中被赋予识别信息“A”,管理表600-2中被赋予识别信息“B”。
管理表600-1是将用于确定与金额关联的风险的字符串的条件作为风险确定规则进行管理的表,包括由请求者名611以及基准金额612构成的目录。请求者名611是与请求者名304相同的字段。基准金额612是存储成为作为风险而确定的字符串的条件的金额(字符串)的基准值的字段。在本实施例中,当文件中包括基准金额612以上的金额时,判定为存在风险。
例如,计算机100是与请求者名611对应的文件,并且当文件中包括的金额为基准金额612以上时,审查员为了确认文件摘要信息905(参照图9)而修正风险。这样,能够避免在处理大金额的业务中产生的金钱损失。
管理表600-2是将用于确定与业务错误关联的风险的字符串作为风险确定规则进行管理的表,包括由风险单词621构成的目录。风险单词621是存储用于确定产生电子申请的审查错误的审查的类别等的单词(字符串)的字段。
例如,计算机100在文件中包括判明电子申请的审查错误较高的字符串时,为了使审查员确认文件摘要信息905(参照图9)而修正风险。这样,能够避免审查的错误。
图6中表示了根据账单金额的条件以及单词而定义的风险确定规则,但是风险确定规则管理信息224也可以包括定义了上述以外的风险确定规则的管理表600。
例如,考虑将到支付日为止的剩余天数、发行日以及支付日等日历错误相关的条件作为规则的情况。另外,当确定日期以及星期中有较多的审查错误时,考虑将该日期以及星期作为规则。另外,当从文件中提取出基准值以上的多个数字时,也考虑设定作为提取与希望数字不同的数字可能性高而修正类的规则的情况。
图7表示实施例1的修正规则管理信息225的数据结构的一例。
修正规则管理信息225包括由类条件701、条件式702以及修正类703构成的目录。一个目录与修正规则对应。
类条件701是存储类条件的字段。具体地说,类条件701中存储有修正前的类的识别信息。条件式702是存储风险类别相关的条件式的字段。具体地说,条件式702中存储有使用了管理表600的识别信息的逻辑式等。
修正类703是规定修正方法的字段。具体地说,修正类703中存储修正后的类的识别信息。
如后述,计算机100根据风险确定规则管理信息224来确定有无各个类别的风险。另外,计算机100判定文件的类是否与类条件701一致,并且所确定的风险类别的组合是否满足条件式702。即,判定是否存在相应的修正规则。计算机100根据判定结果修正类。
在图7所示的修正规则管理信息225中存储以下两个目录。当在第一个目录中,变更前的类是事例1,并且存在与管理表600-2对应的类别的风险时,设定将类从事例1修正为事例2的修正规则。当在第二个目录中,变更前的类是事例0,并且存在与管理表600-1以及管理表600-2中的至少任意一个对应的类别的风险时,设定从事例0修正为事例1的修正规则。
图8是实施例1的计算机100所执行的文件审查处理的概要的流程图。
计算机100的文件审查模块211从用户操作的客户终端120接受电子申请的请求(步骤S101)。电子申请的请求中包括审查对象的文件图像数据901(参照图9)。
另外,当文件图像数据901被存储在外部的存储装置中时,用户可以将文件图像数据901的识别信息包含在电子申请的请求中。另外,用户也可以提交纸件的文件。当提交了纸件的文件时,计算机100使用扫描仪130扫描纸件的文件,生成文件图像数据901。
接着,计算机100的文件审查模块211执行文件摘要信息生成处理(步骤S102)。
在文件摘要信息生成处理中生成文件摘要信息905(参照图9)。文件摘要信息905是将从文件图像数据901所对应的文件提取出的属性进行汇总后的信息。在与账单对应的文件图像数据901的情况下,文件摘要信息905中包括与账单金额、确定转账目的地的银行名、分行名、账户类别、账号、请求者名以及被请求者名等对应的属性(字符串)。在与收据对应的文件图像数据901的情况下,文件摘要信息905中包括与金额、购买物品或接受了提供的服务的人或组织的名称以及销售物品或提供了服务的人或组织的名称等对应的属性(字符串)。另外,在与税收证明书对应的文件图像数据901的情况下,文件摘要信息905中包括与人的姓名、人所属的组织名称、人的收入额以及人的减税额等对应的属性(字符串)。
另外,在文件摘要信息生成处理中,文件审查模块211计算表示文件摘要信息905的可靠性的指标,并根据该指标来决定文件摘要信息905的类。进一步,风险回避判定模块213根据风险确定规则管理信息224以及修正规则管理信息225来修正类。
计算机100根据与类对应的确认操作来进行文件摘要信息905的修正等的确认操作,输出最终的文件摘要信息。
另外,使用图9到图10详细说明文件摘要信息生成处理。
计算机100使用文件摘要信息905进行电子申请的审查(步骤S103)。计算机100将“许可”以及“拒绝”任意一个响应作为审查结果输出给用户。
图9表示实施例1的文件审查模块211所执行的文件摘要信息生成处理的概要。图10表示实施例1的文件审查模块211所生成的OCR要素的数据结构的一例。
在步骤S1中,文件审查模块211在输入了文件图像数据901时,对文件图像数据901执行OCR处理。
在步骤S2中,文件审查模块211使用OCR处理的结果以及模板信息221来计算各个模板中包括的属性相关的分数(score)。如后述那样,在本实施例中对一个属性计算多个分数。文件审查模块211生成将属性以及分数对应后的OCR要素902。图9所示的一个矩形与一个OCR要素902对应。
如图10所示,OCR要素902由属性1001、项目值1002、位置1003以及分数1004构成。
属性1001是存储属性的识别名称的字段。项目值1002是存储从文件提取出的属性(字符串)的字段。位置1003存储纸面上的属性的位置。分数1004是存储与OCR处理关联的分数或与使用模板而提取出的属性(字符串)关联的分数等的字段群。
在本实施例中,计算OCR分数以及位置分数。OCR分数是评价OCR处理结果的分数。例如是表示提取出的字符串与登记的字形之间的一致程度的值等。表示OCR分数的值越大误读的可能性越低。位置分数是表示文件图像数据901的属性的位置与模板的属性的位置之间的偏离程度的值。表示位置分数的值越小偏离越小。
另外,OCR要素902中可以只包括OCR分数以及位置分数的任意一方。另外,OCR要素902也可以包括与包括属性的矩形区域的面积相关的面积分数、与属性的类别相同的属性间的距离关联的项目分数以及与属性的出现次数相关的出现次数分数等。
在步骤S3中,文件审查模块211根据各个模板的OCR要素902来选择适合文件摘要信息905的生成的模板。关于模板的选择例如考虑选择位置分数的合计值成为最大的模板的方法等。
进一步,文件审查模块211从选择出的模板中包括的各个属性的类别的OCR要素902中选择代表OCR要素903。图9所示的一个矩形与一个代表OCR要素903对应。当选择出的模板中包括三种属性时,选择三个代表OCR要素903。作为代表OCR要素903的选择方法,例如考虑选择相对于在步骤S3选择出的模板位置分数为最大的OCR要素的方法或者选择位置分数以及OCR分数的合计值为最大的OCR要素的方法等。
在步骤S4中,文件审查模块211使用代表OCR要素903计算特征向量904,还生成文件摘要信息905。
在本实施例中,生成将各个代表OCR要素903中包括的多个分数设为要素的向量作为特征向量904。另外,通过汇总代表OCR要素903的属性1001以及项目值1002等而生成文件摘要信息905。
在步骤S5中,文件审查模块211通过将特征向量904代入评价式而计算表示文件摘要信息905的可靠性的评价值,并根据计算出的评价值来决定类。另外,评价式的参数是被预先设定的。另外,作为其他的方法,文件审查模块211可以通过将特征向量904输入给预先进行了机器学习的分类器来决定类。
在本实施例中,当评价值为第一阈值以上时,类被决定为事例0。当评价值比第一阈值小且在第二阈值以上时,类被决定为事例1。当评价值比第二阈值小时,类被决定为事例2。
在步骤S6中,文件审查模块211对风险回避判定模块213指示处理的执行,从而修正类。文件审查模块211根据修正后的类来进行针对文件摘要信息905的确认操作。
在被决定为事例0的情况下,审查员不进行文件摘要信息905的确认。在被决定为事例1的情况下,一个审查员生成输入文件摘要信息。在被决定为事例2的情况下,两个审查员分别生成输入文件摘要信息。
在步骤S8中,文件审查模块211选择申请的审查所使用的文件摘要信息。
在事例0的情况下,选择文件审查模块211所生成的文件摘要信息905。
在事例1的情况下,文件审查模块211判定文件摘要信息905与审查员所生成的输入文件摘要信息是否一致。当判定结果为是时,文件审查模块211选择文件摘要信息905。当判定结果为否时,文件审查模块211督促输入了输入文件摘要信息的审查员或其他的审查员修正输入文件摘要信息或生成新的输入文件摘要信息。此时,文件审查模块211选择修正后的输入文件摘要信息或新的输入文件摘要信息。
在事例2的情况下,文件审查模块211判定文件摘要信息905与两个审查员生成的输入文件摘要信息是否一致。当判定结果为是时,文件审查模块211选择文件摘要信息905。当判定结果为否时,文件审查模块211督促输入了输入文件摘要信息的任意一个审查员或其他的审查员修正输入文件摘要信息或生成新的输入文件摘要信息。此时,文件审查模块211选择修正后的输入文件摘要信息或新的输入文件摘要信息。
图11是说明表示实施例1的文件审查模块211所执行的文件摘要信息生成处理的流程图。
在输入了文件图像数据901时,文件审查模块211开始以下说明的文件摘要信息生成处理。
首先,文件审查模块211对文件图像数据901执行OCR处理(步骤S201)。OCR处理使用公知的方法即可,因此省略详细的说明。通过OCR处理,文件图像数据901被转换为计算机能够处理的字符串群的数据。
接着,文件审查模块211从模板信息221选择一个模板(步骤S202)。例如,文件审查模块211从模板信息221的上部的目录开始按顺序地进行选择。
接着,文件审查模块211执行分数计算处理(步骤S203)。在分数计算处理中,文件审查模块211按照选择出的模板中包括属性的每个类别来生成OCR要素902。另外,文件审查模块211计算OCR要素902的分数。这里,说明OCR要素902的生成方法以及分数的计算方法的一例。
文件审查模块211从选择出的模板中包括的属性的类别中选择目标属性类别。即,选择一个与选择出的模板对应的目录中包括的属性302。
文件审查模块211参照单词词典22,从执行了OCR处理的文件图像数据901检索与目标属性类别所对应的目录的字符串402一致或类似的属性(字符串)。此时,文件审查模块211使用未图示的同义词词典不仅检索与字符串402相同的字符串,也检索意思等一致或类似的属性(字符串)。另外,文件审查模块211参照标识词典223,从执行了OCR处理的文件图像数据901检索与目标属性类别所对应的目录的标识502一致或类似的属性(字符串)。
文件审查模块211生成空的OCR要素902,将目标属性类别设定为属性1001。文件审查模块211将检索出的属性设定为项目值1002,将检索出的属性的位置设定为位置1003。在该时间点,对检索出的一个属性生成一个OCR要素902。
文件审查模块211根据OCR要素902的位置1003来计算检索出的字符串间的距离,将距离为阈值以下的字符串的OCR要素902整合为一个OCR要素902。此时,对整合后的OCR要素902的项目值802以及位置803设定多个值。
即使使用单词词典222以及标识词典223的任意一个也没有提取出属性时,文件审查模块211在属性801中设定目标属性类别,将项目值802以及位置803设定为空栏,将分数804的所有值设定为“0”。
文件审查模块211参照单词词典222以及项目值1002,将与目标属性类别对应的目录字符串402与使用单词词典222提取出的属性进行比较,根据比较结果来计算分数。另外,文件审查模块211参照标识词典223以及项目值1002,将与目标属性类别对应的目录的标识502与使用标识词典223提取出的属性进行比较,根据比较结果来计算分数。例如计算标识502的至少一个标识与属性之间的一致度作为分数。文件审查模块211将两个分数的合计值设定为OCR分数。
文件审查模块211使用位置1003以及目标属性类别所对应的行的位置信息303来计算属性的位置误差,并根据该误差来计算位置分数。例如,使用将误差设为参数的数学式来计算位置分数。
文件审查模块211对选择出的模板中包括的所有属性类别执行同样的处理。返回文件摘要信息生成处理的说明。
接着,文件审查模块211判定对所有模板的处理是否已结束(步骤S204)。
当判定为没有结束对所有模板的处理时,文件审查模块211返回步骤S202,执行同样的处理。
当判定为对所有模板的处理结束时,文件审查模块211执行代表OCR要素选择处理(步骤S205)。
在代表OCR要素选择处理中,文件审查模块211选择模板中包括的各个属性类别的候补OCR要素。文件审查模块211计算用于评价使用模板提取出的属性的提取精度的值即比较值。文件审查模块211使用各个模板的比较值来选择代表模板,另外,选择与代表模板对应的候补OCR要素作为代表OCR要素903。
接着,文件审查模块211使用代表OCR要素903来生成特征向量904(步骤S206),另外,生成文件摘要信息905(步骤S207)。
接着,文件审查模块211执行用于计算评价值的特征向量评价处理(步骤S208),根据评价值来决定类。
接着,文件审查模块211执行类修正处理(步骤S209)。
具体地说,文件审查模块211对风险回避判定模块213指示开始类修正处理。使用图12详细说明类修正处理。文件审查模块211转到等待状态直到从风险回避判定模块213接受了处理结束通知为止。
接着,文件审查模块211判定修正后的类是事例0、事例1以及事例2的哪一个(步骤S210)。
当类为事例0时,文件审查模块211输出在步骤S207中生成的文件摘要信息905(步骤S215)。之后,文件审查模块211结束处理。
当类为事例1时,文件审查模块211接受一个审查员生成的模板以及输入文件摘要信息的输入(步骤S211、步骤S212)。之后,文件审查模块211在文件摘要信息905以及输入文件摘要信息一致的情况下,输出文件摘要信息905(步骤S215)。另外,当文件摘要信息905以及输入文件摘要信息不一致的情况下,文件审查模块211输出输入文件摘要信息(步骤S215)。
当类为事例2时,文件审查模块211接受两个审查员生成的模板以及输入文件摘要信息的输入(步骤S213、步骤S214)。之后,文件审查模块211在文件摘要信息905以及输入文件摘要信息一致的情况下,输出文件摘要信息905(步骤S215)。另外,当文件摘要信息905以及输入文件摘要信息不一致的情况下,文件审查模块211输出输入文件摘要信息(步骤S215)。
图12是说明实施例1的风险回避判定模块213所执行的风险回避判定处理的流程图。
风险回避判定模块213从登记在风险确定规则管理信息224中的风险确定规则中选择一个要使用的风险确定规则(步骤S301)。
风险回避判定模块213判定文件中是否存在与选择出的风险确定规则对应的类别的风险(步骤S302)。
具体地说,风险回避判定模块213参照文件摘要信息905以及OCR要素902的任意一个,判定是否存在由风险确定规则定义的字符串或满足字符串的条件的字符串。当存在由风险确定规则定义的字符串或满足字符串的条件的字符串时,风险回避判定模块213判定为文件中存在与选择出的风险确定规则对应的类别的风险。
当判定为文件中不存在与选择出的风险确定规则对应的类别的风险时,风险回避判定模块213进入步骤S304。
当判定为文件中存在与选择出的风险确定规则对应的类别的风险时,风险回避判定模块213设定与风险的类别对应的标志(步骤S303)。之后,风险回避判定模块213进入步骤S304。
在本实施例中,每个风险确定规则中存在标志。另外,风险回避判定模块213可以将风险确定规则的识别信息存储在主存储装置202中来代替标志。
在步骤S304中,风险回避判定模块213判定对登记在风险确定规则管理信息224中的所有风险确定规则的处理是否已结束(步骤S304)。
当判定为没有结束对所有风险确定规则的处理时,风险回避判定模块213返回步骤S301,执行同样的处理。
当判定为对所有风险确定规则的处理结束时,风险回避判定模块213参照修正规则管理信息225来判定是否存在相应的修正规则(步骤S305)。具体执行以下的处理。
风险回避判定模块213检索当前的类与类条件701一致的目录。风险回避判定模块213根据标志的值来判定是否满足检索出的目录的条件式702。当满足检索出的目录的条件式702时,风险回避判定模块213判定为存在相应的修正规则。
当判定为不存在相应的修正规则时,风险回避判定模块213结束风险回避判定处理。
当判定为存在相应的修正规则时,风险回避判定模块213按照相应的修正规则来修正类(步骤S306)。之后,风险回避判定模块213结束风险回避判定处理。
具体地说,风险回避判定模块213将当前的类变更为在修正类703中设定的类。
这里,使用具体例来说明类修正处理。另外,计算机100中设定有图6所示的风险确定规则管理信息224以及图7所示的修正规则管理信息225。
考虑包括“A株式会社”作为请求者名且包括“6万日元”作为账单金额的文件。
此时,满足管理表600-1的第一个目录的条件。因此,风险回避判定模块213判定为存在与管理表600-1对应的类别的风险,并判定为不存在与管理表600-2对应的类别的风险。另外,风险回避判定模块213设定与管理表600-1对应的标志。
当修正前的类为“事例0”时,符合与修正规则管理信息225的第二个目录对应的修正规则,因此风险回避判定模块213将类从“事例0”修正为“事例1”。
接着,使用图13到图17说明风险确定规则的生成方法。
图13是说明实施例1的学习处理模块212所执行的学习用数据积累处理的一例的流程图。
审查结束,审查员确认审查结果,并判定审查结果是否正确后,学习处理模块212执行以下所说明的处理。
学习处理模块212取得OCR处理的结果以及审查所使用的文件摘要信息(步骤S401)。
接着,学习处理模块212对通过OCR处理提取出的字符串执行形态分析,取得单词的集合(步骤S402)。另外,学习处理模块212也可以不执行形态分析而直接取得属性的集合作为单词的集合。
接着,学习处理模块212判定针对审查结果的正误判定的结果是否是“正确答案”(步骤S403)。
当判定为针对审查结果的正误判定的结果是“正确答案”时,学习处理模块212对正确答案的文件组追加将请求者名以及账单金额和单词等的字符串的集合进行对应后的学习用数据(步骤S404),结束处理。
当判定为针对审查结果的正误判定的结果是“错误判定”时,学习处理模块212对错误判定的文件组追加将请求者名以及账单金额和单词等的字符串的集合进行对应后的学习用数据(步骤S405),结束处理。
另外,上述处理可以只将类为事例1或事例2的文件作为对象。
图14是说明实施例1的规则生成模块214所执行的推荐金额提示处理的一例的流程图。
规则生成模块214取得请求者名以及基准金额(步骤S501)。经由后述的设定画面1500(参照图15)输入请求者名以及基准金额。
接着,规则生成模块214使用学习用数据来计算判定指标(步骤S502)。规则生成模块214将计算出的判定指标显示在设定画面1500上。
本发明不限于判定指标的种类。关于判定指标可以考虑以下的情况。规则生成模块214将正确答案的文件组以及错误判定的文件组中包括的文件中的包括基准金额以下金额的文件的比例作为第一判定指标(自动化率)来计算。另外,规则生成模块214将错误判定的文件组中包括的文件中的包括基准金额以下金额的文件的比例作为第二判定指标(错误判定率)来计算。
接着,规则生成模块214通过比较判定指标和目标值来判定是否满足用户基准(步骤S503)。
例如,当判定指标与目标值一致时,当判定指标比目标值大时,或者当判定指标比目标值小时等,判定为满足用户基准。另外,能够任意地设定目标值以及用户基准。在使用了上述第一判定指标以及第二判定指标的情况下,在第一判定指标以及第二判定指标中的任意一个不满足条件时,判定为不满足用户基准。
在判定为不满足用户基准时,规则生成模块214变更基准金额(步骤S504),之后,返回步骤S502,执行同样的处理。本发明不限于基准金额的变更方法。例如,规则生成模块214对当前的基准金额加上或减去一定金额。另外,规则生成模块214也可以在设定画面1500进行督促输入新的基准金额的显示。
当判定为满足用户基准时,规则生成模块214将当前的基准金额作为推荐金额显示在设定画面1500上(步骤S505)。之后,规则生成模块214结束处理。
图15表示实施例1的计算机100所显示的设定画面1500的一例。
设定画面1500是用于设定与管理表600-1对应的风险确定规则的画面。设定画面1500包括基准金额设定栏1510、执行按钮1520、登记按钮1530、图表显示栏1540、指标值显示栏1550以及推荐金额显示栏1560。
基准金额设定栏1510是用于设定请求者名以及基准金额的栏。执行按钮1520是用于指示规则生成模块214执行推荐金额提示处理的按钮。登记按钮1530是用于将请求者名以及基准金额的组合登记在管理表600-1中的按钮。
图表显示栏1540是用于视觉地显示推荐金额的栏。图表显示栏1540中显示有每个账单金额的正确答案组中包括的文件以及错误判定的组中包括的文件的分布。
指标值显示栏1550是用于显示通过规则生成模块214计算出的判定指标的值的栏。在本实施例中,在指标值显示栏1550中显示自动化率以及错误判定率。
推荐金额显示栏1560是用于显示目标值以及推荐金额的栏。在本实施例中,在推荐金额显示栏1560中显示作为自动化率的目标值的目标自动化率、推荐金额以及推定错误判定率。推定错误判定率表示满足目标自动化率时的错误判定率。另外,推荐金额显示栏1560可以包括目标错误判定率来代替目标自动化率。
审查员参照设定画面1500所显示的审查结果的正误判定结果的分布以及推荐金额,在基准金额设定栏1510中设定基准金额,操作登记按钮1530。此时,规则生成模块214在管理表600-1中登记将请求者名以及基准金额进行对应的目录。
图16是说明实施例1的规则生成模块214所执行的推荐风险单词提示处理的一例的流程图。
规则生成模块214从单词组中选择目标单词(步骤S601)。
接着,规则生成模块214计算目标单词的判定指标(步骤S602)。规则生成模块214将计算出的判定指标显示在设定画面1700(参照图17)中。
本发明不限于判定指标的种类。例如,规则生成模块214根据正确答案的文件且包括目标单词的文件的数量以及错误判定的文件且包括目标单词的文件的数量来计算错误判定率作为判定指标。
接着,规则生成模块214判定是否针对单词组中包括的所有单词完成了处理(步骤S603)。
当判定为没有完成针对单词组中包括的所有单词的处理时,规则生成模块214返回步骤S601,执行同样的处理。
当判定为完成了针对单词组中包括的所有单词的处理时,规则生成模块214根据判定指标选择推荐风险单词(步骤S604),将选择出的推荐风险单词显示在设定画面1700中(步骤S605)。之后,规则生成模块214结束处理。
例如,规则生成模块214按照错误判定率从大到小的顺序来选择预定数量的单词作为推荐风险单词。另外,规则生成模块214也可以选择错误判定率比阈值大的单词作为推荐风险单词。
在本实施例中,作为判定目标使用了错误判定率但不限于此。例如也可以使用相关系数以及升力值(lift value)等作为判定目标。
图17表示实施例1的计算机100所显示的设定画面1700的一例。
设定画面1700是用于设定与管理表600-2对应的风险确定规则的画面。设定画面1700包括风险单词显示栏1710、推荐风险单词显示栏1720、执行按钮1730以及登记按钮1740。
风险单词显示栏1710是用于显示被登记在管理表600-2中的风险单词的栏。推荐风险单词显示栏1720是用于显示推荐风险单词的栏。
执行按钮1730是用于对规则生成模块214指示执行推荐风险单词提示处理的按钮。登记按钮1740是用于将风险单词登记在管理表600-2中的按钮。
审查员在设定风险单词时,从推荐风险单词显示栏1720中选择一个以上的单词,操作登记按钮1740。此时,规则生成模块214将选择出的单词登记在管理表600-2中。
接着,使用图18说明模板的设定方法。
在本实施例中,通过使用在模板信息221中设定的模板,能够高精度地从文件图像数据901提取属性。但是,会有为了预先准备各种形式的文件的模板而花费劳时间的问题。因此,本实施例的计算机100为了削减时间而辅助模板的生成。
图18表示实施例1的计算机100所显示的模板输入画面1800的一例。
模板输入画面1800是用于设定模板的画面,能够根据审查员的要求在任意的定时显示。
模板输入画面1800包括文件选择栏1810、选择按钮1820、属性设定栏1830、追加按钮1840、位置设定栏1850以及登记按钮1860。
文件选择栏1810是用于选择成为模板的设定对象的文件的栏。文件选择栏1810中显示通过模板设定模块215决定的文件一览。
选择按钮1820是用于选择成为模板的设定对象的文件的按钮。
属性设定栏1830是用于设定模板中包括的属性的类别的栏。
追加按钮1840是用于对属性设定栏1830追加行的按钮。
位置设定栏1850是设定与属性设定栏1830中设定的属性的类别对应的属性的纸面上的位置的栏。
登记按钮1860是用于在模板信息221中设定输入到画面中的模板的按钮。
审查员在选择文件选择栏1810中显示的文件,并操作了选择按钮1820的情况下,显示在位置设定栏1850选择的文件的文件图像数据901。另外,审查员以包围在位置设定栏1850中显示的字符串的方式来选择矩形区域,从而能够设定属性的位置信息303。
另外,能够设定与在文件选择栏1810选择出的文件对应的文件摘要信息905中包括的代表OCR903的位置信息作为位置设定栏1850的各个属性的位置信息的初始值并进行显示。此时,审查员确认在位置设定栏1850显示的各个属性的位置,在不需要进行修正时不进行与位置设定栏1850对应的操作。这样,能够削减模板的设定所需要的时间。
当审查员操作了登记按钮1860时,模板设定模块215对模板信息221追加目录,对被追加的目录的模板编号301设定识别编号。另外,模板设定模块215在被追加的目录中生成与在属性设定栏1830中设定的属性类别的数量相同数量的行,并在除了各行的属性302中设定属性设定栏1830的值。另外,模板设定模块215根据位置设定栏1850对各行的位置信息303设定值。
这里,说明在文件选择栏1810中显示的文件的决定方法。
模板设定模块215从文件审查模块211处理后的文件中选择不存在能够选择的模板的文件或使用选择出的模板计算出的位置分数比预先设定的阈值小的文件作为模板生成对象的文件,并生成选择出的文件的列表。模板设定模块215将所生成的列表显示在文件选择栏1810中。
通过上述的处理,能够进行控制使得不会生成属性的位置与已经存在的模板类似的文件的模板。
另外,作为其他的决定方法,模板设定模块215将通过上述方法选择出的模板生成对象的文件进行分组,从各个组中选择一个以上的文件,生成选择出的文件的列表。模板设定模块215将所生成的列表显示在文件选择栏1810中。作为分组的方法,考虑根据请求者名等属性的值进行分组的方法、使用文件摘要信息905中包括的代表OCR要素903所包括的位置信息来进行聚类的方法。另外也可以组合上述各个方法。
根据本实施例,计算机100能够根据分数选择最优的模板。另外,计算机100根据表示文件摘要信息905的可靠性来决定文件摘要信息905的确认操作的类别(类)。进一步,计算机100根据各个类别的风险的有无来修正确认操作的类别。
这样,能够高精度地自动识别属性,能够进行考虑了业务损失的属性的识别结果的确认。因此,能够避免电子申请审查风险的产生,实现审查的高效化。
另外,本发明不限于上述实施例而包括各种变形例。另外,例如上述实施例为了容易理解地说明本发明而详细说明了本发明的结构,但是不限于必须具备所说明的所有结构的发明。另外,关于各实施例的结构的一部分,能够对其他结构进行追加、删除、置换。
另外,上述各个结构、功能、处理部、处理单元等的一部分或全部可以例如通过集成电路设计等由硬件来实现。另外,本发明也能够通过实现实施例的功能的软件的程序代码来实现。此时,将记录了程序代码的存储介质提供给计算机,该计算机所具备的处理器读出存储在存储介质中的程序代码。此时,由从存储介质读出的程序代码自身实现上述实施例的功能,该程序代码自身以及存储该程序代码的存储介质构成本发明。作为用于提供这种程序代码的存储介质,例如使用软磁盘、CD-ROM、DVD-ROM、硬盘、SSD(Solid StateDrive:固态硬盘)、光盘、光磁盘、CD-R、磁带、非易失性存储卡、ROM等。
另外,实现本实施例中记载的功能的程序代码例如能够通过汇编语言、C/C++、perl、Shell、PHP、Java(注册商标)等范围广的程序或脚本语言来进行安装。
进一步,经由网络发送实现实施例的功能的软件的程序代码,从而将其存储在计算机的硬盘或存储器等存储单元或CD-RW、CD-R等存储介质中,计算机所具备的处理器也可以读出存储在该存储单元或该存储介质中的程序代码并执行。
在上述实施例中,控制线和信息线表示为了说明上需要而考虑的内容,不限于表示产品上必需的所有控制线和信息线。所有的结构也可以相互连接。
Claims (8)
1.一种计算机,提取任意审查对象的文件中包括的字符串即属性,其特征在于,
上述计算机具备处理器以及与上述处理器连接的存储装置,
上述存储装置存储用于管理定义了至少一个属性的类别的多个模板的模板信息,
上述模板信息包括多个由上述模板的识别信息以及表示上述属性的类别的识别信息构成的目录,
在上述处理器中,
针对上述文件的图像数据执行字符识别处理,
使用上述字符识别处理的结果以及上述多个模板来提取在上述多个模板中分别定义的上述属性的类别所对应的属性,
根据提取出的上述属性来选择模板,
生成包括使用所选择的上述模板提取出的属性且用于上述审查的输出信息,
计算表示上述输出信息的可靠性的评价值,
根据上述评价值与阈值的比较结果来决定在进行上述审查之前对上述输出信息进行的确认操作的类别,
根据上述文件中包括的字符串来判定是否需要修正所决定的上述确认操作类别,
在判定为需要修正所决定的上述确认操作的类别时,修正所决定的上述确认操作的类别。
2.根据权利要求1所述的计算机,其特征在于,
上述存储装置存储用于管理风险确定规则的第一管理信息以及用于管理修正规则的第二管理信息,该风险确定规则定义用于确定有可能在上述审查中产生的风险的类别的字符串或字符串的条件,该修正规则定义上述输出信息的确认操作的类别的修正方法,
上述第一管理信息存储与类别不同的上述风险对应的上述风险确定规则的信息,
上述修正规则由修正前的确认操作的类别、通过所确定的风险的类别的组合定义的条件式以及修正后的确认操作的类别构成,
在上述处理器中,
根据上述第一管理信息以及上述输出信息来确定存在于上述文件中的风险的类别,
根据上述确认操作的类别以及所确定的上述风险的类别的组合,参照上述第二管理信息,来判定是否存在相应的修正规则,
当判定为存在相应的上述修正规则时,根据相应的上述修正规则来修正上述确认操作的类别。
3.根据权利要求2所述的计算机,其特征在于,
在上述处理器中,
在上述存储装置中存储将从上述文件提取出的属性以及使用了按照上述确认操作的类别而操作的输出信息的审查结果对应起来的学习用数据,
使用上述学习用数据执行学习处理,从而生成用于显示有可能产生任意类别的风险的字符串或字符串的条件的显示信息,
输出所生成的上述显示信息。
4.根据权利要求2所述的计算机,其特征在于,
上述第一管理信息包括用于定义与数值对应的字符串的大小关系的条件的风险确定规则。
5.一种文件识别方法,由提取任意审查对象的文件中包括的字符串即属性的计算机执行,其特征在于
上述计算机具备处理器以及与上述处理器连接的存储装置,
上述存储装置存储用于管理定义了至少一个属性的类别的多个模板的模板信息,
上述模板信息包括多个由上述模板的识别信息以及表示上述属性的类别的识别信息构成的目录,
上述文件识别方法包括:
上述处理器针对上述文件的图像数据执行字符识别处理的第一步骤;
上述处理器使用上述字符识别处理的结果以及上述多个模板来提取在上述多个模板中分别定义的上述属性的类别所对应的属性的第二步骤;
上述处理器根据提取出的上述属性来选择模板的第三步骤;
上述处理器生成包括使用所选择的上述模板提取出的属性且用于上述审查的输出信息的第四步骤;
上述处理器计算表示上述输出信息的可靠性的评价值的第五步骤;
上述处理器根据上述评价值与阈值的比较结果来决定在进行上述审查之前对上述输出信息进行的确认操作的类别的第六步骤;
上述处理器根据上述文件中包括的字符串来判定是否需要修正所决定的上述确认操作类别的第七步骤;以及
上述处理器在判定为需要修正所决定的上述确认操作的类别时,修正所决定的上述确认操作的类别的第八步骤。
6.根据权利要求5所述的文件识别方法,其特征在于,
上述存储装置存储用于管理风险确定规则的第一管理信息以及用于管理修正规则的第二管理信息,该风险确定规则定义用于确定有可能在上述审查中产生的风险的类别的字符串或字符串的条件,该修正规则定义上述输出信息的确认操作的类别的修正方法,
上述第一管理信息存储与类别不同的上述风险对应的上述风险确定规则的信息,
上述修正规则由修正前的确认操作的类别、通过所确定的风险的类别的组合定义的条件式以及修正后的确认操作的类别构成,
上述第七步骤包括:
上述处理器根据上述第一管理信息以及上述输出信息来确定存在于上述文件中的风险的类别的步骤;以及
上述处理器根据上述确认操作的类别以及所确定的上述风险的类别的组合,参照上述第二管理信息,来判定是否存在相应的修正规则的步骤,
上述第八步骤包括上述处理器根据相应的上述修正规则来修正上述确认操作的类别的步骤。
7.根据权利要求6所述的文件识别方法,其特征在于,
该方法包括以下步骤:
上述处理器在上述存储装置中存储将从上述文件提取出的属性以及使用了按照上述确认操作的类别而操作的输出信息的审查结果对应起来的学习用数据;以及
上述处理器使用上述学习用数据执行学习处理,从而生成用于显示有可能产生任意类别的风险的字符串或字符串的条件的显示信息的步骤;以及
上述处理器输出所生成的上述显示信息的步骤。
8.根据权利要求6所述的文件识别方法,其特征在于,
上述第一管理信息包括用于定义与数值对应的字符串的大小关系的条件的风险确定规则。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-214170 | 2017-11-06 | ||
JP2017214170A JP6871840B2 (ja) | 2017-11-06 | 2017-11-06 | 計算機及び文書識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109753964A true CN109753964A (zh) | 2019-05-14 |
CN109753964B CN109753964B (zh) | 2023-02-21 |
Family
ID=66327320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810962608.0A Active CN109753964B (zh) | 2017-11-06 | 2018-08-22 | 计算机以及文件识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10783366B2 (zh) |
JP (1) | JP6871840B2 (zh) |
CN (1) | CN109753964B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126029A (zh) * | 2019-12-31 | 2020-05-08 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN111144334A (zh) * | 2019-12-27 | 2020-05-12 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6938228B2 (ja) * | 2017-05-31 | 2021-09-22 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
CN110321423B (zh) * | 2019-05-31 | 2023-03-31 | 创新先进技术有限公司 | 一种文本数据的风险识别方法及服务器 |
JP7364998B2 (ja) * | 2019-06-26 | 2023-10-19 | 京セラドキュメントソリューションズ株式会社 | 文書分類システムおよび文書分類プログラム |
US11687734B2 (en) | 2019-07-05 | 2023-06-27 | Elsevier, Inc. | Systems and methods to extract the context of scientific measurements using targeted question answering |
JP2021039494A (ja) * | 2019-09-02 | 2021-03-11 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7463675B2 (ja) * | 2019-09-03 | 2024-04-09 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
JP6722929B1 (ja) * | 2019-09-27 | 2020-07-15 | AI inside株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7443012B2 (ja) * | 2019-10-03 | 2024-03-05 | キヤノン株式会社 | メタデータを設定するための設定方法、プログラム、装置 |
JP6712738B1 (ja) * | 2019-10-31 | 2020-06-24 | 株式会社日本デジタル研究所 | 証憑判定装置、会計処理装置、証憑判定プログラム、証憑判定システム及び証憑判定方法 |
JP6912841B2 (ja) * | 2020-04-30 | 2021-08-04 | 株式会社日本デジタル研究所 | 証憑判定装置、会計処理装置、証憑判定プログラム、証憑判定システム及び証憑判定方法 |
JP6842219B1 (ja) * | 2020-04-30 | 2021-03-17 | 株式会社日本デジタル研究所 | 会計処理装置、会計処理プログラム、会計処理システム及び会計処理方法 |
US11755973B2 (en) * | 2021-02-12 | 2023-09-12 | Accenture Global Solutions Limited | System and method for intelligent contract guidance |
CN113434672B (zh) * | 2021-06-24 | 2023-12-19 | 中核深圳凯利集团有限公司 | 文本类型智能识别方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07296102A (ja) * | 1994-04-27 | 1995-11-10 | Hitachi Ltd | データ入力方式 |
JP2002230479A (ja) * | 2001-01-30 | 2002-08-16 | Tokio Marine & Fire Insurance Co Ltd | コンピュータ・システム並びに帳票処理方法及びプログラム |
CN102834841A (zh) * | 2010-03-31 | 2012-12-19 | 株式会社东芝 | 文档管理系统、判定装置、数据输出控制装置、文档管理方法、文档管理程序 |
JP2016048444A (ja) * | 2014-08-27 | 2016-04-07 | 沖電気工業株式会社 | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 |
CN105847632A (zh) * | 2015-01-30 | 2016-08-10 | 株式会社Pfu | 信息处理装置以及方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0601107A4 (en) * | 1991-08-30 | 1995-03-15 | Trw Financial Systems Inc | METHOD AND APPARATUS FOR CONVERTING DOCUMENT BETWEEN PAPER MEDIUM AND ELECTRONIC MEDIA. |
US5251273A (en) * | 1992-04-15 | 1993-10-05 | International Business Machines Corporation | Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms |
US5644656A (en) * | 1994-06-07 | 1997-07-01 | Massachusetts Institute Of Technology | Method and apparatus for automated text recognition |
US8165958B1 (en) | 1999-03-26 | 2012-04-24 | Metavante Corporation | Electronic bill presentation and payment method and system |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
JP2007109051A (ja) * | 2005-10-14 | 2007-04-26 | Seiko Epson Corp | 帳票識別装置 |
US10534968B1 (en) * | 2015-04-16 | 2020-01-14 | State Farm Mutual Automobile Insurance Company | Verifying odometer mileage using captured images and optical character recognition (OCR) |
JP6938228B2 (ja) * | 2017-05-31 | 2021-09-22 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
-
2017
- 2017-11-06 JP JP2017214170A patent/JP6871840B2/ja active Active
-
2018
- 2018-08-22 CN CN201810962608.0A patent/CN109753964B/zh active Active
- 2018-08-30 US US16/117,198 patent/US10783366B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07296102A (ja) * | 1994-04-27 | 1995-11-10 | Hitachi Ltd | データ入力方式 |
JP2002230479A (ja) * | 2001-01-30 | 2002-08-16 | Tokio Marine & Fire Insurance Co Ltd | コンピュータ・システム並びに帳票処理方法及びプログラム |
CN102834841A (zh) * | 2010-03-31 | 2012-12-19 | 株式会社东芝 | 文档管理系统、判定装置、数据输出控制装置、文档管理方法、文档管理程序 |
JP2016048444A (ja) * | 2014-08-27 | 2016-04-07 | 沖電気工業株式会社 | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 |
CN105847632A (zh) * | 2015-01-30 | 2016-08-10 | 株式会社Pfu | 信息处理装置以及方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144334A (zh) * | 2019-12-27 | 2020-05-12 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
CN111144334B (zh) * | 2019-12-27 | 2023-09-26 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
CN111126029A (zh) * | 2019-12-31 | 2020-05-08 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN111126029B (zh) * | 2019-12-31 | 2020-12-04 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10783366B2 (en) | 2020-09-22 |
JP2019086984A (ja) | 2019-06-06 |
US20190138804A1 (en) | 2019-05-09 |
JP6871840B2 (ja) | 2021-05-19 |
CN109753964B (zh) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753964A (zh) | 计算机以及文件识别方法 | |
CN108984578A (zh) | 计算机、文档识别方法以及系统 | |
CN110276236B (zh) | 计算机及模板管理方法 | |
CN106504079A (zh) | 一种综合式财务管理方法及其管理平台 | |
JP5385349B2 (ja) | レシート定義データ作成装置およびそのプログラム | |
WO2013123182A1 (en) | Computer-implemented systems and methods of performing contract review | |
JP7000052B2 (ja) | 会計装置及びプログラム | |
JP2017182786A (ja) | 会計処理装置、会計処理方法、および、会計処理プログラム | |
JP5702342B2 (ja) | レシート定義データ作成装置およびプログラム | |
JP5424798B2 (ja) | メタデータ設定方法及びメタデータ設定システム、並びにプログラム | |
CN116757808A (zh) | 一种基于大数据的投标文件自动生成方法及系统 | |
JP2019191665A (ja) | 財務諸表読取装置、財務諸表読取方法及びプログラム | |
JP2012252521A (ja) | 会計仕訳ファイルデータ標準化システムとそれを用いた監査システムとそれらのプログラム | |
JP4373642B2 (ja) | 取引先要項システム、取引先動向表示制御方法及びプログラム | |
KR101606788B1 (ko) | 전자문서 기반의 업무처리를 위한 서식정보 관리방법 | |
BE1026870B1 (nl) | Systeem en werkwijze voor automatische verificatie van onkostennota | |
CN112445911A (zh) | 工作流程辅助装置、系统、方法及存储介质 | |
JP2015049741A (ja) | 会計情報処理装置、会計情報処理方法、及びプログラム | |
JP4024267B2 (ja) | 取引先要項システム | |
CN114549177A (zh) | 保函审查方法、装置、系统与计算机可读存储介质 | |
CN105913071A (zh) | 信息处理装置、信息处理系统、信息处理方法 | |
WO2022029874A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP2021093222A (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
TWM610766U (zh) | 雲端記帳系統 | |
JP2001005886A (ja) | データ処理装置及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |