CN113449763A - 信息处理装置以及记录媒体 - Google Patents
信息处理装置以及记录媒体 Download PDFInfo
- Publication number
- CN113449763A CN113449763A CN202010903733.1A CN202010903733A CN113449763A CN 113449763 A CN113449763 A CN 113449763A CN 202010903733 A CN202010903733 A CN 202010903733A CN 113449763 A CN113449763 A CN 113449763A
- Authority
- CN
- China
- Prior art keywords
- document
- ticket
- position information
- extraction result
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
一种信息处理装置及记录媒体,所述信息处理装置(1)具有票单识别部(32),所述票单识别部(32)在所读取的票单的格式为首次的情况下,将对票单实施的关键字值提取处理所得出的关键字值提取结果作为提取结果信息而登记到提取结果信息存储部(6)中。票单识别部(32)针对每个票单,根据票单的关键字值提取结果中所含的关键字的位置信息、及登记在提取结果信息存储部(6)中的提取结果信息各自所含的关键字的位置信息来计算余弦相似度,若所算出的余弦相似度为阈值以上,则判定所述票单的格式为相同。本发明即便使用文档上的标识标记类以外的文字,也能够判定文档格式的相同性。
Description
技术领域
本发明涉及一种信息处理装置以及记录媒体。
背景技术
有时要对多个票单的样式(form)或记载内容进行比较,以判别票单间的相似性。例如,专利文献1中提出了一种技术:利用对票单图像的整体进行特征矢量化并与辞典之间进行距离计算的票单图像矢量比对,来进行票单种类的大致缩减,且对于相似的票单间的识别,使用文档上的标识标记(logo mark)类来进行识别。
[现有技术文献]
[专利文献]
[专利文献1]日本专利特开2009-025856号公报
[专利文献2]日本专利第5110793号说明书
发明内容
[发明所要解决的问题]
本发明的目的在于,即便使用文档上的标识标记类以外的文字,也能够判定文档格式的相同性。
[解决问题的技术手段]
本发明的信息处理装置的特征在于包括处理器,所述处理器接收第一处理结果及第二处理结果,所述第一处理结果是对第一文档的文字识别处理的结果,所述第二处理结果是对第二文档的文字识别处理的结果,根据从所述第一处理结果中检测出的规定的多个文字在所述第一文档上的第一位置信息、与从所述第二处理结果中检测出的所述规定的多个文字在所述第二文档上的第二位置信息,来算出余弦相似度,若所算出的余弦相似度为规定阈值以上,则判定所述第一文档格式与所述第二文档格式为相同。
而且,本发明的特征在于,所述规定的多个文字是在所述第一文档及所述第二文档这两者中能够检测到的文字。
而且,本发明的特征在于,在将所述第一文档及所述第二文档的中心设为中心坐标的情况下,所述第一位置信息及第二位置信息通过相对坐标来表示,所述相对坐标表示从中心坐标包围自所述第一处理结果及所述第二处理结果检测出的所述文字的矩形区域的左上位置。
而且,本发明的特征在于,所述处理器根据所述第一文档与所述第二文档中各自所含的相同文字的位置信息来算出余弦相似度,若所算出的余弦相似度小于规定阈值,则不在用于相同性判定的余弦相似度的算出中使用所述文字的位置信息。
而且,本发明的特征在于,所述处理器使根据所述相同文字的位置信息而算出的余弦相似度的算出结果小于规定阈值的所述第一文档中所含的文字的位置可编辑地予以显示。
而且,本发明的特征在于,所述处理器使所述第一文档中所含的所述规定的多个文字的位置可编辑地予以显示。
而且,本发明的特征在于,所述处理器在所述第一文档中所含的所述规定的多个文字中的任一个文字的位置通过编辑而受到订正的情况下,使表示所述文字的订正前后的各位置的第一位置信息相关联地予以存储,接收第三处理结果,所述第三处理结果是对与所述第一文档不同的第三文档的文字识别处理的结果,若存在判定所述第一文档中的订正前的第一位置信息、与从所述第三处理结果检测出的所述规定的多个文字在所述第三文档上的第三位置信息为相同的文字,则利用与所述第一文档中的订正前的第一位置信息对应的订正后的第一位置信息,来对所述第三文档中的所述文字的第三位置信息进行订正。
而且,本发明的特征在于,若根据所获取的所述第三文档中的第三位置信息、与所述第三位置信息的订正后的第三位置信息而算出的余弦相似度为规定阈值以上,则所述处理器撤销所获取的所述第三文档中的第三位置信息的订正。
本发明的记录媒体记录有用于使计算机实现下述功能的程序:接收第一处理结果及第二处理结果,所述第一处理结果是对第一文档的文字识别处理的结果,所述第二处理结果是对第二文档的文字识别处理的结果;根据从所述第一处理结果中检测出的规定的多个文字在所述第一文档上的第一位置信息、与从所述第二处理结果中检测出的所述规定的多个文字在所述第二文档上的第二位置信息,来算出余弦相似度;以及若所算出的余弦相似度为规定阈值以上,则判定所述第一文档格式与所述第二文档格式为相同。
[发明的效果]
根据技术方案1所述的发明,即便使用文档上的标识标记类以外的文字,也能够判定文档格式的相同性。
根据技术方案2所述的发明,能够切实地算出余弦相似度。
根据技术方案3所述的发明,能够实现余弦相似度的算出的便利。
根据技术方案4所述的发明,能够提高第一文档与第二文档的格式上的相同性的判定精度。
根据技术方案5所述的发明,能够对分析文档而获取的文字在第一文档上的位置信息进行修正。
根据技术方案6所述的发明,能够对分析文档而获取的文字在第一文档上的位置信息进行订正。
根据技术方案7所述的发明,能够对分析文档而获取的文字在第三文档上的位置信息进行自动订正。
根据技术方案8所述的发明,能够抑制有可能发生错误的自动订正。
根据技术方案9所述的发明,即便使用文档上的标识标记类以外的文字,也能够判定文档格式的相同性。
附图说明
图1是表示本发明的信息处理装置的一实施方式的方块结构图。
图2是表示本实施方式中的票单识别处理的流程图。
图3是表示作为票单的一例的账单的图。
图4是表示在本实施方式中从票单提取的关键字值提取结果的数据结构的一例的图。
图5是用于说明本实施方式中的票单的相同性判定的图。
[符号的说明]
1:信息处理装置
2:票单获取部
3:票单分析处理部
4:票单数据库(DB)
5:关键字值提取结果数据库(DB)
6:提取结果信息存储部
31:关键字值提取部
32:票单识别部
33:提取结果信息编辑部
331:自动订正部
332:文字识别处理部
333:编辑处理部
具体实施方式
以下,基于附图来说明本发明的较佳实施方式。本实施方式中,作为信息处理装置所处理的文档,以对票单进行处理的情况为例进行说明。
本实施方式中的信息处理装置能够利用个人计算机(Personal Computer,PC)等从先前存在的通用的硬件结构来实现。即,信息处理装置1具有中央处理器(CentralProcessing Unit,CPU)、只读存储器(Read Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、硬盘驱动器(Hard Disk Drive,HDD)等存储部件、作为输入部件而设的鼠标或键盘以及作为显示部件而设的显示器等用户接口(user interface)部件、网络接口等通信部件。
图1是表示本发明的信息处理装置1的一实施方式的方块结构图。本实施方式中的信息处理装置1具有票单获取部2、票单分析处理部3、票单数据库(DB)4、关键字值提取结果数据库(DB)5及提取结果信息存储部6。另外,关于未用于本实施方式的说明的构成元件,从图中予以省略。
票单获取部2获取票单的图像数据。所获取的图像数据被保存在票单数据库4中,并且被交给票单分析处理部3。票单分析处理部3通过对所获取的票单的图像数据进行分析而识别票单的格式,而且,根据需要来制作提取结果信息以作为票单的格式的识别所需的信息,并登记到提取结果信息存储部6中。
此处,所谓“票单的格式”,简单地说,是指适用于票单的样式。例如在表示账单或交货单等票单分类的“票单的种类”中,若票单的样式不同,则票单的格式也不同。某种类的票单,例如,在账单的情况下,通常记载有表示标题的“账单”、账单的发布日期、账单编号、请求金额、还有确定请求方或请求对象的文字。这些记载的文字在账单这一种类中是共同的,是在成为比较对象的两份账单中均能够检测到的文字。但是,根据票单的样式(即,格式),文字的记载位置不一定相同,不同的情况并不少见。因而,本实施方式中,对两个票单进行比较,若票单上的这些文字的位置相同,则判别为两个票单的格式相同,若不同,则判别为两个票单的格式不同。
此外,本实施方式中,将记载于票单的所述例示的账单的“发布日期”或“账单编号”等特定的文字称作“关键字”(Key)。而且,在票单上,通常与关键字相关联地记载有文字。例如,在“发布日期”这一关键字附近,应记载有以表示发布日期的日期形式来表示的文字,在“账单编号”这一关键字附近,应记载有以表示编号的形式来表示的文字。若将关键字称作项目名,则日期或编号能够称作项目值。本实施方式中,将与关键字相关联地记载的文字称作“值”(Value)。当通过对票单的图像数据进行分析而在票单上找到与关键字相符的规定的特定文字时,由于在所述关键字的周边附近(例如在横书的情况下,多为关键字的右侧或下侧)存在值,因此能够从票单成套(set)地提取关键字与值。即,通过对票单进行扫描,能够从所述票单的读取图像(相当于所述“图像数据”)中成组地自动提取关键字与值。另外,尽管也有时仅提取关键字或者仅提取值,但在本实施方式中,也包括此情况在内,提取关键字与值的技术是利用现有技术。而且,本实施方式中所谓的“文字”,只要未特别限定,则表示一个文字的情况与包含多个文字的字符串这两者。
返回图1,票单分析处理部3具有关键字值提取部31、票单识别部32及提取结果信息编辑部33。如前所述,关键字值提取部31对票单的图像数据实施文字识别处理而提取关键字及值。以后的说明中,将所述关键字值提取处理的处理结果称作“关键字值提取结果”。票单识别部32通过对提取了关键字及值的票单、与在提取结果信息存储部6中登记有提取结果信息的票单的相同性进行判定,从而识别所述票单。即,判别票单的格式。而且,如后文详述的那样,票单识别部32根据需要来制作提取结果信息并登记到提取结果信息存储部6中。
本实施方式中,使用登记在提取结果信息存储部6中的提取结果信息来判别票单的格式,但提取结果信息编辑部33为了提高所述判别精度等,对登记在提取结果信息存储部6中的提取结果信息进行编辑。提取结果信息编辑部33具有自动订正部331、文字识别处理部332及编辑处理部333。自动订正部331参照提取结果信息来自动订正被推测为发生了错误的关键字或值的读取位置。文字识别处理部332对经自动订正部331订正的读取位置实施文字识别处理而获取正确的文字即关键字或值。编辑处理部333让用户通过手动来订正关键字或值的读取位置。
在票单数据库4中,保存有票单获取部2所获取的票单的图像数据。关键字值提取结果数据库5是作为关键字值提取结果的管理目的而使用,登记有与由关键字值提取部31所提取的关键字及值相关的信息来作为关键字值提取结果。在提取结果信息存储部6中,登记有关键字值提取部31所得出的关键字值提取结果来作为提取结果信息,以用于票单的相同性的判定。本实施方式中,由于未将提取结果信息存储部6用作关键字值提取结果的管理目的,因此并不限于登记所有票单的关键字值提取结果。关于提取结果信息的种类或数据结构将后述。
另外,为了便于说明,本实施方式中,将票单数据库4及关键字值提取结果数据库5构成为包含在信息处理装置1中,但本实施方式中的信息处理装置1是为了识别票单而使用的计算机,因此不需要保持并管理各数据库4、数据库6。因而,也可将各数据库4、数据库6构成为配置在外部装置中,信息处理装置1在需要时从外部装置获取所需的数据。
信息处理装置1中的各构成元件2、构成元件3是通过形成信息处理装置1的计算机、与由搭载于计算机的CPU所运行的程序的协调动作而实现。而且,信息处理装置1中的各存储部件4~存储部件6是利用搭载于信息处理装置1中的HDD而实现。或者,也可经由网络来利用RAM或位于外部的存储部件。
而且,本实施方式中所使用的程序当然是通过通信部件来提供,也可保存在只读光盘(Compact Disc-Read Only Memory,CD-ROM)或通用串行总线(Universal SerialBus,USB)存储器等计算机可读取的记录介质中而提供。从通信部件或记录介质提供的程序被安装(install)在计算机中,通过计算机的CPU依序执行程序,从而实现各种处理。
本实施方式中,特征在于,利用余弦相似度来判定票单的相同性,对票单进行识别。对于所述本实施方式中的票单识别处理,使用图2所示的流程图来进行说明。另外,假设在此时间点,在提取结果信息存储部6中尚未登记有提取结果信息。
首先,票单获取部2获取一个票单的图像数据(步骤101)。票单的图像数据例如是将通过使具有扫描功能的图像形成装置读取票单而生成的票单的读取图像作为图像数据,而从图像形成装置直接或间接地获取。票单获取部2将所获取的票单的图像数据登记到票单数据库4中,并且交给票单分析处理部3。另外,以下的说明中,为了方便,将在以后的处理中设为处理对象的票单的图像数据,即在步骤101中获取的票单的图像数据简称作“票单”来进行说明。
当从票单获取部2获取票单时,票单分析处理部3中的关键字值提取部31如前所述那样实施关键字值提取处理,即,对票单进行分析,利用现有技术来自动提取关键字及与所述关键字对应的值(步骤102),并将所述关键字值提取结果登记到关键字值提取结果数据库5中。更详细而言,对票单实施文字识别处理,获取从所述处理结果中检测出的规定的多个文字(即,关键字及值)在票单上的位置信息。将所获取的票单为账单时的账单的格式的一例示于图3。
如图3所示的账单的示例那样,在账单上,如“发布日期”21a、“账单编号”21b、“先生”21c等那样,在票单中包含用于分别提取值“2020/03/03”22a、“J012345”22b、“山田太郎”22c的特定文字即关键字。另外,图3的说明中,在不需要相互区分成为关键字的特定文字的情况下,总称作“关键字21”。同样,在不需要相互区分成为与各关键字21a、关键字21b、关键字21关联的值的文字的情况下,总称作“值22”。而且,在关键字21中,如“账单”21d那样,有不存在关联的值22的关键字21存在。而且,图3中虽未例示,但相反地,有不存在对应的关键字21的值22存在。
图4是表示关键字值提取部31从票单中提取的关键字值提取结果的数据结构的一例的图。另外,图4中表示了数据结构的一例,数据值不一定正确。图4中,对于每组关键字与值分别标注有序号(No.)来进行管理。关键字及值均是对表示关键字或值的文字关联有坐标、宽度及高度而设定。另外,此处的说明中,由于不需要区分说明关键字与值,因此只要未特别说明,则将关键字及值总称作“文字”来进行说明。
对于文字,利用包围所述文字的矩形区域来在票单上确定所述文字所处的区域(即,文字的位置)。坐标(X)与坐标(Y)是表示所述文字的位置的坐标信息。本实施方式中,在将票单的中心设为中心坐标的情况下,通过相对坐标来表示,所述相对坐标表示从中心坐标包围通过关键字值提取处理而检测出的文字(即,关键字及值)的矩形区域的左上位置。宽度是矩形区域的宽度(即,相当于图式横方向的X轴方向的大小)。高度是矩形区域的高度(即,相当于图式纵方向的Y轴方向的大小)。文字的位置信息包含矩形区域的大小与矩形区域的左上的坐标信息。另外,图4中,对于像No.1那样值的位置信息以空白表示的记录的关键字,表示不存在对应的值。
继而,票单识别部32参照在步骤102中获取的票单的关键字值提取结果、与登记在提取结果信息存储部6中的提取结果信息,来判定票单与过去已获取的票单的相同性(步骤103)。但是,如前所述,在此阶段,提取结果信息存储部6中尚未登记有提取结果信息。因而,此时,判断为尚不存在与票单为相同格式的票单(步骤104中为N),票单识别部32将在步骤102中获取的关键字值提取结果作为提取结果信息而登记到提取结果信息存储部6中(步骤105)。另外,以后的说明中,也有时将在步骤102中获取的关键字值提取结果称作“订正前提取结果信息”。
继而,提取结果信息编辑部33中的编辑处理部333使票单中所含的文字的位置信息可编辑地予以显示。对于经画面显示的票单,以自动提取的关键字与值的组变得明了的方式予以显示。例如,在以框来包围根据关键字与值的位置信息所确定的范围(即,矩形区域)而使其显示的情况下,只要对于关键字与值以不同的线型来显示框,而对于相同的组以相同的线的颜色来显示框,便能够一目了然地掌握关键字与值的组以及关键字与值的种类。这是一例,也可以涂满矩形区域内等其他显示形态来显示。
在票单为账单的情况下,在步骤102中的关键字值提取处理中,对于在“账单编号”这一关键字的下侧记载有正确的账单编号(即,值)之处,有可能自动提取位于所述关键字右侧的文字来作为值。此时,用户按照规定的操作流程,例如使包围位于关键字右侧的文字的框移动,以使其包围作为正确的值的文字。而且,也可通过其他操作来指定正确的值。编辑处理部333根据所述用户对值的位置的订正操作来更新图4所示的值的坐标信息(即,坐标(X)与坐标(Y))。而且,在文字的长度不同的情况下,用户也可通过规定的操作来变更框的大小。编辑处理部333根据所述用户对框的大小进行变更的操作,来更新图4所示的值的矩形区域的大小(即,宽度与高度的至少一者)。此处,以值的位置为例进行了说明,但关键字的位置也能够同样地订正。
如上所述,当由用户根据需要对关键字及值的位置进行订正时(步骤108),编辑处理部333将反映了订正的提取结果信息作为订正后提取结果信息,与订正前提取结果信息成组地登记到提取结果信息存储部6中(步骤109)。而且,利用订正后提取结果信息,对登记在关键字值提取结果数据库5中的关键字值提取结果进行更新。另外,尽管在以后的说明中予以省略,但登记在关键字值提取结果数据库5中的关键字值提取结果根据最新的提取结果信息而受到更新。
另外,在用户未对提取结果信息进行订正的情况下,不生成订正后提取结果信息,因此在步骤105中登记的订正前提取结果信息成为被单独保存的状态。
如上所述,当读取过去未在提取结果信息存储部6中登记有提取结果信息的格式的票单时,生成提取结果信息并登记到提取结果信息存储部6中。
继而,读取其他票单,由此来开始图2所示的票单识别处理,但直至实施关键字值提取处理(步骤102)的处理为止,与所述相同。票单识别部32参照在步骤102中获取的票单的关键字值提取结果、与登记在提取结果信息存储部6中的提取结果信息,来判定票单与过去已获取的票单的相同性(步骤103)。此处,对于存在被判定为与票单相同的票单时的处理将后述,但在不存在被判定为与票单相同的票单时(步骤104中为N),实施前述的处理(步骤105、步骤108、步骤109)。
在作为处理对象的其他票单是票单获取部2所获取的第二张票单的情况下,将第二格式的票单的提取结果信息登记到提取结果信息存储部6中。由于票单的格式未被识别为相同,因此反复进行以上的处理,由此,在提取结果信息存储部6中,登记与多种格式的票单对应的提取结果信息。在步骤108中对提取结果信息进行了订正的情况下,将订正前提取结果信息与订正后提取结果信息成组地予以登记。
图5中表示了下述情况:通过反复进行所述票单识别处理而将票单B、票单C、票单D、票单E的提取结果信息登记在提取结果信息存储部6中,且在步骤101中新获取了票单A。另外,票单B、票单C、票单D、票单E分别如前所述,是通过获取从实施文字识别处理而获得的处理结果中检测出的规定的多个文字(即,关键字及值)在票单上的位置信息来获取关键字值提取结果,并作为提取结果信息而登记在提取结果信息存储部6中。而且,根据需要而登记有订正后提取结果信息。另外,在步骤108中未经订正的提取结果信息由于不存在订正后提取结果信息,因而单独地登记在提取结果信息存储部6中,但由于单独登记的提取结果信息未经订正,因此为了便于说明,视为相当于订正前提取结果信息来进行说明。
以下,使用本图来说明步骤103中的本实施方式的特征性的、票单的相同性的判定处理。
本实施方式的相同性判定处理中,利用余弦相似度。余弦相似度中,将具备n个要素的数据放入n次的矢量空间中,能够表示它们相似到何种程度。余弦相似度取-1~+1的值,越接近+1,则相似度越高。
例如,如图5所例示的那样有五个票单(此处的示例中为账单),将各自的关键字及值作为输入而算出余弦相似度。也可基于所有的关键字及值来算出余弦相似度,但此处为了便于说明,假设在票单上设定有六个关键字,将这六个关键字用于余弦相似度的计算。此时,参照票单A的关键字值提取结果与票单B~票单E各自的订正前提取结果信息,以分别表示六个关键字的位置的坐标(X)与坐标(Y)的12次元来计算余弦相似度。
例如,将票单B设为第一文档,将票单A设为第二文档,基于对票单A的关键字值提取结果与对票单B的关键字值提取结果(即,订正前提取结果信息)分别所含的六个关键字的位置信息来计算余弦相似度。而且,将票单C设为第一文档,将票单A设为第二文档来计算余弦相似度。对于票单D、票单E也同样地分别设为第一文档来计算余弦相似度。
图5中,以表格式表示了所述计算结果。在作为比较对象的票单为相同格式的情况下,相似度为1或极为接近1的值。根据图5的表中所示的计算结果的数值例,票单A与票单C的余弦相似度为最高的数值,为0.913。本实施方式中,在余弦相似度为规定阈值(例如0.8)以上的情况下,判定为相同格式的票单。换言之,在余弦相似度小于规定阈值的情况下,判定为不同格式的票单。因此,图5所示的数值例中,判定为票单C是与票单A为相同格式的票单(步骤103)。另外,以后的说明中,将在步骤101中获取的作为处理对象的票单设为“票单A”,将在提取结果信息存储部6中登记有提取结果信息的、被判定为与票单A相同的票单设为“票单C”来进行说明。
在存在与票单A为相同格式的票单C的情况下(步骤104中为Y),若在提取结果信息存储部6中尚未登记有票单C的订正后提取结果信息,则不需要实施自动订正处理,但若登记有票单C的订正后提取结果信息,则提取结果信息编辑部33中的自动订正部331获取作为第一文档的票单C的订正后提取结果信息,根据所述订正后提取结果信息来对作为第三文档的票单A的关键字值提取结果进行订正(步骤106)。
若在对票单C的关键字值提取处理(步骤102)中自动提取的文字的位置不正确,则在步骤108中由用户手动订正所述文字的位置。即,与在对票单A实施的关键字值提取处理(步骤102)中自动提取且由于在票单C中不正确因而位置经订正的文字相同的文字,应成为在步骤108中由用户手动订正的对象。
因此,本实施方式中,将基于关键字值提取处理的订正前提取结果信息、与基于由用户进行的订正的订正后提取结果信息相关联地予以存储,并不在步骤108中由用户进行订正,而是在步骤106中根据订正后提取结果信息来自动订正票单A的关键字值提取结果。由此,能够节省用户对文字位置的订正的工时。
进行了自动订正后,自动订正部331根据票单A中订正前的文字的位置信息与订正后的文字的位置信息来尝试计算余弦相似度。并且,若所算出的余弦相似度为规定阈值以上,则自动订正部331撤销票单A中的文字的位置的自动订正。这是因为,由于判定为订正前后的位置相同,因而并不需要进行订正。况且,存在误订正文字位置的可能性。
当自动订正部331基于票单C的订正后提取结果信息而有效地订正票单A的文字位置时,文字识别处理部332对根据票单A的订正后提取结果信息而确定的关键字及值的位置,即存在关键字及值的正确位置实施文字识别处理,由此,正确地提取关键字及值(步骤107)。
基本上,通过以上的处理,可推测为对于票单A能获得正确的关键字值提取结果,但例如尽管值的位置正确,但若矩形区域小,则会产生无法正确提取文字的可能性。例如,在与住址这一关键字对应的值的情况下,住址的记载长而有可能在提取结果信息中无法利用所设定的矩形区域来提取构成住址的所有文字。因此,本实施方式中,在编辑处理部333中,使票单A中所含的文字的位置信息可编辑地予以显示,使手动订正成为可能(步骤108)。此处,在由用户进行了编辑的情况下,基于所述编辑结果来更新订正后提取结果信息。并且,编辑处理部333对于票单A的关键字值提取结果,将所述订正后提取结果信息与订正前提取结果信息相关联地登记到提取结果信息存储部6中(步骤109)。
这样,首次获取的格式的票单的提取结果信息可单独登记到提取结果信息存储部6中,但如所述例示的票单A那样,并非首次的格式的票单的提取结果信息是将订正前提取结果信息与订正后提取结果信息成组地予以登记。
此时,将相同格式的票单的提取结果信息登记到提取结果信息存储部6中。并且,在作为新的票单识别处理对象的票单(例如票单F)的格式与票单A、票单C相同的情况下,在步骤103中,作为所算出的余弦相似度为规定阈值以上的票单而判定为票单A及票单C这两者与票单F的格式相同。但是,此时,只要使用其中任一个票单的提取结果信息来实施步骤106以后的处理即可。例如,也可使用与余弦相似度最大的票单对应的提取结果信息。
如以上所说明的那样,本实施方式中,参照关键字值提取结果,利用余弦相似度来判定票单的相同性,而且,能够根据需要来订正关键字值提取结果,从而能够提高相同性的识别精度。
此外,在关键字值提取处理(步骤102)中,即使准确地提取了所有的关键字及值,也有可能进一步误认为关键字或值而提取到不需要的文字。因此,票单识别部32在为了前述的相同性的判定而算出余弦相似度之前,提取关键字值提取部31对票单(所述票单A)的关键字值提取结果、及与票单A进行比较的票单(所述票单B~票单E)的订正前提取结果信息中各自所含的相同的文字,根据所提取的各文字的位置信息来计算余弦相似度。并且,若所算出的余弦相似度小于规定阈值,则票单识别部32不将所述文字的位置信息使用到用于相同性判定的余弦相似度的算出。即,排除所算出的余弦相似度小于规定阈值的文字的位置信息而计算余弦相似度,基于所述算出结果来判定作为比较对象的票单的相同性(步骤103)。
此时,票单识别部32使从进行比较的票单中提取的文字,即根据相同的文字的位置信息而算出的余弦相似度的算出结果小于规定阈值的文字的位置可编辑地予以显示。由此,能够让用户进行修正,例如对被误认为关键字或值而提取的文字的位置进行订正,或者从作为关键字或值的文字中予以排除等。
如以上所说明的那样,根据本实施方式,即便使用票单上的标识标记类以外的文字,也能够判定票单格式的相同性,由此,能够识别票单。
所述实施方式中,所谓处理器,是指广义上的处理器,包含通用处理器(例如中央处理器(Central Processing Unit,CPU)等)或者专用处理器(例如图形处理器(GraphicsProcessing Unit,GPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件等)。
而且,所述实施方式中的处理器的动作也可不仅由一个处理器来完成,而且由位于物理上分离的位置的多个处理器协同完成。而且,处理器的各动作的顺序并不仅限定于所述各实施方式中记载的顺序,也可适当变更。
Claims (9)
1.一种信息处理装置,其特征在于,包括处理器,
所述处理器接收第一处理结果及第二处理结果,所述第一处理结果是对第一文档的文字识别处理的结果,所述第二处理结果是对第二文档的文字识别处理的结果,
根据从所述第一处理结果中检测出的规定的多个文字在所述第一文档上的第一位置信息、与从所述第二处理结果中检测出的所述规定的多个文字在所述第二文档上的第二位置信息,来算出余弦相似度,
若所算出的余弦相似度为规定阈值以上,则判定所述第一文档格式与所述第二文档格式为相同。
2.根据权利要求1所述的信息处理装置,其特征在于,
所述规定的多个文字是在所述第一文档及所述第二文档这两者中能够检测到的文字。
3.根据权利要求1所述的信息处理装置,其特征在于,
在将所述第一文档的中心设为所述第一文档的中心坐标及将所述第二文档的中心设为所述第二文档的中心坐标的情况下,所述第一位置信息通过用以表示从所述第一文档的中心坐标包围自所述第一处理结果检测出的所述文字的矩形区域的左上位置的相对坐标来表示,所述第二位置信息通过用以表示从所述第二文档的中心坐标包围自所述第二处理结果检测出的所述文字的矩形区域的左上位置的相对坐标来表示。
4.根据权利要求1所述的信息处理装置,其特征在于,
所述处理器根据所述第一文档与所述第二文档中各自所含的相同文字的位置信息来算出余弦相似度,
若所算出的余弦相似度小于规定阈值,则不在用于相同性判定的余弦相似度的算出中使用所述文字的位置信息。
5.根据权利要求4所述的信息处理装置,其特征在于,
所述处理器使根据所述相同文字的位置信息而算出的余弦相似度的算出结果小于规定阈值的所述第一文档中所含的文字的位置可编辑地予以显示。
6.根据权利要求1所述的信息处理装置,其特征在于,
所述处理器使所述第一文档中所含的所述规定的多个文字的位置可编辑地予以显示。
7.根据权利要求6所述的信息处理装置,其特征在于,
所述处理器在所述第一文档中所含的所述规定的多个文字中的任一个文字的位置通过编辑而受到订正的情况下,使表示所述文字的订正前后的各位置的第一位置信息相关联地予以存储,
接收第三处理结果,所述第三处理结果是对与所述第一文档不同的第三文档的文字识别处理的结果,
若存在判定所述第一文档中的订正前的第一位置信息、与从所述第三处理结果检测出的所述规定的多个文字在所述第三文档上的第三位置信息为相同的文字,则利用与所述第一文档中的订正前的第一位置信息对应的订正后的第一位置信息,来对所述第三文档中的所述文字的第三位置信息进行订正。
8.根据权利要求7所述的信息处理装置,其特征在于,
若根据所获取的所述第三文档中的第三位置信息、与所述第三位置信息的订正后的第三位置信息而算出的余弦相似度为规定阈值以上,则所述处理器撤销所获取的所述第三文档中的第三位置信息的订正。
9.一种记录媒体,其记录有用于使计算机实现下述功能的程序:
接收第一处理结果及第二处理结果,所述第一处理结果是对第一文档的文字识别处理的结果,所述第二处理结果是对第二文档的文字识别处理的结果;
根据从所述第一处理结果中检测出的规定的多个文字在所述第一文档上的第一位置信息、与从所述第二处理结果中检测出的所述规定的多个文字在所述第二文档上的第二位置信息,来算出余弦相似度;以及
若所算出的余弦相似度为规定阈值以上,则判定所述第一文档格式与所述第二文档格式为相同。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-052317 | 2020-03-24 | ||
JP2020052317A JP2021152696A (ja) | 2020-03-24 | 2020-03-24 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449763A true CN113449763A (zh) | 2021-09-28 |
Family
ID=77808519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010903733.1A Pending CN113449763A (zh) | 2020-03-24 | 2020-09-01 | 信息处理装置以及记录媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210303782A1 (zh) |
JP (1) | JP2021152696A (zh) |
CN (1) | CN113449763A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220245377A1 (en) * | 2021-01-29 | 2022-08-04 | Intuit Inc. | Automated text information extraction from electronic documents |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4452012B2 (ja) * | 2002-07-04 | 2010-04-21 | ヒューレット・パッカード・カンパニー | 文書の特有性評価方法 |
US10083229B2 (en) * | 2009-10-09 | 2018-09-25 | International Business Machines Corporation | System, method, and apparatus for pairing a short document to another short document from a plurality of short documents |
US20120063684A1 (en) * | 2010-09-09 | 2012-03-15 | Fuji Xerox Co., Ltd. | Systems and methods for interactive form filling |
JP2014067154A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書分類支援装置、方法及びプログラム |
JP6523998B2 (ja) * | 2016-03-14 | 2019-06-05 | 株式会社東芝 | 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム |
US10331684B2 (en) * | 2016-06-03 | 2019-06-25 | International Business Machines Corporation | Generating answer variants based on tables of a corpus |
US11403465B2 (en) * | 2018-08-24 | 2022-08-02 | Royal Bank Of Canada | Systems and methods for report processing |
US10540381B1 (en) * | 2019-08-09 | 2020-01-21 | Capital One Services, Llc | Techniques and components to find new instances of text documents and identify known response templates |
US11195008B2 (en) * | 2019-10-30 | 2021-12-07 | Bill.Com, Llc | Electronic document data extraction |
-
2020
- 2020-03-24 JP JP2020052317A patent/JP2021152696A/ja active Pending
- 2020-07-08 US US16/924,161 patent/US20210303782A1/en not_active Abandoned
- 2020-09-01 CN CN202010903733.1A patent/CN113449763A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210303782A1 (en) | 2021-09-30 |
JP2021152696A (ja) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
JP4347677B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP3294995B2 (ja) | 帳票読取装置 | |
US8213717B2 (en) | Document processing apparatus, document processing method, recording medium and data signal | |
JP4078009B2 (ja) | 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置 | |
JP4977368B2 (ja) | 媒体処理装置,媒体処理方法,媒体処理システム,及び媒体処理プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP2008204226A (ja) | 帳票認識装置およびそのプログラム | |
WO2023038722A1 (en) | Entry detection and recognition for custom forms | |
CN113449763A (zh) | 信息处理装置以及记录媒体 | |
JP4983464B2 (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP2008282094A (ja) | 文字認識処理装置 | |
JP4807618B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP7435118B2 (ja) | 情報処理装置及びプログラム | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP2022095391A (ja) | 情報処理装置、及び情報処理プログラム | |
US20080137955A1 (en) | Method for recognizing characters | |
JP3946043B2 (ja) | 帳票識別装置及び識別方法 | |
KR20090123523A (ko) | 광학 문자 인식 시스템 및 방법 | |
JP4710707B2 (ja) | 追記情報処理方法、追記情報処理装置、およびプログラム | |
CN117475453B (zh) | 一种基于ocr的文书检测方法、装置及电子设备 | |
JP7037237B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2006134079A (ja) | 画像処理装置及びプログラム | |
CN115131806B (zh) | 一种基于深度学习的各类证件ocr图像信息识别方法、系统 | |
JP4418823B2 (ja) | 帳票識別装置及びその識別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |