CN112417936A - 信息处理装置及记录媒体 - Google Patents

信息处理装置及记录媒体 Download PDF

Info

Publication number
CN112417936A
CN112417936A CN202010162996.1A CN202010162996A CN112417936A CN 112417936 A CN112417936 A CN 112417936A CN 202010162996 A CN202010162996 A CN 202010162996A CN 112417936 A CN112417936 A CN 112417936A
Authority
CN
China
Prior art keywords
item
information processing
processing apparatus
setting information
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010162996.1A
Other languages
English (en)
Inventor
北村拓己
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN112417936A publication Critical patent/CN112417936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明的目的在于提供一种信息处理装置及记录媒体,所述信息处理装置及所述信息处理程序相较于读取存在多个相同项目的文件而对所设定的项目无法识别所检测出的多个字符串的情况,可以减轻用户对识别结果的作业。本发明的信息处理装置具备处理器,所述处理器在从对项目设置着记载栏的文件检测到多个表示第一项目的第一字符串的情况下,对多个所述第一字符串分别检测表示与第一项目建立关联的第二项目的第二字符串,将所检测出的第二字符串的至少1个作为第二项目,与第一项目建立关联而设定在设定信息中。

Description

信息处理装置及记录媒体
技术领域
本发明涉及一种信息处理装置及记录媒体。
背景技术
在专利文献1中,揭示了一种表单识别装置,识别记载在表单中的字符串,且具备:项目名,是表示数据属性的字符串;图像输入部,输入包含相对于所述项目名的数据的字符串即项目值的表单图像;项目值标题得分计算部,对从所述表单图像识别的所述表单图像内的字符串计算项目值标题得分,所述项目值标题得分表现该字符串为所述项目值的概率;项目值单词得分计算部,对所述表单图像内的字符串计算项目值单词得分,所述项目值单词得分表现该字符串为表示预先登录的详细项目值的项目值单词的概率;项目值候补选择部,将包含所述项目值标题得分及所述项目值单词得分这两者的得分作为项目值得分(Sv),将所述项目值得分高于预先规定的阈值的字符串选为项目值候补,且作为相对于所选择的项目值候补的项目值候补得分(Sc)给出所述项目值得分(Sv);项目值候补配置得分计算部,对于所述表单图像内的所述项目值候补的字符串对,在将所述表单图像内彼此相关的多个属性的项目值的组合作为项目值组的情况下,计算表现该字符串对的配置关系作为各项目值组的项目值是否妥当的项目值候补配置得分(Sca);项目值候补对得分计算部,对于所述表单图像内的项目值候补的字符串对,基于所述项目值得分(Sv)、所述项目值候补配置得分(Sca),计算表现所述字符串作为所述项目值组的项目值的合理性的评估值即项目值候补对得分(Scp);项目值组评估部,根据所述项目值候补对得分(Scp),对所述表单图像内的字符串与所述项目值组的对应建立进行评估,由此,识别项目值的字符串;以及输出部,输出所述表单图像内的字符串的识别结果。
[现有技术文献]
[专利文献]
[专利文献1]日本专利特开2016-051339号公报
发明内容
[发明欲解决的课题]
例如,有如下信息处理装置,即,通过读取用户填入的文件,从所填入的文件检测设定的项目,并从文件识别并输出与所检测出的项目建立关联的字符串。
然而,例如在所填入的文件中有多个名称等相同项目的情况下,有时对于设定信息中设定的一个项目识别多个字符串。对有多个相同项目的文件进行读取的结果是,无法对设定信息中设定的项目,识别检测出的多个字符串。在此情况下,由用户手动进行编辑作业以使对项目识别的多个字符串成为可识别状态,未必能够减轻用户的作业。
本发明的目的在于提供一种信息处理装置及信息处理程序,所述信息处理装置及所述信息处理程序相较于读取存在多个相同项目的文件而对所设定的项目无法识别所检测出的多个字符串的情况,能够减轻用户对识别结果的作业。
[解决课题的手段]
第1实施方式的信息处理装置具备处理器,所述处理器在从对项目设置着记载栏的文件检测出多个表示第一项目的第一字符串的情况下,对多个第一字符串分别检测表示与第一项目建立关联的第二项目的第二字符串,将所检测出的第二字符串的至少1个作为第二项目,与第一项目建立关联而设定在设定信息中。
第2实施方式的信息处理装置在第1实施方式的信息处理装置中,处理器执行以下两种处理中的至少一种,即:将所检测出的多个第一字符串作为第一项目的候补来显示的处理、及将多个第二字符串作为第二项目的候补来显示的处理。
第3实施方式的信息处理装置在第2实施方式的信息处理装置中,处理器执行以下两种处理中的至少一种,即:使从所检测出的多个第一字符串选择第一项目的处理、及使从多个第二字符串选择第二项目的处理。
第4实施方式的信息处理装置在第1实施方式至第3实施方式的任一实施方式的信息处理装置中,处理器基于文件中的第一项目与第二项目的位置信息、或第一项目与第二项目的语义的从属关系,将第一项目与第二项目建立关联。
第5实施方式的信息处理装置在第1实施方式至第4实施方式的任一实施方式的信息处理装置中,处理器检测作为记载在与设定信息对应的记载栏的字符串的第三字符串,与设定信息建立关联,而输出第三字符串。
第6实施方式的信息处理装置在第5实施方式的信息处理装置中,处理器按照以下两种形式的任一种形式进行输出,即:第一形式,将设定信息所包含的第一项目、设定信息所包含的第二项目、及第三字符串分别分开输出;以及第二形式,将设定信息所包含的第一项目及第二项目连结,设定为唯一的项目,输出唯一的项目及第三字符串。
第7实施方式的信息处理装置在第6实施方式的信息处理装置中,处理器受理输出形式的选择。
第8实施方式的信息处理装置在第6实施方式或第7实施方式的信息处理装置中,处理器在多个且相同的第一项目、或多个且相同的第二项目设定在设定信息中的情况下,对所设定的第一项目或第二项目分别附加唯一字符并设定在设定信息中。
第9实施方式的记录媒体存储着信息处理程序,所述信息处理程序使计算机执行如下步骤:检测步骤,在从对项目设置有记载栏的文件检测出多个表示第一项目的第一字符串的情况下,对多个第一字符串分别检测表示与第一个项目建立关联的第二项目的第二字符串;以及设定步骤,将所检测出的第二字符串的至少1个作为第二项目,与第一项目建立关联而设定在设定信息中。
[发明效果]
根据第1实施方式的信息处理装置及第9实施方式的记录媒体,相较于读取存在多个相同项目的文件而对所设定的项目无法识别所检测出的多个字符串的情况,能够减轻用户对识别结果的作业。
根据第2实施方式的信息处理装置,能够确认所检测出的第一项目及第二项目的至少一个的候补。
根据第3实施方式的信息处理装置,能够从所检测出的第一项目及第二项目的至少一个的候补只抽出必要的信息。
根据第4实施方式的信息处理装置,相较于不基于位置关系或从属关系进行第一项目及第二项目的关联建立的情况,能够更适当地检测与第一项目建立关联的第二项目。
根据第5实施方式的信息处理装置,即使有多个相同项目,也能够识别对各个项目的手写的字符串。
根据第6实施方式的信息处理装置,能够确认设定信息与第三字符串的对应关系。
根据第7实施方式的信息处理装置,相较于无法选择输出形式的情况,能够获取与状况相符的输出数据。
根据第8实施方式的信息处理装置,与未附加唯一字符的情况相比,更能够识别所检测出的字符串。
附图说明
图1是表示各实施方式的信息处理装置的硬件构成的一个例子的框图。
图2是表示各实施方式的信息处理装置的功能性构成的一个例子的框图。
图3是表示第1实施方式的未填入文件的一个例子的图。
图4是表示各实施方式的关联项目数据库的一个例子的示意图。
图5是表示供说明各实施方式中设定相同群组关键字的未填入文件的一个例子的图。
图6是表示第1实施方式的信息处理的一个例子的流程图。
图7是表示第2实施方式的未填入文件的一个例子的图。
图8是表示第2实施方式的信息处理的一个例子的流程图。
附图标号说明
1:信息处理装置
11:CPU;
12:ROM;
13:RAM;
14:存储器;
15:输入部;
16:显示部;
17:通信I/F;
18:总线;
21:设定信息制作部;
22:图像输入部;
23:文件识别处理部;
24:确认订正部;
25:结果输出部;
31、32、33、34:字符串;
40:关联项目DB。
具体实施方式
[第1实施方式]
以下,参照附图,对用来实施本发明的技术的方式例详细地进行说明。另外,本实施方式的信息处理装置1作为一个例子,对为管理读取文件及表单等所得的数据的服务器的实施方式进行说明。不过,并不限定于所述情况。信息处理装置1也可以搭载在例如具有印刷功能、复印功能、扫描功能、及传真功能等功能的多功能一体机,也可以是个人计算机等终端。
图1是表示本实施方式的信息处理装置1的硬件构成的一个例子的框图。像图1所示的那样,本实施方式的信息处理装置1构成为包含中央处理单元(Central ProcessingUnit,CPU)11、只读存储器(Read Only Memory,ROM)12、随机存取存储器(Random AccessMemory,RAM)13、存储器14、输入部15、显示部16、及通信接口(通信I/F)17。CPU11、ROM12、RAM13、存储器14、输入部15、显示部16、及通信I/F17各自通过总线18而相互连接。另外,本实施方式的CPU11是处理器的一个例子。
CPU11总括控制信息处理装置1的整体。ROM12存储包含本实施方式中使用的信息处理程序的各种程序及数据等。RAM13是作为各种程序执行时的工作区来使用的存储器。CPU11通过将存储在ROM12的程序在RAM13展开并执行,而进行字符串的检测以及将所检测出的字符串建立关联而存储的处理。作为一个例子,存储器14是硬盘驱动器(Hard DiskDrive,HDD)、固态驱动器(Solid State Drive,SSD)或闪存等。另外,在存储器14也可以存储信息处理程序等。输入部15是受理要检测的字符串及字符串的选择等的输入的键盘及鼠标等。显示部16是将所检测出的字符串作为所要设定的候补显示的显示器等。通信I/F17进行数据的收发。
接下来,对信息处理装置1的功能构成进行说明。图2是表示本实施方式的信息处理装置1的功能性构成的一个例子的框图。
像图2所示的那样,信息处理装置1具有设定信息制作部21、图像输入部22、文件识别处理部23、确认订正部24、及结果输出部25。通过CPU11执行信息处理程序,而作为设定信息制作部21、图像输入部22、文件识别处理部23、确认订正部24、及结果输出部25发挥功能。
设定信息制作部21受理未填入的文件数据、及文件所包含且为要检测的对象的项目(以下称为“第一项目”)的输入,从对项目设置着记载栏的文件检测表示第一项目的字符串(以下称为“第一字符串”)。设定信息制作部21在检测出多个第一字符串的情况下,对多个第一字符串分别检测表示与第一项目建立关联的项目(以下称为“第二项目”)的字符串(以下称为“第二字符串”)。设定信息制作部21将所检测出的第二字符串的至少1个作为第二项目,与第一项目建立关联而设定在设定信息中。
也就是说,设定信息制作部21从未填入的文件数据检测所输入的第一项目,且检测与第一项目建立关联的第二项目,将第一项目及第二项目设定在设定信息中。在第一项目与第二项目的关联建立中,设定信息制作部21基于文件中的第一项目及第二项目的位置信息、或第一项目及第二项目的语义的从属关系,将第一项目与第二项目建立关联,设定在设定信息中。在设定信息中设定供填入由用户手写填入的字符串(以下称为“第三字符串”)的相对位置。相对位置是填入以第一项目及第二项目为基准的第三字符串的方向。
设定信息制作部21执行将检测出的多个第一字符串作为第一项目的候补来显示的处理、或将多个第二字符串作为第二项目的候补来显示的处理。设定信息制作部21执行从检测出的多个第一字符串选择第一项目的处理、或从多个第二字符串选择第二项目的处理。设定信息制作部21在多个且相同的第一项目、或多个且相同的第二项目设定在设定信息中的情况下,对所设定的第一项目或第二项目分别附加唯一字符,并设定在设定信息中。
对本实施方式的设定信息制作部21受理未填入的文件数据的输入,并对设定信息进行设定的方式进行了说明。不过,并不限定于所述方式。也可以在读取已填入文件时,从已填入文件读取字符串,而对设定信息进行设定。
图像输入部22进行将用户填入的已填入文件以图像形式读取的处理。文件识别处理部23从图像输入部22读取已填入文件所得的图像,基于设定信息,通过光学字符识别(Optical Character Recognition,OCR)处理,而识别第三字符串。确认订正部24将识别出的字符串显示在显示部16,且受理字符串的修正。
结果输出部25将从文件识别出的字符串按项目输出。结果输出部25将所检测出的字符串以将设定信息所包含的第一项目、设定信息所包含的第二项目、及第三字符串分别分开输出的形式(以下称为“JSON形式”)输出字符串。此外,结果输出部25以将设定信息所包含的第一项目及第二项目连结而设定为唯一项目并输出唯一项目及第三字符串的形式(以下称为“键值形式”)输出字符串。结果输出部25按照JSON形式、或键值形式的任一输出形式输出第一项目、第二项目、及第三字符串。所述输出形式由设定信息制作部21受理输出形式的选择,并设定在设定信息中。另外,JSON形式是第一形式的一个例子。但是,第一形式并不限定于JSON形式。此外,键值形式是第二形式的一个例子。但是,并不限于所述键值形式。
另外,在本实施方式中,对如下方式进行了说明,即,对设定信息进行设定的功能、执行图像输入部22、文件识别处理部23、确认订正部24、及结果输出部25等的OCR处理的功能包含在一体的装置中。但是,并不限定于所述方式。只要在执行OCR处理时能够读取设定信息,那么对设定信息进行设定的功能、及执行OCR处理的功能也可以组入不同的装置。
接下来,在对信息处理装置1的作用进行说明之前,参照图3至图6对信息处理装置1进行的用来对设定信息进行设定的方法进行说明。另外,本实施方式的文件包含“姓名”及“住址”等项目(以下称为“关键字”)、及表示汇总“本人”及“代理人”等多个关键字的所属的项目(以下称为“群组关键字”)。在第1实施方式中,对示出群组关键字作为第一项目、示出关键字作为第二项目的方式进行说明。
首先,参照图3,对输入群组关键字而对设定信息进行设定的方法进行说明。图3是表示本实施方式的未填入文件的一个例子的图。
作为一个例子,像图3所示的那样,在输入到信息处理装置1的作为未填入的文件数据的委托书设置着供填入“代理人”的“住址”、“姓名”、及“出生年月日”的项目。此外,在委托书中设置着供填入“本人”的“住址”、“姓名”、及“出生年月日”的项目。
例如,在信息处理装置1中,作为委托书的文件数据、及检测的对象,输入作为群组关键字的“代理人”。信息处理装置1像图3所示的那样,作为第一项目的候补,检测由单点链线包围的第一字符串31,显示在显示部16,设定为第一项目。具体来说,从所输入的文件数据检测“代理人”,突出显示在显示部16。在所检测出的第一字符串31为1个的情况下,将第一字符串31作为第一项目,设定在设定信息中。此外,在检测出的第一字符串31为多个的情况下,将多个第一字符串31显示在显示部16,将用户选择的第一字符串31作为第一项目,设定在设定信息中。另外,所要选择的第一字符串可以是1个,也可以选择多个。
信息处理装置1在设定了第一项目的情况下,检测由虚线包围的第二字符串32作为与第一项目建立关联的第二项目的候补,显示在显示部16,并设定为第二项目。具体来说,检测位于“代理人”周围的“住址”、“姓名”、及“出生年月日”,突出显示在显示部16。在检测出的第二字符串32为1个的情况下,将第二个字符串32作为第二项目设定在设定信息中。此外,在检测出的第二字符串32为多个的情况下,将多个第二字符串32显示在显示部16,将用户选择的第二字符串32作为第二项目,设定在设定信息中。另外,所要选择的第二字符串可以是1个,也可以选择多个。
信息处理装置1在设定了第二项目的情况下,使用户选择以第二项目(关键字)的位置为基准的第三字符串所在的相对位置,设定在设定信息中。信息处理装置1使用户选择识别出第三字符串时的输出形式,并设定在设定信息中。
信息处理装置1在读入已填入文件时,获取与读入的文件相同的文件的设定信息,并从写入的文件识别与设定信息所包含的第一项目及第二项目对应的第三字符串。信息处理装置1基于设定在设定信息中的输出形式,输出第一项目、第二项目、及第三字符串。
在本实施方式中,对将位于第一项目周围的第二字符串作为第二项目建立关联的方式进行说明。但是,并不限定于所述方式。也可以将第一项目作为基准而指定检测第二字符串32的方向。具体来说,信息处理装置1可以基于将第一项目作为基准的相对位置(方向),进行第二字符串32的检测,也可以基于第一项目与第二项目的语义的从属关系,进行第一项目及第二项目的关联建立。
接下来,参照图4,基于语义的从属关系,对第一项目与第二项目的关联建立进行说明。图4是表示本实施方式的关联项目数据库(以下称为“关联项目DB”)40的一个例子的示意图。
作为一个例子,像图4所示的那样,关联项目DB40作为表示第一项目与第二项目的语义的从属关系的信息,存储着群组关键字、及关键字。关联项目DB40的群组关键字存储着表示将多个关键字汇总的所属的项目,关联项目DB40的关键字存储着属于群组关键字且关系被认定的项目的候补。也就是说,在关联项目DB40中定义并预先存储着从属关系被认定的群组关键字及关键字。例如,在作为群组关键字的“担保人”中建立关联并存储着作为从属于“担保人”的关键字的“姓名”、“住址”、“电话号码”、“名字”、“编号”、“现住址”等候补。信息处理装置1将文件所包含的项目与从关联项目DB获取的信息进行比较,而进行第二字符串32的检测。
具体来说,信息处理装置1在基于语义的从属关系检测第二字符串32的情况下,从关联项目DB40检索并获取与设定在第一项目的群组关键字建立关联的关键字。信息处理装置1对文件所包含的项目、及所获取的关键字进行比较,当存在一致项目的情况下,将一致项目作为第二字符串32突出显示。
另外,在本实施方式中,对关联项目DB40预先存储的方式进行说明。然而,并不限于所述方式。也可以将设定在设定信息中的第一项目及第二项目存储在关联项目DB40,作为表示语义的从属关系的信息来储存。
接下来,参照图5,对在设定信息中设定相同的群组关键字的情况进行说明。图5是表示供说明本实施方式中设定相同群组关键字的的未填入文件的一个例子的图。
作为一个例子,像图5所示的那样,在输入到信息处理装置1的作为未填入的文件数据的身份担保书中设置着供填入“担保人”的“现住址”、“职业”、“姓名”、及“与本人的关系”的项目。
信息处理装置1被输入作为群组关键字的“担保人”作为身份担保书的文件数据、及检测的对象。信息处理装置1像图5所示的那样,检测由单点链线包围的第一字符串33及第一字符串34作为第一项目的候补显示在显示部16。在用户选择第一字符串33及第一字符串34的情况下,信息处理装置1将第一字符串33及第一字符串34设定为第一项目。信息处理装置1检测第二字符串32作为与第一字符串33及第一字符串34建立关联的第二项目的候补,显示在显示部16,并将用户选择的第二字符串32作为第二项目,设定在设定信息中。
信息处理装置1选择多个群组关键字作为第一项目或第二项目,且在所选择的群组关键字相同的情况下,以群组关键字变成唯一的方式,对各个群组关键字附加唯一字符,而设定在设定信息中。具体来说,像图5所示的那样,在作为文件数据的身份担保书中,作为群组关键字,包含多个“担保人”,而作为第一字符串33及第一字符串34被检测出来。在用户选择了第一字符串33及第一字符串34的情况下,在表示第一字符串33的“担保人”附加“1”,在表示第一字符串34的“担保人”附加“2”,而设定在设定信息中。也就是说,在基于所述设定信息进行OCR处理的情况下,输出“担保人1”的“现住址”、“职业”、“姓名”、及“与本人的关系”、“担保人2”的“现住址”、“职业”、“姓名”、及“与本人的关系”。另外,在本实施方式中,对在群组关键字相同的情况下附加唯一字符的方式进行说明。然而,并不限定于所述方式。在关键字相同的情况下,也可以附加唯一字符。此外,在本实施方式中,对附加数字作为唯一字符的方式进行了说明。然而,并不限于所述方式。可以附加唯一符号,也可以附加将唯一数字及符号组合所得的字符。
接下来,参照图6,对本实施方式的信息处理程序的作用进行说明。首先,图6是表示本实施方式的信息处理的一个例子的流程图。CPU11从ROM12或存储器14读出并执行信息处理程序,由此,执行图6所示的信息处理。图6所示的信息处理例如是在输入了文件数据且输入了信息处理程序的执行指示的情况下执行信息处理。
在步骤S101中,CPU11进行是否输入了某些文件数据的判定。在输入了文件数据的情况下(步骤S101:是),CPU11移行到步骤S102。另一方面,在未输入文件数据的情况下(步骤S101:否),CPU11待机直到输入文件数据为止。此处,用户输入文件数据,并且输入对设定信息进行设定的指示或进行OCR处理的指示的任一个指示、及JSON形式或键值形式的任一种输出形式。
在步骤S102中,CPU11判定用户输入了对设定信息进行设定的指示、或进行OCR处理的指示的哪一指示。在输入了设定信息的设定指示的情况下(步骤S102:是),CPU11移行到步骤S103。另一方面,在输入了进行OCR处理的指示的情况下(步骤S102:否),CPU11移行到步骤S116。
在步骤S103中,CPU11获取所输入的文件数据。
在步骤S104中,CPU11获取所输入的第一项目的候补。
在步骤S105中,CPU11使用所输入的第一项目的候补,检测文件数据所包含的第一字符串。
在步骤S106中,CPU11将所检测出的第一字符串突出显示。此处,用户选择第一字符串。
在步骤S107中,CPU11将用户选择的第一字符串设定为第一项目。
在步骤S108中,CPU11进行是否设定了多个第一项目的判定。在设定了多个第一项目的情况下(步骤S108:是),CPU11移行到步骤S109。另一方面,在未设定多个第一项目的情况下(步骤S108:否),CPU11移行到步骤S110。
在步骤S109中,CPU11对所设定的多个第一项目附加唯一字符并进行存储。
在步骤S110中,CPU11从所输入的文件数据检测作为与第一项目建立关联的第二项目的候补的第二字符串。
在步骤S111中,CPU11将所检测出的第二字符串突出显示。此处,用户选择第二字符串,且输入以第二字符串(关键字)为基准的第三字符串所在的相对位置。另外,在本实施方式中,对输入相对位置的方式进行说明。然而,并不限定于所述方式。也可以设定为不输入相对位置的方式。在不输入相对位置的情况下,CPU11以第二字符串(关键字)为基准,全方位进行第三字符串的检测。
在步骤S112中,CPU11将用户选择的第二字符串设定为第二项目。
在步骤S113中,CPU11获取以第二项目(关键字)为基准的第三字符串所在的相对位置。
在步骤S114中,CPU11获取用户选择的JSON形式、或键值形式的任一输出形式。
在步骤S115中,CPU11将第一项目、第二项目、相对位置、及输出形式设定在设定信息中并进行存储。
在步骤S116中,CPU11判定是否进行OCR处理。在进行OCR处理的情况下(步骤S116:是),CPU11移行到步骤S117。另一方面,在不进行OCR处理的情况下(步骤S116:否),CPU11结束信息处理。
在步骤S117中,CPU11获取设定信息。
在步骤S118中,CPU11从设定信息获取相对位置。
在步骤S119中,CPU11基于所获取的相对位置,检测填入到文件数据的第三字符串。
在步骤S120中,CPU11判定设定信息中设定的输出形式是否为键值形式。在为键值形式的情况下(步骤S120:是),CPU11移行到步骤S121。另一方面,在为JSON形式的情况下(步骤S120:否),CPU11移行到步骤S122。
在步骤S121中,CPU11获取设定信息中设定的第一项目、及第二项目,并进行连结。
在步骤S122中,CPU11获取设定信息中设定的第一项目、及第二项目。
在步骤S123中,CPU11基于输出形式输出第一项目、第二项目、及第三字符串。
像以上所说明的那样,根据本实施方式,通过设定群组关键字及关键字,可以识别文件所包含的相同项目。因此,即使读取存在多个相同项目的文件,也可以对设定的项目产生能够识别所检测出的多个字符串的设定信息。
[第2实施方式]
在第1实施方式中,对在第一项目设定群组关键字且在第二项目设定关键字的方式进行了说明。在本实施方式中,对在第一项目设定关键字且在第二项目设定群组关键字的方式进行说明。另外,表示本实施方式的信息处理装置1的硬件构成的框图(参照图1)、表示信息处理装置1的功能性构成的框图(参照图2)与第1实施方式相同,因此,省略说明。此外,表示本实施方式的关联项目DB40的示意图(参照图4)及表示供说明设定相同群组关键字的未填入文件的图(参照图5)与第1实施方式相同,因此,省略说明。
参照图7,对第2实施方式的输入关键字并对设定信息进行设定的方法进行说明。图7是表示第2实施方式的未填入文件的一个例子的图。另外,图7所示的未填入文件对图3中的相同构成要素附加与图3相同的符号,并省略它的说明。
作为一个例子,像图7所示的那样,在输入到信息处理装置1的作为未填入的文件数据的委托书设置有供填入“代理人”的“住址”、“姓名”、及“出生年月日”的项目。此外,在委托书中设置着供填入“本人”的“住址”、“姓名”、及“出生年月日”的项目。
假设在信息处理装置1中,作为委托书的文件数据及检测的对象,输入了作为关键字的“姓名”。信息处理装置1像图7所示的那样,检测由单点链线包围的第一字符串31作为第一项目的候补,并显示在显示部16,设定为第一项目。具体来说,从所输入的文件数据检测“姓名”,并突出显示在显示部16。在所检测出的第一字符串31为1个的情况下,将第一字符串31作为第一项目设定在设定信息中。此外,在检测出的第一字符串31为多个的情况下,将多个第一字符串31显示在显示部16,将用户选择的第一字符串31作为第一项目,设定在设定信息中。另外,选择的第一字符串可以是1个,也可以选择多个。
信息处理装置1在设定了第一项目的情况下,检测由虚线包围的第二字符串32作为与第一项目建立关联的第二项目的候补,并显示在显示部16,设定为第二项目。具体来说,检测位于“姓名”周围的“代理人”、及“本人”,并突出显示在显示部16。在检测出的第二字符串32为1个的情况下,将第二字符串32作为第二项目,设定在设定信息中。此外,在检测出的第二字符串32为多个的情况下,将多个第二字符串32显示在显示部16,将用户选择的第二字符串32作为第二项目设定在设定信息中。另外,选择的第二字符串可以是1个,也可以选择多个。
信息处理装置1在设定了第二项目的情况下,使用户选择以第一项目(关键字)的位置为基准的第三字符串所在的相对位置,并设定在设定信息中。信息处理装置1使用户选择识别出第三字符串时的输出形式,并设定在设定信息中。
信息处理装置1在读入已填入文件时,获取与读入的文件相同的文件的设定信息,并从写入的文件识别与设定信息所包含的第一项目及第二项目对应的第三字符串。信息处理装置1基于在设定信息中设定的输出形式,输出第一项目、第二项目、及第三字符串。
接下来,参照图8,对本实施方式的信息处理程序的作用进行说明。图8是表示第2实施方式的信息处理的一个例子的流程图。CPU11从ROM12或存储器14读出并执行信息处理程序,由此,执行图8所示的信息处理。图8所示的信息处理例如在启动信息处理装置1的情况下,输入信息处理程序的执行指示,而执行信息处理。另外,对图8中的与图6所示的识别处理相同的步骤,附加与图6相同的符号,并省略它的说明。
在步骤S124中,CPU11设定多个第二项目(群组关键字),且判断是否相同。在设定多个第二项目(群组关键字)且相同的情况下(步骤S124:是),CPU11移行到步骤S125。另一方面,在未设定多个第二项目(群组关键字)或不相同的情况下(步骤S124:否),CPU11移行到步骤S113。
在步骤S125中,CPU11对所设定的多个第二项目附加唯一字符并进行存储。
根据本实施方式,通过输入关键字,能够对设定信息进行设定。像以上所说明的那样,根据本实施方式,能够发挥与第1实施方式同样的效果。
除此以外,所述实施方式中说明的信息处理装置1的构成是一个例子,也可以在不脱离主旨的范围内视情况而进行变更。
此外,所述实施方式中说明的程序处理的流程也是一个例子,也可以在不脱离主旨的范围内删除不必要的步骤、追加新的步骤、或调换处理顺序。
另外,在所述各实施方式中,所谓处理器是指广义的处理器,例如包括中央处理单元(Central Processing Unit,CPU)等通用的处理器、例如图形处理单元(GraphicsProcessing Unit,GPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、及可编程逻辑器件等专用的处理器。
此外,所述各实施方式中的处理器的动作并不只是由1个处理器形成,也可以是存在于物理性地相隔的位置的多个处理器协动完成。此外,处理器的各动作的顺序并不只限定于所述各实施方式中记载的顺序,也可以适当进行变更。
此外,在所述各实施方式中,说明了信息处理的程序预先存储(安装)在存储器14的实施方式,但并不限定于所述实施方式。程序也能以记录在光盘只读存储器(CompactDisc Read Only Memory,CD-ROM)、数字多功能光盘只读存储器(Digital Versatile DiscRead Only Memory,DVD-ROM)、及通用串行总线(Universal Serial Bus,USB)存储器等记录媒体的方式提供。此外,程序也可以设置成经由网络而从外部装置下载的方式。

Claims (9)

1.一种信息处理装置,其特征在于:
具备处理器,且所述处理器
在从对项目设置着记载栏的文件检测出多个表示第一项目的第一字符串的情况下,对多个所述第一字符串分别检测表示与所述第一项目建立关联的第二项目的第二字符串,
将检测出的所述第二字符串的至少1个作为所述第二项目,与所述第一项目建立关联而设定在设定信息中。
2.根据权利要求1所述的信息处理装置,其特征在于:
所述处理器执行以下两种处理中的至少一种,即:将检测出的多个所述第一字符串作为所述第一项目的候补来显示的处理、及将多个所述第二字符串作为所述第二项目的候补来显示的处理。
3.根据权利要求2所述的信息处理装置,其特征在于:
所述处理器执行以下两种处理中的至少一种,即:使从检测出的多个所述第一字符串选择所述第一项目的处理、及使从多个所述第二字符串选择所述第二项目的处理。
4.根据权利要求1至3中任一项所述的信息处理装置,其特征在于:
所述处理器基于所述文件中的所述第一项目及所述第二项目的位置信息、或所述第一项目与所述第二项目的语义的从属关系,将所述第一项目与所述第二项目建立关联。
5.根据权利要求1至4中任一项所述的信息处理装置,其特征在于:
所述处理器检测作为记载在与所述设定信息对应的记载栏中的字符串的第三字符串,与所述设定信息建立关联而输出所述第三字符串。
6.根据权利要求5所述的信息处理装置,其征在于:
所述处理器按照以下两种形式的任一种形式进行输出,即:第一形式,将所述设定信息所包含的所述第一项目、所述设定信息所包含的所述第二项目、及所述第三字符串分别分开输出;以及第二形式,将所述设定信息所包含的所述第一项目及所述第二项目连结,设定为唯一的项目,输出所述唯一的项目及所述第三字符串。
7.根据权利要求6所述的信息处理装置,其特征在于:所述处理器受理所述输出形式的选择。
8.根据权利要求6或7所述的信息处理装置,其特征在于:
所述处理器在多个且相同的所述第一项目、或多个且相同的所述第二项目设定在所述设定信息中的情况下,对所设定的所述第一项目或所述第二项目分别附加唯一字符并设定在所述设定信息中。
9.一种记录媒体,存储着信息处理程序,其特征在于,所述信息处理程序使计算机执行如下步骤:
检测步骤,在从对项目设置着记载栏的文件检测出多个表示第一项目的第一字符串的情况下,对多个所述第一字符串分别检测表示与所述第一项目建立关联的第二项目的第二字符串;以及
设定步骤,将所检测出的所述第二字符串的至少1个作为所述第二项目,与所述第一项目建立关联而设定在设定信息中。
CN202010162996.1A 2019-08-21 2020-03-10 信息处理装置及记录媒体 Pending CN112417936A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019151505A JP7358838B2 (ja) 2019-08-21 2019-08-21 情報処理装置、及び情報処理プログラム
JP2019-151505 2019-08-21

Publications (1)

Publication Number Publication Date
CN112417936A true CN112417936A (zh) 2021-02-26

Family

ID=74646269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162996.1A Pending CN112417936A (zh) 2019-08-21 2020-03-10 信息处理装置及记录媒体

Country Status (3)

Country Link
US (1) US11574490B2 (zh)
JP (1) JP7358838B2 (zh)
CN (1) CN112417936A (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5385349B2 (ja) 2011-08-15 2014-01-08 株式会社富士通マーケティング レシート定義データ作成装置およびそのプログラム
JP5702342B2 (ja) 2012-08-22 2015-04-15 株式会社富士通マーケティング レシート定義データ作成装置およびプログラム
US9740389B2 (en) * 2013-04-24 2017-08-22 Blackberry Limited Device, system and method for processing character data
JP6406932B2 (ja) 2014-08-29 2018-10-17 日立オムロンターミナルソリューションズ株式会社 帳票認識装置及び方法
US20180011921A1 (en) * 2016-07-10 2018-01-11 Paul Barclay System and method for mapping data fields between flat files and relational databases
WO2018016552A1 (ja) 2016-07-21 2018-01-25 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
JP6973782B2 (ja) 2017-09-27 2021-12-01 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム

Also Published As

Publication number Publication date
JP2021033534A (ja) 2021-03-01
US20210056301A1 (en) 2021-02-25
US11574490B2 (en) 2023-02-07
JP7358838B2 (ja) 2023-10-11

Similar Documents

Publication Publication Date Title
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10142499B2 (en) Document distribution system, document distribution apparatus, information processing method, and storage medium
US11361572B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
JP2010157107A (ja) 業務文書処理装置
US11303769B2 (en) Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium
CN112487859A (zh) 信息处理装置、信息处理方法和计算机可读介质
JP2016018454A (ja) 画像処理装置および画像処理装置の制御方法
CN112541498A (zh) 信息处理装置以及记录媒体
CN112417936A (zh) 信息处理装置及记录媒体
JP7317612B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
US20200342169A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2008176625A (ja) 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP5310206B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
JP2001094711A (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
JP7268316B2 (ja) 情報処理装置及びプログラム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2020047138A (ja) 情報処理装置
US11481447B2 (en) Information processing device and non-transitory computer readable medium
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan

Applicant before: Fuji Xerox Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination