CN111444751B - 信息处理装置、储存介质及信息处理方法 - Google Patents
信息处理装置、储存介质及信息处理方法 Download PDFInfo
- Publication number
- CN111444751B CN111444751B CN201910828110.XA CN201910828110A CN111444751B CN 111444751 B CN111444751 B CN 111444751B CN 201910828110 A CN201910828110 A CN 201910828110A CN 111444751 B CN111444751 B CN 111444751B
- Authority
- CN
- China
- Prior art keywords
- information
- file
- keyword
- candidate
- priority information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 102
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 description 41
- 238000010586 diagram Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00326—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
- H04N1/00328—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
- H04N1/00331—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00912—Arrangements for controlling a still picture apparatus or components thereof not otherwise provided for
- H04N1/00915—Assigning priority to, or interrupting, a particular operation
- H04N1/00923—Variably assigning priority
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种信息处理装置、储存介质及信息处理方法,即使在文件内存在多个表示想要获取的信息的项目的关键词的候选的情况下,也能够从多个关键词中确定表示想要获取的信息的项目的任一个关键词并输出与所确定的关键词对应的字符串。信息处理装置具备:设定部,当在文件内包含多个表示获取对象的信息的候选关键词时,按照如下优先信息,从所述候选关键词中设定所述目标关键词,该优先信息为规定了将所述候选关键词中的哪一个关键词优先用作表示成为所述获取对象的信息的项目的目标关键词;提取部,从文件提取与通过所述设定部设定的所述目标关键词对应的字符串;及输出部,输出与通过所述提取部提取的所述目标关键词对应的字符串。
Description
技术领域
本发明涉及一种信息处理装置、储存介质及信息处理方法。
背景技术
已知有从通过扫描仪读取的文件图像提取与以用户所期望的特定关键词来表示的项目建立对应关系的字符串的信息处理装置。
专利文献1中公开有一种信息处理装置,其特征在于,具备:提取单元,通过对图像执行区域分析处理而提取区域;获取单元,获取用于提取特定关键词及与该关键词对应的价值(value)的规则;决定单元,根据能够获得该规则中所包含的所述关键词和与该关键词对应的价值的值决定使用所述规则确定包含所述关键词的区域及包含与该关键词对应的价值的区域的顺序;确定单元,按照所述决定的顺序,从所述提取的区域中确定包含所述关键词的区域或包含与该关键词对应的价值的区域;及文字识别单元,对所述确定的区域进行文字识别处理,所述确定单元按照所述决定的顺序,并根据先前确定的区域,确定所对应的另一个区域。
专利文献1:日本特开2018-128996号公报
当预先设定有表示用户所期望的信息的项目的标记时,通过将所设定的标记设定为关键词,从文件提取与关键词建立对应关系的字符串。
然而,例如,若文件的创建方不同,则即便是相同的项目,有时也会使用不同的关键词来创建文件。在这种情况下,若要从文件提取与所期望的项目建立对应关系的字符串,则使用认为在所期望的项目的标记中使用的多个关键词的候选,提取与各关键词的候选建立对应关系的字符串即可。
然而,当使用多个关键词的候选来提取与各关键词的候选建立对应关系的字符串时,无法判断哪一字符串是与所期望的项目建立对应关系的字符串。
发明内容
本发明的目的在于提供一种即使在文件内存在多个表示想要获取的信息的项目的关键词的候选情况下,也能够从多个关键词中确定表示想要获取的信息的项目任一个关键词并输出与所确定的关键词对应的字符串的信息处理装置、储存介质及信息处理方法。
第1方式所涉及的信息处理装置具备:设定部,当在文件内包含多个表示获取对象的信息的候选关键词时,按照如下优先信息,从所述候选关键词中设定所述目标关键词,该优先信息为规定了将所述候选关键词中的哪一个关键词优先用作表示成为所述获取对象的信息的项目的目标关键词;提取部,从文件提取与通过所述设定部设定的所述目标关键词对应的字符串;及输出部,输出与通过所述提取部提取的所述目标关键词对应的字符串。
第2方式所涉及的信息处理装置在第1方式所涉及的信息处理装置中,当文件由以不同的格式记载的多个文件构成时,所述设定部按照所述优先信息,按格式不同的每个文件设定所述目标关键词。
第3方式所涉及的信息处理装置在第2方式所涉及的信息处理装置中,在所述优先信息中建立对应关系有每个文件的格式信息,当遵从文件中的格式与任一所述优先信息建立对应关系的特定格式信息时,所述设定部按照与所述特定格式信息建立对应关系的所述优先信息,从所述候选关键词中设定所述目标关键词。
第4方式所涉及的信息处理装置在第3方式所涉及的信息处理装置中,与所述优先信息建立对应关系的格式信息由表示所述候选关键词的字符串的文字属性或与所述候选关键词对应的字符串的文字属性来表示。
第5方式所涉及的信息处理装置在第3方式所涉及的信息处理装置中,与所述优先信息建立对应关系的格式信息由文件中的所述候选关键词的记载位置来表示。
第6方式所涉及的信息处理装置在第3方式所涉及的信息处理装置中,与所述优先信息建立对应关系的格式信息由文件中的与所述候选关键词对应的字符串的记载位置来表示。
第7方式所涉及的信息处理装置在第5或6方式所涉及的信息处理装置中,所述候选关键词的记载位置或与所述候选关键词对应的字符串的记载位置由以所述候选关键词的任一个位置为基准的相对位置来表示。
第8方式所涉及的信息处理装置在第1~7方式中的任一个方式所涉及的信息处理装置具备:接收部,接收从所述候选关键词中选择了任一个关键词的选择结果,当不存在与文件中所包含的所述候选关键词一致的所述优先信息时,所述设定部将由通过所述接收部接收的选择结果表示的关键词设定为所述候选关键词中的所述目标关键词。
第9方式所涉及的信息处理装置在第8方式所涉及的信息处理装置具备:生成部,分别对不与所述优先信息中的任一个一致的所述候选关键词生成遵从所述选择结果的新的优先信息。
第10方式所涉及的存储介质存储有用于使计算机作为如下各部发挥功能的信息处理程序:设定部,当在文件内包含多个表示获取对象的信息的候选关键词时,按照如下优先信息,从所述候选关键词中设定所述目标关键词,该优先信息为规定了将所述候选关键词中的哪一个关键词优先用作表示成为所述获取对象的信息的项目的目标关键词;提取部,从文件提取与通过所述设定部设定的所述目标关键词对应的字符串;及输出部,输出与通过所述提取部提取的所述目标关键词对应的字符串。
第11方式所涉及的信息处理方法包括如下步骤:设定步骤,当在文件内包含多个表示获取对象的信息的候选关键词时,按照如下优先信息,从所述候选关键词中设定所述目标关键词,该优先信息为规定了将所述候选关键词中的哪一个关键词优先用作表示成为所述获取对象的信息的项目的目标关键词;提取步骤,从文件提取与通过所述设定步骤设定的所述目标关键词对应的字符串;及输出步骤,输出与通过所述提取步骤提取的所述目标关键词对应的字符串。
发明效果
根据第1方式、第10方式及第11方式,具有如下效果,即,即使在文件内存在多个表示想要获取的信息的项目的关键词的候选的情况下,也能够从多个关键词中确定表示想要获取的信息的项目的任一个关键词并输出与所确定的关键词对应的字符串。
根据第2方式,具有如下效果,即,即使在文件内包含不同格式的文件的情况下,也能够按格式不同的每个文件输出与表示成为获取对象的信息的项目的关键词对应的字符串。
根据第3方式,具有如下效果,即,即便存在分别包含多个相同的候选关键词的多个文件,也能够从多个候选关键词中按每个文件确定表示成为获取对象的信息的项目的关键词。
根据第4方式,具有如下效果,即,即便存在分别包含多个相同的候选关键词的多个文件,也能够根据字符串的文字属性,从多个候选关键词中按每个文件确定表示成为获取对象的信息的项目的关键词。
根据第5方式,具有如下效果,即,即便存在分别包含多个相同的候选关键词的多个文件,也能够根据候选关键词的记载位置,从多个候选关键词中按每个文件确定表示成为获取对象的信息的项目的关键词。
根据第6方式,具有如下效果,即,即便存在分别包含多个相同的候选关键词的多个文件,也能够根据与候选关键词对应的字符串的记载位置,从多个候选关键词中按每个文件确定表示成为获取对象的信息的项目的关键词。
根据第7方式,具有如下效果,即,包含成为获取对象的信息的项目的文件即便是在光学读取原稿的内容时偏离成为基准的读取位置读取了原稿的结果而生成的文件,也能够从多个候选关键词中按每个文件确定表示成为获取对象的信息的项目的关键词。
根据第8方式,具有如下效果,即,即使在多个候选关键词中不知哪一关键词是表示成为获取对象的信息的项目的关键词的情况下,也能够输出与表示成为获取对象的信息的项目的关键词对应的字符串。
根据第9方式,具有如下效果,即,与不新生成与文件对应的优先信息的情况下相比,能够减少使用户在多个候选关键词中选择哪一关键词是目标关键词的次数。
附图说明
根据以下附图,对本发明的实施方式进行详细叙述。
图1是表示信息处理装置的功能结构例的框图;
图2是表示文件的一例的图;
图3是表示优先信息的一例的图;
图4是表示信息处理装置中的电气系统的主要部分结构例的图;
图5是表示第1实施方式所涉及的信息处理的流程的一例的流程图;
图6是对选择画面的显示例进行说明的图;
图7是表示第2实施方式所涉及的信息处理的流程的一例的流程图;
图8是表示第2实施方式所涉及的信息处理中所使用的优先信息的一例的图;
图9是表示文件的另一例的图;
图10是对文件中的字符串的记载位置的偏离进行说明的图;
图11是对在设定为优先信息的格式信息中使用了文字属性时的状况进行说明的图。
符号说明
10-信息处理装置,11-扫描处理部,12-图像处理部,12A-OCR处理部,12B-提取部,12C-设定部,13-输出部,14-用户界面部,15-控制部,16-关键词DB,17-优先信息DB,20-文件,22-选择画面,24-单选按钮,26A(26B)-区域,30-优先信息,40-计算机,41-CPU,42-ROM,43-RAM,44-非易失性存储器,46-总线,47-通信单元,48-输入单元,49-显示单元,50-扫描仪单元。
具体实施方式
以下,参考附图对本实施方式进行说明。另外,在所有附图中,对功能相同的构成要件及处理赋予相同的符号,并省略重复说明。
<第1实施方式>
图1例如是表示从被OCR处理的文件提取并输出与用户指定的获取对象的信息的关键词对应的字符串的信息处理装置10的功能结构例的框图。
信息处理装置10包含扫描处理部11、图像处理部12、输出部13、用户界面(UserInterface:UI)部14及控制部15的各功能部和关键词数据库(Database:DB)16及优先信息DB17。
扫描处理部11使用光学读取原稿中所记载的内容的扫描仪单元50生成与原稿对应的图像(以后,称为“文件图像”),并传递至图像处理部12。
图像处理部12包含OCR处理部12A、提取部12B及设定部12C。
从扫描处理部11接收了文件图像的图像处理部12首先通过OCR处理部12A对文件图像进行公知的图像识别,并将文件图像中相当于文字的图像转换为字符编码。即,变成通过OCR处理部12A,将文件图像作为文字信息来处理,并进行文字的复印或搜索。以后,将通过OCR处理部12A从文件图像转换为文字信息的转换数据称为“文件20”。
提取部12B从通过OCR处理部12A生成的文件20提取与用户指定的关键词对应的字符串。
图2是表示通过OCR处理部12A生成的文件20的一例的图。在文件20中包含记录了各种内容的字符串,而对字符串的格式并无规定,可使用各种格式。如此,对在信息处理装置10中处理的文件20的格式并无限制,也可以是具有任何格式的文件20,但将文件20限定于特定内容文件20来说明,能够更通俗易懂地说明公开技术,因此为了便于说明,后面,作为一例,对文件20为从其他公司收取的报价单的情况进行说明。
当用户从文件20提取所期望的信息时,参考表示所期望的信息的项目的关键词来提取。
例如,对用户考虑想要从报价单提取如下报价编号来管理报价单时预先设定有报价单格式的情况进行说明,该报价编号为为了确定报价单而与报价单唯一地建立对应关系的识别符。在该情况下,用户已知报价编号例如以“报价编号”这一关键词来记载于报价单。因此,信息处理装置10按照用户的命令将“报价编号”设定为表示获取对象的信息的目标关键词,由此从报价单检测“报价编号”的字符串,并从报价单提取与“报价编号”对应的字符串作为报价编号。表示成为获取对象的信息的项目的目标关键词为公开技术所涉及的“目标关键词”的一例。
与目标关键词对应的字符串例如是指,如与目标关键词在同一行中存在的字符串,推测为表示目标关键词的内容的字符串,以下,称为“价值”。按照预先设定的价值的提取规则,提取位于从目标关键词沿哪一方向远离哪种程度的位置上的字符串作为价值。在此,作为一例,设定有将在与目标关键词的记载行相同的行且位于目标关键词的右邻的字符串设为价值的提取规则,但也可以变更价值的提取规则。
在上述事例中,预先设定有信息处理装置10接收的报价单的格式,因此将“报价编号”预先作为表示所期望的信息的目标关键词来进行设定。但是,若信息处理装置10中接收的报价单的种类变成多个,则有时以各种标记来表示报价编号。例如,在图2的报价单的例子中,报价编号记载成“报价单编号”。而且,在报价单中,有时将报价编号例如以“No”、“整理编号”、“Number”及“发行编号”的方式标记。
如此,不知报价编号在报价单内以哪种标记来表示,因此在关键词DB16中预先登录有如报价编号那样的表示用户所期望的信息的关键词的标记的差异,例如以从如创建方不同的文件20中也提取用户所期望的信息的方式予以考虑。具体而言,相对于报价编号例如“编号”、“报价编号”、“No”、“报价单编号”、“整理编号”、“Number”及“发行编号”等分别作为表示报价编号的关键词而登录于关键词DB16。如此,将作为表示用户所期望的信息的关键词预先登录于关键词DB16的多个关键词称为相对于信息的“候选关键词”。由被认为表达用户所期望的信息的多个关键词构成的候选关键词为公开技术所涉及的“候选关键词”的一例。
提取部12B参考关键词DB16,并将在登录于关键词DB16的候选关键词中包含于文件20的关键词作为候选关键词来从文件20提取并传递至设定部12C。
若从提取部12B接收候选关键词,则设定部12C按照包含于优先信息DB17中的优先信息30,从所接收的候选关键词中设定目标关键词。
图3是表示包含于优先信息DB17中的优先信息30的一例的图。优先信息30中例如建立对应关系有信息编号、条件及关键词。
信息编号为用于识别优先信息30的识别符,并且按每个优先信息30设定有不同的编号。
条件为表示包含于文件20中的候选关键词的组合的信息。若文件20的种类或创建方不同,则文件20的格式发生变化,包含于文件20中的候选关键词的组合也发生变化。例如,在A公司的报价单中,除了表示报价编号的“报价单编号”这一关键词以外,例如有时还包含以与报价编号不同的编号来表示其他含义的关键词,如“No”。并且,例如,在B公司的报价单中,除了表示报价编号的“编号”这一关键词以外有时还包含以与报价编号不同的编号来表示其他含义的关键词,如“No”或“Number”。
因此,关键词表示包含于优先信息30的条件中的候选关键词中哪一关键词是目标关键词。
将包含于文件20中的候选关键词按文件20的每个种类或每个创建方预先设定于优先信息30的条件,由此确定文件20是在哪里创建的哪种文件20。具体而言,设定部12C将如下优先信息30作为适合于文件20的优先信息30来设定,该优先信息30将与从提取部12B接收的候选关键词的组合一致的关键词组合包含于条件。
而且,设定部12C将适合的优先信息30中所包含的关键词作为文件20的目标关键词来设定。例如,当接收了图2所示的文件20时,在文件20中分别包含“No”及“报价单编号”的候选关键词,因此设定部12C将如下信息编号=“2”的优先信息30作为适合于文件20的优先信息30来设定,并将“报价单编号”设定为目标关键词,该信息编号在条件中设定有与所接收的候选关键词相同的关键词。设定部12C对提取部12B通知已设定的目标关键词。
由此,提取部12B按照价值的提取规则,从文件20提取如下目标关键词的价值,并将目标关键词及价值传递至输出部13,该目标关键词在传递至设定部12C的候选关键词中通过设定部12C设定。
若从图像处理部12的设定部12C接收价值,则输出部13将价值与目标关键词建立对应关系并输出。“输出价值”是指,设为能够识别从文件20提取的价值是哪种字符串的状态。识别价值的对象并不限于人,也可以是装置。因此,将价值与目标关键词建立对应关系并显示于显示装置、在纸张上印刷、通过语音来通知、存储于存储装置及通过未图示的通信线路从在后面叙述的通信单元47进行发送分别为表示价值的输出的一方式。
UI部14接收来自用户的命令,并对用户通知信息处理装置10的动作或状态等各种信息。例如,UI部14从用户接收如下提取命令或如下登录命令,并对用户通知与目标关键词对应的价值,该提取命令以从文件20提取所期望的信息的方式命令,该登录命令命令追加、变更及删除包含于优先信息DB17的优先信息30。UI部14为本实施方式所涉及的接收部的一例。
控制部15控制扫描处理部11、图像处理部12、输出部13及UI部14的各功能部的处理,并且按照用户的命令进行管理关键词DB16及优先信息DB17的控制。并且,如后面的详细说明,控制部15生成新的优先信息30并追加于优先信息DB17,因此也是本实施方式所涉及的生成部的一例。
图4是表示信息处理装置10中的电气系统的主要部分结构例的图。信息处理装置10例如使用计算机40而构成。
计算机40具备担负本实施方式所涉及的各功能部的CPU(Central ProcessingUnit:中央处理器)41、存储信息处理程序的ROM(Read Only Memory:只读存储器)42、用作CPU41的临时工作区的RAM(Random Access Memory:随机存取存储器)43、非易失性存储器44及输入输出接口(I/O)45。而且,CPU41、ROM42、RAM43、非易失性存储器44及I/O45经由总线46分别连接。
非易失性存储器44为即便向非易失性存储器44供给的电力被切断也维持所存储的信息的存储装置的一例,例如也可以使用利用半导体存储器的硬盘。非易失性存储器44无需一定要内置于计算机40,例如,也可以是可装卸于计算机40的存储装置,如存储卡。
在I/O45中例如连接有通信单元47、输入单元48、显示单元49及扫描仪单元50。
通信单元47与未图示的通信线路连接,且具备与未图示的连接线路连接的存储装置及与计算机等外部装置进行通信的通信协议。
输入单元48为接收来自用户的命令并对CPU41通知的装置,例如使用按钮、触摸面板、键盘及鼠标等。信息处理装置10经由输入单元48执行由利用者命令的功能。信息处理装置10也可以通过语音来接收来自用户的命令,在该情况下,在I/O45中连接话筒。
显示单元49为将通过CPU41处理的信息作为图像来显示的装置,例如使用液晶显示器、有机EL(Electro Luminescence:电致发光)显示器及将影像投影到屏幕上的投影仪等。
扫描仪单元50为按照CPU41的命令例如光学读取放置于未图示的台板玻璃上的原稿的内容并将原稿的内容转换为文件图像的装置。扫描仪单元50在扫描处理部11的处理中被使用。
信息处理装置10中,由扫描处理部11接收通过扫描仪单元50读取的文件图像,但无需一定要从与I/O45连接的扫描仪单元50接收文件图像。例如,信息处理装置10也可以通过通信单元47接收通过与未图示的通信线路连接的未图示的扫描仪装置读取的文件图像。并且,信息处理装置10也可以接收存储于云服务器的文件图像。
另外,与I/O45连接的单元并不限定于图4中例示的单元。例如,也可以将按照CPU41的命令将所处理的信息形成于记录媒体的图像形成单元与I/O45连接。
并且,当通过通信单元47或可装卸的半导体存储器接收文件图像时,并不一定需要扫描仪单元50。在该情况下,信息处理装置10使用提供与用户的接口的输入输出装置及具备处理所输入的信息的处理功能的信息设备,如台式计算机、平板电脑、智能手机及可佩戴式终端。
接着,对从文件20提取用户所期望的信息的信息处理装置10的动作进行说明。
图5是表示根据用户的命令接收文件图像并将OCR处理部12A接收的文件图像转换为文件20时通过CPU41执行的信息处理的流程的一例的流程图。规定信息处理的信息处理程序例如预先存储于信息处理装置10的ROM42。信息处理装置10的CPU41读取存储于ROM42的信息处理程序并执行信息处理。
另外,在信息处理装置10中,相对于用户所期望的信息的多个候选关键词预先登录于关键词DB16。并且,在优先信息DB17中预先包含至少1个优先信息30。
在步骤S10中,CPU41使用预先登录于关键词DB16的表示用户所期望的信息的候选关键词来提取包含于文件20中的候选关键词。
在步骤S20中,CPU41参考优先信息DB17,获取1个优先信息DB17中所包含的优先信息30。
在步骤S30中,CPU41判定在步骤S10中从文件20提取的候选关键词的组合与在步骤S20中获取的优先信息30的条件中所包含的候选关键词的组合是否一致。
当候选关键词的组合不一致时,认为在步骤S20中获取的优先信息30不是相对于所接收的文件20的优先信息30,并转到步骤S40。
在步骤S40中,CPU41判定在优先信息DB17中是否存在未选择的优先信息30。当在优先信息DB17中存在尚未选择的优先信息30时,转到步骤S20,并在步骤S20中从未选择的优先信息30中获取1个优先信息30。即,重复执行步骤S20~S40的处理,并在步骤S30的判定处理中执行从优先信息DB17搜索与在步骤S10中从文件20提取的候选关键词的组合一致的优先信息30的处理,直至在步骤S40的判定处理中判定为不存在未选择的优先信息30。
即便如此,当在优先信息DB17中不包含与在步骤S10中从文件20提取的候选关键词的组合一致的优先信息30时,转到步骤S50。
在该情况下,包含于文件20中的候选关键词的组合与设定为任一优先信息30的条件的候选关键词的组合不同,因此认为所接收的文件20是到目前为止在信息处理装置10中从未接收过的新的文件20。即,在信息处理装置10中不具有判断包含于文件20中的多个候选关键词中哪一候选关键词是目标关键词的判断材料。
因此,在步骤S50中,CPU41将用于使用于从包含于文件20中的多个候选关键词中选择目标关键词的选择画面22例如显示于显示单元49。选择画面22的显示处并不限于显示单元49,CPU41例如也可以经由通信单元47显示于智能手机等信息设备。
图6是对选择画面22的显示例进行说明的图。图6中的(A)是表示在优先信息DB17中不存在适合的优先信息30的文件20的一例的图,图6中的(B)是表示接收了图6中的(A)的文件20时显示的选择画面22的一例的图。
CPU41按照价值的提取规则,进一步从文件20提取在步骤S10中从文件20提取的各候选关键词的价值,并将从文件20提取的各候选关键词的价值与候选关键词建立对应关系并显示于选择画面22。在选择画面22例如显示用于从各候选关键词将任一个关键词作为目标关键词来选择的选项,如单选按钮24。用户通过选项选择的任一个候选关键词成为文件20中的目标关键词。
在图6中的(B)的例子中,示出了在图6中的(A)所示的包含于文件20中的候选关键词“No”及“整理编号”中,作为目标关键词选择了“整理编号”的状况。
在步骤S60中,CPU41判定通过基于用户的选择画面22的操作是否选择了关键词的选择结果。当未接收关键词的选择结果时,重复执行步骤S60的判定处理,并监视选择结果的接收。另一方面,当接收了关键词的选择结果时,转到步骤S70。
在步骤S70中,CPU41将在步骤S10中从文件20提取的候选关键词设定为条件,生成将以所接收的选择结果来表示的关键词设定为目标关键词的新的优先信息30,并追加于优先信息DB17。图6中的(C)是表示根据图6中的(B)的选择画面22的选择结果生成的优先信息30的例子的图。当从图6中的(A)所示的文件20提取候选关键词“No”及“整理编号”,并在图6中的(B)所示的选择画面22中“整理编号”选为目标关键词时,在条件中设定“No”及“整理编号”,且在关键词中设定有“整理编号”的信息编号=“3”的优先信息30追加于优先信息DB17。追加于优先信息DB17的新的优先信息30成为适合于所接收的文件20的优先信息30。
另一方面,在步骤S30的判定处理中,当判定为在步骤S10中从文件20提取的候选关键词的组合与在步骤S20中获取的优先信息30的条件中所包含的候选关键词的组合一致时,即,判定为在优先信息DB17中存在适合于文件20的优先信息30时,或在步骤S70中生成了新的优先信息30时,转到步骤S80。
在步骤S80中,CPU41从适合于文件20的优先信息30获取目标关键词。
在步骤S90中,CPU41参考价值的提取规则,从文件20提取在步骤S80中获取的目标关键词的价值,例如输出与目标关键词一同提取的价值。另外,当不存在适合于文件20的优先信息30而在步骤S50中显示了选择画面22时,与用户选为目标关键词的候选关键词建立对应关系的价值成为目标关键词的价值,因此无需再次从文件20提取价值。通过以上,结束图5所示的信息处理。
在信息处理装置10中接收的文件20并不限于以页面单位分割的文件20,例如也可以是并不以页面单位管理的文件20,如表格计算应用程序中使用的表格控件。并且,当在信息处理装置10中接收的文件20为以页面单位分割的文件20时,对接收的文件20的页数并无限制,可以是由1个页面构成的文件20,也可以是由多个页面构成的文件20。
并且,即使在文件20例如如在A公司的文件20后面重叠有B公司的文件20那样由以不同的格式记载的多个文件20构成的情况下,也能够从包含于文件20中的候选关键词的组合获得适合于格式不同的每个文件20的优先信息30。因此,即使在因文件20的创建方而表示用户所期望的信息的关键词的标记不同的情况下,也能够获得用户所期望的信息的价值。
另外,在相同种类的文件20或相同创建方创建的文件20的情况下,例如,如“■报价编号”,在候选关键词的前面标注相同的记号等,在文件20的格式中出现共通性。因此,例如,在由多个创建方创建的各文件20构成的文件20中,相同创建方创建的文件20的范围根据文件20的格式的变化程度而得到判别。并且,也能够从文件20的标题或页脚中所记载的创建方信息及页面编号以及仅在文件首页记载的标题的有无获得判别每个创建方的文件20的范围的信息。
进一步而言,当按创建方不同的每个文件20已知文件20的页数时,根据页数判别每个创建方的文件20的范围。
如此,根据本实施方式所涉及的信息处理装置10,预先设定表示用户所期望的信息的多个候选关键词,并将包含与从文件20提取的候选关键词一致的候选关键词的优先信息30作为适合于文件20的优先信息30来选择。在此基础上,信息处理装置10将适合于文件20的优先信息30的关键词设定为目标关键词,从文件20提取与目标关键词对应的价值,并将价值与目标关键词一同输出。另外,也可以无需将从文件20提取的价值与目标关键词一同输出而仅输出所提取的价值是显而易见的。
<第2实施方式>
在第1实施方式中,对根据包含于文件20中的候选关键词的组合,选择适合于文件20的优先信息30的信息处理装置10进行了说明。然而,在文件20中有时存在虽然包含于文件20中的候选关键词的组合相同但创建方或种类不同的文件20。若文件20的创建方或种类不同,则有时即便包含于各文件20中的候选关键词的组合相同,表示用户所期望的信息的目标关键词不同。
考虑到这种状况,即使包含于文件20中的候选关键词的组合与包含于优先信息30中的候选关键词的组合一致,包含于该优先信息30中的关键词也并不一定表示文件20的正确的目标关键词。
因此,在本实施方式中,对与从包含于文件20中的候选关键词的组合选择适合于文件20的优先信息30的情况相比以更高精度选择适合于文件20的优先信息30的信息处理装置10进行说明。
图7是表示根据用户的命令接收文件图像并将OCR处理部12A接收的文件图像转换为文件20时通过CPU41执行的信息处理的流程的一例的流程图。规定信息处理的信息处理程序例如预先存储于信息处理装置10的ROM42。信息处理装置10的CPU41读取存储于ROM42的信息处理程序并执行信息处理。
图7所示的信息处理与图5所示的第1实施方式所涉及的信息处理的不同点为追加了步骤S35这一点,而其他处理相同。
另外,在信息处理装置10中相对于用户所期望的信息的多个候选关键词预先登录于关键词DB16。并且,在优先信息DB17中预先包含至少1个优先信息30。
在步骤S30中,当判定为在步骤S10中从文件20提取的候选关键词的组合与在步骤S20中获取的优先信息30的条件中所包含的候选关键词的组合一致时,执行步骤S35。
在步骤S35中,CPU41参考在步骤S20中获取的优先信息30,判定文件20的格式是否与设定为优先信息30的条件的格式信息相同。
图8是表示本实施方式所涉及的优先信息30的一例的图。在本实施方式所涉及的优先信息30的条件中除了候选关键词以外,还预先设定有文件20的格式信息。在图8的优先信息30的情况下,作为文件20的格式信息,设定有文件20中的候选关键词的记载位置。候选关键词的记载位置例如以[x、y、w、h]的形式设定。
“x”、“y”、“w”及“h”分别为0以上的整数,“x”表示在文件20的页面中预先设定的二维坐标系(XY坐标系)中的候选关键词的X轴方向的坐标值,“y”表示XY坐标系中的候选关键词的Y轴方向的坐标值。XY坐标系的原点P可以设定于页面的任意位置,但作为一例,将页面左上角的顶点设定为原点P,将从原点P沿文件20的行方向的方向设为X轴方向,将与X轴方向正交的方向设为Y轴方向。
候选关键词的X轴方向的坐标值例如是指,以尽量小的矩形(称为“总括矩形”)来包围候选关键词时的该总括矩形左上角的顶点的X轴方向的坐标值,候选关键词的Y轴方向的坐标值是指,总括矩形左上角的顶点的Y轴方向的坐标值。另外,候选关键词的X轴方向及Y轴方向的坐标值的设定并不限于上述的例子。例如记载有候选关键词的区域的中心点的坐标值等,只要是根据候选关键词的记载位置而唯一地设定坐标的位置,则也可以将任意位置作为候选关键词的X轴方向及Y轴方向的坐标值来设定。
“w”表示XY坐标系中的候选关键词的宽度,“h”表示XY坐标系中的候选关键词的高度。候选关键词的宽度例如设定为包围候选关键词的总括矩形的X轴方向的长度,候选关键词的高度例如设定为包围候选关键词的总括矩形的Y轴方向的长度。另外,只要根据候选关键词的记载区域的大小能够唯一地设定的宽度及高度,则也可以以任意方式定义候选关键词的宽度及高度。
当文件20为在信息处理装置10中从未接收过的新的文件20时,在图7的步骤S70中生成新的优先信息30,但当生成新的优先信息30时,CPU41将文件20中的候选关键词的记载位置与候选关键词建立对应关系并设定为新的优先信息30的条件。在该情况下,CPU41也可以在选择画面22中显示候选关键词的记载位置。
用户确认显示于选择画面22的候选关键词的记载位置,若有需要,则修正候选关键词的记载位置。当修正了候选关键词的记载位置时,CPU41将候选关键词修正后的记载位置登录于优先信息30。
在以图8的信息编号=“3”来表示的优先信息30的情况下,对候选关键词“No”设定有[10、10、15、10]的记载位置,对候选关键词“报价单编号”设定有[40、25、40、10]的记载位置。
图9是表示与以图8的信息编号=“3”来表示的优先信息30对应的文件20的一例的图。
另一方面,在以图8的信息编号=“2”来表示的优先信息30的情况下,对候选关键词“No”设定有[10、10、15、10]的记载位置,对候选关键词“报价单编号”设定有[10、25、40、10]的记载位置。这是与图2所示的文件20对应的优先信息30。
如此,在图8所示的优先信息30中设定有候选关键词的记载位置,因此即便是包含均为候选关键词的“No”及“报价单编号”的图2所示的文件20以及图9所示的文件20,候选关键词的记载位置不同,因此图2所示的文件20判定为与以图8的信息编号=“2”来表示的优先信息30的格式信息相同,且判定为并不与以信息编号=“3”来表示的优先信息30的格式信息相同。相反,图9所示的文件20判定为与以图8的信息编号=“3”来表示的优先信息30的格式信息相同,且判定为并不与以信息编号=“2”来表示的优先信息30的格式信息相同。
在步骤S35的判定处理中,当判定为文件20的格式并不与在步骤S20中获取的设定为优先信息30的条件的格式信息相同时,转到步骤S40。当判定为存在在步骤S40中未选择的优先信息30时,在步骤S20中获取新的优先信息30,因此若存在候选关键词与包含于文件20中的候选关键词一致的新的优先信息30,则在步骤S35中比较文件20的格式与设定为新的优先信息30的条件的格式信息。
在步骤S35的判定处理中,当判定为文件20的格式与在步骤S20中获取的设定为优先信息30的条件的记载位置相同时,所参考的优先信息30成为适合于文件20的优先信息30,因此转到步骤S80。
在步骤S80中,从判定为候选关键词的组合一致且候选关键词的记载位置相同的适合于文件20的优先信息30获取目标关键词。
另外,“记载位置相同”是指,不仅包含成为记载位置的比较对象的字符串在文件20中的记载位置与设定为优先信息30的条件的记载位置一致的情况,还包含从设定为优先信息30的条件的记载位置包含于预先设定范围内的状况。只要自设定为优先信息30的条件的记载位置的差分属于该范围内,则“预先设定的范围”设定为即便判定为记载位置相同也不会使优先信息30的选择精度下降的范围。
在图7所示的信息处理中,对设定为优先信息30的条件的格式信息是文件20中的候选关键词的记载位置的情况进行了说明,但设定为优先信息30的条件的格式信息并不限于候选关键词的记载位置。设定为优先信息30的条件的格式信息只要是用于判别文件20的种类或创建方的信息,则也可以是任何信息。例如,作为设定为优先信息30的条件的格式信息,也可以使用文件20中的候选关键词的价值的记载位置。
另外,当根据文件20中的字符串的记载位置选择适合于文件20的优先信息30时,有时文件20中的字符串的记载位置与实际上的原稿中的记载位置不同。例如,当通过扫描仪单元50读取原稿时,若配置成原稿偏离原稿读取范围,则即便是相同的字符串,文件20中的字符串的记载位置也不会相同。
图10是对伴随原稿对扫描仪单元50的配置偏离而文件20中的字符串的记载位置的偏离进行说明的图。
当以使原稿的角部(图10的例子中为左上角)与扫描仪单元50中的原稿读取范围的基准点一致的方式在未图示的台板玻璃上配置了原稿时,文件20的原点P与原稿的角部成为相同的位置,因此如图10所示,文件20中的字符串的记载位置与原稿中的字符串的记载位置相同(参考区域26A)。然而,当原稿的角部从扫描仪单元50中的原稿读取范围的基准点偏离配置时,文件20的原点P与原稿的角部成为不同的位置,因此文件20中的字符串的记载位置与将原稿的角部对齐到原稿读取范围的基准点时的字符串的记载位置不同(参考区域26B)。
即,当将设定为优先信息30中的条件的候选关键词的记载位置由以文件20的原点P为基准的坐标(称为“绝对坐标”)来表示时,即使原本为适合于文件20的优先信息30,有时根据原稿对扫描仪单元50的配置方式而判定为不是适合于文件20的优先信息30。
因此,当在优先信息30中设定候选关键词或候选关键词的价值的记载位置时,使用以包含于文件20中的任一个字符串的位置为基准点的相对位置即可。另外,将相对位置的基准点称为相对基准点。
作为一例,当候选关键词“No”的总括矩形中的左上角顶点设定为相对基准点时,图9所示的文件20的“No”的记载位置例如以[0、0、15、10]来表示,“报价单编号”的记载位置以[30、15、40、10]来表示。即使原稿的角部从扫描仪单元50中的原稿读取范围的基准点偏离配置的结果而文件20中的候选关键词的记载位置偏离图10的区域26B的位置,候选关键词的相对基准点也以相同的方式偏离,因此从相对基准点观察的候选关键词的记载位置不变。因此,即便是原稿的角部从扫描仪单元50中的原稿读取范围的基准点偏离配置的文件20,与在优先信息30中以绝对坐标来设定候选关键词的记载位置的情况相比,能够正确地选择适合于文件20的优先信息30。
另外,设定为优先信息30的条件的格式信息并不限于文件20中的字符串的记载位置。例如,也可以将候选关键词的文字属性或候选关键词的价值的文字属性设定为格式信息。
“文字属性”是指规定文件20中的文字形态的因素的集合体,规定文字属性的因素中例如包含文字的大小、文字的字体、文字的粗细度、文字的修饰及文字的颜色。
“文字的修饰”是指在可读取文字所表示的原来的含义的范围内修正文字的外形或对文字附加其他因素。例如,斜体文字以及带有下划线、取消线、着重点及阴影的文字为实施了修饰的文字的一例。
字符串的间隔或文字的间隔也规定文字形态,因此包含于文字属性。例如,若文件20不同,则有时候选关键词及与候选关键词对应的价值的间隔不同,因此也可以将字符串的间隔使用于格式信息。并且,若文件20不同,则有时候选关键词及对与候选关键词对应的价值进行分段的分段文字(例如,如空格、“:”或“=”等字符)不同,因此也可以将分段文字的种类使用于格式信息。
图11是对在设定为优先信息30的条件的格式信息中使用了文字属性时的状况进行说明的图。
图11中的(A)及图11中的(B)为彼此不同的文件20,但为所包含的候选关键词的标记及记载位置相同的文件20。然而,图11中的(A)的文件20具有对候选关键词的价值标有下划线的格式,图11中的(B)的文件20具有对候选关键词标有下划线的格式。图11中的(C)示出了优先信息30的一例。
在图11中的(C)的优先信息30中,“Value”表示价值,“Key”表示候选关键词。并且,“under”表示标有下划线。在以信息编号=“1”来表示的优先信息30的条件中设定有具有对“No”及“报价单编号”等候选关键词的价值标有下划线的格式的文件20的格式信息,因此作为适合于图11中的(A)的文件20的优先信息30选择以信息编号=“1”来表示的优先信息30。
并且,在以信息编号=“2”来表示的优先信息30的条件中设定有具有对“No”及“报价单编号”等候选关键词标有下划线的格式的文件20的格式信息,因此作为适合于图11中的(B)的文件20的优先信息30选择以信息编号=“2”来表示的优先信息30。
关于文字的大小,例如,如[Key size=10],只要与候选关键词建立对应关系并设定为优先信息30的条件,则成为设定有如下文件20的格式信息的优先信息30,该文件20具有候选关键词中的文字大小为10号的格式。并且,关于文字的字体,例如,如[Key font=明朝体],只要与候选关键词建立对应关系并设定为优先信息30的条件,则成为设定有如下文件20的格式信息的优先信息30,该文件20具有候选关键词中的文字字体为明朝体的格式。如此,关于其他文字属性,设定为优先信息30即可。
通过设定为优先信息30的条件的格式信息中使用文字属性,即便是包含于文件20的候选关键词的组合相同的文件20,适合于各文件20的优先信息30也会被选择。
以上,使用实施方式对本发明进行了说明,但本发明并不限定于实施方式中所记载的范围。在不脱离本发明的宗旨的范围内,能够对实施方式加以各种变更或改良,加以该变更或改良的方式也包含于本发明的技术范围内。例如,在不脱离本发明的宗旨的范围内,可以变更处理顺序。
在本实施方式中,作为一例,对通过软件实现信息处理的方式进行了说明,但也可以将与图5及图7所示的流程图相等的处理例如安装到ASIC(Application SpecificIntegrated Circuit:专用集成电路)并通过硬件来进行。在该情况下,与分别通过软件来实现信息处理的情况相比,能够实现处理的高速化。
并且,不是通过单体的信息处理装置10来实现图1所示的各功能部、关键词DB16及优先信息DB17,例如也可以使用云计算来分散配置于多个信息设备,并通过使多个信息设备联系,执行与信息处理装置10相等的处理。
并且,在上述实施方式中,对信息处理程序安装于ROM42的方式进行了说明,但并不限定于此。本发明所涉及的信息处理程序也能够以存储于计算机可读取的存储介质的方式来提供。例如,也可以将本发明所涉及的信息处理程序以记录于CD(Compact Disc光盘)-ROM或DVD(Digital Versatile Disc:数字通用光盘)-ROM等光盘的方式来提供。并且,也可以将本发明所涉及的信息处理程序记录于USB(Universal Serial Bus:通用串行总线)存储器及闪存等半导体存储器的方式来提供。而且,信息处理装置10也可以经由通信单元47从与未图示的通信线路连接的外部装置获取本发明所涉及的信息处理程序。
上述本发明的实施方式是以例示及说明为目的而提供的。另外,本发明的实施方式并不全面详尽地包括本发明,并且并不将本发明限定于所公开的方式。很显然,对本发明所属的领域中的技术人员而言,各种变形及变更是自知之明的。本实施方式是为了最容易理解地说明本发明的原理及其应用而选择并说明的。由此,本技术领域中的其他技术人员能够通过对假定为各种实施方式的特定使用最优化的各种变形例来理解本发明。本发明的范围由以上的权利要求书及其等同物来定义。
Claims (9)
1.一种信息处理装置,其具备:
设定部,当在以不同的格式记载的每个文件内包含多个表示获取对象的信息的候选关键词时,按照如下优先信息,从所述候选关键词中设定目标关键词,该优先信息在为规定了文件的格式信息和将所述候选关键词中的哪一个关键词优先用作表示成为所述获取对象的信息的项目的所述目标关键词的优先信息中,与表示和文件中的格式具有相同格式的格式信息建立对应关系的所述优先信息;
提取部,从文件提取相对于所述设定部设定的所述目标关键词的预先决定的方向及距离的字符串,以作为所述目标关键词所表示的项目的内容的字符串;及
输出部,输出通过所述提取部提取的所述目标关键词所表示的所述项目的所述内容的所述字符串。
2.根据权利要求1所述的信息处理装置,其中,
与所述优先信息建立对应关系的格式信息由表示所述候选关键词的字符串的文字属性或与所述候选关键词对应的字符串的文字属性来表示。
3.根据权利要求1所述的信息处理装置,其中,
与所述优先信息建立对应关系的格式信息由文件中的所述候选关键词的记载位置来表示。
4.根据权利要求1所述的信息处理装置,其中,
与所述优先信息建立对应关系的格式信息由文件中的与所述候选关键词对应的字符串的记载位置来表示。
5.根据权利要求3或4所述的信息处理装置,其中,
所述候选关键词的记载位置或与所述候选关键词对应的字符串的记载位置由以所述候选关键词的任一个位置为基准的相对位置来表示。
6.根据权利要求1~4中任一项所述的信息处理装置,其具备:
接收部,接收从所述候选关键词中选择了任一个关键词的选择结果,
当不存在与文件中所包含的所述候选关键词一致的所述优先信息时,所述设定部将由通过所述接收部接收的选择结果表示的关键词设定为所述候选关键词中的所述目标关键词。
7.根据权利要求6所述的信息处理装置,其具备:
生成部,分别对不与所述优先信息中的任一个一致的所述候选关键词生成遵从所述选择结果的新的优先信息。
8.一种存储介质,其存储有用于使计算机作为如下各部发挥功能的信息处理程序:
设定部,当在以不同的格式记载的每个文件内包含多个表示获取对象的信息的候选关键词时,按照如下优先信息,从所述候选关键词中设定目标关键词,该优先信息在为规定了文件的格式信息和将所述候选关键词中的哪一个关键词优先用作表示成为所述获取对象的信息的项目的所述目标关键词的优先信息中,与表示和文件中的格式具有相同格式的格式信息建立对应关系的所述优先信息;
提取部,从文件提取相对于所述设定部设定的所述目标关键词的预先决定的方向及距离的字符串,以作为所述目标关键词所表示的项目的内容的字符串;及
输出部,输出通过所述提取部提取的所述目标关键词所表示的所述项目的所述内容的所述字符串。
9.一种信息处理方法,其包括如下步骤:
设定步骤,当在以不同的格式记载的每个文件内包含多个表示获取对象的信息的候选关键词时,按照如下优先信息,从所述候选关键词中设定目标关键词,该优先信息在为规定了文件的格式信息和将所述候选关键词中的哪一个关键词优先用作表示成为所述获取对象的信息的项目的所述目标关键词的优先信息中,与表示和文件中的格式具有相同格式的格式信息建立对应关系的所述优先信息;
提取步骤,从文件提取相对于所述设定步骤设定的所述目标关键词的预先决定的方向及距离的字符串,以作为所述目标关键词所表示的项目的内容的字符串;及
输出步骤,输出通过所述提取步骤提取的所述目标关键词所表示的所述项目的所述内容的所述字符串。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-006192 | 2019-01-17 | ||
JP2019006192A JP7302175B2 (ja) | 2019-01-17 | 2019-01-17 | 情報処理装置、及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444751A CN111444751A (zh) | 2020-07-24 |
CN111444751B true CN111444751B (zh) | 2024-01-05 |
Family
ID=71609284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910828110.XA Active CN111444751B (zh) | 2019-01-17 | 2019-09-03 | 信息处理装置、储存介质及信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11006015B2 (zh) |
JP (1) | JP7302175B2 (zh) |
CN (1) | CN111444751B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021064209A (ja) * | 2019-10-15 | 2021-04-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1237742A (zh) * | 1998-02-10 | 1999-12-08 | 株式会社日立制作所 | 邮件等的地址阅读器、分类机以及字符串识别方法 |
JP2007122403A (ja) * | 2005-10-28 | 2007-05-17 | Fuji Xerox Co Ltd | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム |
CN101553816A (zh) * | 2006-11-20 | 2009-10-07 | 株式会社爱可信 | 信息显示装置、信息显示程序以及信息显示系统 |
JP2016218761A (ja) * | 2015-05-20 | 2016-12-22 | 富士電機株式会社 | 対策事例情報登録・検索装置、キーワード決定方法 |
JP2018128996A (ja) * | 2017-02-10 | 2018-08-16 | キヤノン株式会社 | 情報処理装置、制御方法、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5295605B2 (ja) * | 2008-03-27 | 2013-09-18 | 株式会社東芝 | 検索キーワード改良装置、サーバ装置、および方法 |
US9886760B2 (en) * | 2015-03-05 | 2018-02-06 | Broncus Medical Inc. | GPU-based system for performing 2D-3D deformable registration of a body organ using multiple 2D fluoroscopic views |
US10740372B2 (en) | 2015-04-02 | 2020-08-11 | Canon Information And Imaging Solutions, Inc. | System and method for extracting data from a non-structured document |
US10630639B2 (en) * | 2017-08-28 | 2020-04-21 | Go Daddy Operating Company, LLC | Suggesting a domain name from digital image metadata |
JP6760244B2 (ja) * | 2017-10-31 | 2020-09-23 | 京セラドキュメントソリューションズ株式会社 | 文書管理システム及び文書管理サーバー |
-
2019
- 2019-01-17 JP JP2019006192A patent/JP7302175B2/ja active Active
- 2019-08-04 US US16/531,119 patent/US11006015B2/en active Active
- 2019-09-03 CN CN201910828110.XA patent/CN111444751B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1237742A (zh) * | 1998-02-10 | 1999-12-08 | 株式会社日立制作所 | 邮件等的地址阅读器、分类机以及字符串识别方法 |
JP2007122403A (ja) * | 2005-10-28 | 2007-05-17 | Fuji Xerox Co Ltd | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム |
CN101553816A (zh) * | 2006-11-20 | 2009-10-07 | 株式会社爱可信 | 信息显示装置、信息显示程序以及信息显示系统 |
JP2016218761A (ja) * | 2015-05-20 | 2016-12-22 | 富士電機株式会社 | 対策事例情報登録・検索装置、キーワード決定方法 |
JP2018128996A (ja) * | 2017-02-10 | 2018-08-16 | キヤノン株式会社 | 情報処理装置、制御方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
基于语义的关键词提取算法;方俊;郭雷;王晓东;;计算机科学(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20200236243A1 (en) | 2020-07-23 |
JP2020115260A (ja) | 2020-07-30 |
JP7302175B2 (ja) | 2023-07-04 |
US11006015B2 (en) | 2021-05-11 |
CN111444751A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657738B (zh) | 字符识别方法、装置、设备及存储介质 | |
US9514103B2 (en) | Effective system and method for visual document comparison using localized two-dimensional visual fingerprints | |
US11151367B2 (en) | Image processing apparatus and image processing program | |
EP2400454B1 (en) | Image processing apparatus, image processing method, and computer program | |
CN101178725B (zh) | 用于信息检索的设备和方法 | |
CN101443790A (zh) | 数字图像中的非回流内容的有效处理 | |
US11670067B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
US11321558B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20190197337A1 (en) | Image processing apparatus and image processing program | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
CN111738901A (zh) | 存储介质以及图像处理装置 | |
CN111444751B (zh) | 信息处理装置、储存介质及信息处理方法 | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
US9152885B2 (en) | Image processing apparatus that groups objects within image | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JP2010039783A (ja) | 文書処理装置、文書処理システム、文書処理方法、及び、文書処理プログラム | |
US11113558B2 (en) | Information processing apparatus and non-transitory computer readable medium storing information processing program for character string extraction | |
CN110909723B (zh) | 信息处理装置及计算机可读存储介质 | |
CN112347831A (zh) | 信息处理装置以及表识别方法 | |
CN113111881A (zh) | 信息处理装置及记录媒体 | |
JP2021018520A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20220019835A1 (en) | Image processing system, apparatus, method, and storage medium | |
US10922538B2 (en) | Information processing apparatus that determines whether a PDF file is searchable, and method and storage medium thereof | |
US20200410230A1 (en) | Document classification system and non-transitory computer readable recording medium storing document classification program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan Applicant after: Fuji film business innovation Co.,Ltd. Address before: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan Applicant before: Fuji Xerox Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |