CN113474767B - 文件检索装置、文件检索系统、文件检索程序及文件检索方法 - Google Patents

文件检索装置、文件检索系统、文件检索程序及文件检索方法 Download PDF

Info

Publication number
CN113474767B
CN113474767B CN202080013528.6A CN202080013528A CN113474767B CN 113474767 B CN113474767 B CN 113474767B CN 202080013528 A CN202080013528 A CN 202080013528A CN 113474767 B CN113474767 B CN 113474767B
Authority
CN
China
Prior art keywords
keyword
document
file
unit
corresponding keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080013528.6A
Other languages
English (en)
Other versions
CN113474767A (zh
Inventor
南拓也
川原悠
竹本真平
武田领子
奥野好成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Resonac Holdings Corp
Original Assignee
Lishennoco Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lishennoco Co ltd filed Critical Lishennoco Co ltd
Publication of CN113474767A publication Critical patent/CN113474767A/zh
Application granted granted Critical
Publication of CN113474767B publication Critical patent/CN113474767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文件检索装置包括:输入接受部,接受关键字的输入;文件获取部,从存放有作为对手写文件的文件图像数据进行文字识别处理而成的文本数据的文件档案、以及写下手写文件的文字的书写者名称的数字文件数据库中,获取书写者名称以及文件档案;对应关键字获取部,参照存放有将书写者名称、关键字以及对应关键字关联的信息的对应关键字数据库,并根据通过输入接受部输入的关键字以及由文件获取部获取的书写者名称,获取被输入的关键字的对应关键字;文件检索部,利用被输入的关键字以及获取的对应关键字,对文件获取部获取的文件档案进行检索;检索结果输出部,输出文件检索部的检索结果。

Description

文件检索装置、文件检索系统、文件检索程序及文件检索方法
技术领域
本公开涉及一种文件检索装置、文件检索系统、文件检索程序及文件检索方法。
背景技术
在以高度经济成长期为中心的时代的技术开发中作成的技术文件,有些是在纸介质上手写作成的文献。这些手写的技术文件是技术与知识的宝库,时而被用来解决现代面临的技术课题。然而,纸文件形态的难点见于其仓库保管的方式导致获取过程费时、逐页翻阅纸文件方能获得所需技术信息而导致耗费劳力等,因此造成无法充分有效地利用积累的技术文件的问题。
另一方面,近年来,对于纸文件等中包含的文字信息,已在利用光学读取装置等将其变换成电子数据形式的图像数据,再通过对所述图像数据进行光学文字识别(OpticalCharacter Recognition:OCR)处理,将图像数据中包含的文字信息作为文字数据进行提取,从而实现电子档案化。上述的手写技术文件也同样,对其进行电子档案化,以推动其迅速检索、阅览利用等的要求在日益高涨。
而当前对手写技术文件进行文字识别的技术的精度尚不充分,为了提高识别精度正在进行活跃的研究。例如,专利文献1中揭示了一种结合声音信息来提高手写文字的识别率的技术。专利文献2中揭示了一种对连体书写的手写文字数据进行文字识别时,通过正确分割文字来提高文字识别率的技术。
<现有技术文献>
<专利文献>
专利文献1:(日本)特开2005-258577号公报
专利文献2:(日本)特开平9-6920号公报
发明内容
<本发明要解决的问题>
手写文件的文字识别精度依旧不够高,对手写文件进行文字识别而获得的数字文件数据中,存在文字缺损或误识别。因此,即使对数字文件数据进行关键字检索,并不能有效发挥关键字检索的功能,从而难以迅速检索、阅览所希望的手写文件。
造成手写文件的文字识别精度不足的原因之一,可以举出手写文字的形状根据书写者各自的笔迹而异。文字笔迹属于书写者固有的特点,若是同一个书写者写的文件,可能会反复出现同一个误识别。
本发明鉴于上述情况情形,为了解决这些问题,其目的在于提高关键字检索的命中(检出)率。
<用于解决问题的手段>
本发明包括以下所述的结构。
[1]文件检索装置,包括:
输入接受部,接受关键字的输入;
文件获取部,从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是书写所述手写文件之文字的书写者的名称;
对应关键字获取部,参照存放有将书写者名称、输入关键字、对应关键字关联的信息的对应关键字数据库,并根据通过所述输入接受部输入的所述输入的关键字、及所述文件获取部获取的所述书写者名称,获取所述输入的关键字的对应关键字;
文件检索部,根据所述输入的关键字以及获取的所述对应关键字,对所述文件获取部获取的所述文件档案进行检索;
检索结果输出部,输出所述文件检索部的检索结果。
[2]根据[1]所述的文件检索装置,还具备:
文件图像数据库,存放所述手写文件的文件图像数据;及
文件图像输出部,从所述文件图像数据库获取与所述文件档案对应的文件图像数据并输出,
所述检索结果输出部,从所述文件档案中,作为检索结果输出包含所述被输入的关键字或所述对应关键字的文本数据,
所述文件图像输出部,在所述文本数据的一部分被选择的情况下,获取与包含所述被选择的文本数据的一部分的文件档案对应的文件图像数据并输出。
[3]根据[1]或[2]所述的文件检索装置,
所述文件检索部,分别根据所述被输入的关键字及所述对应关键字进行模糊检索,
所述检索结果输出部将所述模糊检索的结果包含在所述检索结果中。
[4]根据[2]或[3]所述的文件检索装置,
所述对应关键字数据库中存放的信息包括所述对应关键字或在模糊检索中作为检索关键字的关键字、由所述文件获取部获取的书写者名称、通过所述输入接受部被输入的关键字以及选择次数,
所述文件检索装置还具备对应关键字更新部,在所述检索结果中,作为根据所述对应关键字进行检索或模糊检索的结果而输出的文本数据的一部分被选择的情况下,更新所述选择次数,并存放到所述对应关键字数据库中。
[5]根据[1]至[4]的任一个所述的文件检索装置,
所述文件检索装置还具备用于使预测模型学习的预测模型学习部、以及用于存放所述预测模型的模型存储部,
所述预测模型学习部,将所述对应关键字数据库中存放的信息作为训练数据,使预测模型学习,
所述模型存储部存放学习完的学习完毕预测模型,
所述学习完毕预测模型,当所述被输入的关键字及所述获取的书写者名称被输入时,预测对应关键字,并输出预测所得对应关键字,
所述文件检索部,根据所述被输入的关键字及所述预测所得对应关键字,对所述文件获取部获取的文件档案进行检索。
[6]根据[4]所述的文件检索装置,
所述文件检索装置具备用于使预测模型学习的预测模型学习部、以及用于存放所述预测模型的模型存储部,
所述预测模型学习部,将所述对应关键字更新部中存放的更新后对应信息作为训练数据,使预测模型学习,
所述模型存储部存放学习完的学习完毕预测模型,
所述学习完毕预测模型,当所述被输入的关键字及所述获取的书写者名称被输入时,预测对应关键字,并输出预测所得对应关键字,
所述文件检索部,根据所述被输入的关键字及所述预测所得对应关键字,对所述文件获取部获取的文件档案进行检索。
[7]根据[6]所述的文件检索装置,
所述预测模型学习部,当所述检索结果中的文本数据被选择时,保持将所述被选择的文本数据中包含的由输入关键字生成的关键字、书写者名称以及输入关键字关联的对应信息,
所述预测模型学习部,将由所述对应信息构成的对应信息群作为训练数据,使预测模型学习,
所述模型存储部存放学习完的学习完毕预测模型,
所述学习完毕预测模型被存放到所述模型存储部之后,
所述学习完毕预测模型,当所述被输入的关键字及所述获取的书写者名称被输入时,预测对应关键字,并输出预测所得对应关键字,
所述文件检索部,根据所述被输入的关键字及所述预测所得对应关键字,对所述文件获取部获取的文件档案进行检索。
[8]根据[1]至[7]中的任一个所述的文件检索装置,
所述对应关键字是包含对与所述对应关键字对应的关键字进行所述文字识别处理的结果被误识别的文字的文字列。
[9]包括文件检索装置及终端装置的文件检索系统,
所述文件检索装置包括:
输入接受部,接受关键字的输入;
文件获取部,从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是写下所述手写文件的文字的书写者的名称;
对应关键字获取部,参照存放有将书写者名称、关键字、对应关键字关联的信息的对应关键字数据库,并根据通过所述输入接受部被输入的关键字、及由所述文件获取部获取的所述书写者名称,获取所述被输入的关键字的对应关键字;
文件检索部,根据所述被输入的关键字以及获取的所述对应关键字,对所述文件获取部获取的所述文件档案进行检索;及
检索结果输出部,将所述文件检索部的检索结果输出到所述终端装置。
[10]文件检索程序,使计算机执行:
接受关键字的输入的处理;
从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案的处理,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是书写所述手写文件的文字的书写者的名称;
参照存放有将书写者名称、关键字、对应关键字关联的信息的对应关键字数据库,并根据所述被输入的关键字以及获取的所述书写者名称,获取所述被输入的关键字的对应关键字的处理;
根据所述被输入的关键字及获取的所述对应关键字,对所述获取的文件档案进行检索的处理;及
输出检索结果的处理。
[11]用于计算机的文件检索方法,由所述计算机执行:
接受关键字的输入的步骤;
从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案的步骤,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是写下所述手写文件的文字的书写者的名称;
参照存放有将书写者名称、关键字、对应关键字关联的信息的对应关键字数据库,并根据所述被输入的关键字以及获取的所述书写者名称,获取所述被输入的关键字的对应关键字的步骤;
根据所述被输入的关键字及获取的所述对应关键字,对获取的所述文件档案进行检索的步骤;及
输出检索结果的步骤。
<发明的效果>
能够提高关键字检索的命中率。
附图说明
图1是表示第一实施方式的文件检索系统的系统结构的一例的图。
图2是说明第一实施方式的检索处理的图。
图3是说明第一实施方式的文件检索装置的硬件结构的图。
图4是表示第一实施方式的数字文件数据库的一例的图。
图5是表示第一实施方式的对应关键字数据库的一例的图。
图6是表示第一实施方式的文件图像数据库的一例的图。
图7是说明第一实施方式的文件检索装置的功能的图。
图8是说明第一实施方式的文件检索装置的动作的流程图。
图9是说明第一实施方式的检索结果一览的显示例的第一图。
图10是说明第一实施方式的检索结果一览的显示例的第二图。
图11是说明第二实施方式的文件检索装置的功能的图。
图12是表示第二实施方式的对应关键字数据库的一例的图。
图13是说明第二实施方式的文件检索装置的动作的流程图。
图14是说明第三实施方式的文件检索装置的功能的图。
图15是说明第三实施方式的文件检索装置的动作的流程图。
图16是说明第四实施方式的文件检索装置的功能的图。
图17是说明第四实施方式的文件检索装置的动作的流程图。
图18是说明第五实施方式的文件检索装置的功能的图。
图19是说明第五实施方式中的预测模型学习部的处理的流程图。
具体实施方式
(第一实施方式)
以下,参照附图说明第一实施方式。图1是表示第一实施方式的文件检索系统的系统结构的一例的图。
本实施方式的文件检索系统100包括文件检索装置200。文件检索系统100还包括终端装置300,文件检索装置200与终端装置300可通过网络连接。终端装置300除了具备通信介面装置等之外,还具备键盘等输入装置以及液晶显示器等输出装置。
本实施方式的文件检索装置200包括数字文件数据库210、对应关键字数据库220、文件图像数据库230以及检索处理部240。
数字文件数据库210中存放着数字文件档案(以下也称之为文件档案),其包含对文件图像数据库230中的纸文件的图像数据进行OCR(Optical character Recognition)处理而获得的文字信息。并且,在数字文件数据库210中,将数字文件档案与纸文件的文件名称以及写下所述纸文件的文字的书写者的姓名(以下也称之为书写者名称)关联起来存放。
对应关键字数据库220中存放着对应信息,其为将写下作为文件图像数据库230中存放的图像之来源的纸文件的文字等的书写者的名称、书写者写下的文字列当中的包含误识别文字的文字列(如下所述,将其作为对应关键字处理)、以及正确的文字列(正确文字列,如下所述,与被输入的关键字进行对比、参照)关联起来的信息。可预先以人工方式进行建立对应关键字数据库220的作业,即,在对应关键字数据库220存放将书写者名称、包含误识别文字的文字列以及正确的文字列关联的对应信息。在此,所述文字等还包括数字以及符号。
在文件图像数据库230中,存放通过光学读取装置等读取到的纸文件的图像数据。
在此,纸文件例如是手写作成的纸文件等。作为手写的纸文件,可以举出涉及特定技术领域的技术文件,包括在纸介质上经手写而成的记录本或报告书等、包含手写文字信息的设计图或照片等、附有手写文字信息的测定记录纸等。
纸文件还可以是活字印刷的纸文件等。作为活字印刷的纸文件,可以举出特定技术领域的技术文件,包括在纸介质上印刷活字的报告书、设计图等。作为对象的纸文件,亦可混合手写纸文件与活字印刷纸文件。在此,“纸介质”并不仅限于纸张,还包含塑胶膜(plastic film)、布材、板材、皮革、墙壁等。
本实施方式的数字文件数据库210、对应关键字数据库220以及文件图像数据库230被预先作成后设置在文件检索装置200中。
本实施方式的检索处理部240,从终端装置300或后述的输入装置24等接受关键字的输入之后,通过参照数字文件数据库210,获取写下手写文件的文字等的书写者名称以及文件档案。然后,检索处理部240参照对应关键字数据库220,并根据与文件档案对应的书写者名称,获取与被输入的关键字以及书写者名称对应的对应关键字。在以下说明中,将被输入的关键字称为输入关键字。
接下来,检索处理部240根据所获取的对应关键字以及输入关键字,对数字文件数据库210中包含的文件档案进行检索,并将检索结果输出到终端装置300。检索处理部240对数字文件数据库210中存放的全部文件档案进行该处理。
即,本实施方式的检索处理部240,不仅根据输入关键字对数字文件数据库210进行检索,还根据对应关键字对数字文件数据库210进行检索,该对应关键字是指作为输入关键字应被参照的文字列,且是包含被误识别的文字的文字列。
以下,参照图2进一步说明检索处理部240的处理。图2是说明第一实施方式的检索处理的图。
经手写记录在纸文件的文字,即便是同一个文字,其形状会根据书写者的笔迹而异。具体例如,根据不同的书写者,可能会有偏旁间的距离较大,使用旧字体或简化字、潦草字等的情况。另外,也有书写者的误解造成写错字的情况。
在偏旁间距离较大的情况下,偏与旁可能会被误识别成分开的文字。此外,旧字体或简化字、潦草字等可能会被误识别成有背原意的文字。
图2中表示了将手写记录在纸文件上的手写文字列、作为对手写文字列进行基于OCR处理的文字识别的结果的数字文字列、手写文字列所意图的正确文字列、以及手写文字的笔迹类型关联起来的表。
在所述表中,例如,书写者在纸文件上写下了正确文字列“飛行”时,简化了“飛”字。因此,手写文字“飛”在文字识别结果的数字文字中被认为是“レ”。由此可知,该书写者的手写文字列“飛行”被误识别成了数字文字列“レ行”。
另外,例如,书写者在纸文件上写下正确文字列“問題”时,简化了“問”字。因此,手写文字“問”在文字识别结果的数字文字中被认为是“同”。从而可知,该书写者的手写文字列“問題”被误识别成了数字文字列“同題”。
此外还例如,书写者将正确文字列“溶液”的三点水偏旁部分别写得潦草的情况下,被误识别成“1容1夜”。此外,书写者将正确文字列“研究”写成旧字体的情况下,被误识别成“石チキ究”。
如上所述,手写文件的情况下,书写者的笔迹(书写习惯)会导致文字的误识别。而这种误识别是书写者所固有的问题,因此,若是同一个书写者写的文件,就会有同一个误识别反复出现。
对此,在本实施方式中,针对每个书写者,预先将正确文字列与数字文字列关联存放在对应关键字数据库220中。
例如,图2的例子是对某个书写者x写的纸文件进行文字识别的结果时,将书写者x、正确文字列“飛行”、作为误识别结果的数字文字列“レ行”关联起来作为对应信息,并将其预先存放在对应关键字数据库220中。
此外,对应关键字数据库220中还可以存放同样将书写者x、正确文字列“問題”、作为误识别结果的数字文字列“同題”关联起来的对应信息。
然后,检索处理部240,例如在输入关键字“飛行”被输入的情况下,针对文件档案,根据输入关键字“飛行”进行检索,还根据作为与“飛行”对应的数字文字列的对应关键字“レ行”进行检索。
在本实施方式中,如上所述,利用包含作为手写文字被误识别的结果的文字的文字列(对应关键字),以及作为表示手写文字的原意的词语的正确文字列(输入关键字),进行检索处理。
因此,根据本实施方式,例如,在存放于数字文件数据库210的文件档案中,与输入关键字一致的词语在OCR处理中被错误识别的情况下,或者,虽然识别无误但文字本为错字等的情况下,通过利用对应关键字进行检索,能够提高提取到输入该输入关键字的用户所希望的文件的可能性。
因此,根据本实施方式,能够提高关键字检索的命中率的同时防止误检索。
此外,图1的例子中,数字文件数据库210、对应关键字数据库220、文件图像数据库230被设置在文件检索装置200中,但并不限定于此。也可以将数字文件数据库210、对应关键字数据库220、文件图像数据库230分别设置在能够与文件检索装置200进行通信的外部装置。此外,也可以将数字文件数据库210、对应关键字数据库220、文件图像数据库230的一部分设置在文件检索装置200。
以下,参照图3,说明本实施方式的文件检索装置200的硬件结构。图3是说明第一实施方式的文件检索装置的硬件结构的图。
本实施方式的文件检索装置200是处理文件信息的装置,其包括图像输入装置以及计算机。换言之,本实施方式的文件检索装置200是包括CPU(Central Processing Unit)21、主存储装置22、辅助存储装置23、输入装置24、输出装置25、通信介面装置26以及驱动装置27的信息处理装置,其各部分通过总线连接。
CPU21是控制文件检索装置200的动作的主控制部,其通过读取并执行主存储装置22中存放的文件检索程序,来实现下文所述的各种功能。
主存储装置22,在文件检索装置200起动时,从辅助存储装置23中读取文件检索程序并存放。辅助存储装置23用于存放已安装完的文件检索程序,并存放上述各数据库等所需要的档案、数据等。
输入装置24是用于输入各种信息的装置,例如由键盘或点击装置等实现。输出装置25是用于输出各种信息的装置,例如由显示器等实现。通信介面装置26包含LAN卡等,用于连接网络。
用于实现本实施方式的检索处理部240的文件检索程序,是控制文件检索装置200的各种程序的至少一部分。例如,可以通过分配记录介质28或从网络下载等的方式,提供文件检索程序。作为记录有文件检索程序的记录介质28,可以使用CD-ROM、软磁盘(flexibledisk)、光磁盘(magneto optical disk)等以光学、电子或磁力方式记录信息的记录介质,或者ROM、闪存等以电子方式记录信息的半导体存储器等各种类型的记录介质。
此外,当记录有文件检索程序的记录介质28被设置在驱动装置27时,通过驱动装置27,将文件检索程序从记录介质28安装到辅助存储装置23中。从网络下载的文件检索程序,则通过通信介面装置26被安装到辅助存储装置23中。
以下,参照图4至图6,说明本实施方式的各数据库。本实施方式的各数据库,例如可以设置在辅助存储装置23等的存储区。
图4是表示第一实施方式的数字文件数据库的一例的图。在本实施方式的数字文件数据库210中,作为信息项目,对应设置有文件ID、文件名称、书写者名称、文件档案。数字文件数据库210中,包含各项目的值的信息是数字文件信息。
项目“文件ID”的值是用于确定作为图像数据被存放在文件图像数据库230中的纸文件的识别信息。在此,项目“文件ID”的值可由手写文件的图像数据的制作年月日信息以及附加于年月日信息的分支编号构成。
项目“文件名称”的值是作为图像数据被存放在文件图像数据库230中的纸文件的名称。
项目“书写者名称”的值表示写下依据文件名称所确定的纸文件的手写文字的书写者的姓名。换言之,项目“书写者名称”的值是用于确定写下纸文件的手写文字的书写者的信息。
项目“文件档案”的值是对依据文件名称确定的纸文件的图像数据进行OCR处理所获得的文件档案本身。本实施方式的文件档案是文本数据。
图4的例中,例如文件名称为“1960年6月份_月报”的纸文件,可知其由书写者名称为“i”的人物所书写,是“1960年6月份_月报文本”的文本数据。
图5是表示第一实施方式的对应关键字数据库的一例的图。本实施方式的对应关键字数据库220中,作为信息项目,具有书写者名称、关键字以及对应关键字。对应关键字数据库220中,包含各项目的值信息是对应信息。
项目“关键字”的值表示依据写者名称确定的书写者所意图的关键字。换言之,项目“关键字”的值是图2所示的正确文字列。
项目“对应关键字”的值是包含由书写者手写输入的文字被误识别的结果所获得的文字的文字列。换言之,项目“对应关键字”的值是图2所示的数字文字列。
图5的例中,例如,书写者名称“i”、对应的关键字“水酸化”、对应的对应关键字“力酸ヒ”具有对应关系。这表示,对书写者名称为“i”的书写者所书写的手写文字列“水酸化”进行OCR处理的结果,被误识别成了“力酸ヒ”。
图6是表示第一实施方式的文件图像数据库的一例的图。本实施方式的文件图像数据库230中,作为信息项目包括文件ID、文件名称以及文件图像数据。
项目“文件图像数据”的值是利用光学读取装置对纸文件进行读取而获得的图像数据。作为本实施方式的文件图像数据,例如可以存放pdf档案,还可以存放图像数据。
在以下说明中,将文件图像数据库230中的包含项目“文件ID”的值及其他项目的值的信息,称为文件图像信息。
此外,文件图像数据库230还可以包含图6所示的项目之外的项目。具体而言,例如,作为文件图像数据库230的项目,还可以包含文件图像信息被存放到文件图像数据库230中的年月日、执行文件图像信息的存放处理的执行者的姓名等。
其次,参照图7,说明本实施方式的文件检索装置200的功能。图7是说明第一实施方式的文件检索装置的功能的图。
本实施方式的文件检索装置200包括数字文件数据库210、对应关键字数据库220、文件图像数据库230以及检索处理部240。
本实施方式的检索处理部240包括输入接受部241、文件获取部242、对应关键字获取部244、文件检索部245、检索结果输出部246、选择接受部247以及文件图像输出部248。
输入接受部241用于接受对文件检索装置200进行的各种输入。具体而言,输入接受部241接受根据输入关键字进行检索的检索要求的输入。
文件获取部242用于获取数字文件数据库210中存放的文件档案以及写下手写文件的书写者名称。
对应关键字获取部244参照对应关键字数据库220,获取由文件获取部242获取的书写者名称以及与输入关键字对应的对应关键字。
文件检索部245针对由文件获取部242获取的文件档案,根据输入关键字进行检索,以及根据对应关键字进行检索。另外,文件检索部245还可以利用输入关键字以及对应关键字,对文件档案进行模糊检索。
更具体是,文件检索部245可以对输入关键字以及对应关键字,分别生成将其一部分文字列置换成任意文字列的检索关键字,并根据该生成的关键字对文件档案进行检索。
检索结果输出部246输出文件检索部245的检索结果。具体而言,检索结果输出部246,将包含检索时使用的输入关键字或对应关键字的文件档案的文本数据中的,例如包含所述关键字的文本数据的一部分作成一览,并作为检索结果显示在终端装置300等。
选择接受部247接受从输出的检索结果一览当中选择特定检索结果的选择操作。具体而言,选择接受部247接受对作为检索结果被显示出来的文件档案的一部分进行的选择。
文件图像输出部248,参照文件图像数据库230,获取并输出与选择接受部247所选择的检索结果对应的文件图像数据。具体而言,文件图像输出部248获取与检索结果对应的文件图像数据,并在终端装置300上显示例如包含所述关键字的文件图像的一部分。
以下,参照图8说明本实施方式的文件检索装置200的动作。图8是说明第一实施方式的文件检索装置的动作的流程图。
本实施方式的文件检索装置200的检索处理部240,通过输入接受部241接受输入关键字的输入(步骤S801)。
然后,检索处理部240通过文件获取部242,从存放在数字文件数据库210中的文件档案中,获取1个文件档案以及与所述文件档案对应的书写者名称(步骤S802)。
然后,检索处理部240通过对应关键字获取部244,参照对应关键字数据库220,获取与输入关键字以及书写者名称对应的对应关键字(步骤S803)。
其后,检索处理部240通过文件检索部245,根据输入关键字以及对应关键字,对步骤S802中获取的文件档案进行检索(步骤S804)。在此,也可以由文件检索部245保持作为检索结果所获得的文件档案的文件ID等。
此时,本实施方式的文件检索部245还可以分别对输入关键字和对应关键字,或者其中的任一方进行模糊检索。
模糊检索之意为,例如,将文字列的一部分置换成任意文字的截词检索(wildcard search)。在此,截词检索为一例,也可以采用截词检索之外的方法进行模糊检索。具体而言,例如,文件检索部245还可以执行根据Word2Vec技术或深度学习的词语相似度检索。
接下来,文件检索部245判断是否已检索完数字文件数据库210中存放的全部文件档案(步骤S805)。在步骤S805中,若尚未对全部文件档案进行完检索,检索处理部240返回步骤S802。
在步骤S805中,若已对全部文件档案进行完检索,检索处理部240通过检索结果输出部246,判定是否有作为检索结果被命中的文件档案存在(步骤S806)。
在步骤S806中,若不存在符合条件的文件档案,检索处理部240就通过检索结果输出部246,向终端装置300输出表示不存在符合条件的文件档案的通知(步骤S807),并结束处理。
在步骤S806中,若存在符合条件的文件档案,检索结果输出部246从符合条件的文件档案中获取包含命中的关键字的文本数据(步骤S808)。
接下来,检索结果输出部246将获取的文本数据中的,例如包含命中的关键字前后的文本数据的一部分的一览,作为检索结果输出到终端装置300(步骤S809)。
接下来,检索处理部240通过选择接受部247判定是否接受到针对作为检索结果输出的文本数据的选择(步骤S810)。
在步骤S810中,若并未接受到选择,检索处理部240就结束处理。
在步骤S810中,若接受到了选择,文件图像输出部248从文件图像数据库230中获取与包含被选文本数据的文件档案的文件ID对应的文件图像数据,将例如包含所述关键字的文件图像的一部分输出到终端装置300(步骤S811),结束处理。
针对作为检索结果被输出的文本数据,进行检索的利用者,通过选择包含检索中命中的关键字的文本数据的至少一部分,并显示与包含被选文本数据的一部分的文件档案的文件ID对应的文件图像数据,能够以此确认所述命中的文件档案是否就是所希望文件档案。即,进行检索的利用者,获得所述检索结果之后,通过对选择接受部247进行选择操作来选择被输出的文本数据的一部分,从而能够显示出与命中的文件档案对应的文件图像数据,以此确认所获得的检索结果是否恰当。
以下,参照图9,说明在图8的步骤S809中输出到终端装置300的检索结果一览的显示例。
图9是说明第一实施方式的检索结果一览的显示例的第一图。图9所示的画面91中显示的是,想要检索“黒鉛電極”时,作为输入关键字输入了包含“黑鉛”的“黒鉛電極”的情况下的检索结果一览的例子。在此,以“黒鉛電極”的“電極”作为固定关键字,以下是与输入关键字以及对应关键字等进行组合用于检索的形态。
在这种情况下,检索处理部240,首先,参照数字文件数据库210,获取文件ID“1”的文件档案,以及与文件ID“1”对应的书写者名称“i”(参照图4)。
其次,检索处理部240参照对应关键字数据库220,获取与输入关键字“黒鉛”及书写者名称“i”对应的对应关键字。在此,从对应关键字数据库220中,作为与文字列“黒鉛”以及书写者名称“i”对应的对应关键字,获取到“里鉛”(参照图5)。
检索处理部240,获取对应关键字之后,分别利用包含输入关键字的“黒鉛電極”以及包含对应关键字的“里鉛電極”,对文件ID“1”的文件档案进行检索。检索处理部240对数字文件数据库210内的全部文件档案进行该处理。
其结果,在文件名称“A”的文件档案中发现了包含输入关键字的“黒鉛電極”,在文件名称“E”的文件档案中发现了包含对应关键字的“里鉛電極”。
因此,检索处理部240,作为检索结果一览显示出包括文件名称“A”与书写者名称“i”的信息92,以及文件名称“A”的文件档案中的包含输入关键字“黒鉛電極”及其前后部分的文本数据93。信息92是附加信息,其包含用于确定作为文本数据93之来源的文件档案的文件名称,以及书写者名称。
此外,检索处理部240同样还显示出包括文件名称“E”与书写者名称“i”的信息94,以及文件名称“E”的文件档案中的包含对应关键字“里鉛電極”及其前后部分的文本数据95。
本实施方式中,如上所述,对所有的检索结果,一览显示文件名称、书写者名称以及包括检索出的关键字及其前后部分的文本数据。
并且,在文本数据中,还可以采用高亮(highlight)显示或下划线显示等方式,强调显示包含输入关键字或对应关键字的文字列。另外,在本实施方式中,对文本数据中的包含输入关键字的文字列及包含对应关键字的文字列进行强调显示时可以采用不同方式。
此外,本实施方式的检索处理部240,例如,在画面91中的文本数据93被选之后,从文件图像数据库230中获取与文本数据93对应的文件ID“1”的文件图像数据并进行显示。
在本实施方式中,如上所述,对数字文件数据库210内存放的文件档案进行检索并显示检索结果,还在终端装置300上显示与从检索结果中选择的文本数据对应的文件图像数据。
在本实施方式中,通过上述方式,例如,在与文件图像数据对应的文件档案中,即使应当作为输入关键字参照的正确文字列被误认的情况下,也能够作为检索结果获取。
图10是说明第一实施方式的检索结果一览的显示例的第二图。图10所示的画面91A中,表示了作为输入关键字输入包含“黒鉛”的“黒鉛電極”的情况下的检索结果一览的例子。
在图10所示的画面91A中,附加在文本数据的信息不同于图9的例子。画面91A中,附加在文本数据93的信息92A表示文件档案的文件名称为“A”,书写者名称为“i”、检索中命中的关键字是输入关键字。
此外,附加在文本数据95的信息94A表示文件档案的文件名称为“E”,书写者名称为“i”,检索中命中的关键字是对应关键字。
另外,附加在文本数据97的信息96表示文件档案的文件名称为“P”,书写者名称为“k”,检索中命中的关键字是用于模糊检索的关键字。
如上所述,本实施方式中,检索结果一览中还可以包括作为检索结果获取的文本数据中的关键字的种类。
本实施方式中,通过这种方式,例如,进行检索的利用者能够容易地发现其希望的文件图像数据,还能够确认利用对应关键字获得的检索结果是否恰当。
具体而言,例如,假设进行检索的利用者,希望阅览由书写者“i”写下文字的纸文件的文件图像数据,但并不知道写下文字的书写者是“i”。在这种情况下,与包含输入关键字的文件档案相比,包含书写者“i”的对应关键字的文件档案与利用者所希望的文件图像数据相对应的可能性会更高。在这种情况下,利用者例如通过选择文本数据95,就能阅览到其希望的文件图像数据。
此外,本实施方式中,还可以根据检索中利用的关键字的种类,对检索结果设定优先顺序,并在图9以及图10所示的检索结果一览中,按照所述优先顺序显示出检索结果。在此,检索结果包含文本数据以及附加在文本数据的附加信息。
具体而言,例如,本实施方式中可将输入关键字的优先顺序设定为最高,其次是对应关键字的优先顺序,而用于模糊检索的关键字的优先顺序为最低。
在这种情况下,如图10所示,包含输入关键字的检索结果被显示在一览的最上位,包含用于模糊检索的关键字的检索结果被显示在一览的最下位。
本实施方式中,如上所述,通过对检索结果的显示顺序设定优先顺序,能够从文字识别的精度较高的文件档案开始,依序面向利用者显示检索结果。
(第二实施方式)
以下,参照附图,说明第二实施方式。第二实施方式不同于第一实施方式之处在于,根据检索结果一览中的文本数据的选择,更新对应关键字数据库。因此,接下来在的第二实施方式的说明中,将说明与第一实施方式的不同点,而对于功能结构与第一实施方式相同的部分,采用第一实施方式中说明的符号,并省略其说明。
图11是说明第二实施方式的文件检索装置的功能的图。
本实施方式的文件检索装置200A包括数字文件数据库210、对应关键字数据库220A、文件图像数据库230以及检索处理部240A。
本实施方式中,检索结果一览中列出的文本数据每次被选择时,更新对应关键字数据库220A。关于对应关键字数据库220A详情后述。
本实施方式的检索处理部240A,除了具备第一实施方式的检索处理部240的各部分之外,还具备对应关键字更新部249。
每当选择接受部247接受到文本数据的选择时,即,每当有文件图像数据被输出时,对应关键字更新部249都会更新对应关键字数据库220A。关于对应关键字更新部249的处理详情后述。
图12是表示第二实施方式的对应关键字数据库的一例的图。本实施方式的对应关键字数据库220A中,作为信息项目设有书写者名称、关键字、对应关键字以及选择次数。
项目“选择次数”的值表示从检索结果一览中选择文本数据的次数,所述文本数据包括书写者名称与输入关键字或对应关键字的组合。也可以在显示检索结果一览时,参照项目“选择次数”的值。
其次,参照图13,说明本实施方式的文件检索装置200A的动作。图13是说明第二实施方式的文件检索装置的动作的流程图。
图13的步骤S1301至步骤S1311的处理与图8的步骤S801至步骤S811的处理相同,因此省略其说明。
检索处理部240A,在步骤S1311获取文件图像数据并输出到终端装置300之后,判断对应关键字数据库220A内是否存在与附加于被选文本数据的附加信息对应的对应信息(步骤S1312)。
在步骤S1312,若对应关键字数据库220A中存在符合条件的对应信息,对应关键字更新部249对符合条件的对应信息的选择次数进行更新,并存放到对应关键字数据库220A(步骤S1313),结束处理。具体而言,对应关键字更新部249将符合条件的对应信息的选择次数上提1次,并结束处理。
在步骤S1312,若不存在符合条件的对应信息,检索处理部240则根据附加信息生成新的对应信息,并追加存放到对应关键字数据库220A中(步骤S1314),结束处理。
以下,参照图9、图10及图12,具体说明对应关键字更新部249的处理。
例如,假设在画面91中选择了文本数据95。在这种情况下,文本数据95上附加有附加信息94。
文本数据95是根据关键字“里鉛”进行检索的结果,附加信息92包含表示书写者名称“i”的信息。因此,选择了所述文本数据95,即意味着选择了关键字“里鉛”与书写者名称“i”的组合。
因此,对应关键字更新部249,在对应关键字数据库220A的对应信息121中,向选择次数追加1。
此外,例如,假设在图10所示的画面91A中,选择了文本数据97。在这种情况下,文本数据97上附加有附加信息96。
文本数据97是根据模糊检索中生成的关键字“白金”进行检索的结果,附加信息96包含表示书写者名称“k”的信息。因此,选择了所述文本数据97,即意味着选择了关键字“白金”与书写者名称“k”的组合。
对应关键字数据库220A中并未存放将关键字“白金”与书写者名称“k”关联起来的对应信息,因此,对应关键字更新部249将关键字“白金”作为新的对应关键字,生成将书写者名称“k”、作为输入关键字的关键字“黒鉛”、对应关键字“白金”关联的对应信息,并将其被选择次数作为1次,追加存放在对应关键字数据库220A中。
如上所述,本实施方式中,每当从检索结果中选择文本数据时,都会更新对应关键字数据库220A。换言之,本实施方式中,所阅览的文件图像每次被选择,都要更新对应关键字数据库220A。
在反复进行检索处理的情况下,显示检索结果时,可以从根据对应关键字数据库220A中选择次数多的关键字检测出的检索结果开始,依序进行显示。
因此,根据本实施方式,越是反复进行检索处理,越能够提高关键字检索的命中率。
例如,关于以“水酸化”作为输入关键字进行检索处理的情况进行探讨。在这种情况下,例如,假设根据输入关键字“水酸化”检测出书写者名称“i”的文件档案,根据对应关键字“水酸ヒ”检测出书写者名称“k”的文件档案。
在这种情况下,文件检索部245参照对应关键字数据库220A,会优先显示对应信息包含的选择次数较大的对应关键字的检索结果。
在图12的例子中,包含对应关键字“カ酸ヒ”与书写者名称“i”之组合的对应信息122的选择次数为10次,包含对应关键字“水酸ヒ”与书写者名称“k”之组合的对应信息123的选择次数为12次。
因此,对应关键字更新部249会将根据对应关键字“水酸ヒ”找出的书写者名称“k”的文件档案的文本数据,显示在对应关键字“カ酸ヒ”、书写者名称“i”的文件档案的文本数据的上位。
本实施方式中,通过以上述方式决定显示顺序,能够从进行检索的利用者所选次数较多的组合的文本数据开始,依序进行显示。
(第三实施方式)
第三实施方式与第一实施方式的不同之处在于,将对应关键字数据库220中存放的对应信息作为训练数据,供用于预测对应关键字的预测模型进行学习,从而获得由预测模型进行预测并输出的预测后对应关键字。因此,在以下的第三实施方式的说明中,说明与第一实施方式的不同点,而对于功能结构与第一实施方式相同的部分,标注与第一实施方式的说明中使用的符号相同的符号,并省略其说明。
图14是说明第三实施方式的文件检索装置的功能的图。
本实施方式的文件检索装置200B包括数字文件数据库210、对应关键字数据库220、文件图像数据库230、检索处理部240B以及模型存储部250。
检索处理部240B包括输入接受部241、文件获取部242、对应关键字获取部244、文件检索部245、检索结果输出部246、选择接受部247、文件图像输出部248以及预测模型学习部251。
预测模型学习部251将对应关键字数据库220中存放的对应信息作为训练数据输入到预测模型260,预测模型260通过机器学习等进行学习,并将学习完的学习完毕预测模型260A存放到模型存储部250中。在此,也可以由模型存储部250存储预测模型260。
学习完毕预测模型260A,在输入关键字以及书写者名称被输入之后,预测对应关键字,并输出预测后对应关键字。预测后对应关键字可以有多个。
对应关键字获取部244,将文件获取部242获取的书写者名称以及输入关键字,输入到模型存储部250中存储的学习完毕预测模型260A中,并获取由学习完毕预测模型260A进行预测的结果,即预测后对应关键字。
图15是说明第三实施方式的文件检索装置的动作的流程图。图15的步骤S1501以及步骤S1502,与图8的步骤S801以及步骤S802相同,因此省略说明。
检索处理部240B,通过对应关键字获取部244在步骤S1502获取书写者名称之后,将书写者名称以及输入关键字输入到学习完毕预测模型260A,并获取由学习完毕预测模型260A预测出的结果,即预测后对应关键字(步骤S1503)。
接下来,检索处理部240B,通过文件检索部245,根据输入关键字以及预测后对应关键字,对文件获取部242获取的文件档案进行检索(步骤S1504)。
步骤S1504至步骤S1511的处理与图8的步骤S804至步骤S811的处理相同,因此省略其说明。
如上所述,本实施方式中,将对应关键字数据库220中存放的对应信息作为训练数据,建立学习完毕预测模型260A。学习完毕预测模型260A,例如,可以根据输入关键字及书写者的笔迹,将形状与输入关键字类似的文字列,作为对应关键字等预测输出。
(第四实施方式)
第四实施方式是组合了第二实施方式以及第三实施方式的实施方式。在以下的第四实施方式的说明中,对于功能结构与第二实施方式以及第三实施方式中所必要的功能结构相同的部分,标注与第二实施方式以及第三实施方式的说明中使用的符号相同的符号,并省略其说明。
图16是说明第四实施方式的文件检索装置的功能的图。
本实施方式的文件检索装置200C包括数字文件数据库210、对应关键字数据库220A、文件图像数据库230、检索处理部240C以及模型存储部250。
检索处理部240C包括第三实施方式的检索处理部240B所具有的各部分以及对应关键字更新部249。
以下,参照图17,说明第四实施方式的文件检索装置200C的动作。图17是说明第四实施方式的文件检索装置的动作的流程图。
图17的步骤S701至步骤S1711的处理与图15的步骤S1501至步骤S1511的处理相同,因此省略其说明。
步骤S1711之后的步骤S1712至步骤S1714的处理与图13的步骤S1312至步骤S1314的处理相同,因此省略其说明。
步骤S1713、1714之后,检索处理部240C,通过预测模型学习部251,以更新后的对应关键字数据库220A作为训练数据,使学习完毕预测模型260A进一步学习,更新为学习完毕预测模型260B,并存放到预测模型学习部251中(步骤S1715),结束处理。步骤S1715中的学习完毕预测模型的更新,并非一定要对文件检索装置的每各动作进行,可以根据利用者的动作指定,以复数次动作为单位进行。
本实施方式中,如上所述,利用根据由进行检索的利用者选择的检索结果被更新的对应关键字数据库220A,来更新学习完毕预测模型260A。换言之,根据输入关键字与利用者选择的文本数据的对应信息,更新学习完毕预测模型。
因此,本实施方式中,检索处理进行的越多,越能够提高根据对应关键字检索的命中率。
(第五实施方式)
以下,参照附图,说明第五实施方式。第五实施方式与第三实施方式的不同之处在于,并不具备对应关键字数据库,而是根据进行检索的利用者所选择的检索结果来建立预测模型。因此,在以下的第五实施方式的说明中,对于功能结构与第三实施方式相同的部分,标注与第三实施方式的说明中使用的符号相同的符号,并省略其说明。
图18是说明第五实施方式的文件检索装置的功能的图。本实施方式的文件检索装置200D包括数字文件数据库210、文件图像数据库230、检索处理部240D以及模型存储部250。
检索处理部240D包括输入接受部241、文件获取部242、对应关键字获取部244、文件检索部245、检索结果输出部246、选择接受部247、文件图像输出部248以及预测模型学习部252。
本实施方式的预测模型学习部252,在检索结果输出部246输出的检索结果中的文本数据被选择的情况下,保持将被选文本数据中包含的检索中命中的关键字、书写者名称以及输入关键字关联的对应信息。
在建立学习完毕预测模型260A之前的检索处理中命中的关键字是指,输入关键字,以及为了进行模糊检索而基于输入关键字生成的关键字。
然后,当积累到规定数量的对应信息群时,预测模型学习部252将对应信息群用为训练数据,供预测模型260进行学习,并将学习完的学习完毕预测模型260C存放到模型存储部250。在此,本实施方式的预测模型学习部252,例如,还可以将对应信息群提供给人工智能等,获取学习完毕预测模型260C。
检索处理部240D,在建立学习完毕预测模型260C之后,获取利用学习完毕预测模型260C预测输出的对应关键字。
以下,参照图19,说明本实施方式的预测模型学习部252的处理。图19是说明第五实施方式中的预测模型学习部的处理的流程图。
本实施方式的预测模型学习部252判断将书写者名称、输入关键字以及命中的关键字的对应信息是否积累达到了规定数量(步骤S1901)。规定数量可以是用于建立预测模型260所必须的最低限度的数量,也可以是预先决定的数量。积累的对应信息群的规定数量优选是2以上,更优选是5以上,进而优选是10以上。
在步骤S1901中,若尚未积累到规定数量的对应信息,预测模型学习部252待机到对应信息积累达到规定数量为止。
在步骤S1901中,若积累到了规定数量的对应信息,预测模型学习部252就将对应信息群用为训练数据,供预测模型260进行学习,建立学习完毕预测模型260C(步骤S1902),并存储到模型存储部250(步骤S1903),结束处理。
如上所述,根据本实施方式,无需预先制作对应关键字数据库220,检索处理进行的越多,越能够提高关键字检索的命中率。
上述各实施方式还能够应用于手写记载的纸文件。具体而言,例如,若能够将书写者名称与书写者写下的纸文件的图像数据关联起来,就能够应用于纸文件。
本发明并不限定于具体公开的实施方式,只要不脱离权利要求的范围,可以进行各种变形及变更。
本国际申请以2019年2月14日提交的日本发明专利申请2019-24821号作为要求优先权的基础,本国际申请引用日本发明专利申请2019-24821号的全部内容。
符号说明
100 文件检索系统
200、200A、200B、200C、200D 文件检索装置
210 数字文件数据库
220、220A 对应关键字数据库
230 文件图像数据库
240、240A、240B、240C、240D 检索处理部
241 输入接受部
242 文件获取部
244 对应关键字获取部
245 文件检索部
246 检索结果输出部
247 选择接受部
248 文件图像输出部
249 对应关键字更新部
250 模型存储部
251、252 预测模型学习部
260 预测模型
260A、260B、260C 学习完毕预测模型
300 终端装置

Claims (10)

1.一种文件检索装置,其具备:
输入接受部,接受关键字的输入;
文件获取部,从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是写下所述手写文件的文字的书写者的名称;
对应关键字获取部,参照存放有将书写者名称、关键字、对应关键字关联的信息的对应关键字数据库,并根据通过所述输入接受部被输入的关键字、及由所述文件获取部获取的所述书写者名称,获取所述被输入的关键字的对应关键字;
文件检索部,根据所述被输入的关键字以及获取的所述对应关键字,对所述文件获取部所获取的所述文件档案进行检索;及
检索结果输出部,输出所述文件检索部的检索结果,
所述对应关键字是包含作为对与所述对应关键字关联的关键字进行所述文字识别处理的结果的误识别文字的文字列。
2.根据权利要求1所述的文件检索装置,还具备:
文件图像数据库,存放所述手写文件的文件图像数据;及
文件图像输出部,从所述文件图像数据库获取与所述文件档案对应的文件图像数据并输出,
所述检索结果输出部,从所述文件档案中,作为检索结果输出包含所述被输入的关键字或所述对应关键字的文本数据,
所述文件图像输出部,在所述文本数据的一部分被选择的情况下,获取与包含所述被选择的文本数据的一部分的文件档案对应的文件图像数据并输出。
3.根据权利要求1所述的文件检索装置,其中,
所述文件检索部,分别根据所述被输入的关键字及所述对应关键字进行模糊检索,
所述检索结果输出部将所述模糊检索的结果包含在所述检索结果中。
4.根据权利要求2所述的文件检索装置,其中,
所述对应关键字数据库中存放的信息包括所述对应关键字或在模糊检索中作为检索关键字的关键字、由所述文件获取部获取的书写者名称、通过所述输入接受部被输入的关键字以及选择次数,
所述文件检索装置还具备对应关键字更新部,在所述检索结果中,作为根据所述对应关键字进行检索或模糊检索的结果而输出的文本数据的一部分被选择的情况下,所述对应关键字更新部更新所述选择次数,并将其存放到所述对应关键字数据库中。
5.根据权利要求1至4中的任一项所述的文件检索装置,其中,
所述文件检索装置还具备用于使预测模型学习的预测模型学习部、以及用于存放所述预测模型的模型存储部,
所述预测模型学习部,将所述对应关键字数据库中存放的信息作为训练数据,使预测模型学习,
所述模型存储部存放学习完的学习完毕预测模型,
当所述被输入的关键字及所述获取的书写者名称被输入时,所述学习完毕预测模型预测对应关键字,并输出预测所得对应关键字,
所述文件检索部,根据所述被输入的关键字及所述预测所得对应关键字,对所述文件获取部获取的文件档案进行检索。
6.根据权利要求4所述的文件检索装置,
所述文件检索装置具备用于使预测模型学习的预测模型学习部、以及用于存放所述预测模型的模型存储部,
所述预测模型学习部,将所述对应关键字更新部中存放的更新后对应信息作为训练数据,使预测模型学习,
所述模型存储部存放学习完的学习完毕预测模型,
当所述被输入的关键字及所述获取的书写者名称被输入时,所述学习完毕预测模型预测对应关键字,并输出预测所得对应关键字,
所述文件检索部,根据所述被输入的关键字及所述预测所得对应关键字,对所述文件获取部获取的文件档案进行检索。
7.根据权利要求6所述的文件检索装置,
当所述检索结果中的文本数据被选择时,所述预测模型学习部保持将所述被选择的文本数据中包含的由被输入的关键字生成的关键字、书写者名称以及被输入的关键字关联的对应信息,
所述预测模型学习部,将由所述对应信息构成的对应信息群作为训练数据,使预测模型学习,
所述模型存储部存放学习完的学习完毕预测模型,
所述学习完毕预测模型被存放到所述模型存储部之后,
当所述被输入的关键字及所述获取的书写者名称被输入时,所述学习完毕预测模型预测对应关键字,并输出预测所得对应关键字,
所述文件检索部,根据所述被输入的关键字及所述预测所得对应关键字,对所述文件获取部获取的文件档案进行检索。
8.一种文件检索系统,包括文件检索装置及终端装置,
所述文件检索装置包括:
输入接受部,接受关键字的输入;
文件获取部,从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是写下所述手写文件的文字的书写者的名称;
对应关键字获取部,参照存放有将书写者名称、关键字、对应关键字关联的信息的对应关键字数据库,并根据通过所述输入接受部被输入的关键字、及由所述文件获取部获取的所述书写者名称,获取所述被输入的关键字的对应关键字;
文件检索部,根据所述被输入的关键字以及获取的所述对应关键字,对所述文件获取部获取的所述文件档案进行检索;及
检索结果输出部,将所述文件检索部的检索结果输出到所述终端装置,
所述对应关键字是包含作为对与所述对应关键字关联的关键字进行所述文字识别处理的结果的误识别文字的文字列。
9.一种存储介质,存储有文件检索程序,所述文件检索程序使计算机执行以下处理:
接受关键字的输入的处理;
从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案的处理,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是书写所述手写文件的文字的书写者的名称;
参照存放有将书写者名称、关键字、对应关键字关联的信息的对应关键字数据库,并根据所述被输入的关键字以及获取的所述书写者名称,获取所述被输入的关键字的对应关键字的处理;
根据所述被输入的关键字及获取的所述对应关键字,对所述获取的文件档案进行检索的处理;及
输出检索结果的处理,
所述对应关键字是包含作为对与所述对应关键字关联的关键字进行所述文字识别处理的结果的误识别文字的文字列。
10.一种由计算机进行的文件检索方法,由所述计算机执行以下步骤:
接受关键字的输入的步骤;
从存放有文件档案及书写者名称的数字文件数据库中,获取所述书写者名称及所述文件档案的步骤,所述文件档案是对手写文件的文件图像数据进行文字识别处理而成的文本数据,所述书写者名称是写下所述手写文件的文字的书写者的名称;
参照存放有将书写者名称、关键字、对应关键字关联的信息的对应关键字数据库,并根据所述被输入的关键字以及获取的所述书写者名称,获取所述被输入的关键字的对应关键字的步骤;
根据所述被输入的关键字及获取的所述对应关键字,对获取的所述文件档案进行检索的步骤;及
输出检索结果的步骤,
所述对应关键字是包含作为对与所述对应关键字关联的关键字进行所述文字识别处理的结果的误识别文字的文字列。
CN202080013528.6A 2019-02-14 2020-02-10 文件检索装置、文件检索系统、文件检索程序及文件检索方法 Active CN113474767B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019-024821 2019-02-14
JP2019024821 2019-02-14
PCT/JP2020/005167 WO2020166569A1 (ja) 2019-02-14 2020-02-10 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法

Publications (2)

Publication Number Publication Date
CN113474767A CN113474767A (zh) 2021-10-01
CN113474767B true CN113474767B (zh) 2023-09-01

Family

ID=72044904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080013528.6A Active CN113474767B (zh) 2019-02-14 2020-02-10 文件检索装置、文件检索系统、文件检索程序及文件检索方法

Country Status (5)

Country Link
US (1) US11797551B2 (zh)
JP (1) JP6963126B2 (zh)
CN (1) CN113474767B (zh)
TW (1) TW202040414A (zh)
WO (1) WO2020166569A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022030150A (ja) * 2020-08-06 2022-02-18 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム
US20220318284A1 (en) * 2020-12-31 2022-10-06 Proofpoint, Inc. Systems and methods for query term analytics

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863487A (ja) * 1994-08-25 1996-03-08 Toshiba Corp 文書検索方法及び文書検索装置
JPH09147055A (ja) * 1995-11-27 1997-06-06 Sharp Corp 文字処理装置
JPH1027235A (ja) * 1996-07-12 1998-01-27 Fuji Photo Film Co Ltd 画像情報の管理方法および装置
JPH10207988A (ja) * 1996-11-20 1998-08-07 Matsushita Electric Ind Co Ltd 文字認識方法および文字認識装置
JP2000076292A (ja) * 1998-09-02 2000-03-14 Nec Corp 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体
CN1497479A (zh) * 2002-10-17 2004-05-19 松下电器产业株式会社 可进行精度比以前高的检索的数据检索装置
CN1612154A (zh) * 2003-10-29 2005-05-04 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
CN1877578A (zh) * 2005-06-07 2006-12-13 佳能株式会社 文档检索装置及方法
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
CN101751430A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 电子词典模糊检索方法
JP2011065597A (ja) * 2009-09-18 2011-03-31 Casio Computer Co Ltd データ検索装置、データ検索方法及びプログラム
JP2015032017A (ja) * 2013-07-31 2015-02-16 京セラドキュメントソリューションズ株式会社 画像形成装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3720873B2 (ja) 1995-06-19 2005-11-30 新日鉄ソリューションズ株式会社 手書き文字認識方法及びその装置
US6944344B2 (en) * 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP4366108B2 (ja) * 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP2005258577A (ja) 2004-03-09 2005-09-22 Olympus Corp 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体
US8566349B2 (en) * 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
JP2012079159A (ja) * 2010-10-04 2012-04-19 Kansai Electric Power Co Inc:The 検索装置、検索プログラム、及び検索方法
US10318804B2 (en) * 2014-06-30 2019-06-11 First American Financial Corporation System and method for data extraction and searching
KR101800975B1 (ko) * 2016-10-27 2017-11-23 주식회사 매직핑거 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
US20190108276A1 (en) * 2017-10-10 2019-04-11 NEGENTROPICS Mesterséges Intelligencia Kutató és Fejlesztõ Kft Methods and system for semantic search in large databases
JPWO2022019275A1 (zh) * 2020-07-22 2022-01-27

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863487A (ja) * 1994-08-25 1996-03-08 Toshiba Corp 文書検索方法及び文書検索装置
JPH09147055A (ja) * 1995-11-27 1997-06-06 Sharp Corp 文字処理装置
JPH1027235A (ja) * 1996-07-12 1998-01-27 Fuji Photo Film Co Ltd 画像情報の管理方法および装置
JPH10207988A (ja) * 1996-11-20 1998-08-07 Matsushita Electric Ind Co Ltd 文字認識方法および文字認識装置
JP2000076292A (ja) * 1998-09-02 2000-03-14 Nec Corp 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体
CN1497479A (zh) * 2002-10-17 2004-05-19 松下电器产业株式会社 可进行精度比以前高的检索的数据检索装置
CN1612154A (zh) * 2003-10-29 2005-05-04 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
CN1877578A (zh) * 2005-06-07 2006-12-13 佳能株式会社 文档检索装置及方法
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
CN101751430A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 电子词典模糊检索方法
JP2011065597A (ja) * 2009-09-18 2011-03-31 Casio Computer Co Ltd データ検索装置、データ検索方法及びプログラム
JP2015032017A (ja) * 2013-07-31 2015-02-16 京セラドキュメントソリューションズ株式会社 画像形成装置

Also Published As

Publication number Publication date
US11797551B2 (en) 2023-10-24
US20220019581A1 (en) 2022-01-20
TW202040414A (zh) 2020-11-01
JPWO2020166569A1 (ja) 2021-11-25
CN113474767A (zh) 2021-10-01
WO2020166569A1 (ja) 2020-08-20
JP6963126B2 (ja) 2021-11-05

Similar Documents

Publication Publication Date Title
CN108733778B (zh) 对象的行业类型识别方法和装置
US6917709B2 (en) Automated search on cursive records not having an ASCII index
US7724957B2 (en) Two tiered text recognition
US10963692B1 (en) Deep learning based document image embeddings for layout classification and retrieval
CN113474767B (zh) 文件检索装置、文件检索系统、文件检索程序及文件检索方法
Hazra et al. Optical character recognition using KNN on custom image dataset
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
US9164973B2 (en) Processing a reusable graphic in a document
JP2006085733A (ja) ファイリング・検索装置およびファイリング・検索方法
US20140105502A1 (en) Devices, systems and methods for transcription suggestions and completions
CN102024150A (zh) 图形识别方法及图形识别装置
Wei et al. Hybrid feature selection for historical document layout analysis
US10699112B1 (en) Identification of key segments in document images
US20220335073A1 (en) Fuzzy searching using word shapes for big data applications
Jain et al. BLSTM neural network based word retrieval for Hindi documents
CN112868001B (zh) 文档检索装置、文档检索程序、文档检索方法
Alves et al. A strategy for automatically extracting references from PDF documents
Gutehrlé et al. Processing the structure of documents: logical layout analysis of historical newspapers in French
Chanda et al. Deep learning for classification and as tapped-feature generator in medieval word-image recognition
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP3768743B2 (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
CN112686042A (zh) 基于主题驱动的专利推荐方法、系统、设备及存储介质
Nagy Document analysis systems that improve with use
Ito et al. Extraction of distinctive keywords and articles from untranscribed historical newspaper images
Blomqvist et al. Joint handwritten text recognition and word classification for tabular information extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Tokyo, Japan

Applicant after: Lishennoco Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: Showa electrical materials Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230530

Address after: Tokyo, Japan

Applicant after: Showa electrical materials Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: SHOWA DENKO Kabushiki Kaisha

GR01 Patent grant
GR01 Patent grant