CN108416264A - 一种支持ocr输入的搜索方法及搜索模块 - Google Patents

一种支持ocr输入的搜索方法及搜索模块 Download PDF

Info

Publication number
CN108416264A
CN108416264A CN201810084044.5A CN201810084044A CN108416264A CN 108416264 A CN108416264 A CN 108416264A CN 201810084044 A CN201810084044 A CN 201810084044A CN 108416264 A CN108416264 A CN 108416264A
Authority
CN
China
Prior art keywords
ocr
fileinfo
information
input
index database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810084044.5A
Other languages
English (en)
Inventor
黄斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong ICity Information Technology Co., Ltd.
Original Assignee
Shandong Hui Trade Electronic Port Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Hui Trade Electronic Port Co Ltd filed Critical Shandong Hui Trade Electronic Port Co Ltd
Priority to CN201810084044.5A priority Critical patent/CN108416264A/zh
Publication of CN108416264A publication Critical patent/CN108416264A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种支持OCR输入的搜索方法,属于计算机搜索技术领域。该方法基于Lucene框架,该方法的实现过程包括:根据OCR识别的文件信息类型从数据库中提取有效数据;对提取的有效数据进行索引的构建,构建的索引存至索引库;对OCR识别的文件信息进行预处理;对预处理后的文件信息进行格式化;将格式化的文件与索引库进行信息匹配,并将匹配结果进行显示。本发明用于搜索OCR输入的文件信息,可以实现该文件信息在索引库的快速搜索,同时,提高搜索的精确度。本发明还提供一种搜索模块,其同样用于高效、快速、精确搜索OCR输入的文件信息。

Description

一种支持OCR输入的搜索方法及搜索模块
技术领域
本发明涉及计算机搜索技术领域,具体地说是一种支持OCR输入的搜索方法及搜索模块。
背景技术
OCR(光学字符识别,Optical Character Recognition),是通过图像处理和模式识别技术对光学的字符进行识别的意思,是电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。
Lucene由Apache软件基金会提供支持的一个项目,其基本特点是成熟、开源、免费和可自由分发。主要用途是全文检索,该项目目前已经具有Apache基金会的软件许可协授权。Lucene项目本身提供了一系列应用程序接口,这些接口虽然简单易用,但是却十分强大,能够让开发者快速实现全文索引和搜索,是这几年最受欢迎的开源信息检索工具库。目前,Lucene框架已经拥有Perl、C#、C++、Python、Ruby、PHP和JAVA等多个版本。
IKAnalyzer分词器是近些年较为流行的开源中文分词器,其分词策略是独有的“正向迭代最细粒度切分算法”策略,处理能力优异,采用了多子处理器的分析模式,支持英文字母(IP地址、Email、URL)、数字(日期、常用中文量词、科学计数法)、中文词汇的分析,被广泛地应用在各大开源项目中。IKAnalyzer分词器通过项目外可自定义词典的方式,进行优化的词典存储,支持用户词典扩展定义。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种支持OCR输入的搜索方法,进一步提高基于OCR输入文本信息的搜索精确度。
本发明解决其技术问题所采用的技术方案是:
一种支持OCR输入的搜索方法,该方法基于Lucene框架,该方法的实现过程包括:
根据OCR识别的文件信息类型从数据库中提取有效数据;
对提取的有效数据进行索引的构建,构建的索引存至索引库;
对OCR识别的文件信息进行预处理;
对预处理后的文件信息进行格式化;
将格式化的文件与索引库进行信息匹配,并将匹配结果进行显示。
具体的,对OCR识别的文件信息进行预处理的具体操作包括:
将OCR识别的文件信息输入至配置文件,与索引库信息进行比较;
根据比较结果,对OCR识别的文件信息进行替换或删除。
具体的,在OCR识别的文件信息与索引库信息相似时,进行信息替换;
在OCR识别的文件信息无法在索引库中找到相似信息时,进行信息删除。
优选,对OCR识别的文件信息进行预处理的过程中,使用IKAnalyzer分词器,基于IKAnalyzer分词器的优化和用户词典的丰富,提高了分词的准确性。
另外,本发明还公开一种支持OCR输入的搜索模块,该搜索模块基于Lucene框架,包括:
数据处理单元,用于根据OCR识别的文件信息类型从数据库中提取有效数据;
索引构建单元,用于对提取的有效数据进行索引的构建,构建的索引存至索引库;
OCR后处理单元,用于对OCR识别的文件信息进行预处理;
查询构建单元,用于对预处理后的文件信息进行格式化;
搜索单元,用于将格式化的文件与索引库进行信息匹配;
结果显示单元,用于显示匹配结果。
所涉及OCR后处理单元包括:
输入子单元,用于将OCR识别的文件信息输入至配置文件;
处理子单元,用于将输入的文件信息与索引库信息进行比较并判断;
替换子单元,在判断结果是OCR识别的文件信息与索引库信息相似时进行信息替换;
删除子单元,在判断结果是OCR识别的文件信息无法在索引库中找到相似信息时进行信息删除。
本发明的一种支持OCR输入的搜索方法及搜索模块与现有技术相比所产生的有益效果是:
本发明基于Lucene框架,可以快速分析OCR输入的文件信息,并对该文件信息进行预处理,以便于实现快速搜索,同时,格式化预处理后的文件信息,进一步提高搜索的精确度。
附图说明
附图1是本发明的搜索方法流程图;
附图2是本发明的搜索模块连接框图;
附图3是本发明中OCR后处理单元的连接框图。
附图2中标号表示:
1、数据处理单元,2、索引构建单元,3、OCR后处理单元,
4、查询构建单元,5、搜索单元,6、结果显示单元,
7、输入子单元,8、处理子单元,9、替换子单元,10、删除子单元;
A、数据库,B、索引库。
具体实施方式
为了更好的说明本发明,现结合具体实施例以及说明书附图对技术方案做进一步的说明。虽然实施例中记载了这些具体的实施方式,然其并非用以限定本发明,任何所述技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动和润饰,故本发明的保护范围当视权利要求书所界定者为准。
实施例一:
如附图1所示,本实施例提供一种支持OCR输入的搜索方法,该方法基于Lucene框架,该方法的实现过程包括:
S10:根据OCR识别的文件信息类型从数据库中提取有效数据。
在此步骤中,我们需要首先分析OCR识别的文件信息类型,比如说该文件信息涉及中学试题,属于语、数、外、生、化、物中的其中一个学科,那我们就由此从数据库中提取相关全部数据,即有效数据。
S20:对提取的有效数据进行索引的构建,构建的索引存至索引库。
在此步骤中,对从数据库中提取出来的有效数据进行分类,分类依据可以是有效数据的关键词,由此构建索引,构建的多个索引即组成索引库,该索引库中所有信息都应当与OCR识别的文件信息类型相关。
S30:对OCR识别的文件信息进行预处理。
具体的来说,进行预处理过程中,可以首先使用IKAnalyzer分词器, IKAnalyzer分词器的优化和用户词典的丰富,能够提高分词的精确度。然后,将OCR识别的文件信息输入至配置文件,与索引库信息进行比较,根据比较结果,对OCR识别的文件信息进行替换或删除:在OCR识别的文件信息与索引库信息相似时,进行信息替换;在OCR识别的文件信息无法在索引库中找到相似信息时,进行信息删除。
S40:对预处理后的文件信息进行格式化。
格式化后的文件信息能够更快的与索引库信息进行匹配,提高搜索结果。
S50:将格式化的文件与索引库进行信息匹配,并将匹配结果进行显示。
我们可以根据两者的匹配率进行匹配结果的认定。
实施例二:
参考附图2,基于实施例一公开的搜索方法,本实施例还公开一种支持OCR输入的搜索模块,该搜索模块基于Lucene框架,包括:
数据处理单元1,用于根据OCR识别的文件信息类型从数据库中提取有效数据;
索引构建单元2,用于对提取的有效数据进行索引的构建,构建的索引存至索引库;
OCR后处理单元3,用于对OCR识别的文件信息进行预处理;
查询构建单元4,用于对预处理后的文件信息进行格式化;
搜索单元5,用于将格式化的文件与索引库进行信息匹配;
结果显示单元6,用于显示匹配结果。
所涉及OCR后处理单元3包括:
输入子单元7,用于将OCR识别的文件信息输入至配置文件;
处理子单元8,用于将输入的文件信息与索引库信息进行比较并判断;
替换子单元9,在判断结果是OCR识别的文件信息与索引库信息相似时进行信息替换;
删除子单元10,在判断结果是OCR识别的文件信息无法在索引库中找到相似信息时进行信息删除。
无论是实施例一还是实施例二的实现,均是基于Lucene框架,通过快速分析OCR输入的文件信息,并对该文件信息进行预处理,实现快速搜索,同时,格式化预处理后的文件信息,进一步提高搜索的精确度,加快搜索速度。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种支持OCR输入的搜索方法及搜索模块的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (6)

1.一种支持OCR输入的搜索方法,其特征在于,该方法基于Lucene框架,该方法的实现过程包括:
根据OCR识别的文件信息类型从数据库中提取有效数据;
对提取的有效数据进行索引的构建,构建的索引存至索引库;
对OCR识别的文件信息进行预处理;
对预处理后的文件信息进行格式化;
将格式化的文件与索引库进行信息匹配,并将匹配结果进行显示。
2.根据权利要求1所述的一种支持OCR输入的搜索方法,其特征在于,对OCR识别的文件信息进行预处理的具体操作包括:
将OCR识别的文件信息输入至配置文件,与索引库信息进行比较;
根据比较结果,对OCR识别的文件信息进行替换或删除。
3.根据权利要求2所述的一种支持OCR输入的搜索方法,其特征在于,在OCR识别的文件信息与索引库信息相似时,进行信息替换;
在OCR识别的文件信息无法在索引库中找到相似信息时,进行信息删除。
4.根据权利要求1-3中任一项所述的一种支持OCR输入的搜索方法,其特征在于,对OCR识别的文件信息进行预处理的过程中使用IKAnalyzer分词器。
5.一种支持OCR输入的搜索模块,其特征在于,该搜索模块基于Lucene框架,包括:
数据处理单元,用于根据OCR识别的文件信息类型从数据库中提取有效数据;
索引构建单元,用于对提取的有效数据进行索引的构建,构建的索引存至索引库;
OCR后处理单元,用于对OCR识别的文件信息进行预处理;
查询构建单元,用于对预处理后的文件信息进行格式化;
搜索单元,用于将格式化的文件与索引库进行信息匹配;
结果显示单元,用于显示匹配结果。
6.根据权利要求5所述的一种支持OCR输入的搜索模块,其特征在于, 所述OCR后处理单元包括:
输入子单元,用于将OCR识别的文件信息输入至配置文件;
处理子单元,用于将输入的文件信息与索引库信息进行比较并判断;
替换子单元,在判断结果是OCR识别的文件信息与索引库信息相似时进行信息替换;
删除子单元,在判断结果是OCR识别的文件信息无法在索引库中找到相似信息时进行信息删除。
CN201810084044.5A 2018-01-29 2018-01-29 一种支持ocr输入的搜索方法及搜索模块 Pending CN108416264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810084044.5A CN108416264A (zh) 2018-01-29 2018-01-29 一种支持ocr输入的搜索方法及搜索模块

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810084044.5A CN108416264A (zh) 2018-01-29 2018-01-29 一种支持ocr输入的搜索方法及搜索模块

Publications (1)

Publication Number Publication Date
CN108416264A true CN108416264A (zh) 2018-08-17

Family

ID=63127202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810084044.5A Pending CN108416264A (zh) 2018-01-29 2018-01-29 一种支持ocr输入的搜索方法及搜索模块

Country Status (1)

Country Link
CN (1) CN108416264A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709327A (zh) * 2020-05-29 2020-09-25 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071425A (zh) * 2006-10-19 2007-11-14 腾讯科技(深圳)有限公司 一种信息快捷搜索装置、客户端、系统及方法
CN101079056A (zh) * 2007-02-06 2007-11-28 腾讯科技(深圳)有限公司 一种搜索方法和系统
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
US20110040576A1 (en) * 2009-08-11 2011-02-17 Microsoft Corporation Converting arbitrary text to formal medical code
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
CN103593642A (zh) * 2012-08-16 2014-02-19 阿里巴巴集团控股有限公司 一种卡信息获取方法和系统
CN103885966A (zh) * 2012-12-20 2014-06-25 北京京东尚科信息技术有限公司 电子商务交易平台中的问答交互方法和系统
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105989457A (zh) * 2015-02-11 2016-10-05 阿里巴巴集团控股有限公司 一种信息查询方法及装置
CN106611058A (zh) * 2016-12-27 2017-05-03 广东小天才科技有限公司 一种试题搜索方法及装置
US20170206276A1 (en) * 2016-01-14 2017-07-20 Iddo Gill Large Scale Recommendation Engine Based on User Tastes

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071425A (zh) * 2006-10-19 2007-11-14 腾讯科技(深圳)有限公司 一种信息快捷搜索装置、客户端、系统及方法
CN101079056A (zh) * 2007-02-06 2007-11-28 腾讯科技(深圳)有限公司 一种搜索方法和系统
US20110040576A1 (en) * 2009-08-11 2011-02-17 Microsoft Corporation Converting arbitrary text to formal medical code
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
CN103593642A (zh) * 2012-08-16 2014-02-19 阿里巴巴集团控股有限公司 一种卡信息获取方法和系统
CN103885966A (zh) * 2012-12-20 2014-06-25 北京京东尚科信息技术有限公司 电子商务交易平台中的问答交互方法和系统
CN105989457A (zh) * 2015-02-11 2016-10-05 阿里巴巴集团控股有限公司 一种信息查询方法及装置
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
US20170206276A1 (en) * 2016-01-14 2017-07-20 Iddo Gill Large Scale Recommendation Engine Based on User Tastes
CN106611058A (zh) * 2016-12-27 2017-05-03 广东小天才科技有限公司 一种试题搜索方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709327A (zh) * 2020-05-29 2020-09-25 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
CN111709327B (zh) * 2020-05-29 2023-06-27 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置

Similar Documents

Publication Publication Date Title
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
Singh Optical character recognition techniques: a survey
US8014604B2 (en) OCR of books by word recognition
US11861925B2 (en) Methods and systems of field detection in a document
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
Wei et al. A keyword retrieval system for historical Mongolian document images
CN105975491A (zh) 企业新闻分析方法及系统
CN109582787B (zh) 一种火力发电领域语料数据的实体分类方法及装置
CN110457715B (zh) 融入分类词典的汉越神经机器翻译集外词处理方法
Barber et al. The SALIX method: A semi‐automated workflow for herbarium specimen digitization
Van Phan et al. A nom historical document recognition system for digital archiving
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN114266256A (zh) 一种领域新词的提取方法及系统
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN109472020B (zh) 一种特征对齐中文分词方法
CN113420766A (zh) 一种融合语言信息的低资源语种ocr方法
CN108416264A (zh) 一种支持ocr输入的搜索方法及搜索模块
CN110619073B (zh) 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
Hejazi et al. Deep learning for arabic image captioning: a comparative study of main factors and preprocessing recommendations
CN115249014A (zh) 信息抽取方法、设备、存储介质及程序产品
CN107291952B (zh) 一种提取有意义串的方法及装置
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
CN113326350B (zh) 基于远程学习的关键词提取方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200812

Address after: 250100 Room 3110, S01 Building, Tidal Building, 1036 Tidal Road, Jinan High-tech Zone, Shandong Province

Applicant after: Shandong Aicheng Network Information Technology Co.,Ltd.

Address before: 250100 S06 Floor, No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province

Applicant before: SHANDONG HUIMAO ELECTRONIC PORT Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180817

RJ01 Rejection of invention patent application after publication