CN117390214B - 一种基于ocr技术的文件检索方法及系统 - Google Patents

一种基于ocr技术的文件检索方法及系统 Download PDF

Info

Publication number
CN117390214B
CN117390214B CN202311697292.4A CN202311697292A CN117390214B CN 117390214 B CN117390214 B CN 117390214B CN 202311697292 A CN202311697292 A CN 202311697292A CN 117390214 B CN117390214 B CN 117390214B
Authority
CN
China
Prior art keywords
keywords
matching
preset
index
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311697292.4A
Other languages
English (en)
Other versions
CN117390214A (zh
Inventor
李辰辉
何立军
杨琨
何亘
苏建新
汪进
杨立寨
王凯飞
葛大伟
李健
刘奎阳
余纪良
王振宇
段国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuncheng Financial Information Service Co ltd
Original Assignee
Beijing Yuncheng Financial Information Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuncheng Financial Information Service Co ltd filed Critical Beijing Yuncheng Financial Information Service Co ltd
Priority to CN202311697292.4A priority Critical patent/CN117390214B/zh
Publication of CN117390214A publication Critical patent/CN117390214A/zh
Application granted granted Critical
Publication of CN117390214B publication Critical patent/CN117390214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于OCR技术的文件检索方法及系统,涉及图像处理技术领域,包括:步骤1:获取IO接口输入的图像信息,同时,通过OCR技术对图像信息进行识别,并转化为预设格式的识别文本信息;步骤2:将识别文本信息与预设数据库中的关键词进行匹配,并输入预设索引匹配模型中进行策略匹配,得到索引策略;步骤3:基于关键词以及相应的索引策略,在文档数据库中筛选得到目标文档,并关联关键词和目标文档,建立与关键词匹配的文本索引;步骤4:获取历史索引记录,并与当前索引策略进行对比分析,将分析结果进行优化处理,实现文件检索。本发明可以根据关键词匹配相应的索引策略,并对索引策略和方法进行优化,提升文件检索的效率。

Description

一种基于OCR技术的文件检索方法及系统
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于OCR技术的文件检索方法及系统。
背景技术
在当前的大数据环境下,为了满足数据的存储、分析等需求,越来越多的包含有重要数据的文件源源不断地存储至不同分布方式的文件储存系统中,在实际应用中需要对文件储存系统中的部分数据进行分析时,需要先在文件储存系统中检索到需要进行分析的数据,然后才可以进行分析处理。
目前多数文件储存系统虽然采用高吞吐量、高容错率的分布式文件系统,但是由于分布式文件系统中存储的文件数量十分庞大,当采用常规的检索方法和策略对系统中的包含有特定关键词以及与关键词相关的文件进行检索时,不仅检索过程需要耗费大量的时间,而且随着系统内文件的不断增多,文件检索的精度和效率也在逐渐下降。
因此,本发明提供一种基于OCR技术的文件检索方法及系统。
发明内容
本发明提供一种基于OCR技术的文件检索方法及系统,用以根据关键词以及用户需求筛选出适配的索引策略和方法,同时,将当前索引策略与历史索引记录中的索引策略进行对比分析,不断对索引策略和方法进行优化,从而可以提升文件检索的效率。
本发明提供一种基于OCR技术的文件检索方法及系统,包括:
步骤1:获取IO接口输入的图像信息,同时,通过OCR技术对所述图像信息进行识别,并将识别结果转化为预设格式的识别文本信息;
步骤2:将所述识别文本信息与预设数据库中的关键词进行匹配,并将所述关键词输入预设索引匹配模型中进行策略匹配,得到相应的索引策略;
步骤3:基于所述关键词以及相应的索引策略,在文档数据库中筛选得到匹配度大于预设度的目标文档,并关联所述关键词和目标文档,建立与所述关键词匹配的文本索引;
步骤4:获取与所述关键词匹配的历史索引记录,并与当前索引策略进行对比分析,将分析结果输入预设优化模型中进行优化处理,实现文件检索。
优选的,步骤1中,包括:
通过图像采集设备获取文本图像;
对所述文本图像进行预处理,得到待处理图像;
对所述待处理图像进行特征提取,并利用预设字符识别算法和机器学习技术将提取的特征与预设字符特征模型进行特征匹配,产生字符识别结果。
优选的,步骤1中,还包括:
对所述字符识别结果进行后处理,得到待转换识别结果;
获取目标格式信息并匹配得到相应的格式转化方法,基于所述格式转化方法将所述待转换识别结果转化为预设格式的识别文本信息。
优选的,步骤2中,包括:
对所述识别文本信息进行内容解析,并对文本解析内容进行拆分,得到至少由一个字符组成的词条;
同时,将同一文本信息下的所有所述词条组成待检索词条集,并将所述待检索词条集与预设数据库中的关键词进行匹配,生成待提取关键词集;
结合用户终端输入的关键词选定指令,对所述待提取关键词集中与所述关键词选定指令匹配的关键词进行提取,并输入到预设索引匹配模型中进行策略匹配。
优选的,步骤2中,将所述关键词输入预设索引匹配模型中进行策略匹配,包括:
对所述待提取关键词集中的每一目标关键词进行词频统计,并基于统计结果产生与所述目标关键词对应的第一匹配因子:
同时,基于所述目标关键词,对所述待提取关键词集中的所有关键词进行相似度分析,并基于相似度分析结果产生与所述目标关键词对应的第二匹配因子;
结合与所述目标关键词对应的第一匹配因子、第二匹配因子,在预设索引匹配模型中进行策略匹配,得到与所述目标关键词匹配的索引策略。
优选的,步骤3中,包括:
基于与所述目标关键词匹配的索引策略,根据预设策略-方法匹配表在索引数据库中选取相应的索引方法;
结合所述索引策略、索引方法,对文档数据库中包含有所述关键词的文档进行初步筛选,得到模糊匹配结果;
同时,根据所述目标关键词在所述模糊匹配结果中的每一文档中对应的信息量优先级,计算各个文档与关键词的匹配度;
基于所述模糊匹配结果中与各个文档一一对应的匹配度,对各个文档进行匹配度降序排列,同时,将匹配度大于第一预设度的文档选定为第一目标文档,并存入目标文档库中;
同时,将匹配度小于第一预设度且大于第二预设度的文档选定为备用文档,并储存至备用文档库中;
将所述目标关键词输入预设相似关键词匹配模型中,输出相似度大于第三预设度的相似词,并基于所述相似词对所述备用文档库中的各个备用文档进行关键词匹配,将匹配度大于第四预设度的备用文档选定为第二目标文档,同时,将所述第二目标文档存入所述目标文档库中;
根据预设相关性评估函数对所述目标文档库中的每个文档进行相似度计算,并按照相似度的降序进行排列,生成目标文档排序表;
同时,将所述关键词与目标文档排序表中的每个文档进行关联,建立目标文档与关键词之间的文本索引。
优选的,步骤4中,包括:
在索引数据库中筛选出与所述关键词相关性大于第一相关系数的历史索引纪录,并生成参考文件;
对所述参考文件进行内容解析,得到历史关键词以及与所述历史关键词一一对应的历史索引策略;
根据所述历史关键词与当前关键词的相关性,对所述参考文件中的所有历史关键词以及对应的历史索引策略进行降序排列,生成历史索引记录排序表;
将所述索引记录排序表中所有历史关键词以及对应的历史索引策略输入预设映射建立模型中,根据所述历史关键词与历史索引策略之间的映射关系建立关键词-策略历史映射表;
同时,将当前关键词、与当前关键词对应的索引策略以及所述关键词-策略历史映射表输入预设数据分析模型中,对当前关键词对应得索引策略进行对比分析,得到第一结果;
将所述第一结果输入预设优化模型中,获取所述第一结果中的可优化项目,并将所有可优化项目按照对应的优化优先级降序排列,生成项目优化排序表;
同时,将所述项目优化排序表输入预设优化策略匹配模型中,根据所有可优化项目的排序信息匹配相应的优化策略以及优化方法;
基于与所述项目优化排序表对应的所述优化策略、优化方法,在预设优化模型中对所述可优化项目进行优化处理,产生第二结果;
利用预设分析函数对所述第一结果、第二结果进行分析,得到项目优化结果表,实现文件检索。
优选的,对所述待处理图像进行特征提取,包括:
获取背景像素与前景像素的最小像素阈值并对所述待处理图像进行第一分割,同时,获取背景像素与前景像素的最大像素阈值/>并对所述待处理图像进行第二分割;
锁定第一分割结果与第二分割结果中的前景重叠分割区域并进行保留,同时,锁定前景与背景的混杂分割区域;
计算对所述混杂分割区域的分割阈值F1;
,且满足/>,其中,/>,其中,/>为调节系数;A1、A2为边界系数;
;其中,/>为基于最小像素阈值/>的边界筛选值;/>2为基于最大像素阈值/>max的边界筛选值;/>表示第一分割区域中背景像素中像素一致的最大数量的像素值;/>表示第一分割区域中背景像素的平均值;/>表示第二分割区域中背景像素中像素一致的最大数量的像素值;/>表示第二分割区域中背景像素的平均值;
对小于所述分割阈值的像素点进行剔除,同时,将大于等于所述分割阈值的像素点视为第一点;
根据每个第一点的像素值进行值大小排序,并依次对排序结果中的每个第二点进行像素优化;
;其中,k、R分别表示经验常量;/>表示对应第二点的原始像素值;T1表示对应第二点的优化像素值;/>表示与对应第二点最邻近的n1个第一点的像素标准差;/>表示与对应第二点最邻近的n1个第一点的像素平均值;/>表示正负变量,当/>时,取值为-1,否则,取值为1;/>表示与对应第二点最邻近的n1个第一点的像素方差;
将优化像素值大于最小像素阈值的点保留,并对所有保留的点进行特征提取。
本发明的工作原理及有益效果:本发明通过OCR字符识别技术可以准确地识别图像中的字符,从而可以对图像中的关键词进行识别和提取,并转化为相应的文本信息,进而通过与预设数据库中的关键词进行匹配,得到相应的索引策略,基于索引策略在文档数据库中筛选得到对应的文档;同时将当前索引策略与历史索引策略进行对比分析,并进行策略优化,不仅提高了对图像中的关键词的获取精度,而且节省了检索的时间,提升了对文档的检索效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于OCR技术的文件检索方法的流程示意图;
图2为本发明实施例中一种基于OCR技术的文件检索系统的框架图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
参照图1和图2,本发明实施例提供一种基于OCR技术的文件检索方法,包括:
步骤1:获取IO接口输入的图像信息,同时,通过OCR技术对图像信息进行识别,并将识别结果转化为预设格式的识别文本信息;
步骤2:将识别文本信息与预设数据库中的关键词进行匹配,并将关键词输入预设索引匹配模型中进行策略匹配,得到相应的索引策略;
步骤3:基于关键词以及相应的索引策略,在文档数据库中筛选得到匹配度大于预设度的目标文档,并关联关键词和目标文档,建立与关键词匹配的文本索引;
步骤4:获取与关键词匹配的历史索引记录,并与当前索引策略进行对比分析,将分析结果输入预设优化模型中进行优化处理,实现文件检索。
该实施例中,IO接口:即输入输出接口,用于接收外界输入的信息;
该实施例中,图像信息:通过图像采集设备获取的图片以及视频信息;
该实施例中,OCR技术:一种将印刷或手写文本转换为可编辑和可搜索的电子文本的技术。它使用计算机视觉和模式识别技术来识别和提取图像中的字符,并将其转换为机器可读的文本格式。
该实施例中,预设格式:机器可读的文本格式,是预先设定好的;
该实施例中,识别文本信息:将识别结果的格式转化为预设格式后的文本信息;
该实施例中,预设数据库:包含有大量关键词的数据库,是预先设置好的,用于与识别文本信息中的字符匹配结果进行匹配;
该实施例中,预设索引匹配模型:用于根据输入的关键词匹配相应的索引策略的数据处理模型,是预先通过大数据训练好的;
该实施例中,策略匹配:在预设索引匹配模型中向输入的关键词匹配索引策略的处理过程;
该实施例中,索引策略:根据关键词的特点、查询模式以及性能要求得到的用于提高文档检索效率的技术或方法,可以节省检索时间,加快文档的查找和访问速度;
该实施例中,文档数据库:储存有大量文档的数据库;
该实施例中,预设度:用于在文档数据库中筛选得到与关键词匹配的文档的阈值条件,匹配度大于预设度的文档才会被选中并显示;
该实施例中,文本索引:一种用于快速检索文本内容的数据结构,可以将文本数据中的关键词与关键词所在的文档进行关联,以便在检索时能够对包含指定关键词的文档进行准确快速的定位;
该实施例中,历史索引记录:包含有与关键词相关的历史索引策略匹配以及历史文档筛选的记录;
该实施例中,预设优化模型:用于根据当前索引策略与历史索引记录的对比分析结果,对当前索引策略进行优化的数据处理模型,是预先通过大数据训练好的;
该实施例中,优化处理:通过预设优化模型对分析结果中的索引策略进行不断优化的处理过程。
上述技术方案的工作原理及有益效果是:本发明通过OCR技术可以准确地识别图像中的字符,从而可以对图像中的关键词进行识别和提取,并转化为相应的文本信息,进而通过与预设数据库中的关键词进行匹配,得到相应的索引策略,基于索引策略在文档数据库中筛选得到对应的文档;同时将当前索引策略与历史索引策略进行对比分析,并进行策略优化,不仅提高了对图像中的关键词的获取精度,而且节省了检索的时间,提升了对文档的检索效率。
本发明实施例提供一种基于OCR技术的文件检索方法,步骤1中,包括:
通过图像采集设备获取文本图像;
对文本图像进行预处理,得到待处理图像;
对待处理图像进行特征提取,并利用预设字符识别算法和机器学习技术将提取的特征与预设字符特征模型进行特征匹配,产生字符识别结果。
该实施例中,图像采集设备:包括扫描仪、相机等可以对目标图像进行采集的设备;
该实施例中,文本图像:包含有文字信息的图像;
该实施例中,预处理:对获取的文本图像进行图像增强、去噪、二值化等操作,以提高字符识别的准确性;
该实施例中,待处理图像:经过对文本图像的预处理后得到的图像;
该实施例中,特征提取:对待处理图像中的字符特征继续识别和提取的操作;
该实施例中,预设字符识别算法:用于对待处理图像中的字符进行识别的算法,是预先设置好;
该实施例中,机器学习技术:用于通过对大量字符进行识别的训练来不断提高字符识别精度的方法;
该实施例中,预设字符特征模型:用于对输入的待处理图像中的特征进行匹配,从而得到待处理图像的字符识别结果的数据处理模型,是预先设置好的。
上述技术方案的工作原理及有益效果是:本发明首先通过图像采集设备对目标的待识别区域的图像进行采集,进而对采集的图像进行预处理,得到待处理图像,提升了文本图像中字符的辨识度,随后利用预设字符识别算法以及机器学习技术对待处理图像中的特征进行快速、精确的提取,并输入预设字符特征模型中进行字符匹配,从而可以对图像中的字符进行精确识别,大幅提升了字符识别的精确性和效率。
本发明实施例提供一种基于OCR技术的文件检索方法,步骤1中,还包括:
对字符识别结果进行后处理,得到待转换识别结果;
获取目标格式信息并匹配得到相应的格式转化方法,基于格式转化方法将待转换识别结果转化为预设格式的识别文本信息。
该实施例中,后处理:包括:校正错误、合并和分割字符、检测和修复识别错误等操作,以提高识别准确性和文本的可读性;
该实施例中,待转换识别结果:经过对字符识别结果进行后处理后得到的处理结果;
该实施例中,目标格式信息:即字符识别结果需要进行转化才可以被系统处理分析的格式信息;
该实施例中,格式转化方法:根据目标格式信息匹配的用于对待转换识别结果进行格式转换的方法。
上述技术方案的工作原理及有益效果是:本发明通过对字符识别结果进行后处理,从而可以对字符识别结果中的字符错误进行校正、合并字符组成词条或词组、拆分字符形成单个字符或词组词条,从而可以大幅提升字符的识别精度以及识别速度,进而将待转换识别结果通过相应的格式转化方法转化为预设格式的识别文本信息,在对字符处理过程中减少了乱码产生的可能性,从而提升了字符的可读性和兼容性。
本发明实施例提供一种基于OCR技术的文件检索方法,步骤2中,包括:
对识别文本信息进行内容解析,并对文本解析内容进行拆分,得到至少由一个字符组成的词条;
同时,将同一文本信息下的所有词条组成待检索词条集,并将待检索词条集与预设数据库中的关键词进行匹配,生成待提取关键词集;
结合用户终端输入的关键词选定指令,对待提取关键词集中与关键词选定指令匹配的关键词进行提取,并输入到预设索引匹配模型中进行策略匹配。
该实施例中,内容解析:对识别文本信息中的内容进行分析解读的操作;
该实施例中,文本解析内容:对识别文本信息中的内容进行内容解析后得到的数据;
该实施例中,词条:包含有至少一个字符的字符组合;
该实施例中,待检索词条集:包含有同一文本信息下的所有词条的集合;
该实施例中,待提取关键词集:将待检索词条集与预设数据库中的关键词进行匹配后,包含匹配结果中的所有关键词的集合;
该实施例中,用户终端:用于接收和发送用户指令信息的终端;
该实施例中,关键词选定指令:经过用户终端输入的人为选定的关键词的指令;
上述技术方案的工作原理及有益效果是:本发明通过对转化为预设格式的识别文本信息进行内容解析,得到识别文本信息中的字符内容,进而通过对文本解析内容中的字符进行处理,得到包含有至少一个字符的词条组成的待检索词条集,然后通过与预设数据库中的关键词进行匹配,生成待提取关键词集,并结合用户终端的关键词选定指令,对关键词进行提取并输入预设索引匹配模型中进行策略匹配,大幅提升了字符的识别精度以及识别效率,同时也提升了策略匹配的精确性。
本发明实施例提供一种基于OCR技术的文件检索方法,步骤2中,将关键词输入预设索引匹配模型中进行策略匹配,包括:
对待提取关键词集中的每一目标关键词进行词频统计,并基于统计结果产生与目标关键词对应的第一匹配因子:
同时,基于目标关键词,对待提取关键词集中的所有关键词进行相似度分析,并基于相似度分析结果产生与目标关键词对应的第二匹配因子;
结合与目标关键词对应的第一匹配因子、第二匹配因子,在预设索引匹配模型中进行策略匹配,得到与目标关键词匹配的索引策略。
该实施例中,目标关键词:基于用户终端输入的关键词选定指令在待提取关键词集中选取的关键词,例如关键词选定指令为选取带有A符号的关键词,则待提取关键词集中带有A符号的A、AB、AC、AD被选中为目标关键词;
该实施例中,词频统计:对目标关键词在待提取关键词集中出现的频率进行统计,一般情况下,同一关键词的词频越高,相关性越强,匹配度越高;
该实施例中,第一匹配因子:与每一目标关键词的统计结果一一对应,且用于在预设索引匹配模型中进行策略匹配的因子;
该实施例中,相似度分析:即在待提取关键词集中对与目标关键词相似的所有关键词进行对比分析的方法,用以提升关键词的检索精度和检索质量;
该实施例中,第二匹配因子:与每一目标关键词对应的相似度分析结果一一对应,且用于在淤塞和索引匹配模型中进行策略匹配的因子。
上述技术方案的工作原理及有益效果是:本发明通过对待提取关键词集中的每一目标关键词进行词频统计,可以对待提取关键词集中出现频率较高的目标关键词进行重点标注,增加在策略匹配时词频因素占有的比重,进而通过第一匹配因子在预设索引匹配模型中匹配合适的索引策略,提高索引策略的匹配精度,同时,根据对待提取关键词集中的所有关键词进行相似度分析,在待提取关键词集中对与关键词相近的所有关键词进行综合分析,进而通过第二匹配因子在预设索引匹配模型中匹配相应索引策略,结合第一匹配因子和第二匹配因子综合分析得出当前目标关键词的索引策略,大幅提升了索引策略与目标关键词的匹配精度和适配性。
本发明实施例提供一种基于OCR技术的文件检索方法,步骤3中,包括:
基于与目标关键词匹配的索引策略,根据预设策略-方法匹配表在索引数据库中选取相应的索引方法;
结合索引策略、索引方法,对文档数据库中包含有关键词的文档进行初步筛选,得到模糊匹配结果;
同时,根据目标关键词在模糊匹配结果中的每一文档中对应的信息量优先级,计算各个文档与关键词的匹配度;
基于模糊匹配结果中与各个文档一一对应的匹配度,对各个文档进行匹配度降序排列,同时,将匹配度大于第一预设度的文档选定为第一目标文档,并存入目标文档库中;
同时,将匹配度小于第一预设度且大于第二预设度的文档选定为备用文档,并储存至备用文档库中;
将目标关键词输入预设相似关键词匹配模型中,输出相似度大于第三预设度的相似词,并基于相似词对备用文档库中的各个备用文档进行关键词匹配,将匹配度大于第四预设度的备用文档选定为第二目标文档,同时,将第二目标文档存入目标文档库中;
根据预设相关性评估函数对目标文档库中的每个文档进行相似度计算,并按照相似度的降序进行排列,生成目标文档排序表;
同时,将关键词与目标文档排序表中的每个文档进行关联,建立目标文档与关键词之间的文本索引。
该实施例中,预设策略-方法匹配表:包含有索引策略与索引方法之间映射关系的匹配表,是预先设定好的,用于根据索引策略选取相应的索引方法;
该实施例中,索引方法:用于构建和维护文本文档的索引,以支持关键词搜索和相关性排序的方法,在文件检索领域常见的索引方法包括:倒排索引和向量空间模型索引等;
该实施例中,初步筛选:对文档数据库中包含有目标关键词的所有文档进行第一次粗略筛选的方法,用以保证筛选数据来源的广泛性,缩小文档筛选的范围,以便后续进行精选;
该实施例中,模糊匹配结果:基于目标关键词对文档数据库中的文档进行初步筛选后得到的结果;
该实施例中,信息量优先级:用于衡量文档中关于目标关键词重要性以及所包含信息量大小的综合等级,该文档中关于目标关键词的重要性越高、包含的信息量越高,该目标关键词的信息量优先级越高,例如主标题、副标题中的关键词、正文中出现频率较高的关键词均占有高等级的信息量优先级;
该实施例中,匹配度:文档与关键词之间相似程度的指标,匹配度越高,对应的文档与关键词越相似;
该实施例中,降序排列:按照匹配度由高到低对文档进行排列的方法;
该实施例中,第一预设度:用于筛选出符合预设条件的第一目标文档的阈值;
该实施例中,第一目标文档:与关键词的匹配度大于第一预设度的文档;
该实施例中,目标文档库:用于存放第一目标文档以及第二目标文档的储存空间;
该实施例中,第二预设度:用于筛选出符合预设条件的备用文档的阈值;
该实施例中,备用文档:与关键词的匹配度小于第一预设度且大于第二预设度的文档;
该实施例中,备用文档库:用于存放备用文档的储存空间;
该实施例中,预设相似关键词匹配模型:用于根据输入的目标关键词匹配与其相似的相似词的匹配模型,是预先通过大数据训练好的;
该实施例中,第三预设度:用于在预设相似关键词匹配模型中筛选出相似词的阈值条件;
该实施例中,第四预设度:用于在备用文档库中筛选出第二目标文档的阈值条件;
该实施例中,第二目标文档:备用文档库中与相似词匹配度大于第四预设度的文档;
该实施例中,预设相关性评估函数:用于对同一目标关键词下的目标文档库中的每个文档的相似度进行计算的函数,是预先设定好的;
该实施例中,目标文档排序表:根据目标文档库中所有文档与目标关键词的相似度由高到低进行排列生成的排序表。
上述技术方案的工作原理及有益效果是:本发明根据与目标关键词匹配的索引策略在预设策略-方法匹配表中选取出相应的索引方法,进而通过索引策略和索引方法对文档进行初步筛选,得到模糊匹配结果,在保证一定精确度的同时也缩小了文档检索的范围,从而提升了文档检索的效率;随后通过多个匹配度的阈值条件对模糊匹配结果中的文档进行筛选,分别建立匹配度较高的目标文档库和匹配度较小的备用文档库,同时结合相似词与备用文档库的关键词匹配,保证了目标文档库中既存在直接匹配度较高的第一目标文档,也存在相似词匹配度较高的第二目标文档,从而大幅提升了文档的匹配精度;同时建立关键词与文档之间的文本索引,提升了后续对包含有相近关键词的文档的索引效率。
本发明实施例提供一种基于OCR技术的文件检索方法,步骤4中,包括:
在索引数据库中筛选出与关键词相关性大于第一相关系数的历史索引纪录,并生成参考文件;
对参考文件进行内容解析,得到历史关键词以及与历史关键词一一对应的历史索引策略;
根据历史关键词与当前关键词的相关性,对参考文件中的所有历史关键词以及对应的历史索引策略进行降序排列,生成历史索引记录排序表;
将索引记录排序表中所有历史关键词以及对应的历史索引策略输入预设映射建立模型中,根据历史关键词与历史索引策略之间的映射关系建立关键词-策略历史映射表;
同时,将当前关键词、与当前关键词对应的索引策略以及关键词-策略历史映射表输入预设数据分析模型中,对当前关键词对应得索引策略进行对比分析,得到第一结果;
将第一结果输入预设优化模型中,获取第一结果中的可优化项目,并将所有可优化项目按照对应的优化优先级降序排列,生成项目优化排序表;
同时,将项目优化排序表输入预设优化策略匹配模型中,根据所有可优化项目的排序信息匹配相应的优化策略以及优化方法;
基于与项目优化排序表对应的优化策略、优化方法,在预设优化模型中对可优化项目进行优化处理,产生第二结果;
利用预设分析函数对第一结果、第二结果进行分析,得到项目优化结果表,实现文件检索。
该实施例中,索引数据库:包含有大量关键词索引记录的数据库;
该实施例中,第一相关系数:用于在索引数据库中筛选出相关性大于预设条件的历史索引记录的阈值;
该实施例中,参考文件:基于历史索引记录生成的用于对当前索引策略进行分析评估的文件;
该实施例中,历史关键词:参考文件中包含的所有关键词;
该实施例中,历史索引策略:参考文件中与历史关键词一一对应的索引策略;
该实施例中,相关性:历史关键词与当前关键词的相关程度;
该实施例中,降序排列:根据历史关键词与当前关键词的相关性由高到低对历史关键词以及对应的历史索引策略进行排列的方法;
该实施例中,历史索引记录排序表:根据与当前关键词的相关性大小对参考文件中的所有历史关键词以及对应的历史索引策略进行降序排列后生成的排序表;
该实施例中,预设映射建立模型:用于根据所有历史关键词以及对应的历史索引策略之间的映射关系建立关键词-策略历史映射表的模型,是预先设定好的;
该实施例中,关键词-策略历史映射表:包含有与当前关键词匹配的所有历史关键词与所有历史索引策略之间映射关系的表;
该实施例中,预设数据分析模型:用于根据输入的当前关键词、与当前关键词对应的索引策略以及关键词-策略历史映射表,对当前索引策略进行分析处理的模型,是预先通过大数据训练好的;
该实施例中,第一结果:通过预设数据分析模型产生的与当前关键词匹配的当前索引策略、历史索引策略之间的对比分析结果;
该实施例中,可优化项目:经过预设优化模型对第一结果的分析处理得到的第一结果中可进行优化的参数;
该实施例中,优化优先级:可优化项目在进行优化时的优先级,优化优先级高的可优化项目优先进行优化处理;
该实施例中,项目优化排序表:根据可优化项目的优化优先级由高到低进行排列后生成的排序表;
该实施例中,预设优化策略匹配模型:用于对输入的项目优化排序表进行策略匹配的模型,是预先经过大数据训练好的;
该实施例中,优化策略以及方法:通过预设优化策略匹配模型对项目优化排序表的分析处理得出的对每个可优化项目进行优化的策略以及方法;
该实施例中,第二结果:通过预设优化模型对可优化项目进行优化处理后得出的策略优化结果;
该实施例中,预设分析函数:用于对第一结果、第二结果进行分析处理的函数,是预先设定好的;
该实施例中,项目优化结果表:根据预设分析函数对第一结果、第二结果的分析处理后得到的用于对当前策略优化效果进行表示的表格。
上述技术方案的工作原理及有益效果是:本发明通过在索引数据库中筛选出与当前关键词匹配的历史索引记录,生成参考文件并对文件进行内容解析得到历史关键词和历史索引记录,进而通过将当前关键词与历史关键词以及相应的历史索引记录进行对比分析,以历史数据作为参考对当前索引策略进行对比分析,并根据分析结果对当前索引策略进行优化处理,得到优化后的索引策略,基于优化后的索引策略对当前关键词进行检索,提高了文档检索的精确性和效率。
本发明实施例提供一种基于OCR技术的文件检索方法,对待处理图像进行特征提取,包括:
获取背景像素与前景像素的最小像素阈值并对待处理图像进行第一分割,同时,获取背景像素与前景像素的最大像素阈值/>并对待处理图像进行第二分割;
锁定第一分割结果与第二分割结果中的前景重叠分割区域并进行保留,同时,锁定前景与背景的混杂分割区域;
计算对所述混杂分割区域的分割阈值F1;
,且满足/>,其中,/>,其中,/>为调节系数;A1、A2为边界系数;
;其中,/>为基于最小像素阈值的边界筛选值;/>2为基于最大像素阈值/>max的边界筛选值;/>表示第一分割区域中背景像素中像素一致的最大数量的像素值;/>表示第一分割区域中背景像素的平均值;/>表示第二分割区域中背景像素中像素一致的最大数量的像素值;/>表示第二分割区域中背景像素的平均值;
对小于所述分割阈值的像素点进行剔除,同时,将大于等于所述分割阈值的像素点视为第一点;
根据每个第一点的像素值进行值大小排序,并依次对排序结果中的每个第二点进行像素优化;
;其中,k、R分别表示经验常量;/>表示对应第二点的原始像素值;T1表示对应第二点的优化像素值;/>表示与对应第二点最邻近的n1个第一点的像素标准差;/>表示与对应第二点最邻近的n1个第一点的像素平均值;/>表示正负变量,当/>时,取值为-1,否则,取值为1;/>表示与对应第二点最邻近的n1个第一点的像素方差;
将优化像素值大于最小像素阈值的点保留,并对所有保留的点进行特征提取。
该实施例中,背景像素:图像中相对静止的,且具有较低变化和较小的信息量的像素;
该实施例中,前景像素:图像中包含有加大的信息量或较高的关注度的对象,在本实施例中为包含有字符等特征信息的图像像素;
该实施例中,第一分割:基于最小像素阈值对待处理图像中的背景像素和前景像素进行分割的操作;
该实施例中,第二分割:基于最大像素阈值对待处理图像中的背景像素和前景像素进行分割的操作;
该实施例中,最小/最大像素阈值:是预先设定好的,且用于与图像中的每个像素值进行比较的阈值,根据比较结果将像素分为前景和背景;
该实施例中,前景重叠分割区域:多个前景对象相互重叠或部分遮挡的区域;
该实施例中,混杂分割区域:多个不同的前景或背景对象混合在一起的区域;
该实施例中,分割阈值:基于像素的灰度值或其他特征值将图像中的像素划分为前景和后景的阈值参数;
该实施例中,剔除:将小于分割阈值的像素点从图像中进行删除的操作;
该实施例中,第一点:图像中大于等于分割阈值的像素点;
该实施例中,第二点:对第一点进行值大小排序后,来将排序结果中的每个像素点视为第二点。
该实施例中,像素优化:对排序结果中的每个第二点的像素进行调整和优化的操作,以改善图像的质量、增强前景的视觉效果;
上述技术方案的工作原理及有益效果是:本发明分别通过最小像素阈值和最大像素阈值对待处理图像进行第一分割、第二分割,同时,对第一分割结果和第二分割结果中的混杂分割区域的像素点进行优化处理,提高了待处理的辨识度和可读性,提升了待处理图像的图像质量,进而提升了特征提取的精确性和有效性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于OCR技术的文件检索方法,其特征在于,包括:
步骤1:获取IO接口输入的图像信息,同时,通过OCR技术对所述图像信息进行识别,并将识别结果转化为预设格式的识别文本信息;
步骤2:将所述识别文本信息与预设数据库中的关键词进行匹配,并将所述关键词输入预设索引匹配模型中进行策略匹配,得到相应的索引策略;
步骤3:基于所述关键词以及相应的索引策略,在文档数据库中筛选得到匹配度大于预设度的目标文档,并关联所述关键词和目标文档,建立与所述关键词匹配的文本索引;
步骤4:获取与所述关键词匹配的历史索引记录,并与当前索引策略进行对比分析,将分析结果输入预设优化模型中进行优化处理,实现文件检索;
其中,步骤4中,包括:
在索引数据库中筛选出与所述关键词相关性大于第一相关系数的历史索引纪录,并生成参考文件;
对所述参考文件进行内容解析,得到历史关键词以及与所述历史关键词一一对应的历史索引策略;
根据所述历史关键词与当前关键词的相关性,对所述参考文件中的所有历史关键词以及对应的历史索引策略进行降序排列,生成历史索引记录排序表;
将所述索引记录排序表中所有历史关键词以及对应的历史索引策略输入预设映射建立模型中,根据所述历史关键词与历史索引策略之间的映射关系建立关键词-策略历史映射表;
同时,将当前关键词、与当前关键词对应的索引策略以及所述关键词-策略历史映射表输入预设数据分析模型中,对当前关键词对应得索引策略进行对比分析,得到第一结果;
将所述第一结果输入预设优化模型中,获取所述第一结果中的可优化项目,并将所有可优化项目按照对应的优化优先级降序排列,生成项目优化排序表;
同时,将所述项目优化排序表输入预设优化策略匹配模型中,根据所有可优化项目的排序信息匹配相应的优化策略以及优化方法;
基于与所述项目优化排序表对应的所述优化策略、优化方法,在预设优化模型中对所述可优化项目进行优化处理,产生第二结果;
利用预设分析函数对所述第一结果、第二结果进行分析,得到项目优化结果表,实现文件检索。
2.根据权利要求1所述的一种基于OCR技术的文件检索方法,其特征在于,步骤1中,包括:
通过图像采集设备获取文本图像;
对所述文本图像进行预处理,得到待处理图像;
对所述待处理图像进行特征提取,并利用预设字符识别算法和机器学习技术将提取的特征与预设字符特征模型进行特征匹配,产生字符识别结果。
3.根据权利要求2所述的一种基于OCR技术的文件检索方法,其特征在于,步骤1中,还包括:
对所述字符识别结果进行后处理,得到待转换识别结果;
获取目标格式信息并匹配得到相应的格式转化方法,基于所述格式转化方法将所述待转换识别结果转化为预设格式的识别文本信息。
4.根据权利要求1所述的一种基于OCR技术的文件检索方法,其特征在于,步骤2中,包括:
对所述识别文本信息进行内容解析,并对文本解析内容进行拆分,得到至少由一个字符组成的词条;
同时,将同一文本信息下的所有所述词条组成待检索词条集,并将所述待检索词条集与预设数据库中的关键词进行匹配,生成待提取关键词集;
结合用户终端输入的关键词选定指令,对所述待提取关键词集中与所述关键词选定指令匹配的关键词进行提取,并输入到预设索引匹配模型中进行策略匹配。
5.根据权利要求4所述的一种基于OCR技术的文件检索方法,其特征在于,步骤2中,将所述关键词输入预设索引匹配模型中进行策略匹配,包括:
对所述待提取关键词集中的每一目标关键词进行词频统计,并基于统计结果产生与所述目标关键词对应的第一匹配因子:
同时,基于所述目标关键词,对所述待提取关键词集中的所有关键词进行相似度分析,并基于相似度分析结果产生与所述目标关键词对应的第二匹配因子;
结合与所述目标关键词对应的第一匹配因子、第二匹配因子,在预设索引匹配模型中进行策略匹配,得到与所述目标关键词匹配的索引策略。
6.根据权利要求5所述的一种基于OCR技术的文件检索方法,其特征在于,步骤3中,包括:
基于与所述目标关键词匹配的索引策略,根据预设策略-方法匹配表在索引数据库中选取相应的索引方法;
结合所述索引策略、索引方法,对文档数据库中包含有所述关键词的文档进行初步筛选,得到模糊匹配结果;
同时,根据所述目标关键词在所述模糊匹配结果中的每一文档中对应的信息量优先级,计算各个文档与关键词的匹配度;
基于所述模糊匹配结果中与各个文档一一对应的匹配度,对各个文档进行匹配度降序排列,同时,将匹配度大于第一预设度的文档选定为第一目标文档,并存入目标文档库中;
同时,将匹配度小于第一预设度且大于第二预设度的文档选定为备用文档,并储存至备用文档库中;
将所述目标关键词输入预设相似关键词匹配模型中,输出相似度大于第三预设度的相似词,并基于所述相似词对所述备用文档库中的各个备用文档进行关键词匹配,将匹配度大于第四预设度的备用文档选定为第二目标文档,同时,将所述第二目标文档存入所述目标文档库中;
根据预设相关性评估函数对所述目标文档库中的每个文档进行相似度计算,并按照相似度的降序进行排列,生成目标文档排序表;
同时,将所述关键词与目标文档排序表中的每个文档进行关联,建立目标文档与关键词之间的文本索引。
7.根据权利要求2所述的一种基于OCR技术的文件检索方法,其特征在于,对所述待处理图像进行特征提取,包括:
获取背景像素与前景像素的最小像素阈值并对所述待处理图像进行第一分割,同时,获取背景像素与前景像素的最大像素阈值/>并对所述待处理图像进行第二分割;
锁定第一分割结果与第二分割结果中的前景重叠分割区域并进行保留,同时,锁定前景与背景的混杂分割区域;
计算对所述混杂分割区域的分割阈值F1;
,且满足/>,其中,/>,其中,/>为调节系数;A1、A2为边界系数;
;其中,/>为基于最小像素阈值的边界筛选值;/>2为基于最大像素阈值/>max的边界筛选值;/>表示第一分割区域中背景像素中像素一致的最大数量的像素值;/>表示第一分割区域中背景像素的平均值;/>表示第二分割区域中背景像素中像素一致的最大数量的像素值;/>表示第二分割区域中背景像素的平均值;
对小于所述分割阈值的像素点进行剔除,同时,将大于等于所述分割阈值的像素点视为第一点;
根据每个第一点的像素值进行值大小排序,并依次对排序结果中的每个第二点进行像素优化;
;其中,k、R分别表示经验常量;/>表示对应第二点的原始像素值;T1表示对应第二点的优化像素值;/>表示与对应第二点最邻近的n1个第一点的像素标准差;/>表示与对应第二点最邻近的n1个第一点的像素平均值;/>表示正负变量,当/>时,取值为-1,否则,取值为1;/>表示与对应第二点最邻近的n1个第一点的像素方差;
将优化像素值大于最小像素阈值的点保留,并对所有保留的点进行特征提取。
CN202311697292.4A 2023-12-12 2023-12-12 一种基于ocr技术的文件检索方法及系统 Active CN117390214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311697292.4A CN117390214B (zh) 2023-12-12 2023-12-12 一种基于ocr技术的文件检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311697292.4A CN117390214B (zh) 2023-12-12 2023-12-12 一种基于ocr技术的文件检索方法及系统

Publications (2)

Publication Number Publication Date
CN117390214A CN117390214A (zh) 2024-01-12
CN117390214B true CN117390214B (zh) 2024-02-27

Family

ID=89468788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311697292.4A Active CN117390214B (zh) 2023-12-12 2023-12-12 一种基于ocr技术的文件检索方法及系统

Country Status (1)

Country Link
CN (1) CN117390214B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351001B (zh) * 2023-11-16 2024-05-28 肇庆市大正铝业有限公司 一种再生铝合金模板表面缺陷识别方法
CN117786099B (zh) * 2024-02-27 2024-04-26 中建安装集团有限公司 工程技术资料信息化管理系统及方法
CN118467465A (zh) * 2024-07-09 2024-08-09 青岛市胶州中心医院 一种基于数字化的档案信息数据管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783962A (zh) * 2017-11-23 2018-03-09 百度在线网络技术(北京)有限公司 用于查询指令的方法及装置
CN110807121A (zh) * 2019-09-29 2020-02-18 广东墨痕教育科技有限公司 基于图文智能识别的电子教育资源匹配方法及计算机可读存储介质
CN114398882A (zh) * 2022-01-13 2022-04-26 平安普惠企业管理有限公司 文档处理方法、装置、设备及存储介质
CN115687574A (zh) * 2022-11-10 2023-02-03 北京明朝万达科技股份有限公司 一种文本检索方法、装置、终端设备和存储介质
CN116340259A (zh) * 2021-12-22 2023-06-27 华为技术有限公司 文档管理方法、文档管理系统和计算设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050097080A1 (en) * 2003-10-30 2005-05-05 Kethireddy Amarender R. System and method for automatically locating searched text in an image file

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783962A (zh) * 2017-11-23 2018-03-09 百度在线网络技术(北京)有限公司 用于查询指令的方法及装置
CN110807121A (zh) * 2019-09-29 2020-02-18 广东墨痕教育科技有限公司 基于图文智能识别的电子教育资源匹配方法及计算机可读存储介质
CN116340259A (zh) * 2021-12-22 2023-06-27 华为技术有限公司 文档管理方法、文档管理系统和计算设备
CN114398882A (zh) * 2022-01-13 2022-04-26 平安普惠企业管理有限公司 文档处理方法、装置、设备及存储介质
CN115687574A (zh) * 2022-11-10 2023-02-03 北京明朝万达科技股份有限公司 一种文本检索方法、装置、终端设备和存储介质

Also Published As

Publication number Publication date
CN117390214A (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN117390214B (zh) 一种基于ocr技术的文件检索方法及系统
US6501855B1 (en) Manual-search restriction on documents not having an ASCII index
US5465353A (en) Image matching and retrieval by multi-access redundant hashing
US20090263019A1 (en) OCR of books by word recognition
CN112100426B (zh) 基于视觉和文本特征的通用表格信息检索的方法与系统
US20040139384A1 (en) Removal of extraneous text from electronic documents
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115830620B (zh) 一种基于ocr的档案文本数据处理方法及系统
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN111767378A (zh) 一种智能推荐科技文献的方法及装置
CN115794743A (zh) 一种针对专利和期刊文献的综合检索方法及系统
CN113505775B (zh) 一种基于字符定位的满文单词识别方法
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
CN112464015B (zh) 一种基于深度学习的图像电子证据筛选方法
CN115661834A (zh) 一种多功能数据检索系统及方法
CN115525761A (zh) 一种文章关键词筛选类别的方法、装置、设备及存储介质
CN111178409B (zh) 基于大数据矩阵稳定性分析的图像匹配与识别系统
CN111177301B (zh) 一种关键信息识别提取方法及系统
CN114758340A (zh) 物流地址智能识别方法、装置、设备及存储介质
CN117371533B (zh) 一种生成数据标签规则的方法及装置
EP4325382A1 (en) Text data structuring method and apparatus using line information
CN117150046B (zh) 基于上下文语义的任务自动分解方法和系统
CN113434760B (zh) 工法推荐方法、装置、设备及存储介质
Lakshmi et al. Big Data–Based Frameworks and Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant