CN117037184A - 一种基于云匹配的ocr模糊识别系统及方法 - Google Patents
一种基于云匹配的ocr模糊识别系统及方法 Download PDFInfo
- Publication number
- CN117037184A CN117037184A CN202311300212.7A CN202311300212A CN117037184A CN 117037184 A CN117037184 A CN 117037184A CN 202311300212 A CN202311300212 A CN 202311300212A CN 117037184 A CN117037184 A CN 117037184A
- Authority
- CN
- China
- Prior art keywords
- content
- matching
- file
- feature
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及智能对象识别相关领域,公开了一种基于云匹配的OCR模糊识别系统及方法,通过相关功能性结构的设置,在进行OCR识别过程中,通过将对象进行类型划分获得多个并列的匹配库,并通过对象取样的方式进行待识别文件的匹配库确定,进而可以对匹配过程进行优化,基于类型划分进行识别匹配的方式不仅识别结果更加精准,也能够一定程度降低识别过程中系统的检索算力消耗提升检索效率,进一步的,基于对模糊无法准确识别的内容进行释义的组合匹配以确定最终对象内容的方式,也能够进一步的降低识别过程中争议对象被错误匹配识别的概率。
Description
技术领域
本发明涉及智能对象识别相关领域,具体是一种基于云匹配的OCR模糊识别系统及方法。
背景技术
OCR识别技术,是一种通过电子设备扫描纸质文件字符进行图像电子化并对其进行内容图像进行识别,从而转化为字符的图像文件处理技术,其可以有效的替代人工方式的内容电子化输入存档,具有较高的效率及更低的成本消耗。
现有技术中的OCR识别方式多采用简单的形状特征识别翻译方式,因此多数的使用场景受限于特定的印刷字体的扫描识别,具有较高的使用局限性,无法应对更为复杂的字体扫描场景,且对于模糊、特征相似度过高或复杂的文字特征时,无法准确的对其进行内容的判定。
发明内容
本发明的目的在于提供一种基于云匹配的OCR模糊识别系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于云匹配的OCR模糊识别系统,包含:
文件采集模块,用于调用OCR文件获取程序,通过所述OCR文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式;
对象取样模块,用于对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容;
特征选库模块,用于获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式;
模糊识别模块,用于基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。
作为本发明的进一步方案:所述模糊识别模块具体包括:
对象遍历单元,用于根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定;
多结果释义单元,用于当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义;
模糊判断单元,用于进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。
作为本发明的再进一步方案:所述文件类别标记具体包括载体类型标记及内容类型标记;
所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断;
所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。
作为本发明的再进一步方案:还包括跨库匹配模块;
所述跨库匹配模块,用于当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。
作为本发明的再进一步方案:所述还包括符号判定模块;
所述符号判定模块,用于对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。
本发明实施例旨在提供一种基于云匹配的OCR模糊识别方法,包含:
调用OCR文件获取程序,通过所述OCR文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式;
对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容;
获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式;
基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。
作为本发明的进一步方案:所述基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容的步骤具体包括:
根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定;
当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义;
进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。
作为本发明的再进一步方案:所述文件类别标记具体包括载体类型标记及内容类型标记;
所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断。
所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。
作为本发明的再进一步方案:还包括步骤:
当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。
作为本发明的再进一步方案:还包括:
对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。
与现有技术相比,本发明的有益效果是:通过相关功能性结构的设置,在进行OCR识别过程中,通过将对象进行类型划分获得多个并列的匹配库,并通过对象取样的方式进行待识别文件的匹配库确定,进而可以对匹配过程进行优化,基于类型划分进行识别匹配的方式不仅识别结果更加精准,也能够一定程度降低识别过程中系统的检索算力消耗提升检索效率,进一步的,基于对模糊无法准确识别的内容进行释义的组合匹配以确定最终对象内容的方式,也能够进一步的降低识别过程中争议对象被错误匹配识别的概率。
附图说明
图1为一种基于云匹配的OCR模糊识别系统的组成框图。
图2为一种基于云匹配的OCR模糊识别系统中模糊识别模块的组成框图。
图3为一种基于云匹配的OCR模糊识别方法的流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现方式进行详细描述。
如图1所述,为本发明一个实施例提供的一种基于云匹配的OCR模糊识别系统,包括:
文件采集模块100,用于调用OCR文件获取程序,通过所述OCR文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式。
对象取样模块300,用于对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容。
特征选库模块500,用于获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式。
模糊识别模块700,用于基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。
本实施例中,给出了一种基于云匹配的OCR模糊识别系统,通过相关功能性结构的设置,在进行OCR识别过程中,通过将对象进行类型划分获得多个并列的匹配库,并通过对象取样的方式进行待识别文件的匹配库确定,进而可以对匹配过程进行优化,基于类型划分进行识别匹配的方式不仅识别结果更加精准,也能够一定程度降低识别过程中系统的检索算力消耗提升检索效率,进一步的,基于对模糊无法准确识别的内容进行释义的组合匹配以确定最终对象内容的方式,也能够进一步的降低识别过程中争议对象被错误匹配识别的概率;使用时,通过图像采集设备进行文件的图像采集(或通过上传接口进行上传),获取待识别文件内容,通过对象取样模块300执行取样程序对扫描的待识别文件内容进行部分内容的获取(需要首先进行对象的识别和区域划分,即将每一个字进行划分单独取样,这一过程中,保持字与字之间的空间位置关系),选取其中的额定数量个特征对象(图像),对其使用现有技术的传统识别方式进行内容识别,判断其所实际对应的文字(即对象内容)(这一过程可以通过输出至使用人员的终端设备进行显示,由使用人员进行人工的校对,从而来确保其准确性,避免影响后续的识别结果),根据识别出的文字,选取多个不同字体类型的匹配库中对应的该字体,与图片的特征对象进行特征匹配,从而可以对待识别文件内容中所使用的字体进行匹配,选择对应的匹配库进行内容的检索识别,当某一特征对象检索到多个匹配度较高且达到标准的对应字体内容时,该对应图像可能较为模糊,导致系统无法有效的识别(或字体较为复杂),此时将符合的多个对象内容进行与相邻文字内容组合获得多种组合下的含义,再根据进一步相邻的其它内容进行含义的相关性判断,判断在已经确定的内容所表达的含义下,模糊的对象以何种组合可以更为通顺合理的关联,从而确定对应的文字,以生成并输出准确的文件识别内容。
如图2所示,作为本发明另一个优选的实施例,所述模糊识别模块700具体包括:
对象遍历单元701,用于根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定。
多结果释义单元702,用于当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义。
模糊判断单元703,用于进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。
本实施例中,对模糊识别模块700进行了功能性的单元划分说明,这里引入了预设百分阈值,因区别于传统的识别方式,本申请中是通过确定的匹配库进行内容的识别,因此在进行匹配时,往往重合率均是较高的(同种字体下的相同文字,在特征分布上差异化较小),因此需要设置百分阈值,即二者达到一定的重合率才能够表征库中的该内容是对应待识别的特征对象的。
作为本发明另一个优选的实施例,所述文件类别标记具体包括载体类型标记及内容类型标记;
所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断。
所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。
本实施例中,对文件标记类别进行了说明,其可以用于对待识别文件内容中文字的类别、使用文字的环境(例如英文在不同国家的用法不同)、相同文字在不同时间段(例如汉字在不同时期的古文、白话文等用法)等进行标记。
作为本发明另一个优选的实施例,还包括跨库匹配模块;
所述跨库匹配模块,用于当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。
本实施例中,对于不同的字体等,可能会存在未完全收录所有文字的情况存在,此时则无法有效的进行匹配识别,因此需要基于不同匹配库间的相似程度依次进行跨库的检索匹配,从而匹配到最为接近的相对应的结果,以使得模糊识别的过程能够继续进行,最终得出识别结果。
作为本发明另一个优选的实施例,还包括符号判定模块;
所述符号判定模块,用于对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。
本实施例中,在识别的过程中,可能会存在模糊的对象实际为符号等情况,此时,则需要根据符号的特征进行判断区分,通常情况下符号区别于文字,其只占用文字区域的一半甚至更少,因此可基于此特征对其进行区分。
如图3所示,本发明还提供了一种基于云匹配的OCR模糊识别方法,其包含步骤:
S200,调用OCR文件获取程序,通过所述OCR文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式。
S400,对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容。
S600,获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式。
S800,基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。
作为本发明另一个优选的实施例,所述基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容的步骤具体包括:
根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定。
当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义。
进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。
作为本发明另一个优选的实施例,所述文件类别标记具体包括载体类型标记及内容类型标记;
所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断。
所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。
作为本发明另一个优选的实施例,还包括步骤:
当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。
作为本发明另一个优选的实施例,还包括:
对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于云匹配的OCR模糊识别系统,其特征在于,包含:
文件采集模块,用于调用OCR文件获取程序,通过所述OCR文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式;
对象取样模块,用于对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容;
特征选库模块,用于获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式;
模糊识别模块,用于基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。
2.根据权利要求1所述的一种基于云匹配的OCR模糊识别系统,其特征在于,所述模糊识别模块具体包括:
对象遍历单元,用于根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定;
多结果释义单元,用于当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义;
模糊判断单元,用于进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。
3.根据权利要求2所述的一种基于云匹配的OCR模糊识别系统,其特征在于,所述文件类别标记具体包括载体类型标记及内容类型标记;
所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断;
所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。
4.根据权利要求2所述的一种基于云匹配的OCR模糊识别系统,其特征在于,还包括跨库匹配模块;
所述跨库匹配模块,用于当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。
5.根据权利要求1所述的一种基于云匹配的OCR模糊识别系统,其特征在于,还包括符号判定模块;
所述符号判定模块,用于对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。
6.一种基于云匹配的OCR模糊识别方法,其特征在于,包含:
调用OCR文件获取程序,通过所述OCR文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式;
对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容;
获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式;
基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。
7.根据权利要求6所述的一种基于云匹配的OCR模糊识别方法,其特征在于,所述基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容的步骤具体包括:
根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定;
当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义;
进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。
8.根据权利要求7所述的一种基于云匹配的OCR模糊识别方法,其特征在于,所述文件类别标记具体包括载体类型标记及内容类型标记;
所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断;
所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。
9.根据权利要求7所述的一种基于云匹配的OCR模糊识别方法,其特征在于,还包括步骤:
当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。
10.根据权利要求6所述的一种基于云匹配的OCR模糊识别方法,其特征在于,还包括:
对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311300212.7A CN117037184A (zh) | 2023-10-10 | 2023-10-10 | 一种基于云匹配的ocr模糊识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311300212.7A CN117037184A (zh) | 2023-10-10 | 2023-10-10 | 一种基于云匹配的ocr模糊识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037184A true CN117037184A (zh) | 2023-11-10 |
Family
ID=88634098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311300212.7A Withdrawn CN117037184A (zh) | 2023-10-10 | 2023-10-10 | 一种基于云匹配的ocr模糊识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037184A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103076892A (zh) * | 2012-12-31 | 2013-05-01 | 百度在线网络技术(北京)有限公司 | 一种用于提供输入字符串所对应的输入候选项的方法与设备 |
US20180174620A1 (en) * | 2010-11-04 | 2018-06-21 | Digimarc Corporation | Smartphone-based methods and systems |
CN112632956A (zh) * | 2020-12-29 | 2021-04-09 | 重庆金融资产交易所有限责任公司 | 文本匹配方法、装置、终端和存储介质 |
CN113920520A (zh) * | 2021-09-14 | 2022-01-11 | 国网新疆电力有限公司信息通信公司 | 图像文本识别方法、系统、存储介质及电子设备 |
CN114580429A (zh) * | 2022-01-26 | 2022-06-03 | 云捷计算机软件(江苏)有限责任公司 | 一种基于人工智能的语言和图像理解集成服务系统 |
CN115346227A (zh) * | 2022-10-17 | 2022-11-15 | 景臣科技(南通)有限公司 | 一种基于版式文件对电子文件矢量化的方法 |
CN116206319A (zh) * | 2023-02-17 | 2023-06-02 | 北京中兴正远科技有限公司 | 用于临床试验的数据处理系统 |
-
2023
- 2023-10-10 CN CN202311300212.7A patent/CN117037184A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180174620A1 (en) * | 2010-11-04 | 2018-06-21 | Digimarc Corporation | Smartphone-based methods and systems |
CN103076892A (zh) * | 2012-12-31 | 2013-05-01 | 百度在线网络技术(北京)有限公司 | 一种用于提供输入字符串所对应的输入候选项的方法与设备 |
CN112632956A (zh) * | 2020-12-29 | 2021-04-09 | 重庆金融资产交易所有限责任公司 | 文本匹配方法、装置、终端和存储介质 |
CN113920520A (zh) * | 2021-09-14 | 2022-01-11 | 国网新疆电力有限公司信息通信公司 | 图像文本识别方法、系统、存储介质及电子设备 |
CN114580429A (zh) * | 2022-01-26 | 2022-06-03 | 云捷计算机软件(江苏)有限责任公司 | 一种基于人工智能的语言和图像理解集成服务系统 |
CN115346227A (zh) * | 2022-10-17 | 2022-11-15 | 景臣科技(南通)有限公司 | 一种基于版式文件对电子文件矢量化的方法 |
CN116206319A (zh) * | 2023-02-17 | 2023-06-02 | 北京中兴正远科技有限公司 | 用于临床试验的数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8295600B2 (en) | Image document processing device, image document processing method, program, and storage medium | |
US8014604B2 (en) | OCR of books by word recognition | |
US7561734B1 (en) | Machine learning of document templates for data extraction | |
US7764830B1 (en) | Machine learning of document templates for data extraction | |
CN110569830A (zh) | 多语言文本识别方法、装置、计算机设备及存储介质 | |
US8064703B2 (en) | Property record document data validation systems and methods | |
CN110728687B (zh) | 文件图像分割方法、装置、计算机设备和存储介质 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN110705233A (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN108921160B (zh) | 一种图书识别方法、电子设备及存储介质 | |
CN111858977B (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN115240213A (zh) | 表格图像识别方法、装置、电子设备及存储介质 | |
CN111985462A (zh) | 基于深度神经网络的古文字检测、识别和检索系统 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
CN116702727A (zh) | 一种表格处理方法、装置、设备及介质 | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
CN117037184A (zh) | 一种基于云匹配的ocr模糊识别系统及方法 | |
CN112528832A (zh) | 对pdf格式的继电保护定值单进行处理的方法和系统 | |
US7508986B2 (en) | Document recognition device, document recognition method and program, and storage medium | |
CN115565193A (zh) | 问卷信息录入方法、装置、电子设备及存储介质 | |
CN113435217B (zh) | 语言测试处理方法、装置及电子设备 | |
CN109739981B (zh) | 一种pdf文件类别判定方法及文字提取方法 | |
CN111931018A (zh) | 试题匹配及试题拆分方法、装置和计算机存储介质 | |
Lu et al. | Word searching in document images using word portion matching | |
RU2582064C1 (ru) | Способы и системы эффективного автоматического распознавания символов с использованием леса решений |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20231110 |
|
WW01 | Invention patent application withdrawn after publication |