CN109657738B - 字符识别方法、装置、设备及存储介质 - Google Patents
字符识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109657738B CN109657738B CN201811254944.6A CN201811254944A CN109657738B CN 109657738 B CN109657738 B CN 109657738B CN 201811254944 A CN201811254944 A CN 201811254944A CN 109657738 B CN109657738 B CN 109657738B
- Authority
- CN
- China
- Prior art keywords
- preset
- dictionary
- characters
- character
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims abstract description 100
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 6
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 2
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 208000016444 Benign adult familial myoclonic epilepsy Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000016427 familial adult myoclonic epilepsy Diseases 0.000 description 1
- 235000019387 fatty acid methyl ester Nutrition 0.000 description 1
- ZGNITFSDLCMLGI-UHFFFAOYSA-N flubendiamide Chemical compound CC1=CC(C(F)(C(F)(F)F)C(F)(F)F)=CC=C1NC(=O)C1=CC=CC(I)=C1C(=O)NC(C)(C)CS(C)(=O)=O ZGNITFSDLCMLGI-UHFFFAOYSA-N 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于大数据处理的字符识别方法、装置、设备及存储介质,所述方法包括:调用第一预设区域中预存的分词工具,以使所述分词工具将待识别文本划分为多个预设长度的参考字符;根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符;在所述预设词典中未存有所述参考字符时,将未存有的参考字符通过模糊匹配算法筛选出目标字符。本发明通过预设词典判断字符是否存在识别异常的情况,在这种情况下,将异常字符通过模糊匹配算法筛选出目标字符,从而通过模糊匹配算法实现文字识别,提高文字识别效率。
Description
技术领域
本发明涉及文本识别技术领域,尤其涉及一种字符识别方法、装置、设备及存储介质。
背景技术
目前,光学字符识别(Optical Character Recognition,OCR)主要是通过电子设备,例如扫描仪或数码相机,检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字,在面对印刷体字符时,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工,但是,在字符识别过程中通常使用概率统计方法进行识别时,常常识别速度较低。
发明内容
本发明的主要目的在于提出一种字符识别方法、装置、设备及存储介质,旨在提高文本识别效率。
为实现上述目的,本发明提供一种字符识别方法,所述字符识别方法包括以下步骤:
获取待识别文本;
调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符;
获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符;
在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示。
优选地,所述调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符之前,所述方法包括:
接收工具写入指令,提取所述工具写入指令中的分词工具和分词写入地址信息,根据所述分词写入地址信息将所述分词工具写入所述第一预设区域并进行保存。
优选地,所述调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符,包括:
调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本与各个预设长度的关键词进行比较,根据比较结果提取所述待识别文本中的各个预设长度的目标关键词,将所述目标关键词作为所述预设长度的参考字符。
优选地,所述获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符之前,所述方法还包括:
接收字典写入指令,提取所述字典写入指令中的预设字典和字典写入地址信息,根据所述字典写入地址信息将所述预设字典写入所述第二预设区域。
优选地,所述获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符,包括:
获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在预设地址关系映射表中查找对应的存储地址;
根据所述存储地址在预设区域查找对应的预设词典,并提取所述参考字符的特征信息,将所述特征信息与查找到的词典中的字符的特征信息进行比较,根据比较结果判断所述词典中是否存有所述参考字符。
优选地,所述在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示,包括:
在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参数字符对应的目标长度的目标字符,将所述目标字符进行展示。
优选地,所述获取待识别文本之后,所述方法还包括:
将待识别文本中的各个初始识别字符建立初始识别列表;
所述在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参数字符对应的目标长度的目标字符,将所述目标字符进行展示,包括:
在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参数字符对应的目标长度的目标字符;
判断所述目标字符的数量,在所述数量为多个时,判断所述目标字符是否存在所述初始识别列表中,将存在所述初始识别列表中的字符对应的目标字符进行展示。
此外,为实现上述目的,本发明还提出一种字符识别装置,所述字符识别装置包括:
获取模块,用于获取待识别文本;
调用模块,用于调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符;
查找模块,用于获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符;
筛选模块,用于在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示。
此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的字符识别程序,所述字符识别程序配置为实现如上所述的字符识别方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有字符识别程序,所述字符识别程序被处理器执行时实现如上文所述的字符识别方法的步骤。
本发明提出的字符识别方法,通过获取待识别文本,调用分词工具,以使所述分词工具将所述待识别文本划分为多个预设长度的字符,根据所述预设长度的字符查找对应的预设词典,判断所述预设词典中是否存有所述字符,在所述预设词典中未存有所述字符时,说明所述字符存在识别异常的情况,在这种情况下,将未存有的字符通过模糊匹配算法筛选出目标字符,从而通过模糊匹配算法实现文字识别,提高文字识别效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明字符识别方法第一实施例的流程示意图;
图3为本发明字符识别方法第二实施例的流程示意图;
图4为本发明字符识别方法第三实施例的流程示意图;
图5为本发明字符识别装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及字符识别程序。
在图1所示的设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的字符识别程序,并执行本发明实施例提供的字符识别的实施方法。
基于上述硬件结构,提出本发明字符识别方法实施例。
参照图2,图2为本发明字符识别方法第一实施例的流程示意图。
在第一实施例中,所述字符识别方法包括以下步骤:
步骤S10,获取待识别文本。
需要说明的是,在本实施例中,首先通过OCR获取历史识别文本,将所述历史识别文本作为所述待识别文本,在具体实现中,主要通过输入设备将识别文档输入到计算机中,所述输入设备可为扫描仪,还可为其他可实现相同功能的设备,通过扫描一幅简单的印刷文档的图像,对测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,实现每一行的文字图像的分离,标点符号的判别等,从而进行对图像的预处理,将处理后的每一个文字图像分检出来交给识别模块识别,其中,版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界,包括域在图像中的始点、终点坐标,还包括域内的属性,即横、竖排版方式以及各文字块的连接关系作为一种数据结构,提供给识别模块自动识别,对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。
需要说明的是,在对文本进行识别时,从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,根据文字的笔画、特征点、投影信息、点的区域分布等进行分析,从而提供文本中识别的每个字符的top10的结果,并从结果中选取top1作为基础文本,例如,对于中文文本中对“我是中国人”通过OCR进行识别之后将top1中的识别结果“我是中园人”对于基础文本,将所述基本文本作为所述待识别文本,从而实现对识别文档的初始识别。
步骤S20,调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符。
在本实施中,设有分词工具,通过所述分析工具将所述待识别文本进行分析,其中,所述分词工具可为如jieba、SnowNLP、THULAC、NLPIR,还可为其他分词工具,本实施例对此不作限制,通过分词工具将所述待识别文本分为预设词长度的词组,例如通过分词工具将“我是中国人”分为“我”、“是”以及“中园人”,或者“我是”、“中园”以及“人”等。对于中文字符来说,所述预设长度可为字的个数,例如“我是”为长度为2的字符,“人”为长度为1的字符,从而实现不同规则的分词,提高分词的精度。
需要说明的是,为了提高识别的效率,在本实施例中,将所述预设长度大于2的词组进行列出,即“我是”、“中国”,从而实现对词组进行分析,还可列出符合其他规则的词组,本实施例对此不作限制,在本实施例中,以将待识别文本分成长度为2的词组,从而提高文本识别的效率。
步骤S30,获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符。
需要说明的是,所述参考字符为通过分词工具进行分词后的若干词组,例如将“我是中国人”分为长度为2的若干个词组,例如“我是”、“中园”以及“人”,其中,所述第一预设区域和第二预设区域用于区分所述分词工具的存储地址与所述预设字典的存储地址。
在本实施例中,所述预设词典为根据预设字段进行分类后的词典,例如对于词长度为2的词典,词长度为3的词典等,对于词长度为2的词典中包含例如“中国”,对于词长度为3的词典中包含例如“中国人”等,从而根据词的长度将常用的词组进行分类,从而实现对常用词组的管理。
在具体实现中,通过所述预设词典可检查分词后的目标词组是否为常见的词组,例如本实施例中分词后长度为2的词组包括“我是”以及“中园”,将“我是”以及“中园”在长度为2的词典中查找是否存在,在不存在时,表明识别有异常,例如未查到“中园”这个词组,可查找到“我是”这个词组,表明“我是”识别正常,“中园”识别异常。
步骤S40,在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示。
在本实施例中,将未存有的字符通过模糊匹配算法进行筛选,所述模糊匹配算法为BK-tree(Burkhard-Keller-tree)算法,由Burkhard和Keller提出的,通过模糊匹配算法是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,将所述操作次数作为所述编辑距离,在编辑距离越小的两个字符串越相似,当编辑距离为0时,两字符串相等,从而实现对字符的识别。
本实施例通过上述方案,通过获取待识别文本,调用分词工具,以使所述分词工具将所述待识别文本划分为多个预设长度的字符,根据所述预设长度的字符查找对应的预设词典,判断所述预设词典中是否存有所述字符,在所述预设词典中未存有所述字符时,说明所述字符存在识别异常的情况,在这种情况下,将未存有的字符通过模糊匹配算法筛选出目标字符,从而通过模糊匹配算法实现文字识别,提高文字识别效率。
进一步地,如图3所示,基于第一实施例提出本发明字符识别方法第二实施例,在本实施例中,所述步骤S20之前,所述方法还包括:
步骤S201,接收工具写入指令,提取所述工具写入指令中的分词工具和分词写入地址信息,根据所述分词写入地址信息将所述分词工具写入所述第一预设区域并进行保存。
可以理解的是,为了实现对待识别文本的比对分析,首先写入分词工具在预设区域中,在获取到待识别文本后通过调用预设区域中的分词工具对所述待识别文本进行更细化的分析,其中,所述分词工具可为一段小程序,还可为其他形式的分词工具,本实施例对此不作限制。
需要说明的是,所述工具写入指令可为通过写入平台界面进行写入操作,还可为通过数据串口进行写入,本实施例对此不作限制。
进一步地,所述步骤S20,包括:
步骤S202,调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本与各个预设长度的关键词进行比较,根据比较结果提取所述待识别文本中的各个预设长度的目标关键词,将所述目标关键词作为所述预设长度的参考字符。
在具体实现中,所述分词工具可设有各个关键词,通过将待识别文本与各个关键词进行比较,从而实现对所述待识别文本中的各个关键词的识别,例如将待识别文本“武汉风景好”通过所述分词工具进行分词,可将“武汉风景好”与各个关键词进行比较,从而得到“武汉”、“风景”以及“好”这几个关键词,从而实现对待识别文本的处理。
本实施例提供的方案,通过接收写入指令,根据所述写入指令预先写入所述分词工具,通过所分词工具对所述待识别文本进行分词处理,从而实现更细化的文本识别。
进一步地,如图4所示,基于第一实施例或第二实施例提出本发明字符识别方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤S30之前,所述方法还包括:
步骤S301,接收字典写入指令,提取所述字典写入指令中的预设字典和字典写入地址信息,根据所述字典写入地址信息将所述预设字典写入所述第二预设区域。
需要说明的是,为了提高识别的准确性,首先需要写入所述预设词典,具体为接收写入指令,提取写入指令中的预设词典,将所述预设词典保存在预设区域,由于之前保存有分词工具,可将分词工具的存储地址与预设词典的分词地址保存在不同区域,并标上不同的识别标签,即通过第一预设区域和第二预设区域进行区分,从而实现对数据的有效管理。
进一步地,所述步骤S30,包括:
步骤S302,获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在预设地址关系映射表中查找对应的存储地址。
需要说明的是,所述存储地址为预设字典的存储地址,在数据库中存有多个词典,例如长度为2的词典以及长度为3的词典,还存有其他形式的词典,为了实现对词典的管理,可将词典使用不同的存储地址进行储存,并将储存地址与词典的长度的对应关系建立所述预设地址关系映射表,通过获取字符的长度在所述预设地址关系映射表即可查找到对应的字典的地址,例如在所述参考字符长度为2时,根据字符长度2在所述预设地址关系映射表中查找长度2的字典存储的地址信息,从而实现对地址的有效管理。
步骤S303,根据所述存储地址在预设区域查找对应的预设词典,并提取所述参考字符的特征信息,将所述特征信息与查找到的词典中的字符的特征信息进行比较,根据比较结果判断所述词典中是否存有所述参考字符。
为了判断识别的参考字符的准确性,通过将参考字符与词典中的字符进行比较,判断所述词典中是否存有所述参考字符,在所述词典中未存有所述参考字符时,说明当前参考字符有异常,在所述词典中存有所述参考字符时,说明当前参考字符识别正确,例如判断所述词典是否存有“我是”、“中园”以及“人”,可知在所述词典中存有“我是”,但是并未存有“中园”,从而可判断出“中园”存在异常。
在具体实现中,通过提取参考字符的特征信息,所述特征信息可为所述参考字符的点的区域分布,各个点的几何分布状态,还可为其他形式的特征信息,本实施例对此不作限制。
进一步地,所述步骤S40,包括:
步骤S401,在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参数字符对应的目标长度的目标字符,将所述目标字符进行展示。
在具体实现中,通过BK-tree算法查找编辑距离不大于该词长度的词,例如不存在“中园”,则从过BK-tree查找编辑距离不大于该词长度的词可为“中国”,其中所述编辑距离为字符串A到B的编辑距离,通过只用插入、删除和替换三种操作,最少需要多少步可以把A变成B。例如,从FAME到GATE需要两步,两次替换,从GAME到ACM则需要三步,包括删除G和E再添加C,将筛选出的“中国”作为所述目标字符进行展示,从而通过模糊匹配算法实现文本的识别,提高文本识别的准确性。
进一步地,所述步骤S10之后,所述方法还包括:将待识别文本中的各个初始识别字符建立初始识别列表,所述步骤S401,包括:
步骤S402,在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参数字符对应的目标长度的目标字符。
需要说明的是,通过OCR在对文本进行识别时,从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,根据文字的笔画、特征点、投影信息、点的区域分布等进行分析,从而提供文本中识别的每个字符的top10的结果,将所述每个字符的top10的结果建立对应每个字符的初始识别列表。
步骤S403,判断所述目标字符的数量,在所述数量为多个时,判断所述目标字符是否存在所述初始识别列表中,将存在所述初始识别列表中的字符对应的目标字符进行展示。
需要说明的是,在通过BK-tree进行筛选时,可能出现多个词的情况,例如上述中可筛选出除了“中国”,还包括“中文”以及“家园”等,针对这种情况,可从筛选词中找出改变的字为之前top10中出现的字对应的词作为所述目标字符进行展示,从而提高文本识别的准确性。
本实施例提供的方案,通过模糊匹配算法加入文本识别中进行识别,根据编辑距离查找出相似的字符,将筛选出的字符作为所述目标字符,从而提高文本识别的准确性。
本发明进一步提供一种字符识别装置。
参照图5,图5为本发明字符识别装置第一实施例的功能模块示意图。
本发明字符识别装置第一实施例中,该字符识别装置包括:
获取模块10,获取待识别文本。
需要说明的是,在本实施例中,首先通过OCR获取历史识别文本,将所述历史识别文本作为所述待识别文本,在具体实现中,主要通过输入设备将识别文档输入到计算机中,所述输入设备可为扫描仪,还可为其他可实现相同功能的设备,通过扫描一幅简单的印刷文档的图像,对测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,实现每一行的文字图像的分离,标点符号的判别等,从而进行对图像的预处理,将处理后的每一个文字图像分检出来交给识别模块识别,其中,版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界,包括域在图像中的始点、终点坐标,还包括域内的属性,即横、竖排版方式以及各文字块的连接关系作为一种数据结构,提供给识别模块自动识别,对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。
需要说明的是,在对文本进行识别时,从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,根据文字的笔画、特征点、投影信息、点的区域分布等进行分析,从而提供文本中识别的每个字符的top10的结果,并从结果中选取top1作为基础文本,例如,对于中文文本中对“我是中国人”通过OCR进行识别之后将top1中的识别结果“我是中园人”对于基础文本,将所述基本文本作为所述待识别文本,从而实现对识别文档的初始识别。
调用模块20,用于调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符。
在本实施中,设有分词工具,通过所述分析工具将所述待识别文本进行分析,其中,所述分词工具可为如jieba、SnowNLP、THULAC、NLPIR,还可为其他分词工具,本实施例对此不作限制,通过分词工具将所述待识别文本分为预设词长度的词组,例如通过分词工具将“我是中国人”分为“我”、“是”以及“中园人”,或者“我是”、“中园”以及“人”等。对于中文字符来说,所述预设长度可为字的个数,例如“我是”为长度为2的字符,“人”为长度为1的字符,从而实现不同规则的分词,提高分词的精度。
需要说明的是,为了提高识别的效率,在本实施例中,将所述预设长度大于2的词组进行列出,即“我是”、“中国”,从而实现对词组进行分析,还可列出符合其他规则的词组,本实施例对此不作限制,在本实施例中,以将待识别文本分成长度为2的词组,从而提高文本识别的效率。
查找模块30,用于获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符。
需要说明的是,所述参考字符为通过分词工具进行分词后的若干词组,例如将“我是中国人”分为长度为2的若干个词组,例如“我是”、“中园”以及“人”。
在本实施例中,所述预设词典为根据预设字段进行分类后的词典,例如对于词长度为2的词典,词长度为3的词典等,对于词长度为2的词典中包含例如“中国”,对于词长度为3的词典中包含例如“中国人”等,从而根据词的长度将常用的词组进行分类,从而实现对常用词组的管理。
在具体实现中,通过所述预设词典可检查分词后的目标词组是否为常见的词组,例如本实施例中分词后长度为2的词组包括“我是”以及“中园”,将“我是”以及“中园”在长度为2的词典中查找是否存在,在不存在时,表明识别有异常,例如未查到“中园”这个词组,可查找到“我是”这个词组,表明“我是”识别正常,“中园”识别异常。
筛选模块40,用于在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示。
在本实施例中,将未存有的字符通过模糊匹配算法进行筛选,所述模糊匹配算法为BK-tree(Burkhard-Keller-tree)算法,由Burkhard和Keller提出的,通过模糊匹配算法是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,将所述操作次数作为所述编辑距离,在编辑距离越小的两个字符串越相似,当编辑距离为0时,两字符串相等,从而实现对字符的识别。
本实施例通过上述方案,通过获取待识别文本,调用分词工具,以使所述分词工具将所述待识别文本划分为多个预设长度的字符,根据所述预设长度的字符查找对应的预设词典,判断所述预设词典中是否存有所述字符,在所述预设词典中未存有所述字符时,说明所述字符存在识别异常的情况,在这种情况下,将未存有的字符通过模糊匹配算法筛选出目标字符,从而通过模糊匹配算法实现文字识别,提高文字识别效率。
此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的字符识别程序,所述字符识别程序配置为实现如上文所述的字符识别方法的步骤。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有字符识别程序,所述字符识别程序被处理器执行如上文所述的字符识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种字符识别方法,其特征在于,所述字符识别方法包括:
获取待识别文本;
调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符;
获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符,所述预设词典为根据预设字段进行分类后的词典;
在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示;
其中,所述调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符,包括:
调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本与各个预设长度的关键词进行比较,根据比较结果提取所述待识别文本中的各个预设长度的目标关键词,将所述目标关键词作为所述预设长度的参考字符;
其中,所述获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符,包括:
获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在预设地址关系映射表中查找对应的存储地址;
根据所述存储地址在预设区域查找对应的预设词典,并提取所述参考字符的特征信息,将所述特征信息与查找到的词典中的字符的特征信息进行比较,根据比较结果判断所述词典中是否存有所述参考字符。
2.如权利要求1所述的字符识别方法,其特征在于,所述调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符之前,所述方法包括:
接收工具写入指令,提取所述工具写入指令中的分词工具和分词写入地址信息,根据所述分词写入地址信息将所述分词工具写入所述第一预设区域并进行保存。
3.如权利要求1或2中所述的字符识别方法,其特征在于,所述获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符之前,所述方法还包括:
接收字典写入指令,提取所述字典写入指令中的预设字典和字典写入地址信息,根据所述字典写入地址信息将所述预设字典写入所述第二预设区域。
4.如权利要求1或2中所述的字符识别方法,其特征在于,所述在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示,包括:
在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参考字符对应的目标长度的目标字符,将所述目标字符进行展示。
5.如权利要求4所述的字符识别方法,其特征在于,所述获取待识别文本之后,所述方法还包括:
将待识别文本中的各个初始识别字符建立初始识别列表;
所述在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参考字符对应的目标长度的目标字符,将所述目标字符进行展示,包括:
在所述预设词典中未存有所述参考字符时,通过所述模糊匹配算法在所述预设词典中查找出编辑距离小于所述参考字符对应的目标长度的目标字符;
判断所述目标字符的数量,在所述数量为多个时,判断所述目标字符是否存在所述初始识别列表中,将存在所述初始识别列表中的字符对应的目标字符进行展示。
6.一种字符识别装置,其特征在于,所述字符识别装置包括:
获取模块,用于获取待识别文本;
调用模块,用于调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本划分为多个预设长度的参考字符;
查找模块,用于获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在第二预设区域查找对应的预设词典,并判断所述预设词典中是否存有所述参考字符,所述预设词典为根据预设字段进行分类后的词典;
筛选模块,用于在所述预设词典中未存有所述参考字符时,通过模糊匹配算法对未存有的参考字符进行筛选,得到目标字符,并将所述目标字符进行展示;
所述调用模块,还用于调用第一预设区域中预存的分词工具,通过所述分词工具将所述待识别文本与各个预设长度的关键词进行比较,根据比较结果提取所述待识别文本中的各个预设长度的目标关键词,将所述目标关键词作为所述预设长度的参考字符;
所述查找模块,还用于获取所述分词工具划分后的参考字符,根据所述参考字符的目标长度在预设地址关系映射表中查找对应的存储地址;
根据所述存储地址在预设区域查找对应的预设词典,并提取所述参考字符的特征信息,将所述特征信息与查找到的词典中的字符的特征信息进行比较,根据比较结果判断所述词典中是否存有所述参考字符。
7.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的字符识别程序,所述字符识别程序配置为实现如权利要求1至5中任一项所述的字符识别方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有字符识别程序,所述字符识别程序被处理器执行时实现如权利要求1至5中任一项所述的字符识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811254944.6A CN109657738B (zh) | 2018-10-25 | 2018-10-25 | 字符识别方法、装置、设备及存储介质 |
PCT/CN2018/122832 WO2020082562A1 (zh) | 2018-10-25 | 2018-12-21 | 字符识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811254944.6A CN109657738B (zh) | 2018-10-25 | 2018-10-25 | 字符识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657738A CN109657738A (zh) | 2019-04-19 |
CN109657738B true CN109657738B (zh) | 2024-04-30 |
Family
ID=66110077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811254944.6A Active CN109657738B (zh) | 2018-10-25 | 2018-10-25 | 字符识别方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109657738B (zh) |
WO (1) | WO2020082562A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633660B (zh) * | 2019-08-30 | 2022-05-31 | 盈盛智创科技(广州)有限公司 | 一种文档识别的方法、设备和存储介质 |
CN110738202A (zh) * | 2019-09-06 | 2020-01-31 | 平安科技(深圳)有限公司 | 字符识别方法、装置及计算机可读存储介质 |
CN111241365B (zh) * | 2019-12-23 | 2023-06-30 | 望海康信(北京)科技股份公司 | 表格图片解析方法及系统 |
CN113625884A (zh) * | 2020-05-07 | 2021-11-09 | 顺丰科技有限公司 | 一种输入词推荐方法、装置、服务器及存储介质 |
CN111582169B (zh) * | 2020-05-08 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN111897958B (zh) * | 2020-07-16 | 2024-03-12 | 邓桦 | 基于自然语言处理的古诗词分类方法 |
CN111860657A (zh) * | 2020-07-23 | 2020-10-30 | 中国建设银行股份有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN112347765B (zh) * | 2020-10-10 | 2022-06-07 | 清华大学 | 基于词典匹配的实体标注方法、模块及装置 |
CN112667831B (zh) * | 2020-12-25 | 2022-08-05 | 上海硬通网络科技有限公司 | 素材存储方法、装置及电子设备 |
CN112560791B (zh) * | 2020-12-28 | 2022-08-09 | 苏州科达科技股份有限公司 | 识别模型的训练方法、识别方法、装置及电子设备 |
CN112949446B (zh) * | 2021-02-25 | 2023-04-18 | 山东英信计算机技术有限公司 | 一种物体识别方法、装置、设备及介质 |
CN113408270B (zh) * | 2021-06-10 | 2023-02-10 | 广州三七极创网络科技有限公司 | 变体文本的识别方法、装置及电子设备 |
CN113420564B (zh) * | 2021-06-21 | 2022-11-22 | 国网山东省电力公司物资公司 | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
CN113743102B (zh) * | 2021-08-18 | 2023-09-01 | 百度在线网络技术(北京)有限公司 | 识别字符的方法、装置以及电子设备 |
CN113761913B (zh) * | 2021-08-23 | 2024-02-23 | 南京优飞保科信息技术有限公司 | 一种话术文本的处理方法和系统 |
CN114386407B (zh) * | 2021-12-23 | 2023-04-11 | 北京金堤科技有限公司 | 文本的分词方法及装置 |
CN113988068B (zh) * | 2021-12-29 | 2022-04-15 | 深圳前海硬之城信息技术有限公司 | Bom文本的分词方法、装置、设备及存储介质 |
CN116580402B (zh) * | 2023-05-26 | 2024-06-25 | 读书郎教育科技有限公司 | 一种词典笔的文本识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN102402576A (zh) * | 2010-09-14 | 2012-04-04 | 株式会社理光 | 信息处理设备、信息处理方法及计算机程序产品 |
CN104991889A (zh) * | 2015-06-26 | 2015-10-21 | 江苏科技大学 | 一种基于模糊分词的非多字词错误自动校对方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068994B (zh) * | 2015-08-13 | 2018-04-17 | 易保互联医疗信息科技(北京)有限公司 | 一种药品信息的自然语言处理方法及系统 |
CN107622044A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 字符串的分词方法、装置及设备 |
CN108304484A (zh) * | 2017-12-29 | 2018-07-20 | 北京城市网邻信息技术有限公司 | 关键词匹配方法及装置、电子设备和可读存储介质 |
-
2018
- 2018-10-25 CN CN201811254944.6A patent/CN109657738B/zh active Active
- 2018-12-21 WO PCT/CN2018/122832 patent/WO2020082562A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN102402576A (zh) * | 2010-09-14 | 2012-04-04 | 株式会社理光 | 信息处理设备、信息处理方法及计算机程序产品 |
CN104991889A (zh) * | 2015-06-26 | 2015-10-21 | 江苏科技大学 | 一种基于模糊分词的非多字词错误自动校对方法 |
Non-Patent Citations (1)
Title |
---|
基于模板匹配算法的字符识别研究;顾晨勤 等;通信技术(第03期);第220-222页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109657738A (zh) | 2019-04-19 |
WO2020082562A1 (zh) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657738B (zh) | 字符识别方法、装置、设备及存储介质 | |
KR100339446B1 (ko) | 주소 인식 장치 및 주소 인식 방법 | |
EP1516264B1 (en) | Image retrieval by generating a descriptor for each spot of an image the cells of which having visual characteristics within a selected tolerance | |
CN109784146B (zh) | 一种字体种类识别方法、电子设备、存储介质 | |
CN107688789B (zh) | 文档图表抽取方法、电子设备及计算机可读存储介质 | |
US7668814B2 (en) | Document management system | |
CN110197238B (zh) | 一种字体类别的识别方法、系统及终端设备 | |
CN111563495A (zh) | 一种图像中字符的识别方法、装置及电子设备 | |
CN104915664B (zh) | 联系对象标识获取方法和装置 | |
JP2010217996A (ja) | 文字認識装置、文字認識プログラム、および文字認識方法 | |
KR20100099154A (ko) | 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법 | |
JP4077919B2 (ja) | 画像処理方法及び装置及びその記憶媒体 | |
US6535652B2 (en) | Image retrieval apparatus and method, and computer-readable memory therefor | |
CN112364857B (zh) | 基于数值抽取的图像识别方法、装置及存储介质 | |
CN110363092B (zh) | 柱状图识别方法、装置、设备及计算机可读存储介质 | |
US20010043742A1 (en) | Communication document detector | |
US7095891B1 (en) | Pattern segmentation apparatus and pattern recognition apparatus | |
US7920742B2 (en) | Image processing apparatus, program and recording medium for document registration | |
JP2002342343A (ja) | 文書管理システム | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
CN110807322A (zh) | 基于信息熵识别新词的方法、装置、服务器及存储介质 | |
CN112084979A (zh) | 食品成分识别方法、装置、设备及存储介质 | |
CN112347831A (zh) | 信息处理装置以及表识别方法 | |
CN114202761B (zh) | 一种基于图片信息聚类的信息批量提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |