CN106611174A - 一种非常见字体的ocr识别方法 - Google Patents

一种非常见字体的ocr识别方法 Download PDF

Info

Publication number
CN106611174A
CN106611174A CN201611250737.4A CN201611250737A CN106611174A CN 106611174 A CN106611174 A CN 106611174A CN 201611250737 A CN201611250737 A CN 201611250737A CN 106611174 A CN106611174 A CN 106611174A
Authority
CN
China
Prior art keywords
pictures
sub
character
cutting
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611250737.4A
Other languages
English (en)
Inventor
景亮
刘世林
康青杨
唐涔轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201611250737.4A priority Critical patent/CN106611174A/zh
Publication of CN106611174A publication Critical patent/CN106611174A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及图像识别处理领域,特别涉及一种非常见字体的OCR识别方法;根据需要识别的图像文字仅需构造少量的特征模板,基于投影法实现字符的切分,在字符切分的基础上结合特征模板,进行识别,无反复训练模型;就可以实现各种特殊字体文字图像的较好的识别效果。本发明方法针对OCR识别的主要困难:字符切分,采用了一套独特的切分方法:使用相应的规则条件,逐级的来判断切分后的子图片的切分质量,并对切分后的子图片进行相应的处理,层层筛选和处理的方式,保证子图片的切分质量,为识别准备了条件;在切分的基础上结合针对性的特征模板,进行识别。本发明方法对于识别任务的图像文字的针对性很强,因而能够达到更好的识别效果。

Description

一种非常见字体的OCR识别方法
技术领域
本发明图像识别领域,特别涉及一种非常见字体的OCR识别方法。
背景技术
随着社会的发展和科技的进步,人类创造的知识正以指数级的数量增加,在电子书籍出现之前,大部分的知识是以图书的方式进行传承,中华上下五千年,产生了大量优秀书籍,这些书籍在历史的长河中,或多或少都遭到了不同程度的损坏,因此对这些书籍进行数字化存储迫在眉睫;在图书管理领域,书籍内容的快速搜索对于快速定位书籍很有帮助,而由于书籍数量太多,加上早期印刷的图书没有作者的电子文稿,因此纸质书籍的电子化很有必要。
光学字符识别软件就是处理这种纸质图书到电子文档转化的利器,其主要利用大量的字符样本,经过复杂网络的学习,生成相应的模型文件,从而达到识别图片中字符的目的。
光学字符识别软件主要功能是识别拍摄、扫描图片中的字符,现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影法找到两个文字之间的分界线,根据分界线将文字切分开来。然而当图像中的文字之间具有粘连,且图像中包含左右结构的汉字时,简单的投影方法就很难实现较好的切分效果;正是因为这个原因使得切分一直是OCR识别的难点,切分的质量将直接影响到文字的识别效果。
此外光学字符识别软件主要功能是识别拍摄、扫描图片中的字符,对于一些特殊字体的扫描件,公章,拍照,比如早期印刷的书籍,政府单位制作的证件等,由于历史原因以及保密与安全需要,其字体往往是特制的,现有的光学字符识别软件主要集中于机器学习的方法,模型运算量大,而且由于训练字体样本没有覆盖到特殊字体,导致特殊字体的识别准确率不高,严重影响纸质文档的电子化。
现有技术大多采用神经网络机器学习算法对字符进行识别,需要制作大量的样本,耗费大量的时间进行训练,且生成的模型文件非常庞大,且对于不同字体的字符,识别率不尽相同,对于某些特殊字体字符,识别率比较低,很难满足一些特殊场景下的字符识别。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种非常见字体的OCR识别方法,在对待识别图像文字进行有效切分的基础上,结合针对性的字符特征模板实现特殊字体准确识别。
为了实现上述发明目的,本发明提供了以下技术方案:一种非常见字体的OCR识别方法,包含以下实现步骤:
(1)根据待识别图像文字的字体,制作出对应的字符特征模板;
(2)对待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片;
(3)对切分后形成的子图片中的字符进行特征模板匹配,进而实现字符内容的识别。
具体的,所述步骤(1)包含以下实现步骤:
(1-1)对待识别图像文字进行行、列垂直投影,将其中的数字、字母和标点字符首先切分出来,形成对应的子图片;
(1-2)在每个数字、字母和标点对应的子图片中选择一张子图片,将子图中的字符,分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片,并对制成的特征图片进行对应的标注;
(1-3)根据待识别图像选择对应字体,生成样本图片;对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片;并对制成的特征图片进行对应的标注。
进一步的,所述步骤(2)中,使用投影法对数字、字母和标点以外的文字字符图片进行切分。
进一步的,文字字符图片的切分包含以下实现过程:
使用投影法找出文字字符图片的初始切分位置,根据初始切分位置将待识别图像片切分成初始子图片序列;
对序列中的初始子图片使用如下规则进行处理:
A、使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
B、对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
重复执行步骤B,直到序列中未标记的子图片均满足条件:L≤M*h;
C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
D、对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
进一步的,0.9≤M≤1.3。
作为一种优选:M=1.2。
进一步的,(3-1)提取数字、字母和标点的子图片的对应直方图特征与所述步骤(1-2)中所建立的数字、字母和标点的特征模板的直方图特征进行比对;得到对应的识别结果;
(3-2)提取切分好后的文字字符子图片的对应直方图特征与所述步骤(1-3)中所建立的文字字符的特征图片的直方图特征进行比对,识别出对应子图片对应的文字。
进一步的,所述步骤(3-1)和,或(3-2)中采用K近邻算法找出与待识别字符距离最小的前K个样本特征模板,统计出现次数最多样本模板,其对应的字符标签即为字符的识别结果。
进一步的,K=9。
与现有技术相比,本发明的有益效果:本发明提供一种非常见字体的OCR识别方法,根据需要识别的图像文字仅需构造少量的特征模板,无反复训练模型;就可以实现各种特殊字体文字图像的较好的识别效果;本发明方法对于识别任务的图像文字的针对性很强,因而能够达到更好的识别效果;并且,本发明方法针对OCR识别的主要困难:字符切分,采用了一套独特的切分方法:使用相应的规则条件,逐级的来判断切分后的子图片的切分质量,并对切分后的子图片进行相应的处理,层层筛选和处理的方式,保证子图片的切分质量;为最终的识别率,进一步准备了条件。
此外相比于传统的切分方法,本发明方法在幅值的基础上引入了修正值,将切分位置与字符边缘的距离作为了确定切分点的考虑因素,因此具有更高的准确性,而且当遇到特殊结构字符时出现多个较小值,或者极值点时,通过本公式可以快速的找出最优化的切分点,增加了切分的准确性,提高了切分的效率;对粘连字符的切分效果更好。
附图说明:
图1为本一种非常见字体的OCR识别方法的实现步骤图。
图2为本发明方法步骤(1)的实现过程图。
图3为数字模板的制作示意图。
图4为文字模板的制作示意图。
图5粘连文字图像样例图。
图6为修正值g(x)的分布示意图。
图7为图5中字符的幅值分布示意图。
图8为实施例1中待识别图片的样例。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明方法提供一种非常见字体的OCR识别方法,包含如图1所示的以下实现步骤:
(1)根据待识别图像文字的字体,制作出对应的字符特征模板;
(2)对待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片;
(3)对切分后形成的子图片中的字符进行特征模板匹配,进而实现字符内容的识别。本发明方法根据待识别图像文字的字体,构造对应特征模板,具有更强的针对性,对于生僻字体的文字图像同样适用。
具体的,所述步骤(1)包含如图2所示的以下实现步骤:
(1-1)对待识别图像文字进行行、列垂直投影,将其中的数字、字母和标点字符切分出来,形成对应的子图片;由于数字,字母和标点相对于普通的文字字符来说具有明显的特征,比如说投影的宽度较窄(比如设置为<0.4h),投影的面积较小(0.5h*0.8h),切割后形成的相邻子图片之间的距离明显大于普通字符图片的距离等,利用上述特征,可以首先将属于数字、字母和标点的子图片切分出来。
(1-2)在每个数字、字母和标点对应的子图片中选择一张子图片,将子图中的字符,分别向上、下、左、右、左上、左下、右上和右下移动设定距离l(距离l的设置范围根据实际应用的情况而设定),如图3所示,制成对应的特征图片,并对制成的特征图片进行对应的标注。
(1-3)选取接近待识别图像文字的字体,生成样本图片;对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片;并对制成的特征图片进行对应的标注。将模板中的字符分别移动设定的距离,超过子图片框范围的字符部分将被切除,向上述方向移动设局距离后形成的图片和原图片一起构成了同一字符的9张不同切分情形的参考样本图片如图4所示,这与实际操作中字符图片切分可能不规则,不完美的情况相对应,因此基于本方法形成的特征模板来实现的字符识别,具有更好的容错性。
进一步的,所述步骤(2)中,使用投影法对数字、字母和标点以外的文字字符图片进行切分。投影法实现的图像文字切分技术成熟,操作简单。
进一步的,文字字符图片的切分包含以下实现过程:
使用投影法找出文字字符图片的初始切分位置,根据初始切分位置将待识别图像片切分成初始子图片序列;
对序列中的初始子图片使用如下规则进行处理:
A、使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
B、对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
重复执行步骤B,直到序列中未标记的子图片均满足条件:L≤M*h。
式中f(x)为幅值,x为列投影点在行方向上的坐标,h为当前字符的行高,g(x)为修正值,g(x)的值的分布如图6所示,t(x)为行投影值,两者共同决定投影点的幅值,当幅值最小时,即为两个字符之间的切割点;经过g(x)的修正所找到最小幅值点作为切分点,相比于简单的最小行投影值,本方法方法中所寻找的切分点,引入了切分点位置与字符边缘距离的考量因素,因此具有更高的准确性,而且当遇到特殊结构字符时出现多个较小值(本样例中的幅值分布如图7所示),或者极值点时,通过本公式可以快速的找出最优化的切分点,增加了切分的准确性,提高了切分的效率。
C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
D、对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并:
将第二中间子图片和第三子图片合并。
在某些情况下:连续的两个左右结构的字符图片,中间具有粘连,那么在利用投影法进行切分时,可能将前后字符中间的部首切开,但是对于两个字符之间粘连的部首识别不了,而当成一个字符切分出来的情况;本发明方法对于这种情况有较好的处理效果,对于粘连的中间部分通过上述公式寻找到最佳的切分点,并将切分后的前后字符的部首进行重新的整合,达到了较好的切分效果。
上述规则依序循环使用,经过不断的迭代,最终形成了仅包含单个字符的子图片,良好的切分效果为图像文字识别准备了条件。
进一步的,0.9≤M≤1.3。子图片宽度阈值的设置在本范围内,均能实现较好的切分和识别效果。
作为一种优选:M=1.2。经过实验反复验证,将M设置为1.2时,能够实现较好的切分效果。
进一步的,(3-1)提取数字、字母和标点的子图片的对应直方图特征与所述步骤(1-2)中所建立的数字、字母和标点的特征模板的直方图特征进行比对;得到对应的识别结果;
(3-2)提取切分好后的文字字符子图片的对应直方图特征与所述步骤(1-3)中所建立的文字字符的特征图片的直方图特征进行比对,识别出对应子图片对应的文字。
进一步的,所述步骤(3-1)和,或(3-2)中采用K近邻算法找出与待识别字符距离最小的前K个样本特征模板,统计出现次数最多样本模板,其对应的字符标签即为字符的识别结果。KNN分类算法是数据挖掘分类技术中最简单的方法之一,使用简单方便。
进一步的,K=9。与同一字符对应的9件特征模板对应。
实施例1
如图所示8,对图像中的文字进行识别时,经过观察,认为该图像中的文字与微软雅黑的字体较为接近,将图像文字进行二值化处理后,经过行投影,将图像中的文字行切分出来,对每一行文字图像进行列投影,找出初始切分点,根据初始切分对文字图片进行初步的切分,形成子图片,使用以下规则将其中的数字、字母和标点字符抽取出来,规则可以选择为:子图片的宽度L<0.4h行高,将数字、字母和标点的子图片判断出来之后,对于同一个数字、字母和标点只选取其中的一张子图片进行模板的制备(图片的选择可以人工进行挑选,数字:0、1、2、3、4、5、6、7、8、9共计:10个,字母大小写共26*2=52个,标点根据识别情况而定;数字、字母和标点的数量相比于庞大的汉字来说很少,少量的人工挑选不会影响识别的效率)。在选择的数字子图片的图片框范围内,将其中的字符向各个方向(比如:向上、下、左、右、左上、左下、右上和右下移)移动设定的像素,制成对应的模板。
在此基础上,对数字、字母和标点以外的文字字符子图片进行判断和处理,判断过程如下:将满足条件:A、宽度L≤1.2h的子图片提取出来;B、对于L>1.2h的子图片,使用以下公式来进行切分点的判断:
f(x)=g(x)t(x)
如图5所示的子图片,经过投影后像素的幅值分布为图7所示,可以发现当x点与行高h相距为0时,其修正值g(x)最小,为0.5,当x与h相距越大,修正越大,由于本文假设字符的宽度与行高相当,因此可以理解为字符投影点越靠近该字符所处的宽度处时,其修正值越小,这样可以避免幅值出现多个极值点。本子图片中字符的幅值在x=19和20处出现极小值,该子图片字符的行高为19,经g(x)的修正,可以得出f(19)=0.5000,f(20)=0.5025;x=19时f(x)的值最小,x=19确定为切分点,并根据该切分点,将子图片字符切分出来。
在上述处理的基础上,对于切分满足规则C的子图片,进行合并。
在上述处理的基础上,对于满足规则D的子图片,根据规则D进行处理。
上述A、B、C、D规则循环使用,没有子图片能被切分或者合并时,停止切分。
本实施例中采用微软雅黑字体,来生成对应的特征模板,利用3501个常用字符生成汉字图片样本(每个样本按照向上、下、左、右、左上、左下、右上和右下移动1-2个像素,如图所示),制成对应的特征图片;并进行对应的标注;
提取汉字样本的HOG(梯度方向直方图)特征制作样本特征模板,提取每一个待识别的汉字字符的HOG特征,利用K近邻算法找出与待识别字符距离最小的前K个(本文k=9)样本特征模板,统计出现次数最多样本模板,其对应的汉字标签即为汉字识别结果。
经过上述过程,针对图片的识别结果如下:
“海口********客栈_违反税收管理
处罚名称:海口********客栈-违辰税收管理
行政处罚决定书文号:海口地税美兰区局罚(2015]80041号
处罚事由:未按照规定期限申报办理税务登记
处罚依据:《中华人民共和国税收征收管理法》第六十条第一款第(一)项
处罚类别1:其他(见处罚类别2)
处罚类别2:罚款
行政相对人名称:海口********客横
统一社会信用代码:
组织机构代码:
工商登记码:
税务登记号:46002619********22802
居民身份证号:460026********4228
法定代表人姓名:王**
处罚结果:罚款100元
处罚决定日期:2015/11/12
处罚机关:海口市地方税务局美兰区地方税务局
处罚状态:正常
地方编码:460100
数据更新时间戳:2016/06/05
备注:”
经过验证,本发明方法实现的OCR识别具有较高的准确率,本发明只需要收集特殊字体的有限张图片,提取出其中的数字样本(数字、字母、标点符号),同时生成与待识别字体相似的常见汉字样本,对数字、字母、标点符号采用模板匹配进行识别,准确率非常高,对汉字字符采用HOG特征的K近邻进行识别,经过测试部门的测试,抽样120张图片,成功解析119张,其中,总字数42999(包括标点符号),错误字符数680处,错误率:1.58%,即识别的准确率达到98.42%;另外,针对120张抽样图片,每100字耗时1.81439秒,平均每个图片字数在370个字左右,平均每张图片耗时6.75秒。

Claims (9)

1.一种非常见字体的OCR识别方法,其特征在于,包含以下实现步骤:
(1)根据待识别图像文字的字体,制作出对应的字符特征模板;
(2)对待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片;
(3)对切分后形成的子图片中的字符进行特征模板匹配,进而实现字符内容的识别。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)包含以下实现步骤:
(1-1)对待识别图像文字进行行、列垂直投影,将其中的数字、字母和标点字符切分出来,形成对应的子图片;
(1-2)在每个数字、字母和标点对应的子图片中选择一张子图片,将子图中的字符,分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片,并对制成的特征图片进行对应的标注;
(1-3)根据待识别图像选择对应字体,生成样本图片;对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片;并对制成的特征图片进行对应的标注。
3.如权利要求2所述的方法,其特征在于,所述步骤(2)使用投影法对数字、字母和标点以外的文字字符图片进行切分。
4.如权利要求3所述的方法,其特征在于,文字字符图片的切分包含以下实现过程:
A、使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
B、对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
g ( x ) = 1 1 + e - 0.01 | x - h |
重复执行步骤B,直到序列中未标记的子图片均满足条件:L≤M*h;
C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
D、对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
g ( x ) = 1 1 + e - 0.01 | x - 0.5 h |
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
5.如权利要求4所述的方法,其特征在于,0.9≤M≤1.3。
6.如权利要求5所述的方法,其特征在于,M=1.2。
7.如权利要求6所述的方法,其特征在于,所述步骤(3)包含以下实现步骤:
(3-1)提取数字、字母和标点的子图片的对应直方图特征与所述步骤(1-2)中所建立的数字、字母和标点的图片的直方图特征进行比对;得到对应的识别结果;
(3-2)提取切分好后的文字字符子图片的对应直方图特征与所述步骤(1-3)中所建立的文字字符的特征图片的直方图特征进行比对,识别出对应子图片对应的文字。
8.如权利要求7所述的方法,其特征在于,所述步骤(3-1)和,或(3-2)中采用K近邻算法找出与待识别字符距离最小的前K个样本特征模板,统计出现次数最多样本模板,其对应的字符标签即为字符的识别结果。
9.如权利要求8所述的方法,其特征在于,K=9。
CN201611250737.4A 2016-12-29 2016-12-29 一种非常见字体的ocr识别方法 Pending CN106611174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611250737.4A CN106611174A (zh) 2016-12-29 2016-12-29 一种非常见字体的ocr识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611250737.4A CN106611174A (zh) 2016-12-29 2016-12-29 一种非常见字体的ocr识别方法

Publications (1)

Publication Number Publication Date
CN106611174A true CN106611174A (zh) 2017-05-03

Family

ID=58636459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611250737.4A Pending CN106611174A (zh) 2016-12-29 2016-12-29 一种非常见字体的ocr识别方法

Country Status (1)

Country Link
CN (1) CN106611174A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596180A (zh) * 2018-04-09 2018-09-28 深圳市腾讯网络信息技术有限公司 图像中的参数识别、参数识别模型的训练方法及装置
CN109447055A (zh) * 2018-10-17 2019-03-08 甘肃万维信息技术有限责任公司 一种基于ocr字形相近文字识别方法
CN109711396A (zh) * 2018-11-12 2019-05-03 平安科技(深圳)有限公司 Ocr训练样本的生成方法、装置、设备及可读存储介质
CN110135431A (zh) * 2019-05-16 2019-08-16 深圳市信联征信有限公司 营业执照的自动识别方法及系统
CN110298353A (zh) * 2019-07-03 2019-10-01 中国农业银行股份有限公司 一种字符识别方法及系统
CN110533030A (zh) * 2019-08-19 2019-12-03 三峡大学 基于深度学习的太阳胶片图像时间戳信息提取方法
CN110909743A (zh) * 2019-11-25 2020-03-24 章志亮 图书盘点方法及图书盘点系统
CN111582262A (zh) * 2020-05-07 2020-08-25 京源中科科技股份有限公司 段式液晶图片内容识别方法、装置、设备和存储介质
CN111985500A (zh) * 2020-07-28 2020-11-24 国网山东省电力公司禹城市供电公司 一种继电保护定值输入的校核方法、系统及装置
CN113496227A (zh) * 2020-04-08 2021-10-12 顺丰科技有限公司 一种字符识别模型的训练方法、装置、服务器及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916942A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种基于字体预测的字符识别方法
CN101286202A (zh) * 2008-05-23 2008-10-15 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN102750534A (zh) * 2012-06-26 2012-10-24 北京文通科技有限公司 一种字符切分的方法和装置
CN103020621A (zh) * 2012-12-25 2013-04-03 深圳深讯和科技有限公司 中英文混排文字图像的切割方法及装置
CN103258196A (zh) * 2013-05-30 2013-08-21 电子科技大学 复杂环境中紧连字符串的字符分离方法
CN104217204A (zh) * 2014-09-19 2014-12-17 中国科学技术大学 一种针对疏密不均的号码图像识别的方法及系统
CN104751194A (zh) * 2015-04-27 2015-07-01 陈包容 一种财务费用报销的处理方法及装置
WO2015183015A1 (ko) * 2014-05-30 2015-12-03 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916942A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种基于字体预测的字符识别方法
CN101286202A (zh) * 2008-05-23 2008-10-15 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN102750534A (zh) * 2012-06-26 2012-10-24 北京文通科技有限公司 一种字符切分的方法和装置
CN103020621A (zh) * 2012-12-25 2013-04-03 深圳深讯和科技有限公司 中英文混排文字图像的切割方法及装置
CN103258196A (zh) * 2013-05-30 2013-08-21 电子科技大学 复杂环境中紧连字符串的字符分离方法
WO2015183015A1 (ko) * 2014-05-30 2015-12-03 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치
CN104217204A (zh) * 2014-09-19 2014-12-17 中国科学技术大学 一种针对疏密不均的号码图像识别的方法及系统
CN104751194A (zh) * 2015-04-27 2015-07-01 陈包容 一种财务费用报销的处理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
STEPHAN KOPF 等: "Robust Character Recognition in Low-Resolution Images and Videos", 《MADOC.BIB.UNI》 *
刘排排: "空中手写字符串识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
徐雷 等: "基于明暗度分类和改进二分类的车牌字符分割", 《山东科学》 *
李方翔: "视频文字提取技术研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
钟辉 等: "一种基于数据分析的字符切分方法", 《沈阳建筑大学学报(自然科学版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596180A (zh) * 2018-04-09 2018-09-28 深圳市腾讯网络信息技术有限公司 图像中的参数识别、参数识别模型的训练方法及装置
CN109447055A (zh) * 2018-10-17 2019-03-08 甘肃万维信息技术有限责任公司 一种基于ocr字形相近文字识别方法
CN109447055B (zh) * 2018-10-17 2022-05-03 中电万维信息技术有限责任公司 一种基于ocr字形相近文字识别方法
CN109711396A (zh) * 2018-11-12 2019-05-03 平安科技(深圳)有限公司 Ocr训练样本的生成方法、装置、设备及可读存储介质
CN110135431A (zh) * 2019-05-16 2019-08-16 深圳市信联征信有限公司 营业执照的自动识别方法及系统
CN110298353B (zh) * 2019-07-03 2021-06-25 中国农业银行股份有限公司 一种字符识别方法及系统
CN110298353A (zh) * 2019-07-03 2019-10-01 中国农业银行股份有限公司 一种字符识别方法及系统
CN110533030A (zh) * 2019-08-19 2019-12-03 三峡大学 基于深度学习的太阳胶片图像时间戳信息提取方法
CN110533030B (zh) * 2019-08-19 2023-07-14 三峡大学 基于深度学习的太阳胶片图像时间戳信息提取方法
CN110909743A (zh) * 2019-11-25 2020-03-24 章志亮 图书盘点方法及图书盘点系统
CN110909743B (zh) * 2019-11-25 2023-08-11 章志亮 图书盘点方法及图书盘点系统
CN113496227A (zh) * 2020-04-08 2021-10-12 顺丰科技有限公司 一种字符识别模型的训练方法、装置、服务器及存储介质
CN111582262A (zh) * 2020-05-07 2020-08-25 京源中科科技股份有限公司 段式液晶图片内容识别方法、装置、设备和存储介质
CN111985500A (zh) * 2020-07-28 2020-11-24 国网山东省电力公司禹城市供电公司 一种继电保护定值输入的校核方法、系统及装置
CN111985500B (zh) * 2020-07-28 2024-03-29 国网山东省电力公司禹城市供电公司 一种继电保护定值输入的校核方法、系统及装置

Similar Documents

Publication Publication Date Title
CN106611174A (zh) 一种非常见字体的ocr识别方法
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
CN1127380C (zh) 识别邮件分配信息的方法和装置
Afroge et al. Optical character recognition using back propagation neural network
CN106682698A (zh) 基于模板匹配的ocr识别方法
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
CN105447522A (zh) 一种复杂图像文字识别系统
CN106682671A (zh) 图像文字识别系统
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN103455823B (zh) 一种基于分类模糊及图像分割的英文字符识别方法
CN105512611A (zh) 一种表格图像检测识别方法
CN106682667A (zh) 非常见字体的图像文字ocr识别系统
Patel et al. Gujarati handwritten character recognition using hybrid method based on binary tree-classifier and k-nearest neighbour
Sahu et al. An efficient handwritten Devnagari character recognition system using neural network
CN107463866A (zh) 一种用于成绩评价的识别手写实验报告的方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN108052955B (zh) 一种高精度盲文识别方法及系统
CN109685061A (zh) 适用于结构化的数学公式的识别方法
Mozaffari et al. IfN/Farsi-Database: a database of Farsi handwritten city names
Boiangiu et al. Voting-based layout analysis
CN106682666A (zh) 用于非常见字体ocr识别的特征模板制备方法
CN106778759A (zh) 用于图像文字识别的特征图片自动生成系统
CN105938547A (zh) 一种纸质水文年鉴数字化方法
CN107958261B (zh) 一种盲文点检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503