CN109034166A - 易混淆字符识别模型训练方法和装置 - Google Patents
易混淆字符识别模型训练方法和装置 Download PDFInfo
- Publication number
- CN109034166A CN109034166A CN201710427954.4A CN201710427954A CN109034166A CN 109034166 A CN109034166 A CN 109034166A CN 201710427954 A CN201710427954 A CN 201710427954A CN 109034166 A CN109034166 A CN 109034166A
- Authority
- CN
- China
- Prior art keywords
- character
- feature
- training
- curvature
- confusable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种易混淆字符识别模型训练方法和装置,其中,该方法包括:获取目标易混淆字符的训练样本,将训练样本增加至训练集中;对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征;获取所述训练集中各个训练样本的深度特征、曲度特征和直线特征;根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型。本发明解决了现有的字符识别模型所存在的易混淆字符难以识别的技术问题,达到了准确有效识别易混淆字符的技术效果。
Description
技术领域
本发明涉及机器识别技术领域,特别涉及一种易混淆字符识别模型训练方法和装置。
背景技术
目前,在字符识别领域已经得到了很大的发展。但是,因为有些字符较为相似,例如,在车牌中,2和Z是相似的,经常会被混淆。如果实现对易混淆字符的识别,目前尚未提出有效的解决方式。
对于这些易于混淆的字符,如果无法有效进行区分识别,往往会导致最终的识别结果出现错误。
针对该问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种易混淆字符识别模型训练方法,以使得训练得到的易混淆字符识别模型对易混淆字符的准确区分的技术效果,该方法包括:
获取目标易混淆字符的训练样本,将训练样本增加至训练集中;
对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征;
获取所述训练集中各个训练样本的深度特征、曲度特征和直线特征;
根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型。
在一个实施方式中,在对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征之前,所述方法还包括:
对所述训练集中的各个训练样本中字符,计算字符的外接矩形。
在一个实施方式中,易混淆字符包括以下一对或多对:0、D和Q,8和B,2和Z,5和S。
在一个实施方式中,在所述易混淆字符为0、D和Q的情况下,对所述训练集中的各个训练样本进行网格划分,包括,将训练样本中的字符平分为16个网格块;
在所述易混淆字符为8和B,2和Z,或者,5和S情况下,对所述训练集中的各个训练样本进行网格划分,包括,将训练样本中的字符平分为9个网格块。
在一个实施方式中,在所述易混淆字符为0、D和Q的情况下,深度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的深度值;曲度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为8和B的情况下,深度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的深度值;曲度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为2和Z的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到五分之四处的直线长度;
在所述易混淆字符为5和S的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到右端处的直线长度和从字符顶端算起,0处到二分之一处,从左向右,从0到四分之一处的直线长度。
在一个实施方式中,在根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型的过程中,对于网格特征、深度特征、曲度特征和直线特征中的每个特征设置两个阈值,在大于所述两个阈值中较大阈值的情况下,作为一类,在小于所述两个阈值中较小阈值的情况下,作为另一类,在位于所述两个阈值之间的情况下,采用下一个特征进行训练。
在一个实施方式中,在根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型的过程中,逐步缩小阈值进行,将识别正确率最高时的易混淆字符识别模型对应的阈值作为训练结果。
本发明实施例还提供了一种易混淆字符识别模型训练装置,以使得训练得到的易混淆字符识别模型对易混淆字符的准确区分的技术效果,该装置包括:
获取模块,用于获取目标易混淆字符的训练样本,将训练样本增加至训练集中;
划分模块,用于对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征;
获取模块,用于获取所述训练集中各个训练样本的深度特征、曲度特征和直线特征;
训练模块,用于根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型。
在一个实施方式中,在所述易混淆字符为0、D和Q的情况下,深度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的深度值;曲度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为8和B的情况下,深度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的深度值;曲度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为2和Z的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到五分之四处的直线长度;
在所述易混淆字符为5和S的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到右端处的直线长度和从字符顶端算起,0处到二分之一处,从左向右,从0到四分之一处的直线长度。
在一个实施方式中,所述训练模块具体用于对网格特征、深度特征、曲度特征和直线特征中的每个特征设置两个阈值,在大于所述两个阈值中较大阈值的情况下,作为一类,在小于所述两个阈值中较小阈值的情况下,作为另一类,在位于所述两个阈值之间的情况下,采用下一个特征进行训练。
在本发明实施例中,提供了一种易混淆字符识别模型训练方法和装置,通过对训练样本进行网格划分,并提取网格特征,最终基于网格特征、深度特征、曲度特征和直线特征等,采用多阈值训练方式,得到最终的易混淆字符识别模型,从而解决了现有的字符识别模型所存在的易混淆字符难以识别的技术问题,达到了准确有效识别易混淆字符的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是根据本发明实施例的易混淆字符识别模型训练方法的方法流程图;
图2是根据本发明实施例的易混淆字符识别模型训练方法的具体实例流程图;
图3是根据本发明实施例的0,D,Q网格划分示意图;
图4是根据本发明实施例的8,B网格划分示意图;
图5是根据本发明实施例的2,Z网格划分示意图;
图6是根据本发明实施例的5,S网格划分示意图;
图7是根据本发明实施例的易混淆字符识别模型训练装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
为了更好地说明本申请,下面对本申请中涉及的一些名词解释如下:
1)易混淆字符,即,在模型识别过程中容易混淆的字符,例如:在车牌字符识别中容易混淆的字符:(0,D,Q),(8,B),(2,Z),(5,S);
2)阈值,判断两种类型的一个数值,大于这个数值就认为是第一类,小于这个数值就认为是第二类;
3)二值图,将图像转换为一张由像素值组成的图,其中,像素取值是0或255;
4)深度,指一段曲线(广义定义的曲线可以包括:直线,直线是一种特殊的曲线)两端端点连接的一条线段与这段曲线最远的一点的距离;
5)曲度,弯曲的程度,这里指一段曲线(广义定义的曲线可以包括:直线,直线是一种特殊的曲线)两端端点与中部最深一点组成三点的弯曲程度。如果是直线,曲度是0,如果是半圆,曲度是90度;
6)细化,指图像细化,一般指二值图像的骨架化的一种操作运算,即将原本“臃肿”的像素简化为单像素相连接的二值图像;
7)网格特征,一类图像中某个位置的矩形像素总和与其它类中该位置的该大小矩形像素总和不同,该特点成为网格特征;
8)字符外接矩形,其中,字符是二值化的字符,外接矩形是指字符实际外接最小矩形;
9)ANN字符识别器,是一种字符分类的识别器,使用该方法将目标字符(未知)给出是哪个字符和该字符的得分。
考虑到对于易混淆字符而言,字符之间会存在某些区域是不同的,因此,可以进行网格划分,得到网格特征,并基于深度、曲度等特征进行识别模型训练,从而使得最终得到的易混淆字符识别模型的识别准确率较高,可以准确识别易混淆模型。
如图1所示,该易混淆字符识别模型训练方法,可以包括如下步骤:
步骤101:获取目标易混淆字符的训练样本,将训练样本增加至训练集中;
步骤102:对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征;
步骤103:获取所述训练集中各个训练样本的深度特征、曲度特征和直线特征;
步骤104:根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型。
在一个实施方式中,为了实现待训练样本的网格特征的提取,可以先对训练集中的各个训练样本中字符,计算字符的外接矩形,基于外接矩形进行网格块划分。
上述易混淆字符可以包括但不限于以下一对或多对:0、D和Q,8和B,2和Z,5和S。
在实现的时候,在所述易混淆字符为0、D和Q的情况下,对所述训练集中的各个训练样本进行网格划分,可以包括,将训练样本中的字符平分为16个网格块;在所述易混淆字符为8和B,2和Z,或者,5和S情况下,对所述训练集中的各个训练样本进行网格划分,可以包括,将训练样本中的字符平分为9个网格块。
在进行特征提取的时候,在所述易混淆字符为0、D和Q的情况下,深度特征可以为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的深度值;曲度特征可以是从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的曲度值;直线长度特征可以是从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为8和B的情况下,深度特征可以是从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的深度值;曲度特征可以是从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的曲度值;直线长度特征可以是从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为2和Z的情况下,深度特征可以是从字符顶端向下算起,到五分之一处,从左向右,从0到五分之四处的深度值;曲度特征可以是从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的曲度值;直线长度特征可以是从字符顶端算起,0处到七分之一处,从左向右,从0到五分之四处的直线长度;
在所述易混淆字符为5和S的情况下,深度特征可以是从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的深度值;曲度特征可以是从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的曲度值;直线长度特征可以是从字符顶端算起,0处到七分之一处,从左向右,从0到右端处的直线长度和从字符顶端算起,0处到二分之一处,从左向右,从0到四分之一处的直线长度。
在上述步骤104中,可以对网格特征、深度特征、曲度特征和直线特征中的每个特征设置两个阈值,在大于所述两个阈值中较大阈值的情况下,作为一类,在小于所述两个阈值中较小阈值的情况下,作为另一类,在位于所述两个阈值之间的情况下,采用下一个特征进行训练。
在进行训练的过程中,可以逐步缩小阈值进行,将识别正确率最高时的易混淆字符识别模型对应的阈值作为训练结果。
下面结合一个具体实施例对上述易混淆字符识别模型训练方法进行说明,然而值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
发明人考虑到,这些字符虽然相对而言是相似的,但是存在某些区域的区别是比较大的,例如2和Z,右上角的差别就比较大。如果可以对待识别的对象进行切分,得到多个方块,然后确定区别较大的方块中的曲度、直线长度等,就可以实现对易混淆字符的准确识别。
在一个实施例中,可以使用ANN字符识别器识别易混淆的字符,将训练集进行初步过滤模式,再进行易混淆字符的识别。例如,对字符取外接矩形提取字符,再进行归一化处理,消除一个字符图片中实际字符很小的情况,消除网格特征位置的误差。然后,特征位置可以根据易混淆字符之间的区别进行设置,不同的易混淆字符之间所选用的网格特征,或者是方块划分也是不同的,从而有效识别易混淆字符。在实现的时候,比较阈值可以不使用手动设置,而是采用训练模式进行训练得到阈值,从而使得设置的阈值更为精准。同时,可以采用多阈值模式进行判断,以确定待区分的两类对象是否属于同一类,是否不易识别。进一步的,由于多阈值模式的存在,使用训练模式训练得到阈值,可以使得设置的阈值更为合理。在实现的时候,对于存在直线特征的字符,计算直线长度作为特征,对于存在弯曲特征的字符,提取其中的曲度,计算曲度大小,作为特征,同时计算其中的深度,作为另一个特征
基于本例提供的方式,可以按照如图2所示的步骤进行易混淆字符识别:
S1:样本的选择:
1)使用ANN字符识别器对训练集进行识别,其中,训练集中的字符分别可以是:(0,D,Q)、(8,B)、(2,Z)、(5,S)。
具体的,可以按照如下方式获取训练集:
首先,将0误识别为D或Q的字符、D误识别为0或Q的字符、Q误识别为D或0的字符和得分低于0.9的字符作为(0,D,Q)易混淆字符的训练集,将8误识别为B、B误识别8的字符和得分低于0.9的字符作为(8,B)易混淆字符的训练集,将2误识别为Z、Z误识别2和得分低于0.9的字符作为(2,Z)易混淆字符的训练集,将5误识别为S、S误识别5和得分低于0.9的字符作为(5,S)易混淆字符的训练集。
2)采用这种提取易混淆字符训练集可以有效避免重复性识别、提高识别正确率。其中,ANN字符识别器是作为第一级字符识别分类,将可能无法正确识别并错识别为易混淆字符传递到下一级进行分类,也就是易混淆字符识别处理中。
3)由于ANN字符识别器识别字符得分高于0.9分的字符正确识别程度达到99.9%,能够满足正常的识别要求,但低于0.9分的识别结果,容易出现易混淆字符之间的错误识别。
因此,可以从字符训练库中提取出小于0.9分的字符。易混淆字符处理是为了处理易混淆的字符。所以将易混淆字符从原训练库中提取出来,再放到各自在1)中提取的训练库中。
S2:特征的提取:
首先,对字符计算外接矩形,根据外接矩形提取字符。
1)(0,D,Q)特征的提取
网格特征:
如图3所示,将字符分成4*4块,取其中1和2块为一个整体作为一个特征矩阵1,1和5块为一个整体作为特征矩阵2,10和14块为一个整体作为一个特征矩阵3,14和15块为一个整体作为一个特征矩阵4,12、13、16、17为一个整体作为一个特征矩阵5。
计算每个特征矩阵的像素总和,作为该特征矩阵相应的特征值,从而得到特征1、特征2、特征3、特征4,特征5。
进一步的,还可以获取以下特征:
深度特征,在对细化处理后的字符计算字符中间部分的深度。可以从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处,将这部分细化字符的具体深度数值,作为特征6;
曲度特征,在对细化处理后的字符计算字符中间部分的曲度。可以从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处,将这部分细化字符的曲度具体数值,作为特征7;
直线长度特征,对字符细化,从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处,将这部分细化字符的直线长度,作为特征8;
ANN字符识别器,在易混淆字符无法判断时,最终判断结果以ANN字符识别器的识别结果为准。
2)(8,B)特征的提取:
网格特征:
如图4所示,将字符分成3*3块,取其中第1块作为特征矩阵1,第4块作为一个特征矩阵2,第7块为一个特征矩阵3。
计算每个特征矩阵的像素总和,作为该特征矩阵相应的特征值,从而得到特征1、特征2、特征3。
进一步的,还可以获取以下特征:
深度特征,在对细化处理后的字符计算字符中间部分的深度。可以从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处,将这部分细化字符的具体深度数值,作为特征4;
曲度特征,在对细化处理后的字符计算字符中间部分的曲度。可以从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处,将这部分细化字符的曲度具体数值,作为特征5;
直线长度特征,对字符细化,从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处,将这部分细化字符的直线长度,作为特征6;
ANN字符识别器,在易混淆字符无法判断时,最终判断结果以ANN字符识别器的识别结果为准。
3)(2,Z)特征的提取:
网格特征:
如图5所示,将字符分成3*3块,取其中第1块作为特征矩阵1,第3块作为一个特征矩阵2。
计算每个特征矩阵的像素总和,作为该特征矩阵相应的特征值,从而得到特征1、特征2。
进一步的,还可以获取以下特征:
深度特征,在对细化处理后的字符计算字符中间部分的深度。可以从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处,将这部分细化字符的具体深度数值,作为特征3;
曲度特征,在对细化处理后的字符计算字符中间部分的区度。可以从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处,将这部分细化字符的曲度具体数值作为特征4;
直线长度特征,对字符细化,从字符顶端算起,0处到七分之一处,从左向右,从0到五分之四处,将这部分细化字符的直线长度,作为特征5。
ANN字符识别器,在易混淆字符无法判断时,最终判断结果以ANN字符识别器的识别结果为准。
4)(5,S)特征的提取:
网格特征:
如图6所示,将字符分成3*3块,取其中第1块作为特征矩阵1。
计算该特征矩阵的像素总和,作为该特征矩阵相应的特征值,从而得到特征1。
进一步的,还可以获取以下特征:
深度特征,在对细化处理后的字符计算字符中间部分的深度。可以从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处,将这部分细化字符的具体深度数值,作为特征2;
曲度特征,在对细化处理后的字符计算字符中间部分的区度。可以从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处,将这部分细化字符的曲度具体数值作为特征3;
直线长度1特征,对字符细化,从字符顶端算起,0处到七分之一处,从左向右,从0到右端处,将这部分细化字符的直线长度作为特征4;
直线长度2特征,对字符细化,从字符顶端算起,0处到二分之一处,从左向右,从0到四分之一处,将这部分细化字符的直线长度作为特征5;
ANN字符识别器,在易混淆字符无法判断时,最终判断结果以ANN字符识别器的识别结果为准。
S3:多阈值的训练:
1)在训练(0,D,Q)易混淆字符的阈值时,首先,使用特征1、特征2、特征3、特征4,特征6、特征7、特征8进行区分0、Q(0、Q作为一类)与D,使用特征5区分0和Q。在0和Q之间,只有右下角一处有区别,所以仅使用这一个特征进行区别。在训练(8,B)、(2,Z)、(5,S)时,每个字符就是一类,一组易混淆字符有两类。
其中,每个特征可以使用两个阈值(阈值1和阈值2,其中,阈值1大于阈值2),大于阈值1时为一类,小于阈值2时为另一类。在阈值1与阈值2之间的情况下,使用下一个特征进行区分,该下一个特征也使用两个阈值(阈值3和阈值4,其中,阈值3大于阈值4),大于阈值3时为一类,小于阈值4时为另一类,在阈值3大于阈值4的情况下,以此类推。直至最后生成一个中间无法区分的阈值区域,将这个区域作为无法识别的区域。
2)阈值迭代的训练,其中,一组易混淆字符的几个阈值一起训练,从整体上实现其训练的效果。每个阈值,从大到小,开始按照一定步长,一次次减小,直到减小到最小。第一个阈值遍历后遍历最后一个。每次设置一个阈值,进行一次易混淆字符集的测试,将测试后易混淆字符分类正确率最高的作为最终结果,选择对应的阈值作为最终训练的结果。
在上例中,对于不同易混淆字符进行网格特征的提取、曲度和深度特征的提取、直线长度特征的提取,并采用多阈值训练的方式实现了易混淆字符识别模型的训练,解决现有的识别模型难以识别易混淆字符的问题,达到了训练出的识别模型可以实现对易混淆识别模型的准确识别。
基于同一发明构思,本发明实施例中还提供了一种易混淆字符识别模型训练装置,如下面的实施例所述。由于易混淆字符识别模型训练装置解决问题的原理与易混淆字符识别模型训练方法相似,因此易混淆字符识别模型训练装置的实施可以参见易混淆字符识别模型训练方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图7是本发明实施例的易混淆字符识别模型训练装置的一种结构框图,如图7所示可以包括:获取模块701、划分模块702、获取模块703和训练模块704,下面对该结构进行说明。
获取模块701,用于获取目标易混淆字符的训练样本,将训练样本增加至训练集中;
划分模块702,用于对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征;
获取模块703,用于获取所述训练集中各个训练样本的深度特征、曲度特征和直线特征;
训练模块704,用于根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型。
在一个实施方式中,在所述易混淆字符为0、D和Q的情况下,深度特征可以是从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的深度值;曲度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为8和B的情况下,深度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的深度值;曲度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为2和Z的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到五分之四处的直线长度;
在所述易混淆字符为5和S的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到右端处的直线长度和从字符顶端算起,0处到二分之一处,从左向右,从0到四分之一处的直线长度。
在一个实施方式中,上述训练模块704具体可以用于对网格特征、深度特征、曲度特征和直线特征中的每个特征设置两个阈值,在大于所述两个阈值中较大阈值的情况下,作为一类,在小于所述两个阈值中较小阈值的情况下,作为另一类,在位于所述两个阈值之间的情况下,采用下一个特征进行训练。
在另外一个实施例中,还提供了一种软件,该软件用于执行上述实施例及优选实施方式中描述的技术方案。
在另外一个实施例中,还提供了一种存储介质,该存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
从以上的描述中,可以看出,本发明实施例实现了如下技术效果:提供了一种易混淆字符识别模型训练方法和装置,通过对训练样本进行网格划分,并提取网格特征,最终基于网格特征、深度特征、曲度特征和直线特征等,采用多阈值训练方式,得到最终的易混淆字符识别模型,从而解决了现有的字符识别模型所存在的易混淆字符难以识别的技术问题,达到了准确有效识别易混淆字符的技术效果。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种易混淆字符识别模型训练方法,其特征在于,包括:
获取目标易混淆字符的训练样本,将训练样本增加至训练集中;
对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征;
获取所述训练集中各个训练样本的深度特征、曲度特征和直线特征;
根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型。
2.根据权利要求1所述的方法,其特征在于,在对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征之前,所述方法还包括:
对所述训练集中的各个训练样本中字符,计算字符的外接矩形。
3.根据权利要求1所述的方法,其特征在于,易混淆字符包括以下一对或多对:0、D和Q,8和B,2和Z,5和S。
4.如权利要求3所述的方法,其特征在于:
在所述易混淆字符为0、D和Q的情况下,对所述训练集中的各个训练样本进行网格划分,包括,将训练样本中的字符平分为16个网格块;
在所述易混淆字符为8和B,2和Z,或者,5和S情况下,对所述训练集中的各个训练样本进行网格划分,包括,将训练样本中的字符平分为9个网格块。
5.如权利要求4所述的方法,其特征在于:
在所述易混淆字符为0、D和Q的情况下,深度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的深度值;曲度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为8和B的情况下,深度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的深度值;曲度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为2和Z的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到五分之四处的直线长度;
在所述易混淆字符为5和S的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到右端处的直线长度和从字符顶端算起,0处到二分之一处,从左向右,从0到四分之一处的直线长度。
6.如权利要求1所述的方法,其特征在于,在根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型的过程中,对于网格特征、深度特征、曲度特征和直线特征中的每个特征设置两个阈值,在大于所述两个阈值中较大阈值的情况下,作为一类,在小于所述两个阈值中较小阈值的情况下,作为另一类,在位于所述两个阈值之间的情况下,采用下一个特征进行训练。
7.如权利要求1所述的方法,其特征在于,在根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型的过程中,逐步缩小阈值进行,将识别正确率最高时的易混淆字符识别模型对应的阈值作为训练结果。
8.一种易混淆字符识别模型训练装置,其特征在于,包括:
获取模块,用于获取目标易混淆字符的训练样本,将训练样本增加至训练集中;
划分模块,用于对所述训练集中的各个训练样本进行网格划分,并获取目标网格块的网格特征;
获取模块,用于获取所述训练集中各个训练样本的深度特征、曲度特征和直线特征;
训练模块,用于根据所述网格特征、深度特征、曲度特征和直线特征,采用多阈值训练方式,训练得到易混淆字符识别模型。
9.如权利要求8所述的装置,其特征在于:
在所述易混淆字符为0、D和Q的情况下,深度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的深度值;曲度特征为从字符顶端算起,六分之一处到六分之五处,从左向右,从0到四分之一处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为8和B的情况下,深度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的深度值;曲度特征为从字符顶端向下算起,0到四分之一处,从左向右,从0到五分之三处的曲度值;直线长度特征为从字符顶端算起,七分之一处到七分之六处,从左向右,从0到四分之一处的直线长度;
在所述易混淆字符为2和Z的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到五分之四处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到五分之四处的直线长度;
在所述易混淆字符为5和S的情况下,深度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的深度值;曲度特征为从字符顶端向下算起,0到五分之一处,从左向右,从0到右端处的曲度值;直线长度特征为从字符顶端算起,0处到七分之一处,从左向右,从0到右端处的直线长度和从字符顶端算起,0处到二分之一处,从左向右,从0到四分之一处的直线长度。
10.如权利要求8所述的装置,其特征在于,所述训练模块具体用于对网格特征、深度特征、曲度特征和直线特征中的每个特征设置两个阈值,在大于所述两个阈值中较大阈值的情况下,作为一类,在小于所述两个阈值中较小阈值的情况下,作为另一类,在位于所述两个阈值之间的情况下,采用下一个特征进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710427954.4A CN109034166B (zh) | 2017-06-08 | 2017-06-08 | 易混淆字符识别模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710427954.4A CN109034166B (zh) | 2017-06-08 | 2017-06-08 | 易混淆字符识别模型训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109034166A true CN109034166A (zh) | 2018-12-18 |
CN109034166B CN109034166B (zh) | 2021-09-24 |
Family
ID=64629305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710427954.4A Active CN109034166B (zh) | 2017-06-08 | 2017-06-08 | 易混淆字符识别模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109034166B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059705A (zh) * | 2019-04-22 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种基于建模的ocr识别结果判决方法和设备 |
CN112526885A (zh) * | 2020-12-08 | 2021-03-19 | 江苏自动化研究所 | 一种面向装备保障的自主决策系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398894A (zh) * | 2008-06-17 | 2009-04-01 | 浙江师范大学 | 机动车车牌自动识别方法及其实现装置 |
CN102184412A (zh) * | 2011-05-09 | 2011-09-14 | 东南大学 | 基于最小错误率贝叶斯分类器的车牌数字及字母识别方法 |
US20140363081A1 (en) * | 2011-09-16 | 2014-12-11 | Alan Joseph Bell | Machine reading of printed data |
CN104298976A (zh) * | 2014-10-16 | 2015-01-21 | 电子科技大学 | 基于卷积神经网络的车牌检测方法 |
CN105825212A (zh) * | 2016-02-18 | 2016-08-03 | 江西洪都航空工业集团有限责任公司 | 一种基于Hadoop的分布式车牌识别方法 |
CN106127198A (zh) * | 2016-06-20 | 2016-11-16 | 华南师范大学 | 一种基于多分类器集成的图像文字识别方法 |
-
2017
- 2017-06-08 CN CN201710427954.4A patent/CN109034166B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398894A (zh) * | 2008-06-17 | 2009-04-01 | 浙江师范大学 | 机动车车牌自动识别方法及其实现装置 |
CN102184412A (zh) * | 2011-05-09 | 2011-09-14 | 东南大学 | 基于最小错误率贝叶斯分类器的车牌数字及字母识别方法 |
US20140363081A1 (en) * | 2011-09-16 | 2014-12-11 | Alan Joseph Bell | Machine reading of printed data |
CN104298976A (zh) * | 2014-10-16 | 2015-01-21 | 电子科技大学 | 基于卷积神经网络的车牌检测方法 |
CN105825212A (zh) * | 2016-02-18 | 2016-08-03 | 江西洪都航空工业集团有限责任公司 | 一种基于Hadoop的分布式车牌识别方法 |
CN106127198A (zh) * | 2016-06-20 | 2016-11-16 | 华南师范大学 | 一种基于多分类器集成的图像文字识别方法 |
Non-Patent Citations (1)
Title |
---|
方玉玲 等: "基于二次网格的字符图像特征提取方法", 《电子科技》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059705A (zh) * | 2019-04-22 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种基于建模的ocr识别结果判决方法和设备 |
CN112526885A (zh) * | 2020-12-08 | 2021-03-19 | 江苏自动化研究所 | 一种面向装备保障的自主决策系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109034166B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522874B (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
CN109740668B (zh) | 深度模型训练方法及装置、电子设备及存储介质 | |
EP4047509A1 (en) | Facial parsing method and related devices | |
CN105095890B (zh) | 图像中字符分割方法及装置 | |
JP5997545B2 (ja) | 信号処理方法及び信号処理装置 | |
CN109409377B (zh) | 图像中文字的检测方法及装置 | |
CN110582783B (zh) | 训练装置、图像识别装置、训练方法和计算机可读信息存储介质 | |
CN109740752B (zh) | 深度模型训练方法及装置、电子设备及存储介质 | |
CN105117740B (zh) | 字体识别方法及装置 | |
CN111061898A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN112307853A (zh) | 航拍图像的检测方法、存储介质和电子装置 | |
CN110415212A (zh) | 异常细胞检测方法、装置及计算机可读存储介质 | |
CN109284700B (zh) | 图像中多个人脸检测的方法、存储介质、设备及系统 | |
CN105447508A (zh) | 一种字符图像验证码识别的方法及系统 | |
CN112200218B (zh) | 一种模型训练方法、装置及电子设备 | |
CN107944478A (zh) | 图像识别方法、系统以及电子设备 | |
CN107493469A (zh) | 一种确定sfr测试卡的感兴趣区域的方法及装置 | |
EP3561729A1 (en) | Method for detecting and recognising long-range high-density visual markers | |
CN104966109B (zh) | 医疗化验单图像分类方法及装置 | |
CN114782770A (zh) | 一种基于深度学习的车牌检测与车牌识别方法及系统 | |
CN109034166A (zh) | 易混淆字符识别模型训练方法和装置 | |
CN113269153B (zh) | 一种表格识别方法以及装置 | |
CN117574851B (zh) | 一种在eda工具中重构电路原理图的方法、设备及存储介质 | |
CN109977745B (zh) | 人脸图像处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |