CN111340033A

CN111340033A - 一种易混字符二次识别方法

Info

Publication number: CN111340033A
Application number: CN202010184590.3A
Authority: CN
Inventors: 付鹏斌; 彭荆旋; 杨惠荣
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-06-26
Anticipated expiration: 2040-03-17
Also published as: CN111340033B

Abstract

本发明涉及一种易混字符二次识别方法，用于提高手写字符识别率。对易混字符图像进行细化操作，生成固定大小的目标图像；定义易混字符对“1”、“(”、“)”的直线特征、斜率特征、曲率特征，提取目标图像的特征向量，基于SVM分类器识别分类；定义易混字符对“1”、“9”的孔洞特征，设计基于孔洞特征的分类算法，实现“1”、“9”的二次识别；定义易混字符对“4”、“6”的交截点相对位置特征，设计基于交截点相对位置特征的分类算法，实现“4”、“6”的二次识别；定义易混字符对“7”、“>”的夹角特征、方向角特征、连续竖直点个数特征，提取目标图像的特征向量，基于SVM分类器识别分类；本发明可有效提高数学字符的平均识别率。

Description

一种易混字符二次识别方法

技术领域

本发明涉及机器学习、手写体识别、特征提取领域，具体涉及一种易混字符二次识别方法。

背景技术

目前的脱机手写识别技术可以实现简易的数学公式的判别，但对于一些具有复杂空间组合及包含关系的手写公式，不能有效地识别。有研究者提出了一种基于编码-解码器框架的新型多模态注意网络，用于手写数学公式识别，该方法在CROHME 2014和CROHME2016数据库上达到了54.05％和50.56％的识别准确率。有研究者实现了一款基于卷积神经网络(CNN)分类算法的脱机手写公式识别系统，实验结果显示，该系统的公式识别准确率为80％。通过分析发现，造成以上研究识别率较低的主要原因在于，数学公式中包含数字、运算符号和字母等，极易出现一些结构特征相似的字符，导致识别率的降低。

基于CNN分类算法对常见的20类数学字符进行识别，统计字符识别率，如图1所示，并找到了四组易混字符对：第一组“1”、“(”、“)”，见图2a)-2c)；第二组“1”、“9”，见图3a)-3b)；第三组“4”、“6”，见图4a)-4b)；第四组“7”、“>”，见图5a)-5b)。因此，如何提高这四组易混字符对的识别率成为了脱机手写识别技术的关键。

发明内容

本发明针对上述四组易混字符对提出了一种基于特征提取的二次识别的解决方案。

实现本发明方法的主要步骤如下：对易混字符图像(见图6a))进行细化操作，生成固定大小的目标图像(见图6b))；定义易混字符对“1”、“(”、“)”的直线特征、斜率特征、曲率特征，提取目标图像的特征向量，基于SVM分类器识别分类；定义易混字符对“1”、“9”的孔洞特征，设计基于孔洞特征的分类算法，实现“1”、“9”的二次识别；定义易混字符对“4”、“6”的交截点相对位置特征，设计基于交截点相对位置特征的分类算法，实现“4”、“6”的二次识别；定义易混字符对“7”、“>”的夹角特征、方向角特征、连续竖直点个数特征，提取目标图像的特征向量，基于SVM分类器识别分类；本发明可有效提高数学字符的平均识别率。

一种易混字符二次识别方法，包括如下步骤：

所述易混字符对“1”、“(”、“)”的二次识别方法为：提取目标图像的特征向量，生成易混字符对数据集，所述特征向量包括：“1”、“(”、“)”的直线特征、斜率特征、曲率特征；利用数据集训练分类模型，利用训练完成的分类器对待识别字符进行二次分类；

所述易混字符对“1”、“9”的二次识别方法为：判断目标图像是否存在孔洞特征，如果存在，则目标图像识别为9，否则，目标图像识别为1；

所述易混字符对“4”、“6”的二次识别方法为：判断目标图像交截点相对位置偏上还是偏下，如果偏上，且目标图像中孔洞特征的最低点不与目标图像最低点重合，则目标图像识别为4，否则，目标图像识别为6；

所述易混字符对“7”、“>”的二次识别方法为：提取目标图像的特征向量，生成易混字符对数据集，所述特征向量包括：“7”、“>”的夹角特征、方向角特征、连续竖直点个数特征；利用数据集训练分类模型，利用训练完成的分类器对待识别字符进行二次分类。

有益效果

与基于人工神经网络的字符识别方法相比，通过提取易混字符对的多重特征，从多个维度综合判别，可有效提高单个字符识别率；本发明定义的多组特征也可借鉴到易混英文字母的二次识别中，提升字母字符的识别率。

附图说明

图1为基于CNN分类算法的字符识别率；

图2a)-2c)为易混字符对“1”、“(”、“)”的示意图；

图3a)-3b)为易混字符对“1”、“9”的示意图；

图4a)-4b)为易混字符对“4”、“6”的示意图；

图5a)-5b)为易混字符对“7”、“>”的示意图；

图6a)-6b)为字符细化示意图；

图7为手写体数学字符图像数据；

图8为直线特征示意图；

图9为斜率和曲率特征示意图；

图10为孔洞特征示意图；

图11为交截点相对位置特征示意图；

图12为夹角特征和方向角特征示意图；

图13为连续竖直点个数特征示意图；

图14为二次识别前后的字符识别率；

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

本发明所涉及方法的流程包括以下步骤：

(1)问题描述

首先采集不同年龄段多名学生的手写体数学字符图像数据(见图7)；然后，统计基于CNN分类算法的字符识别率，如图1所示，图中识别准确率低于96％的字符组为四组易混字符对(“1”、“(”、“)”,“1”、“9”，“4”、“6”，“7”、“>”)，故需要提高这四组易混字符对的识别率。

(2)数据预处理

为有效提取字符骨架特征，可对字符图像(见图6a))进行细化操作，从而得到固定大小的目标图像(见图6b))。

(3)易混字符对“1”、“(”、“)”的二次识别

a、提取“1”、“(”、“)”的直线特征、斜率特征、曲率特征，具体定义如下：

由于印刷体数学字符笔画相对简单，纹理特征明显，且某些易混字符可以通过字符中是否含有直线特征来区分，因此可以将直线特征引入到数学字符的分类过程中，并通过改进的Hough直线检测算法提取字符中的直线特征。然而由于个人书写习惯的随意性，手写体字符中的直线特征往往不太明显，采用Hough直线检测算法在单个字符中会提取出多条直线，所以不能作为字符分类的依据。为此，本发明首先通过字符端点拟合出一条直线，然后计算字符图像中像素点到拟合直线的距离，最后统计距离极值，均值和标准差作为该字符的直线特征。直线特征示意图如图8所示：

进而，得到直线特征提取算法如下：

算法1：直线特征提取算法

输入：目标图像image(见图8)

输出：点到直线距离的极值，均值，标准差

BEGIN

Step1：提取目标图像端点信息，得到两端点坐标(x1,y1),(x2,y2)。

Step2：依据端点坐标构建直线的两点式方程：

将两点式方程简化为一般式方程：

(y2-y1)x+(x1-x2)y+x2*y1-x1*y2＝0

Step3：计算目标图像中任意一点(x0,y0)到直线的距离。一般式直线方程的三个参数A，B，C分别为：

A＝y2-y1,B＝x1-x2,C＝x2*y1-x1*y2

又因为点到直线的距离计算公式为：

进而计算目标图像中任意一点到拟合直线的距离为：

Step4：重复执行Step3，计算目标图像中每一像素点到拟合直线的距离。

Step5：计算点到直线距离的极值，均值和标准差。

END

将目标图像的像素点离散化，某一字符的局部轨迹如图9所示，本发明选择斜率和曲率作为字符弯曲度的度量。

如图9(a)所示，字符某一像素点的斜率即为直线l的斜率，数学公式定义如下：

其中，为了数学处理方便，假设第一个和最后一个像素点的斜率与相邻像素点相同。接着，统计目标图像中所有像素点的斜率极值，均值和标准差作为该字符的斜率特征。

如图9(b)所示，字符某一像素点的曲率即为该点处曲率半径的倒数，数学公式定义如下：

其中y′,y″分别为某一点处的斜率，二阶导数：

因而某一像素点曲率的数学公式定义如下：

其中，为了数学处理方便，假设第一个和最后一个像素点的曲率与相邻像素点相同。接着，统计曲率极值，均值和标准差作为该字符的曲率特征。

b、提取特征向量，训练分类模型，基于最优分类器识别分类：

首先，对手写体数学字符图像数据进行细化操作，生成细化后的目标图像；然后，基于步骤a中三组特征的定义，提取每张目标图像的特征向量，写入对应的csv文件中，生成易混字符对的数据集；接着，选择逻辑斯特回归(LR)，多层感知机(MLPC)，支持向量机(SVM)，随机梯度下降法(SGDC)四种机器学习分类算法作为易混字符对的候选分类器，并基于极差变换法对数据集中的特征向量进行归一化，按3∶1的比例将数据集划分为训练集和测试集；之后，在四种分类器下训练分类模型，绘制测试集识别精度曲线，选择识别率最高的SVM分类器作为易混字符对“1”、“(”、“)”的分类器；最后，提取待预测目标图像的特征向量，基于SVM分类器识别分类。

(4)易混字符对“1”、“9”的二次识别

a、提取“1”、“9”的孔洞特征，具体定义如下：

孔洞特征是指目标图像是否含有闭合环，可较好的反映字符骨架的局部结构特征，孔洞特征示意图如图10所示。要判断字符图像是否含有闭合环，可以借助连通域方法，进而得到孔洞特征提取算法如下：

算法2：孔洞特征提取算法

输入：目标图像image(见图10)

输出：孔洞点坐标列表pointList

BEGIN

Step1：从上至下，从左至右依次遍历目标图像image，选择黑色像素点并标记为currentPoint。

Step2：初始化与image相同大小的同型矩阵visited＝False，初始化记录遍历轨迹的列表pointList。

Step3：从currentPoint出发，基于步长矩阵[[1,1],[0,1],[-1,1],[1,0],[-1,-1],[-1,0],[0,-1],[1,-1]]遍历目标图像，将遍历过的点坐标visited[i][j]置为True，并追加点坐标到pointList，直至不能继续遍历为止。

Step4：判断pointList是否为环，即判断pointList首尾坐标是否相连。如果相连，则算法结束；否则，执行Step5。

Step5：重复Step1～Step4，直至扫描完image为止。

END

b、设计基于孔洞特征的分类算法，实现“1”、“9”的识别：

算法3：易混字符对“1”、“9”的二次识别算法

输入：字符图像image(图3a)-3b))

输出：字符分类标记(1or9)

BEGIN

Step1：基于算法2获取字符图像的孔洞点坐标列表pointList。

Step2：判断pointList是否首尾相连，如果是，则字符分类标记为9，否则为1。

Step3：输出字符分类标记。

END

(5)易混字符对“4”、“6”的二次识别

a、提取“4”、“6”的交截点相对位置特征，具体定义如下：

交截特征是指在水平或竖直方向上选择几条直线，统计线上与字符骨架相交的像素点个数，以此作为字符的交截特征值。本发明选择一条交截特征值不为1的水平直线，记录其交截点的位置，以此来定义交截点相对位置特征，如图11所示，则交截点相对位置的定义如下：

所述坐标系的Y轴竖直向下。

b、设计基于交截点相对位置特征的分类算法，实现“4”、“6”的识别：

算法4：易混字符对“4”、“6”的二次识别算法

输入：字符图像image(见图4a)-4b))

输出：字符分类标记(4or6)

BEGIN

Step1：基于交截点相对位置特征定义判断字符图像image的交截点相对位置偏上还是偏下，如果偏上，执行Step2；否则字符分类标记＝6，算法结束。

Step2：基于算法2获取当前字符的孔洞特征。

Step3：判断孔洞特征的最低是否与字符最低点重合，如果重合，则字符分类标记＝6；否则字符分类标记＝4。

END

(6)易混字符对“7”、“>”的二次识别

a、提取“7”、“>”的夹角特征、方向角特征、连续竖直点个数特征，具体定义如下：

如图12所示，基于字符的端点(①②)和拐点(③)定义由①②③号像素点构造的三角形在③号像素点处的夹角特征；基于②③号像素点定义②③号像素点的方向角特征：

基于①②③号像素点的二维坐标信息定义夹角(β)。首先根据欧氏距离计算各点之间的直线距离：

然后基于余弦定理计算夹角的余弦值：

最后得到夹角(β)为：

β＝arc cosβ

基于②③号像素点的二维坐标信息定义方向角(α)：

连续竖直点个数是指，在竖直方向上紧密相邻的像素点个数，反映了字符骨架的直线特征。基于连续竖直点个数的定义，设计其特征提取算法如下：

算法5：连续竖直点个数特征提取算法

输入：目标图像image(见图13)

输出：连续竖直点个数的最大值maxCount

BEGIN

Step1：初始化连续竖直点个数计数列表countList，初始化起始行索引startIndex＝-1。

Step2：从左至右依次遍历image的每一列。

Step3：从上至下依次遍历image的每一行，如果当前像素点为黑色，且startIndex＝-1，则startIndex等于当前行索引；如果当前像素点为白色，且startIndex！＝-1，则将当前行索引与startIndex的差值追加到countList，并重置startIndex＝-1。

Step4：重复Step2～Step3，直至扫描完image为止。

Step5：将countList逆序排序，返回列表中的第一个元素。

END

首先，对手写体数学字符图像数据进行细化操作，生成细化后的目标图像；然后，基于步骤a中三组特征的定义，提取每张目标图像的特征向量，写入对应的csv文件中，生成易混字符对的数据集；接着，选择逻辑斯特回归(LR)，多层感知机(MLPC)，支持向量机(SVM)，随机梯度下降法(SGDC)四种机器学习分类算法作为易混字符对的候选分类器，并基于极差变换法对数据集中的特征向量进行归一化，按3∶1的比例将数据集划分为训练集和测试集；之后，在四种分类器下训练分类模型，绘制测试集识别精度曲线，选择识别率最高的SVM分类器作为易混字符对“7”、“>”的分类器；最后，提取待预测目标图像的特征向量，基于SVM分类器识别分类。

结论：观察图14，除易混字符对“7”、“>”外，其他字符的识别率均已达到96％以上，同时，字符平均识别率从95.96％提升到97.30％，说明了本发明的有效性和实用性。