CN107480700B

CN107480700B - 一种基于Gabor和SVM纹理提取汉字的方法

Info

Publication number: CN107480700B
Application number: CN201710583981.0A
Authority: CN
Inventors: 张九龙; 郭铭涛; 屈小娥
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2021-02-12
Anticipated expiration: 2037-07-18
Also published as: CN107480700A

Abstract

本发明公开了一种基于Gabor和SVM纹理提取汉字的方法，首先选取g个训练样本和m个待评价样本，分别对g个训练样本和m个待评价样本字体图像进行灰度化处理，对Gabor滤波器进行参数设置，得到五个尺度、四个方向共二十个滤波图像，然后将得到的滤波图像分别与得到的灰度化处理后的图像进行卷积，计算图像的均值和方差，将计算结果组成特征向量，最后根据训练样本预测待评价样本，进行保留或者淘汰，本发明解决了现有技术中存在的汉字书写规范程度评价困难的问题。

Description

一种基于Gabor和SVM纹理提取汉字的方法

技术领域

本发明属于图像处理与识别技术领域，具体涉及一种基于Gabor和SVM纹理提取汉字的方法。

背景技术

现在我国对于中国传统文化的教育越来越重视，特别是书写汉字这一方面。由于很多中小学生书写的不规范，导致写出来的字体扭曲变形，与匀称清晰的字体差别很大。为了解决当前的现状，现在很多中小学都会不定期的举办书法大赛，鼓励当代中小学生练好字，写好字。由于参赛人员基数很大，对于评审人员具有不小的工作压力，一定程度上也会影响评分的准确度。由此可见，如何快速识别、筛选出好的作品再由评审人员对筛选出的好的作品进行打分极为重要。

发明内容

本发明的目的是提供一种基于Gabor和SVM纹理提取汉字的方法，解决了现有技术中存在的汉字书写规范程度评价困难的问题。

本发明所采用的技术方案是，一种基于Gabor和SVM纹理提取汉字的方法，具体按照以下步骤实施：

步骤1、选取g个训练样本和m个待评价样本；

步骤2、分别对g个训练样本和m个待评价样本字体图像进行灰度化处理，处理后训练样本图像记为W_x，x＝1，2，…，g，g≥50，待评价样本的图像记为W_t’，t＝1，2，…，m，m为待评价样本个数；

步骤3、对Gabor滤波器进行参数设置，得到五个尺度、四个方向共二十个滤波图像；

步骤4、将步骤3得到的滤波图像分别与步骤2得到的灰度化处理后的图像进行卷积；

步骤5、计算步骤4得到的图像的均值和方差，将计算结果组成特征向量；

步骤6、根据训练样本预测待评价样本；

步骤7、根据步骤6的预测结果，如果当前书法字体预测结果为优秀的则保留，否则淘汰。

本发明的特点还在于，

步骤1具体为：

从北京大学的CHAED字库中根据人工打分划分为优秀、一般的字体样本中选取g个作为训练样本，任意选取m个要进行评判的书法字体作为待评价样本。

步骤3具体为：对Gabor滤波器

进行参数设置，其中，

(x，y)表示Gabor滤波器的空间坐标，γ为空间纵横比，γ∈(0，1)，θ为Gabor滤波器旋转角度，σ为高斯标准差，f为空间尺度，

为相位偏移，设Gabor核窗口为图像窗口的1/2，由于汉字基本笔画为横、竖、撇、捺，对应Gabor滤波器旋转角度θ的四个方向，所以设θ₁＝0，θ₂＝π/4，θ₃＝π/2，θ₄＝3π/4，已知高斯标准差σ和空间尺度f的关系为σf＝0.56，尺度f的变化公式为f_k＝a^-k*f_max，k＝0，…，4，且已知f_max＝0.22，

由此可以确定五个尺度f_k，k＝0，…，4，由σ和f的关系式σf＝0.56和已经确定的五个尺度f_k，k＝0，…，4能得到对应的五个高斯标准差σ_k，k＝0，…，4，由于相位偏移

本方法

取0，综上确定的参数，能得到五个尺度、四个方向共二十个Gabor图像，记为G_k，k＝1，2，…，20。

步骤4具体为：

将步骤3得到的二十个Gabor滤波器图像G_k，k＝1，2，…，20与步骤2得到的g个训练样本图像W_x，x＝1，2，…，g，以及m个待评价样本图像W_t’，t＝1，2，…，m依次进行卷积，二十个Gabor滤波器图像G_k，k＝1，2，…，20与训练样本字体图像W_x，x＝1，2，…，g进行卷积如下：

p，q满足条件0≤p<Mr+Nr-1，0≤q<Mc+Nc-1，(p，q)为卷积图像

每个像素点的坐标，Mr、Mc分别为训练样本字体图像W_x，x＝1，2，…，g窗口的的高和宽，Nr、Nc分别为Gabor滤波器图像G_k的高和宽；

二十个Gabor滤波器图像G_k，k＝1，2，…，20与待评价样本字体图像W_t’，t＝1，2，…，m进行卷积：

p′，q′满足条件0≤p′<Mr′+Nr′-1，0≤q′<Mc′+Nc′-1，(p′，q′)为卷积图像

每个像素点的坐标，Mr′、Mc′分别为待评价样本字体图像W_t，t＝1，2，…，m窗口的的高和宽，Nr′、Nc′分别为Gabor滤波器图像G_k的高和宽；

最终得到所有训练样本字体经二十个Gabor滤波器组卷积后的图像

x＝1，2，…，g和所有待评价样本字体经二十个Gabor滤波器组卷积后的图像

t＝1，2，…，m。

步骤5具体为：

步骤(5.1)、根据步骤4得到的训练样本字体的卷积图像

x＝1，2，…，g和待评价样本字体的卷积图像

t＝1，2，…，m，计算训练样本字体卷积后图像的均值

x＝1，2，…，g和方差

x＝1，2，…，g；

步骤(5.2)、计算待评价样本字体卷积后图像的均值

t＝1，…，m和方差

t＝1，…，m；

步骤(5.3)、将训练样本字体均值和方差首尾相连组成四十维的特征向量

x＝1，2，…，g，前二十个存放均值，后二十个存放方差，最终得到训练样本字体特征向量

同理，将待评价样本均值和方差首尾相连组成四十维的特征向量

其中，t＝1，2，…，m，最终得到待评价样本字体特征向量为

t＝1，2，…，m。

步骤6具体为：

执行完上述步骤后，训练样本中的每个字体样本得到四十维的特征向量，将所有训练样本中的字体样本输入libSVM进行训练，并利用网格搜索法寻找最优的参数c和g，保留训练结果model和最优参数c和g；

对于待评价样本得到的四十维的特征向量，根据训练样本中训练好的数据model和最优参数c和g，输入libSVM预测待评价样本经过步骤1-5处理完的书法字体。

本发明的有益效果是，一种基于Gabor和SVM纹理提取汉字的方法，基于Gabor滤波器和SVM支持向量机进行纹理提取和分类，能快速有效地对很多书法作品进行筛选，得到所有书法作品中写的较好的作品。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

本发明一种基于Gabor和SVM纹理提取汉字的方法，具体按照以下步骤实施：

步骤1、选取g个训练样本和m个待评价样本，具体为：

从北京大学的CHAED字库中根据人工打分划分为优秀、一般的字体样本中选取g个作为训练样本，任意选取m个要进行评判的书法字体作为待评价样本；

步骤3、对Gabor滤波器进行参数设置，得到五个尺度、四个方向共二十个滤波图像，具体为：对Gabor滤波器

进行参数设置，其中，

本方法

取0，综上确定的参数，能得到五个尺度、四个方向共二十个Gabor图像，记为G_k，k＝1，2，…，20；

步骤4、将步骤3得到的滤波图像分别与步骤2得到的灰度化处理后的图像进行卷积，具体为：将步骤3得到的二十个Gabor滤波器图像G_k，k＝1，2，…，20与步骤2得到的g个训练样本图像W_x，x＝1，2，…，g，以及m个待评价样本图像W_t’，t＝1，2，…，m依次进行卷积，二十个Gabor滤波器图像G_k，k＝1，2，…，20与训练样本字体图像W_x，x＝1，2，…，g进行卷积如下：

p，q满足条件0≤p<Mr+Nr-1，0≤q<Mc+Nc-1，(p，q)为卷积图像

每个像素点的坐标，Mr、Mc分别为训练样本字体图像W_x，x＝1，2，…，g窗口的高和宽，Nr、Nc分别为Gabor滤波器图像G_k的高和宽；

t＝1，2，…，m；

步骤5、计算步骤4得到的图像的均值和方差，将计算结果组成特征向量，具体为：

步骤(5.1)、根据步骤4得到的训练样本字体的卷积图像

x＝1，2，…，g和待评价样本字体的卷积图像

t＝1，2，…，m，计算训练样本字体卷积后图像的均值

x＝1，2，…，g和方差

x＝1，2，…，g；

步骤(5.2)、计算待评价样本字体卷积后图像的均值

t＝1，…，m和方差

t＝1，…，m；

同理将待评价样本均值和方差首尾相连组成四十维的特征向量

其中，t＝1，2，…，m，最终得到待评价样本字体特征向量为

t＝1，2，…，m；

步骤6、根据训练样本预测待评价样本，具体为：

对于待评价样本得到的四十维的特征向量，根据训练样本中训练好的数据model和最优参数c和g，输入libSVM预测待评价样本经过步骤1-5处理完的书法字体；

本发明一种基于Gabor和SVM纹理提取汉字的方法，主要是基于Gabor滤波器和SVM支持向量机进行纹理提取和分类方法，能快速有效地对很多书法作品进行筛选，得到所有书法作品中写的较好的作品，在大型中小学书法评比活动中能大大减轻评审人的工作量，并且适用于手机APP进行手写字检测打分，适合在网上推广使用。

Claims

1.一种基于Gabor和SVM纹理提取汉字的方法，其特征在于，具体按照以下步骤实施：

步骤1、选取g个训练样本和m个待评价样本；

步骤2、分别对g个训练样本和m个待评价样本字体图像进行灰度化处理，处理后训练样本的图像记为W_b，b＝1，2，...，g，g≥50，待评价样本的图像记为W_t，t＝1，2，...，m，m为待评价样本个数；

步骤3、对Gabor滤波器进行参数设置，得到五个尺度、四个方向共二十个Gabor滤波器图像；

所述步骤3具体为：

对Gabor滤波器

进行参数设置，其中，

为相位偏移，设Gabor核窗口为图像窗口的1/2，由于汉字基本笔画为横、竖、撇、捺，对应Gabor滤波器旋转角度θ的四个方向，所以设θ₁＝0，θ₂＝π/4，θ₃＝π/2，θ₄＝3π/4，已知高斯标准差σ和空间尺度f的关系为σf＝0.56，尺度f的变化公式为f_k＝a^-k*f_max，k＝0，...，4，且已知f_max＝0.22，

由此确定五个尺度f_k，k＝0，...，4，由σ和f的关系式σf＝0.56和已经确定的五个尺度f_k，k＝0，...，4能得到对应的五个高斯标准差σ_k，k＝0，...，4，由于相位偏移

取值为0，综上确定的参数，能得到五个尺度、四个方向共二十个Gabor滤波器图像，记为G_d，d＝1，2，...，20；

步骤4、将步骤3得到的滤波器图像分别与步骤2得到的灰度化处理后的图像进行卷积；

所述步骤4具体为：

将步骤3得到的二十个Gabor滤波器图像G_d，d＝1，2，...，20与步骤2得到的g个训练样本图像W_b，b＝1，2，...，g，以及m个待评价样本图像W_t，t＝1，2，...，m依次进行卷积，二十个Gabor滤波器图像G_d，d＝1，2，...，20与训练样本图像W_b，b＝1，2，...，g进行卷积如下：