CN107480700B - 一种基于Gabor和SVM纹理提取汉字的方法 - Google Patents
一种基于Gabor和SVM纹理提取汉字的方法 Download PDFInfo
- Publication number
- CN107480700B CN107480700B CN201710583981.0A CN201710583981A CN107480700B CN 107480700 B CN107480700 B CN 107480700B CN 201710583981 A CN201710583981 A CN 201710583981A CN 107480700 B CN107480700 B CN 107480700B
- Authority
- CN
- China
- Prior art keywords
- evaluated
- sample
- images
- image
- font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Controls And Circuits For Display Device (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于Gabor和SVM纹理提取汉字的方法,首先选取g个训练样本和m个待评价样本,分别对g个训练样本和m个待评价样本字体图像进行灰度化处理,对Gabor滤波器进行参数设置,得到五个尺度、四个方向共二十个滤波图像,然后将得到的滤波图像分别与得到的灰度化处理后的图像进行卷积,计算图像的均值和方差,将计算结果组成特征向量,最后根据训练样本预测待评价样本,进行保留或者淘汰,本发明解决了现有技术中存在的汉字书写规范程度评价困难的问题。
Description
技术领域
本发明属于图像处理与识别技术领域,具体涉及一种基于Gabor和SVM纹理提取汉字的方法。
背景技术
现在我国对于中国传统文化的教育越来越重视,特别是书写汉字这一方面。由于很多中小学生书写的不规范,导致写出来的字体扭曲变形,与匀称清晰的字体差别很大。为了解决当前的现状,现在很多中小学都会不定期的举办书法大赛,鼓励当代中小学生练好字,写好字。由于参赛人员基数很大,对于评审人员具有不小的工作压力,一定程度上也会影响评分的准确度。由此可见,如何快速识别、筛选出好的作品再由评审人员对筛选出的好的作品进行打分极为重要。
发明内容
本发明的目的是提供一种基于Gabor和SVM纹理提取汉字的方法,解决了现有技术中存在的汉字书写规范程度评价困难的问题。
本发明所采用的技术方案是,一种基于Gabor和SVM纹理提取汉字的方法,具体按照以下步骤实施:
步骤1、选取g个训练样本和m个待评价样本;
步骤2、分别对g个训练样本和m个待评价样本字体图像进行灰度化处理,处理后训练样本图像记为Wx,x=1,2,…,g,g≥50,待评价样本的图像记为Wt’,t=1,2,…,m,m为待评价样本个数;
步骤3、对Gabor滤波器进行参数设置,得到五个尺度、四个方向共二十个滤波图像;
步骤4、将步骤3得到的滤波图像分别与步骤2得到的灰度化处理后的图像进行卷积;
步骤5、计算步骤4得到的图像的均值和方差,将计算结果组成特征向量;
步骤6、根据训练样本预测待评价样本;
步骤7、根据步骤6的预测结果,如果当前书法字体预测结果为优秀的则保留,否则淘汰。
本发明的特点还在于,
步骤1具体为:
从北京大学的CHAED字库中根据人工打分划分为优秀、一般的字体样本中选取g个作为训练样本,任意选取m个要进行评判的书法字体作为待评价样本。
步骤3具体为:对Gabor滤波器 进行参数设置,其中,(x,y)表示Gabor滤波器的空间坐标,γ为空间纵横比,γ∈(0,1),θ为Gabor滤波器旋转角度,σ为高斯标准差,f为空间尺度,为相位偏移,设Gabor核窗口为图像窗口的1/2,由于汉字基本笔画为横、竖、撇、捺,对应Gabor滤波器旋转角度θ的四个方向,所以设θ1=0,θ2=π/4,θ3=π/2,θ4=3π/4,已知高斯标准差σ和空间尺度f的关系为σf=0.56,尺度f的变化公式为fk=a-k*fmax,k=0,…,4,且已知fmax=0.22,由此可以确定五个尺度fk,k=0,…,4,由σ和f的关系式σf=0.56和已经确定的五个尺度fk,k=0,…,4能得到对应的五个高斯标准差σk,k=0,…,4,由于相位偏移本方法取0,综上确定的参数,能得到五个尺度、四个方向共二十个Gabor图像,记为Gk,k=1,2,…,20。
步骤4具体为:
将步骤3得到的二十个Gabor滤波器图像Gk,k=1,2,…,20与步骤2得到的g个训练样本图像Wx,x=1,2,…,g,以及m个待评价样本图像Wt’,t=1,2,…,m依次进行卷积,二十个Gabor滤波器图像Gk,k=1,2,…,20与训练样本字体图像Wx,x=1,2,…,g进行卷积如下:
p,q满足条件0≤p<Mr+Nr-1,0≤q<Mc+Nc-1,(p,q)为卷积图像每个像素点的坐标,Mr、Mc分别为训练样本字体图像Wx,x=1,2,…,g窗口的的高和宽,Nr、Nc分别为Gabor滤波器图像Gk的高和宽;
二十个Gabor滤波器图像Gk,k=1,2,…,20与待评价样本字体图像Wt’,t=1,2,…,m进行卷积:
p′,q′满足条件0≤p′<Mr′+Nr′-1,0≤q′<Mc′+Nc′-1,(p′,q′)为卷积图像每个像素点的坐标,Mr′、Mc′分别为待评价样本字体图像Wt,t=1,2,…,m窗口的的高和宽,Nr′、Nc′分别为Gabor滤波器图像Gk的高和宽;
步骤5具体为:
步骤6具体为:
执行完上述步骤后,训练样本中的每个字体样本得到四十维的特征向量,将所有训练样本中的字体样本输入libSVM进行训练,并利用网格搜索法寻找最优的参数c和g,保留训练结果model和最优参数c和g;
对于待评价样本得到的四十维的特征向量,根据训练样本中训练好的数据model和最优参数c和g,输入libSVM预测待评价样本经过步骤1-5处理完的书法字体。
本发明的有益效果是,一种基于Gabor和SVM纹理提取汉字的方法,基于Gabor滤波器和SVM支持向量机进行纹理提取和分类,能快速有效地对很多书法作品进行筛选,得到所有书法作品中写的较好的作品。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明一种基于Gabor和SVM纹理提取汉字的方法,具体按照以下步骤实施:
步骤1、选取g个训练样本和m个待评价样本,具体为:
从北京大学的CHAED字库中根据人工打分划分为优秀、一般的字体样本中选取g个作为训练样本,任意选取m个要进行评判的书法字体作为待评价样本;
步骤2、分别对g个训练样本和m个待评价样本字体图像进行灰度化处理,处理后训练样本图像记为Wx,x=1,2,…,g,g≥50,待评价样本的图像记为Wt’,t=1,2,…,m,m为待评价样本个数;
步骤3、对Gabor滤波器进行参数设置,得到五个尺度、四个方向共二十个滤波图像,具体为:对Gabor滤波器 进行参数设置,其中,(x,y)表示Gabor滤波器的空间坐标,γ为空间纵横比,γ∈(0,1),θ为Gabor滤波器旋转角度,σ为高斯标准差,f为空间尺度,为相位偏移,设Gabor核窗口为图像窗口的1/2,由于汉字基本笔画为横、竖、撇、捺,对应Gabor滤波器旋转角度θ的四个方向,所以设θ1=0,θ2=π/4,θ3=π/2,θ4=3π/4,已知高斯标准差σ和空间尺度f的关系为σf=0.56,尺度f的变化公式为fk=a-k*fmax,k=0,…,4,且已知fmax=0.22,由此可以确定五个尺度fk,k=0,…,4,由σ和f的关系式σf=0.56和已经确定的五个尺度fk,k=0,…,4能得到对应的五个高斯标准差σk,k=0,…,4,由于相位偏移本方法取0,综上确定的参数,能得到五个尺度、四个方向共二十个Gabor图像,记为Gk,k=1,2,…,20;
步骤4、将步骤3得到的滤波图像分别与步骤2得到的灰度化处理后的图像进行卷积,具体为:将步骤3得到的二十个Gabor滤波器图像Gk,k=1,2,…,20与步骤2得到的g个训练样本图像Wx,x=1,2,…,g,以及m个待评价样本图像Wt’,t=1,2,…,m依次进行卷积,二十个Gabor滤波器图像Gk,k=1,2,…,20与训练样本字体图像Wx,x=1,2,…,g进行卷积如下:
p,q满足条件0≤p<Mr+Nr-1,0≤q<Mc+Nc-1,(p,q)为卷积图像每个像素点的坐标,Mr、Mc分别为训练样本字体图像Wx,x=1,2,…,g窗口的高和宽,Nr、Nc分别为Gabor滤波器图像Gk的高和宽;
二十个Gabor滤波器图像Gk,k=1,2,…,20与待评价样本字体图像Wt’,t=1,2,…,m进行卷积:
p′,q′满足条件0≤p′<Mr′+Nr′-1,0≤q′<Mc′+Nc′-1,(p′,q′)为卷积图像每个像素点的坐标,Mr′、Mc′分别为待评价样本字体图像Wt,t=1,2,…,m窗口的的高和宽,Nr′、Nc′分别为Gabor滤波器图像Gk的高和宽;
步骤5、计算步骤4得到的图像的均值和方差,将计算结果组成特征向量,具体为:
步骤6、根据训练样本预测待评价样本,具体为:
执行完上述步骤后,训练样本中的每个字体样本得到四十维的特征向量,将所有训练样本中的字体样本输入libSVM进行训练,并利用网格搜索法寻找最优的参数c和g,保留训练结果model和最优参数c和g;
对于待评价样本得到的四十维的特征向量,根据训练样本中训练好的数据model和最优参数c和g,输入libSVM预测待评价样本经过步骤1-5处理完的书法字体;
步骤7、根据步骤6的预测结果,如果当前书法字体预测结果为优秀的则保留,否则淘汰。
本发明一种基于Gabor和SVM纹理提取汉字的方法,主要是基于Gabor滤波器和SVM支持向量机进行纹理提取和分类方法,能快速有效地对很多书法作品进行筛选,得到所有书法作品中写的较好的作品,在大型中小学书法评比活动中能大大减轻评审人的工作量,并且适用于手机APP进行手写字检测打分,适合在网上推广使用。
Claims (3)
1.一种基于Gabor和SVM纹理提取汉字的方法,其特征在于,具体按照以下步骤实施:
步骤1、选取g个训练样本和m个待评价样本;
步骤2、分别对g个训练样本和m个待评价样本字体图像进行灰度化处理,处理后训练样本的图像记为Wb,b=1,2,...,g,g≥50,待评价样本的图像记为Wt,t=1,2,...,m,m为待评价样本个数;
步骤3、对Gabor滤波器进行参数设置,得到五个尺度、四个方向共二十个Gabor滤波器图像;
所述步骤3具体为:
对Gabor滤波器进行参数设置,其中,(x,y)表示Gabor滤波器的空间坐标,γ为空间纵横比,γ∈(0,1),θ为Gabor滤波器旋转角度,σ为高斯标准差,f为空间尺度,为相位偏移,设Gabor核窗口为图像窗口的1/2,由于汉字基本笔画为横、竖、撇、捺,对应Gabor滤波器旋转角度θ的四个方向,所以设θ1=0,θ2=π/4,θ3=π/2,θ4=3π/4,已知高斯标准差σ和空间尺度f的关系为σf=0.56,尺度f的变化公式为fk=a-k*fmax,k=0,...,4,且已知fmax=0.22,由此确定五个尺度fk,k=0,...,4,由σ和f的关系式σf=0.56和已经确定的五个尺度fk,k=0,...,4能得到对应的五个高斯标准差σk,k=0,...,4,由于相位偏移 取值为0,综上确定的参数,能得到五个尺度、四个方向共二十个Gabor滤波器图像,记为Gd,d=1,2,...,20;
步骤4、将步骤3得到的滤波器图像分别与步骤2得到的灰度化处理后的图像进行卷积;
所述步骤4具体为:
将步骤3得到的二十个Gabor滤波器图像Gd,d=1,2,...,20与步骤2得到的g个训练样本图像Wb,b=1,2,...,g,以及m个待评价样本图像Wt,t=1,2,...,m依次进行卷积,二十个Gabor滤波器图像Gd,d=1,2,...,20与训练样本图像Wb,b=1,2,...,g进行卷积如下:
p,q满足条件0≤p<Mr+Nr-1,0≤q<Mc+Nc-1,(p,q)为卷积图像每个像素点的坐标,d=1,2,...,20,Mr、Mc分别为训练样本图像Wb,b=1,2,...,g窗口的高和宽,Nr、Nc分别为Gabor滤波器图像Gd的高和宽;
二十个Gabor滤波器图像Gd,d=1,2,...,20与待评价样本图像Wt,t=1,2,...,m进行卷积:
d=1,2,...,20;
p′,q′满足条件0≤p′<Mr′ +Nr-1,0≤q′<Mc′ +Nc-1,(p′,q′)为卷积图像每个像素点的坐标,Mr′、Mc′分别为待评价样本图像Wt,t=1,2,...,m窗口的高和宽,Nr、Nc分别为Gabor滤波器图像Gd的高和宽;
步骤5、计算步骤4得到的图像的均值和方差,将计算结果组成特征向量;
所述步骤5具体为:
步骤(5.3)、将训练样本字体卷积后图像的均值和方差首尾相连组成四十维的特征向量 前二十个存放均值,后二十个存放方差,最终得到训练样本字体特征向量同理将待评价样本字体卷积后图像的均值和方差首尾相连组成四十维的特征向量 前二十个存放均值,后二十个存放方差,最终得到待评价样本字体特征向量为
步骤6、根据训练样本预测待评价样本;
步骤7、根据步骤6的预测结果,如果当前书法字体预测结果为优秀的则保留,否则淘汰。
2.根据权利要求1所述的一种基于Gabor和SVM纹理提取汉字的方法,其特征在于,所述步骤1具体为:
从北京大学的CHAED字库中根据人工打分划分为优秀、一般的字体样本中选取g个作为训练样本,任意选取m个要进行评判的书法字体作为待评价样本。
3.根据权利要求1所述的一种基于Gabor和SVM纹理提取汉字的方法,其特征在于,所述步骤6具体为:
执行完步骤1~5后,训练样本中的每个字体样本得到四十维的特征向量,将所有训练样本中的字体样本输入libSVM进行训练,并利用网格搜索法寻找最优的参数c和gamma,保留训练结果model和最优参数c和gamma;
对于待评价样本得到的四十维的特征向量,根据训练样本中训练好的结果model和最优参数c和gamma,输入libSVM预测待评价样本经过步骤1-5处理完的书法字体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710583981.0A CN107480700B (zh) | 2017-07-18 | 2017-07-18 | 一种基于Gabor和SVM纹理提取汉字的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710583981.0A CN107480700B (zh) | 2017-07-18 | 2017-07-18 | 一种基于Gabor和SVM纹理提取汉字的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480700A CN107480700A (zh) | 2017-12-15 |
CN107480700B true CN107480700B (zh) | 2021-02-12 |
Family
ID=60596274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710583981.0A Active CN107480700B (zh) | 2017-07-18 | 2017-07-18 | 一种基于Gabor和SVM纹理提取汉字的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480700B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236577A (zh) * | 2008-02-29 | 2008-08-06 | 浙江大学 | 计算机辅助书法牌匾设计方法 |
CN101976354A (zh) * | 2010-11-10 | 2011-02-16 | 广东开心信息技术有限公司 | 一种书写汉字规范性评判的方法和装置 |
CN105678348A (zh) * | 2016-01-07 | 2016-06-15 | 陕西师范大学 | 一种手写汉字规范性评价方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393645A (zh) * | 2008-09-12 | 2009-03-25 | 浙江大学 | 一种手写体汉字的计算机生成与美化方法 |
CN101630362B (zh) * | 2009-08-25 | 2011-09-28 | 华南理工大学 | 一种基于置信度的汉字书写质量评价方法 |
CN104966096A (zh) * | 2015-06-10 | 2015-10-07 | 南京师范大学 | 一种基于重要书写特征标注的手写汉字工整性评价方法 |
-
2017
- 2017-07-18 CN CN201710583981.0A patent/CN107480700B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236577A (zh) * | 2008-02-29 | 2008-08-06 | 浙江大学 | 计算机辅助书法牌匾设计方法 |
CN101976354A (zh) * | 2010-11-10 | 2011-02-16 | 广东开心信息技术有限公司 | 一种书写汉字规范性评判的方法和装置 |
CN105678348A (zh) * | 2016-01-07 | 2016-06-15 | 陕西师范大学 | 一种手写汉字规范性评价方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种书法字骨架提取优化方法;张九龙 等;《西安理工大学学报》;20161231;第32卷(第1期);第35-38页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107480700A (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635883B (zh) | 基于深度堆叠网络的结构信息指导的中文字库生成方法 | |
CN111160533B (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN104299008B (zh) | 基于多特征融合的车型分类方法 | |
CN108304357B (zh) | 一种基于字体流形的中文字库自动生成方法 | |
US9449253B2 (en) | Learning painting styles for painterly rendering | |
WO2017162069A1 (zh) | 一种图像文本的识别方法和装置 | |
CN109800754A (zh) | 一种基于卷积神经网络的古字体分类方法 | |
CN104881662B (zh) | 一种单幅图像行人检测方法 | |
CN111723585A (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN110120065B (zh) | 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统 | |
CN104299009B (zh) | 基于多特征融合的车牌字符识别方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN109829924B (zh) | 一种基于主体特征分析的图像质量评价方法 | |
CN107220640A (zh) | 字符识别方法、装置、计算机设备和计算机可读存储介质 | |
CN101520894A (zh) | 基于区域显著性的显著对象提取方法 | |
CN102663454B (zh) | 一种字符书写规范度评测的方法和装置 | |
CN113392856B (zh) | 图像伪造检测装置和方法 | |
CN110738030A (zh) | 表格重建方法、装置、电子设备及存储介质 | |
CN108664975A (zh) | 一种维吾尔文手写字母识别方法、系统及电子设备 | |
CN112712273A (zh) | 一种基于骨架相似度的手写体汉字美观度评判方法 | |
CN107578039A (zh) | 基于数字图像处理技术的字迹轮廓比对方法 | |
CN103455816B (zh) | 一种笔画宽度提取方法、装置及一种文字识别方法、系统 | |
CN107480700B (zh) | 一种基于Gabor和SVM纹理提取汉字的方法 | |
CN102737232B (zh) | 一种分裂细胞识别方法 | |
CN103577825B (zh) | 合成孔径声纳图像的目标自动识别方法以及自动识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |