CN112712273B - 一种基于骨架相似度的手写体汉字美观度评判方法 - Google Patents
一种基于骨架相似度的手写体汉字美观度评判方法 Download PDFInfo
- Publication number
- CN112712273B CN112712273B CN202011643010.9A CN202011643010A CN112712273B CN 112712273 B CN112712273 B CN 112712273B CN 202011643010 A CN202011643010 A CN 202011643010A CN 112712273 B CN112712273 B CN 112712273B
- Authority
- CN
- China
- Prior art keywords
- image
- point
- chinese character
- skeleton
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 63
- 238000011156 evaluation Methods 0.000 claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000008030 elimination Effects 0.000 claims description 10
- 238000003379 elimination reaction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 108010063499 Sigma Factor Proteins 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000003706 image smoothing Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241001391944 Commicarpus scandens Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Geometry (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于骨架相似度的手写体汉字美观度评判方法,其方法包括:S1、建立标准汉字数据集,将标准汉字数据集中的标准汉字的临摹图像分割,得到目标汉字数据集;S2、对目标汉字图像进行预处理;S3、基于改进的Zhang‑Suen细化算法提取汉字骨架图像;S4、基于改进的ORB图像模板匹配算法获得汉字骨架图像与标准汉字图像的相似度,根据相似度与预设的字体评价标准得到评价分数。本发明通过改进的Zhang‑Suen算法生成的汉字骨架较平滑,基本无毛刺和冗余像素,能够得到完整、正确的手写体汉字骨架;而使用的改进的ORB模板匹配算法,能高效的衡量目标汉字图像与标准汉字图像相似度。
Description
技术领域
本发明涉及书法学习评价技术领域,尤其涉及一种基于骨架相似度的手写体汉字美观度评判方法。
背景技术
书法是中华民族的文化瑰宝,开展中小学书法教有利于弘扬中华优秀传统文化、培养学生书写能力。对学生的书法汉字质量做出合理评价,有助于学生发现不足,提高其书法水平,然而部分地区学校能够胜任书法教育的师资有限,难以满足开展书法教育的要求,因此亟需一种书法评价标准或方法。
对于汉字图像而言,其包含的信息是由像素点组合而成,利用计算机技术对书法汉字进行美观度评价时,计算机较难直接根据汉字图像的像素点生成合理的评价,因此,如何从汉字图像的像素点中较好提取汉字的结构特征,以及如何将抽取后的汉字结构特征自动化生成合理的评价成为亟需解决的问题。目前对于汉字字体图像的特征抽取,常见的方法有图像全局的矩特征提取方法和图像局部的Gabor特征提取方法,其中图像全局的矩特征提取方法所提取的特征含有大量的冗余信息,并且对汉字图像中的存在的噪声较为敏感;图像局部的Gabor特征提取方法的缺点在于特征提取的时间较长且提取后的特征中仍存在较大量的冗余信息。对于汉字的特征进行评价常见的方法是采用对样本汉字与目标汉字进行图像二值化比对的方法,但由于汉字结构的复杂特性、书写工具和书写力度不同、汉字笔画粗细不一等情况导致很难达到令人满意的评价结果。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本发明提供一种基于骨架相似度的手写体汉字美观度评判方法,其解决了无法对中小学书法教学场景中出现的书法的美观度作出合理且客观评判的技术问题。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
S1、根据制定的多个标准汉字图像建立标准汉字数据集,将按照所述标准汉字数据集中的标准汉字进行临摹获取的临摹图像进行分割,得到目标汉字数据集;
S2、对所述目标汉字数据集中的目标汉字图像进行预处理,得到经预处理的二值化图像;
S3、基于改进的Zhang-Suen细化算法提取所述经预处理的二值化图像的汉字骨架图像;所述改进的Zhang-Suen细化算法设有消除模板与保留模板,所述消除模板用于删除汉字骨架图像的斜线区域的非骨架像素点,所述保留模板用于保留骨架关键像素点;
S4、基于改进的ORB图像模板匹配算法获得所述汉字骨架图像与所述标准汉字图像的相似度,根据所述相似度与预设的字体评价标准得到评价分数。
可选地,步骤S3包括:
S31、采用Zhang-Suen细化算法对所述经预处理的二值化图像进行处理,对符合非骨架点的删除条件的像素进行标记,在遍历完经预处理的二值化图像的像素之后,删除被标记的像素点,得到初步细化的汉字骨架图像;
S32、对所述初步细化的汉字骨架图像通过消除模板与保留模块标记斜线区域的非骨架像素点,在遍历完初步细化的汉字骨架图像的像素之后,删除被标记的像素点,得到单一像素宽度的汉字骨架图像;
S33、计算所述单一像素宽度的汉字骨架图像中各分支步长,选取最小步长与设定的阈值L对比,判定与消除所述单一像素宽度的汉字骨架图像的毛刺,得到无毛刺的汉字骨架图像。
可选地,步骤S31包括:
S311、对所述经预处理的二值化图像按从上到下、从左到右的顺序遍历,寻找前景点P0;所述前景点P0为二值化图像中值为1的像素点;
S312、判断前景点P0是否满足Zhang-Suen细化算法设定的非骨架点的删除条件,若满足则标记为可删除的点;
S313、在遍历完经预处理的二值化图像的像素之后,删除所有被标记的点,得到初步细化的汉字骨架图像。
可选地,步骤S32包括:
S321、对所述初步细化的汉字骨架图像进行遍历,寻找前景点P0;
S322、若前景点P0满足删除模板的条件,则标记该像素点为可删除的点,再检测该像素点是否符合保留模板条件,若符合则去除标记保留下来,否则继续遍历;
S323、在遍历完所述初步细化的汉字骨架图像后,删除所有标记的像素点,得到单一像素宽度的汉字骨架图像。
可选地,
所述消除模板的条件包括:
a1:(P1*P7=1)&(P3+P4+P5+P8=0),
a2:(P5*P7=1)&(P1+P2+P3+P6=0),
a3:(P1*P3=1)&(P2+P5+P6+P7=0),
a4:(P3*P5=1)&(P1+P4+P7+P8=0),
a5:(P2+P4+P6+P8=0)&(P1+P3+P5+P7=0);
所述保留模板的条件包括:
b1:P1*P3*P4+P6=1,
b2:P2*P3*P5+P8=1,
b3:P4*P5*P7+P2=1,
b4:P1*P2*P7+P4=1,
其中,&表示两个条件同时存在,*表示相乘,与前景点P0相邻的八个邻域所组成的像素点集合S={P1,P2,P3,P4,P5,P6,P7,P8}称为像素点P0的8-邻域。
可选地,步骤S33包括:
S331、任意选取骨架像素点,并判断当前骨架像素点是否符合节点判断条件,若符合该点为节点node;或判断当前骨架像素点是否符合生长点判断条件,若符合该点为生长点grow;
S332、检测该骨架像素点是否为毛刺的起始位置,以端点为起点对分支进行扫描,记录端点到该点的长度值为步长K;
S333、取骨架的最小步长与阈值L进行比较,若该分支的步长K小于阈值L,则标记该分支,并计算分支所在节点node或生长点grow的总分支数,若总分支数大于2,则该分支判定为毛刺,删除该分支;
S334、若该节点node或生长点grow删除分支后的余留分支数等于2,则通过当前骨架像素点的8-邻域像素分析删除该点是否会导致骨架断点,若没有出现断点,则保留该点,若出现断点,则删除该点;
S335、重复执行步骤S333-步骤S334,直至单一像素宽度的汉字骨架图像遍历完毕,得到无毛刺的汉字骨架图像。
可选地,
所述节点判断条件为:N(P0)≥2或M(P0)≥2;
所述生长点判断条件为:S(P0)=3&M(P0)≥3&N(P0)≥3;
其中,在与P0相邻的8-邻域中以顺时针为序转一圈,像素点从背景点变化到前景点的总次数和为S(P0);与前景点P0相邻的8-邻域中前景像素点的个数记为N(P0),与前景点P0相邻的16-环域中前景像素点的个数记为M(P0)。
可选地,步骤S4包括:
S41、基于改进的ORB模板匹配算法得到汉字骨架图像的特征描述子与标准汉字图像的特征描述子;
S42、对特征描述子进行归一化处理,利用相似度公式对归一化后的特征描述子进行计算,得到图像之间的相似度;
所述相似度公式为:
其中,S表示两幅图像之间的相似度,值越大表示两幅图像相似度越高,N是匹配到的特征描述子对数,Pi表示汉字骨架图像的特征描述子,Qi表示标准汉字图像的特征描述子,DIS(Pi,Qi)是计算两幅图像特征描述子的欧式距离,
S43、根据所述相似度与预设的字体评价标准得到评价分数。
可选地,步骤S41包括:
S411、构建图像金字塔,所述图像金字塔的底层为灰度化的汉字骨架图像或灰度化的标准汉字图像,由底层往顶层的每层均为下层图像通过下采样得到的子图像;
所述图像金字塔为:
M(x,y,σ,p)=p×G(x,y,σ)×l(x,y),
其中,l(x,y)为灰度化的汉字骨架图像,p为采样因子,σ为图像的尺度因子,G(x,y,σ)为高斯核函数,
S412、对图像金字塔的每层子图像使用FAST关键点检测算法提取多个特征点;
S413、在任选的特征点Pi的矩阵邻域内进行高斯平滑,所述矩阵邻域是以该特征点Pi为中心,形状为s×s;
S414、在所述矩阵邻域内基于判定函数随机生成N个点对,所述判定函数为:
其中,p(x)为x的灰度值,p(y)为y的灰度值;
S415、从N个点对中随机选取一个点对,并比较灰度值大小;
S416、对N个点对中剩余的点对循环步骤S415,得到由二进制码构成的特征点Pi的特征描述子:
S417、根据特征点Pi的圆形邻域的灰度质心,得到特征点的主方向,基于特征点的主方向对特征描述子的坐标进行旋转变换,获得具有旋转不变性的特征描述子;
S418、循环步骤S413-步骤S417,求取各特征点的具有旋转不变性的特征描述子;
可选地,步骤S417包括:
S417-1、以任选的特征点Pi为中心,建立半径为r的圆形邻域,圆形邻域包含若干个点对,则特征点的邻域像素阶距为:
mpq=∑xpyqI(x,y),
其中,(x,y)是像素点的坐标,I(x,y)是像素点的灰度值,p、q均为整数;
S417-2、基于特征点的邻域像素阶距,求取特征点邻域的灰度质心坐标为:
其中,Cx为灰度质心的行坐标,Cy为灰度质心的列坐标;m00为零阶距表示物体质量,(m10,m01)为一阶距表示物体的质心;m00为零阶距表示物体质量,(m10,m01)为一阶距表示物体的质心。
S417-3、通过特征点到灰度质心的方向向量来确定特征点的主方向:
S417-4、根据特征点Pi的主方向,得到旋转矩阵:
S417-5、根据特征点Pi的主方向与对应的旋转矩阵,得到具有旋转不变性的特征描述子。
(三)有益效果
本发明的有益效果是:
(1)采用了一字一建模的方案。通过教育与计算机技术的结合对每个汉字依据书法专家的评价标准人工设计并选取评价特征,选取了图像的模板匹配算法去计算汉字图像之间的相似度,继而建立书法作品评判模型实现对于手写体汉字特征的抽取以及相似度计算,填补了手写体汉字在自动化美观度评判应用上的空白。
(2)改变了手写体汉字评价中传统图像的二值化比对方法。通过提取骨架抽取图像的特征信息,运用模板匹配算法对目标手写体汉字图像与标准手写体汉字图像进行比对,进而使得手写体汉字评价模型更加鲁棒,美观度评价更加客观。
(3)通过改进Zhang-Suen细化算法,提取到的字体骨架平滑、无毛刺、单一像素化,能够充分表达字体的拓扑信息。
(4)改进后的ORB模板匹配算法,能够高效的衡量目标汉字图像与标准汉字图像相似度。
附图说明
图1为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的流程示意图;
图2为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的临摹图像;
图3为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的目标汉字图像;
图4为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S2的具体流程示意图;
图5为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S3的具体流程示意图;
图6为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S31的具体流程示意图;
图7为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S32的具体流程示意图;
图8-1为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的斜线区域冗余像素图;
图8-2为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的斜线区域冗余像素图的左侧斜线区域放大图;
图8-3为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的斜线区域冗余像素图的右侧斜线区域放大图;
图9为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S33的具体流程示意图;
图10为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的手写体汉字二值图像;
图11为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的细化后的手写体汉字二值图像;
图12为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S4的具体流程示意图;
图13为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S41的具体流程示意图;
图14为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S417的具体流程示意图;
图15为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的图像旋转前的示意图;
图16为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的图像旋转后的示意图;
图17为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的相似度匹配实例示意图;
图18为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的提取骨架图像的流程示意图。
具体实施方式
为了更好地解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本发明实施例提出一种基于骨架相似度的手写体汉字美观度评判方法,图1为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的流程示意图,如图1所示,包括:首先,预先设定汉字图像评价标准,并根据制定的多个标准汉字建立标准汉字数据集与目标汉字数据集,接着对汉字图像进行预处理,通过改进的Zhang-Suen细化算法提取经预处理的二值化图像的汉字骨架图像,最后基于ORB图像模板匹配算法对汉字骨架图像与预设的汉字图像评价标准进行比对,得出评价分数。
上述技术方案具有如下效果:
(1)采用了一字一建模的方案。通过教育与计算机技术的结合对每个汉字依据书法专家的评价标准人工设计并选取评价特征,选取了图像的模板匹配算法去计算汉字图像之间的相似度,继而建立书法作品评判模型实现对于手写体汉字特征的抽取以及相似度计算,填补了手写体汉字在自动化美观度评判应用上的空白。
(2)改变了手写体汉字评价中传统图像的二值化比对方法,通过提取骨架抽取图像的特征信息,运用模板匹配算法对目标手写体汉字图像与标准手写体汉字图像进行比对,进而使得手写体汉字评价模型更加鲁棒,美观度评价更加客观。
(3)通过改进Zhang-Suen细化算法,提取到的字体骨架平滑、无毛刺、单一像素化,能够充分表达字体的拓扑信息。
(4)改进后的ORB模板匹配算法,能够高效的衡量目标汉字图像与标准汉字图像相似度。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
具体地,本发明提供一种基于骨架相似度的手写体汉字美观度评判方法,其包括:
在步骤S1之前,通过与书法专家讨论并结合《中小学书法教育指导纲要》共同总结出一套书法教学评判标准,以理论分析的方式去量化一套计算机能够度量的汉字图像评价标准,形成专家规则库,从而为后续的评判方案提供客观、专业的评价依据。表1为硬笔楷体书法总体评价,如表1所示,专家规则库中的标准为:
表1
S1、根据制定的多个标准汉字图像建立标准汉字数据集,将按照标准汉字数据集中的标准汉字进行临摹获取的临摹图像进行分割,得到目标汉字数据集。
建立标准汉字数据集,便于后续通过目标汉字与标准汉字的对比得出客观的评价结果。为确保收集到的目标汉字与标准汉字能够涵盖汉字图像评判的标准,本发明设计了标准汉字字帖并规定学生临摹标准汉字作为引导,对收集来的学生临摹汉字进行后续处理组成目标汉字图像集。
在本发明实施例中,通过与书法专家探讨,制定出960个标准汉字作为标准汉字数据集,并制作成字帖,字帖共计32页,每页字帖包含30个标准汉字及相对应的田字格,以便模拟中小学生书写时的常见情景,标准汉字均由书法专家书写和示范,以便学生进行临摹仿写时进行参照。图2为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的临摹图像,如图2所示,在书法教育课程中,由专业书法教师指导,完成字帖的书写(图中第1、5、9行是标准字体,其余行均为临摹),将书写完成后的字帖全部回收进实验室并使用电子扫描仪对书写好的字帖进行扫描并转化为电子汉字图像进行存储。图3为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的目标汉字图像,如图3所示,最后对临摹图像分割操作,进而根据多个目标汉字图像构建成目标汉字数据集。
S2、对目标汉字数据集中的目标汉字图像进行预处理,得到经预处理的二值化图像。图4为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S2的具体流程示意图,如图4所示,步骤S2包括:
S21、根据手写体汉字、手写体汉字的背景环境以及图像本身的无规律像素点,对目标汉字数据集中的目标汉字图像进行图像的二值化,得到二值化图像。
S22、通过高斯低通滤波图像去噪方法对图像中包括噪声点、毛刺、空穴的异常点进行剔除,之后使用中值滤波图像平滑方法对经去噪的二值化图像进行平滑处理,并经归一化处理得到经预处理的二值化图像。
由于输入计算机的汉字图像经常存在一些噪声,导致了图像质量的下降,从而影响对手写汉字图像的骨架提取。本发明的预处理主要包括二值化、去噪、平滑、归一化等步骤,首先,通过对图像中的手写体汉字、手写体汉字的背景环境以及图像本身的一些无规律的像素点进行分析,得到二值化的图像。然后使用对目标汉字图像进行去噪,扫描二值化的图像,使用高斯低通滤波图像去噪方法对图像中存在的噪声点、毛刺、空穴等进行剔除。接着使用中值滤波图像平滑方法对目标汉字图像进行平滑处理,平滑处理的目的是为了减少笔划的边缘噪声、删去孤立点以及填充孤立的空洞,这些预处理步骤能够为后续目标汉字的特征提取提供更好的效果。
S3、基于改进的Zhang-Suen细化算法提取经预处理的二值化图像的汉字骨架图像;改进的Zhang-Suen细化算法设有消除模板与保留模板,消除模板用于删除汉字骨架图像的斜线区域的非骨架像素点,保留模板用于保留骨架关键像素点。本发明对经预处理的二值化图像的特征提取,目标是抽取出的书法字体图像的拓扑描述并减少图像中的冗余信息,即文字骨架。文字骨架能充分表达字体的形态特征,为后续的相似度匹配提供不受笔画粗细不同等原因影响的样本图像。
在采用改进的Zhang-Suen细化算法之前,首先作出如下的定义:
设G为二值化图像,P0是图G中任意一个值为1目标像素点。
8-邻域:表2为目标像素点的8-邻域,如表2所示,与P0相邻的八个邻域所组成的像素点集合S={P1,P2,P3,P4,P5,P6,P7,P8}称为像素点P0的8-邻域。
表2
P8 | P1 | P2 |
P7 | P0 | P3 |
P6 | P5 | P4 |
16-环域:表3为目标像素点的16-环域,如表3所示,与P0相邻的十六个邻域所组成的像素点集合称为像素点P0的16-环域。
表3
P23 | P24 | P9 | P10 | P11 |
P22 | P12 | |||
P21 | P0 | P13 | ||
P20 | P14 | |||
P19 | P18 | P17 | P16 | P15 |
前景点和背景点:二值化图像中值为1的像素点即为前景点,值为0的像素点为背景点。
P0的连接数:与P0相邻的8-邻域中前景像素点的个数记为式(1),与P0相邻的16-环域中前景像素点的个数记为式(2)。
P0的交叉数:在与P0相邻的8-邻域中以顺时针为序转一圈,像素点从背景点变化到前景点的总次数和,记为式(3)。
端点end:若P0的8-邻域内只有一个骨架点像素并且P0本身就是骨架点,称P0为端点。记为式(4),其中count为当前像素点P0的8-邻域内骨架点总数。
节点node:若P0的8-邻域内存在两个或更多骨架点像素,称P0为节点。
记为式(5),其中count为当前像素点P0的8-邻域内骨架点总数。
生长点grow:若P0的8-邻域内存在三个或更多骨架点像素,并为毛刺起点,称P0为生长点,其属于节点的一种。记为式(6),其中change为当前像素点P0的8-邻域内由骨架点到背景点的变化次数。
步长:以像素为单位,单一像素宽度骨架分支所具有的所有像素点个数。
毛刺:骨架由于噪声的影响出现不能反应目标结构信息的分支。结合细化的迭代次数得出对于毛刺的判定阈值如式(7)所示。其中L是毛刺长度,ceil表示取大于等于括号内的最小整数,times为图像细化迭代的次数。
图5为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S3的具体流程示意图,如图5所示,步骤S3的具体流程为:
S31、采用Zhang-Suen细化算法对经预处理的二值化图像进行处理,对符合非骨架点的删除条件的像素进行标记,在遍历完经预处理的二值化图像的像素之后,删除被标记的像素点,得到初步细化的汉字骨架图像。
图6为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S31的具体流程示意图,如图6所示,步骤S31的具体流程包括:
S311、对经预处理的二值化图像按从上到下、从左到右的顺序遍历,寻找前景点P0,前景点P0为二值化图像中值为1的像素点。
S312、判断前景点P0是否符合Zhang-Suen算法设定的非骨架点的删除条件,若符合则标记为可删除的点。
Zhang-Suen细化算法是典型的迭代、并行细化算法,细化对象是二值图像,具有速度快,能精确的保持原图像直线、型交叉和拐角的特点。Zhang-Suen细化算法根据8-邻域的情况重复执行逻辑运算,当符合非骨架点的删除条件时,对像素进行标记,在遍历完全部图像点阵之后再统一执行删除操作。
在步骤S312中,执行Zhang-Suen细化算法设定的非骨架点的删除条件的操作包括重复迭代的第一子过程与第二子过程;在迭代过程中检测是否有被标记的点,若有则继续重复进行迭代过程,若否则停止迭代,细化算法结束。此时剩下的点所构成的区域即为骨架。
第一子过程为:若同时满足以下4个条件,则标记前景点P0为可删除的点。第一条件:2≤N(P0)≤6,第二条件:N(P0)=1,第三条件:P1*P3*P5=0,第四条件:P3*P5*P7=0。其中,通过第一条件判断前景点P0是否为端点,如果前景点P0仅有一个邻点,则为端点,不能被标记,如果前景点P0有七个邻点,为保证骨架的连通性,也不能被标记;通过第二条件判断前景点P0的8-邻域是否有0到1之间的变化,以保证骨架像素点不被标记;通过第三条件标记8-邻域东南边的非骨架像素点;通过第四条件标记8-邻域西北角的非骨架像素点。
第二子过程为:若同时满足以下4个条件,则标记前景点P0为可删除的点。第一条件:2≤N(P0)≤6,第二条件:N(P0)=1,第五条件:P1*P5*P7=0,第六条件:P1*P3*P7=0。其中,通过第五条件标记8-邻域西北边的非骨架像素点,通过第六条件标记8-邻域东南角的非骨架像素点。
S313、在遍历完经预处理的二值化图像的像素之后,删除所有被标记的点,得到初步细化的汉字骨架图像。
S32、对初步细化的汉字骨架图像通过消除模板与保留模块标记斜线区域的非骨架像素点,在遍历完初步细化的汉字骨架图像之后,删除被标记的像素点,得到单一像素宽度的汉字骨架图像。
分析Zhang-Suen细化算法的原理,发现造成手写体汉字骨架非单一像素宽的主要原因为图像中部分像素点不满足而未被标记删除。为了消除图像冗余,保证文字骨架的细化性,本发明提出了消除模板,同时,文字骨架经过消除模板细化后,由于约束条件太强发现原有文字骨架较易出现断点现象,为了避免破坏细化后图像的连续性,本发明还提出了保留模板。
图7为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S32的具体流程示意图,如图7所示,步骤S32的具体流程包括:
S321、对初步细化的汉字骨架图像进行遍历,寻找前景点P0。
S322、若前景点P0满足删除模板的条件,则标记该点为可删除的点,再检测该像素点是否符合保留模板条件,若符合则去除标记保留下来,否则继续遍历。
S323、在遍历完初步细化的汉字骨架图像后,删除所有被标记的点,得到单一像素宽度的汉字骨架图像。
表4为消除模板的条件示意表,如表4所示,消除模板的条件包括:
a1:(P1*P7=1)&(P3+P4+P5+P8=0),
a2:(P5*P7=1)&(P1+P2+P3+P6=0),
a3:(P1*P3=1)&(P2+P5+P6+P7=0),
a4:(P3*P5=1)&(P1+P4+P7+P8=0),
a5:(P2+P4+P6+P8=0)&(P1+P3+P5+P7=0)。
其中,&表示两个条件同时存在,*表示相乘。
同时,以从上到下、从左至右的顺序表4中的第一个子表对应a1、第二子表对应a2、第三子表对应a3、第四子表对应a4,以及第五子表、第六子表、第七子表与第八子表均对应a5。
表4
图8-1为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的斜线区域冗余像素图,而图8-2与图8-3分别为左侧斜线区域放大图以及右侧斜线区域放大图,消除模板的条件中的a1~a4主要用于如图8-1、图8-2以及图8-3所示的消除斜线冗余像素。但是,点可能是分叉点,也可能是边界点。表5-1为分叉点细化不彻底的表,如表5-1所示,由于分叉点同样会出现冗余像素,所以引入消除条件用于分叉点冗余像素的删除。表5-2为分叉点彻底细化后的表,如表5-2所示,引入消除条件,较好地删除了手写体汉字骨架斜线区域的非骨架像素点。
表5-1
X | 1 | X | X |
X | P0 | 1 | 1 |
X | 1 | X | X |
表5-2
X | 1 | X | X |
X | X | 1 | 1 |
X | 1 | X | X |
表6为消除模板的条件表,如表6所示,前景点像素P0满足消除模板的条件a3,前景点像素P0'满足消除模板的条件a2,此时细化后会产生断点。为避免产生断点,保留P0,消除P0'。保留模板的条件包括:
b1:P1*P3*P4+P6=1,
b2:P2*P3*P5+P8=1,
b3:P4*P5*P7+P2=1,
b4:P1*P2*P7+P4=1。
表6
S33、计算单一像素宽度的汉字骨架图像中各分支步长,选取最小步长与设定的阈值L对比,判定与消除单一像素宽度的汉字骨架图像的毛刺,得到无毛刺的汉字骨架图像。由于手写字体结构的复杂性和书写的随意性较大,经过细化后的手写体汉字骨架仍存在少量毛刺,毛刺破坏了汉字骨架的拓扑性,不利于突出手写体汉字的形状特征。毛刺长度一般难以归纳,但相对于骨架中心来说,骨架的长度一般远大于毛刺长度,所以利用这一个特性,设定一个阈值L并选取最小步长分支进行毛刺的判定与消除。
图9为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S33的具体流程示意图,如图9所示,步骤S33的具体流程包括:
S331、任意选取骨架像素点,并判断当前骨架像素点是否符合节点判断条件,若符合该点为节点node;或判断当前骨架像素点是否符合生长点判断条件,若符合该点为生长点grow。
S332、检测该像素点是否为毛刺的起始位置,以端点为起点对分支进行扫描,记录端点到该点的长度值为步长K。
S333、取最小步长与阈值L进行比较,若该分支的步长K小于阈值L,则标记该分支,并计算分支所在节点node或生长点grow的总分支数,若总分支数大于2,则该分支判定为毛刺,删除该分支。
S334、若该节点node或生长点grow删除分支后的余留分支数等于2,则通过当前骨架像素点的8-邻域像素分析删除该点是否会导致骨架断点,影响骨架连通性,若没有出现断点,则保留该点,若出现断点,则删除该点。
S335、重复执行步骤S333-步骤S334,直至单一像素宽度的汉字骨架图像遍历完毕,得到无毛刺的汉字骨架图像。
进一步地,节点判断条件为:N(P0)≥2或M(P0)≥2;
生长点判断条件为:S(P0)=3&M(P0)≥3&N(P0)≥3;
其中,在与P0相邻的8-邻域中以顺时针为序转一圈,像素点从背景点变化到前景点的总次数和为S(P0);与前景点P0相邻的8-邻域中前景像素点的个数记为N(P0),与前景点P0相邻的16-环域中前景像素点的个数记为M(P0)。
本发明实施例中选取Zhang-Suen细化算法对手写体算法汉字进行特征提取,鉴于Zhang-Suen细化算法细化过程迭代少、速度快,但存在骨架毛刺,骨架斜线区域易出现像素冗余的现象,本发明对Zhang-Suen细化算法进行改进,创造性地提出了消除模板以及保留模板,首先使用消除模板和保留模板在保证手写体汉字骨架连续性的基础上,实现了骨架的单一像素化,其次,引进了门限机制的判定方法,通过毛刺长度值与设定的阈值进行对比的方式去除了骨架毛刺。图10为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的手写体汉字二值图像,图11为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的细化后的手写体汉字二值图像,如图10与图11所示,优化后的算法生成的文字骨架较平滑,基本无毛刺和冗余像素,能够得到完整、正确的手写体汉字骨架。
S4、基于改进的ORB图像模板匹配算法获得汉字骨架图像与标准汉字图像的相似度,根据相似度与预设的字体评价标准得到评价分数。
图像相似度匹配,是衡量样本图片与目标图片相似度的指标。图像模板匹配是相似度匹配的重要步骤,由于手写体汉字笔画具有丰富的书写特征,字体的形态、倾斜程度不同,直接对目标字体字体骨架和字帖标准字体骨架进行比对无法得到令人满意的结果。本发明引入具有缩放、旋转不变性的改进的ORB图像模板匹配算法,对特征提取后的学生书法字体骨架和字帖标准字骨架进行比对,发现可以避免因字体的形态、倾斜程度不同带来的影响。
图12为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S4的具体流程示意图,如图12所示,步骤S4的具体流程为:
S41、基于改进的ORB模板匹配算法得到汉字骨架图像的特征描述子与标准汉字图像的特征描述子。
ORB图像模板匹配算法是一种二进制局部特征描述方法,结合了计算速度快的FAST关键点和BIEF描述符并进行了相应的优化。FAST关键点算法是一种基于尺寸模板的角点检测方法,优点是特征点的提取速度比较快,判别方式十分简单,适用于图像中角点和边缘的检测,具有高效且抗噪能力强的特点。BRIEF局部特征描述子算法即是对提取到的特征点周围的区域的描述,是一种二进制描述方法,其描述向量由0和1构成,因此描述符建立速度较快的同时也极大的压缩了其存储容量。BRIEF局部特征描述子主要思路是在特征点的周围随机选取若干个点对,将这些点对的灰度值的大小组合成一个二进制串,并将这个二进制串作为该特征点的特征描述子。本发明实施例中首先通过构建图像金字塔模拟在不同尺度下的灰度化后目标汉字图像,并在每一层高斯图像上提取特征点,再对每一个关键点计算BRIEF局部特征描述子。
图13为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S41的具体流程示意图,如图13所示,步骤S41包括:
S411、构建图像金字塔,图像金字塔的底层为灰度化的汉字骨架图像,由底层往顶层的每层均为下层图像通过下采样得到的子图像。为了避免ORB模板匹配算法受因目标汉字的大小不同影响其灰度的计算,引入了图像金字塔使得FAST关键点检测算法具备一定的旋转不变性。原始图像构成图像金字塔的最低层,然后通过对目标图像进行连续的下采样获得更低分辨率的子图像,即在图像金字塔的每个级别都由上个级别下采样得到。图像金字塔通过生成不同分辨率图像的方法,提取图像中目标汉字的特征学习,从而模拟目标在不同尺度下的特征。
其中,图像金字塔为:
M(x,y,σ,p)=p×G(x,y,σ)×l(x,y),
其中,l(x,y)为灰度化的汉字骨架图像,p为采样因子,σ为图像的尺度因子,G(x,y,σ)为高斯核函数,
S412、对图像金字塔的每层子图像使用FAST关键点检测算法提取多个特征点。
S413、在任选的特征点Pi的矩阵邻域内进行高斯平滑,矩阵邻域是以该特征点Pi为中心,形状为s×s的矩形。
S414、在矩阵邻域内基于判定函数随机生成N个点对,判定函数为:
其中,p(x)为x的灰度值,p(y)为y的灰度值。
S415、从N个点对中随机选取一个点对,并比较灰度值大小。
S416、对N个点对中剩余的点对循环步骤S415,得到由二进制码构成的特征点Pi的特征描述子:
S417、根据特征点Pi的圆形邻域的灰度质心,得到特征点的主方向,基于特征点的主方向对特征描述子的坐标进行旋转变换,获得具有旋转不变性的特征描述子。
图14为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的步骤S417的具体流程示意图,如图14所示,步骤S417包括:
S417-1、以任选的特征点Pi为中心,建立半径为r的圆形邻域,圆形邻域包含若干个点对,则特征点的邻域像素阶距为:
mpq=∑xpyqI(x,y),
其中,(x,y)是像素点的坐标,I(x,y)是像素点的灰度值,p、q均为整数,p、q无特殊含义,其为整数,不是上角标,而是作为幂次(例如0,1,2...)。
S417-2、基于特征点的邻域像素阶距,求取特征点邻域的灰度质心坐标为:
其中,Cx为灰度质心的行坐标,Cy为灰度质心的列坐标。;m00为零阶距表示物体质量,(m10,m01)为一阶距表示物体的质心。
S417-3、通过特征点到灰度质心的方向向量来确定特征点的主方向:
S417-4、根据特征点Pi的主方向,得到旋转矩阵:
S417-5、根据特征点Pi的主方向与对应的旋转矩阵,得到具有旋转不变性的特征描述子。
S418、循环S413-S417,求取各特征点的具有旋转不变性的特征描述子。
为了避免BRIEF局部特征描述子算法受因目标字体偏转、倾斜而导致的旋转不变形差,本发明引入了灰度质心描述子。BRIEF局部特征描述子算法是通过将特征点像素与其周围邻域内像素点对进行比较的方式来对特征点进行描述,但缺点是没有考虑到特征点的方向,不具备旋转不变形,无法应对目标汉字图像出现字体旋转的情况。本发明通过计算特征点邻域的灰度质心得到特征点的主方向,然后根据其方向的角度对描述子点对的坐标进行旋转变换,进而使得BRIEF局部特征描述子算法具备旋转不变性。
图15为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的图像旋转前的示意图,如图15所示,基于灰度质心描述子的BRIEF局部特征描述子算法将特征点设为中心点,以从特征点和质心坐标点间的方向向量为坐标轴建立2维直角坐标系。图16为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的图像旋转后的示意图,如图16所示,当目标汉字图像发生不同程度上的旋转时,随图像的旋转而旋转至特征点和质心坐标点的连线PQ作为方向坐标轴时,因为它同时随着图像的旋转而旋转,所以BRIEF采集出的比较点对是一致的,使得BRIEF局部特征描述子算法具备了旋转不变性。
S42、对特征描述子进行归一化处理,利用相似度公式对归一化后的特征描述子进行计算,得到图像之间的相似度;
相似度公式为:
其中,S表示两幅图像之间的相似度,值越大表示两幅图像相似度越高,N是匹配到的特征描述子对数,Pi表示汉字骨架图像的特征描述子,Qi表示标准汉字图像的特征描述子,DIS(Pi,Qi)是计算两幅图像特征描述子的欧式距离,
S43、根据相似度与预设的字体评价标准得到评价分数。图17为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的相似度匹配实例示意图,进行如图17所示的相似度评价,表7为匹配得分表,具体评价得分如下表所示:
表7
本发明使用基于改进的ORB模板匹配算法的相似度计算方法计算目标汉字与标准汉字图像的相似度,进而对目标汉字的美观程度做出评分。基于改进的ORB图像模板匹配算法的相似度计算先是抽取出图像中的特征点,特征点即为表示图像中的特征点,然后对特征点向量进行归一化处理,最后对利用欧式距离对归一化后的特征点向量进行度量,进而表示图像之间的相似度。这种方法的优点是有很好的抗干扰能力,图像中的特征点具有一定旋转不变性,在一定程度上不受目标图像的旋转和偏移的影响。
综上所述,本发明公开了一种基于骨架相似度的手写体汉字美观度评判方法,图18为本发明提供的一种基于骨架相似度的手写体汉字美观度评判方法的提取骨架图像的流程示意图,如图18所示,其提取骨架图像的流程为:首先,输入OCR扫描后的手写汉字图像;其次,对汉字图像进行图像的预处理,对手写体汉字图像预处理,目标是去除字体图像中的孤立点、图像空洞,为后续手写体汉字的特征提取提供图像噪声较少的样本图像;接着,选取并改进图像特征提取算法应用于汉字图像,本发明选取并改进了Zhang-Suen图像细化算法对汉字图像进行特征提取,再进行毛刺的消除,最后输出无毛刺的汉字骨架图像。
在得到无毛刺的汉字骨架图像之后,选取汉字图像的相似度匹配方法并根据匹配结果得出评价分数。目前针对手写体汉字图像的相似度匹配领域的相关研究相对较少,本发明选取了图像的模板匹配方法对目标汉字与标准汉字图像进行相似度匹配,通过改进ORB模板匹配算法以适用于手写体汉字图像,目标是对特征提取后的学生书法字体骨架和字帖标准字骨架进行比对,进而得出相似度。然后根据相似度得出评价分数。
本发明通过改进Zhang-Suen特征提取算法生成的文字骨架较平滑,基本无毛刺和冗余像素,能够得到完整、正确的手写体汉字骨架;改进后的ORB模板匹配算法,能够高效的衡量目标汉字图像与标准汉字图像相似度。本研究应用于中小学手写汉字书法评价,能够大幅降低书法老师的负担,辅助老师对学生书法做出合理的评判,对于提高教学效率有着助力的作用。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (9)
1.一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,包括:
S1、根据制定的多个标准汉字图像建立标准汉字数据集,将按照所述标准汉字数据集中的标准汉字进行临摹获取的临摹图像进行分割,得到目标汉字数据集;
S2、对所述目标汉字数据集中的目标汉字图像进行预处理,得到经预处理的二值化图像;
S3、基于改进的Zhang-Suen细化算法提取所述经预处理的二值化图像的汉字骨架图像;所述改进的Zhang-Suen细化算法设有消除模板与保留模板,所述消除模板用于删除汉字骨架图像的斜线区域的非骨架像素点,所述保留模板用于保留骨架关键像素点;
S4、基于具有缩放、旋转不变性的改进的ORB图像模板匹配算法获得所述汉字骨架图像与所述标准汉字图像的相似度,根据所述相似度与预设的字体评价标准得到评价分数;
步骤S4包括:
S41、基于改进的ORB模板匹配算法得到汉字骨架图像的特征描述子与标准汉字图像的特征描述子;
S42、对特征描述子进行归一化处理,利用相似度公式对归一化后的特征描述子进行计算,得到图像之间的相似度;
S43、根据所述相似度与预设的字体评价标准得到评价分数;
步骤S41包括:
S411、构建图像金字塔,所述图像金字塔的底层为灰度化的汉字骨架图像或灰度化的标准汉字图像,由底层往顶层的每层均为下层图像通过下采样得到的子图像;
所述图像金字塔为:
M(x,y,σ,p)=p×G(x,y,σ)×l(x,y),
其中,l(x,y)为灰度化的汉字骨架图像,p为采样因子,σ为图像的尺度因子,G(x,y,σ)为高斯核函数,
S412、对图像金字塔的每层子图像使用FAST关键点检测算法提取多个特征点;
S413、在任选的特征点Pi的矩阵邻域内进行高斯平滑,所述矩阵邻域是以该特征点Pi为中心,形状为s×s;
S414、在所述矩阵邻域内基于判定函数随机生成N个点对,所述判定函数为:
其中,p(x)为x的灰度值,p(y)为y的灰度值;
S415、从N个点对中随机选取一个点对,并比较灰度值大小;
S416、对N个点对中剩余的点对循环步骤S415,得到由二进制码构成的特征点Pi的特征描述子:
S417、根据特征点Pi的圆形邻域的灰度质心,得到特征点的主方向,基于特征点的主方向对特征描述子的坐标进行旋转变换,获得具有旋转不变性的特征描述子;
S418、循环步骤S413-步骤S417,求取各特征点的具有旋转不变性的特征描述子。
2.如权利要求1所述的一种基于骨架相似度的手写体汉字美观度评价方法,其特征在于,步骤S3包括:
S31、采用Zhang-Suen细化算法对所述经预处理的二值化图像进行处理,对符合非骨架点的删除条件的像素进行标记,在遍历完经预处理的二值化图像的像素之后,删除被标记的像素点,得到初步细化的汉字骨架图像;
S32、对所述初步细化的汉字骨架图像通过消除模板与保留模块标记斜线区域的非骨架像素点,在遍历完初步细化的汉字骨架图像的像素之后,删除被标记的像素点,得到单一像素宽度的汉字骨架图像;
S33、计算所述单一像素宽度的汉字骨架图像中各分支步长,选取最小步长与设定的阈值L对比,判定与消除所述单一像素宽度的汉字骨架图像的毛刺,得到无毛刺的汉字骨架图像。
3.如权利要求2所述的一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,步骤S31包括:
S311、对所述经预处理的二值化图像按从上到下、从左到右的顺序遍历,寻找前景点P0;所述前景点P0为二值化图像中值为1的像素点;
S312、判断前景点P0是否满足Zhang-Suen细化算法设定的非骨架点的删除条件,若满足则标记为可删除的点;
S313、在遍历完经预处理的二值化图像的像素之后,删除所有被标记的点,得到初步细化的汉字骨架图像。
4.如权利要求3所述的一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,步骤S32包括:
S321、对所述初步细化的汉字骨架图像进行遍历,寻找前景点P0;
S322、若前景点P0满足删除模板的条件,则标记该像素点为可删除的点,再检测该像素点是否符合保留模板条件,若符合则去除标记保留下来,否则继续遍历;
S323、在遍历完所述初步细化的汉字骨架图像后,删除所有标记的像素点,得到单一像素宽度的汉字骨架图像。
5.如权利要求4所述的一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,
所述消除模板的条件包括:
a1:(P1*P7=1)&(P3+P4+P5+P8=0),
a2:(P5*P7=1)&(P1+P2+P3+P6=0),
a3:(P1*P3=1)&(P2+P5+P6+P7=0),
a4:(P3*P5=1)&(P1+P4+P7+P8=0),
a5:(P2+P4+P6+P8=0)&(P1+P3+P5+P7=0);
所述保留模板的条件包括:
b1:P1*P3*P4+P6=1,
b2:P2*P3*P5+P8=1,
b3:P4*P5*P7+P2=1,
b4:P1*P2*P7+P4=1,
其中,&表示两个条件同时存在,*表示相乘,与前景点P0相邻的八个邻域所组成的像素点集合S={P1,P2,P3,P4,P5,P6,P7,P8}称为像素点P0的8-邻域。
6.如权利要求5所述的一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,步骤S33包括:
S331、任意选取骨架像素点,并判断当前骨架像素点是否符合节点判断条件,若符合该点为节点node;或判断当前骨架像素点是否符合生长点判断条件,若符合该点为生长点grow;
S332、检测该骨架像素点是否为毛刺的起始位置,以端点为起点对分支进行扫描,记录端点到该点的长度值为步长K;
S333、取骨架的最小步长与阈值L进行比较,若该分支的步长K小于阈值L,则标记该分支,并计算分支所在节点node或生长点grow的总分支数,若总分支数大于2,则该分支判定为毛刺,删除该分支;
S334、若该节点node或生长点grow删除分支后的余留分支数等于2,则通过当前骨架像素点的8-邻域像素分析删除该点是否会导致骨架断点,若没有出现断点,则保留该点,若出现断点,则删除该点;
S335、重复执行步骤S333-步骤S334,直至单一像素宽度的汉字骨架图像遍历完毕,得到无毛刺的汉字骨架图像。
7.如权利要求6所述的一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,
所述节点判断条件为:N(P0)≥2或M(P0)≥2;
所述生长点判断条件为:S(P0)=3&M(P0)≥3&N(P0)≥3;
其中,在与P0相邻的8-邻域中以顺时针为序转一圈,像素点从背景点变化到前景点的总次数和为S(P0);与前景点P0相邻的8-邻域中前景像素点的个数记为N(P0),与前景点P0相邻的16-环域中前景像素点的个数记为M(P0)。
8.如权利要求1所述的一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,
所述相似度公式为:
其中,S表示两幅图像之间的相似度,值越大表示两幅图像相似度越高,N是匹配到的特征描述子对数,Pi表示汉字骨架图像的特征描述子,Qi表示标准汉字图像的特征描述子,DIS(Pi,Qi)是计算两幅图像特征描述子的欧式距离,
9.如权利要求1所述的一种基于骨架相似度的手写体汉字美观度评判方法,其特征在于,步骤S417包括:
S417-1、以任选的特征点Pi为中心,建立半径为r的圆形邻域,圆形邻域包含若干个点对,则特征点的邻域像素阶距为:
mpq=∑xpyqI(x,y),
其中,(x,y)是像素点的坐标,I(x,y)是像素点的灰度值,p、q均为整数;
S417-2、基于特征点的邻域像素阶距,求取特征点邻域的灰度质心坐标为:
其中,Cx为灰度质心的行坐标,Cy为灰度质心的列坐标;m00为零阶距表示物体质量,(m10,m01)为一阶距表示物体的质心;
S417-3、通过特征点到灰度质心的方向向量来确定特征点的主方向:
S417-4、根据特征点Pi的主方向,得到旋转矩阵:
S417-5、根据特征点Pi的主方向与对应的旋转矩阵,得到具有旋转不变性的特征描述子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643010.9A CN112712273B (zh) | 2020-12-30 | 2020-12-30 | 一种基于骨架相似度的手写体汉字美观度评判方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643010.9A CN112712273B (zh) | 2020-12-30 | 2020-12-30 | 一种基于骨架相似度的手写体汉字美观度评判方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712273A CN112712273A (zh) | 2021-04-27 |
CN112712273B true CN112712273B (zh) | 2024-01-19 |
Family
ID=75548056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011643010.9A Active CN112712273B (zh) | 2020-12-30 | 2020-12-30 | 一种基于骨架相似度的手写体汉字美观度评判方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712273B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627127B (zh) * | 2022-05-17 | 2022-07-15 | 南京工业大学 | 一种干涉图像的骨架提取后去毛刺优化方法 |
EP4328851A4 (en) * | 2022-06-30 | 2024-08-14 | Contemporary Amperex Technology Co Ltd | IMAGE PROCESSING METHOD AND APPARATUS |
CN115471849B (zh) * | 2022-11-03 | 2023-06-06 | 南京信息工程大学 | 一种手写汉字图像评估方法及系统 |
CN115841671B (zh) * | 2023-02-21 | 2023-06-06 | 南京信息工程大学 | 一种书法字骨架矫正方法、系统及存储介质 |
CN115984875B (zh) * | 2023-03-21 | 2023-06-06 | 南京信息工程大学 | 一种硬笔楷书临摹作品的笔画相似性评价方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182732A (zh) * | 2014-08-12 | 2014-12-03 | 南京师范大学 | 基于特征矩阵进行相似度匹配的手写汉字笔画确认方法 |
CN111738141A (zh) * | 2020-06-19 | 2020-10-02 | 首都师范大学 | 一种硬笔书法作品评判方法 |
-
2020
- 2020-12-30 CN CN202011643010.9A patent/CN112712273B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182732A (zh) * | 2014-08-12 | 2014-12-03 | 南京师范大学 | 基于特征矩阵进行相似度匹配的手写汉字笔画确认方法 |
CN111738141A (zh) * | 2020-06-19 | 2020-10-02 | 首都师范大学 | 一种硬笔书法作品评判方法 |
Non-Patent Citations (3)
Title |
---|
基于改进ZS 细化算法的手写体汉字骨架提取;常庆贺等;计算机应用与软件;第37卷(第7期);第108-113页 * |
基于骨架相似性的书法字检索;俞凯;吴江琴;庄越挺;;计算机辅助设计与图形学学报(06);全文 * |
数字化功能信息纸张的产品建模与图像识别研究;张开生;韦逸野;;中国造纸学报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112712273A (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712273B (zh) | 一种基于骨架相似度的手写体汉字美观度评判方法 | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN100373399C (zh) | 建立劣化字典的方法和装置 | |
CN111626146B (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
CN112597876B (zh) | 基于特征融合的书法汉字评判方法 | |
CN102542264A (zh) | 基于数字手写设备的汉字书写正误自动评测方法和装置 | |
CN111626297A (zh) | 文字书写质量评价方法、装置、电子设备和记录介质 | |
JPH05500874A (ja) | ディジタル化書類における選択本文の自動抽出のための多角形準拠式方法 | |
CN113705673B (zh) | 一种文字检测方法、装置、设备及存储介质 | |
CN110020692A (zh) | 一种基于印刷体模板的手写体分离与定位方法 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN110738030A (zh) | 表格重建方法、装置、电子设备及存储介质 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN114463770A (zh) | 一种用于普遍试卷题目的智能切题方法 | |
WO2023065397A1 (zh) | 一种手写汉字图像的笔顺识别方法及系统 | |
CN115331012A (zh) | 基于零样本学习的联合生成式图像实例分割方法及系统 | |
CN109271882B (zh) | 一种区分颜色的手写体汉字提取方法 | |
CN118135584A (zh) | 一种基于深度学习的手写表单自动识别方法和系统 | |
CN114241492A (zh) | 一种识别作文稿纸的手写文本识别并复现文本结构的方法 | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms | |
CN111612045A (zh) | 一种获取目标检测数据集的通用方法 | |
Huahong et al. | A new type method of adhesive handwritten digit recognition based on improved faster RCNN | |
CN115984875A (zh) | 一种硬笔楷书临摹作品的笔画相似性评价方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |