CN115471849A - 一种手写汉字图像评估方法及系统 - Google Patents

一种手写汉字图像评估方法及系统 Download PDF

Info

Publication number
CN115471849A
CN115471849A CN202211365489.3A CN202211365489A CN115471849A CN 115471849 A CN115471849 A CN 115471849A CN 202211365489 A CN202211365489 A CN 202211365489A CN 115471849 A CN115471849 A CN 115471849A
Authority
CN
China
Prior art keywords
skeleton
stroke
chinese character
points
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211365489.3A
Other languages
English (en)
Other versions
CN115471849B (zh
Inventor
徐占洋
杨盛凯
徐益鸣
马彪
李丁宇
张家瑞
王晶弘
秦飞扬
熊宁阳
汤正博
林巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Children's Spring Internet Education Technology Co ltd
Nanjing University of Information Science and Technology
Original Assignee
Jiangsu Children's Spring Internet Education Technology Co ltd
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Children's Spring Internet Education Technology Co ltd, Nanjing University of Information Science and Technology filed Critical Jiangsu Children's Spring Internet Education Technology Co ltd
Priority to CN202211365489.3A priority Critical patent/CN115471849B/zh
Publication of CN115471849A publication Critical patent/CN115471849A/zh
Application granted granted Critical
Publication of CN115471849B publication Critical patent/CN115471849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种手写汉字图像评估方法及系统,首先获取手写汉字图像和模板汉字图像,进行去噪和二值化处理,得到预处理图像;再进行笔画类型确定处理,将得到手写汉字图像的笔画类型和模板汉字图像的笔画类型进行比较,获得手写汉字图像的相似度值,用于评估手写汉字图像,本发明将手写汉字精确到笔画层级评估,方便进行全面性评价。

Description

一种手写汉字图像评估方法及系统
技术领域
本发明属于图像检测技术领域,具体涉及一种手写汉字图像评估方法及系统。
背景技术
书法为一种历史悠久且独特的艺术,近些年来教育部加强督促教育行业对学生书写能力的培养力度,但是实际实施中,一方面由于很多老师或家长对于书法并非精通,不能对学生的书法做出针对性的指导,另一方面由于书法老师的精力和时间有限,很难做到对学生的每一个书法作品都做出评价和提出指导意见,限制学生书写能力的提升。
现有技术中公开有对毛笔书法以及硬笔书法评判的算法,这些手写体自动评判技术,从数据获取方式可分为两类:一类是利用电子设备获取书写数据的手写汉字分析,可以实时的采集书写者书写过程中的各种数据,能够更准确地获得手写体的笔画信息,但是采用这种方案需要在电子设备上进行书写,不仅成本比较高,而且在屏幕上写字和在纸上书写手感完全不一致,其实际参考价值并不大。另一类是只利用图片的汉字分析,把练习好的字拍摄并上传到评价系统,根据预先设定好的程序对其进行自动评判,但是目前对离线的汉字进行评判仍存在较大困难,需要进一步的研究。且现有技术对笔画的美感没有进行有效评判,无法对学生书写能力进行全面性评价。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种手写汉字图像评估方法及系统,解决现有技术无法对学生书写汉字进行精确全面评估的问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供一种手写汉字图像评估方法,包括如下步骤:
获取手写汉字图像及模板汉字图像,进行去噪和二值化处理,分别得到手写汉字图像的预处理图像和模板汉字图像的预处理图像;
对手写汉字图像的预处理图像和模板汉字图像的预处理图像进行笔画类型确定处理,得到手写汉字图像的笔画类型和模板汉字图像的笔画类型;
将手写汉字图像的笔画类型与模板汉字图像的笔画类型进行比较,获得手写汉字图像的相似度值,用于评估手写汉字图像;
所述进行笔画类型确定处理,包括:
对预处理图像进行汉字骨架提取操作,得到汉字骨架图像;
提取汉字骨架图像中的骨架端点、骨架常规点、骨架分叉点、骨架拐点,及修复骨架分叉点,处理得到骨架笔画段集合;
根据组合规则,将相邻的骨架笔画段组合为一个笔画,得到拆分后的笔画;
根据八邻域方向编码规则对拆分后的笔画提取方向序列,确定笔画类型。
结合第一方面,进一步的,修复骨架分叉点包括对汉字骨架图像中的伪分叉点进行去除与合并,具体包括如下步骤:
对比每一个骨架分叉点之间的距离与设定的第一阈值的大小,若骨架分叉点之间的距离小于第一阈值,合并为同一分叉点集群;
对分叉点集群中的骨架分叉点进行平均,得到分叉点集群的质心;
使用质心代表分叉点集群中的骨架分叉点,重新连接汉字骨架图像中的骨架。
进一步的,得到骨架笔画段集合包括如下步骤:
根据骨架分叉点拆分汉字骨架图像中的骨架,结合骨架端点提取骨架笔画段,得到初始骨架笔画段集合;
对初始骨架笔画段集合进行筛选,去除其中的毛刺笔画段,
从剩余的骨架笔画段集合中提取骨架拐点,并结合骨架端点、骨架分叉点、骨架拐点及骨架常规点,重新提取骨架笔画段,得到最终骨架笔画段集合。
进一步的,所述骨架端点为八邻域中只有一个邻居为骨架点的骨架点;所述骨架常规点为八邻域中只有两块不相邻的邻域且邻居数小于四的骨架点;所述骨架分叉点为八邻域中邻域数量大于两块或邻居数不小于四的骨架点,其中一块邻域为两个或以上相邻点。
进一步的,所述骨架拐点的计算方法如下:
以骨架点在骨架笔画段的下标作为参数,对骨架笔画段中骨架点的横坐标和纵坐标分别建立离散参数方程;
对离散参数方程进行拟合,得到骨架笔画段的连续函数;
将骨架笔画段两端进行连线,判断骨架笔画段是否与连线相交,或无相交但逼近连线;从相交或逼近点位置寻找拐点,分别进行以下步骤;
a)计算当前骨架笔画段中所有点与两端点的距离和,记录最大值和索引;
b)判断两端点之间距离与最大值之比是否大于设定的第二阈值,大于第二阈值时利用索引和连续函数计算最大值点在当前骨架笔画段连续函数上的曲率,若曲率小于设定的第三阈值,则为弯曲笔画上的一点,若曲率大于第三阈值,则为拐点;
c)将骨架笔画段从拐点处断开,形成两个新的笔画段,新笔画段重复步骤a-c至没有新的拐点产生。
进一步的,所述组合规则具体如下:
将骨架端点、骨架分叉点及骨架拐点作为顶点,各顶点之间的连线作为边,建立当前手写汉字的数据结构图;
基于数据结构图的连通性,将数据结构图划分为若干连通子图,按照重心顺序遍历每一个连通子图所有度大于1的顶点;
若所述顶点为骨架分叉点,遍历与骨架分叉点相连的笔画段,计算每一个笔画段与该骨架分叉点相连的其他笔画段两两之间的角度,判断最大角度是否大于设定的角度阈值,若是合并所述笔画段,并从顶点连接的笔画段中删除所述笔画段,若否继续计算下一条笔画段;
若所述顶点为骨架拐点,根据与所述顶点相邻顶点的方位,判断所述顶点断开或连接;
当连通子图顶点的所有度均不大于1,得到拆分后的笔画。
进一步的,与骨架拐点相邻的两个顶点处于<左,下>、<左,左下>,或两个顶点方向相同时,所述顶点连接,其它情况断开。
第二方面,本发明提供一种手写汉字图像评估系统,所述系统包括:
预处理模块:用于获取手写汉字图像及模板汉字图像,进行去噪和二值化操作,分别得到预处理图像;
提取模块:用于对预处理图像进行汉字骨架提取操作,得到汉字骨架图像;并提取汉字骨架图像中的骨架端点、骨架常规点、骨架分叉点、骨架拐点,及修复骨架分叉点,处理得到骨架笔画段集合;
拆分模块:根据组合规则,用于将相邻的骨架笔画段组合为一个笔画,得到拆分后的笔画;
评估模块:根据八邻域方向编码规则对拆分后的笔画提取方向序列,分别确定笔画类型;对比手写汉字图像和模板汉字图像的笔画类型相似度,评估手写汉字图像。
第三方面,本发明提供一种计算机设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行上述任一项所述方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果包括:
本发明提供的一种手写汉字图像评估方法,能够实现手写汉字和模板汉字的同一笔画提取,精确到笔画层级评估手写汉字;
本发明提供的评估系统,不仅计算被分叉点分开的笔画,还对不包含分叉点的笔画部分计算骨架拐点,解决包含多个笔画但骨架中不包含分叉点的笔画提取问题;
本发明提供的评估方法,针对汉字本身以及汉字笔画的多样性,研究了笔画间的组合规则,总结出基于笔画形态的组合约束,对由骨架拐点分开的笔画组合与否提供约束条件,提高保证汉字笔画的组合准确率,基于数据结构图的连通性,将数据结构图划分为若干连通子图,按照重心顺序遍历每一个连通子图,降低计算次数,提高效率;
本发明充分考虑汉字的不同笔画类型,基于八邻域方向编码规则,计算笔画中各方向编码的占比,有效提高识别笔画类型精确度。
附图说明
图1是本发明实施例提供的一种手写汉字图像评估方法流程示意图;
图2是本发明实施例提供的二十种细化模板示意图;
图3为本发明实施例提供的八邻域示意图;
图4为本发明实施例提供的方向编码示意图;
图5为本发明实施例提供的笔画相似度特征点选取示例图;
图6为本发明实施例提供的分叉点理想情况;
图7为本发明实施例提供的分叉点第一种特殊情况;
图8为本发明实施例提供的分叉点第二种特殊情况;
图9为本发明实施例提供的分叉点第三种特殊情况;
图10为本发明实施例提供的经ZS细化后的分叉点。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种手写汉字图像评估方法及系统,如图1所示,为一种手写汉字图像评估方法流程示意图,该方法具体包括以下步骤:
S1:预处理步骤:获取手写汉字图像、模板汉字图像,并对其进行去噪和二值化操作,得到汉字二值化图像;对所述汉字二值化图像进行汉字骨架提取操作,得到汉字骨架图像;
S2:提取骨架图像中的骨架端点、骨架常规点以及骨架分叉点;对骨架图像中的伪分叉点进行去除和合并操作,然后从分叉点处将骨架拆分,并结合骨架端点提取骨架笔画段,作为初始骨架笔画段集合;
S3:对初始骨架笔画段集合进行去假分支操作,得到处理后的骨架图,将原始骨架图替换为处理后的骨架图;从初始骨架笔画段集合中提取骨架拐点,并结合骨架端点、骨架分叉点、骨架拐点,重新提取骨架笔画段,作为最终骨架笔画段集合;
所述骨架拐点为其与距离设定索引距离的两个像素点构成的张角小于设定张角阈值的骨架点;
S4:针对每一个骨架分叉点,根据组合规则,将其相邻的骨架笔画段组合为一个笔画;同时针对骨架拐点,判断其是否保持分拆状态;最终输出拆分后的笔画;
S5:根据八邻域方向编码规则,如图4所示,对S4中得到的笔画提取其方向序列,并根据其方向序列确定笔画类型;对比手写汉字和模板汉字的笔画相似度,进行笔画部分的评分和评价。
本发明需要分别对手写字和模板字提取笔画,进而确定笔画类型,比较手写字和模板字中的相对应的笔画,具体可采取两种方式:一种实施例是在计算手写汉字同时计算模板字,另一种实施例是提前计算好模板字,对比时只提取手写字数据。
实施例一
为了更清晰地对本发明离线手写汉字同名笔画提取方法进行说明,下面结合附图一,对本实施例中手写汉字图像的评估方法进行展开详述,具体包括以下步骤:
S1:预处理步骤:获取手写汉字图像、模板汉字图像,对其进行去噪和二值化操作,得到汉字二值化图像;对所述汉字二值化图像进行汉字骨架提取操作,得到汉字骨架图像;所述手写汉字图像和模板汉字图像中仅包含一个手写汉字,并且为同一汉字。
S11,在本实例中,先获取手写汉字图像,手写汉字图像的原始图像可以由相机拍摄或扫描得到,对手写汉字图像进行预处理,使用中值滤波将图像中的噪声点去除,然后设定阈值,使得汉字区域为黑色,背景部分为白色,预处理后的图像作为本发明的手写汉字图像。模板汉字与手写汉字为同一汉字,需预先对其做笔画拆分操作,以便直接使用模板汉字的笔画数据。
S12,对预处理后的手写汉字图像中的所有前景像素点进行迭代匹配,当中心像素点与模板匹配时,则删除该点,直到图像不再发生变化。如图2所示,为本实施例提供的二十种细化模板示意图,其中“1”表示前景像素点,“0”表示背景像素点,“X”表示既可以是目标像素点也可以是背景像素点。
S2:提取骨架图中的骨架端点、骨架常规点以及骨架分叉点;对骨架图中的伪分叉点进行去除和合并操作,然后从分叉点处将骨架拆分,并结合骨架端点提取骨架笔画段,作为初始骨架笔画段集合。
骨架端点为八邻域中有且仅有一个邻居为骨架点的骨架点;所述骨架常规点为八邻域中有且仅有两个邻居为骨架点的骨架点;所述骨架分叉点为八邻域中邻居为骨架点的数量大于等于3的骨架点。
在本实例中,先从骨架图中提取骨架端点、骨架常规点和骨架分叉点,其中,骨架端点定义为八邻域中有且仅有一个邻居为骨架点的骨架点;骨架常规点为八邻域中有且仅有两块不相邻的邻域(两个或以上相邻点视为一块邻域),并且邻居数小于4的骨架点;骨架分叉点为八邻域中邻域数量大于2或邻居数大于等于4的骨架点。即对于骨架图中的某一前景像素点,按照图3中从小到大的数字顺序访问八邻域,当出现从0到1的跳变时,认为出现了一个邻域,同时记录八邻域中1的数量,据此判断骨架点类型。
在常规点中有一类特殊的类别,将其称为邻接点,即处在分叉点的八邻域内的常规点。邻接点属性仅在获取笔画段时操作稍有不同,其它部分均与常规点无异。添加邻接点属性的意义在于,在后续的笔画段提取中,能够设立更精确的条件,以完成更精准的笔画段提取。
图7-图9为分叉点特殊情况,分叉点的理想情况如图6所示,空心菱形网格为分叉点,下对角线为邻接点,棋盘格为常规点,实际在ZS细化算法细化后的十字分叉点情况如图10所示,会被分裂为两个三叉分拆点,导致骨架失真,所以在提取笔画之前需要先将其修复。
修复步骤如下:
计算每一个骨架分叉点之间的距离,设定一个阈值,若有骨架分叉点之间的距离小于该阈值,则认为其为同一分叉点集群,然后通过平均集群中的骨架分叉点,得到分叉点集群的质心,使用该质心点来代表该集群,即将集群中的骨架分叉点替换为该质心,并重新连接骨架。
获取笔画段方法如下:
逐个遍历骨架分叉点作为当前点,获取当前点的邻域点,判断邻域点是否访问过,若访问过则继续判断下一个邻域点,若没有访问过,则创建一个新的笔画段列表,并将当前点和该邻域点加入新笔画段中,最后将该邻域点作为新的当前点,重复上述操作,判断是否将下一个邻域点加入当前笔画段中,具体标准在后面描述。
在选择邻域点的遍历循序时,其他方法通常只是按照八邻域顺时针的方向,即如图3的0~7顺序遍历,经过实验验证发现,该方法无法应对所有情况,而本发明在选择邻域点遍历顺序前,读取当前笔画段之前所有骨架点的方向,分别计算八方向的占比并赋予权值,占比越大,权值越高,越说明该笔画段的大致方向。得到方向权值之后,依据权值大小在当前点的八邻域中遍历,找到邻域点中方向权值最高的点作为判断点。并且,该方法只需判断权值最高的邻域点即可,无需判断所有邻域点。
依据笔画段的大致方向为后续方向设立优先级,高优先级方向的邻域点优先处理,判断其邻域点是否能加入当前笔画段。
将邻域点添加至当前笔画段需满足以下条件之一:(1)邻域点没有被访问过,其属性为常规点,将该邻域点加入当前笔画段;(2)邻域点没有被访问过,其属性为邻接点,同时当前点属性不为邻接点,将该邻域点加入当前笔画段;
一个笔画段循环结束的条件为以下之一:(1)邻域点属性为分叉点,并且当前笔画段长度大于2,将该点加入笔画段并结束;(2)邻域点被访问过,但邻域点的属性为邻接点,则将该邻域点和与该邻域点相邻的分叉点一并加入当前笔画段并结束;(3)邻域点没有被访问过,其属性为端点,将该邻域点加入当前笔画段并结束。
S3:对初始骨架笔画段集合进行去毛刺操作,得到处理后的骨架图,将原始骨架图替换为处理后的骨架图;从初始骨架笔画段集合中提取骨架拐点,并结合骨架端点、骨架分叉点、骨架拐点,重新提取骨架笔画段,作为最终骨架笔画段集合;
所述骨架拐点为其与距离设定索引距离的两个像素点构成的张角小于设定张角阈值的骨架点;
在本实例中,具体过程如下:
计算每一个骨架笔画段的两端骨架点之间的距离,若当前骨架笔画段的长度小于一个笔画宽度,则认为该骨架笔画段为毛刺,即假分支,将其从骨架图和初始骨架笔画段中删除。
骨架拐点的计算方法如下:
遍历每一个笔画段,对其进行如下操作
1)对笔画段中的骨架点的横坐标和纵坐标,以该点在笔画段的下标作为参数,分别建立离散参数方程;
2)对离散的参数方程进行拟合,得到笔画段的连续函数,以便于后续计算骨架点在笔画段处的曲率;
3)将笔画段两端进行连线,判断笔画段是否与连线相交,或逼近连线但无相交,若有则从相交处或逼近点处分开寻找拐点(但仍然属于同一笔画段),即分别进行下列计算:
a)计算当前笔画段中所有点与两端点的距离和,记录最大值和索引;
b)判断两端点之间距离与最大值之比是否大于设定的第二阈值,大于第二阈值时利用索引和连续函数计算最大值点在当前骨架笔画段连续函数上的曲率,小于第二阈值时对下一个笔画段进行步骤a操作;若曲率小于设定的第三阈值,则为弯曲笔画上的一点,若曲率大于第三阈值,则为拐点;
c)将笔画段从拐点处断开,形成两个新的笔画段,新笔画段仍需要重复步骤a-c操作,直到没有新的拐点产生,至此得到手写汉字图像的最终骨架笔画段集合。
S4:针对每一个骨架分叉点,根据组合规则,将其相邻的骨架笔画段组合为一个笔画;同时针对骨架拐点,判断其是否保持分拆状态;最终输出拆分后的笔画;
笔画组合的具体过程如下:
首先将特征点(端点,分叉点和拐点)作为顶点,特征点之间的连线作为边,建立当前书法字的数据结构图,依照图的连通性,将图划分为若干连通子图,将子图按照重心从左至右的顺序,遍历每一个子图。
单独遍历连通子图的好处是可以显著降低计算次数,提高效率。因为仅有连通关系的边(笔画段)才有可能属于同一个笔画,而两个不连通的边是不可能属于同一笔画的。
遍历连通子图中所有度大于1的顶点,若其为分叉点,则遍历该分叉点相连的笔画段A,对每一个笔画段均计算与该分叉点相连的其他笔画段(B,C,D……)两两之间的角度,并记录最小的角度是否满足角度阈值,满足则记A到B满足条件。遍历完成后,若笔画段A对B满足条件,同时B也对A满足条件,则将两笔画段合并为新的笔画段,同时将图中的两条边替换为新的边。若该顶点为拐点,则依据与该顶点相连顶点的方位,判断该顶点应该断开或者连接。依据每个字的不同,设置不同的条件,大部分汉字可设置为如下情况,即拐点相邻的两个顶点处于<左,下>、<左,左下>、或两个顶点方向相同(如<左,左>)时,该拐点应连接,其余情况需断开。
重复上述操作,直到没有度大于1的顶点,或没有笔画段再组合为止,认为当前子图中的笔画段均已组合为笔画,将笔画保存,继续对剩余子图进行上述操作。
本实施例的操作如下:
设当前子图中的顶点为
Figure 430253DEST_PATH_IMAGE001
,与顶点
Figure 643060DEST_PATH_IMAGE002
相连的笔画段为
Figure 552110DEST_PATH_IMAGE003
, 角度阈值为150±10°;
a)判断图中的顶点
Figure 589074DEST_PATH_IMAGE002
的度和类别,若顶点
Figure 458941DEST_PATH_IMAGE002
的度小于等于1则转到操作d,继续 判断下一个顶点;若度大于1,并且类别是分叉点,进行操作b;若度大于1,类别是拐点,进行 操作c;
b)计算笔画段
Figure 741018DEST_PATH_IMAGE004
与其他笔画段
Figure 770153DEST_PATH_IMAGE005
之间的夹角,取最大 角度与角度阈值比较,最大角度大于角度阈值则认为两个笔画段
Figure 682746DEST_PATH_IMAGE004
和最大角度所处笔画 段属于同一笔画,将两个笔画段合并,并从顶点
Figure 335182DEST_PATH_IMAGE002
连接的笔画段中删除该两个笔画段;若 小于,则继续计算下一条笔画段;
c)依据该顶点
Figure 155370DEST_PATH_IMAGE002
相邻顶点方位,判断该顶点断开或连接,完成进行操作d;
d)重复操作a,直到子图中没有度大于一的顶点为止,笔画段初始组合结束。
S5:根据八邻域方向编码规则对S4中得到的笔画提取其方向序列,并根据其方向序列确定笔画类型;对比手写汉字和模板汉字的笔画相似度来得到笔画部分的评分和评价。
八邻域方向编码为:以当前像素P上方的邻域点为起点,顺时针将八邻域标记为P1、P2、P3、P4、P5、P6、P7、P8;其中P到P1的方向为1,P到P2的方向为2,P到P3的方向为3,P到P4的方向为4,P到P5的方向为5,P到P6的方向为6,P到P7的方向为7,P到P8的方向为8。
在本实例中,方向序列的提取与笔画类型确定的具体方法为:
以当前像素P上方的邻域点为起点,顺时针将八邻域标记为P1、P2、P3、P4、P5、P6、P7、P8,P到P1的方向为1,P到P2的方向为2,P到P3的方向为3,P到P4的方向为4,P到P5的方向为5,P到P6的方向为6,P到P7的方向为7,P到P8的方向为8,从笔画两端点中相对靠左上的点作为起点,遍历笔画中的所有像素点,记录下一个点的方向位置,获得笔画的方向编码,从而依据笔画方向编码的走向,确定该笔画的类型。
对比手写汉字和模板汉字的笔画相似度的具体方法为:
首先对手写汉字和模板汉字的对应笔画平均提取N个特征点,依据皮尔逊系数对 这些特征点计算相似度,其中手写汉字的特征点数据为
Figure 773433DEST_PATH_IMAGE006
,模板汉字的特征点 数据为
Figure 122506DEST_PATH_IMAGE007
,计算公式如下:
Figure 763703DEST_PATH_IMAGE008
Figure 449899DEST_PATH_IMAGE009
为最终的手写汉字和模板汉字的笔画相似度计算结果,即点特征因子分数,图5 为本发明实施例提供的笔画相似度特征点选取示例图。
对于不同的笔画类型,采取不同的评价因子。简单笔画,例如横、竖、撇、捺等,可通过长度,两端连线与水平的角度等方面进行计算;对于复杂笔画,例如存在转折的笔画应加入转折点角度这个评价因子进行计算,根据每个评价因子分别得到相应的分数。
再依据每个评价因子分数的加权平均,得到该手写字笔画的分数;
最终手写字整体分数为所有手写字笔画的平均分数。
实施例二
本发明提供一种手写汉字图像评估系统,该系统包括:
预处理模块:用于获取手写汉字图像及模板汉字图像,进行去噪和二值化操作,分别得到预处理图像;
提取模块:用于对预处理图像进行汉字骨架提取操作,得到汉字骨架图像;并提取汉字骨架图像中的骨架端点、骨架常规点、骨架分叉点、骨架拐点,及修复骨架分叉点,处理得到骨架笔画段集合;
拆分模块:根据组合规则,用于将相邻的骨架笔画段组合为一个笔画,得到拆分后的笔画;
评估模块:根据八邻域方向编码规则对拆分后的笔画提取方向序列,分别确定笔画类型;对比手写汉字图像和模板汉字图像的笔画类型相似度,评估手写汉字图像。
实施例三
本发明提供一种计算机设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行上述任一项所述方法的步骤。
计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一项所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种手写汉字图像评估方法,其特征在于,包括如下步骤:
获取手写汉字图像及模板汉字图像,进行去噪和二值化处理,分别得到手写汉字图像的预处理图像和模板汉字图像的预处理图像;
对手写汉字图像的预处理图像和模板汉字图像的预处理图像进行笔画类型确定处理,得到手写汉字图像的笔画类型和模板汉字图像的笔画类型;
将手写汉字图像的笔画类型与模板汉字图像的笔画类型进行比较,获得手写汉字图像的相似度值,用于评估手写汉字图像;
所述进行笔画类型确定处理,包括:
对预处理图像进行汉字骨架提取操作,得到汉字骨架图像;
提取汉字骨架图像中的骨架端点、骨架常规点、骨架分叉点、骨架拐点,及修复骨架分叉点,处理得到骨架笔画段集合;
根据组合规则,将相邻的骨架笔画段组合为一个笔画,得到拆分后的笔画;
根据八邻域方向编码规则对拆分后的笔画提取方向序列,确定笔画类型。
2.根据权利要求1所述的一种手写汉字图像评估方法,其特征在于,修复骨架分叉点包括对汉字骨架图像中的伪分叉点进行去除与合并,包括如下步骤:
对比每一个骨架分叉点之间的距离与设定的第一阈值的大小,若骨架分叉点之间的距离小于第一阈值,合并为同一分叉点集群;
对分叉点集群中的骨架分叉点进行平均,得到分叉点集群的质心;
使用质心代表分叉点集群中的骨架分叉点,重新连接汉字骨架图像中的骨架。
3.根据权利要求1所述的一种手写汉字图像评估方法,其特征在于,得到骨架笔画段集合包括如下步骤:
根据骨架分叉点拆分汉字骨架图像中的骨架,结合骨架端点提取骨架笔画段,得到初始骨架笔画段集合;
对初始骨架笔画段集合进行筛选,去除其中的毛刺笔画段,
从剩余的骨架笔画段集合中提取骨架拐点,并结合骨架端点、骨架分叉点、骨架拐点及骨架常规点,重新提取骨架笔画段,得到最终骨架笔画段集合。
4.根据权利要求1所述的一种手写汉字图像评估方法,其特征在于,
所述骨架端点为八邻域中只有一个邻居为骨架点的骨架点;所述骨架常规点为八邻域中只有两块不相邻的邻域且邻居数小于四的骨架点;所述骨架分叉点为八邻域中邻域数量大于两块或邻居数不小于四的骨架点,其中一块邻域为两个或以上相邻点。
5.根据权利要求1所述的一种手写汉字图像评估方法,其特征在于,所述骨架拐点的计算方法如下:
以骨架点在骨架笔画段的下标作为参数,对骨架笔画段中骨架点的横坐标和纵坐标分别建立离散参数方程;
对离散参数方程进行拟合,得到骨架笔画段的连续函数;
将骨架笔画段两端进行连线,判断骨架笔画段是否与连线相交,或无相交但逼近连线;从相交或逼近点位置寻找拐点,分别进行以下步骤;
a)计算当前骨架笔画段中所有点与两端点的距离和,记录最大值和索引;
b)判断两端点之间距离与最大值之比是否大于设定的第二阈值,大于第二阈值时利用索引和连续函数计算最大值点在当前骨架笔画段连续函数上的曲率,若曲率小于设定的第三阈值,则为弯曲笔画上的一点,若曲率大于第三阈值,则为拐点;
c)将骨架笔画段从拐点处断开,形成两个新的笔画段,新笔画段重复步骤a-c至没有新的拐点产生。
6.根据权利要求1所述的一种手写汉字图像评估方法,其特征在于,所述组合规则具体如下:
将骨架端点、骨架分叉点及骨架拐点作为顶点,各顶点之间的连线作为边,建立当前手写汉字的数据结构图;
基于数据结构图的连通性,将数据结构图划分为若干连通子图,按照重心顺序遍历每一个连通子图所有度大于1的顶点;
若所述顶点为骨架分叉点,遍历与骨架分叉点相连的笔画段,计算每一个笔画段与该骨架分叉点相连的其他笔画段两两之间的角度,判断最大角度是否大于设定的角度阈值,若是合并所述笔画段,并从顶点连接的笔画段中删除所述笔画段,若否继续计算下一条笔画段;
若所述顶点为骨架拐点,根据与所述顶点相邻顶点的方位,判断所述顶点断开或连接;
当连通子图顶点的所有度均不大于1,得到拆分后的笔画。
7.根据权利要求6所述的一种手写汉字图像评估方法,其特征在于,与骨架拐点相邻的两个顶点处于<左,下>、<左,左下>,或两个顶点方向相同时,所述顶点连接,其它情况断开。
8.一种手写汉字图像评估系统,其特征在于,所述系统包括:
预处理模块:用于获取手写汉字图像及模板汉字图像,进行去噪和二值化操作,分别得到预处理图像;
提取模块:用于对预处理图像进行汉字骨架提取操作,得到汉字骨架图像;并提取汉字骨架图像中的骨架端点、骨架常规点、骨架分叉点、骨架拐点,及修复骨架分叉点,处理得到骨架笔画段集合;
拆分模块:根据组合规则,用于将相邻的骨架笔画段组合为一个笔画,得到拆分后的笔画;
评估模块:根据八邻域方向编码规则对拆分后的笔画提取方向序列,分别确定笔画类型;对比手写汉字图像和模板汉字图像的笔画类型相似度,评估手写汉字图像。
9.一种计算机设备,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-7任一项所述方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN202211365489.3A 2022-11-03 2022-11-03 一种手写汉字图像评估方法及系统 Active CN115471849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211365489.3A CN115471849B (zh) 2022-11-03 2022-11-03 一种手写汉字图像评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211365489.3A CN115471849B (zh) 2022-11-03 2022-11-03 一种手写汉字图像评估方法及系统

Publications (2)

Publication Number Publication Date
CN115471849A true CN115471849A (zh) 2022-12-13
CN115471849B CN115471849B (zh) 2023-06-06

Family

ID=84338174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211365489.3A Active CN115471849B (zh) 2022-11-03 2022-11-03 一种手写汉字图像评估方法及系统

Country Status (1)

Country Link
CN (1) CN115471849B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841671A (zh) * 2023-02-21 2023-03-24 南京信息工程大学 一种书法字骨架矫正方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881310A (zh) * 2019-12-07 2020-11-03 杭州华冬人工智能有限公司 一种汉字硬笔书写智能指导和评分方法及指导评分系统
WO2021068364A1 (zh) * 2019-10-09 2021-04-15 北京方正手迹数字技术有限公司 笔画骨架信息提取方法、装置、电子设备及存储介质
CN112712273A (zh) * 2020-12-30 2021-04-27 首都师范大学 一种基于骨架相似度的手写体汉字美观度评判方法
CN112990183A (zh) * 2021-05-19 2021-06-18 中国科学院自动化研究所 离线手写汉字同名笔画提取方法、系统、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068364A1 (zh) * 2019-10-09 2021-04-15 北京方正手迹数字技术有限公司 笔画骨架信息提取方法、装置、电子设备及存储介质
CN111881310A (zh) * 2019-12-07 2020-11-03 杭州华冬人工智能有限公司 一种汉字硬笔书写智能指导和评分方法及指导评分系统
CN112712273A (zh) * 2020-12-30 2021-04-27 首都师范大学 一种基于骨架相似度的手写体汉字美观度评判方法
CN112990183A (zh) * 2021-05-19 2021-06-18 中国科学院自动化研究所 离线手写汉字同名笔画提取方法、系统、装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841671A (zh) * 2023-02-21 2023-03-24 南京信息工程大学 一种书法字骨架矫正方法、系统及存储介质

Also Published As

Publication number Publication date
CN115471849B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109409366B (zh) 基于角点检测的畸变图像校正方法及装置
CN110032998B (zh) 自然场景图片的文字检测方法、系统、装置和存储介质
CN110180186B (zh) 一种地形图转换方法及系统
CN110197153B (zh) 一种户型图中墙体自动识别方法
CN110659644B (zh) 书法单字的笔画自动提取方法
CN102930277A (zh) 一种基于识别反馈的字符图像验证码识别方法
CN112712273B (zh) 一种基于骨架相似度的手写体汉字美观度评判方法
CN111860027B (zh) 二维码的识别方法及装置
CN107944451B (zh) 一种藏文古籍文档的行切分方法及系统
CN115471849B (zh) 一种手写汉字图像评估方法及系统
CN112818952A (zh) 煤岩分界线的识别方法、装置及电子设备
CN115240210A (zh) 一种用于手写汉字辅助练习的系统及方法
CN109508716B (zh) 一种图像文字的定位方法及装置
CN110427909B (zh) 一种移动端驾驶证检测方法、系统及电子设备和存储介质
CN109752393B (zh) 一种基于图像特征的贴片电阻型号检测方法及其装置
Valy et al. Line segmentation for grayscale text images of khmer palm leaf manuscripts
CN108108700B (zh) 一种基于弦轴变换的猪的特征区域识别方法
CN111797685B (zh) 表格结构的识别方法及装置
Tung et al. Binarization of uneven-lighting image by maximizing boundary connectivity
CN110378337B (zh) 金属切削刀具图纸标识信息视觉输入方法及系统
Li An effective approach to offline arabic handwriting recognition
Firdaus et al. Arabic letter segmentation using modified connected component labeling
CN114512052B (zh) 融合遥感影像和轨迹数据的分歧合流路口生成方法及装置
CN112016419A (zh) 一种智能手写汉字平测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant