CN109635687B - 基于时序点集计算的汉字文本行书写质量自动评价方法和系统 - Google Patents

基于时序点集计算的汉字文本行书写质量自动评价方法和系统 Download PDF

Info

Publication number
CN109635687B
CN109635687B CN201811453492.4A CN201811453492A CN109635687B CN 109635687 B CN109635687 B CN 109635687B CN 201811453492 A CN201811453492 A CN 201811453492A CN 109635687 B CN109635687 B CN 109635687B
Authority
CN
China
Prior art keywords
line
stroke
text
axis
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811453492.4A
Other languages
English (en)
Other versions
CN109635687A (zh
Inventor
仇宏斌
姜杰
许明月
吴瑶
王静
黄峰
白晓东
李艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN201811453492.4A priority Critical patent/CN109635687B/zh
Publication of CN109635687A publication Critical patent/CN109635687A/zh
Application granted granted Critical
Publication of CN109635687B publication Critical patent/CN109635687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于时序点集计算的汉字文本行书写质量自动评价方法和系统。具体步骤为:获取用户手写汉字文本行书写轨迹的点集数据;根据得到的点集数据进行分行;根据分行结果采用图像处理方法割字,得到行轴线;利用行轴线描述计算用户手写文本行指标特征;依据用户手写文本行中的指标进行质量评价打分;本发明可以用于判断用户手写汉字文本行是否工整、是否符合一般的美学原则,可应用于硬笔书写教学中的章法训练,也可用于文本行个性化书写指导等方面,具有重要的实际意义。

Description

基于时序点集计算的汉字文本行书写质量自动评价方法和 系统
技术领域
本发明涉及利用计算机对联机手写汉字文本行进行评价的技术领域,尤其涉及一种基于重要书写特征的手写汉字文本行书写质量的自动评价方法和系统。
背景技术
汉字是中华文明历史的重要载体,是中华文化中的瑰宝。汉字文本作品是人们使用汉字交流和表达思想时采用的一种方式,有自己特定的规范及美学要求。在一幅文本作品书写质量评价中,章法布局是首要因素,即其文字线条的通篇布局和结构安排决定了文本的整体风貌。因此,汉字书写质量评价,既需要单字层次的评价,也需要文本整体层次的评价。在汉字书写学习为世人所重视的当下,探讨借助计算机技术对人的汉字文本行书写能力进行智能化指导,提高其汉字文本行书写水平,成为一个有重要应用价值的问题。
目前汉字评价系统大多是针对单字评价,手写汉字书写自动评价方法以及相关领域方法主要有以下几种:
1.通过特征标记的结构计算方法,匹配用户字与标准汉字模板库的相似度,对手写汉字给出工整性评价,如中国发明专利“一种基于重要书写特征标注的手写汉字工整性评价方法”(公开号:CN104966096A);
2.通过利用修正二次判决函数计算候选字距离的方法,利用候选字距离计算置信度进行汉字书写质量评价方法,如中国发明专利“一种基于置信度的汉字书写质量评价方法”(公开号:CN101630362)。
3.《计算机辅助设计与图形学学报》2007年第19期的《基于感知的多方向在线手写笔迹文本行提取》以视觉感知理论为基础,采取自底向上的策略建立笔画块的链接模型,搜索行排列结果,该方法可以提取出弯曲文本行,但要求书写笔迹符合常规书写方向,不允许补笔行为,亦与实际需求有些距离。
上述评价方法只针对单字评价,未有针对文本行书写质量等文本整体层次的评价方法。
发明内容
本发明所要解决的技术问题是:
利用和改进现有的汉字文本行提取技术,提供一种基于时序点集进行手写汉字文本行质量自动评价的方法和系统,为汉字文本行书写质量提供客观性的评价支持。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种基于时序点集计算的汉字文本行书写质量自动评价方法,包括如下步骤:
步骤一、获取点集数据:收集用户按行书写汉字文本产生的轨迹数据,所述轨迹数据的形式为包含时序信息的点集;所述点集用于组成笔画;
步骤二、分行并得到行轴线:通过当前笔画、上一笔画和每行字的第一笔画之间的位置关系,将所述轨迹数据分成文本行;然后将属于一个文本行的点集拟合成一条用多项式表达的曲线,作为该文本行的行轴线;
步骤三、计算文本行框:找到文本行的左上顶点A、左下顶点B、右上顶点C和右下顶点D;用直线分别连接点A和点B、点C和点D,用本文本行的行轴线平移得到的曲线分别连接点A和点C,点B和点D,将围成的封闭区域作为所述文本行的文本行框;执行步骤二之前,判断当前笔画是否在文本行框中或文本行框的延长框中;如果是,则判定为补笔行为,将该笔画归为当前文本行框中;如果不是,则进入步骤二;
步骤四、合并分行结果:判断两个相邻文本行的文本行框面积重叠程度是否超过事先设定的阈值;如果超过,则将这两个文本行的点集看作属于同一个文本行,然后返回步骤二,得到属于新的文本行的行轴线;如果未超过阈值,则进入步骤五;
步骤五、割字:识别一个文字行内的点集,得到多个连通域;对所述连通域进行合并与切分,得到多个区域,所述区域各包含一个单字;
步骤六、对于文本行计算行指标特征:所述行指标特征包括:
(1)行轴线稳定性:指一个文本行内各字重心与该文本行的行轴线在竖直方向上的偏差;
(2)行轴线距离稳定性,指一组相邻文本行的行轴线间各处距离的偏差;
(3)行轴线距离均匀性:指多组相邻文本行的行轴线两两间平均距离的偏差;
(4)多字的布白匀称性:用于描述同一文本行内相邻两个字的字间距的偏差;
(5)左对齐程度:指每一文本行第一个字的几何中心与第一文本行第一个字几何中心在X轴上的偏差;
步骤七、基于行指标特征,对行书写质量评价打分。
如前所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,进一步地,步骤二中,确定一个笔画为一行字的第一笔画标准为:首先确定整篇文本行的第一个笔画为当前行的第一笔画,当满足分行条件后进行分行,再将新的文本行的第一笔画作为一行字的第一笔画。
如前所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,进一步地,步骤二中,将轨迹数据分行的条件包括两种情况:
在X轴方向,当前笔画在第一笔画左边,且上一笔画在第一笔画的右边;同时,从第一笔画到上一笔画的距离小于从当前笔画到上一笔画的距离,并且当前笔画与上一笔画在X方向上的最远距离和上一笔画与第一笔画在X方向上的最远距离大于当前行的最长笔画长度;
或者在X轴方向,当前笔画在第一笔画右边,在上一笔画的右边;同时,第一笔画到上一笔画的距离大于到当前笔画的距离,并且上一笔画与当前笔画在X方向上的最远距离大于所设阈值,上一笔画与第一笔画在X方向上的最远距离大于当前行的最长笔画长度。
如前所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,进一步地,步骤三中,确定文本行的顶点的方法为:
令一个文本行内的笔画高度集合为Lstroke,文本行框高度为H=MAX(Lstroke);令行轴线函数为F(x),文本行框四个顶点的坐标为A(x1,y1),B(x1,y2),C(x2,y3),D(x2,y4),以画布的左上角为原点(0,0);则x1=MIN(Xstroke),x2=MAX(Xstroke),y1=F(x1)-H/2,,y2=F(x1)+H/2,y3=F(x2)-H/2,y4=F(x2)+H/2;其中Xstroke为为该行所有笔画(Stroke)的X轴坐标集合。
如前所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,进一步地,步骤五中,对所述连通域进行合并与切分的具体步骤为:
5.1、将书写汉字文本行图像进行二值化预处理,1表示黑点,0为白点,存储为二维数组;
5.2、利用递归算法遍历数组,搜索与“1”元素相邻的八个方向,标记同样为“1”的连通域;
5.3、合并上下位置、重叠关系的连通域;
5.4、利用投影法切分粘连字符;
5.5、合并左右位置关系的连通域,得出割字结果。
如前所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,进一步地,步骤六中,(1)用于描述行轴线的稳定性的第i行行轴线的稳定性特征值HSi为:
Figure GDA0003647983290000031
其中,Ni为第i行字的个数;fi(xn)为第i行第n字的几何中心横坐标处的行轴线函数值;Yi base=Bi为第i行的水平基准线函数,即沿每行行轴线初始位置开始的一条水平线;
(2)用于描述行轴线距离稳定性的第i行行轴线距离稳定性特征值HPi为:
Figure GDA0003647983290000032
WPi(n)为第i行与第i-1行在第n个字的几何中心横坐标xn处行轴线间的距离,由下式得到:
WPi(n)=fi(xn)-fi-1(xn),n∈Ni
Figure GDA0003647983290000041
为第i行与第i-1行的平均行间距,由下式得到:
Figure GDA0003647983290000042
其中,Ni为满足如下条件的字的个数,在所述Ni个字中,每个字的几何中心横坐标x满足如下条件:
Figure GDA0003647983290000043
其中
Figure GDA0003647983290000044
为第i行行轴线开始的横坐标,
Figure GDA0003647983290000045
为第i行行轴线结束的横坐标,且
Figure GDA0003647983290000046
Figure GDA0003647983290000047
(3)用于描述行轴线距离均匀性的特征值HB为:
Figure GDA0003647983290000048
其中,
Figure GDA0003647983290000049
为多行平均行间距,即集合
Figure GDA00036479832900000410
的平均值,Nl为总行数;
(4)用于描述字重心距离均匀性的特征值WB为:
Figure GDA00036479832900000411
其中,C为i行字的集合,
Figure GDA00036479832900000412
其中
Figure GDA00036479832900000413
自身为第i个文本行中各字的集合,NC为集合C中
Figure GDA00036479832900000414
的元素总数量,
Figure GDA00036479832900000415
为i行字间距的集合,ln为集合内第n个字与第n+1个字的字间距;
识别字外包矩形框的宽度
Figure GDA00036479832900000416
字外包矩形框的高度
Figure GDA00036479832900000417
与文本行框的高度Hi的关系;如果满足条件
Figure GDA00036479832900000418
AND
Figure GDA00036479832900000419
AND
Figure GDA00036479832900000420
则认为集合
Figure GDA0003647983290000051
中第n与第n-1是连续的两个字,计算其字间距,否则认为是标点符号、过切分或欠切分字符,不计入计算;
(5)用于描述左对齐程度的特征值LA为:
Figure GDA0003647983290000052
其中,Nl为为行的数量;
Figure GDA0003647983290000053
为第i行第一个字的几何中心横坐标;Xbase为左对齐基准线的起始点横坐标;
WH为文本行内所有字的平均线度,表示为:
Figure GDA0003647983290000054
其中W={W1,W2,…,WN}为每个字宽度的集合,
Figure GDA0003647983290000055
为每行行高的集合,
Figure GDA0003647983290000056
为平均字宽,
Figure GDA0003647983290000057
为平均行高。
如前所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,进一步地,步骤七中,对行书写质量评价打分的标准为:
7.1、大量收集用户所写汉字文本行的特征值数据;
7.2、根据各项指标数据的分布范围来划定特征的阈值范围;
7.3、以百分制计算各项特征的分数,给出文本行书写质量评价等级;
7.4、对所述特征值进行加权整合,给出综合评价。
本发明还提出一种基于时序点集计算的汉字文本行书写质量自动评价系统,系统包括:数据采集模块,分行模块,割字模块,特征计算模块,以及综合评价模块;
所述数据采集模块用于收集用户按行书写汉字文本产生的轨迹数据,所述轨迹数据的形式为包含时序信息的点集;所述点集用于组成笔画;
所述分行模块包括分行单元,拟合单元,补笔判断单元和合并判断单元;由数据采集模块输出的笔画首先进入分行单元,通过当前笔画、上一笔画和每行字的第一笔画之间的位置关系,将所述轨迹数据分成文本行;然后进入拟合单元,将属于一个文本行的点集拟合成一条用多项式表达的曲线,作为该文本行的行轴线;然后令当前笔画进入补笔判断单元进行判断:是否在文本行框中或文本行框的延长框中;如果是,则判定当前笔画为补笔行为,将该笔画归为当前文本行框中;如果不是,则重新进入分行单元;行文本作为所述补笔判断单元的输出,进入合并判断单元;所述合并判断单元用于判断两个相邻文本行的文本行框面积重叠程度是否超过事先设定的阈值;如果超过,则将这两个文本行的点集看作属于同一个文本行,然后返回输入分行单元,进入拟合单元,得到属于新的文本行的行轴线;如果未超过阈值,则作为分行模块的输出;
所述割字模块包括二值化单元,连通域标记单元,合并单元,所述二值化单元用于将书写汉字文本行图像进行二值化预处理,1表示黑点,0为白点,存储为二维数组;所述连通域标记单元用于利用递归算法遍历数组,搜索与“1”元素相邻的八个方向,标记同样为“1”的连通域;所述合并单元用于合并上下位置、重叠关系的连通域,然后利用投影法切分粘连字符,最后合并左右位置关系的连通域,得出割字结果;
所述特征计算模块用于接收文本行的行轴线信息和行内割字结果,输出行评价特征,所述行评价特征包括行轴线稳定性、行轴线距离稳定性、行轴线距离均匀性、多字的布白匀称性和左对齐程度;
所述综合评价模块用于接收特征计算模块输出的行评价特征,输出综合评价结果。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1.本方法和系统通过计算机自动判断用户手写汉字文本行在行轴线的稳定性、行轴线距离稳定性、行轴线距离均匀性、字重心距离均匀性和左对齐等方面的书写质量,在用户完成文本行之后可实时判断与评价,具有直观、高效等优点。
2.本方法和系统实现了用户手写汉字文本行的客观评价,在评价手写汉字文本行书写质量以及进行硬笔书法章法指导等应用上,具有重要的意义和应用价值。
附图说明
图1是本发明的流程图;
图2是笔画外包矩形框的示意图;
图3是判断换行条件的示意图;
图4是合并文本行条件示意图;
图5是判断补笔行为的示意图;
图6是文本行外包框的计算示意图;
图7是分行效果展示图;
图8是文本行书写特征描述计算示意图;
图9是割字方法的流程图;
图10是分割算法标记连通域的矩阵示意图;
图11是通过合并连通域得到割字结果示意图;
图12是割字效果展示图;
图13(a)是文本行书写特征计算结果展示图;
图13(b)是文本行书写特征计算结果展示图;
图14(a)是文本行书写质量评价效果展示图。
图14(b)是文本行书写质量评价效果展示图。
图14(c)是文本行书写质量评价效果展示图。
图14(d)是文本行书写质量评价效果展示图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
如图1,一种基于时序点集计算的汉字文本行书写质量自动评价方法,包括如下步骤:
1.获取用户手写汉字文本行书写轨迹的点集数据。
记录用户手写汉字的书写轨迹,根据用户在书写平台上手写汉字的笔迹运动状态,获取相应手写汉字点集数据,将用户书写过程中从下笔到起笔形成的点集定义为一个笔画;遍历笔画点集,对原始点集进行均匀化处理,使得相邻点集之间的间距相等,对均匀化后的笔画进行稀释处理,并获取笔画的外包矩形框,四个点坐标为(Xmin,Ymin),(Xmax,Ymin),(Xmin,Ymax),(Xmax,Ymax),笔画高度为|Ymax-Ymin|,如图2所示。
2.根据得到的点集数据进行分行,得到行轴线,具体方法如下:
(1)用startStroke表示一行的第一笔画的点集合,startPoint坐标为(Min(XstartStroke),Min(YstartStroke));用curStroke表示当前笔画的点集合,curPoint坐标为(Min(XcurStroke),Min(YcurStroke));用preStroke表示前一笔画点集合,prePoint坐标为(Max(XpreStroke),Min(YpreStroke));H表示当前所有笔画的最高高度。
当这三个笔画满足如下条件之一:
条件一:curPoint.X≤startPoint.X<prePoint.X
ANDSP_length≤CP_length
AND(Min(XpreStroke)-Max(XcurStroke))>H
AND(Min(XpreStroke)-Max(XstartStroke))>H
条件二:startPoint.X<curPoint.X<prePoint.X
ANDSC_length<SP_length
Figure GDA0003647983290000081
AND(Min(XpreStroke)-Max(XstartStroke))>H
则认为当前笔画换行,如图3所示。
(2)合并分行结果的方法为:在以上行判断结果的基础上,对于满足如下条件的文本行进行合并,即文本行a和文本行b在Y轴方向是包含与被包含的关系,或者行文本框面积重叠率大于设置阈值,便认为实际上是同一行,本实施例阈值设为2/3,如图4所示。
(3)判断补笔的方法为:若当前笔画的几何中心在当前行的文本行框中或在文本行框的延长框中,即认为没有换行,把当前笔画归为该行,如图5所示。
(4)计算文本行框的方法为:H=MAX(Lstroke),Lstroke为一行字的笔画高度集合,设行轴线函数为F(x),分行框四个角的坐标为A(x1,y1),B(x1,y2),C(x2,y3),D(x2,y4),以画布的左上角为原点(0,0),x1=MIN(Xstroke),x2=MAX(Xstroke),y1=F(x1)-H/2,,y2=F(x1)+H/2,y3=F(x2)-H/2,y4=F(x2)+H/2,A与C,B与D之间为行轴线连接,如图6所示。最终的分行结果如图7所示。
(5)行轴线的计算方法为:在以下特征的描述计算中,行轴线可以作为测量行轴线的稳定性、行轴线距离稳定性、行轴线距离均匀性的辅助工具线,如图8所示。它的计算方法为:先对每行字的笔迹点集作均匀化处理,解决由于运笔快慢而造成的点集不匀问题,再由均匀点集拟合成多项式曲线,得到一条接近字重心的线,即为行轴线。采用行高与行长的线度拟合多项式的项数,计量单位是屏幕像素,以下Wi取值以三星10.1寸2560*1600平板为例。其他手写汉字采集设备增加分辨率侦测并在此基础上合理取值即可。Wi为第i行的长度,Fi(x)为第i行的行轴线函数。
Figure GDA0003647983290000082
3.根据分行结果采用图像处理方法割字,计算思路如下:
如图9所示,对每一行字的原始点集进行骨架复现,降低行间切割时的粘连影响,采用基于笔画连通域和字符投影的手写汉字分割算法,以笔画连通域为单元进行处理,避免对汉字进行笔画的提取与分析。图像处理步骤简述如下:
5.1、将书写汉字文本行图像进行二值化预处理,1表示黑点,0为白点,存储为二维数组;
5.2、利用递归算法遍历数组,搜索与“1”元素相邻的八个方向,标记同样为“1”的连通域;如图10,图11所示;
5.3、合并上下位置、重叠关系的连通域;如图11所示;
5.4、利用投影法切分粘连字符;如图11所示;
5.5、合并左右位置关系的连通域,得出割字结果,效果如图12所示。
4.利用行轴线描述计算用户手写文本行指标特征值,包括行轴线的稳定性、行轴线距离稳定性、行轴线距离均匀性、字重心距离均匀性和左对齐五个特征,计算方法如下:
(1)用于描述行轴线的稳定性的第i行行轴线的稳定性特征值HSi为:
Figure GDA0003647983290000091
其中,Ni为第i行字的个数;fi(xn)为第i行第n字的几何中心横坐标处的行轴线函数值;Yi base=Bi为第i行的水平基准线函数,即沿每行行轴线初始位置开始的一条水平线;
(2)用于描述行轴线距离稳定性的第i行行轴线距离稳定性特征值HPi为:
Figure GDA0003647983290000092
WPi(n)为第i行与第i-1行在第n个字的几何中心横坐标xn处行轴线间的距离,由下式得到:
WPi(n)=fi(xn)-fi-1(xn),n∈Ni
Figure GDA0003647983290000093
为第i行与第i-1行的平均行间距,由下式得到:
Figure GDA0003647983290000094
其中,Ni为满足如下条件的字的个数,在所述Ni个字中,每个字的几何中心横坐标x满足如下条件:
Figure GDA0003647983290000095
其中
Figure GDA0003647983290000096
为第i行行轴线开始的横坐标,
Figure GDA0003647983290000097
为第i行行轴线结束的横坐标,且
Figure GDA0003647983290000098
Figure GDA0003647983290000099
如图8,求上下两行的行轴线在X轴方向的交集,将这两行字包含在该交集域中的几何中心作为采样点,对两行的行轴线进行逐字扫描,利用这两行的平均行间距作为衡量的标准,计算行轴线之间的相对平均距离偏差,作为评价行轴线距离稳定性的依据。
(3)用于描述行轴线距离均匀性的特征值HB为:
Figure GDA0003647983290000101
其中,
Figure GDA0003647983290000102
为多行平均行间距,即集合
Figure GDA0003647983290000103
的平均值,Nl为总行数;如图8,利用多行之间的平均行间距作为衡量的标准,计算每相邻两行的相对平均行间距偏差,作为评价行轴线距离均匀性的依据。
(4)用于描述字重心距离均匀性的特征值WB为:
Figure GDA0003647983290000104
其中,C为i行字的集合,
Figure GDA0003647983290000105
其中
Figure GDA0003647983290000106
自身为第i个文本行中各字的集合,NC为集合C中
Figure GDA0003647983290000107
的元素总数量,
Figure GDA0003647983290000108
为i行字间距的集合,ln为集合内第n个字与第n+1个字的字间距;
识别字外包矩形框的宽度
Figure GDA0003647983290000109
字外包矩形框的高度
Figure GDA00036479832900001010
与文本行框的高度Hi的关系;如果满足条件
Figure GDA00036479832900001011
AND
Figure GDA00036479832900001012
AND
Figure GDA00036479832900001013
则认为集合
Figure GDA00036479832900001014
中第n与第n-1是连续的两个字,计算其字间距,否则认为是标点符号、过切分或欠切分字符,不计入计算;
如图8,以相邻两个字的几何中心在X轴上的距离作为字间距,利用平均字间距作为衡量的标准,计算每相邻两字的相对平均字间距偏差,作为评价字重心距离均匀性的依据。
(5)用于描述左对齐程度的特征值LA为:
Figure GDA00036479832900001015
其中,Nl为行的数量;
Figure GDA00036479832900001016
为第i行第一个字的几何中心横坐标;Xbase为左对齐基准线的起始点横坐标;
WH为文本行内所有字的平均线度,表示为:
Figure GDA0003647983290000111
其中W={W1,W2,…,WN}为每个字宽度的集合,
Figure GDA0003647983290000112
为每行行高的集合,
Figure GDA0003647983290000113
为平均字宽,
Figure GDA0003647983290000114
为平均行高。
如图8,本实施例将第一行第一个字的中心开始的垂直线作为衡量左对齐的基准线,计算之后每行的第一个字中心与基准线的偏差,作为评价左对齐的依据。在计算中用平均字宽与平均行高的对角线长度即字的线度收敛数据。
5.对用户手写文本行中的指标高低进行质量评价打分,并根据特征的权重不同进行加权整合,得到综合评价结果。
(1)大量收集特征指标值的数据,根据各项指标数据的分布范围,确定特征阈值,本实施例评价结果以百分制计,起评分设为40,分项计算各特征评价分数。
在各指标评价中,当某项指标特征值即误差越逼近0时,该项指标下的得分便较高;反之,特征值越大,则该项得分就越低。如图13(a),从第一行到第四行,由最初的倾斜到愈来愈水平,行轴线的稳定性特征值依次递减,行轴线的稳定性的成绩递增,行轴线的稳定性特征得分取四行成绩的均值。图13(b)第一二行间的行轴线距离稳定性特征值最大,这两行间的行轴线距离稳定性成绩最低;第二三行的特征值较小,成绩较高,最终行轴线距离稳定性的得分取这三个成绩的平均分。设特征指标分数为ST,指标值为Tm,指标临界点为PT,评价方法如以下公式所示:
Figure GDA0003647983290000115
(2)设置各分项指标权重,加权平均得综合评价分数。设综合指标评价为S,综合评价结果如以下公式所示,评价结果如图14所示。
Figure GDA0003647983290000116
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,包括如下步骤:
步骤一、获取点集数据:收集用户按行书写汉字文本产生的轨迹数据,所述轨迹数据的形式为包含时序信息的点集;所述点集用于组成笔画;
步骤二、分行并得到行轴线:通过当前笔画、上一笔画和每行字的第一笔画之间的位置关系,将所述轨迹数据分成文本行;然后将属于一个文本行的点集拟合成一条用多项式表达的曲线,作为该文本行的行轴线;
步骤三、计算文本行框:找到文本行的左上顶点A、左下顶点B、右上顶点C和右下顶点D;用直线分别连接点A和点B、点C和点D,用本文本行的行轴线平移得到的曲线分别连接点A和点C,点B和点D,将围成的封闭区域作为所述文本行的文本行框;
步骤四、判断补笔:判断当前笔画是否在文本行框中或文本行框的延长框中;如果是,则判定当前笔画为补笔行为,将该笔画归为当前文本行框中,进入后续步骤;如果不是,则返回步骤二;
步骤四、合并分行结果:判断两个相邻文本行的文本行框面积重叠程度是否超过事先设定的阈值;如果超过,则将这两个文本行的点集看作属于同一个文本行,然后返回步骤二,得到属于新的文本行的行轴线;如果未超过阈值,则进入步骤五;
步骤五、割字:识别一个文字行内的点集,得到多个连通域;对所述连通域进行合并与切分,得到多个区域,所述区域各包含一个单字;
步骤六、对于文本行计算行指标特征:所述行指标特征包括:
(1)行轴线稳定性:指一个文本行内各字重心与该文本行的行轴线在竖直方向上的偏差;
(2)行轴线距离稳定性,指一组相邻文本行的行轴线间各处距离的偏差;
(3)行轴线距离均匀性:指多组相邻文本行的行轴线两两间平均距离的偏差;
(4)多字的布白匀称性:用于描述同一文本行内相邻两个字的字间距的偏差;
(5)左对齐程度:指每一文本行第一个字的几何中心与第一文本行第一个字几何中心在X轴上的偏差;
步骤七、基于行指标特征,对行书写质量评价打分。
2.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤二中,确定一个笔画为一行字的第一笔画标准为:首先确定整篇文本行的第一个笔画为当前行的第一笔画,当满足分行条件后进行分行,再将新的文本行的第一笔画作为一行字的第一笔画。
3.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤二中,将轨迹数据分行的条件包括两种情况:
在X轴方向,当前笔画在第一笔画左边,且上一笔画在第一笔画的右边;同时,从第一笔画到上一笔画的距离小于从当前笔画到上一笔画的距离,并且当前笔画与上一笔画在X方向上的最远距离和上一笔画与第一笔画在X方向上的最远距离大于当前行的最长笔画长度;
或者在X轴方向,当前笔画在第一笔画右边,在上一笔画的右边;同时,第一笔画到上一笔画的距离大于到当前笔画的距离,并且上一笔画与当前笔画在X方向上的最远距离大于所设阈值,上一笔画与第一笔画在X方向上的最远距离大于当前行的最长笔画长度。
4.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤三中,确定文本行的顶点的方法为:
令一个文本行内的笔画高度集合为Lstroke,文本行框高度为H=MAX(Lstroke);令行轴线函数为F(x),文本行框四个顶点的坐标为A(x1,y1),B(x1,y2),C(x2,y3),D(x2,y4),以画布的左上角为原点(0,0);则x1=MIN(Xstroke),x2=MAX(Xstroke),y1=F(x1)-H/2,y2=F(x1)+H/2,y3=F(x2)-H/2,y4=F(x2)+H/2;其中Xstroke为该行所有笔画的X轴坐标集合。
5.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤五中,对所述连通域进行合并与切分的具体步骤为:
5.1、将书写汉字文本行图像进行二值化预处理,1表示黑点,0为白点,存储为二维数组;
5.2、利用递归算法遍历数组,搜索与“1”元素相邻的八个方向,标记同样为“1”的连通域;
5.3、合并上下位置、重叠关系的连通域;
5.4、利用投影法切分粘连字符;
5.5、合并左右位置关系的连通域,得出割字结果。
6.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤六中,(1)用于描述行轴线的稳定性的第i行行轴线的稳定性特征值HSi为:
Figure FDA0003647983280000021
其中,Ni为第i行字的个数;fi(xn)为第i行第n字的几何中心横坐标处的行轴线函数值;
Figure FDA0003647983280000022
为第i行的水平基准线函数,即沿每行行轴线初始位置开始的一条水平线;
(2)用于描述行轴线距离稳定性的第i行行轴线距离稳定性特征值HPi为:
Figure FDA0003647983280000031
WPi(n)为第i行与第i-1行在第n个字的几何中心横坐标xn处行轴线间的距离,由下式得到:
WPi(n)=fi(xn)-fi-1(xn),n∈Ni
Figure FDA0003647983280000032
为第i行与第i-1行的平均行间距,由下式得到:
Figure FDA0003647983280000033
其中,Ni为满足如下条件的字的个数,同时在所述Ni个字中,每个字的几何中心横坐标x满足如下条件:
Figure FDA0003647983280000034
其中
Figure FDA0003647983280000035
为第i行行轴线开始的横坐标,
Figure FDA0003647983280000036
为第i行行轴线结束的横坐标,且
Figure FDA0003647983280000037
Figure FDA0003647983280000038
(3)用于描述行轴线距离均匀性的特征值HB为:
Figure FDA0003647983280000039
其中,
Figure FDA00036479832800000310
为多行平均行间距,即集合
Figure FDA00036479832800000311
的平均值,Nl为总行数;
(4)用于描述字重心距离均匀性的特征值WB为:
Figure FDA00036479832800000312
其中,C为i行字的集合,
Figure FDA00036479832800000313
其中
Figure FDA00036479832800000314
自身为第i个文本行中各字的集合,NC为集合C中
Figure FDA00036479832800000315
的元素总数量,
Figure FDA00036479832800000316
为i行字间距的集合,ln为集合内第n个字与第n+1个字的字间距;
识别字外包矩形框的宽度
Figure FDA00036479832800000317
字外包矩形框的高度
Figure FDA00036479832800000318
与文本行框的高度Hi的关系;如果满足条件
Figure FDA00036479832800000319
AND
Figure FDA0003647983280000041
AND
Figure FDA0003647983280000042
则认为集合
Figure FDA0003647983280000043
中第n与第n-1是连续的两个字,计算其字间距,否则认为是标点符号、过切分或欠切分字符,不计入计算;
(5)用于描述左对齐程度的特征值LA为:
Figure FDA0003647983280000044
其中,Nl为行的数量;
Figure FDA0003647983280000045
为第i行第一个字的几何中心横坐标;
Figure FDA0003647983280000046
为左对齐基准线的起始点横坐标;
WH为文本行内所有字的平均线度,表示为:
Figure FDA0003647983280000047
其中W={W1,W2,…,WN}为每个字宽度的集合,
Figure FDA00036479832800000410
为每行行高的集合,
Figure FDA0003647983280000048
为平均字宽,
Figure FDA0003647983280000049
为平均行高。
7.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤七中,对行书写质量评价打分的标准为:
7.1、大量收集用户所写汉字文本行的特征值数据;
7.2、根据各项指标数据的分布范围来划定特征的阈值范围;
7.3、以百分制计算各项特征的分数,给出文本行书写质量评价等级;
7.4、对所述特征值进行加权整合,给出综合评价。
8.一种基于时序点集计算的汉字文本行书写质量自动评价系统,其特征在于,所述系统包括:数据采集模块,分行模块,割字模块,特征计算模块,以及综合评价模块;
所述数据采集模块用于收集用户按行书写汉字文本产生的轨迹数据,所述轨迹数据的形式为包含时序信息的点集;所述点集用于组成笔画;
所述分行模块包括分行单元,拟合单元,补笔判断单元和合并判断单元;由数据采集模块输出的笔画首先进入分行单元,通过当前笔画、上一笔画和每行字的第一笔画之间的位置关系,将所述轨迹数据分成文本行;然后进入拟合单元,将属于一个文本行的点集拟合成一条用多项式表达的曲线,作为该文本行的行轴线;然后令当前笔画进入补笔判断单元进行判断:是否在文本行框中或文本行框的延长框中;如果是,则判定当前笔画为补笔行为,将该笔画归为当前文本行框中;如果不是,则重新进入分行单元;行文本作为所述补笔判断单元的输出,进入合并判断单元;所述合并判断单元用于判断两个相邻文本行的文本行框面积重叠程度是否超过事先设定的阈值;如果超过,则将这两个文本行的点集看作属于同一个文本行,然后返回输入分行单元,进入拟合单元,得到属于新的文本行的行轴线;如果未超过阈值,则作为分行模块的输出;
所述割字模块包括二值化单元,连通域标记单元,合并单元,所述二值化单元用于将书写汉字文本行图像进行二值化预处理,1表示黑点,0为白点,存储为二维数组;所述连通域标记单元用于利用递归算法遍历数组,搜索与“1”元素相邻的八个方向,标记同样为“1”的连通域;所述合并单元用于合并上下位置、重叠关系的连通域,然后利用投影法切分粘连字符,最后合并左右位置关系的连通域,得出割字结果;
所述特征计算模块用于接收文本行的行轴线信息和行内割字结果,输出行评价特征,所述行评价特征包括行轴线稳定性、行轴线距离稳定性、行轴线距离均匀性、多字的布白匀称性和左对齐程度;
所述综合评价模块用于接收特征计算模块输出的行评价特征,输出综合评价结果。
CN201811453492.4A 2018-11-30 2018-11-30 基于时序点集计算的汉字文本行书写质量自动评价方法和系统 Active CN109635687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811453492.4A CN109635687B (zh) 2018-11-30 2018-11-30 基于时序点集计算的汉字文本行书写质量自动评价方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811453492.4A CN109635687B (zh) 2018-11-30 2018-11-30 基于时序点集计算的汉字文本行书写质量自动评价方法和系统

Publications (2)

Publication Number Publication Date
CN109635687A CN109635687A (zh) 2019-04-16
CN109635687B true CN109635687B (zh) 2022-07-01

Family

ID=66069901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811453492.4A Active CN109635687B (zh) 2018-11-30 2018-11-30 基于时序点集计算的汉字文本行书写质量自动评价方法和系统

Country Status (1)

Country Link
CN (1) CN109635687B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443202B (zh) * 2019-08-06 2022-11-01 超级知识产权顾问(北京)有限公司 论文字体工整度即时分析系统、方法及存储介质
CN110796131A (zh) * 2019-10-31 2020-02-14 黑龙江文茁教育科技有限公司 一种汉字书写评价系统
CN111046751B (zh) * 2019-11-22 2024-02-13 华中师范大学 公式识别方法和装置
CN111461019B (zh) * 2020-04-01 2023-04-07 黑龙江文茁教育科技有限公司 一种汉字书写质量的评价方法、系统及设备
CN114936787A (zh) * 2022-06-08 2022-08-23 武汉行已学教育咨询有限公司 一种基于人工智能的线上学生教学智能分析管理云平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101419758A (zh) * 2008-12-12 2009-04-29 天津师范大学 学习能力测试设备
CN101465074A (zh) * 2008-10-21 2009-06-24 华南理工大学 一种手写汉字布局评价方法
CN103473572A (zh) * 2013-09-17 2013-12-25 南京师范大学 一种手写汉字美观度的评价方法
CN104182766A (zh) * 2014-08-29 2014-12-03 南京师范大学 基于模板匹配的手写汉字笔画位置关系正确性判断方法
CN104966096A (zh) * 2015-06-10 2015-10-07 南京师范大学 一种基于重要书写特征标注的手写汉字工整性评价方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10518409B2 (en) * 2014-09-02 2019-12-31 Mark Oleynik Robotic manipulation methods and systems for executing a domain-specific application in an instrumented environment with electronic minimanipulation libraries

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101465074A (zh) * 2008-10-21 2009-06-24 华南理工大学 一种手写汉字布局评价方法
CN101419758A (zh) * 2008-12-12 2009-04-29 天津师范大学 学习能力测试设备
CN103473572A (zh) * 2013-09-17 2013-12-25 南京师范大学 一种手写汉字美观度的评价方法
CN104182766A (zh) * 2014-08-29 2014-12-03 南京师范大学 基于模板匹配的手写汉字笔画位置关系正确性判断方法
CN104966096A (zh) * 2015-06-10 2015-10-07 南京师范大学 一种基于重要书写特征标注的手写汉字工整性评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于数字采集设备的汉字书写质量评价研究";徐晖等;《现代教育技术》;20161215;第26卷(第12期);第38-43页 *

Also Published As

Publication number Publication date
CN109635687A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635687B (zh) 基于时序点集计算的汉字文本行书写质量自动评价方法和系统
Alaei et al. A new scheme for unconstrained handwritten text-line segmentation
CN109389121B (zh) 一种基于深度学习的铭牌识别方法及系统
CN101763515B (zh) 一种基于计算机视觉的实时手势交互方法
CN111738141B (zh) 一种硬笔书法作品评判方法
CN100565559C (zh) 基于连通分量和支持向量机的图像文本定位方法和装置
CN112597876B (zh) 基于特征融合的书法汉字评判方法
CN109543777B (zh) 手写汉字书写质量评价方法及系统
CN107610200B (zh) 一种基于特征模板的字库快速生成方法
CN110070053B (zh) 一种字体特征提取方法和装置
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
CN104573685A (zh) 一种基于线性结构提取的自然场景文本检测方法
CN114092700B (zh) 基于目标检测和知识图谱的古文字识别方法
CN113191309A (zh) 一种手写汉字的识别、评分、纠错方法及系统
CN113269049A (zh) 一种用于检测手写汉字区域的方法
CN113642571A (zh) 一种基于显著性注意力机制的细粒度图像识别方法
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN116959008A (zh) 文字测评模型构建方法、装置、电子设备及存储介质
CN114550179B (zh) 对手写汉字黑板板书进行指导的方法、系统及设备
CN210038810U (zh) 智能评测设备及系统
CN105844299A (zh) 一种基于词袋模型的图像分类方法
CN114998262A (zh) 一种基于八分教学法的课堂脱机书法教学与评价系统
Tian et al. Ancient Chinese character image segmentation based on interval-valued hesitant fuzzy set
CN115035592A (zh) 一种用于美术作品在线教育的手势识别方法及装置
CN112200107A (zh) 一种发票文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant