CN111340810B

CN111340810B - 一种汉字书写质量智能评价方法

Info

Publication number: CN111340810B
Application number: CN202010433699.6A
Authority: CN
Inventors: 王鹏; 李鹏威; 侯一民; 孟祥芝; 李颖
Original assignee: Northeast Dianli University; Shenzhen Childrens Hospital
Current assignee: Northeast Electric Power University; Shenzhen Childrens Hospital
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-08-25
Anticipated expiration: 2040-05-21
Also published as: CN111340810A

Abstract

本发明公开了一种汉字书写质量智能评价方法，基于田字格或米字格格式的页面具有标记的书写纸张以及具有固定标识的电子感应板实现，包含如下步骤：将书写纸张平铺于数据采集板上，书写纸张页面的标记与压力板的的固定标识对齐固定；通过拍摄装置拍摄撰写者在书写纸张上撰写后形成的字迹图像，同时通过电子感应板采集得到感应数据，感应数据包含：笔画的起始位置坐标、笔画的终止位置坐标、笔画的压力数据、笔画的书写用时；将字迹图像以及感应数据上传至服务器，服务器根据字迹图像以及感应数据得到书写美观、书写错误、书写压力以及书写速度的评价数据，形成汉字书写质量评价报告。

Description

一种汉字书写质量智能评价方法

技术领域

本发明属于书写质量评价技术领域，特别是涉及一种汉字书写质量智能评价方法。

背景技术

目前单维度书写速度/书写美观/书写错误的测量无法全面定义书写能力。因为书写速度和书写质量存在动态平衡，个体可以花更多时间以换取更高的书写质量，或者牺牲书写质量以换取更高速度。所以书写能力的描述应结合时间和质量两方面。书写质量又至少包含书写错误率和书写美观。在书写错误率和书写美观方面，人工评价方式标准不统一、主观化、效率低，科研、临床均难以广泛应用。人工智能可以模拟并标准化书写错误及书写美观的评价。此外，除了书写时间和质量，书写压力作为书写障碍潜在的异常变量之一，也应予以采集。

发明内容

针对上述技术问题，本发明提供了一种汉字书写质量智能评价方法，基于田字格或者米字格格式的页面具有标记的书写纸张以及角落具有固定标识的电子感应板实现，包含如下步骤：

S1、将书写纸张平铺于数据采集板上，书写纸张页面的标记与压力板的固定标识对齐固定

S2、通过拍摄装置拍摄撰写者在书写纸张上撰写后形成的字迹图像，同时通过电子感应板采集得到感应数据，感应数据包含：笔画的起始位置坐标、笔画的终止位置坐标、笔画的压力数据、笔画的书写用时；

S3、将字迹图像以及感应数据上传至服务器，服务器根据字迹图像以及感应数据得到书写美观、书写错误、书写压力以及书写速度的评价数据，形成汉字书写质量评价报告；服务器得到评价数据具体包含如下步骤：

S31、对字迹图像进行预处理，以滤除包含书写纸张在内的背景，仅保留字迹；

S32、对预处理后的字迹图像进行灰度化处理，得到灰度图像；

S33、对灰度图像进行初步划分，得到各个汉字，然后得到各个汉字的汉字骨架特征；

S34、基于感应数据，计算笔画特征，笔画特征包含笔画的长度、量化压力、书写速度以及笔画倾斜度；

S35、将灰度图像切割成固定大小的图像块，每个图像块包含固定数量的多个汉字；其中，对于米字格中不存在汉字的图像块以及未切割成所述固定大小的图像块，直接舍弃；

S36、将图像块送入训练好的模型中，利用提取的汉字骨架特征与标准的汉字骨架特征进行比对以及笔画特征与标准的笔画特征进行比对，得到各个图像块的书写美观、书写错误、书写压力以及书写速度的评价数据，然后根据各个图像块的评价数据最终得到字迹图像的整体评价数据。

实施本发明的一种汉字书写质量智能评价方法，具有以下有益效果：本发明能够对汉字书写质量进行评价，通过人工智能，模拟教师对书写错误进行准确判断，对人脑对书写美观的复杂抽象过程进行模拟，结合单字、总体书写速度，以及书写压力等常见变量，实现高效、高同质性的书写能力量化，进行常模统计后，可推广使用。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的汉字书写质量智能评价方法的流程图；

图2是书写纸张第一实施例的示意图；

图3是书写纸张的第一实施例的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，本发明的汉字书写质量智能评价方法，基于米字格格式的页面具有标记的书写纸张以及具有固定标识的电子感应板实现，书写纸张的第一实施例请参考图2，本实施例中书写纸张大小为A4，所有米字格为9列10行。功能区域设计如图2所示，包含右上、左下两个方向检测区域，即包含：左上、右下两个固定标记、书写采集区域、医嘱区域以及方向检测区域。

为防止使用错误方向采集用纸的情况发生，设计了方向检测区域（右上、左下），使用方法为在右上填写“0”，在左下填写“1”，采集板扫描到对应信号，满足条件后方可激活采集程序。固定标定点：用于在方向检测环节满足条件后，采集字迹程序前的纸张标定工作，使用方法为用采集笔分别点击标定点，得到此时标定点在采集板上的坐标；书写采集区域：用于字迹采集，为九行十列的的浅绿色底米字格。医嘱区域用于给出医嘱评价；

本发明的汉字书写质量智能评价方法包含如下步骤S1-S3。

S1将书写纸张平铺于数据采集板上，书写纸张页面角落的标记与压力板的的固定标识分别对齐固定，书写纸张可以通过夹具固定在数据采集板上，在其他实施例中也可以通过例如图钉钉住的方式。

数据采集板硬件动作与采集逻辑如下：

1.通电，进入待机状态，扫描右上角检测区域是否有“0”输入；若有，则进入二次检测状态；

2.进入二次检测状态，扫描左下角检测区域是否有“1”输入；若有，则进入待标定状态；

3.进入待标定状态后，采集标定点坐标信息；

4.上传至上位机计算后，均分为九行十列，计算区域边界点坐标，得出区域划分表；

5.当区域（米字格）1中采集到笔划信息时，采集其相关信息如信息采集表所示，区域编号除外；

6.当区域1中采集到第 m (m > 1)划时，判断其起止点坐标逻辑如下：

1）若起止点坐标皆属于同一区域，则该笔划所属区域编号为当前区域号；

2）若起止点坐标分属于不同区域，则该笔划所属编号为当前区域号；3）若起止点坐标皆属于下个区域，则认定已经完成了一个单字的采集，屏蔽该笔划所在区域的信息采集，同时该笔划所属编号为下一区域；

4）区域编号加一，继续采集下一个字；

7. 重复 6 以完成全部信息采集过程。

参考图3，本发明的另一实施例的书写纸张如图3所示，书写纸张大小为A4，书写纸张的坐标为田字格，所有田字格为9列10行，左上和右下分别具有标识，同时纸张的右边具有学校、年级、姓名、性别等填写栏，田字格可以与田字格具有相同的大小。

S2、通过拍摄装置，例如手机拍摄撰写者在书写纸张上撰写后形成的字迹图像，同时通过电子感应板采集得到感应数据，感应数据包含：笔画的起始位置坐标、笔画的终止位置坐标、笔画的压力数据、笔画的书写用时。

S3、将字迹图像以及感应数据上传至服务器，服务器根据字迹图像以及感应数据得到书写美观、书写错误、书写压力以及书写速度的评价数据，形成汉字书写质量评价报告。

服务器得到评价数据具体包含如下步骤S31至S35。

S31、对字迹图像进行预处理，以滤除包含书写纸张在内的背景，仅保留字迹。

S32、对预处理后的字迹图像进行灰度化处理，得到灰度图像。

S33、对灰度图像进行初步划分，得到各个汉字，然后得到各个汉字的汉字骨架特征。

单个汉字的汉字骨架特征的提取采用下述步骤得到：

S331、使用Canny算子将灰度图像进行边缘提取，将一个汉字的边缘点的位置坐标存入数组INI_Edge中；

S332、从INI_Edge中选取一边缘点作为开始，以n个边缘点作为步长从INI_Edge选取边缘点，将选取的边缘点依次作为待检测的边缘点进行步骤S333-S334中的处理，处理完毕后，将步骤S334保留得到的所有边缘点带入到步骤S335中进行后续处理；n为大于等于1的正整数；例如n=5；

S333、使用统计方法得到待检测的边缘点的曲率：在待检测的边缘点的领域内计算其他边缘点相对于该待检测的边缘点的斜率分布向量，然后进行统计，以此区分待检测的边缘点为角点还是非角点；

S334、在角点处断开，以角点为分隔点，通过各个分割点将待检测的边缘点进行分割，得到一组或者边缘点数组，用于后续计算；

S335、对于所述保留得到的所有边缘点，取前两个边缘点A、B，连接A、B两点，在直线AB上取中点M；

S336、求过直线AB中点M点的法线；

S337、做内切圆，圆心在法线上并与直线AB相切于点M；

S338、赋值内切圆的半径为R0；R0初始时为预设值，例如可以取值（0.0.5]像素；

S339、增大R0，例如可以增大一倍，计算出增大R0后的圆心C；

S3310、分别计算所述保留得到的所有边缘点到圆心C的距离，如果距离小于增大后的R0，则保存该边缘点到一个列表C_List内，否则不保存边缘点到列表C_List内；

S3311、如果计算后所有边缘点后列表C_List为空，返回S339继续增大R0；

S3312、如果计算后所有边缘点后列表C_List不为空，则将R0更新为前一次增大前的数值，如之前是增大一倍，这里则减小为1/2；

S3313、保存所求的圆心和步骤S3312中得到的R0半径，返回步骤S335，选取所述保留得到的所有边缘点中的第2个和第3个边缘点，重新进行S335至S3312，以此类推，直至本组边缘点组中的最后两个边缘点计算完毕；

S3314、将本组边缘点组计算得到的将所有的内切圆的圆心依次连接起来即得到汉字的部分骨架；

S3315、采用步骤S335至S3314中同样的方法得到各个边缘点组对应的汉字的部分骨架，所有边缘点组得到的汉字的部分骨架组合起来得到该汉字的完整骨架，从而得到汉字骨架特征。

S34、基于感应数据，计算笔画特征，笔画特征包含笔画的长度、量化压力、书写速度以及笔画倾斜度。

书写速度基于下述方法得到：

米字格或者田字格在所述灰度图像中对应的大小为150*150像素，将汉字的骨架放入150*150像素米字格或者田字格内，然后进行二值化处理，得到单个汉字的骨架的二值图像，统计二值图像中5 * 5像素为黑色区域的数量为n，计算该汉字的书写用时T，单字的书写速度v = 5n/T ，单位为像素/s。

S35、将灰度图像切割成固定大小的图像块，每个图像块包含固定数量的多个汉字；其中，对于米字格中不存在汉字的图像块以及未切割成所述固定大小的图像块，直接舍弃。在本实施例中，通过拍摄装置拍摄所述字迹图像时，单个米字格所对应的图像大小为150*150像素；步骤S35中所述每个图像块包含固定数量的多个米字格是指每个图像块包含4个米字格，4个米字格为相邻的左上、左下、右上、右下四个米字格，对于边缘多余的列或者行，直接舍去，一共得到16个图像块，并将剔除的无效的图像块，包括图像块内含大面积空白（空白面积大于预设值）、涂改、笔迹不清晰的情况。

S36、将图像块送入训练好的模型中，利用提取的汉字骨架特征与标准的汉字骨架特征进行比对以及笔画特征与标准的笔画特征进行比对，得到各个图像块的书写美观、书写错误、书写压力以及书写速度的评价数据，然后根据各个图像块的评价数据最终得到字迹图像的整体评价数据。得到各个图像块的评价数据时，对于图像块的评价数据采用“投票表决”的策略来决定其最终的评价数据，即将任一图像块内的多个汉字分别得到评价数据，统计该图像块各种评价数据的个数，图像块最终的评价数据采用该图像块中评价数据类型最多的那一类。所述该图像块中评价数据类型最多的那一类为多个种类，则选取其中的一种作为图像块最终的评价数据，或者将该图像块在本地人机交互装置（例如电脑）上显示出来，并获取工作人员最终确定的一类评价数据作为该图像块最终的评价数据。其中，训练好的模型中包含书写美观子模型，书写美观子模型是经过下述方法训练得到：

获取多张汉字的书写图像，例如2000～2600张，每张书写图像均被M个人给出了关于书写美观的N个等级的评价数据，其中N个等级分别对应评分N、N-1、...、2、1，分数越高评价越好；M和N均为大于等于3的正整数，M大于或者等于N；例如M=15，N=5；

对于每张书写图像，将M个评分相加求和后得到除以M，得到每张书写图像的平均评分；

将这些书写图像按照平均评分由低到高进行划分，划分得到的书写图像的数量为1：a:b，a=3±20%，b=1±20%，例如：1:3:1，从而确定对应的三个评分区间：较差区间、中等区间以及较好区间，本发明在实际进行测试得到的三个区间为0-2.30，2.31-3.43，3.44-5.00三个区间（仅保留小数点后2位）。

将每张书写图像采用卷积神经网络进行特征提取，将提取到的图像特征与新的标签对应作为训练样本，所有的训练样本一起作为训练集训练分类网络，得到书写美观子模型；新的标签是指位于较差区间、中等区间以及较好区间的书写图像对应的标签为I、II以及III。本发明对Lenet-5，VGG-16，VGG-19，Resnet-18，Resnet-34，Resnet-50通过迁移训练训练集，并在测试集上验证准确率；此举目的在于寻找可能胜任当前分类任务的较优网络结构；依此方案本发明最终选定了Resnet-18作为分类网络结构，致力于完成图像分类任务。

书写美观子模型训练的方法中，所述多张汉字的书写图像包括原始的书写图像以及将原始的书写图像进行旋转扩充以完成数据增强操作后形成的增加图像，旋转的角度为±5°至±10°，旋转后的书写图像与原旋转前的书写图像具有相同的标签。

本上述所有的训练样本一起作为训练集训练直接在一个分类网络中训练，作为本发明的一种优选实施方式，也可以将标签为II的书写图像特征随机平分为3部分，其中一部分加入到标签为I的书写图像特征中，得到第一训练子集，再一部分直接作为第二训练子集，最后一部分加入到标签为III的书写图像特征中，得到第三训练子集，三个训练子集分别训练一个分类网络得到三个弱分类器，三个若分类器分别分配相同的权重后，形成书写美观子模型。此举的目的在于提升准确率，本发明实际测试中提升为约2%。

本发明还将撰写者实时撰写的汉字显示在本地的上位机的显示屏中；汉字书写质量智能评价方法将电子感应板感应到的书写压力量化为256级，并在上位机（例如电脑）的显示屏中以线条反映笔尖划过的轨迹信息，以线条粗细反馈笔尖处量化后的压力，压力越大线条越粗。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种汉字书写质量智能评价方法，基于田字格或米字格格式的页面具有标记的书写纸张以及具有固定标识点的电子感应板实现，其特征在于，包含如下步骤：

S1、将书写纸张平铺于数据采集板上，书写纸张页面的标记与压力板的固定标识分别对齐固定；

S33、对灰度图像进行初步划分，得到各个汉字，然后得到各个汉字的汉字骨架特征；其中，单个汉字的汉字骨架特征的提取采用以下步骤得到：

S331、将灰度图像进行边缘提取，将一个汉字的边缘点的位置坐标存入数组INI_Edge中；

S332、从INI_Edge中选取一边缘点作为开始，以n个边缘点作为步长从INI_Edge选取边缘点，将选取的边缘点依次作为待检测的边缘点进行步骤S333-S334中的处理，处理完毕后，将步骤S334保留得到的所有边缘点带入到步骤S335中进行后续处理；n为大于等于1的正整数；

S334、在角点处断开，以角点为分隔点，通过各个分割点将待检测的边缘点进行分割，保存为一组得到一组或者边缘点数组，用于后续计算；

S335、对于所有边缘点数组，以任一组进行处理，取该任一组前两个边缘点A、B，连接A、B两点，在直线AB上取中点M；

S336、求过直线AB中点M点的法线；

S337、做内切圆，圆心在法线上并与直线AB相切于点M；

S338、赋值内切圆的半径为R0；R0初始时为预设值；

S339、增大R0，计算出增大R0后的圆心C；

S3312、如果计算后所有边缘点后列表C_List不为空，则将R0更新为前一次增大前的数值；

S3314、将本组边缘点组计算得到的所有的内切圆的圆心依次连接起来即得到汉字的部分骨架；

S3315、采用步骤S335至S3314中同样的方法得到各个边缘点组对应的汉字的部分骨架，所有边缘点组得到的汉字的部分骨架组合起来得到该汉字的完整骨架，从而得到汉字骨架特征；

2.根据权利要求1所述的汉字书写质量智能评价方法，其特征在于，所述书写速度基于下述方法得到：

所述米字格或者田字格在所述灰度图像中对应的大小为150*150像素，将汉字的骨架放入150*150像素米字格或者田字格内，然后进行二值化处理，得到单个汉字的骨架的二值图像，统计二值图像中5*5像素为黑色区域的数量为n，计算该汉字的书写用时T，单字的书写速度v = 5n/T ，单位为像素/s。

3.根据权利要求1所述的汉字书写质量智能评价方法，其特征在于，还包括将撰写者实时撰写的汉字显示在本地的上位机的显示屏中；

所述汉字书写质量智能评价方法将电子感应板感应到的书写压力量化为256级，并在上位机的显示屏中以线条反映笔尖划过的轨迹信息，以线条粗细反馈笔尖处量化后的压力，压力越大线条越粗。

4.根据权利要求1所述的汉字书写质量智能评价方法，其特征在于，所述训练好的模型中包含书写美观子模型，书写美观子模型是经过下述方法训练得到：

获取多张汉字的书写图像，每张书写图像均被M个人给出了关于书写美观的N个等级的评价数据，其中N个等级分别对应评分N、N-1、...、2、1，分数越高评价越好；M和N均为大于等于3的正整数，M大于或者等于N；

将这些书写图像按照平均评分由低到高进行划分，划分得到的书写图像的数量为1：a:b，a=3±20%，b=1±20%，从而确定对应的三个评分区间：较差区间、中等区间以及较好区间；

将每张书写图像采用卷积神经网络进行特征提取，将提取到的图像特征与新的标签对应作为训练样本，所有的训练样本一起作为训练集训练分类网络，得到书写美观子模型；新的标签是指位于较差区间、中等区间以及较好区间的书写图像对应的标签为I、II以及III。

5.根据权利要求4所述的汉字书写质量智能评价方法，其特征在于，书写美观子模型训练的方法中，所述多张汉字的书写图像包括原始的书写图像以及将原始的书写图像进行旋转扩充以完成数据增强操作后形成的增加图像，旋转的角度为±5°至±10°，旋转后的书写图像与原旋转前的书写图像具有相同的标签。

6.根据权利要求4所述的汉字书写质量智能评价方法，其特征在于，将标签为II的书写图像特征随机平分为3部分，其中一部分加入到标签为I的书写图像特征中，得到第一训练子集，再一部分直接作为第二训练子集，最后一部分加入到标签为III的书写图像特征中，得到第三训练子集，三个训练子集分别训练一个分类网络得到三个弱分类器，三个若分类器分别分配相同的权重后，形成书写美观子模型。

7.根据权利要求1所述的汉字书写质量智能评价方法，其特征在于，所述书写纸张大小为A4，所有米字格为9列10行，通过拍摄装置拍摄所述字迹图像时，单个米字格所对应的图像大小为150*150像素；步骤S35中所述每个图像块包含固定数量的多个米字格是指每个图像块包含4个米字格，4个米字格为相邻的左上、左下、右上、右下四个米字格，对于边缘多余的列或者行，直接舍去，一共得到16个图像块，并将剔除的无效的图像块，包括图像块内含大面积空白、涂改、笔迹不清晰的情况。

8.根据权利要求1所述的汉字书写质量智能评价方法，其特征在于，步骤S3中，得到各个图像块的评价数据时，对于图像块的评价数据采用“投票表决”的策略来决定其最终的评价数据，即将任一图像块内的多个汉字分别得到评价数据，统计该图像块各种评价数据的个数，图像块最终的评价数据采用该图像块中评价数据类型最多的那一类。

9.根据权利要求8所述的汉字书写质量智能评价方法，其特征在于，所述该图像块中评价数据类型最多的那一类为多个种类，则选取其中的一种作为图像块最终的评价数据，或者将该图像块在本地人机交互装置上显示出来，并获取工作人员最终确定的一类评价数据作为该图像块最终的评价数据。