CN114359917A - 一种手写汉字检测识别及字形评估方法 - Google Patents
一种手写汉字检测识别及字形评估方法 Download PDFInfo
- Publication number
- CN114359917A CN114359917A CN202111520803.6A CN202111520803A CN114359917A CN 114359917 A CN114359917 A CN 114359917A CN 202111520803 A CN202111520803 A CN 202111520803A CN 114359917 A CN114359917 A CN 114359917A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- chinese characters
- handwritten
- handwritten chinese
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种手写汉字检测识别及字形评估方法。该方法包括汉字检测阶段、汉字识别阶段和汉字评估阶段。汉字检测阶段的流程为:对被识别图像进行二值化,提取出字迹部分,形成二值图。将二值图输入到基于yolo神经网络的特征提取模块,经过卷积层提取特征。在特征图上,对每一个像素点进行边界框的预测。对边界框进行筛选,得到预测边界框。本发明提通过yolov5s模型进行手写汉字的检测,再通过CNN模型识别裁剪得到的汉字,然后生成对应的楷书模板,并对其计算重合度,利用重合度实现了对手写汉字的评分,能够更直观地评估手写汉字的字形与楷书模板之间的差异,评价手写汉字的规范程度。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种手写汉字检测识别算法以及字形评估方法。
背景技术
随着计算机技术的快速发展,尤其是手机等智能终端在人们生活中发挥越来越重要的作用,手写汉字检测识别已成为一种面向智能终端的重要识别方式。具体来说,手写文字识别是指机器扫描分析用户原本的手写字,以及评分书写轨迹获取书写后的文字或符号的图像,并由计算机通过识别算法识别文字过程。随着深度学习广泛发展,深度学习在手写汉字识别领域的应用取得了巨大的成功。
自Yann LcCun等人设计并应用到手写数字识别任务以来,卷积神经网络发展迅速,并已成为目标识别的重要手段。比起普通网络中的全连接层,卷积网络中的卷积层考虑到图像中的局部关联性,能使模型更好地提取图像特征,进而帮助提高模型精度。此外,全连接方式下,输出N个元素的向量需要N对权重w和偏置b,而卷积网络中一个特征图的每个输出是共享同一个卷积核的,这样就大大减少了参数量,提高了模型的推理速度。
YOLO(You Only Look Once)是Ultralytics公司开发并在Github开源的目标检测模型。在匿名的客户数据集上经过数千小时的训练和改进,最小的YOLOv5s模型在GPU环境下可以达到每张图片5毫秒左右的推理速度。
本发明使用yolov5s模型作为汉字检测器,并使用一个包含三层卷积层和两层全连接层的卷积神经网络作为分类器。借助web技术,可以将识别结果直观地展示给用户,包括用户原本的手写字,生成的楷书模板和模板重合的结果以及评分。
发明内容
本发明的目的在于提供一种手写汉字检测识别及字形评估方法,实现手写汉字字符样本的识别和字形好坏评估。
基于神经网络的手写汉字检测识别及字形评估方法,具体步骤如下:
步骤一、汉字检测阶段,具体流程为:
1-1.对被识别图像进行二值化,提取出字迹部分,形成二值图。
1-2.将二值图输入到基于yolo神经网络的特征提取模块,经过卷积层提取特征。
1-3.在步骤1-2得到的特征图上,对每一个像素点进行边界框的预测。
1-4.对边界框进行筛选,得到预测边界框。
步骤二、汉字识别阶段,具体流程为:根据步骤一得到的各预测边界框进行汉字裁剪,并缩放为预设尺寸的单字图片后输入分类器,获得单字图片对应的汉字类别预测值。
步骤三、汉字评估阶段,具体流程为:
3-1.根据每个汉字的预测值,分别选取对应的楷书模板,楷书模板的大小与单字图片相同。
3-2.对楷书模板与单字图片求交集面积S∩和并集面积S∪。
作为优选,步骤1-2中,所述的yolo神经网络含有23个卷积模块以及1个检测层。
作为优选,步骤1-4中,对边界框的筛选采用非极大值抑制算法。
作为优选,步骤二中所述的预设尺寸为128像素长宽。
作为优选,步骤二中所述的分类器采用CNN模型,其包含三层卷积层以及2层全连接层,能够输出3755个汉字的概率。CNN模型对单字图片进行特征提取后,所得特征图展开为一维向量,送入全连接层进行分类,全连接层中的softmax层得到3755个类别的概率,概率最大值对应的类别作为该单字图片中的预测值。
本发明的有益效果为:
本发明通过yolov5s模型进行手写汉字的检测,再通过CNN模型识别裁剪得到的汉字,然后生成对应的楷书模板,并对其计算重合度,利用重合度实现了对手写汉字的评分,能够更直观地评估手写汉字的字形与楷书模板之间的差异,评价手写汉字的规范程度。
附图说明
图1为本发明的总体架构图;
图2a为本发明中使用的yolov5s模型的网络结构示意图;
图2b为本发明中使用的CNN模型的网络结构示意图;
图3a为本发明对带有背景样本的检测结果示意图;
图3b为本发明对不带背景样本的检测结果示意图;
图4为本发明中CNN模型的分类结果示意图;
图5为本发明对整张手写字样本的评分示意图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提供一种基于神经网络的手写汉字检测识别及字形评估方法。这种方法实现了手写汉字字符样本字形好坏的评估,在一定程度上完成了手写汉字字形评分的自动化。本发明面向常见的手写汉字识别任务,是指基于白底黑字的手写汉字。
本发明包括手写汉字识别和字符关键笔画分析两个阶段。手写汉字识别阶段采用一种带有自注意力机制的递归神经网络算法,这种算法对神经网络顶层每一时刻的隐含层状态向量都生成一个相应的权值,然后使用这些权值对所有时刻顶层的状态向量求加权和作为神经网络的输出,通过使用这种自注意力机制,提高了手写汉字的识别精度。其次,神经网络训练完成后,给定输入字符样本,将对应的各个轨迹点的权值提取出来,使用特定的阈值将权值向量二值化,与输入字符样本轨迹相结合,对输入字符轨迹中各轨迹点的重要程度做一个可视化评估。
如图1所示,该基于神经网络的手写汉字检测识别及字形评估方法的具体步骤如下:
步骤一、汉字检测阶段,具体流程为:
1-1.数据预处理模块接收被识别的手写汉字图片,并图片中将黑色字迹部分提取出来,形成二值图。
1-2.基于yolo神经网络的特征提取模块,接收步骤1-1得到的二值图,经过卷积层提取特征,得到三种尺度的特征图。如图2a所示,yolo神经网络采用yolov5s模型,其含有23个卷积模块以及1个检测层。
1-3.在三种尺度的特征图上,对每一个像素点进行边界框的预测。
1-4.使用非极大值抑制算法对边界框进行筛选,得到最合理的预测边界框。
步骤二、汉字识别阶段,具体流程为:
2-1.根据步骤一得到的各预测边界框在原图上进行汉字裁剪,将各预测边界框内的汉字单独剪切出来,并统一缩放为128像素长宽的单字图片。并将各单字图片分别输入分类器;如图2b所示,分类器采用CNN模型,其包含三层卷积层以及2层全连接,能够输出3755个汉字的概率。
2-2.通过卷积神经网络CNN分别对各单字图片进行特征提取。
2-3.将步骤2-2得到的特征图展开为一维向量,送入全连接层进行分类。
2-4.使用全连接层中的softmax层得到3755个类别的概率,概率最大值对应的类别作为该单字图片中的预测值(即汉字识别结果)。
步骤三、汉字评估阶段,具体流程为:
3-1.根据每个汉字的预测值,分别生成对应的楷书模板,楷书模板的大小为128像素长宽。
3-2.将生成的楷书模板覆盖到步骤1-1得到的二值图上,得到交集和并集。
本发明对带有背景的楷体样本及不带背景的楷体样本进行识别,结果分别如图3a和3b所示,可以看出,本发明能够精准识别出汉字位置和类别,并提出了较高且稳定的评分。
本发明对单个手写汉字和整张的多个手写汉字进行进行识别,结果分别如图4和5所示,可以看出,本发明能够实现对手写汉字的准确识别并给出适当的评分。
Claims (5)
1.一种手写汉字检测识别及字形评估方法,其特征在于:步骤一、汉字检测阶段,具体流程为:
1-1.对被识别图像进行二值化,提取出字迹部分,形成二值图;
1-2.将二值图输入到基于yolo神经网络的特征提取模块,经过卷积层提取特征;
1-3.在步骤1-2得到的特征图上,对每一个像素点进行边界框的预测;
1-4.对边界框进行筛选,得到预测边界框;
步骤二、汉字识别阶段,具体流程为:根据步骤一得到的各预测边界框进行汉字裁剪,并缩放为预设尺寸的单字图片后输入分类器,获得单字图片对应的汉字类别预测值;
步骤三、汉字评估阶段,具体流程为:
3-1.根据每个汉字的预测值,分别选取对应的楷书模板,楷书模板的大小与单字图片相同;
3-2.对楷书模板与单字图片求交集面积S∩和并集面积S∪;
2.根据权利要求1所述的一种手写汉字检测识别及字形评估方法,其特征在于:步骤1-2中,所述的yolo神经网络含有23个卷积模块以及1个检测层。
3.根据权利要求1所述的一种手写汉字检测识别及字形评估方法,其特征在于:步骤1-4中,对边界框的筛选采用非极大值抑制算法。
4.根据权利要求1所述的一种手写汉字检测识别及字形评估方法,其特征在于:步骤二中所述的预设尺寸为128像素长宽。
5.根据权利要求1所述的一种手写汉字检测识别及字形评估方法,其特征在于:步骤二中所述的分类器采用CNN模型,其包含三层卷积层以及2层全连接层,能够输出3755个汉字的概率;CNN模型对单字图片进行特征提取后,所得特征图展开为一维向量,送入全连接层进行分类,全连接层中的softmax层得到3755个类别的概率,概率最大值对应的类别作为该单字图片中的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111520803.6A CN114359917A (zh) | 2021-12-13 | 2021-12-13 | 一种手写汉字检测识别及字形评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111520803.6A CN114359917A (zh) | 2021-12-13 | 2021-12-13 | 一种手写汉字检测识别及字形评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114359917A true CN114359917A (zh) | 2022-04-15 |
Family
ID=81099465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111520803.6A Pending CN114359917A (zh) | 2021-12-13 | 2021-12-13 | 一种手写汉字检测识别及字形评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359917A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116012860A (zh) * | 2022-12-29 | 2023-04-25 | 华南师范大学 | 一种基于图像识别的教师板书设计水平诊断方法及装置 |
CN117472257A (zh) * | 2023-12-28 | 2024-01-30 | 广东德远科技股份有限公司 | 一种基于ai算法的自动转正楷的方法及系统 |
-
2021
- 2021-12-13 CN CN202111520803.6A patent/CN114359917A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116012860A (zh) * | 2022-12-29 | 2023-04-25 | 华南师范大学 | 一种基于图像识别的教师板书设计水平诊断方法及装置 |
CN116012860B (zh) * | 2022-12-29 | 2024-01-16 | 华南师范大学 | 一种基于图像识别的教师板书设计水平诊断方法及装置 |
CN117472257A (zh) * | 2023-12-28 | 2024-01-30 | 广东德远科技股份有限公司 | 一种基于ai算法的自动转正楷的方法及系统 |
CN117472257B (zh) * | 2023-12-28 | 2024-04-26 | 广东德远科技股份有限公司 | 一种基于ai算法的自动转正楷的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN111488826B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN111401372B (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
Nair et al. | Malayalam handwritten character recognition using convolutional neural network | |
CN105608454B (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
CN111191695A (zh) | 一种基于深度学习的网站图片篡改检测方法 | |
CN114359917A (zh) | 一种手写汉字检测识别及字形评估方法 | |
CN109299303B (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112580507A (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
CN114360038B (zh) | 基于深度学习的弱监督rpa元素识别方法及系统 | |
CN112733858B (zh) | 基于字符区域检测的图像文字快速识别方法及装置 | |
Karunarathne et al. | Recognizing ancient sinhala inscription characters using neural network technologies | |
Cerman et al. | A mobile recognition system for analog energy meter scanning | |
CN112307919A (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN110414505A (zh) | 图像的处理方法、处理系统及计算机可读存储介质 | |
Akinbade et al. | An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
Nandhini et al. | Sign language recognition using convolutional neural network | |
Oktaviani et al. | Optical character recognition for hangul character using artificial neural network | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms | |
Singh et al. | A comprehensive survey on Bangla handwritten numeral recognition | |
Chen et al. | Scene text recognition based on deep learning: a brief survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |