CN113361666B - 一种手写字符识别方法、系统及介质 - Google Patents
一种手写字符识别方法、系统及介质 Download PDFInfo
- Publication number
- CN113361666B CN113361666B CN202110662477.6A CN202110662477A CN113361666B CN 113361666 B CN113361666 B CN 113361666B CN 202110662477 A CN202110662477 A CN 202110662477A CN 113361666 B CN113361666 B CN 113361666B
- Authority
- CN
- China
- Prior art keywords
- model
- image
- handwritten
- character
- performance parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种手写字符识别方法、系统及介质,所述方法包括以下步骤:对手写字符图像数据进行图像预处理,得到第一手写字符图像数据集;设置性能参数阈值,通过性能参数阈值、第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作,得到手写单字字符识别模型;通过对待识别的手写字符图像进行分割,得到排列顺序和单字图像;对单字图像进行手写字符识别验证操作,得到单字图像识别结果,对单字图像识别结果进行重组,得到待识别的手写字符图像的识别结果;本发明能够识别不同中类型的手写字符,提升识别的准确性,并且其中通过不同的方法进行区分测试集和训练集能够使得训练出的模型更加全面,进行预测得更加准确。
Description
技术领域
本发明涉及图像处理领域,特别是涉及一种手写字符识别方法、系统及介质。
背景技术
手写字符识别的应用场景随着社会智能化的发展越来越多,例如智能手机上的手写输入法,银行、证券行业的文件的手写签名留档,智能会议场景中的手写板书等。随着机器学习的进步,手写识别也用到了人工神经网络模型根据抽取出来的特征设计分类器进行识别。但是,由于书写风格差异造成手写变形等客观因素的存在,利用笔画特征或特征点提取、分类器识别等方式仍在不足之处,具体可归纳为以下几点:
1、利用笔画特点的方式识别面临的变化多;
不同的人书写风格的差异会造成手写汉字不同程度地变形,例如横不平、竖不直的基本笔画变化,笔画模糊,该连的不连,不该连的相连,笔画之间、部位之间的位置变化,笔画倾斜角、长短、偏旁部首的大小变化,不同的笔造成的笔画粗细变化,这些都会造成识别错误。
2、抽取笔画的方式速度慢;
抽取笔画的方式需要对原始点阵图像进行细化处理,细化算法速度慢,而且经常产生伪笔画,比如将一个四叉点变成了两个三叉点,抽取的笔画基元不准确,后续的基于笔画基元的匹配识别也是速度比较慢的。
3、特征提取与识别分类器的方式识别正确率低;
特征点的抽取容易受到噪声点、笔画断裂与粘连等问题的影响,而且由于手写变形的存在,生成的识别分类器局限性比较大,若待识别的手写字与训练分类器的时候的样本差别大,识别正确率就会比较低。
发明内容
本发明主要解决是目前手写字符识别书写风格会造成识别错误、抽取笔画方式速度慢和识别正确率低的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种手写字符识别方法,包括以下步骤:
获取手写字符图像数据,对所述手写字符图像数据进行图像预处理,得到第一手写字符图像数据集;
设置性能参数阈值,通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作,得到手写单字字符识别模型;
通过图像处理算法对待识别的手写字符图像进行分割,得到排列顺序和单字图像;
通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别结果,根据所述排列顺序对所述单字图像识别结果进行重组,得到所述待识别的手写字符图像的识别结果。
优选的,所述获取手写字符图像数据,对所述手写字符图像数据集进行图像预处理的步骤进一步包括:
连接手写字符图像数据集,通过网络采集手写字符图像数据;
所述手写字符图像数据集包括HCL2000、CASIA中文手写数据集、CASIA英文手写数据集、DBRHD和MNIST;
将所述手写字符图像数据通过所述图像处理算法进行分割,得到第一网络手写字符图像样本;
将所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像数据进行图像变换,得到第一手写字符图像数据集。
优选的,所述将所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像样本进行图像变换的步骤进一步包括:对所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像样本通过旋转、模糊和仿射的方法进行图像处理;
将进行图像处理后的所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像样本进行合并,得到第一手写字符图像数据集。
优选的,所述通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作的步骤进一步包括:将所述第一手写字符图像数据集划分为训练集和测试集,通过训练集和神经网络训练模型进行模型训练操作,得到字符识别模型;
通过所述性能参数阈值和所述测试集对所述字符识别模型进行测试验证操作,根据所述测试验证操作的结果得到手写单字字符识别模型。
优选的,所述字符识别模型包括第一字符识别模型、第二字符识别模型和第三字符识别模型;
所述将所述第一手写字符图像数据集划分为训练集和测试集,通过训练集和神经网络训练模型进行模型训练操作,得到字符识别模型的步骤进一步包括:
通过留出法将所述第一手写字符图像数据集划分为第一训练集和第一测试集,通过所述第一训练集和所述神经网络训练模型进行模型训练操作,得到所述第一字符识别模型;
通过交叉验证法将所述第一手写字符图像数据集划分为第二训练集和第二测试集,通过所述第二训练集和所述神经网络训练模型进行模型训练操作,得到所述第二字符识别模型;
通过留出法将所述第一手写字符图像数据集划分为第三训练集和第三测试集,通过所述第三训练集和所述神经网络训练模型进行模型训练操作,得到所述第三字符识别模型。
优选的,所述手写单字字符识别模型包括第一手写单字字符识别模型、第二手写单字字符识别模型和第三手写单字字符识别模型;
所述通过所述性能参数阈值和所述测试集对所述字符识别模型进行测试验证操作,根据所述测试验证操作的结果得到手写单字字符识别模型的步骤进一步包括:通过所述第一测试集对所述第一字符识别模型进行测试验证,得到第一模型性能参数,将第一模型性能参数和性能参数阈值进行比较,若所述第一模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第一模型性能参数不小于所述性能参数阈值,则所述第一字符识别模型为所述第一手写单字字符识别模型;
通过第二测试集对所述第一字符识别模型进行测试验证,得到第二模型性能参数,将第二模型性能参数和性能参数阈值进行比较,若所述第二模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第二模型性能参数不小于所述性能参数阈值,则所述第二字符识别模型为所述第二手写单字字符识别模型;
通过第三测试集对所述第一字符识别模型进行测试验证,得到第三模型性能参数,将第三模型性能参数和性能参数阈值进行比较,若所述第三模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第三模型性能参数不小于所述性能参数阈值,则所述第三字符识别模型为所述第三手写单字字符识别模型。
优选的,所述通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别结果的步骤进一步包括:通过所述第一手写单字字符识别模型对所述单字图像进行识别,得到第一图像识别结果;
通过所述第二手写单字字符识别模型对所述单字图像进行识别,得到第二图像识别结果;
通过所述第三手写单字字符识别模型对所述单字图像进行识别,得到第三图像识别结果;
根据所述第一图像识别结果、第二图像识别结果和第三图像识别结果进行对比判断,得到单字图像识别结果。
优选的,所述根据所述第一图像识别结果、第二图像识别结果和第三图像识别结果进行对比判断,得到单字图像识别结果的步骤进一步包括:判断所述第一图像识别结果、第二图像识别结果和第三图像识别结果是否存在相同的图像识别结果;
若存在相同的图像识别结果,则相同的图像识别结果为所述单字图像识别结果;
若不存在相同的图像识别结果,则比较所述第一模型性能参数、第二模型性能参数和第三模型性能参数的数值大小,则数值大的模型性能参数对应的图像识别结果为所述单字图像识别结果。
本发明还提供一种手写字符识别系统,包括:图像预处理模块、模型训练验证模块、图像分割模块、手写字符验证模块和重组模块;
所述图像预处理模块用于获取手写字符图像数据,对所述手写字符图像数据进行图像预处理,得到第一手写字符图像数据集;
所述模型训练验证模块用于设置性能参数阈值,通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作,得到手写单字字符识别模型;
所述图像分割模块用于通过图像处理算法对待识别的手写字符图像进行分割,得到排列顺序和单字图像;
所述手写字符验证模块用于通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别结果;
所述重组模块用于根据所述排列顺序对所述单字图像识别结果进行重组,得到所述待识别的手写字符图像的识别结果。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的一种手写字符识别方法的步骤。
本发明的有益效果是:
1、本发明所述的一种手写字符识别方法,可以通过对手写字符图像数据进行图像预处理,使得手写字符图像的数据的样本量增加,并且其中的手写字符图像数据集包括中文、英文和数字,能够识别不同中类型的手写字符,提升识别的准确性,并且其中通过不同的方法进行区分测试集和训练集能够使得训练出的模型更加全面,进行识别得更加准确;
2、本发明所述的一种手写字符识别系统,可以实现通过性能参数阈值进行训练得到手写单字字符识别模型,能够提高手写单字字符识别模型的准确率,并且在单字识别完成后,对单字图像识别结果进行重组,更加智能化;
3、本发明所述的一种计算机可读存储介质,可以通过三种不同方式进行训练出的手写单字字符模块,并且进行识别,并根据识别结果进行对比判断,能够提升识别的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述的一种手写字符识别方法流程示意图;
图2是本发明实施例2所述的一种手写字符识别系统架构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“手写字符图像数据”、“单字图像识别结果”、“第一网络手写字符图像样本”等应做广义理解。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在本发明的描述中:
手写字符识别可分为在线识别和离线识别,在线识别可利用手写输入时的笔画数目、笔画走向、笔顺和书写速度等信息进行手写识别;离线识别是利用手写字符的点阵图像进行识别。离线识别是手写字符识别应用的发展方向,也是难点所在,关键技术是特征抽取与分类器的设计,特征抽取是指将手写字符图像中的特征点抽取出来,也可以是图像进行过各种变换后的特征点,将图像分割成不同区域或网格,在各个小区域内抽取的特征等,然后根据抽取的特征,选用合适的匹配方法,例如模板匹配、相关匹配、树分类器等,欧式距离、马氏距离等也是常用的距离度量方法,在本发明中主要进行的手写字符离线识别的方法。
HCL2000是目前最大的脱机手写汉字库,共有1000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。这是一份非常优秀的数据,是汉字识别的首选测试数据库。
DBRHD和MNIST是常用的两个数字手写识别数据集。
实施例1
本发明实施例提供一种手写字符识别方法,请参阅图1,包括以下步骤:
S100,获取手写字符图像数据,对所述手写字符图像数据中的数据样本进行图像预处理,得到第一手写字符图像数据集;
其中S100具体步骤为:连接手写字符图像数据集和通过网络采集手写字符图像数据,手写字符图像数据集包括HCL2000、CASIA中文手写数据集、CASIA英文手写数据集、DBRHD和MNIST;
通过上述手写字符图像数据集可以看出,手写字符图像数据集的类型包括多种形式,中文汉字类型的手写图像数据集,英文类型的手写图像数据集和数字类型的手写图像数据集,通过不同类型的手写字符图像数据集能够更加全面的对手写的字符进行识别,并且进行能够识别手写的字符为汉字、英文或者数字。
将通过网络采集到的手写字符图像数据进行分割,得到第一网络手写字符图像样本;
因为网络上采集到的手写字符图像可能是多个文字形成的一张图像,所以需要对手写字符图像样本进行分割,也就是将不是单个字符的图像进行分割为单个字符的图像;
而手写字符图像数据集中的图像数据都是经过处理后的,因此都是单个字符的图像,所以不需要进行分割。
将第一网络手写字符图像样本和手写字符图像数据集进行图像变换,图像变换包括对第一网络手写字符图像样本和手写字符图像数据集中单个字符的图像通过旋转、模糊、仿射等图像变换方法进行图像处理,将进行图像处理后的第一网络手写字符图像样本和手写字符图像数据集进行合并,得到第一手写字符图像数据集;
第一手写字符图像数据集是进行图像变换后得到的,并且图像变换中包括了不同的处理方式,因此第一手写字符图像数据集中图像样本数据相较于之前的第一网络手写字符图像样本和手写字符图像数据集中的样本数据呈倍增式增长。
S200,设置性能参数阈值,通过性能参数阈值、第一手写字符图像数据集以及神经网络训练模型进行模型训练验证操作,得到手写单字字符识别模型;
S200具体步骤为:将第一手写字符图像数据集划分为训练集和测试集,通过训练集和神经网络训练模型进行模型训练操作,得到字符识别模型;
通过性能参数阈值和测试集对所述字符识别模型进行测试验证操作,根据所述测试验证操作的结果得到手写单字字符识别模型;
所述手写单字字符识别模型包括第一手写单字字符识别模型、第二手写单字字符识别模型和第三手写单字字符识别模型;
所述将第一手写字符图像数据集划分为训练集和测试集,通过训练集和神经网络训练模型进行模型训练操作的步骤进一步包括:
通过留出法将所述第一手写字符图像数据集划分为第一训练集和第一测试集,通过第一训练集和神经网络训练模型进行模型训练操作,得到第一字符识别模型;
通过交叉验证法将所述第一手写字符图像数据集划分为第二训练集和第二测试集,通过第二训练集和神经网络训练模型进行模型训练操作,得到第二字符识别模型;
通过自助法将所述第一手写字符图像数据集划分为第三训练集和第三测试集,通过第三训练集和神经网络训练模型进行模型训练操作,得到第三字符识别模型;
通过性能参数阈值和测试集对所述字符识别模型进行测试验证操作,根据所述测试验证操作的结果得到手写单字字符识别模型的具体步骤进一步包括:
通过第一测试集对所述第一字符识别模型进行测试验证,得到第一模型性能参数,将第一模型性能参数和性能参数阈值进行比较,若所述第一模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
通过测试集验证能够进行验证训练出的模型是否符合标准,如果不符合标准,则重新进行训练。
若所述第一模型性能参数不小于所述性能参数阈值,则所述第一字符识别模型为第一手写单字字符识别模型;
通过第二测试集对所述第一字符识别模型进行测试验证,得到第二模型性能参数,将第二模型性能参数和性能参数阈值进行比较,若所述第二模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第二模型性能参数不小于所述性能参数阈值,则所述第二字符识别模型为第二手写单字字符识别模型;
通过第三测试集对所述第一字符识别模型进行测试验证,得到第三模型性能参数,将第三模型性能参数和性能参数阈值进行比较,若所述第三模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第三模型性能参数不小于所述性能参数阈值,则所述第三字符识别模型为第三手写单字字符识别模型。
S300,通过图像处理算法对待识别的手写字符图像进行分割,得到排列顺序单字图像;
将待识别的手写字符图像先通过图像处理算法进行行分割,得到行手写字符图像以及行结构的排列顺序,对所述行手写字符图像进行单字分割,得到单字图像和单字图像排列顺序;
其中行结构的排列顺序是指这一行在整个手写字符图像的位置;单字图像排列顺序也是如此,指的是该单字图像在行中的排列的位置;
S400,通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别的结果,根据单字图像排列顺序、行结构的排列顺序,将单字图像识别结果进行重组,得到待识别的手写字符图像的识别结果;
通过所述手写单字字符识别模型对所述单字图像进行单字手写字符识别验证操作,得到单字图像识别的结果的具体步骤为:通过第一手写单字字符识别模型对所述单字图像进行识别,得到第一图像识别结果;
通过第二手写单字字符识别模型对所述单字图像进行识别,得到第二图像识别结果;
通过第三手写单字字符识别模型对所述单字图像进行识别,得到第三图像识别结果;
根据所述第一图像识别结果、第二图像识别结果和第三图像识别结果进行对比判断,得到单字图像识别结果;
其具体步骤包括:判断所述第一图像识别结果、第二图像识别结果和第三图像识别结果是否有相同的图像识别结果,若所述第一图像识别结果、第二图像识别结果和第三图像识别结果有相同,则将相同的图像识别结果记为单字图像识别结果;
其中图像识别结果相同包括以下几种情况:
1、第一图像识别结果、第二图像识别结果和第三图像识别结果均相同,则单字图像识别结果为第一图像识别结果、第二图像识别结果和第三图像识别结果任意一个;
2、第一图像识别结果和第二图像识别结果相同,与第三图像识别结果不同;则单字图像识别结果为第一图像识别结果和第二图像识别结果中任意一个;
3、第一图像识别结果和第三图像识别结果相同,与第二图像识别结果不同;则单字图像识别结果为第一图像识别结果和第三图像识别结果中任意一个;
4、第二图像识别结果和第三图像识别结果相同,与第一图像识别结果不同;则单字图像识别结果为第二图像识别结果和第三图像识别结果中任意一个;
若所述第一图像识别结果、第二图像识别结果和第三图像识别结果不同;则比较所述第一模型性能参数、第二模型性能参数和第三模型性能参数的数值大小,将与模型性能参数大对应的图像识别结果记为单字图像识别结果。
需要说明的是,本实施例中的一种手写字符识别方法可以在写完单个字进行识别或者写完一行字后进行识别或者全部写完后进行识别。
实施例2
本发明实施例还提供一种手写字符识别系统,请参阅图2,包括:图像预处理模块、模型训练验证模块、图像分割模块、手写字符验证模块和重组模块;
图像预处理模块用于获取手写字符图像数据,对所述手写字符图像数据进行图像预处理,得到第一手写字符图像数据集;
模型训练验证模块用于设置性能参数阈值,通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作,得到手写单字字符识别模型;
图像分割模块用于通过图像处理算法对待识别的手写字符图像进行分割,得到排列顺序和单字图像;
手写字符验证模块用于通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别结果;
重组模块用于根据所述排列顺序对所述单字图像识别结果进行重组,得到所述待识别的手写字符图像的识别结果。
实施例3
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序,实现上述所述的一种手写字符识别方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种手写字符识别方法,其特征在于,包括以下步骤:
获取手写字符图像数据,对所述手写字符图像数据进行图像预处理,得到第一手写字符图像数据集;
设置性能参数阈值,通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作,得到手写单字字符识别模型;
通过图像处理算法对待识别的手写字符图像进行分割,得到排列顺序和单字图像;
通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别结果,根据所述排列顺序对所述单字图像识别结果进行重组,得到所述待识别的手写字符图像的识别结果;
所述获取手写字符图像数据,对所述手写字符图像数据集进行图像预处理的步骤进一步包括:连接手写字符图像数据集,通过网络采集手写字符图像数据;所述手写字符图像数据集包括HCL2000、CASIA中文手写数据集、CASIA英文手写数据集、DBRHD和MNIST;将所述手写字符图像数据通过所述图像处理算法进行分割,得到第一网络手写字符图像样本;将所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像数据进行图像变换,得到第一手写字符图像数据集;
所述通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作的步骤进一步包括:将所述第一手写字符图像数据集划分为训练集和测试集,通过训练集和神经网络训练模型进行模型训练操作,得到字符识别模型;通过所述性能参数阈值和所述测试集对所述字符识别模型进行测试验证操作,根据所述测试验证操作的结果得到手写单字字符识别模型。
2.根据权利要求1所述的一种手写字符识别方法,其特征在于:所述将所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像样本进行图像变换的步骤进一步包括:对所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像样本通过旋转、模糊和仿射的方法进行图像处理;
将进行图像处理后的所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像样本进行合并,得到第一手写字符图像数据集。
3.根据权利要求1或2所述的一种手写字符识别方法,其特征在于:所述字符识别模型包括第一字符识别模型、第二字符识别模型和第三字符识别模型;
所述将所述第一手写字符图像数据集划分为训练集和测试集,通过训练集和神经网络训练模型进行模型训练操作,得到字符识别模型的步骤进一步包括:
通过留出法将所述第一手写字符图像数据集划分为第一训练集和第一测试集,通过所述第一训练集和所述神经网络训练模型进行模型训练操作,得到所述第一字符识别模型;
通过交叉验证法将所述第一手写字符图像数据集划分为第二训练集和第二测试集,通过所述第二训练集和所述神经网络训练模型进行模型训练操作,得到所述第二字符识别模型;
通过留出法将所述第一手写字符图像数据集划分为第三训练集和第三测试集,通过所述第三训练集和所述神经网络训练模型进行模型训练操作,得到所述第三字符识别模型。
4.根据权利要求3所述的一种手写字符识别方法,其特征在于:所述手写单字字符识别模型包括第一手写单字字符识别模型、第二手写单字字符识别模型和第三手写单字字符识别模型;
所述通过所述性能参数阈值和所述测试集对所述字符识别模型进行测试验证操作,根据所述测试验证操作的结果得到手写单字字符识别模型的步骤进一步包括:通过所述第一测试集对所述第一字符识别模型进行测试验证,得到第一模型性能参数,将第一模型性能参数和性能参数阈值进行比较,若所述第一模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第一模型性能参数不小于所述性能参数阈值,则所述第一字符识别模型为所述第一手写单字字符识别模型;
通过第二测试集对所述第一字符识别模型进行测试验证,得到第二模型性能参数,将第二模型性能参数和性能参数阈值进行比较,若所述第二模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第二模型性能参数不小于所述性能参数阈值,则所述第二字符识别模型为所述第二手写单字字符识别模型;
通过第三测试集对所述第一字符识别模型进行测试验证,得到第三模型性能参数,将第三模型性能参数和性能参数阈值进行比较,若所述第三模型性能参数小于所述性能参数阈值,则重新执行所述模型训练验证操作;
若所述第三模型性能参数不小于所述性能参数阈值,则所述第三字符识别模型为所述第三手写单字字符识别模型。
5.根据权利要求4所述的一种手写字符识别方法,其特征在于:所述通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别结果的步骤进一步包括:通过所述第一手写单字字符识别模型对所述单字图像进行识别,得到第一图像识别结果;
通过所述第二手写单字字符识别模型对所述单字图像进行识别,得到第二图像识别结果;
通过所述第三手写单字字符识别模型对所述单字图像进行识别,得到第三图像识别结果;
根据所述第一图像识别结果、第二图像识别结果和第三图像识别结果进行对比判断,得到单字图像识别结果。
6.根据权利要求5所述的一种手写字符识别方法,其特征在于:所述根据所述第一图像识别结果、第二图像识别结果和第三图像识别结果进行对比判断,得到单字图像识别结果的步骤进一步包括:判断所述第一图像识别结果、第二图像识别结果和第三图像识别结果是否存在相同的图像识别结果;
若存在相同的图像识别结果,则相同的图像识别结果为所述单字图像识别结果;
若不存在相同的图像识别结果,则比较所述第一模型性能参数、第二模型性能参数和第三模型性能参数的数值大小,则数值大的模型性能参数对应的图像识别结果为所述单字图像识别结果。
7.一种手写字符识别系统,其特征在于,包括:图像预处理模块、模型训练验证模块、图像分割模块、手写字符验证模块和重组模块;
所述图像预处理模块用于获取手写字符图像数据,对所述手写字符图像数据进行图像预处理,得到第一手写字符图像数据集;
所述模型训练验证模块用于设置性能参数阈值,通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作,得到手写单字字符识别模型;
所述图像分割模块用于通过图像处理算法对待识别的手写字符图像进行分割,得到排列顺序和单字图像;
所述手写字符验证模块用于通过所述手写单字字符识别模型对所述单字图像进行手写字符识别验证操作,得到单字图像识别结果;
所述重组模块用于根据所述排列顺序对所述单字图像识别结果进行重组,得到所述待识别的手写字符图像的识别结果;
所述获取手写字符图像数据,对所述手写字符图像数据进行图像预处理进一步包括:连接手写字符图像数据集,通过网络采集手写字符图像数据;所述手写字符图像数据集包括HCL2000、CASIA中文手写数据集、CASIA英文手写数据集、DBRHD和MNIST;将所述手写字符图像数据通过所述图像处理算法进行分割,得到第一网络手写字符图像样本;将所述第一网络手写字符图像样本和所述手写字符图像数据集中的所述手写字符图像数据进行图像变换,得到第一手写字符图像数据集;
所述通过所述性能参数阈值、所述第一手写字符图像数据集和神经网络训练模型进行模型训练验证操作进一步包括:将所述第一手写字符图像数据集划分为训练集和测试集,通过训练集和神经网络训练模型进行模型训练操作,得到字符识别模型;通过所述性能参数阈值和所述测试集对所述字符识别模型进行测试验证操作,根据所述测试验证操作的结果得到手写单字字符识别模型。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-6任一项所述的一种手写字符识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110662477.6A CN113361666B (zh) | 2021-06-15 | 2021-06-15 | 一种手写字符识别方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110662477.6A CN113361666B (zh) | 2021-06-15 | 2021-06-15 | 一种手写字符识别方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361666A CN113361666A (zh) | 2021-09-07 |
CN113361666B true CN113361666B (zh) | 2023-10-10 |
Family
ID=77534320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110662477.6A Active CN113361666B (zh) | 2021-06-15 | 2021-06-15 | 一种手写字符识别方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361666B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092942A (zh) * | 2021-11-26 | 2022-02-25 | 常州新途软件有限公司 | 车机嵌入式手写输入方法 |
CN116912845B (zh) * | 2023-06-16 | 2024-03-19 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985297A (zh) * | 2018-06-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 手写模型训练、手写图像识别方法、装置、设备及介质 |
CN109102037A (zh) * | 2018-06-04 | 2018-12-28 | 平安科技(深圳)有限公司 | 中文模型训练、中文图像识别方法、装置、设备及介质 |
WO2020218512A1 (ja) * | 2019-04-26 | 2020-10-29 | Arithmer株式会社 | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム |
-
2021
- 2021-06-15 CN CN202110662477.6A patent/CN113361666B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985297A (zh) * | 2018-06-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 手写模型训练、手写图像识别方法、装置、设备及介质 |
CN109102037A (zh) * | 2018-06-04 | 2018-12-28 | 平安科技(深圳)有限公司 | 中文模型训练、中文图像识别方法、装置、设备及介质 |
WO2020218512A1 (ja) * | 2019-04-26 | 2020-10-29 | Arithmer株式会社 | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN113361666A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021027336A1 (zh) | 基于印章和签名的身份验证方法、装置和计算机设备 | |
US7580551B1 (en) | Method and apparatus for analyzing and/or comparing handwritten and/or biometric samples | |
US6259812B1 (en) | Key character extraction and lexicon reduction cursive text recognition | |
CN106951832B (zh) | 一种基于手写字符识别的验证方法及装置 | |
Kashi et al. | A Hidden Markov Model approach to online handwritten signature verification | |
US7929769B2 (en) | Script recognition for ink notes | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN108664975B (zh) | 一种维吾尔文手写字母识别方法、系统及电子设备 | |
WO2002037933A2 (en) | System, process and software arrangement for recognizing handwritten characters | |
CN113361666B (zh) | 一种手写字符识别方法、系统及介质 | |
CN111783757A (zh) | 一种基于ocr技术的复杂场景下身份证识别方法 | |
CN112651323B (zh) | 一种基于文本行检测的中文手写体识别方法及系统 | |
Pham et al. | Offline handwritten signature verification using local and global features | |
CN115937873A (zh) | 一种基于可辨识单字字符的在线笔迹验证系统及方法 | |
CN115620312A (zh) | 跨模态字符笔迹验证方法、系统、设备及存储介质 | |
Kırlı et al. | Automatic writer identification from text line images | |
CN111178254A (zh) | 一种签名识别方法及设备 | |
CN114220178A (zh) | 基于通道注意力机制的签名鉴别系统及方法 | |
CN112200216A (zh) | 汉字识别方法、装置、计算机设备和存储介质 | |
CN116612538A (zh) | 电子合同内容的在线确认方法 | |
CN109460720A (zh) | 基于卷积神经网络的选票识别方法 | |
Saritha et al. | An efficient hidden markov model for offline handwritten numeral recognition | |
Aravinda et al. | South Indian character recognition using statistical feature extraction and distance classifier | |
CN112329695A (zh) | 一种基于智慧黑板的动态笔迹识别方法 | |
CN116597458B (zh) | 一种手写字母识别方法、系统和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |