CN111652332B - 基于二分类的深度学习手写中文字符识别方法及系统 - Google Patents
基于二分类的深度学习手写中文字符识别方法及系统 Download PDFInfo
- Publication number
- CN111652332B CN111652332B CN202010526123.4A CN202010526123A CN111652332B CN 111652332 B CN111652332 B CN 111652332B CN 202010526123 A CN202010526123 A CN 202010526123A CN 111652332 B CN111652332 B CN 111652332B
- Authority
- CN
- China
- Prior art keywords
- recognition
- chinese character
- image
- model
- punctuation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本公开公开了基于二分类的深度学习手写中文字符识别方法及系统,包括:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果。
Description
技术领域
本公开涉及计算机视觉领域中的字符图像识别技术领域,特别是涉及基于二分类的深度学习手写中文字符识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
随着计算机技术的不断发展,越来越多的工作不再依赖于大量的人工劳动力,而是特定的设备可以帮助人类自动地完成。光学字符识别技术(Optical CharacterRecognition,OCR)就是一项典型的重大技术突破,目前,基于OCR识别的各类电子产品已进入我们的生产生活中,帮助人们完成各类文字信息的获取和分析处理工作。
OCR光学字符识别借助于扫描仪将以纸质或者其他材质为载体的文字信息扫描后采用先进的字符识别技术将扫描图片中的文字识别为计算机可以理解编辑的文本文字信息进行录入。
OCR是一种将图片信息数字化的技术,主要可以分为以下几个步骤:输入原始图像、对原始图像进行预处理、字符图像分割、字符图像特征提取和字符识别。字符识别技术依据于图像中字符的完成形式可以分为打印体字符识别技术和手写体字符识别技术。
基于打印体的字符识别技术由于图像中字符字体相对规范、字体大小和分布相对规律,目前的技术方法也已比较成熟,已有相关的产品进入市场并成功应用于我们的日常工作生活中。
然而,针对于手写体的字符识别由于手写字符的不规范性、字体大小不一致以及书写者不同的书写习惯等原因使得该方向的技术不够成熟,难以实现较好的识别准确率,因此该问题的解决方案还在进一步的研究优化中。
手写中文字符识别又可以分为脱机手写中文识别和联机手写中文识别,脱机手写中文识别是指识别一张图像中呈现的书写完整的手写文字,相比于联机手写中文识别和打印体中文识别,由于书写轨迹的缺失和手写字体的不规范性,脱机手写中文识别的实现难度更高,其主要的挑战在于以下几个方面:
(1)中文字符类别规模庞大,一级汉字库中的常用汉字种类就有3755类;
(2)书写不规范,手写字体因人而异,不同的人写出来的汉字差别较大,增加了识别模型训练的难度;
(3)汉字库中存在很多相似字体,相似字体的差异甚小,难以区分,例如,“已”和“己”,很容易将两者相互识别错误;
(4)一般的书写稿中常包含中文标点符号,汉字字符和标点字符相差较大,使用同一个模型对两者识别可以提高工作效率,但可能存在将汉字识别成标点或者标点识别成汉字的可能性。
脱机手写中文识别技术主要分为以下两大类:基于传统方法的脱机手写中文识别技术和基于深度学习的脱机手写中文识别技术。
传统的方法主要采用基于图像预处理+特征提取+分类的流程,采集到的字符图像,需要进行预处理,主要有归一化处理、数据增广、去除噪声;特征提取主要提取图像纹理特征(Gabor特征),形状特征(Gradient梯度特征)等,基于提取的特征设计性能较好的分类器,例如常用的支持向量机(Support VectorMachine,SVM)、隐马尔可夫模型(HiddenMarkov Model,HMM)、改进的二次判决函数(Modified Quadratic DiscriminantFunction,MQDF)、鉴别学习二次判别函数(Discriminant Learning QuadraticDiscriminant Function,DLQDF)和学习向量量化(Learning Vector Quantity,LVQ)等分类方法。
传统的脱机手写汉字识别技术处理过程复杂,并且取得的效果不是很理想。目前,基于深度学习的脱机手写汉字识别技术以其较好的识别效果获得了广大研究者的关注。依据图像中的文字是单个字符还是一行文本,又可分为单字的识别和基于文本行的识别。其中,单字识别主要是基于卷积神经网络,文本行识别多依赖于卷积神经网络和循环神经网络。
目前单字识别的准确率相比于文本行识别的准确率更高。基于深度学习的手写中文字符识别方法基本都是在CNN的基础上进行的改进,改进的方向主要有采用不同的输入数据(特征或原始图像)、不同的网络结构、设计特定的功能层、设计不同的损失函数。
经典的手写中文字符识别方法是2015年的MCDNN模型,该方法训练八个不同的神经网络用于脱机和联机手写汉字识别,结合多个网络的输出进行平均集成,并取得了当时最好的识别效果。MCDNN系列方法是一种典型的端到端的模型,不需要任何特征提取和人工干预,相比于传统的非深度方法准确率有了大幅度提高。
后期,一些结合领域知识的CNN模型也取得了不错的效果。深度学习的发展为解决计算机视觉领域的各类问题带来了强有力的技术支撑,卷积神经网络作为深度学习的一类经典网络模型对于具有网格或矩阵形式的数据具有独特的处理形式,这主要得益于其特有的卷积层计算。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
(1)针对于打印体中文字符识别的技术效果较好,而手写字符识别技术由于书写字体的不规范性其识别效果还不是很理想;
(2)目前的识别模型主要针对中文汉字进行识别,汉字和标点符号分别采用不同的识别模型,处理流程较为繁琐,无法同时完成对汉字和标点两大类别字符的识别工作;
(3)针对于其他领域的手写中文字符识别技术已逐渐开展,但是面向教育领域的手写字符识别技术还处于起步阶段,目前的模型无法直接应用到智能阅卷工作中完成答题卡内容的自动批量的高准确率字符识别。
发明内容
为了解决现有技术的不足,本公开提供了基于二分类的深度学习手写中文字符识别方法及系统;
第一方面,本公开提供了基于二分类的深度学习手写中文字符识别方法;
基于二分类的深度学习手写中文字符识别方法,包括:
识别步骤:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果。
第二方面,本公开提供了基于二分类的深度学习手写中文字符识别系统;
基于二分类的深度学习手写中文字符识别系统,包括:
识别模块,其被配置为:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果。
第三方面,本公开还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本公开还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本公开的有益效果是:
本公开充分利用深度卷积神经网络的特征提取和学习能力,搭建多层卷积识别模型,针对于字符图像的独特性,设计了小尺寸卷积核,在卷积计算后设置批归一化处理,实现了对手写字符的高准确率识别;
本公开借助于层次分类的思想,针对手写汉字和标点符号识别相互识别错误的问题,设计了双模型识别框架,首先对输入字符图像完成二分类,然后结合主体卷积识别网络完成最终的小类别标签输出,通过层次分类逐步地优化分类结果,降低字符识别的错误率;
本公开设计的识别模型不仅可以识别一级汉字库中常用的3755类汉字字符,同时充分考虑了实际的应用问题,将识别范围扩大为3755类一级汉字和12类中文标点符号以及1类在书写过程中划掉的字符共3768类手写中文字符,同时识别汉字和标点,提高识别效率。
运用了深度学习方法,结合层次分类的思想,提出了一种基于二分类的深度学习手写中文字符识别方法,本公开可应用于各类手写中文字符识别场景中,例如教育领域中的答题卡阅卷、手写签名的识别、手写稿件的自动录入。
本公开中主要研究了单字识别技术,本公开主要解决脱机手写中文字符识别问题,本公开主要借助于卷积网络搭建基础的识别模型结构,针对于字符识别问题设置特定的网络层和参数,为提高同时识别中文汉字和标点的准确率,设计了基于二分类的双模型结构,结合原始图像和字符特征学习更加丰富的内容,最终实现了汉字和标点大类别字符的高准确率识别。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的网络结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于二分类的深度学习手写中文字符识别方法;
如图1所示,基于二分类的深度学习手写中文字符识别方法,包括:
识别步骤:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果。
作为一个或多个实施例,所述识别步骤之前,还包括:预处理步骤:获取待识别的图像;对待识别的图像进行预处理。
作为一个或多个实施例,所述获取待识别的图像,通过扫描仪或高清摄像机进行待识别图像的获取。
作为一个或多个实施例,所述对待识别的图像进行预处理,例如包括:对待识别图像进行尺寸调整,调整为同一尺寸。
作为一个或多个实施例,如图2所示,所述主体识别网络模型,包括:依次连接的第一卷积层、第一批归一化层、第二卷积层、第二批归一化层、第三卷积层、第三批归一化层、第四卷积层、第四批归一化层、第一最大池化层、第五卷积层、第五批归一化层、第二最大池化层、第六卷积层、第六批归一化层、第三最大池化层、第七卷积层、第七批归一化层、第四最大池化层、第八卷积层、第八批归一化层、第五最大池化层、第一全连接层和第二全连接层。
所述第一卷积层的卷积核个数为32个,卷积核大小为3*3;
所述第二卷积层的卷积核个数为64个,卷积核大小为3*3;
所述第三卷积层的卷积核个数为128个,卷积核大小为3*3;
所述第四卷积层的卷积核个数为256个,卷积核大小为3*3;
所述第五卷积层的卷积核个数为512个,卷积核大小为3*3;
所述第六卷积层的卷积核个数为512个,卷积核大小为3*3;
所述第七卷积层的卷积核个数为1024个,卷积核大小为3*3;
所述第八卷积层的卷积核个数为2048个,卷积核大小为3*3。
作为一个或多个实施例,所述主体识别网络模型,工作原理包括:
主体识别网络的卷积层用于逐步地从图像中提取高层次的语义特征,全连接层基于卷积层的特征进行分类处理,获得最终的分类概率;主体识别网络结合汉字标点二分类模型的二分类概率进一步提升字符识别准确率。
主体识别网络模型:
第一卷积层用于提取原始字符图像的最低级图像特征,输出32个不同的特征图;
第一批归一化层对卷积层提取的特征进行归一化处理,计算其均值和方差,使数据满足真实数据分布,在训练时能够加速网络的收敛速度;
第二卷积层计算提取字符图像特征,输出64个不同的特征图用于表示字符图像特征;
第二批归一化层计算输入数据的均值和方差进行归一化处理;
第三卷积层进一步提取较高层次的图像特征,输出128个不同到的特征图;
第三批归一化层归一化处理卷积层的输出;
第四卷积层进一步分析提取字符图像特征,输出256个不同的特征图;
第四批归一化层归一化处理卷积层的输出数据;
第一最大池化层,对上一层的输出数据进行降维,同时突出字符图像关键特征,避免数据冗余和网络模型参数过多;
第五卷积层进行特征计算,输出512个不同的特征图代表字符图像的不同特征;
第五批归一化层归一化计算卷积层的输出;
第二最大池化层降低数据维度,提取特征;
第六卷积层分析计算图像特征,输出512个不同特征图;
第六批归一化层计算输入数据均值和方差进行归一化处理;
第三最大池化层降低数据维度;
第七卷积层进一步分析提取字符图像较高层次特征,输出1024个不同特征图;
第七批归一化层归一化处理输入数据;
最大池化层降低数据维度,突出关键特征;
第八卷积层提取字符图像的高层次语义特征用于后序的分类计算,输出2048个高层次语义特征图;
第八批归一化层对数据进行规范化计算;
第五最大池化层降低特征数据维度,保留关键特征;
第一全连接层计算处理卷积部分提取的字符图像特征;
第二全连接层计算输出分类概率分布。
作为一个或多个实施例,所述汉字标点二分类模型,包括:依次连接的第九卷积层、归一化层和二分类器。
作为一个或多个实施例,所述汉字标点二分类模型,工作原理包括:
对字符图像,提取字符图像的背景面积、字符长、宽、面积、字符占整个图像的比例特征;
对提取的特征进行特征归一化处理;
将特征归一化处理后的特征,输入到二分类器,输出当前字符图像属于标点符号或中文字符的识别概率得分。
作为一个或多个实施例,所述第二全连接层的输出端与乘法器的输入端连接,所述二分类器的输出端也与乘法器的输入端连接,所述乘法器的输出端与softmax层的输入端连接,softmax层的输出端输出最终的字符识别结果。
作为一个或多个实施例,所述预训练好的基于二分类的深度学习手写中文字符识别模型的训练步骤包括:
对汉字标点二分类模型进行训练,得到训练好的汉字标点二分类模型;
对主体识别网络模型进行训练,得到训练好的主体识别网络模型;
将训练好的主题识别网络模型与训练好的汉字标点二分类模型的输出端均与乘法器连接,将乘法器与softmax层连接,得到构建好的基于二分类的深度学习手写中文字符识别模型。
作为一个或多个实施例,所述对主体识别网络模型进行训练,得到训练好的主体识别网络模型;具体步骤包括:
构建主体识别网络模型;
构建第一训练集;所述第一训练集,包括:已知字符识别结果的手写字符图像;
将第一训练集输入到主体识别网络模型中,对主体识别网络模型进行训练,得到训练好的主体识别网络模型。
作为一个或多个实施例,所述对汉字标点二分类模型进行训练,得到训练好的汉字标点二分类模型;具体步骤包括:
构建汉字标点二分类模型;
构建第二训练集;所述第二训练集,包括:已知汉字标点分类结果的字符图像;
将第二训练集输入到汉字标点二分类模型中,对汉字标点二分类模型进行训练,得到训练好的汉字标点二分类模型。
基于减少人工成本、进一步解放教师劳动力同时提高工作效率,避免由于人工失误带来的损失与影响,针对于教育领域中的智能阅卷工作,本公开基于深度学习设计了一种针对手写字体的中文字符识别技术,主要识别各类考试答题卡中考生书写的答案,主要包括经常出现的国际标准一级汉字库中的3755类中文字符以及常用的12类中文标点符号和一类书写过程中可能出现的划掉字符(将所有划掉的字符都归为一类)共3768类手写中文字符,以较高的识别准确率完成智能阅卷中的手写中文字符识别问题。在答题卡中汉字和标点基本是同时出现在同一段文本中,而目前的识别模型一般只实现对汉字字符的识别,无法完成对两者的同时识别,为进一步提高工作效率,减少汉字和标点分开识别的流程的复杂性,本公开设计的识别模型可以接收汉字和标点两种不同的字符图像输入并准确地输出图像对应的真实标签。在各类考试场景中,考生数量较大,手写字体样式千差万别,字体分布趋于正态分布,因此,本公开设计好的模型也可以应用于其他的手写中文字符识别场景中,例如,手写文稿的自动录入、票据中手写中文的识别以及手写签名的自动识别等,以较高的识别准确率和效率帮助工作人员自动批量地完成手写体中文字符识别任务。
鉴于深度网络特有的图像特征提取和学习能力,本公开主要基于卷积神经网络搭建基础的字符识别模型,针对于汉字字符和标点字符两大类字符可能存在相互识别错误的现象,本公开基于层次分类的思想,首先基于提取的图像特征实现对输入字符图像关于汉字和标点的二分类,然后再完成对大标签下对应真实标签的小分类任务。
相比于传统的手写字符识别方法,深度网络对于图像特征的提取具有显著的优势,对于切分后的单个字符的手写中文字符图片本公开采用多层卷积网络结构,考虑到汉字字符识别不同于一般的图像分类任务,识别任务更加具体,识别目标更加明确,因此对识别模型分别从网络层设置、卷积核的大小等不同的方面进行了设计与改进。
主体识别网络模型设置为8层卷积+2层全连接,采用softmax层计算输出字符分布概率。网络在对图片进行特征提取时,由于汉字存在很多相似字的情况,例如:“已”和“己”,为使模型更加关注局部信息,提取更具有判别性的特征,因此在设计卷积核的大小时,不采用尺寸较大的卷积核,而是将其设置为3×3的尺寸,避免由于卷积核的感受野过大造成图像在一定程度上的信息损失。
对于不同的卷积层,卷积核的个数分别为{32,64,128,256,512,512,1024,2048},卷积核大小为3×3,全0填充。
在个别卷积层的后面分别设置池化层,采用最大池化操作,对数据特征进行降维运算,池化大小为3×3,滑动步长为2,设置全0填充。
最后连接两个全连接层,对卷积层提取的图像特征进行全局处理,每个全连接层添加dropout,降低模型过拟合现象发生的风险,全连接层的神经元个数为{1024,3768},3768即所要识别的所有字符类别总数,最后一层进行softmax操作计算类别概率分布,其最大概率值所对应的类别即输入图像中字符所属的真实类别。在该网络结构中,卷积层和全连接层分别设置批归一化(Batch Normalization,BN)处理,对上一层的输出进行归一化操作,使模型的训练过程更加容易收敛。
在对手写汉字和标点字符的识别过程中,如果将两个不同大类别的图片直接进行识别可能会存在标点和汉字相互识别错误的情况,然而,汉字和标点在像素特征上存在较大的差异,例如,汉字字符的像素更加密集、汉字字符所占的面积比例更大,而标点在一张图像中所占的面积相对来说较小,汉字字符和标点字符这两大类的区别比较明显,鉴于以上情况,本公开考虑首先对要识别的图片进行大方向的分类,获取其属于汉字字符还是标点符号类别的二分类得分值。该模型主要借助于层次分类的思想,层次分类是先将要分类的样本分到其所属的较高层次的大类别中,然后再在大类别中对其进行更进一步的细致划分,最终获取对应的小类别标签。
由于个别标点符号很容易被识别成中文字符,造成标点的识别效果较差,针对这个问题,本公开中设计了双模型识别框架,首先对手写字符提取其图像特征,主要包括字符图像的背景面积、字符长、宽、面积、字符占整个图像的比例等特征,选择目前分类效果较好的支持向量机(Support Vector Machine,SVM)或者全连接网络(Fully ConnectedNetwork,FCN)等分类器进行汉字和标点的二分类,获取输入数据属于汉字还是标点的概率得分,结合主体卷积神经网络进行最后的识别,提高字符的识别准确率。
首先提取字符图像的非深度特征,对图像特征进行归一化处理,避免由于某一特征值数值过大或者过小而对二分类模型造成错误识别的偏好;选择性能较好的二分类器模型,利用数据特征训练分类器,在这一步中,可以选择SVM或者浅层FCN作为二分类模型进行训练;该模型的主体网络框架为前面设计的卷积神经网络,采用8个卷积层和2个全连接层的网络结构,在最后一层全连接softmax操作之前,将通过二分类器所获得的概率值作为权重乘到全连接层的输出上,具体运算是,主体识别网络最后一层全连接层前3755个神经元和最后一个神经元的输出分别乘上该输入数据属于汉字类别的概率,其余主体识别网络最后一层全连接层的12个神经元的输出分别乘上属于标点类别的概率值,对这主体识别网络最后一层全连接和二分类概率结合以后的3768个神经元的输出进行softmax计算,获取最终识别概率。
这样做相当于识别模型增加了先验知识,该先验知识通过手工提取的字符图像特征进行二分类获得,基于先验知识,可以增强或者更正原本基于深度模型所获得识别结果。
例如,输入图像中的字符的真实标签为标点,当二分类模型将样本分类为标点,假设属于标点的概率值为0.9,而深度模型将其识别到汉字类别中时,属于某一汉字的概率为0.7,通过将全连接层的输出乘上先验概率,其所对应的输出结果即为0.7×0.1,降低了将其划分为汉字的概率值,也即对深度网络识别的结果进行了更正,使得最终的输出结果更趋于真实的概率分布。
具体实施步骤如下:
第一步:标注数据,为已获取的包含单个中文字符的图片标注类别标签用于后续模型训练和测试;将字符图片的大小统一调整为64×64的尺寸;对于存在数据集样本数量不足的情况可以对图片进行数据增广,主要包括裁剪、旋转、缩放、增加噪声等,既能够增加样本数量又可以提高样本多样性,增强模型的泛化能力。
第二步:划分数据集,将手写中文字符数据的90%划分为训练集用于训练模型,剩下的10%作为验证集验证模型效果;其中,在训练二分类模型时要对汉字类别的数据集进行下采样或者对标点符号训练集进行上采样防止汉字类别数量过多对模型造成识别偏好的影响。
第三步:搭建主体识别网络模型,基于Tensorflow深度学习框架,搭建主体识别网络,主要包括8层的卷积和2层的全连接,每层卷积层后面设置批归一化处理,采用小尺寸卷积核,设置卷积的大小和步长参数;在特定的卷积核后面设置池化操作,降低数据维度,突出字符特征;
第四步:搭建二分类识别模型,二分类识别模型可以选取分类效果较好的SVM或者浅层FCN,设置二分类器模型的具体参数;
第五步:提取字符图像的二分类特征,主要包括字符图像的背景面积、字符长、宽、面积、字符占整个图像的比例,对提取的字符图像特征数据进行归一化处理,减少数据尺寸不一致影响模型参数的训练。
第六步:训练二分类模型,将第四步提取的字符图像特征输入到设计好的二分类器中,设置训练超参数,逐步训练直到模型收敛或者达到训练步数。
第七步:训练主体识别网络,将训练集中字符图像输入到要训练的卷积网络中进行前向计算,同时将其对应的字符图像特征输入到二分类模型中获取二分类概率,主体识别网络最后一层全连接的输出结合二分类概率进行进一步计算,最后运用softmax操作获取字符类别输出概率,对得到的输出计算交叉熵损失,利用反向传播算法进行梯度的更新逐步调整模型参数;
具体的训练过程中,每一批次的数据量设置为100,初始学习率为0.1,权重衰减参数为0.001,使学习率可以动态地改变,防止损失值到达一定程度不再下降造成梯度震荡的情况,训练迭代次数为16万步,每一万步时保存一次模型的checkpoint。
第八步:验证和测试模型效果,加载checkpoint将验证集输入到训练好的识别模型中验证本公开设计的模型的效果;对于其他新的数据集也可以通过该模型进行输入测试。
实施例二
本实施例提供了基于二分类的深度学习手写中文字符识别系统;
基于二分类的深度学习手写中文字符识别系统,包括:
识别模块,其被配置为:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果。
此处需要说明的是,上述识别模块对应于实施例一中的识别步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.基于二分类的深度学习手写中文字符识别方法,其特征是,包括:
识别步骤:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果;
所述主体识别网络模型包括:在个别卷积层的后面分别设置池化层,采用最大池化操作,对数据特征进行降维运算,最后连接两个全连接层,对卷积层提取的图像特征进行全局处理,每个全连接层添加dropout,最后一层进行softmax操作计算类别概率分布,其最大概率值所对应的类别即输入图像中字符所属的真实类别;
将训练好的主体识别网络模型与训练好的汉字标点二分类模型的输出端均与乘法器连接,将乘法器与softmax层连接,得到构建好的基于二分类的深度学习手写中文字符识别模型。
2.如权利要求1所述的方法,其特征是,所述识别步骤之前,还包括:预处理步骤:获取待识别的图像;对待识别的图像进行预处理。
3.如权利要求1所述的方法,其特征是,所述主体识别网络模型,工作原理包括:
主体识别网络的卷积层用于逐步地从图像中提取高层次的语义特征,全连接层基于卷积层的特征进行分类处理,获得最终的分类概率;主体识别网络结合汉字标点二分类模型的二分类概率进一步提升字符识别准确率。
4.如权利要求1所述的方法,其特征是,所述汉字标点二分类模型,工作原理包括:
对字符图像,提取字符图像的背景面积、字符长、宽、面积、字符占整个图像的比例特征;
对提取的特征进行特征归一化处理;
将特征归一化处理后的特征,输入到二分类器,输出当前字符图像属于标点符号或中文字符的识别概率得分。
5.如权利要求1所述的方法,其特征是,所述预训练好的基于二分类的深度学习手写中文字符识别模型的训练步骤还包括:
对汉字标点二分类模型进行训练,得到训练好的汉字标点二分类模型;
对主体识别网络模型进行训练,得到训练好的主体识别网络模型。
6.如权利要求5所述的方法,其特征是,所述对主体识别网络模型进行训练,得到训练好的主体识别网络模型;具体步骤包括:
构建主体识别网络模型;
构建第一训练集;所述第一训练集,包括:已知字符识别结果的手写字符图像;
将第一训练集输入到主体识别网络模型中,对主体识别网络模型进行训练,得到训练好的主体识别网络模型。
7.如权利要求5所述的方法,其特征是,所述对汉字标点二分类模型进行训练,得到训练好的汉字标点二分类模型;具体步骤包括:
构建汉字标点二分类模型;
构建第二训练集;所述第二训练集,包括:已知汉字标点分类结果的字符图像;
将第二训练集输入到汉字标点二分类模型中,对汉字标点二分类模型进行训练,得到训练好的汉字标点二分类模型。
8.基于二分类的深度学习手写中文字符识别系统,其特征是,包括:
识别模块,其被配置为:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果;
所述主体识别网络模型包括:在个别卷积层的后面分别设置池化层,采用最大池化操作,对数据特征进行降维运算,最后连接两个全连接层,对卷积层提取的图像特征进行全局处理,每个全连接层添加dropout,最后一层进行softmax操作计算类别概率分布,其最大概率值所对应的类别即输入图像中字符所属的真实类别;
将训练好的主体识别网络模型与训练好的汉字标点二分类模型的输出端均与乘法器连接,将乘法器与softmax层连接,得到构建好的基于二分类的深度学习手写中文字符识别模型。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526123.4A CN111652332B (zh) | 2020-06-09 | 2020-06-09 | 基于二分类的深度学习手写中文字符识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526123.4A CN111652332B (zh) | 2020-06-09 | 2020-06-09 | 基于二分类的深度学习手写中文字符识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652332A CN111652332A (zh) | 2020-09-11 |
CN111652332B true CN111652332B (zh) | 2021-05-11 |
Family
ID=72349097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010526123.4A Active CN111652332B (zh) | 2020-06-09 | 2020-06-09 | 基于二分类的深度学习手写中文字符识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652332B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417839A (zh) * | 2020-10-19 | 2021-02-26 | 上海臣星软件技术有限公司 | emoji和文字混排的方法、装置、电子设备及计算机存储介质 |
CN112308058B (zh) * | 2020-10-25 | 2023-10-24 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN112507864A (zh) * | 2020-12-04 | 2021-03-16 | 河北地质大学 | 基于卷积神经网络的信贷档案识别方法 |
CN112580628B (zh) * | 2020-12-22 | 2023-08-01 | 浙江智慧视频安防创新中心有限公司 | 基于注意力机制的车牌字符识别方法及系统 |
CN112651323B (zh) * | 2020-12-22 | 2022-12-13 | 山东山大鸥玛软件股份有限公司 | 一种基于文本行检测的中文手写体识别方法及系统 |
CN112784692B (zh) * | 2020-12-31 | 2024-07-09 | 科大讯飞股份有限公司 | 一种图像的文本内容识别方法、装置、设备及存储介质 |
CN112990175B (zh) * | 2021-04-01 | 2023-05-30 | 深圳思谋信息科技有限公司 | 手写中文字符的识别方法、装置、计算机设备和存储介质 |
CN113792815B (zh) * | 2021-09-24 | 2024-06-07 | 浪潮金融信息技术有限公司 | 一种基于图像处理技术的样本增广方法、系统及介质 |
CN114782961B (zh) * | 2022-03-23 | 2023-04-18 | 华南理工大学 | 一种基于形状变换的字符图像增广方法 |
CN115797952B (zh) * | 2023-02-09 | 2023-05-05 | 山东山大鸥玛软件股份有限公司 | 基于深度学习的手写英文行识别方法及系统 |
CN117557988A (zh) * | 2023-10-19 | 2024-02-13 | 中国铁塔股份有限公司重庆市分公司 | 一种资产铭牌字符自动识别方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675665A (en) * | 1994-09-30 | 1997-10-07 | Apple Computer, Inc. | System and method for word recognition using size and placement models |
CN102622610B (zh) * | 2012-03-05 | 2014-04-02 | 西安电子科技大学 | 一种基于分类器集成的手写维文字符识别方法 |
US9495620B2 (en) * | 2013-06-09 | 2016-11-15 | Apple Inc. | Multi-script handwriting recognition using a universal recognizer |
AU2017214619A1 (en) * | 2016-02-01 | 2018-08-16 | See-Out Pty Ltd. | Image classification and labeling |
CN106777011A (zh) * | 2016-12-07 | 2017-05-31 | 中山大学 | 一种基于深度多任务学习的文本分类方法 |
CN107590498B (zh) * | 2017-09-27 | 2020-09-01 | 哈尔滨工业大学 | 一种基于字符分割级联二分类器的自适应汽车仪表检测方法 |
-
2020
- 2020-06-09 CN CN202010526123.4A patent/CN111652332B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111652332A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652332B (zh) | 基于二分类的深度学习手写中文字符识别方法及系统 | |
Khan et al. | Urdu optical character recognition systems: Present contributions and future directions | |
Dongre et al. | A review of research on Devnagari character recognition | |
Mushtaq et al. | UrduDeepNet: offline handwritten Urdu character recognition using deep neural network | |
Balci et al. | Handwritten text recognition using deep learning | |
Alrobah et al. | Arabic handwritten recognition using deep learning: A survey | |
CN108898138A (zh) | 基于深度学习的场景文本识别方法 | |
Anand et al. | Real time noisy dataset implementation of optical character identification using CNN | |
Tsourounis et al. | From text to signatures: Knowledge transfer for efficient deep feature learning in offline signature verification | |
Joshi et al. | Deep learning based Gujarati handwritten character recognition | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
Gnanasivam et al. | Handwritten Tamil character recognition using convolutional neural network | |
Hegadi et al. | Recognition of Marathi handwritten numerals using multi-layer feed-forward neural network | |
Neri et al. | A Convolutional Neural Network for Handwritten Digit Recognition. | |
Panda et al. | Complex odia handwritten character recognition using deep learning model | |
Pan et al. | Isolated handwritten Farsi numerals recognition using sparse and over-complete representations | |
Balakrishnan | Offline handwritten recognition of Malayalam district name-a holistic approach | |
Ajao et al. | Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach | |
Saritha et al. | An efficient hidden markov model for offline handwritten numeral recognition | |
Hamasaki et al. | Discrimination between handwritten and computer-generated texts using a distribution of patch-wise font features | |
Hijam et al. | Convolutional neural network based Meitei Mayek handwritten character recognition | |
Shastri et al. | Recognizing handwritten digit strings using modular spatio-temporal connectionist networks | |
Prikhodina | Handwritten and Printed Text Separation in Historical Documents | |
AlKhateeb | Word-based handwritten Arabic scripts recognition using dynamic Bayesian network | |
Nabi et al. | Gender Classification from Offline Handwriting Images in Urdu Script: LeNet-5 and Alex-Net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |