CN108985297A - 手写模型训练、手写图像识别方法、装置、设备及介质 - Google Patents
手写模型训练、手写图像识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN108985297A CN108985297A CN201810564693.5A CN201810564693A CN108985297A CN 108985297 A CN108985297 A CN 108985297A CN 201810564693 A CN201810564693 A CN 201810564693A CN 108985297 A CN108985297 A CN 108985297A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- obtains
- handwritten
- single font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种手写模型训练、手写图像识别方法、装置、设备及介质,该手写模型训练方法包括:获取训练手写中文图像;采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像;将训练单字体图像按预设比例划分成训练集和测试集;对训练集中的训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;采用测试集中的训练单字体图像对原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。该手写模型训练方法具有训练效率高且识别精度高的优点。
Description
技术领域
本发明涉及图像识别领域,尤其涉及一种手写模型训练、手写图像识别方法、装置、设备及介质。
背景技术
随着信息时代的发展,人工智能技术作为核心技术越来越多的被用来解决人们生活中的具体问题。目前,在对手写汉字图像进行识别时,由于汉字的结构比较复杂,比如“魍、魉”,并且汉字中存在着较多的结构相似的字,比如“今和令”,会出现识别准确率较低的情况。对标准的、书写简单且规范的句子,采用OCR(光学字符识别)技术可以识别,但是对于手写字组成的句子,由于每个人的书写习惯不相同且不是标准的汉字,当采用OCR技术识别时,会降低识别的准确率,影响手写汉字的识别效果。
发明内容
基于此,有必要针对上述技术问题,提供一种手写模型训练、手写图像识别方法、装置、设备及介质。
一种手写模型训练方法,包括:
获取训练手写中文图像;
采用垂直投影法对所述训练手写中文图像进行单字体切割,获取训练单字体图像;
将所述训练单字体图像按预设比例划分成训练集和测试集;
对所述训练集中的训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;
采用所述测试集中的训练单字体图像对所述原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
一种手写模型训练装置,包括:
训练手写中文图像获取模块,用于获取训练手写中文图像;
训练手写中文图像划分模块,用于将所述训练手写中文图像按预设比例划分成训练集和测试集;
训练单字体图像获取模块,用于采用垂直投影法对所述训练手写中文图像进行单字体切割,获取训练单字体图像;
原始手写字识别模型获取模块,用于对所述训练集中的训练单字体图像进行顺序标注,并将标注好的单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;
目标手写字识别模型获取模块,用于采用所述测试集中的训练单字体图像对所述原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述手写模型训练方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述手写模型训练方法的步骤。
一种手写图像识别方法,包括:
获取待识别图像,所述待识别图像包括手写汉字和背景图片;
对所述待识别图像进行预处理,获取原始图像;
采用核密度估计算法对所述原始图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;
采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字图像;
将所述待识别单字图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字图像对应的手写汉字;其中,目标手写字识别模型是采用所述手写模型训练方法获取的。
一种手写图像识别装置,包括:
待识别图像获取模块,用于获取待识别图像,所述待识别图像包括手写汉字和背景图片;
原始图像获取模块,用于对所述待识别图像进行预处理,获取原始图像;
目标图像获取模块,用于采用核密度估计算法对所述原始图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;
待识别单字图像获取模块,用于采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字图像;
手写汉字获取模块,用于将待识别单字图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字图像对应的手写汉字;其中,目标手写字识别模型是采用所述手写模型训练方法获取的。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述手写图像识别方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述手写图像识别方法的步骤。
上述手写模型训练方法、装置、设备及介质,先获取训练手写中文图像,采用垂直投影法对训练手写字图像进行单字体切割,获取训练单字体图像,并按预设比例将训练单字体图像划分成训练集和测试集,以便对训练集中的训练单字体图像进行顺序标注,以使训练单字体图像具备时序性。将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,根据训练单字体图像的时序性,以便长短时记忆神经网络根据上下文对训练单字体图像进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型。最后,采用测试集中的训练单字体图像对原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型,从而提高了目标手写字识别模型的准确率。
上述手写图像识别方法、装置、设备及介质,服务器获取待识别图像,并对待识别图像进行预处理,以获取排除干扰因素的原始图像。采用核密度估计算法对原始图像进行处理,去除背景图片,获取包括手写汉字的目标图像,进一步排除干扰。采用垂直投影法对目标图像进行单字体切割,获取待识别单字图像,容易实现。服务器将待识别单字图像输入到基于长短时记忆神经网络的目标手写字识别模型中进行识别,以使待识别单字图像具备时序性,使得目标手写字识别模型能够联系上下文进行识别,获取每一待识别单字图像对应的手写汉字,提高识别的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中手写模型训练方法或手写图像识别方法的一应用场景图;
图2是本发明一实施例中手写模型训练方法的一流程图;
图3是图2中步骤S14的一具体流程图;
图4是本发明一实施例中手写模型训练装置的一示意图;
图5是本发明一实施例中手写图像识别方法的一流程图;
图6是图5中步骤S22的一具体流程图;
图7是图5中步骤S23的一具体流程图;
图8是图7中步骤S234的一具体流程图;
图9是本发明一实施例中手写图像识别装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的手写模型训练方法,可应用在如图1的应用环境中。该手写模型训练方法的应用环境包括服务器和计算机设备,其中,计算机设备通过网络与服务器进行通信,计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。本发明实施例提供的手写模型训练方法应用于服务器。
在一实施例中,如图2所示,提供一种手写模型训练方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S11:获取训练手写中文图像。
其中,训练手写中文图像是预先从开源库中采集的用于进行模型训练的样本图像。该训练手写中文图像包括中文二级字库中每一中文对应的N(N为正整数)张手写字样本。中文二级字库是按汉字的部首笔划顺序编码的非常用汉字库。具体地,采集开源库中的不同人手写的N张手写字样本,以使服务器获取训练手写中文图像,由于不同用户的书写习惯不同,因此采用N张手写字样本(即训练手写中文图像)进行训练,极大的提高了模型的泛化性。
S12:采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像。
其中,垂直投影法是指将每一行手写汉字进行垂直方向的投影,获取垂直投影直方图的方法。垂直投影直方图是指反映目标图像在垂直方向上的像素个数。
具体地,采用垂直投影法对训练手写中文图像进行单字体切割具体包括如下步骤:服务器对训练手写中文图像中的至少一行手写汉字逐行进行扫描,获取每一行手写汉字对应的像素值,根据每一像素值对应的垂直投影直方图,获取不同像素值对应的像素数量,按照垂直投影直方图中的极小值,对训练手写中文图像进行循环切割,获取训练单字体图像。可以理解地,每一个手写汉字对应的像素值是比较集中的,汉字与汉字之间的间隙对应的像素值是比较稀疏的,对应的像素值的密集程度反应在对应的垂直投影直方图中,则在垂直投影直方图中有汉字的像素值对应的像素数量比较高,没有汉字的像素值对应的像素数量比较低,通过垂直投影法能够有效对训练手写中文图像进行单字体切割,获取训练单字体图像,实现简单,提高训练效率。
S13:将训练单字体图像按预设比例划分成训练集和测试集。
其中,训练集(training set)是学习样本数据集,是通过匹配一些参数来建立分类器,即采用训练集中的目标训练文本数据来训练机器学习模型,以确定机器学习模型的参数。测试集(test set)是用于测试训练好的机器学习模型的分辨能力,如准确率。预设比例是预先设置的用于对训练手写中文图像进行划分的比例。本实施例中,可按照9:1的比例对训练单字体图像进行划分,即可将90%的训练单字体图像作为训练集,剩余10%的训练单字体图像作为测试集。
S14:对训练集中的训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型。
其中,原始手写字识别模型是经过长短时记忆神经网络多次迭代所得到的模型。长短时记忆神经(long-short term memory,简称LSTM)网络是一种时间递归神经网络,适合于处理和预测具有时间序列,且时间序列间隔和延迟相对较长的重要事件。
具体地,服务器按照训练单字体图像的时间顺序进行标注,并将标注好的训练单字体图像输入到目标手写字识别模型中进行训练,获取原始手写字识别模型。可以理解地,每个训练单字体图像都是按顺序排列的,例如原始图像为“今天很开心”,则可按照从左到右以阿拉伯数字对每个训练单字体图像进行标注,即“今(1)天(2)很(3)开(4)心(5)”,以使训练单字体图像具备时序性,使得原始手写字识别模型能够联系上下文进行训练,提高模型的准确率。
批量梯度下降算法是每次在更新网络参数时,采用训练集中的所有样本(训练单字体图像)来进行更新,能够得到全局最优解,提高模型准确率。网络参数是长短时记忆神经网络的各层之间的权值和偏置。长短时记忆神经网络具有时间记忆功能,因而用来处理携带时序状态的训练单字体图像。
长短时记忆神经网络具有一输入层、至少一个隐藏层和一输出层的网络结构。其中,输入层是长短时记忆神经网络的第一层,用于接收外界信号,即负责接收训练单字体图像。输出层是长短时记忆神经网络的最后一层,用于向外界输出信号,即负责输出长短时记忆神经网络的计算结果。隐藏层是长短时记忆神经网络中除输入层和输出层之外的各层,用于对训练单字体图像进行处理,获取长短时记忆神经网络的计算结果。可以理解地,采用长短时记忆神经网络进行模型训练增加了训练单字体图像的时序性,以便根据上下文对训练单字体图像进行训练,从而提高了目标手写字识别模型的准确率。本实施例中,长短时记忆神经网络的输出层采用Softmax(回归模型)进行回归处理,用于分类输出权值矩阵。Softmax(回归模型)是一种常用于神经网络的分类函数,它将多个神经元的输出,映射到[0,1]区间内,可以理解成概率,计算起来简单方便,从而来进行多分类输出,使其输出结果更准确。
在一实施例中,如图3所示,步骤S14中,即对训练单字体图像进行顺序标注,并将标注好的单字体图像输入到长短时记忆神经网络中进行训练,获取目标手写字识别模型,具体包括如下步骤:
S141:在长短时记忆神经网络的隐藏层采用第一激活函数对训练单字体图像进行处理,获取携带激活状态标识的神经元。
其中,长短时记忆神经网络的隐藏层中的每个神经元包括三个门,其分别为输入门、遗忘门和输出门。遗忘门决定了在神经元中所要丢弃的过去的信息。输入门决定了在神经元中所要增加的信息。输出门决定了在神经元中所要输出的信息。第一激活函数是用于激活神经元状态的函数。神经元状态决定了各个门(即输入门、遗忘门和输出门)的丢弃、增加和输出的信息。激活状态标识包括通过标识和不通过标识。本实施例中的输入门、遗忘门和输出门对应的标识分别为i、f和o。
本实施例中,具体选用Sigmoid(S型生长曲线)函数作为第一激活函数,Sigmoid函数是一个在生物学中常见的S型的函数,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。第一激活函数的计算公式为其中,z表示遗忘门的输出值。
具体地,遗忘门中包括遗忘门限,通过计算每一神经元(训练单字体图像)的激活状态,以获取携带激活状态标识为通过标识的神经元。其中,采用遗忘门的计算公式ft=σ(Wf·[ht-1,xt]+bf)计算遗忘门哪些信息被接收(即只接收携带激活状态标识为通过标识的神经元),ft表示遗忘门限(即激活状态),Wf表示遗忘门的权重矩阵,bf表示遗忘门的权值偏置项,ht-1表示上一时刻神经元的输出,xt表示当前时刻的输入数据(即训练单字体图像),t表示当前时刻,t-1表示上一时刻。遗忘门中还包括遗忘门限,通过遗忘门的计算公式对训练单字体图像进行计算会得到一个0-1区间的标量,此标量决定了神经元根据当前状态和过去状态的综合判断所接收过去信息的比例,以达到数据的降维,减少计算量,提高训练效率。
S142:在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络隐藏层的输出值。
其中,长短时记忆神经网络隐藏层的输出值包括输入门的输出值、输出门的输出值和神经元状态。具体地,在长短时记忆神经网络的隐藏层中的输入门中,采用第二激活函数携带激活状态标识为通过标识的神经元进行计算,获取隐藏层的输出值。本实施例中,由于线性模型的表达能力不够,因此采用tanh(双曲正切)函数作为输入门的激活函数(即第二激活函数),可加入非线性因素使得训练出的目标手写字识别模型能够解决更复杂的问题。并且,激活函数tanh(双曲正切)具有收敛速度快的优点,可以节省训练时间,增加训练效率。
具体地,通过输入门的计算公式计算输入门的输出值。其中,输入门中还包括输入门限,输入门的计算公式为it=σ(Wi·[ht-1,xt]+bi),其中,Wi为输入门的权值矩阵,it表示输入门限,bi表示输入门的偏置项,,通过输入门的计算公式对训练单字体图像进行计算会得到一个0-1区间的标量(即输入门限),此标量控制了神经元根据当前状态和过去状态的综合判断所接收当前信息的比例,即接收新输入的信息的比例,以减少计算量,提高训练效率。
然后,采用神经元状态的计算公式和计算当前神经元状态;其中,Wc表示计算单元状态的权重矩阵,bc表示单元状态的偏置项,表示上一时刻的神经元状态,Ct表示当前时刻神经元状态。通过将神经元状态和遗忘门限(输入门限)进行点乘操作,以便模型只输出所需的信息,提高模型学习的效率。
最后,采用输出门的计算公式ot=σ(Wo[ht-1,xt]+bo)计算输出门中哪些信息被输出,再采用公式ht=ot*tanh(Ct)计算当前时刻神经元的输出值,其中,ot表示输出门限,Wo表示输出门的权重矩阵,bo表示输出门的偏置项,ht表示当前时刻神经元的输出值。
S143:根据长短时记忆神经网络隐藏层的输出值,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取目标手写字识别模型。
其中,长短时记忆神经网络的网络参数是指长短时记忆神经网络各层之间的权值和偏置。批量梯度下降算法的公式具体为:和其中,J(θ)为损失函数,m表示训练集中训练单字体图像的数量,θj为第j层长短时记忆神经网络的网络参数,hθ(x)表示长短时记忆神经网络隐藏层的输出值,(xi,yi)表示第i个训练单字体图像。
首先,根据损失函数构建公式构建损失函数。通过公式对损失函数进行求偏导运算,以更新网络参数即更新各层之间的权值和偏置,将获取的更新后的各层的权值和偏置,应用到长短时记忆神经网络中即可获取目标手写字识别模型。
进一步地,该目标手写字识别模型中的各权值实现了目标手写字识别模型决定丢弃哪些旧信息、增加哪些新信息以及输出哪些信息的功能。在目标手写字识别模型的输出层最终会输出概率值,该概率值是指训练单字体图像识别出对应的汉字的概率,可广泛应用于手写字识别方面,以达到准确识别训练单字体图像的目的。
S15:采用测试集中的训练单字体图像对原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
具体地,步骤S15中,将测试集中所有训练单字体图像输入原始手写字识别模型进行测试,获取测试准确率(即将所有原始手写字识别模型预测结果准确的数量除以训练集中所有训练单字体图像的数量)。再判断测试准确率是否大于预设准确率,若测试准确率大于预设准确率,则认定该原始手写字识别模型较准确,以将该原始手写字识别模型作为目标手写字识别模型;反之,若测试准确率不大于预设准确率,则认定该原始手写字识别模型的预测结果不够准确,仍需再采用步骤S11-S14进行训练后,再次进行测试,直至测试准确率达到预设准确率,停止训练,进一步提高目标手写字识别模型准确率。
本实施例中,先获取训练手写中文图像,采用垂直投影法对训练手写字图像进行单字体切割,获取训练单字体图像,并按预设比例将训练单字体图像划分成训练集和测试集,以便对训练集中的训练单字体图像进行顺序标注,以使训练单字体图像具备时序性。将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,根据训练单字体图像的时序性,以便长短时记忆神经网络根据上下文对训练单字体图像进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型,从而提高了模型准确率。最后,采用测试集中的训练单字体图像对原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型,进一步提高了目标手写字识别模型的准确率。
在一实施例中,提供一种手写模型训练装置,该手写模型训练装置与上述实施例中手写模型训练方法一一对应。如图4所示,该手写模型训练装置包括训练手写中文图像获取模块11、训练手写中文图像划分模块12、训练单字体图像获取模块13、原始手写字识别模型获取模块14和目标手写字识别模型获取模块15,各功能模块详细说明如下:
训练手写中文图像获取模块11,用于获取训练手写中文图像;
训练手写中文图像划分模块12,用于将训练手写中文图像按预设比例划分成训练集和测试集;
训练单字体图像获取模块13,用于采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像;
原始手写字识别模型获取模块14,用于对训练集中的训练单字体图像进行顺序标注,并将标注好的单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;
目标手写字识别模型获取模块15,用于采用测试集中的训练单字体图像对原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
具体地,原始手写字识别模型获取模块14包括激活状态神经元获取单元141、隐藏层输出值获取单元142和目标识别模型获取单元143。
激活状态神经元获取单元141,用于在长短时记忆神经网络的隐藏层采用第一激活函数对训练单字体图像进行处理,获取携带激活状态标识的神经元。
隐藏层输出值获取单元142,用于在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络隐藏层的输出值。
目标识别模型获取单元143,用于根据长短时记忆神经网络隐藏层的输出值,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取目标手写字识别模型。
具体地,批量梯度下降算法的公式具体为:和其中,J(θ)为损失函数,m表示训练集中训练单字体图像的数量,θj为第j层长短时记忆神经网络的网络参数,hθ(x)表示长短时记忆神经网络隐藏层的输出值,(xi,yi)表示第i个训练单字体图像。
关于手写模型训练装置的具体限定可以参见上文中对于手写模型训练方法的限定,在此不再赘述。上述手写模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行手写模型训练方法过程中生成或获取的数据,如目标手写字识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手写模型训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取训练手写中文图像;采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像;将训练单字体图像按预设比例划分成训练集和测试集;对训练集中的训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;采用测试集中的训练单字体图像对原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在长短时记忆神经网络的隐藏层采用第一激活函数对训练单字体图像进行处理,获取携带激活状态标识的神经元;在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络隐藏层的输出值;根据长短时记忆神经网络隐藏层的输出值,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取目标手写字识别模型。
具体地,批量梯度下降算法的公式具体为:和其中,J(θ)为损失函数,m表示训练集中训练单字体图像的数量,θj为第j层长短时记忆神经网络的网络参数,hθ(x)表示长短时记忆神经网络隐藏层的输出值,(xi,yi)表示第i个训练单字体图像。
在一个实施例中,提供了一种非易失性存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取训练手写中文图像;采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像;将训练单字体图像按预设比例划分成训练集和测试集;对训练集中的训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;采用测试集中的训练单字体图像对原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在长短时记忆神经网络的隐藏层采用第一激活函数对训练单字体图像进行处理,获取携带激活状态标识的神经元;在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络隐藏层的输出值;根据长短时记忆神经网络隐藏层的输出值,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取目标手写字识别模型。
具体地,批量梯度下降算法的公式具体为:和其中,J(θ)为损失函数,m表示训练集中训练单字体图像的数量,θj为第j层长短时记忆神经网络的网络参数,hθ(x)表示长短时记忆神经网络隐藏层的输出值,(xi,yi)表示第i个训练单字体图像。
在一实施例中,如图5所示,提供一种手写图像识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S21:获取待识别图像,待识别图像包括手写汉字和背景图片。
其中,待识别图像是由计算机设备上的采集模块采集到的未经处理的包含手写汉字的图像。该待识别图像包括手写汉字和背景图片。背景图片是待识别图像中除手写汉字之外的噪声图片。噪声图片是对手写汉字造成干扰的图片。本实施例中,用户可通过计算机设备上的采集模块采集包含手写汉字的待识别图像上传到服务器,以使服务器获取待识别图像。该采集模块包括但不限于相机拍摄和本地上传。
S22:对待识别图像进行预处理,获取原始图像。
其中,原始图像是对待识别图像进行预处理后得到的排除干扰因素的图像。具体地,由于待识别图像中可能包含多种干扰因素,如色彩繁多,不利于后续的识别。因此需要对待识别图像进行预处理,以获取排除干扰因素的原始图像,该原始图像可以理解为待识别图像排除背景图片后获取的图片。
在一实施例中,如图6所示,步骤S22中,即对待识别图像进行预处理,获取原始图像,具体包括如下步骤:
S221:对待识别图像进行放大和灰度化处理,获取灰度化图像。
其中,灰度化图像是对待识别图像进行放大和灰度化处理后获取的灰度化图像。该灰度化图像包括一像素值矩阵。像素值矩阵是指包含待识别图像中每个像素对应的像素值的矩阵。本实施例中,服务器采用imread函数读取待识别图像中每个像素的像素值,并对待识别图像进行放大和灰度化处理,获取灰度化图像。imread函数是计算机语言中的一个函数,用于读取图像文件中的像素值。像素值是原始图像被数字化时由计算机赋予的值。
由于待识别图像中可能包含多种颜色,而颜色本身,非常容易受到光照等因素的影响,同类的物体颜色有很多变化,所以颜色本身难以提供关键信息,因此需要对待识别图像进行灰度化处理,以排除干扰,减少图像的复杂度和信息处理量。但由于待识别图像中的手写汉字的尺寸较小时,若直接进行灰度化处理,会导致手写汉字的笔画的厚度过小,会被当成干扰项排除,因此为了增加文字笔画的厚度,需先将待识别图像进行放大处理,再进行灰度化处理,以避免直接进行灰度化处理,导致手写汉字的笔画的厚度过小被当成干扰项排除的问题。
具体地,服务器按照如下公式对原始图像进行放大处理:x→xr,其中,x代表矩阵M中的元素,r为次数,将变化后的元素xr替换像素值矩阵M中x。
灰度化处理是将待识别图像呈现出明显的黑白效果的处理。具体地,对放大后的图像进行灰度化处理包括:待识别图像中的每个像素的颜色都是通过R(红)、G(绿)和B(蓝)三个分量决定的,而每个分量有0-255这256种值可取(0最暗表示黑色,255最亮表示白色)。而灰度化图像是R、G和B三个分量相同的一种特殊的彩色图像。本实施例中,服务器可直接采用imread函数读取待识别图像,即可获取灰度化图像中每个像素对应的R、G和B三个分量的具体数值。
S222:对灰度化图像进行标准化处理,获取原始图像。
其中,标准化处理是指对灰度化图像进行标准的变换处理,使之变换为一固定标准形式的处理。具体地,由于灰度化图像中每个像素的像素值比较分散,导致数据的数量级不统一,会影响后续模型识别的准确率,因此需要将灰度化图像进行标准化处理,以统一数据的数量级。
具体地,服务器采用标准化处理的公式对灰度化图像进行标准化处理,以避免灰度化图像中像素值较分散,导致数据的数量级不统一的问题。其中,标准化处理的公式为X是灰度化图像M的像素值,X′是原始图像的像素值,Mmin是灰度化图像M中最小的像素值,Mmax是灰度化图像M中最大的像素值。
S23:采用核密度估计算法对原始图像进行处理,去除背景图片,获取包括手写汉字的目标图像。
其中,核密度估计算法(kernel density estimation)是一种从数据样本本身出发研究数据分布特征,用于估计概率密度函数的非参数方法。目标图像是指采用核密度估计算法对原始图像进行处理获取只包含手写汉字的图像。具体地,服务器采用核密度估计算法对原始图像进行处理,以排除背景图片干扰,获取包括手写汉字的目标图像。
具体地,核密度估计算法的计算公式为其中,K(.)为核函数,h为像素值范围,x为要估计概率密度的像素的像素值,xi为h范围内的第i个像素值,n为h范围内的像素值x的个数,表示像素的估计概率密度。
在一实施例中,如图7所示,步骤S23中,即采用核密度估计算法对原始图像进行处理,去除背景图片,获取包括手写汉字的目标图像,具体包括如下步骤:
S231:对原始图像中的像素值进行统计,获取原始图像直方图。
其中,原始图像直方图是对原始图像中的像素值进行统计所获取的直方图。直方图(Histogram)是由一系列高度不等的纵向条纹或线段表示数据分布的情况的一种统计报告图。本实施例中,原始图像直方图的横轴表示像素值,纵轴表示像素值对应的出现频率。服务器通过对原始图像中的像素值进行统计,获取原始图像直方图,以便能够直观的看到原始图像中像素值的分布情况,为后续高斯核密度估计算法进行估计提供技术支持。
S232:采用高斯核密度估计算法对原始图像直方图进行处理,获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值。
其中,高斯核密度估计算法是指核密度估计算法中的核函数为高斯核函数的核密度估计方法。高斯核函数的公式为其中,K(x)指像素(自变量)为x的高斯核函数,x指原始图像中的像素值,e和π为常数。频率极大值指在频率分布直方图中,不同频率区间上的极大值。频率极小值指在频率分布直方图中,在同一频率区间上与频率极大值相对应的极小值。
具体地,采用高斯核密度函数估算方法对原始图像对应的频率分布直方图进行高斯平滑处理,获取该频率分布直方图对应的高斯平滑曲线。基于该高斯平滑曲线上的频率极大值和频率极小值,获取频率极大值和频率极小值对应横轴上的像素值,以便后续基于获取到的频率极大值和频率极小值对应的像素值便于对原始图像进行分层切分处理,获取分层图像。
S233:基于频率极大值和频率极小值对原始图像进行分层切分处理,获取分层图像。
其中,分层图像是基于极大值和极小值对原始图像进行分层切分处理所获取的图像。服务器先获取频率极大值和频率极小值对应的像素值,根据频率极大值对应的像素值对原始图像进行分层处理,原始图像中有多少个频率极大值,则对应的原始图像的像素值就被划分为多少类;然后以频率极小值对应的像素值作为类之间的边界值,根据类及类之间的边界,对该原始图像进行分层处理,以获取分层图像。
如原始图像中的频率极大值对应的像素值分别为11、53、95、116和158,频率极小值对应的像素值分别为21、63、105和135。根据原始图像中的频率极大值的个数可以确定该原始图像的像素值可以被分为5类,该原始图像可以被分为5层,频率极小值对应的像素值作为类之间的边界值,由于最小的像素值为0,最大的像素值为255,因此,根据类之间的边界值则可以确定以像素值为11的分层图像,该分层图像对应的像素值为[0,21);以像素值为53的分层图像,该分层图像对应的像素值为[21,63);以像素值为95的分层图像,该分层图像对应的像素值为[63,105);以像素值为116的分层图像,该分层图像对应的像素值为[105,135);以像素值为158的分层图像,该分层图像对应的像素值为[135,255]。
S234:基于分层图像,获取包括手写汉字的目标图像。
服务器在获取分层图像后,对分层图像进行二值化、腐蚀和叠加处理,以获取包括手写汉字的目标图像。其中,二值化处理是指将分层图像上的像素点的像素值设置为0(黑色)或1(白色),将整个分层图像呈现出明显的黑白效果的处理。对分层图像进行二值化处理后,对二值化处理后的分层图像进行腐蚀处理,去除背景图片部分,保留分层图像上的手写汉字部分。由于每个分层图像上的像素值是属于不同范围的像素值,因此,对分层图像进行腐蚀处理后,还需要将每个分层图像叠加,生成仅含有手写汉字的目标图像。其中,叠加处理指将分层后的仅保留有手写字部分的图像叠加成一个图像的处理过程,从而实现获取只包含手写汉字的目标图像的目的。本实施例中,采用imadd函数对分层图像进行叠加处理,以获取只包含手写汉字的目标图像。imadd函数是计算机语言中的一个函数,用于对分层图像进行叠加。
在一个实施例中,如图8所示,步骤S234中,即基于分层图像,获取包括手写汉字的目标图像,具体包括如下步骤:
S2341:对分层图像进行二值化处理,获取二值化图像。
二值化图像指对分图像进行二值化处理获取的图像。具体地,服务器获取分层图像后,基于分层图像的采样像素值和预先选取的阈值进行比较,将采样像素值大于或等于阈值的像素值设置为1,小于阈值的像素值设置为0的过程。采样像素值是分层图像中每一像素点对应的像素值。阈值的大小会影响分层图像二值化处理的效果,阈值选取合适时,对分层图像进行二值化处理的效果较好;阈值选取不合适时,会影响分层图像二值化处理的效果。为了方便操作,简化计算过程,本实施例中的阈值是由开发人员根据经验确定。对分层图像进行二值化处理,方便后续进行腐蚀处理。
S2342:对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域。
其中,连通区域是指某一特定像素周围的邻接像素所围成的区域。在二值化图像中连通区域是指其周围的邻接像素均为0,某一特定像素与邻接像素为1,例如某特定像素为0,其周围的邻接像素为1,则将邻接像素所围成的区域作为连通区域。
具体地,二值化图像对应一像素矩阵,其中包含行和列。对二值化图像中的像素进行检测标记具体包括如下过程:(1)对像素矩阵进行逐行扫描,把每一行中连续的白色像素组成一个序列称为一个团,并记下它的起点、终点以及所在的行号。(2)对于除了第一行外的所有行里的团,如果它与前一行中的所有团都没有重合区域,则给它一个新的标号;如果它仅与上一行中一个团有重合区域,则将上一行的那个团的标号赋给它;如果它与上一行的2个以上的团有重合区域,则给当前团赋一个相关联团的最小标号,并将上一行的这几个团中的标记写入等价对,说明它们属于一类。例如,若第二行中与上一行有2个团(1和2)有重合区域,则赋予该团上一行的2个团中的最小标号即1,并将上一行的这几个团中的标记写入等价对即将(1,2)记为等价对。等价对是指互相连通的两个团的标记,例如(1,2)表示标记1的团与标记2的团互相连通即为一个连通区域。本实施例中是以像素矩阵中某个特定像素相邻的8个邻接像素作为该元素的连通区域。
S2343:对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
其中,腐蚀处理是用于形态学中去除图像的某部分的内容的操作。采用MATLAB中内置的imerode函数对二值化图像的连通区域进行腐蚀处理。具体地,对二值化图像对应的连通区域进行腐蚀处理包括如下步骤:首先,选取一个n×n的结构元素,本实施例中是以像素矩阵中每个元素相邻的8个元素值作为该元素的连通区域的,因此,选取的结构元素为3×3的像素矩阵。结构元素是一个n×n的像素矩阵,其中的矩阵元素包括0或1。对分层二值化图像的像素矩阵进行扫描,获取像素值为1的像素点,比较该像素点相邻的8个邻接像素是否全为1,若全为1,则保持不变;若不全为1,则像素矩阵中该像素点相邻的8个邻接像素都变为0(黑色)。该变为0部分则为分层二值化图像被腐蚀的部分。Matlab是在数学科技应用领域中数值计算方面的应用软件。
基于预先设置的手写字区域抗腐蚀能力范围对二值化图像进行筛选,对于不在手写字区域抗腐蚀能力范围内的二值化图像部分删除,获取二值化图像中在手写字区域抗腐蚀能力范围内的部分。对筛选出的符合手写字区域抗腐蚀能力范围的每个二值化图像部分对应的像素矩阵进行叠加,就可以获取到仅含有手写汉字的目标图像。其中,手写字区域抗腐蚀能力可以采用公式:计算,s1表示二值化图像中被腐蚀后的总面积,s2表示二值化图像中被腐蚀前的总面积,p为手写字区域抗腐蚀能力。
例如,预先设置的手写字区域抗腐蚀能力范围为[0.01,0.5],根据公式计算每个二值化图像被腐蚀后的总面积和二值化图像被腐蚀前的总面积的比值p。通过计算二值化图像中某区域腐蚀后的总面积和腐蚀前的总面积的比值p不在预先设置的手写字区域抗腐蚀能力范围内,则表示该区域的二值化图像是背景图像而不是手写字,需进行腐蚀处理,以去除该背景图像。若二值化图像中的某区域腐蚀后的总面积和腐蚀前的总面积的比值p在[0.01,0.5]范围内,则表示该区域的二值化图像是手写汉字,需保留。对保留下的二值化图像对应的像素矩阵进行叠加处理,获取含有手写汉字的目标图像。
步骤S2341-S2343中,对分层图像进行二值化处理,获取二值化图像,然后对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域,对与结构元素不完全一致的像素矩阵中的元素都变为0,元素为0的二值化图像为黑色,该黑色部分则是二值化图像被腐蚀的部分,通过计算二值化图像被腐蚀后的总面积和二值化图像被腐蚀前的总面积的比值p,判断该比值是否在预先设置的手写字区域抗腐蚀能力范围,以便去除每一分层图像中的背景图像,保留手写汉字,最后将每一分层图像进行叠加,达到获取目标图像的目的。
S24:采用垂直投影法对目标图像进行单字体切割,获取待识别单字图像。
其中,垂直投影法对目标图像进行单字体切割的切割过程与步骤S12相同,为避免重复,在此不再赘述。待识别单字图像是用于输入模型进行识别的单字体图像。
S25:将待识别单字图像输入到目标手写字识别模型中进行识别,获取每一待识别单字图像对应的手写汉字。
其中,目标手写字识别模型是采用手写模型训练方法获取的。具体地,服务器将待识别单字图像输入到目标手写字识别模型中进行识别,使得目标手写字识别模型能够联系上下文进行识别,获取每一待识别单字图像对应的手写汉字,提高识别的准确率。
本实施例中,用户可通过计算机设备上的采集模块采集包含手写汉字的待识别图像上传到服务器,以使服务器获取待识别图像。然后,服务器对待识别图像进行预处理,获取排除干扰因素的原始图像。采用核密度估计算法对原始图像进行处理,去除背景图片,获取只包含手写汉字的目标图像,进一步排除干扰。采用垂直投影法对目标图像进行单字体切割,获取待识别单字图像,容易实现。服务器将待识别单字图像输入到基于长短时记忆神经网络的目标手写字识别模型中进行识别,以使待识别单字图像具备时序性,使得目标手写字识别模型能够联系上下文进行识别,获取每一待识别单字图像对应的手写汉字,提高识别的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种手写图像识别装置,该手写图像识别装置与上述实施例中手写图像识别方法一一对应。如图9所示,该手写图像识别装置包括待识别图像获取模块21、原始图像获取模块22、目标图像获取模块23、待识别单字图像获取模块24和手写汉字获取模块25。各功能模块详细说明如下:
待识别图像获取模块21,用于获取待识别图像,待识别图像包括手写汉字和背景图片。
原始图像获取模块22,用于对待识别图像进行预处理,获取原始图像。
目标图像获取模块23,用于采用核密度估计算法对原始图像进行处理,去除背景图片,获取包括手写汉字的目标图像。
待识别单字图像获取模块24,用于采用垂直投影法对目标图像进行单字体切割,获取待识别单字图像。
手写汉字获取模块25,用于将待识别单字图像输入到目标手写字识别模型中进行识别,获取每一待识别单字图像对应的手写汉字;其中,目标手写字识别模型是采用上述实施例中手写模型训练方法获取的。
具体地,原始图像获取模块22包括灰度化图像获取单元221和原始图像获取单元222。
灰度化图像获取单元221,用于对原始图像进行放大和灰度化处理,获取灰度化图像。
原始图像获取单元222,用于对灰度化图像进行标准化处理,获取原始图像,其中,标准化处理的公式为X是灰度化图像M的像素值,X′是原始图像的像素值,Mmin是灰度化图像M中最小的像素值,Mmax是灰度化图像M中最大的像素值。
具体地,目标图像获取模块23包括原始图像直方图获取单元231、频率极值获取单元232、分层图像获取单元233和目标图像获取单元234。
原始图像直方图获取单元231,用于对原始图像中的像素值进行统计,获取原始图像直方图。
频率极值获取单元232,用于采用高斯核密度估计算法对原始图像直方图进行处理,获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极值获取单元,用于频率极小值。
分层图像获取单元233,用于基于频率极大值和频率极小值对原始图像进行分层切分处理,获取分层图像。
目标图像获取单元234,用于基于分层图像,获取包括手写汉字的目标图像。
具体地,目标图像获取单元234包括二值化图像获取子单元2341、连通区域获取子单元2342和目标图像获取子单元2343。
二值化图像获取子单元2341,用于对分层图像进行二值化处理,获取二值化图像。
连通区域获取子单元2342,用于对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域。
目标图像获取子单元2343,用于对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
关于手写图像识别装置的具体限定可以参见上文中对于手写图像识别方法的限定,在此不再赘述。上述手写图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行手写图像识别方法过程中生成或获取的数据,如手写汉字。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手写图像识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待识别图像,待识别图像包括手写汉字和背景图片;对待识别图像进行预处理,获取原始图像;采用核密度估计算法对原始图像进行处理,去除背景图片,获取包括手写汉字的目标图像;采用垂直投影法对目标图像进行单字体切割,获取待识别单字图像;将待识别单字图像输入到目标手写字识别模型中进行识别,获取每一待识别单字图像对应的手写汉字;其中,目标手写字识别模型是采用手写模型训练方法获取的。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对原始图像中的像素值进行统计,获取原始图像直方图;采用高斯核密度估算方法对原始图像直方图进行处理,获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值;基于频率极大值和频率极小值对原始图像进行分层切分处理,获取分层图像;基于分层图像,获取包括手写汉字的目标图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对分层图像进行二值化处理,获取二值化图像;对二值化图像中的像素进行检测标记,获取核密度估计算法二值化图像对应的连通区域;对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
在一个实施例中,提供了一种非易失性存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别图像,待识别图像包括手写汉字和背景图片;对待识别图像进行预处理,获取原始图像;采用核密度估计算法对原始图像进行处理,去除背景图片,获取包括手写汉字的目标图像;采用垂直投影法对目标图像进行单字体切割,获取待识别单字图像;将待识别单字图像输入到目标手写字识别模型中进行识别,获取每一待识别单字图像对应的手写汉字;其中,目标手写字识别模型是采用手写模型训练方法获取的;其中,目标手写字识别模型是采用手写模型训练方法获取的。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对原始图像中的像素值进行统计,获取原始图像直方图;采用高斯核密度估算方法对原始图像直方图进行处理,获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值;基于频率极大值和频率极小值对原始图像进行分层切分处理,获取分层图像;基于分层图像,获取包括手写汉字的目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对分层图像进行二值化处理,获取二值化图像;对二值化图像中的像素进行检测标记,获取核密度估计算法二值化图像对应的连通区域;对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种手写模型训练方法,其特征在于,包括:
获取训练手写中文图像;
采用垂直投影法对所述训练手写中文图像进行单字体切割,获取训练单字体图像;
将所述训练单字体图像按预设比例划分成训练集和测试集;
对所述训练集中的训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;
采用所述测试集中的训练单字体图像对所述原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
2.如权利要求1所述的手写模型训练方法,其特征在于,所述将标注好的训练单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型,包括:
在长短时记忆神经网络的隐藏层采用第一激活函数对所述训练单字体图像进行处理,获取携带激活状态标识的神经元;
在所述长短时记忆神经网络的隐藏层采用第二激活函数对所述携带激活状态标识的神经元进行处理,获取长短时记忆神经网络隐藏层的输出值;
根据所述长短时记忆神经网络隐藏层的输出值,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取所述目标手写字识别模型。
3.如权利要求2所述的手写模型训练方法,其特征在于,所述批量梯度下降算法的公式具体为:和其中,J(θ)为损失函数,m表示所述训练集中训练单字体图像的数量,θj为第j层所述长短时记忆神经网络的网络参数,hθ(x)表示所述长短时记忆神经网络隐藏层的输出值,(xi,yi)表示第i个所述训练单字体图像。
4.一种手写图像识别方法,其特征在于,包括
获取待识别图像,所述待识别图像包括手写汉字和背景图片;
对所述待识别图像进行预处理,获取原始图像;
采用核密度估计算法对所述原始图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;
采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字图像;
将所述待识别单字图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字图像对应的手写汉字;其中,目标手写字识别模型是采用权利要求1-3任意一项所述手写模型训练方法获取的。
5.如权利要求4所述的手写图像识别方法,其特征在于,所述采用核密度估计算法对所述原始图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像,包括:
对所述原始图像中的像素值进行统计,获取原始图像直方图;
采用高斯核密度估算方法对所述原始图像直方图进行处理,获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值;
基于所述频率极大值和频率极小值对所述原始图像进行分层切分处理,获取分层图像;
基于所述分层图像,获取包括所述手写汉字的目标图像。
6.如权利要求5所述的手写图像识别方法,其特征在于,所述基于所述分层图像,获取包括所述手写汉字的目标图像,包括:
对所述分层图像进行二值化处理,获取二值化图像;
对所述二值化图像中的像素进行检测标记,获取所述二值化图像对应的连通区域;
对所述二值化图像对应的连通区域进行腐蚀和叠加处理,获取所述包括所述手写汉字的目标图像。
7.一种手写模型训练装置,其特征在于,包括:
训练手写中文图像获取模块,用于获取训练手写中文图像;
训练手写中文图像划分模块,用于将所述训练手写中文图像按预设比例划分成训练集和测试集;
训练单字体图像获取模块,用于采用垂直投影法对所述训练手写中文图像进行单字体切割,获取训练单字体图像;
原始手写字识别模型获取模块,用于对所述训练集中的训练单字体图像进行顺序标注,并将标注好的单字体图像输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;
目标手写字识别模型获取模块,用于采用所述测试集中的训练单字体图像对所述原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
8.一种手写图像识别装置,其特征在于,包括:
待识别图像获取模块,用于获取待识别图像,所述待识别图像包括手写汉字和背景图片;
原始图像获取模块,用于对所述待识别图像进行预处理,获取原始图像;
目标图像获取模块,用于采用核密度估计算法对所述原始图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;
待识别单字图像获取模块用于,采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字图像;
手写汉字获取模块,用于将所述待识别单字图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字图像对应的手写汉字;其中,目标手写字识别模型是采用权利要求1-3任意一项所述手写模型训练方法获取的。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述手写模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现如权利要求4至6任一项所述手写图像识别方法的步骤。
10.一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述手写模型训练方法的步骤;或者,所述计算机程序被处理器执行时实现如权利要求4至6任一项所述手写图像识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810564693.5A CN108985297A (zh) | 2018-06-04 | 2018-06-04 | 手写模型训练、手写图像识别方法、装置、设备及介质 |
PCT/CN2018/094168 WO2019232843A1 (zh) | 2018-06-04 | 2018-07-03 | 手写模型训练、手写图像识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810564693.5A CN108985297A (zh) | 2018-06-04 | 2018-06-04 | 手写模型训练、手写图像识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108985297A true CN108985297A (zh) | 2018-12-11 |
Family
ID=64540015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810564693.5A Withdrawn CN108985297A (zh) | 2018-06-04 | 2018-06-04 | 手写模型训练、手写图像识别方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108985297A (zh) |
WO (1) | WO2019232843A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033052A (zh) * | 2019-04-19 | 2019-07-19 | 济南浪潮高新科技投资发展有限公司 | 一种ai识别手写字体的自训练方法及自训练平台 |
CN110942004A (zh) * | 2019-11-20 | 2020-03-31 | 深圳追一科技有限公司 | 基于神经网络模型的手写识别方法、装置及电子设备 |
CN111242840A (zh) * | 2020-01-15 | 2020-06-05 | 上海眼控科技股份有限公司 | 手写体字符生成方法、装置、计算机设备和存储介质 |
CN111339803A (zh) * | 2018-12-19 | 2020-06-26 | 北大方正集团有限公司 | 字体识别方法、装置、设备及计算机可读存储介质 |
CN112686881A (zh) * | 2020-11-25 | 2021-04-20 | 西安石油大学 | 基于影像统计特征和lstm复合网络的颗粒物料混合均匀性检测方法 |
CN113128486A (zh) * | 2021-03-31 | 2021-07-16 | 河北师范大学 | 手写数学公式样本库的构建方法、装置及终端设备 |
CN113361666A (zh) * | 2021-06-15 | 2021-09-07 | 浪潮金融信息技术有限公司 | 一种手写字符识别方法、系统及介质 |
CN113378609A (zh) * | 2020-03-10 | 2021-09-10 | 中国移动通信集团辽宁有限公司 | 代理商代签名的识别方法及装置 |
CN113765957A (zh) * | 2020-06-04 | 2021-12-07 | 华为技术有限公司 | 一种模型更新方法及装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111190576B (zh) * | 2019-12-17 | 2022-09-23 | 深圳平安医疗健康科技服务有限公司 | 基于文字识别的组件集展示方法、装置和计算机设备 |
CN111325205B (zh) * | 2020-03-02 | 2023-10-10 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
CN111612081B (zh) * | 2020-05-25 | 2024-04-02 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及存储介质 |
CN112131834B (zh) * | 2020-09-24 | 2023-12-29 | 云南民族大学 | 一种西波字体生成和识别方法 |
CN113434491B (zh) * | 2021-06-18 | 2022-09-02 | 深圳市曙光信息技术有限公司 | 面向深度学习ocr识别的字模数据清洗方法、系统及介质 |
CN113689525A (zh) * | 2021-07-19 | 2021-11-23 | 维沃移动通信有限公司 | 文字美化方法、装置、可读存储介质和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512692B (zh) * | 2015-11-30 | 2019-04-09 | 华南理工大学 | 基于blstm的联机手写数学公式符号识别方法 |
CN107302433A (zh) * | 2016-04-15 | 2017-10-27 | 平安科技(深圳)有限公司 | 电子签名的校验方法、校验服务器及用户终端 |
-
2018
- 2018-06-04 CN CN201810564693.5A patent/CN108985297A/zh not_active Withdrawn
- 2018-07-03 WO PCT/CN2018/094168 patent/WO2019232843A1/zh active Application Filing
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339803A (zh) * | 2018-12-19 | 2020-06-26 | 北大方正集团有限公司 | 字体识别方法、装置、设备及计算机可读存储介质 |
CN111339803B (zh) * | 2018-12-19 | 2023-10-24 | 新方正控股发展有限责任公司 | 字体识别方法、装置、设备及计算机可读存储介质 |
CN110033052A (zh) * | 2019-04-19 | 2019-07-19 | 济南浪潮高新科技投资发展有限公司 | 一种ai识别手写字体的自训练方法及自训练平台 |
CN110942004A (zh) * | 2019-11-20 | 2020-03-31 | 深圳追一科技有限公司 | 基于神经网络模型的手写识别方法、装置及电子设备 |
CN111242840A (zh) * | 2020-01-15 | 2020-06-05 | 上海眼控科技股份有限公司 | 手写体字符生成方法、装置、计算机设备和存储介质 |
CN113378609A (zh) * | 2020-03-10 | 2021-09-10 | 中国移动通信集团辽宁有限公司 | 代理商代签名的识别方法及装置 |
CN113378609B (zh) * | 2020-03-10 | 2023-07-21 | 中国移动通信集团辽宁有限公司 | 代理商代签名的识别方法及装置 |
CN113765957B (zh) * | 2020-06-04 | 2022-09-16 | 华为技术有限公司 | 一种模型更新方法及装置 |
CN113765957A (zh) * | 2020-06-04 | 2021-12-07 | 华为技术有限公司 | 一种模型更新方法及装置 |
CN112686881A (zh) * | 2020-11-25 | 2021-04-20 | 西安石油大学 | 基于影像统计特征和lstm复合网络的颗粒物料混合均匀性检测方法 |
CN113128486A (zh) * | 2021-03-31 | 2021-07-16 | 河北师范大学 | 手写数学公式样本库的构建方法、装置及终端设备 |
CN113361666A (zh) * | 2021-06-15 | 2021-09-07 | 浪潮金融信息技术有限公司 | 一种手写字符识别方法、系统及介质 |
CN113361666B (zh) * | 2021-06-15 | 2023-10-10 | 浪潮金融信息技术有限公司 | 一种手写字符识别方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019232843A1 (zh) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985297A (zh) | 手写模型训练、手写图像识别方法、装置、设备及介质 | |
CN109102037A (zh) | 中文模型训练、中文图像识别方法、装置、设备及介质 | |
CN108985324A (zh) | 手写字训练样本获取方法、装置、设备及介质 | |
CN109241903B (zh) | 样本数据清洗方法、装置、计算机设备及存储介质 | |
CN109002756A (zh) | 手写汉字图像识别方法、装置、计算机设备及存储介质 | |
Alshazly et al. | Deep convolutional neural networks for unconstrained ear recognition | |
CN110136103A (zh) | 医学影像解释方法、装置、计算机设备及存储介质 | |
CN109409198A (zh) | Au检测模型训练方法、au检测方法、装置、设备及介质 | |
CN108345880A (zh) | 发票识别方法、装置、计算机设备和存储介质 | |
CN108764358A (zh) | 一种太赫兹图像识别方法、装置、设备及可读存储介质 | |
CN109766898A (zh) | 图像文字识别方法、装置、计算机设备及存储介质 | |
CN110866530A (zh) | 一种字符图像识别方法、装置及电子设备 | |
CN109657582A (zh) | 人脸情绪的识别方法、装置、计算机设备及存储介质 | |
CN113919443B (zh) | 一种基于图像分析烟叶成熟度状态概率计算方法 | |
CN109063720A (zh) | 手写字训练样本获取方法、装置、计算机设备及存储介质 | |
CN111127360A (zh) | 一种基于自动编码器的灰度图像迁移学习方法 | |
CN112651333A (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
CN116740728A (zh) | 一种用于晶圆读码器动态获取方法和系统 | |
JP7225731B2 (ja) | 多変数データシーケンスの画像化 | |
Schirrmeister et al. | When less is more: Simplifying inputs aids neural network understanding | |
Stojanović et al. | ANN based fingerprint image ROI segmentation | |
CN111476367B (zh) | 一种任务拆分式脉冲神经网络结构预测及网络抗干扰方法 | |
CN111652108B (zh) | 抗干扰的信号识别方法、装置、计算机设备和存储介质 | |
Ebanesar et al. | Human Ear Recognition Using Convolutional Neural Network | |
CN112418252A (zh) | 基于图像内含社交网络平台指纹的起源社交网络识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181211 |