CN116071764B - 基于原型网络的手写汉字识别方法、装置、设备及介质 - Google Patents

基于原型网络的手写汉字识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN116071764B
CN116071764B CN202310311390.3A CN202310311390A CN116071764B CN 116071764 B CN116071764 B CN 116071764B CN 202310311390 A CN202310311390 A CN 202310311390A CN 116071764 B CN116071764 B CN 116071764B
Authority
CN
China
Prior art keywords
chinese character
candidate character
character set
prototype
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310311390.3A
Other languages
English (en)
Other versions
CN116071764A (zh
Inventor
俞翔
肖剑波
谢海燕
张乔斌
闫伟冬
楼京俊
胡世峰
刘杰峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN202310311390.3A priority Critical patent/CN116071764B/zh
Publication of CN116071764A publication Critical patent/CN116071764A/zh
Application granted granted Critical
Publication of CN116071764B publication Critical patent/CN116071764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于原型网络的手写汉字识别方法、装置、设备及介质,方法包括:获取手写文书的灰度图像;基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;将所述新候选字符集作为预先训练的bi‑gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。

Description

基于原型网络的手写汉字识别方法、装置、设备及介质
技术领域
本发明涉及手写汉字识别技术领域,具体涉及一种基于原型网络的手写汉字识别方法、装置、设备及介质。
背景技术
随着智能化时代的到来,枯燥重复的程序化工作必然逐渐被无需人工或者少量人工的智能化技术所代替,文字识别技术将不可避免的得到广泛应用,而如今文字识别融合了机器视觉,机器翻译等多种学科,其技术水平随着图像识别技术和计算机技术的发展而水涨船高,但就我国目前的文字识别产品来说,其识别速度和识别精度依然无法满足用户的实际需求。国外在文字识别方面起步稍早,对于英文单词的识别精度也能够达到99%,但对于中文的识别却远远达不到这么高的精度。除去技术起步时间较晚外,中文汉字繁多的种类、复杂的结构和繁多的笔画也是造成汉字识别精度较低的原因,在此基础上,对于脱机手写体汉字文书的识别只会更加困难,具体表现在:
(1)手写字符往往和标准字体有所差距,有时甚至相差甚远,带有严重的“个人风格”。
(2)手写文书的格式也并不标准,偏旁部首之间的距离,汉字与汉字间的距离和行与行之间的距离都有可能出现偏差。
(3)在某些文书样本稀缺的场合也就是我们所说的“小样本学习”情况时,采用传统算法的模型的泛化效果不好,容易过拟合。
发明内容
为克服上述现有技术的不足,本发明提供一种基于原型网络的手写汉字识别方法、装置、设备及介质,用以解决上述至少一个技术问题。
根据本发明说明书的一方面,提供一种基于原型网络的手写汉字识别方法,包括:
获取手写文书的灰度图像;
基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;
将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;
基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;
将所述新候选字符集作为预先训练的bi-gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。
上述技术方案经由原型网络汉字识别模型进行初步识别,输出每一被识别汉字字符的候选字符集;然后对所述候选字符集进行扩充得到扩充候选字符集,并将扩充候选字符集和候选字符集取并集以提高候选字符集中出现正确字符的概率;接着基于取并集的新候选字符集进行识别后处理,由bi-gram语言模型结合Viterbi算法选择具有最大概率的句子路径,输出识别文本。
上述技术方案在得到汉字字符的初步识别结果后,结合bi-gram语言模型以及扩充候选字符集和候选字符集的并集,对一段话出现在人类语言习惯中的概率进行判断,根据前后文的语义对当前识别的文字进行纠错,从而达到增加识别精度的效果。
作为进一步的技术方案,所述原型网络汉字识别模型的训练包括:
获取嵌入函数;
根据所述嵌入函数对输入空间进行处理,得到嵌入空间;
以数据集各类中所有输入样本的均值作为各类的一个“原型”,在嵌入空间中计算输入样本到各类的“原型”的欧式距离;
根据Softmax模型将输入样本归类到距离最短的“原型”所属的类别中;
以交叉熵作为损失函数,利用Adam优化器不断最小化损失函数来优化嵌入函数参数,最终输出根据各个候选字符的概率大小排序的输入样本的候选字符集。
可选地,所述原型网络汉字识别模型的训练还包括:
获取手写文书训练样本;
从所述手写文书训练样本中随机选取若干手写文书样本形成数据集,以所述数据集中的手写文书样本作为输入样本,进行原型网络汉字识别模型训练;
获取手写文书测试样本,并将所述手写文书测试样本输入到训练后的原型网络汉字识别模型,获取识别准确率,若所述识别准确率大于或等于预设准确率,则确定所述原型网络汉字识别模型为最终模型。
作为进一步的技术方案,获取嵌入函数的步骤包括:
构建卷积神经网络,所述卷积神经网络由四个卷积模块构成,每一个卷积模块均包括64个3×3的卷积核的卷积层、批量归一化层、ReLU非线性层和一个2×2池化核大小的最大池化层;
将原始样本作为所述卷积神经网络的输入,获得降维后的样本作为所述卷积神经网络的输出。
进一步地,在通过卷积神经网络训练获得嵌入函数的过程中,设置学习率为0.003,且每2000轮训练后将学习率减半。通过所述嵌入函数将原输入样本进行降维,以便对输入样本进行分类。
作为进一步的技术方案,基于最大后验概率准则,由每一输入样本的所述候选字符集来预测最有可能输入正确的汉字字符,并将这些最有可能输入正确的汉字字符按照概率大小选择前m个作为扩充的候选字符集。
作为进一步的技术方案,所述bi-gram语言模型的训练包括:
获取训练语料;
统计训练语料中各个汉字字符出现的频率;
根据各个汉字字符出现的频率,计算待识别文本中由各汉字字符所组成的每个句子的联合分布概率。
作为进一步的技术方案,将所述手写文书扫描件的灰度图像先分割成行图像,然后将每行图像分割成单个汉字字符的图像;将分割后的汉字字符图像进行图像增强,得到每个汉字字符的28×28的灰度图像。
可选地,获取手写文书的灰度图像,还包括:
获取手写文书扫描件的原始图像;
对所述原始图像进行预处理,获取有效图像;
对所述有效图像进行背景去除,获取包括手写文书的目标图像。
根据本发明说明书的一方面,提供一种基于原型网络的手写汉字识别装置,包括:
获取模块,用于获取手写文书的灰度图像;
预处理模块,用于基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;
识别模块,用于将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;
扩充模块,用于基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;
识别后处理模块,用于将所述新候选字符集作为预先训练的bi-gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。
根据本发明说明书的一方面,提供一种电子设备,所述电子设备包括处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现所述的基于原型网络的手写汉字识别方法的步骤。
根据本发明说明书的一方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现所述的基于原型网络的手写汉字识别方法的步骤。
与现有技术相比,本发明的有益效果在于:
本发明提供一种方法,该方法经由原型网络汉字识别模型进行初步识别,输出每一被识别汉字字符的候选字符集;然后对所述候选字符集进行扩充得到扩充候选字符集,并将扩充候选字符集和候选字符集取并集以提高候选字符集中出现正确字符的概率;接着基于取并集形成的新候选字符集进行识别后处理,由bi-gram语言模型结合Viterbi算法选择具有最大概率的句子路径,输出识别文本。该方法在得到汉字字符的初步识别结果后,结合bi-gram语言模型以及扩充候选字符集和候选字符集的并集,对一段话出现在人类语言习惯中的概率进行判断,根据前后文的语义对当前识别的文字进行纠错,从而达到增加识别精度的效果。
本发明提供一种装置,该装置通过模块化配置实现手写文书的准确识别,其中,所述获取模块、预处理模块、识别模块、扩充模块、识别后处理模块及输出模块依次相连,通过获取模块获取待识别的手写文书图像,通过预处理模块进行图像预处理,通过识别模块进行单个汉字字符的初步识别,通过扩充模块对初步识别的每个汉字字符的候选字符集进行扩充并形成新候选字符集,通过识别后处理模块将所述新候选字符集作为预先训练的bi-gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。该装置通过原型网络初步识别、再进行识别后处理的方式提高了手写文书的识别精度。
附图说明
图1为根据本发明实施例的基于原型网络的手写汉字识别方法的流程示意图。
图2为根据本发明实施例的原型网络汉字识别模型的训练过程示意图。
图3为根据本发明实施例的bi-gram语言模型结合Viterbi算法选择最大概率句子路径的计算示意图。
图4为根据本发明实施例的基于原型网络的手写汉字识别装置的示意图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明一方面提供一种基于原型网络的手写汉字识别方法,如图1所示,包括获取步骤、预处理步骤、扩充步骤、识别步骤及识别后处理步骤。
具体而言,所述基于原型网络的手写汉字识别方法包括:
步骤一:获取手写文书的灰度图像。
具体地,将待识别的手写文书通过OCR等设备扫描得到其灰度图像。或者通过电脑等方式直接获取待识别手写文书的灰度图像。
步骤二:基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据。
具体地,将步骤一得到的灰度图像进行分割,首先对行进行分割,然后再对每一行的单个汉字进行分割,将分割之后的汉字图像进行图像增强(将图像翻转90度以扩大训练集样本数目),获得28×28的灰度图像,并且以单个汉字为单位输入后续识别模型中以进行识别。
步骤三:将步骤二中的图像数据输入到预训练好的原型网络汉字识别模型中,并且按照概率从大到小输出待识别汉字最有可能的10个候选字符集合。
对所述原型网络汉字识别模型的训练需要一个初始参数Φ,该初始参数通过卷积神经网络训练而来,并在此基础上得到从输入空间到嵌入空间的映射fΦ(x);在嵌入空间选择支撑集中各类样本的均值作为代表各类的原型,对于样本点x进行Softmax分类,这里的Softmax分类器通过样本点正确分类的概率交叉熵作为损失函数,通过最小化损失函数不断优化初始参数Φ,从而对嵌入空间进行优化。
需要说明的是,所谓原型网络汉字识别模型即将输入样本通过映射变换到嵌入空间,并在嵌入空间内选出每一类别的代表,也被称为“原型”,最后以欧式距离度量样本点到各个类别“原型”的距离并将样本归类到距离最近的那个“原型”的类别的分类模型。
具体地,如图2所示,所述原型网络汉字识别模型的训练包括:
步骤301:通过卷积神经网络进行训练并获得嵌入函数,所述嵌入函数用于对输入样本进行嵌入过程。其中,学习率设为0.003,并且每2000轮训练后将学习率减半。嵌入过程可以理解为通过嵌入函数将原输入样本进行降维的过程,以便对输入样本进行分类,降维之后的样本空间即为嵌入空间。
上述卷积神经网络是由四个卷积模块构成,每一个卷积模块包含64个3×3的卷积核的卷积层、批量归一化层、ReLU非线性层和一个2×2池化核大小的最大池化层。其中,批量归一化层用于特征归一化处理,计算其均值和方差,使数据满足真实数据分布,在训练时能够加速网络的收敛速度。ReLU非线性层则用于减少计算量,使原型网络的训练时间更短。最后的池化层可以增加原型网络的鲁棒性,防止过拟合。
由于待识别的汉字字符图像大小为28×28,所以当图像经过四个卷积模块处理后会获得一个64维的输出空间,此输出空间就是嵌入空间。
步骤302:输入空间经过嵌入函数处理以后变成了嵌入空间,在嵌入空间中将支撑集(用于训练原型网络的数据集,来自训练集中随机抽取的一小块子集)中各类中所有的样本的均值作为一个“原型”。
步骤303:在嵌入空间中计算输入样本到各个类中原型的欧式距离,使用Softmax模型将输入样本x归类到距离最短的原型所属的类别k中,具体公式如下:
Figure SMS_1
公式中的Φ是嵌入函数的参数;ck代表第k类的“原型”;
Figure SMS_2
代表着输入分类器的样本点x到“原型”的欧式距离。
Softmax模型损失函数为交叉熵函数,即取上述Softmax分类概率的对数,使用Adam优化器不断最小化经验损失函数,优化嵌入函数参数Φ,从而调整原型网络。其实优化参数Φ在本质上就是调整原型在嵌入空间中的位置,训练错误时将调整原型所处的位置。
上述基于原型网络的汉字识别模型不仅识别精度高,训练速度快,而且只需要少量样本即可完成对模型的训练,尤其适用于那些样本稀缺或者样本质量不高的文字识别场合。
可选地,所述原型网络汉字识别模型的训练还包括:
获取手写文书训练样本;手写文书训练样本是指预先存储在数据库中的用于训练原型网络汉字识别模型的训练样本;服务器可从数据库中获取手写文书训练样本,为后续模型训练提供数据来源;
从所述手写文书训练样本中随机选取若干手写文书样本形成数据集,以所述数据集中的手写文书样本作为输入样本,进行原型网络汉字识别模型训练;
获取手写文书测试样本,并将所述手写文书测试样本输入到训练后的原型网络汉字识别模型,获取识别准确率,若所述识别准确率大于或等于预设准确率,则确定所述原型网络汉字识别模型为最终模型。
步骤四:基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集。
目前大多数的候选字符集在从汉字数据库导出后就不再变化,这就导致如果候选字符集中在被选出时就不包括正确字符,那么即使再优秀的语言模型也无法选出正确的字符,所以在经过步骤三以概率大小输出了候选字符集之后,还需根据最大后验概率准则把候选字符集进行扩充,公式为
Figure SMS_3
其中
Figure SMS_4
为扩充候选字符,C为候选字符集,M为汉字数据库,p(x)是单个字符的概率,p(C|x)是当输入字符x已知时候选中候选字符集C的概率,P(C)是候选字符集的概率,p(x|C)是候选字符集已知时选中字符x的概率。
通过上式可以得出最有可能的前m个字符,由这前m个字符组成扩充候选字符集,m一般取10。在候选字符集的基础上进行字符集的扩充,并将扩充后的字符集和候选字符集取并集作为最终bi-gram语言模型识别的新候选字符集,可进一步扩大选择到正确字符的概率。
步骤五:在新候选字符集的基础上,以句子为单位通过bi-gram语言模型以Viterbe算法来计算每一列的所有字符到下一列的每一个字符之间的概率值,需要说明的是,该句子每一个字符的位置上是一列新候选字符集,所以一个句子在此步骤中类似一个n×k的矩阵,其中n是该句中所需要的字符数;k为每一个字符位置上的新候选字符集中包含的字符个数。
进一步地,对比本次计算中最大的概率值并以最大概率值所连接的后一排字符作为该条路径上在该列候选字符集中最优的那个字符,例如当计算第i列新候选字符集合中所有字符到第i+1列新候选字符集中每个字符的概率后,经过比较得出第i列第xi个字符到第i+1列第xi+1个字符的概率值最大,对于这条路径的第i列来说,则选取xi字符作为这条路径中在该列的最优字符,如图3所示。如此循环往复直到确定最后一个字,如此便完成一条路径的最优规划。
为了获得所有可能的句子的概率值,需要对剩下k-1条路径重复上述步骤,然后将这k条路径的总概率相乘再比较大小,概率最大的路径就是我们所需要的那句话,也即通过后处理技术得到的识别结果。
需要说明的是,每个句子可以看成是n个字符的联合概率分布,对于每一条路径来说,都是一个句子,因此计算路径的概率公式为:
Figure SMS_5
其中,
Figure SMS_6
是代表第i列新候选字符集中的第xi个字,i=1,2,...,n;
Figure SMS_7
代表第j条路径的总概率值;/>
Figure SMS_8
代表选择第1列新候选字符集中第x1个字的概率;/>
Figure SMS_9
代表第n-1列字符确定后选择第n列新候选字符集中第xn个字的概率。
本发明通过bi-gram语言模型结合Viterbi算法的方式,避免了单独由bi-gram语言模型进行最大概率句子计算所存在的局部概率最大的问题,提高了识别精度。此外,采用Viterbi算法分n-1次计算一前一后两列字符集间的所有字符的概率,相当于每次计算两列,总共计算n-1次,选择出的概率最大的正确字符形成最大概率的句子路径。Viterbi算法在已经被扩充的候选字符集上以句子为单位计算全局概率最大值,能够避免一次性计算所有概率的情况,大大减少计算成本。
所述bi-gram语言模型可根据上下文关系建立,其本质是两阶马尔可夫模型。
如图4所示,本发明还提供一种基于原型网络的手写汉字识别装置,包括:
获取模块,用于获取手写文书的灰度图像;
预处理模块,用于基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;
识别模块,用于将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;
扩充模块,用于基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;
识别后处理模块,用于将所述新候选字符集作为预先训练的bi-gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。
所述获取模块,还用于将待识别的手写文书通过OCR等设备扫描得到其灰度图像,或者通过电脑等方式直接获取待识别手写文书的灰度图像。
所述预处理模块,还用于将得到的灰度图像进行分割,首先对行进行分割,然后再对每一行的单个汉字进行分割,将分割之后的汉字图像进行图像增强(将图像翻转90度以扩大训练集样本数目),获得28×28的灰度图像,并且以单个汉字为单位输入后续识别模型中以进行识别。
所述识别模块,还用于执行:
步骤301:通过卷积神经网络进行训练并获得嵌入函数,所述嵌入函数用于对输入样本进行嵌入过程。 上述卷积神经网络是由四个卷积模块构成,每一个卷积模块包含64个3×3的卷积核的卷积层、批量归一化层、ReLU非线性层和一个2×2池化核大小的最大池化层。由于待识别的汉字字符图像大小为28×28,所以当图像经过四个卷积模块处理后会获得一个64维的输出空间,此输出空间就是嵌入空间。
步骤302:输入空间经过嵌入函数处理以后变成了嵌入空间,在嵌入空间中将支撑集(用于训练原型网络的数据集,来自训练集中随机抽取的一小块子集)中各类中所有的样本的均值作为一个“原型”。
步骤303:在嵌入空间中计算输入样本到各个类中原型的欧式距离,使用Softmax模型将输入样本x归类到距离最短的原型所属的类别k中,具体公式如下:
Figure SMS_10
公式中的Φ是嵌入函数的参数;ck代表第k类的“原型”;
Figure SMS_11
代表着输入分类器的样本点x到“原型”的欧式距离。
Softmax模型损失函数为交叉熵函数,即取上述Softmax分类概率的对数,使用Adam优化器不断最小化经验损失函数,优化嵌入函数参数Φ,从而调整原型网络。
所述扩充模块,还用于根据最大后验概率准则把候选字符集进行扩充,得出最有可能的前m个字符,由这前m个字符组成扩充候选字符集,m一般取10。在候选字符集的基础上进行字符集的扩充,并将扩充后的字符集和候选字符集取并集作为最终bi-gram语言模型识别的新候选字符集。
所述识别后处理模块,还用于以句子为单位通过bi-gram语言模型以Viterbi算法来计算每一列的所有字符到下一列的每一个字符之间的概率值;对比计算中最大的概率值并以最大概率值所连接的后一排字符作为该条路径上在该列候选字符集中最优的那个字符,如此循环往复直到确定最后一个字,如此便完成一条路径的最优规划。为了获得所有可能的句子的概率值,需要对剩下k-1条路径重复上述步骤,然后将这k条路径的总概率相乘再比较大小,概率最大的路径就是我们所需要的那句话,也即通过后处理技术得到的识别结果。
本发明一方面还提供一种电子设备,该电子设备可以为工控机、服务器或计算机终端。
所述电子设备包括处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现所述的基于原型网络的手写汉字识别方法的步骤。
该电子设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于原型网络的手写汉字识别方法。
处理器用于提供计算和控制能力,支撑整个电子设备的运行。内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于原型网络的手写汉字识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。应当理解的是,处理器可以是中央处理单元(CentralProcessingUnit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现
如下步骤:
获取手写文书的灰度图像;
基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;
将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;
基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;
将所述新候选字符集作为预先训练的bi-gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现所述的基于原型网络的手写汉字识别方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案。

Claims (7)

1.基于原型网络的手写汉字识别方法,其特征在于,包括:
获取手写文书的灰度图像;
基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;
将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;
在新候选字符集的基础上,以句子为单位通过bi-gram语言模型以Viterbe算法来计算每一列的所有字符到下一列的每一个字符之间的概率值,对比本次计算中最大的概率值并以最大概率值所连接的后一排字符作为该条路径上在该列候选字符集中最优的那个字符,如此循环往复直到确定最后一个字,便完成一条路径的最优规划;对剩下k-1条路径重复前面的步骤,然后将这k条路径的总概率相乘再比较大小,概率最大的路径就是所需要的那句话的识别结果;
所述原型网络汉字识别模型的训练包括:
获取嵌入函数;
根据所述嵌入函数对输入空间进行处理,得到嵌入空间;
以数据集各类中所有输入样本的均值作为各类的一个“原型”,在嵌入空间中计算输入样本到各类的“原型”的欧式距离;
根据Softmax模型将输入样本归类到距离最短的“原型”所属的类别中;
以交叉熵作为损失函数,利用Adam优化器不断最小化损失函数来优化嵌入函数参数,最终输出根据各个候选字符的概率大小排序的输入样本的候选字符集;
获取嵌入函数的步骤包括:构建卷积神经网络,所述卷积神经网络由四个卷积模块构成,每一个卷积模块均包括64个3×3的卷积核的卷积层、批量归一化层、ReLU非线性层和一个2×2池化核大小的最大池化层;将原始样本作为所述卷积神经网络的输入,获得降维后的样本作为所述卷积神经网络的输出。
2.根据权利要求1所述基于原型网络的手写汉字识别方法,其特征在于,基于最大后验概率准则,由每一输入样本的所述候选字符集来预测最有可能输入正确的汉字字符,并将这些最有可能输入正确的汉字字符按照概率大小选择前m个作为扩充的候选字符集。
3.根据权利要求1所述基于原型网络的手写汉字识别方法,其特征在于,所述bi-gram语言模型的训练包括:
获取训练语料;
统计训练语料中各个汉字字符出现的频率;
根据各个汉字字符出现的频率,计算待识别文本中由各汉字字符所组成的每个句子的联合分布概率。
4.根据权利要求1所述基于原型网络的手写汉字识别方法,其特征在于,将所述手写文书扫描件的灰度图像先分割成行图像,然后将每行图像分割成单个汉字字符的图像;将分割后的汉字字符图像进行图像增强,得到每个汉字字符的28×28的灰度图像。
5.基于原型网络的手写汉字识别装置,其特征在于,包括:
获取模块,用于获取手写文书的灰度图像;
预处理模块,用于基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;
识别模块,用于将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;
所述原型网络汉字识别模型的训练包括:
获取嵌入函数;
根据所述嵌入函数对输入空间进行处理,得到嵌入空间;
以数据集各类中所有输入样本的均值作为各类的一个“原型”,在嵌入空间中计算输入样本到各类的“原型”的欧式距离;
根据Softmax模型将输入样本归类到距离最短的“原型”所属的类别中;
以交叉熵作为损失函数,利用Adam优化器不断最小化损失函数来优化嵌入函数参数,最终输出根据各个候选字符的概率大小排序的输入样本的候选字符集;
获取嵌入函数的步骤包括:构建卷积神经网络,所述卷积神经网络由四个卷积模块构成,每一个卷积模块均包括64个3×3的卷积核的卷积层、批量归一化层、ReLU非线性层和一个2×2池化核大小的最大池化层;将原始样本作为所述卷积神经网络的输入,获得降维后的样本作为所述卷积神经网络的输出;
扩充模块,用于基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;
识别后处理模块,用于在新候选字符集的基础上,以句子为单位通过bi-gram语言模型以Viterbe算法来计算每一列的所有字符到下一列的每一个字符之间的概率值,对比本次计算中最大的概率值并以最大概率值所连接的后一排字符作为该条路径上在该列候选字符集中最优的那个字符,如此循环往复直到确定最后一个字,便完成一条路径的最优规划;对剩下k-1条路径重复前面的步骤,然后将这k条路径的总概率相乘再比较大小,概率最大的路径就是所需要的那句话的识别结果。
6.一种电子设备,其特征在于,所述电子设备包括处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至4中任一项所述的基于原型网络的手写汉字识别方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至4中任一项所述的基于原型网络的手写汉字识别方法的步骤。
CN202310311390.3A 2023-03-28 2023-03-28 基于原型网络的手写汉字识别方法、装置、设备及介质 Active CN116071764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310311390.3A CN116071764B (zh) 2023-03-28 2023-03-28 基于原型网络的手写汉字识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310311390.3A CN116071764B (zh) 2023-03-28 2023-03-28 基于原型网络的手写汉字识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116071764A CN116071764A (zh) 2023-05-05
CN116071764B true CN116071764B (zh) 2023-07-14

Family

ID=86175289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310311390.3A Active CN116071764B (zh) 2023-03-28 2023-03-28 基于原型网络的手写汉字识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116071764B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1010170A1 (en) * 1996-10-02 2000-06-21 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100347723C (zh) * 2005-07-15 2007-11-07 清华大学 基于几何代价与语义-识别代价结合的脱机手写汉字字符的切分方法
CN101493896B (zh) * 2008-01-24 2013-02-06 夏普株式会社 文档图像处理装置及文档图像处理方法
JP5344338B2 (ja) * 2008-08-01 2013-11-20 国立大学法人東京農工大学 プログラム、情報記憶媒体及び文字列認識装置
US10049099B2 (en) * 2015-04-10 2018-08-14 Facebook, Inc. Spell correction with hidden markov models on online social networks
EP3356952B1 (en) * 2015-09-30 2021-04-21 Open Text Corporation Method and system for ideogram character analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1010170A1 (en) * 1996-10-02 2000-06-21 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于实时样本采集的个性化手写汉字输入系统设计;张帆;刘星;张宇;;计算机测量与控制(01);全文 *
基于索引的快速手写中文文档关键词检索;喻庚;殷飞;陈友斌;刘成林;;模式识别与人工智能(11);全文 *

Also Published As

Publication number Publication date
CN116071764A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110569830B (zh) 多语言文本识别方法、装置、计算机设备及存储介质
CN110135414B (zh) 语料库更新方法、装置、存储介质及终端
WO2019232873A1 (zh) 文字模型训练方法、文字识别方法、装置、设备及介质
WO2017020723A1 (zh) 一种字符分割方法、装置及电子设备
US20220058420A1 (en) Scene text detection method and system based on sequential deformation
WO2019232872A1 (zh) 手写字模型训练方法、汉字识别方法、装置、设备及介质
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
US11803731B2 (en) Neural architecture search with weight sharing
CN109086654B (zh) 手写模型训练方法、文本识别方法、装置、设备及介质
US11790675B2 (en) Recognition of handwritten text via neural networks
CN112016319B (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
US20200134382A1 (en) Neural network training utilizing specialized loss functions
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
WO2019232870A1 (zh) 手写字训练样本获取方法、装置、计算机设备及存储介质
CN116071764B (zh) 基于原型网络的手写汉字识别方法、装置、设备及介质
CN116075820A (zh) 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN111209751A (zh) 一种中文分词方法、装置及存储介质
US11715288B2 (en) Optical character recognition using specialized confidence functions
CN112800752B (zh) 纠错方法、装置、设备以及存储介质
CN108021918B (zh) 文字识别方法及装置
CN116543389B (zh) 基于关系网络的字符识别方法、装置、设备及介质
CN111259806A (zh) 一种人脸区域识别方法、装置及存储介质
CN117033934B (zh) 一种基于人工智能的内容生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant