CN111291696A - 一种基于卷积神经网络的手写东巴文识别方法 - Google Patents
一种基于卷积神经网络的手写东巴文识别方法 Download PDFInfo
- Publication number
- CN111291696A CN111291696A CN202010101026.0A CN202010101026A CN111291696A CN 111291696 A CN111291696 A CN 111291696A CN 202010101026 A CN202010101026 A CN 202010101026A CN 111291696 A CN111291696 A CN 111291696A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- convolutional neural
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000008719 thickening Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 210000004205 output neuron Anatomy 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/293—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
一种基于卷积神经网络的手写东巴文识别方法,包括如下步骤,采集阶段:通过拍摄或扫描获得手写文字图片;预处理阶段:先对图片进行尺寸调整,使用双线性插值法对图像大小进行调整,得到统一尺寸的灰度图像;搭建卷积神经网络;将所述二值图像输入到所述卷积神经网络,计算得到一维的特征图;搭建全连接层;将所述特征图输入全连接层,迭代训练更新所述卷积神经网络和全连接层的参数,得到最优网络权值参数;文字识别阶段:将二值图像投入加载经上述的网络权值参数的神经网络模型推理,最终计算得出识别结果。本方法在图像预处理阶段利用高斯模糊法和OSTU阈值分割法,增加了包含有效信息的像素,减少了噪声干扰,识别率高。
Description
技术领域
本发明涉及文字识别领域,具体涉及一种基于卷积神经网络的手写东巴文识别方法。
背景技术
我国是一个统一的多民族国家,民族多,语言多,文字多,少数民族的文字造就了中华文化的多样性。每天世界上都有很多语言和文字面临消失的危险,保护语言文字的多样性具有重大的历史意义。东巴文是一种兼备表意和表音成分的图画象形文字。其文字形态十分原始,甚至比甲骨文的形态还要原始,属于文字起源的早期形态,但亦能完整纪录典藏。东巴文是居于西藏东部及云南省北部的少数民族纳西族所使用的文字。但遗憾的是,越来越少的年轻纳西族人能认识和使用这种文字了,如果我们不对东巴文进行保护,这种活泼生动、与自然紧密结合的语言将成为只在老人记忆中的语言。
近年来,随着深度学习技术的推广,文字的自动识别变得越来越简单快捷。相较于传统的基于文字图像结构纹理判断的算法,卷积神经网络能够基于图像的所有信息提取更多复杂特征。卷积神经网络就像一个黑盒子,技术人员不需要知道其中每一个参数和输出的意义,只需要给它提供足够的数据集,它就可以训练并更新每一个参数,直到可以准确地识别没有训练过的图片。随着卷积层数的增多,网络可以提取的特征更多,但同时计算量增大,对硬件设备的要求提高,判断单个文字图像的耗时增加。
不同于印刷体文字,手写文字形状各异,笔迹粗细不一,采集清晰度亮度不同,直接输入神经网络则需要更多的数据集合、更深的网络结构才能完成特征提取,因此图像预处理十分有必要。
发明内容
本发明目的是,提出一种基于卷积神经网络的手写东巴文识别方法与系统。通过图像预处理手段,大大降低了网络模型的复杂度,提升了模型性能,缩短了训练和识别的时间。
本发明的技术方案如下:一种基于卷积神经网络的手写东巴文识别方法,包括如下步骤:图像采集、预处理、网络训练和文字识别四个阶段;
采集阶段:通过拍摄或扫描获得手写文字图片;预处理阶段:先对图片进行尺寸调整,使用双线性插值法对图像大小进行调整,得到统一尺寸的灰度图像;使用高斯模糊法对灰度图像进行模糊处理,兼有过滤噪声和增粗笔迹的作用;使用OSTU法对模糊处理后的图像进行阈值分割,得到二值图像;
网络训练阶段:搭建卷积神经网络;将所述二值图像输入到所述卷积神经网络,计算得到一维的特征图(1×1×n);搭建全连接层;将所述特征图输入全连接层,迭代训练更新所述卷积神经网络和全连接层的参数,得到最优网络权值参数;
尤其是先构建一个由4个卷积层、2个池化层和2个全连接层构成的卷积神经网络,再将大量经过预处理阶段得到的手写东巴文的二值图像投入网络进行训练,最后保存训练所得网络权值参数;
文字识别阶段:采用拍摄或者扫描的方式获取手写文字图像,先由上述预处理阶段得到灰度二值图像,将二值图像投入加载经上述的网络权值参数的神经网络模型推理(上述训练阶段的网络结构并加载保存的参数,最终计算得出识别结果。
图像预处理阶段具体步骤:使用双线性插值法对图像大小进行调整,得到统一尺寸的灰度图像;使用高斯模糊法对灰度图像进行模糊处理,兼有过滤噪声和增粗笔迹的作用;使用OSTU法对模糊处理后的图像进行阈值分割,得到二值图像,具体操作如下:
S1.假设图像大小为N=W×H,选取灰度值T作为二值化的阈值;
S2.统计图像中像素的灰度值小于阈值T的像素个数记作N0;像素灰度值大于阈值T的像素个数记作N1;
S3.计算ω0=N0/N,ω1=N1/N;
S4.计算N0个小于T的像素点的平均像素值,记为μ0,计算N1个大于T的像素点的平均像素值,记为μ1;
S5.计算全体像素点的平均灰度值μ=ω0*μ0+ω1*μ1;
S6.计算类间方差g=ω0(μ0-μ)2+ω1(μ1-μ)2;
S7.T取遍0-255所有整数,循环S2-S6的过程,类间方差g最小时的阈值T即是最优阈值;
S8.以T为阈值,将图像分割为前景和背景,对坐标为(i,j)的像素点的灰度值yij重新赋值:
训练阶段:
搭建网络模型,包括4个卷积层(卷积核尺寸3×3,滑动步长为2×2,激活函数为relu),2个最大池化层(2×2)和2个全连接层,模型输出通过softmax激活函数模拟概率,以交叉熵(cross entropy)作为损失函数;
采用Adam优化方法对网络模型进行训练,迭代固定次数(不小于500次),保存模型的最优参数;
识别阶段:采用拍摄或者扫描的方式获取手写文字图像,先由预处理阶段得到灰度二值图像,经网络模型推理,得到预测概率最大的种类,即为该文字的真值;
训练阶段:
搭建网络模型,包括4个卷积层(卷积核尺寸3×3,滑动步长为2×2,激活函数为relu),2个最大池化层(2×2)和2个全连接层,模型输出通过softmax激活函数模拟概率,以交叉熵(cross entropy)作为损失函数;
采用Adam优化方法对网络模型进行训练,迭代固定次数(不小于500次),保存模型的最优参数;
识别阶段:
采用拍摄或者扫描的方式获取手写文字图像,先由预处理阶段得到灰度二值图像,经网络模型推理,得到预测概率最大的种类,即为该文字的真值;
有益效果:本发明基于卷积神经网络的手写东巴文识别方法构思合理,尤其是网络训练阶段:先构建一个由4个卷积层、2个池化层和2个全连接层构成的卷积神经网络,再将大量经过预处理阶段得到的手写东巴文的二值图像投入网络进行训练,最后保存训练所得网络权值参数;将二值图像投入加载过参数的卷积神经网络,最终计算得出识别结果。本方法在图像预处理阶段利用高斯模糊法和OSTU阈值分割法,增加了包含有效信息的像素,减少了噪声干扰,识别率高,操作简单,计算量小,易于部署,泛化性好。得到预测概率最大的种类,即为该文字的真值;能够在保持极高的识别准确率的同时降低网络模型的复杂度,相较于动辄几十层甚至上百层的残差网络结构,该结构减少了计算量,加快了训练和识别的速度,使得东巴文识别系统在低成本硬件上部署成为可能;图像的预处理手段,降低了对于图像采集的环境要求,在多种亮度和多种角度下拍摄的文字图像都可以准确识别,本发明具有良好的泛化性和鲁棒性。本发明方法在图像预处理阶段利用高斯模糊法和OSTU阈值分割法,增加了包含有效信息的像素,减少了噪声干扰,识别率高,操作简单,计算量小,易于部署,泛化性好。,得到预测概率最大的种类,即为该文字的真值;
附图说明
图1为部分东巴文字图像(共35幅);
图2为东巴文例字“六月”;
图3为图像处理前后对比图;
图4为本发明中网络模型参数训练流程图;
图5为本发明中卷积神经网络结构示意图;
图6为文字识别流程;
图7为全接连层示意图。
具体实施方式
本发明提出一种基于卷积神经网络的东手写巴文识别方法,该方法可以识别各种不规则的手写体和印刷体的东巴文,且能保证在复杂背景下的识别成功率。为使本技术领域的人员更好地理解本发明实施例中的技术方案,使本发明实施例中的上述优点、特征更加明显,下面对本发明的技术方案作进一步详细说明。
在本发明中,技术人员需要先进行一定量的数据采集,数据量的大小会影响网络模型的鲁棒性,若测试的书写风格越规范统一,则需要的数据集越小,反之越大;例如为识别各个字典上的印刷体东巴文,则每个字需要采集较少的样本,而为识别学生的手写体东巴文,则需要较多的样本;一般情况下,为识别手写体的东巴文,最少每个字约采集10个样本,其中8个样本作为训练集,2个样本作为测试集。
通过处理目标文字图片得到二值图像,包括:
使用双线性插值法将所述目标文字图片调整到统一尺寸(宽高皆大于100像素);
使用高斯模糊法对调整尺寸后的图片进行模糊处理;
使用OSTU方法从模糊处理后的图片中选取最佳阈值,将模糊处理后的图片划分成所述二值图像;
所述卷积神经网络,包含2个block,每个block包含2个3×3的卷积层1个2×2的最大池化层,每个3×3的卷积层后添加relu激活函数,使用全局平均池化获得每层为1×1的特征图;
所述全连接层,包含一个输入层,一个隐藏层和一个输出层,输入层神经元个数为卷积神经网络的输出特征图个数,输出层神经元个数为文字种类数,激活函数为softmax,隐藏层神经元个数设置为输出神经元个数的5倍;
迭代训练更新所述卷积神经网络和全连接层的参数,包括:
损失函数采用cross entropy函数;
训练优化方式采用Adam方法;
固定迭代次数为1000,保存测试集准确率最高的参数;
所述Adam方法拥有4个参数即α,β1,β2以及ε;其中α是学习率,默认为0.0001;β1为一阶矩估计指数衰减率,默认为0.9;β2为二阶矩估计指数衰减率,默认为0.999;ε为添加到分母中的最小值,用于防止分母为0,默认为1e-8.
数据采集方式为扫描或者拍摄文字图像,因本方法中合理的预处理手段,拍摄图像时对角度、光照、目标文字的大小、文字背景没有特别要求,但因本方法是单字识别,所以每个图像只能包含一个目标文字,或扫描拍摄后截取一个目标文字。
数据采集完成后,需先转换成灰度图,为了使处理后的图像可以输入到网络中进行训练和识别,需要对图像的尺寸进行统一调整,为了保证经4层卷积层和2层池化层的运算后仍保持特征图每层不少于一个像素点,所以统一调整的尺寸应大于100×100,否则将无法完成特征提取。
图像统一尺寸后,对图像进行高斯模糊,其作用不止于过滤噪声,同时可以增粗手写体的笔迹,使图像获得更多的包含有效信息的像素点。高斯模糊建议采用方案:滤镜大小为3×3,滑动步长为1×1,padding方式为1×1。
图像模糊处理后,对图像进行阈值分割,具体流程可参考图1,使用OSTU自适应阈值分割方法获得分割阈值。像素值大于阈值的像素点,将其像素值赋值为255,像素值小于阈值的像素点,将其像素值赋值为0。
建立如图2所示的网络结构,包括两个部分:卷积神经网络和全连接层。卷积神经网络包含两个block,每个block包含2个3×3的卷积层(padding方式为valid,滑动步长为2×2,激活函数为relu)和1个2×2的最大池化层。
为使卷积神经网络的特征图可以输入到全连接层,需要对特征图进行降维。本发明采用在第2个block后接一个全局平均池化层的方法来代替传统的flatten方法,可以降低计算量。
建立全连接层,假设n是降维后特征图的像素点个数,c是待识别文字的种类数,包括:1个输入层(包含n个神经元,激活函数为relu),1个隐藏层(建议包含5c个神经元,激活函数为relu)和1个输出层(包含c个神经元),输出层用以模拟预测目标文字是每个种类的概率。
设置输出层激活函数为softmax函数:
设置损失函数为交叉熵(cross entropy)函数:
其中,m为一个batch的样本数量,n为文字的种类数,pij为该batch中第i个文字属于第j类文字的真实概率(为0或1),qij为该batch中第i个文字属于第j类文字的推测概率(区间为(0,1))。训练的迭代中,qij将逐渐逼近pij,最终达到正确预测文字种类的目的。
设置优化策略为Adam方法,所述Adam方法拥有4个参数即α,β1,β2以及ε;其中α是学习率,默认为0.0001;β1为一阶矩估计指数衰减率,默认为0.9;β2为二阶矩估计指数衰减率,默认为0.999;ε为添加到分母中的最小值,用于防止分母为0,默认为1e-8.
设置训练终止条件(建议设置为固定1000次训练),设置参数保存策略为保存测试集成绩最好的模型参数,开始训练。
识别文字流程如图3所示。首先采集文字图像,预处理方法和训练过程中的处理方法相同;再建立和训练阶段相同的网络结构;
然后为网络结构加载保存的最优参数。将处理后的文字的二值图像输入到网络中计算推理,全连接输出层输出值最大的神经元所代表的文字种类即是正确推理的种类。
本发明基于卷积神经网络的手写东巴文识别方法构思合理,提出了从预处理到训练到识别东巴文的完整方案,其计算量小,训练和识别时间短,准确率高的特性适合低成本部署。
Claims (8)
1.一种基于卷积神经网络的手写东巴文识别方法,其特征是,包括如下步骤:图像采集、预处理、网络训练和文字识别四个阶段;采集阶段:通过拍摄或扫描获得手写文字图片;预处理阶段:先对图片进行尺寸调整,使用双线性插值法对图像大小进行调整,得到统一尺寸的灰度图像;使用高斯模糊法对灰度图像进行模糊处理,兼有过滤噪声和增粗笔迹的作用;使用OSTU法对模糊处理后的图像进行阈值分割,得到二值图像;网络训练阶段:
搭建卷积神经网络;将所述二值图像输入到所述卷积神经网络,计算得到一维的特征图(1×1×n);搭建全连接层;将所述特征图输入全连接层,迭代训练更新所述卷积神经网络和全连接层的参数,得到最优网络权值参数;
文字识别阶段:采用拍摄或者扫描的方式获取手写文字图像,先由上述预处理阶段得到灰度二值图像,将二值图像投入加载经上述的网络权值参数的神经网络模型推理,上述训练阶段的网络结构加载保存的参数,最终计算得出识别结果。
2.根据权利要求1所述的基于卷积神经网络的手写东巴文识别方法,其特征是,
图像预处理阶段具体步骤:使用双线性插值法对图像大小进行调整,得到统一尺寸的灰度图像;使用高斯模糊法对灰度图像进行模糊处理,兼有过滤噪声和增粗笔迹的作用;使用OSTU法对模糊处理后的图像进行阈值分割,得到二值图像,具体操作如下:
S1.假设图像大小为N=W×H,选取灰度值T作为二值化的阈值;
S2.统计图像中像素的灰度值小于阈值T的像素个数记作N0;像素灰度值大于阈值T的像素个数记作N1;
S3.计算ω0=N0/N,ω1=N1/N;
S4.计算N0个小于T的像素点的平均像素值,记为μ0,计算N1个大于T的像素点的平均像素值,记为μ1;
S5.计算全体像素点的平均灰度值μ=ω0*μ0+ω1*μ1;
S6.计算类间方差g=ω0(μ0-μ)2+ω1(μ1-μ)2;
S7.T取遍0-255所有整数,循环S2-S6的过程,类间方差g最小时的阈值T即是最优阈值;
S8.以T为阈值,将图像分割为前景和背景,对坐标为(i,j)的像素点的灰度值yij重新赋值:
3.根据权利要求1所述的基于卷积神经网络的手写东巴文识别方法,其特征是,训练阶段中:
搭建网络模型,先构建一个由4个卷积层、2个池化层和2个全连接层构成的卷积神经网络,再将大量经过预处理阶段得到的手写东巴文的二值图像投入网络进行训练,最后保存训练所得网络权值参数;4个卷积层卷积核尺寸3×3,滑动步长为2×2,激活函数为relu,2个最大池化层(2×2)和2个全连接层,模型输出通过softmax激活函数模拟概率,以交叉熵(cross entropy)作为损失函数;
采用Adam优化方法对网络模型进行训练,迭代固定次数、不小于500次,保存模型的最优参数;
识别阶段:采用拍摄或者扫描的方式获取手写文字图像,先由预处理阶段得到灰度二值图像,经网络模型推理,得到预测概率最大的种类,即为该文字的真值。
4.根据权利要求2所述的基于卷积神经网络的手写东巴文识别方法,其特征是,图像预处理阶段中,通过处理目标文字图片得到二值图像,包括:
使用双线性插值法将所述目标文字图片调整到统一尺寸,宽高皆大于100像素;
使用高斯模糊法对调整尺寸后的图片进行模糊处理;
使用OSTU方法从模糊处理后的图片中选取最佳阈值,将模糊处理后的图片划分成所述二值图像。
5.如权利要求1所述的方法,其特征在于:所述卷积神经网络,包含2个block,每个block包含2个3×3的卷积层1个2×2的最大池化层,每个3×3的卷积层后添加relu激活函数,使用全局平均池化获得每层为1×1的特征图。
6.如权利要求5所述的方法,其特征在于:所述全连接层,包含一个输入层,一个隐藏层和一个输出层,输入层神经元个数为卷积神经网络的输出特征图个数,输出层神经元个数为文字种类数,激活函数为softmax,隐藏层神经元个数设置为输出神经元个数的5倍。
7.如权利要求5所述的方法,其特征在于,迭代训练更新所述卷积神经网络和全连接层的参数,包括:
损失函数采用cross entropy函数;
训练优化方式采用Adam方法;
固定迭代次数为1000,保存测试集准确率最高的参数;
8.如权利要求5所述的方法,其特征在于:所述Adam方法拥有4个参数即α,β1,β2以及ε;其中α是学习率,默认为0.0001;β1为一阶矩估计指数衰减率,默认为0.9;β2为二阶矩估计指数衰减率,默认为0.999;ε为添加到分母中的最小值,用于防止分母为0,默认为1e-8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010101026.0A CN111291696B (zh) | 2020-02-19 | 2020-02-19 | 一种基于卷积神经网络的手写东巴文识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010101026.0A CN111291696B (zh) | 2020-02-19 | 2020-02-19 | 一种基于卷积神经网络的手写东巴文识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291696A true CN111291696A (zh) | 2020-06-16 |
CN111291696B CN111291696B (zh) | 2024-03-22 |
Family
ID=71028407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010101026.0A Active CN111291696B (zh) | 2020-02-19 | 2020-02-19 | 一种基于卷积神经网络的手写东巴文识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291696B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950552A (zh) * | 2020-08-14 | 2020-11-17 | 上海画笙智能科技有限公司 | 一种利用计算机识别南音乐谱的识别方法 |
CN112183494A (zh) * | 2020-11-05 | 2021-01-05 | 新华三大数据技术有限公司 | 基于神经网络的文字识别方法、装置及存储介质 |
CN112396009A (zh) * | 2020-11-24 | 2021-02-23 | 广东国粒教育技术有限公司 | 一种基于全卷积神经网络模型的算题批改方法、算题批改装置 |
CN113469123A (zh) * | 2021-07-21 | 2021-10-01 | 内蒙古工业大学 | 一种基于改进的vgg-16模型的传统蒙古文字母识别方法 |
CN113626413A (zh) * | 2021-08-16 | 2021-11-09 | 电子科技大学 | 一种专病数据库构建方法及系统 |
CN113657404A (zh) * | 2021-10-19 | 2021-11-16 | 中央民族大学 | 一种东巴象形文字的图像处理方法 |
CN113673415A (zh) * | 2021-08-18 | 2021-11-19 | 山东建筑大学 | 一种手写汉字身份鉴别方法及系统 |
CN113706379A (zh) * | 2021-07-29 | 2021-11-26 | 山东财经大学 | 一种基于医学图像处理的层间插值方法及系统 |
CN113837186A (zh) * | 2021-11-29 | 2021-12-24 | 中央民族大学 | 一种基于卷积神经网络的东巴象形文字识别方法及装置 |
CN115019112A (zh) * | 2022-08-09 | 2022-09-06 | 威海凯思信息科技有限公司 | 基于图像的目标对象检测方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784151A (zh) * | 2018-12-10 | 2019-05-21 | 重庆邮电大学 | 一种基于卷积神经网络的脱机手写汉字识别方法 |
EP3598339A1 (en) * | 2018-07-19 | 2020-01-22 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
-
2020
- 2020-02-19 CN CN202010101026.0A patent/CN111291696B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3598339A1 (en) * | 2018-07-19 | 2020-01-22 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
CN109784151A (zh) * | 2018-12-10 | 2019-05-21 | 重庆邮电大学 | 一种基于卷积神经网络的脱机手写汉字识别方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950552A (zh) * | 2020-08-14 | 2020-11-17 | 上海画笙智能科技有限公司 | 一种利用计算机识别南音乐谱的识别方法 |
CN112183494A (zh) * | 2020-11-05 | 2021-01-05 | 新华三大数据技术有限公司 | 基于神经网络的文字识别方法、装置及存储介质 |
CN112396009A (zh) * | 2020-11-24 | 2021-02-23 | 广东国粒教育技术有限公司 | 一种基于全卷积神经网络模型的算题批改方法、算题批改装置 |
CN113469123A (zh) * | 2021-07-21 | 2021-10-01 | 内蒙古工业大学 | 一种基于改进的vgg-16模型的传统蒙古文字母识别方法 |
CN113706379A (zh) * | 2021-07-29 | 2021-11-26 | 山东财经大学 | 一种基于医学图像处理的层间插值方法及系统 |
CN113706379B (zh) * | 2021-07-29 | 2023-05-26 | 山东财经大学 | 一种基于医学图像处理的层间插值方法及系统 |
CN113626413A (zh) * | 2021-08-16 | 2021-11-09 | 电子科技大学 | 一种专病数据库构建方法及系统 |
CN113673415A (zh) * | 2021-08-18 | 2021-11-19 | 山东建筑大学 | 一种手写汉字身份鉴别方法及系统 |
CN113673415B (zh) * | 2021-08-18 | 2022-03-04 | 山东建筑大学 | 一种手写汉字身份鉴别方法及系统 |
CN113657404B (zh) * | 2021-10-19 | 2022-02-22 | 中央民族大学 | 一种东巴象形文字的图像处理方法 |
CN113657404A (zh) * | 2021-10-19 | 2021-11-16 | 中央民族大学 | 一种东巴象形文字的图像处理方法 |
CN113837186A (zh) * | 2021-11-29 | 2021-12-24 | 中央民族大学 | 一种基于卷积神经网络的东巴象形文字识别方法及装置 |
CN115019112A (zh) * | 2022-08-09 | 2022-09-06 | 威海凯思信息科技有限公司 | 基于图像的目标对象检测方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111291696B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291696B (zh) | 一种基于卷积神经网络的手写东巴文识别方法 | |
CN111723860B (zh) | 一种目标检测方法及装置 | |
CN109035149B (zh) | 一种基于深度学习的车牌图像去运动模糊方法 | |
Jin et al. | Deep learning for underwater image recognition in small sample size situations | |
CN105205448B (zh) | 基于深度学习的文字识别模型训练方法和识别方法 | |
CN108665005B (zh) | 一种利用dcgan提高基于cnn图像识别性能的方法 | |
CN108171318B (zh) | 一种基于模拟退火—高斯函数的卷积神经网络集成方法 | |
CN109086653B (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN112614136B (zh) | 一种红外小目标实时实例分割方法及装置 | |
CN107220641B (zh) | 一种基于深度学习的多语言文本分类方法 | |
CN108960301B (zh) | 一种基于卷积神经网络的古彝文识别方法 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN107038416B (zh) | 一种基于二值图像改进型hog特征的行人检测方法 | |
CN111553438A (zh) | 一种基于卷积神经网络的图像识别方法 | |
CN111695640B (zh) | 地基云图识别模型训练方法及地基云图识别方法 | |
CN113011253B (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
CN111814611A (zh) | 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统 | |
CN106503661A (zh) | 基于烟花深度信念网络的人脸性别识别方法 | |
CN113052057A (zh) | 一种基于改进卷积神经网络的交通标志识别方法 | |
CN112861718A (zh) | 一种轻量级特征融合人群计数方法及系统 | |
CN115457568B (zh) | 一种基于生成对抗网络的历史文档图像降噪方法及系统 | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN111666813A (zh) | 一种基于非局部信息的三维卷积神经网络的皮下汗腺提取方法 | |
JP2000259766A (ja) | パターン認識方法 | |
CN116597136A (zh) | 一种半监督遥感图像语义分割方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |