CN111428715A - 一种基于神经网络的文字识别方法 - Google Patents

一种基于神经网络的文字识别方法 Download PDF

Info

Publication number
CN111428715A
CN111428715A CN202010222642.1A CN202010222642A CN111428715A CN 111428715 A CN111428715 A CN 111428715A CN 202010222642 A CN202010222642 A CN 202010222642A CN 111428715 A CN111428715 A CN 111428715A
Authority
CN
China
Prior art keywords
neural network
parameters
follows
convolution
outputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010222642.1A
Other languages
English (en)
Inventor
陈豪奋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Nanfang Human Resources Evaluation Center Co ltd
Original Assignee
Guangzhou Nanfang Human Resources Evaluation Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Nanfang Human Resources Evaluation Center Co ltd filed Critical Guangzhou Nanfang Human Resources Evaluation Center Co ltd
Priority to CN202010222642.1A priority Critical patent/CN111428715A/zh
Publication of CN111428715A publication Critical patent/CN111428715A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及文字识别技术技术领域,具体涉及一种基于神经网络的文字识别方法,采用如下步骤:S1:采用待识别文本图像,且转换为灰度图像,形成训练样本图片;S2:对S1中的训练样本图片,输入至cnn卷积神经网络,通过对卷积层的输出通道、卷积核和步长的参数设定,以及层归一化处理,然后提取特征,输出特征矩阵;S3:基于lstm神经网络的cell组成的双向rnn的语言模型;S4:将S2中的得到的特征矩阵,输入至S3中的双向rnn的语言模型中;它基于cnn和rnn的文字识别算法,通过改进cnn和rnn层,其特征提取更加达到点子上,不会出现特征丢失和特征消失的问题,提高识别效率和正确率。

Description

一种基于神经网络的文字识别方法
【技术领域】
本发明涉及文字识别技术技术领域,具体涉及一种基于神经网络的文字识别方法。
【背景技术】
现在的文字识别算法中,有多种文字识别算法,如:densnet+ctc,crnn+ctc,resnet+ct等等,在多种算法中,他们的损失函数都是统一为ctc,在提取特征层不一样,如densnet和resnet属于卷积类的提取,crnn是cnn和rnn的结合,属于卷积核语言模型的组合,目前市面上的文字识别算法如图1、图2所示。出现了识别错误的现场,并且这种错误是在训练10G的大样本下的错误。
在现有的文字识别算法中,大部分的特征提取层是由densnet和resnet组成,如果复杂一点的会由cnn和rnn组成,这种组成对印刷体的识别效果会非常不错,但对于手写体来说,densnet和resnet密集型网络提取特征,并且手写体属于松散并且无规律的结构,用这两种方法提取特征会更加容易丢失特征,从而让文字识别出现错误,cnn和rnn的组合在市面上的结构也和densnet和resnet一样复杂,也一样容易丢失特征甚至到达特征消失的地步(计算完后无限接近于0)。
【发明内容】
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于神经网络的文字识别方法。
本发明所述的一种基于神经网络的文字识别方法,采用如下步骤:
S1:采用待识别文本图像,且转换为灰度图像,形成训练样本图片;
S2:对S1中的训练样本图片,输入至cnn卷积神经网络,通过对卷积层的输出通道、卷积核和步长的参数设定,以及层归一化处理,然后提取特征,输出特征矩阵;
S3:基于lstm神经网络的cell组成的双向rnn的语言模型;
S4:将S2中的得到的特征矩阵,输入至S3中的双向rnn的语言模型中,通过对多层卷积的输出通道、卷积核和步长的参数设定,进行提取特征,输出特征矩阵,以及多次对训练数据进行归一化处理,激活、以及最大池化处理,得到对S1中训练样本图片中的文字序列的识别结果。
进一步地,S2中的利用cnn卷积神经网络,对S1中的训练样本图片,进行特征提取,采用如下步骤:
S201:对S1中的训练样本图片,进行卷积运算,进行特征提取,形成特征矩阵;上述卷积运算的参数如下:输出:64,卷积核:3,步长:1;上述最大池化的参数如下:卷积核:2,步长:2;
S202:对S201中的特征矩阵;进行卷积运算,进行特征提取;上述卷积运算的参数如下:输出:128,卷积核:3,步长:1;上述最大池化的参数如下:卷积核:2,步长:2;
S203:对S202中的特征矩阵;进行卷积运算,进行特征提取;上述卷积运算的参数如下:输出:256,卷积核:3,步长:1;
S204:对上述训练数据,进行卷积神经网络的归一化操作;
S205:然后再使用卷积神经网络的激活函数,进行激活处理,将激活信息向后传入下一层的神经网络;
S206:通过卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,步长:1;
S207:对上述的训练数据,进行层归一化运算;S208:再使用卷积神经网络的激活函数,进行激活处理;
S209:然后通过卷积神经网络,进行最大池化操作,抽取其最大值,形成特征矩阵;其参数如下:池化窗口大小:2;池化步长:宽为2,高为2;padding:valid;
S210:进行卷积运算,其参数如下:输出:512,卷积核:3,步长:1,进行特征提取,形成特征矩阵;
S211:对S210中的特征矩阵,进行卷积神经网络的归一化操作;
S212:然后再使用卷积神经网络的激活函数,进行激活处理;
S213:再进行卷积运算操作,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,步长:1;
S214:对上述产生的训练数据,进行层归一化操作;
S215:再使用卷积神经网络的激活函数,进行激活处理;
S216:然后,再次对上述产生的训练数据,再进行最大池化操作,其参数如下:卷积核大小:高为2,宽为1;步长大小:高为2,宽为1;
S217:再次进行卷积运算,进行特征提取,形成特征矩阵;其参数如下:输出:512;卷积核:2;卷积核步长:高为2,宽为1;
S218:再进行层归一化操作;
S219:然后再使用卷积神经网络的激活函数,进行激活处理。
进一步地,对S3中的基于lstm神经网络的cell组成的双向rnn的语言模型,进行特征提取,采用如下步骤:
S301:对S2中经cnn卷积神经网络提取的特征矩阵,利用双向rnn的语言模型,再次进行卷积运算处理;其参数如下:输出:64,卷积核:3,padding:vali;
S302:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:64,卷积核:3,padding:same;
S303:对上述训练数据,进行层归一化运算处理;
S304:使用卷积神经网络的激活函数,进行激活处理;
S305:然后再进行池化层最大池化操作,其参数如下:池化窗口大小:2,池化步长:宽为2,高为2;padding:valid;
S306:进行卷积运算操作,进行特征提取,其参数如下:输出:128,卷积核:3,padding:same;
S307:对上述产生的训练数据,采用归一化运算处理;
S308:使用卷积神经网络的激活函数,进行激活处理;
S309:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:128,卷积核:3,padding:same;
S310:对上述的训练数据,进行层归一化运算处理;
S311:使用卷积神经网络的激活函数,进行激活处理;
S312:然后再进行池化层最大池化操作,其参数如下:池化窗口大小:2;池化步长:宽为2,高为1;padding:valid;
S313:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,padding:same;
S314:对上述训练数据,进行层归一化运算处理;
S315:使用卷积神经网络的激活函数,进行激活处理;
S316:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,padding:same;
S317:对上述训练数据,进行层归一化运算处理;
S318:使用卷积神经网络的激活函数,进行激活处理;
S319:再进行池化层最大池化操作,提取其特大值,形成特征矩阵,其参数如下:池化窗口大小:2;池化步长:宽为2,高为1;padding:valid;
S320:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,padding:same;
S321:对上述训练数据,进行层归一化运算处理;
S322:使用卷积神经网络的激活函数,进行激活处理;
S323:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,padding:same;
S324:对上述训练数据,进行层归一化运算处理;
S325:使用卷积神经网络的激活函数,进行激活处理;
S326:再进行池化层最大池化操作,提取其特大值,其参数如下:池化窗口大小:宽为3,高为1;池化步长:宽为3,高为1;Padding:valid。
本发明有益效果为:本发明所述的一种基于神经网络的文字识别方法,它基于cnn和rnn的文字识别算法,通过改进cnn和rnn层,其特征提取更加达到点子上,不会出现特征丢失和特征消失的问题,提高识别效率和正确率。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明中的背景技术中的文字识别算法的示意图;
图2是图1右部放大图;
图3是本发明中的拓扑示意图;
图4是本发明中的针对背景技术中的训练样本图片进行文字识别的示意图;
图5是图4的右部放大图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
如图3所示,本具体实施方式所述的一种基于神经网络的文字识别方法,采用如下步骤:
S1:采用待识别文本图像,且转换为灰度图像,形成训练样本图片;
S2:对S1中的训练样本图片,输入至cnn卷积神经网络,通过对卷积层的输出通道、卷积核和步长的参数设定,以及层归一化处理,然后提取特征,输出特征矩阵;
S3:基于lstm神经网络的cell组成的双向rnn的语言模型;
S4:将S2中的得到的特征矩阵,输入至S3中的双向rnn的语言模型中,通过对多层卷积的输出通道、卷积核和步长的参数设定,进行提取特征,输出特征矩阵,以及多次对训练数据进行归一化处理,激活、以及最大池化处理,得到对S1中训练样本图片中的文字序列的识别结果。
进一步地,S2中的利用cnn卷积神经网络,对S1中的训练样本图片,进行特征提取,采用如下步骤:
S201:对S1中的训练样本图片,进行卷积运算,进行特征提取,形成特征矩阵;上述卷积运算的参数如下:输出:64,卷积核:3,步长:1;上述最大池化的参数如下:卷积核:2,步长:2;
S202:对S201中的特征矩阵;进行卷积运算,进行特征提取;上述卷积运算的参数如下:输出:128,卷积核:3,步长:1;上述最大池化的参数如下:卷积核:2,步长:2;
S203:对S202中的特征矩阵;进行卷积运算,进行特征提取;上述卷积运算的参数如下:输出:256,卷积核:3,步长:1;
S204:对上述训练数据,进行卷积神经网络的归一化操作,防止梯度爆炸和梯度消失,能够使得网络模型错误率极大降低;
S205:然后再使用卷积神经网络的激活函数,进行激活处理,将激活信息向后传入下一层的神经网络;
其中:激活函数如sigmoid函数、tanh函数、relu函数、dropout函数;当输入数据特征相差明显时,用tanh的效果会很好,且在循环过程中会不断扩大特征效果并显示出来。当特征相差不明显时,sigmoid效果比较好。同时,用sigmoid和tanh作为激活函数时,需要对输入进行规范化,否则激活后的值全部都进入平坦区,隐层的输出会全部趋同,丧失原有的特征表达。而relu会好很多,有时可以不需要输入规范化来避免上述情况。因此,现在大部分的卷积神经网络都采用relu作为激活函数;
S206:通过卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,步长:1;
S207:对上述的训练数据,进行层归一化运算;能够降低分布变化的影响,使用归一化策略,把数据分布映射到一个确定的区间,有利于快速的调整神经网络的网络结构;
S208:再使用卷积神经网络的激活函数,进行激活处理;
S209:然后通过卷积神经网络,进行最大池化操作,抽取其最大值,形成特征矩阵;其参数如下:池化窗口大小:2;池化步长:宽为2,高为2;padding:valid;卷积网络也经常使用池化层来缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性;
S210:进行卷积运算,其参数如下:输出:512,卷积核:3,步长:1,进行特征提取,形成特征矩阵;
S211:对S210中的特征矩阵,进行卷积神经网络的归一化操作;
S212:然后再使用卷积神经网络的激活函数,进行激活处理;
S213:再进行卷积运算操作,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,步长:1;
S214:对上述产生的训练数据,进行层归一化操作;
S215:再使用卷积神经网络的激活函数,进行激活处理;
S216:然后,再次对上述产生的训练数据,再进行最大池化操作,其参数如下:卷积核大小:高为2,宽为1;步长大小:高为2,宽为1;
S217:再次进行卷积运算,进行特征提取,形成特征矩阵;其参数如下:输出:512;卷积核:2;卷积核步长:高为2,宽为1;
S218:再进行层归一化操作;
S219:然后再使用卷积神经网络的激活函数,进行激活处理。
进一步地,对S3中的基于lstm神经网络的cell组成的双向rnn的语言模型,进行特征提取,采用如下步骤:
S301:对S2中经cnn卷积神经网络提取的特征矩阵,利用双向rnn的语言模型,再次进行卷积运算处理;其参数如下:输出:64,卷积核:3,padding:vali;
S302:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:64,卷积核:3,padding:same;
S303:对上述训练数据,进行层归一化运算处理;
S304:使用卷积神经网络的激活函数,进行激活处理;
S305:然后再进行池化层最大池化操作,其参数如下:池化窗口大小:2,池化步长:宽为2,高为2;padding:valid;
S306:进行卷积运算操作,进行特征提取,其参数如下:输出:128,卷积核:3,padding:same;
S307:对上述产生的训练数据,采用归一化运算处理;
S308:使用卷积神经网络的激活函数,进行激活处理;
S309:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:128,卷积核:3,padding:same;
S310:对上述的训练数据,进行层归一化运算处理;
S311:使用卷积神经网络的激活函数,进行激活处理;
S312:然后再进行池化层最大池化操作,其参数如下:池化窗口大小:2;池化步长:宽为2,高为1;padding:valid;
S313:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,padding:same;
S314:对上述训练数据,进行层归一化运算处理;
S315:使用卷积神经网络的激活函数,进行激活处理;
S316:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,padding:same;
S317:对上述训练数据,进行层归一化运算处理;
S318:使用卷积神经网络的激活函数,进行激活处理;
S319:再进行池化层最大池化操作,提取其特大值,形成特征矩阵,其参数如下:池化窗口大小:2;池化步长:宽为2,高为1;padding:valid;
S320:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,padding:same;
S321:对上述训练数据,进行层归一化运算处理;
S322:使用卷积神经网络的激活函数,进行激活处理;
S323:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,padding:same;
S324:对上述训练数据,进行层归一化运算处理;
S325:使用卷积神经网络的激活函数,进行激活处理;
S326:再进行池化层最大池化操作,提取其特大值,其参数如下:池化窗口大小:宽为3,高为1;池化步长:宽为3,高为1;Padding:valid。
本设计中的第二步rnn:用的是lstm的cell组成的动态双向rnn语言模型(输出为256);在改进了特征提取层之后,识别的文字用了200M的数据来训练,如图4、图5所示。
本发明中,申请人尝试过densnet和resnet以外的特征提取方法,如googlenet,nasnet等等,其最终的文字识别率远低于本发明,其识别效果较差。
本发明中的,图1为传统的文字识别方法对训练文本图片,图1的右部为文字显示为识别后的结果(反黑显示部分);经过文字识别后的效果,其识别的结果如图2所示,图2是图1的右部放大图。
本专利的具体实施中,以本发明的文字识别方法,图3中左侧的识别文本部分与图1中识别文本部分相同;图3中右侧部分为通过本发明的文字识别方法后得到的文字识别结果,如图3中右侧部分(反黑显示部分)的文字显示其识别效果,如图5所示,图5为图4的右部放大图。
上述二者的识别效果和正确率一目了然,本专利的识别率和效果优异。
本发明有益效果为:本发明所述的一种基于神经网络的文字识别方法,它基于cnn和rnn的文字识别算法,通过改进cnn和rnn层,其特征提取更加达到点子上,不会出现特征丢失和特征消失的问题,提高识别效率和正确率。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (3)

1.一种基于神经网络的文字识别方法,采用如下步骤:
S1:采用待识别文本图像,且转换为灰度图像,形成训练样本图片;
S2:对S1中的训练样本图片,输入至cnn卷积神经网络,通过对卷积层的输出通道、卷积核和步长的参数设定,以及层归一化处理,然后提取特征,输出特征矩阵;
S3:基于lstm神经网络的cell组成的双向rnn的语言模型;
S4:将S2中的得到的特征矩阵,输入至S3中的双向rnn的语言模型中,通过对多层卷积的输出通道、卷积核和步长的参数设定,进行提取特征,输出特征矩阵,以及多次对训练数据进行归一化处理,激活、以及最大池化处理,得到对S1中训练样本图片中的文字序列的识别结果。
2.根据权利要求1所述的一种基于神经网络的文字识别方法,其特征在于:S2中的利用cnn卷积神经网络,对S1中的训练样本图片,进行特征提取,采用如下步骤:
S201:对S1中的训练样本图片,进行卷积运算,进行特征提取,形成特征矩阵;上述卷积运算的参数如下:输出:64,卷积核:3,步长:1;上述最大池化的参数如下:卷积核:2,步长:2;
S202:对S201中的特征矩阵;进行卷积运算,进行特征提取;上述卷积运算的参数如下:输出:128,卷积核:3,步长:1;上述最大池化的参数如下:卷积核:2,步长:2;
S203:对S202中的特征矩阵;进行卷积运算,进行特征提取;上述卷积运算的参数如下:输出:256,卷积核:3,步长:1;
S204:对上述训练数据,进行卷积神经网络的归一化操作;
S205:然后再使用卷积神经网络的激活函数,进行激活处理,将激活信息向后传入下一层的神经网络;
S206:通过卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,步长:1;
S207:对上述的训练数据,进行层归一化运算;S208:再使用卷积神经网络的激活函数,进行激活处理;
S209:然后通过卷积神经网络,进行最大池化操作,抽取其最大值,形成特征矩阵;其参数如下:池化窗口大小:2;池化步长:宽为2,高为2;padding:valid;
S210:进行卷积运算,其参数如下:输出:512,卷积核:3,步长:1,进行特征提取,形成特征矩阵;
S211:对S210中的特征矩阵,进行卷积神经网络的归一化操作;
S212:然后再使用卷积神经网络的激活函数,进行激活处理;
S213:再进行卷积运算操作,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,步长:1;
S214:对上述产生的训练数据,进行层归一化操作;
S215:再使用卷积神经网络的激活函数,进行激活处理;
S216:然后,再次对上述产生的训练数据,再进行最大池化操作,其参数如下:卷积核大小:高为2,宽为1;步长大小:高为2,宽为1;
S217:再次进行卷积运算,进行特征提取,形成特征矩阵;其参数如下:输出:512;卷积核:2;卷积核步长:高为2,宽为1;
S218:再进行层归一化操作;
S219:然后再使用卷积神经网络的激活函数,进行激活处理。
3.根据权利要求1所述的一种基于神经网络的文字识别方法,其特征在于:对S3中的基于lstm神经网络的cell组成的双向rnn的语言模型,进行特征提取,采用如下步骤:
S301:对S2中经cnn卷积神经网络提取的特征矩阵,利用双向rnn的语言模型,再次进行卷积运算处理;其参数如下:输出:64,卷积核:3,padding:vali;
S302:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:64,卷积核:3,padding:same;
S303:对上述训练数据,进行层归一化运算处理;
S304:使用卷积神经网络的激活函数,进行激活处理;
S305:然后再进行池化层最大池化操作,其参数如下:池化窗口大小:2,池化步长:宽为2,高为2;padding:valid;
S306:进行卷积运算操作,进行特征提取,其参数如下:输出:128,卷积核:3,padding:same;
S307:对上述产生的训练数据,采用归一化运算处理;
S308:使用卷积神经网络的激活函数,进行激活处理;
S309:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:128,卷积核:3,padding:same;
S310:对上述的训练数据,进行层归一化运算处理;
S311:使用卷积神经网络的激活函数,进行激活处理;
S312:然后再进行池化层最大池化操作,其参数如下:池化窗口大小:2;池化步长:宽为2,高为1;padding:valid;
S313:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,padding:same;
S314:对上述训练数据,进行层归一化运算处理;
S315:使用卷积神经网络的激活函数,进行激活处理;
S316:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:256,卷积核:3,padding:same;
S317:对上述训练数据,进行层归一化运算处理;
S318:使用卷积神经网络的激活函数,进行激活处理;
S319:再进行池化层最大池化操作,提取其特大值,形成特征矩阵,其参数如下:池化窗口大小:2;池化步长:宽为2,高为1;padding:valid;
S320:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,padding:same;
S321:对上述训练数据,进行层归一化运算处理;
S322:使用卷积神经网络的激活函数,进行激活处理;
S323:进行卷积运算,进行特征提取,形成特征矩阵,其参数如下:输出:512,卷积核:3,padding:same;
S324:对上述训练数据,进行层归一化运算处理;
S325:使用卷积神经网络的激活函数,进行激活处理;
S326:再进行池化层最大池化操作,提取其特大值,其参数如下:池化窗口大小:宽为3,高为1;池化步长:宽为3,高为1;Padding:valid。
CN202010222642.1A 2020-03-26 2020-03-26 一种基于神经网络的文字识别方法 Pending CN111428715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010222642.1A CN111428715A (zh) 2020-03-26 2020-03-26 一种基于神经网络的文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010222642.1A CN111428715A (zh) 2020-03-26 2020-03-26 一种基于神经网络的文字识别方法

Publications (1)

Publication Number Publication Date
CN111428715A true CN111428715A (zh) 2020-07-17

Family

ID=71548863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010222642.1A Pending CN111428715A (zh) 2020-03-26 2020-03-26 一种基于神经网络的文字识别方法

Country Status (1)

Country Link
CN (1) CN111428715A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733685A (zh) * 2020-12-31 2021-04-30 北京澎思科技有限公司 人脸跟踪方法、系统及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN109086652A (zh) * 2018-06-04 2018-12-25 平安科技(深圳)有限公司 手写字模型训练方法、汉字识别方法、装置、设备及介质
CN109993164A (zh) * 2019-03-20 2019-07-09 上海电力学院 一种基于rcrnn神经网络的自然场景文字识别方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN110866530A (zh) * 2019-11-13 2020-03-06 云南大学 一种字符图像识别方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
CN109086652A (zh) * 2018-06-04 2018-12-25 平安科技(深圳)有限公司 手写字模型训练方法、汉字识别方法、装置、设备及介质
CN109993164A (zh) * 2019-03-20 2019-07-09 上海电力学院 一种基于rcrnn神经网络的自然场景文字识别方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN110866530A (zh) * 2019-11-13 2020-03-06 云南大学 一种字符图像识别方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733685A (zh) * 2020-12-31 2021-04-30 北京澎思科技有限公司 人脸跟踪方法、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111260740B (zh) 一种基于生成对抗网络的文本到图像生成方法
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN108875696A (zh) 基于深度可分离卷积神经网络的脱机手写汉字识别方法
CN108960301B (zh) 一种基于卷积神经网络的古彝文识别方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN108805833B (zh) 基于条件对抗网络的字帖二值化背景噪声杂点去除方法
CN115439857B (zh) 一种基于复杂背景图像的倾斜字符识别方法
CN111814611A (zh) 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统
CN110059593B (zh) 一种基于反馈卷积神经网络的面部表情识别方法
CN112307714A (zh) 一种基于双阶段深度网络的文字风格迁移方法
CN111666937A (zh) 一种图像中的文本识别方法及系统
CN108182475A (zh) 一种基于自动编码机-超限学习机的多维度数据特征识别方法
CN112084794A (zh) 一种藏汉翻译方法和装置
CN110738201A (zh) 基于融合形态特征的自适应多卷积神经网络文字识别方法
CN111428715A (zh) 一种基于神经网络的文字识别方法
CN111813894A (zh) 一种基于深度学习的自然语言情感识别方法
CN109508670B (zh) 一种基于红外摄像头的静态手势识别方法
CN111680577A (zh) 人脸检测方法和装置
CN111401211A (zh) 一种采用图像增广和小样本学习的虹膜识别方法
CN111353032B (zh) 面向社区问答的问题分类方法及系统
CN112860907A (zh) 一种情感分类方法及设备
He et al. Image captioning algorithm based on multi-branch cnn and bi-lstm
CN112598065B (zh) 一种基于记忆的门控卷积神经网络语义处理系统及方法
Pan et al. Chinese image caption of Inceptionv4 and double-layer GRUs based on attention mechanism
CN111008529B (zh) 一种基于神经网络的中文关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination