CN112348007A - 一种基于神经网络的光学字符识别方法 - Google Patents
一种基于神经网络的光学字符识别方法 Download PDFInfo
- Publication number
- CN112348007A CN112348007A CN202011135516.9A CN202011135516A CN112348007A CN 112348007 A CN112348007 A CN 112348007A CN 202011135516 A CN202011135516 A CN 202011135516A CN 112348007 A CN112348007 A CN 112348007A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- morphological
- layer
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012015 optical character recognition Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 8
- 230000000877 morphologic effect Effects 0.000 claims abstract description 42
- 102100032202 Cornulin Human genes 0.000 claims abstract description 28
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 230000007797 corrosion Effects 0.000 claims description 20
- 238000005260 corrosion Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 15
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013518 transcription Methods 0.000 claims description 6
- 230000035897 transcription Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000005530 etching Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000010977 unit operation Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000036541 health Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于神经网络的光学字符识别方法。本发明具体实现步骤如下:步骤1、文本区域分割阶段:利用基于形态学网络对输入图像进行预处理,精确文本区域掩膜图像。步骤2、文本识别阶段:利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。本发明提出的方法可以快速提取出体验报告中的医疗文本,大大节省人工提取文本信息的时间,模块化型强,并且可使用小样本的数据集进行较快、有效地分割提取医疗文本信息,能够很好泛化到很多应用场景中。
Description
技术领域
本发明涉及文字识别领域,具体公开一种基于形态学网络(MorphNN)的文本分割技术和基于CRNN++文本识别技术。提供一种基于神经网络的光学字符识别方法。
背景技术
随着物质生活水平的不断提高,人们对自身的健康越来越重视。据国家统计局的相关数据显示,2018年我国大城市的工薪阶层中,有大概百分之七十的人身体处于亚健康状态。而我国的人口老龄化问题也是非常突出,截至2018年底,我国六十岁以上老年人口约为2.5亿。人们对健康的需求日益增长,但与此同时,我国医疗资源面临很多问题,包括资源短缺、分布不均等问题。随着AI技术的飞速发展,人工智能作为辅助医疗已是大势所趋。
健康体检是以健康为中心的身体检查,是通过医学手段了解受检者的健康状况,早期发现疾病和健康隐患的诊疗行为。因此健康体检对老龄化、亚健康人群至关重要。体检机构拥有受检者的电子报告,而交到用户手中的是纸质版。纸质版的体检报告不易保存且易丢失,而且不同的机构的体检报告数据不通,体检又是长期的行为,个人及医院无法对不同机构的体检信息进行追踪和有效信息的挖掘。考虑到体检报告中有大量难懂的词汇,人们无法及时获取正确的健康干预。我国的健康体检市场规模在不断地增长,但庞大的市场下却没有合理地打通各个体检机构的数据。因此开发一款能够识别体检报告文字并提取关键词进行展示,告知用户哪里是应该健康干预的地方,并存储数据从中挖掘有效信息用于指导个人健康的系统,具有很好的应用场景。
光学字符识别(Optical Character Recognition,OCR)指的是利用电子设备将图像中的字符,通过图像处理与字符识别方法翻译成计算机文字的技术,被广泛应用于车牌识别、身份证识别、于写文字识别等现实生活中。当前OCR技术分为基于传统算法和基于深度学习的OCR技术。传统的OCR是基于图像处理和统计机器学习(比如SVM),其框架主要分为5个步骤:文字区域定位、文字图像矫正、行列分割、分类器识别和后处理。基于深度学习的文字识别技术分为文本区域检测和文字识别。文本区域检测和一般的目标检测不同,它作为一个序列,而非独立检测的目标。CTPN是当下主流的场景文本区域检测模型,采用BLSTM(双向LSTM)来提取文本字符在图像中的上下文信息,其网络使用VGG16,结构简单,方便迁移学习,训练得到的效果也很不错。Faster RCNN将文本视为一个Object,提取特征之后送入RPN做候选框以取,然后用分类器对候选框中的物体进行分类,但是效果不是很好。EAST实现了端到端的文本检测网络,借助了FCN的架构做特征提取和学习,网络分为特征提取层、特征融合层、输出层二个部分。市场上的OCR产品和现有的OCR方法的识别准确率都不高。
综上所述,现有技术存在的问题是:针对当下针对体检报告场景OCR文本分割与识别准确率不理想,后续处理较多,无法满足实际应用需求。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于神经网络的光学字符识别方法。
本发明解决其技术问题所采用的技术方案包括如下两个阶段:
步骤1、文本区域分割阶段:
利用基于形态学网络(MorphNN)对输入图像进行预处理,精确文本区域掩膜图像。
步骤2、文本识别阶段:
利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。
进一步的,步骤1所述的文本区域分割步骤如下:
2-1.将扫描得到的电于体检报告格式转化为图像格式,并对转换后的图像进一步转换成灰度图像;
2-2.将灰度图像输入给可训练的形态学网络(MorphNN),利用形态学网络对灰度图像进行模拟基于数学的形态学处理,膨胀腐蚀二值化图像,粗提取出文本区域图像;
进一步的,步骤2-2所述的形态学网络处理如下:
3-1.形态学网络由多个形态学网络单元组成,形态学网络单元包括腐蚀和膨胀网络单元,灰度图像输入给形态学网络处理,即作为腐蚀和膨胀网络单元的输入,经过形态学处理后得到消除噪声后的文本区域,如公式(1)和(2)所示
其中I是输入的灰度图像,WD是腐蚀结构化窗口,WE是膨胀结构化窗口,即WD与WE也是网络权重,通过不断反向传播优化计算WD与WE,WD与WE结果比较好时,即腐蚀与膨胀结构化窗口大小最优时;
3-2.形态学网络包括多层多条支路的单一形态学网络单元操作,每条支路权重都是独立的,即每条支路对应一种权重的形态学操作,多条支路可以合并;
3-3.网络架构中前两条支路实现如下:图像输入网络后,经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图,最后通过一个全连接层输出1个膨胀特征图Ip1,得到第一支路的权重WO;同样图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图,最后通过一个全连接层输出1个的8*8的腐蚀特征图Ip2,并得到第一支路的另一个权重Wp,这样再经过公式(3)可得到输出图像Ioutput:
3-4.网络总损失函数为:
Losstotal=DSSIM(Ioutput,Igt)+λMAE(Ioutput,Igt) (4)
其中,总损失为Losstotal,DSSIM(·)为基于SSIM(·)得出的一个距离度量指标,MAE(·)均方误差损失函数,Ioutput为预测输出图像,Igt为真实图像,λ为比例参数。
3-5.网络超参数设置为学习率为0.001,激活函数为Sigmoid函数,优化器使用Adam方法,冲量为0.83,批量大小设置为16,迭代次数设置为20000次;
进一步的,所述的文本识别阶段具体实现如下:
4-1.将形态学网络处理得到的精确文本区域输入到文本识别网络模型CRNN++;
4-2.CRNN++的处理过程如下:
CRNN++网络首先将输入的灰度图像按比例缩小到32xW;图像输入到网络后,首先经过卷积层提取特征,然后根据Map-to-Sequence将提取的特征向量化。最后利用CNN特征提取之后用RNN对序列进行预测,最后通过一个CTC翻译层得到最终结果。
4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层二部分组成。卷积层由四组双卷积操作,批标准化,最大池化组成.第一组的卷积核为3x3,步长为1,策略为valid和same,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略都为some,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第三组的卷积核为3x3,步长为1,策略为都为some,随后BN操作,最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3,步长为1,策略为valid和same,随后BN操作,最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列,将特征向量化,随后送入RNN进行训练。循环层使用的是两层各256单元的双向LSTM网络。转录层采用CTC。
4.4.CRNN++的总损失函数:
其中,yi代表循环层产生的概率预测序列,li代表输入图片,Ii代表真实标签序列。
4-5.CRNN++的超参数设置初始学习率为0.0001,激活函数为ReLU函数,优化器使用Adam方法,批大小设置为32,迭代次数设置为100次。
本发明有益效果如下:
本发明针对当下体检报告场景OCR文本分割与识别准确率比较理想;且能够满足实际应用需求。
本发明提出的方法可以快速提取出体验报告中的医疗文本,大大节省人工提取文本信息的时间,模块化型强,并且可使用小样本的数据集进行较快、有效地分割提取医疗文本信息,能够很好泛化到很多应用场景中。
附图说明
图1是本发明提出的CRNN++模型处理结构图;
图2是本发明提出的基于形态学网络的分割效果图;
图3是待处理的原图;
图4是本发明提出的基于形态学网络模型处理后掩膜效果图;
图5是本发明提出的基于形态学网络模型处理后的文本区域分割图;
图6是本发明提出的CRNN++模型文字识别效果图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1-6所示,一种基于神经网络的光学字符识别方法,具体实现如下:
步骤1、文本区域分割阶段:
利用基于形态学网络(MorphNN)对输入图像进行预处理,精确文本区域掩膜图像。
步骤2、文本识别阶段:
利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。
进一步的,步骤1所述的文本区域分割步骤如下:
2-1.将扫描得到的电了体检报告格式转化为图像格式,并对转换后的图像进一步转换成灰度图像;
2-2.将灰度图像输入给可训练的形态学网络(MorphNN),利用形态学网络对灰度图像进行模拟基于数学的形态学处理,膨胀腐蚀二值化图像,粗提取出文本区域图像;
进一步的,步骤2-2所述的形态学网络处理如下:
3-1.形态学网络由多个形态学网络单元组成,形态学网络单元包括腐蚀和膨胀网络单元,灰度图像输入给形态学网络处理,即作为腐蚀和膨胀网络单元的输入,经过形态学处理后得到消除噪声后的文本区域,如公式(1)和(2)所示
其中I是输入的灰度图像,WD是腐蚀结构化窗口,WE是膨胀结构化窗口,即WD与WE也是网络权重,通过不断反向传播优化计算WD与WE,WD与WE结果比较好时,即腐蚀与膨胀结构化窗口大小最优时;
3-2.形态学网络包括多层多条支路的单一形态学网络单元操作,每条支路权重都是独立的,即每条支路对应一种权重的形态学操作,多条支路可以合并;
3-3.网络架构中前两条支路实现如下:图像输入网络后,经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图,最后通过一个全连接层输出1个膨胀特征图Ip1,得到第一支路的权重Wo;同样图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图,最后通过一个全连接层输出1个的8*8的腐蚀特征图Ip2,并得到第一支路的另一个权重Wp,这样再经过公式(3)可得到输出图像Ioutput:
3-4.网络总损失函数为:
Losstotal=DSSIM(Ioutput,Igt)+λMAE(Ioutput,Igt) (4)
其中,总损失为Losstotal,DSSIM(·)为基于SSIM(·)得出的一个距离度量指标,MAE(·)均方误差损失函数,Ioutput为预测输出图像,Igt为真实图像,λ为比例参数。
3-5.网络超参数设置为学习率为0.001,激活函数为Signoid函数,优化器使用Adam方法,冲量为0.83,批量大小设置为16,迭代次数设置为20000次;
进一步的,所述的文本识别阶段具体实现如下:
4-1.将形态学网络处理得到的精确文本区域输入到文本识别网络模型CRNN++;
4-2.CRNN++的处理过程如下:
CRNN++网络首先将输入的灰度图像按比例缩小到32xW;图像输入到网络后,首先经过卷积层提取特征,然后根据Map-to-Sequence将提取的特征向量化。最后利用CNN特征提取之后用RNN对序列进行预测,最后通过一个CTC翻译层得到最终结果。
4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层三部分组成。卷积层由四组双卷积操作,批标准化,最大池化组成.第一组的卷积核为3x3,步长为1,策略为valid和same,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略都为some,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第三组的卷积核为3x3,步长为1,策略为都为some,随后BN操作,最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3,步长为1,策略为valid和same,随后BN操作,最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列,将特征向量化,随后送入RNN进行训练。循环层使用的是两层各256单元的双向LSTM网络。转录层采用CTC。
4.4.CRNN++的总损失函数:
其中,yi代表循环层产生的概率预测序列,li代表输入图片,Ii代表真实标签序列。
4-5.CRNN++的超参数设置初始学习率为0.0001,激活函数为ReLU函数,优化器使用Adam方法,批大小设置为32,迭代次数设置为100次。
Claims (4)
1.一种基于神经网络的光学字符识别方法,其特征在于包括如下步骤:
步骤1、文本区域分割阶段:
利用基于形态学网络对输入图像进行预处理,精确文本区域掩膜图像;
步骤2、文本识别阶段:
利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。
2.根据权利要求1所述的一种基于神经网络的光学字符识别方法,其特征在于步骤1所述的文本区域分割步骤如下:
2-1.将扫描得到的电了体检报告格式转化为图像格式,并对转换后的图像进一步转换成灰度图像;
2-2.将灰度图像输入给可训练的形态学网络(MorphNN),利用形态学网络对灰度图像进行模拟基于数学的形态学处理,膨胀腐蚀二值化图像,粗提取出文本区域图像。
3.根据权利要求2所述的一种基于神经网络的光学字符识别方法,其特征在于步骤2-2所述的形态学网络处理如下:
3-1.形态学网络由多个形态学网络单元组成,形态学网络单元包括腐蚀和膨胀网络单元,灰度图像输入给形态学网络处理,即作为腐蚀和膨胀网络单元的输入,经过形态学处理后得到消除噪声后的文本区域,如公式(1)和(2)所示
其中I是输入的灰度图像,WD是腐蚀结构化窗口,WE是膨胀结构化窗口,即WD与WE也是网络权重,通过不断反向传播优化计算WD与WE,WD与WE结果比较好时,即腐蚀与膨胀结构化窗口大小最优时;
3-2.形态学网络包括多层多条支路的单一形态学网络单元操作,每条支路权重部是独立的,即每条支路对应一种权重的形态学操作,多条支路可以台并;
3-3.网络架构中前两条支路实现如下:图像输入网络后,经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图,最后通过一个全连接层输出1个膨胀特征图Ip1,得到第一支路的权重Wo;同杆图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图,最后通过一个全连接层输出1个的8*8的腐蚀特征图Ip2,并得到第一支路的另一个权重Wp,这样再经过公式(3)可得到输出图像Ioutput:
3-4.网络总损失函数为:
Losstotal=DSSIM(Ioutput,Igt)+λMAE(Ioutput,Igt) (4)
其中,总损失为Losstotal,DSSIM(·)为基于SSIM(·)得出的一个距离度量指标,MAE(·)均方误差损失函数,Ioutput为预测输出图像,Igt为真实图像,λ为比例参数;
3-5.网络超参数设置为学习率为0.001,激活函数为Sigmoid函数,优化器使用Adam方法,冲量为0.83,批量大小设置为16,迭代次数设置为20000次。
4.根据权利要求3所述的一种基于神经网络的光学字符识别方法,其特征在于所述的文本识别阶段具体实现如下:
4-1.将形态学网络处理得到的精确文本区域输入到文本识别网络模型CRNN++;
4-2.CRNN++的处理过程如下:
CRNN++网络首先将输入的灰度图像按比例缩小到32xW;图像输入到网络后,首先经过卷积层提取特征,然后根据Map-to-Sequence将提取的特征向量化;最后利用CNN特征提取之后用RNN对序列进行预测,最后通过个CTC翻译层得到最终结果;
4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层二部分组成;卷积层由四组双卷积操作,批标准化,最大池化组成.第一组的卷积核为3x3,步长为1,策略为valid和same,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略都为some,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略为部为some,随后BN操作,最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3,步长为1,策略为valid和same,随后BN操作,最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列,将特征向量化,随后送入RNN进行训练;循环层使用的是两层各256单元的双向LSTM网络;转录层采用CTC;
4.4.CRNN++的总损失函数:
其中,yi代表循环层产生的概率预测序列,li代表输入图片,Ii代表真实标签序列;
4-5.CRNN++的超参数设置初始学习率为0.0001,激活函数为ReLU函数,优化器使用Adam方法,批大小设置为32,迭代次数设置为100次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011135516.9A CN112348007B (zh) | 2020-10-21 | 2020-10-21 | 一种基于神经网络的光学字符识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011135516.9A CN112348007B (zh) | 2020-10-21 | 2020-10-21 | 一种基于神经网络的光学字符识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348007A true CN112348007A (zh) | 2021-02-09 |
CN112348007B CN112348007B (zh) | 2023-12-19 |
Family
ID=74359608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011135516.9A Active CN112348007B (zh) | 2020-10-21 | 2020-10-21 | 一种基于神经网络的光学字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348007B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113647920A (zh) * | 2021-10-21 | 2021-11-16 | 青岛美迪康数字工程有限公司 | 读取监护设备中生命体征数据的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096821A (zh) * | 2010-04-15 | 2011-06-15 | 西安理工大学 | 基于复杂网络理论的强干扰环境下的车牌识别方法 |
CN103678598A (zh) * | 2013-12-12 | 2014-03-26 | 成都术有科技有限公司 | 基于Gerber文档内建建标的电路板精准检测方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109447080A (zh) * | 2018-11-12 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种字符识别方法及装置 |
CN110674777A (zh) * | 2019-09-30 | 2020-01-10 | 电子科技大学 | 一种专利文本场景下的光学字符识别方法 |
CN111428718A (zh) * | 2020-03-30 | 2020-07-17 | 南京大学 | 一种基于图像增强的自然场景文本识别方法 |
-
2020
- 2020-10-21 CN CN202011135516.9A patent/CN112348007B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096821A (zh) * | 2010-04-15 | 2011-06-15 | 西安理工大学 | 基于复杂网络理论的强干扰环境下的车牌识别方法 |
CN103678598A (zh) * | 2013-12-12 | 2014-03-26 | 成都术有科技有限公司 | 基于Gerber文档内建建标的电路板精准检测方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109447080A (zh) * | 2018-11-12 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种字符识别方法及装置 |
CN110674777A (zh) * | 2019-09-30 | 2020-01-10 | 电子科技大学 | 一种专利文本场景下的光学字符识别方法 |
CN111428718A (zh) * | 2020-03-30 | 2020-07-17 | 南京大学 | 一种基于图像增强的自然场景文本识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113647920A (zh) * | 2021-10-21 | 2021-11-16 | 青岛美迪康数字工程有限公司 | 读取监护设备中生命体征数据的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112348007B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN111832546B (zh) | 一种轻量级自然场景文本识别方法 | |
Zhu et al. | Image captioning with triple-attention and stack parallel LSTM | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN113011243A (zh) | 基于胶囊网络的面部表情分析方法 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
CN110136113B (zh) | 一种基于卷积神经网络的阴道病理图像分类方法 | |
CN112348007A (zh) | 一种基于神经网络的光学字符识别方法 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
CN115937590A (zh) | 一种并联融合CNN和Transformer的皮肤病图像分类方法 | |
CN116047418A (zh) | 基于小样本的多模态雷达有源欺骗干扰识别方法 | |
CN114997331A (zh) | 基于度量学习的小样本关系分类方法及系统 | |
CN114020917A (zh) | 基于自注意力机制与卷积神经网络的新闻文本分类方法 | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
CN113139464A (zh) | 一种电网故障检测方法 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |