CN112348007A

CN112348007A - 一种基于神经网络的光学字符识别方法

Info

Publication number: CN112348007A
Application number: CN202011135516.9A
Authority: CN
Inventors: 袁浩; 刘复昌
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-02-09
Anticipated expiration: 2040-10-21
Also published as: CN112348007B

Abstract

本发明公开了一种基于神经网络的光学字符识别方法。本发明具体实现步骤如下：步骤1、文本区域分割阶段：利用基于形态学网络对输入图像进行预处理，精确文本区域掩膜图像。步骤2、文本识别阶段：利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。本发明提出的方法可以快速提取出体验报告中的医疗文本，大大节省人工提取文本信息的时间，模块化型强，并且可使用小样本的数据集进行较快、有效地分割提取医疗文本信息，能够很好泛化到很多应用场景中。

Description

一种基于神经网络的光学字符识别方法

技术领域

本发明涉及文字识别领域，具体公开一种基于形态学网络(MorphNN)的文本分割技术和基于CRNN++文本识别技术。提供一种基于神经网络的光学字符识别方法。

背景技术

随着物质生活水平的不断提高，人们对自身的健康越来越重视。据国家统计局的相关数据显示，2018年我国大城市的工薪阶层中，有大概百分之七十的人身体处于亚健康状态。而我国的人口老龄化问题也是非常突出，截至2018年底，我国六十岁以上老年人口约为2.5亿。人们对健康的需求日益增长，但与此同时，我国医疗资源面临很多问题，包括资源短缺、分布不均等问题。随着AI技术的飞速发展，人工智能作为辅助医疗已是大势所趋。

健康体检是以健康为中心的身体检查，是通过医学手段了解受检者的健康状况，早期发现疾病和健康隐患的诊疗行为。因此健康体检对老龄化、亚健康人群至关重要。体检机构拥有受检者的电子报告，而交到用户手中的是纸质版。纸质版的体检报告不易保存且易丢失，而且不同的机构的体检报告数据不通，体检又是长期的行为，个人及医院无法对不同机构的体检信息进行追踪和有效信息的挖掘。考虑到体检报告中有大量难懂的词汇，人们无法及时获取正确的健康干预。我国的健康体检市场规模在不断地增长，但庞大的市场下却没有合理地打通各个体检机构的数据。因此开发一款能够识别体检报告文字并提取关键词进行展示，告知用户哪里是应该健康干预的地方，并存储数据从中挖掘有效信息用于指导个人健康的系统，具有很好的应用场景。

光学字符识别(Optical Character Recognition，OCR)指的是利用电子设备将图像中的字符，通过图像处理与字符识别方法翻译成计算机文字的技术，被广泛应用于车牌识别、身份证识别、于写文字识别等现实生活中。当前OCR技术分为基于传统算法和基于深度学习的OCR技术。传统的OCR是基于图像处理和统计机器学习(比如SVM)，其框架主要分为5个步骤：文字区域定位、文字图像矫正、行列分割、分类器识别和后处理。基于深度学习的文字识别技术分为文本区域检测和文字识别。文本区域检测和一般的目标检测不同，它作为一个序列，而非独立检测的目标。CTPN是当下主流的场景文本区域检测模型，采用BLSTM(双向LSTM)来提取文本字符在图像中的上下文信息，其网络使用VGG16，结构简单，方便迁移学习，训练得到的效果也很不错。Faster RCNN将文本视为一个Object，提取特征之后送入RPN做候选框以取，然后用分类器对候选框中的物体进行分类，但是效果不是很好。EAST实现了端到端的文本检测网络，借助了FCN的架构做特征提取和学习，网络分为特征提取层、特征融合层、输出层二个部分。市场上的OCR产品和现有的OCR方法的识别准确率都不高。

综上所述，现有技术存在的问题是：针对当下针对体检报告场景OCR文本分割与识别准确率不理想，后续处理较多，无法满足实际应用需求。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于神经网络的光学字符识别方法。

本发明解决其技术问题所采用的技术方案包括如下两个阶段：

步骤1、文本区域分割阶段：

利用基于形态学网络(MorphNN)对输入图像进行预处理，精确文本区域掩膜图像。

步骤2、文本识别阶段：

利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。

进一步的，步骤1所述的文本区域分割步骤如下：

2-1.将扫描得到的电于体检报告格式转化为图像格式，并对转换后的图像进一步转换成灰度图像；

2-2.将灰度图像输入给可训练的形态学网络(MorphNN)，利用形态学网络对灰度图像进行模拟基于数学的形态学处理，膨胀腐蚀二值化图像，粗提取出文本区域图像；

进一步的，步骤2-2所述的形态学网络处理如下：

3-1.形态学网络由多个形态学网络单元组成，形态学网络单元包括腐蚀和膨胀网络单元，灰度图像输入给形态学网络处理，即作为腐蚀和膨胀网络单元的输入，经过形态学处理后得到消除噪声后的文本区域，如公式(1)和(2)所示

其中I是输入的灰度图像，W_D是腐蚀结构化窗口，W_E是膨胀结构化窗口，即W_D与W_E也是网络权重，通过不断反向传播优化计算W_D与W_E，W_D与W_E结果比较好时，即腐蚀与膨胀结构化窗口大小最优时；

3-2.形态学网络包括多层多条支路的单一形态学网络单元操作，每条支路权重都是独立的，即每条支路对应一种权重的形态学操作，多条支路可以合并；

3-3.网络架构中前两条支路实现如下：图像输入网络后，经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图，最后通过一个全连接层输出1个膨胀特征图I_p1，得到第一支路的权重W_O；同样图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图，最后通过一个全连接层输出1个的8*8的腐蚀特征图I_p2，并得到第一支路的另一个权重W_p，这样再经过公式(3)可得到输出图像I_output：

3-4.网络总损失函数为：

Loss_total＝DSSIM(I_output，I_gt)+λMAE(I_output，I_gt) (4)

其中，总损失为Loss_total，DSSIM(·)为基于SSIM(·)得出的一个距离度量指标，MAE(·)均方误差损失函数，I_output为预测输出图像，I_gt为真实图像，λ为比例参数。

3-5.网络超参数设置为学习率为0.001，激活函数为Sigmoid函数，优化器使用Adam方法，冲量为0.83，批量大小设置为16，迭代次数设置为20000次；

进一步的，所述的文本识别阶段具体实现如下：

4-1.将形态学网络处理得到的精确文本区域输入到文本识别网络模型CRNN++；

4-2.CRNN++的处理过程如下：

CRNN++网络首先将输入的灰度图像按比例缩小到32xW；图像输入到网络后，首先经过卷积层提取特征，然后根据Map-to-Sequence将提取的特征向量化。最后利用CNN特征提取之后用RNN对序列进行预测，最后通过一个CTC翻译层得到最终结果。

4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层二部分组成。卷积层由四组双卷积操作，批标准化，最大池化组成.第一组的卷积核为3x3，步长为1，策略为valid和same，随后批标准化操作，最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3，步长为1，策略都为some，随后批标准化操作，最后的最大池化层窗口尺寸为2x2.第三组的卷积核为3x3，步长为1，策略为都为some，随后BN操作，最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3，步长为1，策略为valid和same，随后BN操作，最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列，将特征向量化，随后送入RNN进行训练。循环层使用的是两层各256单元的双向LSTM网络。转录层采用CTC。

4.4.CRNN++的总损失函数：

其中，y_i代表循环层产生的概率预测序列，l_i代表输入图片，I_i代表真实标签序列。

4-5.CRNN++的超参数设置初始学习率为0.0001，激活函数为ReLU函数，优化器使用Adam方法，批大小设置为32，迭代次数设置为100次。

本发明有益效果如下：

本发明针对当下体检报告场景OCR文本分割与识别准确率比较理想；且能够满足实际应用需求。

本发明提出的方法可以快速提取出体验报告中的医疗文本，大大节省人工提取文本信息的时间，模块化型强，并且可使用小样本的数据集进行较快、有效地分割提取医疗文本信息，能够很好泛化到很多应用场景中。

附图说明

图1是本发明提出的CRNN++模型处理结构图；

图2是本发明提出的基于形态学网络的分割效果图；

图3是待处理的原图；

图4是本发明提出的基于形态学网络模型处理后掩膜效果图；

图5是本发明提出的基于形态学网络模型处理后的文本区域分割图；

图6是本发明提出的CRNN++模型文字识别效果图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-6所示，一种基于神经网络的光学字符识别方法，具体实现如下：

步骤1、文本区域分割阶段：

步骤2、文本识别阶段：

进一步的，步骤1所述的文本区域分割步骤如下：

2-1.将扫描得到的电了体检报告格式转化为图像格式，并对转换后的图像进一步转换成灰度图像；

进一步的，步骤2-2所述的形态学网络处理如下：

3-4.网络总损失函数为：

Loss_total＝DSSIM(I_output，I_gt)+λMAE(I_output，I_gt) (4)

3-5.网络超参数设置为学习率为0.001，激活函数为Signoid函数，优化器使用Adam方法，冲量为0.83，批量大小设置为16，迭代次数设置为20000次；

进一步的，所述的文本识别阶段具体实现如下：

4-2.CRNN++的处理过程如下：

4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层三部分组成。卷积层由四组双卷积操作，批标准化，最大池化组成.第一组的卷积核为3x3，步长为1，策略为valid和same，随后批标准化操作，最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3，步长为1，策略都为some，随后批标准化操作，最后的最大池化层窗口尺寸为2x2.第三组的卷积核为3x3，步长为1，策略为都为some，随后BN操作，最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3，步长为1，策略为valid和same，随后BN操作，最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列，将特征向量化，随后送入RNN进行训练。循环层使用的是两层各256单元的双向LSTM网络。转录层采用CTC。

4.4.CRNN++的总损失函数：

Claims

1.一种基于神经网络的光学字符识别方法，其特征在于包括如下步骤：

步骤1、文本区域分割阶段：

利用基于形态学网络对输入图像进行预处理，精确文本区域掩膜图像；

步骤2、文本识别阶段：

2.根据权利要求1所述的一种基于神经网络的光学字符识别方法，其特征在于步骤1所述的文本区域分割步骤如下：

2-2.将灰度图像输入给可训练的形态学网络(MorphNN)，利用形态学网络对灰度图像进行模拟基于数学的形态学处理，膨胀腐蚀二值化图像，粗提取出文本区域图像。

3.根据权利要求2所述的一种基于神经网络的光学字符识别方法，其特征在于步骤2-2所述的形态学网络处理如下：

3-2.形态学网络包括多层多条支路的单一形态学网络单元操作，每条支路权重部是独立的，即每条支路对应一种权重的形态学操作，多条支路可以台并；

3-3.网络架构中前两条支路实现如下：图像输入网络后，经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图，最后通过一个全连接层输出1个膨胀特征图I_p1，得到第一支路的权重W_o；同杆图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图，最后通过一个全连接层输出1个的8*8的腐蚀特征图I_p2，并得到第一支路的另一个权重W_p，这样再经过公式(3)可得到输出图像I_output：

3-4.网络总损失函数为：

Loss_total＝DSSIM(I_output，I_gt)+λMAE(I_output，I_gt) (4)

其中，总损失为Loss_total，DSSIM(·)为基于SSIM(·)得出的一个距离度量指标，MAE(·)均方误差损失函数，I_output为预测输出图像，I_gt为真实图像，λ为比例参数；

3-5.网络超参数设置为学习率为0.001，激活函数为Sigmoid函数，优化器使用Adam方法，冲量为0.83，批量大小设置为16，迭代次数设置为20000次。

4.根据权利要求3所述的一种基于神经网络的光学字符识别方法，其特征在于所述的文本识别阶段具体实现如下：

4-2.CRNN++的处理过程如下：

CRNN++网络首先将输入的灰度图像按比例缩小到32xW；图像输入到网络后，首先经过卷积层提取特征，然后根据Map-to-Sequence将提取的特征向量化；最后利用CNN特征提取之后用RNN对序列进行预测，最后通过个CTC翻译层得到最终结果；

4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层二部分组成；卷积层由四组双卷积操作，批标准化，最大池化组成.第一组的卷积核为3x3，步长为1，策略为valid和same，随后批标准化操作，最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3，步长为1，策略都为some，随后批标准化操作，最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3，步长为1，策略为部为some，随后BN操作，最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3，步长为1，策略为valid和same，随后BN操作，最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列，将特征向量化，随后送入RNN进行训练；循环层使用的是两层各256单元的双向LSTM网络；转录层采用CTC；

4.4.CRNN++的总损失函数：

其中，y_i代表循环层产生的概率预测序列，l_i代表输入图片，I_i代表真实标签序列；