CN111523537A

CN111523537A - 一种文字识别方法、存储介质及系统

Info

Publication number: CN111523537A
Application number: CN202010286682.2A
Authority: CN
Inventors: 焦圣棚; 朱涛; 任浩
Original assignee: Lianxun Yikang Medical Information Technology Wuhan Co ltd
Current assignee: Lianxun Yikang Medical Information Technology Wuhan Co ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-11

Abstract

本发明涉及一种文字识别方法，所述文字识别方法包括步骤：采集多个医生书写的病例档案图片，并将采集的病例档案图片汇集为数据集；对数据集进行图像增强处理及图像形态学处理，以突出数据集中文字的字迹特征，并将每个数据集中的字迹特征进行训练，然后对字迹特征进行数据扩增，利用YOLO神经网络提取所有病例档案所拍摄的图片中的字迹特征，生成相应的文字模型，通过将文字图片作为文字模型的输入计算文字所属哪一个汉字，以识别病例档案上的文字，并将识别到的文字转换为电子文档。本发明还包括存储介质及文字识别系统，通过文字识别方法、存储介质及系统，可将手写的病例档案转换为电子文档。

Description

一种文字识别方法、存储介质及系统

技术领域

本发明涉及文字识别，尤其涉及一种文字识别方法、存储介质及系统。

背景技术

病人去医院就诊时，医生通常是通过处方开具治疗方案，并通过病例记载就诊的过程。然而医生在书写病历和处方时大都字迹潦草、难以辨识，导致普通人根本难以阅读其内容，即便是同行，阅读这些文字都较困难。医生字迹潦草早已饱受诟病，潦草的病历和处方会造成用药错误等医疗事故，一旦发生医疗事故，往往后果严重；其次潦草的字迹会给临床研究带来不便。随着国内医疗信息化的推进，大部分医院推行电子病历，潦草的字迹逐步被电子文档所取代，但是各个医院都保存了大量的手写病历档案文件，故还需要将大量手写的病例档案文件转换为电子文档，但是潦草的字迹对转换工作造成不便，容易出现转换错误的情况。

发明内容

为克服在转换手写病例成为电子文档时，由于字迹潦草而导致转换错误的问题,本发明提供一种文字识别方法。

本发明解决技术问题的技术方案是提供一种文字识别方法，所述文字识别方法包括步骤：采集多个医生书写的病例档案图片，并将所述病例档案的多张图片汇聚成数据集；对所述数据集进行图像增强处理及图像形态学处理，以突出所述数据集中文字的字迹特征，消除噪声，并将每个所述数据集中的所述字迹特征进行训练，生成与该文字对应的文字模型，且在训练的过程中对所述字迹特征进行数据扩增，以防止训练过程中出现过拟合；通过YOLO神经网络提取所有所述病例档案所拍摄的图片中的所述字迹特征，对图片中的所述字迹特征进行识别，且将识别到的所述字迹特征与所述文字模型进行比对，以识别病例档案上的文字，并将识别到的所述文字转换为电子文档。

本发明还提供一存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行文字识别方法。

本发明还提供一种文字识别系统，所述文字识别系统包括处理器和存储器,所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现文字识别方法。

与现有技术相比，本发明所提供的文字识别方法、存储介质及系统具有以下优点：

通过利用YOLO识别手写文字的图片，相比传统算法仅仅不使用深度学习的方法获得更好的性能和更高的识别率。应用该方法对潦草字迹进行识别将降低错误识字的概率和提高医生对病历等手写文档的阅读效率。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

附图说明

图1为本发明第一实施例提供的一种文字识别方法的流程示意图；

图2为图1步骤S2中图像形态学处理的原理示意图；

图3为YOLO的网络结构示意图；

图4为图1中步骤S2的子流程示意图；

图5为图1中步骤S3之前的子步骤流程示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1-3，本发明提供的文字识别方法，其包括步骤：

S1，采集多个医生书写的病例档案图片，并将所采集的病例档案图片汇聚成数据集。

具体的，通过拍照的方式，将多个不同医生手写的病例档案拍摄成图片的形式，使用标注软件对图片中的各个文字进行标注，使得后续对所有病例档案上该文字的识别。

以一个具体例子作为说明，利用摄像头或相机之类的设备对多份病例档案进行拍照。在拍照后，获取了多张图片，且一张图片内有多个文字。使用标注软件对图片中出现的文字进行标注，即标注出图片中的文字是哪个汉字和该文字所处图片中的位置。将多张图片汇聚为一个数据集。

需要说明的是，数据集中的图片中出现的所有文字可以不必全部标注出，在有些病例档案中的文字完全无法识别的情况下，标注病例档案中可识别的文字形成数据集即可。如，病例档案中有些书写的字迹实际上为“患”字，但由于书写的过于潦草，在形成数据集的时候无法确定该文字是否为“患”字，则不标注该文字。只需要将病例档案中，可以识别的不同字迹标注即可。

可以理解，数据集并不是一张图片，而是多种图片的集合，例如每一张病例的图片汇集为一个数据集。

S2，对数据集进行图像增强处理及图像形态学处理，以突出数据集中文字的字迹特征，消除噪声，并将每个数据集中的字迹特征进行训练，生成与该文字对应的文字模型，且在训练的过程中对字迹特征进行数据扩增，以防止训练过程中出现过拟合。

具体的，在获取了数据集的图片后，对数据集合的图片进行图像增强、形态学图像处理的方法进行预处理。分别对数据集的图片进行灰度化处理然后进行图像增强处理，以突出数据集中的字迹特征，即字迹的轮廓，使得字迹更加清晰和明显。然后对经过图像增强后的图片进行图像形态学处理，以对图片中字迹进行腐蚀或膨胀处理，从而消除图片中除了字迹轮廓外的噪声，以便于对数据集中的字迹进行识别。在突出字迹特征及消除噪声后，对字迹特征进行数据扩增，以防止在训练模型时出现过拟合。最后将字迹特征放入神经网络中进行训练，以得到对应的文字模型，通过将文字图片作为输入放入文字模型进行分类识别，可判断出该文字被分类为哪一个文字。

可以理解，字迹特征即为文字的轮廓，文字模型即为经过训练后的包含各种权重、偏差值和参数的神经网络，将经过消除噪声的文字图片输入文字模型，通过将图片中的像素点与神经网络中的权重值等进行计算，然后文字模型中的分类器会判断输入的图片中是哪一个汉字。

以一个具体例子作为说明，数据集的图片中除了字迹的轮廓外，字迹与字迹之间还具有间隔的空白区域，由于拍摄的问题、病例档案本身颜色的为题，字迹与空白区域的色差差别可能不大。如，拍摄时光线较弱或病例档案放置时间过久导致纸张发黄，从而使得字迹的颜色与纸张颜色的色差不大。这样就无法清晰的呈现出图片中的字迹特征，即每个字迹的轮廓。通过将图片灰度化处理，然后使用图像增强方法以增大图片中字迹轮廓与空白区域之间的色差，从而使得数据集图片中每个字迹的轮廓可以清晰的被呈现，实现增强字迹特征的目的。在字迹特征被增强后，由于病例档案存放时间过久或着病例档案被污染的情况，字迹轮廓可能存在一些噪声。如，有些病例档案保存不当，造成病例档案上出现发霉的霉点，该霉点刚好处于字迹轮廓上，则这种影响字迹识别的特征则为噪声。通过图像形态学处理的膨胀或腐蚀处理，可消除影响字迹特征的噪声，从而提高字迹特征识别的准确度。

在通过处理后，将每个数据集中的字迹特征放入神经网络中进行学习，得到包含各种权重、偏差值和参数的神经网络可称之为文字模型。且由于病例档案的数据量较少，导致一个数据集中的数据量较少，所以在训练前，要先对数据集进行数据扩增处理，从而避免由于数据量较少，导致在训练中产生过拟合现象，影响文字模型的准确度。

需说明的是，数据扩增(Data Augmentation)是在深度学习中，由于数据量不够大时，通过使用图像的几何变换来增加数据的输入量，如旋转、反射变换(Rotation/reflection):随机旋转图像一定角度；改变图像内容的朝向；翻转变换(flip):沿着水平或者垂直方向翻转图像；缩放变换(zoom):按照一定的比例放大或者缩小图像；平移变换(shift):在图像平面上对图像以一定方式进行平移等方式增加数据的输入量。

过拟合是一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象，出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

需说明的是，图像形态学处理的实际操作即改变物体的形态，如腐蚀即将字迹轮廓变细，膨胀即将字迹轮廓变粗。在本实施例中，当字迹轮廓的周边存在霉点时，先通过腐蚀将字迹轮廓变细，以使字迹轮廓与霉点分离，消除霉点后再通过膨胀将字迹轮廓变粗，即可消除霉点对字迹轮廓的干扰。

S3，利用YOLO神经网络提取所有病例档案所拍摄的图片中的字迹特征，通过YOLO神经网络计算图片中出现的文字所属哪个汉字的概率，以识别病例档案上的文字，并将识别到的文字转换为电子文档。

具体的，在建立好文字模型后，利用YOLO神经网络提取所有病例档案图片中的字迹特征，即将图像形态学处理后的图片中的每一个像素值作为文字模型的输入，通过与文字模型中的权重等值的计算结果作为神经网络的分类器的输入然后计算出分类结果，并将该文字以电子文档的形式保存，从而将纸质的病例档案全部转换为电子文档。

需要说明的是，YOLO(You Only Look Once)是一种运用卷积神经网络对被检测物进行对象识别和定位的算法。传统的对图片进行特征是被通常分为两个步骤：1、找出图中候选区域，其可能存在某个对象；2、识别出这个对象具体是什么。

而YOLO则是将候选区和对象识别这两个阶段合二为一，使得检测速度大大提升。YOLO首先将输入图片划分为S*S个网格(grid)，如果某个目标的中心落入该网格中那么这个网格就负责预测这个目标的大小和类别，然后每个网格预测B个边框(bounding box，包含某个对象的矩形框)和边框的置信值(confidence)，bounding box预测物体的位置，confidence反映网格包含目标的概率，总共S*S*B个bounding box。YOLO的结构简单由卷积层、池化层和最后的两层全连接层构成，简单来说就是经过神经网络的变换将输入图片转化为一个输出的张量，其输出为一个S*S*D的张量(tensor)，即输入图像中的每一个网格对应输出一个D维的向量。每个D维向量包含N个对象的概率，B个bounding box的置信度，B个bounding box的位置。这里N个对象是指训练集中不同汉字的个数，N个对象的概率是指任意一对象的中心点在该网格中的概率,为：

P(C₁|Qb_ject)，...P(C_t|Qbject)，...P(C_N|Qbject)

每个bounding box用4个数值表示其位置，中心点坐标(x,y),宽度，高度，B个bounding box共需要B*4个数值来表示其位置。Bounding box的置信度为：

故D维向量＝N个对象的概率+B个bounding box*4个坐标+B个bounding box的置信度。

YOLO网络包括24个卷积层和2个全连接层，卷积层用来提取图像特征，全连接层用来预测图像位置和类别概率值。YOLO借鉴了GoogLeNet网络，但YOLO未使用inception，而是使用1x1卷积层+3x3卷积层简单替代。在对YOLO训练时将输入图片尺寸设置为448*448。然后计算网络实际输出值与样本标签值之间的偏差即损失函数(Loss)，其目的是让坐标(bounding box中心点坐标，宽和高)，confidence，分类这个三个方面达到很好的平衡。YOLO采用sum-squared error(误差的平方的和)来作为loss进行优化。训练好的YOLO网络，输入一张图片，将输出一个S*S*D的张量(tensor)来表示图片中所有网格包含的对象(概率)以及该对象可能的B个位置(bounding box)和可信程度(置信度)。为了从中提取出最有可能的那些对象和位置，YOLO采用NMS(Non-maximal suppression，非极大值抑制)算法。最后输入YOLO网络的手写图片将被标记和定位。得益于将识别和定位二合一的网络设计使得YOLO处理图片的速度非常快，也使得训练和预测可以端到端进行。

以一个具体例子作为说明，当病例档案的图片被放入到YOLO中后，YOLO先将图片分割为S*S个网格，图片中每个字迹被视作一个单独的特征，字迹的中心点落入到那个网格中，即使用该网格对中心点落入到该网格的字迹进行预测。从而提取该字迹的特征，并与文字模型进行比对，以将其转换为电子文档。

需说明的是，转换为电子文档即将手写的字体识别出具体是哪个文字后，转换为电子书写体。

请参阅图4，步骤S2包括子步骤：

S21，将数据集转换为灰度图；

具体的，将通过拍摄得到的图片进行灰度处理，以突出字迹特征，增加字迹特征与背景之间的色差。

S22，将灰度处理后的字迹特征进行图像形态学处理，消除噪声；

具体的，通过先腐蚀后膨胀的开闭算法，先将文字轮廓与噪声分离，消除噪声后，再增大文字轮廓的尺寸，从而得到准确的文字轮廓。

S23，将消除噪声后的字迹特征进行数据扩增，然后进行训练，得到文字模型；

具体的，将数据集中的字迹特征进行数据扩增，以增加训练的输入量，然后再进行训练，得到文字模型。

请参阅图5，步骤S3包括之前还包括步骤：

S30，将病例档案的图片进行图片增强及图像形态学处理；

具体的，在利用YOLO对病例档案的图片进行识别前，先将病例档案的图片进行图片增强及图像形态学处理，以突出病例档案的图片中的字迹特征，增强YOLO识别的准确度。具体图片增强及图像形态学处理的方法与步骤S2中对数据集处理的方式一致，在此不再赘述。

本发明还提供一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述方法步骤。存储介质可以包括如软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、XD卡等。

计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可以是个人计算机设备、服务器或其他网络设备等)用以执行本发明方法的全部或部分步骤。

本发明还提供一种文字识别系统，该文字识别系统包括处理器和存储器,存储器上存储有计算机程序，计算机程序被处理器执行时，实现文字识别方法。

Claims

1.一种文字识别方法，其特征在于，所述文字识别方法包括步骤：

采集多个医生书写的病例档案图片，并将所述病例档案图片中相同的文字汇集为数据集；

对所述数据集进行图像增强处理及图像形态学处理，以突出所述数据集中文字的字迹特征，消除噪声，在训练的过程中对所述字迹特征进行数据扩增，以防止训练过程中出现过拟合，然后就进行数据扩增后的数据集进行训练，生成与该文字对应的文字模型；

利用YOLO神经网络提取所有所述病例档案所拍摄的图片中的所述字迹特征，对图片中的所述字迹特征进行识别，通过计算所述字迹应该属于哪一个汉字的概率来识别病例档案上的文字，并将识别到的所述文字转换为电子文档。

2.如权利要求1所述的一种文字识别方法，其特征终于：

所述图像增强处理为将图片灰度化，以增加图片上所述字迹特征与图片的背景颜色之间的色差。

3.如权利要求1所述的一种文字识别方法，其特征终于：

所述图像形态学处理为先将所述字迹特征腐蚀，清楚掉所述噪声后再将所述字迹特征膨胀。

4.如权利要求1所述的一种文字识别方法，其特征终于：

所述字迹特征为文字的轮廓。

5.如权利要求1所述的一种文字识别方法，其特征在于：

所述数据集为不同病例档案的图片集合。

6.如权利要求5所述的一种文字识别方法，其特征在于：

所述病例档案的图片汇集形成所述数据集。

7.如权利要求1所述的一种文字识别方法，其特征在于，所述对所述数据集进行图像增强处理及图像形态学处理，以突出所述数据集中文字的字迹特征，消除噪声，并将每个所述数据集中的所述字迹特征进行训练，生成与该文字对应的文字模型，且在训练的过程中对所述字迹特征进行数据扩增，以防止训练过程中出现过拟合包括子步骤：

将所述文字转换为灰度图；

将灰度处理后的所述文字进行图像增强方法处理然后进行图像形态学处理，消除噪声；及

将消除噪声后的所述字迹特征进行数据数据扩增，然后进行训练，得到所述文字模型。

8.如权利要求1所述的一种文字识别方法，其特征在于，所述利用YOLO神经网络提取所有所述病例档案所拍摄的图片中的所述字迹特征，对图片中的所述字迹特征进行识别，且将识别到的所述字迹特征通过神经网络的计算，以识别病例档案上的文字，并将识别到的所述文字转换为电子文档之前还包括步骤：

将所述病例档案的图片进行图片增强及图像形态学处理。

9.一种存储介质，其特征在于：

所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1-8中任一项中所述的文字识别方法。

10.一种文字识别系统，其特征在于：

所述文字识别系统包括处理器及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行，实现如权利要求1-8所述的文字识别方法。