CN113177899A

CN113177899A - 医药影印件文本倾斜矫正方法、电子设备和可读储存介质

Info

Publication number: CN113177899A
Application number: CN202110572119.6A
Authority: CN
Inventors: 吴海文; 周日贵
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-07-27

Abstract

本发明提供了一种医药影印件文本倾斜矫正方法，包括如下步骤：获取待矫正医药影印件文本图像；确定所述待矫正医药影印件文本图像的类别，若所述待矫正医药影印件文本图像不含有矩形文本边界但含有直线，则为第一类文本图像，若所述矫正医药影印件文本图像含有矩形文本边界，则为第二类文本图像，若所述待矫正医药影印件文本图像不含有矩形文本边界且不含有直线，则为第三类文本图像；对所述待矫正医药影印件文本图像分别进行图像去噪和二值化处理，得到二值图像；对所述二值图像进行倾斜矫正；输出所述矫正图像。该矫正方法能够实现多种类型医药影印件的文本倾斜矫正，进而提升后续OCR技术识别文档信息的准确率。

Description

医药影印件文本倾斜矫正方法、电子设备和可读储存介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种医药影印件文本倾斜矫正方法、电子设备和可读储存介质。

背景技术

近年来，数字化建设是我国大力推动的国家重点项目之一。大量的政务机关，企业等纷纷响应号召，将以前的影印件进行处理分析后建设属于自己的数字化平台。随着大数据时代的到来，通过对不断增长的海量数据进行分析从而挖掘出其中的隐藏价值已经成为新的研究热点。其中医药行业作为大数据分析的对象，其重要的数据来源之一则是对现有长期历史发展过程中所遗留下来的大量医药纸质文档(包括药品说明书、药品注册批件、药品生产许可证、营业执照、进口药品注册证和厂商的药品GMP证书等)。将其扫描后利用版面分析，图像预处理，OCR技术进行字符识别数字化处理，并存储到数据库以供数据分析程序调用，是一个标准的数字化处理过程。因此，医药影印件的信息提取，对医药数字化平台的建设和完善有着重大的意义，并且将医药档案、批件、文件等资料通过扫描仪，扫描成图像文件，再通过处理转换成电子文档，建立目录和索引，制作成电子资源，已是当务之急。

但在大量医药纸质文档转化为医药影印件的过程中，由于一些人为因素或是环境影响，扫描后的医药影印件难免会出现一定程度的文本倾斜，进而影响后续OCR技术识别文档信息的准确率。

因此，有必要提供一种医药文件处理方法，实现医药影印件的文本倾斜矫正。

发明内容

本发明提供了一种医药影印件文本倾斜矫正方法，该矫正方法能够实现多种类型医药影印件的文本倾斜矫正，进而提升后续OCR技术识别文档信息的准确率。

为实现上述目的和其他相关目的，本发明提供了一种医药影印件文本倾斜矫正方法，包括如下步骤：

S100、获取待矫正医药影印件文本图像；

S200、确定所述待矫正医药影印件文本图像的类别，若所述待矫正医药影印件文本图像不含有矩形文本边界但含有直线，则为第一类文本图像，若所述矫正医药影印件文本图像含有矩形文本边界，则为第二类文本图像，若所述待矫正医药影印件文本图像不含有矩形文本边界且不含有直线，则为第三类文本图像；

S300、对所述待矫正医药影印件文本图像分别进行图像去噪和二值化处理，得到二值图像；

S400、对所述二值图像进行倾斜矫正，其中：

若所述待矫正医药影印件文本图像为所述第一类文本图像，通过霍夫变换提取所述二值图像中的直线，根据所述直线的长度和倾斜角度，对所述直线进行过滤，针对过滤后的直线，确定所述倾斜角度的中位数为所述二值图像的倾斜角度，根据所述二值图像的倾斜角度，对所述二值图像进行旋转，得到矫正图像；

若所述待矫正医药影印件文本图像为所述第二类文本图像，通过边缘检测提取所述二值图像的至少一个边缘轮廓，求取所述边缘轮廓的最小外接矩形，并选择面积最大的最小外接矩形为基准矩形，对所述基准矩形进行透视变换调整倾斜角度，得到矫正图像；

若所述待矫正医药影印件文本图像为所述第三类文本图像，对所述二值图像进行横向膨胀，将整行离散的文字连接在一起，形成整个文本行区域，求得所述整个文本行区域的最小外接矩形，通过旋转变换调整所述整个文本行区域的最小外接矩形的倾斜角度，得到矫正图像；

S500、输出所述矫正图像。

优选地，所述对所述待矫正医药影印件文本图像进行二值化处理，具体包括：

对所述待矫正医药影印件文本图像进行灰度化处理，得到灰度图像；

根据所述灰度图像提取图像灰度矩阵；

根据所述图像灰度矩阵，计算图像局部对比度矩阵；

利用大津法对所述图像局部对比度矩阵进行二值划分，得到所述二值图像。

优选地，所述利用大津法对所述图像局部对比度矩阵进行二值划分，得到所述二值图像，具体包括：

获取所述图像局部对比度矩阵中对比度值的最大值和最小值；

设定直方图组数，并将所述对比度值的最大值和最小值之间的区间，按照所述直方图组数进行等分，使得每一像素点的局部对比度值落到相应区间内，构建直方图；

选取所述直方图中任意一点，并根据该点将所述直方图分为两部分，并计算该两部分的类内方差和类间方差；

选取所述直方图中类间方差除以类内方差的值最大的点作为最佳二值分割阈值点；

根据所述最佳二值分割阈值点将所述图像局部对比度矩阵划分为第一二值矩阵；

使用Canny算子在所述灰度图像上进行边缘检测，确定边缘矩阵；

取所述第一二值矩阵和所述边缘矩阵的交集，确定第二二值矩阵；

根据所述第二二值矩阵，确定二值图像。

优选地，所述根据所述直线的长度和倾斜角度，对所述直线进行过滤，具体包括：

通过统计所述直线上的字符点，确定线段，其中，以横坐标最小的字符点所在的坐标作为所述线段的起始坐标，以横坐标最大的字符点所在的坐标作为所述线段的终止坐标；

判断所述线段上相邻字符点之间的距离是否大于预设阈值；如果是，则将该线段从所述两个字符点处分割为两条线段；

按照以下方式对所述线段进行筛选：判断所述线段的长度是否小于第一阈值，如果是，则删除该线段；或者，判断所述线段包含的字符点的数量是否小于第二阈值，如果是，则删除该线段；或者，计算所述线段的倾斜角度，确定所述线段的倾斜角度的邻域；判断是否有其他线段的倾斜角度值落入该邻域内，如果无，则删除该线段。

优选地，所述通过边缘检测提取所述二值图像的至少一个边缘轮廓，并选择面积最大的最小外接矩形为基准矩形，对所述基准矩形进行透视变换调整倾斜角度，得到矫正图像，具体包括：

将所述二值图像利用openCV视觉库函数进行边缘检测，得到至少一个边缘轮廓；

调用minAreaRect函数进行最小外接矩形搜索，并确定所述基准矩形；

得到所述基准矩形的四个角点作为透视变化函数perspective transform的输入，进行变换调整倾斜角度，得到所述矫正图像。

优选地，在步骤S500之前，还包括：对所述矫正图像进行裁剪，去除无意义的大块非文本区域。

优选地，所述确定所述待矫正医药影印件文本图像的类别，包括：

将所述待矫正医药影印件文本图像输入预先训练好的图像分类网络，以确定所述待矫正医药影印件文本图像的类别，其中，所述图像分类网络是神经网络模型。

基于同一发明构想，本发明还提供一种电子设备，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述任一项所述的医药影印件文本倾斜矫正方法。

基于同一发明构想，本发明还提供一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上文任一项所述的医药影印件文本倾斜矫正方法。

综上所述，本发明提供了一种医药影印件文本倾斜矫正方法，解决医药影印件因类型众多，版面复杂而难以对其进行倾斜矫正的问题，进而改善后续OCR技术的文本区域检测与文字识别效果，为医药数字化平台的建设做出贡献；此外，本发明与现有的文本倾斜矫正算法相比，精度较高，针对现有文本的倾斜矫正算法所适应的版面特征来设计医药影印件分类模型，并将其分为三类，分别是含有清晰直线医药影印件，有明显矩形边界的医药影印件，无清晰直线无明显矩形边界的医药影印件，并针对不同类别的医药影印件分别应用或改进相适应的文本倾斜矫正算法；基于同一发明构想，本发明还提供了一种电子设备和可读存储介质。

附图说明

图1为本发明一实施例提供的医药影印件文本倾斜矫正方法示意图；

图2为本发明一实施例提供的医药影印件文本倾斜矫正方法的算法流程示意图；

图3为本发明一实施例提供的医药影印件文本二值化对比图；

图4为本发明一实施例提供的医药影印件文本图像去噪对比图；

图5为本发明一实施例提供的医药影印件二值化和文本行膨胀对比图；

图6为本发明一实施例提供的医药影印件文本图像分类网络示意图。

具体实施方式

以下结合附图1-2和具体实施方式对本发明提出的医药影印件文本倾斜矫正方法作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1为本发明一实施例提供的医药影印件文本倾斜矫正方法示意图，参阅图1，所述医药影印件文本倾斜矫正方法包括如下步骤：

S100、获取待矫正医药影印件文本图像；

S400、对所述二值图像进行倾斜矫正，其中：

S500、输出所述矫正图像。

具体实施的时候，参阅图2，对一张医药影印件的文本图像进行倾斜矫正：

第一步，先将输入此待矫正的医药影印件的文本图像输入一图像分类网络，通过图像分类网络分类预测出此医药影印件所属类别：若所述待矫正医药影印件文本图像不含有矩形文本边界但含有直线，则为第一类文本图像，若所述矫正医药影印件文本图像含有矩形文本边界，则为第二类文本图像，若所述待矫正医药影印件文本图像不含有矩形文本边界且不含有直线，则为第三类文本图像。所述图像分类网络为预先训练得到的神经网络模型，其网络结构如图6所示，具体训练方法可参考现有技术，在此不做赘述。

第二步，对所述待矫正的医药影印件的文本图像进行图像预处理，所述图像预处理包括图像去噪和图像二值化，参阅图3和图4，图3所示为本发明中的待矫正的医药影印件的文本图像二值化结果对比图。图像二值化是绝大部分图像预处理工作或是版面分析都要使用的技术，其实质为将医药影印件文本图像中需要的前景信息从复杂的背景信息中分离出来，进而滤除掉无关信息，得到所需的关键信息。图4所示为本发明中的待矫正的医药影印件的文本图像去噪结果对比图。一般来说，在用多媒体设备或扫描设备采集图像时，由于设备自身或环境问题，不可避免的会出现噪声，在一定程度上也会影响图像的后续处理的效果，如版面分析、文字检测、文字识别等。图像去噪的本质是尽可能保留原始图像主要特征的同时，过滤掉影响后续处理的无用噪声信息，从而获取到具有较高质量的文本图像。医药影印件的采集设备通过引入的是脉冲噪声，它导致图像的随机变化，使原始值波动到一些不同的值，通常采用中值滤波的处理方法效果较好。中值滤滤波属于非线性滤波器，它在有效去除脉冲噪声的同时，还能较大程度的保留了图像的原始特征。

第三步，若是分类预测类别为含有清晰直线的医药影印件，采用霍夫变换进行直线检测。霍夫变换指一种特征检测，被广泛应用在图像分析、计算机视觉以及数位影像处理，霍夫变换是用来辨别找出物件中的特征，例如：线条；他的算法流程大致如下，给定一个物件、要辨别的形状的种类，算法会在参数空间中执行投票来决定物体的形状，而这是由累加空间里的局部最大值来决定。直线检测完后对所述直线进行过滤，过滤掉一些无关直线，例如与基准直线(倾斜角度判断直线)平行或者垂直的直线，针对过滤后的直线，确定所述倾斜角度的中位数为所述二值图像的倾斜角度，根据所述二值图像的倾斜角度，对所述二值图像进行旋转，得到矫正图像。

若分类预测类别为有明显矩形边界的医药影印件，对所述二值图像进行边缘检测。边缘检测指图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括深度上的不连续、表面方向不连续、物质属性变化和场景照明变化。边缘检测后文档有很多边缘或是轮廓，每个轮廓分别求最小外接矩形，然后求得面积最大的最小外接矩形，最后再对其进行透视变换操作。透视变换是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换，矫正后得到矫正图像。

若是分类预测类别为无清晰直线无明显矩形边界的医药影印件，使用文本线提取算法求得文本倾斜角度后最后再采用旋转变换算法对原图进行旋转。文本线提取算法指先进行横向膨胀，将整行离散的文字连接在一起，形成整个文本行区域，求得所述整个文本行区域的最小外接矩形，通过旋转变换调整所述整个文本行区域的最小外接矩形的倾斜角度，得到矫正图像。图5示出了医药影印件二值化与文本行膨胀结果对比图。在图像处理领域中，有一些操作会改变图像的大小以及形状，而这些操作一般被称为形态学操作。图像处理中的形态学操作应用场景很多，如形状简化、骨架提取、物体背景分割及物体形态量化等场景。这里将医药影印件二值化之后再进行膨胀操作，便于获取医药影印件中文本行的位置信息。

第四步，对所述矫正图像进行裁剪，去除无意义的大块非文本区域，此时得到的就是已经经过倾斜矫正后的医药影印件。

在本实施例中，步骤S300具体包括：

对所述待矫正医药影印件文本图像进行灰度化处理，得到灰度图像；根据所述灰度图像提取图像灰度矩阵；根据所述图像灰度矩阵，计算图像局部对比度矩阵；利用大津法对所述图像局部对比度矩阵进行二值划分，得到所述二值图像。通过对图像灰度矩阵进行滤波得到图像局部对比度矩阵，可以有效地消除光照不均带来的影响，提高图像的对比度及二值可分性。

在本实施例中，利用大津法对所述图像局部对比度矩阵进行二值划分，得到所述二值图像，具体包括：获取所述图像局部对比度矩阵中对比度值的最大值和最小值；设定直方图组数，并将所述对比度值的最大值和最小值之间的区间，按照所述直方图组数进行等分，使得每一像素点的局部对比度值落到相应区间内，构建直方图；选取所述直方图中任意一点，并根据该点将所述直方图分为两部分，并计算该两部分的类内方差和类间方差；选取所述直方图中类间方差除以类内方差的值最大的点作为最佳二值分割阈值点；根据所述最佳二值分割阈值点将所述图像局部对比度矩阵划分为第一二值矩阵；使用Canny算子在所述灰度图像上进行边缘检测，确定边缘矩阵；取所述第一二值矩阵和所述边缘矩阵的交集，确定第三二值矩阵；根据所述第三二值矩阵，确定二值图像。

在本实施例中，根据所述直线的长度和倾斜角度，对所述直线进行过滤，具体包括：通过统计所述直线上的字符点，确定线段，其中，以横坐标最小的字符点所在的坐标作为所述线段的起始坐标，以横坐标最大的字符点所在的坐标作为所述线段的终止坐标；判断所述线段上相邻字符点之间的距离是否大于预设阈值，如果是，则将该线段从所述两个字符点处分割为两条线段；按照以下方式对所述线段进行筛选：判断所述线段的长度是否小于第一阈值，如果是，则删除该线段；或者，判断所述线段包含的字符点的数量是否小于第二阈值，如果是，则删除该线段；或者，计算所述线段的倾斜角度，确定所述线段的倾斜角度的邻域；判断是否有其他线段的倾斜角度值落入该邻域内，如果无，则删除该线段。

在本实施例中，通过边缘检测提取所述二值图像至少一个边缘轮廓，并选择面积最大的最小外接矩形为基准矩形，对所述基准矩形进行透视变换调整倾斜角度，得到矫正图像，具体包括：将所述第二类二值图像利用openCV视觉库函数进行边缘检测，得到至少一个边缘轮廓；调用minAreaRect函数进行最小外接矩形搜索，并确定所述基准矩形；得到所述基准矩形的四个角点作为透视变化函数perspective transform的输入，进行变换调整倾斜角度，得到所述矫正图像。

基于同一发明构想，本发明还提供了一种电子设备，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述医药影印件文本倾斜矫正方法。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器(例如GPU(Graphics Processing Unit-图形处理器))、或其他数据处理芯片。该处理器通常用于控制所述电子设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述医药影印件文本倾斜矫正方法的程序代码。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述电子设备的内部存储单元，例如该电子设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器还可以既包括所述电子设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器通常用于存储安装于所述电子设备的操作方法和各类应用软件，例如所述医药影印件文本倾斜矫正方法的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

基于同一发明构想，本发明还提供一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现所述医药影印件文本倾斜矫正方法。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种医药影印件文本倾斜矫正方法，其特征在于，包括如下步骤：

S100、获取待矫正医药影印件文本图像；

S400、对所述二值图像进行倾斜矫正，其中：

S500、输出所述矫正图像。

2.如权利要求1所述的医药影印件文本倾斜矫正方法，其特征在于，所述对所述待矫正医药影印件文本图像进行二值化处理，具体包括：

根据所述灰度图像提取图像灰度矩阵；

根据所述图像灰度矩阵，计算图像局部对比度矩阵；

3.如权利要求2所述的医药影印件文本倾斜矫正方法，其特征在于，所述利用大津法对所述图像局部对比度矩阵进行二值划分，得到所述二值图像，具体包括：

根据所述第二二值矩阵，确定二值图像。

4.如权利要求1所述的医药影印件文本倾斜矫正方法，其特征在于，所述根据所述直线的长度和倾斜角度，对所述直线进行过滤，具体包括：

5.如权利要求1所述的医药影印件文本倾斜矫正方法，其特征在于，所述通过边缘检测提取所述二值图像的至少一个边缘轮廓，并选择面积最大的最小外接矩形为基准矩形，对所述基准矩形进行透视变换调整倾斜角度，得到矫正图像，具体包括：

6.如权利要求1所述的医药影印件文本倾斜矫正方法，其特征在于，在步骤S500之前，还包括：对所述矫正图像进行裁剪，去除无意义的大块非文本区域。

7.如权利要求1所述的医药影印件文本倾斜矫正方法，其特征在于，所述确定所述待矫正医药影印件文本图像的类别，包括：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1至7中任一项所述的方法。

9.一种可读存储介质，其特征在于，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的方法。