CN110503100B

CN110503100B - 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质

Info

Publication number: CN110503100B
Application number: CN201910756077.4A
Authority: CN
Inventors: 符颖; 郭建京; 周忠诚; 张圣栋
Original assignee: Hunan Xinghan Shuzhi Technology Co ltd
Current assignee: Hunan Xinghan Shuzhi Technology Co ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2022-05-03
Anticipated expiration: 2039-08-16
Also published as: CN110503100A

Abstract

本发明适用于互联网技术领域，提供了一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质，该方法包括：分别获取N张医疗单据图片的打印文本行；获得N张医疗单据背景填充图像；分别从N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像，得到L张长条形医疗单据背景填充图像，分别对L张长条形医疗单据背景填充图像打印至少一个医学词条，对处理后的L张长条形医疗单据图像进行处理，得到L张词条图像训练样本；将L张词条图像训练样本输入CRNN模型进行训练；通过参数优化后的CRNN模型识别待识别医疗单据图片，得到字符识别结果。本发明提供的医疗单据识别方法，可提高医疗单据识别的效果。

Description

一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质

技术领域

本发明属于互联网技术领域，尤其涉及一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质。

背景技术

日常生活中，人们若到医疗机构就诊，会产生很多的纸质单据，在保险理赔、转院、远程会诊的时候，需要将纸质单据转为电子医疗档案。由于医疗单据的信息量庞大，传统的手工录入方式，耗时、费力，现有的OCR(Optical Character Recognition，光学字符识别)方式多为通用的字符识别，针对特定的医疗单据准确度不理想。由此可知，现有技术在对医疗单据进行识别的过程中，由于耗时长、准确度不理想等原因，导致医疗单据识别的效果比较差的问题。

发明内容

本发明实施例提供一种医疗单据识别方法，旨在解决现有医疗单据识别的效果比较差的问题。

本发明是这样实现的，一种医疗单据识别方法，包括：

分别获取N张医疗单据图片的打印文本行；

使用医疗单据图片的背景颜色对所述打印文本行进行遮挡，获得N张医疗单据背景填充图像；

从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像，得到L张长条形医疗单据背景填充图像，分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条，得到印有医学词条的L张长条形医疗单据图像，对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本；

将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型，对所述CRNN模型进行训练，得到优化参数后的CRNN模型；

通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别，得到字符识别结果。

可选的，所述分别获取N张医疗单据图片的打印文本行，包括以下过程：

对预先获取的标准医疗单据图片中的打印字符进行遮挡处理，得到标准打印字符区域；

分别对所述N张医疗单据图片进行边框检测，分别得到所述N张医疗单据图片的尺寸信息；

根据所述N张医疗单据图片的尺寸信息与所述标准医疗单据图片的尺寸信息，分别确定所述N张医疗单据图片的缩放比例，按照所述缩放比例分别对所述N张医疗单据图片进行缩放处理，得到所述N张目标医疗单据图片；

分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息，根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，其中，所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符。

可选的，所述对N张医疗单据图片分别进行边框检测，分别得到所述N张医疗单据图片的尺寸信息，包括以下过程：

采用形态学操作分别对N张医疗单据图片进行预处理，凸显所述N张医疗单据图片中线条框像素点的对比度；

采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离，并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合；

采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合，分别确定所述N张医疗单据图片的边框直线；

分别对所述N张医疗单据图片的边框直线进行延长，确定四条边框直线的交点，根据四条边框直线的交点，确定所述N张医疗单据图片的尺寸信息。

可选的，所述根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，包括以下过程：

获取所述标准医疗单据图片的第二目标字符的第二位置信息；所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符；

计算所述第一位置信息与第二位置信息之间的位置差异；

根据所述位置差异及所述标准打印字符区域，采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域；

分别在所述N张目标医疗单据图片的所述打印字符区域中确定打印文本行。

本发明还提供一种医疗单据识别装置，包括：

第一获取模块，用于分别获取N张医疗单据图片的打印文本行；

第二获取模块，用于使用医疗单据图片的背景颜色对所述打印文本行进行遮挡，获得N张医疗单据背景填充图像；

处理模块，用于从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像，得到L张长条形医疗单据背景填充图像，分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条，得到印有医学词条的L张长条形医疗单据图像，对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本；

训练模块，用于将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型，对所述CRNN模型进行训练，得到优化参数后的CRNN模型；

识别模块，用于通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别，得到字符识别结果。

可选的，所述第一获取模块包括：

处理子模块，用于对预先获取的标准医疗单据图片中的打印字符进行遮挡处理，得到标准打印字符区域；

检测子模块，用于分别对所述N张医疗单据图片进行边框检测，分别得到所述N张医疗单据图片的尺寸信息；

缩放子模块，用于根据所述N张医疗单据图片的尺寸信息与所述标准医疗单据图片的尺寸信息，分别确定所述N张医疗单据图片的缩放比例，按照所述缩放比例分别对所述N张医疗单据图片进行缩放处理，得到所述N张目标医疗单据图片；

确定子模块，用于分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息，根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，其中，所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符。

可选的，所述检测子模块包括：

处理单元，用于采用形态学操作分别对N张医疗单据图片进行预处理，增强所述N张医疗单据图片中线条框像素点的对比度；

分离单元，用于采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离，并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合；

第一确定单元，用于采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合，分别确定所述N张医疗单据图片的边框直线；

第二确定单元，用于分别对所述N张医疗单据图片的边框直线进行延长，确定四条边框直线的交点，根据四条边框直线的交点，确定所述N张医疗单据图片的尺寸信息。

可选的，所述确定子模块包括：

获取单元，获取所述标准医疗单据图片的第二目标字符的第二位置信息；所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符；

计算单元，用于计算所述第一位置信息与第二位置信息之间的位置差异；

构建单元，用于根据所述位置差异及所述标准打印字符区域，采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域；

第三确定单元，用于分别在所述N张目标医疗单据图片的所述打印字符区域中确定打印文本行。

本发明还提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中计算机程序时实现如上述所述医疗单据识别方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述医疗单据识别方法的步骤。

本发明提供的医疗单据识别方法，通过获取N张医疗单据图片的打印文本行，使用医疗单据图片的背景颜色对所述打印文本行进行遮挡，获得N张医疗单据背景填充图像，随机将医学词条打印在从N张疗单据背景填充图像截取到的L张长条形医疗单据背景填充图像上，得到印有医学词条的L张长条形医疗单据图像，对L张医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本，通过L张词条图像训练样本对字符识别模型进行训练，优化字符识别模型的参数，将优化参数后的字符识别模型对待识别医疗单据图片进行字符识别，得到字符识别结果。这样，可以无需大量人工投入，实现了完全自动化的医疗单据图片识别过程，减少医疗单据识别过程的人工耗时，提高医疗单据识别的准确度，从而整体上提升医疗单据识别的效果。

附图说明

图1是本发明实施例提供的医疗单据识别方法的实现流程图；

图2本发明实施例提供的医疗单据图片的示意图；

图3本发明实施例提供的分别获取N张医疗单据图片的打印文本行的实现流程图；

图4本发明实施例提供的标准医疗单据图片的打印字符区域的示意图；

图5本发明实施例提供的所述分别对所述N张医疗单据图片进行边框检测，分别得到所述N张医疗单据图片的尺寸信息的实现流程图；

图6本发明实施例提供的所述根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行的实现流程图；

图7本发明实施例提供的长条形医疗单据背景填充图像的示例图；

图8本发明实施例提供的医疗单据识别装置的结构示意图；

图9是本发明实施提供的第一获取模块的结构示意图；

图10是本发明实施例提供的检测子模块的结构示意图；

图11是本发明实施提供的确定子模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1所示为本发明实施例提供的医疗单据识别方法的实现流程图。该医疗单据识别方法包括以下过程：

步骤S101，分别获取N张医疗单据图片的打印文本行。

在本实施例例中，在空白医疗单据打印医疗相关字符后即可得到医疗单据，常见的医疗单据包括医疗门诊收付费票据、挂号单据等。对医疗单据拍照即可得到医疗单据图片。常见的医疗单据图片可以包括医疗门诊收付费票据图片、挂号单据图片等。

举例来说，请参阅图2，常见的医疗门诊收付费票据图片包括姓名、医保类型、项目/规格、单价、数量/单价等信息。由于医疗单据背景模糊、且医疗单据文字受到打印墨水、拍照角度和光照多方面因数干扰、单据揉折等原因，导致医疗单据图片的可识别程度比较低。

在图2中，医疗单据图片显示的内容包括两类，一类是已经印刷完成，不可更改的内容，例如图2中“北京市医疗门诊收费票据”、“业务流水号”、“姓名”、“性别”等等标准医疗单据中已印刷好的字符，这类字符称为印刷字符。另一类是根据实际医疗情况进行打印的，对实际医疗事项进行记录的、可修改的内容，例如图2中“张三”、“中医医院”、“治疗费”等等在标准医疗单据中打印的字符，这类字符称为打印字符。打印字符由于可能出现无法对齐的问题，导致打印位置会出现偏差。打印文本行为打印字符所在的位置。在本实施例中，N为正整数，例如，N可以为200。

可选的，请参阅图3，该步骤S101包括以下过程：

步骤S1011，对预先获取的标准医疗单据图片中的打印字符进行遮挡处理，得到标准打印字符区域。

在本实施例中，所述标准医疗单据图片为纸张完整、印刷字符清晰、打印字符尽量多且打印字位置与印刷字符对应的医疗单据图片，可以从多张医疗单据中选择纸张完整、印刷字符清晰、打印字符尽量多且打印字符位置与印刷字符对齐的医疗单据图片作为标准医疗单据图片。在本实施方式中，将标准医疗单据图片中打印字符用长方形白条封盖，且对白条遮盖的打印字符区域进行长度补齐，将长度补齐后的打印字符区域作为标准打印字符区域。请参阅图4，标准打印字符区域401主要分布在医疗单据图片的左边框402、上边框403、右边框404及下边框405所围成的矩形框之内，在上边框403的上方及下边框405的下方有一小部分标准打印字符区域分布。

步骤S1012，分别对所述N张医疗单据图片进行边框检测，分别得到所述N张医疗单据图片的尺寸信息。

可选的，请参阅图5，该步骤S1012可以包括以下过程：

步骤S10121，采用形态学操作分别对N张医疗单据图片进行预处理，凸显所述N张医疗单据图片中线条框像素点的对比度。

在本实施例中，形态学操作包括高斯模糊和图像腐蚀膨胀等形态学操作。

步骤S10122，采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离，并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合。

步骤S10123，采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合，分别确定所述N张医疗单据图片的边框直线。

步骤S10124，分别对所述N张医疗单据图片的边框直线进行延长，确定四条边框直线的交点，根据四条边框直线的交点，确定所述N张医疗单据图片的尺寸信息。

请再次参阅图2，若对图2所示的医疗单据图片进行边框检测，则可以检测到第一边框201、第二边框202、第三边框203及第四边框204对应的边框直线。根据第一边框201、第二边框202、第三边框203及第四边框204对应的边框直线延长后的交叉点可以确定图2所示医疗单据图片的边框位置及尺寸。

这样，可以自动检测到医疗单据图片的边框位置及尺寸，从而可以减少人工操作步骤，提高检测效率。

步骤S1013，根据所述N张医疗单据图片的尺寸信息与所述标准医疗单据图片的尺寸信息，分别确定所述N张医疗单据图片的缩放比例，按照所述缩放比例分别对所述N张医疗单据图片进行缩放处理，得到所述N张目标医疗单据图片。

在本实施例中，缩放处理包括缩小处理及放大处理，若医疗单据图片的尺寸信息小于标准医疗单据图片的尺寸信息，即缩放比例大于1，则放大医疗单据图片。若医疗单据图片的尺寸信息大于标准医疗单据图片的尺寸信息，即缩放比例小于1，则缩小医疗单据图片。

这样，通过确定缩放比例，可以快速将所述N张医疗单据图片缩放到与标准医疗单据图片的尺寸相同，便于后续从N张医疗单据图片中获取打印字符区域。

步骤S1014，分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息，根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，其中，所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符。

举例来说，若目标医疗单据图片为图2所示的医疗单据图片，则可以将左上角“实时结算”中的“实”字作为目标字符。

在本实施例中，将左上角、左下角、右上角、右下角中任一个角的第一个字符作为目标字符，可以方便检测到目标字符，且目标字符的周围其他干扰字符较少，便于后续与标准医疗单据图片的目标字符的位置信息进行比较，比较准确地得出医疗单据图片中字符位置与标准医疗单据图片中字符位置的偏差。

可选的，请参阅图6，该步骤S1014的所述根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，可以包括以下过程：

步骤S10141，获取所述标准医疗单据图片的第二目标字符的第二位置信息；所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符，所述第一目标字符与所述第二字符的区位相同；

步骤S10142，计算所述第一位置信息与第二位置信息之间的位置差异；

步骤S10143，根据所述位置差异及所述标准打印字符区域，采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域；

步骤S10144，分别在所述N张目标医疗单据图片的所述打印字符区域中确定打印文本行。

在本实施例中，第一目标字符与第二字符的区位相同，即若第一目标字符为N张目标医疗单据图片的左上角第一个字符，则第二目标字符为标准医疗单据图片的左上角第一个字符。若第一目标字符为N张目标医疗单据图片的右上角第一个字符，则第二目标字符为标准医疗单据图片的右上角第一个字符，若第一目标字符为N张目标医疗单据图片的左下角第一个字符，则第二目标字符为标准医疗单据图片的左下角第一个字符。若第一目标字符为N张目标医疗单据图片的右下角第一个字符，则第二目标字符为标准医疗单据图片的右下角第一个字符。

举例来说，若N张目标医疗单据图片的第一目标字符的第一位置信息分别为位置坐标(x1，y1)、(x2，y2)、......、(xn，yn)，标准医疗单据图片的第二目标字符的第二位置信息为位置坐标(x，y)，则可以根据(x1，y1)、(x2，y2)、......、(xn，yn)及(x，y)，分别计算所述N张目标医疗单据图片的第一位置信息与所述第二位置信息之间的位置差异，基于位置差异及所述标准打印区域，采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域。

步骤S102，使用医疗单据图片的背景颜色对所述打印文本行进行遮挡，获得N张医疗单据背景填充图像。

可以理解的是，医疗单据图片的背景颜色可以为浅黄色、浅灰色等颜色，具体颜色根据实际单据背景确定。例如，请再次参阅图2，可以用浅灰色对打印文本行进行遮挡，对应得到图7所示的医疗单据背景填充图像，遮挡区域701表示用背景颜色对打印文本行进行覆盖的区域。

步骤S103，从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像，得到L张长条形医疗单据背景填充图像，分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条，得到印有医学词条的L张长条形医疗单据图像，对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本。

请再次参阅图7，在图7的医疗单据背景填充图像中截取两个长条形区域分别作为为第一长条形医疗单据背景填充图像702及第一长条形医疗单据背景填充图像703。在其他实施例中，一张医疗单据背景填充图像中可以截取多个长条形区域，得到多个长条形医疗单据背景填充图像。

在本实施例中，为确保识别医疗单据的正确率，N、L及M为比较大的数据，例如N为200，L为400万，M为50000个医学词条。

补充说明的是，可以从互联网采集获取常用医学术语、药品名称等特殊医学词条18000个，通用医学词条12000个。此外，还可以使用词组随机组合构建文本行字条20000个，累计总共获取50000个医学词条。

在本实施例中，所述分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条，是指在所述L张长条形医疗单据背景填充图像中的每一张长条形医疗单据背景填充图像上填写从M个医学词条中随机选择的至少一个医学词条。

在本实施例中，所述对所述对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本，可以包括以下过程：

采用高斯模糊操作、杂色处理操作及字符扭曲操作中的至少一种操作对所述印有医学词条的L张长条形医疗单据图像进行拟合处理，得到L张词条图像训练样本。

步骤S104，将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型，对所述CRNN模型进行训练，得到优化参数后的CRNN模型。

在本实施例中，卷积循环神经网络的英文名为Convolutional Recurrent NeuralNetwork，简称为CRNN。CRNN模型使用双向长短记忆网络记录序列信息，能够有效识别文字行。CRNN可实现端到端训练，任意长度的文字识别，性能稳定且模型小。在训练期间，通过观察模型损失函数和准确率进行模型调参，确保训练的模型最优。

步骤S105，通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别，得到字符识别结果。

在本实施例中，该步骤S105之后，所述方法还可以包括以下过程：

在所述待识别医疗单据图片已有标准识别结果的情况下，将所述标准识别结果与所述字符识别结果进行比较，判断所述识别结果的正确率是否大于预设阈值；

在所述识别结果的正确率小于或等于预设阈值，调整所述参数优化后的CRNN模型的参数。

这样，可以对优化后的CRNN参数进行调整，进一步提高医疗单据图片的字符识别效果。

本发明提供的医疗单据识别方法，通过获取N张医疗单据图片的打印文本行，使用医疗单据图片的背景颜色对所述打印文本行进行遮挡，获得N张医疗单据背景填充图像，随机将医学词条打印在从N张疗单据背景填充图像截取到的L张长条形医疗单据背景填充图像，得到处理后的L张长条形医疗单据图像，对L张医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本，通过L张词条图像训练样本对字符识别模型进行训练，优化字符识别模型的参数，将优化参数后的字符识别模型对待识别医疗单据图片进行字符识别，得到字符识别结果。这样，可以无需大量人工投入，实现了完全自动化的医疗单据图片识别过程，减少医疗单据识别过程的人工耗时，提高医疗单据识别的准确度，从而整体上提升医疗单据识别的效果。

图8示出了本发明实施例提供的一种医疗单据识别装置800的结构示意图，为了便于说明，仅示出了于本发明实施相关的部分。该医疗单据识别装置800，包括：

第一获取模块801，用于分别获取N张医疗单据图片的打印文本行。

在图2中，医疗单据图片显示的内容包括两类，一类是已经印刷完成，不可更改的内容，例如图2中“北京市医疗门诊收费票据”、“业务流水号”、“姓名”、“性别”等等标准医疗单据中已印刷好的字符，这类字符称为印刷字符。另一类是根据实际医疗情况进行打印的，对实际医疗事项进行记录的、可修改的内容，例如图2中“张三”、“中医医院”、“治疗费”等等在标准医疗单据中打印的字符，这类字符称为打印字符。打印字符由于可能出现无法对齐的问题，导致打印位置会出现偏差。打印文本行为打印字符所在的位置。在本实施例中，N为正整数，例如，N可以为200。N张医疗单据图片为标准空白医疗单据打印相关字符后的医疗单据图片。

可选的，请参阅图9，所述第一获取模块801包括：

处理子模块8011，用于对预先获取的标准医疗单据图片中的打印字符进行遮挡处理，得到标准打印字符区域。

检测子模块8012，用于分别对所述N张医疗单据图片进行边框检测，分别得到所述N张医疗单据图片的尺寸信息。

可选的，请参阅图10，所述检测子模块8012包括：

处理单元80121，用于采用形态学操作分别对N张医疗单据图片进行预处理，凸显所述N张医疗单据图片中线条框像素点的对比度。

分离单元80122，用于采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离，并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合。

第一确定单元80123，用于采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合，分别确定所述N张医疗单据图片的边框直线。

第二确定单元80124，用于分别对所述N张医疗单据图片的边框直线进行延长，确定四条边框直线的交点，根据四条边框直线的交点，确定所述N张医疗单据图片的尺寸信息。

缩放子模块8013，用于根据所述N张医疗单据图片的尺寸信息与所述标准医疗单据图片的尺寸信息，分别确定所述N张医疗单据图片的缩放比例，按照所述缩放比例分别对所述N张医疗单据图片进行缩放处理，得到所述N张目标医疗单据图片。

确定子模块8014，用于分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息，根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，其中，所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符。

可选的，请参阅图11，所述确定子模块8014包括：

获取单元80141，用于获取所述标准医疗单据图片的第二目标字符的第二位置信息；所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符，所述第一目标字符与所述第二字符的区位相同；

计算单元80142，用于计算所述第一位置信息与第二位置信息之间的位置差异；

构建单元80143，用于根据所述位置差异及所述标准打印字符区域，采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域；

第三确定单元80144，用于分别在所述N张目标医疗单据图片的所述打印字符区域中确定打印文本行。

举例来说，若N张目标医疗单据图片的第一目标字符的第一位置信息分别为位置坐标(x1，y1)、(x2，y2)、......、(xn，yn)，标准医疗单据图片的第二目标字符的第二位置信息为位置坐标(x，y)，则可以根据(x1，y1)、(x2，y2)、......、(xn，yn)及(x，y)，分别计算所述N张目标医疗单据图片的第一位置信息与所述第二位置信息之间的位置差异，基于位置差异及所述标准打印区域，采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域。。

第二获取模块802，用于使用医疗单据图片的背景颜色对所述打印文本行进行遮挡，获得N张医疗单据背景填充图像。

处理模块803，用于从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像，得到L张长条形医疗单据背景填充图像，分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条，得到印有医学词条的L张长条形医疗单据图像，对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本。

请再次参阅图7，在图7的医疗单据背景填充图像中截取两个长条形区域分别作为第一长条形医疗单据背景填充图像702及第一长条形医疗单据背景填充图像703。在其他实施例中，一张医疗单据背景填充图像中可以截取多个长条形区域，得到多个长条形医疗单据背景填充图像。

在本实施例中，所述处理模块803，还用于采用高斯模糊操作、杂色处理操作及字符扭曲操作中的至少一种操作对所述印有医学词条的L张长条形医疗单据图像进行拟合处理，得到L张词条图像训练样本。

训练模块804，用于将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型，对所述CRNN模型进行训练，得到优化参数后的CRNN模型。

识别模块805，用于通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别，得到字符识别结果。

在本实施例中，所述识别模块805，还用于在所述待识别医疗单据图片已有标准识别结果的情况下，将所述标准识别结果与所述字符识别结果进行比较，判断所述识别结果的正确率是否大于预设阈值；

本发明提供的医疗单据识别装置，通过获取N张医疗单据图片的打印文本行，使用医疗单据图片的背景颜色对所述打印文本行进行遮挡，获得N张医疗单据背景填充图像，随机将医学词条打印在从N张疗单据背景填充图像截取到的L张长条形医疗单据背景填充图像，得到处理后的L张长条形医疗单据图像，对L张医疗单据图像进行拟合真实医疗单据操作，得到L张词条图像训练样本，通过L张词条图像训练样本对字符识别模型进行训练，优化字符识别模型的参数，将优化参数后的字符识别模型对待识别医疗单据图片进行字符识别，得到字符识别结果。这样，可以无需大量人工投入，实现了完全自动化的医疗单据图片识别过程，减少医疗单据识别过程的人工耗时，提高医疗单据识别的准确度，从而整体上提升医疗单据识别的效果。

本发明实施例提供一种计算机装置，该计算机装置包括处理器，处理器用于执行存储器中计算机程序时实现上述各个方法实施例提供的医疗单据识别方法的步骤。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。例如，计算机程序可以被分割成上述各个方法实施例提供的医疗单据识别方法的步骤。

本领域技术人员可以理解，上述计算机装置的描述仅仅是示例，并不构成对计算机装置的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个医疗单据识别方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医疗单据识别方法，其特征在于，所述医疗单据识别方法包括：

分别获取N张医疗单据图片的打印文本行；

通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别，得到字符识别结果；

所述分别获取N张医疗单据图片的打印文本行，包括以下过程：

分别对所述N张医疗单据图片进行边框检测，分别得到所述N张医疗单据图片的尺寸信息，包括：采用形态学操作分别对N张医疗单据图片进行预处理，凸显所述N张医疗单据图片中线条框像素点的对比度；采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离，并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合；采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合，分别确定所述N张医疗单据图片的边框直线；分别对所述N张医疗单据图片的边框直线进行延长，确定四条边框直线的交点，根据四条边框直线的交点，确定所述N张医疗单据图片的尺寸信息；

2.根据权利要求1所述的医疗单据识别方法，其特征在于，所述根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，包括以下过程：

获取所述标准医疗单据图片的第二目标字符的第二位置信息；所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符，所述第一目标字符与所述第二目标字符的区位相同；

计算所述第一位置信息与第二位置信息之间的位置差异；

3.一种医疗单据识别装置，其特征在于，所述医疗单据识别装置包括：

识别模块，用于通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别，得到字符识别结果；

所述第一获取模块包括：

确定子模块，用于分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息，根据所述第一目标字符的第一位置信息及所述标准打印字符区域，分别在所述N张目标医疗单据图片中确定打印文本行，其中，所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符；

所述检测子模块包括：

4.根据权利要求3所述的医疗单据识别装置，其特征在于，所述确定子模块包括：

获取单元，获取所述标准医疗单据图片的第二目标字符的第二位置信息；所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符，所述第一目标字符与所述第二目标字符的区位相同；

5.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中计算机程序时实现如权利要求1-2中任意一项所述医疗单据识别方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-2中任意一项所述医疗单据识别方法的步骤。