CN108241862A

CN108241862A - 一种医疗检验单的检验项信息自动提取方法

Info

Publication number: CN108241862A
Application number: CN201810022957.4A
Authority: CN
Inventors: 王荆正; 尚健静
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2018-07-03

Abstract

本发明公开了一种医疗检验单的检验项信息自动提取方法，步骤如下：(1)、图像采集：将医疗检验单通过摄像机或者相机进行拍照，完成图像采集；(2)、预处理：将采集到的图像分别通过灰度化和自适应二值化处理为二值图像，并在二值图像上进行连通体搜索，得到所有的连通体信息；然后，根据连通体的宽度和高度滤除过宽或过高的连通体，并将重叠率较高的连通体合并；本发明通过图像采集、预处理、化验项目名称与化验结果的识别和定位、化验项目名称与化验结果的匹配等一系列过程，有效提高提取信息的效率和识别精度，信息识别速度快，方法简单，且适用于比较复杂的医疗检验单据的信息提取。

Description

一种医疗检验单的检验项信息自动提取方法

技术领域

本发明涉及的是字符识别技术领域，具体的说是一种医疗检验单的检验项信息自动提取方法。

背景技术

光学字符识别(OCR)技术作为图像识别领域的一大重要研究热点，主要针对文档图像中各种语言、字体等字符的识别，被广泛应用于各种证件识别、票据识别、标志牌识别、文档分析等人们生活、工作和学习的各个方面。关于OCR技术的研究始于20世纪初，经过近一个世纪的研究发展，OCR技术目前已可支持多种语言、针对多种场景并可结合不同平台进行开发，应用也日趋成熟，国内外有许多投入市场应用的OCR软件如Tesseract OCR、ABBYYFineReader、清华文通和清华紫光OCR、汉王OCR等等。

现有的字符识别方法基本可分为预处理、文本定位与字符分割、特征提取、分类识别及后处理等几大阶段，其识别率比较低，而且难以识别一些比较复杂的医疗检验单据。因此，目前还缺少一种完善的针对医疗检验单的检验项信息自动的提取方法。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种医疗检验单的检验项信息自动提取方法，通过图像采集、预处理、化验项目名称与化验结果的识别和定位、化验项目名称与化验结果的匹配等一系列过程，有效提高提取信息的效率和识别精度。

为实现上述目的，本发明采用的技术方案是：

一种医疗检验单的检验项信息自动提取方法，步骤如下：

1、图像采集：将医疗检验单通过摄像机或者相机进行拍照，完成图像采集；

2、预处理：将采集到的图像分别通过灰度化和自适应二值化处理为二值图像，并在二值图像上进行连通体搜索，得到所有的连通体信息；然后，根据连通体的宽度和高度滤除过宽或过高的连通体，并将重叠率较高的连通体合并；最后，根据每一连通体在多个方向上的识别可信度进行投票，得到医疗检验单拍照图像的正确定向结果；

3、化验项目名称与化验结果的识别和定位：对每一连通体按英文和数字进行字符识别，将识别可信度较高的连通体保留，并将垂直方向重叠、水平方向距离较近的连通体分别合并为英文数字字符组和汉字字符组；然后，考虑检验结果列有汉字结果的情况，对每一连通体及其可能的组合按汉字进行字符识别，将识别可信度较高的连通体或连通体组合保留，并将垂直方向重叠、水平方向距离较近的字符组合并，生成多个候选检验结果列，以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列；

4、化验项目名称和化验项目结果的匹配：首先，找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A；然后，以连通体A的上边界作为参考线，计算最顶端化验项目名称和化验结果距该参考线的Y方向距离，确定第一个化验项目名称对应的正确化验结果项，再根据第一对匹配结果的位置进行第二对结果的匹配，以此类推；最后，对于一对匹配结果，如果对应的化验项目名称是不匹配的候选项目名称，且化验结果不是数字、也不是匹配的英文关键词或汉字关键词，则认为该匹配结果无效，将位于顶端或底端的无效结果滤除。

采用上述结构后，本发明的有益效果为：本发明通过图像采集、预处理、化验项目名称与化验结果的识别和定位、化验项目名称与化验结果的匹配等一系列过程，有效提高提取信息的效率和识别精度，信息识别速度快，方法简单，且适用于比较复杂的医疗检验单据的信息提取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。

参看图1所示，本具体实施方式采用以下技术方案：一种医疗检验单的检验项信息自动提取方法，步骤如下：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种医疗检验单的检验项信息自动提取方法，其特征在于：步骤如下：

(1)、图像采集：将医疗检验单通过摄像机或者相机进行拍照，完成图像采集；

(2)、预处理：将采集到的图像分别通过灰度化和自适应二值化处理为二值图像，并在二值图像上进行连通体搜索，得到所有的连通体信息；然后，根据连通体的宽度和高度滤除过宽或过高的连通体，并将重叠率较高的连通体合并；最后，根据每一连通体在多个方向上的识别可信度进行投票，得到医疗检验单拍照图像的正确定向结果；

(3)、化验项目名称与化验结果的识别和定位：对每一连通体按英文和数字进行字符识别，将识别可信度较高的连通体保留，并将垂直方向重叠、水平方向距离较近的连通体分别合并为英文数字字符组和汉字字符组；然后，考虑检验结果列有汉字结果的情况，对每一连通体及其可能的组合按汉字进行字符识别，将识别可信度较高的连通体或连通体组合保留，并将垂直方向重叠、水平方向距离较近的字符组合并，生成多个候选检验结果列，以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列；

(4)、化验项目名称和化验项目结果的匹配：首先，找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A；然后，以连通体A的上边界作为参考线，计算最顶端化验项目名称和化验结果距该参考线的Y方向距离，确定第一个化验项目名称对应的正确化验结果项，再根据第一对匹配结果的位置进行第二对结果的匹配，以此类推；最后，对于一对匹配结果，如果对应的化验项目名称是不匹配的候选项目名称，且化验结果不是数字、也不是匹配的英文关键词或汉字关键词，则认为该匹配结果无效，将位于顶端或底端的无效结果滤除。