CN108241862A - 一种医疗检验单的检验项信息自动提取方法 - Google Patents
一种医疗检验单的检验项信息自动提取方法 Download PDFInfo
- Publication number
- CN108241862A CN108241862A CN201810022957.4A CN201810022957A CN108241862A CN 108241862 A CN108241862 A CN 108241862A CN 201810022957 A CN201810022957 A CN 201810022957A CN 108241862 A CN108241862 A CN 108241862A
- Authority
- CN
- China
- Prior art keywords
- result
- connected component
- lab work
- laboratory test
- inspection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种医疗检验单的检验项信息自动提取方法,步骤如下:(1)、图像采集:将医疗检验单通过摄像机或者相机进行拍照,完成图像采集;(2)、预处理:将采集到的图像分别通过灰度化和自适应二值化处理为二值图像,并在二值图像上进行连通体搜索,得到所有的连通体信息;然后,根据连通体的宽度和高度滤除过宽或过高的连通体,并将重叠率较高的连通体合并;本发明通过图像采集、预处理、化验项目名称与化验结果的识别和定位、化验项目名称与化验结果的匹配等一系列过程,有效提高提取信息的效率和识别精度,信息识别速度快,方法简单,且适用于比较复杂的医疗检验单据的信息提取。
Description
技术领域
本发明涉及的是字符识别技术领域,具体的说是一种医疗检验单的检验项信息自动提取方法。
背景技术
光学字符识别(OCR)技术作为图像识别领域的一大重要研究热点,主要针对文档图像中各种语言、字体等字符的识别,被广泛应用于各种证件识别、票据识别、标志牌识别、文档分析等人们生活、工作和学习的各个方面。关于OCR技术的研究始于20世纪初,经过近一个世纪的研究发展,OCR技术目前已可支持多种语言、针对多种场景并可结合不同平台进行开发,应用也日趋成熟,国内外有许多投入市场应用的OCR软件如Tesseract OCR、ABBYYFineReader、清华文通和清华紫光OCR、汉王OCR等等。
现有的字符识别方法基本可分为预处理、文本定位与字符分割、特征提取、分类识别及后处理等几大阶段,其识别率比较低,而且难以识别一些比较复杂的医疗检验单据。因此,目前还缺少一种完善的针对医疗检验单的检验项信息自动的提取方法。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种医疗检验单的检验项信息自动提取方法,通过图像采集、预处理、化验项目名称与化验结果的识别和定位、化验项目名称与化验结果的匹配等一系列过程,有效提高提取信息的效率和识别精度。
为实现上述目的,本发明采用的技术方案是:
一种医疗检验单的检验项信息自动提取方法,步骤如下:
1、图像采集:将医疗检验单通过摄像机或者相机进行拍照,完成图像采集;
2、预处理:将采集到的图像分别通过灰度化和自适应二值化处理为二值图像,并在二值图像上进行连通体搜索,得到所有的连通体信息;然后,根据连通体的宽度和高度滤除过宽或过高的连通体,并将重叠率较高的连通体合并;最后,根据每一连通体在多个方向上的识别可信度进行投票,得到医疗检验单拍照图像的正确定向结果;
3、化验项目名称与化验结果的识别和定位:对每一连通体按英文和数字进行字符识别,将识别可信度较高的连通体保留,并将垂直方向重叠、水平方向距离较近的连通体分别合并为英文数字字符组和汉字字符组;然后,考虑检验结果列有汉字结果的情况,对每一连通体及其可能的组合按汉字进行字符识别,将识别可信度较高的连通体或连通体组合保留,并将垂直方向重叠、水平方向距离较近的字符组合并,生成多个候选检验结果列,以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列;
4、化验项目名称和化验项目结果的匹配:首先,找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A;然后,以连通体A的上边界作为参考线,计算最顶端化验项目名称和化验结果距该参考线的Y方向距离,确定第一个化验项目名称对应的正确化验结果项,再根据第一对匹配结果的位置进行第二对结果的匹配,以此类推;最后,对于一对匹配结果,如果对应的化验项目名称是不匹配的候选项目名称,且化验结果不是数字、也不是匹配的英文关键词或汉字关键词,则认为该匹配结果无效,将位于顶端或底端的无效结果滤除。
采用上述结构后,本发明的有益效果为:本发明通过图像采集、预处理、化验项目名称与化验结果的识别和定位、化验项目名称与化验结果的匹配等一系列过程,有效提高提取信息的效率和识别精度,信息识别速度快,方法简单,且适用于比较复杂的医疗检验单据的信息提取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
参看图1所示,本具体实施方式采用以下技术方案:一种医疗检验单的检验项信息自动提取方法,步骤如下:
1、图像采集:将医疗检验单通过摄像机或者相机进行拍照,完成图像采集;
2、预处理:将采集到的图像分别通过灰度化和自适应二值化处理为二值图像,并在二值图像上进行连通体搜索,得到所有的连通体信息;然后,根据连通体的宽度和高度滤除过宽或过高的连通体,并将重叠率较高的连通体合并;最后,根据每一连通体在多个方向上的识别可信度进行投票,得到医疗检验单拍照图像的正确定向结果;
3、化验项目名称与化验结果的识别和定位:对每一连通体按英文和数字进行字符识别,将识别可信度较高的连通体保留,并将垂直方向重叠、水平方向距离较近的连通体分别合并为英文数字字符组和汉字字符组;然后,考虑检验结果列有汉字结果的情况,对每一连通体及其可能的组合按汉字进行字符识别,将识别可信度较高的连通体或连通体组合保留,并将垂直方向重叠、水平方向距离较近的字符组合并,生成多个候选检验结果列,以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列;
4、化验项目名称和化验项目结果的匹配:首先,找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A;然后,以连通体A的上边界作为参考线,计算最顶端化验项目名称和化验结果距该参考线的Y方向距离,确定第一个化验项目名称对应的正确化验结果项,再根据第一对匹配结果的位置进行第二对结果的匹配,以此类推;最后,对于一对匹配结果,如果对应的化验项目名称是不匹配的候选项目名称,且化验结果不是数字、也不是匹配的英文关键词或汉字关键词,则认为该匹配结果无效,将位于顶端或底端的无效结果滤除。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (1)
1.一种医疗检验单的检验项信息自动提取方法,其特征在于:步骤如下:
(1)、图像采集:将医疗检验单通过摄像机或者相机进行拍照,完成图像采集;
(2)、预处理:将采集到的图像分别通过灰度化和自适应二值化处理为二值图像,并在二值图像上进行连通体搜索,得到所有的连通体信息;然后,根据连通体的宽度和高度滤除过宽或过高的连通体,并将重叠率较高的连通体合并;最后,根据每一连通体在多个方向上的识别可信度进行投票,得到医疗检验单拍照图像的正确定向结果;
(3)、化验项目名称与化验结果的识别和定位:对每一连通体按英文和数字进行字符识别,将识别可信度较高的连通体保留,并将垂直方向重叠、水平方向距离较近的连通体分别合并为英文数字字符组和汉字字符组;然后,考虑检验结果列有汉字结果的情况,对每一连通体及其可能的组合按汉字进行字符识别,将识别可信度较高的连通体或连通体组合保留,并将垂直方向重叠、水平方向距离较近的字符组合并,生成多个候选检验结果列,以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列;
(4)、化验项目名称和化验项目结果的匹配:首先,找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A;然后,以连通体A的上边界作为参考线,计算最顶端化验项目名称和化验结果距该参考线的Y方向距离,确定第一个化验项目名称对应的正确化验结果项,再根据第一对匹配结果的位置进行第二对结果的匹配,以此类推;最后,对于一对匹配结果,如果对应的化验项目名称是不匹配的候选项目名称,且化验结果不是数字、也不是匹配的英文关键词或汉字关键词,则认为该匹配结果无效,将位于顶端或底端的无效结果滤除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810022957.4A CN108241862A (zh) | 2018-01-10 | 2018-01-10 | 一种医疗检验单的检验项信息自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810022957.4A CN108241862A (zh) | 2018-01-10 | 2018-01-10 | 一种医疗检验单的检验项信息自动提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108241862A true CN108241862A (zh) | 2018-07-03 |
Family
ID=62699428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810022957.4A Withdrawn CN108241862A (zh) | 2018-01-10 | 2018-01-10 | 一种医疗检验单的检验项信息自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108241862A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558876A (zh) * | 2018-11-20 | 2019-04-02 | 浙江口碑网络技术有限公司 | 字符识别处理方法及装置 |
CN110456976A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 检验单处理方法及装置、存储介质和电子装置 |
CN114708603A (zh) * | 2022-05-25 | 2022-07-05 | 杭州咏柳科技有限公司 | 对医疗票据中关键信息的识别方法、系统、设备和介质 |
CN116434266A (zh) * | 2023-06-14 | 2023-07-14 | 邹城市人民医院 | 一种医疗检验单的数据信息自动提取分析方法 |
-
2018
- 2018-01-10 CN CN201810022957.4A patent/CN108241862A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558876A (zh) * | 2018-11-20 | 2019-04-02 | 浙江口碑网络技术有限公司 | 字符识别处理方法及装置 |
CN110456976A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 检验单处理方法及装置、存储介质和电子装置 |
CN110456976B (zh) * | 2019-07-29 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 检验单处理方法及装置、存储介质和电子装置 |
CN114708603A (zh) * | 2022-05-25 | 2022-07-05 | 杭州咏柳科技有限公司 | 对医疗票据中关键信息的识别方法、系统、设备和介质 |
CN116434266A (zh) * | 2023-06-14 | 2023-07-14 | 邹城市人民医院 | 一种医疗检验单的数据信息自动提取分析方法 |
CN116434266B (zh) * | 2023-06-14 | 2023-08-18 | 邹城市人民医院 | 一种医疗检验单的数据信息自动提取分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569832B (zh) | 基于深度学习注意力机制的文本实时定位识别方法 | |
CN108241862A (zh) | 一种医疗检验单的检验项信息自动提取方法 | |
Rehman et al. | Performance analysis of character segmentation approach for cursive script recognition on benchmark database | |
CN107346420A (zh) | 一种基于深度学习的自然场景下文字检测定位方法 | |
Agnihotri | Offline handwritten Devanagari script recognition | |
CN111027443B (zh) | 一种基于多任务深度学习的票据文本检测方法 | |
Zhou et al. | Detecting multilingual text in natural scene | |
Ma et al. | Segmentation and recognition for historical Tibetan document images | |
Chen et al. | Ground truth model, tool, and dataset for layout analysis of historical documents | |
CN110516673A (zh) | 基于连通分量和回归式字切分的彝文古籍字符检测方法 | |
Kesiman et al. | Southeast Asian palm leaf manuscript images: a review of handwritten text line segmentation methods and new challenges | |
Liu et al. | Stroke filter for text localization in video images | |
Zayene et al. | Open datasets and tools for arabic text detection and recognition in news video frames | |
Angadi et al. | A robust segmentation technique for line, word and character extraction from Kannada text in low resolution display board images | |
El Abbadi | Scene Text detection and Recognition by Using Multi-Level Features Extractions Based on You Only Once Version Five (YOLOv5) and Maximally Stable Extremal Regions (MSERs) with Optical Character Recognition (OCR) | |
Rashtehroudi et al. | PESTD: a large-scale Persian-English scene text dataset | |
JP5134383B2 (ja) | Ocr装置、証跡管理装置及び証跡管理システム | |
Gupta et al. | Table detection and metadata extraction in document images | |
AU2018100324B4 (en) | Image Analysis | |
Wang et al. | Text region extraction method for historical Tibetan document based on border detection | |
Rasheed et al. | Automatic Video Indexing and Retrieval System for Turkish Videos | |
Akhter et al. | Semantic segmentation of printed text from marathi document images using deep learning methods | |
Soheili et al. | Sub-word image clustering in Farsi printed books | |
Nguyen et al. | Information Extraction from Rich Text Images with RoBERTa and LION Optimizer | |
Reul | An Intelligent Semi-Automatic Workflow for Optical Character Recognition of Historical Printings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180703 |