CN106991416A

CN106991416A - 一种基于手动拍照的化验单识别方法

Info

Publication number: CN106991416A
Application number: CN201710149906.3A
Authority: CN
Inventors: 尹建伟; 王宸敏; 邓水光; 李莹; 吴健; 吴朝晖; 章笠中
Original assignee: MEDICAL TECHNOLOGY Co Ltd; Zhejiang University ZJU
Current assignee: MEDICAL TECHNOLOGY Co Ltd; Zhejiang University ZJU
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2017-07-28

Abstract

本发明公开了一种基于手动拍照的化验单识别方法，包括：(1)化验单预处理；(2)化验单切割分栏；(3)化验单内容识别；(4)识别内容纠错。本发明方法规范化、细化化验单识别的基本流程，达到化验单识别流程的低耦合、高灵活性目的，实现化验单识别流程的预处理、切割分栏、识别、纠错阶段分离，在化验单识别流程的各个阶段最优化处理的结果，提高化验单识别结果的准确性。

Description

一种基于手动拍照的化验单识别方法

技术领域

本发明属于医疗OCR技术领域，具体涉及一种基于手动拍照的化验单识别方法。

背景技术

OCR(Optical Character Recognition，光学字符识别)是利用光学技术对文字和字符进行扫描，获取文字和字符的图像信息，利用各种模式识别算法对文字形态特征进行分析，判断出文字的标准编码，转化为计算机内码，并按通用格式存储在文本文件中，是一种快捷的文字输入方式。

OCR技术的发展，经历了如下几个阶段：第一阶段，识别印刷体的数字、英文及部分符号，并且需要是指定的字体；第二阶段，基于手写体字符识别；第三阶段，针对质量较差的文档及大字符集的识别。

我国OCR技术方面的研究工作伴随着OCR技术第三阶段的发展而起步，从印刷体单字体识别，到印刷体多字体识别，直至多字体大字符集简繁混排、中英文混排识别逐步发展。随着OCR技术的逐渐成熟，OCR技术开始应用于各个领域，OCR技术应用于证件识别、车牌识别、票据识别、银行卡识别、文档识别等，在银行、保险、金融、物流、审计、税务、海关、公安、边检等众多行业都已经形成市场成熟的OCR产品。OCR技术的应用减少了设备的配置，降低了人力成本，提高了工作效率。

OCR技术的广泛应用已经渗透到市场的各个领域，但对于医疗行业OCR技术的应用还处于起步和发展阶段，OCR技术应用于医疗行业的化验单识别还未形成成熟的、市场化的产品。另一方面，在医院进行常规检查后，人们希望了解检查的各项指标反映的身体情况，但没有权威的医生和医疗团队进行化验单的解读。因此，化验单识别和解读成为目前市场的强烈需求，规范化验单识别处理流程方法势在必行。

发明内容

鉴于上述，本发明提供了一种基于手动拍照的化验单识别方法，能够实现化验单的自动识别，从而最大化地提高化验单识别的准确率。

一种基于手动拍照的化验单识别方法，包括如下步骤：

(1)对化验单图像进行预处理；

(2)对预处理后的化验单图像进行切割分栏，以提取有效内容列；

(3)将所述的有效内容列逐个输入至开源引擎Tesseract中，得到有效内容列所对应的文本信息；

(4)对所述的文本信息进行纠错处理。

所述步骤(1)中对化验单图像进行预处理的过程如下：

1.1将化验单图像转换为灰度图后进行去噪处理；

1.2对去噪处理后的化验单图像进行二值化；

1.3对二值化后的化验单图像进行抗扭斜处理。

所述步骤1.1中采用高斯模糊去噪算法对灰度图进行去噪处理。

所述步骤1.2中的二值化过程为：初始化设定一个灰度阈值t，根据灰度阈值t将去噪处理后的化验单图像分割成前景和背景；然后计算前景像素所占比例w_f、背景像素所占比例w_b、前景像素的平均灰度值avg_f以及背景像素的平均灰度值avg_b，通过二分法对目标函数g(t)＝w_f×avg_f+w_b×avg_b进行优化求解，求解出目标函数g(t)最大化时所对应的灰度阈值t并使其作为全局最优阈值t_opt；最后利用全局最优阈值t_opt对去噪处理后的化验单图像进行分割，以实现图像二值化。

所述步骤1.3中的抗扭斜处理过程为：首先，对二值化后的化验单图像进行线段检测，并删除其中斜率超过一定阈值的线段；然后，对斜率相近且距离相近的线段进行合并，再删除长度小于一定阈值的线段；最后，对剩余线段的斜率取平均，按斜率平均值对二值化后的化验单图像进行偏转校正。

所述步骤(2)的具体实现过程如下：

2.1对预处理后的化验单图像在水平方向上进行区域分割，以得到若干个内容区域；

2.2对于任一内容区域，先忽略其位于图像顶端、底端、左侧和右侧的部分，然后检测其中每一列像素，令噪点(即二值化后标记为1的像素点)所占比例少于一定阈值的列作为空白列，其余作为内容列；

2.3合并相邻的内容列，进而对于合并后的内容列，令宽度小于一定阈值的内容列作为无效内容列，其余作为有效内容列提取。

所述步骤2.1中区域分割的具体过程为：首先，对预处理后的化验单图像进行线段检测，并删除其中斜率在水平斜率区间外的线段；然后，对斜率相近且距离相近的线段进行合并，再删除长度小于一定阈值的线段；最后，根据剩余的线段对预处理后的化验单图像在水平方向上进行区域分割。

所述线段检测采用基于LSD(Line Segment7Detector)的线段提取算法或基于Hough变换的线段提取算法。

所述步骤(4)的具体实现过程如下：

4.1根据历史各类化验单常规检查项，编辑建立医学词库；

4.2对于文本信息中的任一目标词，遍历计算该目标词与医学词库中所有词之间的编辑距离，取编辑距离最小的词组成该目标词的候选集；

4.3若候选集中只有一个词，则使该词作为目标词的纠错结果并进行替换；若候选集中有多个词，则找出这些词与目标词之间的区别字，遍历计算目标词与所有候选词之间关于区别字的相似度，取对应区别字相似度最大的候选词作为该目标词的纠错结果并进行替换。

所述步骤4.3中计算目标词与候选词之间关于区别字的相似度，具体过程为：首先，截取目标词与候选词之间区别字的字体图像，所述字体图像经二值化后分为黑白两色，黑色部分的像素标记为1，白色部分的像素标记为0；然后，统计两个区别字的字体图像中相同位置均标记为1的像素对数N，相同位置至少其中一个标记为1的像素对数M；最后，计算目标词与候选词之间关于区别字的相似度＝N/M。

本发明的有益技术效果如下：

(1)本发明引入了基于线段检测的化验单图像特征提取算法，通过筛选化验单图像中满足条件的线段，将化验单图像抗扭斜处理；此外，本发明利用化验单图像中的线段对化验单样式分类，针对不同样式化验单自适应的调节处理参数，从而最大化的实现化验单识别的准确率。

(2)本发明引入了建立化验单医学词库方法，针对垂直领域医学词库的特殊性，缩小词汇搜索范围，提高系统处理效率。

(3)本发明引入了结合编辑距离和文字图像相似度的纠错方案，编辑距离量化文字相似度，并通过文字图像相似度进一步量化文字最终相似度，将识别准确率提高10％，达到97％以上。

附图说明

图1为本发明方法的系统实现示意图。

图2为本发明方法的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1和图2所示，本发明基于手动拍照的化验单识别方法，包括如下步骤：

(1)化验单预处理。

依次对化验单图像进行清理背景、降噪、图像二值化、抗扭斜、摆正图像，输出预处理后的化验单图像，作为下一流程的图像输入。具体地：

首先，输入三通道RGB颜色空间化验单图像，根据灰度转换公式Gray＝R×0.299+G×0.587+B×0.114将图像转换成单通道灰度图像空间；对化验单灰度图像模糊处理，去除噪点，采用二维高斯函数：

其中：σ与模糊半径相关，但并不是模糊半径，σ确定权重分布的概率；假设模糊半径为r，σ取值为r/3，r的计算公式为

然后，进行权重分配，得到权重矩阵，并归一化处理；结合灰度图像，得到模糊处理后的图像。设置灰度图像前景与背景的分割阈值t，计算在当前阈值下，前景占图像比例为w_f，均值为avg_f，背景占图像比例为w_b，均值为avg_b，则整个图像的均值(加权均值)为avg＝w_f×avg_f+w_b×avg_b。令g(t)＝u，则g(t)＝w_f×avg_f+w_b×avg_b是关于分割阈值t的表达式，通过二分法求得g(t)最大值，此时t的取值为最佳阈值t_opt。以t_opt为全局阈值，将小于t_opt的灰度值像素点置为灰度极小值，大于t_opt的灰度值像素点置为灰度极大值，实现图像二值化。

对二值化后的化验单图像进行线段检测，并删除其中斜率超过一定阈值的线段；本实施方式采用基于LSD的线段提取算法，具体过程如下：

1.1以s＝0.8的尺度对输入化验单图像进行高斯下采样；

1.2计算每一个像素点的梯度值以及梯度方向；

1.3根据梯度值对所有像素点进行排序，建立状态列表，所有像素点设置为UNUSED；

1.4将梯度值小于ρ的点，状态表中相应位置设置为USED；

1.5取出列表中梯度最大(排列的首位)的点作为种子点seed，状态列表中设为USED；

1.6以seed为起点，搜索周围UNUSED，并且方向在阈值[-t,t]范围内的点，状态改为USED；

1.7生成包含所有满足点的矩形R；

1.8判断同性点密度是否满足阈值D，若不满足，截断R变为多个矩形框，直至满足；

1.9计算NFA；

1.10改变R使NFA的值更小直至NFA≤ε，R加入输出列表；

1.11根据步骤1.5至1.10，反复执行。

其中：s为化验单图像缩放尺度，ρ为梯度阈值，t为像素点个数阈值，D为类内点密度阈值，ε为NFA结束条件。

对斜率相近且距离相近的线段进行合并，再删除长度小于一定阈值的线段；邻近线段{R₁,R₂,…,R_n}合并：对于线段R_i，其有两个端点e_i1和e_i2，对于任意线段R_j(其中i≠j)，比较e_i1和e_j的距离，比较e_i2和e_j的距离。若端点之间的距离小于d_max，合并两个线段。例如，若distance(e_i1,e_j1)≤d_max，则从{R₁,R₂,…,R_n}集合中删除线段R_i和R_j，并加入新的线段R_new。重复上述步骤直至不再有新的线段可以合并产生，得到新的线段集合{R₁',R₂',…,R_m'}。

对于端点e，由两个整型量(x,y)表示其坐标，则两个端点的距离为：

distance(e₁,e₂)＝sqrt{(x₁-x₂)×(x₁-x₂)+(y₁-y₂)×(y₁-y₂)}

对合并后的线段集合{R₁',R₂',…,R_m'}进行筛选，筛选条件有两个：线段长度和线段倾斜度。len_min为线段长度阈值，θ_max为倾斜角度阈值。删除线段长度小于len_min的线段，删除线段倾斜角度大于θ_max的线段，得到满足条件的线段集合

{R₁″,R₂″,…,R_p″}。

对于线段R_i，其有两个端点e_i1和e_i2，则线段长度为len_Ri＝distance(e_i1,e_i2)；

对于线段R_i，其有两个端点e_i1(x₁,y₁)和e_i2(x₂,y₂)，则线段倾斜角度为：

若x₁≠x₂，则θ_R＝arctan{(y₁-y₂)/(x₁-x₂)}；否则，θ_R＝π/2。

最后，计算图像中线段整体倾斜角度，摆正图像：对满足条件的线段集合{R₁″,R₂″,…,R_p″}，计算每一条线段的倾斜角θ_R，取平均值θ_avg。θ_avg反映整张图像的扭斜程度，将图像旋转-θ_avg角度摆正。

(2)化验单切割分栏。

检测化验单图像线段，根据线段切割图像，获取化验单图像主体内容部分，将已分割的分块区域放入分块缓冲队列中。若分块缓冲对列为空，说明已经没有需要处理的化验单区域，整个识别过程结束。否则，针对切割的主体部分，按列分割，分割后的每一列为相同类型(名称、数值、单位)的内容。具体地：

按照线段所在直线将化验单图像切割成若干部分，线段长度不小于最小线段长度len_min，合并线段距离不超过合并最大距离d_max，线段斜率不超过最大线段斜率偏差θ_max，切割后图像宽度不小于最小图像宽度width_min，切割后图像高度不小于最小图像高度height_min。

本实施方式中，设定最小线段长度占图像长宽比例len_min＝0.22，合并最大距离占图像长宽比例d_max＝0.025，最大线段斜率偏差θ_max＝0.05，最小图像宽度占图像比例width_min＝0.15，最小图像高度占图像比例height_min＝0.5。

忽略图像顶端、底端、左侧、右侧部分，检测每一列是否为空白列，为了避免噪点对空白列的影响，噪点数少于noise_max的列为空白列，否则为内容列。内容列宽度小于width_min ^*时，为无效内容列，统一归为空白列。处理化验单图像每一列后得到的有效内容列为化验单图像最终按项划分的内容区域。

本实施方式中，设定忽略图像顶端、底端、左侧、右侧占图像长宽比例ignore＝0.02，最大噪点数占图像长宽比例noise_max＝0.002，内容列最小宽度占图像长宽比例width_min ^*＝0.07。

(3)化验单内容识别。

3.1训练数据；基于开源图像识别开源引擎Tesseract训练数据，提供文本数据，将文本数据转化为图片，生成Tesseract识别的符号列表属性、对每一个字符的字符形状模板、对每一个字符的期望特征数量。

3.2内容识别；对步骤(2)中已分割的每一列化验单部分，结合训练的数据，针对中文、字母、数字以不同的配置进行识别，提高识别率。

(4)识别内容纠错。

根据各类化验单常规检查项建立化验单词库，将步骤(3)中的识别结果与化验单词库计算编辑距离，选取最小编辑距离作为纠错候选项；若纠错候选项有多个，根据字符的相似性，选取最相似的字符作为纠错结果。具体地：

根据各类化验单常规检查项编辑建立化验单词库，将权利识别结果与化验单词库计算编辑距离。其中，编辑距离，指两个字符串之间，由一个转成另一个所需的编辑操作次数，许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。定义两个字符串s₁、s₂，他们的长度分别为len₁、len₂，dp[i][j]表示字符串s₁[0..i]和s₂[0..j]的最小编辑距离。其中，对于字符串s，s[0..i]表示以0为起始下标，长度为i的字符串s的子串，特别的，s[0..0]表示空串；具体过程如下：

4.1初始化dp[i][j]，若i＝0，则dp[i][j]＝j；若j＝0，则dp[i][j]＝i；

4.2状态转移方程，对于i＞0并且j＞0：

4.3对于i＝1→len₁，j＝1→len₂，计算dp[i][j]；

4.4字符串s₁和s₂最小编辑距离为dp[len₁][len₂]。

对常用汉字图像化，对每一张汉字图像，与剩余汉字图像进行相似度比较。比如两张汉字图像img₁与img₂，由于图像经过二值化(黑白两种颜色，黑色为内容区域，白色为空白区域)，计算两张图像的黑色重叠像素点个数，记为I＝img₁ ^black∩img₂ ^black；计算两张图像合并后的黑色像素点个数，记为U＝img₁ ^black∪img₂ ^black。那么，两张汉字图像的相似度为R＝I/U。所有的汉字图像两两计算相似度，每一个汉字取其前K大的值作为最相似的K个相似汉字。选取识别结果汉字中与其前K相似中最为相似R_max并且在化验单词库中的词作为最终纠错选项，若前K相似中的汉字没有在化验单词库中，则通过I、U、R计算方法直接计算识别结果汉字与化验单词库的相似度，选取最相似的化验单词库中的词作为最终纠错选项。

遍历此过程，直到所有分割列识别完成。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于手动拍照的化验单识别方法，包括如下步骤：

(1)对化验单图像进行预处理；

(4)对所述的文本信息进行纠错处理。

2.根据权利要求1所述的化验单识别方法，其特征在于：所述步骤(1)中对化验单图像进行预处理的过程如下：

1.1将化验单图像转换为灰度图后进行去噪处理；

1.2对去噪处理后的化验单图像进行二值化；

1.3对二值化后的化验单图像进行抗扭斜处理。

3.根据权利要求2所述的化验单识别方法，其特征在于：所述步骤1.1中采用高斯模糊去噪算法对灰度图进行去噪处理。

4.根据权利要求2所述的化验单识别方法，其特征在于：所述步骤1.2中的二值化过程为：初始化设定一个灰度阈值t，根据灰度阈值t将去噪处理后的化验单图像分割成前景和背景；然后计算前景像素所占比例w_f、背景像素所占比例w_b、前景像素的平均灰度值avg_f以及背景像素的平均灰度值avg_b，通过二分法对目标函数g(t)＝w_f×avg_f+w_b×avg_b进行优化求解，求解出目标函数g(t)最大化时所对应的灰度阈值t并使其作为全局最优阈值t_opt；最后利用全局最优阈值t_opt对去噪处理后的化验单图像进行分割，以实现图像二值化。

5.根据权利要求2所述的化验单识别方法，其特征在于：所述步骤1.3中的抗扭斜处理过程为：首先，对二值化后的化验单图像进行线段检测，并删除其中斜率超过一定阈值的线段；然后，对斜率相近且距离相近的线段进行合并，再删除长度小于一定阈值的线段；最后，对剩余线段的斜率取平均，按斜率平均值对二值化后的化验单图像进行偏转校正。

6.根据权利要求1所述的化验单识别方法，其特征在于：所述步骤(2)的具体实现过程如下：

2.2对于任一内容区域，先忽略其位于图像顶端、底端、左侧和右侧的部分，然后检测其中每一列像素，令噪点所占比例少于一定阈值的列作为空白列，其余作为内容列；

7.根据权利要求6所述的化验单识别方法，其特征在于：所述步骤2.1中区域分割的具体过程为：首先，对预处理后的化验单图像进行线段检测，并删除其中斜率在水平斜率区间外的线段；然后，对斜率相近且距离相近的线段进行合并，再删除长度小于一定阈值的线段；最后，根据剩余的线段对预处理后的化验单图像在水平方向上进行区域分割。

8.根据权利要求5或7所述的化验单识别方法，其特征在于：所述线段检测采用基于LSD的线段提取算法或基于Hough变换的线段提取算法。

9.根据权利要求1所述的化验单识别方法，其特征在于：所述步骤(4)的具体实现过程如下：

4.1根据历史各类化验单常规检查项，编辑建立医学词库；

10.根据权利要求9所述的化验单识别方法，其特征在于：所述步骤4.3中计算目标词与候选词之间关于区别字的相似度，具体过程为：首先，截取目标词与候选词之间区别字的字体图像，所述字体图像经二值化后分为黑白两色，黑色部分的像素标记为1，白色部分的像素标记为0；然后，统计两个区别字的字体图像中相同位置均标记为1的像素对数N，相同位置至少其中一个标记为1的像素对数M；最后，计算目标词与候选词之间关于区别字的相似度＝N/M。