CN117218672A

CN117218672A - 一种基于深度学习的病案文字识别方法及系统

Info

Publication number: CN117218672A
Application number: CN202311243479.7A
Authority: CN
Inventors: 张文砚; 彭京亮; 苏洁
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-12

Abstract

本申请公开了一种基于深度学习的病案文字识别方法及系统，对原始病案图像进行预处理，分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正；对预处理后图像的文本区域进行标注，得到文本检测训练数据集；使用DBNet网络对图片进行检测，获取图片中文本区域的边界框位置坐标；构建改进的SVTR模型，对文本检测到的区域提取特征，训练文字识别模型，对图片进行识别获得病案图片中的字符内容。确定待进行文字识别的图像后,对病案图像进行预处理,对预处理后的图像进行文本检测，将检测后的图像根据检测框进行分割，对单行文本进行识别，获得文字识别结果，对图像文字进行预测得到准确率极高的识别文字。

Description

一种基于深度学习的病案文字识别方法及系统

技术领域

本申请涉及图像识别技术领域，具体涉及一种基于深度学习的病案文字识别方法及系统。

背景技术

病案文字的识别对医学研究以及医院的质控管理极其重要。当前，大部分医院在完成数字化病案的采集工作时，只会提供住院病案的扫描图片以及纸质版病案。对于纸质版病案，工作人员必须先对纸质版病案进行采集，采集方法为使用一个拍摄终端，分别对每一页病案拍摄，拍摄后生成图片或PDF文件，最后对图片或PDF文件进行文字识别提取关键信息。

在现有的技术中，对病案文字识别存在以下三个问题：第一，纸质版病案的拍摄过程中作业人员不可能做到对病案完全水平放置，所以拍摄出的图片会有倾斜的现象；第二，病案文字图片大且文字密集，通用检测识别模型难以对文字准确定位；第三，由于病案文字本身的特殊性，会存在很多生僻字，这提高了识别的难度。如果病案文字的识别出现误识别、漏识别的情况，这对于医院来说是不可接受的。

因此，如何提高病案文字识别的准确性是本领域亟待解决的技术问题。

发明内容

本申请为了解决上述技术问题，提出了如下技术方案：

第一方面，本申请实施例提供了一种基于深度学习的病案文字识别方法，包括：

对原始病案图像进行预处理，分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正；

对预处理后图像的文本区域进行标注，得到文本检测训练数据集；

使用DBNet网络对图片进行检测，获取图片中文本区域的边界框位置坐标；

构建改进的SVTR模型，对文本检测到的区域提取特征，训练文字识别模型；

采用文字识别模型对图片进行识别，获得病案图片中的字符内容。

在一种可能的实现方式中，使用Canny边缘检测算法对图像进行边缘检测，包括：

使用高斯可导函数的滤波器计算梯度的强度；

使用5×5的高斯滤波器对图片中的噪声进行消除；

使用Sobel滤波器操作获得一阶导数，通过一阶导数对像素边缘渐变值和方向进行计算，计算公式如下：

其中，和/>分别代表图像在x和y方向上的梯度，对每个像素，计算出这两个方向的梯度，然后把它们平方并加起来，最后取平方根，得到的结果就是该像素的梯度强度，即边缘强度Edge gradient(G)；θ表示一个向量与x轴之间的角度，取值范围是-180°到180°，Angle(θ)表示计算角度θ的反正切值，其中G_x和G_y分别表示向量的水平分量和垂直分量。

接着对整张图片进行像素级查找、筛选，排除掉和边缘构造不相关的对象；

定义两个相反的阈值为高阈值和低阈值；

当梯度强度大于高阈值，判定像素对象为正，即为边缘区域；

当梯度强度小于低阈值，判定像素对象为负，即为非边缘区域；

当梯度强度在高阈值和低阈值之间，判断像素是否和有效边缘连同，如果连同，则此像素也标为有效边缘；

重复上面的操作，直到遍历完所有图像区域。

在一种可能的实现方式中，对原始病案图像进行边缘检测后，使用Hough直线检测算法对图像进行角度校正的过程包括：

使用极坐标系坐标来描述直角坐标轴的直线，对属于该直线上的每个x，y点，满足以下方程式：

ρ＝xcos(θ)+ysin(θ)

其中，ρ为从原点到直线的最短距离，θ为x轴和距离线之间的距离；

将参数空间量化为m×n个单元,并设置累加器矩阵Q_m×n；

给参数空间中的每个单元分配一个累加器Q_i,j,并把累加器的初始值置为零；

在参数空间中,找到θ和ρ所对应的单元,并将该单元的累加器加1,即Q_i,j＝Q_i,j+1；

当直角坐标系中的点都经过上述两步遍历后,检验参数空间中每个累加器的值,累加器值最大的单元所对应的θ为图像的倾斜角度；

用imrotate函数对图像进行旋转，获得角度校正后的图像。

在一种可能的实现方式中，所述对预处理后图像的文本区域进行标注，得到文本检测训练数据集，包括：

首先对病案图片进行筛选,对图片成像模糊的以及拍摄曝光严重或是欠曝光的图片筛出；

利用开源方法PPOCRLabel对病案照片进行标注,利用矩形框标注出照片文字并输出矩形框四角点的坐标以及中文字含义；

将输出的结果通过脚本改成ICDAR格式的文件用于后续的训练,所述格式的构成主要包括四个点的坐标和文字内容。

在一种可能的实现方式中，使用DBNet网络对图片进行检测，获取图片中文本区域的边界框位置坐标，包括：

调整DBNet训练的数据集参数，data_dir设置为数据集路径，label_file_list指向数据集标注文件，训练集与测试集的比例为9:1；

将图像输入ResNet50骨干网络中，对图像进行3×3卷积操作，分别获取原图大小比例的1/2，1/4，1/8，1/16，1/32的特征图；

自顶向下进行上采样×2，然后与自底向上生成的相同大小的特征图融合；

融合之后再采用3×3的卷积消除上采样的混叠效应；

经过FPN后，得到了四个大小分别为原图的1/4，1/8，1/16，1/32的特征图；

将四个特征图分别上采样，统一为1/4大小的特征图；

最后将四个1/4大小的特征图concat，得到特征F；

F经过卷积层，将通道压缩为输入的1/4，然后经过批量归一化和ReLU函数激活后，得到的特征图shape；

将得到的特征图进行反卷积操作，卷积核为2×2，得到的特征图shape为(batch,256,1/2W,1/2H)，此时为原图的1/2大小；

再进行反卷积操作，输出的特征图通道为1，得到的特征图shape为(batch,W,H)，此时为原图大小。

最后经过sigmoid函数，输出概率图P和阈值图T；

将概率图P和阈值图T经过可微二值化DB操作，得到近似二值图；

使用收缩的方式构建标签；

将原始的多边形文字区域G扩张到G_d,收缩的偏移量D按照如下公式计算:

其中，L为多边形的周长，A为多边形的面积，r为收缩因子，经验设置为0.4；

将收缩框G_s和扩张框G_d之间的间隙视为文本区域的边界，计算这个间隙里每个像素点到原始图像边界G的归一化距离；

再对计算完的值进行归一化，除以偏移量D,此时G_s和G_d上的值变为1，再用1减去这些值，此时G_s和G_d区域内的值的取值范围为[0,1]；

最后再进行缩放，得到最终的标签。

在一种可能的实现方式中，所述DBNet网络的损失函数为概率图的损失、二值化图的损失和阈值图的损失的和：

L＝L_s+α×L_b+β×L_t

其中，L为总的损失，L_b为近似二值图的损失，使用Dice损失，L_s为概率图损失，为平衡正负样本的比例，使用带OHEM的Dice损失进行困难样本挖掘，正样本:负样本＝1:3，L_t为阈值图损失，使用预测值和标签间的L₁距离，α和β为权重系数，分别设置为1和10；

其中，S_l表示使用OHEM进行采样，正负样本比例为1:3；

L_t计算预测值和标签间的L₁距离:

其中，R_d是扩展多边形G_d内像素的一组索引；y^*是阈值映射的标签。

在一种可能的实现方式中，所述构建改进的SVTR模型，对文本检测到的区域提取特征，训练文字识别模型，包括：

输入文本检测后的数据集，根据检测标签切分图像；

将新的图像按照9:1的比例生成训练集和测试集，data_dir设置为新的数据集路径，label_file_list指向新的数据集标注文件；

将图像输入SVTR骨干网络中，输入图像尺寸为H×W×3，使用两个连续3×3卷积和批量归一化来实现改进补丁嵌入得到大小的字符组件CC₀，这些字符组件用于表示字符笔画；

进入到第一阶段，将CC₀重塑到hw×d₀大小,然后将CC₀应用了层归一化LN，送入到全局混合或局部混合中，全局混合和局部混合模块使用根据应用场景不同设置也不同；

接下来，依次应用层归一化和一个多层感知机进行特征融合，将混合块重塑到h×w×d₀的嵌入，然后，在高度维度上使用步长为2的3×3卷积，在宽度维度上使用步长为1的卷积，随后进行层归一化，生成尺寸为

第一阶段出来后的字符组件CC₁尺寸为第二阶段重复第一阶段的操作，出来后的字符组件CC₂尺寸为/>在最后一个阶段，合并操作被合并操作所取代，先将高度维度池化为1，然后经过一个全连接层、非线性激活和dropout，将字符组件压缩为一个尺寸为/>特征序列C；

最后，对C进行并行线性预测并进行去重操作，得到字符序列。

第二方面，本申请实施例提供了一种基于深度学习的病案文字识别系统，包括：

预处理模块，用于对原始病案图像进行预处理，分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正；

文本标注模块，用于对预处理后图像的文本区域进行标注，得到文本检测训练数据集；

检测模块，用于使用DBNet网络对图片进行检测，获取图片中文本区域的边界框位置坐标；

文字识别模型训练模块，用于构建改进的SVTR模型，对文本检测到的区域提取特征，训练文字识别模型；

文字识别模块，用于采用文字识别模型对图片进行识别，获得病案图片中的字符内容。

在本申请实施例中，确定待进行文字识别的目标图像后,对病案图像进行预处理,对预处理后的图像进行文本检测，将检测后的图像根据检测框进行分割，对单行文本进行识别，获得文字识别结果，对图像文字进行预测得到准确率极高的识别文字。

附图说明

图1为本申请实施例提供的一种基于深度学习的病案文字识别方法的流程示意图；

图2为本申请实施例提供的预处理后的原始病案图像样本示意图；

图3为图2图像样本的标注结果示意图；

图4为图2图像样本的识别结果示意图；

图5为本申请实施例提供的一种基于深度学习的病案文字识别系统的示意图。

具体实施方式

下面结合附图与具体实施方式对本方案进行阐述。

参见图1，本申请实施例中的一种基于深度学习的病案文字识别方法，包括：

S101，对原始病案图像进行预处理，分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正。

本实施例中采用Canny边缘检测算法对图像进行边缘检测，然后采用Hough直线检测算法对边缘检测后的图像进行角度校正。

具体地，使用Canny边缘检测算法对图像进行边缘检测，包括：

使用高斯可导函数的滤波器计算梯度的强度；

使用5×5的高斯滤波器对图片中的噪声进行消除；

定义两个相反的阈值为高阈值和低阈值；

重复上面的操作，直到遍历完所有图像区域。

对原始病案图像进行边缘检测后，使用Hough直线检测算法对图像进行角度校正的过程包括：

ρ＝xcos(θ)+ysin(θ)

将参数空间量化为m×n个单元,并设置累加器矩阵Q_m×n；

用imrotate函数对图像进行旋转，获得角度校正后的图像。

S102，对预处理后图像的文本区域进行标注，得到文本检测训练数据集。

本实施例中，首先对病案图片进行筛选,对图片成像模糊的以及拍摄曝光严重或是欠曝光的图片筛出。利用开源方法PPOCRLabel对病案照片进行标注,利用矩形框标注出照片文字并输出矩形框四角点的坐标以及中文字含义。将输出的结果通过脚本改成ICDAR格式的文件用于后续的训练,所述格式的构成主要包括四个点的坐标和文字内容。参见图2为预处理后的原始病案图像样本，图3为标注结果示意图。

S103，使用DBNet网络对图片进行检测，获取图片中文本区域的边界框位置坐标。

本实施例中，首先调整DBNet训练的数据集参数，data_dir设置为数据集路径，label_file_list指向数据集标注文件，训练集与测试集的比例为9:1；

融合之后再采用3×3的卷积消除上采样的混叠效应；

将四个特征图分别上采样，统一为1/4大小的特征图；

最后将四个1/4大小的特征图concat，得到特征F；

最后经过sigmoid函数，输出概率图P和阈值图T；

使用收缩的方式构建标签；

最后再进行缩放，得到最终的标签。

本实施例中，所述DBNet网络的损失函数为概率图的损失、二值化图的损失和阈值图的损失的和：

L＝L_d+α×L_b+β×L_t

其中，S_l表示使用OHEM进行采样，正负样本比例为1:3；

L_t计算预测值和标签间的L₁距离:

S104，构建改进的SVTR模型，对文本检测到的区域提取特征，训练文字识别模型。

输入文本检测后的数据集，根据检测标签切分图像；

S105，采用文字识别模型对图片进行识别，获得病案图片中的字符内容。

参见图4，为最终的识别结果，对比图1和图4，图4中可以精确的将图1中记录的文字准确识别。

与上述实施例提供的一种基于深度学习的病案文字识别方法相对应，本申请还提供了一种基于深度学习的病案文字识别系统的实施例。

参见图5，基于深度学习的病案文字识别系统20，包括：

预处理模块201，用于对原始病案图像进行预处理，分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正；

文本标注模块202，用于对预处理后图像的文本区域进行标注，得到文本检测训练数据集；

检测模块203，用于使用DBNet网络对图片进行检测，获取图片中文本区域的边界框位置坐标；

文字识别模型训练模块204，用于构建改进的SVTR模型，对文本检测到的区域提取特征，训练文字识别模型；

文字识别模块205，用于采用文字识别模型对图片进行识别，获得病案图片中的字符内容

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的病案文字识别方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的病案文字识别方法，其特征在于，使用Canny边缘检测算法对图像进行边缘检测，包括：

使用高斯可导函数的滤波器计算梯度的强度；

使用5×5的高斯滤波器对图片中的噪声进行消除；

其中，和/>分别代表图像在x和y方向上的梯度，对每个像素，计算出这两个方向的梯度，然后把它们平方并加起来，最后取平方根，得到的结果就是该像素的梯度强度，即边缘强度Edge gradient(G)；θ表示一个向量与x轴之间的角度，取值范围是-180°到180°，Angle(θ)表示计算角度θ的反正切值，其中G_x和G_y分别表示向量的水平分量和垂直分量；

定义两个相反的阈值为高阈值和低阈值；

重复上面的操作，直到遍历完所有图像区域。

3.根据权利要求1或2所述的基于深度学习的病案文字识别方法，其特征在于，对原始病案图像进行边缘检测后，使用Hough直线检测算法对图像进行角度校正的过程包括：

ρ＝xcos(θ)+ysin(θ)

将参数空间量化为m×n个单元，并设置累加器矩阵Q_m×n；

给参数空间中的每个单元分配一个累加器Q_i，j，并把累加器的初始值置为零；

在参数空间中，找到θ和ρ所对应的单元，并将该单元的累加器加1，即Q_i,j＝Q_i，j+1；

当直角坐标系中的点都经过上述两步遍历后，检验参数空间中每个累加器的值，累加器值最大的单元所对应的θ为图像的倾斜角度；

用imrotate函数对图像进行旋转，获得角度校正后的图像。

4.根据权利要求1所述的基于深度学习的病案文字识别方法，其特征在于，所述对预处理后图像的文本区域进行标注，得到文本检测训练数据集，包括：

首先对病案图片进行筛选，对图片成像模糊的以及拍摄曝光严重或是欠曝光的图片筛出；

利用开源方法PPOCRLabel对病案照片进行标注，利用矩形框标注出照片文字并输出矩形框四角点的坐标以及中文字含义；

将输出的结果通过脚本改成ICDAR格式的文件用于后续的训练，所述格式的构成主要包括四个点的坐标和文字内容。

5.根据权利要求1所述的基于深度学习的病案文字识别方法，其特征在于，使用DBNet网络对图片进行检测，获取图片中文本区域的边界框位置坐标，包括：

调整DBNet训练的数据集参数，data_dir设置为数据集路径，label_fuile_list指向数据集标注文件，训练集与测试集的比例为9∶1；

融合之后再采用3×3的卷积消除上采样的混叠效应；

将四个特征图分别上采样，统一为1/4大小的特征图；

最后将四个1/4大小的特征图concat，得到特征F；

将得到的特征图进行反卷积操作，卷积核为2×2，得到的特征图shape为(batch，256，1/2W，1/2H)，此时为原图的1/2大小；

再进行反卷积操作，输出的特征图通道为1，得到的特征图shape为(batch，W，H)，此时为原图大小；

最后经过sigmoid函数，输出概率图P和阈值图T；

使用收缩的方式构建标签；

将原始的多边形文字区域G扩张到G_d，收缩的偏移量D按照如下公式计算：

再对计算完的值进行归一化，除以偏移量D，此时G_s和G_d上的值变为1，再用1减去这些值，此时G_s和G_d区域内的值的取值范围为[0，1]；

最后再进行缩放，得到最终的标签。

6.根据权利要求5所述的基于深度学习的病案文字识别方法，其特征在于，所述DBNet网络的损失函数为概率图的损失、二值化图的损失和阈值图的损失的和：

L＝L_s+α×L_b+β×L_t

其中，L为总的损失，L_b为近似二值图的损失，使用Dice损失，L_s为概率图损失，为平衡正负样本的比例，使用带OHEM的Dice损失进行困难样本挖掘，正样本∶负样本＝1∶3，L_t为阈值图损失，使用预测值和标签间的L₁距离，α和β为权重系数，分别设置为1和10；

其中，S_l表示使用OHEM进行采样，正负样本比例为1∶3；

L_t计算预测值和标签间的L₁距离：

7.根据权利要求1所述的基于深度学习的病案文字识别方法，其特征在于，所述构建改进的SVTR模型，对文本检测到的区域提取特征，训练文字识别模型，包括：

输入文本检测后的数据集，根据检测标签切分图像；

将新的图像按照9∶1的比例生成训练集和测试集，data_dir设置为新的数据集路径，label_file_list指向新的数据集标注文件；

进入到第一阶段，将CC₀重塑到hw×d₀大小，然后将CC₀应用了层归一化LN，送入到全局混合或局部混合中，全局混合和局部混合模块使用根据应用场景不同设置也不同；

8.一种基于深度学习的病案文字识别系统，其特征在于，包括：