CN117218672A - 一种基于深度学习的病案文字识别方法及系统 - Google Patents
一种基于深度学习的病案文字识别方法及系统 Download PDFInfo
- Publication number
- CN117218672A CN117218672A CN202311243479.7A CN202311243479A CN117218672A CN 117218672 A CN117218672 A CN 117218672A CN 202311243479 A CN202311243479 A CN 202311243479A CN 117218672 A CN117218672 A CN 117218672A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- picture
- character
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000003708 edge detection Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012937 correction Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 7
- 230000008602 contraction Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Abstract
本申请公开了一种基于深度学习的病案文字识别方法及系统,对原始病案图像进行预处理,分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正;对预处理后图像的文本区域进行标注,得到文本检测训练数据集;使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标;构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型,对图片进行识别获得病案图片中的字符内容。确定待进行文字识别的图像后,对病案图像进行预处理,对预处理后的图像进行文本检测,将检测后的图像根据检测框进行分割,对单行文本进行识别,获得文字识别结果,对图像文字进行预测得到准确率极高的识别文字。
Description
技术领域
本申请涉及图像识别技术领域,具体涉及一种基于深度学习的病案文字识别方法及系统。
背景技术
病案文字的识别对医学研究以及医院的质控管理极其重要。当前,大部分医院在完成数字化病案的采集工作时,只会提供住院病案的扫描图片以及纸质版病案。对于纸质版病案,工作人员必须先对纸质版病案进行采集,采集方法为使用一个拍摄终端,分别对每一页病案拍摄,拍摄后生成图片或PDF文件,最后对图片或PDF文件进行文字识别提取关键信息。
在现有的技术中,对病案文字识别存在以下三个问题:第一,纸质版病案的拍摄过程中作业人员不可能做到对病案完全水平放置,所以拍摄出的图片会有倾斜的现象;第二,病案文字图片大且文字密集,通用检测识别模型难以对文字准确定位;第三,由于病案文字本身的特殊性,会存在很多生僻字,这提高了识别的难度。如果病案文字的识别出现误识别、漏识别的情况,这对于医院来说是不可接受的。
因此,如何提高病案文字识别的准确性是本领域亟待解决的技术问题。
发明内容
本申请为了解决上述技术问题,提出了如下技术方案:
第一方面,本申请实施例提供了一种基于深度学习的病案文字识别方法,包括:
对原始病案图像进行预处理,分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正;
对预处理后图像的文本区域进行标注,得到文本检测训练数据集;
使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标;
构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型;
采用文字识别模型对图片进行识别,获得病案图片中的字符内容。
在一种可能的实现方式中,使用Canny边缘检测算法对图像进行边缘检测,包括:
使用高斯可导函数的滤波器计算梯度的强度;
使用5×5的高斯滤波器对图片中的噪声进行消除;
使用Sobel滤波器操作获得一阶导数,通过一阶导数对像素边缘渐变值和方向进行计算,计算公式如下:
其中,和/>分别代表图像在x和y方向上的梯度,对每个像素,计算出这两个方向的梯度,然后把它们平方并加起来,最后取平方根,得到的结果就是该像素的梯度强度,即边缘强度Edge gradient(G);θ表示一个向量与x轴之间的角度,取值范围是-180°到180°,Angle(θ)表示计算角度θ的反正切值,其中Gx和Gy分别表示向量的水平分量和垂直分量。
接着对整张图片进行像素级查找、筛选,排除掉和边缘构造不相关的对象;
定义两个相反的阈值为高阈值和低阈值;
当梯度强度大于高阈值,判定像素对象为正,即为边缘区域;
当梯度强度小于低阈值,判定像素对象为负,即为非边缘区域;
当梯度强度在高阈值和低阈值之间,判断像素是否和有效边缘连同,如果连同,则此像素也标为有效边缘;
重复上面的操作,直到遍历完所有图像区域。
在一种可能的实现方式中,对原始病案图像进行边缘检测后,使用Hough直线检测算法对图像进行角度校正的过程包括:
使用极坐标系坐标来描述直角坐标轴的直线,对属于该直线上的每个x,y点,满足以下方程式:
ρ=xcos(θ)+ysin(θ)
其中,ρ为从原点到直线的最短距离,θ为x轴和距离线之间的距离;
将参数空间量化为m×n个单元,并设置累加器矩阵Qm×n;
给参数空间中的每个单元分配一个累加器Qi,j,并把累加器的初始值置为零;
在参数空间中,找到θ和ρ所对应的单元,并将该单元的累加器加1,即Qi,j=Qi,j+1;
当直角坐标系中的点都经过上述两步遍历后,检验参数空间中每个累加器的值,累加器值最大的单元所对应的θ为图像的倾斜角度;
用imrotate函数对图像进行旋转,获得角度校正后的图像。
在一种可能的实现方式中,所述对预处理后图像的文本区域进行标注,得到文本检测训练数据集,包括:
首先对病案图片进行筛选,对图片成像模糊的以及拍摄曝光严重或是欠曝光的图片筛出;
利用开源方法PPOCRLabel对病案照片进行标注,利用矩形框标注出照片文字并输出矩形框四角点的坐标以及中文字含义;
将输出的结果通过脚本改成ICDAR格式的文件用于后续的训练,所述格式的构成主要包括四个点的坐标和文字内容。
在一种可能的实现方式中,使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标,包括:
调整DBNet训练的数据集参数,data_dir设置为数据集路径,label_file_list指向数据集标注文件,训练集与测试集的比例为9:1;
将图像输入ResNet50骨干网络中,对图像进行3×3卷积操作,分别获取原图大小比例的1/2,1/4,1/8,1/16,1/32的特征图;
自顶向下进行上采样×2,然后与自底向上生成的相同大小的特征图融合;
融合之后再采用3×3的卷积消除上采样的混叠效应;
经过FPN后,得到了四个大小分别为原图的1/4,1/8,1/16,1/32的特征图;
将四个特征图分别上采样,统一为1/4大小的特征图;
最后将四个1/4大小的特征图concat,得到特征F;
F经过卷积层,将通道压缩为输入的1/4,然后经过批量归一化和ReLU函数激活后,得到的特征图shape;
将得到的特征图进行反卷积操作,卷积核为2×2,得到的特征图shape为(batch,256,1/2W,1/2H),此时为原图的1/2大小;
再进行反卷积操作,输出的特征图通道为1,得到的特征图shape为(batch,W,H),此时为原图大小。
最后经过sigmoid函数,输出概率图P和阈值图T;
将概率图P和阈值图T经过可微二值化DB操作,得到近似二值图;
使用收缩的方式构建标签;
将原始的多边形文字区域G扩张到Gd,收缩的偏移量D按照如下公式计算:
其中,L为多边形的周长,A为多边形的面积,r为收缩因子,经验设置为0.4;
将收缩框Gs和扩张框Gd之间的间隙视为文本区域的边界,计算这个间隙里每个像素点到原始图像边界G的归一化距离;
再对计算完的值进行归一化,除以偏移量D,此时Gs和Gd上的值变为1,再用1减去这些值,此时Gs和Gd区域内的值的取值范围为[0,1];
最后再进行缩放,得到最终的标签。
在一种可能的实现方式中,所述DBNet网络的损失函数为概率图的损失、二值化图的损失和阈值图的损失的和:
L=Ls+α×Lb+β×Lt
其中,L为总的损失,Lb为近似二值图的损失,使用Dice损失,Ls为概率图损失,为平衡正负样本的比例,使用带OHEM的Dice损失进行困难样本挖掘,正样本:负样本=1:3,Lt为阈值图损失,使用预测值和标签间的L1距离,α和β为权重系数,分别设置为1和10;
其中,Sl表示使用OHEM进行采样,正负样本比例为1:3;
Lt计算预测值和标签间的L1距离:
其中,Rd是扩展多边形Gd内像素的一组索引;y*是阈值映射的标签。
在一种可能的实现方式中,所述构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型,包括:
输入文本检测后的数据集,根据检测标签切分图像;
将新的图像按照9:1的比例生成训练集和测试集,data_dir设置为新的数据集路径,label_file_list指向新的数据集标注文件;
将图像输入SVTR骨干网络中,输入图像尺寸为H×W×3,使用两个连续3×3卷积和批量归一化来实现改进补丁嵌入得到大小的字符组件CC0,这些字符组件用于表示字符笔画;
进入到第一阶段,将CC0重塑到hw×d0大小,然后将CC0应用了层归一化LN,送入到全局混合或局部混合中,全局混合和局部混合模块使用根据应用场景不同设置也不同;
接下来,依次应用层归一化和一个多层感知机进行特征融合,将混合块重塑到h×w×d0的嵌入,然后,在高度维度上使用步长为2的3×3卷积,在宽度维度上使用步长为1的卷积,随后进行层归一化,生成尺寸为
第一阶段出来后的字符组件CC1尺寸为第二阶段重复第一阶段的操作,出来后的字符组件CC2尺寸为/>在最后一个阶段,合并操作被合并操作所取代,先将高度维度池化为1,然后经过一个全连接层、非线性激活和dropout,将字符组件压缩为一个尺寸为/>特征序列C;
最后,对C进行并行线性预测并进行去重操作,得到字符序列。
第二方面,本申请实施例提供了一种基于深度学习的病案文字识别系统,包括:
预处理模块,用于对原始病案图像进行预处理,分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正;
文本标注模块,用于对预处理后图像的文本区域进行标注,得到文本检测训练数据集;
检测模块,用于使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标;
文字识别模型训练模块,用于构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型;
文字识别模块,用于采用文字识别模型对图片进行识别,获得病案图片中的字符内容。
在本申请实施例中,确定待进行文字识别的目标图像后,对病案图像进行预处理,对预处理后的图像进行文本检测,将检测后的图像根据检测框进行分割,对单行文本进行识别,获得文字识别结果,对图像文字进行预测得到准确率极高的识别文字。
附图说明
图1为本申请实施例提供的一种基于深度学习的病案文字识别方法的流程示意图;
图2为本申请实施例提供的预处理后的原始病案图像样本示意图;
图3为图2图像样本的标注结果示意图;
图4为图2图像样本的识别结果示意图;
图5为本申请实施例提供的一种基于深度学习的病案文字识别系统的示意图。
具体实施方式
下面结合附图与具体实施方式对本方案进行阐述。
参见图1,本申请实施例中的一种基于深度学习的病案文字识别方法,包括:
S101,对原始病案图像进行预处理,分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正。
本实施例中采用Canny边缘检测算法对图像进行边缘检测,然后采用Hough直线检测算法对边缘检测后的图像进行角度校正。
具体地,使用Canny边缘检测算法对图像进行边缘检测,包括:
使用高斯可导函数的滤波器计算梯度的强度;
使用5×5的高斯滤波器对图片中的噪声进行消除;
使用Sobel滤波器操作获得一阶导数,通过一阶导数对像素边缘渐变值和方向进行计算,计算公式如下:
其中,和/>分别代表图像在x和y方向上的梯度,对每个像素,计算出这两个方向的梯度,然后把它们平方并加起来,最后取平方根,得到的结果就是该像素的梯度强度,即边缘强度Edge gradient(G);θ表示一个向量与x轴之间的角度,取值范围是-180°到180°,Angle(θ)表示计算角度θ的反正切值,其中Gx和Gy分别表示向量的水平分量和垂直分量。
接着对整张图片进行像素级查找、筛选,排除掉和边缘构造不相关的对象;
定义两个相反的阈值为高阈值和低阈值;
当梯度强度大于高阈值,判定像素对象为正,即为边缘区域;
当梯度强度小于低阈值,判定像素对象为负,即为非边缘区域;
当梯度强度在高阈值和低阈值之间,判断像素是否和有效边缘连同,如果连同,则此像素也标为有效边缘;
重复上面的操作,直到遍历完所有图像区域。
对原始病案图像进行边缘检测后,使用Hough直线检测算法对图像进行角度校正的过程包括:
使用极坐标系坐标来描述直角坐标轴的直线,对属于该直线上的每个x,y点,满足以下方程式:
ρ=xcos(θ)+ysin(θ)
其中,ρ为从原点到直线的最短距离,θ为x轴和距离线之间的距离;
将参数空间量化为m×n个单元,并设置累加器矩阵Qm×n;
给参数空间中的每个单元分配一个累加器Qi,j,并把累加器的初始值置为零;
在参数空间中,找到θ和ρ所对应的单元,并将该单元的累加器加1,即Qi,j=Qi,j+1;
当直角坐标系中的点都经过上述两步遍历后,检验参数空间中每个累加器的值,累加器值最大的单元所对应的θ为图像的倾斜角度;
用imrotate函数对图像进行旋转,获得角度校正后的图像。
S102,对预处理后图像的文本区域进行标注,得到文本检测训练数据集。
本实施例中,首先对病案图片进行筛选,对图片成像模糊的以及拍摄曝光严重或是欠曝光的图片筛出。利用开源方法PPOCRLabel对病案照片进行标注,利用矩形框标注出照片文字并输出矩形框四角点的坐标以及中文字含义。将输出的结果通过脚本改成ICDAR格式的文件用于后续的训练,所述格式的构成主要包括四个点的坐标和文字内容。参见图2为预处理后的原始病案图像样本,图3为标注结果示意图。
S103,使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标。
本实施例中,首先调整DBNet训练的数据集参数,data_dir设置为数据集路径,label_file_list指向数据集标注文件,训练集与测试集的比例为9:1;
将图像输入ResNet50骨干网络中,对图像进行3×3卷积操作,分别获取原图大小比例的1/2,1/4,1/8,1/16,1/32的特征图;
自顶向下进行上采样×2,然后与自底向上生成的相同大小的特征图融合;
融合之后再采用3×3的卷积消除上采样的混叠效应;
经过FPN后,得到了四个大小分别为原图的1/4,1/8,1/16,1/32的特征图;
将四个特征图分别上采样,统一为1/4大小的特征图;
最后将四个1/4大小的特征图concat,得到特征F;
F经过卷积层,将通道压缩为输入的1/4,然后经过批量归一化和ReLU函数激活后,得到的特征图shape;
将得到的特征图进行反卷积操作,卷积核为2×2,得到的特征图shape为(batch,256,1/2W,1/2H),此时为原图的1/2大小;
再进行反卷积操作,输出的特征图通道为1,得到的特征图shape为(batch,W,H),此时为原图大小。
最后经过sigmoid函数,输出概率图P和阈值图T;
将概率图P和阈值图T经过可微二值化DB操作,得到近似二值图;
使用收缩的方式构建标签;
将原始的多边形文字区域G扩张到Gd,收缩的偏移量D按照如下公式计算:
其中,L为多边形的周长,A为多边形的面积,r为收缩因子,经验设置为0.4;
将收缩框Gs和扩张框Gd之间的间隙视为文本区域的边界,计算这个间隙里每个像素点到原始图像边界G的归一化距离;
再对计算完的值进行归一化,除以偏移量D,此时Gs和Gd上的值变为1,再用1减去这些值,此时Gs和Gd区域内的值的取值范围为[0,1];
最后再进行缩放,得到最终的标签。
本实施例中,所述DBNet网络的损失函数为概率图的损失、二值化图的损失和阈值图的损失的和:
L=Ld+α×Lb+β×Lt
其中,L为总的损失,Lb为近似二值图的损失,使用Dice损失,Ls为概率图损失,为平衡正负样本的比例,使用带OHEM的Dice损失进行困难样本挖掘,正样本:负样本=1:3,Lt为阈值图损失,使用预测值和标签间的L1距离,α和β为权重系数,分别设置为1和10;
其中,Sl表示使用OHEM进行采样,正负样本比例为1:3;
Lt计算预测值和标签间的L1距离:
其中,Rd是扩展多边形Gd内像素的一组索引;y*是阈值映射的标签。
S104,构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型。
输入文本检测后的数据集,根据检测标签切分图像;
将新的图像按照9:1的比例生成训练集和测试集,data_dir设置为新的数据集路径,label_file_list指向新的数据集标注文件;
将图像输入SVTR骨干网络中,输入图像尺寸为H×W×3,使用两个连续3×3卷积和批量归一化来实现改进补丁嵌入得到大小的字符组件CC0,这些字符组件用于表示字符笔画;
进入到第一阶段,将CC0重塑到hw×d0大小,然后将CC0应用了层归一化LN,送入到全局混合或局部混合中,全局混合和局部混合模块使用根据应用场景不同设置也不同;
接下来,依次应用层归一化和一个多层感知机进行特征融合,将混合块重塑到h×w×d0的嵌入,然后,在高度维度上使用步长为2的3×3卷积,在宽度维度上使用步长为1的卷积,随后进行层归一化,生成尺寸为
第一阶段出来后的字符组件CC1尺寸为第二阶段重复第一阶段的操作,出来后的字符组件CC2尺寸为/>在最后一个阶段,合并操作被合并操作所取代,先将高度维度池化为1,然后经过一个全连接层、非线性激活和dropout,将字符组件压缩为一个尺寸为/>特征序列C;
最后,对C进行并行线性预测并进行去重操作,得到字符序列。
S105,采用文字识别模型对图片进行识别,获得病案图片中的字符内容。
参见图4,为最终的识别结果,对比图1和图4,图4中可以精确的将图1中记录的文字准确识别。
与上述实施例提供的一种基于深度学习的病案文字识别方法相对应,本申请还提供了一种基于深度学习的病案文字识别系统的实施例。
参见图5,基于深度学习的病案文字识别系统20,包括:
预处理模块201,用于对原始病案图像进行预处理,分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正;
文本标注模块202,用于对预处理后图像的文本区域进行标注,得到文本检测训练数据集;
检测模块203,用于使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标;
文字识别模型训练模块204,用于构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型;
文字识别模块205,用于采用文字识别模型对图片进行识别,获得病案图片中的字符内容
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于深度学习的病案文字识别方法,其特征在于,包括:
对原始病案图像进行预处理,分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正;
对预处理后图像的文本区域进行标注,得到文本检测训练数据集;
使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标;
构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型;
采用文字识别模型对图片进行识别,获得病案图片中的字符内容。
2.根据权利要求1所述的基于深度学习的病案文字识别方法,其特征在于,使用Canny边缘检测算法对图像进行边缘检测,包括:
使用高斯可导函数的滤波器计算梯度的强度;
使用5×5的高斯滤波器对图片中的噪声进行消除;
使用Sobel滤波器操作获得一阶导数,通过一阶导数对像素边缘渐变值和方向进行计算,计算公式如下:
其中,和/>分别代表图像在x和y方向上的梯度,对每个像素,计算出这两个方向的梯度,然后把它们平方并加起来,最后取平方根,得到的结果就是该像素的梯度强度,即边缘强度Edge gradient(G);θ表示一个向量与x轴之间的角度,取值范围是-180°到180°,Angle(θ)表示计算角度θ的反正切值,其中Gx和Gy分别表示向量的水平分量和垂直分量;
接着对整张图片进行像素级查找、筛选,排除掉和边缘构造不相关的对象;
定义两个相反的阈值为高阈值和低阈值;
当梯度强度大于高阈值,判定像素对象为正,即为边缘区域;
当梯度强度小于低阈值,判定像素对象为负,即为非边缘区域;
当梯度强度在高阈值和低阈值之间,判断像素是否和有效边缘连同,如果连同,则此像素也标为有效边缘;
重复上面的操作,直到遍历完所有图像区域。
3.根据权利要求1或2所述的基于深度学习的病案文字识别方法,其特征在于,对原始病案图像进行边缘检测后,使用Hough直线检测算法对图像进行角度校正的过程包括:
使用极坐标系坐标来描述直角坐标轴的直线,对属于该直线上的每个x,y点,满足以下方程式:
ρ=xcos(θ)+ysin(θ)
其中,ρ为从原点到直线的最短距离,θ为x轴和距离线之间的距离;
将参数空间量化为m×n个单元,并设置累加器矩阵Qm×n;
给参数空间中的每个单元分配一个累加器Qi,j,并把累加器的初始值置为零;
在参数空间中,找到θ和ρ所对应的单元,并将该单元的累加器加1,即Qi,j=Qi,j+1;
当直角坐标系中的点都经过上述两步遍历后,检验参数空间中每个累加器的值,累加器值最大的单元所对应的θ为图像的倾斜角度;
用imrotate函数对图像进行旋转,获得角度校正后的图像。
4.根据权利要求1所述的基于深度学习的病案文字识别方法,其特征在于,所述对预处理后图像的文本区域进行标注,得到文本检测训练数据集,包括:
首先对病案图片进行筛选,对图片成像模糊的以及拍摄曝光严重或是欠曝光的图片筛出;
利用开源方法PPOCRLabel对病案照片进行标注,利用矩形框标注出照片文字并输出矩形框四角点的坐标以及中文字含义;
将输出的结果通过脚本改成ICDAR格式的文件用于后续的训练,所述格式的构成主要包括四个点的坐标和文字内容。
5.根据权利要求1所述的基于深度学习的病案文字识别方法,其特征在于,使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标,包括:
调整DBNet训练的数据集参数,data_dir设置为数据集路径,label_fuile_list指向数据集标注文件,训练集与测试集的比例为9∶1;
将图像输入ResNet50骨干网络中,对图像进行3×3卷积操作,分别获取原图大小比例的1/2,1/4,1/8,1/16,1/32的特征图;
自顶向下进行上采样×2,然后与自底向上生成的相同大小的特征图融合;
融合之后再采用3×3的卷积消除上采样的混叠效应;
经过FPN后,得到了四个大小分别为原图的1/4,1/8,1/16,1/32的特征图;
将四个特征图分别上采样,统一为1/4大小的特征图;
最后将四个1/4大小的特征图concat,得到特征F;
F经过卷积层,将通道压缩为输入的1/4,然后经过批量归一化和ReLU函数激活后,得到的特征图shape;
将得到的特征图进行反卷积操作,卷积核为2×2,得到的特征图shape为(batch,256,1/2W,1/2H),此时为原图的1/2大小;
再进行反卷积操作,输出的特征图通道为1,得到的特征图shape为(batch,W,H),此时为原图大小;
最后经过sigmoid函数,输出概率图P和阈值图T;
将概率图P和阈值图T经过可微二值化DB操作,得到近似二值图;
使用收缩的方式构建标签;
将原始的多边形文字区域G扩张到Gd,收缩的偏移量D按照如下公式计算:
其中,L为多边形的周长,A为多边形的面积,r为收缩因子,经验设置为0.4;
将收缩框Gs和扩张框Gd之间的间隙视为文本区域的边界,计算这个间隙里每个像素点到原始图像边界G的归一化距离;
再对计算完的值进行归一化,除以偏移量D,此时Gs和Gd上的值变为1,再用1减去这些值,此时Gs和Gd区域内的值的取值范围为[0,1];
最后再进行缩放,得到最终的标签。
6.根据权利要求5所述的基于深度学习的病案文字识别方法,其特征在于,所述DBNet网络的损失函数为概率图的损失、二值化图的损失和阈值图的损失的和:
L=Ls+α×Lb+β×Lt
其中,L为总的损失,Lb为近似二值图的损失,使用Dice损失,Ls为概率图损失,为平衡正负样本的比例,使用带OHEM的Dice损失进行困难样本挖掘,正样本∶负样本=1∶3,Lt为阈值图损失,使用预测值和标签间的L1距离,α和β为权重系数,分别设置为1和10;
其中,Sl表示使用OHEM进行采样,正负样本比例为1∶3;
Lt计算预测值和标签间的L1距离:
其中,Rd是扩展多边形Gd内像素的一组索引;y*是阈值映射的标签。
7.根据权利要求1所述的基于深度学习的病案文字识别方法,其特征在于,所述构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型,包括:
输入文本检测后的数据集,根据检测标签切分图像;
将新的图像按照9∶1的比例生成训练集和测试集,data_dir设置为新的数据集路径,label_file_list指向新的数据集标注文件;
将图像输入SVTR骨干网络中,输入图像尺寸为H×W×3,使用两个连续3×3卷积和批量归一化来实现改进补丁嵌入得到大小的字符组件CC0,这些字符组件用于表示字符笔画;
进入到第一阶段,将CC0重塑到hw×d0大小,然后将CC0应用了层归一化LN,送入到全局混合或局部混合中,全局混合和局部混合模块使用根据应用场景不同设置也不同;
接下来,依次应用层归一化和一个多层感知机进行特征融合,将混合块重塑到h×w×d0的嵌入,然后,在高度维度上使用步长为2的3×3卷积,在宽度维度上使用步长为1的卷积,随后进行层归一化,生成尺寸为
第一阶段出来后的字符组件CC1尺寸为第二阶段重复第一阶段的操作,出来后的字符组件CC2尺寸为/>在最后一个阶段,合并操作被合并操作所取代,先将高度维度池化为1,然后经过一个全连接层、非线性激活和dropout,将字符组件压缩为一个尺寸为/>特征序列C;
最后,对C进行并行线性预测并进行去重操作,得到字符序列。
8.一种基于深度学习的病案文字识别系统,其特征在于,包括:
预处理模块,用于对原始病案图像进行预处理,分别使用Canny边缘检测算法和Hough直线检测算法对图像进行边缘检测和角度校正;
文本标注模块,用于对预处理后图像的文本区域进行标注,得到文本检测训练数据集;
检测模块,用于使用DBNet网络对图片进行检测,获取图片中文本区域的边界框位置坐标;
文字识别模型训练模块,用于构建改进的SVTR模型,对文本检测到的区域提取特征,训练文字识别模型;
文字识别模块,用于采用文字识别模型对图片进行识别,获得病案图片中的字符内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311243479.7A CN117218672A (zh) | 2023-09-26 | 2023-09-26 | 一种基于深度学习的病案文字识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311243479.7A CN117218672A (zh) | 2023-09-26 | 2023-09-26 | 一种基于深度学习的病案文字识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218672A true CN117218672A (zh) | 2023-12-12 |
Family
ID=89044116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311243479.7A Pending CN117218672A (zh) | 2023-09-26 | 2023-09-26 | 一种基于深度学习的病案文字识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218672A (zh) |
-
2023
- 2023-09-26 CN CN202311243479.7A patent/CN117218672A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
US9767371B2 (en) | Systems and methods for identifying traffic control devices and testing the retroreflectivity of the same | |
US8611662B2 (en) | Text detection using multi-layer connected components with histograms | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
US9558403B2 (en) | Chemical structure recognition tool | |
US20230099984A1 (en) | System and Method for Multimedia Analytic Processing and Display | |
TW200529093A (en) | Face image detection method, face image detection system, and face image detection program | |
CN111626249B (zh) | 题目图像中几何图形的识别方法、装置和计算机存储介质 | |
CN113435407B (zh) | 一种输电系统的小目标识别方法及装置 | |
CN111461101A (zh) | 工服标志的识别方法、装置、设备及存储介质 | |
US20200302135A1 (en) | Method and apparatus for localization of one-dimensional barcodes | |
CN108961262B (zh) | 一种复杂场景下的条码定位方法 | |
Giri | Text information extraction and analysis from images using digital image processing techniques | |
WO2022121021A1 (zh) | 一种身份证号码检测方法、装置、可读存储介质和终端 | |
CN113887472A (zh) | 基于级联颜色及纹理特征注意力的遥感图像云检测方法 | |
Fang et al. | 1-D barcode localization in complex background | |
US20030210818A1 (en) | Knowledge-based hierarchical method for detecting regions of interest | |
CN111008635A (zh) | 一种基于ocr的多票据自动识别方法及识别系统 | |
Satish et al. | Edge assisted fast binarization scheme for improved vehicle license plate recognition | |
Sushma et al. | Text detection in color images | |
CN117218672A (zh) | 一种基于深度学习的病案文字识别方法及系统 | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
CN114445788A (zh) | 车辆停放检测方法、装置、终端设备和可读存储介质 | |
CN113887652A (zh) | 基于形态和多示例学习的遥感图像弱小目标检测方法 | |
MAARIR et al. | Building detection from satellite images based on curvature scale space method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |