CN117496518A - 基于文本检测和表格检测的电子卷宗图像智能矫正方法 - Google Patents

基于文本检测和表格检测的电子卷宗图像智能矫正方法 Download PDF

Info

Publication number
CN117496518A
CN117496518A CN202311683618.8A CN202311683618A CN117496518A CN 117496518 A CN117496518 A CN 117496518A CN 202311683618 A CN202311683618 A CN 202311683618A CN 117496518 A CN117496518 A CN 117496518A
Authority
CN
China
Prior art keywords
image
detection
text
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311683618.8A
Other languages
English (en)
Inventor
王敬逾
禹晶
肖创柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202311683618.8A priority Critical patent/CN117496518A/zh
Publication of CN117496518A publication Critical patent/CN117496518A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于文本检测和表格检测的电子卷宗图像智能矫正方法,首先对图像进行预处理,消除对边界线检测的影响。然后利用文本检测算法构建文本检测模型,计算图像中文本区域文本的边界线范围;利用目标检测算法构建表格检测模型,计算图像中表格区域表格的边界线范围;利用轻量级深度学习神经网络框架构建大角度识别模型,识别电子卷宗图像的大范围倾斜角度。根据拟合后的边界线得到文本区域的倾斜角度,根据拟合后的边界线得到表格区域的倾斜角度,对文本图像和表格图像采用不同的矫正方式。最后对图像进行后处理。本方法通过深度学习的方式训练得到的模型能达到更好的矫正效果,有效减少因人为操作不当导致的矫正效果不理想等问题。

Description

基于文本检测和表格检测的电子卷宗图像智能矫正方法
技术领域
本发明基于深度学习技术,提出了一种针对司法领域中的电子卷宗图像的智能矫正方法。属于计算机视觉技术领域,具体涉及深度学习、目标检测等技术。
背景技术
与其他行业相比,法律业务场景中充斥着浩繁的卷宗,近年来各类型法律案件数量激增,纸质卷宗的各种缺点被逐渐暴露出来,催化了卷宗数字化、智能化的普及。随着计算机技术的不断发展,电子卷宗图像凭借其便于存储和查找、传播快捷简便等优势,被越来越多的人们所接受。纸质卷宗转化为电子卷宗图像需要借助于扫描仪、相机、智能手机等工具进行拍摄或扫描,这个过程中不可避免的会出现扫描后的电子卷宗图像扭曲变形等问题,不利于后续的阅读和ocr文字识别。
图像矫正在ocr识别中是一个很重要的应用。ocr识别是通过一系列技术将图翻译成文本的过程,通过ocr识别出的结果,可以为上层应用提供便利,对材料进行分析提取。例如在法院立案及案件审理过程中,随时都有卷宗材料生成,这些都是需要扫描归档的。由于扫描时的各种失误,极易导致图像发生倾斜,不仅不美观,而且对于图像信息的利用也有一定影响。这时候矫正就发挥了重大的作用,对图像进行矫正然后通过ocr文字识别将图像中的信息转换成文本,提高识别准确度。
电子卷宗图像大部分为文档图像,包含文字、表格、图片等内容,扫描后图像可能会出现简单倾斜或者梯形倾斜,现有的针对这两类倾斜图像基本都采用传统的图像处理方法,由于传统方法对两类倾斜图像矫正方式不同,并且无法区分是哪种倾斜,因此很多场景下图像矫正默认进行简单倾斜的图像矫正,梯形倾斜需要后续发现时手动将图像的四个边界框出然后才能进行图像梯形矫正。
传统方法对于简单倾斜的矫正:其中一种常用方法是基于方向投影的方法:利用图像的一个共同特点就是需要矫正的图像前景是矩形或者类矩形。比如,表格轮廓和票据等都有一个矩形框,通过计算矩形的倾斜角度来矫正图像。这种方法的缺点是只能对具有矩形特征的图像矫正,如果图像没有明显的矩形特性时,该方法效果不理想甚至失效。此外,如果图像只有纯文本且文本倾斜时,虽然纸张有矩形特性,但是由于纸张不属于前景,前景中没有矩形框于是该方法没办法矫正图像。另一种常用方法是基于Hough变换方法:扫描图像中文本特征,拟合直线,通过计算直线的斜率来矫正图像。这种方法的缺点是Hough变换的时间复杂度大,特别是图像、文字等目标像素点较多时,处理时间太长,并且前景目标如文字等较少或没有时,拟合结果准确度会很低,或者前景目标如二维码等较为集中时,拟合结果准确度会很低。
传统方法对于梯形倾斜的矫正:其中一种是矫正梯形畸变的系统及方法:首先获取投影参数,然后确定投影区域和适合于所述投影区域内部的最佳可视矩形区域,通过一个与存在于最佳可视矩形区域的顶点和投影区域的对应顶点之间的变换对应的畸变变换,特征化由投影引起的畸变,最后翻转所述畸变变换并将其应用于输入图像,以获得无畸变的投影图像。该方法利用投影参数和设备来找到对应的转换顶点,对于没有设备信息的图像来说难以实现。另一种常用的是基于显示的四点定位校正畸形的算法:利用定位设备的显示系统中设定的四个定位点坐标,通过在对应的X轴和Y轴坐标加入相应的变形补偿量计算与四个定位点匹配映射的四个显示点。该方法对于不同种类的图像难以适用,如表格类与图形类图像效果不好,并且图像内容定位点的计算也有一定的不准确。
虽然采用传统方法内存占用比较轻量,但速度和矫正准确率并不优秀,对文本和表格的部分倾斜不能找到合适的矫正角度,重要的是不能自动矫正梯形倾斜图像,包含人工参与的过程会导致效率大大降低。虽然纸质卷宗出现梯形倾斜的数量较少,或者只是小角度的梯形倾斜,但也有自动矫正的必要,目的是减少人为操作次数。图像需要人工处理,不仅增加了用户的操作难度,降低了批量图像优化处理的速度,无法满足用户大批量的图像处理需求,而且可能因为人为框选不当导致矫正效果不理想。近年来随着深度学习的不断发展,为图像矫正提供了新的发展思路。
文本检测利用计算机视觉技术和图像处理方法,通过分析图像的特征、边缘检测以及物体识别,对图像中的文本区域进行定位,通过文本检测可以得到文本区域的边界。表格检测是指从图像或文档中自动检测和提取出表格结构,通过表格检测可以得到表格区域的边界。
发明内容
考虑到电子卷宗图像的日益增加、传统识别方法效果有限等问题,本发明提出一种基于文本检测和表格检测的电子卷宗图像智能矫正方法。这种方法无需区分图像的倾斜是简单倾斜还是梯型倾斜,可以对两类倾斜图像自动矫正,无需人为操作,并且通过深度学习的方式训练得到的模型能达到更好的矫正效果,有效减少因人为操作不当导致的矫正效果不理想等问题。
本发明采用的技术方案为基于文本检测和表格检测的电子卷宗图像智能矫正方法,首先对图像进行预处理,消除对边界线检测的影响。然后利用文本检测算法构建文本检测模型,计算图像中文本区域文本的边界线范围;利用目标检测算法构建表格检测模型,计算图像中表格区域表格的边界线范围;利用轻量级深度学习神经网络框架构建大角度识别模型,识别电子卷宗图像的大范围倾斜角度。接下来根据拟合后的边界线得到文本区域的倾斜角度,根据拟合后的边界线得到表格区域的倾斜角度,对文本图像和表格图像采用不同的矫正方式。最后对图像进行后处理,包括利用构建的大角度识别模型识别电子卷宗图像的大范围倾斜角度并进行旋转矫正。包括如下步骤:
步骤1,基于深度学习模型的训练;
(1)构建深度学习模型模型;
本发明的训练对象为电子卷宗图像,为了有效检测出图像的倾斜程度,首先构建基于文本检测算法DBNet(Differentiable Binarization)的文本检测模型,在预训练数据集上学习电子卷宗图像文本区域的边界特征,该文本检测模型使用可微二值且自适应阈值以及可变卷积,提取到的特征更精确,分类及预测也更准确;
构建基于目标检测算法YOLOv5(You Only Look Once)的表格检测模型,在预训练数据集上学习电子卷宗图像表格区域的边界特征,该表格检测模型是一种全面而高效的目标检测模型,适用于多种应用场景,在保持高性能的同时,提供轻量级、高效率和通用性;
构建基于轻量级深度学习神经网络框架MobileNetV3的大角度识别模型,在预训练数据集上学习电子卷宗图像的大角度倾斜程度,该大角度识别模型设计轻量、计算效率高并且延迟低,可以及时有效的检测出图像的大角度偏转。
(2)深度学习模模型预训练;
对于文本检测模型、表格检测模型,数据集为搜集的电子卷宗图像以及带有文本和表格的图像共6700个,其中电子卷宗图像大部分是通过扫描仪扫描纸质文档和高拍仪高拍纸质文档得到,并且带有具体信息的地方经过数据脱敏,具体信息被抹掉。上述数据集包含了不同光照条件、倾斜程度、图像质量的纯文本、纯表格、纯图片以及三者均有的混合图像,可以有效学习不同条件下的深度特征;对于大角度识别模型,数据集为搜集到的3000张图像,包括不同尺度、光照条件、拍摄角度的图像,拍摄角度有四种:0°、90°、180°、270°,可以有效学习不同条件下的深度特征。
步骤2,电子卷宗图像预处理;
首先对电子卷宗图像进行预处理,预处理包括直方图均衡化、噪点过滤和黑边去除,消除对图像四个轮廓边发现的影响,提高文档四个边缘点的检测准确性。
(1)直方图均衡化
把原始图像的直方图变换为均匀分布的形式,增加像素之间灰度值差别的动态范围,达到增强图像整体对比度的效果。
(2)噪点过滤
降低噪点对图像的可视化干扰,采用传统的图像降噪方法对图像进行处理。
(3)黑边去除
对降噪后的图像进行边缘检测、提取边缘最大面积轮廓、生成图像掩码图的操作,最后对原图像采用像素值替换的方法去除图像黑边。
步骤3,图像矫正
预处理完的图像进行图像矫正,包括图像分类、轮廓线检测、边缘点计算和图像矫正。
(1)图像分类
电子卷宗图像主要为文档图像,包含文本、表格、图片等主体内容,将预处理后的图像进行分类,根据主体内容的所占比例判断将该图像归为文本类图像、表格类图像和图形类图像中的哪中,再根据分类结果对每种类型做不同的后续处理。
(2)轮廓线检测
轮廓线检测采用曲线相似度算法完成,曲线相似度算法是一组用于比较和度量两个或多个曲线之间相似程度的技术,相似曲线的拟合是指通过某种数学模型或函数来逼近或拟合一组相似的曲线,以便找到一个共同的模式或趋势。
(3)边缘点计算
对检测到的四个轮廓线进行交点计算,得到电子卷宗图像内容的左上、右上、左下、右下四个边缘点。
(4)图像倾斜矫正
以四个边缘点为远点,以新页面的四个端点为目标点,利用透视变换,完成梯形畸变的矫正。
步骤4,图像后处理
对矫正后的电子卷宗图像进行后处理,消除检测偏差带来的矫正后的图像质量问题,并应用大角度识别模型识别图像是否是大角度偏转并进行旋转矫正,最终得到处理完成的图像。
附图说明
图1基于文本检测和表格检测的电子卷宗图像智能矫正方法流程图。
图2文本检测模型整体结构图。
图3文本检测模型骨干网络结构图。
图4图像黑边去除流程图。
具体实施方式
根据上述描述,以下是一个具体的实施流程,但本专利所保护的范围并不限于该实施流程。
本方法的主要流程见附图1,将电子卷宗图像矫正方法分为以下四个步骤:基于深度学习的模型训练、图像预处理、图像矫正、图像后处理。
步骤1:基于深度学习的模型训练
步骤1.1:模型构建
步骤1.1.1:基于深度学习的文本检测模型构建
本文采用基于分割的方法来检测任意形状的文本实例,使用特征金字塔网络(Feature Pyramid Network,FPN)作为基础网络架构,ResNet-50作为骨干网络。网络整体结构见附图2,骨干网络的结构见附图3。从骨干网络输出的四个特征图经过FPN处理得到四个128通道的特征图{f2,f3,f4,f5}。为了平滑相加后的特征和减少计算量,使用1×1卷积约束特征图fi的通道数为64,输出四个特征图{P2,P3,P4,P5}。由于现有的文本检测数据集仅提供粗粒度的边界标注,在标注框内有很多背景像素,并且文本结构往往具有极端的长宽比,因此需要为模型提供更灵活的感受野,以便在提取特征时将更多的关注点聚焦在文本上。基于此,将ResNet-50主干中conv3、conv4和conv5阶段的3×3卷积使用可变形卷积替代。
输入h×w×3的图像,首先经过ResNet-50的五层卷积。五层卷积分别得到原尺寸1/2、1/4、1/8、1/16、1/32大小的特征图,通道数分别是64、128、256、512、1024。对1/32大小的特征图进行卷积,卷积核大小1×1,通道数为128,然后利用激活函数Relu和最大池化得到特征图f5为h/32×w/32×128;对特征图f5上采样2倍得到h/16×w/16×128与开始得到的1/16的特征图逐元素相加得到新的1/16的特征图f4;同理,对特征图f4上采样2倍得到的h/8×w/8×128与开始得到的1/8特征图逐元素相加得到新的1/8特征图f3;对特征图f3上采样2倍得到的h/4×w/4×128与开始得到的1/4特征图逐元素相加得到新的1/4特征图f2,到此得到特征图{f2,f3,f4,f5},分别为{h/4×w/4×128,h/8×w/8×128,h/16×w/16×128,h/32×w/32×128}。对fi执行卷积操作,卷积核大小为1×1,通道数为64:对特征图f5执行卷积后上采样8倍得到P5,对特征图f4执行卷积后上采样4倍得到P4,对特征图f3执行卷积后上采样2倍得到P3,对特征图f2执行卷积后得到P2,到此得到特征图{P2,P3,P4,P5},大小均为h/4×w/4×64,将其逐元素相加得到新的1/4原尺寸大小的特征图F。接下来根据特征F用于预测概率图P(probability map)和阈值图T(threshold map),最后通过P和F得到对文本进行范围框标注的近似二值图。
步骤1.1.2:基于深度学习的表格检测模型构建
表格检测采用目标检测算法YOLOv5作为检测模型。YOLOv5(You Only Look Onceversion 5)是目标检测领域的一种深度学习模型,它是YOLO系列的第五个版本,YOLO以其实时性和较高的准确性而受到广泛关注。YOLOv5的网络结构主要包括骨干网络、特征金字塔网络、PANet和输出层。
骨干网络(Backbone):YOLOv5使用CSPDarknet53作为骨干网络,其中CSP表示Cross-Stage Partial Networks。CSPDarknet53是Darknet53的改进版本,通过在网络的中间阶段引入跨阶段局部连接,提高了特征的传播效率。特征金字塔网络(FPN):FPN用于融合不同层级的特征图,以捕获不同尺度上的目标信息。这有助于在图像中检测不同大小的目标。PANet(Path Aggregation Network):PANet用于进一步提高特征的语义信息,并通过级联特征金字塔网络的方式,聚合不同阶段的特征图,增强网络对目标的理解。输出层:YOLOv5的输出层包括多个检测头,每个检测头负责预测不同尺度上的目标。每个检测头输出的预测包括目标的类别概率、边界框的位置和目标的置信度。YOLOv5通过这样的网络结构组合,能够在不同尺度上有效地检测目标,并具有较高的准确性和推理速度。这个网络结构的设计考虑了目标检测任务的多尺度特性,使得模型在处理不同大小的目标时能够更加灵活和准确。
步骤1.1.3:基于深度学习的大角度识别模型构建
MobileNetV3是Google提出的一种轻量级神经网络架构,在目标识别、分类等任务上取得了良好的性能,具有较小的模型体积和较低的计算复杂度,适用于嵌入式设备和移动端应用。MobileNetV3采用了轻量级的网络结构,包括多个独立的块(blocks),每个块包含一系列的深度可分离卷积(depthwise separable convolution)和激活函数。MobileNetV3引入了两种主要类型的块,分别是Inverted Residual Block和LinearBottleneck Block,这些块旨在提高模型的非线性表示能力和信息流动性。MobileNetV3使用了一种称为"Hard Swish"的激活函数,它在保持计算效率的同时提供了更好的非线性表达。MobileNetV3引入了网络宽度倍数(width multiplier)和分辨率倍数(resolutionmultiplier)的概念,允许根据具体需求调整模型大小和性能。MobileNetV3在设计上注重轻量级和高效性能,通过网络设计和优化,以适应移动设备等资源受限的环境。
步骤1.2:神经网络预训练
步骤1.2.1:构建预训练数据集
对于文本检测模型、表格检测模型,数据集为搜集的关于电子卷宗图像以及带有文本和表格的图像共6700个,包含了不同光照条件、倾斜程度、图像质量的纯文本、纯表格、纯图片以及三者均有的混合图像,并利用数据增广算法进行旋转(-10°~10°)、变色等操作;对于大角度识别模型,数据集为搜集到的3000张图像,包括不同尺度、光照条件、拍摄角度的图像,拍摄角度包括四种大角度:0°、90°、180°、270°。
步骤1.2.2:模型预训练
步骤1.2.2.1:文本检测模型预训练
在基于分割的文本检测网络中,最终的二值化map都是使用固定阈值来获取,并且阈值不同对性能影响较大。在DB算法中,对每一个像素点进行自适应二值化,二值化阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。网络结构的输出中:probability map,w×h×1,代表像素点是文本的概率;threshold map,w×h×1,代表每个像素点的阈值;binary map,w×h×1,由probability map和thresholdmap计算得到。
loss函数如公式(1)所示,Ls是收缩之后文本实例的loss,Lb是二值化之后的收缩文本实例loss,Lt是二值化阈值map的loss,两个值α=1.0,β=10.0,这里的Lt使用10的weight是因为Lt的结果会影响到Ls的结果。Ls、Lb都使用带OHEM的BCE Loss,Lt使用L1 Loss。
L=Ls+α×Lb+β×Lt(1)
BCE Loss(Binary Cross Entropy Loss)是深度学习中用于二分类问题的损失函数,如公式(2)所示,通常用于衡量模型在二分类任务中输出与实际标签之间的差异。BCELoss的目标是最小化模型输出与实际标签之间的交叉熵,使得模型的预测更接近真实标签。OHEM(Online Hard Example Mining)是一种在线困难样本挖掘的方法,在结合OHEM的情况下BCE Loss通常为带有样本加权的形式,以便更好地处理困难样本。
N是样本数量;ωi是样本的权重,用于调整每个样本对损失的贡献,平衡正负样本或调整每个样本的重要性,ωi的选择取决于样本的类别分布和任务需求;xi是模型的预测概率,yi是实际的标签,取值为0或1;yi log(xi)中当样本标签yi为1时,表示正样本,此项对应于交叉熵损失中的正样本部分,用于衡量模型对正样本的预测概率的拟合程度;(1-yi)log(1-xi)中当样本标签yi为0时,表示负样本,此项对应于交叉熵损失中的负样本部分,用于衡量模型对负样本的预测概率的拟合程度。
L1 Loss,也被称为Mean Absolute Error(MAE),是回归问题中常用的损失函数之一,如公式(3)所示,用于衡量模型的预测值与实际值之间的平均绝对误差,模型的输出是连续的数值。L1 Loss的特点是对异常值(outliers)不敏感,因为它对误差的绝对值进行了求和,而不是误差的平方。在优化过程中,模型通过最小化L1 Loss调整参数,使得模型的预测值更接近实际值的绝对差。
N是样本数量,xi是模型的预测值,yi是实际的标签,|xi-yi|表示预测值xi与实际值yi之间的绝对差,衡量了每个样本的预测误差;对所有样本的误差进行求和,得到总的绝对误差;/>对总的绝对误差进行均值化,计算平均绝对误差,为了得到每个样本的平均误差,使损失值不会受到样本数量的影响。
步骤1.2.2.2:表格检测模型预训练
YOLOv5采用CIOU_LOSS作为bounding box的损失函数,旨在优化目标检测中预测框与真实框之间的重叠度,最小化预测框与真实框之间的距离度量,促使模型更好地预测目标框。此外,YOLOv5采用NMS非极大值抑制算法找到最佳的目标边界框,消除冗余的边界框。NMS算法流程为:1.对所有预测框的置信度降序排序;2.选出置信度最高的预测框,确认其为正确预测,并计算他与其他预测框的IOU;3.根据步骤2中计算的IOU去除重叠度高的,IOU>threshold阈值就直接删除;4.剩下的预测框返回第1步,直到没有剩下的为止。其中IOU表示一种指标,通过计算两个边界框(或区域)的交集与并集之间的比率衡量模型预测的框与实际目标框之间的重叠程度。
整个模型的算流程为:
(1)多尺度训练(Multi-scale training)。如果网络的输入是416×416。那么训练的时候就会从0.5×416到1.5×416中任意取值,但所取的值都是32的整数倍。
(2)训练开始前使用学习率预热(learning rate warmup)进行训练。在模型预训练阶段,先使用较小的学习率训练一些epochs或者steps(如4个epoch或10000个step),再修改为预先设置的学习率进行训练。
(3)使用cosine学习率下降策略(Cosine LR scheduler),主要思想是通过余弦函数的形式调整学习率,以在训练的过程中平滑地降低学习率,有助于模型更好地收敛到最优解。
(4)采用EMA更新权重(Exponential Moving Average),相当于训练时给参数赋予一个动量,这样更新起来就会更加平滑。
(5)使用amp进行混合精度训练(Mixed precision),能够减少显存的占用并且加快训练速度,但是需要GPU支持。
步骤1.2.2.3:大角度识别模型预训练
MobileNetV3的网络结构主要涉及两个主要类型的块(blocks):InvertedResidual Block和Linear Bottleneck Block。Inverted Residual Block输入低维度的输入特征,首先通过轻量级深度可分离卷积进行特征提取,然后应用Hard Swish激活函数,接着使用线性投影扩展特征,最后使用残差连接将输入与输出相加,得到高维度的输出特征。Hard Swish用于神经网络中的非线性变换,如公式(4)所示,旨在提高计算效率和模型性能。MobileNetV3采用CIOU_LOSS作为损失函数优化目标检测中预测框与真实框之间的重叠度,采用SGD作为优化算法来最小化选择的损失函数。在每个训练迭代中,将批量的图像和标签提供给模型计算损失,并使用反向传播算法更新模型的权重。使用验证数据集对模型进行评估,指标包括分类准确率、目标检测的精度、召回率等。根据验证结果,调整超参数,如学习率、正则化参数等,以优化模型性能。
Hard Swish(x)=x·ReLU6(x+3)/6(4)
x是输入,ReLU6表示Rectified Linear Unit 6,即min(max(x,0),6)。Hard Swish通过引入了x+3的偏移来提高饱和度,同时保留了Swish的非线性性质。
SGD(Stochastic Gradient Descent,随机梯度下降)是一种用于训练机器学习模型的优化算法,如公式(5)所示。它是梯度下降算法的一种变体,通常用于大规模数据集或在线学习环境。SGD的基本思想是通过随机选择数据集中的一个样本来估计整体的梯度,并使用该梯度来更新模型的参数。这样的随机性使得SGD更加高效,特别是在大规模数据集上,因为它不需要在每一轮迭代中都计算所有样本的梯度。SGD在训练过程中对每个样本进行随机抽样,因此它具有一定的随机性,这有助于跳出局部极小值。然而,由于随机性,SGD的参数更新可能会在训练过程中出现波动,因此通常需要调整学习率或使用学习率调度策略。
θt是第t步迭代后的模型参数,η是学习率,控制更新步长,是损失函数J对参数θt的梯度,计算时仅考虑随机选择的一个样本(xi,yi)。
步骤2:图像预处理
对电子卷宗图像进行预处理,预处理包括直方图均衡化、噪点过滤和黑边去除,消除对后期图像内容的四个轮廓边发现的影响,提高图像内容的四个边缘点的检测准确性。
步骤2.1:直方图均衡化
直方图均衡化是一种简单有效的图像增强技术,通过改变图像的直方图来改变图像中各像素的灰度,主要用于增强动态范围偏小的图像的对比度。原始图像由于其灰度分布可能集中在较窄的区间,造成图像不够清晰。例如,过曝光图像的灰度级集中在高亮度范围内,而曝光不足将使图像灰度级集中在低亮度范围内。采用直方图均衡化,可以把原始图像的直方图变换为均匀分布的形式,这样就增加了像素之间灰度值差别的动态范围,从而达到增强图像整体对比度的效果。
步骤2.2:噪点过滤
噪点过滤是一种图像处理技术,用于减少图像中的噪点、干扰或随机噪声,以改善图像的质量和可视化效果。噪声通常是由于图像获取过程中的传感器噪声、环境干扰、压缩算法等原因引起的,去噪旨在降低噪点对图像的可视化干扰,采用传统的图像降噪方法对图像进行处理。
步骤2.3:黑边去除
黑边去除流程见附图4。对经过降噪预处理后的图像进行边缘检测,对图像中各个像素点进行微分或者二阶求导,得出扫描图像边缘轮廓,生成边缘检测图像。边缘检测图像是通过边缘检测算法得到的二值化图像,边缘位置像素值为1,非边缘为0。图像掩码图的生成,是根据在原有图像的基础上,生成一张和原图一样大小的黑色图片,并在黑色图片中投影原有图像的最大轮廓,即将边缘检测图像中值为1的边缘像素标记为255,值为0的非边缘像素标记为0;通过opencv接口填充最大轮廓内的点为白点,从而生成一张黑白二值化的掩码图。对原图像提取空白部分的背景颜色,找到掩码图黑色区域的像素点在原图像中的对应位置,将像素值替换为提取的背景颜色像素值,这样图像上的简单黑边便被去除。
步骤3:图像矫正
电子卷宗图像预处理完进行图像矫正,包括图像分类、轮廓线检测、边缘点计算和图像倾斜矫正。
步骤3.1:图像分类
根据文本检测模型和表格检测模型将图像大致分为三类图像,检测方式为:利用文本检测模型检测一幅图像中的所有文本行,如果行数超过设定的第一阈值,则判定该图像为文本类图像;再利用表格检测模型检测一幅图像中的所有横向和纵向表格线,如果横向和纵向的表格线个数之和超过第二阈值,则判定该图像为表格类图像;否则判定为图形类图像。第一阈值和第二阈值为10或根据实际情况设定为其他数值。
步骤3.2:轮廓线检测
对三种类别图像的轮廓线检测方式不同,文本类和表格类根据文本检测模型和表格检测模型得到坐标结果集,将坐标结果集整合得到轮廓线,图形类根据传统的图像处理方式得到轮廓线。
(1)文本类
首先查找所有文本行和列,计算得到每一行与每一列的首字位置和末尾字位置。对于查找到的n行文字,连接任意两个行首字,连接任意两个行末尾字,分别形成n×(n-1)/2根竖直线,利用曲线相似度算法,分别完成行首字竖直线的相似曲线的拟合和行末尾字竖直线的相似曲线的拟合,用拟合的行首字曲线和行末尾字曲线分别作为纵向的左轮廓线和右轮廓线。对于查找到的m列文字,连接任意两个列首字,连接任意两个列末尾字,分别形成m×(m-1)/2根横直线,利用曲线相似度算法,分别完成列首字横直线的相似曲线的拟合和列末尾字横直线的相似曲线的拟合,用拟合的列首字曲线和列末尾字曲线分别作为横向的上轮廓线和下轮廓线。
(2)表格类
首先查找所有表格行和表格列。对于查找到的n个表格行,利用曲线相似度算法,完成相似曲线的拟合,用拟合曲线代表上轮廓线和下轮廓线的方向,然后分别上移和下移到第一行与最后一行的位置,得到上轮廓线和下轮廓线。对于查找到的m个表格列,利用曲线相似度算法,完成相似曲线的拟合,用拟合曲线代表左轮廓线和右轮廓线的方向,然后分别向左右两侧平移到最左侧与最右侧,得到左轮廓线和右轮廓线。
(3)图像类
利用直方图投影,分别向水平和垂直方向投影,得到对应的行数和列数。对于垂直方向的直方图,找到每一行的最左端点,将任意两行的最左端点连成直线,利用曲线相似度算法,完成相似曲线的拟合,得到拟合后的左轮廓线;找到每一行的最右端点,将任意两行的最右端点连成直线,利用曲线相似度算法,完成相似曲线的拟合,得到拟合后的右轮廓线。对水平方向的直方图,找到每一列的最上端点,将任意两列的最上端点连成直线,利用曲线相似度算法,完成相似曲线的拟合,得到拟合后的上轮廓线;找到每一列的最下端点,将任意两列的最下端点连成直线,利曲线相似度算法,完成相似曲线的拟合,得到拟合后的下轮廓线。
步骤3.3:边缘点计算
对三种类型图像在轮廓线检测步骤经过曲线相似拟合得到图像内容的四个最外层轮廓线进行交点计算,得到图像内容左上、右上、左下、右下四个边缘点(x1,y1)(x2,y2)(x3,y3)(x4,y4)。
步骤3.4:图像倾斜矫正
以四个边缘点为远点,以新页面的四个端点为目标点,利用透视变换,完成梯形畸变的矫正。具体步骤为:以检测到的图像内容的四个边缘点计算得到这个文字块的高度h与宽度w,以原图像内容的左上点(x,y)为基准,对应为变换后文档的左上点,再根据h和w计算得到变换后图像的新边缘点为右上点(x+w,y)、右下点(x+w,y+h)、左下点(x,y+h)。根据变换前图像的四个边缘点(标记为src)以及变换后图像的四个边缘点(标记为dst),通过opencv提供的方法A=cv2.getPerspectiveTransform(src,dst)得到变换矩阵A,通过A以及opencv提供的warpPerspective方法计算得到原图对应的变换文档中所有对应点的坐标,即warp=cv2.warpPerspective(img,A,img_size,flags=cv2.INTER_LINEAR),其中img表示原图,image_size表示原图大小,flags标记了插值拟合的方式为INTER_LINEAR。
步骤4:图像后处理
矫正后的图像由于检测的精准度以及曲线相似拟合的程度不同,可能会出现简单黑边问题,按照图像预处理的黑边处理方式,对图像矫正后产生的简单黑边进行处理,对个边缘均采用背景采样的方法,取得邻近背景色,填充变换后的边缘,消除变换后黑边的情况。消除完黑边的矫正图像可能会出现大角度的偏转,需要对0、90、180、270四类大角度进行识别,调用大角度识别模型检测并进行旋转纠正,得到最终智能矫正后的输出图像。
一、实验结果说明
评价指标:P(Precision精确率)、R(Recall召回率)、F(F1 Score)。
Precision表示模型预测为正例中有多少是真正的正例,如公式(6)所示。TP(TruePositive)表示被模型正确预测为正例的样本数,FP(False Positive)表示被模型错误预测为正例的样本数。
Precision=TP/(TP+FP) (6)
Recall表示真正的正例中有多少被模型成功预测为正例,如公式(7)所示。TP(True Positive)表示被模型正确预测为正例的样本数,FN(False Negative)表示被模型错误预测为负例的样本数。
Recall=TP/(TP+FN) (7)
F1 Score是综合考虑Precision和Recall的平衡指标,如公式(8)所示。
F1=2×(Precision×Recall)/(Precision+Recall)(8)
实验证实,基于DBNet和YOLOv5等算法,利用文本检测和表格检测,可以在ICDAR2015任意四边形文本数据集上实现91.8%的准确率、83.2%的召回率以及87.3的F1值,在ICDAR2013表格数据集上实现85.2%的准确率、93.4%的召回率以及89.1%的F1值。因此,将该方法迁移到电子卷宗图像矫正任务中,使得图像矫正更智能,更无需人为干预,并且通过深度学习的方式训练得到的模型能达到更好的矫正效果,有效减少因人为操作不当导致的一系列问题,对于实现高效、准确、实时的电子卷宗图像矫正有着重要的应用价值。

Claims (7)

1.基于文本检测和表格检测的电子卷宗图像智能矫正方法,其特征在于,首先对图像进行预处理,消除对边界线检测的影响;然后利用文本检测算法构建文本检测模型,计算图像中文本区域文本的边界线范围;利用目标检测算法构建表格检测模型,计算图像中表格区域表格的边界线范围;利用轻量级深度学习神经网络框架构建大角度识别模型,识别电子卷宗图像的大范围倾斜角度;接下来根据拟合后的边界线得到文本区域的倾斜角度,根据拟合后的边界线得到表格区域的倾斜角度,对文本图像和表格图像采用不同的矫正方式;对图像进行后处理,包括利用构建的大角度识别模型识别电子卷宗图像的大范围倾斜角度并进行旋转矫正。
2.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法,其特征在于,该方法的实施步骤如下:
步骤1,基于深度学习模型的训练;
(1)构建深度学习模型模型;
训练对象为电子卷宗图像,构建基于文本检测算法DBNet的文本检测模型,在预训练数据集上学习电子卷宗图像文本区域的边界特征,该文本检测模型使用可微二值且自适应阈值以及可变卷积;
构建基于目标检测算法YOLOv5的表格检测模型,在预训练数据集上学习电子卷宗图像表格区域的边界特征;
构建基于轻量级深度学习神经网络框架MobileNetV3的大角度识别模型,在预训练数据集上学习电子卷宗图像的大角度倾斜程度;
(2)深度学习模模型预训练;
对于文本检测模型、表格检测模型,数据集为搜集的电子卷宗图像以及带有文本和表格的图像;数据集包含不同光照条件、倾斜程度、图像质量的纯文本、纯表格、纯图片以及三者均有的混合图像,学习不同条件下的深度特征;
步骤2,电子卷宗图像预处理;
首先对电子卷宗图像进行预处理,预处理包括直方图均衡化、噪点过滤和黑边去除;
(1)直方图均衡化;
把原始图像的直方图变换为均匀分布的形式,增加像素之间灰度值差别的动态范围,达到增强图像整体对比度的效果;
(2)噪点过滤;
降低噪点对图像的可视化干扰,采用传统的图像降噪方法对图像进行处理;
(3)黑边去除;
对降噪后的图像进行边缘检测、提取边缘最大面积轮廓、生成图像掩码图的操作,最后对原图像采用像素值替换的方法去除图像黑边;
步骤3,图像矫正;
预处理完的图像进行图像矫正,包括图像分类、轮廓线检测、边缘点计算和图像矫正;
(1)图像分类;
电子卷宗图像为文档图像,包含文本、表格、图片,将预处理后的图像进行分类,根据主体内容的所占比例判断将该图像归为文本类图像、表格类图像和图形类图像中,再根据分类结果对每种类型做不同的后续处理;
(2)轮廓线检测;
轮廓线检测采用曲线相似度算法完成;
(3)边缘点计算;
对检测到的四个轮廓线进行交点计算,得到电子卷宗图像内容的左上、右上、左下、右下四个边缘点;
(4)图像倾斜矫正;
以四个边缘点为远点,以新页面的四个端点为目标点,利用透视变换,完成梯形畸变的矫正;
步骤4,图像后处理;
对矫正后的电子卷宗图像进行后处理,消除检测偏差带来的矫正后的图像质量问题,并应用大角度识别模型识别图像是否是大角度偏转并进行旋转矫正,最终得到处理完成的图像。
3.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法,其特征在于,特征金字塔网络为基础网络架构,ResNet-50作为骨干网络;从骨干网络输出的四个特征图经过FPN处理得到四个128通道的特征图{f2,f3,f4,f5};使用1×1卷积约束特征图fi的通道数为64,输出四个特征图{P2,P3,P4,P5};将ResNet-50主干中conv3、conv4和conv5阶段的3×3卷积使用可变形卷积替代。
4.根据权利要求3所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法,其特征在于,输入h×w×3的图像,首先经过ResNet-50的五层卷积;五层卷积分别得到原尺寸1/2、1/4、1/8、1/16、1/32大小的特征图,通道数分别是64、128、256、512、1024;对1/32大小的特征图进行卷积,卷积核大小1×1,通道数为128,然后利用激活函数Relu和最大池化得到特征图f5为h/32×w/32×128;对特征图f5上采样2倍得到h/16×w/16×128与开始得到的1/16的特征图逐元素相加得到新的1/16的特征图f4;同理,对特征图f4上采样2倍得到的h/8×w/8×128与开始得到的1/8特征图逐元素相加得到新的1/8特征图f3;对特征图f3上采样2倍得到的h/4×w/4×128与开始得到的1/4特征图逐元素相加得到新的1/4特征图f2,到此得到特征图{f2,f3,f4,f5},分别为{h/4×w/4×128,h/8×w/8×128,h/16×w/16×128,h/32×w/32×128};对fi执行卷积操作,卷积核大小为1×1,通道数为64:对特征图f5执行卷积后上采样8倍得到P5,对特征图f4执行卷积后上采样4倍得到P4,对特征图f3执行卷积后上采样2倍得到P3,对特征图f2执行卷积后得到P2,到此得到特征图{P2,P3,P4,P5},大小均为h/4×w/4×64,将其逐元素相加得到新的1/4原尺寸大小的特征图F;接下来根据特征F用于预测概率图P和阈值图T,最后通过P和F得到对文本进行范围框标注的近似二值图。
5.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法,其特征在于,表格检测采用目标检测算法YOLOv5作为检测模型;YOLOv5使用CSPDarknet53作为骨干网络,其中CSP表示Cross-Stage Partial Networks;CSPDarknet53是Darknet53的改进版本,通过在网络的中间阶段引入跨阶段局部连接,提高特征传播效率。
6.根据权利要求5所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法,其特征在于,特征金字塔网络FPN:FPN用于融合不同层级的特征图,以捕获不同尺度上的目标信息;PANet用于进一步提高特征的语义信息,并通过级联特征金字塔网络的方式,聚合不同阶段的特征图,增强网络对目标的理解;输出层:YOLOv5的输出层包括多个检测头,每个检测头负责预测不同尺度上的目标;每个检测头输出的预测包括目标的类别概率、边界框的位置和目标的置信度。
7.根据权利要求6所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法,其特征在于,MobileNetV3采用轻量级的网络结构,包括多个独立的块blocks,每个块包含一系列的深度可分离卷积和激活函数;MobileNetV3引入两种类型的块,分别是InvertedResidual Block和Linear Bottleneck Block,这些块旨在提高模型的非线性表示能力和信息流动性;MobileNetV3使用"Hard Swish"的激活函数。
CN202311683618.8A 2023-12-10 2023-12-10 基于文本检测和表格检测的电子卷宗图像智能矫正方法 Pending CN117496518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311683618.8A CN117496518A (zh) 2023-12-10 2023-12-10 基于文本检测和表格检测的电子卷宗图像智能矫正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311683618.8A CN117496518A (zh) 2023-12-10 2023-12-10 基于文本检测和表格检测的电子卷宗图像智能矫正方法

Publications (1)

Publication Number Publication Date
CN117496518A true CN117496518A (zh) 2024-02-02

Family

ID=89681322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311683618.8A Pending CN117496518A (zh) 2023-12-10 2023-12-10 基于文本检测和表格检测的电子卷宗图像智能矫正方法

Country Status (1)

Country Link
CN (1) CN117496518A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877038A (zh) * 2024-03-12 2024-04-12 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质
CN117877038B (zh) * 2024-03-12 2024-06-04 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877038A (zh) * 2024-03-12 2024-04-12 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质
CN117877038B (zh) * 2024-03-12 2024-06-04 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN112348815B (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
CN112232349B (zh) 模型训练方法、图像分割方法及装置
CN110598610B (zh) 一种基于神经选择注意的目标显著性检测方法
CN102790841B (zh) 书籍的书脊区域中数字图像的检测和校正方法
CN110647795B (zh) 一种表格识别方法
CN106096610A (zh) 一种基于支持向量机的文档图像二值化方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN110135446B (zh) 文本检测方法及计算机存储介质
CN110443235B (zh) 一种智能纸质试卷总分识别方法及系统
CN113705673B (zh) 一种文字检测方法、装置、设备及存储介质
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN114529925A (zh) 一种全线表表格结构识别方法
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN110472632B (zh) 基于字符特征的字符分割方法、装置及计算机存储介质
US20230005108A1 (en) Method and system for replacing scene text in a video sequence
CN110766001B (zh) 基于cnn和rnn的银行卡卡号定位与端到端识别方法
CN111160372B (zh) 一种基于高速卷积神经网络的大目标识别方法
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
Bala et al. Image simulation for automatic license plate recognition
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和系统
CN110633705A (zh) 一种低照度成像车牌识别方法及装置
CN117496518A (zh) 基于文本检测和表格检测的电子卷宗图像智能矫正方法
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination