CN115497115B - 基于深度学习的页眉页脚检测方法及系统 - Google Patents
基于深度学习的页眉页脚检测方法及系统 Download PDFInfo
- Publication number
- CN115497115B CN115497115B CN202211366270.5A CN202211366270A CN115497115B CN 115497115 B CN115497115 B CN 115497115B CN 202211366270 A CN202211366270 A CN 202211366270A CN 115497115 B CN115497115 B CN 115497115B
- Authority
- CN
- China
- Prior art keywords
- header
- footer
- information
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 abstract description 11
- 238000000034 method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于文本检测技术领域,具体涉及基于深度学习的页眉页脚检测方法及系统。方法包括S1,对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;S2,输入需要检测的文本图片,并对所述文本图片进行预处理;S3,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。本发明具有能够准确、高效、稳定地解析页眉页脚元素位置信息,通过此检测信息可用于版面分析还原,页面信息提取优化的特点。
Description
技术领域
本发明属于文本检测技术领域,具体涉及基于深度学习的页眉页脚检测方法及系统。
背景技术
以深度学习为主流的自动特征在应用到文档版面分析上时,能够极大的提高识别的精度,使得面向不同样式页眉页脚时,特征表达方面得到了较好的解决。目前,以卷积神经网络(CNN, Convolutional Neural Network)为主导的特征表达方式也开始在页眉页脚检测上进行展开。
由于深度卷积特征具有更好的细节信息,并且可以处理任意大小的图像输入,目前的主流方法是提取深度卷积特征,并通过加权全局求和汇合得到图像的表示向量。其中,权重体现了不同位置特征的重要性,可以有空间方向权重和通道方向权重两种形式。
基于纹理分析的方法,基于纹理分析的方式是通过像素及其周围空间领域的灰度分布。将文档认为是存在纹理的图像,根据不同区域纹理的差别从而实现分类。虽然这种方式实现比较简单,但是该方法分类准确性不高。
基于特征识别的方法:对于版面分割出来的不同区域做特征提取,对提取结果根据一些策略来进行分类,从而实现区域的判别。如果不同区域特征差异比较明显,那么可以采取一个简单策略判断,但是当某几个区域特征差异不大时,区域的判断也具有一定难度,往往会使得判别结果出现问题。因此该种方法的准确性在区域特征接近时也不是很高。
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。
图像分割(Segmentation)指的是将数字图像细分为多个图像子区域(像素的集合)(也被称作超像素)的过程。图像分割的目的是简化或改变图像的表示形式,使得图像更容易理解和分析。图像分割通常用于定位图像中的物体和边界(线,曲线等)。更精确的,图像分割是对图像中的每个像素加标签的一个过程,这一过程使得具有相同标签的像素具有某种共同视觉特性。
图像分割的结果是图像上子区域的集合(这些子区域的全体覆盖了整个图像),或是从图像中提取的轮廓线的集合(例如边缘检测)。一个子区域中的每个像素在某种特性的度量下或是由计算得出的特性都是相似的,例如颜色、亮度、纹理。邻接区域在某种特性的度量下有很大的不同。
然而,现有的页眉页脚检测相关技术存在以下缺点:
1.传统的页眉页脚检测技术效果不稳定:
目前基于规则做的页眉页脚检测效果不稳定,在实际情况中,版面元素类内形式较多,基于规则的方式只能覆盖一部分情况。页关联的判别方式是在文本页关联中通过检测前后页的关系进行判别,对于页眉页脚区域存在的页码或者章节转化为特殊字符代替,该类方法虽然对页眉页脚的样式变化适应性强,但在相邻页眉页脚存在差异或者为单页文档时,检测效果较差。
在带有页眉页脚的文档中,页眉页脚均位于整个版面的边缘。在版面分析中,页眉页脚区
域分别是版面边缘的独立区域,位置上不会与正文区域平行或等高。在横排文档中,版面左(或右)边缘的竖排页眉很容易与主体部分区分。
2.无法对扫描件、图片进行检测识别:
专利号为CN201910587311.5的文献描述了一种完整识别PDF文件页眉页脚的技术,该方法通过解析PDF,得到PDF原始存储数据,根据每一页进行拆分。根据PDF页面内存储数据的顺序来识别页眉页脚;具体特征:在没有页眉页脚的情况下,PDF文档的数据是从上往下,从左往右开始逐个存储的,但是当有页眉页脚的情况下,PDF文档是先存储页眉再存储页脚,然后是正文数据部分。根据文档数据顺序以及页面最底端行数据的位置来获取页眉页脚。根据文本数据的距离底端的距离判断,另外对于纯图片格式的PDF文件,根据特征识别获取页眉页脚。包括以下步骤:查找页面头部和尾部的页眉页脚特征,根据多页的特征情况进行分析,对于多种页眉页脚形式进行分类。
该方法缺点如下:1. 只适用于PDF文件;2.基于图片PDF都是正向、没有大角度倾斜的假设;3.简单的特征识别无法保证检测效果的稳定性。
3.检测不准、检测不全:
专利号为CN202111250579.3的文献描述了一种基于霍夫变换直线检测去除页眉页脚的方法,通过基于相位一致性方法提取合同类文本图像边缘信息,并通过霍夫变换直线检测页眉页脚处的横线,用背景色填充页眉页脚处区域,以此抹除页眉页脚,提高后续文本信息的提取精度,适应多样性板式合同类文本图像的识别需求,提高识别效率。
该方法缺点如下:采用霍夫变换检测页眉页脚横线位置,1.页眉页脚形式多种多样,不一定包含横线; 2.正文部分有表格线会对判断横线位置有干扰。
4.无法适应多种样式页眉页脚
专利号为CN202111005197.4的文献描述了版面分析方法及装置、计算机可读介质、电子设备,用于对所述目标图像进行版面分析以获取第一目标检测结果;其中,第一目标检测结果包括若干个最小外接矩形框,以及对应的标记信息;以及对所述目标图像进行轮廓检测,以获取第二文本轮廓检测结果;该方法将版面检测与轮廓检测结合获取版面分析结果。
该技术虽然有应用深度学习技术或者分割技术来做版面分析,但是大多是分析段落、表格、图片等大块区域,并没有针对页眉页脚做定制优化,而页眉页脚在版面分析中存在形式多样,大小不一、存在旋转等问题,因此需要针对页眉页脚进行特殊处理。
基于上述问题,设计一种能够准确、高效、稳定地解析页眉页脚元素位置信息,通过此检测信息可用于版面分析还原,页面信息提取优化的基于深度学习的页眉页脚检测方法及系统,就显得十分重要。
发明内容
本发明是为了克服现有技术中,传统页眉页脚元素检测方法存在算法不稳定,页眉检测不准、检测不全以及页面信息提取干扰的问题,提供了一种能够准确、高效、稳定地解析页眉页脚元素位置信息,通过此检测信息可用于版面分析还原,页面信息提取优化的基于深度学习的页眉页脚检测方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
基于深度学习的页眉页脚检测方法,包括如下步骤;
S1,对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;
S2,输入需要检测的文本图片,并对所述文本图片进行预处理;
S3,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。
作为优选,步骤S1包括如下步骤:
S11,对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;
S12,对数据增强后的数据集进行特征提取;
S13,对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;
S14,通过步骤S13生成的多维度特征表达,预测页眉页脚区域和页眉页脚的角度。
作为优选,步骤S2中所述预处理包括对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。
作为优选,步骤S3包括如下步骤:
S31,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚的掩膜图像信息以及角度信息;
S32,对获得的掩膜图像信息,进行膨胀处理;
S33,对膨胀处理后的掩膜图像信息,用轮廓算法得到最外围轮廓;
S34,根据获得的最外围轮廓后,获取最小外接矩形框;
S35,根据步骤S31中获得的角度信息对最小外接矩形框进行微调;
S36,根据微调后最小外接矩形框的位置对应回原文本图片,获得页眉页脚位置信息。
本发明还提供了基于深度学习的页眉页脚检测系统,包括:
模型训练模块,用于对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;
预处理模块,用于输入需要检测的文本图片,并对所述文本图片进行预处理;
页眉页脚检测模块,用于将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。
作为优选,所述模型训练模块包括:
图像增强模块,用于对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;
特征提取模块,用于对数据增强后的数据集进行特征提取;
上下文信息融合模块,用于对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;
页眉页脚分割模块,用于预测页眉页脚区域;
角度分支模块,用于预测页眉页脚的角度。
作为优选,所述预处理模块具体如下:
对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。
作为优选,所述页眉页脚检测模块具体如下:
将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚的掩膜图像信息以及角度信息;
对获得的掩膜图像信息,进行膨胀处理;
对膨胀处理后的掩膜图像信息,用轮廓算法得到最外围轮廓;
根据获得的最外围轮廓后,获取最小外接矩形框;
根据获得的角度信息对最小外接矩形框进行微调;
根据微调后最小外接矩形框的位置对应回原文本图片,获得页眉页脚位置信息。
本发明与现有技术相比,有益效果是:(1)本发明创新性的将对页眉页脚利用检测的思路进行分割,得到页眉页脚坐标信息和角度信息,得到一个精准的页眉页脚位置信息,能泛化旋转的页眉页脚目标;(2)本发明不仅对于文档场景有成效,对其他影印件为流通形式的行业与机构也能起到提高生产效率、让数据产生更大价值的作用,是数据治理不可或缺的一个步骤,在当下信息爆炸的现状中可以辅助快速找到目标内容的重要手段,是提高生产效率不可或缺的工具;(3)本发明使得文档类扫描件的版式还原更自动化与准确,可以批量生成,并无痕无感的嵌入版面元素检测系统,辅助后续搜索与文本挖掘,助力各个行业文本信息管理与效率提升。
附图说明
图1为本发明中基于深度学习的页眉页脚检测方法的一种流程图;
图2为本发明中对卷积神经网络模型进行预训练的一种流程图;
图3为本发明中上下文信息融合模块的一种结构示意图;
图4为本发明中页眉页脚分割模块的一种结构示意图;
图5为本发明中角度分支模块生成角度标签的一种示意图;
图6为本发明中页眉页脚检测的一种执行流程图;
图7为本发明中对页眉页脚检测信息进行矫正的一种示意图;
图8为本发明实施例所提供的文档比对场景下页眉页脚检测的一种流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,基于深度学习的页眉页脚检测方法,包括如下步骤;
S1,对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;
S2,输入需要检测的文本图片,并对所述文本图片进行预处理;
S3,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。
进一步的,如图2所示,步骤S1包括如下步骤:
S11,对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;
S12,对数据增强后的数据集进行特征提取;
S13,对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;
S14,通过步骤S13生成的多维度特征表达,预测页眉页脚区域和页眉页脚的角度。
进一步的,步骤S2中所述预处理包括对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。
进一步的,如图6所示,步骤S3包括如下步骤:
S31,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚的掩膜图像信息以及角度信息;
S32,对获得的掩膜图像信息,进行膨胀处理;
S33,对膨胀处理后的掩膜图像信息,用轮廓算法得到最外围轮廓;
S34,根据获得的最外围轮廓后,获取最小外接矩形框;
S35,根据步骤S31中获得的角度信息对最小外接矩形框进行微调;
S36,根据微调后最小外接矩形框的位置对应回原文本图片,获得页眉页脚位置信息。
本发明还提供了基于深度学习的页眉页脚检测系统,包括:
模型训练模块,用于对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;
预处理模块,用于输入需要检测的文本图片,并对所述文本图片进行预处理;
页眉页脚检测模块,用于将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。
进一步的,模型训练模块包括:
图像增强模块,用于对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;
数据增强可以扩充样本,增加识别难度,提升模型的鲁棒性。
特征提取模块,用于对数据增强后的数据集进行特征提取;
特征提取模块可以实现局部和全局的特征提取,学习图像中有序的、空间或其他结构化数据,提取的高维度特征保留了元素尽可能多的信息,简化了元素数据描述并提高对元素语义理解能力。其中,为了有效适应页眉页脚几何形变变化,将可变形卷积引入特征提取模块的卷积层中,使用额外的偏移量来增强模块中空间采样位置,不使用额外的监督。另外,视觉系统的一个重要特性是,人们不会试图同时处理看到的整个场景。取而代之的是,为了更好地捕捉视觉结构,人们利用一系列的局部瞥见,有选择性地聚集于显著部分,基于此, 引入空间注意力模块,提升特征提取模块对空间和通道这两个维度上的特征提取能力。
上下文信息融合模块,用于对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;
在计算机视觉任务中,多维度的目标检测一直以来都是通过将缩小或扩大后的不同维度图片作为输入来生成出反映不同维度信息的特征组合。这种办法确实也能有效地表达出图片之上的各种维度特征,但却对硬件计算能力及内存大小有较高要求,因此只能在有限的领域内部使用。本发明的上下文信息融合模块,针对卷积神经网络模型内部从底至上各个层对同一尺度图片不同维度的特征表达结构,可有效在单一图片视图下生成对其的多维度特征表达的方法。它可以有效地赋能常规卷积神经网络模型,从而可以生成出表达能力更强的特征图。
图3是本发明的上下文信息融合模块结构示意图。主干网络有四层输出,分别为1/4特征图、1/8特征图、1/16特征图、1/32特征图,此特征图比例为相当于原图大小;四层特征图通过上采样到1/4特征图大小,其中上采样使用双线性插值的方法;再将四层特征图按照通道数维度拼接在一起,由此达到不同尺度的上下文信息融合,其中1/16与1/32特征图通过坐标卷积(coordconv)来保证特征对图像的位置信息的表达能力,提供更准确的位置敏感信息和实例特征信息。
页眉页脚分割模块,用于预测页眉页脚区域;
如图4所示,输入(input)为主干网络提取特征经过上下文信息融合模块的特征,后分为两个分支:一、卷积核(kernel)分支,用来学习卷积核,输入为H×W×E,其中H为输入特征的高、W为输入特征的宽、E为输入特征的通道数,输出为卷积核S×S×D,其中S是划分的网格数目,D是卷积核通道数;二、特征图(feature)分支,此分支用于学习特征表达,输入为input,输出为H×W×E的掩膜特征。两个分支的输出生成实例掩膜(mask):对于每个网格位置,先获得相应的卷积核G,然后将其与特征(feature)卷积得到mask。
角度分支模块,用于预测页眉页脚的角度。
如图5所示,首先是角度标签数据的生成,通常标注数据只有四个点信息,分别为(左上,右上,右下,左下)。首先将根据四点坐标,旋转角度θ是水平轴(x轴)逆时针旋转,与碰到的矩形的第一条边的夹角。并且这个边的边长是width,另一条边边长是height。
得到的标签信息为(矩形中心,宽,高,旋转角度)。
角度分支的输入为input,输出为S×S×2,实际意义表现为:每个网格位置先去预测有没有页眉页脚存在,以及每个网格的目标角度。在计算损失时,若页眉页脚目标不存在,则角度预测为0,若页眉页脚中心点落在该网格,则计算角度信息0-90°之间。
进一步的,预处理模块具体如下:
对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。
进一步的,页眉页脚检测模块具体如下:
将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚的掩膜图像信息以及角度信息;
对获得的掩膜图像信息,进行膨胀处理;
对膨胀处理后的掩膜图像信息,用轮廓算法得到最外围轮廓;
根据获得的最外围轮廓后,获取最小外接矩形框;
根据获得的角度信息对最小外接矩形框进行微调;
根据微调后最小外接矩形框的位置对应回原文本图片,获得页眉页脚位置信息。
由于有些页眉页脚存在倾斜严重,所获得的最小外接矩形并没有考虑旋转方向。微调框的策略如图7所示:步骤S34得到为输出框1(最小外接矩形框),该输出框未能按照页眉页脚方向进行贴合,根据模型返回的角度信息,可以限定预测框的角度,从而获得更加精细的外接矩形框(输出框2)。
以下是页眉页脚检测应用于文档比对场景下的实施例。具体流程如图8所示:
1.输入合同1,合同2;
2.将2份合同图片一次经过页眉页脚检测模型(经过本发明预训练的卷积神经网络模型);
3.得到两份合同页眉页脚位置信息与角度信息;
4.对于单份合同,结合每页页眉页脚宽高、角度,对页眉页脚进行调整,对于漏检的页眉页脚可以通过上下页眉页脚的信息,对可能区域进行规则处理,满足条件则新增漏检的页眉页脚。对于误检的页眉页脚,可以通过合同中角度信息进行筛选过滤;
5.得到页眉页脚位置信息后,将图片输入文本检测识别模型中,得到文本框和文本内容;
6.针对与文本行重叠区域超过一定比例的进行屏蔽,不参与后续合同对比。
本发明独创性的将页眉页脚元素分割转化为位置分类问题,从而做到不需要依赖锚点框,不需要进行候选框的实例分割。主要表现优势为:页眉页脚长宽比跨度大,本发明检测技术贴合页眉页脚内容,不会造成页眉页脚部分内容缺失或冗余背景过多;
本发明在页眉页脚训练模块中,创新性地将可变形卷积和间注意力机制模块引入到页眉页脚的检测中,解决了不同页眉页脚之间元素长宽比不同造成检测不准的难题、提升特征提取模块对空间和通道这两个维度上的特征提取能力。
本发明在设计的上下文信息融合模块能较好保留页眉页脚的低层位置信息与高层语义信息,引入的coordconv极大程度增加了分割的准确性。使得预测的特征图同时具有浅层信息表达和深层抽象信息表达,针对各个样式的页眉页脚元素都可以较好的预测。
本发明在对页眉页脚检测的基础上,独创性地设计了角度回归分支,角度回归可用于调整页眉页脚的最小外接矩形框,使页眉页脚目标具备角度信息,可用于后续相关应用的规则利用,使得页眉页脚检测更具备可靠性,保证了正文内容的逻辑性与完整性,同时角度信息对后续版面还原和映射也能精准地匹配回原图片的页眉页脚位置。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (6)
1.基于深度学习的页眉页脚检测方法,其特征在于,包括如下步骤;
S1,对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;
S2,输入需要检测的文本图片,并对所述文本图片进行预处理;
S3,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息;
步骤S1包括如下步骤:
S11,对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;
S12,对数据增强后的数据集进行特征提取;
S13,对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;
S14,通过步骤S13生成的多维度特征表达,预测页眉页脚区域和页眉页脚的角度;
步骤S3包括如下步骤:
S31,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚的掩膜图像信息以及角度信息;
S32,对获得的掩膜图像信息,进行膨胀处理;
S33,对膨胀处理后的掩膜图像信息,用轮廓算法得到最外围轮廓;
S34,根据获得的最外围轮廓后,获取最小外接矩形框;
S35,根据步骤S31中获得的角度信息对最小外接矩形框进行微调;
S36,根据微调后最小外接矩形框的位置对应回原文本图片,获得页眉页脚位置信息。
2.根据权利要求1所述的基于深度学习的页眉页脚检测方法,其特征在于,步骤S2中所述预处理包括对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。
3.基于深度学习的页眉页脚检测系统,用于实现权利要求1-2任一项所述的基于深度学习的页眉页脚检测方法,其特征在于,所述基于深度学习的页眉页脚检测系统包括:
模型训练模块,用于对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;
预处理模块,用于输入需要检测的文本图片,并对所述文本图片进行预处理;
页眉页脚检测模块,用于将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。
4.根据权利要求3所述的基于深度学习的页眉页脚检测系统,其特征在于,所述模型训练模块包括:
图像增强模块,用于对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;
特征提取模块,用于对数据增强后的数据集进行特征提取;
上下文信息融合模块,用于对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;
页眉页脚分割模块,用于预测页眉页脚区域;
角度分支模块,用于预测页眉页脚的角度。
5.根据权利要求3所述的基于深度学习的页眉页脚检测系统,其特征在于,所述预处理模块具体如下:
对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。
6.根据权利要求3所述的基于深度学习的页眉页脚检测系统,其特征在于,所述页眉页脚检测模块具体如下:
将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚的掩膜图像信息以及角度信息;
对获得的掩膜图像信息,进行膨胀处理;
对膨胀处理后的掩膜图像信息,用轮廓算法得到最外围轮廓;
根据获得的最外围轮廓后,获取最小外接矩形框;
根据获得的角度信息对最小外接矩形框进行微调;
根据微调后最小外接矩形框的位置对应回原文本图片,获得页眉页脚位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211366270.5A CN115497115B (zh) | 2022-11-03 | 2022-11-03 | 基于深度学习的页眉页脚检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211366270.5A CN115497115B (zh) | 2022-11-03 | 2022-11-03 | 基于深度学习的页眉页脚检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115497115A CN115497115A (zh) | 2022-12-20 |
CN115497115B true CN115497115B (zh) | 2024-03-15 |
Family
ID=85115335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211366270.5A Active CN115497115B (zh) | 2022-11-03 | 2022-11-03 | 基于深度学习的页眉页脚检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497115B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392669A (zh) * | 2021-05-31 | 2021-09-14 | 苏州中科华影健康科技有限公司 | 一种图像信息检测方法、检测装置及存储介质 |
CN113780229A (zh) * | 2021-09-18 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 文本识别方法及装置 |
CN113807158A (zh) * | 2020-12-04 | 2021-12-17 | 四川医枢科技股份有限公司 | 一种pdf内容提取方法、装置及设备 |
CN114969601A (zh) * | 2022-05-19 | 2022-08-30 | 北京智谱华章科技有限公司 | 一种基于深度学习的个人主页信息提取方法及装置 |
CN115019306A (zh) * | 2022-06-10 | 2022-09-06 | 山东第一医科大学第二附属医院 | 一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203901B2 (en) * | 2002-11-27 | 2007-04-10 | Microsoft Corporation | Small form factor web browsing |
US9171204B2 (en) * | 2012-12-12 | 2015-10-27 | Qualcomm Incorporated | Method of perspective correction for devanagari text |
-
2022
- 2022-11-03 CN CN202211366270.5A patent/CN115497115B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807158A (zh) * | 2020-12-04 | 2021-12-17 | 四川医枢科技股份有限公司 | 一种pdf内容提取方法、装置及设备 |
CN113392669A (zh) * | 2021-05-31 | 2021-09-14 | 苏州中科华影健康科技有限公司 | 一种图像信息检测方法、检测装置及存储介质 |
CN113780229A (zh) * | 2021-09-18 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 文本识别方法及装置 |
CN114969601A (zh) * | 2022-05-19 | 2022-08-30 | 北京智谱华章科技有限公司 | 一种基于深度学习的个人主页信息提取方法及装置 |
CN115019306A (zh) * | 2022-06-10 | 2022-09-06 | 山东第一医科大学第二附属医院 | 一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115497115A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11983944B2 (en) | Object detection and image cropping using a multi-detector approach | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
US8170368B2 (en) | Correcting device and method for perspective transformed document images | |
US7236632B2 (en) | Automated techniques for comparing contents of images | |
JP2012243307A (ja) | 入力画像における歪を検出する方法、入力画像における歪を検出する装置およびコンピューター読み取り可能な媒体 | |
JPH01253077A (ja) | 文字列検出方法 | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN115331245B (zh) | 一种基于图像实例分割的表格结构识别方法 | |
CN114299383A (zh) | 基于密度图与注意力机制融合的遥感图像目标检测方法 | |
EP2545498B1 (en) | Resolution adjustment of an image that includes text undergoing an ocr process | |
Giri | Text information extraction and analysis from images using digital image processing techniques | |
Keefer et al. | A survey on document image processing methods useful for assistive technology for the blind | |
CN115497115B (zh) | 基于深度学习的页眉页脚检测方法及系统 | |
CN110991440A (zh) | 一种像素驱动的手机操作界面文本检测方法 | |
Bhaskar et al. | Implementing optical character recognition on the android operating system for business cards | |
US11893784B2 (en) | Assessment of image quality for optical character recognition using machine learning | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
Konya et al. | Adaptive methods for robust document image understanding | |
Ahmed | Signage recognition based wayfinding system for the visually impaired | |
US20240144711A1 (en) | Reliable determination of field values in documents with removal of static field elements | |
Shivani | Techniques of Text Detection and Recognition: A Survey | |
CN113159020B (zh) | 基于核尺度扩张的文本检测方法 | |
Hengaju et al. | Improving the Recognition Accuracy of Tesseract-OCR Engine on Nepali Text Images via Preprocessing | |
WO2021098861A1 (zh) | 识别文本的方法、装置、识别设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |