CN113033541B - 发行公告版面分析方法 - Google Patents
发行公告版面分析方法 Download PDFInfo
- Publication number
- CN113033541B CN113033541B CN202110403839.XA CN202110403839A CN113033541B CN 113033541 B CN113033541 B CN 113033541B CN 202110403839 A CN202110403839 A CN 202110403839A CN 113033541 B CN113033541 B CN 113033541B
- Authority
- CN
- China
- Prior art keywords
- elements
- layout
- text
- cur
- positions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 230000001174 ascending effect Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Input (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明提供发行公告版面分析方法,涉及数据处理技术领域。该发行公告版面分析方法,包括以下步骤:S1.将待分析图像输入训练好的目标检测模型中;S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4;S3.调整所有与图、表格元素有重叠的元素位置;S4.利用投影法计算文本行位置;S5.标记文本行所属版面元素,同时调整对应的版面元素位置;S6.判断是否需要分栏,并计算分栏位置。本发明利用一系列空间布局特征对包括所有表格、图和文本等版面元素建立基于阅读逻辑的版面元素排序,采用深度学习和图像处理混合算法标记版面元素并精确勾勒其边界,达到版面元素精确标记的目标。
Description
技术领域
本发明涉及数据处理技术领域,具体为发行公告版面分析方法。
背景技术
理想的版面分析技术能够定位给定文档版面中的文本段落、表格和图等元素,并构建版面各个元素的阅读逻辑顺序。然而当前的版面分析技术存在着诸多不足。
当前基于图像处理方法的版面分析,主要通过对图像进行滤波、锐化等处理,利用投影,连通域分析和形态学处理方法来划分区域。由于该方法依赖于图像的形态学等特征,对背景复杂、字符较少的版面图像版面元素定位效果不佳。现有基于深度学习的目标检测技术能够将版面中的文本段落、表格和图等元素视为不同的目标进行检测,从而获得版面元素的类别和位置信息。现阶段版面逻辑阅读顺序的构建方法主要分为两类,一类利用OCR识别的结果信息,根据中文词语和英文单词字母的连续性来重建阅读顺序,另一类则基于图论理论来构建阅读顺序,此类方法把文字块的邻接关系表示为有向图,利用自然语言处技术计算连接间的权重值,采用最优化的方法建立文字块的阅读顺序。
现有发明专利(公开号为CN104516891B)公开了一种版面分析方法及系统,该发明采用逻辑参考信息与基本图元数据信息结合的方式,并在版面分析过程中充分利用这部分逻辑参考消息,从而得到更准确的版面文档的版面分析结果,有效地改进了版式文档的版面分析结果,然而该方法只是利用OCR结果作为参考的逻辑阅读顺序重构方法,未考虑版面元素的位置信息且对OCR的识别结果要求过高,导致其阅读顺序判断正确率较低。
现有发明专利(公开号为CN100568221C)公开了一种对报纸版面进行文字阅读顺序恢复的方法,该发明以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流,利用了语义、空间关系和样式信息,阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。然而这种根据图论进行建模的方法需要利用自然语言处理技术,只能处理纯文本类的版面,对包含表格、图等其它元素版面,无法构建完整和准确的阅读逻辑顺序。
现有发明专利(公开号为CN110674721A)公开了一种试卷版面公式自动检测的方法,该试卷版面公式自动检测的方法针对扫描及拍照试卷这种特殊的文档图像数据,提出将mobilenetv2、advance east和ssd算法结合的整体解决方案,整体基于ssd网络架构,将原有主干网络替换成更加轻量级的mobilenetv2网络,并引入advance east算法中的特征融合方式,最后,从融合后的特征图上,分阶段从不同层中预测大小不同的目标物体,然而利用目标检测算法获取到的版面元素位置,通常元素边界处分割不准确,具体表现为边界与文本相交、部分短文本行被遗漏、多个版面元素边界互相重叠等现象,导致版面元素定位效果不佳。
综上所述,需要对现有版面分析技术进行改进。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了发行公告版面分析方法,解决了现有技术利用OCR结果作为参考的逻辑阅读顺序重构方法,未考虑版面元素的位置信息且对OCR的识别结果要求过高,导致其阅读顺序判断正确率较低;根据图论进行建模的方法需要利用自然语言处理技术,只能处理纯文本类的版面,对包含表格、图等其它元素版面,无法构建完整和准确的阅读逻辑顺序;利用目标检测算法获取到的版面元素位置,通常元素边界处分割不准确,具体表现为边界与文本相交、部分短文本行被遗漏、多个版面元素边界互相重叠等现象,导致版面元素定位效果不佳的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:发行公告版面分析方法,包括以下步骤:
S1.将待分析图像输入训练好的目标检测模型中;
S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4;
S3.调整所有与图、表格元素有重叠的元素位置;
S4.利用投影法计算文本行位置;
S5.标记文本行所属版面元素,同时调整对应的版面元素位置;
S6.判断是否需要分栏,并计算分栏位置;
S7.对版面元素进行排序;
S8.输出结果。
优选的,所述发行公告版面分析方法选择Faster-RCNN深度学习框架结构来检测版面元素,该方法将版面元素分为页眉、页脚、文本段落、图和表格5类,标注8300张样本上的版面元素类别和位置,用标注好的样本训练Faster-RCNN模型。
优选的,所述S2中调整表格元素位置的具体步骤包括:以深度学习模型输出的表格位置为基准进行扩大和缩小,扩大1.3倍得到位置A,缩小0.7倍得到位置B,在原始输入图像上裁切位置A和位置B之间的部分,二值化后,用直线段检测算法检测并合并直线,根据检测到的直线坐标调整表格元素的位置,如果没有检测到直线,通过纵向和横向投影定位文本行,根据文本位置调整表格元素的位置,图元素的调整方式和表格元素相同;
调整图元素位置的具体步骤包括:以模型输出的图元素位置为基准扩大1.3倍得到位置C,由于图片与文档图像的背景之间通常有明显梯度,在上下左右四个方向上以滑动窗口的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界,最终得到调整后的图元素的位置。
优选的,所述S3后还包括以下步骤:如果版面含有图或者表格元素,将原图中调整后的表格或图元素的位置置为背景,更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素。
优选的,所述S4中计算文本行位置的具体方式包括:二值化更新后的样本图片,用10*1的核心对其腐蚀,使得文字可以连续成行,在竖直方向和水平方向上进行投影,获取文本行的位置坐标。
优选的,所述S5的具体步骤包括:
a.遍历网络模型输出的非表格和图的元素D,筛选出D中互相有重叠的元素,计算重叠区域坐标,根据重叠区域与文本行的交并比,筛选出重叠区域内的文本行,以任意一条文本行的起点纵坐标为边界分割重叠的版面元素;
b.计算D与每条文本行E的交并比,当交并比大于0.5,并且文本长度大于当前版面元素D的宽度的50%时,标记当前文本行E属于当前版面元素D;对于不与任何版面元素相交的文本行,计算其中心位置与所有版面元素D中心位置的距离,标记其属于距离最近的版面元素;
c.标记完所有文本对应版面元素之后,在横向计算每个版面元素下属的文本行的起点和终点平均值,更新版面元素的左右位置为计算得到的平均值,上下位置为纵向上每个版面元素下属文本行坐标的最小和最大值。
优选的,所述S6的具体步骤如下:
1).若w为样本图片宽度,如果版面中含有宽度小于1/2*w的表格或者图元素,那么该版面需要分栏,并且这两种元素的横向边界就可以作为分栏位置,记录边界位置进集合split_pos1并进行下一步;
2).对样本图片在水平方向上进行切片处理,切片以h/4,h/2,3*h/4为竖直方向中心,h/4为高度,w为宽度,对三个切片样本做如下处理:二值化后向竖直方向投影得到数组F,以6*1的核在数组F做滑动窗口操作,滑动步长为5,记录所有窗口中最大值最小值之间的差值最大的窗口中心位置mid_pos,如果mid_pos大于输入样本图像宽度的22%,并小于样本图像宽度的78%,则记录一个分栏位置进集合split_pos;
3).如果没有找到分栏位置,遍历步骤S5中获取的所有文本元素,统计宽度大于输入样本图片宽度25%并小于输入样本图片宽度32%的所有文本元素,如果符合统计条件的文本元素个数大于所有文本元素个数的25%,按文本元素的起点坐标对符合条件的元素分组,再在水平方向上计算各组元素的间隔,记录间隔的中点进集合split_pos;
4).合并集合split_pos1中和split_pos中间隔小于20个像素的分割位置为新的split_pos;
经过以上步骤如果split_pos元素个数为0,则说明当前输入的文档样本不需要分栏,直接按左上点纵坐标排序所有的版面元素即可得到最终版面分析的结果,否则执行步骤S7。
优选的,所述S7的具体实施步骤包括:
(1).向split_pos中插入元素0和样本图片宽度w,统计split_pos中元素个数为n,并做升序排列,在竖直方向上页面被分割成n-1个栅格,从左向右编号为1~n-1;
(2).对版面内所有元素按右上点的纵坐标做升序排列,遍历每一个版面元素,记其左右边界为cur_x_l、cur_x_r,计算split_pos中处于区间[cur_x_l,cur_x_r]的元素个数cur_sum,如果cur_sum大于1,当前元素记为类别0,否则根据cur_x_l和cur_x_r判断当前元素处于第几号栅格内,并记录其类别为栅格序号,这一步骤中如果cur_x_l或者cur_x_r与某一个栅格的边界相交,分别计算栅格边界距离cur_x_l和cur_x_r的距离,取距离较大侧的栅格编号为元素类别,在分类过程中每一次遇到类别为0的元素,就对所有已经分类过的元素按编号升序排列,所有元素分类完成后对最后一个0类元素之后的元素按编号排序,获得最终版面分析结果。
(三)有益效果
本发明提供了发行公告版面分析方法。具备以下有益效果:
1、针对现有版面分析技术构建阅读顺序不准确的问题,本发明摒弃现有技术依赖OCR识别结果的缺陷,利用一系列空间布局特征对包括所有表格、图和文本等版面元素建立基于阅读逻辑的版面元素排序。
2、针对现有版面分析技术版面元素定位不精确的问题,本发明采用深度学习和图像处理混合算法标记版面元素并精确勾勒其边界,达到版面元素精确标记的目标。
3、采用本发明提出的版面元素定位技术,能够大幅提高包括表格、图和文本等版面元素的定位精度。
4、采用本发明提出的版面元素排序技术,能够准确地构建版面全部元素的阅读逻辑顺序。
附图说明
图1为本发明提出的发行公告版面分析方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本专利选择Faster-RCNN深度学习框架结构来检测版面元素,Faster-RCNN是一种两阶段目标检测深度学习框架结构,本发明将版面元素分为页眉、页脚、文本段落、图和表格5类,标注8300张样本上的版面元素类别和位置,用标注好的样本训练Faster-RCNN模型。
如图1所示,本发明实施例提供发行公告版面分析方法,包括以下步骤:
S1.将待分析版面图像输入训练好的网络模型,得到输入样本所包含的元素类别和粗略位置;
S2.判断版面是否包含表格元素,如果没有,进行下一步;如果有:以模型输出的表格元素位置为基准进行扩大和缩小,扩大1.3倍得到位置A,缩小0.7倍得到位置B,在原始输入图像上裁切位置A和位置B之间的部分,二值化后,用直线段检测算法检测并合并直线,根据检测到的直线坐标调整表格元素的位置,如果没有检测到直线,通过纵向和横向投影定位文本行,根据文本位置调整表格元素的位置;
S3.判断版面是否包含图元素,如果没有,进行下一步;如果有:以模型输出的图元素位置为基准扩大1.3倍得到位置C,由于图片与文档图像的背景之间通常有明显梯度,在上下左右四个方向上以滑动窗口的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界,最终得到调整后的图元素的位置;
S4.遍历所有非表格和图的版面元素中,与上两步调整过的元素位置有重叠的元素,以调整后的表格和图的位置为边界修正其位置;
S5.如果版面含有图或者表格元素,将原图中调整后的表格或图元素的位置置为背景,更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素;
S6.二值化更新后的样本图片,用10*1的核心对其腐蚀,使得文字可以连续成行,利用像处理方法获取文本行坐标,如投影法,具体操作可以分为在水平方向上进行投影,获取文本行的竖直方向起止坐标,再对每一行文本进行竖直方向投影,获取文本行的水平方向起止坐标;
S7.遍历网络模型输出的非表格和图的元素D,筛选出D中互相有重叠的元素,计算重叠区域坐标,根据重叠区域与文本行的交并比,即:交集面积/并集面积,筛选出重叠区域内的文本行,以任意一条文本行的起点纵坐标为边界分割重叠的版面元素;
S8.计算D与每条文本行E的交并比,当交并比大于0.5,并且文本长度大于当前版面元素D的宽度的50%时,标记当前文本行E属于当前版面元素D;对于不与任何版面元素相交的文本行,计算其中心位置与所有版面元素D中心位置的距离,标记其属于距离最近的版面元素;
S9.标记完所有文本对应版面元素之后,在水平方向计算每个版面元素下属的文本行的起点和终点平均值,更新版面元素的左右位置为计算得到的平均值,上下位置为竖直方向上每个版面元素下属文本行坐标的最小和最大值;
S10.至此网络模型输出的版面元素位置都已经精确定位,接下来需要对版面元素排序,排序的关键在于判断版面是否需要分栏及如何确定分栏位置,具体步骤如下:假设样本图片宽度为w,高度为h,通常如果版面中含有宽度小于1/2*w的表格或者图元素,那么该版面需要分栏,并且这两种元素的横向边界就可以作为分栏位置,记录边界位置进集合split_pos1并进行下一步;
S11.对样本图片在水平方向上进行切片处理,切片以h/4,h/2,3*h/4为竖直方向中心,h/4为高度,w为宽度,对三个切片样本做如下处理:二值化后向竖直方向投影得到数组F,以6*1的核在数组F做滑动窗口操作,滑动步长为5,记录所有窗口中最大值最小值之间的差值最大的窗口中心位置mid_pos,如果mid_pos大于输入样本图像宽度的22%,并小于样本图像宽度的78%,则记录一个分栏位置进集合split_pos,如果没有找到分栏位置,进行下一步,否则执行步骤S13;
S12.遍历步骤7中获取所有文本元素,统计宽度大于输入样本宽度25%并小于输入样本宽度32%的所有文本元素,如果符合统计条件的文本元素个数大于所有文本元素个数的25%,按文本元素的起点坐标对符合条件的元素分组,再在水平方向上计算各组元素的间隔,记录间隔的中点进集合split_pos;
S13.合并集合split_pos1中和split_pos中间隔小于20的分割位置;
S14.经过以上步骤如果没有找到分栏位置,则说明当前输入的文档样本不需要分栏,直接按左上点纵坐标排序所有的版面元素即可得到最终版面分析的结果,如果分栏位置集合split_pos不为空进行下一步;
S14-1.向split_pos中插入元素0和样本图片宽度w,统计split_pos中元素个数为n,并做升序排列,在竖直方向上页面被分割成n-1个栅格,从左向右编号为1~n-1;
S14-2.对版面内所有元素按右上点的纵坐标做升序排列,遍历每一个版面元素,记其左右边界为cur_x_l、cur_x_r,计算split_pos中处于区间[cur_x_l,cur_x_r]的元素个数cur_sum,如果cur_sum大于1,当前元素记为类别0,否则根据cur_x_l和cur_x_r判断当前元素处于第几号栅格内,并记录其类别为栅格序号,这一步骤中如果cur_x_l或者cur_x_r与某一个栅格的边界相交(cur_x_l和cur_x_r分别都有与之相交的元素类别为0),分别计算栅格边界距离cur_x_l和cur_x_r的距离,取距离较大侧的栅格编号为元素类别,在分类过程中每一次遇到类别为0的元素,就对所有已经分类过的元素按编号升序排列,所有元素分类完成后对最后一个0类元素之后的元素按编号排序,获得最终版面分析结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.发行公告版面分析方法,其特征在于:包括以下步骤:
S1.将待分析图像输入训练好的目标检测模型中;
S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4,调整表格元素位置的具体步骤包括:以深度学习模型输出的表格位置为基准进行扩大和缩小,扩大1.3倍得到位置A,缩小0.7倍得到位置B,在原始输入图像上裁切位置A和位置B之间的部分,二值化后,用直线段检测算法检测并合并直线,根据检测到的直线坐标调整表格元素的位置,如果没有检测到直线,通过纵向和横向投影定位文本行,根据文本位置调整表格元素的位置;
调整图元素位置的具体步骤包括:以模型输出的图元素位置为基准扩大1.3倍得到位置C,由于图片与文档图像的背景之间通常有明显梯度,在上下左右四个方向上以滑动窗口的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界,最终得到调整后的图元素的位置;
S3.调整所有与图、表格元素有重叠的元素位置;
S4.利用投影法计算文本行位置;
S5.标记文本行所属版面元素,同时调整对应的版面元素位置;
S6.判断是否需要分栏,并计算分栏位置,具体步骤如下:
1).若w为样本图片宽度,如果版面中含有宽度小于1/2*w的表格或者图元素,那么该版面需要分栏,并且这两种元素的水平方向边界就可以作为分栏位置,记录边界位置进集合split_pos1并进行下一步;
2).对样本图片在水平方向上进行切片处理,切片以h/4,h/2,3*h/4为竖直方向中心,h/4为高度,w为宽度,对三个切片样本做如下处理:二值化后向竖直方向投影得到数组F,以6*1的核在数组F做滑动窗口操作,滑动步长为5,记录所有窗口中最大值最小值之间的差值最大的窗口中心位置mid_pos,如果mid_pos大于输入样本图像宽度的22%,并小于样本图像宽度的78%,则记录一个分栏位置进集合split_pos;
3).如果没有找到分栏位置,遍历步骤S5中获取的所有文本元素,统计宽度大于输入样本图片宽度25%并小于输入样本图片宽度32%的所有文本元素,如果符合统计条件的文本元素个数大于所有文本元素个数的25%,按文本元素的起点坐标对符合条件的元素分组,再在水平方向上计算各组元素的间隔,记录间隔的中点进集合split_pos;
4).合并集合split_pos1中和split_pos中间隔小于20个像素的分割位置为新的split_pos;
经过以上步骤如果split_pos元素个数为0,则说明当前输入的文档样本不需要分栏,直接按左上点纵坐标排序所有的版面元素即可得到最终版面分析的结果,否则执行步骤S7;
S7.对版面元素进行排序,具体实施步骤包括:
(1).向split_pos中插入元素0和样本图片宽度w,统计split_pos中元素个数为n,并做升序排列,在竖直方向上页面被分割成n-1个栅格,从左向右编号为1~n-1;
(2).对版面内所有元素按右上点的纵坐标做升序排列,遍历每一个版面元素,记其左右边界为cur_x_l、cur_x_r,计算split_pos中处于区间[cur_x_l,cur_x_r]的元素个数cur_sum,如果cur_sum大于1,当前元素记为类别0,否则根据cur_x_l和cur_x_r判断当前元素处于第几号栅格内,并记录其类别为栅格序号,这一步骤中如果cur_x_l或者cur_x_r与某一个栅格的边界相交,分别计算栅格边界距离cur_x_l和cur_x_r的距离,取距离较大侧的栅格编号为元素类别,在分类过程中每一次遇到类别为0的元素,就对所有已经分类过的元素按编号升序排列,所有元素分类完成后对最后一个0类元素之后的元素按编号排序,获得最终版面分析结果;
S8.输出结果。
2.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述发行公告版面分析方法选择Faster-RCNN深度学习框架结构来检测版面元素,该方法将版面元素分为页眉、页脚、文本段落、图和表格5类,标注8300张样本上的版面元素类别和位置,用标注好的样本训练Faster-RCNN模型。
3.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述S3后还包括以下步骤:如果版面含有图或者表格元素,将原图中调整后的表格或图元素的位置置为背景,更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素。
4.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述S4中计算文本行位置的具体方式包括:二值化更新后的样本图片,用10*1的核心对其腐蚀,使得文字可以连续成行,在竖直方向和水平方向上进行投影,获取文本行的位置坐标。
5.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述S5的具体步骤包括:
a.遍历网络模型输出的非表格和图的元素D,筛选出D中互相有重叠的元素,计算重叠区域坐标,根据重叠区域与文本行的交并比,筛选出重叠区域内的文本行,以任意一条文本行的起点纵坐标为边界分割重叠的版面元素;
b.计算D与每条文本行E的交并比,当交并比大于0.5,并且文本长度大于当前版面元素D的宽度的50%时,标记当前文本行E属于当前版面元素D;对于不与任何版面元素相交的文本行,计算其中心位置与所有版面元素D中心位置的距离,标记其属于距离最近的版面元素;
c.标记完所有文本对应版面元素之后,在水平方向计算每个版面元素下属的文本行的起点和终点平均值,更新版面元素的左右位置为计算得到的平均值,上下位置为竖直方向上每个版面元素下属文本行坐标的最小和最大值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403839.XA CN113033541B (zh) | 2021-04-15 | 2021-04-15 | 发行公告版面分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403839.XA CN113033541B (zh) | 2021-04-15 | 2021-04-15 | 发行公告版面分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033541A CN113033541A (zh) | 2021-06-25 |
CN113033541B true CN113033541B (zh) | 2024-04-30 |
Family
ID=76457347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110403839.XA Active CN113033541B (zh) | 2021-04-15 | 2021-04-15 | 发行公告版面分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033541B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757144B (zh) * | 2022-06-14 | 2022-09-06 | 成都数之联科技股份有限公司 | 图像文档的重建方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201007594A (en) * | 2008-08-01 | 2010-02-16 | Zong-Yu Tuo | Electronic publishing business system and method |
CN110363102A (zh) * | 2019-06-24 | 2019-10-22 | 北京融汇金信信息技术有限公司 | 一种pdf文件的对象识别处理方法及装置 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN111461133A (zh) * | 2020-04-20 | 2020-07-28 | 上海东普信息科技有限公司 | 快递面单品名识别方法、装置、设备及存储介质 |
CN111914846A (zh) * | 2020-07-03 | 2020-11-10 | 苏州开心盒子软件有限公司 | 版面数据合成方法、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516891B (zh) * | 2013-09-27 | 2018-05-01 | 北大方正集团有限公司 | 一种版面分析方法及系统 |
-
2021
- 2021-04-15 CN CN202110403839.XA patent/CN113033541B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201007594A (en) * | 2008-08-01 | 2010-02-16 | Zong-Yu Tuo | Electronic publishing business system and method |
CN110363102A (zh) * | 2019-06-24 | 2019-10-22 | 北京融汇金信信息技术有限公司 | 一种pdf文件的对象识别处理方法及装置 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN111461133A (zh) * | 2020-04-20 | 2020-07-28 | 上海东普信息科技有限公司 | 快递面单品名识别方法、装置、设备及存储介质 |
CN111914846A (zh) * | 2020-07-03 | 2020-11-10 | 苏州开心盒子软件有限公司 | 版面数据合成方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于图像处理的文本型数字图像OCR识别准确度提高策略研究;郭军;;晋城职业技术学院学报;20170715(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113033541A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516208B (zh) | 一种针对pdf文档表格提取的系统及方法 | |
CN110909732B (zh) | 一种图中数据的自动提取方法 | |
CN111626146B (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
CN101719142B (zh) | 基于分类字典的稀疏表示图片文字检测方法 | |
CN109213866A (zh) | 一种基于深度学习的税务商品编码分类方法和系统 | |
CN111401353A (zh) | 一种数学公式的识别方法、装置及设备 | |
Zahour et al. | Text line segmentation of historical arabic documents | |
CN110443805A (zh) | 一种基于像素密切度的语义分割方法 | |
CN113158808A (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN113723330B (zh) | 一种图表文档信息理解的方法及系统 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN112016481B (zh) | 基于ocr的财务报表信息检测和识别方法 | |
CN116311259B (zh) | 一种pdf业务文档的信息抽取方法 | |
CN114612444B (zh) | 一种基于渐进式分割网络的细微缺陷分析方法 | |
CN113033541B (zh) | 发行公告版面分析方法 | |
CN115953797A (zh) | 表格识别、文档获取方法和存储介质 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
Liang et al. | Performance evaluation of document layout analysis algorithms on the UW data set | |
CN111145314B (zh) | 一种结合地名标注的扫描电子地图地名符号的提取方法 | |
CN106503706B (zh) | 汉字字形切割结果正确性的判别方法 | |
CN116110071B (zh) | 一种基于深度学习的图像格式管道和仪表图管线识别方法 | |
KR101849933B1 (ko) | 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치 | |
CN112001359B (zh) | 基于模式识别和最优分配的启发式多叉线修补方法 | |
CN114494240A (zh) | 基于多尺度协作深度学习的无砟轨道板裂缝测量方法 | |
CN113516041A (zh) | 一种藏文古籍文档图像版面分割、识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |