CN116416624A

CN116416624A - 一种基于版面校正的文档电子化方法、装置以及存储介质

Info

Publication number: CN116416624A
Application number: CN202211229543.1A
Authority: CN
Inventors: 刘仁庆; 康艳; 郑壮丽
Original assignee: Henan Science Magazine; Henan Academy of Sciences
Current assignee: Henan Science Magazine; Henan Academy of Sciences
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-07-11

Abstract

本发明公开了一种基于版面校正的文档电子化方法、装置以及存储介质。获取捕获的文档图像，对其进行倾斜校正后利用自适应的游程算法将相邻的像素进行合并形成若干个区域，并对区域进行分类，而后获取文档的版面布局信息并搜索相匹配的模板，将识别提取出的文字和非文字内容按照相应模板进行填充嵌入。本发明本发明提供的方法可以识别出待电子化的文档的版面布局，能够获得与原版面一致的电子化期刊，且能够识别出标题、正文等内容获取有利于用户阅读浏览的电子化内容。且通过改进的倾斜、失真校正算法对文档进行了校正以便于后续各区域的识别和文字的提取。

Description

一种基于版面校正的文档电子化方法、装置以及存储介质

技术领域

本发明属于文档电子化技术领域，具体涉及一种基于版面校正的文档电子化方法、装置以及存储介质。

背景技术

随着计算机技术以及便携式终端的发展，电子期刊大量涌现，且为人们阅读与检索提供了很大的便利性。传统的纸质学术期刊的出版由于受到时间、空间的限制，出版周期较长，明显滞后于读者获取信息的需求。期刊的数字化有效地提升了传统纸质期刊出版效率和传播速度，已经成为新时代学术期刊出版和传播的主流形态。但是随之而来的问题是电子期刊仅仅能覆盖部分文献，而在其成为主流形态之前，传统的纸质期刊仍然占据着重要位置。如何将未被电子期刊收录的传统形态的期刊转换为电子期刊以丰富电子期刊的覆盖范围成为亟待解决的问题。

传统的纸质期刊版面各有不同，有的是横版，有的是竖版，现有的技术是通过扫描或对纸质期刊进行拍照，然后通过OCR将图像中的文字提取出形成电子版的期刊，但是都未对其原有的版面进行分析、校正，仅仅得到统一版面布局的电子期刊，缺乏多样性以及通过文本识别出的内容不会区分标题等类型，只是提取识别出文字，不方便后续的电子期刊排版；且通过便携式终端拍摄的图像容易受到环境、人为拍摄的影响导致图像质量不高，从而导致识别提取内容的准确度不高。

发明内容

本发明针对上述现有技术中的不足，提供一种基于图像识别的版面自动校正方法、装置以及存储介质。

本发明提供了一种基于版面校正的文档电子化方法，包括步骤：

S1获取通过便携式终端捕获的文档图像；

S2对文档图像进行二值化操作，对文档图像进行倾斜校正；

S3使用自适应的游程算法将相邻的像素进行合并形成若干个区域；

S4分析识别和定位所有的连通区域的回归框；

S5使用深度学习网络进行基于区域的分类，将输入的各区域图像识别分类为文字区域包括文本、标题、表格、作者区域和非文字区域包括图像区域；

S6对文字区域进行失真校正，校正完成后提取识别文字信息；

S7通过各区域获得待识别文档的版面拓扑结构，在数据库中搜索与其匹配的版面拓扑模板；

S8将提取出的文字信息以及图像按照其相应的版面拓扑自动嵌入。

优选的，所述步骤S2对文档图像进行倾斜校正，包含：

S21二值化的图像在-90°到90°的范围内以每次1°的步长迭代旋转；

S22在每旋转1°后，计算图像的水平投影的轮廓，然后计算水平投影轮廓的熵值，选择最小的熵值对应的角度θ即为倾斜校正的角度；将原始图像旋转角度θ得到倾斜校正后的图像。

优选的，所述步骤S3使用自适应的游程算法将相邻的像素进行合并形成若干个区域包括：

S31通过自适应的游程平滑算法对图像进行转换，

S32通过基于像素的连通性将图像的像素分组为组件来提取连通区域，每个连通区域包含相似的像素的强度值。

优选的，所述步骤S5使用深度学习网络进行基于区域的分类，并输入网络识别分类为文字区域包括文本、标题、表格、作者区域和非文字区域包括图像区域包括：

S51目标网络通过使用迁移学习来获得，迁移预训练的源域数据使用 ImageNet数据集用于提取非文字区域的特征，对于文字区域特征的提取，使用例如RCTW数据集；通过预训练获得网络D1，共N层；

S52对收集的纸质文献拍摄图像获取用于重新训练的样本M；

S53冻结网络D1的前N-1层，将网络D1使用训练样本M重新进行训练，得到目标网络Dt；

S54在连通区域分类后，合并具有相同属性的最接近的连通区域，重复此步骤，直到没有连通区域有具有相同属性的邻域。

优选的，所述步骤S6对文字区域进行失真校正包括：

S61计算每个文本行的透视失真参数，对文本行图像进行失真校正；

S62当文本行的图像的宽度与高度的比值小于某一阈值时，使用全局失真参数来对上述文本行进行校正，使用S61的透视失真参数对其他文本行进行校正；从具有最大的宽度与高度壁纸的文本行图像计算全局透视失真参数。

优选的，所述步骤S7通过各区域获得待识别文档的版面拓扑结构，在数据库中搜索与其匹配的版面拓扑模板，包括：

S71预先存储若干种版面拓扑结构模板，在识别出目标对象的拓扑结构后，搜索与其匹配的前m个拓扑模板并呈现供用户选择；

S72利用识别出的文字、非文字区域的相对位置来实现与存储的拓扑模板的匹配。

本发明还提供了一种基于版面校正的文档电子化装置，其包括处理器，存储器，处理器可以执行上述的基于版面校正的文档电子化方法。

本发明还提供了一种存储介质，其包括处理器，存储器，存储器上存储指令，指令可以执行上述的基于版面校正的文档电子化方法。

与现有技术相比，本发明的有益效果是：

本发明提供的方法可以识别出待电子化的文档的版面布局，能够获得与原版面一致的电子化期刊，且能够识别出标题、正文等内容获取有利于用户阅读浏览的电子化内容。且通过改进的倾斜、失真校正算法对文档进行了校正以便于后续各区域的识别和文字的提取。

附图说明

图1为本发明的基于图像识别的版面自动校正方法的流程图；

图2(a)为原始文档图像，图2(b)为识别连通分量区域后的结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图1,一种基于版面校正的文档电子化方法，包括步骤：

S1获取通过便携式终端捕获的文档图像；

S2对文档图像进行二值化操作，对文档图像进行倾斜校正；

S4分析识别和定位所有的连通区域的回归框；

参见图2，为通过步骤S3、S4操作后识别出的连通分量区域的结果。

优选的，所述步骤S2对文档图像进行倾斜校正，包含：S21二值化的图像在-90°到90°的范围内以每次1°的步长迭代旋转；S22在每旋转1°后，计算图像的水平投影的轮廓，然后计算水平投影轮廓的熵值，选择最小的熵值对应的角度θ即为倾斜校正的角度；将原始图像旋转角度θ得到倾斜校正后的图像。

I_i＝Rota(I，θ)，-90°＜θ＜90°

E_i＝Entro(HPF(I_i))θ_f＝θ_i|i＝argmin_j(Entro(HPF(I_j)))

优选的，所述步骤S3使用自适应的游程算法将相邻的像素进行合并形成若干个区域包括：S31通过自适应的游程平滑算法对图像进行转换，S32通过基于像素的连通性将图像的像素分组为组件来提取连通区域，每个连通区域包含相似的像素的强度值。传统的游程算法通常用于文档图像的分割和文本的识别检测的预处理。该算法对位于同一行或同一列的黑色像素点之间的距离进行检测，当两个相邻的黑色的像素点之间的空白游程长度小于设定的阈值Th时，将这两个点之间的空白游程全部填充为黑色。但传统的游程算法需要预先设定阈值，本申请使用的自适应的游程算法可以根据文档图像的版面结构进行连通区域的分析，自动确定适用于不同版面的阈值，对图像前景颜色白色的像素点进行平滑，形成连通区域。将连通域的宽度和高度分别进行聚类，取其聚类中心的最大宽度width1和高度height1作为自适应游程算法的水平方向阈值和垂直方向阈值。

经过游程算法处理后的图像还存在一些噪点，需要对连通区域进行去噪点的处理。首先，过滤噪点。检测连通区域的外轮廓，获得每个轮廓的最小外接矩形。对宽度、高度以及宽高比、面积设定阈值，过滤掉不满足阈值条件的矩形框。例如可以设置宽度的阈值为width1，高度的阈值为height1，宽高比阈值为width1/height1,面积的阈值为width1×height1，当最小外接矩形的上述四个值都小于各自的阈值时，过滤掉此矩形框。其次，对矩形框进行去重。如果一个矩形框(矩形框1)的几何的中心包含在另一个矩形框(矩形框2)中，那么矩形框1属于矩形框2。如果矩形框1的中心和矩形框2的中心重合，那么面积小的矩形框属于面积大的矩形框。

S52对收集的纸质文献拍摄图像获取用于重新训练的样本M；

优选的，所述步骤S6对文字区域进行失真校正包括：

S62当文本行的图像的宽度与高度的比值小于某一阈值时，使用全局失真参数来对上述文本行进行校正，使用S61的透视失真参数对其他文本行进行校正；从具有最大的宽度与高度比值的文本行图像计算全局透视失真参数。

每个文本行的失真程度不一致，当某行的宽高比值较小时，说明其失真较严重，此时该行计算出的失真参数也不准确，因此使用全局的透视失真参数来对其进行失真校正。选择具有最大宽高比的文本行图像来计算全局的透视失真参数能够较为公平、准确地对失真严重的文本行进行校正。

实施例二：

实施例三：

本发明还提供了一种可读存储介质，其包括处理器，存储器，存储器上存储指令，处理器执行指令以执行上述的基于版面校正的文档电子化方法。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种基于版面校正的文档电子化方法，其特征在于，包括如下步骤：

S1获取通过便携式终端捕获的文档图像；

S2对文档图像进行二值化操作，对文档图像进行倾斜校正；

S4分析识别、定位所有连通区域的回归框；

2.根据权利要求1所述的一种基于版面校正的文档电子化方法，其特征在于，所述步骤S2对文档图像进行倾斜校正，包含：

3.根据权利要求2所述的一种基于版面校正的文档电子化方法，其特征在于，所述步骤S3使用自适应的游程算法将相邻的像素进行合并形成若干个区域包括：

S31通过自适应的游程平滑算法对图像进行转换，

4.根据权利要求3所述的一种基于版面校正的文档电子化方法，其特征在于，所述步骤S5包括：

S51目标网络通过使用迁移学习来获得，迁移预训练的源域数据使用ImageNet数据集用于提取非文字区域的特征，对于文字区域特征的提取，使用RCTW数据集；通过预训练获得网络D1，共N层；

S52对收集的纸质文献拍摄图像获取用于重新训练的样本M；

5.根据权利要求4所述的一种基于版面校正的文档电子化方法，其特征在于，所述步骤S6对文字区域进行失真校正包括：

S62当文本行的图像的宽度与高度的比值小于某一阈值时，使用全局失真参数来对上述文本行进行校正，使用步骤S61的透视失真参数对其他文本行进行校正；从具有最大的宽度与高度比值的文本行图像计算全局透视失真参数。

6.根据权利要求5所述的一种基于版面校正的文档电子化方法，其特征在于，所述步骤S7通过各区域获得待识别文档的版面拓扑结构，在数据库中搜索与其匹配的版面拓扑模板，包括：

7.一种基于版面校正的文档电子化装置，其特征在于，包括处理器，存储器，处理器可以执行如权利要求1-6中任一项所述的基于版面校正的文档电子化方法。

8.一种可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求如权利要求1-6中任一项所述的基于版面校正的文档电子化方法。