CN110866388A

CN110866388A - 基于多种神经网络混合的出版pdf版面分析识别方法

Info

Publication number: CN110866388A
Application number: CN201911136541.6A
Authority: CN
Inventors: 李翀; 卢云龙; 蒋路曦
Original assignee: Chongqing Hualong Network Haishu Technology Co Ltd
Current assignee: Chongqing Hualong Network Haishu Technology Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-03-06

Abstract

本发明涉及一种基于多种神经网络混合的出版PDF版面分析识别方法，属于图像识别、PDF版面分析技术领域，采用多任务训练模式，先对版面进行识别，分割并标注PDF版面，包括段落、标题、插图，并定位文本行，再对文本进行识别。本方法在版面识别上，通过多任务训练模式，同时完成了本文行、结构识别标注，全过程无需人工参与，有效保留了PDF文本结构信息。根据版面分析得到的带PDF文本结构信息的数据，构建出版数据常用中文字典，并针对性训练文本识别模型，从而使模型在PDF印刷体文本识别任务中识别精度得以大幅提升。识别后的文本同样具有结构信息，还原原始PDF布局结构，也便于后续二次编辑，制作电子书，挖掘图书内容知识。

Description

基于多种神经网络混合的出版PDF版面分析识别方法

技术领域

本发明属于PDF版面分析技术领域，涉及一种基于多种神经网络混合的出版PDF版面分析识别方法。

背景技术

随着大数据、人工智能技术的兴起，为大量传统行业带来向数字化、智能化转型的契机，而其中就包括出版行业。

出版行业转型中最大挑战之一，就是其拥有大量难以加工的非结构化数据资源，如：图书、论文等。而为满足出版印刷需求，该类资源多以PDF格式文件为载。由于PDF格式自身的复杂性，出版印刷需求的多样性以及PDF编辑规范的缺失，导致目前存量PDF图书、论文数据无法再次编辑，通过常规方法无法提取PDF中文本信息。无法提取文本内容，则无法挖掘图书内容信息，无法对非结构化数据进行有效管理。因此，目前急需解决存量PDF文件文本提取、进而数字化的问题。

针对上述问题，需要通过OCR技术并结合人工进行处理。调研目前已有OCR工具，包括：百度文字识别、tesseract等均无法获取PDF中物理结构信息，并且文字识别效果不甚理想。本文针对出版行业PDF文件进行分析，结合深度学习技术和Tensorflow框架，构建PDF版面分析，文本行定位，文字识别为一体的EndToEnd模型。能识别提取PDF中插图、表格、文字等多种数据，并且文字识别能够达到比较高的精度，从而大幅降低人工成本，提升转换效率。

发明内容

有鉴于此，本发明的目的在于提供一种基于多种神经网络混合的出版PDF版面分析识别方法，解决现无法提供针对出版PDF文件版面的物理、逻辑结构分析，即无法区分文本行、标题等结构的问题。

为达到上述目的，本发明提供如下技术方案：

一种基于多种神经网络混合的出版PDF版面分析识别方法，采用多任务训练模式，先对版面进行识别，分割并标注PDF版面，包括段落、标题、插图，并定位文本行，再对文本进行识别。

进一步，版面识别具体包括以下步骤：

S1：针对样本数据，基于语义分割模型Unet，以SoftMax作为输出函数，同时训练文本行分类、版面分类两个模型；

S2：针对分类结果，借鉴生产对抗网络GAN的思想，设计判别器网络D-net，与Unet网络连接，其接收Unet网络分类结果以及真实数据，判别区别真实数据和分类结果，从而指导Unet网络训练；

S3：针对经过判别器训网络D-net练后的文本行分类结果，基于大津算法，设计文本行边框检测算法，得到每一行字的文本框；

S4：针对版面分类结果，调用大津算法，得到边框，并进行微调，使边框更加规则。

进一步，步骤S1中，版面分类结果用不同颜色区分文档逻辑结构；文本行分类为二分类，白色结果为识别出的文本行位置。

进一步，步骤S3中，所述文本行边框检测算法流程具体包括：

S31：根据分类结果裁剪原图；

S32：调用大津算法识别字体边框；

S33：循环遍历合并同一行字体的边框；

S34：得到每一行字的文本框。

进一步，文本识别具体包括以下步骤：

S5：通过版面分析得到包括每行文本、段落、标题的位置信息，根据位置信息通过图像裁剪的方式提取大量带文字的小图片；收集整理部分图片，并标注其对应的文本，以此作为训练数据；

S6：针对训练样本数据，基于VGG网络进行改造，去掉全连接层，提取样本数据的图像特征；

S7：构建常用汉字、英文字典，并基于获取的图像特征，设计LSTM网络识别其文本信息，通过SoftMax函数输出；

S8：基于CTC(Connectionist Temporal Classification)函数，计算LSTM输出的损失，训练网络。

进一步，使用标注工具对部分PDF文件进行标注，从而得到包括每行文本、段落、标题的位置信息；通过文本图片数据以及对应的标签数据来构建包括中文、英文、数字的字符字典。

进一步，训练版面识别模型具体包括：基于Unet网络将激活函数全部替换为LeakyReLU，卷积模版大小为4*4，步长为2；D-net判别器网络基于DCGAN的判别器结构，将原始模型中1024卷积层(1024个卷积模版)替换为512卷积层(512个卷积模版)；采用SGD优化器训练D-net，采用Adam优化器训练Unet，学习率均设置为0.0001。

进一步，训练文本识别模型具体包括：将输入图像统一处理为32*32的灰度图；基于VGG网络结构，移除全连接层，并将最后一层输出卷积数量设置为1024；采用双向LSTM与最后一个卷积层相连，LSTM隐藏层大小设置为256，使用SoftMax作为LSTM输出，输出类别数量为字典大小；使用CTC函数(Connectionist Temporal Classification)计算网络损失，训练网络。

本发明使用多任务模式同时训练文本行定位，版面分割标注任务，从而共享训练特征，提升训练效率。使用GAN替代传统分类损失函数，能学习到一个结构化的loss使得预测结果更平滑，缓解模型过拟合，减少异常数据对模型的影响。使用CTC结合双向LSTM识别文本，可以解决传统LSTM识别文字中的对齐问题，并且使模型可以学习文本上下文特征(序列特征)。通过数据合成，使模型在合成数据上训练，在真实数据上微调，减少因数据缺失对模型带来的负面影响。

本发明的有益效果在于：本文方法在版面识别上，通过多任务训练模式，同时完成了本文行、结构(段落、标题)等识别标注，全过程无需人工参与，并且有效的保留了PDF文本结构信息。在此基础上，根据版面分析得到的带PDF文本结构信息的数据，构建了出版数据常用中文字典，并针对性训练了文本识别模型，从而使模型在PDF印刷体文本识别任务中识别精度得以大幅提升。同时由于训练数据带有PDF文本结构信息，因此识别后的文本同样具有结构信息，可以很好的还原原始PDF布局结构，也便于后续二次编辑，制作电子书，挖掘图书内容知识等。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述文本行、版面分类示意图；

图2为文本行分类整体网络示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供一种基于多种神经网络混合的出版PDF版面分析识别方法，出版PDF文本识别问题通常需要分解为多个任务，其一，分割并标注PDF版面(段落、标题、插图等)；其二，定位文本行；其三，识别文本内容。本文在实作中，采用多任务训练模式，将任务一、任务二进行整合为版面识别任务，针对任务三则采用文本识别任务模型。

针对任务一、二版面识别模型：

(1)针对样本数据，基于语义分割模型Unet，以SoftMax作为输出函数，同时训练文本行分类、版面分类两个任务。分类效果如图1所示，左图为原图片，中图为版面分类图，右图为文本行分类图版面分类结果用不同颜色区分文档逻辑结构；文本行分类为二分类，白色结果为识别出的文本行位置。。

(2)针对分类结果，借鉴生产对抗网络(GAN)的思想，设计判别器网络(D-net)，与Unet网络连接，其接收Unet网络分类结果以及真实数据，判别区别真实数据和分类结果，从而指导Unet网络训练。整体网络结果如图2所示。

(3)针对文本行分类结果(经过判别器训练后)，基于大津算法，设计文本行边框检测算法，其流程为：

根据分类结果裁剪原图。

调用大津算法识别字体边框。

循环遍历合并同一行字体的边框。

得到每一行字的文本框。

(4)针对版面分类结果，直接调用大津算法，得到边框，并进行微调，使边框更加规则。

针对任务三文本识别模型：

在版面分析任务完成后，将会得到每行文本、段落、标题等位置信息，根据这些位置信息可以通过图像裁剪的方式提取大量带文字的小图片。收集整理部分图片，并标注其对应的文本，以此作为训练数据。

(1)针对训练样本数据，基于VGG网络进行改造，去掉全连接层，提取样本数据的图像特征。

(2)构建常用汉字、英文字典，并基于获取的图像特征，设计LSTM网络识别其文本信息，通过SoftMax函数输出。

(3)基于CTC(Connectionist Temporal Classification)函数，计算LSTM输出的损失，训练网络。

所有模型训练步骤以及重要参数如下：

(1)使用标注工具Performance Evaluation对部分PDF文件进行标注，得到文本行、段落等位置数据。准备文本图片数据以及对应的标签数据。构建中文、英文、数字等字符字典。

(2)训练版面识别模型:基于Unet网络将激活函数全部替换为LeakyReLU，卷积模版大小为4*4，步长为2；D-net判别器网络基于DCGAN的判别器结构，将原始模型中1024卷积层(1024个卷积模版)替换为512卷积层(512个卷积模版)；采用SGD优化器训练D-net，采用Adam优化器训练Unet，学习率均设置为0.0001。

(3)训练文本识别模型：将输入图像统一处理为32*32的灰度图；基于VGG网络结构，移除全连接层，并将最后一层输出卷积数量设置为1024；采用双向LSTM与最后一个卷积层相连，LSTM隐藏层大小设置为256，使用SoftMax作为LSTM输出，输出类别数量为字典大小。使用CTC函数(Connectionist Temporal Classification)计算网络损失，训练网络。

(4)使用准确率、召回率和F1评估模型效果。

本发明要点：

(1)使用多任务模式同时训练文本行定位，版面分割标注任务，从而共享训练特征，提升训练效率。

(2)使用GAN替代传统分类损失函数，能学习到一个结构化的loss使得预测结果更平滑，缓解模型过拟合，减少异常数据对模型的影响。

(3)使用CTC结合双向LSTM识别文本，可以解决传统LSTM识别文字中的对齐问题，并且使模型可以学习文本上下文特征(序列特征)。

(4)通过数据合成，使模型在合成数据上训练，在真实数据上微调，减少因数据缺失对模型带来的负面影响。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：采用多任务训练模式，先对版面进行识别，分割并标注PDF版面，包括段落、标题、插图，并定位文本行，再对文本进行识别。

2.根据权利要求1所述的基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：版面识别具体包括以下步骤：

3.根据权利要求2所述的基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：步骤S1中，版面分类结果用不同颜色区分文档逻辑结构；文本行分类为二分类，白色结果为识别出的文本行位置。

4.根据权利要求2所述的基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：步骤S3中，所述文本行边框检测算法流程具体包括：

S31：根据分类结果裁剪原图；

S32：调用大津算法识别字体边框；

S33：循环遍历合并同一行字体的边框；

S34：得到每一行字的文本框。

5.根据权利要求2所述的基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：文本识别具体包括以下步骤：

S8：基于CTC函数，计算LSTM输出的损失，训练网络。

6.根据权利要求2所述的基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：使用标注工具对部分PDF文件进行标注，从而得到包括每行文本、段落、标题的位置信息；通过文本图片数据以及对应的标签数据来构建包括中文、英文、数字的字符字典。

7.根据权利要求3所述的基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：训练版面识别模型具体包括：基于Unet网络将激活函数全部替换为LeakyReLU，卷积模版大小为4*4，步长为2；D-net判别器网络基于DCGAN的判别器结构，将原始模型中1024卷积层替换为512卷积层；采用SGD优化器训练D-net，采用Adam优化器训练Unet，学习率均设置为0.0001。

8.根据权利要求5所述的基于多种神经网络混合的出版PDF版面分析识别方法，其特征在于：训练文本识别模型具体包括：将输入图像统一处理为32*32的灰度图；基于VGG网络结构，移除全连接层，并将最后一层输出卷积数量设置为1024；采用双向LSTM与最后一个卷积层相连，LSTM隐藏层大小设置为256，使用SoftMax作为LSTM输出，输出类别数量为字典大小；使用CTC函数计算网络损失，训练网络。