CN110991403A

CN110991403A - 一种基于视觉深度学习的文档信息碎片化抽取方法

Info

Publication number: CN110991403A
Application number: CN201911316463.8A
Authority: CN
Inventors: 罗晓斌; 段飞虎; 印东敏; 蔡郧; 尹青云; 冯自强; 张宏伟
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-04-10

Abstract

本发明公开了一种基于视觉深度学习的文档信息碎片化抽取方法，包括：抽取多份人工标注的文档数据，作为训练集；选取样本PDF，并将选取的样本PDF进行每页图片转储；将训练集和样本PDF中的信息进行对应，使用深度卷积神经网络进行深度特征学习；将未标注的目标文档进行每页图片转储；对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储；优化采样区域，即在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框。通过对PDF文档进行每页图片化，之后运用图像识别、目标检测技术对图片进行处理，实现带较明显特征的论文、期刊等内容的标题、段落、公式、图片、表格进行标注和提取的功能。

Description

一种基于视觉深度学习的文档信息碎片化抽取方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于视觉深度学习的文档信息碎片化抽取方法。

背景技术

现有随着全球数字化和信息化的发展，在越来越多的领域和场合下电子文档逐渐取代了纸质文档，在信息大爆炸的当今社会，人们创建了海量的电子文档，在诸多文档格式中，PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息，支持特长文件，集成度和安全可靠性都较高。在当今追求效率和精度的需求下，以文档为粒度的信息单元显露出不足，于是以碎片化的形式进行存储和展现的方式应运而生，碎片化有三个潜在特性，1、可以直接检索到一个段落标题或者图表标题，打开直接定位到这个部分阅读，检索更精确，阅读更方便；2、碎片化后可以为实现碎片内容的动态重组做准备，例如很多用户的需求可以把问题现状，研究现状，对策建议等动态挑选重组成一个新的文字内容，大量节省以前自己批量找片段的功能；3、碎片化之后更方便在多个终端阅读，速度更快，解决以往PDF打开或者阅读器打开慢，多终端不便阅读的问题。

一般对PDF文档进行碎片化的方法有两种，1、通过人工标注，辅以工具，生成包含碎片信息的轻量级文件和图片，该方法因为自始至终都有人工参与，能最大限度保证原始文档和碎片化单元视觉上的一致性和正确性；2、通过解析PDF内部元素，通过各种算法和分析，将独立的单个字符、图元信息，组合拼装成人眼视觉上看到的标题、段落、图片等碎片化单元，该方法虽然能够精确拿到PDF内部基础元素的信息，但在组合拼装环节，缺乏通用的方法，特别是不同版式的内容，人工介入的程度还是很高。

为了实现上述文档信息碎片化的功能，并将人工参与程度降至最低，本文研制了一种通过图像识别和目标检测的方法，自顶向下地对整页文档内容进行识别、分类和标注。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于视觉深度学习的文档信息碎片化抽取方法。

本发明的目的通过以下的技术方案来实现：

一种基于视觉深度学习的文档信息碎片化抽取方法，包括：

a抽取多份人工标注的文档数据，作为训练集；

b选取样本PDF，并将选取的样本PDF进行每页图片转储；

c将训练集和样本PDF中的信息进行对应，使用深度卷积神经网络进行深度特征学习；

d将未标注的目标文档进行每页图片转储；

e对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储；

f优化采样区域，即在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

通过对PDF文档进行每页图片化，之后运用图像识别、目标检测技术对图片进行处理，实现带较明显特征的论文、期刊等内容的标题、段落、公式、图片、表格进行标注和提取的功能。

附图说明

图1是基于视觉深度学习的文档信息碎片化抽取方法流程图；

图2是已标注的数据样本图示；

图3是单射多框检测模型结构图；

图4是Fast R-CNN模型结构图；

图5是Faster R-CNN模型结构图；

图6是用训练后的模型对未标注文档进行识别的结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于视觉深度学习的文档信息碎片化抽取方法流程，包括以下步骤：

步骤10抽取多份人工标注的文档数据，作为训练集；

步骤20选取样本PDF，并将选取的样本PDF进行每页图片转储；

步骤30将训练集和样本PDF中的信息进行对应，使用深度卷积神经网络进行深度特征学习；

步骤40将未标注的目标文档进行每页图片转储；

步骤50对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储；

步骤60优化采样区域，即在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框。

上述步骤10中人工标注的文档数据包括已人工标注的段落标题、段落内容、图片、公式、表格五种类别信息的内容和所属页码、页面坐标、缩放精度。

上述步骤30中使用深度卷积神经网络进行深度特征学习的过程包括以下步骤：

步骤301目标检测算法会在输入图像中采样大量区域，判断这些区域是否包含我们感兴趣的目标，并调整区域边缘从而更精确地预测目标的真实边界。我们使用锚框算法，它以每个像素为中心生成多个大小和宽高比不同的边界框，定义为锚框(anchor box)。假设输入图像高为h，宽为w。分别以图像的每个像素为中心生成不同形状的锚框。设大小为s∈(0,1]且宽高比为r>0，则锚框的宽和高分别为

和

当中心位置给定时，已知宽和高的锚框是确定的。分别设定好一组大小s1,...sn和一组宽高比r1,...rm。如果以每个像素为中心使用所有的大小和宽高比组合，输入图像将一共得到whnm个锚框，但计算复杂度容易过高。因此我们只对包含s1或r1的大小与宽高比的组合感兴趣，即(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)。最后以相同像素为中心的锚框数量为n+m-1。对整个输入图像，一共生成wh(n+m-1)个锚框。

步骤302量化锚框和真实边界框之间的相似度，使用Jaccard系数，该系数衡量两个集合的相似度。给定集合A和B，它们的Jaccard系数为二者交集大小除以二者并集大小：

步骤303在训练集中，我们将每个锚框视为一个训练样本。为了训练目标检测模型，需要为每个锚框标注两类标签，一是锚框所含目标的类别(标题、段落、公式、图片、表格)，二是真实边界框相对锚框的偏移量。目标检测时，首先生成多个锚框，然后为每个锚框预测类别及偏移量，根据预测的偏移量调整锚框位置从而得到预测边界框，最后筛选需要输出的预测边界框。在训练集中，每页图像已标注了真实边界框的位置和类别，生成锚框后，主要依据与锚框相似的真实边界框的位置和类别信息为锚框标注。

步骤304输出预测边界框，当锚框数量较多时，同一个目标上可能会输出较多相似的预测边界框，为使结果简洁，可以使用非极大值抑制(non-maximum suppression，NMS)方法移除相似的预测边界框。对于一个预测边界框B，模型会计算各个类别的预测概率，设其中最大的预测概率为p，该概率对应的类别即B的预测类别，称p为预测边界框B的置信度。同一个图像上，将预测类别非背景的预测边界框按照置信度从高到低排序，得到列表L。从L中选取置信度最高的预测边界框B₁最为基准，将所有与B₁的交并比大于某阈值的非基准预测边界框从L中移除。此时L保留了置信度最高的预测边界框并移除了与其相似的其他预测边界框，然后从L中选取置信度第二高的预测边界框B₂作为基准，将所有与B₂的交并比大于某阈值的非基准预测边界框从L中移除，重复此过程，直到L中所有的预测边界框都曾作为基准，此时L中任意一对预测边界框的交并比都小于阈值。最后输出列表L中所有的预测边界框。

步骤305基于以上理论，我们使用单射多框检测(single shot multiboxdetection)模型进行特征学习和训练。如图3所示，该模型主要由一个基础网络块和若干个多尺度特征块串联而成。其中基础网络块用来从原始图像中抽取特征，可以选择常用的深度卷积神经网络。设计基础网络，使它输出的高和宽较大，基于该特征图的锚框数量较多，可以用来检测尺寸较小的目标；在每个多尺度特征块将上一层提供的特征图的高和宽减半，并使特征图中每个单元在输入图像上的感受野变得更广，越靠后的多尺度特征块输出的特征图越小，基于特征图生成的锚框也越少，感受野也越大，更适合检测尺寸较大的目标。

上述步骤60优化采样区域，锚框算法是以图像中的每个像素为中心，随机生成不同宽高比的区域，进行特征提取和预测，当图像宽和高都很大(如595×842)时，若每个像素中心生成5个锚框，按wh(n+m-1)计算，则一张图像上需要标注并预测250多万个锚框，因此容易造成计算量过大的问题。鉴于此，优化采样区域可以降低计算量，简单的方法是在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框；或使用区域卷积神经网络(region-based CNN)中和Fast R-CNN中的选择性搜索(selective search)(如图4所示)；或Faster R-CNN中的区域提议网络(region proposalnetwork)(如图5所示)，从而减少提议区域的生成数量。

如图6所示为用训练后的模型对未标注文档进行识别的结果图。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述方法包括：

a抽取多份人工标注的文档数据，作为训练集；

b选取样本PDF，并将选取的样本PDF进行每页图片转储；

d将未标注的目标文档进行每页图片转储；

2.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述步骤a中文档数据包括：已人工标注的段落标题、段落内容、图片、公式、表格五种类别信息的内容和所属页码、页面坐标、缩放精度。

3.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述步骤c中深度特征学习包括：

c1判断目标检测算法在输入图像中采样的大量区域是否包含我们感兴趣的目标，并调整区域边缘，从而精确地预测目标的真实边界；并使用锚框算法，以每个像素为中心生成多个大小和宽高比不同的边界框，定义为锚框；

c2量化锚框和真实边界框之间的相似度，使用Jaccard系数衡量两个集合A和B的相似度；

c3在训练集中，将每个锚框视为一个训练样本；训练目标检测模型时为每个锚框标注两类标签，即锚框所含目标的类别与真实边界框相对锚框的偏移量；目标检测时筛选需要输出的预测边界框；

c4通过非极大值抑制方法移除相似的预测边界框；

c5使用单射多框检测模型进行特征学习和训练。

4.如权利要求3所述的基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述锚框算法是以图像中的每个像素为中心，随机生成不同宽高比的区域，进行特征提取和预测。

5.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述步骤f中优化采样区域还可以使用区域卷积神经网络中和Fast R-CNN中的选择性搜索或Faster R-CNN中的区域提议网络，从而减少提议区域的生成数量。