CN110991403A - 一种基于视觉深度学习的文档信息碎片化抽取方法 - Google Patents

一种基于视觉深度学习的文档信息碎片化抽取方法 Download PDF

Info

Publication number
CN110991403A
CN110991403A CN201911316463.8A CN201911316463A CN110991403A CN 110991403 A CN110991403 A CN 110991403A CN 201911316463 A CN201911316463 A CN 201911316463A CN 110991403 A CN110991403 A CN 110991403A
Authority
CN
China
Prior art keywords
page
extraction method
picture
target
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911316463.8A
Other languages
English (en)
Inventor
罗晓斌
段飞虎
印东敏
蔡郧
尹青云
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN201911316463.8A priority Critical patent/CN110991403A/zh
Publication of CN110991403A publication Critical patent/CN110991403A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉深度学习的文档信息碎片化抽取方法,包括:抽取多份人工标注的文档数据,作为训练集;选取样本PDF,并将选取的样本PDF进行每页图片转储;将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;将未标注的目标文档进行每页图片转储;对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。通过对PDF文档进行每页图片化,之后运用图像识别、目标检测技术对图片进行处理,实现带较明显特征的论文、期刊等内容的标题、段落、公式、图片、表格进行标注和提取的功能。

Description

一种基于视觉深度学习的文档信息碎片化抽取方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于视觉深度学习的文档信息碎片化抽取方法。
背景技术
现有随着全球数字化和信息化的发展,在越来越多的领域和场合下电子文档逐渐取代了纸质文档,在信息大爆炸的当今社会,人们创建了海量的电子文档,在诸多文档格式中,PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。在当今追求效率和精度的需求下,以文档为粒度的信息单元显露出不足,于是以碎片化的形式进行存储和展现的方式应运而生,碎片化有三个潜在特性,1、可以直接检索到一个段落标题或者图表标题,打开直接定位到这个部分阅读,检索更精确,阅读更方便;2、碎片化后可以为实现碎片内容的动态重组做准备,例如很多用户的需求可以把问题现状,研究现状,对策建议等动态挑选重组成一个新的文字内容,大量节省以前自己批量找片段的功能;3、碎片化之后更方便在多个终端阅读,速度更快,解决以往PDF打开或者阅读器打开慢,多终端不便阅读的问题。
一般对PDF文档进行碎片化的方法有两种,1、通过人工标注,辅以工具,生成包含碎片信息的轻量级文件和图片,该方法因为自始至终都有人工参与,能最大限度保证原始文档和碎片化单元视觉上的一致性和正确性;2、通过解析PDF内部元素,通过各种算法和分析,将独立的单个字符、图元信息,组合拼装成人眼视觉上看到的标题、段落、图片等碎片化单元,该方法虽然能够精确拿到PDF内部基础元素的信息,但在组合拼装环节,缺乏通用的方法,特别是不同版式的内容,人工介入的程度还是很高。
为了实现上述文档信息碎片化的功能,并将人工参与程度降至最低,本文研制了一种通过图像识别和目标检测的方法,自顶向下地对整页文档内容进行识别、分类和标注。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于视觉深度学习的文档信息碎片化抽取方法。
本发明的目的通过以下的技术方案来实现:
一种基于视觉深度学习的文档信息碎片化抽取方法,包括:
a抽取多份人工标注的文档数据,作为训练集;
b选取样本PDF,并将选取的样本PDF进行每页图片转储;
c将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;
d将未标注的目标文档进行每页图片转储;
e对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;
f优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
通过对PDF文档进行每页图片化,之后运用图像识别、目标检测技术对图片进行处理,实现带较明显特征的论文、期刊等内容的标题、段落、公式、图片、表格进行标注和提取的功能。
附图说明
图1是基于视觉深度学习的文档信息碎片化抽取方法流程图;
图2是已标注的数据样本图示;
图3是单射多框检测模型结构图;
图4是Fast R-CNN模型结构图;
图5是Faster R-CNN模型结构图;
图6是用训练后的模型对未标注文档进行识别的结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于视觉深度学习的文档信息碎片化抽取方法流程,包括以下步骤:
步骤10抽取多份人工标注的文档数据,作为训练集;
步骤20选取样本PDF,并将选取的样本PDF进行每页图片转储;
步骤30将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;
步骤40将未标注的目标文档进行每页图片转储;
步骤50对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;
步骤60优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。
上述步骤10中人工标注的文档数据包括已人工标注的段落标题、段落内容、图片、公式、表格五种类别信息的内容和所属页码、页面坐标、缩放精度。
上述步骤30中使用深度卷积神经网络进行深度特征学习的过程包括以下步骤:
步骤301目标检测算法会在输入图像中采样大量区域,判断这些区域是否包含我们感兴趣的目标,并调整区域边缘从而更精确地预测目标的真实边界。我们使用锚框算法,它以每个像素为中心生成多个大小和宽高比不同的边界框,定义为锚框(anchor box)。假设输入图像高为h,宽为w。分别以图像的每个像素为中心生成不同形状的锚框。设大小为s∈(0,1]且宽高比为r>0,则锚框的宽和高分别为
Figure BDA0002325960330000031
Figure BDA0002325960330000032
当中心位置给定时,已知宽和高的锚框是确定的。分别设定好一组大小s1,...sn和一组宽高比r1,...rm。如果以每个像素为中心使用所有的大小和宽高比组合,输入图像将一共得到whnm个锚框,但计算复杂度容易过高。因此我们只对包含s1或r1的大小与宽高比的组合感兴趣,即(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)。最后以相同像素为中心的锚框数量为n+m-1。对整个输入图像,一共生成wh(n+m-1)个锚框。
步骤302量化锚框和真实边界框之间的相似度,使用Jaccard系数,该系数衡量两个集合的相似度。给定集合A和B,它们的Jaccard系数为二者交集大小除以二者并集大小:
Figure BDA0002325960330000041
步骤303在训练集中,我们将每个锚框视为一个训练样本。为了训练目标检测模型,需要为每个锚框标注两类标签,一是锚框所含目标的类别(标题、段落、公式、图片、表格),二是真实边界框相对锚框的偏移量。目标检测时,首先生成多个锚框,然后为每个锚框预测类别及偏移量,根据预测的偏移量调整锚框位置从而得到预测边界框,最后筛选需要输出的预测边界框。在训练集中,每页图像已标注了真实边界框的位置和类别,生成锚框后,主要依据与锚框相似的真实边界框的位置和类别信息为锚框标注。
步骤304输出预测边界框,当锚框数量较多时,同一个目标上可能会输出较多相似的预测边界框,为使结果简洁,可以使用非极大值抑制(non-maximum suppression,NMS)方法移除相似的预测边界框。对于一个预测边界框B,模型会计算各个类别的预测概率,设其中最大的预测概率为p,该概率对应的类别即B的预测类别,称p为预测边界框B的置信度。同一个图像上,将预测类别非背景的预测边界框按照置信度从高到低排序,得到列表L。从L中选取置信度最高的预测边界框B1最为基准,将所有与B1的交并比大于某阈值的非基准预测边界框从L中移除。此时L保留了置信度最高的预测边界框并移除了与其相似的其他预测边界框,然后从L中选取置信度第二高的预测边界框B2作为基准,将所有与B2的交并比大于某阈值的非基准预测边界框从L中移除,重复此过程,直到L中所有的预测边界框都曾作为基准,此时L中任意一对预测边界框的交并比都小于阈值。最后输出列表L中所有的预测边界框。
步骤305基于以上理论,我们使用单射多框检测(single shot multiboxdetection)模型进行特征学习和训练。如图3所示,该模型主要由一个基础网络块和若干个多尺度特征块串联而成。其中基础网络块用来从原始图像中抽取特征,可以选择常用的深度卷积神经网络。设计基础网络,使它输出的高和宽较大,基于该特征图的锚框数量较多,可以用来检测尺寸较小的目标;在每个多尺度特征块将上一层提供的特征图的高和宽减半,并使特征图中每个单元在输入图像上的感受野变得更广,越靠后的多尺度特征块输出的特征图越小,基于特征图生成的锚框也越少,感受野也越大,更适合检测尺寸较大的目标。
上述步骤60优化采样区域,锚框算法是以图像中的每个像素为中心,随机生成不同宽高比的区域,进行特征提取和预测,当图像宽和高都很大(如595×842)时,若每个像素中心生成5个锚框,按wh(n+m-1)计算,则一张图像上需要标注并预测250多万个锚框,因此容易造成计算量过大的问题。鉴于此,优化采样区域可以降低计算量,简单的方法是在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框;或使用区域卷积神经网络(region-based CNN)中和Fast R-CNN中的选择性搜索(selective search)(如图4所示);或Faster R-CNN中的区域提议网络(region proposalnetwork)(如图5所示),从而减少提议区域的生成数量。
如图6所示为用训练后的模型对未标注文档进行识别的结果图。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (5)

1.一种基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述方法包括:
a抽取多份人工标注的文档数据,作为训练集;
b选取样本PDF,并将选取的样本PDF进行每页图片转储;
c将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;
d将未标注的目标文档进行每页图片转储;
e对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;
f优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。
2.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述步骤a中文档数据包括:已人工标注的段落标题、段落内容、图片、公式、表格五种类别信息的内容和所属页码、页面坐标、缩放精度。
3.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述步骤c中深度特征学习包括:
c1判断目标检测算法在输入图像中采样的大量区域是否包含我们感兴趣的目标,并调整区域边缘,从而精确地预测目标的真实边界;并使用锚框算法,以每个像素为中心生成多个大小和宽高比不同的边界框,定义为锚框;
c2量化锚框和真实边界框之间的相似度,使用Jaccard系数衡量两个集合A和B的相似度;
c3在训练集中,将每个锚框视为一个训练样本;训练目标检测模型时为每个锚框标注两类标签,即锚框所含目标的类别与真实边界框相对锚框的偏移量;目标检测时筛选需要输出的预测边界框;
c4通过非极大值抑制方法移除相似的预测边界框;
c5使用单射多框检测模型进行特征学习和训练。
4.如权利要求3所述的基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述锚框算法是以图像中的每个像素为中心,随机生成不同宽高比的区域,进行特征提取和预测。
5.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述步骤f中优化采样区域还可以使用区域卷积神经网络中和Fast R-CNN中的选择性搜索或Faster R-CNN中的区域提议网络,从而减少提议区域的生成数量。
CN201911316463.8A 2019-12-19 2019-12-19 一种基于视觉深度学习的文档信息碎片化抽取方法 Pending CN110991403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911316463.8A CN110991403A (zh) 2019-12-19 2019-12-19 一种基于视觉深度学习的文档信息碎片化抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911316463.8A CN110991403A (zh) 2019-12-19 2019-12-19 一种基于视觉深度学习的文档信息碎片化抽取方法

Publications (1)

Publication Number Publication Date
CN110991403A true CN110991403A (zh) 2020-04-10

Family

ID=70062962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911316463.8A Pending CN110991403A (zh) 2019-12-19 2019-12-19 一种基于视觉深度学习的文档信息碎片化抽取方法

Country Status (1)

Country Link
CN (1) CN110991403A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738133A (zh) * 2020-06-17 2020-10-02 北京奇艺世纪科技有限公司 模型训练方法、目标检测方法、装置、电子设备及可读存储介质
CN112149523A (zh) * 2020-09-04 2020-12-29 开普云信息科技股份有限公司 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质
CN112990091A (zh) * 2021-04-09 2021-06-18 数库(上海)科技有限公司 基于目标检测的研报解析方法、装置、设备和存储介质
CN113111858A (zh) * 2021-05-12 2021-07-13 数库(上海)科技有限公司 自动检测图片中表格的方法、装置、设备和存储介质
CN113807158A (zh) * 2020-12-04 2021-12-17 四川医枢科技股份有限公司 一种pdf内容提取方法、装置及设备
CN114663904A (zh) * 2022-04-02 2022-06-24 成都卫士通信息产业股份有限公司 一种pdf文档布局检测方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
US20190019020A1 (en) * 2017-07-17 2019-01-17 Open Text Corporation Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques
CN109711406A (zh) * 2018-12-25 2019-05-03 中南大学 一种基于多尺度旋转锚点机制的多方向图像文本检测方法
CN111259830A (zh) * 2020-01-19 2020-06-09 中国农业科学院农业信息研究所 一种海外农业pdf文档内容碎片化方法及系统
CN112579727A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190019020A1 (en) * 2017-07-17 2019-01-17 Open Text Corporation Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109711406A (zh) * 2018-12-25 2019-05-03 中南大学 一种基于多尺度旋转锚点机制的多方向图像文本检测方法
CN111259830A (zh) * 2020-01-19 2020-06-09 中国农业科学院农业信息研究所 一种海外农业pdf文档内容碎片化方法及系统
CN112579727A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘桂雄等: "基于深度学习的机器视觉目标检测算法及在票据检测中应用", 《中国测试》 *
周翔宇等: "基于YOLO的自然场景倾斜文本定位方法研究", 《计算机工程与应用》 *
孙悦等: "基于改进SSD算法的自然场景文本检测", 《电视技术》 *
李慕风: "文档图像的检索和文字检测研究", 《中国优秀博硕士学位论文全文数据库(信息科技辑)》 *
杨宏志等: "基于改进Faster R-CNN的自然场景文字检测算法", 《重庆邮电大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738133A (zh) * 2020-06-17 2020-10-02 北京奇艺世纪科技有限公司 模型训练方法、目标检测方法、装置、电子设备及可读存储介质
CN112149523A (zh) * 2020-09-04 2020-12-29 开普云信息科技股份有限公司 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质
CN113807158A (zh) * 2020-12-04 2021-12-17 四川医枢科技股份有限公司 一种pdf内容提取方法、装置及设备
CN112990091A (zh) * 2021-04-09 2021-06-18 数库(上海)科技有限公司 基于目标检测的研报解析方法、装置、设备和存储介质
CN113111858A (zh) * 2021-05-12 2021-07-13 数库(上海)科技有限公司 自动检测图片中表格的方法、装置、设备和存储介质
CN114663904A (zh) * 2022-04-02 2022-06-24 成都卫士通信息产业股份有限公司 一种pdf文档布局检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110991403A (zh) 一种基于视觉深度学习的文档信息碎片化抽取方法
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
WO2020232872A1 (zh) 表格识别方法、装置、计算机设备和存储介质
US20190019055A1 (en) Word segmentation system, method and device
US8306255B1 (en) Snapshot-based screen scraping
JP5379085B2 (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
US7778489B1 (en) Method and system for determining the legibility of text in an image
US9183452B2 (en) Text recognition for textually sparse images
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN112818975A (zh) 文本检测模型训练方法及装置、文本检测方法及装置
CN112613502A (zh) 文字识别方法及装置、存储介质、计算机设备
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
EP1583023B1 (en) Model of documents and method for automatically classifying a document
CN109753962B (zh) 基于混合网络的自然场景图像中文本区域的处理方法
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
JPH11345339A (ja) 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN111368632A (zh) 一种签名识别方法及设备
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
RU2633182C1 (ru) Определение направления строк текста
US20230060459A1 (en) Image object classification optimizing method, system and computer readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410

RJ01 Rejection of invention patent application after publication