CN112633116B - 一种智能解析pdf图文的方法 - Google Patents

一种智能解析pdf图文的方法 Download PDF

Info

Publication number
CN112633116B
CN112633116B CN202011499539.8A CN202011499539A CN112633116B CN 112633116 B CN112633116 B CN 112633116B CN 202011499539 A CN202011499539 A CN 202011499539A CN 112633116 B CN112633116 B CN 112633116B
Authority
CN
China
Prior art keywords
arrow
image
duty ratio
classifier
boxes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011499539.8A
Other languages
English (en)
Other versions
CN112633116A (zh
Inventor
张贝贝
郭仲穗
郑浩然
仵晨伟
魏嵬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202011499539.8A priority Critical patent/CN112633116B/zh
Publication of CN112633116A publication Critical patent/CN112633116A/zh
Application granted granted Critical
Publication of CN112633116B publication Critical patent/CN112633116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种智能解析PDF图文的方法,对输入文档进行数据处理,得到待处理图像;采用分类器提取待处理图像中的目标图像;采用角点对目标图像进行检测,判断箭头方向;采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况,获得解析后的股权关系。本发明一种智能解析PDF图文的方法,解决了现有技术中存在的对PDF文档的图像识别、文本解析、提取重要关系图比较欠缺的问题。

Description

一种智能解析PDF图文的方法
技术领域
本发明属于人工智能技术领域,具体涉及一种智能解析PDF图文的方法。
背景技术
图像识别技术是人工智能的一个重要应用,它是立体视觉、运动分析、数据融合等实用技术的基础,在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域有重要的应用价值。目前对文本的识别研究是建立在已有的文本上,主要涉及词义转换、词频统计等方面,仅仅是对PDF文本关键信息切分、文本段落信息抽取、表格信息处理等纯文字或者高度统一的弱图像分析,然而关于PDF文档的图像识别、文本解析等比较欠缺,对PDF中的重要关系图的提取解析少之又少。
发明内容
本发明的目的是提供一种智能解析PDF图文的方法,解决了现有技术中存在的对PDF文档的图像识别、文本解析、提取重要关系图比较欠缺的问题。
本发明所采用的技术方案是一种智能解析PDF图文的方法,具体按照以下步骤实施:
步骤1,对输入文档进行数据处理,得到待处理图像;
步骤2,采用分类器提取待处理图像中的目标图像;
步骤3,采用角点对目标图像进行检测,判断箭头方向;
步骤4,采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况,获得解析后的股权关系。
本发明的特点还在于:
步骤1具体为:
在客户端网页输入系统文档A,经过筛选条件函数T(x)将其转化为B=T(A),再经过图片转换函数F(x)转化为C=F(B);具体表达式如下:
式(1)中,B为筛选后文件,C为图片集合。
步骤2具体为:
在C的基础上采用分类器寻找所需的图像,记为通过/>对Dp图形定位出所需目标,记为目标图像/>具体为:
式(2)、(3)中,Dp为股权关系流程图,n1为所有含流程图图像的PDF文档集合,n2为单页PDF文档中所含流程图的总数,Arq为每张流程图中箭头数量,i为变量。
分类器的表达式为:
式(4)中,m为分类器的种类,k为同种分类器所训练模型的个数,S为分类器。
分类器包括支持向量机、线性判断分析、朴素贝叶斯、Logit模型-最大似然估计、感知元或决策树。
步骤3具体为:
采用角点检测目标图像所具有的角点,记为其中,Pi为目标图像所具角点个数,并返回Pi相应的坐标Ei,在规定误差δ(x)范围内通过判断Ei的X与Y坐标位置来确定方框的从属关系;
具体表述如下:
按照竖直关系将Ei存储到两个列表当中,完整箭头图像具有尾部连接持股方,头部指向被控股方的特征,将列表中大点距值作为头部,小点距值作为尾部,然后根据两个列表中的竖直坐标方向来判断箭头方向,表达式如下:
式(5)中,EiY、EjY分别为所识别角点的Y坐标;
判断箭头方向的结论为:
满足Ni>Nj,可得出Ni所在竖直列表的方向即是箭头所指方向;其中,Ni为EiY相差范围在δ(x)内角点的数量,Nj为EjY相差范围在δ(x)内角点的数量。
角点检测的方法包括KLT算子、Harris角点算法、Kitchen-Rosenfeld算法或SUSAN算法。
步骤4具体为:
步骤4.1,将图像经过膨胀与腐蚀处理R(x)后,
使文字变成块区域Qi,从而识别整块区域的轮廓,获得矩形框,然后返回Sqi相对应的四个角点坐标;表达式如下:
式(6)中,Qi为块区域,R为文字块区域定位操作函数,Sqi为块区域的矩形框;
步骤4.2,根据步骤4.1及结论判断竖直位置的箭头指向。
步骤4.2具体为:
步骤4.2.1,若的方向统一,则流程图的方向唯一,即流程图的数据流向为沿竖直方向朝上或者朝下;具体表述如下:
根据步骤4.1得出方框与占比数值的坐标,标号后分别存入相应的列表中;
方框与占比数值的公式为:
S=Nu+1 (7),
式(7)中,S为方框的数量,Nu为占比数值的数量;故相应的标号也存在,因此输出关系为:
式(8)中,SrA→B为输出A与B方框的占比关系,Pei为占比数值;
步骤4.2.2,若的方向不统一,则构建二维数组,判断每个方框是否存在指出箭头,若没有,则所对应的数组行置零;若存在,指出箭头则代表方框与其他方框有联系,再判断向上与向下方向是否分别有指出箭头,若存在指出箭头,则继续判断箭头所指方向的方框是否有该方向的指出箭头,并把相对应的占比关系记入数组当中,直至该方向的方框没有指出箭头;直至将所有方框遍历完即可。
二维数组为占比关系出度表;关系矩阵表示方框之间是否具有箭头指向,列表示其他方框指向目标方框,行表示目标方框指向其他方框。
本发明的有益效果是:
本发明一种智能解析PDF图文的方法,通过T(x)对文件进行处理,过滤出纯文本文档,减少分类器的工作时长,结合特征值提取和线性分类器来训练大量数据,目的在于提高识别目标图像的效率;本发明一种智能解析PDF图文的方法,通过对识别的目标图像/>进行分析,确定箭头的指向进而得出结论,通过结论和OCR技术对文字进行识别定位,可以准确得出流程图的流向,并且能获得任意两个由出度方向流向入度方向方框之间的占比关系,整个过程具有稳定性以及实用性。
附图说明
图1是本发明一种智能解析PDF图文的方法实现自动识别目标图像的示意图;
图2是本发明一种智能解析PDF图文的方法获得竖直流程图的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种智能解析PDF图文的方法具体按照以下步骤实施:
步骤1,对输入文档进行数据处理,得到待处理图像;
步骤2,采用分类器提取待处理图像中的目标图像;
步骤3,采用角点对目标图像进行检测,判断箭头方向;
步骤4,采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况,获得解析后的股权关系。
步骤1具体为:
在客户端网页输入系统文档A,经过筛选条件函数T(x)将其转化为B=T(A),再经过图片转换函数F(x)转化为C=F(B);具体表达式如下:
式(1)中,B为筛选后文件,C为图片集合。
步骤2具体为:
在C的基础上采用分类器寻找所需的图像,记为通过/>对Dp图形定位出所需目标,记为目标图像/>具体为:
式(2)、(3)中,Dp为股权关系流程图,n1为所有含流程图图像的PDF文档集合,n2为单页PDF文档中所含流程图的总数,Arq为每张流程图中箭头数量,i为变量。
分类器的表达式为:
式(4)中,m为分类器的种类,k为同种分类器所训练模型的个数,S为分类器。
分类器包括支持向量机、线性判断分析、朴素贝叶斯、Logit模型-最大似然估计、感知元或决策树。
步骤3具体为:
采用角点检测目标图像所具有的角点,记为其中,Pi为目标图像所具角点个数,并返回Pi相应的坐标Ei,在规定误差δ(x)范围内通过判断Ei的X与Y坐标位置来确定方框的从属关系;
具体表述如下:
按照竖直关系将Ei存储到两个列表当中,完整箭头图像具有尾部连接持股方,头部指向被控股方的特征,将列表中大点距值作为头部,小点距值作为尾部,然后根据两个列表中的竖直坐标方向来判断箭头方向,表达式如下:
式(5)中,EiY、EjY分别为所识别角点的Y坐标;
判断箭头方向的结论为:
满足Ni>Nj,可得出Ni所在竖直列表的方向即是箭头所指方向;其中,Ni为EiY相差范围在δ(x)内角点的数量,Nj为EjY相差范围在δ(x)内角点的数量。
角点检测的方法包括KLT算子、Harris角点算法、Kitchen-Rosenfeld算法或SUSAN算法。
步骤4具体为:
步骤4.1,将图像经过膨胀与腐蚀处理R(x)后,
使文字变成块区域Qi,从而识别整块区域的轮廓,获得矩形框,然后返回Sqi相对应的四个角点坐标;表达式如下:
式(6)中,Qi为块区域,R为文字块区域定位操作函数,Sqi为块区域的矩形框;
步骤4.2,根据步骤4.1及结论判断竖直位置的箭头指向。
步骤4.2具体为:
步骤4.2.1,若的方向统一,则流程图的方向唯一,即流程图的数据流向为沿竖直方向朝上或者朝下;具体表述如下:
根据步骤4.1得出方框与占比数值的坐标,标号后分别存入相应的列表中;
方框与占比数值的公式为:
S=Nu+1 (7),
式(7)中,S为方框的数量,Nu为占比数值的数量;故相应的标号也存在,因此输出关系为:
式(8)中,SrA→B为输出A与B方框的占比关系,Pei为占比数值;
步骤4.2.2,若的方向不统一,则构建二维数组,判断每个方框是否存在指出箭头,若没有,则所对应的数组行置零;若存在,指出箭头则代表方框与其他方框有联系,再判断向上与向下方向是否分别有指出箭头,若存在指出箭头,则继续判断箭头所指方向的方框是否有该方向的指出箭头,并把相对应的占比关系记入数组当中,直至该方向的方框没有指出箭头;直至将所有方框遍历完即可。
二维数组为占比关系出度表;关系矩阵表示方框之间是否具有箭头指向,列表示其他方框指向目标方框,行表示目标方框指向其他方框。
图1是本发明一种智能解析PDF图文的方法实现自动识别目标图像的示意图;图2是本发明一种智能解析PDF图文的方法获得竖直流程图的示意图。
图1中,每个节点分别表示自动化识别目标图像的各个步骤,分别标记为A,B,C,五个节点之间的有向边表示为下一个步骤实现的方向,各条边上的标注为前后步骤实现的条件函数和方法;其中,A→B的条件函数是T(x),B→C的条件函数是F(x),/>的方法是/> 的方法是/>
图2中,每个节点分别表示目标图像解析的步骤,分别标记OCR,TR,TE,SAME,DIF;TR节点代表结论,TE节点代表测试数据,SAME和DIF节点分别代表箭头方向相同和不同的情况;六个节点之间的有向边表示为下一个步骤实现的方向,第一条边的标注为两个节点之间实现的方法,/>的方法是/>

Claims (5)

1.一种智能解析PDF图文的方法,其特征在于,具体按照以下步骤实施:
步骤1,对输入文档进行数据处理,得到待处理图像;
在客户端网页输入系统文档A,经过筛选条件函数T(x)将其转化为B=T(A),再经过图片转换函数F(x)转化为C=F(B);具体表达式如下:
式(1)中,B为筛选后文件,C为图片集合;
步骤2,采用分类器提取待处理图像中的目标图像;
在C的基础上采用分类器寻找所需的图像,记为通过/>对Dp图形定位出所需目标,记为目标图像/>具体为:
式(2)、(3)中,Dp为股权关系流程图,n1为所有含流程图图像的PDF文档集合,n2为单页PDF文档中所含流程图的总数,Arq为每张流程图中箭头数量,i为变量;
步骤3,采用角点对目标图像进行检测,判断箭头方向;
采用角点检测目标图像所具有的角点,记为其中,Pi为目标图像所具角点个数,并返回Pi相应的坐标Ei,在规定误差δ(x)范围内通过判断Ei的X与Y坐标位置来确定方框的从属关系;
具体表述如下:
按照竖直关系将Ei存储到两个列表当中,完整箭头图像具有尾部连接持股方,头部指向被控股方的特征,将列表中大点距值作为头部,小点距值作为尾部,然后根据两个列表中的竖直坐标方向来判断箭头方向,表达式如下:
式(5)中,EiY、EjY分别为所识别角点的Y坐标;
判断箭头方向的结论为:
满足Ni>Nj,可得出Ni所在竖直列表的方向即是箭头所指方向;其中,Ni为EiY相差范围在δ(x)内角点的数量,Nj为EjY相差范围在δ(x)内角点的数量;
步骤4,采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况,获得解析后的股权关系;
步骤4.1,将图像经过膨胀与腐蚀处理R(x)后,使文字变成块区域Qi,从而识别整块区域的轮廓,获得矩形框,然后返回Sqi相对应的四个角点坐标;表达式如下:
式(6)中,Qi为块区域,R为文字块区域定位操作函数,Sqi为块区域的矩形框;
步骤4.2,根据步骤4.1及结论判断竖直位置的箭头指向;
步骤4.2.1,若的方向统一,则流程图的方向唯一,即流程图的数据流向为沿竖直方向朝上或者朝下;具体表述如下:
根据步骤4.1得出方框与占比数值的坐标,标号后分别存入相应的列表中;
方框与占比数值的公式为:
S = Nu + 1 (7),
式(7)中,S为方框的数量,Nu为占比数值的数量;故相应的标号也存在,因此输出关系为:
式(8)中,SrAB为输出A与B方框的占比关系,Pei为占比数值;
步骤4.2.2,若的方向不统一,则构建二维数组,判断每个方框是否存在指出箭头,若没有,则所对应的数组行置零;若存在,指出箭头则代表所述方框与其他方框有联系,再判断向上与向下方向是否分别有指出箭头,若存在指出箭头,则继续判断箭头所指方向的方框是否有该方向的指出箭头,并把相对应的占比关系记入数组当中,直至该方向的方框没有所述指出箭头;直至将所有方框遍历完即可。
2.根据权利要求1所述的一种智能解析PDF图文的方法,其特征在于,所述分类器的表达式为:
式(4)中,m为分类器的种类,k为同种分类器所训练模型的个数,S为分类器。
3.根据权利要求2所述的一种智能解析PDF图文的方法,其特征在于,所述分类器包括支持向量机、线性判断分析、朴素贝叶斯、Logit模型-最大似然估计、感知元或决策树。
4.根据权利要求1所述的一种智能解析PDF图文的方法,其特征在于,所述角点检测的方法包括KLT算子、Harris角点算法、Kitchen-Rosenfeld算法或SUSAN算法。
5.根据权利要求1所述的一种智能解析PDF图文的方法,其特征在于,所述二维数组为占比关系出度表;关系矩阵表示方框之间是否具有箭头指向,列表示其他方框指向目标方框,行表示目标方框指向其他方框。
CN202011499539.8A 2020-12-17 2020-12-17 一种智能解析pdf图文的方法 Active CN112633116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499539.8A CN112633116B (zh) 2020-12-17 2020-12-17 一种智能解析pdf图文的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499539.8A CN112633116B (zh) 2020-12-17 2020-12-17 一种智能解析pdf图文的方法

Publications (2)

Publication Number Publication Date
CN112633116A CN112633116A (zh) 2021-04-09
CN112633116B true CN112633116B (zh) 2024-02-02

Family

ID=75316637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499539.8A Active CN112633116B (zh) 2020-12-17 2020-12-17 一种智能解析pdf图文的方法

Country Status (1)

Country Link
CN (1) CN112633116B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867654B (zh) * 2021-09-27 2024-03-08 西安理工大学 一种基于pdf页面的拆分和拼页方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2999099A1 (en) * 2017-11-07 2019-05-07 Tata Consultancy Services Limited Method and system for extracting information from hand-marked industrial inspection sheets
CN110175563A (zh) * 2019-05-27 2019-08-27 上海交通大学 金属切削刀具图纸标注识别方法及系统
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、系统及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195006B2 (en) * 2018-12-06 2021-12-07 International Business Machines Corporation Multi-modal document feature extraction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2999099A1 (en) * 2017-11-07 2019-05-07 Tata Consultancy Services Limited Method and system for extracting information from hand-marked industrial inspection sheets
CN110175563A (zh) * 2019-05-27 2019-08-27 上海交通大学 金属切削刀具图纸标注识别方法及系统
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于丰畅 ; 陆伟 ; .基于机器视觉的PDF学术文献结构识别.情报学报.2019,(第04期),全文. *
梁志茂 ; 庄红林 ; 王琳 ; 万志琼 ; 戴云 ; .PDF文档注释方法的探讨.云南大学学报(自然科学版).2011,(第S2期),全文. *

Also Published As

Publication number Publication date
CN112633116A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Du et al. Pavement distress detection and classification based on YOLO network
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN114155527A (zh) 一种场景文本识别方法和装置
WO2021022571A1 (zh) 一种基于交互建模的多标记距离度量学习方法
CN111507275B (zh) 一种基于深度学习的视频数据时序信息提取方法及装置
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN112347970A (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN112541491A (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN110223310A (zh) 一种基于深度学习的线结构光中心线和箱体边缘检测方法
CN111476210A (zh) 基于图像的文本识别方法、系统、设备及存储介质
CN112307919A (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
Zhu et al. A modified deep neural network enables identification of foliage under complex background
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN109800756A (zh) 一种用于中文历史文献密集文本的文字检测识别方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN114022837A (zh) 车站遗留物品检测方法、装置、电子设备及存储介质
CN112633116B (zh) 一种智能解析pdf图文的方法
CN114694130A (zh) 基于深度学习的铁路沿线电线杆及杆号检测方法和装置
CN108509826A (zh) 一种遥感影像的道路识别方法及其系统
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN115169375B (zh) 基于ar与枪球联动的高位物料可视化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant