CN112633116B

CN112633116B - 一种智能解析pdf图文的方法

Info

Publication number: CN112633116B
Application number: CN202011499539.8A
Authority: CN
Inventors: 张贝贝; 郭仲穗; 郑浩然; 仵晨伟; 魏嵬
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2024-02-02
Anticipated expiration: 2040-12-17
Also published as: CN112633116A

Abstract

本发明公开了一种智能解析PDF图文的方法，对输入文档进行数据处理，得到待处理图像；采用分类器提取待处理图像中的目标图像；采用角点对目标图像进行检测，判断箭头方向；采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况，获得解析后的股权关系。本发明一种智能解析PDF图文的方法，解决了现有技术中存在的对PDF文档的图像识别、文本解析、提取重要关系图比较欠缺的问题。

Description

一种智能解析PDF图文的方法

技术领域

本发明属于人工智能技术领域，具体涉及一种智能解析PDF图文的方法。

背景技术

图像识别技术是人工智能的一个重要应用，它是立体视觉、运动分析、数据融合等实用技术的基础，在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域有重要的应用价值。目前对文本的识别研究是建立在已有的文本上，主要涉及词义转换、词频统计等方面，仅仅是对PDF文本关键信息切分、文本段落信息抽取、表格信息处理等纯文字或者高度统一的弱图像分析，然而关于PDF文档的图像识别、文本解析等比较欠缺，对PDF中的重要关系图的提取解析少之又少。

发明内容

本发明的目的是提供一种智能解析PDF图文的方法，解决了现有技术中存在的对PDF文档的图像识别、文本解析、提取重要关系图比较欠缺的问题。

本发明所采用的技术方案是一种智能解析PDF图文的方法，具体按照以下步骤实施：

步骤1，对输入文档进行数据处理，得到待处理图像；

步骤2，采用分类器提取待处理图像中的目标图像；

步骤3，采用角点对目标图像进行检测，判断箭头方向；

步骤4，采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况，获得解析后的股权关系。

本发明的特点还在于：

步骤1具体为：

在客户端网页输入系统文档A，经过筛选条件函数T(x)将其转化为B＝T(A)，再经过图片转换函数F(x)转化为C＝F(B)；具体表达式如下：

式(1)中，B为筛选后文件，C为图片集合。

步骤2具体为：

在C的基础上采用分类器寻找所需的图像，记为通过/>对D_p图形定位出所需目标，记为目标图像/>具体为：

式(2)、(3)中，D_p为股权关系流程图，n1为所有含流程图图像的PDF文档集合，n2为单页PDF文档中所含流程图的总数，Arq为每张流程图中箭头数量，i为变量。

分类器的表达式为：

式(4)中，m为分类器的种类，k为同种分类器所训练模型的个数，S为分类器。

分类器包括支持向量机、线性判断分析、朴素贝叶斯、Logit模型-最大似然估计、感知元或决策树。

步骤3具体为：

采用角点检测目标图像所具有的角点，记为其中，P_i为目标图像所具角点个数，并返回P_i相应的坐标E_i，在规定误差δ(x)范围内通过判断E_i的X与Y坐标位置来确定方框的从属关系；

具体表述如下：

按照竖直关系将Ei存储到两个列表当中，完整箭头图像具有尾部连接持股方，头部指向被控股方的特征，将列表中大点距值作为头部，小点距值作为尾部，然后根据两个列表中的竖直坐标方向来判断箭头方向，表达式如下：

式(5)中，E_iY、E_jY分别为所识别角点的Y坐标；

判断箭头方向的结论为：

若满足N_i＞N_j，可得出N_i所在竖直列表的方向即是箭头所指方向；其中，N_i为E_iY相差范围在δ(x)内角点的数量，N_j为E_jY相差范围在δ(x)内角点的数量。

角点检测的方法包括KLT算子、Harris角点算法、Kitchen-Rosenfeld算法或SUSAN算法。

步骤4具体为：

步骤4.1，将图像经过膨胀与腐蚀处理R(x)后，

使文字变成块区域Q_i，从而识别整块区域的轮廓，获得矩形框，然后返回Sq_i相对应的四个角点坐标；表达式如下：

式(6)中，Q_i为块区域，R为文字块区域定位操作函数，Sq_i为块区域的矩形框；

步骤4.2，根据步骤4.1及结论判断竖直位置的箭头指向。

步骤4.2具体为：

步骤4.2.1，若的方向统一，则流程图的方向唯一，即流程图的数据流向为沿竖直方向朝上或者朝下；具体表述如下：

根据步骤4.1得出方框与占比数值的坐标，标号后分别存入相应的列表中；

方框与占比数值的公式为：

S＝Nu+1 (7)，

式(7)中，S为方框的数量，Nu为占比数值的数量；故相应的标号也存在，因此输出关系为：

式(8)中，Sr_A→B为输出A与B方框的占比关系，Pe_i为占比数值；

步骤4.2.2，若的方向不统一，则构建二维数组，判断每个方框是否存在指出箭头，若没有，则所对应的数组行置零；若存在，指出箭头则代表方框与其他方框有联系，再判断向上与向下方向是否分别有指出箭头，若存在指出箭头，则继续判断箭头所指方向的方框是否有该方向的指出箭头，并把相对应的占比关系记入数组当中，直至该方向的方框没有指出箭头；直至将所有方框遍历完即可。

二维数组为占比关系出度表；关系矩阵表示方框之间是否具有箭头指向，列表示其他方框指向目标方框，行表示目标方框指向其他方框。

本发明的有益效果是：

本发明一种智能解析PDF图文的方法，通过T(x)对文件进行处理，过滤出纯文本文档，减少分类器的工作时长，结合特征值提取和线性分类器来训练大量数据，目的在于提高识别目标图像的效率；本发明一种智能解析PDF图文的方法，通过对识别的目标图像/>进行分析，确定箭头的指向进而得出结论，通过结论和OCR技术对文字进行识别定位，可以准确得出流程图的流向，并且能获得任意两个由出度方向流向入度方向方框之间的占比关系，整个过程具有稳定性以及实用性。

附图说明

图1是本发明一种智能解析PDF图文的方法实现自动识别目标图像的示意图；

图2是本发明一种智能解析PDF图文的方法获得竖直流程图的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种智能解析PDF图文的方法具体按照以下步骤实施：

步骤1，对输入文档进行数据处理，得到待处理图像；

步骤2，采用分类器提取待处理图像中的目标图像；

步骤3，采用角点对目标图像进行检测，判断箭头方向；

步骤1具体为：

式(1)中，B为筛选后文件，C为图片集合。

步骤2具体为：

分类器的表达式为：

步骤3具体为：

采用角点检测目标图像所具有的角点，记为其中，Pi为目标图像所具角点个数，并返回P_i相应的坐标E_i，在规定误差δ(x)范围内通过判断E_i的X与Y坐标位置来确定方框的从属关系；

具体表述如下：

按照竖直关系将E_i存储到两个列表当中，完整箭头图像具有尾部连接持股方，头部指向被控股方的特征，将列表中大点距值作为头部，小点距值作为尾部，然后根据两个列表中的竖直坐标方向来判断箭头方向，表达式如下：

式(5)中，E_iY、E_jY分别为所识别角点的Y坐标；

判断箭头方向的结论为：

步骤4具体为：

步骤4.1，将图像经过膨胀与腐蚀处理R(x)后，

步骤4.2，根据步骤4.1及结论判断竖直位置的箭头指向。

步骤4.2具体为：

方框与占比数值的公式为：

S＝Nu+1 (7)，

图1是本发明一种智能解析PDF图文的方法实现自动识别目标图像的示意图；图2是本发明一种智能解析PDF图文的方法获得竖直流程图的示意图。

图1中，每个节点分别表示自动化识别目标图像的各个步骤，分别标记为A，B，C，五个节点之间的有向边表示为下一个步骤实现的方向，各条边上的标注为前后步骤实现的条件函数和方法；其中，A→B的条件函数是T(x)，B→C的条件函数是F(x)，/>的方法是/> 的方法是/>

图2中，每个节点分别表示目标图像解析的步骤，分别标记OCR，TR，TE，SAME，DIF；TR节点代表结论，TE节点代表测试数据，SAME和DIF节点分别代表箭头方向相同和不同的情况；六个节点之间的有向边表示为下一个步骤实现的方向，第一条边的标注为两个节点之间实现的方法，/>的方法是/>

Claims

1.一种智能解析PDF图文的方法，其特征在于，具体按照以下步骤实施：

步骤1，对输入文档进行数据处理，得到待处理图像；

式(1)中，B为筛选后文件，C为图片集合；

步骤2，采用分类器提取待处理图像中的目标图像；

式(2)、(3)中，D_p为股权关系流程图，n1为所有含流程图图像的PDF文档集合，n2为单页PDF文档中所含流程图的总数，Arq为每张流程图中箭头数量，i为变量；

步骤3，采用角点对目标图像进行检测，判断箭头方向；

具体表述如下：

式(5)中，E_iY、E_jY分别为所识别角点的Y坐标；

判断箭头方向的结论为：

若满足N_i>N_j，可得出N_i所在竖直列表的方向即是箭头所指方向；其中，N_i为E_iY相差范围在δ(x)内角点的数量，N_j为E_jY相差范围在δ(x)内角点的数量；

步骤4，采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况，获得解析后的股权关系；

步骤4.1，将图像经过膨胀与腐蚀处理R(x)后，使文字变成块区域Q_i，从而识别整块区域的轮廓，获得矩形框，然后返回Sq_i相对应的四个角点坐标；表达式如下：

步骤4.2，根据步骤4.1及结论判断竖直位置的箭头指向；

方框与占比数值的公式为：

S ＝ Nu + 1 (7)，

式(8)中，SrA_→B为输出A与B方框的占比关系，Pe_i为占比数值；

步骤4.2.2，若的方向不统一，则构建二维数组，判断每个方框是否存在指出箭头，若没有，则所对应的数组行置零；若存在，指出箭头则代表所述方框与其他方框有联系，再判断向上与向下方向是否分别有指出箭头，若存在指出箭头，则继续判断箭头所指方向的方框是否有该方向的指出箭头，并把相对应的占比关系记入数组当中，直至该方向的方框没有所述指出箭头；直至将所有方框遍历完即可。

2.根据权利要求1所述的一种智能解析PDF图文的方法，其特征在于，所述分类器的表达式为：

3.根据权利要求2所述的一种智能解析PDF图文的方法，其特征在于，所述分类器包括支持向量机、线性判断分析、朴素贝叶斯、Logit模型-最大似然估计、感知元或决策树。

4.根据权利要求1所述的一种智能解析PDF图文的方法，其特征在于，所述角点检测的方法包括KLT算子、Harris角点算法、Kitchen-Rosenfeld算法或SUSAN算法。

5.根据权利要求1所述的一种智能解析PDF图文的方法，其特征在于，所述二维数组为占比关系出度表；关系矩阵表示方框之间是否具有箭头指向，列表示其他方框指向目标方框，行表示目标方框指向其他方框。