CN107633040A

CN107633040A - 一种按涉及重大重组主题的pdf文件切割方法

Info

Publication number: CN107633040A
Application number: CN201710823125.8A
Authority: CN
Inventors: 张贝贝; 徐小艳; 周帅鹏; 荆姝娟
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2018-01-26

Abstract

本发明公开了一种按涉及重大重组主题的PDF文件切割方法，包括以下步骤：1)通过分布式互联网爬虫技术获取公开的涉及重大重组主题且以PDF格式存储的业务文件；2)确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题；3)确定包含关键字及关键字标题的PDF文件的页码信息集合P；4)采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除，得去除后的PDF文件页码信息集合P_final；5)根据步骤4)所获得的去除后PDF文件页码信息集合P_final对源PDF文件进行关于重大重组主题的切割，完成涉及重大重组主题的PDF文件切割，该方法能够高效、精准的实现涉及重大重组主题的PDF文件切割。

Description

一种按涉及重大重组主题的PDF文件切割方法

技术领域

本发明属于大数据研究方面的非结构化数据的数据结构化处理领域，涉及一种按涉及重大重组主题的PDF文件切割方法。

背景技术

将非结构化数据包括以WORD、EXCEL、PDF、TXT、音频、视频存在的文件转换为用户友好的、可以直接用于统计分析以及应用的结构化数据包括以SQL或ORCAL形式存储的数据等是目前大数据应用领域较为迫切的需求和研究的难点。

当前针对篇幅较短PDF格式的文件的数据结构化方法已经存在一些成果，文献中已有的方法的主要思路为首先将源PDF文档这一完全非结构化存在的数据转换为→以XML或者WORD格式存在这一半结构化数据的文件，通过正则方法→最终转换为以SQL或ORCAL形式存在的结构化的数据；而这两种思路方法均在XML或WORD文本篇幅较大时，存在转换效率较低、转化错误率较高等不足。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种按涉及重大重组主题的PDF文件切割方法，该方法能够高效、精准的实现涉及重大重组主题的PDF文件切割。

为达到上述目的，本发明所述的按涉及重大重组主题的PDF文件切割方法包括以下步骤：

1)通过分布式互联网爬虫技术获取公开的涉及重大重组主题且以PDF格式存储的业务文件；

2)依据业务层需求对步骤1)获取的公开的涉及重大重组主题且以PDF格式存储的业务文件进行涉及重大重组主题的业务层分析，确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题；

3)通过涉及重大重组主题的PDF文件及步骤2)所确定涉及重大重组主题的PDF文件的语言描述特征逐页对源PDF文件进行关键字及关键字标题的正则搜索，确定包含关键字及关键字标题的PDF文件的页码信息集合P；

4)采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除，得去除后的PDF文件页码信息集合P_final；

5)根据步骤4)所获得的去除后PDF文件页码信息集合P_final对源PDF文件进行关于重大重组主题的切割，完成涉及重大重组主题的PDF文件切割。

涉及重大重组主题的关键字和关键字标题集合记KRT＝{KRT₁,KRT₂,KRT₃,...,KRT_n}，其中，KRT₁表示交易方，KRT₂表示交易对方，KRT₃表示收购总股数，KRT₄表示收购总股本，KRT₅表示发行股份，KRT₆表示发行股份及支付现金，KRT₇表示资产重组，KRT₈表示重大资产置换，KRT₉表示参与**竞拍，KRT₁₀表示与**参与定向增发的协议，KRT₁₁表示收购，KRT₁₂表示构成重大重组，KRT₁₃表示交易时间。

涉及重大重组主题的PDF文件的页码值信息集合其中，P₁＝{包含特征关键字和关键字标题KRT₁的PDF文件的页码值集合}；P₂＝{包含特征关键字和关键字标题KRT₂的PDF文件的页码值集合}；P₃＝{包含特征关键字和关键字标题KRT₃的PDF文件的页码值集合}；P₄＝{包含特征关键字和关键字标题KRT₄的PDF文件的页码值集合}；P₅＝{包含特征关键字和关键字标题KRT₅的PDF文件的页码值集合}；P₆＝{包含特征关键字和关键字标题KRT₆的PDF文件的页码值集合}；P₇＝{包含特征关键字和关键字标题KRT₇的PDF文件的页码值集合}；P₈＝{包含特征关键字和关键字标题KRT₈的PDF文件的页码值集合}；P₉＝{包含特征关键字和关键字标题KRT₉的PDF文件的页码值集合}；P₁₀＝{包含特征关键字和关键字标题KRT₁₀的PDF文件的页码值集合}；P₁₁＝{包含特征关键字和关键字标题KRT₁₁的PDF文件的页码值集合}；P₁₂＝{包含特征关键字和关键标题KRT₅的PDF文件的页码集合}；P₁₃＝{包含特征关键字和关键标题KRT₆的PDF文件的页码集合}。

步骤4)具体操作为：采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除，得去除后的PDF文件页码信息集合P_final；

当PDF文件页码信息集合P中第一元素对应页码值与第二元素对应页码值之差大于p_threshold，即|p₂-p₁|>p_threshold时，则去除PDF文件页码信息集合P中第一元素对应页码值；当PDF文件页码信息集合P中倒数第一元素对应的页码值与倒数第二元素对应页码值之差大于p_threshold，即|p_m-p_m-1|>p_threshold时，则去除PDF文件页码信息集合P中倒数第一元素所对应页码值，得去除后的PDF文件页码信息集合P_final。

本发明具有以下有益效果：

本发明所述的按涉及重大重组主题的PDF文件切割方法在具体操作时，先获取公开的且以PDF格式存储的业务文件，再确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题，然后确定包含关键字及关键字标题的PDF文件页码信息集合P，同时为提高PDF文件页码信息集合P的精准性及可靠性，实现对PDF文件页码信息集合P约简化，再通过页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除，然后再根据去除后PDF文件页码信息集合P完成涉及重大重组主题的PDF文件切割，从而有效的提高切割的精准度及可靠性，高效、简洁，具有普适性及较强的应用基础性。

附图说明

图1为本发明的流程图；

图2为实施例一的流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

参考图1，本发明所述的按涉及重大重组主题的PDF文件切割方法包括以下步骤：

实施例一

参考图1，通过对PDF文件进行涉及重大重组主题的业务层分析，确定涉及重大重组主题的PDF文件的语言描述特征、关键字和关键字标题，涉及重大重组主题的PDF文件的关键字和关键字标题确定为“交易方”、“交易对方”、“收购股权数”、“收购总股本”、“发行股份”、“发行股份及支付现金”、“资产重组”、“重大资产置换”、“参与**竞拍”、“与**参与定向增发的协议”、“收购”、“构成重大重组”、“交易时间”；利用此关键字和关键字标题采用正则条件找到关键字和关键字标题所在的源PDF文件的页码信息集合P，相对应与“收购交易方”的页码值集合为P₁＝{15,22,25}，相对应与“交易对方”的页码值集合为P₂＝{22,23,28}，相对应与“收购股权总数目”的页码值集合为P₃＝{25,28,31}，相对应与“收购股权总股本”的页码值集合为P₄＝{25,26,31},相对应与“发行股份”的页码值集合为P₅＝{22,24,26,28,29,30}，相对应与“发行股份及支付现金”的页码值集合为P₆＝{23,26,28}，相对应与“资产重组”的页码值集合为P₇＝{26,27,29,32,33}，相对应与“重大资产置换”的页码值集合为P₈＝{29,32,33,34}，相对应与“参与**竞拍”的页码值集合为P₉＝{30,31,32}，相对应与“与**参与定向增发的协议”的页码值集合为P₁₀＝{31,32,33,34}，相对应与“收购”的页码值集合为P₁₁＝{22,23,24,25,27,28,29,30}，相对应与“是否构成重大重组”的页码数集合为P₁₂＝{29,31,32}，相对应与“交易时间”的页码数集合为P₁₃＝{15,22,23,24,28,31,45}，则涉及重大重组主题的源PDF文件的页码值集合为P＝{15,22,23,24,25,26,27,28,29,30,31,32,33,34,45}；根据页码异常去除机制，如果已经形成的涉及重大重组主题的PDF文件的页码值集合P中，第一元素与第二元素对应页码值分别为15和22，其页码值之差大于给定的阈值P_threshold，则舍弃掉P中第一元素对应页码值15，则此时涉及重大重组主题的PDF文件的页码值集合为{22,23,24,25,26,27,28,29,30,31,32,33,34,45}，而P中倒数第二元素与倒数第一元素对应页码分别为34和45，其页码值之差大于给定的阈值P_threshold，则舍弃掉P中倒数第一元素页码值45，此时涉及重大重组主题的源PDF文件的页码值集合为P_final＝{22,23,24,25,26,27,28,29,30,31,32,33,34}；依据此页码值集合P_final对源PDF文件进行主题切割，即切割源PDF文件中的第22页，第23页，第24页，第25页，第26页，第27页，第28页，第29页，第30页，第31页，第32页，第33页和第34页打上水印并形成新的PDF文件，此时涉及重大重组主题的PDF文件已经形成。

Claims

1.一种按涉及重大重组主题的PDF文件切割方法，其特征在于，包括以下步骤：

1)通过分布式互联网爬虫技术获取涉及重大重组主题且以PDF格式存储的业务文件；

2)依据业务层需求对步骤1)获取的涉及重大重组主题且以PDF格式存储的业务文件进行涉及重大重组主题的业务层分析，确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题；

2.根据权利要求1所述的按涉及重大重组主题的PDF文件切割方法，其特征在于，涉及重大重组主题的关键字和关键字标题集合记KRT＝{KRT₁,KRT₂,KRT₃,...,KRT_n}，n＝13,其中，KRT₁表示交易方，KRT₂表示交易对方，KRT₃表示收购总股数，KRT₄表示收购总股本，KRT₅表示发行股份，KRT₆表示发行股份及支付现金，KRT₇表示资产重组，KRT₈表示重大资产置换，KRT₉表示参与竞拍，KRT₁₀表示参与定向增发的协议，KRT₁₁表示收购，KRT₁₂表示构成重大重组，KRT₁₃表示交易时间。

3.根据权利要求2所述的按涉及重大重组主题的PDF文件切割方法，其特征在于，涉及重大重组主题的PDF文件的页码值信息集合其中，P₁＝{包含KRT₁的PDF文件的页码值集合}；P₂＝{包含KRT₂的PDF文件的页码值集合}；P₃＝{包含KRT₃的PDF文件的页码值集合}；P₄＝{包含KRT₄的PDF文件的页码值集合}；P₅＝{包含KRT₅的PDF文件的页码值集合}；P₆＝{包含KRT₆的PDF文件的页码值集合}；P₇＝{包含KRT₇的PDF文件的页码值集合}；P₈＝{包含KRT₈的PDF文件的页码值集合}；P₉＝{包含KRT₉的PDF文件的页码值集合}；P₁₀＝{包含KRT₁₀的PDF文件的页码值集合}；P₁₁＝{包含KRT₁₁的PDF文件的页码值集合}；P₁₂＝{包含KRT₅的PDF文件的页码集合}；P₁₃＝{包含KRT₆的PDF文件的页码集合}。

4.根据权利要求1所述的按涉及重大重组主题的PDF文件切割方法，其特征在于，步骤4)具体操作为：采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除，得去除后的PDF文件页码信息集合P_final；