CN107633040A - 一种按涉及重大重组主题的pdf文件切割方法 - Google Patents

一种按涉及重大重组主题的pdf文件切割方法 Download PDF

Info

Publication number
CN107633040A
CN107633040A CN201710823125.8A CN201710823125A CN107633040A CN 107633040 A CN107633040 A CN 107633040A CN 201710823125 A CN201710823125 A CN 201710823125A CN 107633040 A CN107633040 A CN 107633040A
Authority
CN
China
Prior art keywords
page number
pdf document
krt
great
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710823125.8A
Other languages
English (en)
Inventor
张贝贝
徐小艳
周帅鹏
荆姝娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710823125.8A priority Critical patent/CN107633040A/zh
Publication of CN107633040A publication Critical patent/CN107633040A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种按涉及重大重组主题的PDF文件切割方法,包括以下步骤:1)通过分布式互联网爬虫技术获取公开的涉及重大重组主题且以PDF格式存储的业务文件;2)确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题;3)确定包含关键字及关键字标题的PDF文件的页码信息集合P;4)采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,得去除后的PDF文件页码信息集合Pfinal;5)根据步骤4)所获得的去除后PDF文件页码信息集合Pfinal对源PDF文件进行关于重大重组主题的切割,完成涉及重大重组主题的PDF文件切割,该方法能够高效、精准的实现涉及重大重组主题的PDF文件切割。

Description

一种按涉及重大重组主题的PDF文件切割方法
技术领域
本发明属于大数据研究方面的非结构化数据的数据结构化处理领域,涉及一种按涉及重大重组主题的PDF文件切割方法。
背景技术
将非结构化数据包括以WORD、EXCEL、PDF、TXT、音频、视频存在的文件转换为用户友好的、可以直接用于统计分析以及应用的结构化数据包括以SQL或ORCAL形式存储的数据等是目前大数据应用领域较为迫切的需求和研究的难点。
当前针对篇幅较短PDF格式的文件的数据结构化方法已经存在一些成果,文献中已有的方法的主要思路为首先将源PDF文档这一完全非结构化存在的数据转换为→以XML或者WORD格式存在这一半结构化数据的文件,通过正则方法→最终转换为以SQL或ORCAL形式存在的结构化的数据;而这两种思路方法均在XML或WORD文本篇幅较大时,存在转换效率较低、转化错误率较高等不足。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种按涉及重大重组主题的PDF文件切割方法,该方法能够高效、精准的实现涉及重大重组主题的PDF文件切割。
为达到上述目的,本发明所述的按涉及重大重组主题的PDF文件切割方法包括以下步骤:
1)通过分布式互联网爬虫技术获取公开的涉及重大重组主题且以PDF格式存储的业务文件;
2)依据业务层需求对步骤1)获取的公开的涉及重大重组主题且以PDF格式存储的业务文件进行涉及重大重组主题的业务层分析,确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题;
3)通过涉及重大重组主题的PDF文件及步骤2)所确定涉及重大重组主题的PDF文件的语言描述特征逐页对源PDF文件进行关键字及关键字标题的正则搜索,确定包含关键字及关键字标题的PDF文件的页码信息集合P;
4)采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,得去除后的PDF文件页码信息集合Pfinal
5)根据步骤4)所获得的去除后PDF文件页码信息集合Pfinal对源PDF文件进行关于重大重组主题的切割,完成涉及重大重组主题的PDF文件切割。
涉及重大重组主题的关键字和关键字标题集合记KRT={KRT1,KRT2,KRT3,...,KRTn},其中,KRT1表示交易方,KRT2表示交易对方,KRT3表示收购总股数,KRT4表示收购总股本,KRT5表示发行股份,KRT6表示发行股份及支付现金,KRT7表示资产重组,KRT8表示重大资产置换,KRT9表示参与**竞拍,KRT10表示与**参与定向增发的协议,KRT11表示收购,KRT12表示构成重大重组,KRT13表示交易时间。
涉及重大重组主题的PDF文件的页码值信息集合其中,P1={包含特征关键字和关键字标题KRT1的PDF文件的页码值集合};P2={包含特征关键字和关键字标题KRT2的PDF文件的页码值集合};P3={包含特征关键字和关键字标题KRT3的PDF文件的页码值集合};P4={包含特征关键字和关键字标题KRT4的PDF文件的页码值集合};P5={包含特征关键字和关键字标题KRT5的PDF文件的页码值集合};P6={包含特征关键字和关键字标题KRT6的PDF文件的页码值集合};P7={包含特征关键字和关键字标题KRT7的PDF文件的页码值集合};P8={包含特征关键字和关键字标题KRT8的PDF文件的页码值集合};P9={包含特征关键字和关键字标题KRT9的PDF文件的页码值集合};P10={包含特征关键字和关键字标题KRT10的PDF文件的页码值集合};P11={包含特征关键字和关键字标题KRT11的PDF文件的页码值集合};P12={包含特征关键字和关键标题KRT5的PDF文件的页码集合};P13={包含特征关键字和关键标题KRT6的PDF文件的页码集合}。
步骤4)具体操作为:采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,得去除后的PDF文件页码信息集合Pfinal
当PDF文件页码信息集合P中第一元素对应页码值与第二元素对应页码值之差大于pthreshold,即|p2-p1|>pthreshold时,则去除PDF文件页码信息集合P中第一元素对应页码值;当PDF文件页码信息集合P中倒数第一元素对应的页码值与倒数第二元素对应页码值之差大于pthreshold,即|pm-pm-1|>pthreshold时,则去除PDF文件页码信息集合P中倒数第一元素所对应页码值,得去除后的PDF文件页码信息集合Pfinal
本发明具有以下有益效果:
本发明所述的按涉及重大重组主题的PDF文件切割方法在具体操作时,先获取公开的且以PDF格式存储的业务文件,再确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题,然后确定包含关键字及关键字标题的PDF文件页码信息集合P,同时为提高PDF文件页码信息集合P的精准性及可靠性,实现对PDF文件页码信息集合P约简化,再通过页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,然后再根据去除后PDF文件页码信息集合P完成涉及重大重组主题的PDF文件切割,从而有效的提高切割的精准度及可靠性,高效、简洁,具有普适性及较强的应用基础性。
附图说明
图1为本发明的流程图;
图2为实施例一的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1,本发明所述的按涉及重大重组主题的PDF文件切割方法包括以下步骤:
1)通过分布式互联网爬虫技术获取公开的涉及重大重组主题且以PDF格式存储的业务文件;
2)依据业务层需求对步骤1)获取的公开的涉及重大重组主题且以PDF格式存储的业务文件进行涉及重大重组主题的业务层分析,确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题;
3)通过涉及重大重组主题的PDF文件及步骤2)所确定涉及重大重组主题的PDF文件的语言描述特征逐页对源PDF文件进行关键字及关键字标题的正则搜索,确定包含关键字及关键字标题的PDF文件的页码信息集合P;
4)采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,得去除后的PDF文件页码信息集合Pfinal
5)根据步骤4)所获得的去除后PDF文件页码信息集合Pfinal对源PDF文件进行关于重大重组主题的切割,完成涉及重大重组主题的PDF文件切割。
涉及重大重组主题的关键字和关键字标题集合记KRT={KRT1,KRT2,KRT3,...,KRTn},其中,KRT1表示交易方,KRT2表示交易对方,KRT3表示收购总股数,KRT4表示收购总股本,KRT5表示发行股份,KRT6表示发行股份及支付现金,KRT7表示资产重组,KRT8表示重大资产置换,KRT9表示参与**竞拍,KRT10表示与**参与定向增发的协议,KRT11表示收购,KRT12表示构成重大重组,KRT13表示交易时间。
涉及重大重组主题的PDF文件的页码值信息集合其中,P1={包含特征关键字和关键字标题KRT1的PDF文件的页码值集合};P2={包含特征关键字和关键字标题KRT2的PDF文件的页码值集合};P3={包含特征关键字和关键字标题KRT3的PDF文件的页码值集合};P4={包含特征关键字和关键字标题KRT4的PDF文件的页码值集合};P5={包含特征关键字和关键字标题KRT5的PDF文件的页码值集合};P6={包含特征关键字和关键字标题KRT6的PDF文件的页码值集合};P7={包含特征关键字和关键字标题KRT7的PDF文件的页码值集合};P8={包含特征关键字和关键字标题KRT8的PDF文件的页码值集合};P9={包含特征关键字和关键字标题KRT9的PDF文件的页码值集合};P10={包含特征关键字和关键字标题KRT10的PDF文件的页码值集合};P11={包含特征关键字和关键字标题KRT11的PDF文件的页码值集合};P12={包含特征关键字和关键标题KRT5的PDF文件的页码集合};P13={包含特征关键字和关键标题KRT6的PDF文件的页码集合}。
步骤4)具体操作为:采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,得去除后的PDF文件页码信息集合Pfinal
当PDF文件页码信息集合P中第一元素对应页码值与第二元素对应页码值之差大于pthreshold,即|p2-p1|>pthreshold时,则去除PDF文件页码信息集合P中第一元素对应页码值;当PDF文件页码信息集合P中倒数第一元素对应的页码值与倒数第二元素对应页码值之差大于pthreshold,即|pm-pm-1|>pthreshold时,则去除PDF文件页码信息集合P中倒数第一元素所对应页码值,得去除后的PDF文件页码信息集合Pfinal
实施例一
参考图1,通过对PDF文件进行涉及重大重组主题的业务层分析,确定涉及重大重组主题的PDF文件的语言描述特征、关键字和关键字标题,涉及重大重组主题的PDF文件的关键字和关键字标题确定为“交易方”、“交易对方”、“收购股权数”、“收购总股本”、“发行股份”、“发行股份及支付现金”、“资产重组”、“重大资产置换”、“参与**竞拍”、“与**参与定向增发的协议”、“收购”、“构成重大重组”、“交易时间”;利用此关键字和关键字标题采用正则条件找到关键字和关键字标题所在的源PDF文件的页码信息集合P,相对应与“收购交易方”的页码值集合为P1={15,22,25},相对应与“交易对方”的页码值集合为P2={22,23,28},相对应与“收购股权总数目”的页码值集合为P3={25,28,31},相对应与“收购股权总股本”的页码值集合为P4={25,26,31},相对应与“发行股份”的页码值集合为P5={22,24,26,28,29,30},相对应与“发行股份及支付现金”的页码值集合为P6={23,26,28},相对应与“资产重组”的页码值集合为P7={26,27,29,32,33},相对应与“重大资产置换”的页码值集合为P8={29,32,33,34},相对应与“参与**竞拍”的页码值集合为P9={30,31,32},相对应与“与**参与定向增发的协议”的页码值集合为P10={31,32,33,34},相对应与“收购”的页码值集合为P11={22,23,24,25,27,28,29,30},相对应与“是否构成重大重组”的页码数集合为P12={29,31,32},相对应与“交易时间”的页码数集合为P13={15,22,23,24,28,31,45},则涉及重大重组主题的源PDF文件的页码值集合为P={15,22,23,24,25,26,27,28,29,30,31,32,33,34,45};根据页码异常去除机制,如果已经形成的涉及重大重组主题的PDF文件的页码值集合P中,第一元素与第二元素对应页码值分别为15和22,其页码值之差大于给定的阈值Pthreshold,则舍弃掉P中第一元素对应页码值15,则此时涉及重大重组主题的PDF文件的页码值集合为{22,23,24,25,26,27,28,29,30,31,32,33,34,45},而P中倒数第二元素与倒数第一元素对应页码分别为34和45,其页码值之差大于给定的阈值Pthreshold,则舍弃掉P中倒数第一元素页码值45,此时涉及重大重组主题的源PDF文件的页码值集合为Pfinal={22,23,24,25,26,27,28,29,30,31,32,33,34};依据此页码值集合Pfinal对源PDF文件进行主题切割,即切割源PDF文件中的第22页,第23页,第24页,第25页,第26页,第27页,第28页,第29页,第30页,第31页,第32页,第33页和第34页打上水印并形成新的PDF文件,此时涉及重大重组主题的PDF文件已经形成。

Claims (4)

1.一种按涉及重大重组主题的PDF文件切割方法,其特征在于,包括以下步骤:
1)通过分布式互联网爬虫技术获取涉及重大重组主题且以PDF格式存储的业务文件;
2)依据业务层需求对步骤1)获取的涉及重大重组主题且以PDF格式存储的业务文件进行涉及重大重组主题的业务层分析,确定涉及重大重组主题的PDF文件的语言描述特征、关键字及关键字标题;
3)通过涉及重大重组主题的PDF文件及步骤2)所确定涉及重大重组主题的PDF文件的语言描述特征逐页对源PDF文件进行关键字及关键字标题的正则搜索,确定包含关键字及关键字标题的PDF文件的页码信息集合P;
4)采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,得去除后的PDF文件页码信息集合Pfinal
5)根据步骤4)所获得的去除后PDF文件页码信息集合Pfinal对源PDF文件进行关于重大重组主题的切割,完成涉及重大重组主题的PDF文件切割。
2.根据权利要求1所述的按涉及重大重组主题的PDF文件切割方法,其特征在于,涉及重大重组主题的关键字和关键字标题集合记KRT={KRT1,KRT2,KRT3,...,KRTn},n=13,其中,KRT1表示交易方,KRT2表示交易对方,KRT3表示收购总股数,KRT4表示收购总股本,KRT5表示发行股份,KRT6表示发行股份及支付现金,KRT7表示资产重组,KRT8表示重大资产置换,KRT9表示参与竞拍,KRT10表示参与定向增发的协议,KRT11表示收购,KRT12表示构成重大重组,KRT13表示交易时间。
3.根据权利要求2所述的按涉及重大重组主题的PDF文件切割方法,其特征在于,涉及重大重组主题的PDF文件的页码值信息集合其中,P1={包含KRT1的PDF文件的页码值集合};P2={包含KRT2的PDF文件的页码值集合};P3={包含KRT3的PDF文件的页码值集合};P4={包含KRT4的PDF文件的页码值集合};P5={包含KRT5的PDF文件的页码值集合};P6={包含KRT6的PDF文件的页码值集合};P7={包含KRT7的PDF文件的页码值集合};P8={包含KRT8的PDF文件的页码值集合};P9={包含KRT9的PDF文件的页码值集合};P10={包含KRT10的PDF文件的页码值集合};P11={包含KRT11的PDF文件的页码值集合};P12={包含KRT5的PDF文件的页码集合};P13={包含KRT6的PDF文件的页码集合}。
4.根据权利要求1所述的按涉及重大重组主题的PDF文件切割方法,其特征在于,步骤4)具体操作为:采用页码异常去除机制对步骤3)得到的PDF文件页码信息集合P中的异常页码进行去除,得去除后的PDF文件页码信息集合Pfinal
当PDF文件页码信息集合P中第一元素对应页码值与第二元素对应页码值之差大于pthreshold,即|p2-p1|>pthreshold时,则去除PDF文件页码信息集合P中第一元素对应页码值;当PDF文件页码信息集合P中倒数第一元素对应的页码值与倒数第二元素对应页码值之差大于pthreshold,即|pm-pm-1|>pthreshold时,则去除PDF文件页码信息集合P中倒数第一元素所对应页码值,得去除后的PDF文件页码信息集合Pfinal
CN201710823125.8A 2017-09-13 2017-09-13 一种按涉及重大重组主题的pdf文件切割方法 Pending CN107633040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710823125.8A CN107633040A (zh) 2017-09-13 2017-09-13 一种按涉及重大重组主题的pdf文件切割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710823125.8A CN107633040A (zh) 2017-09-13 2017-09-13 一种按涉及重大重组主题的pdf文件切割方法

Publications (1)

Publication Number Publication Date
CN107633040A true CN107633040A (zh) 2018-01-26

Family

ID=61101080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710823125.8A Pending CN107633040A (zh) 2017-09-13 2017-09-13 一种按涉及重大重组主题的pdf文件切割方法

Country Status (1)

Country Link
CN (1) CN107633040A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176956A (zh) * 2011-12-21 2013-06-26 北大方正集团有限公司 用于提取文档结构的方法和装置
CN105701091A (zh) * 2014-11-24 2016-06-22 北大方正集团有限公司 一种基于语义的pdf文档的处理方法及处理装置
CN106649229A (zh) * 2015-11-04 2017-05-10 北京广联达正源兴邦科技有限公司 Pdf文件的拆分方法、pdf文件的拆分系统和终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176956A (zh) * 2011-12-21 2013-06-26 北大方正集团有限公司 用于提取文档结构的方法和装置
CN105701091A (zh) * 2014-11-24 2016-06-22 北大方正集团有限公司 一种基于语义的pdf文档的处理方法及处理装置
CN106649229A (zh) * 2015-11-04 2017-05-10 北京广联达正源兴邦科技有限公司 Pdf文件的拆分方法、pdf文件的拆分系统和终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
6到不胜寒: "PDF定位关键字/词所在坐标及页码", 《CSDN,HTTPS://BLOG.CSDN.NET/GUO123K/ARTICLE/DETAILS/76417702》 *
CHAMSU: "[Python]:关于截取pdf中的某些页", 《CSDN,HTTPS://BLOG.CSDN.NET/CHAM_3/ARTICLE/DETAILS/60135490》 *

Similar Documents

Publication Publication Date Title
CN102646125B (zh) 一种结构化数字内容析取与重组方法
Azni et al. Review of the effects of fossil fuels and the need for a hydrogen fuel cell policy in Malaysia
CN103631763B (zh) 多人协作的大型文档编辑装置和大型文档编辑方法
CN105468371B (zh) 一种基于主题聚类的业务流程图合并方法
CN102129479B (zh) 一种基于概率潜在语义分析模型的万维网服务发现方法
CN102122280B (zh) 一种智能提取内容对象的方法及系统
CN103871402A (zh) 语言模型训练系统、语音识别系统及相应方法
CN103049474A (zh) 搜索查询和文档相关数据翻译
CN111476034A (zh) 基于规则和模型结合的法律文书信息抽取方法及系统
De León et al. Exploring Formative period obsidian blade trade: Three distribution models
Miciuła et al. The current picture of the transition to a green economy in the eu—trends in climate and energy policy versus state security
Liu et al. Exploring the technological collaboration characteristics of the global integrated circuit manufacturing industry
Torrijos Automated sports coverages. Case study of bot released by The Washington Post during Río 2016 and Pyeongchang 2018 Olympics
CN101799890B (zh) 证照数据处理方法和系统
CN107633040A (zh) 一种按涉及重大重组主题的pdf文件切割方法
Schneider et al. The (de-) construction of technology legitimacy: Contending storylines surrounding wind energy in Austria and Switzerland
CN107633039A (zh) 一种按涉及股权转让主题的pdf文件切割方法
CN107562921A (zh) 一种按涉及借壳上市主题的pdf文件切割方法
CN102929896A (zh) 基于隐私保护的数据挖掘方法
CN102207952A (zh) 一种网站广告投放和展现系统
CN102043802A (zh) 基于结构摘要的xml关键字检索方法
CN107609115A (zh) 一种按涉及收购主题的pdf文件切割方法
Zeng et al. Variable granularity index on massive service processes
KR101526312B1 (ko) 현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법
Gao et al. Fine-grained geolocalization of user-generated short text based on weight probability model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180126

RJ01 Rejection of invention patent application after publication