CN108038124B - 一种基于大数据的pdf文档采集处理方法、系统及装置 - Google Patents

一种基于大数据的pdf文档采集处理方法、系统及装置 Download PDF

Info

Publication number
CN108038124B
CN108038124B CN201711080728.XA CN201711080728A CN108038124B CN 108038124 B CN108038124 B CN 108038124B CN 201711080728 A CN201711080728 A CN 201711080728A CN 108038124 B CN108038124 B CN 108038124B
Authority
CN
China
Prior art keywords
document
pdf document
pdf
pool
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711080728.XA
Other languages
English (en)
Other versions
CN108038124A (zh
Inventor
孔祥明
纪晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangye Kaiyuan Technology Co ltd
Original Assignee
Guangdong Guangye Kaiyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guangye Kaiyuan Technology Co ltd filed Critical Guangdong Guangye Kaiyuan Technology Co ltd
Priority to CN201711080728.XA priority Critical patent/CN108038124B/zh
Publication of CN108038124A publication Critical patent/CN108038124A/zh
Application granted granted Critical
Publication of CN108038124B publication Critical patent/CN108038124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的PDF文档采集处理方法、系统及装置,该系统包括构建单元、下载单元及处理单元。该装置包括存储器以及用于实现基于大数据的PDF文档采集处理方法的处理器。该方法包括:利用去重技术,构建文档下载链接池;利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档;将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中。通过使用本发明,能够降低数据源的冗余性,提高数据源的全面性及格式多样化性,以提升后续文档提取解析的工作效率和准确性。本发明作为一种基于大数据的PDF文档采集处理方法、系统及装置可广泛应用于大数据分析领域中。

Description

一种基于大数据的PDF文档采集处理方法、系统及装置
技术领域
本发明涉及大数据处理技术,尤其涉及一种基于大数据的PDF文档采集处理方法、系统及装置。
背景技术
技术词解释:
simhash算法:一种用于处理海量文本去重的算法。
海明距离:在信息编码中,两个合法代码对应位上编码不同的位数称为码距。
在企业财务大数据分析领域中,许多财务数据的获取均需要从公司在网络上披露的年报或发债时发布的募集说明书等文档中进行提取,并且对数据提取的准确性有很高的要求。而对于这些文档,它们散见于各大财经网站、债券网站、企业官网等多个不同平台上,通常保存为pdf格式,且其中部分为图片格式的pdf文档,因此如何对这些pdf文档进行采集预处理,这对后期实现这些文档的高效、准确的数据解析具有重要的意义。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于大数据的PDF文档采集处理方法、系统及装置,可提高后续文档提取解析的效率和准确性。
本发明所采用的第一技术方案是:一种基于大数据的PDF文档采集处理方法,该方法包括以下步骤:
利用去重技术,构建文档下载链接池;
利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档;
将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中。
本发明所采用的第二技术方案是:一种基于大数据的PDF文档采集处理系统,该系统包括:
构建单元,用于利用去重技术,构建文档下载链接池;
下载单元,用于利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档;
处理单元,用于将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中。
本发明所采用的第三技术方案是:一种基于大数据的PDF文档采集处理装置,该装置包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一技术方案所述一种基于大数据的PDF文档采集处理方法。
本发明方法、系统及装置的有益效果是:本发明首先利用去重技术来构建得到文档下载链接池,然后利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档,接着将下载得到的PDF文档转换成不同格式的文档后,便将下载得到的PDF文档以及转换得到的不同格式的文档放入文档池中,因此由此可见,通过使用本发明,能够自动形成得到全面、不重复的文档下载链接池,从而获得全面且不重复的多个PDF文档,而且令一个文档具有多种不同格式版本,并将它们存储与文档池中,作为后续数据解析的多个不同数据源,这样明显可降低数据源的冗余性,提高数据源的全面性及格式多样化性,以提升后续文档提取解析的工作效率和准确性。
附图说明
图1是本发明一种基于大数据的PDF文档采集处理方法的步骤流程图;
图2是本发明一种基于大数据的PDF文档采集处理系统的结构框示意图;
图3是本发明一种基于大数据的PDF文档采集处理方法的一具体实施例步骤流程示意图。
具体实施方式
实施例1
如图1所示,一种基于大数据的PDF文档采集处理方法,该方法包括以下步骤:
利用去重技术,构建文档下载链接池;
利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档;
将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中。
可见,通过使用上述本发明方法,能够自动形成得到全面、不重复的文档下载链接池,从而获得全面且不重复的多个PDF文档,而且令一个文档具有多种不同格式版本,并将它们存储与文档池中,作为后续数据解析的多个不同数据源,这样明显可降低数据源的冗余性,提高数据源的全面性及格式多样化性,以提升后续文档提取解析的工作效率和准确性。
进一步作为本实施例的优选实施方式,所述利用去重技术,构建文档下载链接池这一步骤,其包括以下步骤:
爬取所需的PDF文档下载链接;
采用simhash算法,对爬取得到的每一个PDF文档下载链接所对应的PDF文档名称进行simhash代码的计算,从而得到每一个PDF文档名称的simhash代码;
根据PDF文档名称的simhash代码,对每一个PDF文档下载链接进行归类,其中,被归为同一类型的PDF文档下载链接对应同一个PDF文档;
利用PDF文档下载链接的爬取时间戳,从每一个类型所包含的PDF文档下载链接中选取出爬取时间戳为最大的PDF文档下载链接;由于以爬取时间戳来实现冗余数据的删除,因此能够令后续得到的文档下载链接池中所包含的文档下载链接为最新的下载链接。
令所有选取出的PDF文档下载链接存储于文档下载链接池中。
进一步作为本实施例的优选实施方式,所述根据PDF文档名称的simhash代码,对每一个PDF文档下载链接进行归类这一步骤,其包括以下步骤:
当计算出两个PDF文档名称的simhash代码之间的海明距离小于第一阈值时,则判定这两个PDF文档名称所对应的PDF文档下载链接属于同一类型;
当计算出两个PDF文档名称的simhash代码之间的海明距离大于等于第一阈值时,则判定这两个PDF文档名称所对应的PDF文档下载链接不属于同一类型。
进一步作为本实施例的优选实施方式,所述将下载得到的PDF文档转换成不同格式的文档这一步骤,其包括以下步骤:
判断下载得到的PDF文档是否为图片格式的PDF文档,若是,则采用第一转换方式,将下载得到的PDF文档转换成不同格式的文档;反之,则采用第二转换方式,将下载得到的PDF文档转换成不同格式的文档。
进一步作为本实施例的优选实施方式,所述判断下载得到的PDF文档是否为图片格式的PDF文档这一步骤,其包括以下步骤:
将下载得到的PDF文档转换成预设格式文档;
计算预设格式文档的乱码率;
判断计算得出的乱码率是否小于等于第二阈值,若是,则表示下载得到的PDF文档不为图片格式的PDF文档;反之,则表示下载得到的PDF文档为图片格式的PDF文档。可见,通过这一方式来判断PDF文档是否为图片格式的PDF文档,能提高判断的精准度。
进一步作为本实施例的优选实施方式,所述计算预设格式文档的乱码率这一步骤,其包括以下步骤:
从预设格式文档中抽取s个字符;
将抽取得到的每一个字符与预设字典库中的预存字符进行一一匹配后,得到字符匹配数量p;
采用以下计算公式来计算得出预设格式文档的乱码率r1:r1=(s-p)/s。可见,这样能够精确地计算出文档的乱码率。
进一步作为本实施例的优选实施方式,该方法还包括计算文档池中每一个文档的信度值这一步骤,所述计算文档池中每一个文档的信度值这一步骤,其采用的计算公式如下:
k=(1-r)*λ
其中,k表示为文档的信度值,r表示为文档的乱码率,λ表示为经验数值。这样可为后续文档的提取解析处理提供数据正确性的判断依据,以提高后续处理的效率和准确度。
进一步作为本实施例的优选实施方式,所述将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中这一步骤,其采用分布式处理方式来执行;
和/或,
所述文档池存储在分布式存储服务器中。这样可提高整体处理流程的处理效率。
实施例2
如图2所示,一种基于大数据的PDF文档采集处理系统,该系统包括:
构建单元,用于利用去重技术,构建文档下载链接池;
下载单元,用于利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档;
处理单元,用于将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中。
进一步作为本实施例的优选实施方式,所述构建单元包括:
爬取模块,用于爬取所需的PDF文档下载链接;
计算模块,用于采用simhash算法,对爬取得到的每一个PDF文档下载链接所对应的PDF文档名称进行simhash代码的计算,从而得到每一个PDF文档名称的simhash代码;
归类模块,用于根据PDF文档名称的simhash代码,对每一个PDF文档下载链接进行归类,其中,被归为同一类型的PDF文档下载链接对应同一个PDF文档;
选取模块,用于利用PDF文档下载链接的爬取时间戳,从每一个类型所包含的PDF文档下载链接中选取出爬取时间戳为最大的PDF文档下载链接;
存储模块,用于令所有选取出的PDF文档下载链接存储于文档下载链接池中。
进一步作为本实施例的优选实施方式,所述归类模块包括:
第一处理子模块,用于当计算出两个PDF文档名称的simhash代码之间的海明距离小于第一阈值时,则判定这两个PDF文档名称所对应的PDF文档下载链接属于同一类型;
第二处理子模块,用于当计算出两个PDF文档名称的simhash代码之间的海明距离大于等于第一阈值时,则判定这两个PDF文档名称所对应的PDF文档下载链接不属于同一类型。
进一步作为本实施例的优选实施方式,所述处理单元包括:
判断子模块,用于判断下载得到的PDF文档是否为图片格式的PDF文档,若是,则采用第一转换方式,将下载得到的PDF文档转换成不同格式的文档;反之,则采用第二转换方式,将下载得到的PDF文档转换成不同格式的文档。
进一步作为本实施例的优选实施方式,所述判断子模块包括:
转换子模块,用于将下载得到的PDF文档转换成预设格式文档;
第一计算子模块,用于计算预设格式文档的乱码率;
第三处理子模块,用于判断计算得出的乱码率是否小于等于第二阈值,若是,则表示下载得到的PDF文档不为图片格式的PDF文档;反之,则表示下载得到的PDF文档为图片格式的PDF文档。
进一步作为本实施例的优选实施方式,所述第一计算子模块包括:
抽取子模块,用于从预设格式文档中抽取s个字符;
匹配子模块,用于将抽取得到的每一个字符与预设字典库中的预存字符进行一一匹配后,得到字符匹配数量p;
第二计算子模块,用于采用以下计算公式来计算得出预设格式文档的乱码率r1:r1=(s-p)/s。
进一步作为本实施例的优选实施方式,还包括用于计算文档池中每一个文档的信度值的计算单元,所述计算单元所采用的计算公式如下所示:
k=(1-r)*λ
其中,k表示为文档的信度值,r表示为文档的乱码率,λ表示为经验数值。
进一步作为本实施例的优选实施方式,所述处理单元以分布式处理方式来执行,和/或,所述文档池存储在分布式存储服务器中。
本实施例中的各单元/模块可为硬件和/或软件实现,以实际需要而进行相应的设置。另,本系统实施例与上述方法实施例,两者实质内容相同,因此本系统实施例所达到的有益效果与上述方法实施例所达到的有益效果,两者相同。
实施例3
一种基于大数据的PDF文档采集处理装置,该装置包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上述实施例1中所述的一种基于大数据的PDF文档采集处理方法。
本装置实施例与上述方法实施例,两者实质内容相同,因此本装置实施例所达到的有益效果与上述方法实施例所达到的有益效果,两者相同。
实施例4
如图3所示,一种基于大数据的PDF文档采集处理方法,其具体包括以下几部分。
步骤(一):利用去重技术,构建文档下载链接池。
具体地,步骤(一)主要用于从网络公开信息中爬取各PDF文档下载链接后,对它们进行归集、去重,以形成一个全面覆盖、不重复且最新的文档下载链接池;
优选地,此步骤具体包括以下步骤:
S101、爬取所需的PDF文档下载链接;
具体地,从多个网站渠道爬取所需的多个PDF文档下载链接,确保尽可能全面地覆盖所需领域的PDF文档;
S102、采用simhash算法,对爬取得到的每一个PDF文档下载链接所对应的PDF文档名称进行simhash代码的计算,从而得到每一个PDF文档名称的simhash代码;
优选地,此步骤具体包括以下步骤:
S1021、可将爬取得到的PDF文档下载链接归集在同一个文档下载链接池中;
S1022、对文档下载链接池中的每一个PDF文档下载链接所对应的PDF文档名称进行simhash代码的计算,即,对爬取得到的每一个PDF文档下载链接所对应的PDF文档名称进行simhash代码的计算,从而计算出每一个PDF文档名称的simhash代码;
S103、根据PDF文档名称的simhash代码,对每一个PDF文档下载链接进行归类,其中,被归为同一类型的PDF文档下载链接对应同一个PDF文档;
优选地,此步骤所采用的归类方式是基于文档名称的simhash代码之间的海明距离而实现,即此步骤具体为:计算多个PDF文档名称的simhash代码之间的海明距离,根据计算得出的海明距离,对多个PDF文档下载链接进行归类;
优选地,对于上述步骤S103,其包括以下步骤:
计算任意两个PDF文档名称的simhash代码之间的海明距离;
当计算出两个PDF文档名称的simhash代码之间的海明距离小于第一阈值n时,则判定这两个PDF文档名称所对应的PDF文档下载链接属于同一类型,即这两个PDF文档名称所对应的PDF文档下载链接是对应同一个PDF文档;此步骤中所述的阈值为距离阈值;
当计算出两个PDF文档名称的simhash代码之间的海明距离大于等于第一阈值n时,则判定这两个PDF文档名称所对应的PDF文档下载链接不属于同一类型,即这两个PDF文档名称所对应的PDF文档下载链接对应不同的PDF文档;
对所有PDF文档名称的simhash代码进行上述计算判断处理步骤,直到将所有PDF文档下载链接归类完毕为止;
可见,归类完毕后,每一个类型会包含至少一个PDF文档下载链接,相当于,一个类型代表一个集合,而一个集合中包含至少一个PDF文档下载链接;
S104、利用PDF文档下载链接的爬取时间戳,从每一个类型所包含的PDF文档下载链接中选取出爬取时间戳为最大的PDF文档下载链接;其中,对于所述的爬取时间戳,其数值越小,其表示时间越前,反之,其数值越大,其表示时间越后;
具体地,在文档下载链接池中,若同一个文档对应有两个以上的PDF文档下载链接,即若一个类型包含有两个以上的PDF文档下载链接,此时,则对这一类型中所包含的两个以上的PDF文档下载链接进行爬取时间戳的数据大小比较,将爬取时间戳数值较小的PDF文档下载链接删除,只保留最新的一个PDF文档下载链接,也就是说,根据PDF文档下载链接的爬取时间戳,从属于同一类型的两个以上PDF文档下载链接中选取出爬取时间戳为最大的PDF文档下载链接,并将其保留下来;
若同一个文档仅对应一个PDF文档下载链接,即若一个类型仅包含有一个PDF文档下载链接,此时,这一个PDF文档下载链接便作为选取出的爬取时间戳为最大的PDF文档下载链接;
S105、令所有选取出的PDF文档下载链接存储于文档下载链接池中,此时,所述的文档下载链接池为所需的文档下载链接池,可供后续使用。
此外,对于上述步骤S1021,其也可先将爬取得到的PDF文档下载链接归集在其他预设的位置中,当对这些爬取得到的PDF文档下载链接进行后续处理后,筛选得出爬取时间戳为最大的PDF文档下载链接时,再将这些筛选得出的PDF文档下载链接存储于文档下载链接池中也可。
步骤(二):利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档。通常,一个PDF文档下载链接对应下载一个PDF文档。
步骤(三):将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中。
优选地,对于所述将下载得到的PDF文档转换成不同格式的文档这一步骤,其包括以下步骤:
判断下载得到的PDF文档是否为图片格式的PDF文档,若是,则采用第一转换方式,将下载得到的PDF文档转换成不同格式的文档;反之,则采用第二转换方式,将下载得到的PDF文档转换成不同格式的文档。
优选地,对于所述判断下载得到的PDF文档是否为图片格式的PDF文档这一步骤,其包括以下步骤:
S301、将下载得到的PDF文档转换成预设格式文档;
具体地,在本实施例中所述预设格式文档,其格式为TXT格式,也就是说,此步骤具体为:采用预设的PDF转TXT工具,将下载得到的PDF文档转换成TXT文档;
上述所采用的预设PDF转TXT工具,其仅适用于处理非图片格式的PDF文档,因此,当采用所述预设PDF转TXT工具对图片格式的PDF文档进行转换处理后,所得到的TXT文档中会带有乱码,因此,结合TXT文档的乱码计算判断步骤,便能实现判断PDF文档是否为图片格式文档;
S302、计算预设格式文档的乱码率,即计算上述转换得到的TXT文档的乱码率;
具体地,在实现文档乱码率的计算过程中,需要先对文档进行字符解析,然后再利用解析的结果进行乱码率的计算;
优选地,所述步骤S302包括:
S3021、从TXT文档中随机抽取s个字符;
S3022、将抽取得到的每一个字符与预设字典库中的预存字符进行一一匹配后,得到字符匹配数量p;
具体地,当抽取出的一个字符与预设字典库中的预存字符对应匹配时,则匹配数加1;当对所有抽取字符进行上述匹配处理后,得到的匹配总数即为匹配数量p;此外,对于所述预设字典库,其存储有中文简繁体常用字、数字、字母及常用特殊字符等预存字符;
S3023、采用以下计算公式来计算得出TXT文档的乱码率r1:
r1=(s-p)/s
S303、判断计算得出的乱码率r1是否小于等于第二阈值,若是,则表示下载得到的PDF文档不为图片格式的PDF文档;反之,则表示下载得到的PDF文档为图片格式的PDF文档;此处的阈值为乱码率阈值;
具体地,根据一定量样本的测试和统计得出,乱码率小于等于第二阈值的TXT文档,其有95%以上可能性为非图片格式的PDF文档,因此,可利用TXT文档的乱码率,来判断对应的PDF文档是否为图片格式,也就是说,对于所有PDF文档,若其转换得到的TXT文档的乱码率小于等于第二阈值时,则判定对应的PDF文档为非图片格式,反之,则判定对应的PDF文档为图片格式。
优选地,对于所述采用第一转换方式,将下载得到的PDF文档转换成不同格式的文档这一步骤,其具体包括:
S304、当判断下载得到的PDF文档为图片格式的PDF文档时,则利用预设的文档格式转换工具,以及调用文字识别模块OCR作为辅助,从而将PDF文档转换成对应非图片格式的PDF文档、WORD文档、EXCEL文档,接着,将这一文档所对应的PDF格式版本(即转换后得到的非图片格式的PDF文档)、WORD格式版本(即转换后得到的WORD文档)以及EXCEL格式版本(即转换后得到的EXCEL文档)放入对应格式的文档池中,分别为PDF文档池、WORD文档池、EXCEL文档池;
优选地,对于所述采用第二转换方式,将下载得到的PDF文档转换成不同格式的文档这一步骤,其具体包括:
S305、当判断下载得到的PDF文档不为图片格式的PDF文档时,则利用预设的文档格式转换工具,从而将PDF文档转换成对应的WORD文档和EXCEL文档,然后将这一文档所对应的PDF格式版本(即不为图片格式的PDF文档)、WORD格式版本(即转换后得到的WORD文档)、EXCEL格式版本(即转换后得到的EXCEL文档)以及上述步骤S301中所得到的关于这一文档的TXT格式版本(即TXT文档)放入对应格式的文档池中,分别为PDF文档池、WORD文档池、EXCEL文档池及TXT文档池。可见,若上述步骤S301中所选取的预设格式文档不为TXT文档,而为其它格式文档时,则步骤S305中也需要设置利用预设的文档格式转换工具,从而将不为图片格式的PDF文档转换为TXT文档这一步骤。
步骤(四):计算文档池中每一个文档的信度值,所述文档的信度值具体为一可信度评分值。
具体地,对于多个不同格式的文档池中的每一份文档,可根据每一个文档的乱码率,来计算得出每一个文档的可信度评分值,这样,根据文档的可信度评分值便可快速地判断出文档转换效果的好坏,便于后续进一步实现快速且准确的文档提取解析。
优选地,此步骤包括:
S401、对于WORD文档池和EXCEL文档池中的每一份文档,其采用上述步骤S302的乱码率计算方式来进行每一份WORD文档和EXCEL文档的乱码率的计算;而对于TXT文档,则可直接采用步骤S302中所得到的TXT文档的乱码率;也就是说,同理可得,若上述步骤S301中所选取的预设格式文档不为TXT文档,而为其它格式文档时,则此步骤S401便需要设置采用上述步骤S302的乱码率计算方式来对每一个TXT文档进行乱码率计算这一步骤;
S402、根据每一个文档的乱码率,采用以下计算公式来计算得出每一个文档的可信度评分值:
k=(1-r)*λ
其中,k表示为文档的可信度评分值,r表示为文档的乱码率,λ表示为经验数值;
S403、将每一份文档所对应的可信度评分值k保存记录下来,作为后续文档提取解析时确定数据值的依据。
优选地,所述步骤(三)采用分布式处理方式来执行,和/或所述文档池存储在分布式存储服务器中,以达到文档分布式处理和/或存储效果。
具体地,对于每一份文档,由于步骤(三)所需时间远大于步骤(一)、(二)所需的时间,因此对步骤(三)采用了分布式处理方式来实现执行,以提高文档整体处理效率;而对于多个不同格式的文档池,则进行分布式存储,以提升文档后续读取效率。因此,对于本发明,其还优选包括以下步骤:
步骤①、根据各服务器的待处理任务量n,将步骤(二)下载得到的PDF文档发送到待处理任务量最小的服务器上,进行步骤(三)的处理;
步骤②、对各服务器进行监控,即相当于设立监控模块;
具体地,设各服务器的待处理任务量中最大值为n_max,最小值为n_min;判断各服务器中的n_min是否大于或等于预先设定的阈值n_extreme,若是,则暂停步骤(二),直到各服务器中的n_max小于或等于预先设定的合理值n_recommend,此时,再重新开启步骤(二);若一个时间段t内出现n_min>=n_extreme的次数c超过预先设定的预警次数c_alarm,此时,则发出系统警报,从而提醒监控人员通过增加服务器数量来解决问题;
步骤③、对于步骤(三)中所产生的多个不同格式的文档池,存储在fast_dfs分布式存储服务器中,等待后续的解析处理。
由上述可得,本发明实现了一种基于大数据的PDF文档采集处理方案,通过建立文档下载链接池,下载PDF文档,并对下载的每一份PDF文档进行是否图片格式的判断,根据判断结果,利用对应的文档格式转换方式对PDF文档进行格式转换,以建立得到多格式文档池,然后为文档池内的每一份文档进行数据可信度评分,实现了一套完整的PDF文档采集处理流程。此外,针对整个流程建立了文档分布式处理和存储方法,提升了文档处理效率。可见,本发明所包含的优点有:
1、能够对所需PDF文档进行自动、全面地采集,形成得到一个尽可能全面覆盖、文档不重复和/或时间戳为最新的文档下载链接池,并且通过将PDF文档转换成其他不同格式的文档,以构建得到多格式文档池,拓展文档源的数量,这样明显可降低数据源的冗余性,提高数据源的全面性及格式多样化性,以提升后续文档提取解析的工作效率和准确性;
2、可自动判断下载得到的PDF文档是否为图片格式,而且具体是利用了预设转换工具将PDF文档转换成TXT文档,并对生成的TXT文档进行字符解析,从而计算得出该TXT文档的乱码率,接着根据该乱码率来判断对应的PDF文档是否为图片格式的PDF文档,这样可明显提高判断的精确度;
3、建立文档数据可信度评分,对于多格式文档池中的每一份文档,依据文档乱码率来判断文档转换效果的好坏,进而给每份文档的数据可信度评分,从而为后续执行文档解析流程时确定数据值的准确性提供依据,进一步提高了后续文档提取解析的效率和准确性;
4、文档分布式预处理和/或存储,根据整个PDF文档的处理流程中各环节所需时间,设立一套自动化分布式处理流程以提高文档整体处理效率,并针对流程中的瓶颈环节设置了监控预警模块,处理可能遇到的服务器资源不足的问题;此外,对所生成的多格式文档池进行分布式存储,可提升后续的文档读取效率。
最后,对于本发明这一针对PDF文档的采集处理方案,其不仅适用于企业财务大数据分析领域中,还能适用于其它类型的大数据分析领域中,例如游戏数据、图书数据等领域,也就是说,只要是针对PDF文档的大数据分析领域,本发明方案均能适用。
本实施例中的所有技术内容均可任意拆分/组合地应用于上述实施例1~3中。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于大数据的PDF文档采集处理方法,其特征在于:该方法包括以下步骤:
利用去重技术,构建文档下载链接池,包括以下步骤:
爬取所需的PDF文档下载链接;
采用simhash算法,对爬取得到的每一个PDF文档下载链接所对应的PDF文档名称进行simhash代码的计算,从而得到每一个PDF文档名称的simhash代码;
根据PDF文档名称的simhash代码,对每一个PDF文档下载链接进行归类,其中,被归为同一类型的PDF文档下载链接对应同一个PDF文档;
利用PDF文档下载链接的爬取时间戳,从每一个类型所包含的PDF文档下载链接中选取出爬取时间戳为最大的PDF文档下载链接;
令所有选取出的PDF文档下载链接存储于文档下载链接池中;
利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档;
将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中,其中,所述将下载得到的PDF文档转换成不同格式的文档这一步骤,包括以下步骤:
判断下载得到的PDF文档是否为图片格式的PDF文档,若是,则采用第一转换方式,将下载得到的PDF文档转换成不同格式的文档;反之,则采用第二转换方式,将下载得到的PDF文档转换成不同格式的文档。
2.根据权利要求1所述一种基于大数据的PDF文档采集处理方法,其特征在于:所述根据PDF文档名称的simhash代码,对每一个PDF文档下载链接进行归类这一步骤,其包括以下步骤:
当计算出两个PDF文档名称的simhash代码之间的海明距离小于第一阈值时,则判定这两个PDF文档名称所对应的PDF文档下载链接属于同一类型;
当计算出两个PDF文档名称的simhash代码之间的海明距离大于等于第一阈值时,则判定这两个PDF文档名称所对应的PDF文档下载链接不属于同一类型。
3.根据权利要求1所述一种基于大数据的PDF文档采集处理方法,其特征在于:所述判断下载得到的PDF文档是否为图片格式的PDF文档这一步骤,其包括以下步骤:
将下载得到的PDF文档转换成预设格式文档;
计算预设格式文档的乱码率;
判断计算得出的乱码率是否小于等于第二阈值,若是,则表示下载得到的PDF文档不为图片格式的PDF文档;反之,则表示下载得到的PDF文档为图片格式的PDF文档。
4.根据权利要求3所述一种基于大数据的PDF文档采集处理方法,其特征在于:所述计算预设格式文档的乱码率这一步骤,其包括以下步骤:
从预设格式文档中抽取s个字符;
将抽取得到的每一个字符与预设字典库中的预存字符进行一一匹配后,得到字符匹配数量p;
采用以下计算公式来计算得出预设格式文档的乱码率r1:r1=(s-p)/s。
5.根据权利要求1-2任一项所述一种基于大数据的PDF文档采集处理方法,其特征在于:该方法还包括计算文档池中每一个文档的信度值这一步骤,所述计算文档池中每一个文档的信度值这一步骤,其采用的计算公式如下:
k=(1-r)*λ
其中,k表示为文档的信度值,r表示为文档的乱码率,λ表示为经验数值。
6.根据权利要求1-2任一项所述一种基于大数据的PDF文档采集处理方法,其特征在于:所述将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中这一步骤,其采用分布式处理方式来执行;
和/或,
所述文档池存储在分布式存储服务器中。
7.一种基于大数据的PDF文档采集处理系统,其特征在于:该系统包括:
构建单元,用于利用去重技术,构建文档下载链接池,所述利用去重技术,构建文档下载链接池包括以下操作:
爬取所需的PDF文档下载链接;
采用simhash算法,对爬取得到的每一个PDF文档下载链接所对应的PDF文档名称进行simhash代码的计算,从而得到每一个PDF文档名称的simhash代码;
根据PDF文档名称的simhash代码,对每一个PDF文档下载链接进行归类,其中,被归为同一类型的PDF文档下载链接对应同一个PDF文档;
利用PDF文档下载链接的爬取时间戳,从每一个类型所包含的PDF文档下载链接中选取出爬取时间戳为最大的PDF文档下载链接;
令所有选取出的PDF文档下载链接存储于文档下载链接池中;
下载单元,用于利用文档下载链接池中所包含的至少一个PDF文档下载链接,下载得到相对应的至少一个PDF文档;
处理单元,用于将下载得到的PDF文档转换成不同格式的文档后,将不同格式的文档放入文档池中,其中,所述将下载得到的PDF文档转换成不同格式的文档包括以下操作:
判断下载得到的PDF文档是否为图片格式的PDF文档,若是,则采用第一转换方式,将下载得到的PDF文档转换成不同格式的文档;反之,则采用第二转换方式,将下载得到的PDF文档转换成不同格式的文档。
8.一种基于大数据的PDF文档采集处理装置,其特征在于:该装置包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述一种基于大数据的PDF文档采集处理方法。
CN201711080728.XA 2017-11-06 2017-11-06 一种基于大数据的pdf文档采集处理方法、系统及装置 Active CN108038124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711080728.XA CN108038124B (zh) 2017-11-06 2017-11-06 一种基于大数据的pdf文档采集处理方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711080728.XA CN108038124B (zh) 2017-11-06 2017-11-06 一种基于大数据的pdf文档采集处理方法、系统及装置

Publications (2)

Publication Number Publication Date
CN108038124A CN108038124A (zh) 2018-05-15
CN108038124B true CN108038124B (zh) 2020-08-28

Family

ID=62093778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711080728.XA Active CN108038124B (zh) 2017-11-06 2017-11-06 一种基于大数据的pdf文档采集处理方法、系统及装置

Country Status (1)

Country Link
CN (1) CN108038124B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177082B (zh) * 2019-12-03 2023-06-09 世强先进(深圳)科技股份有限公司 一种pdf文件去重存储方法及系统
CN114629707B (zh) * 2022-03-16 2024-05-24 深信服科技股份有限公司 一种乱码检测方法、装置及电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3714548B2 (ja) * 2002-02-13 2005-11-09 株式会社 マイクロアーツ ネットワークを利用したcadデータファイル変換システム
CN101694658B (zh) * 2009-10-20 2012-07-04 浙江大学 基于新闻去重的网页爬虫的构建方法
CN103914478B (zh) * 2013-01-06 2018-05-08 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
US9330066B2 (en) * 2013-06-25 2016-05-03 Konica Minolta Laboratory U.S.A., Inc. Dynamic display method of multi-layered PDF documents
CN104935666B (zh) * 2015-06-24 2019-01-01 智秦数字出版(西安)有限公司 一种用于移动端观看pdf文件的方法及系统
CN105989287A (zh) * 2015-12-30 2016-10-05 武汉安天信息技术有限责任公司 一种海量恶意样本同源性判定方法及系统
CN105704400B (zh) * 2016-04-26 2018-10-26 山东大学 一种基于多平台终端和云服务的学习系统及其运行方法

Also Published As

Publication number Publication date
CN108038124A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN110569214B (zh) 用于日志文件的索引构建方法、装置及电子设备
CN110263009B (zh) 日志分类规则的生成方法、装置、设备及可读存储介质
CN107085568A (zh) 一种文本相似度判别方法及装置
CN108038124B (zh) 一种基于大数据的pdf文档采集处理方法、系统及装置
CN112395251A (zh) 数据文件的智能解析方法、装置、电子设备及存储介质
CN110995273A (zh) 电力数据库的数据压缩方法、装置、设备及介质
CN113254572B (zh) 一种基于云平台的电子文档分类监管系统
CN113705691B (zh) 基于人工智能的图像标注校验方法、装置、设备及介质
CN107943785B (zh) 一种基于大数据的pdf文档处理方法及装置
CN108804501B (zh) 一种检测有效信息的方法及装置
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN111092879B (zh) 日志关联方法及装置、电子设备、存储介质
CN110442439B (zh) 任务进程处理方法、装置和计算机设备
CN112766886A (zh) 基于大数据分析和云计算的工程项目招投标智能管理评审方法、系统及云服务平台
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN109510904B (zh) 呼叫中心外呼录音的检测方法及系统
CN114465875B (zh) 故障处理方法及装置
CN116227723A (zh) 基于特征引擎的资产定级方法、装置、电子设备及介质
CN115438340A (zh) 一种基于词素特征的挖矿行为识别方法及系统
CN114003737A (zh) 基于人工智能的双录审查辅助方法、装置、设备及介质
CN115051859A (zh) 情报分析方法、情报分析装置、电子设备及介质
CN104572767A (zh) 一种站点语种分类的方法和系统
CN113806321A (zh) 一种日志处理方法及系统
CN113609396A (zh) 涉网事件线索搜集方法、系统、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant