CN112417239A - 网页数据的爬取方法及装置 - Google Patents

网页数据的爬取方法及装置 Download PDF

Info

Publication number
CN112417239A
CN112417239A CN201910772735.9A CN201910772735A CN112417239A CN 112417239 A CN112417239 A CN 112417239A CN 201910772735 A CN201910772735 A CN 201910772735A CN 112417239 A CN112417239 A CN 112417239A
Authority
CN
China
Prior art keywords
crawled
data
category
webpage
structured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910772735.9A
Other languages
English (en)
Inventor
许蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910772735.9A priority Critical patent/CN112417239A/zh
Publication of CN112417239A publication Critical patent/CN112417239A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页数据的爬取方法及装置,涉及数据处理技术领域,提高了爬取不同网页模板制作的多个网页中的数据内容的爬取效率,本发明的主要技术方案为:对多个待爬取网页进行分类处理;通过通用爬取模块爬取每个待爬取网页对应的源代码文件;使用每个类别对应的专属内容解析模块对多个源代码文件进行解析处理,以获得每个源代码文件中包含的半结构化数据;使用每个类别对应的专属数据处理模块对多个半结构化数据进行分解处理,以获得每个半结构化数据包含的多个结构化数据及多个非结构化数据;将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。本发明应用于爬取不同网页模板制作的多个网页中的数据内容的过程中。

Description

网页数据的爬取方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种网页数据的爬取方法及装置。
背景技术
随着互联网技术的日益发展,大数据时代已经来临。在大数据时代下,数据的价值不言而喻,例如,搜索引擎、人工智能、舆情系统等均需要获取大量的数据作为研发基础,从而使得用于在互联网中爬取数据的网络爬虫扮演的角色越来越重要。
发明人在实现本发明的过程中,发现现有技术中存在以下技术问题,由于,网站工作人员在制作不同类别的网页时,所采用的网页模板是不同的,因此,在爬取采用不同网页模板制作的网页中的数据内容时,需要使用每种网页模板对应的网络爬虫,从而需要预先针对每种网页模板编写对应的网络爬虫程序,进而导致爬取不同网页模板制作的多个网页中的数据内容的爬取效率较低。
发明内容
有鉴于此,本发明提供一种网页数据的爬取方法及装置,主要目的在于提高爬取不同网页模板制作的多个网页中的数据内容的爬取效率。
为了解决上述问题,本发明主要提供如下技术方案:
一方面,本发明提供了一种网页数据的爬取方法,该方法包括:
对多个待爬取网页进行分类处理,以使得每个类别包含的多个所述待爬取网页为采用同一网页模板制作的网页;
通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件;
使用每个类别对应的专属内容解析模块对每个类别包含的多个所述源代码文件进行解析处理,以获得每个所述源代码文件中包含的半结构化数据;
使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据;
将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
可选的,所述对多个待爬取网页进行分类处理,包括:
接收分类指令,并根据所述分类指令对多个所述待爬取网页进行分类处理,其中,所述分类指令中记录有每个所述待爬取网页对应的统一资源定位符URL的所属类别;或
获取预置映射关系表,并根据所述预置映射关系表对多个所述待爬取网页进行分类处理,其中,所述预置映射关系表中记录有每个所述待爬取网页对应的URL与所属类别之间的映射关系。
可选的,在所述通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件之后,所述方法还包括:
使用每个类别对应的专属内容清洗模块对每个类别包含的多个所述源代码文件进行清洗处理,以使得将每个所述源代码文件中的无用数据内容清除、将每个所述源代码文件中的不规则数据内容规则化,以及统一每个类别包含的多个所述源代码文件的数据内容结构。
可选的,在所述使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据之后,所述方法还包括:
使用每个类别对应的专属数据处理模块在每个所述半结构化数据对应的多个结构化数据中提取每个所述半结构化数据对应的多个属性值;
使用每个类别对应的专属数据处理模块对每个所述半结构化数据对应的多个非结构化数据进行汇总处理,以获得每个所述半结构化数据对应的汇总非结构化数据;
所述将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储,包括:
将每个所述待爬取网页对应的多个属性值及汇总非结构化数据进行存储。
可选的,在所述将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储之后,所述方法还包括:
判断多个所述待爬取网页是否均爬取成功;
若存在未爬取网页,则重新执行爬取所述未爬取网页对应的多个结构化数据及多个非结构化数据的操作。
可选的,在所述对多个待爬取网页进行分类处理之前,所述方法还包括:
根据每个所述待爬取网页对应的URL对多个所述待爬取网页进行去重处理。
为了实现上述目的,根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现上述所述的网页数据的爬取方法。
为了实现上述目的,根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序运行时实现上述所述的网页数据的爬取方法。
另一方面,本发明还提供了一种网页数据的爬取装置,该装置包括:
分类单元,用于对多个待爬取网页进行分类处理,以使得每个类别包含的多个所述待爬取网页为采用同一网页模板制作的网页;
爬取单元,用于通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件;
解析单元,用于使用每个类别对应的专属内容解析模块对每个类别包含的多个所述源代码文件进行解析处理,以获得每个所述源代码文件中包含的半结构化数据;
分解单元,用于使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据;
存储单元,用于将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
可选的,所述分类单元包括:
接收模块,用于接收分类指令,其中,所述分类指令中记录有每个所述待爬取网页对应的统一资源定位符URL的所属类别;
第一分类模块,用于根据所述分类指令对多个所述待爬取网页进行分类处理;
获取模块,用于获取预置映射关系表,其中,所述预置映射关系表中记录有每个所述待爬取网页对应的URL与所属类别之间的映射关系;
第二分类模块,用于根据所述预置映射关系表对多个所述待爬取网页进行分类处理。
可选的,所述装置还包括:
清洗单元,用于在所述爬取单元通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件之后,使用每个类别对应的专属内容清洗模块对每个类别包含的多个所述源代码文件进行清洗处理,以使得将每个所述源代码文件中的无用数据内容清除、将每个所述源代码文件中的不规则数据内容规则化,以及统一每个类别包含的多个所述源代码文件的数据内容结构。
可选的,所述装置还包括:
提取单元,用于在所述分解单元使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据之后,使用每个类别对应的专属数据处理模块在每个所述半结构化数据对应的多个结构化数据中提取每个所述半结构化数据对应的多个属性值;
汇总单元,用于使用每个类别对应的专属数据处理模块对每个所述半结构化数据对应的多个非结构化数据进行汇总处理,以获得每个所述半结构化数据对应的汇总非结构化数据;
所述存储单元,具体用于将每个所述待爬取网页对应的多个属性值及汇总非结构化数据进行存储。
可选的,所述装置还包括:
判断单元,用于在所述存储单元将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储之后,判断多个所述待爬取网页是否均爬取成功;
执行单元,用于当所述判断单元判断存在未爬取网页时,重新执行爬取所述未爬取网页对应的多个结构化数据及多个非结构化数据的操作。
可选的,所述装置还包括:
去重单元,用于在所述分类单元对多个待爬取网页进行分类处理之前,根据每个所述待爬取网页对应的URL对多个所述待爬取网页进行去重处理。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供一种网页数据的爬取方法及装置,与现有技术中,预先针对每种网页模板编写对应的网络爬虫程序,然后通过不同网页模板对应的网络爬虫程序,爬取采用不同网页模板制作的网页中的数据内容相比,本发明能够在接收到包含多个待爬取网页对应的URL的爬取任务后,首先,基于每个待爬取网页对应的URL对多个待爬取网页进行分类处理,以使得将采用相同网页模板制作的待爬取网页划分为同一类别;然后,通过通用爬取模块爬取每个待爬取网页对应的源代码文件,并使用预先编写的、每个类别对应的专属内容解析模块对每个类别包含的多个待爬取网页对应的源代码文件进行解析处理,从而在每个待爬取网页对应的源代码文件中提取出其包含的半结构化数据,以及使用预先编写的、每个类别对应的专属数据处理模块对每个类别包含的多个待爬取网页对应的半结构化数据进行分解处理,从而获得每个半结构化数据中包含的多个结构化数据及多个非结构化数据;最后,将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。由于,无需预先针对每个类别的网页模板编写对应的网络爬虫程序,仅需预先针对每个类别的网页模板编写对应的专属内容解析模块和专属数据处理模块,便能爬取得到采用不同网页模板制作的多个网页中的数据内容,因此,提高了爬取采用不同网页模板制作的多个网页中的数据内容的爬取效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种网页数据的爬取方法流程图;
图2为本发明实施例提供的另一种网页数据的爬取方法流程图;
图3为本发明实施例提供的一种网页数据的爬取装置的组成框图;
图4为本发明实施例提供的另一种网页数据的爬取装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供一种网页数据的爬取方法,如图1所示,该方法包括:
101、对多个待爬取网页进行分类处理,以使得每个类别包含的多个待爬取网页为采用同一网页模板制作的网页。
在本发明实施例中,在接收到包含多个待爬取网页对应的URL(Uniform ResourceLocator,统一资源定位符)的爬取任务后,需要先基于每个待爬取网页对应的URL对多个待爬取网页进行分类处理,以使得将采用相同网页模板制作的待爬取网页划分为同一类别,将采用不同网页模板制作的待爬取网页划分为不同类别。
102、通过通用爬取模块爬取每个待爬取网页对应的源代码文件。
在本发明实施例中,在对多个待爬取网页进行分类处理后,便可通过通用爬取模块爬取每个待爬取网页对应的源代码文件:分别将每个待爬取网页对应的URL输入至通用爬取模块中,通用爬取模块便可基于接收到的URL爬取对应的源代码文件,其中,待爬取网页对应的源代码文件具体可以为:HTML文件。
103、使用每个类别对应的专属内容解析模块对每个类别包含的多个源代码文件进行解析处理,以获得每个源代码文件中包含的半结构化数据。
需要进行说明的是,由于,采用相同网页模板制作的多个待爬取网页中的数据内容的结构是相同的,因此,使用预先编写的、某个类别对应的专属内容解析模块,便能对该类别包含的多个待爬取网页对应的源代码文件进行解析处理,从而在每个源代码文件中提取出其包含的半结构化数据,其中,待爬取网页对应的源代码文件中包含代码部分和数据部分(即为半结构化数据)。
在本发明实施例中,由于,在步骤101中,已对多个待爬取网页进行分类处理,将采用相同网页模板制作的待爬取网页划分为同一类别,因此,在通过通用爬取模块爬取得到每个待爬取网页对应的源代码文件后,便可使用预先编写的、每个类别对应的专属内容解析模块对每个类别包含的多个待爬取网页对应的源代码文件进行解析处理,从而在每个待爬取网页对应的源代码文件中提取出其包含的半结构化数据。具体的,在本步骤中,专属内容解析模块是通过解析引擎对待爬取网页对应的源代码文件进行解析处理的。
104、使用每个类别对应的专属数据处理模块对每个类别包含的多个半结构化数据进行分解处理,以获得每个半结构化数据包含的多个结构化数据及多个非结构化数据。
在本发明实施例中,在使用每个类别对应的专属内容解析模块对每个类别包含的多个待爬取网页对应的源代码文件进行解析处理,从而获得每个待爬取网页对应的源代码文件中包含的半结构化数据后,便可使用预先编写的、每个类别对应的专属数据处理模块对每个类别包含的多个待爬取网页对应的半结构化数据进行分解处理(即将每个半结构化数据中包含的结构化数据和非结构化数据分解开来),从而获得每个半结构化数据中包含的多个结构化数据及多个非结构化数据(即获得每个待爬取网页对应的多个结构化数据及多个非结构化数据)。
105、将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
在本发明实施例中,在使用每个类别对应的专属数据处理模块对每个类别包含的多个待爬取网页对应的半结构化数据进行分解处理,从而获得每个待爬取网页对应的多个结构化数据及多个非结构化数据后,便可将获得的、每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
具体的,在本发明实施例中,可以将每个待爬取网页对应的多个结构化数据及多个非结构化数据存储在关系型数据库中、也可以将每个待爬取网页对应的多个结构化数据及多个非结构化数据存储在非关系型数据库中,还可以将每个待爬取网页对应的多个结构化数据及多个非结构化数据存储在本地的Excel文件中,本发明实施例对此不进行具体限定。
本发明实施例提供一种网页数据的爬取方法,与现有技术中,预先针对每种网页模板编写对应的网络爬虫程序,然后通过不同网页模板对应的网络爬虫程序,爬取采用不同网页模板制作的网页中的数据内容相比,本发明实施例能够在接收到包含多个待爬取网页对应的URL的爬取任务后,首先,基于每个待爬取网页对应的URL对多个待爬取网页进行分类处理,以使得将采用相同网页模板制作的待爬取网页划分为同一类别;然后,通过通用爬取模块爬取每个待爬取网页对应的源代码文件,并使用预先编写的、每个类别对应的专属内容解析模块对每个类别包含的多个待爬取网页对应的源代码文件进行解析处理,从而在每个待爬取网页对应的源代码文件中提取出其包含的半结构化数据,以及使用预先编写的、每个类别对应的专属数据处理模块对每个类别包含的多个待爬取网页对应的半结构化数据进行分解处理,从而获得每个半结构化数据中包含的多个结构化数据及多个非结构化数据;最后,将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。由于,无需预先针对每个类别的网页模板编写对应的网络爬虫程序,仅需预先针对每个类别的网页模板编写对应的专属内容解析模块和专属数据处理模块,便能爬取得到采用不同网页模板制作的多个网页中的数据内容,因此,提高了爬取采用不同网页模板制作的多个网页中的数据内容的爬取效率。
以下为了更加详细地说明,本发明实施例提供了另一种网页数据的爬取方法,具体如图2所示,该方法包括:
201、对多个待爬取网页进行分类处理,以使得每个类别包含的多个待爬取网页为采用同一网页模板制作的网页。
在本发明实施例中,在接收到包含多个待爬取网页对应的URL的爬取任务后,需要先基于每个待爬取网页对应的URL对多个待爬取网页进行分类处理,以使得将采用相同网页模板制作的待爬取网页划分为同一类别,将采用不同网页模板制作的待爬取网页划分为不同类别。
具体的,在本步骤中,可以在接收到工作人员输入的、记录有每个待爬取网页对应的URL的所属类别的分类指令后,根据分类指令对多个待爬取网页进行分类处理(即根据每个待爬取网页对应的URL的所属类别对多个待爬取网页进行分类处理),从而将采用相同网页模板制作的待爬取网页划分为同一类别;也可以在获取得到记录有每个待爬取网页对应的URL与所属类别之间的映射关系的预置映射关系表后,根据预置映射关系表对多个待爬取网页进行分类处理(即根据每个待爬取网页对应的URL与所属类别之间的映射关系对多个待爬取网页进行分类处理)从而将采用相同网页模板制作的待爬取网页划分为同一类别。需要进行说明的是,预置映射关系表可以是工作人员根据每个待爬取网页所采用的网页模板预先编写、并进行存储的,也可以是工作人员从第三方平台获取得到、并进行存储的,本发明实施例对此不进行具体限定。
进一步的,在本发明实施例中,为了保证不进行重复爬取工作,在对多个待爬取网页进行分类处理之前,可以根据每个待爬取网页对应的URL对多个待爬取网页进行去重处理。需要进行说明的是,在实际应用过程中,也可以在对多个待爬取网页进行分类处理之后,根据每个待爬取网页对应的URL对多个待爬取网页进行去重处理,本发明实施例对此不进行具体限定。
202、通过通用爬取模块爬取每个待爬取网页对应的源代码文件。
其中,关于步骤202、通过通用爬取模块爬取每个待爬取网页对应的源代码文件,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
进一步的,在本发明实施例中,由于,爬取得到的每个待爬取网页对应的源代码文件中存在以下三个问题:(1)源代码文件中包含一些无用的数据内容,例如,某个待爬取网页对应的源代码文件中包含有网站LOGO、网站标志、网站声明等无意义的数据内容(2)源代码文件中存在不规则的数据内容,例如,某个待爬取网页对应的源代码文件中存在多个无意义的空行(3)采用相同网页模板制作的多个待爬取网页对应的源代码文件的数据内容结构仍然存在细微的差别,例如,待爬取网页A和待爬取网页B所属类别相同,待爬取网页A对应的源代码文件中记录有画作a的尺寸:Xcm*Ycm,而待爬取网页B对应的源代码文件中记录有画作b的尺寸:高Mcm,宽Ncm。因此,在通过通用爬取模块爬取得到每个待爬取网页对应的源代码文件后,需要使用每个类别对应的专属内容清洗模块对每个类别包含的多个待爬取网页对应的源代码文件进行清洗处理,以使得将每个源代码文件中的无用数据内容清除、将每个源代码文件中的不规则数据内容规则化,以及统一每个类别包含的多个源代码文件的数据内容结构,从而解决上述存在的三个问题。
203、使用每个类别对应的专属内容解析模块对每个类别包含的多个源代码文件进行解析处理,以获得每个源代码文件中包含的半结构化数据。
其中,关于步骤203、使用每个类别对应的专属内容解析模块对每个类别包含的多个源代码文件进行解析处理,以获得每个源代码文件中包含的半结构化数据,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
204、使用每个类别对应的专属数据处理模块对每个类别包含的多个半结构化数据进行分解处理,以获得每个半结构化数据包含的多个结构化数据及多个非结构化数据。
其中,关于步骤204、使用每个类别对应的专属数据处理模块对每个类别包含的多个半结构化数据进行分解处理,以获得每个半结构化数据包含的多个结构化数据及多个非结构化数据,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
进一步的,在本发明实施例中,在使用每个类别对应的专属数据处理模块对每个类别包含的多个待爬取网页对应的半结构化数据进行分解处理,从而获得每个半结构化数据中包含的多个结构化数据及多个非结构化数据后,为了使得爬取获得的每个待爬取网页对应的数据内容更加简洁,还可以使用每个类别对应的专属数据处理模块在每个类别包含的、每个半结构化数据对应的多个结构化数据中提取每个半结构化数据中包含的多个属性值(即提取获得每个待爬取网页对应的多个属性值),以及使用每个类别对应的专属数据处理模块对每个类别包含的、每个所述半结构化数据对应的多个非结构化数据进行汇总处理,以获得每个所述半结构化数据对应的汇总非结构化数据(即汇总获得每个待爬取网页对应的汇总非结构化数据),后续便可将每个待爬取网页对应的多个属性值及汇总非结构化数据进行存储,其中,每个结构化数据由其对应的名称和该名称对应的属性值组成。
205、将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
其中,关于步骤205、将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
206、判断多个待爬取网页是否均爬取成功。
在本发明实施例中,在将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储后,还需要判断多个待爬取网页是否均爬取成功,以便后续在判定存在未成功爬取的网页(未爬取网页)时,重新爬取该未爬取网页中的数据内容。
207、若存在未爬取网页,则重新执行爬取未爬取网页对应的多个结构化数据及多个非结构化数据的操作。
在本发明实施例中,当判定存在未爬取网页时,需要重新执行爬取该未爬取网页对应的多个结构化数据及多个非结构化数据的操作,即采用上述步骤202-205所述的方法,重新爬取该未爬取网页对应的多个结构化数据及多个非结构化数据,从而保证成功爬取获得每个待爬取网页中的数据内容。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现上述所述的网页数据的爬取方法。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序运行时实现上述所述的网页数据的爬取方法。
进一步的,作为对上述图1、图2所示方法的实现,本发明实施例提供了一种网页数据的爬取装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于提高爬取不同网页模板制作的多个网页中的数据内容的爬取效率,具体如图3所示,该装置包括:
分类单元301,用于对多个待爬取网页进行分类处理,以使得每个类别包含的多个所述待爬取网页为采用同一网页模板制作的网页;
爬取单元302,用于通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件;
解析单元303,用于使用每个类别对应的专属内容解析模块对每个类别包含的多个所述源代码文件进行解析处理,以获得每个所述源代码文件中包含的半结构化数据;
分解单元304,用于使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据;
存储单元305,用于将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
进一步的,如图4所示,分类单元301包括:
接收模块3011,用于接收分类指令,其中,所述分类指令中记录有每个所述待爬取网页对应的统一资源定位符URL的所属类别;
第一分类模块3012,用于根据所述分类指令对多个所述待爬取网页进行分类处理;
获取模块3013,用于获取预置映射关系表,其中,所述预置映射关系表中记录有每个所述待爬取网页对应的URL与所属类别之间的映射关系;
第二分类模块3014,用于根据所述预置映射关系表对多个所述待爬取网页进行分类处理。
进一步的,如图4所示,该装置还包括:
清洗单元306,用于在爬取单元302通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件之后,使用每个类别对应的专属内容清洗模块对每个类别包含的多个所述源代码文件进行清洗处理,以使得将每个所述源代码文件中的无用数据内容清除、将每个所述源代码文件中的不规则数据内容规则化,以及统一每个类别包含的多个所述源代码文件的数据内容结构。
进一步的,如图4所示,该装置还包括:
提取单元307,用于在分解单元304使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据之后,使用每个类别对应的专属数据处理模块在每个所述半结构化数据对应的多个结构化数据中提取每个所述半结构化数据对应的多个属性值;
汇总单元308,用于使用每个类别对应的专属数据处理模块对每个所述半结构化数据对应的多个非结构化数据进行汇总处理,以获得每个所述半结构化数据对应的汇总非结构化数据;
存储单元305,具体用于将每个所述待爬取网页对应的多个属性值及汇总非结构化数据进行存储。
进一步的,如图4所示,该装置还包括:
判断单元309,用于在存储单元305将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储之后,判断多个所述待爬取网页是否均爬取成功;
执行单元310,用于当判断单元309判断存在未爬取网页时,重新执行爬取所述未爬取网页对应的多个结构化数据及多个非结构化数据的操作。
进一步的,如图4所示,该装置还包括:
去重单元311,用于在分类单元301对多个待爬取网页进行分类处理之前,根据每个所述待爬取网页对应的URL对多个所述待爬取网页进行去重处理。
综上所述,本发明实施例提供一种网页数据的爬取方法及装置,与现有技术中,预先针对每种网页模板编写对应的网络爬虫程序,然后通过不同网页模板对应的网络爬虫程序,爬取采用不同网页模板制作的网页中的数据内容相比,本发明实施例能够在接收到包含多个待爬取网页对应的URL的爬取任务后,首先,基于每个待爬取网页对应的URL对多个待爬取网页进行分类处理,以使得将采用相同网页模板制作的待爬取网页划分为同一类别;然后,通过通用爬取模块爬取每个待爬取网页对应的源代码文件,并使用预先编写的、每个类别对应的专属内容解析模块对每个类别包含的多个待爬取网页对应的源代码文件进行解析处理,从而在每个待爬取网页对应的源代码文件中提取出其包含的半结构化数据,以及使用预先编写的、每个类别对应的专属数据处理模块对每个类别包含的多个待爬取网页对应的半结构化数据进行分解处理,从而获得每个半结构化数据中包含的多个结构化数据及多个非结构化数据;最后,将每个待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。由于,无需预先针对每个类别的网页模板编写对应的网络爬虫程序,仅需预先针对每个类别的网页模板编写对应的专属内容解析模块和专属数据处理模块,便能爬取得到采用不同网页模板制作的多个网页中的数据内容,因此,提高了爬取采用不同网页模板制作的多个网页中的数据内容的爬取效率。
所述网页数据的爬取装置包括处理器和存储器,上述分类单元、爬取单元、解析单元、分解单元和存储单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高爬取不同网页模板制作的多个网页中的数据内容的爬取效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现所述的网页数据的爬取方法。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序运行时实现上述所述的网页数据的爬取方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
对多个待爬取网页进行分类处理,以使得每个类别包含的多个所述待爬取网页为采用同一网页模板制作的网页;
通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件;
使用每个类别对应的专属内容解析模块对每个类别包含的多个所述源代码文件进行解析处理,以获得每个所述源代码文件中包含的半结构化数据;
使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据;
将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
进一步的,所述对多个待爬取网页进行分类处理,包括:
接收分类指令,并根据所述分类指令对多个所述待爬取网页进行分类处理,其中,所述分类指令中记录有每个所述待爬取网页对应的统一资源定位符URL的所属类别;或
获取预置映射关系表,并根据所述预置映射关系表对多个所述待爬取网页进行分类处理,其中,所述预置映射关系表中记录有每个所述待爬取网页对应的URL与所属类别之间的映射关系。
进一步的,在所述通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件之后,所述方法还包括:
使用每个类别对应的专属内容清洗模块对每个类别包含的多个所述源代码文件进行清洗处理,以使得将每个所述源代码文件中的无用数据内容清除、将每个所述源代码文件中的不规则数据内容规则化,以及统一每个类别包含的多个所述源代码文件的数据内容结构。
进一步的,在所述使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据之后,所述方法还包括:
使用每个类别对应的专属数据处理模块在每个所述半结构化数据对应的多个结构化数据中提取每个所述半结构化数据对应的多个属性值;
使用每个类别对应的专属数据处理模块对每个所述半结构化数据对应的多个非结构化数据进行汇总处理,以获得每个所述半结构化数据对应的汇总非结构化数据;
所述将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储,包括:
将每个所述待爬取网页对应的多个属性值及汇总非结构化数据进行存储。
进一步的,在所述将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储之后,所述方法还包括:
判断多个所述待爬取网页是否均爬取成功;
若存在未爬取网页,则重新执行爬取所述未爬取网页对应的多个结构化数据及多个非结构化数据的操作。
进一步的,在所述对多个待爬取网页进行分类处理之前,所述方法还包括:
根据每个所述待爬取网页对应的URL对多个所述待爬取网页进行去重处理。
本文中的设备可以是服务器、PC等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对多个待爬取网页进行分类处理,以使得每个类别包含的多个所述待爬取网页为采用同一网页模板制作的网页;通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件;使用每个类别对应的专属内容解析模块对每个类别包含的多个所述源代码文件进行解析处理,以获得每个所述源代码文件中包含的半结构化数据;使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据;将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(traHsitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种网页数据的爬取方法,其特征在于,所述方法包括:
对多个待爬取网页进行分类处理,以使得每个类别包含的多个所述待爬取网页为采用同一网页模板制作的网页;
通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件;
使用每个类别对应的专属内容解析模块对每个类别包含的多个所述源代码文件进行解析处理,以获得每个所述源代码文件中包含的半结构化数据;
使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据;
将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
2.根据权利要求1所述的方法,其特征在于,所述对多个待爬取网页进行分类处理,包括:
接收分类指令,并根据所述分类指令对多个所述待爬取网页进行分类处理,其中,所述分类指令中记录有每个所述待爬取网页对应的统一资源定位符URL的所属类别;或
获取预置映射关系表,并根据所述预置映射关系表对多个所述待爬取网页进行分类处理,其中,所述预置映射关系表中记录有每个所述待爬取网页对应的URL与所属类别之间的映射关系。
3.根据权利要求1所述的方法,其特征在于,在所述通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件之后,所述方法还包括:
使用每个类别对应的专属内容清洗模块对每个类别包含的多个所述源代码文件进行清洗处理,以使得将每个所述源代码文件中的无用数据内容清除、将每个所述源代码文件中的不规则数据内容规则化,以及统一每个类别包含的多个所述源代码文件的数据内容结构。
4.根据权利要求1所述的方法,其特征在于,在所述使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据之后,所述方法还包括:
使用每个类别对应的专属数据处理模块在每个所述半结构化数据对应的多个结构化数据中提取每个所述半结构化数据对应的多个属性值;
使用每个类别对应的专属数据处理模块对每个所述半结构化数据对应的多个非结构化数据进行汇总处理,以获得每个所述半结构化数据对应的汇总非结构化数据;
所述将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储,包括:
将每个所述待爬取网页对应的多个属性值及汇总非结构化数据进行存储。
5.根据权利要求1所述的方法,其特征在于,在所述将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储之后,所述方法还包括:
判断多个所述待爬取网页是否均爬取成功;
若存在未爬取网页,则重新执行爬取所述未爬取网页对应的多个结构化数据及多个非结构化数据的操作。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在所述对多个待爬取网页进行分类处理之前,所述方法还包括:
根据每个所述待爬取网页对应的URL对多个所述待爬取网页进行去重处理。
7.一种网页数据的爬取装置,其特征在于,所述装置包括:
分类单元,用于对多个待爬取网页进行分类处理,以使得每个类别包含的多个所述待爬取网页为采用同一网页模板制作的网页;
爬取单元,用于通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件;
解析单元,用于使用每个类别对应的专属内容解析模块对每个类别包含的多个所述源代码文件进行解析处理,以获得每个所述源代码文件中包含的半结构化数据;
分解单元,用于使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据;
存储单元,用于将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储。
8.根据权利要求7所述的装置,其特征在于,所述分类单元包括:
接收模块,用于接收分类指令,其中,所述分类指令中记录有每个所述待爬取网页对应的统一资源定位符URL的所属类别;
第一分类模块,用于根据所述分类指令对多个所述待爬取网页进行分类处理;
获取模块,用于获取预置映射关系表,其中,所述预置映射关系表中记录有每个所述待爬取网页对应的URL与所属类别之间的映射关系;
第二分类模块,用于根据所述预置映射关系表对多个所述待爬取网页进行分类处理。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
清洗单元,用于在所述爬取单元通过通用爬取模块爬取每个所述待爬取网页对应的源代码文件之后,使用每个类别对应的专属内容清洗模块对每个类别包含的多个所述源代码文件进行清洗处理,以使得将每个所述源代码文件中的无用数据内容清除、将每个所述源代码文件中的不规则数据内容规则化,以及统一每个类别包含的多个所述源代码文件的数据内容结构。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
提取单元,用于在所述分解单元使用每个类别对应的专属数据处理模块对每个类别包含的多个所述半结构化数据进行分解处理,以获得每个所述半结构化数据包含的多个结构化数据及多个非结构化数据之后,使用每个类别对应的专属数据处理模块在每个所述半结构化数据对应的多个结构化数据中提取每个所述半结构化数据对应的多个属性值;
汇总单元,用于使用每个类别对应的专属数据处理模块对每个所述半结构化数据对应的多个非结构化数据进行汇总处理,以获得每个所述半结构化数据对应的汇总非结构化数据;
所述存储单元,具体用于将每个所述待爬取网页对应的多个属性值及汇总非结构化数据进行存储。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
判断单元,用于在所述存储单元将每个所述待爬取网页对应的多个结构化数据及多个非结构化数据进行存储之后,判断多个所述待爬取网页是否均爬取成功;
执行单元,用于当所述判断单元判断存在未爬取网页时,重新执行爬取所述未爬取网页对应的多个结构化数据及多个非结构化数据的操作。
12.根据权利要求7-11中任一项所述的装置,其特征在于,所述装置还包括:
去重单元,用于在所述分类单元对多个待爬取网页进行分类处理之前,根据每个所述待爬取网页对应的URL对多个所述待爬取网页进行去重处理。
13.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的网页数据的爬取方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序运行时实现如权利要求1-6中任一所述的网页数据的爬取方法。
CN201910772735.9A 2019-08-21 2019-08-21 网页数据的爬取方法及装置 Pending CN112417239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910772735.9A CN112417239A (zh) 2019-08-21 2019-08-21 网页数据的爬取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910772735.9A CN112417239A (zh) 2019-08-21 2019-08-21 网页数据的爬取方法及装置

Publications (1)

Publication Number Publication Date
CN112417239A true CN112417239A (zh) 2021-02-26

Family

ID=74780043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910772735.9A Pending CN112417239A (zh) 2019-08-21 2019-08-21 网页数据的爬取方法及装置

Country Status (1)

Country Link
CN (1) CN112417239A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065050A (zh) * 2021-03-26 2021-07-02 深圳供电局有限公司 一种电价政策文档采集方法及其系统
CN113297448A (zh) * 2021-05-13 2021-08-24 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065050A (zh) * 2021-03-26 2021-07-02 深圳供电局有限公司 一种电价政策文档采集方法及其系统
CN113297448A (zh) * 2021-05-13 2021-08-24 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质
CN113297448B (zh) * 2021-05-13 2022-10-25 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN109918296B (zh) 软件自动化测试方法及装置
CN106055618B (zh) 一种基于网络爬虫与结构化存储的数据处理方法
Pol et al. A survey on web content mining and extraction of structured and semistructured data
CN107045507B (zh) 网页爬取方法及装置
CN107015986B (zh) 一种爬虫爬取网页的方法及装置
US9183460B2 (en) Detecting modified images
CN111506795B (zh) 一种招标信息获取方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN112417239A (zh) 网页数据的爬取方法及装置
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN114138784A (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
CN115437877A (zh) 多源日志的在线解析方法、系统、电子设备及存储介质
CN108255891B (zh) 一种判别网页类型的方法及装置
CN109558548A (zh) 一种消除css样式冗余的方法及相关产品
CN106776654B (zh) 一种数据搜索方法及装置
KR20210060830A (ko) 빅데이터 지능형 수집 방법 및 장치
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN109710833B (zh) 用于确定内容节点的方法与设备
CN108062337B (zh) 一种对爬虫种子打标签的方法及装置
Mingsheng et al. An approach for text extraction from web news page
CN106997353B (zh) 网页改版的监控方法及装置
CN110826007A (zh) 栏目更新日期确定方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination