CN106815273B - 数据存储方法和装置 - Google Patents

数据存储方法和装置 Download PDF

Info

Publication number
CN106815273B
CN106815273B CN201510875078.2A CN201510875078A CN106815273B CN 106815273 B CN106815273 B CN 106815273B CN 201510875078 A CN201510875078 A CN 201510875078A CN 106815273 B CN106815273 B CN 106815273B
Authority
CN
China
Prior art keywords
link
target
page
content
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510875078.2A
Other languages
English (en)
Other versions
CN106815273A (zh
Inventor
杨杰
张祎博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510875078.2A priority Critical patent/CN106815273B/zh
Publication of CN106815273A publication Critical patent/CN106815273A/zh
Application granted granted Critical
Publication of CN106815273B publication Critical patent/CN106815273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本申请公开了一种数据存储方法和装置。其中,该方法包括:爬取目标网站的目录页面,从目录页面中提取目标链接,其中,目标链接为在目录页面上用于链接到目标网站的内容页面的链接,目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类;确定出目标类别,目标类别为目标链接所链接到的内容页面的数据内容的类别;建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系;在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。本申请解决了现有技术中无法依据类别来获取相应的数据的技术问题。

Description

数据存储方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据存储方法和装置。
背景技术
爬虫在对网站的页面数据进行爬取时,一般分为两步。第一步是通过网站的目录页面(或者门户页面)得到网站内容页的链接,第二步是根据网站内容页的链接进入网站的内容页面,获得内容页面的数据,并将得到的数据进行存储。目前,现有技术中在爬取到网站中的页面数据之后,通常是将这些数据进行统一存储,这种存储方式比较快捷方便。
然而,当需要对网站中某些特定类别的数据进行分析时,例如需要对财经新闻的数据,或体育新闻的数据,或娱乐新闻的数据等分别进行分析,由于无法依据类别来获取相应的数据,导致无法对某些特定类别的数据进行分析。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据存储方法和装置,以至少解决现有技术中无法依据类别来获取相应的数据的技术问题。
根据本申请实施例的一个方面,提供了一种数据存储方法,包括:爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。
进一步地,在爬取所述目标链接所链接到的内容页面的数据内容之前,所述方法还包括:建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系包括:在所述爬取任务中添加用于表示所述目标类别的标签;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储包括:在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。
进一步地,确定出目标类别包括:建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;确定所述目标链接在所述目录页面上所处的目标区域;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。
进一步地,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括:建立所述区域Qi与所述类别Cih的对应关系;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别包括:基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别
Figure BDA0000865769610000021
,其中,1≤j≤m。
进一步地,所述区域Qi包含链接Li1至链接
Figure BDA0000865769610000022
,其中,ki为所述区域Qi包含的所述链接的数量,在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储还包括:将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别
Figure BDA0000865769610000023
对应进行存储。
根据本申请实施例的另一方面,还提供了一种数据存储装置,包括:爬取单元,用于爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定单元,用于确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;第一建立单元,用于建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;存储单元,用于在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。
进一步地,所述装置还包括:第二建立单元,用于在爬取所述目标链接所链接到的内容页面的数据内容之前,建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;所述第一建立单元包括:添加子单元,用于在所述爬取任务中添加用于表示所述目标类别的标签;所述存储单元包括:第一存储子单元,用于在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。
进一步地,所述确定单元包括:建立子单元,用于建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;第一确定子单元,用于确定所述目标链接在所述目录页面上所处的目标区域;第二确定子单元,用于根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。
进一步地,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,所述建立子单元包括:建立模块,用于建立所述区域Qi与所述类别Cih的对应关系;所述第二确定子单元包括:查找模块,用于基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别
Figure BDA0000865769610000031
,其中,1≤j≤m。
进一步地,所述区域Qi包含链接Li1至链接
Figure BDA0000865769610000032
,其中,ki为所述区域Qi包含的所述链接的数量,所述存储单元还包括:第二存储子单元,用于将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别
Figure BDA0000865769610000033
对应进行存储。
在本申请实施例中,采用爬取目标网站的目录页面,从目录页面中提取目标链接,其中,目标链接为在目录页面上用于链接到目标网站的内容页面的链接,目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类;确定出目标类别,目标类别为目标链接所链接到的内容页面的数据内容的类别;建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系;在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。通过找出目录页面上的链接所链接到的内容页面的数据内容的类别,将链接所链接到的内容页面的数据内容与该链接所链接到的内容页面的数据内容的类别对应进行存储,实现了将数据内容及该数据内容分类的类别对应存储的技术效果,进而解决了现有技术中无法依据类别来获取相应的数据的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据存储方法的流程图;
图2是根据本申请优选实施例的数据存储方法的流程图;以及
图3是根据本申请实施例的数据存储装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种数据存储方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的数据存储方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,爬取目标网站的目录页面,从目录页面中提取目标链接,其中,目标链接为在目录页面上用于链接到目标网站的内容页面的链接,目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类。
目标网站可以为具有目录页面(门户页面)的任意一个网站。目标网站的目录页面中包含若干个链接,每个链接都链接到某一个内容页面,目录页面上的链接按照链接所链接到的内容页面的数据内容进行分类。链接可以为URL。目标链接可以为目录页面上的任意链接。目标链接所链接到的内容页面的数据内容为待存储的数据内容。
步骤S104,确定出目标类别,目标类别为目标链接所链接到的内容页面的数据内容的类别。目标链接所链接到的内容页面的数据内容的类别为目标类别。不同的目标链接所链接到的内容页面的数据内容的类别既可能相同,也可能不同。
步骤S106,建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系。即,建立目标链接所链接到的内容页面的数据内容与该目标链接所链接到的内容页面的数据内容的类别之间的关联关系。关联关系也是对应关系。
步骤S108,在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。在爬取到目标链接所链接到的内容页面的数据内容之后,根据目标链接所链接到的内容页面的数据内容和目标类别的关联关系,将目标链接所链接到的内容页面的数据内容和目标类别对应进行存储。存储结果既包括数据内容,又包括该数据内容的类别。在查询存储结果时,可以查询出某一类别的数据内容。
通过找出目录页面上的链接所链接到的内容页面的数据内容的类别,将链接所链接到的内容页面的数据内容与该链接所链接到的内容页面的数据内容的类别对应进行存储,实现了将数据内容及该数据内容分类的类别对应存储的技术效果,进而解决了现有技术中无法依据类别来获取相应的数据的技术问题。
可选地,在爬取目标链接所链接到的内容页面的数据内容之前,根据本申请实施例所提供的数据存储方法还包括:建立爬取任务,爬取任务用于爬取目标链接所链接到的内容页面的数据内容;建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系包括:在爬取任务中添加用于表示目标类别的标签;在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储包括:在执行爬取任务来爬取目标链接所链接到的内容页面的数据内容之后,将爬取到的目标链接所链接到的内容页面的数据内容与标签对应存储。
当爬取到目标网站的目录页面之后,提取目标链接,建立爬取任务,该爬取任务用于爬取目标链接所链接到的内容页面的数据内容。在爬取任务中添加标签,该标签用来表示目标链接所链接到的内容页面的数据内容所对应的类别,即目标类别。标签是用于添加特定信息的一个字段,标签中的内容会和爬取任务爬取到的目标链接所链接到的内容页面的数据内容同时对应存储。通过在爬取任务中添加表示类别的标签,实现了将爬取任务爬取到的目标链接所链接到的内容页面的数据内容与该数据内容的类别对应存储的技术效果。
可选地,确定出目标类别包括:建立目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系;确定目标链接在目录页面上所处的目标区域;根据目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及目标区域确定出目标类别。
目录页面被划分成若干个区域,每个区域都对应着特定的类别。每个区域都包含若干个链接,位于目录页面的同一个区域的链接所链接到的内容页面的数据内容的类别是相同的。通过建立目录页面中区域和类别的对应关系,找到目标链接在目录页面上所处的区域(即目标区域),根据目录页面中区域和类别的对应关系,找到目标区域所对应的类别,即找到目标类别。
目录页面中区域和类别的对应关系可以用一张表来存储,具体来说是用一张目录页面区域分类查找表来存储。该查找表可以在数据库中维护,查找表的结构为两列。对于查找表中具体的一行,查找表的第一列保存网站目录页面的URL,第二列保存网站目录页面的区域分类信息。网站目录页面的区域分类信息可以通过如下格式表示:
{Xpath1:Tag1a,Tag1b;Xpath2:Tag2a;Xpath3:Tag3a,Tag3b,Tag3c;……}。
其中Xpath1、Xpath2、Xpath3等为XML路径语言,可以使用Xpath唯一地确定目录页面中的某一区域。Tag1a、Tag1b、Tag2a、Tag3a、Tag3b、Tag3c等为类别标签,表示分类的类别。目录页面的某一特定区域所对应的类别既可以为一个,也可以为多个。
Xpath1所确定的目录页面中的区域所对应的类别标签为类别标签Tag1a和类别标签Tag1b,即Xpath1所确定的目录页面中的区域所对应的类别为类别标签Tag1a和类别标签Tag1b所表示的类别。
Xpath2所确定的目录页面中的区域所对应的类别标签为类别标签Tag2a,即Xpath2所确定的目录页面中的区域所对应的类别为类别标签Tag2a所表示的类别。
Xpath3所确定的目录页面中的区域所对应的类别标签为类别标签Tag3a、类别标签Tag3b和类别标签Tag3c,即Xpath3所确定的目录页面中的区域所对应的类别为类别标签Tag3a、类别标签Tag3b和类别标签Tag3c所表示的类别。
表1为一张目录页面区域分类查找表。
在建立如表1所示的查找表时,对不同网站的目录页面在查找表中建立对应的信息。例如,对于目录页面URL为http://NEWS.com的新闻网站,其目录页面中路径XpathA1所确定的区域的类别为财经新闻,路径XpathA2所确定的区域的类别为热点新闻并且为体育新闻。对于其他网站也可以在查找表中建立对应的行。
表1
Figure BDA0000865769610000071
例如,当需要爬取目录页面URL为http://NEWS.com的新闻网站时,先在表1中查找该新闻网站的目录页面URL,找到之后,判断目标链接来自哪个区域。如果目标链接来自XpathA1确定的区域,则对建立的爬取任务添加标签“财经新闻”,当爬取到目标链接所链接到的内容页面的数据内容之后,将爬取到的数据内容和标签“财经新闻”对应存储。如果目标链接来自XpathA2确定的区域,则对建立的爬取任务添加标签“热点新闻”和“体育新闻”,当爬取到目标链接所链接到的内容页面的数据内容之后,将爬取到的数据内容和标签“热点新闻”、“体育新闻”对应存储。
可选地,目录页面中划分的区域包括区域Qi,目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为目录页面中划分的区域的数量,1≤h≤ni,ni为区域Qi所对应的类别的数量,建立目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括:建立区域Qi与类别Cih的对应关系;根据目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及目标区域确定出目标类别包括:基于区域Qi与类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别
Figure BDA0000865769610000081
,其中,1≤j≤m。
可选地,区域Qi包含链接Li1至链接
Figure BDA0000865769610000082
,其中,ki为区域Qi包含的链接的数量,在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储还包括:将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别
Figure BDA0000865769610000083
对应进行存储。
目录页面被划分为若干个区域,每个区域都对应着特定的类别。类别可以为“科技”、“数码”、“手机”、“时尚”、“健康”、“摄影”、“历史”、“读书”、“文化”、“财经”、“娱乐”、“汽车”、“房产”、“家居”、“旅游”、“生活”、“股票”,等等。区域Qi对应着ni个不同的类别,分别为类别Ci1至类别
Figure BDA0000865769610000084
。建立区域Qi与类别Ci1至类别
Figure BDA0000865769610000085
的对应关系。当需要知道某个目标链接所链接到的内容页面的数据内容的分类的类别时,只需要确定出目标区域所处在目录页面中的区域,假设该目标链接位于目录页面的区域Qj(区域Qj即为目标区域),在区域和类别的对应关系中找到区域Qj所对应的类别为类别Cj1至类别
Figure BDA0000865769610000086
(类别Cj1至类别
Figure BDA0000865769610000087
即为目标类别)。
目录页面的每个区域都包含至少一个链接,区域Qi包含ki个链接,分别为链接Li1至链接
Figure BDA0000865769610000088
。假设目标链接为Lij,由于目标链接Lij位于目录页面的区域Qi(区域Qi为目标区域),故目标链接对应的类别为类别Ci1至类别
Figure BDA0000865769610000089
(类别Ci1至类别
Figure BDA00008657696100000810
为目标类别)。当爬取到目标链接Lij所链接到的内容页面的数据内容之后,将目标链接Lij所链接到的内容页面的数据内容与类别Ci1至类别
Figure BDA0000865769610000091
对应进行存储,或者将目标链接Lij所链接到的内容页面的数据内容与类别Ci1至类别
Figure BDA0000865769610000092
的标识对应进行存储。类别的标识可以为数字,字母,等。例如,当类别为“科技”时,类别的标识可以为“Tech”、“KJ”,等。当类别为“旅游”时,类别的标识可以为“Tra”、“LY”,等。当类别为“文化”时,类别的标识可以为“Cul”、“WH”,等。
例如,表2为A网站的目录页面划分的区域与类别的对应关系,表3为该网站的目录页面划分的区域与目录页面上的链接的对应关系。
表2
区域 区域所对应的分类的类别
Q<sub>1</sub> C<sub>11</sub>、C<sub>12</sub>
Q<sub>2</sub> C<sub>21</sub>
Q<sub>3</sub> C<sub>31</sub>、C<sub>32</sub>、C<sub>33</sub>、C<sub>34</sub>
Q<sub>4</sub> C<sub>41</sub>、C<sub>42</sub>、C<sub>43</sub>
表3
区域 区域所包含的链接
Q<sub>1</sub> L<sub>11</sub>、L<sub>12</sub>、L<sub>13</sub>、L<sub>14</sub>、L<sub>15</sub>
Q<sub>2</sub> L<sub>21</sub>、L<sub>22</sub>、L<sub>23</sub>、L<sub>24</sub>、L<sub>25</sub>、L<sub>26</sub>、L<sub>27</sub>
Q<sub>3</sub> L<sub>31</sub>、L<sub>32</sub>、L<sub>33</sub>、L<sub>34</sub>、L<sub>35</sub>、L<sub>36</sub>、L<sub>37</sub>、L<sub>38</sub>
Q<sub>4</sub> L<sub>41</sub>、L<sub>42</sub>、L<sub>43</sub>、L<sub>44</sub>、L<sub>45</sub>、L<sub>46</sub>
由表2可以看出,A网站的目录页面包含4个区域,分别为区域Q1、区域Q2、区域Q3和区域Q4。其中,区域Q1所对应的类别有2个(即n1=2),分别为类别C11和类别C12。区域Q2所对应的类别有1个(即n2=1),为类别C21。区域Q3所对应的类别有4个(即n3=4),分别为类别C31、类别C32、类别C33和类别C34。区域Q4所对应的类别有3个(即n4=3),分别为类别C41、类别C42和类别C43
由表3可以看出,A网站的目录页面中的区域Q1包含5个链接(即k1=5),分别为链接L11、链接L12、链接L13、链接L14和链接L15。区域Q2包含7个链接(即k2=7),分别为链接L21、链接L22、链接L23、链接L24、链接L25、链接L26和链接L27。区域Q3包含8个链接(即k3=8),分别为链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37和链接L38。区域Q4包含6个链接(即k4=6),分别为链接L41、链接L42、链接L43、链接L44、链接L45和链接L46
根据表2和表3,可以得到目录页面上链接与链接所链接到的内容页面的数据内容分类的类别的对应关系表。
表4为目录页面上链接与链接所链接到的内容页面的数据内容分类的类别的对应关系表。
如表4所示,当目标链接为链接L11、链接L12、链接L13、链接L14或链接L15时,将爬取目标链接所链接到的内容页面的数据内容和类别C11、类别C12对应进行存储。
当目标链接为链接L21、链接L22、链接L23、链接L24、链接L25、链接L26或链接L27时,将爬取目标链接所链接到的内容页面的数据内容和类别C21对应进行存储。
当目标链接为链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37或链接L38时,将爬取目标链接所链接到的内容页面的数据内容和类别C31、类别C32、类别C33、类别C34对应进行存储。
当目标链接为链接L41、链接L42、链接L43、链接L44、链接L45和链接L46时,将爬取目标链接所链接到的内容页面的数据内容和类别C41、类别C42、类别C43对应进行存储。
表4
目标链接 目标链接所对应的类别
L<sub>11</sub>、L<sub>12</sub>、L<sub>13</sub>、L<sub>14</sub>、L<sub>15</sub> C<sub>11</sub>、C<sub>12</sub>
L<sub>21</sub>、L<sub>22</sub>、L<sub>23</sub>、L<sub>24</sub>、L<sub>25</sub>、L<sub>26</sub>、L<sub>27</sub> C<sub>21</sub>
L<sub>31</sub>、L<sub>32</sub>、L<sub>33</sub>、L<sub>34</sub>、L<sub>35</sub>、L<sub>36</sub>、L<sub>37</sub>、L<sub>38</sub> C<sub>31</sub>、C<sub>32</sub>、C<sub>33</sub>、C<sub>34</sub>
L<sub>41</sub>、L<sub>42</sub>、L<sub>43</sub>、L<sub>44</sub>、L<sub>45</sub>、L<sub>46</sub> C<sub>41</sub>、C<sub>42</sub>、C<sub>43</sub>
假设类别C11表示的是“房产”,类别C12表示的是“家居”,类别C21表示的是“健康”,类别C31表示的是“文化”,类别C32表示的是“读书”,类别C33表示的是“艺术”,类别C34表示的是“历史”,类别C41表示的是“旅游”,类别C42表示的是“生活”,类别C43表示的是“摄影”。
当目标链接为链接L11、链接L12、链接L13、链接L14或链接L15时,将爬取目标链接所链接到的内容页面的数据内容和标签“房产”、“家居”对应进行存储。
当目标链接为链接L21、链接L22、链接L23、链接L24、链接L25、链接L26或链接L27时,将爬取目标链接所链接到的内容页面的数据内容和标签“健康”对应进行存储。
当目标链接为链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37或链接L38时,将爬取目标链接所链接到的内容页面的数据内容和标签“文化”、“读书”、“艺术”和“历史”对应进行存储。
当目标链接为链接L41、链接L42、链接L43、链接L44、链接L45或链接L46时,将爬取目标链接所链接到的内容页面的数据内容和标签“旅游”、“生活”和“摄影”对应进行存储。
当查询存储结果时,根据标签信息,即可查询出对应于标签的内容页面的数据内容。例如,根据标签“健康”查询,可以得到链接L21、链接L22、链接L23、链接L24、链接L25、链接L26和链接L27所链接到的内容页面的数据内容。根据标签“生活”查询,可以得到链接L41、链接L42、链接L43、链接L44、链接L45和链接L46所链接到的内容页面的数据内容。根据标签“文化”查询,可以得到链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37和链接L38所链接到的内容页面的数据内容。根据标签“读书”查询,可以得到链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37和链接L38所链接到的内容页面的数据内容。当根据其他标签进行查询时,以此类推,此处不再一一列举。
通过建立目录页面区域分类查找表,在目录页面上提取链接时,对建立的内容页面爬取任务添加分类标签,将内容页面的数据内容与数据内容对应的标签对应存储,从而能够实现对存储结果的分类检索。
图2是根据本申请优选实施例的数据存储方法的流程图。如图2所示,使用该方法进行数据存储主要包括以下几个步骤:
步骤S202,爬虫获得爬取目录页面的爬取任务。
步骤S204,在目录页面区域分类查找表中查找待爬取目录页面的URL。
步骤S206,在目录页面区域分类查找表中查找到待爬取目录页面的URL的情况下,按照查找表中的区域分类信息建立包含类别标签的内容页面的爬取任务。步骤S206与上述步骤S106的具体实施方式相同。
步骤S208,爬取目录页面的链接所链接到的内容页面的数据内容。
步骤S210,将目录页面的链接所链接到的内容页面的数据内容和类别标签对应存储。步骤S208和步骤S210的具体实施方式与上述步骤S108相同。
通过在目录页面区域分类查找表中查找出待爬取目录页面的URL,根据查找表中的区域分类信息建立包含类别标签的内容页面的爬取任务,使得在爬取特定区域的链接时,将链接所链接到的内容页面的数据内容和类别标签对应进行存储,实现了对爬取到的内容页面的数据内容进行分类的技术效果,并且通过类别标签信息,可以对已经存储的内容页面的数据内容进行分类检索,方便高效。
根据本申请实施例,还提供了一种数据存储装置。该数据存储装置可以执行上述数据存储方法,上述数据存储方法也可以通过该数据存储装置实施。
图3是根据本申请实施例的数据存储装置的示意图。如图3所示,该装置包括爬取单元32、确定单元34、第一建立单元36和存储单元38。
爬取单元32用于爬取目标网站的目录页面,从目录页面中提取目标链接,其中,目标链接为在目录页面上用于链接到目标网站的内容页面的链接,目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类。
目标网站可以为具有目录页面(门户页面)的任意一个网站。目标网站的目录页面中包含若干个链接,每个链接都链接到某一个内容页面,目录页面上的链接按照链接所链接到的内容页面的数据内容进行分类。链接可以为URL。目标链接可以为目录页面上的任意链接。目标链接所链接到的内容页面的数据内容为待存储的数据内容。
确定单元34用于确定出目标类别,目标类别为目标链接所链接到的内容页面的数据内容的类别。目标链接所链接到的内容页面的数据内容的类别为目标类别。不同的目标链接所链接到的内容页面的数据内容的类别既可能相同,也可能不同。
第一建立单元36用于建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系。即,建立目标链接所链接到的内容页面的数据内容与该目标链接所链接到的内容页面的数据内容的类别之间的关联关系。关联关系也是对应关系。
存储单元38用于在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。在爬取到目标链接所链接到的内容页面的数据内容之后,根据目标链接所链接到的内容页面的数据内容和目标类别的关联关系,将目标链接所链接到的内容页面的数据内容和目标类别对应进行存储。存储结果既包括数据内容,又包括该数据内容的类别。在查询存储结果时,可以查询出某一类别的数据内容。
通过找出目录页面上的链接所链接到的内容页面的数据内容的类别,将链接所链接到的内容页面的数据内容与该链接所链接到的内容页面的数据内容的类别对应进行存储,实现了将数据内容及该数据内容分类的类别对应存储的技术效果,进而解决了现有技术中无法依据类别来获取相应的数据的技术问题。
可选地,根据本申请实施例所提供的数据存储装置还包括第二建立单元。第二建立单元用于在爬取目标链接所链接到的内容页面的数据内容之前,建立爬取任务,爬取任务用于爬取目标链接所链接到的内容页面的数据内容。第一建立单元36包括添加子单元。添加子单元用于在爬取任务中添加用于表示目标类别的标签。存储单元38包括第一存储子单元。第一存储子单元用于在执行爬取任务来爬取目标链接所链接到的内容页面的数据内容之后,将爬取到的目标链接所链接到的内容页面的数据内容与标签对应存储。
当爬取到目标网站的目录页面之后,提取目标链接,建立爬取任务,该爬取任务用于爬取目标链接所链接到的内容页面的数据内容。在爬取任务中添加标签,该标签用来表示目标链接所链接到的内容页面的数据内容所对应的类别,即目标类别。标签是用于添加特定信息的一个字段,标签中的内容会和爬取任务爬取到的目标链接所链接到的内容页面的数据内容同时对应存储。通过在爬取任务中添加表示类别的标签,实现了将爬取任务爬取到的目标链接所链接到的内容页面的数据内容与该数据内容的类别对应存储的技术效果。
可选地,确定单元34包括建立子单元、第一确定子单元和第二确定子单元。建立子单元用于建立目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系。第一确定子单元用于确定目标链接在目录页面上所处的目标区域。第二确定子单元用于根据目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及目标区域确定出目标类别。
目录页面被划分成若干个区域,每个区域都对应着特定的类别。每个区域都包含若干个链接,位于目录页面的同一个区域的链接所链接到的内容页面的数据内容的类别是相同的。通过建立目录页面中区域和类别的对应关系,找到目标链接在目录页面上所处的区域(即目标区域),根据目录页面中区域和类别的对应关系,找到目标区域所对应的类别,即找到目标类别。
目录页面中区域和类别的对应关系可以用一张表来存储,具体来说是用一张目录页面区域分类查找表来存储。该查找表可以在数据库中维护,查找表的结构为两列。对于查找表中具体的一行,查找表的第一列保存网站目录页面的URL,第二列保存网站目录页面的区域分类信息。网站目录页面的区域分类信息可以通过如下格式表示:
{Xpath1:Tag1a,Tag1b;Xpath2:Tag2a;Xpath3:Tag3a,Tag3b,Tag3c;……}。
其中Xpath1、Xpath2、Xpath3等为XML路径语言,可以使用Xpath唯一地确定目录页面中的某一区域。Tag1a、Tag1b、Tag2a、Tag3a、Tag3b、Tag3c等为类别标签,表示分类的类别。目录页面的某一特定区域所对应的类别既可以为一个,也可以为多个。
Xpath1所确定的目录页面中的区域所对应的类别标签为类别标签Tag1a和类别标签Tag1b,即Xpath1所确定的目录页面中的区域所对应的类别为类别标签Tag1a和类别标签Tag1b所表示的类别。
Xpath2所确定的目录页面中的区域所对应的类别标签为类别标签Tag2a,即Xpath2所确定的目录页面中的区域所对应的类别为类别标签Tag2a所表示的类别。
Xpath3所确定的目录页面中的区域所对应的类别标签为类别标签Tag3a、类别标签Tag3b和类别标签Tag3c,即Xpath3所确定的目录页面中的区域所对应的类别为类别标签Tag3a、类别标签Tag3b和类别标签Tag3c所表示的类别。
表1为一张目录页面区域分类查找表。
在建立如表1所示的查找表时,对不同网站的目录页面在查找表中建立对应的信息。例如,对于目录页面URL为http://NEWS.com的新闻网站,其目录页面中路径XpathA1所确定的区域的类别为财经新闻,路径XpathA2所确定的区域的类别为热点新闻并且为体育新闻。对于其他网站也可以在查找表中建立对应的行。
例如,当需要爬取目录页面URL为http://NEWS.com的新闻网站时,先在表1中查找该新闻网站的目录页面URL,找到之后,判断目标链接来自哪个区域。如果目标链接来自XpathA1确定的区域,则对建立的爬取任务添加标签“财经新闻”,当爬取到目标链接所链接到的内容页面的数据内容之后,将爬取到的数据内容和标签“财经新闻”对应存储。如果目标链接来自XpathA2确定的区域,则对建立的爬取任务添加标签“热点新闻”和“体育新闻”,当爬取到目标链接所链接到的内容页面的数据内容之后,将爬取到的数据内容和标签“热点新闻”、“体育新闻”对应存储。
可选地,目录页面中划分的区域包括区域Qi,目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为目录页面中划分的区域的数量,1≤h≤ni,ni为区域Qi所对应的类别的数量。建立子单元包括建立模块。建立模块用于建立区域Qi与类别Cih的对应关系。第二确定子单元包括查找模块。查找模块用于基于区域Qi与类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别
Figure BDA0000865769610000151
,其中,1≤j≤m。
可选地,区域Qi包含链接Li1至链接
Figure BDA0000865769610000161
,其中,ki为区域Qi包含的链接的数量。存储单元38还包括第二存储子单元。第二存储子单元用于将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别
Figure BDA0000865769610000162
对应进行存储。
目录页面被划分为若干个区域,每个区域都对应着特定的类别。类别可以为“科技”、“数码”、“手机”、“时尚”、“健康”、“摄影”、“历史”、“读书”、“文化”、“财经”、“娱乐”、“汽车”、“房产”、“家居”、“旅游”、“生活”、“股票”,等等。区域Qi对应着ni个不同的类别,分别为类别Ci1至类别
Figure BDA0000865769610000163
。建立区域Qi与类别Ci1至类别
Figure BDA0000865769610000164
的对应关系。当需要知道某个目标链接所链接到的内容页面的数据内容的分类的类别时,只需要确定出目标区域所处在目录页面中的区域,假设该目标链接位于目录页面的区域Qj(区域Qj即为目标区域),在区域和类别的对应关系中找到区域Qj所对应的类别为类别Cj1至类别
Figure BDA0000865769610000165
(类别Cj1至类别
Figure BDA0000865769610000166
即为目标类别)。
目录页面的每个区域都包含至少一个链接,区域Qi包含ki个链接,分别为链接Li1至链接
Figure BDA0000865769610000167
。假设目标链接为Lij,由于目标链接Lij位于目录页面的区域Qi(区域Qi为目标区域),故目标链接对应的类别为类别Ci1至类别
Figure BDA0000865769610000168
(类别Ci1至类别
Figure BDA0000865769610000169
为目标类别)。当爬取到目标链接Lij所链接到的内容页面的数据内容之后,将目标链接Lij所链接到的内容页面的数据内容与类别Ci1至类别
Figure BDA00008657696100001610
对应进行存储,或者将目标链接Lij所链接到的内容页面的数据内容与类别Ci1至类别
Figure BDA00008657696100001611
的标识对应进行存储。类别的标识可以为数字,字母,等。例如,当类别为“科技”时,类别的标识可以为“Tech”、“KJ”,等。当类别为“旅游”时,类别的标识可以为“Tra”、“LY”,等。当类别为“文化”时,类别的标识可以为“Cul”、“WH”,等。
例如,表2为A网站的目录页面划分的区域与类别的对应关系,表3为该网站的目录页面划分的区域与目录页面上的链接的对应关系。
由表2可以看出,A网站的目录页面包含4个区域,分别为区域Q1、区域Q2、区域Q3和区域Q4。其中,区域Q1所对应的类别有2个(即n1=2),分别为类别C11和类别C12。区域Q2所对应的类别有1个(即n2=1),为类别C21。区域Q3所对应的类别有4个(即n3=4),分别为类别C31、类别C32、类别C33和类别C34。区域Q4所对应的类别有3个(即n4=3),分别为类别C41、类别C42和类别C43
由表3可以看出,A网站的目录页面中的区域Q1包含5个链接(即k1=5),分别为链接L11、链接L12、链接L13、链接L14和链接L15。区域Q2包含7个链接(即k2=7),分别为链接L21、链接L22、链接L23、链接L24、链接L25、链接L26和链接L27。区域Q3包含8个链接(即k3=8),分别为链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37和链接L38。区域Q4包含6个链接(即k4=6),分别为链接L41、链接L42、链接L43、链接L44、链接L45和链接L46
根据表2和表3,可以得到目录页面上链接与链接所链接到的内容页面的数据内容分类的类别的对应关系表。
表4为目录页面上链接与链接所链接到的内容页面的数据内容分类的类别的对应关系表。
如表4所示,当目标链接为链接L11、链接L12、链接L13、链接L14或链接L15时,将爬取目标链接所链接到的内容页面的数据内容和类别C11、类别C12对应进行存储。
当目标链接为链接L21、链接L22、链接L23、链接L24、链接L25、链接L26或链接L27时,将爬取目标链接所链接到的内容页面的数据内容和类别C21对应进行存储。
当目标链接为链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37或链接L38时,将爬取目标链接所链接到的内容页面的数据内容和类别C31、类别C32、类别C33、类别C34对应进行存储。
当目标链接为链接L41、链接L42、链接L43、链接L44、链接L45和链接L46时,将爬取目标链接所链接到的内容页面的数据内容和类别C41、类别C42、类别C43对应进行存储。
假设类别C11表示的是“房产”,类别C12表示的是“家居”,类别C21表示的是“健康”,类别C31表示的是“文化”,类别C32表示的是“读书”,类别C33表示的是“艺术”,类别C34表示的是“历史”,类别C41表示的是“旅游”,类别C42表示的是“生活”,类别C43表示的是“摄影”。
当目标链接为链接L11、链接L12、链接L13、链接L14或链接L15时,将爬取目标链接所链接到的内容页面的数据内容和标签“房产”、“家居”对应进行存储。
当目标链接为链接L21、链接L22、链接L23、链接L24、链接L25、链接L26或链接L27时,将爬取目标链接所链接到的内容页面的数据内容和标签“健康”对应进行存储。
当目标链接为链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37或链接L38时,将爬取目标链接所链接到的内容页面的数据内容和标签“文化”、“读书”、“艺术”和“历史”对应进行存储。
当目标链接为链接L41、链接L42、链接L43、链接L44、链接L45或链接L46时,将爬取目标链接所链接到的内容页面的数据内容和标签“旅游”、“生活”和“摄影”对应进行存储。
当查询存储结果时,根据标签信息,即可查询出对应于标签的内容页面的数据内容。例如,根据标签“健康”查询,可以得到链接L21、链接L22、链接L23、链接L24、链接L25、链接L26和链接L27所链接到的内容页面的数据内容。根据标签“生活”查询,可以得到链接L41、链接L42、链接L43、链接L44、链接L45和链接L46所链接到的内容页面的数据内容。根据标签“文化”查询,可以得到链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37和链接L38所链接到的内容页面的数据内容。根据标签“读书”查询,可以得到链接L31、链接L32、链接L33、链接L34、链接L35、链接L36、链接L37和链接L38所链接到的内容页面的数据内容。当根据其他标签进行查询时,以此类推,此处不再一一列举。
通过建立目录页面区域分类查找表,在目录页面上提取链接时,对建立的内容页面爬取任务添加分类标签,将内容页面的数据内容与数据内容对应的标签对应存储,从而能够实现对存储结果的分类检索。
所述数据存储装置包括处理器和存储器,上述爬取单元32、确定单元34、第一建立单元36和存储单元38等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对爬取到的内容页面的数据内容和数据内容分类的类别对应存储。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:爬取目标网站的目录页面,从目录页面中提取目标链接,其中,目标链接为在目录页面上用于链接到目标网站的内容页面的链接,目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类;确定出目标类别,目标类别为目标链接所链接到的内容页面的数据内容的类别;建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系;在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种数据存储方法,其特征在于,包括:
爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;
确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;
在爬取所述目标链接所链接到的内容页面的数据内容之前,建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;
在所述爬取任务中添加用于表示所述目标类别的标签;
在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储;
其中,根据所述目录页面的区域分类信息建立包括所述标签的内容页面的爬取任务,所述区域分类信息包括所述目录页面中的区域和与所述区域对应的所述标签。
2.根据权利要求1所述的方法,其特征在于,确定出目标类别包括:
建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;
确定所述目标链接在所述目录页面上所处的目标区域;
根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。
3.根据权利要求2所述的方法,其特征在于,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,
建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括:建立所述区域Qi与所述类别Cih的对应关系;
根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别包括:
基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别
Figure FDA0002371821370000021
其中,1≤j≤m。
4.根据权利要求3所述的方法,其特征在于,所述区域Qi包含链接Li1至链接
Figure FDA0002371821370000023
其中,ki为所述区域Qi包含的所述链接的数量,
所述方法还包括:将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别
Figure FDA0002371821370000022
对应进行存储。
5.一种数据存储装置,其特征在于,包括:
爬取单元,用于爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;
确定单元,用于确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;
第二建立单元,用于在爬取所述目标链接所链接到的内容页面的数据内容之前,建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;
添加子单元,用于在所述爬取任务中添加用于表示所述目标类别的标签;
第一存储子单元,用于在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储;
其中,所述装置还用于根据所述目录页面的区域分类信息建立包括所述标签的内容页面的爬取任务,所述区域分类信息包括所述目录页面中的区域和与所述区域对应的所述标签。
6.根据权利要求5所述的装置,其特征在于,所述确定单元包括:
建立子单元,用于建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;
第一确定子单元,用于确定所述目标链接在所述目录页面上所处的目标区域;
第二确定子单元,用于根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。
7.根据权利要求6所述的装置,其特征在于,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,
所述建立子单元包括:
建立模块,用于建立所述区域Qi与所述类别Cih的对应关系;
所述第二确定子单元包括:
查找模块,用于基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别
Figure FDA0002371821370000031
其中,1≤j≤m。
8.根据权利要求7所述的装置,其特征在于,所述区域Qi包含链接Li1至链接
Figure FDA0002371821370000032
其中,ki为所述区域Qi包含的所述链接的数量,
所述装置还包括:
第二存储子单元,用于将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别
Figure FDA0002371821370000033
对应进行存储。
CN201510875078.2A 2015-12-02 2015-12-02 数据存储方法和装置 Active CN106815273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510875078.2A CN106815273B (zh) 2015-12-02 2015-12-02 数据存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510875078.2A CN106815273B (zh) 2015-12-02 2015-12-02 数据存储方法和装置

Publications (2)

Publication Number Publication Date
CN106815273A CN106815273A (zh) 2017-06-09
CN106815273B true CN106815273B (zh) 2020-07-31

Family

ID=59106552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510875078.2A Active CN106815273B (zh) 2015-12-02 2015-12-02 数据存储方法和装置

Country Status (1)

Country Link
CN (1) CN106815273B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572874A (zh) * 2014-12-19 2015-04-29 北京锐安科技有限公司 一种网页信息的抽取方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715542B2 (en) * 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US8793239B2 (en) * 2009-10-08 2014-07-29 Yahoo! Inc. Method and system for form-filling crawl and associating rich keywords
CN102073678B (zh) * 2010-12-03 2013-02-27 厦门市美亚柏科信息股份有限公司 一种网站信息分析系统及其方法
US8799262B2 (en) * 2011-04-11 2014-08-05 Vistaprint Schweiz Gmbh Configurable web crawler
CN102662954B (zh) * 2012-03-02 2014-08-13 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN104657391B (zh) * 2013-11-21 2018-08-03 阿里巴巴集团控股有限公司 页面的处理方法及装置
CN103927400B (zh) * 2014-05-07 2017-04-19 重庆邮电大学 Web网站产品详细信息的分类抓取及产品信息库建立方法
CN104765823A (zh) * 2015-04-08 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种网站数据采集的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572874A (zh) * 2014-12-19 2015-04-29 北京锐安科技有限公司 一种网页信息的抽取方法及装置

Also Published As

Publication number Publication date
CN106815273A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN108121737B (zh) 一种业务对象属性标识的生成方法、装置和系统
CN107657048B (zh) 用户识别方法及装置
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
CN109145110B (zh) 标签查询方法和装置
US20170154116A1 (en) Method and system for recommending contents based on social network
US9436768B2 (en) System and method for pushing and distributing promotion content
CN107911448B (zh) 一种内容推送方法及装置
CN110110577B (zh) 识别菜名的方法及装置、存储介质、电子装置
CN110352427B (zh) 用于收集与网络化环境中的欺诈性内容相关联的数据的系统和方法
CN107193892B (zh) 一种文档主题确定方法及装置
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN106250402B (zh) 一种网站分类方法及装置
CN107544994B (zh) 关联数据的处理方法和装置
CN108121712B (zh) 一种关键词存储方法及装置
CN111694928A (zh) 数据指标推荐方法、装置、计算机设备及可读存储介质
CN106815273B (zh) 数据存储方法和装置
CN111178349A (zh) 一种图像识别方法、装置、设备及存储介质
CN116719997A (zh) 政策信息推送方法、装置及电子设备
CN104408188B (zh) 数据处理方法和装置
CN108170693B (zh) 推送热词的方法及装置
CN108255888B (zh) 一种数据处理方法及系统
CN106611027A (zh) 网站排名数据处理方法和装置
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
CN114756671A (zh) 文章推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant