CN106997363A - 一种数据处理方法和设备 - Google Patents
一种数据处理方法和设备 Download PDFInfo
- Publication number
- CN106997363A CN106997363A CN201610051336.XA CN201610051336A CN106997363A CN 106997363 A CN106997363 A CN 106997363A CN 201610051336 A CN201610051336 A CN 201610051336A CN 106997363 A CN106997363 A CN 106997363A
- Authority
- CN
- China
- Prior art keywords
- filtering
- web page
- rule
- rules
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 221
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims description 59
- 235000012813 breadcrumbs Nutrition 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 18
- 230000009193 crawling Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 244000062793 Sorghum vulgare Species 0.000 description 3
- 235000019713 millet Nutrition 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013481 data capture Methods 0.000 description 2
- 235000007189 Oryza longistaminata Nutrition 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种数据处理方法和装置,属于通信领域。所述方法包括:抓取目标网站的WEB页面;基于过滤规则集,对抓取的所述WEB页面进行过滤,其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则,所述分类规则用于指示与网站类别有关的信息。通过本发明的方法,能够对抓取的页面进行有效过滤。
Description
技术领域
本发明涉及通信领域,特别涉及一种数据处理方法和设备。
背景技术
近些年,包括互联网搜索系统、自动导航系统、自动问答系统、机器翻译系统、语音识别系统等在内的智能系统取得了巨大进展,其背后是更深、更广、更新和更加准确的知识库的构建和使用。
在构建领域知识库的过程中,往往需要从各种网站抓取数据,并从中过滤掉那些与领域知识库构建无关的页面,进而再从剩下的相关页面中抽取想要的领域对象加入到领域知识库中,从而完成领域知识库的构建。
在过滤那些与领域知识库构建无关的页面的过程中,相关技术会通过URL规则进行匹配的方式来过滤。但是现在很多网站的WEB页面通过URL规则无法进行有效的过滤,造成过滤后剩下的WEB页面中仍存在与领域知识库构建无关的页面。
发明内容
本发明实施例提供了一种数据处理的方法和设备,能够有效过滤无关的页面。
第一方面,提供一种数据处理的方法,该方法可由各种不同的终端来执行,且可应用于对网络上各种数据的采集,包括但不限于领域知识库建立过程中的数据处理。所述方法可包括:抓取目标网站的WEB页面,其中所述目标网站可以为预先设定的执行抓取操作所针对的网站,例如目标网站为京东、天猫等;在抓取到目标网站的WEB页面之后,即可基于预先设定的过滤规则集,对抓取的所述WEB页面进行过滤,其中,所述过滤规则集可包括若干条过滤规则,一般地,过滤规则集中的过滤规则可以有多条,例如,当需要采集手机领域的数据时,可针对各种不同网站中的每个网站设置一条过滤规则。其中,每一条过滤规则包含分类规则,所述分类规则指示与网站类别有关的信息。现有技术在对采集的数据进行过滤时,一般都是通过URL规则进行匹配的方式来过滤,但是现在很多网站(比如京东网站)的WEB页面通过URL规则无法进行有效的过滤。在本发明实施例中,通过在过滤规则中引入分类规则,利用分类规则来对WEB页面进行过滤,如此,能够有效过滤无关的页面,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
在一种可能的设计中,在抓取目标网站的WEB页面之后,所述方法还可包括:解析抓取的WEB页面的面包屑信息以获取该WEB页面的类别。一般地,WEB页面的面包屑信息包括当前页面所属类别的信息,通过解析所述面包屑信息即可确定WEB页面所属的类别,进而便于后续基于分类规则来对WEB页面进行过滤。
在一种可能的设计中过滤规则集中的每一条过滤规则中除了包括分类规则之外,还包括URL规则;在此情况下,相应地,所述基于所述目标网站的过滤规则集,对抓取的WEB页面进行过滤包括:确定所述WEB页面的URL与所述过滤规则集中的一条或多条过滤规则中的URL规则匹配;根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤。在此实现方式中,过滤规则中包括URL规则和分类规则,这样一来,一方面可以对抓取的WEB页面可以先利用URL规则进行初步过滤,另一方面,可以对那些用URL规则无法过滤的WEB网页利用分类规则进行进一步的过滤,如此,提高过滤的效果,实现更加准确的过滤。
在另一种可能的设计中,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤可包括:确定所述一条或多条过滤规则中的分类规则对WEB页面的类别无要求;保留所述WEB页面。在此实现方式中,通过确定过滤规则中的分类规则对类别无要求,可以认定过滤规则中的分类规则不发挥作用,而只有过滤规则中的URL规则发挥作用。由于基于分类规则的过滤是在抓取的WEB页面的URL满足URL规则的情况下进行的,因而,此种实现方式可完全兼容现有技术中基于URL规则的过滤,可以保证在分类规则对WEB页面的类别没有要求时仍能够利用URL规则对WEB页面进行过滤。
在一种可能的设计中,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤可包括:确定所述WEB页面的类别与所述一条或多条过滤规则中至少一条过滤规则的分类规则匹配,保留抓取的所述WEB页面;或,确定所述WEB页面的类别与所述一条或多条过滤规则中的分类规则都不匹配,丢弃抓取的所述WEB页面。此种实现方式可应用于分类规则对WEB页面的类别有要求的情形。通过将WEB页面的类别与过滤规则中的分类规则进行匹配,且在匹配时保留抓取的WEB页面,不匹配时丢弃抓取的WEB页面。此种基于分类规则的具体过滤方式,可以有效过滤掉那些URL与过滤规则中的URL规则匹配但类别与过滤规则中的分类规则不匹配的WEB页面,实现更加有针对性地过滤。
在一种可能的设计中,在所述对抓取的所述WEB页面进行过滤之后,所述方法还包括:根据预设的抽取逻辑,抽取过滤后的WEB页面的领域对象。在发明实施例中,过滤规则集中的每一条过滤规则还可包括预设的抽取逻辑;匹配不同的过滤规则,执行不同的抽取逻辑,如此保证抽取逻辑随着过滤规则的变化而变化,实现更加灵活的抽取逻辑。本实现方式可应用于领域知识库的构建,抽取的各种WEB页面中的领域对象可整合到一起,组成领域知识库。
第二方面,提供一种数据处理的设备,该数据处理的设备具有实现上述第一方面中数据处理的设备行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,数据处理的设备的结构中包括处理器和存储器,所述存储器用于存储支持数据处理的设备执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述数据处理的设备还可以包括通信接口,用于数据处理的设备与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种非临时性计算机存储介质,用于存储执行上述方面为数据处理的设备所设计的程序,所述程序包括上述数据处理的设备所用的计算机软件指令。
本发明实施例提供的数据处理方法和设备,通过在过滤规则集的过滤规则中引入分类规则,利用分类规则来对WEB页面进行过滤,如此,能够有效过滤无关的页面,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据处理的方法的流程图;
图2是本发明实施例提供的另一种数据处理的方法的流程图;
图3是本发明实施例提供的数据处理的设备的结构框图;
图4是本发明实施例提供的数据处理的设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供的数据处理方法和设备,可用于领域知识库建立过程中的数据(例如领域知识对象)采集。所述领域知识库是指一个特定领域的知识库,例如手机领域的知识库,冰箱领域的知识库等;以手机领域为例,领域知识对象可以为手机详情,例如手机的配置、型号、厂商等内容。
本发明实施例提供的数据处理方法可涉及到终端和服务器之间的交互。所述服务器可以为WEB网站的服务器,上面存储有供采集的各种数据;所述终端可以为各种不同类型的终端,例如个人电脑(PC)、手机、ipad、服务器、大型数据分析平台等。在进行交互的过程中,终端会向存储有供采集的各种数据的目标服务器发送请求,所述目标服务器在接收到该请求后进而向所述终端反馈相应的数据。在此交互过程中,所述终端和所述服务器之间可能会存在一或多个中间网络装置,经由所述一或多个中间网络装置来完成所述终端和所述服务器的交互。
在进行数据处理的过程中,会涉及到数据的抓取、过滤和抽取过程。而在进行数据处理之前,还需要进行领域对象抽取逻辑的定制。这样,在抽取过程中会利用领域对象抽取逻辑来抽取相应的数据。
本发明实施例中的抓取、过滤和抽取过程可以由本发明实施例提供的数据处理的设备中的抓取模块、过滤模块和抽取模块来完成。其中,抓取模块、过滤模块和抽取模块可分别作为独立的模块位于一个独立的数据处理设备(可以为上文提到的终端)中。当然,在本发明的范围内,数据处理的过程也可以由相互独立的各个不同装置来完成。即,抓取模块可对应于一个独立的装置,过滤模块可对应于一个独立的装置,抽取模块也可对应于一个独立的装置。这三个独立的装置可分布于不同的地理位置,它们相互配合来完成数据的采集。也就是说,在本发明实施例中可以由三个终端分别发挥数据过滤、过滤和抽取的作用,它们一起配合来完成数据的采集过程。
在本发明实施例中,数据的抓取过程可以为,利用爬虫从指定的目标网站周期性地获取WEB页面,直至满足一定的停止条件,所述停止条件可以为例如遍历完目标网站的所有URL。
过滤过程可以为,过滤掉跟本领域不相关的WEB页面,只留下与本领域相关的WEB页面进行后续处理。比如说要构建手机知识库,但是爬虫获取的WEB页面会包括京东的家纺类的页面、天猫服装类的页面或者广告等与手机不相关的页面,因此在构建手机知识库时,需要将这些页面过滤掉。
领域对象自动抽取过程可以为,根据预先定制的领域对象抽取逻辑,对获得的与目标领域相关的WEB页面内容进行抽取,以得到目标领域的知识对象。
本发明实施例提供一种数据处理的方法,能够有效过滤与领域知识库构建无关的页面。
图1是本发明实施例提供的一种数据处理的方法的流程图。参见图1,本发明实施例提供的数据处理的方法可包括:
11、抓取目标网站的WEB页面。
其中,所述目标网站为数据抓取操作所针对的网站。所述目标网站可由用户预先设置。
所述目标网站可以是一个或多个初始网页,例如所述目标网站可为www.douban.com,又例如所述目标网站可为www.jd.com。又例如,所述目标网站可为www.douban.com和www.jd.com等。以目标网站为www.jd.com为例,步骤11中会抓取京东网站下的所有WEB页面,例如可包括京东网站中涉及手机的WEB页面,涉及服装的WEB页面,涉及图书的WEB页面等等。
12、基于过滤规则集,对抓取的所述WEB页面进行过滤,其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则,所述分类规则指示与网站类别有关的信息。
其中,举例而言,当所述目标网站为www.jd.com时,所述过滤规则集中可以包括一或多条过滤规则,满足所述一或多条过滤规则的WEB页面保留,而不满足所述一或多条过滤规则的WEB页面可以丢弃。所述过滤规则集中的过滤规则的数量可以根据需要来设置,例如当只需要京东网站中涉及手机的WEB页面时,可以只设置一条过滤规则;当需要京东网站中涉及手机和图书的WEB页面时,可以设置两条过滤规则,例如针对涉及手机的WEB页面设置一条过滤规则,针对涉及图书的WEB页面设置一条过滤规则。当目标网站为www.douban.com和www.jd.com时,同样地可以设置一或多条过滤规则,例如针对一个网站设置一条过滤规则,或者针对一个网站设置多条规则等。
其中,所述分类规则可指示与网站类别有关的信息。在步骤11中所述抓取目标网站的WEB页面之后,本发明实施例提供的数据处理的方法还可包括:解析所述WEB页面的面包屑信息以获取所述WEB页面的类别。亦即,本发明实施例可通过解析WEB页面的面包屑信息这种特定方式来获取WEB页面的类别。在获取到WEB页面的类别之后,即可利用该类别与分类规则进行匹配,以确定是否满足分类规则。
本发明实施例提供的数据处理方法,通过在过滤规则集的过滤规则中引入分类规则,利用分类规则来对WEB页面进行过滤,如此,能够有效过滤无关的页面,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
需要说明的是,上述实施例提供的数据处理的方法可以应用于领域知识库构建过程中的领域对象的采集。当进行领域对象的采集时,过滤规则集中的每一条过滤规则可为涉及具体领域(例如,手机、图书等)的过滤规则。相应地,本发明实施例提供的数据处理的方法在步骤12之后,还可包括抽取过滤后的WEB页面的领域对象。以手机领域为例,过滤后的WEB页面可以为涉及手机的WEB页面,此时,过滤后的WEB页面上的领域对象可以为手机详情,例如手机的配置、型号、厂商等内容。
下面对步骤12中所述基于过滤规则集,对抓取的所述WEB页面进行过滤进行详细阐释。
在本发明实施例中,除了分类规则之外,过滤规则集中的所述过滤规则中还可包括URL规则。相应地,步骤12中所述基于过滤规则集,对抓取的所述WEB页面进行过滤可包括:
确定所述WEB页面的URL与所述过滤规则集中的一条或多条过滤规则中的URL规则匹配;
根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤。
本发明实施例提供的数据处理的方法可先进行URL规则匹配,进而再从URL匹配一条或多条过滤规则中的URL规则的那些WEB页面中,基于分类规则进行WEB页面过滤。如此,可以实现更加有针对性地进行数据过滤。
在本发明实施例中,所述一条或多条过滤规则中的分类规则可存在以下情形:对WEB页面的类别无要求,即所有类别均满足分类规则;对WEB页面的类别有要求,即只有某一类别才满足分类规则。
在一种可能的情形中,所述一条或多条过滤规则中的分类规则对WEB页面的类别无要求。此时,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤可包括:确定所述一条或多条过滤规则中的分类规则对WEB页面的类别无要求;保留所述WEB页面。
在对WEB页面的类别无要求的情形中,同样可以基于过滤规则中的URL规则来实现对抓取的所述WEB页面进行过滤。
在另一种可能的情形中,所述一条或多条过滤规则中的分类规则对WEB页面的类别有要求。此时,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤可包括:确定所述WEB页面的类别与所述一条或多条过滤规则中至少一条过滤规则的分类规则匹配,保留抓取的所述WEB页面;或者,确定所述WEB页面的类别与所述一条或多条过滤规则中的分类规则都不匹配,丢弃抓取的所述WEB页面。
图2是本发明实施例提供的一种数据处理的方法的流程图。参见图2,本发明实施例提供的数据处理的方法可包括:
21、抓取目标网站的WEB页面。
22、判断所述WEB页面的URL与预先配置的过滤规则中的所述URL规则是否匹配。其中,所述过滤规则为过滤规则集中的过滤规则。
23、在所述WEB页面的URL与所述URL规则不匹配时,丢弃抓取的所述WEB页面。
24、在所述WEB页面的URL与所述URL规则匹配时,判断所述目标网站的分类规则是否指示对类别无要求。
25、在所述目标网站的分类规则为指示对类别无要求时,则保留所述WEB页面。
26、在所述目标网站的分类规则不是对类别无要求时,获取所述WEB页面的类别。
其中,可通过解析所述WEB页面的面包屑信息来获取所述WEB页面的类别。具体地,一般网站的面包屑信息都将呈现当前WEB页面的分类信息(类别)。比如电商网站中,商品的详情页面URL可能是类似的(不同商品的URL差异在于商品ID不同,例如京东网站的网页http://item.jd.com/1861095.html,数字标号1861095代表一个商品,另外一个数字标号可能代表另外一个商品),商品详情页面的面包屑将包含本商品的真实分类信息,不同商品对象由于本身所属领域不同其面包屑导航信息也可能不相同。
比如京东网站的商品详情的面包屑导航信息中可包括详细的当前商品对象的分类信息归属(类别),例如手机/手机通讯/手机/小米(MI)/小米红米2A增强版。
对于不同网站的WEB页面,面包屑信息都有其网站相对固定的表示方法,比如采用特定html div进行标识,例如京东的面包屑信息采用div id="root-nav"、亚马逊的面包屑采用div id="wayfinding-breadcrumbs_container"等。
可以通过配置相关WEB网站的div id或其他可以获得面包屑的html特征标识实现自动获得相关WEB网站页面的面包屑信息,进而获得当前页面的分类信息(类别)。
27、确定所述WEB页面的类别是否匹配所述过滤规则中所述目标网站的分类规则。
28、若匹配,则保留抓取的所述WEB页面。
29、若不匹配,则丢弃抓取的所述WEB页面。
其中,在步骤21之前,可预先配置目标网站,目标网站例如可以为豆瓣、京东等。同时,在步骤21之前,可先完成过滤规则的配置以及领域对象抽取逻辑的定制,这样便可以对过滤后保留的WEB页面使用定制的领域对象抽取逻辑进行抽取,获得目标领域的知识对象。
本发明实施例提供的数据处理方法,通过在过滤规则中引入了目标网站的分类规则,并通过匹配抓取的WEB页面的类别与目标网站的分类规则来进行过滤,如此,增强和完善了WEB页面的过滤,实现了在领域知识库构建过程中更加有针对性地进行数据处理。
下面以举例的方式来对过滤匹配的过程进行进一步说明。
在本发明实施例中,在对WEB页面进行过滤匹配之前,可先建立过滤规则集。在一种可能的实现方式中,所述过滤规则集是针对所有网站而言的。通过一定的权限控制,用户可以根据自己的需要增加或删除过滤规则集中的过滤规则。举例而言,用户可预先配置过滤规则集,当中有涉及各个不同目标网站的过滤规则,例如包含天猫、京东、苏宁易购等目标网站。当用户想增加当当网站时,可将目标网站为当当的过滤规则添加到过滤规则集中。而当用户不想要目标网站为苏宁易购的过滤规则时,也可以将目标网站为苏宁易购的过滤规则移除出过滤规则集。
作为一种示例,过滤规则集中的过滤规则可如下表一所示:
表一
需了解的是,上面过滤规则集中的过滤规则是示例性的,而非限制性的。在本发明中,用户可根据自身的需求来增加或减少过滤规则集中过滤规则的数目和内容。
在本发明实施例中,通过配置WEB页面过滤规则集中的过滤规则可以自动对抓取的WEB页面进行过滤。
下文中以用户选择目标网站是京东、采集京东手机领域的数据为例来进行描述。
在进行数据处理时可通过爬虫来抓取京东网站的各种WEB页面。数据的抓取过程可以为,利用爬虫从指定的目标网站周期性地获取WEB页面,直至满足一定的停止条件,所述停止条件可以为例如遍历完目标网站的所有URL。因而,进行数据抓取之后,可得到各种不同的WEB页面。抓取过来的WEB页面的范例可如下表二所示:
表二
京东的所有商品详情页WEB URL规则为http://item.jd.com/{商品id}.html。因而,对于京东网站,单单从URL的规则是无法有效区分不同的产品,例如根据URL无法将电子类产品(表二的第二栏)和图书类产品(表二的第三栏)区分开,进而无法进行有效过滤。而采用本发明实施例提供的方法可实现有效过滤。
在本发明实施例中,在获取到京东的WEB页面后,可先判断所述WEB页面的URL与预先配置的过滤规则中的URL规则是否匹配;当匹配时,需要进一步确定该WEB页面的类别是否与相应的过滤规则的分类规则匹配,只有同时匹配过滤规则集中的某个过滤规则的URL规则和分类规则时,该WEB页面才算匹配这条过滤规则,并执行该过滤规则对应的处理逻辑。对于无法匹配过滤规则集中的任一条过滤规则的WEB页面可以执行预设的处理逻辑,例如丢弃该WEB页面。
如上表二第四栏所示,当获取到的京东的WEB页面的URL为
channel.jd.com/*,其中*表示通配符,后面可以是任何字符。此时,该WEB页面的URL匹配表一中的第4个过滤规则的URL规则,且第4个过滤规则的分类规则为NA(不考虑分类规则),因此该WEB页面匹配表一中的第4个过滤规则,从而执行相应的处理逻辑,即丢弃该WEB页面。
如上表二第二栏所示,当获取到的京东的WEB页面的URL为
http://item.jd.com/1861095.html时,可以确定该WEB页面的URL与表一中的第2和第3个过滤规则中的URL规则(item.jd.com/*.html)匹配。此时,若按照现有技术,则无法实现对此WEB页面的过滤。而在本发明实施例中,为了确定对该WEB页面执行什么处理逻辑,需要进一步确定该WEB页面的类别是否与相应的过滤规则的分类规则匹配。此时,需要进一步获取过滤规则中的分类规则,判断该分类规则是否指示对类别无要求。显然,由上表一可知,第2和第3个过滤规则中的分类规则对类别都有要求。此时,需要获取抓取的WEB页面的类别。例如,通过解析所述WEB页面的面包屑信息来获取所述WEB页面的类别。由于抓取的WEB页面http://item.jd.com/1861095.html的类别为,手机/手机通讯/手机/APPLE/Apple iPhone 6s Plus,匹配京东过滤规则中的分类规则(
手机/手机通讯/手机),即抓取的WEB页面http://item.jd.com/1861095.html匹配表一中的第2条过滤规则。因而,执行相应的处理逻辑,即保留抓取的所述WEB页面http://item.jd.com/1861095.html。可选的,并根据预设的抽取逻辑抽取该页面中的手机详情。
需要说明的是,本发明实施例不限定目标网站的数量,例如,当需要构建图书领域的知识库时,用户可以同时设定豆瓣和京东作为目标网站。
本发明实施例提供的数据处理的方法,基于过滤规则集中过滤规则中的分类规则来进行数据处理,能够实现更加自动化的领域知识库构建。
图3是本发明实施例提供的数据处理的设备的结构框图。参照图3,本发明实施例提供的数据处理的设备300包括抓取模块301和过滤模块302。其中:
所述抓取模块301,用于抓取目标网站的WEB页面;
所述过滤模块302,用于基于过滤规则集,对抓取的所述WEB页面进行过滤,其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则,所述分类规则指示与网站类别有关的信息。
本发明实施例提供的数据处理的设备,通过在过滤规则集的过滤规则中引入分类规则,利用分类规则来对WEB页面进行过滤,如此,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
可选地,在一个实施例中,所述设备300还包括解析模块303,用于在所述抓取目标网站的WEB页面之后,解析所述抓取模块301抓取的所述WEB页面的面包屑信息,以获取所述WEB页面的类别。
可选地,在另一个实施例中,所述过滤规则中还包括URL规则,所述过滤模块302具体用于:
确定所述WEB页面的URL与所述过滤规则集中的一条或多条过滤规则中的URL规则匹配,根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤。
其中,在所述一条或多条过滤规则中的分类规则对WEB页面的类别无要求时,所述过滤模块302可具体用于:
确定所述一条或多条过滤规则中的分类规则指示对WEB页面的类别无要求;
保留所述WEB页面。
其中,在所述一条或多条过滤规则中的分类规则对WEB页面的类别有要求时,所述过滤模块302可具体用于:
确定所述WEB页面的类别匹配所述一条或多条过滤规则中至少一条过滤规则的的分类规则,保留抓取的所述WEB页面;
或者,
确定所述WEB页面的类别与所述一条或多条过滤规则中的分类规则都不匹配,丢弃抓取的所述WEB页面。
可选地,在另一个实施例中,所述设备300还包括抽取模块304,用于抽取所述过滤模块过滤后的WEB页面中的领域对象。
本发明实施例提供的数据处理设备,通过在过滤规则集的过滤规则中引入分类规则,利用分类规则来对WEB页面进行过滤,如此,能够有效过滤无关的页面,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
图4是本发明实施例提供的一种数据处理设备的结构示意图。参照图4,本发明实施例提供的数据处理的装置400包括:至少一个处理器401、存储器402、通信接口403和总线。处理器401、存储器402和通信接口403通过总线连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry StandardArchitecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中:
存储器402用于存储可执行程序代码,该程序代码包括计算机操作指令。存储器402可以为高速RAM存储器,也可能为非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
在一个实施例中,处理器401通过读取存储器402中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:
抓取目标网站的WEB页面;
基于所述目标网站的过滤规则集,对抓取的所述WEB页面进行过滤,其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则。
本发明实施例提供的数据处理的装置,通过在过滤规则集的过滤规则中引入分类规则,利用分类规则来对WEB页面进行过滤,如此,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
其中,所述过滤规则中还包括URL规则;所述基于所述目标网站的过滤规则集,对抓取的所述WEB页面进行过滤可包括:确定所述WEB页面的URL与所述过滤规则集中的一条或多条过滤规则中的URL规则匹配;根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤。
可选地,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤包括:确定所述一条或多条过滤规则中的分类规则对WEB页面的类别无要求;保留所述WEB页面。
可选地,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤包括:确定所述WEB页面的类别与所述一条或多条过滤规则中至少一条过滤规则的分类规则匹配,保留抓取的所述WEB页面;或者,确定所述WEB页面的类别与所述一条或多条过滤规则中的分类规则都不匹配,丢弃抓取的所述WEB页面。
在一个实施例中,所述分类规则指示与类别有关的信息,处理器401通过读取存储器402中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:解析所述WEB页面的面包屑信息以获取所述WEB页面的类别。
在一个实施例中,所述分类规则指示与类别有关的信息,处理器401通过读取存储器402中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:抽取过滤后的WEB页面的领域对象。
本发明实施例提供的数据处理设备,通过在过滤规则集的过滤规则中引入分类规则,利用分类规则来对WEB页面进行过滤,如此,能够有效过滤无关的页面,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
需要说明的是:上述实施例提供的数据处理的设备仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据处理的设备与数据处理的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种计算机存储介质,用于储存实现上述图4所示的数据处理设备的计算机软件指令,其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序,能够有效过滤无关的页面,增强和完善了WEB页面的过滤,实现了更加有针对性地进行数据处理。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (13)
1.一种数据处理的方法,其特征在于,所述方法包括:
抓取目标网站的WEB页面;
基于过滤规则集,对抓取的所述WEB页面进行过滤;其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则,所述分类规则指示与网站类别有关的信息。
2.根据权利要求1所述的方法,其特征在于,在所述抓取目标网站的WEB页面之后,所述方法还包括:
解析所述WEB页面的面包屑信息以获取所述WEB页面的类别。
3.根据权利要求2所述的方法,其特征在于,所述每一条过滤规则中还包括URL规则;所述基于过滤规则集,对抓取的所述WEB页面进行过滤包括:
确定所述WEB页面的URL与所述过滤规则集中的一条或多条过滤规则中的URL规则匹配;
根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤。
4.根据权利要求3所述的方法,其特征在于,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤包括:
确定所述一条或多条过滤规则中的分类规则对WEB页面的类别无要求;
保留所述WEB页面。
5.根据权利要求3所述的方法,其特征在于,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤包括:
确定所述WEB页面的类别与所述一条或多条过滤规则中至少一条过滤规则的分类规则匹配,保留抓取的所述WEB页面;或
确定所述WEB页面的类别与所述一条或多条过滤规则中的分类规则都不匹配,丢弃抓取的所述WEB页面。
6.根据权利要求1-5任一所述的方法,其特征在于,在所述对抓取的所述WEB页面进行过滤之后,所述方法还包括:
根据预设的抽取逻辑,抽取过滤后的WEB页面的领域对象。
7.一种数据处理的设备,其特征在于,所述设备包括:
抓取模块,用于抓取目标网站的WEB页面;
过滤模块,用于基于过滤规则集,对所述抓取模块抓取的所述WEB页面进行过滤,其中,所述过滤规则集中的每一条过滤规则包含分类规则,所述分类规则指示与网站类别有关的信息。
8.根据权利要求7所述的设备,其特征在于,所述分类规则指示与类别有关的信息,在所述抓取目标网站的WEB页面之后,所述设备还包括:
解析模块,用于解析所述抓取模块抓取的所述WEB页面的面包屑信息,以获取所述WEB页面的类别。
9.根据权利要求8所述的设备,其特征在于,所述过滤规则中还包括URL规则,所述过滤模块具体用于:
确定所述WEB页面的URL与所述过滤规则集中的一条或多条过滤规则中的URL规则匹配,根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤。
10.根据权利要求9所述的设备,其特征在于,所述过滤模块具体用于:
确定所述一条或多条过滤规则中的分类规则指示对WEB页面的类别无要求;
保留所述WEB页面。
11.根据权利要求9所述的设备,其特征在于,所述过滤模块具体用于:
确定所述WEB页面的类别匹配所述一条或多条过滤规则中至少一条过滤规则的的分类规则,保留抓取的所述WEB页面;
或者,
确定所述WEB页面的类别与所述一条或多条过滤规则中的分类规则都不匹配,丢弃抓取的所述WEB页面。
12.根据权利要求7-11任一所述的设备,其特征在于,所述设备还包括;
抽取模块,用于根据预设的抽取逻辑,抽取所述过滤模块过滤后的WEB页面中的领域对象。
13.一种数据处理的设备,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有计算机指令,当所述处理器执行所述计算机指令时,执行如权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051336.XA CN106997363A (zh) | 2016-01-26 | 2016-01-26 | 一种数据处理方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051336.XA CN106997363A (zh) | 2016-01-26 | 2016-01-26 | 一种数据处理方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106997363A true CN106997363A (zh) | 2017-08-01 |
Family
ID=59428715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610051336.XA Pending CN106997363A (zh) | 2016-01-26 | 2016-01-26 | 一种数据处理方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106997363A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526842A (zh) * | 2017-09-22 | 2017-12-29 | 深圳互联先锋科技有限公司 | 一种批量监控多个网站页面方法及装置 |
CN109688205A (zh) * | 2018-12-07 | 2019-04-26 | 麒麟合盛网络技术股份有限公司 | 网页资源的拦截方法及装置 |
CN113127495A (zh) * | 2019-12-31 | 2021-07-16 | 深圳云天励飞技术有限公司 | 一种数据库的更新方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192234A (zh) * | 2007-06-07 | 2008-06-04 | 腾讯科技(深圳)有限公司 | 一种基于网页抽取的搜索系统及搜索方法 |
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN102480437A (zh) * | 2010-11-23 | 2012-05-30 | 中兴通讯股份有限公司 | 一种对家庭网关上网数据进行控制的方法及装置 |
CN102857493A (zh) * | 2012-06-30 | 2013-01-02 | 华为技术有限公司 | 内容过滤方法和装置 |
CN103377225A (zh) * | 2012-04-25 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 知识库系统的构建方法和设备 |
CN103455524A (zh) * | 2012-06-05 | 2013-12-18 | 北京搜狗信息服务有限公司 | 展现和获取词条信息的方法和装置 |
CN103593354A (zh) * | 2012-08-15 | 2014-02-19 | 腾讯科技(深圳)有限公司 | 一种过滤网络页面广告的方法、装置、服务器及系统 |
CN104158828A (zh) * | 2014-09-05 | 2014-11-19 | 北京奇虎科技有限公司 | 基于云端内容规则库识别可疑钓鱼网页的方法及系统 |
CN105117434A (zh) * | 2015-08-07 | 2015-12-02 | 北京品友互动信息技术有限公司 | 一种网页分类方法和系统 |
-
2016
- 2016-01-26 CN CN201610051336.XA patent/CN106997363A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192234A (zh) * | 2007-06-07 | 2008-06-04 | 腾讯科技(深圳)有限公司 | 一种基于网页抽取的搜索系统及搜索方法 |
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN102480437A (zh) * | 2010-11-23 | 2012-05-30 | 中兴通讯股份有限公司 | 一种对家庭网关上网数据进行控制的方法及装置 |
CN103377225A (zh) * | 2012-04-25 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 知识库系统的构建方法和设备 |
CN103455524A (zh) * | 2012-06-05 | 2013-12-18 | 北京搜狗信息服务有限公司 | 展现和获取词条信息的方法和装置 |
CN102857493A (zh) * | 2012-06-30 | 2013-01-02 | 华为技术有限公司 | 内容过滤方法和装置 |
CN103593354A (zh) * | 2012-08-15 | 2014-02-19 | 腾讯科技(深圳)有限公司 | 一种过滤网络页面广告的方法、装置、服务器及系统 |
CN104158828A (zh) * | 2014-09-05 | 2014-11-19 | 北京奇虎科技有限公司 | 基于云端内容规则库识别可疑钓鱼网页的方法及系统 |
CN105117434A (zh) * | 2015-08-07 | 2015-12-02 | 北京品友互动信息技术有限公司 | 一种网页分类方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526842A (zh) * | 2017-09-22 | 2017-12-29 | 深圳互联先锋科技有限公司 | 一种批量监控多个网站页面方法及装置 |
CN109688205A (zh) * | 2018-12-07 | 2019-04-26 | 麒麟合盛网络技术股份有限公司 | 网页资源的拦截方法及装置 |
CN113127495A (zh) * | 2019-12-31 | 2021-07-16 | 深圳云天励飞技术有限公司 | 一种数据库的更新方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170368683A1 (en) | User portrait based skill package recommendation device and method | |
RU2014135221A (ru) | Способ, система и устройство для фильтрации рекламных объявлений веб-страниц на мобильном терминале | |
CN105653537B (zh) | 一种数据库应用系统的分页查询方法和装置 | |
CN103714119B (zh) | 一种浏览器数据的处理方法和装置 | |
CN104090929A (zh) | 一种个性化图片推荐方法及装置 | |
CN106301825B (zh) | Dpi规则的生成方法及装置 | |
WO2015081792A1 (zh) | 联动性和个性化扩展搜索方法及装置、系统 | |
CN108063725B (zh) | 一种消息推送方法 | |
US20160253295A1 (en) | Method, device, terminal and computer storage medium for realizing intelligent reading of a browser | |
CN110012049B (zh) | 信息推送方法. 系统. 服务器及计算机可读存储介质 | |
CN106997363A (zh) | 一种数据处理方法和设备 | |
CN110347882A (zh) | 数据的血缘分析方法及装置、存储介质和电子装置 | |
CN103246744A (zh) | 一种搜索方法及装置 | |
CN110321107A (zh) | 数据处理模块的生成方法和服务器 | |
CN110535974A (zh) | 待投放资源的推送方法、推送装置、设备及存储介质 | |
CN104967698B (zh) | 一种爬取网络数据的方法和装置 | |
CN103546551B (zh) | 应用软件智能下载方法、装置和系统 | |
CN105183763A (zh) | 一种搜索结果页的背景实现方法和装置 | |
CN103744944A (zh) | 网络爬虫在抓取网页或数据时再过滤的方法 | |
EP2983090A1 (en) | Information terminal, access system, information processing method, and program | |
CN103064943B (zh) | 一种客户端设备 | |
CN105721392A (zh) | 一种推荐应用的方法、装置及系统 | |
CN108063811B (zh) | 智能设备入网跟踪方法及部件 | |
CN110275974A (zh) | 样本数据集的数据添加方法、装置、终端设备及存储介质 | |
CN105956050B (zh) | 一种数据收集方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170801 |
|
RJ01 | Rejection of invention patent application after publication |