CN108073589B - 网页页面元素的获取方法及装置 - Google Patents

网页页面元素的获取方法及装置 Download PDF

Info

Publication number
CN108073589B
CN108073589B CN201610987293.6A CN201610987293A CN108073589B CN 108073589 B CN108073589 B CN 108073589B CN 201610987293 A CN201610987293 A CN 201610987293A CN 108073589 B CN108073589 B CN 108073589B
Authority
CN
China
Prior art keywords
target
webpage
acquiring
analysis results
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610987293.6A
Other languages
English (en)
Other versions
CN108073589A (zh
Inventor
吕现彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610987293.6A priority Critical patent/CN108073589B/zh
Publication of CN108073589A publication Critical patent/CN108073589A/zh
Application granted granted Critical
Publication of CN108073589B publication Critical patent/CN108073589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页页面元素的获取方法及装置。该方法包括:从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素;确定每个目标网页的类别;获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式;根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页;以及从多个解析结果中获取待解析网页的目标页面元素。通过本申请,解决了相关技术中解析出目标页面元素的准确性较低的问题。

Description

网页页面元素的获取方法及装置
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种网页页面元素的获取方法及装置。
背景技术
通常,在批量获取网络信息时,一般使用爬虫技术来爬取大量的网页,然后再对爬取到的页面进行解析。而在对一个网站的内容页面(文字、视频、新闻等)进行定制化解析时,常常需要获得一些特定的元素,例如:发布时间、评论数、点赞数、阅读数等等,在这过程中可以使用XML路径语言(XML Path Language,简称为Xpath)来对这些特定的元素在页面上定位。
这种解析的方式可能由于同一网站下存在多种页面而导致元素解析不出来或元素解析冲突,也即,同一路径表达式在一个页面上可以正常解析,但在另一个页面上解析不正常,得到的结果为空,或者获取到其它不相关元素。对于获取到其它不相关元素的情况,当这些页面十分相似的时候,一个路径表达式在多个页面上都可以解析出来一些元素,但这些元素多数为不需要的元素;或者,针对同一元素的多个路径表达式在同一页面上都可以解析到,但不能确定哪个路径表达式解析出来的元素是目标页面元素(用户所需要的元素)。也即,由于爬虫对网站进行爬取的时候无法知晓爬取到的页面应该对应哪一种路径表达式,因此对不知类型的爬取到的页面进行解析目标页面元素,导致解析出目标页面元素的准确性较低。
针对相关技术中解析出目标页面元素的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页页面元素的获取方法及装置,以解决相关技术中解析出目标页面元素的准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网页页面元素的获取方法。该方法包括:从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素;确定每个目标网页的类别;获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式;根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页;以及从多个解析结果中获取待解析网页的目标页面元素。
进一步地,从多个解析结果中获取待解析网页的目标页面元素包括:获取与目标页面元素的格式相匹配的正则表达式;采用与目标页面元素的格式相匹配的正则表达式在多个解析结果中进行逐一匹配;将匹配出的解析结果作为目标页面元素。
进一步地,目标页面元素为时间元素,从多个解析结果中获取待解析网页的目标页面元素包括:对多个解析结果以字符串的形式进行拼接,得到拼接后的解析结果;获取与时间元素的格式相匹配的正则表达式;采用与时间元素的格式相匹配的正则表达式在拼接后的解析结果中进行逐一匹配;将匹配出的解析结果作为待解析网页的时间元素。
进一步地,根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果包括:确定每个路径表达式对应的目标页面元素的解析标记;分别根据路径表达式集合中每条路径表达式对目标网页进行解析,得到多条携带解析标记的解析结果。
进一步地,从多个解析结果中获取待解析网页的目标页面元素包括:对多条携带解析标记的解析结果进行合并,得到合并后的解析结果;以及按照预设规则从合并后的解析结果中获取待解析网页的目标页面元素。
为了实现上述目的,根据本申请的另一方面,提供了一种网页页面元素的获取装置。该装置包括:第一获取单元,用于从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素;确定单元,用于确定每个目标网页的类别;第二获取单元,用于获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式;解析单元,用于根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页;以及第三获取单元,用于从多个解析结果中获取待解析网页的目标页面元素。
进一步地,第三获取单元包括:第一获取模块,用于获取与目标页面元素的格式相匹配的正则表达式;第一匹配模块,用于采用与目标页面元素的格式相匹配的正则表达式在多个解析结果中进行逐一匹配;以及第一确定模块,用于将匹配出的解析结果作为目标页面元素。
进一步地,目标页面元素为时间元素,第三获取单元包括:拼接模块,用于对多个解析结果以字符串的形式进行拼接,得到拼接后的解析结果;第二获取模块,用于获取与时间元素的格式相匹配的正则表达式;第二匹配模块,用于采用与时间元素的格式相匹配的正则表达式在拼接后的解析结果中进行逐一匹配;以及第二确定模块,用于将匹配出的解析结果作为待解析网页的时间元素。
进一步地,解析单元包括:第三确定模块,用于确定每个路径表达式对应的目标页面元素的解析标记;以及解析模块,用于分别根据路径表达式集合中每条路径表达式对目标网页进行解析,得到多条携带解析标记的解析结果。
进一步地,第三获取单元包括:合并模块,用于对多条携带解析标记的解析结果进行合并,得到合并后的解析结果;以及第三获取模块,用于按照预设规则从合并后的解析结果中获取待解析网页的目标页面元素。
通过本申请,采用以下步骤:从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素;确定每个目标网页的类别;获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式;根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页;以及从多个解析结果中获取待解析网页的目标页面元素,解决了相关技术中解析出目标页面元素的准确性较低的问题,由于根据所有目标网页的类别下对应的路径表达式对待解析网页进行解析,得到多个解析结果,然后从多个解析结果中获取待解析网页的目标页面元素,进而达到了提升解析目标页面元素的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的网页页面元素的获取方法的流程图;以及
图2是根据本申请实施例提供的网页页面元素的获取装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
Xpath,即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。Xpath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和常规的电脑文件系统中看到的表达式相似。
根据本申请的实施例,提供了一种网页页面元素的获取方法。
图1是根据本申请实施例的网页页面元素的获取方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素。
从同一信源(目标网站)下获取多个包含目标页面元素的目标网页。
步骤S102,确定每个目标网页的类别。
由于不同的网页可能对应不同的页面类别,在此步骤中,确定每个包含目标页面元素的目标网页的类别。例如,目标网站下页面的类别有A、B、C三种,目标网页A对应的网页类别为A类别,目标网页B对应的网页类别为B类别,目标网页C对应的网页类别为C类别。
步骤S103,获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式。
例如,在A类别下目标页面元素(例如,标识为AIM)的Xpath(即上述提及的路径表达式)有一种,XpathA,在B类别下目标页面元素的Xpath有两种,如XpathB1、XpathB2,在C类别下目标页面元素的Xpath有三种,如XpathC1、XpathC2、XpathC3,那么,Xpath路径表达式集合包括:XpathA、XpathB1、XpathB2、XpathC1、XpathC2和XpathC3。
步骤S104,根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页。
根据用户的业务需求从目标网站上爬取到的网页为待解析网页,由于不知道待解析网页对应的类别,在本申请中,根据路径表达式集合中每条路径表达式对待解析网页进行解析。其中,路径表达为目标页面元素在目标网页的类别下对应的路径表达式。因此,根据所有包含目标页面元素的路径表达式对待解析网页进行解析,保证了对待解析网页进行解析的准确性。
可选地,在本申请实施例提供的网页页面元素的获取方法中,根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果包括:确定每个路径表达式对应的目标页面元素的解析标记;分别根据路径表达式集合中每条路径表达式对目标网页进行解析,得到多条携带解析标记的解析结果。
例如,在A类别下目标页面元素(例如,符号为AIM)的Xpath有一种,XpathA,目标页面元素在A类别的A网页下进行解析,得到解析结果为:AIM1=XpathA(A);在B类别下目标页面元素的Xpath有两种,如XpathB1、XpathB2,目标页面元素在B类别的B网页下进行解析,得到解析结果为:AIM2=XpathB1(B),AIM3=XpathB2(B);在C类别下目标页面元素的Xpath有三种,如XpathC1、XpathC2、XpathC3,目标页面元素在C类别的C网页下进行解析,得到解析结果为:AIM4=XpathC1(C),AIM5=XpathC2(C),AIM6=XpathC3(C)。多条携带解析标记的解析结果包括:AIM1=XpathA(A)、AIM2=XpathB1(B)、AIM3=XpathB2(B)、AIM4=XpathC1(C)、AIM5=XpathC2(C)和AIM6=XpathC3(C)。
步骤S105,从多个解析结果中获取待解析网页的目标页面元素。
对多个解析结果进行分析,提取出待解析网页的目标页面元素。
可选地,在本申请实施例提供的网页页面元素的获取方法中,从多个解析结果中获取待解析网页的目标页面元素包括:对多条携带解析标记的解析结果进行合并,得到合并后的解析结果;以及按照预设规则从合并后的解析结果中获取待解析网页的目标页面元素。
例如,将多条携带解析标记的解析结果:AIM1=XpathA(A)、AIM2=XpathB1(B)、AIM3=XpathB2(B)、AIM4=XpathC1(C)、AIM5=XpathC2(C)和AIM6=XpathC3(C)进行合并,得到AIM=AIM1+AIM2+AIM3+AIM4+AIM5+AIM6,然后再按照预设规则从合并后的解析结果中获取待解析网页的目标页面元素。需要说明的是,预设规则可以为根据预设的正则表达式对合并后的解析结果进行匹配,也可以为其它预设条件,在本申请中不作限定。如果与合并后的解析结果匹配出匹配结果,将匹配结果即作为待解析网页的目标页面元素。
可选地,在本申请实施例提供的网页页面元素的获取方法中,从多个解析结果中获取待解析网页的目标页面元素包括:获取与目标页面元素的格式相匹配的正则表达式;采用与目标页面元素的格式相匹配的正则表达式在多个解析结果中进行逐一匹配;将匹配出的解析结果作为目标页面元素。
可选地,在本申请实施例提供的网页页面元素的获取方法中,目标页面元素为时间元素,从多个解析结果中获取待解析网页的目标页面元素包括:对多个解析结果以字符串的形式进行拼接,得到拼接后的解析结果;获取与时间元素的格式相匹配的正则表达式;采用与时间元素的格式相匹配的正则表达式在拼接后的解析结果中进行逐一匹配;将匹配出的解析结果作为待解析网页的时间元素。
目标页面元素为时间元素,将得到的多条携带解析标记的解析结果包括:TIME1=XpathA(A)、TIME2=XpathB1(B)、TIME3=XpathB2(B)、TIME4=XpathC1(C)、TIME5=XpathC2(C)和TIME6=XpathC3(C)进行合并,得到TIME=TIME1+TIME2+TIME3+TIME4+TIME5+TIME6,
例如,具体的,时间元素为日期时间,与时间元素的格式相匹配的正则表达式为:“4个数字-2个数字-2个数字空格2个数字:2个数字:2个数字”,采用正则表达式为:“4个数字-2个数字-2个数字空格2个数字:2个数字:2个数字从多个解析结果中进行逐一匹配,如果匹配到格式相同的解析结果,将该解析结果作为待解析网页的时间元素。也即提取出待解析网页的时间元素。
本申请实施例提供的网页页面元素的获取方法,通过从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素;确定每个目标网页的类别;获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式;根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页;以及从多个解析结果中获取待解析网页的目标页面元素,解决了相关技术中解析出目标页面元素的准确性较低的问题,由于根据所有目标网页的类别下对应的路径表达式对待解析网页进行解析,得到多个解析结果,然后从多个解析结果中获取待解析网页的目标页面元素,进而达到了提升解析目标页面元素的准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网页页面元素的获取装置,需要说明的是,本申请实施例的网页页面元素的获取装置可以用于执行本申请实施例所提供的用于网页页面元素的获取方法。以下对本申请实施例提供的网页页面元素的获取装置进行介绍。
图2是根据本申请实施例的网页页面元素的获取装置的示意图。如图2所示,该装置包括:第一获取单元10、确定单元20、第二获取单元30、解析单元40和第三获取单元50。
具体地,第一获取单元10,用于从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素。
确定单元20,用于确定每个目标网页的类别。
第二获取单元30,用于获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式。
解析单元40,用于根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页。
第三获取单元50,用于从多个解析结果中获取待解析网页的目标页面元素。
本申请实施例提供的网页页面元素的获取装置,通过第一获取单元10从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素;确定单元20确定每个目标网页的类别;第二获取单元30获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式;解析单元40根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页;以及第三获取单元50从多个解析结果中获取待解析网页的目标页面元素,解决了相关技术中解析出目标页面元素的准确性较低的问题。由于根据所有目标网页的类别下对应的路径表达式对待解析网页进行解析,得到多个解析结果,然后从多个解析结果中获取待解析网页的目标页面元素,进而达到了提升解析目标页面元素的准确性的效果。
可选地,在本申请实施例提供的网页页面元素的获取装置中,第三获取单元50包括:第一获取模块,用于获取与目标页面元素的格式相匹配的正则表达式;第一匹配模块,用于采用与目标页面元素的格式相匹配的正则表达式在多个解析结果中进行逐一匹配;以及第一确定模块,用于将匹配出的解析结果作为目标页面元素。
可选地,在本申请实施例提供的网页页面元素的获取装置中,目标页面元素为时间元素,第三获取单元50包括:拼接模块,用于对多个解析结果以字符串的形式进行拼接,得到拼接后的解析结果;第二获取模块,用于获取与时间元素的格式相匹配的正则表达式;第二匹配模块,用于采用与时间元素的格式相匹配的正则表达式在拼接后的解析结果中进行逐一匹配;以及第二确定模块,用于将匹配出的解析结果作为待解析网页的时间元素。
可选地,在本申请实施例提供的网页页面元素的获取装置中,解析单元40包括:第三确定模块,用于确定每个路径表达式对应的目标页面元素的解析标记;以及解析模块,用于分别根据路径表达式集合中每条路径表达式对目标网页进行解析,得到多条携带解析标记的解析结果。
可选地,在本申请实施例提供的网页页面元素的获取装置中,第三获取单元50包括:合并模块,用于对多条携带解析标记的解析结果进行合并,得到合并后的解析结果;以及第三获取模块,用于按照预设规则从合并后的解析结果中获取待解析网页的目标页面元素。
所述网页页面元素的获取装置包括处理器和存储器,上述第一获取单元10、确定单元20、第二获取单元30、解析单元40和第三获取单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设规则都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数获取网页的页面元素。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从目标网站中获取多个目标网页,其中,目标网页包含目标页面元素;确定每个目标网页的类别;获取目标页面元素在目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,路径表达式集合中包括多条路径表达式;根据路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,待解析网页是根据业务需求从目标网站上爬取到的网页;以及从多个解析结果中获取待解析网页的目标页面元素。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种网页页面元素的获取方法,其特征在于,包括:
从目标网站中获取多个目标网页,其中,所述目标网页包含目标页面元素;
确定每个所述目标网页的类别;
获取所述目标页面元素在所述目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,所述路径表达式集合中包括多条路径表达式;
根据所述路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,所述待解析网页是根据业务需求从所述目标网站上爬取到的网页;以及
从所述多个解析结果中获取所述待解析网页的目标页面元素;
其中,从所述多个解析结果中获取所述待解析网页的目标页面元素包括:
获取与所述目标页面元素的格式相匹配的正则表达式;
采用与所述目标页面元素的格式相匹配的正则表达式在所述多个解析结果中进行逐一匹配;以及
将匹配出的解析结果作为所述目标页面元素;
其中,所述目标页面元素为时间元素,从所述多个解析结果中获取所述待解析网页的目标页面元素包括:
对所述多个解析结果以字符串的形式进行拼接,得到拼接后的解析结果;
获取与所述时间元素的格式相匹配的正则表达式;
采用与所述时间元素的格式相匹配的正则表达式在所述拼接后的解析结果中进行逐一匹配;以及
将匹配出的解析结果作为所述待解析网页的时间元素。
2.根据权利要求1所述的方法,其特征在于,根据所述路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果包括:
确定每个路径表达式对应的目标页面元素的解析标记;以及
分别根据所述路径表达式集合中每条路径表达式对所述目标网页进行解析,得到多条携带所述解析标记的解析结果。
3.根据权利要求2所述的方法,其特征在于,从所述多个解析结果中获取所述待解析网页的目标页面元素包括:
对所述多条携带所述解析标记的解析结果进行合并,得到合并后的解析结果;以及
按照预设规则从所述合并后的解析结果中获取所述待解析网页的目标页面元素。
4.一种网页页面元素的获取装置,其特征在于,包括:
第一获取单元,用于从目标网站中获取多个目标网页,其中,所述目标网页包含目标页面元素;
确定单元,用于确定每个所述目标网页的类别;
第二获取单元,用于获取所述目标页面元素在所述目标网页的类别下对应的路径表达式,得到路径表达式集合,其中,所述路径表达式集合中包括多条路径表达式;
解析单元,用于根据所述路径表达式集合中每条路径表达式对待解析网页进行解析,得到多个解析结果,其中,所述待解析网页是根据业务需求从所述目标网站上爬取到的网页;以及
第三获取单元,用于从所述多个解析结果中获取所述待解析网页的目标页面元素;
其中,所述第三获取单元包括:
第一获取模块,用于获取与所述目标页面元素的格式相匹配的正则表达式;
第一匹配模块,用于采用与所述目标页面元素的格式相匹配的正则表达式在所述多个解析结果中进行逐一匹配;以及
第一确定模块,用于将匹配出的解析结果作为所述目标页面元素;
其中,所述目标页面元素为时间元素,所述第三获取单元包括:
拼接模块,用于对所述多个解析结果以字符串的形式进行拼接,得到拼接后的解析结果;
第二获取模块,用于获取与所述时间元素的格式相匹配的正则表达式;
第二匹配模块,用于采用与所述时间元素的格式相匹配的正则表达式在所述拼接后的解析结果中进行逐一匹配;以及
第二确定模块,用于将匹配出的解析结果作为所述待解析网页的时间元素。
5.根据权利要求4所述的装置,其特征在于,所述解析单元包括:
第三确定模块,用于确定每个路径表达式对应的目标页面元素的解析标记;以及
解析模块,用于分别根据所述路径表达式集合中每条路径表达式对所述目标网页进行解析,得到多条携带所述解析标记的解析结果。
6.根据权利要求5所述的装置,其特征在于,所述第三获取单元包括:
合并模块,用于对所述多条携带所述解析标记的解析结果进行合并,得到合并后的解析结果;以及
第三获取模块,用于按照预设规则从所述合并后的解析结果中获取所述待解析网页的目标页面元素。
CN201610987293.6A 2016-11-09 2016-11-09 网页页面元素的获取方法及装置 Active CN108073589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610987293.6A CN108073589B (zh) 2016-11-09 2016-11-09 网页页面元素的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610987293.6A CN108073589B (zh) 2016-11-09 2016-11-09 网页页面元素的获取方法及装置

Publications (2)

Publication Number Publication Date
CN108073589A CN108073589A (zh) 2018-05-25
CN108073589B true CN108073589B (zh) 2021-02-26

Family

ID=62153977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610987293.6A Active CN108073589B (zh) 2016-11-09 2016-11-09 网页页面元素的获取方法及装置

Country Status (1)

Country Link
CN (1) CN108073589B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955813A (zh) * 2018-09-27 2020-04-03 北京国双科技有限公司 一种数据爬取方法及装置
CN111488544B (zh) * 2020-03-31 2023-02-24 腾讯科技(深圳)有限公司 网页相似子元素的确定方法、装置、设备和存储介质
CN113918460A (zh) * 2021-10-15 2022-01-11 京东科技信息技术有限公司 页面测试方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593184A (zh) * 2008-05-29 2009-12-02 国际商业机器公司 自适应地定位动态网页元素的系统和方法
CN103020298A (zh) * 2012-12-31 2013-04-03 华为技术有限公司 抓取页面的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228738A1 (en) * 2009-03-04 2010-09-09 Mehta Rupesh R Adaptive document sampling for information extraction
CN103793461B (zh) * 2013-12-02 2017-05-31 北京奇虎科技有限公司 网页信息的解析方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593184A (zh) * 2008-05-29 2009-12-02 国际商业机器公司 自适应地定位动态网页元素的系统和方法
CN103020298A (zh) * 2012-12-31 2013-04-03 华为技术有限公司 抓取页面的方法和装置

Also Published As

Publication number Publication date
CN108073589A (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
US20150067476A1 (en) Title and body extraction from web page
CN109710771B (zh) 表格信息提取方法、装置和存储介质
US10621255B2 (en) Identifying equivalent links on a page
US20150142567A1 (en) Method and apparatus for identifying elements of a webpage
CN105205080B (zh) 冗余文件清理方法、装置和系统
CN108334508B (zh) 网页信息的提取方法和装置
CN108073589B (zh) 网页页面元素的获取方法及装置
ES2836777T3 (es) Métodos implementados por ordenador para el análisis de sitios web
US9767086B2 (en) System and method for enablement of data masking for web documents
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
Tibajev The value of immigrants' human capital for labour market integration
CN112579937A (zh) 一种字符的高亮显示方法及装置
US11308091B2 (en) Information collection system, information collection method, and recording medium
CN108694192B (zh) 网页类型的判断方法及装置
CN109242690A (zh) 理财产品推荐方法、装置、计算机设备及可读存储介质
CN112818279A (zh) 网页相似度的确定方法及确定装置、计算机可读存储介质
CN102929777B (zh) 网络应用测试方法及测试系统
CN106354730B (zh) 网页解析中网页正文重复内容的识别方法及装置
CN112800078A (zh) 基于javascript的轻量级文本标注方法、系统、设备及存储介质
JP2011070541A (ja) ネットマーケティング支援方法及びネットマーケティング支援装置
Navarro-Molina et al. Study of the accessibility of a sample of scientific electronic journal publishing platforms: Changes from 2011 to 2016
CN106997353B (zh) 网页改版的监控方法及装置
JP2015225412A (ja) 文書要約装置、方法、及びプログラム
CN106815245B (zh) 搜索引擎来源信息的解析方法及装置
Magapu Development and customization of in-house developed OCR and its evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant