CN104408198A - 网页页面内容的获取方法和装置 - Google Patents

网页页面内容的获取方法和装置 Download PDF

Info

Publication number
CN104408198A
CN104408198A CN201410779588.5A CN201410779588A CN104408198A CN 104408198 A CN104408198 A CN 104408198A CN 201410779588 A CN201410779588 A CN 201410779588A CN 104408198 A CN104408198 A CN 104408198A
Authority
CN
China
Prior art keywords
page
text message
web page
target web
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410779588.5A
Other languages
English (en)
Other versions
CN104408198B (zh
Inventor
李浛天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410779588.5A priority Critical patent/CN104408198B/zh
Publication of CN104408198A publication Critical patent/CN104408198A/zh
Application granted granted Critical
Publication of CN104408198B publication Critical patent/CN104408198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页页面内容的获取方法和装置。该方法包括:对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息,从初始网页页面中查找到按钮集合,依据按钮集合创建和触发初始网页页面的点击事件,生成目标网页页面,读取目标网页页面的文本信息,依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息。本发明解决了利用翻页按钮获取网页页面内容的问题。

Description

网页页面内容的获取方法和装置
技术领域
本发明涉及计算机互联网领域,具体而言,涉及一种网页页面内容的获取方法和装置。
背景技术
随着富客户端(Rich Client)技术的发展,越来越多的网页会使用js在页面内容的渲染上做一些包装。对于长篇的页面内容,很多时候制作人员并不会选择在一个初始页面完整显示网页全文,一般网页会提供一个翻页按钮或者加载更多的选项来让访客可以浏览全文内容。
由于传统的爬虫并不支持网页js的渲染,这种通过js来加载网页全文的做法会令爬虫仅仅只能获取一部分网页内容。而一般的爬虫往往需要全文数据。
传统的爬虫只截获http请求的文本内容,不对其中的js代码进行解析,从而不能获取网页通过js渲染出的正文内容,即翻页按钮所渲染出的内容。一般这类翻页按钮或选项可能有以下几种情况:
1.下一页按钮会触发一条ajax请求,返回下一页的内容;
2.下一页按钮会导致整个页面转向另一个页面,那个页面包括所有的内容或者下一页内容;
3.单页应用中会进行更为复杂的处理。
针对相关技术中获取网页页面内容不够完整的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页页面内容的获取方法和装置,以解决现有技术中利用翻页按钮获取网页页面内容的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种网页页面内容的获取方法,该方法包括:对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息,从初始网页页面中查找到按钮集合,依据按钮集合创建和触发初始网页页面的点击事件,生成目标网页页面,读取目标网页页面的文本信息,依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种网页页面内容的获取装置,该装置包括:加载模块,用于对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息,查找模块,用于从初始网页页面中查找到按钮集合,生成模块,用于依据按钮集合创建和触发目标网页页面的点击事件,生成目标网页页面以读取目标网页页面的文本信息,获取模块,用于依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息。
根据本发明实施例,通过网页页面内容的获取方法,解决了相关技术中利用翻页按钮获取网页页面内容的问题,达到了获取网页页面全文内容的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网页页面内容的获取方法的流程示意图;
图2是根据本发明实施例的网页页面内容的获取装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面就对本申请涉及到的名词概念进行说明:
js:Javascript,一种由Netscape的LiveScript发展而来的脚本语言,主要目的是为了解决服务器终端语言。
phantomjs:是一个基于js的webkit内核无头浏览器,也就是没有显示界面的浏览器,这样访问网页就省去了浏览器的界面绘制所消耗的系统资源,比较合适用于网络测试。
实施例1
根据本发明实施例,提供了一种网页页面内容的获取方法的方法实施例。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。
图1是根据本发明实施例的网页页面内容的获取方法流程示意图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应该将该网页页面内容的获取方法为对图1所示的任一组件或组合具有任何依赖或需求。
如图1所示,该网页页面内容的获取方法可以包括:
S11,对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息;
其中,在步骤S11中,加载原始网页页面是利用phantomjs构建一个浏览器平台,以此来对要分析的页面中的js来进行解析,通过phantomjs构建一个浏览器平台,将原始网页页面加载进来,这样访问网页就省去了浏览器界面绘制所消耗的系统资源,对于原始网页页面中包含的是代码,通过对加载的原始网页页面进行处理,得到初始网页页面,而初始网页页面中包含的是对象,例如初始网页页面中包含初始网页页面的文本信息,但是从原始网页页面中无法读取文本信息,所以,经过对加载的原始网页页面进行处理后可以读取到初始网页的文本信息,进而最终来获取原始网页页面的文本信息。
S13,从初始网页页面中查找到按钮集合;
其中,在步骤S13中,在得到初始网页页面后,从上述初始网页页面中查找得到按钮集合,由于初始网页页面中包含的是对象,所以可以从初始网页页面中来查找按钮集合,得到按钮集合后可以进一步生成目标网页页面,以完整地获取原始网页页面的文本信息。
S15,依据按钮集合创建和触发初始网页页面的点击事件,生成目标网页页面;
其中,在步骤S15中,在得到按钮集合后,依据按钮集合通过调用创建函数创建初始网页页面的点击事件,并通过调用触发函数触发初始网页页面的点击事件,即模拟浏览器的点击事件对上述按钮集合进行点击,最后生成目标网页页面,通过模拟浏览器的点击行为可以生成目标网页页面,得到目标网页页面才能将原始网页页面所链接的所有下一页网页页面找到,这样,才能够保证最终获取到的原始网页页面的所链接的所有下一页网页页面的完整性。
S17,读取目标网页页面的文本信息;
其中,在步骤S17中,在生成目标网页页面之后,由于是在phantomjs中生成的目标网页页面,所以可以从目标网页页面中读取目标网页页面的文本信息,只有得到目标网页页面的文本信息,才能保证原始网页页面的文本信息的完整性。
S19,依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息。
其中,在步骤S19中,在得到初始网页页面的文本信息和目标网页页面的文本信息后,通过初始网页页面的文本信息和目标网页页面的文本信息来读取原始网页页面的文本信息,这样,将初始网页页面所链接的所有下一页网页页面的文本信息都读取到,使得原始网页页面的文本信息中没有遗漏,最终读取到原始网页页面的全文内容。
本申请上述实施例1的方法,提供了一种网页页面内容的获取方法,该方法通过对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息,从初始网页页面中查找到按钮集合,依据按钮集合创建和触发初始网页页面的点击事件,生成目标网页页面,读取目标网页页面的文本信息,依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息;与现有技术相比,达到了完整地智能获取网页页面内容的目的。
具体地,在步骤S13之前,该方法还包括:
S12,调用判断函数判断初始网页页面是否存在点击按钮,得到判断结果。
在步骤S11中,是利用phantomjs构建一个浏览平台,对加载的原始网页页面进行处理,得到初始网页页面,而初始网页页面中包含的是对象,通过调用判断函数判断初始网页页面中是否存在点击按钮,例如,可以根据使用者的需求配置点击按钮,开发人员在设计时根据用户的需求提前配置好点击按钮,这样灵活的配置可以满足不同用户的不同需求,帮助用户有选择地读取原始网页页面的文本信息。
具体地,在步骤S12中,该方法还包括:
S121,在判断结果为存在点击按钮的情况下,从初始网页页面中查找到按钮集合的步骤包括:调用第一查找函数从初始网页页面中查找点击按钮,以得到按钮集合;
在步骤S121中,在得出的判断结果为存在点击按钮的情况下,也就是说,已经配置好需要点击的对象,所以,上述从初始网页页面中查找到按钮集合的步骤就包括:通过第一查找函数来查找点击按钮,其中,第一查找函数是用于查找已经配置好的点击按钮的,这样,在根据需求配置好需要点击的对象后,直接查找点击按钮,可以满足用户的需求。
S123,在判断结果为不存在点击按钮的情况下,从初始网页页面中查找到按钮集合的步骤包括:调用第二查找函数从初始网页页面中查找点击元素、标签、翻页类,以得到按钮集合;
在步骤S123中,在得出的判断结果为不存在点击按钮的情况下,也就是说,没有配置好的点击的对象,所以,上述从初始网页页面中查找到按钮集合的步骤就包括:通过第二查找函数来查找点击按钮,其中,第二查找函数是用于查找智能判断中所包含的类型,其中,查找智能判断包括:查找所有button元素、查找所有<a>标签和如果网页加载了bootstrap,查找bootstrap中对应的翻页类class;在查找到的智能判断后,则上述按钮集合为查找到的智能判断;通过第二查找函数的查找,将未进行配置点击按钮的初始网页页面通过查找智能判断的方法得到按钮集合;这种智能查找网页按钮集合的方法使得可以更加高效更加智能地获取原始网页页面的全文信息,并且上述方法适应性强,可以广泛应用于翻页技术进行智能判断,也可以根据配置进行更高效的判断。
具体地,步骤S19之前,还包括:
S18,通过调用比较函数对初始网页页面的文本信息和目标网页页面的文本信息进行比较,比较初始网页页面的文本信息和目标网页页面的文本信息是否相同。
在步骤S18中,在得到初始网页页面的文本信息和目标网页页面的文本信息后,调用比较函数,对初始网页页面的文本信息和目标网页页面的文本信息进行比较分析,得到初始网页页面的文本信息和目标网页页面的文本信息是否相同,比较的目的在于需要得到目标网页页面的文本信息是否与初始网页页面的文本信息存在内容上的差异,上述比较函数有个明确的算法,即:将每个页面标签的包含关系构建为一颗树,这颗树的每个节点即为某个页面标签。该算法的目的是比较两个网页的页面结构是否相似。首先获取到两颗树每两个叶子节点之间的最近公共祖先,每个叶子节点的公共祖先中,可能存在公共祖先就为自身的叶子节点,计算这样的叶子节点在所有叶子节点中所占的比例,超过一个定值则为相似网页。
具体地,步骤S19中,该方法还包括:
S191,在比较初始网页页面的文本信息和目标网页页面的文本信息相同的情况下,则目标网页页面的文本信息为原始网页页面的文本信息;
在步骤S191中,在对初始网页页面的文本信息和目标网页页面的文本信息进行比较分析后,得到比较结果为初始网页页面的文本信息和目标网页页面的文本信息相同的情况下,说明得到的目标网页页面的文本信息中没有新的内容,所以,目标网页页面的文本信息为原始网页页面的文本信息。
或S193,在比较初始网页页面的文本信息和目标网页页面的文本信息不相同的情况下,调用并集函数对初始网页页面的文本信息和目标网页页面的文本信息取并集,以获取原始网页页面的文本信息。
在步骤S193中,在对初始网页页面的文本信息和目标网页页面的文本信息进行比较分析后,得到比较结果为初始网页页面的文本信息和目标网页页面的文本信息不相同的情况下,说明得到的目标网页页面的文本信息中有新的内容,通过调用并集函数对初始网页页面的文本信息和目标网页页面的文本信息取并集,将初始网页页面的文本信息和目标网页页面的文本信息的内容汇集起来作为原始网页页面的文本信息,然后从上述目标网页页面查找按钮集合,在得到按钮集合的情况下,模拟浏览器进行点击,以读取目标网页页面的下一页网页页面的文本信息,在求并集,这样循环下去,直至不能查找到下一页网页页面的按钮集合为止,这样,就得到了完整地原始网页页面的文本信息,通过全自动化且可并发的对网页进行分析,可以高效智能地获取全文信息。
本发明提出的一种网页页面内容的获取方法,通过对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息,从初始网页页面中查找到按钮集合,依据按钮集合创建和触发初始网页页面的点击事件,生成目标网页页面,读取目标网页页面的文本信息,依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息;因此,本申请提供了一种高效地智能获取目标网页页面内容的方法,即加载原始网页页面之后,生成初始网页页面后可以读取初始网页页面的文本信息,然后从初始网页页面中查找按钮集合,智能查找按钮集合使得自动化地对初始网页页面进行查找,从而创建和触发初始网页页面的点击事件,生成目标网页页面,读取目标网页页面的文本信息,最后通过初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息,那么原始网页信息中包含了初始网页页面的按钮集合所链接的目标网页页面的文本信息,使得得到的原始网页页面的文本信息更加完整,所以,通过上述方法,可以解决了相关技术中利用翻页按钮获取网页页面内容的问题,达到了获取网页页面全文内容的效果。
实施例2
本发明实施例还提供了一种网页页面内容的获取装置,本申请上述实施例所提供的装置可以在计算机终端或移动终端上运行,但不限于此。
图2是根据本发明是实施例的网页页面内容的获取装置的结构示意图。如图2所示,该装置包括:加载模块21、查找模块22、生成模块23、读取模块24和获取模块25;
其中,加载模块21,用于对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息;
在上述加载模块21中,加载原始网页页面是利用phantomjs构建一个浏览器平台,以此来对要分析的页面中的js来进行解析,通过phantomjs构建一个浏览器平台,将原始网页页面加载进来,这样访问网页就省去了浏览器界面绘制所消耗的系统资源,对于原始网页页面中包含的是代码,通过对加载的原始网页页面进行处理,得到初始网页页面,而初始网页页面中包含的是对象,例如初始网页页面中包含初始网页页面的文本信息,但是从原始网页页面中无法读取文本信息,所以,经过对加载的原始网页页面进行处理后可以读取到初始网页的文本信息,进而最终来获取原始网页页面的文本信息。
查找模块22,连接至加载模块21,用于从初始网页页面中查找到按钮集合;
在上述查找模块22中,在得到初始网页页面后,从上述初始网页页面中查找得到按钮集合,由于初始网页页面中包含的是对象,所以可以从初始网页页面中来查找按钮集合,得到按钮集合后可以进一步生成目标网页页面,以完整地获取原始网页页面的文本信息。
生成模块23,连接至查找模块22,用于依据按钮集合创建和触发目标网页页面的点击事件,生成目标网页页面。
在上述生成模块23中,在得到按钮集合后,依据按钮集合通过调用创建函数创建初始网页页面的点击事件,并通过调用触发函数触发初始网页页面的点击事件,即模拟浏览器的点击事件对上述按钮集合进行点击,最后生成目标网页页面,通过模拟浏览器的点击行为可以生成目标网页页面,得到目标网页页面才能将原始网页页面所链接的所有下一页网页页面找到,这样,才能够保证最终获取到的原始网页页面的所链接的所有下一页网页页面的完整性。
读取模块24,连接至生成模块25,用于读取目标网页页面的文本信息。
在上述读取模块24中,在生成目标网页页面之后,由于是在phantomjs中生成的目标网页页面,所以可以从目标网页页面中读取目标网页页面的文本信息,只有得到目标网页页面的文本信息,才能保证原始网页页面的文本信息的完整性。
获取模块25,连接至读取模块24,用于依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息。
在上述获取模块25中,在得到初始网页页面的文本信息和目标网页页面的文本信息后,通过初始网页页面的文本信息和目标网页页面的文本信息来读取原始网页页面的文本信息,这样,将初始网页页面所链接的所有下一页网页页面的文本信息都读取到,使得原始网页页面的文本信息中没有遗漏,最终读取到原始网页页面的全文内容。
本申请上述实施例2的装置,提供了一种网页页面内容的获取装置,该装置通过加载模块21对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息,通过查找模块22从初始网页页面中查找到按钮集合,通过生成模块23依据按钮集合创建和触发初始网页页面的点击事件,生成目标网页页面,通过读取模块24读取目标网页页面的文本信息,通过获取模块25依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息,与现有技术相比,达到了完整地智能获取网页页面内容的目的。
一种优选的方案中,该装置包括图2所示的所有结构外,还包括:判断模块,下面对该装置进行说明。
判断模块,连接至加载模块21与查找模块22之间,用于从初始网页页面中查找到按钮集合之前,调用判断函数判断初始网页页面是否存在点击按钮,得到判断结果。
在上述判断模块中,是利用phantomjs构建一个浏览平台,对加载的原始网页页面进行处理,得到初始网页页面,而初始网页页面中包含的是对象,通过调用判断函数判断初始网页页面中是否存在点击按钮,例如,可以根据使用者的需求配置点击按钮,开发人员在设计时根据用户的需求提前配置好点击按钮,这样灵活的配置可以满足不同用户的不同需求,帮助用户有选择地读取原始网页页面的文本信息。
一种优选的方案中,该装置包括上述结构,其中,该查找模块包括:第一查找单元和第二查找单元,下面对该装置进行说明。
第一查找单元,用于在判断结果为存在点击按钮的情况下,从初始网页页面中查找到目标网页页面按钮包括:调用第一查找函数从初始网页页面中查找点击按钮,以得到按钮集合。
在上述第一查找单元中,在得出的判断结果为存在点击按钮的情况下,也就是说,已经配置好需要点击的对象,所以,上述从初始网页页面中查找到按钮集合的步骤就包括:通过第一查找函数来查找点击按钮,其中,第一查找函数是用于查找已经配置好的点击按钮的,这样,在根据需求配置好需要点击的对象后,直接查找点击按钮,可以满足用户的需求。
第二查找单元,连接至第一查找单元,用于在判断结果为不存在点击按钮的情况下,从初始网页页面中查找到目标网页页面按钮包括:调用第二查找函数从初始网页页面中查找点击元素、标签、翻页类,以得到按钮集合。
在上述第二查找单元中,在得出的判断结果为不存在点击按钮的情况下,也就是说,没有配置好的点击的对象,所以,上述从初始网页页面中查找到按钮集合的步骤就包括:通过第二查找函数来查找点击按钮,其中,第二查找函数是用于查找智能判断中所包含的类型,其中,查找智能判断包括:查找所有button元素、查找所有<a>标签和如果网页加载了bootstrap,查找bootstrap中对应的翻页类class;在查找到的智能判断后,则上述按钮集合为查找到的智能判断;通过第二查找函数的查找,将未进行配置点击按钮的初始网页页面通过查找智能判断的方法得到按钮集合;这种智能查找网页按钮集合的方法使得可以更加高效更加智能地获取原始网页页面的全文信息,并且上述方法适应性强,可以广泛应用于翻页技术进行智能判断,也可以根据配置进行更高效的判断。
一种优选的方案中,,该装置上述结构,其中,该获取模块25包括:比较单元,下面对该装置进行说明。
比较单元,用于依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息之前,通过调用比较函数对初始网页页面的文本信息和目标网页页面的文本信息进行比较,比较初始网页页面的文本信息和目标网页页面的文本信息是否相同。
在上述比较单元中,在得到初始网页页面的文本信息和目标网页页面的文本信息后,调用比较函数,对初始网页页面的文本信息和目标网页页面的文本信息进行比较分析,得到初始网页页面的文本信息和目标网页页面的文本信息是否相同,比较的目的在于需要得到目标网页页面的文本信息是否与初始网页页面的文本信息存在内容上的差异,上述比较函数有个明确的算法,即:将每个页面标签的包含关系构建为一颗树,这颗树的每个节点即为某个页面标签。该算法的目的是比较两个网页的页面结构是否相似。首先获取到两颗树每两个叶子节点之间的最近公共祖先,每个叶子节点的公共祖先中,可能存在公共祖先就为自身的叶子节点,计算这样的叶子节点在所有叶子节点中所占的比例,超过一个定值则为相似网页。
一种优选的方案中,,该装置包括上述结构外,其中该获取模块25还包括:第一获取单元或第二获取单元,下面对该装置进行说明。
第一获取单元,连接至比较单元,用于在比较初始网页页面的文本信息和目标网页页面的文本信息相同的情况下,则目标网页页面的文本信息为原始网页页面的文本信息。
在上述第一获取单元中,在对初始网页页面的文本信息和目标网页页面的文本信息进行比较分析后,得到比较结果为初始网页页面的文本信息和目标网页页面的文本信息相同的情况下,说明得到的目标网页页面的文本信息中没有新的内容,所以,目标网页页面的文本信息为原始网页页面的文本信息。
或,第二获取单元,连接至比较单元,用于在所述初始网页页面的文本信息和目标网页页面的文本信息不相同的情况下,调用并集函数对初始网页页面的文本信息和目标网页页面的文本信息取并集,以获取原始网页页面的文本信息。
在上述第二获取单元中,在对初始网页页面的文本信息和目标网页页面的文本信息进行比较分析后,得到比较结果为初始网页页面的文本信息和目标网页页面的文本信息不相同的情况下,说明得到的目标网页页面的文本信息中有新的内容,通过调用并集函数对初始网页页面的文本信息和目标网页页面的文本信息取并集,将初始网页页面的文本信息和目标网页页面的文本信息的内容汇集起来作为原始网页页面的文本信息,然后从上述目标网页页面查找按钮集合,在得到按钮集合的情况下,模拟浏览器进行点击,以读取目标网页页面的下一页网页页面的文本信息,在求并集,这样循环下去,直至不能查找到下一页网页页面的按钮集合为止,这样,就得到了完整地原始网页页面的文本信息,通过全自动化且可并发的对网页进行分析,可以高效智能地获取全文信息。
本发明提出的一种网页页面内容的获取装置,通过加载模块21对加载的原始网页页面进行处理,生成初始网页页面,以读取初始网页页面的文本信息,通过查找模块22从初始网页页面中查找到按钮集合,通过生成模块23依据按钮集合创建和触发初始网页页面的点击事件,生成目标网页页面,通过读取模块24读取目标网页页面的文本信息,通过获取模块25依据初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息;因此,本申请提供了一种高效地智能获取目标网页页面内容的装置,即加载原始网页页面之后,生成初始网页页面后可以读取初始网页页面的文本信息,然后从初始网页页面中查找按钮集合,智能查找按钮集合使得自动化地对初始网页页面进行查找,从而创建和触发初始网页页面的点击事件,生成目标网页页面,读取目标网页页面的文本信息,最后通过初始网页页面的文本信息和目标网页页面的文本信息获取原始网页页面的文本信息,那么原始网页信息中包含了初始网页页面的按钮集合所链接的目标网页页面的文本信息,使得得到的原始网页页面的文本信息更加完整,所以,通过上述装置,可以解决了相关技术中利用翻页按钮获取网页页面内容的问题,达到了获取网页页面全文内容的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页页面内容的获取方法,其特征在于,包括:
对加载的原始网页页面进行处理,生成初始网页页面,以读取所述初始网页页面的文本信息;
从所述初始网页页面中查找到按钮集合;
依据所述按钮集合创建和触发所述初始网页页面的点击事件,生成目标网页页面;
读取所述目标网页页面的文本信息;
依据所述初始网页页面的文本信息和所述目标网页页面的文本信息获取所述原始网页页面的文本信息。
2.根据权利要求1所述的方法,其特征在于,在从所述初始网页页面中查找到按钮集合之前,所述方法还包括:
调用判断函数判断所述初始网页页面是否存在所述点击按钮,得到判断结果。
3.根据权利要求2所述的方法,其特征在于,在所述判断结果为存在所述点击按钮的情况下,从所述初始网页页面中查找到按钮集合的步骤包括:
调用第一查找函数从所述初始网页页面中查找所述点击按钮,以得到所述按钮集合;
在所述判断结果为不存在所述点击按钮的情况下,从所述初始网页页面中查找到按钮集合的步骤包括:调用第二查找函数从所述初始网页页面中查找点击元素、标签、翻页类,以得到所述按钮集合。
4.根据权利要求1所述的方法,其特征在于,在依据所述初始网页页面的文本信息和所述目标网页页面的文本信息获取所述原始网页页面的文本信息之前,所述方法还包括:
通过调用比较函数对所述初始网页页面的文本信息和所述目标网页页面的文本信息进行比较,比较所述初始网页页面的文本信息和所述目标网页页面的文本信息是否相同。
5.根据权利要求4所述的方法,其特征在于,依据所述初始网页页面的文本信息和所述目标网页页面的文本信息获取所述原始网页页面的文本信息的步骤包括:
在比较所述初始网页页面的文本信息和所述目标网页页面的文本信息相同的情况下,则所述目标网页页面的文本信息为所述原始网页页面的文本信息;
或,在比较所述初始网页页面的文本信息和所述目标网页页面的文本信息不相同的情况下,调用并集函数对所述初始网页页面的文本信息和所述目标网页页面的文本信息取并集,以获取所述原始网页页面的文本信息。
6.一种网页页面内容的获取装置,其特征在于,包括:
加载模块,用于对加载的原始网页页面进行处理,生成初始网页页面,以读取所述初始网页页面的文本信息;
查找模块,用于从所述初始网页页面中查找到按钮集合;
生成模块,用于依据所述按钮集合创建和触发目标网页页面的点击事件,生成所述目标网页页面;
读取模块,用于读取所述目标网页页面的文本信息;
获取模块,用于依据所述初始网页页面的文本信息和所述目标网页页面的文本信息获取所述原始网页页面的文本信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于从所述初始网页页面中查找到按钮集合之前,调用判断函数判断所述初始网页页面是否存在点击按钮,得到判断结果。
8.根据权利要求7所述的装置,其特征在于,所述查找模块包括:
第一查找单元,用于在所述判断结果为存在所述点击按钮的情况下,从所述初始网页页面中查找到目标网页页面按钮包括:调用第一查找函数从所述初始网页页面中查找所述点击按钮,以得到所述按钮集合;
第二查找单元,用于在所述判断结果为不存在所述点击按钮的情况下,从所述初始网页页面中查找到目标网页页面按钮包括:调用第二查找函数从所述初始网页页面中查找点击元素、标签、翻页类,以得到所述按钮集合。
9.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
比较单元,用于依据所述初始网页页面的文本信息和所述目标网页页面的文本信息获取所述原始网页页面的文本信息之前,通过调用比较函数对所述初始网页页面的文本信息和所述目标网页页面的文本信息进行比较,比较所述初始网页页面的文本信息和所述目标网页页面的文本信息是否相同。
10.根据权利要求9所述的装置,其特征在于,所述获取模块还包括:
第一获取单元,用于在比较所述初始网页页面的文本信息和所述目标网页页面的文本信息相同的情况下,则所述目标网页页面的文本信息为所述原始网页页面的文本信息;
或,第二获取单元,用于在比较所述初始网页页面的文本信息和所述目标网页页面的文本信息不相同的情况下,调用并集函数对所述初始网页页面的文本信息和所述目标网页页面的文本信息取并集,以获取所述原始网页页面的文本信息。
CN201410779588.5A 2014-12-15 2014-12-15 网页页面内容的获取方法和装置 Active CN104408198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410779588.5A CN104408198B (zh) 2014-12-15 2014-12-15 网页页面内容的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410779588.5A CN104408198B (zh) 2014-12-15 2014-12-15 网页页面内容的获取方法和装置

Publications (2)

Publication Number Publication Date
CN104408198A true CN104408198A (zh) 2015-03-11
CN104408198B CN104408198B (zh) 2018-07-17

Family

ID=52645829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410779588.5A Active CN104408198B (zh) 2014-12-15 2014-12-15 网页页面内容的获取方法和装置

Country Status (1)

Country Link
CN (1) CN104408198B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563225A (zh) * 2020-07-13 2020-08-21 随身云(南京)信息技术有限公司 克服首屏空白的源码填充方法和平台
CN113255325A (zh) * 2021-05-10 2021-08-13 成都微视联软件技术有限公司 一种自动计算电子文档的内容的方法
CN114296613A (zh) * 2021-12-07 2022-04-08 深圳视界信息技术有限公司 一种页面翻页方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037467A1 (en) * 2007-07-31 2009-02-05 Fu-Sheng Chiu Media management, production, and delivery system and method
CN101984429A (zh) * 2010-11-04 2011-03-09 百度在线网络技术(北京)有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN102087648A (zh) * 2009-12-03 2011-06-08 北京大学 一种新闻评论页面的爬取方法及系统
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103942335A (zh) * 2014-05-07 2014-07-23 武汉大学 一种针对网页结构变化的不间断爬虫系统构建方法
CN104077293A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 网页获取方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037467A1 (en) * 2007-07-31 2009-02-05 Fu-Sheng Chiu Media management, production, and delivery system and method
CN102087648A (zh) * 2009-12-03 2011-06-08 北京大学 一种新闻评论页面的爬取方法及系统
CN101984429A (zh) * 2010-11-04 2011-03-09 百度在线网络技术(北京)有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN104077293A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 网页获取方法和装置
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103942335A (zh) * 2014-05-07 2014-07-23 武汉大学 一种针对网页结构变化的不间断爬虫系统构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563225A (zh) * 2020-07-13 2020-08-21 随身云(南京)信息技术有限公司 克服首屏空白的源码填充方法和平台
CN113255325A (zh) * 2021-05-10 2021-08-13 成都微视联软件技术有限公司 一种自动计算电子文档的内容的方法
CN114296613A (zh) * 2021-12-07 2022-04-08 深圳视界信息技术有限公司 一种页面翻页方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104408198B (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
US10970067B1 (en) Designing microservices for applications
US11669579B2 (en) Method and apparatus for providing search results
Chen et al. Gallery dc: Design search and knowledge discovery through auto-created gui component gallery
US10649836B2 (en) Detecting an error message and automatically presenting links to relevant solution pages
CN104408204A (zh) 网页页面链接地址的获取方法和装置
CN109145235B (zh) 用于解析网页的方法、装置及电子设备
CN111708528A (zh) 一种小程序的生成方法、装置、设备及存储介质
CN110162457A (zh) 用户界面的测试方法、装置、设备及存储介质
CN111324715B (zh) 问答机器人的生成方法和装置
CN112182359A (zh) 推荐模型的特征管理方法及系统
CN106202100A (zh) 页面的加载方法及装置
CN111209374A (zh) 数据查询展示方法、装置、计算机系统及可读存储介质
Lamela Seijas et al. Towards property-based testing of restful web services
CN114327374A (zh) 业务流程的生成方法、装置及计算机设备
CN113268243A (zh) 内存预测方法及装置、存储介质、电子设备
CN104408198A (zh) 网页页面内容的获取方法和装置
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
Winter et al. Formal information modelling for standardisation in the spatial domain
Velázquez-Rodríguez et al. Mutama: An automated multi-label tagging approach for software libraries on maven
Aranda-Corral et al. Reconciling knowledge in social tagging web services
Mao et al. Developing Cross-platform Mobile and Web Apps
Bernardi et al. Model driven evolution of web applications
CN108255888A (zh) 一种数据处理方法及系统
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法
Jo et al. Smart learning of logo detection for mobile phone applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for acquiring webpage contents

Effective date of registration: 20190531

Granted publication date: 20180717

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20180717