CN105183453A - 基于网页的信息获取方法及装置 - Google Patents

基于网页的信息获取方法及装置 Download PDF

Info

Publication number
CN105183453A
CN105183453A CN201510483056.1A CN201510483056A CN105183453A CN 105183453 A CN105183453 A CN 105183453A CN 201510483056 A CN201510483056 A CN 201510483056A CN 105183453 A CN105183453 A CN 105183453A
Authority
CN
China
Prior art keywords
code
webpage
trigger
list
source code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510483056.1A
Other languages
English (en)
Other versions
CN105183453B (zh
Inventor
党伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Anyi Hengtong Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyi Hengtong Beijing Technology Co Ltd filed Critical Anyi Hengtong Beijing Technology Co Ltd
Priority to CN201510483056.1A priority Critical patent/CN105183453B/zh
Publication of CN105183453A publication Critical patent/CN105183453A/zh
Application granted granted Critical
Publication of CN105183453B publication Critical patent/CN105183453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了基于网页的信息获取方法及装置。所述方法的包括:获取网页的源代码;检测源代码中是否包括交互式代码;若是,则针对交互式代码执行相应的触发操作;从响应于触发操作的信息中获取网页中的资源信息。本申请实施例通过针对交互式代码模拟用户操作,实现了获取网页中资源信息的目的。

Description

基于网页的信息获取方法及装置
技术领域
本申请涉及计算机技术领域,具体涉及信息处理技术领域,尤其涉及基于网页的信息获取方法及装置。
背景技术
随着互联网技术的飞速发展,人们越来越多的通过浏览网页来获取各种信息。由于网络中存在海量的网页信息,因此在现有技术中,通常可以借助搜索引擎、网页信息获取工具等辅助工具,从大量的网页中提取用户需要的信息。但是,这些辅助工具通常只能对静态页面的信息进行抓取,而无法获取动态交互网页中那些需要人工触发才能得到的资源信息(例如,文件下载链接)。
发明内容
鉴于现有技术中的上述缺陷或不足,期望能够提供一种从动态网页中得到资源信息的方案。为了实现上述一个或多个目的,本申请提供了基于网页的信息获取方法及装置。
第一方面,本申请提供了一种基于网页的信息获取方法,包括:获取所述网页的源代码;检测所述源代码中是否包括交互式代码;若是,则针对所述交互式代码执行相应的触发操作;从响应于所述触发操作的信息中获取所述网页中的资源信息。
第二方面,本申请提供了一种基于网页的信息获取装置,包括:获取模块,用于获取所述网页的源代码;检测模块,用于检测所述源代码中是否包括交互式代码;触发模块,用于若所述源代码中包括所述交互式代码,则针对所述交互式代码执行相应的触发操作;响应模块,用于从响应于所述触发操作的信息中获取所述网页中的资源信息。
本申请提供的基于网页的信息获取方法及装置,可以针对网页源代码中所包括的交互式代码,执行相应的触发操作,以便从触发操作的响应信息中得到隐藏于网页中的资源信息。通过针对交互式代码模拟用户操作,可以获取网页中隐藏的资源信息,从而提高了获取网页中各类信息的能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请基于网页的信息获取方法的一个实施例的流程图;
图2是本申请基于网页的信息获取方法的另一个实施例的流程图;
图3是本申请基于网页的信息获取方法的另一个实施例的流程图;
图4是本申请基于网页的信息获取装置的一个实施例的功能模块构架示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了本申请基于网页的信息获取方法的一个实施例的流程100。本实施例主要以该方法应用于能进行网页浏览的终端中来举例说明,该终端可以包括智能手机、平板电脑、电子书阅读器、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、台式计算机和智能穿戴式设备等等。本实施例的基于网页的信息获取方法,包括以下步骤:
如图1所示,在步骤101中,获取网页的源代码。
网页可以看作是承载网络中所有信息的载体,是万维网中的一“页”,其可以保存于任意一台计算机中,并通过网页浏览器来进行访问。网页通常可以被分为静态网页和动态网页两种类型。静态网页通常由html(超级文本标记语言)代码生成,其页面的内容和显示效果基本上不会发生变化。动态网页,是指跟静态网页相对的、一种以数据库技术为基础的网页编程技术。在动态网页中,虽然页面的源代码没有改变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变。静态网页的网址后缀包括htm、html、shtml和xml等,而是见动态网页的网址以.aspx、.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在网址中有一个标志性的符号—“?”。
在本实施例中,可以利用现有技术中的WebClient、WebRequest和HttpWebRequest等方式获取当前待处理的网页的源代码。对于静态网页来说,此时获取的源代码就是网页的全部源代码。而对于动态网页来说,此时获取的源代码仅是当前显示内容所对应的源码,很可能不是动态网页的全部源代码。
接着,在步骤102中,检测源代码中是否包括交互式代码。
当在上述步骤101中得到了网页的源代码后,可以进一步检测该源代码中是否包括有交互式代码。交互式代码,顾名思义,就是可以实现交互功能的代码。在网页中,这一类代码可以帮助用户与网页进行交互。用户可以对网页进行一些操作,网页可以对这些操作进行响应,然后将一些新的网页内容提供给用户。在检测源代码中是否包括交互式代码时,可以根据源代码的结构、具体代码内容,来确定其是否包括交互式代码。
可选地,交互式代码可以包括表单代码和/或触发函数代码。表单代码可以是用于形成表单的代码。表单在网页中主要负责数据采集功能。表单可以接收用户输入的数据,并在用户进行表单提交后,将这些数据提供给网页服务器。触发函数代码可以是构成触发函数的代码。触发函数可以是一类需要经过用户的触发操作(例如,点击操作)才能执行的函数。
继而,在步骤103中,若是,则针对交互式代码执行相应的触发操作。
具体地,若在上述步骤102中检测出网页的源代码中包括有交互式代码,则可以进一步对交互式代码的语言、结构、参数等内容进行分析,从而确定出执行该交互式代码所需要的触发操作,然后通过机器模拟来执行该触发操作。例如,在一些网络论坛中,某些用户发布的文件被设置为“回复可见”,那么可以由计算机随机生成一条回复信息,并将其回复在发布该文件的主题帖中。
最后,在步骤104中,从响应于触发操作的信息中获取网页中的资源信息。
具体地,当在上述步骤103中针对交互式代码执行了相应的触发操作后,网页服务器可以响应于该触发操作,并执行相应的交互式代码。在交互式代码被执行后,网页服务器可以对当前网页所显示的内容进行更新,也可以直接返回一个新的网页或浮动窗口。在更新后的网页内容,或者新打开的网页或浮动窗口中,可以直接保存有网页中的资源信息。在本实施例中,资源可以是指保存在网络中的各种文件资源。资源信息可以是指与各类网页资源相关的信息,例如,各类文件的下载链接、多媒体文件的播放地址或显示于网页中的文字和图片等。
在本实施例的一个可选实现方式中,基于网页的信息获取方法还可以包括:基于资源信息的资源格式,对资源信息进行筛选。在本实施例中,资源格式可以是指作为资源的文件的格式。用户可以预先设定想要获取的资源是什么文件格式,然后根据得到的资源信息对应的资源格式,对其进行进一步的筛选。例如,当资源信息是文件的下载链接时,由于下载链接的最后一部分是文件名和文件格式,因此可以根据最后的文件格式对获得的下载链接进行筛选。当用户想要获得网页中的歌曲资源时,可以预先设定下载链接以.mp3形式结尾,而对于那些以.exe形式结尾的可执行文件的下载链接,就可以通过筛选进行剔除。通过资源格式对资源信息进行筛选,可以进行一步提高从网页中获取资源信息的精度。
本实施例提供的基于网页的信息获取方法,可以针对网页源代码中所包括的交互式代码,执行相应的触发操作,以便从触发操作的响应信息中得到隐藏于网页中的资源信息。通过针对交互式代码模拟用户操作,可以获取网页中隐藏的资源信息,从而提高了获取网页中各类信息的能力。
请进一步参考图2,其示出了本申请基于网页的信息获取方法的另一个实施例的流程200。
如图2所示,在步骤201中,获取网页的源代码。本步骤与图1中的步骤101相同,在此不再赘述。
接着,在步骤202中,检测源代码中是否包括表单代码。
在本实施例中,表单可以是一个包含表单元素的区域,表单元素是允许用户在表单中(例如文本框、密码框、隐藏域、多行文本框、复选框、单选框、下拉选择框和文件上传框等)输入信息的元素。表单通常可以使用表单标签(例如,<form>)进行定义。这样,就可以通过检测表单标签的方式,来检测源代码中是否包括表单代码。例如,如果在网页源代码中检测到了表单标签<form>和</form>,则可以认为源代码中包括表单代码。
继而,在步骤203中,若源代码中包括表单代码,则确定与表单代码对应的表单中的表单元素。
当在上述步骤202中确定出源代码中包括表单代码时,可以将表单的开始标签和结束标签(例如,<form>和</form>)之间的所有代码作为表单代码。通过解析表单代码,可以得到表单中的各个表单元素。具体地,可以由用户进行输入、选择或上传的元素都可以作为表单元素。
接着,在步骤204中,构造与表单元素对应的表单参数。
具体地,在得到表单中的各个表单元素后,可以进一步对表单元素的类型和名称进行分析,并据此构造与表单元素对应的表单参数。例如,对于一个类型为文本、名称为用户名的表单元素来说,可以将一个人名(如,Mike)作为与该表单元素对应的表单参数。
继而,在步骤205中,将表单参数输入表单并进行表单提交。
当在上述步骤204中构造出所有表单元素的表单参数后,可以将这些参数输入到表单中的相应位置,然后将数据完整的表单提交给网页服务器。具体地,可以根据在表单标签中所记载的表单数据发送方法,进行表单提交。常见的表单数据发送方法包括GET和POST两种。GET发送可以将表单内的数据将附加到URL(统一资源定位符)后发送,POST则是在HTTP(超文本传输协议)请求中进行表单数据的发送。
最后,在步骤206中,从响应于表单提交操作的信息中获取网页中的资源信息。
在本实施例中,在进行表单提交之后,从网页服务端返回的信息中就可以得到网页中的资源信息。具体地,当表单被提交给网页服务器后,网页服务器可以对当前网页所显示的内容进行更新,也可以直接返回一个新的网页或浮动窗口。在更新后的网页内容,或者新打开的网页或浮动窗口中,可以直接保存有网页中的资源信息。
在本实施例的一个可选实现方式中,若表单元素在源代码中对应多个预定参数,则针对每一个预定参数进行表单提交。具体地,在网页的源代码中,可以为表单中的某些表单元素(例如,复选框、单选框、下拉选择框等)预先设定多个表单参数,以供用户从中选定一个或多个作为该表单元素的值。当存在这一类表单元素时,可以针对该表单元素的每一个预定参数,分别进行一次表单提交。这样,在网页服务器针对表单返回的信息中,就可以获得网页中所有可能的资源信息。例如,如果在某个表单中有一个用于进行性别选择的表单元素,其预设参数包括男和女两个,则可以将该表单元素的参数设为男提交一次,然后设为女再提交一次。这样,即使网页服务器针对不同的表单参数可以返回不同的资源信息,通过上述方法也可以完全获取网页中的所有资源信息。通过对每一个预定参数进行表单提交,确保可以完全获取网页中的所有资源信息。
本实施例提供的基于网页的信息获取方法,可以首先对网页中的表单进行分析,然后构造与表单元素相适应的表单代码并进行表单提交,最后从响应于表单提交的信息中获取资源信息。通过自动进行表单提交来获取网页中的资源信息,提高了基于网页获取信息的便捷性。
请进一步参考图3,其示出了本申请基于网页的信息获取方法的另一个实施例的流程300。
如图3所示,在步骤301中,获取网页的源代码。本步骤与图1中的步骤101相同,在此不再赘述。
在步骤302中,检测源代码中是否包括触发函数代码。
在现有技术中,函数可以是一个独立的程序模块。函数中的代码用于完成某些功能(通常是处理文本,控制输入或计算数值等)。通过在程序代码中引入函数名称和所需的参数,可在该程序中执行(或称调用)该函数。在本实施例中,在网页源代码中,构成这一类函数的代码就可以被当作触发函数代码。大多数编程语言构建函数的方法里都含有函数关键字(或称保留字)。在检测源代码中是否包括触发函数时,可以预先设置针对触发函数的过滤规则。例如,可以将与资源下载有关的关键字:download、downfile或getfile等作为筛选函数的关键字,然后通过正则表达式去把这类函数提取出来。
在本实施例的一个可选实现方式中,步骤302可以包括:检测源代码中是否包括预定的事件代码;若是,则检测事件代码中是否包括预定的触发函数代码。在检测源代码中是否包括触发函数代码时,可以首先检测源代码中是否包括预定的事件代码。事件是可以被识别的操作,如按下确定按钮,选择某个单选按钮或者复选框等。在本实施例中,预定的事件可以是单击、双击、刷新和延时等事件。如果在源代码中检测出这些预定事件的事件代码,则可以进一步从事件代码中检测是否包括预定的触发函数代码。可选地,触发函数代码可以通过预设的函数关键字进行检测。通过先检测事件代码,在从事件代码中检测触发函数代码,可以缩小检测函数的范围,从而可以提高资源信息的获取效率。
在步骤303中,若源代码中包括触发函数代码,则执行与触发函数代码对应的触发函数。
在本实施例中,如果源代码中包括触发函数代码,要从响应于该触发函数的信息中获取资源信息,必须要执行该触发函数。具体地,可以调用现有技术中的浏览器引擎,例如WebKit,直接执行该触发函数。
在步骤304中,从响应于触发函数的信息中获取网页中的资源信息。
在本实施例中,当触发函数被执行后,网页服务器可以对当前网页所显示的内容进行更新,也可以直接返回一个新的网页或浮动窗口。在更新后的网页内容,或者新打开的网页或浮动窗口中,可以直接保存有网页中的资源信息。
本实施例提供的基于网页的信息获取方法,可以通过直接执行触发函数来获取资源信息,避免了通过触发事件来执行触发函数,因此资源开销较小,便于快速获取资源信息。
进一步参考图4,其示出了本申请基于网页的信息获取装置的一个实施例的结构示意图。
如图4所示,本实施例的基于网页的信息获取装置400包括:获取模块410、检测模块420、触发模块430和响应模块440。
获取模块410,用于获取网页的源代码。
检测模块420,用于检测源代码中是否包括交互式代码。
触发模块430,用于若源代码中包括交互式代码,则针对交互式代码执行相应的触发操作。
响应模块440,用于从响应于触发操作的信息中获取网页中的资源信息。
在本实施例的一个可选实现方式中,交互式代码包括表单代码和/或触发函数代码。
在本实施例的一个可选实现方式中,触发模块430包括:确定单元、构造单元和提交单元。
确定单元,用于若源代码中包括表单代码,则确定与表单代码对应的表单中的表单元素。
构造单元,用于构造与表单元素对应的表单参数。
提交单元,用于将表单参数输入表单并进行表单提交。
在本实施例的一个可选实现方式中,提交单元还用于,若表单元素在源代码中对应多个预定参数,则针对每一个预定参数进行表单提交。
在本实施例的一个可选实现方式中,触发模块430包括:触发单元,用于若源代码中包括触发函数代码,则执行与触发函数代码对应的触发函数。
在本实施例的一个可选实现方式中,检测模块420还用于,检测源代码中是否包括预定的事件代码;若是,则检测事件代码中是否包括预定的触发函数代码。
在本实施例的一个可选实现方式中,基于网页的信息获取装置400还包括:筛选模块,用于基于资源信息的资源格式,对资源信息进行筛选。
应当理解,图4中记载的诸单元或模块与参考图1-3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于图4中的装置及其中包含的单元或模块,在此不再赘述。
本实施例提供的基于网页的信息获取装置,可以针对网页源代码中所包括的交互式代码,执行相应的触发操作,以便从触发操作的响应信息中得到隐藏于网页中的资源信息。通过针对交互式代码模拟用户操作,可以获取网页中隐藏的资源信息,从而提高了获取网页中各类信息的能力。
下面参考图5,其示出了适于用实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、检测模块、触发模块和响应模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“用于获取网页的源代码的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的基于网页的信息获取方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种基于网页的信息获取方法,其特征在于,包括:
获取所述网页的源代码;
检测所述源代码中是否包括交互式代码;
若是,则针对所述交互式代码执行相应的触发操作;
从响应于所述触发操作的信息中获取所述网页中的资源信息。
2.根据权利要求1所述的方法,其特征在于,所述交互式代码包括表单代码和/或触发函数代码。
3.根据权利要求2所述的方法,其特征在于,所述针对所述交互式代码执行相应的触发操作包括:
若所述源代码中包括所述表单代码,则确定与所述表单代码对应的表单中的表单元素;
构造与所述表单元素对应的表单参数;
将所述表单参数输入所述表单并进行表单提交。
4.根据权利要求3所述的方法,其特征在于,还包括:
若所述表单元素在所述源代码中对应多个预定参数,则针对每一个预定参数进行表单提交。
5.根据权利要求2所述的方法,其特征在于,所述针对所述交互式代码执行相应的触发操作包括:
若所述源代码中包括触发函数代码,则执行与所述触发函数代码对应的触发函数。
6.根据权利要求5所述的方法,其特征在于,所述检测所述源代码中是否包括交互式代码包括:
检测所述源代码中是否包括预定的事件代码;
若是,则检测所述事件代码中是否包括预定的触发函数代码。
7.根据权利要求1至6任一项所述的方法,其特征在于,还包括:
基于所述资源信息的资源格式,对所述资源信息进行筛选。
8.一种基于网页的信息获取装置,其特征在于,包括:
获取模块,用于获取所述网页的源代码;
检测模块,用于检测所述源代码中是否包括交互式代码;
触发模块,用于若所述源代码中包括所述交互式代码,则针对所述交互式代码执行相应的触发操作;
响应模块,用于从响应于所述触发操作的信息中获取所述网页中的资源信息。
9.根据权利要求8所述的装置,其特征在于,所述交互式代码包括表单代码和/或触发函数代码。
10.根据权利要求9所述的装置,其特征在于,所述触发模块包括:
确定单元,用于若所述源代码中包括所述表单代码,则确定与所述表单代码对应的表单中的表单元素;
构造单元,用于构造与所述表单元素对应的表单参数;
提交单元,用于将所述表单参数输入所述表单并进行表单提交。
11.根据权利要求10所述的装置,其特征在于,所述提交单元还用于,若所述表单元素在所述源代码中对应多个预定参数,则针对每一个预定参数进行表单提交。
12.根据权利要求9所述的装置,其特征在于,所述触发模块包括:
触发单元,用于若所述源代码中包括触发函数代码,则执行与所述触发函数代码对应的触发函数。
13.根据权利要求12所述的装置,其特征在于,所述检测模块还用于,检测所述源代码中是否包括预定的事件代码;若是,则检测所述事件代码中是否包括预定的触发函数代码。
14.根据权利要求8至13任一项所述的装置,其特征在于,还包括:
筛选模块,用于基于所述资源信息的资源格式,对所述资源信息进行筛选。
CN201510483056.1A 2015-08-07 2015-08-07 基于网页的信息获取方法及装置 Active CN105183453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510483056.1A CN105183453B (zh) 2015-08-07 2015-08-07 基于网页的信息获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510483056.1A CN105183453B (zh) 2015-08-07 2015-08-07 基于网页的信息获取方法及装置

Publications (2)

Publication Number Publication Date
CN105183453A true CN105183453A (zh) 2015-12-23
CN105183453B CN105183453B (zh) 2019-04-02

Family

ID=54905552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510483056.1A Active CN105183453B (zh) 2015-08-07 2015-08-07 基于网页的信息获取方法及装置

Country Status (1)

Country Link
CN (1) CN105183453B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609150A (zh) * 2017-08-28 2018-01-19 湖北省楚天云有限公司 一种基于页面元素选取的交互式网络爬虫创建方法及系统
CN107644028A (zh) * 2016-07-20 2018-01-30 平安科技(深圳)有限公司 网页数据的收集方法及系统
CN109992426A (zh) * 2017-12-29 2019-07-09 北京奇虎科技有限公司 网页代码的检测方法、装置和计算机可读存储介质
CN114676330A (zh) * 2022-03-30 2022-06-28 南京厚建软件有限责任公司 一种互联网平台互动数据统一回收的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515300A (zh) * 2009-04-02 2009-08-26 阿里巴巴集团控股有限公司 一种Ajax网页内容的抓取方法及系统
CN101706796A (zh) * 2008-11-14 2010-05-12 北京搜狗科技发展有限公司 展现网页资源的方法及装置
CN101996196A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 一种动态网页的采集方法及装置
CN103177115A (zh) * 2013-04-03 2013-06-26 北京奇虎科技有限公司 一种提取网页页面链接的方法和装置
CN103186670A (zh) * 2013-03-27 2013-07-03 中金数据系统有限公司 一种完整采集网页信息的方法和系统
CN103631806A (zh) * 2012-08-24 2014-03-12 华为技术有限公司 一种网络信息抓取方法和装置
CN104765746A (zh) * 2014-01-06 2015-07-08 腾讯科技(深圳)有限公司 用于移动通讯终端浏览器的数据处理方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706796A (zh) * 2008-11-14 2010-05-12 北京搜狗科技发展有限公司 展现网页资源的方法及装置
CN101515300A (zh) * 2009-04-02 2009-08-26 阿里巴巴集团控股有限公司 一种Ajax网页内容的抓取方法及系统
CN101996196A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 一种动态网页的采集方法及装置
CN103631806A (zh) * 2012-08-24 2014-03-12 华为技术有限公司 一种网络信息抓取方法和装置
CN103186670A (zh) * 2013-03-27 2013-07-03 中金数据系统有限公司 一种完整采集网页信息的方法和系统
CN103177115A (zh) * 2013-04-03 2013-06-26 北京奇虎科技有限公司 一种提取网页页面链接的方法和装置
CN104765746A (zh) * 2014-01-06 2015-07-08 腾讯科技(深圳)有限公司 用于移动通讯终端浏览器的数据处理方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644028A (zh) * 2016-07-20 2018-01-30 平安科技(深圳)有限公司 网页数据的收集方法及系统
CN107644028B (zh) * 2016-07-20 2020-09-04 平安科技(深圳)有限公司 网页数据的收集方法及系统
CN107609150A (zh) * 2017-08-28 2018-01-19 湖北省楚天云有限公司 一种基于页面元素选取的交互式网络爬虫创建方法及系统
CN109992426A (zh) * 2017-12-29 2019-07-09 北京奇虎科技有限公司 网页代码的检测方法、装置和计算机可读存储介质
CN114676330A (zh) * 2022-03-30 2022-06-28 南京厚建软件有限责任公司 一种互联网平台互动数据统一回收的方法
CN114676330B (zh) * 2022-03-30 2023-12-08 南京厚建软件有限责任公司 一种互联网平台互动数据统一回收的方法

Also Published As

Publication number Publication date
CN105183453B (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN107818143B (zh) 一种页面配置、生成方法及装置
US9384183B2 (en) Method and system for reporting web standard non-compliance of web pages
WO2020036966A1 (en) Systems, devices, and methods for facilitating website remediation and promoting assistive technologies
US10908928B2 (en) Rules-based workflow messaging
US8056014B2 (en) Web portal page interactive user interfaces with maximum accessibility to user selected portlets
CN109408752B (zh) 在线文档展示方法、装置以及电子设备
US10146754B2 (en) System and method for web content presentation management
US20220121723A1 (en) Distributed systems and methods for facilitating website remediation and promoting assistive technologies and detecting compliance issues
US8843360B1 (en) Client-side localization of network pages
CN105528408A (zh) 页面展示方法和装置
US20210149842A1 (en) System and method for display of document comparisons on a remote device
US20120005573A1 (en) Automatically adjusting a webpage
US20210042466A1 (en) Detecting compatible layouts for content-based native ads
US10417317B2 (en) Web page profiler
US9672197B2 (en) Universal rebranding engine
CN105183453A (zh) 基于网页的信息获取方法及装置
CN105138568A (zh) 搜索结果的展现方法、装置和搜索引擎
CN106874271A (zh) 一种将pc网页转换为移动终端网页的方法及系统
CN105138698A (zh) 网页的动态布局方法和装置
CN108984070B (zh) 用于热力图成像的方法、装置、电子设备及可读介质
US20140304301A1 (en) Identifying Selected Elements in Dynamic Content
CN114756228A (zh) 页面处理方法、装置、设备及存储介质
CN112612990A (zh) 网页解析方法、系统及计算机可读存储介质
CN105739717B (zh) 信息输入方法和装置
US11126410B2 (en) Method and apparatus for building pages, apparatus and non-volatile computer storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190822

Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: 100091 C, block, building No. 4, Zhongguancun Software Park, No. 8, West flourishing West Road, Beijing, China 1-03

Patentee before: Pacify a Heng Tong (Beijing) Science and Technology Ltd.