CN107784113A - Html网页数据采集方法、装置和计算机可读存储介质 - Google Patents

Html网页数据采集方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN107784113A
CN107784113A CN201711094091.XA CN201711094091A CN107784113A CN 107784113 A CN107784113 A CN 107784113A CN 201711094091 A CN201711094091 A CN 201711094091A CN 107784113 A CN107784113 A CN 107784113A
Authority
CN
China
Prior art keywords
page
html web
web page
list
path rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711094091.XA
Other languages
English (en)
Inventor
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN KEDUN TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN KEDUN TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN KEDUN TECHNOLOGY Co Ltd filed Critical SHENZHEN KEDUN TECHNOLOGY Co Ltd
Priority to CN201711094091.XA priority Critical patent/CN107784113A/zh
Publication of CN107784113A publication Critical patent/CN107784113A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种HTML网页数据采集方法,包括:判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。本发明还提供一种HTML网页数据采集装置和计算机可读存储介质。本发明通过对目标页面包含的列表页面的详细页路径规则进行直接抓取,从而在方法上简化了对HTML网页数据采集的步骤,由原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力。

Description

HTML网页数据采集方法、装置和计算机可读存储介质
技术领域
本发明涉及数据采集的技术领域,具体而言,涉及一种HTML网页数据采集方法、装置和计算机可读存储介质。
背景技术
互联网(英语:Internet),又称网际网络,或音译因特网(Internet)、英特网,互联网始于1969年美国的阿帕网。是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。通常internet泛指互联网,而Internet则特指因特网。这种将计算机网络互相联接在一起的方法可称作“网络互联”,在这基础上发展出覆盖全世界的全球性互联网络称互联网,即是互相连接一起的网络结构。互联网并不等同万维网,万维网只是一建基于超文本相互链接而成的全球性系统,且是互联网所能提供的服务其中之一。
随着互联网的普及,万维网已经成为巨大的数据载体,如何有效的利用这些数据成为了巨大的挑战。传统的搜索引擎比如谷歌浏览器是人们访问万维网的入口,但此类的搜索引擎也存在着一定的局限性,比如不同领域的人们有不同的检索需求,而通过传统浏览器搜索出的数据包含了大量人们不需要的信息。通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
总之,现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取,并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据,无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低。
发明内容
有鉴于此,本发明提供一种HTML网页数据采集方法、装置和计算机可读存储介质,旨在于解决目前现有技术中的数据采集方法无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低缺陷。
为实现上述目的,本发明提供HTML网页数据采集方法,所述HTML网页数据采集方法包括如下步骤:
判断当前页面是否包括列表页面;
若是,则根据所述列表页面对所述当前页面生成目标列表模块;
采集所述目标列表模块的详细页信息,并生成详细页路径规则。
优选地,所述步骤判断当前页面是否包括列表页面之后,还包括:
若否,则获取根据所述当前页面生成的详细字段信息;
保存所述详细字段信息。
优选地,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,还包括:
判断所述目标列表模块下的下一级链接是否包含第二列表页面;
若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。
优选地,所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,还包括:
将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。
优选地,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,还包括:
定时和/或实时获取保存的详细页路径规则;
判断所述详细页路径规则是否有效;
若否,保存错误信息;
若所述详细页路径规划的累计的错误信息数达到预设错误值,提示网页失效,并返回判断当前页面是否包括列表页面的步骤。
优选地,所述步骤判断当前页面是否包括列表页面之前,还包括
登录成功后,获取开启插件的指令;
根据所述指令,将所述插件嵌入至浏览器页面,以供所述插件进一步的判断当前页面是否包括列表页面。
优选地,所述登录成功后,获取开启插件的指令之前,还包括:
获取本地预存的登录信息;
判断是否存在本地账号;
若是,则读取本地账号,并登录;
若否,则输入账号密码注册,并登录。
此外,为解决上述问题,本发明还提供一种HTML网页数据采集装置,所述HTML网页数据采集装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的HTML网页数据采集程序,所述HTML网页数据采集程序被处理器执行时实现如上述所述的HTML网页数据采集方法的步骤。
此外,为解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有HTML网页数据采集程序,所述HTML网页数据采集程序被处理器执行时实现如上述所述的HTML网页数据采集方法的步骤。
本发明提出一种HTML网页数据采集方法、装置和计算机可读存储介质,判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。通过对目标页面包含的列表页面的详细页路径规则进行直接抓取,从而在方法上简化了对HTML网页数据采集的步骤,由原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力;避免了在对网路数据采集和抓取的过程中大量垃圾数据的产生,也同时避免了现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取,并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据,无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低的缺陷。
附图说明
图1为本发明HTML网页数据采集方法实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明HTML网页数据采集方法第一实施例的流程示意图;
图3为本发明HTML网页数据采集方法第二实施例的流程示意图;
图4为本发明HTML网页数据采集方法第三实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:
判断当前页面是否包括列表页面;
若是,则根据所述列表页面对所述当前页面生成目标列表模块;
采集所述目标列表模块的详细页信息,并生成详细页路径规则。
由于现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取,并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据,无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低。
本发明提供一种解决方案,通过判断当前页面是否包括列表页面,从而直接对页面的详细页路径规划进行抓取,从而使原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该HTML网页数据采集装置可以包括:处理器1001,例如CPU,数据接口1003,存储器1004,通信总线1002和数据采集控制装置1005。其中,通信总线1002用于实现这些组件之间的连接通信。数据接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、遥控器,可选数据接口1003还可以包括标准的有线接口、无线接口。存储器1004可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。数据采集控制装置1005用于对HTML网页数据采集装置的数据采集进行控制,对其采集的数据进行获取和分析。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口以及HTML网页数据采集装置程序。
在图1所示的HTML网页数据采集装置中,数据接口1003主要用于接收输入单元的指令并与其他外设进行数据通信;而处理器1001可以用于调用存储器1004中存储的HTML网页数据采集程序,并执行以下操作:
判断当前页面是否包括列表页面;
若是,则根据所述列表页面对所述当前页面生成目标列表模块;
采集所述目标列表模块的详细页信息,并生成详细页路径规则。
进一步地,所述步骤判断当前页面是否包括列表页面之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
若否,则获取根据所述当前页面生成的详细字段信息;
保存所述详细字段信息。
进一步地,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
判断所述目标列表模块下的下一级链接是否包含第二列表页面;
若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。
进一步地,所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。
进一步地,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
定时和/或实时获取保存的详细页路径规则;
判断所述详细页路径规则是否有效;
若否,保存错误信息;
若所述详细页路径规划的累计的错误信息数达到预设错误值,提示网页失效,并返回判断当前页面是否包括列表页面的步骤。
进一步地,所述步骤判断当前页面是否包括列表页面之前,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
登录成功后,获取开启插件的指令;
根据所述指令,将所述插件嵌入至浏览器页面,以供所述插件进一步的判断当前页面是否包括列表页面。
进一步地,所述登录成功后,获取开启插件的指令之前,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
获取本地预存的登录信息;
判断是否存在本地账号;
若是,则读取本地账号,并登录;
若否,则输入账号密码注册,并登录。
参照图2,本发明HTML网页数据采集方法第一实施例提供一种HTML网页数据采集方法,所述HTML网页数据采集方法包括步骤:
步骤S10,判断当前页面是否包括列表页面;
在对页面的数据抓取过程中,需要对当前的HTML页面的类型进行分析,HTML页面的类型可以包括例如新闻网页、论坛网页、视频直播网页、音频网页、在线游戏网页等等类型,进而对当前HTML的页面类型进行判断,判断该网页是否包括有列表页面,即是否可以读取到该页面下的列表,包含有列表页面的网页页面是进行进一步数据抓取的前提。例如,首先在浏览器输入一个网站后,进入其中需要进行专区数据的链接板块,再进行对该链接板块的网页页面进行分析,判断其是否含有列表页面。
步骤S20,若是,则根据所述列表页面对所述当前页面生成目标列表模块;
在判断当前网页页面包含有列表页面后,则该网页页面可进行进一步的数据抓取,此时可选择页面抓取算法对当前页面数据进行抓取。即为,生成目标列表模块,将当前的板块或网页页面作为目标列表模块,以供进一步对当前的网页页面的信息进行抓取。
步骤S30,采集所述目标列表模块的详细页信息,并生成详细页路径规则。
抽取当前的列表模块的每一个或一定数量的详细页信息,比如,新闻链接表。例如,以新浪网的军事版块为例。首先点击其中的一条新闻,红色虚线框将会把所有的链接都选中,红色虚线框选中的新闻,即引擎可以采集到的数据。用户点击列表页的第一条新闻标题,就会全部用红色虚线框住所有的标题,有时候不能框住所有标题,可通过点击右侧的外扩按钮,使其向外围扩展,以框住所有标题。如果框住了不相关的内容时,需要去掉不相关内容,可通过点击内缩按钮,收缩选框。再左侧列表模块输入框中输入该模块的名称,然后点击提交。如果该列表选择不正确,可以点击删除按钮,删除该选框再重新进行选择。提交后出现精确解析下拉框,几点下拉框会出现已经选上的新闻标题,可以从中任意选择一条标题进行详细页解析。在链接抓取好之后,进行提交即可完成数据采集。
所述步骤判断当前页面是否包括列表页面之后,还包括:
步骤S40,若否,则获取根据所述当前页面生成的详细字段信息;
步骤S50,保存所述详细字段信息。
若当前页面不包括列表页面,则可判断当前页面为详细页面,不为列表页面,例如为某板块的某条新闻,则可进行对该条新闻的详细页的算法。对当前新闻页面的数据进行抓取,并对抓取到的详细字段信息进行保存。
例如,点击精确解析后引擎将会解析已经抓取到的详细页列表中的某一个详细页,在程序上的页面类型要切换至详细页,根据是否国内外来选择,如果是国内的新闻信息则选择国内,如果是海外的信息,则在信息列表中选择海外,另外还提供了测试版的,在首次使用现行测试的时候可以选择测试,信息则流转至测试库。用户可根据自身的标签来选择客户表情,如果是使用科盾公司的则选择kd,如果是使用其它标签可选择idc。该标签可根据实际情况进行配置选择,按照新闻信息格式选择相关内容进行解析,点击信息的标题,出现红色的虚拟线框住标题,插件中会列出标题相关的HTML。然后依次按照下拉列表中所需要的信息格式进行其它选择,标题、时间、来源、正文、作者是必要的元素,必须要选择这五大元素,选中相关的元素后,提交新闻详细页面,即完成了详细页信息的抓取。
所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,还包括:
步骤S60,将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。
所保存的详细页的路径规则可以发送至云端数据库,也可以发送至本地数据库进行保存。在进行通讯时,通过终端设备对云端服务器的云端数据库进行读取,从而可以进步将云端的云端数据库中的数据获取到本地,进而再次使用该详细页路径规划。例如,打开新浪网的体育板块中的NBA项目的网页页面,对NBA项目的网页页面的列表进行读取,获取详细页路径规划,即为对该页面信息的读取规则进行获取,并将该信息发送至云端,当用户需要再次读取时,从服务端获取到该信息,可再次获取最新的NBA项目下的新闻。此外,获取详细页路径规划后,也可定时或不定时的进行刷新,随时获取当前板块下的所有最新新闻。
所述步骤判断当前页面是否包括列表页面之前,还包括:
步骤S70,获取本地预存的登录信息;
步骤S80,判断是否存在本地账号;
步骤S90,若是,则读取本地账号,并登录;
步骤S100,若否,则输入账号密码注册,并登录。
步骤S110,登录成功后,获取开启插件的指令;
步骤S120,根据所述指令,将所述插件嵌入至浏览器页面,以供所述插件进一步的判断当前页面是否包括列表页面。
上述,为本发明的登录过程,首先获取本地登录信息,分析本地的本地账号,若没有账号,则提示重新注册,若有账号,则提示进行登录,登录成功后,进行将本发明所应用的程序插件嵌入至浏览器页面,对浏览器的当前页面进行分析。
具体的,浏览器可以使用不同型号不同种类的浏览器,本发明中以谷歌浏览器为例,但本发明不限于使用浏览器对数据进行抓取,也可以通过其他软件或程序对网页页面进行浏览和抓取。
需要了解的是,本发明中的HTML网页数据采集方法,可以包括前端的插件和后端的服务管理方面的内容。具体的,前端采集插件生成时将在用户的谷歌浏览器上面形成一个工作台。工作台所涉及的按钮有:网站类型的切换按钮、列表页和详细页的切换按钮,删除按钮(用来删除路径规则)、测试(用来测试抓取情况)、外扩按钮(找到当前节点的父节点)、内缩(找到当前节点的子节点)、上层(找到当前节点的左兄弟节点)、下层(找到当前节点的右兄弟节点)、列表页提交(将抓取好的新闻列表提交到后台)、详细页提交(将抓取的标题、时间、来源、作者、正文提交到后台)、精确解析按钮(点击列表页提交后弹出精确解析按钮,用户点击精确按钮系统课自动跳转到详细页)。
后端服务管理系统将用户采集到的数据进行处理和分发。
后端服务管理系统分为三大模块:采集服务系统,定时与触发系统,采集处理系统。采集服务系统包含列表页管理、详细页管理和用户角色管理。用户角色分为管理员和普通用户,管理员拥有添加用户,修改用户信息以及删除用户的权限,而普通用户则只有使用该系统采集数据的权限。定时与触发系统管理爬虫程序的抓取频率。定时器将对不同类型的网源指定合适的抓取频率,定时任务类型有:论坛类网源定时任务,新闻类网源定时任务,海外媒体类网源定时任务以及客户自定义的网源类型定时任务(微信,微博等)。系统创建好定时任务以后启动触发器来执行这些定时任务。采集处理系统将系统利用规则爬去的数据进行处理。分为7步,分别是:列表型数据处理(新闻列表)、详细文档型数据处理(具有标题时间正文的详情页)、智能型数据处理(规则没有匹配上的但是有效的数据)、优先级数据处理(有较大舆情价值,影响范围广的数据)、标签路径失效监测(由于网站升级改变了标签结构导致现有的规则失效的网站)、结果数据分发处理(将抓取好的数据分发给路由)、消息队列读写(由路由分发给各个消息队列的数据)。
综上所述,本发明通过对目标页面包含的列表页面的详细页路径规则进行直接抓取,从而在方法上简化了对HTML网页数据采集的步骤,由原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力;避免了在对网路数据采集和抓取的过程中大量垃圾数据的产生,也同时避免了现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取,并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据,无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低的缺陷。
进一步的,参照图3,本发明HTML网页数据采集方法的第二实施例提供一种HTML网页数据采集方法,基于上述图2所示的第一实施例,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,所述HTML网页数据采集方法还包括步骤:
步骤S130,判断所述目标列表模块下的下一级链接是否包含第二列表页面;
步骤S140,若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。
进一步的,在获取当前网页页面的数据列表后,可对该详细字段信息进行保存。不同的网页都有一级标题二级标题三级标题等等,类似目录树的层级功能,当对其中一级标题下的网络页面进行获取详细字段信息后,可进一步对该一级标题是否有下一级链接或多级链接进行分析判断,若存在的话,可对用户进行提示,并可进行对其下一级链接的列表模块进行获取,进而对该列表模块下的详细字段信息进行保存。
进一步的,参照图4,本发明HTML网页数据采集方法的第三实施例提供一种HTML网页数据采集方法,基于上述图2所示的第一实施例,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,所述HTML网页数据采集方法还包括步骤:
步骤S150,定时和/或实时获取保存的详细页路径规则;
云端服务器对云端数据库中保存的该用户的详细页路径规则进行获取,通过预设时间点或预设的时间段,定时或者不定时的对该详细页路径规划进行监测,因为网络信息时效性很强,有些信息会随着时间的推移,被管理员或自媒体进行修改或删除,其链接地址会发生改变或消失,若继续保存在云端储存,则在用户读取时,可能会读取到部分垃圾信息,定时或不定时的检验会对上述垃圾信息进行过滤,从而减少用户获取到垃圾信息的几率。
步骤S160,判断所述详细页路径规则是否有效;
步骤S170,若否,保存错误信息;
步骤S180,若所述详细页路径规划的累计的错误信息数达到预设错误值,提示网页失效,并返回判断当前页面是否包括列表页面的步骤。
上述为云端或本地端对存储的详细页路径规划的检错机制,检错机制主要是对路径规则进行检测。系统可以每24个小时全量检测一次规则是否有效,对于返回404错误的网站进行返回次数累加,若累加次数达到一定数量,系统则认为该网站已失效或者该爬虫服务器IP被该网站永久禁止访问。对于规则失效的网站则以邮件的形式反馈回用户进行重新采集。
通过检测机制,可在一定程度上减少用户获取到垃圾信息的几率,提高获取目标信息的效率,从而使用户更快的成功抓取有效信息。
本发明还提供一种HTML网页数据采集装置,所述HTML网页数据采集装置包括处理器、存储器、用户接口及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的HTML网页数据采集程序,以实现以下步骤:
判断当前页面是否包括列表页面;
若是,则根据所述列表页面对所述当前页面生成目标列表模块;
采集所述目标列表模块的详细页信息,并生成详细页路径规则。
进一步地,所述步骤判断当前页面是否包括列表页面之后,处理器可以调用存储器中存储的HTML网页数据采集程序,还执行以下操作:
若否,则获取根据所述当前页面生成的详细字段信息;
保存所述详细字段信息。
进一步地,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,处理器可以调用存储器中存储的HTML网页数据采集程序,还执行以下操作:
判断所述目标列表模块下的下一级链接是否包含第二列表页面;
若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。
进一步地,所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,处理器可以调用存储器中存储的HTML网页数据采集程序,还执行以下操作:
将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。
进一步地,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,处理器可以调用存储器中存储的HTML网页数据采集程序,还执行以下操作:
定时和/或实时获取保存的详细页路径规则;
判断所述详细页路径规则是否有效;
若否,保存错误信息;
若所述详细页路径规划的累计的错误信息数达到预设错误值,提示网页失效,并返回判断当前页面是否包括列表页面的步骤。
进一步地,所述步骤判断当前页面是否包括列表页面之前,处理器可以调用存储器中存储的HTML网页数据采集程序,还执行以下操作:
登录成功后,获取开启插件的指令;
根据所述指令,将所述插件嵌入至浏览器页面,以供所述插件进一步的判断当前页面是否包括列表页面。
进一步地,所述登录成功后,获取开启插件的指令之前,处理器可以调用存储器中存储的HTML网页数据采集程序,还执行以下操作:
获取本地预存的登录信息;
判断是否存在本地账号;
若是,则读取本地账号,并登录;
若否,则输入账号密码注册,并登录。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有HTML网页数据采集程序,所述HTML网页数据采集程序被处理器执行时实现如下操作:
判断当前页面是否包括列表页面;
若是,则根据所述列表页面对所述当前页面生成目标列表模块;
采集所述目标列表模块的详细页信息,并生成详细页路径规则。
进一步地,所述步骤判断当前页面是否包括列表页面之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
若否,则获取根据所述当前页面生成的详细字段信息;
保存所述详细字段信息。
进一步地,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
判断所述目标列表模块下的下一级链接是否包含第二列表页面;
若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。
进一步地,所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。
进一步地,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
定时和/或实时获取保存的详细页路径规则;
判断所述详细页路径规则是否有效;
若否,保存错误信息;
若所述详细页路径规划的累计的错误信息数达到预设错误值,提示网页失效,并返回判断当前页面是否包括列表页面的步骤。
进一步地,所述步骤判断当前页面是否包括列表页面之前,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
登录成功后,获取开启插件的指令;
根据所述指令,将所述插件嵌入至浏览器页面,以供所述插件进一步的判断当前页面是否包括列表页面。
进一步地,所述登录成功后,获取开启插件的指令之前,处理器1001可以调用存储器1004中存储的HTML网页数据采集程序,还执行以下操作:
获取本地预存的登录信息;
判断是否存在本地账号;
若是,则读取本地账号,并登录;
若否,则输入账号密码注册,并登录。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种HTML网页数据采集方法,其特征在于,包括以下步骤:
判断当前页面是否包括列表页面;
若是,则根据所述列表页面对所述当前页面生成目标列表模块;
采集所述目标列表模块的详细页信息,并生成详细页路径规则。
2.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤判断当前页面是否包括列表页面之后,还包括:
若否,则获取根据所述当前页面生成的详细字段信息;
保存所述详细字段信息。
3.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,还包括:
判断所述目标列表模块下的下一级链接是否包含第二列表页面;
若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。
4.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,还包括:
将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。
5.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,还包括:
定时和/或实时获取保存的详细页路径规则;
判断所述详细页路径规则是否有效;
若否,保存错误信息;
若所述详细页路径规划的累计的错误信息数达到预设错误值,提示网页失效,并返回判断当前页面是否包括列表页面的步骤。
6.如权利要求1-5任一项所述HTML网页数据采集方法,其特征在于,所述步骤判断当前页面是否包括列表页面之前,还包括
登录成功后,获取开启插件的指令;
根据所述指令,将所述插件嵌入至浏览器页面,以供所述插件进一步的判断当前页面是否包括列表页面。
7.如权利要求6所述HTML网页数据采集方法,其特征在于,所述登录成功后,获取开启插件的指令之前,还包括:
获取本地预存的登录信息;
判断是否存在本地账号;
若是,则读取本地账号,并登录;
若否,则输入账号密码注册,并登录。
8.一种HTML网页数据采集装置,其特征在于,所述HTML网页数据采集装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的HTML网页数据采集程序,所述HTML网页数据采集程序被处理器执行时实现如权利要求1-8任一项所述HTML网页数据采集方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有HTML网页数据采集程序,所述HTML网页数据采集程序被处理器执行时实现如权利要求1-8任一项所述HTML网页数据采集方法的步骤。
CN201711094091.XA 2017-11-08 2017-11-08 Html网页数据采集方法、装置和计算机可读存储介质 Pending CN107784113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711094091.XA CN107784113A (zh) 2017-11-08 2017-11-08 Html网页数据采集方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711094091.XA CN107784113A (zh) 2017-11-08 2017-11-08 Html网页数据采集方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN107784113A true CN107784113A (zh) 2018-03-09

Family

ID=61432756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711094091.XA Pending CN107784113A (zh) 2017-11-08 2017-11-08 Html网页数据采集方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107784113A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710874A (zh) * 2018-11-09 2019-05-03 深圳壹账通智能科技有限公司 页面数据的处理方法及装置、存储介质、计算机设备
CN109902220A (zh) * 2019-02-27 2019-06-18 腾讯科技(深圳)有限公司 网页信息获取方法、装置和计算机可读存储介质
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN114221947A (zh) * 2022-02-21 2022-03-22 浪潮通用软件有限公司 电脑外设设备数据采集的方法、系统、设备和存储介质
CN115827953A (zh) * 2023-02-20 2023-03-21 中航信移动科技有限公司 用于网页数据抽取的数据处理方法、存储介质及电子设备
CN116070052A (zh) * 2023-01-28 2023-05-05 爱集微咨询(厦门)有限公司 界面数据传输方法、装置、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254046A (zh) * 2011-08-18 2011-11-23 深圳市融创天下科技股份有限公司 一种网页数据采集方法、系统
US20130132351A1 (en) * 2011-11-18 2013-05-23 Sap Ag Collection inspector
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法
CN105354204A (zh) * 2014-08-22 2016-02-24 北京金山安全软件有限公司 一种网页数据的搜集方法以及装置
CN105760545A (zh) * 2016-03-17 2016-07-13 湖南中周至尚信息技术有限公司 基于可配置规则的网站数据搜索方法
CN107092670A (zh) * 2017-04-11 2017-08-25 武汉大学 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254046A (zh) * 2011-08-18 2011-11-23 深圳市融创天下科技股份有限公司 一种网页数据采集方法、系统
US20130132351A1 (en) * 2011-11-18 2013-05-23 Sap Ag Collection inspector
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法
CN105354204A (zh) * 2014-08-22 2016-02-24 北京金山安全软件有限公司 一种网页数据的搜集方法以及装置
CN105760545A (zh) * 2016-03-17 2016-07-13 湖南中周至尚信息技术有限公司 基于可配置规则的网站数据搜索方法
CN107092670A (zh) * 2017-04-11 2017-08-25 武汉大学 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN110019486B (zh) * 2018-07-19 2023-04-11 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN109710874A (zh) * 2018-11-09 2019-05-03 深圳壹账通智能科技有限公司 页面数据的处理方法及装置、存储介质、计算机设备
CN109902220A (zh) * 2019-02-27 2019-06-18 腾讯科技(深圳)有限公司 网页信息获取方法、装置和计算机可读存储介质
CN109902220B (zh) * 2019-02-27 2023-11-24 腾讯科技(深圳)有限公司 网页信息获取方法、装置和计算机可读存储介质
CN114221947A (zh) * 2022-02-21 2022-03-22 浪潮通用软件有限公司 电脑外设设备数据采集的方法、系统、设备和存储介质
CN116070052A (zh) * 2023-01-28 2023-05-05 爱集微咨询(厦门)有限公司 界面数据传输方法、装置、终端及存储介质
CN115827953A (zh) * 2023-02-20 2023-03-21 中航信移动科技有限公司 用于网页数据抽取的数据处理方法、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN107784113A (zh) Html网页数据采集方法、装置和计算机可读存储介质
CN109543086B (zh) 一种面向多数据源的网络数据采集与展示方法
Raghavan et al. Crawling the hidden web
US8626768B2 (en) Automated discovery aggregation and organization of subject area discussions
CN103377200B (zh) 用户偏好信息采集方法和装置
Ahmadi-Abkenari et al. An architecture for a focused trend parallel Web crawler with the application of clickstream analysis
CN106096056A (zh) 一种基于分布式的舆情数据实时采集方法和系统
US20110087644A1 (en) Enterprise node rank engine
US20140095427A1 (en) Seo results analysis based on first order data
Zhang et al. Developing a dark web collection and infrastructure for computational and social sciences
CN102117331B (zh) 视频搜索方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
US20100161671A1 (en) System and method for generating hierarchical categories from collection of related terms
CN103914534A (zh) 基于专家系统url分类知识库的文本内容分类方法
Choudhary et al. Role of ranking algorithms for information retrieval
CN105069004A (zh) 专利信息自动采集方法
CN112000866A (zh) 互联网数据分析方法、装置、电子装置及介质
CN106844553A (zh) 基于样本数据的数据探测和扩充方法及装置
Khan et al. Self-adaptive ontology-based focused crawling: a literature survey
JP2012168582A (ja) 潜在クラス分析装置、潜在クラス分析方法及びプログラム
JP5384567B2 (ja) 潜在クラス分析装置、潜在クラス分析方法及びプログラム
CN103902707A (zh) 基于专家系统url清洗知识库的“垃圾”内容过滤方法
Saberi¹ et al. What does the future of search engine optimization hold?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180309

RJ01 Rejection of invention patent application after publication