CN110851690A - 一种对监测网站进行网络信息采集的方法和装置 - Google Patents

一种对监测网站进行网络信息采集的方法和装置 Download PDF

Info

Publication number
CN110851690A
CN110851690A CN201911115673.0A CN201911115673A CN110851690A CN 110851690 A CN110851690 A CN 110851690A CN 201911115673 A CN201911115673 A CN 201911115673A CN 110851690 A CN110851690 A CN 110851690A
Authority
CN
China
Prior art keywords
proxy server
monitoring website
monitoring
address
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911115673.0A
Other languages
English (en)
Inventor
杨杰
邹琴
钟生海
赵明辉
曹舒禹
苏冬南
焦鹏
孙燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201911115673.0A priority Critical patent/CN110851690A/zh
Publication of CN110851690A publication Critical patent/CN110851690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种对监测网站进行网络信息采集的方法和装置,属于网络信息采集技术领域。本发明通过利用代理服务器对监测网站进行信息采集,信息采集系统的IP地址不直接进行网络信息采集,有效地保护了信息采集系统的IP地址。即使某个代理服务器被封,只需跟换代理服务器就可以,信息采集系统的IP地址不换,不会对网络信息的采集任务造成任何影响,大大提高了对监测网站进行网络信息采集的效率。

Description

一种对监测网站进行网络信息采集的方法和装置
技术领域
本发明属于网络信息采集技术领域,具体涉及一种对监测网站进行网络信息采集的方法和装置。
背景技术
网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
为了获取网络舆情,需要用户利用网页爬虫工具对监测网站进行定向的网络信息抓取,上述监测网站的类型比较广泛,可以包括:新闻、论坛、微博、贴吧、博客、视频、报刊杂志等。上述监测网站的地理位置可以位于国内或者国外。
现有技术中的一种对监测网站进行定向的网络信息抓取的方法包括:网络舆情监测系统中的网页爬虫工具通过设定的采集IP直接连接监测网站,对监测网站进行定向的网络信息抓取。
上述现有技术中的一种对监测网站进行定向的网络信息抓取的方法的缺点为:由于网络舆情的监测是个长期和实时的过程,网络舆情监测系统中的网页爬虫工具通过设定的采集IP长期和实时地连接监测网站,进行信息抓取,会被监测网站认为是是恶意信息采集,监测网站会对该采集IP进行封杀,导致不能对该监测网站进行网络舆情监测。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种对监测网站进行网络信息采集的方法和装置,以提高对监测网站进行网络信息采集的效率。
(二)技术方案
为了解决上述技术问题,本发明提供了一种对监测网站进行网络信息采集的装置,包括:
所述信息采集系统,与代理服务器进行网络连接,用于接收所述代理服务器传输过来的网络信息;
所述代理服务器,与监测网站进行网络连接,用于通过多个IP地址轮循对所述监测网站进行信息采集,将采集到的网络信息传输给所述信息采集系统。
优选地,所述代理服务器包括:
信息管理模块,用于管理代理服务器的多个IP地址,根据代理服务器需要监测的各个监测网站的参数信息,将各个监测网站划分成不同的级别,针对每个级别的监测网站分别设定相应的网络信息的采集时间间隔,将每个监测网站的标识、监测网站所属的级别与监测网站对应的采集时间间隔之间的对应关系存储在采集时间间隔表中;
信息采集系统网络连接模块,用于将所述代理服务器的每个IP地址和将信息采集系统的IP地址进行网络连接;
监测网站网络连接模块,用于根据监测网站对应的采集时间间隔,将代理服务器的每个IP地址轮循与所述监测网站进行网络连接。
优选地,所述监测网站网络连接模块具体用于当所述代理服务器只对一个监测网站进行网络信息采集时,根据该监测网站的标识查询所述采集时间间隔表,获取该监测网站对应的采集时间间隔;按照这个监测网站对应的采集时间间隔,将代理服务器的各个IP地址轮循和该监测网站进行网络连接;或者,从空闲的代理服务器的多个IP地址中随机选取一个IP地址和该监测网站进行网络连接。
优选地,所述监测网站网络连接模块具体用于当所述代理服务器对多个监测网站进行网络信息采集,将一个代理服务器对应的多个监测网站配置为相同级别的监测网站;根据所述代理服务器对应的任意一个监测网站的标识查询所述采集时间间隔表,获取所述代理服务器对应的各个监测网站对应的采集时间间隔,将所述代理服务器的每个IP地址按照所述采集时间间隔轮循和各个监测网站进行网络连接,一个监测网站在同一时间只和一个代理服务器的IP地址进行网络连接。
优选地,所述代理服务器还包括:
网络信息采集模块,用于在代理服务器中设置多个网页抓取工具,给每个网页抓取工具分别配置一个代理服务器的IP地址,当一个网页抓取工具配置的IP地址连接了一个监测网站后,该网页抓取工具通过配置的IP地址对所述某个监测网站进行网络信息采集;
网络信息传输模块,用于对所述网页抓取工具采集的网络信息进行格式化处理,得到格式化网络文件,对所述格式化网络文件进行加密处理,通过和所述信息采集系统的IP地址之间的网络连接将加密处理后的格式化网络文件传输给所述信息采集系统。
本发明还提供了一种利用所述的装置对监测网站进行网络信息采集的方法,包括如下步骤:
步骤S210、将信息采集系统和代理服务器进行网络连接,将代理服务器的每个IP地址轮循与监测网站进行网络连接;
步骤S220、代理服务器通过多个IP地址轮循对所述监测网站进行信息采集;
步骤S230、代理服务器将采集到的网络信息传输给所述信息采集系统。
网络信息传输模块对网页抓取工具采集的网络信息进行格式化处理,得到格式化网络文件,对所述格式化网络文件进行加密处理,代理服务器通过和所述信息采集系统的IP地址之间的网络连接,将加密处理后的格式化网络文件传输给所述信息采集系统。
优选地,步骤S210具体为:信息管理模块根据各个监测网站的参数信息将各个监测网站划分成不同的级别,针对每个级别的监测网站分别设定相应的网络信息的采集频率,每个采集频率对应相应的采集时间间隔,将每个监测网站的标识、监测网站所属的级别和监测网站的采集时间间隔之间的对应关系存储在采集时间间隔表中;
为信息采集系统配置一个IP地址,在代理服务器中设置多个IP地址,将信息采集系统的IP地址和代理服务器的每个IP地址进行无线网络连接;
监测网站网络连接模块根据监测网站对应的采集时间间隔,将所述代理服务器的每个IP地址轮循与监测网站进行网络连接。
优选地,步骤S210中,当一个代理服务器只对一个监测网站进行网络信息采集时,根据该某个监测网站的标识查询采集时间间隔表,获取该监测网站对应的采集时间间隔;然后,按照采集时间间隔,将代理服务器的各个IP地址轮循与监测网站进行网络连接;或者,从代理服务器的空闲的多个IP地址中随机选取一个IP地址与监测网站进行网络连接;
当一个代理服务器对多个监测网站进行网络信息采集时,将一个代理服务器对应的多个监测网站配置为相同级别的监测网站,即代理服务器对应的各个监测网站对应的采集时间间隔是相同的;根据该代理服务器对应的任意一个监测网站的标识查询采集时间间隔表,获取该代理服务器对应的各个监测网站对应的采集时间间隔,然后,将代理服务器的每个IP地址按照采集时间间隔轮循与各个监测网站进行网络连接,一个监测网站在同一时间只与一个IP地址进行网络连接;
当所述监测网站的数量大于或等于所述代理服务器的IP地址的数量时,在初始化时,将代理服务器的每个IP地址分别与多个监测网站中的不同的监测网站进行网络连接。
优选地,步骤S220具体为:网络信息采集模块设置多个网页抓取工具,给每个网页抓取工具分别配置一个代理服务器的IP地址,当一个网页抓取工具配置的IP地址连接了一个监测网站时,该网页抓取工具通过配置的IP地址对该监测网站进行网络信息采集。
优选地,所述网页抓取工具可自动适应网站HTML页面规则,预处理多种网站页面结构,自动抓取定向的网页。
(三)有益效果
本发明通过利用代理服务器对监测网站进行信息采集,信息采集系统的IP地址不直接进行网络信息采集,有效地保护了信息采集系统的IP地址。即使某个代理服务器被封,只需跟换代理服务器就可以,信息采集系统的IP地址不换,不会对网络信息的采集任务造成任何影响,大大提高了对监测网站进行网络信息采集的效率。
附图说明
图1为本发明实施例一提供的一种对监测网站进行网络信息采集的方法的实现原理示意图;
图2为本发明实施例一提供的一种对监测网站进行网络信息采集的方法的处理流程图;
图3为本发明实施例一提供的一种将代理服务器的各个IP地址轮循和某个监测网站进行网络连接的示意图。
图4为本发明实施例二提供的一种对监测网站进行网络信息采集的装置的具体实现结构图。
其中,信息采集系统41,代理服务器42,信息管理模块421,信息采集系统网络连接模块422,监测网站网络连接模块423,网络信息采集模块424,网络信息传输模块425。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
实施例一
本发明实施例提供了一种对监测网站进行网络信息采集的装置,其具体实现结构如图4所示,具体包括如下模块:
所述信息采集系统41,和代理服务器进行网络连接,用于接收所述代理服务器传输过来的网络信息;
所述代理服务器42,与监测网站进行网络连接,用于通过多个IP地址轮循对所述监测网站进行信息采集,将采集到的网络信息传输给所述信息采集系统。
进一步地,所述代理服务器42包括:
信息管理模块421,用于管理代理服务器42的多个IP地址,根据代理服务器42需要监测的各个监测网站的参数信息,将各个监测网站划分成不同的级别,针对每个级别的监测网站分别设定相应的网络信息的采集时间间隔,将每个监测网站的标识、监测网站所属的级别和监测网站对应的采集时间间隔之间的对应关系存储在采集时间间隔表中;
信息采集系统网络连接模块422,用于将所述代理服务器42的每个IP地址和所述将信息采集系统41的IP地址进行网络连接;
监测网站网络连接模块423,用于根据监测网站对应的采集时间间隔,将代理服务器42的每个IP地址轮循与所述监测网站进行网络连接。
应用场景1、所述监测网站网络连接模块423具体用于当所述代理服务器42只对某一个监测网站进行网络信息采集时,根据该某个监测网站的标识查询所述采集时间间隔表,获取该某个监测网站对应的采集时间间隔;
按照所述某个监测网站对应的采集时间间隔,将代理服务器42的各个IP地址轮循和所述某个监测网站进行网络连接;或者,从空闲的代理服务器42的多个IP地址中随机选取某个IP地址和所述某个监测网站进行网络连接。
应用场景2、所述监测网站网络连接模块423具体用于当所述代理服务器42对多个监测网站进行网络信息采集,将一个代理服务器42对应的多个监测网站配置为相同级别的监测网站;
根据所述代理服务器42对应的任意一个监测网站的标识查询所述采集时间间隔表,获取所述代理服务器42对应的各个监测网站对应的采集时间间隔,将所述代理服务器42的每个IP地址按照所述采集时间间隔轮循和各个监测网站进行网络连接,一个监测网站在同一时间只和一个所述代理服务器的IP地址进行网络连接。
网络信息采集模块424,用于在代理服务器42中设置多个网页抓取工具,给每个网页抓取工具分别配置一个代理服务器42的IP地址,当某个网页抓取工具配置的IP地址连接了某个监测网站后,该某个网页抓取工具通过配置的IP地址对所述某个监测网站进行网络信息采集;
网络信息传输模块425,用于对所述网页抓取工具采集的网络信息进行格式化处理,得到格式化网络文件,对所述格式化网络文件进行加密处理,通过和所述信息采集系统41的IP地址之间的网络连接将加密处理后的格式化网络文件传输给所述信息采集系统41。
实施例二
本发明实施例为了保证网络舆情监测系统等信息采集系统能够正常的使用,必须确保采集IP不会被监测网站所封杀,为了解决这个问题,本发明实施例提供了一种对监测网站进行网络信息采集的方法,该方法的实现原理示意图如图1所示,该方法的处理流程如图2所示,包括如下的处理步骤:
步骤S210、将信息采集系统和代理服务器进行网络连接,将代理服务器的每个IP地址轮循与监测网站进行网络连接。
在网络舆情监测系统等信息采集系统中,用户可自定义监测网站和监测关键词,监测网站的范围可以包括:新闻、论坛、微博、贴吧、博客、视频、报刊杂志等,监测网站的地理位置可以位于国内或者国外,监测网站的数量通常也比较大。比如,针对一个网络舆情监测系统,监测网站的数量可以有7000个。
本发明实施例可以根据各个监测网站的重要性、网络信息流量、网络访问量等参数信息将各个监测网站划分成不同的级别,针对每个级别的监测网站分别设定相应的网络信息的采集频率,每个采集频率对应相应的采集时间间隔。将每个监测网站的标识、监测网站所属的级别和监测网站的采集时间间隔之间的对应关系存储在采集时间间隔表中。
在本发明实施例中,信息采集系统只需要配置一个IP地址,信息采集系统的IP地址不直接去进行网络信息采集任务,而是通过代理服务器,用代理服务器的IP地址去完成采集任务,该项技术的优势在于,即使某个代理服务器被封,只需跟换代理服务器就可以,信息采集系统的IP地址不换,不会对网络信息的采集任务造成任何影响,并且由于采取了代理服务器,该技术对于境外网络站点的采集更有优势。
在代理服务器中设置多个IP地址,将信息采集系统的IP地址和所述代理服务器的每个IP地址进行无线网络连接。
然后,根据监测网站对应的采集时间间隔,将所述代理服务器的每个IP地址轮循与监测网站进行网络连接。
应用场景1:当一个代理服务器只对某一个监测网站进行网络信息采集时,根据该某个监测网站的标识查询上述采集时间间隔表,获取该某个监测网站对应的采集时间间隔。
然后,按照上述采集时间间隔,将代理服务器的各个IP地址轮循与所述某个监测网站进行网络连接。该实施例提供的一种将代理服务器的各个IP地址轮循与某个监测网站进行网络连接的示意图如图3所示;
或者,从代理服务器的空闲的多个IP地址中随机选取某个IP地址与所述某个监测网站进行网络连接。
应用场景2:当一个代理服务器对多个监测网站进行网络信息采集时,在本发明实施例中,将一个代理服务器对应的多个监测网站配置为相同级别的监测网站,即代理服务器对应的各个监测网站对应的采集时间间隔是相同的。
根据该代理服务器对应的任意一个监测网站的标识查询上述采集时间间隔表,获取该代理服务器对应的各个监测网站对应的采集时间间隔。然后,将代理服务器的每个IP地址按照上述采集时间间隔轮循与各个监测网站进行网络连接,一个监测网站在同一时间只与一个IP地址进行网络连接。
当所述监测网站的数量大于或等于所述代理服务器的IP地址的数量时,在初始化时,将上述代理服务器的每个IP地址分别与多个监测网站中的不同的监测网站进行网络连接。
步骤S220、代理服务器通过多个IP地址轮循对所述监测网站进行信息采集。
在代理服务器中设置多个网页抓取工具,给每个网页抓取工具分别配置一个代理服务器的IP地址,当某个网页抓取工具配置的IP地址连接了某个监测网站时,该网页抓取工具通过配置的IP地址对所述某个监测网站进行网络信息采集。
智能设计的网页抓取工具可以自动适应网站HTML(Hypertext transferprotocol,超文本转移协议)页面规则,预处理多种网站页面结构,有着完善的站点采集机制,自动将定向的网页抓取下来。并且能够自动适应网站改版,不需要人工重新配置,能够大大降低人工配置网站规则的工作量。
步骤S230、代理服务器将采集到的网络信息传输给所述信息采集系统。
对上述网页抓取工具采集的网络信息进行格式化处理,得到格式化网络文件,比如,该文件可以为XML(eXtensible Markup Language,可扩展标记语言)文件或者HTTP网页文件。
对所述格式化网络文件进行加密处理,代理服务器通过和所述信息采集系统的IP地址之间的网络连接,将加密处理后的格式化网络文件传输给所述信息采集系统。
综上所述,本发明实施例通过利用代理服务器对监测网站进行信息采集,信息采集系统的IP地址不直接进行网络信息采集,有效地保护了信息采集系统的IP地址。即使某个代理服务器被封,只需跟换代理服务器就可以,信息采集系统的IP地址不换,不会对网络信息的采集任务造成任何影响,大大提高了对监测网站进行网络信息采集的效率。该方案对于境外网络站点的采集更有优势。
本发明实施例通过在代理服务器中设置多个IP地址,多个IP地址轮循和监测网站连接,对监测网站进行信息采集,实现了即使代理服务器的某个IP地址被封,代理服务器将会采用其他的IP地址继续进行网络信息采集,不会对采集任务造成任何影响,并且由于IP轮循的原因,一般情况下,监测网站都会不认为该IP地址是恶意访问,减少了采集IP地址被封的可能性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种对监测网站进行网络信息采集的装置,其特征在于,包括:
所述信息采集系统,与代理服务器进行网络连接,用于接收所述代理服务器传输过来的网络信息;
所述代理服务器,与监测网站进行网络连接,用于通过多个IP地址轮循对所述监测网站进行信息采集,将采集到的网络信息传输给所述信息采集系统。
2.如权利要求1所述的装置,其特征在于,所述代理服务器包括:
信息管理模块,用于管理代理服务器的多个IP地址,根据代理服务器需要监测的各个监测网站的参数信息,将各个监测网站划分成不同的级别,针对每个级别的监测网站分别设定相应的网络信息的采集时间间隔,将每个监测网站的标识、监测网站所属的级别与监测网站对应的采集时间间隔之间的对应关系存储在采集时间间隔表中;
信息采集系统网络连接模块,用于将所述代理服务器的每个IP地址和将信息采集系统的IP地址进行网络连接;
监测网站网络连接模块,用于根据监测网站对应的采集时间间隔,将代理服务器的每个IP地址轮循与所述监测网站进行网络连接。
3.如权利要求2所述的装置,其特征在于,所述监测网站网络连接模块具体用于当所述代理服务器只对一个监测网站进行网络信息采集时,根据该监测网站的标识查询所述采集时间间隔表,获取该监测网站对应的采集时间间隔;按照这个监测网站对应的采集时间间隔,将代理服务器的各个IP地址轮循和该监测网站进行网络连接;或者,从空闲的代理服务器的多个IP地址中随机选取一个IP地址和该监测网站进行网络连接。
4.如权利要求3所述的装置,其特征在于,所述监测网站网络连接模块具体用于当所述代理服务器对多个监测网站进行网络信息采集,将一个代理服务器对应的多个监测网站配置为相同级别的监测网站;根据所述代理服务器对应的任意一个监测网站的标识查询所述采集时间间隔表,获取所述代理服务器对应的各个监测网站对应的采集时间间隔,将所述代理服务器的每个IP地址按照所述采集时间间隔轮循和各个监测网站进行网络连接,一个监测网站在同一时间只和一个代理服务器的IP地址进行网络连接。
5.如权利要求4所述的装置,其特征在于,所述代理服务器还包括:
网络信息采集模块,用于在代理服务器中设置多个网页抓取工具,给每个网页抓取工具分别配置一个代理服务器的IP地址,当一个网页抓取工具配置的IP地址连接了一个监测网站后,该网页抓取工具通过配置的IP地址对所述某个监测网站进行网络信息采集;
网络信息传输模块,用于对所述网页抓取工具采集的网络信息进行格式化处理,得到格式化网络文件,对所述格式化网络文件进行加密处理,通过和所述信息采集系统的IP地址之间的网络连接将加密处理后的格式化网络文件传输给所述信息采集系统。
6.一种利用权利要求5所述的装置对监测网站进行网络信息采集的方法,其特征在于,包括如下步骤:
步骤S210、将信息采集系统和代理服务器进行网络连接,将代理服务器的每个IP地址轮循与监测网站进行网络连接;
步骤S220、代理服务器通过多个IP地址轮循对所述监测网站进行信息采集;
步骤S230、代理服务器将采集到的网络信息传输给所述信息采集系统。
网络信息传输模块对网页抓取工具采集的网络信息进行格式化处理,得到格式化网络文件,对所述格式化网络文件进行加密处理,代理服务器通过和所述信息采集系统的IP地址之间的网络连接,将加密处理后的格式化网络文件传输给所述信息采集系统。
7.如权利要求6所述的方法,其特征在于,步骤S210具体为:信息管理模块根据各个监测网站的参数信息将各个监测网站划分成不同的级别,针对每个级别的监测网站分别设定相应的网络信息的采集频率,每个采集频率对应相应的采集时间间隔,将每个监测网站的标识、监测网站所属的级别和监测网站的采集时间间隔之间的对应关系存储在采集时间间隔表中;
为信息采集系统配置一个IP地址,在代理服务器中设置多个IP地址,将信息采集系统的IP地址和代理服务器的每个IP地址进行无线网络连接;
监测网站网络连接模块根据监测网站对应的采集时间间隔,将所述代理服务器的每个IP地址轮循与监测网站进行网络连接。
8.如权利要求6所述的方法,其特征在于,步骤S210中,当一个代理服务器只对一个监测网站进行网络信息采集时,根据该某个监测网站的标识查询采集时间间隔表,获取该监测网站对应的采集时间间隔;然后,按照采集时间间隔,将代理服务器的各个IP地址轮循与监测网站进行网络连接;或者,从代理服务器的空闲的多个IP地址中随机选取一个IP地址与监测网站进行网络连接;
当一个代理服务器对多个监测网站进行网络信息采集时,将一个代理服务器对应的多个监测网站配置为相同级别的监测网站,即代理服务器对应的各个监测网站对应的采集时间间隔是相同的;根据该代理服务器对应的任意一个监测网站的标识查询采集时间间隔表,获取该代理服务器对应的各个监测网站对应的采集时间间隔,然后,将代理服务器的每个IP地址按照采集时间间隔轮循与各个监测网站进行网络连接,一个监测网站在同一时间只与一个IP地址进行网络连接;
当所述监测网站的数量大于或等于所述代理服务器的IP地址的数量时,在初始化时,将代理服务器的每个IP地址分别与多个监测网站中的不同的监测网站进行网络连接。
9.如权利要求8所述的方法,其特征在于,步骤S220具体为:网络信息采集模块设置多个网页抓取工具,给每个网页抓取工具分别配置一个代理服务器的IP地址,当一个网页抓取工具配置的IP地址连接了一个监测网站时,该网页抓取工具通过配置的IP地址对该监测网站进行网络信息采集。
10.如权利要求9所述的方法,其特征在于,所述网页抓取工具可自动适应网站HTML页面规则,预处理多种网站页面结构,自动抓取定向的网页。
CN201911115673.0A 2019-11-14 2019-11-14 一种对监测网站进行网络信息采集的方法和装置 Pending CN110851690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911115673.0A CN110851690A (zh) 2019-11-14 2019-11-14 一种对监测网站进行网络信息采集的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911115673.0A CN110851690A (zh) 2019-11-14 2019-11-14 一种对监测网站进行网络信息采集的方法和装置

Publications (1)

Publication Number Publication Date
CN110851690A true CN110851690A (zh) 2020-02-28

Family

ID=69601830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911115673.0A Pending CN110851690A (zh) 2019-11-14 2019-11-14 一种对监测网站进行网络信息采集的方法和装置

Country Status (1)

Country Link
CN (1) CN110851690A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898013A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种网站监测的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000002141A1 (en) * 1998-07-03 2000-01-13 Fujun Bi A system for crawling the web and extracting designated data and the method therefor i.e. webharvester
CN104967698A (zh) * 2015-02-13 2015-10-07 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置
CN105989151A (zh) * 2015-03-02 2016-10-05 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN108900623A (zh) * 2018-07-11 2018-11-27 邦尼集团有限公司 一种基于动态ip的网页正文获取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000002141A1 (en) * 1998-07-03 2000-01-13 Fujun Bi A system for crawling the web and extracting designated data and the method therefor i.e. webharvester
CN104967698A (zh) * 2015-02-13 2015-10-07 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置
CN105989151A (zh) * 2015-03-02 2016-10-05 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN108900623A (zh) * 2018-07-11 2018-11-27 邦尼集团有限公司 一种基于动态ip的网页正文获取方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898013A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种网站监测的方法及装置
CN111898013B (zh) * 2020-07-27 2024-03-19 绿盟科技集团股份有限公司 一种网站监测的方法及装置

Similar Documents

Publication Publication Date Title
CN102035696B (zh) 一种网站访问性能监测方法、装置及系统
CN103152352A (zh) 一种基于云计算环境的全信息安全取证监听方法和系统
CN100563214C (zh) 一种提高访问网络资源速度的方法及系统
CN110083391A (zh) 调用请求监控方法、装置、设备及存储介质
CN104283723A (zh) 网络访问日志处理方法及装置
CN101046806B (zh) 搜索引擎系统和方法
CN104122865A (zh) 农机故障分析维修方法和系统
CN114401284B (zh) 固定污染源治理工况实时数据采集与传输系统及方法
CN113452780A (zh) 针对客户端的访问请求处理方法、装置、设备及介质
CN106850572A (zh) 目标资源的访问方法和装置
CN201919010U (zh) 一种网站访问性能监测系统
US10225358B2 (en) Page push method, device, server and system
CN110851690A (zh) 一种对监测网站进行网络信息采集的方法和装置
CN101626521B (zh) 电视网络监控方法、监控终端及监控系统
CN113014573B (zh) Dns服务器的监控方法、系统、电子装置和存储介质
CN102970391B (zh) 域名查询处理方法、服务器及系统
CN104967698A (zh) 一种爬取网络数据的方法和装置
CN110198227B (zh) 日志文件的处理方法、装置、存储介质及电子装置
CN208046653U (zh) 一种电力监控系统网络安全监测主站平台系统
CN101938383A (zh) 多种业务的用户账号在线监控方法、系统与监控服务系统
CN109274702A (zh) 一种网站内容采集方法及装置
WO2019123832A1 (ja) 端末管理装置及び端末装置
WO2018149479A1 (en) Distributed meta messaging computing
JP2003233417A (ja) データ通信装置とその方法、およびデータ通信プログラムとそのプログラムを記録した記録媒体
CN105338091A (zh) 高传输效率的个性化信息界面显示方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228