CN106547793A - 获取代理服务器地址的方法和装置 - Google Patents
获取代理服务器地址的方法和装置 Download PDFInfo
- Publication number
- CN106547793A CN106547793A CN201510609711.3A CN201510609711A CN106547793A CN 106547793 A CN106547793 A CN 106547793A CN 201510609711 A CN201510609711 A CN 201510609711A CN 106547793 A CN106547793 A CN 106547793A
- Authority
- CN
- China
- Prior art keywords
- proxy server
- server address
- data
- crawling
- success rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
本申请公开了一种获取代理服务器地址的方法和装置。其中,该方法包括:收集代理服务器地址,得到代理服务器地址集;分别利用代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果;分别统计每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的成功率;依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址。本申请解决了由于使用质量差的代理服务器地址造成数据爬取效率低的技术问题。
Description
技术领域
本申请涉及互联网领域,具体而言,涉及一种获取代理服务器地址的方法和装置。
背景技术
在互联网领域,网站运营商希望用户对自己的网站进行正常的访问,而不希望有大规模的网络爬虫向自己的网站发起访问,避免网络爬虫发送大量访问请求而消耗服务器的性能、浪费资源,甚至造成服务器宕机。为了避免上述情况,目前网站运营商通常是通过在服务器上设置各种算法来判断访问者是否为网络爬虫,并将判断为网络爬虫的访问者列入黑名单,以阻止其频繁访问,这即是网站反爬取技术。
而对于互联网中的第三方监测公司而言,往往需要从各种网站上获取大量的数据来进行统计监测。针对上述网站反爬取技术,当前有效的规避目标网站的反爬取技术中,使用网络代理服务器是比较常见的一种。
然而,通过网络收集回来的代理服务器地址并非都能够成功地爬取到数据,如果采用了质量差的代理服务器地址来爬取数据,则会降低数据的爬取效率,将给爬虫业务带来影响。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种获取代理服务器地址的方法和装置,以至少解决由于使用质量差的代理服务器地址造成数据爬取效率低的技术问题。
根据本申请实施例的一个方面,提供了一种获取代理服务器地址的方法,包括:收集代理服务器地址,得到代理服务器地址集;分别利用所述代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果;分别统计所述每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算所述每一个代理服务器地址的爬取网页数据的成功率;以及依据爬取网页数据的成功率从所述代理服务器地址集中选择用于爬取网页数据的代理服务器地址。
根据本申请实施例的另一方面,还提供了一种获取代理服务器地址的装置,包括:收集单元,用于收集代理服务器地址,得到代理服务器地址集;第一爬取单元,用于分别利用所述代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果;第一计算单元,用于分别统计所述每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算所述每一个代理服务器地址的爬取网页数据的成功率;以及第一选择单元,用于依据爬取网页数据的成功率从所述代理服务器地址集中选择用于爬取网页数据的代理服务器地址。
根据本申请实施例,通过收集代理服务器地址,得到代理服务器地址集,分别利用代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果,分别统计每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的成功率,依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址,相当于利用收集的代理服务器地址进行网页数据的预爬取,从而确定每个代理服务器地址的数据爬取的成功率,找出成功率高即质量高的代理服务器地址,进行网页数据的爬取,提取出了数据爬取成功率高的代理服务器地址,利用这些代理服务器地址爬取网页数据可以提高网页数据爬取效率,从而解决了由于使用质量差的代理服务器地址造成数据爬取效率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的获取代理服务器地址的方法的流程图;
图2是根据本申请实施例的一种可选的获取代理服务器地址的方法的流程图;
图3是根据本申请实施例的获取代理服务器地址的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种获取代理服务器地址的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的获取代理服务器地址的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,收集代理服务器地址,得到代理服务器地址集。
代理服务器地址可以是代理服务器IP地址,从网络中收集代理服务器地址,形成代理服务器地址集。具体地,获取大量的代理服务器地址,记录到本地的数据库中,作为要训练提取的数据源。
步骤S104,分别利用代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果。
依次从代理服务器地址集中提取代理服务器地址,每一个代理服务器地址分多次爬取网页数据,并记录爬取结果。每一个代理服务器地址爬取的网页数据的次数可以是预先设置的次数,爬取的网页数据可以是数据量预先设置好的网页数据,例如,利用每一个代理服务器地址分多次爬取目标网站的一个或多个网页的网页数据。记录的爬取结果可以包括代理服务器地址每一次爬取数据的结果,例如,爬取成功或者爬取失败等。
步骤S106,分别统计每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的成功率。
统计每一个代理服务器地址成功爬取数据的次数,除以爬取的总次数,得到每一个代理服务器地址的爬取网页数据的成功率。
步骤S108,依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址。
在计算得到每一个代理服务器地址的爬取网页数据的成功率之后,可以依据爬取网页数据的成功率,从代理服务器中选择成功率较高的代理服务器地址,作为用于爬取网页数据的代理服务器地址。例如,可以按照成功率大小对代理服务器地址进行排序,将排名前N的代理服务器地址作为质量高的代理服务器地址,用于爬取网页数据;还可以设置阈值,将成功率超过阈值的代理服务器地址用于爬取网页数据。
根据本申请实施例,通过收集代理服务器地址,得到代理服务器地址集,分别利用代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果,分别统计每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的成功率,依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址,相当于利用收集的代理服务器地址进行网页数据的预爬取,从而确定每个代理服务器地址的数据爬取的成功率,找出成功率高即质量高的代理服务器地址,进行网页数据的爬取,提取出了数据爬取成功率高的代理服务器地址,利用这些代理服务器地址爬取网页数据可以提高网页数据爬取效率,从而解决了由于使用质量差的代理服务器地址造成数据爬取效率低的技术问题。
优选地,依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址包括:分别将每一个代理服务器地址的爬取网页数据的成功率与预设阈值进行比较,得到比较结果;基于比较结果选择爬取网页数据的成功率大于预设阈值的代理服务器地址,作为用于爬取网页数据的代理服务器地址。
本实施例中,通过设置预设阈值,将每一个代理服务器地址的爬取网页数据的成功率与预设阈值进行比较,选择成功率大于预设阈值的代理服务器地址。利用预设阈值来选择代理服务器地址,提高对代理服务器地址的提取效率,快速找出质量高的代理服务器地址。
优选地,分别利用代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果包括:分别利用代理服务器地址集中每一个代理服务器地址分第一预设次数对目标网站的网页数据进行爬取,记录第一爬取结果;分别统计每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的成功率包括:分别统计每一个代理服务器地址的第一爬取结果中成功爬取数据的次数,利用第一预设次数和第一爬取结果中成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的第一成功率;依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址包括:从代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址。
第一阈值可以是上述预设阈值中的一个阈值。本实施例中,预先设置对目标网站的网页数据的爬取次数即第一预设次数,即利用代理服务器地址对目标网页的网页数据爬取第一预设次数。其中,爬取的网页数据可以是目标网站的一个或多个网页的网页数据。然后计算利用收集到的代理服务器地址对网页数据的爬取成功率即第一成功率,具体地,利用成功爬取数据的次数除以第一预设次数,得到第一成功率。再从代理服务器地址集中选择爬取数据的第一成功率高于第一阈值的代理服务器地址。该选择的代理服务器地址可以作为用于爬取网页数据的代理服务器地址,也可以从这些代理服务器地址进一步选择代理服务器地址。
本申请实施例中,通过预先设置利用代理服务器地址对网页数据的爬取次数即第一预设次数,计算利用每一个代理服务器地址爬取网页数据的第一成功率,从而得到在爬取网页数据时各代理服务器地址的成功率,保证在同一标准下选择代理服务器地址。
进一步地,在从代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址之后,方法还包括:分别利用选择的代理服务器地址分第二预设次数对目标网站的网页数据进行爬取,记录第二爬取结果,其中,第二预设次数大于第一预设次数;分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用第二预设次数和第二爬取结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;选择第二成功率高于第二阈值的代理服务器地址。
本申请实施例中,在选择第一成功率高于第一阈值的代理服务器地址之后,再利用选择出的代理服务器地址再分第二预设次数对目标网站的网页数据进行爬取,其中,第二预设次数大于第一预设次数,也即是再进行更多次数的网页数据的爬取。可以采用与上述实施例相同的方式计算每一个选择的代理服务器地址的爬取数据的第二成功率,最后,选择第二成功率高于第二阈值的代理服务器地址,作为用于爬取网页数据的代理服务器地址。
例如,使用所有的代理服务器IP地址爬取目标网站,每个代理服务器IP地址对目标网站进行少量次数的网页数据爬取。记录每个代理服务器IP地址的爬取次数,爬取成功次数与爬取失败次数,统计每个代理服务器IP地址的爬取成功率。通过统计结果可以去除大量不能正常使用的代理服务器IP地址,得到少量成功率较高的代理服务器IP地址。
接着,对于上一步中得到的成功率较高的代理服务器IP地址,分别对目标网站进行更多次数的爬取,记录每个代理服务器IP地址的爬取次数,爬取成功次数与爬取失败次数,统计得到其中成功率较高的代理服务器IP地址,从而实现对上述代理服务器IP地址进一步筛选。
根据本申请实施例,通过对代理服务器地址进一步筛选,从而得到质量更高的代理服务器地址。
可选地,在从代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址之后,方法还包括:选择多个时段,在每个时段中分别执行如下步骤:分别利用选择的代理服务器地址分第二预设次数对目标网站的网页数据进行爬取,记录第二爬取结果,其中,第二预设次数大于第一预设次数;分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用第二预设次数和第二记录结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;选择在每个时段的爬取网页数据的第二成功率均高于第二阈值的代理服务器地址。
本实施例中,分多个时段,在每个时段中分别利用选择出的爬取网页数据的第一成功率高于第一阈值的代理服务器地址分第二预设次数对目标网站的网页数据进行爬取,分别计算每个时段中每一个选择的代理服务器地址的爬取数据的第二成功率。由于各代理服务器地址在上述多个时段中每个时段均有一个爬取网页数据的第二成功率,本实施例中,选择在每个时段的第二成功率均超过第二阈值的代理服务器地址,从而保证选出的代理服务器地址质量较高。
下面以图2为例,对本申请实施例的一种优选实施方式进行描述。如图2所示,包括:
步骤S202,收集代理服务器地址,得到代理服务器地址集。
步骤S204,利用代理服务器地址集中每一个代理服务器地址分第一预设次数对目标网站的网页数据进行爬取。
步骤S206,计算爬取的第一成功率。
步骤S208,判断第一成功率是否高于第一阈值。如果是,则执行步骤S210,反之,则执行步骤S212。
步骤S210,得到高成功率的代理服务器地址。
步骤S212,得到低成功率的代理服务器地址。
步骤S214,利用高成功率的代理服务器地址集中每一个代理服务器地址分第二预设次数对目标网站的网页数据进行爬取。
步骤S216,计算爬取的第二成功率。
步骤S218,判断第二成功率是否高于第二阈值。如果是,则执行步骤S220,反之,则执行步骤S212。
步骤S220,得到高成功率的代理服务器地址。
步骤S222,判断步骤S214的执行次数是否达到预设次数。其中,每一次对应一个时段,如果是,则执行步骤S224,反之,则利用步骤220得到的高成功率的代理服务器地址返回执行步骤S214。
步骤S224,输出结果。
本申请实施例还提供了一种获取代理服务器地址的装置,该装置可以用于执行本申请实施例的获取代理服务器地址的方法,如图3所示,该装置包括:收集单元10、第一爬取单元20、第一计算单元30和第一选择单元40。
收集单元10用于收集代理服务器地址,得到代理服务器地址集。代理服务器地址可以是代理服务器IP地址,从网络中收集代理服务器地址,形成代理服务器地址集。具体地,获取大量的代理服务器地址,记录到本地的数据库中,作为要训练提取的数据源。
第一爬取单元20用于分别利用代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果。
依次从代理服务器地址集中提取代理服务器地址,每一个代理服务器地址分多次爬取网页数据,并记录爬取结果。每一个代理服务器地址爬取的网页数据的次数可以是预先设置的次数,爬取的网页数据可以是数据量预先设置好的网页数据,例如,利用每一个代理服务器地址分多次爬取目标网站的一个或多个网页的网页数据。记录的爬取结果可以包括代理服务器地址每一次爬取数据的结果,例如,爬取成功或者爬取失败等。
第一计算单元30用于分别统计每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的成功率。
统计每一个代理服务器地址成功爬取数据的次数,除以爬取的总次数,得到每一个代理服务器地址的爬取网页数据的成功率。
第一选择单元40用于依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址。
在计算得到每一个代理服务器地址的爬取网页数据的成功率之后,可以依据爬取网页数据的成功率,从代理服务器中选择成功率较高的代理服务器地址,作为用于爬取网页数据的代理服务器地址。例如,可以按照成功率大小对代理服务器地址进行排序,将排名前N的代理服务器地址作为质量高的代理服务器地址,用于爬取网页数据;还可以设置阈值,将成功率超过阈值的代理服务器地址用于爬取网页数据。
根据本申请实施例,通过收集代理服务器地址,得到代理服务器地址集,分别利用代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果,分别统计每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的成功率,依据爬取网页数据的成功率从代理服务器地址集中选择用于爬取网页数据的代理服务器地址,相当于利用收集的代理服务器地址进行网页数据的预爬取,从而确定每个代理服务器地址的数据爬取的成功率,找出成功率高即质量高的代理服务器地址,进行网页数据的爬取,提取出了数据爬取成功率高的代理服务器地址,利用这些代理服务器地址爬取网页数据可以提高网页数据爬取效率,从而解决了由于使用质量差的代理服务器地址造成数据爬取效率低的技术问题。
优选地,第一选择单元包括:比较模块,用于分别将每一个代理服务器地址的爬取网页数据的成功率与预设阈值进行比较,得到比较结果;选择模块,用于基于比较结果选择爬取网页数据的成功率大于预设阈值的代理服务器地址,作为用于爬取网页数据的代理服务器地址。
本实施例中,通过设置预设阈值,将每一个代理服务器地址的爬取网页数据的成功率与预设阈值进行比较,选择成功率大于预设阈值的代理服务器地址。利用预设阈值来选择代理服务器地址,提高对代理服务器地址的提取效率,快速找出质量高的代理服务器地址。
优选地,第一爬取单元具体用于分别利用代理服务器地址集中每一个代理服务器地址分第一预设次数对目标网站的网页数据进行爬取,记录第一爬取结果;第一计算单元具体用于分别统计每一个代理服务器地址的第一爬取结果中成功爬取数据的次数,利用第一预设次数和第一爬取结果中成功爬取数据的次数计算每一个代理服务器地址的爬取网页数据的第一成功率;第一选择单元具体用于从代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址。
第一阈值可以是上述预设阈值中的一个阈值。本实施例中,预先设置对目标网站的网页数据的爬取次数即第一预设次数,即利用代理服务器地址对目标网页的网页数据爬取第一预设次数。其中,爬取的网页数据可以是目标网站的一个或多个网页的网页数据。然后计算利用收集到的代理服务器地址对网页数据的爬取成功率即第一成功率,具体地,利用成功爬取数据的次数除以第一预设次数,得到第一成功率。再从代理服务器地址集中选择爬取数据的第一成功率高于第一阈值的代理服务器地址该选择的代理服务器地址可以作为用于爬取网页数据的代理服务器地址,也可以从这些代理服务器地址进一步选择代理服务器地址。
本申请实施例中,通过预先设置利用代理服务器地址对网页数据的爬取次数即第一预设次数,计算利用每一个代理服务器地址爬取网页数据的第一成功率,从而得到在爬取数据时各代理服务器地址的成功率,保证在同一标准下选择代理服务器地址。
进一步地,装置还包括:第二爬取单元,用于在第一选择单元从代理服务器地址集中选择爬取数据的第一成功率高于第一阈值的代理服务器地址之后,分别利用选择的代理服务器地址分第二预设次数对目标网页的网页数据进行爬取,记录第二爬取结果,其中,第二预设次数大于第一预设次数;第二计算单元,用于分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用第二预设次数和第二爬取结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;第二选择单元,用于选择第二成功率高于第二阈值的代理服务器地址。
本申请实施例中,第一成功率高于第一阈值的代理服务器地址之后,再利用选择出的代理服务器地址再分第二预设次数对目标网站的网页数据进行爬取,其中,第二预设次数大于第一预设次数,也即是再进行更多次数的网页数据的爬取。可以采用与上述实施例相同的方式计算每一个选择的代理服务器地址的爬取数据的第二成功率,最后,选择第二成功率高于第二阈值的代理服务器地址,作为用于爬取网页数据的代理服务器地址。
例如,使用所有的代理服务器IP地址爬取目标网站,每个代理服务器IP地址对目标网站进行少量次数的网页数据爬取。记录每个代理服务器IP地址的爬取次数,爬取成功次数与爬取失败次数,统计每个代理服务器IP地址的爬取成功率。通过统计结果可以去除大量不能正常使用的代理服务器IP地址,得到少量成功率较高的代理服务器IP地址。
接着,对于上一步中得到的成功率较高的代理服务器IP地址,分别对目标网站进行更多次数的爬取,记录每个代理服务器IP地址的爬取次数,爬取成功次数与爬取失败次数,统计得到其中成功率较高的代理服务器IP地址,从而实现对上述代理服务器IP地址进一步筛选。
根据本申请实施例,通过对代理服务器地址进一步筛选,从而得到质量更高的代理服务器地址。
可选地,装置还包括:执行单元,用于在第一选择单元从代理服务器地址集中选择爬取网页数据的第一成功率高于第一阈值的代理服务器地址之后,选择多个时段,在每个时段中分别执行如下步骤:分别利用选择的代理服务器地址分第二预设次数对目标网页的网页数据进行爬取,记录第二爬取结果,其中,所述第二预设次数大于所述第一预设次数;分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用所述第二预设次数和第二爬取结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;第三选择单元,用于选择在每个时段的爬取网页数据的第二成功率均高于第二阈值的代理服务器地址。
本实施例中,分多个时段,在每个时段中分别利用选择出的爬取网页数据的第一成功率高于第一阈值的代理服务器地址分第二预设次数对目标网站的网页数据进行爬取,分别计算每个时段中每一个选择的代理服务器地址的爬取数据的第二成功率。由于各代理服务器地址在上述多个时段中每个时段均有一个爬取网页数据的第二成功率,本实施例中,选择在每个时段的第二成功率均超过第二阈值的代理服务器地址,从而保证选出的代理服务器地址质量较高。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种获取代理服务器地址的方法,其特征在于,包括:
收集代理服务器地址,得到代理服务器地址集;
分别利用所述代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果;
分别统计所述每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算所述每一个代理服务器地址的爬取网页数据的成功率;以及
依据爬取网页数据的成功率从所述代理服务器地址集中选择用于爬取网页数据的代理服务器地址。
2.根据权利要求1所述的方法,其特征在于,依据爬取网页数据的成功率从所述代理服务器地址集中选择用于爬取网页数据的代理服务器地址包括:
分别将所述每一个代理服务器地址的爬取网页数据的成功率与预设阈值进行比较,得到比较结果;
基于所述比较结果选择爬取网页数据的成功率大于所述预设阈值的代理服务器地址,作为用于爬取网页数据的代理服务器地址。
3.根据权利要求1所述的方法,其特征在于,
分别利用所述代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果包括:分别利用所述代理服务器地址集中每一个代理服务器地址分第一预设次数对目标网站的网页数据进行爬取,记录第一爬取结果;
分别统计所述每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算所述每一个代理服务器地址的爬取网页数据的成功率包括:分别统计所述每一个代理服务器地址的第一爬取结果中成功爬取数据的次数,利用所述第一预设次数和第一爬取结果中成功爬取数据的次数计算所述每一个代理服务器地址的爬取网页数据的第一成功率;
依据爬取网页数据的成功率从所述代理服务器地址集中选择用于爬取网页数据的代理服务器地址包括:从所述代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址。
4.根据权利要求3所述的方法,其特征在于,在从所述代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址之后,所述方法还包括:
分别利用选择的代理服务器地址分第二预设次数对目标网页的网页数据进行爬取,记录第二爬取结果,其中,所述第二预设次数大于所述第一预设次数;
分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用所述第二预设次数和第二爬取结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;
选择第二成功率高于第二阈值的代理服务器地址。
5.根据权利要求3所述的方法,其特征在于,在从所述代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址之后,所述方法还包括:
选择多个时段,在每个时段中分别执行如下步骤:分别利用选择的代理服务器地址分第二预设次数对目标网页的网页数据进行爬取,记录第二爬取结果,其中,所述第二预设次数大于所述第一预设次数;分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用所述第二预设次数和第二爬取结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;
选择在每个时段的爬取网页数据的第二成功率均高于第二阈值的代理服务器地址。
6.一种获取代理服务器地址的装置,其特征在于,包括:
收集单元,用于收集代理服务器地址,得到代理服务器地址集;
第一爬取单元,用于分别利用所述代理服务器地址集中每一个代理服务器地址分多次来爬取网页数据,记录爬取结果;
第一计算单元,用于分别统计所述每一个代理服务器地址的爬取结果中成功爬取数据的次数,根据成功爬取数据的次数计算所述每一个代理服务器地址的爬取网页数据的成功率;以及
第一选择单元,用于依据爬取网页数据的成功率从所述代理服务器地址集中选择用于爬取网页数据的代理服务器地址。
7.根据权利要求6所述的装置,其特征在于,所述第一选择单元包括:
比较模块,用于分别将所述每一个代理服务器地址的爬取网页数据的成功率与预设阈值进行比较,得到比较结果;
选择模块,用于基于所述比较结果选择爬取网页数据的成功率大于所述预设阈值的代理服务器地址,作为用于爬取网页数据的代理服务器地址。
8.根据权利要求6所述的装置,其特征在于,
所述第一爬取单元具体用于分别利用所述代理服务器地址集中每一个代理服务器地址分第一预设次数对目标网站的网页数据进行爬取,记录第一爬取结果;
所述第一计算单元具体用于分别统计所述每一个代理服务器地址的第一爬取结果中成功爬取数据的次数,利用所述第一预设次数和第一爬取结果中成功爬取数据的次数计算所述每一个代理服务器地址的爬取网页数据的第一成功率;
所述第一选择单元具体用于从所述代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址。
9.根据权利要求8所述的装置,其特征在于,还包括:
第二爬取单元,用于在所述第一选择单元从所述代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址之后,分别利用选择的代理服务器地址分第二预设次数对目标网页的网页数据进行爬取,记录第二爬取结果,其中,所述第二预设次数大于所述第一预设次数;
第二计算单元,用于分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用所述第二预设次数和第二爬取结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;
第二选择单元,用于选择第二成功率高于第二阈值的代理服务器地址。
10.根据权利要求8所述的装置,其特征在于,还包括:
执行单元,用于在所述第一选择单元从所述代理服务器地址集中选择第一成功率高于第一阈值的代理服务器地址之后,选择多个时段,在每个时段中分别执行如下步骤:分别利用选择的代理服务器地址分第二预设次数对目标网页的网页数据进行爬取,记录第二爬取结果,其中,所述第二预设次数大于所述第一预设次数;分别统计每一个选择的代理服务器地址的第二爬取结果中成功爬取数据的次数,利用所述第二预设次数和第二爬取结果中成功爬取数据的次数计算每一个选择的代理服务器地址的爬取网页数据的第二成功率;
第三选择单元,用于选择在每个时段的爬取网页数据的第二成功率均高于第二阈值的代理服务器地址。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510609711.3A CN106547793A (zh) | 2015-09-22 | 2015-09-22 | 获取代理服务器地址的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510609711.3A CN106547793A (zh) | 2015-09-22 | 2015-09-22 | 获取代理服务器地址的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106547793A true CN106547793A (zh) | 2017-03-29 |
Family
ID=58364341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510609711.3A Pending CN106547793A (zh) | 2015-09-22 | 2015-09-22 | 获取代理服务器地址的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547793A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107105071A (zh) * | 2017-05-05 | 2017-08-29 | 北京京东金融科技控股有限公司 | Ip调用方法及装置、存储介质、电子设备 |
CN107958052A (zh) * | 2017-11-28 | 2018-04-24 | 广州启生信息技术有限公司 | 一种大规模网络爬虫程序的访问方法及装置 |
CN108551452A (zh) * | 2018-04-18 | 2018-09-18 | 平安科技(深圳)有限公司 | 网络爬虫方法、终端及存储介质 |
CN108924199A (zh) * | 2018-06-21 | 2018-11-30 | 中山英迈锐信息技术有限公司 | 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备 |
CN109302299A (zh) * | 2017-07-25 | 2019-02-01 | 北京国双科技有限公司 | 一种网站断链检测方法及装置 |
CN110147271A (zh) * | 2019-05-15 | 2019-08-20 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN115396509A (zh) * | 2022-08-09 | 2022-11-25 | 上海宝创网络科技有限公司 | 一种基于IPv6网络代理服务的处理访问受限的方法及设备 |
US11595496B2 (en) | 2013-08-28 | 2023-02-28 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11611607B2 (en) | 2009-10-08 | 2023-03-21 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11657110B2 (en) | 2019-02-25 | 2023-05-23 | Bright Data Ltd. | System and method for URL fetching retry mechanism |
US11711233B2 (en) | 2017-08-28 | 2023-07-25 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11757961B2 (en) | 2015-05-14 | 2023-09-12 | Bright Data Ltd. | System and method for streaming content from multiple servers |
US11902253B2 (en) | 2019-04-02 | 2024-02-13 | Bright Data Ltd. | System and method for managing non-direct URL fetching service |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1542636A (zh) * | 2003-10-08 | 2004-11-03 | 中国科学院长春光学精密机械与物理研 | 一种自动选择代理服务器共享上网方法 |
CN101510874A (zh) * | 2009-03-20 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 网络连接设置系统及方法、网络通讯工具及方法 |
CN102624920A (zh) * | 2012-03-31 | 2012-08-01 | 奇智软件(北京)有限公司 | 一种通过代理服务器进行访问的方法及装置 |
CN103634129A (zh) * | 2012-08-22 | 2014-03-12 | 腾讯科技(深圳)有限公司 | 一种设置代理服务器的方法及装置 |
-
2015
- 2015-09-22 CN CN201510609711.3A patent/CN106547793A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1542636A (zh) * | 2003-10-08 | 2004-11-03 | 中国科学院长春光学精密机械与物理研 | 一种自动选择代理服务器共享上网方法 |
CN101510874A (zh) * | 2009-03-20 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 网络连接设置系统及方法、网络通讯工具及方法 |
CN102624920A (zh) * | 2012-03-31 | 2012-08-01 | 奇智软件(北京)有限公司 | 一种通过代理服务器进行访问的方法及装置 |
CN103634129A (zh) * | 2012-08-22 | 2014-03-12 | 腾讯科技(深圳)有限公司 | 一种设置代理服务器的方法及装置 |
Non-Patent Citations (2)
Title |
---|
吴云标: "《无人值守网络信息中介服务实证研究》", 31 December 2011, 中国文史出版社 * |
陈香 等: "《电脑故障应急处理你问我答》", 30 April 2004, 机械工业出版社 * |
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11811850B2 (en) | 2009-10-08 | 2023-11-07 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11700295B2 (en) | 2009-10-08 | 2023-07-11 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11962636B2 (en) | 2009-10-08 | 2024-04-16 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11956299B2 (en) | 2009-10-08 | 2024-04-09 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11949729B2 (en) | 2009-10-08 | 2024-04-02 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11916993B2 (en) | 2009-10-08 | 2024-02-27 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11902351B2 (en) | 2009-10-08 | 2024-02-13 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11888922B2 (en) | 2009-10-08 | 2024-01-30 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11888921B2 (en) | 2009-10-08 | 2024-01-30 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11876853B2 (en) | 2009-10-08 | 2024-01-16 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11811849B2 (en) | 2009-10-08 | 2023-11-07 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11770435B2 (en) | 2009-10-08 | 2023-09-26 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11611607B2 (en) | 2009-10-08 | 2023-03-21 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11616826B2 (en) | 2009-10-08 | 2023-03-28 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11659018B2 (en) | 2009-10-08 | 2023-05-23 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11659017B2 (en) | 2009-10-08 | 2023-05-23 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11838119B2 (en) | 2009-10-08 | 2023-12-05 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11671476B2 (en) | 2009-10-08 | 2023-06-06 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11811848B2 (en) | 2009-10-08 | 2023-11-07 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11677856B2 (en) | 2013-08-28 | 2023-06-13 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11924307B2 (en) | 2013-08-28 | 2024-03-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11985210B2 (en) | 2013-08-28 | 2024-05-14 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11985212B2 (en) | 2013-08-28 | 2024-05-14 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11979475B2 (en) | 2013-08-28 | 2024-05-07 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11949756B2 (en) | 2013-08-28 | 2024-04-02 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11729297B2 (en) | 2013-08-28 | 2023-08-15 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11758018B2 (en) | 2013-08-28 | 2023-09-12 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11949755B2 (en) | 2013-08-28 | 2024-04-02 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11689639B2 (en) | 2013-08-28 | 2023-06-27 | Bright Data Ltd. | System and method for improving Internet communication by using intermediate nodes |
US11924306B2 (en) | 2013-08-28 | 2024-03-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11902400B2 (en) | 2013-08-28 | 2024-02-13 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11799985B2 (en) | 2013-08-28 | 2023-10-24 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11870874B2 (en) | 2013-08-28 | 2024-01-09 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11838386B2 (en) | 2013-08-28 | 2023-12-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11595496B2 (en) | 2013-08-28 | 2023-02-28 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11838388B2 (en) | 2013-08-28 | 2023-12-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11757961B2 (en) | 2015-05-14 | 2023-09-12 | Bright Data Ltd. | System and method for streaming content from multiple servers |
CN107105071A (zh) * | 2017-05-05 | 2017-08-29 | 北京京东金融科技控股有限公司 | Ip调用方法及装置、存储介质、电子设备 |
CN109302299B (zh) * | 2017-07-25 | 2021-12-28 | 北京国双科技有限公司 | 一种网站断链检测方法及装置 |
CN109302299A (zh) * | 2017-07-25 | 2019-02-01 | 北京国双科技有限公司 | 一种网站断链检测方法及装置 |
US11902044B2 (en) | 2017-08-28 | 2024-02-13 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11979250B2 (en) | 2017-08-28 | 2024-05-07 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11888639B2 (en) | 2017-08-28 | 2024-01-30 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11979249B2 (en) | 2017-08-28 | 2024-05-07 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11729012B2 (en) | 2017-08-28 | 2023-08-15 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11888638B2 (en) | 2017-08-28 | 2024-01-30 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11863339B2 (en) | 2017-08-28 | 2024-01-02 | Bright Data Ltd. | System and method for monitoring status of intermediate devices |
US11876612B2 (en) | 2017-08-28 | 2024-01-16 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11962430B2 (en) | 2017-08-28 | 2024-04-16 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11729013B2 (en) | 2017-08-28 | 2023-08-15 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11909547B2 (en) | 2017-08-28 | 2024-02-20 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11956094B2 (en) | 2017-08-28 | 2024-04-09 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11764987B2 (en) | 2017-08-28 | 2023-09-19 | Bright Data Ltd. | System and method for monitoring proxy devices and selecting therefrom |
US11757674B2 (en) | 2017-08-28 | 2023-09-12 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11711233B2 (en) | 2017-08-28 | 2023-07-25 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
CN107958052A (zh) * | 2017-11-28 | 2018-04-24 | 广州启生信息技术有限公司 | 一种大规模网络爬虫程序的访问方法及装置 |
CN108551452B (zh) * | 2018-04-18 | 2021-01-08 | 平安科技(深圳)有限公司 | 网络爬虫方法、终端及存储介质 |
CN108551452A (zh) * | 2018-04-18 | 2018-09-18 | 平安科技(深圳)有限公司 | 网络爬虫方法、终端及存储介质 |
WO2019200784A1 (zh) * | 2018-04-18 | 2019-10-24 | 平安科技(深圳)有限公司 | 网络爬虫方法、终端及存储介质 |
CN108924199A (zh) * | 2018-06-21 | 2018-11-30 | 中山英迈锐信息技术有限公司 | 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备 |
US11657110B2 (en) | 2019-02-25 | 2023-05-23 | Bright Data Ltd. | System and method for URL fetching retry mechanism |
US11675866B2 (en) | 2019-02-25 | 2023-06-13 | Bright Data Ltd. | System and method for URL fetching retry mechanism |
US11902253B2 (en) | 2019-04-02 | 2024-02-13 | Bright Data Ltd. | System and method for managing non-direct URL fetching service |
CN110147271A (zh) * | 2019-05-15 | 2019-08-20 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN110147271B (zh) * | 2019-05-15 | 2020-04-28 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN115396509A (zh) * | 2022-08-09 | 2022-11-25 | 上海宝创网络科技有限公司 | 一种基于IPv6网络代理服务的处理访问受限的方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547793A (zh) | 获取代理服务器地址的方法和装置 | |
CN104391979B (zh) | 网络恶意爬虫识别方法及装置 | |
CN105357054B (zh) | 网站流量分析方法、装置和电子设备 | |
CN104426713B (zh) | 网络站点访问效果数据的监测方法和装置 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
US10516697B2 (en) | ISP blacklist feed | |
US20150149383A1 (en) | Method and device for acquiring product information, and computer storage medium | |
CN105260414B (zh) | 用户行为相似性计算方法及装置 | |
CN102870118B (zh) | 用户行为的获取方法、设备及系统 | |
CN103399861B (zh) | 一种网址导航中的网址推荐方法、装置和系统 | |
CN104348642B (zh) | 一种垃圾信息过滤方法和装置 | |
CN107800591A (zh) | 一种统一日志数据的分析方法 | |
CN103605714A (zh) | 网站异常数据的识别方法及装置 | |
US20190197071A1 (en) | System and method for evaluating nodes of funnel model | |
CN103237094A (zh) | 一种识别用户的方法及装置 | |
CN106936778A (zh) | 网站流量异常的检测方法和装置 | |
CN107483381A (zh) | 关联账户的监控方法及装置 | |
CN105224691A (zh) | 一种信息处理方法及装置 | |
CN106897196A (zh) | 网站页面间访问路径的确定方法及装置 | |
CN105302815A (zh) | 网页的统一资源定位符url的过滤方法和装置 | |
CN103440199A (zh) | 测试引导方法和装置 | |
CN102984003A (zh) | 网络接入检测系统和网络接入检测方法 | |
CN116186267A (zh) | 政策数据处理方法、装置、计算机设备及存储介质 | |
CN105354249A (zh) | 多账号关联方法、装置及电子设备 | |
US9973950B2 (en) | Technique for data traffic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170329 |