CN105095463A - 物料链接地址的巡查方法、装置及系统 - Google Patents

物料链接地址的巡查方法、装置及系统 Download PDF

Info

Publication number
CN105095463A
CN105095463A CN201510459498.2A CN201510459498A CN105095463A CN 105095463 A CN105095463 A CN 105095463A CN 201510459498 A CN201510459498 A CN 201510459498A CN 105095463 A CN105095463 A CN 105095463A
Authority
CN
China
Prior art keywords
chained address
user
detection
url
web crawlers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510459498.2A
Other languages
English (en)
Other versions
CN105095463B (zh
Inventor
桂成林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510459498.2A priority Critical patent/CN105095463B/zh
Publication of CN105095463A publication Critical patent/CN105095463A/zh
Application granted granted Critical
Publication of CN105095463B publication Critical patent/CN105095463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种物料链接地址的巡查方法、装置及系统。其中,方法包括:查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址;将链接地址进行排重处理;针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查。本发明,通过查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址,可以避免对一些不符合条件的用户的巡查,提高了巡查效率,将链接地址进行排重处理,降低巡查的工作量,提高巡查处理速度,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的巡查造成影响。

Description

物料链接地址的巡查方法、装置及系统
技术领域
本发明涉及互联网技术领域,具体涉及一种物料链接地址的巡查方法、装置及系统。
背景技术
随着互联网技术的快速发展和普及,越来越多的商家或企业将其创意投放到基于互联网的平台上,利用互联网在网页上推广信息,吸引更多的人群了解和关注其产品服务等,一方面商家或企业能够通过点击率获得更多转换率,进而从中获利;另一方面,利用互联网推广信息,能够降低推广费用,为商家或企业节省推广成本。
物料的链接地址(URL)在进行过连通性检测之后,一般会对物料进行上线处理,然而,有可能物料上线的时候,其URL是连通的,过一段时间就不连通了;或者物料上线的时候网站是正常的,过段时间网站被挂马了,因此需要对物料的URL进行巡查。现有技术一般是将一个商家或企业的全部需要进行巡查的URL在一天时间内全部发送给网络爬虫,每天对全部URL进行巡查,然而部分大客户物料的URL的量过多,每天巡查检测全量太多,不仅影响其他商家或企业检查效率,而且意义不大。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的物料链接地址的巡查方法、物料链接地址的巡查装置和相应的物料链接地址的巡查系统。
根据本发明的一个方面,提供了一种物料链接地址的巡查方法,包括:
查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址;
将链接地址进行排重处理;
针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查。
根据本发明的另一方面,提供了一种物料链接地址的巡查装置,包括:
查找模块,适于查找符合预设条件的用户;
获取模块,适于获取符合预设条件的用户提供的所有物料对应的链接地址;
排重模块,适于将链接地址进行排重处理;
推送模块,适于针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查。
根据本发明的另一个方面,一种物料链接地址的巡查系统,包括:上述巡查装置、网络爬虫、分配器、数据库、消息队列服务器、订阅服务器
数据库,适于存储推送的链接地址;
分配器,适于将从数据库中获取到的链接地址存储至URL任务列表中;在接收到网络爬虫发送的获取链接地址的请求后,将URL任务列表中的链接地址分配给网络爬虫;在接收到网络爬虫返回的连通性检测结果之后,将连通性检测结果发送至消息队列;
网络爬虫,适于对链接地址进行连通性检测,并将连通性检测结果发送给分配器;
消息队列服务器,适于存储连通性检测结果;
订阅者服务器,适于通过订阅消息的方式获取连通性检测结果,并根据连通性检测结果对物料进行上线或下架处理。
根据本发明提供的方案,通过查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址,可以避免对一些不符合条件的用户的巡查,提高了巡查效率,将链接地址进行排重处理,降低巡查的工作量,提高巡查处理速度,针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的巡查造成影响。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的物料链接地址的巡查方法的流程图;
图2示出了根据本发明另一个实施例的物料链接地址的巡查方法的流程图;
图3示出了根据本发明一个实施例的物料链接地址的巡查装置的结构框图;
图4示出了根据本发明另一个实施例的物料链接地址的巡查装置的结构框图;
图5示出了根据本发明一个实施例的物料链接地址的巡查系统的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的物料链接地址的巡查方法的流程图。如图1所示,该方法包括以下步骤:
步骤S100,查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址。
本实施例中,物料的链接地址一般指物料的URL,这里的物料可以是创意或关键词。每一个物料都对应的有一个URL,通过点击该URL可以查看具体的内容,例如标题、描述等。用户可以通过互联网平台推广物料,通常情况下,不同用户所推广的物料数量是不等的。
步骤S101,将链接地址进行排重处理。
用户在推广物料时,可能会将多个物料设置成同一个链接地址,然而推广平台会获取所有物料的链接地址,对链接地址进行连通性检测,因此会有很多相同的链接地址,为了降低巡查的工作量,提高巡查处理速度,这里需要对使用同一链接地址的物料进行排重处理。每个物料都有唯一的ID,每个链接地址都对应有唯一的HASH值,且物料与其对应的链接地址有确定的映射关系,因此,在获取到符合预设条件的用户提供的所有物料对应的链接地址后,通过查询物料与链接地址的映射关系表可以确定物料与链接地址之间的对应关系,实现对链接地址的排重处理。
步骤S102,针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查。
其中,单位时间可以是6个小时,1天,3天等,本实施例优选单位时间为1天,本领域技术人员可以根据实际需要设定单位时间。可选地,设定检测阈值是根据有效用户的总量、排重后的URL总量和物料数量计算得到,例如,通过计算得到设定检测阈值可以是10000,即在1天内,针对每一个符合预设条件的用户,推送的链接地址的数量为10000个。对一个用户进行全量检测,会严重影响对其他用户的检测效率,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的检测造成影响。
根据本发明上述实施例提供的方法,通过查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址,可以避免对一些不符合条件的用户的巡查,提高了巡查效率,将链接地址进行排重处理,降低巡查的工作量,提高巡查处理速度,针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的巡查造成影响。
图2示出了根据本发明另一个实施例的物料链接地址的巡查方法的流程图。如图2所示,该方法包括以下步骤:
步骤S200,根据用户的属性信息,对用户的有效性进行检测,查找有效用户作为符合预设条件的用户。
具体地,用户在进行物料推广时,可以根据推广平台的推广要求进行物料推广,例如,用户每推广一次物料,需要从用户的账户中扣除一定数额的金币,或者用户可以与推广平台约定在一段时间内任意推广物料,时间结束后,用户不能再推广任何物料。用户的属性信息可以是用户的注册信息或用户账号信息等,这里的用户的有效性检测可以是检测用户账号下是否存储有足够的金币,或者用户与推广平台约定时间是否已过期。本步骤中有效用户指用户账号下是否存储有足够的金币或者与推广平台约定时间未过期的用户,根据用户的属性信息得到符合预设条件的用户A、用户B、用户C。
步骤S201,获取符合预设条件的用户提供的所有物料对应的URL。
举例来说,针对用户A,获取到所有物料对应的URL分别为:物料1的URL为:www.abcd.com//deuyc.html;物料2的URL为:www.abcd.com//dehec.html;物料3的URL为:www.abcd.com//dehec.html;......,共20个URL。
针对用户B,获取到所有物料对应的URL分别为:物料1的URL为:www.abdce.com//defgc.html;物料2的URL为:www.abdce.com//defgc.html;物料3的URL为:www.abdce.com;......,共32500个URL。
针对用户C,获取到所有物料对应的URL分别为:物料1的URL为:www.abgh.com//defjugc.html;物料2的URL为:www.abgh.com//defjugc.html;物料3的URL为:www.abgh.com;......,共65000个URL。
步骤S202,将URL进行排重处理。
对步骤S201中的URL进行排重处理,得到排重后的URL为:www.abcd.com//deuyc.html;www.abcd.com//dehec.html;www.abdce.com//defgc.html;www.abdce.com;www.abgh.com//defjugc.html;www.abgh.com;......。其中,针对用户A,排重后得到10个URL;针对用户B,排重后得到24000个URL;针对用户C,排重后得到50000个URL。
步骤S203,针对每一个符合预设条件的用户,根据设定检测阈值对排重后的URL进行分组处理。
可选地,设定检测阈值是根据有效用户的总量、排重后的URL总量和物料数量计算得到,例如,通过计算得到设定检测阈值可以是10000,即在1天内,针对每一个符合预设条件的用户,推送的URL的数量为10000个。
在步骤S202中,分别得到了用户A、用户B、用户C排重后的URL的数量,分别为10个、24000个、50000个,根据计算得到的设定检测阈值,分别对用户A、用户B、用户C排重后的URL进行分组,用户A分为1组,用户B分为3组、用户C分为5组。
步骤S204,在单位时间内,以组为单位将URL推送至数据库,对数据库中的URL进行巡查。
本实施例中,数据库为关系型数据库(MySQL),MySQL支持多线程服务,在处理事务和并发请求时性能有明显的优势,且数据存储于MySQL中,相对于其他类型的数据库更安全可靠,便于查询问题。
其中,单位时间可以是6个小时,1天,3天等,本实施例优选单位时间为1天,本领域技术人员可以根据实际需要设定单位时间。
具体地,在1天内,以组为单位将每一个符合预设条件的用户的URL推送至数据库,对数据库中的URL进行巡查,具体地,在1天内,推送用户A的10个URL,且1天即可推送完;需要将用户B的URL分3天推送完,且第1、2天分别推送10000个,第3天推送4000个;需要将用户C的URL分5天推送完,且每天分别推送10000个。或者,在不超过设定检测阈值的情况下,将排重后的URL平均分组,针对用户B,还可以在不超过单位时间内设定检测阈值的情况下,将用户B的URL平均分成3组,即将24000个URL平均分成3组,每组8000个,每天推送8000个URL。
步骤S205,分配器将从数据库中获取到的URL存储至URL任务列表中。
具体地,分配器利用获取任务接口,从MySQL中获取URL,并将所获取的任务存储到URL任务列表中,分配器实时维护该要分配的URL任务列表,例如,将URL任务列表中的URL分配给网络爬虫进行连通性检测以及将所获取的任务存储到URL任务列表中。
步骤S206,在接收到网络爬虫发送的获取URL的请求后,将URL任务列表中的URL分配给网络爬虫。
具体地,网络爬虫以HTTPGET方式向分配器发送获取URL的请求,分配器接收网络爬虫发送的请求,将URL任务列表中的URL分配给网络爬虫。
其中,网络爬虫包括:Java网络爬虫和PHP网络爬虫。
Java网络爬虫主要应用于Strom系统,其中,Strom系统是一种分布式的实时计算系统,在Strom系统中设置有2个机房,每个机房设有100个网络爬虫机器。
PHP网络爬虫代码为单文件编程,部署简单方便,分设在6-8个机房中,每个机房设有2-3个网络爬虫机器,且这些爬虫可以同时运行,其作为Java网络爬虫的备用爬虫,当Java网络爬虫出现问题时,可以由PHP网络爬虫代替Java网络爬虫,继续连通性检测工作。
步骤S207,网络爬虫对URL进行连通性检测,并将连通性检测结果发送给分配器。
检测URL的连通性主要是检测该URL是否能够正确地链接到物料的具体内容,使用户查看到URL对应的内容,在网络爬虫检测URL的连通性之前,首先需要检测URL是否为恶意的,在该URL不是恶意的情况下,对URL进行连通性检测。网络爬虫以HTTPPOST方式,将连通性检测结果发送给分配器。
步骤S208,分配器在接收到网络爬虫返回的连通性检测结果之后,将连通性检测结果发送至消息队列,供订阅者通过订阅消息的方式获取连通性检测结果,并根据连通性检测结果对物料进行上线或下架处理。
分配器在接收到网络爬虫发送的连通性检测结果后,通过RabbitMQ消息将连通性检测结果发送至消息队列,供订阅者通过订阅消息的方式获取连通性检测结果,并根据连通性检测结果对物料进行上线或下架处理,例如,连通性检测结果表明URL为连通的,则对物料进行上线处理,连通性检测结果表明URL为不连通的或恶意的,则对物料进行下架处理。
根据本发明上述实施例提供的方法,通过查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址,可以避免对一些无效用户的巡查,提高了巡查效率,将链接地址进行排重处理,降低巡查的工作量,提高巡查处理速度,针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的巡查造成影响,通过对物料链接地址进行连通性检测,并将检测结果发送至消息队列,通过订阅消息的方式获取连通性检测结果,并根据连通性检测结果对物料进行上线或下架处理,可以保证物料的阅读者能够正确的链接到物料的内容,保证用户的利益。
图3示出了根据本发明一个实施例的物料链接地址的巡查装置的结构框图。如图3所示,该装置300包括:查找模块310、获取模块320、排重模块330、推送模块340。
查找模块310,适于查找符合预设条件的用户。
获取模块320,适于获取符合预设条件的用户提供的所有物料对应的链接地址。
排重模块330,适于将链接地址进行排重处理。
推送模块340,适于针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查。
根据本发明上述实施例提供的装置,通过查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址,可以避免对一些不符合条件的用户的巡查,提高了巡查效率,将链接地址进行排重处理,降低巡查的工作量,提高巡查处理速度,针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的巡查造成影响。
图4示出了根据本发明另一个实施例的物料链接地址的巡查装置的结构框图。如图4所示,该装置400包括:查找模块410、获取模块420、排重模块430、推送模块440。
查找模块410,适于查找符合预设条件的用户。
获取模块420,适于获取符合预设条件的用户提供的所有物料对应的链接地址。
排重模块430,适于将链接地址进行排重处理。
推送模块440,适于针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查。
查找模块进一步适于:根据用户的属性信息,对用户的有效性进行检测,查找有效用户作为符合预设条件的用户。
推送模块440进一步包括:分组处理单元450,适于根据设定检测阈值对排重后的链接地址进行分组处理。
其中,设定检测阈值根据有效用户的总量、排重后的URL总量和物料数量计算得到。
推送单元460,适于在单位时间内,以组为单位推送链接地址进行巡查。
推送单元460进一步适于:在单位时间内,以组为单位将链接地址推送至数据库,对数据库中的链接地址进行巡查。
根据本发明上述实施例提供的装置,通过查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址,可以避免对一些无效用户的巡查,提高了巡查效率,将链接地址进行排重处理,降低巡查的工作量,提高巡查处理速度,针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的巡查造成影响。
图5示出了根据本发明一个实施例的物料链接地址的巡查系统的结构框图。如图5所示,该系统500包括:巡查装置400、网络爬虫510、分配器520、数据库530、消息队列服务器540、订阅服务器550。
数据库530,适于存储推送的链接地址。
分配器520,适于将从数据库中获取到的链接地址存储至URL任务列表中;在接收到网络爬虫发送的获取链接地址的请求后,将URL任务列表中的链接地址分配给网络爬虫;在接收到网络爬虫返回的连通性检测结果之后,将连通性检测结果发送至消息队列。
网络爬虫510,适于对链接地址进行连通性检测,并将连通性检测结果发送给分配器。
消息队列服务器540,适于存储连通性检测结果。
订阅者服务器550,适于通过订阅消息的方式获取连通性检测结果,并根据连通性检测结果对物料进行上线或下架处理。
根据本发明上述实施例提供的系统,通过查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址,可以避免对一些无效用户的巡查,提高了巡查效率,将链接地址进行排重处理,降低巡查的工作量,提高巡查处理速度,针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送链接地址进行巡查,通过设定单位时间内检测阈值,可以降低网络爬虫的负荷,而且可以兼顾到每一个用户,避免给其他用户的巡查造成影响,通过对物料链接地址进行连通性检测,并将检测结果发送至消息队列,通过订阅消息的方式获取连通性检测结果,并根据连通性检测结果对物料进行上线或下架处理,可以保证物料的阅读者能够正确的链接到物料的内容,保证用户的利益。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物料链接地址的巡查设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了:A1、一种物料链接地址的巡查方法,包括:
查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址;
将所述链接地址进行排重处理;
针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送所述链接地址进行巡查。
A2、根据A1所述的方法,其中,所述查找符合预设条件的用户进一步包括:根据用户的属性信息,对用户的有效性进行检测,查找有效用户作为符合预设条件的用户。
A3、根据A1或A2所述的方法,其中,在单位时间内根据设定检测阈值推送所述链接地址进行巡查进一步包括:
根据设定检测阈值对排重后的链接地址进行分组处理;
在单位时间内,以组为单位推送所述链接地址进行巡查。
A4、根据A3所述的方法,其中,所述在单位时间内,以组为单位推送所述链接地址进行巡查进一步包括:
在单位时间内,以组为单位将所述链接地址推送至数据库,对数据库中的链接地址进行巡查。
A5、根据A4所述的方法,其中,所述方法还包括:
分配器将从数据库中获取到的链接地址存储至URL任务列表中;
在接收到网络爬虫发送的获取链接地址的请求后,将所述URL任务列表中的链接地址分配给所述网络爬虫;
所述网络爬虫对所述链接地址进行连通性检测,并将连通性检测结果发送给所述分配器;
所述分配器在接收到所述网络爬虫返回的连通性检测结果之后,将所述连通性检测结果发送至消息队列,供订阅者通过订阅消息的方式获取连通性检测结果,并根据所述连通性检测结果对物料进行上线或下架处理。
A6、根据A1-A5任一项所述的方法,其中,设定检测阈值根据有效用户的总量、排重后的URL总量和物料数量计算得到。
本发明还公开了:B7、一种物料链接地址的巡查装置,包括:
查找模块,适于查找符合预设条件的用户;
获取模块,适于获取符合预设条件的用户提供的所有物料对应的链接地址;
排重模块,适于将所述链接地址进行排重处理;
推送模块,适于针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送所述链接地址进行巡查。
B8、根据B7所述的装置,其中,所述查找模块进一步适于:根据用户的属性信息,对用户的有效性进行检测,查找有效用户作为符合预设条件的用户。
B9、根据B7或B8所述的装置,其中,所述推送模块进一步包括:
分组处理单元,适于根据设定检测阈值对排重后的链接地址进行分组处理;
推送单元,适于在单位时间内,以组为单位推送所述链接地址进行巡查。
B10、根据B9所述的方法,其中,所述推送单元进一步适于:
在单位时间内,以组为单位将所述链接地址推送至数据库,对数据库中的链接地址进行巡查。
B11、根据B7-B10任一项所述的装置,其中,设定检测阈值根据有效用户的总量、排重后的URL总量和物料数量计算得到。
本发明还公开了:C12、一种物料链接地址的巡查系统,包括:B7-B11中任一项所述的巡查装置,还包括:网络爬虫、分配器、数据库、消息队列服务器、订阅服务器
所述数据库,适于存储推送的链接地址;
所述分配器,适于将从数据库中获取到的链接地址存储至URL任务列表中;在接收到网络爬虫发送的获取链接地址的请求后,将所述URL任务列表中的链接地址分配给所述网络爬虫;在接收到所述网络爬虫返回的连通性检测结果之后,将所述连通性检测结果发送至消息队列;
所述网络爬虫,适于对所述链接地址进行连通性检测,并将连通性检测结果发送给所述分配器;
消息队列服务器,适于存储连通性检测结果;
订阅者服务器,适于通过订阅消息的方式获取连通性检测结果,并根据所述连通性检测结果对物料进行上线或下架处理。

Claims (10)

1.一种物料链接地址的巡查方法,包括:
查找符合预设条件的用户,获取符合预设条件的用户提供的所有物料对应的链接地址;
将所述链接地址进行排重处理;
针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送所述链接地址进行巡查。
2.根据权利要求1所述的方法,其中,所述查找符合预设条件的用户进一步包括:根据用户的属性信息,对用户的有效性进行检测,查找有效用户作为符合预设条件的用户。
3.根据权利要求1或2所述的方法,其中,在单位时间内根据设定检测阈值推送所述链接地址进行巡查进一步包括:
根据设定检测阈值对排重后的链接地址进行分组处理;
在单位时间内,以组为单位推送所述链接地址进行巡查。
4.根据权利要求3所述的方法,其中,所述在单位时间内,以组为单位推送所述链接地址进行巡查进一步包括:
在单位时间内,以组为单位将所述链接地址推送至数据库,对数据库中的链接地址进行巡查。
5.根据权利要求4所述的方法,其中,所述方法还包括:
分配器将从数据库中获取到的链接地址存储至URL任务列表中;
在接收到网络爬虫发送的获取链接地址的请求后,将所述URL任务列表中的链接地址分配给所述网络爬虫;
所述网络爬虫对所述链接地址进行连通性检测,并将连通性检测结果发送给所述分配器;
所述分配器在接收到所述网络爬虫返回的连通性检测结果之后,将所述连通性检测结果发送至消息队列,供订阅者通过订阅消息的方式获取连通性检测结果,并根据所述连通性检测结果对物料进行上线或下架处理。
6.根据权利要求1-5任一项所述的方法,其中,设定检测阈值根据有效用户的总量、排重后的URL总量和物料数量计算得到。
7.一种物料链接地址的巡查装置,包括:
查找模块,适于查找符合预设条件的用户;
获取模块,适于获取符合预设条件的用户提供的所有物料对应的链接地址;
排重模块,适于将所述链接地址进行排重处理;
推送模块,适于针对每一个符合预设条件的用户,在单位时间内根据设定检测阈值推送所述链接地址进行巡查。
8.根据权利要求7所述的装置,其中,所述查找模块进一步适于:根据用户的属性信息,对用户的有效性进行检测,查找有效用户作为符合预设条件的用户。
9.根据权利要求7或8所述的装置,其中,所述推送模块进一步包括:
分组处理单元,适于根据设定检测阈值对排重后的链接地址进行分组处理;
推送单元,适于在单位时间内,以组为单位推送所述链接地址进行巡查。
10.一种物料链接地址的巡查系统,包括:权利要求7-9中任一项所述的巡查装置,还包括:网络爬虫、分配器、数据库、消息队列服务器、订阅服务器
所述数据库,适于存储推送的链接地址;
所述分配器,适于将从数据库中获取到的链接地址存储至URL任务列表中;在接收到网络爬虫发送的获取链接地址的请求后,将所述URL任务列表中的链接地址分配给所述网络爬虫;在接收到所述网络爬虫返回的连通性检测结果之后,将所述连通性检测结果发送至消息队列;
所述网络爬虫,适于对所述链接地址进行连通性检测,并将连通性检测结果发送给所述分配器;
消息队列服务器,适于存储连通性检测结果;
订阅者服务器,适于通过订阅消息的方式获取连通性检测结果,并根据所述连通性检测结果对物料进行上线或下架处理。
CN201510459498.2A 2015-07-30 2015-07-30 物料链接地址的巡查方法、装置及系统 Active CN105095463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510459498.2A CN105095463B (zh) 2015-07-30 2015-07-30 物料链接地址的巡查方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510459498.2A CN105095463B (zh) 2015-07-30 2015-07-30 物料链接地址的巡查方法、装置及系统

Publications (2)

Publication Number Publication Date
CN105095463A true CN105095463A (zh) 2015-11-25
CN105095463B CN105095463B (zh) 2018-09-11

Family

ID=54575899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510459498.2A Active CN105095463B (zh) 2015-07-30 2015-07-30 物料链接地址的巡查方法、装置及系统

Country Status (1)

Country Link
CN (1) CN105095463B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质
CN111242398A (zh) * 2018-11-29 2020-06-05 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN111242398B (zh) * 2018-11-29 2024-06-07 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321311A (zh) * 2007-06-07 2008-12-10 中国移动通信集团公司 信息发布方法及系统
CN101682729A (zh) * 2007-03-22 2010-03-24 尼尔森(美国)有限公司 用于识别有意布置的产品的系统和方法
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
US20130184434A1 (en) * 2008-10-01 2013-07-18 Vestaron Corporation Peptide Toxin Formulation
CN103530336A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
CN103593429A (zh) * 2013-11-07 2014-02-19 北京奇虎科技有限公司 一种检测商品模板失效的方法及装置
CN104036053A (zh) * 2014-07-07 2014-09-10 广州金山网络科技有限公司 一种无效链接地址处理方法及装置
CN104268289A (zh) * 2014-10-21 2015-01-07 中国建设银行股份有限公司 链接url的失效检测方法和装置
CN104737118A (zh) * 2012-08-30 2015-06-24 埃尔贝克斯视象株式会社 用于操作闭路电子商务的显示页面的简化编码的方法和结构

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682729A (zh) * 2007-03-22 2010-03-24 尼尔森(美国)有限公司 用于识别有意布置的产品的系统和方法
CN101321311A (zh) * 2007-06-07 2008-12-10 中国移动通信集团公司 信息发布方法及系统
US20130184434A1 (en) * 2008-10-01 2013-07-18 Vestaron Corporation Peptide Toxin Formulation
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN104737118A (zh) * 2012-08-30 2015-06-24 埃尔贝克斯视象株式会社 用于操作闭路电子商务的显示页面的简化编码的方法和结构
CN103530336A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
CN103593429A (zh) * 2013-11-07 2014-02-19 北京奇虎科技有限公司 一种检测商品模板失效的方法及装置
CN104036053A (zh) * 2014-07-07 2014-09-10 广州金山网络科技有限公司 一种无效链接地址处理方法及装置
CN104268289A (zh) * 2014-10-21 2015-01-07 中国建设银行股份有限公司 链接url的失效检测方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质
CN111242398A (zh) * 2018-11-29 2020-06-05 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN111242398B (zh) * 2018-11-29 2024-06-07 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置

Also Published As

Publication number Publication date
CN105095463B (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN110737592B (zh) 一种链路异常识别方法、服务器及计算机可读存储介质
CN105488201A (zh) 一种日志查询方法和系统
CN104991921A (zh) 一种数据查询方法、客户端和服务器
CN104966190A (zh) 一种网络支付方法和装置
CN104050292A (zh) 省流量模式搜索服务的方法、服务器、客户端和系统
CN104965933A (zh) Url检测任务的分配方法、分配器及url检测系统
CN103777980A (zh) 一种加载网站点评信息的方法和浏览器
CN105095423A (zh) 计数数据写入方法和装置
CN110781203A (zh) 一种数据宽表的确定方法及装置
CN108446989B (zh) 手续费确定方法及终端设备
CN104112084A (zh) 用于基于执行的许可发现和优化的方法和系统
CN113128821A (zh) 确定任务的方法和装置
CN105224252A (zh) 数据存储方法及装置
CN104580428A (zh) 一种数据路由方法、数据管理装置和分布式存储系统
CN113900907A (zh) 一种映射构建方法和系统
CN105930385A (zh) 一种数据爬取方法及系统
CN105095463A (zh) 物料链接地址的巡查方法、装置及系统
CN108763524A (zh) 电子装置、聊天数据处理方法和计算机可读存储介质
CN113360210A (zh) 数据对账方法、装置、计算机设备和存储介质
CN109710626B (zh) 数据入库管理方法、装置、电子设备,及存储介质
CN111198900B (zh) 工业控制网络的数据缓存方法、装置、终端设备及介质
CN112441364B (zh) 一种自动化仓库的容器入库或回库方法和装置
CN114611046A (zh) 数据加载方法、装置、设备及介质
CN112380820A (zh) 数据自动回填方法、装置、电子设备及计算机存储介质
CN102902828A (zh) 一种用于检索的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220729

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right