CN105912573A - 数据更新方法及装置 - Google Patents

数据更新方法及装置 Download PDF

Info

Publication number
CN105912573A
CN105912573A CN201610195331.4A CN201610195331A CN105912573A CN 105912573 A CN105912573 A CN 105912573A CN 201610195331 A CN201610195331 A CN 201610195331A CN 105912573 A CN105912573 A CN 105912573A
Authority
CN
China
Prior art keywords
website
search key
conditional code
key feature
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610195331.4A
Other languages
English (en)
Other versions
CN105912573B (zh
Inventor
张磊
崔咏梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING NETENTSEC Inc
Original Assignee
BEIJING NETENTSEC Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NETENTSEC Inc filed Critical BEIJING NETENTSEC Inc
Priority to CN201610195331.4A priority Critical patent/CN105912573B/zh
Publication of CN105912573A publication Critical patent/CN105912573A/zh
Application granted granted Critical
Publication of CN105912573B publication Critical patent/CN105912573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种数据更新方法及装置,方法包括:根据特征库中存储的第一网站的搜索关键字特征,生成包括第一网站的搜索关键字特征的最小完整统一资源定位符URL;特征库用于存储多个网站的搜索关键字特征;基于最小完整URL向第一网站的服务器发送访问请求;接收服务器发送的状态码;对状态码进行分析,确认第一网站的搜索关键字特征发生变化时,对特征库中存储的第一网站的搜索关键字特征进行更新。采用本发明,能够提高检测搜索关键字特征发生变化的实时性和效率,降低人力成本。

Description

数据更新方法及装置
技术领域
本发明涉及通信技术领域的网络管理技术,尤其涉及一种数据更新方法及装置。
背景技术
随着互联网技术的发展,各种网络应用层出不穷,其中搜索功能是人们日常工作生活中使用最为普遍和重要的应用之一,与搜索功能紧密关联的是搜索关键字,搜索关键字是指用户在网页的搜索框中键入的关键字,参见图1示出的用户的部分搜索记录,其中“pq=zhongguo”、“q=zhongguo”、“wd=zhongguo”、“wq=zhongguo”、“q=zhongguo”就是搜索关键字,基于搜索关键字的应用范围很多,例如,网站或商家可能会通过用户的搜索记录了解用户感兴趣的需求,为用户提供更多的相关推送,或者,基于对用户的搜索记录的分析获得产品研发销售的新机会;基于用户搜索记录进行网站搜索关键词的优化等,可见,获取搜索关键字是实现基于搜索关键字的应用所必不可少的,为了获取搜索关键字,常用的方法通过比较特定的字符串或者正则表达式匹配来获取数据,这些特定的字符串和正则表达式就是搜索关键字特征。
由于搜索网站技术和业务范围的变化和扩展,当网站内部架构、业务应用或对用户行为的分析等进行调整后,网站的域名及一些搜索参数可能会发生变化,就会导致搜索关键字特征也在持续地变化,此时,需要及时更新搜索关键字特征,要不然就无法有效获得搜索关键字。目前常用的检查搜索关键字特征是否发生变化的方法包括:(1)通过周期性的检查,逐个分析各个搜索网站的搜索行为是否发生变化,这种方法需要花费大量的人工成本,效率低;(2)接收到用户反馈后,分析相应的搜索网站的搜索行为是否发生变化,这种方法被动滞后,所维护数据的实时性差。
发明内容
有鉴于此,本发明实施例期望提供一种数据更新方法及装置,能够提高检测搜索关键字特征发生变化的效率,保证特征库中所存储的多个网站的搜索关键字特征的实时性,降低维护特征库中数据所需的人力成本。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种数据更新方法,所述方法包括:
根据特征库中存储的第一网站的搜索关键字特征,生成包括所述第一网站的搜索关键字特征的最小完整统一资源定位符(URL,Uniform ResourceLocator);所述特征库用于存储多个网站的搜索关键字特征;
基于所述最小完整URL向所述第一网站的服务器发送访问请求;
接收所述服务器发送的状态码;
对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
可选的,所述根据特征库中存储的第一网站的搜索关键字特征,生成包括所述第一网站的搜索关键字特征的最小完整统一资源定位符URL,包括:
根据特征库中存储的第一网站的域名、路径及搜索关键字,生成包括所述第一网站的域名、路径及搜索关键字的最小完整URL。
可选的,所述对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新,包括:
基于预设处理条件对所述状态码进行分析,当确定所述状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征发生变化;
对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
可选的,所述对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新,包括:
基于预设处理条件对所述状态码进行分析,当确定所述状态码是符合所述预设处理条件的状态码时,变更所述最小完整URL中的搜索关键字特征;
基于变更的最小完整URL访问所述第一网站,并接收所述第一网站的服务器发送的与所述变更的最小完整URL对应的状态码;
基于所述预设处理条件对所述与所述变更的最小完整URL对应的状态码进行分析;当确定所述与所述变更的最小完整URL对应的状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征没有发生变化。
可选的,所述对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新,包括:
对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,基于所述第一网站的域名访问所述第一网站,通过在所述第一网站的网页进行搜索获得搜索记录;
对所述搜索记录进行分析,从所述搜索记录中提取与所述第一网站的更新的搜索关键字特征;
基于所述第一网站的更新的搜索关键字特征,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
本发明实施例还提供一种数据更新装置,所述装置包括:
生成模块,用于根据特征库中存储的第一网站的搜索关键字特征,生成包括所述第一网站的搜索关键字特征的最小完整URL;所述特征库用于存储多个网站的搜索关键字特征;
发送模块,用于基于所述最小完整URL向所述第一网站的服务器发送访问请求;
接收模块,用于接收所述服务器发送的状态码;
更新模块,用于对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
可选的,所述生成模块,具体用于根据特征库中存储的第一网站的域名、路径及搜索关键字,生成包括所述第一网站的域名、路径及搜索关键字的最小完整URL。
可选的,所述更新模块,具体用于:
基于预设处理条件对所述状态码进行分析,当确定所述状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征发生变化;
对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
可选的,所述更新模块,具体用于:
基于预设处理条件对所述状态码进行分析,当确定所述状态码是符合所述预设处理条件的状态码时,变更所述最小完整URL中的搜索关键字特征;
基于变更的最小完整URL访问所述第一网站,并接收所述第一网站的服务器发送的与所述变更的最小完整URL对应的状态码;
基于所述预设处理条件对所述与所述变更的最小完整URL对应的状态码进行分析;当确定所述与所述变更的最小完整URL对应的状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征没有发生变化。
可选的,所述更新模块,具体用于:
对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,基于所述第一网站的域名访问所述第一网站,通过在所述第一网站的网页进行搜索获得搜索记录;
对所述搜索记录进行分析,从所述搜索记录中提取与所述第一网站的更新的搜索关键字特征;
基于所述第一网站的更新的搜索关键字特征,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
本发明实施例中,针对特征库中存储的任意一个网站的搜索关键字特征(以第一网站为例),基于第一网站的搜索关键字特征生成包括第一网站的搜索关键字特征的最小完整URL,该最小完整URL避免了搜索记录中复杂网址形式和冗余信息,简单直观且易于维护,通过访问该最小完整URL得到第一网站的服务器发送的状态码,只需要分析状态码就能够确认第一网站的搜索关键字特征是否发生变化,提高了检测搜索关键字特征是否发生变化的效率,降低了维护特征库中数据所需的人力成本;本实施例可以通过自动化工具(例如脚本)实现,能够及时检测到所关注的各个网站的搜索关键字特征的变化并进行更新,保证了特征库中所存储的多个网站的搜索关键字特征的实时性。
附图说明
图1为用户的部分搜索记录的举例示意图;
图2为本发明实施例中数据更新方法的流程示意图一;
图3为状态码的应用举例示意图;
图4为本发明实施例中数据更新方法的流程示意图二;
图5为本发明实施例中URL的举例示意图一;
图6为本发明实施例中检查最小完整URL的举例示意图一;
图7为本发明实施例中检查查询词变更的最小完整URL的举例示意图;
图8为本发明实施例中网页搜索结果的举例示意图一;
图9为本发明实施例中URL的举例示意图二;
图10为本发明实施例中检查最小完整URL的举例示意图二;
图11为本发明实施例中网页搜索结果的举例示意图二;
图12为本发明实施例中URL的举例示意图三;
图13为本发明实施例中检查最小完整URL的举例示意图三;
图14为本发明实施例中检查搜索关键字特征变化后的最小完整URL的举例示意图三;
图15为本发明实施例中检查查询词变更后的最小完整URL对应的响应标题的举例示意图;
图16为本发明实施例中网页搜索结果的举例示意图三;
图17为本发明实施例中检查搜索关键字特征更新后的最小完整URL的举例示意图三;
图18为本发明实施例中检查搜索关键字特征更新后的最小完整URL对应的响应标题的举例示意图;
图19为本发明实施例中数据更新装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
首先对实施本发明实施例的装置(在以下各具体实施例中即为数据更新装置)进行说明,数据更新装置可以采用各种方式来实施,例如在网关、路由器、交换机等网络设备中实施数据更新装置的全部组件(比如,数据更新装置可以集成于上述的网络设备中),或者,在上述的网络设备侧以耦合的方式实施数据更新装置中的组件。
基于上述记载的数据更新装置,提出以下各具体实施例。
实施例一
本实施例记载一种数据更新方法,可以应用于如下场景中:希望能够及时检测到所关注的各个网站的搜索关键字特征的变化并进行更新,提高检测搜索关键字特征发生变化的效率,保证特征库中所存储的多个网站的搜索关键字特征的实时性,降低维护特征库中数据所需的人力成本。
参见图2,本实施例记载的数据更新方法包括以下步骤:
步骤201、根据特征库中存储的第一网站的搜索关键字特征,生成包括第一网站的搜索关键字特征的最小完整URL;特征库用于存储多个网站的搜索关键字特征。
第一网站为多个网站中的任意一个网站;可选的,搜索关键字特征可以包括:域名、路径及搜索关键字;相应地,第一网站的搜索关键字特征可以包括:第一网站的域名、路径及搜索关键字;具体地,数据更新装置根据特征库中存储的第一网站的域名、路径及搜索关键字,通过抽象分析,总结并生成包括第一网站的域名、路径及搜索关键字的最小完整URL。
最小完整URL的一般格式为(其中方括号[]内为可选项):
协议://域名[:端口]/路径/[;参数][?查询词]。
一个包含搜索关键字的最小完整URL可以包括搜索网站的域名(例如,aaa.bbb.ccc)、搜索网站的路径(例如,ddd)和搜索关键字(例如,keyword),包括搜索关键字的最小完整URL的格式举例如下:
http(s)://aaa.bbb.ccc/ddd?keyword;或者,http(s)://aaa.bbb.ccc/ddd/keyword;其中,搜索网站的域名用于区分不同网站,搜索网站的路径一般用于区分不同应用,搜索关键字一般出现在查询词中,搜索记录中的其他数据一般不会影响对URL进行访问的连通性。
基于上述的最小完整URL基本结构,就可以避免构造出形式复杂的网址类型,大大降低了检测搜索特征是否变化的操作复杂性。
步骤202、基于最小完整URL向第一网站的服务器发送访问请求。
对包括第一网站的搜索关键字特征的最小完整URL进行访问。
步骤203、接收服务器发送的状态码(Status Code)。
状态码可以为超文本传输协议(HTTP,HyperText Transfer Protocol)状态码,HTTP状态码是用以表示网站的网页服务器的HTTP响应状态的3位数字代码;参见图3,状态码为2xx表示请求成功,可认为原始特征没有变更;而其它状态码如3xx,4xx,5xx,重定向、无法访问、服务器出错等则表示访问的URL可能存在问题,可能是业务调整或服务关闭等原因,从而确认搜索关键字特征发生变化。
步骤204、对状态码进行分析,确认第一网站的搜索关键字特征发生变化时,对特征库中存储的第一网站的搜索关键字特征进行更新。
对包括第一网站的搜索关键字特征的最小完整URL进行访问,分析第一网站的服务器返回的HTTP状态码,确认第一网站的搜索关键字特征是否发送变化。
本实施例中,针对特征库中存储的任意一个网站的搜索关键字特征(以第一网站为例),基于第一网站的搜索关键字特征生成包括第一网站的搜索关键字特征的最小完整URL,该最小完整URL避免了搜索记录中复杂网址形式和冗余信息,简单直观且易于维护,通过访问该最小完整URL得到第一网站的服务器发送的状态码,只需要分析状态码就能够确认第一网站的搜索关键字特征是否发生变化,提高了检测搜索关键字特征是否发生变化的效率,降低了维护特征库中数据所需的人力成本;本实施例可以通过自动化工具(例如脚本)实现,能够及时检测到所关注的各个网站的搜索关键字特征的变化并进行更新,保证了特征库中所存储的多个网站的搜索关键字特征的实时性。
实施例二
本实施例基于实施例一,本实施例记载的数据更新方法可以应用于如下场景中:希望能够及时检测到所关注的各个网站的搜索关键字特征的变化并进行更新,提高检测搜索关键字特征发生变化的效率,保证特征库中所存储的多个网站的搜索关键字特征的实时性,降低维护特征库中数据所需的人力成本;本实施例针对此情况的处理进行说明。
参见图4,本实施例记载的数据更新方法包括以下步骤:
步骤401、根据特征库中存储的第一网站的搜索关键字特征,生成包括第一网站的搜索关键字特征的最小完整统一资源定位符URL。
特征库用于存储多个网站的搜索关键字特征。
步骤402、基于最小完整URL向第一网站的服务器发送访问请求。
步骤403、接收服务器发送的状态码。
步骤404、基于预设处理条件对状态码进行分析。
预设处理条件是指针对网站服务器返回的不同状态码,预先设定的数据更新装置的不同的操作步骤。
步骤405、确定状态码是否是符合预设处理条件的状态码;当确定状态码是符合预设处理条件的状态码时,执行步骤406;当确定状态码不是符合预设处理条件的状态码时,执行步骤411。
这里,可选的,符合预设处理条件的状态码2xx,表示访问请求成功。
步骤406、变更最小完整URL中的搜索关键字特征。
步骤407、基于变更的最小完整URL访问第一网站,并接收第一网站的服务器发送的与变更的最小完整URL对应的状态码。
步骤408、基于预设处理条件对与变更的最小完整URL对应的状态码进行分析。
步骤409、确定与变更的最小完整URL对应的状态码是否是符合预设处理条件的状态码,若是,则执行步骤411;否则,执行步骤410。
可选的,数据更新装置当确定与变更的最小完整URL对应的状态码是否是符合预设处理条件的状态码;若是,则执行步骤411;否则,获取与变更的最小完整URL对应的响应标题;确定响应标题中不包括变更的最小完整URL的搜索词时,执行步骤410。
步骤410、确认第一网站的搜索关键字特征没有发生变化;流程结束。
步骤411、确认第一网站的搜索关键字特征发生变化;对特征库中存储的第一网站的搜索关键字特征进行更新。
可选的,对特征库中存储的第一网站的搜索关键字特征进行更新的实现方式可以包括:
确认第一网站的搜索关键字特征发生变化时,基于第一网站的域名访问第一网站,通过在第一网站的网页进行搜索获得搜索记录;
对搜索记录进行分析,从搜索记录中提取与第一网站的更新的搜索关键字特征;
基于第一网站的更新的搜索关键字特征,对特征库中存储的第一网站的搜索关键字特征进行更新。
本实施例中,针对特征库中存储的任意一个网站的搜索关键字特征(以第一网站为例),基于第一网站的搜索关键字特征生成包括第一网站的搜索关键字特征的最小完整URL,该最小完整URL避免了搜索记录中复杂网址形式和冗余信息,简单直观且易于维护,通过访问该最小完整URL得到第一网站的服务器返回的状态码,只需要分析状态码就能够确认第一网站的搜索关键字特征是否发生变化,提高了检测搜索关键字特征是否发生变化的效率,降低了维护特征库中数据所需的人力成本;考虑到实际中特征库中存储的海量的搜索关键字特征,本实施例还可以通过自动化工具(例如脚本)实现,能够及时检测到所关注的各个网站的搜索关键字特征的变化并进行更新,保证了特征库中所存储的多个网站的搜索关键字特征的准确性及实时性。
实施例三
本实施例基于实施例一、二,本实施例以实际中的一个搜索记录为例对本发明实施例的数据更新方法的实现过程进行说明;参见图5至图8,本实施例记载的数据更新方法,以访问百度搜索引擎为例,在搜索框输入某个关键字(11111111111111)并指示搜索,浏览器中显示的URL如图5所示,此URL的搜索关键字特征包括搜索关键字域名等信息,其他数据主要是用户操作的一些上下文信息,能够更精确分析用户行为,但这些不是必须的,比如:
Ie:搜索关键字的编码格式;
F:搜索判断,f=8用户自主搜索,f=3下拉框推荐,f=1相关搜索;
rsv_bp:判断是第几次搜索,0为第一次搜索,1为第二次或者多次搜索;
rsv_sug3:键盘重复速度;
tn:搜索框所属网站。
URL中的路径表示域名的具体业务内容,多数情况下都是必须的,如果缺少会影响到相关业务访问的连通性。
根据上述逻辑,从图5所示的URL中提取以下部分数据:
域名:www.baidu.com;
路径:s;
搜索关键字:wd=11111111111111;
相应的最小完整URL为:www.baidu.com/s?wd=11111111111111。
然后,使用工具(例如脚本)来检查包含搜索关键字特征的最小完整URL,参见图6,HTTP状态码返回200;再将最小完整URL中的查询词变化后进行检验,参见图7所示将wd变为xy,返回状态码302,因此,判断结果为:搜索关键字特征未发生变化;进一步,参见图8,网页实际搜索的结果也对该判断结果进行了支撑。这里,关于工具的选择,可以采用一些简单明了的工具,比如Linux下的curl等,通过使用工具可以快速得到反馈结果,由于只需要判断HTTP状态码,所以只获取HTTP响应头,通过执行命令“curl–Iaaa.bbb.ccc/ddd?keyword”即可,能够提高检测搜索关键字特征是否发生变化的效率,也便于转化为自动化方式检查。
实施例四
本实施例基于实施例一、二,本实施例以实际中的一个搜索记录为例对本发明实施例的数据更新方法的实现过程进行说明;参见图9至图11,本实施例记载的数据更新方法,以图9所示的URL(搜索记录)为例,通过分析图9的URL和相关搜索关键字特征获得如下数据:
域名:www.so.com;
路径:s;
搜索关键字:q=11111111111111;
其最小完整URL为:www.so.com/s?q=11111111111111。
参见图10所示的工具处理截图,HTTP状态码返回302重定向,表示搜索关键字特征可能已经发生变化;进一步,参见图11,网页实际搜索的结果也对该判断结果进行了支撑,原搜索www.so.com输入后已跳转变更为新链接,即搜索关键字特征已出现变化,需要进行搜索关键字特征的更新。
实施例五
本实施例基于实施例一、二,本实施例以实际中的一个搜索记录为例对本发明实施例的数据更新方法的实现过程进行说明;参见图12至图18,本实施例记载的数据更新方法,以图12所示的URL(搜索记录)为例,
通过分析原始URL和相关搜索关键字特征获得如下数据:
域名:www.zhongsou.com;
路径:third.cgi;
搜索关键字:wd=11111111111111;
其最小完整URL为:www.zhongsou.com/third.cgi?wd=11111111111111。
参见图13所示的工具处理截图,HTTP状态码返回200;再将最小完整URL中的查询词变化后进行检验,比如将wd变成aa,返回状态码仍然为200,参见图14,说明搜索关键字特征发生变化。
然后获取查询词变更后的最小完整URL对应的响应标题,检测响应标题当中是否包括变更后的最小完整URL的关键字,如不包括,说明搜索关键字特征已发生变化,参见图15,未查到关键字11111111111111,说明搜索关键字特征已发生变化;进一步,参见图16,网页实际搜索的结果也对该判断结果进行了支撑,查询词已变更为w;基于查询词w,对特征库中存储的第一网站的搜索关键字特征进行更新;生成搜索关键字特征更新后的最小完整URL,并通过工具检验搜索关键字更新后的最小完整URL,参见图17,返回状态码200;参见图18,所示请求页面返回的响应标题中包含搜索的关键字11111111111111,说明当前的搜索关键字特征是正确的。
实施例六
与前述实施例的记载相对应,本实施例还记载一种数据更新装置,数据更新装置可以用于执行本发明实施例的数据更新方法,数据更新装置可以采用各种方式来实施,例如在网关、路由器、交换机等网络设备中实施数据更新装置的全部组件(比如,数据更新装置可以集成于上述的网络设备中),或者,在上述的网络设备侧以耦合的方式实施数据更新装置中的组件;参见图19,数据更新装置包括:
生成模块1901,用于根据特征库中存储的第一网站的搜索关键字特征,生成包括第一网站的搜索关键字特征的最小完整统一资源定位符URL;特征库用于存储多个网站的搜索关键字特征;
发送模块1902,用于基于最小完整URL向第一网站的服务器发送访问请求;
接收模块1903,用于接收服务器发送的状态码;
更新模块1904,用于对状态码进行分析,确认第一网站的搜索关键字特征发生变化时,对特征库中存储的第一网站的搜索关键字特征进行更新。
上述方案中,数据更新装置针对特征库中存储的任意一个网站的搜索关键字特征(以第一网站为例),基于第一网站的搜索关键字特征生成包括第一网站的搜索关键字特征的最小完整URL,该最小完整URL避免了搜索记录中复杂网址形式和冗余信息,简单直观且易于维护,通过访问该最小完整URL得到第一网站的服务器发送的状态码,只需要分析状态码就能够确认第一网站的搜索关键字特征是否发生变化,提高了检测搜索关键字特征是否发生变化的效率,降低了维护特征库中数据所需的人力成本;本实施例可以通过自动化工具(例如脚本)实现,能够及时检测到所关注的各个网站的搜索关键字特征的变化并进行更新,保证了特征库中所存储的多个网站的搜索关键字特征的实时性。
在上述实施例的基础上,生成模块1901,具体用于根据特征库中存储的第一网站的域名、路径及搜索关键字,生成包括第一网站的域名、路径及搜索关键字的最小完整URL。
在上述实施例的基础上,更新模块1904,具体用于:基于预设处理条件对状态码进行分析,当确定状态码不是符合预设处理条件的状态码时,确认第一网站的搜索关键字特征发生变化;对特征库中存储的第一网站的搜索关键字特征进行更新。
在上述实施例的基础上,更新模块1904,具体用于:基于预设处理条件对状态码进行分析,当确定状态码是符合预设处理条件的状态码时,变更最小完整URL中的搜索关键字特征;基于变更的最小完整URL访问第一网站,并接收第一网站的服务器发送的与变更的最小完整URL对应的状态码;基于预设处理条件对与变更的最小完整URL对应的状态码进行分析;当确定与变更的最小完整URL对应的状态码不是符合预设处理条件的状态码时,确认第一网站的搜索关键字特征没有发生变化。
在上述实施例的基础上,更新模块1904,具体用于:对状态码进行分析,确认第一网站的搜索关键字特征发生变化时,基于第一网站的域名访问第一网站,通过在第一网站的网页进行搜索获得搜索记录;对搜索记录进行分析,从搜索记录中提取与第一网站的更新的搜索关键字特征;基于第一网站的更新的搜索关键字特征,对特征库中存储的第一网站的搜索关键字特征进行更新。
实施例七
本实施例记载一种计算机可读介质,可以为ROM(例如,只读存储器、FLASH存储器、转移装置等)、磁存储介质(例如,磁带、磁盘驱动器等)、光学存储介质(例如,CD-ROM、DVD-ROM、纸卡、纸带等)以及其他熟知类型的程序存储器;计算机可读介质中存储有计算机可执行指令(例如腾讯视频等投射应用的二进制可执行指令),当执行指令时,引起至少一个处理器执行包括以下的操作:
根据特征库中存储的第一网站的搜索关键字特征,生成包括第一网站的搜索关键字特征的最小完整统一资源定位符URL;特征库用于存储多个网站的搜索关键字特征;
基于最小完整URL向第一网站的服务器发送访问请求;
接收服务器发送的状态码;
对状态码进行分析,确认第一网站的搜索关键字特征发生变化时,对特征库中存储的第一网站的搜索关键字特征进行更新。
综上,数据更新装置针对特征库中存储的任意一个网站的搜索关键字特征(以第一网站为例),基于第一网站的搜索关键字特征生成包括第一网站的搜索关键字特征的最小完整URL,该最小完整URL避免了搜索记录中复杂网址形式和冗余信息,简单直观且易于维护,通过访问该最小完整URL得到第一网站的服务器发送的状态码,只需要分析状态码就能够确认第一网站的搜索关键字特征是否发生变化,提高了检测搜索关键字特征是否发生变化的效率,降低了维护特征库中数据所需的人力成本;本实施例可以通过自动化工具(例如脚本)实现,能够及时检测到所关注的各个网站的搜索关键字特征的变化并进行更新,保证了特征库中所存储的多个网站的搜索关键字特征的实时性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种数据更新方法,其特征在于,所述方法包括:
根据特征库中存储的第一网站的搜索关键字特征,生成包括所述第一网站的搜索关键字特征的最小完整统一资源定位符URL;所述特征库用于存储多个网站的搜索关键字特征;
基于所述最小完整URL向所述第一网站的服务器发送访问请求;
接收所述服务器发送的状态码;
对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
2.根据权利要求1所述的方法,其特征在于,所述根据特征库中存储的第一网站的搜索关键字特征,生成包括所述第一网站的搜索关键字特征的最小完整统一资源定位符URL,包括:
根据特征库中存储的第一网站的域名、路径及搜索关键字,生成包括所述第一网站的域名、路径及搜索关键字的最小完整URL。
3.根据权利要求1所述的方法,其特征在于,所述对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新,包括:
基于预设处理条件对所述状态码进行分析,当确定所述状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征发生变化;
对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
4.根据权利要求1所述的方法,其特征在于,所述对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新,包括:
基于预设处理条件对所述状态码进行分析,当确定所述状态码是符合所述预设处理条件的状态码时,变更所述最小完整URL中的搜索关键字特征;
基于变更的最小完整URL访问所述第一网站,并接收所述第一网站的服务器发送的与所述变更的最小完整URL对应的状态码;
基于所述预设处理条件对所述与所述变更的最小完整URL对应的状态码进行分析;当确定所述与所述变更的最小完整URL对应的状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征没有发生变化。
5.根据权利要求1所述的方法,其特征在于,所述对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新,包括:
对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,基于所述第一网站的域名访问所述第一网站,通过在所述第一网站的网页进行搜索获得搜索记录;
对所述搜索记录进行分析,从所述搜索记录中提取与所述第一网站的更新的搜索关键字特征;
基于所述第一网站的更新的搜索关键字特征,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
6.一种数据更新装置,其特征在于,所述装置包括:
生成模块,用于根据特征库中存储的第一网站的搜索关键字特征,生成包括所述第一网站的搜索关键字特征的最小完整统一资源定位符URL;所述特征库用于存储多个网站的搜索关键字特征;
发送模块,用于基于所述最小完整URL向所述第一网站的服务器发送访问请求;
接收模块,用于接收所述服务器发送的状态码;
更新模块,用于对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
7.根据权利要求6所述的装置,其特征在于,所述生成模块,具体用于根据特征库中存储的第一网站的域名、路径及搜索关键字,生成包括所述第一网站的域名、路径及搜索关键字的最小完整URL。
8.根据权利要求6所述的装置,其特征在于,所述更新模块,具体用于:
基于预设处理条件对所述状态码进行分析,当确定所述状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征发生变化;
对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
9.根据权利要求6所述的装置,其特征在于,所述更新模块,具体用于:
基于预设处理条件对所述状态码进行分析,当确定所述状态码是符合所述预设处理条件的状态码时,变更所述最小完整URL中的搜索关键字特征;
基于变更的最小完整URL访问所述第一网站,并接收所述第一网站的服务器发送的与所述变更的最小完整URL对应的状态码;
基于所述预设处理条件对所述与所述变更的最小完整URL对应的状态码进行分析;当确定所述与所述变更的最小完整URL对应的状态码不是符合所述预设处理条件的状态码时,确认所述第一网站的搜索关键字特征没有发生变化。
10.根据权利要求6所述的装置,其特征在于,所述更新模块,具体用于:
对所述状态码进行分析,确认所述第一网站的搜索关键字特征发生变化时,基于所述第一网站的域名访问所述第一网站,通过在所述第一网站的网页进行搜索获得搜索记录;
对所述搜索记录进行分析,从所述搜索记录中提取与所述第一网站的更新的搜索关键字特征;
基于所述第一网站的更新的搜索关键字特征,对所述特征库中存储的所述第一网站的搜索关键字特征进行更新。
CN201610195331.4A 2016-03-30 2016-03-30 数据更新方法及装置 Active CN105912573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610195331.4A CN105912573B (zh) 2016-03-30 2016-03-30 数据更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610195331.4A CN105912573B (zh) 2016-03-30 2016-03-30 数据更新方法及装置

Publications (2)

Publication Number Publication Date
CN105912573A true CN105912573A (zh) 2016-08-31
CN105912573B CN105912573B (zh) 2019-12-27

Family

ID=56745364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610195331.4A Active CN105912573B (zh) 2016-03-30 2016-03-30 数据更新方法及装置

Country Status (1)

Country Link
CN (1) CN105912573B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940711A (zh) * 2017-02-27 2017-07-11 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN109739534A (zh) * 2018-12-28 2019-05-10 武汉思普崚技术有限公司 一种应用特征库中应用更新的判断方法及装置
CN110932928A (zh) * 2019-11-08 2020-03-27 杭州安恒信息技术股份有限公司 基于http响应的网站资产失活检测和更新方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504692B1 (en) * 2011-09-26 2013-08-06 Google Inc. Browser based redirection of broken links
CN103729477A (zh) * 2014-01-26 2014-04-16 飞狐信息技术(天津)有限公司 一种网页数据格式检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504692B1 (en) * 2011-09-26 2013-08-06 Google Inc. Browser based redirection of broken links
CN103729477A (zh) * 2014-01-26 2014-04-16 飞狐信息技术(天津)有限公司 一种网页数据格式检测方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940711A (zh) * 2017-02-27 2017-07-11 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN106940711B (zh) * 2017-02-27 2020-02-07 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN109739534A (zh) * 2018-12-28 2019-05-10 武汉思普崚技术有限公司 一种应用特征库中应用更新的判断方法及装置
CN109739534B (zh) * 2018-12-28 2022-02-08 武汉思普崚技术有限公司 一种应用特征库中应用更新的判断方法及装置
CN110932928A (zh) * 2019-11-08 2020-03-27 杭州安恒信息技术股份有限公司 基于http响应的网站资产失活检测和更新方法
CN110932928B (zh) * 2019-11-08 2022-03-18 杭州安恒信息技术股份有限公司 基于http响应的网站资产失活检测和更新方法

Also Published As

Publication number Publication date
CN105912573B (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
US11150874B2 (en) API specification generation
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN101971172B (zh) 移动站点地图
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
CN110266661B (zh) 一种授权方法、装置及设备
CN107766344B (zh) 一种模板渲染的方法、装置及浏览器
US20090158249A1 (en) System and method for testing a software module
CN110321154B (zh) 一种微服务的接口信息展示方法、装置及电子设备
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
US9311303B2 (en) Interpreted language translation system and method
CN105138448A (zh) 一种在前端测试页面的方法和装置
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
CN108984202B (zh) 一种电子资源分享方法、装置和存储介质
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
US20200026802A1 (en) Image quality independent searching of screenshots of web content
CN103294732A (zh) 网页抓取方法及爬虫
CN103577447A (zh) 一种用于确定目标页面的页面类型信息的方法和设备
CN106776983A (zh) 搜索引擎优化装置和方法
CN103237003A (zh) 对网络中的高访问流量进行响应的方法和装置
CN103838862A (zh) 一种视频搜索的方法、装置及终端
CN105912573A (zh) 数据更新方法及装置
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
JPWO2003060764A1 (ja) 情報検索システム
CN107391528A (zh) 前端组件依赖信息搜索方法及设备
CN114035789A (zh) 日志解析模板的生成方法、日志解析方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant