CN105740345B - 一种信息推送方法及服务端装置 - Google Patents

一种信息推送方法及服务端装置 Download PDF

Info

Publication number
CN105740345B
CN105740345B CN201610048934.1A CN201610048934A CN105740345B CN 105740345 B CN105740345 B CN 105740345B CN 201610048934 A CN201610048934 A CN 201610048934A CN 105740345 B CN105740345 B CN 105740345B
Authority
CN
China
Prior art keywords
url
address
information
data acquisition
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610048934.1A
Other languages
English (en)
Other versions
CN105740345A (zh
Inventor
刘俊红
田尚杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN201610048934.1A priority Critical patent/CN105740345B/zh
Publication of CN105740345A publication Critical patent/CN105740345A/zh
Application granted granted Critical
Publication of CN105740345B publication Critical patent/CN105740345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息推送方法及服务端装置,其中,方法包括:设置目标专题项目的初始URL地址、采集时间策略,获取对应目标专题项目的用户信息;根据采集时间策略启动目标专题项目的本次数据采集任务;获取初始URL地址及其下级URL地址分别对应的第一页面信息;检测初始URL地址及每一个下级URL地址在目标专题项目的前次数据采集任务中分别对应的第二页面信息和本次数据采集任务中对应的第一页面信息是否相同;当存在目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不相同时,根据用户信息将每一个目标URL地址分别发送到对应的外部用户终端。通过本发明的技术方案,可及时的向用户推送新的网络信息。

Description

一种信息推送方法及服务端装置
技术领域
本发明涉及通信技术领域,特别涉及一种信息推送方法及服务端装置。
背景技术
随着互联网应用技术的普及,网络信息已成为各企业了解市场变化及进行竞争对手分析的依据。
目前,用户为了了解市场变化及进行竞争对手分析,通常需要从互联网上采集相关网络信息,具体地,可以通过设置相应的关键词,利用垂直搜索引擎对关键词进行搜索以获取对应关键词的多个URL地址,并配置数据采集规则以从获取到的每一个URL地址分别对应的网页上采集相应的网络信息,进而使用户通过相应的门户网站或终端查看采集到的网络信息。
但是,由于网络信息(比如,市场、价格及招投标信息等)具备极强的时效性,靠人力从采集到的海量网络信息中分析出时效性较强的网络信息往往是滞后的,可能导致用户丧失商机,因此,如何向用户及时推送新的网络信息成为亟待解决的问题。
发明内容
本发明提供了一种信息推送方法及服务端装置,可及时的向用户推送新的网络信息。
第一方面,本发明提供了一种信息推送方法,包括:
S0:预先设置对应目标专题项目的初始统一资源定位符URL地址、采集时间策略,以及,获取对应所述目标专题项目的用户信息;
S1:根据所述采集时间策略启动所述目标专题项目的本次数据采集任务,获取所述初始URL地址下的每一个下级URL地址;
S2:获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息;
S3:检测所述初始URL地址及每一个下级URL地址在所述目标专题项目的前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
S4:当存在至少一个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端。
进一步的,还包括:
预先设置对应目标专题项目的关键词;
当存在多个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,所述根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端,包括:
根据所述关键词对每一个目标URL地址分别对应的第一页面信息分别进行全文检索,获取每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数;
根据每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数高低,编制索引信息;
根据对应所述目标专题项目的用户信息将所述索引信息发送到对应的外部用户终端。
进一步的,还包括:预先设置边界URL地址规则;
所述获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息,包括:
对所述初始URL地址及本次数据采集任务中采集到的每一个下级URL地址进行去重处理,以及,根据所述边界URL地址规则对已进行去重处理后的每一个下级URL地址分别进行边界测定以获取符合所述边界URL地址规则的至少一个信息源URL地址;
获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息;
所述检测所述初始URL地址及每一个下级URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同,包括:
检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同。
进一步的,所述获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息之后,进一步包括:
计算每一个第一页面信息分别对应的第一特征值;
所述检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同,包括:
获取第一标识信息,根据所述第一标识信息获取前次数据采集任务对应的第一业务信息,其中,所述第一业务信息包括所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值;
检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值与本次数据采集任务中分别对应的第一特征值是否完全相同。
进一步的,还包括:
存储本次数据采集任务获取到的第二业务信息,以及,设置对应所述第二业务信息的第二标识信息;
其中,所述第二业务信息包括:所述初始URL地址及每一个信息源URL地址在本次数据采集任务中分别对应的第二特征值。
第二方面,本发明提供了一种服务端装置,包括:
设置单元,用于预先设置对应目标专题项目的初始统一资源定位符URL地址、采集时间策略;
获取单元,用于获取对应所述目标专题项目的用户信息;
任务调度装置,用于根据所述采集时间策略启动所述目标专题项目的本次数据采集任务;
数据采集装置,用于获取所述初始URL地址下的每一个下级URL地址;获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息;
检测装置,用于检测所述初始URL地址及每一个下级URL地址在所述目标专题项目的前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
信息推送装置,用于当存在至少一个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端。
进一步的,
所述设置单元,进一步用于设置对应目标专题项目的关键词;
所述信息推送装置,包括:
检索子模块,用于根据所述关键词对每一个目标URL地址分别对应的第一页面信息分别进行全文检索,获取每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数;
索引器,用于根据每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数高低,编制索引信息;
信息推送子模块,用于根据对应所述目标专题项目的用户信息将所述索引信息发送到对应的外部用户终端。
进一步的,
所述设置单元,进一步用于设置边界URL地址规则;
所述数据采集装置,包括:
处理子模块,用于对所述初始URL地址及本次数据采集任务中采集到的每一个下级URL地址进行去重处理,以及,根据所述边界URL地址规则对已进行去重处理后的每一个下级URL地址分别进行边界测定以获取符合所述边界URL地址规则的至少一个信息源URL地址;
数据采集子模块,用于获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息;
所述检测装置,用于检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同。
进一步的,还包括:
计算单元,用于计算每一个第一页面信息分别对应的第一特征值;
所述检测装置,包括:
获取子模块,获取第一标识信息,根据所述第一标识信息获取前次数据采集任务对应的第一业务信息,其中,所述第一业务信息包括所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值;
检测子模块,用于检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值与本次数据采集任务中分别对应的第一特征值是否完全相同。
进一步的,还包括:
存储装置,用于存储本次数据采集任务获取到的第二业务信息;
所述设置单元,进一步用于设置对应所述第二业务信息的第二标识信息;
其中,所述第二业务信息包括:所述初始URL地址及每一个信息源URL地址在本次数据采集任务中分别对应的第二特征值。
本发明提供了一种信息推送方法及服务端装置,通过预先设置对应目标专题项目的初始URL地址、采集时间策略以及获取对应目标专题项目的用户信息,即可根据采集时间策略周期性或间歇性的启动该目标专题项目的数据采集任务,实现持续对初始URL地址及该初始URL地址下的多个下级URL地址分别对应的页面信息进行跟踪采集;通过检测初始URL地址及多个下级URL地址在目标专题项目的本次数据采集任务与前次数据采集任务中分别对应的第一页面信息和第二页面信息是否相同,可确定初始URL地址及多个下级URL地址分别对应的网页是否更新了新的网络信息,当存在目标URL地址更新了新的网络信息时,根据对应目标专题项目的用户信息将每一个目标URL发送到对应的用户终端即可,相应的,用户即可通过用户终端访问目标URL地址以获取新的网络信息;可见,通过本发明提供的技术方案,可及时的向用户推送新的网络信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种信息推送方法的流程图;
图2是本发明一实施例提供的另一种信息推送方法的流程图;
图3是本发明一实施例提供的一种服务端装置的结构图;
图4是本发明一实施例提供的另一种服务端装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种信息推送方法,该方法可以包括以下步骤:
S0:预先设置对应目标专题项目的初始统一资源定位符URL地址、采集时间策略,以及,获取对应所述目标专题项目的用户信息;
S1:根据所述采集时间策略启动所述目标专题项目的本次数据采集任务,获取所述初始URL地址下的每一个下级URL地址;
S2:获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息;
S3:检测所述初始URL地址及每一个下级URL地址在所述目标专题项目的前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
S4:当存在至少一个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端。
本发明一实施例中,通过预先设置对应目标专题项目的初始URL地址、采集时间策略以及获取对应目标专题项目的用户信息,即可根据采集时间策略周期性或间歇性的启动该目标专题项目的数据采集任务,实现持续对初始URL地址及该初始URL地址下的多个下级URL地址分别对应的页面信息进行跟踪采集;通过检测初始URL地址及多个下级URL地址在目标专题项目的本次数据采集任务与前次数据采集任务中分别对应的第一页面信息和第二页面信息是否相同,可确定初始URL地址及多个下级URL地址分别对应的网页是否更新了新的网络信息,当存在目标URL地址更新了新的网络信息时,根据对应目标专题项目的用户信息将每一个目标URL发送到对应的用户终端即可,相应的,用户即可通过用户终端访问目标URL地址以获取新的网络信息;可见,通过本发明提供的技术方案,可及时的向用户推送新的网络信息。
进一步的,为了使用户可直接访问相应的目标URL地址以获取与目标专题项目关联程度最高的网络信息,本发明一个优选实施例中,还包括:
预先设置对应目标专题项目的关键词;
当存在多个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,所述根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端,包括:
根据所述关键词对每一个目标URL地址分别对应的第一页面信息分别进行全文检索,获取每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数;
根据每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数高低,编制索引信息;
根据对应所述目标专题项目的用户信息将所述索引信息发送到对应的外部用户终端。
本发明一实施例中,通过设置关键词以利用全文检索的方式对多个目标URL地址分别对应的第一页面信息进行全文检索,每一个第一页面信息分别被关键词命中的次数可反应出当前第一页面信息与目标专题项目的关联程度,可根据每一个第一页面信息分别被所述关键词命中的次数高低来编制相应的索引信息,进而将索引信息发送到用户终端,相应的,用户即可在用户终端选择性的访问目标URL地址,比如,准确访问相应的URL地址以获取与目标专题项目关联程度最高的网络信息。
需要说明的是,对应目标专题项目的关键词数量可结合实际业务需求合理设置。
进一步的,为了提高数据采集效率,本发明一个优选实施例中,还包括:预先设置边界URL地址规则;
所述获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息,包括:
对所述初始URL地址及本次数据采集任务中采集到的每一个下级URL地址进行去重处理,以及,根据所述边界URL地址规则对已进行去重处理后的每一个下级URL地址分别进行边界测定以获取符合所述边界URL地址规则的至少一个信息源URL地址;
获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息;
所述检测所述初始URL地址及每一个下级URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同,包括:
检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同。
本发明一实施例中,一方面,对目标专题项目的本次数据采集任务中采集到的每一个下级URL地址分别进行去重处理,相同下级URL地址对应的第一页面信息不会重复进行数据采集;另一方面,根据预先设置的边界URL地址规则对每一个下级URL地址分别进行边界测定,不符合边界URL地址规则的下级URL地址不会对其进行数据采集;可见,通过去重处理以及设置边界URL地址规则,可节约本次数据采集任务的数据采集时间,提高数据采集效率。
举例来说,设置边界URL地址规则时,可设置URL地址的有效期,对于不在有效期内的下级URL地址,不再对其进行数据采集。
进一步的,为了确定初始URL地址及每一个下级URL地址分别对应的网页是否更新了新的网络信息,本发明一个优选实施例中,所述获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息之后,进一步包括:
计算每一个第一页面信息分别对应的第一特征值;
所述检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同,包括:
获取第一标识信息,根据所述第一标识信息获取前次数据采集任务对应的第一业务信息,其中,所述第一业务信息包括所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值;
检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值与本次数据采集任务中分别对应的第一特征值是否完全相同。
本发明一实施例中,特征值可以包括每一个页面信息的哈希值,当一个目标URL地址在目标专题项目的本次数据采集任务中与前次数据采集任务中分别对应的第一页面信息和第二页面信息具备不同的哈希值时,则说明该目标URL地址对应的网页下更新了新的网络信息。
本发明一个优选实施例中,还包括:
存储本次数据采集任务获取到的第二业务信息,以及,设置对应所述第二业务信息的第二标识信息;
其中,所述第二业务信息包括:所述初始URL地址及每一个信息源URL地址在本次数据采集任务中分别对应的第二特征值。
本发明一实施例中,一方面,只存储初始URL地址及每一个信息源URL地址在目标专题项目的本次数据采集任务中分别对应的第二特征值,不必存储初始URL地址及每一个下级URL地址分别对应的第一页面信息,节约存储空间;另一方面,设置对应所述第二业务信息的第二标识信息,方便在目标专题项目的下次数据采集任务中根据该第二标识信息获取初始URL地址及每一个信息源URL地址在本次数据采集任务中分别对应的第二特征值,并将其作为该目标专题项目的下次数据采集任务中判断相应的URL地址对应的网页是否更新了新的网络信息的依据。
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
如图2所示,本发明实施例提供了另一种信息推送方法,以在目标专题项目的本次数据采集任务中向用户推送新的网络信息为例,其中,本次数据采集任务为目标专题项目的非第一次数据采集任务,该方法可以包括以下步骤:
步骤201,设置目标专题项目,对应目标专题项目的初始URL地址、边界URL地址、采集时间策略、关键词以及对应所述目标专题项目的用户信息。
本发明一实施例中,通过设置对应目标专题相应的初始URL地址及采集时间策略,可根据该初始URL地址对相应的网络信息进行定时、定向的跟踪采集。
步骤202,根据采集时间策略启动目标专题项目的本次数据采集任务。
步骤203,获取初始URL地址下的每一个下级URL地址。
步骤204,对获取的每一个下级URL地址进行去重处理,以及,根据边界URL地址规则对每一个去重后的下级URL地址进行边界测定。
步骤205,获取符合边界URL地址规则的至少一个信息源URL地址。
步骤204至步骤205中,对下级URL地址进行去重,以及对每一个下级URL地址分别进行边界测定,针对完全相同的下级URL地址不会重复进行数据采集;针对不符合边界URL地址规则的下级URL地址也不会对其进行数据采集,节约数据采集时间,提高数据采集效率。
举例来说,设置边界URL地址规则可以包括设置ULR地址有效期、URL地址类型等。
步骤206,获取初始URL地址及每一个信息源URL地址分别对应的第一页面信息。
这里,第一页面信息可以包括初始URL地址及每一个信息源URL地址在本次数据采集任务中分别对应网页内容;当然,在可能实现的情况下,也可以通过预先设置对应目标专题项目的数据采集模版,利用该数据采集模版从初始URL地址及每一个信息源URL地址分别对应的网页下采集到的业务数据。
步骤207,计算初始URL地址及每一个信息源URL地址分别对应的第一页面信息的第一特征值。
这里,特征值可以包括哈希值。
步骤208,存储第二业务信息,并设置第二业务信息对应的第二标识信息。
这里,第二业务信息包括初始URL地址及每一个下级URL地址在目标专题项目的本次数据采集任务中分别对应的第一特征值;
步骤209,获取第一标识信息。
步骤210,根据第一标识信息获取初始URL地址及每一个信息源URL地址在目标专题项目的前次数据采集任务中分别对应的第二特征值。
步骤208至步骤210中,标识信息可以包括目标专题项目的每一次数据采集任务分别对应的编号以及时间戳等可用于区别不同数据采集任务的信息。
步骤211,根据初始URL地址及每一个信息源URL地址分别对应的第一特征值和第二特征值检测出至少一个目标URL地址。
本发明一实施例中,当对应于同一个目标URL地址的第一特征值与第二特征值不完全相同时,则说明该目标URL地址对应的网页下更新了新的网络信息;当然,如果初始URL地址及每一个下级URL地址分别对应的网页均未更新网络信息,则可结束本次数据采集任务。
步骤212,利用关键词对每一个目标URL地址分别对应的第一页面信息进行全文检索,并记录每一个目标URL地址分别对应的第一页面信息被关键词命中的次数。
步骤213,根据每一个目标URL地址分别对应的关键词命中次数高低编制索引信息。
步骤212至步骤213中,每一个目标URL地址分别对应的第一页面信息被关键词命中的次数,可反应当前目标URL地址对应的第一页面信息与目标专题项目的关联程度,相应的,即可根据其关联程度的高低对目标URL地址进行排序,并构建可反应每一个URL地址分别与目标专题项目关联程度高低的索引信息。
步骤214,根据对应目标专题项目的用户信息将索引信息发送到对应的用户终端。
本发明一实施例中,用户信息可以包括用户手机号、邮箱帐号以及目标专题项目对应的门户网站的登录帐号等;用户终端可以包括手机、电脑等。
相应的,当存在目标URL地址对应的网页更新了新的网络信息时,则可通过相应的用户信息将索引信息发送给到对应的用户终端,用户即可根据索引信息直接访问相应的目标URL地址以获取与目标专题项目关联程度最高的网络信息;而且,用户直接访问URL地址以获取相应的网络信息,较之利用相应的数据采集规则采集到的网络信息准确性更高。
如图3所示,本发明实施例提供了一种服务端装置,包括:
设置单元301,用于预先设置对应目标专题项目的初始统一资源定位符URL地址、采集时间策略;
获取单元302,用于获取对应所述目标专题项目的用户信息;
任务调度装置303,用于根据所述采集时间策略启动所述目标专题项目的本次数据采集任务;
数据采集装置304,用于获取所述初始URL地址下的每一个下级URL地址;获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息;
检测装置305,用于检测所述初始URL地址及每一个下级URL地址在所述目标专题项目的前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
信息推送装置306,用于当存在至少一个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端。
进一步的,为了使用户可直接访问相应的目标URL地址以获取与目标专题项目关联程度最高的网络信息,如图4所示,本发明一个优选实施例中,所述设置单元301,进一步用于设置对应目标专题项目的关键词;
所述信息推送装置306,包括:
检索子模块3061,用于根据所述关键词对每一个目标URL地址分别对应的第一页面信息分别进行全文检索,获取每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数;
索引器3062,用于根据每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数高低,编制索引信息;
信息推送子模块3063,用于根据对应所述目标专题项目的用户信息将所述索引信息发送到对应的外部用户终端。
进一步的,为了提高数据采集效率,如图4所示,本发明一个优选实施例中,
所述设置单元301,进一步用于设置边界URL地址规则;
所述数据采集装置304,包括:
处理子模块3041,用于对所述初始URL地址及本次数据采集任务中采集到的每一个下级URL地址进行去重处理,以及,根据所述边界URL地址规则对已进行去重处理后的每一个下级URL地址分别进行边界测定以获取符合所述边界URL地址规则的至少一个信息源URL地址;
数据采集子模块3042,用于获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息;
所述检测装置305,用于检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同。
进一步的,为了确定初始URL地址及每一个下级URL地址分别对应的网页是否更新了新的网络信息,如图4所示,本发明一个优选实施例中,还包括:
计算单元401,用于计算每一个第一页面信息分别对应的第一特征值;
所述检测装置305,包括:
获取子模块3051,获取第一标识信息,根据所述第一标识信息获取前次数据采集任务对应的第一业务信息,其中,所述第一业务信息包括所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值;
检测子模块3052,用于检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值与本次数据采集任务中分别对应的第一特征值是否完全相同。
进一步的,如图4所示,本发明一个优选实施例中,还包括:
存储装置402,用于存储本次数据采集任务获取到的第二业务信息;
所述设置单元301,进一步用于设置对应所述第二业务信息的第二标识信息;
其中,所述第二业务信息包括:所述初始URL地址及每一个信息源URL地址在本次数据采集任务中分别对应的第二特征值。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明各个实施例至少具有如下有益效果:
1、通过预先设置对应目标专题项目的初始URL地址、采集时间策略以及获取对应目标专题项目的用户信息,即可根据采集时间策略周期性或间歇性的启动该目标专题项目的数据采集任务,实现持续对初始URL地址及该初始URL地址下的多个下级URL地址分别对应的页面信息进行跟踪采集;通过检测初始URL地址及多个下级URL地址在目标专题项目的本次数据采集任务与前次数据采集任务中分别对应的第一页面信息和第二页面信息是否相同,可确定初始URL地址及多个下级URL地址分别对应的网页是否更新了新的网络信息,当存在目标URL地址更新了新的网络信息时,根据对应目标专题项目的用户信息将每一个目标URL发送到对应的用户终端即可,相应的,用户即可通过用户终端访问目标URL地址以获取新的网络信息;可见,通过本发明提供的技术方案,可及时的向用户推送新的网络信息。
2、在目标专题项目的每一次数据采集任务中,针对初始URL地址及每一个下级URL地址分别对应的页面信息,只存储初始URL地址及每一个下级URL地址分别对应的页面信息的特征值即可,不必存储初始URL地址及每一个下级URL地址分别对应的页面信息,节约存储空间。
3、通过设置对应目标专题项目的关键词,利用关键词对目标URL地址对应的页面信息进行全文检索,每一个目标URL地址分别对应的页面信息被关键词命中的次数可反应出当前页面信息与目标专题项目的关联程度,相应的,根据每一个目标URL地址分别对应的页面信息被关键词命中的次数高低构建索引信息,方便用户根据索引信息直接访问相应的目标URL地址以获取与目标专题项目关联程度最高的网络信息。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃〃〃〃〃〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (2)

1.一种信息推送方法,其特征在于,包括:
预先设置对应目标专题项目的初始统一资源定位符URL地址、采集时间策略,以及,获取对应所述目标专题项目的用户信息;
还包括:
根据所述采集时间策略启动所述目标专题项目的本次数据采集任务,获取所述初始URL地址下的每一个下级URL地址;
获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息;
检测所述初始URL地址及每一个下级URL地址在所述目标专题项目的前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
当存在至少一个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端;
还包括:
预先设置对应目标专题项目的关键词;
当存在多个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,所述根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端,包括:
根据所述关键词对每一个目标URL地址分别对应的第一页面信息分别进行全文检索,获取每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数;
根据每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数高低,编制索引信息;
根据对应所述目标专题项目的用户信息将所述索引信息发送到对应的外部用户终端;
还包括:
预先设置边界URL地址规则;
所述获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息,包括:
对所述初始URL地址及本次数据采集任务中采集到的每一个下级URL地址进行去重处理,以及,根据所述边界URL地址规则对已进行去重处理后的每一个下级URL地址分别进行边界测定以获取符合所述边界URL地址规则的至少一个信息源URL地址;
获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息;
所述检测所述初始URL地址及每一个下级URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同,包括:
检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
所述获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息之后,进一步包括:
计算每一个第一页面信息分别对应的第一特征值;
所述检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同,包括:
获取第一标识信息,根据所述第一标识信息获取前次数据采集任务对应的第一业务信息,其中,所述第一业务信息包括所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值;
检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值与本次数据采集任务中分别对应的第一特征值是否完全相同;
进一步包括:
存储本次数据采集任务获取到的第二业务信息,以及,设置对应所述第二业务信息的第二标识信息;
其中,所述第二业务信息包括:所述初始URL地址及每一个信息源URL地址在本次数据采集任务中分别对应的第二特征值。
2.一种服务端装置,其特征在于,包括:
设置单元,用于预先设置对应目标专题项目的初始统一资源定位符URL地址、采集时间策略;
获取单元,用于获取对应所述目标专题项目的用户信息;
任务调度装置,用于根据所述采集时间策略启动所述目标专题项目的本次数据采集任务;
数据采集装置,用于获取所述初始URL地址下的每一个下级URL地址;获取所述初始URL地址及每一个下级URL地址分别对应的第一页面信息;
检测装置,用于检测所述初始URL地址及每一个下级URL地址在所述目标专题项目的前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
信息推送装置,用于当存在至少一个目标URL地址,对应当前目标URL地址的第一页面信息与第二页面信息不完全相同时,根据对应所述目标专题项目的用户信息将每一个目标URL地址分别发送到对应的外部用户终端;
所述设置单元,进一步用于设置对应目标专题项目的关键词;
所述信息推送装置,包括:
检索子模块,用于根据所述关键词对每一个目标URL地址分别对应的第一页面信息分别进行全文检索,获取每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数;
索引器,用于根据每一个目标URL地址分别对应的第一页面信息被所述关键词命中的次数高低,编制索引信息;
信息推送子模块,用于根据对应所述目标专题项目的用户信息将所述索引信息发送到对应的外部用户终端;
所述设置单元,进一步用于设置边界URL地址规则;
所述数据采集装置,包括:
处理子模块,用于对所述初始URL地址及本次数据采集任务中采集到的每一个下级URL地址进行去重处理,以及,根据所述边界URL地址规则对已进行去重处理后的每一个下级URL地址分别进行边界测定以获取符合所述边界URL地址规则的至少一个信息源URL地址;
数据采集子模块,用于获取所述初始URL地址及每一个信息源URL地址分别对应的第一页面信息;
所述检测装置,用于检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二页面信息与本次数据采集任务中分别对应的第一页面信息是否完全相同;
还包括:
计算单元,用于计算每一个第一页面信息分别对应的第一特征值;
所述检测装置,包括:
获取子模块,获取第一标识信息,根据所述第一标识信息获取前次数据采集任务对应的第一业务信息,其中,所述第一业务信息包括所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值;
检测子模块,用于检测所述初始URL地址及每一个信息源URL地址在前次数据采集任务中分别对应的第二特征值与本次数据采集任务中分别对应的第一特征值是否完全相同;
还包括:
存储装置,用于存储本次数据采集任务获取到的第二业务信息;
所述设置单元,进一步用于设置对应所述第二业务信息的第二标识信息;
其中,所述第二业务信息包括:所述初始URL地址及每一个信息源URL地址在本次数据采集任务。
CN201610048934.1A 2016-01-25 2016-01-25 一种信息推送方法及服务端装置 Active CN105740345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610048934.1A CN105740345B (zh) 2016-01-25 2016-01-25 一种信息推送方法及服务端装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610048934.1A CN105740345B (zh) 2016-01-25 2016-01-25 一种信息推送方法及服务端装置

Publications (2)

Publication Number Publication Date
CN105740345A CN105740345A (zh) 2016-07-06
CN105740345B true CN105740345B (zh) 2019-05-21

Family

ID=56247614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610048934.1A Active CN105740345B (zh) 2016-01-25 2016-01-25 一种信息推送方法及服务端装置

Country Status (1)

Country Link
CN (1) CN105740345B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552879B (zh) * 2020-04-29 2023-10-03 百度在线网络技术(北京)有限公司 数据处理的方法及装置
CN117041497A (zh) * 2022-09-09 2023-11-10 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030197724A1 (en) * 2000-02-17 2003-10-23 Reed George William Selection interface system
CN101261634A (zh) * 2008-04-11 2008-09-10 哈尔滨工业大学深圳研究生院 基于增量Q-Learning的学习方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030197724A1 (en) * 2000-02-17 2003-10-23 Reed George William Selection interface system
CN101261634A (zh) * 2008-04-11 2008-09-10 哈尔滨工业大学深圳研究生院 基于增量Q-Learning的学习方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于RSS的聚焦网络爬虫在高校网站群中的研究;张睿涵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121205(第12期);摘要,第2、30-54页 *

Also Published As

Publication number Publication date
CN105740345A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN110807085B (zh) 故障信息的查询方法及装置、存储介质、电子装置
CN102663054B (zh) 一种确定网站权重的方法及装置
CN103473230A (zh) 服务范围确定方法、物流服务提供方推荐方法及相应装置
CN106548432B (zh) 建筑工人考核方法、装置及服务器
CN105335515A (zh) 一种信息推荐方法和装置
CN104933618A (zh) 核心银行系统批量作业运行数据的监控方法及装置
CN106874335B (zh) 行为数据处理方法、装置及服务器
CN105718533A (zh) 信息推送方法和装置
CN102231152B (zh) 基于移动终端ip地址进行精确查询的搜索方法
CN107483381A (zh) 关联账户的监控方法及装置
CN104750760A (zh) 一种推荐应用软件的实现方法及装置
CN103365928A (zh) 一种信息推荐方法及装置
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
CN101957845A (zh) 一种在线应用系统及其实现方法
CN105871585A (zh) 终端关联方法及装置
CN112328802A (zh) 数据处理方法、装置和服务器
CN105740345B (zh) 一种信息推送方法及服务端装置
CN111698645A (zh) 位置信息获取方法、装置、计算机设备及存储介质
CN110689211A (zh) 网站服务能力的评估方法及装置
CN113268641A (zh) 基于大数据的用户数据处理方法及大数据服务器
CN103944935A (zh) 一种网址信息投放方法和装置
CN102508884A (zh) 热点事件与实时评论的获取方法及装置
CN109582883A (zh) 栏目页的确定方法和装置
CN102541947A (zh) 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN102663111A (zh) 一种信息获取方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Junhong

Inventor after: Tian Shangjie

Inventor before: Tian Shangjie

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant