CN102761627A - 基于终端访问统计的云网址推荐方法及系统及相关设备 - Google Patents

基于终端访问统计的云网址推荐方法及系统及相关设备 Download PDF

Info

Publication number
CN102761627A
CN102761627A CN2012102169477A CN201210216947A CN102761627A CN 102761627 A CN102761627 A CN 102761627A CN 2012102169477 A CN2012102169477 A CN 2012102169477A CN 201210216947 A CN201210216947 A CN 201210216947A CN 102761627 A CN102761627 A CN 102761627A
Authority
CN
China
Prior art keywords
network address
keyword
file
query
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102169477A
Other languages
English (en)
Other versions
CN102761627B (zh
Inventor
张绍瑞
宁浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210216947.7A priority Critical patent/CN102761627B/zh
Publication of CN102761627A publication Critical patent/CN102761627A/zh
Priority to PCT/CN2013/075952 priority patent/WO2014000538A1/zh
Priority to US14/411,463 priority patent/US10216848B2/en
Application granted granted Critical
Publication of CN102761627B publication Critical patent/CN102761627B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于终端访问统计的云网址推荐方法及系统及相关设备,其中方法主要包括:对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;根据网址排序的结果抓取对应的网址描述信息;存储网址及对应的网址描述信息到云端存储媒介;当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方;本发明基于对访问行为的统计来计算网址的热度和排序,从而大幅提升推荐结果的质量和相关性。

Description

基于终端访问统计的云网址推荐方法及系统及相关设备
技术领域
本发明涉及通信技术领域,尤其涉及一种基于终端访问统计的云网址推荐方法及系统及相关设备。
背景技术
网址推荐技术是指用户在输入部分网址或者网址描述后自动为其推荐相关网址的技术。该技术应用在浏览器地址栏等应用场景,要求尽可能地把用户想要访问的网址提示出来,甚至将用户未知但是最符合用户需求的网址推荐出来。
目前,各主流浏览器都提供地址栏的网址推荐功能,但是大多数浏览器的网址推荐的数据都来自本地的历史访问记录。该方法存在两个问题,一是本地历史访问记录中不存在的网址就无法推荐出来;二是更新网址库的成本较高,无法频繁更新网址库。由于互联网内容的变化非常快,因此,该方法很难保证网址库的覆盖度和新鲜度。
少数浏览器除了支持本地网址库推荐外还支持云网址推荐功能,会在用户输入时实时去云端查询网址并推荐相应的结果。与基于本地网址库的推荐相比,该方法能够保证推荐网址的覆盖率和准确率。但是,现有支持该功能的浏览器都是基于通用搜索引擎的,也就是使用用户输入的部分网址或者网址描述去通用搜索引擎中搜索,将搜索出来的前几个结果的网址推荐出来。由于通用搜索引擎的目标数据是网页正文,满足的是用户检索文本信息的需求,其结果相关性计算算法和结果排序算法都是针对全文检索设计的;而浏览器地址栏网址推荐的目标数据是网址数据,满足的是用户快速寻找网址的需求。因此,直接用搜索引擎的检索结果作为推荐网址使用是不合适的,存在相关性较差和质量偏低的缺陷,用户使用中找到合适网址的效率较低,用户体验较差。
发明内容
鉴于上述的分析,本发明旨在提供一种基于终端访问统计的云网址推荐方法及系统及相关设备,用以解决现有技术中直接用搜索引擎的检索结果作为推荐网址使用是不合适的,存在相关性较差和质量偏低的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种基于终端访问统计的云网址推荐系统,包括:排序处理单元、抓取处理单元、存储单元以及查询处理单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介;
查询处理单元,适于当接收到请求方的查询请求时,根据查询请求中的关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
进一步地,还包括:
预处理单元,适于从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。
进一步地,所述排序处理单元具体包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
进一步地,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
进一步地,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
进一步地,所述存储单元具体适于,
临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
进一步地,所述查询处理单元进一步包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。。
进一步地,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
进一步地,所述查询处理单元还包括:
结果过滤模块,适于对查询结果进行过滤后再输出。
其中,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
进一步地,所述查询处理单元还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
本发明还提供了一种基于终端访问统计的云网址推荐方法,包括:
对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
根据网址排序的结果抓取对应的网址描述信息;
存储网址及对应的网址描述信息到云端存储媒介;
当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
进一步地,所述对网址进行排序处理的步骤之前还包括:
从存储终端访问过的网址数据库中提取网址并进行预处理,所述预处理包括:过滤非法网址和/或消除重复的网址。
进一步地,所述对网址进行排序处理的步骤进一步包括:
对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
按照预定规则将所述原始种子文件分割成多个子文件。
进一步地,所述预定规则为MD5算法,则分割的过程进一步包括:
针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
进一步地,抓取的过程进一步包括:
对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
进一步地,所述抓取对应的网址描述信息的步骤之后还包括:
将多个网址描述生成结果文件进行汇总存储;
根据网址及对应的网址描述信息建立索引,生成索引文件。
进一步地,所述根据查询关键词进行查询的过程进一步包括:
根据查询请求中的查询关键词,调用索引文件进行查询;
输出查询结果。
其中,所述关键词包括:网址关键词和/或描述关键词,则所述调用索引文件进行查询的过程进一步包括:
判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果;如果是描述关键词,则直接调用索引文件进行查询。
进一步地,输出查询结果前还包括:
对查询结果进行过滤后再输出。
进一步地,对查询结果进行过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
进一步地,还包括:
当从外部接收请求方的查询请求后,先对接收到的查询请求进行负载均衡处理。
本发明还提供了一种网址统计处理装置,包括:排序处理单元、抓取处理单元以及存储单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介。
进一步地,还包括:
预处理单元,适于对下载的网址进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。
进一步地,所述排序处理单元进一步包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
进一步地,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
进一步地,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
进一步地,所述存储单元具体适于,
临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
本发明最后还提供了一种查询装置,包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
进一步地,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
进一步地,所述查询处理单元还包括:
结果过滤模块,适于对查询结果进行过滤后再输出。
其中,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
进一步地,还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
本发明有益效果如下:
本发明基于对访问行为的统计来计算网址的热度和排序,从而大幅提升推荐结果的质量和相关性
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明所述基于终端访问统计的云网址推荐方法的流程示意图;
图2为本发明实施例所述述基于终端访问统计的云网址推荐方法的具体流程示意图
图3本发明实施例所述基于终端访问统计的云网址推荐系统的结构示意图;
图4为本发明实施例所述网址统计处理装置的结构示意图;
图5为本发明实施例所述查询装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
首先,结合附图1和2对本发明实施例所述基于终端访问统计的云网址推荐方法进行详细说明。
如图1所示,图1为本发明实施例所述述基于终端访问统计的云网址推荐方法的流程示意图,主要可以包括如下步骤:
步骤101:对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
步骤102:根据网址排序的结果抓取对应的网址描述信息;
步骤103:存储网址及对应的网址描述信息到云端存储媒介;
步骤104:当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
如图2所示,图2为本发明实施例所述基于终端访问统计的云网址推荐方法的具体流程示意图,具体可以包括以下步骤:
步骤201:从存储终端访问过的网址数据库中提取网址;
步骤202:对提取的网址进行预处理,所述预处理可以包括:过滤非法网址和/或消除重复的网址;
步骤203:对预处理后的网址按照终端访问频率进行计数;
步骤205:按照终端访问频率从高到低的顺序进行排序;
步骤204:对于终端访问频率进行分布统计,例如终端访问量在1000次以内这个区间的有哪些域名,终端访问量在1000到2000次之间这个区间的有哪些域名;
步骤205:将排序后的网址生成指定格式的原始种子文件,该指定格式为符合后续抓取要求的文件格式,例如SXML格式;
步骤206:输出原始种子文件,该原始种子文件包含多条数据记录,每条数据记录对应一个网址。
步骤207:按照预定规则将原始种子文件切分为多个子文件保存到临时目录中,该预定规则可以为MD5算法,切分的过程可以为:针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内;本发明实施例中为采用MD5算法进行分割,本领域技术人员应该知道,本发明实施例还可以采用其他哈希算法实现;
步骤208:输出切分后的子文件到临时目录中;
步骤209:将临时目录中下切分好的多个子文件进行输出,等待后续抓取流程;
步骤210:对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储;
步骤211:临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介;
步骤212:根据网址及对应的网址描述信息建立索引,生成索引文件;
步骤213:当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理;
步骤214:对于每个查询请求,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果;如果是描述关键词,则直接调用索引文件进行查询;
步骤215:对查询结果进行过滤后,将查询结果中频率排在前面的一个或多个网址作为推荐项目进行输出,其中,过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤、钓鱼类过滤以及政治敏感过滤等。
接下来,结合附图3对本发明实施例所述基于终端访问统计的云网址推荐系统进行详细说明。
如图3所示,图3为本发明实施例所述基于终端访问统计的云网址推荐系统的结构示意图,具体可以包括:预处理单元301、排序处理单元302、抓取处理单元303、存储单元304以及查询处理单元305,以下将对各个模块分别予以详细说明。
(一)预处理单元301,作为本发明实施例的优选功能模块,主要负责对从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序处理单元302,其中,预处理包括:过滤非法网址和/或消除重复的网址。
(二)排序处理单元302,主要负责根据终端访问频率对网址进行排序处理;
该排序处理单元302具体可以包括:统计模块3021、文件生成模块3022、分发模块3023,其中,
统计模块3021,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块3022,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块3023,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元;其中,预定规则可以为MD5算法,则分发模块针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内;本发明实施例中为采用MD5算法进行分割,本领域技术人员应该知道,本发明实施例还可以采用其他哈希算法实现;
(三)抓取处理单元303,适于根据网址排序的结果抓取对应的网址描述信息;具体的说就是,对于每个子文件,抓取处理单元根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
(四)存储单元304,适于存储抓取的网址及对应的网址描述信息;具体的说就是,存储单元304临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
(五)查询处理单元305,适于当接收到外部发来的查询请求时,根据查询请求中的关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果;
该查询处理单元具体包括:索引建立模块3051、查询模块3052、结果过滤模块3053以及负载均衡模块3054,其中,
索引建立模块3051,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块3052,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果;其中,关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出;
结果过滤模块3053,适于对查询结果进行过滤后,将查询结果中频率排在前面的一个或多个网址作为推荐项目进行输出,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤、钓鱼类过滤以及政治敏感过滤等。
负载均衡模块3054,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
最后结合附图4和5对本发明实施例所述网址统计处理装置以及查询装置进行详细说明。
如图4所示,图4为本发明实施例所述网址统计处理装置的结构示意图,具体可以包括:预处理单元401、排序处理单元402、抓取处理单元403以及存储单元404,其中,
(一)预处理单元401,作为本发明实施例的优选功能模块,主要负责从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序处理单元402,其中,预处理包括:过滤非法网址和/或消除重复的网址。
(二)排序处理单元402,主要负责根据终端访问频率对网址进行排序处理;
该排序处理单元402具体可以包括:统计模块4021、文件生成模块4022、分发模块4023,其中,
统计模块4021,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块4022,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块4023,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元;其中,预定规则可以为MD5算法,则分发模块针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内;本发明实施例中为采用MD5算法进行分割,本领域技术人员应该知道,本发明实施例还可以采用其他哈希算法实现;
(三)抓取处理单元403,适于根据网址排序的结果抓取对应的网址描述信息;具体的说就是,对于每个子文件,抓取处理单元根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
(四)存储单元404,适于存储抓取的网址及对应的网址描述信息;具体的说就是,存储单元临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
如图5所示,图5为本发明实施例所述查询装置的结构示意图,具体可以包括:索引建立模块501、查询模块502、结果过滤模块503以及负载均衡模块504,其中,
索引建立模块501,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块502,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果;其中,关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出;
结果过滤模块503,适于对查询结果进行过滤后将查询结果中频率排在前面的一个或多个网址作为推荐项目进行输出,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤、钓鱼类过滤以及政治敏感过滤等。
负载均衡模块504,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
综上所述,本发明实施例提供了一种基于终端访问统计的云网址推荐方法及系统及相关设备,在原有云网址推荐的基础上,使用海量终端真实访问的网址作为网址库,并基于对访问行为的统计来计算网址的热度和排序,从而大幅提升推荐结果的质量和相关性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (33)

1.一种基于终端访问统计的云网址推荐系统,其特征在于,包括:排序处理单元、抓取处理单元、存储单元以及查询处理单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介;
查询处理单元,适于当接收到请求方的查询请求时,根据查询请求中的关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
2.根据权利要求1所述的系统,其特征在于,还包括:
预处理单元,适于从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。
3.根据权利要求1或2所述的系统,其特征在于,所述排序处理单元具体包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
4.根据权利要求3所述的系统,其特征在于,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算 法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
5.根据权利要求4所述的系统,其特征在于,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
6.根据权利要求5所述的系统,其特征在于,所述存储单元具体适于,
临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
7.根据权利要求6所述的系统,其特征在于,所述查询处理单元进一步包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
8.根据权利要求7所述的系统,其特征在于,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
9.根据权利要求7所述的系统,其特征在于,所述查询处理单元还包括: 
结果过滤模块,适于对查询结果进行过滤后再输出。
10.根据权利要求9所述的系统,其特征在于,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
11.根据权利要求7所述的系统,其特征在于,所述查询处理单元还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
12.一种基于终端访问统计的云网址推荐方法,其特征在于,包括:
对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
根据网址排序的结果抓取对应的网址描述信息;
存储网址及对应的网址描述信息到云端存储媒介;
当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
13.根据权利要求12所述的方法,其特征在于,所述对网址进行排序处理的步骤之前还包括:
从存储终端访问过的网址数据库中提取网址并进行预处理,所述预处理包括:过滤非法网址和/或消除重复的网址。
14.根据权利要求12或13所述的方法,其特征在于,所述对网址进行排序处理的步骤进一步包括:
对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网 址进行排序;
将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
按照预定规则将所述原始种子文件分割成多个子文件。
15.根据权利要求14述的方法,其特征在于,所述预定规则为MD5算法,则分割的过程进一步包括:
针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
16.根据权利要求14或15所述的方法,其特征在于,抓取的过程进一步包括:
对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
17.根据权利要求12所述的方法,其特征在于,所述抓取对应的网址描述信息的步骤之后还包括:
将多个网址描述生成结果文件进行汇总存储;
根据网址及对应的网址描述信息建立索引,生成索引文件。
18.根据权利要求17所述的方法,其特征在于,所述根据查询关键词进行查询的过程进一步包括:
根据查询请求中的查询关键词,调用索引文件进行查询;
输出查询结果。 
19.根据权利要求18所述的方法,其特征在于,所述关键词包括:网址关键词和/或描述关键词,则所述调用索引文件进行查询的过程进一步包括:
判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果;如果是描述关键词,则直接调用索引文件进行查询。
20.根据权利要求18所述的方法,其特征在于,输出查询结果前还包括:
对查询结果进行过滤后再输出。
21.根据权利要求20所述的方法,其特征在于,对查询结果进行过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
22.根据权利要求12所述的方法,其特征在于,还包括:
当从外部接收请求方的查询请求后,先对接收到的查询请求进行负载均衡处理。
23.一种网址统计处理装置,其特征在于,包括:排序处理单元、抓取处理单元以及存储单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介。
24.根据权利要求23所述的装置,其特征在于,还包括:
预处理单元,适于对下载的网址进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。 
25.根据权利要求23或24所述的装置,其特征在于,所述排序处理单元进一步包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
26.根据权利要求25所述的装置,其特征在于,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
27.根据权利要求26所述的装置,其特征在于,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
28.根据权利要求27所述的装置,其特征在于,所述存储单元具体适于,临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
29.一种查询装置,其特征在于,包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件; 
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
30.根据权利要求29所述的装置,其特征在于,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
31.根据权利要求29所述的装置,其特征在于,所述查询处理单元还包括:
结果过滤模块,适于对查询结果进行过滤后再输出。
32.根据权利要求31所述的装置,其特征在于,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
33.根据权利要求29所述的装置,其特征在于,还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。 
CN201210216947.7A 2012-06-27 2012-06-27 基于终端访问统计的云网址推荐方法及系统及相关设备 Expired - Fee Related CN102761627B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210216947.7A CN102761627B (zh) 2012-06-27 2012-06-27 基于终端访问统计的云网址推荐方法及系统及相关设备
PCT/CN2013/075952 WO2014000538A1 (zh) 2012-06-27 2013-05-21 基于终端访问统计的云网址推荐方法及系统及相关设备
US14/411,463 US10216848B2 (en) 2012-06-27 2013-05-21 Method and system for recommending cloud websites based on terminal access statistics

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210216947.7A CN102761627B (zh) 2012-06-27 2012-06-27 基于终端访问统计的云网址推荐方法及系统及相关设备

Publications (2)

Publication Number Publication Date
CN102761627A true CN102761627A (zh) 2012-10-31
CN102761627B CN102761627B (zh) 2015-12-09

Family

ID=47055945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210216947.7A Expired - Fee Related CN102761627B (zh) 2012-06-27 2012-06-27 基于终端访问统计的云网址推荐方法及系统及相关设备

Country Status (3)

Country Link
US (1) US10216848B2 (zh)
CN (1) CN102761627B (zh)
WO (1) WO2014000538A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946449A (zh) * 2012-11-28 2013-02-27 网神信息技术(北京)股份有限公司 Url 的匹配方法、装置及网关
CN102982136A (zh) * 2012-11-16 2013-03-20 北京奇虎科技有限公司 浏览器地址栏中显示推荐网址信息的方法和浏览器
CN102982134A (zh) * 2012-11-16 2013-03-20 北京奇虎科技有限公司 在浏览器地址栏中显示推荐网址信息的系统
WO2014000538A1 (zh) * 2012-06-27 2014-01-03 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及系统及相关设备
CN103812906A (zh) * 2012-11-14 2014-05-21 腾讯科技(深圳)有限公司 一种网址推荐方法、装置和通信系统
WO2014194689A1 (en) * 2013-06-06 2014-12-11 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
CN105847364A (zh) * 2016-03-28 2016-08-10 乐视控股(北京)有限公司 基于统一域名的公有云对象存储方法及系统
US10019419B2 (en) 2013-06-06 2018-07-10 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
CN110148028A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 向用户推荐菜单的方法、装置及计算机可读存储介质
CN110569417A (zh) * 2019-09-12 2019-12-13 重庆市群众艺术馆 文化云平台资源推送方法
CN110807041A (zh) * 2019-11-01 2020-02-18 广州华多网络科技有限公司 索引推荐方法、装置、电子设备及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224572B (zh) * 2014-06-30 2019-11-15 北京金山安全软件有限公司 鉴别垃圾目录的方法及装置
CN108984572B (zh) * 2017-06-05 2022-03-18 北京国双科技有限公司 网站信息推送方法及装置
CN109190001B (zh) * 2018-09-19 2022-02-11 广东电网有限责任公司 办公文件管理方法
US10810229B2 (en) 2018-10-19 2020-10-20 Oracle International Corporation Database replication based on data access scores
CN110781372B (zh) * 2019-10-28 2022-04-08 珠海格力电器股份有限公司 一种优化网站的方法、装置、计算机设备及存储介质
CN110851758B (zh) * 2019-10-30 2024-02-06 深圳前海微众银行股份有限公司 一种网页访客数量统计方法及装置
CN113158024B (zh) * 2021-02-26 2022-07-15 中国科学技术大学 一种纠正推荐系统流行度偏差的因果推理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320373A (zh) * 2008-06-13 2008-12-10 华中科技大学 网站支撑数据库安全搜索引擎系统
US20090083278A1 (en) * 2007-09-26 2009-03-26 Yihong Zhao System and method for discovering and presenting social relationships between internet users and content
CN101420452A (zh) * 2008-12-05 2009-04-29 深圳市迅雷网络技术有限公司 一种视频文件的发布方法及装置
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
US20090259646A1 (en) * 2008-04-09 2009-10-15 Yahoo!, Inc. Method for Calculating Score for Search Query
CN102332020A (zh) * 2011-09-22 2012-01-25 奇智软件(北京)有限公司 一种网址导航页面的生成方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499965B1 (en) * 2004-02-25 2009-03-03 University Of Hawai'i Software agent for locating and analyzing virtual communities on the world wide web
CN100596135C (zh) * 2006-06-09 2010-03-24 华为技术有限公司 一种确定内容提供商优先级的系统和方法
US7774470B1 (en) * 2007-03-28 2010-08-10 Symantec Corporation Load balancing using a distributed hash
WO2009030972A1 (en) * 2007-09-06 2009-03-12 Chin San Sathya Wong Method and system of generating and presenting search results
CN101178728A (zh) 2007-11-21 2008-05-14 北京搜狗科技发展有限公司 一种网址导航的方法和系统
CN101251881B (zh) * 2008-04-07 2010-04-14 华为技术有限公司 一种内容识别的方法、系统和装置
CN102761627B (zh) 2012-06-27 2015-12-09 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及系统及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083278A1 (en) * 2007-09-26 2009-03-26 Yihong Zhao System and method for discovering and presenting social relationships between internet users and content
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
US20090259646A1 (en) * 2008-04-09 2009-10-15 Yahoo!, Inc. Method for Calculating Score for Search Query
CN101320373A (zh) * 2008-06-13 2008-12-10 华中科技大学 网站支撑数据库安全搜索引擎系统
CN101420452A (zh) * 2008-12-05 2009-04-29 深圳市迅雷网络技术有限公司 一种视频文件的发布方法及装置
CN102332020A (zh) * 2011-09-22 2012-01-25 奇智软件(北京)有限公司 一种网址导航页面的生成方法和装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014000538A1 (zh) * 2012-06-27 2014-01-03 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及系统及相关设备
US10216848B2 (en) 2012-06-27 2019-02-26 Beijing Qihoo Technology Company Limited Method and system for recommending cloud websites based on terminal access statistics
CN103812906A (zh) * 2012-11-14 2014-05-21 腾讯科技(深圳)有限公司 一种网址推荐方法、装置和通信系统
CN103812906B (zh) * 2012-11-14 2015-03-18 腾讯科技(深圳)有限公司 一种网址推荐方法、装置和通信系统
CN102982136A (zh) * 2012-11-16 2013-03-20 北京奇虎科技有限公司 浏览器地址栏中显示推荐网址信息的方法和浏览器
CN102982134A (zh) * 2012-11-16 2013-03-20 北京奇虎科技有限公司 在浏览器地址栏中显示推荐网址信息的系统
CN102946449A (zh) * 2012-11-28 2013-02-27 网神信息技术(北京)股份有限公司 Url 的匹配方法、装置及网关
US10019419B2 (en) 2013-06-06 2018-07-10 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
WO2014194689A1 (en) * 2013-06-06 2014-12-11 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
US10402479B2 (en) 2013-06-06 2019-09-03 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
CN105847364A (zh) * 2016-03-28 2016-08-10 乐视控股(北京)有限公司 基于统一域名的公有云对象存储方法及系统
CN110148028A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 向用户推荐菜单的方法、装置及计算机可读存储介质
CN110148028B (zh) * 2018-02-13 2024-05-24 北京京东尚科信息技术有限公司 向用户推荐菜单的方法、装置及计算机可读存储介质
CN110569417A (zh) * 2019-09-12 2019-12-13 重庆市群众艺术馆 文化云平台资源推送方法
CN110807041A (zh) * 2019-11-01 2020-02-18 广州华多网络科技有限公司 索引推荐方法、装置、电子设备及存储介质
CN110807041B (zh) * 2019-11-01 2022-05-20 广州华多网络科技有限公司 索引推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2014000538A1 (zh) 2014-01-03
CN102761627B (zh) 2015-12-09
US20160188723A1 (en) 2016-06-30
US10216848B2 (en) 2019-02-26

Similar Documents

Publication Publication Date Title
CN102761627A (zh) 基于终端访问统计的云网址推荐方法及系统及相关设备
US9443019B2 (en) Optimized web domains classification based on progressive crawling with clustering
CN102542052B (zh) 优先散列索引
US8977623B2 (en) Method and system for search engine indexing and searching using the index
CN108255958A (zh) 数据查询方法、装置和存储介质
CN105701216A (zh) 一种信息推送方法及装置
CN102710795A (zh) 热点聚合方法及装置
CN105721538A (zh) 数据访问的方法和装置
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN102930038A (zh) 一种检索结果相似条目的合并方法及其系统
CN105574054A (zh) 一种分布式缓存范围查询方法、装置及系统
CN109753504A (zh) 数据查询方法及装置
CN108154024B (zh) 一种数据检索方法、装置及电子设备
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
CN105610881B9 (zh) 一种分布式缓存范围查询方法、装置及系统
CN102937977A (zh) 一种搜索服务器及搜索方法
CN102117275B (zh) 一种基于互联网定向站点网页数据采集的方法及装置
CN103559307A (zh) 一种查询的缓存方法及装置
CN103605770A (zh) 网页模板生成方法和服务器
CN101599069A (zh) 电子文档的搜索方法及系统
CN106326280A (zh) 数据处理方法、装置及系统
Dixit et al. Automatic recommendation for online users using web usage mining
CN104021192A (zh) 一种数据库更新方法及装置
CN102945253A (zh) 一种搜索服务器及搜索方法
CN102937974A (zh) 一种搜索服务器及搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151209

Termination date: 20210627

CF01 Termination of patent right due to non-payment of annual fee