CN103455483B - 站内搜索数据的搜集处理方法和系统 - Google Patents

站内搜索数据的搜集处理方法和系统 Download PDF

Info

Publication number
CN103455483B
CN103455483B CN201210168193.2A CN201210168193A CN103455483B CN 103455483 B CN103455483 B CN 103455483B CN 201210168193 A CN201210168193 A CN 201210168193A CN 103455483 B CN103455483 B CN 103455483B
Authority
CN
China
Prior art keywords
search
website
data
logo
station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210168193.2A
Other languages
English (en)
Other versions
CN103455483A (zh
Inventor
杨璧宁
张强
刘文学
楚大鹏
卢靓妮
赵锐
刘奕慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201210168193.2A priority Critical patent/CN103455483B/zh
Publication of CN103455483A publication Critical patent/CN103455483A/zh
Application granted granted Critical
Publication of CN103455483B publication Critical patent/CN103455483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种站内搜索数据的搜集处理方法,包括以下步骤:站外搜索服务器获取至少一个网站的站内搜索请求;提取所述站内搜索请求中的搜索数据;对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息。上述方法中网站不需要花费自身系统资源对搜索数据进行统计计算,且多个网站可以共用站外搜索服务器中完成搜索数据的统计计算,不需要各个网站都各自开发一套系统处理搜索数据,因此降低了网站自身的系统资源的消耗。此外,还提供一种站内搜索数据的搜集处理系统。

Description

站内搜索数据的搜集处理方法和系统
【技术领域】
本发明涉及数据搜索技术领域,特别的涉及一种站内搜索数据的搜集处理方法和系统。
【背景技术】
因特网如今已经发展成为了全球化的信息平台,人们可在利用常用的网络搜索引擎在整个因特网上搜索任何信息和资源。
大多数网站也提供一种搜索范围限制在自身网站内部的搜索服务,即站内搜索,帮助用户更快的在本网站内找到目标内容。另外,网站内部的搜索记录是统计分析用户需求、衡量网站设计是否友善合理的重要依据,而统计分析得到的结果是优化网站的重要参考指标。
但是,对于中小网站来说,开发适合于自身网站内部搜索且可对搜索记录进行统计分析的搜索引擎,其技术难度高、开发费用大、维护成本高。而且,搜索服务以及统计分析服务都需要消耗网站内部大量的系统资源、带宽资源。
【发明内容】
基于此,有必要提供一种能降低网站自身资源消耗的站内搜索数据的搜集处理方法。
一种站内搜索数据的搜集处理方法,包括以下步骤:
站外搜索服务器获取至少一个网站的站内搜索请求;
提取所述站内搜索请求中的搜索数据;
对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息。
在其中一个实施例中,所述搜索数据包括网站标识以及以下至少一项:用户标识、用户输入的搜索词。
在其中一个实施例中,所述对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息的步骤包括:
将所述搜索数据按照网站标识进行分类,统计与网站标识对应的搜索数据,得到与网站标识对应的搜索指标信息。
在其中一个实施例中,所述对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息的步骤包括:
按照网站标识实时汇总聚合所述搜索数据,根据与网站标识对应的搜索数据实时统计计算得到与网站标识对应的搜索指标信息,并将得到的与网站标识对应的搜索指标信息进行实时存储。
在其中一个实施例中,通过预先嵌入在网站中的站内搜索接口获取站内搜索请求,并将所述站内搜索请求发送到站外搜索服务器。
在其中一个实施例中,所述方法还包括:
所述站外搜索服务器根据所述搜索数据在与网站标识对应的网页资源中进行搜索,并将搜索结果返回给与所述网站标识对应的网站。
在其中一个实施例中,所述站外搜索服务器中存储了与所述网站标识对应的网页资源;
所述搜索数据包括网站标识、用户输入的搜索词、内容搜索范围;
所述站外搜索服务器根据所述搜索数据在与网站标识对应的网页资源中进行搜索的步骤为:
所述站外搜索服务器根据所述内容搜索范围在所述网站标识对应的网页资源中搜索与所述用户输入的搜索词匹配的信息。
在其中一个实施例中,所述搜索指标信息包括搜索词、搜索词的搜索量、搜索用户量、搜索用户率、用户平均搜索次数中的一种以上。
在其中一个实施例中,在所述统计服务器对搜索数据按照网站进行分类统计的步骤之前,还包括:
通过预先嵌入在网站中的用户数量采集脚本获取预设时段内登录所述网站的总用户数量,将所述总用户数量发送至所述站外搜索服务器,所述站外搜索服务器接收所述总用户数量。
在其中一个实施例中,通过数据采集脚本提取所述搜索请求中的搜索数据。
基于此,有必要提供一种能降低网站自身资源消耗的站内搜索数据的搜集处理系统。
一种站内搜索数据的搜集处理系统,包括站内搜索服务器和统计服务器,其中:
所述站外搜索服务器,包括:
通信模块,用于获取至少一个网站的站内搜索请求;
搜索数据提取模块,用于提取所述站内搜索请求中的搜索数据;
搜索数据上报模块,用于将所述搜索数据上报至所述统计服务器;
所述统计服务器,包括:
数据接入模块,用于接收所述搜索数据;
数据处理模块,用于对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息。
在其中一个实施例中,所述搜索数据包括网站标识以及以下至少一项:用户标识、用户输入的搜索。
在其中一个实施例中,所述数据处理模块用于将所述搜索数据按照网站标识进行分类,统计与网站标识对应的搜索数据,得到与网站标识对应的搜索指标信息。
在其中一个实施例中,所述数据处理模块包括实时计算模块,用于按照网站标识实时汇总聚合所述搜索数据,根据与网站标识对应的搜索数据实时统计计算得到与网站标识对应的搜索指标信息,并将得到的与网站标识对应的搜索指标信息进行实时存储。
在其中一个实施例中,所述系统还包括用于通过预先嵌入在网站中的站内搜索接口获取站内搜索请求,并将所述站内搜索请求发送到站外搜索服务器的搜索信息获取模块。
在其中一个实施例中,所述站外搜索服务器还包括搜索模块,用于根据所述搜索数据在与网站标识对应的网页资源中进行搜索,并将搜索结果返回给与网站标识对应的网站。
在其中一个实施例中,所述站外搜索服务器还包括存储模块,用于存储与所述网站标识对应的网页资源;
所述搜索数据包括网站标识、用户输入的搜索词、内容搜索范围;
所述搜索模块用于根据所述内容搜索范围在所述网站标识对应的网页资源中搜索与所述用户输入的搜索词匹配的信息。
在其中一个实施例中,所述搜索指标信息包括搜索词、搜索词的搜索量、搜索用户量、搜索用户率、用户平均搜索次数中的一种以上。
在其中一个实施例中,所述系统还包括总用户数量获取模块,用于通过预先嵌入在网站中的用户数量采集脚本获取预设时段内登录所述网站的总用户数量,将所述总用户数量发送至所述站外搜索服务器;
所述数据接入模块还用于接收所述总用户数量。
在其中一个实施例中,所述搜索数据提取模块通过数据采集脚本提取所述搜索请求中的搜索数据。
上述站内搜索数据的搜索处理方法和系统,站外搜索服务器获取至少一个网站的站内搜索请求,提取站内搜索请求中的搜索数据,对搜索数据按照网站进行分类统计,得到网站的搜索指标信息。上述方法和系统中,网站不需要花费系统资源对搜索数据进行统计计算以得到相关的搜索指标信息。此外,多个网站可以共用站外搜索服务器完成搜索数据的统计计算,不需要各个网站都各自开发一套统计计算搜索数据的站内搜索数据的搜集处理系统,因此降低了网站自身的系统资源的消耗。
另外,上述方法和系统,通过站外搜索服务器根据搜索数据在发送该搜索数据的网站对应的网页资源中进行搜索,向网站返回搜索结果。多个网站可以共用站外搜索服务器完成网站内部的数据搜索,不需要各个网站都各自开发一套搜索系统来完成站内数据搜索,因而上述方式几乎不需要消耗网站自身的系统资源。
【附图说明】
图1为一个实施例中的站内搜索数据的搜集处理方法的流程示意图;
图2为一个实施例中的站内搜索数据的搜集处理系统的结构示意图;
图3为另一实施例中的站内搜索数据的搜集处理系统的结构示意图;
图4为又一实施例中的站内搜索数据的搜集处理系统的结构示意图;
图5为一个实施例中的站外搜索服务器的结构示意图。
【具体实施方式】
如图1所示,在一个实施例中,一种站内搜索数据的搜集处理方法,包括以下步骤:
步骤S102,站外搜索服务器获取至少一个网站的站内搜索请求。
在一个实施例中,可通过预先嵌入在网站中的站内搜索接口获取站内搜索请求,并将站内搜索请求发送到站外搜索服务器。
具体的,可预先在网站给用户提供搜索服务的页面内嵌站内搜索接口,通过该站内搜索接口获取站内搜索请求,并将获取到的站内搜索请求进行编码,将编码后的信息按照预设格式拼接到HTTP请求中,并将HTTP请求发送到站外搜索服务器。
站外搜索服务器为独立于网站自身的用于执行数据搜索功能的服务器。站外搜索服务器可为多个网站提供数据搜索服务。
步骤S104,提取站内搜索请求中的搜索数据。
在一个实施例中,站外搜索服务器可从接收的HTTP请求(拼接了站内搜索请求)中提取出搜索数据。
在一个实施例中,可通过数据采集脚本提取搜索请求中的搜索数据。
具体的,可预先在站外搜索服务器的执行搜索任务的网页中嵌入数据采集脚本。通过数据采集脚本提取搜索数据。
在站外搜索服务器执行搜索任务的页面中内嵌数据采集脚本,通过数据采集脚本执行提取搜索数据的任务,实现方式简单,开发维护成本低。
在一个实施例中,搜索数据包括网站标识以及以下至少一项:用户标识、用户输入的搜索词。其中,网站标识可为网站URL。
步骤S106,对搜索数据按照网站进行分类统计,得到网站的搜索指标信息。
在一个实施例中,可将搜索数据按照网站标识进行分类,统计与网站标识对应的搜索数据,得到与网站标识对应的搜索指标信息。
在一个实施例中,搜索指标信息包括搜索词、搜索词的搜索量、搜索用户量、搜索用户率、用户平均搜索次数中的一种以上。
具体的,搜索词的搜索量为某时间段内每种搜索词被搜索的次数,可衡量搜索词的热度,次数越大热度越高。搜索用户量为某时间段内使用站内搜索服务的用户数量。平均搜索次数为某时间段内每个用户平均搜索的次数,可衡量搜索结果的质量,数值越大一般质量越差。搜索用户率为某时间段内使用站内搜索服务的用户数量与登录网站的总用户数量的比值。
在一个实施例中,在步骤S106中对搜索数据按照网站进行分类统计,得到网站的搜索指标信息之前,上述站内搜索数据的搜集处理方法还包括步骤:通过预先嵌入在网站中的用户数量采集脚本获取预设时段内登录所述网站的总用户数量,将总用户数量发送至站外搜索服务器,站外搜索服务器接收总用户数量。
具体的,在一个实施例中,站外搜索服务器可根据搜索数据中包含的用户标识统计使用站内搜索服务的用户数量,即搜索用户量。站外搜索服务器可累加某时段内获取的用户输入的搜索词的总数量,得到该时段内的站内搜索次数,并计算站内搜索次数与用户数量采集脚本发送的该时段内的登录网站的总用户数量的比值,得到平均搜索次数。
在一个实施例中,站外搜索服务器可通过分布式计算平台处理搜索数据。采用分布式计算平台可处理海量的搜索数据,提高搜索数据的处理速度。
在一个实施例中,上述步骤S106中对搜索数据按照网站进行分类统计,得到网站的搜索指标信息的具体过程包括:按照网站标识实时汇总聚合接收的搜索数据,根据与网站标识对应的搜索数据实时统计计算得到与网站标识对应的搜索指标信息,并将得到的与网站标识对应的搜索指标信息进行实时存储。
在一个实施例中,可按照网站标识汇总聚合接收的搜索数据,并根据汇总聚合得到的网站标识对应的搜索数据统计计算得到网站标识对应的搜索指标信息。进一步的,可将网站标识以及网站标识对应的搜索指标信息进行对应存储。
在另一个实施例中,上述步骤S106中对搜索数据按照网站进行分类统计,得到网站的搜索指标信息的具体过程包括:将搜索数据写入离线日志文件,按照网站汇总聚合离线日志文件记录的预设时段内接收的搜索数据,并根据与网站标识对应的搜索数据统计计算得到与网站标识对应的预设时段的搜索指标信息并存储。
具体的,可每间隔预设时长按照网站标识汇总聚合离线日志文件中记录的搜索数据。例如,可每天进行一次搜索数据的统计计算,处理前一天接收的搜索数据。
在一个实施例中,还可将搜索指标信息按照预设的方法进行处理,形成列表、曲线图、柱形图、饼图等较直观形象的搜索指标信息的统计结果,进一步的,可展示统计结果。在一个实施例中,还可将统计结果发送给搜索指标信息所属的网站或者第三方服务,供相关用户分析网站的设计。
在一个实施例中,上述站内搜索数据的搜集处理方法还包括步骤:站外搜索服务器根据搜索数据在与网站标识对应的网页资源中进行搜索,并将搜索结果返回给与网站标识对应的网站。
在一个实施例中,搜索数据包括:网站标识、用户输入的搜索词、内容搜索范围等信息。其中,网站标识可为网站URL,内容搜索范围包括全文搜索、主题搜索、标题搜索等。
具体的,站外搜索服务器中存储了与网站标识对应的网页资源。在一个实施例中,站外搜索服务器定期爬取网站的网页资源,进一步的保存网站标识与网站的网页资源的对应关系。
在一个实施例中,站外搜索服务器根据搜索数据在与网站标识对应的网页资源中进行搜索的具体过程为:站外搜索服务器据内容搜索范围在网站标识对应的网页资源中搜索与用户输入的搜索词匹配的信息。
具体的,可根据网站标识以及网站标识与网页资源的对应关系,查找与搜索请求中包含的网站标识对应的网页资源。进一步的,根据搜索请求中包含的内容搜索范围,在网站标识对应的网页资源中查找与用户输入的搜索词匹配的信息,并获取该信息所在的网页的链接地址。例如,若内容搜索范围为全文搜索,则在所有网页内容中搜索对应的信息,若内容搜索范围为主题搜索,则在网页中包含的文章、评论、图片等所属的主题信息中查找与搜索词匹配的信息,等等。
进一步的,站外搜索服务器可向网站标识对应的网站返回搜索结果,搜索结果中包含与用户输入的搜索信息匹配的信息所在的网页的链接。
在一个实施例中,上述搜索数据还包括:搜索结果的排序字段和排序方式。站外搜索服务器可根据搜索结果的排序字段和排序方式,将搜索结果中的网页的链接进行排序,向网站返回排序后的搜索结果。
如图2所示,在一个实施例中,一种站内搜索数据的搜集处理系统,包括站外搜索服务器200和统计服务器300,站外搜索服务器200包括通信模块210、搜索数据提取模块220和搜索数据上报模块230;统计服务器300包括数据接入模块310和数据处理模块320,其中:
站外搜索服务器200为独立于网站自身的用于执行数据搜索功能的服务器。站外搜索服务器200可为多个网站提供数据搜索服务。
通信模块210用于获取至少一个网站的站内搜索请求。
如图3所示,在一个实施例中,上述站内搜索数据的搜集处理系统还包括用于通过预先嵌入在网站中的站内搜索接口获取站内搜索请求,并将所述站内搜索请求发送到站外搜索服务器的搜索信息获取模块110。
在一个实施例中,可预先在网站给用户提供搜索服务的页面内嵌站内搜索接口,搜索信息获取模块110可通过该站内搜索接口获取站内搜索请求,并将获取到的站内搜索请求进行编码,将编码后的信息按照预设格式拼接到HTTP请求中,并将HTTP请求发送到站外搜索服务器200。
应当说明的是,站外搜索服务器200可为多个网站提供搜索数据统计服务,因此站外搜索服务器200可与多个网站进行交互,图3所示的实施例仅为说明站内搜索数据的搜集处理系统的原理的一个最简实施例。
搜索数据提取模块220用于提取站内搜索请求中的搜索数据。
在一个实施例中,搜索数据提取模块220可从接收的HTTP请求(拼接了站内搜索请求)中提取出搜索数据。
在一个实施例中,搜索数据提取模块220可通过数据采集脚本提取搜索请求中的搜索数据。
具体的,可预先在站外搜索服务器200的执行搜索任务的网页中嵌入数据采集脚本。通过数据采集脚本提取搜索数据。
在站外搜索服务器200执行搜索任务的页面中内嵌数据采集脚本,通过数据采集脚本执行提取搜索数据的任务,实现方式简单,开发维护成本低。
在一个实施例中,搜索数据包括网站标识以及以下至少一项:用户标识、用户输入的搜索词。其中,网站标识可为网站URL。
搜索数据上报模块230用于将搜索数据上报至统计服务器300。
数据接入模块310用于接收搜索数据。
数据处理模块320用于对搜索数据按照网站进行分类统计,得到网站的搜索指标信息。
在一个实施例中,数据处理模块320可将搜索数据按照网站标识进行分类,统计与网站标识对应的搜索数据,得到与网站标识对应的搜索指标信息。
在一个实施例中,搜索指标信息包括搜索词、搜索词的搜索量、搜索用户量、搜索用户率、用户平均搜索次数中的一种以上。
具体的,搜索词的搜索量为某时间段内每种搜索词被搜索的次数,可衡量搜索词的热度,次数越大热度越高。搜索用户量为某时间段内使用站内搜索服务的用户数量。平均搜索次数为某时间段内每个用户平均搜索的次数,可衡量搜索结果的质量,数值越大一般质量越差。搜索用户率为某时间段内使用站内搜索服务的用户数量与登录网站的总用户数量的比值。
如图4所示,在一个实施例中,上述站内搜索数据的搜集处理系统还包括总用户数量获取模块120,用于通过预先嵌入在网站中的用户数量采集脚本获取预设时段内登录网站的总用户数量,并将总用户数量发送到统计服务器300。
本实施例中,数据接入模块310还用于接收总用户数量获取模块120发送的总用户数量。
具体的,在一个实施例中,数据处理模块320可根据搜索数据中包含的用户标识统计使用站内搜索服务的用户数量,即搜索用户量。数据处理模块320可累加某时段内获取的用户输入的搜索词的总数量,得到该时段内的站内搜索次数,并计算站内搜索次数与总用户数量获取模块120发送的该时段内的登录网站的总用户数量的比值,得到平均搜索次数。
在一个实施例中,数据处理模块320可通过分布式计算平台处理搜索数据。采用分布式计算平台可处理海量的搜索数据,提高搜索数据的处理速度。
在一个实施例中,数据处理模块320包括实时计算模块(图中未示出),用于按照网站标识实时汇总聚合接收的搜索数据,根据与网站标识对应的搜索数据实时统计计算得到与网站标识对应的搜索指标信息,并将得到的与网站标识对应的搜索指标信息进行实时存储。
在一个实施例中,实时计算模块可按照网站标识汇总聚合接收的搜索数据,并根据汇总聚合得到的网站标识对应的搜索数据统计计算得到网站标识对应的搜索指标信息。进一步的,可将网站标识以及网站标识对应的搜索指标信息进行对应存储。
在另一个实施例中,数据处理模块320包括离线计算模块(图中未示出),用于将搜索数据写入离线日志文件,按照网站汇总聚合离线日志文件记录的预设时段内接收的搜索数据,并根据与网站标识对应的搜索数据统计计算得到与网站标识对应的预设时段的搜索指标信息并存储。
具体的,离线计算模块可每间隔预设时长按照网站标识汇总聚合离线日志文件中记录的搜索数据。例如,可每天进行一次搜索数据的统计计算,处理前一天接收的搜索数据。
在一个实施例中,数据处理模块320还可将搜索指标信息按照预设的方法进行处理,形成列表、曲线图、柱形图、饼图等较直观形象的搜索指标信息的统计结果,进一步的,可展示统计结果。在一个实施例中,还可将统计结果发送给搜索指标信息所属的网站或者第三方服务,供相关用户分析网站的设计。
如图5所示,在一个实施例中,站外搜索服务器200还包括搜索模块240,用于根据搜索数据在与网站标识对应的网页资源中进行搜索,并将搜索结果返回给与网站标识对应的网站。
在一个实施例中,搜索数据包括:网站标识、用户输入的搜索词、内容搜索范围等信息。其中,网站标识可为网站URL,内容搜索范围包括全文搜索、主题搜索、标题搜索等。
在一个实施例中,站外搜索服务器200还包括存储模块(图中未示出),用于存储与网站标识对应的网页资源。在一个实施例中,搜索模块240可定期爬取网站的网页资源,存储模块可保存网站标识与网站的网页资源的对应关系。
在一个实施例中,搜索模块240用于根据内容搜索范围在网站标识对应的网页资源中搜索与用户输入的搜索词匹配的信息。
具体的,搜索模块240可根据网站标识以及网站标识与网页资源的对应关系,查找与搜索请求中包含的网站标识对应的网页资源。进一步的,可根据搜索请求中包含的内容搜索范围,在网站标识对应的网页资源中查找与用户输入的搜索词匹配的信息,并获取该信息所在的网页的链接地址。例如,若内容搜索范围为全文搜索,则在所有网页内容中搜索对应的信息,若内容搜索范围为主题搜索,则在网页中包含的文章、评论、图片等所属的主题信息中查找与搜索词匹配的信息,等等。
进一步的,搜索模块240可向网站标识对应的网站返回搜索结果,搜索结果中包含与用户输入的搜索信息匹配的信息所在的网页的链接。
在一个实施例中,上述搜索数据还包括:搜索结果的排序字段和排序方式。搜索模块240可根据搜索结果的排序字段和排序方式,将搜索结果中的网页的链接进行排序,向网站返回排序后的搜索结果。
上述站内搜索数据的搜索处理方法和系统,站外搜索服务器获取至少一个网站的站内搜索请求,提取站内搜索请求中的搜索数据,对搜索数据按照网站进行分类统计,得到网站的搜索指标信息。上述方法和系统中,网站不需要花费系统资源对搜索数据进行统计计算以得到相关的搜索指标信息。此外,多个网站可以共用站外搜索服务器完成搜索数据的统计计算,不需要各个网站都各自开发一套统计计算搜索数据的站内搜索数据的搜集处理系统,因此降低了网站自身的系统资源的消耗。
另外,上述方法和系统,通过站外搜索服务器根据搜索数据在发送该搜索数据的网站对应的网页资源中进行搜索,向网站返回搜索结果。多个网站可以共用站外搜索服务器完成网站内部的数据搜索,不需要各个网站都各自开发一套搜索系统来完成站内数据搜索,因而上述方式几乎不需要消耗网站自身的系统资源。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种站内搜索数据的搜集处理方法,包括以下步骤:
站外搜索服务器获取至少一个网站的站内搜索请求;
提取所述站内搜索请求中的搜索数据;所述搜索数据包括网站标识以及用户标识;
对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息;包括:将所述搜索数据按照网站标识进行分类,统计与网站标识对应的搜索数据,得到与网站标识对应的搜索指标信息;根据搜索数据中包含的用户标识统计使用站内搜索服务的搜索用户量,所述搜索指标信息包括搜索用户量。
2.根据权利要求1所述的站内搜索数据的搜集处理方法,其特征在于,所述对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息的步骤包括:
按照网站标识实时汇总聚合所述搜索数据,根据与网站标识对应的搜索数据实时统计计算得到与网站标识对应的搜索指标信息,并将得到的与网站标识对应的搜索指标信息进行实时存储。
3.根据权利要求1所述的站内搜索数据的搜集处理方法,其特征在于,通过预先嵌入在网站中的站内搜索接口获取站内搜索请求,并将所述站内搜索请求发送到站外搜索服务器。
4.根据权利要求1所述的站内搜索数据的搜集处理方法,其特征在于,所述方法还包括:
所述站外搜索服务器根据所述搜索数据在与网站标识对应的网页资源中进行搜索,并将搜索结果返回给与所述网站标识对应的网站。
5.根据权利要求4所述的站内搜索数据的搜集处理方法,其特征在于,所述站外搜索服务器中存储了与所述网站标识对应的网页资源;
所述搜索数据还包括用户输入的搜索词、内容搜索范围;
所述站外搜索服务器根据所述搜索数据在与网站标识对应的网页资源中进行搜索的步骤为:
所述站外搜索服务器根据所述内容搜索范围在所述网站标识对应的网页资源中搜索与所述用户输入的搜索词匹配的信息。
6.根据权利要求1至5任一项所述的站内搜索数据的搜集处理方法,其特征在于,所述搜索指标信息还包括搜索词、搜索词的搜索量、搜索用户率、用户平均搜索次数中的一种以上。
7.根据权利要求6所述的站内搜索数据的搜集处理方法,其特征在于,在所述对搜索数据按照网站进行分类统计的步骤之前,还包括:
通过预先嵌入在网站中的用户数量采集脚本获取预设时段内登录所述网站的总用户数量,将所述总用户数量发送至所述站外搜索服务器,所述站外搜索服务器接收所述总用户数量。
8.根据权利要求1所述的站内搜索数据的搜集处理方法,其特征在于,通过数据采集脚本提取所述搜索请求中的搜索数据。
9.一种站内搜索数据的搜集处理系统,其特征在于,包括站外搜索服务器和统计服务器,其中:所述站外搜索服务器,包括:
通信模块,用于获取至少一个网站的站内搜索请求;
搜索数据提取模块,用于提取所述站内搜索请求中的搜索数据;所述搜索数据包括网站标识以及用户标识;
搜索数据上报模块,用于将所述搜索数据上报至所述统计服务器;
所述统计服务器,包括:
数据接入模块,用于接收所述搜索数据;
数据处理模块,用于对所述搜索数据按照网站进行分类统计,得到所述网站的搜索指标信息;将所述搜索数据按照网站标识进行分类,统计与网站标识对应的搜索数据,得到与网站标识对应的搜索指标信息;根据搜索数据中包含的用户标识统计使用站内搜索服务的搜索用户量,所述搜索指标信息包括搜索用户量。
10.根据权利要求9所述的站内搜索数据的搜集处理系统,其特征在于,所述数据处理模块包括实时计算模块,用于按照网站标识实时汇总聚合所述搜索数据,根据与网站标识对应的搜索数据实时统计计算得到与网站标识对应的搜索指标信息,并将得到的与网站标识对应的搜索指标信息进行实时存储。
11.根据权利要求9所述的站内搜索数据的搜集处理系统,其特征在于,所述系统还包括用于通过预先嵌入在网站中的站内搜索接口获取站内搜索请求,并将所述站内搜索请求发送到站外搜索服务器的搜索信息获取模块。
12.根据权利要求9所述的站内搜索数据的搜集处理系统,其特征在于,所述站外搜索服务器还包括搜索模块,用于根据所述搜索数据在与网站标识对应的网页资源中进行搜索,并将搜索结果返回给与网站标识对应的网站。
13.根据权利要求12所述的站内搜索数据的搜集处理系统,其特征在于,所述站外搜索服务器还包括存储模块,用于存储与所述网站标识对应的网页资源;
所述搜索数据还包括用户输入的搜索词、内容搜索范围;
所述搜索模块用于根据所述内容搜索范围在所述网站标识对应的网页资源中搜索与所述用户输入的搜索词匹配的信息。
14.根据权利要求9至13任一项所述的站内搜索数据的搜集处理系统,其特征在于,所述搜索指标信息还包括搜索词、搜索词的搜索量、搜索用户率、用户平均搜索次数中的一种以上。
15.根据权利要求14所述的站内搜索数据的搜集处理系统,其特征在于,所述系统还包括总用户数量获取模块,用于通过预先嵌入在网站中的用户数量采集脚本获取预设时段内登录所述网站的总用户数量,将所述总用户数量发送至所述站外搜索服务器;
所述数据接入模块还用于接收所述总用户数量。
16.根据权利要求9所述的站内搜索数据的搜集处理系统,其特征在于,所述搜索数据提取模块通过数据采集脚本提取所述搜索请求中的搜索数据。
CN201210168193.2A 2012-05-28 2012-05-28 站内搜索数据的搜集处理方法和系统 Active CN103455483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210168193.2A CN103455483B (zh) 2012-05-28 2012-05-28 站内搜索数据的搜集处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210168193.2A CN103455483B (zh) 2012-05-28 2012-05-28 站内搜索数据的搜集处理方法和系统

Publications (2)

Publication Number Publication Date
CN103455483A CN103455483A (zh) 2013-12-18
CN103455483B true CN103455483B (zh) 2018-01-05

Family

ID=49737865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210168193.2A Active CN103455483B (zh) 2012-05-28 2012-05-28 站内搜索数据的搜集处理方法和系统

Country Status (1)

Country Link
CN (1) CN103455483B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778251B (zh) * 2015-04-15 2018-01-05 天脉聚源(北京)传媒科技有限公司 一种文献热度的获取方法及装置
CN108694324B (zh) * 2017-04-06 2022-12-20 腾讯科技(深圳)有限公司 一种信息泄露监控方法以及装置
CN110175109B (zh) * 2019-05-31 2023-05-26 北京北信源软件股份有限公司 一种用户类型的确定方法、确定装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402519A (zh) * 2010-09-09 2012-04-04 腾讯科技(深圳)有限公司 搜索方法、搜索结果显示方法、搜索服务器及客户端
CN102402525A (zh) * 2010-09-10 2012-04-04 联想(北京)有限公司 一种搜索处理装置、电子设备及搜索处理方法
CN102419795A (zh) * 2010-10-27 2012-04-18 微软公司 挑战搜索查询游戏

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256423A (ja) * 2002-03-01 2003-09-12 Sony Corp 情報検索システム、情報検索装置および方法、記録媒体、並びにプログラム
CN102236691A (zh) * 2010-05-04 2011-11-09 张文广 精确导向搜索工具系统
JP2012058799A (ja) * 2010-09-06 2012-03-22 Ricoh Co Ltd 画像表示システム、画像表示方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402519A (zh) * 2010-09-09 2012-04-04 腾讯科技(深圳)有限公司 搜索方法、搜索结果显示方法、搜索服务器及客户端
CN102402525A (zh) * 2010-09-10 2012-04-04 联想(北京)有限公司 一种搜索处理装置、电子设备及搜索处理方法
CN102419795A (zh) * 2010-10-27 2012-04-18 微软公司 挑战搜索查询游戏

Also Published As

Publication number Publication date
CN103455483A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN102541999B (zh) 对象敏感的图像搜索
CN103955842B (zh) 一种面向大规模媒体数据的在线广告推荐系统及方法
CN103595576B (zh) 一种基于内容提供商标识的互联口icp流量统计系统及方法
CN102752288A (zh) 网络访问行为识别方法和装置
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN103338260B (zh) 网络审计中url日志的分布式分析系统及分析方法
CN104408334A (zh) 一种外观设计专利预警方法
CN111107423A (zh) 一种视频业务播放卡顿的识别方法和装置
CN103870538A (zh) 针对用户进行个性化推荐的方法、用户建模设备及系统
CN107835132B (zh) 一种流量来源跟踪的方法及装置
CN102664926A (zh) 用户信息共享方法及系统
CN105871585A (zh) 终端关联方法及装置
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN103455483B (zh) 站内搜索数据的搜集处理方法和系统
CN104050257A (zh) 钓鱼网页的检测方法和装置
CN110309373B (zh) 信息处理方法及装置
JP5005741B2 (ja) 伝播状況評価装置、伝播状況評価方法およびプログラム
CN112559923A (zh) 网址资源推荐方法、装置、电子设备及计算机存储介质
CN109361575A (zh) 一种获取分析dns流量数据的方法及其系统
CN105721519B (zh) 一种网页数据采集方法、装置及系统
CN103428249A (zh) 一种http请求包的收集及处理方法、系统和服务器
CN103036746B (zh) 基于网络中间点的网页响应时间被动测量方法及系统
CN110263283A (zh) 网站检测方法和装置
CN105183806A (zh) 一种不同平台间识别同一用户的方法与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant