CN107180042A - 搜索引擎的流量统计方法、装置及系统 - Google Patents

搜索引擎的流量统计方法、装置及系统 Download PDF

Info

Publication number
CN107180042A
CN107180042A CN201610134155.3A CN201610134155A CN107180042A CN 107180042 A CN107180042 A CN 107180042A CN 201610134155 A CN201610134155 A CN 201610134155A CN 107180042 A CN107180042 A CN 107180042A
Authority
CN
China
Prior art keywords
index
server
content information
memory space
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610134155.3A
Other languages
English (en)
Other versions
CN107180042B (zh
Inventor
宋恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Nova Technology Singapore Holdings Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610134155.3A priority Critical patent/CN107180042B/zh
Publication of CN107180042A publication Critical patent/CN107180042A/zh
Application granted granted Critical
Publication of CN107180042B publication Critical patent/CN107180042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种搜索引擎的流量统计方法、装置及系统。其中,该方法包括:接收第一服务器发送的索引创建请求,其中,索引创建请求包含待创建索引的内容信息;对待创建索引的内容信息进行分析,以确定内容信息的存储空间占用量。本申请实施例的搜索引擎的流量统计方法、装置及系统,可准确统计待创建索引的内容信息的存储空间占用量,进而方便了后续根据内容信息的存储空间占用量对每个用户的存储空间容量进行准确管控。

Description

搜索引擎的流量统计方法、装置及系统
技术领域
本申请涉及计算机技术领域,尤其涉及一种搜索引擎的流量统计方法、装置及系统。
背景技术
随着SAAS(Software-as-a-Service,软件即服务)云服务慢慢被大家熟悉和接受,为满足用户的需求,各种各样的云服务开始出现,云搜索即为其中一种,即,将搜索引擎作为公共资源开放给个人和企业,每个人都可以有自己运营的搜索引擎,并通过各自运营的搜索引擎来存储、管控和检索文本资源,然后,在用户需要对应的文本资源时,用户可以通过文本资源(例如文章和日志)中的词汇进行搜索查询。
目前,一般常用的搜索引擎例如Solr(企业级搜索应用服务器)、ElasttiSearch(基于Lucene的搜索服务器)等均是基于全文索引,由于用户分级的不同,每个用户所享受的容量资源也不同。因此,在用户使用搜索引擎的过程中,搜索引擎要对用户或者企业所使用的容量进行管理控制,这就需要对具体的文本内容所占的存储空间进行统计。
然而,针对到具体的文本内容占用空间统计,则是一个耗费计算资源的工作。在高并发调用的场景下,搜索引擎服务需要消耗资源为用户建立索引,从而无法实时去统计文本字符容量,进而导致无法对用户的使用容量进行统计,并且通常英文字符和中文字符在不同的编码下所占用的空间是不一致的,在国际环境下运行,如果采用相关技术中的字符串分析方式对文本内容占用空间进行统计,会造成统计结果和真实容量占比存在一定的差距。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种搜索引擎的流量统计方法,该方法准确统计待创建索引的内容信息的存储空间占用量,进而方便了后续根据内容信息的存储空间占用量对每个用户的存储空间容量进行准确管控。
本申请的第二个目的在于提出一种搜索引擎的流量统计方法。
本申请的第三个目的在于提出一种搜索引擎的流量统计装置。
本申请的第四个目的在于提出一种搜索引擎的流量统计装置。
本申请的第五个目的在于提出一种搜索引擎的流量统计系统。
为达上述目的,本申请第一方面实施例提出了一种搜索引擎的流量统计方法,包括以下步骤:接收第一服务器发送的索引创建请求,其中,所述索引创建请求包含待创建索引的内容信息;对所述待创建索引的内容信息进行分析,以确定所述内容信息的存储空间占用量。
本申请实施例的搜索引擎的流量统计方法,通过对第一服务器发送的索引创建请求中的待创建索引的内容信息进行分析,可准确确定出内容信息的存储空间占用量。由此,在接收到第一服务器的索引创建请求后,准确统计待创建索引的内容信息的存储空间占用量,进而方便了后续根据内容信息的存储空间占用量对每个用户的存储空间容量进行准确管控。
为达上述目的,本申请第二方面实施例提出了一种搜索引擎的流量统计方法,包括以下步骤:当接收到用户的索引创建请求时,调用第三服务器,并通过所述第三服务器为所述索引创建请求创建索引,其中,所述索引创建请求包含待创建索引的内容信息;以及向所述第四服务器发送所述索引创建请求,以使所述第四服务器根据所述索引创建请求计算所述内容信息的存储空间占用量。
本申请实施例的搜索引擎的流量统计方法,在接收到用户的索引创建请求时,调用第三服务器创建索引,第四服务器对发送的索引创建请求中的待创建索引的内容信息进行分析,确定内容信息的存储空间占用量。该方法将建立索引和容量统计分开,有效减少建立索引的时间,准确实时统计出待创建索引的内容信息所占用的存储空间。
为达上述目的,本申请第三方面实施例提出了一种搜索引擎的流量统计装置,包括:接收模块,用于接收第一服务器发送的索引创建请求,其中,所述索引创建请求包含待创建索引的内容信息;处理模块,用于对所述待创建索引的内容信息进行分析,以确定所述内容信息的存储空间占用量。
本申请实施例的搜索引擎的流量统计装置,通过对第一服务器发送的索引创建请求中的待创建索引的内容信息进行分析,可准确确定出内容信息的存储空间占用量。由此,可以看出,在接收到第一服务器的索引创建请求后,准确统计待创建索引的内容信息的存储空间占用量,进而方便了后续根据内容信息的存储空间占用量对每个用户的存储空间容量进行准确管控。
为达上述目的,本申请第四方面实施例提出了一种搜索引擎的流量统计装置,包括:调用模块,用于在接收到用户的索引创建请求时,调用第三服务器,并通过所述第三服务器为所述索引创建请求创建索引,其中,所述索引创建请求包含待创建索引的内容信息;以及发送模块,用于向所述第四服务器发送所述索引创建请求,以使所述第四服务器根据所述索引创建请求计算所述内容信息的存储空间占用量。
本申请实施例的搜索引擎的流量统计装置,在接收到用户的索引创建请求时,调用第三服务器创建索引,第四服务器对发送的索引创建请求中的待创建索引的内容信息进行分析,确定内容信息的存储空间占用量。该装置将建立索引和容量统计分开,有效减少建立索引的时间,准确实时统计出待创建索引的内容信息所占用的存储空间。
为达上述目的,本申请第五方面实施例提出了一种搜索引擎的流量统计系统,包括第一服务器、第三服务器和第四服务器,其中,所述第一服务器,用于在接收到用户的索引创建请求时,调用所述第三服务器,所述索引创建请求包含待创建索引的内容信息;所述第三服务器,用于根据所述索引创建请求创建索引;所述第四服务器,用于接收所述第一服务器发送的所述索引创建请求,并根据所述索引创建请求计算所述内容信息的存储空间占用量。
本申请实施例的搜索引擎的流量统计系统,第一服务器在接收到用户的索引创建请求时调用第三服务器创建索引,第四服务器根据第一服务器索引创建请求中待创建索引的内容信息确定内容信息的存储空间占用量。该系统将索引的创建和容量的统计分开给不同的服务器处理,由此,可加快索引创建时间和提高统计准确度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的搜索引擎的流量统计方法的流程图;
图2是本申请另一个实施例的搜索引擎的流量统计方法的流程图;
图3是本申请一个实施例的搜索引擎的流量统计装置的结构示意图;
图4是本申请另一个实施例的搜索引擎的流量统计装置的结构示意图;
图5是本申请又一个实施例的搜索引擎的流量统计方法的流程图;
图6是本申请又一个实施例的搜索引擎的流量统计装置的结构示意图;
图7是本申请一个实施例的搜索引擎的流量统计系统的结构示意图;
图8是本申请一个具体实施例的搜索引擎的流量统计系统的交互示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的搜索引擎的流量统计方法、装置及系统。
图1是本申请一个实施例的搜索引擎的流量统计方法的流程图,如图1所示,该搜索引擎的流量统计方法包括:
S101,接收第一服务器发送的索引创建请求。
具体地,在为用户提供索引服务的过程中,可通过第一服务器接收用户发送的包含待创建索引的内容信息的索引创建请求,然后,第一服务器将建立索引资源和统计占用空间的工作解耦,即,第一服务器调用搜索引擎服务器集群,并向搜索引擎服务器集群发送索引创建请求,以使搜索引擎服务器集群根据索引创建请求创建索引,同时,第一服务器还向统计文本内容的服务器集群发送所接收到的索引创建请求。由此,可减少同时创建索引和统计文本内容的服务器的压力,进而可有效提高服务端的处理能力,以及降低了建立索引所需要的响应时间。
S102,对待创建索引的内容信息进行分析,以确定内容信息的存储空间占用量。
在接收到第一服务器发送的索引创建请求后,可对索引创建请求中的待创建索引的内容信息进行分析,在分析的过程中,为了准确确定用户的身份信息,其中,索引创建请求还包括用户的标识(ID)信息,标识信息可以唯一标识用户,即每个用户所使用的标识信息均是不同,通过用户的ID即可确定用户的身份。
具体地,在对待创建索引的内容信息进行分析的过程中,可获取内容信息所对应的每个字符的存储空间占用量,并根据每个字符的存储空间占用量确定内容信息的存储空间占用量。
在本申请的一个实施例中,为了可以准确统计出内容信息所占用的存储空间占用量,可基于字符集合分析每个字符的存储空间占用量。
具体而言,在获取待创建索引的内容信息后,可获取内容信息中的每个字符,并基于系统中的字符集合,确定出每个字符所采用的编码方式,并基于编码方式确定每个字符所占用的存储空间占用量,然后根据每个字符所占用的存储空间占用量计算出内容信息的存储空间占用量。
例如,假设获得待创建索引的内容信息中包含10个中文字符和2个英文字符,此时,可获取中文字符所使用的编码方式和英文字符所采用的编码方式,并基于所获取的编码方式确定内容信息中每个中文字符所占的存储空间占用量和每个英文字符所占用的存储空间占用量,假设根据编码方式确定出每个中文字符占用三个字节,每个英文字符占用二个字节,由此,可确定出该内容信息的存储空间占用量为38个字节。
本申请实施例的搜索引擎的流量统计方法,通过对第一服务器发送的索引创建请求中的待创建索引的内容信息进行分析,可准确确定出内容信息的存储空间占用量。由此,在接收到第一服务器的索引创建请求后,准确统计待创建索引的内容信息的存储空间占用量,进而方便了后续根据内容信息的存储空间占用量对每个用户的存储空间容量进行准确管控。
基于上述实施例的基础上,为了及时对用户的存储空间容量进行管控,如图2所示,在步骤S102之后,该搜索引擎的流量统计方法还可以包括:
S103,将内容信息的存储空间占用量和用户的标识信息发送给第二服务器,以使第二服务器根据标识信息和内容信息的存储空间占用量更新用户的已使用存储空间容量。
在获取内容信息的存储空间占用量后,可将内容信息的存储空间占用量和用户的标识信息发送至第二服务器,第二服务器根据该待创建索引的内容信息的存储空间占用量对用户的已使用存储空间容量进行更新。
例如,用户A注册使用搜索引擎服务,在用户A注册时,假设为用户A分配的用户ID为123,且为用户A分配的存储空间容量为500MB,如果用户A当前已使用存储空间容量为200MB,假设确定本次创建索引所需的存储空间占用量为3MB,第二服务器在接收到内容信息的存储空间占用量和用户A的标识信息后,第二服务可将数据库中的已使用存储空间容量更新为203MB。
本申请实施例的搜索引擎的流量统计方法,利用第二服务器根据用户单次索引创建请求中的内容信息的存储空间占用量更新用户的已使用存储空间容量,准确实时更新用户的已使用存储空间容量,准确对用户的存储空间容量进行了管控。
需要理解的是,在监控到用户已使用存储空间容量达到分配的存储空间容量是,第二服务器还可向用户返回存储空间容量已满的提示信息,以使用户根据提示信息对存储空间容量中的资源进行管理,例如,删除存储空间中不用的资源。
为了实现上述实施例,本申请还提出一种搜索引擎的流量统计装置。
图3是本申请一个实施例的搜索引擎的流量统计装置的结构示意图。
如图3所示,该搜索引擎的流量统计装置包括接收模块31和处理模块32,其中:
接收模块31用于接收第一服务器发送的索引创建请求。
其中,索引创建请求包含待创建索引的内容信息。
处理模块32用于对待创建索引的内容信息进行分析,以确定内容信息的存储空间占用量。
其中,处理模块32可以包括分析单元321和确定单元322,其中:
分析单元321用于对待创建索引的内容信息进行分析的过程中,可获取内容信息所对应的每个字符的存储空间占用量。
确定单元322用于根据每个字符的存储空间占用量确定内容信息的存储空间占用量。
另外,为了可以准确统计出内容信息所占用的存储空间占用量,分析单元321可基于字符集合,分析每个字符的存储空间占用量。
具体而言,在获取待创建索引的内容信息后,分析单元321可获取内容信息中的每个字符,并基于系统中的字符集合,确定出每个字符所采用的编码方式,并基于编码方式确定每个字符所占用的存储空间占用量,然后确定单元322根据每个字符所占用的存储空间占用量计算出内容信息的存储空间占用量。
例如,假设获得待创建索引的内容信息中包含10个中文字符和2个英文字符,此时,分析单元321可获取中文字符所使用的编码方式和英文字符所采用的编码方式,并基于所获取的编码方式确定内容信息中每个中文字符所占的存储空间占用量和每个英文字符所占用的存储空间占用量,假设根据编码方式确定出每个中文字符占用三个字节,每个英文字符占用二个字节,由此,确定单元322可确定出该内容信息的存储空间占用量为38个字节。
需要说明的是,前述对搜索引擎的流量统计方法的实施例的解释说明也适用于该实施例的搜索引擎的流量统计装置,其实现原理类似,此处不再赘述。
本申请实施例的搜索引擎的流量统计装置,通过对第一服务器发送的索引创建请求中的待创建索引的内容信息进行分析,可准确确定出内容信息的存储空间占用量。由此,在接收到第一服务器的索引创建请求后,准确统计待创建索引的内容信息的存储空间占用量,进而方便了后续根据内容信息的存储空间占用量对每个用户的存储空间容量进行准确管控。
另外,基于图3的基础上,如图4所示,上述装置还可以包括发送模块33,该发送模块33用于在待创建索引的内容信息进行分析,以确定内容信息的存储空间占用量之后,将内容信息的存储空间占用量和用户的标识信息发送给第二服务器,以使第二服务器根据内容信息的存储空间占用量更新用户的已使用存储空间容量。
需要说明的是,前述对搜索引擎的流量统计方法的实施例的解释说明也适用于该实施例的搜索引擎的流量统计装置,其实现原理类似,此处不再赘述。
本申请实施例的搜索引擎的流量统计装置,通过发送模块将内容信息的存储空间占用量和用户的标识信息发送给第二服务器,使得第二服务器可根据内容信息的存储空间占用量对数据库中对应用户的已使用存储空间容量进行更新,准确对用户的存储空间容量进行了管控。
为了实现上述实施例,本发明还提出了另一种搜索引擎的流量统计方法。
图5根据本发明又一个实施例的搜索引擎的流量统计方法的流程图。需要说明的是,本发明实施例的搜索引擎的流量统计方法从代理服务器(即前述中的第一服务器)侧进行描述。
如图5所示,该搜索引擎的流量统计方法可以包括:
S501,当接收到用户的索引创建请求时,调用第三服务器,并通过第三服务器为索引创建请求创建索引。
其中,索引创建请求包含待创建索引的内容信息。
需要说明是,根据创建请求创建索引的过程与现有技术相同,在此不再赘述。
S502,向第四服务器发送索引创建请求,以使第四服务器根据索引创建请求计算内容信息的存储空间占用量。
为了减少由同一个服务器在创建索引的同时也在进行容量的统计的压力,在代理服务器接收用户发送的索引创建请求后,代理服务器将包含待创建索引的内容信息的索引创建请求分别发送给第三服务器和第四服务器,第三服务器根据索引创建请求创建索引,第四服务器对索引创建请求中的待创建索引的内容信息的存储空间占用量进行统计。也就是说,该实施例将索引的创建和容量的统计分开给不同的服务器处理,由此,可加快索引创建时间和提高统计准确度。
本申请实施例的搜索引擎的流量统计方法,在接收到用户的索引创建请求时,调用第三服务器创建索引,第四服务器对发送的索引创建请求中的待创建索引的内容信息进行分析,确定内容信息的存储空间占用量。该方法将建立索引和容量统计分开,有效减少建立索引的时间,准确实时统计出待创建索引的内容信息所占用的存储空间。
为了实现上述实施例,本申请还提出一种搜索引擎的流量统计装置。
图6是本申请又一个实施例的搜索引擎的流量统计装置的结构示意图。
如图6所示,该搜索引擎的流量统计装置包括调用模块61和发送模块62,其中:
调用模块61用于在接收到用户的索引创建请求时,调用第三服务器,并通过第三服务器为索引创建请求创建索引。
其中,索引创建请求包含待创建索引的内容信息。
发送模块62用于向第四服务器发送索引创建请求,以使第四服务器根据索引创建请求计算内容信息的存储空间占用量。
需要说明的是,前述对搜索引擎的流量统计方法的实施例的解释说明也适用于该实施例的搜索引擎的流量统计装置,其实现原理类似,此处不再赘述。
本申请实施例的搜索引擎的流量统计装置,在接收到用户的索引创建请求时,调用第三服务器创建索引,第四服务器对发送的索引创建请求中的待创建索引的内容信息进行分析,确定内容信息的存储空间占用量。该装置将建立索引和容量统计分开,有效减少建立索引的时间,准确实时统计出待创建索引的内容信息所占用的存储空间。
与上述几种实施例提供的搜索引擎的流量统计方法和装置相对应,本发明的一种实施例还提供一种搜索引擎的流量统计系统,由于本发明实施例提供的搜索引擎的流量统计系统与上述几种实施例提供的搜索引擎的流量统计方法和装置相对应,因此,对前述搜索引擎的流量统计方法和装置的实施方式的解释说明也适用于本实施例提供的搜索引擎的流量统计系统,在本实施例中不再详细描述。
图7是根据本发明一个实施例的搜索引擎的流量统计系统的结构示意图。
如图7所示,该搜索引擎的流量统计系统可以包括第一服务器10、第二服务器20、第三服务器30和第四服务器40,其中:
第一服务器10用于在接收到用户的索引创建请求时,调用第三服务器30,并向第四服务器发送索引创建请求,其中,索引创建请求包含待创建索引的内容信息。
为了减少由同一个服务器在创建索引的同时也在进行容量的统计的压力第一服务器10在接收到用户的索引创建请求后,第一服务器10将包含待创建索引的内容信息的索引创建请求分别发送给第三服务器和第四服务器,由此,将创建索引和分析存储空间占用放置在不同的服务器上进行执行,可有效提高处理能力,以及加快索引创建时间和提高统计准确度。
第三服务器30用于根据索引创建请求创建索引。
需要说明的是,第三服务器30根据创建请求创建索引的过程与现有技术相同,在此不再赘述。
第四服务器40用于接收第一服务器10发送的索引创建请求,并根据索引创建请求计算内容信息的存储空间占用量。
第四服务器40在接收到第一服务器发送的索引创建请求后,可对索引创建请求中的待创建索引的内容信息进行分析,在分析的过程中,为了准确确定用户的身份信息,其中,索引创建请求还包括用户的标识(ID)信息,标识信息可以唯一标识用户,即每个用户所使用的标识信息均是不同,通过用户的ID即可确定用户的身份。
具体地,第四服务器40对待创建索引的内容信息进行分析的过程中,可获取内容信息所对应的每个字符的存储空间占用量,并根据每个字符的存储空间占用量确定内容信息的存储空间占用量。
在本申请的一个实施例中,为了可以准确统计出内容信息所占用的存储空间占用量,可基于字符集合分析每个字符的存储空间占用量。具体而言,第四服务器40在获取待创建索引的内容信息后,可获取内容信息中的每个字符,并基于系统中的字符集合,确定出每个字符所采用的编码方式,并基于编码方式确定每个字符所占用的存储空间占用量,然后根据每个字符所占用的存储空间占用量计算出内容信息的存储空间占用量。
具体地,第二服务器20用于接收第四服务器40发送的内容信息的存储空间占用量和用户的标识信息,并根据标识信息和内容信息的存储空间占用量更新用户的已使用存储空间容量。
本申请实施例的搜索引擎的流量统计系统,第一服务器在接收到用户的索引创建请求时调用第三服务器创建索引,第四服务器根据第一服务器索引创建请求中待创建索引的内容信息确定内容信息的存储空间占用量。该系统将索引的创建和容量的统计分开给不同的服务器处理,由此,可加快索引创建时间和提高统计准确度。
图7是本申请一个具体实施例的搜索引擎的流量统计系统的交互示意图。该实施例以第一服务器为代理服务器,第二服务器为结果处理服务器,第三服务器为搜索引擎服务器集群,第四服务器为流式计算服务器集群为例进行描述。
如图8所示,在搜索引擎客户端801向搜索引擎发送索引创建请求后,代理服务器集群802接收索引创建请求,代理服务器集群802向搜索引擎服务器集群803和流式计算服务器集群804发送搜索创建请求。对应地,搜索引擎服务器集群803根据搜索创建请求创建索引,流式计算服务器集群804接收代理服务器集群802发送的包含待创建索引的内容信息的数据流,具体而言,代理服务器集群802将包含待创建索引的内容信息的数据流发送给流式计算服务器集群804(Storm,分布式的实时数据流计算)的数据源节点Spout,为了方便后续对数据库中用户的已使用存储空间占用量进行更新,数据中需要包含用户的ID和文本内容(待创建索引的内容信息),数据源节点Spout采用随机分配的方式将数据交给Storm任务节点Bolt处理。Storm任务节点Bolt根据系统的字符集,分析每个字符占用的存储空间,最后将分析的结果发布成消息,并发送给消息中间件,消息中间件将对应Storm任务节点Bolt的分析结果进行汇总,并将汇总后的消息发送至结果处理服务器805,结果处理服务器805将结果写入数据库806中。需要理解的是,这里是对数据库中对应用户的已使用存储空间容量进行更新。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种搜索引擎的流量统计方法,其特征在于,包括以下步骤:
接收第一服务器发送的索引创建请求,其中,所述索引创建请求包含待创建索引的内容信息;
对所述待创建索引的内容信息进行分析,以确定所述内容信息的存储空间占用量。
2.如权利要求1所述的搜索引擎的流量统计方法,其特征在于,所述索引创建请求还包括用户的标识信息,在所述对所述待创建索引的内容信息进行分析,以确定所述内容信息的存储空间占用量之后,所述方法还包括:
将所述内容信息的存储空间占用量和所述用户的标识信息发送给第二服务器,以使所述第二服务器根据所述标识信息和所述内容信息的存储空间占用量更新所述用户的已使用存储空间容量。
3.如权利要求1所述的搜索引擎的流量统计方法,其特征在于,所述对所述待创建索引的内容信息进行分析,以确定所述内容信息的存储空间占用量,包括:
对所述待创建索引的内容信息进行分析,获取所述内容信息所对应的每个字符的存储空间占用量;
根据所述每个字符的存储空间占用量确定所述内容信息的存储空间占用量。
4.如权利要求3所述的搜索引擎的流量统计方法,其特征在于,所述获取所述内容信息所对应的每个字符的存储空间占用量,包括:
基于字符集合,分析每个字符的存储空间占用量。
5.一种搜索引擎的流量统计方法,其特征在于,包括以下步骤:
当接收到用户的索引创建请求时,调用第三服务器,并通过所述第三服务器为所述索引创建请求创建索引,其中,所述索引创建请求包含待创建索引的内容信息;以及
向所述第四服务器发送所述索引创建请求,以使所述第四服务器根据所述索引创建请求计算所述内容信息的存储空间占用量。
6.一种搜索引擎的流量统计装置,其特征在于,包括:
接收模块,用于接收第一服务器发送的索引创建请求,其中,所述索引创建请求包含待创建索引的内容信息;
处理模块,用于对所述待创建索引的内容信息进行分析,以确定所述内容信息的存储空间占用量。
7.如权利要求6所述的搜索引擎的流量统计装置,其特征在于,所述索引创建请求还包括用户的标识信息,所述装置还包括:
发送模块,用于在所述待创建索引的内容信息进行分析,以确定所述内容信息的存储空间占用量之后,将所述内容信息的存储空间占用量和所述用户的标识信息发送给第二服务器,以使所述第二服务器根据所述内容信息的存储空间占用量更新所述用户的已使用存储空间容量。
8.如权利要求6所述的搜索引擎的流量统计装置,其特征在于,所述处理模块,包括:
分析单元,用于对所述待创建索引的内容信息进行分析,获取所述内容信息所对应的每个字符的存储空间占用量;
确定单元,用于根据所述每个字符的存储空间占用量确定所述内容信息的存储空间占用量。
9.如权利要求8所述的搜索引擎的流量统计装置,其特征在于,所述分析单元,具体用于:
基于字符集合,分析每个字符的存储空间占用量。
10.一种搜索引擎的流量统计装置,其特征在于,包括:
调用模块,用于在接收到用户的索引创建请求时,调用第三服务器,并通过所述第三服务器为所述索引创建请求创建索引,其中,所述索引创建请求包含待创建索引的内容信息;以及
发送模块,用于向所述第四服务器发送所述索引创建请求,以使所述第四服务器根据所述索引创建请求计算所述内容信息的存储空间占用量。
11.一种搜索引擎的流量统计系统,其特征在于,包括第一服务器、第三服务器和第四服务器,其中,
所述第一服务器,用于在接收到用户的索引创建请求时,调用所述第三服务器,并向所述第四服务器发送所述索引创建请求,其中,所述索引创建请求包含待创建索引的内容信息;
所述第三服务器,用于根据所述索引创建请求创建索引;
所述第四服务器,用于接收所述第一服务器发送的所述索引创建请求,并根据所述索引创建请求计算所述内容信息的存储空间占用量。
12.如权利要求11所述的搜索引擎的流量统计系统,其特征在于,所述索引创建请求还包括用户的标识信息,还包括:
第二服务器,用于接收所述第四服务器发送的所述内容信息的存储空间占用量和所述用户的标识信息,并根据所述标识信息和所述内容信息的存储空间占用量更新所述用户的已使用存储空间容量。
13.如权利要求11所述的搜索引擎的流量统计系统,其特征在于,所述第四服务器,具体用于:
对所述待创建索引的内容信息进行分析,获取所述内容信息所对应的每个字符的存储空间占用量;
根据所述每个字符的存储空间占用量确定所述内容信息的存储空间占用量。
14.如权利要求13所述的搜索引擎的流量统计系统,其特征在于,所述第四服务器,具体用于:
基于字符集合,分析每个字符的存储空间占用量。
CN201610134155.3A 2016-03-09 2016-03-09 搜索引擎的流量统计方法、装置及系统 Active CN107180042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610134155.3A CN107180042B (zh) 2016-03-09 2016-03-09 搜索引擎的流量统计方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610134155.3A CN107180042B (zh) 2016-03-09 2016-03-09 搜索引擎的流量统计方法、装置及系统

Publications (2)

Publication Number Publication Date
CN107180042A true CN107180042A (zh) 2017-09-19
CN107180042B CN107180042B (zh) 2020-12-15

Family

ID=59829659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610134155.3A Active CN107180042B (zh) 2016-03-09 2016-03-09 搜索引擎的流量统计方法、装置及系统

Country Status (1)

Country Link
CN (1) CN107180042B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453986A (zh) * 2023-12-19 2024-01-26 荣耀终端有限公司 一种搜索方法、后台服务器及搜索系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193996A (zh) * 2011-05-04 2011-09-21 浙江大学 基于移动设备的可视Web对象搜索引擎方法
CN102760137A (zh) * 2011-04-27 2012-10-31 上海特易信息科技有限公司 分布式全文检索方法以及系统
CN103412933A (zh) * 2013-08-20 2013-11-27 南京物联网应用研究院有限公司 一种云搜索平台
CN103631930A (zh) * 2013-12-06 2014-03-12 北京京东尚科信息技术有限公司 一种搜索引擎空间占用统计方法及系统
CN104765774A (zh) * 2015-03-16 2015-07-08 新浪网技术(中国)有限公司 一种资源占用的统计方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760137A (zh) * 2011-04-27 2012-10-31 上海特易信息科技有限公司 分布式全文检索方法以及系统
CN102193996A (zh) * 2011-05-04 2011-09-21 浙江大学 基于移动设备的可视Web对象搜索引擎方法
CN103412933A (zh) * 2013-08-20 2013-11-27 南京物联网应用研究院有限公司 一种云搜索平台
CN103631930A (zh) * 2013-12-06 2014-03-12 北京京东尚科信息技术有限公司 一种搜索引擎空间占用统计方法及系统
CN104765774A (zh) * 2015-03-16 2015-07-08 新浪网技术(中国)有限公司 一种资源占用的统计方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453986A (zh) * 2023-12-19 2024-01-26 荣耀终端有限公司 一种搜索方法、后台服务器及搜索系统
CN117453986B (zh) * 2023-12-19 2024-05-24 荣耀终端有限公司 一种搜索方法、后台服务器及搜索系统

Also Published As

Publication number Publication date
CN107180042B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN109522312B (zh) 一种数据处理方法、装置、服务器和存储介质
CN106649831B (zh) 一种数据过滤方法及装置
CN109726074A (zh) 日志处理方法、装置、计算机设备和存储介质
US9906477B2 (en) Distributing retained messages information in a clustered publish/subscribe system
CN110443552B (zh) 一种产品主数据信息自动传输的方法及装置
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN109086814B (zh) 一种数据处理方法、装置及网络设备
CN112800061B (zh) 一种数据存储方法、装置、服务器及存储介质
JP2021122117A (ja) 自動コンテンツ認識のための広告フレームのフラッギング
CN111400298A (zh) 数据处理方法及装置、计算机可读存储介质
CN102150090B (zh) 为自动化系统中的分布式操作提供控制信息的方法、计算机程序和自动化系统
CN113377637A (zh) 性能容量诊断方法及装置
CN109741075A (zh) Crm数据处理系统及方法
CN108021713B (zh) 一种文档聚类的方法和装置
CN109145109B (zh) 基于社交网络的用户群体消息传播异常分析方法及装置
CN109614417A (zh) 基于数据流的报表指标的显示方法、装置及终端
CN107180042A (zh) 搜索引擎的流量统计方法、装置及系统
US11507563B2 (en) Unsupervised anomaly detection
CN110309028A (zh) 监控信息获取方法、服务监控方法、装置及系统
CN110020166A (zh) 一种数据分析方法及相关设备
CN112052330B (zh) 一种应用程序关键词的分配方法及装置
CN112417259A (zh) 媒体资源的处理方法、装置、设备及存储介质
CN107346329B (zh) 一种数据处理方法和装置
US20200169615A1 (en) Controlling content delivery
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201013

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201013

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240222

Address after: Guohao Times City # 20-01, 128 Meizhi Road, Singapore

Patentee after: Advanced Nova Technology (Singapore) Holdings Ltd.

Country or region after: Singapore

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Innovative advanced technology Co.,Ltd.

Country or region before: Cayman Islands