CN106933923A - 筛选会话的方法和装置 - Google Patents
筛选会话的方法和装置 Download PDFInfo
- Publication number
- CN106933923A CN106933923A CN201511032678.9A CN201511032678A CN106933923A CN 106933923 A CN106933923 A CN 106933923A CN 201511032678 A CN201511032678 A CN 201511032678A CN 106933923 A CN106933923 A CN 106933923A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- tables
- session
- index element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种筛选会话的方法和装置。其中,该方法包括:获取用于筛选会话的筛选条件,其中,筛选条件包括:多个指标元素和/或多个维度元素的或关系;判断筛选条件是否为多个指标元素和多个维度元素的或关系;在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件;从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。本发明解决了现有技术分布式数据库中,按照指标与维度的或关系条件筛选会话的过程复杂、造成资源浪费的技术问题。
Description
技术领域
本发明涉及数据库领域,具体而言,涉及一种筛选会话的方法和装置。
背景技术
在分布式环境下,目前常用的查询引擎有Hive,Impala这些结构化的带元数据的数据库。在这些结构化的带元数据的数据库中,通常,将各类事件的数据记录在各个事实数据表中。在用户访问互联网的过程中,一般有会话表(Session)、页面浏览表(PageView)和订单表(Order)等多种表示用户访问行为的事实数据表,这些数据表可以通过用户的会话标识(SessionID)进行关联,以形成整个会话的所有实体。
但是,由于数据表之间关联性差,当用户需要从多个维度获取多张事实数据表中满足指标和维度或关系条件的数据时,例如过滤条件为城市是北京或者访问量大于100的城市,传统实现方式为:1、找出所有城市是北京的会话Id;2、找出按城市分组后,所有访问量大于100的所有会话id;3、将上述两个结果的会话Id,取并值,即求取所有城市是北京的会话Id或所有访问量大于100的所有会话Id;4、再根据所有会话id,按城市分组,求取各指标。传统实现方式存在如下缺点:性能速度慢,两次全表扫描,分别计算出相关的会话Id后,再次表连接,进行聚合,从而求出最后结果。
针对现有技术分布式数据库中,按照指标与维度的或关系条件筛选会话的过程复杂、造成资源浪费的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种筛选会话的方法和装置,以至少解决现有技术分布式数据库中,按照指标与维度的或关系条件筛选会话的过程复杂、造成资源浪费的技术问题。
根据本发明实施例的一个方面,提供了一种筛选会话的方法,包括:获取用于筛选会话的筛选条件,其中,筛选条件包括:多个指标元素和/或多个维度元素的或关系;判断筛选条件是否为多个指标元素和多个维度元素的或关系;在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件;从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。
根据本发明实施例的另一方面,还提供了一种筛选会话的装置,包括:获取单元,用于获取用于筛选会话的筛选条件,其中,筛选条件包括:多个指标元素和/或多个维度元素的或关系;判断单元,用于判断筛选条件是否为多个指标元素和多个维度元素的或关系;转换单元,用于在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件;处理单元,用于从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。
在本发明实施例中,获取到用于筛选会话的筛选条件之后,对筛选条件进行判断,在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件,并从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。因此,通过将维度和指标的或关系拆分成指标的或关系,并使用拆分后的指标或关系对会话进行筛选,从而解决了现有技术分布式数据库中,按照指标与维度的或关系条件筛选会话的过程复杂、造成资源浪费技术问题。根据本申请提出的方案,仅需要一次表扫描即可得出结果,不需要两个或过滤的表扫描,以及连接的开销,极大的提升了性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种筛选会话的方法的流程图;
图2是根据本发明实施例的一种筛选会话的装置的示意图;
图3是根据本发明实施例的一种可选的筛选会话的装置的示意图;
图4是根据本发明实施例的一种可选的筛选会话的装置的示意图;
图5是根据本发明实施例的一种可选的筛选会话的装置的示意图;
图6是根据本发明实施例的一种可选的筛选会话的装置的示意图;以及
图7是根据本发明实施例的一种可选的筛选会话的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
指标:是指可以进行聚合运算的值,例如,访问页面数可以是一个指标。
维度:是多维数据库的结构性特性,是数据表中用来描述数据的分类的有组织层次结构,例如,操作系统可以是一个维度。
数据表:是数据库最重要的组成部分之一,包含用户访问网页产生的所有数据信息,例如,用户访问网页产生的访问页面,访问时长,访问页面数等相关的数据信息。
关联键:是分布式数据库的重要组成部分,是一个数据表与另一个数据表产生关系的字段,例如,可以通过ID进行关联。
实施例1
根据本发明实施例,提供了一种筛选会话的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种筛选会话的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取用于筛选会话的筛选条件,其中,筛选条件包括:多个指标元素和/或多个维度元素的或关系。
具体地,上述筛选条件可以是指标元素的或关系,可以是维度元素的或关系,也可以是指标元素和维度元素的或关系。
例如,以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。
步骤S104,判断筛选条件是否为多个指标元素和多个维度元素的或关系。
在一种可选的方案中,判断筛选条件是否是指标过滤与维度过滤的或关系,如果判断出为纯维度过滤,则根据需要进行数据表连接,并通过上述的延迟或判断进行筛选会话;如果是纯指标过滤,则根据需要进行数据表连接,并通过GroupBy剖析维度后,Having中拼接or关系即可。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系。
步骤S106,在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件。
在一种可选的方案中,如果判断出筛选条件为维度和指标的或过滤关系,则进行拆解,拆分成两个指标过滤。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系,在确定筛选条件时维度元素和指标元素的或关系之后,将上述筛选条件拆分成两个指标过滤的或关系。
步骤S108,从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。
在一种可选的方案中,根据拆分后的两个指标过滤条件,从数据库中筛选得到指标元素满足两个指标过滤条件的会话。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系,在确定筛选条件时维度元素和指标元素的或关系之后,将上述筛选条件拆分成两个指标过滤的或关系。使用两个指标过滤的或关系筛选得到指标元素满足筛选条件的会话,即筛选得到city=’bj’或者visits>100的会话。
本申请上述实施例,获取到用于筛选会话的筛选条件之后,对筛选条件进行判断,在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件,并从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。因此,通过将维度和指标的或关系拆分成指标的或关系,并使用拆分后的指标或关系对会话进行筛选,从而解决了现有技术分布式数据库中,按照指标与维度的或关系条件筛选会话的过程复杂、造成资源浪费技术问题。根据本申请提出的方案,仅需要一次表扫描即可得出结果,不需要两个或过滤的表扫描,以及连接的开销,极大的提升了性能。
根据本申请上述实施例,步骤S106,将筛选条件转变为指标元素筛选条件包括如下步骤:
步骤S1062,将多个维度元素转变为多个聚合指标元素。
步骤S1064,将多个聚合指标元素和多个指标元素的或关系作为指标元素筛选条件。
可选地,维度是在Where处的行级别过滤,指标是分组后的Having按组进行条件过滤,此二者要想去除掉表连接,就得应用同一种过滤方式,所以可以将维度的意义,转变为是否存在,并进行Sum,max等求值聚合函数,在Having条件处判断是否满足维度条件。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系,在确定筛选条件时维度元素和指标元素的或关系之后,可以将上述维度元素(city)转换为聚合指标元素(sum(isBjVisits)),从而将上述或关系拆分成北京访问量指标大于0(城市为北京的所有访问量),或者访问量大于100的城市(指标过滤),即sum(isBjVisits)>0or count(*)>100。如果会话标识为1的会话的城市是北京,则聚合指标元素的值是1,如果会话标识为2的会话的城市是上海,不是北京,则聚合指标元素的值是0。
根据本申请上述实施例,步骤S108,从数据库中提取指标满足指标元素筛选条件的会话,得到筛选后的会话,包括如下步骤:
步骤S1082,从多张数据表中提取与指标元素筛选条件相关的数据表集合,其中,数据表集合中的每个数据表至少包含如下任意一项:任意一个指标元素或任意一个聚合指标元素。
在一种可选的方案中,根据获取到转换后的指标元素筛选条件,在分布式数据库包含的多张数据表中进行查询,确定包含任意一个指标元素或任意一个聚合指标元素的多张数据表,将该多张数据表构成一个数据表集合。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),将页面浏览表(PageView)和会话表(Session)构成数据表集合。
此处需要说明的是,聚合指标元素是根据维度元素转换得到的,因此包含维度元素的数据表即为包含聚合指标元素的数据表。
步骤S1084,读取数据表集合中每个会话包含的多个指标元素中每个指标元素对应的数据,和多个聚合指标元素中每个聚合指标元素对应的数据。
步骤S1086,判断任意一个会话包含的至少一个指标元素素中每个指标元素对应的数据是否大于等于第一预设值,或至少一个聚合指标元素中每个聚合指标元素对应的数据是否大于等于第二预设值。
具体地,上述第一预设值可以是100,第二预设值可以是1。
在一种可选的方案中,在得到数据表集合之后,从数据表集合包含的多张数据表中读取每个会话包含的每个指标元素对应的数据和每个聚合指标元素对应的数据。
步骤S1088,在任意一个会话包含的至少一个指标元素中每个指标元素对应的数据大于等于第一预设值,或至少一个聚合指标元素中每个聚合指标元素对应的数据大于等于第二预设值的情况下,确定任意一个会话为筛选后的会话。
可选地,可以先对数据表中每个会话派生每个维度元素是否满足维度过滤条件的派生列,如isBjVisits表示,针对含有派生列的数据表,进行剖析维度的GroupBy分组,并针对分组后的结果应用Having的Or条件过滤,或的具体条件为下述两个:
1、BJVisits,北京访问量存在,对派生列进行求和,或取Max,其结果大于0即可(sum(isbjvisits)>0);
2、访问量大于100。
具体生成的SQL查询语句为:
With t as(select city,
case when city=’bj’then 1else 0end as isBjVisits
from session)
Select city,count(*)as visits
From t
group by city
having sum(isBjVisits)>0and count(*)>100。
在一种可选的方案中,在得到数据表集合之后,从数据表集合包含的多张数据表中读取每个会话包含的每个指标元素对应的数据和每个聚合指标元素对应的数据,判断每个会话包含的每个指标元素对应的数据和每个聚合指标元素对应的数据是否满足预设或条件,即每个指标元素对应的数据是否大于等于第一预设值,或至少一个聚合指标元素中每个聚合指标元素对应的数据是否大于等于第二预设值,确定满足预设或条件的会话为筛选后的会话。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),将页面浏览表(PageView)和会话表(Session)构成数据表集合,从数据表集合中读取到会话标识为1的会话的聚合指标是1,指标元素是120,会话标识为2的会话的聚合指标是0,指标元素是110,会话标识为3的会话的聚合指标是1,指标元素是90和会话标识为4的会话的聚合指标是0,指标元素是90,经过判断得到筛选后的会话为会话标识为1的会话。
根据本申请上述实施例,步骤S0182,从多张数据表中提取与指标元素筛选条件相关的数据表集合包括如下步骤:
步骤S10822,判断多张数据表中是否存在同时包含多个指标元素和多个聚合指标元素的数据表。
步骤S10824,在多张数据表中不存在同时包含多个指标元素和多个聚合指标元素的数据表的情况下,从多张数据表中获取包含任意一个指标元素或任意一个聚合指标元素的一组数据表,并从一组数据表中提取具有表连接关系的数据表构成数据表集合。
在一种可选的方案中,获取到转换后的指标元素筛选条件之后,根据指标元素筛选条件,在数据库包含的多张数据表中进行查询,确定包含任意一个指标元素或任意一个维度元素的数据表,判断是否存在同时包含指标元素和维度元素的数据表,如果不存在同时包含指标元素和维度元素的数据表,则从数据表中获取包含任意一个指标元素或任意一个维度元素的多张数据表,将该多张数据表作为数据表集合。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),根据维度元素(city)和指标元素(visits),在数据库包含的全部数据表中进行查询,判断是否存在同时包含维度元素(city)和指标元素(visits)的数据表,如果不存在,则将页面浏览表(PageView)和会话表(Session)作为数据表集合。
此处需要说明的是,用户访问页面产生的访问数据通常会存储在不同的数据库和数据表中,因此,通常情况下,不存在同时包含指标元素和至少一个维度元素的数据表,在这种情况下,现有技术的筛选会话的方式过程复杂,筛选时间长。
根据本申请上述实施例,在步骤S10824,从一组数据表中提取具有表连接关系的数据表构成数据表集合之前,上述方法还包括如下步骤:
步骤S10826,获取一组数据表中每个数据表的连接键值。
在一种可选的情况中,具有表连接关系的数据表中每个数据表都存在一个或多个连接键值,可以是特定的字段指标。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),获取到上述两个表的连接键值,即会话标识(SessionID)。
步骤S10828,根据每个数据表的连接键值,将一组数据表进行连接,得到具有表连接关系的数据表。
在一种可选的方案中,获取每个数据表的连接键值之后,根据连接键值的内容,将多张数据表进行连接,得到具有表连接关系的数据表。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),获取到上述两个表的连接键值,即会话标识(SessionID),并通过会话标识(SessionID)将上述两个页面浏览表(PageView)和会话表(Session)进行连接,将将相同会话标识(SessionID)的内容进行合并。
根据本申请上述实施例,步骤S1084,读取数据表集合中每个会话包含的至少一个聚合指标元素中每个聚合指标元素对应的数据包括:
步骤S10842,提取数据表集合中多个维度元素中每个维度元素对应的数据。
步骤S10844,根据每个聚合指标元素的聚合类型,将每个维度元素对应的数据进行聚合运算,得到每个聚合指标元素对应的数据。
具体地,上述聚合类型可以是求和,求平均,率值等。
在一种可选的方案中,在多张数据表进行表连接之后,提取多张数据表中每个会话包含的每个维度元素对应的数据,在数据表集合中每个维度元素对应的数据满足预设值的情况下,派生每个维度元素对应的数据是否满足筛选条件的派生列,如isBjVisits表示,根据聚合指标元素的聚合类型,进行聚合运算,得到每个聚合指标元素对应的数据。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),将页面浏览表(PageView)和会话表(Session)构成数据表集合,从数据表集合中读取到会话标识为1的会话的城市是北京,则派生1,会话标识为2的会话的城市是上海,则派生0,会话标识为3的会话的城市是北京,则派生1,以及会话标识为4的会话的城市是南京,则派生0。聚合指标元素(sum(isBjVisits))的类型为求和,则对同一个会话的派生列进行求和,得到聚合指标元素的数据。
实施例2
根据本发明实施例,提供了一种筛选会话的装置实施例,如图2所示,该装置包括如下:获取单元21,判断单元23,转换单元25和处理单元27。
其中,获取单元21用于获取用于筛选会话的筛选条件,其中,筛选条件包括:多个指标元素和/或多个维度元素的或关系。
具体地,上述筛选条件可以是指标元素的或关系,可以是维度元素的或关系,也可以是指标元素和维度元素的或关系。
例如,以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。
判断单元23用于判断筛选条件是否为多个指标元素和多个维度元素的或关系。
在一种可选的方案中,判断筛选条件是否是指标过滤与维度过滤的或关系,如果判断出为纯维度过滤,则根据需要进行数据表连接,并通过上述的延迟或判断进行筛选会话;如果是纯指标过滤,则根据需要进行数据表连接,并通过GroupBy剖析维度后,Having中拼接or关系即可。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系。
转换单元25用于在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件。
在一种可选的方案中,如果判断出筛选条件为维度和指标的或过滤关系,则进行拆解,拆分成两个指标过滤。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系,在确定筛选条件时维度元素和指标元素的或关系之后,将上述筛选条件拆分成两个指标过滤的或关系。
处理单元27用于从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。
在一种可选的方案中,根据拆分后的两个指标过滤条件,从数据库中筛选得到指标元素满足两个指标过滤条件的会话。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系,在确定筛选条件时维度元素和指标元素的或关系之后,将上述筛选条件拆分成两个指标过滤的或关系。使用两个指标过滤的或关系筛选得到指标元素满足筛选条件的会话,即筛选得到city=’bj’或者visits>100的会话。
本申请上述实施例,获取到用于筛选会话的筛选条件之后,对筛选条件进行判断,在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件,并从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。因此,通过将维度和指标的或关系拆分成指标的或关系,并使用拆分后的指标或关系对会话进行筛选,从而解决了现有技术分布式数据库中,按照指标与维度的或关系条件筛选会话的过程复杂、造成资源浪费技术问题。根据本申请提出的方案,仅需要一次表扫描即可得出结果,不需要两个或过滤的表扫描,以及连接的开销,极大的提升了性能。
根据本申请上述实施例,如图3所示,转换单元25包括:转换模块31和处理模块33。
其中,转换模块31用于将多个维度元素转变为多个聚合指标元素。
处理模块33用于将多个聚合指标元素和多个指标元素的或关系作为指标元素筛选条件。
可选地,维度是在Where处的行级别过滤,指标是分组后的Having按组进行条件过滤,此二者要想去除掉表连接,就得应用同一种过滤方式,所以可以将维度的意义,转变为是否存在,并进行Sum,max等求值聚合函数,在Having条件处判断是否满足维度条件。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据获取到的筛选条件,判断上述筛选条件是否为指标元素和维度元素的或关系,在确定筛选条件时维度元素和指标元素的或关系之后,可以将上述维度元素(city)转换为聚合指标元素(sum(isBjVisits)),从而将上述或关系拆分成北京访问量指标大于0(城市为北京的所有访问量),或者访问量大于100的城市(指标过滤),即sum(isBjVisits)>0or count(*)>100。如果会话标识为1的会话的城市是北京,则聚合指标元素的值是1,如果会话标识为2的会话的城市是上海,不是北京,则聚合指标元素的值是0。
根据本申请上述实施例,如图4所示,处理单元27包括:提取模块41,读取模块43,判断模块45和确定模块47。
其中,提取模块41用于从多张数据表中提取与指标元素筛选条件相关的数据表集合,其中,数据表集合中的每个数据表至少包含如下任意一项:任意一个指标元素或任意一个聚合指标元素。
在一种可选的方案中,根据获取到转换后的指标元素筛选条件,在分布式数据库包含的多张数据表中进行查询,确定包含任意一个指标元素或任意一个聚合指标元素的多张数据表,将该多张数据表构成一个数据表集合。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),将页面浏览表(PageView)和会话表(Session)构成数据表集合。
此处需要说明的是,聚合指标元素是根据维度元素转换得到的,因此包含维度元素的数据表即为包含聚合指标元素的数据表。
读取模块43用于读取数据表集合中每个会话包含的多个指标元素中每个指标元素对应的数据,和多个聚合指标元素中每个聚合指标元素对应的数据。
判断模块45用于判断任意一个会话包含的至少一个指标元素素中每个指标元素对应的数据是否大于等于第一预设值,或至少一个聚合指标元素中每个聚合指标元素对应的数据是否大于等于第二预设值。
具体地,上述第一预设值可以是100,第二预设值可以是1。
在一种可选的方案中,在得到数据表集合之后,从数据表集合包含的多张数据表中读取每个会话包含的每个指标元素对应的数据和每个聚合指标元素对应的数据。
确定模块47用于在任意一个会话包含的至少一个指标元素中每个指标元素对应的数据大于等于第一预设值,或至少一个聚合指标元素中每个聚合指标元素对应的数据大于等于第二预设值的情况下,确定任意一个会话为筛选后的会话。
可选地,可以先对数据表中每个会话派生每个维度元素是否满足维度过滤条件的派生列,如isBjVisits表示,针对含有派生列的数据表,进行剖析维度的GroupBy分组,并针对分组后的结果应用Having的Or条件过滤,或的具体条件为下述两个:
1、BJVisits,北京访问量存在,对派生列进行求和,或取Max,其结果大于0即可(sum(isbjvisits)>0);
2、访问量大于100。
具体生成的SQL查询语句为:
With t as(select city,
case when city=’bj’then 1else 0end as isBjVisits
from session)
Select city,count(*)as visits
From t
group by city
having sum(isBjVisits)>0and count(*)>100。
在一种可选的方案中,在得到数据表集合之后,从数据表集合包含的多张数据表中读取每个会话包含的每个指标元素对应的数据和每个聚合指标元素对应的数据,判断每个会话包含的每个指标元素对应的数据和每个聚合指标元素对应的数据是否满足预设或条件,即每个指标元素对应的数据是否大于等于第一预设值,或至少一个聚合指标元素中每个聚合指标元素对应的数据是否大于等于第二预设值,确定满足预设或条件的会话为筛选后的会话。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),将页面浏览表(PageView)和会话表(Session)构成数据表集合,从数据表集合中读取到会话标识为1的会话的聚合指标是1,指标元素是120,会话标识为2的会话的聚合指标是0,指标元素是110,会话标识为3的会话的聚合指标是1,指标元素是90和会话标识为4的会话的聚合指标是0,指标元素是90,经过判断得到筛选后的会话为会话标识为1的会话。
根据本申请上述实施例,如图5所示,提取模块41包括:判断子模块51和第一获取子模块53。
其中,判断子模块51用于判断多张数据表中是否存在同时包含多个指标元素和多个聚合指标元素的数据表。
第一获取子模块53用于在多张数据表中不存在同时包含多个指标元素和多个聚合指标元素的数据表的情况下,从多张数据表中获取包含任意一个指标元素或任意一个聚合指标元素的一组数据表,并从一组数据表中提取具有表连接关系的数据表构成数据表集合。
在一种可选的方案中,获取到转换后的指标元素筛选条件之后,根据指标元素筛选条件,在数据库包含的多张数据表中进行查询,确定包含任意一个指标元素或任意一个维度元素的数据表,判断是否存在同时包含指标元素和维度元素的数据表,如果不存在同时包含指标元素和维度元素的数据表,则从数据表中获取包含任意一个指标元素或任意一个维度元素的多张数据表,将该多张数据表作为数据表集合。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),根据维度元素(city)和指标元素(visits),在数据库包含的全部数据表中进行查询,判断是否存在同时包含维度元素(city)和指标元素(visits)的数据表,如果不存在,则将页面浏览表(PageView)和会话表(Session)作为数据表集合。
此处需要说明的是,用户访问页面产生的访问数据通常会存储在不同的数据库和数据表中,因此,通常情况下,不存在同时包含指标元素和至少一个维度元素的数据表,在这种情况下,现有技术的筛选会话的方式过程复杂,筛选时间长。
根据本申请上述实施例,如图6所示,提取模块41还包括:第二获取子模块61和连接子模块63。
其中,第二获取子模块61用于获取一组数据表中每个数据表的连接键值。
在一种可选的情况中,具有表连接关系的数据表中每个数据表都存在一个或多个连接键值,可以是特定的字段指标。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),获取到上述两个表的连接键值,即会话标识(SessionID)。
连接子模块63用于根据每个数据表的连接键值,将一组数据表进行连接,得到具有表连接关系的数据表。
在一种可选的方案中,获取每个数据表的连接键值之后,根据连接键值的内容,将多张数据表进行连接,得到具有表连接关系的数据表。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),获取到上述两个表的连接键值,即会话标识(SessionID),并通过会话标识(SessionID)将上述两个页面浏览表(PageView)和会话表(Session)进行连接,将将相同会话标识(SessionID)的内容进行合并。
根据本申请上述实施例,如图7所示,读取模块43包括:提取子模块71和聚合子模块73。
其中,提取子模块71用于提取数据表集合中多个维度元素中每个维度元素对应的数据。
聚合子模块73用于根据每个聚合指标元素的聚合类型,将每个维度元素对应的数据进行聚合运算,得到每个聚合指标元素对应的数据。
具体地,上述聚合类型可以是求和,求平均,率值等。
在一种可选的方案中,在多张数据表进行表连接之后,提取多张数据表中每个会话包含的每个维度元素对应的数据,在数据表集合中每个维度元素对应的数据满足预设值的情况下,派生每个维度元素对应的维度元素是否满足的列,如isBjVisits表示,根据聚合指标元素的聚合类型,进行聚合运算,得到每个聚合指标元素对应的数据。
例如,仍以维度为城市,指标为访问量为例,对本发明上述实施例进行说明。可以根据用户的需要设置筛选会话的筛选条件,如果用户需要筛选城市是北京或者访问量大于100的城市,则获取到的筛选条件为维度元素(city)和指标元素(visits)的或关系。根据该筛选条件,在数据库包含的全部数据表中进行查询,得到包含指标元素(visits)和维度元素(city)的页面浏览表(PageView)和会话表(Session),将页面浏览表(PageView)和会话表(Session)构成数据表集合,从数据表集合中读取到会话标识为1的会话的城市是北京,则派生1,会话标识为2的会话的城市是上海,则派生0,会话标识为3的会话的城市是北京,则派生1,以及会话标识为4的会话的城市是南京,则派生0。聚合指标元素(sum(isBjVisits))的类型为求和,则对同一个会话的派生列进行求和,得到聚合指标元素的数据。
上述筛选会话的装置包括处理器和存储器,上述获取单元,判断单元,转换单元和处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述用于筛选会话的筛选条件和指标元素筛选条件都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取用于筛选会话的筛选条件,其中,筛选条件包括:多个指标元素和/或多个维度元素的或关系;判断筛选条件是否为多个指标元素和多个维度元素的或关系;在筛选条件是多个指标元素和多个维度元素的或关系的情况下,将筛选条件转变为指标元素筛选条件;从数据库中提取指标元素满足指标元素筛选条件的会话,得到筛选后的会话。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种筛选会话的方法,其特征在于,包括:
获取用于筛选会话的筛选条件,其中,所述筛选条件包括:多个指标元素和/或多个维度元素的或关系;
判断所述筛选条件是否为多个指标元素和多个维度元素的或关系;
在所述筛选条件是所述多个指标元素和多个维度元素的或关系的情况下,将所述筛选条件转变为指标元素筛选条件;
从数据库中提取指标元素满足所述指标元素筛选条件的会话,得到筛选后的会话。
2.根据权利要求1所述的方法,其特征在于,将所述筛选条件转变为指标元素筛选条件包括:
将所述多个维度元素转变为多个聚合指标元素;
将所述多个聚合指标元素和所述多个指标元素的或关系作为所述指标元素筛选条件。
3.根据权利要求2所述的方法,其特征在于,从数据库中提取指标满足所述指标元素筛选条件的会话,得到筛选后的会话,包括:
从多张数据表中提取与所述指标元素筛选条件相关的数据表集合,其中,所述数据表集合中的每个数据表至少包含如下任意一项:任意一个指标元素或任意一个聚合指标元素;
读取所述数据表集合中每个会话包含的所述多个指标元素中每个指标元素对应的数据,和所述多个聚合指标元素中每个聚合指标元素对应的数据;
判断任意一个会话包含的所述多个指标元素中每个指标元素对应的数据是否大于等于第一预设值,或所述多个聚合指标元素中每个聚合指标元素对应的数据是否大于等于第二预设值;
在所述任意一个会话包含的所述多个指标元素中所述每个指标元素对应的数据大于等于所述第一预设值,或所述多个聚合指标元素中每个聚合指标元素对应的数据大于等于所述第二预设值的情况下,确定所述任意一个会话为所述筛选后的会话。
4.根据权利要求3所述的方法,其特征在于,从多张数据表中提取与所述指标元素筛选条件相关的数据表集合包括:
判断所述多张数据表中是否存在同时包含所述多个指标元素和所述多个聚合指标元素的数据表;
在所述多张数据表中不存在同时包含所述多个指标元素和所述多个聚合指标元素的数据表的情况下,从所述多张数据表中获取包含任意一个指标元素或任意一个聚合指标元素的一组数据表,并从所述一组数据表中提取具有表连接关系的数据表构成所述数据表集合。
5.根据权利要求4所述的方法,其特征在于,在从所述一组数据表中提取具有表连接关系的数据表构成所述数据表集合之前,所述方法还包括:
获取所述一组数据表中每个数据表的连接键值;
根据所述每个数据表的连接键值,将所述一组数据表进行连接,得到所述具有表连接关系的数据表。
6.根据权利要求3所述的方法,其特征在于,读取所述数据表集合中每个会话包含的所述多个聚合指标元素中每个聚合指标元素对应的数据包括:
提取所述数据表集合中所述多个维度元素中每个维度元素对应的数据;
根据所述每个聚合指标元素的聚合类型,将所述每个维度元素对应的数据进行聚合运算,得到所述每个聚合指标元素对应的数据。
7.一种筛选会话的装置,其特征在于,包括:
获取单元,用于获取用于筛选会话的筛选条件,其中,所述筛选条件包括:多个指标元素和/或多个维度元素的或关系;
判断单元,用于判断所述筛选条件是否为多个指标元素和多个维度元素的或关系;
转换单元,用于在所述筛选条件是所述多个指标元素和多个维度元素的或关系的情况下,将所述筛选条件转变为指标元素筛选条件;
处理单元,用于从数据库中提取指标元素满足所述指标元素筛选条件的会话,得到筛选后的会话。
8.根据权利要求7所述的装置,其特征在于,所述转换单元包括:
转换模块,用于将所述多个维度元素转变为多个聚合指标元素;
处理模块,用于将所述多个聚合指标元素和所述多个指标元素的或关系作为所述指标元素筛选条件。
9.根据权利要求8所述的装置,其特征在于,所述处理单元包括:
提取模块,用于从多张数据表中提取与所述指标元素筛选条件相关的数据表集合,其中,所述数据表集合中的每个数据表至少包含如下任意一项:任意一个指标元素或任意一个聚合指标元素;
读取模块,用于读取所述数据表集合中每个会话包含的所述多个指标元素中每个指标元素对应的数据,和所述多个聚合指标元素中每个聚合指标元素对应的数据;
判断模块,用于判断任意一个会话包含的所述多个指标元素素中每个指标元素对应的数据是否大于等于第一预设值,或所述多个聚合指标元素中每个聚合指标元素对应的数据是否大于等于第二预设值;
确定模块,用于在所述任意一个会话包含的所述多个指标元素中所述每个指标元素对应的数据大于等于所述第一预设值,或所述多个聚合指标元素中每个聚合指标元素对应的数据大于等于所述第二预设值的情况下,确定所述任意一个会话为所述筛选后的会话。
10.根据权利要求9所述的装置,其特征在于,所述提取模块包括:
判断子模块,用于判断所述多张数据表中是否存在同时包含所述多个指标元素和多个聚合指标元素的数据表;
第一获取子模块,用于在所述多张数据表中不存在同时包含所述多个指标元素和多个聚合指标元素的数据表的情况下,从所述多张数据表中获取包含任意一个指标元素或任意一个聚合指标元素的一组数据表,并从所述一组数据表中提取具有表连接关系的数据表构成所述数据表集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511032678.9A CN106933923B (zh) | 2015-12-31 | 2015-12-31 | 筛选会话的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511032678.9A CN106933923B (zh) | 2015-12-31 | 2015-12-31 | 筛选会话的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106933923A true CN106933923A (zh) | 2017-07-07 |
CN106933923B CN106933923B (zh) | 2020-04-21 |
Family
ID=59444239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511032678.9A Active CN106933923B (zh) | 2015-12-31 | 2015-12-31 | 筛选会话的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933923B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020123979A1 (en) * | 2001-01-12 | 2002-09-05 | Microsoft Corporation | Sampling for queries |
US7167022B1 (en) * | 2004-03-25 | 2007-01-23 | Altera Corporation | Omnibus logic element including look up table based logic elements |
CN102460431A (zh) * | 2009-05-08 | 2012-05-16 | 佐科姆有限公司 | 行为和情境数据分析的系统和方法 |
CN102789457A (zh) * | 2011-05-17 | 2012-11-21 | 航天信息股份有限公司 | 动态定制过滤条件的方法 |
CN103605651A (zh) * | 2013-08-28 | 2014-02-26 | 杭州顺网科技股份有限公司 | 一种基于olap多维分析的数据处理展现方法 |
CN104123374A (zh) * | 2014-07-28 | 2014-10-29 | 北京京东尚科信息技术有限公司 | 分布式数据库中聚合查询的方法及装置 |
CN104951467A (zh) * | 2014-03-28 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 统计方法及装置 |
-
2015
- 2015-12-31 CN CN201511032678.9A patent/CN106933923B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020123979A1 (en) * | 2001-01-12 | 2002-09-05 | Microsoft Corporation | Sampling for queries |
US7167022B1 (en) * | 2004-03-25 | 2007-01-23 | Altera Corporation | Omnibus logic element including look up table based logic elements |
CN102460431A (zh) * | 2009-05-08 | 2012-05-16 | 佐科姆有限公司 | 行为和情境数据分析的系统和方法 |
CN102789457A (zh) * | 2011-05-17 | 2012-11-21 | 航天信息股份有限公司 | 动态定制过滤条件的方法 |
CN103605651A (zh) * | 2013-08-28 | 2014-02-26 | 杭州顺网科技股份有限公司 | 一种基于olap多维分析的数据处理展现方法 |
CN104951467A (zh) * | 2014-03-28 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 统计方法及装置 |
CN104123374A (zh) * | 2014-07-28 | 2014-10-29 | 北京京东尚科信息技术有限公司 | 分布式数据库中聚合查询的方法及装置 |
Non-Patent Citations (1)
Title |
---|
黄继先: "基于R-树的空间数据库查询技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN106933923B (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
CN104391979B (zh) | 网络恶意爬虫识别方法及装置 | |
CN105335509B (zh) | 一种推荐活动信息的方法、装置及服务器 | |
CN103885987B (zh) | 一种音乐推荐方法和系统 | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN106599155A (zh) | 一种网页分类方法及系统 | |
CN102236654A (zh) | 基于内容相关性的Web无效链接过滤方法 | |
CN105224691B (zh) | 一种信息处理方法及装置 | |
CN103051637A (zh) | 用户识别方法与装置 | |
CN106294815B (zh) | 一种url的聚类方法及装置 | |
CN106708841A (zh) | 网站访问路径的聚合方法和装置 | |
CN106802904A (zh) | 日志处理方法、装置及系统 | |
DE112010002089T5 (de) | Verfahren zur Infomationsauswahl im Internet | |
CN103425650A (zh) | 推荐搜索方法和系统 | |
CN106777143A (zh) | 一种新闻聚合方法及新闻聚合服务器 | |
CN107832333A (zh) | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统 | |
CN108153781A (zh) | 提取业务领域的关键词的方法和装置 | |
CN103714120B (zh) | 一种从用户url访问记录中提取用户兴趣话题的系统 | |
CN104899215A (zh) | 数据处理方法、推荐源信息组织和信息推荐方法及装置 | |
CN105426392A (zh) | 一种协同过滤推荐方法及系统 | |
CN106933920A (zh) | 会话的筛选方法和装置 | |
CN102063497A (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN104346411A (zh) | 对多个稿件进行聚类的方法和设备 | |
CN106790258A (zh) | 一种服务器筛选网络请求的方法及系统 | |
CN101308508B (zh) | 处理图片的方法、装置以及搜索图片的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |