CN106462583A - 用于快速数据分析的系统和方法 - Google Patents

用于快速数据分析的系统和方法 Download PDF

Info

Publication number
CN106462583A
CN106462583A CN201580011997.3A CN201580011997A CN106462583A CN 106462583 A CN106462583 A CN 106462583A CN 201580011997 A CN201580011997 A CN 201580011997A CN 106462583 A CN106462583 A CN 106462583A
Authority
CN
China
Prior art keywords
data
fragmentation
inquiry
group
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580011997.3A
Other languages
English (en)
Other versions
CN106462583B (zh
Inventor
罗伯特·约翰逊
利奥尔·亚伯拉罕
安·约翰逊
鲍里斯·迪米特罗夫
唐·弗斯格林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Because Trana Co
Scuba Analytics Inc
Original Assignee
Because Trana Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Because Trana Co filed Critical Because Trana Co
Publication of CN106462583A publication Critical patent/CN106462583A/zh
Application granted granted Critical
Publication of CN106462583B publication Critical patent/CN106462583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24545Selectivity estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning

Abstract

用于快速数据分析的方法,包括接收并解释查询、收集来自第一组数据碎片中的第一数据样本、基于第一数据样本的分析来计算查询的中间结果、基于中间结果识别第二组数据碎片、收集来自第二组数据碎片中的第二数据样本、以及基于第二数据样本的分析来计算查询的最终结果。

Description

用于快速数据分析的系统和方法
相关申请的交叉引用
本申请要求于2014年3月10日提交的序列号为61/950,827的美国临时申请的权益,其以引用的方式全部并入本文中。
技术领域
本发明通常涉及数据分析领域,且更具体地涉及用于数据分析领域中的快速数据分析的新的和实用的系统和方法。
背景
如今的商业收集涉及销售、市场和其他关键业务的大量的数据。查询这样的数据往往是困难且资源密集的过程,特别是对于复杂的查询来说。在一定程度上,查询性能可通过预计算数据聚合和数据索引得以改善,但是在跨越大的数据集中的所有维度上完成这样的预计算是不可行的。由于这样的原因,查询性能问题往往使数据分析缓慢。因此,在数据分析领域有创建用于快速数据分析的系统和方法的需要。本发明提供了这样的新的和实用的系统和方法。
附图简述
图1是优选的实施例的系统的图示视图;
图2是优选的实施例的系统的事件流的示例性表格视图;
图3是优选的实施例的系统的示例实施的图示视图;以及
图4是优选的实施例的方法的图表视图。
优选的实施例的描述
本发明的优选实施例的以下描述不旨在将本发明限制到这些优选实施例,而是使本领域中的任何技术人员能够执行并使用本发明。
1.用于快速数据分析的系统
如图1所示,用于快速数据分析的系统100包括事件数据库110、字符串查找数据库120、字符串译码器130以及查询引擎140。系统100可附加地或可替代地包括接口模块150、配置数据库160和/或数据管理器170。
系统100用于通过利用分布式计算来实现快速数据分析,以激励专门设计用于提高大量数据的查询速度的架构。系统100优选用于事件数据;事件数据库110中的每个条目优选包括时间戳且首先按该时间戳的顺序被存储。附加或可选地,每个条目可能包括序列号,或指示事件如何排序的一些其它字段。作为另一选择,事件顺序可由数据存储的顺序确定。按时间戳的顺序存储数据优选地允许存储大量的实时数据,而不花费宝贵的处理时间来组织和/或重写数据。优选地,系统100还使用字符串译码器130和字符串查找数据库120将事件数据字符串译为整数,这允许事件数据库110中的智能数据压缩。事件数据库110优选地分布在整个分布式计算系统的数据碎片中。当系统100被查询时,查询引擎140优选采用来自整个分布式计算系统的数据碎片的样本,这允许快速并行读取。随后,查询引擎140可部分地基于所选择的样本优选地确定查询答案,实现比所有数据都被查询的快得多的响应。查询引擎140可优选地调整查询引擎的采样方法,以达到准确度与速度的期望的比率,以使查询引擎140适用于各种查询类型。至少部分地利用上述的特征,系统100优选实现大量数据的快速分析,同时最小化或消除广泛的预处理或开销。
事件数据库110用作系统100的主要信息存储器。事件数据库110优选存储事件数据,例如包括时间元素或事件顺序的其他指示的数据。事件数据优选具有至少相关联的时间字段和会话字段,但可包含任何合适的字段集。事件数据库110可以任何合适的组织方案附加地或可选地存储任何合适的数据。事件数据库110优选包括多个数据集来以不同的方式存储数据。例如,如图2中所示,一个数据集可包括按用户id(UID)分组的(例如,分片的)并按时间组织的事件的列表;而另一数据集可包括事件的相同列表,但事件是按IP地址分组的并按时间组织的。数据分片优选用于分区和/或分组数据,但数据可附加地或可选地以任何合适的方式分组。如在以上示例中的,不同的数据集可存储相同的数据,但不同的数据集也可存储相同数据的不同子集,或完全不同的数据。例如,一个数据集可包括按UID分组的并按时间组织的事件的列表,其中该事件还包括IP地址和位置字段。第二数据集可包括按IP地址分组的并按时间组织的相同事件的列表,但事件信息不包括位置或UID。事件数据库110优选组织所有的数据集为分列数据集;可替代地,数据集可以任何合适的方式组织。以分列格式存储的数据集优选使用分列压缩,以减小存储的数据的大小。分列压缩优选包括利用存储在列中的数据的序列本质来节省空间的任何技术。
事件数据库110优选允许显式数据和隐式数据两者的存储。隐式数据优选包括隐式附加的对象数据源并可在查询中被引用。例如,在毛衣销售数据的事件流中,每个事件能够携带显式数据字段,该显式数据字段识别商家(“e.merchant_id”)、终端(“e.terminal_id”)、美元交易量(“e.dollar_amount”)以及出售的毛衣类型(“e.sweater_id”)。每个事件也可具有对象数据源或与这些显式数据字段相关联的其他类型的隐式数据;例如,可能有与涉及毛衣类型(如大小(“sweater_size”)和颜色(“sweater_color”))的每个“e.sweater_id”特征相关联的对象数据。事件数据库110优选使这些相关联的数据特性自动地对查询可用;例如,毛衣颜色可通过字段“e.sweater_id.sweater_color”来访问。事件数据库110可包括对属性字段的直接访问,这可用于删除对表连接的需要。对属性字段的访问可通过导入声明的表作为连接表来促进。声明连接表优选使连接表与涉及的事件数据表的维度链接。连接表优选被存储为属性名称值对。
事件数据库110优选跨整个分布式计算系统中的计算机分布。分布式计算系统的每个节点优选存储由事件数据库110包含的数据的部分。该数据优选存储在持久性存储器(例如硬盘驱动器、闪存)中,但是一些数据或全部数据可附加或可替换地存储在临时存储器(例如RAM)中。事件数据库110中的数据优选地进一步分区成在每个节点上的数据碎片。碎片优选为水平表分区和竖直表分区两者;数据碎片优选由数据表的所有行的子集和所有列的子集的交集形成。每个碎片优选包含至少时间信息,但可附加或可替代地包含其他信息。碎片可按时间分区;例如,每个数据碎片可包含发生超过特定的24小时周期的事件集。碎片可附加或可替代地按任何其他合适的信息(例如UID、IP地址、会话ID等)分区。碎片分区优选按以下规则完成:竖直分区优选包括固定数量的字段,以及对于每个竖直分区有固定数量的水平分区。例如,如果数据集包括时间字段、UID字段、IP地址字段以及位置字段,则数据集可竖直地分区成三个。第一竖直分区将包括时间字段和UID字段;第二竖直分区将包括时间字段和IP地址字段,以及第三竖直分区将包括时间字段和位置字段。随后,数据集将按天水平地分区;如果有一周的数据,则将有七个水平的分区。因此,数据将分区成21个碎片。碎片分区可附加或可替代地按任何其他规则集或算法自动完成,或可手动完成。
每个碎片优选具有碎片号(或其他标识符),并且每个碎片号优选连同其上存在该碎片的节点存储在配置数据库160中。该联结的数据可附加或可替代地存储在任何合适的位置中。保持碎片和节点链接的中心列表优选使查询引擎140能够确定正确节点以查询特定数据。碎片/节点链接的列表可附加地包括其他信息,如被包括在碎片中的数据的概略。
字符串查找数据库120用于存储将字符串链接到唯一识别该字符串的整数的信息。字符串查找数据库120由字符串译码器130使用,以将字符串译为其相应的整数标识符,反之亦然。字符串查找数据库120中的字符串到整数的映射优选以实现前缀匹配的方式(例如,通过使用trie数据结构)存储,但是可附加或可替代地以任何合适的方式存储。字符串查找数据库120优选分布在整个分布式计算系统中的计算机。分布式计算系统的每个节点优选存储由字符串查找数据库120包含的数据的部分。该数据优选存储在持久性存储器(例如硬盘驱动器、闪存)中,但是一些数据或全部数据可附加或可替换地存储在临时存储器(例如RAM)中。字符串查找数据库120中的数据优选进一步分区成在每个节点上的数据碎片。字符串查找数据库120的数据碎片优选对应于事件数据库110的数据碎片,但可替代地独立于事件数据库110的分区而被分区。
事件数据库110的每个字段优选对应于字符串查找数据库120的独立的字符串查找数据碎片。这样使相同的整数标识符能够用于不同字段中的不同字符串。字符串查找数据碎片和对应的事件数据库110字段之间的关系优选存储在配置数据库160中,但可替代地存储在任何合适的位置中。如果字符串查找数据碎片对应于事件数据碎片,则关系可以是简单地两个碎片共享一个碎片识别号。字符串查找碎片和事件数据库110字段之间的关系优选为一对一,但可替代地可以为任何合适的关系;例如,如果两个字段包含类似的字符串数据,(例如中间名和名字),则该两个字段可共享字符串查找碎片。
字符串译码器130用于将输入的事件数据中的字符串转换成整数标识符。将字符串转换成整数标识符可大大地节省存储事件数据所需的空间的量,并且也可优化某些操作(优选包括由查询引擎140使用的操作)。字符串译码器130优选在事件数据被写入事件数据库110之前将所接收的事件数据中的字符串译为字符串标识符,但可附加或可替代地在任何合适的时间将字符串译为字符串标识符。字符串译码器130优选译码所接收的事件数据中的所有字符串,但可替代地仅译码所接收的事件数据中的所有字符串的子集。字符串译码器130优选通过查找与字符串查找数据库120中的字符串对应的标识符来译码字符串。对应的标识符优选为链接至特定字符串的标识符,但该对应的标识符可附加或可替代地被链接至其他数据。例如,如果字符串具有特定值且该字符串为事件数据的特定字段或特定类型的部分,则标识符可能仅对应于该字符串。这样使标识符能够重复用于不同的数据类型;例如,整数标识符“42”可对应于“Country”字段中的数据的字符串“Canada”,并可对应于“Month”字段中的数据的字符串“January”。该“其他数据”可显式存在于字符串查找数据库120中或可隐式存在;例如,如果字符串查找数据对应于不同的事件数据字段,则字符串查找数据可存储在不同的位置(如在字符串查找数据库上的部分所述)。
如果字符串在字符串查找数据库120中具有对应的标识符,则字符串在被写入事件数据库110中之前被译为该标识符。如果字符串不具有对应的标识符,则对应的标识符优选为该字符串创建。对应的标识符优选为在字符串查找数据库120中的下个可用的标识符;但可根据字符串值可替代地被选择。例如,以字母a、b或c开始的所有字符串值可具有以“1”开始的整数标识符。如果根据字符串值选择标识符,则标识符查找数据优选以使能前缀匹配的格式存储。
字符串译码器130也用于处理用来查询的字符串译码。当查询引擎140接收查询时,处于查询中的字符串优选传至字符串译码器130,以将其译为标识符。随后,优选使用标识符处理查询。在查询已经被处理之后,查询结果中的标识符优选通过字符串译码器130被处理回成字符串,允许在没有来自字符串译码器130的进一步干预的情况下查看或处理查询结果。
查询引擎140用于处理关于事件数据的传入查询和返回该查询的结果。查询引擎140优选采用包括事件数据源、时间范围、过滤器、分区功能以及度量功能的查询。事件数据源优选参考事件数据库110中的事件数据字段;例如,“e.sweater_id”可能涉及对应于出售毛衣的类型的事件数据字段。时间范围是在查询能够被搜索的期间的时间的范围;查询优选忽略“e.time”值在特定时间范围之外的事件数据。过滤器优选允许数据基于过滤条件被包括在查询中或从查询中排除;过滤器优选应用于满足时间范围的任何事件数据,但可附加或可替代地应用于任何其他事件数据。不满足过滤器的任何事件数据优选从查询结果中排除。在这种方式中,时间范围优选类似于其他过滤器,除了时间范围优选具有比其他过滤器更高的优先级之外。例如,如果一组过滤器包括声明“e.sweater_id>10”的过滤器,则“Filter(e)”对于“e.sweater_id≤10”的任何事件“e”将返回“False”。分区函数优选对满足时间范围和过滤器两者的任何事件数据进行评估,但可附加或可替代地应用于任何其他事件数据。分区函数优选按一个或多个关系的满足将事件分组在一起。分区函数优选返回满足分区函数的所有事件;例如,“partition(e.sweater_id,23)”将返回包含满足“e.sweater_id=23”的所有事件。度量函数优选从分区函数产生统计数据。度量函数优选包括产生满足给定条件的事件数据的总和、百分位、比例和/或百分比的函数。如果分区函数的结果被解释为来自更广泛总体的代表性的样本,则度量可被视为对应的更广泛总体度量的基于样本的估计。在这些情况下,查询引擎140优选提供针对估计的置信带,相当于例如可通过统计自举所获取到的。置信带优选通过观察到的统计分布的分析被计算,但可附加或可替代地以任何合适的方式提供。用户可被提供以置信带作为置信的指示符;例如,如果置信低时,可通报用户疑似的样本偏离(sample bias)。
除了返回事件和度量之外,查询引擎140可附加或可替代地返回对象和/或对象组(称为队列)。例如,查询可请求关于满足分区函数“partition(e.sweater_id,23)”的事件的“terminal_id”值的集。队列可包括行为队列;例如,满足特定序列的事件的用户组。例如,在一周时间内超过十小时在特定网站上活跃的用户组。
查询可附加或可替代地包括排序函数和/或分组函数。排序函数优选允许对查询结果的排序。排序函数优选应用于最终结果,但可附加或可替代地应用于中间结果(例如,如果经排序的结果在查询步骤中对于计算是必要的)。分组函数优选允许查询结果的分组。类似于排序函数,分组函数优选应用于最终结果,但可附加或可替代地应用于中间结果。排序函数和分组函数优选在第一遍运行中被指定或选择(例如,在第一中间结果的产生期间),但可附加或可替代地在任何合适的时间被指定。分组函数可附加地包括队列函数。队列函数是分组函数的特定情况,其将对象的总体分成队列集,每个对象确切出现在一个队列中。
查询引擎140优选通过第一预处理查询来处理查询;这包括解析查询和使用字符串译码器130将查询中的字符串译为整数。预处理可附加或可替代地包括执行用户认证、用户友好地字符串解析(例如将“now”解析成当前时间戳),以及将类似SQL的查询字符串解析成查询树。预处理优选还包括解析与查询相关的数据驻留在哪里(经由计算或查找配置数据库160)、执行误差处理、缩放、表连接和/或对于评估查询必要的任何数学方法。
在预处理查询之后,优选使用多遍运行方法评估查询。在第一遍运行中,查询引擎140优选同时从事件数据库110中的大量数据碎片中取用小样本。随后,查询引擎140优选在样本上执行中间计算,以识别或精细化可能的查询结果。随后,该可能的查询结果集用作下一遍运行的输入。下一遍运行可以是另一识别/精细化运行(类似于第一遍运行,但具有不同的输入),或下一遍运行可以是最终一遍运行。该最终一遍运行优选包括含有查询的疑似相关信息的数据碎片的全扫描,但可附加或可替代地仅包括数据碎片的部分扫描。查询结果优选计算自最终一遍运行的结果。
例如,查询引擎140接收查询,以识别在过去的一个月中对于特定的网站的前100个最活跃的用户。在第一遍运行中,查询引擎140查询包含用户id和活动数据的事件数据库110的数据碎片(其分布在整个分布式计算系统的许多节点),并且在每个节点上试图从数据的小样本中识别前面的用户。随后,查询引擎140将第一遍运行的结果进行比较,并得出从数据样本中估计出的前10000个用户的列表。随后,查询引擎140对包含关于这些10000个用户的数据的所有数据碎片进行全扫描,并根据该列表确定前100个用户。
运行的次数优选为手动分配的并默认为两遍运行,但可附加或可替代地自动设置。采样方法(包括在每遍运行中采样多少数据和在每遍运行中如何选择样本)优选根据所需的置信区间和水平自动确定。例如,对于期望在特定置信水平的特定置信区间内的总体评估所选择的样本将优选地被随机选择;样本的数量对应于对于这样的置信区间和水平所需的最少数量。采样方法可附加或可替代地对已知不是正态分布和/或不包括独立和随机变量的数据包括不同于非随机采样的采样。例如,如果数据集通常已知为遵循特定的分布(按照过去的查询或其他数据源),可根据该特定的分布对数据集进行采样。
在本发明的一个实施例中,查询引擎140可采用速度/准确度变量作为查询的一部分或作为应用于查询的通用设置(优选存储在配置数据库160中)。该速度/准确度变量将优选地调整运行的次数和/或采用的样本的数量,以产生结果。例如,具有被设置为接近“最大速度”值的速度/准确度变量的查询可能采用非常少量的样本,但也可能潜在地返回不准确的答案。当速度/准确度变量向着“最大准确度”侧被调整时,查询消耗更多时间和/或处理功率,但返回更准确的结果。该实现的查询引擎140可附加或可替代地包括查询估计器。查询估计器优选产生特定查询和速度/准确度变量、查询将进行多久和查询的结果将有多准确的估计。查询估计器能够优选直接地(例如,通过查询引擎用户设置所需的时间和/或准确度并接收特定速度/准确度变量设置)或间接地(例如,查询引擎用户可对不同的速度/准确度变量设置评估查询的时间/准确度,以选择正确的速度/准确度变量设置)被使用。
接口模块150用于向系统100提供图形用户接口。接口模块150优选向查询引擎的用户提供方法以查看和编辑数据、建立查询和/或可视化查询结果。接口模块150还优选地实现连接表的无缝引入;来自连接表的数据优选自动示出为事件数据的列,但可附加或可替代地以任何合适的方式表示。接口模块150优选包括度量选项卡、衍生的字段选项卡、探查选项卡和/或队列选项卡。
度量选项卡优选允许查询引擎用户定义、命名以及编辑度量。度量选项卡可包括消费者可对数据运行的标准度量的工具箱;附加或可替代地,度量选项卡可包括基于事件数据字段和/或存在于事件数据库110中的内容自动生成的度量。例如,如果事件数据包括“page”字段和“user”字段,则自动生成的度量可存在于度量选项卡中,该自动生成的度量计算“page”字段的值是“photo_view”的事件的数量除以来自“user”字段的用户的唯一计数。
衍生的字段选项卡优选允许查询引擎用户创建关于事件数据的衍生的字段。衍生的字段选项卡优选示出现有的事件数据库110,除此之外还提供从现有的字段中创建新的(衍生的)字段的选项。衍生的字段优选为根据其他字段中的数据计算的字段。例如,“Profit”可以是根据“Revenue”减去“Expenses”衍生的字段。衍生的字段可仅存在于接口模块150内,或可作为事件数据库110中的关系存在(这样查询将在运行时间计算衍生的字段),或可作为在事件数据库110内存储的数据存在(即衍生的字段的值被提前计算)。
探查选项卡优选允许查询引擎用户与事件数据库110中的事件数据交互。探查选项卡优选允许查询引擎用户应用基本函数(如计数、唯一计数、求和等)、度量以及对事件数据的过滤程序的组合。例如,查询引擎用户能够通过不同的缩放比例(例如,“2*Metric1(Filter(event_data))+Metric2(Filter(event_data))”)计算过滤的数据的两个度量的和。探查选项卡可附加或可替代地包括区域,其中基于那里的事件数据和计算可以在事件数据库110中的示例数据上或实际数据上进行可视化或显示。
队列选项卡优选允许查询引擎用户将事件数据对象按类别分组;例如,基于站点活动将网站的成员划分成队列。队列选项卡优选允许查询引擎用户指定在其中划分对象的类别。附加或可替代地,队列选项卡可自动创建在其中划分对象的类别。例如,队列选项卡可基于成员每周登录网站的天数自动创建队列;网站成员将被划分成八类中的一个(0、1、2、3、4、5、6、7天登录)。队列选项卡优选包括常用的队列函数集(像按时间分组),以帮助查询引擎用户生成队列。队列选项卡优选地另外允许查询引擎用户定义对象特性。对象特性优选地基于事件数据的序列被定义,并且优选地从聚合函数、聚合参数以及过滤器的组合中形成。例如,“hours_active”对象特性可通过“count_unique(align_time(event.time,3600))”来计算。队列选项卡可附加或可替代地允许查询引擎用户查看或修改预定义的对象特性(例如,注册时间戳)。
配置数据库160用于存储关于系统100的操作的设置。配置数据库160优选存储事件数据库110中的事件数据碎片和分布式计算机系统中的节点之间的映射。配置数据库160可附加或可替代地存储关于事件数据碎片的其他信息(例如,事件数据碎片的内容或事件数据碎片和事件数据字段之间的映射)。配置数据库160还优选存储字符串查找数据库120中的字符串数据碎片和分布式计算机系统中的节点之间的映射。配置数据库160可附加或可替代地存储关于字符串数据碎片的其他信息(例如,字符串数据碎片和事件数据碎片之间的映射或字符串数据碎片和事件数据字段之间的映射)。配置数据库160还优选存储关于系统100的操作的通用设置,例如,配置数据库160可存储涉及查询的全局设置(像速度/准确度权衡变量)。配置数据库160还可存储涉及存储或解析数据的全局设置。
在优选实施例的变型中,元数据(例如数据碎片和节点之间的映射等)可存储在分开的元数据存储器,而配置数据库160仅可存储其他设置(例如,涉及查询的全局设置)。
数据管理器170用于维护或修改事件数据库110中的数据,以最大化系统100的性能。数据管理器170优选确定数据集如何被组织和新的数据集是否应从现有的数据生成。数据管理器170可基于来自查询引擎用户的手动输入、基于响应于存储的数据的规则集或其他算法和/或基于响应于查询的规则集或其他算法完成上述操作。例如,数据管理器170可创建数据集,该数据集包括按IP地址分组的并按响应于查询引擎用户命令的时间存储的事件的列表。随后,数据管理器170可自动创建数据集,该数据集包括相同的事件,但现在基于配置数据库160中的规则,按位置来分组,该规则声明如果存在数据按IP地址分组的数据集,则另一数据集应创建为按位置将数据分组。如果查询引擎用户重复查询特定网页的用户,则数据管理器170可认为使该数据按UID存储可能是有利的,且随后将生成包括相同事件但按UID分组的数据集。同样地,如果数据管理器170注意到特定数据集很少被使用,则数据管理器170可删除该数据集或不同地组织该数据集。
数据管理器170还优选控制碎片如何被编码到事件数据库100中。数据管理器170优选如在涵盖事件数据库110的部分中所描述的来分区碎片。数据管理器170优选分区或重新分区碎片,以便优化系统100的性能。数据管理器170可基于来自查询引擎用户的手动输入、基于响应于存储的数据的规则集或其他算法和/或基于响应于查询的规则集或其他算法完成上述操作。
数据管理器170还优选生成数据聚合,以便优化系统100的性能。数据聚合优选通过在事件数据上执行求和、平均或其他数学操作来形成。数据聚合优选预先考虑通过常见查询执行的操作,以便当这些查询被调用时节省时间或处理功率。数据管理器170可基于来自查询引擎用户的手动输入、基于响应于存储的数据的规则集或其他算法、和/或基于响应于查询的规则集或其他算法创建数据聚合。
如图3中所示,在系统100的示例实施中,查询由接口模块150启动。随后,查询由SSL终端的Nginx网络服务器接收,经过传统服务器中的传统PHP代码,随后经过用于用户认证、用户友好地字符串解析、以及查询解析(例如将类似SQL的字符串解析成查询树)的查询API服务器。随后,查询由查询引擎140(数据服务器)处理。查询引擎使用来自字符串译码器130(字符串聚合器)和合并服务器的数据来处理查询,该字符串译码器和合并服务器各自访问字符串查找数据库120(字符串片/散列(string leaves/hashes))和事件数据库110(数据查询片/局部数据碎片)。随后,查询结果通过相同的服务器路径返回接口模块150。
2.用于快速数据分析的方法
如图4中所示,用于快速数据分析的方法200包括解释查询S210;基于查询执行第一数据采样S220;计算来自数据样本的中间结果S230;基于中间查询结果执行第二数据采样S240;以及基于第二数据样本计算最终查询结果S250。方法200优选通过以上所描述的系统100实施,但可附加或可替代地通过任何合适的系统实施。
方法200优选通过利用分布式计算来实现快速数据分析,以同时对许多数据集进行采样并返回这些数据集的结果,而不必搜索它们全部。方法200的多遍查询过程优选允许潜在相关的数据被快速识别(经由S220和S230)并随后作为进一步分析的目标(S240和S250),防止时间被浪费在不相关的数据上。每个步骤的范围优选是可调整的,这允许查询被优化、增强或以其他方式改进以用于速度对准确度的理想比率。通过这些步骤,方法200优选实现大量数据的快速分析,而不需要广泛的预处理或开销。
解释查询S210用于识别数据应如何被查询。通过S210解释的查询优选大体上类似于在系统100的描述中所描述的这些内容。解释查询S210优选包括第一预处理查询,该第一预处理查询可包括解析查询并将查询中的字符串译为整数。将查询中的字符串译为整数优选包括将字符串(和潜在地将其他数据,如参考的数据字段)传递到数据库,该数据库包含字符串到标识符的映射(例如字符串查找数据库130)。预处理可附加或可替代地包括执行用户认证、用户友好地字符串解析(例如将“now”解析成当前时间戳),以及将类似SQL的查询字符串解析成查询树。预处理优选还包括解析与查询相关的数据驻留在哪里(经由计算或查找配置数据库)、执行误差处理、缩放、表连接和/或对于评估查询必要的任何数学方法。
步骤S210可附加地包括指定或选择分组和/或排序函数。排序函数优选允许查询结果的排序。排序函数优选应用于最终结果,但可附加或可替代地应用于中间结果(例如,如果经排序的结果在查询步骤中对于计算是必要的)。分组函数优选允许查询结果的分组。类似于排序函数,分组函数优选应用于最终结果,但可附加或可替代地应用于中间结果。分组函数可附加地包括队列函数。队列函数是分组函数的特定情况,其将对象的总体分成队列集,每个对象确切出现在一个队列中。
基于查询执行第一数据采样S220用于识别并采样待由S230使用的数据。执行第一数据采样S220优选包括识别待采样的数据。识别待采样的数据优选包括识别基于所期望的置信区间和水平被采样的数据,例如,对于期望在特定置信水平的特定置信区间内的总体估计所选的待采样的数据将优选被随机选择;样本的数量对应于这样的置信区间和水平所需的最小数量。识别待采样的数据可附加或可替代地包括对已知不是正态分布和/或不包括独立和随机变量的数据进行不同于随机采样的采样。例如,如果数据集通常已知为遵循特定的分布(按照过去的查询或其他数据源),可根据该特定的分布对数据集进行采样。执行第一数据采样S220还优选包括收集待由S230分析的第一数据样本。收集第一数据样本优选包括采用来自大量数据碎片中的小样本,该大量数据碎片被包含在分布式计算系统的许多节点上。这样优选地使大量并行读取同时发生,节省了时间。
根据第一数据样本计算中间查询结果S230用于提供查询结果的第一估计,随后,该查询结果的第一估计可用于引导第二数据采样。通过S210处理的查询优选在第一数据样本上运行,以确定中间查询结果的集。随后,中间查询结果优选用于确定第二数据样本。例如,如果查询试图识别在过去一个月中特定网站的前100个最活跃的用户;执行第一数据采样S220可包括在包含用户id和活动数据的许多分布式计算系统节点上采样数据碎片。计算中间查询结果S230可包括试图在来自这些数据碎片的小样本中的每个节点上识别前面的用户、对这些前面的用户进行比较、以及得出从这些数据样本中估计的前10000个用户的列表。
基于中间查询结果执行第二数据采样S240用于基于S230的结果识别并收集数据。执行第二数据采样S240优选包括识别关于中间查询结果的数据源,并随后收集来自这些源的所有可用的数据。附加或可替代地,S240可仅包括收集所有可用的数据源的子集。参考先前章节的示例,识别数据源并收集所有可用的数据将包括定位涉及预测的前10000个用户(数据源)的所有活动数据(在查询时间帧内),并收集该活动数据用于在S250中的计算。
步骤S230和步骤S240可在连续的数据集上重复;例如,中间查询结果可根据第二数据样本被计算,以便生成第三数据样本等。同样地,步骤S250可在任何合适的数据样本上被执行。
基于第二数据样本计算最终查询结果S250用于基于在S240中识别的第二数据样本来确定查询结果。计算最终查询结果S250优选包括在第二数据样本上运行通过S210处理的查询并返回结果。计算最终查询结果S250可附加或可替代地包括返回置信区间、置信水平、或最终查询结果的准确度的其他估计。
优选实施例的方法及其变型可实施和/或至少部分地实施为机器,该机器配置成接收存储了计算机可读指令的计算机可读介质。指令优选通过计算机可执行的组件来执行,该计算机可执行组件优选与计算机系统集成。计算机可读介质可存储在任何合适的计算机可读媒介上,如RAM、ROM、闪存、EEPROM、光学设备(CD或DVD)、硬盘驱动器、软盘驱动器或任何合适的设备。计算机可执行部件优选为通用处理器或专用处理器,但可替代地或附加地,任何合适的专用硬件或硬件/固件的组合设备都可以执行这些指令。
本领域技术人员将从先前详细描述以及从附图和权利要求理解,可对本发明的优选实施方案作出修改和改变而不脱离在以下权利要求中界定的本发明的范围。

Claims (20)

1.一种用于快速数据分析的方法,包括:
·接收并解释查询,其中,解释所述查询包括使用字符串译码器将所述查询的字符串译为整数,其中,解释所述查询还包括识别第一组数据碎片,所述第一组数据碎片包含涉及所述查询的数据;
·收集来自所述第一组数据碎片的第一数据样本,其中收集所述第一数据样本包括收集来自所述第一组数据碎片中的每一个的数据,其中,收集来自所述第一组数据碎片中的每一个的数据包括仅收集被包含在所述第一组数据碎片中的每一个内的数据的子集;
·基于所述第一数据样本的分析来计算所述查询的中间结果;
·基于所述中间结果识别第二组数据碎片;
·收集来自所述第二组数据碎片的第二数据样本,其中收集所述第二数据样本包括收集来自所述第二组数据碎片中的每一个的数据,其中,收集来自所述第二组数据碎片中的每一个的数据包括收集被包含在所述第二组数据碎片中的每一个内的完整的数据集;以及
·基于所述第二数据样本的分析来计算所述查询的最终结果。
2.根据权利要求1所述的方法,其中,收集来自所述第一组数据碎片的所述第一数据样本包括收集来自所述第一组数据碎片的分列数据集的数据。
3.根据权利要求2所述的方法,其中,所述第一组数据碎片包括按时间组织的事件数据。
4.根据权利要求1所述的方法,其中,接收和解释所述查询还包括解释对隐式数据的参考。
5.根据权利要求4所述的方法,其中,接收和解释所述查询还包括选择排序函数和分组函数中的至少一个。
6.根据权利要求1所述的方法,其中,识别第一组数据碎片包括使用配置数据库识别所述第一组数据碎片的节点位置。
7.根据权利要求1所述的方法,其中使用字符串译码器将所述查询的字符串译为整数包括使用以使能前缀匹配的格式存储的字符串标识符来译码字符串。
8.根据权利要求1所述的方法,其中,所述查询包括至少一个时间范围和至少一个事件数据源。
9.根据权利要求8所述的方法,其中,计算所述查询的所述最终结果还包括基于采样数据的统计分布的分析来计算关于估计的结果的准确度的置信带。
10.根据权利要求9所述的方法,其中,计算所述查询的所述最终结果还包括返回队列和与所述队列相关联的聚合数据两者作为查询结果。
11.根据权利要求9所述的方法,其中,计算所述查询的所述中间结果还包括基于采样数据的统计分布的分析来计算关于估计的结果的准确度的置信带。
12.一种用于快速数据分析的方法,包括:
·接收并解释查询,其中,解释所述查询包括使用字符串译码器将所述查询的字符串译为整数,其中,解释所述查询还包括识别第一组数据碎片,所述第一组数据碎片包含涉及所述查询的数据;
·收集来自所述第一组数据碎片的第一数据样本,其中收集所述第一数据样本包括收集来自所述第一组数据碎片中的每一个的数据,其中,收集来自所述第一组数据碎片中的每一个的数据包括仅收集被包含在所述第一组数据碎片中的每一个内的数据的子集;
·基于所述第一数据样本的分析来计算所述查询的第一中间结果;
·执行一定数量的中间搜索,每个中间搜索包括:
о基于所述第一中间结果和附加的中间结果中的至少一个识别数据碎片的附加组,
о收集来自所述数据碎片的附加组的附加数据样本,以及
о基于所述附加数据样本的分析来计算附加的中间结果;以及
·计算所述查询的最终结果。
13.如权利要求12所述的方法,其中中间搜索的所述数量为固定的数量。
14.根据权利要求12所述的方法,还包括基于采样数据的统计分布的分析来计算关于每个附加的中间结果的置信带。
15.根据权利要求14所述的方法,其中,执行一定数量的中间搜索包括执行中间搜索直至附加的中间结果的置信带通过置信阈值为止。
16.根据权利要求15所述的方法,其中,所述置信阈值响应于速度/准确度变量而被自动设置。
17.根据权利要求15所述的方法,其中,接收和解释所述查询还包括将类似SQL的查询字符串解析成查询树。
18.根据权利要求16所述的方法,其中,所述速度/准确度变量作为所述查询的一部分被传递。
19.根据权利要求18所述的方法,其中,所述查询包括至少一个时间范围和至少一个事件数据源。
20.根据权利要求14所述的方法,还包括通报用户所述置信带低于置信阈值。
CN201580011997.3A 2014-03-10 2015-03-10 用于快速数据分析的系统和方法 Active CN106462583B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461950827P 2014-03-10 2014-03-10
US61/950,827 2014-03-10
PCT/US2015/019765 WO2015138497A2 (en) 2014-03-10 2015-03-10 Systems and methods for rapid data analysis

Publications (2)

Publication Number Publication Date
CN106462583A true CN106462583A (zh) 2017-02-22
CN106462583B CN106462583B (zh) 2020-03-24

Family

ID=54017560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580011997.3A Active CN106462583B (zh) 2014-03-10 2015-03-10 用于快速数据分析的系统和方法

Country Status (5)

Country Link
US (5) US9323809B2 (zh)
EP (1) EP3117347B1 (zh)
JP (1) JP6307169B2 (zh)
CN (1) CN106462583B (zh)
WO (1) WO2015138497A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280153A (zh) * 2018-01-08 2018-07-13 天津科技大学 一种碎片化知识智能化聚合方法
CN109471862A (zh) * 2018-11-12 2019-03-15 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607045B2 (en) 2012-07-12 2017-03-28 Microsoft Technology Licensing, Llc Progressive query computation using streaming architectures
US8631325B1 (en) 2013-08-09 2014-01-14 Zoomdata, Inc. Real-time data visualization of streaming data
US9659079B2 (en) * 2014-05-30 2017-05-23 Wal-Mart Stores, Inc. Shard determination logic for scalable order and inventory management architecture with a sharded transactional database
US9251276B1 (en) 2015-02-27 2016-02-02 Zoomdata, Inc. Prioritization of retrieval and/or processing of data
US10331752B2 (en) * 2015-07-21 2019-06-25 Oath Inc. Methods and systems for determining query date ranges
US10496614B2 (en) * 2015-10-07 2019-12-03 Oracle International Corporation DDL processing in shared databases
US11442909B2 (en) * 2015-12-01 2022-09-13 Motorola Solutions, Inc. Data analytics system
US10740328B2 (en) 2016-06-24 2020-08-11 Microsoft Technology Licensing, Llc Aggregate-query database system and processing
CN107798021B (zh) * 2016-09-07 2021-04-30 北京京东尚科信息技术有限公司 数据关联处理方法、系统及电子设备
US11055273B1 (en) * 2016-11-04 2021-07-06 Amazon Technologies, Inc. Software container event monitoring systems
US9942312B1 (en) 2016-12-16 2018-04-10 Zoomdata, Inc. System and method for facilitating load reduction at a landing zone
US10552435B2 (en) 2017-03-08 2020-02-04 Microsoft Technology Licensing, Llc Fast approximate results and slow precise results
US10776361B2 (en) * 2017-04-07 2020-09-15 Salesforce.Com, Inc. Time series database search system
CN107665228B (zh) * 2017-05-10 2019-12-20 平安科技(深圳)有限公司 一种关联信息查询方法、终端及设备
JP6528807B2 (ja) * 2017-06-28 2019-06-12 オムロン株式会社 制御システム、制御装置、結合方法およびプログラム
US20190163790A1 (en) * 2017-11-29 2019-05-30 Intuit Inc. System and method for generating aggregated statistics over sets of user data while enforcing data governance policy
CN111143393A (zh) * 2018-11-03 2020-05-12 广州市明领信息科技有限公司 一种大数据的处理系统
US11354168B2 (en) 2019-01-18 2022-06-07 Salesforce.Com, Inc. Elastic data partitioning of a database
US11194773B2 (en) 2019-09-12 2021-12-07 Oracle International Corporation Integration of existing databases into a sharding environment
US11537572B2 (en) 2020-01-31 2022-12-27 Salesforce.Com, Inc. Multidimensional partition of data to calculate aggregation at scale
US11609886B2 (en) 2020-01-31 2023-03-21 Salesforce.Com, Inc. Mechanism for stream processing efficiency using probabilistic model to reduce data redundancy
US11886435B1 (en) * 2023-01-06 2024-01-30 Snark AI, Inc. Systems and methods for executing queries on tensor datasets

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050223019A1 (en) * 2004-03-31 2005-10-06 Microsoft Corporation Block-level sampling in statistics estimation
WO2013016620A2 (en) * 2011-07-27 2013-01-31 Google Inc. Proxy analytics
US9424351B2 (en) * 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
KR101903752B1 (ko) * 2011-08-31 2018-10-04 구글 엘엘씨 Tv 시청률 데이터를 수집하고 관리하기 위한 방법 및 시스템

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335345A (en) 1990-04-11 1994-08-02 Bell Communications Research, Inc. Dynamic query optimization using partial information
JP3865775B2 (ja) 1995-04-11 2007-01-10 キネテック インコーポレイテッド データ処理システムにおけるデータの識別
US5668987A (en) * 1995-08-31 1997-09-16 Sybase, Inc. Database system with subquery optimizer
JP3144470B2 (ja) 1996-07-08 2001-03-12 矢崎総業株式会社 衝撃検出装置、遮断弁制御装置、衝撃検出方法及び遮断弁制御方法
JPH10269248A (ja) * 1997-01-24 1998-10-09 Hitachi Ltd データベース処理システムにおけるデータの無作為抽出処理方法及びこれに基づくデータベース処理システム
US5893090A (en) 1997-01-31 1999-04-06 Informix Software, Inc. Method and apparatus for performing an aggregate query in a database system
US6804663B1 (en) * 1998-09-21 2004-10-12 Microsoft Corporation Methods for optimizing the installation of a software product onto a target computer system
US20030195872A1 (en) 1999-04-12 2003-10-16 Paul Senn Web-based information content analyzer and information dimension dictionary
US6681331B1 (en) 1999-05-11 2004-01-20 Cylant, Inc. Dynamic software system intrusion detection
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US7120624B2 (en) 2001-05-21 2006-10-10 Microsoft Corporation Optimization based method for estimating the results of aggregate queries
US6775681B1 (en) * 2002-02-26 2004-08-10 Oracle International Corporation Evaluation of grouping sets by reduction to group-by clause, with or without a rollup operator, using temporary tables
US7010521B2 (en) * 2002-05-13 2006-03-07 Netezza Corporation Optimized database appliance
US6920460B1 (en) * 2002-05-29 2005-07-19 Oracle International Corporation Systems and methods for managing partitioned indexes that are created and maintained by user-defined indexing schemes
US7213012B2 (en) * 2003-05-09 2007-05-01 Oracle International Corporation Optimizer dynamic sampling
US7043621B2 (en) 2003-05-16 2006-05-09 Hewlett-Packard Development Company, L.P. Sharding method and apparatus using directed graphs
US7142110B2 (en) 2003-09-05 2006-11-28 Sensitech, Inc. Automatic conditioning of data accumulated by sensors monitoring supply chain processes
KR101033179B1 (ko) * 2003-09-15 2011-05-11 아브 이니티오 테크놀로지 엘엘시 데이터 프로파일링
US7587394B2 (en) * 2003-09-23 2009-09-08 International Business Machines Corporation Methods and apparatus for query rewrite with auxiliary attributes in query processing operations
JP4484643B2 (ja) 2004-09-10 2010-06-16 独立行政法人科学技術振興機構 時系列データ異常判定用プログラム及び時系列データ異常判別方法
US7932906B2 (en) 2004-09-15 2011-04-26 Hewlett-Packard Development Company, L.P.. Constructing substantially equal-width pixel bar charts to enable visual data analysis
US8108579B2 (en) 2005-03-31 2012-01-31 Qualcomm Incorporated Mechanism and method for managing data storage
US7930752B2 (en) 2005-11-18 2011-04-19 Nexthink S.A. Method for the detection and visualization of anomalous behaviors in a computer network
US20070150949A1 (en) 2005-12-28 2007-06-28 At&T Corp. Anomaly detection methods for a computer network
US7650367B2 (en) 2006-01-13 2010-01-19 Tekelec Methods, systems, and computer program products for detecting and restoring missing or corrupted data in a distributed, scalable, redundant measurement platform database
US7593939B2 (en) 2006-04-07 2009-09-22 Google Inc. Generating specialized search results in response to patterned queries
US8239383B2 (en) * 2006-06-15 2012-08-07 International Business Machines Corporation System and method for managing execution of queries against database samples
US7930595B2 (en) 2006-06-22 2011-04-19 International Business Machines Corporation Method and apparatus for analyzing error conditions in a massively parallel computer system by identifying anomalous nodes within a communicator set
US9465823B2 (en) 2006-10-19 2016-10-11 Oracle International Corporation System and method for data de-duplication
US20100138919A1 (en) 2006-11-03 2010-06-03 Tao Peng System and process for detecting anomalous network traffic
US20080109423A1 (en) * 2006-11-08 2008-05-08 Eric Lawrence Barsness Apparatus and method for database partition elimination for sampling queries
EP2142994B1 (en) 2007-03-30 2014-07-09 CA, Inc. Statistical method and system for network anomaly detection
US9128877B1 (en) 2007-04-19 2015-09-08 Robert E. Cousins Systems, methods and computer program products including features of transforming data involving a secure format from which the data is recoverable
US20090070752A1 (en) 2007-09-06 2009-03-12 International Business Machines Corporation Method and system for optimization of an application
US20080215576A1 (en) 2008-03-05 2008-09-04 Quantum Intelligence, Inc. Fusion and visualization for multiple anomaly detection systems
EP2289030A4 (en) 2008-04-29 2011-08-10 Sugarcrm Inc COMMERCIAL SOFTWARE APPLICATION SYSTEM AND METHOD
US8484162B2 (en) 2008-06-24 2013-07-09 Commvault Systems, Inc. De-duplication systems and methods for application-specific data
US8140522B2 (en) * 2008-08-12 2012-03-20 International Business Machines Corporation Method, apparatus, and computer program product for adaptive query parallelism partitioning with look-ahead probing and feedback
US8903973B1 (en) 2008-11-10 2014-12-02 Tanium Inc. Parallel distributed network management
US8510538B1 (en) * 2009-04-13 2013-08-13 Google Inc. System and method for limiting the impact of stragglers in large-scale parallel data processing
US8108343B2 (en) 2009-04-23 2012-01-31 Microsoft Corporation De-duplication and completeness in multi-log based replication
CN102667761B (zh) * 2009-06-19 2015-05-27 布雷克公司 可扩展的集群数据库
US8918365B2 (en) 2009-06-19 2014-12-23 Blekko, Inc. Dedicating disks to reading or writing
US9866426B2 (en) 2009-11-17 2018-01-09 Hawk Network Defense, Inc. Methods and apparatus for analyzing system events
US9323758B1 (en) 2009-12-22 2016-04-26 Emc Corporation Efficient migration of replicated files from a file server having a file de-duplication facility
US8527496B2 (en) 2010-02-11 2013-09-03 Facebook, Inc. Real time content searching in social network
US8458131B2 (en) 2010-02-26 2013-06-04 Microsoft Corporation Opportunistic asynchronous de-duplication in block level backups
US20120016633A1 (en) 2010-07-16 2012-01-19 Andreas Wittenstein System and method for automatic detection of anomalous recurrent behavior
US9246932B2 (en) 2010-07-19 2016-01-26 Sitelock, Llc Selective website vulnerability and infection testing
JP5598279B2 (ja) * 2010-11-16 2014-10-01 日本電気株式会社 分散メモリデータベースシステム、フロントデータベースサーバ、データ処理方法およびプログラム
US8468132B1 (en) 2010-12-28 2013-06-18 Amazon Technologies, Inc. Data replication framework
US10198492B1 (en) 2010-12-28 2019-02-05 Amazon Technologies, Inc. Data replication framework
US9251097B1 (en) 2011-03-22 2016-02-02 Amazon Technologies, Inc. Redundant key management
US8983960B1 (en) 2011-03-28 2015-03-17 Google Inc. Opportunistic job processing
US9054864B2 (en) 2011-03-29 2015-06-09 Kaseya Limited Method and apparatus of securely processing data for file backup, de-duplication, and restoration
US8856169B2 (en) 2011-07-13 2014-10-07 Case Western Reserve University Multi-modality, multi-resource, information integration environment
US9305043B2 (en) 2011-09-12 2016-04-05 Hitachi, Ltd. Stream data anomaly detection method and device
US9129039B2 (en) 2011-10-18 2015-09-08 Ut-Battelle, Llc Scenario driven data modelling: a method for integrating diverse sources of data and data streams
US8356050B1 (en) 2011-11-21 2013-01-15 Yahoo! Inc. Method or system for spilling in query environments
US8756209B2 (en) 2012-01-04 2014-06-17 International Business Machines Corporation Computing resource allocation based on query response analysis in a networked computing environment
US9239851B1 (en) * 2012-07-12 2016-01-19 Cross Commerce Media, Inc. Advanced database systems and methods
JP2013196565A (ja) * 2012-03-22 2013-09-30 Toshiba Corp データベース処理方法、及びデータベース処理装置
GB2514947B (en) 2012-05-04 2015-06-17 Box Inc Repository redundancy implementation of a system which incrementally updates clients with events that occured via a cloud-enabled platform
US8825752B1 (en) 2012-05-18 2014-09-02 Netapp, Inc. Systems and methods for providing intelligent automated support capable of self rejuvenation with respect to storage systems
US9015812B2 (en) 2012-05-22 2015-04-21 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh Transparent control of access invoking real-time analysis of the query history
US9218573B1 (en) * 2012-05-22 2015-12-22 Google Inc. Training a model using parameter server shards
WO2014008415A1 (en) 2012-07-05 2014-01-09 Littelfuse, Inc. Crowbar device for voltage transient circuit protection
US9792320B2 (en) * 2012-07-06 2017-10-17 Box, Inc. System and method for performing shard migration to support functions of a cloud-based service
US9904788B2 (en) 2012-08-08 2018-02-27 Amazon Technologies, Inc. Redundant key management
US20140108421A1 (en) * 2012-10-04 2014-04-17 Codefutures Corporation Partitioning database data in a sharded database
US9104786B2 (en) * 2012-10-12 2015-08-11 International Business Machines Corporation Iterative refinement of cohorts using visual exploration and data analytics
US9146830B2 (en) 2012-10-26 2015-09-29 Jsmapreduce Corporation Hybrid local/remote infrastructure for data processing with lightweight setup, powerful debuggability, controllability, integration, and productivity features
US9633022B2 (en) 2012-12-28 2017-04-25 Commvault Systems, Inc. Backup and restoration for a deduplicated file system
US9633033B2 (en) 2013-01-11 2017-04-25 Commvault Systems, Inc. High availability distributed deduplicated storage system
US10148548B1 (en) 2013-01-29 2018-12-04 Axway, Inc. System and method for real-time analysis of incoming data
US20140214886A1 (en) 2013-01-29 2014-07-31 ParElastic Corporation Adaptive multi-client saas database
US8996559B2 (en) * 2013-03-17 2015-03-31 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
WO2014174599A1 (ja) 2013-04-24 2014-10-30 株式会社日立製作所 計算機、記録媒体及びデータ検索方法
US20140337491A1 (en) 2013-05-08 2014-11-13 Box, Inc. Repository redundancy implementation of a system which incrementally updates clients with events that occurred via a cloud-enabled platform
US9195826B1 (en) 2013-05-30 2015-11-24 Emc Corporation Graph-based method to detect malware command-and-control infrastructure
US9053167B1 (en) 2013-06-19 2015-06-09 Amazon Technologies, Inc. Storage device selection for database partition replicas
US9774401B1 (en) 2013-07-15 2017-09-26 Paul Borrill Entangled links, transactions and trees for distributed computing systems
US10394848B2 (en) 2013-07-29 2019-08-27 Amazon Technologies, Inc. Generating a multi-column index for relational databases by interleaving data bits for selectivity
US20150067860A1 (en) 2013-08-29 2015-03-05 Barracuda Networks, Inc. Virus Detector Controlled Backup Apparatus and File Restoration
US10171501B2 (en) 2013-09-20 2019-01-01 Open Text Sa Ulc System and method for remote wipe
US9280591B1 (en) 2013-09-20 2016-03-08 Amazon Technologies, Inc. Efficient replication of system transactions for read-only nodes of a distributed database
US10311154B2 (en) 2013-09-21 2019-06-04 Oracle International Corporation Combined row and columnar storage for in-memory databases for OLTP and analytics workloads
US9483509B2 (en) 2013-10-02 2016-11-01 Google Inc. Dynamic shuffle reconfiguration
US10331695B1 (en) 2013-11-25 2019-06-25 Amazon Technologies, Inc. Replication coordination service for data transfers between distributed databases
US9411862B1 (en) 2013-12-03 2016-08-09 Google Inc. Systems and methods for dynamic sharding of hierarchical data
US10235377B2 (en) 2013-12-23 2019-03-19 Sap Se Adaptive dictionary compression/decompression for column-store databases
US9697274B2 (en) 2013-12-27 2017-07-04 International Business Machines Corporation Stratified sampling using adaptive parallel data processing
US9633056B2 (en) 2014-03-17 2017-04-25 Commvault Systems, Inc. Maintaining a deduplication database
US10380072B2 (en) 2014-03-17 2019-08-13 Commvault Systems, Inc. Managing deletions from a deduplication database
US9667738B2 (en) 2014-03-24 2017-05-30 Tanium Inc. Local data caching for data transfers on a network of computational devices
US10025710B2 (en) 2014-04-30 2018-07-17 Walmart Apollo, Llc Pattern for integrating primary and secondary data stores in a sharded data domain
US9613122B2 (en) 2014-05-02 2017-04-04 Facebook, Inc. Providing eventual consistency for multi-shard transactions
US9672241B2 (en) 2014-05-28 2017-06-06 International Business Machines Corporation Representing an outlier value in a non-nullable column as null in metadata
US10230747B2 (en) 2014-07-15 2019-03-12 Cisco Technology, Inc. Explaining network anomalies using decision trees
US9973520B2 (en) 2014-07-15 2018-05-15 Cisco Technology, Inc. Explaining causes of network anomalies
US9753955B2 (en) 2014-09-16 2017-09-05 Commvault Systems, Inc. Fast deduplication data verification
EP2998881B1 (en) 2014-09-18 2018-07-25 Amplidata NV A computer implemented method for dynamic sharding
US9575673B2 (en) 2014-10-29 2017-02-21 Commvault Systems, Inc. Accessing a file system using tiered deduplication
US9288617B1 (en) 2014-10-30 2016-03-15 Deep Rock Ventures, Inc. Mobile media communications system
US9830342B2 (en) 2014-11-20 2017-11-28 International Business Machines Corporation Optimizing database deduplication
US20160171071A1 (en) 2014-12-11 2016-06-16 International Business Machines Corporation Dynamic creation and configuration of partitioned index through analytics based on existing data population
US10353900B2 (en) 2015-07-24 2019-07-16 Oracle International Corporation System and method for creating an intelligent synopsis of a database using re-partitioning based sampling
US11210279B2 (en) 2016-04-15 2021-12-28 Apple Inc. Distributed offline indexing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050223019A1 (en) * 2004-03-31 2005-10-06 Microsoft Corporation Block-level sampling in statistics estimation
US9424351B2 (en) * 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
WO2013016620A2 (en) * 2011-07-27 2013-01-31 Google Inc. Proxy analytics
KR101903752B1 (ko) * 2011-08-31 2018-10-04 구글 엘엘씨 Tv 시청률 데이터를 수집하고 관리하기 위한 방법 및 시스템

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280153A (zh) * 2018-01-08 2018-07-13 天津科技大学 一种碎片化知识智能化聚合方法
CN108280153B (zh) * 2018-01-08 2022-01-07 天津科技大学 一种碎片化知识智能化聚合方法
CN109471862A (zh) * 2018-11-12 2019-03-15 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989B (zh) * 2018-11-12 2021-08-31 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
US20170308570A1 (en) 2017-10-26
WO2015138497A2 (en) 2015-09-17
US11372851B2 (en) 2022-06-28
US9734202B2 (en) 2017-08-15
WO2015138497A3 (en) 2015-12-03
US20220284017A1 (en) 2022-09-08
JP6307169B2 (ja) 2018-04-04
US20160203179A1 (en) 2016-07-14
EP3117347A4 (en) 2017-11-29
EP3117347B1 (en) 2020-09-23
US20150254307A1 (en) 2015-09-10
US10713240B2 (en) 2020-07-14
EP3117347A2 (en) 2017-01-18
US20200311064A1 (en) 2020-10-01
US9323809B2 (en) 2016-04-26
JP2017512344A (ja) 2017-05-18
CN106462583B (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN106462583A (zh) 用于快速数据分析的系统和方法
CN106933893B (zh) 多维度数据的查询方法及装置
US9443004B2 (en) Social graph data analytics
US9092549B2 (en) Recommendation of search keywords based on indication of user intention
US8583568B2 (en) Systems and methods for detection of satisficing in surveys
US9262767B2 (en) Systems and methods for generating statistics from search engine query logs
US9317550B2 (en) Query expansion
US8285745B2 (en) User query mining for advertising matching
US8606771B2 (en) Efficient indexing of error tolerant set containment
CN106933906B (zh) 数据多维度的查询方法及装置
WO2011106897A1 (en) Systems and methods for conducting more reliable assessments with connectivity statistics
CN109359188B (zh) 一种组件编排方法和系统
CN111178005B (zh) 数据处理系统、方法及存储介质
CN112241420A (zh) 一种基于关联规则算法的政务服务事项推荐方法
CN115328883A (zh) 一种数据仓库建模方法和系统
CN109408643B (zh) 基金相似度计算方法、系统、计算机设备和存储介质
CN110134812A (zh) 一种人脸搜索方法及其装置
CN106874286B (zh) 一种筛选用户特征的方法及装置
WO2017050991A1 (en) Aggregating profile information
CN106933909B (zh) 多维度数据的查询方法及装置
CN106708880A (zh) 话题关联词的获取方法和装置
TWM580230U (zh) Financial Services Application Review System
CN111353288B (zh) 报表处理方法、系统、装置和计算机可读存储介质
CN113779161B (zh) 计算脚本的生成方法、装置、计算机设备以及存储介质
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant