CN110637292B

CN110637292B - 用于查询资源高速缓存的系统和方法

Info

Publication number: CN110637292B
Application number: CN201780090982.XA
Authority: CN
Inventors: O·伊戈纳耶夫; M·米哈伊洛夫
Original assignee: Oracle International Corp
Current assignee: NetSuite Inc
Priority date: 2017-05-19
Filing date: 2017-12-28
Publication date: 2023-10-10
Anticipated expiration: 2037-12-28
Also published as: WO2018212791A1; EP3625701A1; US20240004881A1; EP3625701B1; US20180336199A1; US11803547B2; JP2020522781A; JP6929388B2; CN117235101A; CN110637292A

Abstract

操作包括基于查询的执行时间来判定是否将该查询所访问的资源进行高速缓存。系统识别同一查询的执行集。系统为同一查询的执行集确定累积执行时间。如果累积执行时间超过阈值，则系统将用于执行该查询的资源进行高速缓存。

Description

用于查询资源高速缓存的系统和方法

技术领域

本公开涉及资源高速缓存。特别地，本公开涉及选择性地将由查询访问的资源进行高速缓存。

权益声明

本申请要求于2017年5月19日提交的编号为美国非临时申请15/600,518的权益和优先权，该申请通过引用并入本文。

背景技术

高速缓存可以指用于存储数据的硬件和/或软件。从高速缓存中检索数据通常比从硬盘或远离执行环境的任何存储系统中检索数据更快。最常见的是，高速缓存存储最近使用的数据。高速缓存可以存储被存储在另一个位置的数据的副本，和/或存储计算的结果。基于web的高速缓存也是常见的，其中服务器和客户端之间的web高速缓存存储数据。客户端可以比服务器中的数据更快地从web高速缓存访问数据。

查询从数据库中获取指定的数据。通常，数据存储在关系数据库中。关系数据库将数据存储在一个或多个表中。这些表由数据行组成，并组织成字段或列。例如，“FirstName”和“LastName”是数据表的字段，并且其中行的数量是存储到表的名字的数量。

结构化查询语言(SQL)是用于管理关系数据库中数据的语言。SQL查询基于指定的准则来检索数据。大多数SQL查询使用检索数据的语句SELECT(选择)。然后，SQL查询可以指定准则，诸如FROM(来自)-哪些表包含数据；JOIN(联接)-指定连接表的规则；WHERE(哪里)-限制由查询返回的行；GROUPBY(分组)–聚合重复的行；以及ORDERBY(排序)-指定数据排序的次序。例如，SQL查询“SELECT breed,age,name FROM Dogs WHERE age<3 ORDER BYbreed”将通过品种按字母顺序从“Dogs”表中返回3岁以下的狗的列表，从而检索每只狗的品种、年龄和名字。输出看起来像：“Bulldog 1 Max|Cocker Spaniel 2 Joey|GoldenRetriever 1.5 Belinda”。

越来越多地使用多租户云体系架构存储数据库。在多租户云体系架构中，使用共享资源存储来自不同租户的数据。共享资源可以是服务器、数据库和/或表的全部或部分的某种组合。多租户减少了存储数据所需的资源量，从而节省了成本。

本部分中描述的方法是可以追求的方法，但不一定是先前已经构思或追求的方法。因此，除非另有说明，否则不应认为本部分中描述的任何方法仅仅因为它们包含在本部分中就有资格作为现有技术。

附图说明

通过示例而非限制的方式在附图中示出了实施例。应当注意的是，在本公开中对“一”或“一个”实施例的引用不一定是指同一实施例，并且它们意味着至少一个。在附图中：

图1图示了根据一个或多个实施例的资源高速缓存系统；

图2图示了根据一个或多个实施例的用于通过查询进行选择性高速缓存的示例操作集；

图3图示了根据一个或多个实施例的用于通过资源进行选择性高速缓存的示例操作集；

图4图示了根据一个或多个实施例的用于通过JOIN进行选择性高速缓存的示例操作集；

图5图示了根据一个或多个实施例的系统的框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了许多具体细节以提供透彻理解。可以在没有这些具体细节的情况下实践一个或多个实施例。在一个实施例中描述的特征可以与在不同实施例中描述的特征组合。在一些示例中，参考框图形式描述了众所周知的结构和设备，以避免不必要地模糊本发明。

1.总体概述

2.资源高速缓存系统

3.基于查询的资源高速缓存

4.基于资源使用的资源高速缓存

5.基于操作的资源高速缓存

6.示例实施例-聚合查询

7.其它事项；扩展

8.硬件概述

1.总体概述

一个或多个实施例包括选择性地将由查询访问的资源进行高速缓存。可以响应于资源的原始副本被更新而连续地或周期性地更新高速缓存的资源。维护高速缓存中的最新资源允许通过访问高速缓存中的资源而不是从盘或其它主存储装置访问资源来执行查询。可以至少基于对应查询的执行时间来选择用于高速缓存的资源。在示例中，如果查询的执行的执行时间超过阈值，则将查询所访问的资源进行高速缓存，以供将来执行同一查询。

一个或多个实施例包括基于查询的执行的累积执行时间来高速缓存查询所访问的资源。高速缓存引擎可以在初始时间段期间确定用于查询的执行的累积执行时间。高速缓存引擎还可以基于查询的执行的累积执行时间来判定是否要将在查询的执行期间要被访问的资源进行高速缓存。在初始时间段之后，可以在另一个时间段内将资源进行高速缓存。

高速缓存引擎可以使用任何方法基于对应查询的累积执行时间来确定要将哪些资源进行高速缓存。在示例中，如果在初始时间段期间查询的累积执行时间超过阈值，则在后续的时间段内将查询所访问的资源进行高速缓存。在另一个示例中，基于累积执行时间对查询进行排名。将用于具有最长累积执行时间的n个查询的资源进行高速缓存。

一个或多个实施例包括至少基于查询的执行的子集的执行时间来将查询所访问的资源进行高速缓存。将在初始时间段期间查询的每次执行的执行时间与阈值进行比较。如果任何特定执行的执行时间超过阈值，则该特定执行被确定为在计算上昂贵的执行。如果查询的计算上昂贵的执行时间超过阈值，则在后续的时间段内将用于该查询的资源进行高速缓存。

本说明书中描述的和/或权利要求书中阐述的一个或多个实施例可以不包括在这个总体概述部分中。

2.资源高速缓存系统

图1图示了根据一个或多个实施例的资源高速缓存系统100。资源高速缓存系统100是用于选择和高速缓存为执行查询而访问的资源(在本文中可以被称为由查询访问的资源)的系统。资源高速缓存系统100包括查询接口102、高速缓存引擎104、高速缓存124、查询执行引擎122和数据储存库110。在一个或多个实施例中，资源高速缓存系统100可以包括比图1所示的部件更多或更少的部件。图1所示的部件可以在彼此的本地或彼此远离。图1所示的部件可以以软件和/或硬件来实现。每个部件可以分布在多个应用和/或机器上。多个部件可以组合到一个应用和/或机器中。相对于一个部件描述的操作可以替代地由另一个部件执行。

在一个或多个实施例中，查询接口102是包括接受定义查询的输入的功能的接口。查询接口102可以是用户接口(UI)，诸如图形用户接口(GUI)。查询接口可以呈现接受描述查询的查询简档的用户可修改字段。查询接口102可以包括接受和解析定义一个或多个查询的文件的功能。查询接口可以在查询的执行之后显示查询输出数据。

在实施例中，查询执行引擎122包括用于执行查询的硬件和/或软件部件。查询执行引擎122可以解析从查询接口接收的查询简档。查询执行引擎122可以将经解析的查询简档映射到SQL查询。查询执行引擎122可以将SQL查询发送到(一个或多个)适当的数据库以检索查询结果。查询执行引擎122可以对数据求和、对数据求平均，并全部或部分地组合表。

在实施例中，高速缓存124与存储数据的硬件和/或软件部件对应。存储在高速缓存124中的数据通常可以比存储在盘上、主存储器上或远离执行环境存储的数据被更快地访问。在示例中，高速缓存124存储先前已经从盘和/或主存储器中检索到的资源(在本文中称为“高速缓存的资源126”)，用于执行查询。将资源存储在高速缓存中可以允许在不从盘访问资源的情况下附加执行同一查询。具体而言，查询所需的资源是从高速缓存而不是从盘访问的。响应于存储在盘中的数据的原始副本被更新，可以连续或定期地更新高速缓存。高速缓存124中的每个数据集或资源可以用指示该数据是当前还是过时的标志进行维护。高速缓存的资源可以是例如数据表、数据字段和/或计算的结果。作为示例，高速缓存的资源126可以是经由对两个现有表的JOIN操作创建的新表。

在实施例中，数据储存库110是用于存储数据的任何类型的存储单元和/或设备(例如，文件系统、数据库、表的集合或任何其它存储机制)。另外，数据储存库110可以包括多个不同的存储单元和/或设备。多个不同的存储单元和/或设备可以是或可以不是相同的类型或位于相同的物理站点。此外，数据储存库110可以在与高速缓存引擎104、高速缓存124、查询接口102和查询执行引擎122相同的计算系统上实现或执行。可替代地或附加地，数据储存库110可以在与高速缓存引擎104、高速缓存124、查询接口102和查询执行引擎122分离的计算系统上实现或执行。数据储存库110可以经由直接连接或经由网络通信地耦合到高速缓存引擎104、高速缓存124、查询接口102和查询执行引擎122。

在实施例中，数据储存库110存储查询简档112。查询简档112包括关于查询的信息。查询简档包括但不限于查询属性114、查询执行时间116和查询资源118。可以基于查询性能来选择查询简档。查询简档112可以被存储用于具有高于某个个体阈值的个体执行时间的所选择的查询。

在实施例中，查询属性114可以包括在查询中执行或将要执行的一个或多个操作。例如，在查询“SELECTCustomer.CustomerName,Customers.CustomerIDFROMCustomers”中，操作SELECT(选择)是查询属性114。查询属性114的其它示例包括执行一系列操作的次序和一天中执行查询的时间。

在实施例中，在用于查询的查询简档内，查询资源118识别用于执行对应查询的资源120中的一个或多个。查询资源118可以包括在查询中指定的任何数据集。查询资源可以与字段对应。例如，在查询“SELECT Customers.CustomerName,Customers.CustomerlDFROM Customers”中，查询资源114包括字段CustomerName和CustomerlD。字段CustomerName和CustomerID是查询资源118的示例。查询资源118可以包括用于检索查询中所请求的数据的数据库中的表。例如，在上面的查询中，表Customers(客户)是查询资源118。如上所述，查询资源118可以被高速缓存在高速缓存124中，并且被称为高速缓存的资源126。

在实施例中，查询执行时间116是与查询的特定执行对应的时间。查询执行时间116可以是在发送执行特定查询的请求与从特定查询的执行接收结果之间的时间段。查询执行时间的示例包括1毫秒、10秒、16分钟和6小时。对于在不同时间执行的不同执行，同一查询的执行时间可以有所不同。例如，由于其它并发访问操作引起的输入/输出时间延迟可能使得查询的一次执行的执行时间大大超过其期间没有其它并发访问操作的同一查询的先前执行的执行时间。可以在支持多个用户的多租户云体系架构上执行查询。当系统资源接收到来自多个用户的请求时，在高峰时段期间系统可能过载。在高峰时段期间执行查询所花的时间可以比系统不过载的非高峰时段要长。查询执行时间还可以取决于诸如查询中的操作以及用于为查询检索数据的数据表数量之类的因素。

在一个或多个实施例中，高速缓存引擎104包括用于将资源进行高速缓存的硬件和/或软件部件。高速缓存引擎包括将数据的副本和/或计算的结果存储到高速缓存124的功能。高速缓存引擎104可以基于对应查询的执行时间选择性地将资源进行高速缓存。高速缓存引擎104可以根据标准的高速缓存技术(诸如通过将最近使用的数据进行高速缓存)将资源进行高速缓存。

在实施例中，查询分析器106包括用于分析查询的硬件和/或软件部件。查询分析器106可以分析查询执行时间、查询属性和/或查询资源，以识别关于特定查询的信息。

查询分析器106可以包括解析查询并隔离查询中所包括的数据字段、查询中所包括的SQL操作和/或存储系统中用于检索所请求的数据的数据表的功能。查询分析器106可以包括分析查询集以判定一次或多次查询执行是否构成相同查询的功能。例如，在时间1，系统从用户1接收查询Q_a＝(f₁，f₂，f₃)，其中f_i是要在查询中检索的数据字段。在时间2，系统从用户2接收查询Q_b＝(f₂，f₁，f₃)。虽然元素在不同的时间处于不同的次序，但是Q_a和Q_b就检索的数据而言是完全相同的。通过分析查询属性114和查询资源118，资源高速缓存系统100可以识别出同一查询的多次执行。

查询分析器106可以包括计算查询的执行时间的功能。查询分析器可以计算查询的单次执行的执行时间。查询分析器可以计算在特定时间段期间同一查询的多次执行的累积执行时间。查询分析器106可以通过聚合查询的每次个体执行的执行时间来计算同一查询的多次执行的累积执行时间。

在实施例中，资源分析器108包括用于分析资源的硬件和/或软件部件。资源分析器108可以分析查询执行时间、查询属性和/或查询资源，以识别关于特定资源的信息。

资源分析器108可以包括解析查询并隔离查询中包括的数据字段、查询中包括的SQL操作和/或存储系统中用于检索所请求的数据的数据表的功能。查询分析器106可以包括分析查询以判定一次或多次查询执行是否使用同一资源的功能。例如，在时间1，系统从用户1接收查询Q₁，“SELECTDog.Breed,Dog.Age FROM Dogs”。在时间2，系统从用户2接收查询Q₂，“SELECT Dog.Name,Dog.Breed,DogAquisitionDate FROM Dogs”。资源分析器可以确定Q₁和Q₂两者都查询表Dogs(狗)。

资源分析器108可以包括计算一段时间期间需要访问特定资源的时间量的功能。资源分析器108可以确定在一段时间期间使用特定资源的每个查询的执行时间。资源分析器108可以通过聚合每个个体查询的执行时间来计算使用特定资源的多个查询的累积执行时间。

3.基于查询的资源高速缓存

图2图示了根据一个或多个实施例的用于基于相同查询来选择性地将一个或多个资源进行高速缓存的示例操作集。图2所示的一个或多个操作可以被修改、重新布置或完全省略。因而，图2所示的特定操作顺序不应当被解释为限制一个或多个实施例的范围。

在实施例中，查询分析器识别执行时间高于个体阈值的查询(操作202)。查询分析器可以建立用于与个体查询的执行时间进行比较的个体阈值K₁。K₁的值可以基于例如查询的复杂度、用户偏好和可用的系统资源来建立。查询分析器将查询的执行时间与K₁进行比较，以判定查询的执行时间是否超过K₁。

对于执行时间超过个体阈值的查询，资源高速缓存系统可以存储查询日志。对于执行时间高于个体阈值的查询的子集，诸如包括SELECT查询操作的查询，资源高速缓存系统可以存储查询日志。

操作202可以用于识别要在操作204中分析的候选查询。可替代地，可以跳过操作202，并且可以在操作204中分析所有查询。

在实施例中，资源高速缓存系统在初始时间段期间识别同一查询的一次或多次执行(操作204)。查询分析器可以比较多个查询的查询属性，以判定查询是否相同。例如，查询执行引擎在一个月的时间段期间使用SELECT查询操作执行了以下查询Q₁-Q₆：

Q₁＝(f₁，f₂，f₃，f₄，f₅)

Q₂＝(f₁，f₂，f₃，f₄，f₅)

Q₃＝(f₃，f₉，f₂，f₅，f₄)

Q₄＝(f₁，f₄，f₃，f₅，f₂)

Q₅＝(f₅，f₆，f₇，f₈，f₉)

Q₆＝(f₆，f₂，f₃，f₇，f₅)

字段f₁-f₉是在查询中被选择的数据字段。查询分析器比较数据字段值以识别相同的查询。相同的查询选择相同的数据字段，虽然不一定以相同的次序。资源高速缓存系统将Q₁＝Q₂＝Q₄识别为该月期间发生的同一查询的三次执行。

在实施例中，经由日志确定执行特定存储的查询。具体而言，高速缓存系统维护日志以跟踪存储的查询的所有执行。每个查询与简档相关联。简档包括查询的每次执行的特点。简档可以存储查询的每次执行的运行时间。

在实施例中，高速缓存引擎聚合查询的多次执行的执行时间，以计算在初始时间段期间查询的累积执行时间(操作206)。例如，查询一天已执行6次。系统已经存储6个对应的执行时间：T₁＝2分钟，T₂＝1小时，T₃＝20分钟，T₄＝5分钟，T₅＝1小时22分钟，以及T₆＝30秒。系统计算一段时间期间查询的累积执行时间：

T_tot＝T₁+T₂+T₃+T₄+T₅+T₆

＝2分钟+1小时+20分钟+5分钟+1小时22分钟+30秒

＝2小时49分钟30秒

一天时段期间查询的累积执行时间为T_tot＝2小时49分钟30秒。

查询分析器可以使用一段时间期间发生的同一查询的执行来计算累积执行时间，如上所示。可替代地，查询分析器可以使用在一段时间期间发生的同一查询的执行子集来计算累积执行时间。例如，查询分析器过滤查询执行以包括执行时间超过阈值查询执行时间K₁的查询。当K₁＝15分钟时，系统将存储查询时间超过15分钟的执行实例-T₂、T₃和T₅。然后，系统将使用经过滤的查询来计算累积查询时间：

T_K1＝T₂+T₃+T₅

＝1小时+20分钟+1小时22分钟

＝2小时44分钟

在一天的时间段期间感兴趣的查询的累积执行时间为T_K1＝2小时44分钟。

在实施例中，高速缓存引擎判定累积执行时间是否超过累积阈值(操作208)。例如，累积阈值是K₂＝2小时。对于上面的T_K1，累积执行时间为2小时44分钟。在这种情况下，T_K1>K₂，并且累积执行时间超过累积阈值。

如果累积执行时间超过阈值，则在初始时间段之后的另一个时间段内高速缓存引擎将查询所需的(一个或多个)资源进行高速缓存(操作210)。例如，高速缓存引擎可以将包含查询中所选择的字段的每个表进行高速缓存。高速缓存引擎可以将查询的输出进行高速缓存。例如，查询从表中选择四个字段。高速缓存引擎可以将数据高速缓存在四个选择的字段中。高速缓存引擎可以将(一个或多个)资源保留特定的时间量，或者响应于检测到特定事件的发生而覆写(overwrite)(一个或多个)资源。

如果累积执行时间不超过阈值，则高速缓存引擎可以避免将查询所需的(一个或多个)资源进行高速缓存(操作212)。通过避免将快速运行的查询所需的资源进行高速缓存，资源高速缓存系统节省(conserve)高速缓存中的存储器并且避免不必要的操作。

在实施例中，可以从操作序列中省略操作212。例如，虽然上述资源高速缓存系统未选择特定资源以进行高速缓存，但是该系统仍然可以基于另一种高速缓存方法将该资源进行高速缓存。系统可以按照标准高速缓存技术在使用后立即将资源进行高速缓存，该标准高速缓存技术包括最近30秒内使用的资源的高速缓存。

作为示例，资源高速缓存系统识别在一年时段期间执行的具有SELECT操作且执行时间高于1分钟的查询。在该年期间执行的10000个查询中，有10个包括SELECT操作并且花费1分钟以上的时间来执行。用于这10个查询的查询日志在表(表1)中被捕获。

对于表1中的每个查询，资源高速缓存系统捕获使用SELECT查询操作而选择的数据字段。这些字段是f_i，其中i＝1，...，n并且n是在表1的查询中至少出现一次的数据字段的总数。在这里，表1存储以下10个查询的查询日志：

Q₁＝(f₁，f₂，f₃，f₄，f₅)

Q₂＝(f₁₁，f₁₂，f₁₅)

Q₃＝(f₃，f₉，f₁₂，f₅，f₁₀)

Q₄＝(f₁，f₄，f₃，f₅，f₂)

Q₅＝(f₅，f₆，f₇，f₈，f₉)

Q₆＝(f₁₁，f₁₂，f₁₅)

Q₇＝(f₁，f₂，f₃，f₄，f₅)

Q₈＝(f₁₃，f₉，₂₀，f₅，f₄，f₁₈，f₁₁，f₈，f₇)

Q₉＝(f₁，f₄，f₃，f₅，f₂)

Q₁₀＝(f₁₅，f₁₆，f₁₇，f₁₈，f₁₉，f₁，f₂，f₃，f₄)

资源高速缓存系统识别与表1中的至少一个查询对应的独特(unique)组合Q_k＝(f_k1，...，f_k1)。资源高速缓存系统识别包含数据字段的相同组合Q_k＝(f_k1，...，f_k1)的查询的集合S_k。表1包含6个独特组合：

S₁＝{Q₁，Q₄，Q₇，Q₉}

S₂＝{Q₂，Q₆}

S₃＝{Q₃}

S₄＝{Q₅}

S₅＝{Q₈}

S₆＝{Q₁₀}

集合1包括Q₁、Q₄、Q₇和Q₉，因为这些查询选择了相同的五个数据字段，虽然不一定以相同的次序。集合2包括查询Q₂和Q₆，因为这些查询选择了相同的三个数据字段。集合S₃-S₆均包含一个独特的查询-在感兴趣的一年时段期间，没有重复的Q₃、Q₅、Q₈或Q₁₀。

对于每个集合S_k，资源高速缓存系统计算来自集合S_k的查询的累积执行时间。对于S₁，执行时间为：

Q₁：t₁＝2分钟

Q₄：t₄＝1小时

Q₇：t₇＝30分钟

Q₉：t₉＝3分钟

资源高速缓存系统计算集合S₁的累积执行时间：

T₁＝t₁+t₄+t₇+t₉

＝2分钟+1小时+30分钟+3分钟

＝1小时35分钟

类似地，资源高速缓存系统计算集合S₂-S₆的累积执行时间。

接下来，资源高速缓存系统判定特定查询集的累积执行时间是否超过累积阈值K₂＝1小时。对于S₁，累积执行时间为1小时35分钟，这超过了1小时的累积阈值。

在针对S₁确定累积执行时间超过阈值后，高速缓存引擎将查询所需的资源进行高速缓存。高速缓存引擎在高速缓存中创建高速缓存表A₁，从而将执行SQL命令“SELECTf₁，f₂，f₃，f₄，f₅.FROM Z₁”所需的资源进行高速缓存。对于所有的独特组合Q_k及其对应的集合S_k，资源高速缓存系统基于集合中的总执行时间来重复选择性将资源进行高速缓存的处理。

4.基于资源使用的资源高速缓存

图3图示了根据一个或多个实施例的用于基于资源的使用来选择性地将资源进行高速缓存的示例操作集。图2所示的一个或多个操作可以被修改、重新布置或完全省略。因而，图2所示的特定操作顺序不应当被解释为限制一个或多个实施例的范围。

在实施例中，资源分析器识别在初始时间段期间对同一资源的查询的执行(操作302)。资源分析器可以在初始时间段内监视由查询执行引擎执行的查询。资源分析器可以使用拉取(pull)方法从查询执行引擎中拉取数据，从而识别查询的执行。查询执行引擎可以使用推送(push)方法将数据从查询执行引擎推送到资源分析器。资源分析器可以将在初始时间段期间访问的每个资源映射到在初始时间段期间执行的一个或多个查询。

在实施例中，资源分析器聚合在该时间段期间使用每个特定资源的查询的执行时间，以计算在该时间段期间每个特定资源的累积执行时间(操作304)。例如，在特定的一天，执行了100个查询。这些查询中的五个查询请求来自特定表的信息。系统已经存储了与这五个查询对应的五个执行时间：t₁＝2分钟，t₂＝1小时，t₃＝20分钟，t₄＝5分钟和t₅＝1小时22分钟。系统计算在初始时间段期间使用该资源的查询的累积执行时间：

T_tot＝t₁+t₂+t₃+t₄+t₅

＝2分钟+1小时+20分钟+5分钟+1小时22分钟

＝2小时49分钟

在一天的时段期间使用该资源的查询的累积执行时间为T_tot＝2小时49分钟。

如上所述，资源分析器可以计算在初始时间段期间对同一资源的查询的所有执行的累积执行时间。可替代地，资源分析器可以使用一段时间期间对同一资源的查询的执行的子集来计算累积执行时间。例如，资源分析器过滤查询执行以包括运行时间超过个体阈值K₁的执行。

在实施例中，资源分析器判定累积执行时间是否超过累积阈值(操作306)。如果累积执行时间超过阈值，则高速缓存引擎将资源进行高速缓存(操作308)。如果累积执行时间不超过阈值，则高速缓存引擎可以避免将资源进行高速缓存(操作310)。操作306、308和310分别类似于上述操作208、210和212。

作为示例，资源高速缓存系统在二十四小时的时段内监视由查询执行引擎执行的查询。资源高速缓存系统创建表(表2)，该表在其中存储访问表“Ingredients(成分)”的查询的记录。资源高速缓存系统确定六个查询在感兴趣的二十四小时时段内访问了表“Ingredients”。资源高速缓存系统将六个查询的记录以及六个查询中每个查询的相应执行时间存储到表2：Q₁，t₁＝10min；Q₁₂，t₁₂＝1分钟，Q₃₀，t₃₀＝4分钟；Q₁₆，t₁₆＝8分钟。Q₂₇，t₂₇＝80分钟；Q₅，t₅＝5分钟。

接下来，资源高速缓存系统聚合表2中在二十四小时时段期间使用资源“Ingredients”的六个查询的执行时间。通过将六个执行时间相加，系统计算出以下时间段期间针对“Ingredients”的累积执行时间：t₁+t₁₂+t₃₀+t₁₆+t₂₇+t₅＝10分钟+1分钟+4分钟+8分钟+80分钟+5分钟＝108分钟。

资源高速缓存系统将累积执行时间与60分钟的累积阈值进行比较。因为108分钟的累积执行时间超过60分钟的累积阈值，因此资源高速缓存系统将资源进行高速缓存。高速缓存引擎将表Ingredients高速缓存到高速缓存中。

5.基于操作的资源高速缓存

图4图示了根据一个或多个实施例的用于选择性地将操作的结果进行高速缓存的示例操作集。特别地，图4图示了其中JOIN操作的结果被高速缓存的示例。但是，其它实施例可以同样适用于将另一个操作的结果进行高速缓存。图4所示的一个或多个操作可以被修改、重新布置或完全省略。因而，图4所示的特定操作顺序不应当被解释为限制一个或多个实施例的范围。

在实施例中，高速缓存引擎识别在初始时间段期间需要特定资源集的JOIN的查询的执行(操作402)。高速缓存引擎可以比较在已执行的JOIN操作中使用的数据字段，以识别相同特定数据集的JOIN的查询的所有执行。

在实施例中，资源高速缓存系统聚合在操作402中识别出的执行的执行时间，以计算需要相同特定资源集的JOIN的查询的累积执行时间(操作404)。资源高速缓存系统可以聚合在初始时间段期间执行的查询的执行时间t_i。可替代地，资源高速缓存系统可以在一段时间期间聚合对资源集的JOIN的查询的子集的执行时间t_i。例如，资源高速缓存系统可以聚合超过个体阈值K₁的执行时间t_i。

在实施例中，高速缓存引擎判定累积执行时间是否超过累积阈值(操作406)。累积阈值可以例如是K₂＝30分钟。资源高速缓存系统将计算出的累积执行时间与累积阈值K₂进行比较。

如果累积执行时间超过阈值，则高速缓存引擎将资源集的JOIN进行高速缓存，或者将每个资源集进行高速缓存(操作408)。高速缓存引擎可以创建高速缓存表，并且将两个表的JOIN进行高速缓存。例如，资源高速缓存系统可以创建高速缓存表，并且将SQL逻辑“SELECT f₁，f₂，f₃，FROM Z₁，INNER JOIN Z₂ ON g₁＝g₂”进行高速缓存，从而将该SQL查询的结果进行高速缓存。可替代地，资源高速缓存系统可以将查询中的JOIN操作中使用的资源进行高速缓存。例如，系统将表Z₁和Z₂进行高速缓存。

如果累积执行时间不超过阈值，则高速缓存引擎可以避免将资源集的JOIN进行高速缓存，并且避免将每个特定的资源集进行高速缓存(操作410)。通过避免将资源进行高速缓存，资源高速缓存系统可以节省高速缓存中的存储器并且避免不必要的操作。

在实施例中，从操作序列中省略操作410。例如，虽然资源高速缓存系统未选择资源以进行高速缓存，但是系统仍然可以将资源进行高速缓存。系统可以根据标准高速缓存机制来将资源进行高速缓存，诸如将在最近30秒内使用的资源进行高速缓存。

作为示例，资源高速缓存系统识别在一周时段期间执行的、执行时间高于5分钟的需要SELECT查询操作的查询的执行。在这一周期间执行的1000个查询当中，有10个需要SELECT查询操作并且花费了5分钟以上的时间来执行。这10个查询的查询日志在表(表3)中被捕获。

对于表3中的每个查询，资源高速缓存系统捕获使用SELECT查询操作来选择的数据字段。这些字段是f_i，其中i＝1，...，n并且n是在表3的查询中至少出现一次的数据字段的总数。对于表3中的每个查询，资源高速缓存系统还捕获在JOIN操作中使用的两个数据字段：g_k1和g_k2。表3中的每个查询被表示为记录Q_k＝(f_k1，...，f_k1，g_k1，g_k2)。资源高速缓存系统还存储每个查询的执行时间t_k。

查询执行引擎执行查询“SELECT Customers.CustomerName，Orders.OrderlDfrom Customers INNER JOIN Orders ON Customers.CustomerlD＝Orders.CustomerIDORDER BY Customers.CustomerName”。资源高速缓存系统将上述查询表示为组合(f_k1，f_k2，g_k1，g_k2)，其中f_k1＝Customers.CustomerName，f_k2＝Orders.OrderlD，g_k1＝Customers.CustomerlD并且g_k2＝Orders.CustomerID。

资源高速缓存系统识别出表3中的查询Q₁、Q₁₀、Q₁₇和Q₂₆包含相同的独特组合(f_k1，f_k2，g_k1，g_k2)。资源高速缓存系统从表3中识别出包含相同独特组合的查询集：集合S₁＝{Q₁，Q₁₀，Q₁₇，Q₂₆}。资源高速缓存系统识别集合S₁中的每个查询的对应执行时间：t₁＝10分钟，t₁₀＝15分钟，t₁₇＝20分钟，以及t₂₆＝10分钟。

资源高速缓存系统聚合集合S₁中的查询的执行时间，以计算累积执行时间：T₁＝t₁+t₁₀+t₁₇+t₂₆＝10分钟+15分钟+20分钟+10分钟＝55分钟。

接下来，资源高速缓存系统判定计算出的累积执行时间是否超过累积阈值K₂＝30分钟。对于S₁，累积执行时间为55分钟，超过了累积阈值K₂＝30分钟。

在针对S₁确定累积执行时间超过阈值后，高速缓存引擎将资源集的联接(join)进行高速缓存。高速缓存引擎在高速缓存中创建高速缓存表C₁，从而将SQL逻辑“SELECTCustomers.CustomerName，Orders.OrderlD from Customers INNER JOIN Orders ONCustomers.CustomerlD＝Orders.CustomerlDORDER BY Customers.CustomerName”进行高速缓存。对于将来包含这个逻辑的查询，资源高速缓存系统现在可以使用来自高速缓存表C₁中的结果来完成上述SQL逻辑步骤。

6.示例实施例-聚合查询

在实施例中，资源高速缓存系统存储查询执行时间超过个体阈值K₁＝1分钟的查询的查询日志。用于存储查询日志的另一个准则是该查询需要适用于作为GROUP BY操作的结果接收的数据的聚合操作。SQL聚合操作的示例包括AVG、MAX和MIN。系统可以将执行时间超过1分钟的聚合操作的查询日志存储到表(表4)。

对于表4中的查询，系统捕获使用SELECT查询操作而选择的数据字段(f_i)以及由GROUPBY查询操作使用的数据字段(g_j)。索引被定义为：i＝1，...，n，其中n是在表4的查询中至少出现一次的数据字段的总数，并且j＝1，...，m，其中m是在表4的查询中的GROUPBY操作中至少出现一次的数据字段的总数。例如，表4包括表示查询1的记录Q₁＝(f₁，f₂，f₃，g₁，g₂)。记录Q₁意味着在查询1中应用了SQL逻辑“SELECT f₁，f₂，f₃ GROUP BY g₁，g₂”。对于表4中的每个查询，系统表示记录Q_k＝(f_k1，...f_k1，g_k1，...g_km)连同t_k，t_k是查询Q_k的执行时间。定义了另一个阈值K₂。K₂是30分钟的累积查询阈值。

查询执行引擎利用SQL逻辑“SELECT f₁，f₂，f₃，GROUP BY f₂，f₃.”执行查询Q₁＝(f₁，f₂，f₃，g₁＝f₂，g₂＝f₃)。资源高速缓存系统从表4中识别出查询Q₁、Q₁₂、Q₁₅和Q₂₃包含独特组合(f₁，f₂，f₃，g₁＝f₂，g₂＝f₃)。资源高速缓存系统识别出查询集S₁＝{Q₁，Q₁₂，Q₁₅，Q₂₃}。S₁中的查询的执行时间为：t₁＝20分钟，t₁₂＝10分钟，t₁₅＝25分钟以及t₂₃＝15分钟。

资源高速缓存系统计算S₁中的查询的累积执行时间：T₁＝t₁+t₁₂+t₁₅+t₂₃＝20分钟+10分钟+25分钟+15分钟＝70分钟。由于累积执行时间超过30分钟，因此资源高速缓存系统确定T₁＞K₂。因此，资源高速缓存系统创建高速缓存表D₁，从而捕获按照SQL逻辑“SELECTf₁，f₂，f₃，GROUP BY f₂，f₃”的数据。系统使用来自高速缓存表D₁中的结果在将来的查询中完成SQL逻辑步骤“SELECT f₁，f₂，f₃，GROUP BY f₂，f₃”。例如，f1＝“revenue(收入)”，f₂＝g₁＝“region(区域)”，f₃＝g₂＝“vertical(垂直)”。高速缓存引擎将查询“SELECT revenue，region，vertical GROUP BY region vertical”的结果进行高速缓存。下次系统执行需要上述SQL逻辑的查询时，查询执行引擎将使用来自高速缓存的表D₁中的结果以执行所需的SQL逻辑并且快速地递送结果。

5.其它事项；扩展

实施例针对具有一个或多个设备的系统，该一个或多个设备包括硬件处理器并且被配置为执行本文描述的和/或下面权利要求中任何一项所述的任何操作。

在实施例中，非瞬态计算机可读存储介质包括指令，该指令当由一个或多个硬件处理器执行时，使得执行本文描述的和/或权利要求中任何一项所述的任何操作。

根据一个或多个实施例，可以使用本文描述的特征和功能的任何组合。在前述说明书中，已经参考许多具体细节描述了实施例，这些具体细节可能因实施方案而不同。因此，应当在说明性而不是限制性的意义上看待说明书和附图。本发明范围的唯一且排他的指示以及申请人意在要作为本发明范围的是以由本申请产生的一组权利要求的具体形式的所产生权利要求的字面和等同范围，包括任何后续的校正。

6.硬件概述

根据一个实施例，本文所描述的技术由一个或多个专用计算设备来实现。专用计算设备可以是硬连线的以执行技术，或者可以包括诸如被永久性地编程以执行技术的一个或多个专用集成电路(ASIC)、现场可编程门阵列(FPGA)或网络处理单元(NPU)的数字电子设备，或者可以包括被编程为根据固件、存储器、其它存储装置或组合中的程序指令执行技术的一个或多个通用硬件处理器。这些专用计算设备还可以将自定义的硬接线逻辑、ASIC、FPGA或NPU与自定义的编程组合来实现技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、联网设备或结合硬连线和/或程序逻辑来实现技术的任何其它设备。

例如，图5是图示可以在其上实现本发明的实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其它通信机制，以及与总线502耦合用于处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。计算机系统500还包括耦合到总线502用于存储要由处理器504执行的指令和信息的主存储器506，诸如随机存取存储器(RAM)或其它动态存储设备。主存储器506也可以用于在要由处理器504执行的指令执行期间存储临时变量或其它中间信息。这些指令当被存储在处理器504可访问的非暂态存储介质中时，使得计算机系统500成为被定制以执行指令中所指定的操作的专用机器。

计算机系统500还包括耦合到总线502用于存储用于处理器504的指令和静态信息的只读存储器(ROM)508或其它静态存储设备。提供了诸如磁盘或光盘的存储设备510，并且存储设备510耦合到总线502，用于存储信息和指令。

计算机系统500可以经由总线502耦合到显示器512，诸如阴极射线管(CRT)，用于向计算机用户显示信息。输入设备514(其包括字母数字和其它键)耦合到总线502，用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是光标控件516，诸如鼠标、轨迹球、或光标方向键，用于向处理器504传送方向信息和命令选择并且用于控制显示器512上的光标移动。这种输入设备通常具有在两个轴(第一轴(例如，x)和第二轴(例如，y))中的两个自由度，以允许设备指定平面中的位置。

计算机系统500可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术，这些定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑与计算机系统结合使计算机系统500成为或将计算机系统500编程为专用机器。根据一个实施例，本文的技术由计算机系统500响应于处理器504执行主存储器506中包含的一条或多条指令的一个或多个序列而执行。这些指令可以从另一个存储介质(诸如存储设备510)读取到主存储器506中。包含在主存储器506中的指令序列的执行使处理器504执行本文描述的处理步骤。在替代实施例中，可以使用硬连线电路系统代替软件指令或与软件指令组合使用。

如本文所使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非瞬态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，诸如存储设备510。易失性介质包括动态存储器，诸如主存储器506。存储介质的常见形式包括例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其它磁性数据存储介质、CD-ROM、任何其它光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其它存储器芯片或盒带、内容可寻址存储器(CAM)和三元内容可寻址存储器(TCAM)。

存储介质与传输介质不同但可以与传输介质结合使用。传输介质参与在存储介质之间传输信息。例如，传输介质包括同轴线缆、铜线和光纤，包括包含总线502的引线(wire)。传输介质还可以采取声波或光波的形式，诸如在无线电波和红外线数据通信期间生成的那些波。

各种形式的介质可以涉及将一条或多条指令的一个或多个序列携带到处理器504以供执行。例如，指令最初可以在远程计算机的磁盘或固态驱动器上携带。远程计算机可以将指令加载到其动态存储器中，并且使用调制解调器经电话线发送指令。计算机系统500本地的调制解调器可以接收电话线上的数据，并且使用红外线发射器将数据转换为红外线信号。红外线探测器可以接收在红外线信号中携带的数据，并且适当的电路系统可以将数据放在总线502上。总线502将数据携带到主存储器506，处理器504从该主存储器506检索并执行指令。由主存储器506接收到的指令可以可选地在被处理器504执行之前或执行之后存储在存储设备510上。

计算机系统500还包括耦合到总线502的通信接口518。通信接口518提供耦合到网络链路520的双向数据通信，其中网络链路520连接到本地网络522。例如，通信接口518可以是综合业务数字网(ISDN)卡、线缆调制解调器、卫星调制解调器、或向对应类型的电话线提供数据通信连接的调制解调器。作为另一个示例，通信接口518可以是提供到兼容的局域网(LAN)的数据通信连接的LAN卡。也可以实现无线链路。在任何这种实现中，通信接口518都发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

网络链路520通常通过一个或多个网络向其它数据设备提供数据通信。例如，网络链路520可以通过本地网络522提供到主计算机524或到由互联网服务提供商(ISP)526操作的数据设备的连接。ISP 526进而通过现在通常称为“互联网”528的世界范围的分组数据通信网络提供数据通信服务。本地网络522和互联网528两者都使用携带数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及在网络链路520上并且通过通信接口518的信号是传输介质的示例形式，其中该信号将数字数据携带到计算机系统500或者携带来自计算机系统500的数字数据。

计算机系统500可以通过(一个或多个)网络、网络链路520和通信接口518发送消息和接收数据，包括程序代码。在互联网示例中，服务器530可以通过互联网528、ISP 526、本地网络522和通信接口518传送针对应用程序的请求代码。

接收到的代码可以在其被接收时由处理器504执行，和/或存储在存储设备510或其它非易失性存储器中以供以后执行。

在前述说明书中，已经参考许多具体细节描述了本发明的实施例，这些具体细节可能因实施方案而不同。因此，应当在说明性而不是限制性的意义上看待说明书和附图。本发明范围的唯一且排他的指示以及申请人意在要作为本发明范围的是以由本申请产生的一组权利要求的具体形式的所产生权利要求的字面和等同范围，包括任何后续的校正。

Claims

1.一种包括指令的非暂态计算机可读介质，所述指令在由一个或多个硬件处理器执行时，使得执行包括以下的操作：

识别在第一时间段期间同一特定查询的多次执行；

通过聚合所述多次执行的每次执行的执行时间，计算在第一时间段期间所述特定查询的所述多次执行的累积执行时间；

确定在第一时间段期间所述特定查询的累积执行时间超过第一阈值；

响应于所述确定操作：在第二时间段内将用于执行所述特定查询的资源进行高速缓存。

2.如权利要求1所述的介质，其中所述资源是表。

3.如权利要求1所述的介质，其中所述操作还包括以下中的一个或多个：

响应于所述确定操作，保留高速缓存的资源；或者

确定所述特定查询的执行的至少子集的执行时间超过第二阈值；

响应于确定所述特定查询的执行的至少子集的执行时间超过第二阈值，将所述特定查询的超过第二阈值的执行的子集中每次执行的日志存储到数据表；以及

使用来自所述数据表的同一特定查询的执行来执行所述计算操作。

4.如权利要求1所述的介质，其中确定所述特定查询的第一执行的执行时间包括：

确定在发送执行所述特定查询的请求与从所述特定查询的执行中接收结果之间的时间段。

5.如权利要求1所述的介质，其中经由存储的查询数据字段的表来识别同一特定查询。

6.一种包括指令的非暂态计算机可读介质，所述指令在由一个或多个硬件处理器执行时，使得执行包括以下的操作：

识别在第一时间段期间对特定资源的多个查询的一次或多次执行；

通过聚合所述多个查询的所述一次或多次执行的执行时间，计算在第一时间段期间所述特定资源的累积执行时间；

确定在第一时间段期间所述特定资源的累积执行时间超过第一阈值；

响应于所述确定操作：在第二时间段内将所述特定资源进行高速缓存。

7.如权利要求6所述的介质，其中所述特定资源是表。

8.如权利要求6所述的介质，其中所述操作还包括以下中的一个或多个：

响应于所述确定操作，保留高速缓存的资源；或者

确定所述多个查询的执行的至少子集的执行时间超过第二阈值；

响应于确定所述多个查询的执行的至少子集的执行时间超过第二阈值，将所述多个查询的超过第二阈值的执行的子集中每次执行的日志存储到数据表；以及

使用从所述数据表选择的多个查询的执行来执行所述计算操作。

9.如权利要求6所述的介质，其中确定对所述特定资源的所述多个查询的第一执行的执行时间包括：

确定在发送对所述特定资源执行所述多个查询的请求与从对所述特定资源的所述多个查询的执行中接收结果之间的时间段。

10.一种包括指令的非暂态计算机可读介质，所述指令在由一个或多个硬件处理器执行时，使得执行包括以下的操作：

识别在第一时间段期间包括与至少两个表相关联的JOIN操作的一个或多个查询的一次或多次执行；

通过聚合所述一个或多个查询的每次执行的执行时间，计算第一时间段期间所述一个或多个查询的累积执行时间；

确定在第一时间段期间所述一个或多个查询的累积执行时间超过第一阈值；

响应于所述确定操作：将以下进行高速缓存：(a)JOIN操作的结果或(b)所述至少两个表中的每一个表。

11.如权利要求10所述的介质，其中所述操作还包括：

响应于所述确定操作，保留高速缓存的(a)JOIN操作的结果或(b)所述至少两个表中的每一个表。

12.如权利要求10所述的介质，其中确定所述一个或多个查询的第一执行的执行时间包括：

确定在发送执行所述一个或多个查询的请求与从所述一个或多个查询的执行中接收结果之间的时间段。

13.一种用于查询资源高速缓存的方法，包括：

识别在第一时间段期间同一特定查询的多次执行；

14.如权利要求13所述的方法，其中所述资源是表。

15.如权利要求13所述的方法，还包括以下中的一个或多个：

响应于所述确定操作，保留高速缓存的资源；或者

16.如权利要求13所述的方法，其中确定所述特定查询的第一执行的执行时间包括：

17.如权利要求13所述的方法，其中经由存储的查询数据字段的表来识别同一特定查询。

18.一种用于查询资源高速缓存的方法，包括：

19.如权利要求18所述的方法，其中所述特定资源是表。

20.如权利要求18所述的方法，还包括以下中的一个或多个：

响应于所述确定操作，保留高速缓存的资源；或者

21.如权利要求18所述的方法，其中确定对所述特定资源的所述多个查询的第一执行的执行时间包括：

22.一种用于查询资源高速缓存的方法，包括：

23.如权利要求22所述的方法，还包括：

24.如权利要求22所述的方法，其中确定所述一个或多个查询的第一执行的执行时间包括：

25.一种用于查询资源高速缓存的系统，包括：

处理器；以及

存储器，耦合到所述处理器并且所述存储器包括存储在其上的指令，所述指令在由所述处理器执行时，使得所述处理器执行如权利要求13-24中任一项所述的方法。