CN102648467A

CN102648467A - 数据库和用于评价来自数据库的数据的方法

Info

Publication number: CN102648467A
Application number: CN2010800536216A
Authority: CN
Inventors: 阿德南·法科
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-09-25
Filing date: 2010-09-22
Publication date: 2012-08-22
Anticipated expiration: 2030-09-22
Also published as: JP2013506180A; SG10201703775XA; WO2011036448A3; JP5892937B2; CN102648467B; WO2011036448A2; JP2016026353A; CN109145033A; EP2480991A2; CN109145033B

Abstract

一种用于根据输入值的集合计算数量的计算机系统。该计算机系统包括数据库，其被配置为存储第一输入值X_n的序列，其中，n=1，2，…i，其中，对于任一值n，X_n在序列中位于X_n+1和x之间。x的每个值均与第二输入值y_n、根据转换算法从y_n中计算的转换值p_n以及输出值z_n相关联，其中，z_n=z_n-1+p_n。数据库还可以被配置为存储多个输出值zn。数据库还可以被配置为从存储在其中的值的序列中识别最小值和/或最大值，并且至少限定值的第一子序列和紧跟在值的第一子序列之后的值的第二子序列，其中，第一子序列和第二子序列之间的边界位于序列的最小值或最大值的位置处。

Description

数据库和用于评价来自数据库的数据的方法

技术领域

本发明涉及用于存储例如金融数据的数据库，更具体地，涉及构建数据库、在数据库中存储数据的计算机实施方法和/或操作存储在数据库中的数据的方法。

本发明还涉及用于获取和/或评价来自数据库的数据的计算机实施查询机制，具体地，涉及用于从数据库中存储的数值序列中获取最小值或最大值的查询机制。

背景技术

数据库是用于例如在计算机系统内存储数据并使数据相关联的结构。根据预期的用法而存在不同的数据库架构。通用数据库的主要用法为管理和便于与相关应用相关联的数据输入和检索。近来的趋势是出现优化的专用数据库架构以用于特定的应用域。

复杂事件处理（CEP）是对真实世界的事件数据（例如，金融数据）进行低延时的过滤、关联、聚合和/或计算的技术。这种数据通常以高频生成，因此需要保存在适当的数据库中以允许其被实时评价或者在后期被评价。出现了试图存储这种数据的多种专用数据库产品，其中这种数据所生成的量通常盖过了通用数据库。

表1示出了可用于CEP应用的产品，并提供了用于操作CEP数据的不同功能。

表1

这些产品的目的在于提供基础数据库技术和处理能力的改进。然而，数据存储或者对数据的查询和检索仍然根据传统的处理来执行。虽然这些数据库可以很好地适合于执行传统的交易导向操作，但是除了标准的查询方法之外，它们并不提供允许访问和/或评价大量连续数据的有效手段。

对大量连续数据的这种请求与提供描述性统计相关，其中，各个记录的重要性小于总的描述。描述性统计现今变得越来越重要，尤其是对于高频大容量数据应用。

评价大的连续数据集的处理的核心在于对统计描述性数据请求的响应。

金融服务团体由数据提供方和客户组成。数据提供方处理大机构客户（例如，银行）和小客户（例如，散户）。处理较大的客户或直接进行或者通过第三方供应商（例如，Vhayu）来向他们提供所有市场数据，从而允许构建高级和精确的统计波动。然而，现在，由于与输送完整的市场供给所需的较大的带宽以及计算要求相关联的成本，这不能用于较小的客户。因此，只能向较小的客户提供快照或概况，而这只允许提供波动的近似情况。

此外，当确定存储在数据库中的一串值中的最小值或最大值时，通常必须检索和评价该数据串中的所有记录以确定最小值/最大值的位置和/或大小。

因此，在检索数据集时的I/O总线使用和/或网络带宽使用方面以及评价数据集所要求的计算方面，操作成本高。这些成本将随着所要求的数据串中值的数量的增加而增加。

具体地，由于检索和评价大量单独数据序列的成本，使得比较实验的成本尤其高。

发明内容

在第一方面，本发明提供了一种用于存储数据的数据库，其被配置为生成对所存储数据的中间描述，以允许更加高效地操作所存储的数据。

更具体地，本发明的第一方面可以提供被配置为存储第一输入值X_n的序列的数据库，其中，n=1，2，…i，

其中，对于任一值n，X_n都位于序列中的X_n+1和X_n-1之间，并且其与以下值相关联：

第二输入值y_n；

转换值p_n，根据转换算法从y_n中算得的；以及

输出值z_n，其中，z_n＝z_n-1+p_n；

数据库进一步被配置为存储多个输出值z_n。

数据库是用于计算输入值的集合的数量的计算机系统。

第一输入值x_n一般为数值，并且通常为时间值。

第二输入值y_n可以为描述金融交易的变量，例如价钱或成交量。

转换值p_n可以等于y_n。在这种情况下，存储在数据库中的输出值z_n为从1到n的所有第二输入值y_n的累计总量。可选地，输出值z_n可以为例如

或

或者第二输入值y_n的不同函数p_n的累计总量。

通过提供第二输入值y_n（例如，股票价格）以累计形式存储在输出值z_n内的数据库，数据库以中间形式（即，预计算形式或部分处理形式）存储第二输入值。通常，这意味着与数据以原始未处理形式存储的传统数据库的情况相比，从根据本发明的第一方面的数据库生成描述性数据需要更少的操作。

因此，在第二方面中，本发明提供了计算机实施方法，该方法用于根据与第一输入值x_n的序列的一部分（从n=a到n=b）相对应的第二输入值y_n的集合来计算数量，并且包括：从根据本发明的第一方面的数据库中提取至少一个输出值z_n，其中，n=b。

通常，本发明第二方面的方法还包括从数据库中提取又一输出值z_n，其中，n=a。

使用与根据本发明第一方面的数据库相组合的本发明第二方面的方法，通常可以通过从与感兴趣的数据序列的末端相对应的输出值z_b以及任选地与感兴趣的数据序列的始端相对应的输出值z_a的数据库中进行检索来计算表2所示的量。

表2

函数p_n	可用的描述性统计
		P_n=y_n	总和
P_n=y_n	平均
		P_n=y_n ²	方差
P_n=x_n﹒y_n	第一输入值和第二输入值的相关性

因此，根据本发明第二方面的方法，通过从根据本发明第一方面的数据库中仅检索两个输出值就可以生成与连续数据序列相关的描述性统计的范围。这与使用其中通常必须检索感兴趣序列中的所有数据值的传统数据库相比，减小了检索成本。因此，与传统的数据评价方法相比，对于本发明第二方面的方法，与I/O总线使用和/网络带宽使用相关联的成本趋于降低。与本发明第二方面的方法相关联的计算成本也趋于相对于传统方法减少。

与本发明第二方面的方法相关联的计算成本的降低对金融应用尤其重要。本发明第二方面的方法可以允许市场数据的所有终端用户（无论是大机构客户还诸如散户的小客户）根据需要生成高精确且复杂的描述性变量，即使他们不能够获取整个市场供给。这是因为只有少量的数据需要发送给客户，并且只需要客户执行小量的计算。

具体地，如果进行与相同的数据序列相关的多个请求，则将快速地分期偿还建立根据本发明第一方面的数据库的成本。有效地，本发明第一方面的数据库允许在所存储的数据自身内嵌入数据描述的主要部分，由此当使用本发明第二方面的方法询问数据库时，减小了基于每个请求的总成本。

使用本发明第一方面的数据库生成描述性统计的成本通常对感兴趣的数据序列的大小具有较低的依赖性。这与传统的数据库相反，其中，传统的数据库中，生成描述性统计的成本与感兴趣的数据序列的大小近似成比例。

通过减小生成描述性统计的成本，本发明第一方面的数据库还减小了比较实验的成本，例如，对两个感兴趣数据序列的比较，诸如两个不同时间段的股票价格的变化。

有效地，可以通过使用与本发明第一方面的数据库结合的本发明第二方面的方法，来生成具有嵌入的和算符的任何描述性统计。

本发明第一方面的转换值p_n可以是根据多个原始数据值计算的非常复杂的变量。例如，转换值p_n可以是提供将包括在输出值z_n中的部分处理输入变量的定制指数，其在响应于用户请求而进行计算时使用。

非常复杂的变量或定制指数的该预计算可以使得响应于用户查询将进行的从数据库中检索的数据量的减小，并且还减少了响应于每个查询执行的计算步骤的数量。具体地，预计算变量可以被重复使用来答复不同的用户查询，由此提高了整体效率。

用于计算预计算变量的原始数据值可以以统计方式加权或动态方式加权。即，当构建预计算变量（静态加权）或者权重可以随时间变化（即，可以针对每个记录更新）时，每个原始值都可以被分配指定权重。

在动态加权的情况下，每个加权变量（或指数）对于生产都是昂贵的，因此与提供可响应于用户查询被重复使用多次的预备指数相关联的成本尤其高。

作为示例，在金融应用的背景下，提供转换值p_n（作为多个测量值的复合函数）的概念可用于构建股票价格的市场资本化加权指数，其中，指数中的每个股票的权重可以基于其变化的市场资本来改变。根据这种指数的使用，对每个单独请求执行指数构建的过程，可以在数据和计算成本方面产生巨大的节省。

数据的预计算（提供作为复变量的转换值p_n）还允许执行更加复杂的多级操作，其可以认为是描述的描述。附加金融应用示例为构建多个指数，每一个都基于根据它们的市场资本化加权的股票集合（例如，工业公司指数、电信公司指数）。这将允许将指数（或者甚至是各个公司和指数）组合到不同的子集中以监控他们的活动。

通常，本发明第一方面的数据库被配置为存储沿着第一输入值的序列均匀隔开的值x（第一输入变量），使得x_n+1-x_n＝x_n-x_n-1。

通常，在x_n为时间值的情况下，连续时间值之间的间隔小于0.5s，优选小于0.1s，更优选小于0.05s。

通常，数据库还被配置为存储例如包括1000个记录（优选10000个记录）的第一值的序列。

本发明第一方面的数据库可以是传统数据库的改编。

许多应用（例如，金融数据的分析）利用连续增长的时间序列数据。在这种情况下，目标在于找到与最近的子序列相匹配的历史数据的子序列。在许多情况下，必须针对不同的子序列长度和/位置重复该搜索处理。当数据存储在传统数据库中时，每个搜索处理都必须重新开始，从输入数据库的原始数据开始工作。

然而，发现在许多情况下，匹配子序列的处理由测量两个单独子序列的相应记录之间的距离；然后采用这些距离测量值的总和来获取最终匹配结果组成。由于该操作具有嵌入的和运算，可以结合本发明第二方面的方法使用根据本发明第一方面的合适配置的数据库来执行该操作。

更具体地，因此，在一些情况下，p_n的函数为y_n之间的距离和另一第二输入值的函数。该距离通常为欧式距离，但是还可以为另一距离测量值，诸如马氏距离。

因此，本发明第一方面的数据库可以被配置为计算并存储例如最近的数据序列与历史序列之间的累计距离测量值。以这种方式，最近数据序列的子序列与历史数据序列的相应子序列之间的距离可以根据在子序列的开始和结束处的累计距离测量值来计算。

使用本发明用于该应用的发明的优点在于，与数据库中的所有相应子序列相比，仅使用子序列的始端和末端之间的差异就可容易地匹配所有请求的子序列大小。这大大减小了对于每个请求必须执行各个记录之间的距离测量值所需的成本。

尽管必须执行大量操作，来将距离的累计值存储在数据库中，但每个请求的检索和计算成本较低，这是因为只需要从预计算数据中检索两个记录。因此，利用处理的多个请求能够将建立数据库的成本快速地分摊。

在一些情况下，转换值p_n是第二输入值y_n和与第一输入值x_n相关联的又一输入值y′_n的函数。例如，在一些情况下，p_n=（y′_n·y_n）。在这种情况下，本发明第一方面的数据库可以与本发明第二方面的方法结合使用，来确定第二输入值y_n与对应于用户感兴趣的第一输入值x_n的序列的一部分的又一输入值y′_n的相关性。

根据本发明第二方面的方法，来自本发明第一方面的数据库的数据请求由提取所请求数据段的始端和末端组成。当提取/检索处理由于延时而变得昂贵时（例如，当访问数据库必须进行请求或者必须经由网络提取数据时），有利地进行数据的预提取，以消除用于附加提取操作的等待开销并在高速缓存期间利用临时位置。

因此，本发明第二方面的方法可用于包括从数据库中提取与马上感兴趣的值相邻的附加值的又一步骤。然后，可在稍后的计算中使用这些附加值。

检索多个数据值的延时成本接近检索单个值的成本，所以检索多个值的总成本小于单独检索每个值的成本。附加值通常存储在高速缓存存储器中，以能够根据需要以较低的延时成本提取这些值。

有利地，在单个提取操作中检索的多个数据值是数据的连续子序列。该特征增加了与本发明第二方面的方法的这种适应相关联的效率节省。

结合本发明第一方面的数据库使用的本发明第二方面的方法，可以在监控银行操作（诸如货币转账）方面尤其有利以及在检测异常活动方面尤其有利。

可以在更长的时间段内使用幅度较小且时间段较长的动作执行诈骗的主要模式以隐藏在正常行为中。与本发明第一方面的数据库结合使用本发明第二方面的方法允许监控多个平均值以检测任何相对变化，其可给出针对诈骗的证据。

例如，过去5小时内转账的平均值等于最后一小时的平均值可以表示正常行为，而最后一小时的平均值的任何增加可表示可能的诈骗。由于不知道精确的参数或平均值的组合以预先进行监控，所以必须研究宽范围的值。快速地和容易地响应不同请求的能力极大地有利于该处理。该方法还可以应用于不同的检测应用，例如交易监督，基于正常行为的历史确定搜索反常行为。

作为该应用的扩展，可以并行且实时监控许多不同大小的平均值。如上所述，还可以容易且高效地执行可选平均大小的历史实验评价。它们是与本发明第一方面的数据库结合使用本发明第二方面的方法的成本有效操作的直接结果。

通常，在被配置为存储大量数据（超过1000个记录，并且通常超过10000个记录）的数据库中，用户难以获取各个记录。

通常，数据库的用户主要对数据库最近的记录感兴趣。

因此，在第三方面中，本发明可以提供在时间t编辑数据库以存储时间依赖变量的先前值的计算机实施方法，包括以下步骤：选择与从时间t向回测量的预定时间间隔的序列相对应的时间依赖变量的值的集合。

数据库可以是根据本发明第一方面的数据库，但是这不是必须的。

典型地，最近输入记录的时间间隔与较旧的记录的时间间隔相比，之间的间隔更紧密。结果，数据库以大间隔尺寸来存储最近的数据，而以小间隔尺寸存储比较久远的数据。

在例如每秒具有大量数据流量的高流动性金融市场的情况下，本发明第三方面的数据库可以用于减少所存储以及后续发送给用户的数据量。直观地，如果用户以毫秒级使用该数据，则其主要的兴趣点将在于最近的数据，而在较长时间段（即，分钟、小时）感兴趣的用户通常不要求毫秒数据精度。因此，本发明的第三方面允许以更加高效的方式根据客户需要（和/或约束）来处理不同的客户请求。这通过仅发送用户所要求的来减少总数据发送，从而导致较低的所要求网络带宽和存储成本。

通常，被配置为存储多个之间相关的数据序列的数据库（诸如但不仅仅是本发明第一方面的数据库）将经过分类操作，以监控所存储数据的相对改变。例如，数据库可以存储用于金融工具集合的特定市场指标，并且可以根据市场指标的相对值来对数据进行分类。随着市场指标的值的变化，将需要进一步的分类操作以更新数据库。

类似地，当数据库用于确定例如最近的数据序列与历史数据序列之间的图样匹配程度时，可以对不同的匹配结果进行分类，以查找例如与最近序列最好匹配的历史序列。（这种图样匹配可以与本发明第二方面的方法结合使用本发明第一方面的数据库来执行，但是还可以使用传统的数据库和方法）

然而，这种分类操作在计算成本方面是昂贵的。因此，在第四方面中，本发明可以提供计算机实施方法，其根据预定的分类标准对数据集进行分类，包括以下步骤：

通览数据集，以根据预定的分类标准确定数据集的所有值是否无序，并且

如果数据集的所有值无序，则选择性地根据预定标准对数据集进行分类。

因此，当数据集的值无序时，仅仅会产生对数据库进行分类的计算成本。如果数据集的值有序，则增加的成本仅为通览数据以确定此的成本。

该方法在数据（例如，用于金融工具的市场指标）具有低波动的情况下尤其有效。在这种情况下，几乎不需要进行分类操作，因此使用该方法可以避免不需要的分类操作，由此减少了总计算成本。

具体地，当数据集中确定分类顺序的值（例如，金融工具的市场指标）为被确定为多个测量数据值的函数的计算值时，该方法是有效的。这种计算值通常具有低波动，这是因为它们对于单个测量数据值的改变相对不敏感。这尤其是根据长时间累计的数据算出的值的情况。

这种计算值可以为以下任意一个：

a）多个测量数据值的平均值；

b）多个测量数据值的和；

c）多个测量数据值的最大值或最小值；或

d）多个测量数据值的标准偏差。

本文还公开了用于存储数据的数据库，其被配置为生成所存储数据的中间描述，以允许更加高效地识别用户特定感兴趣的指定数据串的最大值和/或最小值。

数据序列中的最小值和/或最大值的识别在例如金融应用中是有用的，其中，例如，给定时间段内的股票价格的范围（即，最大值和最小值之间的差）通常是股票价格或市场的波动的指示。因此，有利地，通过高效和处理，能够针对不同的时间段定位例如股票价格的最大值和/或最小值，并且具有较低的计算成本。

数据序列中的最小值和/或最大值的识别在定位数据序列中的异常值也是有用的。例如，在检测诈骗时尤其重要。通过将例如股票价格的最大值和/或最小值与该股票的价格的正常波动进行比较，可以检测出异常行为。这种处理要求对许多时间段进行评估（建立例如股票价格的正常行为的画面或者诈骗的实际检测结果的画面），由此要求最大值和/或最小值的有效识别，以将计算成本保持在可接受的水平。

因此，在第五方面中，本发明提供了被配置为进行以下处理的数据库：

（i）存储值的序列；

（ii）识别值的序列中的最小值和/或最大值；

（iii）至少限定值的第一子序列以及紧跟在值的第一子序列之后的值的第二子序列，

其中，第一子序列和第二子序列之间的边界位于序列的最小值或最大值的位置。

将数据库设置在用于确定值的序列的指定子序列的最小值和/或最大值的计算机系统中。

术语“跟随”是存储在数据库中的数据序列的方向性的功能。典型地，通过数据序列中的每个值被输入数据库的顺序来限定数据序列的方向性。因此，典型地，最近输入的值被认为是“跟随”先前输入的值。因此，通常，第二子序列中的值比第一子序列的值更晚地输入数据库。

在数据库的许多应用中，所存储的数据序列描述参数随时间的变化。因此，在这种情况下，参数的最近值将沿着值的序列“跟随”参数的较旧值。

本发明第五方面的数据库被配置为在所存储的数据集中至少限定两个值的子序列，两个子序列之间的边界位于序列的最大值或最小值的位置。

以这种方式，至少作为初始步骤，试图识别由用户限定的指定数据串中的最大值或最小值的数据库的用户，可以确定该指定数据串是否跨越两个子序列之间的边界，因此确定整个数据库的最大值或最小值是否包括在该指定数据串中。这避免了用户必须检索和评价整个数据串，从而减少了与查询相关联的检索和计算成本。

因此，在第六方面中，本发明提供了确定由用户限定的指定数据串中的最小值和/或最大值的计算机实施方法，包括以下步骤：

（i）提供根据本发明第五方面的数据库；

（ii）确定指定数据串是否跨越第一子序列和第二子序列；以及

（iii）如果指定数据串跨越第一子序列和第二子序列，则提取第一子序列和第二子序列之间的边界处的值。

通常，存储在数据库中的数据将被分为更多的子序列，相邻子序列之间的边界为局部最大值或局部最小值。因此，在本发明第五方面的数据库被配置为识别所存储数据序列中的最小值的情况下，数据库通常进一步被配置为

（i）识别与跟随第一子序列的值的最小值相对应的局部最小值；

（ii）限定紧跟在值的第二子序列之后的值的第三子序列，其中，第二子序列和第三子序列之间的边界位于局部最小值的位置处；

（iii）识别与跟随在第n个子序列之后的值中的最小值相对应的又一局部最小值，其中，n=2；

（iv）限定紧跟在值的第（n+1）个子序列之后的值的第（n+2）个子序列，其中，第（n+1）子序列和第（n+2）个子序列之间的边界位于又一局部最小值的位置；以及

（v）针对所有整数值n重复步骤（iii）和（iv）直到n=k，其中，在n=k处，没有又一局部最小值可用于限定相邻子序列之间的边界。

在本发明第五方面的数据库被配置为识别所存储数据序列中的最大值的情况下，可以以类似方式执行将数据库划分为由局部最大值限定的多个子序列。

典型地，第三子序列中的数据值分别设置有与位于第一子序列和第二子序列之间的边界处的最小值或最大值的值对应的标记。

类似地，多个子序列中的任一子序列中的数据值可以设置有与位于该子序列与随后子序列之间的边界处的局部最小值或最大值的值相对应的标记。典型地，以这种方式标记直到最后的边界值（最小值或最大值）的所有子序列。在这种情况下，优选地，还对最后子序列中的数据值（即，最后的边界值之后的数据值）进行标记。优选地，最后子序列中的数据值分别设置有与该记录的值相对应的标记。

术语“最后”和“最终”是指数据库的方向性。因此，“最后”边界值通常为与最近输入的数据相关联的边界值，例如，第k个子序列和第（k+1）个子序列之间的边界值。类似地，“最终”子序列为包含数据库中存储的数据序列中的最近输入数据的子序列。

一旦以这种方式标记数据库中的记录，本发明第六方面的方法就可以用于确定指定数据串中的最大值或最小值。在这种情况下，指定数据串通常具有与数据库中的值的序列的结束点相对应的结束点，并且通过读取位于数据串的开始点的位置处的值的标记来确定指定数据串的最小值或最大值。

因此，本发明第六方面的方法允许通过检索单个数据值来确定指定数据串的最小值或最大值。因此，用户执行该分析的成本仅为检索该数据值的成本。

传统的数据库通常要求检索和分析数据串中的所有值之后，确定最小值和/或最大值之前，因此对用户产生较高的检索和计算成本。

与之相比，与本发明第五方面的数据库结合使用的本发明第六方面的方法显著减小了用户分析存储在数据库中的数据串所需要的I/O总线使用和/或网络带宽。

因此，通过生成存储在数据库中的数据的中间描述并使该中间描述可被用户访问，本发明允许用户以减少的计算成本查询数据库并评价存储在数据库中的数据。

术语“开始点”和“结束点”与数据库的方向性相关。典型地，“结束点”表示数据序列中最近输入的记录，而“开始点”表示先前时间输入的记录。

本发明第六方面的方法在一定程度上不是直观的，其中，其不容易被使用纯智力处理的人用来识别数据序列中的最大值和/或最小值。没有计算机辅助的人趋向于简单地扫描序列中的数据值来识别最大值或最小值，并且希望避免使用本发明第六方面的复杂不直观的方法。

然而，扫描数据序列来识别最大值和/或最小值的传统方法（通过纯智力处理或者作为计算机实施方法的一部分）不适合获取大量数据。在这些情况下，本发明第六方面的方法的更复杂且非直观步骤允许处理容易地用于使用技术装置的实施，由此允许快速且高效地评价大量数据。

在本发明的一些实施方式中，本发明第五方面的数据库可以被配置为生成所存储数据序列的两个中间描述，第一个中间描述有利于所指定数据串中最小值的识别，以及第二个中间描述有利于所指定数据串中最大值的识别。

数据库可以被配置为存储表示参数随时变化的数据。该参数可以为例如描述金融交易的参数。典型地，以小于0.5s的时间间隔来测量参数，优选小于0.1s，更优选小于0.05s。

典型地，数据库被配置为存储具有超过1000个值的数据序列。

具体实施方式

应用领域

本发明有利于数据流随时间变化和具有不可预期长度的情况下以快速方式连续到达的应用。传统的DBMS方法的受限存储不适合于除连续查询和处理之外还需要数据的快速和连续加载的这种应用（M.Kontaki,A.N.Papadopoulos and Y.Manolopoulos,Adapative similarity search instreaming time series with siliding windows,Data & Knowledge Engineering,Volume 63,Issue 2,November 2007,Pages:478-502）。试图对这种数据执行标准分析时的额外困难在于由于数据流的连续和不可预测行为而仅可以读取一次或者受限的次数，使得不能获得随机访问数据，（P.Tsai,Miningtop-k frequent closed itemsets over data streams using the sliding windowmodel,Expert Systems with Applications:An International Journal,Volumn 37,Issue 10,October 2010,Pages:6968-6973）。这要求修改的分析方法，其针对不要求多个数据扫描的范围查询提供快速答案。

查询类型

本发明机制能够执行连续数据应用所要求的以下查询类型（F.Buccafurri and G.Lax,Approximating sliding windows by cyclic tree-likehistograms for efficient range queries,Data&knowledge Engineering,Volumn 69,Issue 9,September 2010,Pages:979-997）。

1.点查询：返回数据流的第k个数据点

2.范围查询：返回给定时间间隔内的聚合数据

3.相似性查询：返回数据流中是否出现相似图样的真值（P.Capitani和P.Ciaccia,Warping the time on data streams,Data & knowledgeEngineering,Volumn 62,Issue 3,September 2007,Pages:438-458）。

应用例

金融

市场透明度

越来越要求金融市场当局向他们的参与者保证他们市场是公平的且透明的。随着成交量的增加（在一些市场中，每天具有束百千兆字节），变得越来越难以向所有参与者散发数据。只有机构和大投资者可以担负的起完全访问这些数据。当针对不能担负的起接收这种海量数据的散户投资者时，其自身使透明度变成一个大问题。当不仅需要交易数据而且更多复杂数据（诸如订单流动和非交易执行信息）也变成需求时，增大了困难。本发明的目的在于，提供向所有参与者呈现精确的聚合数据的能力，参与者可以使用可定制窗口大小机构选择他们期望的数据。这提供以下几个优点：首先，当存储累计数据时，仅执行一次计算。然后，用户请求期望的数据范围并且仅接收能够完成请求的开始数据元素和结束数据元素。这节省了大量的计算，尤其是用户/请求的数量增加时，这是因为在数据生成期间已经设定了计算的上限。第二，向用户仅发送有限的期望数据范围，使得大大减小了带宽，不论数据范围请求如何，都对计算成本有效地设置了上限。第三，不需要大的计算或带宽开销来提取定制数据范围的能力使得实现大量的同步实时分析和实验。第四，在不需要传送整个数据范围的情况下允许参与者执行他们所有的数据查询，有助于保护官方数据不被非法使用或传送。最后，本发明提供了用于使市场在聚合级别下对于所有参与者完全透明的手段，而不公开所有的个人数据记号（其通常以高价售卖）。

电信

网络流量监控

网络利用的优化依赖于路由器和开关队列的管理（E.Hernandez-Orallo和J.Vila-Carbo,Network queue and loss analysis usinghistogram-based traffic models,Computer Communications,Volume 33,Issue2,February 2010,Pages:190-201）（S.K.Tanbeer,C.F.Ahmed,B.Jeong和Y.Lee,Sliding window-based frequent pattern mining over data streams,Information Sciences,Volumn 179,Issue 227,November 2009,Pages:3843-3865）。通常，对网络进行建模由以给定的服务速率向有限大小的队列馈送流量组成，目的在于确定关于队列利用的信息。然后，自限定分配和模型用于对这种流量进行建模，由此要求平均值和波动值的连续确定。随着较大网络的增加，所生成的数据和随之生成的计算量也增加，使得更加难以针对各个用户需求来定制报告，本发明可以针对该问题产生三个主要的贡献：

1.当前固定周期的监控报告（例如，每24小时更新）被发送至用户，这是因为针对每个用户基于他们各自的要求构建自限定报告的难度。本发明允许预计算和存储随后可被用户用于生成他们自身的自限定报告的数据，从而缓和了在每个用户级别上对自限定计算的需求。

2.统计计算可以容易地转换为累计计算，并且这使得每个用户请求的数据量和带宽使用最小化，这是因为只需要发送所请求范围的结束点数据项。

3.对于提供方增加数据安全性，这是因为只发送与用户请求有关的数据而不是整个数据集。

入侵检测

数据服务器中的信息必须被保护免受网络攻击（H.Li and S.Lee,Mining frequent itemsets over data streams using efficient window slidingtechniques,Expert systems with Appliations,Volume 36,Issue 2,Part 1,March 2009,Pages:1466-1477）（W.Wang,X.Guan和X.Zhang,Processingof massive audit streams for real-time anomaly intrusion detection,ComputerCommunications,Volume 31,Issue 1,January 2008,Pages:58-72）。两个基本方法包括基于签名的检测（其中，通过相对于先前存储的原型攻击进行匹配来检测恶意行为）和异常检测（其中，维持正常用户的概括并且尝试识别不可接受的偏离作为可能的攻击）。基于签名的方法可用于利用发明的距离测量机制，其中，实时记录与预定签名集合的距离。本发明的特有优点在于不仅可以获得与完整签名的距离，而且还可以获取与签名子集的距离。这使得获得快速实验和测试能力，其不要求耗费时间的距离再计算。异常检测还得益于针对数据子集执行计算的能力。这尤其适合于自动校准方法，其中，可以不利用附加计算来测量多个时间段，并且与传统方法相比大大减少了计算成本。

工程

实体结构

监控技术被用于针对较高的实体结构跟踪大衰减系统（mass dampingsystem）的性能，以增强它们的衰减并保持他们的安全性（J.M.W.Brownjohn,E.P.Carden,C.R.Goddard和G.Oudin,Real time performancemonitoring of tuned mass damper system for a 183m reinforced concretechimney,Journal of Wind Engineering and Industrial Aerodynamics Vol.8,No.3,March 2010,pp.169-179）。加速计连接至该结构，并远程进行监控以提供实时信息来确定该结构位移是否超过临界阈值。该监控技术相对于几百甚至几千个结构的大规模应用将要求统一的数据管理系统（诸如本发明），以允许所有用户同时执行他们所请求的监控任务。利用计算机一次、多人使用方法，可以有效地通过使用不同大小的窗和数据组合同时具有许多自动系统监控不同现象。此外，由累计数据存储结构得到的低带宽请求意味着可以利用小开销通信成本远程地定位监控站点。

钻孔优化

目的在于优化钻孔处理以使成本最小同时保持操作安全标准。这通过在操作期间连续访问钻孔处理来进行，使得基于钻过孔的累计总长度（footage）使穿透的总速率最大。由于损坏的钻头以及用新部件替换老部件的相关交货时间，必须进行的基本确定是在使钻头利用率最大和使缩短工期时间最小之间进行折中。这通过连续分析多个变量（诸如对钻头重量和旋转速度）、将这些数据应用于数学模型以及尽可能迟地进行确定，以使得钻头使用最大化同时不危及钻孔工程的进度。基于本发明的解决方案的优点在于利用可忽略的计算损失在任何时间自限定时间窗。当钻孔通过不同的地质层组时，这是非常重要的，随着工作的进行改变模型的钻孔速度或者甚至实时校准并确保无论初始策略如何都执行综合分析的能力。这还允许使用相同的初始数据同时评价多个不同的模型。此外，低带宽要求是重要的特征，尤其当钻孔在难以定位分析员的偏远地区时，以及在获取大带宽通信通道通常成本非常高时。

科学数据分析

地震预测

早期警报设备可以基于所生成的各种振动的不同传播速度在大震颤达到之前提供短警报。该应用通过大量的连续数据来区分，这些连续数据需要即刻处理成值。测量中心还可以利用来自相邻中心的读取以努力增加地震之前的检测时间。由于通过每个测量设备生成的大量数据，这对于所有中心但除了最大中心来说成本过高。然而，将本发明用作数据存储主力，几百甚至几千个相邻中心可以利用本发明的低带宽要求来共享数据。此外，用于不同滑动窗口大小的可忽略计算开销意味着多级检测可以同时执行以检测不同大小的异常。这对于实验来说是很重要的，因为大量的潜在模型可以同时进行机器测试且潜在地被应用。

热带大气海洋

原位环境传感器物理地位于它们监控的环境中，并且它们的时序数据被连续传送至单个数据仓库（D.J.Hill and B.S.Minsker,Anomaly detectionin streaming environmental sensor data:A data-driven modeling approach,Environmental modeling & software,Volume 25,Issue 9,September 2010,Pages:1014-1022）。需要进行自动数据质量保证和控制以检测和识别明显偏离历史图样的异常数据。这种异常检测还可以用于自适应监控领域，其中，异常数据表示可要求进一步研究的现象。本发明可被用作主数据存储处，其中，可定制滑动窗口机构可用于执行同步数据确保测试，从而增加用于质量监控的附加混合层（layer of sophistication）。此外，相同的机构可用于同时检测多个异常现象或者允许检测策略的直接变化，而没有附加计算成本。增加的优点能够服务其他远程用户，他们的数据请求由于低带宽数据传输机构而仅具有最小的通信投资。

详细描述

以下描述和示例1-8表明根据本发明第一方面的数据库如何可以被构建以及如何用于存储数据和响应于用户请求来提供信息。

在第一实施方式中，数据库被用于存储时间值的序列。每个时间值都与变量y的值序列中的一个值相关联。例如，变量y可以为描述金融交易的变量，诸如价格或成交量。

时间值以从最早时间值到最近值的序列排列，并且各个值均匀地隔开。例如，连续时间值之间的差可以为0.5s、0.1s或0.05s。

数据库被配置为存储超过1000个这样的时间值。

在第一实施方式中，数据库还存储y变量的累计值，即，与从第一个时间值到第n个时间值的时间范围相对应的y变量的总和

因此，每个时间值n都与从最高时间值到这个最近时间值所记录的y变量的总和相关联。这使得通过从时间（b）的∑y中减去时间（a）的∑y来计算与时间a到时间b的时间段相对应的变量y的总量（即，

）。因此，用户能够通过从数据库中检索两个数据点∑y（a）和∑y（b）来计算在给定的时间段添加至数据库的变量y的累计总和，并执行单个操作以从另一个值中减去一个值。

为了计算在时间a和时间b之间的时间段中的变量y的平均值，需要从∑y（b）中减去∑y（a）并用该结果除以从时间a延伸至时间b的子序列中的值的数量。因此，用户必须执行单个减法操作和单个除法操作。

在比较例中，使用传统的数据库，在给定时间段添加至数据库的变量y的累计总和的计算将要求从数据库中检索在该时间段添加至数据库的变量y的所有值并将它们彼此相加。

类似地，在另一比较例中，存储在传统数据库中的值的平均值通过检索所有这些值、将它们彼此相加并除以值的总数来计算。

在本发明第一方面的其他实施方式中，数据库可以针对1和n之间的每个时期来存储变量y的函数的累计值。例如，数据库可以存储y²的累计值。例如，这使得使用以下公式来计算变量y的方差：

因此，变量y在时间a至时间b的时期中的方差可以通过从数据库中检索四个值（时间=a的∑(y²)和∑(y)以及时间=b的∑(y²)和∑(y)）来计算。

在本发明的另一实施方式中，数据库存储又一输入变量y′的序列，y′的每个值均与时间值的序列中的一个时间值相关联。在这种情况下，又一输入变量y′可以以[y′·y ]的累计值的形式存储在数据库中。即，数据库存储从最早时间值到第n个时间值的每个时间值的[y′·y ]的累计总和

这允许使用以下公式计算时间a和b之间的感兴趣时期内的变量y和y′的相关性：

示例1：数据存储

采用本发明第一方面的第一实施方式的数据库，其中，存储y变量的累计值，以下列出了构建数据库的成本（以传统数据库的比较例相比）：

添加新纪录的成本=向所有先前记录的总和添加新纪录的计算成本+用于存储新累计记录的存储成本。

对于传统的数据库，添加新纪录的成本=用于存储多于一个或多个记录的存储成本（没有计算成本）

存储成本是向网络存储器发送记录的成本（包括网络带宽的使用）。

计算成本是数学操作成为预期格式的成本。

因此，本发明第一实施方式中的数据存储与向所有先前记录添加新纪录的附加计算成本相关联（相对于传统数据库的比较例）。由于累计值与原始数据相比具有更大的大小，用于第一实施方式的存储成本可以稍大于与传统数据库相关联的成本。例如，两个数字值（例如，原始数据值）如果保持恒定且累计100秒会导致四个数字值被存储在数据库中。

示例2：数据操作

在该示例中，针对根据本发明第一方面的第一实施方式的数据库来计算一系列数据记录的平均值。

这需要以下步骤：

1.从序列的开始和结束处检索数据记录（检索成本=两个提取操作）

2.从结束记录值中减去开始记录值（计算成本=一个减法操作）

3.执行除以数据大小的除法（计算成本=一个除法操作）

在传统数据库中，该处理会需要以下步骤：

1.检索感兴趣序列中的所有数据记录（检索成本=n个提取操作）

2.在所有检索记录上执行加法（计算成本=（n-1）个加法操作）

3.执行除以数据大小的除法（计算成本=一个除法操作）

因此，本发明第一方面的第一实施方式的数据库具有在计算所存储数据的平均值时的明显较低的检索成本以及在执行计算时的较低计算成本。通常，数据操作的这些较低成本将趋向于抵消与数据存储相关联的稍高的一次性成本。这尤其是用于连续重复请求的情况。例如，如果本发明的第一实施方式的数据库被查询以获得最后100个数据记录的平均值，并且每当输入新记录时更新该值，则与传统方法相比，所实现的计算和检索节省在计算第一平均值之后克服了预计算开销的成本。此外，如果修改请求以覆盖最后200个数据记录的平均值，则成本将不会增加。

示例3：成交量加权平均价格的计算

股票的成交量加权平均价格（VWAP）通过将总的交易货币额除以总的交易成交量来获得股票的成交量加权平均价格（VWAP）。交易的货币额是交易的成交量乘以价格。

在根据本发明第一方面的第二实施方式的数据库中，累计成交量和货币额（成交量和价格的倍数）被存储为时间函数。在这种情况下，可以通过以下步骤来计算VWAP：

1.从感兴趣序列的开始和结束检索货币额记录（检索成本=两个提取操作）

3.从感兴趣序列的开始和结束检索成交量记录（检索成本=两个提取操作）

4.从结束记录值中减去开始记录值（计算成本=一个减法操作）

5.将步骤2中获得的值除以步骤4中获得的值（计算成本=一个除法操作）

因此，计算VWAP的总成本为四个提取操作、两个减法操作和一个除法操作）。

在传统数据库中，该处理将需要以下步骤：

1.检索感兴趣系列中的所有数据记录

2.执行步骤1中获得的所有记录的加法

3.检索感兴趣序列中的所有成交量数据记录

4.执行步骤3中获得的所有记录的加法

5.将步骤2中获得的值除以步骤4中获得的值。

因此，作为比较例，使用传统数据库计算VWAP的总数据成本为2×n个提取操作（其中，n是感兴趣数据序列中的值的数量）、2×（n-1）个加法操作和一个除法操作。

示例4：图样匹配

在第三实施方式中，本发明第一方面的数据库具有六个时间段，每个时间段都具有四个记录的序列，被标为1-5。数据库被配置为存储来自不同时间段的相应记录之间的欧式距离。根据以下公式，以累计形式存储欧式距离：

累计欧式距离：

\sqrt{Σ_{1}^{r} {({TA}_{r} - {TB}_{r})}^{2}}

其中，r＝记录的数量，以及TA为第一时间段，TB为第二时间段。

因此，数据库存储每个时间段TA和时间段TB中的第一记录之间的欧式距离。数据库还存储每个时间段TA和时间段TB中的第一记录之间的欧式距离和这些时间段中的第二记录之间的欧式距离的和。类似地，数据库还存储覆盖这些时间段中的第一至第三记录、第一至第四记录以及第一至第五记录的又一些累计值。

类似地，数据库还存储与其他时间段的相应记录之间的距离相对应的累计距离值。

通过以下公式给出不同时间段中的记录的对应子序列之间的欧式距离：

其中，子序列在记录p和q之间扩展。

因此，可以根据所存储的累计距离值来快速计算不同时间段中的两个对应子序列之间的欧式距离。

累计距离值存储在数据库中，并且可以响应于后续请求而被再使用。

因此，必须响应于用于不同时间段中的两个对应子序列之间的距离的请求所执行的操作为：

1．与感兴趣子序列的开始和结束以及两个感兴趣时间段相对应的提取累计距离值

2.从子序列的结束处的累计值中减去子序列的开始处的累计值

3.计算两个累计值之间的差的平方根。

相反，在使用传统数据库的比较例中，根据存储在数据库中的原始数据，响应于用户请求来直接计算两个子序列之间的距离。因此，必须响应于用户请求执行的操作为：

1.提取2n个记录（其中，n为子序列的长度）

2.n个减法操作（利用来自不同时间段中的子序列的对应记录来执行）

3.n个乘法操作（计算差的平方）

4.（n-1）个加法操作

5.一个平方根操作。

因此，与传统数据库的比较例相比，本示例在响应于用户请求所引起的数据检索和计算成本方面提供了非常大的节省。这些节省将随着感兴趣子序列的长度而增加。

使用该本发明第一方面的该实施方式，可以在感兴趣的时间段（典型地，最近的时间段）与其他时间段（更远距离的时间段）之间执行图样匹配，以查找与感兴趣的时间段最匹配的历史时间段。

在这种情况下，在感兴趣的子序列与每个感兴趣历史时期中的对应子序列之间计算欧式距离。然后，执行分类操作以从感兴趣的时间段的子序列中识别具有最低欧式距离的历史数据子序列。

清楚地，在本发明第一方面的该实施方式中，必须在数据库中插入数据时后执行大量操作，以计算和存储累计欧式距离。然而，由于可以重新使用所存储的数据，所以每个请求的开销将随着请求数量的增加而消失。

示例5：数据预提取

通常，使用本发明第二方面的方法所执行的数据请求包括提取数据的所要求时期的开始和结束。当提取处理由于等待时间而昂贵时（诸如当访问数据库或者通过网络进行提取时），可以有利地预提取数据以消除用于附加提取操作的等待开销并在高速缓存期间利用临时位置。

该示例将利用以下描述表明预提取概念。执行连续的实时请求，并且目前在时间105处。请求包括随着数据库的更新而提取10个最近累计值的开始和结束，例如以允许计算10个最近测量值的平均值。

在根据本发明第二方面的方法的实施方式中，在从数据库A中提取第一结束累计值（对应于时间96）时，还提取了直到例如与时间100对应的累计值的所有累计值，并将它们存储在局部高速缓存B中。当利用时间106、107等的累计值来更新数据库时，根据需要从高速缓存中检索累计值用于响应后续请求。

从数据库A中检索累计值的成本为α，而从高速缓存B中检索累计值的成本为β。

因此，通过表3给出每当更新数据库时用于响应连续请求的提取/检索操作的成本：

表3

表3示出了当接收第一请求时如何以成本α从数据库A中提取时间96-100的累计值并将它们存储在高速缓存B中。然后，以成本β从高速缓存B中提取累计值96，并以成本α从数据库A中提取累计值105。在这种情况下两个累计值被用于计算时间96至105的测量记录的平均值。

在更新数据库以包括时间106的最近累计值之后执行下一计算。以成本α从数据库A中检索该值，并且以成本β从高速缓存B中检索结束值97。

重复该处理直到在高速缓存中不再存储值为止，或者直到不再接收用于计算的用户请求。

在该示例中，通过6α+5β给出当更新数据库时用于提供序列的开始值和结束值的总检索或提取成本。

相反，如果不以这种方式采用本发明第二方面的方法，则用于提取五个序列的开始值和结束值的总检索成本为10α（即，每10个开始值和结束值都必须从数据库A中提取）。

假设用于从数据库中提取数据的等待成本α明显大于用于从高速缓存中提取数据的等待成本β，则这种预提取大大减少了响应连续请求的总等待成本。

示例6：改变粒度的数据库的构造

在本发明第三方面的该实施方式中，所有接收的数据都被存储在主数据库中。还构建次数据库，其存储与从以下时间之一向回测量的预定时间间隔相对应的记录：（i）最近更新数据库的时间或者（ii）当前时间。

如果从最近更新时间开始向回测量时间间隔，则每当输入新记录时更新次数据库。如果从当前时间开始向回测量时间间隔，则例如每秒都更新次数据库。

因此，在一个示例中，次数据库在最近的更新之前存储5秒、30秒、5分钟、30分钟和2小时的记录。以这种方式，次数据库存储与最近数据相关的较多记录以及与过去数据相关的较少记录，即，针对最近数据的数据库的粒度大于针对过去数据的数据库的粒度。

用于次数据库的可能结构在于以高粒度提供数据的预定百分比，而剩下的数据以低粒度提供。例如，参照从600分钟（10小时）的总时间段得到的数据，在该周期中记录的数据可以如表4所示的那样存储：

表4

从当前时间向回延伸的时间段	粒度
		0-0.5s	毫秒
0.5s-5s	半秒
		5s-90s	秒
90s-30分钟	半分钟
		30分钟-10小时	分钟

在该示例中，次数据库所要求的存储空间仅为主数据库所要求空间的大约5%，其中，以毫秒的粒度来存储所有数据。

示例7：条件分类

在该示例中，数据库存储与金融设备相关的数据，例如每个设备的市场指标。根据市场指标的值来对数据进行分类。由于市场指标被更新，数据值变得无序，所以要求数据库的重新分类。

根据本发明第四方面的该实施方式，根据以下算法执行数据的分类：

for i＝2to n

if x[i]＜x[i-1]

sort_instruments

return

其中，i为金融设备，以及x［i］为用于该设备的市场指标。

因此，当金融设备根据它们的市场指标而无序时执行数据库的重新分类。重新分类操作的计算成本限于数据无序的情况，否则只生成通览（traverse）数据的成本。

例如，数据库可以被配置为存储与10个金融设备相关的市场指标。每秒都更新市场指标，但是基于市场指标的5分钟平均值来对数据进行分类。在这种情况下，可以每秒都通览数据库（当更新市场指标时）以确定值是否仍然有序，并且如果值无序则仅对数据进行重新分类。由于5分钟平均值的波动，数据将很少需要重新分类，因此将减少与分类操作相关联的计算成本。

根据经验，发现与传统的分类操作（每当更新数据库中的值时都执行分类）相比，当使用条件分类算法时，运行数据库的总计算成本可以减少达50%。

示例8：市场指标

根据本发明第一方面的数据库可用于生成通过根据通用原始数据来合成完整的订单所获得的描述性金融指标（description financial indicator）。

在该示例中，数据库用于提供以下数据类型来用于生成典型的金融指标：货币额、成交量、交易、价格、回报、回报平方、回报时间指数。该示例的数据库的优点在于，其还可以用于提供从被执行交易和订单更新（通常由于它们的量比较大以及对自身的不重视而兴趣较低）中提取的其他非典型的变量。然而，可在时间段内使用统计测量表示这些变量的数据库的总计特性可以提供不通过单独研究变量来实现的有意义的见解。典型变量可以进行详细的分解，诸如将所执行交易分解为：正常/隐藏/例外生效的购买/售卖交易。其他订单变化可用于将等待订单分解为：到每个独立订单价格等级或任何其中的组合的询问/出价方的添加/去除订单。然后，交易/订单分解可用于指定非典型金融指标。

以下阐述订单的合成处理。

使用等级II更新的等级III（完整订单）的合成

通常，等级III仅对市场作价者和专家可用。然而，使用以下方法，该数据可以使用更加通用的等级II数据消息来合成。

等级III（完整订单）

等级II（输入订单）

消息格式

表5中的数据字段假设可用作合成处理的输入并表示生成包含在该文档内的金融指标所要求的信息的最小量。

表5

类型（交易/订单活动）

符号

价格

成交量

序列

表6-支持数据结构

表6中的所有表格（除了inputTR_table）和列表对于出价和询问方面都存在。

处理包括：保持用于完整订单的表格和列表的集合作为合成通过使用市场消息所填充的输入订单的结果。

处理1

该处理随着订单活动开始对输入消息进行分类。其包括将消息合并到最新的inputOB_table（等级II）中，与最新的fullOB_table（等级III）进行比较，生成新的tempOB_table和改变列表。然后，tempOB_table变为最新的fullOB_table，并且改变列表对于交易消息变得可用。

执行以下四个步骤的算法以比较inputOB_table和fullOB_table，并执行任何所需的修改。注意，算法的所有步骤都可以根据初始价格匹配而应用于询问/出价表格/列表。针对匹配方面进行了对于表格/列表的后续修改。

价格删除

最新消息表示已从订单中删除旧价格等级。

状态

price(fullOB_table，fullOB_pointer)＞price(inputOB_table，inputOB_pointer)(bid side)

price(fullOB_table，fullOB_pointer)＜price(inputOB_table，inputOB_pointer)(ask side)

or

inputOB_pointer→end and inputOB_pointer＜level2_size

更新

append [price(fullOB_table，fullOB_pointer)，-vol(fullOB_table，fullOB_pointer)]to

change_list

increment fullOB_pointer

价格增加

最新消息表示新价格等级已经被添加至订单。

状态

price(fullOB_table，fullOB_pointer)＜price(inputOB_table，inputOB_pointer)(bid side)

price(fullOB_table，fullOB_pointer)＞price(inputOB_table，inputOB_pointer)(ask side)

or

fullOB_pointer→end(or empty)

更新

append [price(inputOB_table，inputOB_pointer)，vol(inputOB_table，inputOB_pointer)]

to tempOB_list

append [price(inpulOB_table，inputOB_pointer)，vol(inputOB_table，inputOB_pointer)]

to change_list

increment inputOB_pointer

价格相同

最新消息对订单中的当前价格等级没有影响。

状态

price(fullOB_table，fullOB_pointer)＝price(inputOB_table，inputOB_pointer)

更新

to tempOB_list

append [price(inputOB_table，inputOB_pointer)，Δvol(inputOB_table，inputOB_pointer)]

to change_list

increment fullOB_pointer

increment inputOB_pointer

如果指针指向订单表格的最高价格，则更新市场状态至“开放”。

价格下降

价格等级现在低于level2_size。

状态

inputOB_pointer＞level2_size

更新

append [price(fullOB_table，fullOB_pointer)，vol(fullOB_table，fullOB_pointer)]to

tempOB_list

increment fullOB_pointer

当价格等级超过等级2大小限制时，可以对其进行改变，因此根据它们的回报，价格等级可能不完全精确。

处理2

该处理随着交易对输入消息分类而开始。其将输入消息转换为inputTR_table并对最新的change_list执行匹配和修改。因此，change_list是所有交易和订单活动的综合，并且为用于生成金融指标的输入的主要源。

除了以下提到的其他状态要求之外，算法由匹配inputTR_table以根据序列号在change_list中找到最接近的匹配组成。注意，算法的所有步骤都可以根据初始价格匹配而应用于询问/出价列表。针对匹配方面进行对/列表的后续修改。

正常

状态

vol(inputTR_table)＝vol(change_list)

price(inputTR_table)＝price(change_list)

or

market status＝open

更新

mark(price，vol)in change_list as a normal transaction

如果市场状态开放，则确定顶级的最小出价/询问量，然后循环和标记所有交易直到交易和等于最小量。

隐藏

状态

price(inputTR_table)＝price(chahge_list)

vol(inputTR_table)＞vol(change_list)

更新

mark(price，vol)in change_list as a hidden transaction

未分类

状态

price(inputTR_table)＝price(change_list)

vol(inputTR_table)＜vol(change_list)

更新

mark(price，vol)in change_list as a hidden transaction

注意，在确定订单活动是否为交易的过程中存在延迟，这是因为必须等待直到在可以确定活动状态前接收到交易信息。这是交换处理这种信息的方式的直接结果。

描述性的金融指标

金融指标为由{数据类型，动作，动作类型}组成的三元组。表7和表8简要描述了这些元组的每一个都表示什么。注意，订单可以表示交易订单（生效）或等待订单（等待订单）。

表7

表8

表9

根据期望的动作和动作类型，数据类型包括用于指定时间段内的单个设备的所有订单，其满足表10所示的选择标准：

表10

作为示例，﹛货币额，等待，出价﹜表示针对在订单的出价方仍然等待的特定设备的价格的总和乘以所有订单的成交量，并表示等待购买订单。

发生在时间段（例如，一秒）内的改变累计和使用前述金融指标对它们进行相加是有利的，因为查看这种数据的典型用户在任何情况下都能监控发生在亚秒实时中的改变。一旦传送至用户，这还导致数据成本的较大降低（除带宽成本之外，这种成本可以为I/O成本）。

以下说明和示例关于本发明第五和第六方面，并表明数据库如何用于使得更加容易地识别指定数据串中的最小值。可以以模拟方式识别指定数据串中的最大值。以下说明用于构建和查询数据库的算法。

为了简化，以下说明的示例关于具有达到大约20个值的相对较短的数据系列。然而，清楚地，所描述的处理原则可以容易地用于较大的数据系列，其中，通过使用技术手段特别有效地执行数据系列的评价。

开始对存储在形成计算机系统一部分的数据库中的数据序列进行采样，目的在于生成数据序列中的记录的中间描述，以简化感兴趣子序列中的最小值的识别和提取。该中间描述将序列划分为通过局部最小值划界的一系列子序列。通过已知为覆盖匹配的技术来实现中间描述和一系列子序列的生成。

示例9

将使用表11所示的样本数据集来示出覆盖映射的技术示例。表11的样本数据集具有10个记录，每一个都分配有一个位置。位置号限定数据库的“方向”，即，位置号在数据库的前进方向上增加且在数据库的后退方向上减小。通常，数据记录以时间顺序被输入数据库，即，第一位置包含最旧的记录，以及最高的位置号包含最近的记录。

表11

位置	1	2	3	4	5	6	7	8	9	10
											记录	5	16	4	10	21	22	13	6	7	7

为了生成中间描述，对于序列中的每个数据记录r_c必须依次执行以下操作以从最旧的记录到最近的记录移动。

操作1

从当前位置开始，进行检查以查找被覆盖的最早值的位置。即，在数据库中在较旧记录的方向上向回移动，直到遇到具有小于或等于当前记录（r_c）的值的记录（r₁）。然后，记录（r₁）的位置用于限定当前位置的覆盖值。通过（位置（r₁）+1）给出覆盖值。如果没有记录匹配搜索标准，则位置（r₁）=0，并且覆盖值为1。

表12示出了表1的数据集，其被更新以示出用于每个记录的覆盖值。

表12

位置	1	2	3	4	5	6	7	8	9	10
											记录	4	16	4	10	21	22	13	6	7	7
覆盖	1	2	1	4	5	6	5	4	9	10

覆盖值是数据集中的局部趋势的标识符。如果局部趋势用于记录值以保持恒定或者随时间增加（例如，在位置4和6之后的子序列中）。则覆盖值与位置值相同。如果局部趋势用于记录值随时间减小（例如，在记录7和8的子序列中），则覆盖值将大于位置值。

操作2

如果覆盖值小于记录（r_c）的位置，则从（但不限于）覆盖位置（r₁）直到（和包括）当前位置（r_c）（处于当前位置的记录的值）标记所有先前记录。这可以意味着当对序列中的先前记录执行该操作时分配的标记被重写。表13示出了表11的数据库的修改版本，其中，依次针对所有10个记录执行操作1和2。

表13

位置	1	2	3	4	5	6	7	8	9	10
											记录	5	16	4	10	21	22	13	6	7	7
覆盖	1	2	1	4	5	6	5	4	9	10
											标记	4	4	4	6	6	6	6	6	7	7

一旦依次对序列中的每个记录执行了操作1和2，修改的数据库就可以用于识别输入数据序列中的最小值。

为了定位从最近记录往回延伸的指定数据串中的最小值，需要识别指定数据串的开始位置处的标记。在该示例中，如果位置10包含最近的数据值，则通过第五个最近记录的标记（即，位置6处的标记）来给出最后五个记录的最小值。类似地，通过第九个最近的记录的标记（即，位置2处的标记）给出最后九个记录的最小值。

在该示例中，用于定位最小值的技术仅在感兴趣的数据串从最近的记录开始向回延伸的情况下有效。需要针对增加至数据库的每个新记录来更新数据库（包括每个记录的覆盖值和标记值）。

示例10

表14示出了随着每个新记录被输入数据库如何在一系列阶段中建立数据库的详细示例。因此，在阶段1中，数据库在位置1处具有1个记录，而在阶段n中，数据库具有n个记录，第n个记录处于位置n。随着每个新记录被插入数据库，如在标为“算法步骤”的行中所解释的，更新覆盖值和标记值。

表14

在每个阶段，数据库可用于确定从最近的记录开始向回延伸的指定字符串的最小值。因此，在阶段n中，可以确定从第n个记录开始向回延伸的指定字符串中的最小值。

例如，在阶段4中，通过第二个最近记录的标记（即，位置3处的标记，其在这种情况下等于3）给出最后两个记录的最小值。

在阶段5中，通过第二个最近记录的标记（即，位置4处的标记，其在这种情况下等于5）给出最后两个记录的最小值。

示例11

表15-18示出了对于较长的数据系列如何生成中间描述。在这些表格中，相对于最近输入的记录值更新覆盖和标记。表格表示用于阶段5、10、15和20（即，在分别输入5、10、15和20个记录之后）的数据库的简要说明。对于处于每个特定阶段的从最近记录开始向回延伸的感兴趣数据串示出样本查询。

表15（阶段5）

表16（阶段10）

表17（阶段15）

表18（阶段20）

确定子序列中的最大值

可以修改用于构建和查询数据库的示例9-11中说明的方法和算法，以允许识别数据库的子序列的最大值。

再者，数据库记录的每一个都被分配有“位置”。通常，以时间顺序将记录输入数据库，使得最旧的记录分配位置1，而第n个记录分配位置n。因此，位置号在数据库的向前方向（例如，随着记录变得更加靠近最近时间）上增加，而在数据库的向回方向（例如，记录变得更旧）上减小。

生成数据的中间描述，其中，从最旧的记录移动到最近的记录，对于序列中的每个数据记录r_c执行以下操作。每当增加新记录时，都必须更新中间描述。

操作1：从当前位置开始，进行检查以查找被覆盖的最早值的位置。即，在较旧记录的方向上在数据库中向回移动，直到遇到具有小于或等于当前记录（r_c）的值的记录（r₁）。然后，记录（r₁）的位置用于限定当前位置的覆盖值。通过（位置（r₁）+1）给出覆盖值。如果没有记录匹配搜索标准，则位置（r₁）=0，并且覆盖值为1。

操作2：如果覆盖值小于记录（r_c）的位置，则从（但不包括）覆盖位置（r₁）到当前位置（r_c）（处于当前位置的记录的值）标记所有先前记录。这可以要求对序列中的先前记录执行操作2时分配的标记被重写。

示例12

表19示出了随着每个新记录被输入数据库如何在一系列阶段中建立用于确定最大值的数据库。因此，在阶段1中，数据库在位置1处具有1个记录，而在阶段n中，数据库具有n个记录，第n个记录处于位置n。随着每个新记录被插入数据库，如在标为“算法步骤”的行中所解释的，更新覆盖值和标记值。

表19

该数据库允许针对给定阶段为从最近记录开始向回延伸的指定数据串确定最大值。因此，例如，在阶段5中，通过位置2处的标记（在这种情况下具有值17）给出最后四个记录内的最大值。

在该示例中，定位感兴趣子序列中的最大值的查询仅对从增加至数据库的最近记录开始向回延伸的数据串有效。

尽管结合上述示例性实施方式描述了本发明，但对于本领域的技术人员来说，提供给该公开的许多等效修改和变化是显而易见的。因此，上面阐述的本发明示例性实施方式被认为是说明性的而不是限制性的。在不背离本发明的精神和范围的情况下，可以对所述实施方式进行各种变化。

上面提到的所有参考均结合于此作为引证。

Claims

1.一种用于根据输入值的集合来计算数量的计算机系统，所述计算机系统包括被配置为存储第一输入值x_n的序列的数据库，其中，n=1、2、…i，

其中，对于任一n值，x_n在所述序列中位于x_n+1和x_n-1之间，并且与以下值相关联：

第二输入值y_n；

转换值p_n，根据转换算法由y_n计算得出；以及

输出值z_n，其中，z_n=z_n-1+p_n；

所述数据库被进一步配置为存储多个输出值z_n。

2.根据权利要求1所述的计算机系统，其中，x_n为时间值。

3.根据权利要求1或2所述的计算机系统，其中，x_n为数字值。

4.根据权利要求3所述的计算机系统，其中，x_n+1-x_n=x_n-x_n-1。

5.根据权利要求4所述的计算机系统，其中，x_n为时间值，并且x_n-x_n-1小于0.5s，优选地小于0.1s，更优选地小于0.05s。

6.根据上述任一权利要求所述的计算机系统，其中，i＞1000。

7.根据上述任一权利要求所述的计算机系统，其中，所述第二输入值y_n为描述金融交易的变量。

8.根据上述任一权利要求所述的计算机系统，其中，

p_n=y_n；

p_n=y_n ²；

p_n=x_n·y_n；或者

p_n为y_n和另一第二输入值之间的距离的函数。

9.根据上述任一权利要求所述的计算机系统，其中，对于任一n值，x_n与又一输入值y′_n相关联，并且p_n=y_n·y′_n。

10.一种计算机实施方法，用于根据与从n=a扩展至n=b的第一输入值x_n的序列的一部分相对应的第二输入值y_n的集合来计算数量，并且包括从根据上述任一权利要求所述的数据库中提取至少一个输出值z_n，其中，n=b。

11.根据权利要求10所述的方法，包括从所述数据库中提取又一输出值z_n的又一步骤，其中，n=a。

12.根据权利要求10或11所述的方法，其中，所述计算的数量为：

与所述第一输入值x_n的序列的所述部分相对应的所述第二输入值y_n的总和；

与所述第一输入值x_n的序列的所述部分相对应的所述第二输入值y_n的平均值；

与所述第一输入值x_n的序列的所述部分相对应的所述第二输入值y_n的方差；

由与所述第一输入值x_n的序列的所述部分相对应的所述第二输入值y_n涵盖的距离；或者

所述第二输入值y_n与对应于所述第一输入值x_n的序列的所述部分的所述第一输入值x_n的相关性。

13.根据权利要求10或11所述的方法，采用根据权利要求9所述的数据库，其中，所述计算的数量为：

第二输入值y_n与对应于所述第一输入值x_n的序列的所述部分的又一输入值y′_n的乘积的平均值；或者

第二输入值y_n与对应于所述第一输入值x_n的序列的所述部分的所述又一输入值y′_n的相关性。

14.根据权利要求11至13中的任一项所述的方法，还包括在提取所述又一输出值的步骤的同时从所述数据库中提取附加值的步骤，所述附加值存储在高速缓存中用于后续计算。

15.根据权利要求14所述的方法，其中，所述又一输出值和所述附加值一起提供输出值z_n的序列的子序列。

16.一种在时间t编辑数据库用于存储时间相依变量的先前值的计算机实施方法，包括选择与从时间t向回测量的预定时间间隔的序列相对应的时间相依变量的值的集合的步骤。

17.根据权利要求16所述的方法，包括选择对应于时间t的所述时间相依变量的值的步骤。

18.根据权利要求16或17所述的方法，其中，所述预定时间间隔的序列中的两个最大时间间隔之差大于所述序列中的两个最小时间间隔之差。

19.根据权利要求18所述的方法，其中，从时间t向回测量的所述预定时间间隔的序列包括：

均小于一分钟的两个连续时间间隔，以及

所述序列中的两个另外的连续时间间隔，所述两个另外的时间间隔之差至少为一分钟。

20.根据权利要求18或19所述的方法，其中，所述预定时间间隔的序列中的连续时间间隔之差随着从时间t向回测量的时间间隔的幅度的增加而增加。

21.一种根据预定分类标准对数据集进行分类的计算机实施方法，包括以下步骤：

通览所述数据集以根据所述预定分类标准确定所述数据集中的所有值是否无序，以及

如果所述数据集中的所有值无序，则根据所述预定标准对所述数据集进行分类。

22.根据权利要求21所述的方法，其中，所述数据集中的每个值均为多个测量数据值的函数。

23.根据权利要求22所述的方法，其中，所述数据集中的每个值均为：

a）所述多个测量数据值的平均值；

b）所述多个测量数据值的总和；

c）所述多个测量数据值的最大值或最小值；或

d）所述多个测量数据值的标准偏差。

24.一种用于确定值序列的指定子序列的最小值和/或最大值的计算机系统，所述计算机系统包括数据库，所述数据库被配置为：

（i）存储值的序列；

（ii）识别所述值的序列的最小值和/或最大值；以及

（iii）至少限定值的第一子序列和紧跟在所述值的第一子序列之后的值的第二子序列，

其中，所述第一子序列和所述第二子序列之间的边界位于所述序列的所述最小值或所述最大值的位置处。

25.根据权利要求24所述的计算机系统，其中，所述第一子序列和所述第二子序列之间的边界位于所述序列的所述最小值的位置处，以及其中，所述数据库被进一步配置为：

（i）识别局部最小值，所述局部最小值对应于所述第一子序列之后的值的最小值；

（ii）限定紧跟在值的所述第二子序列之后的值的第三子序列，其中，所述第二子序列和所述第三子序列之间的边界位于所述局部最小值的位置处；

（iii）识别又一局部最小值，所述又一局部最小值对应于第n个子序列之后的值的最小值，其中，n=2；

（iv）限定紧跟在值的第（n+1）个子序列之后的值的第（n+2）个子序列，其中，所述第（n+1）个子序列和所述第（n+2）个子序列之间的边界位于又一局部最小值的位置处；以及

（v）针对所有整数值n重复步骤（iii）和（iv）直到n=k，其中，在n=k时，没有又一局部最小值可用于限定相邻子序列之间的边界。

26.根据权利要求24所述的计算机系统，其中，所述第一子序列和所述第二子序列之间的所述边界位于所述序列的所述最大值的位置处，以及其中，所述数据库被进一步配置为：

（i）识别局部最大值，所述局部最大值对应于所述第一子序列之后的值的最大值；

（ii）限定紧跟在值的所述第二子序列之后的值的第三子序列，其中，所述第二子序列和所述第三子序列之间的边界位于所述局部最大值的位置处；

（iii）识别又一局部最大值，所述又一局部最大值对应于第n个子序列之后的值的最大值，其中，n=2；

（iv）限定紧跟在值的第（n+1）个子序列之后的值的第（n+2）个子序列，其中，所述第（n+1）个子序列和所述第（n+2）个子序列之间的边界位于又一局部最大值的位置处；以及

（v）针对所有整数值n重复步骤（iii）和（iv）直到n=k，其中，在n=k时，没有又一局部最大值可用于限定相邻子序列之间的边界。

27.根据权利要求24至26中的任一项所述的计算机系统，其中，所述数据库被进一步配置为针对值的所述第一子序列中的每个值而提供标记，所述标记对应于在所述第一子序列和所述第二子序列之间的所述边界处的所述最小值或所述最大值的值。

28.根据从属于权利要求25或26的权利要求27所述的计算机系统，其中，所述数据库被进一步配置为针对直到n=k的每个子序列中的每个值提供标记，所述标记对应于在第n个子序列和第（n+1）个子序列之间的边界处的局部最小值或局部最大值的值。

29.根据权利要求28所述的计算机系统，其中，所述数据库被进一步配置为针对第（k+1）个子序列中的每个值提供标记，所述标记对应于各个值。

30.一种确定值序列的指定子序列的最小值和/或最大值的计算机实施方法，包括以下步骤：

（i）提供根据权利要求24至29中的任一项所述的计算机系统；

（ii）确定所述指定子序列是否跨越所述第一子序列和所述第二子序列；以及

（iii）如果所述指定子序列跨越所述第一子序列和所述第二子序列，则提取位于所述第一子序列和所述第二子序列之间的边界处的值。

31.根据权利要求30所述的方法，使用权利要求29所述的计算机系统，

其中，所述指定子序列具有开始点和结束点，所述指定子序列的所述结束点对应于所述值序列的结束点，以及

通过读取位于所述指定子序列的所述开始点的位置处的值的标记，来确定所述指定子序列的最小值或最大值。