CN112434253A

CN112434253A - 一种实时判断大数据或流数据离散程度的方法

Info

Publication number: CN112434253A
Application number: CN201910790667.9A
Authority: CN
Inventors: 吕纪竹
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2021-03-02

Abstract

方差和标准方差可用于判断大数据或流数据的离散程度。本发明公开了一种通过增量计算计算子集的方差和或标准方差从而可以实时地判断大数据或流数据离散程度的方法，系统，和计算设备程序产品。本发明的实施方案包括基于调整前计算子集的方差和或标准方差的二个以上组件增量计算调整后计算子集的方差和或标准方差的二个以上组件,然后根据需要基于一个或多个增量计算的组件生成调整后计算子集的方差和或标准方差。增量计算方差和或标准方差可以基于最新数据实时更新计算结果并避免访问调整后计算子集中的所有数据元素和执行重复计算从而提高计算效率，节省计算资源和降低计算系统能耗，使得实时判断大数据或流数据离散程度可以高效低耗地完成及一些场景下实时判断大数据或流数据离散程度从不可能变为可能。

Description

一种实时判断大数据或流数据离散程度的方法

技术领域

大数据或流数据分析。

背景技术

互联网，移动通讯，导航，网游，感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模，快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。

流数据是不断被发送器发送和接收器接收的数据。流数据可以是感应器采集并且不断给计算设备或电子设备传送的实时数据。通常包括陆续接收有一定时间间隔，具有相似格式的数据元素。流数据也可以是从存储器不停被读出的数据，例如从存储在多个计算设备存储器的大数据集中读出的数据。

如何高效实时并节省资源地处理和分析大数据或流数据是一个挑战。

处理大数据或流数据可包括在多个数据元素上做计算。所以，一个接收流数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时，缓冲区可以很大。

此外，流数据处理算法可以延伸到大数据处理上，因为大数据集随着时间积累并且可以被认为是具有不规律时间间隔的数据流。

方差和或标准方差可用于判断大数据或流数据离散程度。为了能够随时得到利用了最新数据的判断结果，方差和或标准方差可能会在流数据或大数据集有变化后需要重新计算。因此，一些(可能很多)数据元素会被重复访问。例如，有可能方差和或标准方差在含有最新的n个数据元素的计算子集上被计算。当一个新的数据元素被接收时，把该新数据元素加到计算子集里。然后计算子集里所有的n+1个数据元素会被用来重新计算方差和或标准方差。因此，用传统方法计算一个大数据集的更新后的计算子集的方差和或标准方差时会导致计算机系统从存储器中访问，提取和使用更新后的计算子集中的所有n+1个数据元素。

根据需要，计算子集规模n可能非常大，例如计算子集中的数据元素可能分布在云平台的成千上万台计算/存储设备上。在一些数据变化后的大数据上用传统方法重新计算方差和或标准方差耗时并浪费资源。

发明内容

方差和或标准方差可用于判断大数据或流数据离散程度。本发明拓展到方法，系统和计算设备程序产品以增量方式计算方差和或标准方差从而可以在调整计算子集规模后实时地判断大数据或流数据离散程度。为一个调整后计算子集增量计算方差和或标准方差包括增量计算大数据或流数据的方差和或标准方差的一个以上组件，然后根据需要基于一个或多个增量计算的组件计算方差和或标准方差。增量计算方差和或标准方差只需要接收/访问和使用新加入的数据元素，这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保留整个计算子集，因此时间复杂度以及空间复杂度都被降低从而使得实时判断大数据或流数据离散程度能够高效低耗地完成及一些场景下实时判断大数据或流数据离散程度从不可能变为可能。

初始化一个计算子集规模计数器以及方差和或标准方差的二个以上组件。

计算系统可根据需要基于初始化的组件来生成调整前计算子集的方差和或标准方差。

计算系统访问一个新的大数据元素或接收一个新的流数据元素。

计算系统根据需要把接收的数据元素存储到一个数据缓冲区里。

计算系统通过把访问或接收的新数据元素加入调整前计算子集里并且把计算子集规模加1来调整调整前计算子集。

计算系统增量计算调整后计算子集的方差和或标准方差的二个以上组件。

计算系统根据需要基于一个或多个增量计算过的组件来生成调整后计算子集的方差和或标准方差，即，方差和或标准方差可以在接收多个数据元素而不仅是一个数据元素后被生成。

计算系统可以持续地访问或接收新数据元素，调整调整前计算子集，增量计算二个以上组件，根据需要基于一个或多个增量计算过的组件生成方差和或标准方差，并根据需要重复以上这个过程。

本简述是以简化的方式介绍一些选择的概念，它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点，也不是为了用于帮助确认权利要求的主题所包括的范围。

本发明的其它特征和优点将在下面的描述中体现出来，会部分地从描述中明显体现，或从本发明的实践中学到。本发明的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本发明的这些和其它特征将在下面的描述和附加的权利要求书或本发明的实践中变得更加全面清晰。

附图说明

为描述能够获得本发明的上述的和其它的优点和特点的方式，上面简述的本发明的一个更具体的描述将通过参照附加的图表中所显示的特定的实施方案来展现出来。本发明将通过下列的图表更加详细和具体地来描述和解释，请理解这些图表只是描述了本发明的典型实施方案，因此它们不应被理解为对本发明的范围的限制：

图1显示了一个支持增量计算方差和或标准方差的例子计算系统的高层概括。

图1-1显示了一个为流数据增量计算方差和或标准方差并且所有组件都是直接增量计算的计算系统架构的例子。

图1-2显示了一个为流数据增量计算方差和或标准方差并且部分组件直接增量计算，部分组件间接增量计算的计算系统架构的例子。

图1-3显示了一个为大数据增量计算方差和或标准方差并且所有组件都是直接增量计算的计算系统架构的例子。

图1-4显示了一个为大数据增量计算方差和或标准方差并且部分组件直接增量计算，部分组件间接增量计算的计算系统架构的例子。

图2显示了一个为大数据或流数据增量计算方差和或标准方差的方法流程图的例子。

图3-1显示了在流数据上为增量计算方差和或标准方差计算窗口中被访问的数据元素。

图3-2显示了在大数据上为增量计算方差和或标准方差计算子集中被访问的数据元素。

图4-1显示了方差和标准方差的定义以及计算子集上计算方差和或标准方差的传统方程。

图4-2显示了调整后计算窗口上计算方差和或标准方差的传统方程。

图4-3显示了第一个方差和或标准方差增量计算算法(增量算法1)。

图4-4显示了第二个方差和或标准方差增量计算算法(增量算法2)。

图4-5显示了第三个方差和或标准方差增量计算算法(增量算法3)。

图5-1显示了用于一个计算实例的第一个计算子集。

图5-2显示了用于一个计算实例的第二个计算子集。

图5-3显示了用于一个计算实例的第三个计算子集。

图6-1显示了计算子集规模为10时，传统方差算法和增量方差算法的计算工作量对比。

图6-2显示了计算子集规模为1,000,000时，传统方差算法和增量方差算法的计算工作量对比。

图6-3显示了计算子集规模为10时，传统标准方差算法和增量标准方差算法的计算工作量对比。

图6-4显示了计算子集规模为1,000,000时，传统标准方差算法和增量标准方差算法的计算工作量对比。

具体实施方法

方差和或标准方差可用于判断数据离散程度。本发明拓展到方法，系统和计算系统程序产品通过用增量计算大数据或流数据的方差和或标准方差的二个以上(p(p≥2))组件，然后根据需要基于一个或多个增量计算的组件计算方差和或标准方差从而可以实时地判断大数据或流数据离散程度。为一个调整后计算子集增量计算方差和或标准方差包括增量计算大数据或流数据的方差和或标准方差的一个以上组件，然后根据需要基于一个或多个增量计算的组件计算方差和或标准方差。增量计算方差和或标准方差只需要接收或访问和使用新加入的数据元素，这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保留整个计算子集，因此时间复杂度以及空间复杂度都被降低从而使得实时判断大数据或流数据离散程度能够高效低耗地完成及一些场景下实时判断大数据或流数据离散程度从不可能变为可能。计算系统包括存储数据集规模和一个以上方差和或标准方差组件的存储设备。计算系统也可以选择性包括一个数据缓冲区为了存储接收的数据元素。

一个计算子集包含了计算方差和或标准方差所需要的数据元素，其数据可来源于存储在一个或多个存储设备上的大数据集或一个数据流。计算子集等同于在流数据或时间序列上计算方差和或标准方差时的移动计算窗口。本文中，它们的区别是计算窗口中的数据是有顺序的，而计算子集中的数据可以没有顺序。

在本文中，方差和或标准方差的一个组件是出现在方差和或标准方差定义公式中或其定义公式的任何转换中的一个量或表达式。方差和或标准方差是它自己最大的组件。方差和或标准方差可基于一个或多个组件或它们的组合被计算，所以多个算法支持增量方差和或标准方差计算。以下是一些方差和或标准方差的组件的例子。

方差和或标准方差可以通过用一个以上组件或他们的组合计算。如果所有需要的组件可以被增量计算，方差和或标准方差也可以被增量计算。因为多个方差和或标准方差的组件和更多组件的组合存在，有多个方法(算法)支持增量方差和或标准方差计算。本发明的实施方案描述的算法只是几个增量方差和或标准方差计算算法的例子，这些例子只是为了描述和说明本发明的方法而不代表所有可能的算法。

方差和或标准方差可以根据需要被计算，即只有当它被访问时。当计算子集上的方差和或标准方差没有因每个数据变化而被访问时，计算系统可以根据每次数据变化只增量计算一个以上组件。方差和或标准方差可在被访问时基于一个以上组件计算并被返回。根据需要，计算系统可以用一个以上组件计算计算子集的方差和或标准方差。

组件可以被直接增量计算或间接增量计算。区别是，当直接增量计算一个组件时，其计算将基于并使用该组件的上轮计算结果；但是当间接增量计算一个组件时，其计算将基于并使用该组件之外的一个以上组件，该一或多个组件可以是以不同方式已计算过的，如被初始化，直接增量计算或间接增量计算过的。

对于一个给定的组件，它可能在一个算法中被直接增量计算而在另一个算法中被间接增量计算。

对于一个给定的算法，假设不同组件的总数是p(p≥1)，直接增量计算的组件总数是v(1≤v≤p)，那么间接增量计算的组件总数是w＝p-v(0≤ w＜p)。在较优的算法中，至少一个组件会被直接增量计算。有可能所有组件都被直接增量计算(在这种情况下v＝p和w＝0)。但是，直接增量计算的组件必须每轮都被计算无论方差和标准方差是否每轮被访问。

对于一个给定的算法，如果一个组件是直接增量计算的，那么该组件每轮都需要被计算(即，每当一个新的数据元素被加到计算子集上时)。但是，如果该组件是间接增量计算的，那么该组件可以根据需要被计算(即，只有当方差和或标准方差需要被计算和访问时)。因此，当方差和或标准方差没有在某个特定的轮被访问并且部分组件被间接增量计算时，为了省时间可只有少量的组件被直接增量计算。当多个数据元素被加入到计算子集后方差和或标准方差需要被计算时这将是有用的。本发明的实现方案可被容易地扩展来处理上述情况通过增加一个循环来一个一个地处理加入的数据元素，在循环内部直接增量计算一个以上组件，在循环后或者间接增量计算一个以上组件后计算方差和或标准方差或者直接计算方差和或标准方差。

本发明的实施方案包括基于调整前计算子集上的二个以上计算过的组件，增量计算调整后计算子集上的二个以上方差和或标准方差的组件。

计算系统可以从空的调整前计算子集或从有二个以上计算过的组件的非空的调整前计算子集开始增量计算二个以上方差和或标准方差的组件。

当增量方差和或标准方差计算从一个空的调整前计算子集开始时，调整前计算子集的规模初始化为零并且一个以上组件初始化为零。

当增量方差和或标准方差计算从一个非空的调整前计算子集开始时，调整前计算子集的规模初始设为调整前计算子集里数据元素的数量，一个以上组件的初始化包括通过它们的定义基于调整前计算子集里的数据元素来计算或设为用各种不同方式已经计算过的结果，例如通过增量计算的结果，迭代方差和或标准方差计算(在另一个专利申请中描述)的结果，或减量方差和或标准方差计算(在另一个专利申请中描述)的结果。因此上一轮增量计算中对组件的计算也可以认为是当前轮计算对组件的初始化。

计算系统为存储于该计算系统上一个或多个存储设备上的一个数据集的或一个数据流的一个调整前计算子集，初始化一个计算子集规模计数器n(n＞1)，为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值，以及方差和或标准方差的除了和及平均值之外的一个或多个其它组件，该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数。

计算系统访问一个存储于一个或多个存储设备上的一个数据集的数据元素或接收来自一个数据流的一个新的流数据元素。

对于流数据处理，计算系统根据需要把接收的数据元素存储到一个数据缓冲区里。单纯的增量方差和或标准方差计算只需要访问刚接收到的数据元素但不需要访问之前接收到的数据元素，因此计算系统不需要分配存储空间保留计算子集所有的数据元素但是至少会保留计算子集规模和计算子集的一个以上方差和或标准方差组件，并且调整计算子集可以体现在调整计算子集规模和计算子集的方差和或标准方差的一个以上组件上。然而，因为迭代方差和或标准方差计算需要访问之前接收的数据元素，当结合增量和迭代方差和或标准方差计算时，接收的数据元素需要被保存在迭代方差和或标准方差计算要用到的一个数据缓冲区里。因此对于流数据来说，计算系统可能选择性地需要一个数据缓冲区保存接收的数据元素。

计算系统调整调整前计算子集通过：把访问或接收的数据元素加入到调整前计算子集并且相应地把计算子集规模计数器的值加1。

计算系统增量计算调整后计算子集的方差和或标准方差的二个以上组件包括重用调整前计算子集的v(1≤v≤p)个组件直接增量计算调整后计算子集的方差和或标准方差的v个组件。直接增量计算v个组件包括逐个地直接增量计算v个组件中的每一个。直接增量计算一个组件包括，访问被加入到调整前计算子集的数据元素和为调整前计算子集计算过的该组件，向被访问的组件数学地加入被访问的数据元素对该组件的任何贡献。例如，增量计算v个组件可包括直接增量计算计算子集的总和或平均值。直接增量计算总和或平均值包括访问加入到调整前计算子集上的数据元素和访问调整前计算子集的总和或平均值，并向访问的总和或平均值中数学地加入访问的数据元素对总和或平均值的任何贡献。

计算系统增量计算调整后计算子集的方差和或标准方差的二个以上组件包括根据需要间接增量计算调整后的计算子集的方差和或标准方差的w＝p-v 个组件。间接增量计算方差和或标准方差的w个组件包括逐个地间接增量计算w 个组件中的每一个。间接增量计算一个组件包括访问和利用除了该组件自身以外的一个以上组件。该一个以上组件可以是以各种不同方式已经计算过的，例如可以是可以是被初始化的，直接增量计算过的或间接增量计算过的。

计算系统根据需要基于一个或多个增量计算过的组件来生成方差和或标准方差。方差可以是样本方差或总体方差。标准方差可以是样本标准方差或总体标准方差。

计算系统可以持续地接收新数据元素，调整调整前计算子集，增量计算二个以上组件，根据需要基于增量计算过的一个或多个的组件生成方差和或标准方差，并根据需要重复以上这个过程。

本发明的实施方案可以包括或利用包含计算设备硬件，例如一个或多个处理器和以下更详细描述的存储设备，专用的或通用的计算设备。本发明实施方案的范围也包括物理的及其它用于携带或存储计算设备可运行指令和或数据结构的计算设备可读媒体。这些计算设备可读媒体可以是通用或专用计算设备可访问的任何媒体。存储计算设备可运行指令的计算设备可读媒体是存储媒体(设备)。携带计算设备可运行指令的计算设备可读媒体是传输媒体。因此，仅用以举例而非限制，本发明的实施方案可以包括至少两种不同类型的计算设备可读媒体：存储媒体(设备)和传输媒体。

计算设备存储媒体(设备)包括随机存取存储器(RAM)，只读存储器 (ROM)，电可擦除可编程只读存储器(EEPROM)，只读光盘存储器(CD-ROM)，固态硬盘(SSD)，闪存(FlashMemory)，相变存储器(PCM)，其它类型存储器，其它光学磁盘存储，磁盘存储器或其它磁性存储设备，或任何其它能用于存储所需要的以计算设备可运行指令或数据结构形式构成的程序代码并且其可以被通用或专用计算设备访问的媒体。

一个“网络”被定义为使计算设备和或模块和或其它电子设备能够传输电子数据的一个或多个数据链接。当信息被网络或另外的通讯连接(有线，无线，或有线和无线的组合)传输或提供给计算设备时，计算设备把连接视为传输媒体。传输媒体可包括用于携带所需要的以计算设备可运行指令或数据结构形式构成的程序代码，并且其可以被通用或专用计算设备访问的一个网络和或数据链接。以上的组合也应包括在计算设备可读媒体的范围之内。

此外，在应用不同计算设备组件时，计算设备可运行指令或数据结构形式的程序代码可以从传输媒体自动传输到存储媒体(设备)(或反过来)。例如，从网络或数据链接上接收的计算设备可运行指令或数据结构可以被暂存进网络接口模块(例如，NIC)中的随机存取存储器中，然后最终传输到计算设备的随机存取存储器和或到计算设备的一个较小易变的存储媒体(设备)。所以，应当理解存储媒体(设备)可以被包括在也(或甚至主要)应用传输媒体的计算设备组件里。

计算设备可运行指令包括，例如，指令和数据，当被处理器运行时，使得通用计算设备或专用计算设备去执行一个特定功能或一组功能。计算设备可运行指令可以是，例如，二进制，中间格式指令例如汇编代码，或甚至源代码。虽然描述的客体是用结构特征和或方法动作的具体语言描述的，应当理解在附加的权利要求书中定义的客体不一定局限于以上描述的特征或动作。而是，描述的特征或动作仅是以实现权利要求的例子形式而公开的。

本发明的实施方案可以在由多种类型的计算设备配置的网络计算环境中实现，这些计算设备包括个人电脑，台式机，笔记本电脑，信息处理器，手持设备，多处理系统，基于微处理器或可编程的电子消费品，网络电脑，小型计算机，主计算机，超级计算机，移动电话，掌上电脑，平板电脑，呼机，路由器，交换机及类似产品。本发明的实施方案也可以应用于通过网络互联(即可通过有线数据链接，无线数据链接，也可以是有线数据链接与无线数据链接的结合)的执行任务的本地或远程计算设备构成的分布式系统环境。在分布式系统环境中，程序模块可以被存储在本地或远程存储设备上。

本发明的实施方案也可以在云计算环境里实现。在本描述及后续的权利要求书中，“云计算”被定义为一个使得能够按需通过网络访问到可配置计算资源的共享池的模型。例如，云计算可以被市场利用去提供普及和方便的按需访问可配置计算资源的共享池。可配置计算资源的共享池可以通过虚拟化很快预备并且以低管理开销或低服务提供商互动来提供，然后做相应的调整。

云计算模型可以包括各种特征例如，按需自服务，宽带网络访问，资源收集，快速收放，计量服务等等。云计算模型也可以各种服务模式来体现，例如，软件做为服务(“SaaS”)，平台做为服务(“PaaS”)，以及设施做为服务(“IaaS”)。云计算模型也可以通过不同的部署模型例如私有云，社区云，公共云，混合云等等来部署。

本发明有效地降低了对计算能力的要求，因此其实施方案也适用于边缘计算。

图1图示了为大数据或流数据增量计算方差和或标准方差的一个例子计算系统100的高层概述。参考图1，计算系统100包括由不同网络，例如局域网 1021，无线网1022和互联网1023等等，连接的多个设备。多个设备包括，例如，数据分析引擎1007，存储系统1011，实时数据流1006，以及可以安排数据分析任务和或查询数据分析结果的多台分布的计算设备，例如个人电脑1016，手持设备1017和台式机1018等等。

数据分析引擎1007可以包括一个或多个处理器，例如CPU 1009和CPU 1010，一个或多个系统内存，例如系统内存1008，及组件计算模块131和方差计算模块191和标准方差计算模块193。模块131的细节会在其它图表中更详细地图示(例如，图1-1和图1-2)。存储系统1011可以包括一个或多个存储媒体，例如存储媒体1012和存储媒体1014，其可以用于存放大数据集。例如，1012和或 1014可以包括数据集123。存储系统1011里的数据集可以被数据分析引擎1007 访问。

通常，数据流1006可以包括来自不同数据源的流数据，例如，股价，音频数据，视频数据，地理空间数据，互联网数据，移动通讯数据，网游数据，银行交易数据，传感器数据，和或闭合字幕数据等。这里举例描绘了几个，实时数据 1000可以包括从感应器1001，股票1002，通讯1003和银行1004等等实时收集的数据。数据分析引擎1007可以接收来自数据流1006的数据元素。来自不同数据源的数据可以被存储在存储系统1011并且为大数据分析所访问，例如数据集 123可以来自不同的数据源并且为大数据分析所访问。

请理解图1是以非常简化的形式介绍一些概念，例如，分布设备1016和 1017可能经过防火墙才联到数据分析引擎1007，数据分析引擎1007从数据流 1006和或存储系统1011访问或接收的数据可能经过数据过滤器筛选，等等。

图1-1图示了为流数据集增量计算方差和或标准方差，其所有(v＝p≥ 1)组件被直接增量计算，的例子计算系统架构100A。关于计算系统架构100A，这里将先只介绍该架构中的主要部件的功能和相互关系，而关于这些部件如何协作共同完成增量方差和或标准方差计算的过程将在后面结合图2中描述的流程图一起介绍。图1-1图示了图1显示的1006和1007。参考图1-1，计算系统架构100A包括组件计算模块131，方差计算模块191和标准方差计算模块193。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络，如局域网，广域网，甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地，组件计算模块131和任何其它连接的计算设备和它们的组件，可以在网络上发送和接收消息相关数据(例如，互联网协议(“IP”) 数据报和其它使用IP数据报的高层协议，例如，用户数据报协议(“UDP”)，实时流协议(“RTSP”)，实时传输协议(“RTP”)，微软媒体服务器(“MMS”)，传输控制协议(“TCP”)，超文本传送协议(“HTTP”)，简单邮件传送协议(“SMTP”)，等等)。

通常，数据流190可以是电子加密信号的序列(例如，多个包的数据或数据包)用于发送或接收在发送过程中的信息。数据流190可以流化数据，比如，例如，股票报价，音频数据，视频数据，地理空间数据，互联网数据，移动通讯数据，网游数据，银行交易数据，传感器数据，闭合字幕数据，和实时文字等，到计算机架构100A。数据流190可以是实时流或流化了的存储数据。

随着数据元素被接收，流数据元素经过存储在存储设备119的计算子集规模计数器118。计算子集规模计数器118跟踪计算子集的规模。每当计算系统接收到新的数据元素，计算子集规模计数器118会加一。计算子集规模计数器 118可以被重置到零当增量方差和或标准方差计算被重置。计算子集规模计数器 118可以被重置到特定的值当增量方差和或标准方差计算在非空的计算子集开始计算。

例如，当数据元素101经过计算子集规模计数器118时，计数器118会加一。计算子集规模计数器118会被存储在存储设备119。计算子集规模计数器118 和数据元素101都可以被组件计算模块131访问。

随后，数据元素102可被接收。当数据元素102经过计算子集规模计数器118时，计数器118会加一。调整后的计算子集规模计数器118会被存储在存储设备119。调整后的计算子集规模计数器118和数据元素102都可以被组件计算模块131访问。

计算系统架构100A包含一个可选的数据缓冲区125来存储数据流190 的输入数据元素。增量方差和或标准方差计算算法不需要访问接收最新数据元素之前接收的任何数据元素，因此它不需要为单纯的增量方差和或标准方差计算存储接收的数据元素。但是，结合增量方差和或标准方差计算和迭代方差和或标准方差计算时，接收的数据元素需要为将来的运用被存储，因此计算系统架构 100A在这个情况下会有一个数据缓冲区125，所以数据缓冲区125。

参考计算系统架构100A，增量组件计算模块131包含v(v＝p≥3)个组件计算模块为计算计算子集的方差和或标准方差的v个组件。数字v随着使用的增量算法不同而不同。如图1-1所示，组件Cd₁计算模块块131包含组件计算模块161和组件Cd_v计算模块162，有v-2个其它组件计算模块在它们之间。计算模块161包含初始化模块132用于初始化组件Cd₁和增量算法133用于直接增量计算组件Cd₁。组件Cd_v计算模块162包含初始化模块138用于初始化组件Cd_v和增量算法139用于直接增量计算组件Cd_v。初始化模块132被配置成为计算子集初始化组件Cd₁且初始化模块138被配置成为计算子集初始化组件Cd_v。141是组件Cd₁的初始值。初始化模块132可被用于初始化组件Cd₁或当方差和或标准方差计算被重置。如果计算子集是空的(计算子集规模计数器是零)，初始化模块 132初始化组件141为零。如果计算子集是非空的，初始化模块132初始化组件 141为重置模块129传进的特定值贡献151。同样，初始化模块138可以被用于初始化组件Cd_v或当方差和或标准方差计算被重置。组件145是组件Cd_v的初始值。如果计算子集是空的(计算子集规模计数器是零)，初始化模块138初始化组件145为零。如果计算子集是非空的，初始化模块138初始化组件145为重置模块129传进的特定值贡献181。

增量算法也被配置成为计算子集直接增量计算v个组件。133接收先前的组件Cd₁值和一个最新加进计算子集的数据元素为输入。133用先前的组件Cd₁值和最新的数据元素来直接增量计算一个新的组件Cd₁。贡献加入模块133A可以加入最新的数据元素的任何贡献到先前的组件Cd₁。加入最新数据元素的任何贡献可以为调整过的计算子集计算组件Cd₁。139工作方法和133相似。139接收先前的组件Cd_v值和一个最新加进计算子集里最新的数据元素为输入。139用先前的组件Cd_v值和最新的数据元素来直接增量计算一个新的组件Cd_v。贡献加入模块139A可以加入最新数据元素的任何贡献到先前的组件Cd_v。加入最新的数据元素的任何贡献可以为调整过的计算子集计算组件Cd_v。

参考图1-1，计算系统架构100A也包括方差计算模块191和标准方差计算模块193。在p(p≥1)个方差和或标准方差组件被组件计算模块131增量计算后，191可以基于一个或多个增量计算过或初始化的组件生成方差192，193可以基于一个或多个增量计算过或初始化的组件生成标准方差194。

图1-2图示了一个为流数据增量计算方差和或标准方差并且部分(v(1≤v＜p))组件直接增量计算，部分(w＝p-v)组件间接增量计算的计算系统架构100B的例子。数字v和数字w依赖于具体应用的算法。计算系统架构100B和100A的很多部件有同样的标记号。那些部件有同样的架构并且按同样方式工作。计算系统架构100B和计算系统架构 100A之间的区别是架构100B包括组件计算模块135。除了100B里的135以外，和100A 有同样标记号的部件都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西，只有不同的部分会在这里讨论。100B里面的数字v和100A里面的数字v可能不同，因为100A里有些被直接增量计算的组件会在100B里被间接增量计算。在100A，v＝p≥ 3，但是在100B，1≤v＜p。参考图1-2，计算系统架构100B包括组件计算模块135。 135通常包括w＝p-v个组件计算模块为了间接增量计算w个组件。例如，135包括组件Ci₁计算模块163为了间接增量计算组件Ci₁和组件Ci_w计算模块164为了间接增量计算组件Ci_w，并且有w-2个组件计算模块在它们之间。间接增量计算w个组件包括逐个地间接增量计算每个w个组件。间接增量计算一个组件包括访问和用除它自己之外的一个以上组件。那一个以上组件可以是被初始化，直接增量计算或间接增量计算过的。

参考计算系统架构100B，在所有p(p＝v+w)个组件被增量计算过后，方差计算模块191可以根据需要，用一个或多个增量计算过或初始化的组件生成方差192，标准方差计算模块193可以根据需要，用一个或多个增量计算过或初始化的组件生成标准方差194。

图1-3图示了一个为大数据集增量计算方差和或标准方差，其所有 (v＝p≥1)组件被直接增量计算，的例子计算系统架构100C。关于计算系统架构100C，这里将先只介绍该架构中的主要部件的功能和相互关系，而关于这些部件如何协作共同完成增量方差和或标准方差计算的过程将在后面结合图2中描述的流程图一起介绍。图1-3图示了图1显示的1006和1007。参考图1-3，计算系统架构100C包括组件计算模块131，方差计算模块191和标准方差计算模块193。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络，如局域网，广域网，甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地，组件计算模块131和任何其它连接的计算设备和它们的组件，可以在网络上发送和接收消息相关数据(例如，互联网协议(“IP”)数据报和其它使用IP数据报的高层协议，例如，用户数据报协议 (“UDP”)，实时流协议(“RTSP”)，实时传输协议(“RTP”)，微软媒体服务器 (“MMS”)，传输控制协议(“TCP”)，超文本传送协议(“HTTP”)，简单邮件传送协议 (“SMTP”)，等等)。组件计算模块131的输出会被作为方差计算模块191的输入，方差计算模块191可以生成方差192。组件计算模块131的输出会被作为标准方差计算模块193的输入，标准方差计算模块193可以生成标准方差194。

如图1-3所示，有一个存储媒介121。存储媒介121包含数据集123。数据集123包含存在存储媒介121上多个位置的多个数据元素。例如，数据元素 106，105，103，104，101，102分别存储在位置121A，121B，121C，121D，121E，121F 等，还有多个数据元素存储在其它位置。

计算子集122，数据集123的一个非空计算子集，包含来自该数据集的多个数据元素。例如，计算子集122包含数据元素106，105，103和104。

每当从存储媒介上访问一个数据元素，计算系统通过把该数据元素加入到计算子集中并把计算子集规模计数器118的值加1来调整计算子集。118的值可被组件计算模块131访问或接收，并且它可被重置模块129重置为0或一个特定的值当增量方差和或标准方差计算重新开始在一个计算子集上进行时。例如，在100C中，在访问数据元素101之前，计算子集122包括4个数据元素，所以计算子集规模计数器可被初始化为4。当一个数据元素101被从位置121E访问时，101被加入到调整前的计算子集122(122变成调整后的计算子集122A)，并且计算子集规模计数器118的值被加1。计算子集规模计数器118和数据元素101都可被组件计算模块131访问或接收。

随后，数据元素102可被从位置121F访问。102将被加入到计算子集 122A(122A变成调整好后的计算子集122B)中，并且计算子集规模计数器118的值被加1。计算子集规模计数器118和数据元素102都可被组件计算模块131访问或接收。

增量方差和或标准方差计算有可能从一个其计算子集规模计数器以及一个以上方差和或标准方差组件已经被初始化或计算了的计算子集开始。例如，在计算系统架构100C中，从组件Cd₁ 141到组件Cd_v 145的v个组件已经被初始化。如图1-3所示，组件Cd₁141包括贡献151(来自初始化的贡献)，贡献152 (来自于数据元素101的贡献)，和贡献153(来自数据元素102的贡献)。类似地，组件Cd_v 145包括贡献181(来自于初始化的贡献)，贡献182(来自于数据元素101的贡献)，和贡献183(来自数据元素102的贡献)。

参考计算系统架构100C，增量组件计算模块131包含v(v＝p≥1)个组件计算模块为计算计算子集的方差和或标准方差的v个组件。数字v随着使用的增量算法不同而不同。如图1-3所示，组件Cd₁计算模块块131包含组件计算模块161和组件Cd_v计算模块162，有v-2个其它组件计算模块在它们之间。计算模块161包含初始化模块132用于初始化组件Cd₁和增量算法133用于直接增量计算组件Cd₁。组件Cd_v计算模块162包含初始化模块138用于初始化组件Cd_v和增量算法139用于直接增量计算组件Cd_v。初始化模块132被配置成为计算子集初始化组件Cd₁且初始化模块138被配置成为计算子集初始化组件Cd_v。141是组件Cd₁的初始值。初始化模块132可被用于初始化组件Cd₁或当方差和或标准方差计算被重置。如果计算子集是空的(计算子集规模计数器是零)，初始化模块 132初始化组件141为零。如果计算子集是非空的，初始化模块132初始化组件 141为重置模块129传进的特定值贡献151。同样，初始化模块138可以被用于初始化组件Cd_v或当方差和或标准方差计算被重置。组件145是组件Cd_v的初始值。如果计算子集是空的(计算子集规模计数器是零)，初始化模块138初始化组件145为零。如果计算子集是非空的，初始化模块138初始化组件145为重置模块129传进的特定值贡献181。

增量算法也被配置成为计算子集直接增量计算v个组件。133接收先前的组件Cd₁值和一个被加入到计算子集的数据元素为输入。133用先前的组件Cd₁值和被加入的数据元素来直接增量计算一个新的组件Cd₁。贡献加入模块133A可以加入被加入的数据元素的任何贡献到先前的组件Cd₁。加入被加入数据元素的任何贡献可以为调整过的计算子集计算组件Cd₁。139工作方法和133相似。139 接收先前的组件Cd_v值和一个被加入到计算子集里的数据元素为输入。139用先前的组件Cd_v值和被加入的数据元素来直接增量计算一个新的组件Cd_v。贡献加入模块139A可以加入被加入的数据元素的任何贡献到先前的组件Cd_v。加入被加入的数据元素的任何贡献可以为调整过的计算子集计算组件Cd_v。

参考图1-3，计算系统架构100C也包括方差计算模块191和标准方差计算模块193。在p(p≥1)个方差和或标准方差组件被组件计算模块131增量计算后，191可以基于一个或多个增量计算过或初始化的组件生成方差192，193可以基于一个或多个增量计算过或初始化的组件生成标准方差194。

图1-4图示了一个为大数据增量计算方差和或标准方差并且部分 (v(1≤v＜p))组件直接增量计算，部分(w＝p-v)组件间接增量计算的计算系统架构100D的例子。数字v和数字w依赖于具体应用的算法。计算系统架构 100D和100C的很多部件有同样的标记号。那些部件有同样的架构并且按同样方式工作。计算系统架构100D和计算系统架构100C之间的区别是架构100D包括组件计算模块135。除了100D里的135以外，和100C有同样标记号的部件都按同样的方式工作。为了不重复之前在100C描述里面解释过的东西，只有不同的部分会在这里讨论。100F里面的数字v和100C里面的数字v可能不同，因为 100C里有些被直接增量计算的组件会在100D里被间接增量计算。在100C，v＝ p≥1，但是在100D，1≤v＜p。参考图1-4，计算系统架构100D包括组件计算模块135。135通常包括w＝p-v个组件计算模块为了间接增量计算w个组件。例如，135包括组件Ci₁计算模块163为了间接增量计算组件Ci₁和组件Ci_w计算模块164为了间接增量计算组件Ci_w，并且有w-2个组件计算模块在它们之间。间接增量计算w个组件包括逐个地间接增量计算每个w个组件。间接增量计算一个组件包括访问和用除它自己之外的一个以上组件。那一个以上组件可以是被初始化，直接增量计算或间接增量计算过的。

参考计算系统架构100D，在所有p(p＝v+w)个组件被增量计算过后，方差计算模块191可以根据需要，用一个或多个增量计算过或初始化的组件生成方差192，标准方差计算模块193可以根据需要，用一个或多个增量计算过或初始化的组件生成标准方差194。

图2图示了一个为大数据或流数据增量计算方差和或标准方差的方法 200的流程图例子。方法200会和关于计算系统架构100A，100B，100C，和100D 的组件和数据被分别描述。

方法200包括初始化计算子集规模计数器118的值n(n≥0)和大数据或流数据的一个调整前的计算子集的方差和或标准方差的v(1≤v≤p，p≥2)个组件(201)。例如，对于计算系统架构100A，重置模块129可以为可被初始化模块132访问的组件Cd₁和可被初始化模块138访问的组件Cd_v，之间的所有组件设置初始值并且为计算子集规模计数器118设相对应的初始值。132可以访问组件Cd₁的初始值并且用成为贡献151的值初始化组件Cd₁141。同样，138可以访问组件Cd_v的初始值并且用成为贡献181的值初始化组件Cd₁ 145。

方法200包括根据需要基于一个或多个除了其组件本身之外的其它组件一个一个地间接增量计算w＝p-v个组件(209)。例如，在计算系统架构100B 和100D中，组件计算模块135可以一个一个地间接迭代计算w＝p-v个组件。

方法200包括根据需要基于初始化的一个或多个组件为调整前的计算子集生成一个方差(210)和或标准方差(211)。例如，计算系统架构100A，100B， 100C，和100D中，方差计算模块191可以根据需要基于初始化的一个或多个组件为调整前的计算子集生成一个方差192，而标准方差计算模块193可以根据需要基于初始化的一个或多个组件为调整前的计算子集生成一个标准方差194。

方法200包括访问数据集的一个数据元素或接收一个数据流的一个数据元素(202)。例如，数据元素101可以被访问或接收。

方法200包括根据需要存储该数据元素到一个可选的缓冲区(203)。增量方差和或标准方差计算算法不需要存储接收的数据元素；但是当增量方差和或标准方差计算算法结合迭代方差和或标准方差计算算法时，接收的数据元素需要被存储，所以接收到的数据元素可以根据需要被存在一个缓冲区。例如，参考计算系统架构100A和100B，数据元素101可以被存在选择的数据缓冲区121。

方法200包括把访问或接收的数据元素加入到调整前计算子集并且给计算子集规模计算器加1来调整调整前计算子集(204)。例如，在访问或接收到数据元素101后，把数据元素101加入到计算子集123中，并把计算子集规模计数器118当前的值加1来做调整。

方法200包括通过重用调整前计算子集的v个组件和加入到调整前计算子集的数据元素来直接增量计算调整后计算子集的方差和或标准方差的v个组件(205)。例如，算法133可以重新用组件Cd₁ 141和新数据元素101直接增量计算Cd₁ 143，算法139可以重新用组件Cd_v 145和新数据元素101直接增量计算Cd_v 147。

直接增量计算下个方差和或标准方差的v个组件包括访问加入到调整前的计算子集的数据元素(206)。例如，对于计算系统架构100A，增量算法133 可以访问数据元素101并且增量算法139也可以访问数据元素101。

直接增量计算下个方差和或标准方差的v个组件包括访问调整前的计算子集的方差和或标准方差的v个组件(207)。例如，对于计算系统架构100A，增量算法133可以访问组件Cd₁ 141，增量算法139可以访问组件Cd_v 145。

直接增量计算下个方差和或标准方差的v个组件包括向访问的每个组件数学地加入被加入的数据元素的任何贡献(208)。例如，对于计算系统架构 100A，增量计算组件Cd₁ 143可以包括贡献加入模块133A数学地加入贡献152 到组件Cd₁ 141并且增量计算组件Cd_v 147可以包括贡献加入模块139A数学地加入贡献182到组件Cd_v145。贡献152和182都是来自数据元素101的贡献。

如图1-1所示，组件Cd₁ 143包括贡献151和贡献152，组件Cd_v 147包括贡献181和贡献182。贡献151是来自初始化的贡献。贡献152是来自数据元素101的贡献。贡献181是来自初始化的贡献。贡献182是来自数据元素101的贡献。

除了直接增量计算组件，部分组件可以被间接增量计算。当v＜p(即，不是所有组件被直接增量计算)，方法200包括根据需要基于一个或多个除了其组件本身之外的其它组件一个一个地间接增量计算w＝p-v个组件(209)。因为w个间接增量计算的组件是用其它组件计算的，它们就不需要被初始化。此外，那w个间接增量计算的组件不需要每轮被计算(即，新数据元素来了并且数据元素被加入计算子集)。这w个组件只需要在方差和或标准方差被访问时被计算。例如，参考图1-2，部分组件被直接增量计算，部分被间接增量计算，组件Ci₁计算模块163可以基于一个或多个Ci₁以外的组件间接增量计算Ci₁，组件 Ci_w计算模块164可以基于一个或多个Ci_w以外的组件间接增量计算Ci_w。该一个或多个组件可以是初始化，直接增量计算或间接增量计算过的。对于一个特定的组件，它可以被一个算法直接增量计算或被另一个算法间接增量计算。对于一个特定的算法，直接增量计算的组件必须在每当数据元素加入数据集的时候被计算，无论方差和或标准方差有没有被访问；但是，间接增量计算的组件可以根据需要被计算(即，只当方差和或标准方差被访问时)。

方法200包括根据需要基于一个或多个初始化或增量计算过的方差和或标准方差的组件生成方差(210)。例如，方差计算模块191可以基于一个或多个增量计算的组件(例如，组件Cd₁ 143和组件Cd_v 147)生成方差192。

方法200包括根据需要基于一个或多个初始化或增量计算过的方差和或标准方差的组件生成标准方差(211)。例如，标准方差计算模块193可以基于一个或多个增量计算的组件(例如，组件Cd₁ 143和组件Cd_v 147)生成标准方差 194。

202-208可以随着更多数据元素的访问或接收被重复。209-211可以根据需要被重复。例如，计算组件Cd₁ 143到组件Cd_v 147之后，新数据元素102可以被接收。

增量算法133可以重用组件Cd₁ 143直接地增量计算组件Cd₁ 144。增量算法133可以访问下个数据元素102。增量算法133可以访问组件Cd₁ 143。直接地增量计算组件Cd₁144可以包括贡献加入模块133A把贡献153数学地加入到组件Cd₁ 143。贡献153是数据元素102的贡献。同样，增量算法139可以重用组件Cd_v 147直接地增量计算组件Cd_v 148。增量算法139可以访问下个数据元素102。增量算法139可以访问组件Cd_v 147。直接增量计算组件Cd_v 148 可以包括贡献加入模块139A把贡献183数学地加入到组件Cd_v 147。贡献183 是数据元素102的贡献。如图所示，组件Cd₁ 144包括贡献151(初始化的贡献)，贡献152(数据元素101的贡献)，和贡献153(数据元素102的贡献)，组件 Cd_v 148包括贡献181(初始化的贡献)，贡献182(数据元素101的贡献)，和贡献183(数据元素102的贡献)。当下个数据元素被接收，组件Cd₁ 144可以被用来直接增量计算下个组件Cd₁并且组件Cd_v 148可以被用来直接增量计算下个组件Cd_v。

如图2所示，重置212可以被用来重置增量方差和或标准方差计算。当重置212在205或210之后被调用，计算子集规模计数器和方差和或标准方差的 v个组件会被重置或初始化。例如，组件Cd₁ 141可以被初始化为零当计算子集规模计数器重置为零或组件Cd₁141可以被初始化为一个已经被计算过的特定值当计算子集规模计数器是非零的。后者可以发生在把增量方差和或标准方差计算与迭代方差和或标准方差计算或减量方差和或标准方差计算结合时。组件 Cd_v 145可以用同样方法被初始化。

图3-1图示在流数据上增量计算方差和或标准方差的计算窗口300A中被访问的数据元素。计算窗口和计算子集的区别是计算窗口里的数据元素有顺序 (例如，数据元素每次都加入到计算窗口的左边或右边)。例如，参考图3-1，新数据元素每次都附加到计算窗口300A的左边。计算窗口300A可以从开始是空的或非空的，其v(1≤v≤p)个组件已经被计算过。随着时间的推移，新数据元素，例如，数据元素数据元素x₁，然后x₂，然后x₃，.....x_n，x_n+1，......会被加入到计算窗口并且被访问，为了直接增量计算方差和或标准方差的下v个组件和间接增量计算w＝p-v个组件。这些增量计算过的组件中的一个或多个会被用来计算方差和或标准方差。这v个组件可以被直接增量计算通过加入到计算窗口的新数据元素和先前的数据窗口的v个组件，而不需要访问计算窗口300A里的其它数据元素。对于一个给定的增量算法，v是个常量，所以直接增量计算v个组件的操作数也是个常量，间接增量计算w＝p-v个组件的操作数也是个常量。所以，计算一个给定的规模为n的计算窗口的所有p个组件的时间复杂度从O(n)降低到O(1)。方差和或标准方差可以用一个或多个增量计算过的组件被计算，所以整体的时间复杂度从O(n)降低到O(1)。随着n的增加，计算量的降低越突出。

图3-2图示在大数据上增量计算方差和或标准方差的计算子集300B中被访问的数据元素。计算子集和计算窗口的区别是计算子集上的数据元素没有顺序(例如，数据元素可以被加入到计算子集的任何位置)。例如，参考图3-2，一个新数据元素可以被加入到计算子集300B的任何位置。计算子集300B可以从开始是空的或非空的，其v(1≤v≤p)个组件已经被计算过。随着时间的推移，数据元素，例如，数据元素x_a，被加入到计算子集的灰色位置并且被访问，为了直接增量计算方差和或标准方差的v个组件的新值和间接增量w＝p-v计算个组件。这些增量计算过的组件中的一个或多个会被用来生成方差和或标准方差。这v个组件可以被直接增量计算通过加入到计算子集的新数据元素和先前的数据集的v个组件，而不需要访问计算子集300B里的其它数据元素。对于一个给定的增量算法，v是个常量，所以直接增量计算v个组件的操作数也是个常量，间接增量计算w＝p-v个组件的操作数也是个常量。所以，计算一个给定的计算子集规模为n的所有p个组件的时间复杂度从O(n)降低到O(1)。方差和或标准方差可以用一个或多个增量计算过的组件被计算，所以整体的时间复杂度从O(n)降低到O(1)。随着n的增加，计算量的降低越突出。

以下的部分有一些方差和或标准方差的组件的例子和增量方差和或标准方差计算算法的例子。

图4-1图示方差和标准方差的定义。假设计算子集X＝{x_i|i＝1，...，n}包含参与方差和或标准方差计算的数据元素，数据元素x₁，x₂，x₃，x₄，......，x_n，并且假设方差和或标准方差需要被计算。假设过段时间数据元素x_a被加入计算子集X。每当一个数据元素加入计算子集后方差和或标准方差需要重新被计算，计算子集会被认为是调整后的计算子集，一轮新的计会开始。

方程401和402是分别为第k轮计算X的所有数据元素的和S_k和平均值

的传统方程。方程403是为第k轮计算X的样本方差vs_k的传统方程。方程404 是为第k轮计算X的总体方差vp_k的传统方程。方程405是为第k轮计算X的样本标准方差s_k的传统方程。方程406是为第k轮计算X的总体标准方差σ_k的传统方程。

图4-2图示计算调整后计算子集方差和标准方差的传统方程。方程407 和408是分别为第k+1轮计算调整后的X′的所有数据元素的和S_k+1和平均值

的传统方程。方程409是为第k+1轮计算调整后的X′的样本方差vs_k+1的传统方程。方程410是为第k+1轮计算调整后的X′的总体方差vp_k+1的传统方程。方程 411是为第k+1轮计算调整后的X′的样本标准方差s_k+1的传统方程。方程412是为第k+1轮计算调整后的X′的总体标准方差σ_k+1的传统方程。

为展示如何利用组件增量计算方差和或标准方差，三个不同的增量样本标准方差算法被提供作为例子。

图4-3说明第一个例子增量方差和或标准方差计算算法(增量算法1)。方程413和414可分别被用来初始化X的所有数据元素的S_k和或

根据需要方程415可以基于初始化的组件计算样本方差vs_k。根据需要方程418可以基于初始化的组件计算总体方差vp_k。根据需要方程419可以基于初始化的组件计算样本标准方差s_k。根据需要方程420可以基于初始化的组件计算总体标准方差σ_k。假设过段时间数据元素x_a要加入计算子集X。基于组件S_k和或

方程419和420 可分别被用来增量计算调整后计算子集X′的S_k+1和或

基于增量计算的组件，方程421可以增量计算调整后计算子集X′的样本方差vs_k+1，方程422可以增量计算调整后计算子集X′的总体方差vp_k+1，方程423可以增量计算调整后计算子集X′的样本标准方差s_k+1，方程424可以增量计算调整后计算子集X′的总体标准方差σ_k+1。419，420，421，和422分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。

图4-4说明第二个例子增量方差和或标准方差计算算法(增量算法2)。方程425和426可分别被用来初始化X的所有数据元素的S_k和或

方程427可以被用来初始化组件SSD_k。根据需要方程428可以基于初始化的组件计算样本方差vs_k。根据需要方程429可以基于初始化的组件计算总体方差vp_k。根据需要方程430可以基于初始化的组件计算样本标准方差s_k。根据需要方程431可以基于初始化的组件计算总体标准方差σ_k。假设过段时间数据元素x_a要加入计算子集 X。基于组件S_k和或

方程432和433可分别被用来增量计算调整后计算子集 X′的S_k+1和或

基于组件SSD_k，方程434可以增量计算调整后计算子集X′的组件SSD_k+1。基于增量计算的组件，方程435可以增量计算调整后计算子集X′的样本方差vs_k+1，方程436可以增量计算调整后计算子集X′的总体方差vp_k+1，方程437可以增量计算调整后计算子集X′的样本标准方差s_k+1，方程438可以增量计算调整后计算子集X′的总体标准方差σ_k+1。432，433，和434包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。

图4-5说明第三个例子增量方差和或标准方差计算算法(增量算法3)。方程439和440可分别被用来初始化X的所有数据元素的S_k和或

方程441可以被用来初始化组件SS_k。根据需要方程442可被用来基于初始化的组件生成样本方差vs_k。根据需要方程443可被用来基于初始化的组件生成总体方差vp_k。根据需要方程444可被用来基于初始化的组件生成样本标准方差s_k。根据需要方程445可被用来基于初始化的组件生成总体标准方差σ_k。假设过段时间数据元素x_a要加入计算子集X。基于组件S_k和或

方程446和447可分别被用来增量计算调整后计算子集X′的S_k+1和或

基于组件SS_k，方程448可以增量计算调整后计算子集X′的组件SS_k+1。基于增量计算的组件，方程449可以增量计算调整后计算子集X′的样本方差vs_k+1，方程450可以增量计算调整后计算窗口X′的总体方差vp_k+1，方程451可以增量计算调整后计算窗口X′的样本标准方差s_k+1，方程452可以增量计算调整后计算窗口X′的总体标准方差σ_k+1。442，443，444，445， 446，447，449，450，451，和452分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。

为展示增量方差和标准方差算法以及它们与传统算法的比较，下面给出三个例子。使用3个计算子集的数据。对于传统算法，所有3个计算子集的计算过程完全相同。对于增量算法，第一个计算子集进行两个或多个组件的初始化，第二个和第三个计算子集进行增量计算。

图5-1，图5-2，图5-3分别显示了用于一个计算实例的第一个计算子集，第二个计算子集，和第三个计算子集。计算子集502包括大数据集501的4个数据元素：8，3，6，1，9，2，5，4。计算子集规模503(n)是8。计算子集504包括大数据集501的5个数据元素：8，3，6，1，9，2，5，4，-7。计算子集规模505(n)是 9。计算子集506包括大数据集501的6个数据元素：8，3，6，1，9，2，5，4，-7，11。计算子集规模507(n)是10。

首先用传统算法分别计算计算子集502，504，和506的方差和标准方差。

为计算子集502计算样本方差：

没有任何优化的情况下，为规模为8的计算子集计算样本方差共有2次除法，8 次乘法，14次加法，和9次减法。计算样本标准方差时再加1个平方根。

相同的方程和过程可被用来分别为图5-2显示的计算子集504计算样本方差和样本标准方差和为图5-3显示的计算子集506计算样本方差和样本标准方差。规模为9的计算子集504的样本方差

计算子集504的样本标准方差

计算样本方差在没有优化的情况下包括2 次除法，9次乘法，16次加法和10次减法，计算样本标准方差时再加1个平方根。规模为10的计算子集506的样本方差

计算子集506的样本标准方差

计算样本方差在没有优化的情况下包括2 次除法，10次乘法，18次加法，和11次减法，计算样本标准方差时再加1个平方根。传统算法在没有优化的情况下计算计算子集规模为n的样本方差时通常需要完成2次除法，n次乘法，2n-2次加法，和n+1次减法，计算样本标准方差时再加1个平方根。

下面用增量算法1分别计算计算子集502，504，和506的样本方差和样本标准方差。

为规模为8的计算子集502计算样本方差和样本标准方差：

用方程414初始化第1轮

用方程415计算第1轮vs₁：

用方程417计算第1轮s₁：

为计算子集502计算样本方差时共有2个除法，8个乘法，14个加法，和9个减法，计算样本标准方差时再加1个平方根。

为规模为9的计算子集504增量计算样本方差和样本标准方差：

用方程420增量计算第2轮的组件

用方程421计算第2轮vs₂：

用方程423计算第2轮s₂：

为计算子集504增量计算样本方差时共有2个除法，3个乘法，3个加法，和3个减法，计算样本标准方差时再加1个平方根。

为规模为10的计算子集506增量计算样本方差和样本标准方差：

用方程420增量计算第3轮的组件

用方程421计算第3轮vs₃：

用方程423计算第3轮s₃：

为计算子集506增量计算样本方差时共有2个除法，3个乘法，3个加法，和3个减法，计算样本标准方差时再加1个平方根。

下面用增量算法2分别计算计算子集502，504，和506的样本方差和样本标准方差。

为规模为8的计算子集502计算样本方差和样本标准方差：

用方程426和427分别初始化第1轮

和SSD₁：

用方程428计算第1轮vs₁：

用方程430计算第1轮s₁：

为规模为9的计算子集504增量计算样本方差和样本标准方差：

用方程433和434分别增量计算第2轮

和SSD₂：

用方程435计算第2轮vs₂：

用方程437计算第2轮s₂：

为计算子集504增量计算样本方差时共有2个除法，2个乘法，3个加法，和2个减法，计算样本标准方差时再加1个平方根。

用方程433和434分别增量计算第3轮

和SSD₃：

用方程435计算第3轮vs₃：

用方程437计算第3轮s₃：

为计算子集506增量计算样本方差时共有2个除法，2个乘法，3个加法，和2个减法，计算样本标准方差时再加1个平方根。

下面用增量算法3分别计算计算子集502，504，和506的样本方差和样本标准方差。

为规模为8的计算子集502计算样本方差和样本标准方差：

用方程440和441分别初始化第1轮

和SS₁：

用方程442计算第1轮vs₁：

用方程444计算第1轮s₁：

为计算子集502计算样本方差时共有2个除法，10个乘法，14个加法，和2个减法，计算样本标准方差时再加1个平方根。

为规模为9的计算子集504增量计算样本方差和样本标准方差：

用方程447和448分别增量计算第2轮

和SS₂：

SS₂＝SS₁+x_a ²＝236+(-7)²＝236+49＝285

用方程449计算第2轮vs₂：

用方程451计算第2轮s₂：

为计算子集504增量计算样本方差时共有2个除法，4个乘法，4个加法，和1个减法，计算样本标准方差时再加1个平方根。

为规模为10的计算子集506增量计算样本样本方差和样本标准方差：

用方程447和448分别增量计算第3轮

和SS₃：

SS₃＝SS₂+x_a ²＝285+11²＝285+121＝406

用方程449计算第3轮vs₃：

用方程451计算第3轮s₃：

为计算子集506增量计算样本方差时共有2个除法，4个乘法，4个加法，和1个减法，计算样本标准方差时再加1个平方根。

在以上三个例子中，平均值被用于增量样本方差和样本标准方差计算。和也可被用于样本方差和样本标准方差增量计算，只是操作数不同。

图6-1图示了当n＝10传统样本方差计算算法和增量样本方差计算算法的计算量对比。如图所示，任何一个增量算法都比传统算法少乘法操作，加法操作，和减法操作。

图6-2图示了当n＝1,000,000传统总体方差计算算法和增量总体方差计算算法的计算量对比。如图所示，任何一个增量算法都比传统算法明显的少了很多乘法操作，加法操作，和减法操作。

图6-3图示了当n＝10传统样本标准方差计算算法和增量样本标准方差计算算法的计算量对比。如图所示，任何一个增量算法都比传统算法少乘法操作，加法操作，和减法操作。

图6-4图示了当n＝1,000,000传统总体标准方差计算算法和增量总体标准方差计算算法的计算量对比。如图所示，任何一个增量算法都比传统算法明显的少了很多乘法操作，加法操作，和减法操作。增量算法把需要在成千上万台计算机上处理的数据只在单机上就能完成。大大提高计算效率，减少计算资源需求，降低计算设备能耗，使得实时判断大数据或流数据离散程度能够高效低耗地完成及一些实时判断大数据或流数据离散程度的场景从不可能变为可能。

本发明可以在不脱离其思想或本质特征的情况下以其它特定的方式来实现。本申请描述的实现方案从各个方面来说是仅作为示范性的而不是限制性的。因此，本发明的范围由附加的权利要求书而不是前面的描述来指明。与权利要求书中权利要求的含义和范围等价的所有变化都包含在它们的范围内。

Claims

1.一种，由基于一个或多个计算设备构成的一个计算系统实现的,实时地判断大数据或流数据离散程度的方法,其特征在于：

由基于计算设备的一个计算系统,为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥0)，为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及方差和或标准方差的除了和及平均值之外的一个或多个其它组件，该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数；

由基于计算设备的该计算系统,基于一个或多个为该调整前计算子集初始化的组件,为该调整前计算子集生成方差和或标准方差。

由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素；

由基于计算设备的该计算系统,调整该调整前计算子集,通过向该调整前计算子集加入要加入的数据元素及更新该计算子集规模计数器；

由基于计算设备的该计算系统,为该调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值；

由基于计算设备的该计算系统,至少基于该调整前计算子集的方差和或标准方差的该一个或多个除了和及平均值之外的其它组件,为该调整后计算子集直接增量计算方差和或标准方差的一个或多个组件,这里的增量计算一个或多个组件包括：

访问被加入的数据元素从而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源,和降低能耗；

访问该调整前计算子集的方差和或标准方差的该一个或多个除了和及平均值之外的其它组件；以及

基于被加入的数据元素,向被访问的每个组件数学地加入被加入的数据元素对该组件的任何贡献从而避免使用该调整后计算子集中的所有数据元素来提高计算效率；以及

由基于计算设备的该计算系统,基于一个或多个为该调整后计算子集增量计算的组件,为该调整后计算子集生成方差和或标准方差。

2.按照权利要求1所述的由计算系统实现的该方法，其特征在于：所述访问或接收一个要加入该调整前计算子集的数据元素包括访问或接收多个要加入该调整前计算子集的数据元素,该方法也进一步包括对于多个要加入的数据元素中的每一个数据元素进行调整该调整前计算子集，为该调整后计算子集增量计算和或平均值或和及平均值,直接增量计算方差和或标准方差的一个或多个除了和及平均值之外的其它组件,以及为该调整后计算子集生成方差和或标准方差。

3.按照权利要求2所述的由计算系统实现的该方法，其特征在于：所述为该调整后计算子集生成方差和或标准方差当且仅当该方差和或标准方差被访问。

4.按照权利要求3所述的由计算系统实现的方法，其特征在于：所述为该调整后计算子集生成方差和或标准方差进一步包括由基于计算设备的该计算系统为该调整后计算子集间接增量计算方差和或标准方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。

5.一个计算系统，其特征在于包括：

一个或多个计算设备,每个计算设备包含一个或多个处理器；

一个或多个存储媒体；以及

一个或多个计算模块,当该一个或多个计算模块被该一个或多个计算设备中的至少一个计算设备执行时,实时地判断大数据或流数据离散程度,其步骤包括：

a.为一个数据流的或存储于该一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥0)，为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及方差和或标准方差的除了和及平均值之外的一个或多个其它组件，该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数；

b.基于一个或多个为该调整前计算子集初始化的组件,为该调整前计算子集生成方差和或标准方差；

c.访问或接收一个要加入到该调整前计算子集的数据元素；

d.调整该调整前计算子集,包括向该调整前计算子集中加入要加入的数据元素及更新该计算子集规模计数器；

e.为该调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值；

f.为该调整后计算子集直接增量计算方差和或标准方差的一个或多个除了和及平均值以外的组件,包括：

访问被加入的数据元素而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源,和降低系统能耗；

访问该调整前计算子集的方差和或标准方差的那一个或多个除了和及平均值以外的组件；以及

基于被加入的数据元素,通过向被访问的每个组件数学地加入被加入的数据元素对该组件的任何贡献来得到该调整后计算子集的方差和或标准方差的该一个或多个组件,从而避免使用该调整后计算子集中的所有数据元素来提高计算效率；以及

g.基于一个或多个为该调整后计算子集增量计算的组件,为该调整后计算子集生成方差和或标准方差。

6.按照权利要求5所述的该计算系统,其特征在于：该一个或多个计算模块,当它们被一个或多个计算设备中的至少一个计算设备执行时,多次执行b,c,d,e,f,和g。

7.按照权利要求6所述的该计算系统,其特征在于：执行g当且仅当该调整后计算子集的方差和或标准方差被访问。

8.按照权利要求7所述的该计算系统,其特征在于：所述g进一步包括由该计算系统为该调整后计算子集间接增量计算方差和或标准方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。

9.一个计算系统程序产品,运行于一个包含一个或多个计算设备的计算系统,每个计算设备包括一个或多个处理器,该计算系统程序产品包含多条计算设备可执行指令,当这些计算设备可执行指令被该计算系统中的至少一个计算设备运行时,使得该计算系统执行一个判断大数据或流数据离散程度的方法,其特征在于：

为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥0),为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及方差和或标准方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数；

基于一个或多个为该调整前计算子集初始化的组件,为该调整前计算子集生成方差和或标准方差；

访问或接收一个要加入到该调整前计算子集的数据元素；

调整该调整前计算子集,通过向该调整前计算子集加入要加入的数据元素及更新该计算子集规模计数器；

为该调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值；

至少基于该调整前计算子集的方差和或标准方差的该一个或多个除了和及平均值之外的其它组件,为该调整后计算子集直接增量计算方差和或标准方差的一个或多个组件,这里的增量计算一个或多个组件包括：

访问被加入的数据元素从而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源,和降低系统能耗；

基于一个或多个为该调整后计算子集增量计算的组件,为该调整后计算子集生成方差和或标准方差。

10.按照权利要求9所述的该计算系统程序产品,其特征在于:所述为该调整后计算子集生成方差和或标准方差进一步包括为该调整后计算子集间接增量计算方差和或标准方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。