CN112434253A - 一种实时判断大数据或流数据离散程度的方法 - Google Patents
一种实时判断大数据或流数据离散程度的方法 Download PDFInfo
- Publication number
- CN112434253A CN112434253A CN201910790667.9A CN201910790667A CN112434253A CN 112434253 A CN112434253 A CN 112434253A CN 201910790667 A CN201910790667 A CN 201910790667A CN 112434253 A CN112434253 A CN 112434253A
- Authority
- CN
- China
- Prior art keywords
- subset
- variance
- components
- data
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 181
- 239000006185 dispersion Substances 0.000 claims abstract description 16
- 238000005265 energy consumption Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 90
- 238000007792 addition Methods 0.000 description 23
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 description 14
- 230000015654 memory Effects 0.000 description 13
- 238000007405 data analysis Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
Abstract
方差和标准方差可用于判断大数据或流数据的离散程度。本发明公开了一种通过增量计算计算子集的方差和或标准方差从而可以实时地判断大数据或流数据离散程度的方法,系统,和计算设备程序产品。本发明的实施方案包括基于调整前计算子集的方差和或标准方差的二个以上组件增量计算调整后计算子集的方差和或标准方差的二个以上组件,然后根据需要基于一个或多个增量计算的组件生成调整后计算子集的方差和或标准方差。增量计算方差和或标准方差可以基于最新数据实时更新计算结果并避免访问调整后计算子集中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据或流数据离散程度可以高效低耗地完成及一些场景下实时判断大数据或流数据离散程度从不可能变为可能。
Description
技术领域
大数据或流数据分析。
背景技术
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产 生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数 据库系统的处理能力及传统分析方法的分析能力的数据。
流数据是不断被发送器发送和接收器接收的数据。流数据可以是感应器 采集并且不断给计算设备或电子设备传送的实时数据。通常包括陆续接收有一定 时间间隔,具有相似格式的数据元素。流数据也可以是从存储器不停被读出的数 据,例如从存储在多个计算设备存储器的大数据集中读出的数据。
如何高效实时并节省资源地处理和分析大数据或流数据是一个挑战。
处理大数据或流数据可包括在多个数据元素上做计算。所以,一个接收流 数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素 可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时,缓冲区可 以很大。
此外,流数据处理算法可以延伸到大数据处理上,因为大数据集随着时 间积累并且可以被认为是具有不规律时间间隔的数据流。
方差和或标准方差可用于判断大数据或流数据离散程度。为了能够随时 得到利用了最新数据的判断结果,方差和或标准方差可能会在流数据或大数据 集有变化后需要重新计算。因此,一些(可能很多)数据元素会被重复访问。例 如,有可能方差和或标准方差在含有最新的n个数据元素的计算子集上被计算。 当一个新的数据元素被接收时,把该新数据元素加到计算子集里。然后计算子集 里所有的n+1个数据元素会被用来重新计算方差和或标准方差。因此,用传统 方法计算一个大数据集的更新后的计算子集的方差和或标准方差时会导致计算 机系统从存储器中访问,提取和使用更新后的计算子集中的所有n+1个数据元 素。
根据需要,计算子集规模n可能非常大,例如计算子集中的数据元素可 能分布在云平台的成千上万台计算/存储设备上。在一些数据变化后的大数据上 用传统方法重新计算方差和或标准方差耗时并浪费资源。
发明内容
方差和或标准方差可用于判断大数据或流数据离散程度。本发明拓展到 方法,系统和计算设备程序产品以增量方式计算方差和或标准方差从而可以在 调整计算子集规模后实时地判断大数据或流数据离散程度。为一个调整后计算子 集增量计算方差和或标准方差包括增量计算大数据或流数据的方差和或标准方 差的一个以上组件,然后根据需要基于一个或多个增量计算的组件计算方差和 或标准方差。增量计算方差和或标准方差只需要接收/访问和使用新加入的数据 元素,这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保留 整个计算子集,因此时间复杂度以及空间复杂度都被降低从而使得实时判断大 数据或流数据离散程度能够高效低耗地完成及一些场景下实时判断大数据或流 数据离散程度从不可能变为可能。
初始化一个计算子集规模计数器以及方差和或标准方差的二个以上组件。
计算系统可根据需要基于初始化的组件来生成调整前计算子集的方差和 或标准方差。
计算系统访问一个新的大数据元素或接收一个新的流数据元素。
计算系统根据需要把接收的数据元素存储到一个数据缓冲区里。
计算系统通过把访问或接收的新数据元素加入调整前计算子集里并且把 计算子集规模加1来调整调整前计算子集。
计算系统增量计算调整后计算子集的方差和或标准方差的二个以上组件。
计算系统根据需要基于一个或多个增量计算过的组件来生成调整后计算 子集的方差和或标准方差,即,方差和或标准方差可以在接收多个数据元素而不 仅是一个数据元素后被生成。
计算系统可以持续地访问或接收新数据元素,调整调整前计算子集,增量 计算二个以上组件,根据需要基于一个或多个增量计算过的组件生成方差和或 标准方差,并根据需要重复以上这个过程。
本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详 细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是 为了用于帮助确认权利要求的主题所包括的范围。
本发明的其它特征和优点将在下面的描述中体现出来,会部分地从描述 中明显体现,或从本发明的实践中学到。本发明的特征和优点可从附加的权利要 求书中特别指出的方法设备及其组合中实现和得到。本发明的这些和其它特征将 在下面的描述和附加的权利要求书或本发明的实践中变得更加全面清晰。
附图说明
为描述能够获得本发明的上述的和其它的优点和特点的方式,上面简述 的本发明的一个更具体的描述将通过参照附加的图表中所显示的特定的实施方 案来展现出来。本发明将通过下列的图表更加详细和具体地来描述和解释,请理 解这些图表只是描述了本发明的典型实施方案,因此它们不应被理解为对本发 明的范围的限制:
图1显示了一个支持增量计算方差和或标准方差的例子计算系统的高层 概括。
图1-1显示了一个为流数据增量计算方差和或标准方差并且所有组件都 是直接增量计算的计算系统架构的例子。
图1-2显示了一个为流数据增量计算方差和或标准方差并且部分组件直 接增量计算,部分组件间接增量计算的计算系统架构的例子。
图1-3显示了一个为大数据增量计算方差和或标准方差并且所有组件都 是直接增量计算的计算系统架构的例子。
图1-4显示了一个为大数据增量计算方差和或标准方差并且部分组件直 接增量计算,部分组件间接增量计算的计算系统架构的例子。
图2显示了一个为大数据或流数据增量计算方差和或标准方差的方法流 程图的例子。
图3-1显示了在流数据上为增量计算方差和或标准方差计算窗口中被访 问的数据元素。
图3-2显示了在大数据上为增量计算方差和或标准方差计算子集中被访 问的数据元素。
图4-1显示了方差和标准方差的定义以及计算子集上计算方差和或标准 方差的传统方程。
图4-2显示了调整后计算窗口上计算方差和或标准方差的传统方程。
图4-3显示了第一个方差和或标准方差增量计算算法(增量算法1)。
图4-4显示了第二个方差和或标准方差增量计算算法(增量算法2)。
图4-5显示了第三个方差和或标准方差增量计算算法(增量算法3)。
图5-1显示了用于一个计算实例的第一个计算子集。
图5-2显示了用于一个计算实例的第二个计算子集。
图5-3显示了用于一个计算实例的第三个计算子集。
图6-1显示了计算子集规模为10时,传统方差算法和增量方差算法的计 算工作量对比。
图6-2显示了计算子集规模为1,000,000时,传统方差算法和增量方差算 法的计算工作量对比。
图6-3显示了计算子集规模为10时,传统标准方差算法和增量标准方差 算法的计算工作量对比。
图6-4显示了计算子集规模为1,000,000时,传统标准方差算法和增量标 准方差算法的计算工作量对比。
具体实施方法
方差和或标准方差可用于判断数据离散程度。本发明拓展到方法,系统和 计算系统程序产品通过用增量计算大数据或流数据的方差和或标准方差的二个 以上(p(p≥2))组件,然后根据需要基于一个或多个增量计算的组件计算方差 和或标准方差从而可以实时地判断大数据或流数据离散程度。为一个调整后计算 子集增量计算方差和或标准方差包括增量计算大数据或流数据的方差和或标准 方差的一个以上组件,然后根据需要基于一个或多个增量计算的组件计算方差 和或标准方差。增量计算方差和或标准方差只需要接收或访问和使用新加入的数 据元素,这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保 留整个计算子集,因此时间复杂度以及空间复杂度都被降低从而使得实时判断 大数据或流数据离散程度能够高效低耗地完成及一些场景下实时判断大数据或 流数据离散程度从不可能变为可能。计算系统包括存储数据集规模和一个以上方 差和或标准方差组件的存储设备。计算系统也可以选择性包括一个数据缓冲区为 了存储接收的数据元素。
一个计算子集包含了计算方差和或标准方差所需要的数据元素,其数据 可来源于存储在一个或多个存储设备上的大数据集或一个数据流。计算子集等同 于在流数据或时间序列上计算方差和或标准方差时的移动计算窗口。本文中,它 们的区别是计算窗口中的数据是有顺序的,而计算子集中的数据可以没有顺序。
在本文中,方差和或标准方差的一个组件是出现在方差和或标准方差定 义公式中或其定义公式的任何转换中的一个量或表达式。方差和或标准方差是它 自己最大的组件。方差和或标准方差可基于一个或多个组件或它们的组合被计算, 所以多个算法支持增量方差和或标准方差计算。以下是一些方差和或标准方差的 组件的例子。
方差和或标准方差可以通过用一个以上组件或他们的组合计算。如果所 有需要的组件可以被增量计算,方差和或标准方差也可以被增量计算。因为多个 方差和或标准方差的组件和更多组件的组合存在,有多个方法(算法)支持增量 方差和或标准方差计算。本发明的实施方案描述的算法只是几个增量方差和或标 准方差计算算法的例子,这些例子只是为了描述和说明本发明的方法而不代表 所有可能的算法。
方差和或标准方差可以根据需要被计算,即只有当它被访问时。当计算子 集上的方差和或标准方差没有因每个数据变化而被访问时,计算系统可以根据 每次数据变化只增量计算一个以上组件。方差和或标准方差可在被访问时基于一 个以上组件计算并被返回。根据需要,计算系统可以用一个以上组件计算计算子 集的方差和或标准方差。
组件可以被直接增量计算或间接增量计算。区别是,当直接增量计算一个 组件时,其计算将基于并使用该组件的上轮计算结果;但是当间接增量计算一个 组件时,其计算将基于并使用该组件之外的一个以上组件,该一或多个组件可以 是以不同方式已计算过的,如被初始化,直接增量计算或间接增量计算过的。
对于一个给定的组件,它可能在一个算法中被直接增量计算而在另一个 算法中被间接增量计算。
对于一个给定的算法,假设不同组件的总数是p(p≥1),直接增量计算 的组件总数是v(1≤v≤p),那么间接增量计算的组件总数是w=p-v(0≤ w<p)。在较优的算法中,至少一个组件会被直接增量计算。有可能所有组件都 被直接增量计算(在这种情况下v=p和w=0)。但是,直接增量计算的组件必 须每轮都被计算无论方差和标准方差是否每轮被访问。
对于一个给定的算法,如果一个组件是直接增量计算的,那么该组件每 轮都需要被计算(即,每当一个新的数据元素被加到计算子集上时)。但是,如 果该组件是间接增量计算的,那么该组件可以根据需要被计算(即,只有当方差 和或标准方差需要被计算和访问时)。因此,当方差和或标准方差没有在某个特 定的轮被访问并且部分组件被间接增量计算时,为了省时间可只有少量的组件 被直接增量计算。当多个数据元素被加入到计算子集后方差和或标准方差需要被 计算时这将是有用的。本发明的实现方案可被容易地扩展来处理上述情况通过增 加一个循环来一个一个地处理加入的数据元素,在循环内部直接增量计算一个 以上组件,在循环后或者间接增量计算一个以上组件后计算方差和或标准方差 或者直接计算方差和或标准方差。
本发明的实施方案包括基于调整前计算子集上的二个以上计算过的组件, 增量计算调整后计算子集上的二个以上方差和或标准方差的组件。
计算系统可以从空的调整前计算子集或从有二个以上计算过的组件的非 空的调整前计算子集开始增量计算二个以上方差和或标准方差的组件。
当增量方差和或标准方差计算从一个空的调整前计算子集开始时,调整 前计算子集的规模初始化为零并且一个以上组件初始化为零。
当增量方差和或标准方差计算从一个非空的调整前计算子集开始时,调 整前计算子集的规模初始设为调整前计算子集里数据元素的数量,一个以上组 件的初始化包括通过它们的定义基于调整前计算子集里的数据元素来计算或设 为用各种不同方式已经计算过的结果,例如通过增量计算的结果,迭代方差和或 标准方差计算(在另一个专利申请中描述)的结果,或减量方差和或标准方差计 算(在另一个专利申请中描述)的结果。因此上一轮增量计算中对组件的计算也 可以认为是当前轮计算对组件的初始化。
计算系统为存储于该计算系统上一个或多个存储设备上的一个数据集的 或一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n>1), 为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及 方差和或标准方差的除了和及平均值之外的一个或多个其它组件,该计算子集 规模计数器指定了该调整前计算子集包含的数据元素个数。
计算系统访问一个存储于一个或多个存储设备上的一个数据集的数据元 素或接收来自一个数据流的一个新的流数据元素。
对于流数据处理,计算系统根据需要把接收的数据元素存储到一个数据 缓冲区里。单纯的增量方差和或标准方差计算只需要访问刚接收到的数据元素但 不需要访问之前接收到的数据元素,因此计算系统不需要分配存储空间保留计 算子集所有的数据元素但是至少会保留计算子集规模和计算子集的一个以上方 差和或标准方差组件,并且调整计算子集可以体现在调整计算子集规模和计算 子集的方差和或标准方差的一个以上组件上。然而,因为迭代方差和或标准方差 计算需要访问之前接收的数据元素,当结合增量和迭代方差和或标准方差计算 时,接收的数据元素需要被保存在迭代方差和或标准方差计算要用到的一个数 据缓冲区里。因此对于流数据来说,计算系统可能选择性地需要一个数据缓冲区 保存接收的数据元素。
计算系统调整调整前计算子集通过:把访问或接收的数据元素加入到调 整前计算子集并且相应地把计算子集规模计数器的值加1。
计算系统增量计算调整后计算子集的方差和或标准方差的二个以上组件。
计算系统增量计算调整后计算子集的方差和或标准方差的二个以上组件 包括重用调整前计算子集的v(1≤v≤p)个组件直接增量计算调整后计算子集 的方差和或标准方差的v个组件。直接增量计算v个组件包括逐个地直接增量计 算v个组件中的每一个。直接增量计算一个组件包括,访问被加入到调整前计算 子集的数据元素和为调整前计算子集计算过的该组件,向被访问的组件数学地 加入被访问的数据元素对该组件的任何贡献。例如,增量计算v个组件可包括直 接增量计算计算子集的总和或平均值。直接增量计算总和或平均值包括访问加入 到调整前计算子集上的数据元素和访问调整前计算子集的总和或平均值,并向 访问的总和或平均值中数学地加入访问的数据元素对总和或平均值的任何贡献。
计算系统增量计算调整后计算子集的方差和或标准方差的二个以上组件 包括根据需要间接增量计算调整后的计算子集的方差和或标准方差的w=p-v 个组件。间接增量计算方差和或标准方差的w个组件包括逐个地间接增量计算w 个组件中的每一个。间接增量计算一个组件包括访问和利用除了该组件自身以外 的一个以上组件。该一个以上组件可以是以各种不同方式已经计算过的,例如可 以是可以是被初始化的,直接增量计算过的或间接增量计算过的。
计算系统根据需要基于一个或多个增量计算过的组件来生成方差和或标 准方差。方差可以是样本方差或总体方差。标准方差可以是样本标准方差或总体 标准方差。
计算系统可以持续地接收新数据元素,调整调整前计算子集,增量计算 二个以上组件,根据需要基于增量计算过的一个或多个的组件生成方差和或标 准方差,并根据需要重复以上这个过程。
本发明的实施方案可以包括或利用包含计算设备硬件,例如一个或多个 处理器和以下更详细描述的存储设备,专用的或通用的计算设备。本发明实施方 案的范围也包括物理的及其它用于携带或存储计算设备可运行指令和或数据结 构的计算设备可读媒体。这些计算设备可读媒体可以是通用或专用计算设备可访 问的任何媒体。存储计算设备可运行指令的计算设备可读媒体是存储媒体(设备)。 携带计算设备可运行指令的计算设备可读媒体是传输媒体。因此,仅用以举例而 非限制,本发明的实施方案可以包括至少两种不同类型的计算设备可读媒体:存 储媒体(设备)和传输媒体。
计算设备存储媒体(设备)包括随机存取存储器(RAM),只读存储器 (ROM),电可擦除可编程只读存储器(EEPROM),只读光盘存储器(CD-ROM), 固态硬盘(SSD),闪存(FlashMemory),相变存储器(PCM),其它类型存储 器,其它光学磁盘存储,磁盘存储器或其它磁性存储设备,或任何其它能用于存 储所需要的以计算设备可运行指令或数据结构形式构成的程序代码并且其可以 被通用或专用计算设备访问的媒体。
一个“网络”被定义为使计算设备和或模块和或其它电子设备能够传输电 子数据的一个或多个数据链接。当信息被网络或另外的通讯连接(有线,无线,或 有线和无线的组合)传输或提供给计算设备时,计算设备把连接视为传输媒体。 传输媒体可包括用于携带所需要的以计算设备可运行指令或数据结构形式构成 的程序代码,并且其可以被通用或专用计算设备访问的一个网络和或数据链接。 以上的组合也应包括在计算设备可读媒体的范围之内。
此外,在应用不同计算设备组件时,计算设备可运行指令或数据结构形 式的程序代码可以从传输媒体自动传输到存储媒体(设备)(或反过来)。例如, 从网络或数据链接上接收的计算设备可运行指令或数据结构可以被暂存进网络 接口模块(例如,NIC)中的随机存取存储器中,然后最终传输到计算设备的随机 存取存储器和或到计算设备的一个较小易变的存储媒体(设备)。所以,应当理 解存储媒体(设备)可以被包括在也(或甚至主要)应用传输媒体的计算设备组 件里。
计算设备可运行指令包括,例如,指令和数据,当被处理器运行时,使得 通用计算设备或专用计算设备去执行一个特定功能或一组功能。计算设备可运行 指令可以是,例如,二进制,中间格式指令例如汇编代码,或甚至源代码。虽然描 述的客体是用结构特征和或方法动作的具体语言描述的,应当理解在附加的权 利要求书中定义的客体不一定局限于以上描述的特征或动作。而是,描述的特征 或动作仅是以实现权利要求的例子形式而公开的。
本发明的实施方案可以在由多种类型的计算设备配置的网络计算环境中 实现,这些计算设备包括个人电脑,台式机,笔记本电脑,信息处理器,手持设 备,多处理系统,基于微处理器或可编程的电子消费品,网络电脑,小型计算机, 主计算机,超级计算机,移动电话,掌上电脑,平板电脑,呼机,路由器,交换机 及类似产品。本发明的实施方案也可以应用于通过网络互联(即可通过有线数据 链接,无线数据链接,也可以是有线数据链接与无线数据链接的结合)的执行任 务的本地或远程计算设备构成的分布式系统环境。在分布式系统环境中,程序模 块可以被存储在本地或远程存储设备上。
本发明的实施方案也可以在云计算环境里实现。在本描述及后续的权利 要求书中,“云计算”被定义为一个使得能够按需通过网络访问到可配置计算资源 的共享池的模型。例如,云计算可以被市场利用去提供普及和方便的按需访问可 配置计算资源的共享池。可配置计算资源的共享池可以通过虚拟化很快预备并且 以低管理开销或低服务提供商互动来提供,然后做相应的调整。
云计算模型可以包括各种特征例如,按需自服务,宽带网络访问,资源收 集,快速收放,计量服务等等。云计算模型也可以各种服务模式来体现,例如,软 件做为服务(“SaaS”),平台做为服务(“PaaS”),以及设施做为服务(“IaaS”)。 云计算模型也可以通过不同的部署模型例如私有云,社区云,公共云,混合云等 等来部署。
本发明有效地降低了对计算能力的要求,因此其实施方案也适用于边缘 计算。
图1图示了为大数据或流数据增量计算方差和或标准方差的一个例子计 算系统100的高层概述。参考图1,计算系统100包括由不同网络,例如局域网 1021,无线网1022和互联网1023等等,连接的多个设备。多个设备包括,例如, 数据分析引擎1007,存储系统1011,实时数据流1006,以及可以安排数据分析 任务和或查询数据分析结果的多台分布的计算设备,例如个人电脑1016,手持 设备1017和台式机1018等等。
数据分析引擎1007可以包括一个或多个处理器,例如CPU 1009和CPU 1010,一个或多个系统内存,例如系统内存1008,及组件计算模块131和方差计 算模块191和标准方差计算模块193。模块131的细节会在其它图表中更详细地 图示(例如,图1-1和图1-2)。存储系统1011可以包括一个或多个存储媒体,例 如存储媒体1012和存储媒体1014,其可以用于存放大数据集。例如,1012和或 1014可以包括数据集123。存储系统1011里的数据集可以被数据分析引擎1007 访问。
通常,数据流1006可以包括来自不同数据源的流数据,例如,股价,音频 数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交 易数据,传感器数据,和或闭合字幕数据等。这里举例描绘了几个,实时数据 1000可以包括从感应器1001,股票1002,通讯1003和银行1004等等实时收集 的数据。数据分析引擎1007可以接收来自数据流1006的数据元素。来自不同数 据源的数据可以被存储在存储系统1011并且为大数据分析所访问,例如数据集 123可以来自不同的数据源并且为大数据分析所访问。
请理解图1是以非常简化的形式介绍一些概念,例如,分布设备1016和 1017可能经过防火墙才联到数据分析引擎1007,数据分析引擎1007从数据流 1006和或存储系统1011访问或接收的数据可能经过数据过滤器筛选,等等。
图1-1图示了为流数据集增量计算方差和或标准方差,其所有(v=p≥ 1)组件被直接增量计算,的例子计算系统架构100A。关于计算系统架构100A, 这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些部件如何 协作共同完成增量方差和或标准方差计算的过程将在后面结合图2中描述的流 程图一起介绍。图1-1图示了图1显示的1006和1007。参考图1-1,计算系统架 构100A包括组件计算模块131,方差计算模块191和标准方差计算模块193。组 件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或 通过一个网络,如局域网,广域网,甚至互联网与由存储系统管理的一个或多个 存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计算设备和 它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协议(“IP”) 数据报和其它使用IP数据报的高层协议,例如,用户数据报协议(“UDP”),实时 流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器(“MMS”),传输控制 协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议(“SMTP”),等等)。
通常,数据流190可以是电子加密信号的序列(例如,多个包的数据或数 据包)用于发送或接收在发送过程中的信息。数据流190可以流化数据,比如, 例如,股票报价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数 据,网游数据,银行交易数据,传感器数据,闭合字幕数据,和实时文字等,到计 算机架构100A。数据流190可以是实时流或流化了的存储数据。
随着数据元素被接收,流数据元素经过存储在存储设备119的计算子集 规模计数器118。计算子集规模计数器118跟踪计算子集的规模。每当计算系统 接收到新的数据元素,计算子集规模计数器118会加一。计算子集规模计数器 118可以被重置到零当增量方差和或标准方差计算被重置。计算子集规模计数器 118可以被重置到特定的值当增量方差和或标准方差计算在非空的计算子集开 始计算。
例如,当数据元素101经过计算子集规模计数器118时,计数器118会加 一。计算子集规模计数器118会被存储在存储设备119。计算子集规模计数器118 和数据元素101都可以被组件计算模块131访问。
随后,数据元素102可被接收。当数据元素102经过计算子集规模计数 器118时,计数器118会加一。调整后的计算子集规模计数器118会被存储在存 储设备119。调整后的计算子集规模计数器118和数据元素102都可以被组件计 算模块131访问。
计算系统架构100A包含一个可选的数据缓冲区125来存储数据流190 的输入数据元素。增量方差和或标准方差计算算法不需要访问接收最新数据元素 之前接收的任何数据元素,因此它不需要为单纯的增量方差和或标准方差计算 存储接收的数据元素。但是,结合增量方差和或标准方差计算和迭代方差和或标 准方差计算时,接收的数据元素需要为将来的运用被存储,因此计算系统架构 100A在这个情况下会有一个数据缓冲区125,所以数据缓冲区125。
参考计算系统架构100A,增量组件计算模块131包含v(v=p≥3)个组 件计算模块为计算计算子集的方差和或标准方差的v个组件。数字v随着使用的 增量算法不同而不同。如图1-1所示,组件Cd1计算模块块131包含组件计算模 块161和组件Cdv计算模块162,有v-2个其它组件计算模块在它们之间。计算 模块161包含初始化模块132用于初始化组件Cd1和增量算法133用于直接增量 计算组件Cd1。组件Cdv计算模块162包含初始化模块138用于初始化组件Cdv和 增量算法139用于直接增量计算组件Cdv。初始化模块132被配置成为计算子集 初始化组件Cd1且初始化模块138被配置成为计算子集初始化组件Cdv。141是组 件Cd1的初始值。初始化模块132可被用于初始化组件Cd1或当方差和或标准方 差计算被重置。如果计算子集是空的(计算子集规模计数器是零),初始化模块 132初始化组件141为零。如果计算子集是非空的,初始化模块132初始化组件 141为重置模块129传进的特定值贡献151。同样,初始化模块138可以被用于 初始化组件Cdv或当方差和或标准方差计算被重置。组件145是组件Cdv的初始 值。如果计算子集是空的(计算子集规模计数器是零),初始化模块138初始化 组件145为零。如果计算子集是非空的,初始化模块138初始化组件145为重置模块129传进的特定值贡献181。
增量算法也被配置成为计算子集直接增量计算v个组件。133接收先前的 组件Cd1值和一个最新加进计算子集的数据元素为输入。133用先前的组件Cd1值 和最新的数据元素来直接增量计算一个新的组件Cd1。贡献加入模块133A可以 加入最新的数据元素的任何贡献到先前的组件Cd1。加入最新数据元素的任何贡 献可以为调整过的计算子集计算组件Cd1。139工作方法和133相似。139接收先 前的组件Cdv值和一个最新加进计算子集里最新的数据元素为输入。139用先前 的组件Cdv值和最新的数据元素来直接增量计算一个新的组件Cdv。贡献加入模 块139A可以加入最新数据元素的任何贡献到先前的组件Cdv。加入最新的数据 元素的任何贡献可以为调整过的计算子集计算组件Cdv。
参考图1-1,计算系统架构100A也包括方差计算模块191和标准方差计 算模块193。在p(p≥1)个方差和或标准方差组件被组件计算模块131增量计 算后,191可以基于一个或多个增量计算过或初始化的组件生成方差192,193可 以基于一个或多个增量计算过或初始化的组件生成标准方差194。
图1-2图示了一个为流数据增量计算方差和或标准方差并且部分(v(1≤v<p))组件直接增量计算,部分(w=p-v)组件间接增量计算的计算系统架构100B的例子。数 字v和数字w依赖于具体应用的算法。计算系统架构100B和100A的很多部件有同样的标 记号。那些部件有同样的架构并且按同样方式工作。计算系统架构100B和计算系统架构 100A之间的区别是架构100B包括组件计算模块135。除了100B里的135以外,和100A 有同样标记号的部件都按同样的方式工作。为了不重复之前在100A描述里面解释过的东 西,只有不同的部分会在这里讨论。100B里面的数字v和100A里面的数字v可能不同, 因为100A里有些被直接增量计算的组件会在100B里被间接增量计算。在100A,v=p≥ 3,但是在100B,1≤v<p。参考图1-2,计算系统架构100B包括组件计算模块135。 135通常包括w=p-v个组件计算模块为了间接增量计算w个组件。例如,135包括组 件Ci1计算模块163为了间接增量计算组件Ci1和组件Ciw计算模块164为了间接增量计算组 件Ciw,并且有w-2个组件计算模块在它们之间。间接增量计算w个组件包括逐个地 间接增量计算每个w个组件。间接增量计算一个组件包括访问和用除它自己之外的一个以 上组件。那一个以上组件可以是被初始化,直接增量计算或间接增量计算过的。
参考计算系统架构100B,在所有p(p=v+w)个组件被增量计算过 后,方差计算模块191可以根据需要,用一个或多个增量计算过或初始化的组件 生成方差192,标准方差计算模块193可以根据需要,用一个或多个增量计算过 或初始化的组件生成标准方差194。
图1-3图示了一个为大数据集增量计算方差和或标准方差,其所有 (v=p≥1)组件被直接增量计算,的例子计算系统架构100C。关于计算系统架 构100C,这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些 部件如何协作共同完成增量方差和或标准方差计算的过程将在后面结合图2中 描述的流程图一起介绍。图1-3图示了图1显示的1006和1007。参考图1-3,计 算系统架构100C包括组件计算模块131,方差计算模块191和标准方差计算模 块193。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密 耦合的或通过一个网络,如局域网,广域网,甚至互联网与由存储系统管理的一 个或多个存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计 算设备和它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协 议(“IP”)数据报和其它使用IP数据报的高层协议,例如,用户数据报协议 (“UDP”),实时流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器 (“MMS”),传输控制协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议 (“SMTP”),等等)。组件计算模块131的输出会被作为方差计算模块191的输入, 方差计算模块191可以生成方差192。组件计算模块131的输出会被作为标准方 差计算模块193的输入,标准方差计算模块193可以生成标准方差194。
如图1-3所示,有一个存储媒介121。存储媒介121包含数据集123。数 据集123包含存在存储媒介121上多个位置的多个数据元素。例如,数据元素 106,105,103,104,101,102分别存储在位置121A,121B,121C,121D,121E,121F 等,还有多个数据元素存储在其它位置。
计算子集122,数据集123的一个非空计算子集,包含来自该数据集的多 个数据元素。例如,计算子集122包含数据元素106,105,103和104。
每当从存储媒介上访问一个数据元素,计算系统通过把该数据元素加入 到计算子集中并把计算子集规模计数器118的值加1来调整计算子集。118的值 可被组件计算模块131访问或接收,并且它可被重置模块129重置为0或一个特 定的值当增量方差和或标准方差计算重新开始在一个计算子集上进行时。例如, 在100C中,在访问数据元素101之前,计算子集122包括4个数据元素,所以 计算子集规模计数器可被初始化为4。当一个数据元素101被从位置121E访问 时,101被加入到调整前的计算子集122(122变成调整后的计算子集122A),并且 计算子集规模计数器118的值被加1。计算子集规模计数器118和数据元素101都可被组件计算模块131访问或接收。
随后,数据元素102可被从位置121F访问。102将被加入到计算子集 122A(122A变成调整好后的计算子集122B)中,并且计算子集规模计数器118的 值被加1。计算子集规模计数器118和数据元素102都可被组件计算模块131访 问或接收。
增量方差和或标准方差计算有可能从一个其计算子集规模计数器以及一 个以上方差和或标准方差组件已经被初始化或计算了的计算子集开始。例如,在 计算系统架构100C中,从组件Cd1 141到组件Cdv 145的v个组件已经被初始 化。如图1-3所示,组件Cd1141包括贡献151(来自初始化的贡献),贡献152 (来自于数据元素101的贡献),和贡献153(来自数据元素102的贡献)。类 似地,组件Cdv 145包括贡献181(来自于初始化的贡献),贡献182(来自于数 据元素101的贡献),和贡献183(来自数据元素102的贡献)。
参考计算系统架构100C,增量组件计算模块131包含v(v=p≥1)个组 件计算模块为计算计算子集的方差和或标准方差的v个组件。数字v随着使用的 增量算法不同而不同。如图1-3所示,组件Cd1计算模块块131包含组件计算模 块161和组件Cdv计算模块162,有v-2个其它组件计算模块在它们之间。计算 模块161包含初始化模块132用于初始化组件Cd1和增量算法133用于直接增量 计算组件Cd1。组件Cdv计算模块162包含初始化模块138用于初始化组件Cdv和 增量算法139用于直接增量计算组件Cdv。初始化模块132被配置成为计算子集 初始化组件Cd1且初始化模块138被配置成为计算子集初始化组件Cdv。141是组 件Cd1的初始值。初始化模块132可被用于初始化组件Cd1或当方差和或标准方 差计算被重置。如果计算子集是空的(计算子集规模计数器是零),初始化模块 132初始化组件141为零。如果计算子集是非空的,初始化模块132初始化组件 141为重置模块129传进的特定值贡献151。同样,初始化模块138可以被用于 初始化组件Cdv或当方差和或标准方差计算被重置。组件145是组件Cdv的初始 值。如果计算子集是空的(计算子集规模计数器是零),初始化模块138初始化 组件145为零。如果计算子集是非空的,初始化模块138初始化组件145为重置模块129传进的特定值贡献181。
增量算法也被配置成为计算子集直接增量计算v个组件。133接收先前的 组件Cd1值和一个被加入到计算子集的数据元素为输入。133用先前的组件Cd1值 和被加入的数据元素来直接增量计算一个新的组件Cd1。贡献加入模块133A可 以加入被加入的数据元素的任何贡献到先前的组件Cd1。加入被加入数据元素的 任何贡献可以为调整过的计算子集计算组件Cd1。139工作方法和133相似。139 接收先前的组件Cdv值和一个被加入到计算子集里的数据元素为输入。139用先 前的组件Cdv值和被加入的数据元素来直接增量计算一个新的组件Cdv。贡献加 入模块139A可以加入被加入的数据元素的任何贡献到先前的组件Cdv。加入被 加入的数据元素的任何贡献可以为调整过的计算子集计算组件Cdv。
参考图1-3,计算系统架构100C也包括方差计算模块191和标准方差计 算模块193。在p(p≥1)个方差和或标准方差组件被组件计算模块131增量计 算后,191可以基于一个或多个增量计算过或初始化的组件生成方差192,193可 以基于一个或多个增量计算过或初始化的组件生成标准方差194。
图1-4图示了一个为大数据增量计算方差和或标准方差并且部分 (v(1≤v<p))组件直接增量计算,部分(w=p-v)组件间接增量计算的计算 系统架构100D的例子。数字v和数字w依赖于具体应用的算法。计算系统架构 100D和100C的很多部件有同样的标记号。那些部件有同样的架构并且按同样 方式工作。计算系统架构100D和计算系统架构100C之间的区别是架构100D包 括组件计算模块135。除了100D里的135以外,和100C有同样标记号的部件都 按同样的方式工作。为了不重复之前在100C描述里面解释过的东西,只有不同的部分会在这里讨论。100F里面的数字v和100C里面的数字v可能不同,因为 100C里有些被直接增量计算的组件会在100D里被间接增量计算。在100C,v= p≥1,但是在100D,1≤v<p。参考图1-4,计算系统架构100D包括组件计算 模块135。135通常包括w=p-v个组件计算模块为了间接增量计算w个组件。 例如,135包括组件Ci1计算模块163为了间接增量计算组件Ci1和组件Ciw计算模 块164为了间接增量计算组件Ciw,并且有w-2个组件计算模块在它们之间。 间接增量计算w个组件包括逐个地间接增量计算每个w个组件。间接增量计算一个组件包括访问和用除它自己之外的一个以上组件。那一个以上组件可以是被初 始化,直接增量计算或间接增量计算过的。
参考计算系统架构100D,在所有p(p=v+w)个组件被增量计算过 后,方差计算模块191可以根据需要,用一个或多个增量计算过或初始化的组件 生成方差192,标准方差计算模块193可以根据需要,用一个或多个增量计算过 或初始化的组件生成标准方差194。
图2图示了一个为大数据或流数据增量计算方差和或标准方差的方法 200的流程图例子。方法200会和关于计算系统架构100A,100B,100C,和100D 的组件和数据被分别描述。
方法200包括初始化计算子集规模计数器118的值n(n≥0)和大数据或 流数据的一个调整前的计算子集的方差和或标准方差的v(1≤v≤p,p≥2)个组 件(201)。例如,对于计算系统架构100A,重置模块129可以为可被初始化模 块132访问的组件Cd1和可被初始化模块138访问的组件Cdv,之间的所有组件 设置初始值并且为计算子集规模计数器118设相对应的初始值。132可以访问组 件Cd1的初始值并且用成为贡献151的值初始化组件Cd1141。同样,138可以访 问组件Cdv的初始值并且用成为贡献181的值初始化组件Cd1 145。
方法200包括根据需要基于一个或多个除了其组件本身之外的其它组件 一个一个地间接增量计算w=p-v个组件(209)。例如,在计算系统架构100B 和100D中,组件计算模块135可以一个一个地间接迭代计算w=p-v个组件。
方法200包括根据需要基于初始化的一个或多个组件为调整前的计算子 集生成一个方差(210)和或标准方差(211)。例如,计算系统架构100A,100B, 100C,和100D中,方差计算模块191可以根据需要基于初始化的一个或多个组 件为调整前的计算子集生成一个方差192,而标准方差计算模块193可以根据需 要基于初始化的一个或多个组件为调整前的计算子集生成一个标准方差194。
方法200包括访问数据集的一个数据元素或接收一个数据流的一个数据 元素(202)。例如,数据元素101可以被访问或接收。
方法200包括根据需要存储该数据元素到一个可选的缓冲区(203)。 增量方差和或标准方差计算算法不需要存储接收的数据元素;但是当增量方差和 或标准方差计算算法结合迭代方差和或标准方差计算算法时,接收的数据元素 需要被存储,所以接收到的数据元素可以根据需要被存在一个缓冲区。例如,参 考计算系统架构100A和100B,数据元素101可以被存在选择的数据缓冲区121。
方法200包括把访问或接收的数据元素加入到调整前计算子集并且给计 算子集规模计算器加1来调整调整前计算子集(204)。例如,在访问或接收到数 据元素101后,把数据元素101加入到计算子集123中,并把计算子集规模计数 器118当前的值加1来做调整。
方法200包括通过重用调整前计算子集的v个组件和加入到调整前计 算子集的数据元素来直接增量计算调整后计算子集的方差和或标准方差的v个组 件(205)。例如,算法133可以重新用组件Cd1 141和新数据元素101直接增 量计算Cd1 143,算法139可以重新用组件Cdv 145和新数据元素101直接增 量计算Cdv 147。
直接增量计算下个方差和或标准方差的v个组件包括访问加入到调整 前的计算子集的数据元素(206)。例如,对于计算系统架构100A,增量算法133 可以访问数据元素101并且增量算法139也可以访问数据元素101。
直接增量计算下个方差和或标准方差的v个组件包括访问调整前的计 算子集的方差和或标准方差的v个组件(207)。例如,对于计算系统架构100A, 增量算法133可以访问组件Cd1 141,增量算法139可以访问组件Cdv 145。
直接增量计算下个方差和或标准方差的v个组件包括向访问的每个组 件数学地加入被加入的数据元素的任何贡献(208)。例如,对于计算系统架构 100A,增量计算组件Cd1 143可以包括贡献加入模块133A数学地加入贡献152 到组件Cd1 141并且增量计算组件Cdv 147可以包括贡献加入模块139A数学 地加入贡献182到组件Cdv145。贡献152和182都是来自数据元素101的贡献。
如图1-1所示,组件Cd1 143包括贡献151和贡献152,组件Cdv 147包 括贡献181和贡献182。贡献151是来自初始化的贡献。贡献152是来自数据元 素101的贡献。贡献181是来自初始化的贡献。贡献182是来自数据元素101的 贡献。
除了直接增量计算组件,部分组件可以被间接增量计算。当v<p(即, 不是所有组件被直接增量计算),方法200包括根据需要基于一个或多个除了其 组件本身之外的其它组件一个一个地间接增量计算w=p-v个组件(209)。因 为w个间接增量计算的组件是用其它组件计算的,它们就不需要被初始化。此 外,那w个间接增量计算的组件不需要每轮被计算(即,新数据元素来了并且 数据元素被加入计算子集)。这w个组件只需要在方差和或标准方差被访问时 被计算。例如,参考图1-2,部分组件被直接增量计算,部分被间接增量计算,组 件Ci1计算模块163可以基于一个或多个Ci1以外的组件间接增量计算Ci1,组件 Ciw计算模块164可以基于一个或多个Ciw以外的组件间接增量计算Ciw。该一 个或多个组件可以是初始化,直接增量计算或间接增量计算过的。对于一个特定 的组件,它可以被一个算法直接增量计算或被另一个算法间接增量计算。对于一 个特定的算法,直接增量计算的组件必须在每当数据元素加入数据集的时候被 计算,无论方差和或标准方差有没有被访问;但是,间接增量计算的组件可以根 据需要被计算(即,只当方差和或标准方差被访问时)。
方法200包括根据需要基于一个或多个初始化或增量计算过的方差和或 标准方差的组件生成方差(210)。例如,方差计算模块191可以基于一个或多个 增量计算的组件(例如,组件Cd1 143和组件Cdv 147)生成方差192。
方法200包括根据需要基于一个或多个初始化或增量计算过的方差和或 标准方差的组件生成标准方差(211)。例如,标准方差计算模块193可以基于一 个或多个增量计算的组件(例如,组件Cd1 143和组件Cdv 147)生成标准方差 194。
202-208可以随着更多数据元素的访问或接收被重复。209-211可以根据 需要被重复。例如,计算组件Cd1 143到组件Cdv 147之后,新数据元素102可 以被接收。
增量算法133可以重用组件Cd1 143直接地增量计算组件Cd1 144。增 量算法133可以访问下个数据元素102。增量算法133可以访问组件Cd1 143。 直接地增量计算组件Cd1144可以包括贡献加入模块133A把贡献153数学地加 入到组件Cd1 143。贡献153是数据元素102的贡献。同样,增量算法139可以 重用组件Cdv 147直接地增量计算组件Cdv 148。增量算法139可以访问下个数 据元素102。增量算法139可以访问组件Cdv 147。直接增量计算组件Cdv 148 可以包括贡献加入模块139A把贡献183数学地加入到组件Cdv 147。贡献183 是数据元素102的贡献。如图所示,组件Cd1 144包括贡献151(初始化的贡献), 贡献152(数据元素101的贡献),和贡献153(数据元素102的贡献),组件 Cdv 148包括贡献181(初始化的贡献),贡献182(数据元素101的贡献),和 贡献183(数据元素102的贡献)。当下个数据元素被接收,组件Cd1 144可以 被用来直接增量计算下个组件Cd1并且组件Cdv 148可以被用来直接增量计算下 个组件Cdv。
如图2所示,重置212可以被用来重置增量方差和或标准方差计算。当 重置212在205或210之后被调用,计算子集规模计数器和方差和或标准方差的 v个组件会被重置或初始化。例如,组件Cd1 141可以被初始化为零当计算子 集规模计数器重置为零或组件Cd1141可以被初始化为一个已经被计算过的特 定值当计算子集规模计数器是非零的。后者可以发生在把增量方差和或标准方差 计算与迭代方差和或标准方差计算或减量方差和或标准方差计算结合时。组件 Cdv 145可以用同样方法被初始化。
图3-1图示在流数据上增量计算方差和或标准方差的计算窗口300A中 被访问的数据元素。计算窗口和计算子集的区别是计算窗口里的数据元素有顺序 (例如,数据元素每次都加入到计算窗口的左边或右边)。例如,参考图3-1,新数 据元素每次都附加到计算窗口300A的左边。计算窗口300A可以从开始是空的 或非空的,其v(1≤v≤p)个组件已经被计算过。随着时间的推移,新数据元素, 例如,数据元素数据元素x1,然后x2,然后x3,.....xn,xn+1,......会被加入到 计算窗口并且被访问,为了直接增量计算方差和或标准方差的下v个组件和间接 增量计算w=p-v个组件。这些增量计算过的组件中的一个或多个会被用来计 算方差和或标准方差。这v个组件可以被直接增量计算通过加入到计算窗口的新 数据元素和先前的数据窗口的v个组件,而不需要访问计算窗口300A里的其它 数据元素。对于一个给定的增量算法,v是个常量,所以直接增量计算v个组件的 操作数也是个常量,间接增量计算w=p-v个组件的操作数也是个常量。所以, 计算一个给定的规模为n的计算窗口的所有p个组件的时间复杂度从O(n)降低 到O(1)。方差和或标准方差可以用一个或多个增量计算过的组件被计算,所以整 体的时间复杂度从O(n)降低到O(1)。随着n的增加,计算量的降低越突出。
图3-2图示在大数据上增量计算方差和或标准方差的计算子集300B中 被访问的数据元素。计算子集和计算窗口的区别是计算子集上的数据元素没有顺 序(例如,数据元素可以被加入到计算子集的任何位置)。例如,参考图3-2,一 个新数据元素可以被加入到计算子集300B的任何位置。计算子集300B可以从 开始是空的或非空的,其v(1≤v≤p)个组件已经被计算过。随着时间的推移, 数据元素,例如,数据元素xa,被加入到计算子集的灰色位置并且被访问,为了 直接增量计算方差和或标准方差的v个组件的新值和间接增量w=p-v计算个 组件。这些增量计算过的组件中的一个或多个会被用来生成方差和或标准方差。 这v个组件可以被直接增量计算通过加入到计算子集的新数据元素和先前的数据 集的v个组件,而不需要访问计算子集300B里的其它数据元素。对于一个给定的 增量算法,v是个常量,所以直接增量计算v个组件的操作数也是个常量,间接增 量计算w=p-v个组件的操作数也是个常量。所以,计算一个给定的计算子集 规模为n的所有p个组件的时间复杂度从O(n)降低到O(1)。方差和或标准方差 可以用一个或多个增量计算过的组件被计算,所以整体的时间复杂度从O(n)降 低到O(1)。随着n的增加,计算量的降低越突出。
以下的部分有一些方差和或标准方差的组件的例子和增量方差和或标 准方差计算算法的例子。
图4-1图示方差和标准方差的定义。假设计算子集X={xi|i=1,...,n}包 含参与方差和或标准方差计算的数据元素,数据元素x1,x2,x3,x4,......,xn,并且 假设方差和或标准方差需要被计算。假设过段时间数据元素xa被加入计算子集X。 每当一个数据元素加入计算子集后方差和或标准方差需要重新被计算,计算子 集会被认为是调整后的计算子集,一轮新的计会开始。
方程401和402是分别为第k轮计算X的所有数据元素的和Sk和平均值 的传统方程。方程403是为第k轮计算X的样本方差vsk的传统方程。方程404 是为第k轮计算X的总体方差vpk的传统方程。方程405是为第k轮计算X的样本 标准方差sk的传统方程。方程406是为第k轮计算X的总体标准方差σk的传统方 程。
图4-2图示计算调整后计算子集方差和标准方差的传统方程。方程407 和408是分别为第k+1轮计算调整后的X′的所有数据元素的和Sk+1和平均值的传统方程。方程409是为第k+1轮计算调整后的X′的样本方差vsk+1的传统方 程。方程410是为第k+1轮计算调整后的X′的总体方差vpk+1的传统方程。方程 411是为第k+1轮计算调整后的X′的样本标准方差sk+1的传统方程。方程412是 为第k+1轮计算调整后的X′的总体标准方差σk+1的传统方程。
为展示如何利用组件增量计算方差和或标准方差,三个不同的增量样本 标准方差算法被提供作为例子。
图4-3说明第一个例子增量方差和或标准方差计算算法(增量算法1)。 方程413和414可分别被用来初始化X的所有数据元素的Sk和或根据需要方 程415可以基于初始化的组件计算样本方差vsk。根据需要方程418可以基于初 始化的组件计算总体方差vpk。根据需要方程419可以基于初始化的组件计算样 本标准方差sk。根据需要方程420可以基于初始化的组件计算总体标准方差σk。 假设过段时间数据元素xa要加入计算子集X。基于组件Sk和或方程419和420 可分别被用来增量计算调整后计算子集X′的Sk+1和或基于增量计算的组件, 方程421可以增量计算调整后计算子集X′的样本方差vsk+1,方程422可以增量 计算调整后计算子集X′的总体方差vpk+1,方程423可以增量计算调整后计算子 集X′的样本标准方差sk+1,方程424可以增量计算调整后计算子集X′的总体标准 方差σk+1。419,420,421,和422分别包含多个方程但分别只需要其中一个取决 于是否和或平均值或两者都可用。
图4-4说明第二个例子增量方差和或标准方差计算算法(增量算法2)。 方程425和426可分别被用来初始化X的所有数据元素的Sk和或方程427可 以被用来初始化组件SSDk。根据需要方程428可以基于初始化的组件计算样本 方差vsk。根据需要方程429可以基于初始化的组件计算总体方差vpk。根据需要 方程430可以基于初始化的组件计算样本标准方差sk。根据需要方程431可以基 于初始化的组件计算总体标准方差σk。假设过段时间数据元素xa要加入计算子集 X。基于组件Sk和或方程432和433可分别被用来增量计算调整后计算子集 X′的Sk+1和或基于组件SSDk,方程434可以增量计算调整后计算子集X′的组件SSDk+1。基于增量计算的组件,方程435可以增量计算调整后计算子集X′的 样本方差vsk+1,方程436可以增量计算调整后计算子集X′的总体方差vpk+1,方 程437可以增量计算调整后计算子集X′的样本标准方差sk+1,方程438可以增量 计算调整后计算子集X′的总体标准方差σk+1。432,433,和434包含多个方程但 分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-5说明第三个例子增量方差和或标准方差计算算法(增量算法3)。 方程439和440可分别被用来初始化X的所有数据元素的Sk和或方程441可 以被用来初始化组件SSk。根据需要方程442可被用来基于初始化的组件生成样 本方差vsk。根据需要方程443可被用来基于初始化的组件生成总体方差vpk。根 据需要方程444可被用来基于初始化的组件生成样本标准方差sk。根据需要方程445可被用来基于初始化的组件生成总体标准方差σk。假设过段时间数据元素xa要加入计算子集X。基于组件Sk和或方程446和447可分别被用来增量计算 调整后计算子集X′的Sk+1和或基于组件SSk,方程448可以增量计算调整 后计算子集X′的组件SSk+1。基于增量计算的组件,方程449可以增量计算调整 后计算子集X′的样本方差vsk+1,方程450可以增量计算调整后计算窗口X′的总 体方差vpk+1,方程451可以增量计算调整后计算窗口X′的样本标准方差sk+1,方 程452可以增量计算调整后计算窗口X′的总体标准方差σk+1。442,443,444,445, 446,447,449,450,451,和452分别包含多个方程但分别只需要其中一个取决于 是否和或平均值或两者都可用。
为展示增量方差和标准方差算法以及它们与传统算法的比较,下面给出 三个例子。使用3个计算子集的数据。对于传统算法,所有3个计算子集的计算 过程完全相同。对于增量算法,第一个计算子集进行两个或多个组件的初始化, 第二个和第三个计算子集进行增量计算。
图5-1,图5-2,图5-3分别显示了用于一个计算实例的第一个计算子集, 第二个计算子集,和第三个计算子集。计算子集502包括大数据集501的4个数 据元素:8,3,6,1,9,2,5,4。计算子集规模503(n)是8。计算子集504包括大 数据集501的5个数据元素:8,3,6,1,9,2,5,4,-7。计算子集规模505(n)是 9。计算子集506包括大数据集501的6个数据元素:8,3,6,1,9,2,5,4,-7,11。 计算子集规模507(n)是10。
首先用传统算法分别计算计算子集502,504,和506的方差和标准方差。
为计算子集502计算样本方差:
没有任何优化的情况下,为规模为8的计算子集计算样本方差共有2次除法,8 次乘法,14次加法,和9次减法。计算样本标准方差时再加1个平方根。
相同的方程和过程可被用来分别为图5-2显示的计算子集504计算样本 方差和样本标准方差和为图5-3显示的计算子集506计算样本方差和样本标准方 差。规模为9的计算子集504的样本方差 计算子集504的样本标准方差 计算样本方差在没有优化的情况下包括2 次除法,9次乘法,16次加法和10次减法,计算样本标准方差时再加1个平方根。 规模为10的计算子集506的样本方差 计算子集506的样本标准方差计算样本方差在没有优化的情况下包括2 次除法,10次乘法,18次加法,和11次减法,计算样本标准方差时再加1个平方 根。传统算法在没有优化的情况下计算计算子集规模为n的样本方差时通常需要 完成2次除法,n次乘法,2n-2次加法,和n+1次减法,计算样本标准方差时再 加1个平方根。
下面用增量算法1分别计算计算子集502,504,和506的样本方差和样 本标准方差。
为规模为8的计算子集502计算样本方差和样本标准方差:
用方程415计算第1轮vs1:
用方程417计算第1轮s1:
为计算子集502计算样本方差时共有2个除法,8个乘法,14个加法,和9个减法, 计算样本标准方差时再加1个平方根。
为规模为9的计算子集504增量计算样本方差和样本标准方差:
用方程421计算第2轮vs2:
用方程423计算第2轮s2:
为计算子集504增量计算样本方差时共有2个除法,3个乘法,3个加法,和3个 减法,计算样本标准方差时再加1个平方根。
为规模为10的计算子集506增量计算样本方差和样本标准方差:
用方程421计算第3轮vs3:
用方程423计算第3轮s3:
为计算子集506增量计算样本方差时共有2个除法,3个乘法,3个加法,和3个 减法,计算样本标准方差时再加1个平方根。
下面用增量算法2分别计算计算子集502,504,和506的样本方差和样 本标准方差。
为规模为8的计算子集502计算样本方差和样本标准方差:
用方程428计算第1轮vs1:
用方程430计算第1轮s1:
为计算子集502计算样本方差时共有2个除法,8个乘法,14个加法,和9个减法, 计算样本标准方差时再加1个平方根。
为规模为9的计算子集504增量计算样本方差和样本标准方差:
用方程435计算第2轮vs2:
用方程437计算第2轮s2:
为计算子集504增量计算样本方差时共有2个除法,2个乘法,3个加法,和2个 减法,计算样本标准方差时再加1个平方根。
为规模为10的计算子集506增量计算样本方差和样本标准方差:
用方程435计算第3轮vs3:
用方程437计算第3轮s3:
为计算子集506增量计算样本方差时共有2个除法,2个乘法,3个加法,和2个 减法,计算样本标准方差时再加1个平方根。
下面用增量算法3分别计算计算子集502,504,和506的样本方差和样 本标准方差。
为规模为8的计算子集502计算样本方差和样本标准方差:
用方程442计算第1轮vs1:
用方程444计算第1轮s1:
为计算子集502计算样本方差时共有2个除法,10个乘法,14个加法,和2个减 法,计算样本标准方差时再加1个平方根。
为规模为9的计算子集504增量计算样本方差和样本标准方差:
SS2=SS1+xa 2=236+(-7)2=236+49=285
用方程449计算第2轮vs2:
用方程451计算第2轮s2:
为计算子集504增量计算样本方差时共有2个除法,4个乘法,4个加法,和1个 减法,计算样本标准方差时再加1个平方根。
为规模为10的计算子集506增量计算样本样本方差和样本标准方差:
SS3=SS2+xa 2=285+112=285+121=406
用方程449计算第3轮vs3:
用方程451计算第3轮s3:
为计算子集506增量计算样本方差时共有2个除法,4个乘法,4个加法,和1个 减法,计算样本标准方差时再加1个平方根。
在以上三个例子中,平均值被用于增量样本方差和样本标准方差计算。 和也可被用于样本方差和样本标准方差增量计算,只是操作数不同。
图6-1图示了当n=10传统样本方差计算算法和增量样本方差计算算 法的计算量对比。如图所示,任何一个增量算法都比传统算法少乘法操作,加法 操作,和减法操作。
图6-2图示了当n=1,000,000传统总体方差计算算法和增量总体方差 计算算法的计算量对比。如图所示,任何一个增量算法都比传统算法明显的少了 很多乘法操作,加法操作,和减法操作。
图6-3图示了当n=10传统样本标准方差计算算法和增量样本标准方 差计算算法的计算量对比。如图所示,任何一个增量算法都比传统算法少乘法操 作,加法操作,和减法操作。
图6-4图示了当n=1,000,000传统总体标准方差计算算法和增量总体 标准方差计算算法的计算量对比。如图所示,任何一个增量算法都比传统算法明 显的少了很多乘法操作,加法操作,和减法操作。增量算法把需要在成千上万台 计算机上处理的数据只在单机上就能完成。大大提高计算效率,减少计算资源需 求,降低计算设备能耗,使得实时判断大数据或流数据离散程度能够高效低耗 地完成及一些实时判断大数据或流数据离散程度的场景从不可能变为可能。
本发明可以在不脱离其思想或本质特征的情况下以其它特定的方式来 实现。本申请描述的实现方案从各个方面来说是仅作为示范性的而不是限制性的。 因此,本发明的范围由附加的权利要求书而不是前面的描述来指明。与权利要求 书中权利要求的含义和范围等价的所有变化都包含在它们的范围内。
Claims (10)
1.一种,由基于一个或多个计算设备构成的一个计算系统实现的,实时地判断大数据或流数据离散程度的方法,其特征在于:
由基于计算设备的一个计算系统,为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥0),为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及方差和或标准方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
由基于计算设备的该计算系统,基于一个或多个为该调整前计算子集初始化的组件,为该调整前计算子集生成方差和或标准方差。
由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素;
由基于计算设备的该计算系统,调整该调整前计算子集,通过向该调整前计算子集加入要加入的数据元素及更新该计算子集规模计数器;
由基于计算设备的该计算系统,为该调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于该调整前计算子集的方差和或标准方差的该一个或多个除了和及平均值之外的其它组件,为该调整后计算子集直接增量计算方差和或标准方差的一个或多个组件,这里的增量计算一个或多个组件包括:
访问被加入的数据元素从而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源,和降低能耗;
访问该调整前计算子集的方差和或标准方差的该一个或多个除了和及平均值之外的其它组件;以及
基于被加入的数据元素,向被访问的每个组件数学地加入被加入的数据元素对该组件的任何贡献从而避免使用该调整后计算子集中的所有数据元素来提高计算效率;以及
由基于计算设备的该计算系统,基于一个或多个为该调整后计算子集增量计算的组件,为该调整后计算子集生成方差和或标准方差。
2.按照权利要求1所述的由计算系统实现的该方法,其特征在于:所述访问或接收一个要加入该调整前计算子集的数据元素包括访问或接收多个要加入该调整前计算子集的数据元素,该方法也进一步包括对于多个要加入的数据元素中的每一个数据元素进行调整该调整前计算子集,为该调整后计算子集增量计算和或平均值或和及平均值,直接增量计算方差和或标准方差的一个或多个除了和及平均值之外的其它组件,以及为该调整后计算子集生成方差和或标准方差。
3.按照权利要求2所述的由计算系统实现的该方法,其特征在于:所述为该调整后计算子集生成方差和或标准方差当且仅当该方差和或标准方差被访问。
4.按照权利要求3所述的由计算系统实现的方法,其特征在于:所述为该调整后计算子集生成方差和或标准方差进一步包括由基于计算设备的该计算系统为该调整后计算子集间接增量计算方差和或标准方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于包括:
一个或多个计算设备,每个计算设备包含一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当该一个或多个计算模块被该一个或多个计算设备中的至少一个计算设备执行时,实时地判断大数据或流数据离散程度,其步骤包括:
a.为一个数据流的或存储于该一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥0),为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及方差和或标准方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
b.基于一个或多个为该调整前计算子集初始化的组件,为该调整前计算子集生成方差和或标准方差;
c.访问或接收一个要加入到该调整前计算子集的数据元素;
d.调整该调整前计算子集,包括向该调整前计算子集中加入要加入的数据元素及更新该计算子集规模计数器;
e.为该调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值;
f.为该调整后计算子集直接增量计算方差和或标准方差的一个或多个除了和及平均值以外的组件,包括:
访问被加入的数据元素而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源,和降低系统能耗;
访问该调整前计算子集的方差和或标准方差的那一个或多个除了和及平均值以外的组件;以及
基于被加入的数据元素,通过向被访问的每个组件数学地加入被加入的数据元素对该组件的任何贡献来得到该调整后计算子集的方差和或标准方差的该一个或多个组件,从而避免使用该调整后计算子集中的所有数据元素来提高计算效率;以及
g.基于一个或多个为该调整后计算子集增量计算的组件,为该调整后计算子集生成方差和或标准方差。
6.按照权利要求5所述的该计算系统,其特征在于:该一个或多个计算模块,当它们被一个或多个计算设备中的至少一个计算设备执行时,多次执行b,c,d,e,f,和g。
7.按照权利要求6所述的该计算系统,其特征在于:执行g当且仅当该调整后计算子集的方差和或标准方差被访问。
8.按照权利要求7所述的该计算系统,其特征在于:所述g进一步包括由该计算系统为该调整后计算子集间接增量计算方差和或标准方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
9.一个计算系统程序产品,运行于一个包含一个或多个计算设备的计算系统,每个计算设备包括一个或多个处理器,该计算系统程序产品包含多条计算设备可执行指令,当这些计算设备可执行指令被该计算系统中的至少一个计算设备运行时,使得该计算系统执行一个判断大数据或流数据离散程度的方法,其特征在于:
为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥0),为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及方差和或标准方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
基于一个或多个为该调整前计算子集初始化的组件,为该调整前计算子集生成方差和或标准方差;
访问或接收一个要加入到该调整前计算子集的数据元素;
调整该调整前计算子集,通过向该调整前计算子集加入要加入的数据元素及更新该计算子集规模计数器;
为该调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值;
至少基于该调整前计算子集的方差和或标准方差的该一个或多个除了和及平均值之外的其它组件,为该调整后计算子集直接增量计算方差和或标准方差的一个或多个组件,这里的增量计算一个或多个组件包括:
访问被加入的数据元素从而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源,和降低系统能耗;
访问该调整前计算子集的方差和或标准方差的该一个或多个除了和及平均值之外的其它组件;以及
基于被加入的数据元素,向被访问的每个组件数学地加入被加入的数据元素对该组件的任何贡献从而避免使用该调整后计算子集中的所有数据元素来提高计算效率;以及
基于一个或多个为该调整后计算子集增量计算的组件,为该调整后计算子集生成方差和或标准方差。
10.按照权利要求9所述的该计算系统程序产品,其特征在于:所述为该调整后计算子集生成方差和或标准方差进一步包括为该调整后计算子集间接增量计算方差和或标准方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790667.9A CN112434253A (zh) | 2019-08-26 | 2019-08-26 | 一种实时判断大数据或流数据离散程度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790667.9A CN112434253A (zh) | 2019-08-26 | 2019-08-26 | 一种实时判断大数据或流数据离散程度的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434253A true CN112434253A (zh) | 2021-03-02 |
Family
ID=74690255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910790667.9A Pending CN112434253A (zh) | 2019-08-26 | 2019-08-26 | 一种实时判断大数据或流数据离散程度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434253A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008052583A1 (en) * | 2006-11-02 | 2008-05-08 | Nokia Siemens Networks Gmbh & Co. Kg | Monitoring method and apparatus of processing of a data stream with high rate/flow |
CN105723330A (zh) * | 2013-11-15 | 2016-06-29 | 高通股份有限公司 | 采用抽头延迟线进行相关向量处理操作的向量处理引擎(vpe)、以及相关向量处理器系统和方法 |
CA3034203A1 (en) * | 2016-08-26 | 2018-03-01 | 1Qb Information Technologies Inc. | Method and system for performing real-time analytics on a plurality of data streams |
US10235415B1 (en) * | 2014-12-09 | 2019-03-19 | Cloud & Stream Gears Llc | Iterative variance and/or standard deviation calculation for big data using components |
CN109995834A (zh) * | 2017-12-30 | 2019-07-09 | 中国移动通信集团贵州有限公司 | 大流量数据处理方法、装置、计算设备及存储介质 |
-
2019
- 2019-08-26 CN CN201910790667.9A patent/CN112434253A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008052583A1 (en) * | 2006-11-02 | 2008-05-08 | Nokia Siemens Networks Gmbh & Co. Kg | Monitoring method and apparatus of processing of a data stream with high rate/flow |
CN105723330A (zh) * | 2013-11-15 | 2016-06-29 | 高通股份有限公司 | 采用抽头延迟线进行相关向量处理操作的向量处理引擎(vpe)、以及相关向量处理器系统和方法 |
US10235415B1 (en) * | 2014-12-09 | 2019-03-19 | Cloud & Stream Gears Llc | Iterative variance and/or standard deviation calculation for big data using components |
CA3034203A1 (en) * | 2016-08-26 | 2018-03-01 | 1Qb Information Technologies Inc. | Method and system for performing real-time analytics on a plurality of data streams |
CN109995834A (zh) * | 2017-12-30 | 2019-07-09 | 中国移动通信集团贵州有限公司 | 大流量数据处理方法、装置、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9928215B1 (en) | Iterative simple linear regression coefficient calculation for streamed data using components | |
US10659369B2 (en) | Decremental autocorrelation calculation for big data using components | |
US10225308B1 (en) | Decremental Z-score calculation for big data or streamed data using components | |
US10248690B1 (en) | Decremental correlation calculation for big data or streamed data using components | |
US10235415B1 (en) | Iterative variance and/or standard deviation calculation for big data using components | |
US10320685B1 (en) | Iterative autocorrelation calculation for streamed data using components | |
US10235414B1 (en) | Iterative kurtosis calculation for streamed data using components | |
US10079910B1 (en) | Iterative covariance calculation for streamed data using components | |
US10394809B1 (en) | Incremental variance and/or standard deviation calculation for big data or streamed data using components | |
CN112035521A (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
US10191941B1 (en) | Iterative skewness calculation for streamed data using components | |
US10282445B1 (en) | Incremental kurtosis calculation for big data or streamed data using components | |
US10394810B1 (en) | Iterative Z-score calculation for big data using components | |
CN112434253A (zh) | 一种实时判断大数据或流数据离散程度的方法 | |
CN112035520A (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
US10162856B1 (en) | Incremental correlation calculation for big data or streamed data using components | |
CN112395555A (zh) | 一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法 | |
CN112182033A (zh) | 一种实时判断大数据或流数据分布不对称性的方法 | |
CN110457340B (zh) | 一种实时寻找大数据自身重复规律的方法 | |
CN111897841A (zh) | 一种实时判断大数据或流数据分布密度集中程度的方法 | |
US10339136B1 (en) | Incremental skewness calculation for big data or streamed data using components | |
CN110515680B (zh) | 一种实时判断大数据自身给定延迟重复性的方法 | |
CN110515681B (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
CN111831689A (zh) | 一种实时判断大数据或流数据分布密度集中程度的方法 | |
CN110363321B (zh) | 一种实时预测大数据变化趋势的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |