CN112035505A - 一种实时判断大数据分布密度集中程度的方法 - Google Patents

一种实时判断大数据分布密度集中程度的方法 Download PDF

Info

Publication number
CN112035505A
CN112035505A CN201910478683.4A CN201910478683A CN112035505A CN 112035505 A CN112035505 A CN 112035505A CN 201910478683 A CN201910478683 A CN 201910478683A CN 112035505 A CN112035505 A CN 112035505A
Authority
CN
China
Prior art keywords
kurtosis
subset
components
computation
adjusted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910478683.4A
Other languages
English (en)
Inventor
吕纪竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910478683.4A priority Critical patent/CN112035505A/zh
Publication of CN112035505A publication Critical patent/CN112035505A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

峰度可用于判断数据分布密度的集中和分散程度。本发明公开了一种通过迭代计算指定规模的计算子集的峰度的两个以上组件来实时地迭代地计算大数据的峰度从而可以实时地判断大数据分布密度集中程度的方法,系统,和计算系统程序产品。本发明的实施方案包括基于调整前计算子集的峰度的二个以上组件迭代计算调整后计算子集的峰度的二个以上组件,然后根据需要基于迭代计算的二个以上组件生成调整后计算子集的峰度。迭代计算峰度可以基于最新数据实时更新计算结果并避免访问调整后计算子集中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据分布密度集中程度能够高效低耗及一些实时判断大数据分布密度集中程度的场景从不可能变为可能。

Description

一种实时判断大数据分布密度集中程度的方法
技术领域
大数据或流数据分析。
背景技术
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。
峰度反映了数据密度分布相对于正态分布的集中程度。因此计算峰度后判断大数据分布密度集中程度显而易见,困难和挑战在于如何实时地在大数据上计算峰度。
为了能够随时得到利用了最新数据的判断结果,峰度可能会在大数据集有变化后需要重新计算。因此,一些(可能很多)数据元素会被重复访问和使用。例如,有可能峰度在含有n个数据元素的计算子集上被计算。当一个数据元素从计算子集里被去除和一个数据元素被加入计算子集后,计算子集里所有的n个数据元素都被访问来重新计算峰度。
取决于需要,计算子集的规模可能非常大,例如计算子集中的数据元素可能分布在云平台的成千上万台计算设备上。在一些数据变化后的大数据上用传统方法重新计算峰度无法做到实时处理并且占用和浪费大量计算资源。
发明内容
峰度可用于判断数据分布密度的集中和分散程度。本发明拓展到方法,系统,和计算系统程序产品以迭代方式计算大数据的调整后计算子集的峰度从而可以实时判断大数据分布密度集中程度。为一个调整后计算子集迭代计算峰度包括基于调整前计算子集的峰度的多个组件迭代计算调整后计算子集的峰度的多个组件然后根据需要基于迭代计算的组件生成调整后计算子集的峰度。迭代计算峰度只需要访问和使用迭代计算的组件,新加入和去除的数据元素而避免访问调整后计算子集中的所有数据元素和执行重复计算从而降低数据访问延迟,提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据分布密度集中程度能够高效低耗及一些实时判断大数据分布密度集中程度从不可能变为可能。
对于一个给定的峰度迭代算法,假设在同一轮迭代计算中所有迭代计算的组件(包括计算子集的和或平均值)总数为p(p>1)。直接迭代的组件个数为v(1≤v≤p),则间接迭代的组件个数为w=p-v(w≥0)。其中计算子集的和或平均值是必须迭代计算的特殊组件。和或平均值可以被直接或间接迭代计算。
计算系统初始化存储在一个或多个存储媒体上的一个大数据集的一个调整前计算子集的峰度的,包括一个和或一个平均值在内的,两个以上(p,p>1)组件。该两个以上组件的初始化包括从计算设备可读媒体上接收或访问已计算过的组件或基于调整前计算子集中的数据元素根据组件的定义来计算。
计算系统访问一个要从调整前计算子集中去除的数据元素和一个要被加入到调整前计算子集的数据元素。
计算系统通过从调整前计算子集中去除要去除的数据元素和向调整前计算子集加入要加入的数据元素来调整调整前计算子集。
计算系统迭代计算调整后计算子集的一个和或一个平均值或一个和及一个平均值。
计算系统直接迭代计算该调整后计算子集的峰度的除和及平均值之外的v(1≤v≤p)个组件。直接迭代计算这v个组件包括:访问调整前计算子集的v个组件;从v个组件中的每个组件中数学地去除被去除的数据元素的贡献;以及向v个组件中的每个组件数学地加入被加入的数据元素的贡献而避免访问和使用调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗和提高计算效率。
计算系统根据需要间接迭代计算调整后计算子集的峰度的w=p-v个组件。间接迭代计算w个组件包括一个一个地间接迭代计算w个组件中的每一个组件。间接迭代计算一个组件包括:访问并使用除该组件之外的一个或多个组件来计算该组件。这一个或多个组件可能是经过初始化的,直接迭代计算的或间接迭代计算的。
计算系统至少基于一个或多个迭代计算的调整后计算子集的峰度的组件生成调整后计算子集的峰度。
计算系统可以持续地访问一个要去除的数据元素和一个要加入的数据元素,调整调整前计算子集,迭代计算调整后计算子集的一个和或一个平均值或一个和及一个平均值,直接迭代计算v(1≤v≤p)个组件,根据需要间接迭代计算w=p-v个组件和生峰度。计算系统可以根据需要多次重复这个过程。
本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。
本发明的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本发明的实践中学到。本发明的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本发明的这些和其它特征将在下面的描述和附加的权利要求书或本发明的应用实践中变得更加全面和清晰。
附图说明
为描述能够获得本发明的上述的和其它的优点和特点的方式,上面简述的本发明的一个更具体的描述将通过参照下列附加的图表中所显示的特定的实施方案来展现出来。这些图表只是描述了本发明的典型实施方案,因此它们不应被理解或解释为对本发明的范围的限制:
图1图示了为大数据迭代计算峰度的一个例子计算系统的高层概括。
图1-1图示了一个为大数据迭代计算峰度并且所有组件都是直接迭代计算的计算系统架构的例子。
图1-2图示了一个为大数据迭代计算峰度并且部分组件直接迭代计算,部分组件间接迭代计算的计算系统架构的例子。
图2图示了一个为大数据迭代计算峰度的方法流程图的例子。
图3图示了在大数据上为迭代计算峰度被访问的计算子集中的数据元素。
图4-1图示了峰度的定义以及计算子集上计算峰度的传统方程。
图4-2图示了调整后计算子集上计算峰度的传统方程。
图4-3显示了第一个迭代峰度计算例子算法(迭代算法1)。
图4-4显示了第二个迭代峰度计算例子算法(迭代算法2)。
图4-5显示了第三个迭代峰度计算例子算法(迭代算法3)。
图5-1显示了用于一个计算实例的第一个计算子集。
图5-2显示了用于一个计算实例的第二个计算子集。
图5-3显示了用于一个计算实例的第三个计算子集。
图6-1图示了计算子集规模为4时,传统峰度算法和迭代峰度算法的计算工作量对比。
图6-2图示了计算子集规模为1,000,000时,传统峰度算法和迭代峰度算法的计算工作量对比。
具体实施方法
峰度可用于判断数据分布密度的集中和分散程度。本发明拓展到通过迭代计算规模为n(n>1)的调整后计算子集的峰度的两个以上组件来迭代地计算大数据上的峰度从而可以实时判断大数据分布密度集中程度的方法,系统和计算系统程序产品。一个计算系统包含一个或多个基于处理器的计算设备。每个计算设备包含一个或多个处理器。该计算系统包含一个或多个存储媒体。该一个或多个存储媒体中的至少一个上有一个数据集。来自该数据集的,涉及到峰度计算的多个数据元素组成一个调整前的计算子集。计算子集规模n(n>1)指明该调整前计算子集中的数据元素个数。本发明的实施方案包括基于调整前计算子集的峰度的多个组件迭代计算调整后计算子集的峰度的多个组件,然后根据需要基于迭代计算的组件生成调整后计算子集的峰度。迭代计算峰度避免访问调整后计算子集中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据分布密度集中程度能够高效低耗及一些实时判断大数据分布密度集中程度的场景从不可能变为可能。
在本文中,一个计算子集是包含做峰度计算的数据元素的数据集。一个计算子集类似于一个在流数据或时间序列数据上计算峰度的移动窗口。在本发明的实施方案的描述里,计算子集和计算窗口的区别是计算窗口里的数据元素有顺序但计算子集里的没有。
流化的大数据处理和实时流数据处理的区别是当处理流化的大数据时,所有历史数据都可以被访问,所以不需要额外用缓冲区存储新接收的数据元素。
峰度是随机变量的值的规格化的四阶中心矩,其描述了密度函数在左端和右端以多快的速度趋向于零。因此,峰度被用来刻画不同类型的分布的集中和分散的程度。负的峰度表明偏差是由很多偏离均值的值引起的,也即分布比较分散,其密度的单峰越平缓。正的峰度表明偏差是由少数几个偏离均值的极端方差引起的,也即分布比较集中,其密度的单峰越陡峭。峰度包括样本峰度,样本过量峰度,总体峰度,以及过量峰度等。它们的定义可参见附图4-1.
在本文中,峰度的一个组件是出现在峰度定义公式中或其定义公式的任何转换中的一个量或表达式。峰度是它自己最大的组件。峰度可基于一个或多个组件或它们的组合被计算,所以多个算法支持迭代峰度计算。以下是一些峰度的组件的例子。
·
Figure BDA0002083098870000051
·
Figure BDA0002083098870000052
·
Figure BDA0002083098870000053
·
Figure BDA0002083098870000054
·
Figure BDA0002083098870000055
·
Figure BDA0002083098870000056
·
Figure BDA0002083098870000057
·
Figure BDA0002083098870000058
·
Figure BDA0002083098870000059
·
Figure BDA00020830988700000510
·
Figure BDA00020830988700000511
·
Figure BDA00020830988700000512
·
Figure BDA00020830988700000513
·
Figure BDA00020830988700000514
·
Figure BDA00020830988700000515
·
Figure BDA00020830988700000516
一个组件可以被直接迭代计算或间接迭代计算。它们的区别是当一个组件被直接迭代计算时该组件是通过该组件在前一轮计算的值来计算的,而当该组件被间接迭代计算时该组件是用该组件之外的其它组件计算的。
对于一个给定的组件,它也许在一个算法中被直接迭代计算但在另一个算法中被间接迭代计算。
计算子集的和或平均值是必须迭代计算的特殊组件。对于任意一个算法,至少会有两个组件被迭代计算,其中一个组件是和或平均值,它们可以被直接或间接迭代计算,两个组件中的另一个组件可被直接迭代计算。对于一个给定的算法,假设在同一轮迭代计算中迭代计算的不同组件的总数是p(p>1),如果直接迭代计算的组件个数是v(1≤v≤p),那么间接迭代计算的组件的个数是w=p-v(0≤w<p)。可能这些组件都被直接迭代计算(这种情况下v=p>1并且w=0)。但是,无论峰度的结果是否在一个特定的轮次被需要和访问,直接迭代计算的组件都必须被计算。
对于一个给定算法,如果一个组件被直接迭代计算,则该组件必须被计算(即每当一个已有的数据元素被从调整前计算子集中去除和每当一个数据元素被加入到调整前计算子集中时)。但是,如果一个组件被间接迭代计算,则该组件可以通过使用该组件之外的其它一个或多个组件来根据需要,即只有当峰度需要被计算和访问时,被计算。这样,当峰度在某一个迭代计算轮次不被访问时,可以只有少量的组件需要被迭代地计算。一个间接迭代计算的组件也许会被用于另一个组件的直接迭代计算或下一轮另一个组件的间接迭代计算,在这种情况下,该间接迭代计算的组件的计算不可省略。
峰度可以根据需要被计算。当峰度在每次计算子集有变化而不需要被访问时,计算系统只需要为每次数据变化迭代计算和或平均值以及除了和或平均值之外的一个或多个组件。迭代计算这些组件避免了访问之前的所有输入和做重复计算因此提高计算效率。峰度可以在需要被访问时由计算系统基于迭代计算的组件来生成。
本发明的实现方案包括基于为调整前计算子集计算的峰度的两个以上组件迭代地计算调整后计算子集的峰度的两个以上组件。其中计算子集的和或平均值是必须迭代计算的特殊组件。和或平均值可以被直接或间接迭代计算。对于一个给定的迭代峰度算法,假设在同一轮迭代计算中所有迭代计算的组件(包括计算子集的和或平均值)总数为p(p>1)。直接迭代的组件个数为v(1≤v≤p),则间接迭代的组件个数为w=p-v(w≥0)。
计算系统初始化一个给定规模n(n>1)的调整前计算子集的两个以上组件(共p(p>1)个,包括一个和或一个平均值或一个和及一个平均值,以及峰度的其它一个或多个组件)。该两个以上组件的初始化包括根据其定义基于该调整前计算子集中的数据元素来计算或从一个或多个计算设备可读媒体上访问或接收已经计算过的组件。
计算系统访问一个要从该调整前计算子集中去除的数据元素和一个要被加入到该调整前计算子集中的数据元素。
计算系统调整调整前计算子集通过:从该调整前计算子集中去除要被去除的数据元素和向该调整前计算子集中加入要被加入的数据元素。
计算系统迭代计算调整后计算子集的一个和或一个平均值或一个和及一个平均值。
计算系统为调整后计算子集直接迭代计算峰度的除和及平均值之外的v(1≤v≤p)个组件。直接迭代计算该v个组件包括:访问为调整前计算子集计算的v个组件;从访问的每个组件中数学地去除被去除的数据元素的任何贡献;及向访问的每个组件数学地加入被加入的数据元素的任何贡献而避免访问和使用调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗和提高计算效率。
计算系统根据需要为调整后计算子集间接迭代计算峰度的w=p-v个组件。间接迭代计算峰度的w个组件包括一个一个分别间接地迭代计算w个组件中的每一个。间接迭代计算一个组件包括:访问该组件之外的一个或多个组件并基于访问的组件计算该组件。这些一个或多个组件可以是被初始化过的,直接迭代计算过的或间接迭代计算过的。
计算系统根据需要,至少基于为调整后计算子集迭代计算的峰度的一个或多个组件,为调整后计算子集生成峰度。
计算系统可以持续访问要从调整前计算子集中去除的数据元素和要加入到调整前计算子集的数据元素,调整调整前计算子集,迭代计算调整后计算子集的一个和或一个平均值或一个和及一个平均值,直接迭代计算v个组件,根据需要间接迭代计算w=p-v个组件,根据需要基于一个或多个迭代计算的组件生成峰度,并根据需要多次重复这个过程。
本发明的实施方案可以包括或利用包含计算设备硬件,例如一个或多个处理器和以下更详细描述的存储设备,专用的或通用的计算设备。本发明实施方案的范围也包括物理的及其它用于携带或存储计算设备可运行指令和或数据结构的计算设备可读媒体。这些计算设备可读媒体可以是通用或专用计算设备可访问的任何媒体。存储计算设备可运行指令的计算设备可读媒体是存储媒体(设备)。携带计算设备可运行指令的计算设备可读媒体是传输媒体。因此,以举例而非限制的方式,本发明的实施方案可以包括至少两种不同类型的计算设备可读媒体:存储媒体(设备)和传输媒体。
存储媒体(设备)包括随机存取存储器(RAM),只读存储器(ROM),电可擦除可编程只读存储器(EEPROM),只读光盘存储器(CD-ROM),固态硬盘(SSD),闪存(Flash Memory),相变存储器(PCM),其它类型存储器,其它光学磁盘存储,磁盘存储器或其它磁性存储设备,或任何其它能用于存储所需要的以计算设备可运行指令或数据结构形式构成的程序代码并且其可以被通用或专用计算设备访问的媒体。
一个“网络”被定义为使计算设备和或模块和或其它电子设备能够传输电子数据的一个或多个数据链接。当信息被网络或另外的通讯连接(有线,无线,或有线和无线的组合)传输或提供给计算设备时,计算设备把连接视为传输媒体。传输媒体可包括用于携带所需要的以计算设备可运行指令或数据结构形式构成的程序代码,并且其可以被通用或专用计算设备访问的一个网络和或数据链接。以上的组合也应包括在计算设备可读媒体的范围之内。
此外,在应用不同计算设备组件时,计算设备可运行指令或数据结构形式的程序代码可以从传输媒体自动传输到存储媒体(设备)(或反过来)。例如,从网络或数据链接上接收的计算设备可运行指令或数据结构可以被暂存进网络接口模块(例如,NIC)中的随机存取存储器中,然后最终传输到计算设备的随机存取存储器和或到计算设备的一个较小易变的存储媒体(设备)。所以,应当理解存储媒体(设备)可以被包括在也(或甚至主要)应用传输媒体的计算设备组件里。
计算设备可运行指令包括,例如,指令和数据,当被处理器运行时,使得通用计算设备或专用计算设备去执行一个特定功能或一组功能。计算设备可运行指令可以是,例如,二进制,中间格式指令例如汇编代码,或甚至源代码。虽然描述的客体是用结构特征和或方法动作的具体语言描述的,应当理解在附加的权利要求书中定义的客体不一定局限于以上描述的特征或动作。而是,描述的特征或动作仅是以实现权利要求的例子形式而公开的。
本发明的实施方案可以在由多种类型的计算设备配置的网络计算环境中实现,这些计算设备包括个人电脑,台式机,笔记本电脑,信息处理器,手持设备,多处理系统,基于微处理器或可编程的电子消费品,网络电脑,小型计算机,主计算机,超级计算机,移动电话,掌上电脑,平板电脑,呼机,路由器,交换机及类似产品。本发明的实施方案也可以应用于通过网络互联(即可通过有线数据链接,无线数据链接,也可以是有线数据链接与无线数据链接的结合)的执行任务的本地或远程计算设备构成的分布式系统环境。在分布式系统环境中,程序模块可以被存储在本地或远程存储设备上。
本发明的实施方案也可以在云计算环境里实现。在本描述及后续的权利要求书中,“云计算”被定义为一个使得能够按需通过网络访问到可配置计算资源的共享池的模型。例如,云计算可以被市场利用去提供普及和方便的按需访问可配置计算资源的共享池。可配置计算资源的共享池可以通过虚拟化很快预备并且以低管理开销或低服务提供商互动来提供,然后做相应的调整。
云计算模型可以包括各种特征例如,按需自服务,宽带网络访问,资源收集,快速收放,计量服务等等。云计算模型也可以各种服务模式来体现,例如,软件做为服务(“SaaS”),平台做为服务(“PaaS”),以及设施做为服务(“IaaS”)。云计算模型也可以通过不同的部署模型例如私有云,社区云,公共云,混合云等等来部署。
由于本发明有效地降低了对计算能力的要求,其实施方案也可应用于边缘计算。
下面的章节中会给出几个例子。
图1图示了为大数据迭代计算峰度的一个例子计算系统100的高层概述。参考图1,计算系统100包括由不同网络,例如局域网1021,无线网1022,和互联网1023等等,连接的多个设备。多个设备包括,例如,数据分析引擎1007,存储系统1011,实时数据流1006,以及可以安排数据分析任务和或查询数据分析结果的多台分布的计算设备,例如个人电脑1016,手持设备1017和台式机1018等等。
数据分析引擎1007可以包括一个或多个处理器,例如CPU 1009和CPU1010,一个或多个系统内存,例如系统内存1008,及组件计算模块131和峰度计算模块191。模块131的细节会在其它图表中更详细地图示(例如,图1-1和图1-2)。存储系统1011可以包括一个或多个存储媒体,例如存储媒体1012和存储媒体1014,其可以用于存放大数据集。例如,1012和或1014可以包括数据集123。存储系统1011里的数据集可以被数据分析引擎1007访问。
通常,数据流1006可以包括来自不同数据源的流数据,例如,股价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,和或闭合字幕数据等。这里举例描绘了几个,实时数据1000可以包括从感应器1001,股票1002,通讯1003和银行1004等等实时收集的数据。数据分析引擎1007可以接收来自数据流1006的数据元素。来自不同数据源的数据可以被存储在存储系统1011并且为大数据分析所访问,例如数据集123可以来自不同的数据源并且为大数据分析所访问。
请理解图1是以非常简化的形式介绍一些概念,例如,分布设备1016和1017可能经过防火墙才联到数据分析引擎1007,数据分析引擎1007从数据流1006和或存储系统1011访问或接收的数据可能经过数据过滤器筛选,等等。
图1-1图示了为大数据集迭代计算峰度,其所有(v=p>1)组件被直接迭代计算,的例子计算系统架构100A。关于计算系统架构100A,这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些部件如何协作共同完成迭代峰度计算的过程将在后面结合图2中描述的流程图一起介绍。图1-1图示了图1显示的1006和1007。参考图1-1,计算系统架构100A包括组件计算模块131和峰度计算模块191。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络,如局域网,广域网,甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计算设备和它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协议(“IP”)数据报和其它使用IP数据报的高层协议,例如,用户数据报协议(“UDP”),实时流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器(“MMS”),传输控制协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议(“SMTP”),等等)。组件计算模块131的输出会被作为峰度计算模块191的输入,峰度计算模块191可以生成峰度192。峰度192可以是样本峰度,总体峰度,样本过量峰度和/或过量峰度。
如图所示,存储媒介121包含数据集123。数据集123包含存储在存储媒介121上多个位置的多个数据元素。例如,数据元素101,102,103,104,105,106,107,108,109和110分别存在位置121A,121B,121C,121D,121E,121F,121G,121H,121I和121J等等。还有多个数据元素存在其它位置。
参考计算系统架构100A,通常组件计算模块131包含为直接迭代计算调整后计算子集的一组n个数据元素的v(v=p>1)个组件的v个组件计算模块。v是迭代计算峰度的给定算法中直接迭代计算的组件的个数,它随着使用的迭代算法不同而不同。如图1-1中所示,组件计算模块131包含一个组件Cd1计算模块161和一个组件Cdv计算模块162,它们之间还有v-2个其它组件计算模块,它们可以是组件Cd2计算模块,组件Cd3计算模块,……,以及组件Cdv-1计算模块。每个组件计算模块计算特定的组件。每个组件计算模块包含一个为第一个调整前计算子集初始化一个组件的初始化模块和一个为调整后计算子集直接迭代计算该组件的算法。例如,组件Cd1计算模块161包含初始化模块132来初始化组件Cd1和迭代算法133来迭代计算组件Cd1,组件Cdv计算模块162包含初始化模块138来初始化组件Cdv和迭代算法139来迭代计算组件Cdv
初始化模块132可以在初始化组件Cd1时使用或在峰度计算被重置时使用。同样,初始化模块138可以在初始化组件Cdv时使用或在峰度计算被重置时使用。
参考图1-1,计算系统架构100A还包括峰度计算模块191。峰度计算模块191可根据需要基于一个或多个迭代计算的组件计算峰度192。峰度192可以是样本峰度,总体峰度,样本过量峰度和/或过量峰度。
图1-2图示了为大数据集迭代计算峰度并且部分(v(1≤v<p,p>1)个)组件直接迭代计算,部分(w=p-v)组件间接迭代计算的一个例子计算系统架构100B。在一些实现中,计算系统架构100B和100A之间的区别是架构100B包括组件计算模块135。除此之外,和100A有同样标记号的部分都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部分会在这里讨论。100B里面的数字v和100A里面的数字v可能不同,因为有些100A里被直接迭代计算的组件会在100B里被间接迭代计算。在100A中,v=p>1,但在100B中,1≤v<p。参考图1-2,计算系统架构100B包括组件计算模块135。组件计算模块131的输出可以作为组件计算模块135的输入,计算模块131和135的输出可以作为峰度计算模块191的输入,峰度计算模块191可以生成峰度192。组件计算模块135通常包括w=p-v个组件计算模块来间接迭代计算w个组件。例如,组件计算模块135包括组件计算模块163用于间接迭代计算组件Ci1,组件计算模块164用于间接迭代计算组件Ciw,以及它们之间的其它w-2个组件计算模块。间接迭代计算w个组件包括一个一个地间接迭代计算w个组件的每一个。间接迭代计算一个组件包括访问和使用除该组件本身之外的一个或多个组件。那一个或多个组件可以是被初始化,直接迭代计算或间接迭代计算过的。
图2图示了为大数据迭代计算峰度的一个例子方法200的流程图。方法200会分别结合计算系统架构100A和100B的组件和数据一起描述。
方法200包括为指定规模为n(n>1)的调整前计算子集初始化峰度的p(p>1)个组件(201)。例如,在计算系统架构100A和100B中,假设调整前计算子集的规模为n=8,调整前计算子集122包括数据元素101到108,初始化模块132可以用贡献151(数据元素101的贡献),贡献152(数据元素102的贡献)和贡献153(其它数据元素103,104,105,106,107,和108的贡献)的值初始化组件Cd1 141。同样,初始化模块138可以访问组件Cdv的初始值并且用贡献181(数据元素101的贡献),贡献182(数据元素102的贡献)和贡献183(其它数据元素103,104,105,106,107,和108的贡献)的值初始化组件Cdv 145。
方法200包括访问要从该调整前计算子集去除的数据元素和要加入到该调整前计算子集的数据元素(202)。例如,在计算系统架构100A和100B中,计算系统访问要从调整前计算子集122中去除的数据元素101和要加入到调整前计算子集122的数据元素109。
方法200包括调整该调整前计算子集(203)。调整该调整前计算子集包括从该调整前计算子集去除要去除的数据元素(204)和加入要加入的数据元素到该调整前计算子集(205)。例如,在计算系统架构100A和100B中,数据元素101被从调整前计算子集122去除,数据元素109被加入到调整前计算子集122后,调整前计算子集122变成调整后的计算子集122A。
方法200包括基于该调整前计算子集的v(1≤v≤p)个组件直接迭代计算调整后计算子集的峰度的v个组件(206),包括:访问该调整前计算子集的峰度的v个组件(207);从每个访问的组件中数学地去除从该调整前计算子集中被去除的数据元素的任何贡献(208);及向每个访问的组件数学地加入被加入到该调整前计算子集中的数据元素的任何贡献(209)。细节描述如下。
直接迭代计算调整后计算子集的峰度的v个组件包括访问该调整前计算子集的峰度的v个组件(207)。例如,在计算系统架构100A和100B中,迭代算法133可访问组件Cd1141,迭代算法139可访问组件Cdv 145。
直接迭代计算调整后的计算子集的峰度的v个组件包括从每个访问的组件中数学地去除被去除的数据元素的任何贡献(208)。例如,直接迭代计算组件Cd1 143可以包括贡献去除模块133A数学地从组件Cd1 141去除贡献151(数据元素101的贡献),直接迭代计算组件Cdv 147可以包括贡献去除模块139A数学地从组件Cdv 145去除贡献181(数据元素101的贡献)。
直接迭代计算调整后的计算子集的峰度的v个组件包括向每个访问的组件数学地加入被加入的数据元素的任何贡献(209)。例如,直接迭代计算组件Cd1 143可以包括贡献增加模块133B数学地加入贡献154到组件Cd1 141,直接迭代计算组件Cdv 147可以包括贡献增加模块139B数学地加入贡献184到组件Cdv 145。贡献154和184都是来自数据元素109的贡献。
如图1-1和1-2所示,组件Cd1 143包括贡献152(数据元素102的贡献),其它贡献153(数据元素103-108的贡献),和贡献154(数据元素109的贡献)。同样,组件Cdv 147包括贡献182(数据元素102的贡献),其它贡献183(数据元素103-108的贡献),和贡献184(数据元素109的贡献)。
峰度可以根据需要被计算,即,只需要被访问时计算,但是每当一个存在的数据元素被去除和一个数据元素被增加到调整前计算子集时,v个组件必须被计算。
当峰度被访问并且v<p(即,不是所有组件都被直接迭代计算)时,方法200包括根据需要间接迭代计算w=p-v个组件(210)。这w个组件只有当峰度被访问时才会计算。例如,参考图1-2其部分组件直接迭代计算,部分组件间接迭代计算,计算模块163可以基于组件Ci1之外的一个或多个组件来间接迭代计算组件Ci1,计算模块164可以基于组件Ciw之外的一个或多个组件来间接迭代计算组件Ciw。这一个或多个组件可以是初始化,直接迭代计算,或间接迭代计算过的。
方法200包括用一个或多个初始化或迭代计算过的组件根据需要生成峰度(211)。例如,参考图1-1,峰度计算模块191可以基于组件Cd1 143到组件Cdv 147范围内的一个或多个组件计算峰度192。峰度192可以是样本峰度,总体峰度,样本过量峰度和/或过量峰度。
202-209可以随着更多数据元素的访问被重复。210-211可以根据需要被重复。例如,计算完组件Cd1 143到组件Cdv 147范围内的组件之后,数据元素102和数据元素110可以被访问(202)。102和110可以分别从位置121B和121J访问。每当开始下一轮迭代时,原来的调整后计算子集就变成了新一轮计算的调整前计算子集。通过去除要被去除的数据元素102(204)和加入要被加入的数据元素110(205),原来调整后的计算子集122A(即新一轮计算的调整前计算子集)可以变成新一轮调整后的计算子集122B(203)。
迭代算法133可以用组件Cd1 143(调整后的计算子集122A的)直接迭代计算组件Cd1 144(调整后的计算子集122B的)(206)。迭代算法133可以访问组件Cd1 143(207)。直接迭代计算组件Cd1 144可以包括贡献去除模块133A从组件Cd1 143数学地去除贡献152(即,去除的数据元素102的贡献)(208)。直接迭代计算组件Cd1 144可以包括贡献增加模块133B数学地增加贡献155(即,增加的数据元素110的贡献)到组件Cd1 143上(209)。同样,迭代算法139可以用组件Cdv 147(调整后的计算子集122A的)直接迭代计算组件Cdv 148(调整后的计算子集122B的)(206)。迭代算法139可以访问组件Cdv 147(207)。直接迭代计算组件Cdv148可以包括贡献去除模块139A从组件Cdv 147数学地去除贡献182(即,去除的数据元素102的贡献)(208)。直接迭代计算组件Cdv 148可以包括贡献增加模块139B数学地增加贡献185(即,增加的数据元素110的贡献)到组件Cdv 147上(209)。
如图1-1和1-2所示,组件Cd1 144包括其它贡献153(数据元素103-108的贡献),贡献154(数据元素109的贡献),和贡献155(数据元素110的贡献)。同样,组件Cdv 148包括其它贡献183(数据元素103-108的贡献),贡献184(数据元素109的贡献)和贡献185(数据元素110的贡献)。
方法200包括,根据需要即只有峰度被访问时,间接迭代计算w个组件和峰度。如果峰度不被访问,方法200包括继续为下一个计算子集访问下一个要去除的数据元素和下一个要加入的数据元素(202)。如果峰度被访问,方法200包括间接迭代计算w个组件(210),基于一个或多个迭代计算的组件计算峰度(211)。
当下一个要去除的数据元素和要加入的数据元素被访问,组件Cd1 144可被用来直接迭代计算下一个组件Cd1,组件Cdv 148可被用来直接迭代计算下一个组件Cdv
图3图示在大数据上迭代计算峰度时计算子集300中被访问的数据元素。计算子集和计算窗口的区别是计算子集上的数据元素没有顺序(例如,存在的数据元素可以从计算子集的任何位置被去除并且数据元素可以加入计算子集的任何位置)。例如,参考图3,访问的数据元素可以从计算子集300的任何位置(“r”标识的)被去除并且一个数据元素可以增加到计算子集300的任何位置(“a”标识的)。对于计算子集300,最开始的n个数据元素会被访问来计算(初始化)第一个调整前计算子集的一个或多个组件,然后根据需要计算峰度。随着时间的推移,一个要从调整前计算子集去除的数据元素xr和一个要加入计算子集的数据元素xa会被访问来直接迭代计算调整后的计算子集的峰度的v个组件和间接迭代计算w=p-v个组件。这些迭代计算得出的组件中的一个或多个会被用来计算峰度。这v个组件可以通过从调整前计算子集去除的数据元素,加入的数据元素和调整前计算子集的v个组件被直接迭代计算,而不需要访问计算子集300里的其它数据元素。对于一个给定的迭代算法,v是个常量,所以直接迭代计算v个组件的操作数也是个常量,间接迭代计算w=p-v个组件的操作数也是个常量。所以,第一个调整前计算子集的一个或多个组件被计算后,计算一个给定的规模为n的调整后计算子集的所有p个组件的计算工作量被降低并保持为常数。n越大,计算量的降低越突出。
以下的部分有一些峰度的组件的例子和迭代峰度计算算法的例子。
图4-1图示峰度的定义。峰度包括总体峰度,过量峰度,样本峰度,和样本过量峰度。假设计算子集X={xi|i=1,…,n,n>1}包含参与峰度计算的数据元素,数据元素x1,x2,x3,x4,……,xn是来自于变量X的观察数据并且假设峰度需要被计算。假设过段时间数据元素xr要从计算子集X去除并且数据元素xa要加入计算子集X。每当一个数据元素从计算子集去除和一个数据元素加入计算子集后峰度需要重新被计算,计算子集会被认为是调整后的计算子集X′,一轮新的迭代计算会开始。
方程401和402是分别为第k轮计算X的所有数据元素的和Sk和平均值
Figure BDA0002083098870000151
的传统方程。方程403是为第k轮计算X的总体峰度的传统方程。方程404是为第k轮计算X的过量峰度的传统方程。方程405是为第k轮计算X的样本峰度的传统方程。方程406是为第k轮计算X的样本过量峰度的传统方程。
图4-2图示计算调整后计算子集峰度的传统方程。方程407和408是分别为第k+1轮计算调整后的X′的所有数据元素的和Sk+1和平均值
Figure BDA0002083098870000152
的传统方程。方程409是为第k+1轮计算调整后的X′的总体峰度的传统方程。方程410是为第k+1轮计算调整后的X′的过量峰度的传统方程。方程411是为第k+1轮计算调整后的X′的样本峰度的传统方程。方程412是为第k+1轮计算调整后的X′的样本过量峰度的传统方程。
为展示如何利用组件迭代计算峰度,三个不同的迭代峰度算法被提供作为例子。
图4-3说明第一个迭代峰度计算例子算法(迭代算法1)。方程401可以被用来初始化X里所有数据元素的和Sk。方程402可以被用来初始化X里所有数据元素的平均值
Figure BDA0002083098870000161
方程413可以被用来初始化组件SSk。方程414可以被用来初始化组件SXk。方程415可以被用来初始化组件CSk。方程416可以被用来初始化组件QXk。根据需要方程417可以基于初始化的组件计算总体峰度γk (2p)。根据需要方程418可以基于初始化的组件计算过量峰度γk (2e)。根据需要方程419可以基于初始化的组件计算样本峰度γk (2s)。根据需要方程420可以基于初始化的组件计算样本过量峰度γk (2se)。假设一段时间后数据元素xr要从计算子集X去除并且数据元素xa要加入计算子集X。基于组件Sk,方程421可以被用来迭代计算调整后计算子集X′的和Sk+1。基于组件
Figure BDA0002083098870000162
方程422可以被用来迭代计算调整后计算子集X′的平均值
Figure BDA0002083098870000163
基于组件SSk,方程423可以迭代计算调整后计算子集X′的组件SSk+1。基于组件SSk+1,方程424可以迭代计算调整后计算子集X′的组件SXk+1。基于组件CSk,方程425可以迭代计算调整后计算子集X′的组件CXk+1。基于组件QXk,方程426可以迭代计算调整后计算子集X′的组件QXk+1。基于迭代计算的组件,方程427可以迭代计算调整后计算子集X′的总体峰度γk+1 (2p),方程428可以迭代计算调整后计算子集X′的过量峰度γk+1 (2e),方程429可以迭代计算调整后计算子集X′的样本峰度γk+1 (2s),方程430可以迭代计算调整后计算子集X′的样本过量峰度γk+1 (2se)。421,422,424,和426分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-3说明第二个迭代峰度计算例子算法(迭代算法2)。方程401可以被用来初始化X里所有数据元素的和Sk。方程402可以被用来初始化X里所有数据元素的平均值
Figure BDA0002083098870000164
方程431可以被用来初始化组件SSk。方程432可以被用来初始化组件SXk。方程433可以被用来初始化组件CSk。方程434可以被用来初始化组件QSk。方程435可以被用来初始化组件QXk。根据需要方程436可以基于初始化的组件计算总体峰度γk (2p)。根据需要方程437可以基于初始化的组件计算过量峰度γk (2e)。根据需要方程438可以基于初始化的组件计算样本峰度γk (2s)。根据需要方程439可以基于初始化的组件计算样本过量峰度γk (2se)。假设一段时间后数据元素xr要从计算子集X去除并且数据元素xa要加入计算子集X。基于组件Sk,方程440可以被用来迭代计算调整后计算子集X′的Sk+1。基于组件
Figure BDA0002083098870000175
方程441可以被用来迭代计算调整后计算子集X′的
Figure BDA0002083098870000174
基于组件SSk,方程442可以迭代计算调整后计算子集X′的组件SSk+1。基于组件SSk+1,方程443可以迭代计算调整后计算子集X′的组件SXk+1。基于组件CSk,方程444可以迭代计算调整后计算子集X′的组件CSk+1。基于组件QSk,方程445可以迭代计算调整后计算子集X′的组件QSk+1。基于组件QSk+1,方程446可以迭代计算调整后计算子集X′的组件QXk+1。基于迭代计算的组件,方程447可以迭代计算调整后计算子集X′的总体峰度γk+1 (2p),方程448可以迭代计算调整后计算子集X′的过量峰度γk+1 (2e),方程449可以迭代计算调整后计算子集X′的样本峰度γk+1 (2s),方程450可以迭代计算调整后计算子集X′的样本过量峰度γk+1 (2se)。440,441,443,和446分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-5说明第三个迭代峰度计算例子算法(迭代算法3)。方程401可以被用来初始化X里所有数据元素的和Sk。方程402可以被用来初始化X里所有数据元素的平均值
Figure BDA0002083098870000171
方程451可以被用来初始化组件SSk。方程452可以被用来初始化组件SXk。方程453可以被用来初始化组件CSk。方程454可以被用来初始化组件QSk。方程455可以被用来初始化组件QXk。根据需要方程456可以基于初始化的组件计算总体峰度γk (2p)。根据需要方程457可以基于初始化的组件计算过量峰度γk (2e)。根据需要方程458可以基于初始化的组件计算样本峰度γk (2s)。根据需要方程459可以基于初始化的组件计算样本过量峰度γk (2se)。假设一段时间后数据元素xr要从计算子集X去除并且数据元素xa要加入计算子集X。基于组件Sk,方程460可以被用来迭代计算调整后计算子集X′的Sk+1。基于组件
Figure BDA0002083098870000173
方程461可以被用来迭代计算调整后计算子集X′的
Figure BDA0002083098870000172
基于组件SSk,方程462可以迭代计算调整后计算子集X′的组件SSk+1。基于组件SXk,方程463可以迭代计算调整后计算子集X′的组件SXk+1。基于组件CSk,方程464可以迭代计算调整后计算子集X′的组件CSk+1。基于组件QSk,方程465可以迭代计算调整后计算子集X′的组件QSk+1。基于组件QSk+1,方程466可以迭代计算调整后计算子集X′的组件QXk+1。基于迭代计算的组件,方程467可以迭代计算调整后计算子集X′的总体峰度γk+1 (2p),方程468可以迭代计算调整后计算子集X′的过量峰度γk+1 (2e),方程469可以迭代计算调整后计算子集X′的样本峰度γk+1 (2s),方程470可以迭代计算调整后计算子集X′的样本过量峰度γk+1 (2se)。460,461,463,和466分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
为展示迭代峰度算法以及它们与传统算法的比较,下面给出三个例子,其使用3个计算子集的数据计算样本峰度。其它总体峰度的计算是类似的。对于传统算法,所有3个计算子集的计算过程完全相同。对于迭代算法,第一个计算子集进行两个或多个组件的初始化,第二个和第三个计算子集进行迭代计算。
图5-1,图5-2,图5-3分别显示了用于计算实例的第一个计算子集,第二个计算子集,和第三个计算子集。计算子集503包括数据集501的头4个数据元素:8,3,6,1。计算子集504包括数据集501的4个数据元素:3,6,1,9。计算子集505包括数据集501的4个数据元素:6,1,9,2。计算子集规模502(n)是4。
首先用传统算法分别计算计算子集503,504,和505的峰度。
为计算子集503计算峰度:
Figure BDA0002083098870000181
Figure BDA0002083098870000182
Figure BDA0002083098870000183
Figure BDA0002083098870000184
Figure BDA0002083098870000185
没有任何优化的情况下,为规模为4的计算子集计算样本峰度共有2个除法,18个乘法,10个加法,和11个减法。
相同的方程和过程可被用来分别为图5-2显示的计算子集504计算样本峰度和为图5-3显示的计算子集505计算样本峰度。计算子集504的样本峰度
Figure BDA0002083098870000186
该计算在没有任何优化的情况下包括2个除法,18个乘法,10个加法,和11个减法。计算子集505的样本峰度
Figure BDA0002083098870000187
Figure BDA0002083098870000188
该计算在没有优化的情况下包括2个除法,18个乘法,10个加法,和11个减法。传统算法在没有任何优化的情况下计算规模为n的计算子集中的数据元素的样本峰度时通常需要完成2个除法,3n+6个乘法,3(n-1)+1个加法,和2n+3个减法。
下面用迭代算法1分别计算计算子集503,504,和505的样本峰度。
为规模为4的计算子集503计算样本峰度:
用方程402初始化第1轮
Figure BDA00020830988700001910
Figure BDA0002083098870000191
用方程413,414,415,416分别初始化第1轮SS1,SX1,CS1,QX1
Figure BDA0002083098870000192
Figure BDA0002083098870000193
Figure BDA0002083098870000194
Figure BDA0002083098870000195
用方程419计算第1轮样本峰度:
Figure BDA0002083098870000196
为计算子集503计算样本峰度时共有2个除法,30个乘法,16个加法,和11个减法。
为规模为4的计算子集504迭代计算样本峰度:
用方程422,423,424,425,和426分别迭代计算第2轮的组件
Figure BDA00020830988700001911
SS2,SX2,CS2,和QX2
Figure BDA0002083098870000197
SS2=SS1+xa 2-xr 2=110+81-82=127
Figure BDA0002083098870000198
CS2=CS1+xa 3-xr 3=756+93-83=756+729-512=973
Figure BDA0002083098870000199
用方程429计算第2轮样本峰度:
Figure BDA0002083098870000201
为计算子集504迭代计算样本峰度时共有2个除法,26个乘法,10个加法,和13个减法。
为规模为4的计算子集505迭代计算样本峰度:
用方程422,423,424,425,和426分别迭代计算第3轮的组件
Figure BDA00020830988700002011
SS3,SX3,CS3,和QX3
Figure BDA0002083098870000202
SS3=SS2+xa 2-xr 2=127+4-32=122
Figure BDA0002083098870000203
CS3=CS2+xa 3-xr 3=CS2+xa 2×xa-xr 2×xr=973+4×2-9×3=954
Figure BDA0002083098870000204
用方程429计算第3轮样本峰度:
Figure BDA0002083098870000205
为计算子集505迭代计算样本峰度时共有2个除法,26个乘法,10个加法,和13个减法。
下面用迭代算法2分别计算计算子集503,504,和505的样本峰度。
为规模为4的计算子集503计算样本峰度:
用方程402初始化第1轮
Figure BDA00020830988700002012
Figure BDA0002083098870000206
用方程431,432,433,434,435分别初始化第1轮SS1,SX1,CS1,QS1,QX1
Figure BDA0002083098870000207
Figure BDA0002083098870000208
Figure BDA0002083098870000209
Figure BDA00020830988700002010
Figure BDA0002083098870000211
用方程438计算第1轮的样本峰度:
Figure BDA0002083098870000212
为计算子集503计算样本峰度时共有2个除法,34个乘法,19个加法,和11个减法。
为规模为4的计算子集504迭代计算样本峰度:
用方程441,442,443,444,445,和446分别迭代计算第2轮的组件
Figure BDA0002083098870000219
SS2,SX2,CS2,QS2,和QX2
Figure BDA0002083098870000213
SS2=SS1+xa 2-xr 2=110+81-64=127
Figure BDA0002083098870000214
CS2=CS1+xa 3-xr 3=756+9×9×9-64×8=973
QS2=QS1+xa 4-xr 4=QS1+xa 2×xa 2-xr 2×xr 2=5474+81×81-64×64=7939
Figure BDA0002083098870000215
用方程449计算第2轮的样本峰度:
Figure BDA0002083098870000216
为计算子集504迭代计算样本峰度时共有2个除法,20个乘法,6个加法,和10个减法。
为规模为4的计算子集505迭代计算样本峰度:
用方程441,442,443,444,445,和446分别迭代计算第3轮的组件
Figure BDA00020830988700002110
SS3,SX3,CS3,QS3,和QX3
Figure BDA0002083098870000217
SS3=SS2+xa 2-xr 2=127+4-9=122
Figure BDA0002083098870000218
CS3=CS2+xa 3-xr 3=CS2+xa 2xa-xr 2xr=973+4×2-9×3=954
QS3=QS2+xa 4-xr 4=QS2+xa 2×xa 2-xr 2×xr 2=7939+4×4-9×9=7874
Figure BDA0002083098870000221
用方程449计算第3轮的样本峰度:
Figure BDA0002083098870000222
为计算子集505迭代计算样本峰度时共有2个除法,20个乘法,6个加法,和10个减法。
下面用迭代算法3分别计算计算子集503,504,和505中的样本峰度。
为规模为4的计算子集503计算样本峰度:
用方程402,451,452,453,454,和455分别初始化第1轮
Figure BDA00020830988700002210
SS1,SX1,CS1,QS1,和QX1
Figure BDA0002083098870000223
Figure BDA0002083098870000224
Figure BDA0002083098870000225
Figure BDA0002083098870000226
Figure BDA0002083098870000227
Figure BDA0002083098870000228
用方程458计算第1轮的样本峰度:
Figure BDA0002083098870000229
为计算子集503计算样本峰度时共有2个除法,34个乘法,19个加法,和11个减法。
为规模为4的计算子集504迭代计算样本峰度:
用方程461,462,463,464,465,和466分别迭代计算第2轮的组件
Figure BDA00020830988700002211
SS2,SX2,CS2,QS2,和QX2
Figure BDA0002083098870000231
SS2=SS1+xa 2-xr 2=110+81-64=127
Figure BDA0002083098870000232
CS2=CS1+xa 3-xr 3=CS1+xa 2xa-xr 2xr=756+81×9-64×8=973
QS2=QS1+xa 4-xr 4=QS1+xa 2×xa 2-xr 2×xr 2=5474+81×81-64×64=7939
Figure BDA0002083098870000233
用方程469计算第2轮的样本峰度:
Figure BDA0002083098870000234
为计算子集504迭代计算样本峰度时共有2个除法,20个乘法,9个加法,和11个减法。
为规模为4的计算子集505迭代计算样本峰度:
用方程461,462,463,464,465,和466分别迭代计算第3轮的组件
Figure BDA0002083098870000238
SS3,SX3,CS3,QS3,和QX3
Figure BDA0002083098870000235
SS3=SS2+xa 2-xr 2=127+4-9=122
Figure BDA0002083098870000236
CS3=CS2+xa 3-xr 3=CS2+xa 2xa-xr 2xr=973+4×2-9×3=954
QS3=QS2+xa 4-xr 4=QS2+xa 2×xa 2-xr 2×xr 2=7939+4×4-9×9=7874
Figure BDA0002083098870000237
Figure BDA0002083098870000241
用方程469计算第3轮的样本峰度:
Figure BDA0002083098870000242
为计算子集505迭代计算样本峰度时共有2个除法,20个乘法,9个加法,和11个减法。
以上三个例子是以迭代计算样本峰度为例。迭代计算其它峰度可以类似地完成。另外,在以上三个例子中,平均值被用于迭代峰度计算。和也可被用于迭代峰度计算,只是操作数不同。
图6-1图示了n=4时,传统峰度算法和迭代峰度算法的计算量对比。如图所示,任何一个迭代算法和传统算法相比都计算量相近并且在乘法操作,加法操作和减法操作上略少。
图6-2图示了n=1,000,000时,传统峰度算法和迭代峰度算法的计算量对比。如图所示,任何一个迭代算法都比传统算法少很多乘法操作,加法操作和减法操作。迭代峰度算法把需要在成千上万台计算机上处理的数据只在单机上就能完成。大大提高计算效率,减少计算资源,降低计算设备能耗,使得实时判断大数据分布密度集中程度能够高效低耗及一些实时判断大数据分布密度集中程度的场景从不可能变为可能。
本发明可以在不脱离其思想或本质特征的情况下以其它特定的方式来实现。本申请描述的实现方案从各个方面来说是仅作为示范性的而不是限制性的。因此,本发明的范围由附加的权利要求书而不是前面的描述来指明。与权利要求书中权利要求的含义和范围等价的所有变化都包含在它们的范围内。

Claims (10)

1.一种,由基于一个或多个计算设备构成的一个计算系统实现的,以迭代方式计算存储于一个或多个存储设备上的一个数据集的,调整后计算子集的峰度的方法,其特征在于:
由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的一个数据集的一个指定规模为n(n>4)的调整前计算子集,初始化一个和或一个平均值或一个和及一个平均值,以及峰度的不同于和及平均值的一个或多个其它组件;
由基于计算设备的该计算系统,访问一个要从该调整前计算子集中去除的数据元素和一个要加入到该调整前计算子集的数据元素;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素;以及
向该调整前计算子集加入要加入的数据元素;
由基于计算设备的该计算系统,为调整后计算子集迭代计算一个和或一个平均值或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于调整前计算子集的峰度的不同于和及平均值的该一个或多个其它组件,为该调整后计算子集直接迭代计算峰度的不同于和及平均值的一个或多个组件,这里的迭代计算一个或多个组件包括:
访问调整前计算子集的峰度的的不同于和及平均值的该一个或多个组件而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于被去除的数据元素和被加入的数据元素,从访问的每一个组件中数学地去除被去除的数据元素的任何贡献和数学地加入被加入的数据元素的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接迭代计算峰度的该一个或多个组件来使用来提高计算效率;以及
由基于计算设备的该计算系统,基于为该调整后计算子集迭代计算的组件,为该调整后计算子集生成峰度。
2.按照权利要求1所述的由计算系统实现的方法,其特征在于:所述访问一个要去除的数据元素和一个要加入的数据元素包括访问多个要从该调整前计算子集去除的数据元素和多个要加入该调整前计算子集的数据元素,该方法也进一步包括对于多个要去除的数据元素中的每一个数据元素和多个要加入的数据元素中的每一个数据元素进行调整调整前计算子集,迭代计算和或平均值或和及平均值,直接迭代计算峰度的一个或多个组件,以及为该调整后计算子集生成峰度。
3.按照权利要求2所述的由计算系统实现的方法,其特征在于:所述为该调整后计算子集生成峰度当且仅当该峰度被访问时。
4.按照权利要求3所述的由计算系统实现的方法,其特征在于:所述为该调整后计算子集生成峰度进一步包括由基于计算设备的该计算系统为该调整后计算子集间接迭代计算峰度的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个计算设备;
每个计算设备包含一个或多个处理器;
一个或多个存储媒体,其中至少一个存储媒体存储了一个数据集;以及
一个或多个计算模块,当它们被一个或多个计算设备中的至少一个计算设备执行时,为该数据集的一个指定规模的调整后计算子集确定峰度,这里该峰度的确定包括:
a.为该数据集的一个指定规模为n(n>4)的调整前计算子集,初始化一个和或一个平均值或一个和及一个平均值,以及峰度的除和及平均值之外的一个或多个其它组件;
b.访问一个要从该调整前计算子集中去除的数据元素和一个要加入到该调整前计算子集的数据元素;
c.调整该调整前计算子集,包括:
从该调整前计算子集中去除要去除的数据元素;以及
向该调整前计算子集中加入要加入的数据元素;
d.为调整后计算子集直接迭代计算一个和或一个平均值或一个和及一个平均值;
e.为该调整后计算子集迭代计算峰度的一个或多个除了和及平均值以外的组件,包括:
访问该调整前计算子集的峰度的不同于和及平均值的该一个或多个组件而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于去除的数据元素和加入的数据元素,通过从访问的每一个组件中数学地去除去除的数据元素的任何贡献和数学地加入加入的数据元素的任何贡献来得到该调整后计算子集的峰度的该一个以上组件,而避免在迭代计算峰度的该一个以上组件中使用该调整后计算子集中的所有数据元素来提高计算效率;以及
f.基于为该调整后计算子集迭代计算的组件,为该调整后计算子集生成峰度。
6.按照权利要求5所述的计算系统,其特征在于:该一个或多个计算模块,当它们被该一个或多个计算设备中的至少一个计算设备执行时,多次执行b,c,d,e,和f。
7.按照权利要求6所述的该计算系统,其特征在于:执行f当且仅当峰度被访问时。
8.按照权利要求7所述的该计算系统,其特征在于:所述f进一步包括由该计算系统为该调整后计算子集间接迭代计算峰度的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
9.一个计算系统程序产品,运行于一个包含一个或多个计算设备的一个计算系统,该计算系统包括一个或多个处理器以及一个或多个存储媒体,该计算系统程序产品包含多条计算设备可执行指令,当这些计算设备可执行指令被该计算系统中的至少一台计算设备运行时,执行一个为一个数据集的调整后计算子集生成峰度的方法,其特征在于:
为存储于该系统至少一个存储媒体上的一个数据集的一个指定规模为n(n>4)的调整前计算子集,初始化一个和或一个平均值或一个和及一个平均值,以及峰度的不同于和及平均值的一个或多个其它组件;
访问一个要从该调整前计算子集中去除的数据元素和一个要加入到该调整前计算子集的数据元素;
调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素;以及
向该调整前计算子集加入要加入的数据元素;
为调整后计算窗口迭代计算一个和或一个平均值或一个和及一个平均值;
至少基于调整前计算子集的峰度的不同于和及平均值的该一个或多个其它组件,为该调整后计算子集直接迭代计算峰度的不同于和及平均值的一个或多个组件,该迭代计算一个或多个组件包括:
访问该调整前计算子集的峰度的该一个或多个组件而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于被去除的数据元素和被加入的数据元素,从访问的每一个组件中数学地去除被去除的数据元素的任何贡献和数学地加入被加入的数据元素的任何贡献从而避免该调整后计算子集中的所有数据元素都被用来直接迭代计算峰度的该一个以上组件来提高计算效率;以及
基于为该调整后计算子集迭代计算的组件,为该调整后计算子集生成峰度。
10.按照权利要求9所述的该计算系统程序产品,其特征在于:所述为该调整后计算子集生成峰度进一步包括由基于计算设备的该计算系统为该调整后计算子集间接迭代计算峰度的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
CN201910478683.4A 2019-06-03 2019-06-03 一种实时判断大数据分布密度集中程度的方法 Pending CN112035505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910478683.4A CN112035505A (zh) 2019-06-03 2019-06-03 一种实时判断大数据分布密度集中程度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910478683.4A CN112035505A (zh) 2019-06-03 2019-06-03 一种实时判断大数据分布密度集中程度的方法

Publications (1)

Publication Number Publication Date
CN112035505A true CN112035505A (zh) 2020-12-04

Family

ID=73576524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910478683.4A Pending CN112035505A (zh) 2019-06-03 2019-06-03 一种实时判断大数据分布密度集中程度的方法

Country Status (1)

Country Link
CN (1) CN112035505A (zh)

Similar Documents

Publication Publication Date Title
US9928215B1 (en) Iterative simple linear regression coefficient calculation for streamed data using components
US10659369B2 (en) Decremental autocorrelation calculation for big data using components
US9760539B1 (en) Incremental simple linear regression coefficient calculation for big data or streamed data using components
US10235415B1 (en) Iterative variance and/or standard deviation calculation for big data using components
US10225308B1 (en) Decremental Z-score calculation for big data or streamed data using components
US10248690B1 (en) Decremental correlation calculation for big data or streamed data using components
CN112035521A (zh) 一种实时判断流数据自身给定延迟重复性的方法
US10310910B1 (en) Iterative autocorrelation calculation for big data using components
US10079910B1 (en) Iterative covariance calculation for streamed data using components
US10394809B1 (en) Incremental variance and/or standard deviation calculation for big data or streamed data using components
US10235414B1 (en) Iterative kurtosis calculation for streamed data using components
US10191941B1 (en) Iterative skewness calculation for streamed data using components
US10394810B1 (en) Iterative Z-score calculation for big data using components
CN112035520A (zh) 一种实时判断流数据自身给定延迟重复性的方法
US10282445B1 (en) Incremental kurtosis calculation for big data or streamed data using components
CN112035505A (zh) 一种实时判断大数据分布密度集中程度的方法
CN110457340B (zh) 一种实时寻找大数据自身重复规律的方法
CN111708979A (zh) 一种实时判断大数据离散程度的方法
CN110515680B (zh) 一种实时判断大数据自身给定延迟重复性的方法
CN111708972A (zh) 一种实时判断流数据分布密度集中程度的方法
CN111488380A (zh) 一种实时判断流数据分布不对称性的方法
CN112434258A (zh) 一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法
CN112035791A (zh) 一种实时判断大数据自身给定延迟重复性的方法
CN110363321B (zh) 一种实时预测大数据变化趋势的方法
US10339136B1 (en) Incremental skewness calculation for big data or streamed data using components

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination