CN112434258A - 一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法 - Google Patents
一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法 Download PDFInfo
- Publication number
- CN112434258A CN112434258A CN201910790672.XA CN201910790672A CN112434258A CN 112434258 A CN112434258 A CN 112434258A CN 201910790672 A CN201910790672 A CN 201910790672A CN 112434258 A CN112434258 A CN 112434258A
- Authority
- CN
- China
- Prior art keywords
- subset
- computing
- components
- computation
- adjusted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005265 energy consumption Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 80
- 230000003750 conditioning effect Effects 0.000 claims 2
- 230000010411 postconditioning Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 55
- 238000007792 addition Methods 0.000 description 18
- 238000007405 data analysis Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 7
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Processing (AREA)
Abstract
Z值可用于判断大数据选定数据以标准方差为单位偏离平均值的相对距离。本发明公开了一种通过迭代计算指定规模的计算子集的Z值的两个以上组件来实时地迭代地计算大数据中选定数据元素的Z值从而可以实时地判断大数据中选定数据以标准方差为单位偏离平均值的相对距离的方法,系统,和计算系统程序产品。迭代计算Z值可以基于最新数据实时更新计算结果并避免访问调整后计算子集中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据中选定数据以标准方差为单位偏离平均值的相对距离能够高效低耗地完成及一些实时判断大数据中选定数据以标准方差为单位偏离平均值的相对距离的场景从不可能变为可能。
Description
技术领域
大数据或流数据分析。
背景技术
互联网,移动通讯,导航,网游,感应技术,和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化,及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。
计算Z值是一种判断大数据中选定数据以标准方差为单位偏离平均值的相对距离的方法。为了能够随时得到利用了最新数据的判断结果,一个选定数据元素的Z值可能会在大数据集有变化后需要重新计算。因此,一些(可能很多) 数据元素会被重复访问和使用。例如,有可能一个选定数据元素的Z值在含有n 个数据元素的计算子集上被计算。当一个数据元素从计算子集里被去除和一个数据元素被加入计算子集后,计算子集里所有的n个数据元素都被访问来重新计算 Z值。因此,用传统方法计算一个大数据集的更新后的计算子集中选定数据元素的Z值时会导致计算机系统从存储器中访问,提取和使用更新后的计算子集中的所有数据元素。
取决于需要,计算子集的规模可能非常大,例如计算子集中的数据元素可能分布在云平台的成千上万台计算/存储设备上。在一些数据变化后的大数据上用传统方法重新计算Z值无法做到实时处理并且占用和浪费大量计算资源。
发明内容
计算Z值是一种判断大数据选定数据以标准方差为单位偏离平均值的相对距离的方法。本发明拓展到方法,系统和计算设备程序产品以迭代方式计算选定数据元素的Z值从而可以在数据更新后实时地判断大数据中选定数据元素的以标准方差为单位偏离平均值的相对距离。为一个调整后计算子集迭代计算选定数据元素的Z值包括基于调整前计算子集的Z值的两个以上组件迭代计算调整后计算子集的Z值的两个以上组件然后根据需要基于一个或多个迭代计算的组件生成调整后计算子集的选定数据元素的Z值。迭代计算Z值只需要访问和使用迭代计算的组件,新加入和被去除的数据元素而避免访问调整后计算子集中的所有数据元素和执行重复计算从而降低数据访问延迟,提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据分中选定数据元素的以标准方差为单位偏离平均值的相对距离能够高效低耗地完成及一些实时判断大数据中选定数据以标准方差为单位偏离平均值的相对距离的场景从不可能变为可能。
计算系统初始化存储在一个或多个存储媒体上的一个大数据集的一个调整前计算子集的Z值的两个以上组件。该两个以上组件的初始化包括从计算设备可读媒体上接收或访问已计算过的组件或基于调整前计算子集中的数据元素根据组件的定义来计算。
计算系统根据需要访问被选定来计算Z值的一个或多个数据元素。
计算系统根据需要基于初始化的组件来生成调整前计算子集中选定的一个或多个数据元素的Z值。
计算系统访问一个要被从调整前计算子集中去除的数据元素和一个要被加入到调整前计算子集的数据元素。
计算系统通过从调整前计算子集中去除要去除的数据元素和向调整前计算子集加入要加入的数据元素来调整调整前计算子集。
计算系统直接迭代计算该调整后计算子集的Z值的两个以上组件而避免访问和使用调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗和提高计算效率。
计算系统根据需要访问调整后计算子集中被选定来计算Z值的一个或多个数据元素。
计算系统根据需要基于一个或多个迭代计算的组件来生成调整后计算子集中选定的一个或多个数据元素的Z值,即,Z值可以在接收多个数据元素而不仅是一个数据元素后被生成。
计算系统可以持续地访问一个要去除的数据元素和一个要加入的数据元素,调整调整前计算子集,迭代计算调整后计算子集的两个以上组件,根据需要访问被选定来计算Z值的一个或多个数据元素,和生成选定数据元素的Z值。计算系统可以根据需要多次重复这个过程。
本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。
本发明的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本发明的实践中学到。本发明的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本发明的这些和其它特征将在下面的描述和附加的权利要求书或本发明的实践中变得更加全面清晰。
附图说明
为描述能够获得本发明的上述的和其它的优点和特点的方式,上面简述的本发明的一个更具体的描述将通过参照附加的图表中所显示的选定的实施方案来展现出来。本发明将通过下列的图表更加详细和具体地来描述和解释,请理解这些图表只是描述了本发明的典型实施方案,因此它们不应被理解为对本发明的范围的限制:
图1显示了一个支持迭代计算Z值的例子计算系统的高层概括。
图1-1显示了支持迭代计算大数据的Z值并且所有组件以直接迭代方式计算的一个例子计算设备架构。
图1-2显示了支持迭代计算大数据的Z值并且部分组件以直接迭代方式计算而部分组件以间接迭代方式计算的一个例子计算设备架构。
图2显示了迭代计算大数据的Z值的一个例子方法的流程图。
图3显示了在大数据上为迭代计算Z值计算子集中被访问的数据元素。
图4-1显示了Z值的定义及计算Z值的传统方程。
图4-2显示了第一个Z值迭代计算算法(迭代算法1)。
图4-3显示了第二个Z值迭代计算算法(迭代算法2)。
图4-4显示了第三个Z值迭代计算算法(迭代算法3)。
图5-1显示了用于一个计算实例的第一个计算子集。
图5-2显示了用于一个计算实例的第二个计算子集。
图5-3显示了用于一个计算实例的第三个计算子集。
图6-1显示了计算规模度为8时传统和迭代Z值算法的计算工作量对比。
图6-2显示了计算子集规模为1000000时传统和迭代Z值算法的计算工作量对比。
具体实施方式
计算Z值是一种判断大数据选定数据以标准方差为单位偏离平均值的相对距离的方法。本发明拓展到通过迭代计算规模为n(n>1)的计算子集的Z值的两个以上组件来实时地迭代地计算大数据上选定数据元素的Z值从而可以实时地判断大数据中选定数据元素的以标准方差为单位偏离平均值的相对距离的方法,系统和计算设备程序产品。一个计算系统包含一个或多个基于处理器的计算设备。每个计算设备包含一个或多个处理器。该计算系统包含一个或多个存储媒体。该一个或多个存储媒体中的至少一个上有一个数据集。来自该数据集的, 涉及到Z值计算的多个数据元素组成一个调整前的计算子集。计算子集规模 n(n>1)指明数据集的一个调整前计算子集中的数据元素个数。本发明的实施方案包括基于调整前计算子集的Z值的两个以上(p(p≥2))组件迭代计算调整后计算子集的Z值的两个以上组件,然后根据需要基于一个或多个迭代计算的组件生成调整后计算子集的选定数据元素的Z值。迭代计算Z值避免访问调整后计算子集中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得一些实时判断大数据大数据中选定数据元素的以标准方差为单位偏离平均值的相对距离的场景从不可能变为可能。
在本文中,一个计算子集是包含做Z值计算的数据元素的数据集。一个计算子集类似于一个在流数据或时间序列数据上计算Z值的移动窗口。在本发明的实施方案的描述里,计算子集和计算窗口的区别是计算窗口里的数据元素有顺序但计算子集里的没有。
流化的大数据处理和实时流数据处理的区别是当处理流化的大数据时, 所有历史数据都可以被访问,所以不需要额外用缓冲区存储新接收的数据元素。
计算Z值是一种判断大数据选定数据以标准方差为单位偏离平均值的相对距离的方法。Z值是原始数据标准化后得到的一个与原始数据的具体测量单位无关的标准值中的一种。对于原始值低于平均值的数据,其Z值为负。对于原始值高于平均值的数据,其Z值为正。Z值通过用原始值减去平均值除以标准方差来计算,因此Z值反映了原始值以标准方差为单位偏离平均值的相对距离。因此计算Z值后判断大数据中选定数据以标准方差为单位偏离平均值的相对距离显而易见,而困难和挑战在于如何实时并节省资源地在大数据或流数据上计算Z 值。
在本文中,Z值的一个组件是出现在Z值定义公式中或其定义公式的任何转换中的一个量或表达式。Z值是它自己最大的组件。Z值可基于一个或多个组件或它们的组合被计算,所以多个算法支持迭代Z值计算。以下是一些Z值的组件的例子。
一个组件可以被直接迭代计算或间接迭代计算。它们的区别是当一个组件被直接迭代计算时该组件是通过该组件在前一轮计算的值来计算的,而当该组件被间接迭代计算时该组件是用该组件之外的其它组件计算的。
对于一个给定的组件,它也许在一个算法中被直接迭代计算但在另一个算法中被间接迭代计算。
计算子集的和或平均值是必须迭代计算的特殊组件。对于任意一个算法, 至少会有两个组件被迭代计算,其中一个组件是和或平均值,它们可以被直接或间接迭代计算,两个组件中的另一个组件可被直接迭代计算。对于一个给定的算法,假设在同一轮迭代计算中迭代计算的不同组件的总数是p(p≥2),如果直接迭代计算的组件个数是v(1≤v≤p),那么间接迭代计算的组件的个数是 w=p-v(0≤w<p)。可能这些组件都被直接迭代计算(这种情况下v=p并且w=0)。但是,无论Z值的结果是否在一个特定的轮次被需要和访问,直接迭代计算的组件都必须被计算。
对于一个给定算法,如果一个组件被直接迭代计算,则该组件必须被计算(即每当一个已有的数据元素被从调整前计算子集中去除和每当一个数据元素被加入到调整前计算子集中时)。但是,如果一个组件被间接迭代计算,则该组件可以通过使用该组件之外的其它一个或多个组件来根据需要,即只有当有数据元素被选定来计算其Z值或Z值需要被访问时,被计算。这样,当Z值在某一个计算轮次不被访问时,可以只有少量的组件需要被迭代地计算。一个间接迭代计算的组件也许会被用于另一个组件的直接迭代计算或下一轮另一个组件的间接迭代计算,在这种情况下,该间接迭代计算的组件的计算不可省略。
Z值可以根据需要被计算。当Z值在每次计算子集有变化而不需要被生成或访问时,计算系统只需要为每次数据变化迭代计算和或平均值以及除了和或平均值之外的一个或多个组件。迭代计算这些组件避免了访问之前的所有输入和做重复计算因此提高计算效率。Z值可以在需要被访问时由计算系统基于迭代计算的组件来生成。
本发明的实现方案包括基于为调整前计算子集计算Z值的两个以上组件迭代地计算调整前计算子集的Z值的两个以上组件。其中计算子集的和或平均值是必须迭代计算的特殊组件。和或平均值可以被直接或间接迭代计算。对于一个给定的迭代Z值算法,假设在同一轮迭代计算中所有迭代计算的组件(包括计算子集的和或平均值)总数为p(p≥2)。直接迭代的组件个数为v(1≤v≤p), 则间接迭代的组件个数为w=p-v(w≥0)。
计算系统为存储于该计算系统上一个或多个存储设备上的一个数据集的一个给定规模n(n>1)的调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及Z值的其它一个或多个组件。这些组件的初始化包括根据其定义基于该调整前计算子集中的数据元素来计算或从一个或多个计算设备可读媒体上访问或接收已经计算过的组件。
计算系统访问一个要从该调整前计算子集中去除的数据元素和一个要被加入到该计算子集中的数据元素。
计算系统调整调整前计算子集通过:从该调整前计算子集中去除要被去除的数据元素和向该调整前计算子集中加入要被加入的数据元素。
计算系统迭代计算调整后计算子集的一个和或一个平均值或一个和及一个平均值。
计算系统为调整后计算子集直接迭代计算Z值的除和及平均值之外的 v(1≤v≤p)个组件。直接迭代计算该v个组件包括:访问为调整前计算子集计算的v个组件;从访问的每个组件中数学地去除被去除的数据元素的任何贡献;及向访问的每个组件数学地加入被加入的数据元素的任何贡献而避免访问和使用调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗和提高计算效率。
计算系统根据需要为调整后计算子集间接迭代计算Z值的w=p-v个组件。间接迭代计算Z值的w个组件包括一个一个分别间接地迭代计算Z值的w个组件中的每一个。间接迭代计算一个组件包括:访问该组件之外的一个或多个组件并基于访问的组件计算该组件。这些一个或多个组件可以是被初始化过的,直接迭代计算过的或间接迭代计算过的。
计算系统访问一个或多个调整后计算子集中被选定来计算其Z值的数据元素。
计算系统根据需要,至少基于一个或多个为调整后计算子集迭代计算的 Z值的组件,为调整后计算子集生成选定数据元素的Z值。
计算系统可以持续访问要从该计算子集中去除的数据元素和要加入到该计算子集的数据元素,调整该计算子集,直接迭代计算一个或多个v(1≤v≤ p)组件,根据需要间接迭代计算w=p-v个组件,根据需要基于一个或多个迭代计算的组件计算选定数据元素的Z值,并根据需要重复这个过程。
本发明的实施方案可以包括或利用包含计算设备硬件,例如一个或多个处理器和以下更详细描述的存储设备,专用的或通用的计算设备。本发明实施方案的范围也包括物理的及其它用于携带或存储计算设备可运行指令和/或数据结构的计算设备可读媒体。这些计算设备可读媒体可以是通用或专用计算设备可访问的任何媒体。存储计算设备可运行指令的计算设备可读媒体是存储媒体(设备)。携带计算设备可运行指令的计算设备可读媒体是传输媒体。因此,以举例而非限制的方式,本发明的实施方案可以包括至少两种不同类型的计算设备可读媒体:存储媒体(设备)和传输媒体。
存储媒体(设备)包括随机存取存储器(RAM),只读存储器(ROM), 电可擦除可编程只读存储器(EEPROM),只读光盘存储器(CD-ROM),固态硬盘(SSD),闪存(Flash Memory),相变存储器(PCM),其它类型存储器,其它光学磁盘存储,磁盘存储器或其它磁性存储设备,或任何其它能用于存储所需要的以计算设备可运行指令或数据结构形式构成的程序代码并且其可以被通用或专用计算设备访问的媒体。
一个“网络”被定义为使计算设备和/或模块和/或其它电子设备能够传输电子数据的一个或多个数据链接。当信息被网络或另外的通讯连接(有线,无线, 或有线和无线的组合)传输或提供给计算设备时,计算设备把连接视为传输媒体。传输媒体可包括用于携带所需要的以计算设备可运行指令或数据结构形式构成的程序代码,并且其可以被通用或专用计算设备访问的一个网络和/或数据链接。以上的组合也应包括在计算设备可读媒体的范围之内。
此外,在应用不同计算设备组件时,计算设备可运行指令或数据结构形式的程序代码可以从传输媒体自动传输到存储媒体(设备)(或反过来)。例如, 从网络或数据链接上接收的计算设备可运行指令或数据结构可以被暂存进网络接口模块(例如,NIC)中的随机存取存储器中,然后最终传输到计算设备的随机存取存储器和/或到计算设备的一个较小易变的存储媒体(设备)。所以,应当理解存储媒体(设备)可以被包括在也(或甚至主要)应用传输媒体的计算设备组件里。
计算设备可运行指令包括,例如,指令和数据,当被处理器运行时,使得通用计算设备或专用计算设备去执行一个选定功能或一组功能。计算设备可运行指令可以是,例如,二进制,中间格式指令例如汇编代码,或甚至源代码。虽然描述的客体是用结构特征和/或方法动作的具体语言描述的,应当理解在附加的权利要求书中定义的客体不一定局限于以上描述的特征或动作。而是,描述的特征或动作仅是以实现权利要求的例子形式而公开的。
本发明的实施方案可以在由多种类型的计算设备配置的网络计算环境中实现,这些计算设备包括个人电脑,台式机,笔记本电脑,信息处理器,手持设备,多处理系统,基于微处理器或可编程的电子消费品,网络电脑,小型计算机, 主计算机,超级计算机,移动电话,掌上电脑,平板电脑,呼机,路由器,交换机及类似产品。本发明的实施方案也可以应用于通过网络互联(即可通过有线数据链接,无线数据链接,也可以是有线数据链接与无线数据链接的结合)的执行任务的本地或远程计算设备构成的分布式系统环境。在分布式系统环境中,程序模块可以被存储在本地或远程存储设备上。
本发明的实施方案也可以在云计算环境里实现。在本描述及后续的权利要求书中,“云计算”被定义为一个使得能够按需通过网络访问到可配置计算资源的共享池的模型。例如,云计算可以被市场利用去提供普及和方便的按需访问可配置计算资源的共享池。可配置计算资源的共享池可以通过虚拟化很快预备并且以低管理开销或低服务提供商互动来提供,然后做相应的调整。
云计算模型可以包括各种特征例如,按需自服务,宽带网络访问,资源收集,快速收放,计量服务等等。云计算模型也可以各种服务模式来体现,例如,软件做为服务(“SaaS”),平台做为服务(“PaaS”),以及设施做为服务(“IaaS”)。云计算模型也可以通过不同的部署模型例如私有云,社区云,公共云,混合云等等来部署。
由于本发明有效地降低了对计算能力的要求,其实施方案也可应用于边缘计算。
下面的章节中会给出几个例子。
图1图示了为大数据迭代计算Z值的一个例子计算系统100的高层概述。参考图1,计算系统100包括由不同网络,例如局域网1021,无线网1022和互联网1023等等,连接的多个设备。多个设备包括,例如,数据分析引擎1007,存储系统1011,实时数据流1006,以及可以安排数据分析任务和/或查询数据分析结果的多台分布的计算设备,例如个人电脑1016,手持设备1017和台式机1018等等。
数据分析引擎1007可以包括一个或多个处理器,例如CPU 1009和CPU 1010,一个或多个系统内存,例如系统内存1008,及组件计算模块131和Z值计算模块193。模块131的细节会在其它图表中更详细地图示(例如,图1-1和图 1-2)。存储系统1011可以包括一个或多个存储媒体,例如存储媒体1012和存储媒体1014,其可以用于存放大数据集。例如,1012和或1014可以包括数据集123。存储系统1011里的数据集可以被数据分析引擎1007访问。
通常,数据流1006可以包括来自不同数据源的流数据,例如,股价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,和/或闭合字幕数据等。这里举例描绘了几个,实时数据 1000可以包括从感应器1001,股票1002,通讯1003和银行1004等等实时收集的数据。数据分析引擎1007可以接收来自数据流1006的数据元素。来自不同数据源的数据可以被存储在存储系统1011并且为大数据分析所访问,例如数据集 123可以来自不同的数据源并且为大数据分析所访问。
请理解图1是以非常简化的形式介绍一些概念,例如,分布设备1016和 1017可能经过防火墙才联到数据分析引擎1007,数据分析引擎1007从数据流 1006和/或存储系统1011访问或接收的数据可能经过数据过滤器筛选,等等。
图1-1图示了为大数据集迭代计算选定数据元素的Z值,其所有 (v=p>1)组件被直接迭代计算,的例子计算设备架构100A。关于计算设备架构100A,这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些部件如何协作共同完成迭代Z值计算的过程将在后面结合图2中描述的流程图一起介绍。图1-1图示了图1显示的1006和1007。参考图1-1,计算设备架构 100A包括组件计算模块131和Z值计算模块193。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络,如局域网, 广域网,甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计算设备和它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协议(“IP”)数据报和其它使用IP数据报的高层协议,例如,用户数据报协议(“UDP”),实时流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器(“MMS”),传输控制协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议(“SMTP”),等等)。组件计算模块131的输出和选定数据元素192会被作为Z值计算模块193的输入,Z值计算模块193可以生成 Z值194。
通常,存储媒体121可以是一个单个局部存储媒体也可以是一个被一个存储管理系统管理的由多个物理上分布的存储设备组成的复杂存储系统。
如图所示,存储媒介121包含数据集123。数据集123包含存储在存储媒介121上多个位置的多个数据元素。例如,数据元素101,102,103,104,105,106, 107,108,109和110分别存在位置121A,121B,121C,121D,121E,121F,121G, 121H,121I和121J等等。还有多个数据元素存在其它位置。
参考计算设备架构100A,通常组件计算模块131包含为直接迭代计算调整后计算子集的一组n个数据元素的v(v=p>1)个组件的v个组件计算模块。 v是迭代计算Z值的给定算法中直接迭代计算的组件的个数,它随着使用的迭代算法不同而不同。如图1-1中所示,组件计算模块131包含一个组件Cd1计算模块161和一个组件Cdv计算模块162,它们之间还有v-2个其它组件计算模块, 它们可以是组件Cd2计算模块,组件Cd3计算模块,……,以及组件Cdv-1计算模块。每个组件计算模块计算一个组件。每个组件计算模块包含一个为第一个计算子集初始化一个组件的初始化模块和一个为调整后计算子集直接迭代计算该组件的算法。例如,组件Cd1计算模块161包含初始化模块132来初始化组件Cd1和迭代算法133来迭代计算组件Cd1,组件Cdv计算模块162包含初始化模块 138来初始化组件Cdv和迭代算法139来迭代计算组件Cdv。
初始化模块132可以在初始化组件Cd1时使用或在Z值计算被重置时使用。同样,初始化模块138可以在初始化组件Cdv时使用或在Z值计算被重置时使用。
参考图1-1,计算系统架构100A还包括Z值计算模块193。Z值计算模块193可根据需要基于一个或多个迭代计算的组件给选定数据元素192计算Z 值194。
图1-2图示了为一个大数据集迭代计算Z值并且部分(v(1≤v<p,p> 1)个)组件直接迭代计算,部分(w=p-v)组件间接迭代计算的一个例子计算设备结构100B。在一些实现中,计算设备架构100B和100A之间的区别是架构 100B包括组件计算模块135。除此之外,和100A有同样标记号的部分都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部分会在这里讨论。100B里面的数字v和100A里面的数字v可能不同,因为有些 100A里被直接迭代计算的组件会在100B里被间接迭代计算。在100A中,v= p>1,但在100B中,1≤v<p。参考图1-2,计算设备架构100B包括组件计算模块135。组件计算模块131的输出可以作为组件计算模块135的输入,计算模块131和135的输出可以作为Z值计算模块193的输入,Z值计算模块193可以生成选定数据元素192的Z值194。组件计算模块135通常包括w=p-v个组件计算模块来间接迭代计算w个组件。例如,组件计算模块135包括组件计算模块163用于间接迭代计算组件Ci1,组件计算模块164用于间接迭代计算组件 Ciw,以及它们之间的其它w-2个组件计算模块。间接迭代计算w个组件包括一个一个地间接迭代计算w个组件的每一个。间接迭代计算一个组件包括访问和使用除该组件本身之外的一个或多个组件。那一个或多个组件可以是被初始化, 直接迭代计算或间接迭代计算过的。
图2图示了为大数据迭代计算Z值的一个例子方法200的流程图。方法 200会分别结合计算设备架构100A和100B的组件和数据一起描述。
方法200包括为一个数据集的指定规模为n(n>1)的调整前计算子集初始化Z值的v(1≤v≤p,p≥2)个组件(201)。例如,在计算系统架构100A和 100B中,假设调整前计算子集的规模为n=8,调整前计算子集122包括数据元素101到108,初始化模块132可以用贡献151(数据元素101的贡献),贡献152 (数据元素102的贡献)和贡献153(其它数据元素103,104,105,106,107,和108 的贡献)的值初始化组件Cd1 141。同样,初始化模块138可以访问组件Cdv的初始值并且用贡献181(数据元素101的贡献),贡献182(数据元素102的贡献)和贡献183(其它数据元素103,104,105,106,107,和108的贡献)的值初始化组件Cdv 145。
方法200包括根据需要访问被选定来计算其Z值得一个或多个数据元素 (210)。例如,在计算系统架构100A和100B中,Z值计算模块193可以访问被选做Z值计算的数据元素192。
方法200包括根据需要基于一个或多个除了其组件本身之外的其它组件一个一个地间接增量计算w=p-v个组件(211)。例如,在计算系统架构100B 中,组件计算模块135可以一个一个地间接迭代计算w=p-v个组件。
方法200包括根据需要基于一个或多个初始化或迭代计算过的组件为调整前的计算子集生成选定的一个或多个数据元素的Z值(212)。例如,在计算系统架构100A和100B中,Z值计算模块193可以基于一个或多个初始化或迭代计算过的组件为调整前的计算子集生成选定的数据元素192的Z值194。
方法200包括访问要从该调整前计算子集去除的数据元素和要加入到该调整前计算子集的数据元素(202)。例如,在计算系统架构100A和100B中,计算系统访问要从调整前计算子集122中去除的数据元素101和要加入到调整前计算子集122的数据元素109。
方法200包括调整该调整前计算子集(203)。调整该调整前计算子集包括从该调整前计算子集去除要去除的数据元素(204)和加入要加入的数据元素到该调整前计算子集(205)。例如,在计算系统架构100A和100B中,数据元素101被从调整前计算子集122去除,数据元素109被加入到调整前计算子集 122后,调整前计算子集122变成调整后的计算子集122A。
方法200包括基于该调整前计算子集的v个组件直接迭代计算调整后计算子集的Z值的v个组件(206),包括:访问该调整前计算子集的Z值的v个组件(207);从访问的每个组件中数学地去除被从该调整前计算子集中去除的数据元素的任何贡献(208);及向访问的每个组件数学地加入被加入到该调整前计算子集中的数据元素的任何贡献(209)。细节描述如下。
直接迭代计算调整后计算子集的Z值的v个组件包括访问该调整前计算子集的Z值的v个组件(207)。例如,在计算系统架构100A和100B中,迭代算法133可访问组件Cd1 141,迭代算法139可访问组件Cdv 145。
直接迭代计算调整后的计算子集的Z值的v个组件包括从访问的每个组件中数学地去除被去除的数据元素的任何贡献(208)。例如,直接迭代计算组件 Cd1 143可以包括贡献去除模块133A数学地从组件Cd1 141去除贡献151(数据元素101的贡献),直接迭代计算组件Cdv 147可以包括贡献去除模块139A 数学地从组件Cdv 145去除贡献181(数据元素101的贡献)。
直接迭代计算调整后的计算子集的Z值的v个组件包括向访问的每个组件数学地加入被加入的数据元素的任何贡献(209)。例如,直接迭代计算组件Cd1 143可以包括贡献增加模块133B数学地加入贡献154到组件Cd1 141,直接迭代计算组件Cdv 147可以包括贡献增加模块139B数学地加入贡献184到组件Cdv 145。贡献154和184都是来自数据元素109的贡献。
如图1-1和1-2所示,组件Cd1 143包括贡献152(数据元素102的贡献), 其它贡献153(数据元素103-108的贡献),和贡献154(数据元素109的贡献)。同样,组件Cdv 147包括贡献182(数据元素102的贡献),其它贡献183(数据元素 103-108的贡献),和贡献184(数据元素109的贡献)。
Z值可以根据需要被计算,即,只需要有数据被选定来计算其Z值时计算, 但是每当一个存在的数据元素被去除和一个数据元素被增加到调整前计算子集时,v个组件必须被计算。
方法200包括访问被选定来计算其Z值的一个或多个数据元素(210)。如图1-1和1-2所示,Z值计算模块193可以访问被选做Z值计算的数据元素 192。
当Z值被访问并且v<p(即,不是所有组件都被直接迭代计算)时,方法200包括根据需要间接迭代计算w=p-v个组件(211)。这w个组件只有当有数据被选定来计算其Z值时才会计算。例如,参考图1-2其部分组件直接迭代计算,部分组件间接迭代计算,计算模块163可以基于组件Ci1之外的一个或多个组件来间接迭代计算组件Ci1,计算模块164可以基于组件Ciw之外的一个或多个组件来间接迭代计算组件Ciw。这一个或多个组件可以是初始化,直接迭代计算,或间接迭代计算过的。
方法200包括用一个或多个初始化或迭代计算过的组件根据需要生成选定数据元素的Z值(212)。例如,参考图1-1,Z值计算模块193可以基于组件 Cd1143到组件Cdv 147范围内的一个或多个组件生成数据元素192的Z值194。
202-209可以随着更多数据元素的访问被重复。210-212可以根据需要被重复。例如,计算完组件Cd1 143到组件Cdv 147范围内的组件之后,数据元素 102和数据元素110可以被访问(202)。102和110可以分别从位置121B和 121J访问。每当开始下一轮迭代时,原来的调整后计算子集就变成了新一轮计算的调整前计算子集。通过去除要被去除的数据元素102(204)和加入要被加入的数据元素110(205),原来调整后的计算子集122A(即新一轮计算的调整前计算子集)可以变成新一轮调整后的计算子集122B(203)。
迭代算法133可以用组件Cd1 143(调整后的计算子集122A的)直接迭代计算组件Cd1 144(调整后的计算子集122B的)(206)。迭代算法133可以访问组件Cd1 143(207)。直接迭代计算组件Cd1 144可以包括贡献去除模块133A从组件Cd1 143数学地去除贡献152(即,去除的数据元素102的贡献)(208)。直接迭代计算组件Cd1 144可以包括贡献增加模块133B数学地增加贡献155(即, 增加的数据元素110的贡献)到组件Cd1 143上(209)。同样,迭代算法139可以用组件Cdv 147(调整后的计算子集122A的)直接迭代计算组件Cdv 148(调整后的计算子集122B的)(206)。迭代算法139可以访问组件Cdv 147(207)。直接迭代计算组件Cdv148可以包括贡献去除模块139A从组件Cdv 147数学地去除贡献182(即,去除的数据元素102的贡献)(208)。直接迭代计算组件Cdv 148可以包括贡献增加模块139B数学地增加贡献185(即,增加的数据元素110 的贡献)到组件Cdv 147上(209)。
如图1-1和1-2所示,组件Cd1 144包括其它贡献153(数据元素103-108 的贡献),贡献154(数据元素109的贡献),和贡献155(数据元素110的贡献)。同样,组件Cdv 148包括其它贡献183(数据元素103-108的贡献),贡献184(数据元素109的贡献)和贡献185(数据元素110的贡献)。
方法200包括访问被选定来计算其Z值的一个或多个数据元素(210)。如图1-1和1-2所示,Z值计算模块193可以访问被选做Z值计算的数据元素 192。
方法200包括,根据需要即只有一个或多个数据被选定来计算其Z值时, 间接迭代计算w个组件和Z值。如果没有数据被选定来计算其Z值,方法200包括继续为下一个计算子集访问下一个要去除的数据元素和下一个要加入的数据元素(202)。如果有一个或多个数据被选定来计算其Z值,方法200包括间接迭代计算w个组件(211),基于一个或多个迭代计算的组件计算给定数据元素的 Z值(212)。
当下一个要去除的数据元素和要加入的数据元素被访问,组件Cd1 144 可被用来直接迭代计算下一个组件Cd1,组件Cdv 148可被用来直接迭代计算下一个组件Cdv。
图3图示在大数据上迭代计算Z值时计算子集300中被访问的数据元素。计算子集和计算窗口的区别是计算子集上的数据元素没有顺序(例如,存在的数据元素可以从计算子集的任何位置被去除并且数据元素可以加入计算子集的任何位置)。例如,参考图3,访问的数据元素可以从计算子集300的任何位置(“r”标识的)被去除并且一个数据元素可以增加到计算子集300的任何位置(“a”标识的)。对于计算子集300,最开始的n个数据元素会被访问来计算(初始化)第一个调整前计算子集的一个或多个组件,然后根据需要计算Z值。随着时间的推移,一个要从调整前计算子集去除的数据元素xr和一个要加入计算子集的数据元素xa会被访问来直接迭代计算调整后的计算子集的Z值的v个组件和间接迭代计算w=p-v个组件。这些迭代计算得出的组件中的一个或多个会被用来计算 Z值。这v个组件可以通过从调整前计算子集去除的数据元素,加入的数据元素和调整前计算子集的v个组件被直接迭代计算,而不需要访问计算子集300里的其它数据元素。对于一个给定的迭代算法,v是个常量,所以直接迭代计算v个组件的操作数也是个常量,间接迭代计算w=p-v个组件的操作数也是个常量。所以,第一个调整前计算子集的一个或多个组件被计算后,计算一个给定的规模为n的调整后计算子集的所有p个组件的计算工作量被降低并保持为常数。n越大,计算量的降低越突出。
以下的部分有一些Z值的组件的例子和迭代Z值计算算法的例子。
图4-1显示了Z值的定义以及计算调整后计算子集的Z值的传统方程。假设X={xi|i=1,…,n}是一个大数据集的包含涉及Z值计算的数据的一个规模为n的计算子集。假设过段时间数据元素xr要从计算子集X去除并且数据元素xa要加入计算子集X。每当一个数据元素从计算子集去除和一个数据元素加入计算子集后Z值需要重新被计算,计算子集会被认为是调整后的计算子集,一轮新的计算会开始。
方程401是为第k轮计算规模为n的计算子集X里所有数据元素的和Sk的传统方程。方程402是为第k轮计算计算子集X里所有数据元素的平均值的传统方程。方程403是为第k轮计算计算子集X的给定数据元素xm(1≤m≤ n)的Z值Zk(xm)的传统方程。方程404是为第k+1轮计算规模为n的调整后计算子集XI里所有数据元素的和Sk+1的传统方程。方程405是为第k+1轮计算调整后计算子集XI里所有数据元素的平均值的传统方程。方程406是为第k+1轮计算调整后计算子集XI的给定数据元素xm(m=a或1≤m≤n)的Zk+1(xm) 的传统方程。
为展示如何利用组件迭代计算Z值,三个不同的迭代Z值算法被提供作为例子。每当计算子集有一个数据变化时新的一轮计算就开始了(例如,122→ 122A→122B)。一个和或平均值是计算Z值的基本组件。迭代计算一个和或平均值的方程是被所有例子迭代Z值计算算法都用到的迭代组件方程。
图4-2说明第一个例子迭代Z值计算算法(迭代算法1)。方程407可以被用来初始化X里所有数据元素的和Sk。方程408可以被用来初始化X里所有数据元素的平均值方程409可以被用来初始化组件vpk。根据需要方程410 可以基于初始化的组件计算数据元素xm的Z值Zk(xm)。假设过段时间数据元素 xr要从计算子集X去除并且数据元素xa要加入计算子集X。基于组件Sk,方程411 可以被用来迭代计算调整后计算子集X′的和Sk+1。基于组件方程412可以被用来迭代计算调整后计算子集X′的平均值基于组件vpk,方程413可以迭代计算调整后计算子集XI的组件vpk+1。基于迭代计算的组件,方程414可以迭代计算调整后计算子集XI中数据元素xm的Z值Zk+1(xm)。409,410,411,412,413, 和414分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-3说明第二个例子迭代Z值计算算法(迭代算法2)。方程415可以被用来初始化X里所有数据元素的和Sk。方程416可以被用来初始化X里所有数据元素的平均值方程417可以被用来初始化组件SSDk。根据需要方程418 可以基于初始化的组件计算数据元素xm的Z值Zk(xm)。假设过段时间数据元素 xr要从计算子集X去除并且数据元素xa要加入计算子集X。基于组件Sk,方程419 可以被用来迭代计算调整后计算子集X′的和Sk+1。基于组件方程420可以被用来迭代计算调整后计算子集X′的平均值基于组件SSDk,方程421可以迭代计算调整后计算子集XI的组件SSDk+1。基于迭代计算的组件,方程422可以迭代计算调整后计算子集XI中数据元素xm的Z值Zk+1(xm)。418,419,420,421,和 422分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-4说明第三个例子迭代Z值计算算法(迭代算法3)。方程423可以被用来初始化X里所有数据元素的和Sk。方程424可以被用来初始化X里所有数据元素的平均值方程425可以被用来初始化组件SSk。根据需要方程426 可以基于初始化的组件计算数据元素xm的Z值Zk(xm)。假设过段时间数据元素 xr要从计算子集X去除并且数据元素xa要加入计算子集X。基于组件Sk,方程427 可以被用来迭代计算调整后计算子集X′的和Sk+1。基于组件方程428可以被用来迭代计算调整后计算子集X′的平均值基于组件SSk,方程429可以迭代计算调整后计算子集XI的组件SSk+1。基于迭代计算的组件,方程430可以迭代计算调整后计算子集XI中数据元素xm的Z值Zk+1(xm)。426,427,428,和430 分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
为展示迭代Z值算法以及它们与传统算法的比较,下面给出三个例子。使用3个计算子集的数据。对于传统算法,所有3个计算子集的计算过程完全相同。对于迭代算法,第一个计算子集进行两个或多个组件的初始化,第二个和第三个计算子集进行迭代计算。
图5-1,图5-2,图5-3分别显示了用于一个计算实例的第一个计算子集, 第二个计算子集,和第三个计算子集。计算子集503包括数据集501的8个数据元素:8,3,6,1,9,2,5,4。计算子集504包括据集501的8个数据元素:3,6,1, 9,2,5,4,-7。计算子集505包括数据流集501的8个数据元素:6,1,9,2,5,4,-7, 11。计算子集规模502(n)是8。
首先用传统算法分别计算计算子集503,504和505中x8的Z值。
为计算子集503中的x8计算Z值:
没有任何优化的情况下,为规模为8的计算子集的x8计算Z值共有1个平方根, 3次除法,8次乘法,14次加法,和9次减法。
相同的方程和过程可被用来分别为图5-2显示的计算子集504中的x8计算Z值和为图5-3显示的计算子集505中的x8计算Z值。计算子集504中的x8Z 值这个计算中的每一个在没有优化的情况下包括1个平方根,3次除法,8次乘法,14次加法和9次减法。计算子集505中的x8Z值 这个计算中的每一个在没有优化的情况下包括1个平方根,3次除法,8次乘法,14次加法,和9次减法。传统算法在没有优化的情况下计算规模为n的计算子集中选定的数据元素的Z值时通常需要完成1个平方根,3 次除法,n次乘法,2(n-1)次加法,和n+1次减法。
下面用迭代算法1分别计算计算子集503,504,和505中的x8的Z值。
为规模为8的计算子集503中的x8计算Z值:
用方程409初始化第1轮vp1:
用方程410计算第1轮x8的Z值:
为计算子集503中的x8计算Z值时共有1个平方根,3个除法,8个乘法,14个加法,和9个减法。
为规模为8的计算子集504中的x8计算Z值:
用方程414计算第2轮x8的Z值:
为计算子集504中的x8迭代计算Z值时共有1个平方根,3个除法,1个乘法,4个加法,和4个减法。
为规模为8的计算子集505中的x8计算Z值:
用方程414计算第3轮x8的Z值:
为计算子集505中的x8迭代计算Z值时共有1个平方根,3个除法,1个乘法,4个加法,和4个减法。
下面用迭代算法2分别计算计算子集503,504,和505中的x8的Z值。
为规模为8的计算子集503中的x8计算Z值:
用方程417初始化第1轮SSD1:
用方程418计算第1轮x8的Z值:
为计算子集503中的x8计算Z值时共有1个平方根,3个除法,8个乘法,14个加法,和9个减法。
为规模为8的计算子集504中的x8计算Z值:
用方程422计算第2轮x8的Z值:
为计算子集504中的x8迭代计算Z值时共有1个平方根,3个除法,1个乘法,4个加法,和4个减法。
为规模为8的计算子集505中的x8计算Z值:
用方程422计算第3轮x8的Z值:
为计算子集505中的x8迭代计算Z值时共有1个平方根,3个除法,1个乘法,4个加法,和4个减法。
下面用迭代算法3分别计算计算子集503,504,和505中的x8的Z值。
为规模为8的计算子集503中的x8计算Z值:
用方程425初始化第1轮SS1:
用方程426计算第1轮x8的Z值:
为计算子集503中的x8计算Z值时共有1个平方根,3个除法,8个乘法,14个加法,和2个减法。
为规模为8的计算子集504中的x8计算Z值:
SS2=SS1+xa 2-xr 2=236+(-7)2-82=221
用方程430计算第2轮x8的Z值:
为计算子集504中的x8迭代计算Z值时共有1个平方根,3个除法,3个乘法,2个加法,和4个减法。
为规模为8的计算子集505中的x8计算Z值:
SS3=SS2+xa 2-xr 2=221+112-32=333
用方程430计算第3轮x8的Z值:
为计算子集505中的x8迭代计算Z值时共有1个平方根,3个除法,3个乘法,2个加法,和4个减法。
在以上三个例子中,平均值被用于迭代Z值计算。和也可被用于Z值迭代计算,只是操作数不同。
图6-1图示了n=8时,传统Z值算法和迭代Z值算法的计算量。如图所示,任何一个迭代算法和传统算法都比传统算法少很多乘法操作,加法操作, 和减法操作。
图6-2图示了n=1,000,000时,传统Z值算法和迭代Z值算法的计算量。如图所示,任何一个迭代算法都比传统算法少很多乘法操作,加法操作,和减法操作。迭代算法把需要在成千上万台计算机上处理的数据只在单机上就能完成。大大提高计算效率,减少计算资源需求,降低计算设备能耗,使得实时判断大数据中选定数据以标准方差为单位偏离平均值的相对距离能够高效低耗地完成及一些实时判断大数据中选定数据以标准方差为单位偏离平均值的相对距离的场景从不可能变为可能。
本发明可以在不脱离其思想或本质特征的情况下以其它选定的方式来实现。本申请描述的实现方案从各个方面来说是仅作为示范性的而不是限制性的。因此,本发明的范围由附加的权利要求书而不是前面的描述来指明。与权利要求书中权利要求的含义和范围等价的所有变化都包含在它们的范围内。
Claims (10)
1.一种,由基于一个或多个计算设备构成的一个计算系统实现的,实时地判断一个数据集的调整后计算子集中选定数据的以标准方差为单位偏离平均值的相对距离的方法,其特征在于:
由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的一个数据集的一个指定规模为n(n>4)的调整前计算子集,初始化一个和或一个平均值或一个和及一个平均值,以及Z值的不同于和及平均值的一个或多个其它组件;
由基于计算设备的该计算系统,访问一个要从该调整前计算子集中去除的数据元素和一个要加入到该调整前计算子集的数据元素;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素;以及
向该调整前计算子集加入要加入的数据元素;
由基于计算设备的该计算系统,为该调整后计算子集迭代计算一个和或一个平均值或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于该调整前计算子集的Z值的不同于和及平均值的该一个或多个其它组件,为该调整后计算子集直接迭代计算Z值的不同于和及平均值的一个或多个组件,这里的迭代计算一个或多个组件包括:
访问该调整前计算子集的Z值的的不同于和及平均值的该一个或多个组件而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源,和降低能耗;以及
基于被去除的数据元素和被加入的数据元素,对访问的每一个组件中数学地去除被去除的数据元素的任何贡献和数学地加入被加入的数据元素的任何贡献从而避免使用该调整后计算子集中的所有数据元素来提高计算效率;
由基于计算设备的该计算系统,接收或访问该调整后计算子集中一个或多个选定的用来计算Z值的数据元素;以及
由基于计算设备的该计算系统,基于一个或多个为该调整后计算子集迭代计算的组件,为该调整后计算子集中所选定的数据元素生成Z值。
2.按照权利要求1所述的由计算系统实现的该方法,其特征在于:所述访问一个要去除的数据元素和一个要加入的数据元素包括访问多个要从该调整前计算子集去除的数据元素和多个要加入该调整前计算子集的数据元素,该方法也进一步包括对于多个要去除的数据元素中的每一个数据元素和多个要加入的数据元素中的每一个数据元素进行调整该调整前计算子集,迭代计算和或平均值或和及平均值,直接迭代计算Z值的一个或多个组件,接收或访问该调整后计算子集中一个或多个选定的用来计算Z值的数据元素,以及为该调整后计算子集中所选定的数据元素生成Z值。
3.按照权利要求2所述的由计算系统实现的该方法,其特征在于:所述为该调整后计算子集中所选定的数据元素生成Z值当且仅当有数据元素被选定来计算其Z值。
4.按照权利要求3所述的由计算系统实现的该方法,其特征在于:所述为该调整后计算子集中所选定的数据元素生成Z值进一步包括由基于计算设备的该计算系统为该调整后计算子集间接迭代计算Z值的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个计算设备,每个计算设备包含一个或多个处理器;
一个或多个存储媒体,其中至少一个存储媒体存储了一个数据集;以及
一个或多个计算模块,当它们被一个或多个计算设备中的至少一个计算设备执行时,实时地判断一个指定规模的调整后计算子集中选定数据的以标准方差为单位偏离平均值的相对距离的方法,该一个或多个计算模块被配置为:
a.为该数据集的一个指定规模为n(n>4)的调整前计算子集,初始化一个和或一个平均值或一个和及一个平均值,以及Z值的除和及平均值之外的一个或多个其它组件;
b.访问一个要从该调整前计算子集中去除的数据元素和一个要加入到该调整前计算子集的数据元素;
c.调整该调整前计算子集,包括:
从该调整前计算子集中去除要去除的数据元素;以及
向该调整前计算子集中加入要加入的数据元素;
d.为该调整后计算子集直接迭代计算一个和或一个平均值或一个和及一个平均值;
e.为该调整后计算子集迭代计算Z值的一个或多个除了和及平均值以外的组件,包括:
访问该调整前计算子集的Z值的不同于和及平均值的该一个或多个组件而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于被去除的数据元素和被加入的数据元素,通过对访问的每一个组件中数学地去除被去除的数据元素的任何贡献和数学地加入被加入的数据元素的任何贡献来得到该调整后计算子集的Z值的该一个或多个组件,而避免在迭代计算Z值的该一个或多个组件中使用该调整后计算子集中的所有数据元素来提高计算效率;
f.接收或访问该调整后计算子集中一个或多个选定的用来计算Z值的数据元素;以及
g.基于一个或多个为该调整后计算子集迭代计算的组件,为该调整后计算子集中所选定的数据元素生成Z值。
6.按照权利要求5所述的该计算系统,其特征在于:该一个或多个计算模块,当它们被该一个或多个计算设备中的至少一个计算设备执行时,多次执行b,c,d,e,f,和g。
7.按照权利要求6所述的该计算系统,其特征在于:执行f和g当且仅当有数据元素被选定来计算其Z值。
8.按照权利要求7所述的该计算系统,其特征在于:所述g进一步包括由该计算系统为该调整后计算子集间接迭代计算Z值的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
9.一个计算系统程序产品,运行于一个包含一个或多个计算设备以及一个或多个存储媒体的计算系统,每个计算设备包括一个或多个处理器,该计算系统程序产品包含多条计算设备可执行指令,当这些计算设备可执行指令被该计算系统中的至少一台计算设备运行时,使得该计算系统执行一个实时地判断一个数据集的调整后计算子集中选定数据元素的以标准方差为单位偏离平均值的相对距离的方法,其特征在于:
由该计算系统为存储于该计算系统至少一个存储媒体上的一个数据集的一个指定规模为n(n>4)的调整前计算子集,初始化一个和或一个平均值或一个和及一个平均值,以及Z值的不同于和及平均值的一个或多个其它组件;
由该计算系统访问一个要从该调整前计算子集中去除的数据元素和一个要加入到该调整前计算子集的数据元素;
由该计算系统调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素;以及
向该调整前计算子集加入要加入的数据元素;
由该计算系统为该调整后计算窗口迭代计算一个和或一个平均值或一个和及一个平均值;
由该计算系统至少基于该调整前计算子集的Z值的不同于和及平均值的该一个或多个其它组件,为该调整后计算子集直接迭代计算Z值的不同于和及平均值的一个或多个组件,该迭代计算一个或多个组件包括:
访问该调整前计算子集的Z值的该一个或多个组件而避免访问该调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于被去除的数据元素和被加入的数据元素,对访问的每一个组件数学地去除被去除的数据元素的任何贡献和数学地加入被加入的数据元素的任何贡献从而避免使用该调整后计算子集中的所有数据元素提高计算效率;
由该计算系统接收或访问该调整后计算子集中一个或多个选定的用来计算Z值的数据元素;以及
由该计算系统基于一个或多个为该调整后计算子集迭代计算的组件,为该调整后计算子集中所选定的数据元素生成Z值。
10.按照权利要求9所述的该计算系统程序产品,其特征在于:所述为该调整后计算子集中所选定的数据元素生成Z值进一步包括由基于计算设备的该计算系统为该调整后计算子集间接迭代计算Z值的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790672.XA CN112434258A (zh) | 2019-08-26 | 2019-08-26 | 一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790672.XA CN112434258A (zh) | 2019-08-26 | 2019-08-26 | 一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434258A true CN112434258A (zh) | 2021-03-02 |
Family
ID=74689782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910790672.XA Pending CN112434258A (zh) | 2019-08-26 | 2019-08-26 | 一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434258A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235415B1 (en) * | 2014-12-09 | 2019-03-19 | Cloud & Stream Gears Llc | Iterative variance and/or standard deviation calculation for big data using components |
-
2019
- 2019-08-26 CN CN201910790672.XA patent/CN112434258A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235415B1 (en) * | 2014-12-09 | 2019-03-19 | Cloud & Stream Gears Llc | Iterative variance and/or standard deviation calculation for big data using components |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9928215B1 (en) | Iterative simple linear regression coefficient calculation for streamed data using components | |
US9069726B2 (en) | Iteratively calculating standard deviation for streamed data | |
US20180270158A1 (en) | Decremental autocorrelation calculation for big data using components | |
CN114205690B (zh) | 流量预测、模型训练方法及装置、电子设备、存储介质 | |
US9760539B1 (en) | Incremental simple linear regression coefficient calculation for big data or streamed data using components | |
US10235415B1 (en) | Iterative variance and/or standard deviation calculation for big data using components | |
US10225308B1 (en) | Decremental Z-score calculation for big data or streamed data using components | |
CN111126557B (zh) | 神经网络量化、应用方法、装置和计算设备 | |
CN110826911A (zh) | 基于大数据的决策方法、设备及介质 | |
CN112035521A (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
US10310910B1 (en) | Iterative autocorrelation calculation for big data using components | |
US10394809B1 (en) | Incremental variance and/or standard deviation calculation for big data or streamed data using components | |
CN112860810A (zh) | 域名多重图嵌入表示方法、装置、电子设备及介质 | |
CN112434258A (zh) | 一种实时判断选定数据以标准方差为单位偏离平均值的相对距离的方法 | |
US10394810B1 (en) | Iterative Z-score calculation for big data using components | |
CN112035520A (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
Liu et al. | An efficient architecture of the sign-error LMS adaptive filter | |
CN110457340B (zh) | 一种实时寻找大数据自身重复规律的方法 | |
CN111708979A (zh) | 一种实时判断大数据离散程度的方法 | |
CN112035505A (zh) | 一种实时判断大数据分布密度集中程度的方法 | |
CN110363321B (zh) | 一种实时预测大数据变化趋势的方法 | |
CN110515680B (zh) | 一种实时判断大数据自身给定延迟重复性的方法 | |
CN112035792A (zh) | 一种实时判断大数据自身给定延迟重复性的方法 | |
CN111488380A (zh) | 一种实时判断流数据分布不对称性的方法 | |
CN111708972A (zh) | 一种实时判断流数据分布密度集中程度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |