CN112784211A - 一种实时预测大数据或流数据变化趋势的方法 - Google Patents

一种实时预测大数据或流数据变化趋势的方法 Download PDF

Info

Publication number
CN112784211A
CN112784211A CN201911066997.XA CN201911066997A CN112784211A CN 112784211 A CN112784211 A CN 112784211A CN 201911066997 A CN201911066997 A CN 201911066997A CN 112784211 A CN112784211 A CN 112784211A
Authority
CN
China
Prior art keywords
subset
data
linear regression
simple linear
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911066997.XA
Other languages
English (en)
Inventor
吕纪竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911066997.XA priority Critical patent/CN112784211A/zh
Publication of CN112784211A publication Critical patent/CN112784211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3275Power saving in memory, e.g. RAM, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

简单线性回归系数可用于预测大数据或流数据变化趋势。本发明公开了一种通过减量计算计算子集的简单线性回归系数从而可以实时地预测大数据或流数据变化趋势的方法,系统和计算系统程序产品。本发明的实施方案包括基于调整前计算子集的简单线性回归系数的多个组件减量计算调整后计算子集的简单线性回归系数的多个组件,然后根据需要基于减量计算的多个组件生成调整后计算子集的简单线性回归系数。减量计算简单线性回归系数可以基于最新数据实时更新计算结果并避免访问调整后计算子集中的所有数据元素对和执行重复计算从而提高计算效率,节省计算资源,和降低计算系统能耗,使得实时预测大数据或流数据变化趋势高效低耗及一些实时预测大数据或流数据变化趋势的场景(如边缘计算)从不可能变为可能。

Description

一种实时预测大数据或流数据变化趋势的方法
技术领域
大数据或流数据分析。
背景技术
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生巨多数据。大数据是传统数据系统和传统计算方法无法处理或分析的数据,因为它的大量,快速移动和增长速度。怎么高效并及时处理和分析大数据带给数据分析师和计算机科学家一个艰难的挑战。
流数据是从数据源不断传出并连续地被接收器接收的数据。流数据可以是传感器采集并连续传送到计算设备或电子设备上的实时数据。通常这包括连续接收有时间间隔,具有相似格式的数据元素。流数据也可以是从存储器连续读出的数据,例如存储在多个计算设备存储器上的大数据集。因此,流数据处理算法可以延伸到大数据处理上,因为大数据集随着时间积累而可以被认为是具有不规律时间间隔的数据流。
当两个数量变量有强线性相关关系时,简单线性回归可基于一个独立变量(也叫解释变量或自变量)的观测数据实时预测另一个从属变量(也叫反应变量或因变量)的值,即可以基于一个变量的变化趋势预测另一个变量的变化趋势。
处理大数据或流数据可包括在多个数据元素上做计算。所以,一个接收流数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时,缓冲区可以很大。例如,当计算简单线性回归时,一些(可能很多)数据元素需要被访问。
对于大数据或流数据处理,有些统计计算会重新被计算当大数据集有变化或存在的流数据元素被去除时。因此,一些(可能很多)数据元素会被重复访问。例如,有可能简单线性回归系数在含有n对数据元素的计算子集上被计算。当一对数据元素(一个独立数据元素和一个因变量数据元素)被访问或接收时,把该数据元素对从计算子集里去除。然后访问所有计算子集里的2n-2个数据元素去重新计算简单线性回归系数。
当在所有2n-2个数据元素上重新计算简单线性回归系数时,计算子集里所有的2n-2个数据元素会被访问和使用,计算简单线性回归系数的时间复杂度通常是O(n)。这样,每当计算子集有变化时,计算子集里的每对数据元素都会为计算简单线性回归被访问。根据需要,计算子集规模n可能非常大,数据元素也可能分配到含有成百上千个计算/存储设备的云上。数据有改变后,在大数据或流数据上重新计算简单线性回归系数耗时并浪费资源。
发明内容
本发明拓展到方法,系统和计算系统程序产品通过用减量方式计算简单线性回归系数从而可以在调整计算子集规模后实时地预测大数据或流数据变化趋势。为一个调整后计算子集减量计算简单线性回归系数包括减量计算大数据或流数据的简单线性回归系数的三个以上组件,然后根据需要基于一个或多个减量计算的组件计算简单线性回归系数。减量计算简单线性回归系数只需要接收/访问和使用被去除的数据元素对,这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保留整个计算子集,因此时间复杂度以及空间复杂度都被降低从而使得实时判断大数据或流数据变化趋势能够高效低耗地完成。
计算系统为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5)以及简单线性回归系数的多个组件,该计算子集计数器指定了该调整前计算子集包含的数据元素个数对。
计算系统可根据需要基于初始化的组件来生成调整前计算子集的相关。
计算系统访问一对存在的大数据元素或接收一对要去除的流数据元素。
计算系统根据需要从一个或两个可选的数据缓冲区中去除被访问或接收的数据元素对。
计算系统通过从调整前的计算子集去除被访问或接收的数据元素对来调整计算子集并且把计算子集规模计数器的值减1。
计算系统基于初始化过的调整前计算子集的简单线性回归系数的多个组件,计算调整后计算子集的简单线性回归系数的多个组件,这里的计算多个组件以减量方式完成并且包括访问被去除的数据元素对而避免访问和使用调整前计算子集中大于n/2对的数据元素来减少存储器访问,降低数据访问延迟,节省计算资源,降低系统能耗,和提高计算效率。
计算系统基于一个或多个为调整后的计算子集减量计算的组件,为调整后的计算子集生成简单线性回归系数。
计算系统可以持续地访问或接收要去除的数据元素对,调整调整前的计算子集,调整计算子集规模的计数器,减量计算调整后的计算子集的多个组件,根据需要基于减量计算的组件生成简单线性回归系数,即简单线性回归系数可以在接收多对数据元素而不仅是一对数据元素后(如只在被访问时)生成。并根据需要重复以上这个过程。
本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。
本发明的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本发明的实践中学到。本发明的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本发明的这些和其它特征将在下面的描述和附加的权利要求书或本发明的实践中变得更加全面清晰。
附图说明
为描述能够获得本发明的上述的和其它的优点和特点的方式,上面简述的本发明的一个更具体的描述将通过参照附加的图表中所显示的特定的实施方案来展现出来。本发明将通过下列的图表更加详细和具体地来描述和解释,请理解这些图表只是描述了本发明的典型实施方案,因此它们不应被理解为对本发明的范围的限制:
图1图示了一个支持减量计算简单线性回归系数的例子计算系统的高层概括。
图1-1图示了一个为流数据减量计算简单线性回归系数的支持两个输入数据流并且所有组件都是直接减量计算的计算系统架构的例子。
图1-2图示了一个为流数据减量计算简单线性回归系数,支持两个输入数据流并且部分组件直接减量计算,部分组件间接减量计算的计算系统架构的例子。
图1-3图示了一个流数据减量计算简单线性回归系数,支持由两个数据流中的数据元素交叉组成的单输入数据流并且所有组件都是直接减量计算的计算系统架构的例子。
图1-4图示了一个为流数据减量计算简单线性回归系数,支持由两个数据流中的数据元素交叉组成的单输入数据流,并且部分组件直接减量计算,部分组件间接减量计算的计算系统架构的例子。
图1-5图示了一个为大数据减量计算简单线性回归系数的支持两个数据集并且所有组件都是直接减量计算的计算系统架构的例子。
图1-6图示了一个为大数据减量计算简单线性回归系数,支持两个数据集并且部分组件直接减量计算,部分组件间接减量计算的计算系统架构的例子。
图1-7图示了一个为大数据减量计算简单线性回归系数,支持由两个数据集的数据元素交叉组成的单输入数据集并且所有组件都是直接减量计算的计算系统架构的例子。
图1-8图示了一个为大数据减量计算简单线性回归系数,支持由两个数据集中的数据元素交叉组成的单输入数据集,并且部分组件直接减量计算,部分组件间接减量计算的计算系统架构的例子。
图2图示了一个为大数据或流数据减量计算简单线性回归系数的方法流程图的例子。
图3-1图示了在流数据上为减量计算简单线性回归系数从计算窗口访问的数据元素。
图3-2图示了在大数据上为减量计算简单线性回归系数从计算子集访问的数据元素。
图4-1图示了简单线性回归系数的定义以及计算子集上计算简单线性回归系数的传统方程。
图4-2显示了第一个简单线性回归系数减量计算算法(减量算法1)。
图4-3显示了第二个简单线性回归系数减量计算算法(减量算法2)。
图4-4显示了第三个简单线性回归系数减量计算算法(减量算法3)。
图5-1显示了用于一个计算实例的第一个计算子集。
图5-2显示了用于一个计算实例的第二个计算子集。
图5-3显示了用于一个计算实例的第三个计算子集。
图6-1图示了计算子集规模为4时,传统简单线性回归系数算法和减量简单线性回归系数算法的计算工作量。
图6-2图示了计算子集规模为1,000,000时,传统简单线性回归系数算法和减量简单线性回归系数算法的计算工作量。
具体实施方法
本发明拓展到方法,系统和计算系统程序产品以减量方式计算简单线性回归系数从而可以在调整计算子集规模后实时地预测大数据或流数据变化趋势。为一个调整后计算子集减量计算简单线性回归系数包括减量计算大数据或流数据的简单线性回归系数的三个以上组件,然后根据需要基于一个或多个减量计算的组件计算简单线性回归系数。减量计算简单线性回归系数只需要接收/访问和使用被去除的数据元素对,这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保留整个计算子集,因此时间复杂度以及空间复杂度都被降低从而使得实时判断大数据或流数据相关程度能够高效低耗地完成。
一个计算子集包含了计算简单线性回归系数所需要的数据元素,其数据可来源于存储在一个或多个存储设备上的大数据集或一个或多个数据流。计算子集等同于在流数据或时间序列上计算简单线性回归系数时的移动计算窗口。本文中,它们的区别是计算窗口中的数据是有顺序的,而计算子集中的数据可以没有顺序。
简单线性回归系数计算涉及两个随机变量,因此一个计算子集中至少包含两个随机变量的数据,它们成对出现。计算子集中的数据元素对的顺序的改变不影响计算结果,但是不可任意结合不同数据元素对中的数据。两个变量的数据的输入可以是分别存储的两个大数据集或两个数据流,也可以是以交叉方式存储的单个大数据集或以交叉方式合并的单个数据流。在后者情况下,单个大数据集或单个数据流中包含多个数据元素对,每对数据元素包含各个变量的一个数据元素。
一个简单线性回归系数的组件是出现在简单线性回归系数的定义公式或任何定义公式的转换的量或表达式。例如,计算子集上一个独立变量的所有数据元素的平均值是简单线性回归系数的一个组件,计算子集上一个独立变量的所有数据元素的平方和也是一个组件。简单线性回归系数最大的组件是简单线性回归系数本身。以下是一些简单线性回归系数的组件的例子可在。
·
Figure BDA0002259688170000051
·
Figure BDA0002259688170000052
·
Figure BDA0002259688170000061
·
Figure BDA0002259688170000062
·
Figure BDA0002259688170000063
·
Figure BDA0002259688170000064
·
Figure BDA0002259688170000065
·
Figure BDA0002259688170000066
·
Figure BDA0002259688170000067
·
Figure BDA0002259688170000068
·
Figure BDA0002259688170000069
·
Figure BDA00022596881700000610
有两个简单线性回归系数b1k和b0k。因为b1k出现在b0k的定义公式里,b1k是b0k的一个组件,所有b1k的组件也是b0k的组件。所有b0k的组件也出现在b1k的定义公式里。因此,简单线性回归系数b1k和b0k有同样的组件。SDXYk,SSDXk
Figure BDA00022596881700000611
Figure BDA00022596881700000612
都是简单线性回归系数的组件因为他们直接出现在简单线性回归系数的定义里。SXYk,XSSk,和XVk也都是简单线性回归系数的组件因为他们出现在简单线性回归系数的定义公式的一个变换里。简单线性回归系数
Figure BDA00022596881700000613
本身也是一个组件因为他是出现在b1k简单线性回归系数的定义里最大的组件。同样,b0k也是b0k本身最大的组件。
简单线性回归可以通过用一个或多个组件或他们的组合计算。例如,如果
Figure BDA00022596881700000614
Figure BDA00022596881700000615
已知,简单线性回归系数b1k可以容易的被算出,然后系数b0k也可以容易的被算出。如果所有需要的组件可以被减量计算,简单线性回归系数也可以被减量计算。因为多个简单线性回归系数的组件和更多组件的组合存在,有多个方法(算法)支持减量简单线性回归系数计算。本发明的实施方案描述的算法只是几个减量简单线性回归系数计算算法的例子,这些描述例子只是为了说明用途而不代表所有可能的算法。
简单线性回归系数可以根据需要被计算,即只有当它被访问时。当计算子集上的简单线性回归系数没有因每个数据变化而被访问时,计算系统可以根据每次数据变化只减量计算三个以上组件。简单线性回归系数可在被访问时基于一个以上组件计算并被返回。根据需要,计算系统可以用一个以上组件计算调整后计算子集的简单线性回归系数。
组件可以被直接减量计算或间接减量计算。区别是,当直接减量计算一个组件时,其计算将基于并使用该组件的上轮计算结果;但是当间接减量计算一个组件时,其计算将基于并使用该组件之外的一个或多个组件,该一或多个组件可以是以不同方式已计算过的,如被初始化,直接减量计算或间接减量计算过的。
对于一个给定的组件,它可能在一个算法中被直接减量计算而在另一个算法中被间接减量计算。
对于一个给定的算法,假设不同组件的总数是p(p≥3),直接减量计算的组件总数是v(1≤v≤p),那么间接减量计算的组件总数是w=p-v(0≤w<p)。在较优的算法中,至少一个组件会被直接减量计算。有可能所有组件都被直接减量计算(在这种情况下v=p和w=0)。但是,直接减量计算的组件必须每轮被计算无论简单线性回归系数是否每轮被访问。
对于一个给定的算法,如果一个组件是直接减量计算的,那么该组件每轮都需要被计算(即,每当一个已有的数据元素从计算子集去除时)。但是,如果该组件是间接减量计算的,那么该组件可以根据需要被计算(即,只有当简单线性回归系数需要被计算和访问时)。因此,当简单线性回归系数没有在某个特定的轮被访问并且部分组件被间接减量计算时,为了省时间可只有少量的组件被直接减量计算。当多对数据元素(如两组数据而不是一对数据元素)从计算子集去除后简单线性回归系数需要被计算时这将是有用的。本发明的实现方案可被容易地扩展来处理上述情况通过增加一个循环来一对一对地处理加入的数据元素,在循环内部直接减量计算少量组件,在循环后或者间接减量计算一个以上组件后计算简单线性回归系数或者直接计算简单线性回归系数。
本发明的实施方案包括基于调整前的计算子集上的三个以上计算过的组件,减量计算调整后的计算子集上的三个以上简单线性回归系数的组件。其中计算子集的和或平均值是必须减量计算的特殊组件。和或平均值可以被直接或间接减量计算。对于一个给定的减量相关算法,假设在同一轮减量计算中所有减量计算的组件(包括计算子集的和或平均值)总数为p(p≥3)。直接减量的组件个数为v(1≤v≤p),则间接减量的组件个数为w=p-v(w≥0)。
减量简单线性回归系数计算从一个非空的调整前的计算子集开始时,调整前的计算子集的规模初始设为调整前的计算子集里数据元素对的数量,三个以上组件(共p(p≥3)个,包括每个变量的一个和或一个平均值或一个和及一个平均值,以及简单线性回归系数的其它一个或多个组件)。该三个以上组件的初始化包括通过它们的定义基于调整前计算子集里的数据元素来计算或设为用各种不同方式已经计算过的结果。因此上一轮减量计算中对组件的计算也可以认为是当前轮计算对组件的初始化。
计算系统为存储于该计算系统上一个或多个存储设备上的至少一个数据集的或至少一个数据流的一个调整前的计算子集,初始化一个计算子集规模计数器n(n>1),为该调整前的计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及简单线性回归系数的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数。
计算系统访问一对存储于一个或多个存储设备上的至少一个数据集的数据元素或接收来自至少一个数据流的一对要去除的流数据元素。
对于流数据处理,计算系统根据需要把接收的数据元素对从一或两个数据缓冲区里去除。单纯的减量简单线性回归系数计算只需要访问刚接收到的数据元素对但不需要访问之前接收到的数据元素对,因此计算系统不需要分配存储空间保留计算子集所有的数据元素但是至少会保留计算子集规模和计算子集的三个以上简单线性回归系数组件,并且调整计算子集可以体现在调整计算子集规模和计算子集的简单线性回归系数的三个以上组件上。然而,因为迭代简单线性回归系数计算需要访问之前接收的数据元素对,当结合减量和迭代简单线性回归系数计算时,接收的数据元素对需要被保存在迭代简单线性回归系数计算要用到的一或两个数据缓冲区里。因此对于流数据来说,计算系统可能选择性地需要一或两个数据缓冲区保存接收的数据元素对。
计算系统调整调整前的计算子集通过:把访问或接收的数据元素对从调整前的计算子集去除以及相应地把计算子集规模计数器的值减1。
计算系统减量计算调整后计算子集中每个变量的一个和,一个平均值,或一个和及一个平均值。
计算系统减量计算调整后计算子集的简单线性回归系数的除和及平均值之外的一个以上组件包括重用调整前计算子集的v(1≤v≤p)个组件直接减量计算调整后计算子集的简单线性回归系数的v个组件。直接减量计算v个组件包括逐个地直接减量计算v个组件中的每一个。直接减量计算一个组件包括,访问从调整前计算子集去除的数据元素对和为调整前计算子集计算过的该组件,从被访问的组件数学地去除被访问的数据元素对的对该组件的任何贡献。
计算系统根据需要间接减量计算调整后的计算子集的简单线性回归系数的w=p-v个组件。间接减量计算简单线性回归系数的w个组件包括逐个地间接减量计算w个组件中的每一个。间接减量计算一个组件包括访问和利用除了该组件自身以外的三个以上组件。该三个以上组件可以是以各种不同方式已经计算过的,例如可以是可以是被初始化的,直接减量计算过的或间接减量计算过的。
计算系统根据需要基于一个或多个减量计算过的组件生成简单线性回归系数。
计算系统可以持续地接收要去除的数据元素对,调整调整前计算子集,减量计算调整后计算子集的一个和,一个平均值,或一个和及一个平均值,减量计算v个组件,根据需要间接减量计算w=p-v个组件,根据需要基于减量计算过的一个或多个的组件生成简单线性回归系数,并根据需要重复以上这个过程。上轮计算中的调整后计算子集将成为下一轮计算中的调整前计算子集。
本发明的实施方案可以包括或利用包含计算设备硬件,例如一个或多个处理器和以下更详细描述的存储设备,专用的或通用的计算设备。本发明实施方案的范围也包括物理的及其它用于携带或存储计算设备可运行指令和/或数据结构的计算设备可读媒体。这些计算设备可读媒体可以是通用或专用计算设备可访问的任何媒体。存储计算设备可运行指令的计算设备可读媒体是存储媒体(设备)。携带计算设备可运行指令的计算设备可读媒体是传输媒体。因此,以举例而非限制的方式,本发明的实施方案可以包括至少两种不同类型的计算设备可读媒体:存储媒体(设备)和传输媒体。
计算设备存储媒体(设备)包括随机存取存储器(RAM),只读存储器(ROM),电可擦除可编程只读存储器(EEPROM),只读光盘存储器(CD-ROM),固态硬盘(SSD),闪存(FlashMemory),相变存储器(PCM),其它类型存储器,其它光学磁盘存储,磁盘存储器或其它磁性存储设备,或任何其它能用于存储所需要的以计算设备可运行指令或数据结构形式构成的程序代码并且其可以被通用或专用计算设备访问的媒体。
一个“网络”被定义为使计算设备和/或模块和/或其它电子设备能够传输电子数据的一个或多个数据链接。当信息被网络或另外的通讯连接(有线,无线,或有线和无线的组合)传输或提供给计算设备时,计算设备把连接视为传输媒体。传输媒体可包括用于携带所需要的以计算设备可运行指令或数据结构形式构成的程序代码,并且其可以被通用或专用计算设备访问的一个网络和/或数据链接。以上的组合也应包括在计算设备可读媒体的范围之内。
此外,在应用不同计算设备组件时,计算设备可运行指令或数据结构形式的程序代码可以从传输媒体自动传输到存储媒体(设备)(或反过来)。例如,从网络或数据链接上接收的计算设备可运行指令或数据结构可以被暂存进网络接口模块(例如,NIC)中的随机存取存储器中,然后最终传输到计算设备的随机存取存储器和/或到计算设备的一个较小易变的存储媒体(设备)。所以,应当理解存储媒体(设备)可以被包括在也(或甚至主要)应用传输媒体的计算设备组件里。
计算设备可运行指令包括,例如,指令和数据,当被处理器运行时,使得通用计算设备或专用计算设备去执行一个特定功能或一组功能。计算设备可运行指令可以是,例如,二进制,中间格式指令例如汇编代码,或甚至源代码。虽然描述的客体是用结构特征和/或方法动作的具体语言描述的,应当理解在附加的权利要求书中定义的客体不一定局限于以上描述的特征或动作。而是,描述的特征或动作仅是以实现权利要求的例子形式而公开的。
本发明的实施方案可以在由多种类型的计算设备配置的网络计算环境中实现,这些计算设备包括个人电脑,台式机,笔记本电脑,信息处理器,手持设备,多处理系统,基于微处理器或可编程的电子消费品,网络电脑,小型计算机,主计算机,超级计算机,移动电话,掌上电脑,平板电脑,呼机,路由器,交换机及类似产品。本发明的实施方案也可以应用于通过网络互联(即可通过有线数据链接,无线数据链接,也可以是有线数据链接与无线数据链接的结合)的执行任务的本地或远程计算设备构成的分布式系统环境。在分布式系统环境中,程序模块可以被存储在本地或远程存储设备上。
本发明的实施方案也可以在云计算环境里实现。在本描述及后续的权利要求书中,“云计算”被定义为一个使得能够按需通过网络访问到可配置计算资源的共享池的模型。例如,云计算可以被市场利用去提供普及和方便的按需访问可配置计算资源的共享池。可配置计算资源的共享池可以通过虚拟化很快预备并且以低管理开销或低服务提供商互动来提供,然后做相应的调整。
云计算模型可以包括各种特征例如,按需自服务,宽带网络访问,资源收集,快速收放,计量服务等等。云计算模型也可以各种服务模式来体现,例如,软件做为服务(“SaaS”),平台做为服务(“PaaS”),以及设施做为服务(“IaaS”)。云计算模型也可以通过不同的部署模型例如私有云,社区云,公共云,混合云等等来部署。
由于本发明有效地降低了对计算能力的要求,其实施方案也可应用于边缘计算。
图1图示了为大数据或流数据减量计算简单线性回归系数的一个例子计算系统100的高层概述。参考图1,计算系统100包括由不同网络,例如局域网1021,无线网1022和互联网1023等等,连接的多个设备。多个设备包括,例如,数据分析引擎1007,存储系统1011,实时数据流1006,以及可以安排数据分析任务和/或查询数据分析结果的多台分布的计算设备,例如个人电脑1016,手持设备1017和台式机1018等等。
数据分析引擎1007可以包括一个或多个处理器,例如CPU 1009和CPU1010,一个或多个系统内存,例如系统内存1008,及组件计算模块131和简单线性回归系数计算模块191。模块131的细节会在其它图表中更详细地图示(例如,图1-1和图1-2)。存储系统1011可以包括一个或多个存储媒体,例如存储媒体1012和存储媒体1014,其可以用于存放大数据集。例如,1012和或1014可以包括数据集123。存储系统1011里的数据集可以被数据分析引擎1007访问。
通常,数据流1006可以包括来自不同数据源的流数据,例如,股价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,和/或闭合字幕数据等。这里举例描绘了几个,实时数据1000可以包括从感应器1001,股票1002,通讯1003和银行1004等等实时收集的数据。数据分析引擎1007可以接收来自数据流1006的数据元素。来自不同数据源的数据可以被存储在存储系统1011并且为大数据分析所访问,例如数据集123可以来自不同的数据源并且为大数据分析所访问。
请理解图1是以非常简化的形式介绍一些概念,例如,分布设备1016和1017可能经过防火墙才联到数据分析引擎1007,数据分析引擎1007从数据流1006和/或存储系统1011访问或接收的数据可能经过数据过滤器筛选,等等。
图1-1图示了为有两个输入的流数据减量计算简单线性回归系数,其所有(v=p≥3)组件被直接减量计算,的例子计算系统架构100A。关于计算系统架构100A,这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些部件如何协作共同完成减量简单线性回归系数计算的过程将在后面结合图2中描述的流程图一起介绍。图1-1图示了图1显示的1006和1007。参考图1-1,计算系统架构100A包括组件计算模块131和简单线性回归系数计算模块191。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络,如局域网,广域网,甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计算设备和它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协议(“IP”)数据报和其它使用IP数据报的高层协议,例如,用户数据报协议(“UDP”),实时流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器(“MMS”),传输控制协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议(“SMTP”),等等)。组件计算模块131的输出会被简单线性回归系数计算模块191做为输入,简单线性回归系数计算模块191会生成简单线性回归系数b1 192和b0 193。
通常,X数据流190X和Y数据流190Y可以分别是电子加密信号的序列(例如,多个包的数据或数据包)用于发送或接收在发送过程中的信息。X数据流190X和Y数据流190Y可以流化数据,比如,例如,股票报价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,闭合字幕数据,和实时文字等,到计算机架构100A。X数据流190X和Y数据流190Y可以分别是实时流或可以流化存储数据。
减量简单线性回归系数计算从非空的计算子集开始,其计算子集规模和简单线性回归系数的一个或多个组件已经被初始化或计算过。如图1-1中图示,组件Cd1 141包括贡献151(来自数据元素对(101x,101y)的贡献),贡献152(来自数据元素对(102x,102y)的贡献),和贡献153(来自其它数据元素的贡献)。同样,组件Cdv 145包括贡献181(来自数据元素对(101x,101y)的贡献),贡献182(来自数据元素对(102x,102y)的贡献)和贡献183(来自其它数据元素的贡献)。例如,当数据元素对(101x,101y)经过计算子集规模计数器118时,计数器118会减一。计算子集规模计数器118会被存储在存储设备119。计算子集规模计数器118和数据元素对(101x,101y)都可以被组件计算模块131访问。
随后,数据元素对(102x,102y)可被接收。当数据元素对(102x,102y)经过计算子集规模计数器118时,计数器118会减一。调整后的计算子集规模计数器118会被存储在存储设备119。调整后的计算子集规模计数器118和数据元素对(102x,102y)都可以被组件计算模块131访问。
计算系统架构100A包含两个可选的数据缓冲区121X和121Y。单纯的减量简单线性回归系数计算不需要缓冲区。但是,结合减量简单线性回归系数计算和迭代简单线性回归系数计算时,接收的数据元素对需要为将来的运用被存储,因此计算系统架构100A在这个情况下会有两个数据缓冲区121X和121Y,所以数据缓冲区121X和121Y是可选的。
参考计算系统架构100A,减量组件计算模块131包含v(v=p≥3)个组件计算模块为计算计算子集的简单线性回归系数的v个组件。数字v随着使用的减量算法不同而不同。如图1-1所示,组件Cd1计算模块块131包含组件计算模块161和组件Cdv计算模块162,有v-2个其它组件计算模块在它们之间。计算模块161包含初始化模块132用于初始化组件Cd1和减量算法133用于直接减量计算组件Cd1。组件Cdv计算模块162包含初始化模块138用于初始化组件Cdv和减量算法139用于直接减量计算组件Cdv。初始化模块132被配置成为计算子集初始化组件Cd1且初始化模块138被配置成为计算子集初始化组件Cdv。141是组件Cd1的初始值。初始化模块132可被用于初始化组件Cd1或当简单线性回归系数计算被重置。初始化模块132通过重置模块129传进的贡献151,贡献152和贡献153组成的特定值。同样,初始化模块138可以在初始化组件Cdv时使用或当简单线性回归系数计算被重置时使用。组件Cdv 145是组件Cdv的初始值。初始化模块138通过重置模块129传进的贡献181,贡献182和贡献183组成的特定值。
减量算法也被配置成为计算子集直接减量计算v个组件。133接收先前的组件Cd1值和一个要从计算子集去除的数据元素对为输入。133用先前的组件Cd1值和去除的数据元素对来直接减量计算一个新的组件Cd1。贡献去除模块133A可以从先前的组件Cd1去除被去除的数据元素的任何贡献。去除被去除的数据元素对的任何贡献可以为调整过的计算子集计算组件Cd1。139工作方法和133相似。139接收先前的组件Cdv值和一个要从计算子集去除的数据元素对为输入。139用先前的组件Cdv值和去除的数据元素对来直接减量计算一个新的组件Cdv。贡献去除模块139A可以从先前的组件Cdv去除被去除的数据元素对的任何贡献。去除被去除的数据元素对的任何贡献可以为调整过的计算子集计算组件Cdv
参考图1-1,计算系统架构100A也包括简单线性回归系数计算模块191。在p(p≥3)个简单线性回归系数组件被组件计算模块131减量计算后,191可以用一个或多个减量计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图1-2图示了一个为流数据减量计算简单线性回归系数,支持两个输入数据流并且部分(v(1≤v<p))组件直接减量计算,部分(w=p-v)组件间接减量计算的计算系统架构100B的例子。数字v和数字w依赖于具体应用的算法。计算系统架构100B和100A的很多部件有同样的标记号。那些部件有同样的架构并且按同样方式工作。计算系统架构100B和计算系统架构100A之间的区别是架构100B包括组件计算模块135。除了100B里的135以外,和100A有同样标记号的部件都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部分会在这里讨论。100B里面的数字v和100A里面的数字v可能不同,因为100A里有些被直接减量计算的组件会在100B里被间接减量计算。在100A,v=p≥3,但是在100B,1≤v<p。参考图1-2,计算系统架构100B包括组件计算模块135。135通常包括w=p-v个组件计算模块为了间接减量计算w个组件。例如,135包括组件Ci1计算模块163为了间接减量计算组件Ci1和组件Ciw计算模块164为了间接减量计算组件Ciw,并且有w-2个组件计算模块在它们之间。间接减量计算w个组件包括逐个地间接减量计算每个w个组件。间接减量计算一个组件包括访问和用除它自己之外的三个以上组件。那三个以上组件可以是被初始化,直接减量计算或间接减量计算过的。
参考计算系统架构100B,在所有p(p=v+w)个组件被减量计算过后,简单线性回归系数计算模块191可以根据需要,用一个或多个减量计算过或初始化的组件生成简单线性回归系数b1 192和b0 193。
图1-3图示了一个为流数据减量计算简单线性回归系数并且支持由两个变量X和Y的数据元素交叉组成的单输入数据流并且所有(v=p≥3)个组件被直接减量计算的计算系统架构100C例子。计算系统架构100C和计算系统架构100A之间的区别是架构100C用由两组数据元素交叉组成的一个单输入数据流并且100C用一个单环形缓冲区为存储数据元素。除了100C的输入模式以外,和100A有同样标记号的部分都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部分会在这里讨论。参考图1-3,数据流190是个包含X和Y的交叉数据流。随着流数据元素的接收,流数据元素可以被放在可选择的(当结合减量简单线性回归系数计算和迭代简单线性回归系数计算时)环形缓冲区125里的一个位置。
参考图1-3,计算系统架构100C也包括简单线性回归系数计算模块191。当所有p(p=v≥3)个简单线性回归系数组件被组件计算模块131减量计算过后,191可以根据需要,基于一个或多个减量计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图1-4图示了一个为流数据减量计算简单线性回归系数并且支持由两个变量X和Y的数据元素交叉组成的单输入数据流并且部分(v(1≤v<p))组件直减量计算,部分(w(w=p-v))组件间接减量计算的计算系统架构100D例子。计算系统架构100D和计算系统架构100C之间的区别是架构100D包括组件计算模块135。100D里除了135以外,和100A和100C有同样标记号的部分都按同样的方式工作。为了不重复之前在100A和100C描述里面解释过的东西,只有不同的部分会在这里讨论。100D里面的数字v和100C里面的数字v可能不同,因为有些100C里被直接减量计算的组件会在100D里被间接减量计算。在100C,v=p≥3,但是在100D,1≤v<p。参考图1-4,计算系统架构100D包括组件计算模块135。135包括w=p-v个组件计算模块为了间接减量计算w个组件。间接减量计算w个组件包括逐个地间接减量计算w个组件中的每个组件。间接减量计算一个组件包括访问和使用除它自己之外的三个以上组件。那三个以上组件可以是被初始化,直接减量计算或间接减量计算过的。
参考计算系统架构100D,在所有p(p=v+w)个组件被减量计算过后,简单线性回归系数计算模块191可以根据需要,基于一个或多个减量计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图1-5图示了为有两个输入的大数据集减量计算简单线性回归系数,其所有(v=p≥3)组件被直接减量计算,的例子计算系统架构100E。关于计算系统架构100E,这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些部件如何协作共同完成减量相关计算的过程将在后面结合图2中描述的流程图一起介绍。图1-5图示了图1显示的1006和1007。参考图1-5,计算系统架构100E包括组件计算模块131和简单线性回归系数计算模块191。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络,如局域网,广域网,甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计算设备和它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协议(“IP”)数据报和其它使用IP数据报的高层协议,例如,用户数据报协议(“UDP”),实时流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器(“MMS”),传输控制协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议(“SMTP”),等等)。组件计算模块131的输出会被作为简单线性回归系数计算模块191的输入,简单线性回归系数计算模块191可以生成简单线性回归系数b1 192和b0 193。
如图1-5所示,有两个存储媒介121X和121Y。存储媒介121X包含数据集123X。数据集123X包含存在存储媒介121X上多个位置的多个数据元素。例如,数据元素101x,102x,103x,104x,105x,106x分别存储在位置121XA,121XB,121XC,121XD,121XE,121XF等,还有多个数据元素存储在其它位置。存储媒介121Y包含数据集123Y。数据集123Y包含存在存储媒介121Y上多个位置的多个数据元素。例如,数据元素101y,102y,103y,104y,105y,106y分别存储在位置121YA,121YB,121YC,121YD,121YE,121YF等,还有多个数据元素存在其它位置。
调整前的计算子集122XY,数据集123X和123Y的一个非空的计算子集,包含来自两个数据集的多对数据元素,其中每对数据元素包含每个计算子集的各一个数据元素。例如,计算子集122XY包含数据元素对(101x,101y),(102x,102y),(103x,103y),(104x,104y),(105x,105y)和(106x,106y)。
每当从存储媒介上访问一对数据元素,计算系统通过把该数据元素对从计算子集中去除并把计算子集规模计数器118的值减1来调整计算子集。118的值可被组件计算模块131访问或接收,并且它可被重置模块129重置为一个特定的值当减量简单线性回归系数计算重新开始在一个非空的计算子集上进行时。例如,在100E中,在访问数据元素对(101x,101y)之前,计算子集122包括4个数据元素对,所以计算子集规模计数器可被初始化为4。当一对数据元素(101x,101y)被从位置(121XA,121YA)访问时,(101x,101y)被从计算子集122XY去除(122XY变成计算子集122XYA),并且计算子集规模计数器118的值被减1。计算子集规模计数器118和数据元素对(101x,101y)都可被组件计算模块131访问或接收。
随后,数据元素对(102x,102y)可被从位置(121XB,121YB)访问。(102x,102y)将被从计算子集去除122XYA(122XYA变成计算子集122XYB),并且计算子集规模计数器118的值被减1。计算子集规模计数器118和数据元素对(102x,102y)都可被组件计算模块131访问或接收。
减量简单线性回归系数计算有可能从一个其计算子集规模计数器以及三个以上简单线性回归系数组件已经被初始化或计算了的计算子集开始。例如,在计算系统架构100E中,从组件Cd1 141到组件Cdv,145的v个组件已经被初始化。如图1-5所示,组件Cd1 141包括贡献151(来自于数据元素对(101x,101y)的贡献),贡献152(来自于数据元素对(102x,102y)的贡献),和贡献153(来自于其它数据元素对的贡献)。类似地,组件Cdv 145包括贡献181(来自于数据元素对(101x,101y)的贡献),贡献182(来自于数据元素对(102x,102y)的贡献),和贡献183(来自于其它数据元素对的贡献)。
参考计算系统架构100E,减量组件计算模块131包含v(v=p≥3)个组件计算模块为计算计算子集的简单线性回归系数的v个组件。数字v随着使用的减量算法不同而不同。如图1-5所示,组件Cd1计算模块块131包含组件计算模块161和组件Cdv计算模块162,有v-2个其它组件计算模块在它们之间。计算模块161包含初始化模块132用于初始化组件Cd1和减量算法133用于直接减量计算组件Cd1。组件Cdv计算模块162包含初始化模块138用于初始化组件Cdv和减量算法139用于直接减量计算组件Cdv。初始化模块132被配置成为计算子集初始化组件Cd1且初始化模块138被配置成为计算子集初始化组件Cdv。141是组件Cd1的初始值。初始化模块132可被用于初始化组件Cd1或当简单线性回归系数计算被重置。初始化模块132初始化组件141为重置模块129传进的贡献151,贡献152和贡献153组成的特定值。同样,初始化模块138可以被用于初始化组件Cdv或当简单线性回归系数计算被重置。组件145是组件Cdv的初始值。初始化模块138初始化组件145为重置模块129传进的贡献181,贡献182和贡献183组成的特定值。
减量算法也被配置成为计算子集直接减量计算v个组件。133接收先前的组件Cd1值和一个要从计算子集去除的数据元素对为输入。133用先前的组件Cd1值和去除的数据元素对来直接减量计算一个新的组件Cd1。贡献去除模块133A可以从先前的组件Cd1去除被去除的数据元素的任何贡献。去除被去除的数据元素对的任何贡献可以为调整过的计算子集计算组件Cd1。139工作方法和133相似。139接收先前的组件Cdv值和一个要从计算子集里去除的数据元素对为输入。139用先前的组件Cdv值和去除的数据元素对来直接减量计算一个新的组件Cdv。贡献去除模块139A可以从先前的组件Cdv去除被去除的数据元素对的任何贡献。去除被去除的数据元素对的任何贡献可以为调整过的计算子集计算组件Cdv
参考图1-5,计算系统架构100E也包括简单线性回归系数计算模块191。当所有p(p≥3)个简单线性回归系数组件被组件计算模块131减量计算过后,191可以基于一个或多个减量计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图1-6图示了一个为大数据减量计算简单线性回归系数,支持两个输入数据集并且部分(v(1≤v<p))组件直接减量计算,部分(w=p-v)组件间接减量计算的计算系统架构100F的例子。数字v和数字w依赖于具体应用的算法。计算系统架构100F和100E的很多部件有同样的标记号。那些部件有同样的架构并且按同样方式工作。计算系统架构100F和计算系统架构100E之间的区别是架构100F包括组件计算模块135。除了100F里的135以外,和100E有同样标记号的部件都按同样的方式工作。为了不重复之前在100E描述里面解释过的东西,只有不同的部分会在这里讨论。100F里面的数字v和100E里面的数字v可能不同,因为100E里有些被直接减量计算的组件会在100F里被间接减量计算。在100E,v=p≥3,但是在100F,3≤v<p。参考图1-6,计算系统架构100F包括组件计算模块135。135通常包括w=p-v个组件计算模块为了间接减量计算w个组件。例如,135包括组件Ci1计算模块163为了间接减量计算组件Ci1和组件Ciw计算模块164为了间接减量计算组件Ciw,并且有w-2个组件计算模块在它们之间。间接减量计算w个组件包括逐个地间接减量计算每个w个组件。间接减量计算一个组件包括访问和用除它自己之外的三个以上组件。那三个以上组件可以是被初始化,直接减量计算或间接减量计算过的。
参考计算系统架构100F,在所有p(p=v+w)个组件被减量计算过后,简单线性回归系数计算模块191可以根据需要,基于一个或多个减量计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图1-7图示了一个为大数据减量计算简单线性回归系数并且支持由两个变量X和Y的数据元素交叉组成的单输入数据集并且所有(v=p≥3)个组件被直接减量计算的计算系统架构100G例子。计算系统架构100G和计算系统架构100E之间的区别是架构100G用由两组数据元素交叉组成的一个单输入数据集。除了100G的输入模式以外,和100E有同样标记号的部件都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部件会在这里讨论。参考图1-7,数据集123XY是个包含两个变量X和Y的数据元素的交叉数据集。
参考图1-7,计算系统架构100G也包括简单线性回归系数计算模块191。当所有p(p=v≥3)个简单线性回归系数组件被组件计算模块131减量计算过后,191可以根据需要,基于一个或多个减量计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图1-8图示了一个为大数据减量计算简单线性回归系数并且支持由两个变量X和Y的数据元素交叉组成的单输入数据集123XY并且部分(v(1≤v<p))组件直减量计算,部分(w(w=p-v))组件间接减量计算的计算系统架构100H例子。计算系统架构100H和计算系统架构100G之间的区别是架构100H包括组件计算模块135。100H里除了135以外,和100E和100G有同样标记号的部分都按同样的方式工作。为了不重复之前在100E和100G描述里面解释过的东西,只有不同的部分会在这里讨论。100H里面的数字v和100G里面的数字v可能不同,因为有些100G里被直接减量计算的组件会在100H里被间接减量计算。在100G,v=p≥3,但是在100H,1≤v<p。参考图1-8,计算系统架构100G包括组件计算模块135。135包括w=p-v个组件计算模块为了间接减量计算w个组件。间接减量计算w个组件包括逐个地间接减量计算w个组件中的每个组件。间接减量计算一个组件包括访问和使用除它自己之外的三个以上组件。那三个以上组件可以是被初始化,直接减量计算或间接减量计算过的。
参考计算系统架构100H,在所有p(p=v+w)个组件被减量计算过后,简单线性回归系数计算模块191可以根据需要,基于一个或多个减量计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图2图示了一个为大数据或流数据减量计算简单线性回归系数的方法200的流程图例子。方法200会和关于计算系统架构100A,100B,100C,100D,100E,100F,100G,和100H的组件和数据被分别描述。
方法200包括初始化计算子集规模计数器118的值n(n>1)和大数据或流数据的一个调整前计算子集的简单线性回归系数的v(1≤v≤p,p≥3)个组件(201)。例如,对于计算系统架构100A,重置模块129可以为可被初始化模块132访问的组件Cd1和可被初始化模块138访问的组件Cdv之间的所有组件设置初始值并且为计算子集规模计数器118设相对应的初始值。132可以访问组件Cd1的初始值并且用成为贡献151,152和153的值初始化组件Cd1141。同样,138可以访问组件Cdv的初始值并且用成为贡献181,182和183的值初始化组件Cd1145。
方法200包括访问或接收要从调整前的计算子集去除的数据元素对(202)。例如,数据元素对(101x,101y)可被访问或接收。
方法200包括通过从计算子集去除被访问或接收的数据元素对来调整计算子集并且调整计算子集规模计数器(203)。例如,在访问或接收到数据元素对(101x,101y)后,把数据元素对(101x,101y)从调整前的计算子集123XY中去除,并把计算子集规模计数器118当前的值减1来做调整。
方法200包括根据需要从一个或两个可选的数据缓冲区去除被访问或接收的数据元素对(204)。例如,当结合减量简单线性回归系数计算和迭代简单线性回归系数计算时,可以根据需要把数据元素101x从可选的数据缓冲区125X去除并且把数据元素101y从可选的数据缓冲区125Y去除。
方法200包括基于调整前计算子集的简单线性回归系数的v个组件直接减量计算调整后计算子集的简单线性回归系数的v个组件(205)。例如,算法133可以用组件Cd1 141和去除的数据元素对(101x,101y)直接减量计算Cd1 143,算法139可以用组件Cdv 145和去除的数据元素对(101x,101y)直接减量计算Cdv 147。
直接减量计算调整后计算子集的简单线性回归系数的v个组件包括访问从调整前的计算子集去除的数据元素对(206)。例如,对于计算系统架构100A,减量算法133可以访问数据元素对(101x,101y)并且减量算法139也可以访问数据元素对(101x,101y)。
直接减量计算调整后计算子集的简单线性回归系数的v个组件包括访问调整前的计算子集的简单线性回归系数的v个组件(207)。例如,对于计算系统架构100A,减量算法133可以访问组件Cd1 141,减量算法139可以访问组件Cdv 145。
直接减量计算调整后计算子集的简单线性回归系数的v个组件包括从每个访问的组件中数学地去除从调整前计算子集中去除的数据元素对的任何贡献(208)。例如,对于计算系统架构100A,减量计算组件Cd1 143可以包括贡献去除模块133A数学地从组件Cd1 141去除贡献151并且减量计算组件Cdv 147可以包括贡献去除模块139A数学地从组件Cdv 145去除贡献181。贡献151和181都是来自数据元素对(101x,101y)的贡献。
如图1-1所示,组件Cd1 143包括贡献152和贡献153,组件Cdv 147包括贡献182和贡献183。贡献152是数据元素对(102x,102y)的贡献。贡献153是数据元素对(103x,103y),(104x,104y)……的贡献。贡献182是数据元素对(102x,102y)的贡献。贡献183是数据元素对(103x,103y),(104x,104y)……的贡献。
除了直接减量计算组件,部分组件可以被间接减量计算。当v<p(即,不是所有组件被直接减量计算),方法200包括根据需要基于一个或多个除了其组件本身之外的其它组件一个一个地间接减量计算w=p-v个组件(209)。因为w个间接减量计算的组件是用其它组件计算的,它们就不需要被初始化。此外,那w个间接减量计算的组件不需要每轮被计算(即,存在的数据元素对从计算子集去除时)。这w个组件只需要在简单线性回归系数被访问时被计算。例如,参考图1-2,部分组件被直接减量计算,部分被间接减量计算,组件Ci1计算模块163可以基于一个或多个Ci1以外的组件间接减量计算Ci1,组件Ciw计算模块164可以基于一个或多个Ciw以外的组件间接减量计算Ciw。该一个或多个组件可以是初始化,直接减量计算或间接减量计算过的。对于一个特定的组件,它可以被一个算法直接减量计算或被另一个算法间接减量计算。对于一个特定的算法,直接减量计算的组件必须在每当数据元素对从数据集去除的时候被计算,无论简单线性回归系数有没有被访问;但是,间接减量计算的组件可以根据需要被计算(即,只当简单线性回归系数被访问时)。例如,参考图4-2,在例子减量简单线性回归系数计算算法1里,间接减量计算的组件b1k+1和b0k+1只在简单线性回归系数被访问时被计算。
方法200包括根据需要基于一个或多个初始化或减量计算过的组件生成简单线性回归系数(210)。例如,简单线性回归系数计算模块191可以用一个或多个减量计算的组件(例如,组件Cd1 143和组件Cdv 147)计算简单线性回归系数b1 192和b0 193。
202-208可以随着更多要被去除的数据元素对的访问或接收被重复。209-210可以根据需要被重复。例如,计算组件Cd1 143到组件Cdv 147之后,下一个要被去除的数据元素对(102x,102y)可以被访问或接收。
减量算法133可以重用组件Cd1 143直接地减量计算组件Cd1 144。减量算法133可以访问下个数据元素对(102x,102y)。减量算法133可以访问组件Cd1 143。直接地减量计算组件Cd1 144可以包括贡献去除模块133A从组件Cd1 143数学地去除贡献152。贡献152是数据元素对(102x,102y)的贡献。同样,减量算法139可以重用组件Cdv 147直接地减量计算组件Cdv 148。减量算法139可以访问下个数据元素对(102x,102y)。减量算法139可以访问组件Cdv 147。直接减量计算组件Cdv 148可以包括贡献去除模块139A从组件Cdv 147数学地去除贡献182。贡献182是数据元素对(102x,102y)的贡献。如图所示,组件Cd1 144包括贡献153(其它数据元素对(103x,103y),(104x,104y),...的贡献),组件Cdv 148包括贡献183(其它数据元素对(103x,103y),(104x,104y),...的贡献)。当下个数据元素对被接收,组件Cd1 144可以被用来直接减量计算下个组件Cd1并且组件Cdv 148可以被用来直接减量计算下个组件Cdv
如图2所示,重置211可以被用来重置减量简单线性回归系数计算。当重置211在205或210之后被调用,计算子集规模计数器和简单线性回归系数的v个组件会被重置或初始化。例如,当计算子集是非空的并且组件Cd1 141已经被计算过,组件Cd1 141可以被初始化为那个特定值。这种情况可以发生在减量简单线性回归系数计算和迭代简单线性回归系数计算或增量简单线性回归系数计算合并时。组件Cdv 145可以用同样方法被初始化。
图3-1图示在流数据上减量计算简单线性回归系数的计算窗口300A中被访问的数据元素。计算窗口和计算子集的区别是计算窗口里的数据元素对有顺序(例如,数据元素对每次都从计算窗口的左边或右边去除)。例如,参考图3-1,最老的数据元素对每次都从计算窗口300A的左边去除。计算窗口300A是非空的,其v(1≤v≤p)个组件已经被计算过。随着时间的推移,最老的数据元素对,例如,数据元素(x1,y1),然后(x2,y2),然后(x3,y3),.....会从计算窗口去除并且被访问,为了直接减量计算简单线性回归系数的下v个组件和间接减量计算w=p-v个组件。这些减量计算过的组件中的一个或多个会被用来计算简单线性回归系数。这v个组件可以被直接减量计算通过从计算窗口去除的数据元素对和先前的数据窗口的v个组件,而不需要访问计算窗口300A里的其它数据元素对。对于一个给定的减量算法,v是个常量,所以直接减量计算v个组件的操作数也是个常量,间接减量计算w=p-v个组件的操作数也是个常量。所以,计算一个给定的规模为n的计算窗口的所有p个组件的时间复杂度从O(n)降低到O(1)。简单线性回归系数可以用一个或多个减量计算过的组件被计算,所以整体的时间复杂度从O(n)降低到O(1)。n越大,计算量的降低越突出。
图3-2图示在大数据上减量计算简单线性回归系数的计算子集300B中被访问的数据元素。计算子集和计算窗口的区别是计算子集上的数据元素对没有顺序(例如,数据元素对可以从计算子集的任何位置去除)。例如,参考图3-2,一个存在的数据元素对可以从计算子集300B的任何位置去除。随着时间的推移,数据元素对,例如,数据元素对(xr,yr),会从计算子集的灰色位置去除并且为了直接减量计算简单线性回归系数的v个组件的新值和间接减量w=p-v计算个组件而被访问。这些减量计算过的组件中的一个或多个会被用来生成简单线性回归系数。这v个组件可以被直接减量计算通过去除的数据元素对和调整前计算子集的v个组件,而不需要访问计算子集300B里的其它数据元素。对于一个给定的减量算法,v是个常量,所以直接减量计算v个组件的操作数也是个常量,间接减量计算w=p-v个组件的操作数也是个常量。所以,计算一个给定的计算子集规模为n的所有p个组件的时间复杂度从O(n)降低到O(1)。简单线性回归系数可以用一个或多个减量计算过的组件被计算,所以整体的时间复杂度从O(n)降低到O(1)。n越大,计算量的降低越突出。
以下的部分有一些简单线性回归系数的组件的例子和减量简单线性回归系数计算算法的例子。
图4-1图示简单线性回归系数的定义。假设计算子集XY={(xi,yi)|i=1,...,n}包含参与简单线性回归系数计算的数据元素,数据元素x1,x2,x3,x4,......,xn是来自于预测变量X的观察数据,数据元素y1,y2,y3,y4,......,yn是来自于响应变量Y的观察数据,并且假设简单线性回归系数需要被计算。假设过段时间数据元素对(xr,yr)要从计算子集XY去除。每当一个数据元素对从计算子集去除后简单线性回归系数需要重新被计算,计算子集会被认为是调整后的计算子集,一轮新的减量计算会开始。
方程401和402分别是简单线性回归系数b1和b0的定义方程。方程403和405分别为第k轮计算XY里变量X的所有数据元素的和XSk及平均值
Figure BDA0002259688170000249
的传统方程。方程404和406分别为第k轮计算XY里变量Y的所有数据元素的和YSk及平均值
Figure BDA0002259688170000241
的传统方程。方程407和408分别为第k轮计算XY的简单线性回归系数b1k和b0k的传统方程。方程409和411分别为第k+1轮计算调整后的XY′里变量X的所有数据元素的和XSk+1及平均值
Figure BDA0002259688170000242
的传统方程。方程410和412分别为第k+1轮计算调整后的XY′里变量Y的所有数据元素的和YSk+1及平均值
Figure BDA0002259688170000243
的传统方程。方程413和414分别为第k+1轮计算调整后的XY′的简单线性回归系数b1k+1和b0k+1的传统方程。
为展示如何利用组件减量计算简单线性回归系数,三个不同的减量简单线性回归系数算法被提供作为例子。
图4-2说明第一个例子减量简单线性回归系数计算算法(减量算法1)。方程415和417可分别被用来初始化XY里变量X的所有数据元素的XSk和/或
Figure BDA0002259688170000244
方程416和418可分别被用来初始化XY里变量Y的所有数据元素的YSk和/或
Figure BDA0002259688170000245
方程419,420,421可以分别被用来初始化组件XSSk,XVk,和SXYk。根据需要方程422可以基于初始化的组件计算简单线性回归系数b1k。根据需要方程423可以基于b1k计算简单线性回归系数b0k。假设过段时间数据元素对(xr,yr)要从计算子集XY去除。基于组件XSk和/或
Figure BDA0002259688170000246
方程424和426可分别被用来减量计算调整后计算子集XY′里变量X的XSk+1和/或
Figure BDA0002259688170000247
基于组件YSk和/或
Figure BDA0002259688170000248
方程425和427可分别被用来减量计算调整后计算子集XY′里变量Y的YSk+1和/或
Figure BDA0002259688170000251
基于组件XSSk,方程428可以减量计算调整后计算子集XY′的组件XSSk+1。基于组件XSSk+1,方程429可以计算调整后计算子集XY′的组件XVk+1。基于组件SXYk,方程430可以减量计算调整后计算子集XY′的组件SXYk+1。基于减量计算的组件,方程431可以减量计算调整后计算子集XY′的简单线性回归系数b1k+1。基于b1k+1,方程432可以减量计算调整后计算子集XY′的简单线性回归系数b0k+1。420,422,423,424,425,426,427,429,431和432分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-3说明第二个例子减量简单线性回归系数计算算法(减量算法2)。方程433和435可分别被用来初始化XY里变量X的所有数据元素的XSk和/或
Figure BDA0002259688170000252
方程434和436可分别被用来初始化XY里变量Y的所有数据元素的YSk和/或
Figure BDA0002259688170000253
方程437和438可以分别被用来初始化组件SSDXk和SDXYk。根据需要方程439可以基于SSDXk和SDXYk计算简单线性回归系数b1k。根据需要方程440可以基于b1k计算简单线性回归系数b0k。假设过段时间数据元素对(xr,yr)要从计算子集XY去除。基于组件XSk和/或
Figure BDA0002259688170000254
方程441和443可分别被用来减量计算调整后计算子集XY′里变量X的XSk+1和/或
Figure BDA0002259688170000255
基于组件YSk和/或
Figure BDA0002259688170000256
方程442和444可分别被用来减量计算调整后计算子集XY′里变量Y的YSk+1和/或
Figure BDA0002259688170000257
基于组件SSDXk,方程445可以减量计算调整后计算子集XY′的组件SSDXk+1。基于组件SDXYk,方程446可以减量计算调整后计算子集XY′的组件SDXYk+1。基于SSDXk+1和SDXYk+1,方程447可以减量计算调整后计算子集XY′的简单线性回归系数b1k+1。基于b1k+1,方程448可以减量计算调整后计算子集XY′的简单线性回归系数b0k+1。440,441,442,443,444,445,446,和448分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-4说明第三个例子减量简单线性回归系数计算算法(减量算法3)。方程449和451可分别被用来初始化XY里变量X的所有数据元素的XSk和/或
Figure BDA0002259688170000258
方程450和452可分别被用来初始化XY里变量Y的所有数据元素的YSk和/或
Figure BDA0002259688170000259
方程453和454可以分别被用来初始化组件XSSk和SXYk。根据需要方程455可以基于初始化的组件计算简单线性回归系数b1k。根据需要方程456可以基于b1k计算简单线性回归系数b0k。假设过段时间数据元素对(xr,yr)要从计算子集XY去除。基于组件XSk和/或
Figure BDA00022596881700002510
方程457和459可分别被用来减量计算调整后计算子集XY里变量X的XSk+1和/或
Figure BDA0002259688170000261
基于组件YSk和/或
Figure BDA0002259688170000262
方程458和460可分别被用来减量计算调整后计算子集XY′里变量Y的YSk+1和/或
Figure BDA0002259688170000263
基于组件XSSk,方程461可以减量计算调整后计算子集XY′的组件XSSk+1。基于组件SXYk,方程462可以减量计算调整后计算子集XY′的组件SXYk+1。基于减量计算的组件,方程463可以减量计算调整后计算子集XY′的简单线性回归系数b1k+1。基于b1k+1,方程464可以减量计算调整后计算子集XY′的简单线性回归系数b0k+1。455,456,457,458,459,460,463,和464分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
为展示减量简单线性回归系数算法以及它们与传统算法的比较,下面给出三个例子。使用3个计算子集的数据。对于传统算法,所有3个计算子集的计算过程完全相同。对于减量算法,第一个计算窗口进行3个以上组件的初始化,第二个和第三个计算窗口进行减量计算。
图5-1,图5-2,图5-3分别显示了用于一个计算实例的第一个计算子集,第二个计算子集,和第三个计算子集。计算子集502包括XY大数据集501的6个数据元素对:(8,9),(3,2),(6,5),(1,4),(4,7),(2,-1)。计算子集规模503(n)是6。计算子集504包括XY大数据集501的5个数据元素对:(3,2),(6,5),(1,4),(4,7),(2,-1)。计算子集规模505(n)是5。计算子集506包括XY大数据集501的4个数据元素对:(6,5),(1,4),(4,7),(2,-1)。计算子集规模507(n)是4。
首先用传统算法分别计算计算子集502,504,和506的简单线性回归系数。
为计算子集502计算延的简单线性回归系数:
Figure BDA0002259688170000264
Figure BDA0002259688170000265
Figure BDA0002259688170000266
Figure BDA0002259688170000267
Figure BDA0002259688170000271
Figure BDA0002259688170000272
没有任何优化的情况下,为规模为6的计算子集计算简单线性回归系数共有3次除法,13次乘法,20次加法,和19次减法。
相同的方程和过程可被用来分别为图5-2显示的计算子集504计算简单线性回归系数和为图5-3显示的计算子集506计算简单线性回归系数。规模为5的计算子集504的简单线性回归系数
Figure BDA0002259688170000273
Figure BDA0002259688170000274
Figure BDA0002259688170000275
这个计算中的每一个在没有优化的情况下包括3次除法,11次乘法,16次加法和16次减法。规模为4的计算子集506的简单线性回归系数
Figure BDA0002259688170000276
Figure BDA0002259688170000277
这个计算中的每一个在没有优化的情况下包括3次除法,9次乘法,12次加法,和13次减法。传统算法在没有优化的情况下计算计算子集规模为n的简单线性回归系数时通常需要完成3次除法,2n+1次乘法,4(n-1)次加法,和3n+1次减法。
下面用减量算法1分别计算计算子集502,504,和506的简单线性回归系数。
为规模为6的计算子集502计算简单线性回归系数:
用方程417初始化第1轮
Figure BDA0002259688170000278
和方程418初始化第1轮
Figure BDA0002259688170000279
Figure BDA00022596881700002710
Figure BDA00022596881700002711
用方程419,420,421分别初始化第1轮XSS1,XV1,SXY1
Figure BDA00022596881700002712
Figure BDA00022596881700002713
Figure BDA00022596881700002714
用方程422和423分别计算第1轮b11和b01
Figure BDA0002259688170000281
Figure BDA0002259688170000282
为计算子集502计算简单线性回归系数时共有3个除法,17个乘法,20个加法,和3个减法。
为规模为5的计算子集504减量计算简单线性回归系数:
用方程426,427,428,429,和430分别减量计算第2轮的组件
Figure BDA0002259688170000283
XSS2,XV2,和SXY2
Figure BDA0002259688170000284
Figure BDA0002259688170000285
XSS2=XSS1-xr 2=130-82=130-64=66
Figure BDA0002259688170000286
SXY2=SXY1-xryr=138-8×9=66
用方程431和432分别计算第2轮b12和b02
Figure BDA0002259688170000287
Figure BDA0002259688170000288
为计算子集504减量计算简单线性回归系数时共有3个除法,9个乘法,和8个减法。
为规模为4的计算子集506减量计算简单线性回归系数:
用方程426,427,428,429,和430分别减量计算第3轮的组件
Figure BDA0002259688170000289
XSS3,XV3,和SXY3
Figure BDA00022596881700002810
Figure BDA00022596881700002811
XSS3=XSS2-xr 2=66-32=66-9=57
Figure BDA00022596881700002812
SXY3=SXY2-xryr=66-3×2=60
用方程431和432分别计算第3轮b13和b03
Figure BDA00022596881700002813
Figure BDA0002259688170000291
Figure BDA0002259688170000292
为计算子集506减量计算简单线性回归系数时共有3个除法,9个乘法,和8个减法。
下面用减量算法2分别计算计算子集502,504,和506的简单线性回归系数。
为规模为6的计算子集502计算简单线性回归系数:
用方程435初始化第1轮
Figure BDA0002259688170000293
和方程436初始化第1轮
Figure BDA0002259688170000294
Figure BDA0002259688170000295
Figure BDA0002259688170000296
用方程437和438分别初始化第1轮SSDX1和SDXY1
Figure BDA0002259688170000297
Figure BDA0002259688170000298
用方程439和440分别计算第1轮b11和b01
Figure BDA0002259688170000299
Figure BDA00022596881700002910
为计算子集502计算简单线性回归系数时共有3个除法,13个乘法,20个加法,和19个减法。
为规模为5的计算子集504减量计算简单线性回归系数:
用方程443,444,445,和446分别减量计算第2轮的组件
Figure BDA00022596881700002911
SSDX2,和SDXY2
Figure BDA00022596881700002912
Figure BDA00022596881700002913
Figure BDA00022596881700002914
Figure BDA0002259688170000301
Figure BDA0002259688170000302
用方程447和448分别计算第2轮b12和b02
Figure BDA0002259688170000303
Figure BDA0002259688170000304
为计算子集504减量计算简单线性回归系数时共有4个除法,6个乘法,和10个减法。
为规模为4的计算子集506减量计算简单线性回归系数:
用方程443,444,445,和446分别减量计算第3轮的组件
Figure BDA0002259688170000305
SSDX3,和SDXY3
Figure BDA0002259688170000306
Figure BDA0002259688170000307
Figure BDA0002259688170000308
Figure BDA0002259688170000309
用方程447和448分别计算第3轮b13和b03
Figure BDA00022596881700003010
Figure BDA00022596881700003011
为计算子集506减量计算简单线性回归系数时共有4个除法,6个乘法,和10个减法。
下面用减量算法3分别计算计算子集502,504,和506的简单线性回归系数。
为规模为6的计算子集502计算简单线性回归系数:
用方程451初始化第1轮
Figure BDA00022596881700003012
和方程452初始化第1轮
Figure BDA00022596881700003013
Figure BDA00022596881700003014
Figure BDA00022596881700003015
用方程453和454分别初始化第1轮XSS1和SXY1
Figure BDA0002259688170000311
Figure BDA0002259688170000312
用方程455和456分别计算第1轮b11和b01
Figure BDA0002259688170000313
Figure BDA0002259688170000314
为计算子集502计算简单线性回归系数时共有3个除法,16个乘法,20个加法,和3个减法。
为规模为5的计算子集504减量计算简单线性回归系数:
用方程459,460,461,和462分别减量计算第2轮的组件
Figure BDA0002259688170000315
XSS2,和SXY2
Figure BDA0002259688170000316
Figure BDA0002259688170000317
XSS2=XSS1-xr 2=130-82=66
SXY2=SXY1-xryr=138-8×9=66
用方程463和464分别计算第2轮b12和b02
Figure BDA0002259688170000318
Figure BDA0002259688170000319
为计算子集504减量计算简单线性回归系数时共有3个除法,9个乘法,和8个减法。
为规模为4的计算子集506减量计算简单线性回归系数:
用方程459,460,461,和462分别减量计算第3轮的组件
Figure BDA00022596881700003110
XSS3,和SXY3
Figure BDA00022596881700003111
Figure BDA00022596881700003112
XSS3=XSS2-xr 2=66-32=57
SXY3=SXY2-xryr=66-3×2=60
用方程463和464分别计算第3轮b13和b03
Figure BDA0002259688170000321
Figure BDA0002259688170000322
为计算子集506减量计算简单线性回归系数时共有3个除法,9个乘法,和8个减法。
在以上三个例子中,平均值被用于减量简单线性回归系数计算。和也可被用于简单线性回归系数减量计算,只是操作数不同。
图6-1图示了n=4时,传统简单线性回归系数算法和减量简单线性回归系数算法的计算量对比。如图所示,任何一个减量算法和传统算法的除法操作,乘法操作,和减法操作都差不多,但没有使用加法操作。
图6-2图示了n=1,000,000时,传统简单线性回归系数算法和减量简单线性回归系数算法的计算量对比。如图所示,任何一个减量算法都比传统算法少很多乘法操作,加法操作和减法操作。特别需要指出的是,减量算法不仅仅是减少计算操作次数。由于其只需要访问被去除的数据元素对而不是像传统算法那样需要访问调整后计算子集中的所有数据元素,减量算法可以大量减少对存储设备的访问,而访问存储设备往往比计算更费时。减量算法把可能需要在成千上万台计算机上处理的数据只在单机上就能完成。大大提高计算效率,减少计算资源,降低计算系统能耗,使得实时预测大数据或流数据变化趋势能够高效低耗地完成及一些实时预测大数据或流数据变化趋势的场景(如边缘计算)从不可能变为可能。
本发明可以在不脱离其思想或本质特征的情况下以其它特定的方式来实现。本申请描述的实现方案从各个方面来说是仅作为示范性的而不是限制性的。因此,本发明的范围由附加的权利要求书而不是前面的描述来指明。与权利要求书中权利要求的含义和范围等价的所有变化都包含在它们的范围内。

Claims (10)

1.一种,由基于一台或多台计算设备构成的一个计算系统实现的,实时地预测时间序列或流化大数据变化趋势的方法,其特征在于:
由基于计算设备的一个计算系统,为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5)以及简单线性回归系数的多个组件,该计算子集计数器指定了该调整前计算子集包含的数据元素对的个数;
由基于计算设备的该计算系统,接收或访问要从该调整前计算子集去除的一个数据元素对;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素对;以及
相应地调整该计算子集规模计数器;
由基于计算设备的该计算系统,基于初始化过的组件,计算调整后计算子集的简单线性回归系数的多个组件,这里的计算多个组件以减量方式完成并且包括访问被去除的数据元素对而避免访问和使用调整前计算子集中大于n/2对的数据元素来减少存储器访问,降低数据访问延迟,节省计算资源,降低系统能耗,和提高计算效率;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算子集减量计算的组件,为调整后计算子集生成简单线性回归系数。
2.按照权利要求1所述的由该计算系统实现的该方法,其特征在于:所述访问一个要去除的数据元素对包括访问多个要从该调整前计算子集去除的数据元素对,该方法也进一步包括对于多个要去除的数据元素对中的每一个数据元素对分别进行调整调整前计算子集,以减量方式计算调整后计算子集的简单线性回归系数的多个组件,以及为调整后计算子集生成简单线性回归系数。
3.按照权利要求2所述的由该计算系统实现的该方法,其特征在于:所述以减量方式计算调整后计算子集的简单线性回归系数的多个组件包括直接减量计算其中的一个组件,其包括访问被去除的数据元素对,访问初始化过的该组件,以及从被访问的该组件中数学地去除被访问的数据元素对的对该组件的任何贡献。
4.按照权利要求2所述的由该计算系统实现的该方法,其特征在于:所述以减量方式计算调整后计算子集的简单线性回归系数的多个组件包括间接减量计算其中的一个组件,间接减量计算该组件包括基于该组件之外的一个或多个组件来计算该组件。
5.按照权利要求2所述的由该计算系统实现的该方法,其特征在于:所述为调整后计算子集生成简单线性回归系数当且仅当该简单线性回归系数被访问时。
6.一个计算系统,其特征在于:
一个或多个计算设备;
每个计算设备包含一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当该一个或多个计算模块被一个或多个计算设备中的至少一个计算设备执行时,实时地预测流数据或大数据变化趋势,该一个或多个计算模块被配置为:
a.为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5)以及简单线性回归系数的多个组件,该计算子集计数器指定了该调整前计算子集包含的数据元素个数对;
b.接收或访问一个要从该调整前计算子集去除的数据元素对;
c.调整该调整前计算子集,包括:
从该调整前计算子集中去除要去除的数据元素对;以及
相应地调整该计算子集规模计数器;
d.基于初始化过的组件,计算调整后计算子集的简单线性回归系数的多个组件,这里的计算多个组件以减量方式完成并且包括访问被去除的数据元素对而避免访问和使用调整前计算子集中大于n/2对的数据元素来减少存储器访问,降低数据访问延迟,节省计算资源,降低系统能耗,和提高计算效率;以及
e.基于一个或多个为该调整后计算子集减量计算的组件,为该调整后计算子集生成简单线性回归系数。
7.按照权利要求5所述的该计算系统,其特征在于:该一个或多个计算模块,当它们被该一个或多个计算设备中的至少一个计算设备执行时,多次执行b,c,d,和e。
8.按照权利要求7所述的该计算系统,其特征在于:所述d包括由该计算系统为该调整后计算子集间接减量计算简单线性回归系数的一个组件,间接减量计算该组件包括基于该组件之外的一个或多个组件来计算该组件。
9.按照权利要求7所述的该计算系统,其特征在于:执行e当且仅当调整后计算子集的简单线性回归系数被访问时。
10.一个计算系统程序产品,运行于一个包含一个或多个计算设备的计算系统,该计算系统包括一个或多个处理器以及一个或多个存储媒体,该计算系统程序产品包含多条计算设备可执行指令,当这些计算设备可执行指令被该计算系统中的至少一台计算设备运行时,使得该计算系统执行一个实时地预测流数据或大数据变化趋势的方法,其特征在于:
由该计算系统为一个数据流的或存储于该计算系统至少一个存储媒体上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5)以及简单线性回归系数的多个组件,该计算子集计数器指定了该调整前计算子集包含的数据元素个数对;
由该计算系统接收或访问一个要从该调整前计算子集去除的数据元素对;
由该计算系统调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素对;以及
相应地调整该计算子集规模计数器;
由该计算系统基于初始化过的组件,计算调整后计算子集的简单线性回归系数的多个组件,这里的计算多个组件以减量方式完成并且包括访问被去除的数据元素对而避免访问和使用调整前计算子集中大于n/2对的数据元素来减少存储器访问,降低数据访问延迟,节省计算资源,降低系统能耗,和提高计算效率;以及
由该计算系统,基于一个或多个为该调整后计算子集减量计算的组件,为该调整后计算子集生成简单线性回归系数。
CN201911066997.XA 2019-11-04 2019-11-04 一种实时预测大数据或流数据变化趋势的方法 Pending CN112784211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911066997.XA CN112784211A (zh) 2019-11-04 2019-11-04 一种实时预测大数据或流数据变化趋势的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911066997.XA CN112784211A (zh) 2019-11-04 2019-11-04 一种实时预测大数据或流数据变化趋势的方法

Publications (1)

Publication Number Publication Date
CN112784211A true CN112784211A (zh) 2021-05-11

Family

ID=75748662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911066997.XA Pending CN112784211A (zh) 2019-11-04 2019-11-04 一种实时预测大数据或流数据变化趋势的方法

Country Status (1)

Country Link
CN (1) CN112784211A (zh)

Similar Documents

Publication Publication Date Title
US9928215B1 (en) Iterative simple linear regression coefficient calculation for streamed data using components
US20180270158A1 (en) Decremental autocorrelation calculation for big data using components
KR20200029387A (ko) 캐시 최적화 및 효율적인 프로세싱을 위한 데이터 집성 방법
KR20200021946A (ko) 병렬 프로세싱을 사용한 해시 조인들의 수행
US10248690B1 (en) Decremental correlation calculation for big data or streamed data using components
US10275488B1 (en) Incremental covariance calculation for big data or streamed data using components
US10225308B1 (en) Decremental Z-score calculation for big data or streamed data using components
US10079910B1 (en) Iterative covariance calculation for streamed data using components
US10320685B1 (en) Iterative autocorrelation calculation for streamed data using components
US10394809B1 (en) Incremental variance and/or standard deviation calculation for big data or streamed data using components
US10318530B1 (en) Iterative kurtosis calculation for big data using components
CN112035521A (zh) 一种实时判断流数据自身给定延迟重复性的方法
US10162856B1 (en) Incremental correlation calculation for big data or streamed data using components
US10262031B1 (en) Decremental kurtosis calculation for big data or streamed data using components
US10282445B1 (en) Incremental kurtosis calculation for big data or streamed data using components
CN112784211A (zh) 一种实时预测大数据或流数据变化趋势的方法
US10191941B1 (en) Iterative skewness calculation for streamed data using components
CN110363321B (zh) 一种实时预测大数据变化趋势的方法
CN110362365B (zh) 一种实时预测流数据变化趋势的方法
US10339136B1 (en) Incremental skewness calculation for big data or streamed data using components
CN111858660A (zh) 一种实时判断大数据或流数据变化同向性及其程度的方法
CN111767077A (zh) 一种实时判断大数据或流数据相关程度的方法
CN110909305B (zh) 一种实时判断数据流变化同向性及其程度的方法
CN111352655A (zh) 一种实时判断大数据或流数据相关程度的方法
CN110515680B (zh) 一种实时判断大数据自身给定延迟重复性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination