CN110363321A - 一种实时预测大数据变化趋势的方法 - Google Patents
一种实时预测大数据变化趋势的方法 Download PDFInfo
- Publication number
- CN110363321A CN110363321A CN201810254480.2A CN201810254480A CN110363321A CN 110363321 A CN110363321 A CN 110363321A CN 201810254480 A CN201810254480 A CN 201810254480A CN 110363321 A CN110363321 A CN 110363321A
- Authority
- CN
- China
- Prior art keywords
- adjustment
- collection
- linear regression
- simple linear
- regression coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012417 linear regression Methods 0.000 claims abstract description 201
- 238000004364 calculation method Methods 0.000 claims abstract description 89
- 238000005265 energy consumption Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 32
- 239000012141 concentrate Substances 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 description 53
- 238000007792 addition Methods 0.000 description 16
- 238000007405 data analysis Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000011022 operating instruction Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005243 fluidization Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种通过大数据上一个变量实时预测另一个变量的变化趋势的方法,系统和计算系统程序产品。本发明的实施方案包括基于调整前计算集的简单线性回归系数的多个组件迭代计算调整后计算集的简单线性回归系数的多个组件,然后根据需要基于迭代计算的组件生成调整后计算集的简单线性回归系数。迭代计算简单线性回归系数可以基于最新数据实时更新预测结果并避免访问调整后计算集中的所有数据元素对和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗。
Description
技术领域
大数据或流数据分析。
背景技术
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。
当两个变量有强线性相关关系时,简单线性回归可基于一个独立变量(也叫解释变量或自变量)的观测数据实时预测另一个从属变量(也叫反应变量或因变量)的值,即可以基于一个变量的变化趋势预测另一个变量的变化趋势。当在大数据上做简单线性回归计算时,可能需要访问大量数据元素。
为了能够随时得到利用了最新数据的预测结果,简单线性回归系数可能会在大数据集有变化后需要重新计算。因此,一些(可能很多)数据元素会被重复访问和使用。例如,有可能简单线性回归系数在含有n对数据元素的计算集上被计算。当一对数据元素(一个独立变量数据元素和一个从属变量数据元素)从计算集里被去除和一对数据元素被加入计算集后,计算集里所有的n对数据元素被访问来重新计算简单线性回归系数。
取决于需要,计算集的规模可能非常大,例如计算集中的数据元素可能分布在云平台的成千上万台计算设备上。在一些数据变化后的大数据上用传统方法重新计算简单线性回归系数无法做到实时处理并且占用和浪费大量计算资源。
发明内容
本发明拓展到方法,系统和计算系统程序产品以迭代方式计算大数据的调整后计算集的简单线性回归系数从而可以实时预测大数据变化趋势。为一个调整后计算集迭代计算简单线性回归系数包括基于调整前计算集的简单线性回归系数的多个组件迭代计算调整后计算集的简单线性回归系数的多个组件然后根据需要基于迭代计算的组件生成调整后计算集的简单线性回归系数。迭代计算简单线性回归系数只需要访问和使用迭代计算的组件,新加入和去除的数据元素对而避免访问调整后计算集中的所有数据元素和执行重复计算从而降低数据访问延迟,提高计算效率,节省计算资源和降低计算系统能耗。
对于一个给定的简单线性回归系数迭代算法,假设在同一轮迭代计算中所有迭代计算的组件(包括计算集中每个变量的和或平均值)总数为p(p≥3)。直接迭代的组件个数为v(1≤v≤p),则间接迭代的组件个数为w=p-v(w≥0)。其中计算集中每个变量的和或平均值是必须迭代计算的特殊组件。和或平均值可以被直接或间接迭代计算。
计算系统初始化存储在一个或多个存储媒体上的一个大数据集的一个调整前计算集中简单线性回归系数的,包括每个变量的一个和或一个平均值在内的,三个以上(p,p≥3)组件。该三个以上组件的初始化包括从计算设备可读媒体上接收或访问已计算过的组件或基于调整前计算集中的数据元素根据组件的定义来计算。
计算系统访问一个要从调整前计算集中去除的数据元素对和一个要被加入到调整前计算集的数据元素对。
计算系统通过从调整前计算集中去除要去除的数据元素对和向调整前计算集加入要加入的数据元素对来调整调整前计算集。
计算系统直接迭代计算调整后计算集的简单线性回归系数的一个或多个(v,1≤v≤p)组件。直接迭代计算这v个组件包括:访问调整前计算集的v个组件;从v个组件中的每个组件中数学地去除被去除的数据元素对的贡献;以及向v个组件中的每个组件数学地加入被加入的数据元素对的贡献而避免访问和使用调整后计算集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗和提高计算效率。
计算系统根据需要间接迭代计算调整后计算集的简单线性回归系数的w=p-v个组件。间接迭代计算w个组件包括一个一个地间接迭代计算w个组件中的每一个组件。间接迭代计算一个组件包括:访问并使用除该组件之外的一个或多个组件来计算该组件。这一个或多个组件可能是经过初始化的,直接迭代计算的或间接迭代计算的。
计算系统至少基于一个或多个迭代计算的调整后计算集的简单线性回归系数的组件生成调整后计算集的简单线性回归系数。
计算系统可以持续地访问一个要去除的数据元素对和一个要加入的数据元素对,调整调整前计算集,直接迭代计算v(1≤v≤p)个组件,根据需要间接迭代计算w=p-v个组件和生成简单线性回归系数。计算系统可以根据需要多次重复这个过程。
本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。
本发明的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本发明的实践中学到。本发明的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本发明的这些和其它特征将在下面的描述和附加的权利要求书或本发明的实践中变得更加全面和清晰。
附图说明
为描述能够获得本发明的上述的和其它的优点和特点的方式,上面简述的本发明的一个更具体的描述将通过参照下列附加的图表中所显示的特定的实施方案来展现出来。这些图表只是描述了本发明的典型实施方案,因此它们不应被理解或解释为对本发明的范围的限制:
图1图示了一个支持迭代计算简单线性回归系数的例子计算系统的高层概括。
图1-1图示了一个为大数据迭代计算简单线性回归系数的支持两个数据集并且所有组件都是直接迭代计算的计算系统架构的例子。
图1-2图示了一个为大数据迭代计算简单线性回归系数,支持两个数据集并且部分组件直接迭代计算,部分组件间接迭代计算的计算系统架构的例子。
图1-3图示了一个为大数据迭代计算简单线性回归系数,支持由两个变量的数据元素交叉组成的单输入数据集并且所有组件都是直接迭代计算的计算系统架构的例子。
图1-4图示了一个为大数据迭代计算简单线性回归系数,支持由两个变量的数据元素交叉组成的单输入数据集,并且部分组件直接迭代计算,部分组件间接迭代计算的计算系统架构的例子。
图2图示了一个为大数据迭代计算简单线性回归系数的方法流程图的例子。
图3图示了在大数据上为迭代计算简单线性回归系数访问的数据元素对。
图4-1图示了简单线性回归系数的定义以及计算集上计算简单线性回归系数的传统方程。
图4-2显示了第一个简单线性回归系数迭代计算算法(迭代算法1)。
图4-3显示了第二个简单线性回归系数迭代计算算法(迭代算法2)。
图4-4显示了第三个简单线性回归系数迭代计算算法(迭代算法3)。
图5-1显示了用于一个计算实例的第一个计算集。
图5-2显示了用于一个计算实例的第二个计算集。
图5-3显示了用于一个计算实例的第三个计算集。
图6-1图示了计算集大小为4时,传统简单线性回归系数算法和迭代简单线性回归系数算法的计算工作量。
图6-2图示了计算集大小为1,000,000时,传统简单线性回归系数算法和迭代简单线性回归系数算法的计算工作量。
具体实施方法
本发明拓展到通过迭代计算规模为n(n>1)的调整后计算集的简单线性回归系数的三个以上组件来迭代地计算大数据上的简单线性回归系数从而可以根据一个独立变量(也叫解释变量或自变量)的观测数据实时预测另一个从属变量(也叫反应变量或因变量)的变化趋势的方法,系统和计算系统程序产品。一个计算系统包含一个或多个基于处理器的计算设备。每个计算设备包含一个或多个处理器。该计算系统包含一个或多个存储媒体。该一个或多个存储媒体中的至少一个上有一个数据集。来自该数据集的,涉及到简单线性回归系数计算的多个数据元素组成一个调整前的计算集。计算集规模n(n>1)指明数据集的一个计算集中的数据元素对个数。本发明的实施方案包括基于调整前计算集的简单线性回归系数的多个组件迭代计算调整后计算集的简单线性回归系数的多个组件,然后根据需要基于迭代计算的组件生成调整后计算集的简单线性回归系数。迭代计算简单线性回归系数避免访问调整后计算集中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗。
在本文中,一个计算集是包含做简单线性回归系数计算的数据元素的数据集。一个计算集类似于一个在流数据或时间序列数据上计算简单线性回归系数的移动窗口。在本发明的实施方案的描述里,计算集和计算窗口的区别是计算窗口里的数据元素有顺序但计算集里的没有。
实时流数据处理和流化的大数据处理的区别是当处理流化的大数据时,所有历史数据都可以被访问,所以不需要额外用缓冲区存储新接收的数据元素。
简单线性回归计算需要来自两个变量的观察数据。它们应该成对出现。所以来自两个变量的观察数据被组成数据元素对加入到一个计算集合里。当从一个计算集合里去除一个数据元素对时,该数据元素对可以是任意一个数据元素对而不一定必须是最早加入该计算集合的数据元素对。两个变量的数据可以分别输入和存储或以相互交错的方式结合在一起输入和存储。前一种情况会有两个大数据集或输入数据流,其每个大数据集或数据流包含一个变量的数据元素,可以用两个数据缓冲区分别存储其中一个变量的数据元素。后一种情况会有一个大数据集或输入数据流其中的每对数据元素包含两个变量的各一个数据元素。
在本文中,简单线性回归系数的一个组件是出现在简单线性回归系数定义公式中或其定义公式的任何转换中的一个量或表达式。简单线性回归系数是它自己最大的组件。简单线性回归系数可基于一个或多个组件或它们的组合被计算,所以多个算法支持迭代简单线性回归系数计算。以下是一些简单线性回归系数的组件的例子。两个回归系数中的任一个可容易地根据另一个系数算出。
一个组件可以被直接迭代计算或间接迭代计算。它们的区别是当一个组件被直接迭代计算时该组件是通过该组件在前一轮计算的值来计算的,而当该组件被间接迭代计算时该组件是用该组件之外的其它组件计算的。
对于一个给定的组件,它也许在一个算法中被直接迭代计算但在另一个算法中被间接迭代计算。
计算集中每个变量的和或平均值是必须迭代计算的特殊组件。对于任意一个算法,至少会有三个组件被迭代计算,其中两个组件是每个变量的和或平均值,它们可以被直接或间接迭代计算,三个组件中的另一个组件可被直接迭代计算。对于一个给定的算法,假设在同一轮迭代计算中迭代计算的不同组件的总数是p(p≥3),如果直接迭代计算的组件个数是v(1≤v≤p),那么间接迭代计算的组件的个数是w=p-v(0≤w<p)。可能这些组件都被直接迭代计算(这种情况下v=p>1并且w=0)。但是,无论简单线性回归系数的结果是否在一个特定的轮次被需要和访问,直接迭代计算的组件都必须被计算。
对于一个给定算法,如果一个组件被直接迭代计算,则该组件必须被计算(即每当一个已有的数据元素对被从调整前计算集中去除和每当一个数据元素对被加入到调整前计算集中时)。但是,如果一个组件被间接迭代计算,则该组件可以通过使用该组件之外的其它一个或多个组件来根据需要,即只有当简单线性回归系数需要被计算和访问时,被计算。这样,当简单线性回归系数在某一个迭代计算轮次不被访问时,可以只有少量的组件需要被迭代地计算。一个间接迭代计算的组件也许会被用于下一轮另一个组件的间接迭代计算,在这种情况下,该间接迭代计算的组件的计算不可省略。
简单线性回归系数可以根据需要被计算。当简单线性回归系数在每次计算集有变化而不需要被访问时,计算系统只需要为每次数据变化迭代计算每个变量的和或平均值以及除了每个变量的和或平均值之外的一个或多个组件。迭代计算这些组件避免了访问之前的所有输入和做重复计算因此提高计算效率。简单线性回归系数可以在需要被访问时由计算系统基于迭代计算的组件来生成。
本发明的实施方案包括基于为调整前计算集计算的多个组件迭代计算调整后的计算集的简单线性回归系数的多个组件。
计算系统初始化一个给定规模n(n>1)的调整前计算集中每个变量的一个和或一个平均值或一个和及一个平均值,以及简单线性回归系数的一个或多个(共p个,(p≥3))组件。该三个以上组件的初始化包括从一个或多个计算设备可读媒体上访问或接收已经计算过的组件或根据其定义基于该调整前计算集中的数据元素来计算。
计算系统访问一个要从该调整前计算集中去除的数据元素对和一个要被加入到该调整前计算集中的数据元素对。
计算系统调整调整前计算集通过:从该调整前计算集中去除要被去除的数据元素对和向该调整前计算集中加入要被加入的数据元素对。
计算系统为调整后计算集直接迭代计算简单线性回归系数的除和及平均值之外的一个或多个v(1≤v≤p)组件。直接迭代计算v(1≤v≤p)个组件包括:访问为调整前计算集计算的v个组件;从访问的每个组件中数学地去除被去除的数据元素对的任何贡献;及向访问的每个组件数学地加入被加入的数据元素对的任何贡献而避免访问和使用调整后计算集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗和提高计算效率。
计算系统根据需要为调整后计算集间接迭代计算简单线性回归系数的w=p-v个组件。间接迭代计算简单线性回归系数的w个组件包括一个一个分别间接地迭代计算w个组件中的每一个。间接迭代计算一个组件包括:访问该组件之外的一个或多个组件并基于访问的组件计算该组件。这些一个或多个组件可以是被初始化过的,直接迭代计算过的或间接迭代计算过的。
计算系统根据需要,至少基于为调整后计算集迭代计算的简单线性回归系数的一个或多个组件,为调整后计算集生成简单线性回归系数。
计算系统可以持续访问要从调整前计算集中去除的数据元素对和要加入到调整前计算集的数据元素对,调整调整前计算集,直接迭代计算一个或多个v(1≤v≤p)组件,根据需要间接迭代计算w=p-v个组件,根据需要基于一个或多个迭代计算的组件生成简单线性回归系数,并根据需要重复这个过程。
本发明的实施方案可以包括或利用包含计算设备硬件,例如一个或多个处理器和以下更详细描述的存储设备,专用的或通用的计算设备。本发明实施方案的范围也包括物理的及其它用于携带或存储计算设备可运行指令和/或数据结构的计算设备可读媒体。这些计算设备可读媒体可以是通用或专用计算设备可访问的任何媒体。存储计算设备可运行指令的计算设备可读媒体是存储媒体(设备)。携带计算设备可运行指令的计算设备可读媒体是传输媒体。因此,以举例而非限制的方式,本发明的实施方案可以包括至少两种不同类型的计算设备可读媒体:存储媒体(设备)和传输媒体。
存储媒体(设备)包括随机存取存储器(RAM),只读存储器(ROM),电可擦除可编程只读存储器(EEPROM),只读光盘存储器(CD-ROM),固态硬盘(SSD),闪存(Flash Memory),相变存储器(PCM),其它类型存储器,其它光学磁盘存储,磁盘存储器或其它磁性存储设备,或任何其它能用于存储所需要的以计算设备可运行指令或数据结构形式构成的程序代码并且其可以被通用或专用计算设备访问的媒体。
一个“网络”被定义为使计算设备和/或模块和/或其它电子设备能够传输电子数据的一个或多个数据链接。当信息被网络或另外的通讯连接(有线,无线,或有线和无线的组合)传输或提供给计算设备时,计算设备把连接视为传输媒体。传输媒体可包括用于携带所需要的以计算设备可运行指令或数据结构形式构成的程序代码,并且其可以被通用或专用计算设备访问的一个网络和/或数据链接。以上的组合也应包括在计算设备可读媒体的范围之内。
此外,在应用不同计算设备组件时,计算设备可运行指令或数据结构形式的程序代码可以从传输媒体自动传输到存储媒体(设备)(或反过来)。例如,从网络或数据链接上接收的计算设备可运行指令或数据结构可以被暂存进网络接口模块(例如,NIC)中的随机存取存储器中,然后最终传输到计算设备的随机存取存储器和/或到计算设备的一个较小易变的存储媒体(设备)。所以,应当理解存储媒体(设备)可以被包括在也(或甚至主要)应用传输媒体的计算设备组件里。
计算设备可运行指令包括,例如,指令和数据,当被处理器运行时,使得通用计算设备或专用计算设备去执行一个特定功能或一组功能。计算设备可运行指令可以是,例如,二进制,中间格式指令例如汇编代码,或甚至源代码。虽然描述的客体是用结构特征和/或方法动作的具体语言描述的,应当理解在附加的权利要求书中定义的客体不一定局限于以上描述的特征或动作。而是,描述的特征或动作仅是以实现权利要求的例子形式而公开的。
本发明的实施方案可以在由多种类型的计算设备配置的网络计算环境中实现,这些计算设备包括个人电脑,台式机,笔记本电脑,信息处理器,手持设备,多处理系统,基于微处理器或可编程的电子消费品,网络电脑,小型计算机,主计算机,超级计算机,移动电话,掌上电脑,平板电脑,呼机,路由器,交换机及类似产品。本发明的实施方案也可以应用于通过网络互联(即可通过有线数据链接,无线数据链接,也可以是有线数据链接与无线数据链接的结合)的执行任务的本地或远程计算设备构成的分布式系统环境。在分布式系统环境中,程序模块可以被存储在本地或远程存储设备上。
本发明的实施方案也可以在云计算环境里实现。在本描述及后续的权利要求书中,“云计算”被定义为一个使得能够按需通过网络访问到可配置计算资源的共享池的模型。例如,云计算可以被市场利用去提供普及和方便的按需访问可配置计算资源的共享池。可配置计算资源的共享池可以通过虚拟化很快预备并且以低管理开销或低服务提供商互动来提供,然后做相应的调整。
云计算模型可以包括各种特征例如,按需自服务,宽带网络访问,资源收集,快速收放,计量服务等等。云计算模型也可以各种服务模式来体现,例如,软件做为服务(“SaaS”),平台做为服务(“PaaS”),以及设施做为服务(“IaaS”)。云计算模型也可以通过不同的部署模型例如私有云,社区云,公共云,混合云等等来部署。
下面的章节中会给出几个例子。
图1图示了为大数据迭代计算简单线性回归系数的一个例子计算系统100的高层概述。参考图1,计算系统100包括由不同网络,例如局域网1021,无线网1022和互联网1023等等,连接的多个设备。多个设备包括,例如,数据分析引擎1007,存储系统1011,实时数据流1006,以及可以安排数据分析任务和/或查询数据分析结果的多台分布的计算设备,例如个人电脑1016,手持设备1017和台式机1018等等。
数据分析引擎1007可以包括一个或多个处理器,例如CPU 1009和CPU1010,一个或多个系统内存,例如系统内存1008,及组件计算模块131和简单线性回归系数计算模块191。模块131的细节会在其它图表中更详细地图示(例如,图1-1和图1-2)。存储系统1011可以包括一个或多个存储媒体,例如存储媒体1012和存储媒体1014,其可以用于存放大数据集。例如,1012和或1014可以包括数据集123X和123Y。存储系统1011里的数据集可以被数据分析引擎1007访问。
通常,数据流1006可以包括来自不同数据源的流数据,例如,股价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,和/或闭合字幕数据等。这里举例描绘了几个,实时数据1000可以包括从感应器1001,股票1002,通讯1003和银行1004等等实时收集的数据。数据分析引擎1007可以接收来自数据流1006的数据元素。来自不同数据源的数据可以被存储在存储系统1011并且为大数据分析所访问,例如数据集123X和123Y可以来自不同的数据源并且为大数据分析所访问。
请理解图1是以非常简化的形式介绍一些概念,例如,分布设备1016和1017可能经过防火墙才联到数据分析引擎1007,数据分析引擎1007从数据流1006和/或存储系统1011访问或接收的数据可能经过数据过滤器筛选,等等。
图1-1图示了为有两个输入的大数据集迭代计算简单线性回归系数,其所有(v=p≥3)组件被直接迭代计算,的例子计算系统架构100A。关于计算系统架构100A,这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些部件如何协作共同完成迭代简单线性回归系数计算的过程将在后面结合图2中描述的流程图一起介绍。图1-1图示了图1显示的1006和1007。参考图1-1,计算系统架构100A包括组件计算模块131和简单线性回归系数计算模块191。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络,如局域网,广域网,甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计算设备和它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协议(“IP”)数据报和其它使用IP数据报的高层协议,例如,用户数据报协议(“UDP”),实时流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器(“MMS”),传输控制协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议(“SMTP”),等等)。组件计算模块131的输出会被作为简单线性回归系数计算模块191的输入,简单线性回归系数计算模块191可以生成简单线性回归系数b1 192和b0193。
如图所示,有两个存储媒介121X和121Y。存储媒介121X包含数据集123X。数据集123X包含存在存储媒介121X上多个位置的多个数据元素。例如,数据元素101X存在位置121XA,数据元素102X存在位置121XB,数据元素103X存在位置121XC,数据元素104X存在位置121XD,数据元素105X存在位置121XE,数据元素106X存在位置121XF,等等。还有多个数据元素存在其它位置。存储媒介121Y包含数据集123Y。数据集123Y包含存在存储媒介121Y上多个位置的多个数据元素。例如,数据元素101Y存在位置121YA,数据元素102Y存在位置121YB,数据元素103Y存在位置121YC,数据元素104Y存在位置121YD,数据元素105Y存在位置121YE,数据元素106Y存在位置121YF,等等。还有多个数据元素存在其它位置。
参考计算系统架构100A,通常组件计算模块131包含为直接迭代计算调整后计算集的一组n个数据元素对的v(v=p>1)个组件的v个组件计算模块。v是迭代计算简单线性回归系数的给定算法中直接迭代计算的组件的个数,它随着使用的迭代算法不同而不同。如图1-1中所示,组件计算模块131包含一个组件Cd1计算模块161和一个组件Cdv计算模块162,它们之间还有v-2个其它组件计算模块,它们可以是组件Cd2计算模块,组件Cd3计算模块,……,以及组件Cdv-1计算模块。每个组件计算模块计算特定的组件。每个组件计算模块包含一个为第一个调整前计算集初始化一个组件的初始化模块和一个为调整后计算集直接迭代计算该组件的算法。例如,组件Cd1计算模块161包含初始化模块132来初始化组件Cd1和迭代算法133来迭代计算组件Cd1,组件Cdv计算模块162包含初始化模块138来初始化组件Cdv和迭代算法139来迭代计算组件Cdv。
初始化模块132可以在初始化组件Cd1时使用或在简单线性回归系数计算被重置时使用。同样,初始化模块138可以在初始化组件Cdv时使用或在简单线性回归系数计算被重置时使用。
参考图1-1,计算系统架构100A还包括简单线性回归系数计算模块191。简单线性回归系数计算模块191可根据需要基于一个或多个迭代计算的组件计算简单线性回归系数。
图1-2图示了为有两个输入的大数据集迭代计算简单线性回归系数并且部分(v(1≤v<p,p≥3)个)组件直接迭代计算,部分(w=p-v)组件间接迭代计算的一个例子计算系统架构100B。在一些实现中,计算系统架构100B和100A之间的区别是架构100B包括组件计算模块135。除此之外,和100A有同样标记号的部分都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部分会在这里讨论。100B里面的数字v和100A里面的数字v可能不同,因为有些100A里被直接迭代计算的组件会在100B里被间接迭代计算。在100A中,v=p≥3,但在100B中,1≤v<p。参考图1-2,计算系统架构100B包括组件计算模块135。组件计算模块131的输出可以作为组件计算模块135的输入,计算模块131和135的输出可以作为简单线性回归系数计算模块191的输入,简单线性回归系数计算模块191可以生成简单线性回归系数b1192和b0 193。组件计算模块135通常包括w=p-v个组件计算模块来间接迭代计算w个组件。例如,组件计算模块135包括组件计算模块163用于间接迭代计算组件Ci1,组件计算模块164用于间接迭代计算组件Ciw,以及它们之间的其它w-2个组件计算模块。间接迭代计算w个组件包括一个一个地间接迭代计算w个组件的每一个。间接迭代计算一个组件包括访问和使用除该组件本身之外的一个或多个组件。那一个或多个组件可以是被初始化,直接迭代计算或间接迭代计算过的。
图1-3图示了为大数据迭代计算简单线性回归系数并且支持由两个变量的数据元素交叉组成的单输入数据集并且所有(v=p≥3)个组件被直接迭代计算的计算系统架构100C例子。计算系统架构100C和计算系统架构100A之间的区别是架构100C用由两个变量的数据元素交叉组成的一个单输入数据集并且100C用一个存储媒介为存储数据元素。除了100C的输入模式以外,和100A有一样参考数的部分都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部分会在这里讨论。图1-3中有一个存储媒介121。存储媒介121包括数据集123XY,其中来自数据集X和数据集Y的数据元素是交叉的。随着数据元素对被访问,数据元素可以从挨着的位置被访问。例如,数据元素对(101x,101y),(102x,102y),(103x,103y)和(104x,104y)可以分别从位置(121XA,121YA),(121XB,121YB),(121XC,121YC)和(121XD,121YD)访问。调整前计算集122XY包含4个数据元素对:(101x,101y),(102x,102y),(103x,103y)和(104x,104y)。计算系统可以用调整前计算集122XY中的数据元素初始化简单线性回归系数的一个或多个组件。
参考图1-3,计算系统架构100C也包括简单线性回归系数计算模块191。当所有p(p=v≥3)个简单线性回归系数组件被组件计算模块131迭代计算过后,191可以根据需要,用一个或多个迭代计算过或初始化的组件计算简单线性回归系数b1 192和b0 193。
图1-4图示了一个为大数据迭代计算简单线性回归系数并且支持由两个变量的数据元素交叉组成的单输入数据集并且部分(v(1≤v<p,p≥3))组件直迭代计算,部分(w(w=p-v))组件间接迭代计算的计算系统架构100D例子。在一些实现中,计算系统架构100D和100C之间的区别是架构100D包括组件计算模块135。除了100D里的组件计算模块135以外,和100A和100C有同样标记号的部分都按同样的方式工作。为了不重复分别在100A和100C描述里面解释过的东西,只有不同的部分会在这里讨论。100D里面的数字v和100C里面的数字v可能不同,因为有些100C里被直接迭代计算的组件会在100D里被间接迭代计算。在100C中,v=p≥1,但在100D中,1≤v<p。参考图1-4,计算系统架构100D包括组件计算模块135。组件计算模块135通常包括w=p-v个组件计算模块为了间接迭代计算w个组件。间接迭代计算w个组件包括一个一个地间接迭代计算w个组件的每一个。间接迭代计算一个组件包括访问和使用除它自己之外的一个或多个组件。这一个或多个组件可以是被初始化,直接迭代计算或间接迭代计算过的。
通常,存储媒介121,121X或121Y可以是一个本地的存储媒介,也可以是存储管理系统管理的包含多个物理上分布的存储设备的复杂存储系统。
通常,数据集123X,123Y或123XY可以包含不同的数据,例如,股价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,和/或闭合字幕数据,等等。
图2图示了为大数据迭代计算简单线性回归系数的一个例子方法200的流程图。方法200会分别结合计算系统架构100A,100B,100C,和100D的组件和数据一起描述。
为指定规模为n(n>1)的调整前计算集初始化简单线性回归系数的p(p≥3)个组件(201)。例如,在计算系统架构100A,100B,100C和100D中,初始化模块132可以用贡献151(数据元素对(101x,101y)的贡献),贡献152(数据元素对(102x,102y)的贡献)和贡献153(其它数据元素对(103x,103y),(104x,104y)……的贡献)的值初始化组件Cd1 141。同样,初始化模块138可以访问组件Cdv的初始值并且用贡献181(数据元素对(101x,101y)的贡献),贡献182(数据元素对(102x,102y)的贡献)和贡献183(其它数据元素对(103x,103y),(104x,104y)……的贡献)的值初始化组件Cdv 145。
方法200包括访问要从调整前计算集去除的数据元素对和要加入到调整前计算集的数据元素对(202)。例如,要从调整前计算集去除的数据元素对(101X,101Y)和要加入到调整前计算集的数据元素对(105X,105Y)可以在访问数据元素对(102X,102Y),(103X,103Y)和(104X,104Y)之后被访问。
方法200包括调整调整前计算集(203)。调整调整前计算集包括从调整前计算集去除要去除的数据元素对(204)和加入要加入的数据元素对到调整前计算集(205)。例如,数据元素对(101X,101Y)从调整前计算集122XY去除,数据元素对(105X,105Y)被加入到调整前计算集122XY后,调整前计算集122XY会变成调整后的计算集122XYA。
方法200包括基于调整前计算集的v(1≤v≤p)个组件为调整后计算集直接迭代计算简单线性回归系数的v个组件(206),包括:访问简单线性回归系数的v个组件中的每个组件(207);从每个访问的组件中数学地去除从调整前计算集中被去除的数据元素对的任何贡献(208);及对访问的每一个组件数学地加入被加入到调整前计算集中的数据元素对的任何贡献(209)。细节描述如下。
为调整后计算集直接迭代计算简单线性回归系数的v个组件包括访问调整前计算集的简单线性回归系数的v个组件中的每个组件(207)。例如,迭代算法133可访问组件Cd1141,迭代算法139可访问组件Cdv 145。
直接迭代计算调整后的计算集的简单线性回归系数的v个组件包括数学地从v个组件中的每一个去除被去除的数据元素对的任何贡献(208)。例如,直接迭代计算组件Cd1143可以包括贡献去除模块133A数学地从组件Cd1 141去除贡献151(数据元素对(101X,101Y)的贡献),直接迭代计算组件Cdv 147可以包括贡献去除模块139A数学地从组件Cdv145去除贡献181(数据元素对(101X,101Y)的贡献)。
直接迭代计算调整后的计算集的简单线性回归系数的v个组件包括数学地增加被加入的数据元素对的贡献到v个组件的每一个(209)。例如,直接迭代计算组件Cd1 143可以包括贡献增加模块133B数学地增加贡献154到组件Cd1 141,直接迭代计算组件Cdv 147可以包括贡献增加模块139B数学地增加贡献184到组件Cdv 145。贡献154和184都是来自数据元素对(105x,105y)的贡献。
如图1-1,1-2,1-3和1-4所示,组件Cd1 143包括贡献152(数据元素对(102X,102Y)的贡献),其它贡献153(数据元素对(103X,103Y)和(104X,104Y)的贡献),和贡献154(数据元素对(105X,105Y)的贡献)。同样,组件Cdv 147包括贡献182(数据元素对(102X,102Y)的贡献),其它贡献183(数据元素对(103X,103Y)和(104X,104Y)的贡献),和贡献184(数据元素对(105X,105Y)的贡献)。
简单线性回归系数可以根据需要被计算,即,只需要被访问时计算,但是每当一个存在的数据元素对被去除和一个数据元素对被增加到调整前计算集时,v个组件必须被计算。
当简单线性回归系数被访问并且v<p(即,不是所有组件都被直接迭代计算)时,方法200包括根据需要间接迭代计算w=p-v个组件(210)。这w个组件只有当简单线性回归系数被访问时才会计算。例如,参考图1-2和1-4其部分组件直接迭代计算,部分组件间接迭代计算,计算模块163可以基于组件Ci1之外的一个或多个组件来间接迭代计算组件Ci1,计算模块164可以基于组件Ciw之外的一个或多个组件来间接迭代计算组件Ciw。这一个或多个组件可以是初始化,直接迭代计算,或间接迭代计算过的。
方法200包括用一个或多个初始化或迭代计算过的组件根据需要计算简单线性回归系数(211)。例如,参考图1-1和图1-3,简单线性回归系数计算模块191可以基于组件Cd1143到组件Cdv 147范围内的一个或多个组件计算简单线性回归系数b1 192和b0 193。
202-209可以随着更多数据元素对的访问被重复。210-211可以根据需要被重复。例如,计算完组件Cd1 143到组件Cdv 147范围内的组件之后,数据元素对(102X,102Y)和数据元素对(106X,106Y)可以被访问(202)。(102X,102Y)可以分别从位置121XB和121YB访问。(106X,106Y)可以分别从位置121XF和121YF访问。每当开始下一轮迭代时,原来的调整后计算集就变成了新一轮计算的调整前计算集。通过去除要被去除的数据元素对(102X,102Y)(204)和加入要被加入的数据元素对(106X,106Y)(205),原来调整后的计算集122XYA(即新一轮计算的调整前计算集)可以变成新一轮调整后的计算集122XYB(203)。
迭代算法133可以用组件Cd1 143(调整后的计算集122XYA的)直接迭代计算组件Cd1 144(调整后的计算集122XYB的)(206)。迭代算法133可以访问组件Cd1 143(207)。直接迭代计算组件Cd1 144可以包括贡献去除模块133A从组件Cd1 143数学地去除贡献152(即,去除的数据元素对(102X,102Y)的贡献)(208)。直接迭代计算组件Cd1 144可以包括贡献增加模块133B数学地增加贡献155(即,增加的数据元素对(106X,106Y)的贡献)到组件Cd1143上(209)。同样,迭代算法139可以用组件Cdv 147(调整后的计算集122XYA的)直接迭代计算组件Cdv 148(调整后的计算集122XYB的)(206)。迭代算法139可以访问组件Cdv 147(207)。直接迭代计算组件Cdv 148可以包括贡献去除模块139A从组件Cdv 147数学地去除贡献182(即,去除的数据元素对(102X,102Y)的贡献)(208)。直接迭代计算组件Cdv 148可以包括贡献增加模块139B数学地增加贡献185(即,增加的数据元素对(106X,106Y)的贡献)到组件Cdv 147上(209)。
如图1-1,1-2,1-3和1-4所示,组件Cd1 144包括其它贡献153(数据元素对(103X,103Y)和(104X,104Y)的贡献),贡献154(数据元素对(105X,105Y)的贡献),和贡献155(数据元素对(106X,106Y)的贡献)。同样,组件Cdv 148包括其它贡献183(数据元素对(103X,103Y)和(104X,104Y)的贡献),贡献184(数据元素对(105X,105Y)的贡献)和贡献185(数据元素对(106X,106Y)的贡献)。
方法200包括,根据需要即只有简单线性回归系数被访问时,间接迭代计算w个组件和简单线性回归系数。如果简单线性回归系数不被访问,方法200包括继续为下一个计算集访问下一个要去除的数据元素对和下一个要加入的数据元素对(202)。如果简单线性回归系数被访问,方法200包括间接迭代计算w个组件(210),基于一个或多个迭代计算的组件计算简单线性回归系数(211)。
当下一个要去除的数据元素对和要加入的数据元素对被访问,组件Cd1144可被用来直接迭代计算下一个组件Cd1,组件Cdv 148可被用来直接迭代计算下一个组件Cdv。
图3图示在大数据上迭代计算简单线性回归系数的计算集300访问的数据元素。计算集和计算窗口的区别是计算集上的数据元素对没有顺序(例如,存在的数据元素对可以从计算集的任何位置被去除并且数据元素对可以加入计算集的任何位置)。例如,参考图3,访问的数据元素对可以从计算集300的任何位置(“r”标识的)被去除并且一个数据元素对可以增加到计算集300的任何位置(“a”标识的)。对于计算集300,最开始的n个数据元素对会被访问来计算(初始化)第一个调整前计算集的一个或多个组件,然后根据需要计算简单回归系数。随着时间的推移,一个要从调整前计算集去除的数据元素对(xr,yr)和一个要加入计算集的数据元素对(xa,ya)会被访问来直接迭代计算调整后的计算集的简单线性回归系数的v个组件和间接迭代计算w=p-v个组件。这些迭代计算得出的组件中的一个或多个会被用来计算简单线性回归系数。这v个组件可以通过从调整前计算集去除的数据元素对,加入的数据元素对和调整前计算集的v个组件被直接迭代计算,而不需要访问计算集300里的其它数据元素。对于一个给定的迭代算法,v是个常量,所以直接迭代计算v个组件的操作数也是个常量,间接迭代计算w=p-v个组件的操作数也是个常量。所以,第一个调整前计算集的一个或多个组件被计算后,计算一个给定的大小为n的调整后计算集的所有p个组件的计算工作量被降低并保持为常数。n越大,计算量的降低越突出。
以下的部分有一些简单线性回归系数的组件的例子和迭代简单线性回归系数计算算法的例子。
图4-1图示简单线性回归系数的定义。假设调整前计算集XY={(xi,yi)|i=1,…,n}包含参与简单线性回归系数计算的数据元素,数据元素x1,x2,x3,x4,……,xn是来自于预测变量X的观察数据,数据元素y1,y2,y3,y4,……,yn是来自于响应变量Y的观察数据,并且假设简单线性回归系数需要被计算。假设过段时间数据元素对(xr,yr)要从调整前计算集XY去除并且数据元素对(xa,ya)要加入调整前计算集XY。每当简单线性回归系数的任何组件由于数据集中数据元素的变化而需要被重新计算时,开始新一轮的迭代计算。在新一轮的迭代计算里,原来的调整后计算集变成新一轮计算的调整前计算集。
方程401和402分别是简单线性回归系数b1和b0的定义方程。方程403和405是分别为第k轮计算调整前计算集XY里变量X的所有数据元素的总和XSk和平均值的传统方程。方程404和406是分别为第k轮计算XY里变量Y的所有数据元素的总和YSk和平均值的传统方程。方程407和408是分别为第k轮计算XY的简单线性回归系数b1k和b0k的传统方程。方程409和411是分别为第k+1轮计算调整后计算集XY′里变量X的所有数据元素的总和XSk+1和平均值的传统方程。方程410和412是分别为第k+1轮计算调整后计算集XY′里变量Y的所有数据元素的总和YSk+1和平均值的传统方程。方程413和414是分别为第k+1轮计算调整后计算集XY′的简单线性回归系数b1k+1和b0k+1的传统方程。
为展示如何利用组件迭代计算简单线性回归系数,三个不同的迭代简单线性回归系数算法被提供作为例子。
图4-2说明第一个例子迭代简单线性回归系数计算算法(迭代算法1)可用到的方程。方程415和417可分别被用来初始化调整前计算集XY里变量X的所有数据元素的XSk和/或方程416和418可分别被用来初始化XY里变量Y的所有数据元素的YSk和/或方程419,420,421可以分别被用来初始化组件XSSk,XVk,和SXYk。根据需要方程422可以基于初始化的组件计算简单线性回归系数b1k。根据需要方程423可以基于b1k计算简单线性回归系数b0k。假设过段时间数据元素对(xr,yr)要从调整前计算集XY去除并且数据元素对(xa,ya)要加入调整前计算集XY。基于组件XSk和/或方程424和426可分别被用来迭代计算调整后计算集XY′里变量X的XSk+1和/或基于组件YSk和/或方程425和427可分别被用来迭代计算XY′里变量Y的YSk+1和/或基于组件XSSk,方程428可以迭代计算XY′的组件XSSk+1。基于组件XSSk+1,方程429可以计算XY′的组件XVk+1。基于组件SXYk,方程430可以迭代计算XY′的组件SXYk+1。基于迭代计算的组件,方程431可以迭代计算调整后计算集XY′的简单线性回归系数b1k+1。基于b1k+1,方程432可以迭代计算调整后计算集XY′的简单线性回归系数b0k+1。420,422,423,429,431和432分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-3说明第二个例子迭代简单线性回归系数计算算法(迭代算法2)可用到的方程。方程433和435可分别被用来初始化调整前计算集XY里变量X的所有数据元素的XSk和/或方程434和436可分别被用来初始化XY里变量Y的所有数据元素的YSk和/或方程437和438可以分别被用来初始化组件SSDXk和SDXYk。根据需要方程439可以基于SSDXk和SDXYk计算简单线性回归系数b1k。根据需要方程440可以基于b1k计算简单线性回归系数b0k。假设过段时间数据元素对(xr,yr)要从调整前计算集XY去除并且数据元素对(xa,ya)要加入调整前计算集计算集XY。基于组件XSk和/或方程441和443可分别被用来迭代计算调整后计算集XY′里变量X的XSk+1和/或基于组件YSk和/或方程442和444可分别被用来迭代计算XY′里变量Y的YSk+1和/或基于组件SSDXk,方程445可以迭代计算XY′的组件SSDXk+1。基于组件SSDYk,方程446可以迭代计算XY′的组件SDXYk+1。基于SSDXk+1和SDXYk+1,方程447可以迭代计算调整后计算集XY′的简单线性回归系数b1k+1。基于b1k+1,方程448可以迭代计算调整后计算集XY′的简单线性回归系数b0k+1。440,445,446和448分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
图4-4说明第三个例子迭代简单线性回归系数计算算法(迭代算法3)可用到的方程。方程449和451可分别被用来初始化调整前计算集XY里变量X的所有数据元素的XSk和/或方程450和452可分别被用来初始化XY里变量Y的所有数据元素的YSk和/或方程453和454可以分别被用来初始化组件XSSk和SXYk。根据需要方程455可以基于初始化的组件计算简单线性回归系数b1k。根据需要方程456可以基于b1k计算简单线性回归系数b0k。假设过段时间数据元素对(xr,yr)要从调整前计算集XY去除并且数据元素对(xa,ya)要加入调整前计算集XY。基于组件XSk和/或方程457和459可分别被用来迭代计算调整后计算集XY′里变量X的XSk+1和/或基于组件YSk和/或方程458和460可分别被用来迭代计算XY′里变量Y的YSk+1和/或基于组件XSSk,方程461可以迭代计算XY′的组件XSSk+1。基于组件SXYk,方程462可以迭代计算XY′的组件SXYk+1。基于迭代计算的组件,方程463可以迭代计算调整后计算集XY′的简单线性回归系数b1k+1。基于b1k+1,方程464可以迭代计算调整后计算集XY′的简单线性回归系数b0k+1。455,456,463和464分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。
为展示迭代简单线性回归系数算法以及它们与传统算法的比较,下面给出三个例子。使用3个计算集的数据。对于传统算法,所有3个计算集的计算过程完全相同。对于迭代算法,第一个计算集进行多个组件的初始化,第二个和第三个计算集进行迭代计算。
图5-1,图5-2,图5-3分别显示了用于一个计算实例的第一个,第二个,和第三个计算集。计算集503包括XY大数据集501的头4个数据元素对:(8,9),(3,2),(6,5),(1,4)。计算集504包括XY大数据集501的4个数据元素对:(3,2),(6,5),(1,4),(4,7)。计算集505包括XY大数据集501的4个数据元素对:(6,5),(1,4),(4,7),(2,-1)。计算集规模502(n)是4。
首先用传统算法分别计算计算集503,504和505的简单线性回归系数。
为计算集503计算简单线性回归系数:
没有任何优化的情况下,为规模为4的计算集计算简单线性回归系数共有3次除法,9次乘法,12次加法和13次减法。
相同的方程和过程可被用来分别为图5-2显示的计算集504计算简单线性回归系数和为图5-3显示的计算集505计算简单线性回归系数。计算集504的简单线性回归系数 在没有优化的情况下这个计算中包括3次除法,9次乘法,12次加法和13次减法。计算集505的简单线性回归系数
在没有优化的情况下这个计算中包括3次除法,9次乘法,12次加法和13次减法。传统算法在没有优化的情况下计算规模为n的计算集的简单线性回归系数时通常需要完成3次除法,2n+1次乘法,4(n-1)次加法,和3n+1次减法。
下面用迭代算法1分别计算计算集503,504,和505的简单线性回归系数。
为规模为4的计算集503计算简单线性回归系数:
用方程417初始化第1轮和方程418初始化第1轮
用方程419,420,421分别初始化第1轮XSS1,XV1,SXY1:
用方程422和423分别计算第1轮b11和b01:
为计算集503计算简单线性回归系数时共有3个除法,17个乘法,18个加法和13个减法。
为规模为4的计算集504计算简单线性回归系数:
用方程426,427,428,429和430分别迭代计算第2轮的组件XSS2,XV2,和SXY2:
XSS2=XSS1+xa 2-xr 2=110+42-82=62
SXY2=SXY1+xaya-xryr=112+4×7-8×9=68
用方程431和432分别计算第2轮b12和b02:
为调整后计算集504迭代计算简单线性回归系数时共有3个除法,9个乘法,4个加法和7个减法。
为规模为4的计算集505计算简单线性回归系数:
用方程426,427,428,429和430分别迭代计算第3轮的组件XSS3,XV3,和SXY3:
XSS3=XSS2+xa 2-xr 2=62+22-32=57
SXY3=SXY2+xaya-xryr=68+2×(-1)-3×2=60
用方程431和432分别计算第3轮b13和b03:
为调整后计算集505迭代计算简单线性回归系数时共有3个除法,9个乘法,4个加法和7个减法。
下面用迭代算法2分别计算计算集503,504,和505的简单线性回归系数。
为规模为4的计算集503计算简单线性回归系数:
用方程435初始化第1轮和方程436初始化第1轮
用方程437和438分别初始化第1轮SSDX1和SDXY1:
用方程439和440分别计算第1轮b11和b01:
为计算集503计算简单线性回归系数时共有3个除法,9个乘法,12个加法和13个减法。
为规模为4的计算集504计算简单线性回归系数:
用方程443,444,445,和446分别迭代计算第2轮的组件SSDX2,和SDXY2:
用方程447和448分别计算第2轮b12和b02:
为调整后计算集504迭代计算简单线性回归系数时共有3个除法,4个乘法,7个加法和9个减法。
为规模为4的计算集505计算简单线性回归系数:
用方程443,444,445,和446分别迭代计算第3轮的组件SSDX3,和SDXY3:
用方程447和448分别计算第3轮b13和b03:
为调整后计算集505迭代计算简单线性回归系数时共有3个除法,4个乘法,7个加法和9个减法。
下面用迭代算法3分别计算计算集503,504,和505的简单线性回归系数。
为规模为4的计算集503计算简单线性回归系数:
用方程451初始化第1轮和方程452初始化第1轮
用方程453和454分别初始化第1轮XSS1和SXY1:
用方程455和456分别计算第1轮b11和b01:
为计算集503计算简单线性回归系数时共有3个除法,12个乘法,12个加法和3个减法。
为规模为4的计算集504计算简单线性回归系数:
用方程459,460,461,和462分别迭代计算第2轮的组件XSS2,和SXY2:
XSS2=XSS1+xa 2-xr 2=110+42-82=62
SXY2=SXY1+xaya-xryr=112+4×7-8×9=68
用方程463和464分别计算第2轮b12和b02:
为调整后计算集504迭代计算简单线性回归系数时共有3个除法,8个乘法,4个加法和7个减法。
为规模为4的计算集505计算简单线性回归系数:
用方程459,460,461,和462分别迭代计算第3轮的组件XSS3,和SXY3:
XSS3=XSS2+xa 2-xr 2=62+22-32=57
SXY3=SXY2+xaya-xryr=68+2×(-1)-3×2=60
用方程463和464分别计算第3轮b13和b03:
为调整后计算集505迭代计算简单线性回归系数时共有3个除法,8个乘法,4个加法和7个减法。
在以上三个例子中,平均值被用于迭代简单线性回归系数计算。和也可被用于简单线性回归系数迭代计算,只是操作数不同。
图6-1图示了n=4时,传统简单线性回归系数算法和迭代简单线性回归系数算法的计算量。如图所示,任何一个迭代算法和传统算法都比传统算法少很多加法操作和减法操作。
图6-2图示了n=1,000,000时,传统简单线性回归系数算法和迭代简单线性回归系数算法的计算量。如图所示,任何一个迭代算法都比传统算法少很多乘法操作,加法操作和减法操作。把需要在成千上万台计算机上处理的数据只在单机上就能完成。大大提高计算效率,减少计算资源,降低计算系统能耗。
本发明可以在不脱离其思想或本质特征的情况下以其它特定的方式来实现。本申请描述的实现方案从各个方面来说是仅作为示范性的而不是限制性的。因此,本发明的范围由附加的权利要求书而不是前面的描述来指明。与权利要求书中权利要求的含义和范围等价的所有变化都包含在它们的范围内。
Claims (10)
1.一种,由基于一个或多个计算设备构成的一个计算系统实现的,以迭代方式计算存储于一个或多个存储设备上的一个或两个数据集的,调整后计算集的,简单线性回归系数的方法,其特征在于:
由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的一个或两个数据集的一个指定规模为n(n>1)的调整前计算集初始化简单线性回归系数的三个以上组件,该计算集包含该一个或两个数据集的n对数据元素;
由基于计算设备的该计算系统,访问一个要从该调整前计算集中去除的数据元素对和一个要加入到该调整前计算集的数据元素对;
由基于计算设备的该计算系统,调整该调整前计算集,通过:
从该调整前计算集中去除要去除的数据元素对;以及
向该调整前计算集加入要加入的数据元素对;
由基于计算设备的该计算系统,至少基于该调整前计算集的简单线性回归系数的该三个以上组件,为该调整后计算集迭代计算简单线性回归系数的三个以上组件,该迭代计算三个以上组件包括:
访问调整前计算集的简单线性回归系数的该三个以上组件而避免访问调整后计算集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于被去除的数据元素对和被加入的数据元素对,从访问的每一个组件中数学地去除被去除的数据元素对的任何贡献和数学地加入被加入的数据元素对的任何贡献而避免在迭代计算简单线性回归系数的该三个以上组件的过程中使用调整后计算集中的所有数据元素来提高计算效率;以及
由基于计算设备的该计算系统,基于为该调整后计算集迭代计算的组件,为该调整后计算集生成简单线性回归系数。
2.按照权利要求1所述的由该计算系统实现的该方法,其特征在于:所述访问一个要去除的数据元素对和一个要加入的数据元素对包括访问多个要从该调整前计算集去除的数据元素对和多个要加入该调整前计算集的数据元素对,该方法也进一步包括对于多个要去除的数据元素对中的每一个数据元素对和多个要加入的数据元素对中的每一个数据元素对进行调整该调整前计算集,迭代计算简单线性回归系数的三个以上组件,以及为该调整后计算集生成简单线性回归系数。
3.按照权利要求2所述的由该计算系统实现的该方法,其特征在于:所述为该调整后计算集生成简单线性回归系数当且仅当简单线性回归系数被访问时。
4.按照权利要求3所述的由该计算系统实现的该方法,其特征在于:所述为该调整后计算集生成简单线性回归系数进一步包括由基于计算设备的该计算系统为该调整后计算集间接迭代计算简单线性回归系数的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个计算设备;
每个计算设备包含一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当它们被一个或多个计算设备中的至少一个计算设备执行时,为一个或两个数据集的一个指定规模的调整后计算集确定简单线性回归系数,这里该简单线性回归系数的确定包括:
a.为存储于该计算系统的至少一个存储媒体上的一个或两个数据集的一个指定规模为n(n>1)的调整前计算集初始化简单线性回归系数的三个以上组件,该调整前计算集包含该一个或两个数据集的n对数据元素;
b.访问一个要从该调整前计算集中去除的数据元素对和一个要加入到该调整前计算集的数据元素对;
c.调整该调整前计算集,包括:
从该调整前计算集中去除要去除的数据元素对;以及
向该调整前计算集中加入要加入的数据元素对;
d.为该调整后计算集迭代计算简单线性回归系数的三个以上组件,包括:
访问该调整前计算集的简单线性回归系数的该三个以上组件而避免访问该调整后计算集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于去除的数据元素对和加入的数据元素对,通过从访问的每一个组件中数学地去除去除的数据元素对的任何贡献和数学地加入加入的数据元素对的任何贡献来得到该调整后计算集的简单线性回归系数的该三个以上组件,而避免在迭代计算简单线性回归系数的该三个以上组件中使用该调整后计算集中的所有数据元素来提高计算效率;以及
e.基于为该调整后计算集迭代计算的组件,为该调整后计算集生成简单线性回归系数。
6.按照权利要求5所述的该计算系统,其特征在于:该一个或多个计算模块,当它们被该一个或多个计算设备中的至少一个计算设备执行时,多次执行b,c,d,和e。
7.按照权利要求6所述的该计算系统,其特征在于:执行e当且仅当简单线性回归系数被访问时。
8.按照权利要求7所述的该计算系统,其特征在于:所述e进一步包括由该计算系统为该调整后计算集间接迭代计算简单线性回归系数的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
9.一个计算系统程序产品,运行于一个包含一个或多个计算设备的一个计算系统,该计算系统包括一个或多个处理器以及一个或多个存储媒体,该计算系统程序产品包含多条计算设备可执行指令,当这些计算设备可执行指令被该计算系统中的至少一台计算设备运行时,执行一个为该一个或两个数据集的调整后计算集生成简单线性回归系数的方法,其特征在于:
为存储于该系统至少一个存储媒体上的一个或两个数据集的一个指定规模为n(n>1)的调整前计算集初始化简单线性回归系数的三个以上组件,该调整前计算集包含该一个或两个数据集的n对数据元素;
访问一个要从该调整前计算集中去除的数据元素对和一个要加入到该调整前计算集的数据元素对;
调整该调整前计算集,通过:
从该调整前计算集中去除要去除的数据元素对;以及
向该调整前计算集加入要加入的数据元素对;
至少基于该调整前计算集的简单线性回归系数的该三个以上组件,为该调整后计算集迭代计算简单线性回归系数的三个以上组件,该迭代计算三个以上组件包括:
访问该调整前计算集的简单线性回归系数的该三个以上组件而避免访问该调整后计算集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;以及
基于被去除的数据元素对和被加入的数据元素对,从访问的每一个组件中数学地去除被去除的数据元素对的任何贡献和数学地加入被加入的数据元素对的任何贡献而避免在迭代计算简单线性回归系数的该三个以上组件中使用该调整后计算窗口中的所有数据元素来提高计算效率;以及
基于为该调整后计算集迭代计算的组件,为该调整后计算集生成简单线性回归系数。
10.按照权利要求9所述的该计算系统程序产品,其特征在于:所述为该调整后计算集生成简单线性回归系数进一步包括由基于计算设备的该计算系统为该调整后计算集间接迭代计算简单线性回归系数的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810254480.2A CN110363321B (zh) | 2018-03-26 | 2018-03-26 | 一种实时预测大数据变化趋势的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810254480.2A CN110363321B (zh) | 2018-03-26 | 2018-03-26 | 一种实时预测大数据变化趋势的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110363321A true CN110363321A (zh) | 2019-10-22 |
CN110363321B CN110363321B (zh) | 2024-04-19 |
Family
ID=68212792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810254480.2A Active CN110363321B (zh) | 2018-03-26 | 2018-03-26 | 一种实时预测大数据变化趋势的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363321B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509177A (zh) * | 2011-11-11 | 2012-06-20 | 国网信息通信有限公司 | 一种基于云平台的局部加权线性回归预测运算的方法 |
JP2012211483A (ja) * | 2011-03-31 | 2012-11-01 | Sinfonia Technology Co Ltd | 水需要予測システム |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
US9760539B1 (en) * | 2015-02-28 | 2017-09-12 | Cloud & Stream Gears Llc | Incremental simple linear regression coefficient calculation for big data or streamed data using components |
CN107615275A (zh) * | 2015-05-29 | 2018-01-19 | 国际商业机器公司 | 估计用于运行数据挖掘服务的计算资源 |
-
2018
- 2018-03-26 CN CN201810254480.2A patent/CN110363321B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012211483A (ja) * | 2011-03-31 | 2012-11-01 | Sinfonia Technology Co Ltd | 水需要予測システム |
CN102509177A (zh) * | 2011-11-11 | 2012-06-20 | 国网信息通信有限公司 | 一种基于云平台的局部加权线性回归预测运算的方法 |
US9760539B1 (en) * | 2015-02-28 | 2017-09-12 | Cloud & Stream Gears Llc | Incremental simple linear regression coefficient calculation for big data or streamed data using components |
CN107615275A (zh) * | 2015-05-29 | 2018-01-19 | 国际商业机器公司 | 估计用于运行数据挖掘服务的计算资源 |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110363321B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7073348B2 (ja) | 脅威スコアリングシステム及び方法 | |
CN109804352A (zh) | 受管理的容器实例 | |
US9959248B1 (en) | Iterative simple linear regression coefficient calculation for big data using components | |
US9760539B1 (en) | Incremental simple linear regression coefficient calculation for big data or streamed data using components | |
CN112182370A (zh) | 物品类目信息推送方法、装置、电子设备和介质 | |
Bai et al. | Mind evolutionary algorithm optimization in the prediction of satellite clock bias using the back propagation neural network | |
US20180270158A1 (en) | Decremental autocorrelation calculation for big data using components | |
US10275488B1 (en) | Incremental covariance calculation for big data or streamed data using components | |
CN110363321A (zh) | 一种实时预测大数据变化趋势的方法 | |
Cicuttin et al. | Looking for suitable rules for true random number generation with asynchronous cellular automata | |
CN115619452A (zh) | 基于算术表达式配置的用户运营方法和装置 | |
Barbosa et al. | The EnerGAware middleware platform | |
CN110362365A (zh) | 一种实时预测流数据变化趋势的方法 | |
CN110515680A (zh) | 一种实时判断大数据自身给定延迟重复性的方法 | |
CN110457340A (zh) | 一种实时寻找大数据自身重复规律的方法 | |
CN110378714B (zh) | 一种处理访问数据的方法和装置 | |
US10310910B1 (en) | Iterative autocorrelation calculation for big data using components | |
CN112784211A (zh) | 一种实时预测大数据或流数据变化趋势的方法 | |
US10079910B1 (en) | Iterative covariance calculation for streamed data using components | |
US10162856B1 (en) | Incremental correlation calculation for big data or streamed data using components | |
US10282445B1 (en) | Incremental kurtosis calculation for big data or streamed data using components | |
US10191941B1 (en) | Iterative skewness calculation for streamed data using components | |
CN110909305A (zh) | 一种实时判断数据流变化同向性及其程度的方法 | |
CN111858660A (zh) | 一种实时判断大数据或流数据变化同向性及其程度的方法 | |
Dymora et al. | Comparative Analysis of Selected Open-Source Solutions for Traffic Balancing in Server Infrastructures Providing WWW Service. Energies 2021, 14, 7719 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |