CN112035521A - 一种实时判断流数据自身给定延迟重复性的方法 - Google Patents
一种实时判断流数据自身给定延迟重复性的方法 Download PDFInfo
- Publication number
- CN112035521A CN112035521A CN201910478170.3A CN201910478170A CN112035521A CN 112035521 A CN112035521 A CN 112035521A CN 201910478170 A CN201910478170 A CN 201910478170A CN 112035521 A CN112035521 A CN 112035521A
- Authority
- CN
- China
- Prior art keywords
- window
- computing
- autocorrelation
- delay
- components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24535—Query rewriting; Transformation of sub-queries or views
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
给定延迟的自相关可用于判断时间序列或流数据自身给定延迟的重复性。本发明公开了一种通过增量计算时间序列或流数据的计算窗口的指定延迟的自相关从而可以实时地判断时间序列或流数据自身给定延迟重复性的方法,系统和计算设备程序产品。本发明的实施方案包括基于调整前计算窗口的指定延迟的自相关的二个以上组件增量计算调整后计算窗口的指定延迟的自相关的二个以上组件,然后根据需要基于增量计算的二个以上组件生成调整后计算窗口的指定延迟的自相关。增量计算自相关避免访问调整后计算窗口中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断流数据自身给定延迟重复性高效低耗及一些实时判断流数据自身给定延迟重复性的场景从不可能变为可能。
Description
技术领域
大数据或流数据分析。
背景技术
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天生成海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。
流数据就是由至少一个提供方不断传送并连续地被接收的数据。流数据可以是搜集的来自传感器的实时数据并连续把数据传送到计算设备或电子设备上。通常这包括接收相同格式的通过时间间隔被连续划分的数据元素。流数据也可以是从存储设备连续读取的数据,即存储在一至多台存储设备上的大数据集。
自相关,也被称为延迟相关或序列相关,是一个特定的时间序列与延迟了l个时间点的该时间序列本身的相关程度的一个度量。它可以通过一个时间序列的相隔了l个时间点的观察值的协相关除以其标准方差来得到。某个延迟的自相关值为1或接近1可认为流数据或流化大数据在该延迟后出现自身重复规律,因此基于给定延迟的自相关判断流数据自身给定延迟的重复性显而易见,而困难和挑战在于如何实时地在流数据上计算自相关。
自相关在接收新的流数据后可能需要被重新计算以反映最新的数据状况。每接收一个数据元素,该数据元素被加入计算窗口,计算窗口中的n+1个数据元素就会被访问来重新计算自相关。使用计算窗口中的所有数据元素来重新计算自相关涉及重复数据访问和计算,因此耗时并浪费资源。
取决于需要,计算窗口的规模可能非常大,例如计算窗口中的数据元素可能分布在云平台的成千上万台计算/存储设备上。在一些数据变化后的流数据上用传统方法重新计算自相关无法做到实时处理并且占用和浪费大量计算资源,也使得一些实时地判断流数据自身给定延迟的重复性无法满足需求地实现。
发明内容
本发明拓展到方法,系统和计算系统程序产品以增量方式计算流数据的给定延迟的自相关从而可以在调整计算窗口规模后实时地判断流数据自身给定延迟的重复性。计算系统包含一个或多个计算设备。每个计算设备包含一个或多个处理器。计算系统可以访问一个数据流。计算系统包含一个或多个存储媒介。计算系统保持一个计算子集规模计数器。计算子集规模计数器保持该数据集的计算窗口中数据元素的数量。为一个调整后计算窗口增量计算指定延迟为l(l>0)的自相关包括基于调整前计算窗口的指定延迟的自相关的两个以上(p(p>1))组件增量计算调整后计算窗口的指定延迟的自相关的两个以上组件然后根据需要基于增量计算的两个以上组件生成调整后计算窗口的指定延迟的自相关。增量计算自相关只需要访问和使用增量计算的组件,新加入的数据元素,以及计算窗口中与新加入的数据元素相邻的l个数据元素和计算窗口另一边的l个数据元素而避免访问调整后计算窗口中的所有数据元素和执行重复计算从而降低数据访问延迟,提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断流数据自身给定延迟重复性高效低耗及一些实时判断流数据自身给定延迟重复性的场景从不可能变为可能。
计算系统包含一个缓冲区来存储流数据元素。这个缓冲区可以在内存或其它计算机可读媒体,如硬盘或其它媒体中,甚至可以是分配在多个计算设备上的多个分布式文件,它们逻辑上端到端互联而形成一个”循环缓冲区”。
计算系统初始化一个给定规模n(n>1)的调整前计算窗口的给定延迟l(l≥1)的自相关的两个以上(p(p>1))组件。该两个以上组件的初始化包括根据其定义基于该调整前计算窗口中的数据元素来计算或从一个或多个计算设备可读媒体上访问或接收已经计算过的组件。
计算系统接收一个新的数据元素。
计算系统保存接收的数据元素到输入缓冲区中。
计算系统通过向调整前计算窗口加入接收的数据元素来调整调整前计算窗口并通过把计算窗口规模计数器加1来做调整。
计算系统为调整后计算窗口直接增量计算给定延迟l的自相关的一个或多个(设v(1≤v≤p)个)组件。在给定延迟l直接增量计算v(1≤v≤p)个组件包括:访问该调整前计算窗口两边的各l个数据元素和新加入该调整前计算窗口的数据元素;访问为该调整前计算窗口计算的延迟为l的自相关的v个组件;向访问的每个组件数学地加入被加入的数据元素的任何贡献。
计算系统根据需要间接增量计算调整后计算窗口的指定延迟的自相关的w=p-v个组件。间接增量计算指定延迟的w个组件包括一个一个地间接增量计算w个组件中的每一个组件。间接增量计算指定延迟的一个组件包括:访问并使用除该组件之外的指定延迟的一个或多个组件来计算该组件。这一个或多个组件可能是经过初始化的,直接增量计算的或间接增量计算的。
计算系统基于一个或多个增量计算的调整后计算窗口的指定延迟的自相关的组件生成一个调整后计算窗口的指定延迟的自相关。
计算系统可以持续地接收一个新的数据元素,保存新的数据元素到输入缓冲区中,调整计算窗口和计算窗口规模,增量计算调整后计算窗口的一个和或一个平均值或一个和及一个平均值,直接增量计算指定延迟的v个组件,根据需要间接增量计算w=p-v个指定延迟的组件和计算指定延迟的自相关。计算系统可以根据需要多次重复这个过程。
本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。
本发明的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本发明的实践中学到。本发明的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本发明的这些和其它特征将在下面的描述和附加的权利要求书或本发明的实践中变得更加全面清晰。
附图说明
为描述能够获得本发明的上述的和其它的优点和特点的方式,上面简述的本发明的一个更具体的描述将通过参照附加的图表中所显示的特定的实施方案来展现出来。这些图表只是描述了本发明的典型实施方案,因此它们不应被理解为对本发明的范围的限制:
图1图示了一个支持增量计算自相关的例子计算系统的高层概括。
图1-1显示了支持增量计算流数据的自相关并且所有组件以直接增量方式计算的一个例子计算系统架构。
图1-2显示了支持增量计算流数据的自相关并且部分组件以直接增量方式计算而部分组件以间接增量方式计算的一个例子计算系统架构。
图2显示了增量计算流数据的自相关的一个例子方法的流程图。
图3-1显示了加入计算窗口300A左边的数据元素。
图3-2显示了在流数据上增量计算给定延迟的自相关时计算窗口300A内被访问的数据元素。
图3-3显示了加入计算窗口300B右边的数据元素。
图3-4显示了在流数据上增量计算给定延迟的自相关时计算窗口300B内被访问的数据元素。
图4-1显示了自相关的定义及计算自相关的传统方程。
图4-2显示了第一个自相关增量计算算法(增量算法1)。
图4-3显示了第二个自相关增量计算算法(增量算法2)。
图4-4显示了第三个自相关增量计算算法(增量算法3)。
图5-1显示了用于一个计算实例的第一个计算窗口。
图5-2显示了用于一个计算实例的第二个计算窗口。
图5-3显示了用于一个计算实例的第三个计算窗口。
图6-1显示了计算窗口规模为6延迟为1时传统和增量自相关算法的计算量对比。
图6-2显示了计算窗口规模为1000000延迟为1时传统和增量自相关算法的计算量对比。
具体实施方式
计算自相关是判断时间序列或流化大数据自身给定延迟重复性的有效方法。本发明拓展到通过增量计算规模为n(n>1)的计算窗口的指定延迟l(1≤l<n)的自相关从而可实时地判断流数据自身给定延迟重复性的方法,系统,和计算系统程序产品。一个计算系统包含一个或多个基于处理器的计算设备和一个或多个存储媒体。每个计算设备包含一个或多个处理器。该计算系统包含一个输入缓冲区。该输入缓冲区中保存着流数据元素。这个缓冲区可以在内存或其它计算机可读媒体,如硬盘或其它媒体中,甚至可以是分配在多个计算设备上的多个分布式文件,它们逻辑上端到端互联而形成一个”循环缓冲区”。来自该数据流的,涉及到自相关计算的多个数据元素组成一个调整前的计算窗口。计算系统保持一个计算窗口规模计数器n(n>l)指明缓冲区的一个计算窗口中的数据元素个数。延迟l指明用于自相关计算时使用的延迟。本发明的实施方案包括基于调整前计算窗口的指定延迟的自相关的两个以上(p(p>1))组件增量计算调整后计算窗口的指定延迟的自相关的两个以上组件,然后根据需要基于增量计算的两个以上组件生成调整后计算窗口的指定延迟的自相关。增量计算自相关避免访问调整后计算窗口中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断流数据自身给定延迟重复性高效低耗及一些实时判断流数据自身给定延迟重复性的场景从不可能变为可能。
自相关,也被称为延迟相关或序列相关,是一个特定的时间序列与延迟了l个时间点的该时间序列本身的相关程度的一个度量。它可以通过一个时间序列的相隔了l个时间点的观察值的协相关除以其标准方差来得到。如果计算了一个时间序列的所有不同延迟值的自相关就得到该时间序列的自相关函数。对于一个不随时间变化的时间序列,其自相关值会指数地减少到0。自相关的值的范围是-1和+1之间。值+1表明时间序列的过去和未来的值有一个完全的正线性关系,而值-1表明时间序列的过去和未来的值有一个完全的负线性关系。
在本文中,一个计算窗口包含了自相关计算所涉及的数据。计算窗口中的数据元素有顺序关系,即,改变计算窗口中的数据元素的顺序可以影响自相关计算结果。
在本文中,自相关的一个组件是出现在自相关定义公式中或其定义公式的任何转换中的一个量或表达式。自相关是它自己最大的组件。以下是一些自相关的组件的例子。
自相关可基于一个或多个组件或它们的组合被计算,所以多个算法支持增量自相关计算。
一个组件可以被直接增量计算或间接增量计算。它们的区别是当一个组件被直接增量计算时该组件是通过该组件在前一轮计算的值来计算的,而当该组件被间接增量计算时该组件是用该组件之外的其它组件计算的。
对于一个给定的组件,它也许在一个算法中被直接增量计算但在另一个算法中被间接增量计算。
对于任意一个算法,至少会有两个组件被增量计算,其中一个组件被直接增量计算,另一个组件被直接或间接增量计算。对于一个给定的算法,假设使用的不同组件的总数是p(p>1),如果直接增量计算的组件个数是v(1≤v≤p),那么间接增量计算的组件的个数是w=p-v(0≤w<p)。可能所有的组件都被直接增量计算(这种情况下v=p>1并且w=0)。但是,无论自相关的结果是否在一个特定的轮次被需要和访问,直接增量计算的组件都必须被计算。
对于一个给定算法,如果一个组件被直接增量计算,则该组件必须被计算(即每当一个新的数据元素被加入计算窗口时)。但是,如果一个组件被间接增量计算,则该组件可以通过使用该组件之外的其它一个或多个组件来根据需要,即只有当自相关需要被计算和访问时,被计算。这样,当自相关在某一个计算轮次不被访问时,只有少量的组件需要被增量地计算。一个间接增量计算的组件也许会被用于一个组件的直接增量计算,在这种情况下,该间接增量计算的组件的计算不可省略。
本发明的实现方案包括基于为前一个计算窗口计算的两个以上(p(p>1))组件增量地计算调整后的计算窗口的自相关的两个以上(p(p>1))组件。
计算系统从一个空的调整前计算窗口或非空的,其计算窗口规模和两个或多个组件已被初始化的,调整前计算窗口开始增量计算自相关在指定延迟l的两个或多个组件。当增量自相关计算从空的调整前计算窗口开始时,初始化计算窗口规模和两个或多个组件的值为零。当增量自相关计算从非空的调整前计算窗口开始时,计算窗口规模和两个或多个组件会被初始化。初始化计算窗口规模包括将其设置为调整前计算窗口包含的数据元素个数或访问或接收一个指定的计算窗口规模。初始化两个或多个组件包括基于调整前计算窗口中的数据元素通过组件的定义计算两个以上组件或从计算设备可读媒体上接收或访问已计算的两个以上组件。
计算系统包含一个输入缓冲区。该输入缓冲区中保存着流数据元素。计算窗口规模n(n>l)指明缓冲区的一个计算窗口中的数据元素个数。
计算系统初始化一个给定规模n(n>1)的调整前计算窗口的给定延迟l(l≥1)的自相关的两个以上(p(p>1))组件。该两个以上组件的初始化包括根据其定义基于该调整前计算窗口中的数据元素来计算或从一个或多个计算设备可读媒体上访问或接收已经计算过的组件。
计算系统接收一个新的流数据元素。
计算系统保存接收的数据元素到输入缓冲区。
计算系统调整调整前计算窗口通过:加入新的数据元素到调整前计算窗口;以及调整计算窗口规模计数器通过:把它的值加1。
计算系统增量计算调整后计算窗口的一个和或一个平均值或一个和及一个平均值。
计算系统直接增量计算调整后计算窗口的指定延迟l的自相关的除和及平均值之外的一个或多个(v(1≤v<p)个)组件。直接增量计算这一个或多个组件包括:访问调整前计算窗口两边的各l个数据元素及新加入的数据元素;访问调整前计算窗口的延迟为l的自相关的v个组件;以及向访问的每个组件数学地加入被加入的数据元素的任何贡献。
计算系统根据需要为调整后计算窗口间接增量计算给定延迟l的自相关的w=p-v个组件。间接增量计算给定延迟l的自相关的w个组件包括一个一个分别间接地增量计算给定延迟l的w个组件中的每一个。间接增量计算给定延迟l的一个组件包括:访问该组件之外的给定延迟l的一个或多个组件并基于访问的组件计算该组件。这些给定延迟l的一个或多个组件可以是被初始化过的,直接增量计算过的或间接增量计算过的。
计算系统根据需要,基于为调整后计算窗口增量计算的给定延迟l的自相关的一个或多个组件,为调整后计算窗口生成给定延迟l的自相关。
计算系统可以持续接收新的数据元素,保存该数据元素到输入缓冲区中,调整调整前计算窗口,增量计算调整后计算窗口的一个和或一个平均值或一个和及一个平均值,直接增量计算一个或多个即v个指定延迟的自相关的组件,根据需要间接增量计算w=p-v个指定延迟的自相关的组件,根据需要基于一个或多个增量计算的组件生成给定延迟的自相关,并根据需要多次重复这个过程。
本发明的实施方案可以包括或利用包含计算设备硬件,例如一个或多个处理器和以下更详细描述的存储设备,专用的或通用的计算设备。本发明实施方案的范围也包括物理的及其它用于携带或存储计算设备可运行指令和/或数据结构的计算设备可读媒体。这些计算设备可读媒体可以是通用或专用计算设备可访问的任何媒体。存储计算设备可运行指令的计算设备可读媒体是存储媒体(设备)。携带计算设备可运行指令的计算设备可读媒体是传输媒体。因此,以举例而非限制的方式,本发明的实施方案可以包括至少两种不同类型的计算设备可读媒体:存储媒体(设备)和传输媒体。
存储媒体(设备)包括随机存取存储器(RAM),只读存储器(ROM),电可擦除可编程只读存储器(EEPROM),只读光盘存储器(CD-ROM),固态硬盘(SSD),闪存(Flash Memory),相变存储器(PCM),其它类型存储器,其它光学磁盘存储,磁盘存储器或其它磁性存储设备,或任何其它能用于存储所需要的以计算设备可运行指令或数据结构形式构成的程序代码并且其可以被通用或专用计算设备访问的媒体。
一个“网络”被定义为使计算设备和/或模块和/或其它电子设备能够传输电子数据的一个或多个数据链接。当信息被网络或另外的通讯连接(有线,无线,或有线和无线的组合)传输或提供给计算设备时,计算设备把连接视为传输媒体。传输媒体可包括用于携带所需要的以计算设备可运行指令或数据结构形式构成的程序代码,并且其可以被通用或专用计算设备访问的一个网络和/或数据链接。以上的组合也应包括在计算设备可读媒体的范围之内。
此外,在应用不同计算设备组件时,计算设备可运行指令或数据结构形式的程序代码可以从传输媒体自动传输到存储媒体(设备)(或反过来)。例如,从网络或数据链接上接收的计算设备可运行指令或数据结构可以被暂存进网络接口模块(例如,NIC)中的随机存取存储器中,然后最终传输到计算设备的随机存取存储器和/或到计算设备的一个较小易变的存储媒体(设备)。所以,应当理解存储媒体(设备)可以被包括在也(或甚至主要)应用传输媒体的计算设备组件里。
计算设备可运行指令包括,例如,指令和数据,当被处理器运行时,使得通用计算设备或专用计算设备去执行一个特定功能或一组功能。计算设备可运行指令可以是,例如,二进制,中间格式指令例如汇编代码,或甚至源代码。虽然描述的客体是用结构特征和/或方法动作的具体语言描述的,应当理解在附加的权利要求书中定义的客体不一定局限于以上描述的特征或动作。而是,描述的特征或动作仅是以实现权利要求的例子形式而公开的。
本发明的实施方案可以在由多种类型的计算设备配置的网络计算环境中实现,这些计算设备包括个人电脑,台式机,笔记本电脑,信息处理器,手持设备,多处理系统,基于微处理器或可编程的电子消费品,网络电脑,小型计算机,主计算机,超级计算机,移动电话,掌上电脑,平板电脑,呼机,路由器,交换机及类似产品。本发明的实施方案也可以应用于通过网络互联(即可通过有线数据链接,无线数据链接,也可以是有线数据链接与无线数据链接的结合)的执行任务的本地或远程计算设备构成的分布式系统环境。在分布式系统环境中,程序模块可以被存储在本地或远程存储设备上。
本发明的实施方案也可以在云计算环境里实现。在本描述及后续的权利要求书中,“云计算”被定义为一个使得能够按需通过网络访问到可配置计算资源的共享池的模型。例如,云计算可以被市场利用去提供普及和方便的按需访问可配置计算资源的共享池。可配置计算资源的共享池可以通过虚拟化很快预备并且以低管理开销或低服务提供商互动来提供,然后做相应的调整。
云计算模型可以包括各种特征例如,按需自服务,宽带网络访问,资源收集,快速收放,计量服务等等。云计算模型也可以各种服务模式来体现,例如,软件做为服务(“SaaS”),平台做为服务(“PaaS”),以及设施做为服务(“IaaS”)。云计算模型也可以通过不同的部署模型例如私有云,社区云,公共云,混合云等等来部署。
由于本发明有效地降低了对计算能力的要求,其实施方案也可应用于边缘计算。
在本文描述及权利要求书中,一个“循环缓冲区”是一个数据结构其是一个单一的有固定长度的似乎首尾相连的缓冲区。一个循环缓冲区既可以是常用的在内存中分配的一块空间,也可以是一个“虚拟循环缓冲区”,其不一定在内存,而是硬盘上的一个文件,甚至是物理上分布在多台存储设备上的分布式文件,只要它们逻辑上端到端地互相连接形成一个“循环缓冲区”。
下面的章节中会给出几个例子。
图1图示了为流数据增量计算自相关的一个例子计算系统100的高层概述。参考图1,计算系统100包括由不同网络,例如局域网1021,无线网1022,和互联网1023等等,连接的多个设备。多个设备包括,例如,数据分析引擎1007,存储系统1011,实时数据流1006,以及可以安排数据分析任务和/或查询数据分析结果的多台分布的计算设备,例如个人电脑1016,手持设备1017,和台式机1018等等。
数据分析引擎1007可以包括一个或多个处理器,例如CPU 1009和CPU1010,一个或多个系统内存,例如系统内存1008,及组件计算模块131和自相关计算模块192。模块131的细节会在其它图表中更详细地图示(例如,图1-1和图1-2)。存储系统1011可以包括一个或多个存储媒体,例如存储媒体1012和存储媒体1014,其可以用于存放大数据集。例如,1012和或1014可以包括数据集123。存储系统1011里的数据集可以被数据分析引擎1007访问。
通常,数据流1006可以包括来自不同数据源的流数据,例如,股价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,和/或闭合字幕数据等。这里举例描绘了几个,实时数据1000可以包括从感应器1001,股票1002,通讯1003,和银行1004等等实时收集的数据。数据分析引擎1007可以接收来自数据流1006的数据元素。来自不同数据源的数据可以被存储在存储系统1011并且为大数据分析所访问,例如数据集123可以来自不同的数据源并且为大数据分析所访问。
请理解图1是以非常简化的形式介绍一些概念,例如,分布设备1016和1017可能经过防火墙才联到数据分析引擎1007,数据分析引擎1007从数据流1006和/或存储系统1011访问或接收的数据可能经过数据过滤器筛选,等等。
图1-1图示了为流数据增量计算自相关,其所有(v=p>1)组件被直接增量计算,的例子计算系统架构100A。关于计算系统架构100A,这里将先只介绍该架构中的主要部件的功能和相互关系,而关于这些部件如何协作共同完成增量自相关计算的过程将在后面结合图2中描述的流程图一起介绍。图1-1图示了图1显示的1006和1007。参考图1-1,计算系统架构100A包括组件计算模块131和自相关计算模块192。组件计算模块131可以是通过高速数据总线与一个或多个存储媒体紧密耦合的或通过一个网络,如局域网,广域网,甚至互联网与由存储系统管理的一个或多个存储媒体松散耦合的。相应地,组件计算模块131和任何其它连接的计算设备和它们的组件,可以在网络上发送和接收消息相关数据(例如,互联网协议(“IP”)数据报和其它使用IP数据报的高层协议,例如,用户数据报协议(“UDP”),实时流协议(“RTSP”),实时传输协议(“RTP”),微软媒体服务器(“MMS”),传输控制协议(“TCP”),超文本传送协议(“HTTP”),简单邮件传送协议(“SMTP”),等等)。组件计算模块131的输出会被作为自相关计算模块192的输入,自相关计算模块192可以生成自相关193。
通常,数据流190可以是顺序的数字编码信号(即数据的包或数据包)分别用于传输或接收传输过程中的信息。数据流190可以包含来源于不同种类的数据,例如,股价,音频数据,视频数据,地理空间数据,互联网数据,移动通讯数据,网游数据,银行交易数据,传感器数据,闭合字幕数据,和实时文字等。数据流190可以是实时流或流化的存储数据。
随着流数据元素的接收,流数据元素可以被放在数据缓冲区121中。例如,数据元素101被放在位置121C。
然后,数据元素102可以被接收。数据元素102可以被放在位置121D。
如图所示,数据缓冲区121在接收数据元素101之前有两个数据元素分别在位置121A和121B。随着新的数据元素被放入数据缓冲区121,计算窗口规模会增加并且计算窗口会变成新的计算窗口。
随着流数据元素的接收,它们会经过保存在存储设备119上的计算窗口规模计数器118。计算窗口规模计数器118保持计算窗口规模。每当接收一个新的数据元素,计算系统通过把新的数据元素加入计算窗口来做调整并把计算窗口规模计数器118的值加1。当增量自相关计算被重置时,计算窗口规模计数器118可以被重置为0。当增量自相关计算从非空的计算窗口开始时,计算窗口规模计数器118可以被重置为一个特定的值。例如,在100A中,接收数据元素101前,调整前的计算窗口122包含两个数据元素分别在位置121A和121B,所以计算窗口规模被初始化为2。当数据元素101被访者位置121C时,数据元素101被加入调整前的计算窗口122,调整前的计算窗口122会变成调整后的计算窗口122A,并且计算窗口规模计数器118会加1变成3。计算窗口规模计数器118被存在存储设备119上。计算窗口规模计数器118和数据元素101可以被组件计算模块131访问。
然后,数据元素102可以被接收。数据元素102会被放在位置121D。调整后的计算窗口122A会变成调整后的计算窗口122B。计算窗口规模计数器118会加1变成4。调整后的计算窗口规模计数器118和数据元素102可以被组件计算模块131访问。
参考计算系统架构100A,通常组件计算模块131包含为直接增量计算计算窗口的一组n个数据元素的v(v=p>1)个组件的v个组件计算模块。v是一个在给定延迟增量计算自相关的给定算法中直接增量计算的组件的个数,它随着使用的增量算法不同而不同。如图1-1中所示,组件计算模块131包含一个组件Cd1计算模块161和一个组件Cdv计算模块162,它们之间还有v-2个其它组件计算模块,它们可以是组件Cd2计算模块,组件Cd3计算模块,……,以及组件Cdv-1计算模块。每个组件计算模块计算一个给定延迟的特定的组件。每个组件计算模块包含一个为第一个计算窗口初始化一个组件的初始化模块和一个为调整后计算窗口直接增量计算该组件的算法。例如,组件Cd1计算模块161包含初始化模块132来初始化给定延迟的组件Cd1和增量算法133来增量计算给定延迟的组件Cd1,组件Cdv计算模块162包含初始化模块138来初始化给定延迟的组件Cdv和增量算法139来增量计算给定延迟的组件Cdv。
初始化模块132可以在初始化组件Cd1时使用或在自相关计算被重置时使用。同样,初始化模块138可以在初始化组件Cdv时使用或在自相关计算被重置时使用。组件Cd1141是组件Cd1的初始值。初始化模块132可以被用来初始化组件Cd1或当自相关计算被重置时。如果计算窗口是空的,初始化模块132可以初始化组件Cd1 141为0。如果计算窗口是非空的,初始化模块132可以初始化组件Cd1 141为重置模块123传送的特定值贡献151。初始化模块138可以被用来初始化组件Cdv 或当自相关计算被重置时。如果计算窗口是空的,初始化模块138可以初始化组件Cdv 145为0。如果计算窗口是非空的,初始化模块138可以初始化组件Cdv 145为重置模块123传送的特定值贡献181。
增量算法包括为调整后计算窗口直接增量计算给定延迟为l的自相关的v个组件。增量算法133访问或接收上一轮计算的延迟为l的组件Cd1,调整前计算窗口两边各l个数据元素以及增加到调整前计算窗口的数据元素作为输入。增量算法133利用上一轮计算的延迟为l的组件Cd1,调整前计算窗口两边各l个数据元素以及增加到调整前计算窗口的数据元素直接增量计算一个延迟为l的新组件Cd1。贡献增加模块133A可以数学地增加被增加的数据元素的任何贡献到上一轮计算中为调整前计算窗口计算的延迟为l的组件Cd1中,从而得到调整后计算窗口的延迟为l的新组件Cd1。增量算法139以与增量算法133类似的方式工作。增量算法139访问或接收上一轮计算的延迟为l的组件Cdv,调整前计算窗口两边各l个数据元素以及增加到调整前计算窗口的数据元素作为输入。增量算法139利用上一轮计算的延迟为l的组件Cdv,调整前计算窗口两边各l个数据元素以及增加到调整前计算窗口的数据元素直接增量计算一个延迟为l的新组件Cdv。贡献增加模块139A可以数学地增加被增加的数据元素的任何贡献到上一轮计算中为调整前计算窗口计算的延迟为l的组件Cdv,从而得到调整后计算窗口的延迟为l的新组件Cdv。
参考图1-1,计算系统架构100A还包括自相关计算模块192。自相关计算模块192可根据需要基于一个或多个增量计算的给定延迟的自相关的组件生成给定延迟的自相关193。
计算系统可以继续接收新的数据元素,保存数据元素到数据缓冲区,调整计算窗口和计算窗口规模,在给定延迟l直接增量计算v(1≤v≤p)个组件,根据需要在给定延迟l计算自相关,并根据需要多次重复这个过程。
图1-2图示了为一个流数据增量计算自相关并且部分(v(1≤v<p))组件直接增量计算,部分(w=p-v)组件间接增量计算的一个例子计算系统架构100B。在一些实现中,计算系统架构100B和100A之间的区别是架构100B包括组件计算模块135。除此之外,和100A有同样标记号的部分都按同样的方式工作。为了不重复之前在100A描述里面解释过的东西,只有不同的部分会在这里讨论。100B里面的数字v和100A里面的数字v可能不同,因为有些100A里被直接增量计算的组件会在100B里被间接增量计算。在100A中,v=p>1,但在100B中,1≤v<p。参考图1-2,计算系统架构100B包括组件计算模块135。组件计算模块131的输出可以作为组件计算模块135的输入,计算模块131和135的输出可以作为自相关计算模块192的输入,自相关计算模块192可以生成自相关193。组件计算模块135通常包括w=p-v个组件计算模块来间接增量计算w个组件。例如,组件计算模块135包括组件计算模块163用于间接增量计算组件Ci1,组件计算模块164用于间接增量计算组件Ciw,以及它们之间的其它w-2个组件计算模块。间接增量计算w个组件包括一个一个地间接增量计算w个组件的每一个。间接增量计算一个组件包括访问和使用除该组件本身之外的一个或多个组件。那一个或多个组件可以是被初始化,直接增量计算或间接增量计算过的。一旦w=p-v个组件被间接增量计算,自相关计算模块192可以基于一个或多个增量计算过的组件计算给定延迟l的自相关193。
图2图示了为流化的大数据集或数据流增量算自相关的一个例子方法200的流程图。方法200会分别结合计算系统架构100A和100B的组件和数据一起描述。
方法200包括初始化一个计算窗口规模计数器n(n>1),以及一个数据缓冲区的一个流化的大数据集或数据流的指定规模为n(n>1)的调整前计算窗口的指定延迟为l(0<l<n)的自相关的p(p>1)个组件(201)。例如,计算窗口规模计数器118可以被初始化并保存在存储设备119中。初始化模块132可以用贡献151初始化给定延迟l的自相关的组件Cd1141。贡献151可以是121A和121B的数据元素在给定延迟l对组件Cd1的贡献。初始化模块138可以用贡献181初始化给定延迟l的自相关的组件Cdv145。贡献181可以是121A和121B的数据元素在给定延迟l对组件Cdv的贡献。
方法200包括当v<p即不是所有组件都被直接增量计算时,根据需要一个一个地间接增量计算w=p-v个组件中的每一个组件基于要计算组件之外的一个或多个组件。这w个组件只有当自相关被访问时才会被计算(209)。例如,参考图1-2其部分组件被直接增量计算而部分组件被间接增量计算,计算模块163可基于组件Ci1之外的一个或多个组件来间接增量计算组件Ci1,计算模块164可基于组件Ciw之外的一个或多个组件来间接增量计算组件Ciw。这一个或多个组件可以是初始化,直接增量计算,或间接增量计算过的。
方法200包括根据需要生成一个给定延迟的自相关。当自相关被访问时,该自相关会被基于一个或多个增量计算的组件生成(210),否则只有那v个组件被增量计算。
方法200包括接收一个要被加入到该调整前计算窗口的数据元素(202)。例如,数据元素101可以被接收。
方法200包括保存接收的数据元素到该数据缓冲区(203)。例如,接收数据元素101后,数据元素101可以被保存在数据缓冲区121。
方法200包括加入接收的数据元素到该调整前计算窗口中并调整计算窗口规模计数器n(204)。例如,数据元素101被加入到调整前的计算窗口122,然后调整前的计算窗口122转变成调整后计算窗口122A,计算窗口规模计数器118在接收数据元素101后会加1。
方法200包括为调整后计算窗口直接增量计算延迟为l的自相关的v(1≤v<p)个组件(205),包括:访问调整前计算窗口两边的各l个数据元素和新加入的数据元素(206);访问调整前计算窗口的延迟为l的自相关的v个组件(207);及向访问的每一个组件数学地加入被加入的数据元素的任何贡献(208)。细节描述如下。
为调整后计算窗口直接增量计算指定延迟l的自相关的v个组件包括访问调整前计算窗口中两边的各l个数据元素和被加入的数据元素(206)。例如,如果指定延迟l=1,增量算法133可访问在121A和121B的数据元素和加入的数据元素101。类似地,如果指定延迟l=1,增量算法139可访问在121A和121B的数据元素和加入的数据元素101。
为调整后计算窗口直接增量计算延迟为l的自相关的v个组件包括访问调整前计算窗口的延迟为l的自相关的v个组件(207)。例如,如果指定延迟l=1,增量算法133可访问延迟为1的组件Cd1 141,如果指定延迟l=2,增量算法133可访问延迟为2的组件Cd1141……。类似地,如果指定延迟l=1,增量算法139可访问延迟为1的组件Cdv 145,如果指定延迟l=2,增量算法139可访问延迟为2的组件Cdv 145……。
为调整后计算窗口直接增量计算延迟为l的自相关的v个组件包括向访问的每一个组件数学地加入被加入的数据元素的任何贡献(208)。例如,如果指定延迟l=1,直接增量计算延迟为1的组件Cd1 143可包括贡献加入模块133A向延迟为1的自相关的组件Cd1 141中数学地加入贡献152。类似地,直接增量计算延迟为1的组件Cdv 147可包括贡献加入模块139A向延迟为1的自相关的组件Cdv 145中数学地加入贡献182。贡献152和182来自于数据元素101。
如图1-1和1-2所示,组件Cd1 143包括贡献151(来自121A和121B的数据元素的贡献)和贡献152(来自数据元素101的贡献)。类似地,组件Cdv 147包括贡献181(来自121A和121B的数据元素的贡献)和贡献182(来自数据元素101的贡献)。
当自相关被访问并且v<p(即,不是所有组件都被直接增量计算)时,方法200包括根据需要间接增量计算w=p-v个延迟为l的组件(209)。这w个组件只有当自相关被访问时才会计算。例如,参考图1-2其部分组件直接增量计算,部分组件间接增量计算,计算模块163可以基于组件Ci1之外的一个或多个组件来间接增量计算组件Ci1,计算模块164可以基于组件Ciw之外的一个或多个组件来间接增量计算组件Ciw。这一个或多个组件可以是初始化,直接增量计算,或间接增量计算过的。
方法200包括在需要的基础上基于一个或多个初始化或增量计算的延迟为l的自相关的组件生成延迟为l的自相关(210)。当自相关被访问时,自相关会被基于一个或多个增量计算的组件生成;否则只有v个组件会被直接增量计算。当自相关被访问时,方法200包括根据需要基于一个或多个除了其组件本身之外的其它组件一个一个地间接增量计算延迟为l的自相关的w个组件(209),然后再生成延迟为l的自相关。例如,在架构100A中,自相关模块192可生成给定延迟的自相关193。在架构100B中,计算模块163可基于组件Ci1之外的一个或多个组件间接增量计算Ci1,及计算模块164可基于组件Ciw之外的一个或多个组件间接增量计算Ciw,……,自相关计算模块192可生成给定延迟的自相关193(210)。一旦给定延迟的的自相关被计算,方法200包括接收下一个流数据元素开始下一轮增量计算。每开始新一轮增量计算,上一轮的调整后计算窗口就变成新一轮增量计算的调整前计算窗口。
随着更多数据元素的访问202-208可以被重复,209-210可以根据需要被重复。例如,在数据元素101被接收以及组件Cd1 143到组件Cdv 147范围内的组件被计算之后,数据元素102可以被接收(202)。一旦一个新的数据元素被接收,方法200包括保存接收的数据元素到缓冲区(203)。方法200包括加入最新接收的数据元素到调整前计算窗口并调整计算窗口规模计数器(204)。例如,数据元素102可以被保存在数据缓冲区121并加入计算窗口122A,计算窗口规模计数器118在接收数据元素102后会加1。
方法200包括基于调整前计算窗口的v个组件为调整后计算窗口直接增量计算延迟为l的自相关的v个组件(205),这包括访问调整前计算窗口中两边的各l个数据元素及被加入的数据元素(206),访问v个组件(207),及向访问的每一个组件数学地加入被加入的数据元素的任何贡献(208)。例如,参考100A和100B,在指定延迟如l=1,算法133可用于为调整后的计算窗口122B直接增量计算延迟为1的组件Cd1 144基于为调整后的计算窗口122A计算的延迟为1的自相关的组件Cd1 143(205)。增量算法133可访问121A的数据元素和121C的数据元素(数据元素101)和数据元素102(206)。增量算法133可访问延迟为1的自相关的组件Cd1 143(207)。直接增量计算延迟为1的组件Cd1 144包括贡献加入模块133A向延迟为1的自相关的组件Cd1 143中数学地加入贡献153也即数据元素102的贡献(208)。类似地,在指定延迟如l=1,增量算法139可用于为调整后的计算窗口122B直接增量计算延迟为1的自相关的组件Cdv 148基于为调整后的计算窗口122A计算的延迟为1的自相关的组件Cdv 147。增量算法139可访问121A的数据元素和121C的数据元素(数据元素101)和数据元素102(206)。增量算法139可访问延迟为1的自相关的组件Cdv 147。直接增量计算延迟为1的自相关的组件Cdv 148包括贡献加入模块139A向延迟为1的组件Cdv 147中数学地加入贡献185也即数据元素102的贡献。
如图所示,延迟为l的自相关的组件Cd1 144包括其它贡献151(来自121A和121B的数据元素的贡献),贡献152(来自数据元素101的贡献),及贡献153(来自数据元素102的贡献),延迟为l的组件Cdv 148包括其它贡献181(来自121A和121B的数据元素的贡献),贡献182(来自数据元素101的贡献),及贡献183(来自数据元素102的贡献)。
方法200包括根据需要间接增量计算给定延迟的w个组件和自相关。
方法200包括,根据需要即只有自相关被访问时,间接增量计算给定延迟的w个组件和自相关。如果自相关不被访问,方法200包括继续为下一个计算窗口接收下一个要加入的数据元素(202)。如果自相关被访问,方法200包括间接增量计算给定延迟的w个组件(209),基于一个或多个增量计算的给定延迟的组件生成给定延迟的自相关(210)。
当下一个流数据元素被接收,组件Cd1 144可被用来直接增量计算下一个组件Cd1,组件Cdv 148可被用来直接增量计算下一个组件Cdv。
方法200包括重置211。重置211可以被用来重置增量自相关计算。当重置211在201或210之后调用时,计算窗口规模计数器和在给定延迟的自相关的v(1≤v≤p)个组件可以被初始化。例如,组件Cd1 141可以通过用计算窗口中的数据元素根据定义被初始化或初始化为一个给定的已算过的值。后者可以在结合增量自相关计算和迭代自相关计算或减量自相关计算时发生。组件Cdv 145可以以相似的方式初始化。
图3-1图示了在流数据上增量计算自相关时加入计算窗口300A左边的数据元素。计算窗口300A可以是空的或非空的。随着时间的推移,老的数据元素,例如xm+n,然后xm+n-1,然后xm+n-l可以加入计算窗口300A的左边。
图3-2图示了在流数据上增量计算自相关时计算窗口300A中被访问的数据元素。当300A是空的时,计算系统可以一直加入数据元素到300A直到数据元素的数量达到l+1,其中l是给定的延迟,然后再初始化两个或多个(v)组件。当300A是非空的时,v个组件可能已经被计算过。如果没有,v个组件可以基于300A的数据元素初始化。延迟l的v个组件可以通过计算窗口300A两边的l个数据元素,加入的数据元素以及调整前的计算窗口的v个组件直接增量计算。如果指定的延迟为1,计算窗口300A最左边的1个数据元素和最右边的1个数据元素和加入的数据元素会被访问。如果指定的延迟为2,计算窗口300A最左边的2个数据元素和最右边的2个数据元素和加入的数据元素会被访问。如果指定的延迟为l,计算窗口300A最左边的l个数据元素和最右边的l个数据元素和加入的数据元素会被访问。对于一个给定的增量算法,v是个常数,间接增量w=p-v个组件的操作数也是一个常数,所以对于一个给定的延迟,数据访问量和计算量被减少并且是常数。计算窗口规模n越大,则数据访问量和计算量的减少就越显著。
图3-3图示了在流数据上增量计算自相关时加入计算窗口300B右边的数据元素。计算窗口300A可以是空的或非空的。随着时间的推移,新的数据元素,例如xm+1,然后xm+2,然后xm+l+1可以加入计算窗口300B的右边。
图3-4图示了在流数据上增量计算自相关时计算窗口300B中被访问的数据。当300B是空的时,计算系统可以一直加入数据元素到300B直到数据元素的数量达到l+1,其中l是给定的延迟,然后再初始化两个或多个(v)组件。当300B是非空的时,v个组件可能已经被计算过。如果没有,v个组件可以基于300B的数据元素初始化。延迟l的v个组件可以通过计算窗口300B两边的l个数据元素,加入的数据元素以及调整前的计算窗口的v个组件直接增量计算。如果指定的延迟为1,计算窗口300B最左边的1个数据元素和最右边的1个数据元素和加入的数据元素会被访问。如果指定的延迟为2,计算窗口300B最左边的2个数据元素和最右边的2个数据元素和加入的数据元素会被访问。如果指定的延迟为l,计算窗口300B最左边的l个数据元素和最右边的l个数据元素和加入的数据元素会被访问。对于一个给定的增量算法,v是个常数,间接增量w=p-v个组件的操作数也是一个常数,所以对于一个给定的延迟,数据访问量和计算量被减少并且是常数。计算窗口规模n越大,则数据访问量和计算量的减少就越显著。
图4-1图示了自相关的定义。假设X={xi|i=m+1,…,m+n}是一个数据流的包含涉及自相关计算的数据的一个规模为n的计算窗口。假设过段时间一个新的数据元素xa加入来计算窗口X。每当一个数据元素被加入,计算窗口会被认为是一个新的计算窗口。一轮新的计算会开始每当自相关的任何组件因为计算窗口的数据变化需要被重算。
自相关的计算结果不仅和计算窗口中的每个数据元素的值有关,也和每个数据元素的顺序有关。所以加入数据元素在计算窗口中的不同位置需要不同的处理。有三种情况。第一,加入新的数据元素xa到计算窗口的最左边。第二,加入新的数据元素xa到计算窗口的最右边。第三,加入新的数据元素xa到计算窗口两边以外的任何位置。第三种情况在数据流上很少发生所以这里只讨论前两种情况。在这两种情况下计算一个或多个组件用到的方程不同。为了区分,定义第一种情况中的调整后的计算窗口为XI,第二种情况的为XII。
计算XI和XII的和及平均值的方程没有区别。方程401和402是分别为第k轮计算规模为n的计算窗口X里所有数据元素的总和Sk和平均值的传统方程。方程403是为第k轮计算计算窗口X的给定延迟为l的自相关ρ(k,l)的传统方程。方程404和405是分别为第k+1轮计算规模为n的调整后计算窗口里所有数据元素的总和Sk+1和平均值的传统方程。方程406是为第k+1轮计算调整后计算窗口XI的给定延迟为l的自相关ρI (k+1,l)的传统方程。方程407是为第k+1轮计算调整后计算窗口XII的给定延迟为l的自相关ρII (k+1,l)的传统方程。
为展示如何利用组件增量计算自相关,三个不同的增量自相关算法被提供作为例子。每当计算窗口有一个数据变化时新的一轮计算就开始了(例如,122→122A→122B)。一个和或平均值是计算自相关的基本组件。增量计算一个和或平均值的方程是被所有增量自相关计算算法都用到的增量组件方程。
图4-2说明第一个例子增量自相关计算算法(增量算法1)。方程401和402可分别被用来初始化组件Sk和/或方程408,409,和410可分别被用来初始化组件SSk,SXk,和covX(k,l)。方程411可用来生成自相关ρ(k,l)。当数据元素加入计算窗口的最左边时,增量算法1包括组件Sk+1或SSk+1,SXk+1,和covXI (k+1,l)的增量计算,一旦组件SXk+1和covXI (k+1,l)被计算,自相关ρI (k+1,l)可以基于它们来计算。一旦组件Sk和/或可用,方程412和413可分别被用来增量计算调整后计算窗口XI的组件Sk+1和一旦组件SSk可用,方程414可用于直接增量计算调整后计算窗口XI的组件SSk+1。一旦组件Sk+1或和SSk+1可用,方程415可用于间接增量计算调整后计算窗口XI的组件SXk+1。一旦组件covX(k,l),SSk+1,Sk或和Sk+1或可用,方程416可用于直接增量计算调整后计算窗口XI的组件covXI (k+1,l)。412,413,415,和416分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。一旦组件covXI (k+1,l)和SXk+1被计算,方程417可用于间接增量计算调整后计算窗口XI的给定延迟为l的自相关ρI (k+1,l)。当数据元素加入计算窗口的最右边时,增量算法1包括组件Sk+1或SSk+1,SXk+1,和covXII (k+1,l)的增量计算,一旦组件SXk+1和covXII (k+1,l)被计算,自相关ρII (k+1,l)可以基于它们来计算。方程418和419可分别被用来增量计算调整后计算窗口XII的组件Sk+1和一旦组件Sk和/或可用。方程420可用于直接增量计算调整后计算窗口XII的组件SSk+1一旦组件SSk可用。421可用于间接增量计算调整后计算窗口XII的组件SXk+1一旦组件Sk+1或和SSk+1可用。方程422可用于直接增量计算调整后计算窗口XII的组件covXII (k+1,l)一旦组件covX(k,l),SSK+1,Sk或和Sk+1或可用。418,419,421,和422分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者可用。方程423可用于间接增量计算调整后计算窗口XII的给定延迟为l的自相关ρII (k+1,l)一旦组件covXII (k+1,l)和SXk+1被计算。
图4-3说明第二个例子增量自相关计算算法(增量算法2)。方程401和402可分别被用来初始化组件Sk和/或方程424和425可分别被用来初始化组件SXk和covX(k,l)。方程426可用来计算自相关ρ(k,l)。当数据元素加入计算窗口的最左边时,增量算法2包括组件Sk+1或SXk+1,和covXI (k+1,l)的增量计算,一旦组件SXk+1和covXI (k+1,l)被计算,自相关ρI (k+1,l)可以基于它们来计算。一旦组件Sk和/或可用,方程427和428可分别被用来增量计算调整后计算窗口XI的组件Sk+1和一旦组件SXk,Sk+1和/或可用,方程429可用于直接增量计算调整后计算窗口XI的组件SXk+1。方程430可用于直接增量计算调整后计算窗口XI的组件covXI (k+1,l)一旦组件covX(k,l),Sk或和Sk+1或可用。427,428,429,和430分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。一旦组件covXI (k+1,l)和SXk+1被计算,方程431可用于间接增量计算调整后计算窗口XI的给定延迟为l的自相关ρI (k+1,l)。当数据元素加入计算窗口的最右边时,增量算法2包括组件Sk+1或SXk+1,和covXII (k+1,l)的增量计算,一旦组件SXk+1和covXII (k+1,l)被计算,自相关ρII (k+1,l)可以基于它们被计算。方程432和433可分别被用来增量计算调整后计算窗口XII的组件Sk+1和一旦组件Sk和/或可用。方程434可用于直接增量计算调整后计算窗口XII的组件SXk+1一旦组件SXk,Sk+1和/或可用。方程435可用于直接增量计算调整后计算窗口XII的组件covXII (k+1,l)一旦组件covX(k,l),Sk或以及Sk+1或可用。432,433,434,和435分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者可用。方程436可用于间接增量计算调整后计算窗口XII的给定延迟为l的自相关ρII (k+1,l)一旦组件covXII (k+1,l)和SXk+1被计算。
图4-4说明第三个例子增量自相关计算算法(增量算法3)。方程401和402可分别被用来初始化组件Sk和/或方程437和438可分别被用来初始化组件SXk和covX(k,l)。方程441可用来计算自相关ρ(k,l)。当数据元素加入计算窗口的最左边时,增量算法3包括组件Sk+1或SXk+1,和covXI (k+1,l)的增量计算,一旦组件SXk+1和covXI (k+1,l)被计算,自相关ρI (k+1,l)可以基于它们来计算。方程440和441可分别被用来增量计算调整后计算窗口XI的组件Sk+1和一旦组件Sk和/或可用。方程442可用于直接增量计算调整后计算窗口XI的组件SXk+1一旦组件SXk,Sk和/或以及Sk+1和/或可用。方程443可用于直接增量计算调整后计算窗口XI的组件covXI (k+1,l)一旦组件covX(k,l),Sk或以及Sk+1或可用。440,441,442,和443分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。方程444可用于间接增量计算调整后计算窗口XI的给定延迟为l的自相关ρI (k+1,l)一旦组件covXI (k+1,l)和SXk+1被计算。当数据元素加入计算窗口的最右边时,增量算法3包括组件Sk+1或SXk+1,和covXII (k+1,l)的增量计算,一旦组件SXk+1和covXII (k+1,l)被计算,自相关ρII (k+1,l)可以基于它们被计算。方程445和446可分别被用来增量计算调整后计算窗口XII的组件Sk+1和一旦组件Sk和/或可用。方程447可用于直接增量计算调整后计算窗口XII的组件SXk+1一旦组件SXk,Sk和/或以及Sk+1和/或可用。方程448可用于直接增量计算调整后计算窗口XII的组件covXII (k+1,l)一旦组件covX(k,l),Sk或以及Sk+1或可用。445,446,447,和448分别包含多个方程但分别只需要其中一个取决于是否和或平均值或两者都可用。一旦组件covXII (k+1,l)和SXk+1被计算,方程449可用于间接增量计算调整后计算窗口XII的给定延迟为l的自相关ρII (k+1,l)。
为展示增量自相关算法以及它们与传统算法的比较,下面给出三个例子。使用3个计算窗口的数据。对于传统算法,所有3个计算窗口的计算过程完全相同。对于增量算法,第一个计算窗口进行两个或多个组件的初始化,第二个和第三个计算窗口进行增量计算。
图5-1,图5-2,图5-3分别显示了用于一个计算实例的第一个计算窗口,第二个计算窗口,和第三个计算窗口。计算窗口503包括数据流501的4个数据元素:8,3,6,1。计算窗口规模503(n)是4。计算窗口504包括数据流501的5个数据元素:8,3,6,1,9。计算窗口规模505(n)是5。计算窗口505包括数据流501的6个数据元素:8,3,6,1,9,2。计算窗口规模507(n)是6。该计算实例假设数据元素加入计算窗口的最右边。数据流501可以是流化的大数据或流数据。
首先用传统算法分别计算计算窗口502,504,和506的延迟为1的自相关。
为计算窗口502计算延迟为1的自相关:
没有任何优化的情况下,为规模为4的计算窗口计算延迟为1的自相关共有2次除法,7次乘法,8次加法和10次减法。
相同的方程和过程可被用来分别为图5-2显示的计算窗口504计算延迟为1的自相关和为图5-3显示的计算窗口505计算延迟为1的自相关。为规模为5的计算窗口504延迟为1的自相关 这个计算中的每一个在没有优化的情况下包括2次除法,9次乘法,11次加法和13次减法。为规模为6的计算窗口506延迟为1的自相关 这个计算中的每一个在没有优化的情况下包括2次除法,11次乘法,14次加法和16次减法。传统算法在没有优化的情况下计算计算窗口规模为n给定延迟为l的自相关时通常需要完成2次除法,2n-l次乘法,3n-(l+3)次加法,和3n-2l次减法。
下面用增量算法1分别计算计算窗口502,504,和506的延迟为1的自相关。
为计算窗口502计算延迟为1的自相关:
2.用方程411计算第1轮的自相关ρ(1,1):
为计算窗口502计算延迟为1的自相关时共有2个除法,9个乘法,8个加法和7个减法。
为计算窗口504计算延迟为1的自相关:
covXII (2,1):
SS2=SS1+xa 2=110+92=110+81=191
2.用方程423计算第2轮的自相关ρII (2,1):
计算窗口504增量计算延迟为1的自相关时共有2个除法,8个乘法,7个加法和6个减法。
为计算窗口506计算延迟为1的自相关:
covXII (3,1):
SS3=SS2+xa 2=191+22=191+4=195
2.用方程423计算第3轮的自相关ρII (3,1):
为计算窗口506计算延迟为1的自相关时共有2个除法,8个乘法,7个加法和6个减法。
下面用增量算法2分别计算计算窗口502,504,和506的延迟为1的自相关。
为计算窗口502计算延迟为1的自相关:
2.用方程426计算第1轮的自相关ρ(1,1):
为计算窗口502计算延迟为1的自相关时共有2个除法,9个乘法,8个加法和7个减法。
为计算窗口504计算延迟为1的自相关:
2.用方程436计算第2轮的自相关ρII (2,1):
计算窗口504增量计算延迟为1的自相关时共有2个除法,6个乘法,7个加法和7个减法。
为计算窗口506计算延迟为1的自相关:
2.用方程436计算第3轮的自相关ρII (3,1):
计算窗口506增量计算延迟为1的自相关时共有2个除法,6个乘法,7个加法和7个减法。
下面用增量算法3分别计算计算窗口502,504,和506的延迟为1的自相关。
为计算窗口502计算延迟为1的自相关:
2.用方程439计算第1轮的自相关ρ(1,1):
为计算窗口502计算延迟为1的自相关时共有2个除法,9个乘法,8个加法和7个减法。
为计算窗口504计算延迟为1的自相关:
2.用方程449计算第2轮的自相关ρII (2,1):
计算窗口504增量计算延迟为1的自相关时共有2个除法,5个乘法,7个加法和7个减法。
为计算窗口506计算延迟为1的自相关:
用方程449计算第3轮的自相关ρII (3,1):
计算窗口506增量计算延迟为1的自相关时共有2个除法,5个乘法,7个加法和7个减法。
在以上三个例子中,平均值被用于增量自相关计算。和也可被用于自相关增量计算,只是操作数不同。另外,上述三个例子中数据元素是加入计算窗口最右边的。当数据元素是加入计算窗口最左边时其计算过程类似只是应用一组不同的方程。
图6-1图示了n=6延迟为1时,传统自相关算法和增量自相关算法的计算量对比。如图所示,任何一个增量算法和传统算法的除法操作,乘法操作,加法操作和减法操作都差不多。
图6-2图示了n=1,000,000延迟为1时,传统自相关算法和增量自相关算法的计算量对比。如图所示,任何一个增量算法都比传统算法少很多乘法操作,加法操作和减法操作。增量自相关算法把需要在成千上万台计算机上处理的数据只在单机上就能完成。大大提高计算效率,减少计算资源,降低计算系统能耗,使得实时判断流数据自身给定延迟重复性高效低耗及一些实时判断流数据自身给定延迟重复性的场景从不可能变为可能。
本发明可以在不脱离其思想或本质特征的情况下以其它特定的方式来实现。本申请描述的实现方案从各个方面来说是仅作为示范性的而不是限制性的。因此,本发明的范围由附加的权利要求书而不是前面的描述来指明。与权利要求书中权利要求的含义和范围等价的所有变化都包含在它们的范围内。
Claims (10)
1.一种由基于一台或多台计算设备构成的计算系统实现的方法,其特征在于:由基于计算设备的一个计算系统,为一个数据流的一个调整前计算窗口,初始化一个计算窗口规模计数器n(n>1),一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件,该计算窗口计数器指定了该调整前计算窗口包含的数据元素个数,该调整前计算窗口的数据元素被存储于该计算系统的一个缓冲区中;
由基于计算设备的该计算系统,接收一个数据元素;
由基于计算设备的该计算系统,存储接收的数据元素到该缓冲区中;
由基于计算设备的该计算系统,调整该调整前计算窗口,通过:
向该调整前计算窗口加入接收的数据元素;以及
调整计算窗口规模计数器;
由基于计算设备的该计算系统,至少基于该调整前计算窗口的延迟为l的自相关的两个以上组件,为调整后计算窗口增量计算延迟为l的自相关的两个以上组件,并且在增量计算该两个以上组件的过程中避免访问和使用该调整后计算窗口中的所有数据元素来降低数据访问延迟,提高计算效率,节省计算资源和降低该计算系统能耗;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算窗口增量计算的组件,为调整后计算窗口生成延迟为l的自相关。
2.按照权利要求1所述的由计算系统实现的该方法,其特征在于:所述接收一个要加入的数据元素包括接收多个要加入调整前计算窗口的数据元素,该方法也进一步包括对于多个要加入的数据元素中的每一个数据元素进行存储接收的数据元素到该缓冲区中,调整调整前计算窗口,增量计算两个以上组件,以及为调整后计算窗口生成延迟为l的自相关。
3.按照权利要求2所述的由计算系统实现的该方法,其特征在于:所述为调整后计算窗口生成延迟为l的自相关当且仅当该自相关被访问时。
4.按照权利要求3所述的由计算系统实现的该方法,其特征在于:所述为调整后计算窗口生成延迟为l的自相关进一步包括由基于计算设备的计算系统为调整后计算窗口间接增量计算延迟为l的自相关的一个或多个组件,间接增量计算这一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当它们被一个或多个处理器中的至少一个处理器执行时,执行一个方法,该方法包括:
a.为一个数据流的存储于该计算系统上一个或多个存储设备上的一个缓冲区的一个调整前计算窗口,初始化一个计算窗口规模计数器n(n>1),一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件,该计算窗口计数器指定了该调整前计算窗口包含的数据元素个数;
b.接收一个要加入到该调整前计算窗口的数据元素;
c.保存该数据元素到该缓冲区;
d.调整该调整前计算窗口,包括:
向该调整前计算窗口中加入接收的数据元素;以及
调整计算窗口规模计数器;
e.至少基于该调整前计算窗口的延迟为l的自相关的两个以上组件,为该调整后计算窗口增量计算延迟为l的自相关的两个以上组件,并且在增量计算该两个以上组件的过程中避免访问和使用调整后计算窗口中的所有数据元素来降低数据访问延迟,提高计算效率,节省计算资源和降低该计算系统能耗;以及
f.基于一个或多个为调整后计算窗口增量计算的组件,为调整后计算窗口生成延迟为l的自相关。
6.按照权利要求5所述的该计算系统,其特征在于:该一个或多个计算模块,当它们被一个或多个处理器中的至少一个处理器执行时,多次执行b,c,d,e,和f。
7.按照权利要求6所述的该计算系统,其特征在于:执行f当且仅当该调整后计算窗口的延迟为l的自相关被访问时。
8.按照权利要求7所述的该计算系统,其特征在于:执行f进一步包括由该计算系统为调整后计算窗口间接增量计算延迟为l的自相关的一个或多个组件,间接增量计算这一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算这一个或多个组件。
9.一个计算系统程序产品,运行于一个包含一个或多个计算设备的计算系统,该计算系统包括一个或多个处理器以及一个或多个存储媒体,该计算系统程序产品包含多条计算设备可执行指令,当这些计算设备可执行指令被该计算系统中的至少一台计算设备运行时,使得该计算系统执行一个方法,其特征在于:
为一个数据流的存储于该计算系统至少一个存储媒体上的一个缓冲区的一个调整前计算窗口,初始化一个计算窗口规模计数器n(n>1),一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件,该计算窗口计数器指定了该调整前计算窗口包含的数据元素个数;
接收一个要加入到该调整前计算窗口的数据元素;
保存接收的数据元素到缓冲区中;
调整该调整前计算窗口,通过:
向该调整前计算窗口加入要加入的数据元素;以及
调整计算窗口规模计数器;
至少基于该调整前计算窗口的延迟为l的自相关的两个以上组件,为该调整后计算窗口增量计算延迟为l的自相关的两个以上组件,并且在增量计算该两个以上组件的过程中避免访问和使用该调整后计算窗口中的所有数据元素来降低数据访问延迟,提高计算效率,节省计算资源和降低该计算系统能耗;以及
基于一个或多个为调整后计算窗口增量计算的组件,为调整后计算窗口生成延迟为l的自相关。
10.权利要求9所述的计算系统程序产品,其特征在于:所述为调整后计算窗口产生延迟为l的自相关进一步包括为调整后计算窗口间接增量计算延迟为l的自相关的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910478170.3A CN112035521A (zh) | 2019-06-03 | 2019-06-03 | 一种实时判断流数据自身给定延迟重复性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910478170.3A CN112035521A (zh) | 2019-06-03 | 2019-06-03 | 一种实时判断流数据自身给定延迟重复性的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112035521A true CN112035521A (zh) | 2020-12-04 |
Family
ID=73576174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910478170.3A Pending CN112035521A (zh) | 2019-06-03 | 2019-06-03 | 一种实时判断流数据自身给定延迟重复性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035521A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113552190A (zh) * | 2021-07-26 | 2021-10-26 | 电子科技大学长三角研究院(湖州) | 面向老化监测的传感器总成积分筛选系统及其筛选方法 |
CN118331509A (zh) * | 2024-06-14 | 2024-07-12 | 合肥开梦科技有限责任公司 | 数据写入控制方法与存储装置 |
-
2019
- 2019-06-03 CN CN201910478170.3A patent/CN112035521A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113552190A (zh) * | 2021-07-26 | 2021-10-26 | 电子科技大学长三角研究院(湖州) | 面向老化监测的传感器总成积分筛选系统及其筛选方法 |
CN118331509A (zh) * | 2024-06-14 | 2024-07-12 | 合肥开梦科技有限责任公司 | 数据写入控制方法与存储装置 |
CN118331509B (zh) * | 2024-06-14 | 2024-08-27 | 合肥开梦科技有限责任公司 | 数据写入控制方法与存储装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150278159A1 (en) | Iteratively calculating standard deviation for streamed data | |
US9928215B1 (en) | Iterative simple linear regression coefficient calculation for streamed data using components | |
US10659369B2 (en) | Decremental autocorrelation calculation for big data using components | |
US9760539B1 (en) | Incremental simple linear regression coefficient calculation for big data or streamed data using components | |
CN112035521A (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
US10225308B1 (en) | Decremental Z-score calculation for big data or streamed data using components | |
US10235415B1 (en) | Iterative variance and/or standard deviation calculation for big data using components | |
US10310910B1 (en) | Iterative autocorrelation calculation for big data using components | |
US10235414B1 (en) | Iterative kurtosis calculation for streamed data using components | |
US10394809B1 (en) | Incremental variance and/or standard deviation calculation for big data or streamed data using components | |
US10079910B1 (en) | Iterative covariance calculation for streamed data using components | |
CN112035520A (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
US10191941B1 (en) | Iterative skewness calculation for streamed data using components | |
US10394810B1 (en) | Iterative Z-score calculation for big data using components | |
US10282445B1 (en) | Incremental kurtosis calculation for big data or streamed data using components | |
CN110515680B (zh) | 一种实时判断大数据自身给定延迟重复性的方法 | |
CN110515681B (zh) | 一种实时判断流数据自身给定延迟重复性的方法 | |
CN112035791A (zh) | 一种实时判断大数据自身给定延迟重复性的方法 | |
CN110457340B (zh) | 一种实时寻找大数据自身重复规律的方法 | |
US10339136B1 (en) | Incremental skewness calculation for big data or streamed data using components | |
CN112035792A (zh) | 一种实时判断大数据自身给定延迟重复性的方法 | |
CN111708972A (zh) | 一种实时判断流数据分布密度集中程度的方法 | |
CN110363321B (zh) | 一种实时预测大数据变化趋势的方法 | |
CN112035505A (zh) | 一种实时判断大数据分布密度集中程度的方法 | |
CN111488380A (zh) | 一种实时判断流数据分布不对称性的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |