CN105989104B

CN105989104B - 一种确定大数据流中的特殊数据项的方法及装置

Info

Publication number: CN105989104B
Application number: CN201510080264.7A
Authority: CN
Inventors: 阿尔伯特·比非特; 欧阳军; 范伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2019-09-03
Anticipated expiration: 2035-02-13
Also published as: CN105989104A

Abstract

本发明提供确定大数据流中的特殊数据项的方法及装置，涉及计算机领域，能够比较准确确定大数据流中的特殊数据项。包括在采样周期内获取采样的n个数据项，用先获取的k个均不相同的数据项形成队列；若k个均不相同的数据项后获取的第m个数据项与队列的一数据项相同，则对该数据项计数后移至队列的队首；若第m个数据项与队列的数据项均不同，则将队列队尾的数据项换为第m个数据项，并对该数据项计数后移至队列的队首；每经过预设时间根据k个计数器的值、前次估算的k个数据项的出现频率和计算公式，估算k个数据项的出现频率；数据流采样周期后，根据最终估算的k个数据项的出现频率，确定出现频率满足预设阈值的数据项为特殊数据项。

Description

一种确定大数据流中的特殊数据项的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种确定大数据流中的特殊数据项的方法及装置。

背景技术

由于大数据流中蕴含着丰富的信息，因此人们可以通过分析这些大数据流从中获得有用信息。从而在大数据流分析系统中，如何确定大数据流中的特殊数据项，例如突发数据项或频繁数据项成为人们的研究热点。其中，突发数据项是指在大数据流中出现次数最少的一个或多个数据项，频繁数据项是指在大数据流中出现次数最多的一个或多个数据项。

通常，确定大数据流中的特殊数据项的一种常用算法为空间节省法。该空间节省法具体可以为在本地内存中存储k对元素(k为需要确定的特殊数据项的个数，元素包括特殊数据项和与特殊数据项对应的计数器)，并在对大数据流进行采样的数据流采样周期内，使用最先接收的大数据流中的k个均不相同的数据项和k个均不相同的数据项的出现次数对k对元素进行赋值，以及当接收到一个新的数据项时，判断该新的数据项是否被统计过，如果该新的数据项被统计过，则使与该新的数据项对应的计数器加1，如果该新的数据项未被统计过，则用该新的数据项替换k个数据项中计数最小的数据项，并将与该计数最小的数据项对应的计数器清空后加1。以此类推，当数据流采样周期结束后，本地内存中存储的k个数据项即为大数据流中的特殊数据项。

然而，当大数据流中的某个特殊数据项的分布随时间变化(即特殊数据项在每段时间内的出现次数是不同的)时，采用空间节省法可能无法准确地确定到该特殊数据项。例如，假设数据流采样周期内，大数据流为{ABCDACBDABDCABCDDCBABCD}，若需确定该大数据流中的三个频繁数据项(即应该确定出的三个频繁数据项为数据项B(6次)、数据项C(6次)和数据项D(6次))，则当采用上述空间节省法确定该大数据流中的三个频繁数据项时，最终获得的三个频繁数据项为数据项A(5次)、数据项B(6次)和数据项D(1次)。因此采用空间节省法无法准确地确定大数据流中的特殊数据项。

发明内容

本发明提供一种确定大数据流中的特殊数据项的方法及装置，能够通过比较准确地估算数据项的出现频率，从而比较准确地确定大数据流中的特殊数据项。

第一方面，本发明提供一种确定大数据流中的特殊数据项的方法，包括：

在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用所述n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，所述k个均不相同的数据项一一对应k个均不相同的计数器，所述k个均不相同的计数器中的每个计数器用于统计形成所述数据项队列之前与该计数器对应的数据项的出现次数，n为正整数，k为正整数，k≤n；

若所述n个数据项中在所述k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与所述第一数据项对应的第一计数器加i，并将所述第一数据项和所述第一计数器移动至所述前一次更新后的数据项队列的队首，所述第一数据项为所述前一次更新后的数据项队列中的任意一个数据项，其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，m的值依次从k+1取到n，m为整数，i为正整数；

若所述第m个数据项与所述前一次更新后的数据项队列中的各个数据项均不相同，则将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，并将与所述第m个数据项对应的第二计数器设置为i，以及将所述第m个数据项和所述第二计数器移动至所述前一次更新后的数据项队列的队首，所述第二数据项为位于所述前一次更新后的数据项队列的队尾的数据项，其中，当m＝k+1时，所述前一次更新后的数据项队列为形成的数据项队列，m的值依次从k+1取到n，m为整数，i为正整数；

每经过预设时间后，根据所述k个均不相同的计数器的值、前一次估算的所述k个均不相同的数据项的出现频率和预设的计算公式，估算所述k个均不相同的数据项的出现频率，所述预设时间小于或等于所述数据流采样周期，其中，第一次估算所述k个均不相同的数据项的出现频率时采用的所述前一次估算的所述k个均不相同的数据项的出现频率为0；

在所述数据流采样周期后，根据最后一次估算的所述k个均不相同的数据项的出现频率，确定所述k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项。

在第一方面的第一种可能的实现方式中，

所述计算公式为：f_t＝λz_t+(1-λ)f_t-1；

其中，t表示时刻；f_t表示t时刻数据项的出现频率；z_t表示t时刻数据项的统计次数或统计频率，所述统计次数为与所述数据项对应的计数器的值，所述统计频率为所述计数器的值与数据项队列中全部计数器的值之和的比值；λ表示预设的z_t的加权值；f_t-1表示t-1时刻数据项的出现频率。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，

所述形成后的数据项队列中的所述k个均不相同的数据项按照所述k个均不相同的计数器的值由大到小顺序排列。

结合第一方面或第一方面的第一种可能的实现方式至第二种可能的实现方式中的任一种实现方式，在第三种可能的实现方式中，所述将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，包括：

从所述前一次更新后的数据项队列中删除所述第二数据项，并将所述第m个数据项添加到所述前一次更新后的数据项队列中，所述第m个数据项在所述前一次更新后的数据项队列中的位置与所述第二数据项在所述前一次更新后的数据项队列中的位置相同。

结合第一方面或第一方面的第一种可能的实现方式至第三种可能的实现方式中的任一种实现方式，在第四种可能的实现方式中，所述特殊数据项为频繁数据项或者突发数据项，

所述确定所述k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项，包括：

确定所述k个均不相同的数据项中出现频率大于或等于所述预设阈值的至少一个数据项为所述频繁数据项；或者

确定所述k个均不相同的数据项中出现频率小于所述预设阈值的至少一个数据项为所述突发数据项。

第二方面，本发明提供一种确定大数据流中的特殊数据项的装置，包括：

获取单元，用于在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用所述n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，所述k个均不相同的数据项一一对应k个均不相同的计数器，所述k个均不相同的计数器中的每个计数器用于统计形成所述数据项队列之前与该计数器对应的数据项的出现次数，n为正整数，k为正整数，k≤n；

处理单元，用于若所述n个数据项中所述获取单元在所述k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与所述第一数据项对应的第一计数器加i，并将所述第一数据项和所述第一计数器移动至所述前一次更新后的数据项队列的队首，所述第一数据项为所述前一次更新后的数据项队列中的任意一个数据项；若所述获取单元获取的所述第m个数据项与所述前一次更新后的数据项队列中的各个数据项均不相同，则将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，并将与所述第m个数据项对应的第二计数器设置为i，以及将所述第m个数据项和所述第二计数器移动至所述前一次更新后的数据项队列的队首，所述第二数据项为位于所述前一次更新后的数据项队列的队尾的数据项；其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，m的值依次从k+1取到n，m为整数，i为正整数；

估算单元，用于在每经过预设时间后，根据所述处理单元增加后的所述k个均不相同的计数器的值、前一次估算的所述k个均不相同的数据项的出现频率和预设的计算公式，估算所述k个均不相同的数据项的出现频率，所述预设时间小于或等于所述数据流采样周期，其中，第一次估算所述k个均不相同的数据项的出现频率时采用的所述前一次估算的所述k个均不相同的数据项的出现频率为0；

确定单元，用于在所述数据流采样周期后，根据所述估算单元最后一次估算的所述k个均不相同的数据项的出现频率，确定所述k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项。

在第二方面的第一种可能的实现方式中，

所述计算公式为：f_t＝λz_t+(1-λ)f_t-1；

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，

所述获取单元形成后的数据项队列中的所述k个均不相同的数据项按照所述k个均不相同的计数器的值由大到小顺序排列。

第三方面，本发明提供一种确定大数据流中的特殊数据项的装置，包括：

处理器，用于在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用所述n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，所述k个均不相同的数据项一一对应k个均不相同的计数器，所述k个均不相同的计数器中的每个计数器用于统计形成所述数据项队列之前与该计数器对应的数据项的出现次数；且若所述n个数据项中在所述k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与所述第一数据项对应的第一计数器加i，并将所述第一数据项和所述第一计数器移动至所述前一次更新后的数据项队列的队首，所述第一数据项为所述前一次更新后的数据项队列中的任意一个数据项；若所述第m个数据项与所述前一次更新后的数据项队列中的各个数据项均不相同，则将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，并将与所述第m个数据项对应的第二计数器设置为i，以及将所述第m个数据项和所述第二计数器移动至所述前一次更新后的数据项队列的队首，所述第二数据项为位于所述前一次更新后的数据项队列的队尾的数据项；并在每经过预设时间后，根据所述k个均不相同的计数器的值、前一次估算的所述k个均不相同的数据项的出现频率和预设的计算公式，估算所述k个均不相同的数据项的出现频率，所述预设时间小于或等于所述数据流采样周期，其中，第一次估算所述k个均不相同的数据项的出现频率时采用的所述前一次估算的所述k个均不相同的数据项的出现频率为0；以及在所述数据流采样周期后，根据最后一次估算的所述k个均不相同的数据项的出现频率，确定所述k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项；其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，n为正整数，k为正整数，k≤n，m的值依次从k+1取到n，m为整数，i为正整数。

在第三方面的第一种可能的实现方式中，

所述计算公式为：f_t＝λz_t+(1-λ)f_t-1；

结合第三方面或第三方面的第一种可能的实现方式，在第二种可能的实现方式中，

所述处理器形成后的数据项队列中的所述k个均不相同的数据项按照所述k个均不相同的计数器的值由大到小顺序排列。

本发明提供一种确定大数据流中的特殊数据项的方法及装置，通过在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，k个均不相同的数据项一一对应k个均不相同的计数器，k个均不相同的计数器中的每个计数器用于统计形成该数据项队列之前与该计数器对应的数据项的出现次数；若n个数据项中在k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与第一数据项对应的第一计数器加i，并将第一数据项和第一计数器移动至前一次更新后的数据项队列的队首，第一数据项为前一次更新后的数据项队列中的任意一个数据项；若第m个数据项与前一次更新后的数据项队列中的各个数据项均不相同，则将前一次更新后的数据项队列中的第二数据项替换为第m个数据项，并将与第m个数据项对应的第二计数器设置为i，以及将第m个数据项和第二计数器移动至前一次更新后的数据项队列的队首，第二数据项为位于前一次更新后的数据项队列的队尾的数据项；并在每经过预设时间后，根据k个均不相同的计数器的值、前一次估算的k个均不相同的数据项的出现频率和预设的计算公式，估算k个均不相同的数据项的出现频率，预设时间小于或等于数据流采样周期，其中，第一次估算k个均不相同的数据项的出现频率时采用的前一次估算的k个均不相同的数据项的出现频率为0；以及在数据流采样周期后，根据最后一次估算的k个均不相同的数据项的出现频率，确定k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项；其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，n为正整数，k为正整数，k≤n，m的值依次从k+1取到n，m为整数，i为正整数。

基于本发明提供的上述技术方案，由于本发明可以在数据流采样周期内统计获取的各个数据项的出现次数，并根据各个数据项及各个数据项的出现次数实时更新数据项队列，以及每经过预设时间后，通过数据项队列中的k个均不相同的数据项的出现次数、前一次估算的k个均不相同的数据项的出现频率及预设的计算公式估算数据项队列中的k个均不相同的数据项的出现频率，如此本发明提供的技术方案可以实时估算数据项的出现频率，且本次估算k个均不相同的数据项的出现频率时参考了前一次估算的k个均不相同的数据项的出现频率，即估算的数据项的出现频率随时间的变化而变化，从而可以保证估算的数据项的出现频率相对比较准确，进而能够根据数据项的出现频率，比较准确地确定大数据流中的特殊数据项。

附图说明

图1为本发明实施例提供的一种确定大数据流中的特殊数据项的方法流程图；

图2为本发明实施例提供的一种确定大数据流中的特殊数据项的方法的仿真示意图；

图3为本发明实施例提供的一种确定大数据流中的特殊数据项的装置的结构示意图；

图4为本发明实施例提供的一种确定大数据流中的特殊数据项的装置的硬件示意图。

具体实施方式

本发明实施例提供的一种确定大数据流中的特殊数据项的方法及装置可以应用于大数据流分析系统中。大数据流分析系统通过对大数据流进行分析，可以从大数据流中获得有用信息。举例来说，大数据流分析系统通过对大数据流进行分析，可以从大数据流中确定出人们的研究热点或关注度较高的信息，例如大数据流中的特殊数据项(特殊数据项可以理解为突发数据项或频繁数据项)。

一种可能的应用场景为互联网广告，互联网广告每时每刻都在更新，并产生大量的信息，这些大量的信息可以理解为大数据流。若在互联网广告中需要优化广告展示配置(例如在某个社交网站上优化广告展示配置等)，则需要从互联网广告产生的大数据流中提取出频繁出现的数据项，即频繁数据项(例如某个社交网站上频繁出现的用户信息等)，这样可以通过对这些频繁数据项进行分析，确定出优化广告展示配置的优化策略。

另一种可能的应用场景为网络流量监测，网络中传输数据时，数据以数据包的形式连续传输，这些连续传输的数据包可以理解为大数据流。若需要有效避免网络阻塞，提高网络传输性能，则需要在网络流量监测过程中能够发现异常流量，即从大数据流中发现异常数据包，该异常数据包也可称为突发数据项，这样可以通过对突发数据项进行分析，确定出突发数据项出现的原因，从而通过制定合理的策略消除该突发数据项，进而有效避免网络阻塞，提高网络传输性能。

本发明实施例提供的确定大数据流中的特殊数据项的方法的执行主体可以为确定大数据流中的特殊数据项的装置，该确定大数据流中的特殊数据项的装置可以为上述大数据流分析系统或者大数据流分析系统中的分析单元/模块/器等。

下面结合附图，通过具体的实施例及其应用场景对本发明实施例提供的一种确定大数据流中的特殊数据项的方法及装置进行详细地说明。

实施例一

本发明实施例提供一种确定大数据流中的特殊数据项的方法，如图1所示，该方法可以包括：

S101、在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用n个数据项中最先获取到的k个均不相同的数据项形成数据项队列。

其中，k个均不相同的数据项一一对应k个均不相同的计数器，k个均不相同的计数器中的每个计数器用于统计形成数据项队列之前与该计数器对应的数据项的出现次数，n为正整数，k为正整数，k≤n。

本发明实施例中，若需获取大数据流中的有用信息，例如大数据流中的特殊数据项，则可以设定一个采样周期，并在该采样周期内依次获取大数据流中的各个数据项，即n个数据项，其中，采样周期内的数据流也可以称为采样数据流。

特别的，本发明实施例提供的特殊数据项可以为在大数据流中出现次数最多的数据项，这些出现次数最多的数据项可称为频繁数据项；特殊数据项也可以为在大数据流中出现次数最少的数据项，这些出现次数最少的数据项可称为突发数据项。具体的，本发明需要确定的特殊数据项为频繁数据项还是突发数据项可根据实际需求进行选择，在此不作限制。

S102、若n个数据项中在k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与第一数据项对应的第一计数器加i，并将第一数据项和第一计数器移动至前一次更新后的数据项队列的队首，第一数据项为前一次更新后的数据项队列中的任意一个数据项。

其中，当m＝k+1时，前一次更新后的数据项队列为形成后的数据项队列，即为n个数据项中最先获取到的k个均不相同的数据项形成后的数据项队列，m的值依次从k+1取到n，m为整数，i为正整数。

本发明实施例中，获取到n个数据项之后，需要先采用该n个数据项中最先获取到的k个均不相同的数据项形成一个数据项队列，并将该n个数据项中在k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中已经存在的数据项一一进行对比，若第m个数据项与前一次更新后的数据项队列中的第一数据项相同，即第m个数据项已经在前一次更新后的数据项队列中存在，则将与第一数据项对应的第一计数器加i，并将第一数据项和第一计数器移动至前一次更新后的数据项队列的队首。其中，第一数据项为前一次更新后的数据项队列中的任意一个数据项。

需要说明的是，数据项队列中的k个数据项均不相同，每个数据项均对应一个计数器，用于对该数据项的出现次数计数。

进一步地，由于数据项队列中只能包含k个均不相同的数据项，因此通过S102对第m个数据项的出现次数进行计数后，需要将第m个数据项移动至数据项队列的队首，这样能够保证在长时间未获取到与第m个数据项相同的数据项时，第m个数据项不会被替换，从而防止第m个数据项丢失而导致最终确定的特殊数据项不够准确的现象。

特别的，在一次采样中，即上述的数据流采样周期内，i的取值为一个确定的正整数。这样可以保证在增加计数器的值时，为与每个数据项对应的计数器都加相同的值，从而能够保证统计的每个数据项的出现次数的准确性。

优选的，i的取值为1，这样可以保证与数据项对应的计数器的值即为该数据项的真实的出现次数。

S103、若第m个数据项与前一次更新后的数据项队列中的各个数据项均不相同，则将前一次更新后的数据项队列中的第二数据项替换为第m个数据项，并将与第m个数据项对应的第二计数器设置为i，以及将第m个数据项和第二计数器移动至前一次更新后的数据项队列的队首，第二数据项为位于前一次更新后的数据项队列的队尾的数据项。

本发明实施例中，对第m个数据项的出现次数统计时，需要将第m个数据项与前一次更新后的数据项队列中已经存在的k个均不相同的数据项一一进行对比，若第m个数据项与数据项队列中的各个数据项均不相同，则用第m个数据项替换前一次更新后的数据项队列中的第二数据项，并将与第m个数据项对应的第二计数器设置为i，即统计第m个数据项的出现次数，以及将第m个数据项和第二计数器移动至前一次更新后的数据项队列的队首，第二数据项为位于前一次更新后的数据项队列的队尾的数据项。

其中，第二计数器的设置方式可以为下述的一种：

(1)将与第二数据项对应的计数器清零后的计数器作为第二计数器。

(2)重新设置一个新的计数器作为第二计数器。

其中，若采用上述(1)的方法，由于可以不用再为第m个数据项重新设置一个新的计数器，因此实现非常方便，且能够节省计数器的资源。若采用上述(2)的方法，可以保证对第m个数据项的计数比较准确，能够防止采用上述(1)的方法时对与第二数据项对应的计数器清零或将与第二数据项对应的计数器作为与第二计数器时出现错误导致的对第m个数据项计数不够准确的问题。

进一步地，上述(2)中，当为第m个数据项重新设置一个新的计数器时，可以将与第二数据项对应的计数器删除，从而节省计数器的资源。

具体的为第m个数据项设置计数器的方法，可以根据实际需求进行选择，本发明不作具体限定。

进一步地，由于数据项队列中只能包含k个均不相同的数据项，因此通过S103对第m个数据项的出现次数进行计数后，需要将第m个数据项移动至数据项队列的队首，这样能够保证在长时间未获取到与第m个数据项相同的数据项时，第m个数据项不会被替换，从而防止第m个数据项丢失而导致最终确定的特殊数据项不够准确的现象。

需要说明的是，本发明实施例中，对获取到的采样数据流中的n个数据项中在k个均不相同的数据项之后获取的数据项中的每一个数据项，均可以通过执行S102或者S103统计这些数据项的出现次数。即若n个数据项中在k个均不相同的数据项之后获取的数据项中的第m个数据项满足S102的条件(第m个数据项与前一次更新后的数据项队列中的一个数据项，例如与第一数据项相同)，则执行S102；若第m个数据项满足S103的条件(第m个数据项与前一次更新后的数据项队列中的各个数据项均不相同)，则执行S103。

S104、每经过预设时间后，根据k个均不相同的计数器的值、前一次估算的k个均不相同的数据项的出现频率和预设的计算公式，估算k个均不相同的数据项的出现频率。

其中，预设时间小于或等于数据流采样周期，其中，第一次估算k个均不相同的数据项的出现频率时采用的前一次估算的k个均不相同的数据项的出现频率为0。

具体的，本发明实施例提供的预设的计算公式为指数加权移动平均(英文：exponentially weighted moving-average，缩写：EWMA)技术的计算公式，即本发明实施例具体为每经过预设时间后，采用EWMA技术，估算k个均不相同的数据项的出现频率。

其中，EWMA技术是指通过创建数据集的一系列完整的不同子集的平均值来分析数据点。本发明实施例中EWMA为计算不同时刻数据项队列中k个均不相同的数据项的出现频率，从而可以从中确定出满足预设阈值的特殊数据项(这些特殊数据项组成频繁数据项集或突发数据项集)。

本发明实施例中，在对采样数据流中的n各数据项的出现次数进行计数过程中，在每经过预设时间后，可以根据统计的目前数据项队列中的k个均不相同的计数器的值(即为统计的k个均不相同的数据项的出现次数)、前一次估算的k个均不相同的数据项的出现频率和预设的EWMA技术的计算公式，估算目前数据项队列中的k个均不相同的数据项的出现频率。

其中，上述预设时间可以根据实际需求进行设置，本发明对此不作限制。例如假设数据流采样周期为100秒，则预设时间可以设置为10秒，即在对采样数据流中的n个数据项的出现次数进行计数过程中，可以在每经过10秒后执行一次S104。

由于数据项队列中的数据项随着采样数据流的更新不断变化，且本发明实施例提供的确定大数据流中的特殊数据项的方法中S102和S103，无论第m个数据项是否已经存在于前一次更新后的数据项队列中，本次更新数据项队列时都会将第m个数据项移动至前一次更新后的数据项队列的队首，这样能够在数据项队列中的数据项不断变化的情况下，保证要确定的特殊数据项(出现次数最多的频繁数据项和出现次数最少的突发数据项)基本可以保留在数据项队列中，从而能够比较准确的确定出大数据流中的特殊数据项，进而从这些特殊数据项中提取出有用信息。

需要说明的是，本发明实施例提供的确定大数据流中的特殊数据项的方法，估算出的k个均不相同的数据项的出现频率均为k个均不相同的数据项在采样数据流(或者采样数据流所属的大数据流)中的实际出现频率的近似值。

S105、在数据流采样周期后，根据最后一次估算的k个均不相同的数据项的出现频率，确定k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项。

本发明实施例在数据流采样周期内，对采样数据流中的各个数据项的出现次数进行计数；并在每经过预设时间后，估算目前数据项队列中的k个均不相同的数据项的出现频率；以及在数据流采样周期结束后，可根据最后一次估算的数据项队列中的k个均不相同的数据项的出现频率，确定k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项即为特殊数据项。

需要说明的是，本发明实施例提供的特殊数据项包括频繁数据项和突发数据项。当需要确定的特殊数据项为频繁数据项时，在S105中，本发明实施例可以确定出现频率大于或等于预设阈值的至少一个数据项为频繁数据项；当需要确定的特殊数据项为突发数据项时，在S105中，本发明实施例可以确定出现频率小于预设阈值的至少一个数据项为突发数据项。

可以理解的是，上述确定频繁数据项和突发数据项时的预设阈值均可以根据实际情况设定，本发明对此不作限制。当然，确定频繁数据项时的预设阈值和确定突发数据项时的预设阈值可以相同，也可以不同。

示例性的，当特殊数据项为频繁数据项时，可以将预设阈值设置为0.08，这样，可以根据数据流采样周期内最后一次估算的数据项队列中的k个均不相同的数据项的出现频率，确定出现频率大于或等于0.08的数据项即为频繁数据项。当特殊数据项为突发数据项时，可以将预设阈值设置为0.03，这样，可以根据数据流采样周期内最后一次估算的数据项队列中的k个均不相同的数据项的出现频率，确定出现频率小于0.03的数据项即为突发数据项。

可选的，上述S104中的计算公式可以为：f_t＝λz_t+(1-λ)f_t-1；

特别的，上述数据项的统计次数可以理解为统计的数据项的出现次数，即为与数据项对应的计数器的值；上述数据项的统计频率可以理解为统计的数据项的出现频率，即为与数据项对应的计数器的值和数据项队列中的k个均不相同的计数器的值之和的比值。假设k＝4，与某个数据项对应的计数器的值为2，4个计数器中除该计数器外的其他3个计数器的值分别为3，4和1，则该数据项的统计次数＝2，该数据项的统计频率＝2/(2+3+4+1)＝0.2。

从上述公式可以看出，本发明实施例在估算大数据流中的某个数据项的出现频率时，不但考虑了该数据项在采样数据流中的实际出现次数(上述z_t)，而且还考虑了前一次估算的该数据项的出现频率(上述f_t-1)。如此在估算该数据项的出现频率时，由于通过考虑前一次估算的该数据项的出现频率，考虑了该数据项在采样数据流中随时间变化的特性，因此可以使得估算出的该数据项的出现频率随时间的变化而变化，从而能够保证估算出的该数据项的出现频率比较接近该数据项在大数据流中的出现频率，进而能够准确地确定大数据流中的特殊数据项。

特别的，本发明实施例中，λ可以根据实际设计需求进行取值，例如λ可以取0至1之间的任意数值，本发明对此不作限制。

可选的，本发明实施例提供的一种确定大数据流中的特殊数据项的方法中，采样数据流中的n个数据项中最先获取到的k个均不相同的数据项形成的数据项队列中的k个均不相同的数据项按照与k个均不相同的数据项一一对应的k个均不相同的计数器的值由大到小顺序排列。

可以理解的是，本发明实施例提供的确定大数据流中的特殊数据项的方法中，在执行完S101之后，可以按照S102-S104中每个步骤及每个步骤中的时间条件(例如预设时间、数据流采样周期等)循环执行S102-S104；最终在数据流采样周期结束后，再执行S105，以从大数据流中确定出满足预设阈值的至少一个特殊数据项。

可选的，上述S101中，采用n个数据项中最先获取到的k个均不相同的数据项形成数据项队列的一种可能的实现方式为：在数据流采样周期开始后，依次获取采样数据流中的n个数据项，并从n个数据项中的第一个数据项开始，将该第一个数据项添加至数据项队列中，以及为该第一个数据项设置一个计数器以用于统计该第一个数据项的出现次数(具体实现中可以为计数寄存器等能够实现计数的功能模块)，并将该计数器的值设置为i；对于n个数据项中的第二个数据项，若第二个数据项与第一个数据项相同，则在与第一个数据项对应的计数器上累计其出现次数，若第二个数据项与第一个数据项不相同，则将第二个数据项排列在第一个数据项的后面，并为第二个数据项设置一个计数器，以及将该计数器设置为i；以此类推，对于n个数据项中的其他数据项，依次重复执行上述过程，直至由最先获取到的k个均不相同的数据项形成一个数据项队列为止。

需要说明的是，k的取值可以根据实际需求设定。例如，若需要在大数据流中确定出h个频繁数据项，则k的取值可以为大于h的任意值。在合理取值范围内，k的取值越大，本发明实施例确定的h个频繁数据项的准确率越高。

可选的，上述S103中，将前一次更新后的数据项队列中的第二数据项替换为第m个数据项的方法，具体可以包括：

从前一次更新后的数据项队列中删除第二数据项，并将第m个数据项添加到前一次更新后的数据项队列中，第m个数据项在前一次更新后的数据项队列中的位置与第二数据项在前一次更新后的数据项队列中的位置相同。

举例来说，若前一次更新后的数据项队列为{数据项A，计数器A；数据项B，计数器B；数据项C，计数器C}，则数据项C为第二数据项，当统计采样数据流中的数据项D的出现次数时，可以将数据项C从前一次更新后的数据项队列中删除，并将数据项D添加至前一次更新后的数据项队列中，以及为该数据项D设置计数器D，即此时更新后的数据项队列为{数据项A，计数器A；数据项B，计数器B；数据项D，计数器D}。

优选的，本发明实施例描述的采样数据流(或者采样数据流所属的大数据流)中的每个数据项在该采样数据流(或者采样数据流所属的大数据流)中的分布均随时间的变化而变化。如此，与现有技术的空间节省法相比，由于本发明实施例提供的确定大数据流中的特殊数据项的方法在估算数据项的出现频率时考虑了数据项在采样数据流中的分布随时间的变化而变化的这种特性，因此，通过本发明实施例提供的确定大数据流中的特殊数据项的方法，能够比较准确地确定出大数据流中的特殊数据项。

假设本发明实施例提供的采样数据流为

{ABCDACBDABDCABCDDCBABCD}，设定k＝3，则按照上述S101-S105的方法，在数据流采样周期后(可以理解为将该采样数据统计完成)，得到的数据项队列为{D(1次)、C(4次)和B(3次)}，并根据最后一次估算的k个数据项的出现频率，将满足预设阈值的数据项确定为特殊数据项。即使数据流采样周期后得到的数据项队列{D(1次)、C(4次)和B(3次)}中统计的数据项的出现次数与其实际的出现频率不一致，但是按照本发明实施例提供的确定大数据流中的特殊数据项的方法，由于在统计过程中每经过预设时间都估算了数据项队列中的数据项的出现频率，且在本次估算数据项的出现频率时均考虑了前一次估算的数据项的出现频率，因此，仍然能够比较准确地确定大数据流中的特殊数据项。即本发明实施例能够通过比较准确地估算数据项的实际出现频率，确定出需要确定的特殊数据项，从而可以从这些特殊数据项中提取出需要的信息。

为了进一步更加清楚地说明本发明实施例提供的确定大数据流中的特殊数据项的方法，能够比较准确地确定出大数据流中的特殊数据项，下面采用一个引理(引理1)和一个定理(定理1)，结合分析计算过程，从理论上进行论证说明。

引理1：定义X_t(t≥0)为在t时刻，取值在0至1之间、且相互独立，以及具有不同分布的随机变量序列，Y_t为对X_t采用EWMA技术进行计算的结果，即Y_t也为随机变量序列。

其中，上述随机变量序列X_t中的随机变量可以理解为本发明实施例提供的数据项i，随机变量序列X_t可以理解为本发明实施例提供的采样数据流。假设，E[X_t]＝θ，若则下述公式(1)、(2)和(3)成立，其中，E[X_t]为随机变量X_t的数学期望值，n为采样数据流中的数据项的个数，θ为上述的预设阈值。

(1)|E[Y_t]-θ|≤(1-λ)ⁿ；

(2)P_r[Y_t≤(1-ε)θ]≤exp(-ε²θ/4λ)；

(3)P_r[Y_t≥(1+ε)θ]≤exp(-ε²θ/4λ)。

上述P_r[Y_t≤(1-ε)θ]为Y_t≤(1-ε)θ的概率，P_r[Y_t≥(1+ε)θ]为Y_t≥(1+ε)θ的概率；ε可以取非常小的数值，这样能够保证Y_t数值的大小完全取决于θ。

其中，引理1表示大数据流的数据模型及该数据模型中的各个数据项满足的条件。

定理1：使用本发明实施例提供的确定大数据流中的特殊数据项的方法，对引理1定义的数据模型中的数据项进行出现频率的估算。假设在每个时间步长后(可以理解为每经过预设时间后)，估算每个数据项的出现频率为1-δ，则：

(1)如果在最后T时间的步长(可以理解为获取该数据模型中的最后K个数据项)后，f_i≥(1+ε)θ，则数据项i一定包含在本发明实施例提供的确定大数据流中的特殊数据项的方法确定的特殊数据项中；

(2)如果在最后T时间的步长后，f_i≤(1-ε)θ，则数据项i一定不包含在本发明实施例提供的确定大数据流中的特殊数据项的方法确定的特殊数据项中。

其中，定理1表示对引理1的数据模型，采用本发明实施例提供的确定大数据流中的特殊数据项的方法确定出的数据模型中的特殊数据项，一定是数据模型中需要确定的特殊数据项。

进一步地，上述T可以满足如下公式：

可见，通过上述引理1定义的数据模型和该数据模型中的各个数据项满足的条件，以及定理1的原理，可以论证本发明实施例提供的确定大数据流中的特殊数据项的方法能够比较准确的确定出大数据流中的特殊数据项。

进一步地，为了更好地描述本发明实施例提供的确定大数据流中的特殊数据项的方法，相比于现有技术的空间节省法确定大数据流中的特殊数据项的准确率，本发明实施例列举出对模拟的某个采样数据流进行仿真的结果，如图2所示，其中，该采样数据流包括20，000个数据项。

如图2所示，为现有技术的空间节省法和本发明实施例确定大数据流中的特殊数据项的方法确定的特殊数据项的分布的相似度。其中，曲线1可以表示现有技术的空间节省法确定的大数据流中的特殊数据项的分布，曲线2可以表示本发明实施例确定的大数据流中的特殊数据项的分布。可以看出，曲线1表示的数据项的分布相对比较稳定，曲线2表示的数据项的分布变化比较频繁，因此，与曲线1相比，曲线2更加能够体现出数据项的分布在不断变化的特征。其中，图2的纵坐标表示海宁格(英文：Hellinger)距离，Hellinger距离用于度量现有技术的空间节省法和本发明实施例确定大数据流中的特殊数据项的方法确定的特殊数据项的分布的相似度；图2的横坐标表示数据项的个数。

可以看出，与现有技术的空间节省法相比，本发明实施例提供的确定大数据流中的特殊数据项的方法，由于考虑了随着数据项的分布随时间变化，数据项的出现频率也随时间变化的特征，并提供了能够快速适应这种变化特征的计算机制，因此能够比较准确地确定出大数据流中的特殊数据项。

下面再在一个具体的应用场景中对本发明实施例提供的确定大数据流中的特殊数据项的方法进行一个详细地描述。

场景：网络流量的实时监控

由于网络流量异常是影响网络传输的重要因素，因此需要对网络流量进行实时监控。在对网络流量进行实时监控的过程中，需要预测网络流量发生异常的数据包的源互联网协议(英文：Internet Protocol，缩写：IP)地址和目的IP地址，以便确定主干网中发生异常的网络流量，从而可以及时调整路由策略，有效避免网络阻塞，进而提升网络的整体性能。

当大量数据包在网络端口以序列的方式快速到达时，这些大量的数据包可以假设为大数据流，每个数据包可以为该大数据流中的一个数据项。利用本发明实施例提供的确定大数据流中的特殊数据项的方法时，具体可以将每个数据包的特征值，例如该数据包的源IP地址、该数据包的目的IP地址和该数据包的数据流量(即为该数据包的数据量)作为一个数据项。

具体的，在采样时间内，当接收到一个数据包时，可以获取该数据包的特征值作为一个数据项，并在后续接收到其他数据包时，通过对比其他数据包的特征值与该数据包的特征值，确定该数据包是否被统计过，依次类推，统计数据流采样周期内，大数据流中的采样数据流中的每个数据包的出现次数，并在每经过一个预设时间后，就根据统计的各个数据包的出现次数、前一次估算的各个数据包的出现频率和本发明实施例预设的计算公式，估算每个数据包的出现频率，最终在数据流采样周期结束后得到的数据项队列中确定出小于预设阈值的至少一个数据项即为特殊数据项，也就是发生异常的数据包的特征值。从而再根据这些数据包的特征值，调整路由策略，直至异常数据包不再出现，即网络流量恢复正常。例如，异常数据包的流量过大导致网络流量异常，引起网络阻塞，通过本发明实施例提供的确定大数据流中的特殊数据项的方法，可以确定出发生异常的数据包，并获知发生异常的数据包的源IP地址、目的IP地址和数据流量，从而可以通过降低从具有该源IP地址的源数据端向具有该目的IP地址的目的数据端发送的数据包的数据流量，解决网络流量异常的问题，进而有效避免网络阻塞。

本发明实施例提供一种确定大数据流中的特殊数据项的方法及装置，通过在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，k个均不相同的数据项一一对应k个均不相同的计数器，k个均不相同的计数器中的每个计数器用于统计形成该数据项队列之前与该计数器对应的数据项的出现次数；若n个数据项中在k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与第一数据项对应的第一计数器加i，并将第一数据项和第一计数器移动至前一次更新后的数据项队列的队首，第一数据项为前一次更新后的数据项队列中的任意一个数据项；若第m个数据项与前一次更新后的数据项队列中的各个数据项均不相同，则将前一次更新后的数据项队列中的第二数据项替换为第m个数据项，并将与第m个数据项对应的第二计数器设置为i，以及将第m个数据项和第二计数器移动至前一次更新后的数据项队列的队首，第二数据项为位于前一次更新后的数据项队列的队尾的数据项；并在每经过预设时间后，根据k个均不相同的计数器的值、前一次估算的k个均不相同的数据项的出现频率和预设的计算公式，估算k个均不相同的数据项的出现频率，预设时间小于或等于数据流采样周期，其中，第一次估算k个均不相同的数据项的出现频率时采用的前一次估算的k个均不相同的数据项的出现频率为0；以及在数据流采样周期后，根据最后一次估算的k个均不相同的数据项的出现频率，确定k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项；其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，n为正整数，k为正整数，k≤n，m的值依次从k+1取到n，m为整数，i为正整数。

基于本发明实施例提供的上述技术方案，由于本发明实施例可以在数据流采样周期内统计获取的各个数据项的出现次数，并根据各个数据项及各个数据项的出现次数实时更新数据项队列，以及每经过预设时间后，通过数据项队列中的k个均不相同的数据项的出现次数、前一次估算的k个均不相同的数据项的出现频率及预设的计算公式估算数据项队列中的k个均不相同的数据项的出现频率，如此本发明实施例提供的技术方案可以实时估算数据项的出现频率，且本次估算k个均不相同的数据项的出现频率时参考了前一次估算的k个均不相同的数据项的出现频率，即估算的数据项的出现频率随时间的变化而变化，从而可以保证估算的数据项的出现频率相对比较准确，进而能够根据数据项的出现频率，比较准确地确定大数据流中的特殊数据项。

实施例二

如图3所示，本发明实施例提供一种确定大数据流中的特殊数据项的装置，该装置可以包括：

获取单元10，用于在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用所述n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，所述k个均不相同的数据项一一对应k个均不相同的计数器，所述k个均不相同的计数器中的每个计数器用于统计形成所述数据项队列之前与该计数器对应的数据项的出现次数，n为正整数，k为正整数，k≤n。

处理单元11，用于若所述n个数据项中所述获取单元10在所述k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与所述第一数据项对应的第一计数器加i，并将所述第一数据项和所述第一计数器移动至所述前一次更新后的数据项队列的队首，所述第一数据项为所述前一次更新后的数据项队列中的任意一个数据项；若所述获取单元10获取的所述第m个数据项与所述前一次更新后的数据项队列中的各个数据项均不相同，则将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，并将与所述第m个数据项对应的第二计数器设置为i，以及将所述第m个数据项和所述第二计数器移动至所述前一次更新后的数据项队列的队首，所述第二数据项为位于所述前一次更新后的数据项队列的队尾的数据项；其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，m的值依次从k+1取到n，m为整数，i为正整数。

估算单元12，用于在每经过预设时间后，根据所述处理单元11增加后的所述k个均不相同的计数器的值、前一次估算的所述k个均不相同的数据项的出现频率和预设的计算公式，估算所述k个均不相同的数据项的出现频率，所述预设时间小于或等于所述数据流采样周期，其中，第一次估算所述k个均不相同的数据项的出现频率时采用的所述前一次估算的所述k个均不相同的数据项的出现频率为0。

确定单元13，用于在所述数据流采样周期后，根据所述估算单元12最后一次估算的所述k个均不相同的数据项的出现频率，确定所述k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项。

可选的，所述计算公式为：f_t＝λz_t+(1-λ)f_t-1；

可选的，所述获取单元10形成后的数据项队列中的所述k个均不相同的数据项按照所述k个均不相同的计数器的值由大到小顺序排列。

可选的，所述处理单元11，具体用于从从所述前一次更新后的数据项队列中删除所述第二数据项，并将所述第m个数据项添加到所述前一次更新后的数据项队列中，所述第m个数据项在所述前一次更新后的数据项队列中的位置与所述第二数据项在所述前一次更新后的数据项队列中的位置相同。

可选的，所述获取单元10获取的所述采样数据流中的n个数据项在所述采样数据流中的分布均随时间的变化而变化。

可选的，所述特殊数据项为频繁数据项或者突发数据项，

所述确定单元13，具体用于确定出现频率大于或等于所述预设阈值的至少一个数据项为所述频繁数据项；或者确定出现频率小于所述预设阈值的至少一个数据项为所述突发数据项。

本发明实施例提供一种确定大数据流中的特殊数据项的装置，该装置在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，k个均不相同的数据项一一对应k个均不相同的计数器，k个均不相同的计数器中的每个计数器用于统计形成数据项队列之前与该计数器对应的数据项的出现次数；且若n个数据项中该装置在k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则该装置将与第一数据项对应的第一计数器加i，并将第一数据项和第一计数器移动至前一次更新后的数据项队列的队首，第一数据项为前一次更新后的数据项队列中的任意一个数据项；若该装置获取的所述第m个数据项与所述前一次更新后的数据项队列中的各个数据项均不相同，则该装置将前一次更新后的数据项队列中的第二数据项替换为第m个数据项，并将与第m个数据项对应的第二计数器设置为i，以及将第m个数据项和第二计数器移动至前一次更新后的数据项队列的队首，第二数据项为位于前一次更新后的数据项队列的队尾的数据项；且该装置在每经过预设时间后，根据k个均不相同的计数器的值、前一次估算的k个均不相同的数据项的出现频率和预设的计算公式，估算k个均不相同的数据项的出现频率，预设时间小于或等于数据流采样周期，其中，第一次估算k个均不相同的数据项的出现频率时采用的前一次估算的k个均不相同的数据项的出现频率为0；以及该装置在数据流采样周期后，根据最后一次估算的k个均不相同的数据项的出现频率，确定k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项；其中，当m＝k+1时，前一次更新后的数据项队列为形成后的数据项队列，n为正整数，k为正整数，k≤n，m的值依次从k+1取到n，m为整数，i为正整数。

基于本发明实施例提供的上述确定大数据流中的特殊数据项的装置，由于该装置可以在数据流采样周期内统计获取的各个数据项的出现次数，并根据各个数据项及各个数据项的出现次数实时更新数据项队列，以及每经过预设时间后，通过数据项队列中的k个均不相同的数据项的出现次数、前一次估算的k个均不相同的数据项的出现频率及预设的计算公式估算数据项队列中的k个均不相同的数据项的出现频率，如此本发明提供的该装置可以实时估算数据项的出现频率，且本次估算k个均不相同的数据项的出现频率时参考了前一次估算的k个均不相同的数据项的出现频率，即估算的数据项的出现频率随时间的变化而变化，从而可以保证估算的数据项的出现频率相对比较准确，进而能够根据数据项的出现频率，比较准确地确定大数据流中的特殊数据项。

实施例三

如图4所示，本发明实施例提供一种确定大数据流中的特殊数据项的装置，该装置可以为大数据流分析系统，或者为大数据流分析系统中的分析单元/分析模块/分析器等。具体的，该装置可以包括处理器20、存储器21、通信接口22，以及系统总线23。所述处理器20、存储器21以及通信接口22之间通过所述系统总线23连接并完成相互间的通信。

所述处理器20可以是一个中央处理器(英文：central processing unit，缩写：CPU)，或者是特定集成电路(英文：application specific integrated circuit，缩写：ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

所述通信接口22可以为所述装置与其他设备进行通信的通信接口。

所述存储器21可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；所述存储器21也可以包括非易失性存储器(英文：non-volatile memory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；所述存储器21还可以包括上述种类的存储器的组合。

当所述装置运行时，所述处理器20可以执行图1或图2所述的方法流程，具体包括：

所述处理器20，用于在在数据流采样周期内，依次获取采样数据流中的n个数据项，并采用所述n个数据项中最先获取到的k个均不相同的数据项形成数据项队列，所述k个均不相同的数据项一一对应k个均不相同的计数器，所述k个均不相同的计数器中的每个计数器用于统计形成所述数据项队列之前与该计数器对应的数据项的出现次数；且若所述n个数据项中在所述k个均不相同的数据项之后获取的数据项中的第m个数据项与前一次更新后的数据项队列中的第一数据项相同，则将与所述第一数据项对应的第一计数器加i，并将所述第一数据项和所述第一计数器移动至所述前一次更新后的数据项队列的队首，所述第一数据项为所述前一次更新后的数据项队列中的任意一个数据项；若所述第m个数据项与所述前一次更新后的数据项队列中的各个数据项均不相同，则将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，并将与所述第m个数据项对应的第二计数器设置为i，以及将所述第m个数据项和所述第二计数器移动至所述前一次更新后的数据项队列的队首，所述第二数据项为位于所述前一次更新后的数据项队列的队尾的数据项；并在每经过预设时间后，根据所述k个均不相同的计数器的值、前一次估算的所述k个均不相同的数据项的出现频率和预设的计算公式，估算所述k个均不相同的数据项的出现频率，所述预设时间小于或等于所述数据流采样周期，其中，第一次估算所述k个均不相同的数据项的出现频率时采用的所述前一次估算的所述k个均不相同的数据项的出现频率为0；以及在所述数据流采样周期后，根据最后一次估算的所述k个均不相同的数据项的出现频率，确定所述k个均不相同的数据项中出现频率满足预设阈值的至少一个数据项为特殊数据项；其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，n为正整数，k为正整数，k≤n，m的值依次从k+1取到n，m为整数，i为正整数；所述存储器21，用于存储每次更新后的所述数据项队列、所述k个均不相同的计数器的值、所述计算公式、所述k个均不相同的数据项的出现频率、所述预设阈值以及控制所述处理器20完成上述过程的软件程序，从而所述处理器20通过执行所述存储器21存储的所述软件程序并调用所述存储器21存储的上述数据项的参数数值和计算公式等信息，完成上述过程。

可选的，所述计算公式为：f_t＝λz_t+(1-λ)f_t-1；

可选的，所述处理器20形成后的数据项队列中的所述k个均不相同的数据项按照所述k个均不相同的计数器的值由大到小顺序排列。

可选的，所述处理器20，具体用于从从所述前一次更新后的数据项队列中删除所述第二数据项，并将所述第m个数据项添加到所述前一次更新后的数据项队列中，所述第m个数据项在所述前一次更新后的数据项队列中的位置与所述第二数据项在所述前一次更新后的数据项队列中的位置相同。

可选的，所述处理器20获取的所述采样数据流中的n个数据项在所述采样数据流中的分布均随时间的变化而变化。

可选的，所述特殊数据项为频繁数据项或者突发数据项，

所述处理器20，具体用于确定出现频率大于或等于所述预设阈值的至少一个数据项为所述频繁数据项；或者确定出现频率小于所述预设阈值的至少一个数据项为所述突发数据项。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种确定大数据流中的特殊数据项的方法，其特征在于，包括：

若所述第m个数据项与所述前一次更新后的数据项队列中的各个数据项均不相同，则将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，并将与所述第m个数据项对应的第二计数器设置为i，以及将所述第m个数据项和所述第二计数器移动至所述前一次更新后的数据项队列的队首，所述第二数据项为位于所述前一次更新后的数据项队列的队尾的数据项，其中，当m＝k+1时，所述前一次更新后的数据项队列为形成后的数据项队列，m的值依次从k+1取到n，m为整数，i为正整数；

2.根据权利要求1所述的方法，其特征在于，

所述计算公式为：f_t＝λz_t(1-λ)f_t-1；

3.根据权利要求1或2所述的方法，其特征在于，

4.根据权利要求1-2任一项所述的方法，其特征在于，所述将所述前一次更新后的数据项队列中的第二数据项替换为所述第m个数据项，包括：

5.根据权利要求1-2任一项所述的方法，其特征在于，所述特殊数据项为频繁数据项或者突发数据项，

6.一种确定大数据流中的特殊数据项的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，

所述计算公式为：f_t＝λz_t+(1-λ)f_t-1；

8.根据权利要求6或7所述的装置，其特征在于，

9.一种确定大数据流中的特殊数据项的装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，

所述计算公式为：f_t＝λz_t+(1-λ)f_t-1；

11.根据权利要求9或10所述的装置，其特征在于，