CN108304404B

CN108304404B - 一种基于改进的Sketch结构的数据频率估计方法

Info

Publication number: CN108304404B
Application number: CN201710022519.3A
Authority: CN
Inventors: 杨仝; 邹良川; 李晓明
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2022-02-11
Anticipated expiration: 2037-01-12
Also published as: CN108304404A

Abstract

本发明涉及一种基于改进的Sketch结构的数据频率估计方法。该方法在片内内存设置用于快速查询的第一sketch数据结构，在片外内存设置用于支持插入操作的第二sketch数据结构和用于支持删除操作的第三sketch数据结构；在进行查询操作时，仅查询第一sketch数据结构，得到数据出现频率的估计值；在进行插入操作和删除操作时，通过第二sketch数据结构和第三sketch数据结构辅助第一sketch数据结构中计数的更新。本发明能够在占用片上存储空间不变、查询速率不降低且支持删除操作的前提下，显著提升sketch计数的精确度。

Description

一种基于改进的Sketch结构的数据频率估计方法

技术领域

本发明涉及网络安全、金融分析、机器学习、自然语言处理等多个重要领域，具体为一种基于改进的Sketch结构的数据频率估计方法。

背景技术

目前，Count-Min(CM)sketch(G.Cormode and S.Muthukrishnan.An improveddata stream summary:the count-min sketch and its applications.Journal ofAlgorithms,55(1):58–75,2005.)是使用最多，性能最好，最普适于各种数据的一种sketch。它相对轻巧，实时计数简单快速，可扩展性较强，存储和计算复杂度都很低。然而，由于近年来网络处理数据量的突飞猛进，以及sketch常用的片上SRAM存储相对较低的存储容量增长速度，sketch在面对计数精确度要求高、处理数据量巨大的诸多应用时逐渐显得力不从心。为了改进CM-sketch的计数精确水平，减小CM-sketch计数过程中的假阳性误差，出现了Conservative Update(CU)sketch(C.Estan and G.Varghese.New directions intraffic measurement and accounting.In Proc.ACM SIGMCOMM,32(4),2002.)。作为对Count-Min Sketch的一个改进，CU-sketch在每次插入元素时，只增加该元素对应的多个计数器counter中最小的一个。这样带来的好处是在不增加片上内存占用的情况下，显著提高了sketch计数的精确性；负面影响是，CU-sketch不能支持删除操作。

发明内容

为了克服现有的Count-Min sketch计数精确度的不足，本发明提供一种在支持删除操作的前提下，显著提高sketch的计数精确度的改进方法，且查询速度与高速的CM-sketch相当。本发明将这种改进后的sketch数据结构命名为FID-sketch。

本发明采用的技术方案如下：

一种基于改进的sketch结构的数据频率估计方法，包括以下步骤：

1)在片内内存设置用于快速查询的第一sketch数据结构，在片外内存设置用于支持插入操作的第二sketch数据结构和用于支持删除操作的第三sketch数据结构；

2)在进行查询操作时，仅查询第一sketch数据结构，计算哈希函数，将得到的多个对应位置中最小的计数值作为查询结果，即作为数据出现频率的估计值；

3)在进行插入操作时，通过第二sketch数据结构为第一sketch数据结构提供对插入的元素出现次数的估计值，以辅助确定第一sketch数据结构中最小的计数值是否需要增加计数；

4)在进行删除操作时，通过第三sketch数据结构辅助确定第一sketch数据结构中的计数值是否需要减少计数。

进一步地，所述第一sketch数据结构表示为一个宽wFQ高dFQ的二维数组，数组的每个元素Fi[j]都是一个被初始化为0的计数器；另有dFQ个两两独立、均匀分布的哈希函数，每个哈希函数与二维数组中对应的一行相关联。

进一步地，所述第二sketch数据结构和第三sketch数据结构为Count-Minsketch。

进一步地，步骤2)在进行查询操作时，第一sketch数据结构的操作与Count-Minsketch相同。

进一步地，步骤3)进行插入操作的方法是：设要插入的元素是e，首先计算dFQ个哈希函数hi(e)，然后在第一sketch数据结构中被哈希函数映射到的dFQ个计数器中选出最小的一个或多个计数值；然后将e插入第二sketch数据结构，并从第二sketch数据结构获得一个对元素e出现次数的估计值Tins；如果之前选出的第一sketch数据结构中的最小计数值不小于该估计值Tins，则不需要增加第一sketch数据结构中最小的计数值；否则只增加之前选出的第一sketch数据结构中的最小计数值。

进一步地，所述第三sketch数据结构的高度和宽度与片内的第一sketch数据结构严格相等，每个计数器也与第一sketch数据结构中同样位置的每个计数器一一对应；当删除操作使得第三sketch数据结构中计数器的值小于对应的第一sketch数据结构中计数器的值时，第一sketch数据结构中计数器的值也减少至同样水平。

进一步地，所述第三sketch数据结构采用补集sketch的方式实现，即从采用Count-Min sketch实现的第三sketch数据结构中减去第一sketch数据结构，得到的sketch数据结构中每个counter计数值仍然非负，用来替代原来采用Count-Min sketch实现的第三sketch数据结构。

进一步地，通过查询片内的第一sketch数据结构来获取元素的估计值，如果该估计值不足以排入最大的前k个元素之列，则按照其真实值该元素也必然不能进入最大的k个元素之列，从而无需访问时间开销大的片外哈希表。

本发明的有益效果如下：

由于网络数据的爆炸式增长，目前被广泛应用的CM-sketch、随机抽样等计数方法越来越不能满足对高吞吐、大数据、低延迟情况下对计数精度的要求。本发明在占用片上存储空间不变、查询速率不降低且支持删除操作的前提下，显著提升了sketch计数的精确度。由于以CM-sketch为代表的近似计数策略在大数据统计分析、网络安全、商务智能、金融交易等诸多领域得到广泛应用，本发明可以有效改善和提高这些领域计数相关业务的处理能力。

附图说明

图1是插入实验数据集后查询各个元素计算相对误差得到的累积分布函数(CDF)图。

图2是在插入实验数据集的过程中不断查询各个元素并计算整体的平均相对误差得到实验结果。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

本发明的FID-sketch由三个subsketch组成，分别为片上的Fast-Query(FQ)subsketch(第一sketch数据结构)，片外的Insertion-Support(IS)subsketch(第二sketch数据结构)，以及片外的Deletion-Support(DS)subsketch(第三sketch数据结构)。在查询时，只需查询片上的FQ-subsketch，这就使得FID-sketch的查询速度非常快。而在进行插入和删除操作时，则需IS-subsketch和DS-subsketch辅助sketch中计数的更新。下面分别介绍这三个subsketch及其在插入、删除和查询时相应的操作。

1.FQ-subsketch

与CM-sketch相似，FQ-subsketch可以表示为一个宽w_FQ高d_FQ的二维数组，对于任意下标1≦i≦d_FQ,1≦j≦w_FQ，数组的每个元素F_i[j]都是一个被初始化为0的counter(计数器)。此外，FQ-subsketch需要有d_FQ个两两独立、均匀分布的哈希函数，每个哈希函数h_i(.)与FQ-subsketch中对应的一行相关联。

在进行插入时，假设要插入的元素是e，FID-sketch首先会计算d_FQ个哈希函数h_i(e)，然后在FQ-subsketch中被哈希函数映射到的d_FQ个counter(F_i[h_i(e)％w_FQ])中选出最小的一个或多个counter的计数值，其中“％”表示模运算，也可以表示为“mod”。接着，FID-sketch会将e插入IS-subsketch，并从IS-subsketch获得一个对当前sketch中元素e出现次数的估计值T_ins(具体过程会在IS-subsketch部分详细描述，这里只需了解T_ins不小于e的真实频率)。此时，如果之前选出的FQ-subsketch中最小counter的值不小于这个估计值T_ins，则不需要增加这些最小counter，这样可以减少sketch查询过程中假阳性带来的误差；否则只增加前面选出来的这些最小counter，与CM-sketch相比，这样也可以尽可能减少假阳性误差。

在删除操作时，类似地，FID-sketch会首先计算d_FQ个哈希函数h_i(e)，并确定在FQ-subsketch中被哈希函数映射到的d_FQ个counter(F_i[h_i(e)％w_FQ])。然后FID-sketch会查询DS-subsketch，来确定这d_FQ个counter中是否存在某些counter可以减少计数。具体过程在DS-subsketch部分详细叙述。

在查询元素时，FQ-subsketch的操作与Count-Min sketch完全相同，即计算哈希函数，并返回被哈希函数映射到的d_FQ个counter(F_i[h_i(e)％w_FQ])中最小的一个的计数值，作为对元素e的频率的估计值。

2.IS-subsketch

IS-subsketch实际上是一个Count-Min sketch，其自身的插入、删除及查询操作均与Count-Min sketch相同。由于IS-subsketch存放于空间相对比较充裕的片外存储，拥有更多的counter，也就拥有更高的计数精度。在FID-sketch插入元素时，IS-subsketch可以提供对该元素较为精确的一个估计值(Tins)，来帮助确定FQ-subsketch中的最小counter是否需要增加计数。引入IS-subsketch的优势在于，IS-subsketch被放置在空间相对充足的片外内存上，因此可以有比FQ-subsketch多得多的counter，从而获得很高的计数精确度。

值得注意的是，在FID-sketch回答一个外部应用的查询请求时，IS-subsketch并不会被使用到。FID-sketch处理外部查询操作时只会用到片内的FQ-subsketch，这样可以保证很高的查询速率。

3.DS-subsketch

与IS-subsketch类似，DS-subsketch也是一个Count-Min sketch，其自身的插入、删除及查询操作均与Count-Min sketch相同。DS-subsketch也是一个片外sketch，其高度和宽度与片内的FQ-subsketch严格相等，每个counter也与FQ-subsketch同样位置的counter一一对应。作为一个CM-sketch，DS-subsketch中每个counter的值总是不小于映射到该counter元素的真实值。因此当删除操作使得DS-subsketch中counter的值小于对应的FQ-subsketch中counter的计数值时，FQ-subsketch中counter的计数值也应当减少至同样水平。具体地来说，在删除一个元素e时，FID-sketch会首先计算d_FQ个哈希函数h_i(e)，并确定在FQ-subsketch中被哈希函数映射到的d_FQ个counter(F_i[h_i(e)％w_FQ])和在DS-subsketch中被哈希函数映射到的d_DS个counter(D_i[h_i(e)％w_DS])。对于任意的i使得F_i[h_i(e)％w_FQ]>D_i[h_i(e)％w_DS]，将F_i[h_i(e)％w_FQ]减少至D_i[h_i(e)％w_DS]的计数值。

DS-subsketch还有另一个版本的实现，我们把这种类型的sketch称为补集sketch。注意由于前面所述的操作，FQ-subsketch中的每个counter总是不大于CM-sketch实现的DS-subsketch中对应counter的计数值。因此我们可以从CM-sketch中减去FQ-sketch，得到的sketch每个counter计数值仍然非负，用来替代原来的CM-sketch。补集sketch与FQ-sketch中对应counter相加即可得到原来的CM-sketch，因此用补集sketch版本实现的DS-subsketch替代CM-sketch实现的版本不会丢失任何信息。使用补集sketch的优势在于，在FID-sketch删除操作中，不再需要获得FQ-subsketch中的所有d_FQ个counter并与DS-subsketch中的counter作比较，只需找出DS-subsketch的d_DS个counter中为0的counter，并减少对应位置的FQ-subsketch的counter计数值即可。另一方面，由于补集sketch的每个counter是由CM-sketch版本的DS-subsketch中的counter减去对应位置的FQ-subsketch counter，使用补集sketch减小了因counter计数值过大而溢出的风险。

图1是插入实验数据集(均匀随机分布)10万个不同元素(每个元素平均出现100次)后，查询各个元素计算相对误差(Relative error)得到的累积分布函数(CDF)图，其横坐标为相对误差(Relative error)，纵坐标为相对误差不超过横坐标值的元素所占比例(Empirical CDF)。从图1可以看出，在使用片上存储空间一致的前提下，本发明的FID-sketch随Relative error增大向1收敛得最快，绝大多数元素的相对误差都在0.5以内，说明其查询精确度远高于其它种类的sketch。

图2是在插入实验数据集(均匀随机分布)10万个不同元素(每个元素平均出现100次)的过程中，不断查询各个元素并计算整体的平均相对误差(Average relative error)得到实验结果，其横坐标为实验进程中插入元素个数(#insertions)，纵坐标为平均相对误差(Average relative error)。如图2所示，在插入一定量元素后，FID-sketch的平均相对误差明显低于其它种类sketch，得到了最好的查询精确度。

应用场景：

sketch的一类重要应用场景是寻找出现频率最高的k个元素。譬如在搜索引擎中，需要找出用户搜索量最高的k个相关语句；在网上商城，需要为用户推荐目前最为畅销的k项商品。

传统的方式是使用哈希表记录所有元素的出现频率，然后维护一个大小为k的小根堆，遍历所有元素并尝试加入小根堆，最后小根堆中剩下的k个元素就是最大的k个元素。当数据量较大时，这里的哈希表需要占用大量内存空间，而且处理速度相较片上存储很慢。

这里我们使用FID-sketch来优化处理速度。由于FID-sketch给出的频率估计值总是不小于其真实值，每次查询哈希表之前，我们可以先查询片内的FID-sketch来获取元素的估计值。如果该估计值仍不足以排入最大的前k个元素之列，则按照其真实值该元素也必然不能进入最大的k个元素之列。在这种情况下，就可以避免访问时间开销较大的片外哈希表。由于FID-sketch的查询精确度很高且速度很快，大量的对片外哈希表的不必要访问都可以避免，从而大大降低了整体的查询时间开销，这样就使得解决热门搜索条目、热门商品推荐等问题所需要的计算时间大为减少。

比如现在在某搜索引擎中，关于某人XXX的一些搜索语句及其搜索频次被保存在片外的哈希表里:{(“XXX net worth”,1023),(“XXX quotes”,753),(“XXX wikipedia”,1216),(“XXX biography”,897),(“XXX twitter”,614)}。现在要找出其中最为热门也就是频次最高的3条语句展现给用户。传统的方法需要遍历整个哈希表，带来5次片外访存；现在加入FID-sketch，在每次访问哈希表前，首先访问FID-sketch获取估计值。假设对这些的语句的处理是依上面所列顺序处理，则处理最后一句“XXX twitter”时，获取其在FID-sketch中的频率估计值(比如623)，发现623不足以排入Top 3，则不必访问片外的哈希表，这样就节省了一次片外访存的时间，只需要4次片外访存。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于改进的sketch结构的数据频率估计方法，其特征在于，包括以下步骤：

1)在片内内存设置用于快速查询的第一sketch数据结构，在片外内存设置用于支持插入操作的第二sketch数据结构和用于支持删除操作的第三sketch数据结构；所述第一sketch数据结构表示为一个宽w_FQ高d_FQ的二维数组，数组的每个元素F_i[j]都是一个被初始化为0的计数器；另有d_FQ个两两独立、均匀分布的哈希函数，每个哈希函数与二维数组中对应的一行相关联；

3)在进行插入操作时，通过第二sketch数据结构为第一sketch数据结构提供对插入的元素出现次数的估计值，以辅助确定第一sketch数据结构中最小的计数值是否需要增加计数；进行插入操作的方法是：设要插入的元素是e，首先计算d_FQ个哈希函数h_i(e)，然后在第一sketch数据结构中被哈希函数映射到的d_FQ个计数器中选出最小的一个或多个计数值；然后将e插入第二sketch数据结构，并从第二sketch数据结构获得一个对元素e出现次数的估计值T_ins；如果之前选出的第一sketch数据结构中的最小计数值不小于该估计值T_ins，则不需要增加第一sketch数据结构中最小的计数值；否则只增加之前选出的第一sketch数据结构中的最小计数值；

2.如权利要求1所述的方法，其特征在于，所述第二sketch数据结构和第三sketch数据结构为Count-Min sketch。

3.如权利要求2所述的方法，其特征在于，步骤2)在进行查询操作时，第一sketch数据结构的操作与Count-Min sketch相同。

4.如权利要求2所述的方法，其特征在于，所述第三sketch数据结构的高度和宽度与片内的第一sketch数据结构严格相等，每个计数器也与第一sketch数据结构中同样位置的每个计数器一一对应；当删除操作使得第三sketch数据结构中计数器的值小于对应的第一sketch数据结构中计数器的值时，第一sketch数据结构中计数器的值也减少至同样水平。

5.如权利要求2所述的方法，其特征在于：所述第三sketch数据结构采用补集sketch的方式实现，即从采用Count-Min sketch实现的第三sketch数据结构中减去第一sketch数据结构，得到的sketch数据结构中每个counter计数值仍然非负，用来替代原来采用Count-Min sketch实现的第三sketch数据结构。

6.如权利要求1所述的方法，其特征在于：通过查询片内的第一sketch数据结构来获取元素的估计值，如果该估计值不足以排入最大的前k个元素之列，则按照其真实值该元素也必然不能进入最大的k个元素之列，从而无需访问时间开销大的片外哈希表。

7.权利要求1～6中任一权利要求所述方法用于在搜索引擎中找出用户搜索量最高的k个相关语句。

8.权利要求1～6中任一权利要求所述方法用于在网上商城中为用户推荐最为畅销的k项商品。