CN111079935B

CN111079935B - 一种spark下的机器学习快速大规模样本签名方法

Info

Publication number: CN111079935B
Application number: CN201910983158.8A
Authority: CN
Inventors: 胡峰; 刘鑫; 周耀; 王文斌; 邓维斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Kaiqiao Technology Co ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2022-10-18
Anticipated expiration: 2039-10-16
Also published as: CN111079935A

Abstract

本发明请求保护一种spark下的机器学习快速大规模样本签名方法，涉及数据挖掘技术和计算机信息处理技术。本方法为：1)读入样本数据，将样本数据转换成独有的样本格式；2)对样本数据中的高频特征进行划分，得到FeatureMap；3)设置最大广播数量，根据最大广播数量计算FeatureMap的partition；4)根据partition数量进行循环迭代，分片广播大量特征；5)最后对样本进行格式转换，得到libsvm格式的数据。本发明可以解决模型训练过程中样本签名性能瓶颈的问题，特别适用于在spark集群下训练模型。本发明虽然解决的是样本签名问题，但是由于本方法定制数据结构和分片广播可以很好的避免shuffle从而同样适用于大数据工程中的数据倾斜问题。

Description

一种spark下的机器学习快速大规模样本签名方法

技术领域

本发明属于信息技术、云计算、数据挖掘等领域，提供了一种Spark大数据平台下机器学习快速大规模样本签名方法。

背景技术

在大规模机器学习领域，模型训练时，将各种数据格式转换成统一的训练格式是必不可少的步骤。这一过程简称样本签名，后文统称ID化，ID化的目的有三个：

(1)减少数据量，将字符串类型的数据编码为整形，缓解存储压力；

(2)提升训练效率，将特征编码到一定的空间，提前感知模型规模。

(3)通用于各种机器学习算法，比如经典的Libsvm存储格式。

通常，我们通过数据挖掘产生的特征，包含大量明文数据，在大规模机器学习中，通常需要将明文数据重新编码为整形表示的离散化特征，这种稀疏表示方法可以极致压缩存储空间。常见的明文样本格式：

[label，feature1，feature2……]

具体例子如下：

[0,item^123,user^362,query^快手,weekday^6,app_list^25,app_list^582]

[1,item^12,user^22,query^美团,city^深圳,gender^1,app_list^123,app_list^456]

ID化之后的格式：

[label id1:value id2:value idn:value]，其中id是从1开始编码。value为特征权值，一般为1

具体例子如下：

[0 1:1 5:1 6:1]

[1 2:1 7:1 9:1 11:1 30:1]

通用id化流程可表示如下：

①读取样本数据

②统计特征频次

③将特征按频次过滤

④对剩余特征编码

⑤将所有样本按编码进行明文到特征ID的转换

这其实是大数据下Join操作的优化问题，现有业界并没有针对ID化的专有解决方案，根据不同情况，通用的解决方案为：

1)将编码后的特征集进行广播：

参考美团技术团队撰写的Spark性能调优高级篇中的将reduce join转为mapjoin--tech.meituan.com/2016/05/12/spark-tuning-pro.html，适用于特征集较小的情况，由于特征集小，因此可以将编码后的特征集进行广播，广播内容为HashMap<String,Int>，其中保存着明文到编码ID的映射关系。然后对样本进行编码操作，将明文转换成编码ID。这种方式优点是速度极快，只需要对数据进行一遍扫描。但是缺点也十分明显，当特征集较大的时候，无法进行广播，通常在特征集超过1000w之后会出现各种内存不足问题。

2)使用join的方式：

这是spark自身默认的join方式,先对样本数据进行样本编号，然后将每条样本的特征拆分，每行数据变成样本编号+特征。然后和特征编码数据join，对样本ID进行reduce。这种方式是按join的方式进行，两次shuffle存在大量IO操作，并且在数据量大的时候，一定会发生数据倾斜，因为样本中20％的高频特征可能占据了80％的空间。示意图如图3所示：

3)使用union结合reduce来改进join的方式：

参考博文--https://blog.csdn.net/bryan__/article/details/8467388，由于直接join存在两次shuffle，所以可以通过先union然后reduce的方法来代替join过程，这样就只有一次shuffle，并且reduce会先在本地进行合并然后再shuffle，减少了IO操作。改进的join具体步骤是：

①对样本进行编号

②对样本表的特征拆分，一行变多行，同时添加上左表标识。

③样本表union上特征编码表，编码表添加右表标识。

④按特征作为key进行reduce

⑤通过2,3步骤的左右标识来区分样本与特征，完成join过程虽然改进后的join方式只有一次shuffle操作，但是依然没能避免数据倾斜的可能。

4)对头部数据广播，长尾数据join的方式：

为了避免数据倾斜，可以对样本中的特征进行统计，将出现次数最多的那一批特征进行广播操作，对剩余的特征进行改进的join操作，可以很好的避免数据倾斜。这样能支持更大规模的数据与特征。虽然解决了数据倾斜和join性能，但是面临超大数据速度仍然很慢，shuffle操作依然存在。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高样本ID化的速度，减少所消耗的资源、通过避免shuffle操作来提升性能的spark下的机器学习快速大规模样本签名方法。本发明的技术方案如下：

一种spark下的机器学习快速大规模样本签名方法，其包括以下步骤：

1)读入样本数据，将样本数据转换成改进的样本格式，主要是为了将features经过hash后保存在Long类型的Buffer中并留出int类型的ids空列方便对其进行后面转换；

2)对样本数据中的高频特征进行划分，得到FeatureMap(高频特征被划分成多行后的存储格式)；

3)设置最大广播数量，根据最大广播数量计算FeatureMap的分区partition；

4)根据FeatureMap的分区partition数量进行循环迭代，分片广播大量特征，让样本(一开始转换为特定格式的样本数据)根据FeatureMap去索引对应特征的编码进行替换；

5)最后对完成替换后的样本进行格式转换，得到libsvm格式的数据。

进一步的，所述步骤1)读入样本数据，将样本数据转换成改进的样本格式，具体格式为：

其中features是明文的特征，经过hash后保存在Long类型的Buffer中；ids(初始为空)是特征编码后的Buffer，类型为Int；在编码转换的过程中，不断的将查找到的feature转换成id，同时在features的buffer里删除掉已经转换后的feature，并将编码的id写入到ids这个buffer中。

进一步的，所述步骤2))对样本数据中的高频特征进行划分，得到FeatureMap具体包括：对样本数据中的features进行划分，由一行变多行，同时进行murmurhash，将String数据hash到64位的空间中，MurmurHash算法是一种非加密hash算法，这里是将分开后的每一个特征进行hash,并同时统计特征频次，对低频特征进行过滤，对剩余的特征进行编号，产生FeatureMap，格式为[feature:Long,id:Int]。

进一步的，所述3)设置最大广播数量，根据最大广播数量计算FeatureMap的分区partition，具体包括步骤：

设置最大广播数量，然后根据最大广播数量，设置最大不超过这个最大广播数量的分区大小，并计算得到FeatureMap的分区partition,其格式如下：

[feature:Long,id:Int,part:int]。

进一步的，所述步骤4)根据FeatureMap的分区partition数量进行循环迭代，分片广播大量特征，具体包括：在每一轮的广播中，样本根据该FeatureMap去索引对应特征的编码，然后进行替换，具体操作为，遍历FeatureMap，每个特征都有其对应的一开始编好的哈希值,样本根据这个哈希值查找到对应样本位置，在该列进行操作，删除样本中features中对应的特征，并将编码插入到ids中；每一轮遍历FeatureMap后，结束当前广播并释放该FeatureMap，然后进入下一轮广播，直到所有FeatureMap遍历结束，以此通过一次数据扫描，即可完成ID化写入磁盘的操作。

本发明的优点及有益效果如下：

本发明通过设置样本缓存机制，以及广播变量切分，进行多轮广播，利用spark自身的优化机制，做到只进行一次数据扫描，即可完成ID化写入磁盘，避免了shuffle的IO操作，利用Map端的操作来降低数据倾斜的影响。另外提前对明文样本进行hash，将明文的String类型数据转换成Long类型的数据，明文数据由String存储，其中一个字符占2个字节(汉字将会是3字节)，而Long类型一共只占据8字节，对比而言，8字节的String只能存储4个字符(最多2个汉字)。所以合理的Hash方式，来降低冲突也是优化点之一。本发明采用了MurmurHash算法，将String数据hash到64位的空间中，能表示的范围是[-9223372036854775808,9223372036854775807]，即负922亿亿到正922亿亿。经测试，10亿的明文特征hash的冲撞率在0.0000001％以内。

本发明可以解决模型训练过程中样本签名性能瓶颈的问题，特别适用于在spark集群下训练模型。解决了在一定资源情况下，通过分片广播大量特征，独有的样本结构，来避免数据倾斜，提高计算效率。并且同样适用于任何大数据处理中的数据倾斜问题。我们熟知的“28定理”，即20％的数据占据了80％的空间，是大数据处理中经常碰到的问题，通常选择的处理方法是join，或者“加盐”后再join，来避免数据倾斜，但join会有大量的shuffle操作，比较耗时，定制数据结构和分片广播可以很好的避免shuffle从而解决这类问题。

附图说明

图1是本发明提供优选实施例Spark下机器学习快速大规模样本签名方法的流程框图；

图2快速大规模样本签名方法分片广播的流程框图；

图3是现有技术中使用join的方式示意图；

图4是本发明优选实施例样本切分与广播示意图；

图5是实际测试示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

ID化的主要工作是将明文的数据，转换成编码后的数据。其瓶颈在于如何将编码数据快速的分发到各个工作节点，在特征编码数据超大的时候无法一次性广播，所以我们可以考虑多轮广播的方式。通过设计合理的样本格式，来做到原地进行明文转编码格式。

如图1-2所示，ID化的具体步骤如下：

1)样本数据格式转换：

读入样本数据，一般来说，在大数据平台上这里读入的是类似于HBase存储格式的样本数据，如：

[0,3^123,23^362,45^快手,56^6,63^25,63^582,…]

然后将样本数据转换为设计如下的样本格式：

其中features是明文的特征，经过hash后保存在Long类型的Buffer中，ids是特征编码后的Buffer，类型为Int，可以表示的范围[-2147483648,2147483647]，能够支持存储20亿大规模的特征。

通常一个字符占2个字节(汉字将会是3字节)，而Long类型一共只占据8字节，通过hash后能够有效减少样本的存储空间。转换成这样的格式同时也方便后面进行编码操作：

在后面编码转换的过程中，不断的将查找到的feature转换成id，同时在features的buffer里删除掉这个feature，并将编码的id写入到ids这个buffer中。所以整个样本数据集是在不断的减小。Long类型占8个字节，Int类型占4个字节，最终通过ID化还能直接在内存中减少1倍的数据量。

2)样本特征集构造：

对样本数据中的features切分，将原来一行多列特征转化为多行单列特征，直接通过map操作对同一行的元素进行拆分。同时对划分后的多行特征进行MurmurHash并统计每一个特征的频次。

其中MurmurHash算法由Austin Appleby发明于2008年，是一种非加密hash算法，适用于基于hash查找的场景，与其它流行的哈希函数相比，对于规律性较强的key，MurmurHash的随机分布特征表现更良好，具有较高的平衡性和低碰撞率。

最后对低频特征进行过滤，一般直接删除相对于整体数据来说出现频率较小的特征，例如我们设置频率小于50W的为低频特征。主要是因为低频特征不适合作为机器学习的输入，引入低频特征会导致训练集存在大量缺失，对结果准确度产生较大不良影响。过滤掉低频特征接着根据hash索引对剩余的特征进行编号，产生FeatureMap，格式为[feature:Long,id:Int]。

3)样本切分与广播：

设置最大广播数量，具体的设置需要实际考虑计算资源来设置，资源充足可以适当扩大。实际上一般单台机器配置8g左右的内存，给1000w差不多了，剩余的内存还需要存储数据。

根据最大广播数量计算FeatureMap的partition，每个partition中保存小于最大广播数量的特征量，格式为[feature:Long,id:Int,part:int]。

根据partition数量进行循环迭代，在每次循环里面，根据该分区索引得到的FeatureMap[feature:Long,id:Int]，将其进行广播。由于该FeatureMap不超过1000w，所以可以直接广播。

由于Spark自带的缓存机制，存不下就会往磁盘上写。所以将大量的数据通过分片广播的方式来进行广播，不会受到内存限制，但因为部分featureMap放在缓存中，所以会提高执行速度。而且通过广播，避免了大量shuffle操作，大大提高了执行速度，且有效避免了数据倾斜的问题。

然后在每一轮的广播中，样本根据该FeatureMap去索引对应特征的编码，然后进行替换。具体操作为，遍历FeatureMap，每个特征都有其对应的一开始编好的哈希值,样本根据这个哈希值查找到对应样本位置，在该列进行操作，删除样本中features中对应的特征，并将编码插入到ids中。每一轮遍历FeatureMap后，结束当前广播并释放该FeatureMap，然后进入下一轮广播，直到所有FeatureMap遍历结束，以此通过一次数据扫描，即可完成ID化写入磁盘的操作。

其过程示意图如图4所示：

4)样本格式转换得到样本签名结果

对样本进行格式转换，经过多次广播后可以看到一开始的特定样本格式，其中ids的数据生成好了，features变为空，然后可以直接将其转换得到libsvm格式的数据，这种形式也方便我们进行各种Spark算法的调用。即如下形式：

[label,1:feature1,2:feature2,3:feature3,…,4:feature4]

[labe2,1:feature1,2:feature2,3:feature3,…,4:feature4]

……

这里给一个操作实例:

例如我们原样本为:

[0,item^123,user^362,query^快手,weekday^6,app_list^25,app_list^582,…]

[1,item^12,user^22,query^美团,city^深圳,gender^1,app_list^123,app_list^456,…]

……

使用本算法将其装换为libsvm模式，首先feature经过hash,将原样本转换为特定格式[label,features(Long),ids(int):null]

即：

[0,3^123,23^362,45^快手,56^6,63^25,63^582,…,null]

[1,1^12,23^22,45^美团,79^深圳,146^1,6^123,63^456,…,null]

……

特征名存在hash表中。

再对样本特征集重新构造，现将一行多列的特征转为多行一列并进行murmurhash：

[102,1^123]

[24,2^362]

[42,3^快手]

[35,4^6]

[56,6^25]

[77,6^582]

[102,1^12]

……

同时对特征频次进行统计，最后过滤掉低频特征，再将剩下的特征编号组成FeatureMap：

1^1123,1

2^2362,2

3^快手,3

6^25,4

6^582,4

1^112,1

……

设置最大广播次数，并将FeatureMap切分：

1^123,1 6^582,4

2^362,2 112,1

3^快手,3 。。。。。。。。。。。。

6^25,4

……

循环广播每个FeatureMap分区，样本根据该FeatureMap去索引对应特征的编码，然后进行替换，删除样本中features中对应的特征，并将编码插入到ids中，如下

[0,23^362,45^快手,56^6,63^25,63^582,…,1:123,]

[1,23^22,45^美团,79^深圳,146^1,6^123,63^456,…,1:12,]

持续操作完成编码将样本转换为：[label,features(Long):null,ids(int)]

最后释放features，就变成了libsvm格式：

[0,1:123,2:362,3:快手,4:25,5:582,…]

[1,1:12,2:22,3:美团4:123,5:456,…]

如图5所示，在实际测试中，对执行过程进行观察，后面的图是测试的运行过程，inmemory表示从缓存中进行广播，on disk表示从内存中进行广播，可以发现在分片广播之后，部分的featureMap存在缓存机制，不会全部load到内存，也就是说可以将大量的数据通过分片广播的方式来进行广播，而不会受到内存限制。

本发明经过测试与其他算法的对比如下，下面的算法1到4分别对应前面背景介绍中提到的四种对数据进行ID化的处理方法：将编码后的特征集进行广播的方式、使用join的方式、使用union结合reduce来改进join的方式、对头部数据广播，长尾数据join的方式。

测试环境:

spark2.1，executor-num:200，executor-memory:4G，driver-memory:10G，最大广播数：500w

测试数据是经过bz2算法压缩后存储，解压后实际占用空间会增加2倍以上。

实验分析：

1.特征量在1000w内的时候，算法1和本算法差距不大，因为都是直接广播的方式，其他3个算法因为是join的方式，涉及到大量IO操作，所以速度会慢一些。

2.特征量在2000w的时候，算法1-4差距已经很小了，因为这个时候特征全部广播会有些压力，已经和join耗时几乎一致了，但这个时候分片广播效率依然很高，由于其独有的数据结构设计，和原地修改等操作降低了内存消耗，使得有更多的空间用于广播。

3.特征量在1e的时候，算法1受限于executor内存限制，已经无法广播了。使用头部广播，长尾join的算法4，耗时在5小时以上，这时候分片广播的优势开始扩大，只需要一半的时间。

4.在特征量达到2e的时候，纯join的算法受限于executor内存和数据倾斜，会在运行过程报OutOfMemory错误。本算法的耗时依然只有算法4的一半。

由实验对比可以看出，本算法在数据量越大的时候，与其他算法相比拥有更明显的运行时间上的优势，同时利用广播机制，减少了shuffle操作，也有效避免了数据倾斜问题。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种spark下的机器学习快速大规模样本签名方法，其特征在于，包括以下步骤：

1)读入样本数据，将样本数据转换成改进的样本格式，为了将features经过hash后保存在Long类型的Buffer中并留出int类型的ids空列方便对其进行后面转换；

2)对样本数据中的高频特征进行划分，得到FeatureMap，FeatureMap为高频特征被划分成多行后的存储格式；

4)根据FeatureMap的分区partition数量进行循环迭代，分片广播大量特征，让样本一开始转换为设定格式的样本数据，根据FeatureMap去索引对应特征的编码进行替换；

5)最后对完成替换的样本进行格式转换，得到libsvm格式的数据；

所述步骤2)对样本数据中的高频特征进行划分，得到FeatureMap具体包括：对样本数据中的features进行划分，由一行变多行，同时进行murmurhash，将String数据hash到64位的空间中，MurmurHash算法是一种非加密hash算法，这里是将分开后的每一个特征进行hash,并同时统计特征频次，对低频特征进行过滤，对剩余的特征进行编号，产生FeatureMap，格式为[feature:Long,id:Int]。

2.根据权利要求1所述的一种spark下的机器学习快速大规模样本签名方法，其特征在于，所述步骤1)读入样本数据，将样本数据转换成改进的样本格式，具体格式为：

其中features是明文的特征，经过hash后保存在Long类型的Buffer中；ids是特征编码后的Buffer，ids初始为空，类型为Int；在编码转换的过程中，不断的将查找到的feature转换成id，同时在features的buffer里删除掉已经转换后的feature，并将编码的id写入到ids这个buffer中。

3.根据权利要求2所述的一种spark下的机器学习快速大规模样本签名方法，其特征在于，所述3)设置最大广播数量，根据最大广播数量计算FeatureMap的分区partition，具体包括步骤：

[feature:Long,id:Int,part:int]。

4.根据权利要求3所述的一种spark下的机器学习快速大规模样本签名方法，其特征在于，所述步骤4)根据FeatureMap的分区partition数量进行循环迭代，分片广播大量特征，具体包括：在每一轮的广播中，样本根据该FeatureMap去索引对应特征的编码，然后进行替换，具体操作为，遍历FeatureMap，每个特征都有其对应的一开始编好的哈希值,样本根据这个哈希值查找到对应样本位置，在该列进行操作，删除样本中features中对应的特征，并将编码插入到ids中；每一轮遍历FeatureMap后，结束当前广播并释放该FeatureMap，然后进入下一轮广播，直到所有FeatureMap遍历结束，以此通过一次数据扫描，即可完成ID化写入磁盘的操作。