CN106951425A

CN106951425A - 一种映射方法和设备

Info

Publication number: CN106951425A
Application number: CN201610009341.4A
Authority: CN
Inventors: 陈绪; 余晋; 李小龙; 丁轶; 熊怀东
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2017-07-14
Also published as: WO2017118335A1; US20180307743A1

Abstract

本发明公开了一种映射方法，应用于集群系统中的主服务器，集群系统还包括各子服务器，包括：将所接收的离散集合切分为若干个离散子集合；将各离散子集合分布至对应的各子服务器，以使各子服务器根据预设偏移量计算公式以及最小完美哈希算法分别得出各离散子集合对应的偏移量值和连续整数子集后，通过将连续整数子集中各元素与偏移量值分别求和得到各离散子集合对应的映射连续整数子集；从各子服务器中获取对应的各映射连续整数子集，合并后得到连续整数映射集合。本方法不会受到单机内存和计算资源的限制，节省了硬件资源，可以对输入地离散集合做相应地线性扩展，提升了映射的转换效率以及机器学习算法的学习效果。

Description

一种映射方法和设备

技术领域

本发明涉及通信技术领域，特别涉及一种映射方法，本申请同时还涉及一种映射设备。

背景技术

随着网络技术的不断发展，互联网领域产生的数据量发生了爆炸式的增长，超大规模的互联网数据中凌乱地分布着诸多极具意义的数据信息，通常利用机器学习算法对行业所需的数据信息进行处理与挖掘。尤其是在基于搜索查询结果排序、互联网广告点击率预测、商品个性化推荐、语音识别和智能问答等涉及大规模数据处理的系统中，超大规模机器学习算法已成为最重要的技术支撑之一。

机器学习算法通常是对连续的数值矩阵和向量进行运算，这也就要求了输入数据必须是连续数值空间。然而互联网领域的大规模数据一般都是由用户的点击日志、搜索查询日志或者商品购买日志汇总而来，也就是说，绝大部分的互联网数据都是以离散集合的形式存在，比如：

一组用户ID的集合：{user_1,user_2,…,user_n}；

一组商品ID的集合：{item_1,item_2,…,item_n}；

一组搜索查询的集合：{“男装”,“高跟鞋”,…}。

因此在执行机器学习算法之前，先要通过连续数值化方法将离散集合转换为机器学习算法可以使用的连续数值空间，即需要有一种可以从离散集合到连续整数集合的映射：

f：S→N

其中，S是原始的离散集合，N是映射之后的自然数集合，范围为[0，n-1]，n＝|S|。

通过应用上述的映射关系，就可以将原始的离散集合映射为连续整数集合，即完成了从样本矩阵到数值矩阵的转换，然后将数值矩阵输入到机器学习算法中完成后续的计算过程。

在现有技术的连续数值化方法中，一般都是采用哈希表映射的方式。具体的，首先创建一个哈希表，然后通过查询哈希表判断输入集合中的每一个元素是否已经在哈希表中存在了对应表项。接着根据判断结果选择不同的执行方式，如果对应元素已经在哈希表中存在了对应表项，则忽略该元素；如果不存在的话，则为该元素分配一个整数值，这个整数值等于当前哈希表的总元素个数，并同时将这个元素和对应的分配整数值加入当前哈希表中。最终形成的哈希表就是一个映射关系，根据这个映射关系，就可以将原输入集合转换为整数值集合。

在实现本申请的过程中，发明人发现现有技术至少存在如下问题：

(1)只有将整个原始离散集合的元素存入同一个哈希表中，才能获得全局唯一的整数值，然而单一的哈希表所能够存储的数据容量会受到硬件条件的限制，同时也无法进行并发读写，因此会出现硬件性能无法满足处理要求的问题；

(2)待处理数据无法通过集群资源利用多个进程并行处理，造成处理效率较低，不适合处理现今互联网规模的大规模数据集合；

(3)哈希表中需要保存原始离散集合的内容作为映射键值，那么如果原始离散集合占据了较大的内存空间，映射键值也会相应地占据较大的内存空间，同时还需要在单机上加载全部的映射对，这些都会使得系统处理原始离散集合规模的上限受到单机内存的上限的限制，而无法进行线性扩展。

以上现有技术所存在的缺点均会不同程度地限制机器学习所需的数据和特征规模，从而会影响机器学习算法最终能取得的效果。

因此，现有技术在针对超大规模离散集合的连续数值化过程时，会受到单机内存和计算资源的限制，对输入集合无法做相应地线性扩展，进而会影响映射的转换效率以及机器学习算法的学习效果，同时也浪费了大量的硬件资源。

发明内容

有鉴于背景技术中的问题，本发明提供一种映射方法，通过对映射算法的优化以及将离散集合切分并行处理的方式，解决现有技术中受到单机内存和计算资源限制的问题，可以对输入的离散集合做相应地线性扩展，节省了硬件资源，同时提升了映射的转换效率以及机器学习算法的学习效果。

该方法应用于集群系统中的主服务器，所述集群系统还包括各子服务器，所述方法包括：

将所接收的离散集合切分为若干个按序排列的离散子集合；

将各所述离散子集合分布至对应的各所述子服务器中，以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后，通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集；

从各所述子服务器中获取对应的各所述映射连续整数子集，处理后得到映射连续整数集合。

优选地，将输入的离散集合切分为若干个离散子集合，具体为：

根据预设哈希函数映射出所述离散集合中各元素的哈希值；

将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值；

将模值相等的元素分入同一个离散子集合，以形成预设正整数个所述离散子集合。

优选地，处理后得到映射连续整数集合，具体为：

计算出所有各所述映射连续整数子集的并集；

将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。

本发明还提供了一种应用于集群系统中的各子服务器的映射方法，所述集群系统还包括主服务器，该方法包括：

从所述主服务器接收对应的离散子集合；

根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后，将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集；

将所述映射连续整数子集转发至所述主服务器，以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。

优选地，根据预设偏移量算法得出所述离散子集合对应的偏移量值，具体为：

判断该离散子集合在所有离散子集合中的所处顺序是否为首位；

若是，则该离散子集合对应的偏移量值为0；

若否，则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。

优选地，根据最小完美哈希算法得出所述离散子集合对应的连续整数子集，具体为：

根据该离散子集合中元素的个数，构造出对应个数且带有编号的哈希函数，各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列；

根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号，并分别得出各所述元素对应的各所述哈希值；

将各所述哈希值进行排序，以得出所述离散子集合对应的连续整数子集。

优选地，根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号，具体为：

通过各所述元素基于各所述哈希函数的全部映射结果，确定该离散子集合对应的所有哈希值个数；

分别以所述元素个数和所述哈希值个数为边数和节点数，构造无环超图；

遍历所述无环超图的每一条边，根据预设节点计算公式得出各所述节点对应的计算结果，以形成基于计算结果的数组；

基于数组以及预设编号计算公式，确定各所述元素对应的所述哈希函数的编号。

优选地，基于数组以及预设编号计算公式，确定各所述元素对应的所述哈希函数的编号，具体为：

根据所述数组以及预设编号计算公式计算出元素对应的编号值；

判断所述编号值是否已被占用；

若否，则所述编号值为所述元素对应的所述哈希函数的编号。

优选地，将各所述哈希值进行排序，以得出所述离散子集合对应的连续整数子集，具体为：

根据所述哈希值对应的所述哈希函数的编号，确定在分配该编号之前分配出去的所有编号的个数，所述哈希值对应的整数为所述个数的大小；

将各所述哈希值对应的整数汇总后，得出所述离散子集合对应的连续整数子集。

相应地，本发明提供了一种服务器，所述服务器为应用于处理离散集群系统中的主服务器，所述集群系统还包括各子服务器，所述服务器包括：

切分模块，将所接收的离散集合切分为若干个按序排列的离散子集合；

分布模块，将各所述离散子集合分布至对应的各所述子服务器中，以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后，通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集；

第一处理模块，从各所述子服务器中获取对应的各所述映射连续整数子集，处理后得到映射连续整数集合。

优选地，所述切分模块具体用于：

根据预设哈希函数映射出所述离散集合中各元素的哈希值；

优选地，所述第一处理模块具体用于：

计算出所有各所述映射连续整数子集的并集；

相应地，本发明还提供了一种服务器，所述服务器为应用于集群系统中的子服务器，所述集群系统还包括主服务器，所述服务器包括：

接收模块，从所述主服务器接收对应的离散子集合；

第二处理模块，根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后，将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集；

转发模块，将所述映射连续整数子集转发至所述主服务器，以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。

优选地，所述第二处理模块具体用于：

若是，则该离散子集合对应的偏移量值为0；

优选地，所述第二处理模块还用于：

判断所述编号值是否已被占用；

优选地，其特征在于，所述第二处理模块还用于：

由此可见，通过应用本申请的技术方案，现有技术在针对超大规模离散集合的连续数值化过程时，通过对离散集合切分后利用集群系统中的多台服务器进行并行处理，且设计了最小完美哈希算法和偏移量的映射算法优化方式。以此可以对输入的离散集合做相应地线性扩展，同时提升了映射的转换效率以及机器学习算法的学习效果，并节省了大量的硬件资源。

附图说明

图1为本申请提出的一种映射方法的流程示意图；

图2为本申请提出的一种映射方法的流程示意图；

图3为本申请的具体实施例所提出的一种映射方法的流程示意图；

图4为本申请提出的一种服务器的结构示意图；

图5为本申请提出的一种服务器的结构示意图。

具体实施方式

该方法应用于集群系统中的主服务器，所述集群系统还包括各子服务器。

如图1所示，为本申请提出的映射方法的流程示意图，包括以下步骤：

S101将输入的离散集合切分为若干个按序排列的离散子集合。

在本申请的实施方式中，采用如下步骤进行切分：

a)根据预设哈希函数映射出所述离散集合中各元素的哈希值；

b)将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值；

c)将模值相等的元素分入同一个离散子集合，以形成预设正整数个所述离散子集合。

其中，在本申请的具体实施方式中，预设正整数一般选取一个较大的质数。

需要说明的是，本申请需要得到的是离散集合拆分后的离散子集合，本申请的保护范围并不限于集合切分的方法，也就是说，进行以上集合的切分方法仅为本申请优选实施例提出的示例，在此基础上还可以选择其他方式来进行切分，以使本申请适用于更多的应用领域，这些改进都属于本发明的保护范围。

S102将各所述离散子集合分布至对应的各所述子服务器中，以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后，通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集。

在本申请的实施方式中，采用多个子服务器来分配多个离散子集合，对各个离散子集合进行并行处理。

S103从各所述子服务器中获取对应的各所述映射连续整数子集，处理后得到映射连续整数集合。

在本申请的实施方式中，在获取全部子服务器输出的所有映射连续整数子集后，继续采用如下步骤进行处理：

a)计算出所有各所述映射连续整数子集的并集；

b)将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。

本发明还提供了一种应用于集群系统中的各子服务器的映射方法，所述集群系统还包括主服务器。

如图2所示，为本申请提出的映射方法的流程示意图，包括以下步骤：

S201从所述主服务器接收对应的离散子集合。

在本申请的实施方式中，在主服务器将输入的离散集合切分后，各子服务器分别接收各自对应的离散子集合，从而实现了对各个离散子集合进行并行处理这一目的。

S202根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后，将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集。

在本申请的实施方式中，每个连续整数子集中的元素需要分别与对应的偏移量进行求和。举例来说，离散子集合1、离散子集合2和离散子集合3分别对应于连续整数子集1为{1,2,3,4}，连续整数子集2为{1,2,3,4}，连续整数子集3为{1,2,3,4}，如果主服务器直接将连续整数子集1、连续整数子集2和连续整数子集3进行合并后的映射连续整数集合为{1,2,3,4，1,2,3,4，1,2,3,4}，很明显无法实现。故本申请引出了偏移量这一概念，离散子集和1的偏移量为0，离散子集和2的偏移量为4，离散子集和3的偏移量为8，每个连续整数子集中的元素分别通过与对应的偏移量进行求和后得到的对应的映射连续整数子集，则映射连续整数子集1为{1,2,3,4}，映射连续整数子集2为{5,6,7,8}，映射连续整数子集3为{9,10,11,12}，如果主服务器将映射连续整数子集1、映射连续整数子集2和映射连续整数子集3进行合并后的映射连续整数集合为{1,2,3,4,5,6,7,8,9,10,11,12}，从而实现了映射结果为连续整数集合这一技术效果。

故本申请具体实施方式中公开了以下偏移量值的计算步骤：

a)判断该离散子集合在所有离散子集合中的所处顺序是否为首位；

b)若是，则该离散子集合对应的偏移量值为0；

c)若否，则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。

需要说明的是，本申请需要实现各映射连续整数子集在合并后仍然为连续整数的集合，故提出一种偏移量的计算方法，本申请的保护范围并不限于上述计算方法，也就是说，进行以上偏移量的计算方法仅为本申请优选实施例提出的示例，在此基础上还可以选择其他方式来进行计算，以使本申请适用于更多的应用领域，这些改进都属于本发明的保护范围。

另外，最小完美哈希算法可以得到离散子集合的连续整数子集，离散子集合中的元素个数和连续整数子集的元素个数是相等的，同时是一一对应且不冲突的。举例来说，如果离散子集合中包含5个离散元素，通过最小完美哈希算法后则会形成类似{0,1,2,3,4}这种包含5个连续整数的连续整数子集，再通过与对应偏移量之间进行求和后得到离散子集合所对应的映射连续整数子集。

在本申请具体实施方式中，公开了以下最小完美哈希算法的计算步骤：

a)根据该离散子集合中元素的个数，构造出对应个数且带有编号的哈希函数，各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列。

具体的，通过举例来进行说明，如果离散子集合S_i中有4个元素，分别为x₁、x₂、x₃与x₄，则构造出4个哈希函数{h₀，h₁，h₂，h₄}。

b)根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号，并分别得出各所述元素对应的各所述哈希值。

其中，其中编号是通过如下步骤进行确定的：

1)通过各所述元素基于各所述哈希函数的全部映射结果，确定该离散子集合对应的所有哈希值个数；

2)分别以所述元素个数和所述哈希值个数为边数和节点数，构造无环超图；

3)遍历所述无环超图的每一条边，根据预设节点计算公式得出各所述节点对应的计算结果，以形成基于计算结果的数组；

4)基于数组以及预设编号计算公式，确定各所述元素对应的所述哈希函数的编号。

具体的，基于数组以及预设编号计算公式，确定各所述元素对应的所述哈希函数的编号，包括如下步骤：

①根据所述数组以及预设编号计算公式计算出元素对应的编号值；

②判断所述编号值是否已被占用；

③若否，则所述编号值为所述元素对应的所述哈希函数的编号。

c)将各所述哈希值进行排序，以得出所述离散子集合对应的连续整数子集。

具体的，将各所述哈希值进行排序，包括如下步骤：

a)根据所述哈希值对应的所述哈希函数的编号，确定在分配该编号之前分配出去的所有编号的个数，所述哈希值对应的整数为所述个数的大小；

b)将各所述哈希值对应的整数汇总后，得出所述离散子集合对应的连续整数子集。

需要说明的是，本申请进行以上基于最小完美哈希算法得到离散子集合的连续整数子集的计算过程仅为本申请优选实施例提出的示例，在此基础上还可以选择其他方式来进行计算，以使本申请适用于更多的应用领域，这些改进都属于本发明的保护范围。

S203将所述映射连续整数子集转发至所述主服务器，以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。

由以上内容可知，通过应用本申请的技术方案，在针对现有技术在针对超大规模离散集合的连续数值化过程时，通过对离散集合切分后利用集群系统中的多台服务器进行并行处理，且设计了最小完美哈希算法和偏移量的映射算法优化方式。以此可以对输入的离散集合做相应地线性扩展，并使得在生成的映射关系中不需要保存原始离散集合的信息，显著降低了内存占用，同时提升了映射的转换效率以及机器学习算法的学习效果，并节省了大量的硬件资源。

为了进一步阐述本发明的技术思想，现结合图3所示的具体的应用场景，对本发明的技术方案进行说明。

在此具体的应用场景中，提出了一种映射方法。该方法包括如下步骤：

步骤1接收输入的离散集合，预先选定一个哈希函数h，通过该哈希函数映射出所述离散集合中各元素的哈希值，将各所述哈希值对正整数k取模得到各所述元素的哈希值所对应的模值，将模值相等的元素分入同一个离散子集合，以切分成k个离散子集合。

在本实施方式中，步骤1中的第i个离散子集合S_i(1≤i≤k)可以表示为：

s_i＝{x，h(x)mod k＝i}

其中，x为离散子集合中的元素，h(x)为元素x对应的哈希值，i的范围为[1,k]。

通过步骤1切分得到的各个离散子集合中没有重复元素，且各个离散子集合的规模也基本均等，然后通过将各离散子集合分布至集群系统中对应的各子服务器中，每台子服务器可以并行处理各自对应的离散子集合。

也就是说，步骤1是将离散集合中所有基于哈希值取模后模值为i的元素分入离散子集合S_i中。

步骤2各子服务器对各自对应的离散子集合并行处理，计算出各离散子集合的偏移量值，偏移量(Offset)的递推定义如下：

在本实施方式中，Offset_i为第i个离散子集合所对应的偏移量值,|S_j|(1≤j≤i-1)为第j个离散子集合中的元素个数。

具体的，第一个离散子集合的Offset₁偏移量值为0，从第二个离散子集开始，各离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。

步骤3各子服务器对各自对应的离散子集合并行处理，对于每个离散子集合子集S_i，均基于最小完美哈希算法(Minimal Perfect Hash)生成一个映射关系f_i：

f_i：S_i→N_i，|S_i|＝n_i，N_i＝{0，1，...，n_i-1}

其中，这个映射关系f_i将离散子集合S_i映射到一个连续整数空间集合N_i中，N_i的范围是[0，n_i-1]，|S_i|＝n_i表示第i个离散子集合中的元素个数为n_i个。

在本实施方式中，步骤3中最小完美哈希映射关系的计算步骤如下：

a)映射步：根据离散子集合S_i中元素的个数n_i，从一组哈希函数H中随机选取并构造n_i个哈希函数{h₀，h₁，…，h_ni-1}，构造的哈希函数的个数是和离散子集合中的元素个数是相等的。选取已知哈希函数h’，分别为离散子集合S_i中的任意元素x生成n_i个哈希值h’₀,h’₁,…,h’_ni-1，从而有：

h₀＝h′₀modη

h₁＝h′₁modη+η

h₂＝h′₂modη+2η

…

以此类推，就得到了关于元素x的n_i个哈希函数，离散子集合中的所有元素均通过上述规则进行处理。其中，η是一个预先设置的参数，通过上述方式选取出来的哈希函数的值域是[0,η×n_i)，也就是说，针对离散子集合S_i中的n_i个元素，这组哈希函数{h₀，h₁，…，h_ni-1}的输出值个数为η×n_i个。

创建一个无环n_i部超图(acyclicni-partite hypergraph)，超图的每个独立子集边数和S_i的元素个数n_i相同，超图的每个节点对应一个由上面生成的n_i个哈希函数对子集合中元素计算得到的输出值，输出值的范围是[0,m-1]，这样的节点有m个，其中m＝η·n_i。

b)分配步：在前面创建的无环n_i部超图中，离散子集合S_i中的任意元素x是由n_i个哈希函数输出值对应到n_i个节点，可以表示为V＝{v₀,v₁,…,v_ni-1}，每个节点上对应有一个整数值，离散子集合S_i中的任意元素x分配整数值的步骤如下：

1)遍历所述无环超图的每一条边，在这条边上，找到在每条上第一个还没有被分配的节点u，令

根据上述节点计算公式得出各所述节点对应的计算结果，以形成基于计算结果的数组g＝{g₀,g₁,…,g_m-1}，其中0≤g_i≤n_i。数组g＝{g₀,g₁,…,g_m-1}适用于离散子集合S_i中的任意元素x的计算过程。

2)根据所述数组g＝{g₀,g₁,…,g_m-1}以及预设编号计算公式计算出元素对应的编号值，进而确定离散子集合S_i中的任意元素x对应到唯一的一个节点上所属的整数值。其中，编号计算公式如下：

i＝(g_h0(x)+g_h1(x)+…+g_h(ni-1)(x))mod n_i

然后判断计算所得的编号值i是否已被使用，若否，则该编号值为元素x对应的所述哈希函数的编号，即哈希函数h_i的对应计算结果为元素x对应的整数值，该整数值的取值范围是[0,m)；若是，则顺延找到下一个编号i+1，判断编号值i+1是否已被使用，若否，则编号值i+1为所述元素对应的所述哈希函数的编号，即哈希函数h_i+1的对应计算结果为元素x对应的整数值，该整数值的取值范围是[0,m)，依此类推。

c)排序步：分配步已经为离散子集合中的每个元素分配了一个整数值，整数值的取值范围是[0,m)，为了得到最小完美哈希函数，需要将整数值的取值范围是[0,m)缩小至[0,n_i-1]。具体步骤如下：

生成一个序号表，其中序号表是一个长度为n_i的一维数组，其中每个下标对应的值表示，在这个下标之前被之前分配步使用过的整数个数。具体可参考如下的排序公式：

其中，assigned[i]表示第i个数是否在分配步被使用。经过排序步，离散子集合中的元素就被一一映射到连续的整数空间子集合中，该整数空间集合取值范围是[0,n_i-1]。最小完美哈希函数可以通过如下公式进行表示：

mph_i(x)＝rank[h_i(x)]

其中，mph_i(x)为第i个离散子集合S_i中任意元素x对应的最小完美哈希函数的输出值，rank[h_i(x)]为排序步的具体处理过程。

步骤4各子服务器并行处理，基于步骤3得出的连续的整数空间子集合，将每个子服务器的整数空间集合中各元素的哈希值分别加上步骤2计算出的对应的偏移量值，得到最终的映射连续整数子集合。

在本实施方式中，最终的映射连续整数子集合可以表示为：

f_i(x)＝mph_i(x)+Offset_i

其中，mph_i(x)为第i个离散子集合S_i中任意元素x对应的最小完美哈希函数的输出值，Offset_i为第i个离散子集合所对应的偏移量值。

步骤5将各子服务器中生成的映射连续整数子集合汇总到一个集合，形成最终输出的映射连续整数集合。

需要说明的是，本具体实施方式所涉及的映射方法仅为本申请优选实施例提出的示例，在此基础上还可以选择其他类似的方式来进行计算以得到类似的结果，以使本申请适用于更多的应用领域，这些改进都属于本发明的保护范围。

由以上内容可知，本具体实施方式在针对现有技术在针对超大规模离散集合的连续数值化过程时，通过对离散集合切分后利用集群系统中的多台服务器进行并行处理，且设计了最小完美哈希算法和偏移量的映射算法优化方式。以此可以对输入的离散集合做相应地线性扩展，并使得在生成的映射关系中不需要保存原始离散集合的信息，显著降低了内存占用，同时提升了映射的转换效率以及机器学习算法的学习效果，并节省了大量的硬件资源。

为达到以上技术目的，相应地，本申请还提出了一种服务器，所述服务器为应用于处理离散集群系统中的主服务器，所述集群系统还包括各子服务器，如图4所示，所述服务器包括：

切分模块401，将所接收的离散集合切分为若干个按序排列的离散子集合；

分布模块402，将各所述离散子集合分布至对应的各所述子服务器中，以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后，通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集；

第一处理模块403，从各所述子服务器中获取对应的各所述映射连续整数子集，处理后得到映射连续整数集合。

在具体的应用场景中，所述切分模块具体用于：

根据预设哈希函数映射出所述离散集合中各元素的哈希值；

在具体的应用场景中，所述第一处理模块具体用于：

计算出所有各所述映射连续整数子集的并集；

为达到以上技术目的，相应地，本申请还提出了一种服务器，所述服务器为应用于集群系统中的子服务器，所述集群系统还包括主服务器，如图5所示，所述服务器包括：

接收模块501，从所述主服务器接收对应的离散子集合；

第二处理模块502，根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后，将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集；

转发模块503，将所述映射连续整数子集转发至所述主服务器，以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。

在具体的应用场景中，所述第二处理模块具体用于：

若是，则该离散子集合对应的偏移量值为0；

在具体的应用场景中，所述第二处理模块还用于：

判断所述编号值是否已被占用；

在具体的应用场景中，所述第二处理模块还用于：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种映射方法，其特征在于，所述方法应用于集群系统中的主服务器，所述集群系统还包括各子服务器，所述方法包括：

将输入的离散集合切分为若干个按序排列的离散子集合；

2.如权利要求1所述的方法，其特征在于，将所接收的离散集合切分为若干个离散子集合，具体为：

根据预设哈希函数映射出所述离散集合中各元素的哈希值；

3.如权利要求1所述的方法，其特征在于，处理后得到映射连续整数集合，具体为：

计算出所有各所述映射连续整数子集的并集；

4.一种映射方法，其特征在于，所述方法应用于集群系统中的各子服务器，所述集群系统还包括主服务器，所述方法包括：

从所述主服务器接收对应的离散子集合；

5.如权利要求4所述的方法，其特征在于，根据预设偏移量算法得出所述离散子集合对应的偏移量值，具体为：

若是，则该离散子集合对应的偏移量值为0；

6.如权利要求4所述的方法，其特征在于，根据最小完美哈希算法得出所述离散子集合对应的连续整数子集，具体为：

7.如权利要求6所述的方法，其特征在于，根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号，具体为：

8.如权利要求7所述的方法，其特征在于，基于数组以及预设编号计算公式，确定各所述元素对应的所述哈希函数的编号，具体为：

判断所述编号值是否已被占用；

9.如权利要求6或8任一项所述的方法，其特征在于，将各所述哈希值进行排序，以得出所述离散子集合对应的连续整数子集，具体为：

10.一种服务器，其特征在于，所述服务器为应用于集群系统中的主服务器，所述集群系统还包括各子服务器，所述服务器包括：

切分模块，将输入的离散集合切分为若干个按序排列的离散子集合；

11.如权利要求10所述的服务器，其特征在于，所述切分模块具体用于：

根据预设哈希函数映射出所述离散集合中各元素的哈希值；

12.如权利要求10所述的服务器，其特征在于，所述第一处理模块具体用于：

计算出所有各所述映射连续整数子集的并集；

13.一种服务器，其特征在于，所述服务器为应用于集群系统中的子服务器，所述集群系统还包括主服务器，所述服务器包括：

接收模块，从所述主服务器接收对应的离散子集合；

14.如权利要求13所述的服务器，其特征在于，所述第二处理模块具体用于：

若是，则该离散子集合对应的偏移量值为0；

15.如权利要求13所述的服务器，其特征在于，所述第二处理模块还用于：

16.如权利要求15所述的服务器，其特征在于，所述第二处理模块还用于：

17.如权利要求16所述的服务器，其特征在于，所述第二处理模块还用于：

判断所述编号值是否已被占用；

18.如权利要求13或17任一项所述的服务器，其特征在于，所述第二处理模块还用于：