CN105138527A

CN105138527A - 一种数据分类回归方法及装置

Info

Publication number: CN105138527A
Application number: CN201410242170.0A
Authority: CN
Inventors: 田光见; 张夏天; 范伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2015-12-09
Anticipated expiration: 2034-05-30
Also published as: CN105138527B

Abstract

本发明公开了一种数据分类回归方法及装置。方法为，将初始样本向量集合划分为连续类型数据序列、类别类型数据序列，以及二进制数据序列，并将连续类型数据序列、类别类型数据序列分别转化为二进制形式的第一向量序列以及第二向量序列，合并第一向量序列、第二向量序列，以及二进制数据序列，生成分类回归向量序列；根据该分类回归向量序列中的每一个向量，获取初始样本向量集合的分类回归结果。采用本发明技术方案，数据分类回归结果的获取不受数据维数以及数据数量的限制，并且无须采用迭代算法实现数据的分类回归，从而降低了获取数据分类回归结果的复杂度。

Description

一种数据分类回归方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种数据分类回归方法及装置。

背景技术

在数据处理领域，对数据进行分类回归即为，从针对已知类别训练集合的分析结果中发现分类规则，以此预测新采集数据的类别。通过对采集到的数据进行回归分析，可以从中获取用户需要的分类信息，以及根据该分类信息获取更深层次的规律，从而将该规律应用于银行风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测应用等相关领域。

目前，对数据进行分类回归的方法有多种，如神经网络，贝叶斯网络等方法，采用上述方法能够快速实现数据的分类回归。但是，由于上述方法在算法上的局限性，当数据的空间维数很高(即类型较多)时，对数据进行分类回归后所得到结果精度将迅速下降甚至无法得出分类回归结果。

针对上述技术问题，通常采用核方法来解决高维数据的分类回归问题，例如采用SVM(SupportVectorMachine；支持向量机)模型实现对高维数据的分类回归。由于SVM模型实现数据分类回归时，需要进行大量的迭代运算，若所采集的数据数量较为庞大，则需要较大的计算开销来获取数据分类回归的结果，因此，上述SVM模型仅适用于对数量较小的数据进行分类回归的应用场景。

由此可见，目前在对数据进行分类回归时，存在计算复杂度随着数据规模，数据维数的增长而增长太快，甚至无法求解的问题。

发明内容

本发明实施例提供一种数据分类回归方法及装置，用以解决目前在对数据进行分类回归时，存在计算复杂度高的问题。

本发明实施例提供的具体技术方案如下：

第一方面，提供一种数据分类回归方法，包括：

接收初始样本向量集合，并根据所述初始样本向量集合中每一个样本向量包含的数据类型，对所述初始样本向量集合进行划分，获取连续类型数据序列，类别类型数据序列，以及二进制数据序列；其中，所述初始样本向量集合中包含至少一个样本向量，所述样本向量包含样本对应的属性信息；所述连续类型数据序列用于表征所述属性信息中数字类型的属性信息；所述类别类型数据序列用于表征所述属性信息中非数字类型的属性信息；

根据所述连续类型数据序列，生成二进制形式的第一向量序列；

根据所述类别类型数据序列，生成二进制形式的第二向量序列；

将所述第一向量序列、第二向量序列，以及所述二进制数据序列进行合并后，生成分类回归向量序列；其中，所述分类回归向量序列中包含多个向量；

分别根据所述分类回归向量序列中的每一个向量，获取所述初始样本向量集合对应的各个类别回归哈希桶，并分别计算所述各个类别回归哈希桶对应的类别统计值，以及根据所述类别统计值获取所述初始样本向量集合的分类回归结果；其中，所述类别回归哈希桶中包含相应类别的样本数目。

结合第一方面，在第一种可能的实现方式中，从所述初始样本向量集合中按照预设规则选择第一预设数目个样本向量，根据选择的样本向量生成样本向量集合；针对所述样本向量集合采用高斯分布随机产生第一预设数目个连续类型向量组；其中，所述连续类型向量组中包含一组第一连续类型向量及其对应的第二连续类型向量，每组所述第一连续类型向量及其对应的第二连续类型向量组成一个超平面；根据上述所有超平面，分别获取所述连续类型数据序列中每一个样本向量对应的二进制形式的第一向量；根据所述所有第一向量，生成二进制形式的第一向量序列。

结合第一方面第一种可能的实现方式，在第二种可能的实现方式中，在本地生成一个预处理样本向量集合，从所述初始样本向量集合中随机选择任意一样本向量加入所述预处理样本向量集合中；将所述预处理样本向量集合所包含的样本向量数目与第一预设数目进行比较，当所述预处理样本向量集合所包含的样本向量数目小于所述第一预设数目时，采用指定概率从所述初始样本向量集合中选择样本向量加入到所述预处理样本向量集合中，直至所述预处理样本向量集合中的样本向量数目达到所述第一预设数目时，停止从所述初始样本向量集合中选择样本向量加入所述预处理样本向量集合中，基于加入选定的样本向量后的预处理样本向量集合，生成样本向量集合。

结合第一方面，第一方面第一种可能的实现方式，或者第一方面第二种可能的实现方式，在第三种可能的实现方式中，将所述类别类型数据序列中的所有类别类型数据分别进行二进制编码后，生成二进制形式的第二向量序列。

结合第一方面，第一方面第一种可能的实现方式，第一方面第二种可能的实现方式，或者第一方面第三种可能的实现方式，在第四种可能的实现方式中，随机产生第二预设数目个二进制掩码；其中，所述二进制掩码中1的个数为预先设置；分别将所述分类回归向量序列中的每一个向量分别与所述第二预设数目个二进制掩码进行与运算，获取所述每一个向量对应的第二预设数目个与运算后的结果；分别根据所述每一个向量对应的第二预设数目个与运算后的结果，以及本地保存的与运算结果与类别回归哈希桶的映射关系表，获取所述每一个向量对应的第二预设数目个类别回归哈希桶；根据所述每一个向量对应的类别回归哈希桶，获取所述初始样本向量集合对应的各个类别回归哈希桶。

结合第一方面，第一方面第一种可能的实现方式，第一方面第二种可能的实现方式，第一方面第三种可能的实现方式，或者第一方面第四种可能的实现方式，在第五种可能的实现方式中，分别获取各个类别回归哈希桶中包含的样本数目；根据所述样本数目，采用取统计平均值的方法，分别获取各个类别回归哈希桶对应的类别统计值。

第二方面，提供一种数据分类回归装置，包括：

接收单元，用于接收初始样本向量集合，并将接收到的初始样本向量集合发送至序列获取单元；

序列获取单元，用于接收所述接收单元发送的初始样本向量集合，并根据所述初始样本向量集合中每一个样本向量包含的数据类型，对所述初始样本向量集合进行划分，获取连续类型数据序列，类别类型数据序列，以及二进制数据序列，并将获取的连续类型数据序列发送至第一生成单元，将获取的类别类型数据序列发送至第二生成单元，以及将二进制数据序列发送至第三生成单元；其中，所述初始样本向量集合中包含至少一个样本向量，所述样本向量包含样本对应的属性信息；所述连续类型数据序列用于表征所述属性信息中数字类型的属性信息；所述类别类型数据序列用于表征所述属性信息中非数字类型的属性信息；

第一生成单元，用于接收所述序列获取单元发送的连续类型数据序列，并根据所述连续类型数据序列，生成二进制形式的第一向量序列发送至第三生成单元；

第二生成单元，用于接收所述序列获取单元发送的类别类型数据序列，并根据所述类别类型数据序列，生成二进制形式的第二向量序列发送至第三生成单元；

第三生成单元，用于接收所述第一生成单元发送的第一向量序列，所述第二生成单元发送的第二向量序列，以及序列获取单元发送的二进制数据序列，并将所述第一向量序列、第二向量序列，以及所述二进制数据序列进行合并后，生成分类回归向量序列发送至分类回归结果获取单元；其中，所述分类回归向量序列中包含多个向量；

分类回归结果获取单元，用于接收所述第三生成单元发送的分类回归向量序列，并分别根据所述分类回归向量序列中的每一个向量，获取所述初始样本向量集合对应的各个类别回归哈希桶，以及分别计算所述各个类别回归哈希桶对应的类别统计值，以及根据所述类别统计值获取所述初始样本向量集合的分类回归结果；其中，所述类别回归哈希桶中包含相应类别的样本数目。

结合第二方面，在第一种可能的实现方式中，所述第一生成单元，具体用于：从所述初始样本向量集合中按照预设规则选择第一预设数目个样本向量，根据选择的样本向量生成样本向量集合；针对所述样本向量集合采用高斯分布随机产生第一预设数目个连续类型向量组；其中，所述连续类型向量组中包含一组第一连续类型向量及其对应的第二连续类型向量，每组所述第一连续类型向量及其对应的第二连续类型向量组成一个超平面；根据上述所有超平面，分别获取所述连续类型数据序列中每一个样本向量对应的二进制形式的第一向量；根据所述所有第一向量，生成二进制形式的第一向量序列。

结合第二方面第一种可能的实现方式，在第二种可能的实现方式中，所述第一生成单元，具体用于：在本地生成一个预处理样本向量集合，从所述初始样本向量集合中随机选择任意一样本向量加入所述预处理样本向量集合中；将所述预处理样本向量集合所包含的样本向量数目与第一预设数目进行比较，当所述预处理样本向量集合所包含的样本向量数目小于所述第一预设数目时，采用指定概率从所述初始样本向量集合中选择样本向量加入到所述预处理样本向量集合中，直至所述预处理样本向量集合中的样本向量数目达到所述第一预设数目时，停止从所述初始样本向量集合中选择样本向量加入所述预处理样本向量集合中，基于加入选定的样本向量后的预处理样本向量集合，生成样本向量集合。

结合第二方面，第二方面第一种可能的实现方式，或者第二方面第二种可能的实现方式，在第三种可能的实现方式中，所述第二生成单元，具体用于：将所述类别类型数据序列中的所有类别类型数据分别进行二进制编码后，生成二进制形式的第二向量序列。

结合第二方面，第二方面第一种可能的实现方式，第二方面第二种可能的实现方式，或者第二方面第三种可能的实现方式，在第四种可能的实现方式中，所述分类回归结果获取单元，具体用于：随机产生第二预设数目个二进制掩码；其中，所述二进制掩码中1的个数为预先设置；分别将所述分类回归向量序列中的每一个向量分别与所述第二预设数目个二进制掩码进行与运算，获取所述每一个向量对应的第二预设数目个与运算后的结果；分别根据所述每一个向量对应的第二预设数目个与运算后的结果，以及本地保存的与运算结果与类别回归哈希桶的映射关系表，获取所述每一个向量对应的第二预设数目个类别回归哈希桶；根据所述每一个向量对应的类别回归哈希桶，获取所述初始样本向量集合对应的各个类别回归哈希桶。

结合第二方面，第二方面第一种可能的实现方式，第二方面第二种可能的实现方式，第二方面第三种可能的实现方式，或者第二方面第四种可能的实现方式，在第五种可能的实现方式中，所述分类回归结果获取单元，具体用于：分别获取各个类别回归哈希桶中包含的样本数目；根据所述样本数目，采用取统计平均值的方法，分别获取各个类别回归哈希桶对应的类别统计值。

本发明实施例中，将初始样本向量集合中的数据划分为连续类型数据序列、类别类型数据序列，以及二进制数据序列；将该连续类型数据序列转化为二进制形式的第一向量序列、以及将类别类型数据序列转化为第二向量序列后，合并第一向量序列、第二向量序列，以及二进制数据序列，生成分类回归向量序列；根据该分类回归向量序列中的每一个向量，获取初始样本向量集合对应的各个类别回归哈希桶，以及各个类别回归哈希桶对应的类别统计值，根据该类别统计值获取初始样本向量集合的分类回归结果。采用本发明技术方案，通过将样本向量集合中的数据进行划分，并分别将划分后的向量序列转化为二进制形式向量序列，以及基于合并后的二进制形式向量序列，获取初始样本向量集合对应的分类回归结果，数据分类回归结果的获取不受数据维数以及数据数量的限制，并且无须采用迭代算法实现数据的分类回归，从而降低了获取数据分类回归结果的复杂度。

附图说明

图1为本发明实施例中数据分类回归系统架构示意图；

图2为本发明实施例中获取数据分类回归模型参数流程图；

图3为本发明实施例中数据分类回归流程图；

图4为本发明实施例中数据分类回归模型示意图；

图5为本发明实施例中数据分类回归装置结构图；

图6为本发明实施例中数据分类回归设备结构图。

具体实施方式

为了解决目前在对数据进行分类回归时，存在计算复杂度高的问题。本发明实施例中，将初始样本向量集合中的数据划分为连续类型数据序列、类别类型数据序列，以及二进制数据序列；将该连续类型数据序列转化为二进制形式的第一向量序列、以及将类别类型数据序列转化为第二向量序列后，合并第一向量序列、第二向量序列，以及二进制数据序列，生成分类回归向量序列；根据该分类回归向量序列中的每一个向量，获取初始样本向量集合对应的各个类别回归哈希桶，以及各个类别回归哈希桶对应的类别统计值，根据该类别统计值获取初始样本向量集合的分类回归结果。采用本发明技术方案，通过将样本向量集合中的数据进行划分，并分别将划分后的向量序列转化为二进制形式向量序列，以及基于合并后的二进制形式向量序列，获取初始样本向量集合对应的分类回归结果，数据分类回归结果的获取不受数据维数以及数据数量的限制，并且无须采用迭代算法实现数据的分类回归，从而降低了获取数据分类回归结果的复杂度。

参阅图1所示，为本发明实施例中数据分类回归系统架构示意图，该数据分类回归系统包含数据采集装置以及数据分类回归装置；其中，数据采集装置用于采集数据，并将该采集到的数据发送至数据分类回归装置；数据分类回归装置用于对采集到的数据进行分类回归。上述数据采集装置以及数据分类回归装置可以位于同一个设备之中，也可以位于不同的设备之中。

下面结合说明书附图对本发明实施例作进一步详细描述。

本发明实施例中，在对待测试样本数据进行分类回归之前，在本地创建随机哈希的数据分类回归模型，并基于大量的训练样本，获取该随机哈希的数据分类回归模型的各个参数以及与运算结果与类别回归哈希桶的映射关系表。参阅图2所示，获取随机哈希的数据分类回归模型的各个参数以及与运算结果与类别回归哈希桶的映射关系表的过程为：

步骤200：接收初始训练样本向量集合，并根据该初始训练样本向量集合中每一个训练样本向量包含的训练数据类型，对上述初始训练样本向量集合进行划分，获取连续类型训练数据序列，类别类型训练数据序列，以及二进制训练数据序列。

本发明实施例中，接收输入的初始训练样本向量集合，该初始训练样本向量集合包含多个训练样本向量，每一个训练样本向量均对应训练样本对应的属性信息，该属性信息由训练数据表示；并且，每一个训练样本向量包含相应训练样本对应的至少一种数据类型的训练数据。

可选的，按照初始训练样本向量集合中包含的训练数据对应的数据类型的不同，对上述初始训练样本向量集合进行划分，生成连续类型训练数据序列，类别类型训练数据序列，以及二进制训练数据序列。其中，上述连续类型训练数据序列用于表征属性信息中数字类型的属性信息，并且，该连续类型训练数据序列中不包含表示为二进制数字类型的属性信息；上述类别类型训练数据序列用于表征属性信息中非数字类型的属性信息，例如：连续类型训练数据序列包含连续类型训练数据(如年龄、周工作时间等)，类别类型训练数据序列包含类别类型训练数据(如职业，婚姻状况、国籍、性别等)，二进制训练数据序列包含二进制训练数据(如DNA序列等)。

步骤210：根据上述连续类型训练数据序列，生成二进制形式的第一训练向量序列。

本发明实施例中，根据上述连续类型训练数据序列，生成二进制形式的第一训练向量序列的过程，具体为：从初始训练样本向量集合中按照预设规则选择第一预设数目个训练样本向量，根据选择的训练样本向量，生成训练样本向量集合，上述第一预设数目即为预设的超平面个数(记为K)，根据对训练样本的学习得到；采用高斯分布随机产生第一预设数目个连续类型向量组，其中，每一个连续类型向量组包含一组第一连续类型向量(记为r)以及该第一连续类型向量对应的第二连续类型向量(记为r₀)，每一组第一连续类型向量及其对应的第二连续类型向量组成一个超平面，且组成的超平面数目为K；根据上述所有超平面，分别获取连续类型训练数据序列中每一个训练样本向量对应的二进制形式的第一训练向量；根据连续类型训练数据序列中所有训练样本向量分别对应的二进制形式的第一训练向量，生成二进制形式的第一训练向量序列。

可选的，从初始训练样本向量集合中按照预设规则选择第一预设数目个训练样本向量，生成训练样本向量集合的过程，具体为：在本地生成一个预处理训练样本向量集合，此时，该预处理训练样本向量集合为空集合；从上述初始训练样本向量集合中随机选择任意一训练样本向量加入上述预处理训练样本向量集合中；将添加训练样本向量后的预处理训练样本向量集合中的训练样本向量数目与第一预设数目进行比较，当添加训练样本向量后的预处理训练样本向量集合中的训练样本向量数目小于第一预设数目时，采用指定概率从初始训练样本向量集合中选择训练样本向量加入到预处理训练样本向量集合中；当添加训练样本向量后的预处理训练样本向量集合中的训练样本向量数目达到第一预设数目时，停止从初始训练样本向量集合中选择训练样本向量加入预处理训练样本向量集合中，将该包含K个训练样本向量的预处理训练样本向量集合作为训练样本向量集合。

可选的，上述指定概率可以采用如下公式获取：

g = \frac{d^{2} (X_{j}, C)}{φ_{X} (C)}

公式一

其中，g为指定概率；d²(X_j,C)＝min_{i＝1,2,…,k}||X_j-C_i||，

φ_{X} (C) = \underset{X_{j} &Element; X}{Σ} mi n_{i = 1,2, . . . K} | | X_{j} {- C}_{i} | |,

其中，||X_j-C_i||表示X_j与C_i之间的欧氏距离，X_j为初始训练样本向量集合中的一个训练样本向量，C_i为训练样本向量集合中的训练样本向量；K为超平面个数；X为初始训练样本向量集合。

可选的，针对训练样本向量集合中的每一个训练样本向量，采用高斯分布随机产生第一预设数目个连续类型向量组，且每一组连续类型向量组均包含第一连续类型向量r以及该第一连续类型向量r对应的第二连续类型向量r₀，该第一连续类型向量r中包含多个数据，每一个数据均大于等于-1且小于等于1。根据上述任意一第一连续类型向量r，可以采用如下公式获取该任意一第一连续类型向量r对应的第二连续类型向量r₀：

r^TC_j+r₀＝0公式二

其中，r^T为第一连续类型向量r的转置；C_j为训练样本向量集合中的训练样本向量；r₀为第二连续类型向量。第一连续类型向量r的长度与训练样本向量集合的长度相同，即第一连续类型向量r对应的矩阵列数与训练样本向量集合对应的矩阵列数相等。由于训练样本向量集合中包含K个训练样本向量，并且针对每一个训练样本向量均生成相应的第一连续类型向量r和第二连续类型向量r₀，因此，对于训练样本向量集合，可生成K个第一连续类型向量r以及与该K个第一连续类型向量r分别对应的第二连续类型向量r₀。

可选的，针对上述连续类型数据序列中的任意一训练样本向量，将该任意一训练样本向量分别在上述K个超平面中的每一个超平面上进行投影，生成一个维数为K的第一训练向量序列，具体为：针对连续类型训练数据序列中的任意一训练样本向量，依次将每一组第一连续类型向量r以及与该第一连续类型向量r对应的第二连续类型向量r₀代入公式r^TC_1j+r₀中，以及分别将获取的K个公式r^TC_1j+r₀的结果与0进行比较；根据比较结果，获取该任意一训练样本向量对应的第一训练向量，其中，该第一训练向量包含K个二进制形式的训练数据。例如，当公式r^TC_1j+r₀＞0时，上述连续类型训练数据序列中的任意一训练样本向量C_1j对应的第一训练向量数据为1；当公式r^TC_1j+r₀＜0时，上述任意一训练样本向量C_1j对应的第一训练向量数据为0。

步骤220：根据上述类别类型训练数据序列，生成二进制形式的第二训练向量序列。

本发明实施例中，将上述类别类型训练数据序列中的所有类别类型训练数据分别进行二进制编码，即为类别类型训练数据分别赋予不同的二进制数值，将上述类别类型训练数据序列中的所有类别类型数据均用其对应的二进制数值代替，生成二进制形式的第二训练向量序列。

步骤230：将上述第一训练向量序列、第二训练向量序列，以及二进制训练数据序列进行合并后，生成训练样本分类回归向量序列。

本发明实施例中，将上述生成的二进制形式的第一训练向量序列，第二训练向量序列，以及二进制训练数据序列按照训练样本进行合并，生成训练样本分类回归向量序列。

上述训练样本分类回归向量序列包含多个训练向量，每一个训练向量均对应于初始训练样本向量集合中训练样本向量的二进制形式。

步骤240：分别根据上述训练样本分类回归向量序列中的每一个训练向量，获取上述初始训练样本向量集合对应的各个训练样本类别回归哈希桶，以及分别计算各个训练样本类别回归哈希桶对应的训练样本类别统计值，根据训练样本类别统计值获取初始训练样本向量集合的分类回归结果。

本发明实施例中，分别根据训练样本分类回归向量序列中的每一个训练向量，获取该各个训练样本类别回归哈希桶的过程为：随机产生第二预设数目个(记为P)的二进制掩码；其中，该二进制掩码中1的个数(记为Q)为预先设置，第二预设数目为根据具体应用场景预先设置的值，且每一个二进制掩码的长度与分类回归向量序列的列数相等，例如，若训练样本分类回归向量序列可以表示为8列矩阵形式时，则随机生成的每一个二进制掩码应当包含8位；分别将上述训练样本分类回归向量序列中的每一个训练向量与上述二进制掩码进行与运算，获取每一个训练向量对应的与运算后的结果，即将训练样本分类回归向量序列所对应的矩阵的每一行分别与上述P个二进制掩码进行与运算；分别根据上述每一个训练向量对应的与运算后的结果，以及本地保存的与运算结果与类别回归哈希桶的映射关系表，获取上述每一个训练向量对应的类别回归哈希桶；根据每一个训练向量对应的训练样本类别回归哈希桶，获取初始训练样本向量集合对应的各个训练样本类别回归哈希桶；以及根据各个训练样本类别回归哈希桶中的训练样本数目获取各个训练样本类别回归哈希桶对应的类别统计值，将该类别统计值作为初始训练样本向量集合的分类回归结果。

本发明实施例中，由于对于初始训练样本向量集合的分类回归结果为已知，因此，根据上述过程，获取随机哈希的分类回归模型对应的与运算结果与类别回归哈希桶的映射关系表以及相应的参数(r、K、P、Q)。

基于上述随机哈希的数据回归分类模型，参阅图3所示，本发明实施例中，对待测试样本数据进行分类回归的过程为：

步骤300：接收初始样本向量集合，并根据该初始样本向量集合中每一个样本向量包含的数据类型，对上述初始样本向量集合进行划分，获取连续类型数据序列，类别类型数据序列，以及二进制数据序列。

本发明实施例中，接收输入的初始样本向量集合(记为X)，该初始样本向量集合X包含多个样本向量，且每一个样本向量包含样本对应的属性信息，且属性信息可以通过至少一种类型的数据表示；例如，初始样本向量集合X包含表示三个样本向量，每一个样本向量均表示一个人名的属性信息，若每一个人名的属性信息包含年龄、婚姻状况、学历，且上述三个样本向量分别表示张A、李B和赵C的属性信息，则该三个样本向量可以分别表示为：张A{28，未婚，硕士}，李B{31，已婚，本科}，赵C{29，已婚，硕士}。因此，初始样本向量集合X可以表示为如下矩阵形式：

可选的，按照初始样本向量集合X中包含的数据类型的不同，对上述初始样本向量集合X进行划分，生成连续类型数据序列，类别类型数据序列，以及二进制数据序列。其中，连续类型数据序列用于表征上述样本对应的属性信息中数字类型的属性信息，其包含连续类型数据(如年龄、周工作时间等)，并且，连续类型数据序列中不包含表示为二进制数字类型的属性信息；类别类型数据序列用于表征属性信息中非数字类型的属性信息，其包含类别类型数据(如职业，婚姻状况、国籍、性别等)，二进制数据序列包含二进制数据(如DNA序列等)。例如，当初始样本向量集合X＝{X₁，X₂，X₃}，X₁＝{31，已婚，本科}，X₂＝{29，已婚，硕士}，X₃＝{30，未婚，本科}时，初始样本向量集合X可以表示为如下形式：

在上述初始样本向量集合X中，年龄为连续类型数据；婚姻状况和学历为类别类型数据。因此，上述连续类型数据序列X₁可以表示为：

X_{1} = [\begin{matrix} 31 \\ 29 \\ 30 \end{matrix}]

上述类别类型数据序列X₂可以表示为：

步骤310：根据上述连续类型数据序列，生成二进制形式的第一向量序列。

本发明实施例中，根据上述连续类型数据序列，生成二进制形式的第一向量序列的过程，具体为：从初始样本向量集合X中按照预设规则选择第一预设数目个样本向量，根据选择的样本向量，生成样本向量集合C，上述第一预设数目即为预设的超平面个数(记为K)，该值根据对训练样本的学习得到；采用高斯分布随机产生第一预设数目个连续类型向量组，其中，每一个连续类型向量组包含一组第一连续类型向量(记为r)以及与该第一连续类型向量对应的第二连续类型向量(记为r₀)，每一组第一连续类型向量及其相应的第二连续类型向量组成一个超平面，且组成的超平面个数为K；根据上述所有超平面，分别获取连续类型数据序列中每一个样本向量对应的二进制形式的第一向量；根据连续类型数据序列中所有样本向量分别对应的二进制形式的第一向量，生成二进制形式的第一向量序列。

可选的，从初始样本向量集合X中按照预设规则选择第一预设数目个样本向量，生成样本向量集合C的过程，具体为：在本地生成一个预处理样本向量集合，此时，该预处理样本向量集合为空集合；从上述初始样本向量集合X中随机选择任意一样本向量X_i加入上述预处理样本向量集合中；将添加样本向量后的预处理样本向量集合中的样本向量数目与第一预设数目K进行比较，当添加样本向量后的预处理样本向量集合中的样本向量数目小于第一预设数目K时，采用指定概率从初始样本向量集合X中选择样本向量加入到预处理样本向量集合中；当添加样本向量后的预处理样本向量集合中的样本向量数目达到第一预设数目K时，将停止从初始样本向量集合X中选定样本向量加入预处理样本向量集合中，将该包含K个样本向量的预处理样本向量集合作为样本向量集合C。

可选的，上述指定概率可以采用公式一获取。

基于上述过程，选定的样本向量集合C可以表示为：C＝{C₁，C₂，…，C_j，…，C_n}，其中，C_j为样本向量集合C中的样本向量，每一个样本向量均包含多个表征属性信息的数据。

可选的，针对样本向量集合C，采用高斯分布随机产生第一预设数目个连续类型向量组，且每一个连续类型向量组均包含一组第一连续类型向量r以及该第一连续类型向量r对应的第二连续类型向量r₀，该第一连续类型向量r中包含多个数据，每一个数据均大于等于-1且小于等于1。较佳的，该第一连续类型向量r的取值与上述训练过程中的设置相同。根据上述第一连续类型向量r，可以采用公式二获取与第一连续类型向量r对应的第二连续类型向量r₀。

可选的，第一连续类型向量r的长度与样本向量集合C的长度相同，即第一连续类型向量r对应的矩阵列数与样本向量集合C对应的矩阵列数相等。由于样本向量集合C中包含K个样本向量，并且针对每一个样本向量均生成相应的第一连续类型向量r和第二连续类型向量r₀，因此，对于样本向量集合C，可生成K个第一连续类型向量r以及与该K个第一连续类型向量r分别对应的第二连续类型向量r₀。

可选的，针对上述连续类型数据序列中的任意一样本向量X_j，将该任意一样本向量X_j分别在上述K个超平面中的每一个超平面上进行投影，生成一个维数为K的第一向量序列X_j′，具体为：针对连续类型数据序列中的任意一样本向量X_1j，依次将每一个第一连续类型向量r以及与该第一连续类型向量r对应的第二连续类型向量r₀代入公式r^TX_1j+r₀中，以及分别将获取的K个公式r^TX_1j+r₀的结果与0进行比较；根据比较结果，获取该任意一样本向量X_1j对应的第一向量，其中，该第一向量包含K个二进制类型数据。例如，当公式r^TX_1j+r0＞0时，上述任意一样本向量X_1j对应的第一向量数据为1；当公式r^TX_1j+r₀＜0时，上述任意一样本向量X_1j对应的第一向量数据为0。

例如，若初始样本向量集合X中连续类型数据序列

X_{1} = [\begin{matrix} 31 \\ 29 \\ 30 \end{matrix}],

若K＝2，则样本向量集合C对应两组第一连续类型向量r和第二连续类型向量r₀，分别根据该两组第一连续类型向量r和第二连续类型向量r₀对上述连续类型数据序列进行转化，生成二进制形式的第一向量序列为

{X_{1}}^{'} = [\begin{matrix} 1,1 \\ 0,1 \\ 1,0 \end{matrix}] .

步骤320：根据上述类别类型数据序列，生成二进制形式的第二向量序列。

本发明实施例中，将上述类别类型数据序列中的所有类别类型数据进行二进制编码，即为类别类型数据分别赋予不同的二进制数值，将上述类别类型数据序列中的所有类别类型数据均用其对应的二进制数值代替，生成二进制形式的第二向量序列。例如，针对上述类别类型数据序列X₂，对其进行二进制编码，将未婚编码为(0，1)，已婚编码为(1，0)，学历为大学编码为(0，1，0，0)，学历为硕士编码为(0，0，1，0)，由此生成的第二向量序列(记为X₂′)为：

{X_{2}}^{'} = [\begin{matrix} 1,0,0,1,0,0 \\ 1,0,0,0,1,0 \\ 0,1,0,1,0,0 \end{matrix}]

步骤330：将上述第一向量序列、第二向量序列，以及二进制数据序列进行合并后，生成分类回归向量序列。

本发明实施例中，将上述生成的二进制形式的第一向量序列X₁′，第二向量序列X₂′，以及二进制数据序列(记为X₃′)按照向量名称进行合并，生成分类回归向量序列(记为D)。例如，将上述X₁′、X₂′和X₃′进行合并后，生成的分类回归向量序列如下所示：

D = [\begin{matrix} 1, 1,1,0,0,1,0,0 \\ 0,1,1,0,0,0,1,0 \\ 1,0,0,1,0,1,0,0 \end{matrix}]

公式三

上述分类回归向量序列包含多个向量，每一个向量对应于初始样本向量集合中相应样本的二进制形式。

步骤340：分别根据上述分类回归向量序列中的每一个向量，获取初始样本向量集合对应的各个类别回归哈希桶，并分别计算该各个类别回归哈希桶对应的类别统计值，以及根据该类别统计值获取初始样本向量集合的分类回归结果。

本发明实施例中，根据分类回归向量序列中的每一个向量，获取该各个类别回归哈希桶的过程为：随机产生第二预设数目个(记为P)的二进制掩码；其中，该二进制掩码中1的个数Q为预先设置，第二预设数目P和预设的Q为根据具体应用场景预先设置的值，与上述训练过程中的设置相同，且每一个二进制掩码的长度与分类回归向量序列的列数相等，例如，若分类回归向量序列可以表示为公式三所示的矩阵形式时，由于公式三中包含8列，因此，随机生成的每一个二进制掩码应当也包含8位；分别将上述分类回归向量序列中的每一个向量与上述二进制掩码进行与运算，获取每一个向量对应的与运算后的结果，即将分类回归向量序列所对应的矩阵的每一行分别与上述P个二进制掩码进行与运算；分别根据上述每一个向量对应的与运算后的结果，以及本地保存的与运算结果与类别回归哈希桶的映射关系表，获取上述每一个向量对应的类别回归哈希桶；根据每一个向量对应的类别回归哈希桶，获取初始样本向量集合X对应的各个类别回归哈希桶；该类别回归哈希桶中保存相应样本向量对应的类别信息。

可选的，本地保存的类别回归哈希桶的数量为P个，上述类别回归哈希桶中存储每个类别中各种情况的样本数目。例如，若分类回归向量序列对应的矩阵中每一行分别与P(为4)个二进制掩码进行与运算后，映射至第一个类别回归哈希桶中年收入超过五万元的样本数目为10，不超过五万元的样本数目是3；映射至第二个类别回归哈希桶中年收入超过五万元的样本数目是15，不超过五万元的样本数目是5；映射至第三个类别回归哈希桶中年收入超过五万元的样本数目是11，不超过五万元的样本数目是2；映射至第四个类别回归哈希桶中年收入超过五万元的样本数目是12，不超过五万元的样本数目是3。

进一步的，当获取初始样本向量集合X对应的各个类别回归哈希桶后，根据各个类别回归哈希桶中包含的类别数目信息，采用取平均值的方式，预测各个类别对应的类别统计值。例如，对应于上述P＝4，类别回归哈希桶中存储收入情况的例子，年收入超过五万元的概率值为(10/13+15/20+11/13+12/15)/4，而年收入不超过五万元的概率值为(2/13+5/20+2/13+3/15)/4。

采用上述技术方案，对于稀疏数据，上述随机哈希的数据分类回归模型仅需要对待测试样本向量集合遍历两次即可获取数据分类回归结果，对于稠密数据，上述随机哈希的数据分类回归模型仅需要对待测试样本向量集合遍历一次即可获取数据分类回归结果，从而有效提高了数据分类回归处理效率，节约了系统资源。

参阅图4所示，本发明实施例中，将样本向量集合中数据的分别存储至不同的数据类型序列当中，并将多个数据类型序列转换为二进制形式的向量序列后，将所有二进制形式的向量序列按照样本名称进行合并后，映射至相应的类别回归哈希桶当中。采用上述技术方案，对海量高维数据进行分类回归时，将数据划分至不同的类别回归哈希桶，通过统计类别回归哈希桶中的数据分布情况，实现数据的分类回归过程，计算过程中各个算法之间相对独立，耦合性低，便于并行分布式实现，并且无须采用迭代算法获取分类回归模型，从而降低了获取类别回归集合的复杂度，适用于大规模实时流处理过程，应用范围广泛。

基于上述技术方案，参阅图5所示，本发明实施例中提供一种数据分类回归装置，包括接收单元50，序列获取单元51，第一生成单元52，第二生成单元53，第三生成单元54，以及分类回归结果获取单元55，其中：

接收单元50，用于接收初始样本向量集合，并将接收到的初始样本向量集合发送至序列获取单元51；

序列获取单元51，用于接收所述接收单元50发送的初始样本向量集合，并根据所述初始样本向量集合中每一个样本向量包含的数据类型，对所述初始样本向量集合进行划分，获取连续类型数据序列，类别类型数据序列，以及二进制数据序列，并将获取的连续类型数据序列发送至第一生成单元52，将获取的类别类型数据序列发送至第二生成单元53，以及将二进制数据序列发送至第三生成单元54；其中，所述初始样本向量集合中包含至少一个样本向量，所述样本向量包含样本对应的属性信息；所述连续类型数据序列用于表征所述属性信息中数字类型的属性信息；所述类别类型数据序列用于表征所述属性信息中非数字类型的属性信息；

第一生成单元52，用于接收所述序列获取单元51发送的连续类型数据序列，并根据所述连续类型数据序列，生成二进制形式的第一向量序列发送至第三生成单元；

第二生成单元53，用于接收所述序列获取单元51发送的类别类型数据序列，并根据所述类别类型数据序列，生成二进制形式的第二向量序列发送至第三生成单元54；

第三生成单元54，用于接收所述第一生成单元52发送的第一向量序列，所述第二生成单元53发送的第二向量序列，以及序列获取单元51发送的二进制数据序列，并将所述第一向量序列、第二向量序列，以及所述二进制数据序列进行合并后，生成分类回归向量序列发送至分类回归结果获取单元55；其中，所述分类回归向量序列中包含多个向量；

分类回归结果获取单元55，用于接收所述第三生成单元54发送的分类回归向量序列，并分别根据所述分类回归向量序列中的每一个向量，获取所述初始样本向量集合对应的各个类别回归哈希桶，以及分别计算所述各个类别回归哈希桶对应的类别统计值，以及根据所述类别统计值获取所述初始样本向量集合的分类回归结果；其中，所述类别回归哈希桶中包含相应类别的样本数目。

基于上述技术方案，参阅图6所示，本发明还提供一种数据分类回归设备，包括收发器60，以及处理器61，其中：

收发器60，用于接收初始样本向量集合，并将接收到的初始样本向量集合发送至处理器61；

处理器61，用于接收所述收发器60发送的初始样本向量集合，并根据所述初始样本向量集合中每一个样本向量包含的数据类型，对所述初始样本向量集合进行划分，获取连续类型数据序列，类别类型数据序列，以及二进制数据序列；其中，所述初始样本向量集合中包含至少一个样本向量，所述样本向量包含样本对应的属性信息；所述连续类型数据序列用于表征所述属性信息中数字类型的属性信息；所述类别类型数据序列用于表征所述属性信息中非数字类型的属性信息；

所述处理器61，还用于根据所述连续类型数据序列，生成二进制形式的第一向量序列；

所述处理器61，还用于根据所述类别类型数据序列，生成二进制形式的第二向量序列；

所述处理器61，还用于将所述第一向量序列、第二向量序列，以及所述二进制数据序列进行合并后，生成分类回归向量序列；其中，所述分类回归向量序列中包含多个向量；

所述处理器61，还用于分别根据所述分类回归向量序列中的每一个向量，获取所述初始样本向量集合对应的各个类别回归哈希桶，以及分别计算所述各个类别回归哈希桶对应的类别统计值，以及根据所述类别统计值获取所述初始样本向量集合的分类回归结果；其中，所述类别回归哈希桶中包含相应类别的样本数目。

可选的，所述处理器61，用于从所述初始样本向量集合中按照预设规则选择第一预设数目个样本向量，根据选择的样本向量生成样本向量集合；针对所述样本向量集合采用高斯分布随机产生第一预设数目个连续类型向量组；其中，所述连续类型向量组中包含一组第一连续类型向量及其对应的第二连续类型向量，每组所述第一连续类型向量及其对应的第二连续类型向量组成一个超平面，所述超平面的数目为第一预设数目；根据上述所有超平面，分别获取所述连续类型数据序列中每一个样本向量对应的二进制形式的第一向量；根据所述所有第一向量，生成二进制形式的第一向量序列。

可选的，所述处理器61，在本地生成一个预处理样本向量集合，从所述初始样本向量集合中随机选择任意一样本向量加入所述预处理样本向量集合中；将所述预处理样本向量集合所包含的样本向量数目与第一预设数目进行比较，当所述预处理样本向量集合所包含的样本向量数目小于所述第一预设数目时，采用指定概率从所述初始样本向量集合中选择样本向量加入到所述预处理样本向量集合中，直至所述预处理样本向量集合中的样本向量数目达到所述第一预设数目时，停止从所述初始样本向量集合中选择样本向量加入所述预处理样本向量集合中，基于加入选定的样本向量后的预处理样本向量集合，生成样本向量集合。

所述处理器61，用于将所述类别类型数据序列中的所有类别类型数据分别进行二进制编码后，生成二进制形式的第二向量序列。

所述处理器61，用于随机产生第二预设数目个二进制掩码；其中，所述二进制掩码中1的个数为预先设置；分别将所述分类回归向量序列中的每一个向量分别与所述第二预设数目个二进制掩码进行与运算，获取所述每一个向量对应的第二预设数目个与运算后的结果；分别根据所述每一个向量对应的第二预设数目个与运算后的结果，以及本地保存的与运算结果与类别回归哈希桶的映射关系表，获取所述每一个向量对应的第二预设数目个类别回归哈希桶；根据所述每一个向量对应的类别回归哈希桶，获取所述初始样本向量集合对应的各个类别回归哈希桶。

所述处理器61，用于分别获取各个类别回归哈希桶中包含的样本数目；根据所述样本数目，采用取统计平均值的方法，分别获取各个类别回归哈希桶对应的类别统计值。

综上所述，接收初始样本向量集合，并根据该初始样本向量集合中每一个样本向量包含的数据类型，对上述初始样本向量集合进行划分，获取连续类型数据序列，类别类型数据序列，以及二进制数据序列；根据上述连续类型数据序列，生成二进制形式的第一向量序列；根据上述类别类型数据序列，生成二进制形式的第二向量序列；将上述第一向量序列、第二向量序列，以及二进制数据序列进行合并后，生成分类回归向量序列；分别根据上述分类回归向量序列中的每一个向量，获取初始样本向量集合对应的各个类别回归哈希桶，并分别计算该各个类别回归哈希桶对应的类别统计值，以及根据该类别统计值获取初始样本向量集合的分类回归结果。采用本发明技术方案，通过将样本向量集合中的数据进行划分后，分别将划分后的向量序列转化为二进制形式向量序列，并基于合并后的二进制形式向量序列，获取初始样本向量集合对应的各个类别回归哈希桶，数据分类回归结果的获取不受数据维数以及数据数量的限制，并且无须采用迭代算法实现数据的分类回归，从而降低了获取数据分类回归结果的复杂度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据分类回归方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述连续类型数据序列，生成二进制形式的第一向量序列，具体包括：

从所述初始样本向量集合中按照预设规则选择第一预设数目个样本向量，根据选择的样本向量生成样本向量集合；

针对所述样本向量集合采用高斯分布随机产生第一预设数目个连续类型向量组；其中，所述连续类型向量组中包含一组第一连续类型向量及其对应的第二连续类型向量，每组所述第一连续类型向量及其对应的第二连续类型向量组成一个超平面；

根据上述所有超平面，分别获取所述连续类型数据序列中每一个样本向量对应的二进制形式的第一向量；

根据所述所有第一向量，生成二进制形式的第一向量序列。

3.如权利要求2所述的方法，其特征在于，所述从所述初始样本向量集合中按照预设规则选择第一预设数目个样本向量，根据选择的样本向量生成样本向量集合，具体包括：

在本地生成一个预处理样本向量集合，从所述初始样本向量集合中随机选择任意一样本向量加入所述预处理样本向量集合中；

将所述预处理样本向量集合所包含的样本向量数目与第一预设数目进行比较，当所述预处理样本向量集合所包含的样本向量数目小于所述第一预设数目时，采用指定概率从所述初始样本向量集合中选择样本向量加入到所述预处理样本向量集合中，直至所述预处理样本向量集合中的样本向量数目达到所述第一预设数目时，停止从所述初始样本向量集合中选择样本向量加入所述预处理样本向量集合中，基于加入选定的样本向量后的预处理样本向量集合，生成样本向量集合。

4.如权利要求1-3任一项所述的方法，其特征在于，所述根据所述类别类型数据序列，生成二进制形式的第二向量序列，具体包括：

将所述类别类型数据序列中的所有类别类型数据分别进行二进制编码后，生成二进制形式的第二向量序列。

5.如权利要求1-4任一项所述的方法，其特征在于，所述分别根据所述分类回归向量序列中的每一个向量，获取所述初始样本向量集合对应的各个类别回归哈希桶，具体包括：

随机产生第二预设数目个二进制掩码；其中，所述二进制掩码中1的个数为预先设置；

分别将所述分类回归向量序列中的每一个向量分别与所述第二预设数目个二进制掩码进行与运算，获取所述每一个向量对应的第二预设数目个与运算后的结果；

分别根据所述每一个向量对应的第二预设数目个与运算后的结果，以及本地保存的与运算结果与类别回归哈希桶的映射关系表，获取所述每一个向量对应的第二预设数目个类别回归哈希桶；

根据所述每一个向量对应的类别回归哈希桶，获取所述初始样本向量集合对应的各个类别回归哈希桶。

6.如权利要求1-5任一项所述的方法，其特征在于，所述分别计算所述各个类别回归哈希桶对应的类别统计值，具体包括：

分别获取各个类别回归哈希桶中包含的样本数目；

根据所述样本数目，采用取统计平均值的方法，分别获取各个类别回归哈希桶对应的类别统计值。

7.一种数据分类回归装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述第一生成单元，具体用于：

从所述初始样本向量集合中按照预设规则选择第一预设数目个样本向量，根据选择的样本向量生成样本向量集合；针对所述样本向量集合采用高斯分布随机产生第一预设数目个连续类型向量组；其中，所述连续类型向量组中包含一组第一连续类型向量及其对应的第二连续类型向量，每组所述第一连续类型向量及其对应的第二连续类型向量组成一个超平面；根据上述所有超平面，分别获取所述连续类型数据序列中每一个样本向量对应的二进制形式的第一向量；根据所述所有第一向量，生成二进制形式的第一向量序列。

9.如权利要求8所述的装置，其特征在于，所述第一生成单元，具体用于：

在本地生成一个预处理样本向量集合，从所述初始样本向量集合中随机选择任意一样本向量加入所述预处理样本向量集合中；将所述预处理样本向量集合所包含的样本向量数目与第一预设数目进行比较，当所述预处理样本向量集合所包含的样本向量数目小于所述第一预设数目时，采用指定概率从所述初始样本向量集合中选择样本向量加入到所述预处理样本向量集合中，直至所述预处理样本向量集合中的样本向量数目达到所述第一预设数目时，停止从所述初始样本向量集合中选择样本向量加入所述预处理样本向量集合中，基于加入选定的样本向量后的预处理样本向量集合，生成样本向量集合。

10.如权利要求7-9任一项所述的装置，其特征在于，所述第二生成单元，具体用于：

11.如权利要求7-10任一项所述的装置，其特征在于，所述分类回归结果获取单元，具体用于：

随机产生第二预设数目个二进制掩码；其中，所述二进制掩码中1的个数为预先设置；分别将所述分类回归向量序列中的每一个向量分别与所述第二预设数目个二进制掩码进行与运算，获取所述每一个向量对应的第二预设数目个与运算后的结果；分别根据所述每一个向量对应的第二预设数目个与运算后的结果，以及本地保存的与运算结果与类别回归哈希桶的映射关系表，获取所述每一个向量对应的第二预设数目个类别回归哈希桶；根据所述每一个向量对应的类别回归哈希桶，获取所述初始样本向量集合对应的各个类别回归哈希桶。

12.如权利要求7-11任一项所述的装置，其特征在于，所述分类回归结果获取单元，具体用于：

分别获取各个类别回归哈希桶中包含的样本数目；根据所述样本数目，采用取统计平均值的方法，分别获取各个类别回归哈希桶对应的类别统计值。