CN112686342B

CN112686342B - Svm模型的训练方法、装置、设备和计算机可读存储介质

Info

Publication number: CN112686342B
Application number: CN202110270550.5A
Authority: CN
Inventors: 杨超; 范睿博; 敖玉龙; 李敏; 李克森
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-18
Anticipated expiration: 2041-03-12
Also published as: WO2022188711A1; US20240028970A1; CN112686342A

Abstract

本公开的实施例提供了SVM模型的训练方法、装置、设备和计算机可读存储介质。所述方法包括获取数据集；加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；执行SMO算法对SVM模型进行训练。以此方式，能够根据输入的数据集自动的选择最优的数据存储格式与算法；全局循环层次基于所述最优数据存储格式进行大量的更加高效的矩阵乘法运算计算kernel matrix；局部SMO求解器层次，使用GPU的寄存器通信技术与合并访存方法进行了更加细致的内存优化，充分利用硬件平台的计算资源。

Description

SVM模型的训练方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例一般涉及机器学习技术领域，并且更具体地，涉及SVM（SupportVector Machine，支持向量机）模型的训练方法、装置、设备和计算机可读存储介质。

背景技术

作为普遍应用的机器学习算法之一，SVM 已广泛应用于各种科学领域，如模式识别领域的手写数字识别、对象识别、语音识别，计算机视觉领域图像分类、行人检测等。它通过最大化特征空间上的类间间隔求得最优的超平面，具有准确性高、泛化性能好以及拥有严格的数学证明等优点。它最初被提出用来解决线性可分的二分类问题，但核方法使得其可以处理非线性可分的问题。开源工具包 LibSVM 在许多场景中得到了广泛应用，因其简单易用的接口和全面的功能，成为最受欢迎的 SVM 工具包，然而由于大数据时代，数据规模不断增加，LibSVM训练 SVM 模型所需时间越来越长，这很大程度上限制了 SVM 算法的应用。 SVM 训练过程非常耗时的主要原因为 QP 优化问题的求解需要大量迭代步骤，每次迭代均需要执行两次矩阵向量乘法，这一过程是十分耗时的。

一个不可忽视的趋势是，目前计算行业正在向并行计算方向发展, 与此同时 GPU作为优秀的并行计算平台被广泛的应用在很多很多计算密集场景，如深度学习、大气模拟的加速计算等。

目前，已有一些基于GPU平台的并行化SVM算法的研究。一个是GPUSVM，另一个是ThunderSVM。

GPUSVM采用SMO算法作为求解算法。SMO算法为迭代算法，每次迭代分为三个主要步骤，首先通过第一或者第二启发式寻找两个最极端的拉格朗日乘子，其次对上述两个乘子进行优化，进而更新所有的梯度向量f。在第一个步骤中，GPUSVM没有选择单一启发式方法，而采用了一种自适应的方式，在第一与第二启发式之间切换以获得更快的收敛速度。在第三个步骤中，因为更新梯度向量f需要访问内核矩阵(kernel matrix)中对应于本步迭代选择的拉格朗日乘子的两行，GPUSVM选择在迭代开始之前，通过一次矩阵与矩阵的乘法将全部的内核矩阵提前计算并存储于GPU的全局内存（global memory）中，这样可以充分利用GPU强大的并行运算能力。其采用了稠密数据格式作为存储格式，并且调用了自己实现的矩阵与矩阵相乘的算法，并没有采用目前广泛使用的cuBLAS库。

ThunderSVM同样采用了SMO算法作为内部的求解算法，但与GPUSVM不同，它使用了层次分解的方法。将原始SMO算法的循环迭代拆分为双层次循环，全局循环层次和局部求解器层次。每次全局循环为局部求解器选择当前的工作集，局部求解器负责使用SMO算法求解该工作集。其中全局循环层次通过多次使用第一启发式选择多对较为极端的拉格朗日乘子组成当前工作集，而局部求解器的SMO算法的第一个步骤中则采用第二启发式选择当前工作集中极端的拉格朗日乘子。除此之外，ThunderSVM的局部求解器在一个CUDA线程块（thread block）上高效的执行，充分使用了CUDA共享内存的特性, 降低了访存时间。局部求解器的SMO算法可能需要访问的内核矩阵中的部分也在每次全局循环中被计算得出并存放在全局内存中，以供局部求解器访问。ThunderSVM采用了CSR稀疏存储格式，并且调用了cuSPARSE库进行矩阵乘法运算。

GPUSVM的实现中选择使用自己实现的稠密矩阵乘算法一次性计算出内核矩阵并保存于GPU的全局内存，这种方式虽然很好的发挥了GPU的并行运算性能，但是本身实现的稠密矩阵乘算法的效率低于目前使用广泛的cuBLAS库中实现的GEMM算法。除去计算内核矩阵的矩阵乘效率低外，一次性计算出内核矩阵的选择会带来存储问题。如果假定数据的规模为num*dim，则内核矩阵的规模为num*num，随着样本数据集的规模增大而快速增大，存储全部内核矩阵的空间需求也是快速增加的，而GPU的全局内存是有限的，这使得GPUSVM不能正确处理大规模的数据集。

ThunderSVM的实现中选择使用双层次循环的方法，每次全局迭代只需要计算并存储当前工作集规模的局部内核矩阵，避免了存储全部内核矩阵的存储问题，但是其选择使用CSR格式作为固定的存储格式，虽然调用了cuSPARSE库的SpMM稀疏矩阵乘算子进行局部内核矩阵的计算，然而由于CSR存储格式的特性，导致不能充分发挥GPU的并行运算能力，不能适应所有的数据集。除此之外，在ThunderSVM的局部层次的SMO求解器的实现中，虽然将高频次访问的拉格朗日乘子向量α与梯度向量f 存储于共享内存，但是SMO迭代中最耗时的步骤一与步骤三的实现并不高效，步骤三更新梯度向量f的过程，线程访问全局内存中的内核矩阵的两行没有做到合并访存，降低了内存访问效率。

内核矩阵的计算依赖于矩阵乘法，这一部分由于计算强度大，耗时多，往往是整个SVM算法的瓶颈。数据集的存储格式直接影响后续大量的矩阵乘法的效率，稠密格式有良好的访存效率，但对于稀疏的数据集会带来冗余的运算；稀疏格式会造成访存效率的降低，但是却没有冗余的运算。GPUSVM 与ThunderSVM共有的缺陷是选择了固定的存储格式，GPUSVM采用稠密格式，ThunderSVM采用CSR格式，这导致二者均不能较好的适用于所有的数据集。

发明内容

根据本公开的实施例，提供了一种SVM模型的训练方案。

在本公开的第一方面，提供了一种SVM模型的训练方法。所述方法包括获取数据集；所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数；加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；执行SMO算法对SVM模型进行训练方法。

在本公开的第二方面，提供了一种基于SVM模型的识别方法。所述方法包括获取待识别的数据集；加载所述待识别的数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；根据所述SVM模型对所述数据集进行识别。

在本公开的第三方面，提供了一种SVM模型的训练装置。该装置包括数据集获取模块，用于获取数据集；所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数；数据集加载模块，用于加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；SVM模型训练模块，用于执行SMO算法对SVM模型进行训练。

在本公开的第四方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的SVM模型的训练方法的流程图；

图2示出了根据本公开的实施例的决策树模型的训练方法的流程图；

图3示出了根据本公开的实施例的执行SMO算法对SVM模型进行训练的方法的流程图；

图4示出了根据本公开的实施例的基于SVM模型的识别方法的流程图；

图5示出了根据本公开的实施例的SVM模型的训练装置的方框图；

图6示出了能够实施本公开的实施例的示例性电子设备的方框图；

图7示出了根据本公开的实施例的并行抽取K_core的示意图；

图8示出了根据本公开的实施例的从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1示出了根据本公开实施例的SVM模型的训练方法100的流程图。如图1所示，包括以下步骤：

在框110，获取数据集；

在一些实施例中，所述数据集为笔迹、语音、图像训练样本。

在一些实施例中，所述数据集为Dataset，所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数。所述训练样本还包括对所述样本进行标注的label。

在框120，加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；

在一些实施例中，进行数据集加载包括：读取并加载所述数据集进入CPU内存，将所述数据集存储为CSR格式的数据集矩阵M。其中，所述数据集矩阵M的形状为n*d。

在一些实施例中，采用OpenMP多线程的进行数据的读取加载。

在一些实施例中，通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换包括：

在GPU上计算所述数据集的特征参数；

在CPU上将所述特征参数输入决策树模型，预测得到所述数据集的最优存储格式；

判断所述最优存储格式是否与当前存储格式CSR相同；如果否，则在GPU上将当前存储格式转换为所述最优存储格式；如果是，则不进行格式转换。

在一些实施例中，所述数据集的最优存储格式可以是稠密格式（cuBLAS GEMM）、CSR格式(cuSPARSE SpMM)、ellpack-R(Ell SpMM)格式中的任一种。例如，稠密格式有良好的访存效率；CSR格式对于稀疏的数据集没有冗余的运算。通过格式转换，解决了之前的SVM实现数据格式单一，并行效率不高的缺点，可以极大提升SVM后续训练步骤中大量的矩阵乘法的效率。

上述步骤作为自动调优框架的额外开销，是指其在线预测过程中与原始SVM算法流程相比多出的操作，主要有以下三个部分：1、计算所述数据集的特征参数；2、使用决策树模型预测最优的存储格式；3、存储格式转换的时间。其中，计算所述数据集的特征参数与格式转换在GPU上并行执行，可以使用高效率的并行kernel执行,通过GPU并行的策略极大的缩减了自动调优框架带来的额外开销；而决策树模型预测在CPU上执行，要是因为其中包含的大多是if else分支语句，不适合GPU上并行执行，并且由于决策树算法的预测时间较短，不需要特殊处理。

在一些实施例中，所述决策树模型是通过以下方法200离线训练得到的：

在框210，生成训练数据；

在一些实施例中，生成数据集，计算所述数据集的特征集合数据；将所述特征集合数据作为训练数据。其中，

首先随机生成大量（10000+）的数据集；

然后计算每个数据集的特征集合数据；所述特征集合数据的数据结构如下：{BEST Format, n, d, nnz, nnz_ratio, nnz_max, nnz_min, nnz_average , nnz_variance}, 其中，Best Format为方法空间中的一种方法（如cuBLAS GEMM），是通过试验得出的最优存储格式，视为标签，其余8个参数为数据集的特征参数。为每一个随机生成的数据集计算得到一条特征集合数据；

最后，将所有数据集的特征集合数据作为所述自动调优框架的训练数据。

在框220，使用所述训练数据，通过决策树算法生成自动调优框架。

采用决策树算法作为分类算法，具有预测时间短，可解释性强的优点。

在框130，执行SMO算法对SVM模型进行训练；

所述SMO算法所需要的内核矩阵kernel matrix记为内核矩阵 K，形状为n*n。其中内核矩阵K的第i行用符号K_i表示。SMO算法中，定义拉格朗日乘子向量为α，梯度向量为f，其大小均为n，两个向量中的第i个元素用a(i)与f(i)表示，其中i称作下标。

在一些实施例中，执行SMO算法对SVM模型进行训练的方法300包括以下步骤：

在框310，在全局层次，在GPU中，通过多次使用第一启发式选择多对待优化的拉格朗日乘子组成工作集；计算内核矩阵K的K_subset并提取K_core；

在一些实施例中，所述多对待优化的拉格朗日乘子与其下标统称为工作集(working set），约定所述工作集的大小为ws_size。在一些实施例中，选择大小为1024的工作集，即512对拉格朗日乘子。

在一些实施例中，约定内核矩阵K 与数据集矩阵M的部分行称为它们的子矩阵，用符号K_subset与M_subset表示。

在一些实施例中，计算内核矩阵K的部分行K_subset(ws_size*n)包括首先选择所述工作集中乘子的下标（共ws_size个），从数据集矩阵 M(n*d)中提取对应的行，组成M_subset(ws_size * d)；进而通过公式K_subset = M_subset × M’，计算得到K_subset(ws_size*n)。其中，ws_size为所述工作集的大小，M’为M的逆矩阵。此步骤需要进行一次规模为ws_size *d ×d*n的矩阵相乘，在数据集的规模较大时非常的耗时。除此之外，一般而言全局迭代的循环次数也随着数据规模的增大在增多，意味着上述矩阵相乘需要被执行多次。因此，这是整个SMO算法流程的瓶颈，本发明的框320的目的即是通过选取最优的矩阵格式与算法提升所述矩阵乘法的效率。

在一些实施例中，从矩阵K_subset(ws_size*n)中，并行抽取K_core(ws_size*ws_size)。如图7所示，启用ws_size*ws_size的二维线程网格，线程号为（i,j）的线程负责从K_subset(i,working_set(j))读取数据，并写入K_core(i,j)。例如，Thread(0,0)抽取K_subset(ws_size*n)中的第1行第2列数据写入K_core(0,0)，Thread(0,1)抽取K_subset(ws_size*n)中的第1行第4列数据写入K_core(0,1)，Thread(0,2)抽取K_subset(ws_size*n)中的第1行第6列数据写入K_core(0,2)……

这一步骤有助于框520的局部求解器实现合并访存，降低延迟，提高访存效率。

在框320，执行局部SMO求解器，在GPU中，采用SMO算法对所述工作集进行求解；

在一些实施例中，在GPU上执行局部SMO求解器，实质为求解所述工作集中对应的规模为ws_size的子问题，在GPU上的一个CUDA thread block上高效的执行。局部SMO求解器的算法步骤与原始SMO算法相同，都是具有三个循环步骤的迭代算法，包括：

步骤（a）：从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)，下标分别记为high与low；

步骤（b）：更新α(high)，α(low)；

步骤（c）:更新工作集中的下标所对应的梯度向量。

在一些实施例中，由于局部SMO求解器需要大量的迭代，比较耗时，也是算法流程的瓶颈。本公开实施例中，针对局部SMO求解器进行了重点的优化。

针对所述步骤（a）, 将这一步骤看作是两次规约操作寻找向量最大值的标签，在一个CUDA 线程块（thread block）上设计了高效的并行算法。如图8所示，启用1024个线程，线程号为i的线程首先将index(i)与values(i)读入寄存器变量index 与 values，进而使用CUDA的warp shuffle指令，直接进行线程之间的寄存器通信，同一个warp内的每个线程都获取相隔offset的线程的index与values值，并在更新本线程的values为两个线程中较大的values的同时，将本线程的index也更新为对应的index。使用warp shuffle指令比共享内存更加高效，完成了两次高效的parallel reduce操作。如图8所示，最终更新得到index为6，values为8。

针对所述步骤（c）:分派线程号为i的线程更新梯度向量中的f(working_set(i))，若没有框310中提取K_core的过程，则需要访问K_subset(high, working_set(i))与K_subset(low, working_set(i))，这违反了CUDA global memory的合并访存原则，降低了访存效率。通过加入框310之后，变为访问K_core(high,i)与K_core(low,i)，达到了合并访存，提升了访存效率。

在执行局部SMO求解器过程中，使用GPU的寄存器通信技术与合并访存方法进行了更加细致的内存优化，充分利用硬件平台的计算资源。

在框330，更新全局梯度向量；

在一些实施例中，开启n个线程，线程号为i的线程更新f(i)。

在框340，判断是否满足全局层次的收敛条件；若满足则SVM模型训练完成；若不满足则进行迭代，重复步骤310-330。

在框140，保存所述SVM模型文件，使用所述SVM模型文件进行预测。

在一些实施例中，所述方法还包括，使用所述SVM模型文件进行模式识别。

根据本公开的实施例，实现了以下技术效果：

本实施例中，采用了一种适用于GPU上SVM算法的自动调优框架，解决了之前的SVM实现数据格式单一，并行效率不高的缺点。

整体层面上，将原始的SVM算法流程分解重组为全局与局部SMO求解器的双层次循环结构，并且提供了自动调优框架，能够根据输入的数据集在线阶段快速预测特征参数的最佳组合，预测最优的存储格式，并将数据集转化为最优存储格式。全局循环层次基于所述最优存储格式进行大量的更加高效的矩阵乘法运算计算kernel matrix。局部SMO求解器层次，则使用GPU的寄存器通信技术与合并访存方法进行了更加细致的内存优化，充分利用硬件平台的计算资源。

本公开实施例提出的方法克服了CPU上的LibSVM、GPU上的ThunderSVM这两个广泛使用的实现中，采用固定的数据存储格式，只能适应一部分数据集的缺陷，并且克服了两者没有充分使用GPU硬件计算资源的缺陷，提高了SVM算法的计算性能。

与CPU上的LibSVM、GPU上的ThunderSVM相比，本公开实施例所述方法均具有较高的加速比。在特定的测试平台上，对于LibSVM，取得最低123.49，最高4167.98，平均868.62的加速比，对于ThunderSVM，取得最低1.26，最高8.65，平均2.93的加速比。

在一些实施例中，实验平台为Intel Xeon E5-2643 V4，256G，NVIDIA TeslaP100，16G。参与测试的10个数据集为真实数据集，均来自于LibSVM主页。表1展示了10个数据集的信息。表2展示了本公开实施例所述方法提出的自动调优框架的额外开销所占比例。表3展示了本公开实施例所述方法对比LibSVM与ThunderSVM的加速比。

表1：数据集信息

表2：自动调优框架开销占比

表3：加速比

图4示出了根据本公开的实施例的基于SVM模型的识别方法400的流程图；如图4所示，所述方法包括：

在框410，获取待识别的数据集；

在一些实施例中，所述待识别的数据集可以是手写数字识别、对象识别、语音识别，计算机视觉领域图像分类，行人检测等领域的待识别数据集。

在框420，加载所述待识别的数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；

在框430，根据预先训练的SVM模型对所述数据集进行识别。

在一些实施例中，所述预先训练的SVM模型是根据本公开的实施例的SVM模型的训练方法100训练得到的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图5示出了根据本公开的实施例的SVM模型的训练装置500的方框图。如图5所示，装置500包括：

数据集获取模块510，用于获取数据集；所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数；

数据集加载模块520，用于加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；

SVM模型训练模块530，用于执行SMO算法对SVM模型进行训练。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图6示出了可以用来实施本公开的实施例的电子设备700的示意性框图。设备600可以用于实现图5的SVM模型的训练装置500。如图所示，设备600包括中央处理单元（CPU）601，其可以根据存储在只读存储器（ROM）602中的计算机程序指令或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序指令，来执行各种适当的动作和处理。在RAM603中，还可以存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如方法100、200、300、400。例如，在一些实施例中，方法100、200、300、400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由CPU 601执行时，可以执行上文描述的方法100、200、300、400的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法100、200、300、400。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种SVM模型的训练方法，其特征在于，包括：

获取数据集；所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数；

加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换，包括在GPU上并行计算所述数据集的特征参数；在CPU上将所述特征参数输入决策树模型，预测得到所述数据集的最优存储格式；判断所述最优存储格式是否与当前存储格式CSR相同；如果否，则在GPU上将当前存储格式转换为所述最优存储格式；如果是，则不进行格式转换；其中，所述决策树模型是通过以下步骤训练得到的，生成数据集，计算所述数据集的特征集合数据，将所述特征集合数据作为训练数据；所述训练数据包括所述数据集的标签和特征参数；使用所述训练数据，通过决策树算法生成自动调优框架；

执行SMO算法对SVM模型进行训练。

2.根据权利要求1所述的方法，其特征在于，加载所述数据集包括：

读取并加载所述数据集进入CPU内存，将所述数据集存储为CSR格式的数据集矩阵M；所述数据集矩阵M的形状为n*d。

3.根据权利要求2所述的方法，其特征在于，执行SMO算法对SVM模型进行训练包括：

通过多次使用第一启发式选择多对待优化的拉格朗日乘子组成工作集；计算内核矩阵K的K_subset并提取K_core；

执行局部SMO求解器，采用SMO算法对所述工作集进行求解；其中，采用SMO算法对所述工作集进行求解包括从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)；更新所述α(high)与α(low)；访问所述K_core，更新所述工作集中的下标所对应的梯度向量；

更新全局的梯度向量；

判断是否满足全局层次的收敛条件；若满足则SVM模型训练完成；若不满足则进行迭代；其中，计算内核矩阵K的K_subset并提取K_core包括：

从数据集矩阵 M(n*d)中提取对应的行，组成M_subset(ws_size * d)；进而通过公式K_subset = M_subset × M’，计算得到K_subset(ws_size*n)；其中，ws_size为所述工作集的大小，M’为M的逆矩阵；

从矩阵K_subset(ws_size*n)中，抽取K_core(ws_size*ws_size)。

4.根据权利要求3所述的方法，其特征在于，从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)包括：

使用CUDA的warp shuffle指令，直接进行线程之间的寄存器通信，从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)。

5.一种基于SVM模型的识别方法，其特征在于，包括：

获取待识别的数据集；

加载所述待识别的数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换，包括在GPU上并行计算所述数据集的特征参数；在CPU上将所述特征参数输入决策树模型，预测得到所述数据集的最优存储格式；判断所述最优存储格式是否与当前存储格式CSR相同；如果否，则在GPU上将当前存储格式转换为所述最优存储格式；如果是，则不进行格式转换；其中，所述决策树模型是通过以下步骤训练得到的，生成数据集，计算所述数据集的特征集合数据，将所述特征集合数据作为训练数据；所述训练数据包括所述数据集的标签和特征参数；使用所述训练数据，通过决策树算法生成自动调优框架；

根据权利要求4所述方法训练得到的SVM模型对所述数据集进行识别。

6.一种SVM模型的训练装置，其特征在于，包括：

数据集获取模块，用于获取数据集；所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数；

数据集加载模块，用于加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换，包括在GPU上并行计算所述数据集的特征参数；在CPU上将所述特征参数输入决策树模型，预测得到所述数据集的最优存储格式；判断所述最优存储格式是否与当前存储格式CSR相同；如果否，则在GPU上将当前存储格式转换为所述最优存储格式；如果是，则不进行格式转换；其中，所述决策树模型是通过以下步骤训练得到的，生成数据集，计算所述数据集的特征集合数据，将所述特征集合数据作为训练数据；所述训练数据包括所述数据集的标签和特征参数；使用所述训练数据，通过决策树算法生成自动调优框架；

SVM模型训练模块，用于执行SMO算法对SVM模型进行训练。

7.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1~5中任一项所述的方法。