CN111582507A

CN111582507A - 一种基于simd架构的ls-svm训练机的硬件系统及训练方法

Info

Publication number: CN111582507A
Application number: CN202010565715.7A
Authority: CN
Inventors: 李丽; 孙瑞; 何书专; 傅玉祥; 陈辉; 宋文清; 李剑斌; 陈健
Original assignee: Nanjing Ningqi Intelligent Computing Chip Research Institute Co ltd
Current assignee: Nanjing Ningqi Intelligent Computing Chip Research Institute Co ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-08-25

Abstract

本发明公开一种基于SIMD架构的LS‑SVM训练机的硬件系统及训练方法，属于机器学习算法的硬件实现技术领域。针对现有技术中LS‑SVM实现方式受限于资源、训练速度慢或计算量大的问题，本发明提供一种基于SIMD架构的LS‑SVM训练机的硬件系统，包括主控制模块，乘累加模块，更新值计算模块，更新及阈值比较模块，计算阵列模块和存储资源模块；主控制模块控制训练过程的开始和结束；乘累加模块完成权值系数和训练参数的乘累加计算；更新值计算模块计算训练参数的更新值；更新及阈值比较模块完成训练参数的更新并统计小于阈值的更新值个数。本发明采用SIMD架构，实现并行计算和流水处理，加快了训练速度，并且有效地进行了资源复用。

Description

一种基于SIMD架构的LS-SVM训练机的硬件系统及训练方法

技术领域

本发明涉及机器学习算法的硬件实现技术领域，更具体地说，涉及一种基于SIMD架构的LS-SVM训练机的硬件系统及训练方法。

背景技术

支持向量机(support vector machine，SVM)是一种监督式机器学习算法，可以用来分析数据，识别模式，用于数据分类和回归分析，运用十分广泛。最小二乘支持向量机(Least squares support vector machine，LS-SVM)是支持向量机的一种子类，它将原优化问题中的不等式约束变为等式约束，将原二次优化问题变为求解线性方程组，方便了训练参数的求解，利于硬件实现。之后又有研究将递归神经网络与LS-SVM相结合，避免了复杂的矩阵求逆计算，使计算更加简洁。

在计算机体系中，数据并行有两种实现路径：MIMD(Multiple InstructionMultiple Data，多指令流多数据流)和SIMD(Single Instruction Multiple Data，单指令流多数据流)。其中MIMD的表现形式主要有多发射、多线程、多核心，在当代设计的以处理能力为目标驱动的处理器中，均能看到它们的身影。同时，随着多媒体、大数据、人工智能等应用的兴起，为处理器赋予SIMD处理能力变得愈发重要，因为这些应用存在大量细粒度、同质、独立的数据操作，而SIMD天生就适合处理这些操作。

目前最小二乘支持向量机LS-SVM的训练通常是在CPU、GPU或FPGA平台进行。CPU中存在大部分的Cache和控制单元，用于计算的ALU数量较少，而GPU的规模较大，能耗很高，在一些应用环境中不利于使用。FPGA的价格较贵，速度也比专用芯片较慢。现有技术中最小二乘支持向量机LS-SVM的方式一种是全并行，全并行方式受限于资源使用量，训练样本数不多；或者是全串行，全串行方式训练速度比较慢；还有一种方式基于矩阵求逆的方式，该方法计算量会很大。

发明内容

1.要解决的技术问题

针对现有技术中存在的最小二乘支持向量机LS-SVM实现方式受限于资源、训练速度慢或计算量大的问题，本发明提供一种基于SIMD架构的LS-SVM训练机的硬件系统及训练方法，它可以实现在资源有限的情况下实现并行流水计算，平衡资源和速度，加快训练速度，有效的资源复用具有很好的灵活性。

2.技术方案

本发明的目的通过以下技术方案实现。

本发明的目的是克服上述背景技术中LS-SVM训练实现的不足，提出了一种基于SIMD架构的LS-SVM训练机的硬件训练系统及训练方法，实现并行计算和流水处理，加快了训练速度，并且在有限的资源条件下进行有效的复用。

一种基于SIMD架构的LS-SVM训练机的硬件系统，

包括控制计算模块和计算阵列模块，控制计算模块连接计算阵列模块，控制计算模块包括主控制模块、乘累加模块、更新值计算模块和更新及阈值判断模块，主控制模块分别与乘累加模块、更新值计算模块和更新及阈值判断模块连接；

主控制模块先发送信号至乘累加模块，乘累加模块调用计算阵列模块重构完成权值系数和训练参数的乘累加计算，然后主控制模块发送信号至于更新值计算模块，更新值计算模块调用计算阵列重构完成训练参数更新值的计算，最后主控制模块发送信号至更新及阈值判断模块，更新及阈值判断模块调用计算阵列模块完成训练参数的更新并统计小于阈值的更新值个数。

更进一步的，所述计算阵列模块包括若干计算资源，所述计算资源包括乘法器、加法器和比较器，训练时计算阵列模块分为若干个运算单元，每个运算单元都包括结构相同的计算资源，所述计算资源根据计算状态动态重构。计算阵列模块包括若干乘法器、加法器和比较器，根据不同模块的计算公式，计算阵列模块中的计算资源构成不同的计算结构，形成若干个运算单元。运算单元的个数综合考虑训练样本数和系统资源要求，运算单元数量越多，可并行训练的样本越多，计算速度越快，但是资源使用量也会更多，需要同时考虑存储资源模块的存储资源是否满足并行要求。

更进一步的，所述存储资源模块包括多个存储单元，所述存储资源模块包括权值系数区，训练参数区，标签区和中间结果区四种类型数据。存储资源模块中的存储单元数量根据不同的应用需求可以设定不同数量，计算阵列模块在计算时通过控制计算模块调用存储资源模块的存储单元。

更进一步的，所述运算单元之间并行设置。运算单元间并行设置相互独立，复用存储资源中的存储单元进行计算，运算单元并行运行，同时计算同一个计算模块的不同部分，节省计算时间提高计算效率。

更进一步的，所述主控制模块包括计算阵列选通、存储资源选通和主控制状态机，主控制模块通过计算阵列选通发送信号至计算阵列模块，主控制模块还通过存储资源选通发送信号至存储资源模块。主控制模块在对应计算阵列模块和存储资源模块的控制时，通过对应的计算阵列选通和存储资源选通发送信号调用对应的功能模块，同时主控制模块控制系统训练的开始和结束。

本发明LS-SVM训练机基于SIMD架构，充分利用硬件资源的并行性，支持并行和流水操作，同时计算阵列模块和存储资源模块实现资源复用，加快LS-SVM训练速度和训练效率，灵活度高。

一种基于SIMD架构的LS-SVM训练机的硬件训练方法，包括以下步骤：

步骤1：主控制模块接收系统启动信号后，首先启动乘累加模块进行乘累加计算；

步骤2：乘累加计算结束，主控制模块启动更新值计算模块进行更新值计算；

步骤3：更新值计算结束，主控制模块启动更新及阈值判断模块，将步骤2中计算得到的更新值A0与初始值相加得到更新值A，比较更新值A与阈值的大小，统计小于阈值的更新值A个数n；

步骤4：主控制模块判断小于阈值的更新值A个数n是否等于训练样本个数，如果不是重复步骤1至步骤3进行新一轮计算，直到所有训练后的更新值A个数n等于训练样本数，训练结束。

更进一步的，计算阵列模块重构时根据训练样本数和系统存储资源确定运算单元数量，运算单元间相互独立并行计算。多个运算单元相互独立可以并行计算，可同时进行多个训练参数的计算更新；当待训练参数量较大时，可以流水并行。当训练所需要的运算单元个数大于计算资源能构成的个数，训练机不能一次全并行计算，即进行流水并行。

更进一步的，乘累加模块、更新值计算模块和更新及阈值比较模块共享计算阵列模块中的计算资源，所述计算资源根据当前计算状态动态重构成所需的结构。

更进一步的，所述乘累加模块的计算公式为

计算；其中α_j(t)为训练参数值，q_ij为权值系数，ΔT为离散化处理的量化误差。

更进一步的，所述更新值计算模块的计算公式为

α_i(t)、α_j(t)均为训练参数的初值，q_ij为权值系数，ΔT为离散化处理的量化误差，b(t)为偏置，γ为惩罚因子。

本发明基于SIMD架构的LS-SVM训练机训练时在资源有限的情况下实现并行流水计算，平衡资源和速度。乘累加模块、更新值计算模块和更新及阈值比较模块在计算时，计算阵列模块根据计算公式的不同重构计算资源，提高系统资源使用效率，具有很好的灵活性。

3.有益效果

相比于现有技术，本发明的优点在于：

本发明在最小二乘支持向量机LS-SVM中使用SIMD架构，充分利用硬件资源，实现并行流水计算，支持并行和流水操作，所有运算单元独立并行运行，同时计算同一个计算模块的不同部分，节省计算时间提高计算效率。流水操作分工合作，提升整体的效率。

本发明在计算时实现资源复用，计算阵列模块根据乘累加模块、更新值计算模块和更新与阈值判断模块的计算公式重构计算资源结构，优化硬件结构，提高资源使用效率，对于本发明的计算过程，在乘累加模块计算结束后重构计算资源，节省计算资源，也加快LS-SVM训练速度，具有很好的灵活性。

附图说明

图1为本发明LS-SVM训练机的硬件系统整体框架示意图；

图2为本发明存储资源模块中存储阵列示意图；

图3为本发明LS-SVM训练流程示意图；

图4为本发明硬件系统乘累加计算结构图；

图5为本发明乘累加计算数据输入示意图；

图6为本发明硬件系统更新值计算结构图；

图7为本发明更新值计算数据输入示意图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例

本实施例LS-SVM训练机的硬件系统如图1所示，包括控制计算模块、存储资源模块和计算阵列模块，控制计算模块与存储资源模块和计算阵列模块均连接；控制计算模块包括主控制模块、乘累加模块、更新值计算模块和更新及阈值判断模块，主控制模块分别与乘累加模块、更新值计算模块和更新及阈值判断模块连接。

所述主控制模块包括计算阵列选通、存储资源选通和主控制状态机，主控制模块接收外部算法配置信息，产生内部控制信号，控制训练过程的开始和结束。

乘累加模块，完成权值系数和训练参数的乘累加计算。根据乘累加模块中的算法通过主控制模块的计算阵列选通构建计算阵列模块的计算资源，通过主控制模块的存储资源选通调用存储资源模块的存储单元进行运算。

更新值计算模块，计算训练参数更新值。与乘累加模块相同，更新值计算模块通过主控制模块相应内容调用存储资源模块和计算阵列模块，实现本模块内算法的计算。

更新及阈值判断模块完成训练参数的更新，并且统计小于阈值的更新值个数。在乘累加模块和更新值计算模块都计算完毕，更新及阈值判断模块将更新值计算模块计算的更新值与初始值相加，再与设定的阈值比较大小，统计小于阈值的更新值个数，本发明的训练目标即训练后更新值小于阈值，若小于阈值的更新值个数与样本数不一致，则继续进行训练，知道训练后小于阈值的更新值个数等于样本数，结束训练过程。

计算阵列模块包括一系列运算单元PE，每一个运算单元PE均包括乘法器、加法器和比较器，所述乘法器、加法器和比较器根据系统中公式动态重构成各个模块所需的结构，运算单元PE的个数综合考虑训练样本数和系统资源要求，运算单元PE数量越多，可并行训练的样本越多，计算速度越快，但是资源使用量也会更多，需要同时考虑存储资源模块的存储资源是否满足并行要求。当待训练参数量较大，大于计算资源能构成的PE个数时，不能一次全并行计算，可以流水并行。

存储资源模块包含一系列存储单元，存储资源模块分为权值系数区，训练参数区，标签区和中间结果区四种类型数据，本实施例各类数据在存储资源模块的存储器SRAM中存储情况如图2所示，其中权值系数区包括32个SRAM，标签区包括8个SRAM，训练参数区包括8个SRAM，中间结果区包括8个SRAM。根据不同的需求，硬件系统的SRAM数量可以改变，SRAM数量越多系统存储资源越多。

本发明所使用的训练公式如下所示，式中α_i(t)、α_j(t)均为训练参数的初值，q_ij为权值系数，ΔT为离散化处理的量化误差，b(t)为偏置，γ为惩罚因子，y_i为训练样本的标签，α_i(t+ΔT)为更新后的训练参数值：

将上述公式分步计算以实现资源复用，训练流程如下：

首先计算乘累加部分，

此时计算阵列模块的计算资源重构成如图4所示。数据输入如图5所示，所有运算单元PE共享训练参数值q_ij，分别与各训练参数所对应的权值系数进行乘累加计算。

乘累加计算完成之后进行更新值计算

此时计算阵列模块的计算资源重构成如图6所示。数据输入如图7所示，各个运算单元PE并行计算训练参数的更新值。

更新值计算完成后将更新值与初始值相加，并统计更新值小于阈值的数量。此步骤也是各个运算单元PE之间独立并行计算。所述初始值是指训练计算之前的值，阈值是外部设置的一个值，用来控制训练过程，训练目标是使更新值小于阈值。

以上三步计算完成后主控制模块判断更新值小于阈值的数量是否等于训练样本的个数，如果是就结束训练过程，否则进行下一次训练。

图3所示为本实施例LS-SVM训练机的训练流程图，包括以下步骤：

步骤1：训练机启动，主控制模块接收系统启动信号。

步骤2：启动乘累加模块进行乘累加计算，乘累加模块通过主控制模块的计算阵列选通和存储资源选通调用存储资源模块的存储单元，同时重构计算阵列模块的计算资源，重构的计算公式为

式中α_j(t)为训练参数的初值，q_ij为权值系数，ΔT为离散化处理的量化误差。如图4所示为乘累加模块中一个运算单元PE的计算结构，该计算结构包括加法器和乘法器，如图5所示的计算数据输入示意图，所有运算单元PE共享训练参数值q_ij，分别与各训练参数所对应的权值系数进行乘累加计算。其中权值系数q_ij存储在存储资源模块的权值系数区，训练参数存储在存储资源模块的训练参数区。

步骤3：启动更新值计算模块进行更新值计算，乘累加计算结束，更新值计算模块通过主控制模块的计算阵列选通和存储资源选通调用存储资源模块的存储单元，同时对重构计算阵列模块的计算资源，重构的计算公式为

式中α_i(t)、α_j(t)均为训练参数的初值，q_ij为权值系数，ΔT为离散化处理的量化误差，b(t)为偏置，γ为惩罚因子，y_i为训练样本的标签，α_i(t+ΔT)为更新后的训练参数值。如图6所示为更新值计算模块中一个运算单元PE的计算结构，该计算结构包括数据选择器、乘法器、减法器和加法器，图7所示为更新值计算模块对应计算数据输入示意图，各运算单元独立计算，本实施例共四个运算单元PE，计算时运算单元并行流水运行。

步骤4：启动更新及阈值判断模块，将步骤三中计算得到的更新值与初值相加，所述初值为训练前的值，与初值相加过的更新值再与阈值比较大小，统计小于阈值的更新值个数，更新及阈值判断模块进行判断时运算单元PE之间独立并行计算，比较时阈值根据不同情况进行设置。更新及阈值判断模块在计算时，计算阵列模块调用比较器进行计算，计算阵列模块根据不同的计算需求，动态重构计算资源结构，实现资源的复用，系统灵活性很强，计算时所有运算单元都独立计算。本实施例共四个运算单元PE，计算时运算单元并行流水运行。

步骤5：主控制模块判断小于阈值的更新值个数是否等于训练样本数，如果是则训练结束，否则启动下一次乘累加模块，直到所有训练参数的变化量都小于阈值。

本实施例的LS-SVM训练机基于SIMD架构实现，使用并行流水处理的实现方式，多个运算单元相互独立可以并行计算，可同时进行多个训练参数的计算更新，当待训练参数量较大时，可以流水并行。综合考虑系统的存储资源和系统的计算速度，在资源有限的情况下平衡系统资源和计算速度。同时本实施例系统中乘累加模块和更新值计算模块共同使用计算阵列模块，计算阵列模块根据不同的计算模块重构计算结构，资源复用，将有限的计算资源实现更大容量的数据处理，提高系统的灵活性。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，在不背离本发明的精神或者基本特征的情况下，能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于SIMD架构的LS-SVM训练机的硬件系统，其特征在于，包括控制计算模块和计算阵列模块，控制计算模块连接计算阵列模块，控制计算模块包括主控制模块、乘累加模块、更新值计算模块和更新及阈值判断模块，主控制模块分别与乘累加模块、更新值计算模块和更新及阈值判断模块连接；

2.根据权利要求1所述的一种基于SIMD架构的LS-SVM训练机的硬件系统，其特征在于，所述计算阵列模块包括若干计算资源，所述计算资源包括乘法器、加法器和比较器，训练时计算阵列模块分为若干个运算单元，每个运算单元都包括结构相同的计算资源，所述计算资源根据计算状态动态重构。

3.根据权利要求1所述的一种基于SIMD架构的LS-SVM训练机的硬件系统，其特征在于，所述硬件系统还包括存储资源模块，所述存储资源模块包括权值系数区，训练参数区，标签区和中间结果区。

4.根据权利要求2所述的一种基于SIMD架构的LS-SVM训练机的硬件系统，其特征在于，所述运算单元之间并行设置。

5.根据权利要求1所述的一种基于SIMD架构的LS-SVM训练机的硬件系统，其特征在于，所述主控制模块包括计算阵列选通、存储资源选通和主控制状态机，主控制模块通过计算阵列选通发送信号至计算阵列模块，主控制模块通过存储资源选通发送信号至存储资源模块。

6.一种基于SIMD架构的LS-SVM训练机的硬件训练方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的一种基于SIMD架构的LS-SVM训练机的硬件训练方法，其特征在于，计算阵列模块重构时根据训练样本数和系统存储资源确定运算单元数量，运算单元间相互独立并行计算。

8.根据权利要求6所述的一种基于SIMD架构的LS-SVM训练机的硬件训练方法，其特征在于，乘累加模块、更新值计算模块和更新及阈值比较模块共享计算阵列模块中的计算资源，所述计算资源根据当前计算状态动态重构成所需的结构。

9.根据权利要求6所述的一种基于SIMD架构的LS-SVM训练机的硬件训练方法，其特征在于，所述乘累加模块的计算公式为

10.根据权利要求6所述的一种基于SIMD架构的LS-SVM训练机的硬件训练方法，其特征在于，所述更新值计算模块的计算公式为

α_i(t)、α_j(t)均为训练参数的初值，q_ij为权值系数，ΔT为离散化处理的量化误差，b(t)为偏置，γ为惩罚因子，y_i为训练样本的标签。