CN104680236A

CN104680236A - 核函数极限学习机分类器的fpga实现方法

Info

Publication number: CN104680236A
Application number: CN201510079979.0A
Authority: CN
Inventors: 荣海军; 弓晓阳; 杨静; 李苑; 赵广社
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2015-06-03
Anticipated expiration: 2035-02-13
Also published as: CN104680236B

Abstract

本发明公开了一种核函数极限学习机分类器的FPGA实现方法，包括如下步骤：首先在PC机上对原始分类样本进行预处理得到样本，然后通过RS232端口将样本由PC机传输到FPGA中，FPGA将样本存入RAM中，根据训练样本的特征数和样本数确定学习机的决策函数、拓扑结构。核函数极限学习机具有好的分类能力、操作简单，训练速度快，泛化性好，同时也可以避免了陷入局部最小值的危险。本发明创新点采用并行、串行混合编程，可以有效地降低资源的利用；采用降维法的矩阵分块求逆的FPGA实现，适用于任意维数矩阵求逆，修改简单方便，可以有效地提高工作效率；可根据精度要求使用不同位宽的二进制数，可以在保持精度的情况下有效地降低资源的消耗。

Description

核函数极限学习机分类器的FPGA实现方法

技术领域：

本发明属于模式识别技术领域，具体涉及一种核函数极限学习机分类器的FPGA实现方法。

背景技术：

人工神经网络是在人类对其大脑神经网络认识理解的基础上人工构造的能够实现某种功能的神经网络。他实际上是一个由大量简单神经元相互连接而成的复杂网络，具有高度非线性特征，并行性，能够进行复杂的逻辑操作和非线性关系实现的系统。但是前馈神经网的训练主要采用梯度下降算法，所有的权值都需要调节，这样限制了神经网络的训练速度。G.B.Huang对此进行了研究，提出了极限学习机(ELM)算法，该算法对单隐层分类器的输入权值和隐层节点偏移量进行随机赋值，并且只需对隐含层输出矩阵进行广义逆操作即可得到网络的输出权值。该算法具有学习速度快，操作简单，错误率低等优点，在最近几年内得到很快的发展。在分类方面，由于最初的ELM的训练是基于误差为零而推导出来的，主要考虑的是训练误差，没有对输出权值进行优化，也不是去寻找类别之间的最优分类超平面，而且会造成训练过度。因此并不适合分类，故在此基础上提出了核函数极限学习机。该方法寻找分类数据之间的最优超平面，采用了二次优化的方法在最小化训练误差的同时对输出权值进行了优化，得到了全局最优点，具有很好的泛化能力，分类方面的表现优于ELM，而且同时具有操作简单、训练速度快等优点。

目前核函数极限学习机只是在计算机上编程实现的，虽然计算机具有高度灵活性但由于计算机串行运算并不适合神经网络。近些年FPGA技术发展迅速，FPGA作为专用集成电路(ASIC)领域中的一种半定制电路，其高速、并行和可重构的特点成为神经网络硬件实现最合适的芯片。

发明内容：

本发明的目的在于提出了一种核函数极限学习机分类器的FPGA实现方法。该实现方法实现过程中采用串行，并行混合编程，同时采用流水线编程思想，该实现方法可以在保持较高的运算速度的前提下，可以有效的节省硬件资源，提高资源的利用率。在矩阵求逆时采用降维法完成矩阵求逆，将大维数矩阵分解成小维数的矩阵，可以有效的提高工作效率。

为达到上述目的，本发明采用如下的技术方案予以实现：

核函数极限学习机分类器的FPGA实现方法，包括如下步骤：

首先在PC机上对原始分类样本进行预处理得到样本，然后通过RS232端口将样本由PC机传输到FPGA中，FPGA将样本存入RAM中，根据训练样本的特征数和样本数确定核函数极限学习机的决策函数、拓扑结构。

本发明进一步的改进在于，在PC机上对原始分类样本预处理实现过程为：首先确定FPGA上所需二进制定点数位数，n1表示整数位位数、n2表示小数位位数，初定1位符号位、3位整数位及12位小数位，当运算产生溢出时或精度不够时增加相应的二进制位数；然后将原始分类样本进行归一化处理，将归一化的数据乘以2ⁿ²并四舍五入到整数位，得到十进制数，最后将十进制数转换成十六进制数，得到样本。

本发明进一步的改进在于，通过RS232端口将样本数据传输到FPGA中，传输时先高位后低位，FPGA接收数据，当接收到一个数字对应的ASCII码时，将ASCII码转成该数字对应的二进制数，暂存在存储器中；当再次接收到数字对应的ASCII码时，将存储器中的二进制数左移4位然后将刚接收的数字对应的二进制数赋值给存储器中二进制数的低四位；当接收到非数字对应的ASCII码时，将存储器中的数据写入RAM中，然后将存储器中的数据清零，准备接收下一个数据。

本发明进一步的改进在于，核函数极限学习机决策函数的确定方法如下：

设有一组样本集(x_i,t_i)，i＝1,...,N，N为正整数，其中x_i∈R^d，R为实数集，d为样本特征数，t_i＝[t_i,1,t_i,2,...,t_i,m]^T是与第i个样本相对应的分类类别，m表示类别数，如果第i个样本属于第j类，则有t_i,j＝1，其余为-1，核函数极限学习机分类决策面描述为f(x_i)＝h(x_i)β，其中β为权值向量，h(x_i)＝[h(x_i,1),...,h(x_i,d)]为样本从输入空间到特征空间的非线性映射，核函数极限学习机的分类学习即解决下面的受约束优化问题：

最小化：

L = \frac{1}{2} {| | β | |}^{2} + C \frac{1}{2} Σ_{i = 1}^{N} {| | ξ_{i} | |}^{2} - - - (1)

其中：C为惩罚参数、ξ_i为松弛变量，i＝1,...,N；

约束条件：

h (x_{i}) β - t_{i}^{T} = ξ_{i}^{T} - - - (2)

求解该问题引入拉格朗日函数得：

L = \frac{1}{2} {| | β | |}^{2} + C \frac{1}{2} Σ_{i = 1}^{N} {| | ξ_{i} | |}^{2} - Σ_{i = 1}^{N} Σ_{j = 1}^{m} α_{i, j} (h (x_{i}) β_{j} - t_{i, j} + ξ_{i, j}) - - - (3)

其中，α_i＝[α_i,1,...,α_i,m]，α_i,j是拉格朗日乘子，利用KKT条件分别对拉格朗日函数的各个变量求偏导数即得：

\frac{&PartialD; L}{&PartialD; β_{j}} = 0 &RightArrow; β_{j} = Σ_{i = 1}^{N} α_{i, j} h {(x_{i})}^{T} &RightArrow; β = H^{T} α - - - (4)

\frac{&PartialD; L}{&PartialD; ξ_{i}} = 0 &RightArrow; α_{i} = C ξ_{i}, i = 1, . . ., N - - - (5)

\frac{&PartialD; L}{&PartialD; α_{i}} = 0 &RightArrow; h (x_{i}) β - t_{i}^{T} + ξ_{i}^{T} = 0 - - - (6)

对式(4)～式(6)进行变换得式：

β = H^{T} {(\frac{1}{C} + {HH}^{T})}^{- 1} T - - - (7)

式中：H＝[h(x₁)^T,h(x₂)^T,...,h(x_N)^T]^T，T＝[t₁、t₂,...,t_N]^T；

将式(7)其代入决策函数得：

f (x) = h (x) β = h (x) H^{T} {(\frac{1}{C} + {HH}^{T})}^{- 1} T - - - (8)

引入高斯核函数，核函数定义为：

K(x_i,x_j)＝h(x_i)·h(x_j)＝exp(-γ||x_i-x_j||²) (9)

其中，γ为高斯核函数宽度参数

f (x) = [\begin{matrix} K (x, x_{1}) \\ . \\ . \\ . \\ K (x, x_{N}) \end{matrix}] {(\frac{1}{C} + Ω)}^{- 1} T - - - (10)

其中：

Ω＝HH^T；Ω_i,j＝h(x_i)·h(x_j)＝K(x_i,x_j) (11)

设W由训练样本计算得到，此处定义其为输出权值向量；

把样本x代入决策函数(10)后得到输出f(x)，其中f_j(x)表示第j个输出，则

f(x)＝[f₁(x),...,f_m(x)]，对于样本x的分类结果表示为：

label (x) = \arg \max_{i &Element; {1, . . . m}} f_{i} (x) - - - (12) .

本发明进一步的改进在于，由式(10)确定核函数极限学习机拓扑结构：输入层节点数为d，中间层节点数为N，输出层节点数为m；将该核函数极限学习机分成两部分：训练部分和测试部分；

训练部分即输出权值W的计算，按以下步骤实现；

A1、矩阵Ω见式(11)的求解模块，构造一个高斯核函数模块按流水线的方式实现，核函数采用流水线的方式完成运算，分为减法、平方、求和、乘法及指数函数五步完成，每一步消耗一个时钟周期，五个步骤按流水线的方式工作，当训练样本连续输入时，在第5个时钟周期后计算结果连续输出；

A2、将上一步计算结果存储到存储器中，实现(1/C+Ω)，将变量1/C加到矩阵Ω的对角线上，构造计数器和加法器，加法器的一端接变量1/C，另一端接存储器的输出端，加法器的输出端接存储器的输入端，计数器的输出cnt作为存储器的地址，4个时钟周期为一个循环，t＝1时读数据，t＝2时输出的数据与变量1/C相加，t＝3时将求和结果写回原地址中，t＝4时计数器更新，cnt＝cnt+(N+1)；即指向对角线的下一个元素，运算结束后将数据输出；

A3、构造矩阵求逆模块将A2的输出数据写入模块内的存储器中然后进行求逆运算，运算结束后将数据输出，设A2的输出结果为A_NN，设A3的输出结果为B_NN即

B_{NN} = A_{NN}^{- 1} = {(\frac{1}{C} + Ω)}^{- 1};

A4、将A3输出的数据存入RAM中，完成W＝B_NNT，分类标签T分别存到RAMt1，RAMt2，…，RAMtm，构造m个乘法累加器，m个存储器RAMw1，RAMw2，…，RAMwm，第j个乘法累加器的两个输入端口，一端接RAM的输出，另一端接RAMtj的输出，完成运算，将结果存入RAMwj中，其中i＝1，2…，N，m个乘法累加器是同时并行运算，结果分别存入RAMw1，RAMw2，…，RAMwm中，RAMw中所存储的数据即为输出权值，其中j＝1，2….，m；

测试部分即网络输出模块的实现，完成下式运算

f (x) = {[\begin{matrix} K (x, x_{1}) \\ . \\ . \\ . \\ K (x, x_{N}) \end{matrix}]}^{T} \cdot W - - - (13)

B1、测试样本的核函数运算模块

由公式(13)知有N个核函数，此处采用流水线的方式来完成N个核函数的运算，测试样本X∈R^d送入核函数的一端，另一端接训练样本，N组训练样本连续输入，5个时钟周期后N个计算结果连续输出；

B2、构造m个乘法累加器，其中第j个乘法累加器的两个输入端，一个端口接B1的输出数据，另一个端口接RAMwj的输出，当B1数据输出时，同时读取RAMwj中的对应输出权值同时送入乘法累加器中进行并行运算，m个乘法累加器并型运算产生m个输出值，其中j＝1，2….，m；

B3、判断模块，上一步有m个输出，分别为f₁(x)，f₂(x)，…，f_m(x)，首先令T(0)＝1，其余位为0；然后取f₁(x)和f₂(x)进行比较，如果f₁(x)≥f₂(x)则max＝f₁(x)T不变，否则max＝f₂(x)，T(1)＝1，其余位置0；然后按此方法取max与下一个数据f_j(x)进行比较，如果max≥f_j(x)则max，T不变，否则max＝f_j(x)，T(j-1)＝1，其余位置0，全部比较完后将T输出。

本发明进一步的改进在于，高斯核函数的实现方法如下：

高斯核函数指数部分y＝exp(-x)的实现，采用分段线性近似法，即用y_i(x)＝a_ix+b_i进行分段近似，构造RAMa、RAMb分别存储参数(a_i,b_i)，根据x所属的分段区间来选择参数(a_i,b_i)，构造一个乘法器实现a_ix和一个带使能端的加法器实现与b_i相加；

高斯核函数整体的实现：

第一步构造d个减法器实现：(x_i,1-x_j,1)，(x_i,2-x_j,2)，…，(x_i,d-x_j,d)；

第二步构造d个乘法器，将减法器的输出同时送入乘法器的两个端口完成平方运算：(x_i,1-x_j,1)²，(x_i,2-x_j,2)²，…，(x_i,d-x_j,d)²；

第三步构造加法器模块对乘法器L个输出结果进行求和

第四步构造乘法器实现求和结果与参数γ的相乘运算

第五步最后将第四步的结果代入高斯核函数指数模块即得到输出。

本发明进一步的改进在于，步骤A3中，矩阵求逆如下：此处为大维数矩阵分块求逆的方法，该方法适合任意维数的矩阵进行求逆，以下列举一次分块就能达到要求的矩阵，对于更大维数的矩阵依照该方法继续进行多次分块，设n＝N/2，其中N为偶数，如果N为奇数时，先将该矩阵扩大一维变成(N+1)维的矩阵再进行分块求逆，求完逆后取前N行N列矩阵即为原N维矩阵的逆，见式(14)；

A_{(N + 1) (N + 1)} = [\begin{matrix} A_{NN} & 0_{N 1} \\ 0_{1 N} & 1 \end{matrix}] - - - (14)

C1、将大维数的矩阵分成4块，小块矩阵维数是原矩阵维数的一半，见式(15)

C2、首先对A₁₁进行LU分解，方法如下

设

将式(16)展开并进行变形得如下计算公式：

\{\begin{matrix} u_{1 j} = a_{1 j} (j = 1,2, . . ., n); \\ l_{i 1} = \frac{a_{i 1}}{u_{11}} (i = 2,3, . . ., n); \\ u_{kj} = a_{kj} - Σ_{t = 1}^{k - 1} l_{kt} u_{tj} (j = k, k + 1, . . ., n; k = 2,3, . . ., n); \\ l_{ik} = \frac{1}{u_{kk}} (a_{ik} - Σ_{t = 1}^{k - 1} l_{it} u_{tk}) (i = k + 1, k + 2, . . ., n; k = 2,3, . . ., n) \end{matrix} - - - (17)

按照式(17)运算即得到矩阵L₁₁、矩阵U₁₁；

C3、上三角矩阵求逆，对矩阵U₁₁进行求逆，对于下三角矩阵经过转置后使用该方法；设矩阵U₁₁的逆矩阵为V₁₁则有：

式中，E为单位矩阵；

将式(18)展开并进行变形得：

\{\begin{matrix} v_{ii} = \frac{1}{u_{ii}} (i = 1, . . ., n); \\ v_{ij} = - \frac{1}{u_{ii}} Σ_{t = i + 1}^{j} u_{it} v_{tj} (i = 1, . . ., n - 1; j = i + 1, . . ., n); \end{matrix} - - - (19)

按照(19)公式运算即求出同样的方法求出

C4，对A_NN进行LU分块，见式(20)：

A_{NN} = [\begin{matrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{matrix}] = [\begin{matrix} L_{11} & O \\ L_{21} & L_{22} \end{matrix}] * [\begin{matrix} U_{11} & U_{12} \\ O & U_{22} \end{matrix}] - - - (20)

将式(20)展开并进行变形得式(21)；

\{\begin{matrix} L_{11} \cdot U_{11} = A_{11} & (1) \\ L_{21} = A_{21} \cdot U_{11}^{- 1} & (2) \\ U_{12} = L_{11}^{- 1} \cdot A_{12} & (3) \\ L_{22} U_{22} = A_{22} - L_{21} U_{12} & (4) \end{matrix} - - - (21)

①、根据步骤C2和C3即求出(21)式(1)中的矩阵

②、将矩阵代入(21)式(2)中求出L₂₁，将矩阵代入(21)式(3)中求出U₁₂；

③、将矩阵L₂₁和U₁₂代入(21)式(4)中得到L₂₂U₂₂，按照C2和C3的方法求出矩阵：

C5、上三角矩阵分块求逆方法，对下三角矩阵进行转置变成上三角矩阵后运用该方法，设U矩阵的逆矩阵为V矩阵，则有：

[\begin{matrix} U_{11} & U_{12} \\ O & U_{22} \end{matrix}] [\begin{matrix} V_{11} & V_{12} \\ O & V_{22} \end{matrix}] = E - - - (22)

将矩阵(22)展开并进行变形得；

\{\begin{matrix} V_{11} = U_{11}^{- 1} \\ V_{22} = U_{22}^{- 1} \\ V_{12} = - U_{11}^{- 1} U_{12} U_{22}^{- 1} \end{matrix} - - - (23)

其中矩阵U₁₂在上一步已求得，代入式(23)即求出V₁₁、V₂₂、V₁₂；同样的方法能够求得下三角矩阵的逆矩阵；

C6、LU矩阵的分块相乘即得到设上三角矩阵L阵的逆矩阵为Y；

A_{NN}^{- 1} = {[\begin{matrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{matrix}]}^{- 1} = [\begin{matrix} V_{11} & V_{12} \\ O & V_{22} \end{matrix}] * [\begin{matrix} Y_{11} & O \\ Y_{21} & Y_{22} \end{matrix}] - - - (24)

C1～C6所述为矩阵分块求逆的原理，在构造矩阵求逆模块时应先构造简单元件包括加法器、减法器、乘法器、除法器以及RAM，然后构造小维数的矩阵求出其上三角逆矩阵和下三角逆矩阵，然后按照原理进行扩维直到得到所求维数上三角逆矩阵和下三角逆矩阵，最后将上三角逆矩阵乘以下三角逆矩阵即为所求矩阵的逆矩阵。

与现有技术相比较，本发明具备如下优点：

1、核函数的运算采用分步运算，每一步内采用并行，整体采用流水线的方法，所有的模块同时参与运算，具有运算效率高，运算速度快，资源消耗少等特点；

2、任意维数的矩阵的求逆方法，将大维数的矩阵通过多次降维的方法分成小维数矩阵，即反过来通过由小维数的矩阵逆操作构造大一级的矩阵逆，大一级的矩阵逆再构造更大一级的矩阵逆，由于每次构造大一级矩阵逆操作时步骤相同，可以有效的节省工作量，提高工作效率；

3、核函数极限学习机采用自顶而下模块化的编程思想，模块与模块之间采用串行连接，这样有利于模块分工，模块的修改。

附图说明：

图1为高斯核函数指数部分硬件实现原理图；

图2为高斯核函数整体硬件实现原理图；

图3为高斯核函数运行仿真图，其中数据来自鸢尾花数据(Iris)；

图4为60维矩阵的分块过程图；

图5为核函数极限学习机分类器训练部分模块图；

图6为核函数极限学习机分类器测试部分模块图；

图7为核函数极限学习机分类器的FPGA实现方法的流程图。

具体实施方式：

下面结合附图和具体实施对本发明进行详细说明。

构造核函数极限学习机分类器的拓扑结构；

设有一组样本集(x_i,t_i)，i＝1,...,N，其中x_i∈R^d，d为样本特征数，t_i＝[t_i,1,t_i,2,...,t_i,m]^T是与第i个样本相对应的分类类别，m表示类别数，如果第i个样本属于第j类，则有t_i,j＝1，其余为-1，核函数极限学习机分类决策面描述为f(x_i)＝h(x_i)β，其中β为权值向量，h(x_i)＝[h(x_i,1),...,h(x_i,d)]为样本从输入空间到特征空间的非线性映射，核函数极限学习机的分类学习即解决下面的受约束优化问题：

最小化：

L = \frac{1}{2} {| | β | |}^{2} + C \frac{1}{2} Σ_{i = 1}^{N} {| | ξ_{i} | |}^{2} - - - (1)

约束条件：

h (x_{i}) β - t_{i}^{T} = ξ_{i}^{T} - - - (2)

求解该问题引入拉格朗日函数得：

L = \frac{1}{2} {| | β | |}^{2} + C \frac{1}{2} Σ_{i = 1}^{N} {| | ξ_{i} | |}^{2} - Σ_{i = 1}^{N} Σ_{j = 1}^{m} α_{i, j} (h (x_{i}) β_{j} - t_{i, j} + ξ_{i, j}) - - - (3)

利用KKT条件分别对拉格朗日函数的各个变量求偏导数即得：

\frac{&PartialD; L}{&PartialD; β_{j}} = 0 &RightArrow; β_{j} = Σ_{i = 1}^{N} α_{i, j} h {(x_{i})}^{T} &RightArrow; β = H^{T} α - - - (4)

\frac{&PartialD; L}{&PartialD; ξ_{i}} = 0 &RightArrow; α_{i} = C ξ_{i}, i = 1, . . ., N - - - (5)

\frac{&PartialD; L}{&PartialD; α_{i}} = 0 &RightArrow; h (x_{i}) β - t_{i}^{T} + ξ_{i}^{T} = 0 - - - (6)

对式(4)～式(6)进行变换得式：

β = H^{T} {(\frac{1}{C} + {HH}^{T})}^{- 1} T - - - (7)

将式(7)其代入决策函数得：

f (x) = h (x) β = h (x) H^{T} {(\frac{1}{C} + {HH}^{T})}^{- 1} T - - - (8)

引入高斯核函数，核函数定义为：

K(x_i,x_j)＝h(x_i)·h(x_j)＝exp(-γ||x_i-x_j||²) (9)

其中γ为高斯核函数宽度参数，决策函数变形为：

f (x) = [\begin{matrix} K (x, x_{1}) \\ . \\ . \\ . \\ K (x, x_{N}) \end{matrix}] {(\frac{1}{C} + Ω)}^{- 1} T - - - (10)

其中：

Ω＝HH^T；Ω_i,j＝h(x_i)·h(x_j)＝K(x_i,x_j) (11)

设W由训练样本计算得到，定义其为输出权值向量。

把样本x代入决策函数(10)后得到输出f(x)，其中f_j(x)代表第j个输出，则f(x)＝[f₁(x),...,f_m(x)]，对于样本x的分类结果表示为：

label (x) = \arg \max_{i &Element; {1, . . . m}} f_{i} (x) - - - (12)

本发明将对如何利用FPGA实现方程(10)、(12)进行说明。本发明采用VHDL语言进行编写，使用的开发平台为Quartus II 13。在程序编写过程中的基本元件直接使用IP软核包括减法器(SUB)、加法器(ADD)、乘法器(MULT)、除法器(DIV)、乘法累加器(MAC)以及存储器ROM和RAM。

中间数据的处理：在运算过程中，运算模块的输入、输出应具有统一的二进制位数，设运算模块采用q位二进制数格式为1位符号位、n1位整数位、n2位小数位，即二进制位数为：q＝1+n1+n2。乘法器的设置，当输入数据是q位时对应的输出数据是2q位，为了前后模块相互通信应使输出数据变为q位，此时应保留首位符号位和第(n1+2·n2)位～n2位，其余位舍去。除法模块的设置，为了前后衔接，应使输入数据q位的二进制数左移n2位，低位补0，对于输出数据取最高位的符号位和低(n1+n2)位作为输出，其余舍去。

高斯核函数模块的实现：高斯核函数指数模块采用分段线性近似法，即用y_i(x)＝a_ix+b_i进行分段近似，当x＝8，高斯核函数y＝exp(-8)＝0.000335，已经很接近0，当x>8时，取y＝0，将0～8分成64分，即x每变化1/8，取一组(a_i,b_i)。如图1所示构造2个18位的RAM存储(a_i,b_i)，深度是64，即用6位二进制数表示地址。定义一个乘法器(MULT)实现a_i和x相乘，一个带使能端的加法器(ADD)实现a_ix和b_i相加。

核函数模块的实现：该模块完成输入数据和权值的核函数运算，即完成如图2此处采用流水线的方式实现核函数运算，第一步构造L个减法器(SUB)实现(x_i1-x_j1)，(x_i2-x_j2)，…，(x_id-x_jd)；第二步构造L个乘法器(MULT)，将减法器的输出同时送入乘法器的两个端口完成平方运算(x_i1-x_j1)²，(x_i2-x_j2)²，…，(x_id-x_jd)²；第三步构造加法器模(ADD)块对乘法器L个输出结果进行求和第四步构造乘法器(MULT)实现求和结果与参数γ的相乘运算第五步最后将第四步的结果代入高斯核函数指数模块得到输出结果；上述核函数运算的5个步骤中的元件中均定义有使能控制端，当满足使能信号为高电平时，在时钟上升沿即可触发运算，此时核函数可进行流水线操作，图3为高斯核函数运行仿真图，输入数据来自鸢尾花(Iris)数据，第一次输入1组数据[0.694、0.417、0.833、0.083、0.667、0、0.042]，在第5个时钟周期后产生输出0.1929，当连续输入6组数据时，在第5个时钟周期后数据连续输出，图中数据采用16进制数表示；

矩阵分块求逆模块：首先采用LU矩阵分解成上三角(U)、下三角矩阵(L)即A＝L·U，然后对三角矩阵求逆，最后进行矩阵相乘A^-1＝U^-1·L^-1，如果矩阵维数很大时直接用上面的方法求逆计算量会很大，故在此使用一种适合任意维数的降维法矩阵求逆的方法，对于N维矩阵，如果N为偶数则直接平均分成4块，如果N为奇数则将矩阵扩大维变成(N+1)维矩阵然后进行分块。对分块后的矩阵进行求逆，最后求出整个矩阵的逆矩阵，图4为60维矩阵A_60,60的分块图，首先将60维矩阵分成30维，然后分成15维，进行扩维变成16维，然后分成8维，4维，运算时则由小维数矩阵逆构造大维数的矩阵逆，具体按下面步骤运算；

①、4维矩阵的LU分解

A_{1 ~ 4,1 ~ 4} = L_{1 ~ 4,1 ~ 4} \cdot U_{1 ~ 4,1 ~ 4} = [\begin{matrix} a_{11} & a_{12} & a_{13} & a_{14} \\ a_{22} & a_{22} & a_{23} & a_{24} \\ a_{31} & a_{32} & a_{33} & a_{34} \\ a_{41} & a_{42} & a_{43} & a_{44} \end{matrix}] = [\begin{matrix} 1 \\ l_{21} & 1 \\ l_{31} & l_{32} & 1 \\ l_{41} & l_{42} & l_{43} & 1 \end{matrix}] [\begin{matrix} u_{11} & u_{12} & u_{13} & u_{14} \\ u_{22} & u_{23} & u_{24} \\ u_{33} & u_{34} \\ u_{44} \end{matrix}] - - - (25)

将式(25)展开并进行变形得如下计算公式：

\{\begin{matrix} u_{1 j} = a_{1 j} (j = 1,2, 3, n); \\ l_{i 1} = \frac{a_{i 1}}{u_{11}} (i = 2,3, 4); \\ u_{kj} = a_{kj} - Σ_{t = 1}^{k - 1} l_{kt} u_{tj} (j = k, k + 1, . . ., 4; k = 2,3, 4); \\ l_{ik} = \frac{1}{u_{kk}} (a_{ik} - Σ_{t = 1}^{k - 1} l_{it} u_{tk}) (i = k + 1, k + 2, . . ., 4; k = 2,3, 4) \end{matrix} - - - (26)

求解式(26)运算得到矩阵L_1～4,1～4，U_1～4,1～4。

②、上三角矩阵求逆，对矩阵U_1～4,1～4进行求逆，对于下三角矩阵经过转置即可使用该方法；设矩阵U_1～4,1～4的逆矩阵为V_1～4,1～4则有：

[\begin{matrix} u_{11} & u_{12} & u_{13} & u_{14} \\ u_{22} & u_{23} & u_{24} \\ u_{33} & u_{34} \\ u_{44} \end{matrix}] [\begin{matrix} v_{11} & v_{12} & v_{13} & v_{14} \\ v_{22} & v_{23} & v_{24} \\ v_{33} & v_{34} \\ v_{44} \end{matrix}] = U_{1 ~ 4,1 ~ 4} \cdot V_{1 ~ 4,1 ~ 4} = E - - - (27)

将式(27)展开并进行变形得：

\{\begin{matrix} v_{ii} = \frac{1}{u_{ii}} (i = 1, . . ., 4); \\ v_{ij} = - \frac{1}{u_{ii}} Σ_{t = i + 1}^{j} u_{it} v_{tj} (i = 1, . . ., 3; j = i + 1, . . ., 4); \end{matrix} - - - (28)

求解式(28)即可求出同样的方法也可求出

③、对A_1～8,1～8进行LU分块分解，得下式：

A_{1 ~ 8,1 ~ 8} = [\begin{matrix} A_{1 ~ 4,1 ~ 4} & A_{1 ~ 4,5 ~ 8} \\ A_{5 ~ 8,1 ~ 4} & A_{5 ~ 8,5 ~ 8} \end{matrix}] = [\begin{matrix} L_{1 ~ 4,1 ~ 4} & O \\ L_{5 ~ 8,1 ~ 4} & L_{5 ~ 8,5 ~ 8} \end{matrix}] \cdot [\begin{matrix} U_{1 ~ 4,1 ~ 4} & U_{1 ~ 4,5 ~ 8} \\ O & U_{5 ~ 8,5 ~ 8} \end{matrix}] - - - (29)

将式(29)展开并进行变形得式(30)；

\{\begin{matrix} L_{1 ~ 4,1 ~ 4} \cdot U_{1 ~ 4,1 ~ 4} = A_{1 ~ 4,1 ~ 4} & (1) \\ L_{5 ~ 8,1 ~ 4} = A_{5 ~ 8,1 ~ 4} \cdot U_{1 ~ 4,1 ~ 4}^{- 1} & (2) \\ U_{1 ~ 4,5 ~ 8} = L_{1 ~ 4,1 ~ 4}^{- 1} \cdot A_{1 ~ 4,5 ~ 8} & (3) \\ L_{5 ~ 8,5 ~ 8} U_{5 ~ 8,5 ~ 8} = A_{5 ~ 8,5 ~ 8} - L_{5 ~ 8,1 ~ 4} U_{1 ~ 4,5 ~ 8} & (4) \end{matrix} - - - (30)

a、由步骤①和②的方法求出(30)式(1)中的矩阵

b、将矩阵代入(30)式(2)中，可求出L_5～8,1～4，将矩阵代入(30)式(3)中，求出U_1～4,5～8；

c、将矩阵L_5～8,1～4和U_1～4,5～8代入(30)式(4)中，得到L_5～8,5～8U_5～8,5～8，由步骤①和②的方法求出矩阵：

④、上三角矩阵分块求逆方法(对下三角矩阵进行转置变成上三角矩阵即可运用该方法)，设U矩阵的逆矩阵为V矩阵，则有：

[\begin{matrix} U_{1 ~ 4,1 ~ 4} & U_{1 ~ 4,5 ~ 8} \\ O & U_{5 ~ 8,5 ~ 8} \end{matrix}] [\begin{matrix} V_{1 ~ 4,1 ~ 4} & V_{1 ~ 4,5 ~ 8} \\ O & V_{5 ~ 8,5 ~ 8} \end{matrix}] = U_{1 ~ 8,1 ~ 8} \cdot V_{1 ~ 8,1 ~ 8} = I - - - (31)

将矩阵(31)展开并进行变形得；

\{\begin{matrix} V_{1 ~ 4,1 ~ 4} = U_{1 ~ 4,1 ~ 4}^{- 1} \\ V_{5 ~ 8,5 ~ 8} = U_{5 ~ 8,5 ~ 8}^{- 1} \\ V_{1 ~ 4,5 ~ 8} = - U_{1 ~ 4,1 ~ 4}^{- 1} U_{1 ~ 4,5 ~ 8} U_{5 ~ 8,5 ~ 8}^{- 1} \end{matrix} - - - (32)

式(32)中的矩阵U_1～4,5～8、均由步骤③求得，代入式(32)即得到V_1～8,1～8，即将下三角矩阵经过转置使用同样的方法求得

⑤、按照步骤③、④的方法，求得对于15位的矩阵可以通过扩维的方法如式(33)变成16维的矩阵，调用上面的方法，求得然后分别取矩阵的前15行15列即为矩阵A_{1～15,1～15}的

A_{1 ~ 16,1 ~ 16} = [\begin{matrix} A_{1 ~ 15,1 ~ 15} & 0_{1 ~ 15,1} \\ 0_{1,1 ~ 15} & 1 \end{matrix}] - - - (33)

得到然后按照步骤③、④的方法求得，进而求得

⑥、矩阵A_60,60的逆矩阵即可由式(34)求得；

A_{1 ~ 60,1 ~ 60}^{- 1} = U_{1 ~ 60,1 ~ 60}^{- 1} \cdot L_{1 ~ 60,1 ~ 60}^{- 1} - - - (34)

矩阵求逆的FPGA实现，首先构造求的模块，然后构造的模块、的模块、的模块、的模块，高一级的模块可以直接调用低一级的模块，最后构造矩阵相乘模块得到运算结果，由于每次扩维的方法步骤相同，所以仅需对程序进行少量修改即可。

基本元件、模块构造好以后，按照如图5和图6所示的结构连接起来，然后将控制信号，状态信号引入状态机，去控制和监测整个程序的进行。程序按照图7所示的流程进行。

A1：进行复位，所有模块回到初始状态；

A2：初始化，将训练样本及其分类标签通过RS232由PC机存入到FPGA双端口的RAM中(将样本按特征分成d部分分别存储到d个RAM，d个RAM使用相同的地址，一个样本的d个特征在RAM占用相同的地址)；

A3：启动训练模块如图5，首先进行训练数据的核函数运算，

Ω＝HH^T；Ω_i,j＝h(x_i)·h(x_j)＝K(x_i,x_j)；训练样本存储在双端口的RAM中，定义两个计数器，cnta，cntb作为双端口RAM的两个地址读取数据，两个样本送入核函数中运算，核函数的使能端全部置高电平。每个时钟周期，cntb＝cntb+1，当cntb＝(N-1)时，cntb清零，cnta＝cnta+1；当cnta计数到N时，运算结束。随着计数器更新，数据连续不断地送入核函数，按流水线不断的运算并产生输出。

A4：当A3状态启动时，延时5个时钟周期，启动加法模块：接收上一步的输出数据，将其存储到存储器中，构造一个计数器CNT，一个加法器ADD，实现(1/C+Ω)，加法器的一端接1/C，另一端接存储器的输出端，加法器的输出接存储的输入端口，计数器的输出端(cnt)作为存储器的地址，4个时钟周期为一个循环，t＝1时读取数据，t＝2时输出数据与1/C相加，t＝3时将求和结果存回原地址中，t＝4时计数器更新，cnt1＝cnt1+(N+1)。即指向对角线的下一个元素，当计数器记到N²时，运算结束，将完成信号Ready置高电平，状态机跳到下一状态，延时2个时钟将数据输出。

A5：启动矩阵求逆模块，首先将A4输出数据存入存储器，待数据全部读入以后，进行运算，运算结束后将Ready置高电平，同时延迟两个时钟周期后将数据输出。状态机检测到信号后，跳到下一状态。

A6：矩阵乘模块：将A5数据存入RAM中，完成W＝B_NNT，分类标签T分别存到RAMt1，RAMt2，…，RAMtm，构造m个乘法累加器MAC，m个存储器RAMw1，RAMw2，…，RAMwm，第j个乘法累加器MAC的两个输入端口，一端接RAM的输出，另一端接RAMtj的输出，完成运算，将结果存入RAMwj中，其中i＝1，2….，N，m个乘法累加器是同时并行运算，结果分别存入RAMw1，RAMw2，…，RAMwm中，RAMw中所存储的数据即为输出权值，其中j＝1，2….，m；当计算结束后，Ready置高电平，跳到下一状态。

A7：检测外部的测试样本是否准备好，当检测到高电平时，跳到下一个状态。

A8：启动测试模块如图6：测试样本的分类运算，首先完成测试样本与输入权值的核运算，输入权值即训练样本，隐含层共有N个核函数，所以有N组输入权值(输入权值在系统初始化时存入RAM中)。核函数采用流水线操作，测试数据不变，输入权值连续输入时，在第5个时钟周期后数据开始连续输出。即当第5个时钟周期第1个核函数数据输出，同时送入m个乘法累加器一端，另一端输入对应的输出权值进行并行相乘，第6个时钟周期第2个训练样本的核函数数据输出，送入m个乘法累加器与对应的输出权值相乘，当第N个核函数产生输出，送入乘法累加器与对应的输出权值相乘，则计算完成，m个乘法累加器输出端的数据保持不变。Ready置高电平。状态跳到下一个状态。

A9：判断模块，上一步有m个输出，分别为f₁(x)，f₂(x)，…，f_m(x)，首先令T(0)＝1，其余位为0；然后取f₁(x)和f₂(x)进行比较，如果f₁(x)≥f₂(x)则max＝f₁(x)T不变，否则max＝f₂(x)，T(1)＝1，其余位置0；然后按此方法取max与下一个数据f_j(x)进行比较，如果max≥f_j(x)则max，T不变，否则max＝f_j(x)，T(j-1)＝1，其余位置0，全部比较完后将T输出，同时状态机跳到A7，准备测试下一组样本。

Claims

1.核函数极限学习机分类器的FPGA实现方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的核函数极限学习机分类器的FPGA实现方法，其特征在于，在PC机上对原始分类样本预处理实现过程为：首先确定FPGA上所需二进制定点数位数，n1表示整数位位数、n2表示小数位位数，初定1位符号位、3位整数位及12位小数位，当运算产生溢出时或精度不够时增加相应的二进制位数；然后将原始分类样本进行归一化处理，将归一化的数据乘以2ⁿ²并四舍五入到整数位，得到十进制数，最后将十进制数转换成十六进制数，得到样本。

3.根据权利要求1所述的核函数极限学习机分类器的FPGA实现方法，其特征在于，通过RS232端口将样本数据传输到FPGA中，传输时先高位后低位，FPGA接收数据，当接收到一个数字对应的ASCII码时，将ASCII码转成该数字对应的二进制数，暂存在存储器中；当再次接收到数字对应的ASCII码时，将存储器中的二进制数左移4位然后将刚接收的数字对应的二进制数赋值给存储器中二进制数的低四位；当接收到非数字对应的ASCII码时，将存储器中的数据写入RAM中，然后将存储器中的数据清零，准备接收下一个数据。

4.根据权利要求1所述的核函数极限学习机分类器的FPGA实现方法，其特征在于，核函数极限学习机决策函数的确定方法如下：

最小化：

L = \frac{1}{2} {| | β | |}^{2} + C \frac{1}{2} Σ_{i = 1}^{N} {| | ξ_{i} | |}^{2} - - - (1)

其中：C为惩罚参数、ξ_i为松弛变量，i＝1,...,N；

约束条件：

h (x_{i}) β - t_{i}^{T} = ξ_{i}^{T} - - - (2)

求解该问题引入拉格朗日函数得：

L = \frac{1}{2} {| | β | |}^{2} + C \frac{1}{2} Σ_{i = 1}^{N} {| | ξ_{i} | |}^{2} - Σ_{i = 1}^{N} Σ_{j = 1}^{m} α_{i, j} (h (x_{i}) β_{j} - t_{i, j} + ξ_{i, j}) - - - (3)

\frac{&PartialD; L}{&PartialD; β_{j}} = 0 &RightArrow; β_{j} = Σ_{i = 1}^{N} α_{i, j} h {(x_{i})}^{T} &RightArrow; β = H^{T} α - - - (4)

\frac{&PartialD; L}{&PartialD; ξ_{i}} = 0 &RightArrow; α_{i} = C ξ_{i}, i = 1, . . ., N - - - (5)

\frac{&PartialD; L}{&PartialD; α_{i}} = 0 &RightArrow; (x_{i}) β - t_{i}^{T} + ξ_{i}^{T} = 0 - - - (6)

对式(4)～式(6)进行变换得式：

β = H^{T} {(\frac{1}{C} + {HH}^{T})}^{- 1} T - - - (7)

将式(7)其代入决策函数得：

f (x) = h (x) β = h (x) H^{T} {(\frac{1}{C} + {HH}^{T})}^{- 1} T - - - (8)

引入高斯核函数，核函数定义为：

K(x_i,x_j)＝h(x_i)·h(x_j)＝exp(-γ||x_i-x_j||²) (9)

其中，γ为高斯核函数宽度参数

f (x) = [\begin{matrix} K (x, x_{1}) \\ \cdot \\ \cdot \\ \cdot \\ K (x, x_{N}) \end{matrix}] {(\frac{1}{C} + Ω)}^{- 1} T - - - (10)

其中：

Ω＝HH^T；Ω_i,j＝h(x_i)·h(x_j)＝K(x_i,x_j) (11)

设W由训练样本计算得到，此处定义其为输出权值向量；

把样本x代入决策函数(10)后得到输出f(x)，其中f_j(x)表示第j个输出，则f(x)＝[f₁(x),...,f_m(x)]，对于样本x的分类结果表示为：

label (x) = \arg \max_{i &Element; {1, . . . m}} f_{i} (x) - - - (12) .

5.根据权利要求4所述的核函数极限学习机分类器的FPGA实现方法，其特征在于，由式(10)确定核函数极限学习机拓扑结构：输入层节点数为d，中间层节点数为N，输出层节点数为m；将该核函数极限学习机分成两部分：训练部分和测试部分；

训练部分即输出权值W的计算，按以下步骤实现；

B_{NN} = A_{NN}^{- 1} = {(\frac{1}{C} + Ω)}^{- 1};

测试部分即网络输出模块的实现，完成下式运算

f (x) = {[\begin{matrix} K (x, x_{1}) \\ \cdot \\ \cdot \\ \cdot \\ K (x, x_{N}) \end{matrix}]}^{T} \cdot W - - - (13)

B1、测试样本的核函数运算模块

6.根据权利要求5所述的核函数极限学习机分类器的FPGA实现方法，其特征在于，高斯核函数的实现方法如下：

高斯核函数整体的实现：

第三步构造加法器模块对乘法器L个输出结果进行求和

第四步构造乘法器实现求和结果与参数γ的相乘运算

7.根据权利要求5所述的核函数极限学习机分类器的FPGA实现方法，其特征在于，步骤A3中，矩阵求逆如下：此处为大维数矩阵分块求逆的方法，该方法适合任意维数的矩阵进行求逆，以下列举一次分块就能达到要求的矩阵，对于更大维数的矩阵依照该方法继续进行多次分块，设n＝N/2，其中N为偶数，如果N为奇数时，先将该矩阵扩大一维变成(N+1)维的矩阵再进行分块求逆，求完逆后取前N行N列矩阵即为原N维矩阵的逆，见式(14)；

A_{(N + 1) (N + 1)} = [\begin{matrix} A_{NN} & 0_{N 1} \\ 0_{1 N} & 1 \end{matrix}] - - - (14)

C2、首先对A₁₁进行LU分解，方法如下

设

将式(16)展开并进行变形得如下计算公式：

\{\begin{matrix} u_{1 j} = a_{1 j} (j = 1,2, \cdot \cdot \cdot, n); \\ l_{i 1} = \frac{a_{i 1}}{u_{11}} (i = 2,3, \cdot \cdot \cdot, n); \\ u_{kj} = a_{kj} - Σ_{t = 1}^{k - 1} l_{kt} u_{tj} (j = 1, k + 1, \cdot \cdot \cdot, n; k = 2,3, \cdot \cdot \cdot, n); \\ l_{ik} = \frac{1}{u_{kk}} (a_{ik} - Σ_{t = 1}^{k - 1} l_{it} u_{tk}) (i = k + 1, k + 2, \cdot \cdot \cdot, n; k = 2,3, \cdot \cdot \cdot, n) \end{matrix} - - - (17)

按照式(17)运算即得到矩阵L₁₁、矩阵U₁₁；

式中，E为单位矩阵；

将式(18)展开并进行变形得：

\{\begin{matrix} v_{ii} = \frac{1}{u_{ii}} (i = 1, . . ., n); \\ v_{ij} = - \frac{1}{u_{ii}} Σ_{t = i + 1}^{j} u_{it} v_{tj} (i = 1, . . ., n - 1; j = i + 1, . . ., n); \end{matrix} - - - (19)

按照(19)公式运算即求出同样的方法求出

C4，对A_NN进行LU分块，见式(20)：

A_{NN} = [\begin{matrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{matrix}] = [\begin{matrix} L_{11} & O \\ L_{21} & L_{22} \end{matrix}] * [\begin{matrix} U_{11} & U_{12} \\ O & U_{22} \end{matrix}] - - - (20)

将式(20)展开并进行变形得式(21)；

\{\begin{matrix} L_{11} \cdot U_{11} = A_{11} & (1) \\ L_{21} = A_{21} \cdot U_{11}^{- 1} & (2) \\ U_{12} = L_{11}^{- 1} \cdot A_{12} & (3) \\ L_{22} U_{22} = A_{22} - L_{21} U_{12} & (4) \end{matrix} - - - (21)

①、根据步骤C2和C3即求出(21)式(1)中的矩阵

[\begin{matrix} U_{11} & U_{12} \\ O & U_{22} \end{matrix}] [\begin{matrix} V_{11} & V_{12} \\ O & V_{22} \end{matrix}] = E - - - (22)

将矩阵(22)展开并进行变形得；

\{\begin{matrix} V_{11} = U_{11}^{- 1} \\ V_{22} = U_{22}^{- 1} \\ V_{12} = - U_{11}^{- 1} U_{12} U_{22}^{- 1} \end{matrix} - - - (23)

C6、LU矩阵的分块相乘即得到设上三角矩阵L阵的逆矩阵为Y；

A_{NN}^{- 1} = {[\begin{matrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{matrix}]}^{- 1} = [\begin{matrix} V_{11} & V_{12} \\ O & V_{22} \end{matrix}] * [\begin{matrix} Y_{11} & O \\ Y_{21} & Y_{22} \end{matrix}] - - - (24)