CN110197219B

CN110197219B - 一种支持数据分类的贝叶斯分类器的硬件实现方法

Info

Publication number: CN110197219B
Application number: CN201910442712.1A
Authority: CN
Inventors: 魏继增; 薛臻; 郭炜
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-05-25
Filing date: 2019-05-25
Publication date: 2023-04-18
Anticipated expiration: 2039-05-25
Also published as: CN110197219A

Abstract

一种支持数据分类的贝叶斯分类器的硬件实现方法，设计具有AXI接口的朴素贝叶斯分类器，将朴素贝叶斯分类器通过AXI接口经AXI总线送入CPU，朴素贝叶斯分类器的索引计算模块用于依次产生各个类别与各个属性索引并送入地址计算模块，地址计算模块根据顶层模块给出的待测试特征向量和接收到的索引计算模块的数据计算出访问概率快表的地址，概率计算模块通过贝叶斯公式、从概率快表取出的数据以及从址计算模块提到的各个类别与各个属性索引计算出后验概率，并将后验概率最大的类别作为分类结果送入顶层模块，顶层模块用于协调索引计算模块、地址计算模块、概率计算模块和概率快表的有序运行。本发明适用于一切离散化的数据集。

Description

一种支持数据分类的贝叶斯分类器的硬件实现方法

技术领域

本发明涉及一种贝叶斯分类器。特别是涉及一种支持数据分类的贝叶斯分类器的硬件实现方法。

背景技术

近年来，随着人工智能越来越受关注，机器学习也取得了长足的发展。机器学习是人工智能的核心，是一门多领域交叉学科，它涉及了概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

随着机器学习算法越来越成熟，机器学习中非常重要的一类算法——分类算法也不断被研究与完善，常用的方法包括贝叶斯、决策树、支持向量机、k近邻、逻辑回归、神经网络和深度学习等。在众多的分类算法中，贝叶斯方法以其简单性和高效性，一直被广泛地应用到各种文本、图像等的分类工作中，具有重要地位。贝叶斯分类方法是基于贝叶斯定理的一种统计学分类方法，它计算一个待测试元组属于每个类别的概率，并最终选出概率最大的类别作为分类结果。贝叶斯分类方法可分为朴素贝叶斯、半朴素贝叶斯分类等。

朴素贝叶斯分类器是假设特征向量各属性独立的前提下运用贝叶斯定理的概率分类器，是贝叶斯分类中最简单的一种。自上个世纪50年代，朴素贝叶斯分类方法就已经得到了广泛研究，在上个世纪60年代被引入到了文本信息检索界中，并且直到现在，它依然是一种热门的分类算法，被广泛应用到各种分类工作中。值得一提的是，尽管朴素贝叶斯分类器基于非常朴素的思想和非常简单的假设前提，但其在很多复杂的现实情形中仍然能够取得相当好的分类效果，同时，朴素贝叶斯分类器具备高度的可扩展性。不仅如此，朴素贝叶斯分类只需要根据少量的训练数据估计出必要的参数，再加上它的变量独立假设，因此只需要估计各个变量的方法，而不需要确定整个协方差矩阵。总结一句，朴素贝叶斯分类具有坚实的数学基础和稳定的分类效率，同时所需估计的参数很少，对数据缺失不太敏感，并且算法足够简单。

FPGA(Field Programmable Gate Array)，即现场可编程门阵列，它作为一种半定制电路，由硬件描述语言(Hardware Description Language，HDL，主要有Verilog和VHDL)来完成硬件设计，以实现特定的功能，并且HDL对其的配置可随时擦除，因此FPGA能够反复使用。FPGA的优点在于，它既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。由于FPGA具有的相对丰富的内部资源，支持硬件编程，并且开发费用较低、风险较小、可以反复使用的特点，使其成为了科研实验的最佳选择。

目前，机器学习各种分类方法虽已被应用到计算机的各个领域，但大多数依然侧重于算法本身的研究，而针对其提出专用的硬件结构的研究工作则相对较少。由此来看，为分类算法定制适合其的硬件架构，是一种必然的趋势。到现在为止，大多数朴素贝叶斯分类器依然运行在通用处理器上，这样不仅效率不够高，同时也为云计算等大数据处理带来了不便。在众多机器学习分类算法中，朴素贝叶斯分类算法具有的数学基础坚实、算法简单而且分类效率较高的特性，这使得它非常适合于硬件实现。

发明内容

本发明所要解决的技术问题是，提供一种能够提高朴素贝叶斯分类器运行效率的支持数据分类的贝叶斯分类器的硬件实现方法。

本发明所采用的技术方案是：一种支持数据分类的贝叶斯分类器的硬件实现方法，包括，设计具有AXI接口的朴素贝叶斯分类器，并将朴素贝叶斯分类器通过AXI接口经AXI总线送入CPU，所述的朴素贝叶斯分类器包括有顶层模块、索引计算模块、地址计算模块、概率计算模块和概率快表，所述索引计算模块用于依次产生各个类别与各个属性索引并送入地址计算模块，所述地址计算模块根据顶层模块给出的待测试特征向量和接收到的索引计算模块的数据计算出访问概率快表的地址，所述概率计算模块通过贝叶斯公式、从概率快表取出的数据以及从址计算模块提到的各个类别与各个属性索引计算出后验概率，并将后验概率最大的类别作为分类结果送入顶层模块，所述顶层模块用于协调索引计算模块、地址计算模块、概率计算模块和概率快表的有序运行。

所述待测试特征向量的格式为：特征向量每一维的属性取值是从0开始的整数，所属类别是从0开始的整数。

所述的AXI接口是封装在所述朴素贝叶斯分类器，包括有：时钟、复位信号和AXI-Lite接口信号。

所述的顶层模块在朴素贝叶斯分类器开始工作时，分别给索引计算模块、地址计算模块、概率计算模块和概率快表一个1位的开始信号并启动。

所述索引计算模块的输入有时钟信号和接收顶层模块的复位信号，输出有用于送入地址计算模块的类别索引信号和属性索引信号。

所述地址计算模块的输入信号有接收顶层模块的复位信号和待测试特征向量，以及接收索引计算模块的类别索引信号和属性索引信号，输出信号有送入概率快表的概率快表使能信号和概率快表地址信号，以及送入概率计算模块的类别索引信号和属性索引信号，所述地址计算模块的地址计算公式为：

概率快表地址＝特征向量维数×类别数×属性值+类别数×属性值。

所述概率计算模块的输入信号有：时钟信号，接收顶层模块的复位信号，接收概率快表的概率快表数据，接收地址计算模块的类别索引信号和属性索引信号，输出信号有送入顶层模块的结果有效信号和分类结果信号。

所述概率计算模块采用对数化的方法，将乘法向加减法进行转换，对数底数选择以2为底，进行对数化处理，再利用贝叶斯原理对所有数据类别进行计算，选出后验概率最大的类别，所述对数化处理公式如下：

展开可得：

其中，x＝(x₀,x₁,…,x_n-1)是一个n维的待测试向量，y＝{y＝c|c＝0,1,…,C-1}是x可能的类别标签。

所述概率快表的结构，就按照属性值由小到大的顺序，从低地址到高地址存储，对于属性值相同的属性，按照类别标签由小到大的顺序，从低地址到高地址存储。

所述概率快表中的存储的数据为定点化的无符号数，在定点化的过程中，整数位数取决于概率的极值，小数位数的选择综合考虑分类精度与占用存储空间的大小，保留的小数位数越多，分类的准确率就越高。

本发明的一种支持数据分类的贝叶斯分类器的硬件实现方法，将朴素贝叶斯分类算法实现在了硬件上，并封装成了AXI接口的IP。不同于运行在通用处理器之上，我们提出了专用的硬件结构，不仅提高了分类效率，而且也为云计算等大数据处理提供了便利。并且，本专利适用于一切离散化的数据集，只需替换浮点数定点化的方案与训练结果即可。

附图说明

图1是本发明一种支持数据分类的贝叶斯分类器的硬件实现方法的构成框图；

图2是本发明中朴素贝叶斯分类器的构成框图；

图3是本发明中概率快表的结构示意图。

图中

1：朴素贝叶斯分类器 11：顶层模块

12：索引计算模块 13：地址计算模块

14：概率计算模块 15：概率快表

2：AXI接口 3：AXI总线

4：CPU

具体实施方式

下面结合实施例和附图对本发明的一种支持数据分类的贝叶斯分类器的硬件实现方法做出详细说明。

如图1所示，本发明的一种支持数据分类的贝叶斯分类器的硬件实现方法，包括，设计具有AXI接口2的朴素贝叶斯分类器1，并将朴素贝叶斯分类器1通过AXI接口2经AXI总线3送入CPU4。

所述的AXI接口2是封装在所述朴素贝叶斯分类器1，包括有：时钟、复位信号和AXI-Lite接口信号，因此可以方便地挂载在系统之上进行工作。AXI接口如下：

表1贝叶斯分类器的顶层模块接口

如图2所示，所述的朴素贝叶斯分类器1包括有顶层模块11、索引计算模块12、地址计算模块13、概率计算模块14和概率快表15，所述索引计算模块12用于依次产生各个类别与各个属性索引并送入地址计算模块13，所述地址计算模块13根据顶层模块11给出的待测试特征向量和接收到的索引计算模块12的数据计算出访问概率快表15的地址，所述待测试特征向量的格式为：特征向量每一维的属性取值是从0开始的整数，所属类别是从0开始的整数。所述概率计算模块14通过贝叶斯公式、从概率快表15取出的数据以及从址计算模块13提到的各个类别与各个属性索引计算出后验概率，并将后验概率最大的类别作为分类结果送入顶层模块11，所述顶层模块11用于协调索引计算模块12、地址计算模块13、概率计算模块14和概率快表15的有序运行。

所述的顶层模块11在朴素贝叶斯分类器1开始工作时，分别给索引计算模块12、地址计算模块13、概率计算模块14和概率快表15一个1位的开始信号并启动。

在顶层模块11中，有4个与AXI总线交互的寄存器，分别为开始寄存器，结果寄存器，待测试特征向量寄存器与结果有效寄存器。其中，开始寄存器表明了此IP是否可以开始工作；结果寄存器保存着分类器的分类结果；待测试特征向量寄存器存储了从AXI总线上传来的特征向量。结果有效寄存器表明结果寄存器中存储的分类结果是否有效，即分类是否完毕。

当开始寄存器被置为1时，朴素贝叶斯分类器开始分类与图片索引寄存器中的索引对应的图片，若待测试特征向量大于32位，分类器会依次接收若干个32位的特征向量数据，当待测试向量整个得到时，将其传给地址计算子模块，再将所有子模块启动，开始分类。分类完毕后，顶层模块将分类结果写进结果寄存器，结合结果有效寄存器，CPU从而可以通过AXI总线得到分类结果。

所述索引计算模块12的输入有时钟信号和接收顶层模块11的复位信号，输出有用于送入地址计算模块13的类别索引信号和属性索引信号。如表2所示，

表2索引计算模块接口

由朴素贝叶斯分类的数学原理可知，在进行分类时，需要将各个类别的为分类结果的概率值都计算一遍，因此，在索引计算模块中，依次产生各个类别与各个属性的索引，以提供给地址计算模块计算出访问概率快表的地址，并且表明概率计算模块的进程。

所述地址计算模块13的输入信号有接收顶层模块11的复位信号和待测试特征向量，以及接收索引计算模块12的类别索引信号和属性索引信号，输出信号有送入概率快表15的概率快表使能信号和概率快表地址信号，以及送入概率计算模块14的类别索引信号和属性索引信号，如表3所示，

表3地址计算模块接口

地址计算模块根据类别索引、属性索引和待测试特征向量的属性值，通过地址计算公式计算出概率快表的地址来访问概率快表，同时，将类别索引与属性索引传递下去，以供概率计算模块使用。所述地址计算模块13的地址计算公式为：

所述概率计算模块14的输入信号有：时钟信号，接收顶层模块11的复位信号，接收概率快表15的概率快表数据，接收地址计算模块13的类别索引信号和属性索引信号，输出信号有送入顶层模块11的结果有效信号和分类结果信号。如表4所示，

表4概率计算模块接口

在概率计算模块中，通过贝叶斯公式，利用从概率快表中取出的数据、类别索引以及属性索引，对于每个类别，都计算一次后验概率，最后取使得后验概率最大的类别作为分类结果。一开始，分类结果有效信号被置为0，当分类工作完成后，分类结果有效信号被置为1，并和分类结果一起，被传递到顶层模块。

所述概率计算模块14采用对数化的方法，将乘法向加减法进行转换，对数底数选择以2为底，进行对数化处理，再利用贝叶斯原理对所有数据类别进行计算，选出后验概率最大的类别，所述对数化处理公式如下：

展开可得：

如图3所示，所述概率快表15的结构，是按照属性值由小到大的顺序，从低地址到高地址存储，对于属性值相同的属性，按照类别标签由小到大的顺序，从低地址到高地址存储。

所述概率快表15中的存储的数据为定点化的无符号数，在定点化的过程中，整数位数取决于概率的极值，小数位数的选择综合考虑分类精度与占用存储空间的大小，保留的小数位数越多，分类的准确率就越高。

Claims

1.一种支持数据分类的贝叶斯分类器的硬件实现方法，其特征在于，包括，设计具有AXI接口(2)的朴素贝叶斯分类器(1)，并将朴素贝叶斯分类器(1)通过AXI接口(2)经AXI总线(3)送入CPU(4)，所述的朴素贝叶斯分类器(1)包括有顶层模块(11)、索引计算模块(12)、地址计算模块(13)、概率计算模块(14)和概率快表(15)，所述索引计算模块(12)用于依次产生各个类别与各个属性索引并送入地址计算模块(13)，所述地址计算模块(13)根据顶层模块(11)给出的待测试特征向量和接收到的索引计算模块(12)的数据计算出访问概率快表(15)的地址，所述概率计算模块(14)通过贝叶斯公式、从概率快表(15)取出的数据以及从地址计算模块(13)提取到的各个类别与各个属性索引计算出后验概率，并将后验概率最大的类别作为分类结果送入顶层模块(11)，所述顶层模块(11)用于协调索引计算模块(12)、地址计算模块(13)、概率计算模块(14)和概率快表(15)的有序运行；

所述的顶层模块(11)在朴素贝叶斯分类器(1)开始工作时，分别给索引计算模块(12)、地址计算模块(13)、概率计算模块(14)和概率快表(15)一个1位的开始信号并启动；

所述索引计算模块(12)的输入有时钟信号和接收顶层模块(11)的复位信号，输出有用于送入地址计算模块(13)的类别索引信号和属性索引信号；

所述地址计算模块(13)的输入信号有接收顶层模块(11)的复位信号和待测试特征向量，以及接收索引计算模块(12)的类别索引信号和属性索引信号，输出信号有送入概率快表(15)的概率快表使能信号和概率快表地址信号，以及送入概率计算模块(14)的类别索引信号和属性索引信号，所述地址计算模块(13)的地址计算公式为：

2.根据权利要求1所述的一种支持数据分类的贝叶斯分类器的硬件实现方法，其特征在于，所述待测试特征向量的格式为：特征向量每一维的属性取值是从0开始的整数，所属类别是从0开始的整数。

3.根据权利要求1所述的一种支持数据分类的贝叶斯分类器的硬件实现方法，其特征在于，所述的AXI接口(2)是封装在所述朴素贝叶斯分类器(1)，包括有：时钟、复位信号和AXI-Lite接口信号。

4.根据权利要求1所述的一种支持数据分类的贝叶斯分类器的硬件实现方法，其特征在于，所述概率计算模块(14)的输入信号有：时钟信号，接收顶层模块(11)的复位信号，接收概率快表(15)的概率快表数据，接收地址计算模块(13)的类别索引信号和属性索引信号，输出信号有送入顶层模块(11)的结果有效信号和分类结果信号。

5.根据权利要求4所述的一种支持数据分类的贝叶斯分类器的硬件实现方法，其特征在于，所述概率计算模块(14)采用对数化的方法，将乘法向加减法进行转换，对数底数选择以2为底，进行对数化处理，再利用贝叶斯原理对所有数据类别进行计算，选出后验概率最大的类别，所述对数化处理公式如下：

展开可得：

6.根据权利要求1所述的一种支持数据分类的贝叶斯分类器的硬件实现方法，其特征在于，所述概率快表(15)的结构，就按照属性值由小到大的顺序，从低地址到高地址存储，对于属性值相同的属性，按照类别标签由小到大的顺序，从低地址到高地址存储。

7.根据权利要求6所述的一种支持数据分类的贝叶斯分类器的硬件实现方法，其特征在于，所述概率快表(15)中的存储的数据为定点化的无符号数，在定点化的过程中，整数位数取决于概率的极值，小数位数的选择综合考虑分类精度与占用存储空间的大小，保留的小数位数越多，分类的准确率就越高。