CN109086815A - 基于fpga的决策树模型中的浮点数离散化方法 - Google Patents

基于fpga的决策树模型中的浮点数离散化方法 Download PDF

Info

Publication number
CN109086815A
CN109086815A CN201810820317.8A CN201810820317A CN109086815A CN 109086815 A CN109086815 A CN 109086815A CN 201810820317 A CN201810820317 A CN 201810820317A CN 109086815 A CN109086815 A CN 109086815A
Authority
CN
China
Prior art keywords
decision
discretization
threshold value
model
floating number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810820317.8A
Other languages
English (en)
Other versions
CN109086815B (zh
Inventor
孙品
孙一品
赵双
陈曙晖
王飞
苏金树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810820317.8A priority Critical patent/CN109086815B/zh
Publication of CN109086815A publication Critical patent/CN109086815A/zh
Application granted granted Critical
Publication of CN109086815B publication Critical patent/CN109086815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/14Conversion to or from non-weighted codes
    • H03M7/24Conversion to or from floating-point codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于机器学习领域,针对现有基于FPGA的包含浮点阈值的决策树模型的硬件实现方法无法在降低硬件巨大存储和计算资源的同时保持模型的分类性能的问题,提供一种基于FPGA的决策树模型中的浮点数阈值离散化方法,包括以下步骤:第一步,离散化决策树模型中的浮点数阈值;第二步,离散化待分类样本的浮点数特征;第三步,基于层级流水的决策树加速模型对待分类样本分类识别。本发明通过离散化轴平行二叉决策树模型中的浮点数阈值,将模型中的浮点数转换为整数,在不改变模型的分类性能的前提下减少硬件实现需要的存储和计算资源,优化硬件实现方案。

Description

基于FPGA的决策树模型中的浮点数离散化方法
技术领域
本发明属于机器学习领域,涉及一种基于硬件的决策树分类加速优化方法,具体涉及基于FPGA的决策树模型中的浮点数阈值离散化方法。
背景技术
决策树是机器学习中一种常用的算法,也是多种集成分类器的基分类器,如随机森林,bagging算法等。它在多个领域都表现出优秀的分类能力,如物体检测,网络流量分类等。由于待检测样本数目的急剧增长及众多应用要求实时性分类,决策树模型除了需要保证准确率外,还需具有极快的分类速度。
轴平行决策树模型包括中间节点与叶子节点。中间节点包括一个特征和对应的阈值。当特征为离散特征时,其阈值是该特征的可能取值之一,从而产生多个分支(每个取值为一个分支)或两个分支(等于与不等于某一可能取值)。当属性为连续属性时,阈值通常为浮点数,并产生两个分支。叶子节点只包含类别信息。决策树分类时,每个样本从根节点开始比较,直至到达一个叶子节点获得分类结果。
已有的决策树分类的软件实现,如在CPU平台上的分类器,已不能满足实时分类应用的速度需求,如网络流量识别。因此,众多工作利用硬件加速决策树分类过程。FPGA由于其可编程,配置灵活备受青睐。目前基于FPGA的决策树硬件实现方法主要包括两类。一类是将决策树与阈值网络相结合,第一层网络将每个节点作为单独的处理单元对输入进行计算,第二层网络接受第一层的节点输出并利用定义好的分类逻辑给出结果。这种方法只包含两个步骤,因此分类速度快,但是需要大量的计算资源,并且也会引入大量的路由逻辑。第二类方法将树的每层作为独立的处理单元,实现层级流水,在完全流水化时也可实现每时钟周期一个输出,相对第一种方法对资源需求较少。
以上两种方案的重点都在于如何并行化或流水化分类过程从而提高分类速度。当分类任务具有连续属性时,分类模型就可能存在浮点数阈值。而浮点数相比整数需要更多的存储资源,也需要更复杂的计算单元。这两种方法均没有涉及决策树中浮点数值在硬件实现中的存储与计算的优化,没有考虑如何优化模型中存在的浮点数。
Hiroki等人在FPGA上实现随机森林模型(Hiroki Nakahara等,A Random Forestusing a Multi-valued Decision Diagram on an FPGA(FPGA平台上基于多值决策图的随机森林模型),IEEE 47th International Symposium on Multiple-Valued Logic(第47届多值逻辑国际会议),2017,266-271)。对于模型中的32位浮点数值,采用14位的定点数表示,这种方法虽然减少所需的存储资源,但是会影响模型的分类精度。Akira提出使用K-Means方法对决策树中的特征阈值进行聚类,从而合并相近的阈值,减少阈值的个数,从而降低所需的存储资源,但最终的阈值依然为浮点数,并且也会影响模型的精度(AkiraJinguji等.An FPGA Realization of a Random Forest with k-Means ClusteringUsing a High-Level Synthesis Design(使用高级分析设计及K-Means聚类实现FPGA平台的随机森林模型).IEICE Transactions on Information and Systems(IEICE信息与系统),2018,101(2):354-362)。
综上所述,现有基于FPGA的决策树硬件实现方法重点在于设计流水化方案以提高分类速度,很少有工作关注硬件实现时如何处理决策树模型存在的浮点数,而浮点数对硬件实现中的存储与计算有极大的影响,现有针对浮点数进行优化的方法虽然减少所需的存储资源,但是会影响模型的分类精度,进而导致现有方法无法在硬件实现的存储和计算资源过大和分类精度之间获得很好的折中。
发明内容
本发明针对现有基于FPGA的包含浮点阈值的决策树模型的硬件实现方法无法在降低硬件巨大存储和计算资源的同时保持模型的分类性能的问题,提供一种基于FPGA的决策树模型中的浮点数离散化方法,离散化轴平行二叉决策树模型中的浮点数阈值,将模型中的浮点数转换为整数,在不改变模型的分类性能的前提下减少硬件实现需要的存储和计算资源,优化硬件实现方案。
技术方案如下:
第一步,离散化决策树模型中的浮点数阈值。记输入为含有浮点数阈值的决策树模型T;样本的连续属性集为F,属性集F大小为M,M为自然数;Fi表示第i个属性,Fi对应的阈值列表为Li,i∈{0,...,M}。
第二步,离散化待分类样本的浮点数特征,即对输入的待分类样本的浮点数特征,根据离散化后的阈值列表进行转换,得到样本离散化后的整数特征向量。
第三步,基于层级流水的决策树加速模型对待分类样本分类识别。
作为本发明技术方案的进一步改进,所述第一步离散化决策树模型中的浮点数阈值具体步骤为:
步骤1.1构建阈值列表。方法为:
对每个连续属性Fi,遍历决策树模型T中使用连续属性Fi的所有中间节点,并将对应的阈值添加至Fi的阈值列表Li中,阈值列表中的阈值从小到大排列。
步骤1.2离散化阈值。方法为:
对于每个阈值列表Li中的阈值,按照其在列表中的下标转换为对应的奇数;即当阈值下标为j时,对应的奇数为1+2*j,j为大于等于0的整数。
步骤1.3决策树模型转换,即将决策树模型T中的浮点数阈值按照步骤1.2离散化后的阈值转换为对应的整数值,生成不包含浮点数阈值的决策树模型。
作为本发明技术方案的进一步改进,所述第二步离散化待分类样本的浮点数特征,具体方法为:对于浮点数类型属性Fi,设其值为x,在浮点数阈值列表Li中查找其值x所在的下标k,并使得x小于等于k位置的阈值,大于k-1位置的阈值,则x对应的整数值为2*k。
作为本发明技术方案的进一步改进,所述第二步中,对于浮点数类型属性Fi,在浮点数阈值列表Li中使用二分查找获得其值x所在的下标k。
作为本发明技术方案的进一步改进,所述第三步基于层级流水的决策树加速模型对待分类样本分类识别,步骤如下:
步骤3.1构建基于层级流水的决策树分类加速模型,基于层级流水的决策树分类加速模型中,决策树的每层是一个独立的处理单元,具有独立的存储与计算资源。每层包含节点存储和输入/输出缓冲存储两种存储;
步骤3.2将第二步得到的离散化后的整数特征向量送入在FPGA平台上实现的基于层级流水的决策树分类加速模型,得到待分类样本的分类结果。
作为本发明技术方案的进一步改进,所述步骤3.1中,节点存储用来存储该层的中间节点信息,叶子节点的类别信息直接保存在其分支节点地址域中,并设置对应的标记位。节点存储包含特征号(FeatureId),阈值(Threshold),左分支地址或标签(Left BranchAddr/Label),右分支地址或标签(Right Branch Addr/Label),左叶子节点标记位(LeftLeaf Flag),右叶子节点标记位(Right Leaf Flag);输入/输出缓冲存储用来保存该层样本的输入与输出,从而保证每层可以同时处理不同的样本。
输入/输出缓冲保存待检测样本的节点地址(Node Addr)及待检测样本的特征向量(Feature Vector)及标签域(Label)。
作为本发明技术方案的进一步改进,所述步骤3.1中,特征号FeatureId域所需的位数与特征个数相关,若特征个数为N,则该域需log2N位。Threshold与阈值范围及类型有关,若需表示浮点数,一般需32位。分支地址域则与下一层节点个数及类别个数有关。若下层节点个数为M,类别个数为K,则每层分支地址域最小为max(log2M,log2K),max()为取大函数,即从log2M和log2K中取大者。
与现有技术相比,本发明的有益效果是:
●本发明通过第一步离散化决策树模型中的浮点数阈值,得到不包含浮点数阈值的决策树模型,第二步离散化待分类样本的浮点数特征,对输入的待分类样本的浮点数特征,根据离散化后的阈值列表进行转换,得到样本离散化后的整数特征向量;进而既保证不改变分类器的分类性能,又有效的消除了模型中的浮点阈值;
●本发明可移植性好,易于移植到其他基于决策树的模型,如随机森林算法。与单一的决策树不同,随机森林在生成阈值列表时,应生成全局的阈值列表,即对于某一属性,列表应包含所有树中该属性的阈值,才能保证模型的一致性。
附图说明
图1是本发明总体流程图;
图2是本发明包含连续属性的决策树模型示意图;
图3是本发明实施例对图1模型阈值整数化示例;
图4是本发明实施例对决策树模型转换得到的基于层级流水的决策树加速模型;
图5是本发明存储对象结构示意图;
图6是本发明实施例模型分类结果比较图;
图7是本发明实施例浮点数值类型特征使用次数图;
图8是本发明实施例模型A浮点数特征阈值列表长度分布图。
具体实施方式
下面结合实施例对本发明的实施方式进行进一步详细说明。
如图1所示,本发明基于FPGA的决策树模型中的浮点数离散化方法包括以下步骤:
第一步,离散化图2所示决策树模型中的浮点数阈值,图2给出一个包含连续属性及浮点数阈值的决策树模型示例。其中,F1,F2为两个连续属性,a,b为分类标签,模型含有7个中间节点。
步骤1.1构建阈值列表。对连续属性Fi,遍历决策树模型T中使用连续属性Fi的所有中间节点,并将对应的阈值添加至Fi的阈值列表Li中,阈值列表中的阈值从小到大排列,i=1,2。得到图3中步骤1.1所示的阈值列表L1={-50,3.25,100.6,501.25},L2={-50.15,206.3,1000.57}。
步骤1.2离散化阈值。对于每个阈值列表Li中的阈值,按照其在列表中的下标转换为对应的奇数;即当阈值下标为j时,对应的奇数为1+2*j,j为大于等于0的整数,从而将Li中的所有阈值转换为对应的奇数。得到如图3中步骤1.2所示的离散化阈值。
步骤1.3决策树模型转换,即将决策树模型T中的浮点数阈值按照步骤1.2离散化后的阈值转换为对应的整数值,生成如图3所示的不包含浮点数阈值的决策树模型。
第二步,离散化待分类样本的浮点数特征,即对输入的待分类样本的浮点数特征,根据离散化后的阈值列表进行转换,得到样本离散化后的整数特征向量。如图3中第二步所示,对于原数据{40.5,20.02},根据离散化后的阈值列表进行转换,得到样本离散化后的整数特征向量{4,0}。
第三步,基于层级流水的决策树加速模型对待分类样本分类识别。
步骤3.1构建基于层级流水的决策树分类加速模型,基于层级流水的决策树分类加速模型中,决策树的每层是一个独立的处理单元,具有独立的存储与计算资源。每层包含节点存储和输入/输出缓冲存储两种存储;节点存储用来存储该层的中间节点信息,叶子节点的类别信息直接保存在其分支节点地址域中,并设置对应的标记位,进而将图4(a)所示的决策树模型构建成图4(b)所示的基于层级流水的决策树分类加速模型。
如图5(a)所示,节点存储包含特征号(FeatureId),阈值(Threshold),左分支地址或标签(Left Branch Addr/Label),右分支地址或标签(Right Branch Addr/Label),左叶子节点标记位(Left Leaf Flag),右叶子节点标记位(Right Leaf Flag);输入/输出缓冲存储用来保存该层样本的输入与输出,从而保证每层可以同时处理不同的样本。如图5(b)所示,输入/输出缓冲保存待检测样本的节点地址(Node Addr)及待检测样本的特征向量(Feature Vector)及标签域(Label)。其中,特征号FeatureId域所需的位数与特征个数相关,若特征个数为N,则该域需log2N位。Threshold与阈值范围及类型有关,若需表示浮点数,一般需32位。分支地址域则与下一层节点个数及类别个数有关。若下层节点个数为M,类别个数为K,则每层分支地址域最小为max(log2M,log2K),max()为取大函数,即从log2M和log2K中取大者。
步骤3.2将第二步得到的离散化后的整数特征向量送入在FPGA平台上实现的基于层级流水的决策树分类加速模型,得到待分类样本的分类结果。
本发明采用真实网络流量进行了测试,并对本发明的有效性进行评估。
1)数据集
测试数据集采用VPN-nonVPN公开数据集(Lashkari等,Characterization ofencrypted and vpn traffic using time-related features(基于时间相关特征分类加密与虚拟专用网络流量).Proceedings of the 2nd International Conference onInformation Systems Security and Privacy(第二届信息系统安全与隐私国际会议论文集),2016,407-414)。该数据集中的流量包含14种类别,即:即时通讯(chat),邮件(email),端到端传输(p2p),文件传输(FileTransfer),流媒体(Streaming),网页浏览(Browsing),语音通信(voip)及各类对应的虚拟专用网络(VPN)下的流量。但在该数据集的分类下,不同的类别有具有交叉的情况,例如使用浏览器的youtube和vimeo流量既属于Streaming,又属于Browsing,将这类流量看作Streaming,并舍去类别Browsing。剩下的12种类别存在样本不均衡的情况,例如VPN-email只有640条流数据,而voip数据有14万余条流,只保留数据样本在1000-10000间的类别。最终数据集的组成如表1所示。
表1.数据集组成
类别 流个数
即时通讯 8470
邮件 6595
端到端传输 1180
流媒体 5078
虚拟专用网络下的即时通讯 5155
虚拟专用网络下的文件传输 2825
虚拟专用网络下的流媒体 2623
虚拟专用网络下的语音通信 5265
总计 37191
本实施例采用Lashkari(Lashkari等.Characterization of encrypted and vpntraffic using time-related features(基于时间相关特征分类加密与虚拟专用网络流量).Proceedings of the 2nd International Conference on Information SystemsSecurity and Privacy(第二届信息系统安全与隐私国际会议论文集).2016,407-414)给出的23种时间相关统计特征,并使用其提供的ISCXFlowMeter工具提取特征。根据其实验结果,超时时间设置为30s。23种时间相关的统计特征如表2,其中含有12种浮点数类型统计特征。
表2.特征子集
2)决策树模型
基于上述数据集采用WEKA提供的C4.5决策树训练分类模型,并采用10折交叉验证方法。其中,模型A直接使用连续属性训练决策树模型。模型B采用Entropy-MDL方法对连续属性离散化,并训练二叉决策树模型。模型C采用Entropy-MDL方法对连续属性离散化,但不限制模型为二叉树。三种模型的性能比较如表3,得到图6(a)每类分类精度详细和图6(b)每类分类召回率详细。
表3.模型比较
模型 连续属性离散化 二叉树 总节点个数 叶子节点数 深度 训练时间 平均准确率
模型A 2709 1355 34 2.45s 77.51%
模型B 3097 1549 239 583.81s 75.51%
模型C 52493 51887 7 0.47s 74.20%
从表3看出,离散化连续属性会极大的增加模型深度或叶子节点个数,并且不一定会带来分类性能的提升。因此通过离散化连续属性消除模型中的浮点数未必是一种有效的手段。接下来基于模型A对本发明方法进行评估。
3)硬件评估
假设FPGA的硬件资源足够实现每层流水化,采用基于层级流水的决策树加速模型,对模型浮点数阈值整数化前后的资源消耗进行评估。对于整数类型特征的资源占用不做讨论。
(1)存储资源
根据第三步描述的流水化方案可知,只有中间节点的“阈值”域及输入输出缓冲区的“特征向量”域的大小受浮点数类型数值影响。因此接下来仅对整数化前后这两个域所需的存储资源进行比较。
未整数化前,浮点数采用32位表示。则采用浮点数值特征的中间节点的“阈值”域需要32位,输入与输出缓冲区的“特征向量域”保存12个浮点数值类型的特征需384位。考虑到使用浮点阈值的中间节点共599个,如图7所示的本发明实施例浮点数值类型特征使用次数,深度为34,则存储资源需45280bits,即:32*599+(384+384)*34bits。
对模型中的浮点阈值进行整数化处理后,得到如图8所示的本发明实施例模型A浮点数特征阈值列表长度分布图。
根据阈值列表长度分布,10位足以表示整数化后的阈值,即采用浮点数类型特征的中间节点的阈值位只需10位。对于输入输出缓冲区,样本的特征向量中离散化后的12种特征最少需使用63位。阈值列表中的浮点数仍用32位表示。若输入样本的转换也在硬件中实现,那么最终模型需要的存储大小约29154bits。即:(590*32+599*10+34*(63+63))。相比未整数化前,存储资源节约35.61%。若输入样本的转换过程在硬件外实现,如在提取样本特征时就进行转换,那么最终模型需要的存储大小约10274bits。即:(599*10+34*(63+63)),存储资源节约77.31%。
值得注意的是,所有不同的浮点数阈值总个数为590,而使用浮点数类型特征的中间节点个数为599。这说明在整棵树中使用同一个特征的节点可能具有相同的阈值。本发明可以避免相同特征阈值的重复存储。同时,可以推断,当浮点属性个数增多时,会节省更多的资源。
(2)计算资源
未整数化阈值前,每层需要进行浮点数比较。在整数化后,每层需要进行的是整数化的比较。若输入样本的连续特征离散化在硬件中实现,那么本发明依然需要使用浮点数比较单元。但若连续特征少于决策树的深度或者在硬件外实现整数转换,那么将会减少或避免浮点数比较运算。这一优点在使用决策树作为基分类器的集成模型中更为明显。
由此可见,本发明提供一种基于FPGA的决策树模型中的浮点数离散化方法。通过离散化浮点数阈值,将其转换为整数,从而消除决策树模型中的浮点数。这种方法不改变分类器的分类结果,并且可以有效的减少在FPGA上实现时所需的存储空间与计算资源。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.基于FPGA的决策树模型中的浮点数离散化方法,其特征在于,包括以下步骤:
第一步,离散化决策树模型中的浮点数阈值;记输入为含有浮点数阈值的决策树模型T;样本的连续属性集为F,属性集F大小为M,M为自然数;Fi表示第i个属性,Fi对应的阈值列表为Li,i∈{0,...,M};
第二步,离散化待分类样本的浮点数特征,即对输入的待分类样本的浮点数特征,根据离散化后的阈值列表进行转换,得到样本离散化后的整数特征向量;
第三步,基于层级流水的决策树加速模型分类识别。
2.如权利要求1所述的基于FPGA的决策树模型中的浮点数离散化方法,其特征在于,所述第一步离散化决策树模型中的浮点数阈值具体步骤为:
步骤1.1构建阈值列表;方法为:
对每个连续属性Fi,遍历决策树模型T中使用连续属性Fi的所有中间节点,并将对应的阈值添加至Fi的阈值列表Li中,阈值列表中的阈值从小到大排列;
步骤1.2离散化阈值;方法为:
对于每个阈值列表Li中的阈值,按照其在列表中的下标转换为对应的奇数;即当阈值下标为j时,对应的奇数为1+2*j,j为大于等于0的整数;
步骤1.3决策树模型转换,即将决策树模型T中的浮点数阈值按照步骤1.2离散化后的阈值转换为对应的整数值,生成不包含浮点数阈值的决策树模型。
3.如权利要求1所述的基于FPGA的决策树模型中的浮点数离散化方法,其特征在于,所述第二步离散化待分类样本的浮点数特征,具体方法为:对于浮点数类型属性Fi,设其值为x,在浮点数阈值列表Li中查找其值x所在的下标k,并使得x小于等于k位置的阈值,大于k-1位置的阈值,则x对应的整数值为2*k。
4.如权利要求1所述的基于FPGA的决策树模型中的浮点数离散化方法,其特征在于,所述第三步基于层级流水的决策树加速模型分类识别,步骤如下:
步骤3.1构建基于层级流水的决策树分类加速模型,基于层级流水的决策树分类加速模型中,决策树的每层是一个独立的处理单元,具有独立的存储与计算资源;每层包含节点存储和输入/输出缓冲存储两种存储;
步骤3.2将第二步得到的离散化后的整数特征向量送入在FPGA平台上实现的基于层级流水的决策树分类加速模型,得到待分类样本的分类结果。
5.如权利要求3所述的基于FPGA的决策树模型中的浮点数离散化方法,其特征在于,所述第二步中,对于浮点数类型属性Fi,在浮点数阈值列表Li中使用二分查找获得其值x所在的下标k。
6.如权利要求4所述的基于FPGA的决策树模型中的浮点数离散化方法,其特征在于,所述步骤3.1中,节点存储用来存储该层的中间节点信息,叶子节点的类别信息直接保存在其分支节点地址域中,并设置对应的标记位;节点存储包含特征号,阈值,左分支地址或标签,右分支地址或标签,左叶子节点标记位,右叶子节点标记位;输入/输出缓冲存储用来保存该层样本的输入与输出,从而保证每层可以同时处理不同的样本;输入/输出缓冲保存待检测样本的节点地址及待检测样本的特征向量及标签域。
7.如权利要求6所述的基于FPGA的决策树模型中的浮点数离散化方法,其特征在于,所述特征号FeatureId域所需的位数与特征个数相关,若特征个数为N,则该域需log2N位;Threshold与阈值范围及类型有关,若需表示浮点数,需32位;分支地址域则与下一层节点个数及类别个数有关;若下层节点个数为M,类别个数为K,则每层分支地址域最小为max(log2M,log2K),max()为取大函数,即从log2M和log2K中取大者。
CN201810820317.8A 2018-07-24 2018-07-24 基于fpga的决策树模型中的浮点数离散化方法 Active CN109086815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810820317.8A CN109086815B (zh) 2018-07-24 2018-07-24 基于fpga的决策树模型中的浮点数离散化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810820317.8A CN109086815B (zh) 2018-07-24 2018-07-24 基于fpga的决策树模型中的浮点数离散化方法

Publications (2)

Publication Number Publication Date
CN109086815A true CN109086815A (zh) 2018-12-25
CN109086815B CN109086815B (zh) 2021-08-31

Family

ID=64838498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810820317.8A Active CN109086815B (zh) 2018-07-24 2018-07-24 基于fpga的决策树模型中的浮点数离散化方法

Country Status (1)

Country Link
CN (1) CN109086815B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111224892A (zh) * 2019-12-26 2020-06-02 中国人民解放军国防科技大学 一种基于fpga随机森林模型的流量分类方法及系统
CN111563600A (zh) * 2019-02-14 2020-08-21 北京嘀嘀无限科技发展有限公司 一种用于定点转化的系统和方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203967A1 (en) * 2006-02-27 2007-08-30 Dockser Kenneth A Floating-point processor with reduced power requirements for selectable subprecision
CN102523241A (zh) * 2012-01-09 2012-06-27 北京邮电大学 基于决策树高速并行处理的网络流量在线分类方法及装置
US8650144B2 (en) * 2008-02-14 2014-02-11 Yahoo! Inc. Apparatus and methods for lossless compression of numerical attributes in rule based systems
CN103971127A (zh) * 2014-05-16 2014-08-06 华中科技大学 一种前视雷达成像海面目标关键点检测识别方法
CN106133721A (zh) * 2014-03-17 2016-11-16 微软技术许可有限责任公司 并行决策树处理器架构
CN107016708A (zh) * 2017-03-24 2017-08-04 杭州电子科技大学 一种基于深度学习的图像哈希编码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203967A1 (en) * 2006-02-27 2007-08-30 Dockser Kenneth A Floating-point processor with reduced power requirements for selectable subprecision
US8650144B2 (en) * 2008-02-14 2014-02-11 Yahoo! Inc. Apparatus and methods for lossless compression of numerical attributes in rule based systems
CN102523241A (zh) * 2012-01-09 2012-06-27 北京邮电大学 基于决策树高速并行处理的网络流量在线分类方法及装置
CN106133721A (zh) * 2014-03-17 2016-11-16 微软技术许可有限责任公司 并行决策树处理器架构
CN103971127A (zh) * 2014-05-16 2014-08-06 华中科技大学 一种前视雷达成像海面目标关键点检测识别方法
CN107016708A (zh) * 2017-03-24 2017-08-04 杭州电子科技大学 一种基于深度学习的图像哈希编码方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAREENA S.等: "Pipelined Decision Tree Classification Accelerator Implementation in FPGA (DT-CAIF)", 《IEEE TRANSACTIONS ON COMPUTERS》 *
HIROKI N.等: "A Random Forest using a Multi-valued Decision Diagram on an FPGA", 《2017 IEEE 47TH INTERNATIONAL SYMPOSIUM ON MULTIPLE-VALUED LOGIC (ISMVL)》 *
RAMANATHAN N.等: "An FPGA Implementation of Decision Tree Classification", 《2007 DESIGN, AUTOMATION & TEST IN EUROPE CONFERENCE & EXHIBITION》 *
解筱: "基于 FPGA 网络流量分类的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563600A (zh) * 2019-02-14 2020-08-21 北京嘀嘀无限科技发展有限公司 一种用于定点转化的系统和方法
CN111563600B (zh) * 2019-02-14 2024-05-10 北京嘀嘀无限科技发展有限公司 一种用于定点转化的系统和方法
CN111224892A (zh) * 2019-12-26 2020-06-02 中国人民解放军国防科技大学 一种基于fpga随机森林模型的流量分类方法及系统
CN111224892B (zh) * 2019-12-26 2023-08-01 中国人民解放军国防科技大学 一种基于fpga随机森林模型的流量分类方法及系统

Also Published As

Publication number Publication date
CN109086815B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN102289522B (zh) 一种对于文本智能分类的方法
Kong et al. An ensemble-based approach to fast classification of multi-label data streams
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN105022754A (zh) 基于社交网络的对象分类方法及装置
Le et al. Computationally efficient rule-based classification for continuous streaming data
CN104361037A (zh) 微博分类方法及装置
CN107392311A (zh) 序列切分的方法和装置
CN109086815A (zh) 基于fpga的决策树模型中的浮点数离散化方法
Kourtellis et al. Large-scale learning from data streams with apache samoa
Graham et al. Finding and visualizing graph clusters using pagerank optimization
Barroso et al. Group definition based on flow in community detection
CN105117466A (zh) 一种互联网信息筛选系统及方法
Minab et al. A new sentiment classification method based on hybrid classification in Twitter
CN104123393A (zh) 一种短信文本的分类方法和系统
Ye et al. Improvement and application of decision tree C4. 5 algorithm
Annam et al. Entropy based informative content density approach for efficient web content extraction
Yin et al. Detecting local communities within a large scale social network using mapreduce
Creusefond et al. A LexDFS-based approach on finding compact communities
Xiao et al. Cost-sensitive semi-supervised ensemble model for customer churn prediction
Yin et al. Social spammer detection: a multi-relational embedding approach
Packiam et al. A Novel Integrated Framework Based on Modular Optimization for Efficient Analytics on Twitter Big Data
Keshvani et al. A comparative study on data stream clustering algorithms
Annapoorna et al. Streaming data classification
Rennard et al. Graph auto-encoders for learning edge representations
Guo et al. Bayesian spam filtering mechanism based on decision tree of attribute set dependence in the MapReduce framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant