CN111598580A

CN111598580A - 一种基于XGBoost算法的区块链产品检测方法、系统及装置

Info

Publication number: CN111598580A
Application number: CN202010339755.XA
Authority: CN
Inventors: 黄步添; 刘振广; 焦颖颖; 周伟华; 陈建海
Original assignee: Hangzhou Yunxiang Network Technology Co Ltd
Current assignee: Hangzhou Yunxiang Network Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-28

Abstract

本发明公开了一种基于XGBoost算法的区块链产品检测方法、系统及装置。首先爬取区块链产品特征属性数据，并对所述区块链产品贴标签，作为XGBoost区块链检测模型的训练样本集；其次根据所述区块链产品相关特征属性数据预处理训练样本集；然后训练区块链产品检测的XGBoost模型树；最后输入需要检测的区块链产品的特征属性，测试XGBoost模型。本发明的基于XGBoost算法的区块链产品检测方法可以实现高效、准确地判别区块链产品是否为欺诈产品的功能。

Description

一种基于XGBoost算法的区块链产品检测方法、系统及装置

技术领域

本发明属于区块链技术领域，具体涉及区块链产品交易市场中存在的一些欺诈性区块链产品的检测，尤其涉及一种基于XGBoost算法的区块链产品检测方法、系统及装置。

背景技术

区块链是近十年来互联网与信息技术领域出现的伟大创新，其去中心、避免人为干预、降低成本、提升协同效率等技术优势和广阔应用前景，引发了社会持续而广泛的关注。

对区块链市场进行排查整顿是减少、杜绝区块链产品欺诈事件发生的最有效的手段。但由于一方面区块链技术门槛较高，区块链产品数量巨大、类型繁多，缺乏相应技术手段对区块链产品进行检测、排查；另一方面互联网技术使世界变为地球村，各种交易平台和区块链产品遍布于世界的各个角落，增加了监控的难度。目前亟待提出一种检测方法对区块链产品进行判别、检测。

XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升，XGBoost算法属于机器学习中的集成学习方法，指将多个学习模型组合，以获得更好的效果，使组合后的模型具有更强的泛化能力。XGBoost算法思想就是根据特征分裂来生长一棵树，并不断地添加树，每次添加一个树，其实是去拟合上次预测的残差从而得到新函数，逐次迭代来提高模型性能。当我们训练完成得到k棵树，我们要预测一个样本的分数。它会根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

本发明结合能反映区块链产品的相关特征属性和XGBoost算法提出一种基于XGBoost算法的区块链产品检测方法，该方法可以根据区块链产品的相关特征属性对区块链产品进行可信与非可信的判别，提高了区块链产品检测的效率和准确率，为区块链产品的监管提供了技术支持。

发明内容

本发明基于上述背景和现有技术所存在的问题，拟设计一种基于XGBoost算法的区块链产品检测方法、系统及装置，其能够根据区块链产品的相关特征属性对区块链产品进行可信与非可信的判别。

为了实现本发明的这些目的和其它优点，提供了一种基于XGBoost算法的区块链产品检测方法，所述区块链产品为区块链技术为底层技术的可以带来商业利益的实体和虚拟的产品，其步骤包括：

爬取互联网上区块链产品相关数据，并对所述区块链产品贴标签，根据区块链产品与欺诈属性的相互关系，提取区块链产品的相关特征属性，作为XGBoost区块链检测模型的训练样本集；

对上述爬取的区块链产品特征属性数据进行数据预处理，得到数值化训练样本集；

将所述数值化训练样本集输入利用XGBoost算法搭建的学习机器，训练区块链产品检测的XGBoost模型树；

作为一种可实施方式，所述训练区块链产品检测的XGBoost模型树，具体是从给定的区块链产品训练集构造出来一棵由特征信息组成的决策树，决策树从根节点开始选择特征，选取分裂点进行特征切分。

作为一种可实施方式，所述提取区块链产品的相关特征属性具体包括：

区块链产品公司信息公开度、区块链产品公司官网信息是否失真、区块链产品公司员工人数、区块链产品研发团队人数、区块链产品白皮书是否存在技术支撑、区块链产品白皮书内容完整度、区块链产品代码在Github是否开源、区块链产品代码更新次数、区块链代码最后更新时间、区块链产品代币比例信息、区块链产品 ICO时长、区块链产品购买门槛、区块链产品交易所日均交易量、区块链产品交易月价格波动、区块链产品交易周价格波动、区块链产品交易当前价格以及区块链产品系统宕机频率。

作为一种可实施方式，所述对上述爬取互联网上区块链产品特征属性数据进行数据预处理，具体包括：

对所述训练样本集的区块链产品特征信息进行数值化处理；

查看训练样本集中是否存在缺失值，对训练样本集中缺失值进行处理；

对处理后的训练样本集进行对数变换，改善训练样本数据均值分布的不对称性；

通过绘制数值型特征的直方图来分析它们服从的分布，以及绘制热度图可视化特征之间的相关性；

将所述区块链产品特征属性数据分成连续特征和离散特征。

作为一种可实施方式，所述对训练样本集中缺失值进行处理，具体为：

将缺失值记作稀疏矩阵，缺失值数据被分到稀疏矩阵的左子树和右子树中并分别计层损失，并选择损失值最小的分配方式。

作为一种可实施方式，所述训练区块链产品检测的XGBoost模型树，具体包括：

训练基本的初级XGBoost模型；

在初级XGBoost模型参数的基础上进行参数调整、优化模型，通过交叉验证观察结果的变换，使用平均绝对误差衡量参数调节的优劣，得到最终的模型参数，基于参数得到XGBoost模型树。

作为一种可实施方式，在初级XGBoost模型参数的基础上进行参数调整、优化模型，还包括：调节树的深度与节点权重，包括改变构建树的深度max_depth，其越大越容易过拟合，和最小叶子节点权重min_child_weight，如果树分区中的实例权重小于定义的总和，则停止树构建过程；调节惩罚系数gamma降低模型过拟合风险；调节学习率eta，即降低学习速度，同时增加更多的估计量。

作为一种可实施方式，所述利用所述区块链产品检测的XGBoost模型树对区块链产品进行检测，具体包括：在互联网上爬取区块链产品测试集，对测试集中样本进行贴标签，根据训练得到的树模型，将进行判别检测的区块链产品特征信息输入决策树，即从决策树上到下遍历得到此决策树判别结果，根据测试结果与标签进行比对判别模型的正确率。

一种基于XGBoost算法的区块链产品检测系统，包括数据采集模块、数据预处理模块、模型树训练模块及产品检测模块；

所述数据采集模块，用于爬取互联网上区块链产品相关数据，并对所述区块链产品贴标签，根据区块链产品与欺诈属性的相互关系，提取区块链产品的相关特征属性，作为XGBoost区块链检测模型的训练样本集；

所述数据预处理模块，用于对上述爬取的区块链产品特征属性数据进行数据预处理，得到数值化训练样本集；

所述模型树训练模块，用于将所述数值化训练样本集输入利用XGBoost算法搭建的学习机器，训练区块链产品检测的XGBoost模型树；

所述产品检测模块，用于利用所述区块链产品检测的XGBoost模型树对区块链产品进行检测。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以上所述的任意一项的方法步骤。

一种基于XGBoost算法的区块链产品检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以上所述的任意一项的方法步骤。

本发明至少包括以下有益效果：

1、本发明提出一种基于XGBoost算法的区块链产品检测方法、系统及装置，为区块链产品可信不可信提供了有效判别手段，作为有力监控手段从源头筛选，减少以区块链产品为幌子实施诈骗的事件。

2、本发明以区块链产品的相关特征属性作为训练的特征属性，具有判别的一定参考性，同时具有很好的扩展性。

3、本发明提出以XGBoost算法训练区块链产品检测模型，XGBoost正则化、使用损失函数的一阶导数和二阶导数、并行优化等特点，不仅降低防止过拟合，还提高了模型判别的准确率和训练效率。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明基于XGBoost算法训练流程图。

图2为本发明的部分训练样本特征属性相互关系树模型。

具体实施方式

为了清晰地阐述本发明，使本发明实施例的目的、技术方案和优点更加清楚，下面结合了本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，以令本领域技术人员参照说明书文字能够据以实施。下面将附图结合具体实施方式对本发明的技术加以详细说明。

本发明在训练区块链产品检测的XGBoost模型树时通过信息增益对节点进行选择，即切分特征，其中，信息增益表示特征X使得类Y的不确定性减少的程度。

XGBoost算法是学习一个树集成模型，它使用的是K(树的总数为K)个树的每棵树对样本的预测值的和作为该样本在XGBoost系统中的预测，定义预测值函数如下：

对于所有的数据集有n个样本，m个特征，定义为：

其中x_i表示第i个样本，y_i表示第i个样本的类别标签。决策树的空间为

如下：

其中q表示每棵树的结构映射每个样本到相应的叶节点的分数，即q表示树的模型，输入一个样本，根据模型将样本映射到叶节点输出预测的分数；Wq(x)表示树q的所有叶节点的分数组成集合；T是树q的叶节点数量。所以由(1)式可以看出， XGBoost的预测值为每棵树的预测值之和，即每棵树相应的树节点的得分之和(W_i的和，W_i表示第i个叶节点的得分)。学习训练的目标为学习这样的K个树模型f(x)，则定义目标函数：

其中，

表示模型的预测值，y_i表示第i个样本的类别标签，k表示树的数量，f_k表示第k棵树模型，T表示每棵树的叶子节点数量，w表示每棵树的叶子节点的分数组成的集合，γ和λ表示系数。(2)式右边第一项为损失函数项，即训练误差，是一个可微的凸函数，第二项为正则化项，即每棵树的复杂度之和，目的是控制模型的复杂度，防止过拟合。XGBoost训练目标是在

取得最小化时得出对应的模型 f(x)。

XGBoost模型中的优化参数是模型f(x)，不是具体的值，所以不能采用传统的优化方法，而是采用集成算法的方式训练模型。集成算法中每次保留元的模型不变，加入一个新的函数f到模型中，如下：

…

其中，f₁(x_i)为第一棵树，f₂(x_i)为第二棵树，

为第t轮的模型预测，

为第t轮的模型预测，

保留前面t-1轮的模型预测，f_t(x_i)加入一个新的函数。

预测值在每一次迭代中加入一个新的函数f目的是使目标函数尽量最大第降低。由于目标使最小化

时得到模型f(x)，将集成算法中最后一式带入

中可得到：

XGBoost算法采用泰勒展开式来定义一个近似的目标函数，完成二分类模型的进一步计算。经过化简得到:

代表了每棵树要优化的最终目标，应该越小越好，前面是得到了t-1个函数模型树。

二分类问题，得到树模型后，输入一个原始数据，经过n个数打分，残差相加，得到的数值要经过logictic function映射，然后得到0～1之间的概率值，即预测值。

本发明利用快速、准确的XGBoost算法训练区块链产品检测模型，XGBoost 算法属于集成学习(ensemble learning)从概念上讲，它并不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。其中图1为基于 XGBoost算法训练流程图，首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。

XGBoost是训练一种简单高效并且具有强解释性的决策树模型，其本质是一颗由多个判断节点组成的树，在使用模型进行预测时，根据输入参数依次在各个判断节点进行判断游走，最后到叶子节点即为预测结果。其中，树形模型是一个特征进行处理。决策树与逻辑回归的分类区别也在于此，逻辑回归是将所有特征变换为概率后，通过大于某一概率阈值的划分为一类，小于某一概率阈值的为另一类；而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征X 与logit之间是线性的，除非对X进行多维映射)，而决策树可以找到非线性分割。而树形模型更加接近人的思维方式，可以产生可视化的分类规则，产生的模型具有可解释性(可以抽取规则)。树模型拟合出来的函数其实是分区间的阶梯函数。其次，需要了解几个重要的基本概念：根节点(最重要的特征)；父节点与子节点是一对，先有父节点，才会有子节点；叶节点(最终标签)；决策树是根节点开始一步步走到叶子节点(决策)。

图2为本发明的部分训练样本特征属性相互关系树模型，如图中首先对产品1、产品2、产品3、产品4进行判断区块链产品代码是否在Github中开源，产品1没有，分到左子树，产品2、产品3、产品4、产品5分到右子树进入下一层；判断产品代码在Github更新平均频率是否小于M月，产品4不满足分到左子树，产品 2、产品3、产品5分到右子树进入下一层；判断区块链产品代码在Github最后更新时间是否小于N个月，产品2不满足分到左子树，产品3、产品5满足分到右子树。XGBoost算法训练过程本质上就是从给定的训练集构造出来一棵树(从跟节点开始选择特征,如何进行特征切分)。

如上所述，根据本发明提出的特征属性，利用XGBoost算法对训练样本进行学习，得到一个决策树模型，由于训练得到的XGBoost模型具有判别区块链产品是否为欺诈性产品的功能，因此具有对区块链产品进行预判、检测的效果。

实施例2：

本发明还公开一种基于XGBoost算法的区块链产品检测系统，包括数据采集模块、数据预处理模块、模型树训练模块及产品检测模块；

实施例3：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以上所述的任意一项的方法步骤。

实施例4：

一种基于XGBoost算法的区块链产品检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以上所述的任意一项的方法步骤

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于XGBoost算法的区块链产品检测方法，其特征在于，其步骤包括：

利用所述区块链产品检测的XGBoost模型树对区块链产品进行检测。

2.根据权利要求1所述基于XGBoost算法的区块链产品检测方法，其特征在于，所述训练区块链产品检测的XGBoost模型树，具体是从给定的区块链产品训练集构造出来一棵由特征信息组成的决策树，决策树从根节点开始选择特征，选取分裂点进行特征切分。

3.根据权利要求1所述基于XGBoost算法的区块链产品检测方法，其特征在于，所述提取区块链产品的相关特征属性具体包括：

区块链产品公司信息公开度、区块链产品公司官网信息是否失真、区块链产品公司员工人数、区块链产品研发团队人数、区块链产品白皮书是否存在技术支撑、区块链产品白皮书内容完整度、区块链产品代码在Github是否开源、区块链产品代码更新次数、区块链代码最后更新时间、区块链产品代币比例信息、区块链产品ICO时长、区块链产品购买门槛、区块链产品交易所日均交易量、区块链产品交易月价格波动、区块链产品交易周价格波动、区块链产品交易当前价格以及区块链产品系统宕机频率。

4.根据权利要求1所述基于XGBoost算法的区块链产品检测方法，其特征在于，所述对上述爬取互联网上区块链产品特征属性数据进行数据预处理，具体包括：

对所述训练样本集的区块链产品特征信息进行数值化处理；

查看训练样本集中是否存在缺失值，对训练样本集中缺失值进行处理，即，将缺失值记作稀疏矩阵，缺失值数据被分到稀疏矩阵的左子树和右子树中并分别计层损失，并选择损失值最小的分配方式；

通过绘制数值型特征的直方图分析特之间服从的分布，以及绘制热度图可视化特征之间的相关性；

将所述区块链产品特征属性数据分成连续特征和离散特征。

5.根据权利要求1所述基于XGBoost算法的区块链产品检测方法，其特征在于，所述训练区块链产品检测的XGBoost模型树，具体包括：

训练基本的初级XGBoost模型；

6.根据权利要求5所述基于XGBoost算法的区块链产品检测方法，其特征在于，在初级XGBoost模型参数的基础上进行参数调整、优化模型，还包括：调节树的深度与节点权重，包括改变构建树的深度max_depth，其越大越容易过拟合，和最小叶子节点权重min_child_weight，如果树分区中的实例权重小于定义的总和，则停止树构建过程；调节惩罚系数gamma降低模型过拟合风险；调节学习率eta，即降低学习速度，同时增加更多的估计量。

7.根据权利要求1所述基于XGBoost算法的区块链产品检测方法，其特征在于，所述利用所述区块链产品检测的XGBoost模型树对区块链产品进行检测，具体包括：在互联网上爬取区块链产品测试集，对测试集中样本进行贴标签，根据训练得到的树模型，将进行判别检测的区块链产品特征信息输入决策树，即从决策树上到下遍历得到此决策树判别结果，根据测试结果与标签进行比对判别模型的正确率。

8.一种基于XGBoost算法的区块链产品检测系统，其特征在于，包括数据采集模块、数据预处理模块、模型树训练模块及产品检测模块；

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7所述的任意一项的方法步骤。

10.一种基于XGBoost算法的区块链产品检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7所述的任意一项的方法步骤。