CN111598580A - 一种基于XGBoost算法的区块链产品检测方法、系统及装置 - Google Patents

一种基于XGBoost算法的区块链产品检测方法、系统及装置 Download PDF

Info

Publication number
CN111598580A
CN111598580A CN202010339755.XA CN202010339755A CN111598580A CN 111598580 A CN111598580 A CN 111598580A CN 202010339755 A CN202010339755 A CN 202010339755A CN 111598580 A CN111598580 A CN 111598580A
Authority
CN
China
Prior art keywords
block chain
product
tree
xgboost
blockchain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010339755.XA
Other languages
English (en)
Inventor
黄步添
刘振广
焦颖颖
周伟华
陈建海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yunxiang Network Technology Co Ltd
Original Assignee
Hangzhou Yunxiang Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yunxiang Network Technology Co Ltd filed Critical Hangzhou Yunxiang Network Technology Co Ltd
Priority to CN202010339755.XA priority Critical patent/CN111598580A/zh
Publication of CN111598580A publication Critical patent/CN111598580A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • G06K17/0022Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device
    • G06K17/0029Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device the arrangement being specially adapted for wireless interrogation of grouped or bundled articles tagged with wireless record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于XGBoost算法的区块链产品检测方法、系统及装置。首先爬取区块链产品特征属性数据,并对所述区块链产品贴标签,作为XGBoost区块链检测模型的训练样本集;其次根据所述区块链产品相关特征属性数据预处理训练样本集;然后训练区块链产品检测的XGBoost模型树;最后输入需要检测的区块链产品的特征属性,测试XGBoost模型。本发明的基于XGBoost算法的区块链产品检测方法可以实现高效、准确地判别区块链产品是否为欺诈产品的功能。

Description

一种基于XGBoost算法的区块链产品检测方法、系统及装置
技术领域
本发明属于区块链技术领域,具体涉及区块链产品交易市场中存在的一些欺诈性区块链产品的检测,尤其涉及一种基于XGBoost算法的区块链产品检测方法、 系统及装置。
背景技术
区块链是近十年来互联网与信息技术领域出现的伟大创新,其去中心、避免人 为干预、降低成本、提升协同效率等技术优势和广阔应用前景,引发了社会持续而 广泛的关注。
对区块链市场进行排查整顿是减少、杜绝区块链产品欺诈事件发生的最有效的手段。但由于一方面区块链技术门槛较高,区块链产品数量巨大、类型繁多,缺乏 相应技术手段对区块链产品进行检测、排查;另一方面互联网技术使世界变为地球 村,各种交易平台和区块链产品遍布于世界的各个角落,增加了监控的难度。目前 亟待提出一种检测方法对区块链产品进行判别、检测。
XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,XGBoost算法属 于机器学习中的集成学习方法,指将多个学习模型组合,以获得更好的效果,使组 合后的模型具有更强的泛化能力。XGBoost算法思想就是根据特征分裂来生长一棵 树,并不断地添加树,每次添加一个树,其实是去拟合上次预测的残差从而得到新 函数,逐次迭代来提高模型性能。当我们训练完成得到k棵树,我们要预测一个样 本的分数。它会根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每 个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的 预测值。
本发明结合能反映区块链产品的相关特征属性和XGBoost算法提出一种基于XGBoost算法的区块链产品检测方法,该方法可以根据区块链产品的相关特征属性 对区块链产品进行可信与非可信的判别,提高了区块链产品检测的效率和准确率, 为区块链产品的监管提供了技术支持。
发明内容
本发明基于上述背景和现有技术所存在的问题,拟设计一种基于XGBoost算 法的区块链产品检测方法、系统及装置,其能够根据区块链产品的相关特征属性对 区块链产品进行可信与非可信的判别。
为了实现本发明的这些目的和其它优点,提供了一种基于XGBoost算法的区 块链产品检测方法,所述区块链产品为区块链技术为底层技术的可以带来商业利益 的实体和虚拟的产品,其步骤包括:
爬取互联网上区块链产品相关数据,并对所述区块链产品贴标签,根据区块链 产品与欺诈属性的相互关系,提取区块链产品的相关特征属性,作为XGBoost区 块链检测模型的训练样本集;
对上述爬取的区块链产品特征属性数据进行数据预处理,得到数值化训练样本集;
将所述数值化训练样本集输入利用XGBoost算法搭建的学习机器,训练区块 链产品检测的XGBoost模型树;
作为一种可实施方式,所述训练区块链产品检测的XGBoost模型树,具体是 从给定的区块链产品训练集构造出来一棵由特征信息组成的决策树,决策树从根节 点开始选择特征,选取分裂点进行特征切分。
作为一种可实施方式,所述提取区块链产品的相关特征属性具体包括:
区块链产品公司信息公开度、区块链产品公司官网信息是否失真、区块链产品 公司员工人数、区块链产品研发团队人数、区块链产品白皮书是否存在技术支撑、 区块链产品白皮书内容完整度、区块链产品代码在Github是否开源、区块链产品 代码更新次数、区块链代码最后更新时间、区块链产品代币比例信息、区块链产品 ICO时长、区块链产品购买门槛、区块链产品交易所日均交易量、区块链产品交易 月价格波动、区块链产品交易周价格波动、区块链产品交易当前价格以及区块链产 品系统宕机频率。
作为一种可实施方式,所述对上述爬取互联网上区块链产品特征属性数据进行数据预处理,具体包括:
对所述训练样本集的区块链产品特征信息进行数值化处理;
查看训练样本集中是否存在缺失值,对训练样本集中缺失值进行处理;
对处理后的训练样本集进行对数变换,改善训练样本数据均值分布的不对称性;
通过绘制数值型特征的直方图来分析它们服从的分布,以及绘制热度图可视化特征之间的相关性;
将所述区块链产品特征属性数据分成连续特征和离散特征。
作为一种可实施方式,所述对训练样本集中缺失值进行处理,具体为:
将缺失值记作稀疏矩阵,缺失值数据被分到稀疏矩阵的左子树和右子树中并分别计层损失,并选择损失值最小的分配方式。
作为一种可实施方式,所述训练区块链产品检测的XGBoost模型树,具体包 括:
训练基本的初级XGBoost模型;
在初级XGBoost模型参数的基础上进行参数调整、优化模型,通过交叉验证 观察结果的变换,使用平均绝对误差衡量参数调节的优劣,得到最终的模型参数, 基于参数得到XGBoost模型树。
作为一种可实施方式,在初级XGBoost模型参数的基础上进行参数调整、优 化模型,还包括:调节树的深度与节点权重,包括改变构建树的深度max_depth, 其越大越容易过拟合,和最小叶子节点权重min_child_weight,如果树分区中的实 例权重小于定义的总和,则停止树构建过程;调节惩罚系数gamma降低模型过拟 合风险;调节学习率eta,即降低学习速度,同时增加更多的估计量。
作为一种可实施方式,所述利用所述区块链产品检测的XGBoost模型树对区 块链产品进行检测,具体包括:在互联网上爬取区块链产品测试集,对测试集中样 本进行贴标签,根据训练得到的树模型,将进行判别检测的区块链产品特征信息输 入决策树,即从决策树上到下遍历得到此决策树判别结果,根据测试结果与标签进 行比对判别模型的正确率。
一种基于XGBoost算法的区块链产品检测系统,包括数据采集模块、数据预 处理模块、模型树训练模块及产品检测模块;
所述数据采集模块,用于爬取互联网上区块链产品相关数据,并对所述区块链 产品贴标签,根据区块链产品与欺诈属性的相互关系,提取区块链产品的相关特征 属性,作为XGBoost区块链检测模型的训练样本集;
所述数据预处理模块,用于对上述爬取的区块链产品特征属性数据进行数据预处理,得到数值化训练样本集;
所述模型树训练模块,用于将所述数值化训练样本集输入利用XGBoost算法 搭建的学习机器,训练区块链产品检测的XGBoost模型树;
所述产品检测模块,用于利用所述区块链产品检测的XGBoost模型树对区块 链产品进行检测。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述 计算机程序被处理器执行时实现以上所述的任意一项的方法步骤。
一种基于XGBoost算法的区块链产品检测装置,包括存储器、处理器以及存 储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计 算机程序时实现以上所述的任意一项的方法步骤。
本发明至少包括以下有益效果:
1、本发明提出一种基于XGBoost算法的区块链产品检测方法、系统及装置, 为区块链产品可信不可信提供了有效判别手段,作为有力监控手段从源头筛选,减 少以区块链产品为幌子实施诈骗的事件。
2、本发明以区块链产品的相关特征属性作为训练的特征属性,具有判别的一 定参考性,同时具有很好的扩展性。
3、本发明提出以XGBoost算法训练区块链产品检测模型,XGBoost正则化、 使用损失函数的一阶导数和二阶导数、并行优化等特点,不仅降低防止过拟合,还 提高了模型判别的准确率和训练效率。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对 本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明基于XGBoost算法训练流程图。
图2为本发明的部分训练样本特征属性相互关系树模型。
具体实施方式
为了清晰地阐述本发明,使本发明实施例的目的、技术方案和优点更加清楚, 下面结合了本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,以令本领域技术人员参照说明书文字能够据以实施。下面将附图结合具体 实施方式对本发明的技术加以详细说明。
本发明在训练区块链产品检测的XGBoost模型树时通过信息增益对节点进行 选择,即切分特征,其中,信息增益表示特征X使得类Y的不确定性减少的程度。
XGBoost算法是学习一个树集成模型,它使用的是K(树的总数为K)个树的 每棵树对样本的预测值的和作为该样本在XGBoost系统中的预测,定义预测值函 数如下:
Figure BDA0002467925450000061
对于所有的数据集有n个样本,m个特征,定义为:
Figure BDA0002467925450000062
其中xi表示第i个样本,yi表示第i个样本的类别标签。决策树的空间为
Figure BDA0002467925450000063
如 下:
Figure BDA0002467925450000064
其中q表示每棵树的结构映射每个样本到相应的叶节点的分数,即q表示树的 模型,输入一个样本,根据模型将样本映射到叶节点输出预测的分数;Wq(x)表示 树q的所有叶节点的分数组成集合;T是树q的叶节点数量。所以由(1)式可以看出, XGBoost的预测值为每棵树的预测值之和,即每棵树相应的树节点的得分之和(Wi的和,Wi表示第i个叶节点的得分)。学习训练的目标为学习这样的K个树模型f(x), 则定义目标函数:
Figure BDA0002467925450000071
Figure BDA0002467925450000072
其中,
Figure BDA0002467925450000073
表示模型的预测值,yi表示第i个样本的类别标签,k表示树的数量,fk表示第k棵树模型,T表示每棵树的叶子节点数量,w表示每棵树的叶子节点的分数 组成的集合,γ和λ表示系数。(2)式右边第一项为损失函数项,即训练误差,是一 个可微的凸函数,第二项为正则化项,即每棵树的复杂度之和,目的是控制模型的 复杂度,防止过拟合。XGBoost训练目标是在
Figure BDA0002467925450000074
取得最小化时得出对应的模型 f(x)。
XGBoost模型中的优化参数是模型f(x),不是具体的值,所以不能采用传统的 优化方法,而是采用集成算法的方式训练模型。集成算法中每次保留元的模型不变, 加入一个新的函数f到模型中,如下:
Figure BDA0002467925450000075
Figure BDA0002467925450000077
Figure BDA0002467925450000078
其中,f1(xi)为第一棵树,f2(xi)为第二棵树,
Figure BDA0002467925450000079
为第t轮的模型预测,
Figure BDA00024679254500000710
为 第t轮的模型预测,
Figure BDA0002467925450000081
保留前面t-1轮的模型预测,ft(xi)加入一个新的函数。
预测值在每一次迭代中加入一个新的函数f目的是使目标函数尽量最大第降低。由于目标使最小化
Figure BDA0002467925450000082
时得到模型f(x),将集成算法中最后一式带入
Figure BDA0002467925450000083
中可得到:
Figure BDA0002467925450000084
XGBoost算法采用泰勒展开式来定义一个近似的目标函数,完成二分类模型的 进一步计算。经过化简得到:
Figure BDA0002467925450000085
Figure BDA0002467925450000086
Figure BDA0002467925450000087
Figure BDA0002467925450000088
代表了每棵树要优化的最终目标,应该越小越好,前面是得到了t-1个函 数模型树。
二分类问题,得到树模型后,输入一个原始数据,经过n个数打分,残差相加, 得到的数值要经过logictic function映射,然后得到0~1之间的概率值,即预测值。
本发明利用快速、准确的XGBoost算法训练区块链产品检测模型,XGBoost 算法属于集成学习(ensemble learning)从概念上讲,它并不是一个单独的机器学习 算法,而是通过构建并结合多个机器学习器来完成学习任务。其中图1为基于 XGBoost算法训练流程图,首先从训练集用初始权重训练出一个弱学习器1,根据 弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率 高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更 多的重视。然后基于调整权重后的训练集来训练弱学习器2,如此重复进行,直到 弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合, 得到最终的强学习器。
XGBoost是训练一种简单高效并且具有强解释性的决策树模型,其本质是一颗 由多个判断节点组成的树,在使用模型进行预测时,根据输入参数依次在各个判断 节点进行判断游走,最后到叶子节点即为预测结果。其中,树形模型是一个特征进 行处理。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概 率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决 策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征X 与logit之间是线性的,除非对X进行多维映射),而决策树可以找到非线性分割。 而树形模型更加接近人的思维方式,可以产生可视化的分类规则,产生的模型具有 可解释性(可以抽取规则)。树模型拟合出来的函数其实是分区间的阶梯函数。其 次,需要了解几个重要的基本概念:根节点(最重要的特征);父节点与子节点是 一对,先有父节点,才会有子节点;叶节点(最终标签);决策树是根节点开始一步步走到叶子节点(决策)。
图2为本发明的部分训练样本特征属性相互关系树模型,如图中首先对产品1、 产品2、产品3、产品4进行判断区块链产品代码是否在Github中开源,产品1没 有,分到左子树,产品2、产品3、产品4、产品5分到右子树进入下一层;判断 产品代码在Github更新平均频率是否小于M月,产品4不满足分到左子树,产品 2、产品3、产品5分到右子树进入下一层;判断区块链产品代码在Github最后更 新时间是否小于N个月,产品2不满足分到左子树,产品3、产品5满足分到右子 树。XGBoost算法训练过程本质上就是从给定的训练集构造出来一棵树(从跟节点 开始选择特征,如何进行特征切分)。
如上所述,根据本发明提出的特征属性,利用XGBoost算法对训练样本进行 学习,得到一个决策树模型,由于训练得到的XGBoost模型具有判别区块链产品 是否为欺诈性产品的功能,因此具有对区块链产品进行预判、检测的效果。
实施例2:
本发明还公开一种基于XGBoost算法的区块链产品检测系统,包括数据采集 模块、数据预处理模块、模型树训练模块及产品检测模块;
所述数据采集模块,用于爬取互联网上区块链产品相关数据,并对所述区块链 产品贴标签,根据区块链产品与欺诈属性的相互关系,提取区块链产品的相关特征 属性,作为XGBoost区块链检测模型的训练样本集;
所述数据预处理模块,用于对上述爬取的区块链产品特征属性数据进行数据预处理,得到数值化训练样本集;
所述模型树训练模块,用于将所述数值化训练样本集输入利用XGBoost算法 搭建的学习机器,训练区块链产品检测的XGBoost模型树;
所述产品检测模块,用于利用所述区块链产品检测的XGBoost模型树对区块 链产品进行检测。
实施例3:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特 征在于,所述计算机程序被处理器执行时实现以上所述的任意一项的方法步骤。
实施例4:
一种基于XGBoost算法的区块链产品检测装置,包括存储器、处理器以及存 储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计 算机程序时实现以上所述的任意一项的方法步骤
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单, 相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机 程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和 硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可 用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储 器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流 程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图 中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。 可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编 程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据 处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指 令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此 说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限 于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改 都应该在本发明的保护范围之内。

Claims (10)

1.一种基于XGBoost算法的区块链产品检测方法,其特征在于,其步骤包括:
爬取互联网上区块链产品相关数据,并对所述区块链产品贴标签,根据区块链产品与欺诈属性的相互关系,提取区块链产品的相关特征属性,作为XGBoost区块链检测模型的训练样本集;
对上述爬取的区块链产品特征属性数据进行数据预处理,得到数值化训练样本集;
将所述数值化训练样本集输入利用XGBoost算法搭建的学习机器,训练区块链产品检测的XGBoost模型树;
利用所述区块链产品检测的XGBoost模型树对区块链产品进行检测。
2.根据权利要求1所述基于XGBoost算法的区块链产品检测方法,其特征在于,所述训练区块链产品检测的XGBoost模型树,具体是从给定的区块链产品训练集构造出来一棵由特征信息组成的决策树,决策树从根节点开始选择特征,选取分裂点进行特征切分。
3.根据权利要求1所述基于XGBoost算法的区块链产品检测方法,其特征在于,所述提取区块链产品的相关特征属性具体包括:
区块链产品公司信息公开度、区块链产品公司官网信息是否失真、区块链产品公司员工人数、区块链产品研发团队人数、区块链产品白皮书是否存在技术支撑、区块链产品白皮书内容完整度、区块链产品代码在Github是否开源、区块链产品代码更新次数、区块链代码最后更新时间、区块链产品代币比例信息、区块链产品ICO时长、区块链产品购买门槛、区块链产品交易所日均交易量、区块链产品交易月价格波动、区块链产品交易周价格波动、区块链产品交易当前价格以及区块链产品系统宕机频率。
4.根据权利要求1所述基于XGBoost算法的区块链产品检测方法,其特征在于,所述对上述爬取互联网上区块链产品特征属性数据进行数据预处理,具体包括:
对所述训练样本集的区块链产品特征信息进行数值化处理;
查看训练样本集中是否存在缺失值,对训练样本集中缺失值进行处理,即,将缺失值记作稀疏矩阵,缺失值数据被分到稀疏矩阵的左子树和右子树中并分别计层损失,并选择损失值最小的分配方式;
对处理后的训练样本集进行对数变换,改善训练样本数据均值分布的不对称性;
通过绘制数值型特征的直方图分析特之间服从的分布,以及绘制热度图可视化特征之间的相关性;
将所述区块链产品特征属性数据分成连续特征和离散特征。
5.根据权利要求1所述基于XGBoost算法的区块链产品检测方法,其特征在于,所述训练区块链产品检测的XGBoost模型树,具体包括:
训练基本的初级XGBoost模型;
在初级XGBoost模型参数的基础上进行参数调整、优化模型,通过交叉验证观察结果的变换,使用平均绝对误差衡量参数调节的优劣,得到最终的模型参数,基于参数得到XGBoost模型树。
6.根据权利要求5所述基于XGBoost算法的区块链产品检测方法,其特征在于,在初级XGBoost模型参数的基础上进行参数调整、优化模型,还包括:调节树的深度与节点权重,包括改变构建树的深度max_depth,其越大越容易过拟合,和最小叶子节点权重min_child_weight,如果树分区中的实例权重小于定义的总和,则停止树构建过程;调节惩罚系数gamma降低模型过拟合风险;调节学习率eta,即降低学习速度,同时增加更多的估计量。
7.根据权利要求1所述基于XGBoost算法的区块链产品检测方法,其特征在于,所述利用所述区块链产品检测的XGBoost模型树对区块链产品进行检测,具体包括:在互联网上爬取区块链产品测试集,对测试集中样本进行贴标签,根据训练得到的树模型,将进行判别检测的区块链产品特征信息输入决策树,即从决策树上到下遍历得到此决策树判别结果,根据测试结果与标签进行比对判别模型的正确率。
8.一种基于XGBoost算法的区块链产品检测系统,其特征在于,包括数据采集模块、数据预处理模块、模型树训练模块及产品检测模块;
所述数据采集模块,用于爬取互联网上区块链产品相关数据,并对所述区块链产品贴标签,根据区块链产品与欺诈属性的相互关系,提取区块链产品的相关特征属性,作为XGBoost区块链检测模型的训练样本集;
所述数据预处理模块,用于对上述爬取的区块链产品特征属性数据进行数据预处理,得到数值化训练样本集;
所述模型树训练模块,用于将所述数值化训练样本集输入利用XGBoost算法搭建的学习机器,训练区块链产品检测的XGBoost模型树;
所述产品检测模块,用于利用所述区块链产品检测的XGBoost模型树对区块链产品进行检测。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7所述的任意一项的方法步骤。
10.一种基于XGBoost算法的区块链产品检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7所述的任意一项的方法步骤。
CN202010339755.XA 2020-04-26 2020-04-26 一种基于XGBoost算法的区块链产品检测方法、系统及装置 Pending CN111598580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010339755.XA CN111598580A (zh) 2020-04-26 2020-04-26 一种基于XGBoost算法的区块链产品检测方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010339755.XA CN111598580A (zh) 2020-04-26 2020-04-26 一种基于XGBoost算法的区块链产品检测方法、系统及装置

Publications (1)

Publication Number Publication Date
CN111598580A true CN111598580A (zh) 2020-08-28

Family

ID=72185563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010339755.XA Pending CN111598580A (zh) 2020-04-26 2020-04-26 一种基于XGBoost算法的区块链产品检测方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111598580A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749924A (zh) * 2021-02-01 2021-05-04 深圳无域科技技术有限公司 风控模型训练方法、系统、设备及计算机可读介质
CN114510618A (zh) * 2021-12-31 2022-05-17 安徽郎溪南方水泥有限公司 基于智慧矿山的处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665270A (zh) * 2018-04-17 2018-10-16 平安科技(深圳)有限公司 数据欺诈识别方法、装置、计算机设备和存储介质
CN109409969A (zh) * 2018-10-24 2019-03-01 仲恺农业工程学院 一种企业税务欺诈检测方法、电子设备及存储介质
CN109509040A (zh) * 2019-01-03 2019-03-22 广发证券股份有限公司 预测基金潜在客户的建模方法、营销方法及装置
CN109658245A (zh) * 2018-12-14 2019-04-19 杭州云象网络技术有限公司 基于多模混合深度学习的ico项目欺诈自动判别方法
CN109859060A (zh) * 2019-01-31 2019-06-07 泰康保险集团股份有限公司 风险确定方法、装置、介质及电子设备
CN110782008A (zh) * 2019-10-16 2020-02-11 北京百分点信息科技有限公司 深度学习模型的训练方法、预测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665270A (zh) * 2018-04-17 2018-10-16 平安科技(深圳)有限公司 数据欺诈识别方法、装置、计算机设备和存储介质
CN109409969A (zh) * 2018-10-24 2019-03-01 仲恺农业工程学院 一种企业税务欺诈检测方法、电子设备及存储介质
CN109658245A (zh) * 2018-12-14 2019-04-19 杭州云象网络技术有限公司 基于多模混合深度学习的ico项目欺诈自动判别方法
CN109509040A (zh) * 2019-01-03 2019-03-22 广发证券股份有限公司 预测基金潜在客户的建模方法、营销方法及装置
CN109859060A (zh) * 2019-01-31 2019-06-07 泰康保险集团股份有限公司 风险确定方法、装置、介质及电子设备
CN110782008A (zh) * 2019-10-16 2020-02-11 北京百分点信息科技有限公司 深度学习模型的训练方法、预测方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749924A (zh) * 2021-02-01 2021-05-04 深圳无域科技技术有限公司 风控模型训练方法、系统、设备及计算机可读介质
CN114510618A (zh) * 2021-12-31 2022-05-17 安徽郎溪南方水泥有限公司 基于智慧矿山的处理方法及装置
CN114510618B (zh) * 2021-12-31 2022-12-20 安徽郎溪南方水泥有限公司 基于智慧矿山的处理方法及装置

Similar Documents

Publication Publication Date Title
US10303979B2 (en) System and method for classifying and segmenting microscopy images with deep multiple instance learning
CA2948499C (en) System and method for classifying and segmenting microscopy images with deep multiple instance learning
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN113095927B (zh) 一种反洗钱可疑交易识别方法及设备
CN111753918B (zh) 一种基于对抗学习的去性别偏见的图像识别模型及应用
CN110008853A (zh) 行人检测网络及模型训练方法、检测方法、介质、设备
Yu et al. A recognition method of soybean leaf diseases based on an improved deep learning model
CN111598580A (zh) 一种基于XGBoost算法的区块链产品检测方法、系统及装置
CN109543693A (zh) 基于正则化标签传播的弱标注数据降噪方法
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
Gawade et al. Early-stage apple leaf disease prediction using deep learning
CN117521063A (zh) 基于残差神经网络并结合迁移学习的恶意软件检测方法及装置
Jeczmionek et al. Input reduction of convolutional neural networks with global sensitivity analysis as a data-centric approach
Sharma et al. Price prediction model of fruits, vegetables and pulses according to weather
CN116303786A (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN110675382A (zh) 基于CNN-LapsELM的铝电解过热度识别方法
CN112837739B (zh) 基于自编码器与蒙特卡洛树的层次化特征系统发育模型
CN111860441B (zh) 基于无偏深度迁移学习的视频目标识别方法
CN114066018A (zh) 基于支持向量的配电站建设物资需求预测方法
CN114529063A (zh) 一种基于机器学习的金融领域数据预测方法、设备及介质
Nurmalasari et al. Classification for Papaya Fruit Maturity Level with Convolutional Neural Network
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
Rao et al. Markov random field classification technique for plant leaf disease detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination