CN114528456A

CN114528456A - 一种基于机器学习的数字货币欺诈网站检测方法

Info

Publication number: CN114528456A
Application number: CN202111129396.6A
Authority: CN
Inventors: 方勇; 欧浩然; 黄诚
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-05-24

Abstract

本申请涉及数字货币安全领域，提供了一种数字货币欺诈网站检测方法。所述方法包括：利用爬虫技术，实现对数字货币欺诈网站和正常网站数据集的自动化采集；对原始数据集进行预处理，从清洗过的数据集中提取有效的特征；根据提取的特征构建特征向量，设置模型参数，构建检测模型；根据构建好的模型对待检测的网站进行检测。所述方法能解决现有技术中，对数字货币网站本身是否有具有欺诈性质，使用自动化的技术对此类型网站进行识别和分类的技术还比较匮乏的问题。

Description

一种基于机器学习的数字货币欺诈网站检测方法

技术领域

本发明涉及到数字货币安全领域，具体而言，涉及一种数字货币欺诈网站检测方法。

背景技术

近年来随着区块链技术和数字经济生态系统的演变，数字货币已经出现了爆炸性的增长。除了比特币，大量的数字货币随之出现，数量众多，市值极高。作为生态系统不可或缺的交易平台，数以百计的数字货币交易所正在出现，以促进数字资产与传统的法定货币或其他数字资产之间的交易。

但同时，各种以区块链为幌子的空气币、传销币骗局也日益增加。这些数字货币欺诈网站以多至百倍收益的高额返利为噱头，吸引众人参与，不断吸纳会员会费达到敛财目的，最后由于资金链的断绝，导致骗局败露。普通大众缺乏专业的网络安全知识，往往被这些网站先进的技术幌子和各种高大上的背景所诓骗而进行投资，最后造成严重的经济损失。空气币的存在严重威胁到了民众的财产安全，阻碍了区块链技术正常的生态发展。

如何识别数字货币欺诈网站和防止诈骗攻击是当务之急。区块链社区已经开始关注数字货币生态系统中的欺诈网站。几个开源数据库(例如Crypto Scam DB和EtherscamDB)收集了该类型的恶意域名及其相关网址，这些域名和地址的目的是通过利用诓骗受害者，进行资金筹集以获取经济利益，但其中只有少数与数字货币的交换有关。

目前主流的解决方法如下所述：

(1)分析网站的智能庞氏骗局特征、提取智能合约、分析比特币的异常交易行为来检测网站是否是基于数字货币的庞氏骗局；

(2)与数字货币相关的钓鱼网站和钓鱼账户的检测。

但是现阶段，针对数字货币网站本身是否有具有欺诈性质，使用自动化的技术对此类型网站进行识别和分类的研究还比较匮乏。

发明内容

有鉴于此，本申请的目的在于提供一种基于机器学习的数字货币欺诈网站的检测方法，旨在解决现阶段针对数字货币网站本身是否有具有欺诈性质，使用自动化的技术对此类型网站进行识别和分类的技术还比较匮乏的问题。本申请实施例提供了一种机器学习的数字货币欺诈网站的检测方法，应用于对数字货币欺诈网站自动化的准确检测；所述方法包括：

获取构建所述检测模型需要的网站数据集。

利用爬虫技术，实现对数字货币欺诈网站和正常网站数据集的自动化采集。

对原始数据集进行预处理，从清洗过的数据集中提取有效的特征。

根据提取原始的数据进行文本的翻译和清洗，从清洗过的数据集中提取网站特征用于构建特征向量。

根据提取的特征构建特征向量，设置模型参数，构建检测模型。

提取的特征构建特征向量作为检测模型的输入，设置检测模型的参数，使得检测效果达到最优。

根据构建好的模型对待检测的网站进行检测。

将训练好的模型用于网站的检测，输出检测结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实例提出的数字货币欺诈网站检测方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，图1示出了本申请一实例提出的数字货币欺诈网站检测方法的流程图。如图1所示该方法包括以下步骤：

步骤S11：获取构建所述检测模型需要的网站数据集。

本实施例中，所述检测模型是基于机器学习算法的，收集一定量的学习数据集，用于检测模型的学习和测试。

示例地，采集的数据集由正常网站和数字货币欺诈网站构成。采集的数据来源不固定，但需要满足正常网站和数字货币欺诈网站的要求。例如，正常网站可以从Alexa排名前100万列表上进行采集；数字货币欺诈网站可以从公开维护的数字货币欺诈网站列表上进行采集。

示例地，采集的网站存在无法访问的情况。对于可以访问的网站，采集内容如下：遍历隶属于该网站的二级网页，采集二级网页和网站主页的图片、文本、DOM树、主页截图、网页中的外部URL链接信息。对于无法访问的网站，采集方式如下：通过快照网站采集文本和DOM树信息。

步骤S12：对原始数据集进行预处理，从清洗过的数据集中提取有效的特征。

本实施例中，对原始的数据进行文本的翻译和清洗，从清洗过的数据集中提取网站特征用于构建特征向量。

示例地，采集的原始数据难以直接提取特征，需要进行数据集的预处理。采集的数据集文本语言存在差异，统一将其他语言全部翻译为英文，并对文本进行清洗、删除数据中所有的非ASCII字符。

示例地，在数据集准备就绪后，提取网页特征。本申请提取的特征一共有14种，包括正常网站的文本特征、数字货币欺诈网站的文本特征、网站的Alexa排名、百度收录次数、网站权威度、页面权威度、数字货币流通市值、数字货币流通率、数字货币换手率、数字货币上市的主流交易平台数量、数字货币上市的交易平台数量、网站域名注册时间、网站域名过期时间、网站域名持有时间。

示例地，文本特征的提取方法如下：正常网站的词频统计前300去掉数字货币欺诈网站的词频统计前300中的单词，作为正常网站的文本特征，数字货币欺诈网站的词频统计前300去掉正常网站的词频统计前300中的单词，作为数字货币欺诈网站的文本特征。

示例地，域名特征指域名注册时间、域名过期时间、域名持有时间，提取方法如下：域名特征具备统计性规律，域名注册时间早于2019年的特征值置为0，否则置为1；域名过期时间晚于2021年的特征值置为0，否则置为1；域名持有时间超过4年的特征值置为0，否则置为1。

步骤S13：根据提取的特征构建特征向量，设置模型参数，构建检测模型。

本实施例中，根据提取的特征构建特征向量作为检测模型的输入，设置检测模型的参数，使得检测效果达到最优。

示例地，本申请所述的数字货币欺诈网站检测模型基于机器学习算法，因此将提取的特征构建特征向量，作为检测模型的输入。

示例地，机器学习算法的选择可以是支持向量机、随机森林、朴素贝叶斯、K-近邻算法。为了使得检测结果的准确率更高，需要进行参数的设置。以随机森林为例，本申请示例设置的参数如下：n_estimators（子树的数量）、max_depth（树的最大生长深度）、min_samples_leaf（叶子的最小样本数量）、min_samples_split(分支节点的最小样本数量）、max_features（最大选择特征数）。调制参数基于泛化误差和模型复杂的关系，根据对模型的影响程度，由大到小对参数排序，分别确定使得模型复杂度减小和增大的参数。然后依次选择合适的参数，绘制学习曲线或者网格搜索的方法调制参数，最终确定使得检测模型准确率最高的参数值。

步骤S14：根据构建好的模型对待检测的网站进行检测。

本实施例中，将训练好的模型用于网站的检测，输出检测结果。

示例地，将训练好的模型，应用于对网站进行批量自动化检测。提交需要检测网站的URL，实现自动化地数据采集，特征提取，特征向量构建，使用数字货币欺诈网站检测模型进行检测，输出网站检测结果为正常网站或者数字货币欺诈网站。

Claims

1.一种基于机器学习的数字货币欺诈网站检测技术，其特征在于，所述方法包括如下步骤：

A、采集的网页数据集由正常网站和数字货币欺诈网站构成，提取出其中的网页数据作为原始数据集；

B、原始的数据集进行数据预处理，经过预处理的数据，提取其中的有效特征，用于构建特征向量；

C、在构建数字货币欺诈网站检测模型时，为了使得检测结果达到最优，需要对随机森林算法进行参数调制；

D、将训练好的数字货币欺诈网站检测模型，应用于网站的检测，输入待检测网站的URL，输出检测结果为正常网站或者数字货币欺诈网站。

2.根据权力要求1所述的一种基于机器学习的数字货币欺诈网站检测技术，其特征在于，所述的步骤A中样本数据采集步骤包括如下：

（1）可以访问的网站，采集该网站的二级网页和网站主页的图片、文本、DOM树、主页截图、网页中的外部URL链接信息；

（2）无法访问的网站，通过快照网站采集文本和DOM树信息。

3.根据权利要求1所述的一种基于机器学习的数字货币欺诈网站检测技术，其特征在于，所述的步骤B中数据预处理包括如下步骤：

（1）将采集的网站文本语言均翻译成英文；

（2）在数据清洗时，删除数据中的所有非ASCII字符。

4.根据权利要求1所述的一种基于机器学习的数字货币欺诈网站检测技术，其特征在于，所述的步骤B中提取的有效特征包括如下14个特征：

正常网站的文本特征、数字货币欺诈网站的文本特征、网站的Alexa排名、百度收录次数、网站权威度、页面权威度、数字货币流通市值、数字货币流通率、数字货币换手率、数字货币上市的主流交易平台数量、数字货币上市的交易平台数量、域名注册时间、域名过期时间、域名持有时间。

5.根据权利要求1所述的一种基于机器学习的数字货币欺诈网站检测技术，其特征在于，所述的步骤B中提取文本特征和域名特征步骤如下：

（1）正常网站的词频统计前300去掉黑名单的词频统计前300中的单词，作为正常网站的文本特征，数字货币欺诈网站的词频统计前300去掉白名单的词频统计前300中的单词，作为数字货币欺诈网站的文本特征；

（2）域名特征指域名注册时间、域名过期时间、域名持有时间，域名注册时间早于2019年的特征值置为0，否则置为1；域名过期时间晚于2021年的特征值置为0，否则置为1；域名持有时间超过4年的特征值置为0，否则置为1。