CN114528456A - 一种基于机器学习的数字货币欺诈网站检测方法 - Google Patents

一种基于机器学习的数字货币欺诈网站检测方法 Download PDF

Info

Publication number
CN114528456A
CN114528456A CN202111129396.6A CN202111129396A CN114528456A CN 114528456 A CN114528456 A CN 114528456A CN 202111129396 A CN202111129396 A CN 202111129396A CN 114528456 A CN114528456 A CN 114528456A
Authority
CN
China
Prior art keywords
website
digital currency
domain name
fraud
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111129396.6A
Other languages
English (en)
Inventor
方勇
欧浩然
黄诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111129396.6A priority Critical patent/CN114528456A/zh
Publication of CN114528456A publication Critical patent/CN114528456A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数字货币安全领域,提供了一种数字货币欺诈网站检测方法。所述方法包括:利用爬虫技术,实现对数字货币欺诈网站和正常网站数据集的自动化采集;对原始数据集进行预处理,从清洗过的数据集中提取有效的特征;根据提取的特征构建特征向量,设置模型参数,构建检测模型;根据构建好的模型对待检测的网站进行检测。所述方法能解决现有技术中,对数字货币网站本身是否有具有欺诈性质,使用自动化的技术对此类型网站进行识别和分类的技术还比较匮乏的问题。

Description

一种基于机器学习的数字货币欺诈网站检测方法
技术领域
本发明涉及到数字货币安全领域,具体而言,涉及一种数字货币欺诈网站检测方法。
背景技术
近年来随着区块链技术和数字经济生态系统的演变,数字货币已经出现了爆炸性的增长。除了比特币,大量的数字货币随之出现,数量众多,市值极高。作为生态系统不可或缺的交易平台,数以百计的数字货币交易所正在出现,以促进数字资产与传统的法定货币或其他数字资产之间的交易。
但同时,各种以区块链为幌子的空气币、传销币骗局也日益增加。这些数字货币欺诈网站以多至百倍收益的高额返利为噱头,吸引众人参与,不断吸纳会员会费达到敛财目的,最后由于资金链的断绝,导致骗局败露。普通大众缺乏专业的网络安全知识,往往被这些网站先进的技术幌子和各种高大上的背景所诓骗而进行投资,最后造成严重的经济损失。空气币的存在严重威胁到了民众的财产安全,阻碍了区块链技术正常的生态发展。
如何识别数字货币欺诈网站和防止诈骗攻击是当务之急。区块链社区已经开始关注数字货币生态系统中的欺诈网站。几个开源数据库(例如Crypto Scam DB和EtherscamDB)收集了该类型的恶意域名及其相关网址,这些域名和地址的目的是通过利用诓骗受害者,进行资金筹集以获取经济利益,但其中只有少数与数字货币的交换有关。
目前主流的解决方法如下所述:
(1)分析网站的智能庞氏骗局特征、提取智能合约、分析比特币的异常交易行为来检测网站是否是基于数字货币的庞氏骗局;
(2)与数字货币相关的钓鱼网站和钓鱼账户的检测。
但是现阶段,针对数字货币网站本身是否有具有欺诈性质,使用自动化的技术对此类型网站进行识别和分类的研究还比较匮乏。
发明内容
有鉴于此,本申请的目的在于提供一种基于机器学习的数字货币欺诈网站的检测方法,旨在解决现阶段针对数字货币网站本身是否有具有欺诈性质,使用自动化的技术对此类型网站进行识别和分类的技术还比较匮乏的问题。本申请实施例提供了一种机器学习的数字货币欺诈网站的检测方法,应用于对数字货币欺诈网站自动化的准确检测;所述方法包括:
获取构建所述检测模型需要的网站数据集。
利用爬虫技术,实现对数字货币欺诈网站和正常网站数据集的自动化采集。
对原始数据集进行预处理,从清洗过的数据集中提取有效的特征。
根据提取原始的数据进行文本的翻译和清洗,从清洗过的数据集中提取网站特征用于构建特征向量。
根据提取的特征构建特征向量,设置模型参数,构建检测模型。
提取的特征构建特征向量作为检测模型的输入,设置检测模型的参数,使得检测效果达到最优。
根据构建好的模型对待检测的网站进行检测。
将训练好的模型用于网站的检测,输出检测结果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实例提出的数字货币欺诈网站检测方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1示出了本申请一实例提出的数字货币欺诈网站检测方法的流程图。如图1所示该方法包括以下步骤:
步骤S11:获取构建所述检测模型需要的网站数据集。
本实施例中,所述检测模型是基于机器学习算法的,收集一定量的学习数据集,用于检测模型的学习和测试。
示例地,采集的数据集由正常网站和数字货币欺诈网站构成。采集的数据来源不固定,但需要满足正常网站和数字货币欺诈网站的要求。例如,正常网站可以从Alexa排名前100万列表上进行采集;数字货币欺诈网站可以从公开维护的数字货币欺诈网站列表上进行采集。
示例地,采集的网站存在无法访问的情况。对于可以访问的网站,采集内容如下:遍历隶属于该网站的二级网页,采集二级网页和网站主页的图片、文本、DOM树、主页截图、网页中的外部URL链接信息。对于无法访问的网站,采集方式如下:通过快照网站采集文本和DOM树信息。
步骤S12:对原始数据集进行预处理,从清洗过的数据集中提取有效的特征。
本实施例中,对原始的数据进行文本的翻译和清洗,从清洗过的数据集中提取网站特征用于构建特征向量。
示例地,采集的原始数据难以直接提取特征,需要进行数据集的预处理。采集的数据集文本语言存在差异,统一将其他语言全部翻译为英文,并对文本进行清洗、删除数据中所有的非ASCII字符。
示例地,在数据集准备就绪后,提取网页特征。本申请提取的特征一共有14种,包括正常网站的文本特征、数字货币欺诈网站的文本特征、网站的Alexa排名、百度收录次数、网站权威度、页面权威度、数字货币流通市值、数字货币流通率、数字货币换手率、数字货币上市的主流交易平台数量、数字货币上市的交易平台数量、网站域名注册时间、网站域名过期时间、网站域名持有时间。
示例地,文本特征的提取方法如下:正常网站的词频统计前300去掉数字货币欺诈网站的词频统计前300中的单词,作为正常网站的文本特征,数字货币欺诈网站的词频统计前300去掉正常网站的词频统计前300中的单词,作为数字货币欺诈网站的文本特征。
示例地,域名特征指域名注册时间、域名过期时间、域名持有时间,提取方法如下:域名特征具备统计性规律,域名注册时间早于2019年的特征值置为0,否则置为1;域名过期时间晚于2021年的特征值置为0,否则置为1;域名持有时间超过4年的特征值置为0,否则置为1。
步骤S13:根据提取的特征构建特征向量,设置模型参数,构建检测模型。
本实施例中,根据提取的特征构建特征向量作为检测模型的输入,设置检测模型的参数,使得检测效果达到最优。
示例地,本申请所述的数字货币欺诈网站检测模型基于机器学习算法,因此将提取的特征构建特征向量,作为检测模型的输入。
示例地,机器学习算法的选择可以是支持向量机、随机森林、朴素贝叶斯、K-近邻算法。为了使得检测结果的准确率更高,需要进行参数的设置。以随机森林为例,本申请示例设置的参数如下:n_estimators(子树的数量)、max_depth(树的最大生长深度)、min_samples_leaf(叶子的最小样本数量)、min_samples_split(分支节点的最小样本数量)、max_features(最大选择特征数)。调制参数基于泛化误差和模型复杂的关系,根据对模型的影响程度,由大到小对参数排序,分别确定使得模型复杂度减小和增大的参数。然后依次选择合适的参数,绘制学习曲线或者网格搜索的方法调制参数,最终确定使得检测模型准确率最高的参数值。
步骤S14:根据构建好的模型对待检测的网站进行检测。
本实施例中,将训练好的模型用于网站的检测,输出检测结果。
示例地,将训练好的模型,应用于对网站进行批量自动化检测。提交需要检测网站的URL,实现自动化地数据采集,特征提取,特征向量构建,使用数字货币欺诈网站检测模型进行检测,输出网站检测结果为正常网站或者数字货币欺诈网站。

Claims (5)

1.一种基于机器学习的数字货币欺诈网站检测技术,其特征在于,所述方法包括如下步骤:
A、采集的网页数据集由正常网站和数字货币欺诈网站构成,提取出其中的网页数据作为原始数据集;
B、原始的数据集进行数据预处理,经过预处理的数据,提取其中的有效特征,用于构建特征向量;
C、在构建数字货币欺诈网站检测模型时,为了使得检测结果达到最优,需要对随机森林算法进行参数调制;
D、将训练好的数字货币欺诈网站检测模型,应用于网站的检测,输入待检测网站的URL,输出检测结果为正常网站或者数字货币欺诈网站。
2.根据权力要求1所述的一种基于机器学习的数字货币欺诈网站检测技术,其特征在于,所述的步骤A中样本数据采集步骤包括如下:
(1)可以访问的网站,采集该网站的二级网页和网站主页的图片、文本、DOM树、主页截图、网页中的外部URL链接信息;
(2)无法访问的网站,通过快照网站采集文本和DOM树信息。
3.根据权利要求1所述的一种基于机器学习的数字货币欺诈网站检测技术,其特征在于,所述的步骤B中数据预处理包括如下步骤:
(1)将采集的网站文本语言均翻译成英文;
(2)在数据清洗时,删除数据中的所有非ASCII字符。
4.根据权利要求1所述的一种基于机器学习的数字货币欺诈网站检测技术,其特征在于,所述的步骤B中提取的有效特征包括如下14个特征:
正常网站的文本特征、数字货币欺诈网站的文本特征、网站的Alexa排名、百度收录次数、网站权威度、页面权威度、数字货币流通市值、数字货币流通率、数字货币换手率、数字货币上市的主流交易平台数量、数字货币上市的交易平台数量、域名注册时间、域名过期时间、域名持有时间。
5.根据权利要求1所述的一种基于机器学习的数字货币欺诈网站检测技术,其特征在于,所述的步骤B中提取文本特征和域名特征步骤如下:
(1)正常网站的词频统计前300去掉黑名单的词频统计前300中的单词,作为正常网站的文本特征,数字货币欺诈网站的词频统计前300去掉白名单的词频统计前300中的单词,作为数字货币欺诈网站的文本特征;
(2)域名特征指域名注册时间、域名过期时间、域名持有时间,域名注册时间早于2019年的特征值置为0,否则置为1;域名过期时间晚于2021年的特征值置为0,否则置为1;域名持有时间超过4年的特征值置为0,否则置为1。
CN202111129396.6A 2021-09-26 2021-09-26 一种基于机器学习的数字货币欺诈网站检测方法 Pending CN114528456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111129396.6A CN114528456A (zh) 2021-09-26 2021-09-26 一种基于机器学习的数字货币欺诈网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111129396.6A CN114528456A (zh) 2021-09-26 2021-09-26 一种基于机器学习的数字货币欺诈网站检测方法

Publications (1)

Publication Number Publication Date
CN114528456A true CN114528456A (zh) 2022-05-24

Family

ID=81619107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111129396.6A Pending CN114528456A (zh) 2021-09-26 2021-09-26 一种基于机器学习的数字货币欺诈网站检测方法

Country Status (1)

Country Link
CN (1) CN114528456A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921568A (zh) * 2018-05-30 2018-11-30 中国地质大学(武汉) 一种区块链数字货币中欺诈行为的检测方法及系统
CN110830489A (zh) * 2019-11-14 2020-02-21 国网江苏省电力有限公司苏州供电分公司 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN111324831A (zh) * 2018-12-17 2020-06-23 中国移动通信集团北京有限公司 一种欺诈网站的检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921568A (zh) * 2018-05-30 2018-11-30 中国地质大学(武汉) 一种区块链数字货币中欺诈行为的检测方法及系统
CN111324831A (zh) * 2018-12-17 2020-06-23 中国移动通信集团北京有限公司 一种欺诈网站的检测方法及装置
CN110830489A (zh) * 2019-11-14 2020-02-21 国网江苏省电力有限公司苏州供电分公司 基于内容抽象表示的对抗式欺诈网站检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄亦睿等: "多特征的网络钓鱼检测算法研究" *

Similar Documents

Publication Publication Date Title
CN106599155B (zh) 一种网页分类方法及系统
CN112801498B (zh) 风险识别模型的训练方法、风险识别方法、装置及设备
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN104899508A (zh) 一种多阶段钓鱼网站检测方法与系统
CN104702492A (zh) 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN110880142B (zh) 一种风险实体获取方法及装置
CN102708186A (zh) 一种钓鱼网站的识别方法
CN110134842B (zh) 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN110956503B (zh) 基于用户网络行为的具有借贷需求的用户识别方法及装置
CN109543408B (zh) 一种恶意软件识别方法和系统
CN113407886A (zh) 网络犯罪平台识别方法、系统、设备和计算机存储介质
CN110209841A (zh) 一种基于诈骗案件案情的诈骗分析方法及装置
CN109104421A (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN117473512B (zh) 基于网络测绘的漏洞风险评估方法
CN109101810A (zh) 一种基于ocr技术的文字验证码识别方法
CN112330328A (zh) 一种基于特征提取的信用卡欺诈检测方法
CN116189215A (zh) 自动审核方法、装置、电子设备及存储介质
CN115577172A (zh) 物品推荐方法、装置、设备及介质
Di Angelo et al. Towards the identification of security tokens on ethereum
CN113065943A (zh) 反欺诈黑产实体识别方法及系统
CN113688905A (zh) 一种有害域名核验方法及装置
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220524