CN113051500B - 一种融合多源数据的钓鱼网站识别方法及系统 - Google Patents

一种融合多源数据的钓鱼网站识别方法及系统 Download PDF

Info

Publication number
CN113051500B
CN113051500B CN202110321608.4A CN202110321608A CN113051500B CN 113051500 B CN113051500 B CN 113051500B CN 202110321608 A CN202110321608 A CN 202110321608A CN 113051500 B CN113051500 B CN 113051500B
Authority
CN
China
Prior art keywords
website
url
phishing
feature
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110321608.4A
Other languages
English (en)
Other versions
CN113051500A (zh
Inventor
胡忠义
吴江
张硕果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110321608.4A priority Critical patent/CN113051500B/zh
Publication of CN113051500A publication Critical patent/CN113051500A/zh
Application granted granted Critical
Publication of CN113051500B publication Critical patent/CN113051500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种融合多源数据的钓鱼网站识别方法及系统,包括:确定钓鱼网站和合法网站样本;基于网站URL采集各个网站的多源特征数据;并对URL多源特征数据处理后得到网站URL多源特征的高维特征向量;对网站URL进行分词、分字操作,将词向量矩阵和字符级向量矩阵进行拼接,得到网站URL的高维特征向量;将网站URL多源特征的高维特征向量和网站URL的高维特征向量拼接,得到各个网站的特征向量;将特征向量和各个网站的标签组合形成样本数据集,将样本数据集输入到分类模型进行训练,将训练好的分类模型作为钓鱼网站识别模型;基于钓鱼网站识别模型对待识别网站进行识别,判断其是否为钓鱼网站。本发明提供一种高精度的钓鱼网站识别方案。

Description

一种融合多源数据的钓鱼网站识别方法及系统
技术领域
本发明属于钓鱼网站识别技术领域,更具体地,涉及一种融合多源数据的钓鱼网站识别方法及系统。
背景技术
“钓鱼网站”是一种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的统一资源定位系统(uniform resource locator;URL)地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。
现有技术可以通过两次模型的训练得到最终的判别结果以高效地实现钓鱼网站的识别。但是该技术对于特征的选择相对简单,没有考虑到更丰富的特征。另外,现有技术还可以融合字符级特征和单词级特征,以进行钓鱼网站识别,该技术存在问题是:一方面,其对于单词级特征的提取相对简单,不能够提取单词之间的序列特征,也难以应对新词的输入;另一方面,该技术也难以克服分词的不准确性。此外,现有技术可以融合URL字符级特征和部分多源特征,以进行钓鱼网站识别,然而,该技术融合的输入特征有限,缺乏对URL单词级特征以及更多多源特征的提取和融合,进而影响模型性能。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种融合多源数据的钓鱼网站识别方法及系统,旨在解决现有钓鱼网站识别选择的特征相对简单,识别性能低的问题。
为实现上述目的,第一方面,本发明提供了一种融合多源数据的钓鱼网站识别方法,包括如下步骤:
确定钓鱼网站和合法网站两类训练样本,为两类样本分别打上两种不同的标签;
基于每个网站的URL采集各个网站的多源特征数据;并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量;
对每个网站URL进行分词操作,得到每个网站URL的词向量矩阵,并对每个网站URL进行分字操作,得到每个网站URL的字符级向量矩阵,将所述词向量矩阵和字符级向量矩阵进行拼接,并输入到神经模型训练和降维,得到每个网站URL的高维特征向量;
将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接,得到各个网站的特征向量;
将所述各个网站的特征向量和各个网站的标签组合形成样本数据集,将样本数据集输入到分类模型进行训练,将训练好的分类模型作为钓鱼网站识别模型;所述分类模型用于将接收到的网站分为钓鱼网站和合法网站,以识别其中的钓鱼网站;
结合采集的待识别网站的特征向量,基于所述钓鱼网站识别模型对所述待识别网站进行识别,判断其是否属于钓鱼网站。
在一个可选的示例中,所述各个网站URL的多源特征数据,包括:URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。
在一个可选的示例中,所述按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量,具体为:
基于Boruta方法对采集到的网站URL多源特征进行特征选择,其中强相关的特征向量纳入第一特征向量集合,其余特征向量纳入第二特征向量集合;基于LightGBM技术使用第二特征向量集合进行钓鱼网站识别模型训练,得到识别结果概率集合;将第一特征向量集合和识别结果概率集合进行拼接形成网站URL多源特征的高维特征向量集合。
在一个可选的示例中,对每个网站URL进行分词操作和对每个网站URL进行分字操作,具体为:
利用BERT技术对网站URL中的每个词进行向量化表示,获取URL单词级的语义特征,并构建URL的单词级特征矩阵;
统计网站URL中包含的字符并构成字符集合;基于所述字符集合对URL进行独热编码,并进行padding操作形成同构独热矩阵;将独热矩阵放入词嵌入层进行训练,抽取低维的稠密特征矩阵,该特征矩阵形状与URL的单词级特征矩阵的形状一致。
在一个可选的示例中,所述神经模型为CNN-LSTM模型。
第二方面,本发明提供了一种融合多源数据的钓鱼网站识别系统,包括:
样本确定单元,用于确定钓鱼网站和合法网站两类训练样本,为两类样本分别打上两种不同的标签;
多源特征采集单元,用于基于每个网站的统一资源定位符URL采集各个网站的多源特征数据;并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量;
分词分字特征采集单元,用于对每个网站URL进行分词操作,得到每个网站URL的词向量矩阵,并对每个网站URL进行分字操作,得到每个网站URL的字符级向量矩阵,将所述词向量矩阵和字符级向量矩阵进行拼接,并输入到神经模型训练和降维,得到每个网站URL的高维特征向量;
向量拼接单元,用于将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接,得到各个网站的特征向量;
识别模型训练单元,用于将所述各个网站的特征向量和各个网站的标签组合形成样本数据集,将样本数据集输入到分类模型进行训练,将训练好的分类模型作为钓鱼网站识别模型;所述分类模型用于将接收到的网站分为钓鱼网站和合法网站,以识别其中的钓鱼网站;
钓鱼网站识别单元,用于结合采集的待识别网站的特征向量,基于所述钓鱼网站识别模型对所述待识别网站进行识别,判断其是否属于钓鱼网站。
在一个可选的示例中,所述多源特征采集单元采集的各个网站URL的多源特征数据,包括:URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。
在一个可选的示例中,所述多源特征采集单元,基于Boruta方法对采集到的网站URL多源特征进行特征选择,其中强相关的特征向量纳入第一特征向量集合,其余特征向量纳入第二特征向量集合;基于LightGBM技术使用第二特征向量集合进行钓鱼网站识别模型训练,得到识别结果概率集合;将第一特征向量集合和识别结果概率集合进行拼接形成网站URL多源特征的高维特征向量集合。
在一个可选的示例中,所述分词分字特征采集单元,利用BERT技术对网站URL中的每个词进行向量化表示,获取URL单词级的语义特征,并构建URL的单词级特征矩阵;统计网站URL中包含的字符并构成字符集合;基于所述字符集合对URL进行独热编码,并进行padding操作形成同构独热矩阵;将独热矩阵放入词嵌入层进行训练,抽取低维的稠密特征矩阵,该特征矩阵形状与URL的单词级特征矩阵的形状一致。
在一个可选的示例中,所述神经模型为CNN-LSTM模型。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供了一种融合多源数据的钓鱼网站识别方法及系统,全面地融合了多方源特征、URL单词级特征以及URL字符级特征作为识别模型的输入特征,基于传统机器学习与深度学习的钓鱼网站识别模型的准确率很大程度上取决于模型的输入特征。以往的研究一般较单一的选用某一类(或者少数几类)数据特征。然而,不同来源的特征具有片面性,难以全面的刻画URL特征,进而影响对不同变化的钓鱼网站的识别。本发明全面融合不同来源的具有互补性和冗余性的网站信息,基于深度学习技术解决多维异构数据的融合问题,以此来增强钓鱼网站识别模型的准确性。
本发明提供了一种融合多源数据的钓鱼网站识别方法及系统,在URL单词级特征提取的过程中使用到了近期广为关注的BERT技术,填补了钓鱼网站识别问题中BERT应用的空白,以往的模型构建中,在URL单词级特征提取过程中存在一系列的问题,一方面因为URL无空格或分隔符等特点,难以保证URL的分词准确率,所以形成的词向量质量不高;另一方面,以往的研究较少高效地考虑URL的词序关系,缺乏对URL词序特征。而使用BERT进行URL特征提取则可以很好的解决上述问题,因为BERT是基于transformer进行特征提取的,可以有效的解决分词不准确带来的影响,还能充分考虑了词序关系,可以更加充分地提炼到到URL的深层特征。
附图说明
图1为本发明实施例提供的融合多源数据的钓鱼网站识别方法流程图;
图2为本发明实施例一提供的钓鱼网站识别方法的技术框架图;
图3为本发明实施例一提供的钓鱼网站识别方法中URL收集与处理流程图;
图4为本发明实施例一提供的钓鱼网站识别方法中URL多源特征处理图;
图5为本发明实施例一提供的钓鱼网站识别方法中URL字符级编码处理图;
图6为本发明实施例二提供的钓鱼网站识别装置示意图;
图7为本发明实施例二提供的钓鱼网站识别装置中训练模块示意图;
图8为本发明实施例二提供的钓鱼网站识别装置中识别模块示意图;
图9为本发明实施例提供的融合多源数据的钓鱼网站识别系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了构建基于多源数据特征和URL特征的钓鱼网站识别方法以及装置,涉及网络安全中的钓鱼网站识别的技术领域。该方法包括:收集合法网站URL和钓鱼网站URL用来提取训练模型的数据;分别提取各个URL的多源特征数据,包括多方源数据、字符级编码数据以及单词级编码数据;然后分别处理多源数据特征、字符级数据特征以及单词级数据特征进行特征筛选和降维,其中对于多维数据特征进行数据标准化处理、特征选择、筛掉特征训练结果整合与拼接最终形成特征向量,对于字符级编码通过词嵌入方式进行编码,单词级编码通过BERT(Bidirectional Encoder Representations fromTransformers)技术进行训练编码,将二者形成的编码进行拼接,输入CNN(ConvolutionalNeural Network)与LSTM(Long Short-Term Memory)模型中进行训练和降维,最终得到一个特征向量;接着将多源特征与URL层的编码进行拼接形成一个高维特征向量,以此作为输入使用lightGBM技术进行模型训练,以最终的输出概率作为识别依据。本发明全面地融合了多方来源特征、URL字符级和单词级特征作为输入特征,填补了领域内未考虑全输入特征的情况;同时将高效的BERT技术与领域问题结合起来,以解决在URL单词编码的时候出现的分词不准确和词序考虑效果不好的问题,填补了BERT技术在钓鱼网站识别应用的空白。
图1为本发明实施例提供的融合多源数据的钓鱼网站识别方法流程图;如图1所示,包括如下步骤:
S101,确定钓鱼网站和合法网站两类训练样本,为两类样本分别打上两种不同的标签;
S102,基于每个网站的URL采集各个网站的多源特征数据;并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量;
S103,对每个网站URL进行分词操作,得到每个网站URL的词向量矩阵,并对每个网站URL进行分字操作,得到每个网站URL的字符级向量矩阵,将所述词向量矩阵和字符级向量矩阵进行拼接,并输入到神经模型训练和降维,得到每个网站URL的高维特征向量;
S104,将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接,得到各个网站的特征向量;
S105,将所述各个网站的特征向量和各个网站的标签组合形成样本数据集,将样本数据集输入到分类模型进行训练,将训练好的分类模型作为钓鱼网站识别模型;所述分类模型用于将接收到的网站分为钓鱼网站和合法网站,以识别其中的钓鱼网站;
S106,结合采集的待识别网站的特征向量,基于所述钓鱼网站识别模型对所述待识别网站进行识别,判断其是否属于钓鱼网站。
具体各个步骤的详细流程,可参见下述实施例中的介绍。
本发明实施例一提供一种钓鱼网站识别方法。图2为本发明实施例一提供的融合多源特征、URL字符层与单词层编码特征作的基于深度学习的钓鱼网站识别方法的流程图。具体的,所发明的方法包括:
(1)收集钓鱼网站和合法网站URL数据集并进行标记和处理。
参见图3所示,收集钓鱼网站样本和合法网站样本;将采集的钓鱼网站样本和合法网站样本分别采用0和1建立标签,组成含标签的样本数据集合;采用随机划分的方式,将样本数据集划分成训练数据集和测试数据集。
(2)获取每个URL多源特征数据并进行数据预处理。
参见图4所示,采用自动网络爬虫的方式,从MOZ、twitter等平台,对样本数据集中的每个URL采集多源特征数据,包括URL序列特征(如是否包含域名、是否包含特殊字符、单词数量等等)、网站内容特征(如网站内容是否含有弹出窗口、是否含有登录程序、是否含有特殊图片等等)、网站代码特征(如代码是否含有多次重定向、是否含有大量空链接等等)、SEO:Search Engine Optimization搜索引擎优化网站评价数据(alexa评价指标、moz评价指标等等)、社交网站转发热度(twitter转发热度、ins转发热度等等);接着对这些特征数据进行数据预处理,包括缺失值与异常值处理、归一化处理、结构化处理等等,将其转化为高维特征向量。
(3)对数据预处理后的数据进行特征选择和处理,形成特征向量集合。
将(2)操作得到的初步特征向量集合进行特征选择,基于Boruta方法进行特征选择,选取相关性较大的特征向量集合放入特征向量集合A中,为被选定特征向量组成未入参的特征向量集合B;考虑到未入参特征集合B也具有一定的信息,因此基于lightGBM技术使用特征向量集合B进行识别模型训练,得到识别结果概率集合C;将A和C进行拼接形成多源特征的高维特征向量集合D。
具体地,Boruta是一种基于随机森林的特征选择技术,其在进行特征选择的时候会计算相关特征的重要性程度,并选择比较重要的特征,过滤掉不太重要的特征。
(4)对每个URL进行分词操作,利用BERT技术提取URL的单词级特征。
对每个URL进行分词操作;利用BERT对URL中的每个词进行向量化表示,获取URL单词级的语义特征,并构建URL的单词级特征矩阵。
(5)对每个URL按照字符进行分字操作,利用词嵌入模型提取URL的字符级特征,并得到URL的字符级特征。
参见图5所示,对每个URL进行字符级分词操作;统计所有的URL中包含的字符并构成字符集合;对URL进行独热编码,并进行padding操作形成同构独热矩阵;将独热矩阵放入词嵌入层进行训练,抽取低维的稠密特征矩阵,该特征矩阵形状与(4)中BERT输出的单词级特征矩阵形状一致。
(6)将词向量矩阵和字符级向量矩阵进行拼接,将其输入CNN-LSTM模型进行训练,输出高维向量特征集合。
将(4)和(5)输出的特征矩阵进行拼接,并输入CNN-LSTM模型中进行训练和降维,最终形成一个融合了URL单词级与字符级特征的URL特征向量集合。
(7)将多源特征与URL特征进行拼接,拼接后投入集成分类模型训练,得到最终的识别模型。
将(3)和(6)输出的高维特征向量进行拼接,形成更高维的特征向量,将其投入集成模型进行训练。考虑到lightGBM低消耗、高速度和处理大量数据的良好特性,本发明采用lightGBM方法,得到最终的识别模型。
本发明实施例二提供一种钓鱼网站识别装置。图6为本发明实施例二提供的钓鱼网站识别装置的结构框图。具体的,可以包括:
(1)训练模块,用于钓鱼网站识别模型的训练,包括收集钓鱼网站样本和合法网站样本、数据的预处理、特征的选择以及模型的训练,最终得到一个可以用于网站识别的模型。
(2)识别模块,用于根据网站的URL来识别网站是否为钓鱼网站。
本实施例中的钓鱼网站识别装置,可以用于实现实施例一所述的钓鱼网站识别模型方法,其训练模块的实现与实施例一类似,在这里就不再赘述,而识别模块则是对识别模块训练好的模型的应用,用来识别给定URL的网站是否为钓鱼网站。
本实施例提供的钓鱼网站识别装置,通过收集合法网站和钓鱼网站样本数据集作为模型训练的样本,再通过实施例一所提到的技术框架进行数据预处理和特征提取,分别提取出多源特征、单词级特征以及字符级特征作为最终识别模型的训练样本,最终将得到的特征矩阵输入lightGBM进行训练,得到钓鱼网站的识别模型。利用训练好的模型可以进行网站的识别,根据需要识别网站的URL收集其多源特征、单词级特征以及字符级特征,输入识别模型进行识别,能够及时、准确地识别出网站是否为钓鱼网站,帮助用户对网站有个判断,防止其遭受信息丢失的危害。
进一步地,所述训练模块如图7所示,具体为:
(1)获取模块,用于收集合法网站和钓鱼网站样本集,作为模型训练的训练样本。
(2)数据预处理模块,在进行特征提取前进行数据预处理操作,包括缺失值与异常值处理、归一化处理以及结构化处理等等。
(3)特征提取模块,按照实施例1中的技术框架提取多源特征、单词级特征以及字符级特征用以模型的训练。
(4)识别模型训练模块,将上述特征输入lightGBM中进行识别模型的训练,得到最终的钓鱼网站识别模型。
进一步地,所述识别模块如图8所示,具体为:
(1)数据预处理模块,对需要识别的URL进行训练模块一致的数据预处理。
(2)特征提取模块,对其进行训练模块中一致的特征提取。
(3)网站识别模块,利用训练模块中的模型进行网站识别,判断其是否为钓鱼网站。
图9为本发明实施例提供的融合多源数据的钓鱼网站识别系统架构图,如图9所示,包括:
样本确定单元910,用于确定钓鱼网站和合法网站两类训练样本,为两类样本分别打上两种不同的标签;
多源特征采集单元920,用于基于每个网站的统一资源定位符URL采集各个网站的多源特征数据;并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量;
分词分字特征采集单元930,用于对每个网站URL进行分词操作,得到每个网站URL的词向量矩阵,并对每个网站URL进行分字操作,得到每个网站URL的字符级向量矩阵,将所述词向量矩阵和字符级向量矩阵进行拼接,并输入到神经模型训练和降维,得到每个网站URL的高维特征向量;
向量拼接单元940,用于将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接,得到各个网站的特征向量;
识别模型训练单元950,用于将所述各个网站的特征向量和各个网站的标签组合形成样本数据集,将样本数据集输入到分类模型进行训练,将训练好的分类模型作为钓鱼网站识别模型;所述分类模型用于将接收到的网站分为钓鱼网站和合法网站,以识别其中的钓鱼网站;
钓鱼网站识别单元960,用于结合采集的待识别网站的特征向量,基于所述钓鱼网站识别模型对所述待识别网站进行识别,判断其是否属于钓鱼网站。
具体地,图9中各个单元的功能可参见前述方法实施例中的详细介绍,在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种融合多源数据的钓鱼网站识别方法,其特征在于,包括如下步骤:
确定钓鱼网站和合法网站两类训练样本,为两类样本分别打上两种不同的标签;
基于每个网站的统一资源定位符URL采集各个网站的多源特征数据;并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量;
对每个网站URL进行分词操作,得到每个网站URL的词向量矩阵,并对每个网站URL进行分字操作,得到每个网站URL的字符级向量矩阵,将所述词向量矩阵和字符级向量矩阵进行拼接,并输入到神经模型训练和降维,得到每个网站URL的高维特征向量;对每个网站URL进行分词操作和对每个网站URL进行分字操作,具体为:利用BERT技术对网站URL中的每个词进行向量化表示,获取URL单词级的语义特征,并构建URL的单词级特征矩阵;统计网站URL中包含的字符并构成字符集合;基于所述字符集合对URL进行独热编码,并进行padding操作形成同构独热矩阵;将独热矩阵放入词嵌入层进行训练,抽取低维的稠密特征矩阵,该特征矩阵形状与URL的单词级特征矩阵的形状一致;
将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接,得到各个网站的特征向量;
将所述各个网站的特征向量和各个网站的标签组合形成样本数据集,将样本数据集输入到分类模型进行训练,将训练好的分类模型作为钓鱼网站识别模型;所述分类模型用于将接收到的网站分为钓鱼网站和合法网站,以识别其中的钓鱼网站;
结合采集的待识别网站的特征向量,基于所述钓鱼网站识别模型对所述待识别网站进行识别,判断其是否属于钓鱼网站。
2.根据权利要求1所述的钓鱼网站识别方法,其特征在于,所述各个网站URL的多源特征数据,包括:URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。
3.根据权利要求1所述的钓鱼网站识别方法,其特征在于,所述按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量,具体为:
基于Boruta方法对采集到的网站URL多源特征进行特征选择,其中强相关的特征向量纳入第一特征向量集合,其余特征向量纳入第二特征向量集合;基于LightGBM技术使用第二特征向量集合进行钓鱼网站识别模型训练,得到识别结果概率集合;将第一特征向量集合和识别结果概率集合进行拼接形成网站URL多源特征的高维特征向量集合。
4.根据权利要求1所述的钓鱼网站识别方法,其特征在于,所述神经模型为CNN-LSTM模型。
5.一种融合多源数据的钓鱼网站识别系统,其特征在于,包括:
样本确定单元,用于确定钓鱼网站和合法网站两类训练样本,为两类样本分别打上两种不同的标签;
多源特征采集单元,用于基于每个网站的统一资源定位符URL采集各个网站的多源特征数据;并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量;
分词分字特征采集单元,用于对每个网站URL进行分词操作,得到每个网站URL的词向量矩阵,并对每个网站URL进行分字操作,得到每个网站URL的字符级向量矩阵,将所述词向量矩阵和字符级向量矩阵进行拼接,并输入到神经模型训练和降维,得到每个网站URL的高维特征向量;所述分词分字特征采集单元,利用BERT技术对网站URL中的每个词进行向量化表示,获取URL单词级的语义特征,并构建URL的单词级特征矩阵;统计网站URL中包含的字符并构成字符集合;基于所述字符集合对URL进行独热编码,并进行padding操作形成同构独热矩阵;将独热矩阵放入词嵌入层进行训练,抽取低维的稠密特征矩阵,该特征矩阵形状与URL的单词级特征矩阵的形状一致;
向量拼接单元,用于将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接,得到各个网站的特征向量;
识别模型训练单元,用于将所述各个网站的特征向量和各个网站的标签组合形成样本数据集,将样本数据集输入到分类模型进行训练,将训练好的分类模型作为钓鱼网站识别模型;所述分类模型用于将接收到的网站分为钓鱼网站和合法网站,以识别其中的钓鱼网站;
钓鱼网站识别单元,用于结合采集的待识别网站的特征向量,基于所述钓鱼网站识别模型对所述待识别网站进行识别,判断其是否属于钓鱼网站。
6.根据权利要求5所述的钓鱼网站识别系统,其特征在于,所述多源特征采集单元采集的各个网站URL的多源特征数据,包括:URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。
7.根据权利要求5所述的钓鱼网站识别系统,其特征在于,所述多源特征采集单元,基于Boruta方法对采集到的网站URL多源特征进行特征选择,其中强相关的特征向量纳入第一特征向量集合,其余特征向量纳入第二特征向量集合;基于LightGBM技术使用第二特征向量集合进行钓鱼网站识别模型训练,得到识别结果概率集合;将第一特征向量集合和识别结果概率集合进行拼接形成网站URL多源特征的高维特征向量集合。
8.根据权利要求5所述的钓鱼网站识别系统,其特征在于,所述神经模型为CNN-LSTM模型。
CN202110321608.4A 2021-03-25 2021-03-25 一种融合多源数据的钓鱼网站识别方法及系统 Active CN113051500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321608.4A CN113051500B (zh) 2021-03-25 2021-03-25 一种融合多源数据的钓鱼网站识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321608.4A CN113051500B (zh) 2021-03-25 2021-03-25 一种融合多源数据的钓鱼网站识别方法及系统

Publications (2)

Publication Number Publication Date
CN113051500A CN113051500A (zh) 2021-06-29
CN113051500B true CN113051500B (zh) 2022-08-16

Family

ID=76515711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321608.4A Active CN113051500B (zh) 2021-03-25 2021-03-25 一种融合多源数据的钓鱼网站识别方法及系统

Country Status (1)

Country Link
CN (1) CN113051500B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449816B (zh) * 2021-07-20 2024-10-01 恒安嘉新(北京)科技股份公司 网址分类模型训练、网址分类方法、装置、设备及介质
CN114897035B (zh) * 2021-10-09 2024-07-30 国网浙江省电力有限公司电力科学研究院 一种用于10kV电缆状态评估的多源数据特征融合方法
CN114095278B (zh) * 2022-01-19 2022-05-24 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN115600040B (zh) * 2022-11-25 2023-05-26 清华大学 一种钓鱼网站识别方法及装置
CN116722992A (zh) * 2023-02-22 2023-09-08 浙江警察学院 一种基于多模态融合的诈骗网站识别方法及装置
CN116108880A (zh) * 2023-04-12 2023-05-12 北京华云安信息技术有限公司 随机森林模型的训练方法、恶意网站检测方法及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016058390A1 (zh) * 2014-10-13 2016-04-21 中兴通讯股份有限公司 一种垃圾短信的拦截方法及装置
CN107451282A (zh) * 2017-08-09 2017-12-08 南京审计大学 一种基于大数据环境下的多源数据聚合抽样策略
CN107992469A (zh) * 2017-10-13 2018-05-04 中国科学院信息工程研究所 一种基于词序列的钓鱼url检测方法及系统
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108768982A (zh) * 2018-05-17 2018-11-06 江苏通付盾信息安全技术有限公司 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
CN108965245A (zh) * 2018-05-31 2018-12-07 国家计算机网络与信息安全管理中心 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN111078978A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于网站文本内容的网贷网站实体识别方法及系统
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111198995A (zh) * 2020-01-07 2020-05-26 电子科技大学 一种恶意网页识别方法
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
WO2020135810A1 (zh) * 2018-12-29 2020-07-02 华为技术有限公司 多传感器数据融合方法和装置
CN111538929A (zh) * 2020-07-08 2020-08-14 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN111753024A (zh) * 2020-06-24 2020-10-09 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111984792A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 网站分类方法、装置、计算机设备及存储介质
CN112115721A (zh) * 2020-09-28 2020-12-22 青岛海信网络科技股份有限公司 一种命名实体识别方法及装置
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685174B (zh) * 2012-09-07 2016-12-21 中国科学院计算机网络信息中心 一种不依赖样本的钓鱼网站检测方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016058390A1 (zh) * 2014-10-13 2016-04-21 中兴通讯股份有限公司 一种垃圾短信的拦截方法及装置
CN107451282A (zh) * 2017-08-09 2017-12-08 南京审计大学 一种基于大数据环境下的多源数据聚合抽样策略
CN107992469A (zh) * 2017-10-13 2018-05-04 中国科学院信息工程研究所 一种基于词序列的钓鱼url检测方法及系统
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108768982A (zh) * 2018-05-17 2018-11-06 江苏通付盾信息安全技术有限公司 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
CN108965245A (zh) * 2018-05-31 2018-12-07 国家计算机网络与信息安全管理中心 基于自适应异构多分类模型的钓鱼网站检测方法和系统
WO2020135810A1 (zh) * 2018-12-29 2020-07-02 华为技术有限公司 多传感器数据融合方法和装置
CN111078978A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于网站文本内容的网贷网站实体识别方法及系统
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111198995A (zh) * 2020-01-07 2020-05-26 电子科技大学 一种恶意网页识别方法
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
CN111753024A (zh) * 2020-06-24 2020-10-09 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111538929A (zh) * 2020-07-08 2020-08-14 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN111984792A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 网站分类方法、装置、计算机设备及存储介质
CN112115721A (zh) * 2020-09-28 2020-12-22 青岛海信网络科技股份有限公司 一种命名实体识别方法及装置
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
Identification of phishing websites through hyperlink analysis and rule extraction;Wu Jiang;《ELECTRONIC LIBRARY》;20201215;全文 *
Identifying malicious web domains using machine learning techniques with online credibility and performance data;Zhongyi Hu;《2016 IEEE Congress on Evolutionary Computation(CEC)》;20161121;全文 *
Texception: A Character/Word-Level Deep Learning Model for Phishing URL Detection;Farid Tajaddodianfar;《ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20200514;全文 *
基于SVM的金融类钓鱼网页检测方法;张峰等;《重庆邮电大学学报(自然科学版)》;20171215(第06期);全文 *
基于URL混淆技术识别的钓鱼网页检测方法;丁岩等;《计算机工程与应用》;20171015(第20期);全文 *
基于残差空洞卷积神经网络的网络安全实体识别方法;谢博等;《网络与信息安全学报》;20201013(第05期);全文 *
基于特征提取的恶意软件行为及能力分析方法研究;冯胥睿瑞等;《信息网络安全》;20191210(第12期);全文 *
多特征关联的注入型威胁检测方法;贾文超等;《浙江大学学报(工学版)》;20180301(第03期);全文 *
融合多源网络评估数据及URL特征的钓鱼网站识别技术研究;胡忠义等;《数据分析与知识发现》;20170625(第06期);全文 *

Also Published As

Publication number Publication date
CN113051500A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113051500B (zh) 一种融合多源数据的钓鱼网站识别方法及系统
CN111078978B (zh) 一种基于网站文本内容的网贷网站实体识别方法及系统
CN109543084A (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN106446072B (zh) 网页内容的处理方法和装置
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN114661881A (zh) 一种基于问答模式的事件抽取方法、装置和设备
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN111581346A (zh) 一种事件抽取方法和装置
CN110866172A (zh) 一种面向区块链系统的数据分析方法
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
CN118277560A (zh) 短信文本分类方法及装置
CN108255866B (zh) 检查网站中链接的方法和装置
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN114782720A (zh) 文案的配图确定方法、装置、电子设备、介质及程序产品
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN115982419A (zh) 一种文档字符串内容识别方法
CN117951389B (zh) 一种基于深度学习的非法网站识别方法
CN118523969B (zh) 基于dpi的校园网络诈骗预警方法及系统、可读介质
CN113065348B (zh) 基于Bert模型的互联网负面信息监控方法
CN108897749A (zh) 基于语法树和文本块密度的网页信息抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant