CN116722992A - 一种基于多模态融合的诈骗网站识别方法及装置 - Google Patents
一种基于多模态融合的诈骗网站识别方法及装置 Download PDFInfo
- Publication number
- CN116722992A CN116722992A CN202310175679.7A CN202310175679A CN116722992A CN 116722992 A CN116722992 A CN 116722992A CN 202310175679 A CN202310175679 A CN 202310175679A CN 116722992 A CN116722992 A CN 116722992A
- Authority
- CN
- China
- Prior art keywords
- fraud
- fraud website
- mode
- fusion
- identification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000004927 fusion Effects 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000007477 logistic regression Methods 0.000 claims abstract description 7
- 238000002790 cross-validation Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 12
- 238000007500 overflow downdraw method Methods 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000010354 integration Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000700605 Viruses Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态融合的诈骗网站识别方法及装置,利用交叉验证思想,对BERT模型、ResNet残差网络模型及逻辑回归模型等多个学习能力强、差异度大的基分类器进行训练,并分别对文本、图像、URL特征进行识别。基分类器识别结果作为元分类器的输入,利用Stacking集成学习思想,结合文本、图像、URL等多个模态的融合,最终将元分类器的输出作为最终的预测识别结果。本发明从不同空间角度与数据角度构建基分类器,充分的考虑各模态间的差别,取长补短,最后通过元分类器进行Stacking集成,提高方法的泛化能力,使其能够有效过滤干扰信息,识别隐藏诈骗信息,提高诈骗网站识别准确率。
Description
技术领域
本发明属于互联网信息安全技术领域,特别涉及一种基于多模态融合的诈骗网站识别方法及装置。
背景技术
国内外与本发明方法相关研究主要集中在:1)传统诈骗网站识别方法;2)单一模态的深度学习诈骗网站识别方法;3)多模态的诈骗网站识别方法。
传统诈骗网站识别方法
目前诈骗网站识别方法主要有3种:基于黑白名单技术的识别方法、基于启发式规则的识别方法及基于机器学习的识别方法。基于黑白名单技术的识别方法检测速度快、易实现,但黑白名单需经常更新,而且之前未出现过的诈骗网站无法识别。基于启发式规则的识别方法通过诈骗网站之间的相似性设计启发式规则,其可识别之前未出现的诈骗网站,但误报率较高。对此研究人员提出基于机器学习的识别方法。杨鹏等人根据提取的URL特征、HTML特征和网页文本向量特征,结合逻辑回归把高维与稀疏的文本特征转换成概率特征,建立XGBo ost网站分类模型,大大提高了识别精度(杨鹏,曾朋,赵广振,等.基于Logistic回归和XGBoost的钓鱼网站检测方法[J].东南大学学报(自然科学版),2019,49(02):207-212.)。胡向东等人提取页面标志图像特征与正规网站进行相似度匹配,判断是否为仿冒网站(胡向东,刘可,张峰,等.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(02):35-42.)。
单一模态的深度学习诈骗网站识别方法
机器学习方法尽管已展现出不错的识别效果,可是此类方法太过依赖人工特征选择,随着诈骗网站网页元素的增多,人工特征选择开始逐渐失效。深度学习方法相较传统机器学习具有更强的特征学习能力,可以自动捕获更抽象和高级别的特征,因此在网页识别领域被广泛应用。方勇等人利用LSTM和随机森林混合架构挖掘钓鱼网站URL序列的潜在特征,显著提高了钓鱼网站识别效率与准确率(方勇,龙啸,黄诚,刘亮.基于LSTM与随机森林混合构架的钓鱼网站识别研究[J].工程科学与技术,2018,50(05):196-201.)。何颖等人将网页特征划分为域名特征、标签特征、搜索引擎收录特征、文本特征及图像特征等5个维度,并结合深度神经网络,构建了网站识别模型,实验发现该识别模型在各评估指标上均优于传统机器学习模型(何颖,杨频,王丛双,汤娟.基于深度神经网络的配资网站识别研究[J].四川大学学报(自然科学版),2021,58(03):97-103.)。SIRINAM等人利用基于卷积神经网络的VGG模型挖掘Tor网页流单元序列特征,模型识别准确率达98%(Sirinam P,Imani M,Juarez M,et al.Deep fingerprinting:Undermining website fingerprintingdefenses with deep
learning[C]//Proceedings of the 2018ACM SIGSAC Conference on Computerand Communications Security.2018:1928-1943.)。马陈城等人设计了一种基于深度神经网络burst特征分析的网站指纹攻击方法,分类准确率高达99.87%(马陈城,杜学绘,曹利峰,等.基于深度神经网络burst特征分析的网站指纹攻击方法[J].计算机研究与发展,2020,57(04):80-100.)。
多模态的诈骗网站识别方法
以上识别方法研究大多局限于单一模态,但是随着互联网技术的发展,网页中包含大量的图片、文本信息,极大的增强了诈骗网站的伪装性和隐蔽性,这时单一模态所反馈的信息往往是不完整且具有局限性。多模态融合能使数据生成全面、准确的描述。Adebowale等人设计了自适应神经模糊推理系统,将钓鱼网站22个文本特征、8个框架特征及5个图像特征进行融合,并利用支持向量机进行分类预测(Adebowale M A,Lwin K T,Sanchez E,et al.Intelligent web-phishing detection and protection schemeusing integrated features of Images,frames and text[J].Expert Systems WithApplications,2019,115:300-313.)。但是当前基于多模态融合的诈骗网站识别方法依然处在探索阶段,如何高效融合不同模态,优化识别方法的准确率是目前研究热点。目前主要有三种方法:特征层融合、模型层融合及决策层融合。特征层融合直接对各模态特征进行拼接,并未考虑各模态之间的差异性。因此无法描述文本、图像、URL等之间的关联。此外,当模态数增加时,容易引起维数灾难。模型层融合需考虑到各个模态之间的特征和模型流之间的关联,实现过于复杂。决策层融合是将各单模态识别结果经某种方法进行融合的方式。相较于特征层和模型层融合,决策层融合更容易实现,而且其能较为充分的考虑各模态间的差别,更为关键的是可以综合各模态的识别结果。
发明内容
本发明目的在于针对传统诈骗网站识别中误报率高、依赖于人工选择、模态单一的局限性等问题,提出一种基于多模态融合的诈骗网站识别方法及装置(Multi-modalFraud Website Classifying Method based on Dissimilar Model Integration,MFWC-DMI)。
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于多模态融合的诈骗网站识别方法,该方法包括以下步骤:
(1)获取诈骗网站图像模态特征、诈骗网站文本模态特征、诈骗网站URL模态特征作为样本并获取样本对应的类标签,构建训练集;
(2)构建三个基分类器,分别对文本模态、图像模态和URL模态进行识别;并通过训练集对基分类器训练;
(3)构建元分类器,将基分类器的预测值基于类标签组合得到新的特征向量集合,作为元分类器的训练样本集,对元分类器训练;
(4)将训练好的三个基分类器和元分类器结合,构建多模态融合的诈骗网站识别模型,将获取的诈骗网站图像特征、诈骗网站文本特征、诈骗网站URL特征作为模型输入,得到诈骗网站的识别结果。
进一步地,将步骤(1)中的训练集分成K份,通过K折交叉验证的方式对三个基分类器进行训练。
进一步地,步骤(2)中,对文本模态识别具体过程如下:
1)对训练集中的文本数据进行分词、去停用词预处理;
2)构建BERT模型并进行预训练;
3)BERT模型获得的语义特征输入至Softmax模型完成文本模态分类。
进一步地,步骤(2)中,对图像模态识别具体过程如下:
1)通过ResNet网络进行图片特征提取;
2)利用Inception模块进行池化层堆叠;
3)通过Softmax回归层输出图像模态的分类。
进一步地,步骤(2)中,对URL模态识别具体过程如下:
1)提取URL的6个特征,分别为:是否为IP地址、是否含有可疑字符、URL长度、域名中“.”的数量、敏感词汇和是否为HTTPS链接;
2)将提取的URL特征输入到逻辑回归模型Logistic Regression进行分类。
进一步地,步骤(3)中元分类器选择线性回归模型。
进一步地,步骤(4)中,所述多模态融合的诈骗网站识别模型通过Stacking集成学习,利用多模态决策级融合方法对文本、图像、URL多个模态进行融合。
第二方面,本发明还提供了一种基于多模态融合的诈骗网站识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的基于多模态融合的诈骗网站识别方法。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的基于多模态融合的诈骗网站识别方法。
本发明的有益效果:本发明从不同空间角度与数据角度构建基分类器,充分的考虑各模态间的差别,取长补短,最后通过元分类器进行Stacking集成,提高方法的泛化能力,使其能够有效过滤干扰信息,识别隐藏诈骗信息,提高诈骗网站识别准确率。
附图说明
图1是基于多模态融合的诈骗网站识别方法流程图;
图2是Inception模块网络结构示意图;
图3是ROC曲线文字分类评估图;
图4是ROC曲线图像分类评估图
图5是ROC曲线网址分类评估图;
图6是ROC曲线综合投票评估图
图7是真是互联网环境检测系统处理流程;
图8是真实互联网环境下测试结果。
图9是本发明提供的一种基于多模态融合的诈骗网站识别装置的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
如图1所示,本发明提供了一种基于多模态融合的诈骗网站识别方法,具体步骤如下:
(1)获取诈骗网站图像模态特征、诈骗网站文本模态特征、诈骗网站URL模态特征作为样本并获取样本对应的类标签,构建训练集;具体为:对于诈骗网站训练数据集D={(xi,yi),i=1,2,…,n}中的第i个样本(xi,yi),xi=[XF,XT,XU]是样本的特征属性,其中,XF是诈骗网站图像特征,XT是诈骗网站文本特征,XU是诈骗网站URL特征;yi是样本对应的类标签。把D随机划分成K份,得数据集{D1},{D2},…,{DK},通过K折交叉验证的方式对步骤(2)中的三个基分类器进行训练。在第m次交叉训练中,定义{Dm}为测试集,D!m=D-{Dm}为训练集。
(2)构建三个基分类器,分别对文本模态、图像模态和URL模态进行识别;并通过训练集D!m对基分类器训练,学习后得到的基分类模型分别为L1,L2,L3,分别对应模型ImageRECG、TextRECG及URLRECG;具体如下:
(2.1)基于文本特征的诈骗网站识别(TextRECG);利用BERT(BidirectionalEncoder Representations from Transformers)双向语言模型,捕捉句子中词序信息、语境信息、上下文关系信息等。在诈骗网站文本识别方面,利用BERT预训练模型对数据预处理后的诈骗网站文本进行特征向量表示,然后将获得的语义特征输入到Softmax模型进行分类。具体如下:
1.诈骗网站文本数据预处理。对文本数据进行分词、去停用词等预处理。
2.构建BERT模型并进行预训练。利用BERT预训练模型对诈骗网站文本进行特征向量表示。BERT预训练模型最重要的部分是特征提取器,其由双向Transformer编码结构组成,Transformer编码结构采用了Self-Attention(自注意力)作为其核心模块。
计算注意力的方法如式(1),Q为查询向量Query,K为键向量Key,V为值向量Value,是每个编码器输入向量(每个单词的词向量)生成的3个向量,dk是输入向量维数。其关键思想是计算一个句子中每个词和句子中其他所有词的相互关系,认为这些词和词之间的相互关系在某种程度上反映了该语句中不同词之间的关联性和重要性。每个词的重要性通过相互关系来调节权重以得到词的新表示。新的表示不仅包含了该词本身,还包含了其他词和该词的关系。
最后Transformer采用“多头”模式,以拓展模型不同位置的能力,增加注意力单元的“表示子空间”,具体如式(2)和式(3):
MultiHead(Q,K,V)=Concat(head1,..,headi,…,headh)Wo (2)
式(2)中,headi表示第i个头的输出向量;Concat(·)表示一个拼接函数,可将矩阵横向拼接起来;W0表示权重矩阵,为输出的向量分配权重。式(3)中,Qi、Ki、Vi表示输入向量经过线性映射后形成的矩阵;dk表示K向量维度。
针对深度网络的退化问题,Transformer编码单元内增加残差网络与层归一化,如式(4)和式(5):
FFN=max(0,XW1+b1)W2+b2 (5)
式(4)中,uL为求解矩阵行的平均值;为求解矩阵行的方差;α和β是模型训练参数;ε用于防止分母为0。式(5)中,X为输入矩阵;W1和W2为权重矩阵;b1和b2为偏置向量。
对全连接网络的输出进行归一化与残差连接处理后获得BERT模型输出。
3.Softmax诈骗网站分类。BERT模型获得的语义特征为输入至Softmax模型,假设类别Y={y1,y2,…,yk},yk表示第k个类别,则待分类诈骗网站文本向量xi分类到第j类的概率为P(j|xi),对比每个类别概率大小,概率最大的类别为网站xi的最终分类,即label(xi)=max(P(j|xi))。
(2.2)基于图像特征的诈骗网站识别(ImageRECG);诈骗网站往往将诈骗信息隐藏在图像等多媒体数据中。由于多媒体数据具有非结构化特性,在处理中无法像结构化数据一样进行预分类。为此,本方法首先利用ResNet深度神经网络算法进行图片特征提取,解决梯度消失问题,使神经网络学习达到理想深度;然后利用Inception模块解决传统神经网络感知图像中大核卷积问题,减小模型参数个数,最后利用Softmax进行分类。该深度网络融合了ResNet与Inception网络的优点,其不仅拓宽了网络,使网络有更强的适应性及泛化能力,同时增加了网络深度,增强了网络提取特征的能力。
ImageRECG具体网络结构为:
1.ResNet网络
残差学习的目标函数H(x)分成两部分,定义为:
H(x)=F(x)+x (6)
其中x为网络输入,为图像特征,F(x)为网络学习的残差函数。如果下层误差增大时,网络自动把F(x)逼近于0。
ResNet的残差块输出为:
y=F(x,W1,W2,…,Wi,…,Wn)+x (7)
其中Wi为残差块内第i个卷积层权重。
由于线性映射的维度不匹配,为将输入与输出的维数统一,需对输入x进行一个线性变换,Ws为将变量x从输入残差模块维度变换到输出维度的矩阵,此时残差网络的输出为:
y=F(x,W1,W2,…,Wi,…,Wn)+Wsx (8)
本发明修改了传统ResNet网络中的残差块结构,各残差块含有2个卷积层,每个卷积层利用尺寸是3×3的卷积核来加大网络宽度,在两卷积层之间增加了Dropout层。
当残差块中含有2个卷积层时,其学习公式为:
F(x)=W2σ(W1x) (9)
其中σ为ReLu映射。公式(9)省略了偏置。
2.Inception模块。Inception网络将1×1、3×3、5×5的卷积核与3×3的池化层堆叠在一块。具体网络结构示意图如图2所示。Inception模块减少了参数个数。因为传统网络为了感知图像更大的区域,采用了很多大核卷积,但是实际上使用两层小核卷积就能得到和一个大核同样大小的感受视野。而两个3×3卷积参数有18,一个5×5卷积参数有25个,所以参数数量得到了减少,但效果却没有下降。
3.Softmax回归层。Softmax回归层是最后一层,用于判断网站图片被划分成某类的概率。
(2.3)基于URL特征的诈骗网站识别(URLRECG);统一资源定位符(URL,UniformResource Locator)是访问服务器某特定资源的唯一地址,具有一定特征规律。如某些非法网站的域名往往会批量创建,其域名往往会出现字母加数字的组合,伪装成银行的命名则具有高度辨识度,另外非法网站IP通常出现在国外,其域名不会备案。
首先提取了URL的6个特征,分别为:是否为IP地址、是否含有可疑字符、URL长度、域名中“.”的数量、敏感词汇、是否为HTTPS链接。然后我们将已经得到的URL特征输入到逻辑回归算法(Logistic Regression)进行分类。
(3)构建元分类器,将基分类器的预测值y1,i,y2,i,y3,i,基于类标签yi组合得到新的特征向量zi={y1,i,y2,i,y3,i},把Z={z1,z2,…,zn/K}作为元分类器(线性回归模型)的训练样本集,对元分类器训练;最终得到元分类模型FY。所述多模态融合的诈骗网站识别模型通过Stacking集成学习,利用多模态决策级融合方法对文本、图像、URL多个模态进行融合。Stacking集成学习可以修正第一层基学习器预测结果误差,提高模型性能。
(4)基于多模态融合的诈骗网站识别方法(MultiRECG)
将训练好的三个基分类器和元分类器结合,构建多模态融合的诈骗网站识别模型,将获取的诈骗网站图像特征、诈骗网站文本特征、诈骗网站URL特征作为模型输入,得到诈骗网站的识别结果。
基于多模态融合的诈骗网站识别模型的训练过程及预测过程伪代码见算法1和算法2。
(5)实验分析
训练数据分为网站图片数据、网站文本数据、网站URL数据。每类网站1000图片经过了尺度变幻,一张图经过尺度变换可以变换成8张,共计1000*8张图片,共11类;1000份文本数据,共11类文本数据;网站URL数据为网站地址,经过编码转换成二进制格式,每类网站1000*11种类别。
1.实验分析一识别准确率分析
表1混淆矩阵构成
TP为真阳性,样本实际类别及模型预测类别均是正例;FP为假阳性,样本实际类别是负例,但模型预测类别是正例;FN为假阴性,样本实际类别是正例,但模型预测类别是负例;TN为真阴性,样本实际类别及模型预测类别均是负例。
由表2混淆矩阵计算可得MultiRECG识别准确率为
TPi表示正确分类到第i类的个数,其能有效的识别诈骗网站。
表2实验混淆矩阵分析
情形1 | 情形2 | 冒充银行 | 情形3 | 冒充电商 | 情形4 | 冒充公益 | 木马病毒 | 信贷 | 理财 | 正常 | |
情形1 | 0.99 | 0.002 | 0 | 0.001 | 0.001 | 0.001 | 0.001 | 0.001 | 0.001 | 0.001 | 0.001 |
情形2 | 0.003 | 0.99 | 0 | 0.001 | 0.001 | 0.001 | 0 | 0.001 | 0.001 | 0.001 | 0.001 |
冒充银行 | 0.001 | 0.002 | 0.95 | 0.009 | 0.005 | 0.005 | 0.004 | 0.008 | 0.005 | 0.006 | 0.005 |
情形3 | 0.001 | 0.002 | 0.01 | 0.96 | 0.004 | 0.004 | 0.004 | 0.004 | 0.004 | 0.003 | 0.004 |
冒充电商 | 0.017 | 0.017 | 0.016 | 0.016 | 0.85 | 0.012 | 0.013 | 0.014 | 0.015 | 0.015 | 0.015 |
情形4 | 0.022 | 0.022 | 0.022 | 0.021 | 0.019 | 0.8 | 0.017 | 0.018 | 0.02 | 0.019 | 0.02 |
冒充公益 | 0.024 | 0.024 | 0.023 | 0.023 | 0.021 | 0.02 | 0.78 | 0.02 | 0.022 | 0.021 | 0.022 |
木马病毒 | 0.021 | 0.021 | 0.02 | 0.02 | 0.018 | 0.017 | 0.017 | 0.81 | 0.019 | 0.018 | 0.019 |
信贷 | 0.011 | 0.012 | 0.012 | 0.012 | 0.011 | 0.01 | 0.01 | 0.01 | 0.89 | 0.011 | 0.011 |
理财 | 0.014 | 0.014 | 0.014 | 0.014 | 0.012 | 0.012 | 0.011 | 0.012 | 0.013 | 0.87 | 0.014 |
正常 | 0.013 | 0.013 | 0.013 | 0.013 | 0.011 | 0.011 | 0.011 | 0.011 | 0.012 | 0.012 | 0.88 |
2.实验分析二召回率分析
具体计算方式:
表3为每种分类方式对于不同分类判断的召回率,从表3可以得出由于每种方法具有局限性,MultiRECG效果最好。
表3诈骗网站实验召回率
3.实验分析三ROC曲线分析
图3-图6纵轴为真阳性率TPR=TP/(TP+FN),即实际正例得到准确分类的比例;横轴为伪阳性率FPR=FP/(FP+TN),即实际负例被错分类成正例的比例。
图3-图6的坐标点分别为:
坐标(0,0)表示全部样本均被预测成负样本;
坐标(0,1)表示全部样本均预测正确,是完美的分类器;
坐标(1,1)表示全部样本均被预测成正样本;
坐标(1,0)表示全部正样本均被预测成负样本,而全部负样本均被预测成正样本,是最不理想的分类器。
因此,ROC曲线越靠近左上角,则说明预测效果越好。
本发明还引入AUC(Area Under Curve)指标,
该指标被定义为ROC曲线下方和坐标轴围成的面积。分类器效果越好,ROC曲线越向左上角靠近,AUC值就越接近1。本发明模型的AUC值为0.9,已符合预期。
图3表明情形1和情形2使用TextRECG分类效果非常好,在高召回率下就有极高的准确率,但木马病毒和冒充公益的效果不太好。
图4表明使用ImageRECG分类时,情形4和冒充公益的效果不好,而情形1和情形2效果出色。尤其是情形1网站,使用ImageRECG分类时ROC曲线非常陡峭,拐点非常接近坐标左上角。
图5表明当使用URLRECG分类时,情形3和信贷理财效果显著,因为这类网站域名具有非常明显的特征。
结合图6,综合上述分析表明MultiRECG的ROC更靠近Y轴,准确率更高。
4.真实环境测试
将该算法集成至检测系统,并部署至真实互联网环境,进行测试,处理流程如图7,并选择了两种多模态融合方式进行对比,即基于加权的决策级融合方法(WH-MultiRECG)和基于布尔系统的决策级融合方法(BL-MultiRECG),测试结果如图8。
图8显示MultiRECG对诈骗网站的识别准确率分别比BL-MultiRECG和WH-MultiRECG提高了1.9%和3.6%,这表明MultiRECG在真实互联网环境下也有较好的表现。
与前述基于多模态融合的诈骗网站识别方法的实施例相对应,本发明还提供了基于多模态融合的诈骗网站识别装置的实施例。
参见图9,本发明实施例提供的一种基于多模态融合的诈骗网站识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于多模态融合的诈骗网站识别方法。
本发明基于多模态融合的诈骗网站识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图9所示,为本发明基于多模态融合的诈骗网站识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于多模态融合的诈骗网站识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (9)
1.一种基于多模态融合的诈骗网站识别方法,其特征在于,该方法包括以下步骤:
(1)获取诈骗网站图像模态特征、诈骗网站文本模态特征、诈骗网站URL模态特征作为样本并获取样本对应的类标签,构建训练集;
(2)构建三个基分类器,分别对文本模态、图像模态和URL模态进行识别;并通过训练集对基分类器训练;
(3)构建元分类器,将基分类器的预测值基于类标签组合得到新的特征向量集合,作为元分类器的训练样本集,对元分类器训练;
(4)将训练好的三个基分类器和元分类器结合,构建多模态融合的诈骗网站识别模型,将获取的诈骗网站图像特征、诈骗网站文本特征、诈骗网站URL特征作为模型输入,得到诈骗网站的识别结果。
2.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法,其特征在于,将步骤(1)中的训练集分成K份,通过K折交叉验证的方式对三个基分类器进行训练。
3.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法,其特征在于,步骤(2)中,对文本模态识别具体过程如下:
1)对训练集中的文本数据进行分词、去停用词预处理;
2)构建BERT模型并进行预训练;
3)BERT模型获得的语义特征输入至Softmax模型完成文本模态分类。
4.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法,其特征在于,步骤(2)中,对图像模态识别具体过程如下:
1)通过ResNet网络进行图片特征提取;
2)利用Inception模块进行池化层堆叠;
3)通过Softmax回归层输出图像模态的分类。
5.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法,其特征在于,步骤(2)中,对URL模态识别具体过程如下:
1)提取URL的6个特征,分别为:是否为IP地址、是否含有可疑字符、URL长度、域名中“.”的数量、敏感词汇和是否为HTTPS链接;
2)将提取的URL特征输入到逻辑回归模型Logistic Regression进行分类。
6.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法,其特征在于,步骤(3)中元分类器选择线性回归模型。
7.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法,其特征在于,步骤(4)中,所述多模态融合的诈骗网站识别模型通过Stacking集成学习,利用多模态决策级融合方法对文本、图像、URL多个模态进行融合。
8.一种基于多模态融合的诈骗网站识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-7中任一项所述的基于多模态融合的诈骗网站识别方法。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7中任一项所述的基于多模态融合的诈骗网站识别方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2023101506397 | 2023-02-22 | ||
CN202310150639 | 2023-02-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116722992A true CN116722992A (zh) | 2023-09-08 |
Family
ID=87868498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310175679.7A Pending CN116722992A (zh) | 2023-02-22 | 2023-02-28 | 一种基于多模态融合的诈骗网站识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116722992A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117614749A (zh) * | 2024-01-24 | 2024-02-27 | 杰创智能科技股份有限公司 | 风险网站识别方法、装置、电子设备及存储介质 |
CN117828479A (zh) * | 2024-02-29 | 2024-04-05 | 浙江鹏信信息科技股份有限公司 | 诈骗网站识别检测方法、系统及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197591A (zh) * | 2018-01-22 | 2018-06-22 | 北京林业大学 | 一种基于多特征融合迁移学习的鸟类个体识别方法 |
CN110414554A (zh) * | 2019-06-18 | 2019-11-05 | 浙江大学 | 一种基于多模型改进的Stacking集成学习鱼类识别方法 |
CN111598163A (zh) * | 2020-05-14 | 2020-08-28 | 中南大学 | 基于Stacking集成学习方式雷达HRRP目标识别方法 |
CN113051500A (zh) * | 2021-03-25 | 2021-06-29 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113407886A (zh) * | 2021-07-10 | 2021-09-17 | 广州数智网络科技有限公司 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
CN113592103A (zh) * | 2021-07-26 | 2021-11-02 | 东方红卫星移动通信有限公司 | 一种基于集成学习和动态分析的软件恶意行为识别方法 |
CN115600040A (zh) * | 2022-11-25 | 2023-01-13 | 清华大学(Cn) | 一种钓鱼网站识别方法及装置 |
-
2023
- 2023-02-28 CN CN202310175679.7A patent/CN116722992A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197591A (zh) * | 2018-01-22 | 2018-06-22 | 北京林业大学 | 一种基于多特征融合迁移学习的鸟类个体识别方法 |
CN110414554A (zh) * | 2019-06-18 | 2019-11-05 | 浙江大学 | 一种基于多模型改进的Stacking集成学习鱼类识别方法 |
CN111598163A (zh) * | 2020-05-14 | 2020-08-28 | 中南大学 | 基于Stacking集成学习方式雷达HRRP目标识别方法 |
CN113051500A (zh) * | 2021-03-25 | 2021-06-29 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113407886A (zh) * | 2021-07-10 | 2021-09-17 | 广州数智网络科技有限公司 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
CN113592103A (zh) * | 2021-07-26 | 2021-11-02 | 东方红卫星移动通信有限公司 | 一种基于集成学习和动态分析的软件恶意行为识别方法 |
CN115600040A (zh) * | 2022-11-25 | 2023-01-13 | 清华大学(Cn) | 一种钓鱼网站识别方法及装置 |
Non-Patent Citations (5)
Title |
---|
丁兆云: "《数据挖掘原理与应用》", 31 January 2022, 机械工业出版社, pages: 242 - 245 * |
张丹丹: "《基于深度神经网络技术的高分遥感图像处理及应用》", 31 August 2020, 中国宇航出版社, pages: 66 - 69 * |
强彦: "《人工智能算法实例集锦 Python语言》", 31 March 2022, 西安电子科学技术大学出版社, pages: 166 - 171 * |
赵翠平: "融合URL和页面信息的恶意网站识别方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, vol. 2022, no. 12, 15 December 2022 (2022-12-15), pages 139 - 250 * |
郭业才: "《深度学习与信号处理 原理与实践》", 30 June 2022, 机械工业出版社, pages: 151 - 156 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117614749A (zh) * | 2024-01-24 | 2024-02-27 | 杰创智能科技股份有限公司 | 风险网站识别方法、装置、电子设备及存储介质 |
CN117828479A (zh) * | 2024-02-29 | 2024-04-05 | 浙江鹏信信息科技股份有限公司 | 诈骗网站识别检测方法、系统及计算机可读存储介质 |
CN117828479B (zh) * | 2024-02-29 | 2024-06-11 | 浙江鹏信信息科技股份有限公司 | 诈骗网站识别检测方法、系统及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
US11244205B2 (en) | Generating multi modal image representation for an image | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN116722992A (zh) | 一种基于多模态融合的诈骗网站识别方法及装置 | |
CN111695604B (zh) | 一种图像可信度的确定方法、装置及电子设备、存储介质 | |
CN111931935B (zh) | 基于One-shot 学习的网络安全知识抽取方法和装置 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN111783903A (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN117521012A (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
CN116527357A (zh) | 一种基于门控Transformer的Web攻击检测方法 | |
CN112464655A (zh) | 中文字符和拼音相结合的词向量表示方法、装置、介质 | |
CN116975340A (zh) | 信息检索方法、装置、设备、程序产品及存储介质 | |
CN113778256A (zh) | 具有触摸屏的电子设备及其触摸解锁方法 | |
CN116912597A (zh) | 知识产权智能管理系统及其方法 | |
Kopčan et al. | Anomaly detection using autoencoders and deep convolution generative adversarial networks | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN118013518A (zh) | 网站类别的识别方法及装置、设备、存储介质 | |
CN118152594A (zh) | 一种含有误导性信息的新闻检测方法、装置与设备 | |
CN117729003A (zh) | 基于机器学习的威胁情报可信分析系统及方法 | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
KR20240013640A (ko) | 유해 url 탐지 방법 | |
CN113657443B (zh) | 一种基于soinn网络的在线物联网设备识别方法 | |
CN117077680A (zh) | 问答意图识别方法及装置 | |
Zhou et al. | Multimodal fraudulent website identification method based on heterogeneous model ensemble |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |