CN112860976B - 一种基于多模态层次注意力机制的欺诈网站检测方法 - Google Patents

一种基于多模态层次注意力机制的欺诈网站检测方法 Download PDF

Info

Publication number
CN112860976B
CN112860976B CN202110265794.4A CN202110265794A CN112860976B CN 112860976 B CN112860976 B CN 112860976B CN 202110265794 A CN202110265794 A CN 202110265794A CN 112860976 B CN112860976 B CN 112860976B
Authority
CN
China
Prior art keywords
network
website
representation
representing
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110265794.4A
Other languages
English (en)
Other versions
CN112860976A (zh
Inventor
柴一栋
周永行
姜元春
刘业政
钱洋
孙见山
孙春华
刘鹏鹏
崔福来
井二康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110265794.4A priority Critical patent/CN112860976B/zh
Publication of CN112860976A publication Critical patent/CN112860976A/zh
Application granted granted Critical
Publication of CN112860976B publication Critical patent/CN112860976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于多模态层次注意力机制的欺诈网站检测方法,包括:1使用长短期记忆网络对网页网址以及文本内容进行抽取;2通过注意力机制网络自动提取模态内不同特征的重要性权重;3通过注意力机制网络自动学习不同模态特征的重要性;4融合多模态特征,构建共享字典学习方法,将不同模态空间中特征映射到相同语义空间,并完成欺诈网站检测。本发明能够解决现有检测方法无法实时检测、以及误识别问题,从而进一步提高欺诈网站识别的准确率。

Description

一种基于多模态层次注意力机制的欺诈网站检测方法
技术领域
本发明属于大数据处理与网络安全领域,具体来说是一种基于多模态数据欺诈网站分类方法。
技术背景
数字技术的飞速发展,个人和组织不断地将商业转向电子商务平台。2019年全球电子商务市场高达9.09万亿美元。与此同时,对于电子交易来说,欺诈成为主要的普遍存在的问题。在欺诈攻击中,欺诈者诱导互联网用户采取某种动作以及提供敏感的信息(例如,银行账户和密码等)。这种欺诈行为通常是通过电子商务平台采用向受害者的通信信息完成的(例如,HTTP、email,SNS等)。据报道,2019年全世界88%的组织受到了欺诈攻击,对于中型的组织来说平均一次成功的欺诈攻击将会造成160万美元的损失。
网站欺诈攻击是最流行的欺诈攻击方式之一,网站欺诈攻击通常使用一个欺骗性的网站来窃取互联网用户的敏感信息。到目前为止,创建欺诈网站的低门槛性以及高成功率使得虚假网站攻击成为最常见的网络空间攻击类型之一。尽管有大量关于欺诈网站检测的研究,欺诈网站仍然是近些年来一直持续不断的网络安全威胁。
空间安全智能作为一种克服持续的网站欺诈攻击的有希望的工具提供了及时相关可控的智能。然而现有的虚假网站检测方法是受限的。现有的方法可以分为三大类:查询系统、基于虚假线索的方法,以及基于深度学习表示的方法。查询系统通过维护一个网站URL的黑名单,来确定网站的合法性。黑名单的维护需要消耗大量的人力物力资源,并且无法提供实时的检测。基于欺诈线索的方法从欺诈网站中抽取出欺诈线索并且利用传统的分类器对网站进行识别。基于欺诈线索的方法通常需要手工构造欺诈线索。这种特征工程往往耗时耗力,并且容易被欺诈者识别和规避。基于深度学习表示的方法可以从欺诈网站中自动抽取出欺诈线索以及进行识别。然而,现有的基于深度学习表示的方法很少考虑网页上丰富的多模态信息。
发明内容
本发明克服了现有技术存在的不足之处,提出了一种基于多模态层次注意力机制的欺诈网站检测方法,以期能够解决现有检测方法无法实时检测、以及误识别问题,从而进一步提高欺诈网站识别的准确率。
本发明为解决技术问题采用如下技术方案:
本发明一种基于多模态层次注意力机制的欺诈网站检测方法的特点是按照以下步骤进行:
步骤1:定义待检测的网站网页的网址、网页文本、以及页面上的图片集分别为U、C、I;其中,U={u1,u2,...,us,...,uS},us为网址U中第s个字符,s=1,2,…,S,S表示网址中字符的数量;C={c1,c2,...,cp,...,cP},cp为网页文本C中的第p个字符,p=1,2,…,P,P为网页文本C中字符的数量;I={i1,i2,...,ik,...,iK},ik为图片集I中的第k张图片,k=1,2,…,K,K为所述图片集I中包含图片的数量;
构建包含两个长短期记忆网络、三个注意力机制网络、ResNet50网络、一个全连接网络所组成的模态表示网络;
构建包含一个注意力机制网络和一个全连接网络所组成的模态对齐表示网络;
步骤2:使用包含第一长短期记忆网络和第一注意力机制网络的第一融合网络计算网址U的特征;
步骤2.1:使用独热编码对网址U进行表示,得到编码后的网址U′={u′1,u′2,...,u′s,...,u′S},其中,u′s为第s个字符us的独热编码;定义网址U中所有字符的嵌入式参数表为EmbU;将嵌入式参数表EmbU与编码后的网址U′做矩阵内积运算,得到网址U中每个字符的嵌入式表示
Figure BDA0002971737040000021
其中,
Figure BDA0002971737040000022
表示第s个字符us的嵌入式表示;
步骤2.2:将所述嵌入式表示
Figure BDA0002971737040000023
输入第一长短期记忆网络中,从而计算网址U中第s个字符us的隐特征表示
Figure BDA0002971737040000024
进而得到隐特征表示矩阵
Figure BDA0002971737040000025
步骤2.3:将所述隐特征表示矩阵
Figure BDA0002971737040000026
输入所述第一注意力机制网络中,从而计算网址U的隐特征表示vU以及第s个字符us所占的权重值
Figure BDA0002971737040000027
步骤3:使用第二长短期记忆网络和第二注意力机制网络的第二融合网络计算网页文本内容的特征;
步骤3.1:使用独热编码对网页文本C进行表示,得到编码后的网页文本C′={c′1,c′2,...,c′p,...,c′P},其中,c′p表示到编码后的网页文本C′中第p个字符的独热编码,定义文本字符的嵌入式参数表EmbC;将嵌入式参数表EmbC与编码后的网页文本C′做矩阵内积运算,得到网页文本C中每个字符的嵌入式表示
Figure BDA0002971737040000028
其中,
Figure BDA0002971737040000029
表示网页文本中第p个字符的的嵌入式表示;
步骤3.2:将所述网页文本字符嵌入式
Figure BDA0002971737040000031
表示输入所述第二长短期记忆网络中,从而计算网页文本C中第p个字符的隐特征表示
Figure BDA0002971737040000032
进而得到隐特征表示矩阵
Figure BDA0002971737040000033
步骤3.3:将所述隐特征表示矩阵
Figure BDA0002971737040000034
输入第二注意力机制网络中,从而计算网页文本C的隐特征表示vC以及第p个字符cp所占的权重值
Figure BDA0002971737040000035
步骤4:计算图片的隐特征向量;
步骤4.1:将所述图片集I中的每张图片转换成RGB三通道格式并进行放缩,得到处理后的图片集I′后输入训练好的ResNet50网络中,并将ResNet50网络中倒数第二层的输出作为图片集I的隐特征表示
Figure BDA0002971737040000036
其中,
Figure BDA0002971737040000037
表示第k张图片ik的隐特征表示;
步骤4.2:将所述隐特征表示
Figure BDA0002971737040000038
输入第三注意力机制网络中,从而计算图片集I的隐特征表示vI以及第k张图片所占的权重
Figure BDA0002971737040000039
步骤5:训练模态表示网络;
步骤5.1:将三个隐特征表示vU,vC,vI进行拼接后得到待检测的网站网页的隐特征表示q,将所述隐特征表示q输入第一全连接网络中,得到网站网页为虚假网站的预测值
Figure BDA00029717370400000310
步骤5.2:使用二分类交叉熵作为损失函数,计算所述模态表示网络的损失Lpre
步骤5.3:使用Adam梯度下降方法最小化损失函数Lpre,从而对所述模态表示网络的参数进行优化,得到训练后的模态表示网络;
步骤6:训练模态对齐表示网络;
步骤6.1:定义共享字典矩阵D以及网页网址U,网页文本C,网页图片I的模态对齐映射矩阵MU、MC、MI并使用正态分布进行随机初始化;
利用式(1)构建基于共享字典学习的对齐模态训练损失函数LA
Figure BDA00029717370400000311
式(1)中,
Figure BDA00029717370400000312
分别为网页网址U、网页文本C以及网页中图片I模态对齐后的隐特征表示;λ为正则项的权重;di表示所述共享字典矩阵D中第i行元素;ui表示所述共享字典矩阵D中第i行元素di的权重;
步骤6.2:将三个隐特征表示
Figure BDA0002971737040000041
输入第四注意力机制网络中,从而计算网站网页的隐特征表示
Figure BDA0002971737040000042
以及三个隐特征表示
Figure BDA0002971737040000043
的权重值
Figure BDA0002971737040000044
步骤6.3:利用式(2)计算网站网页是欺诈网站的概率
Figure BDA0002971737040000045
Figure BDA0002971737040000046
式(2)中,Wq、bq表示第二全连接网络的两个参数;
步骤6.4:使用式(3)构建总体损失函数Ltotal
Figure BDA0002971737040000047
式(3)中,
Figure BDA0002971737040000048
为对齐模态训练损失函数LA的权重;
Figure BDA0002971737040000049
表示所述待检测网站为欺诈网站的概率,
Figure BDA00029717370400000410
表示所述待检测网站为非欺诈网站的概率;y为网站网页是否为欺诈网站的真实标签;
步骤6.5:通过Adam随机梯度下降法最小化Ltotal,从而对模态对齐表示网络中的参数进行优化,得到训练后的模态对齐表示网络;从而以所述训练后的模态表示网络以及训练后的模态对齐表示网络计算
Figure BDA00029717370400000411
来实现欺诈网站的检测。
与已有技术相比,本发明有益效果体现在:
1、本发明通过融合网页中三种模态的信息,从而获得了识别准确率高欺诈网站检测方法,并克服了传统方法无法利用网页中多模态信息,同时也解决了传统方法中需要人工进行特征工程以及检测时效低的问题,进而提高了欺诈网站检测的准确性以及时效低的问题。
2、本发明通过引入层次注意力的方法,为欺诈网站检测中网页的三种模态自动分配重要性,在每种模态信息中,为欺诈线索自动分配重要性权重,从而获得具有一定可解释性的欺诈网站检测方法,并且融合了三种模态信息,进而提高了欺诈网站检测模型的可解释性以及准确率。
3、本发明提出了利用共享字典的方法将不同模态空间的信息映射到同一空间中,进而可以通过注意力机制来计算不同模态提供的信息的重要程度,解决了不同模态空间信息难以融合的问题,进而提高了欺诈网站检测的准确率。
3、本发明提供一种可以融合多模态并且提供一定可解释的算法框架,可以灵活扩展并且应用在各种多元异构多模态分类问题的场景中。
附图表说明
图1本发明方法流程图。
具体实施方式
本实施例中,一种基于多模态层次注意力机制的欺诈网站检测方法是对网页数据进行预处理操作,并将网页网址、网页文本内容、图片表示成向量的形式,然后通过层次注意力机制将三种模态的数据进行融合,使用模态内注意力权重表示欺诈线索的重要程度以及使用模态间的注意力权重表示不同模态数据对欺诈网站预测结果的重要性,并使用共享字典学习的方式对齐不同模态空间的信息,而提高基于深度学习表示学习模型的可解释性,进而提高本发明识别欺诈网站的准确性。具体地说,如图1所示,包含以下步骤:
步骤1:定义待检测的网站网页的网址、网页文本、以及页面上的图片集分别为U、C、I;其中,U={u1,u2,...,us,...,uS},us为网址U中第s个字符,S表示网址中字符的数量;C={c1,c2,...,cp,...,cP},cp为网页文本C中的第p个字符,P为网页文本C中字符的数量;I={i1,i2,...,ik,...,iK},ik为图片集I中的第k张图片,K为图片集I中包含图片的数量;
利用网络爬虫技术从http://phishtank.org/index.php收集到欺诈网站的网址而获取到网站主页的详细内容,从而构建欺诈网站样本。从https://www.dmoz-odp.org/网站上收集各种类型网站作为非欺诈网站样本,从而通过使用这些样本学习训练得到欺诈网站的识别器。
构建包含两个长短期记忆网络、三个注意力机制网络、ResNet50网络、一个全连接网络所组成的模态表示网络;
构建包含一个注意力机制网络和一个全连接网络所组成的模态对齐表示网络;
步骤2:使用包含第一长短期记忆网络和第一注意力机制网络的第一融合网络计算网址U的特征;
步骤2.1:使用独热编码对网址U进行表示,得到编码后的网址U′={u′1,u′2,...,u′s,...,u′S},其中,u′s为第s个字符us的独热编码;定义网址U中所有字符的嵌入式参数表为EmbU;将嵌入式参数表EmbU与编码后的网址U′做矩阵内积运算,得到网址U中每个字符的嵌入式表示
Figure BDA0002971737040000051
其中,
Figure BDA0002971737040000052
表示第s个字符us的嵌入式表示;
步骤2.2:将嵌入式表示
Figure BDA0002971737040000061
输入第一长短期记忆网络中,从而计算网址U中第s个字符us的隐特征表示
Figure BDA0002971737040000062
进而得到隐特征表示矩阵
Figure BDA0002971737040000063
步骤2.3:将隐特征表示矩阵
Figure BDA0002971737040000064
输入第一注意力机制网络的式(1)中算网页网址的隐特征表示vu
Figure BDA0002971737040000065
式(1)中,
Figure BDA0002971737040000066
为第s个字符所占的权重值;
通过式(2)计算第s个字符us所占的权重值
Figure BDA0002971737040000067
Figure BDA0002971737040000068
式(2)中,Contextu为网页网址的注意力上下文,并使用正态分布随机初始化;
Figure BDA0002971737040000069
表示第s个字符的注意力隐特征表示,由式(3)计算得到:
Figure BDA00029717370400000610
式(3)中,Wu,bu为第一注意力机制网络的参数;
步骤3:使用第二长短期记忆网络和第二注意力机制网络的第二融合网络计算网页文本内容的特征;
步骤3.1:使用独热编码对网页文本内容进行表示,得到编码后的网页文本内容将C′={c′1,c′2,...,c′p,...,c′P},其中c′p为网页文本内容中第p个字符cp的独热编码;定义网页文本内容中所有字符的嵌入式参数表Embc;将嵌入式参数表Embc与编码后的网页文本内容C′做矩阵内积运算,得到网页文本中每个字符的嵌入式表示
Figure BDA00029717370400000611
其中,
Figure BDA00029717370400000612
为第p个字符的嵌入式表示;
步骤3.2:将网页文本字符嵌入式
Figure BDA00029717370400000613
表示输入第二长短期记忆网络中,从而计算网页文本C中第p个字符的隐特征表示
Figure BDA00029717370400000614
进而得到隐特征表示矩阵
Figure BDA00029717370400000615
步骤3.3:将的隐特征表示矩阵
Figure BDA00029717370400000616
输入至第二注意力机制网络中,从而利用式(4)计算文本隐特征表示vc
Figure BDA0002971737040000071
式(4)中,
Figure BDA0002971737040000072
为第p个字符所占的权重值;
通过式(5)计算第p个字符cp所占的权重值
Figure BDA0002971737040000073
Figure BDA0002971737040000074
式(5)中,Contextc为网页文本的注意力上下文,并使用正态分布随机初始化;
Figure BDA00029717370400000715
表示第p个字符的注意力隐特征表示,由式(6)计算得到:
Figure BDA0002971737040000075
式(6)中,Wc,bc为第二注意力机制网络的参数;
步骤4:计算图片的隐特征向量。
步骤4.1:将图片转换成RGB三通道格式,并将长宽分别放缩为224像素与224像素。将图片输出至经预训练的ResNet50算法中,取倒数第二层2048维的输出作为图像的隐特征
Figure BDA0002971737040000076
其中,
Figure BDA0002971737040000077
为第k张图片的隐特征表示;
步骤4.2:将隐特征表示
Figure BDA0002971737040000078
输入第三注意力机制网络的式(7)中,从而计算图片集I的隐特征表示vI以及第k张图片所占的权重
Figure BDA0002971737040000079
Figure BDA00029717370400000710
式(7)中,
Figure BDA00029717370400000711
表示第k张图片所占的权重值,
Figure BDA00029717370400000712
表示表示第k张图片的注意力隐特征表示,并有:
Figure BDA00029717370400000713
Figure BDA00029717370400000714
式(8)和式(9)中,Wi,bi为第三注意力机制网络的参数;contexti为网页图片的注意力上下文;
步骤5:训练模态表示网络;
步骤5.1:将将三个隐特征表示vU,vC,vI进行拼接后得到待检测的网站网页的隐特征表示q=[vU;vC;vI],将隐特征q输入至全连接网络的式(10)中,从而得到网站为虚假网站得到预测值
Figure BDA0002971737040000081
Figure BDA0002971737040000082
式(10)中,Wq,bq为第一全连接网络的参数;
步骤5.2:使用二分类交叉熵作为损失函数如式(11)所示,计算模态表示网络的损失Lpre
Figure BDA0002971737040000083
式(11)中,
Figure BDA0002971737040000084
表示待检测网站为欺诈网站的概率,
Figure BDA0002971737040000085
表示待检测网站为非欺诈网站的概率;y为网站网页是否为欺诈网站的真实标签;
步骤5.3使用Adam梯度下降方法最小化损失函数Lpre对模态表示网络的参数进行优化,定义模态表示网络中所有参数为Θpre,即
Figure BDA0002971737040000086
得到训练后的模态表示网络;
步骤6:训练模态对齐表示网络;
步骤6.1:定义共享字典矩阵D以及网页网址U、网页文本C、网页图片I的模态对齐映射矩阵MU、MC、MI并使用正态分布进行随机初始化;
利用式(12)构建基于共享字典学习的对齐模态训练损失函数LA
Figure BDA0002971737040000087
式(12)中,
Figure BDA0002971737040000088
分别为网页网址U、网页文本C以及网页中图片I模态对齐后的隐特征表示;λ为正则项的权重;di表示共享字典矩阵D中第i行元素;ui表示共享字典矩阵D中第i行元素di的权重;
步骤6.2:将三个隐特征表示
Figure BDA0002971737040000089
输入至第四注意力机制网络的式(13)中,从而计算网站网页的隐特征表示
Figure BDA00029717370400000810
Figure BDA00029717370400000811
式(13)中,
Figure BDA0002971737040000091
为三个隐特征表示
Figure BDA0002971737040000092
的权重值,并分别由式(14-16)计算所得;
Figure BDA0002971737040000093
Figure BDA0002971737040000094
Figure BDA0002971737040000095
式(14)-式(16)中,Contextq为网页注意力上下文,并使用正态分布进行随机初始化;uU,uC,uI分别为模态对齐后的网页网址U、网页文本C、以及网页中图片I的注意力隐特征表示,并式(17)计算得到:
Figure BDA0002971737040000096
式(17)中,
Figure BDA0002971737040000097
为第四注意力机制网络的参数;
步骤6.3:利用式(18)计算网站网页是欺诈网站的概率
Figure BDA0002971737040000098
Figure BDA0002971737040000099
式(18)中,Wq、bq表示第二全连接网络的两个参数;
步骤6.4:使用式(19)构建总体损失函数Ltotal
Figure BDA00029717370400000910
式(19)中,
Figure BDA00029717370400000911
为对齐模态训练损失函数LA的权重;
Figure BDA00029717370400000912
表示待检测网站为欺诈网站的概率,
Figure BDA00029717370400000913
表示待检测网站为非欺诈网站的概率;y为网站网页是否为欺诈网站的真实标签;
步骤6.5:通过Adam随机梯度下降法最小化Ltotal,从而对模态对齐表示网络中的参数进行优化,即
Figure BDA00029717370400000914
并得到训练后的模态对齐表示网络,其中,ΘA为模态对齐网络中的所有参数,从而以训练后的模态表示网络以及训练后的模态对齐表示网络计算
Figure BDA00029717370400000915
来实现欺诈网站的检测。
为了验证本发明方法的有效性,本发明选用分类问题常用的方法SVM、LR、NB以及基于深度学习表示欺诈网站识别方法C-BiGRU-A、C-CNN、C-LSTM、CNN+LSTM、CNN-LSTM、BiLSTM-A、MLP等方法进行比较。并且采用准确度(Acc.)、精确度(Pre.)、召回率(Rec.),F1等评价指标。实验将数据集以8:1:1的比例切分为训练集、测试机、验证集。本发明的方法在训练集上进行学习,使用测试集寻找最优的超参数,使用验证集上的结果进行与基准方式比较。为了提高实验结果的有效性和可信度,每个实验重复进行10次,记录在各指标数值。最后将本发明所提方法与上述方法的性能进行t-检验比较。如表1所示:
表1本发明在构建数据集上与基准方法的性能比较
Baselines Acc. Pre. Rec. F1
LR 0.8679 0.8543 0.8875 0.8706
SVM 0.8464 0.8490 0.8432 0.8461
NB 0.7315 0.8750 0.5409 0.6685
C-BiGRU-A 0.9183 0.9248 0.9122 0.9177
C-CNN 0.9447 0.9404 0.9500 0.9450
C-LSTM 0.9451 0.9435 0.9473 0.9453
CNN+LSTM 0.9327 0.9321 0.9346 0.9328
CNN-LSTM 0.8980 0.9027 0.8968 0.8980
BiLSTM-A 0.8138 0.8387 0.8099 0.7958
MLP 0.6402 0.7031 0.5627 0.5937
本发明方法 0.9665 0.9708 0.9635 0.9666
从表1中可知,本发明的方法在四项指标上均显著优于上述的基准方法,实验结果验证了本发明的有效性。
综上所述,本发明一种基于多模态层次注意力机制的欺诈网站检测方法,有效解决了欺诈网站检测中误识别率高,时效低的问题,注意力机制可以使模型可以自动学习模态内与模态间不同特征的重要性程度,使用共享字典学习的方法,对齐了不同模态空间中的信息,解决了多模态空间信息融合的难题,该欺诈网站检测方法有效的提升了欺诈网站检测的性能。

Claims (1)

1.一种基于多模态层次注意力机制的欺诈网站检测方法,其特征是按照以下步骤进行:
步骤1:定义待检测的网站网页的网址、网页文本、以及页面上的图片集分别为U、C、I;其中,U={u1,u2,...,us,...,uS},us为网址U中第s个字符,s=1,2,…,S,S表示网址中字符的数量;C={c1,c2,...,cp,...,cP},cp为网页文本C中的第p个字符,p=1,2,…,P,P为网页文本C中字符的数量;I={i1,i2,...,ik,...,iK},ik为图片集I中的第k张图片,k=1,2,…,K,K为所述图片集I中包含图片的数量;
构建包含两个长短期记忆网络、三个注意力机制网络、ResNet50网络、一个全连接网络所组成的模态表示网络;
构建包含一个注意力机制网络和一个全连接网络所组成的模态对齐表示网络;
步骤2:使用包含第一长短期记忆网络和第一注意力机制网络的第一融合网络计算网址U的特征;
步骤2.1:使用独热编码对网址U进行表示,得到编码后的网址U′={u′1,u′2,...,u′s,...,u′S},其中,u′s为第s个字符us的独热编码;定义网址U中所有字符的嵌入式参数表为EmbU;将嵌入式参数表EmbU与编码后的网址U′做矩阵内积运算,得到网址U中每个字符的嵌入式表示
Figure FDA0002971737030000011
其中,
Figure FDA0002971737030000012
表示第s个字符us的嵌入式表示;
步骤2.2:将所述嵌入式表示
Figure FDA0002971737030000013
输入第一长短期记忆网络中,从而计算网址U中第s个字符us的隐特征表示
Figure FDA0002971737030000014
进而得到隐特征表示矩阵
Figure FDA0002971737030000015
步骤2.3:将所述隐特征表示矩阵
Figure FDA0002971737030000016
输入所述第一注意力机制网络中,从而计算网址U的隐特征表示vU以及第s个字符us所占的权重值
Figure FDA0002971737030000017
步骤3:使用第二长短期记忆网络和第二注意力机制网络的第二融合网络计算网页文本内容的特征;
步骤3.1:使用独热编码对网页文本C进行表示,得到编码后的网页文本C′={c′1,c′2,...,c′p,...,c′P},其中,c′p表示到编码后的网页文本C′中第p个字符的独热编码,定义文本字符的嵌入式参数表EmbC;将嵌入式参数表EmbC与编码后的网页文本C′做矩阵内积运算,得到网页文本C中每个字符的嵌入式表示
Figure FDA0002971737030000018
其中,
Figure FDA0002971737030000019
表示网页文本中第p个字符的嵌入式表示;
步骤3.2:将所述网页文本字符嵌入式
Figure FDA0002971737030000021
表示输入所述第二长短期记忆网络中,从而计算网页文本C中第p个字符的隐特征表示
Figure FDA0002971737030000022
进而得到隐特征表示矩阵
Figure FDA0002971737030000023
步骤3.3:将所述隐特征表示矩阵
Figure FDA0002971737030000024
输入第二注意力机制网络中,从而计算网页文本C的隐特征表示vC以及第p个字符cp所占的权重值
Figure FDA0002971737030000025
步骤4:计算图片的隐特征向量;
步骤4.1:将所述图片集I中的每张图片转换成RGB三通道格式并进行放缩,得到处理后的图片集I′后输入训练好的ResNet50网络中,并将ResNet50网络中倒数第二层的输出作为图片集I的隐特征表示
Figure FDA0002971737030000026
其中,hik表示第k张图片ik的隐特征表示;
步骤4.2:将所述隐特征表示
Figure FDA0002971737030000027
输入第三注意力机制网络中,从而计算图片集I的隐特征表示vI以及第k张图片所占的权重
Figure FDA0002971737030000028
步骤5:训练模态表示网络;
步骤5.1:将三个隐特征表示vU,vC,vI进行拼接后得到待检测的网站网页的隐特征表示q,将所述隐特征表示q输入第一全连接网络中,得到网站网页为虚假网站的预测值
Figure FDA0002971737030000029
步骤5.2:使用二分类交叉熵作为损失函数,计算所述模态表示网络的损失Lpre
步骤5.3:使用Adam梯度下降方法最小化损失函数Lpre,从而对所述模态表示网络的参数进行优化,得到训练后的模态表示网络;
步骤6:训练模态对齐表示网络;
步骤6.1:定义共享字典矩阵D以及网页网址U,网页文本C,网页图片I的模态对齐映射矩阵MU、MC、MI并使用正态分布进行随机初始化;
利用式(1)构建基于共享字典学习的对齐模态训练损失函数LA
Figure FDA00029717370300000210
式(1)中,
Figure FDA00029717370300000211
分别为网页网址U、网页文本C以及网页中图片I模态对齐后的隐特征表示;λ为正则项的权重;di表示所述共享字典矩阵D中第i行元素;ui表示所述共享字典矩阵D中第i行元素di的权重;
步骤6.2:将三个隐特征表示
Figure FDA0002971737030000031
输入第四注意力机制网络中,从而计算网站网页的隐特征表示
Figure FDA0002971737030000032
以及三个隐特征表示
Figure FDA0002971737030000033
的权重值
Figure FDA0002971737030000034
步骤6.3:利用式(2)计算网站网页是欺诈网站的概率
Figure FDA0002971737030000035
Figure FDA0002971737030000036
式(2)中,Wq、bq表示第二全连接网络的两个参数;
步骤6.4:使用式(3)构建总体损失函数Ltotal
Figure FDA0002971737030000037
式(3)中,
Figure FDA0002971737030000038
为对齐模态训练损失函数LA的权重;
Figure FDA0002971737030000039
表示所述待检测网站为欺诈网站的概率,
Figure FDA00029717370300000310
表示所述待检测网站为非欺诈网站的概率;y为网站网页是否为欺诈网站的真实标签;
步骤6.5:通过Adam随机梯度下降法最小化Ltotal,从而对模态对齐表示网络中的参数进行优化,得到训练后的模态对齐表示网络;从而以所述训练后的模态表示网络以及训练后的模态对齐表示网络计算
Figure FDA00029717370300000311
来实现欺诈网站的检测。
CN202110265794.4A 2021-03-11 2021-03-11 一种基于多模态层次注意力机制的欺诈网站检测方法 Active CN112860976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110265794.4A CN112860976B (zh) 2021-03-11 2021-03-11 一种基于多模态层次注意力机制的欺诈网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110265794.4A CN112860976B (zh) 2021-03-11 2021-03-11 一种基于多模态层次注意力机制的欺诈网站检测方法

Publications (2)

Publication Number Publication Date
CN112860976A CN112860976A (zh) 2021-05-28
CN112860976B true CN112860976B (zh) 2022-08-19

Family

ID=75994140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110265794.4A Active CN112860976B (zh) 2021-03-11 2021-03-11 一种基于多模态层次注意力机制的欺诈网站检测方法

Country Status (1)

Country Link
CN (1) CN112860976B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750643A (zh) * 2011-12-16 2012-10-24 青岛印象派信息技术有限公司 输入校验式广告及其计费方法和系统
CN107862039A (zh) * 2017-11-06 2018-03-30 工业和信息化部电子第五研究所 网页数据获取方法、系统和数据匹配推送方法
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
CN110830489A (zh) * 2019-11-14 2020-02-21 国网江苏省电力有限公司苏州供电分公司 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN111245820A (zh) * 2020-01-08 2020-06-05 北京工业大学 基于深度学习的钓鱼网站检测方法
CN111556065A (zh) * 2020-05-08 2020-08-18 鹏城实验室 钓鱼网站检测方法、装置及计算机可读存储介质
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11303674B2 (en) * 2019-05-14 2022-04-12 International Business Machines Corporation Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750643A (zh) * 2011-12-16 2012-10-24 青岛印象派信息技术有限公司 输入校验式广告及其计费方法和系统
CN107862039A (zh) * 2017-11-06 2018-03-30 工业和信息化部电子第五研究所 网页数据获取方法、系统和数据匹配推送方法
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
CN110830489A (zh) * 2019-11-14 2020-02-21 国网江苏省电力有限公司苏州供电分公司 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN111245820A (zh) * 2020-01-08 2020-06-05 北京工业大学 基于深度学习的钓鱼网站检测方法
CN111556065A (zh) * 2020-05-08 2020-08-18 鹏城实验室 钓鱼网站检测方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Selective Graph Attention Networks for Account Takeover Detection;Jialing Tao,等;《2018 IEEE International Conference on Data Mining Workshops (ICDMW)》;第49-54页;20190210;第1-10页 *
网络钓鱼识别研究综述;付溪,等;《网络与信息安全学报》;20201031;第6卷(第5期);第49-54页 *

Also Published As

Publication number Publication date
CN112860976A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN109101552B (zh) 一种基于深度学习的钓鱼网站url检测方法
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN113596007B (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN112217787B (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及系统
CN110830489B (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN110427628A (zh) 基于神经网络算法的web资产分类检测方法及装置
CN111754338B (zh) 一种套路贷网站团伙识别方法及系统
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
Li et al. Multilingual text detection with nonlinear neural network
CN114202336A (zh) 一种金融场景下的风险行为监测方法及系统
CN111625838A (zh) 一种基于深度学习的漏洞场景识别方法
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法
CN112860976B (zh) 一种基于多模态层次注意力机制的欺诈网站检测方法
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
CN106778568A (zh) 基于web页面的验证码的处理方法
Piekarczyk et al. Hierarchical Graph-Grammar Model for Secure and Efficient Handwritten Signatures Classification.
CN114662033B (zh) 一种基于文本和图像的多模态有害链接识别
CN116776889A (zh) 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法
CN105718914A (zh) 一种人脸编码及识别方法
CN116722992A (zh) 一种基于多模态融合的诈骗网站识别方法及装置
CN114187106A (zh) 区块链中非法节点识别方法和装置
CN111160040A (zh) 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法
Jiang et al. An end-to-end text spotter with text relation networks
Cui et al. Leveraging attention‐based visual clue extraction for image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant