CN112860976B

CN112860976B - 一种基于多模态层次注意力机制的欺诈网站检测方法

Info

Publication number: CN112860976B
Application number: CN202110265794.4A
Authority: CN
Inventors: 柴一栋; 周永行; 姜元春; 刘业政; 钱洋; 孙见山; 孙春华; 刘鹏鹏; 崔福来; 井二康
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-08-19
Anticipated expiration: 2041-03-11
Also published as: CN112860976A

Abstract

本发明公开了一种基于多模态层次注意力机制的欺诈网站检测方法，包括：1使用长短期记忆网络对网页网址以及文本内容进行抽取；2通过注意力机制网络自动提取模态内不同特征的重要性权重；3通过注意力机制网络自动学习不同模态特征的重要性；4融合多模态特征，构建共享字典学习方法，将不同模态空间中特征映射到相同语义空间，并完成欺诈网站检测。本发明能够解决现有检测方法无法实时检测、以及误识别问题，从而进一步提高欺诈网站识别的准确率。

Description

一种基于多模态层次注意力机制的欺诈网站检测方法

技术领域

本发明属于大数据处理与网络安全领域，具体来说是一种基于多模态数据欺诈网站分类方法。

技术背景

数字技术的飞速发展，个人和组织不断地将商业转向电子商务平台。2019年全球电子商务市场高达9.09万亿美元。与此同时，对于电子交易来说，欺诈成为主要的普遍存在的问题。在欺诈攻击中，欺诈者诱导互联网用户采取某种动作以及提供敏感的信息(例如，银行账户和密码等)。这种欺诈行为通常是通过电子商务平台采用向受害者的通信信息完成的(例如，HTTP、email，SNS等)。据报道，2019年全世界88％的组织受到了欺诈攻击，对于中型的组织来说平均一次成功的欺诈攻击将会造成160万美元的损失。

网站欺诈攻击是最流行的欺诈攻击方式之一，网站欺诈攻击通常使用一个欺骗性的网站来窃取互联网用户的敏感信息。到目前为止，创建欺诈网站的低门槛性以及高成功率使得虚假网站攻击成为最常见的网络空间攻击类型之一。尽管有大量关于欺诈网站检测的研究，欺诈网站仍然是近些年来一直持续不断的网络安全威胁。

空间安全智能作为一种克服持续的网站欺诈攻击的有希望的工具提供了及时相关可控的智能。然而现有的虚假网站检测方法是受限的。现有的方法可以分为三大类：查询系统、基于虚假线索的方法，以及基于深度学习表示的方法。查询系统通过维护一个网站URL的黑名单，来确定网站的合法性。黑名单的维护需要消耗大量的人力物力资源，并且无法提供实时的检测。基于欺诈线索的方法从欺诈网站中抽取出欺诈线索并且利用传统的分类器对网站进行识别。基于欺诈线索的方法通常需要手工构造欺诈线索。这种特征工程往往耗时耗力，并且容易被欺诈者识别和规避。基于深度学习表示的方法可以从欺诈网站中自动抽取出欺诈线索以及进行识别。然而，现有的基于深度学习表示的方法很少考虑网页上丰富的多模态信息。

发明内容

本发明克服了现有技术存在的不足之处，提出了一种基于多模态层次注意力机制的欺诈网站检测方法，以期能够解决现有检测方法无法实时检测、以及误识别问题，从而进一步提高欺诈网站识别的准确率。

本发明为解决技术问题采用如下技术方案：

本发明一种基于多模态层次注意力机制的欺诈网站检测方法的特点是按照以下步骤进行：

步骤1：定义待检测的网站网页的网址、网页文本、以及页面上的图片集分别为U、C、I；其中，U＝{u₁,u₂,...,u_s,...,u_S}，u_s为网址U中第s个字符，s＝1,2,…,S，S表示网址中字符的数量；C＝{c₁,c₂,...,c_p,...,c_P}，c_p为网页文本C中的第p个字符，p＝1,2,…,P，P为网页文本C中字符的数量；I＝{i₁,i₂,...,i_k,...,i_K}，i_k为图片集I中的第k张图片，k＝1,2,…,K，K为所述图片集I中包含图片的数量；

构建包含两个长短期记忆网络、三个注意力机制网络、ResNet50网络、一个全连接网络所组成的模态表示网络；

构建包含一个注意力机制网络和一个全连接网络所组成的模态对齐表示网络；

步骤2：使用包含第一长短期记忆网络和第一注意力机制网络的第一融合网络计算网址U的特征；

步骤2.1：使用独热编码对网址U进行表示，得到编码后的网址U′＝{u′₁,u′₂,...,u′_s,...,u′_S}，其中，u′_s为第s个字符u_s的独热编码；定义网址U中所有字符的嵌入式参数表为Emb_U；将嵌入式参数表Emb_U与编码后的网址U′做矩阵内积运算，得到网址U中每个字符的嵌入式表示

其中，

表示第s个字符u_s的嵌入式表示；

步骤2.2：将所述嵌入式表示

输入第一长短期记忆网络中，从而计算网址U中第s个字符u_s的隐特征表示

进而得到隐特征表示矩阵

步骤2.3：将所述隐特征表示矩阵

输入所述第一注意力机制网络中，从而计算网址U的隐特征表示v^U以及第s个字符u_s所占的权重值

步骤3：使用第二长短期记忆网络和第二注意力机制网络的第二融合网络计算网页文本内容的特征；

步骤3.1：使用独热编码对网页文本C进行表示，得到编码后的网页文本C′＝{c′₁,c′₂,...,c′_p,...,c′_P}，其中，c′_p表示到编码后的网页文本C′中第p个字符的独热编码，定义文本字符的嵌入式参数表Emb_C；将嵌入式参数表Emb_C与编码后的网页文本C′做矩阵内积运算，得到网页文本C中每个字符的嵌入式表示

其中，

表示网页文本中第p个字符的的嵌入式表示；

步骤3.2：将所述网页文本字符嵌入式

表示输入所述第二长短期记忆网络中，从而计算网页文本C中第p个字符的隐特征表示

进而得到隐特征表示矩阵

步骤3.3：将所述隐特征表示矩阵

输入第二注意力机制网络中，从而计算网页文本C的隐特征表示v^C以及第p个字符c_p所占的权重值

步骤4：计算图片的隐特征向量；

步骤4.1：将所述图片集I中的每张图片转换成RGB三通道格式并进行放缩，得到处理后的图片集I′后输入训练好的ResNet50网络中，并将ResNet50网络中倒数第二层的输出作为图片集I的隐特征表示

其中，

表示第k张图片i_k的隐特征表示；

步骤4.2：将所述隐特征表示

输入第三注意力机制网络中，从而计算图片集I的隐特征表示v^I以及第k张图片所占的权重

步骤5：训练模态表示网络；

步骤5.1：将三个隐特征表示v^U,v^C,v^I进行拼接后得到待检测的网站网页的隐特征表示q，将所述隐特征表示q输入第一全连接网络中，得到网站网页为虚假网站的预测值

步骤5.2：使用二分类交叉熵作为损失函数，计算所述模态表示网络的损失L_pre；

步骤5.3：使用Adam梯度下降方法最小化损失函数L_pre，从而对所述模态表示网络的参数进行优化，得到训练后的模态表示网络；

步骤6：训练模态对齐表示网络；

步骤6.1：定义共享字典矩阵D以及网页网址U，网页文本C，网页图片I的模态对齐映射矩阵M^U、M^C、M^I并使用正态分布进行随机初始化；

利用式(1)构建基于共享字典学习的对齐模态训练损失函数L_A：

式(1)中，

分别为网页网址U、网页文本C以及网页中图片I模态对齐后的隐特征表示；λ为正则项的权重；d_i表示所述共享字典矩阵D中第i行元素；u_i表示所述共享字典矩阵D中第i行元素d_i的权重；

步骤6.2：将三个隐特征表示

输入第四注意力机制网络中，从而计算网站网页的隐特征表示

以及三个隐特征表示

的权重值

步骤6.3：利用式(2)计算网站网页是欺诈网站的概率

式(2)中，W_q、b_q表示第二全连接网络的两个参数；

步骤6.4：使用式(3)构建总体损失函数L_total：

式(3)中，

为对齐模态训练损失函数L_A的权重；

表示所述待检测网站为欺诈网站的概率，

表示所述待检测网站为非欺诈网站的概率；y为网站网页是否为欺诈网站的真实标签；

步骤6.5：通过Adam随机梯度下降法最小化L_total，从而对模态对齐表示网络中的参数进行优化，得到训练后的模态对齐表示网络；从而以所述训练后的模态表示网络以及训练后的模态对齐表示网络计算

来实现欺诈网站的检测。

与已有技术相比，本发明有益效果体现在：

1、本发明通过融合网页中三种模态的信息，从而获得了识别准确率高欺诈网站检测方法，并克服了传统方法无法利用网页中多模态信息，同时也解决了传统方法中需要人工进行特征工程以及检测时效低的问题，进而提高了欺诈网站检测的准确性以及时效低的问题。

2、本发明通过引入层次注意力的方法，为欺诈网站检测中网页的三种模态自动分配重要性，在每种模态信息中，为欺诈线索自动分配重要性权重，从而获得具有一定可解释性的欺诈网站检测方法，并且融合了三种模态信息，进而提高了欺诈网站检测模型的可解释性以及准确率。

3、本发明提出了利用共享字典的方法将不同模态空间的信息映射到同一空间中，进而可以通过注意力机制来计算不同模态提供的信息的重要程度，解决了不同模态空间信息难以融合的问题，进而提高了欺诈网站检测的准确率。

3、本发明提供一种可以融合多模态并且提供一定可解释的算法框架，可以灵活扩展并且应用在各种多元异构多模态分类问题的场景中。

附图表说明

图1本发明方法流程图。

具体实施方式

本实施例中，一种基于多模态层次注意力机制的欺诈网站检测方法是对网页数据进行预处理操作，并将网页网址、网页文本内容、图片表示成向量的形式，然后通过层次注意力机制将三种模态的数据进行融合，使用模态内注意力权重表示欺诈线索的重要程度以及使用模态间的注意力权重表示不同模态数据对欺诈网站预测结果的重要性，并使用共享字典学习的方式对齐不同模态空间的信息，而提高基于深度学习表示学习模型的可解释性，进而提高本发明识别欺诈网站的准确性。具体地说，如图1所示，包含以下步骤：

步骤1：定义待检测的网站网页的网址、网页文本、以及页面上的图片集分别为U、C、I；其中，U＝{u₁,u₂,...,u_s,...,u_S}，u_s为网址U中第s个字符，S表示网址中字符的数量；C＝{c₁,c₂,...,c_p,...,c_P}，c_p为网页文本C中的第p个字符，P为网页文本C中字符的数量；I＝{i₁,i₂,...,i_k,...,i_K}，i_k为图片集I中的第k张图片，K为图片集I中包含图片的数量；

利用网络爬虫技术从http://phishtank.org/index.php收集到欺诈网站的网址而获取到网站主页的详细内容，从而构建欺诈网站样本。从https://www.dmoz-odp.org/网站上收集各种类型网站作为非欺诈网站样本，从而通过使用这些样本学习训练得到欺诈网站的识别器。

其中，

表示第s个字符u_s的嵌入式表示；

步骤2.2：将嵌入式表示

进而得到隐特征表示矩阵

步骤2.3：将隐特征表示矩阵

输入第一注意力机制网络的式(1)中算网页网址的隐特征表示v^u：

式(1)中，

为第s个字符所占的权重值；

通过式(2)计算第s个字符u_s所占的权重值

式(2)中，Context_u为网页网址的注意力上下文，并使用正态分布随机初始化；

表示第s个字符的注意力隐特征表示，由式(3)计算得到：

式(3)中，W^u,b^u为第一注意力机制网络的参数；

步骤3.1：使用独热编码对网页文本内容进行表示，得到编码后的网页文本内容将C′＝{c′₁,c′₂,...,c′_p,...,c′_P}，其中c′_p为网页文本内容中第p个字符c_p的独热编码；定义网页文本内容中所有字符的嵌入式参数表Emb_c；将嵌入式参数表Emb_c与编码后的网页文本内容C′做矩阵内积运算，得到网页文本中每个字符的嵌入式表示

其中，

为第p个字符的嵌入式表示；

步骤3.2：将网页文本字符嵌入式

表示输入第二长短期记忆网络中，从而计算网页文本C中第p个字符的隐特征表示

进而得到隐特征表示矩阵

步骤3.3：将的隐特征表示矩阵

输入至第二注意力机制网络中，从而利用式(4)计算文本隐特征表示v^c：

式(4)中，

为第p个字符所占的权重值；

通过式(5)计算第p个字符c_p所占的权重值

式(5)中，Context_c为网页文本的注意力上下文，并使用正态分布随机初始化；

表示第p个字符的注意力隐特征表示，由式(6)计算得到：

式(6)中，W^c,b^c为第二注意力机制网络的参数；

步骤4：计算图片的隐特征向量。

步骤4.1：将图片转换成RGB三通道格式，并将长宽分别放缩为224像素与224像素。将图片输出至经预训练的ResNet50算法中，取倒数第二层2048维的输出作为图像的隐特征

其中，

为第k张图片的隐特征表示；

步骤4.2：将隐特征表示

输入第三注意力机制网络的式(7)中，从而计算图片集I的隐特征表示v^I以及第k张图片所占的权重

式(7)中，

表示第k张图片所占的权重值，

表示表示第k张图片的注意力隐特征表示，并有：

式(8)和式(9)中，Wⁱ,bⁱ为第三注意力机制网络的参数；context_i为网页图片的注意力上下文；

步骤5：训练模态表示网络；

步骤5.1：将将三个隐特征表示v^U,v^C,v^I进行拼接后得到待检测的网站网页的隐特征表示q＝[v^U；v^C；v^I]，将隐特征q输入至全连接网络的式(10)中，从而得到网站为虚假网站得到预测值

式(10)中，W^q,b^q为第一全连接网络的参数；

步骤5.2：使用二分类交叉熵作为损失函数如式(11)所示，计算模态表示网络的损失L_pre：

式(11)中，

表示待检测网站为欺诈网站的概率，

表示待检测网站为非欺诈网站的概率；y为网站网页是否为欺诈网站的真实标签；

步骤5.3使用Adam梯度下降方法最小化损失函数L_pre对模态表示网络的参数进行优化，定义模态表示网络中所有参数为Θ_pre，即

得到训练后的模态表示网络；

步骤6：训练模态对齐表示网络；

步骤6.1：定义共享字典矩阵D以及网页网址U、网页文本C、网页图片I的模态对齐映射矩阵M^U、M^C、M^I并使用正态分布进行随机初始化；

利用式(12)构建基于共享字典学习的对齐模态训练损失函数L_A：

式(12)中，

分别为网页网址U、网页文本C以及网页中图片I模态对齐后的隐特征表示；λ为正则项的权重；d_i表示共享字典矩阵D中第i行元素；u_i表示共享字典矩阵D中第i行元素d_i的权重；

步骤6.2：将三个隐特征表示

输入至第四注意力机制网络的式(13)中，从而计算网站网页的隐特征表示

式(13)中，

为三个隐特征表示

的权重值，并分别由式(14-16)计算所得；

式(14)-式(16)中，Context_q为网页注意力上下文，并使用正态分布进行随机初始化；u^U,u^C,u^I分别为模态对齐后的网页网址U、网页文本C、以及网页中图片I的注意力隐特征表示，并式(17)计算得到：

式(17)中，

为第四注意力机制网络的参数；

步骤6.3：利用式(18)计算网站网页是欺诈网站的概率

式(18)中，W_q、b_q表示第二全连接网络的两个参数；

步骤6.4：使用式(19)构建总体损失函数L_total：

式(19)中，

为对齐模态训练损失函数L_A的权重；

表示待检测网站为欺诈网站的概率，

步骤6.5：通过Adam随机梯度下降法最小化L_total，从而对模态对齐表示网络中的参数进行优化，即

并得到训练后的模态对齐表示网络，其中，Θ_A为模态对齐网络中的所有参数，从而以训练后的模态表示网络以及训练后的模态对齐表示网络计算

来实现欺诈网站的检测。

为了验证本发明方法的有效性，本发明选用分类问题常用的方法SVM、LR、NB以及基于深度学习表示欺诈网站识别方法C-BiGRU-A、C-CNN、C-LSTM、CNN+LSTM、CNN-LSTM、BiLSTM-A、MLP等方法进行比较。并且采用准确度(Acc.)、精确度(Pre.)、召回率(Rec.)，F1等评价指标。实验将数据集以8：1：1的比例切分为训练集、测试机、验证集。本发明的方法在训练集上进行学习，使用测试集寻找最优的超参数，使用验证集上的结果进行与基准方式比较。为了提高实验结果的有效性和可信度，每个实验重复进行10次，记录在各指标数值。最后将本发明所提方法与上述方法的性能进行t-检验比较。如表1所示：

表1本发明在构建数据集上与基准方法的性能比较

Baselines	Acc.	Pre.	Rec.	F1
					LR	0.8679	0.8543	0.8875	0.8706
SVM	0.8464	0.8490	0.8432	0.8461
					NB	0.7315	0.8750	0.5409	0.6685
C-BiGRU-A	0.9183	0.9248	0.9122	0.9177
					C-CNN	0.9447	0.9404	0.9500	0.9450
C-LSTM	0.9451	0.9435	0.9473	0.9453
					CNN+LSTM	0.9327	0.9321	0.9346	0.9328
CNN-LSTM	0.8980	0.9027	0.8968	0.8980
					BiLSTM-A	0.8138	0.8387	0.8099	0.7958
MLP	0.6402	0.7031	0.5627	0.5937
					本发明方法	0.9665	0.9708	0.9635	0.9666

从表1中可知，本发明的方法在四项指标上均显著优于上述的基准方法，实验结果验证了本发明的有效性。

综上所述，本发明一种基于多模态层次注意力机制的欺诈网站检测方法，有效解决了欺诈网站检测中误识别率高，时效低的问题，注意力机制可以使模型可以自动学习模态内与模态间不同特征的重要性程度，使用共享字典学习的方法，对齐了不同模态空间中的信息，解决了多模态空间信息融合的难题，该欺诈网站检测方法有效的提升了欺诈网站检测的性能。