CN115878927A - 一种诈骗网站的识别方法、装置、存储介质和电子设备 - Google Patents

一种诈骗网站的识别方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN115878927A
CN115878927A CN202211236015.9A CN202211236015A CN115878927A CN 115878927 A CN115878927 A CN 115878927A CN 202211236015 A CN202211236015 A CN 202211236015A CN 115878927 A CN115878927 A CN 115878927A
Authority
CN
China
Prior art keywords
website
training
model
data set
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211236015.9A
Other languages
English (en)
Inventor
尚伯乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211236015.9A priority Critical patent/CN115878927A/zh
Publication of CN115878927A publication Critical patent/CN115878927A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种诈骗网站的识别方法、装置、存储介质和电子设备,方法包括:首先获取诈骗网站的文本特征数据集和网络特征数据集,构建网站识别训练模型,基于文本特征数据集或网络特征数据集,利用预设训练方法对网站识别训练模型进行训练,得到训练好的单分类网站识别模型,将待识别的网站信息输入训练好的单分类网站识别模型,得到待识别的网站信息的识别结果,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率。

Description

一种诈骗网站的识别方法、装置、存储介质和电子设备
技术领域
本发明属于网络安全领域,特别是一种诈骗网站的识别方法、装置、存储介质和电子设备。
背景技术
随着近年来国内互联网的发展,网站的数量日益增多。非正常、不安全的网站数量也逐渐增多,而且让人难以分辨,非正常网站包括恶意网站、钓鱼网站、诈骗网站等,一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息,获取用户个人隐私等,给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一,在网络安全中,对其进行识别是确保网络安全的重中之重。
当下对于网络诈骗案件的解决办法多为案发后进行网站的分析,并对相似网站进行封锁,即诈骗行为发生后才予以封锁网站,此时对被害人已造成了一定的经济损失,因此在诈骗行为发生前将诈骗网站识别并封锁,可以有效制止犯罪行为,同时也可以避免被害人的经济损失,使得反诈措施由被动防御转为主动出击。
因此,如何提高诈骗网站识别的准确率,降低误判率,从而能够在一定程度上提高打击网络犯罪的效率,降低其打击成本,有效改善治理网络环境,避免人民群众的财产损失,这是一个亟待解决的问题。
发明内容
本发明的目的是提供一种诈骗网站的识别方法、装置、存储介质和电子设备,以解决现有技术中的不足,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率,实现有效打击网络犯罪的目的并改善网络环境。
本申请的一个实施例提供了一种诈骗网站的识别方法,所述方法包括:
获取诈骗网站的文本特征数据集和网络特征数据集;
构建网站识别训练模型;
基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;
将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
可选的,所述获取诈骗网站的文本特征数据集和网络特征数据集,包括:
提取所述诈骗网站上的文本内容,并利用预设方法对所述诈骗网站上的文本内容进行分词处理,得到至少一个词表;
根据所述词表,生成所述诈骗网站的文本特征数据集。
可选的,所述预设方法包括Bag of Word、Bi-Gram、TF-IDF以及分标签TF-IDF特征向量表示方法。
可选的,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,包括:
当所述预设训练方法为基于机器学习的SVM方法,构造超平面分类函数,并输入至所述网站识别训练模型;
根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第一优化目标;
根据所述文本特征数据或网络特征数据的第一优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
可选的,所述超平面分类函数通过以下算式确定:
Figure BDA0003883535850000021
其中sgn为符号函数,w为权重,T为矩阵转置符,φ为映射函数,x为数据项,ρ为超平面偏置项,α为权重,K(x)为核函数。
可选的,所述第一优化目标通过以下算式确定:
Figure BDA0003883535850000031
s.t(wTφ(xi))>ρ-ζi,i=1,2,...,n
ζi>0
其中,ω为权重,n为数据项个数,为ζi为松弛因子,v为惩罚因子,ρ为超平面偏置项,w为权重,φ为映射函数,x为数据项。
可选的,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,还包括:
当所述预设训练方法为基于深度学习的CVDD方法,构造打分函数,并输入至所述网站识别训练模型;
根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第二优化目标;
根据所述文本特征数据或网络特征数据的第二优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
可选的,所述打分函数通过以下算式确定:
Figure BDA0003883535850000032
其中,s为由l个词组成的句子,满足s=(w1,w2,w3,…,wl)且每一项wk是一个d维词向量,M=HA,H=(h1,h2,h3,…,hl)且每一项hk是一个p维向量,A=(a1,a2,a3,…,ar)且每一项ak是一个l维向量,即为注意力头,ck为Context Vector,满足C=(c1,c2,c3,…,cr)且C与M相同。
可选的,所述第二优化目标通过以下算式确定:
Figure BDA0003883535850000033
其中,外层求和符号
Figure BDA0003883535850000034
代表数据集中有n个句子,内层求和符号/>
Figure BDA0003883535850000035
代表考虑了r个注意力头。第二优化目标中第一项σk(H(i)))代表一个权重,即对每个注意力头分配的权重,其中H(i)为句子向量,第二项d()即为距离函数,即每个Context Vector与对应M中每一列mk的距离d,ck为CVDD中的Context Vector,/>
Figure BDA0003883535850000041
为经过注意力机制转换后的向量。
本申请的又一实施例提供了一种诈骗网站的识别装置,所述装置包括:
获取模块,用于获取诈骗网站的文本特征数据集和网络特征数据集;
构建模块,用于构建网站识别训练模型;
训练模块,用于基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;
得到模块,用于将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
可选的,所述获取模块,包括:
提取单元,用于提取所述诈骗网站上的文本内容,并利用预设方法对所述诈骗网站上的文本内容进行分词处理,得到至少一个词表;
生成单元,用于根据所述词表,生成所述诈骗网站的文本特征数据集。
可选的,所述训练模块,包括:
第一构造单元,用于当所述预设训练方法为基于机器学习的SVM方法,构造超平面分类函数,并输入至所述网站识别训练模型;
第一获取单元,用于根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第一优化目标;
第一优化单元,用于根据所述文本特征数据或网络特征数据的第一优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
可选的,所述训练模块,还包括:
第二构造单元,用于当所述预设训练方法为基于深度学习的CVDD方法,构造打分函数,并输入至所述网站识别训练模型;
第二获取单元,用于根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第二优化目标;
第二优化单元,用于根据所述文本特征数据或网络特征数据的第二优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
本申请的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时实现上述任一项中所述的方法。
本申请的又一实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现上述任一项中所述的方法。
与现有技术相比,本发明首先获取诈骗网站的文本特征数据集和网络特征数据集,构建网站识别训练模型,基于文本特征数据集或网络特征数据集,利用预设训练方法对网站识别训练模型进行训练,得到训练好的单分类网站识别模型,将待识别的网站信息输入训练好的单分类网站识别模型,得到待识别的网站信息的识别结果,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率。
附图说明
图1为本发明实施例提供的一种诈骗网站的识别方法的计算机终端的硬件结构框图;
图2为本发明实施例提供的一种诈骗网站的识别方法的流程示意图;
图3为本发明实施例提供的一种诈骗网站的识别装置的结构示意图。
具体实施方式
下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明实施例首先提供了一种诈骗网站的识别方法,该方法可以应用于电子设备,如计算机终端,具体如普通电脑、量子计算机等。
下面以运行在计算机终端上为例对其进行详细说明。图1为本发明实施例提供的一种诈骗网站的识别方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的诈骗网站的识别方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
现有的诈骗网站识别方法主要可以分为三类:基于规则、基于机器学习和基于深度学习的识别。特征提取方面,主要针对URL、页面内容、HTML标签等方面提取特征,进行识别。
规则识别主要利用网站的网络特征进行查询对比。其中网络特征有IP、端口号、存活时间、PageRank排名等。在实际应用中,由于计算资源以及相关技术的缺失,早期的诈骗网站识别普遍使用基于规则的方法,其主要优势在于通过简单的规则设置,可以实现快速且精准的识别效果。考虑到规则名单的设置依赖于人工更新,因此通常这类方法对于新构建的诈骗网站,往往不能及时将其识别出来。例如Google、eBay等互联网公司研发采用的诈骗网站识别技术,即基于规则识别建立的应用于网络即时冲浪的插件,较多采用黑名单的形式,将诈骗网站列举其中,通过简单快速的搜索识别可以帮助用户避免落入诈骗陷阱,但对于诈骗分子新建的网站,则表现欠佳。
基于规则的方法应对新数据时效果较差,而机器学习方法泛化性更强,模型效果更优。可以采用机器学习领域中的决策树模型,对诈骗网站的URL数据进行特征工程,将最小均方误差作为诈骗网站识别的决策树模型代价函数。也可以利用诈骗网站的URL数据,采用的模型为Bayes分类模型,若Bayes模型无法准确获得分类结果,则再将诈骗网站的页面特征提取出来,训练一个不平衡支持向量机获得更精确的分类结果。或者将基于规则的方法与基于机器学习的方法结合起来,首先采用白名单的方式,过滤到可靠网站,再对剩余的可疑网站,提取域名及内容特征,输入到机器学习的模型中,获得分类结果,其采用了多种机器学习模型,由实验结果得知随机森林的分类效果最佳。
相较于基于规则的方法,基于机器学习的诈骗网站识别方法获得了更好的效果。但基于机器学习的方法依赖于对诈骗网站的特征工程,较为耗费时间,同时随着新的诈骗网站不断涌现,依赖于专家更新分析,提取新的特征,因而耗时耗力。而深度学习技术可以有效改善上述诈骗网站识别中遇到的问题,因此有关深度学习技术的诈骗网站识别研究,也逐渐广泛。例如采用网页分类任务的思想看待诈骗网站识别目标,结合了集成学习的思想,将多个FastText弱分类模型通过组合的方式,得到一个对于诈骗网站识别的强分类器,取得了不错的实验结果。
本申请对于诈骗网站的自动识别,考虑网站所包含的文本特征和网络特征,来搭建识别模型,从而实现诈骗网站的自动识别。由于诈骗网站数量较少,可信网站数量远大于诈骗网站的数量且类别较多,即两类数据存在严重的不平衡情况,若采用二分类模型,则负类选取采样较为困难,因此考虑采用的模型为单分类模型,即训练数据仅有一类,模型最终识别样本是否属于该类。单分类模型主要有采用机器学习的SVM方法或深度学习的CVDD方法。
参见图2,图2为本发明实施例提供的一种诈骗网站的识别方法的流程示意图,可以包括如下步骤:
S201:获取诈骗网站的文本特征数据集和网络特征数据集。
具体的,所述获取诈骗网站的文本特征数据集和网络特征数据集,可以包括:
1.提取所述诈骗网站上的文本内容,并利用预设方法对所述诈骗网站上的文本内容进行分词处理,得到至少一个词表。
2.根据所述词表,生成所述诈骗网站的文本特征数据集。
具体的,在机器学习方法中,给定一组数据,首先需要提取特征,将其转换为特征向量,再输入模型。在诈骗网站自动识别任务中,对应为将一个网站转换为一个特征向量。采集数据时,由于一个网站通常具有多个页面,考虑到时间及人力等成本因素,仅采集了网站的主页,因此问题转换为将一个网页表示为一个特征向量。网页可以认为由其内容及其响应行为组成,因此针对于网页的特征提取,可以分为三个方面,一方面为其文本特征,主要提取自网页的HTML文本,另一方面为其图片特征,包含网页本身的渲染结果和网页中包含引用的图片,还有一方面为其网络特征,主要提取自访问网页时发生的一系列网络连接行为。本申请分别从文本特征和网络特征出发,对下述从文本特征、网络特征两个方面研究的网页特征向量表示方法进行介绍。
其中,所述预设方法包括Bag of Word、Bi-Gram、TF-IDF以及分标签TF-IDF特征向量表示方法。
例如,对于Bag of Word方法,首先将诈骗网页中的文本提取出来,进行分词并建立词表,每个词采用独热编码方式得到词向量,将一个网页中所有的词向量相加,得到该网页的向量表示,则不同的词的数量决定了向量维度。其中,测试集转换向量时,采用训练集生成的词表,若测试集中的词未在词表中出现,则设为全为0的向量,其余操作相同。
对于Bi-Gram方法,提取诈骗网页文本并分词,建立共现词表,根据共现词表,将网页转换为向量,向量维度与词表大小相同,向量中的每一维度为对应词表位置的共现词在该网页中出现的频率。其中,测试集转换向量时,采用训练集生成的共现词表,其余操作相同。
对于TF-IDF方法,将诈骗网页中的文本提取出来,分词并建词表,采用TF-IDF方法,每个词对应一个TF-IDF值,根据词表将网页转换为一个向量,向量维度与词表大小相同,向量中的每一维度为对应词表位置的词在该网页中的TF-IDF值。其中,测试集转换向量时,采用训练集生成的词表,其余操作相同。
对于分标签TF-IDF方法,将诈骗网页中的文本按标题、描述、关键字、主体四个标签分类提取并分词,计算TF-IDF时仅考虑各个标签下的词,因此各部分的TF-IDF计算相对独立,相当于将一个网页拆分为四个文档,分别进行TF-IDF计算。最终各部分拼接得到一个网页的向量表示,向量维度为标题、描述、关键字、主体等标签下词表的合计大小。其中,测试集转换向量时,采用训练集生成的词表,其余操作相同。在分标签构建词表时,仅考虑出现频率较高的词,从而减少词表大小,进一步可减少网页向量的维度。具体地描述为将每个标签下的词按TF值排序,取前N大的词构成词表,之后再进行TF-IDF值的计算。
需要说明的是,对于网络特征数据集的获取可以采用UCI数据集,例如对于其中一个诈骗网站的数据由30个网络特征组成的向量表示,考虑UCI给定了30个特征的数据。
S202:构建网站识别训练模型。
示例性的,构建网站识别训练模型,可以包括:
获取另一组待训练网站,利用另一组待训练网站得到用于网站识别的多个训练模型,计算训练模型之间的最大均值差异,形成损失函数,再根据损失函数对训练模型进行处理,得到对应的网站识别训练模型。
示例性的,获取另一组待训练网站,利用另一组待训练网站训练可以得到用于网站识别的的第一训练模型和第二训练模型,该第一训练模型在网站识别的信息的知识容量和特征层的维度方面均高于第二训练模型。通过对第一训练模型的特征层输出的特征信息进行归一化指数处理,得到第一概率分布,以及对第二训练模型的特征层输出的特征信息进行归一化指数处理,得到第二概率分布Y。这里的归一化指数处理是指通过指数函数和归一化方法将多分类输出转换为概率,具体可以表述为:利用指数函数将多分类结果映射到零到正无穷,然后进行归一化处理得到了近似的概率,根据第一概率分布X和第二概率分布Y计算最大均值差异,形成损失函数。最后,根据损失函数对第一训练模型进行处理,通过处理在的第一训练模型和所述第二训练模型之间进行对比,并利用对比后获得的概率分布信息和网站识别信息对第二训练模型进行训练,并且利用损失函数确定第二训练模型向降维处理后的第一训练模型的学习程度。通过判断损失函数是否收敛,得到对应的网站识别训练模型。
S203:基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法。
具体的,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,可以包括:
S2031:当所述预设训练方法为基于机器学习的SVM方法,构造超平面分类函数,并输入至所述网站识别训练模型。
S2032:根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第一优化目标。
S2033:根据所述文本特征数据或网络特征数据的第一优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
具体的,所述超平面分类函数通过以下算式确定:
Figure BDA0003883535850000101
其中sgn为符号函数,w为权重,T为矩阵转置符,φ为映射函数,x为数据项,ρ为超平面偏置项,α为权重,K(x)为核函数。
所述第一优化目标通过以下算式确定:
Figure BDA0003883535850000102
s.t(wTφ(xi))>ρ-ζi,i=1,2,...,n
ζi>0
其中,ω为权重,n为数据项个数,为ζi为松弛因子,v为惩罚因子,ρ为超平面偏置项,w为权重,φ为映射函数,x为数据项。
基于机器学习SVM方法的单分类模型主要为OCSVM(One-Class Support VectorMachine)和SVDD(Support Vector Data Description),可合称为1-SVM,其中,OCSVM主要思想为将所有训练数据点视为一类,而将原点视为另一类,通过超平面分类函数将数据点与原点分离,实现单分类任务目标;SVDD即支持向量数据描述,主要思想为构建一个超球面,将单类数据点全部囊括在其中,实现单分类任务目标。
需要说明的是,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,还可以包括:
S2034:当所述预设训练方法为基于深度学习的CVDD方法,构造打分函数,并输入至所述网站识别训练模型。
S2035:根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第二优化目标。
S2036:根据所述文本特征数据或网络特征数据的第二优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
具体的,所述打分函数通过以下算式确定:
Figure BDA0003883535850000111
其中,s为由l个词组成的句子,满足s=(w1,w2,w3,…,wl)且每一项wk是一个d维词向量,M=HA,H=(h1,h2,h3,…,hl)且每一项hk是一个p维向量,A=softmax(tanh(HTW1)W2),或者A=(a1,a2,a3,…,ar)且每一项ak是一个l维向量,即为注意力头,ck为Context Vector,满足C=(c1,c2,c3,…,cr)且C与M相同。
所述第二优化目标通过以下算式确定:
Figure BDA0003883535850000112
其中,外层求和符号
Figure BDA0003883535850000113
代表数据集中有n个句子,内层求和符号/>
Figure BDA0003883535850000114
代表考虑了r个注意力头。第二优化目标中第一项σk(H(i)))代表一个权重,即对每个注意力头分配的权重,其中H(i)为句子向量,第二项d()即为距离函数,即每个Context Vector与对应M中每一列mk的距离d,ck为CVDD中的Context Vector,/>
Figure BDA0003883535850000121
为经过注意力机制转换后的向量。
S204:将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
具体的,在针对待识别的网站识别的任务中,本申请采用的训练好的单分类网站识别模型。
例如,基于机器学习的SVM方法模型的主要参数为控制特征空间映射的γ参数,模型特征映射主要依赖于核函数,公式如下:
Figure BDA0003883535850000122
其中,K(x)为核函数,x1和x2为数据项,γ为核函数参数。
网页表示方法采用简单TF-IDF方法,基于机器学习的SVM方法不同gamma参数设置的效果对比如下表1所示:
表1:基于机器学习的SVM方法不同gamma参数设置的效果对比
γ取值 Precisiom Recall F1-Score AUC
10<sup>-1</sup> 1.0000 0.0714 0.1333 0.5357
10<sup>-3</sup> 1.0000 0.2381 0.3846 0.6190
10<sup>-5</sup> 0.8750 0.8333 0.8537 0.8274
由于模型采用单分类模型,训练集仅有正例(诈骗网站)数据,亦即训练集中缺少负例数据(正常网站)。根据精确率公式
Figure BDA0003883535850000123
其中tp为判断正确的正类,fp为判断错误的正类,其中fp为0,因而结果总为1,同时AUC指标计算需要两类数据,因此此处仅列出召回率以供参考。由上表可知,通过γ控制的特征映射,可以将原数据映射到一个新空间内,分布更为集中,可以实现较好的单分类效果。但需要合适的参数值设置,如何获得一个较好的特征映射很大程度上决定了模型效果的好坏。
对于基于文本特征的诈骗网站识别,其模型参数均设置相同,在测试集上的实验结果对比如表2所示:
表2:不同诈骗网站特征向量表示方法的结果对比
Figure BDA0003883535850000131
由上表可知,相比与其他方法,分标签TF-IDF方法同时考虑了内容特征与标签信息,得到的最终效果较好。实验结果也表明对于机器学习方法而言,给定诈骗网站数据,如何从中提取有效的特征,亦即特征工程,对于模型最终效果影响较大。
基于网络特征的诈骗网站识别,采用UCI数据集,并依据上述构造了三种特征集,即全特征集、特征集A、特征集B分别进行训练测试,采用同样的参数,结果如下表3所示。
表3:不同UCI特征集实验结果对比
特征集名称 Precisiom Recall F1-Score AUC
全特征集 0.6959 0.8894 0.7809 0.7504
特征集A 0.7415 0.8911 0.8095 0.7902
特征集B 0.7512 0.7463 0.7488 0.7496
通过比较全特征集和特征集A,在筛选了一些分布差异不明显的特征后,各项指标均有提升。可见筛选了特征后,使得数据的可区分性得到改善。通过比较特征集A和特征集B,在筛选了有差异但差异并非极为显著的特征后,测试集的准确率得到了提升,但召回率下降。可能原因是极为显著的特征使得数据内的中心点得到了强化,因此准确率提升,而边缘点被忽视,召回率下降。
本申请基于机器学习单分类模型的诈骗网站识别方法:分析了OCSVM和SVDD的基本原理;分别从文本特征、网络特征两个网页特征向量表示方面进行实验研究,文本特征方面考虑了四种网页文本特征向量表示方法,分别为Bag of Word方法、Bi-Gram方法、TF-IDF方法和分标签TF-IDF方法。
可见,本发明首先获取诈骗网站的文本特征数据集和网络特征数据集,构建网站识别训练模型,基于文本特征数据集或网络特征数据集,利用预设训练方法对网站识别训练模型进行训练,得到训练好的单分类网站识别模型,将待识别的网站信息输入训练好的单分类网站识别模型,得到待识别的网站信息的识别结果,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率。
本申请的又一实施例提供了一种诈骗网站的识别装置,如图3所示的一种诈骗网站的识别装置的结构示意图,所述装置包括:
获取模块301,用于获取诈骗网站的文本特征数据集和网络特征数据集;
构建模块302,用于构建网站识别训练模型;
训练模块303,用于基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;
得到模块304,用于将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
具体的,所述获取模块,包括:
提取单元,用于提取所述诈骗网站上的文本内容,并利用预设方法对所述诈骗网站上的文本内容进行分词处理,得到至少一个词表;
生成单元,用于根据所述词表,生成所述诈骗网站的文本特征数据集。
具体的,所述训练模块,包括:
第一构造单元,用于当所述预设训练方法为基于机器学习的SVM方法,构造超平面分类函数,并输入至所述网站识别训练模型;
第一获取单元,用于根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第一优化目标;
第一优化单元,用于根据所述文本特征数据或网络特征数据的第一优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
具体的,所述训练模块,还包括:
第二构造单元,用于当所述预设训练方法为基于深度学习的CVDD方法,构造打分函数,并输入至所述网站识别训练模型;
第二获取单元,用于根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第二优化目标;
第二优化单元,用于根据所述文本特征数据或网络特征数据的第二优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
与现有技术相比,本发明首先获取诈骗网站的文本特征数据集和网络特征数据集,构建网站识别训练模型,基于文本特征数据集或网络特征数据集,利用预设训练方法对网站识别训练模型进行训练,得到训练好的单分类网站识别模型,将待识别的网站信息输入训练好的单分类网站识别模型,得到待识别的网站信息的识别结果,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时实现上述任一项方法实施例中的步骤。
具体的,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S201:获取诈骗网站的文本特征数据集和网络特征数据集;
S202:构建网站识别训练模型;
S203:基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;
S204:将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
具体的,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
与现有技术相比,本发明首先获取诈骗网站的文本特征数据集和网络特征数据集,构建网站识别训练模型,基于文本特征数据集或网络特征数据集,利用预设训练方法对网站识别训练模型进行训练,得到训练好的单分类网站识别模型,将待识别的网站信息输入训练好的单分类网站识别模型,得到待识别的网站信息的识别结果,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率。
本发明实施例还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
具体的,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
具体的,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S201:获取诈骗网站的文本特征数据集和网络特征数据集;
S202:构建网站识别训练模型;
S203:基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;
S204:将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
与现有技术相比,本发明首先获取诈骗网站的文本特征数据集和网络特征数据集,构建网站识别训练模型,基于文本特征数据集或网络特征数据集,利用预设训练方法对网站识别训练模型进行训练,得到训练好的单分类网站识别模型,将待识别的网站信息输入训练好的单分类网站识别模型,得到待识别的网站信息的识别结果,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种诈骗网站的识别方法,其特征在于,所述方法包括:
获取诈骗网站的文本特征数据集和网络特征数据集;
构建网站识别训练模型;
基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;
将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取诈骗网站的文本特征数据集和网络特征数据集,包括:
提取所述诈骗网站上的文本内容,并利用预设方法对所述诈骗网站上的文本内容进行分词处理,得到至少一个词表;
根据所述词表,生成所述诈骗网站的文本特征数据集。
3.根据权利要求2所述的方法,其特征在于,所述预设方法包括Bag of Word、Bi-Gram、TF-IDF以及分标签TF-IDF特征向量表示方法。
4.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,包括:
当所述预设训练方法为基于机器学习的SVM方法,构造超平面分类函数,并输入至所述网站识别训练模型;
根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第一优化目标;
根据所述文本特征数据或网络特征数据的第一优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
5.根据权利要求4所述的方法,其特征在于,所述超平面分类函数通过以下算式确定:
Figure FDA0003883535840000011
其中sgn为符号函数,w为权重,T为矩阵转置符,φ为映射函数,x为数据项,ρ为超平面偏置项,α为权重,K(x)为核函数。
6.根据权利要求5所述的方法,其特征在于,所述第一优化目标通过以下算式确定:
Figure FDA0003883535840000021
其中,ω为权重,n为数据项个数,为ζi为松弛因子,v为惩罚因子,ρ为超平面偏置项,w为权重,φ为映射函数,x为数据项。
7.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,还包括:
当所述预设训练方法为基于深度学习的CVDD方法,构造打分函数,并输入至所述网站识别训练模型;
根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第二优化目标;
根据所述文本特征数据或网络特征数据的第二优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。
8.根据权利要求7所述的方法,其特征在于,所述打分函数通过以下算式确定:
Figure FDA0003883535840000022
其中,s为由l个词组成的句子,满足s=(w1,w2,w3,...,wl)且每一项wk是一个d维词向量,M=HA,H=(h1,h2,h3,...,hl)且每一项hk是一个p维向量,A=(a1,a2,a3,...,ar)且每一项ak是一个l维向量,即为注意力头,ck为Context Vector,满足C=(c1,c2,c3,...,cr)且C与M相同。
9.根据权利要求7所述的方法,其特征在于,所述第二优化目标通过以下算式确定:
Figure FDA0003883535840000031
其中,外层求和符号
Figure FDA0003883535840000032
代表数据集中有n个句子,内层求和符号/>
Figure FDA0003883535840000033
代表考虑了r个注意力头。第二优化目标中第一项σk(H(i)))代表一个权重,即对每个注意力头分配的权重,其中H(i)为句子向量,第二项d()即为距离函数,即每个Context Vector与对应M中每一列mk的距离d,ck为CVDD中的Context Vector,/>
Figure FDA0003883535840000034
为经过注意力机制转换后的向量。
10.一种诈骗网站的识别装置,其特征在于,所述装置包括:
获取模块,用于获取诈骗网站的文本特征数据集和网络特征数据集;
构建模块,用于构建网站识别训练模型;
训练模块,用于基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;
得到模块,用于将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。
11.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时实现所述权利要求1至9任一项中所述的方法。
12.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现所述权利要求1至9任一项中所述的方法。
CN202211236015.9A 2022-10-10 2022-10-10 一种诈骗网站的识别方法、装置、存储介质和电子设备 Pending CN115878927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211236015.9A CN115878927A (zh) 2022-10-10 2022-10-10 一种诈骗网站的识别方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211236015.9A CN115878927A (zh) 2022-10-10 2022-10-10 一种诈骗网站的识别方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN115878927A true CN115878927A (zh) 2023-03-31

Family

ID=85770309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211236015.9A Pending CN115878927A (zh) 2022-10-10 2022-10-10 一种诈骗网站的识别方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN115878927A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116232760A (zh) * 2023-05-04 2023-06-06 南京博晟宇网络科技有限公司 一种诈骗网址识别预警方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116232760A (zh) * 2023-05-04 2023-06-06 南京博晟宇网络科技有限公司 一种诈骗网址识别预警方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Wu et al. Twitter spam detection: Survey of new approaches and comparative study
CN110808968B (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
Pereira et al. Using web information for author name disambiguation
Yuan et al. Malicious URL detection based on a parallel neural joint model
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
Yang et al. Detecting stealthy domain generation algorithms using heterogeneous deep neural network framework
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN112989831B (zh) 一种应用在网络安全领域的实体抽取方法
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
Alharthi et al. A real-time deep-learning approach for filtering Arabic low-quality content and accounts on Twitter
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
Liu et al. Multi-scale semantic deep fusion models for phishing website detection
Nowroozi et al. An adversarial attack analysis on malicious advertisement url detection framework
CN115495744A (zh) 威胁情报分类方法、装置、电子设备及存储介质
Rajalakshmi et al. DLRG@ HASOC 2019: An Enhanced Ensemble Classifier for Hate and Offensive Content Identification.
CN111586695A (zh) 短信识别方法及相关设备
CN115878927A (zh) 一种诈骗网站的识别方法、装置、存储介质和电子设备
Paraschiv et al. A unified graph-based approach to disinformation detection using contextual and semantic relations
CN114004277A (zh) 基于深度学习的小样本威胁风险预警方法及装置
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN113904834A (zh) 基于机器学习的xss攻击检测方法
CN112445862A (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
Bai et al. News classifications with labeled LDA
Yu et al. Tactics and techniques classification in cyber threat intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination