CN117997571A - 恶意网址识别方法、网址样本生成方法及相关设备 - Google Patents
恶意网址识别方法、网址样本生成方法及相关设备 Download PDFInfo
- Publication number
- CN117997571A CN117997571A CN202211371880.4A CN202211371880A CN117997571A CN 117997571 A CN117997571 A CN 117997571A CN 202211371880 A CN202211371880 A CN 202211371880A CN 117997571 A CN117997571 A CN 117997571A
- Authority
- CN
- China
- Prior art keywords
- website
- sample
- initial
- training
- malicious
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 151
- 230000004927 fusion Effects 0.000 claims abstract description 97
- 238000002372 labelling Methods 0.000 claims abstract description 35
- 238000005259 measurement Methods 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 11
- 238000011160 research Methods 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例涉及信息安全技术领域,公开了一种恶意网址识别方法,该方法包括:获取待识别网址;将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量。通过上述方式,本发明实施例实现了对恶意网址的准确识别。
Description
技术领域
本发明实施例涉及信息安全技术领域,具体涉及一种恶意网址识别方法、恶意网址样本生成方法、恶意网址识别装置、计算机设备及计算机可读存储介质。
背景技术
目前随着互联网的快速发展以及网民数量的不断攀升,信息在高速交互过程中恶意网址严重威胁用户的隐私和信息安全,随着人工智能技术的发展,往往采用机器学习技术来快速、准确地识别恶意网址。
然而,由于一方面,恶意网址样本的数量少,使得恶意网址样本的资源有限;另一方面,对于网址样本,通过人工判研确定样本时,恶意网址容易识别,而正常网址则需要排除所有不可能,这在事实上当前黑色产业隐匿能力较强的情况下是难以真正做到的。
因此,在资源有限的前提下,在恶意网址检测领域存在时间成本高、获取难度大、存在误差、数据质量差、假设理想化等问题,导致恶意网址识别的准确率较低。
发明内容
鉴于上述问题,本发明实施例提供了一种恶意网址识别方法、恶意网址样本生成方法、恶意网址识别装置、计算机设备及计算机可读存储介质,用于解决现有技术中存在的由于在资源有限的前提下,在恶意网址检测领域存在时间成本高、获取难度大、存在误差、数据质量差、假设理想化等问题,导致的恶意网址识别的准确率较低问题。
根据本发明实施例的一个方面,提供了一种恶意网址识别方法,所述方法包括:
获取待识别网址;
将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量。
在一种可选的方式中,所述将所述待识别网址输入恶意网址识别模型中,得到识别结果之前,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;
对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
在一种可选的方式中,所述基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本,进一步包括:
根据实时融合模型的准确率及初始值确定度量参数;
根据所述度量参数、所述网址密度、所述网址相似性、所述网址不确定性及基于网址类别的度量,确定所述样本信息量。
在一种可选的方式中,所述对所述网址初始训练样本进行标注处理,得到所述网址训练样本,包括:
步骤001:获取标注后的网址初始训练样本;所述标注后的网址初始训练样本包括正样本集、可靠负样本集以及待确认样本集;所述正样本集为通过多种渠道标注确认的正样本;所述可靠负样本集为通过多种渠道标注确认的负样本;所述待确认样本集为未被所有渠道标注确认的样本;
步骤002:将正样本子集放入所述待确认样本集中,作为间谍样本;所述正样本子集为从所述正样本集中随机选择的第一比例的正样本;
步骤003:将所述正样本集减去所述正样本子集作为新的正样本集,将所述待确认样本集及所述所述正样本子集作为新的负样本集,对所述融合模型进行训练,得到训练后的融合模型;
步骤004:将所述新的负样本集输入所述训练后的融合模型,输出样本的条件概率分布;
步骤005:将所述待确认样本集中所有条件概率低于预设概率阈值的样本放入所述可靠负样本集;所述预设概率阈值位所述间谍样本中正样本条件概率分位值;
步骤006:迭代执行步骤002至步骤005,得到最终的负样本集;
步骤007:根据所述最终的负样本集及所述正样本集,得到所述网址训练样本。
在一种可选的方式中,所述方法还包括:
将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果;
根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失;所述代价敏感损失函数包括正样本惩罚因子及负样本惩罚因子;所述正样本惩罚因子及所述负样本惩罚因子基于交叉验证选取;
根据所述损失调整所述预设的融合模型的参数,并继续执行所述将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果,根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失,以及根据所述损失调整所述预设的融合模型的参数的步骤,直至所述损失最小或达到预设的迭代次数,得到恶意网址识别模型。
在一种可选的方式中,所述方法还包括:
当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截。
在一种可选的方式中,所述当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截之后,所述方法还包括:
将所述待识别网址推送至判研人员,以使所述判研人员进行进一步判研;
根据判研结果,将所述待识别网址更新至网址库中,以作为初始样本集中的样本。
根据本发明实施例的另一方面,提供了一种恶意网址样本生成方法,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量;
对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
根据本发明实施例的另一方面,提供了一种恶意网址识别装置,包括:
获取模块,用于获取待识别网址;
识别模块,用于将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型。
根据本发明实施例的另一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的恶意网址识别方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行所述的恶意网址识别方法的操作。
本发明实施例通过获取待识别网址;将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型,能够有效提高网址识别的准确率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的恶意网址识别方法的流程示意图;
图2示出了本发明另一实施例提供的恶意网址识别方法的应用环境示意图;
图3示出了本发明实施例提供的恶意网址识别装置的结构示意图;
图4示出了本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
图1示出了本发明实施例提供的恶意网址识别方法的流程图,该方法由计算机设备执行。该计算机设备可以是台式电脑、笔记本电脑、平板电脑、智能终端等,本发明实施例不做具体限制。例如可以是如图2所示的恶意网址识别平台,该恶意网址识别平台为该恶意网址识别方法的应用环境示意图,其中,该恶意网址识别平台包括预处理模块、采样模块、冷启动模块、PU学习模块、集成学习模块以及线上服务模块。如图1所示,该方法包括以下步骤:
步骤110:获取待识别网址。
其中,将待识别网址URL实时推送至恶意网址识别平台的线上服务模块。线上服务模块包括训练好的恶意网址识别模型。
步骤120:将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量。
其中,本发明实施例在将所述待识别网址输入线上服务模块的恶意网址识别模型中之前,还需要对该恶意网址识别模型进行训练,得到训练好的恶意网址识别模型。
其中,对恶意网址识别模型进行训练的过程包括:
样本预处理:
对用户的网址访问行为数据进行预处理,得到初始网址样本集。具体地,通过恶意网址识别平台的预处理模块,利用运营商DPI(Deep Packet Inspection)系统解析网络流量,获取用户的网址访问行为,经过清洗、去重、黑名单网址库过滤、白名单网址库过滤等逻辑模块,构建得到初始URL样本集。
样本采样:
本发明实施例中,基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本。其中,根据实时融合模型的准确率及初始值确定度量参数;根据所述度量参数、所述网址密度、所述网址相似性、所述网址不确定性及基于网址类别的度量,确定所述样本信息量。具体地,恶意网址识别平台的采样模块对初始网址样本通过批处理的方式进行采样,具体策略是多标准的自适应融合采样策略。同时采用网址密度Id(xi)、网址相似性Is(xi)、网址不确定性Iu(xi)和基于网址类别的度量Il(xi)来选择最具信息量的网址样本。其中网址密度和网址相似性标准能够减少所选网址样本之间的信息重复,不确定性标准通过偏向于选择那些不确定的样本来加速模型的收敛,而基于网址类别的度量标准在加速模型性能提升的同时缓解了类别平衡性的问题。网址样本的xi信息量度量可以表示为:
I(xi)=α(Id(xi)+Is(xi))+(1-α)(Iu(xi)+Il(xi))
其中,网址密度Id(xi)通过样本数量和样本空间大小得到;相似性Is(xi)通过统计样本的平均余弦相似度得到;网址不确定性Iu(xi)通过统计批样本的平均置信度得到;基于网址类别的度量Il(xi)通过统计批样本中的类别分布得到。随着训练的进行,模型性能在不断提升,与之相应的是模型的标签预测可信度提升,同时随着已标注样本数的不断增加,网址相似性和网址密度的作用开始降低。因此在训练过程中,α的值可以设定为:
α=α0·e-Aρ
其中,α0为初始值,A为常量,ρ为实时融合模型的准确率。该实时融合模型为上一次网址样本对预设的融合模型进行训练后得到的模型。
通过这种方式,可以选择最具信息量的网址作为初始网址样本,并随着训练进行自适应调整权重,有效地最大化了每一种采样标准的优势。
样本标注处理:
本发明实施例中,在得到初始网址样本后,对所述网址初始训练样本进行标注处理,得到所述网址训练样本。具体地,包括以下步骤:
步骤001:获取标注后的网址初始训练样本;所述标注后的网址初始训练样本包括正样本集、可靠负样本集以及待确认样本集;所述正样本集为通过多种渠道标注确认的正样本;所述可靠负样本集为通过多种渠道标注确认的负样本;所述待确认样本集为未被所有渠道标注确认的样本。
由于正常网址通常不容易识别,本发明实施例为了确保正常网址(正样本集)的正确性,通过三种渠道的投票法进行正常网址的标注确认,即只有当三种渠道中有两种及以上认定该网址为正常网址,才将其放入正样本集。其中,三种渠道分别为领域专家标注、BERT预训练模型标注、对权威数据库进行撞库。这三种渠道分别是:将采样得到的待标注样本集发布给领域专家,由领域专家进行标注,要求在判断时若不能确定就不标注,提升标注的正确性;由现有的外部模型对采样得到的待标注样本集进行迁移学习,这里经过文本预处理对URL的字符采用BERT预训练模型进行标注;通过真实的权威数据撞库,给部分URL样本打上正样本标签。
其中,该恶意网址识别平台的冷启动模块分别获取领域专家对网址初始训练样本的标签标注、BERT预训练模型对网址初始训练样本的标签标注以及对权威数据库进行撞库的结果,根据领域专家对网址初始训练样本的标签标注、BERT预训练模型对网址初始训练样本的标签标注以及对权威数据库进行撞库的结果来确定该网址初始训练样本中正常网址的标签标注,得到正样本集,通过这种方式,可以有效提高对于正常网址的准确标签标注,提升了标注冷启动的精准度。
通过这种方式,实现对各个网址初始训练样本的标签标注,本发明实施例中,利用PU学习(Positive and Unlabeled Learning)更新样本集以及模型,超参数α和β可根据模型训练结果进行交叉验证调整。通过PU学习模块构造三个样本集:正样本集P、可靠负样本集RN和待确认样本集U。其中,由于收集样本、对样本进行处理及对模型进行训练是持续性的,因此正样本集P中包括上一轮冷启动模块中标注的正样本;待确认样本集U中包括上一轮冷启动模块中待确认的或当前仅被一种渠道认定的样本。
步骤002:将正样本子集放入所述待确认样本集中,作为间谍样本;所述正样本子集为从所述正样本集中随机选择的第一比例的正样本。具体地,从正样本集P中随机选择α%的正样本S,放入U中作为间谍样本。
步骤003:将所述正样本集减去所述正样本子集作为新的正样本集,将所述待确认样本集及所述所述正样本子集作为新的负样本集,对所述融合模型进行训练,得到训练后的融合模型。
步骤004:将所述新的负样本集输入所述训练后的融合模型,输出样本的条件概率分布。
本发明实施例中,将所述新的负样本集输入集成学习模块的融合模型中,得到样本的条件概率分布。融合模型包括三种异质基模型,分别为:XGBoost、CatBoost及TabNet。其中,极限梯度提升算法(Extreme Gradient Boosting,XGBoost):XGBoost是基于Boosting框架的模型,在梯度提升的基础上改进了目标函数的计算方式,在决策树构建阶段将树的复杂度作为正则项加入到目标函数中,并利用损失函数的二阶导数信息训练决策树模型,以此加快训练速度,提升了模型的泛化性能。CatBoost:是俄罗斯的搜索巨头在2017年开源的机器学习库,也是Boosting族算法的一种,同XGBoost和LightGBM类似,依然是在GBDT算法框架下的一种改进实现,是一种基于对称决策树(oblivious trees)算法的参数少、支持类别型变量和高准确性的算法框架。TabNet:是一个新的高性能和可解释的典型的深度表格数据学习架构,使用顺序注意力来选择在每个决策步骤中要推理的特征,使可解释性和更有效的学习成为可能,因为学习能力被用于最突出的特征。TabNet在各种非性能饱和的表格数据集上的表现优于其他神经网络和决策树变体,并产生了可解释的特征属性和对全局模型行为的洞察力。
步骤005:将所述待确认样本集中所有条件概率低于预设概率阈值的样本放入所述可靠负样本集;所述预设概率阈值位所述间谍样本中正样本条件概率分位值。本发明实施例中,以间谍样本S中正样本条件概率β%分位值作为概率阈值θ,把U中所有条件概率低于θ的样本放入RN。其中,超参数的初始值为α=15,β=10。
步骤006:迭代执行步骤002至步骤005,得到最终的负样本集。通过这种方式,可以有效增加恶意网址的样本数量,弥补了恶意网址资源有限的问题。
步骤007:根据所述最终的负样本集及所述正样本集,得到所述网址训练样本。通过这种方式,有效提高了对正常网址和恶意网址标注的准确性。
本发明实施例中,在得到所述网址训练样本后,将将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果;根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失。其中,所述代价敏感损失函数包括正样本惩罚因子λ+及负样本惩罚因子λ-;所述正样本惩罚因子及所述负样本惩罚因子基于交叉验证选取;根据所述损失调整所述预设的融合模型的参数,并继续执行所述将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果,根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失,以及根据所述损失调整所述预设的融合模型的参数的步骤,直至所述损失最小或达到预设的迭代次数,得到恶意网址识别模型。
具体地,集成学习的主要思想是去用模型去融合多个基模型的优势,集成学习器一般在三个方面优于单一模型:准确性:集成学习模型具有比单一学习模型更好的平均性能。泛化性:任何单一算法都无法实现集成学习模型,即对较复杂的数据具有更强的泛化能力。(3)鲁棒性:与单一学习模型相比,集成学习器对噪声的敏感度较低。
在本发明实施例中,采用Stacking架构对XGBoost、CatBoost和TabNet三种异质基模型进行融合,得到实时融合模型,并采用代价敏感(cost-sensitive)策略设计损失函数。具体的损失函数如下:
其中,λ+和λ-是基于交叉验证选取的,并且λ+总是大于λ-,使得正样本误分类的惩罚因子大于负样本负误分类的惩罚因子,即融合模型将更关注于对恶意URL的正确分类。第一项为正样本分类损失,第二项/>为负样本分类损失,第三项θR(w)为正则项,yi为真实样本标签,xi为输入样本,θ为正则项系数。当实时融合模型达到设定好的性能阈值后,得到训练好的恶意网址识别模型,将其部署到线上服务模块中,已进行恶意网址的识别。
本发明实施例中,当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截。并将所述待识别网址推送至判研人员,以使所述判研人员进行进一步判研,根据判研结果,将所述待识别网址更新至网址库中,以作为初始样本集中的样本。具体地,定期将识别出的恶意网址,可以作为新的样本集存储至黑名单网址库,作为恶意网址识别模型的新一次训练使用,从而进一步提高恶意网址识别模型的准确率。
本发明实施例通过获取待识别网址;将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型,能够有效提高网址识别的准确率。
本发明实施例的另一方面,还提供了一种恶意网址样本生成方法,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量;
对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
本发明实施例的恶意网址样本生成方法与上述恶意网址识别方法中的网址训练样本的生成方法步骤大体一致,此处不再赘述。
图3示出了本发明实施例提供的恶意网址识别装置的结构示意图。如图3所示,该装置300包括:
获取模块310,用于获取待识别网址;
识别模块320,用于将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型。
在一种可选的方式中,所述将所述待识别网址输入恶意网址识别模型中,得到识别结果之前,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;
对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
在一种可选的方式中,所述基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本,进一步包括:
根据实时融合模型的准确率及初始值确定度量参数;
根据所述度量参数、所述网址密度、所述网址相似性、所述网址不确定性及基于网址类别的度量,确定所述样本信息量。
在一种可选的方式中,所述对所述网址初始训练样本进行标注处理,得到所述网址训练样本,包括:
步骤001:获取标注后的网址初始训练样本;所述标注后的网址初始训练样本包括正样本集、可靠负样本集以及待确认样本集;所述正样本集为通过多种渠道标注确认的正样本;所述可靠负样本集为通过多种渠道标注确认的负样本;所述待确认样本集为未被所有渠道标注确认的样本;
步骤002:将正样本子集放入所述待确认样本集中,作为间谍样本;所述正样本子集为从所述正样本集中随机选择的第一比例的正样本;
步骤003:将所述正样本集减去所述正样本子集作为新的正样本集,将所述待确认样本集及所述所述正样本子集作为新的负样本集,对所述融合模型进行训练,得到训练后的融合模型;
步骤004:将所述新的负样本集输入所述训练后的融合模型,输出样本的条件概率分布;
步骤005:将所述待确认样本集中所有条件概率低于预设概率阈值的样本放入所述可靠负样本集;所述预设概率阈值位所述间谍样本中正样本条件概率分位值;
步骤006:迭代执行步骤002至步骤005,得到最终的负样本集;
步骤007:根据所述最终的负样本集及所述正样本集,得到所述网址训练样本。
在一种可选的方式中,所述方法还包括:
将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果;
根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失;所述代价敏感损失函数包括正样本惩罚因子及负样本惩罚因子;所述正样本惩罚因子及所述负样本惩罚因子基于交叉验证选取;
根据所述损失调整所述预设的融合模型的参数,并继续执行所述将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果,根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失,以及根据所述损失调整所述预设的融合模型的参数的步骤,直至所述损失最小或达到预设的迭代次数,得到恶意网址识别模型。
在一种可选的方式中,所述方法还包括:
当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截。
在一种可选的方式中,所述当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截之后,所述方法还包括:
将所述待识别网址推送至判研人员,以使所述判研人员进行进一步判研;
根据判研结果,将所述待识别网址更新至网址库中,以作为初始样本集中的样本。
本发明实施例通过获取待识别网址;将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型,能够有效提高网址识别的准确率。
图4示出了本发明实施例提供的计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图4所示,该计算机设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于恶意网址识别方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使计算机设备执行以下操作:
获取待识别网址;
将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量。
在一种可选的方式中,所述将所述待识别网址输入恶意网址识别模型中,得到识别结果之前,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;
对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
在一种可选的方式中,所述基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本,进一步包括:
根据实时融合模型的准确率及初始值确定度量参数;
根据所述度量参数、所述网址密度、所述网址相似性、所述网址不确定性及基于网址类别的度量,确定所述样本信息量。
在一种可选的方式中,所述对所述网址初始训练样本进行标注处理,得到所述网址训练样本,包括:
步骤001:获取标注后的网址初始训练样本;所述标注后的网址初始训练样本包括正样本集、可靠负样本集以及待确认样本集;所述正样本集为通过多种渠道标注确认的正样本;所述可靠负样本集为通过多种渠道标注确认的负样本;所述待确认样本集为未被所有渠道标注确认的样本;
步骤002:将正样本子集放入所述待确认样本集中,作为间谍样本;所述正样本子集为从所述正样本集中随机选择的第一比例的正样本;
步骤003:将所述正样本集减去所述正样本子集作为新的正样本集,将所述待确认样本集及所述所述正样本子集作为新的负样本集,对所述融合模型进行训练,得到训练后的融合模型;
步骤004:将所述新的负样本集输入所述训练后的融合模型,输出样本的条件概率分布;
步骤005:将所述待确认样本集中所有条件概率低于预设概率阈值的样本放入所述可靠负样本集;所述预设概率阈值位所述间谍样本中正样本条件概率分位值;
步骤006:迭代执行步骤002至步骤005,得到最终的负样本集;
步骤007:根据所述最终的负样本集及所述正样本集,得到所述网址训练样本。
在一种可选的方式中,所述方法还包括:
将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果;
根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失;所述代价敏感损失函数包括正样本惩罚因子及负样本惩罚因子;所述正样本惩罚因子及所述负样本惩罚因子基于交叉验证选取;
根据所述损失调整所述预设的融合模型的参数,并继续执行所述将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果,根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失,以及根据所述损失调整所述预设的融合模型的参数的步骤,直至所述损失最小或达到预设的迭代次数,得到恶意网址识别模型。
在一种可选的方式中,所述方法还包括:
当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截。
在一种可选的方式中,所述当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截之后,所述方法还包括:
将所述待识别网址推送至判研人员,以使所述判研人员进行进一步判研;
根据判研结果,将所述待识别网址更新至网址库中,以作为初始样本集中的样本。
本发明实施例通过获取待识别网址;将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型,能够有效提高网址识别的准确率。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在计算机设备上运行时,使得所述计算机设备执行上述任意方法实施例中的恶意网址识别方法。
可执行指令具体可以用于使得计算机设备执行以下操作:
获取待识别网址;
将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量。
在一种可选的方式中,所述将所述待识别网址输入恶意网址识别模型中,得到识别结果之前,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;
对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
在一种可选的方式中,所述基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本,进一步包括:
根据实时融合模型的准确率及初始值确定度量参数;
根据所述度量参数、所述网址密度、所述网址相似性、所述网址不确定性及基于网址类别的度量,确定所述样本信息量。
在一种可选的方式中,所述对所述网址初始训练样本进行标注处理,得到所述网址训练样本,包括:
步骤001:获取标注后的网址初始训练样本;所述标注后的网址初始训练样本包括正样本集、可靠负样本集以及待确认样本集;所述正样本集为通过多种渠道标注确认的正样本;所述可靠负样本集为通过多种渠道标注确认的负样本;所述待确认样本集为未被所有渠道标注确认的样本;
步骤002:将正样本子集放入所述待确认样本集中,作为间谍样本;所述正样本子集为从所述正样本集中随机选择的第一比例的正样本;
步骤003:将所述正样本集减去所述正样本子集作为新的正样本集,将所述待确认样本集及所述所述正样本子集作为新的负样本集,对所述融合模型进行训练,得到训练后的融合模型;
步骤004:将所述新的负样本集输入所述训练后的融合模型,输出样本的条件概率分布;
步骤005:将所述待确认样本集中所有条件概率低于预设概率阈值的样本放入所述可靠负样本集;所述预设概率阈值位所述间谍样本中正样本条件概率分位值;
步骤006:迭代执行步骤002至步骤005,得到最终的负样本集;
步骤007:根据所述最终的负样本集及所述正样本集,得到所述网址训练样本。
在一种可选的方式中,所述方法还包括:
将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果;
根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失;所述代价敏感损失函数包括正样本惩罚因子及负样本惩罚因子;所述正样本惩罚因子及所述负样本惩罚因子基于交叉验证选取;
根据所述损失调整所述预设的融合模型的参数,并继续执行所述将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果,根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失,以及根据所述损失调整所述预设的融合模型的参数的步骤,直至所述损失最小或达到预设的迭代次数,得到恶意网址识别模型。
在一种可选的方式中,所述方法还包括:
当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截。
在一种可选的方式中,所述当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截之后,所述方法还包括:
将所述待识别网址推送至判研人员,以使所述判研人员进行进一步判研;
根据判研结果,将所述待识别网址更新至网址库中,以作为初始样本集中的样本。
本发明实施例通过获取待识别网址;将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型,能够有效提高网址识别的准确率。
本发明实施例提供一种恶意网址识别装置,用于执行上述恶意网址识别方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使计算机设备执行上述任意方法实施例中的恶意网址识别方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的恶意网址识别方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种恶意网址识别方法,其特征在于,所述方法包括:
获取待识别网址;
将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量。
2.根据权利要求1所述的方法,其特征在于,所述将所述待识别网址输入恶意网址识别模型中,得到识别结果之前,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
3.根据权利要求2所述的方法,其特征在于,所述基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本,进一步包括:
根据实时融合模型的准确率及初始值确定度量参数;
根据所述度量参数、所述网址密度、所述网址相似性、所述网址不确定性及基于网址类别的度量,确定所述样本信息量。
4.根据权利要求3所述的方法,其特征在于,所述对所述网址初始训练样本进行标注处理,得到所述网址训练样本,包括:
步骤001:获取标注后的网址初始训练样本;所述标注后的网址初始训练样本包括正样本集、可靠负样本集以及待确认样本集;所述正样本集为通过多种渠道标注确认的正样本;所述可靠负样本集为通过多种渠道标注确认的负样本;所述待确认样本集为未被所有渠道标注确认的样本;
步骤002:将正样本子集放入所述待确认样本集中,作为间谍样本;所述正样本子集为从所述正样本集中随机选择的第一比例的正样本;
步骤003:将所述正样本集减去所述正样本子集作为新的正样本集,将所述待确认样本集及所述所述正样本子集作为新的负样本集,对所述融合模型进行训练,得到训练后的融合模型;
步骤004:将所述新的负样本集输入所述训练后的融合模型,输出样本的条件概率分布;
步骤005:将所述待确认样本集中所有条件概率低于预设概率阈值的样本放入所述可靠负样本集;所述预设概率阈值位所述间谍样本中正样本条件概率分位值;
步骤006:迭代执行步骤002至步骤005,得到最终的负样本集;
步骤007:根据所述最终的负样本集及所述正样本集,得到所述网址训练样本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果;
根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失;所述代价敏感损失函数包括正样本惩罚因子及负样本惩罚因子;所述正样本惩罚因子及所述负样本惩罚因子基于交叉验证选取;
根据所述损失调整所述预设的融合模型的参数,并继续执行所述将所述网址训练样本输入所述预设的融合模型进行训练,得到输出结果,根据输出结果及代价敏感损失函数,计算所述预设的融合模型的损失,以及根据所述损失调整所述预设的融合模型的参数的步骤,直至所述损失最小或达到预设的迭代次数,得到恶意网址识别模型。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
当所述识别结果确定所述待识别网址为恶意网址时,对所述待识别网址进行拦截;
将所述待识别网址推送至判研人员,以使所述判研人员进行进一步判研;
根据判研结果,将所述待识别网址更新至网址库中,以作为初始样本集中的样本。
7.一种恶意网址样本生成方法,其特征在于,所述方法包括:
对用户的网址访问行为数据进行预处理,得到初始网址样本集;
基于样本信息量对所述初始网址样本集中的初始网址样本进行选择,得到所述网址初始训练样本;所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量;
对所述网址初始训练样本进行标注处理,得到所述网址训练样本。
8.一种恶意网址识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别网址;
识别模块,用于将所述待识别网址输入恶意网址识别模型中,得到识别结果;其中,所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到;所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到;所述融合模型包括多个异质基模型。
9.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的恶意网址识别方法的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行如权利要求1-7任意一项所述的恶意网址识别方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211371880.4A CN117997571A (zh) | 2022-11-03 | 2022-11-03 | 恶意网址识别方法、网址样本生成方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211371880.4A CN117997571A (zh) | 2022-11-03 | 2022-11-03 | 恶意网址识别方法、网址样本生成方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117997571A true CN117997571A (zh) | 2024-05-07 |
Family
ID=90897979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211371880.4A Pending CN117997571A (zh) | 2022-11-03 | 2022-11-03 | 恶意网址识别方法、网址样本生成方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117997571A (zh) |
-
2022
- 2022-11-03 CN CN202211371880.4A patent/CN117997571A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468241B2 (en) | Techniques to add smart device information to machine learning for increased context | |
CN108376151A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN109918560A (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN111291015B (zh) | 一种用户行为异常检测方法及装置 | |
CN111506708A (zh) | 一种文本审核方法、装置、设备和介质 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN113672931B (zh) | 一种基于预训练的软件漏洞自动检测方法及装置 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN108229170B (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN110347830B (zh) | 舆情预警的实现方法和装置 | |
Guo et al. | An adaptive deep transfer learning model for rumor detection without sufficient identified rumors | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112419268A (zh) | 一种输电线路图像缺陷检测方法、装置、设备及介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
Yan et al. | Cross-site scripting attack detection based on a modified convolution neural network | |
CN112882899B (zh) | 一种日志异常检测方法及装置 | |
CN116821339A (zh) | 滥用语言检测方法、装置及存储介质 | |
CN111597336A (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN117997571A (zh) | 恶意网址识别方法、网址样本生成方法及相关设备 | |
CN115964478A (zh) | 网络攻击检测方法、模型训练方法及装置、设备及介质 | |
Levshun et al. | Active learning approach for inappropriate information classification in social networks | |
CN105224655B (zh) | 网站转化设置的检测方法、处理方法和装置 | |
Zhang et al. | Code Smell Detection Research Based on Pre-training and Stacking Models | |
CN111930545B (zh) | Sql脚本处理方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |