CN117235532B - 一种基于M-Bert的恶意网站检测模型的训练及检测方法 - Google Patents
一种基于M-Bert的恶意网站检测模型的训练及检测方法 Download PDFInfo
- Publication number
- CN117235532B CN117235532B CN202311484743.6A CN202311484743A CN117235532B CN 117235532 B CN117235532 B CN 117235532B CN 202311484743 A CN202311484743 A CN 202311484743A CN 117235532 B CN117235532 B CN 117235532B
- Authority
- CN
- China
- Prior art keywords
- bert
- training
- website
- model
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000013135 deep learning Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101100322920 Danio rerio gpt2l gene Proteins 0.000 description 1
- 101150079757 GPT2 gene Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Computer And Data Communications (AREA)
Abstract
本发明涉及一种基于M‑Bert的恶意网站检测模型的训练及检测方法,属于互联网网络安全技术领域。包括下述主要步骤:训练数据集送入M‑Bert模型,通过四个嵌入层分别得到四个向量,再经过Transformer Encoder模块,得到一个更强的网址向量表征,再经两层FC全连接层得到预测标签,将测标签与实际标签进行比较计算损失值,通过损失曲线判断训练情况,直至损失值小于一个预定值,得到完成训练的检测模型。一种基于M‑Bert的恶意网站检测模型的检测方法,将待检测的网址输入上述检测模型得到预测结果。本发明在现有Bert模型基础上引入新嵌入层,得到一种新的M‑Bert模型,这样训练出来的基于M‑Bert的恶意网站检测模型能够提高恶意网站检测的准确性和有效性。
Description
技术领域
本发明涉及互联网网络安全技术领域,特别涉及一种基于M-Bert恶意网站检测模型的训练及检测方法。
背景技术
随着互联网的普及,网址诈骗成为了一种普遍存在的网络犯罪行为。网址诈骗指的是利用虚假或伪装的网站诱骗用户泄露个人信息或进行欺诈活动的行为,这种行为可能会导致用户的财产、隐私以及个人信息的泄露和被盗用。例如,钓鱼网站通常会伪装成银行、电商等网站,诱骗用户输入用户名和密码,以获取用户的账户信息。还有一些恶意网站可能会利用漏洞攻击用户的设备,植入恶意软件,甚至导致用户的设备被感染病毒,影响设备的正常使用。在这个大数据时代,解决恶意网址的检测成为了一个亟待解决的问题。最近,随着生成式预训练大模型的发行,几个月期间更大的生成式模型也横空出世,各个领域都在向大模型靠拢,国内外的研究者在恶意网址检测领域都取得了一定的成果,但是面对多变、时效的恶意网址依然束手无策。基于机器学习的研究,大多数都需要自己提取相关网址特征,不仅耗时,面对现在多变的涉诈网址也是无能为力。而基于LSTM与CNN等深度学习等模型提出的恶意网址检测方法,虽然能够自动提取特征,但是对于恶意网址的特点,比如时效性短,变化频繁和迅速,对于其不断更改替换的各种特征也手足无策。
在现有技术中,针对恶意网站的检测方法主要包括三种途径:黑白名单数据库、机器学习(ML)算法,以及深度学习(DL)技术。
黑白名单数据库方法是一种最传统的恶意网站检测方式。它依赖于维护一个数据库,其中包含已知的恶意URL,这些URL会被列入黑名单。同样地,已知的良性URL会被列入白名单。当新的URL出现时,系统会对其进行检查,如果在黑名单中找到匹配项,就会被识别为恶意网站,否则被视为良性。尽管这种方法在处理已知恶意网址上可能有效,但其主要缺点在于无法及时检测新出现的、未被列入黑名单的恶意URL,从而使得新型恶意网站容易逃避检测。
其次,机器学习算法被应用于恶意网站检测的第二种方法。研究人员通过采用诸如逻辑回归和决策树等常见的机器学习算法,将URL、域名和域名长度等数值特征输入模型,以进行分类和识别恶意网站。尽管这种方法在一定程度上提高了检测准确率,但由于需要人工设计特征和进行广泛的特征选择,其应对恶意网站不断演变的能力有限。
第三种方法采用深度学习技术,其中包括卷积神经网络(CNN)和长短期记忆(LSTM)模型。这些深度学习模型在恶意网站检测方面取得了更高的准确率。然而,恶意网站的不断变化和多样性使得CNN和LSTM模型难以捕捉到恶意网站的复杂特征和语义理解,因此,在面对新型恶意网站时,这些模型可能表现不佳。
在现有技术中,也有采用Bert模型进行恶意网址检测的方式,Bert模型是基于Transformer编码器的一种预训练模型,它可以用于各种自然语言处理任务。Bert模型的输入嵌入层包括了三个嵌入层,其中词嵌入层是对每个词的静态表示,位置嵌入层是对每个词的位置信息进行编码,段嵌入层用于区分两个句子中的词。输入嵌入层接收一个词序列作为输入,并将每个词都映射到一个d维向量上,包括:词向量Token Embedding、位置向量Position Embedding、分割向量Segment Embedding 。经过嵌入之后,再经过多层的Transformer Encoder模块即可完成整个Bert模型,其中Bert模型如图1所示。可以直观的看到输入文本经过输入嵌入层后得到了一个向量表示结果,再经过12层TransformerEncoder模块后,得到了最后的输出表征。但是,现有的Bert模型除了可以输入文本信息,对于其他的信息无法嵌入,然而,恶意网址具有非常多的特征,比如域名、域名长度、小数点的数量,现有的Bert模型对这些信息无法进行融合。
综上所述,现有技术在恶意网站检测方面仍面临一系列挑战,包括缺乏及时性、特征选择的主观性和深度学习模型的理解能力限制。
发明内容
基于以上问题,本发明的第一目的在于提供一种基于M-Bert的恶意网站检测模型的训练方法,该方法对现有的Bert模型进行了创新,在现有Bert模型基础上引入新嵌入层,得到一种新的M-Bert模型,使得在恶意网址识别时能嵌入更多特征,不仅包含域名长度、小数点的数量,也可以嵌入网页图片、网页文本、网页源代码,这样训练出来的基于M-Bert的恶意网站检测模型能够提高恶意网站检测的准确性和有效性,并能更好地应对新型的恶意网站威胁。
本发明实现其第一发明目的所采用的技术方案是,一种基于M-Bert的恶意网站检测模型的训练方法,其步骤包括:
S1、采集数据集,将人工采集的数据集以及网络上开源的数据集,没有标签的进行标注,标注后将数据集以预定的比例划分成训练数据集与测试数据集;
S2、对多元交叉熵损失函数、AdamW优化器进行初始化,其中多元交叉熵损失函数为:
式中:p为概率分布,i为类别序号,pi表示样本数据属于第i类的概率,y为样本标签的one-hot表示,当样本属于第i类时,yi=1,否则yi=0,C代表总类别数,Loss为多元交叉熵损失值;
S3、在PyTorch深度学习平台中使用Dataloader数据加载器加载和处理数据,Dataloader数据加载器将训练数据集和测试数据集转换为PyTorch张量并分成预定数量批次,每个训练批次包含一组输入样本和其对应的标签;
S4、从所述步骤S3中得到的预定数量批次数据中取出一个批次的数据送入M-Bert模型,进行前向传播操作,所述M-Bert模型包括词嵌入层、位置嵌入层、段嵌入层、以及新嵌入层共四个嵌入层,其中新嵌入层用于嵌入网址第四特征;前向传播操作具体为:数据通过所述四个嵌入层分别得到恶意网址的词向量Token Embedding、位置向量PositionEmbedding、分割向量Segment Embedding、以及新特征向量New Embedding共四个向量;所述四个向量再经过M-Bert模型的12层Transformer Encoder模块,得到一个更强的网址向量表征;将更强的网址向量表征前向传播进入M-Bert模型的两层FC全连接层进行分类得到输出,即为预测标签,预测标签用于计算多元交叉熵损失函数;
S5、使用多元交叉熵损失函数将上述步骤S4中得到的预测标签与实际标签进行比较计算损失值,绘制损失曲线,通过损失曲线判断M-Bert模型的训练情况,如果损失值小于一个预定值,则停止训练,得到基于M-Bert的恶意网站检测模型,否则,转入步骤S6;
S6、进行反向传播操作,将步骤S5中得到的损失值回传到M-Bert模型的权重参数,更新这些参数以最小化损失,所述反向传播操作通过求解多元交叉熵损失函数对模型参数的梯度实现,使用步骤S2中初始化完成的AdamW优化器根据梯度更新M-Bert模型参数,再转入步骤S4。
进一步,步骤S1中,数据集按照训练数据集:测试数据集=7:3的比例划分。
进一步,步骤S4中,所述网址第四特征至少包括下述元素之一:域名长度、小数点的数量、网页图片、网页文本、网页源代码。
进一步,步骤S5中,所述预定值等于0.0005。
本发明的第二目的在于提供一种基于M-Bert的恶意网站检测模型的检测方法,该方法能实现对恶意网站的准确、有效检测。
本发明实现其第二发明目的所采用的技术方案是,一种基于M-Bert的恶意网站检测模型的检测方法,其步骤包括:
A1、在PyTorch深度学习平台中,将根据上述的一种基于M-Bert的恶意网站检测模型的训练方法得到的基于M-Bert的恶意网站检测模型设置为推理模式;
A2、将待检测的网址输入步骤 A1中已设置为推理模式的所述检测模型,经过检测模型的推理,得到该待检测的网址的预测结果。
本发明的有益效果为:
一、提高了恶意网站检测的准确性
M-Bert模型融合了更多的网址特征,相较于传统的基于规则或特征工程的方法,可以更全面地捕捉恶意网址的特征,进一步提高了恶意网址识别的准确性。例如,M-Bert模型可以利用字符级别、词级别、域名级别等不同级别的网址特征,从而提高模型对恶意网址的识别能力。
二、提高了模型的泛化能力
M-Bert模型基于现有BERT模型进行改进,在Transformer Encoder模块上与BERT相同,可以适应各种自然语言处理任务,并具有很强的泛化能力。这使得M-Bert模型可以更好地处理不同领域、不同语种的网址数据,具有更好的泛化能力。
三、增强了模型对网址的理解能力
M-Bert模型引入一个新嵌入层用于融合更多的网址特征,可以更全面地理解网址的含义和特征。例如,该嵌入层可以将字符级别、词级别、域名级别等不同级别的网址特征进行融合,从而更好地捕捉网址的语义信息和结构信息,提高模型对网址的理解能力。
四、可扩展性强
M-Bert模型可以通过Fine-tuning的方式适应不同的自然语言处理任务,具有很强的可扩展性。这意味着,可以将M-Bert模型用于其他与文本相关的任务,如文本分类、情感分析等。此外,M-Bert模型可以使用大规模的已标记数据进行预训练,可以提高模型的泛化能力和稳定性,同时也为Fine-tuning提供了更好的初始化模型。
附图说明
图1为现有Bert模型结构示意图;
图2为本发明实施例M-Bert模型结构示意图。
实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
实施例
本发明的第一种具体实施方式,一种基于M-Bert的恶意网站检测模型的训练方法,其步骤包括:
S1、采集数据集,将人工采集的数据集以及网络上开源的数据集,没有标签的进行标注,标注后将数据集以7:3比例划分成训练数据集与测试数据集,数据集包含恶意网址的域名、域名的长度、网页源代码、响应网址的图片或文本信息;所述训练数据集用于模型训练,测试数据集用于模型评估;
本实施例中,共采集了600万条数据,按照训练数据集:测试数据集=7:3的比例划分,其中训练数据集包含420万条数据,测试数据集包含180万条数据;
S2、对多元交叉熵损失函数、AdamW优化器进行初始化,其中多元交叉熵损失函数为:
式中:p为概率分布,i为类别序号,pi表示样本数据属于第i类的概率,y为样本标签的one-hot表示,当样本属于第i类时,yi=1,否则yi=0,C代表总类别数,Loss为多元交叉熵损失值;
S3、在PyTorch深度学习平台中使用Dataloader数据加载器加载和处理数据,Dataloader数据加载器将训练数据集和测试数据集转换为PyTorch张量并分成预定数量批次,每个训练批次包含一组输入样本和其对应的标签;
本实施例中,每个训练批次包含512条数据的样本及其对应的标签;
S4、从所述步骤S3中得到的预定数量批次数据中取出一个批次的数据送入M-Bert模型,进行前向传播操作,所述M-Bert模型包括词嵌入层、位置嵌入层、段嵌入层、以及新嵌入层共四个嵌入层,其中新嵌入层用于嵌入网址第四特征;所述网址第四特征至少包括下述元素之一:域名长度、小数点的数量、网页图片、网页文本、网页源代码;前向传播操作具体为:数据通过所述四个嵌入层分别得到恶意网址的词向量Token Embedding、位置向量Position Embedding、分割向量Segment Embedding、以及新特征向量New Embedding共四个向量;所述四个向量再经过M-Bert模型的12层Transformer Encoder模块,得到一个更强的网址向量表征;将更强的网址向量表征前向传播进入M-Bert模型的两层FC全连接层进行分类得到输出,即为预测标签,预测标签用于计算多元交叉熵损失函数;在多元交叉熵损失函数中,总类别数C即来自于两层FC全连接层进行分类的结果;所述M-Bert模型如图2所示;
S5、使用多元交叉熵损失函数将上述步骤S4中得到的预测标签与实际标签进行比较计算损失值,绘制损失曲线,通过损失曲线判断M-Bert模型的训练情况,如果损失值小于一个预定值,则停止训练,得到基于M-Bert的恶意网站检测模型,否则,转入步骤S6;
本实施例中,所述预定值等于0.0005。
S6、进行反向传播操作,将步骤S5中得到的损失值回传到M-Bert模型的权重参数,更新这些参数以最小化损失,所述反向传播操作通过求解多元交叉熵损失函数对模型参数的梯度实现,使用步骤S2中初始化完成的AdamW优化器根据梯度更新M-Bert模型参数,再转入步骤S4。
实施例
本发明的第二种具体实施方式,一种基于M-Bert的恶意网站检测模型的检测方法,其步骤包括:
A1、在PyTorch深度学习平台中,将上述通过实施例1得到的基于M-Bert的恶意网站检测模型设置为推理模式;
A2、将待检测的网址输入步骤A1中已设置为推理模式的所述检测模型,经过检测模型的推理,得到该待检测的网址的预测结果。
模型评估:
为了对本发明的基于M-Bert的恶意网站检测模型准确性进行评估,将测试数据集输入训练完成的检测模型,具体方法为:
在PyTorch深度学习平台中,将训练完成的基于M-Bert的恶意网站检测模型设置为推理模式,再将测试数据集中待检测的网址输入已设置为推理模式的检测模型,经过检测模型的推理,得到该网址的预测结果,分析预测结果,检查M-Bert模型是否将待检测的网址分类为恶意网址或其他类别,并与测试数据集网址的实际标签比较,评估检测模型准确性。
同时,对其他一些常用的模型,如Bert、gpt2等模型进行了评估比较,评估结果如下表所示:
训练评估结果表:
模型 | 准确率(%) |
M-Bert | 94.42 |
Bert | 91.28 |
ernie-2.0-base-en | 81.67 |
gpt2-en-small | 91.92 |
convbert-small | 91.22 |
ernie-m-base | 87.58 |
LSTM | 86.67 |
可以看出,使用本发明的基于M-Bert的恶意网站检测模型,其准确率高达94.42%,比其他模型准确率明显提升。
本发明的上述实施例仅仅是为说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化和变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的技术方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (4)
1.一种基于M-Bert的恶意网站检测模型的训练方法,其特征在于,包括下述步骤:
S1、采集数据集,将人工采集的数据集以及网络上开源的数据集,没有标签的进行标注,标注后将数据集以预定的比例划分成训练数据集与测试数据集;
S2、对多元交叉熵损失函数、AdamW优化器进行初始化,其中多元交叉熵损失函数为:
,
式中:p为概率分布,i为类别序号,pi表示样本数据属于第i类的概率,y为样本标签的one-hot表示,当样本属于第i类时,yi=1,否则yi=0,C代表总类别数,Loss为多元交叉熵损失值;
S3、在PyTorch深度学习平台中使用Dataloader数据加载器加载和处理数据,Dataloader数据加载器将训练数据集和测试数据集转换为PyTorch张量并分成预定数量批次,每个训练批次包含一组输入样本和其对应的标签;
S4、从所述步骤S3中得到的预定数量批次数据中取出一个批次的数据送入M-Bert模型,进行前向传播操作,所述M-Bert模型包括词嵌入层、位置嵌入层、段嵌入层、以及新嵌入层共四个嵌入层,其中新嵌入层用于嵌入网址第四特征;前向传播操作具体为:数据通过所述四个嵌入层分别得到恶意网址的词向量Token Embedding、位置向量PositionEmbedding、分割向量Segment Embedding、以及新特征向量New Embedding共四个向量;所述四个向量再经过M-Bert模型的12层Transformer Encoder模块,得到一个更强的网址向量表征;将更强的网址向量表征前向传播进入M-Bert模型的两层FC全连接层进行分类得到输出,即为预测标签,预测标签用于计算多元交叉熵损失函数;所述网址第四特征至少包括下述元素之一:域名长度、小数点的数量、网页图片、网页文本、网页源代码;
S5、使用多元交叉熵损失函数将上述步骤S4中得到的预测标签与实际标签进行比较计算损失值,绘制损失曲线,通过损失曲线判断M-Bert模型的训练情况,如果损失值小于一个预定值,则停止训练,得到基于M-Bert的恶意网站检测模型,否则,转入步骤S6;
S6、进行反向传播操作,将步骤S5中得到的损失值回传到M-Bert模型的权重参数,更新这些参数以最小化损失,所述反向传播操作通过求解多元交叉熵损失函数对模型参数的梯度实现,使用步骤S2中初始化完成的AdamW优化器根据梯度更新M-Bert模型参数,再转入步骤S4。
2.根据权利要求1所述的一种基于M-Bert的恶意网站检测模型的训练方法,其特征在于:步骤S1中,数据集按照训练数据集:测试数据集=7:3的比例划分。
3.根据权利要求1所述的一种基于M-Bert的恶意网站检测模型的训练方法,其特征在于:所述预定值等于0.0005。
4.一种基于M-Bert的恶意网站检测模型的检测方法,其特征在于:
A1、在PyTorch深度学习平台中,将根据权利要求1~3任一项所述的一种基于M-Bert的恶意网站检测模型的训练方法得到的基于M-Bert的恶意网站检测模型设置为推理模式;
A2、将待检测的网址输入步骤A1中已设置为推理模式的所述检测模型,经过检测模型的推理,得到该待检测的网址的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311484743.6A CN117235532B (zh) | 2023-11-09 | 2023-11-09 | 一种基于M-Bert的恶意网站检测模型的训练及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311484743.6A CN117235532B (zh) | 2023-11-09 | 2023-11-09 | 一种基于M-Bert的恶意网站检测模型的训练及检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235532A CN117235532A (zh) | 2023-12-15 |
CN117235532B true CN117235532B (zh) | 2024-01-26 |
Family
ID=89096945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311484743.6A Active CN117235532B (zh) | 2023-11-09 | 2023-11-09 | 一种基于M-Bert的恶意网站检测模型的训练及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235532B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118094550A (zh) * | 2024-04-23 | 2024-05-28 | 山东省计算中心(国家超级计算济南中心) | 基于Bert与监督对比学习的动态恶意软件检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198995A (zh) * | 2020-01-07 | 2020-05-26 | 电子科技大学 | 一种恶意网页识别方法 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112926303A (zh) * | 2021-02-23 | 2021-06-08 | 南京邮电大学 | 一种基于BERT-BiGRU的恶意URL检测方法 |
CN114861631A (zh) * | 2022-05-19 | 2022-08-05 | 昆明理工大学 | 基于上下文的汉越跨语言句嵌入方法 |
US11438377B1 (en) * | 2021-09-14 | 2022-09-06 | Netskope, Inc. | Machine learning-based systems and methods of using URLs and HTML encodings for detecting phishing websites |
CN115171870A (zh) * | 2021-04-07 | 2022-10-11 | 浙江远图互联科技股份有限公司 | 一种基于m-BERT预训练模型的就诊引导提示方法及系统 |
CN115994351A (zh) * | 2022-09-30 | 2023-04-21 | 中国科学技术大学 | 一种恶意网站检测方法、装置、系统及设备 |
CN116684144A (zh) * | 2023-06-06 | 2023-09-01 | 东北大学 | 一种恶意域名检测方法及装置 |
CN116796251A (zh) * | 2023-08-25 | 2023-09-22 | 江苏省互联网行业管理服务中心 | 一种基于图文多模态的不良网站分类方法、系统及设备 |
CN116821339A (zh) * | 2023-06-20 | 2023-09-29 | 中国科学院自动化研究所 | 滥用语言检测方法、装置及存储介质 |
CN116955604A (zh) * | 2022-11-30 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 一种日志检测模型的训练方法、检测方法、装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11354515B2 (en) * | 2020-07-21 | 2022-06-07 | Salesforce, Inc. | Discovery and recommendation of online learning resources |
US11769011B2 (en) * | 2020-12-18 | 2023-09-26 | Google Llc | Universal language segment representations learning with conditional masked language model |
-
2023
- 2023-11-09 CN CN202311484743.6A patent/CN117235532B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198995A (zh) * | 2020-01-07 | 2020-05-26 | 电子科技大学 | 一种恶意网页识别方法 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112926303A (zh) * | 2021-02-23 | 2021-06-08 | 南京邮电大学 | 一种基于BERT-BiGRU的恶意URL检测方法 |
CN115171870A (zh) * | 2021-04-07 | 2022-10-11 | 浙江远图互联科技股份有限公司 | 一种基于m-BERT预训练模型的就诊引导提示方法及系统 |
US11438377B1 (en) * | 2021-09-14 | 2022-09-06 | Netskope, Inc. | Machine learning-based systems and methods of using URLs and HTML encodings for detecting phishing websites |
CN114861631A (zh) * | 2022-05-19 | 2022-08-05 | 昆明理工大学 | 基于上下文的汉越跨语言句嵌入方法 |
CN115994351A (zh) * | 2022-09-30 | 2023-04-21 | 中国科学技术大学 | 一种恶意网站检测方法、装置、系统及设备 |
CN116955604A (zh) * | 2022-11-30 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 一种日志检测模型的训练方法、检测方法、装置 |
CN116684144A (zh) * | 2023-06-06 | 2023-09-01 | 东北大学 | 一种恶意域名检测方法及装置 |
CN116821339A (zh) * | 2023-06-20 | 2023-09-29 | 中国科学院自动化研究所 | 滥用语言检测方法、装置及存储介质 |
CN116796251A (zh) * | 2023-08-25 | 2023-09-22 | 江苏省互联网行业管理服务中心 | 一种基于图文多模态的不良网站分类方法、系统及设备 |
Non-Patent Citations (3)
Title |
---|
Bangla Fake News Detection using Machine Learning, Deep Learning and Transformer Models;Risul Islam Rasel 等;《2022 25th International Conference on Computer and Information Technology (ICCIT)》;第959-964页 * |
基于TMS-BERT的藏文多粒度语义匹配模型研究;杨进 等;《高原科学研究》;第7卷(第02期);第84-92页 * |
融合局部语义特征的学者细粒度信息提取方法;田悦霖 等;《计算机应用》;第43卷(第09期);第2707-2714页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117235532A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Phishing URL detection via CNN and attention-based hierarchical RNN | |
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN111198995B (zh) | 一种恶意网页识别方法 | |
CN107659570A (zh) | 基于机器学习与动静态分析的Webshell检测方法及系统 | |
CN105956472A (zh) | 识别网页中是否包含恶意内容的方法和系统 | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
Guo et al. | Exsense: Extract sensitive information from unstructured data | |
CN113098887A (zh) | 一种基于网站联合特征的钓鱼网站检测方法 | |
Aljabri et al. | An Assessment of Lexical, Network, and Content‐Based Features for Detecting Malicious URLs Using Machine Learning and Deep Learning Models | |
CN117235532B (zh) | 一种基于M-Bert的恶意网站检测模型的训练及检测方法 | |
CN111259219B (zh) | 恶意网页识别模型建立方法、识别方法及系统 | |
CN111181922A (zh) | 一种钓鱼链接检测方法及系统 | |
CN110830489B (zh) | 基于内容抽象表示的对抗式欺诈网站检测方法及系统 | |
CN110191096A (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
CN112541476A (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN110958244A (zh) | 一种基于深度学习的仿冒域名检测方法及装置 | |
Nowroozi et al. | An adversarial attack analysis on malicious advertisement URL detection framework | |
Sánchez-Paniagua et al. | Impact of current phishing strategies in machine learning models for phishing detection | |
Shyni et al. | Phishing detection in websites using parse tree validation | |
Wibowo et al. | Detection of Fake News and Hoaxes on Information from Web Scraping using Classifier Methods | |
Kumar et al. | Performance evaluation of machine learning techniques for detecting cross-site scripting attacks | |
CN117614644A (zh) | 恶意网址识别方法、电子设备及存储介质 | |
Almousa et al. | Characterizing coding style of phishing websites using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |