CN115470488A - 目标风险网站检测方法、装置及存储介质 - Google Patents

目标风险网站检测方法、装置及存储介质 Download PDF

Info

Publication number
CN115470488A
CN115470488A CN202211045603.4A CN202211045603A CN115470488A CN 115470488 A CN115470488 A CN 115470488A CN 202211045603 A CN202211045603 A CN 202211045603A CN 115470488 A CN115470488 A CN 115470488A
Authority
CN
China
Prior art keywords
website
model
target
characteristic information
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211045603.4A
Other languages
English (en)
Inventor
刘立峰
王坤
李丽
王文重
李振华
张建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Comleader Information Technology Co Ltd
Original Assignee
Zhuhai Comleader Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Comleader Information Technology Co Ltd filed Critical Zhuhai Comleader Information Technology Co Ltd
Priority to CN202211045603.4A priority Critical patent/CN115470488A/zh
Publication of CN115470488A publication Critical patent/CN115470488A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Virology (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种目标风险网站检测方法、装置及存储介质,其中该方法包括:爬取待检测网站的第一信息,其中,第一信息包括网页快照、网站源码和网站文本;通过预先训练的BERT模型对网站源码和网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息;通过预先训练的ResNet模型对网页快照进行特征提取,得到网页快照特征信息;基于网站源码特征信息、网站文本特征信息、网页快照特征信息,通过预先训练的目标风险网站检测模型判断待检测网站是否为目标风险网站。以实现以数据为主导的对目标风险网站的检测功能。本发明可广泛应用于风险网站检测领域。

Description

目标风险网站检测方法、装置及存储介质
技术领域
本发明涉及网站检测领域,尤其是一种目标风险网站检测方法。
背景技术
当前,伴随着大数据时代的到来,电信网络诈骗呈现高发态势。风险网站作为电信网络诈骗的升级版本,隐蔽性更强,社会危害性更大。现有的针对风险网站,主要通过黑名单、受害者报案、人工研判等方式来获取情报来源,非常耗时,需要大量人力资源。
发明内容
有鉴于此,本发明实施例提供一种目标风险网站检测方法,以实现以数据为主导的对目标风险网站的检测功能。
本发明的一方面提供了目标风险网站检测方法,包括:爬取待检测网站的第一信息,其中,所述第一信息包括网页快照、网站源码和网站文本;通过预先训练的BERT模型对所述网站源码和所述网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息;通过预先训练的ResNet模型对所述网页快照进行特征提取,得到网页快照特征信息;基于所述网站源码特征信息、所述网站文本特征信息、所述网页快照特征信息,通过预先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网站。
根据本发明的一些实施例,所述基于所述网站源码特征信息、所述网站文本特征信息和所述网页快照特征信息,通过预先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网站,包括:将所述网站源码特征信息、所述网站文本特征信息和所述网页快照特征信息输入预先训练的目标风险网站检测模型;将所述网站源码特征信息与目标风险网站的网站源码进行相似度匹配;将所述网站文本特征信息与目标风险网站的网站文本进行相似度匹配;将所述网页快照特征信息与目标风险网站的网页快照进行相似度匹配;根据相似度匹配结果,对待检测网站进行评分;根据评分结果,输出对所述待检测网站的检测结果。
根据本发明的一些实施例,所述根据评分结果,输出对所述待检测网站的检测结果,包括:当所述评分结果大于第一阈值,则输出所述待检测网站为目标风险网站的检测结果;当所述评分结果小于或等于所述第一阈值,则输出所述待检测网站为正常网站的检测结果。
根据本发明的一些实施例,所述方法还包括:获取所述待检测网站的网址;将所述待检测网站的网址输入预先训练的目标风险网站检测模型,以检测所述待检测网站的网址是否与目标风险网站的网址相同;若所述待检测网站的网址与目标风险网站的网址相同,输出所述待检测网站为目标风险网站的检测结果;若所述待检测网站的网址与目标风险网站的网址不相同,输出所述待检测网站为正常网站的检测结果。
根据本发明的一些实施例,所述方法还包括预先训练BERT模型的步骤,该步骤包括:通过复制第一源模型的网络层层创建第一目标模型的网络层,其中,所述第一源模型为预训练好的BERT模型,所述网络层为模型中除了输出层以外的层;将具有随机权重的第一目标输出层作为所述第一目标模型的输出层;冻结所述第一目标模型中的网络层,通过随机初始化所述第一目标输出层的模型参数,调整所述网络层的参数;通过调整网络层的参数训练所述第一目标输出层,确定所述第一目标输出层的参数训练完成后,则解冻所述第一目标模型中的网络层,训练整个所述第一目标模型作为BERT模型。
根据本发明的一些实施例,所述方法还包括预先训练ResNet模型的步骤,该步骤包括:通过复制第二源模型的网络层层创建第二目标模型的网络层,其中,所述第二源模型为预训练好的BERT模型,所述网络层为模型中除了输出层以外的层;将具有随机权重的第二目标输出层作为所述第二目标模型的输出层;冻结所述第二目标模型中的网络层,通过随机初始化所述第二目标输出层的模型参数,调整所述网络层的参数;通过调整网络层的参数训练所述第二目标输出层,确定所述第二目标输出层的参数训练完成后,则解冻所述第二目标模型中的网络层,训练整个所述第二目标模型作为ResNet模型。
根据本发明的一些实施例,得到网站源码特征信息、网站文本特征信息和网页快照特征信息后,还包括:将网站源码特征信息、所述网站文本特征信息、所述网页快照特征信息进行融合处理,其中,所述融合处理包括拼接和加权求和。
本发明的另一方面提供了一种目标风险网站检测装置,所述装置包括:爬取模块,用于爬取待检测网站的第一信息,其中,所述第一信息包括网页快照、网站源码和网站文本;第一提取模块,用于通过预先训练的BERT模型对所述网站源码和所述网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息;第二提取模块,用于通过预先训练的ResNet模型对所述网页快照进行特征提取,得到网页快照特征信息;检测模块,用于基于所述网站源码特征信息、所述网站文本特征信息、所述网页快照特征信息,通过预先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网站。
本发明的另一方面提供了一种电子设备,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如上所述的任一项所述的目标风险网站检测方法。
根据本发明实施例的电子设备,至少具有与上述的目标风险网站检测方法同样的有益效果。
本发明的另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如上所述的任一项所述的目标风险网站检测方法。
根据本发明实施例的计算机可读存储介质,至少具有与上述的目标风险网站检测方法同样的有益效果。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例通过综合网页快照、网页源码、网站文本对网站进行检测,针对网站内容及网页源码进行特征提取,根据特征提取的内容建立有效的分析方法,建立以数据为主导的有效的对杀猪盘网址网站检测的能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的目标风险网站检测方法的步骤流程图;
图2是本发明实施例提供的目标风险网站检测装置的示意框图;
图3是本发明实施例的设备的示意框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
目前,对于一些存在潜在危险的网站,例如杀猪盘网站的检测,主要通过黑名单、受害者报案、人工研判等方式来获取情报来源,没有针对网站及网址URL建立有效的分析系统,没有建立以数据为主导的有效的预警防范机制。因此,本申请综合运用网站文本、网页快照图片和网站源码等多模态数据,构建一个对综合情报信息进行整合分析研判的强信息资源互联互享的分析系统,有效提升杀猪盘网址网站检测的能力。因此,基于图像卷积网络,从网页快照、网站文本和网站源码等多模态数据中提取特征,结合标签数据,通过深度神经网络模型进行模型训练,建立以数据和模型为驱动的目标风险网站网址检测机制,是实现精准打击和科学预防,遏制“杀猪盘”等电信网络诈骗频发的关键。
先对以下术语进行解释:
深度学习:深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
爬虫技术:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
网页快照:通过爬虫技术自动实现网站首页及关键页高清截屏图片。
基于网络微调的迁移学习:对于一个训练好的的深度神经网络,网络的浅层往往学到的是通用特征,而网络的深层学习更专注于学习专有特征。基于网络微调的迁移学习即固定浅层网络的权重,初始化深层网络的权重,再使用小样本数据重新训练网络,这种方法能大大提高网络的训练效率,解决了只有少量数据很难训练出一个表现良好的深度网络模型的问题。
多模态:模态用通俗的话来讲,就是“感官”。多模态即多种感官的融合,即指让计算机拥有处理语音、文本、图像、视频、知识等不同模态信息的能力。
参照图1,本发明的实施例的方法包括步骤S100-S400:
步骤S100,爬取待检测网站的第一信息,其中,第一信息包括网页快照、网站源码和网站文本。
具体地,爬取待检测网站的网页快照、网站源码和网站文本,风险网站常常利用页面中设置的图片、文字对用户进行诈骗,因此通过爬虫技术爬取网页的截屏以及网站的文本,并获取网站对应的源码,方便后续的进一步检测。
步骤S200,通过预先训练的BERT模型对网站源码和网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息。
在步骤S200中,BERT模型的训练方法包括以下步骤:
通过复制第一源模型的网络层层创建第一目标模型的网络层,其中,第一源模型为预训练好的BERT模型,网络层为模型中除了输出层以外的层;
将具有随机权重的第一目标输出层作为第一目标模型的输出层;
冻结第一目标模型中的网络层,通过随机初始化第一目标输出层的模型参数,调整网络层的参数;
通过调整网络层的参数训练第一目标输出层,确定第一目标输出层的参数训练完成后,则解冻第一目标模型中的网络层层,训练整个第一目标模型作为BERT模型。
具体地,在源数据集上训练神经网络模型,即源模型,该源模型为BERT模型;创建一个新的神经网络模型,即第一目标模型,第一目标模型复制了源模型除了输出层以外的设计及参数。选用一个具有随机权重的输出层作为第一目标模型的第一目标输出层,其中,第一目标输出层的输出大小要为目标数据集类别个数的输出层,并随机初始化该层模型参数。然后在目标数据集上训练目标模型。从头训练输出层,其余层参数进行微调。开始训练时,输出层以下的网络层的参数需要冻结,即固定,也就是进行前向计算,但反向传递时不更新参数,训练过程只更新新替换上的全连接层的参数。之后使用一个非常小的学习率进行训练,比如 0.001。在输出层的参数学习得差不多的时候,将网络层解冻(unfrozen),再整体训练整个第一目标模型,得到BERT模型。通过得到的已经训练好的BERT模型对网站源码和网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息。
步骤S300,通过预先训练的ResNet模型对网页快照进行特征提取,得到网页快照特征信息。
在步骤S300中,获取预先训练的ResNet包括以下方法:
通过复制第二源模型的网络层层创建第二目标模型的网络层,其中,第二源模型为预训练好的BERT模型,网络层为模型中除了输出层以外的层;
将具有随机权重的第二目标输出层作为第二目标模型的输出层;
冻结第二目标模型中的网络层,通过随机初始化第二目标输出层的模型参数,调整网络层的参数;
通过调整网络层的参数训练第二目标输出层,确定第二目标输出层的参数训练完成后,则解冻第二目标模型中的网络层,训练整个第二目标模型作为ResNet模型。
具体地,在源数据集上训练神经网络模型,即源模型,该源模型为ResNet模型;创建一个新的神经网络模型,即第二目标模型,第二目标模型复制了源模型除了输出层以外的设计及参数。选用一个具有随机权重的输出层作为第二目标模型的第二目标输出层,其中,第二目标输出层的输出大小要为目标数据集类别个数的输出层,并随机初始化该层模型参数。然后在目标数据集上训练目标模型。从头训练输出层,其余层参数进行微调。开始训练时,输出层以下的网络层的参数需要冻结(frozen),即固定,也就是进行前向计算,但反向传递时不更新参数,训练过程只更新新替换上的全连接层的参数。之后使用一个非常小的学习率进行训练,比如0.001。在输出层的参数学习得差不多的时候,将网络层解冻(unfrozen),再整体训练整个第一目标模型,得到ResNet模型。通过得到的已经训练好的ResNet模型对网站源码和网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息。
步骤S400,基于网站源码特征信息、网站文本特征信息、网页快照特征信息,通过预先训练的目标风险网站检测模型判断待检测网站是否为目标风险网站。
步骤S400中,包括以下步骤:
将网站源码特征信息、网站文本特征信息和网页快照特征信息输入预先训练的目标风险网站检测模型;
将网站源码特征信息与目标风险网站的网站源码进行相似度匹配;
将网站文本特征信息与目标风险网站的网站文本进行相似度匹配;
将网页快照特征信息与目标风险网站的网页快照进行相似度匹配;
根据相似度匹配结果,对待检测网站进行评分;
根据评分结果,输出对待检测网站的检测结果。
具体地,将网站源码特征信息、网站文本特征信息和网页快照特征信息输入预先训练的目标风险网站检测模型,从而与目标风险网站中的进行相似度匹配,能理解的是,目标风险网站中的为已经确定了是具有风险的网站,因此根据相似度匹配结果,对待检测网站进行评分,从而确定待检测网站是否为风险网站。
其中,根据评分结果,输出对待检测网站的检测结果,包括:当评分结果大于第一阈值,则输出待检测网站为目标风险网站的检测结果;当评分结果小于或等于第一阈值,则输出待检测网站为正常网站的检测结果。要说明的是,第一阈值可以是根据先验知识或者实际需要进行选取。
步骤S400中,得到网站源码特征信息、网站文本特征信息和网页快照特征信息后,还包括:将网站源码特征信息、网站文本特征信息、网页快照特征信息进行融合处理,其中,融合处理包括拼接和加权求和。多模态包括图像、文字、语言、音频等,主要包括以下技术:模态表示、模态传译、模态对齐和模态融合。多模态融合指综合来自两个或多个模态的信息以进行预测的过程。在预测的过程中,单个模态通常不能包含产生精确的预测结果所需的全部有效信息,多模态融合过程融合了来自两个或多个模态的信息,实现信息补充,拓宽输入数据所包含信息的覆盖范围,提升预测结果的精度,提高预测模型的鲁棒性。多模态融合按多模态融合与各模态建模的先后关系分为前融合、后融合和混合融合。进行融合处理的过程中需要进行拼接和加权求和处理。
除此之外,检测待检测网站是否为目标风险网站的方法还包括:
获取待检测网站的网址;
将待检测网站的网址输入预先训练的目标风险网站检测模型,以检测待检测网站的网址是否与目标风险网站的网址相同;
若待检测网站的网址与目标风险网站的网址相同,输出待检测网站为目标风险网站的检测结果;
若待检测网站的网址与目标风险网站的网址不相同,输出待检测网站为正常网站的检测结果。
具体地,对于验证待检测网站是否为目标风险网站还可以直接获取待检测网站的网址,将网址输入到目标风险网站检测模型,判断网址是否一样,一样则为风险网站,不一样则为正常网站。如果一样就不再需要验证网页快照、网站源码和网站文本的相似度,说明网址没有改变,此时即使页面布局发生改变依然是风险网站。
以下是具体实施例:
第一步:从筛选出的杀猪盘网址中获取网站文本、网页快照图片和网站源码信息,分别保存在独立的文本、网页快照、网站源码及标签文件中。
第二步:数据清洗,对保存的网站文本、快照和源码数据进行清洗、过滤,保留富含诈骗元素的数据集,并打上准确的标签。
第三步:进行特征提取,将网站文本和网站源码,使用预先训练好的BERT模型对文本序列进行特征提取,获得隐藏层的输出,即文本中各个字词融合全文语义信息后的向量表示,输入到BERT模型中进行特征提取。将网页快照数据,利用ResNet模型进行特征提取并回归出目标位置,在通过对回归到的目标图像进行类别分类。
第四步:将数据按照一定的比例分成训练集和测试集,用来做模型训练及输出。
第五步:通过爬虫爬取需要判断网址的文本、源码数据和图片快照信息,提取特征并输入到模型中进行推理判断。
第六步:输出对某个网址的判断结果并验证准确率。
算法的具体实现如下:
以下是基于ResNet的网页快照分类过程如下:
将已有的标记数据集按照一定的比例随机划分为训练集和测试集;实例化ResNet模型;加载预训练的ResNet模型参数;冻结除最后一层分类器外其余层的模型参数;构造模型分类器并对其参数进行初始化。
Input:训练集、测试集、预测数据;
Repeat:
用训练集在ResNet模型上对其参数进行微调:
基于训练集,通过ResNet模型得到训练集训练预测结果;
计算分类损失;
更新分类器的参数;
基于测试集,通过ResNet模型得到测试预测结果;
计算分类准确率,若准确率提升则保存模型;
until:模型收敛(分类准确率不再提高),退出循环;
do:
基于预测数据,通过ResNet模型训练预测结果;
return:
网页快照类别。
以下是基于bert与训练模型的网页文本输出过程:
将已有的标记数据集按照一定的比例随机划分为训练集和测试集;实例化 Bert-Base-Chinese模型;加载预训练的Bert-Base-Chinese模型参数;冻结除最后一层分类器外其余层的模型参数;构造模型分类器并对其参数进行初始化。
Input:训练集、测试集、预测数据;
Repeat:
用训练集在BertBaseChinese模型上对其参数进行微调:
基于训练集,根据Bert-Base-Chinese模型得到训练预测结果;
计算分类损失;
更新分类器的参数;
基于测试集,根据Bert-Base-Chinese模型得到测试预测结果;
计算分类准确率,若准确率提升则保存模型
Until:模型收敛(分类准确率不再提高),保存模型,退出循环;
do:
基于预测数据,根据BertBaseChinese模型得到训练预测结果;
return:
网站内容类别。
对比传统风险网站,比如杀猪盘检测的方法,本技术中模型整合了多维数据,并进行多模态数据特征提取、模型训练和预测输出,能有效利用先验知识,以量化数据为基础进行检测。本技术中提出的模型有更好的适应性,能持续性的对网络行为进行监测,提高了系统的实用价值。
一方面,参照图2,本实施例提供一种目标风险网站检测装置,至少包括:爬取模块510,第一提取模块520,第二提取模块530,检测模块540。
具体地,爬取模块510用于爬取待检测的网站获取得到网页快照,网站源码和网站文本;第一提取模块520与爬取模块510相连接,获取爬取模块510中的网站源码和网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息;第二提取模块530与爬取模块510 相连接,获取爬取模块510中的网页快照进行特征提取,得到网页快照特征信息;检测模块 540与第一提取模块520、第二提取模块530相连接,基于网站源码特征信息、网站文本特征信息、网页快照特征信息,通过预先训练的目标风险网站检测模型判断待检测网站是否为目标风险网站
参照图3,本实施例提供一种电子设备,包括处理器610以及与处理器610耦接的存储器620,存储器620存储有可被处理器610执行的程序指令,处理器610执行存储器620存储的程序指令时实现上述的目标风险网站检测方法。其中,处理器610还可以称为CPU(CentralProcessingUnit,中央处理单元)。处理器610可能是一种集成电路芯片,具有信号的处理能力。处理器610还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器,或者,通用处理器还可以是任何常规的处理器等。存储器620可包括各种组件(例如,机器可读介质),包括但不限于随机存取存储器组件、只读组件及其任意组合。存储器620还可包括:(例如,存储于一个或多个机器可读介质的)指令(例如,软件);该指令实现上述实施例中的目标风险网站检测方法。该电子设备具有搭载并运行本发明实施例提供的目标风险网站检测的软件系统的功能,例如,个人计算机(Personal Computer,PC)、手机、智能手机、个人数字助手(Personal Digital Assistant,PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑等。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器 (CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种目标风险网站检测方法,其特征在于,包括:
爬取待检测网站的第一信息,其中,所述第一信息包括网页快照、网站源码和网站文本;
通过预先训练的BERT模型对所述网站源码和所述网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息;
通过预先训练的ResNet模型对所述网页快照进行特征提取,得到网页快照特征信息;
基于所述网站源码特征信息、所述网站文本特征信息、所述网页快照特征信息,通过预先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网站。
2.根据权利要求1所述的目标风险网站检测方法,其特征在于,所述基于所述网站源码特征信息、所述网站文本特征信息和所述网页快照特征信息,通过预先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网站,包括:
将所述网站源码特征信息、所述网站文本特征信息和所述网页快照特征信息输入预先训练的目标风险网站检测模型;
将所述网站源码特征信息与目标风险网站的网站源码进行相似度匹配;
将所述网站文本特征信息与目标风险网站的网站文本进行相似度匹配;
将所述网页快照特征信息与目标风险网站的网页快照进行相似度匹配;
根据相似度匹配结果,对待检测网站进行评分;
根据评分结果,输出对所述待检测网站的检测结果。
3.根据权利要求2所述的目标风险网站检测方法,其特征在于,所述根据评分结果,输出对所述待检测网站的检测结果,包括:
当所述评分结果大于第一阈值,则输出所述待检测网站为目标风险网站的检测结果;
当所述评分结果小于或等于所述第一阈值,则输出所述待检测网站为正常网站的检测结果。
4.根据权利要求1所述的目标风险网站检测方法,其特征在于,所述方法还包括:
获取所述待检测网站的网址;
将所述待检测网站的网址输入预先训练的目标风险网站检测模型,以检测所述待检测网站的网址是否与目标风险网站的网址相同;
若所述待检测网站的网址与目标风险网站的网址相同,输出所述待检测网站为目标风险网站的检测结果;
若所述待检测网站的网址与目标风险网站的网址不相同,输出所述待检测网站为正常网站的检测结果。
5.根据权利要求1所述的目标风险网站检测方法,其特征在于,所述方法还包括预先训练BERT模型的步骤,该步骤包括:
通过复制第一源模型的网络层层创建第一目标模型的网络层,其中,所述第一源模型为预训练好的BERT模型,所述网络层为模型中除了输出层以外的层;
将具有随机权重的第一目标输出层作为所述第一目标模型的输出层;
冻结所述第一目标模型中的网络层,通过随机初始化所述第一目标输出层的模型参数,调整所述网络层的参数;
通过调整网络层的参数训练所述第一目标输出层,确定所述第一目标输出层的参数训练完成后,则解冻所述第一目标模型中的网络层,训练整个所述第一目标模型作为BERT模型。
6.根据权利要求1所述的目标风险网站检测方法,所述方法还包括预先训练ResNet模型的步骤,该步骤包括:
通过复制第二源模型的网络层层创建第二目标模型的网络层,其中,所述第二源模型为预训练好的BERT模型,所述网络层为模型中除了输出层以外的层;
将具有随机权重的第二目标输出层作为所述第二目标模型的输出层;
冻结所述第二目标模型中的网络层,通过随机初始化所述第二目标输出层的模型参数,调整所述网络层的参数;
通过调整网络层的参数训练所述第二目标输出层,确定所述第二目标输出层的参数训练完成后,则解冻所述第二目标模型中的网络层,训练整个所述第二目标模型作为ResNet模型。
7.根据权利要求1所述的目标风险网站检测方法,得到网站源码特征信息、网站文本特征信息和网页快照特征信息后,还包括:
将网站源码特征信息、所述网站文本特征信息、所述网页快照特征信息进行融合处理,其中,所述融合处理包括拼接和加权求和。
8.一种目标风险网站检测装置,其特征在于,所述装置包括:
爬取模块,用于爬取待检测网站的第一信息,其中,所述第一信息包括网页快照、网站源码和网站文本;
第一提取模块,用于通过预先训练的BERT模型对所述网站源码和所述网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息;
第二提取模块,用于通过预先训练的ResNet模型对所述网页快照进行特征提取,得到网页快照特征信息;
检测模块,用于基于所述网站源码特征信息、所述网站文本特征信息、所述网页快照特征信息,通过预先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网站。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
CN202211045603.4A 2022-08-30 2022-08-30 目标风险网站检测方法、装置及存储介质 Pending CN115470488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211045603.4A CN115470488A (zh) 2022-08-30 2022-08-30 目标风险网站检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211045603.4A CN115470488A (zh) 2022-08-30 2022-08-30 目标风险网站检测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115470488A true CN115470488A (zh) 2022-12-13

Family

ID=84368404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211045603.4A Pending CN115470488A (zh) 2022-08-30 2022-08-30 目标风险网站检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115470488A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879110A (zh) * 2023-02-09 2023-03-31 北京金信网银金融信息服务有限公司 一种基于指纹穿透技术识别金融风险网站的系统
CN116680700A (zh) * 2023-05-18 2023-09-01 北京天融信网络安全技术有限公司 一种风险检测方法、装置、设备及存储介质
CN117614749A (zh) * 2024-01-24 2024-02-27 杰创智能科技股份有限公司 风险网站识别方法、装置、电子设备及存储介质
CN118523969A (zh) * 2024-07-24 2024-08-20 浙江鹏信信息科技股份有限公司 基于dpi的校园网络诈骗预警方法及系统、可读介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879110A (zh) * 2023-02-09 2023-03-31 北京金信网银金融信息服务有限公司 一种基于指纹穿透技术识别金融风险网站的系统
CN116680700A (zh) * 2023-05-18 2023-09-01 北京天融信网络安全技术有限公司 一种风险检测方法、装置、设备及存储介质
CN116680700B (zh) * 2023-05-18 2024-06-14 北京天融信网络安全技术有限公司 一种风险检测方法、装置、设备及存储介质
CN117614749A (zh) * 2024-01-24 2024-02-27 杰创智能科技股份有限公司 风险网站识别方法、装置、电子设备及存储介质
CN118523969A (zh) * 2024-07-24 2024-08-20 浙江鹏信信息科技股份有限公司 基于dpi的校园网络诈骗预警方法及系统、可读介质

Similar Documents

Publication Publication Date Title
CN115470488A (zh) 目标风险网站检测方法、装置及存储介质
CN111460130B (zh) 信息推荐方法、装置、设备和可读存储介质
CN111523119B (zh) 漏洞检测的方法和装置、电子设备及计算机可读存储介质
CN110990631A (zh) 视频筛选方法、装置、电子设备和存储介质
CN107066464A (zh) 语义自然语言向量空间
CN113312500A (zh) 一种面向大坝安全运行的事件图谱构建方法
CN111444326A (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN111125422A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN110321537B (zh) 一种文案生成方法和装置
CN113094549A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN111797326A (zh) 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN112214707A (zh) 网页内容表征方法、分类方法、装置及设备
CN113841161A (zh) 用于自动生成内容分发图像的可扩展体系架构
CN109376535A (zh) 一种基于智能化符号执行的漏洞分析方法及系统
Aralikatte et al. Fault in your stars: an analysis of android app reviews
CN115712740A (zh) 多模态蕴含增强图像文本检索的方法和系统
Yusuf et al. Evaluation of graph convolutional networks performance for visual question answering on reasoning datasets
US11501071B2 (en) Word and image relationships in combined vector space
CN117725220A (zh) 文档表征和文档检索的方法、服务器及存储介质
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
Jung et al. Improving visual relationship detection using linguistic and spatial cues
CN115017356A (zh) 图像文本对的判断方法和装置
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN114943877A (zh) 模型的训练方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination