CN113657453B - 基于生成对抗网络和深度学习的有害网站的检测方法 - Google Patents
基于生成对抗网络和深度学习的有害网站的检测方法 Download PDFInfo
- Publication number
- CN113657453B CN113657453B CN202110830095.XA CN202110830095A CN113657453B CN 113657453 B CN113657453 B CN 113657453B CN 202110830095 A CN202110830095 A CN 202110830095A CN 113657453 B CN113657453 B CN 113657453B
- Authority
- CN
- China
- Prior art keywords
- website
- snapshot
- harmful
- model
- snapshots
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 7
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013136 deep learning model Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002939 deleterious effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Virology (AREA)
- Biomedical Technology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及可读介质的技术方案,包括:通过爬虫获取若干包括有害网址的第一网站快照;将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。本发明的有益效果为:所需的有标签的数据量大大减少,训练所需要的时间和计算资源也大大减少,且面对新的个性化小样本任务,本技术中提出的模型有更好的适应性,能在短时间内生成可靠的深度学习模型,提高了系统的实用价值。
Description
技术领域
本发明涉及计算机安全领域,具体涉及了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质。
背景技术
随着我国互联网技术的不断发展,目前广泛采用的针对互联网有害信息挖掘,通常需要结合通信网海量的控制面和用户面的上网日志数据进行分析判断,随着国内隐私保护要求越来越高,尤其对运营商保护客户隐私的要求下,基于大数据和AI、机器学习和深度学习技术,在不涉及用户隐私的情况线下,通过生成海量互联网网站快照数据,进行基于深度学习的分析检测越来越成为互联网有害信息检测迫切要求的手段。
现有的针对互联网有害信息识别模型往往需要大量的有标签数据进行训练,而在实际应用中,很难获得针对某一特殊领域或者特殊用户群体的大量的有标签的训练信息,这就导致利用小样本数据训练出的模型往往无法达到理想的效果,此外,训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源,导致针对于新任务的训练成本大大提高。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质,节省了研发资源,以及将大数据机器学习成果转移到小数据、定制化应用等提供了一个便捷的渠道,具有广泛的应用前景以及巨大的实用价值。
本发明的技术方案包括一种基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,该方法包括:S100,通过爬虫获取若干包括有害网址的第一网站快照;S200,将所述第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;S300,将所述模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;S400,微调用于训练的卷积神经网络,将所述训练集通过所述卷积神经网络进行训练,得到用于有害网站的检测模型。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S100包括:S110,从网址数据库中筛选出有害网址;S120,通过爬虫从所述有害网址爬取不同网页风格的所述第一网站快照;S130,为爬取的所述第一网站快照添加对应标签,所述标签用于标识网站为正常网站或有害网站;S140,从所述网址数据库中筛选出正常网站,并重复所述S120~S130直至得到设定数量的所述第一网站快照;S150,将带有所述标签的所述第一网站快照存储至数据库。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S200包括:S210,通过爬虫爬取已知有害网址的网站快照,从所述数据库中读取带有所述标签的所述第一网站快照,并按照设定比例将其随机划分为训练集和测试集;S220,将所述训练集输入所述生成对抗网络的模型进行训练,通过所述生成对抗网络自动学习不同网站快照的风格以及特征,具体地,保持正常网站的快照高级特征不变的情况下,将学习到的不同有害网站快照风格迁移到正常网站的快照上;S230,通过所述测试集对若干经过所述生成对抗网络的模型所述生成对抗网络的模型进行测试,筛选出性能最优的模型;S240,通过性能最优的所述生成对抗网络生成带有不同有害网站快照风格的所述模拟网站快照;S250,对所述模拟网站快照添加有害网站的所述标签,并与通过爬虫爬取的网站快照一起组合成新的数据集,并写入数据库。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S220包括:S221,实例化已训练的深度卷积神经网络模型,并移除深度卷积神经网络模型的最后一层;S222,加载除最后一层外的模型参数,保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征;S223,将网站快照输入至深度神经网络模型,由浅到深地提取输入图片更高层次的特征,最终返回输入网站快照的高级特征;S224,通过最小化源网站快照与目标网站快照的均方误差保持源网站快照与目标网站快照在高级特征上的一致性。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S400包括:S410,将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集;S420,加载已训练的深度卷积神经网络模型参数,同时冻结除最后一层外其余层的权重;S430,使用训练集训对深度卷积神经网络模型参数进行微调,通过深度卷积神经网络模型自动学习不同类别网站快照的特征,直至收敛;S440,通过在测试集上进行测试,筛选出性能最优的模型,并进行保存;S450,用上一步保存的训练好的深度卷积神经网络模型识别未知类别的网站快照,自动判断输入的网站快照类型。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中生成对抗网络及所述深度卷积神经网络分别设置为CycleGAN和ResNet。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中深度卷积神经网络模型及所述生成对抗网络所训练出的模型通过测试集进行测试,并通过准确率及损失对模型的性能进行评估。
本发明的技术方案还包括一种基于生成对抗网络和深度学习的有害网站的检测装置,该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现任一项所述的方法步骤。
本发明的技术方案还包括一种可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本发明的有益效果为:所需的有标签的数据量大大减少,训练所需要的时间和计算资源也大大减少,且面对新的个性化小样本任务,本技术中提出的模型有更好的适应性,能在短时间内生成可靠的深度学习模型,提高了系统的实用价值。
附图说明
下面结合附图和实施例对本发明进一步地说明;
图1所示为根据本发明实施方式的总体流程图。
图2所示为根据本发明实施方式的基于CycleGAN和深度学习的有害网站检测模型。
图3所示为根据本发明实施方式的网站快照流程图。
图4所示为根据本发明实施方式的基于生成对抗网络训练具体算法流程。
图5所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习算法流程。
图6所示为根据本发明实施方式的基于ResNet迁移学习算法流程。
图7所示为根据本发明实施方式的预训练-微调的深度迁移学习模型。
图8所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习模型训练示意图。
图9所示为根据本发明实施方式的基于生成对抗网络和深度学习的有害网站检测算法流程图。
图10所示为根据本发明实施方式的装置图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本发明的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本发明的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。
本发明的描述中,除非另有明确的限定,设置等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参考图1,本发明的技术方案包括以下流程:S100,通过爬虫获取若干包括有害网址的第一网站快照;S200,将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;S300,将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;S400,微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。
图2所示为根据本发明实施方式的基于CycleGAN和深度学习的有害网站检测模型。其包括以下流程:通过爬虫技术爬取有害网址的网站快照,作为训练样本输入CycleGAN。CycleGAN在训练过程中,通过最小化内容损失来尽可能保持模拟生成的图片特征(内容)与输入图片高级特征(内容)的一致性,同时通过最小化风格损失来确保模拟生成的图片风格与目标风格保持一致。CycleGAN训练完成后,其生成器部分可以模拟生成海量带有不同种有害网站快照风格的图片,起到扩充数据集的作用。之后基于微调ResNet的迁移学习技术,将CycleGAN模拟生成的图片与正常网站快照共同组合成训练集,初始化ResNet最后一层可学习的权重,并固定剩余层的权重,利用上述训练集训练微调后的网络,从而实现小样本数据下也能训练出良好表现的模型的目的。本实施例利用CycleGAN扩充训练数据集,并且引入迁移学习的思想微调已经训练好的深度神经网络,可以大大缩短模型训练时间,节省计算资源,同时确保模型在仅仅只有少量样本下训练的准确性和稳定性。
图3所示为根据本发明实施方式的网站快照流程图。该流程包括:S110,从网址数据库中筛选出有害网址,网址数据库存储已有的网址数据;S120,通过爬虫从有害网址爬取不同网页风格的第一网站快照;S130,为爬取的第一网站快照添加对应标签,标签用于标识网站为正常网站或有害网站,其中有害网站快照标签为“有害”,正常网站快照标签为“正常”;S140,从网址数据库中筛选出正常网站,并重复S120~S130直至得到设定数量的第一网站快照;S150,将带有标签的第一网站快照存储至数据库。
图4所示为根据本发明实施方式的基于生成对抗网络训练具体算法流程。
其流程如下:
S210,通过爬虫爬取已知有害网址的网站快照。从数据库中读取带标签的网站快照,并按照一定的比例将其随机划分为训练集和测试集;
S220,将划分好的训练集输入CycleGAN模型进行训练,通过对抗训练的方式来自动学习不同网站快照的风格以及特征,并在保持正常网站快照高级特征不变的情况下,将学习到的不同有害网站快照风格迁移到正常网站快照上;
S230,通过在测试集上进行测试,筛选出性能最好的模型,并保存;
S240,用上一步保存的训练好的CycleGAN模型生成带有不同有害网站快照风格的模拟网站快照;
S250,为模拟的有害网站快照打上“有害”标签,并与通过爬虫爬取的网站快照一起组合成新的数据集,存储至数据库。
图5所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习算法流程,包括:
S221,实例化一个已经在ImageNet上成功训练好的深度卷积神经网络模型(如ResNet),并去掉网络最后一层(分类层);
S222,加载除最后一层外的模型参数,保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征;
S223,将网站快照输入到深度神经网络模型,由浅到深地提取输入图片更高层次的特征,最终返回输入网站快照的高级特征;
S224,通过最小化源网站快照与目标网站快照的均方误差来保持源网站快照与目标网站快照在高级特征上的一致性。
图6所示为根据本发明实施方式的基于ResNet迁移学习算法流程。本实施例的流程包括:
S410,将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集;
S420,加载训练好的ResNet模型参数,同时冻结除最后一层外其余层的权重;
S430,使用训练集训对ResNet模型网络参数进行微调,让模型自动学习不同类别网站快照的特征,直至收敛;
S440,通过在测试集上进行测试,筛选出性能最好的模型,并保存;
S450,用上一步保存的训练好的ResNet模型去识别未知类别的网站快照,自动判断输入的网站快照类型。
图7所示为根据本发明实施方式的预训练-微调的深度迁移学习模型。本实施例通过伪代码实现方式,具体如下:
其中,Input表示输入,Repeat表示重复流程,Until为训练完成条件,Do为判定条件。
图8所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习模型训练示意图。本实施例通过伪代码对图8进行说明,伪代码具体如下:
图9所示为根据本发明实施方式的基于生成对抗网络和深度学习的有害网站检测算法流程图。结合图7及图8,其伪代码实施如下:
图10所示为根据本发明实施方式的装置图。装置包括存储器100及处理器200,其中处理器200存储有计算机程序,计算机程序用于执行:通过爬虫获取若干包括有害网址的第一网站快照;将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。其中,存储器100用于存储数据。
应当认识到,本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,该方法包括:
S100,通过爬虫获取若干包括有害网址的第一网站快照;
S200,将所述第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;
S300,将所述模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;
S400,微调用于训练的卷积神经网络,将所述训练集通过所述卷积神经网络进行训练,得到用于有害网站的检测模型;
所述S100包括:
S110,从网址数据库中筛选出有害网址;
S120,通过爬虫从所述有害网址爬取不同网页风格的所述第一网站快照;
S130,为爬取的所述第一网站快照添加对应标签,所述标签用于标识网站为正常网站或有害网站;
S140,从所述网址数据库中筛选出正常网站,并重复所述S120~S130直至得到设定数量的所述第一网站快照;
S150,将带有所述标签的所述第一网站快照存储至数据库;
所述S200包括:
S210,通过爬虫爬取已知有害网址的网站快照,从所述数据库中读取带有所述标签的所述第一网站快照,并按照设定比例将其随机划分为训练集和测试集;
S220,将所述训练集输入所述生成对抗网络的模型进行训练,通过所述生成对抗网络自动学习不同网站快照的风格以及特征,具体地,保持正常网站的快照高级特征不变的情况下,将学习到的不同有害网站快照风格迁移到正常网站的快照上;
S230,通过所述测试集对若干经过所述生成对抗网络的模型所述生成对抗网络的模型进行测试,筛选出性能最优的模型;
S240,通过性能最优的所述生成对抗网络生成带有不同有害网站快照风格的所述模拟网站快照;
S250,对所述模拟网站快照添加有害网站的所述标签,并与通过爬虫爬取的网站快照一起组合成新的数据集,并写入数据库;
所述S220包括:
S221,实例化已训练的深度卷积神经网络模型,并移除深度卷积神经网络模型的最后一层;
S222,加载除最后一层外的模型参数,保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征;
S223,将网站快照输入至深度神经网络模型,由浅到深地提取输入图片更高层次的特征,最终返回输入网站快照的高级特征;
S224,通过最小化源网站快照与目标网站快照的均方误差保持源网站快照与目标网站快照在高级特征上的一致性。
2.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述S400包括:
S410,将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集;
S420,加载已训练的深度卷积神经网络模型参数,同时冻结除最后一层外其余层的权重;
S430,使用训练集训对深度卷积神经网络模型参数进行微调,通过深度卷积神经网络模型自动学习不同类别网站快照的特征,直至收敛;
S440,通过在测试集上进行测试,筛选出性能最优的模型,并进行保存;
S450,用上一步保存的训练好的深度卷积神经网络模型识别未知类别的网站快照,自动判断输入的网站快照类型。
3.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述生成对抗网络及所述深度卷积神经网络分别设置为CycleGAN和ResNet。
4.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述深度卷积神经网络模型及所述生成对抗网络所训练出的模型通过测试集进行测试,并通过准确率及损失对模型的性能进行评估。
5.一种基于生成对抗网络和深度学习的有害网站的检测装置,该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的方法步骤。
6.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110830095.XA CN113657453B (zh) | 2021-07-22 | 2021-07-22 | 基于生成对抗网络和深度学习的有害网站的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110830095.XA CN113657453B (zh) | 2021-07-22 | 2021-07-22 | 基于生成对抗网络和深度学习的有害网站的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657453A CN113657453A (zh) | 2021-11-16 |
CN113657453B true CN113657453B (zh) | 2023-08-01 |
Family
ID=78489720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110830095.XA Active CN113657453B (zh) | 2021-07-22 | 2021-07-22 | 基于生成对抗网络和深度学习的有害网站的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657453B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118364190B (zh) * | 2024-06-19 | 2024-09-24 | 南京中新赛克软件有限责任公司 | 一种基于深度学习的有害网站识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862050A (zh) * | 2017-11-08 | 2018-03-30 | 国网四川省电力公司信息通信公司 | 一种网站内容安全检测系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682574A (zh) * | 2016-11-18 | 2017-05-17 | 哈尔滨工程大学 | 一维深度卷积网络的水下多目标识别方法 |
RU2637477C1 (ru) * | 2016-12-29 | 2017-12-04 | Общество с ограниченной ответственностью "Траст" | Система и способ обнаружения фишинговых веб-страниц |
US10819724B2 (en) * | 2017-04-03 | 2020-10-27 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
US10970765B2 (en) * | 2018-02-15 | 2021-04-06 | Adobe Inc. | Generating user-customized items using a visually-aware image generation network |
CN109710825A (zh) * | 2018-11-02 | 2019-05-03 | 成都三零凯天通信实业有限公司 | 一种基于机器学习的网页有害信息识别方法 |
CN110189278B (zh) * | 2019-06-06 | 2020-03-03 | 上海大学 | 一种基于生成对抗网络的双目场景图像修复方法 |
CN110365691B (zh) * | 2019-07-22 | 2021-12-28 | 云南财经大学 | 基于深度学习的钓鱼网站判别方法及装置 |
CN111259219B (zh) * | 2020-01-10 | 2023-04-21 | 北京金睛云华科技有限公司 | 恶意网页识别模型建立方法、识别方法及系统 |
CN111696066B (zh) * | 2020-06-13 | 2022-04-19 | 中北大学 | 基于改进wgan-gp的多波段图像同步融合与增强方法 |
-
2021
- 2021-07-22 CN CN202110830095.XA patent/CN113657453B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862050A (zh) * | 2017-11-08 | 2018-03-30 | 国网四川省电力公司信息通信公司 | 一种网站内容安全检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113657453A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190325265A1 (en) | Generating a machine learning model for objects based on augmenting the objects with physical properties | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
CN105303179A (zh) | 指纹识别方法、装置 | |
CN112200296B (zh) | 网络模型量化方法、装置、存储介质及电子设备 | |
CN111309222B (zh) | 一种滑块验证码的滑块缺口定位及拖动轨迹生成方法 | |
CN111931179A (zh) | 基于深度学习的云端恶意程序检测系统及方法 | |
CN108710576B (zh) | 基于异构迁移的数据集扩充方法及软件缺陷预测方法 | |
CN112035345A (zh) | 一种基于代码片段分析的混合深度缺陷预测方法 | |
CN115082790A (zh) | 一种基于连续学习的遥感图像场景分类方法 | |
CN113657453B (zh) | 基于生成对抗网络和深度学习的有害网站的检测方法 | |
CN114742224A (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN112527676A (zh) | 模型自动化测试方法、装置及存储介质 | |
CN117132763A (zh) | 电力图像异常检测方法、装置、计算机设备和存储介质 | |
CN116030312B (zh) | 模型评估方法、装置、计算机设备和存储介质 | |
CN116977692A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN112529027A (zh) | 数据处理方法、客户端、装置及计算机可读存储介质 | |
US20230041338A1 (en) | Graph data processing method, device, and computer program product | |
CN110414845B (zh) | 针对目标交易的风险评估方法及装置 | |
CN114648679A (zh) | 神经网络训练、目标检测的方法及装置、设备及存储介质 | |
CN114513355A (zh) | 恶意域名检测方法、装置、设备及存储介质 | |
CN113435337A (zh) | 基于可变形卷积和注意力机制的视频目标检测方法及装置 | |
CN114463613A (zh) | 基于残差网络与Faster R-CNN的断层检测方法及系统 | |
CN114510592A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN112131418A (zh) | 目标标注方法、目标标注装置和计算机可读存储介质 | |
CN108415815B (zh) | 一种app软件运行数据异常判断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231227 Address after: 519060 No.1, Pingdong 1st Road, Nanping Science and Technology Industrial Park, Zhuhai City, Guangdong Province Patentee after: ZHUHAI COMLEADER INFORMATION TECHNOLOGY Co.,Ltd. Patentee after: HENAN XINDA WANGYU TECHNOLOGY Co.,Ltd. Address before: 519060 No.1, Pingdong 1st Road, Nanping Science and Technology Industrial Park, Zhuhai City, Guangdong Province Patentee before: ZHUHAI COMLEADER INFORMATION TECHNOLOGY Co.,Ltd. |