CN112115266A - 恶意网址的分类方法、装置、计算机设备和可读存储介质 - Google Patents
恶意网址的分类方法、装置、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN112115266A CN112115266A CN202011027013.XA CN202011027013A CN112115266A CN 112115266 A CN112115266 A CN 112115266A CN 202011027013 A CN202011027013 A CN 202011027013A CN 112115266 A CN112115266 A CN 112115266A
- Authority
- CN
- China
- Prior art keywords
- binary
- classification
- text
- classification model
- resources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种恶意网址的分类方法、装置、计算机设备和可读存储介质。该恶意网址的分类方法包括:获取目标网址对应的网络资源;提取网络资源中的静态资源和动态资源;通过预设的第一分类模型分类静态资源,以得到目标网址对应的第一分类信息;通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息;以及根据第一分类信息和第二分类信息确定目标网址所属的恶意网址类别。通过本发明,能够提升分类准确性。
Description
技术领域
本发明涉及人工智能和网络安全技术领域,尤其涉及一种恶意网址的分类方法、装置、计算机设备和可读存储介质。
背景技术
域名、ip、URL等均对应互联网中不同的网络资源,为了鉴定其中的不安全资源,传统做法是对该网络资源进行爬虫抓取后,根据其网络资源中的ip地域、域名后缀以及爬取到的文本或源码片段等,依赖人工经验制定人工规则,通过规则来识别和分类恶意网址。
而基于人工规则的分类引擎,对人工经验的依赖大,分类准确性低。
发明内容
本发明的目的是提供一种恶意网址的分类方法、装置、计算机设备和可读存储介质,用于解决现有技术中的上述技术问题。
一方面,为实现上述目的,本发明提供了一种恶意网址的分类方法。
该恶意网址的分类方法包括:获取目标网址对应的网络资源;提取所述网络资源中的静态资源和动态资源;通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。
进一步地,所述静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,所述第一分类模型为文本分类模型,通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息的步骤包括:根据所述静态资源构建词序列;将所述词序列输入所述文本分类模型,其中,所述文本分类模型用于根据所述词序列确定所述第一分类信息。
进一步地,根据所述静态资源构建词序列的步骤包括:将所述静态资源划分为至少两个文本类;对所述文本类进行分词得到词序列;所述文本分类模型包括第一卷积层、第一池化层和第一全连接层,所述第一卷积层包括至少两个串联的文本卷积核,将所述词序列输入所述文本分类模型的步骤包括:将每个所述文本类对应的所述词序列作为一维向量输入至第一个文本卷积核;将最后一个所述文本卷积核的输出输入至所述第一池化层;将所述第一池化层的输出输入至所述第一全连接层,其中,所述第一全连接层输出所述第一分类信息。
进一步地,将所述静态资源划分为至少两个文本类的步骤包括:将所述页面标题划分为标题文本类,将所述meta字段划分为头文本类,将所述页面body标签内的文字划分为内容文本类。
进一步地,所述动态资源包括页面加载的脚本程序和/或css资源文件,所述第二分类模型为二进制分类模型,通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息的步骤包括:根据所述动态资源构建二进制片段序列;将所述二进制片段序列输入所述二进制分类模型,其中,所述二进制分类模型用于根据所述二进制片段序列确定所述第二分类信息。
进一步地,根据所述动态资源构建二进制片段序列的步骤包括:将所述动态资源转化为二进制流;以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列,其中,不同的所述二进制片段序列中的二进制片段的字节长度不同,同一个所述二进制片段序列中的二进制片段的字节长度相同且在相邻两个二进制片段中同一位置的字节为相邻字节;所述二进制分类模型包括第二卷积层、第二池化层和第二全连接层,所述第二卷积层包括至少两个并联的二进制卷积核,将所述二进制片段序列输入所述二进制分类模型的步骤包括:将每个所述二进制片段序列输入至一个二进制卷积核;将各个所述二进制卷积核的输出分别输入至所述第二池化层;将所述第二池化层的输出输入至所述第二全连接层,其中,所述第二全连接层输出所述第二分类信息。
进一步地,以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列的步骤包括:分别以n+1、n+2、…、n+m个字节作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到m个二进制片段序列,其中,n大于或等于0,m大于或等于3;所述第二卷积层包括m个尺寸不同的所述二进制卷积核,所述二进制片段序列中二进制片段包括的字节数越多,对应的所述二进制卷积核的尺寸越大。
另一方面,为实现上述目的,本发明提供了一种恶意网址的分类装置。
该恶意网址的分类装置包括:获取模块,用于获取目标网址对应的网络资源;提取模块,用于提取所述网络资源中的静态资源和动态资源;第一分类模块,用于通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;第二分类模块,用于通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及确定模块,用于根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。
又一方面,为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
又一方面,为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的恶意网址的分类方法、装置、计算机设备和可读存储介质,获取目标网址对应的网络资源后,一方面,提取网络资源的静态资源,并通过预设的第一分类模型分类该静态资源,以得到目标网址对应的第一分类信息,也即基于对网页静态特征的分类确定目标网址的类别信息;另一方面,提取网络资源的动态资源,通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息,也即基于对网页动态特征是分类确定目标网址的类别信息,最终结合第一分类信息和第二分类信息两个方面,确定出目标网址所属的恶意网址类别。通过本发明,从网络资源的静态特征和动态特征两方面出发,利用预构建的两个分类模型,自动分类和分类各种恶意网址,相比基于人工规则的分类方法,减少了对人工经验的依赖,降低了人工干预,使用两个独立模型分别分类,有助于提高整体识别的鲁棒性,有效应对互联网数据的大规模噪声,从而提高整体分类的准确度和召回率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一提供的恶意网址的分类方法的流程图;
图2为本发明实施例二提供的恶意网址的分类装置的框图;
图3为本发明实施例三提供的计算机设备的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了减小恶意网址分类对人工经验的依赖,提升分类的准确性,本发明提出一种恶意网址的分类方法、装置、计算机设备和可读存储介质,在该恶意网址的分类方法中,在获取到目标网址对应的网络资源后,提取该网络资源中的静态资源和动态资源,其中,静态资源反映网页展示的静态特征,动态资源反映网页展示的行为特征、渲染后特征等动态特征,针对静态资源,通过预设的第一分类模型进行分类,得到目标网址对应的第一分类信息,也即利用第一分类模型从静态特征的角度分类目标网址;针对动态资源,通过预设的第二分类模型进行分类,得到目标网址对应的第二分类信息,也即利用第二分类模型从动态特征的角度分类目标网址;两个分类模型从网页的两个角度同时分类目标网址,最后根据两个分类模型的分类结果,也即第一分类信息和第二分类信息,来综合确定目标网址所属的恶意网址类别。
从中可以看出,在本发明提供的恶意网址的分类方法中,通过预设的两个分类模型分别从网页静态特征和动态特征两个角度分类目标网址,无需依赖人工经验制定人工规则,减小对人工经验的依赖,同时,使用两个独立模型分别分类,有助于提高整体分类的鲁棒性,有效应对互联网数据的大规模噪声,从而提高恶意网址分类的准确度和召回率。
关于本发明提供的恶意网址的分类方法、装置、计算机设备和可读存储介质的具体实施例,将在下文中详细描述。
实施例一
本发明实施例一提供了一种恶意网址的分类方法,通过该方法,能够减小对人工经验的依赖,提高恶意网址分类的准确度。具体地,图1为本发明实施例一提供的恶意网址的分类方法的流程图,如图1所示,该实施例一提供的恶意网址的分类方法包括如下的步骤S101至步骤S105。
步骤S101:获取目标网址对应的网络资源。
可选地,可通过网络爬虫下载IP、域名或URL等目标网址所对应的网络资源,得到的网络资源包括下载ip信息、地域信息、服务端返回码以及网页页面资源等。
步骤S102:提取网络资源中的静态资源和动态资源。
其中,静态资源反映网页展示的静态特征,包括页面head标签内的meta字段、页面内容关键字、页面标题和/或页面body标签内的文字信息等。
动态资源反映网页展示的行为特征、渲染后特征等动态特征,包括页面加载的脚本程序和/或css资源文件,具体例如javascript、vbs和actionscript等脚本程序,css样式表文件,以及上述脚本程序和资源文件的meta信息,具体例如文件大小、更新日期以及其他的资源属性信息。
步骤S103:通过预设的第一分类模型分类静态资源,以得到目标网址对应的第一分类信息。
具体地,预训练第一分类模型,该第一分类模型的输入向量通过静态资源构建,具体包括提取文字、图片等内容的特征向量构成第一分类模型的输入向量。通过该第一分类模型的输出向量可得到第一分类信息,该第一分类信息表征网址是否为恶意网址,以及当网址为恶意网址时,网址所属的恶意网址类别。
可选地,选择深度学习分类模型作为第一分类模型的初始模型,具体可以为支持向量机、基于卷积的神经网络等分类模型,根据已知网址构建训练样本,训练样本包括白网址以及各种类别的恶意网址,提取训练样本的静态资源,并构建输入向量作为初始模型的输入,以训练样本的网址类别作为初始模型的输出,对上述初始模型进行训练,得到第一分类模型。关于该步骤中初始模型的具体架构,可采用现有技术中的任意算法架构,本申请对此并不进行限定。
步骤S104:通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息。
第一分类模型和第二分类模型相互独立。
具体地,预训练第二分类模型,该第二分类模型的输入向量通过动态资源构建,具体包括提取程序和文件等内容的特征向量构成第二分类模型的输入向量。通过该第二分类模型的输出向量可得到第二分类信息,该第二分类信息表征网址是否为恶意网址,以及当网址为恶意网址时,网址所属的恶意网址类别。
可选地,选择深度学习分类模型作为第二分类模型的初始模型,具体可以为支持向量机、基于卷积的神经网络等分类模型,根据已知网址构建训练样本,训练样本包括白网址以及各种类别的恶意网址,提取训练样本的动态资源,并构建输入向量作为初始模型的输入,以训练样本的网址类别作为初始模型的输出,对上述初始模型进行训练,得到第二分类模型。关于该步骤中初始模型的具体架构,可采用现有技术中的任意算法架构,本申请对此并不进行限定。
步骤S105:根据第一分类信息和第二分类信息确定目标网址所属的恶意网址类别。
其中,第一分类信息为从网页静态特征角度进行分类得到的结果,第二分类信息为从网页动态特征角度进行分类得到的结果,综合两方面的结果,如果二者一致,即可直接确定出目标网址所属的恶意网址类别,如果二者不一致,可进一步推送人工审核,以确定出目标网址所属的恶意网址类别。其中,可根据恶意网址的目的,来对恶意网址进行分类,具体如欺诈类、木马类、钓鱼类等。
在该实施例提供的恶意网址的分类方法,获取目标网址对应的网络资源后,一方面,提取网络资源的静态资源,并通过预设的第一分类模型分类该静态资源,以得到目标网址对应的第一分类信息,也即基于对网页静态特征的分类确定目标网址的类别信息;另一方面,提取网络资源的动态资源,通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息,也即基于对网页动态特征是分类确定目标网址的类别信息,最终结合第一分类信息和第二分类信息两个方面,确定出目标网址所属的恶意网址类别。采用该实施例提供的恶意网址的分类方法,从网络资源的静态特征和动态特征两方面出发,利用预构建的两个分类模型,自动分类和分类各种恶意网址,相比基于人工规则的分类方法,减少了对人工经验的依赖,降低了人工干预,使用两个独立模型分别分类,有助于提高整体分类的鲁棒性,有效应对互联网数据的大规模噪声,从而提高整体分类的准确度和召回率。
可选地,在一种实施例中,静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,第一分类模型为文本分类模型,通过预设的第一分类模型分类静态资源,以得到目标网址对应的第一分类信息的步骤包括:根据静态资源构建词序列;将词序列输入文本分类模型,其中,文本分类模型用于根据词序列确定第一分类信息。
具体而言,可通过文本抽取器抽取网络资源中的可读文本信息,解析当前网页所含全部文本,得到的静态资源包括面head标签内的meta字段,具体包括页面关键字和页面描述等一些基本元数据;页面标题为定义网页的标题,具体可以为浏览器工具栏标题、搜索引擎结果页面标题以及收藏夹标题等;页面body标签内的文字包括网页页面中的文字内容。利用上述可读文本信息,构建词序列,通过文本分类模型基于词序列来分类目标网址,实现利用网络资源的文本特征对目标网址的分类。
可选地,在一种实施例中,根据静态资源构建词序列的步骤包括:将静态资源划分为至少两个文本类;对文本类进行分词得到词序列;文本分类模型包括第一卷积层、第一池化层和第一全连接层,第一卷积层包括至少两个串联的文本卷积核,将词序列输入文本分类模型的步骤包括:将每个文本类对应的词序列作为一维向量输入至第一个文本卷积核;将最后一个文本卷积核的输出输入至第一池化层;将第一池化层的输出输入至第一全连接层,其中,第一全连接层输出第一分类信息。
具体而言,在构建文本分类模型的输入时,将静态资源划分为多个文本类,对每个文本类分词得到词序列,例如,将静态资源包括的文本根据文本类型进行划分,划分为页面内容类型和页面描述类型,然后对页面内容类型的文本分词得到一个词序列,具体可表示为[a1,a2,a3,…,an],其中,ax(x=1,2,3,…n)分别为一个词,对页面描述类型的文本分词得到另一个词序列,具体可表示为[b1,b2,b3,…,bm],其中,bx(x=1,2,3,…m)分别为一个词。得到每个文本类对应的词序列后,将每个词序列作为一维向量输入至第一个文本卷积核,针对页面内容类型和页面描述类型两个文本类,将词序列[a1,a2,a3,…,an]作为一维向量,将词序列[b1,b2,b3,…,bm]作为一维向量,同时输入至第一个文本卷积核,各个文本卷积核依次串联,最后一个文本卷积核的输出输入至第一池化层,第一池化层的输出输入至第一全连接层,第一全连接层输出第一分类信息。
采用该实施例提供的恶意网址的分类方法,将静态资源划分为多个文本类,每个文本类分词得到的词序列作为一维输入向量输入至文本分类模型,由于文本分类模型在训练过程中可自动为不同的文本类分配对应的权重,从而在分类时,各个文本类对目标网址的分类结果产生不同的影响力,有利于提升目标网址分类的准确性。
可选地,在一种实施例中,将静态资源划分为至少两个文本类的步骤包括:将页面标题划分为标题文本类,将meta字段划分为头文本类,将页面body标签内的文字划分为内容文本类。
具体而言,在静态资源中,标题、meta字段和页面body标签在体现网址特征时的权重是不同的,标题中的词、meta字段中的词和页面body标签中的词,在体现网址特征时,权重依次降低,在该实施例中,依据该权重将静态资源划分为三个文本类,能够进一步提升目标网址分类的准确性。
可选地,在一种实施例中,动态资源包括页面加载的脚本程序和/或css资源文件,第二分类模型为二进制分类模型,通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息的步骤包括:根据动态资源构建二进制片段序列;将二进制片段序列输入二进制分类模型,其中,二进制分类模型用于根据二进制片段序列确定第二分类信息。
具体而言,将网络资源中<script>标签所含的脚本程序,以及css样式表文件提取出来作为动态资源,其中脚本程序可反映网页行为特征,css样式表文件控制的网页样式布局相关的网页渲染后特征。将该动态资源转换为二进制信息,通过该二进制信息构建二进制序列,通过二进制分类模型基于二进制序列来分类目标网址,实现利用网络资源的二进制特征对目标网址的分类。
可选地,在一种实施例中,根据动态资源构建二进制片段序列的步骤包括:将动态资源转化为二进制流;以相邻的不同字节长度作为二进制片段单位,对二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列,其中,不同的二进制片段序列中的二进制片段的字节长度不同,同一个二进制片段序列中的二进制片段的字节长度相同且在相邻两个二进制片段中同一位置的字节为相邻字节;二进制分类模型包括第二卷积层、第二池化层和第二全连接层,第二卷积层包括至少两个并联的二进制卷积核,将二进制片段序列输入二进制分类模型的步骤包括:将每个二进制片段序列输入至一个二进制卷积核;将各个二进制卷积核的输出分别输入至第二池化层;将第二池化层的输出输入至第二全连接层,其中,第二全连接层输出第二分类信息。
具体而言,在构建二进制分类模型的输入时,首先将动态资源转换为二进制流,对于该流式文件,以相邻的不同字节长度作为二进制片段单位,对该流式文件按照单字节长度作为滑动步长进行切分,得到二进制片段序列。
例如,二进制流包括“字节1,字节2,字节3,…,字节n”共n个字节,以相邻的两个字节作为二进制片段单位、同时以单字节长度作为滑动步长进行切分,得到的二进制片段序列为“字节12,字节23,字节34,…,字节x(x+1),…,字节(n-1)n”,其中,“字节12”、“字节23”等均为二进制片段,从中可以看出,每个二进制片段均包括两个字节,且基于按照单字节长度作为滑动步长进行切分的方式,使得在相邻的二进制片段中同一位置的字节为相邻字节,例如“字节23”和“字节34”,第一位置的字节为相邻的字节2和字节3,第二位置的字节为相邻的字节3和字节4。
又如,二进制流包括“字节1,字节2,字节3,…,字节n”共n个字节,以相邻的三个字节作为二进制片段单位、同时以单字节长度作为滑动步长进行切分,得到的二进制片段序列为“字节123,字节234,字节345,…,字节(x-1)x(x+1),…,字节(n-2)(n-1)n”。其中,“字节123”、“字节234”等均为二进制片段,从中可以看出,每个二进制片段均包括三个字节,且基于按照单字节长度作为滑动步长进行切分的方式,使得在相邻的二进制片段中同一位置的字节为相邻字节,例如“字节234”和“字节345”,第一位置的字节为相邻的字节2和字节3,第二位置的字节为相邻的字节3和字节4,第三位置的字节为相邻的字节4和字节5。
切分后,针对每个二进制片段序列,将其输入一个二进制卷积核,各个二进制卷积核的输出可进行拼接,然后输入第二池化层,第二池化层的输出输入至第二全连接层,第二全连接层输出第二分类信息。
采用该实施例提供的恶意网址的分类方法,将动态资源转换为二进制流后,以不同的字节数进行切分得到多种二进制片段序列,每个二进制片段序列利用各不同的卷积核进行处理,最终将卷积处理的结果全部输入池化层,通过不同种二进制片段序列能够有效反映动态资源的特征,有利于提升目标网址分类的准确性。
可选地,在一种实施例中,以相邻的不同字节长度作为二进制片段单位,对二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列的步骤包括:分别以n+1、n+2、…、n+m个字节作为二进制片段单位,对二进制流按照单字节长度作为滑动步长进行切分,得到m个二进制片段序列,其中,n大于或等于0,m大于或等于3;第二卷积层包括m个尺寸不同的二进制卷积核,二进制片段序列中二进制片段包括的字节数越多,对应的二进制卷积核的尺寸越大。
例如,n=0,m=5,分别以1、2、3、4和5个字节作为二进制片段单位,对二进制流按照单字节长度作为滑动步长进行切分,得到5个二进制片段序列;第二卷积层包括5个尺寸不同的二进制卷积核,二进制片段序列中二进制片段包括的字节数越多,对应的二进制卷积核的尺寸越大。
采用该实施例提供的恶意网址的分类方法,对二进制流进行切分,得到多个二进制片段序列,例如,得到5个二进制片段序列,既能够有效反映动态资源的特征,有利于提升目标网址分类的准确性,又避免数据处理量太大而影响分类效率,在处理大数据过程中,保证分类时效。
可选地,在一种实施例提供的恶意网址的分类方法中,从网络资源的文本特征和二进制特征两方面出发,利用深度学习模型构建分类引擎,自动识别和分类各种恶意网址。具体地,包括以下步骤:
爬虫下载IP/域名/URL所对应的网络资源后,得到资源的下载ip、地域、服务端返回码、网页页面资源等meta信息。
对爬虫下载后资源,使用文本抽取器抽取可读文本信息。文本信息主要包括两部分。一部分为页面<head>标签内的<meta>字段,包括内容关键字、页面描述信息等;另一部分为<body>标签的内含文字。使用文本分类模型识别分类,得到文本信息所对应的分类。
同时,使用二进制分类模型,对下载后资源中页面加载的各种脚本程序(javascript,vbs,actionscript等)、css资源文件,进行识别分类,得到二进制信息对应的分类。
其中,文本分类模型,负责识别网页所含静态文本资源。二进制分类模型,负责识别页面脚本所反映的网页动态行为特征,以及css文件控制的网页样式布局相关的网页渲染后特征。
文本分类模型和二进制分类模型识别后,所能输出的多分类类别集合,是完全一致的。使用两个独立模型分别分类,有助于提高整体分类的鲁棒性,有效应对互联网数据的大规模噪声,从而提高整体分类的准确度和召回率。
将两个模型的分类结果,聚合到一起,如果两个模型的鉴定结果完全一致,则自动采用一致分类;如果不一致,则推送人工审核标注后,进行模型新一轮迭代训练。最后,所有被分类的恶意IP/域名/URL按照不同分类存储在恶意网址库中。
具体地,文本分类模型具体训练过程如下:
1.使用HTML Parser,解析训练样本(作为训练数据的网页)所含全部文本,作为文本序列输入。按照网页结构不同,需要将文本分为3个部分:标题文本,head文本和内容文本。
2.使用分词器,对3部分文本分别分词,得到3部分对应的词序列,每一部分对应的词序列作为文本分类模型的一维输入向量。
3.使用3,5,7规模的卷积核串联构建卷积层,后接池化层和全连接层,作为文本分类模型。
4.使用人工标记分类训练样本,进行有监督学习,训练损失函数为多分类交叉熵损失函数。
5.模型迭代收敛后,得到训练好的文本分类模型。其中,该分类模型可对线上未训练数据集进行分类,在实际分类应用中出现误判时,可将误判数据补充为训练样本,重复执行上述训练步骤,进行模型的迭代,提高模型的准确性。
二进制分类模型具体训练过程如下:
1.将训练样本(作为训练数据的网页)的网络资源中<script>标签所含脚本程序,以及css样式表文件,以及页面所含二进制资源对应的meta信息(文件大小、更新日期以及其他资源属性),转换为二进制流。
2.以字节为单位,将二进制流进行无遗漏、遍历方式的切分,分别切分成1-5大小的二进制片段,形成5个二进制片段序列,其中,二进制片段包括相邻字节。
3.对上述各个二进制片段序列分别做卷积处理,卷积核大小对应为1-5;
4.卷积处理后的输出分别输入池化层,进行池化层处理后,进入全连接层进行分类。
5.使用人工标记分类训练样本,进行有监督学习,训练损失函数为多分类交叉熵损失函数。
6.模型迭代收敛后,得到训练好的二进制分类模型。其中,该分类模型可对线上未训练数据集进行分类,在实际分类应用中出现误判时,可将误判数据补充为训练样本,重复执行上述训练步骤,进行模型的迭代,提高模型的准确性。
实施例二
对应于上述实施例一,本发明实施例二提供了一种恶意网址的分类装置,相应地技术特征细节和对应的技术效果可参考上述实施例一,在该实施例二中不再赘述。图2为本发明实施例二提供的恶意网址的分类装置的框图,如图2所示,该装置包括:获取模块201、提取模块202、第一分类模块203、第二分类模块204和确定模块205。
其中,获取模块201用于获取目标网址对应的网络资源;提取模块202用于提取所述网络资源中的静态资源和动态资源;第一分类模块203用于通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;第二分类模块204用于通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及确定模块205用于根据所述第一分类信息和所述第二分类信息确定所述目标网址是所属的恶意网址类别。
可选地,在一种实施例中,所述静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,所述第一分类模型为文本分类模型,第一分类模块203包括:第一构建单元和第一输入单元,其中,第一构建单元应用根据所述静态资源构建词序列;第一输入单元应用将所述词序列输入所述文本分类模型,其中,所述文本分类模型用于根据所述词序列确定所述第一分类信息。
可选地,在一种实施例中,第一构建单元在根据所述静态资源构建词序列时,具体执行的步骤包括:将所述静态资源划分为至少两个文本类;对所述文本类进行分词得到词序列;所述文本分类模型包括第一卷积层、第一池化层和第一全连接层,所述第一卷积层包括至少两个串联的文本卷积核,第一输入单元将所述词序列输入所述文本分类模型时,具体执行的步骤包括:将每个所述文本类对应的所述词序列作为一维向量输入至第一个文本卷积核;将最后一个所述文本卷积核的输出输入至所述第一池化层;将所述第一池化层的输出输入至所述第一全连接层,其中,所述第一全连接层输出所述第一分类信息。
可选地,在一种实施例中,将所述静态资源划分为至少两个文本类的步骤包括:将所述页面标题划分为标题文本类,将所述meta字段划分为头文本类,将所述页面body标签内的文字划分为内容文本类。
可选地,在一种实施例中,所述动态资源包括页面加载的脚本程序和/或css资源文件,所述第二分类模型为二进制分类模型,第二分类模块204包括:第二构建单元和第二输入单元,其中,第二构建单元应用根据所述动态资源构建二进制片段序列;第二输入单元应用将所述二进制片段序列输入所述二进制分类模型,其中,所述二进制分类模型用于根据所述二进制片段序列确定所述第二分类信息。
可选地,在一种实施例中,第二构建单元根据所述动态资源构建二进制片段序列时,具体执行的步骤包括:将所述动态资源转化为二进制流;以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列,其中,不同的所述二进制片段序列中的二进制片段的字节长度不同,同一个所述二进制片段序列中的二进制片段的字节长度相同且在相邻两个二进制片段中同一位置的字节为相邻字节;所述二进制分类模型包括第二卷积层、第二池化层和第二全连接层,所述第二卷积层包括至少两个并联的二进制卷积核,第二输入单元将所述二进制片段序列输入所述二进制分类模型时,具体执行的步骤包括:将每个所述二进制片段序列输入至一个二进制卷积核;将各个所述二进制卷积核的输出分别输入至所述第二池化层;将所述第二池化层的输出输入至所述第二全连接层,其中,所述第二全连接层输出所述第二分类信息。
可选地,在一种实施例中,以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列的步骤包括:分别以n+1、n+2、…、n+m个字节作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到m个二进制片段序列,其中,n大于或等于0,m大于或等于3;所述第二卷积层包括m个尺寸不同的所述二进制卷积核,所述二进制片段序列中二进制片段包括的字节数越多,对应的所述二进制卷积核的尺寸越大。
实施例三
本实施例三还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,本实施例的计算机设备01至少包括但不限于:可通过系统总线相互通信连接的存储器011、处理器012,如图3所示。需要指出的是,图3仅示出了具有组件存储器011和处理器012的计算机设备01,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器011(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器011可以是计算机设备01的内部存储单元,例如该计算机设备01的硬盘或内存。在另一些实施例中,存储器011也可以是计算机设备01的外部存储设备,例如该计算机设备01上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器011还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中,存储器011通常用于存储安装于计算机设备01的操作系统和各类应用软件,例如实施例二的恶意网址的分类装置的程序代码等。此外,存储器011还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器012在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器012通常用于控制计算机设备01的总体操作。本实施例中,处理器012用于运行存储器011中存储的程序代码或者处理数据,例如恶意网址的分类方法等。
实施例四
本实施例四还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储恶意网址的分类装置,被处理器执行时实现实施例一的恶意网址的分类方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种恶意网址的分类方法,其特征在于,包括:
获取目标网址对应的网络资源;
提取所述网络资源中的静态资源和动态资源;
通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;
通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及
根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。
2.根据权利要求1所述的恶意网址的分类方法,其特征在于,
所述静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,所述第一分类模型为文本分类模型,
通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息的步骤包括:
根据所述静态资源构建词序列;
将所述词序列输入所述文本分类模型,其中,所述文本分类模型用于根据所述词序列确定所述第一分类信息。
3.根据权利要求2所述的恶意网址的分类方法,其特征在于,
根据所述静态资源构建词序列的步骤包括:
将所述静态资源划分为至少两个文本类;
对所述文本类进行分词得到词序列;
所述文本分类模型包括第一卷积层、第一池化层和第一全连接层,所述第一卷积层包括至少两个串联的文本卷积核,将所述词序列输入所述文本分类模型的步骤包括:
将每个所述文本类对应的所述词序列作为一维向量输入至第一个文本卷积核;
将最后一个所述文本卷积核的输出输入至所述第一池化层;
将所述第一池化层的输出输入至所述第一全连接层,其中,所述第一全连接层输出所述第一分类信息。
4.根据权利要求3所述的恶意网址的分类方法,其特征在于,将所述静态资源划分为至少两个文本类的步骤包括:
将所述页面标题划分为标题文本类,将所述meta字段划分为头文本类,将所述页面body标签内的文字划分为内容文本类。
5.根据权利要求1所述的恶意网址的分类方法,其特征在于,
所述动态资源包括页面加载的脚本程序和/或css资源文件,所述第二分类模型为二进制分类模型,
通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息的步骤包括:
根据所述动态资源构建二进制片段序列;
将所述二进制片段序列输入所述二进制分类模型,其中,所述二进制分类模型用于根据所述二进制片段序列确定所述第二分类信息。
6.根据权利要求5所述的恶意网址的分类方法,其特征在于,
根据所述动态资源构建二进制片段序列的步骤包括:
将所述动态资源转化为二进制流;
以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列,其中,不同的所述二进制片段序列中的二进制片段的字节长度不同,同一个所述二进制片段序列中的二进制片段的字节长度相同且在相邻两个二进制片段中同一位置的字节为相邻字节;
所述二进制分类模型包括第二卷积层、第二池化层和第二全连接层,所述第二卷积层包括至少两个并联的二进制卷积核,将所述二进制片段序列输入所述二进制分类模型的步骤包括:
将每个所述二进制片段序列输入至一个二进制卷积核;
将各个所述二进制卷积核的输出分别输入至所述第二池化层;
将所述第二池化层的输出输入至所述第二全连接层,其中,所述第二全连接层输出所述第二分类信息。
7.根据权利要求6所述的恶意网址的分类方法,其特征在于,
以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列的步骤包括:分别以n+1、n+2、…、n+m个字节作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到m个二进制片段序列,其中,n大于或等于0,m大于或等于3;
所述第二卷积层包括m个尺寸不同的所述二进制卷积核,所述二进制片段序列中二进制片段包括的字节数越多,对应的所述二进制卷积核的尺寸越大。
8.一种恶意网址的分类装置,其特征在于,包括:
获取模块,用于获取目标网址对应的网络资源;
提取模块,用于提取所述网络资源中的静态资源和动态资源;
第一分类模块,用于通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;
第二分类模块,用于通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及
确定模块,用于根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027013.XA CN112115266A (zh) | 2020-09-25 | 2020-09-25 | 恶意网址的分类方法、装置、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027013.XA CN112115266A (zh) | 2020-09-25 | 2020-09-25 | 恶意网址的分类方法、装置、计算机设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112115266A true CN112115266A (zh) | 2020-12-22 |
Family
ID=73797213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011027013.XA Pending CN112115266A (zh) | 2020-09-25 | 2020-09-25 | 恶意网址的分类方法、装置、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115266A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115130104A (zh) * | 2022-07-15 | 2022-09-30 | 深圳安巽科技有限公司 | 一种恶意网址综合评判方法、系统及存储介质 |
CN116248415A (zh) * | 2023-05-11 | 2023-06-09 | 北京匠数科技有限公司 | 网址的判别方法及装置 |
CN117828479A (zh) * | 2024-02-29 | 2024-04-05 | 浙江鹏信信息科技股份有限公司 | 诈骗网站识别检测方法、系统及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158626A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Detection and categorization of malicious urls |
CN104766014A (zh) * | 2015-04-30 | 2015-07-08 | 安一恒通(北京)科技有限公司 | 用于检测恶意网址的方法和系统 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及系统 |
CN109753794A (zh) * | 2018-11-30 | 2019-05-14 | 北京奇虎科技有限公司 | 一种恶意应用的识别方法、系统、训练方法、设备及介质 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN110516074A (zh) * | 2019-10-23 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于深度学习的网站主题分类方法及装置 |
CN110929257A (zh) * | 2019-10-30 | 2020-03-27 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
-
2020
- 2020-09-25 CN CN202011027013.XA patent/CN112115266A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158626A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Detection and categorization of malicious urls |
CN104766014A (zh) * | 2015-04-30 | 2015-07-08 | 安一恒通(北京)科技有限公司 | 用于检测恶意网址的方法和系统 |
CN109753794A (zh) * | 2018-11-30 | 2019-05-14 | 北京奇虎科技有限公司 | 一种恶意应用的识别方法、系统、训练方法、设备及介质 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及系统 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN110516074A (zh) * | 2019-10-23 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于深度学习的网站主题分类方法及装置 |
CN110929257A (zh) * | 2019-10-30 | 2020-03-27 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115130104A (zh) * | 2022-07-15 | 2022-09-30 | 深圳安巽科技有限公司 | 一种恶意网址综合评判方法、系统及存储介质 |
CN116248415A (zh) * | 2023-05-11 | 2023-06-09 | 北京匠数科技有限公司 | 网址的判别方法及装置 |
CN116248415B (zh) * | 2023-05-11 | 2023-08-15 | 北京匠数科技有限公司 | 网址的判别方法及装置 |
CN117828479A (zh) * | 2024-02-29 | 2024-04-05 | 浙江鹏信信息科技股份有限公司 | 诈骗网站识别检测方法、系统及计算机可读存储介质 |
CN117828479B (zh) * | 2024-02-29 | 2024-06-11 | 浙江鹏信信息科技股份有限公司 | 诈骗网站识别检测方法、系统及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595583B (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
US11550856B2 (en) | Artificial intelligence for product data extraction | |
CN112115266A (zh) | 恶意网址的分类方法、装置、计算机设备和可读存储介质 | |
US9436768B2 (en) | System and method for pushing and distributing promotion content | |
JP6827116B2 (ja) | ウェブページのクラスタリング方法及び装置 | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
CN109033282B (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN111160445A (zh) | 投标文件相似度计算方法及装置 | |
CN109492201A (zh) | 应用于量值对比的文件格式转化方法 | |
CN114398877A (zh) | 基于人工智能的主题提取方法、装置、电子设备及介质 | |
CN110413909B (zh) | 基于机器学习的大规模嵌入式设备在线固件智能识别方法 | |
CN115883111A (zh) | 一种钓鱼网站识别方法、装置、电子设备及存储介质 | |
CN114117177A (zh) | 一种基于TextCNN的主题爬虫方法及系统 | |
CN112765444A (zh) | 提取目标文本片段的方法、装置、设备及存储介质 | |
CN113221035A (zh) | 用于确定异常网页的方法、装置、设备、介质和程序产品 | |
CN107168997B (zh) | 基于人工智能的网页原创评估方法、装置及存储介质 | |
CN112328946A (zh) | 一种藏文网页摘要自动生成方法和系统 | |
CN112417858A (zh) | 一种实体权重评分方法、系统、电子设备及存储介质 | |
CN112818206B (zh) | 一种数据分类方法、装置、终端及存储介质 | |
CN111914199A (zh) | 一种页面元素过滤方法、装置、设备及存储介质 | |
CN116227479B (zh) | 一种实体识别方法、装置、计算机设备和可读存储介质 | |
CN110543622A (zh) | 文本相似度检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |