CN113312622A - 一种检测url的方法及装置 - Google Patents
一种检测url的方法及装置 Download PDFInfo
- Publication number
- CN113312622A CN113312622A CN202110644394.4A CN202110644394A CN113312622A CN 113312622 A CN113312622 A CN 113312622A CN 202110644394 A CN202110644394 A CN 202110644394A CN 113312622 A CN113312622 A CN 113312622A
- Authority
- CN
- China
- Prior art keywords
- url
- features
- detection model
- sample
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims description 57
- 230000000306 recurrent effect Effects 0.000 claims description 32
- 239000002775 capsule Substances 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000002457 bidirectional effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种检测URL的方法及装置。所述方法包括:获取待检测URL数据,从所述URL数据中确定出URL的语义特征、字符特征以及字符频次特征,所述字符频次特征包括URL中各个字符的频次分布特征;将所述特征输入至URL检测模型,经所述URL检测模型,输出所述URL的类别,其中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得。采用本方法能够识别更多形式的恶意URL,识别准确率高、泛化能力强。
Description
技术领域
本申请涉及互联网安全技术领域,特别是涉及一种检测URL的方法及装置。
背景技术
随着互联网技术的发展,网络攻击日益成为一个严重的问题。在这些攻击中,恶意URL(Uniform Resource Locator,统一资源定位器)被广泛应用到各种类型的攻击,比如钓鱼网站、垃圾邮件以及恶意软件中,检测恶意URL对阻止这些攻击具有重要意义。相关技术中,采用机器学习的方法来识别恶意URL,然而,由于URL的形式变化很多,传统的机器学习模型的对于新出现的URL的泛化能力较弱,鲁棒性差,传统的检测恶意URL的方法准确性不高。
发明内容
基于此,有必要针对上述技术问题,提供一种检测恶意URL的方法及装置方法和装置。
根据本实施例的第一方面,提供了一种检测恶意URL的方法,包括:
获取待检测URL数据,从所述URL数据中确定出URL的语义特征、字符特征以及字符频次特征,所述字符频次特征包括URL中各个字符的频次分布特征;
将所述特征输入至URL检测模型,经所述URL检测模型,输出所述URL的类别,其中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得。
在其中一个实施例中,所述所述从所述URL数据中确定出URL的语义特征,包括:
将所述URL数据输入词向量模型,经所述词向量模型,输出所述URL的语义特征。
在其中一个实施例中,所述从所述URL数据中确定出URL的字符频次特征,包括:
将所述URL数据中的字符按照预设编码规则中对应的编码位置重新排序,未出现在所述URL的字符对应的编码位置设置为预设值,得到所述URL的字符频次特征。
在其中一个实施例中,所述编码规则被设置成按照下述方式获得:
按URL样本集合中URL字符出现频次由高到低的顺序确定所述字符的编码位置。
在其中一个实施例中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得,包括:
获取样本URL的特征集合,所述特征集合包括多个标注有URL类别的特征;
构建URL检测模型,所述URL检测模型中设置有训练参数;
将所述样本URL的特征输入至所述URL检测模型,生成预测结果;
基于所述预测结果与标注的样本URL的类别之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求,得到所述URL检测模型。
在其中一个实施例中,所述URL检测模型包括独立循环神经网络和胶囊神经网络,所述将所述样本URL的特征输入至所述URL检测模型,生成预测结果,包括:
利用所述独立循环神经网络提取所述样本URL特征的全局特征;
利用所述胶囊神经网络提取所述样本URL特征的局部特征;
将所述全局特征和所述局部特征输入至所述URL检测模型的全连接层,生成预测结果。
在其中一个实施例中,所述URL检测模型还包括注意力机制组件,所述将所述全局特征和所述局部特征输入至所述URL检测模型,生成预测结果,包括:
利用所述注意力机制组件提取所述全局特征中感兴趣的特征;
将所述感兴趣的特征和所述局部特征输入至所述URL检测模型的全连接层,生成预测结果。
在其中一个实施例中,所述独立循环神经网络采用双向独立循环神经网络结构。
根据本实施例的第二方面,提供了一种检测恶意URL的装置,所述装置包括:
获取模块,用于获取数据,从所述URL数据中确定出URL的语义特征、字符特征以及字符频次特征,所述字符频次特征包括URL中各个字符的频次分布特征;
检测模块,用于将所述特征输入至URL检测模型,经所述URL检测模型,输出所述URL的类别,其中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得。
根据本实施例的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例任一项所述的方法的步骤。
根据本实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例任一项所述的方法的步骤。
上述检测恶意URL的方法、装置、计算机设备和存储介质,通过提取了URL多个维度的特征,包括URL的语义特征、字符特征以及字符频次特征,本实施例对多个维度的特征进行机器学习处理,训练得到URL的检测模型,与传统的直接对URL进行训练得到检测模型不同,本实施例能够识别更多形式的恶意URL,识别准确率高、泛化能力强。
附图说明
图1为一个实施例中一种检测恶意URL的方法的流程示意图。
图2为一个实施例中URL字符频次特征的获得方法的示意图。
图3为一个实施例中URL检测模型的训练过程示意图。
图4为一个实施例中独立循环神经网络算法结构示意图。
图5为一个实施例中双向独立循环神经网络算法结构示意图。
图6为一个实施例中一种检测恶意URL的装置的框图。
图7为一个实施例中计算机设备的内部结构图。
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了方便本领域技术人员理解本公开实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。
随着互联网的发展,无论工作还是还是生活人们都越来越依赖互联网。越来越多的个人信息、工作资料、个人财产信息保存在互联网之中,利益驱使导致了越来越多的不法分子的日益猖獗,恶意URL随之激增。恶意URL变化形式多样,与良性URL极其相似,人为难以发现,而用户一旦点击进入,互联网中的个人信息、工作资料、私人财产信息极易泄露,后果不堪设想。而现如今关于恶意URL检测的相关研究较少,多数是基于传统且单一的算法模型,效果不佳。相关技术中,利用卷积神经网络监测恶意URL。卷积神经网络又称卷积神经网络(CNN)是由卷积层、池化层、全连接层组成的神经网络。其中卷积层与池化层组成卷积组,逐层进行特征提取,其后使用若干个全连接层进行完成分类。池化层不仅可以缩小输入矩阵的尺寸,加快计算速度,有效的防止过拟合,并降低特征维度。但是卷积神经网络的前一个输入和下一个输入之间没有任何关联。所以所有的输出都是独立的,关联性表现较差,对于滋生快速且变化种类多样的恶意URL,不能达到很好的识别和分类效果,缺乏检测新生成的恶意URL的能力,恶意URL检测的普遍性较差。
循环神经网络(RNN)是一个强大的连接模型家族,其通过周期捕获时间动态,并在输入和输出序列的映射过程中学习上下文相关信息。但能够存取的上下文信息范围很有限。而长短期记忆(LSTM)网络则很好的解决了这些问题,其通过添加输入门(inputgates)、遗忘门(forget gates)和输出门(output gates)的方法来避免长期依赖的问题,以保持状态的适时更新,长短时记忆是一个被放在了循环神经网络中加强版的组件。许多序列标签任务访问过去和未来的上下文是有必要的。然而,LSTM的隐藏状态只能从过去获取信息,对未来信息无法进行预测。而双向LSTM很好的解决了这个问题,基本思想是通过向前展现出每个序列至每个隐藏状态能够得到过去的信息,向后展现出每个序列至每个隐藏状态能够得到未来的信息,其后把前向和后向的隐藏状态进行连接以得到最终输出,以能够得到更加全面的信息。但是由于其无法记住过长序列,运行需要很多资源,训练困难,运行计算耗时过大,均限制了其在恶意URL检测中的适用性。
基于类似于上文所述的实际技术需求,本公开实施例提供了一种检测恶意URL的方法。
图1为一个实施例中一种检测恶意URL的方法的流程示意图,参考图1所示,提供了一种检测恶意URL方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。包括以下步骤:
步骤S101,获取待检测URL数据,从所述URL数据中确定出URL的语义特征、字符特征以及字符频次特征,所述字符频次特征包括URL中各个字符的频次分布特征;
步骤S102,将所述特征输入至URL检测模型,经所述URL检测模型,输出所述URL的类别,其中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得。
本实施例中,考虑到在万维网上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL,它是万维网的统一资源定位标志,就是指网络地址。以“https://www.2vjia.com”为例,“https”表示网络传输协议,“www”表示服务器名,“2vjia”表示域名,“www.2vjia.com”表示网站名又称主机名。因此,URL中包含了一定的语义信息,可以提取URL中的语义信息作为本实施例的语义特征。本实施例中,所述字符特征可以包括:URL的长度,字符的数量,首个小数点的位置,大写字母的个数,最长字符的个数、顶级域名是否为五大域名,分隔符之间字符的最大长度,小写字母的个数,URL中总数字的个数,是不是IP地址等。在一个示例中,所述字符特征还可以包括URL中主机相关的特征,如主机时间、身份、主机位置。所述字符特征还可以包括其他网站对所述URL的评价信息,如百度反链、百度安全、百度是否收录、百度权重、360是否收录、百度1天反链、百度7天反链、百度1天收录、百度7天收录等。在一个示例中,所述字符频次特征包括URL中各个字符的频次分布特征,如分布在高频区、中频区还是低频区。所述高频区、中频区和低频区可以通过统计收集的所有URL中字符的数量设置确定,数量较多的字符属于高频区、数量较少的字符属于低频区。
本实施例中,所述URL的类别包括恶意URL和非恶意URL。所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得,可以采用基于深度学习的方法训练所述URL检测模型。在一个示例中,所述URL检测模型可以包括基于独立循环神经网络结构(indRNN),独立循环神经网络可以保留长期记忆,处理长序列,从而可以提取更佳全面的特征信息,并且,独立循环神经网络可以实现高效的多层堆叠,以增加网络的深度,获取URL更为深层次的特征信息。在一个示例中,所述URL检测模型可以包括独立循环神经网络结构和注意力机制网络结构进行联合训练模型,所述注意力机制网络结构能够从众多的信息中提取对分类任务起关键作用的特征信息,通过注意力机制网络与独立循环神经网络相结合,能够对提取的特征信息进行筛选,强化对分类任务起关键作用的特征信息,弱化对分类任务起非关键作用的信息。在另一个示例中,所述URL检测模型还可以包括独立循环神经网络结构、注意力机制网络结构、以及胶囊神经网络结构进行联合训练模型。利用独立循环神经网络结构提取URL特征中全面的特征信息,利用注意力机制网络从所述全面的特征信息中提取出对分类任务起关键作用的特征信息,利用胶囊神经网络结构提取URL特征中局部特征信息。需要说明的是,所述URL检测模型的神经网络结构的组成方式不限于上述举例,例如,胶囊神经网络结构与注意力机制网络结构相结合,所属领域技术人员在本申请技术精髓的启示下,还可能作出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
本实施例中,提取了URL多个维度的特征,包括URL的语义特征、字符特征以及字符频次特征,本实施例对多个维度的特征进行机器学习处理,训练得到URL的检测模型,与传统的直接对URL进行训练得到检测模型不同,本实施例能够识别更多形式的恶意URL,识别准确率高、泛化能力强。
在一个实施例中,所述从所述URL数据中确定出URL的语义特征,包括:
将所述URL数据输入词向量模型,经所述词向量模型,输出所述URL的语义特征。
本实施例中,采用采用词向量模型提取URL的语义特征。所述词向量模型可以包括:word2vec模型、glove模型、ELMo模型、GPT模型和BERT模型等。词向量具有丰富的语义和上下文信息,通过训练词向量模型,获取URL的语义特征,本实施例从语义的角度对URL进行特征提取,丰富了URL的特征类型,提高了URL检测模型的准确度。
图2为一个实施例中URL字符频次特征的获得方法的示意图,参考图2所示,在一个示例中,所述特征包括URL的字符频次特征,所述从所述URL数据中确定出URL的字符频次特征,包括:
将所述URL数据中的字符按照预设编码规则中对应的编码位置重新排序,未出现在所述URL的字符对应的编码位置设置为预设值,得到所述URL的字符频次特征。
本实施例中,所述编码规则可以按照下述方式获得。在对URL检测模型进行训练的时候,需要利用大量的URL样本,这些URL样本组成了URL的样本集合。在一个示例中,可以按照URL样本集合中字符出现频次顺序,例如由高到低或由低到高的顺序,为各个字符设置编码位置,例如,参考图2所述,字符“.”出现的频次最高,把字符“.”放在第一位的编码位置,字符“w”出现的频次第二高,把字符“w”放在第二位的编码位置,依次类推。在一个示例中,编码位置的个数可以按照所有URL样本中最长的URL的字符个数设置。需要说明的是,所述编码规则的设置方式不限于上述举例,例如,还可以按照其他URL数据,如网络上公开的URL数据中字符出现的频次顺序设置所述编码规则,所述领域技术人员在本申请技术精髓的启示下,可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖与本申请保护范围内。
本实施例中,将待检测URL中的字符按照预设编码规则中对应的编码位置重新排序,未出现在所述URL的字符对应的编码位置设置为预设值,得到所述URL的字符频次特征。例如,参考图2所示,待检测的URL为:www.bridge69.com。该URL中,字符“w”在预设的编码规则的编码位置为第二位,将字符“w”放置在第二位编码位置;字符“.”在预设的编码规则的编码位置为第三位,将字符“.”放置在第三位编码位置;字符“b”在预设的编码规则的编码位置为第十九位,将字符“b”放置在第十九位的编码位置;依次类推,将“www.bridge69.com”所有字符都放置在对应的编码位置上。在一个示例中,未出现在所述URL的字符对应的编码位置可以设置为0,得到图2中字符频次特征200。
图3为一个实施例中URL检测模型的训练过程示意图,参考图3,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得,包括:
获取样本URL的特征集合,所述特征集合包括多个标注有URL类别的特征;
构建URL检测模型,所述URL检测模型中设置有训练参数;
将所述样本URL的特征输入至所述URL检测模型,生成预测结果;
基于所述预测结果与标注的样本URL的类别之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求,得到所述URL检测模型。
本实施例中,所述样本URL可以从网络或公开的数据库中获取,并对获取到的数据进行去重、降噪等处理。对样本URL进行自动标注URL类别,可以标注成恶意URL和非恶意URL两类。对获取到的样本URL可以按照上述实施例中任一中方法提取URL特征,得到URL的特征集合。在一个示例中,URL字符特征中的主机相关特征可以通过已知的主机信息采集网站中获得,包括主机位置、主机身份、主机时间以及管理风格等信息。在另一个示例中,可以借助JAVA等工具,提取URL其他字符特征,如URL的长度,字符的数量,首个小数点的位置,大写字母的个数,最长字符的个数、顶级域名是否为五大域名,分隔符之间字符的最大长度,小写字母的个数,URL中总数字的个数,是不是IP地址等。在一个示例中,利用词向量模型提取URL的语义特征,具体包括:将URL处理的操作简化成N维空间向量的运算,计算词之间的余弦相似度表示URL上的相关程度。将URL其抽象为一个矩阵或向量,然后在处理后进行模型训练,利用词向量模型Word2vec提取1维、5维、10维、15维、20维、50维、100维的数据后发现20维的更适合本发明的数据检测,因此,在一个示例中,使用20维的词向量成为本发明的词向量特征。
本公开实施例中,构建URL检测模型,所述URL检测模型中设置有训练参数。在一个示例中,所述URL检测模型包括独立循环神经网络和胶囊神经网络,所述将所述样本URL的特征输入至所述URL检测模型,生成预测结果,包括:
利用所述独立循环神经网络提取所述样本URL特征的全局特征;
利用所述胶囊神经网络提取所述样本URL特征的局部特征;
将所述全局特征和所述局部特征输入至所述URL检测模型,生成预测结果。
本实施例中,所述独立循环神经网络(IndRNN),可以解决传统的RNN所存在的梯度小时和梯度爆炸问题,借助relu等非饱和激活函数,训练之后的模型具有较高的鲁棒性,与传统的RNN和LSTM相比,使用独立循环神经网络可以构建更深的网络结构,从而提取URL更全面的特征信息。图4为一个实施例中独立循环神经网络算法结构示意图,参考图4所示,weight表示输入权重,Recurrent+ReLU表示的是每步输入循环的处理,ReLU表示激活函数。所述独立循环神经网络的公式表示为:
ht=σ(Wxt+u·ht-1+b) (1)
由于此时神经元之间是不相连的,而通过以下公式进行叠加多层的独立循环神经网络之后能够使同一层中的神经元之间相连。故针对第n个神经元,获得隐藏层hn,t能够通过公式(2)实现:
hn,t=σ(Wnxt+unhn,t-1+bn) (2)
其中,公式(1)和公式(2)中各参数的含义如下:u表示循环权重,·表示阿达马积,Wn表示第n行的输入权重,un表示第n行的当前权重,bn表示偏置。
在一个示例中,可以采用独立循环神经网络中的双向独立循环神经网络(Bi-IndRNN),所述双向独立循环神经网络对于短步长和长步长序列方面均表现较好,保留长期的记忆。图5为一个实施例中双向独立循环神经网络算法结构示意图,参考图5所述双向独立循环神经网络是通过向前展现出每个序列的每个隐藏状态能够得到过去的信息,向后展现出每个序列的每个隐藏状态能够得到未来的信息。并且其中的前向IndRNN(即IndRNNF)是从前至后的挖掘过程得到更加全面的过去的信息,后向IndRNN(即IndRNNB)是从后至前的挖掘过程得到更加全面的未来的信息,其后把前向和后向的隐藏状态进行连接以得到最终输出,因此,双向独立循环神经网络能够得到更加全面的信息。在图5中,M1,…Mn-1,Mn,Mn+1…表示特征输入,使用神经网络MLP(Muti-Layer Perception,多层感知器)进行特征融合。双向独立循环神经网络算法公式如下:
Ft=f(w1xt+w2Ft-1) (3)
F′t=f(w3xt+w5Ft+1) (4)
Lt=σ(w4Ft+w6F′t) (5)
其中,Ft表示IndRNNF之后的输出值,Ft′表示IndRNNB之后的输出值,Lt表示前向和后向隐藏状态进行连接之后得到的最终输出值,Wn(n=1,2,3...)表示第n行的输入权重,σ表示非线性sigmoid函数。
本实施例中,所述胶囊神经网络不同于卷积神经网络矢量的输入和输出,胶囊层的输入输出均为向量,并且采用动态路由算法来更新胶囊参数,引入胶囊网络处理从输入层接收的语义特征α,得到富含上下文语义信息的局部特征q。在胶囊神经网络中,激活函数Squashing既保留了输入向量的方向,又将输入向量的模压缩到(0,1)之间。输出vj的计算公式如式(6):
其中,vj是胶囊j的输出向量,sj是总的输入向量。胶囊网络第一层为一个激活函数为ReLU的卷积层,除了第一层胶囊外,所有胶囊的总输入sj是对下面层胶囊的所有预测向量的加权求和,它是通过下面层胶囊的输出ui乘以权重矩阵Wij而得到的。公式如下:
其中,cij是在动态路由过程中确定的耦合系数,表示每一个低层胶囊与其相对应的高层胶囊之间的权重。对于每个胶囊i来说,所有的权重cij的总和为1。cij由采用的动态路由算法中的softmax函数决定,计算公式如下:
其中,bij是胶囊i与胶囊j的对数概率,用来更新cij,并将其初始化为0,在路由迭代过程中,bij会不断更新,更新公式如下:
本实施例中,构建URL检测模型,所述URL检测模型中设置有训练参数。在另一个示例中,所述URL检测模型还包括注意力机制组件,所述将所述全局特征和所述局部特征输入至所述URL检测模型,生成预测结果,包括:
利用所述注意力机制组件提取所述全局特征中感兴趣的特征;
将所述感兴趣的特征和所述局部特征输入至所述URL检测模型,生成预测结果。
本实施例中,可以利用所述注意力机制组件结合上述实施例中的独立循环神经网络,利用所述独立循环神经网络提取所述样本URL特征的全局特征,利用所述注意力机制组件提取所述全局特征中感兴趣的特征,利用所述胶囊神经网络提取所述样本URL特征的局部特征,将所述感兴趣的特征和所述局部特征输入至所述URL检测模型,生成预测结果。与上述实施例不同的是,本实施例中所述注意力机制组件的输入层输入两个部分M∈{(x1,y1),(x2,y2)...(xn,yn)},其中(x1,x2...xn)表示输入的特征,yn∈(1,0)表示URL的标注标签,利用下述公式计算输入特征的权重:
ti=tan(whhi+bh) (11)
其中,hi∈R,为特征向量中第i个特征,R表示实数集,wh和bh为权重和偏置。ai表示特征hi的注意力权重。根据注意力权重向量a∈RL,对h进行注意力加权,得到经过注意力机制的输出向量p,计算公式如下:
本实施例中,可以使用全连接层进行有用信息的保留,最后使用softmax分类器进行分类得到恶意URL的检测结果。
本实施例,利用注意力机制组件与双向独立循环神经网络相结合,能够获取URL更加深层次的全面的特征,再与胶囊神经网络相结合,还可以获取URL更佳深层次的局部的特征,多特征的融合能够准确的URL的类别。
在一个实施例中,如图6所示,图6为一个实施例中一种检测恶意URL的装置的框图。包括:
获取模块601,用于获取待检测URL数据,从所述URL数据中确定出URL的语义特征、字符特征以及字符频次特征,所述字符频次特征包括URL中各个字符的频次分布特征;
检测模块602,用于将所述特征输入至URL检测模型,经所述URL检测模型,输出所述URL的类别,其中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得。
在一个实施例中,所述特征包括URL的语义特征,所述获取模块包括:
第一获取子模块,用于将所述URL数据输入词向量模型,经所述词向量模型,输出所述URL的语义特征。
在一个实施例中,所述获取模块包括:
第二获取子模块,用于将所述URL数据中的字符按照预设编码规则中对应的编码位置重新排序,未出现在所述URL的字符对应的编码位置设置为预设值,得到所述URL的字符频次特征;
在一个实施例中,所述编码规则被设置成按照下述方式获得:
按URL样本集合中URL字符出现频次由高到低的顺序确定所述字符的编码位置。
在一个实施例中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得,包括:
获取样本URL的特征集合,所述特征集合包括多个标注有URL类别的特征;
构建URL检测模型,所述URL检测模型中设置有训练参数;
将所述样本URL的特征输入至所述URL检测模型,生成预测结果;
基于所述预测结果与标注的样本URL的类别之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求,得到所述URL检测模型。
所述URL检测模型包括独立循环神经网络和胶囊神经网络,所述将所述样本URL的特征输入至所述URL检测模型,生成预测结果,包括:
利用所述独立循环神经网络提取所述样本URL特征的全局特征;
利用所述胶囊神经网络提取所述样本URL特征的局部特征;
将所述全局特征和所述局部特征输入至所述URL检测模型的全连接层,生成预测结果。
在一个实施例中,所述URL检测模型还包括注意力机制组件,所述将所述全局特征和所述局部特征输入至所述URL检测模型,生成预测结果,包括:
利用所述注意力机制组件提取所述全局特征中感兴趣的特征;
将所述感兴趣的特征和所述局部特征输入至所述URL检测模型的全连接层,生成预测结果。
在一个实施例中,所述独立循环神经网络采用双向独立循环神经网络结构。
关于一种检测恶意URL装置的具体限定可以参见上文中对于检测恶意URL方法的限定,在此不再赘述。上述检测恶意URL装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
本实施例中,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于检测恶意URL的模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种检测恶意URL的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种检测恶意URL方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各检测恶意URL方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种检测URL的方法,其特征在于,所述方法包括:
获取待检测URL数据,从所述URL数据中确定出URL的语义特征、字符特征以及字符频次特征,所述字符频次特征包括URL中各个字符的频次分布特征;
将所述特征输入至URL检测模型,经所述URL检测模型,输出所述URL的类别,其中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得。
2.根据权利要求1所述的方法,其特征在于,所述从所述URL数据中确定出URL的语义特征,包括:
将所述URL数据输入词向量模型,经所述词向量模型,输出所述URL的语义特征。
3.根据权利要求1所述的方法,其特征在于,所述从所述URL数据中确定出URL的字符频次特征,包括:
将所述URL数据中的字符按照预设编码规则中对应的编码位置重新排序,未出现在所述URL的字符对应的编码位置设置为预设值,得到所述URL的字符频次特征。
4.根据权利要求3所述的方法,其特征在于,所述编码规则被设置成按照下述方式获得:
按URL样本集合中URL字符出现频次由高到低的顺序确定所述字符的编码位置。
5.根据权利要求1所述的方法,其特征在于,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得,包括:
获取样本URL的特征集合,所述特征集合包括多个标注有URL类别的特征;
构建URL检测模型,所述URL检测模型中设置有训练参数;
将所述样本URL的特征输入至所述URL检测模型,生成预测结果;
基于所述预测结果与标注的样本URL的类别之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求,得到所述URL检测模型。
6.根据权利要求5所述的方法,其特征在于,所述URL检测模型包括独立循环神经网络和胶囊神经网络,所述将所述样本URL的特征输入至所述URL检测模型,生成预测结果,包括:
利用所述独立循环神经网络提取所述样本URL特征的全局特征;
利用所述胶囊神经网络提取所述样本URL特征的局部特征;
将所述全局特征和所述局部特征输入至所述URL检测模型的全连接层,生成预测结果。
7.根据权利要求6所述的方法,其特征在于,所述URL检测模型还包括注意力机制组件,所述将所述全局特征和所述局部特征输入至所述URL检测模型,生成预测结果,包括:
利用所述注意力机制组件提取所述全局特征中感兴趣的特征;
将所述感兴趣的特征和所述局部特征输入至所述URL检测模型的全连接层,生成预测结果。
8.根据权利要求6所述的方法,其特征在于,所述独立循环神经网络采用双向独立循环神经网络结构。
9.一种检测恶意URL的装置,其特征在于,所述装置包括:
获取模块,用于获取数据,从所述URL数据中确定出URL的语义特征、字符特征以及字符频次特征,所述字符频次特征包括URL中各个字符的频次分布特征;
检测模块,用于将所述特征输入至URL检测模型,经所述URL检测模型,输出所述URL的类别,其中,所述URL检测模型被设置为利用样本URL的特征与样本URL的类别的对应关系训练获得。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110644394.4A CN113312622A (zh) | 2021-06-09 | 2021-06-09 | 一种检测url的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110644394.4A CN113312622A (zh) | 2021-06-09 | 2021-06-09 | 一种检测url的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113312622A true CN113312622A (zh) | 2021-08-27 |
Family
ID=77378401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110644394.4A Pending CN113312622A (zh) | 2021-06-09 | 2021-06-09 | 一种检测url的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312622A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116319005A (zh) * | 2023-03-21 | 2023-06-23 | 上海安博通信息科技有限公司 | 结合自然语言处理模型的攻击检测方法、装置及处理系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692639A (zh) * | 2009-09-15 | 2010-04-07 | 西安交通大学 | 一种基于url的不良网页识别方法 |
CN103810425A (zh) * | 2012-11-13 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 恶意网址的检测方法及装置 |
CN105718577A (zh) * | 2016-01-22 | 2016-06-29 | 中国互联网络信息中心 | 一种针对新增域名自动检测网络钓鱼的方法与系统 |
WO2017084586A1 (zh) * | 2015-11-17 | 2017-05-26 | 武汉安天信息技术有限责任公司 | 基于深度学习方法推断恶意代码规则的方法、系统及设备 |
CN107577945A (zh) * | 2017-09-28 | 2018-01-12 | 阿里巴巴集团控股有限公司 | Url攻击检测方法、装置以及电子设备 |
CN109922052A (zh) * | 2019-02-22 | 2019-06-21 | 中南大学 | 一种结合多重特征的恶意url检测方法 |
CN110191096A (zh) * | 2019-04-30 | 2019-08-30 | 安徽工业大学 | 一种基于语义分析的词向量网页入侵检测方法 |
CN110602113A (zh) * | 2019-09-19 | 2019-12-20 | 中山大学 | 一种基于深度学习的层次化钓鱼网站检测方法 |
CN110808968A (zh) * | 2019-10-25 | 2020-02-18 | 新华三信息安全技术有限公司 | 网络攻击检测方法、装置、电子设备和可读存储介质 |
CN110855635A (zh) * | 2019-10-25 | 2020-02-28 | 新华三信息安全技术有限公司 | Url识别方法、装置及数据处理设备 |
CN111027656A (zh) * | 2019-11-15 | 2020-04-17 | 浙江口碑网络技术有限公司 | 二维码生成及识别方法、装置、电子设备、存储介质 |
CN111538929A (zh) * | 2020-07-08 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 网络链接识别方法、装置、存储介质及电子设备 |
-
2021
- 2021-06-09 CN CN202110644394.4A patent/CN113312622A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692639A (zh) * | 2009-09-15 | 2010-04-07 | 西安交通大学 | 一种基于url的不良网页识别方法 |
CN103810425A (zh) * | 2012-11-13 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 恶意网址的检测方法及装置 |
WO2017084586A1 (zh) * | 2015-11-17 | 2017-05-26 | 武汉安天信息技术有限责任公司 | 基于深度学习方法推断恶意代码规则的方法、系统及设备 |
CN105718577A (zh) * | 2016-01-22 | 2016-06-29 | 中国互联网络信息中心 | 一种针对新增域名自动检测网络钓鱼的方法与系统 |
CN107577945A (zh) * | 2017-09-28 | 2018-01-12 | 阿里巴巴集团控股有限公司 | Url攻击检测方法、装置以及电子设备 |
CN109922052A (zh) * | 2019-02-22 | 2019-06-21 | 中南大学 | 一种结合多重特征的恶意url检测方法 |
CN110191096A (zh) * | 2019-04-30 | 2019-08-30 | 安徽工业大学 | 一种基于语义分析的词向量网页入侵检测方法 |
CN110602113A (zh) * | 2019-09-19 | 2019-12-20 | 中山大学 | 一种基于深度学习的层次化钓鱼网站检测方法 |
CN110808968A (zh) * | 2019-10-25 | 2020-02-18 | 新华三信息安全技术有限公司 | 网络攻击检测方法、装置、电子设备和可读存储介质 |
CN110855635A (zh) * | 2019-10-25 | 2020-02-28 | 新华三信息安全技术有限公司 | Url识别方法、装置及数据处理设备 |
CN111027656A (zh) * | 2019-11-15 | 2020-04-17 | 浙江口碑网络技术有限公司 | 二维码生成及识别方法、装置、电子设备、存储介质 |
CN111538929A (zh) * | 2020-07-08 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 网络链接识别方法、装置、存储介质及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116319005A (zh) * | 2023-03-21 | 2023-06-23 | 上海安博通信息科技有限公司 | 结合自然语言处理模型的攻击检测方法、装置及处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chawla et al. | Host based intrusion detection system with combined CNN/RNN model | |
Sun et al. | Near real-time twitter spam detection with machine learning techniques | |
CN111027069B (zh) | 恶意软件家族检测方法、存储介质和计算设备 | |
KR102093275B1 (ko) | 악성코드 감염 유도정보 판별 시스템, 프로그램이 기록된 저장매체 및 방법 | |
Kaytan et al. | Effective classification of phishing web pages based on new rules by using extreme learning machines | |
Gabryel et al. | Browser fingerprint coding methods increasing the effectiveness of user identification in the web traffic | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
Liu et al. | Multi-scale semantic deep fusion models for phishing website detection | |
Ojewumi et al. | Performance evaluation of machine learning tools for detection of phishing attacks on web pages | |
Muslihi et al. | Detecting SQL injection on web application using deep learning techniques: a systematic literature review | |
Gong et al. | Model uncertainty based annotation error fixing for web attack detection | |
Gulghane et al. | A survey on intrusion detection system using machine learning algorithms | |
Sun et al. | SDMP: A secure detector for epidemic disease file based on DNN | |
Ejaz et al. | Life-long phishing attack detection using continual learning | |
Kasim | Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model | |
CN113312622A (zh) | 一种检测url的方法及装置 | |
Guo et al. | Multimodal dual-embedding networks for malware open-set recognition | |
Sahingoz et al. | Dephides: Deep learning based phishing detection system | |
US20230344868A1 (en) | Webpage phishing auto-detection | |
Mithra Raj et al. | Website phishing detection using machine learning classification algorithms | |
Awasthi et al. | Phishing website prediction: A machine learning approach | |
CN114638984B (zh) | 一种基于胶囊网络的恶意网站url检测方法 | |
CN116383707A (zh) | 恶意代码检测方法、装置、设备和介质 | |
CN109508544B (zh) | 一种基于mlp的入侵检测方法 | |
Zhu et al. | PDHF: Effective phishing detection model combining optimal artificial and automatic deep features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210827 |