CN110855635B - Url识别方法、装置及数据处理设备 - Google Patents
Url识别方法、装置及数据处理设备 Download PDFInfo
- Publication number
- CN110855635B CN110855635B CN201911024123.8A CN201911024123A CN110855635B CN 110855635 B CN110855635 B CN 110855635B CN 201911024123 A CN201911024123 A CN 201911024123A CN 110855635 B CN110855635 B CN 110855635B
- Authority
- CN
- China
- Prior art keywords
- character
- url
- recognized
- character string
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请一种URL识别方法、装置及数据处理设备,该方法包括:获取待识别URL字符串;将待识别URL字符串拆分为多个字符组合;将从待识别URL字符串中拆分出的字符组合作为特征输入分类模型进行分类检测;其中,分类模型由根据多个可信URL字符串拆分出的字符组合,对多个可信URL字符串进行训练的结果得出。通过使用可信URL字符串训练样本训练的分类模型对待识别URL字符串进行识别,该分类模型为根据多个可信URL字符串拆分出的第一预设字符长度的字符组合,对多个可信URL字符串进行聚类分析训练获得,从而可以在不依赖恶意URL样本训练的情况下对不可信的URL进行识别。
Description
技术领域
本申请涉及网络通信技术领域,具体而言,涉及一种URL识别方法、装置及数据处理设备。
背景技术
随着网络的不断发展,web网站遭受的攻击也越来越多。web攻击通常是黑客通过修改URL使web服务器根据URL请求执行特定动作,可能导致网站数据库内容被非法获取,服务器root权限被非法获取,用户数据被窃取等。在一些防护技术中,采用了机器学习模型来进行恶意URL的分类或识别,但是这些方法大多依赖于使用大量恶意URL样本训练机器学习模型,而恶意URL的种类多且变化快,导致恶意URL样本获取困难,无法有效支撑模型的训练。
发明内容
有鉴于此,本申请的目的包括提供一种URL识别方法、装置及数据处理设备,以改善上述问题。
第一方面,本申请提供一种URL识别方法,该方法包括:
获取待识别URL字符串;
将所述待识别URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为第一预设字符长度;
根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,并将所述特征输入分类模型进行分类检测;其中,所述分类模型由根据多个可信URL字符串拆分出的所述第一预设字符长度的字符组合,对所述多个可信URL字符串进行训练的结果得出;
若检测到所述待识别URL字符串不属于任意一类可信URL字符串的分类,则将所述待识别URL字符串标识为不可信URL字符串。
可选地,将所述待识别URL字符串拆分为多个字符组合,包括:
以所述第一预设字符长度为窗长,第二预设字符长度为步长,对所述待识别URL字符串进行拆分,获取多个所述字符组合;其中,所述第一预设字符长度大于所述第二预设字符长度。
可选地,所述第一预设字符长度为2个字符,所述第二预设字符长度为1个字符。
可选地,所述分类模型为根据每个所述可信URL字符串拆分出的所述第一预设字符长度的字符组合在所述可信URL字符串中出现的频率,对所述多个可信URL字符串进行聚类分析训练获得;根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,并将所述特征输入分类模型进行分类检测,包括:
将从所述待识别URL字符串中拆分出的字符组合在所述待识别URL字符串中出现的频率作为特征输入分类模型进行分类检测。
可选地,将从所述待识别URL字符串中拆分出的字符组合在所述待识别URL字符串中出现的频率作为特征输入分类模型进行分类检测,包括:
将所述待识别URL字符串中拆分出的各字符组合转换为独热码;
根据各所述字符组合对应的独热码,确定各所述字符组合在所述待识别URL字符串中出现的频率,获得由各所述字符组合出现的频率组成的字符频率向量;其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述待识别URL字符串中出现的频率;
将所述字符频率向量作为所述待识别URL字符串的特征输入所述分类模型进行分类检测。
可选地,将所述特征输入分类模型进行分类检测,包括:
通过所述分类模型检测所述待识别URL字符串的特征是否位于由SVM根据聚类结果确定出的任意一个分类样本边界内,所述聚类结果为对多个可信URL字符串进行聚类训练的结果;
若检测到所述待识别URL字符串的特征没有位于所述分类样本边界内,则判定所述待识别URL字符串不属于任意一类可信URL字符串的分类。
第二方面,本申请提供一种URL识别装置,所述装置包括:
获取模块,用于获取待识别URL字符串;
拆分模块,用于将所述待识别URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为第一预设字符长度;
分类模块,用于根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,并将所述特征输入分类模型进行分类检测;其中,所述分类模型由根据多个可信URL字符串拆分出的所述第一预设字符长度的字符组合,对所述多个可信URL字符串进行训练的结果得出;
标识模块,用于若检测到所述待识别URL字符串不属于任意一类可信URL字符串的分类,则将所述待识别URL字符串标识为不可信URL字符串。
可选地,所述拆分模块具体用于以所述第一预设字符长度为窗长,第二预设字符长度为步长,对所述待识别URL字符串进行拆分,获取多个所述字符组合;其中,所述第一预设字符长度大于所述第二预设字符长度。
可选地,所述第一预设字符长度为2个字符,所述第二预设字符长度为1个字符。
可选地,所述分类模型为根据每个所述可信URL字符串拆分出的所述第一预设字符长度的字符组合在所述可信URL字符串中出现的频率,对所述多个可信URL字符串进行聚类分析训练获得;
所述分类模块具体用于将从所述待识别URL字符串中拆分出的字符组合在所述待识别URL字符串中出现的频率作为特征输入分类模型进行分类检测。
可选地,所述分类模块具体用于将所述待识别URL字符串中拆分出的各字符组合转换为独热码;根据各所述字符组合对应的独热码,确定各所述字符组合在所述待识别URL字符串中出现的频率,获得由各所述字符组合出现的频率组成的字符频率向量,其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述待识别URL字符串中出现的频率;将所述字符频率向量作为所述待识别URL字符串的特征输入所述分类模型进行分类检测。
可选地,所述分类模块具体用于检测所述待识别URL字符串的特征是否位于由SVM根据聚类结果确定出的任意一个分类样本边界内,所述聚类结果为对多个可信URL字符串进行聚类训练的结果;若检测到所述待识别URL字符串的特征没有位于所述分类样本边界内,则判定所述待识别URL字符串不属于任意一类可信URL字符串的分类。
第三方面,本申请提供一种数据处理设备,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的URL识别方法。
第四方面,本申请提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现本申请提供的URL识别方法。
综上所述,本申请提供的URL识别方法、装置及数据处理设备,通过使用可信URL字符串训练样本训练的分类模型对待识别URL字符串进行识别,该分类模型为根据多个可信URL字符串拆分出的所述第一预设字符长度的字符组合,对所述多个可信URL字符串进行聚类分析训练获得,从而可以在不依赖恶意URL样本训练的情况下对不可信的URL进行识别。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的分类模型训练过程的示意图;
图2为本申请实施例提供的URL字符串特征转换的示意图;
图3a及图3b为本申请实施例提供的分类样本边界的划分原理示意图;
图4为本申请实施例提供的URL识别方法的流程示意图;
图5为本申请实施例提供的数据处理设备的示意图;
图6为本申请实施例提供的URL识别装置的功能模块示意图。
图标:100-数据处理设备;110-URL识别装置;111-获取模块;112-拆分模块;113-分类模块;114-标识模块;120-机器可读存储介质;130-处理器。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
由于在URL识别场景中,恶意URL样本不易获得,在本实施例中采用通过可信URL样本训练出的分类模型来进行URL的识别,下面对本实施例采用的方案进行详细解释。
请参照图1,图1为本实施例提供分类模型的训练流程示意图,该训练过程可以包括以下步骤。
步骤S110,获取多个可信URL字符串。
在本实施例中,可信URL字符串可以是从已知为可信的、不会对web服务器造成危害的URL请求中提取的部分字符串。可选地,对于某个web服务器接收到的URL请求中,通常域名部分或者域名后的多个字段是相同的,因此在本实施例中,针对需要进行分类识别的URL请求,可以从该URL请求中除去域名或域名后多个字段,然后将剩余的内容作为可信URL字符串。
例如,对于域名为“www.jiqizhixin.com”的web网站,该网站的web服务器接收到的URL请求通常类似如下格式。
https://www.jiqizhixin.com/category-0001.html
https://www.jiqizhixin.com/category-0002.html
https://www.jiqizhixin.com/AAA
https://www.jiqizhixin.com/BBBB/CCC
https://www.jiqizhixin.com/DDD
……
因此,对于该网站,以“https://www.jiqizhixin.com/category-0002.html”为例,可以将其接收到的URL请求中除去“https://www.jiqizhixin.com”之外的部分“/category-0002.html”作为可信URL字符串。
步骤S120,分别将每个所述可信URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为所述第一预设字符长度。
一个可信URL字符串拆分出的多个字符组合需要包括该可信URL字符串中的所有字符,多个字符组合中可以包括相互重叠的字符。
在本实施例中,可以针对每个可信URL字符串进行相同规则的拆分处理。可选地,可以以所述第一预设字符长度为窗长(即窗口长度),第二预设字符长度为步长,对可信URL字符串进行拆分,获取多个所述字符组合。其中,所述第一预设字符长度大于所述第二预设字符长度。采用这种拆分方式,可以保证拆分出的字符组合能够包含可信URL字符串中出现的所有字符组合。
例如,可以窗长设置为2个字符长度,将步长设置为1个字符长度,来对可信URL字符串进行拆分,从而可以在保证拆分有效性的基础上尽量减少后期数据处理的压力。
以可信URL为“/category-0002.html”为例,可以将其拆分为:“/c”、“ca”、“at”、“te”、…、“-0”、“00”、“00”、“02”…,共18个字符组合,其中字符组合“00”出现两次,因此共计17种不同的字符组合。
步骤S130,针对每个所述可信URL字符串,根据从该可信URL字符串拆分出的字符组合确定该可信URL字符串的特征进行训练,根据训练得出的结果获得分类模型。
在本实施例中,可以将可信URL字符串拆分出的不同字符组合在该可信URL字符串中出现的频率作为该可信URL的特征。
可选地,可以先按照预设的独热码编码顺序,将所述可信URL字符串中拆分出的各字符组合转换为独热码。
例如,按照可能出现的字符组合规划256*256位的独热码(one-hot code),独热码的每一位对应一种预设的字符组合,预设的字符组合包括由26个英文字母大小写、10个数字或者一些特殊符号能够组成的长度第一预设字符长度的字符组合的所有可能。在本实施例设置每1个字符有256种可能,则由2个字符组成的字符组合具有256*256种可能。在将字符组合转换为独热码时,可以将该字符组合对应位置1,其他位置0,得到该字符组合对应的独热码。
请参照图2,以可信URL字符串为“/category-0002.html”为例,图2中,首行为按照预设的独热码编码顺序排列的256*256种预设字符组合,首列为从可信URL字符串中拆分出的多个字符组合,即图2中除首列的每一列代表256*256种字符组合中的一种。图2中除首行的每一行代表从字符串“/category-0002.html”拆分出的一个字符组合。当从可信URL字符串中拆分出的多个字符组合中的某一组合与按照预设的独热码编码顺序排列中的某一字符组合为同一字符组合时,则该位置对应的位置为1。
以字符组合“ca”为例,按照图2中首行所示的排列顺序“aa”、“ab”、“ac”、…、“ba”、“bb”、…,每个预设字符组合依次对应256*256位的独热码中的一个比特位,预设字符组合“ca”为图2首行所示排序中的第514个预设字符组合,则从可信URL字符串中拆分出的“ca”所对应的独热码中,除第514个比特位为1以外,其余比特位均为0。以此类推,可以按照字符组合与独热码比特位的对应关系,将从“/category-0002.html”拆分出的18个字符组合分别转换为256*256位的独热码。
然后,根据各所述字符组合对应的独热码编码位置及各所述字符组合出现的次数,将多个所述独热码合并为字符频率向量。其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述可信URL字符串中出现的频率。
以可信URL字符串“/category-0002.html”的拆分结果为例,在17中不同的字符组合中,除字符组合“00”会出现了两次外,其余字符组合均只出现1次,因此字符组合“00”对应的出现的频率为2/17(即,约为0.12),其余字符组合对应的出现频率均为1/17(即,约为0.06)。
再按照所述预设的独热码编码顺序中各字符组合对应的独热码编码位置及各字符组合出现的频率将可信URL字符串转换为字符频率向量。如此,采用字符频率向量作为可信URL的特征,能够更准确地反映可信URL字符串中各字符组合出现的情况,使得根据该特征执行的可信URL分类更准确。
然后,将所述字符频率向量作为所述可信URL字符串的特征进行聚类训练。
在聚类训练过程中,根据大量的可信URL的特征,可以将相同字符组合出现频率相似的URL分为一类作为可信URL分类。
例如,如果大量的可信URL字符串的训练样本中均包含字符串“/category-”,则根据字符组合出现的频率,聚类训练过程中会将这些URL归为可信URL分类,根据聚类训练的结果可以得到一个分类模型。之后如果待识别的URL拆分的字符组合也具有相似的频率,则分类模型会将该待识别的URL也归为可信URL分类。
可选地,在本实施例中,在对根据多个可信URL字符串的特征进行聚类训练时,可以使用K均值聚类(K-means)算法,根据各可信URL字符串的字符串向量将多个可信URL字符串分为K个聚类作为可信URL分类,获得由各可信URL字符串的字符频率向量及其分类标签组成的聚类结果。
在一种可选的实施方式中,在进行聚类时,也可以采用K-means++算法进行聚类。
然后,将上述聚类结果输入支持向量机(Support Vector Machine,SVM),SVM可以根据多个可信URL的字符频率向量及分类标签,在属于不同分类的字符频率向量对应的点之间确定出超平面,以将不同分类的点分隔开,并使不同分类中的点距离超平面尽量远。其中,若可信URL的字符频率向量为N维向量,由于增加了分类标签的维度,本实施例中的字符频率向量对应的点可以理解为字符频率向量增加了分类标签之后的多维向量,再根据确定出的超平面及分类中距离超平面最近的点,确定出该分类的分类样本边界。
为了便于理解,如图3a所示,以可信URL字符串被分成两类,且字符频率向量对应的点为二维空间中的点为例对如何确定分类样本边界进行说明。图3a中包括×代表的点和○代表的点,即通过上述的聚类算法将多个可信URL字符串对应的点分为2类,进一步的,可以通过SVM在两个类之间确定出分类超平面,该分类超平面是将两类可信字符串分。然后可以根据分别两个分类中距离超平面最近点确定出两个类的分类样本边界。
通过获得各分类的分类样本边界后,分类模型可以根据输入的待识别URL字符串的特征,检测该待识别URL字符串的特征是否落入可信URL分类的分类样本边界内,从而判断待识别URL是否为可信URL。
例如,请参照图3b,以可信URL字符串被分成三类为例(如图3b中×代表的点、○代表的点和△代表的点),可以根据在多个分类间划分出的超平面,并根据这些超平面确定出各个分类的分类样本边界(如图3b中的实线所示),若待识别URL字符串对应的点(如图3b中■代表的点)没有落入任意一个分类样本边界内,则判定待识别URL字符串不属于可信URL。
可选地,在本实施例中,可以分别使用多个不同的K取值进行K-means聚类并通过SVM确定出相应分类样本边界,获得多个分类模型。然后使用已知为可信的URL的多个测试URL字符串进行测试,将判断结果最准确的分类器作为最终使用的分类器。
请参照图4,图4为本实施例提供的一种URL识别方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S310,获取待识别URL字符串。
在本实施例中,待识别URL字符串可以是从需要识别的URL请求中提取的部分字符串。
可选地,可以从需要识别的URL中除去域名或域名后多个字段,然后将剩余的内容作为待识别URL字符串。获取待识别URL字符串的方式可以参见图1所示步骤S110相关内容,在此不再赘述。
步骤S320,将所述待识别URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为第一预设字符长度。
步骤S330,将所述字符组合作为特征输入分类模型进行分类检测。
在本实施例中,对待识别URL字符串进行拆分及确定待识别URL字符串特征的具体方式,可以参见图1所示步骤S120及步骤S130中对可信URL字符串进行拆分及确定可信URL字符串特征的相关内容,在此不再赘述。
步骤S140,若检测到所述待识别URL字符串不属于任意一类可信URL字符串的分类,则将所述待识别URL字符串标识为不可信URL字符串。
在本实施例中,可以通过分类模型检测待识别URL字符串的特征是否落入于任意一个所述可信URL字符串的分类样本边界内。
若检测到所述待识别URL字符串的特征没有位于任意一个所述可信URL字符串的分类样本边界内,则将所述待识别URL字符串标识为不可信URL字符串。
通过图2所示的训练过程,可以使分类模型能够学习到可信URL字符串具有的特征,从而在图3所示的识别过程中可以判断待识别URL是否属于可信的URL分类,从而可以在不依赖恶意URL样本训练的情况下对不可信的URL进行识别。
请参照图5,图5为本实施例提供的一种数据处理设备100的硬件结构示意图。该数据处理设备100可包括处理器130及机器可读存储介质120。处理器130与机器可读存储介质120可经由系统总线通信。并且,机器可读存储介质120存储有机器可执行指令,通过读取并执行机器可读存储介质120中与URL识别逻辑对应的机器可执行指令,处理器130可执行上文描述的URL识别方法。
本文中提到的机器可读存储介质120可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质120可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
请参照图6,本实施例还提供一种URL识别装置110,URL识别装置110包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分,URL识别装置110可以包括获取模块111、拆分模块112、分类模块113及标识模块114。
获取模块111用于获取待识别URL字符串。
本实施例中,所述获取模块111可用于执行图1所示步骤S110及图3所示的步骤S310,关于所述获取模块111的具体描述可参对所述步骤S310的描述。
拆分模块112用于将所述待识别URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为第一预设字符长度。
本实施例中,所述拆分模块112可用于执行图1所示步骤S120及图3所示的步骤S320,关于所述拆分模块112的具体描述可参对所述步骤S320的描述。
分类模块113用于根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,并将所述特征输入分类模型进行分类检测;其中,所述分类模型由根据多个可信URL字符串拆分出的所述第一预设字符长度的字符组合,对所述多个可信URL字符串进行训练的结果得出。
本实施例中,所述分类模块113可用于执行图1所示步骤S130及图3所示的步骤S330,关于所述分类模块113的具体描述可参对所述步骤S330的描述。
标识模块114用于若检测到所述待识别URL字符串不属于任意一类可信URL字符串的分类,则将所述待识别URL字符串标识为不可信URL字符串。
本实施例中,所述标识模块114可用于执行图3所示的步骤S340,关于所述标识模块114的具体描述可参对所述步骤S340的描述。
可选地,在本实施例中,所述拆分模块112具体用于以所述第一预设字符长度为窗长,第二预设字符长度为步长,对所述待识别URL字符串进行拆分,获取多个所述字符组合;其中,所述第一预设字符长度大于所述第二预设字符长度。
可选地,在本实施例中,所述第一预设字符长度为2个字符,所述第二预设字符长度为1个字符。
可选地,在本实施例中,所述分类模型为根据每个所述可信URL字符串拆分出的所述第一预设字符长度的字符组合在所述可信URL字符串中出现的频率,对所述多个可信URL字符串进行聚类分析训练获得;
所述分类模块113具体用于将从所述待识别URL字符串中拆分出的字符组合在所述待识别URL字符串中出现的频率作为特征输入分类模型进行分类检测。
可选地,在本实施例中,所述分类模块113具体用于按照预设的独热码编码顺序,将所述待识别URL字符串中拆分出的各字符组合转换为独热码;根据各所述字符组合对应的独热码,确定各所述字符组合在所述待识别URL字符串中出现的频率,获得由各所述字符组合出现的频率组成的字符频率向量,其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述待识别URL字符串中出现的频率;将所述字符频率向量作为所述待识别URL字符串的特征输入所述分类模型进行分类检测。
可选地,在本实施例中,所述分类模块113具体用于检测所述待识别URL字符串的特征是否位于由SVM根据聚类结果确定出的任意一个分类样本边界内,所述聚类结果为对多个可信URL字符串进行聚类训练的结果;若检测到所述待识别URL字符串的特征没有位于所述分类样本边界内,则判定所述待识别URL字符串不属于任意一类可信URL字符串的分类。
可选地,在本实施例中,所述获取模块111还用于获取多个可信URL字符串。
所述拆分模块112还用于分别将每个所述可信URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为所述第一预设字符长度;
综上所述,本申请提供的URL识别方法、装置及数据处理设备,通过使用可信URL字符串训练样本训练的分类模型对待识别URL字符串进行识别,该分类模型为根据多个可信URL字符串拆分出的所述第一预设字符长度的字符组合,对所述多个可信URL字符串进行聚类分析训练获得,从而可以在不依赖恶意URL样本训练的情况下对不可信的URL进行识别。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (14)
1.一种URL识别方法,其特征在于,所述方法包括:
获取待识别URL字符串;
将所述待识别URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为第一预设字符长度;
根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,并将所述特征输入分类模型进行分类检测;其中,所述分类模型由根据多个可信URL字符串拆分出的所述第一预设字符长度的字符组合,对所述多个可信URL字符串进行训练的结果得出;根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,包括:按照预设的独热码编码顺序,将所述待识别URL字符串中拆分出的各个字符组合转换为独热码;按照所述预设的独热码编码顺序中各字符组合对应的独热码编码位置及各字符组合出现的频率将所述待识别URL字符串转换为字符频率向量,作为该待识别URL的特征;其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述可信URL字符串中出现的频率;
若检测到所述待识别URL字符串不属于任意一类可信URL字符串的分类,则将所述待识别URL字符串标识为不可信URL字符串。
2.根据权利要求1所述的方法,其特征在于,将所述待识别URL字符串拆分为多个字符组合,包括:
以所述第一预设字符长度为窗长,第二预设字符长度为步长,对所述待识别URL字符串进行拆分,获取多个所述字符组合;其中,所述第一预设字符长度大于所述第二预设字符长度。
3.根据权利要求2所述的方法,其特征在于,所述第一预设字符长度为2个字符,所述第二预设字符长度为1个字符。
4.根据权利要求1所述的方法,其特征在于,所述分类模型为根据每个所述可信URL字符串拆分出的所述第一预设字符长度的字符组合在所述可信URL字符串中出现的频率,对所述多个可信URL字符串进行聚类分析训练获得;根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,并将所述特征输入分类模型进行分类检测,包括:
将从所述待识别URL字符串中拆分出的字符组合在所述待识别URL字符串中出现的频率作为特征输入分类模型进行分类检测。
5.根据权利要求4所述的方法,其特征在于,将从所述待识别URL字符串中拆分出的字符组合在所述待识别URL字符串中出现的频率作为特征输入分类模型进行分类检测,包括:
按照预设的独热码编码顺序,将所述待识别URL字符串中拆分出的各字符组合转换为独热码;
根据各所述字符组合对应的独热码,确定各所述字符组合在所述待识别URL字符串中出现的频率,获得由各所述字符组合出现的频率组成的字符频率向量;其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述待识别URL字符串中出现的频率;
将所述字符频率向量作为所述待识别URL字符串的特征输入所述分类模型进行分类检测。
6.根据权利要求1所述的方法,其特征在于,将所述特征输入分类模型进行分类检测,包括:
通过所述分类模型检测所述待识别URL字符串的特征是否位于由SVM根据聚类结果确定出的任意一个分类样本边界内,所述聚类结果为对多个可信URL字符串进行训练的结果;
若检测到所述待识别URL字符串的特征没有位于任意一个所述分类样本边界内,则判定所述待识别URL字符串不属于任意一类可信URL字符串的分类。
7.一种URL识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别URL字符串;
拆分模块,用于将所述待识别URL字符串拆分为多个字符组合,其中,所述字符组合的长度均为第一预设字符长度;
分类模块,用于根据从所述待识别URL字符串中拆分出的字符组合确定该待识别URL的特征,并将所述特征输入分类模型进行分类检测;其中,所述分类模型由根据多个可信URL字符串拆分出的所述第一预设字符长度的字符组合,对所述多个可信URL字符串进行训练的结果得出;所述分类模块,具体用于:按照预设的独热码编码顺序,将所述待识别URL字符串中拆分出的各个字符组合转换为独热码;按照所述预设的独热码编码顺序中各字符组合对应的独热码编码位置及各字符组合出现的频率将所述待识别URL字符串转换为字符频率向量,作为该待识别URL的特征;其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述可信URL字符串中出现的频率;
标识模块,用于若检测到所述待识别URL字符串不属于任意一类可信URL字符串的分类,则将所述待识别URL字符串标识为不可信URL字符串。
8.根据权利要求7所述的装置,其特征在于,所述拆分模块具体用于以所述第一预设字符长度为窗长,第二预设字符长度为步长,对所述待识别URL字符串进行拆分,获取多个所述字符组合;其中,所述第一预设字符长度大于所述第二预设字符长度。
9.根据权利要求8所述的装置,其特征在于,所述第一预设字符长度为2个字符,所述第二预设字符长度为1个字符。
10.根据权利要求7所述的装置,其特征在于,所述分类模型为根据每个所述可信URL字符串拆分出的所述第一预设字符长度的字符组合在所述可信URL字符串中出现的频率,对所述多个可信URL字符串进行聚类分析训练获得;
所述分类模块具体用于将从所述待识别URL字符串中拆分出的字符组合在所述待识别URL字符串中出现的频率作为特征输入分类模型进行分类检测。
11.根据权利要求10所述的装置,其特征在于,所述分类模块具体用于按照预设的独热码编码顺序,将所述待识别URL字符串中拆分出的各字符组合转换为独热码;根据各所述字符组合对应的独热码,确定各所述字符组合在所述待识别URL字符串中出现的频率,获得由各所述字符组合出现的频率组成的字符频率向量,其中,所述字符频率向量的每个元素对应一个预设的字符组合,所述字符频率向量中元素的值为所述元素对应的字符组合在所述待识别URL字符串中出现的频率;将所述字符频率向量作为所述待识别URL字符串的特征输入所述分类模型进行分类检测。
12.根据权利要求7所述的装置,其特征在于,所述分类模块具体检测所述待识别URL字符串的特征是否位于由SVM根据聚类结果确定出的任意一个分类样本边界内,所述聚类结果为对多个可信URL字符串进行聚类训练的结果;若检测到所述待识别URL字符串的特征没有位于所述分类样本边界内,则判定所述待识别URL字符串不属于任意一类可信URL字符串的分类。
13.一种数据处理设备,其特征在于,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-6任意一项所述URL识别方法。
14.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现权利要求1-6任意一项所述URL识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911024123.8A CN110855635B (zh) | 2019-10-25 | 2019-10-25 | Url识别方法、装置及数据处理设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911024123.8A CN110855635B (zh) | 2019-10-25 | 2019-10-25 | Url识别方法、装置及数据处理设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110855635A CN110855635A (zh) | 2020-02-28 |
CN110855635B true CN110855635B (zh) | 2022-02-11 |
Family
ID=69598098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911024123.8A Active CN110855635B (zh) | 2019-10-25 | 2019-10-25 | Url识别方法、装置及数据处理设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110855635B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114024701A (zh) * | 2020-07-17 | 2022-02-08 | 华为技术有限公司 | 域名检测方法、装置及通信系统 |
CN112615861A (zh) * | 2020-12-17 | 2021-04-06 | 赛尔网络有限公司 | 恶意域名识别方法、装置、电子设备及存储介质 |
CN113312622A (zh) * | 2021-06-09 | 2021-08-27 | 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) | 一种检测url的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807987A (zh) * | 2017-10-31 | 2018-03-16 | 广东工业大学 | 一种字符串分类方法、系统及一种字符串分类设备 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN109271627A (zh) * | 2018-09-03 | 2019-01-25 | 深圳市腾讯网络信息技术有限公司 | 文本分析方法、装置、计算机设备和存储介质 |
CN109344615A (zh) * | 2018-07-27 | 2019-02-15 | 北京奇虎科技有限公司 | 一种检测恶意命令的方法及装置 |
WO2019085691A1 (zh) * | 2017-10-30 | 2019-05-09 | 清华大学 | 基于one-hot编码机制的无监督异常访问检测方法及装置 |
CN110019779A (zh) * | 2017-09-13 | 2019-07-16 | 中移(杭州)信息技术有限公司 | 一种文本分类方法、模型训练方法及装置 |
CN110134935A (zh) * | 2018-02-08 | 2019-08-16 | 株式会社理光 | 一种提取字形特征的方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832168B2 (en) * | 2017-01-10 | 2020-11-10 | Crowdstrike, Inc. | Computational modeling and classification of data streams |
CN108471427B (zh) * | 2018-06-27 | 2021-03-19 | 新华三信息安全技术有限公司 | 一种防御攻击的方法及装置 |
-
2019
- 2019-10-25 CN CN201911024123.8A patent/CN110855635B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019779A (zh) * | 2017-09-13 | 2019-07-16 | 中移(杭州)信息技术有限公司 | 一种文本分类方法、模型训练方法及装置 |
WO2019085691A1 (zh) * | 2017-10-30 | 2019-05-09 | 清华大学 | 基于one-hot编码机制的无监督异常访问检测方法及装置 |
CN107807987A (zh) * | 2017-10-31 | 2018-03-16 | 广东工业大学 | 一种字符串分类方法、系统及一种字符串分类设备 |
CN110134935A (zh) * | 2018-02-08 | 2019-08-16 | 株式会社理光 | 一种提取字形特征的方法、装置及设备 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN109344615A (zh) * | 2018-07-27 | 2019-02-15 | 北京奇虎科技有限公司 | 一种检测恶意命令的方法及装置 |
CN109271627A (zh) * | 2018-09-03 | 2019-01-25 | 深圳市腾讯网络信息技术有限公司 | 文本分析方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
"Identification and Evaluation of Discriminative Lexical Features of Malware URL for Real-Time Classification";Morufu Olalere;《2016 International Conference on Computer and Communication Engineering (ICCCE)》;IEEE;20170109;全文 * |
"基于卷积神经网络的恶意URL检测";潘司晨、薛质、施勇;《通信技术》;20180810;第51卷(第8期);第1918-1923页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110855635A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110808968B (zh) | 网络攻击检测方法、装置、电子设备和可读存储介质 | |
US10785241B2 (en) | URL attack detection method and apparatus, and electronic device | |
US11463476B2 (en) | Character string classification method and system, and character string classification device | |
CN110855635B (zh) | Url识别方法、装置及数据处理设备 | |
CN112214984B (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
CN111181922A (zh) | 一种钓鱼链接检测方法及系统 | |
CN106874760A (zh) | 一种基于层次式SimHash的Android恶意代码分类方法 | |
CN110958244A (zh) | 一种基于深度学习的仿冒域名检测方法及装置 | |
CN113688240A (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN113904834A (zh) | 基于机器学习的xss攻击检测方法 | |
CN114372267A (zh) | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 | |
CN112839055A (zh) | 面向tls加密流量的网络应用识别方法及装置 | |
CN117081801A (zh) | 网站的内容管理系统的指纹识别方法、装置及介质 | |
CN111783063A (zh) | 一种操作的验证方法和装置 | |
CN111581640A (zh) | 一种恶意软件检测方法、装置及设备、存储介质 | |
CN110766165A (zh) | 用于恶意url检测的在线主动机器学习方法 | |
CN116192462A (zh) | 一种基于pe文件格式的恶意软件分析方法及装置 | |
Shirazi et al. | A machine-learning based unbiased phishing detection approach | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN108875060A (zh) | 一种网站识别方法及识别系统 | |
CN113992390A (zh) | 一种钓鱼网站的检测方法及装置、存储介质 | |
CN113361597A (zh) | 一种url检测模型的训练方法、装置、电子设备和存储介质 | |
BOUIJIJ et al. | Phishing Website Classification using Machine Learning with Different Datasets | |
CN114244824B (zh) | 一种网络空间WEB类资产风险Server同性快速识别的方法 | |
CN115022001B (zh) | 域名识别模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |