CN108881138B - 一种网页请求识别方法及装置 - Google Patents

一种网页请求识别方法及装置 Download PDF

Info

Publication number
CN108881138B
CN108881138B CN201711013266.XA CN201711013266A CN108881138B CN 108881138 B CN108881138 B CN 108881138B CN 201711013266 A CN201711013266 A CN 201711013266A CN 108881138 B CN108881138 B CN 108881138B
Authority
CN
China
Prior art keywords
webpage
request
sample
webpage request
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711013266.XA
Other languages
English (en)
Other versions
CN108881138A (zh
Inventor
贾若然
顾成杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Security Technologies Co Ltd
Original Assignee
New H3C Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Security Technologies Co Ltd filed Critical New H3C Security Technologies Co Ltd
Priority to CN201711013266.XA priority Critical patent/CN108881138B/zh
Priority to PCT/CN2018/111599 priority patent/WO2019080860A1/zh
Priority to EP18871133.7A priority patent/EP3703329B1/en
Publication of CN108881138A publication Critical patent/CN108881138A/zh
Application granted granted Critical
Publication of CN108881138B publication Critical patent/CN108881138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供了一种网页请求识别方法及装置,方法包括:获取多个标记有标签的样本网页请求,标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;确定每一样本网页请求的结构特征,获得对每一样本网页请求的文本词语,计算每一样本网页请求的每一文本词语的权重,根据每一样本网页请求的结构特征和每一文本词语的权重,确定每一样本网页请求的特征向量,基于机器学习算法,根据每一样本网页请求的特征向量和标签训练网页请求识别模型;当获取到待识别网页请求时,利用网页请求识别模型识别待识别网页请求,确定待识别网页请求是否为恶意网页请求。应用本申请实施例,提高了网页请求识别的准确率。

Description

一种网页请求识别方法及装置
技术领域
本申请涉及通信技术领域,特别是涉及一种网页请求识别方法及装置。
背景技术
随着互联网技术的发展,各种网络服务便捷了人们的生活,但也给攻击者提供了更多的攻击机会。恶意网页请求为攻击者进行攻击的一种形式。恶意网页请求利用网络服务的漏洞,通过问卷上传、跨站脚本、HTTP(HyperText Transfer Protocol,超文本传输协议)请求欺骗、SQL(Structured Query Language,结构化查询语言)注入等方式攻击网络服务器,达到窃取信息、瘫痪服务等目目的。
为了提高网络安全,保证服务质量,对准确的识别出恶意网页请求提出了要求。目前,网页请求识别主要利用隐马尔科夫模型,具体为:获取标记为恶意网页请求或非恶意网页请求的样本网页请求,将样本网页请求的文本信息转换为状态的形式;对于每个状态,统计该状态之后一个状态为某一状态的概率,例如,“今天”这一状态之后为“天气”这一状态的概率,今天”这一状态之后为“吃饭”这一状态的概率等,进而确定每个状态之后一个状态的概率分布;根据确定的概率分布构建状态转移模型,即网页请求识别模型;通过网页请求识别模型确定待识别网页请求为非恶意网页请求的概率和待识别网页请求为恶意网页请求的概率;若非恶意网页请求的概率大于恶意网页请求的概率,则确定待识别网页请求为非恶意网页请求;否则,确定待识别网页请求为恶意网页请求。
采用隐马尔科夫模型识别网页请求时,仅仅考虑网页请求的文本信息,使得网页请求识别的准确率较低。
发明内容
本申请实施例的目的在于提供一种网页请求识别方法及装置,以提高网页请求识别的准确率。具体技术方案如下:
一方面,本申请实施例提供了一种网页请求识别方法,所述方法包括:
获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
确定每一样本网页请求的结构特征;
对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
计算每一样本网页请求的每一文本词语的权重;
对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。
二方面,本申请实施例提供了一种网页请求识别装置,所述装置包括:
获取单元,用于获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
第一确定单元,用于确定每一样本网页请求的结构特征;
分词单元,用于对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
计算单元,用于计算每一样本网页请求的每一文本词语的权重;
第二确定单元,用于对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
训练单元,用于基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
识别单元,用于当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。
三方面,本申请实施例提供了一种电子设备,包括处理器和机器可读存储介质,处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使实现上述网页请求识别方法。
四方面,本申请实施例提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现上述网页请求识别方法。
本申请实施例中,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,能够有效地提高网页请求识别的准确率。当然,实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的网页请求识别方法的一种流程示意图;
图2为本申请实施例提供的网页请求识别装置的一种结构示意图;
图3为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,网页请求识别主要利用隐马尔科夫模型,而采用隐马尔科夫模型识别网页请求时,仅考虑了网页请求的文本信息,这使得网页请求识别的准确率较低。
为了提高网页请求识别的准确率,本申请实施例提供了一种网页请求识别方法。参考图1,图1为本申请实施例提供的网页请求识别方法的一种流程示意图,该方法包括:
步骤101:获取多个标记有标签的样本网页请求;其中,标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
步骤102:确定每一样本网页请求的结构特征;
步骤103:对每一样本网页请求的文本信息进行进行分词,获得每一样本网页请求的文本词语;
步骤104:计算每一样本网页请求的每一文本词语的权重;
步骤105:对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
步骤106:基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
步骤107:当获取到待识别网页请求时,利用网页请求识别模型识别待识别网页请求,确定待识别网页请求是否为恶意网页请求。
本申请实施例中,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,在识别待识别网页请求时,同样提取待识别网页请求的文本词语的权重和结构特征,确定待识别网页请求是否为恶意网页请求,有效提高了网页请求识别的准确率。
本申请实施例中,网页请求可以为URL(Uniform Resource Locator,统一资源定位符)。
为了保证训练获得网页请求识别模型的准确可靠,可以获取大量的标记有标签的样本网页请求来训练网页请求识别模型。
网页请求的结构特征可以包括参数个数、参数值平均长度、参数值最大字节数和非法参数个数等。这里,非法参数为网页请求中不允许包括的字符,例如,汉字、空格等。在获取到一样本网页请求后,可以根据网页请求中参数个数、参数值平均长度、参数值最大字节数和非法参数个数等结构特点,确定该样本网页请求的结构特征。
例如,样本网页请求W中参数个数为10,参数值平均长度为6,非法参数个数为2,则确定样本网页请求的结构特征可以为{10,6,2}。
网页请求包括的文本信息,例如域名、路径、参数名、参数值等通过分隔符,进行分隔,这里,分隔符包括/、?、=、&等。在获取到一样本网页请求后,对该样本网页请求的文本信息进行分词时,为了保证提取到的特征适应于网页请求的特征,可以利用分隔符对样本网页请求的文本信息进行分词,获得文本词语。
对于网页请求来说,不同路径的网页请求之间是不存在关系的,为了准确的评估获得的文本词语的重要程度,解决网页请求特征提取不准确的问题,可以通过以下方式,确定每个文本词语的权重:
确定语料库中与样本网页请求路径相同的网页请求的个数M,并且对于获得的每一文本词语,确定语料库中包括该文本词语的网页请求的个数m;对于获得的每一样本网页请求的每一文本词语,可以根据以下公式确定该文本词语的IDF(Inverse DocumentFrequency,逆向文件频率):
IDF=log(M/m)。
上述语料库可以为预先设置的,包括大量的网页请求。在本申请的一个实施例中,可以为语料库中的每一文本词语设置一个索引号,各个文本词语的索引号的形式一致,且一个文本词语的索引号与其他文本词语的索引号均不同。网页请求的文本词语的形式是不确定的,例如有的文本词语为数字,有的文本词语为字母等,直接从语料库中查找包括该文本词语的网页请求,需要以不同的形式去查找;若按照索引号查找,即在语料库中查找包括文本词语的索引号的网页请求,可以以统一形式去查找,简化了查找的复杂度,便于确定语料库中包括该文本词语的网页请求的个数,便于确定每一词语的IDF。
此时,对于每一样本网页请求,按照索引号查找网页请求过程包括:确定该样本网页请求对应的每一文本词语的索引号;对于该样本网页请求的每一文本词语,在语料库中查找包括该文本词语的索引号的网页请求,包括该文本词语的索引号的网页请求的个数即为包括该文本词语的网页请求的个数m。
在对样本网页请求的文本信息进行分词后,对于获得的每一样本网页请求的每一文本词语,可以根据该文本词语在获得的该样本网页请求的文本词语中出现的次数确定每一词语的TF(Term Frequency,词频):
TF=n;
其中,n为该文本词语在获得的该样本网页请求的文本词语中出现的次数;
计算得到IDF和TF后,就可以根据以下公式确定该文本词语的权重δ:
δ=TF*IDF。
例如,获取到的样本网页请求为URL 1,URL 1为:
/tienda1/publico/autenticar.jsp?modo=entrar&login=quinn&pwd=incisivo&remember=off&B1=Entrar;
URL 1的标签为用于指示网页请求为非恶意网页请求的标签;
URL 1中的分隔符有/、?、=、&;根据这些分隔符对URL 1进行分词可以获得13个文本词语有:
(tienda1,publico,autenticar.jsp,modo,entrar,login,quinn,pwd,incisivo,remember,off,B1,Entrar);
之后,从语料库中查找上述每一文本词语,若一个文本词语在语料库中,记录下该文本词语在语料库中的索引号;若一个文本词语不在语料库中,则不记录该词语的索引号;对于每一文本词语的索引号,确定包括该索引号的URL的个数m,以及确定与URL 1的路径相同的URL的个数M,从而确定URL 1的该文本词语的IDF为log(M/m);上述13个文本词语中每个文本词语均出现1次,则确定每个文本词语的TF为1;此时可以确定URL 1的每一文本词语的权重δ为1*log(M/m)。
确定了一样本网页请求的结构特征和该样本网页请求的每一文本词语的权重后,结合结构特征和文本词语的权重,可以获得该样本网页请求的特征向量。例如,对于一个样本网页请求,若确定该样本网页请求的结构特征为{10,6,2},确定该样本网页请求的每一文本词语的权重分别为0.2、0.3、0.15、0.7、0.62、0.42、0.32、0.95、0.57、0.88、0.63、0.51、0.16,则可以确定该样本网页请求的特征向量为{10,6,2,0.2,0.3,0.15,0.7,0.62,0.42,0.32,0.95,0.57,0.88,0.63,0.51,0.16}。
根据获得的每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。以一个非恶意的样本网页请求为了进行说明,训练网页请求识别模型的过程具体可以为:将该样本网页请求的特征向量输入网页请求识别模型中,确定该样本网页请求为恶意网页请求的第一概率和为非恶意网页请求的第二概率,若第一概率大于第二概率,则调整网页请求识别模型中的参数,以使第一概率小于等于第二概率或以使第一概率大于第二概率但第一概率与第二概率的差值变小;若第一概率小于等于第二概率且第一概率与第二概率间的概率差小于差值阈值,则调整网页请求识别模型中的参数,以使第一概率与第二概率的差值变大。
实际应用中,可以采用随机梯度下降算法、误差反向传播算法等调整网页请求识别模型的参数。
在本申请的一个实施例中,可以基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型,调整网页请求识别模型的参数。这里,网页请求识别模型为支持向量机模型。
支持向量机模型为一种判别模型,可以直接对条件概率建模,以支持向量机模型为网页请求识别模型,相对于以隐马尔科夫模型这种需要考虑联合概率分布的生成模型为网页请求识别模型而言,在进行训练时,需要的样本网页请求的数量要少很多,有效地提高了网页请求识别模型的训练速度。
本申请实施例中,为了进一步提高网页请求识别模型的训练速度,在训练网页请求识别模型之前,可以根据经验值预先设定网页请求识别模型的参数。
在训练结束后,可以获得一个识别准确度较高的网页请求识别模型。在获取到待识别网页请求后,确定该待识别网页请求的结构特征;并对该待识别网页请求的文本信息进行分词,获得该待识别网页请求的文本词语;计算该待识别网页请求的每一文本词语的权重;根据该待识别网页请求的结构特征和每一文本词语的权重,确定该待识别网页请求的特征向量;将该待识别网页请求的特征向量输入网页请求识别模型,网页请求识别模型根据该待识别网页请求的特征向量,确定该待识别网页请求为恶意网页请求的概率和该待识别网页请求为非恶意网页请求的概率,进而根据确定的概率输出识别结果。例如,若确定该待识别网页请求为恶意网页请求的概率大于该待识别网页请求为非恶意网页请求的概率,则网页请求识别模型输出的识别结果为该待识别网页请求为恶意网页请求;若确定该待识别网页请求为恶意网页请求的概率小于等于该待识别网页请求为非恶意网页请求的概率,则网页请求识别模型输出的识别结果为该待识别网页请求为非恶意网页请求。
应用本申请实施例,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,能够有效地提高网页请求识别的准确率。
与网页请求识别方法实施例对应,本申请实施例还提供了一种网页请求识别装置。参考图2,图2为本申请实施例提供的网页请求识别装置的一种结构示意图,该装置包括:
获取单元201,用于获取多个标记有标签的样本网页请求;其中,标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
第一确定单元202,用于确定每一样本网页请求的结构特征;
分词单元203,用于对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
计算单元204,用于计算每一样本网页请求的每一文本词语的权重;
第二确定单元205,用于对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
训练单元206,用于基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签,训练网页请求识别模型;
识别单元207,用于当获取到待识别网页请求时,利用网页请求识别模型识别待识别网页请求,确定待识别网页请求是否为恶意网页请求。
在本申请的一个实施例中,第一确定单元202,具体可以用于:
根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。
在本申请的一个实施例中,分词单元203,具体可以用于:
利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。
在本申请的一个实施例中,计算单元204,具体可以用于:
对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的IDF:
IDF=log(M/m);
其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;
根据以下公式确定该文本词语的权重δ:
δ=TF*IDF;
其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。
在本申请的一个实施例中,训练单元206,具体用于:
基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。
应用本申请实施例,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,能够有效地提高网页请求识别的准确率。
与网页请求识别方法及网页请求识别装置实施例对应,本申请实施例还提供了一种电子设备,包括处理器和机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令,处理器被机器可执行指令促使实现上述网页请求识别方法。
如图3所示的本申请实施例提供的电子设备的一种结构示意图,包括处理器301和机器可读存储介质302,机器可读存储介质302存储有能够被处理器301执行的机器可执行指令。
另外,如图3所示,电子设备还可以包括:通信接口303和通信总线304;其中,处理器301、机器可读存储介质302、通信接口303通过通信总线304完成相互间的通信,通信接口303用于上述电子设备与其他设备之间的通信。
本申请实施例中,机器可执行指令包括:获取指令312、第一确定指令322、分词指令332、计算指令342、第二确定指令352、训练指令362和识别指令372;
处理器301被获取指令312促使实现步骤:获取多个标记有标签的样本网页请求;标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
处理器301被第一确定指令322促使实现步骤:确定每一样本网页请求的结构特征;
处理器301被分词指令332促使实现步骤:对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
处理器301被计算指令342促使实现步骤:计算每一样本网页请求的每一文本词语的权重;
处理器301被第二确定指令352促使实现步骤:对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
处理器301被训练指令362促使实现步骤:基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
处理器301被识别指令372促使实现步骤:当获取到待识别网页请求时,利用网页请求识别模型识别待识别网页请求,确定待识别网页请求是否为恶意网页请求。
在本申请的一个实施例中,处理器301被第一确定指令322促使具体可以实现步骤:
根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。
在本申请的一个实施例中,处理器301被分词指令332促使具体可以实现步骤:
利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。
在本申请的一个实施例中,处理器301被计算指令342促使具体可以实现步骤:
对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的IDF:
IDF=log(M/m);
其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;
根据以下公式确定该文本词语的权重δ:
δ=TF*IDF;
其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。
在本申请的一个实施例中,处理器301被训练指令362促使具体可以实现步骤:
基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。
应用本申请实施例,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,能够有效地提高网页请求识别的准确率。
上述通信总线304可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线304可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
机器可读存储介质302可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。另外,机器可读存储介质302还可以是至少一个位于远离前述处理器的存储装置。
上述处理器301可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
与网页请求识别方法及网页请求识别装置实施例对应,本申请实施例还提供了一种机器可读存储介质,存储有机器可执行指令,机器可执行指令促使处理器实现上述网页请求识别方法。
其中,机器可执行指令包括:获取指令、第一确定指令、分词指令、计算指令、第二确定指令、训练指令和识别指令;
在被处理器调用和执行时,获取指令促使处理器实现步骤:获取多个标记有标签的样本网页请求;标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
在被处理器调用和执行时,第一确定指令促使处理器实现步骤:确定每一样本网页请求的结构特征;
在被处理器调用和执行时,分词指令促使处理器实现步骤:对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
在被处理器调用和执行时,计算指令促使处理器实现步骤:计算每一样本网页请求的每一文本词语的权重;
在被处理器调用和执行时,第二确定指令促使处理器实现步骤:对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
在被处理器调用和执行时,训练指令促使处理器实现步骤:基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
在被处理器调用和执行时,识别指令促使处理器实现步骤:当获取到待识别网页请求时,利用网页请求识别模型识别待识别网页请求,确定待识别网页请求是否为恶意网页请求。
在本申请的一个实施例中,在被处理器调用和执行时,第一确定指令促使处理器具体可以实现步骤:
根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。
在本申请的一个实施例中,在被处理器调用和执行时,分词指令促使处理器具体可以实现步骤:
利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。
在本申请的一个实施例中,在被处理器调用和执行时,计算指令促使处理器具体可以实现步骤:
对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的IDF:
IDF=log(M/m);
其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;
根据以下公式确定该文本词语的权重δ:
δ=TF*IDF;
其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。
在本申请的一个实施例中,在被处理器调用和执行时,训练指令促使处理器具体可以实现步骤:
基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。
应用本申请实施例,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,能够有效地提高网页请求识别的准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于网页请求识别装置、电子设备、机器可读存储介质实施例而言,由于其基本相似于网页请求识别方法实施例,所以描述的比较简单,相关之处参见网页请求识别方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (12)

1.一种网页请求识别方法,其特征在于,所述方法包括:
获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
确定每一样本网页请求的结构特征;
对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
计算每一样本网页请求的每一文本词语的权重;
对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。
2.根据权利要求1所述的方法,其特征在于,所述确定每一样本网页请求的结构特征的步骤,包括:
根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。
3.根据权利要求1所述的方法,其特征在于,所述对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语的步骤,包括:
利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。
4.根据权利要求1所述的方法,其特征在于,所述计算每一样本网页请求的每一文本词语的权重的步骤,包括:
对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的逆向文件频率IDF:
IDF=log(M/m);
其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;
根据以下公式确定该文本词语的权重δ:
δ=TF*IDF;
其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。
5.根据权利要求1所述的方法,其特征在于,所述基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型的步骤,包括:
基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。
6.一种网页请求识别装置,其特征在于,所述装置包括:
获取单元,用于获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
第一确定单元,用于确定每一样本网页请求的结构特征;
分词单元,用于对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
计算单元,用于计算每一样本网页请求的每一文本词语的权重;
第二确定单元,用于对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
训练单元,用于基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
识别单元,用于当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元,具体用于:
根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。
8.根据权利要求6所述的装置,其特征在于,所述分词单元,具体用于:
利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。
9.根据权利要求6所述的装置,其特征在于,所述计算单元,具体用于:
对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的逆向文件频率IDF:
IDF=log(M/m);
其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;
根据以下公式确定该文本词语的权重δ:
δ=TF*IDF;
其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。
10.根据权利要求6所述的装置,其特征在于,所述训练单元,具体用于:
基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。
11.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-5任一所述的方法步骤。
12.一种机器可读存储介质,其特征在于,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现权利要求1-5任一所述的方法步骤。
CN201711013266.XA 2017-10-26 2017-10-26 一种网页请求识别方法及装置 Active CN108881138B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711013266.XA CN108881138B (zh) 2017-10-26 2017-10-26 一种网页请求识别方法及装置
PCT/CN2018/111599 WO2019080860A1 (zh) 2017-10-26 2018-10-24 网页请求识别
EP18871133.7A EP3703329B1 (en) 2017-10-26 2018-10-24 Webpage request identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711013266.XA CN108881138B (zh) 2017-10-26 2017-10-26 一种网页请求识别方法及装置

Publications (2)

Publication Number Publication Date
CN108881138A CN108881138A (zh) 2018-11-23
CN108881138B true CN108881138B (zh) 2020-06-26

Family

ID=64325441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711013266.XA Active CN108881138B (zh) 2017-10-26 2017-10-26 一种网页请求识别方法及装置

Country Status (3)

Country Link
EP (1) EP3703329B1 (zh)
CN (1) CN108881138B (zh)
WO (1) WO2019080860A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11658995B1 (en) 2018-03-20 2023-05-23 F5, Inc. Methods for dynamically mitigating network attacks and devices thereof
CN111385272A (zh) * 2018-12-29 2020-07-07 北京奇虎科技有限公司 弱口令的检测方法及装置
CN110808957B (zh) * 2019-09-30 2022-04-22 奇安信科技集团股份有限公司 一种漏洞信息的匹配处理方法及装置
CN110807194A (zh) * 2019-10-17 2020-02-18 新华三信息安全技术有限公司 一种webshell检测方法及装置
CN111371812B (zh) * 2020-05-27 2020-09-01 腾讯科技(深圳)有限公司 一种病毒检测方法、装置和介质
CN113315781B (zh) * 2021-06-10 2023-03-24 浙江惠瀜网络科技有限公司 基于hmm模型的异常数据检测方法
CN114330331B (zh) * 2021-12-27 2022-09-16 北京天融信网络安全技术有限公司 一种链接中分词重要度确定方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629282A (zh) * 2012-05-03 2012-08-08 湖南神州祥网科技有限公司 一种网址分类方法、装置及系统
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和系统
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043894B1 (en) * 2014-11-06 2015-05-26 Palantir Technologies Inc. Malicious software detection in a computing system
CN105183784B (zh) * 2015-08-14 2020-04-28 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
EP3398088A4 (en) * 2015-12-28 2019-08-21 Sixgill Ltd. SYSTEM AND METHOD FOR MONITORING, ANALYZING AND MONITORING DARK WEB
CN106685936B (zh) * 2016-12-14 2020-07-31 深信服科技股份有限公司 网页篡改的检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和系统
CN102629282A (zh) * 2012-05-03 2012-08-08 湖南神州祥网科技有限公司 一种网址分类方法、装置及系统
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统

Also Published As

Publication number Publication date
CN108881138A (zh) 2018-11-23
EP3703329A4 (en) 2020-12-02
EP3703329A1 (en) 2020-09-02
WO2019080860A1 (zh) 2019-05-02
EP3703329B1 (en) 2024-03-20

Similar Documents

Publication Publication Date Title
CN108881138B (zh) 一种网页请求识别方法及装置
TWI706273B (zh) 統一資源定位符(url)攻擊檢測方法、裝置及電子設備
US8943588B1 (en) Detecting unauthorized websites
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
CN107204960B (zh) 网页识别方法及装置、服务器
US20190019058A1 (en) System and method for detecting homoglyph attacks with a siamese convolutional neural network
CN103546446B (zh) 一种钓鱼网站的检测方法、装置和终端
CN108650260B (zh) 一种恶意网站的识别方法和装置
WO2016201819A1 (zh) 检测恶意文件的方法和装置
CN109150817B (zh) 一种网页请求识别方法及装置
US20170289082A1 (en) Method and device for identifying spam mail
US11310200B1 (en) Classifying locator generation kits
US9692771B2 (en) System and method for estimating typicality of names and textual data
US20150161278A1 (en) Method and apparatus for identifying webpage type
CN111753171A (zh) 一种恶意网站的识别方法和装置
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN110619075B (zh) 一种网页识别方法与设备
CN111654504B (zh) 一种dga域名检测方法及装置
US9336316B2 (en) Image URL-based junk detection
CN107786529B (zh) 网站的检测方法、装置及系统
CN114372267B (zh) 一种基于静态域的恶意网页识别检测方法、计算机及存储介质
CN115314236A (zh) 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法
CN108595453B (zh) Url标识映射获取方法及装置
WO2016101737A1 (zh) 搜索查询方法和装置
CN116431912A (zh) 用户画像推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant