CN114430348B - 一种web网站搜索引擎优化后门识别方法及装置 - Google Patents

一种web网站搜索引擎优化后门识别方法及装置 Download PDF

Info

Publication number
CN114430348B
CN114430348B CN202210115824.8A CN202210115824A CN114430348B CN 114430348 B CN114430348 B CN 114430348B CN 202210115824 A CN202210115824 A CN 202210115824A CN 114430348 B CN114430348 B CN 114430348B
Authority
CN
China
Prior art keywords
information
target
classification
category
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210115824.8A
Other languages
English (en)
Other versions
CN114430348A (zh
Inventor
张传社
张宇超
马福峰
欧怀谷
王枭卿
丁倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yundun Smart Security Technology Co ltd
Original Assignee
Yundun Smart Security Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yundun Smart Security Technology Co ltd filed Critical Yundun Smart Security Technology Co ltd
Priority to CN202210115824.8A priority Critical patent/CN114430348B/zh
Publication of CN114430348A publication Critical patent/CN114430348A/zh
Application granted granted Critical
Publication of CN114430348B publication Critical patent/CN114430348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及一种web网站搜索引擎优化后门识别方法及装置,首先根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;然后利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息;根据目标日志分类信息,确定目标web网站是否被植入搜索引擎优化后门。通过将目标URL对应的日志信息中的正常日志信息分出,以确定目标web网站是否被植入搜索引擎优化后门,不需要目标web网站进行修改,并且可以精准识别出搜索引擎优化后门的位置。

Description

一种web网站搜索引擎优化后门识别方法及装置
技术领域
本申请涉及网络安全技术领域,具体涉及一种web网站搜索引擎优化后门识别方法及装置。
背景技术
在搜索引擎中进行搜索时,搜索出的结果数以亿计,大部分人只会翻看前几页内容,排在后面的内容就被淹没,无人问津。常规地,可以通过提升内容质量、设置合理的关键字、保持较长的服务时间等方法提高网站在有关搜索引擎内的自然排名。但存在非法分子在排名相对靠前的web网站中植入搜索引擎优化后门,以提升各类非法链接的排名。现有技术中,对搜索引擎优化后门的识别方式比较单一,识别准确率较低。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种搜索引擎优化后门识别方法及装置,用于解决现有技术中搜索引擎优化后门的识别方式单一,识别准确率低的问题。
本申请实施例第一方面公开一种web网站搜索引擎优化后门识别方法,包括:根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;
利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息,其中目标日志分类信息至少用于标识目标URL对应的日志信息分类的类别数量;
根据目标日志分类信息,确定目标web网站是否被植入搜索引擎优化后门。
本申请实施例第二方面公开了一种web网站搜索引擎优化后门识别装置,包括:获取模块,用于根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;
分类模块,用于利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息,其中,目标日志分类信息至少用于标识目标URL对应的目标信息分类的类别数量;
确定模块,用于根据目标日志分类信息,确定目标web网站是否被植入搜索引擎优化后门。
与现有技术相比,本申请实施例首先根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;然后利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息;根据目标日志分类信息,确定目标web网站是否被植入搜索引擎优化后门。通过将目标URL对应的日志信息中的正常日志信息分出,以确定目标web网站是否被植入搜索引擎优化后门,不需要目标web网站进行修改,并且可以精准识别出搜索引擎优化后门的位置。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一公开的一种web网站搜索引擎优化后门识别方法的流程示意图;
图2是本申请实施例二公开的一种web网站搜索引擎优化后门识别方法的流程示意图;
图3是本申请实施例三公开的一种web网站搜索引擎优化后门识别方法的流程示意图;
图4是本申请实施例四公开的一种web网站搜索引擎优化后门识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本申请实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
如图1所示,图1为本申请实施例一公开的一种web网站搜索引擎优化后门识别方法的示意性流程图,该方法包括:
步骤S101,根据目标web网站日志信息,获得至少一个目标URL对应的日志信息。
本实施例中,执行本方法的执行主体可以是云waf(web Applicaiton firewall,web应用防火墙),也可以是软件防火墙,本实施例在此不做限制。
本实施例中,目标web网站可包括至少一个页面,每个页面对应一个目标URL。其中,URL(英文全称“Uniform Resource Locator”,统一资源定位器)是对互联网上得到的资源的位置和访问方法的一种简洁表示,具有全球唯一性,通常称之为它是www的统一资源定位标志,俗称“网址”。
本实施例中,目标web网站日志信息用于记录用户对目标web网站的访问行为。由于URL具有唯一性,因此可基于目标URL在目标web网站日志信息中提取到与目标URL相对应的日志信息。
步骤S102,利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息,其中,目标日志分类信息至少用于标识目标URL对应的日志信息分类的类别数量。
本实施例中,利用预设URL分类规则至少可区分出目标URL对应的日志信息中所包括的正常日志信息,正常日志信息为没有被植入搜索引擎优化后门的目标web网站日志信息。其中,预设URL分类规则的设定方式不限,可以是专家基于经验设定,也可以是通过一个或者多个分类条件进行设定。
本实施例中,对目标URL对应的日志信息进行分类获得的类别数量不限,可以是一类或者多类,当类别数量为多类时,至少一类属于正常日志信息。
步骤S103,根据目标日志分类信息,确定目标web网站是否被植入搜索引擎优化后门。
本实施例中,当利用预设URL分类规则对目标URL对应的日志信息全部分类为正常日志信息时,则确定目标web网站没有被植入搜索引擎优化后门。
本实施例中,当利用预设URL分类规则对目标URL对应的日志信息分类的类别超过一类时,即除了正常日志信息外,还包括未被确认为正常日志信息的日志信息,则表明目标web网站可能被植入搜索引擎优化后门。
由以上本发明实施例可见,本发明实施例首先根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;然后利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息;根据目标日志分类信息,确定目标web网站是否被植入搜索引擎优化后门。该方法通过将目标URL对应的日志信息中的正常日志信息分出,以确定目标web网站是否被植入搜索引擎优化后门,不需要目标web网站进行修改,并且可以精准识别出搜索引擎优化后门的位置。
实施例二
如图2所示,图2为本申请实施例二公开的一种web网站搜索引擎优化后门识别方法的示意性流程图,该方法包括:
步骤S201,根据目标web网站日志信息,获得至少一个目标URL对应的日志信息。
本实施例中,步骤S201与实施例一中的步骤S101基本相同或相似,在此不再赘述。
步骤S202,利于预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息,其中,目标日志分类信息至少用于标识目标URL对应的日志信息分类的类别数量;当目标日志分类信息标识目标URL对应的日志信息分类的类别数量大于1时,目标日志分类信息至少包括分别用于标识第一类别的第一分类子信息,和用于标识第二类别的第二分类子信息。
本实施例中,预设URL分类规则与实施例一中的预设URL分类规则相同,可以至少可区分出目标URL对应的日志信息中所包括的正常日志信息,正常日志信息为没有被植入搜索引擎优化后门的目标web网站日志信息。因此,第一分类子信息和第二分类子信息中有一类为正常日志信息;另一类为未被确认为正常日志信息的日志信息,其可能为正常日志信息,也有可能是异常日志信息,需进一步确认是否为异常日志信息。其中,异常日志信息为被植入搜索引擎优化后门的目标web网站日志信息。
步骤S203,根据第一分类子信息和第二分类子信息,获得用于标识第一分类子信息和第二分类子信息之间相似度的相似度信息。
本实施例中,相似度信息获得方法不限,可以是根据第一分类子信息和第二分类子信息中是否存在相同的一个或者多个特征确定的,也可以是根据第一分类子信息和第二分类子信息之间的相似度值确定的。
例如,若用0或者1标识第一分类子信息和第二分类子信息中是否存在一个或者多个相同的特征并以此确定相似度信息的话,当第一分类子信息和第二分类子信息包括相同的一个或多个特征时,则可将相似度信息设为0,当第一分类子信息和第二分类子信息不包括相同的特征时,则可将相似度信息设为1。
步骤S204,当相似度信息满足预设相似度条件时,则确定目标web网站被植入搜索引擎优化后门。
本实施例中,预设相似度条件用于确定第一分类子信息和第二分类子信息不相似,由于第一类别和第二类别中的一类为正常日志信息,当确定第一分类子信息和第二分类子信息不相似时,则表明另外一类很可能属于异常日志信息,因此可确定目标web网站被植入搜索引擎优化后门。
由以上本发明实施例可见,本发明实施例首先根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;然后利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息,目标日志分类信息至少包括分别用于标识第一类别的第一分类子信息,和用于标识第二类别的第二分类子信息;根据第一分类子信息和第二分类子信息,获得用于标识第一分类子信息和第二分类子信息之间相似度的相似度信息;当相似度信息满足预设相似度条件时,则确定目标web网站被植入搜索引擎优化后门。通过将目标URL对应的日志信息分为两类子信息,其中一类子信息为正常日志信息;然后比对两类子信息是否相似;当两类子信息不相似时,则确定目标web网站被植入搜索引擎优化后门,可以提高搜索引擎优化后门识别的准确率。
实施例三
如图3所示,图3为本申请实施例三公开的一种web网站搜索引擎优化后门识别方法的示意性流程图,该方法包括:
步骤S302,根据目标web网站日志信息,获得至少一个目标URL对应的日志信息。
本实施例中,步骤S302与实施例一中的步骤S101基本相同或相似,在此不再赘述。
步骤S303,根据目标URL对应的请求特征,对目标URL对应的日志信息进行分类并对每个类别进行聚合统计,确定第一类别的聚合统计中心节点和第二类别的聚合统计中心节点。
本实施例中,由于正常日志信息和异常日志信息中所包括的请求相关信息会存在差异,因此可通过从目标URL对应的日志信息中获取目标URL对应的请求特征,对目标URL对应的日志信息进行分类,并进一步区分出是否为正常日志信息。
本实施例中,请求特征的获取和标识方式不限,可根据应用需求和数据特点进行灵活配置。
本实施例中,聚合统计用于对每个类别进行分析归类,并且可进一步确定出用于表征类别平均水平的聚合统计中心节点。其中,聚合统计的方式不限,可以是对每个类别进行平均值计算,也可以是对每个类别进行中位数计算。
步骤S304,根据预设相似度算法,计算第一类别的聚合统计中心节点和第二类别的聚合统计中心节点之间的第一相似度值,以根据第一相似度值确定相似度信息。
本实施例中,预设相似度算法可以是基于向量的,具体而言,通过计算在向量控件内的两个向量之间的距离,如果距离越近则越相似,距离越远则越不同。预设相似度算法的种类在此不做限制,例如,预设相似算法可以采用欧几里德距离、曼哈顿距离、明可夫斯基距离、余弦相似度、皮尔森相关系数等多种算法中的至少一种。
以通过计算欧几里德距离为例,假如第一类别的聚合统计中心为x,第二类别的聚合统计中心节点为y,则第一分类中心节点和第二分类中心节点之间的欧几里德距离为:
第一相似度值为:
步骤S305,当相似度信息满足预设相似度条件时,则确定目标web网站被植入搜索引擎优化后门。
本实施例中,由于通过一种方式确定目标web网站被植入搜索引擎优化后门的准确性可能相对偏低,为了进一步提高判断的准确性,可采用两种方式共同确认,即步骤S305可进一步包括子步骤S305a-子步骤S305c:
子步骤S305a,当相似度信息满足预设相似度条件时,发送数据请求至目标URL,并接收目标URL返回的响应数据。
可选地,预设相似度条件可以为第一相似度值大于或者等于预设相似度阈值。
其中,预设相似度阈值用于初步判断目标web网站是否被植入搜索引擎优化后门,具体设置方式不限。当第一相似度值小于预设相似度阈值时,则表明目标web网站很可能没有被植入搜索引擎优化后门;当第一相似度值大于或者等于预设相似度阈值时,则表明目标web网站可能被植入搜索引擎优化后门,可采取其他方式进行进一步确认,即发送数据请求至目标URL,并接收目标URL返回的响应数据,通过对响应数据进行解析,以确认目标web网站是否被植入搜索引擎优化后门。
可选地,在步骤S305a之前,还可包括:步骤S300,设定预设相似度阈值。
步骤S300具体包括以下子步骤:
子步骤S300a,根据被植入搜索引擎优化后门的样本web网站日志信息,获得至少一样本URL对应的日志信息。
其中,样本web网站日志信息是预先收集的被植入搜索引擎优化后门的web目标网站被用户访问时产生的日志信息。被植入搜索引擎优化后门的样本web网站日志信息的获得方式不限,例如,可以是预先收集的所有被植入搜索引擎优化后门的目标web网站日志信息;可以是预先收集的三天内的被植入搜索引擎优化后门的目标wab网站日志信息;也可以是预先收集的随机选取的有固定间隔的某几天的被植入搜索引擎优化后门的目标web网站日志信息。
子步骤S300b,根据样本URL对应的请求特征,对样本URL对应的日志信息进行分类并对每个类别进行聚合统计,至少确定出第三类别和第四类别,以及第三类别的聚合统计中心节点和第四类别的聚合统计中心节点。
其中,子步骤S300b中获得第三类别的聚合统计中心节点和第四类别的聚合统计中心节点的方法与步骤S303中获得第一类别的聚合统计中心节点和第二类别的聚合统计中心节点的方法相似,在此不再赘述。
子步骤S300c,根据预设相似度算法,计算第三类别的聚合统计中心节点和第四类别的聚合统计中心节点之间的第二相似度值。
其中,子步骤S300c中计算第二相似度值的方法与步骤S304中计算第一相似度值的方法相似,在此不再赘述。
子步骤S300d,根据第二相似度值,确定预设相似度阈值。
可选地,根据被植入搜索引擎优化后门的样本web网站日志信息,获得多个URL对应的日志信息;对多个样本URL对应的日志信息进行分类并对每个类别进行聚合统计确定聚合统计中心节点;根据预设相似度算法计算多个样本URL对应的相似度值,将多个样本URL对应的相似度值按照从小到大或者从大到小的规则进行排序,选取中位的相似度值,确定为预设相似度阈值。
其中,通过选取多个样本URL计算相似度值取中位数的方法确定预设相似度阈值,相较于一个样本URL计算相似度值确定预设相似度阈值,其预设相似度阈值的精度更高。
子步骤S305b,对响应数据进行解析,获得响应数据对应的关键字信息。
其中,当响应数据是html页面数据时,可通过对html页面数据进行解析,提取html页面数据中所包括的关键字,并使用关键字信息对html页面数据中所包括的关键字进行标识,以获得html页面数据对应的关键字信息。
子步骤S305c,当响应数据对应的关键字信息中包括用于标识预设敏感字的信息时,则确定目标web网站被植入搜索引擎优化后门。
其中,预设敏感字是通过对已确定的被植入搜索引擎优化后门的目标web网站的html页面进行分析后获得的关键字。预设敏感字的确定方式不限,可以是专家根据经验直接预设的,可以是根据样本数据统计确定,也可以是根据样本数据统计和专家共同确定。
可选地,在子步骤S305c之前,还可包括:步骤S301,设定预设敏感字。需要说明的是,步骤S301和步骤S300不分先后顺序。步骤S301具体包括以下子步骤:
子步骤S301a,提取第一样本数据对应的至少一第一样本关键字,以及第二样本数据对应的至少一第二样本关键字,其中第一样本数据为没有被植入搜索引擎优化后门的html页面数据,第二样本数据为被植入搜索引擎优化后门的html页面数据。
其中,至少一第一样本关键字用于标识第一样本数据中的全部或者部分内容,至少一第二样本关键字用于标识第二样本数据中的全部或者部分内容。
关键字可以通过文本处理方式对html页面进行提取,例如,文本处理方式可以是NLP(Natural Language Processing,自然语言处理)。
子步骤S301b,根据至少一第一样本关键字,从至少一第二样本关键字中确定预设敏感字。
其中,第一样本关键字和第二样本关键字可以为相同的关键字,也可以为不同的关键字。
可以将与全部第一样本关键字均不相同的第二样本关键字确定为预设敏感字。例如,第一样本关键字可以为网络安全、防火墙中的一个;第二样本关键字可以为六合彩、网络安全中的一个,用于六合彩部位第一样本关键字,那么可将六合彩确定为预设敏感字。
可选地,子步骤S301b进一步包括:
步骤A1,计算没有被植入搜索引擎优化后门的html页面中包括至少一第一样本关键字的html页面的占比,获得第一占比信息;以及计算被植入搜索引擎优化后门的html页面中包括至少一第二样本关键字的html页面的占比,获得第二占比信息。
其中,占比信息的所标识的内容不限,可以是标识数值,也可以是标识类别。其中,所标识的类别可以根据占比数值所确定,例如,计算得到的占比大于50%时,可将占比信息设为A级,表明样本关键字可能是预设敏感字;计算得到的占比小于或等于50%时,可将占比信息设为B级,表明样本关键字可能不是预设敏感字。
其中,没有被植入搜索引擎优化后门的html页面和被植入搜索引擎优化后门的html页面是预先收集获得的数据,收集方式本实施例在此不做限制。为了提高数据准确性,需预先收集多个被植入搜索引擎优化后门的html页面和被植入搜索引擎优化后门的html页面对应的数据。
步骤A2,根据第一占比信息和第二占比信息,从至少一第二样本关键字中确定预设敏感字。
其中,当第一占比信息和第二占比信息的差别较大时,则表明可能有一个或者多个第二样本关键字在被植入搜索引擎优化后门的html页面中出现较多,同时在没有被植入搜索引擎优化后门的html页面中出现较少,因此可将仅在被植入搜索引擎优化后门的html页面中出现较多的第二样本关键字确定为预设敏感字。
例如,可预先设置第一占比信息和第二占比信息的记录方式,如果仅提取到一个关键字的话,当全部html页面中包括该关键字的html页面占比大于或者等于60%时,则将占比信息记录为A;当全部html页面中包括该关键字的html页面占比小于60%且大于或者等于30%时,则将占比信息记录为B;当全部html页面中包括该关键字的html页面占比小于30%时,则将占比信息记录为C。
若没有被植入搜索引擎优化后门的html页面中仅提取到一个第一样本关键字,该第一样本关键字为“六合彩”,并计算得到的占比为5%,相应地,第一占比信息可记录为C;若被植入搜索引擎优化后门的html页面中仅提取到一个第二样本关键字,该第二样本关键字也为“六合彩”,计算得到的占比为65%,相应地,第二占比信息可记录为A。由于第一占比信息和第二占比信息分别被记录为C和A,表明“六合彩”这一关键字在被植入搜索引擎优化后门的html页面的概率明显高于没有被植入搜索引擎优化后门的html页面,可用于判断目标web网站是否被植入搜索引擎优化后门,因此可将“六合彩”确定为预设敏感字。
若没有被植入搜索引擎优化后门的html页面中仅提取到一个第一样本关键字,该第一样本关键字为“网络安全”,并计算得到的占比为55%,相应地,第一占比信息可记录为A;若被植入搜索引擎优化后门的html页面中仅提取到一个第二样本关键字,该第二样本关键字也为“网络安全”,计算得到的占比为65%,相应地,第二占比信息可记录为A。由于第一占比信息和第二占比信息均被记录为A,表明“网络安全”这一关键字在没有被植入搜索引擎优化后门的html页面和被植入搜索引擎优化后门的html页面中均频繁出现,并不适合用于判断目标web网站是否被植入搜索引擎优化后门,因此不将“网络安全”确定为预设敏感字。
可选地,由于当html页面数据量相对较少时,通过占比情况确定预设敏感字,并用于判断目标web网站是否被植入搜索引擎优化后门,可能会导致判断的准确性较低,因此为了进一步提高预设敏感字的准确性,还可根据关键字出现次数、第一占比信息和第二占比信息,从至少一第二样本关键字中确定预设敏感字。
其中,可从第一样本数据中提取出的全部关键字中,将关键字出现次数大于或者等于第一出现次数阈值的关键字确定为第一样本关键字,并计算获得第一占比信息。
和/或,还可从第二样本数据中提取出的全部关键字中,将关键字出现次数岛屿或者等于第二出现次数阈值的关键字确定为第二样本关键字,并计算获得第二占比信息。
第一出现次数阈值和第二出现次数阈值可以相同或者不同,本实施例在此不做限制。由于仅将超过第一出现次数阈值的关键字确定为第一样本关键字,和/或仅将超过第二出现次数阈值的关键字确定为第二样本关键字,使得仅针对所提取的部分关键字计算相关的占比,这些关键字的出现次数较高,不仅可减少数据处理量,而且还可进一步提高预设敏感字确定的准确性。其中,计算第一占比信息和第二占比信息的方法与步骤A1中计算第一占比信息和第二占比信息的方法相似,在此不再赘述。
本实施例中,当目标web网站确定被植入搜索引擎优化后门时,还包括:对目标URL进行防护响应处理。
其中,防护响应处理的方式不限,例如,防护响应处理可以包括阻断或者人机验证等。
由以上本发明实施例可见,本发明实施例首先根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;然后根据目标URL对应的请求特征,对目标URL对应的日志信息进行分类并对每个类别进行聚合统计,确定第一类别的聚合统计中心节点和第二类别的聚合统计中心节点;根据预设相似度算法,计算第一类别的聚合统计中心节点和第二类别的聚合统计中心节点之间的第一相似度值,以根据第一相似度值确定相似度信息;当相似度信息满足预设相似度条件时,则确定目标web网站被植入搜索引擎优化后门。根据请求特征对目标URL对应的日志信息进行分类并进行聚合统计,然后根据预设相似度算法进行计算,可以简单、准确地得到两个类别之间的相似度值,同时降低数据处理量、提高数据处理效率;接着通过预设相似度阈值和预设敏感字信息两种验证方式,进一步提高搜索引擎优化后门识别的准确率。
实施例四
如图4所示,图4为本申请实施例四公开的一种web网站搜索引擎优化后门识别装置的结构示意图,该装置包括:
获取模块401,用于根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;
分类模块402,用于利用预设URL分类规则,对目标URL对应的日志信息进行分类,获得目标日志分类信息,其中,目标日志分类信息至少用于标识目标URL对应的目标信息分类的类别数量;
确定模块403,用于根据目标日志分类信息,确定目标web网站是否被植入搜索引擎优化后门。
本实施例中,当目标日志分类信息标识目标URL对应的日志信息分类的类别数量大于1时,目标日志分类信息至少包括分别用于标识第一类别的第一分类子信息,和用于标识第二类别的第二分类子信息,对应地,确定模块403还包括:
获取相似度信息单元,用于根据第一分类子信息和第二分类子信息,获得用于标识第一分类子信息和第二分类子信息之间相似度的相似度信息;
确定单元,用于当相似度信息满足预设相似度条件时,则确定目标web网站被植入搜索引擎优化后门。
本实施例中,日志信息包括用于标识URL对应的请求特征的特征子信息,对应地:
分类模块402,还用于根据目标URL对应的请求特征,对目标URL对应的日志信息进行分类并对每个类别进行聚合统计,确定第一类别的聚合统计中心节点和第二类别的聚合统计中心节点;
获取相似度信息单元,还用于根据预设相似度算法,计算第一类别的聚合统计中心节点和第二类别的聚合统计中心节点之间的第一相似度值,以根据第一相似度值确定相似度信息。
本实施例中,预设相似度条件为第一相似度大于或者等于预设相似度阈值,还包括:
获得模块,用于根据被植入搜索引擎优化后门的样本web网站日志信息,获得至少一样本URL对应的日志信息;
分类聚合统计模块,用于根据样本URL对应的请求特征,对样本URL对应的日志信息进行分类并对每个类别进行聚合统计,至少确定出第三类别和第四类别,以及第三类别的聚合统计中心节点和第四类别的聚合统计中心节点;
计算模块,用于根据预设相似度算法,计算第三类别的聚合统计中心节点和第四类别的聚合统计中心节点之间的第二相似度值;
确定预设相似度阈值模块,用于根据第二相似度值,确定预设相似度阈值。
本实施例中,确定单元还包括:
请求子单元,用于当相似度信息满足预设相似度条件时,发送数据请求至目标URL,并接收目标URL返回的响应数据;
解析子单元,用于对响应数据进行解析,获得响应数据对应的关键字信息;
确定子单元,用于当响应数据对应的关键字信息中包括用于标识预设敏感字的信息时,则确定web网站被植入搜索引擎优化后门。
本实施例中,还包括:
提取样本关键字模块,用于提取第一样本数据对应的至少一第一样本关键字,以及第二样本数据对应的至少一第二样本关键字,其中,第一样本数据为没有被植入搜索引擎优化后门的html页面数据,第二样本数据为被植入搜索引擎优化后门的html页面数据;
确定预设敏感字模块,用于根据至少一第一样本关键字,从至少一第二样本关键字中确定预设敏感字。
本实施例中,确定预设敏感字模块还包括:
计算占比信息单元,用于计算没有被植入搜索引擎优化后门的html页面中包括至少一第一样本关键字的html页面的占比,获得第一占比信息;以及计算被植入搜索引擎优化后门的html页面中包括至少一第二样本关键字的html页面的占比,获得第二占比信息;
确定预设敏感字单元,用于根据第一占比信息和第二占比信息,从至少一第二样本关键字中确定预设敏感字。
通过本实施例的web网站搜索引擎优化后门识别装置,可以实现前述多个方法实施例中相应的web网站搜索引擎优化后门识别方法,并具有相应方法实施例的有益效果,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (6)

1.一种web网站搜索引擎优化后门识别方法,其特征在于,所述方法包括:
根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;所述日志信息包括用于标识URL对应的请求特征的特征子信息;
利用预设URL分类规则,对所述目标URL对应的日志信息进行分类,获得目标日志分类信息,其中,所述目标日志分类信息至少用于标识所述目标URL对应的日志信息分类的类别数量;
根据所述目标日志分类信息,确定所述目标web网站是否被植入搜索引擎优化后门;
当目标日志分类信息标识所述目标URL对应的日志信息分类的类别数量大于1时,所述目标日志分类信息至少包括分别用于标识第一类别的第一分类子信息,和用于标识第二类别的第二分类子信息;
对应地,所述利用预设URL分类规则,对所述目标URL对应的日志信息进行分类,获得目标日志分类信息包括:根据所述目标URL对应的请求特征,对所述目标URL对应的日志信息进行分类并对每个类别进行聚合统计,确定所述第一类别的聚合统计中心节点和所述第二类别的聚合统计中心节点;
所述根据所述目标日志分类信息,确定所述目标web网站是否被植入搜索引擎优化后门包括:根据所述第一分类子信息、所述第二分类子信息和预设相似度算法,计算所述第一类别的聚合统计中心节点和所述第二类别的聚合统计中心节点之间的第一相似度值,以根据所述第一相似度值确定用于标识所述第一分类子信息和第二分类子信息之间相似度的相似度信息;当所述相似度信息满足预设相似度条件时,则确定所述目标web网站被植入搜索引擎优化后门。
2.根据权利要求1所述的方法,其特征在于,预设相似度条件为所述第一相似度值大于或者等于预设相似度阈值,所述方法还包括:
根据被植入搜索引擎优化后门的样本web网站日志信息,获得至少一样本URL对应的日志信息;
根据所述样本URL对应的请求特征,对所述样本URL对应的日志信息进行分类并对每个类别进行聚合统计,至少确定出第三类别和第四类别,以及所述第三类别的聚合统计中心节点和所述第四类别的聚合统计中心节点;
根据所述预设相似度算法,计算所述第三类别的聚合统计中心节点和所述第四类别的聚合统计中心节点之间的第二相似度值;
根据所述第二相似度值,确定所述预设相似度阈值。
3.根据权利要求1所述的方法,其特征在于,所述当所述相似度信息满足预设相似度条件时,则确定所述目标web网站被植入搜索引擎优化后门包括:
当所述相似度信息满足预设相似度条件时,发送数据请求至所述目标URL,并接收所述目标URL返回的响应数据;
对所述响应数据进行解析,获得所述响应数据对应的关键字信息;
当所述响应数据对应的关键字信息中包括用于标识预设敏感字的信息时,则确定所述web网站被植入搜索引擎优化后门。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
提取第一样本数据对应的至少一第一样本关键字,以及第二样本数据对应的至少一第二样本关键字,其中,所述第一样本数据为没有被植入搜索引擎优化后门的html页面数据,所述第二样本数据为被植入搜索引擎优化后门的html页面数据;
根据所述至少一第一样本关键字,从所述至少一第二样本关键字中确定所述预设敏感字。
5.根据权利要求4所述的方法,其特征在于,所述根据所述至少一第一样本关键字,从所述至少一第二样本关键字中确定所述预设敏感字包括:
计算没有被植入搜索引擎优化后门的html页面中包括所述至少一第一样本关键字的html页面的占比,获得第一占比信息;以及计算被植入搜索引擎优化后门的html页面中包括所述至少一第二样本关键字的html页面的占比,获得第二占比信息;
根据所述第一占比信息和所述第二占比信息,从所述至少一第二样本关键字中确定所述预设敏感字。
6.一种web网站搜索引擎优化后门识别装置,其特征在于,包括:
获取模块,用于根据目标web网站日志信息,获得至少一个目标URL对应的日志信息;所述日志信息包括用于标识URL对应的请求特征的特征子信息;
分类模块,用于利用预设URL分类规则,对所述目标URL对应的日志信息进行分类,获得目标日志分类信息,其中,所述目标日志分类信息至少用于标识所述目标URL对应的目标信息分类的类别数量;
确定模块,用于根据所述目标日志分类信息,确定所述目标web网站是否被植入搜索引擎优化后门;
当目标日志分类信息标识所述目标URL对应的日志信息分类的类别数量大于1时,所述目标日志分类信息至少包括分别用于标识第一类别的第一分类子信息,和用于标识第二类别的第二分类子信息;
对应地,所述分类模块还用于根据所述目标URL对应的请求特征,对所述目标URL对应的日志信息进行分类并对每个类别进行聚合统计,确定所述第一类别的聚合统计中心节点和所述第二类别的聚合统计中心节点;
所述确定模块还用于根据所述第一分类子信息、所述第二分类子信息和预设相似度算法,计算所述第一类别的聚合统计中心节点和所述第二类别的聚合统计中心节点之间的第一相似度值,以根据所述第一相似度值确定用于标识所述第一分类子信息和第二分类子信息之间相似度的相似度信息;当所述相似度信息满足预设相似度条件时,则确定所述目标web网站被植入搜索引擎优化后门。
CN202210115824.8A 2022-02-07 2022-02-07 一种web网站搜索引擎优化后门识别方法及装置 Active CN114430348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210115824.8A CN114430348B (zh) 2022-02-07 2022-02-07 一种web网站搜索引擎优化后门识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210115824.8A CN114430348B (zh) 2022-02-07 2022-02-07 一种web网站搜索引擎优化后门识别方法及装置

Publications (2)

Publication Number Publication Date
CN114430348A CN114430348A (zh) 2022-05-03
CN114430348B true CN114430348B (zh) 2023-12-05

Family

ID=81313307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210115824.8A Active CN114430348B (zh) 2022-02-07 2022-02-07 一种web网站搜索引擎优化后门识别方法及装置

Country Status (1)

Country Link
CN (1) CN114430348B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468477A (zh) * 2013-09-16 2015-03-25 杭州迪普科技有限公司 一种WebShell的检测方法及系统
CN106911635A (zh) * 2015-12-22 2017-06-30 北京奇虎科技有限公司 一种检测网站是否存在后门程序的方法及装置
CN106911636A (zh) * 2015-12-22 2017-06-30 北京奇虎科技有限公司 一种检测网站是否存在后门程序的方法及装置
CN107665164A (zh) * 2016-07-29 2018-02-06 百度在线网络技术(北京)有限公司 安全数据检测方法和装置
CN107707545A (zh) * 2017-09-29 2018-02-16 深信服科技股份有限公司 一种异常网页访问片段检测方法、装置、设备及存储介质
CN111314326A (zh) * 2020-02-01 2020-06-19 深信服科技股份有限公司 Http漏洞扫描主机的确认方法、装置、设备及介质
CN112800427A (zh) * 2021-04-08 2021-05-14 北京邮电大学 webshell检测方法、装置、电子设备和存储介质
CN113676464A (zh) * 2021-08-09 2021-11-19 国家电网有限公司 一种基于大数据分析技术的网络安全日志告警处理方法
CN113779571A (zh) * 2020-06-10 2021-12-10 中国电信股份有限公司 WebShell检测装置、WebShell检测方法及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468477A (zh) * 2013-09-16 2015-03-25 杭州迪普科技有限公司 一种WebShell的检测方法及系统
CN106911635A (zh) * 2015-12-22 2017-06-30 北京奇虎科技有限公司 一种检测网站是否存在后门程序的方法及装置
CN106911636A (zh) * 2015-12-22 2017-06-30 北京奇虎科技有限公司 一种检测网站是否存在后门程序的方法及装置
CN107665164A (zh) * 2016-07-29 2018-02-06 百度在线网络技术(北京)有限公司 安全数据检测方法和装置
CN107707545A (zh) * 2017-09-29 2018-02-16 深信服科技股份有限公司 一种异常网页访问片段检测方法、装置、设备及存储介质
CN111314326A (zh) * 2020-02-01 2020-06-19 深信服科技股份有限公司 Http漏洞扫描主机的确认方法、装置、设备及介质
CN113779571A (zh) * 2020-06-10 2021-12-10 中国电信股份有限公司 WebShell检测装置、WebShell检测方法及计算机可读存储介质
CN112800427A (zh) * 2021-04-08 2021-05-14 北京邮电大学 webshell检测方法、装置、电子设备和存储介质
CN113676464A (zh) * 2021-08-09 2021-11-19 国家电网有限公司 一种基于大数据分析技术的网络安全日志告警处理方法

Also Published As

Publication number Publication date
CN114430348A (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
US7082429B2 (en) Method for web content filtering
US20240111818A1 (en) Method for training isolation forest, and method for recognizing web crawler
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
WO2017097231A1 (zh) 话题处理方法及装置
US20090319449A1 (en) Providing context for web articles
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN108023868B (zh) 恶意资源地址检测方法和装置
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN109525551A (zh) 一种基于统计机器学习的cc攻击防护的方法
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN112199569A (zh) 一种违禁网址识别方法、系统、计算机设备及存储介质
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
Charyyev et al. Voice command fingerprinting with locality sensitive hashes
Abdulrahaman et al. Phishing attack detection based on random forest with wrapper feature selection method
KR101158750B1 (ko) 문서분류장치 및 그것의 문서분류방법
Kasim Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model
CN114430348B (zh) 一种web网站搜索引擎优化后门识别方法及装置
Hassan On determining the most effective subset of features for detecting phishing websites
KR20240013640A (ko) 유해 url 탐지 방법
CN116346409A (zh) 网络安全防御方法、装置、设备及存储介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
Aires et al. An information theory approach to detect media bias in news websites
CN114398887A (zh) 一种文本分类方法、装置及电子设备
CN114168948A (zh) 网络安全态势综合分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant