CN114817818A - 站点页面分级的方法、装置、设备及存储介质 - Google Patents
站点页面分级的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114817818A CN114817818A CN202210591689.4A CN202210591689A CN114817818A CN 114817818 A CN114817818 A CN 114817818A CN 202210591689 A CN202210591689 A CN 202210591689A CN 114817818 A CN114817818 A CN 114817818A
- Authority
- CN
- China
- Prior art keywords
- access
- visited
- determining
- site
- site page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供一种站点页面分级的方法、装置、设备及存储介质,涉及计算机技术领域。本申请中,获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据;基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据;基于访问状态数据,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值,基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。直接基于历史访问记录进行分析,更加精准的反映站点页面的重要程度,进一步保证站点页面监测的准确性,保证站点页面的安全性;且无需进行定时爬虫爬取等动作,避免给站点带来额外的访问负载。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种站点页面分级的方法、装置、设备及存储介质。
背景技术
随着技术的发展和业务的增长,站点页面数量也在不断增加,为了保证站点页面的安全性,目前提出对站点页面进行监测处理。在对站点页面监测时,根据站点页面的重要等级进行监测,不同重要等级进行不同频率与强度的监测,使得监测所消耗的网络、计算等资源可控。因此,如何对站点页面进行分级处理是至关重要的。
目前,对站点页面进行分级处理主要包含两种方式,分别为:使用爬虫构建页面树,根据站点页面所在层级确定重要等级,以及使用PageRank算法根据站点页面之间的相互引用进行度量。
其中,站点页面层级取决于站点组织结构,层级较高的站点页面不一定会被经常访问,同理层级较低的站点页面可能会被经常访问,访问热度较高。但是,层级较高的站点页面对应的监测频率和监测强度较高,而层级较低的站点页面对应的监测频率和监测强度较低。此时,由于层级较低的站点页面具有较高的访问热度,层级较低的站点页面更加容易被篡改挂马等恶意攻击;又,由于监测频率和监测强度较低,导致不能及时发现问题,造成巨大损失。
PageRank算法下新站点页面指向其引用很少,因此基于指向其引用的数量确定的重要等级较低,但是这类新站点页面往往访问热度较高。同理,新站点页面更加容易被篡改挂马等恶意攻击,但是因重要等级较低,对应的监测频率和监测强度较低,导致不能及时发现问题,造成巨大损失。
因此,如何对站点页面进行分级,保证站点页面分级的准确性,进一步保证站点页面监测的准确性,以及时发现站点页面是否被恶意攻击,避免损失,是目前需要解决的技术问题。
发明内容
本申请提供一种站点页面分级的方法、装置、设备及存储介质,用以保证站点页面分级的准确性。
第一方面,本申请实施例提供一种站点页面分级的方法,该方法包括:
获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据;
基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据;
基于访问状态数据,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;
基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
第二方面,本申请实施例提供一种站点页面分级的装置,该装置包括:
获取单元,用于获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据;
第一确定单元,基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据;
聚类单元,用于基于访问状态数据,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;
第二确定单元,用于基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
在一种可能的实现方式中,该装置还包括剔除单元;
通过获取单元获取站点对应的历史访问日志之后,通过第一确定单元基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据之前,剔除单元用于:
基于各个源访问地址各自对应的访问记录数据中的记录信息,将历史访问日志中不满足条件的源访问地址以及相应的访问记录数据剔除。
在一种可能的实现方式中,剔除单元具体用于:
针对各个源访问地址中的一个源访问地址,分别执行如下操作中的至少一种:
若记录信息中包括一个源访问地址的访问次数,且访问次数达到次数阈值,则将一个源访问地址以及相应的访问记录数据剔除;
若记录信息中包含一个源访问地址的访问时间间隔,且访问时间间隔小于间隔阈值时,则将一个源访问地址以及相应的访问记录数据剔除;
若记录信息中包含一个源访问地址的访问成功率,且的访问成功率低于成功率阈值时,则将一个源访问地址以及相应的访问记录数据剔除。
在一种可能的实现方式中,访问状态数据包括:至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔中的至少一种。
在一种可能的实现方式中,若访问状态数据中包括被访成功率,则至少一个站点页面中的一个站点页面对应的被访成功率,是第一确定单元通过如下方式确定的:
确定一个站点页面对应的至少一个源访问地址,以及通过至少一个访问源地址访问一个站点页面时,各自对应的子被访成功率;
基于至少一个子被访成功率,确定同一子被访成功率对应的目标数量;
其中,p表示被访成功率,n表示子被访成功率,m表示目标数量,s表示第一总数量。
在一种可能的实现方式中,若访问状态数据中包括被访时间间隔,则至少一个站点页面中的一个站点页面对应的被访时间间隔,是第一确定单元通过如下方式确定的:
确定一个站点页面对应的各个子被访时间间隔,以及子被访时间间隔的第二总数量;
在一种可能的实现方式中,若访问状态数据包括至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔,则聚类单元具体用于:
针对各个聚类集合,分别确定各自包含的至少一个目标站点页面,并基于至少一个目标站点页面各自对应的被访次数、被访成功率以及被访时间间隔,分别确定各自对应的中心被访次数、中心被访成功率以及中心被访时间间隔;
其中,w表示权重,p′表示中心被访成功率,b表示经验值,q′表示中心被访时间间隔,o′表示中心被访次数。
在一种可能的实现方式中,第二确定单元具体用于:
按照确定的各个权重值的大小,对相应的聚类集合进行排序,并基于排序结果确定各个聚类集合中所包含的站点页面的重要等级。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,其中,存储器,用于存储计算机指令;处理器,用于执行计算机指令以实现本申请实施例提供的站点页面分级的方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的站点页面分级的方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,其包括计算机指令,计算机指令存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取计算机指令时,处理器执行计算机指令,使得电子设备执行本申请实施例提供的站点页面分级的方法的步骤。
本申请有益效果如下:
本申请实施例提供一种站点页面分级的方法、装置、设备及存储介质;首先,获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据;然后,基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据,并基于访问状态数据,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;在确定权重值后,基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。直接基于历史访问记录进行分析,根据真实的访问记录进行站点页面分级,相比于基于站点页面层级分级的方式更加贴近实际,且相比于PageRank算法解决了热度高的新站点页面和热度不高的原站点页面的分级问题,更加精准的反映站点页面的重要程度。进一步,根据站点页面的重要程度对站点页面进行合理监测,保证站点页面监测的准确性,以避免出现因监测频率和监测强度较低,导致的无法及时发现站点页面被篡改挂马等恶意攻击的问题,即保证站点页面的安全性;以及避免出现因监测频率和监测强度较高,导致的资源浪费的问题,即减少损失。且本申请提出的实施方式无需进行定时爬虫爬取等动作,避免带来额外的访问负载。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种站点页面分级的方法流程图;
图3为本申请实施例提供的一种站点页面分级的具体实施方法流程图;
图4为本申请实施例提供的一种站点页面分级的装置结构图;
图5为本申请实施例提供的一种电子设备结构图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于本领域技术人员更好地理解本申请的技术方案,下面对本申请涉及的部分概念进行介绍。
站点指一个可以通过互联网访问的网页,站点可以由一个页面构成,也可以由多个页面构成。
源访问地址即互联网协议地址(Internet Protocol Address,IP),是为互联网上的每一个网络和每一台主机分配的逻辑地址,在本申请实施例中可以为每一台终端设备分配的逻辑地址。
统一资源定位系统(Uniform Resource Locator,URL)是因特网的万维网服务程序上用于指定信息位置的表示方法,在本申请实施例中,URL用于指定站点页面,一个站点页面对应唯一一个URL,也可以说URL为站点页面的唯一标识,因此访问站点页面也可称为访问URL,两者在本申请实施例中可相互替换。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
下面对本申请实施例的设计思想进行简要介绍:
随着技术的发展和业务的增长,站点页面数量也在不断增加,为了保证站点页面的安全性,目前提出对站点页面进行监测处理。在对站点页面进行监测时,根据站点页面的重要等级进行监测,不同重要等级进行不同频率与强度的监测,使得监测所消耗的网络、计算等资源可控。因此,如何对站点页面进行分级处理是至关重要的。
相关技术中,对站点页面进行分级处理主要包含两种方式,分别为:
方式一、使用爬虫构建页面树,根据站点页面所在层级确定重要等级。
站点页面层级取决于站点组织结构,层级较高的站点页面的重要等级较高,层级较低的站点页面的重要等级较低。此时,在根据重要等级对站点页面进行监测时,层级较高的站点页面对应的监测频率和监测强度较高,而层级较低的站点页面对应的监测频率和监测强度较低。
但是,层级较高的站点页面不一定会被经常访问,同理层级较低的站点页面可能会被经常访问,访问热度较高,且访问热度越高的站点页面越容易被篡改挂马等恶意攻击。此时,由于层级较低的站点页面具有较高的访问热度,因此层级较低的站点页面更容易被篡改挂马等恶意攻击;但是,层级较低的站点页面的监测频率和监测强度较低,不能及时发现该站点页面已被攻击,即不能及时发现问题,并造成巨大损失。
方式二、使用PageRank算法根据站点页面之间的相互引用进行度量。
PageRank算法是在由站点网页形成的有向图上定义一个随机游走模型,描述随机游走者沿着有向图随机访问各个结点的行为。且PageRank算法是根据站点页面与其他站点页面的链接量,来确定站点页面的重要等级的,此时,如果一个原站点网页被很多其他站点网页链接的话,说明该原站点网页的重要等级较高。但是,对于一个新站点网页而言,该新站点网页链接的其他站点网页的数量较少,该新站点网页的重要等级较低。此时,在根据重要等级对站点页面进行监测时,该原站点页面对应的监测频率和监测强度较高,而该新站点页面对应的监测频率和监测强度较低。
但是,新站点页面往往会有较高的访问量,即访问热度较高,因此新站点页面更容易被篡改挂马等恶意攻击;但是,新站点页面的监测频率和监测强度较低,不能及时发现该站点页面已被攻击,即不能及时发现问题,造成巨大损失。
因此,如何对站点页面进行分级,保证站点页面分级的准确性,进一步保证站点页面监测的准确性,以及时发现站点页面是否被篡改挂马等恶意攻击,避免损失,是目前需要解决的技术问题。
有鉴于此,本申请实施例提供一种站点页面分级的方法、装置、电子设备及存储介质;在本申请实施例中,首先,获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据;然后,基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据,并基于访问状态数据,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;在确定权重值后,基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
直接基于历史访问记录进行分析,根据真实的访问记录进行站点页面分级,相比于基于站点页面层级分级的方式更加贴近实际,且相比于PageRank算法解决了热度高的新站点页面和热度不高的原站点页面的分级问题,更加精准的反映站点页面的重要程度。进一步,根据站点页面的重要程度对站点页面进行合理监测,保证站点页面监测的准确性,以避免出现因监测频率和监测强度较低,导致的无法及时发现站点页面被篡改挂马等恶意攻击的问题,即保证站点页面的安全性;以及避免出现因监测频率和监测强度较高,导致的资源浪费的问题,即减少损失。且本申请提出的实施方式无需进行定时爬虫爬取等动作,避免给站点带来额外的访问负载。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参考图1,图1为本申请实施例的应用场景示意图。该应用场景中包括终端设备110和服务器120,终端设备110与服务器120之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络可以是有线网络或无线网络。因此,终端设备110和服务器120可以通过有线或无线通信方式进行直接或间接地连接。比如,终端设备110可以通过无线接入点与服务器120间接地连接,或发终端设备110通过因特网与服务器120直接地连接,本申请在此不做限制。
在本申请实施例中,终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有各种客户端,该客户端可以是应用程序(例如浏览器、游戏软件等),也可以是网页、小程序等;
服务器120是与终端设备110中安装的客户端相对应的后台服务器。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例中的站点页面分级的方法可由部署在电子设备中,该电子设备可以为服务器,其中服务器可以为图1中所示的服务器120,也可以为出图1中所示的服务器120以外的其他服务器。
图1所示只是举例说明,实际上终端设备110和服务器120的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例中,当服务器120的数量为多个时,多个服务器120可组成为一区块链,而服务器120为区块链上的节点;如本申请实施例所公开的站点页面分级的方法,其中所涉及的访问记录数据、访问状态数据等可保存于区块链上。
基于上述应用场景,下面结合上述描述的应用场景,根据附图来描述本申请示例性实施方式提供的站点页面分级的方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参考图2,图2示例性提供本申请实施例中一种站点页面分级的方法,该方法中包括:
步骤S200,获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据。
示例性的,获取过去一周各个源访问地址访问站点页面的访问记录数据,或获取过去一个月各个源访问地址访问站点页面的访问记录数据;其中,一周、一个月是举例说明,时间还可以被设置为更长或更短,在此不在赘述。
在一种可能的实现方式中,访问记录数据包括的记录信息包括但不限于:
每个源访问地址对应的访问次数、访问站点页面的数量、每次访问是否成功、访问成功率、访问时间、访问时间间隔。
示例性的,本申请实施例中可采用表格的形式存储访问记录数据,具体如表1所示,其中表1仅以一个源访问地址为例:
表1
需要说明的是,表1中的数据仅用于举例,以便理解本申请的实施方式;且基于表1中的数据还可以推导出IP1地址访问的站点页面的数量、访问的时间间隔、以及访问成功率。
同理,所有源访问地址对应的数据均可采用上述方式存储和确定,在此不在重复赘述。
步骤S201,基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据。
由于历史访问日志中记录了各个IP地址访问站点页面的访问时间、以及访问是否成功等数据;因此,基于历史访问日志,可以确定每个站点页面对应的源访问地址,即访问过该站点页面的源访问地址,以及每个源访问地址访问该站点页面的访问时间,以及在每个时间点访问是否成功等数据。如表2所示,其中表2仅以一个站点页面为例:
表2
需要说明的是,表2中的数据仅用于举例,以便理解本申请的实施方式;且基于表2中的数据还可以推导出站点页面URL1对应的被访次数、被访成功率以及被访时间间隔等数据。
下面,分别对本申请实施例中确定被访次数、被访成功率以及被访时间间隔的具体实施方式进行说明。
一、确定站点页面对应的被访次数o:
由于每个源访问地址每次访问站点页面时都对应一个访问时间,因此基于访问时间可直接确定站点页面对应的被访次数o。
二、确定站点页面对应的被访成功率p:
在确定站点页面对应的被访成功率时,首先确定站点页面对应的至少一个源访问地址,以及通过至少一个访问源地址访问站点页面时,各自对应的子被访成功率;
由于每个源访问地址每次访问站点页面时都对应一个是否访问成功的数据,因此基于一个源访问地址对应的是否访问成功的数据,可以确定该源访问地址访问该站点页面时,对应的一个子被访成功率,即该源访问地址访问该站点页时的成功率;也就是说,一个子被访成功率=一个源访问地址访问该站点页面的成功次数/一个源访问地址访问该站点页面的总次数。
此时,可以确定访问该站点页面的各个源访问地址对应的子被访成功率;例如,以表2数据为例:IP1地址访问URL1的成功率为80%、IP2地址访问URL1的成功率为60%、IP3地址访问URL1的成功率为100%、IP4地址访问URL1的成功率为100%,此时,至少一个子被访成功率分别为:80%、60%、100%、100%。
在确定至少一个子被访成功率后,基于至少一个子被访成功率,确定同一子被访成功率对应的目标数量;例如:80%的目标数量为1、60%的目标数量为1、100%的目标数量为2。
基于上述方式可以准确的确定每个站点页面对应的被访成功率。
三、确定站点页面对应的被访时间间隔q:
在确定站点页面对应的被访时间间隔时,首先确定一个站点页面对应的各个子被访时间间隔,以及子被访时间间隔的第二总数量。
由于每个源访问地址每次访问站点页面时都对应一个访问时间,因此站点页面对应多个被访时间,然后基于多个被访时间的时间顺序,确定相邻两个被访时间的时间间隔,并将两个被访时间的时间间隔作为站点页面对应的一个子被访时间,并统计子被访时间间隔的总数量,即本申请实施例中的第二总数量。
在确定各个子被访时间间隔以及第二总数量后,基于第二总数量以及各个子被访时间间隔,通过公式确定被访时间间隔;其中,q表示被访时间间隔,xi表示各个子被访时间间隔,表示基于各个子被访时间间隔确定的平均时间间隔,r表示第二总数量。
需要说明的是,本申请实施例中的被访时间间隔q为站点页面的被访时间间隔的标准差,描述该站点页面被访间隔的离散程度。
基于上述方式可以准确的确定每个站点页面对应的被访时间间隔。
因此,本申请实施例中,访问状态数据包括至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔中的至少一种。
需要说明的是,所有站点页面对应的访问状态数据均可采用上述方式存储和确定,在此不在重复赘述。
步骤S202,基于访问状态数据,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值。
在一种可能的实现方式中,当访问状态数据包括至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔时,将站点页面根据被访次数、被访成功率以及被访时间间隔进行聚类处理,即聚为K类,确定K个聚类集合,其中K为正整数。
在聚类处理时,首先选择初始化的K个样本作为初始聚类中心:
a(o,p,q)=a1、a2…ak
然后,针对站点中的站点页面,计算站点页面到K个聚类中心的距离,并将站点页面分到距离最小的聚类中心所对应的聚类集合中,并针对每个聚类集合重新计算聚类中心;
在获得聚类集合后,针对每个聚类集合分别执行如下操作,以确定聚类集合对应的权重值:
首先,确定聚类集合中包含的至少一个目标站点页面,并基于至少一个目标站点页面各自对应的被访次数、被访成功率以及被访时间间隔,分别确定各自对应的中心被访次数、中心被访成功率以及中心被访时间间隔;
其中,中心被访次数、中心被访成功率以及中心被访时间间隔可以是最终确定的聚类中心对应的数据,也可以是根据至少一个目标站点页面各自对应的被访次数、被访成功率以及被访时间间隔确定的均值。
然后,基于聚类集合对应的中心被访次数、中心被访成功率以及中心被访时间间隔,通过公式确定各自的权重值;其中,w表示权重,p′表示中心被访成功率,b表示经验值,q′表示中心被访时间间隔,o′表示中心被访次数。
基于上述方式可以准确的确定每个聚类集合对应的权重值,其中权重值用于表征重要程度,因此基于权重值,可以对站点页面进行分级处理。
步骤S203,基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
在一种可能的实现方式中,按照确定的各个权重值的大小,对相应的聚类集合进行排序,并基于排序结果确定各个聚类集合中所包含的站点页面的重要等级。
示例性的,权重值越大,说明该权重值对应的聚类集合中所包含的站点页面的重要等级越高。
在本申请中,直接基于历史访问记录进行分析,根据真实的访问记录进行站点页面分级,更加精准的反映站点页面的重要程度。
本申请实施例中,考虑到历史访问日志中,除了用户真实访问数据,还包括有来自网络爬虫扫描器等设备产生的非用户访问数据。因此,为了进一步保证数据的真实性,以保证站点页面分级的准确性,本申请实施例中,在获取站点页面对应的历史访问日志之后,基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据之前,基于各个源访问地址各自对应的访问记录数据中的记录信息,将历史访问日志中不满足条件的源访问地址以及相应的访问记录数据剔除;
在一种可能的实现方式中,若记录信息中包括一个源访问地址的访问次数,且访问次数达到次数阈值,则将一个源访问地址以及相应的访问记录数据剔除;或确定各个源访问地址的访问次数,并按照访问次数从大到小进行排序,并剔除访问次数排名靠前的源访问地址以及相应的访问记录数据,其中访问次数排名靠前可以是基于名次直接确定,也可以根据比例确定。
在一种可能的实现方式中,若记录信息中包含一个源访问地址的访问时间间隔,且访问时间间隔小于间隔阈值时,则将一个源访问地址以及相应的访问记录数据剔除;
本申请实施例中,此处的访问时间间隔为平均访问时间间隔,平均访问时间间隔是通过如下方式确定的:
按照设定采取间隔,计算每个源访问地址在该设定采取间隔内的平均访问时间间隔,访问时间间隔是后一个访问时间点减去前一个访问时间点,然后对所有的访问时间间隔求平均值,就可以得到平均访问时间间隔。其中,设定采取间隔可以为15分钟、20分钟,在此不做设定。
在一种可能的实现方式中,若记录信息中包含一个源访问地址的访问成功率,且的访问成功率低于成功率阈值时,则将一个源访问地址以及相应的访问记录数据剔除。
在本申请中,对历史访问记录进行清除处理,剔除来自网络爬虫扫描器等非用户真实访问数据,并基于清除处理后的数据进行站点页面分级,更加保证了数据的真实性,保证站点页面分级更加准确
请参考图3,图3示例性提供本申请实施例中一种站点页面分级的具体实施方法流程图,包括如下步骤:
步骤S300,获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据;
步骤S301,基于各个源访问地址各自对应的访问记录数据中的记录信息,将历史访问日志中不满足条件的源访问地址以及相应的访问记录数据剔除;
步骤S302,基于剔除处理后的历史访问日志,确定至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔;
步骤S303,基于被访次数、被访成功率以及被访时间间隔,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;
步骤S304,基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
在本申请中,在对站点页面分级时,直接基于历史访问记录进行分析,根据真实的访问记录进行站点页面分级,相比于基于站点页面层级分级的方式更加贴近实际,且相比于PageRank算法解决了热度高的新站点页面和热度不高的原站点页面的分级问题,更加精准的反映站点页面的重要程度;且,对历史访问记录进行清除处理,剔除来自网络爬虫扫描器等非用户真实访问数据,并基于清除处理后的数据进行站点页面分级,更加保证了数据的真实性,保证站点页面分级更加准确。进一步,根据站点页面的重要程度对站点页面进行合理监测,保证站点页面监测的准确性,以避免出现因监测频率和监测强度较低,导致的无法及时发现站点页面被篡改挂马等恶意攻击的问题,即保证站点页面的安全性;以及避免出现因监测频率和监测强度较高,导致的资源浪费的问题,即减少损失。且本申请提出的实施方式无需进行定时爬虫爬取等动作,避免给站点带来额外的访问负载。
需要说明的是,本申请实施例中涉及到的用户信息是在用户允许的情况下获取的。
与本申请上述方法实施例基于同一发明构思,本申请实施例中还提供了一种站点页面分级的装置,装置解决问题的原理与上述实施例的方法相似,因此装置的实施可以参见上述方法的实施,重复之处不再赘述。
请参考图4,图4示例性提供本申请实施例提供一种站点页面分级的装置400,该站点页面分级的装置400包括:
获取单元401,用于获取站点对应的历史访问日志,历史访问日志用于记录通过各个源访问地址,分别访问站点中的至少一个站点页面时的访问记录数据;
第一确定单元402,基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据;
聚类单元403,用于基于访问状态数据,对至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;
第二确定单元404,用于基于各个权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
在一种可能的实现方式中,该装置还包括剔除单元405;
通过获取单元401获取站点对应的历史访问日志之后,通过第一确定单元402基于历史访问日志,确定至少一个站点页面各自对应的访问状态数据之前,剔除单元405用于:
基于各个源访问地址各自对应的访问记录数据中的记录信息,将历史访问日志中不满足条件的源访问地址以及相应的访问记录数据剔除。
在一种可能的实现方式中,剔除单元405具体用于:
针对各个源访问地址中的一个源访问地址,分别执行如下操作中的至少一种:
若记录信息中包括一个源访问地址的访问次数,且访问次数达到次数阈值,则将一个源访问地址以及相应的访问记录数据剔除;
若记录信息中包含一个源访问地址的访问时间间隔,且访问时间间隔小于间隔阈值时,则将一个源访问地址以及相应的访问记录数据剔除;
若记录信息中包含一个源访问地址的访问成功率,且的访问成功率低于成功率阈值时,则将一个源访问地址以及相应的访问记录数据剔除。
在一种可能的实现方式中,访问状态数据包括:至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔中的至少一种。
在一种可能的实现方式中,若访问状态数据中包括被访成功率,则至少一个站点页面中的一个站点页面对应的被访成功率,是第一确定单元402通过如下方式确定的:
确定一个站点页面对应的至少一个源访问地址,以及通过至少一个访问源地址访问一个站点页面时,各自对应的子被访成功率;
基于至少一个子被访成功率,确定同一子被访成功率对应的目标数量;
其中,p表示被访成功率,n表示子被访成功率,m表示目标数量,s表示第一总数量。
在一种可能的实现方式中,若访问状态数据中包括被访时间间隔,则至少一个站点页面中的一个站点页面对应的被访时间间隔,是第一确定单元402通过如下方式确定的:
确定一个站点页面对应的各个子被访时间间隔,以及子被访时间间隔的第二总数量;
在一种可能的实现方式中,若访问状态数据包括至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔,则聚类单元403具体用于:
针对各个聚类集合,分别确定各自包含的至少一个目标站点页面,并基于至少一个目标站点页面各自对应的被访次数、被访成功率以及被访时间间隔,分别确定各自对应的中心被访次数、中心被访成功率以及中心被访时间间隔;
其中,w表示权重,p′表示中心被访成功率,b表示经验值,q′表示中心被访时间间隔,o′表示中心被访次数。
在一种可能的实现方式中,第二确定单元404具体用于:
按照确定的各个权重值的大小,对相应的聚类集合进行排序,并基于排序结果确定各个聚类集合中所包含的站点页面的重要等级。
为了描述的方便,以上各部分按照功能划分为各单元(或模块)分别描述。当然,在实施本申请时可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在介绍了本申请示例性实施方式的站点页面分级的方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的用于站点页面分级的电子设备。
与本申请上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,该电子设备可以是服务器。在该实施例中,电子设备的结构可以如图5所示,包括存储器501,通讯模块503以及一个或多个处理器502。
存储器501,用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器501可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器501也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器501可以是上述存储器的组合。
处理器502,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器502,用于调用存储器501中存储的计算机程序时实现上述站点页面分级的方法。
通讯模块503用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器501、通讯模块503和处理器502之间的具体连接介质。本申请实施例在图5中以存储器501和处理器502之间通过总线504连接,总线504在图5中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线504可以分为地址总线、数据总线、控制总线等。为便于描述,图5中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器501中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的站点页面分级的方法。处理器502用于执行上述的站点页面分级的方法。
在一些可能的实施方式中,本申请提供的站点页面分级的方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的站点页面分级的方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (12)
1.一种站点页面分级的方法,其特征在于,所述方法包括:
获取站点对应的历史访问日志,所述历史访问日志用于记录通过各个源访问地址,分别访问所述站点中的至少一个站点页面时的访问记录数据;
基于所述历史访问日志,确定所述至少一个站点页面各自对应的访问状态数据;
基于所述访问状态数据,对所述至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;
基于各个所述权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
2.如权利要求1所述的方法,其特征在于,所述获取站点对应的历史访问日志之后,基于所述历史访问日志,确定所述至少一个站点页面各自对应的访问状态数据之前,还包括:
基于所述各个源访问地址各自对应的访问记录数据中的记录信息,将所述历史访问日志中不满足条件的源访问地址以及相应的访问记录数据剔除。
3.如权利要求2所述的方法,其特征在于,所述基于各个源访问地址各自对应的访问记录数据中的记录信息,将所述历史访问日志中不满足条件的源访问地址以及相应的访问记录数据剔除,包括:
针对所述各个源访问地址中的一个源访问地址,分别执行如下操作中的至少一种:
若记录信息中包括所述一个源访问地址的访问次数,且所述访问次数达到次数阈值,则将所述一个源访问地址以及相应的访问记录数据剔除;
若记录信息中包含所述一个源访问地址的访问时间间隔,且所述访问时间间隔小于间隔阈值时,则将所述一个源访问地址以及相应的访问记录数据剔除;
若记录信息中包含所述一个源访问地址的访问成功率,且所述的访问成功率低于成功率阈值时,则将所述一个源访问地址以及相应的访问记录数据剔除。
4.如权利要求1所述的方法,其特征在于,所述访问状态数据包括:所述至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔中的至少一种。
7.如权利要求1~6任一所述的方法,其特征在于,若所述访问状态数据包括所述至少一个站点页面各自对应的被访次数、被访成功率以及被访时间间隔,则所述确定各个聚类集合各自的权重值,包括:
针对所述各个聚类集合,分别确定各自包含的至少一个目标站点页面,并基于所述至少一个目标站点页面各自对应的被访次数、被访成功率以及被访时间间隔,分别确定各自对应的中心被访次数、中心被访成功率以及中心被访时间间隔;
其中,w表示权重,p′表示中心被访成功率,b表示经验值,q′表示中心被访时间间隔,o′表示中心被访次数。
8.如权利要求1所述的方法,其特征在于,所述基于各个所述权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级,包括:
按照确定的各个权重值的大小,对相应的聚类集合进行排序,并基于排序结果确定各个聚类集合中所包含的站点页面的重要等级。
9.一种站点页面分级的装置,其特征在于,所述装置包括:
获取单元,用于获取站点对应的历史访问日志,所述历史访问日志用于记录通过各个源访问地址,分别访问所述站点中的至少一个站点页面时的访问记录数据;
第一确定单元,基于所述历史访问日志,确定所述至少一个站点页面各自对应的访问状态数据;
聚类单元,用于基于所述访问状态数据,对所述至少一个站点页面进行聚类处理,并确定各个聚类集合各自的权重值;
第二确定单元,用于基于各个所述权重值,分别确定相应的聚类集合中所包含的站点页面的重要等级。
10.一种电子设备,其特征在于,该电子设备包括:存储器和处理器,其中:
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,实现权利要求1~8任一所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~8任一所述方法的步骤。
12.一种计算机程序产品,其特征在于,包括计算机指令,该计算机指令被处理器执行时实现权利要求1~8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210591689.4A CN114817818A (zh) | 2022-05-27 | 2022-05-27 | 站点页面分级的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210591689.4A CN114817818A (zh) | 2022-05-27 | 2022-05-27 | 站点页面分级的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817818A true CN114817818A (zh) | 2022-07-29 |
Family
ID=82519339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210591689.4A Pending CN114817818A (zh) | 2022-05-27 | 2022-05-27 | 站点页面分级的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817818A (zh) |
-
2022
- 2022-05-27 CN CN202210591689.4A patent/CN114817818A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10581908B2 (en) | Identifying phishing websites using DOM characteristics | |
CN111079104B (zh) | 一种权限控制方法、装置、设备及存储介质 | |
CN107465651B (zh) | 网络攻击检测方法及装置 | |
US20190014169A1 (en) | Mobile url categorization | |
CN108551452A (zh) | 网络爬虫方法、终端及存储介质 | |
US20110191342A1 (en) | URL Reputation System | |
CN113010818B (zh) | 访问限流方法、装置、电子设备及存储介质 | |
WO2017049042A1 (en) | Identifying phishing websites using dom characteristics | |
US9832221B1 (en) | Systems and methods for monitoring the activity of devices within an organization by leveraging data generated by an existing security solution deployed within the organization | |
CN111563216B (zh) | 本地数据缓存方法、装置及相关设备 | |
US9876817B2 (en) | Cloud checking and killing method, device and system for combating anti-antivirus test | |
US8984226B2 (en) | Load balancing based upon data usage | |
CN114095567B (zh) | 数据访问请求的处理方法、装置、计算机设备及介质 | |
CN110677384A (zh) | 钓鱼网站的检测方法及装置、存储介质、电子装置 | |
CN113810381B (zh) | 一种爬虫检测方法、web应用云防火墙、装置和存储介质 | |
CN111371778A (zh) | 攻击团伙的识别方法、装置、计算设备以及介质 | |
CN111262875B (zh) | 服务器安全监测方法、装置、系统及存储介质 | |
CN116601630A (zh) | 通过动态蜜罐数据库响应生成防御目标数据库攻击 | |
CN113965497B (zh) | 服务器异常识别方法、装置、计算机设备及可读存储介质 | |
CN109522501A (zh) | 页面内容管理方法及其装置 | |
CN110650126A (zh) | 一种防网站流量攻击方法、装置以及智能终端、存储介质 | |
US11516138B2 (en) | Determining network flow direction | |
CN115001789B (zh) | 一种失陷设备检测方法、装置、设备及介质 | |
CN114817818A (zh) | 站点页面分级的方法、装置、设备及存储介质 | |
US11768889B1 (en) | Evaluating configuration files for uniform resource indicator discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |