CN111783000A - 门户网站的静态化处理方法及装置 - Google Patents
门户网站的静态化处理方法及装置 Download PDFInfo
- Publication number
- CN111783000A CN111783000A CN202010610749.3A CN202010610749A CN111783000A CN 111783000 A CN111783000 A CN 111783000A CN 202010610749 A CN202010610749 A CN 202010610749A CN 111783000 A CN111783000 A CN 111783000A
- Authority
- CN
- China
- Prior art keywords
- page
- access
- target
- static
- staticizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供了一种门户网站的静态化处理方法及装置,该方法包括:若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表获得目标动态页面的目标静态化访问时序记录,目标静态化访问时序记录包括:唯一的起始页面的页面标识,和依次连接的多个关联页面的页面标识,起始页面的页面标识为目标动态页面的页面标识;根据目标动态页面的数据内容,生成起始页面和各个关联页面的静态化页面的数据内容;若接收到目标用户的页面访问请求,则获取页面访问请求对应的静态化页面的数据内容并输出显示。本申请能够提高门户网站静态化处理的效率和实时性,增加静态化处理应用场景的广泛性,进而提高访问门户网站的可靠性和效率。
Description
技术领域
本申请涉及静态化技术领域,尤其涉及一种门户网站的静态化处理方法及装置。
背景技术
门户网站,是指通向某类综合性互联网信息资源并提供有关信息服务的应用系统;例如,企业门户网站,企业门户网站是一种信息类且以首页为基础切入点的门户网站,为企业提供了单一的访问企业各种信息资源的入口,企业的客户、员工和合作伙伴都可以通过企业门户网站获得个性化的信息和服务。
现有的门户网站静态化处理方法无法满足目前页面结构复杂、信息服务内容较广、网站内容变更频繁、页面引用关系错综复杂的大型门户网站的需求,存在效率低和实时性差的问题。
发明内容
针对现有技术中的问题,本申请提出了一种门户网站的静态化处理方法及装置,能够提高门户网站静态化处理的效率和实时性,能够增加静态化处理应用场景的广泛性,进而能够提高访问门户网站的可靠性和效率。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种门户网站的静态化处理方法,包括:
若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识;
根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容;
若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
进一步地,所述若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,包括:判断目标门户网站的动态页面变更消息队列是否存在新增的动态页面变更消息记录,若是,则确定该目标门户网站存在发生数据内容变更的目标动态页面;从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录。
进一步地,在所述从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录之前,还包括:获取多个历史用户各自的页面访问日志信息,并根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图,该页面访问有向连通图包括:多个访问流,所述访问流为历史用户从首页串行访问至访问终止页经历的各个页面的页面标识及页面访问顺序,并将该页面访问顺序作为访问流方向,若多个所述访问流之间存在相同的页面标识,则将该相同的页面标识设为访问流之间的交叉节点;生成所述页面访问有向连通图对应的多个极大强连通子图,每个所述极大强连通子图包括:至少一个所述访问流和唯一的访问终止页的页面标识;若各个所述极大强连通子图中的访问流均唯一,则分别生成各个所述极大强连通子图各自对应的静态化访问时序记录,并将各个所述静态化访问时序记录组成所述静态化策略表;所述静态化访问时序记录中的页面标识和对应的极大强连通子图中的页面标识相同并且该静态化访问时序记录中的静态化方向和对应的极大强连通子图中的访问流方向相反。
进一步地,在所述生成所述页面访问有向连通图对应的多个极大强连通子图之后,还包括:若存在具有多个访问流的目标极大强连通子图,则生成所述目标极大强连通子图对应的页面关系树形结构图;前序遍历所述页面关系树形结构图,得到所述目标极大强连通子图对应的静态化访问时序记录;分别生成除所述目标极大强连通子图之外的各个极大强连通子图各自对应的静态化访问时序记录;将各个所述静态化访问时序记录组成所述静态化策略表。
进一步地,每个所述访问流中的首页的页面标识个数均为1。
进一步地,在所述根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图之前,还包括:将所述页面访问日志信息中的相邻的多个访问中间页面的页面标识作为待确认页面标识组;若任一所述页面访问日志信息中存在相邻且重复的待确认页面标识组,则删除该页面访问日志信息中的该相邻且重复的待确认页面标识组。
进一步地,所述页面访问有向连通图还包括:访问流深度,该访问流深度为从所述首页串行至所述访问终止页经历的各个页面的个数;相对应的,在所述根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图之前,还包括:根据用户访问时间的前后对所述页面访问日志信息中各个页面标识从前往后进行排序;若任一所述页面访问日志信息中的页面标识的个数超出页面标识个数阈值,则删除该页面访问日志信息中排序位数超出所述页面标识个数阈值的页面标识。
进一步地,在所述根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图之前,包括:删除各个所述页面访问日志信息中相邻且重复的页面标识。
进一步地,所述根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容,包括:若生成所述起始页面对应的静态化页面的数据内容消耗的时间未超出起始页面对应的耗时上限阈值,并且在小于该耗时上限阈值的时间范围内多次生成该起始页面对应的静态化页面的数据内容,则仅在最后一次生成所述起始页面对应的静态化页面的数据内容之后,生成各个关联页面各自对应的静态化页面的数据内容。
进一步地,在所述根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容之前,还包括:
定时根据所述预设的静态化策略表,生成静态化访问时序记录对应的各个静态化页面各自的数据内容;
判断生成所述静态化访问时序记录对应的各个静态化页面各自的数据内容的实际消耗时间之和是否小于全流程静态化时间阈值,若是,则将所述全流程静态化时间阈值与关联页面静态化时间之间的差值作为所述访问起始页面对应的起始页时间阈值,其中,该关联页面静态化时间为生成各个关联页面对应的静态化页面的数据内容实际消耗时间之和。
第二方面,在本申请提供一种门户网站的静态化处理装置,包括:
判断模块,用于若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识;
生成模块,用于根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容;
输出模块,用于若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
进一步地,所述判断模块,包括:判断单元,用于判断目标门户网站的动态页面变更消息队列是否存在新增的动态页面变更消息记录,若是,则确定该目标门户网站存在发生数据内容变更的目标动态页面;获得单元,用于从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的门户网站的静态化处理方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的门户网站的静态化处理方法。
由上述技术方案可知,本申请提供一种门户网站的静态化处理方法及装置。其中,该方法包括:若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识;根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容;若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示,能够提高门户网站静态化处理的效率和实时性,能够增加静态化处理应用场景的广泛性,适用于页面结构复杂的门户网站,进而能够提高访问门户网站的可靠性和效率;具体地,自动生成适合门户网站特性的静态化策略,并根据网站的信息量和业务量的变化动态修正,能够解决人工规则难以持续维护和存在遗漏的问题;自动构建网站关系图谱,能够简化人工梳理工作,避免遗漏,提高门户网站静态化处理的准确性;通过静态化策略中的静态化访问时序记录解决静态化顺序问题,通过阈值策略优化静态化过程,能够节省综合静态化开销,提高静态化处理过程的效率;通过静态化日志分析持续对静态化策略调优,能够减少人工规则干预,提供普适性、便捷性的基础服务,进而保证门户网站运行的可靠性和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中门户网站的静态化处理方法的流程示意图;
图2是本申请实施例中门户网站的静态化处理方法步骤201至202的流程示意图;
图3是本申请实施例中门户网站的静态化处理方法步骤301至303的流程示意图;
图4是本申请实施例中门户网站的静态化处理方法步骤401至404的流程示意图;
图5是本申请一个举例中根据页面访问有向连通图生成对应的极大强连通子图的逻辑示意图;
图6是本申请一个举例中页面访问日志信息预处理的逻辑示意图;
图7是本申请另一举例中页面访问日志信息预处理的逻辑示意图;
图8是本申请又一举例中页面访问日志信息预处理的逻辑示意图;
图9是本申请再一举例中页面访问日志信息预处理的逻辑示意图;
图10是本申请实施例中门户网站的静态化处理装置的结构示意图;
图11是本申请具体应用实例中静态化处理系统的结构示意图;
图12是本申请具体应用实例中企业门户网站的静态化处理方法的流程示意图;
图13是本申请具体应用实例中构建页面关系图谱过程的流程示意图;
图14是本申请具体应用实例中静态化时序记录抽取过程的流程示意图;
图15是本申请一个举例中生成静态化时序记录的逻辑示意图;
图16是本申请一个举例中极大强连通子图逆序的逻辑示意图;
图17是本申请一个举例中根据逆序后的极大强连通子图生成静态化时序记录的逻辑示意图;
图18是本申请一个举例中静态化时序记录的逻辑示意图;
图19是本申请具体应用实例中耗时上限阈值设置过程的流程示意图;
图20是本申请一个举例中阈值优化后的静态化时序记录的逻辑示意图;
图21是本申请具体应用实例中日志分析过程的流程示意图;
图22是本申请一个举例中生成静态化访问时序记录的逻辑示意图;
图23为本申请实施例的电子设备9600的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了给用户提供更加良好的交互体验,减少企业门户服务器的设备投入,企业门户网站大多采用网站静态化技术,以实现快速响应和高并发能力、满足搜索引擎优化(Search Engine Optimization,简称SEO),更好地通过搜索引擎提升企业的影响力;但是目前大型企业门户的页面结构复杂、信息服务内容较广、网站内容变更频繁、页面引用关系错综复杂,如何最大化提升企业门户网站静态化的效率、缩短静态化时效、满足静态化时序,以提供顺畅的交互体验,避免因公共部分调整导致整个站点重静态的“雪崩效应”是亟待解决的问题。基于此,本申请考虑从改变现有的门户网站静态化处理方式入手,提出一种门户网站的静态化处理方法及装置,能够将门户动态站点转化为静态网站,通过自动构建企业门户架构、自动抽取静态时序,完成静态化策略沉淀。静态化程序根据静态化策略抓取动态页面,并将动态页面上的全部数据制成快照,以文件形式存储在网络服务器上,形成静态化页面文件。Web服务器在接收到用户页面访问请求后,直接获取静态化页面文件响应用户请求,能够避免用户请求对应用服务器造成的集中访问。同时,该静态化页面文件已经完成数据的组装,可以直接被互联网搜索引擎抓取使用,有利于企业业务推广。
基于此,为了提高门户网站静态化处理的效率和实时性,增加静态化处理应用场景的广泛性,进而提高访问门户网站的可靠性和效率,本申请实施例提供一种门户网站的静态化处理装置,该装置可以是一服务器或客户端设备,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。
在实际应用中,进行门户网站的静态化处理的部分可以在如上述内容所述的服务器侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
具体通过下述各个实施例进行说明。
为了提高门户网站静态化处理的效率和实时性,增加静态化处理应用场景的广泛性,进而提高访问门户网站的可靠性和效率,本实施例提供一种执行主体是门户网站的静态化处理装置的门户网站的静态化处理方法,该门户网站的静态化处理装置包括但不限于服务器,如图1所示,该方法具体包含有如下内容:
步骤101:若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识。
具体地,所述数据内容可以是部分页面信息,如列表和文章等,也可以是整个页面的页面信息;所述页面标识用于区分不同的页面,可以是网页地址;所述目标动态页面可以是目标门户网站中的信息类页面。
步骤102:根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容。
具体地,可以根据所述起始页面的页面标识确定对应的起始页面,根据各个关联页面的页面标识确定对应的关联页面;在生成所述起始页面和各个关联页面对应的静态化页面的数据内容之后,还包含有:将各个所述静态化页面的数据内容均存储在所述目标门户网站对应的网络服务器。可以理解的是,本实施例中,生成可以表示新建,也可以表示更新,例如,若已存在所述起始页面和各个关联页面对应的静态化页面的数据内容,则根据所述目标动态页面的数据内容,更新所述起始页面和各个关联页面对应的静态化页面的数据内容。
步骤103:若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
具体地,所述页面访问请求可以包含有该目标用户待访问页面的页面标识,根据该待访问页面的页面标识确定对应的静态化页面,并将该静态化页面的数据内容输出显示。
为了进一步提高确定目标动态页面的准确性和效率,进而提高获得目标静态化访问时序记录的准确性和效率,参见图2,在本申请一个实施例中,步骤101包含有:
步骤201:判断目标门户网站的动态页面变更消息队列是否存在新增的动态页面变更消息记录,若是,则确定该目标门户网站存在发生数据内容变更的目标动态页面。
具体地,可以实时监控或定时监控目标门户网站的动态页面变更消息队列是否存在新增的动态页面变更消息记录,该动态页面变更消息记录中包含有动态页面的页面标识。
步骤202:从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录。
具体地,从所述预设的静态化策略表中,获取将该目标动态页面的页面标识作为起始页面的页面标识的静态化访问时序记录,并将该静态化访问时序记录作为目标静态化访问时序记录。
为了提高生成静态化策略表的自动化程度,获得可靠的静态化策略表,进而应用该静态化策略表准确且高效地生成静态化页面的数据内容,保持最优静态化效果,参见图3,在本申请一个实施例中,在步骤101之前还包含有:
步骤301:获取多个历史用户各自的页面访问日志信息,并根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图,该页面访问有向连通图包括:多个访问流,所述访问流为历史用户从首页串行访问至访问终止页经历的各个页面的页面标识及页面访问顺序,并将该页面访问顺序作为访问流方向,若多个所述访问流之间存在相同的页面标识,则将该相同的页面标识设为访问流之间的交叉节点。
具体地,获取预设时段内的目标门户网站的多个历史用户各自的页面访问日志信息,该预设时段可根据实际情况进行设置,本申请对此不作限制;每个所述页面访问日志信息包括:唯一的用户标识、多个页面标识,以及各个所述页面标识对应的用户访问时间,用户标识可以是用户IP地址,用于区分不同的用户;可以根据所述用户访问时间的前后确定每个页面访问日志信息对应的用户访问流方向。
进一步地,可以分别生成各个页面访问日志信息各自对应的页面关系图谱,每个页面关系图谱包括:多个页面标识、页面标识之间的连接线和连接线的方向,根据历史用户在预设时段内访问各个页面的顺序确定各个连接线的方向,并应用钻取策略对各个页面关系图谱进行处理,根据处理后的各个关系图谱生成所述页面访问有向连通图。
步骤302:生成所述页面访问有向连通图对应的多个极大强连通子图,每个所述极大强连通子图包括:至少一个所述访问流和唯一的访问终止页的页面标识。
具体地,若所述页面访问有向连通图仅有一个访问终止页的页面标识,则该所述页面访问有向连通图对应的唯一的极大强连通子图。
步骤303:若各个所述极大强连通子图中的访问流均唯一,则分别生成各个所述极大强连通子图各自对应的静态化访问时序记录,并将各个所述静态化访问时序记录组成所述静态化策略表;所述静态化访问时序记录中的页面标识和对应的极大强连通子图中的页面标识相同并且该静态化访问时序记录中的静态化方向和对应的极大强连通子图中的访问流方向相反。
具体地,若每个所述极大强连通子图分别仅有一个访问流,则静态化访问时序记录中的页面标识和对应的极大强连通子图中的页面标识均相同,并且静态化访问时序记录的静态化方向和对应的极大强连通子图的访问流方向相反,该静态化方向为生成静态化访问时序记录对应的各个页面的静态化页面的数据内容的顺序。举例来说,若所述页面访问有向连通图中的访问流为首页→C→D→F,则对应的静态化访问时序记录的页面静态化为F→D→C→首页;可以理解的是,根据所述静态化方向和目标动态页面的数据内容,依次生成所述目标静态化访问时序记录中的各个页面标识对应的静态化页面的数据内容。
为了进一步提高获得静态化策略表的准确性和自动化程度,参见图4,在本申请一个实施例中,在步骤302之后包含有:
步骤401:若存在具有多个访问流的目标极大强连通子图,则生成所述目标极大强连通子图对应的页面关系树形结构图。
具体地,所述生成所述目标极大强连通子图对应的页面关系树形结构图,包含有:
步骤S4011:将所述目标极大强连通子图中的访问终止页的页面标识作为目标根节点。
步骤S4012:执行生成树形结构图步骤:将与所述目标根节点之间的预设的关系权重值最大的页面标识作为该目标根节点的子节点,将所述目标极大强连通子图中与该目标根节点关联、访问流方向指向该根节点且除所述子节点之外的各个页面标识作为该根节点的孙节点。
其中,可以通过两个页面之间的关联次数/各个页面中的最少的关联次数,得到所述预设的关系权重值。例如:A→B 5000次,A→C 500次,A→D 1000次,则其中最少的关联次数是500,那么A页面和B页面之间的关系权重值为10,A页面和C页面之间的关系权重值为1,A页面和D页面之间的关系权重值为2。
步骤S4013:判断所述孙节点是否存在关联节点,若是,则将该孙节点作为目标根节点,再次执行生成树形结构图步骤,若否,则根据步骤S4012得到各个节点和节点之间关联关系生成所述页面关系树形结构图。
其中,所述孙节点的关联节点为所述目标极大强连通子图中与该孙节点直接关联且访问流方向指向该孙节点的各个页面标识。
可以理解的是,页面访问有向连通图中的访问终止页的页面标识个数与对应的极大强连通子图的个数相同;在一个举例中,根据页面访问有向连通图生成对应的极大强连通子图的逻辑示意图如图5所示,该页面访问有向连通图的访问流有四种,分别为首页→A1→A2,深度为3;首页→A3→A4→A5,深度为4;首页→A6,深度为2;以及首页→A3→A4→A6,深度为4;首页、A1至A6分别表示不同的页面;该页面访问有向连通图中包含有三个访问终止页标识A2、A6和A5,相对应的,该页面访问有向连通图对应有三个极大强连通子图。
步骤402:前序遍历所述页面关系树形结构图,得到所述目标极大强连通子图对应的静态化访问时序记录。
具体地,可以删除所述静态化访问时序记录中的相邻且重复的页面标识、页面标识组以及重复的首页标识。在一个举例中,如图22所示,I1至I4分别表示不同的页面,SY表示首页,1、2、3和5表示页面之间的关系权重值,可以根据逆序后的目标极大强连通图生成页面关系树形结构图,前序遍历所述页面关系树形结构图,得到所述目标极大强连通子图对应的静态化访问时序记录,删除所述静态化访问时序记录中重复的I1页面标识和首页标识SY。
步骤403:分别生成除所述目标极大强连通子图之外的各个极大强连通子图各自对应的静态化访问时序记录。
步骤404:将各个所述静态化访问时序记录组成所述静态化策略表。
具体地,将各个极大强连通子图各自对应的静态化访问时序记录组合成所述静态化策略表。
由上述描述可知,通过构建静态化策略表,还能够解决人工静态化规则通常较为简单,无法应对复杂页面逻辑及网站结构的持续变化的问题,提升网站吞吐量。
为了提高获取目标极大强连通子图的可靠性,进而应用可靠的目标极大强连通子图生成可靠的静态化策略表,在一个举例中,在步骤302之后,还包括:
S401:若经判断得到存在具有多个访问流方向的极大强连通子图,则根据该具有多个访问流方向的极大强连通子图中,深度最长的访问流对应的各个页面标识、访问流方向和访问流深度生成中间连通子图。
S402:从所述中间连通子图和极大强连通子图中,获得各个页面访问有向连通图各自对应的访问流深度最长的目标极大强连通子图。
为了进一步提高页面访问有向连通图的可靠性,进而提高生成静态化策略表的准确性和效率,在本申请一个实施例中,每个所述访问流中的首页的页面标识个数均为1。
图6为在一个举例中页面访问日志信息预处理的逻辑示意图,图6中首页、B1、B2和B3分别表示不同的页面,在页面访问日志信息中,用户访问流以首页作为起始节点,如在一次访问过程中返回了首页,则该次访问流终止,从返回首页开始作为第二次访问流的起始,以此类推,对页面访问日志信息处理,以使根据预处理后的页面访问日志信息生成的页面访问有向连通图中的每个所述访问流仅有一个首页的页面标识并将该首页的页面标识作为起始访问页面的页面标识。
为了进一步提高获取页面访问有向连通图的准确性,进而提高生成静态化策略表的准确性和效率,在本申请一个实施例中,在步骤301之前还包含有:
将所述页面访问日志信息中的相邻的多个访问中间页面的页面标识作为待确认页面标识组;若任一所述页面访问日志信息中存在相邻且重复的待确认页面标识组,则删除该页面访问日志信息中的该相邻且重复的待确认页面标识组。
可以理解的是,删除相邻且重复的待确认页面标识组表示仅保留一个所述待确认页面标识组;在一个举例中,如图7所示,用户从C1页面跳转到C2页面,再从C2页面跳回C1页面,循环N次,则页面访问日志信息中只记录一次C1页面跳转C2页面的情况。该情况大多出现在浏览新闻列表的场景中,用户逐条点击新闻标题,然后返回列表中,首页、C1、C2和C3分别表示不同的页面。
为了进一步提高生成页面访问有向连通图的效率,进而提高生成静态化策略表的准确性和效率,在本申请一个实施例中,所述页面访问有向连通图还包括:访问流深度,该访问流深度为从所述首页串行至所述访问终止页经历的各个页面的个数;相对应的,在步骤301,还包括:
根据用户访问时间的前后对所述页面访问日志信息中各个页面标识从前往后进行排序;若任一所述页面访问日志信息中的页面标识的个数超出页面标识个数阈值,则删除该页面访问日志信息中排序位数超出所述页面标识个数阈值的页面标识。
具体地,该页面标识个数阈值可根据各企业门户的特性进行设置,如图8所示,在一种举例中,用户访问流存在最大深度阈值D,D可以为整数,设为2,即D<3,图8中首页、D1、D2和D3分别表示不同的页面;用户访问流的深度达到最大深度阈值后,后续访问流不再进行记录,以规避网络爬虫造成的遍历型场景。
为了进一步提高生成页面访问有向连通图的效率,进而提高生成静态化策略表的效率,在本申请一个实施例中,在步骤301之前,还包括:删除各个所述页面访问日志信息中相邻且重复的页面标识。
可以理解的是,删除所述页面访问日志信息中相邻且重复的页面标识表示仅保留该页面标识中的一个;连续重复性请求只记录一次,以规避网络爬虫造成的重复性请求、用户触发的翻页类请求;在一种举例中,如图9所示,删除页面访问日志信息中重复的页面标识,图9中,首页、E1和E2分别表示不同的页面。
为了提高门户网站静态化处理的效率,在本申请一个实施例中,步骤102包含有:
若生成所述起始页面对应的静态化页面的数据内容消耗的时间未超出起始页面对应的耗时上限阈值,并且在小于该耗时上限阈值的时间范围内多次生成该起始页面对应的静态化页面的数据内容,则仅在最后一次生成所述起始页面对应的静态化页面的数据内容之后,生成各个关联页面各自对应的静态化页面的数据内容。
也就是说,如果起始页面在小于该起始页面对应的耗时上限阈值的时间范围内多次更新静态化页面的数据内容,则只需要执行一遍后续页面的静态化处理过程,能够提高静态化处理的效率。
进一步地,所述起始页面和各个关联页面均有各自对应的耗时上限阈值,当生成各个页面对应的静态化页面的数据内容时,判断消耗的时间是否超出各自对应的耗时上限阈值,若否,则等待直至消耗的时间达到对应的耗时上限阈值,再根据静态化方向执行生成后一页面的静态化页面的数据内容的过程。
为了减少重复静态化的开销,缩短整个页面链路的静态化用时,进一步提高门户网站静态化处理的准确性和可靠性,在本申请一个实施例中,在步骤102之前还包含有:
步骤501:定时根据所述预设的静态化策略表,生成静态化访问时序记录对应的各个静态化页面各自的数据内容。
具体地,定时根据静态化访问时序记录中的起始页面的页面标识,确定对应的动态页面;根据所述动态页面的数据内容生成静态化访问时序记录对应的各个页面的静态化页面各自的数据内容。
步骤502:判断生成所述静态化访问时序记录对应的各个静态化页面各自的数据内容的实际消耗时间之和是否小于全流程静态化时间阈值,若是,则将所述全流程静态化时间阈值与关联页面静态化时间之间的差值作为所述访问起始页面对应的耗时上限阈值,其中,该关联页面静态化时间为生成各个关联页面对应的静态化页面的数据内容实际消耗时间之和。
为了进一步说明本方案,本申请还提供一种企业门户网站的静态化处理系统,如图11所示,该静态化处理系统包括:关系图谱装置1;页面分类装置2,用于存储信息类页面;管理日志分析装置3,用于获取信息更新频率;策略分析装置4,用于评估整个静态化过程的效果。
关系图谱装置1,存储有网站页面节点类型,以过滤用户日志中的资源类请求(图片、css和js等)干扰。页面分类装置2,存储有信息类页面,作为终止节点以完成子图的识别。管理日志分析装置3,存储有信息更新频率和单节点静态化时效,用于完成静态化时序节点的耗时上限阈值设置,最大限度满足静态化综合耗时最优策略。策略分析装置4,接收单个页面节点触发的时间、频率、次数和相关性条件的统计结果,并根据各节点的等待时间及全流程的耗时,调整各节点的阈值,动态修正静态化流程的开销。
为了进一步说明本方案,本申请还提供一种企业门户网站的静态化处理方法的具体应用实例,如图12所示,在本具体应用实例中,该方法具体包含有:
S1:访问日志输入。
S2:构建页面关系图谱,用于表示网站的页面结构。
首先根据预存储的网站页面节点类型,过滤用户访问日志中的资源类请求(图片、css、js等)干扰;通过用户访问的页面节点顺序构建页面关系图谱,两个页面的先后依赖程度越高,节点关系的权重越大。页面关系图谱构建成功后,进入静态化时序抽取。如图13所示,构建页面关系图谱具体包含有:
S21:网页地址URL提取,系统完成用户访问日志中URL的识别;S22:网页地址URL过滤,去除资源类请求(如jpg、js和css请求等),只保留页面类请求;S23:关系构建,完成页面类请求的关联关系存储。S24:生成有向连通图,考虑到绝大多数企业门户的页面关系复杂,页面之间相互跳转的情况较多,为了合理规划出网站结构,需要依赖钻取策略,即通过一系列的规则加以限定,以避免关系无限嵌套的情况,基于构建的页面关系图谱和钻取策略可以计算得出网站的有向连通图。
钻取策略具体内容如下:
(1)首页起始、首页终止
如图6所示,用户访问流以首页作为起始节点,如在一次访问过程中返回了首页,则该次访问流终止,从返回首页开始作为第二次访问流的起始,以此类推。
(2)循环消除
如图7所示,用户从C1页面跳转到C2页面,再从C2页面跳回C1页面,继续从C1页面跳转到C2页面的情况,只记录一次C1页面跳转C2页面。该情况大多出现在浏览新闻列表的场景中,用户逐条点击新闻标题,然后返回列表的情况。
(3)最大深度限制
如图8所示,用户访问流存在最大深度限制,该阈值D可根据各企业门户的特性进行设置,通常为网站最深层级的2倍。用户访问流的长度达到阈值后,后续访问流不再进行记录,以规避网络爬虫造成的遍历型场景。
(4)重复请求消除
如图9所示,连续重复性请求只记录一次,以规避网络爬虫造成的重复性请求、用户触发的翻页类请求。
S3:静态化时序记录抽取;完成静态化时序记录关系的抽取。如图14所示,具体包含有:
S31:获取有向连通图;S32:数据关系提取;S33:极大强连通子图逆序;S34:得到静态化时序记录并保存。其中,具体地,“静态化时序记录”表示页面静态化时各页面的串行静态化次序。在一个举例中,正常用户访问企业门户的访问流为:
(1)访问首页,点击首页上的产品介绍链接跳转到产品列表页F1;
(2)浏览产品列表,点击列表上的某项产品,跳转到产品明细页F2;
(3)浏览产品明细,完成一次访问闭环。
从上述访问流可看到,用户的访问顺序为:首页→F1→F2;如果全站静态化,那就需要确保用户在访问首页的时候,F1资源已可用;在访问F1的时候,F2资源已可用。则“静态化时序记录”就需要从里用户最远的页面开始,逐层静态化到直接面向用户的页面,如图15所示,将用户的访问顺序首页→F1→F2逆序得到对应的静态化时序记录,即:F2→F1→首页。基于页面类型的静态化顺序抽取,以首页为初始节点,以信息类页面为终止节点,完成极大强连通子图的识别。将极大强连通子图的访问流逆序,并以信息类页面为初始节点,根据节点关系权重,以权重最大的节点为子节点,其余节点为孙节点的方式,将逆序后的极大强连通子图转换为树形结构,该树形结构按照前序遍历即为静态化时序记录。具体包含有:
以预存储的各个页面节点为条件,获取有向连通图中对应的“首页为起始点、信息节点为终止点”的极大强连通子图。该极大强连通子图即为从首页开始,所有可达信息页的路径。
静态化顺序需遵循“自底向上、逐层推进”的策略,即从底层信息页开始,逐渐完成最近页面直至首页的静态化,确保最面向用户的页面视图中所有的资源均为静态化资源,否则将出现静态资源不可访问的问题,完成极大强连通子图逆序,即从底层信息页开始,逐步达到首页;如图16所示,在一个举例中,通过对极大强连通子图逆序,访问流方向由以首页开始至信息类页面G3结束改变为信息类页面G3开始至首页结束,图16中首页、G1、G2和G3分别表示不同的页面。
如图17所示,在一个举例中,以逆序后的极大强连通子图中的信息类页面H3为初始节点,以节点关系权重最大的页面节点H2为子节点,其余页面节点为孙节点,将逆序后的极大强连通子图转换为树形结构,保留离根节点最远的首页节点,图17中的1至5分别表示页面节点之间的节点关系权重;将该树形结构按照前序遍历得到的结果即为静态化时序记录H3→H2→H1→首页,图17中首页、H1至H3分别表示不同的页面。
S4:静态化节点阈值调整,设置各节点的耗时上限阈值;
根据预存储的信息更新频率和单页面节点的静态化时效,完成静态化时序记录中各个页面节点的耗时上限阈值的设置,最大限度满足静态化综合耗时最优策略,根据已经标注完耗时上限阈值的静态化策略对静态化日志进行分析。对单个页面节点触发的时间、频率、次数和相关性条件进行统计,并根据各个页面节点的等待时间及全流程的耗时,调整各页面节点的耗时上限阈值,动态修正静态化流程的开销。
在一种举例中,静态化时序记录如图18所示,该静态化时序记录中包括各个页面节点的实际静态化开销,C页面节点(信息页)的静态化开销为1s,B页面节点(列表页,2000页)的静态化开销为20分钟,A页面节点(频道页,集合了5个列表页)的静态化开销为4分钟,首页节点的静态化开销为1分钟,一次全量静态化的实效开销为25分1秒。当C页面节点信息更新后,能够30分钟内完成全量静态化,则静态化时序记录的时效性可以满足要求,图18中首页、A、B和C分别表示不同的页面。
但在业务高峰期,若C页面节点的信息在1分钟里更新了两次,按照顺序处理模式需要触发两次全量静态化,时间开销需50分钟2秒,无法满足30分钟内完成静态化的要求,这就需要在静态化时序记录的基础上增加阈值策略,优化静态化触发过程。
图19显示完成静态化策略中各页面节点的耗时上限阈值设置的过程,该过程包括S41:阈值初始标注,将静态化策略中各节点的耗时上限阈值标注为该节点单次运行的耗时;S42:静态化试跑,根据既定的静态化策略,通过静态化试跑计算全流程静态化耗时的开销;S43:试跑结果分析;S44:节点耗时上限阈值设置;最大化初始节点的等待时间,通过将多轮静态化的过程开销合并,达到节省后续节点重跑开销的目的。经过调整后的最大全流程静态化时间开销T的计算规则为:
其中:t0表示初始节点的时间开销,θ表示t0节点的耗时上限阈值,MIN(t0*n,θ)表示初始节点执行n次或者到达耗时上限阈值的时间;m表示全流程共m个节点,表示自第二个节点t1开始直至tm的时间开销总和。
静态化策略中各节点的单次运行开销将随着企业网站信息量、页面复杂度的变化动态调整,每天定时重跑,自动修正各节点的耗时上限阈值,以保持持续调优的效果。
如图20所示,经过优化后,C页面节点的耗时上限阈值调整为5分钟。C页面节点在更新后如果耗时低于5分钟耗时上限阈值则继续等待,直至等待时间满。业务高峰期间,如果C页面节点在5分钟内更新多次,只需要执行一遍后续节点的静态化,仍然可以满足30分钟内完成静态化的要求,图20中首页、A、B和C分别表示不同的页面。
S5:日志分析。
图21为静态化日志分析过程,该过程包括:S51:日志存储,收集最终各节点静态化的日志,包括个节点的静态化频率、次数、相关性;S52:频率分析,根据各时段信息节点更新的频率动态调整阈值策略,在业务高峰期调高耗时上限阈值,业务低谷期调低耗时上限阈值,使得静态化综合开销尽可能低;耗时上限阈值的最高值和最低值由人工设置,初始为平均数,数每次调整步伐以20%为限(即总共分为5档)。S53:数量分析,根据一定周期内节点更新的数量进行分类调优,即一定时间内更新次数前20%的节点归为新信息节点,低于20%的节点移除信息节点。S54:耗时分析,根据不同静态化子图的运行日志,得出各节点静态化开销时间。
由上述描述可知,本具体应用实例通过分析用户访问日志自动构建企业门户页面结构,利用页面访问的先后关系及相关程度完成静态化关系的抽取,得到静态化时序记录。通过静态化时序记录上各节点耗时上限阈值的设定,最大限度减少特定时间内多轮静态化开销,获得较为理想的静态化效果。
从软件层面来说,为了提高门户网站静态化处理的效率和实时性,增加静态化处理应用场景的广泛性,进而提高访问门户网站的可靠性和效率,本申请还提供一种用于实现所述门户网站的静态化处理方法中全部或部分内容的门户网站的静态化处理度装置的实施例,参见图10,所述门户网站的静态化处理装置具体包含有如下内容:
判断模块10,用于若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识。
生成模块20,用于根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容。
输出模块30,用于若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
在本申请一个实施例中,所述判断模块,包括:
判断单元,用于判断目标门户网站的动态页面变更消息队列是否存在新增的动态页面变更消息记录,若是,则确定该目标门户网站存在发生数据内容变更的目标动态页面。
获得单元,用于从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录。
本说明书提供的门户网站的静态化处理装置的实施例具体可以用于执行上述门户网站的静态化处理方法的实施例的处理流程,其功能在此不再赘述,可以参照上述门户网站的静态化处理方法实施例的详细描述。
由上述描述可知,本申请提供的门户网站的静态化处理方法及装置,能够提高门户网站静态化处理的效率和实时性,能够增加静态化处理应用场景的广泛性,进而能够提高访问门户网站的可靠性和效率,具体地,以较少的人工规则为基础,自动构建适合门户特性的静态化规则,并根据网站的信息量和业务量的变化动态修正,解决了人工规则难以持续维护和存在遗漏的问题;自动构建网站关系图谱,简化人工梳理工作,避免遗漏;通过构建静态化时序记录解决静态化顺序问题,通过阈值策略优化静态化过程,节省综合静态化开销;通过静态化日志分析持续进行策略调优,减少人工规则干预,提供普适性、便捷性的基础服务。
从硬件层面来说,为了提高门户网站静态化处理的效率和实时性,增加静态化处理应用场景的广泛性,进而提高访问门户网站的可靠性和效率,本申请提供一种用于实现所述门户网站的静态化处理方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述门户网站的静态化处理装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述门户网站的静态化处理方法的实施例及用于实现所述门户网站的静态化处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图23为本申请实施例的电子设备9600的系统构成的示意框图。如图23所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图23是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,门户网站的静态化处理功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤101:若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识;
步骤102:根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容;
步骤103:若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
从上述描述可知,本申请的实施例提供的电子设备,能够提高门户网站静态化处理的效率和实时性,能够增加静态化处理应用场景的广泛性,进而能够提高访问门户网站的可靠性和效率。
在另一个实施方式中,门户网站的静态化处理装置可以与中央处理器9100分开配置,例如可以将门户网站的静态化处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现门户网站的静态化处理功能。
如图23所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图23中所示的所有部件;此外,电子设备9600还可以包括图23中没有示出的部件,可以参考现有技术。
如图23所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够提高门户网站的静态化处理的效率和灵活度,进而提高用户体验。
本申请的实施例还提供能够实现上述实施例中的门户网站的静态化处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的门户网站的静态化处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤101:若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识;
步骤102:根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容;
步骤103:若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够提高门户网站静态化处理的效率和实时性,能够增加静态化处理应用场景的广泛性,进而能够提高访问门户网站的可靠性和效率。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种门户网站的静态化处理方法,其特征在于,包括:
若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识;
根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容;
若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
2.根据权利要求1所述的门户网站的静态化处理方法,其特征在于,所述若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,包括:
判断目标门户网站的动态页面变更消息队列是否存在新增的动态页面变更消息记录,若是,则确定该目标门户网站存在发生数据内容变更的目标动态页面;
从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录。
3.根据权利要求1所述的门户网站的静态化处理方法,其特征在于,在所述从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录之前,还包括:
获取多个历史用户各自的页面访问日志信息,并根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图,该页面访问有向连通图包括:多个访问流,所述访问流为历史用户从首页串行访问至访问终止页经历的各个页面的页面标识及页面访问顺序,并将该页面访问顺序作为访问流方向,若多个所述访问流之间存在相同的页面标识,则将该相同的页面标识设为访问流之间的交叉节点;
生成所述页面访问有向连通图对应的多个极大强连通子图,每个所述极大强连通子图包括:至少一个所述访问流和唯一的访问终止页的页面标识;
若各个所述极大强连通子图中的访问流均唯一,则分别生成各个所述极大强连通子图各自对应的静态化访问时序记录,并将各个所述静态化访问时序记录组成所述静态化策略表;
所述静态化访问时序记录中的页面标识和对应的极大强连通子图中的页面标识相同并且该静态化访问时序记录中的静态化方向和对应的极大强连通子图中的访问流方向相反。
4.根据权利要求3所述的门户网站的静态化处理方法,其特征在于,在所述生成所述页面访问有向连通图对应的多个极大强连通子图之后,还包括:
若存在具有多个访问流的目标极大强连通子图,则生成所述目标极大强连通子图对应的页面关系树形结构图;
前序遍历所述页面关系树形结构图,得到所述目标极大强连通子图对应的静态化访问时序记录;
分别生成除所述目标极大强连通子图之外的各个极大强连通子图各自对应的静态化访问时序记录;
将各个所述静态化访问时序记录组成所述静态化策略表。
5.根据权利要求3所述的门户网站的静态化处理方法,其特征在于,每个所述访问流中的首页的页面标识个数均为1。
6.根据权利要求3所述的门户网站的静态化处理方法,其特征在于,在所述根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图之前,还包括:
将所述页面访问日志信息中的相邻的多个访问中间页面的页面标识作为待确认页面标识组;
若任一所述页面访问日志信息中存在相邻且重复的待确认页面标识组,则删除该页面访问日志信息中的该相邻且重复的待确认页面标识组。
7.根据权利要求3所述的门户网站的静态化处理方法,其特征在于,所述页面访问有向连通图还包括:访问流深度,该访问流深度为从所述首页串行至所述访问终止页经历的各个页面的个数;
相对应的,在所述根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图之前,还包括:
根据用户访问时间的前后对所述页面访问日志信息中各个页面标识从前往后进行排序;
若任一所述页面访问日志信息中的页面标识的个数超出页面标识个数阈值,则删除该页面访问日志信息中排序位数超出所述页面标识个数阈值的页面标识。
8.根据权利要求3所述的门户网站的静态化处理方法,其特征在于,在所述根据各个所述页面访问日志信息生成所述目标门户网站对应的页面访问有向连通图之前,包括:
删除各个所述页面访问日志信息中相邻且重复的页面标识。
9.根据权利要求1所述的门户网站的静态化处理方法,其特征在于,所述根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容,包括:
若生成所述起始页面对应的静态化页面的数据内容消耗的时间未超出起始页面对应的耗时上限阈值,并且在小于该耗时上限阈值的时间范围内多次生成该起始页面对应的静态化页面的数据内容,则仅在最后一次生成所述起始页面对应的静态化页面的数据内容之后,生成各个关联页面各自对应的静态化页面的数据内容。
10.根据权利要求1所述的门户网站的静态化处理方法,其特征在于,在所述根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容之前,还包括:
定时根据所述预设的静态化策略表,生成静态化访问时序记录对应的各个静态化页面各自的数据内容;
判断生成所述静态化访问时序记录对应的各个静态化页面各自的数据内容的实际消耗时间之和是否小于全流程静态化时间阈值,若是,则将所述全流程静态化时间阈值与关联页面静态化时间之间的差值作为所述访问起始页面对应的耗时上限阈值,其中,该关联页面静态化时间为生成各个关联页面对应的静态化页面的数据内容实际消耗时间之和。
11.一种门户网站的静态化处理装置,其特征在于,包括:
判断模块,用于若经判断确定目标门户网站存在发生数据内容变更的目标动态页面,则从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录,其中,该目标静态化访问时序记录包括:唯一的起始页面的页面标识,以及依次连接的多个关联页面各自的页面标识,并且所述起始页面的页面标识为所述目标动态页面的页面标识;
生成模块,用于根据所述目标动态页面的数据内容,分别生成所述起始页面和各个关联页面对应的静态化页面的数据内容;
输出模块,用于若接收到目标用户的页面访问请求,则获取该页面访问请求对应的静态化页面的数据内容并将该数据内容输出显示。
12.根据权利要求11所述的门户网站的静态化处理装置,其特征在于,所述判断模块,包括:
判断单元,用于判断目标门户网站的动态页面变更消息队列是否存在新增的动态页面变更消息记录,若是,则确定该目标门户网站存在发生数据内容变更的目标动态页面;
获得单元,用于从预设的静态化策略表中,获得所述目标动态页面对应的目标静态化访问时序记录。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述的门户网站的静态化处理方法。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至10任一项所述的门户网站的静态化处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010610749.3A CN111783000B (zh) | 2020-06-30 | 2020-06-30 | 门户网站的静态化处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010610749.3A CN111783000B (zh) | 2020-06-30 | 2020-06-30 | 门户网站的静态化处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783000A true CN111783000A (zh) | 2020-10-16 |
CN111783000B CN111783000B (zh) | 2023-08-08 |
Family
ID=72760736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010610749.3A Active CN111783000B (zh) | 2020-06-30 | 2020-06-30 | 门户网站的静态化处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783000B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113364773A (zh) * | 2021-06-04 | 2021-09-07 | 中国工商银行股份有限公司 | 安全性识别方法、装置和电子设备 |
CN113589995A (zh) * | 2021-08-23 | 2021-11-02 | 中国银行股份有限公司 | 用户界面切换方法、装置、电子设备、介质及产品 |
CN113657076A (zh) * | 2021-08-17 | 2021-11-16 | 中国平安财产保险股份有限公司 | 页面操作记录表的生成方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007129660A1 (ja) * | 2006-05-08 | 2007-11-15 | Torus Co., Ltd. | 静的ウェブページ生成方法、プログラム、記録媒体及び静的ウェブページ生成管理システム |
CN101501664A (zh) * | 2005-03-29 | 2009-08-05 | 微软公司 | 用于传送网页数据的系统和方法 |
US20140201615A1 (en) * | 2005-05-31 | 2014-07-17 | N. Isaac Rajkumar | System and method for the dynamic provisioning of static content |
CN107071066A (zh) * | 2017-06-07 | 2017-08-18 | 北京潘达互娱科技有限公司 | 页面访问方法及装置 |
CN108519903A (zh) * | 2018-04-09 | 2018-09-11 | 平安普惠企业管理有限公司 | 静态资源适配方法、装置、计算机设备及存储介质 |
CN110737856A (zh) * | 2019-09-10 | 2020-01-31 | 苏宁云计算有限公司 | 一种页面获取方法、装置及系统 |
-
2020
- 2020-06-30 CN CN202010610749.3A patent/CN111783000B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101501664A (zh) * | 2005-03-29 | 2009-08-05 | 微软公司 | 用于传送网页数据的系统和方法 |
US20140201615A1 (en) * | 2005-05-31 | 2014-07-17 | N. Isaac Rajkumar | System and method for the dynamic provisioning of static content |
WO2007129660A1 (ja) * | 2006-05-08 | 2007-11-15 | Torus Co., Ltd. | 静的ウェブページ生成方法、プログラム、記録媒体及び静的ウェブページ生成管理システム |
CN107071066A (zh) * | 2017-06-07 | 2017-08-18 | 北京潘达互娱科技有限公司 | 页面访问方法及装置 |
CN108519903A (zh) * | 2018-04-09 | 2018-09-11 | 平安普惠企业管理有限公司 | 静态资源适配方法、装置、计算机设备及存储介质 |
CN110737856A (zh) * | 2019-09-10 | 2020-01-31 | 苏宁云计算有限公司 | 一种页面获取方法、装置及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113364773A (zh) * | 2021-06-04 | 2021-09-07 | 中国工商银行股份有限公司 | 安全性识别方法、装置和电子设备 |
CN113364773B (zh) * | 2021-06-04 | 2022-11-29 | 中国工商银行股份有限公司 | 安全性识别方法、装置和电子设备 |
CN113657076A (zh) * | 2021-08-17 | 2021-11-16 | 中国平安财产保险股份有限公司 | 页面操作记录表的生成方法、装置、电子设备及存储介质 |
CN113657076B (zh) * | 2021-08-17 | 2023-08-22 | 中国平安财产保险股份有限公司 | 页面操作记录表的生成方法、装置、电子设备及存储介质 |
CN113589995A (zh) * | 2021-08-23 | 2021-11-02 | 中国银行股份有限公司 | 用户界面切换方法、装置、电子设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111783000B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783000B (zh) | 门户网站的静态化处理方法及装置 | |
CN105447088B (zh) | 一种基于志愿者计算的多租户专业云爬虫系统 | |
CN104090889A (zh) | 数据处理方法及系统 | |
CN112749358A (zh) | 页面渲染方法和装置、电子设备以及存储介质 | |
CN113254472B (zh) | 一种参数配置方法、装置、设备及可读存储介质 | |
CN103902357A (zh) | 应用程序管理系统及方法 | |
CN110928950A (zh) | 区块链交易信息管理方法、装置、计算机设备及存储介质 | |
CN104702592A (zh) | 流媒体下载方法和装置 | |
CN112468828B (zh) | 全景视频的码率分配方法、装置、移动终端及存储介质 | |
CN107508914A (zh) | 一种基于云计算分析的消息精准推送方法和系统 | |
CN104753922A (zh) | 用于预加载的方法、服务端、客户端及系统 | |
CN112231481A (zh) | 网址的分类方法、装置、计算机设备和存储介质 | |
CN103209102A (zh) | Web服务质量的分布式测量系统和方法 | |
CN114237896A (zh) | 分布式节点资源动态调度方法及装置 | |
CN106375319A (zh) | 一种音视频转码调度的方法、装置、设备及系统 | |
CN104168174A (zh) | 一种传输信息的方法及装置 | |
CN112035676A (zh) | 用户操作行为知识图谱构建方法及装置 | |
CN110138803A (zh) | 一种网络行为数据的方法和可视化平台 | |
CN103577481A (zh) | 一种广告数据搜索的方法和装置 | |
CN105160006A (zh) | 页面内容传输方法 | |
CN115294979A (zh) | 用于减少语音响应时间的方法、装置、存储介质和语音设备 | |
CN103533009A (zh) | 一种基于Web技术实现音视频推荐的方法和系统 | |
CN114816354A (zh) | 一种数据资产管理方法、系统、计算机设备及存储介质 | |
KR20120004953A (ko) | 웹 서비스의 사용자 체감 성능 모니터링 방법과 이를 위한 프로그램이 기록된 기록매체 및 컴퓨팅 장치 | |
CN114239963A (zh) | 有向图循环路径检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |