CN108280168B - 网页的处理方法/系统、计算机可读存储介质及电子设备 - Google Patents

网页的处理方法/系统、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN108280168B
CN108280168B CN201810054304.4A CN201810054304A CN108280168B CN 108280168 B CN108280168 B CN 108280168B CN 201810054304 A CN201810054304 A CN 201810054304A CN 108280168 B CN108280168 B CN 108280168B
Authority
CN
China
Prior art keywords
webpage
user
vertex
hop
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810054304.4A
Other languages
English (en)
Other versions
CN108280168A (zh
Inventor
李明树
何梅
胡昆
万齐旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Advanced Research Institute of CAS
Original Assignee
Shanghai Advanced Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Advanced Research Institute of CAS filed Critical Shanghai Advanced Research Institute of CAS
Priority to CN201810054304.4A priority Critical patent/CN108280168B/zh
Publication of CN108280168A publication Critical patent/CN108280168A/zh
Application granted granted Critical
Publication of CN108280168B publication Critical patent/CN108280168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页的处理方法/系统、计算机可读存储介质及电子设备,网页的处理方法包括:统计用户在使用网页过程中在网页间跳转的跳转记录;根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。本发明通过统计分析用户使用习惯,智能预测并进行网页预处理,以分析出用户习惯,预测该用户接下来导航打开别的链接的可能性,针对性的根据预测可能性,进行网页预处理,从而提升用户体验。

Description

网页的处理方法/系统、计算机可读存储介质及电子设备
技术领域
本发明属于网页处理技术领域,涉及一种处理方法和系统,特别是涉及一种网页的处理方法/系统、计算机可读存储介质及电子设备。
背景技术
浏览器能够快速打开网页始终是用户的强需求。随着用户终端设备性能的提升、网络性能的提升、渲染技术的优化提升,浏览器加载网页的速度也在逐步提升着,同时,在策略方面,也会有一些用空间换取时间的方法。以谷歌浏览器为代表,应用了一些诸如DNS预解析、TCP预连接、网页预渲染等先进技术,试图在用户真正触发导航之前,提前在后台做一些预处理工作,用空间换时间,以期减少用户等待时间,提升速度。
但是,这项技术的推广使用受限于一个瓶颈因素:如何预测用户下一步期望访问的页面是什么,从而针对性的做这些预处理工作。毕竟这些预处理是需要耗费一定的网络资源、内存空间和计算成本的,所以有效的预测准确率支持是该技术能够应用的前提。
目前已有的一些预测策略包括:
1、用户在地址栏输入地址时,根据历史输入内容,预测接下来会输入的网址,进行自动匹配并且触发网页预处理。
2、网站开发者在网页中加入"dns-prefech"的标记,指导浏览器进行预处理。
用户访问网页的途径中,除了地址栏输入网址访问外,通过页面<a>标签链接点击的方式占用很大比例,因此,上述策略1具有很大的局限性。策略2中网站开发者进行的工作只能针对一些“普适”的情景,无法针对每个用户的使用习惯进行智能控制。如何有效利用用户的使用习惯而做出精准的预处理,将会是一个颇有意义的挑战。
因此,如何提供一种网页的处理方法/系统、计算机可读存储介质及电子设备,以解决现有技术无法有效利用用户的使用习惯,导致预测局限,预测精准性差等缺陷,实已成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种网页的处理方法/系统、计算机可读存储介质及电子设备,用于解决现有技术无法有效利用用户的使用习惯,导致预测局限,预测精准性差的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种网页的处理方法,包括:统计用户在使用网页过程中在网页间跳转的跳转记录;根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
于本发明的一实施例中,所述统计用户在使用网页过程中在网页间跳转的跳转记录的步骤包括:捕捉用户在使用网页过程中的使用行为,并通过一有向图统计所述跳转记录;其中,所述有向图中包括顶点,有向边及有向边的权重;所述顶点表示一网页,用以记录用户访问的统一资源定位符,统一资源定位符作为所述顶点的唯一标识;所述有向边用于标记用户由一顶点通过标签跳转到另一顶点;所述权重用于记录用户由一顶点通过标签跳转到另一顶点的跳转次数。
于本发明的一实施例中,所述统计用户在使用网页过程中在网页间跳转的跳转记录的步骤还包括:当用户待访问所述网页时,通过所述统一资源定位符在所述有向图中查找,若所述有向图中不存在待访问的网页时,在所述有向图中新增顶点,并记录其初始化访问次数为1;若所述有向图中存在待访问的网页时,将该顶点的访问次数加1。
于本发明的一实施例中,所述统计用户在使用网页过程中在网页间跳转的跳转记录的步骤还包括:当用户从一顶点跳转到另一顶点时,若所述有向图中不存在从一顶点跳转到另一顶点的有向边,则在所述有向图中新增该有向边,并初始化该有向边的权重为1;若所述有向图中存在从一顶点跳转到另一顶点的有向边,将该有向边的权重加1。
在统计用户在使用网页过程中在网页间跳转的跳转记录的步骤之后,所述网页的处理方法还包括:判断用户在网页区停留的时间是否达到一预定时间间隔,若是,则读取所述跳转记录,根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;若否,则取消相应的处理操作。
于本发明的一实施例中,在统计用户在使用网页过程中在网页间跳转的跳转记录的步骤之后,所述网页的处理方法还包括:判断用户离开网页区的时间是否达到另一预定时间间隔,若是,则取消相应的处理操作。
于本发明的一实施例中,用户从当前网页跳转至下一跳网页的跳转概率的计算公式为:从当前网页跳转至下一跳网页的跳转概率=用户由用于表示当前网页的顶点通过标签跳转到用于表示下一跳网页的另一顶点的有向边的权重/所述所述用于表示当前网页的顶点的访问次数。
于本发明的一实施例中,所述根据所述跳转概率,则对所述下一跳网页执行相应的处理操作的步骤包括:根据所述跳转概率及用于表示下一跳网页的另一顶点标识的所述统一资源定位符进对下一跳网页进行相应级别的预处理;查看统一资源定位符是否在已完成的预处理列表中,若是,则表示该预处理为有效的,预测命中下一跳网页,对下一跳网页进行加速;若否,则预测未命中下一跳网页,进行下一跳网页的页面加载请求和页面渲染,并清理预处理占用的内存资源。
于本发明的一实施例中,所述对下一跳网页进行相应级别的预处理的步骤包括:DNS预解析、TCP预连接以及网页预渲染;DNS预解析对应第一概率阈值;TCP预连接对应第二概率阈值;网页预渲染对应第三概率阈值;若所计算的跳转概率大于所述第一概率阈值,则对所述下一跳网页进行DNS预解析;若所计算的跳转概率大于所述第二概率阈值,则对所述下一跳网页进行TCP预连接;若所计算的跳转概率大于所述第三概率阈值,则对所述下一跳网页进行网页预渲染;若所计算的跳转概率小于所述第一概率阈值、所述第二概率阈值或所述第三概率阈值,则取消预处理。
本发明另一方面提供一种网页的处理系统,包括:统计模块,用于统计用户在使用网页过程中在网页间跳转的跳转记录;计算模块,用于根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;处理模块,用于根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
于本发明的一实施例中,所述网页的处理系统还包括与所述统计模块耦合的控制模块;所述控制模块用于判断用户在网页区停留的时间是否达到一预定时间间隔,若是,则通知所述计算模块读取所述跳转记录,根据所述跳转记录,计算用户从当前网页通过统一资源定位符跳转至下一跳网页的跳转概率;若否,则通知所述处理模块取消相应的处理操作;所述控制模块还用于判断用户离开网页区的时间是否达到另一预定时间间隔,若是,则通知所述处理模块取消相应的处理操作。
于本发明的一实施例中,所述处理模块包括网页预处理单元;所述网页预处理单元用于根据所述跳转概率及用于标识下一跳网页的另一顶点的所述统一资源定位符对下一跳网页进行相应级别的预处理;若所述计算模块计算的跳转概率大于预存的第一概率阈值,则所述控制模块通知所述网页预处理单元对所述下一跳网页进行DNS预解析;若所述计算模块计算的跳转概率大于预存的第二概率阈值,则所述控制模块通知所述网页预处理单元对所述下一跳网页进行TCP预连接;若所述计算模块计算的跳转概率大于预存的第三概率阈值,则所述控制模块通知所述网页预处理单元对所述下一跳网页进行网页预渲染;若所述计算模块计算的跳转概率小于预存的第一概率阈值、所述第二概率阈值或所述第三概率阈值,则所述控制模块通知所述网页预处理单元取消预处理。
于本发明的一实施例中,所述处理模块还包括网页处理单元和预处理管理单元;所述网页处理单元用于通过所述预处理管理单元中查看统一资源定位符是否在已完成的预处理列表中,若是,则表示该预处理为有效的,预测命中下一跳网页,对下一跳网页进行加速;若否,则预测未命中下一跳网页,进行下一跳网页的页面加载请求和页面渲染,并通过所述预处理管理单元清理预处理占用的内存资源。
于本发明的一实施例中,所述预处理管理单元还用于对所述网页预处理单元预处理发起通知,和/或预处理停止通知。
于本发明的一实施例中,所述网页的处理系统还包括与所述计算模块和所述预处理管理单元耦合的学习模块;所述学习模块用于更新所述处理模块中的概率阈值及下一跳网页的预测命中率。
本发明又一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述网页的处理方法。
本发明最后一方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述网页的处理方法
如上所述,本发明的网页的处理方法/系统、计算机可读存储介质及电子设备,具有以下
有益效果:
本发明所述网页的处理方法/系统、计算机可读存储介质及电子设备通过统计分析用户使用习惯,智能预测并进行网页预处理,以分析出用户习惯,预测该用户接下来导航打开别的链接的可能性,针对性的根据预测可能性,进行网页预处理,从而提升用户体验。
附图说明
图1显示为本发明的网页的处理系统于一实施例中的原理结构示意图。
图2显示为本发明的有向图的结构示意图。
图3显示为本发明的网页的处理方法于一实施例中的流程示意图。
元件标号说明
1 网页的处理系统
11 控制模块
12 统计模块
13 计算模块
14 处理模块
15 学习模块
141 网页预处理单元
142 网页处理单元
143 预处理管理单元
S31~S36 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一
本实施例提供一种网页的处理系统,包括:
统计模块,用于统计用户在使用网页过程中在网页间跳转的跳转记录;
计算模块,用于根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;
处理模块,用于根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
以下将结合图示对本实施例所提供的网页的处理系统进行详细描述。需要说明的是,应理解以上网页的处理系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC),或,一个或多个微处理器(digitalsingnalprocessor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
请参阅图1,显示为网页的处理系统于一实施例中的原理结构示意图。如图1所示,所述网页的处理系统1具体包括:控制模块11、统计模块12、计算模块13、处理模块14及学习模块15。所述处理模块14包括网页预处理单元141、网页处理单元142及预处理管理单元143。
所述控制模块11用于判断用户在网页区停留的时间是否达到一预定时间间隔,若是,则通知所述计算模块读取所述跳转记录,根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;若否,则通知所述处理模块取消相应的处理操作。所述控制模块11还用于判断用户离开网页区的时间是否达到另一预定时间间隔,若是,则通知所述处理模块取消相应的处理操作。若否,则通知所述计算模块读取所述跳转记录,根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率。
具体地,所述控制模块11在用户通过浏览器打开某页面vi(顶点vi),通知统计模块更新顶点vi的访问次数。如果用户通过鼠标在网页区停留时间达到一预定时间间隔,则通知计算模块13进行策略分析用户从当前网页跳转至下一跳网页的跳转概率。如果用户从当前页面vi通过<a>标签跳转到下一跳页面vj,通知统计模块12更新跳转记录,同时通知网页预处理单元141进行网页加载处理。如果用户通过鼠标离开网页区达到另一段预定时间间隔,例如放在地址栏、搜索栏中时,则通知预处理管理单元143取消预处理。如果该标签被关闭或者变成非激活状态,则通知预处理管理单元143取消预处理。
与所述控制模块11耦合的统计模块12用于统计用户在使用网页过程中在网页间跳转的跳转记录。
具体地,所述统计模块12捕捉用户在使用网页过程中的使用行为,并通过一有向图统计所述跳转记录;其中,所述有向图中包括顶点,有向边及有向边的权重;所述顶点表示一网页,用以记录用户访问的统一资源定位符(url),统一资源定位符作为所述顶点的唯一标识;所述有向边用于标记用户由一顶点通过标签跳转到另一顶点;所述权重用于记录用户由一顶点通过标签跳转到另一顶点的跳转次数。请参阅图2,显示为有向图的结构示意图。如图2所示,所述有向图G(V,E),存储用户历史访问行为信息。其中,V为顶点集合,E为有向边集合。
顶点V记录用户访问的url,url作为顶点的唯一标识。用N(Vi)标记顶点Vi被访问的访问次数。
有向边集合E记录各url之间的跳转记录。有向边eij=(vi,vj)标记用户由顶点vi通过<a>标签跳转到另一顶点vj,W(eij)记录有向边eij的权重,即vi跳转到vj的跳转次数。其中,i为1,2,3…;j为1,2,3…。
当用户访问页面时,通过其url在G中查找。如果有向图G中没有相应顶点,则新增顶点v,并记录其初始化访问次数为N(v)=1。否则将该顶点v访问次数加1。
当用户从产生顶点vi跳转到达顶点vj时,如果有向边e=(vi,vj)不在有向边集合E中,则新增边e=(vi,vj)并初始化权重为W(e)=1。否则将该有向边对应的权重加1。
与所述控制模块11和统计模块12耦合的计算模块13用于根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率。从当前网页vi,跳转至下一跳网页vj的跳转概率记为P(vi,vj)。
具体地,用户从当前网页通过标签<a>跳转至下一跳网页的跳转概率P(vi,vj)的计算公式为:
从当前网页跳转至下一跳网页的跳转概率=用户由用于表示当前网页的顶点通过标签<a>跳转到用于表示下一跳网页的另一顶点的有向边的权重/所述所述用于表示当前网页的顶点的访问次数,即P(vi,vj)=W(eij)/N(vi)。
与所述计算模块13耦合的处理模块14用于根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
其中,所述网页预处理单元141用于根据所述跳转概率及用于表示下一跳网页的另一顶点标识的所述统一资源定位符(URL)进对下一跳网页进行相应级别的预处理。预处理的级别从小到大分为DNS预解析、TCP预连接及网页预渲染。DNS预解析、TCP预连接及网页预渲染。DNS预解析对应第一概率阈值P1;TCP预连接对应第二概率阈值P2;网页预渲染对应第三概率阈值P3。
若所述计算模块13计算的跳转概率P(vi,vj)大于预存的第一概率阈值P1或所述有向图G(V,E)中某一有向边eij达到第一概率阈值P1,则所述控制模块11通知所述网页预处理单元141对所述下一跳网页vj进行DNS预解析。
若所述计算模块13计算的跳转概率P(vi,vj)大于预存的第二概率阈值P2或所述有向图G(V,E)中某一有向边eij达到第二概率阈值P2,则所述控制模块11通知所述网页预处理单元141对所述下一跳网页vj进行TCP预连接。
若所述计算模块13计算的跳转概率P(vi,vj)大于预存的第三概率阈值P3或所述有向图G(V,E)中某一有向边eij达到第三概率阈值P3,则所述控制模块11通知所述网页预处理单元141对所述下一跳网页vj进行网页预渲染;
若所述计算模块13计算的跳转概率P(vi,vj)小于预存的第一概率阈值P1、所述第二概率阈值P2或所述第三概率阈值P2,则所述控制模块11通知所述网页预处理单元141取消预处理。
在本实施例中,若用户从当前页面通过标签<a>跳转至下一跳页面,所述控制模块11通知所述统计模块12更新跳转记录,同时通知所述网页处理单元142进行网页加载处理。
与所述网页预处理单元141耦合的网页处理单元142用于通过所述预处理管理单元143中查看统一资源定位符(或目标网址)是否在已完成的预处理列表中,若是,则表示该预处理为有效的,预测命中下一跳网页,对下一跳网页进行加速;若否,则预测未命中下一跳网页,进行下一跳网页的页面加载请求和页面渲染,并通过所述预处理管理单元143清理预处理占用的内存资源。
与所述网页预处理单元141和网页处理单元142耦合的预处理管理单元143用于当接收到控制模块11发出的取消预处理的通知时,通知网页预处理单元141取消预处理,并清理已经为预处理分配的内存空间。当接收控制模块11发出的进行预处理的通知时,通知网页预处理单元141进行预处理。当接收控制模块11查询通知时,查询已经进行的预处理的情况,如果存在有效的预处理结果,则通知网页处理单元142使用,并通知学习模块15预测命中的结果,否则给网页处理单元142无效反馈,并通知所述学习模块15预测未命中结果。所述预处理管理单元143还用于用于对所述网页预处理单元预处理发起通知,和/或预处理停止通知。
与所述计算模块13和处理模块耦合的学习模块15用于更新下一跳网页的预测命中率及所述处理模块14中的概率阈值的参数。
本实施例可以使用表述“耦合”和“连接”连同其派生词来描述。例如,一些实施例可以使用术语“耦合”来描述,以指示两个或多个元素直接物理或者电气接触。然而,术语“耦合”也可以意指两个或多个元素并非直接彼此接触,但仍彼此协作或者交互。实施例并不限于此方面。
本实施例提供的网页的处理系统通过统计分析用户使用习惯,智能预测并进行网页预处理,以分析出用户习惯,预测该用户接下来导航打开别的链接的可能性,针对性的根据预测可能性,进行网页预处理,从而提升用户体验。
实施例二
本实施例提供一种网页的处理方法,包括:
统计用户在使用网页过程中在网页间跳转的跳转记录;
根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;
根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
以下将结合图示对本实施例所提供的网页的处理方法进行详细描述。请参阅图3,显示为网页的处理方法于一实施例中的流程示意图。如图3所示,所述网页的处理方法具体包括以下步骤:
S31,统计用户在使用网页过程中在网页间跳转的跳转记录。
具体地,所述S31包括捕捉用户在使用网页过程中的使用行为,并通过一有向图统计所述跳转记录;其中,所述有向图中包括顶点,有向边及有向边的权重;所述顶点表示一网页,用以记录用户访问的统一资源定位符(url),统一资源定位符作为所述顶点的唯一标识;所述有向边用于标记用户由一顶点通过标签跳转到另一顶点;所述权重用于记录用户由一顶点通过标签跳转到另一顶点的跳转次数。请参阅图2,显示为有向图的结构示意图。如图2所示,所述有向图G(V,E),存储用户历史访问行为信息。其中,V为顶点集合,E为有向边集合。
顶点V记录用户访问的url,url作为顶点的唯一标识。用N(Vi)标记顶点Vi被访问的访问次数。
有向边集合E记录各url之间的跳转记录。有向边eij=(vi,vj)标记用户由顶点vi通过<a>标签跳转到另一顶点vj,W(eij)记录有向边eij的权重,即vi跳转到vj的跳转次数。其中,i为1,2,3…;j为1,2,3…。
当用户访问页面时,通过其url在G中查找。如果有向图G中没有相应顶点,则新增顶点v,并记录其初始化访问次数为N(v)=1。否则将该顶点v访问次数加1。
当用户从产生顶点vi跳转到达顶点vj时,如果有向边e=(vi,vj)不在有向边集合E中,则新增边e=(vi,vj)并初始化权重为W(e)=1。否则将该有向边对应的权重加1。
S32,判断用户在网页区停留的时间是否达到一预定时间间隔,若是,则执行S33;若否,则执行S34,取消相应的处理操作。
S33,读取所述跳转记录,根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率。在本实施例中,从当前网页vi,跳转至下一跳网页vj的跳转概率记为P(vi,vj)。
具体地,用户从当前网页通过标签<a>跳转至下一跳网页的跳转概率P(vi,vj)的计算公式为:
从当前网页跳转至下一跳网页的跳转概率=用户由用于表示当前网页的顶点通过标签<a>跳转到用于表示下一跳网页的另一顶点的有向边的权重/所述所述用于表示当前网页的顶点的访问次数,即P(vi,vj)=W(eij)/N(vi)。
S35,根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
在本实施例中,所述S35包括以下步骤:
根据所述跳转概率及用于表示下一跳网页的另一顶点标识的所述统一资源定位符进对下一跳网页进行相应级别的预处理。
预处理的级别从小到大分为DNS预解析、TCP预连接及网页预渲染。DNS预解析、TCP预连接及网页预渲染。DNS预解析对应第一概率阈值P1;TCP预连接对应第二概率阈值P2;网页预渲染对应第三概率阈值P3。
具体地,若所计算的跳转概率P(vi,vj)大于预存的第一概率阈值P1或所述有向图G(V,E)中某一有向边eij达到第一概率阈值P1,则对所述下一跳网页vj进行DNS预解析。
若所计算的跳转概率P(vi,vj)大于预存的第二概率阈值P2或所述有向图G(V,E)中某一有向边eij达到第二概率阈值P2,则对所述下一跳网页vj进行TCP预连接。
若所计算的跳转概率P(vi,vj)大于预存的第三概率阈值P3或所述有向图G(V,E)中某一有向边eij达到第三概率阈值P3,则对所述下一跳网页vj进行网页预渲染;
若所计算的跳转概率P(vi,vj)小于预存的第一概率阈值P1、所述第二概率阈值P2或所述第三概率阈值P2,则取消预处理。
查看统一资源定位符是否在已完成的预处理列表中,若是,则表示该预处理为有效的,预测命中下一跳网页,对下一跳网页进行加速;若否,则预测未命中下一跳网页,进行下一跳网页的页面加载请求和页面渲染,并清理预处理占用的内存资源。
在本实施例中,所述处理方法还包括:
当接收取消预处理的通知时,则取消预处理,并清理已经为预处理分配的内存空间。
当接收预处理的通知时,则进行预处理。
当接收查询通知时,查询已经进行的预处理的情况,如果存在有效的预处理结果,则通知使用该预处理结果,并通知预测命中的结果,否则无效反馈,并通知预测未命中结果。
S36,根据预测命中情况,更新下一跳网页的预测命中率及概率阈值的参数。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上所述网页的处理方法。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例三
本实施例提供一种电子设备,包括:处理器、存储器、收发器、通信接口和系统总线;存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于和其他设备进行通信,处理器和收发器用于运行计算机程序,使电子设备执行如实施例二所述网页的处理方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明所述网页的处理方法/系统、计算机可读存储介质及电子设备通过统计分析用户使用习惯,智能预测并进行网页预处理,以分析出用户习惯,预测该用户接下来导航打开别的链接的可能性,针对性的根据预测可能性,进行网页预处理,从而提升用户体验。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (16)

1.一种网页的处理方法,其特征在于,包括:
统计用户在使用网页过程中在网页间跳转的跳转记录;本步骤包括:捕捉用户在使用网页过程中的使用行为,并通过一有向图统计所述跳转记录;其中,所述有向图中包括顶点,有向边及有向边的权重;所述顶点表示一网页,用以记录用户访问的统一资源定位符,统一资源定位符作为所述顶点的唯一标识;所述有向边用于标记用户由一顶点通过标签跳转到另一顶点;所述权重用于记录用户由一顶点通过标签跳转到另一顶点的跳转次数;
根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;
根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
2.根据权利要求1所述的网页的处理方法,其特征在于,所述统计用户在使用网页过程中在网页间跳转的跳转记录的步骤还包括:
当用户待访问所述网页时,通过所述统一资源定位符在所述有向图中查找,若所述有向图中不存在待访问的网页时,在所述有向图中新增顶点,并记录其初始化访问次数为1;若所述有向图中存在待访问的网页时,将该顶点的访问次数加1。
3.根据权利要求1所述的网页的处理方法,其特征在于,所述统计用户在使用网页过程中在网页间跳转的跳转记录的步骤还包括:
当用户从一顶点跳转到另一顶点时,若所述有向图中不存在从一顶点跳转到另一顶点的有向边,则在所述有向图中新增该有向边,并初始化该有向边的权重为1;若所述有向图中存在从一顶点跳转到另一顶点的有向边,将该有向边的权重加1。
4.根据权利要求1所述的网页的处理方法,其特征在于,在统计用户在使用网页过程中在网页间跳转的跳转记录的步骤之后,所述网页的处理方法还包括:
判断用户在网页区停留的时间是否达到一预定时间间隔,若是,则读取所述跳转记录,根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;若否,则取消相应的处理操作。
5.根据权利要求4所述的网页的处理方法,其特征在于,在统计用户在使用网页过程中在网页间跳转的跳转记录的步骤之后,所述网页的处理方法还包括:
判断用户离开网页区的时间是否达到另一预定时间间隔,若是,则取消相应的处理操作。
6.根据权利要求1所述的网页的处理方法,其特征在于,用户从当前网页跳转至下一跳网页的跳转概率的计算公式为:
从当前网页跳转至下一跳网页的跳转概率=用户由用于表示当前网页的顶点通过标签跳转到用于表示下一跳网页的另一顶点的有向边的权重/所述所述用于表示当前网页的顶点的访问次数。
7.根据权利要求5所述的网页的处理方法,其特征在于,所述根据所述跳转概率,则对所述下一跳网页执行相应的处理操作的步骤包括:
根据所述跳转概率及用于表示下一跳网页的另一顶点标识的所述统一资源定位符进对下一跳网页进行相应级别的预处理;
查看统一资源定位符是否在已完成的预处理列表中,若是,则表示该预处理为有效的,预测命中下一跳网页,对下一跳网页进行加速;若否,则预测未命中下一跳网页,进行下一跳网页的页面加载请求和页面渲染,并清理预处理占用的内存资源。
8.根据权利要求7所述的网页的处理方法,其特征在于,所述对下一跳网页进行相应级别的预处理的步骤包括:DNS预解析、TCP预连接以及网页预渲染;
DNS预解析对应第一概率阈值;TCP预连接对应第二概率阈值;网页预渲染对应第三概率阈值;
若所计算的跳转概率大于所述第一概率阈值,则对所述下一跳网页进行DNS预解析;
若所计算的跳转概率大于所述第二概率阈值,则对所述下一跳网页进行TCP预连接;
若所计算的跳转概率大于所述第三概率阈值,则对所述下一跳网页进行网页预渲染;
若所计算的跳转概率小于所述第一概率阈值、所述第二概率阈值或所述第三概率阈值,则取消预处理。
9.一种网页的处理系统,其特征在于,包括:
统计模块,用于统计用户在使用网页过程中在网页间跳转的跳转记录;所述统计模块捕捉用户在使用网页过程中的使用行为,并通过一有向图统计所述跳转记录;其中,所述有向图中包括顶点,有向边及有向边的权重;所述顶点表示一网页,用以记录用户访问的统一资源定位符,统一资源定位符作为所述顶点的唯一标识;所述有向边用于标记用户由一顶点通过标签跳转到另一顶点;所述权重用于记录用户由一顶点通过标签跳转到另一顶点的跳转次数;
计算模块,用于根据所述跳转记录,计算用户从当前网页跳转至下一跳网页的跳转概率;
处理模块,用于根据所述跳转概率,则对所述下一跳网页执行相应的处理操作。
10.根据权利要求9所述的网页的处理系统,其特征在于,所述网页的处理系统还包括与所述统计模块耦合的控制模块;
所述控制模块用于判断用户在网页区停留的时间是否达到一预定时间间隔,若是,则通知所述计算模块读取所述跳转记录,根据所述跳转记录,计算用户从当前网页通过统一资源定位符跳转至下一跳网页的跳转概率;若否,则通知所述处理模块取消相应的处理操作;
所述控制模块还用于判断用户离开网页区的时间是否达到另一预定时间间隔,若是,则通知所述处理模块取消相应的处理操作。
11.根据权利要求10所述的网页的处理系统,其特征在于,所述处理模块包括网页预处理单元;所述网页预处理单元用于根据所述跳转概率及用于标识下一跳网页的另一顶点的所述统一资源定位符对下一跳网页进行相应级别的预处理;
若所述计算模块计算的跳转概率大于预存的第一概率阈值,则所述控制模块通知所述网页预处理单元对所述下一跳网页进行DNS预解析;
若所述计算模块计算的跳转概率大于预存的第二概率阈值,则所述控制模块通知所述网页预处理单元对所述下一跳网页进行TCP预连接;
若所述计算模块计算的跳转概率大于预存的第三概率阈值,则所述控制模块通知所述网页预处理单元对所述下一跳网页进行网页预渲染;
若所述计算模块计算的跳转概率小于预存的第一概率阈值、所述第二概率阈值或所述第三概率阈值,则所述控制模块通知所述网页预处理单元取消预处理。
12.根据权利要求10所述的网页的处理系统,其特征在于,所述处理模块还包括网页处理单元和预处理管理单元;所述网页处理单元用于通过所述预处理管理单元中查看统一资源定位符是否在已完成的预处理列表中,若是,则表示该预处理为有效的,预测命中下一跳网页,对下一跳网页进行加速;若否,则预测未命中下一跳网页,进行下一跳网页的页面加载请求和页面渲染,并通过所述预处理管理单元清理预处理占用的内存资源。
13.根据权利要求12所述的网页的处理系统,其特征在于,所述预处理管理单元还用于对所述网页预处理单元预处理发起通知,和/或预处理停止通知。
14.根据权利要求12所述的网页的处理系统,其特征在于,所述网页的处理系统还包括与所述计算模块和所述预处理管理单元耦合的学习模块;所述学习模块用于更新所述处理模块中的概率阈值及下一跳网页的预测命中率。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8中任一项所述网页的处理方法。
16.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至8中任一项所述网页的处理方法。
CN201810054304.4A 2018-01-19 2018-01-19 网页的处理方法/系统、计算机可读存储介质及电子设备 Active CN108280168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810054304.4A CN108280168B (zh) 2018-01-19 2018-01-19 网页的处理方法/系统、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810054304.4A CN108280168B (zh) 2018-01-19 2018-01-19 网页的处理方法/系统、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN108280168A CN108280168A (zh) 2018-07-13
CN108280168B true CN108280168B (zh) 2022-03-08

Family

ID=62804240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810054304.4A Active CN108280168B (zh) 2018-01-19 2018-01-19 网页的处理方法/系统、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN108280168B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213930B (zh) * 2018-07-30 2021-04-02 网宿科技股份有限公司 目标应用页面的推送信息的获取方法及电子设备
CN109410849B (zh) * 2018-12-21 2021-05-18 上海墨案智能科技有限公司 刷新控制方法、装置及存储介质
CN111241451A (zh) * 2020-01-14 2020-06-05 北京三快在线科技有限公司 网页处理方法、装置、计算机设备及存储介质
CN112181527B (zh) * 2020-09-30 2022-09-02 支付宝(杭州)信息技术有限公司 小程序的跳转数据的处理方法、装置和服务器
CN113535311A (zh) * 2021-07-29 2021-10-22 展讯半导体(成都)有限公司 一种页面显示方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737037A (zh) * 2011-04-07 2012-10-17 北京搜狗科技发展有限公司 一种网页预读取的方法、装置及一种浏览器
CN103246526A (zh) * 2012-02-07 2013-08-14 腾讯科技(深圳)有限公司 客户端预加载方法及客户端预加载装置
CN106326261A (zh) * 2015-06-26 2017-01-11 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN106339398A (zh) * 2015-07-09 2017-01-18 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN106716969A (zh) * 2014-09-18 2017-05-24 英特尔公司 用于预先动作执行的技术

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385641B1 (en) * 1998-06-05 2002-05-07 The Regents Of The University Of California Adaptive prefetching for computer network and web browsing with a graphic user interface
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs
CN103823904B (zh) * 2014-03-19 2014-11-26 广东绿瘦健康信息咨询有限公司 网页浏览路径优化方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737037A (zh) * 2011-04-07 2012-10-17 北京搜狗科技发展有限公司 一种网页预读取的方法、装置及一种浏览器
CN103246526A (zh) * 2012-02-07 2013-08-14 腾讯科技(深圳)有限公司 客户端预加载方法及客户端预加载装置
CN106716969A (zh) * 2014-09-18 2017-05-24 英特尔公司 用于预先动作执行的技术
CN106326261A (zh) * 2015-06-26 2017-01-11 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN106339398A (zh) * 2015-07-09 2017-01-18 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备

Also Published As

Publication number Publication date
CN108280168A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280168B (zh) 网页的处理方法/系统、计算机可读存储介质及电子设备
KR101999471B1 (ko) 정보 추천 방법 및 장치
CN103282891B (zh) 用于使用神经网络来进行有效的缓存的系统和方法
CN109684575A (zh) 网页数据的处理方法及装置、存储介质、计算机设备
US20120143844A1 (en) Multi-level coverage for crawling selection
WO2017107570A1 (zh) 一种基于HTML5应用缓存的移动Web缓存优化方法
CN102821113A (zh) 缓存方法及系统
WO2020244230A1 (zh) 资源转移、红包发放方法、装置及设备
CN110442379A (zh) 保护有条件的推测指令执行
CN111666497A (zh) 应用程序的加载方法、装置、电子设备及可读存储介质
CN114900546B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN106598881B (zh) 页面处理方法及装置
CN109600272A (zh) 爬虫检测的方法及装置
CN116862580A (zh) 短信触达时间预测方法、装置、计算机设备及存储介质
CN113626483B (zh) 一种填写表单的前端缓存方法、系统、设备及存储介质
CN114374595B (zh) 事件节点归因分析方法、装置、电子设备及存储介质
CN116132283A (zh) 一种分布式数据采集方法、系统、设备及存储介质
CN113656549B (zh) 电子书的内容搜索方法、电子设备及计算机存储介质
CN112907198B (zh) 业务状态流转维护方法、装置及电子设备
CN114818716A (zh) 一种风险主体的识别方法、装置、存储介质及设备
CN113626340A (zh) 测试需求识别方法、装置、电子设备及存储介质
US11163876B2 (en) Guided security analysis
CN118227446B (zh) 高速缓存性能评估方法、装置、电子设备及可读存储介质
CN111090515A (zh) 一种访问控制方法、装置、终端设备及存储介质
CN112395521B (zh) 页面处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant