CN109635181B - 页面访问方法、电子设备及计算机程序产品 - Google Patents
页面访问方法、电子设备及计算机程序产品 Download PDFInfo
- Publication number
- CN109635181B CN109635181B CN201811547428.2A CN201811547428A CN109635181B CN 109635181 B CN109635181 B CN 109635181B CN 201811547428 A CN201811547428 A CN 201811547428A CN 109635181 B CN109635181 B CN 109635181B
- Authority
- CN
- China
- Prior art keywords
- page
- operation mode
- url
- accessed
- previous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本申请实施例中提供了一种页面访问方法、电子设备及计算机程序产品。采用本申请中的方案,确定待访问页面的前一页面;获取与前一页面对应的操作模式;根据对应的操作模式拼接出当前操作模式;基于当前操作模式对前一页面进行操作,以访问待访问页面。本申请在确定待访问页面的前一页面后,获取与前一页面对应的操作模式;根据对应的操作模式拼接出当前操作模式;基于当前操作模式对前一页面进行操作,实现对待访问页面的访问。
Description
技术领域
本申请涉及计算机技术,具体地,涉及一种页面访问方法、电子设备及计算机程序产品。
背景技术
随着网络的迅速发展,网络成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问网络的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。
(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3)网络数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,网络爬虫应运而生。网络爬虫是一个自动提取网页的程序,它为搜索引擎从网络上下载网页,是搜索引擎的重要组成。而网络爬虫的重要一个环节为页面访问。
发明内容
本申请实施例中提供了一种页面访问方法、电子设备及计算机程序产品。
根据本申请实施例的第一个方面,提供了一种页面访问方法,包括:
确定待访问页面的前一页面;
获取与前一页面对应的操作模式;
根据对应的操作模式拼接出当前操作模式;
基于所述当前操作模式对所述前一页面进行操作,以访问所述待访问页面。
可选地,所述确定待访问页面的前一页面,包括:
获取预先存储的页面序列;
依次访问页面序列中未访问过的每个页面;
当首次出现无法正常访问的页面时,所述无法正常访问的页面为待访问页面;
页面序列中,所述无法正常访问的页面的前一页面为所述待访问页面的前一页面。
可选地,所述获取与前一页面对应的操作模式,包括:
在预先存储的操作模式中,确定每个操作模式对应页面的统一资源定位符URL和第一二层可扩展标记语言XML节点;
确定所述前一页面的URL和第一二层XML节点;
获取对应页面的URL与所述前一页面的URL匹配,且对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配的操作模式。
可选地,对应页面的URL与所述前一页面的URL匹配的确定方法,包括:
若对应页面的URL与所述前一页面的URL相同,则确定对应页面的URL与所述前一页面的URL匹配;
若对应页面的URL与所述前一页面的URL不相同,则当对应页面的URL中最后一个预设字符之前的内容与所述前一页面的URL中最后一个预设字符之前的内容相同时,确定对应页面的URL与所述前一页面的URL匹配。
可选地,对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配的确定方法,包括:
若对应页面的第一二层XML节点内容与所述前一页面的第一二层XML节点内容相同,则确定对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配;
若对应页面的第一二层XML节点内容与所述前一页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配。
可选地,任一操作模式包括鼠标移动轨迹及鼠标点击事件序列;
所述根据对应的操作模式拼接出当前操作模式,包括:
在对应的操作模式中,选择鼠标点击事件顺序一致的操作模式,并将其作为候选操作模式;
若候选操作模式为多个,则
选择点击对象序列最长的候选操作模式,将其作为基础操作模式;
依次选择基础操作模式中的各鼠标点击事件,在除基础操作模式之外的候选操作模式中任选一个,将其作为选择的鼠标点击事件的拼接操作模式;将所述基础操作模式中选择的鼠标点击事件的前一鼠标点击事件至所述选择的鼠标点击事件之间的鼠标移动轨迹替换为鼠标点击事件的拼接操作模式中选择的鼠标点击事件的前一鼠标点击事件至所述选择的鼠标点击事件之间的鼠标移动轨迹;
将替换后的鼠标移动轨迹确定为当前操作模式的鼠标移动轨迹,将所述基础操作模式鼠标点击事件确定为当前操作模式的鼠标点击事件序列。
可选地,所述基于所述当前操作模式对所述前一页面进行操作,包括:
基于所述当前操作模式对所述前一页面进行操作,并获取操作反馈页面;
确定反馈页面的URL和第一二层XML节点;
确定预先存储的待访问页面的URL和第一二层XML节点;
若反馈页面的URL与预先存储的待访问页面的URL匹配,且反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配,则确定所述待访问页面被访问;
若反馈页面的URL与预先存储的待访问页面的URL不匹配,或者,反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配,则重新执行根据对应的操作模式拼接出当前操作模式,基于所述当前操作模式对所述前一页面进行操作,以访问所述待访问页面的步骤;
其中,重新执行根据对应的操作模式拼接出当前操作模式步骤所得到的当前操作模式与重新执行之前得到的当前操作模式不同。
可选地,反馈页面的URL与预先存储的待访问页面的URL是否匹配的确定方法,包括:
若反馈页面的URL与预先存储的待访问页面的URL相同,则确定反馈页面的URL与预先存储的待访问页面的URL匹配;
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容相同时,确定反馈页面的URL与预先存储的待访问页面的URL匹配;
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容不相同时,确定反馈页面的URL与预先存储的待访问页面的URL不匹配;
反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点是否匹配的确定方法,包括:
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容相同,则确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配;
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配;
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当存在位于title标签和h1标签外的相同内容时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配。
根据本申请实施例的第二个方面,提供了一种电子设备,所述电子设备包括:显示器,存储器,一个或多个处理器;以及一个或多个模块,所述一个或多个模块被存储在所述存储器中,并被配置成由所述一个或多个处理器执行,所述一个或多个模块包括用于执行上述第一个方面任一所述方法中各个步骤的指令。
根据本申请实施例的第三个方面,提供了一种计算机程序产品,所述计算机程序产品对用于执行一种过程的指令进行编码,所述过程包括上述第一个方面中任一项所述的方法。
采用本申请实施例中提供的方法,在确定待访问页面的前一页面后,获取与前一页面对应的操作模式;根据对应的操作模式拼接出当前操作模式;基于当前操作模式对前一页面进行操作,实现对待访问页面的访问。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一实施例提供的一种操作模式示意图;
图2为本申请一实施例提供的另一种操作模式示意图;
图3为本申请一实施例提供的一种页面访问方法的流程示意图;
图4为本申请一实施例提供的一种拼接后的操作模式示意图;
图5为本申请一实施例提供的一种电子设备结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现,现阶段的网络爬虫程序的编写通常需要专业的软件开发人员通过查询页面代码、研究其对应的规则,并且对于不同的网站、页面也需要编写不同的爬虫程序。
针对上述问题,本申请实施例中提供了一种页面访问方法、电子设备及计算机程序产品,在确定待访问页面的前一页面后,获取与前一页面对应的操作模式;根据对应的操作模式拼接出当前操作模式;基于当前操作模式对前一页面进行操作,实现对待访问页面的访问。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在执行本申请提供的页面访问方法之前,在得到用户的授权的前提下,会通过浏览器插件实现的用户行为跟踪模块,通过记录使用者鼠标移动轨迹,鼠标点击事件及点击的时刻,并将其生成对应网页的操作模式,并将其存储至云端数据库。每一个页面至少存储10种或以上的操作模式。
如通过如下的代码获取如图1和图2所示的操作模式。
除了记录操作模式之外,还会通过浏览器插件记录页面访问顺序,将其形成页面序列,并存储该页面序列。
另外,还会记录每个页面的URL和第一二层XML(eXtensible Markup Language,可扩展标记语言)节点。
在记录了操作模式和页面序列之后,可以采用图3所示的页面访问方法访问页面,参见图3,本实施例所示的页面访问方法的实现流程如下:
101,确定待访问页面的前一页面。
本步骤的实现方式如下:
1-1,获取预先存储的页面序列。
本步骤的页面序列即预先存储的页面序列中的一个序列。如,首页-搜索-详情-购物车-付款…的序列。
1-2,依次访问页面序列中未访问过的每个页面。
1-3,当首次出现无法正常访问的页面时,无法正常访问的页面为待访问页面。
例如,首页页面访问正常,搜索页面访问正常,详情页面无法正常访问,则详情页面为待访问页面。
1-4,页面序列中,无法正常访问的页面的前一页面为待访问页面的前一页面。
例如,详情页面之前的页面(搜索页面)为待访问页面的前一页面。
102,获取与前一页面对应的操作模式。
本步骤的实现方式为:
2-1,在预先存储的操作模式中,确定每个操作模式对应页面的URL(UniformResource Locator,统一资源定位符)和第一二层XML节点。
2-2,确定前一页面的URL和第一二层XML节点。
例如,搜索页面的URL和第一二层XML节点
2-3,获取对应页面的URL与前一页面的URL匹配,且对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配的操作模式。
其中,对应页面的URL与前一页面的URL匹配的确定方法如下:
若对应页面的URL与前一页面的URL相同,则确定对应页面的URL与前一页面的URL匹配。
若对应页面的URL与前一页面的URL不相同,则当对应页面的URL中最后一个预设字符之前的内容与前一页面的URL中最后一个预设字符之前的内容相同时,确定对应页面的URL与前一页面的URL匹配。
预设字符为/。
例如,URL为https://union-click.jd.com/jdc?d=Rn6r2u,则对应页面的URL中最后一个预设字符之前的内容为https://union-click.jd.com。
对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配的确定方法包括:
若对应页面的第一二层XML节点内容与前一页面的第一二层XML节点内容相同,则确定对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配。
若对应页面的第一二层XML节点内容与前一页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配。
103,根据对应的操作模式拼接出当前操作模式。
由于预先存储的任一操作模式包括鼠标移动轨迹及鼠标点击事件序列,因此,本步骤根据对应的操作模式拼接出当前操作模式的实现方式为:
3-1,在对应的操作模式中,选择鼠标点击事件顺序一致的操作模式,并将其作为候选操作模式。
例如,c1=[′button1′,′button2′,′button3′]
c2=[′button1′,′button2′,′button3′,′button4′,′div1′]
c3=[′button1′,′button2′]
这三个行为点击顺序相同被认为是鼠标点击事件顺序一致的操作模式,则c1、c2、c3为候选操作模式。
再例如,c1=[′button1′,′button2′,′button3′]
c4=[′button1′,′button3′,′button2′]
c5=[′button3′,′button2′,′button1′]
这三个行为点击顺序相同被认为是鼠标点击事件顺序不一致的操作模式。
若候选操作模式为一个,则不需要拼接。
若候选操作模式为多个,则
3-2,选择点击对象序列最长的候选操作模式,将其作为基础操作模式。
对于c1、c2、c3,选择点击对象序列最长的c2作为基础操作模式。
3-3,依次选择基础操作模式中的各鼠标点击事件,在除基础操作模式之外的候选操作模式中任选一个,将其作为选择的鼠标点击事件的拼接操作模式;将基础操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹替换为鼠标点击事件的拼接操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹。
例如,c1=[′button1′,′button2′,′button3′]
c2=[′button1′,′button2′,′button3′,′button4′,′div1′]
c3=[′button1′,′button2′]
c2为基础操作模式,对于c2中的button1鼠标点击事件,在c1和c3中任选一个(如c1),将c1作为button1鼠标点击事件的拼接操作模式。将c2中从开始至button1之间的鼠标移动轨迹替换成c1中从开始至button1之间的鼠标移动轨迹。实现将c1中从开始至button1之间的鼠标移动轨迹与c2的鼠标移动轨迹的拼接。
对于c2中的button2鼠标点击事件,在c1和c3中任选一个(如c3),将c3作为button2鼠标点击事件的拼接操作模式。将c2中从button1至button2之间的鼠标移动轨迹替换成c3中从button1至button2之间的鼠标移动轨迹。实现将c3中从button1至button2之间的鼠标移动轨迹与c2的鼠标移动轨迹的拼接。
对于c2中的button3鼠标点击事件,由于c1和c3中只有c1存在button3鼠标点击事件,则将c1作为button3鼠标点击事件的拼接操作模式。将c2中从button2至button3之间的鼠标移动轨迹替换成c1中从button2至button3之间的鼠标移动轨迹。实现将c1中从button2至button3之间的鼠标移动轨迹与c2的鼠标移动轨迹的拼接。
对于c2中的button4鼠标点击事件和div1鼠标点击事件,由于c1和c3中均为涉及,则不对c2中从button3至结束之间的鼠标移动轨迹进行拼接。
再例如,将图1和图2所示的操作模式拼接成图4所示的拼接后的操作模式示意图。
3-4,将替换后的鼠标移动轨迹确定为当前操作模式的鼠标移动轨迹,将基础操作模式鼠标点击事件确定为当前操作模式的鼠标点击事件序列。
将替换后的鼠标移动轨迹确定为当前操作模式的鼠标移动轨迹,将button1,button2,button3,button4,div1确定为当前操作模式的鼠标点击事件序列。
104,基于当前操作模式对前一页面进行操作,以访问待访问页面。
本步骤基于当前操作模式对前一页面进行操作,并获取操作反馈页面。
在得到反馈页面之后,执行如下步骤:
4-1,确定反馈页面的URL和第一二层XML节点。
4-2,确定预先存储的待访问页面的URL和第一二层XML节点。
本步骤中的待访问页面的URL和第一二层XML节点是在执行图3所示的页面访问方法之前存储的。
4-3,若反馈页面的URL与预先存储的待访问页面的URL匹配,且反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配,则确定待访问页面被访问。
4-4,若反馈页面的URL与预先存储的待访问页面的URL不匹配,或者,反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配,则重新执行103及后续步骤。
在重新执行103时,为了防止拼接出之前拼接过的当前操作模式,本实施例中,重新执行根据对应的操作模式拼接出当前操作模式步骤所得到的当前操作模式与重新执行之前得到的当前操作模式不同。
为了保证不同,可以在每次进行拼接时记录各操作模式的拼接内容及拼接时间,再次拼接时,对于相同的鼠标点击时间,不再选取预设时间段内选过的操作模式。
预设时间段可以为1小时,或者其他时间段,本实施例不对预设时间段的具体时长进行限定。
另外,反馈页面的URL与预先存储的待访问页面的URL是否匹配的确定方法如下:
若反馈页面的URL与预先存储的待访问页面的URL相同,则确定反馈页面的URL与预先存储的待访问页面的URL匹配。
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容相同时,确定反馈页面的URL与预先存储的待访问页面的URL匹配。
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容不相同时,确定反馈页面的URL与预先存储的待访问页面的URL不匹配。
此外,反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点是否匹配的确定方法如下:
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容相同,则确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配。
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配。
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当存在位于title标签和h1标签外的相同内容时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配。
本实施例提供的方法,在确定待访问页面的前一页面后,获取与前一页面对应的操作模式;根据对应的操作模式拼接出当前操作模式;基于当前操作模式对前一页面进行操作,实现对待访问页面的访问。
基于同一发明构思,本实施例提供了一种电子设备,参见图5,包括存储器501、处理器502、总线503以及存储在存储器501上并可在处理器502上运行的计算机程序,所述处理器502执行所述程序时实现如下步骤。
确定待访问页面的前一页面;
获取与前一页面对应的操作模式;
根据对应的操作模式拼接出当前操作模式;
基于当前操作模式对前一页面进行操作,以访问待访问页面。
可选地,确定待访问页面的前一页面,包括:
获取预先存储的页面序列;
依次访问页面序列中未访问过的每个页面;
当首次出现无法正常访问的页面时,无法正常访问的页面为待访问页面;
页面序列中,无法正常访问的页面的前一页面为待访问页面的前一页面。
可选地,获取与前一页面对应的操作模式,包括:
在预先存储的操作模式中,确定每个操作模式对应页面的统一资源定位符URL和第一二层可扩展标记语言XML节点;
确定前一页面的URL和第一二层XML节点;
获取对应页面的URL与前一页面的URL匹配,且对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配的操作模式。
可选地,对应页面的URL与前一页面的URL匹配的确定方法,包括:
若对应页面的URL与前一页面的URL相同,则确定对应页面的URL与前一页面的URL匹配;
若对应页面的URL与前一页面的URL不相同,则当对应页面的URL中最后一个预设字符之前的内容与前一页面的URL中最后一个预设字符之前的内容相同时,确定对应页面的URL与前一页面的URL匹配。
可选地,对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配的确定方法,包括:
若对应页面的第一二层XML节点内容与前一页面的第一二层XML节点内容相同,则确定对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配;
若对应页面的第一二层XML节点内容与前一页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配。
可选地,任一操作模式包括鼠标移动轨迹及鼠标点击事件序列;
根据对应的操作模式拼接出当前操作模式,包括:
在对应的操作模式中,选择鼠标点击事件顺序一致的操作模式,并将其作为候选操作模式;
若候选操作模式为多个,则
选择点击对象序列最长的候选操作模式,将其作为基础操作模式;
依次选择基础操作模式中的各鼠标点击事件,在除基础操作模式之外的候选操作模式中任选一个,将其作为选择的鼠标点击事件的拼接操作模式;将基础操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹替换为鼠标点击事件的拼接操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹;
将替换后的鼠标移动轨迹确定为当前操作模式的鼠标移动轨迹,将基础操作模式鼠标点击事件确定为当前操作模式的鼠标点击事件序列。
可选地,基于当前操作模式对前一页面进行操作,包括:
基于当前操作模式对前一页面进行操作,并获取操作反馈页面;
确定反馈页面的URL和第一二层XML节点;
确定预先存储的待访问页面的URL和第一二层XML节点;
若反馈页面的URL与预先存储的待访问页面的URL匹配,且反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配,则确定待访问页面被访问;
若反馈页面的URL与预先存储的待访问页面的URL不匹配,或者,反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配,则重新执行根据对应的操作模式拼接出当前操作模式,基于当前操作模式对前一页面进行操作,以访问待访问页面的步骤;
其中,重新执行根据对应的操作模式拼接出当前操作模式步骤所得到的当前操作模式与重新执行之前得到的当前操作模式不同。
可选地,反馈页面的URL与预先存储的待访问页面的URL是否匹配的确定方法,包括:
若反馈页面的URL与预先存储的待访问页面的URL相同,则确定反馈页面的URL与预先存储的待访问页面的URL匹配;
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容相同时,确定反馈页面的URL与预先存储的待访问页面的URL匹配;
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容不相同时,确定反馈页面的URL与预先存储的待访问页面的URL不匹配;
反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点是否匹配的确定方法,包括:
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容相同,则确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配;
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配;
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当存在位于title标签和h1标签外的相同内容时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配。
本实施例提供的电子设备,在确定待访问页面的前一页面后,获取与前一页面对应的操作模式;根据对应的操作模式拼接出当前操作模式;基于当前操作模式对前一页面进行操作,实现对待访问页面的访问。
基于同一发明构思,本实施例提供了一种计算机存储介质,其上存储有计算机程序所述程序被处理器执行时实现如下步骤。
确定待访问页面的前一页面;
获取与前一页面对应的操作模式;
根据对应的操作模式拼接出当前操作模式;
基于当前操作模式对前一页面进行操作,以访问待访问页面。
可选地,确定待访问页面的前一页面,包括:
获取预先存储的页面序列;
依次访问页面序列中未访问过的每个页面;
当首次出现无法正常访问的页面时,无法正常访问的页面为待访问页面;
页面序列中,无法正常访问的页面的前一页面为待访问页面的前一页面。
可选地,获取与前一页面对应的操作模式,包括:
在预先存储的操作模式中,确定每个操作模式对应页面的统一资源定位符URL和第一二层可扩展标记语言XML节点;
确定前一页面的URL和第一二层XML节点;
获取对应页面的URL与前一页面的URL匹配,且对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配的操作模式。
可选地,对应页面的URL与前一页面的URL匹配的确定方法,包括:
若对应页面的URL与前一页面的URL相同,则确定对应页面的URL与前一页面的URL匹配;
若对应页面的URL与前一页面的URL不相同,则当对应页面的URL中最后一个预设字符之前的内容与前一页面的URL中最后一个预设字符之前的内容相同时,确定对应页面的URL与前一页面的URL匹配。
可选地,对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配的确定方法,包括:
若对应页面的第一二层XML节点内容与前一页面的第一二层XML节点内容相同,则确定对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配;
若对应页面的第一二层XML节点内容与前一页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定对应页面的第一二层XML节点与前一页面的第一二层XML节点匹配。
可选地,任一操作模式包括鼠标移动轨迹及鼠标点击事件序列;
根据对应的操作模式拼接出当前操作模式,包括:
在对应的操作模式中,选择鼠标点击事件顺序一致的操作模式,并将其作为候选操作模式;
若候选操作模式为多个,则
选择点击对象序列最长的候选操作模式,将其作为基础操作模式;
依次选择基础操作模式中的各鼠标点击事件,在除基础操作模式之外的候选操作模式中任选一个,将其作为选择的鼠标点击事件的拼接操作模式;将基础操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹替换为鼠标点击事件的拼接操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹;
将替换后的鼠标移动轨迹确定为当前操作模式的鼠标移动轨迹,将基础操作模式鼠标点击事件确定为当前操作模式的鼠标点击事件序列。
可选地,基于当前操作模式对前一页面进行操作,包括:
基于当前操作模式对前一页面进行操作,并获取操作反馈页面;
确定反馈页面的URL和第一二层XML节点;
确定预先存储的待访问页面的URL和第一二层XML节点;
若反馈页面的URL与预先存储的待访问页面的URL匹配,且反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配,则确定待访问页面被访问;
若反馈页面的URL与预先存储的待访问页面的URL不匹配,或者,反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配,则重新执行根据对应的操作模式拼接出当前操作模式,基于当前操作模式对前一页面进行操作,以访问待访问页面的步骤;
其中,重新执行根据对应的操作模式拼接出当前操作模式步骤所得到的当前操作模式与重新执行之前得到的当前操作模式不同。
可选地,反馈页面的URL与预先存储的待访问页面的URL是否匹配的确定方法,包括:
若反馈页面的URL与预先存储的待访问页面的URL相同,则确定反馈页面的URL与预先存储的待访问页面的URL匹配;
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容相同时,确定反馈页面的URL与预先存储的待访问页面的URL匹配;
若反馈页面的URL与预先存储的待访问页面的URL不相同,则当反馈页面的URL中最后一个预设字符之前的内容与预先存储的待访问页面的URL中最后一个预设字符之前的内容不相同时,确定反馈页面的URL与预先存储的待访问页面的URL不匹配;
反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点是否匹配的确定方法,包括:
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容相同,则确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配;
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配;
若反馈页面的第一二层XML节点内容与预先存储的待访问页面的第一二层XML节点内容不相同,则当存在位于title标签和h1标签外的相同内容时,确定反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配。
本实施例提供的计算机存储介质,在确定待访问页面的前一页面后,获取与前一页面对应的操作模式;根据对应的操作模式拼接出当前操作模式;基于当前操作模式对前一页面进行操作,实现对待访问页面的访问。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (3)
1.一种页面访问方法,在执行该页面访问方法之前,通过记录鼠标移动轨迹,鼠标点击事件及点击的时刻,生成对应网页的操作模式,每一个页面至少存储10种操作模式,还记录页面访问顺序,将其形成页面序列,并存储该页面序列;所述页面访问方法包括:
步骤101:确定待访问页面的前一页面;
步骤102:获取与前一页面对应的操作模式;
步骤103:根据对应的操作模式拼接出当前操作模式;
步骤104:基于所述当前操作模式对所述前一页面进行操作,以访问所述待访问页面,其中,
所述步骤101:确定待访问页面的前一页面,包括:
1-1,获取预先存储的页面序列;
1-2,依次访问页面序列中未访问过的每个页面;
1-3,当首次出现无法正常访问的页面时,所述无法正常访问的页面为待访问页面;
1-4,页面序列中,所述无法正常访问的页面的前一页面为所述待访问页面的前一页面;
所述步骤102:获取与前一页面对应的操作模式实现方式为:
步骤2-1:在预先存储的操作模式中,确定每个操作模式对应页面的统一资源定位符URL和第一二层可扩展标记语言XML节点;
步骤2-2:确定所述前一页面的URL和第一二层XML节点;
步骤2-3:获取对应页面的URL与所述前一页面的URL匹配,且对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配的操作模式;
所述步骤103:根据对应的操作模式拼接出当前操作模式中,预先存储的任一操作模式包括鼠标移动轨迹及鼠标点击事件序列,所述步骤103:根据对应的操作模式拼接出当前操作模式的实现方式为:
步骤3-1:在对应的操作模式中,选择鼠标点击事件顺序一致的操作模式,并将其作为候选操作模式,若候选操作模式为一个,则不拼接;若候选操作模式为多个,则
步骤3-2:选择点击事件序列最长的候选操作模式,将其作为基础操作模式;
步骤3-3:依次选择基础操作模式中的各鼠标点击事件,在除基础操作模式之外的候选操作模式中任选一个,将其作为选择的鼠标点击事件的拼接操作模式;将基础操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹替换为鼠标点击事件的拼接操作模式中选择的鼠标点击事件的前一鼠标点击事件至选择的鼠标点击事件之间的鼠标移动轨迹;
步骤3-4:将替换后的鼠标移动轨迹确定为当前操作模式的鼠标移动轨迹,将基础操作模式鼠标点击事件确定为当前操作模式的鼠标点击事件序列;
所述步骤104:基于所述当前操作模式对所述前一页面进行操作,以访问待访问页面中,基于所述当前操作模式对所述前一页面进行操作,并获取操作反馈页面;在得到反馈页面之后,执行如下步骤:
步骤4-1:确定反馈页面的URL和第一二层XML节点;
步骤4-2:确定预先存储的待访问页面的URL和第一二层XML节点;
步骤4-3:若反馈页面的URL与预先存储的待访问页面的URL匹配,且反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点匹配,则确定所述待访问页面被访问;
步骤4-4:若反馈页面的URL与预先存储的待访问页面的URL不匹配,或者,反馈页面的第一二层XML节点与预先存储的待访问页面的第一二层XML节点不匹配,则重新执行所述步骤103:根据对应的操作模式拼接出当前操作模式,基于所述当前操作模式对所述前一页面进行操作,以访问所述待访问页面的步骤;
其中,重新执行所述步骤103所得到的当前操作模式与重新执行之前得到的当前操作模式不同。
2.根据权利要求1所述的方法,其特征在于,对应页面的URL与所述前一页面的URL匹配的确定方法,包括:
若对应页面的URL与所述前一页面的URL相同,则确定对应页面的URL与所述前一页面的URL匹配;
若对应页面的URL与所述前一页面的URL不相同,则当对应页面的URL 中最后一个预设字符之前的内容与所述前一页面的URL中最后一个预设字符之前的内容相同时,确定对应页面的URL与所述前一页面的URL匹配。
3.根据权利要求1所述的方法,其特征在于,对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配的确定方法,包括:
若对应页面的第一二层XML节点内容与所述前一页面的第一二层XML节点内容相同,则确定对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配;
若对应页面的第一二层XML节点内容与所述前一页面的第一二层XML节点内容不相同,则当不相同的内容位于title标签中,或者,当不相同的内容位于h1标签中时,确定对应页面的第一二层XML节点与所述前一页面的第一二层XML节点匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811547428.2A CN109635181B (zh) | 2018-12-18 | 2018-12-18 | 页面访问方法、电子设备及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811547428.2A CN109635181B (zh) | 2018-12-18 | 2018-12-18 | 页面访问方法、电子设备及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635181A CN109635181A (zh) | 2019-04-16 |
CN109635181B true CN109635181B (zh) | 2020-11-10 |
Family
ID=66074930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811547428.2A Active CN109635181B (zh) | 2018-12-18 | 2018-12-18 | 页面访问方法、电子设备及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635181B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266623A (zh) * | 2008-05-09 | 2008-09-17 | 杭州华三通信技术有限公司 | 一种页面跳转的方法和系统 |
CN104268246A (zh) * | 2014-09-30 | 2015-01-07 | 北京网智天元科技有限公司 | 生成访问互联网站点指令脚本的方法及访问方法和装置 |
CN106294614A (zh) * | 2016-08-01 | 2017-01-04 | 华为技术有限公司 | 用于访问业务的方法和装置 |
CN107368580A (zh) * | 2017-07-21 | 2017-11-21 | 维沃移动通信有限公司 | 一种网页显示方法及移动终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279793A1 (en) * | 2013-03-14 | 2014-09-18 | Balderdash Inc. | Systems and methods for providing relevant pathways through linked information |
-
2018
- 2018-12-18 CN CN201811547428.2A patent/CN109635181B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266623A (zh) * | 2008-05-09 | 2008-09-17 | 杭州华三通信技术有限公司 | 一种页面跳转的方法和系统 |
CN104268246A (zh) * | 2014-09-30 | 2015-01-07 | 北京网智天元科技有限公司 | 生成访问互联网站点指令脚本的方法及访问方法和装置 |
CN106294614A (zh) * | 2016-08-01 | 2017-01-04 | 华为技术有限公司 | 用于访问业务的方法和装置 |
CN107368580A (zh) * | 2017-07-21 | 2017-11-21 | 维沃移动通信有限公司 | 一种网页显示方法及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN109635181A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8347231B2 (en) | Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content | |
Li et al. | Here's what I did: Sharing and reusing web activity with ActionShot | |
Graham | Object oriented methods | |
US8065667B2 (en) | Injecting content into third party documents for document processing | |
US8370358B2 (en) | Tagging content with metadata pre-filtered by context | |
CN109376291B (zh) | 一种基于网络爬虫的网站指纹信息扫描的方法及装置 | |
Nguyen et al. | Sensepath: Understanding the sensemaking process through analytic provenance | |
CN109036417B (zh) | 用于处理语音请求的方法和装置 | |
US20070271230A1 (en) | Method and apparatus for accessing history trails for previous search sessions | |
CN106096050A (zh) | 一种视频内容搜索的方法和装置 | |
CN108073587B (zh) | 一种自动问答方法、装置及电子设备 | |
CN101443751A (zh) | 用于应用爬取器的方法和装置 | |
US8639560B2 (en) | Brand analysis using interactions with search result items | |
US20080235206A1 (en) | Using scenario-related information to customize user experiences | |
CN104133877A (zh) | 软件标签的生成方法和装置 | |
US20100070856A1 (en) | Method for Graphical Visualization of Multiple Traversed Breadcrumb Trails | |
WO2018183062A1 (en) | Control of displayed activity information using navigational mnemonics | |
CN111368100A (zh) | 一种媒资合并方法及其装置 | |
US20090222411A1 (en) | Location description for federation and discoverability | |
CN109635181B (zh) | 页面访问方法、电子设备及计算机程序产品 | |
CN104268246A (zh) | 生成访问互联网站点指令脚本的方法及访问方法和装置 | |
CN109558468B (zh) | 资源的处理方法、装置、设备和存储介质 | |
CN115438633B (zh) | 跨文档在线研讨处理方法、互动方法、装置和设备 | |
Bernardi et al. | Web applications design recovery and evolution with RE‐UWA | |
CN106452855B (zh) | 一种文章标签添加方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |