CN111488546A - 一种页面生成方法、装置及存储介质 - Google Patents

一种页面生成方法、装置及存储介质 Download PDF

Info

Publication number
CN111488546A
CN111488546A CN202010284385.4A CN202010284385A CN111488546A CN 111488546 A CN111488546 A CN 111488546A CN 202010284385 A CN202010284385 A CN 202010284385A CN 111488546 A CN111488546 A CN 111488546A
Authority
CN
China
Prior art keywords
label
pseudo
page
control
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010284385.4A
Other languages
English (en)
Other versions
CN111488546B (zh
Inventor
王芳
金涛
于淑娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202010284385.4A priority Critical patent/CN111488546B/zh
Publication of CN111488546A publication Critical patent/CN111488546A/zh
Application granted granted Critical
Publication of CN111488546B publication Critical patent/CN111488546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种页面生成方法、装置及存储介质,此方法包括:确定目标页面的标签映射集合,标签映射集合包括目标页面中至少一控件的标签映射关系,标签映射关系是控件的原标签与伪标签的一一映射关系;根据标签映射集合生成目标页面的伪页面,发布目标页面的伪页面;伪页面中的至少一控件的标签为相应的伪标签;接收针对目标页面的访问请求,确定访问请求中包含的控件的伪标签,查询标签映射集合确定访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换访问请求中的伪标签,生成新的访问请求;使用新的访问请求获得响应结果。本公开在有效反爬虫的同时保证用户的正常使用。

Description

一种页面生成方法、装置及存储介质
技术领域
本公开涉及移动终端数据处理技术,尤其涉及一种页面生成方法、装置及存储介质。
背景技术
爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。爬虫定位信息的方法是找到控件的标签,并且在此标签下寻找各级子标签。根据获取的标签获取网页中的信息。
发明内容
为克服相关技术中存在的问题,本公开提供一种页面生成方法、装置及存储介质。
根据本文实施例的第一方面,提供了一种页面生成方法,包括:
确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
根据所述标签映射集合生成所述目标页面的伪页面,发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;
接收针对所述目标页面的访问请求,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;
使用所述新的访问请求获得响应结果。
在另一实施方式中,所述方法还包括:确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
根据所述响应结果构建响应页面的伪页面,发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。
在另一实施方式中,所述方法还包括:以设定方式更新所述映射关系中的伪标签;
所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:
定时更新所述映射关系中的伪标签;
记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;
记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。
在另一实施方式中,所述更新所述映射关系中的伪标签包括以下中的一种:
随机生成符合第一设定规则的字符串作为伪标签;
在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。
在另一实施方式中,所述确定目标页面中的标签映射集合,包括:
记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。
在另一实施方式中,所述确定目标页面中的标签映射集合,包括:
确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;
使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。
根据本文实施例的第二方面,提供了一种页面生成装置,包括:
第一确定模块,用于确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
第一生成模块,用于根据所述标签映射集合生成所述目标页面的伪页面;
第一发布模块,用于发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;
接收模块,用于接收针对所述目标页面的访问请求;
第二生成模块,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;
获取模块,用于使用所述新的访问请求获得响应结果。
在另一实施方式中,所述装置还包括:
第二确定模块,用于确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
构建模块,用于根据所述响应结果构建响应页面的伪页面;
第二发布模块,用于发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。
在另一实施方式中,所述装置还包括:
更新模块,用于以设定方式更新所述映射关系中的伪标签;
所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:
定时更新所述映射关系中的伪标签;
记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;
记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。
在另一实施方式中,所述更新所述映射关系中的伪标签包括以下中的一种:
随机生成符合第一设定规则的字符串作为伪标签;
在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。
在另一实施方式中,所述第一确定模块,还用于使用以下方法确定目标页面中的标签映射集合:记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。
在另一实施方式中,所述第一确定模块,还用于使用以下方法确定目标页面中的标签映射集合:确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。
根据本文实施例的第三方面,提供了一种页面生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述存储器中的可执行指令以实现上述所述方法的步骤。
根据本文实施例的第四方面,提供了一种非临时性计算机可读存储介质,其上存储有可执行指令,其特征在于,该可执行指令被处理器执行时实现上述所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过为页面中的控件设置原标签与伪标签的对应关系,使用伪标签构建伪页面,使得爬虫无法定位标签的值,在有效反爬虫的同时保证用户的正常使用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种页面生成方法的流程图;
图2是根据一示例性实施例示出的一种页面生成方法的流程图;
图3是根据一示例性实施例示出的一种页面生成装置的结构图;
图4是根据一示例性实施例示出的一种页面生成装置的结构图;
图5是根据一示例性实施例示出的一种页面生成装置的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例中提供一种页面生成方法。参照图1,图1是根据一示例性实施例示出的一种页面生成方法的流程图。如图1所示,此方法包括:
步骤S11,确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系。
步骤S12,根据所述标签映射集合生成所述目标页面的伪页面,发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。
步骤S13,接收针对所述目标页面的访问请求,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求。
步骤S14,使用所述新的访问请求获得响应结果。
本实施例中,通过为页面中的控件设置原标签与伪标签的对应关系,使用伪标签构建伪页面,使得爬虫无法定位标签的值,在有效反爬虫的同时保证用户的正常使用。
本公开实施例中还提供了一种页面生成方法,参照图2,图2是根据一示例性实施例示出的一种页面生成方法的流程图。此方法包括图1示出的方法,并且还包括:
步骤S15,确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系。
步骤S16,根据所述响应结果构建响应页面的伪页面,发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。
本实施例中,在实现与用户的交互的过程中,为每个交互页面构建伪页面,防止爬虫获取用户交互过程中的各个交互页面中的信息,保护用户信息。
本公开实施例中还提供了一种页面生成方法,此方法包括图1或图2示出的方法,并且还包括:以设定方式更新所述映射关系中的伪标签。其中,以设定方式更新所述映射关系中的伪标签包括以下中的一种:
一,定时更新所述映射关系中的伪标签。其中,定时时长是可修改的值,根据用户的使用需要设置不同的值。例如:定时时长为若干天,若干小时,若干分钟等。
二,记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签。通过此方式,为使用较多的控件较为频繁的更新伪标签,可以提高常用控件的信息安全性。
三,记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。通过此方式,为使用较多的页面较为频繁的更新伪标签,可以提高常用页面的信息安全性。
本实施例中,更新所述映射关系中的伪标签包括以下中的一种:
一,随机生成符合第一设定规则的字符串作为伪标签。例如:第一设定规则包括以下规则中至少一规则:字符数量大于第一设定值、字母字符的数量大于第二设定值、大写字母字符的数量大于第三设定值、小写字母字符的数量大于第四设定值、数字字符的数量大于第五设定值。
二,在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。例如第二设定规则包括以下规则中的至少一种:在不同位置插入的字符个数不同,在不同位置插入的字符类型不同。
本公开实施例中还提供了一种页面生成方法,此方法包括图1或图2示出的方法,并且还包括:步骤S11中确定目标页面中的标签映射集合,包括:记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。
本实施例中,为使用频繁的控件高频率的更新伪标签,可以提高常用控件的信息安全性。
本公开实施例中还提供了一种页面生成方法,此方法包括图1或图2示出的方法,并且还包括:步骤S11中确定目标页面中的标签映射集合,包括:确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。
本实施例中,为较重要的控件高频率的更新伪标签,可以提高重要控件的信息安全性。
本公开实施例中提供一种页面生成装置。参照图3,图3是根据一示例性实施例示出的一种页面生成装置的结构图。如图3所示,此装置包括:
第一确定模块301,用于确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
第一生成模块302,用于根据所述标签映射集合生成所述目标页面的伪页面;
第一发布模块303,用于发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;
接收模块304,用于接收针对所述目标页面的访问请求;
第二生成模块305,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;
获取模块306,用于使用所述新的访问请求获得响应结果。
本公开实施例中提供一种页面生成装置。参照图4,图4是根据一示例性实施例示出的一种页面生成装置的结构图。如图4所示,此装置包括图3所示的装置,还包括:
第二确定模块401,用于确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
构建模块402,用于根据所述响应结果构建响应页面的伪页面;
第二发布模块403,用于发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。
本公开实施例中提供一种页面生成装置,此装置包括图3或图4所示的装置,还包括:
更新模块,用于以设定方式更新所述映射关系中的伪标签;
所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:
定时更新所述映射关系中的伪标签;
记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;
记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。
在另一实施方式中,所述更新所述映射关系中的伪标签包括以下中的一种:
随机生成符合第一设定规则的字符串作为伪标签;
在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。
本公开实施例中提供一种页面生成装置,此装置包括图3或图4所示的装置,还包括:
所述第一确定模块301,还用于使用以下方法确定目标页面中的标签映射集合:记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。
本公开实施例中提供一种页面生成装置,此装置包括图3或图4所示的装置,还包括:
所述第一确定模块301,还用于使用以下方法确定目标页面中的标签映射集合:确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。
本公开实施例中还提供一种页面生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述存储器中的可执行指令以实现上述所述方法的步骤。
本公开实施例中还提供一种页面生成装置,参照图5,图5是根据一示例性实施例示出的一种页面生成装置500的结构图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口559。装置500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例中提供一种非临时性计算机可读存储介质,其上存储有可执行指令,其特征在于,该可执行指令被处理器执行时实现上述所述方法的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (14)

1.一种页面生成方法,其特征在于,包括:
确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
根据所述标签映射集合生成所述目标页面的伪页面,发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;
接收针对所述目标页面的访问请求,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;
使用所述新的访问请求获得响应结果。
2.如权利要求1所述的页面生成方法,其特征在于,
所述方法还包括:确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
根据所述响应结果构建响应页面的伪页面,发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。
3.如权利要求1所述的页面生成方法,其特征在于,
所述方法还包括:以设定方式更新所述映射关系中的伪标签;
所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:
定时更新所述映射关系中的伪标签;
记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;
记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。
4.如权利要求3所述的页面生成方法,其特征在于,
所述更新所述映射关系中的伪标签包括以下中的一种:
随机生成符合第一设定规则的字符串作为伪标签;
在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。
5.如权利要求1所述的页面生成方法,其特征在于,
所述确定目标页面中的标签映射集合,包括:
记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。
6.如权利要求1所述的页面生成方法,其特征在于,
所述确定目标页面中的标签映射集合,包括:
确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;
使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。
7.一种页面生成装置,其特征在于,包括:
第一确定模块,用于确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
第一生成模块,用于根据所述标签映射集合生成所述目标页面的伪页面;
第一发布模块,用于发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;
接收模块,用于接收针对所述目标页面的访问请求;
第二生成模块,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;
获取模块,用于使用所述新的访问请求获得响应结果。
8.如权利要求7所述的页面生成装置,其特征在于,
所述装置还包括:
第二确定模块,用于确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;
构建模块,用于根据所述响应结果构建响应页面的伪页面;
第二发布模块,用于发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。
9.如权利要求7所述的页面生成装置,其特征在于,
所述装置还包括:
更新模块,用于以设定方式更新所述映射关系中的伪标签;
所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:
定时更新所述映射关系中的伪标签;
记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;
记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。
10.如权利要求9所述的页面生成装置,其特征在于,
所述更新所述映射关系中的伪标签包括以下中的一种:
随机生成符合第一设定规则的字符串作为伪标签;
在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。
11.如权利要求7所述的页面生成装置,其特征在于,
所述第一确定模块,还用于使用以下方法确定目标页面中的标签映射集合:记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。
12.如权利要求7所述的页面生成装置,其特征在于,
所述第一确定模块,还用于使用以下方法确定目标页面中的标签映射集合:确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。
13.一种页面生成装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述存储器中的可执行指令以实现权利要求1至6中任一项所述方法的步骤。
14.一种非临时性计算机可读存储介质,其上存储有可执行指令,其特征在于,该可执行指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202010284385.4A 2020-04-13 2020-04-13 一种页面生成方法、装置及存储介质 Active CN111488546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284385.4A CN111488546B (zh) 2020-04-13 2020-04-13 一种页面生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284385.4A CN111488546B (zh) 2020-04-13 2020-04-13 一种页面生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111488546A true CN111488546A (zh) 2020-08-04
CN111488546B CN111488546B (zh) 2023-09-26

Family

ID=71791670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284385.4A Active CN111488546B (zh) 2020-04-13 2020-04-13 一种页面生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111488546B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022111591A1 (zh) * 2020-11-26 2022-06-02 北京有竹居网络技术有限公司 页面生成方法和装置、存储介质和电子设备
WO2022134776A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 基于标签的反爬虫方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3139281A1 (en) * 2015-09-01 2017-03-08 Dream It Get IT Limited Media unit retrieval and related processes
CN109885749A (zh) * 2019-02-28 2019-06-14 安徽腾策网络科技有限公司 一种网页信息数据防抓取系统
CN110569029A (zh) * 2019-09-18 2019-12-13 四川长虹电器股份有限公司 一种基于前后端分离开发的反爬虫方法
WO2020000747A1 (zh) * 2018-06-27 2020-01-02 平安科技(深圳)有限公司 一种反爬虫方法、终端及计算机可读存储介质
CN110750750A (zh) * 2019-09-06 2020-02-04 平安科技(深圳)有限公司 网页生成方法、装置、计算机设备和存储介质
CN110933065A (zh) * 2019-11-26 2020-03-27 深圳市信联征信有限公司 网页防爬虫方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3139281A1 (en) * 2015-09-01 2017-03-08 Dream It Get IT Limited Media unit retrieval and related processes
WO2020000747A1 (zh) * 2018-06-27 2020-01-02 平安科技(深圳)有限公司 一种反爬虫方法、终端及计算机可读存储介质
CN109885749A (zh) * 2019-02-28 2019-06-14 安徽腾策网络科技有限公司 一种网页信息数据防抓取系统
CN110750750A (zh) * 2019-09-06 2020-02-04 平安科技(深圳)有限公司 网页生成方法、装置、计算机设备和存储介质
CN110569029A (zh) * 2019-09-18 2019-12-13 四川长虹电器股份有限公司 一种基于前后端分离开发的反爬虫方法
CN110933065A (zh) * 2019-11-26 2020-03-27 深圳市信联征信有限公司 网页防爬虫方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022111591A1 (zh) * 2020-11-26 2022-06-02 北京有竹居网络技术有限公司 页面生成方法和装置、存储介质和电子设备
WO2022134776A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 基于标签的反爬虫方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111488546B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN104965691A (zh) 配置网页页面的页面元素的方法、装置及系统
CN107864301B (zh) 客户标签管理方法、系统、计算机设备及存储介质
US20180225387A1 (en) Method and apparatus for accessing webpage, apparatus and non-volatile computer storage medium
CN108667840B (zh) 注入漏洞检测方法及装置
CN111488546B (zh) 一种页面生成方法、装置及存储介质
WO2003090040A2 (en) Targeting content by predicting group membership
CN113946837A (zh) 数据访问和数据访问权限的配置方法、设备、存储介质
CN110990008B (zh) 更新页面的方法、装置、存储介质以及电子设备
CN110704816A (zh) 接口破解的识别方法、装置、设备及存储介质
CN111222153B (zh) 应用程序权限管理方法、装置和存储介质
CN111047434B (zh) 一种操作记录生成方法、装置、计算机设备和存储介质
CN110543756B (zh) 设备识别方法、装置、存储介质及电子设备
CN111309578A (zh) 标识对象的方法和装置
CN113254897A (zh) 信息验证方法、装置、服务器及存储介质
CN112818270A (zh) 数据跨域传递方法、装置及计算机设备
CN112035676A (zh) 用户操作行为知识图谱构建方法及装置
CN111800511A (zh) 同步登录态的处理方法、系统、设备及可读存储介质
CN111143383A (zh) 一种数据更新方法、装置、电子设备及存储介质
US9098174B1 (en) Expanding the functionality of the browser URL box
CN114237678A (zh) 组件更新方法、装置、存储介质及计算机设备
CN112073554B (zh) 全局唯一标识生成方法、设备以及计算机可读存储介质
CN111240750B (zh) 一种目标应用程序的唤醒方法及装置
CN114143042A (zh) 漏洞模拟方法、装置、计算机设备和存储介质
CN108650257B (zh) 基于网站内容的安全检测设置方法、装置及存储介质
CN111193729A (zh) 跨终端用户身份识别方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant