CN116150542B - 一种动态页面的生成方法和装置及存储介质 - Google Patents
一种动态页面的生成方法和装置及存储介质 Download PDFInfo
- Publication number
- CN116150542B CN116150542B CN202310431672.7A CN202310431672A CN116150542B CN 116150542 B CN116150542 B CN 116150542B CN 202310431672 A CN202310431672 A CN 202310431672A CN 116150542 B CN116150542 B CN 116150542B
- Authority
- CN
- China
- Prior art keywords
- user side
- abnormal
- display page
- access request
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002159 abnormal effect Effects 0.000 claims abstract description 224
- 238000012216 screening Methods 0.000 claims abstract description 18
- 230000009471 action Effects 0.000 claims abstract description 16
- 230000008859 change Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 23
- 230000005856 abnormality Effects 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 14
- 238000009877 rendering Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 12
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种动态页面的生成方法和装置及存储介质,涉及互联网技术领域。本发明包括,根据用户端的访问请求以及对应的请求时刻筛选出异常的用户端;根据用户端的动作记录调取出异常的用户端对应的访问请求以及对应的请求时刻;根据异常的用户端对应的访问请求以及对应的请求时刻生成异常的用户端在不同时刻的虚拟显示页面;抓取异常的用户端的显示页面的特征;将异常的用户端在不同时刻的虚拟显示页面的特征与异常的用户端的显示页面的特征进行比对;若比对结果一致,则持续接收并响应用户端的访问请求;若比对结果不一致,则不再接收对应的用户端的访问请求。本发明避免服务器端的数据被用户过度读取。
Description
技术领域
本发明属于互联网技术领域,特别是涉及一种动态页面的生成方法和装置及存储介质。
背景技术
动态网页相比较静态网页具有更好的交互性,但与此同时也具有数据被用户过度爬取的风险,传统方式依靠用户登陆验证的方式避免被用户滥用,但是用户在基于爬虫技术完成登录之后依旧能够进行数据爬取。
在公开号为CN114281464A的专利中公开了一种租户的动态登录页面生成方法及系统,涉及网页登录管理技术领域。该多租户的动态登录页面生成方法包括:基于租户信息配置域名信息和租户个性化信息,生成租户个性化数据库,所述租户信息、所述域名信息和所述租户个性化信息一一对应;获取租户发送的访问信息;通过所述访问信息获取网页地址信息;通过所述网页地址信息匹配所述租户个性化数据库中的域名信息,获取对应的所述租户个性化信息;根据所述租户个性化信息生成动态登录页面。上述方案依靠租户信息配置域名信息和租户个性化信息方式对不同租户的信息进行隔离,避免数据被过度爬取导致的数据滥用。
发明内容
本发明的目的在于提供一种动态页面的生成方法和装置及存储介质,通过对用户端的动态网页内容进行分析比对,避免服务器端的数据被用户过度读取。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供一种动态页面的生成方法,包括,
接收用户端的访问请求以及对应的请求时刻;
根据所示用户端的访问请求向数据库发送数据调用指令;
接收所述数据调用指令对应数据资源;
向所述用户端发送所述数据资源;
收集所述用户端的特征;
根据所述用户端的特征得到所述用户端的身份标识,用于对所述用户端进行身份标记;
将所述用户端的身份标识、访问请求以及对应的请求时刻进行存储得到所述用户端的动作记录;
根据所述用户端的访问请求以及对应的请求时刻筛选出异常的所述用户端;
根据所述用户端的动作记录调取出异常的所述用户端对应的访问请求以及对应的请求时刻;
根据异常的所述用户端对应的访问请求以及对应的请求时刻生成异常的所述用户端在不同时刻的虚拟显示页面;
抓取异常的所述用户端的显示页面的特征;
将异常的所述用户端在不同时刻的虚拟显示页面的特征与异常的所述用户端的显示页面的特征进行比对;
若比对结果一致,则持续接收并响应所述用户端的访问请求;
若比对结果不一致,则不再接收对应的所述用户端的访问请求。
在本发明的一个实施例中,所述根据所述用户端的访问请求以及对应的请求时刻筛选出异常的所述用户端的步骤,包括,
根据所述用户端的访问请求以及对应的请求时刻获取所述用户端的访问请求速率;
根据所述用户端的访问请求速率以及对应的请求时刻获取所述用户端的访问请求速率关于请求时刻的拟合函数;
根据所述用户端的访问请求速率关于请求时刻的拟合函数获取所述用户端的历史访问请求总量关于时间的拟合函数;
根据所述用户端的历史访问请求总量关于时间的拟合函数获取所述用户端的实时历史平均请求量;
获取全部所述用户端的实时历史平均请求量的数值分布比例;
根据全部所述用户端的实时历史平均请求量的数值分布比例筛选出预异常的所述用户端;
根据预异常的所述用户端的访问请求速率关于请求时刻的拟合函数筛选出异常的所述用户端。
在本发明的一个实施例中,所述根据预异常的所述用户端的访问请求速率关于请求时刻的拟合函数筛选出异常的所述用户端的步骤,包括,
根据预异常的所述用户端的访问请求速率关于请求时刻的拟合函数获取预异常的所述用户端的平均访问请求速率;
间隔设定的时间获取多个预异常的所述用户端的访问请求速率与预异常的所述用户端的平均访问请求速率的差值;
计算预异常的所述用户端的多个访问请求速率与平均访问请求速率的差值的绝对值的累加值作为预异常的所述用户端的波动值;
将波动值大于设定标准的预异常的所述用户端作为异常的所述用户端。
在本发明的一个实施例中,所述根据异常的所述用户端对应的访问请求以及对应的请求时刻生成异常的所述用户端在不同时刻的虚拟显示页面的步骤,包括,
根据异常的所述用户端的特征获取异常的所述用户端的浏览器页面渲染环境;
获取每个异常的所述用户端的波动值;
根据每个异常的所述用户端的波动值得到全部异常的所述用户端的检查顺序;
按照全部异常的所述用户端的检查顺序依次提取对应的访问请求以及对应的请求时刻;
按照异常的所述用户端对应的访问请求以及对应的请求时刻在对应的浏览器页面渲染环境内进行复现,生成异常的所述用户端在不同时刻的虚拟显示页面。
在本发明的一个实施例中,所述根据每个异常的所述用户端的波动值得到全部异常的所述用户端的检查顺序的步骤,包括,
获取全部异常的所述用户端的波动值的累加值;
根据每个异常的所述用户端的波动值以及全部异常的所述用户端的波动值的累加值计算得到每个异常的所述用户端的波动占比;
根据每个异常的所述用户端的身份标识生成每个异常的所述用户端的编号;
将异常的所述用户端的编号复制若干份存入抽取数组,其中,所述抽取数组中所述用户端的编号复制份数占整体复制份数的比例等于对应波动占比;
从所述抽取数组中随机无放回抽取异常的所述用户端的编号直至完成对每个异常的所述用户端的编号的抽取;
将全部异常的所述用户端的编号按照从所述抽取数组中抽取的先后顺序进行排序,得到全部异常的所述用户端的编号的抽取顺序;
按照全部异常的所述用户端的编号的抽取顺序获取全部异常的所述用户端的检查顺序。
在本发明的一个实施例中,所述抓取异常的所述用户端的显示页面的特征的步骤,包括,
持续获取异常的所述用户端的显示页面内的数据并记录对应显示页面的获取时间;
在异常的所述用户端的显示页面内的数据中筛选出由所述数据库调取的数据资源,作为异常的所述用户端的显示页面内的敏感数据;
获取异常的所述用户端的显示页面内敏感数据的分布位置;
在所述持续获取异常的所述用户端的显示页面内的数据的时间段内,记录敏感数据的分布位置的变化状态;
将异常的所述用户端的显示页面内敏感数据的分布位置的变化状态作为显示页面的特征进行抓取。
在本发明的一个实施例中,所述将异常的所述用户端在不同时刻的虚拟显示页面的特征与异常的所述用户端的显示页面的特征进行比对的步骤,包括,
获取异常的所述用户端的显示页面的特征对应显示页面的获取时间作为比对窗口时间段;
根据异常的所述用户端的显示页面的特征得到在所述比对窗口时间段内异常的所述用户端的显示页面中的所述敏感数据;
获取所述比对窗口时间段内的所述虚拟显示页面;
获取所述比对窗口时间段内的所述虚拟显示页面中的所述敏感数据;
对所述比对窗口时间段内异常的所述用户端的显示页面中的所述敏感数据以及所述虚拟显示页面中的所述敏感数据进行一致性匹配;
若不匹配,则判断比对结果不一致;
若匹配,则根据异常的所述用户端的显示页面的特征得到敏感数据的分布位置的变化状态;
获取所述虚拟显示页面内敏感数据在所述比对窗口时间段内的分布位置的变化状态;
对在所述比对窗口时间段内异常的所述用户端的显示页面内敏感数据的分布位置的变化状态和所述虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配。
在本发明的一个实施例中,所述对在所述比对窗口时间段内异常的所述用户端的显示页面内敏感数据的分布位置的变化状态和所述虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配的步骤,包括,
获取异常的所述用户端的显示页面内每个敏感数据在所述比对窗口时间段内分布位置的变化速率作为异常的所述用户端的显示页面内每个敏感数据的活跃度;
按照异常的所述用户端的显示页面内每个敏感数据的活跃度对异常的所述用户端的显示页面内每个敏感数据进行排序,得到异常的所述用户端的显示页面内敏感数据活跃序列表;
获取所述虚拟显示页面内每个敏感数据在所述比对窗口时间段内分布位置的变化速率作为所述虚拟显示页面内每个敏感数据的活跃度;
按照所述虚拟显示页面内每个敏感数据的活跃度对所述虚拟显示页面内每个敏感数据进行排序,得到所述虚拟显示页面内敏感数据活跃序列表;
按照异常的所述用户端的显示页面内敏感数据活跃序列表和所述虚拟显示页面内敏感数据活跃序列表中敏感数据的排列顺序,对在所述比对窗口时间段内异常的所述用户端的显示页面内敏感数据的分布位置的变化状态和所述虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配。
本发明还公开了一种动态页面的生成装置,包括,
信息收发单元,用于接收用户端的访问请求以及对应的请求时刻;
收集所述用户端的特征;
向所述用户端发送数据资源;
网络服务单元,用于根据所述用户端的访问请求向数据库发送数据调用指令;
接收所述数据调用指令对应数据资源;
数据保护单元,用于根据所述用户端的特征得到所述用户端的身份标识,用于对所述用户端进行身份标记;
将所述用户端的身份标识、访问请求以及对应的请求时刻进行存储得到所述用户端的动作记录;
根据所述用户端的访问请求以及对应的请求时刻筛选出异常的所述用户端;
根据所述用户端的动作记录调取出异常的所述用户端对应的访问请求以及对应的请求时刻;
根据所述异常的所述用户端对应的访问请求以及对应的请求时刻生成异常的所述用户端在不同时刻的虚拟显示页面;
抓取异常的所述用户端的显示页面;
将异常的所述用户端在不同时刻的虚拟显示页面与异常的所述用户端的显示页面进行比对;
若比对结果一致,则持续接收并响应所述用户端的访问请求;
若比对结果不一致,则不再接收对应的所述用户端的访问请求。
本发明还公开了一种存储介质,所述存储介质中存储有至少一条命令、至少一段程序、代码集或指令集,所述至少一条命令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述的动态页面的生成方法。
本发明通过对用户端的访问请求进行统计,从而筛选出异常的客户端,之后再对异常的客户端进行动态显示页面的元素提取,得到异常客户端的显示页面的特征提取。为了进行显示页面的特征比对,还收集用户端的动作记录,并根据动作记录得到用户端正常访问情况下的虚拟显示页面并进行特征提取。最后将异常客户端的显示页面的特征与虚拟显示页面的特征进行比对,从而判断用户端的访问请求是否为正常的网页访问请求,实现避免服务器端的数据被用户过度读取的技术效果。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述一种动态页面的生成方法于一实施例的工作流程示意图;
图2为本发明所述步骤S8于一实施例的工作流程示意图;
图3为本发明所述步骤S87于一实施例的工作流程示意图;
图4为本发明所述步骤S10于一实施例的工作流程示意图;
图5为本发明所述步骤S103于一实施例的工作流程示意图;
图6为本发明所述步骤S11于一实施例的工作流程示意图;
图7为本发明所述步骤S12于一实施例的工作流程示意图;
图8为本发明所述步骤S129于一实施例的工作流程示意图;
图9为本发明所述一种动态页面的生成装置于一实施例的模块连接及数据流向示意图;
附图中,各标号所代表的部件列表如下:
1-网络服务单元,2-信息收发单元,3-数据保护单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了避免动态网页网络服务过程中用户端对网络数据的滥用,本发明提供以下方案。
请参阅图1所示,本发明提供了一种动态页面的生成方法,在用户通过用户端中的浏览器发出访问请求之后,可以由信息收发单元执行步骤S1接收用户端的访问请求以及对应的请求时刻。接下来可以执行步骤S2根据所示用户端的访问请求向数据库发送数据调用指令,接下来可以执行步骤S3接收数据调用指令对应数据资源,接下来可以执行步骤S4向用户端发送数据资源。以上步骤S1至S3完成对用户端动态网页访问请求的响应。但是为了避免用户端的数据滥用,接下来可以执行步骤S5收集用户端的特征。接下来可以执行步骤S6根据用户端的特征得到用户端的身份标识,用于对用户端进行身份标记。接下来可以执行步骤S7将用户端的身份标识、访问请求以及对应的请求时刻进行存储得到用户端的动作记录。接下来可以执行步骤S8根据用户端的访问请求以及对应的请求时刻筛选出异常的用户端,接下来可以执行步骤S9根据用户端的动作记录调取出异常的用户端对应的访问请求以及对应的请求时刻。接下来可以执行步骤S10根据异常的用户端对应的访问请求以及对应的请求时刻生成异常的用户端在不同时刻的虚拟显示页面,接下来可以执行步骤S11抓取异常的用户端的显示页面的特征。接下来可以执行步骤S12将异常的用户端在不同时刻的虚拟显示页面的特征与异常的用户端的显示页面的特征进行比对。若比对结果一致,则接下来可以执行步骤S13持续接收并响应用户端的访问请求,若比对结果不一致,则接下来可以执行步骤S14不再接收对应的用户端的访问请求。本方案首先筛选出异常的用户端,通过将异常用户端中的显示页面进行特征提取,并且还保存用户端的访问请求记录,之后生成虚拟显示页面的特征,通过对异常用户端显示页面的特征和虚拟显示页面的特征进行比对,判断是否应当继续提供网络服务,避免了用户对数据的滥用,减轻了网页服务器端以及网络数据库的运行压力。
请参阅图2所示,对于成熟的网络运营商,用户的数量非常巨大,如果直接对显示页面的特征进行比对,计算量会非常巨大,因此需要先筛选出异常的用户端。在执行的过程中,上述的步骤S8在执行的过程中首先可以执行步骤S81根据用户端的访问请求以及对应的请求时刻获取用户端的访问请求速率。接下来可以执行步骤S82根据用户端的访问请求速率以及对应的请求时刻获取用户端的访问请求速率关于请求时刻的拟合函数。接下来可以执行步骤S83根据用户端的访问请求速率关于请求时刻的拟合函数获取用户端的历史访问请求总量关于时间的拟合函数。接下来可以执行步骤S84根据用户端的历史访问请求总量关于时间的拟合函数获取用户端的实时历史平均请求量。接下来可以执行步骤S85获取全部用户端的实时历史平均请求量的数值分布比例,接下来可以执行步骤S86根据全部用户端的实时历史平均请求量的数值分布比例筛选出预异常的用户端。接下来可以执行步骤S87根据预异常的用户端的访问请求速率关于请求时刻的拟合函数筛选出异常的用户端。如果用户端为网络爬虫会保持高负荷的数据访问,以上步骤利用此特性筛选出异常的用户端。
请参阅图3所示,为了进一步对用户端进行筛查,上述的步骤S87在实施的过程中首先可以执行步骤S871根据预异常的用户端的访问请求速率关于请求时刻的拟合函数获取预异常的用户端的平均访问请求速率。接下来可以执行步骤S872间隔设定的时间获取多个预异常的用户端的访问请求速率与预异常的用户端的平均访问请求速率的差值。接下来可以执行步骤S873计算预异常的用户端的多个访问请求速率与平均访问请求速率的差值的绝对值的累加值作为预异常的用户端的波动值。接下来可以执行步骤S874将波动值大于设定标准的预异常的用户端作为异常的用户端。本步骤同样利用网络爬虫会保持高负荷数据访问的特性,根据访问请求的波动性进一步缩小异常的用户端的范围。
请参阅图4所示,为了与异常的用户端的显示页面的特征进行对比,也需要生成对应的虚拟显示页面,但是为了优先把正常访问者排除异常访问端,解除可能对异常用户端的动态网页显示限制,上述的步骤S10在执行的过程中首先可以执行步骤S101根据异常的用户端的特征获取异常的用户端的浏览器页面渲染环境。接下来可以执行步骤S102获取每个异常的用户端的波动值,接下来可以执行步骤S103根据每个异常的用户端的波动值得到全部异常的用户端的检查顺序。接下来可以执行步骤S104按照全部异常的用户端的检查顺序依次提取对应的访问请求以及对应的请求时刻。接下来可以执行步骤S105按照异常的用户端对应的访问请求以及对应的请求时刻在对应的浏览器页面渲染环境内进行复现,生成异常的用户端在不同时刻的虚拟显示页面。上述步骤通过每个异常的用户端的波动值获取全部异常的用户端的检查顺序,优先对波动值较大的异常用户端进行鉴别比对操作,尽早恢复正常用户的上网体验。
请参阅图5所示,如果严格按照异常的用户端的波动值进行排序,可能会导致部分上网习惯和爬虫类似的用户被延后比对判断,因此上述的不走S103在执行的过程中首先可以执行步骤S1031获取全部异常的用户端的波动值的累加值。接下来可以执行步骤S1032根据每个异常的用户端的波动值以及全部异常的用户端的波动值的累加值计算得到每个异常的用户端的波动占比。接下来可以执行步骤S1033根据每个异常的用户端的身份标识生成每个异常的用户端的编号。接下来可以执行步骤S1034将异常的用户端的编号复制若干份存入抽取数组,其中,抽取数组中用户端的编号复制份数占整体复制份数的比例等于对应波动占比。接下来可以执行步骤S1035从抽取数组中随机无放回抽取异常的用户端的编号直至完成对每个异常的用户端的编号的抽取。接下来可以执行步骤S1036将全部异常的用户端的编号按照从抽取数组中抽取的先后顺序进行排序,得到全部异常的用户端的编号的抽取顺序。接下来可以执行步骤S1037按照全部异常的用户端的编号的抽取顺序获取全部异常的用户端的检查顺序。在执行上述的步骤中,并非严格按照波动值的顺序,而且添加了随机性,兼顾了优先比对和照顾特殊用户的平衡。
请参阅图6所示,为了降低网络传输的带宽压力和比对的算力消耗,上述的步骤S11在执行的过程中首先可以执行步骤S111持续获取异常的用户端的显示页面内的数据并记录对应显示页面的获取时间。接下来可以执行步骤S112在异常的用户端的显示页面内的数据中筛选出由数据库调取的数据资源,作为异常的用户端的显示页面内的敏感数据。接下来可以执行步骤S113获取异常的用户端的显示页面内敏感数据的分布位置。接下来可以执行步骤S114在持续获取异常的用户端的显示页面内的数据的时间段内,记录敏感数据的分布位置的变化状态。接下来可以执行步骤S115将异常的用户端的显示页面内敏感数据的分布位置的变化状态作为显示页面的特征进行抓取。上述步骤中不仅提取数数据量较小的显示页面特征,同时还充分体现出显示页面中敏感数据的特征。
请参阅图7所示,在显示页面的特征进行比对的过程中,为了进一步降低比对的算力消耗,可以先比对敏感数据,具体而言,上述的步骤S12在实施的过程中首先可以执行步骤S121获取异常的用户端的显示页面的特征对应显示页面的获取时间作为比对窗口时间段。接下来可以执行步骤S122根据异常的用户端的显示页面的特征得到在比对窗口时间段内异常的用户端的显示页面中的敏感数据。接下来可以执行步骤S123获取比对窗口时间段内的虚拟显示页面,接下来可以执行步骤S124获取比对窗口时间段内的虚拟显示页面中的敏感数据。接下来可以执行步骤S125对比对窗口时间段内异常的用户端的显示页面中的敏感数据以及虚拟显示页面中的敏感数据进行一致性匹配。若不匹配,则接下来可以执行步骤S126判断比对结果不一致,若匹配,则接下来可以执行步骤S127根据异常的用户端的显示页面的特征得到敏感数据的分布位置的变化状态。接下来可以执行步骤S128获取虚拟显示页面内敏感数据在比对窗口时间段内的分布位置的变化状态。接下来可以执行步骤S129对在比对窗口时间段内异常的用户端的显示页面内敏感数据的分布位置的变化状态和虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配。
请参阅图8所示,在步骤S129中,为了提高显示页面特征比对的效果,首先可以执行步骤S1291获取异常的用户端的显示页面内每个敏感数据在比对窗口时间段内分布位置的变化速率作为异常的用户端的显示页面内每个敏感数据的活跃度。接下来可以执行步骤S1292按照异常的用户端的显示页面内每个敏感数据的活跃度对异常的用户端的显示页面内每个敏感数据进行排序,得到异常的用户端的显示页面内敏感数据活跃序列表。接下来可以执行步骤S1293获取虚拟显示页面内每个敏感数据在比对窗口时间段内分布位置的变化速率作为虚拟显示页面内每个敏感数据的活跃度。接下来可以执行步骤S1294按照虚拟显示页面内每个敏感数据的活跃度对虚拟显示页面内每个敏感数据进行排序,得到虚拟显示页面内敏感数据活跃序列表。接下来可以执行步骤S1295按照异常的用户端的显示页面内敏感数据活跃序列表和虚拟显示页面内敏感数据活跃序列表中敏感数据的排列顺序,对在比对窗口时间段内异常的用户端的显示页面内敏感数据的分布位置的变化状态和虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配。由于活跃度较高的敏感数据特征更明显,因此可能会存在只比对少数的几个敏感数据即可以完成一致性匹配,提高了匹配的速度。
请参阅图9所示,本发明还提供了一种动态页面的生成装置,在功能模块上进行划分,可以包括网络服务单元1、信息收发单元2以及数据保护单元3。在具体实施的过程中,信息收发单元2,首先可以用于执行步骤S1接收用户端的访问请求以及对应的请求时刻,之后可以执行步骤S5收集用户端的特征,最后可以执行步骤S4向用户端发送数据资源。网络服务单元1,首先可以用于执行步骤S2根据所示用户端的访问请求向数据库发送数据调用指令,最后可以执行步骤S3接收数据调用指令对应数据资源。数据保护单元3,首先可以用于执行步骤S6根据用户端的特征得到用户端的身份标识,用于对用户端进行身份标记。之后可以执行步骤S7将用户端的身份标识、访问请求以及对应的请求时刻进行存储得到用户端的动作记录,之后可以执行步骤S8根据用户端的访问请求以及对应的请求时刻筛选出异常的用户端。之后可以执行步骤S9根据用户端的动作记录调取出异常的用户端对应的访问请求以及对应的请求时刻,之后可以执行步骤S10根据异常的用户端对应的访问请求以及对应的请求时刻生成异常的用户端在不同时刻的虚拟显示页面。之后可以执行步骤S11抓取异常的用户端的显示页面,之后可以执行步骤S12将异常的用户端在不同时刻的虚拟显示页面与异常的用户端的显示页面进行比对。若比对结果一致,则之后可以执行步骤S13持续接收并响应用户端的访问请求,若比对结果不一致,则最后可以执行步骤S14不再接收对应的用户端的访问请求。上述方案在执行的过程中避免了数据库在提供动态页面网络服务的过程中被用户端过度爬取数据。
请参阅图1至9所示,本发明还提供了一种存储介质,存储介质中存储有至少一条命令、至少一段程序、代码集或指令集,至少一条命令、至少一段程序、代码集或指令集由处理器加载并执行以实现以上的动态页面的生成方法。
综上所述,本发明在实施的过程中,首先筛选出异常的用户端,之后再通过存储的用户端动作记录生成虚拟显示页面,最后通过显示页面特征比对的方式,判断异常的用户端是否需要被拒绝网络请求,从而实现避免用户过度爬取数据的技术效果。
本发明所示实施例的上述描述(包括在说明书摘要中的内容)并非意在详尽列举或将本发明限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本发明的具体实施例和本发明的实例,但是正如本领域技术人员将认识和理解的,各种等效修改是可以在本发明的精神和范围内的。如所指出的,可以按照本发明实施例的上述描述来对本发明进行这些修改,并且这些修改将在本发明的精神和范围内。
本文已经在总体上将系统和方法描述为有助于理解本发明的细节。此外,已经给出了各种具体细节以提供本发明实施例的总体理解。然而,相关领域的技术人员将会认识到,本发明的实施例可以在没有一个或多个具体细节的情况下进行实践,或者利用其它装置、系统、配件、方法、组件、材料、部分等进行实践。在其它情况下,并未特别示出或详细描述公知结构、材料和/或操作以避免对本发明实施例的各方面造成混淆。
因而,尽管本发明在本文已参照其具体实施例进行描述,但是修改自由、各种改变和替换意在上述公开内,并且应当理解,在某些情况下,在未背离所提出发明的范围和精神的前提下,在没有对应使用其他特征的情况下将采用本发明的一些特征。因此,可以进行许多修改,以使特定环境或材料适应本发明的实质范围和精神。本发明并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本发明的最佳方式公开的具体实施例,但是本发明将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而,本发明的范围将只由所附的权利要求书进行确定。
Claims (9)
1.一种动态页面的生成方法,包括,
接收用户端的访问请求以及对应的请求时刻;
根据所示用户端的访问请求向数据库发送数据调用指令;
接收所述数据调用指令对应数据资源;
向所述用户端发送所述数据资源;其特征在于,
收集所述用户端的特征;
根据所述用户端的特征得到所述用户端的身份标识,用于对所述用户端进行身份标记;
将所述用户端的身份标识、访问请求以及对应的请求时刻进行存储得到所述用户端的动作记录;
根据所述用户端的访问请求以及对应的请求时刻筛选出异常的所述用户端;
根据所述用户端的动作记录调取出异常的所述用户端对应的访问请求以及对应的请求时刻;
根据异常的所述用户端对应的访问请求以及对应的请求时刻生成异常的所述用户端在不同时刻的虚拟显示页面;
抓取异常的所述用户端的显示页面的特征;
将异常的所述用户端在不同时刻的虚拟显示页面的特征与异常的所述用户端的显示页面的特征进行比对;
若比对结果一致,则持续接收并响应所述用户端的访问请求;
若比对结果不一致,则不再接收对应的所述用户端的访问请求;其中,
所述根据所述用户端的访问请求以及对应的请求时刻筛选出异常的所述用户端的步骤,包括,
根据所述用户端的访问请求以及对应的请求时刻获取所述用户端的访问请求速率;
根据所述用户端的访问请求速率以及对应的请求时刻获取所述用户端的访问请求速率关于请求时刻的拟合函数;
根据所述用户端的访问请求速率关于请求时刻的拟合函数获取所述用户端的历史访问请求总量关于时间的拟合函数;
根据所述用户端的历史访问请求总量关于时间的拟合函数获取所述用户端的实时历史平均请求量;
获取全部所述用户端的实时历史平均请求量的数值分布比例;
根据全部所述用户端的实时历史平均请求量的数值分布比例筛选出预异常的所述用户端;
根据预异常的所述用户端的访问请求速率关于请求时刻的拟合函数筛选出异常的所述用户端。
2.根据权利要求1所述的方法,其特征在于,所述根据预异常的所述用户端的访问请求速率关于请求时刻的拟合函数筛选出异常的所述用户端的步骤,包括,
根据预异常的所述用户端的访问请求速率关于请求时刻的拟合函数获取预异常的所述用户端的平均访问请求速率;
间隔设定的时间获取多个预异常的所述用户端的访问请求速率与预异常的所述用户端的平均访问请求速率的差值;
计算预异常的所述用户端的多个访问请求速率与平均访问请求速率的差值的绝对值的累加值作为预异常的所述用户端的波动值;
将波动值大于设定标准的预异常的所述用户端作为异常的所述用户端。
3.根据权利要求2所述的方法,其特征在于,所述根据异常的所述用户端对应的访问请求以及对应的请求时刻生成异常的所述用户端在不同时刻的虚拟显示页面的步骤,包括,
根据异常的所述用户端的特征获取异常的所述用户端的浏览器页面渲染环境;
获取每个异常的所述用户端的波动值;
根据每个异常的所述用户端的波动值得到全部异常的所述用户端的检查顺序;
按照全部异常的所述用户端的检查顺序依次提取对应的访问请求以及对应的请求时刻;
按照异常的所述用户端对应的访问请求以及对应的请求时刻在对应的浏览器页面渲染环境内进行复现,生成异常的所述用户端在不同时刻的虚拟显示页面。
4.根据权利要求3所述的方法,其特征在于,所述根据每个异常的所述用户端的波动值得到全部异常的所述用户端的检查顺序的步骤,包括,
获取全部异常的所述用户端的波动值的累加值;
根据每个异常的所述用户端的波动值以及全部异常的所述用户端的波动值的累加值计算得到每个异常的所述用户端的波动占比;
根据每个异常的所述用户端的身份标识生成每个异常的所述用户端的编号;
将异常的所述用户端的编号复制若干份存入抽取数组,其中,所述抽取数组中所述用户端的编号复制份数占整体复制份数的比例等于对应波动占比;
从所述抽取数组中随机无放回抽取异常的所述用户端的编号直至完成对每个异常的所述用户端的编号的抽取;
将全部异常的所述用户端的编号按照从所述抽取数组中抽取的先后顺序进行排序,得到全部异常的所述用户端的编号的抽取顺序;
按照全部异常的所述用户端的编号的抽取顺序获取全部异常的所述用户端的检查顺序。
5.根据权利要求1所述的方法,其特征在于,所述抓取异常的所述用户端的显示页面的特征的步骤,包括,
持续获取异常的所述用户端的显示页面内的数据并记录对应显示页面的获取时间;
在异常的所述用户端的显示页面内的数据中筛选出由所述数据库调取的数据资源,作为异常的所述用户端的显示页面内的敏感数据;
获取异常的所述用户端的显示页面内敏感数据的分布位置;
在所述持续获取异常的所述用户端的显示页面内的数据的时间段内,记录敏感数据的分布位置的变化状态;
将异常的所述用户端的显示页面内敏感数据的分布位置的变化状态作为显示页面的特征进行抓取。
6.根据权利要求5所述的方法,其特征在于,所述将异常的所述用户端在不同时刻的虚拟显示页面的特征与异常的所述用户端的显示页面的特征进行比对的步骤,包括,
获取异常的所述用户端的显示页面的特征对应显示页面的获取时间作为比对窗口时间段;
根据异常的所述用户端的显示页面的特征得到在所述比对窗口时间段内异常的所述用户端的显示页面中的所述敏感数据;
获取所述比对窗口时间段内的所述虚拟显示页面;
获取所述比对窗口时间段内的所述虚拟显示页面中的所述敏感数据;
对所述比对窗口时间段内异常的所述用户端的显示页面中的所述敏感数据以及所述虚拟显示页面中的所述敏感数据进行一致性匹配;
若不匹配,则判断比对结果不一致;
若匹配,则根据异常的所述用户端的显示页面的特征得到敏感数据的分布位置的变化状态;
获取所述虚拟显示页面内敏感数据在所述比对窗口时间段内的分布位置的变化状态;
对在所述比对窗口时间段内异常的所述用户端的显示页面内敏感数据的分布位置的变化状态和所述虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配。
7.根据权利要求6所述的方法,其特征在于,所述对在所述比对窗口时间段内异常的所述用户端的显示页面内敏感数据的分布位置的变化状态和所述虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配的步骤,包括,
获取异常的所述用户端的显示页面内每个敏感数据在所述比对窗口时间段内分布位置的变化速率作为异常的所述用户端的显示页面内每个敏感数据的活跃度;
按照异常的所述用户端的显示页面内每个敏感数据的活跃度对异常的所述用户端的显示页面内每个敏感数据进行排序,得到异常的所述用户端的显示页面内敏感数据活跃序列表;
获取所述虚拟显示页面内每个敏感数据在所述比对窗口时间段内分布位置的变化速率作为所述虚拟显示页面内每个敏感数据的活跃度;
按照所述虚拟显示页面内每个敏感数据的活跃度对所述虚拟显示页面内每个敏感数据进行排序,得到所述虚拟显示页面内敏感数据活跃序列表;
按照异常的所述用户端的显示页面内敏感数据活跃序列表和所述虚拟显示页面内敏感数据活跃序列表中敏感数据的排列顺序,对在所述比对窗口时间段内异常的所述用户端的显示页面内敏感数据的分布位置的变化状态和所述虚拟显示页面内敏感数据的分布位置的变化状态进行一致性匹配。
8.一种动态页面的生成装置,其特征在于,包括,
信息收发单元,用于接收用户端的访问请求以及对应的请求时刻;
收集所述用户端的特征;
向所述用户端发送数据资源;
网络服务单元,用于根据所述用户端的访问请求向数据库发送数据调用指令;
接收所述数据调用指令对应数据资源;
数据保护单元,用于根据所述用户端的特征得到所述用户端的身份标识,用于对所述用户端进行身份标记;
将所述用户端的身份标识、访问请求以及对应的请求时刻进行存储得到所述用户端的动作记录;
根据所述用户端的访问请求以及对应的请求时刻筛选出异常的所述用户端;
根据所述用户端的动作记录调取出异常的所述用户端对应的访问请求以及对应的请求时刻;
根据所述异常的所述用户端对应的访问请求以及对应的请求时刻生成异常的所述用户端在不同时刻的虚拟显示页面;
抓取异常的所述用户端的显示页面;
将异常的所述用户端在不同时刻的虚拟显示页面与异常的所述用户端的显示页面进行比对;
若比对结果一致,则持续接收并响应所述用户端的访问请求;
若比对结果不一致,则不再接收对应的所述用户端的访问请求;其中,
所述根据所述用户端的访问请求以及对应的请求时刻筛选出异常的所述用户端的步骤,包括,
根据所述用户端的访问请求以及对应的请求时刻获取所述用户端的访问请求速率;
根据所述用户端的访问请求速率以及对应的请求时刻获取所述用户端的访问请求速率关于请求时刻的拟合函数;
根据所述用户端的访问请求速率关于请求时刻的拟合函数获取所述用户端的历史访问请求总量关于时间的拟合函数;
根据所述用户端的历史访问请求总量关于时间的拟合函数获取所述用户端的实时历史平均请求量;
获取全部所述用户端的实时历史平均请求量的数值分布比例;
根据全部所述用户端的实时历史平均请求量的数值分布比例筛选出预异常的所述用户端;
根据预异常的所述用户端的访问请求速率关于请求时刻的拟合函数筛选出异常的所述用户端。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条命令、至少一段程序、代码集或指令集,所述至少一条命令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的动态页面的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310431672.7A CN116150542B (zh) | 2023-04-21 | 2023-04-21 | 一种动态页面的生成方法和装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310431672.7A CN116150542B (zh) | 2023-04-21 | 2023-04-21 | 一种动态页面的生成方法和装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116150542A CN116150542A (zh) | 2023-05-23 |
CN116150542B true CN116150542B (zh) | 2023-07-14 |
Family
ID=86354670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310431672.7A Active CN116150542B (zh) | 2023-04-21 | 2023-04-21 | 一种动态页面的生成方法和装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150542B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933701A (zh) * | 2019-03-08 | 2019-06-25 | 四川大学 | 一种基于多策略融合的微博数据获取方法 |
CN110096659A (zh) * | 2019-03-27 | 2019-08-06 | 北京三快在线科技有限公司 | 一种页面显示方法、装置、设备及可读存储介质 |
CN114338159A (zh) * | 2021-12-28 | 2022-04-12 | 中国电信股份有限公司 | 访问限制方法、装置、非易失性存储介质及处理器 |
CN115168171A (zh) * | 2022-07-21 | 2022-10-11 | 康键信息技术(深圳)有限公司 | 网页异常的处理方法、装置、电子设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159992A (zh) * | 2015-09-01 | 2015-12-16 | 北京瑞汛世纪科技有限公司 | 一种应用程序的页面内容及网络行为的检测方法及装置 |
CN108062459B (zh) * | 2016-11-09 | 2020-06-05 | 腾讯科技(北京)有限公司 | 防止抓取页面信息的方法及装置 |
CN107092660A (zh) * | 2017-03-28 | 2017-08-25 | 成都优易数据有限公司 | 一种网站服务器爬虫识别方法和装置 |
US10846664B2 (en) * | 2017-05-26 | 2020-11-24 | Aim Ip, Llc | Secure electronic system for managing digital currencies |
CN110445753A (zh) * | 2019-06-28 | 2019-11-12 | 平安科技(深圳)有限公司 | 终端设备异常访问的隔离方法和装置 |
CN113821754A (zh) * | 2021-09-18 | 2021-12-21 | 上海观安信息技术股份有限公司 | 一种敏感数据接口爬虫识别方法及装置 |
CN115098757A (zh) * | 2022-06-27 | 2022-09-23 | 平安银行股份有限公司 | 一种网络爬虫识别方法、装置、系统及设备 |
CN115550051A (zh) * | 2022-10-14 | 2022-12-30 | 武汉极意网络科技有限公司 | 一种智能反爬虫拦截系统 |
CN115865507A (zh) * | 2022-12-06 | 2023-03-28 | 中孚安全技术有限公司 | 一种爬虫识别方法、系统、装置及可读存储介质 |
-
2023
- 2023-04-21 CN CN202310431672.7A patent/CN116150542B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933701A (zh) * | 2019-03-08 | 2019-06-25 | 四川大学 | 一种基于多策略融合的微博数据获取方法 |
CN110096659A (zh) * | 2019-03-27 | 2019-08-06 | 北京三快在线科技有限公司 | 一种页面显示方法、装置、设备及可读存储介质 |
CN114338159A (zh) * | 2021-12-28 | 2022-04-12 | 中国电信股份有限公司 | 访问限制方法、装置、非易失性存储介质及处理器 |
CN115168171A (zh) * | 2022-07-21 | 2022-10-11 | 康键信息技术(深圳)有限公司 | 网页异常的处理方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116150542A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
US9075914B2 (en) | Analytics driven development | |
CN107797894B (zh) | App用户行为分析方法和装置 | |
CN103530365B (zh) | 获取资源的下载链接的方法及系统 | |
CN113489713B (zh) | 网络攻击的检测方法、装置、设备及存储介质 | |
CN113590497A (zh) | 业务服务的测试方法、装置、电子设备及存储介质 | |
CN104765689A (zh) | 一种接口性能数据实时监制方法和装置 | |
CN113676563B (zh) | 内容分发网络服务的调度方法、装置、设备及存储介质 | |
CN105159992A (zh) | 一种应用程序的页面内容及网络行为的检测方法及装置 | |
CN111404937A (zh) | 一种服务器漏洞的检测方法和装置 | |
CN109582883B (zh) | 栏目页的确定方法和装置 | |
CN110737645B (zh) | 一种不同系统间数据迁移方法、数据迁移系统及相关设备 | |
CN112347457A (zh) | 异常账户检测方法、装置、计算机设备和存储介质 | |
CN111859069B (zh) | 一种网络恶意爬虫识别方法、系统、终端及存储介质 | |
CN107786641B (zh) | 一种分布式多系统用户行为日志的采集方法 | |
CN116150542B (zh) | 一种动态页面的生成方法和装置及存储介质 | |
CN105989019B (zh) | 一种清洗数据的方法及装置 | |
CN112579864B (zh) | 反诈骗处理方法和装置 | |
CN116049138A (zh) | 交易数据的数据追溯方法、追溯装置和追溯系统 | |
CN110650126A (zh) | 一种防网站流量攻击方法、装置以及智能终端、存储介质 | |
CN113821754A (zh) | 一种敏感数据接口爬虫识别方法及装置 | |
CN112860456B (zh) | 日志处理方法和装置 | |
CN111611483B (zh) | 一种对象画像构建方法、装置、设备及存储介质 | |
CN114297462A (zh) | 一种基于动态自适应的网站异步序列数据智能采集方法 | |
CN114765599A (zh) | 子域名采集方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |