CN116821885B - 数据采集方法、装置、计算机设备和存储介质 - Google Patents

数据采集方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116821885B
CN116821885B CN202310890150.3A CN202310890150A CN116821885B CN 116821885 B CN116821885 B CN 116821885B CN 202310890150 A CN202310890150 A CN 202310890150A CN 116821885 B CN116821885 B CN 116821885B
Authority
CN
China
Prior art keywords
new
track curve
data
operation track
verification tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310890150.3A
Other languages
English (en)
Other versions
CN116821885A (zh
Inventor
刘吉
马理想
孙祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichacha Technology Co ltd
Original Assignee
Qichacha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qichacha Technology Co ltd filed Critical Qichacha Technology Co ltd
Priority to CN202310890150.3A priority Critical patent/CN116821885B/zh
Publication of CN116821885A publication Critical patent/CN116821885A/zh
Application granted granted Critical
Publication of CN116821885B publication Critical patent/CN116821885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop

Abstract

本申请涉及数据采集方法、装置、计算机设备和存储介质。所述方法包括:包括:获取目标页面上验证工具的操作数据;其中,所述操作数据包括所述验证工具上操作对象的操作位置与对应的操作时刻;所述操作数据为根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,根据所述新的操作轨迹曲线生成得到;根据所述操作数据操作所述验证工具的所述操作对象;在操作通过验证的情况下,采集所述目标页面上的数据。本公开实施例,可以提高验证工具通过的通过率。

Description

数据采集方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据技术领域,特别是涉及一种数据采集方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着大数据技术的发展,数据已然成为不可或缺的产物。在数据采集领域,采集目标(例如网站、服务器等)通常会采取一些人机验证防护手段,阻止恶意的访问流量,但一些善意的访问流量也被阻拦,导致访问者无法进行数据采集,降低了大数据的利用率。
发明内容
基于此,有必要针对上述技术问题,提供一种数据采集方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种数据采集方法,包括:
获取目标页面上验证工具的操作数据;其中,所述操作数据包括所述验证工具上操作对象的操作位置与对应的操作时刻;所述操作数据为根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,根据所述新的操作轨迹曲线生成得到;
根据所述操作数据操作所述验证工具的所述操作对象;
在操作通过验证的情况下,采集所述目标页面上的数据。
在一种可能的实现方式中,所述根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,包括:
获取多个所述历史操作轨迹曲线的预设特征点位置分布;其中,所述预设特征点包括所述历史操作轨迹曲线中斜率变化最大的点;
根据所述位置分布,确定新的特征点;
根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线。
在一种可能的实现方式中,获取多个所述历史操作轨迹曲线的预设特征点位置分布,包括:
获取多个所述历史操作轨迹曲线的预设特征点的横坐标数据以及纵坐标数据;
确定每个所述预设特征点的横坐标与横坐标轴的第一比例,以及纵坐标与纵坐标轴的第二比例;
所述根据所述位置分布,确定新的特征点,包括:
确定第一均值为多个所述第一比例的加权和,确定第二均值为多个所述第二比例的加权和,其中,所述第一比例的权重为所述第一比例出现的频次,所述第二比例的权重为所述第二比例出现的频次;
根据所述第一均值作为横坐标和所述第二均值作为纵坐标,确定新的特征点。
在一种可能的实现方式中,根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线,包括:
根据所述新的特征点以及贝塞尔曲线方程,生成新的操作轨迹曲线,其中,所述新的操作轨迹曲线的控制点为所述新的特征点。
在一种可能的实现方式中,在所述根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线,包括:
根据所述新的特征点以及轨迹曲线预设生成规则,生成中间操作轨迹曲线;
根据所述位置误差对所述中间操作轨迹曲线进行修正,得到新的操作轨迹曲线。
在一种可能的实现方式中,所述验证工具包括多个子验证工具,所述根据所述操作数据操作所述验证工具的所述操作对象,包括:
根据每个子验证工具对应的操作数据,分别操作每个所述子验证工具上的操作对象。
第二方面,本申请还提供了一种数据采集装置,所述装置包括:
获取模块,用于获取目标页面上验证工具的操作数据;其中,所述操作数据包括所述验证工具上操作对象的操作位置与对应的操作时刻;所述操作数据为根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,根据所述新的操作轨迹曲线生成得到;
处理模块,用于根据所述操作数据操作所述验证工具的所述操作对象;
采集模块,用于在操作通过验证的情况下,采集所述目标页面上的数据。
在一种可能的实现方式中,所述获取模块,包括:
获取子模块,用于获取多个所述历史操作轨迹曲线的预设特征点位置分布;其中,所述预设特征点包括所述历史操作轨迹曲线中斜率变化最大的点;
确定子模块,用于根据所述位置分布,确定新的特征点;
生成子模块,用于根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线。
在一种可能的实现方式中,所述获取子模块,包括:
获取单元,用于获取多个所述历史操作轨迹曲线的预设特征点的横坐标数据以及纵坐标数据;
第一确定单元,用于确定每个所述预设特征点的横坐标与横坐标轴的第一比例,以及纵坐标与纵坐标轴的第二比例;
所述确定子模块,包括:
第二确定单元,用于确定第一均值为多个所述第一比例的加权和,确定第二均值为多个所述第二比例的加权和,其中,所述第一比例的权重为所述第一比例出现的频次,所述第二比例的权重为所述第二比例出现的频次;
第三确定单元,用于根据所述第一均值作为横坐标和所述第二均值作为纵坐标,确定新的特征点。
在一种可能的实现方式中,所述生成子模块,包括:
第一生成单元,用于根据所述新的特征点以及贝塞尔曲线方程,生成新的操作轨迹曲线,其中,所述新的操作轨迹曲线的控制点为所述新的特征点。
在一种可能的实现方式中,所述生成子模块,包括:
第二生成单元,用于根据所述新的特征点以及轨迹曲线预设生成规则,生成中间操作轨迹曲线;
修正单元,用于根据所述位置误差对所述中间操作轨迹曲线进行修正,得到新的操作轨迹曲线。
在一种可能的实现方式中,所述验证工具包括多个子验证工具,所述处理模块,包括:
处理子模块,用于根据每个子验证工具对应的操作数据,分别操作每个所述子验证工具上的操作对象。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例任一项所述的数据采集方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本公开实施例任一项所述的数据采集方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现数据采集方法。
上述数据采集方法、装置、计算机设备、存储介质和计算机程序产品,根据少量的历史操作轨迹曲线上少量的预设特征点,即可生成新的操作轨迹曲线,其中预设特征点能够反应轨迹曲线的特征,从而生成的新的操作轨迹曲线既和人工验证的产生的历史操作轨迹曲线比较接近又与之不相同,从而按照新的操作轨迹曲线对应的操作数据操作验证工具,可以提高验证工具通过的通过率。
附图说明
图1为一个实施例中数据采集方法的第一流程示意图;
图2为一个实施例中数据采集方法中验证工具的应用场景图;
图3为一个实施例中数据采集方法中操作轨迹曲线示意图;
图4为另一个实施例中数据采集方法的第二流程示意图;
图5为一个实施例中数据采集装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了方便本领域技术人员理解本公开实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。
人机验证方式中,常采用行为轨迹验证方法,例如,拖动滑块至预设位置,虽然机器也可以做到将滑块拖动到指定位置,但机器操作与人工操作的行为轨迹存在较大差异。导致机器无法通过人机验证。相关技术中,为了使机器能够正常采集数据,采用如下方式进行:例如:暴力破解法,建立一个存储轨迹的数据库,每当计算出滑块所需要滑动的距离时,从数据库中距离相同的行为轨迹中随机挑选一个,填入进行验证。该方法对于不同的滑块,需要建立不同的轨迹库,工作量非常大。再例如:最小二乘法曲线拟合。最小二乘法拟合首先需要确定拟合曲线的函数模型,找出参数之间是线性关系还是非线性关系。若是非线性关系则需进一步确认参数之间的数学关系是多项式关系、指数关系、幂关系、还是对数关系。甚至是以上关系的复合形式。拟合函数的确定方法主要有近似法、观察法以及计算法。用的最多的是观察法。观察法主要通过样本的分布规律得出一个大概的参数关系,进而确定函数模型。然而这种方法的得到行为轨迹泛化能力较弱,错误率较高。再例如:滑动轨迹模拟从本质上来讲就是一个距离随时间变化的模型,机器学习在解决时序问题上有非常好的表现,在现有的深度学习模型中,循环神经网络RNN对生成序列有着较强的能力,而高级循环神经网络如LSTM则表现更为突出。机器学习方法生成滑动轨迹虽然具有一定通用性且通过率很高,但是需要大量的数据收集标注并且会消耗计算资源来训练模型。
基于类似于上文所述的实际技术需求,一种数据采集方法、装置、计算机设备、存储介质和计算机程序产品。
在一个实施例中,如图1所示,提供了一种数据采集方法,以该方法应用于终端和服务器为例进行说明,包括以下步骤:
步骤S101,获取目标页面上验证工具的操作数据;其中,所述操作数据包括所述验证工具上操作对象的操作位置与对应的操作时刻;所述操作数据为根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,根据所述新的操作轨迹曲线生成得到。
具体的,所述验证工具可以包括按照预设操作规则进行访问验证的验证工具。验证工具上可以设置可移动的操作对象以及静止的参照物,在一示例性实施例中,参考图2所示,滑块203可以作为可移动的操作对象,当拖动滑块203移动至参照位置205时,表示验证通过。在另一示例性实施例中,验证工具可以包括多个子验证工具,例如多个首尾相连的子验证工具,需要多次拖动可移动的操作对象到指定位置,从而通过验证。
本公开实施例中,所述操作数据包括操作对象的操作位置与对应的操作时刻,例如起始时刻对应起始位置,0时刻对应0位置,1毫秒对应1毫米,2毫秒对应3毫米,3毫秒对应7毫米等。在一示例性实施例中,可以预先建立验证工具与操作数据的关联关系,不同的验证工具对应不同的操作数据。其中,操作数据的获得方式可以包括:根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,根据所述新的操作轨迹曲线生成得到新的操作数据。
具体的,以验证工具A来说,获取验证工具A人工验证的历史操作数据,其中,所述人工验证指的是用户手动拖动验证工具上的操作对象进行验证的方式。每一次的历史操作数据可以生成对应的历史操作轨迹曲线,即位置随时间变化的曲线,在一示例性实施例中,参考图3所示,X轴表示时间轴,Y轴表示位移轴,其中起点位置301表示操作对象出发的位置,终点位置307表示操作对象到达指定位置的位置。
本公开实施例中,所述预设特征点用于描述曲线特征的点,例如极值点、斜率变化最快的点等。在一示例性实施例中,根据多条历史操作轨迹曲线的预设特征点,求取各预设特征点的恒坐标的均值以及纵坐标的均值,得到新的特征点。在另一示例性实施例中,可以根据特征点的位置分布,例如,分布在一个圆形区域,选择圆形区域的圆心作为新的特征点。在一示例性实施例中,可以根据所述新的特征点,以及加速度运动方程,计算得到新的操作轨迹曲线。在另一示例性实施例中,还可以根据所述新的特征点以及贝塞尔曲线方程,计算得到新的操作轨迹曲线,其中,贝塞尔曲线可以包括一阶、二阶、三阶及以上。
步骤S103,根据所述操作数据操作所述验证工具的所述操作对象。
本公开实施例中,操作数据中包含了操作位置及对应的操作时刻,即操作对象在什么时刻出现在什么位置,因此,可以自动的根据所述操作数据操作操作对象。
步骤S105,在操作通过验证的情况下,采集所述目标页面上的数据。
具体的,验证工具不同,可以体现在拖动操作对象的距离不同,每种验证工具对应有具体的拖动终止位置。当按照所述操作数据操作所述操作对象,即拖动所述操作对象至终止位置时,目标页面对应的服务器会验证这一操作是否符合验证规则,若符合,则验证通过。在验证通过的情况下,可以自动化的采集目标页面的数据。其中,采集方式可以包括多种,例如快照、截图、爬虫等方式,本公开对此不做限制。
上述数据采集方法,根据少量的历史操作轨迹曲线上少量的预设特征点,即可生成新的操作轨迹曲线,其中预设特征点能够反应轨迹曲线的特征,从而生成的新的操作轨迹曲线既和人工验证的产生的历史操作轨迹曲线比较接近又与之不相同,从而按照新的操作轨迹曲线对应的操作数据操作验证工具,可以提高验证工具通过的通过率。
图4为另一个实施例中数据采集方法的第二流程示意图;参考图4所示,所述根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,包括:
步骤S401,获取多个所述历史操作轨迹曲线的预设特征点位置分布;其中,所述预设特征点包括所述历史操作轨迹曲线中斜率变化最大的点;
步骤S403,根据所述位置分布,确定新的特征点;
步骤S405,根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线。
具体的,所述预设特征点包括所述历史操作轨迹曲线中斜率变化最大的点。其中预设特征点的数量不受限制,可以根据具体的轨迹曲线预设生成规则确定,预设特征点的数量可以包括一个、两个、或多个。例如,预设特征点的数量为两个时,斜率变化最大的两个点包括斜率变化最大的点以及次最大的点。在一示例性实施例中,所述预设特征点的位置分布可以包括预设特征点位于坐标系中的位置,根据该位置构成的图形,选择图形的几何中心作为新的特征点。在另一示例性实施例中,可以通过下述方式确定新的特征点:
获取多个所述历史操作轨迹曲线的预设特征点的横坐标数据以及纵坐标数据;确定每个所述预设特征点的横坐标与横坐标轴的第一比例,以及纵坐标与纵坐标轴的第二比例。
确定第一均值为多个所述第一比例的加权和,确定第二均值为多个所述第二比例的加权和,其中,所述第一比例的权重为所述第一比例出现的频次,所述第二比例的权重为所述第二比例出现的频次;
根据所述第一均值作和所述第二均值,确定新的特征点。
具体的,横坐标轴表示横坐标数据中的最大值,体现了验证工具中操作对象到达指定位置的距离,以横坐标为例,多个历史操作轨迹曲线预设特征点的横坐标表示为S1、S2…Sn,其中,n≤历史操作轨迹曲线的个数。p1、p2…pn为对应比例出现的频次,其中频次可以确定为某种比例出现的次数与轨迹曲线总个数的比值。第一均值可以表示如下:
类似的,纵坐标的第二均值可以表示为
确定新的特征点的横坐标为第一均值与横坐标轴的乘积,纵坐标为第二均值与纵坐标轴的乘积,例如横坐标轴长度表示为x,纵坐标轴长度表示为y。新的特征点可以表示为需要说明的是,当预设特征点的数量大于或等于2个以上时,每个新的特征点的计算方式与上述实施例相同,在此不再赘述。
通过上述实施例确定新的特征点的方式,具有操作简单,可实施性强的有益效果。并且比例计算得到的新的特征点与历史操作轨迹曲线具有较高的相关性,能够模拟真实的人工验证的操作数据,从而进一步提高了通过率。
在一种可能的实现方式中,根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线,包括:
根据所述新的特征点以及贝塞尔曲线方程,生成新的操作轨迹曲线,其中,所述新的操作轨迹曲线的控制点为所述新的特征点。
具体的,以新的特征点的个数为两个为例,新的特征点P1和P2可以分别作为贝塞尔三阶曲线的控制点的坐标,贝塞尔三阶曲线公式如下:
B(t)=P0(1-t)3+3P1t(1-t)2+3P2t2(1-t)+P3t3,t∈[0,1]
P0作为起始点的坐标,P3作为终止点的坐标,上述P0、P1、P2、P3的值都是已知的,t为移动步长,决定了在起始点和终止点之间需要生成多少个坐标。需要说明的是,本公开实施例中,贝塞尔曲线的阶数不限制是三阶,例如二阶贝塞尔曲线使用一个控制点、起始点和终止点可解曲线上所有坐标。
本公开实施例,通过少量的特征点,可以得到操作轨迹曲线,与人工验证的历史操作轨迹曲线较为接近。当新的特征点为两个时,更能够模仿人工滑动操作对象先加速后减速的滑动过程,其中,两个特征点分别对应加速度最大的两个点。进一步提高了新操作轨迹曲线的准确性。提高验证的通过率。
在一种可能的实现方式中,在所述根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线,包括:
根据所述新的特征点以及轨迹曲线预设生成规则,生成中间操作轨迹曲线;
根据所述位置误差对所述中间操作轨迹曲线进行修正,得到新的操作轨迹曲线。
具体的,根据所述新的特征点以及轨迹曲线预设生成规则,生成中间操作轨迹曲线的具体实施例,可以包括上述实施例中得到新的操作轨迹曲线的实施例,在这里不再赘述。本公开实施例中,所述位置误差的获得方式,在一示例性实施例中,可以通过历史操作轨迹曲线中最大值和最小值的差值获得。在另一示例性实施例中,还可以通过经验值获得。本公开实施例中,根据所述位置误差对所述中间操作轨迹曲线进行修正,可以包括对中间操作轨迹曲线上随机选择一些坐标点,将坐标点的纵坐标值增加或减小所述位置误差。
本公开实施例,通过对中间操作轨迹曲线的进行修正,能够得到更加符合实际情况的操作轨迹曲线。
在一种可能的实现方式中,所述验证工具包括多个子验证工具,所述根据所述操作数据操作所述验证工具的所述操作对象,包括:
根据每个子验证工具对应的操作数据,分别操作每个所述子验证工具上的操作对象。
具体的,验证工具可以包括较为复杂的情况,例如多段式,多个子验证工具,每个子验证工具上均包括对应的操作对象,需要操作每个子验证工具上的操作对象,完成对应的验证。其中,每个子验证工具对应的操作轨迹曲线可以按照上述实施例中方法实现。例如,多段低阶贝塞尔曲线进行组合模拟。
通过本公开实施例,对于较复杂的验证工具也可以通过多个操作轨迹曲线进行组合实现,满足了多种验证需求。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据采集方法的数据采集装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据采集装置实施例中的具体限定可以参见上文中对于数据采集方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种数据采集装置,包括:
获取模块,用于获取目标页面上验证工具的操作数据;其中,所述操作数据包括所述验证工具上操作对象的操作位置与对应的操作时刻;所述操作数据为根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,根据所述新的操作轨迹曲线生成得到;
处理模块,用于根据所述操作数据操作所述验证工具的所述操作对象;
采集模块,用于在操作通过验证的情况下,采集所述目标页面上的数据。
在一种可能的实现方式中,所述获取模块,包括:
获取子模块,用于获取多个所述历史操作轨迹曲线的预设特征点位置分布;其中,所述预设特征点包括所述历史操作轨迹曲线中斜率变化最大的点;
确定子模块,用于根据所述位置分布,确定新的特征点;
生成子模块,用于根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线。
在一种可能的实现方式中,所述获取子模块,包括:
获取单元,用于获取多个所述历史操作轨迹曲线的预设特征点的横坐标数据以及纵坐标数据;
第一确定单元,用于确定每个所述预设特征点的横坐标与横坐标轴的第一比例,以及纵坐标与纵坐标轴的第二比例;
所述确定子模块,包括:
第二确定单元,用于确定第一均值为多个所述第一比例的加权和,确定第二均值为多个所述第二比例的加权和,其中,所述第一比例的权重为所述第一比例出现的频次,所述第二比例的权重为所述第二比例出现的频次;
第三确定单元,用于根据所述第一均值作为横坐标和所述第二均值作为纵坐标,确定新的特征点。
在一种可能的实现方式中,所述生成子模块,包括:
第一生成单元,用于根据所述新的特征点以及贝塞尔曲线方程,生成新的操作轨迹曲线,其中,所述新的操作轨迹曲线的控制点为所述新的特征点。
在一种可能的实现方式中,所述生成子模块,包括:
第二生成单元,用于根据所述新的特征点以及轨迹曲线预设生成规则,生成中间操作轨迹曲线;
修正单元,用于根据所述位置误差对所述中间操作轨迹曲线进行修正,得到新的操作轨迹曲线。
在一种可能的实现方式中,所述验证工具包括多个子验证工具,所述处理模块,包括:
处理子模块,用于根据每个子验证工具对应的操作数据,分别操作每个所述子验证工具上的操作对象。
上述数据采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据采集方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种数据采集方法,其特征在于,包括:
获取目标页面上验证工具的操作数据;其中,所述操作数据包括所述验证工具上操作对象的操作位置与对应的操作时刻;所述操作数据为根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线;其中,所述根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线,包括:获取多个所述历史操作轨迹曲线的预设特征点位置分布;其中,所述预设特征点包括所述历史操作轨迹曲线中斜率变化最大的点;根据所述位置分布,确定新的特征点;根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线;其中,所述根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线,包括:根据所述新的特征点以及贝塞尔曲线方程,生成新的操作轨迹曲线,其中,所述新的操作轨迹曲线的控制点为所述新的特征点;
根据所述操作数据操作所述验证工具的所述操作对象;
在操作通过验证的情况下,采集所述目标页面上的数据。
2.根据权利要求1所述的方法,其特征在于,获取多个所述历史操作轨迹曲线的预设特征点位置分布,包括:
获取多个所述历史操作轨迹曲线的预设特征点的横坐标数据以及纵坐标数据;
确定每个所述预设特征点的横坐标与横坐标轴的第一比例,以及纵坐标与纵坐标轴的第二比例;
所述根据所述位置分布,确定新的特征点,包括:
确定第一均值为多个所述第一比例的加权和,确定第二均值为多个所述第二比例的加权和,其中,所述第一比例的权重为所述第一比例出现的频次,所述第二比例的权重为所述第二比例出现的频次;
根据所述第一均值作为横坐标和所述第二均值作为纵坐标,确定新的特征点。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线,包括:
根据所述新的特征点以及轨迹曲线预设生成规则,生成中间操作轨迹曲线;
根据位置误差对所述中间操作轨迹曲线进行修正,得到新的操作轨迹曲线。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述验证工具包括多个子验证工具,所述根据所述操作数据操作所述验证工具的所述操作对象,包括:
根据每个子验证工具对应的操作数据,分别操作每个所述子验证工具上的操作对象。
5.一种数据采集装置,其特征在于,所述装置包括:
获取模块,用于获取目标页面上验证工具的操作数据;其中,所述操作数据包括所述验证工具上操作对象的操作位置与对应的操作时刻;所述操作数据为根据所述验证工具的人工验证的历史操作数据,确定历史操作轨迹曲线,并根据多个所述历史操作轨迹曲线的预设特征点,生成新的操作轨迹曲线;
处理模块,用于根据所述操作数据操作所述验证工具的所述操作对象;
采集模块,用于在操作通过验证的情况下,采集所述目标页面上的数据;
其中,所述获取模块包括:
获取子模块,用于获取多个所述历史操作轨迹曲线的预设特征点位置分布;其中,所述预设特征点包括所述历史操作轨迹曲线中斜率变化最大的点;
确定子模块,用于根据所述位置分布,确定新的特征点;
生成子模块,用于根据所述新的特征点以及轨迹曲线预设生成规则,生成新的操作轨迹曲线;其中,所述生成子模块,包括:
第一生成单元,用于根据所述新的特征点以及贝塞尔曲线方程,生成新的操作轨迹曲线,其中,所述新的操作轨迹曲线的控制点为所述新的特征点。
6.根据权利要求5所述的装置,其特征在于,所述获取子模块,包括:
获取单元,用于获取多个所述历史操作轨迹曲线的预设特征点的横坐标数据以及纵坐标数据;
第一确定单元,用于确定每个所述预设特征点的横坐标与横坐标轴的第一比例,以及纵坐标与纵坐标轴的第二比例;
所述确定子模块,包括:
第二确定单元,用于确定第一均值为多个所述第一比例的加权和,确定第二均值为多个所述第二比例的加权和,其中,所述第一比例的权重为所述第一比例出现的频次,所述第二比例的权重为所述第二比例出现的频次;
第三确定单元,用于根据所述第一均值作为横坐标和所述第二均值作为纵坐标,确定新的特征点。
7.根据权利要求5所述的装置,其特征在于,所述生成子模块,包括:
第二生成单元,用于根据所述新的特征点以及轨迹曲线预设生成规则,生成中间操作轨迹曲线;
修正单元,用于根据位置误差对所述中间操作轨迹曲线进行修正,得到新的操作轨迹曲线。
8.根据权利要求5至7中任一项所述的装置,其特征在于,所述验证工具包括多个子验证工具,所述处理模块,包括:
处理子模块,用于根据每个子验证工具对应的操作数据,分别操作每个所述子验证工具上的操作对象。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的数据采集方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的数据采集方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4中任一项所述的数据采集方法的步骤。
CN202310890150.3A 2023-07-19 2023-07-19 数据采集方法、装置、计算机设备和存储介质 Active CN116821885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310890150.3A CN116821885B (zh) 2023-07-19 2023-07-19 数据采集方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310890150.3A CN116821885B (zh) 2023-07-19 2023-07-19 数据采集方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN116821885A CN116821885A (zh) 2023-09-29
CN116821885B true CN116821885B (zh) 2024-02-20

Family

ID=88125851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310890150.3A Active CN116821885B (zh) 2023-07-19 2023-07-19 数据采集方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116821885B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991303A (zh) * 2017-03-07 2017-07-28 微梦创科网络科技(中国)有限公司 一种手势验证码的识别方法及装置
CN108008898A (zh) * 2017-12-13 2018-05-08 东软集团股份有限公司 页面信息获取方法、装置、计算机设备和存储介质
CN108985041A (zh) * 2018-05-17 2018-12-11 厦门二五八网络科技集团股份有限公司 一种基于滑动验证的验证码识别输入方法及系统
CN110427746A (zh) * 2019-08-08 2019-11-08 腾讯科技(深圳)有限公司 滑块验证码验证方法、装置、存储介质和计算机设备
CN111310156A (zh) * 2019-11-28 2020-06-19 苏宁金融科技(南京)有限公司 一种滑块验证码的自动识别方法及系统
CN111783960A (zh) * 2020-07-09 2020-10-16 中国人民解放军国防科技大学 基于自动编码器和双向lstm的船舶轨迹预测方法及系统
CN112699362A (zh) * 2020-12-28 2021-04-23 平安普惠企业管理有限公司 登录验证方法、装置、电子设备及计算机可读存储介质
CN113553568A (zh) * 2020-04-23 2021-10-26 京东数字科技控股有限公司 人机识别方法、滑块验证方法、装置、介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5891875B2 (ja) * 2012-03-19 2016-03-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991303A (zh) * 2017-03-07 2017-07-28 微梦创科网络科技(中国)有限公司 一种手势验证码的识别方法及装置
CN108008898A (zh) * 2017-12-13 2018-05-08 东软集团股份有限公司 页面信息获取方法、装置、计算机设备和存储介质
CN108985041A (zh) * 2018-05-17 2018-12-11 厦门二五八网络科技集团股份有限公司 一种基于滑动验证的验证码识别输入方法及系统
CN110427746A (zh) * 2019-08-08 2019-11-08 腾讯科技(深圳)有限公司 滑块验证码验证方法、装置、存储介质和计算机设备
CN111310156A (zh) * 2019-11-28 2020-06-19 苏宁金融科技(南京)有限公司 一种滑块验证码的自动识别方法及系统
CN113553568A (zh) * 2020-04-23 2021-10-26 京东数字科技控股有限公司 人机识别方法、滑块验证方法、装置、介质和设备
CN111783960A (zh) * 2020-07-09 2020-10-16 中国人民解放军国防科技大学 基于自动编码器和双向lstm的船舶轨迹预测方法及系统
CN112699362A (zh) * 2020-12-28 2021-04-23 平安普惠企业管理有限公司 登录验证方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN116821885A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
Freschi et al. Bootstrap based uncertainty propagation for data quality estimation in crowdsensing systems
CN114140992A (zh) 电子围栏预警方法、装置、计算机设备和存储介质
CN116821885B (zh) 数据采集方法、装置、计算机设备和存储介质
CN111639523B (zh) 目标检测方法、装置、计算机设备和存储介质
CN111581586B (zh) 基于套合模型的湖库水质各向异性插值方法和装置
CN116154768B (zh) 采用点预测误差经验分布逆变换的功率区间预测方法
CN113808015B (zh) 输电线路区域气象参数的空间插值方法、装置及设备
CN115237097A (zh) 自动驾驶仿真测试方法、装置、计算机设备和存储介质
CN109362027B (zh) 定位方法、装置、设备及存储介质
CN112069532A (zh) 一种基于差分隐私的轨迹隐私保护方法与装置
CN117094268B (zh) 网格间数据传递方法、装置、存储介质及电子设备
CN117271271B (zh) 基于鼠标使用监测的手部疲劳识别方法、系统及存储介质
CN115600076B (zh) 去噪模型训练方法、装置、计算机设备和存储介质
CN117764529A (zh) 目标项目确定方法、装置、计算机设备、存储介质和产品
CN110704900B (zh) 龙骨立柱模型和墙龙骨模型之间连接节点放置方法和产品
CN116974250A (zh) 工业设备动作数据采集方法、装置和计算机设备
CN114240987A (zh) 变电站路径临时围栏屏障模型建立方法和装置
Gromov et al. Generalized Relational Tensors For Irregularly Sampled Time Series: Methods To Store, Re-generate, And Predict
CN117876027A (zh) 数据处理方法、装置、计算机设备和存储介质
CN117975555A (zh) 用户操作反馈方法、装置、计算机设备和存储介质
CN116231527A (zh) 电缆敷设方法、装置、计算机设备和存储介质
CN116599845A (zh) 电网信息物理系统的安全通信和资源分配方法和装置
CN117349320A (zh) 数据处理方法、装置、计算机设备和存储介质
CN116796881A (zh) 水下地层回淤预测方法、装置、计算机设备和存储介质
CN116191424A (zh) 考虑量测缺失的知识驱动电网拓扑辨识及状态估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000

Applicant after: Qichacha Technology Co.,Ltd.

Address before: Room 1001, 10th Floor, Building 6, Rungang Industrial Park, No. 2 Dongshijinggang Road, Science and Technology Innovation East District, Suzhou Industrial Park, Jiangsu Province, 215000 (Cluster Registration)

Applicant before: Qichacha Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant