CN116451194B

CN116451194B - 一种基于客户端行为特征的人机校验模型及方法

Info

Publication number: CN116451194B
Application number: CN202310420602.1A
Authority: CN
Inventors: 万振民
Original assignee: Wanhui Interconnection Shenzhen Technology Co ltd
Current assignee: Wanhui Interconnection Shenzhen Technology Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2024-01-23
Anticipated expiration: 2043-04-12
Also published as: CN116451194A

Abstract

本发明涉及数据挖掘技术领域，尤其涉及一种基于客户端行为特征的人机校验模型及方法。该方法包括以下步骤：获取客户端行为数据，其中客户端行为数据包括鼠标轨迹数据、键盘输入模式以及页面滚动数据；根据客户端行为数据提取用户行为特征；根据用户行为特征进行用户真实行为识别，从而获得用户行为指数；根据用户行为指数进行阈值判断，从而生成真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈。本发明通过对客户端行为数据进行深度数据挖掘，提高人机识别的准确性和安全性，防止机器人或恶意程序冒充真实用户进行非法操作。

Description

一种基于客户端行为特征的人机校验模型及方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于客户端行为特征的人机校验模型及方法。

背景技术

在网络平台开发过程重，平台为了提高流量经常会需要开发一些签到抽奖，领红包等网页应用。这些产品设计的初衷是为了让真实用户参与到活动中，在完成相应的任务后可以获得相应的奖励，然而一些投机者经常会通过脚本程序等方式，利用机器进行的大量的模拟请求，不但会对服务器带来许多负载压力，还会影响到真实用户的正常参与，最终导致线上推广活动质量及口碑的下降，对平台带来诸多不利影响。在现实的应用中，常用的人机校验方式为发送短信验证码或者图片验证码点击，这种方式常常造成对用户使用体验的中断，降低实用性。

发明内容

本发明为解决上述技术问题，提出了一种基于客户端行为特征的人机校验模型及方法，以解决至少一个上述技术问题。

本发明提供一种基于客户端行为特征的人机校验方法，包括以下步骤：

步骤S1：获取客户端行为数据，其中客户端行为数据包括鼠标轨迹数据、键盘输入模式以及页面滚动数据；

步骤S2：根据客户端行为数据提取用户行为特征；

步骤S3：根据用户行为特征进行用户真实行为识别，从而获得用户行为指数；

步骤S4：根据用户行为指数进行阈值判断，从而生成真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈。

本实施例通过对客户端行为数据进行深度分析，提高人机识别的准确性和安全性，防止机器人或恶意程序冒充真实用户进行非法操作，此外，该方法不需要用户额外输入验证码或者人脸校验，简化了用户操作流程，提高了用户体验。

在本说明书的一个实施例中，用户行为特征包括鼠标轨迹特征数据以及时序操作特征数据，步骤S2具体为：

步骤S21：根据客户端行为数据进行最小代价数据清洗，从而获得清洗行为数据；

步骤S22：根据清洗行为数据进行降维计算，从而获得降维行为数据；

步骤S23：根据降维行为数据进行归一化计算，从而获得归一化行为数据；

步骤S24：对归一化行为数据进行鼠标轨迹特征提取以及时序操作特征提取，分别获得鼠标轨迹特征数据以及时序操作特征数据。

本实施例通过最小代价数据清洗、降维计算以及归一化计算等步骤，可以有效地提高用户行为特征的准确性和可靠性。同时，通过对鼠标轨迹特征数据和时序操作特征数据的提取，可以更全面地反映出用户的真实行为模式，从而提高了人机校验的准确性和安全性。

在本说明书的一个实施例中，其中步骤S21具体为：

步骤S211：根据客户端行为数据进行聚类计算并重合数据合并，从而得到去重复数据；

步骤S212：根据去重复数据进行标准差计算以及均值计算，从而得到标准差数据以及均值数据；

步骤S213：基于标准差数据以及均值数据对去重复数据进行异常计算，从而识别去重复数据中的异常数据；

步骤S214：对异常数据进行异常值删除，从而获得去异常数据；

步骤S215：根据标准差数据以及均值数据对去异常数据进行缺失值填充，从而生成清洗行为数据。

本实施例通过聚类计算、标准差计算、均值计算和异常计算等一系列深度数据清洗步骤，可以有效地去除重复数据和异常数据，填充缺失值，从而提高数据质量和准确性，使用了多种数据处理技术和算法，包括聚类计算、标准差计算、均值计算和异常计算，可以优化数据处理流程，通过清洗后的行为数据，可以更加准确地进行数据分析和挖掘，发现潜在的规律和趋势，最小代价为通过聚类计算进行重合度计算，并根据适配数据进行保留计算，降低传统去重复方法中采用随机删除或预设保留方式带来的误差。

在本说明书的一个实施例中，其中异常计算的步骤具体为:

步骤S216：根据去重复数据、标准差数据以及均值数据通过异常指数计算公式进行计算，从而生成异常指数；

步骤S217：判断异常指数是否大于预设的异常指数阈值；

步骤S218：确定异常指数大于预设的异常指数阈值，则对异常指数相应的去重复数据进行异常标记，从而识别获取去重复数据中的异常数据。

本实施例通过异常计算步骤，可以根据去重复数据、标准差数据以及均值数据计算异常指数，并对异常指数大于预设阈值的数据进行标记，从而识别异常数据。通过去除异常数据，可以提高数据的准确性和可靠性，通过计算异常指数和设定异常指数阈值，快速地识别和标记异常数据，从而提高数据处理效率和准确性，通过清洗后的数据中的异常数据，可以更加准确地进行数据分析和挖掘，发现潜在的规律和趋势，为企业决策提供更加可靠的支持。

在本说明书的一个实施例中，异常指数计算公式具体为：

E为异常数据，α为调整系数，a_i为第i个去重复数据，为均值数据,o为初始调整值，v为标准差数据,p为误差调整值，u为异常数据的修正值。

本实施例提供一种异常指数计算公式，该公式充分考虑了调整系数α、第i个去重复数据a_i、均值数据初始调整值o、标准差数据v、误差调整值p以及相互之间的作用关系，以形成函数关系/>其中调整系数α根据实际情况调整异常值的权重，提高对于异常值的敏感度或降低对于异常值的敏感度，/>去重复并计算均值，消除数据中相同值或者近似值的干扰，确保计算结果更加准确，初始调整值o以针对具体应用场景进行预设，调整判断标准，从而达到更好的异常检测效果，标准差数据v可以根据数据的分布情况进行计算，较大的标准差表示数据分布比较分散，需要更高的异常检测敏感度，误差调整值p适当的增加误差调整值可以避免因为数据波动引起的误判，提高判断准确性，异常数据的修正值u可以通过人工干预的方式对输出结果进行二次修正，确保最终结果更加准确。

在本说明书的一个实施例中，步骤S2之后步骤S3之前的步骤还包括步骤S2.5，步骤S2.5包括以下步骤：

步骤S201：获取历史用户行为特征；

步骤S202：根据历史用户行为特征进行分布情况计算，从而生成历史分布情况数据；

步骤S203：根据用户行为特征数据进行分布情况计算，从而生成用户分布情况数据；

步骤S204：根据历史分布情况数据与用户分布情况数据进行比较，从而生成分布情况比较数据；

步骤S205：判断分布情况比较数据是否小于预设的分布情况比较阈值；

步骤S206：确定分布情况比较数据小于预设的分布情况比较阈值时，则生成包含存在真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈；

步骤S207：确定分布情况比较数据大于预设的分布情况比较阈值时，则执行步骤S3。

本实施例通过历史用户行为特征和分布情况的比较，可以更加准确地识别出存在真实用户的数据，避免将正常用户误判为异常用户，通过对异常用户进行人机校验，可以降低恶意攻击、欺诈的违规行为的发生概率，保障系统安全，通过对分布情况比较阈值的设定，可以灵活地调整识别的严格程度，从而达到更好的识别效果，实现较高的准确率和召回率。

在本说明书的一个实施例中，步骤S3具体为：

步骤S31：获取历史用户行为特征，其中历史用户行为特征包括历史鼠标轨迹特征数据以及历史时序操作特征数据；

步骤S32：根据历史用户行为特征进行聚类计算，从而获得历史行为分类数据；

步骤S33：根据用户行为特征与历史行为分类数据进行匹配计算，从而获得最适历史行为分类数据；

步骤S34：根据最适历史行为分类数据中的最适历史时序操作特征数据对预设的时间预测模型进行迭代修正，从而获得修正时间预测模型，并根据最适历史行为分类数据中的最适历史鼠标轨迹特征通过修正时间预测模型进行客户端行为模拟预测，从而获得未来客户端行为数据；

步骤S35：获取当前客户端行为数据，并根据当前客户端行为数据以及未来客户端行为数据进行比对，从而生成用户行为指数。

本实施例中通过聚类算法，将历史用户行为特征分为不同的簇，每个簇代表一种行为模式，将当前用户行为特征与各个簇的特征进行比较，找到最匹配的簇，从而提高用户行为特征的精度和稳定性，从而更好地区分真实用户和机器人，运用时间序列模型，预测未来用户行为特征的趋势，其中将最匹配的簇中的历史时序操作特征数据进行迭代修正，以将最匹配的簇中的鼠标轨迹特征通过修正的模型进行匹配，从而获得准确的用户预测行为数据，将当前用户行为特征与预测趋势进行比较，如果差异较大，则认为当前用户可能是机器人。

在本说明书的一个实施例中，匹配计算为通过用户历史误差计算公式进行计算生成匹配误差值并根据匹配误差值的最小值取值从而获得最适历史行为分类数据，其中用户历史误差计算公式具体为：

R为匹配误差值，z_i为第i个用户行为特征的加权系数，t_i为第i个用户行为特征，q_i为第i个历史行为分类数据的加权系数，w_i为第i个历史行为分类数据，s为缩放调整项，g为数据总数，h为调整项，m为误差调整项，∈为匹配误差值的修正项。

本实施例提供一种用户历史误差计算公式，该公式充分考虑了第i个用户行为特征的加权系数z_i、第i个用户行为特征t_i、第i个历史行为分类数据的加权系数q_i、第i个历史行为分类数据w_i、缩放调整项s、数据总数g、调整项h、误差调整项m以及相互之间的关系，从而形成函数关系通过设置不同行为特征和历史数据的加权系数z_i以及q_i，可以根据实际情况提高或降低其对匹配结果的影响程度，从而使匹配结果更加准确，通过对行为特征t_i和历史行为分类数据w_i进行匹配，可以将用户的历史行为分类信息与当前行为特征进行比较和匹配，提高行为分类的准确性，通过缩放调整项s的设置，可以对匹配误差值的大小进行调整和修正，从而使匹配结果更加精确，通过调整项h的设定，可以灵活地调整匹配算法的严格程度和敏感度，从而获得更好的匹配效果，通过误差修正项∈的设置，可以对匹配误差值进行二次修正，提高最终的匹配准确率。

在本说明书的一个实施例中，其中步骤S4具体为：

步骤S41：判断用户行为指数是否大于或等于第一用户行为阈值指数；

步骤S42：确定用户行为指数大于或等于第一用户行为阈值指数时，则生成包含存疑真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈；

步骤S43：确定用户行为指数小于第一用户行为阈值指数时，判断用户行为指数是否大于或等于第二用户行为阈值指数；

步骤S44：确定用户行为指数大于或等于第二用户行为阈值指数时，则进行二次人机校验作业；

步骤S45：确定用户行为指数小于第二用户行为阈值指数时，则生成包含存在真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈。

本实施例通过对用户行为指数进行判断和分类，可以更加准确地识别出存在真实用户的数据，避免将正常用户误判为异常用户，采用了基于用户行为指数的人机校验方法，可以根据用户行为指数的大小灵活调整认证策略，从而提高认证效率和准确度，使用了多种技术手段，包括用户行为指数计算、多次人机校验，以保证统计数据或者历史数据无法揭示的统计规律的二次补充。

本发明提供一种基于客户端行为特征的人机校验模型，所述系统包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的一种基于客户端行为特征的人机校验方法。

本发明通过获取客户端行为数据和提取用户行为特征，可以对用户进行准确的行为识别，从而提高识别准确性，如鼠标轨迹特征以及时序操作特征，根据鼠标轨迹特征以及时序操作特征的深度关联进行识别计算，从而精准识别当前客户端行为数据中蕴含的人机校验数据：通过对用户行为指数进行阈值判断，可以对真实用户进行筛选，从而在保证识别准确性的前提下，最大限度地提高人机校验效率，本发明通过基于客户端行为特征进行人机校验，可以避免传统验证码的方式对用户造成的不便和困扰，提高用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了一实施例的一种基于客户端行为特征的人机校验方法的步骤流程图；

图2示出了一实施例的一种用户行为特征提取方法的步骤流程图；

图3示出了一实施例的一种最小代价数据清洗方法的步骤流程图；

图4示出了一实施例的一种异常计算方法的步骤流程图；

图5示出了一实施例的一种用户行为特征数据预分析方法的步骤流程图；

图6示出了一实施例的一种用户行为指数获取方法的步骤流程图；

图7示出了一实施例的一种真实用户识别信息获取方法的步骤流程图。

具体实施方式

下面结合附图对本发明专利的技术方法进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

具体地，例如通过客户端内置的JavaScript脚本，可以获取到客户端鼠标的位置坐标、鼠标移动速度、鼠标移动路径、按键顺序、按键时间间隔、按键次数、滚动位置、滚动速度、滚动距离的信息，用来构建客户端鼠标轨迹数据、客户端键盘输入模式数据以及客户端页面滚动数据。

步骤S2：根据客户端行为数据提取用户行为特征；

具体地，例如根据用户的鼠标轨迹数据、键盘输入模式数据和页面滚动数据提取用户行为特征，例如鼠标停留时间短、键盘输入速度快、页面滚动次数少，用户行为特征为多变量向量数据。

具体地，例如使用机器学习算法，例如随机森林、支持向量机等，来训练用户行为特征和真实行为的关系模型，将提取的用户行为特征输入到模型中，模型将输出一个用户行为指数。

具体地，例如如果用户行为指数大于或等于阈值1，则判定用户为真实用户，可以生成包含存疑真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈；

如果用户行为指数小于阈值1且大于或等于阈值2，则需要进行二次人机校验，可以生成包含存在真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈；

如果用户行为指数小于阈值2，则判定用户行为为异常行为，需要进行进一步的人机校验。

具体地，例如对鼠标轨迹数据进行去重复，最小代价为在去重复操作通过；

接着，根据均值和标准差计算方法，计算鼠标轨迹数据的均值和标准差，用于判断异常数据；

使用异常指数计算公式，对去重复的鼠标轨迹数据进行异常计算，并将异常指数与预设的异常指数阈值进行比较，以识别并标记异常数据；

对标记的异常数据进行删除操作，以获得去异常数据；

对去异常数据进行缺失值填充。

具体地，例如使用主成分分析(PCA)的降维算法对鼠标轨迹数据进行降维处理。

具体地，例如对每个特征值进行最小-最大归一化处理，即将特征值减去最小值并除以最大值减去最小值的差；

得到的归一化后的特征值范围在0到1之间。

具体地，例如对每个用户的鼠标轨迹数据进行分段处理，例如将鼠标轨迹数据划分为若干个时间段或区间；

对每个时间段或区间内的鼠标轨迹数据进行特征提取，例如提取轨迹长度、轨迹弯曲程度、速度、方向的特征；

将每个时间段或区间内的特征数据进行合并和归一化处理，得到鼠标轨迹特征数据。

具体地，例如对每个用户的时序操作数据进行预处理，例如去除无效数据、去重复的操作；

对每个用户的时序操作数据进行分段处理，例如将操作数据按照时间段或类别进行划分；

对每个时间段或类别内的时序操作数据进行特征提取，例如提取操作次数、操作类型分布、操作频率、操作时间间隔的特征；

将每个时间段或类别内的特征数据进行合并和归一化处理，得到时序操作特征数据

在本说明书的一个实施例中，其中步骤S21具体为：

具体地，例如通过聚类计算进行分类计算，将重合的数据进行唯一保留，如两个重合数据处于部分重合，例如时间重合而操作不重合，将不重合的部分与其余数据进行回归计算，从而保留误差较小的数据，从而得到去重复数据，在重合计算过程中，部分项的数据重合不予理会，鼠标轨迹，键盘输入频次数据，其余数据如时间数据或唯一标识数据。

具体地，例如对去重复数据进行均值计算，从而得到均值数据，对每个去重复数据和均值的差值进行平方计算，然后求和，并将和除以数量得到方差，对方差进行平方根计算，得到标准差。

具体地，例如将超过均值正负三倍标准差的数据视为异常数据，其中在正态分布情况下，约68.27％的数据落在均值的正负一个标准差之内，约95.45％的数据落在均值的正负两个标准差之内，约99.73％的数据落在均值的正负三个标准差之内。

具体地，例如将异常数据直接从数据集中删除，使用相邻数据的均值或中位数来填充异常数据。

具体地，例如使用相邻数据的均值或中位数来填充缺失值。

在本说明书的一个实施例中，其中异常计算的步骤具体为:

步骤S217：判断异常指数是否大于预设的异常指数阈值；

具体地，例如使用标准差和均值对去重复的购买金额数据进行异常计算，得到异常指数。异常指数的计算公式通常为：异常指数＝(数据值-均值)/标准差，异常指数反映了数据点相对于平均值的离散程度，如果异常指数越大，说明数据点越离谱，然后，可以设置一个异常指数阈值。如果异常指数大于这个阈值，就认为这个数据点是异常的。根据异常指数阈值，可以对异常数据进行识别和标记，以便后续的数据分析和处理。

例如，假设设置异常指数阈值为3.0，对于某个异常指数为100的去重复数据，如果其对应的异常指数大于3.0，则将该去重复数据标记为异常数据。

在本说明书的一个实施例中，异常指数计算公式具体为：

步骤S201：获取历史用户行为特征；

具体地，例如在一个在线教育平台中，假设需要对学生的学习行为进行分析和预测，需要收集并记录学生的历史学习行为数据，例如学生的课程浏览记录、视频观看记录、答题记录等；

根据历史学习行为数据提取学生的行为特征，除了常用的学习行为特征，如学习时长、观看视频时长、提交作业次数等，提取鼠标轨迹特征数据和时序操作特征数据；

鼠标轨迹特征数据包括鼠标移动速度、鼠标移动距离、鼠标点击次数、鼠标停留时间，通过对历史学习行为数据进行处理，提取出学生的历史鼠标轨迹特征数据；

时序操作特征数据包括学生学习的时间分布、学习速度、学习难度，通过对历史学习行为数据进行处理，提取出学生的历史时序操作特征数据。

具体地，例如按照维度属性进行分布计算，或使用统计分析方法，如方差分析、t检验。

具体地，例如收集了历史用户行为数据，包括鼠标轨迹数据、键盘输入模式以及页面滚动数据，并将这些数据用于生成历史分布情况数据，在用户登录时收集用户行为特征数据，并根据这些数据生成用户分布情况数据。

根据历史分布情况数据与用户分布情况数据进行比较，从而生成分布情况比较数据，可以将历史分布情况数据和用户分布情况数据按照时间、地点、设备等维度进行比较，并计算比较数据，例如，可以计算用户在某个时间段、某个地点、某个设备上的鼠标轨迹特征数据、键盘输入模式数据以及页面滚动数据，并与历史分布情况数据进行比较，得到分布情况比较数据；

可以判断分布情况比较数据是否小于预设的分布情况比较阈值，如果分布情况比较数据小于预设的阈值，则说明用户的行为与历史分布情况数据相似，可能是真实用户，可以生成包含真实用户识别信息的结果，并发送至人机校验模型进行人机校验结果反馈，如果分布情况比较数据大于预设的阈值，则说明用户的行为与历史分布情况数据存在较大差异，可能是异常用户，需要执行步骤S3，进行进一步的用户真实行为识别。

在本说明书的一个实施例中，步骤S3具体为：

具体地，例如收集历史用户的鼠标轨迹数据和时序操作特征数据，鼠标轨迹数据包括鼠标移动路径、鼠标停留时间、鼠标点击次数；时序操作特征数据包括用户在页面上的操作次数、操作类型、操作间隔时间。

具体地，例如聚类计算如K-Means聚类算法或DBSCAN聚类算法。

具体地，例如每个分类数据都包含一组行为特征的均值向量。对于当前用户行为特征，可以计算其与每个历史分类数据的距离，并选择距离最小的分类作为最适历史行为分类数据；

以欧氏距离为例，假设当前用户行为特征为向量a，第i个历史行为分类数据的均值特征为向量s_i，则可以计算它们之间的欧氏距离s_i，即：

d_i＝sqrt(sum(a-s_i)²)

然后选择距离最小的历史分类数据作为最适历史行为分类数据。具体的实施方法可以采用K近邻算法，选择距离最近的k个历史分类数据进行投票决策。

具体地，例如利用最适历史时序操作特征数据对时间预测模型进行迭代修正，例如，可以采用时间序列分析的方法，比如ARIMA模型，对历史时序数据进行拟合，得到时间预测模型，并根据最适历史时序操作特征数据对模型进行修正；

利用最适历史鼠标轨迹特征数据对修正后的时间预测模型进行客户端行为模拟预测，以获得未来客户端行为数据，例如，可以利用修正后的时间预测模型，结合最适历史鼠标轨迹特征数据，预测未来客户端鼠标轨迹数据和页面滚动数据；

对预测得到的未来客户端行为数据进行清洗和处理。

具体地，例如将当前鼠标轨迹数据与未来鼠标轨迹数据进行比对，计算两者之间的差异程度，例如可以计算两者之间的距离或者角度。若差异程度较小，则说明用户的行为是连贯的，行为指数较高；反之，若差异程度较大，则说明用户的行为存在异常或者欺诈嫌疑，行为指数较低；

将当前键盘输入模式与未来键盘输入模式进行比对，计算两者之间的相似程度，例如可以计算两者之间的编辑距离或者余弦相似度。若相似程度较高，则说明用户的输入模式连贯，行为指数较高；反之，若相似程度较低，则说明用户的输入模式存在异常或者欺诈嫌疑，行为指数较低；

将当前页面滚动数据与未来页面滚动数据进行比对，计算两者之间的相似程度，例如可以计算两者之间的余弦相似度或者相关系数。若相似程度较高，则说明用户的页面浏览行为连贯，行为指数较高；反之，若相似程度较低，则说明用户的页面浏览行为存在异常或者欺诈嫌疑，行为指数较低；

综合以上三个方面的比对结果，可以得到用户行为指数。

在本说明书的一个实施例中，其中步骤S4具体为：

具体地，例如第一用户行为阈值指数为0.7，第二用户行为阈值指数为0.5，当前用户行为指数为0.8，根据步骤S41，用户行为指数大于或等于第一用户行为阈值指数，因此执行步骤S42，生成包含存疑真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈；

再假设当前用户行为指数为0.4，根据步骤S41，用户行为指数小于第一用户行为阈值指数，因此执行步骤S43，判断用户行为指数是否大于或等于第二用户行为阈值指数。如果用户行为指数大于或等于第二用户行为阈值指数(例如0.6)，则执行步骤S44，进行二次人机校验作业，如发送短信或验证码校验；否则执行步骤S45，生成包含存在真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈。

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于客户端行为特征的人机校验方法，其特征在于，包括以下步骤：

步骤S2：根据客户端行为数据提取用户行为特征；

步骤S2.5，包括：

获取历史用户行为特征；

根据历史用户行为特征进行分布情况计算，从而生成历史分布情况数据；

根据用户行为特征数据进行分布情况计算，从而生成用户分布情况数据；

根据历史分布情况数据与用户分布情况数据进行比较，从而生成分布情况比较数据；

判断分布情况比较数据是否小于预设的分布情况比较阈值；

确定分布情况比较数据小于预设的分布情况比较阈值时，则生成包含存在真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈；

确定分布情况比较数据大于预设的分布情况比较阈值时，则执行步骤S3；

步骤S3，包括：

获取历史用户行为特征，其中历史用户行为特征包括历史鼠标轨迹特征数据以及历史时序操作特征数据；

根据历史用户行为特征进行聚类计算，从而获得历史行为分类数据；

根据用户行为特征与历史行为分类数据进行匹配计算，从而获得最适历史行为分类数据；

根据最适历史行为分类数据中的最适历史时序操作特征数据对预设的时间预测模型进行迭代修正，从而获得修正时间预测模型，并根据最适历史行为分类数据中的最适历史鼠标轨迹特征通过修正时间预测模型进行客户端行为模拟预测，从而获得未来客户端行为数据；

获取当前客户端行为数据，并根据当前客户端行为数据以及未来客户端行为数据进行比对，从而生成用户行为指数；

步骤S4，包括：

判断用户行为指数是否大于或等于第一用户行为阈值指数；

确定用户行为指数大于或等于第一用户行为阈值指数时，则生成包含存疑真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈；

确定用户行为指数小于第一用户行为阈值指数时，判断用户行为指数是否大于或等于第二用户行为阈值指数；

确定用户行为指数大于或等于第二用户行为阈值指数时，则进行二次人机校验作业；

确定用户行为指数小于第二用户行为阈值指数时，则生成包含存在真实用户的真实用户识别信息，以发送至人机校验模型进行人机校验结果反馈。

2.根据权利要求1所述的方法，其特征在于，用户行为特征包括鼠标轨迹特征数据以及时序操作特征数据，步骤S2具体为：

3.根据权利要求2所述的方法，其特征在于，其中步骤S21具体为：

根据客户端行为数据进行聚类计算并重合数据合并，从而得到去重复数据；

根据去重复数据进行标准差计算以及均值计算，从而得到标准差数据以及均值数据；

基于标准差数据以及均值数据对去重复数据进行异常计算，从而识别去重复数据中的异常数据；

对异常数据进行异常值删除，从而获得去异常数据；

根据标准差数据以及均值数据对去异常数据进行缺失值填充，从而生成清洗行为数据。

4.根据权利要求3所述的方法，其特征在于，其中异常计算的步骤具体为：

根据去重复数据、标准差数据以及均值数据通过异常指数计算公式进行计算，从而生成异常指数；

判断异常指数是否大于预设的异常指数阈值；

确定异常指数大于预设的异常指数阈值，则对异常指数相应的去重复数据进行异常标记，从而识别获取去重复数据中的异常数据。

5.根据权利要求4所述的方法，其特征在于，异常指数计算公式具体为：

为异常数据，/>为调整系数，/>为第/>个去重复数据，/>为均值数据,/>为初始调整值，/>为标准差数据,/>为误差调整值，/>为异常数据的修正值。

6.根据权利要求1所述的方法，其特征在于，匹配计算为通过用户历史误差计算公式进行计算生成匹配误差值并根据匹配误差值的最小值取值从而获得最适历史行为分类数据，其中用户历史误差计算公式具体为：

为匹配误差值，/>为第/>个用户行为特征的加权系数，/>为第/>个用户行为特征，/>为第/>个历史行为分类数据的加权系数，/>为第/>个历史行为分类数据，/>为缩放调整项，/>为数据总数，/>为调整项，/>为误差调整项，/>为匹配误差值的修正项。

7.一种基于客户端行为特征的人机校验模型，其特征在于，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任意一项所述的一种基于客户端行为特征的人机校验方法。