CN110414597A

CN110414597A - 基于深度学习的非人工网络请求数据纹路的识别方法

Info

Publication number: CN110414597A
Application number: CN201910680790.5A
Authority: CN
Inventors: 郭兴华; 刘鑫; 郝缙; 单学钟; 李禹霆; 吴晓庆; 尹璐
Original assignee: Boya Chuangzhi (tianjin) Technology Co Ltd
Current assignee: Boya Chuangzhi (tianjin) Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-05
Anticipated expiration: 2039-07-26
Also published as: CN110414597B

Abstract

本发明公开了一种基于深度学习的非人工网络请求数据纹路的识别方法，包括：单次数据特征化，多组数据特征化，高阶特征抽象，以及基于卷积神经网络算法的拟合。利用多次处理，完成对网络请求纹路的识别，用于甄别请求方是计算机程序的概率，利用该识别方法，可以有效的在网络采集爬虫识别的过程，或者系统对接过程是否是人为调用的判别上提供了技术支持。

Description

基于深度学习的非人工网络请求数据纹路的识别方法

技术领域

本发明涉及网络请求识别技术领域，尤其涉及一种基于深度学习的非人工网络请求数据纹路的识别方法。

背景技术

人工网络请求是人为操作的网络请求，非人工网络请求是一组程序发起的网络请求，在某些系统的外界请求过程中，网站的诉求希望访问者是人为操作，而系统接口希望的是程序的操作。这个过程中，外界系统或人，往往为了达到某个目的，以程序请求网站或者以人工请求系统，所采用的请求方式，违背了服务方的意愿。在请求的过程中，大量的模拟请求，使得网站或系统等服务方，很难发现与识别每次请求的终端是谁，因此，服务方无法对请求的情形进行准确统计，进而对服务方后续的运行造成较大的影响。

发明内容

为了更好地对发现与识别请求的终端身份，本发明提供了一种基于深度学习的非人工网络请求数据纹路的识别方法。

为实现本发明的目的，本发明提供了一种基于深度学习的非人工网络请求数据纹路的识别方法，所述方法包括如下步骤：

步骤S1：针对请求数据进单条数据特征化，利用已知特征、特征变形、指标化特征以及利用"特征数量次数"的随机组合产生随机值与"特征数量次数"，进行处理；

步骤S2：针对经过S1步骤处理过的数据，采用双向维度切片，切片颗粒度以固定倍数递增，每多条S1的数据经过切片后形成一组数据，该组数据会汇总该组数据下每条数据的特征数据，并采用对应的特征指标进行新的指标计算；对于S1步骤处理过的数据的随机值，利用算法公式进行运算，能够得到一个新的指标随机值数据；

步骤S3:针对进过步骤S2处理过的数据，进行判断，如果数据中包含所有的新生成的随机值通过算法计算得到的结果值小于1，则执行S4步骤，否则重新交给步骤S1，直至上述经过上述通过算法计算结果小于1；

步骤S4:对于数据中包含所有的新生成的随机值通过算法计算得到的结果值小于1的步骤S2处理过的数据，利用卷积神经网络算法进行拟合公式处理。

其中，在步骤S4之后该识别纹路会极大的区分有规律纹路与无规律纹路，有规律纹路常常被标记为机器数据，无规律纹路则为人工数据。

其中，在步骤S4中，为了避免过拟合，利用随机向量数据算法数据进行观测，收敛加速度大于1停止。

其中，在步骤S2中，所述采用双向维度切片为利用时间与访问目的地两个维度。

其中，所述时间维度采用，1分钟，5分钟，10分钟，30分钟，1小时，8小时，24小时，48小时，72小时。

其中，所述访问目的地维度采用，第一级目录，第二季目录，第三级目录，第四级目录，第五级目录。

与现有技术相比，本发明的有益效果为，利用对多组多路数据的请求行为的综合分析，发现每个客户端发起请求的数据行为纹路特征，从而有效的识别非人工与人工的请求。利用本发明的识别方法，可以有效的提高识别精确程度，降低识别成本。

附图说明

图1所示为本申请的方法步骤示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用属于“包含”和/或“包括”时，其指明存在特征、步骤、操作、部件或者模块、组件和/或它们的组合。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，本申请一种基于深度学习的非人工网络请求数据纹路的识别方法包括如下步骤：

步骤S1：针对请求数据进行单条数据特征化(指明属性项目)，利用已知特征、特征变形(多组特征计算)、指标化特征(根据属性值进行分类)、以及利用"特征数量次数"的随机组合产生随机值与"特征数量次数"，进行处理；

上述步骤中，采用如下模型算法，进行单条数据特征化处理，其中，n为人工标记特征，m为特征变形，X为数据项目，Y为变化后特征指标，∫∫是一种随机权重取值方法。

其中随机值是与请求数据正相关，为了收敛，需要对该值进行绝对值处理。

步骤S2：针对已经经过S1步骤处理过的数据(S1处理的数据)，采用双向维度切片(时间与访问目的地两个维度)，切片颗粒度以固定倍数递增(时间维度采用，1分钟，5分钟，10分钟，30分钟，1小时，8小时，24小时，48小时，72小时)，(访问地址维度采用，第一级目录，第二季目录，第三级目录，第四级目录，第五级目录)，每多条S1处理的数据会经过切片形成一组数据，该组数据会汇总该组数据下每条数据的特征数据，并采用对应的特征指标进行新的指标计算；对于S1处理的数据的随机值，利用公式(1)进行运算，可以得到一个新的指标随机值数据。

通过该步骤处理，为S1数据的每一条数据都增加一些新的指标性数据，这些数据来自于该步骤的切片数据段的运算数据。

在上述步骤中，进行是时间切片和访问目的地切片分别采用如下公式进行：

其中△T是时间维度切片，△U是访问目的切片。依然利用随机函数收敛。S是在时间维度上的数据特征集、K实在访问目的维度上的特征集，i是在时间维度切片后的数据段数量，j是在访问目的维度切片后的数据段数量，通过该方法生成的数据成为指标性数据，用于辅助步骤S1中数据做高阶特征抽象。

步骤S3:针对S2步骤处理过的数据，采用如下算法进行计算，然后进行判断，

公式(4)中，其中λ表示上一次数据的的所有随机值、μ表示每次生成随机值的指标数量；i指的是上一次特征数据随机值的下标值，j表示每次生成随机值的指标数量的下标值；M指的是新产生的随机数的数量，N表示通过S2计算后的特征数据随机值的数量。上述公式被减方为上一次数据的随机值，减数方为计算后的随机值，随着S1、S2的计算次数增高λ与μ的数量差异越小，从而相差绝对值越来越趋近于相等。从而做多次方差进行收敛。

如果数据中包含所有的新生成的随机值通过公式(4)进行计算得到的结果值小于1，则结束执行S4步骤，否则重新交给步骤S1，再做S1与S2步骤，直至步骤S3的算法结果小于1。

在步骤S3中，通过计算每次运算的随机值，针对多次方差结果判断是否结束新指标数据特征的生成。最终当多次运算产生的随机值，通过如下函数计算完成结果小于1，则开始步骤S4。

步骤S4:针对步骤S3筛选过的数据利用卷积神经网络算法进行拟合公式处理。为了避免过拟合，利用随机向量数据算法数据进行观测，收敛加速度大于1停止

在步骤S4的卷积神经网络对数据拟合处理后，该拟合算法可以用于对未知数据的拟合判断，从而对该未知数据可以进行有规律数据纹路与无规律数据纹路的区分，通常该神经网络算法会给出拟合程度的值，大于0.6则认为是有规律纹路且常常被标记为机器数据，小于等于0.6无规律纹路则为人工数据。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的非人工网络请求数据纹路的识别方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于深度学习的非人工网络请求数据纹路的识别方法，其特征在于，在步骤S4之后该识别纹路会极大的区分有规律纹路与无规律纹路，有规律纹路常常被标记为机器数据，无规律纹路则为人工数据。

3.根据权利要求1所述的基于深度学习的非人工网络请求数据纹路的识别方法，其特征在于，在步骤S4中，为了避免过拟合，利用随机向量数据算法数据进行观测，收敛加速度大于1停止。

4.根据权利要求1所述的基于深度学习的非人工网络请求数据纹路的识别方法，其特征在于，在步骤S2中，所述采用双向维度切片为利用时间与访问目的地两个维度。

5.根据权利要求4所述的基于深度学习的非人工网络请求数据纹路的识别方法，其特征在于，所述时间维度采用，1分钟，5分钟，10分钟，30分钟，1小时，8小时，24小时，48小时，72小时。

6.根据权利要求4所述的基于深度学习的非人工网络请求数据纹路的识别方法，其特征在于，所述访问目的地维度采用，第一级目录，第二季目录，第三级目录，第四级目录，第五级目录。