CN113111951A

CN113111951A - 数据处理方法以及装置

Info

Publication number: CN113111951A
Application number: CN202110423768.XA
Authority: CN
Inventors: 朱浩文; 陈明; 张园超; 余锋
Original assignee: Zhejiang eCommerce Bank Co Ltd
Current assignee: Zhejiang eCommerce Bank Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-13
Anticipated expiration: 2041-04-20
Also published as: CN116956083A; CN113111951B

Abstract

本说明书实施例提供数据处理方法以及装置，其中所述数据处理方法包括：采集服务器的历史访问流量数据，所述历史访问流量数据包含访问数据的数据标识及访问用户的用户标识，所述数据标识用于索引所述访问数据，根据所述用户标识与所述数据标识间的关联关系对所述访问用户的用户标识进行聚类，生成与多个数据标识分别对应的聚类结果，根据所述聚类结果对所述访问数据进行数据类别标注。

Description

数据处理方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

Web应用程序是基于浏览器/服务器架构的应用程序，是随着网络技术的发展而产生的应用程序类型。Web应用程序包含一些静态的页面，不仅具有信息展示功能，还可以通过调用页面中的不同业务逻辑接口对数据执行相应的处理操作。但是，与传统的计算机应用程序一样，Web应用程序由于在开发过程中安全策略上的缺陷，使其必然存在一定量的漏洞。其中，越权漏洞是测试Web应用程序过程中常见的业务逻辑漏洞之一。它的形成原因是由于服务器端对客户端的Web应用程序提出的数据操作请求过分信任，忽略了对其操作权限的判定。

由于web程序设计的缺陷，利用URL传入参数的可猜测性，通过变更输入参数值，就可能造成横向越权访问，导致用户隐私信息的泄漏。并且目前对越权漏洞的检测方式主要是通过替换用户身份验证信息来实现，这种方式不仅效率较低，而且误报率较高，检测结果不够准确。

发明内容

有鉴于此，本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：

采集服务器的历史访问流量数据，所述历史访问流量数据包含访问数据的数据标识及访问用户的用户标识，所述数据标识用于索引所述访问数据；

根据所述用户标识与所述数据标识间的关联关系对所述访问用户的用户标识进行聚类，生成与多个数据标识分别对应的聚类结果；

根据所述聚类结果对所述访问数据进行数据类别标注。

可选地，所述采集服务器的历史访问流量数据之后，还包括：

将所述历史访问流量数据进行拆分；

确定拆分结果中包含的访问数据对至少一个预设数据筛选规则的命中结果；

根据所述命中结果对所述访问数据进行筛选，并利用所述数据标识对应的目标字符对筛选结果中包含的访问数据进行打标。

可选地，所述根据所述聚类结果对所述访问数据进行类别标注，包括：

对目标数据标识对应的聚类结果中的用户标识进行去重处理，并将去重处理结果中包含的目标用户标识的数量与第一预设数量阈值进行比较；

若确定所述去重结果中包含的目标用户标识的数量小于等于所述第一预设数量阈值，则确定与所述目标数据标识关联的访问数据为私有数据；或者，

若确定所述去重结果中包含的目标用户标识的数量大于所述第一预设数量阈值，则确定与所述目标数据标识关联的访问数据为公有数据；其中，所述目标数据标识为所述多个数据标识之一。

可选地，所述数据处理方法，还包括：

根据数据类别标注结果建立所述访问数据的数据标识与数据类别间的映射关系表。

可选地，所述数据处理方法，还包括：

获取待检测的访问流量数据；

根据所述访问流量数据中包含的待访问数据的数据标识以及所述映射关系表，确定所述待访问数据的数据类别。

可选地，所述数据处理方法，还包括：

根据所述待访问数据的数据类别检测所述服务器是否存在越权漏洞。

可选地，所述根据所述聚类结果对所述访问数据进行数据类别标注，包括：

对目标数据标识对应的聚类结果中的用户标识进行去重处理，并确定去重处理结果中包含的目标用户标识的数量，所述目标数据标识为所述多个数据标识之一；

根据所述数量对所述聚类结果进行筛选，获得目标聚类结果；

对所述目标聚类结果对应的数据标识进行数据类别标注。

可选地，所述数据处理方法，还包括：

将打标结果中包含的访问数据、以及与所述访问数据存在关联关系的用户标识输入待训练的数据类别标注模型进行训练，获得所述数据类别标注模型。

可选地，所述数据处理方法，还包括：

获取待检测的访问流量数据；

将所述访问流量数据中包含的待访问数据输入所述数据类别标注模型进行数据类别标注，生成所述待访问数据的数据类别标注结果。

对目标数据标识对应的聚类结果中的用户标识进行去重处理，并确定去重处理结果中包含的目标用户标识的数量；

确定目标数据标识对应的访问数据的访问接口；

对所述访问接口下不同数据标识对应的去重处理结果中目标用户标识数量的倒数取均值；

根据所述均值对所述访问数据进行类别标注；其中，所述目标数据标识为所述多个数据标识之一。

根据本说明书实施例的第二方面，提供了一种数据处理装置，包括：

采集模块，被配置为采集服务器的历史访问流量数据，所述历史访问流量数据包含访问数据的数据标识及访问用户的用户标识，所述数据标识用于索引所述访问数据；

聚类模块，被配置为根据所述用户标识与所述数据标识间的关联关系对所述访问用户的用户标识进行聚类，生成与多个数据标识分别对应的聚类结果；

标注模块，被配置为根据所述聚类结果对所述访问数据进行数据类别标注。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

根据所述聚类结果对所述访问数据进行数据类别标注。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

本说明书一个实施例通过采集服务器的历史访问流量数据，所述历史访问流量数据包含访问数据的数据标识及访问用户的用户标识，所述数据标识用于索引所述访问数据，根据所述用户标识与所述数据标识间的关联关系对所述访问用户的用户标识进行聚类，生成与多个数据标识分别对应的聚类结果，根据所述聚类结果对所述访问数据进行数据类别标注。

本说明书实施例通过对访问数据进行数据类别划分，以从历史访问流量数据中分析识别出哪些访问数据是私有数据，以及哪些访问数据是公有数据，从而有利于基于识别结果对待访问数据进行精准越权检测，提高水平越权检测的精准度，并有利于提高越权漏洞的检测效率。

附图说明

图1是本说明书一个实施例提供的一种数据处理方法的处理流程图；

图2(a)是本说明书一个实施例提供的一种私有数据访问形态的示意图；

图2(b)是本说明书一个实施例提供的一种公有数据访问形态的示意图；

图3是本说明书一个实施例提供的一种数据处理方法的处理过程流程图；

图4是本说明书一个实施例提供的一种数据处理装置的示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

私有数据：在业务系统上该数据只归属于指定某个用户，并且只有指定某个用户可操作或访问的数据在此说明书里称为私有数据。

私有数据接口：业务系统设计提供访问私有数据的接口在此说明书里称为私有数据接口。

水平越权漏洞：用户可通过私有数据接口访问或操作到其他用户私有数据的安全漏洞称为水平越权漏洞。

数据唯一标识：标记某条数据的值，这个值比较宽泛，大多情况下是一个纯数值，如id＝1，但也会存在其他如一个随机字符串之类的其他情况。

公有数据：与私有数据相反，即在系统设计上所有用户都可访问的数据。

公有数据接口：与私有数据接口相反，即在系统设计上用于访问公有数据的接口。

在本说明书中，提供了一种数据处理方法，本说明书同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一个实施例提供的一种数据处理方法的处理流程图，包括步骤102至步骤106。

步骤102，采集服务器的历史访问流量数据。

其中，所述历史访问流量数据包含访问数据的数据标识及访问用户的用户标识，所述数据标识用于索引所述访问数据。

具体的，所述历史访问流量数据可以是用户通过服务器访问目标应用程序所生成的访问流量数据；所述目标应用程序可以是基于浏览器/服务器架构的Web应用程序，Web应用程序不仅包含一些静态的具有数据展示功能的页面，还具有能够对数据进行查询、修改、增加以及删除等处理操作的不同业务逻辑接口。

实际应用中，用户可通过服务器对目标应用程序中的数据进行操作处理，例如，增加、删除、修改或查询等，但由于目标应用程序中的数据可分为私有数据和公有数据，对于私有数据而言，若某一部分私有数据属于用户U1，则只能由用户U1调用接口对这部分私有数据进行增删改查，而除用户U1外的其他用户则没有权限对这部分私有数据进行任何操作处理，同样，用户U1也没有权限对其他用户的私有数据进行操作处理。

然而，由于后台开发人员的疏忽，没有在对数据进行增删改查的过程中对用户身份进行判断，或对用户进行身份判断的判断结果存在误差，即服务器端对用户U1访问目标应用程序提出的数据操作请求过分信任，忽略了对其操作权限的判定，用户U1可以对属于其他用户的私有数据进行增删改查等操作，从而导致目标应用程序存在越权漏洞。

本说明书实施例提供的数据处理方法，可以应用于机房出口/入口的网关处，或者实现在WAF(Web Application Firewall)应用防护系统中，以保证获取的历史访问流量数据尽量完全，从而能够准确检测被用户访问过的目标应用程序的页面或接口是否存在越权漏洞。

另外，由于常见的网络监控模式可以分为两种：一种是旁路监控模式，另一种是串联监控模式。其中，“旁路监控模式”一般是指通过交换机等网络设备的“端口镜像”功能来实现监控，在此模式下，监控设备只需要连接到交换机的指定镜像端口，所以形象的称之为“旁路监控”。在利用旁路监控模式的情况下，所述历史访问流量数据即可以是旁路镜像流量。而串联模式一般是通过网关、网桥或者代理服务器的模式来进行监控，由于监控设备作为网关或者网桥串联在网络中，所以称之为“串联监控模式”。而在利用串联监控模式的情况下，所述历史访问流量数据即可以是串联流量。

具体的网络监控模式可根据实际需求确定，在此不做任何限制。

本说明书实施例中，所述历史访问流量数据中包含访问数据的数据标识以及访问用户的用户标识，所述用户标识即用于表示访问目标应用程序的用户的身份标识，所述数据标识则用于索引所述访问数据。若要检测目标应用程序是否存在越权漏洞，首先则需要确定所述用户是否有权限访问所述访问数据，而具体则需根据所述用户的用户标识进行确定。

实际应用中，可利用cookie中的会话ID去标识访问所述访问数据的用户身份，其中，cookie指部分网站为了辨别用户身份、进行会话跟踪而储存在用户本地终端上的数据，是由Web服务器保存在用户浏览器上的小文本文件，它可以包含有关用户的信息，是用户获取、交流、传递信息的主要场所之一，无论何时用户链接到服务器，Web站点都可以访问cookie信息。

但由于cookie的会话ID是在用户进行登录时随机生成的，并且会话ID会在用户重新登录或会话时间过期而重置，这种情况下就会在历史访问流量数据上表现为一个数据被多个用户访问，但实际上可能访问这一个数据的不同会话ID均指向同一个用户，只是会话ID发生了变化，这就会导致对历史流量进行公私有数据分析获得的结果不够准确。

本说明书实施例中，为克服上述问题以提高越权漏洞检测结果的准确性，同时保证用户的隐私数据不被泄露，选择在cookie中存储加密的用户信息，避免因为会话ID导致的显示多用户的问题。

具体的，用户链接到服务器请求访问所述访问数据的情况下，Web站点可访问cookie信息，以对cookie中存储的加密用户信息进行解密，进而将解密结果作为访问所述访问数据的用户标识。由于cookie中存储的加密用户信息不发生变化，因此，解密后的所述用户标识则始终指向同一用户。

通过将用户信息加密放到cookie中，在接收到用户的数据访问请求后再获取所述加密的用户信息并解密，避免了用户信息被篡改，也避免了会话过期或重新登录导致的用户信息统计不准确。

另外，所述历史访问流量数据从网关中的旁路镜像流量中获取，有利于保证历史访问流量数据采集的完整性，从而有利于保证数据类别标注结果的准确性。

具体实施时，采集服务器的历史访问流量数据之后，需对所述历史访问流量数据中的用户标识进行聚类，并根据聚类结果对访问数据进行数据类别划分，但为保证数据类别划分结果的准确性，本说明书实施例还需对所述历史访问流量数据进行过滤筛选，具体可通过以下方式实现：

对所述历史访问流量数据进行清洗，生成对应的数据清洗结果；

对所述数据清洗结果中包含的历史访问流量数据进行拆分，生成多个历史访问流量子数据；

利用目标字符对所述多个历史访问流量子数据中的用户标识以及数据标识进行打标；

确定打标结果中所述多个历史访问流量子数据对至少一个预设数据筛选规则的命中结果；

根据所述命中结果对所述多个历史访问流量子数据进行筛选。

具体的，由于实际应用场景中的真实访问流量数据较为复杂，用户通过访问目标应用程序中的数据生成的历史访问流量数据中，可能包含其他外部的一些攻击流量数据、爬虫流量数据、无效访问流量数据等，因此，为保证数据处理效率，在采集到历史访问流量数据后，可先对所述历史访问流量数据进行清洗，即剔除攻击流量数据、爬虫流量数据、无效访问流量数据等，在对剩余的历史访问流量进行拆分、打标、筛选、聚类等操作。

由于历史访问流量数据中包含多种类型的访问数据的特征参数，为了避免不同特征参数之间的干扰，还要把一条历史访问流量数据中不同的特征参数分别各生成一条数据，例如，历史访问流量数据中包含/ccc？phone＝13000000000&info_id＝333，则需将其进行拆分，生成两条数据(历史访问流量子数据)：/ccc？phone＝13000000000和/ccc？info_id＝333，并分别对这两条数据进行打标或进行后续的筛选、聚类以及数据类别标注过程即可。

实际应用中，可利用预先设定的打标规则对所述多个历史访问流量子数据中的用户标识以及数据标识进行打标，所述打标规则可以根据实际需求进行定义，例如，可以是匹配参数名为“ID”字符结尾的，并且参数值为ID值(这里的ID值比较宽泛，可以是各种格式的标识数据唯一标识的值)，具体即利用目标字符(ID)对多个历史访问流量子数据中的用户标识以及数据标识进行打标。

打标完成后，可采用白名单模式，即可通过设置命中规则的方式，提取命中的历史访问流量子数据。例如，设置命中规则为：历史访问流量子数据以ID结尾，并在历史访问流量数据中包含访问数据的数据标识、访问用户的用户标识以及访问时间(历史流量访问数据的生成时间)等数据的情况下，若需筛选获得用户标识和数据标识，则可利用目标字符(ID)对历史访问流量数据中的用户标识以及数据标识进行打标，而打标后的用户标识和数据标识则可命中前述的命中规则，然后根据命中结果对所述历史访问流量数据中的子数据进行筛选即可。

本说明书实施例历史访问流量数据做清洗，以将干扰流量剔除，有利于避免干扰数据对后续统计的影响；另外，采用打标并只取打标命中的数据，并且一条流量命中多次会产生多条数据，即对历史访问流量数据进行拆分处理，有利于避免特征参数之间的干扰，同时有利于避免造成计算资源的浪费。

步骤104，根据所述用户标识与所述数据标识间的关联关系对所述访问用户的用户标识进行聚类，生成与多个数据标识分别对应的聚类结果。

具体的，采集历史访问流量数据后，由于所述历史访问流量数据中包含访问数据的数据标识以及访问用户的用户标识，因此，可根据用户标识与数据标识之间的关联关系对所述访问用户的用户标识进行聚类，生成各数据标识对应的聚类结果。

例如，若根据历史访问流量数据确定用户U1、用户U2及用户U3与数据D1存在关联关系，则将用户U1、用户U2及用户U3进行聚类，生成与数据D1对应的聚类结果。

步骤106，根据所述聚类结果对所述访问数据进行数据类别标注。

具体实施时，根据所述聚类结果对所述访问数据进行类别标注，具体可通过以下方式实现：

具体的，由于所述历史访问流量数据中，用户标识与数据标识间的关联关系可用于表征哪些用户访问过哪些数据，因此，根据所述关联关系进行聚类生成的与数据标识对应的聚类结果即可用于表征与所述数据标识对应的访问数据被哪些用户访问过。

而在水平越权的场景下，如果某个接口下的每个数据标识(ID值)对应只有一个用户访问过，则确定这个接口为访问用户私有数据的接口，所述数据标识对应的访问数据就是这个用户的私有数据；如果某个接口下的每个数据标识(ID值)对应有多个用户访问过，则确定这个接口为访问用户公有数据的接口，所述数据标识对应的访问数据即为公有数据。因此，在生成各数据标识对应的聚类结果后，可先对聚类结果中包含的用户标识进行去重处理，例如，聚类结果中包含用户U1、用户U2、用户U1、用户U3，那么去重后所述聚类结果中则包含用户U1、用户U2、用户U3。

获得去重处理结果后，可将去重得到的聚类结果中包含的目标用户标识的数量与第一预设数量阈值进行比较，若确定去重得到的聚类结果中包含的目标用户标识的数量小于等于第一预设数量阈值，则确定与所述目标数据标识关联的访问数据为私有数据；或者，若确定去重得到的聚类结果中包含的目标用户标识的数量大于第一预设数量阈值，则确定与所述目标数据标识关联的访问数据为公有数据。

本说明书实施例提供的水平越权场景下，私有数据访问形态的示意图如图2(a)所示，图2中，数据D1仅有用户U1一个访问用户，数据D2仅有用户U2一个访问用户，同样，数据D3仅有用户U3一个访问用户，因此，数据D1、数据D2以及数据D3则为私有数据。

本说明书实施例提供的水平越权场景下，公有数据访问形态的示意图如图2(b)所示，图3中，数据D1有用户U1、用户U2以及用户U3三个访问用户，数据D2有用户U1以及用户U3两个访问用户，因此，数据D1和数据D2为公有数据。

进一步的，根据聚类结果对访问数据进行数据类别标注后，可根据数据类别标注结果建立所述访问数据的数据标识与数据类别间的映射关系表。

并且，还可基于所述映射关系表确定新产生的数据访问流量中的待访问数据是否为私有数据，以进行越权检测，具体可通过以下方式实现：

获取待检测的访问流量数据；

根据所述访问流量数据中包含的待访问数据的数据标识以及所述映射关系表，确定所述待访问数据的数据类别；

具体的，生成各数据标识对应的聚类结果后，根据聚类结果中包含的用户类型的数量对数据标识对应的访问数据进行数据类别标注，即将只有一个用户访问的数据标记为私有数据，而访问这个私有数据的接口则标记为私有数据接口；将有多个用户访问的数据标记为公有数据，而访问这个公有数据的接口则标记为公有数据接口。

这些数据标记结果均可作为越权检测过程中是否越权的判断依据，并且在实际应用中，可选择利用扫描器进行越权检测，即由扫描器根据待访问数据的数据类别进行越权检测，或者除利用扫描器外，还可利用其它能够实现越权检测的方法，具体可根据实际需求确定，在此不做限制。

另外，根据所述聚类结果对所述访问数据进行数据类别标注，还可通过以下方式实现：

对所述目标聚类结果对应的数据标识进行数据类别标注。

具体的，由于真实的业务使用情况会比较复杂，一个目标应用程序里面可能会出现某些接口用户很少会去访问的情况，而如果忽略这些情况，并仅在理想状态下按照每个接口都会被经常访问的情况来做计算，由于很少被用户访问的接口产生的数据其实并不具备统计学意义，因此通过这种方式计算获得的结果并不足够准确。

因此，本说明书实施例在生成各数据标识对应的聚类结果后，可对目标数据标识对应的聚类结果中的用户标识进行去重处理，并确定去重处理结果中包含的目标用户标识的数量，所述目标数据标识为所述多个数据标识之一，所述目标用户标识的数量即可用于表征访问所述目标数据标识对应访问数据的访问用户的数量。

确定去重处理结果中目标数据标识的数量后，可确定所述目标数据标识对应访问数据的访问接口，并将同一访问接口下多个访问数据的目标数据标识对应的去重处理结果进行整合、去重，以得到所述访问接口对应的目标用户标识的数量，所述访问接口对应的目标用户标识的数量即可用于表征访问所述访问接口的访问用户的数量，以根据访问所述访问接口的访问用户的数量确定该访问接口的历史访问流量数据是否具备统计学意义。

若访问所述访问接口的访问用户的数量低于第二预设数量阈值，则表明所述访问接口的历史访问流量数据不具备统计学意义，相反，若访问所述访问接口的访问用户的数量高于第二预设数量阈值，则表明所述访问接口的历史访问流量数据具备统计学意义；因此，根据所述数量对所述聚类结果进行筛选，获得目标聚类结果，具体即在访问所述访问接口的访问用户的数量高于第二预设数量阈值的情况下，将所述访问接口下访问数据的目标数据标识对应的聚类结果作为所述目标聚类结果，最后对所述目标聚类结果对应的数据标识进行数据类别标注。

由于所述聚类结果中包含的用户标识的数量可用于表征用户访问所述访问数据的次数，因此，通过对所述聚类结果进行筛选的方式，剔除访问用户过少、不具备统计学意义的接口流量，有利于提高数据类别标注结果的准确性。

另外，根据所述聚类结果对所述访问数据进行类别标注，还可通过以下方式实现：

确定目标数据标识对应的访问数据的访问接口；

具体的，由于所述历史访问流量数据中，用户标识与数据标识间的关联关系可用于表征哪些用户访问过哪些数据，因此，本说明书实施例在根据所述关联关系对用户标识进行聚类后，对聚类结果中包含的用户标识进行去重处理，以根据去重处理结果中包含的目标用户标识的数量表征访问所述目标数据标识对应访问数据的访问用户的数量。

进一步的，本说明书实施例通过利用同一访问接口下、不同访问数据的访问用户的数量对应倒数的均值，对所述访问接口下访问数据进行数据类别标注，因此，在对不同目标数据标识对应聚类结果中的用户标识进行去重处理后，可确定不同目标数据标识对应访问数据的访问接口，并确定同一访问接口下不同访问数据的目标数据标识对应的去重处理结果中所包含的访问用户的数量，然后求得同一访问接口下不同访问数据的目标数据标识对应的去重处理结果中所包含的访问用户的数量的倒数，再对同一访问接口下不同访问数据的访问用户的数量的倒数取均值，并根据均值对所述访问数据进行类别标注。

在理想状态下，如果某个访问接口下的访问数据为私有数据，那么通过前述求均值的计算过程所得到的计算结果应该等于1，代表访问接口下每个访问数据均只有一个用户访问过；如果某个访问接口下的访问数据为公有数据，那么通过前述均值计算过程所得到的计算结果应该小于1，代表有多个用户访问过。

但在实际应用中，由于所采集的历史访问流量数据中会包含可能包含其他外部的一些攻击流量数据、爬虫流量数据、无效访问流量数据等干扰流量数据，尽管在聚类之前会对所述历史访问流量数据进行清洗，但可能无法保证能够将这部分干扰流量数据全部清除，因此，进行均值计算获得的计算结果可能存在误差，为保证根据均值计算结果对访问数据进行数据类别标注生成的标注结果的准确性，本说明书实施例可通过设置一个数值范围，如[0.95,1]，若均值计算结果落入这一数值范围，即可将所述访问接口标注为私有接口，访问接口下的访问数据即可标注为私有数据。

例如，用户可通过访问接口A访问数据D1、数据D2、数据D3，而数据D1对应的去重处理结果中包含的目标用户标识的数量为1、数据D2对应的去重处理结果中包含的目标用户标识的数量为2、数据D3对应的去重处理结果中包含的目标用户标识的数量为1，利用前述数据对访问接口A下数据D1、数据D2、数据D3的访问用户的数量的倒数取均值，得到的均值计算结果为(1/1+1/2+1/1)/3＝0.83，这一均值计算结果未落入前述数值范围，因此，可将所述访问接口A标注为公有接口，访问接口A下的数据D1、数据D2、数据D3即可标注为公有数据。

除此之外，在利用数据标识对应的目标字符对筛选结果中包含的访问数据进行打标之后，还可将打标结果中包含的访问数据、以及与所述访问数据存在关联关系的用户标识输入待训练的数据类别标注模型进行训练，获得所述数据类别标注模型。

在获取到新生成的待检测的数据访问流量后，可将所述访问流量数据中包含的待访问数据输入所述数据类别标注模型进行数据类别标注，生成所述待访问数据的数据类别标注结果。

具体的，将所述待检测的数据访问流量输入预先训练的用于进行数据类别标注的数据类别标注模型，即可根据模型输出的结果确定所述数据访问流量中的访问数据是否为私有数据；若确定所述访问数据为私有数据，则需根据所述访问数据所属用户的用户标识与访问用户的用户标识进行比对，以进行越权检测。

本说明书实施例通过对应用的历史流量进行聚合分析得到应用接口和接口对应数据标识的公私有数据模型，从而判断接口和数据是否是私有接口和私有数据，有利于提高越权检测的精度。

下述结合附图3，以本说明书提供的数据处理方法在越权检测场景的应用为例，对所述数据处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种数据处理方法的处理过程流程图，具体步骤包括步骤302至步骤328。

步骤302，采集服务器的历史访问流量数据。

其中，所述历史访问流量数据包含访问数据的数据标识，所述数据标识用于索引所述访问数据。

步骤304，将所述历史访问流量数据进行拆分。

具体的，在对历史访问流量数据进行拆分之前，可先对所述历史访问流量数据进行清洗，去除掉部分外部的恶意攻击流量、爬虫流量、无效访问流量等数据，并对剩余的历史访问流量数据进行拆分。

另外，在对所述历史访问流量数据进行清洗获得第一筛选结果后，还可对所述第一筛选结果中包含的历史访问流量数据进行二次筛选，具体可获取所述第一筛选结果中各历史访问流量数据关联的cookie信息，并对所述cookie信息中存储的加密用户信息进行解密，根据解密结果对所述第一筛选结果中包含的访问数据进行二次筛选，生成第二筛选结果。

具体的，用户链接到服务器请求访问所述访问数据的情况下，Web站点可访问cookie信息，以对cookie中存储的加密用户信息进行解密，进而将解密结果作为访问所述访问数据的用户标识。本申请实施例中，在对cookie中存储的加密用户信息进行解密生成对应的解密结果后，可根据解密结果对第一筛选结果中的历史访问流量数据进行二次筛选，具体可确定解密结果中是否包含用户标识，若不包含，则可将与所述cookie信息关联的历史访问流量数据从所述第一筛选结果中删除，以生成第二筛选结果。

进一步的，对所述历史访问流量数据进行拆分，即对所述第二筛选结果中包含的历史访问流量数据进行拆分。

步骤306，对拆分结果中的历史访问流量子数据进行打标。

步骤308，确定打标结果中包含的历史访问流量子数据对至少一个预设数据筛选规则的命中结果。

步骤310，根据所述命中结果对所述历史访问流量子数据进行筛选。

步骤312，根据筛选结果中用户标识与数据标识间的关联关系对访问用户的用户标识进行聚类，生成与多个数据标识分别对应的聚类结果。

步骤314，对目标数据标识对应的聚类结果中的用户标识进行去重处理，并确定去重处理结果中包含的目标用户标识的数量，所述目标数据标识为所述多个数据标识之一。

步骤316，根据所述数量对所述聚类结果进行筛选，获得包含目标用户标识的数量大于第二预设数量阈值的目标聚类结果。

步骤318，对所述目标聚类结果中的用户标识进行去重，并将去重结果中包含的用户标识与第一预设数量阈值进行比较。

步骤320，根据比较结果对所述访问数据进行数据类别标注。

具体的，对目标数据标识对应的聚类结果中的用户标识进行去重处理，并将去重处理结果中包含的目标用户标识的数量与第一预设数量阈值进行比较；

步骤322，根据数据类别标注结果建立所述访问数据的数据标识与数据类别间的映射关系表。

步骤324，获取待检测的访问流量数据。

步骤326，根据所述访问流量数据中包含的待访问数据的数据标识以及所述映射关系表，确定所述待访问数据的数据类别。

步骤328，根据所述待访问数据的数据类别检测所述服务器是否存在越权漏洞。

具体可通过扫描器及所述待访问数据的数据类别检测所述服务器是否存在越权漏洞。

与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，图4示出了本说明书一个实施例提供的一种数据处理装置的示意图。如图4所示，该装置包括：

采集模块402，被配置为采集服务器的历史访问流量数据，所述历史访问流量数据包含访问数据的数据标识及访问用户的用户标识，所述数据标识用于索引所述访问数据；

聚类模块404，被配置为根据所述用户标识与所述数据标识间的关联关系对所述访问用户的用户标识进行聚类，生成与多个数据标识分别对应的聚类结果；

标注模块406，被配置为根据所述聚类结果对所述访问数据进行数据类别标注。

可选地，所述数据处理装置，还包括：

拆分模块，被配置为将所述历史访问流量数据进行拆分；

确定模块，被配置为确定拆分结果中包含的访问数据对至少一个预设数据筛选规则的命中结果；

筛选模块，被配置为根据所述命中结果对所述访问数据进行筛选，并利用所述数据标识对应的目标字符对筛选结果中包含的访问数据进行打标。

可选地，所述标注模块406，包括：

比较子模块，被配置为对目标数据标识对应的聚类结果中的用户标识进行去重处理，并将去重处理结果中包含的目标用户标识的数量与第一预设数量阈值进行比较；

第一确定子模块，被配置为若确定所述去重结果中包含的目标用户标识的数量小于等于所述第一预设数量阈值，则确定与所述目标数据标识关联的访问数据为私有数据；或者，

第二确定子模块，被配置为若确定所述去重结果中包含的目标用户标识的数量大于所述第一预设数量阈值，则确定与所述目标数据标识关联的访问数据为公有数据；其中，所述目标数据标识为所述多个数据标识之一。

可选地，所述数据处理装置，还包括：

建立模块，被配置为根据数据类别标注结果建立所述访问数据的数据标识与数据类别间的映射关系表。

可选地，所述数据处理装置，还包括：

第一数据获取模块，被配置为获取待检测的访问流量数据；

第一数据类别确定模块，被配置为根据所述访问流量数据中包含的待访问数据的数据标识以及所述映射关系表，确定所述待访问数据的数据类别。

可选地，所述数据处理装置，还包括：

检测模块，被配置为根据所述待访问数据的数据类别检测所述服务器是否存在越权漏洞。

可选地，所述标注模块406，包括：

数量确定子模块，被配置为对目标数据标识对应的聚类结果中的用户标识进行去重处理，并确定去重处理结果中包含的目标用户标识的数量，所述目标数据标识为所述多个数据标识之一；

聚类结果筛选子模块，被配置为根据所述数量对所述聚类结果进行筛选，获得目标聚类结果；

标注子模块，被配置为对所述目标聚类结果对应的数据标识进行数据类别标注。

可选地，所述数据处理装置，还包括：

训练模块，被配置为将打标结果中包含的访问数据、以及与所述访问数据存在关联关系的用户标识输入待训练的数据类别标注模型进行训练，获得所述数据类别标注模型。

可选地，所述数据处理装置，还包括：

第二数据获取模块，被配置为获取待检测的访问流量数据；

生成模块，被配置为将所述访问流量数据中包含的待访问数据输入所述数据类别标注模型进行数据类别标注，生成所述待访问数据的数据类别标注结果。

可选地，所述标注模块406，包括：

去重处理子模块，被配置为对目标数据标识对应的聚类结果中的用户标识进行去重处理，并确定去重处理结果中包含的目标用户标识的数量；

访问接口确定子模块，被配置为确定目标数据标识对应的访问数据的访问接口；

计算子模块，被配置为对所述访问接口下不同数据标识对应的去重处理结果中目标用户标识数量的倒数取均值；

类别标注子模块，被配置为根据所述均值对所述访问数据进行类别标注；其中，所述目标数据标识为所述多个数据标识之一。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，所述存储器510用于存储计算机可执行指令，处理器520用于执行如下计算机可执行指令：

根据所述聚类结果对所述访问数据进行数据类别标注。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，包括：

根据所述聚类结果对所述访问数据进行数据类别标注。

2.根据权利要求1所述的数据处理方法，所述采集服务器的历史访问流量数据之后，还包括：

将所述历史访问流量数据进行拆分；

3.根据权利要求1或2所述的数据处理方法，所述根据所述聚类结果对所述访问数据进行类别标注，包括：

4.根据权利要求1或2所述的数据处理方法，还包括：

5.根据权利要求4所述的数据处理方法，还包括：

获取待检测的访问流量数据；

6.根据权利要求5所述的数据处理方法，还包括：

7.根据权利要求1所述的数据处理方法，所述根据所述聚类结果对所述访问数据进行数据类别标注，包括：

对所述目标聚类结果对应的数据标识进行数据类别标注。

8.根据权利要求2所述的数据处理方法，还包括：

9.根据权利要求8所述的数据处理方法，还包括：

获取待检测的访问流量数据；

10.根据权利要求1或2所述的数据处理方法，所述根据所述聚类结果对所述访问数据进行类别标注，包括：

确定目标数据标识对应的访问数据的访问接口；

11.一种数据处理装置，包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现权利要求1至10任意一项所述数据处理方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至10任意一项所述数据处理方法的步骤。