CN114048512B

CN114048512B - 一种处理敏感数据的方法及装置

Info

Publication number: CN114048512B
Application number: CN202111294701.7A
Authority: CN
Inventors: 彭永杰
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Filing date: 2021-11-03
Publication date: 2024-06-21
Anticipated expiration: 2041-11-03

Abstract

本发明公开了一种处理敏感数据的方法及装置，该方法为：接收多个应用接口发送的采样数据，对每个应用接口对应的特征信息进行哈希处理，确定每个应用接口的接口标识；基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个接口标识对应的样本数据；确定每个样本数据中每条数据对应的转换数据，转换数据包括字段名和与字段名对应的对应值；对每条转换数据中的对应值进行敏感类型识别，获得每条转换数据中所有对应值对应的敏感类型。上述方法可以有效降低因数据量和应用接口类别骤增或变动对数据的敏感类型识别的影响，快速且简单地完成每个应用接口对应的采样数据的敏感类型梳理。

Description

一种处理敏感数据的方法及装置

技术领域

本发明实施例涉及金融科技(Fintech)领域，尤其涉及一种处理敏感数据的方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，但由于金融行业的安全性、实时性要求，也对技术提出的更高的要求。

目前，随着云计算、大数据的快速发展，互联网服务给人们的生活带来极大的方便，但同时，也带来了许多安全问题。目前，互联网服务对内和对外都提供了各种功能接口，如果一些涉及敏感数据的接口因受到侵入或自身问题而导致敏感数据泄露，将可能对用户和企业造成巨大安全隐患。因此，为了加强对敏感数据的治理、运营和保护，接口敏感数据资产的风险识别和分布流向变得尤为重要。

然而，现有技术中在进行敏感数据处理时，一般都是需要对获取的敏感数据直接进行分析，这样，需要处理大量敏感数据，导致整体处理速度较慢，且随着敏感数据的来源和数据量增加时，无法准确及时的对新增的敏感数据及时处理，即对敏感数据的整体处理效率较低。

发明内容

本发明提供一种处理敏感数据的方法及装置，用于有效降低因数据量和应用接口类别骤增或变动对数据的敏感类型识别的影响，快速且简单地完成每个应用接口对应的采样数据的敏感类型梳理。

第一方面，本发明提供一种处理敏感数据的方法，该方法包括：接收多个应用接口发送的采样数据，对每个所述应用接口对应的特征信息进行哈希处理，确定每个所述应用接口的接口标识；基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识对应的样本数据；确定每个所述样本数据中每条数据对应的转换数据，所述转换数据包括字段名和与所述字段名对应的对应值；对每条所述转换数据中的对应值进行敏感类型识别，获得每条所述转换数据中所有对应值对应的敏感类型。

上述方法中，计算了发送采样数据的每个应用接口对应的接口标识，基于接口标识对不同的应用接口所对应的系统服务作区分，从而可以降低不同系统服务对应的数据量不同的影响，进而在一定程度可以降低数据倾斜对后续数据的敏感类型识别的影响，且可以使用样本而非全量的数据，对多个应用接口发送的采样数据进行梳理，能够较大幅度地减少要处理的数据量，提高数据处理的速度，从而降低了人力和机器资源成本，进而提高了对敏感数据的识别效率。

在一种可能的实施方式中，所述预设处理条件基于以下方式表示：

其中，X用于表征所述应用接口的类型个数，K_{App_ID}用于表征预设时长内每个类型的应用接口的样本数据量，K_MAX用于表征预设时长内对采样数据的最大处理数据总量。

上述方法中，对每个类型的应用接口的样本数据量和应用接口类型个数进行了约束，这样，可以尽量保证对每个类型的应用接口对应的样本数据覆盖更全，且有效保证了对后续数据的敏感类型识别的识别基础的稳定。

在一种可能的实施方式中，基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识的样本数据，包括：确定所述当前周期时长是否为首次确定每个所述接口标识的样本数据的周期时长；当确定所述当前周期时长为首次确定每个所述接口标识的样本数据的周期时长时，确定当前周期时长内当前时刻的任一所述接口标识对应的接口数据总量，与所述当前周期时长内当前时刻的数据总量的比值；将所述比值与所述最大处理数据总量相乘，获得任一所述接口标识的初始样本数据的初始数据总量；确定所述当前周期时长内当前时刻后的任一时刻，任一所述接口标识对应的第一接口数据的第一接口数据总量；当确定任一所述第一接口数据总量不大于对应的所述初始数据总量时，确定所述第一接口数据中每条数据被返回到对应的数组中的第一概率，并基于所述第一概率和所述第一接口数据中的数据，获得所述对应的数组中的第一数据；将所述第一数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据。

基于上述方法，可以在第一接口数据总量不大于对应的初始数据总量时，确定样本数据覆盖更全面的样本数据，即提供了较为少量但样本数据覆盖较为全面的样本数据，为后续对各个应用接口发送的采样数据的敏感类型的识别减少了待处理的数据量，从而提升对敏感数据的处理速度。

在一种可能的实施方式中，所述方法还包括：当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第二概率；基于所述第二概率和所述第一接口数据中的数据，获得所述对应的数组中的第二数据，所述第二概率与所述第一概率不同；将所述第二数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据。

基于上述方法，可以在第一接口数据总量大于对应的初始数据总量时，确定样本数据覆盖更全面的样本数据，即提供了较为少量但样本数据覆盖较为全面的样本数据，为后续对各个应用接口发送的采样数据的敏感类型的识别减少了待处理的数据量，从而提升对敏感数据的处理速度。

在一种可能的实施方式中，基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识的样本数据，包括当确定所述当前周期时长为非首次确定每个所述接口标识的样本数据的周期时长时，且确定所述任一接口标识对应的数组中存储有所述历史样本数据时，对所述历史样本数据进行处理，获得每条历史样本数据的样本标识；确定任一所述接口标识对应的历史样本数据的数据总量，以及任一所述样本标识对应的数据总量，并基于所述历史样本数据的数据总量和所述样本标识对应的数据总量，确定任一样本标识对应的权重系数；当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第三概率；基于所述第三概率和所述第一接口数据中的数据，获得所述对应的数组中的第三数据，将所述第三数据作为任一所述接口标识的样本数据，以确定任一所述接口标识的样本数据，所述第三概率为所述第二概率与权重系数的乘积。

上述方法中，通过增加权重系数，来降低确定为样本的同类型的数据再次被确定为样本的概率，尽量减少数据倾斜问题，提高样品数据的覆盖率。

在一种可能的实施方式中，对每条所述转换数据中的对应值进行敏感类型识别，获得每条所述转换数据中所有对应值对应的敏感类型，包括：对所有所述转换数据中的对应值进行初始识别处理，获得所有对应值对应被识别的总次数以及所述所有对应值被识别为各个敏感类型对应的次数；基于预设正则表达式或预设元数据关键字，对每条所述转换数据中的任一对应值进行识别匹配，当匹配通过后，基于预设算法对所述任一对应值进行校验，当校验通过时，对所述总次数和所述任一对应值所属的敏感类型的次数进行累加，获得第一总次数和第一次数；基于所述第一总次数和第一次数，获得第一识别率；所述识别率用于表征所述任一对应值的类型为特定敏感类型的概率；当确定所述第一识别率不小于对应的预设阈值，则对所述任一对应值添加标签，且所述标签用于表征所述任一对应值对应的类型为所述特定敏感类型。

基于上述方法，可以在任一对应值对应的第一识别率不小于对应的预设阈值时，准确确定对应值所对应的字段的敏感类型。

在一种可能的实施方式中，所述方法还包括：当每条所述转换数据中的任一对应值识别匹配和/或校验未通过时，对所述总次数进行累加，获得第二总次数；基于所述第二总次数和所述任一对应值所属的敏感类型的次数，获得第二识别率；当确定所述第二识别率不小于所述预设阈值，则保持所述任一对应值对应的标签不变。

基于上述方法，可以较为准确的确定已标记有标签的字段对应的标签是否准确，提高字段对应的标签的准确率。

第二方面，本发明提供一种确定的访问令牌的装置，该装置包括：

第一处理单元，用于接收多个应用接口发送的采样数据，对每个所述应用接口对应的特征信息进行哈希处理，确定每个所述应用接口的接口标识；

确定单元，用于基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识对应的样本数据；

第二处理单元，用于确定每个所述样本数据中每条数据对应的转换数据，所述转换数据包括字段名和与所述字段名对应的对应值；

获得单元，用于对每条所述转换数据中的对应值进行敏感类型识别，获得每条所述转换数据中所有对应值对应的敏感类型。

在一种可能的方式中，所述预设处理条件基于以下方式表示：

在一种可能的实施方式中，所述确定单元，具体用于：确定所述当前周期时长是否为首次确定每个所述接口标识的样本数据的周期时长；当确定所述当前周期时长为首次确定每个所述接口标识的样本数据的周期时长时，确定当前周期时长内当前时刻的任一所述接口标识对应的接口数据总量，与所述当前周期时长内当前时刻的数据总量的比值；将所述比值与所述最大处理数据总量相乘，获得任一所述接口标识的初始样本数据的初始数据总量；确定所述当前周期时长内当前时刻后的任一时刻，任一所述接口标识对应的第一接口数据的第一接口数据总量；当确定所述第一接口数据总量不大于对应的所述初始数据总量时，确定所述第一接口数据中每条数据被返回到对应的数组中的第一概率，并基于所述第一概率和所述第一接口数据中的数据，获得所述对应的数组中的第一数据；将所述第一数据作为任一所述接口标识的样本数据，以确定任一所述接口标识的样本数据。

在一种可能的实施方式中，所述确定单元，还用于：当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第二概率；基于所述第二概率和所述第一接口数据中的数据，获得所述对应的数组中的第二数据，所述第二概率与所述第一概率不同；将所述第二数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据。

在一种可能的实施方式中，所述确定单元，具体用于：当确定所述当前周期时长为非首次确定每个所述接口标识的样本数据的周期时长时，且确定所述任一接口标识对应的数组中存储有所述历史样本数据时，对所述历史样本数据进行处理，获得每条历史样本数据的样本标识；确定任一所述接口标识对应的历史样本数据的数据总量，以及任一所述样本标识对应的数据总量，并基于所述历史样本数据的数据总量和所述样本标识对应的数据总量，确定任一样本标识对应的权重系数；当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第三概率；基于所述第三概率和所述第一接口数据中的数据，获得所述对应的数组中的第三数据，将所述第三数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据，所述第三概率为所述第二概率与权重系数的乘积。

在一种可能的实施方式中，所述获得单元，具体用于：对所有所述转换数据中的对应值进行初始识别处理，获得所有对应值对应被识别的总次数以及所述所有对应值被识别为各个敏感类型对应的次数；基于预设正则表达式或预设元数据关键字，对每条所述转换数据中的任一对应值进行识别匹配，当匹配通过后，基于预设算法对所述任一对应值进行校验，当校验通过时，对所述总次数和所述任一对应值所属的敏感类型的次数进行累加，获得第一总次数和第一次数；基于所述第一总次数和第一次数，获得第一识别率；所述识别率用于表征所述任一对应值的类型为特定敏感类型的概率；当确定所述第一识别率不小于对应的预设阈值，则对所述任一对应值添加标签，且所述标签用于表征所述任一对应值对应的类型为所述特定敏感类型。

在一种可能的实施方式中，所述获得单元还用于：当每条所述转换数据中的任一对应值识别匹配和/或校验未通过时，对所述总次数进行累加，获得第二总次数；基于所述第二总次数和所述任一对应值所属的敏感类型的次数，获得第二识别率；当确定所述第二识别率不小于所述预设阈值，则保持所述任一对应值对应的标签不变。

上述第二方面及第二方面各个可选装置的有益效果，可以参考上述第一方面及第一方面各个可选方法的有益效果，这里不再赘述。

第三方面，本发明提供一种计算机设备，包括程序或指令，当所述程序或指令被执行时，用以执行上述第一方面及第一方面各个可选的方法。

第四方面，本发明提供一种存储介质，包括程序或指令，当所述程序或指令被执行时，用以执行上述第一方面及第一方面各个可选的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍。

图1为本发明实施例提供的应用场景的示意图；

图2为本发明实施例提供的一种处理敏感数据方法的步骤流程示意图；

图3为本发明实施例提供的一种处理敏感数据装置的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

需要说明的是，本发明的说明书和权利要求中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的图像在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

目前，随着互联网业务井喷式增长，分布式系统服务数量骤增，服务间接口调用关系多样和复杂化的情况下，需要加强对各个接口对应的数据中的敏感数据的治理、运营和保护，因此，对数据中敏感数据的识别变的尤为重要。

然而，现有技术中一般都是直接对获取的数据进行敏感类型的识别，即对全量数据进行识别处理，这样，不仅识别效率较低，且消耗的内存资源也较多。且随着敏感数据的来源和数据量增加时，无法准确及时的对新增的敏感数据及时处理，即对敏感数据的整体处理效率较低。

鉴于此，本发明实施例提供一种处理敏感数据的方法，通过该方法，可以计算每个应用接口对应的接口标识，基于接口标识对不同的应用接口所对应的系统服务作区分，从而可以降低不同系统服务对应的数据量不同的影响，进而在一定程度可以降低数据倾斜对后续数据的敏感类型识别的影响，且可以使用样本而非全量的数据，对多个应用接口发送的采样数据进行梳理，能够较大幅度地减少要处理的数据量，提高数据处理的速度，从而降低了人力和机器资源成本，进而提高了对敏感数据的识别效率。

介绍完本发明实施例的设计思想之后，下面对本发明实施例中的处理敏感数据的技术方案适用的应用场景做一些简单介绍，需要说明的是，本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

在本发明实施例中，请参见图1所示的应用场景示意图，该场景中包括计算机设备101和应用服务器102，计算机设备101可以与应用服务器102进行通信。具体的，例如通过有线或无线通信方式进行直接或间接地连接，本发明不做限制。其中，应用服务器102包括应用服务器102-1、应用服务器102-2、……、应用服务器102-n，n为大于2的正整数。

在该场景中，应用服务器102可以向计算机设备101发送包含敏感数据的数据，从而计算机设备101可以对接收的数据进行处理，从而获得接收的数据中敏感数据的数据类型，实现对敏感数据的梳理。在具体的实施过程中，计算机设备101可以将对接收的数据的处理结果存储到对应的数据库，也可以将对接收的数据的处理结果发送给部署于其它计算机设备上的数据安全平台。

其中，计算机设备101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等，但并不局限于此。应用服务器102可以是分布式系统部署的服务器。

为进一步说明本发明实施例提供的处理敏感数据的方法的方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本发明实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本发明实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的应用环境)。

以下结合图2所示的方法流程图对本发明实施例中处理敏感数据的方法进行说明，下面对本发明实施例的方法流程进行介绍。

步骤201：接收多个应用接口发送的采样数据，对每个应用接口对应的特征信息进行哈希处理，确定每个应用接口的接口标识。

在本发明实施例中，计算机设备可以接收多个应用接口发送的采样数据，具体的，多个应用接口可以是各个不同类型的接口，也可以是部分相同类型和部分不同类型的接口，本发明实施中对此不做限制。

此外，在实际实施过程中，多个应用接口的数量也可以基于时间更新而更新。例如，2021年6月17号早上9点31分有4个应用接口给计算机设备发送采样数据，2021年6月17号早上9点32分有8个应用接口给计算机设备发送采样数据。

在本发明实施例中，计算机设备可以确定多个应用接口中每个应用接口的特征信息，从而确定该特征信息对应的特征值。具体的，特征信息的确定方式可以是基于多个应用接口在发送采样数据时携带其对应的特征信息来确定，也可以是计算机设备向多个应用接口对应的应用服务器发送获取特征信息的请求，从而基于对应的应用服务器的反馈信息来获取特征信息，本发明实施例对此不做限定。

具体的，特征信息可以至少包括：应用接口对应的服务ID；场景ID，其中，场景ID例如为更新场景的ID；数据的报文类型，报文类型例如为同步或者是异步；请求方系统编号；响应方系统编号。

在本发明实施例中，可以对每个应用接口对应的特征值进行哈希运算，从而获取每个应用接口的接口标识。需要说明的是，每个接口标识是唯一的，即可以基于接口标识，确定对应的应用接口。

例如，假设应用接口1对应的特征值为：V1、V2、……、Vn，其中,n为大于2的正整数，从而可以确定应用接口1对应的接口标识可以表示为：APP_ID＝HASH(V1+V2+...+Vn)。

可见，在本发明实施例中，基于接口标识对不同的应用接口所对应的系统服务作区分，从而可以降低不同系统服务对应的数据量不同的影响，进而在一定程度可以降低数据倾斜对后续数据的敏感类型识别的影响。

步骤202：基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个接口标识对应的样本数据。

在本发明实施例中，计算机设备可以基于预设时长对接收的采样数据进行周期性处理。例如，假设预设时长为1分钟，则可以以1分钟为周期对接收的采样数据进行处理。需要说明的是，预设时长可以基于实际实施对应确定，本发明实施例中对此不做限定。

在本发明实施例中，为了使得最终确定的样本数据的覆盖面更全，且适应数据源即多个应用接口的接口数量的所对应提供的数据或者是每个应用接口的数据的数据总量的变化，因此，在确定各个应用接口对应的样本数据之前，可以确定当前周期时长是否为首次确定每个接口标识的样本数据的周期时长。

在一种可能的实施方式中，当确定确定当前周期时长为首次确定每个接口标识的样本数据的周期时长时，可以采用但不限于以下步骤确定任一接口标识初始对应的样本数据：

步骤a:确定当前周期时长内当前时刻的任一接口标识对应的接口数据总量，与当前周期时长内当前时刻的数据总量的比值；

步骤b：将比值与预设时长内对采样数据的最大处理数据总量相乘，获得任一接口标识的初始样本数据的初始数据总量；

在本发明实施例中，假设预设时长内对采样数据的最大处理数据总量为K_MAX，当前周期时长内当前时刻的数据总量为N，以及当前周期时长内当前时刻的任一应用接口对应的接口数据总量为N_{APP_ID}，从而可以确定各个接口标识的初始数据总量为：

步骤c:确定当前周期时长内当前时刻后的任一时刻，任一接口标识对应的第一接口数据的第一接口数据总量；

步骤d：当确定第一接口数据总量不大于对应的初始数据总量时，确定第一接口数据中每条数据被返回到对应的数组中的第一概率，并基于第一概率和第一接口数据中的数据，获得对应的数组中的第一数据；

步骤e：将第一数据作为接口标识的样本数据，以确定任一接口标识的样本数据。

在本发明实施例中，由于接口数据总量N_{APP_ID}随着其对应接口标识所对应的应用接口的发送数据的输入而增长，因此，假设当前周期时长内当前时刻后的任一时刻，任一接口标识对应的第一接口数据总量为：N′_{APP_ID}。

具体的，N′_{APP_ID(x)}≤K_{APP_ID(x)}时，则可以确定第一概率为：其中，x可以表示应用接口的顺序标识，例如，第一个应用接口的顺序标识为1，则第一应用接口的接口标识为APP_ID(1)。

进一步地，计算机设备可以基于第一概率和第一接口数据中的数据，获得对应的数组中的第一数据。然后将第一数据作为接口标识的样本数据，以确定任一接口标识的样本数据。

步骤f:当确定任一接口标识的第一接口数据总量大于初始样本数据的数据总量时，确定第一接口数据中每条数据被返回到对应的数组中的第二概率。

步骤g:基于第二概率和第一接口数据中的数据，获得对应的数组中的第二数据，第二概率与第一概率不同；

步骤h:将第二数据作为任一接口标识的样本数据，以确定每个接口标识的样本数据。

在本发明实施例中，N′_{APP_ID(x)}>K_{APP_ID(x)}时，则可以确定第二概率为：具体的，若当前数据以/>的概率取出，则继续以/>的概率替换对应的数组中已有的数据，否则数组数据不变。因此，保留当前数据的概率为/>

在本发明实施例中，前述确定接口标识对应的样本数据的方案需满足预设处理条件，具体的，预设处理条件可以基于以下方式表示：

其中，X用于表征应用接口的类型个数，K_{App_ID}用于表征预设时长内每个类型的应用接口的样本数据量，K_MAX用于表征预设时长内对采样数据的最大处理数据总量。

例如，假设应用接口的类型个数为3，则K_{APP_ID(1)}、K_{APP_ID(2)}以及K_{APP_ID(3)}的总和不大于K_MAX。

可见，当新增应用接口时，对于每一个已标识过的应用接口，都存在接口数据总量不变，而数据总量变大的情况，即每个应用接口的样本数据的值会变小。

具体的，假设应用接口x为已确认样本数据的应用接口，则若应用接口x对应的样本数据总量不大于当前时刻之后的时刻所确定的变小后的样本数据总量，那么不需要调整之前确定样本数据的数据总量，且该应用接口x后续反馈的数据概率为：当应用接口x对应的初始数据总量不大于变小后的接口数据总量，则基于来向数组返回数据；当应用接口x对应的初始数据总量大于变小后的接口数据总量时，则基于/>来向数组返回数据。

以及，若应用接口x对应的样本数据总量大于当前时刻之后的时刻所确定的变小后的样本数据总量，那么对已有的样本数据需要减少至变小后的样本数据总量，且向数组返回数据的概率不变。在一种可能的实施方式中，当确定当前周期时长为首次确定每个接口标识的样本数据的周期时长时，确定每个接口标识的样本数据的方案可以包括但不限于以下步骤：

步骤A：当任一接口标识对应的数组中存储有历史样本数据时，对历史样本数据进行处理，获得每条历史样本数据的样本标识；

步骤B：确定任一接口标识对应的历史样本数据的数据总量，以及任一样本标识对应的数据总量，并基于历史样本数据的数据总量和样本标识对应的数据总量，确定每个样本标识对应的权重系数；

步骤C：当确定任一接口标识的第一接口数据总量大于初始样本数据的数据总量时，确定第一接口数据中每条数据被返回到对应的数组中的第三概率；

步骤D：基于第三概率和第一接口数据中的数据，获得对应的数组中的第三数据，将第三数据作为任一接口标识的样本数据，以确定每个接口标识的样本数据，第三概率为第二概率与权重系数的乘积。

在本发明实施例中，由于APP_ID是根据应用接口的特征信息或属性值计算而来，且对数据的敏感类型的识别需要针对应用接口对应的发送数据中的每条数据，即每条数据中的报文内容，因此，可以在确定当前接口对应的样本数据时，考虑降低已确定为样本的同类型的数据再次被确定为样本的概率，尽量减少数据倾斜问题，提高样品数据的覆盖率。

具体的，可以对历史样本数据中的每条样本数据的数据数据内容进行解析，得到报文内容的参数列表P、报文长度L等属性，并通过哈希算法计算报文内容的唯一标识，该唯一标识可以称为样本标识，且可以表示为：BODY_ID＝HASH(P+…+L)。

假设任一接口标识对应的历史样本数据的数据总量表示为：K_{APP_ID(ALL)}，任一样本标识对应的数据总量表示为：V_{BODY_ID}，则可以确定每个样本标识的对应的权重系数为：W_{BODY_ID}＝1-V_{BODY_ID}/K_{APP_ID(ALL)}。可见，当V_{BODY_ID}对应的数据总量为0时，则W_{BODY_ID}为1。

在本发明实施例中，当确定N′_{APP_ID(x)}>K_{APP_ID(x)}时，则可以确定第三概率为：具体的，若当前数据以/>的概率取出，则继续以/>的概率替换对应的数组中已有的元素，否则数组元素不变。因此，保留当前数据的概率为

为了更好的对确定样本数据的过程进行说明，下面以一个具体的处理过程为例对步骤202提供的确定样本数据的方式进行说明。

在本发明实施例中，假设在单位时间例如1分钟为预设时长，且当前周期时长为首次确定应用接口A的样本数据的周期时长，假设最大处理数据总量100条数据，且应用接口A对应的数据总量为0条数据。

那么，在当前周期时长内当前时刻的后一第一时刻例如15点06分1秒，若接收到应用接口A发送的第1条数据，则可以确定应用接口A的初始数据总量为：1/1*100＝100条，即应用接口A的第一接口数据总量即1条数据不大于应用接口A的初始数据总量即100条数据，从而可以将应用接口A的第1条数据以第一概率即1/1＝1返回到对应的数组中。

在15点06分2秒，若接收到应用接口A发送的第2条数据，则可以确定应用接口A的初始数据总量为：2/2*100＝100条，即应用接口A的第一接口数据总量即2条数据不大于应用接口A的初始数据总量即100条，从而可以将应用接口A的第2条数据以第一概率即2/2＝1返回到对应的数组中。

在15点06分13秒，若接收到应用接口A发送的第100条数据，则可以确定应用接口A的初始数据总量为：100/100*100＝100条，即应用接口A的第一接口数据总量即100条不大于应用接口A的初始数据总量即100条，从而可以将应用接口A的第100条数据以第一概率即100/100＝1返回到对应的数组中。

在15点06分15秒，若接收到应用接口A发送的第101条数据，则可以确定应用接口A的初始数据总量为：101/101*100＝100条，且应用接口A的第一接口数据总量即101条数据大于应用接口A的初始数据总量即100条，则对于101条数据，先以100/101的概率保留在数组中，而数据中原来的100条数据，以1/100的概率选出被替换。

进一步地，在15点06分16秒，若接收到应用接口B发送的第1条数据，则可以确定应用接口B的初始数据总量为：1/102*100＝1条，需要说明的是，在实际计算过程中，可以采取向上取整的方式确定最终的数量。可见，应用接口B的第一接口数据总量即1条不大于对应的初始数据总量即1条，从而可以将应用接口B的第1条数据以第一概率即1/1＝1返回到对应的数组中。

在15点06分17秒，若接收到应用接口B发送的第2条数据，则可以确定应用接口B的初始数据总量为：2/103*100＝2条，需要说明的是，在实际计算过程中，可以采取向上取整的方式确定最终的数量。可见，应用接口B的第一接口数据总量即2条数据不大于对应的初始数据总量即2条数据，从而可以将应用接口B的第2条数据以第一概率即2/2＝1返回到对应的数组中。

在15点06分19秒，若接收到应用接口B发送的第11条数据，则可以确定应用接口B的初始数据总量为：11/112*100＝10条；可见，应用接口B的第一接口数据总量11条数据大于对应的初始数据总量即10条数据，那么对该第11条数据，先以10/11的概率保留在数组中，而数组中原来的10条数据，以1/10的概率选出被替换。

在15点06分20秒，若接收到应用接口B发送的第12条数据，则可以确定应用接口B的初始数据总量为：12/113*100＝11条(向上取整)，可见，初始数据总量的数组中的样本数据的数据总量变为11条，而接收的应用接口B发送的第11条数据替换了原数组中10条数据中的一条数据，即应用接口B对应的数组中的数据条数小于应用接口B对应的初始数据总量，因此，可以将应用接口B的第12条数据以第一概率即1返回到对应的数组中。

在15点06分35秒，若接收到应用接口A发送的第102条数据，则可以确定应用接口A的第一接口数据总量为：102/114*100＝90条，而应用接口A对应的数组中已保存100条数据，即历史样本数据大于第一接口数据总量，因此，先将数组的元素，按90/100的概率保留其中的90个，然后对于这102条数据，以90/102的概率保留，数组中的以1/90的概率选出被替换。

可见，采用前述的方法，即基于改进的水塘抽样方法，能够对流式数据进行较强随机的抽样，使得样品数据覆盖面更全，更加适应数据源变化，提高对敏感数据识别和梳理的有效性和稳定性。

步骤203：确定每个样本数据中每条数据对应的转换数据，转换数据包括字段名和与字段名对应的对应值。

在本发明实施例中，当确定多个接口标识分别对应的样本数据之后，计算机设备可以对每个样本数据中每条数据进行解析处理，具体的，可以将JSON、XML等报文格式，转化为KEY-VALUE键值对，即包括字段名和对应值的转换数据。

步骤204：对每条转换数据中的对应值进行敏感类型识别，获得每条转换数据中所有对应值对应的敏感类型。

在本发明实施例中，计算机设备可以对所有所述转换数据中的对应值进行初始识别处理，获得所有对应值对应被识别的总次数以及所述所有对应值被识别为各个敏感类型对应的次数。

进一步地，计算机设备可以基于识别策略对每条数据的敏感类型进行识别，具体的，识别策略为基于元数据关键字匹配和预设算法校验，或者识别策略为基于基于预设正则表达式匹配和预设算法校验。

在本发明实施例中，计算机设备可以基于预设正则表达式或预设元数据关键字，对每条转换数据中的任一对应值进行识别匹配。其中，预设正则表达式可以为VALUE正则表达式，预设元数据关键字可以基于实际实施情况对应确定，本发明实施例对此不做限定。当匹配通过后，基于预设算法对任一对应值进行校验，当校验通过时，对总次数和任一对应值所属的敏感类型的次数进行累加，获得第一总次数和第一次数。其中，预设算法可以为VALUE算法，当然，也可以是其它算法，本发明实施例对此不做限定。

进一步地，可以基于第一总次数和第一次数，获得第一识别率，其中，识别率用于表征所述任一对应值的类型为特定敏感类型的概率，从而当确定第一识别率不小于对应的预设阈值时，则对任一对应值添加标签，且标签用于表征所述任一对应值对应的类型为特定敏感类型。

在本发明实施例中，假设所有对应值对应被识别的总次数表示为N_{APP_ID_FIELD},对应值被识别为敏感类型对应的次数表示为N_X，其中，x为证件号(ID)、手机号(PHONE)、银行卡号(BANK)等敏感类型的标签。

在本发明实施例中，假设任一对应值对应的预设阈值表示为R_ERROR，任一对应值对应的字段名表示为F，则当任一对应值通过预设正则表达式匹配为银行卡号，且算法校验通过时，对N_{APP_ID_FIELD(F)}和N_BANK(F)的值加一，即可以获得第一总次数和第一次数，从而可以获得第一识别率为：可以确定第一识别率为：R_S(BANK)＝N′_{APP_ID_FIELD(F)}/N′_BANK(F)。

具体的，若R_S(BANK)不小于R_ERROR，那么对字段F添加BANK标签，且确定该任一对应值对应的应用接口为“涉及银行卡号”的敏感接口。若R_S(BANK)小于R_ERROR，那么对字段F不添加BANK标签，若该字段已有BANK标签则清除。

需要说明的是，在本发明实施例中，对银行卡号的校验的预设算法可以为模10算法，当然，也可以是其它算法，本发明实施例中对此不做限定。可见，针对不同的特定敏感类型，可以采用不同的预设算法。

在一种可能的实施方式中，当计算机设备确定每条转换数据中的任一对应值识别匹配和/或校验未通过时，对总次数进行累加，获得第二总次数，然后可以基于第二总次数和任一对应值所属的敏感类型的次数，获得第二识别率。进一步地，当确定第二识别率不小于预设阈值，则保持任一对应值对应的标签不变。

在本发明实施例中，假设继续以前面字段F的处理为例进行说明。具体的，当字段F不满足任何正则表达式匹配，或者算法校验不通过，则N_{APP_ID_FIELD(F)}的值加一，即可以获得第二总次数，从而可以确定第二识别率为：R′_S(BANK)＝N′_{APP_ID_FIELD(F)}/N_BANK(F)。若此时第二识别R′_S(BANK)不小于R_ERROR，那么字段F的标签不变；若此时第二识别率R′_S(BANK)小于R_ERROR，那么清除字段F对应的标签。

需要说明的是，在本发明实施例中，若任一字段存在多中含义，即无法通过校验且无既往标签，则输出提示，并通过使用计算机设备的用户手动打标记来实现对该字段的标签的确定。

可见，在本发明实施例中，首先，使用样本而非全量的数据，对整体的服务接口进行敏感资产梳理，能够较大幅度地减少要处理的数据量，提高数据处理的速度，降低了人力和机器资源成本。其次，计算应用接口的唯一标识并以此分类，能够对不同的系统服务作区分，降低不同系统服务请求量不同的影响，一定程度解决数据倾斜的问题，使得样品数据较好地与整体服务接口特征相适应。接着，实际应用场景是实时数据处理的，基于改进的水塘抽样方法，能够对流式数据进行较强随机的抽样，同时乘以权重系数，来降低已采样过的数据被采样的概率(变相提高量少的数据采样概率)，使得样品数据覆盖面更全，更加适应数据源变化，提高敏感资产梳理的有效性和稳定性。

如图3所示，本发明提供一种处理敏感数据的装置，所述装置包括第一处理单元301、确定单元302，第二处理单元303以及获得单元304，其中：

第一处理单元301，用于接收多个应用接口发送的采样数据，对每个所述应用接口对应的特征信息进行哈希处理，确定每个所述应用接口的接口标识；

确定单元302，用于基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识对应的样本数据；

第二处理单元303，用于确定每个所述样本数据中每条数据对应的转换数据，所述转换数据包括字段名和与所述字段名对应的对应值；

获得单元304，用于对每条所述转换数据中的对应值进行敏感类型识别，获得每条所述转换数据中所有对应值对应的敏感类型。

其中，I用于表征所述应用接口的类型个数，K_{App_ID}用于表征预设时长内每个类型的应用接口的样本数据量，K_MAX用于表征预设时长内对采样数据的最大处理数据总量。

在一种可能的实施方式中，所述确定单元302，具体用于：确定所述当前周期时长是否为首次确定每个所述接口标识的样本数据的周期时长；当确定所述当前周期时长为首次确定每个所述接口标识的样本数据的周期时长时，确定当前周期时长内当前时刻的任一所述接口标识对应的接口数据总量，与所述当前周期时长内当前时刻的数据总量的比值；将所述比值与所述最大处理数据总量相乘，获得任一所述接口标识的初始样本数据的初始数据总量，且将所述初始样本数据存储于对应的数组中；确定所述当前周期时长内当前时刻后的任一时刻，任一所述接口标识对应的第一接口数据的第一接口数据总量；当确定任一所述第一接口数据总量不大于对应的所述初始数据总量时，确定所述第一接口数据中每条数据被返回到对应的数组中的第一概率，并基于所述第一概率和所述第一接口数据中的数据，获得所述对应的数组中的第一数据；将所述第一数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据。

在一种可能的实施方式中，所述确定单元302，还用于：当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第二概率；基于所述第二概率和所述第一接口数据中的数据，获得所述对应的数组中的第二数据，所述第二概率与所述第一概率不同；将所述第二数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据。

在一种可能的实施方式中，所述确定单元302，具体用于：当确定所述当前周期时长为非首次确定每个所述接口标识的样本数据的周期时长时，且确定所述任一接口标识对应的数组中存储有所述历史样本数据时，对所述历史样本数据进行处理，获得每条历史样本数据的样本标识；确定任一所述接口标识对应的历史样本数据的数据总量，以及任一所述样本标识对应的数据总量，并基于所述历史样本数据的数据总量和所述样本标识对应的数据总量，确定任一样本标识对应的权重系数；当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第三概率；基于所述第三概率和所述第一接口数据中的数据，获得所述对应的数组中的第三数据，将所述第三数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据，所述第三概率为所述第二概率与权重系数的乘积。

在一种可能的实施方式中，所述获得单元304，具体用于：对所有所述转换数据中的对应值进行初始识别处理，获得所有对应值对应被识别的总次数以及所述所有对应值被识别为各个敏感类型对应的次数；基于预设正则表达式或预设元数据关键字，对每条所述转换数据中的任一对应值进行识别匹配，当匹配通过后，基于预设算法对所述任一对应值进行校验，当校验通过时，对所述总次数和所述任一对应值所属的敏感类型的次数进行累加，获得第一总次数和第一次数；基于所述第一总次数和第一次数，获得第一识别率；所述识别率用于表征所述任一对应值的类型为特定敏感类型的概率；当确定所述第一识别率不小于对应的预设阈值，则对所述任一对应值添加标签，且所述标签用于表征所述任一对应值对应的类型为所述特定敏感类型。

在一种可能的实施方式中，所述获得单元304还用于：当每条所述转换数据中的任一对应值识别匹配和/或校验未通过时，对所述总次数进行累加，获得第二总次数；基于所述第二总次数和所述任一对应值所属的敏感类型的次数，获得第二识别率；当确定所述第二识别率不小于所述预设阈值，则保持所述任一对应值对应的标签不变。

本发明实施例提供一种计算机设备，包括程序或指令，当所述程序或指令被执行时，用以执行本发明实施例提供的一种处理敏感数据的方法及任一可选方法。

本发明实施例提供一种存储介质，包括程序或指令，当所述程序或指令被执行时，用以执行本发明实施例提供的一种处理敏感数据的方法及任一可选方法。

最后应说明的是：本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种处理敏感数据的方法，其特征在于，所述方法包括：

接收多个应用接口发送的采样数据，对每个所述应用接口对应的特征信息进行哈希处理，确定每个所述应用接口的接口标识；

基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识对应的样本数据；

确定每个所述样本数据中每条数据对应的转换数据，所述转换数据包括字段名和与所述字段名对应的对应值；

对每条所述转换数据中的对应值进行敏感类型识别，获得每条所述转换数据中所有对应值对应的敏感类型；

其中，基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识的样本数据，包括：

确定所述当前周期时长是否为首次确定每个所述接口标识的样本数据的周期时长；

当确定所述当前周期时长为首次确定每个所述接口标识的样本数据的周期时长时，确定当前周期时长内当前时刻的任一所述接口标识对应的接口数据总量，与所述当前周期时长内当前时刻的数据总量的比值；

将所述比值与所述最大处理数据总量相乘，获得任一所述接口标识的初始样本数据的初始数据总量；

确定所述当前周期时长内当前时刻后的任一时刻，任一所述接口标识对应的第一接口数据的第一接口数据总量；

当确定所述第一接口数据总量不大于对应的所述初始数据总量时，确定所述第一接口数据中每条数据被返回到对应的数组中的第一概率，并基于所述第一概率和所述第一接口数据中的数据，获得所述对应的数组中的第一数据；

将所述第一数据作为任一所述接口标识的样本数据，以确定任一所述接口标识的样本数据。

2.如权利要求1所述的方法，其特征在于，所述预设处理条件基于以下方式表示：

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第二概率；

基于所述第二概率和所述第一接口数据中的数据，获得所述对应的数组中的第二数据，所述第二概率与所述第一概率不同；

将所述第二数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据。

4.如权利要求3所述的方法，其特征在于，基于预设时长内对采样数据的最大处理数据总量、当前周期时长内当前时刻的数据总量以及预设处理条件，确定每个所述接口标识的样本数据，包括：

当确定所述当前周期时长为非首次确定每个所述接口标识的样本数据的周期时长时，且确定所述任一接口标识对应的数组中存储有历史样本数据时，对所述历史样本数据进行处理，获得每条历史样本数据的样本标识；

确定任一所述接口标识对应的历史样本数据的数据总量，以及任一所述样本标识对应的数据总量，并基于所述历史样本数据的数据总量和所述样本标识对应的数据总量，确定任一样本标识对应的权重系数；

当确定任一所述接口标识的所述第一接口数据总量大于所述初始样本数据的数据总量时，确定所述第一接口数据中每条数据被返回到所述对应的数组中的第三概率；

基于所述第三概率和所述第一接口数据中的数据，获得所述对应的数组中的第三数据，将所述第三数据作为任一所述接口标识的样本数据，以确定每个所述接口标识的样本数据，所述第三概率为所述第二概率与权重系数的乘积。

5.如权利要求1所述的方法，其特征在于，对每条所述转换数据中的对应值进行敏感类型识别，获得每条所述转换数据中所有对应值对应的敏感类型，包括：

对所有所述转换数据中的对应值进行初始识别处理，获得所有对应值对应被识别的总次数以及所述所有对应值被识别为各个敏感类型对应的次数；

基于预设正则表达式或预设元数据关键字，对每条所述转换数据中的任一对应值进行识别匹配，当匹配通过后，基于预设算法对所述任一对应值进行校验，当校验通过时，对所述总次数和所述任一对应值所属的敏感类型的次数进行累加，获得第一总次数和第一次数；

基于所述第一总次数和第一次数，获得第一识别率；所述识别率用于表征所述任一对应值的类型为特定敏感类型的概率；

当确定所述第一识别率不小于对应的预设阈值，则对所述任一对应值添加标签，且所述标签用于表征所述任一对应值对应的类型为所述特定敏感类型。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

当每条所述转换数据中的任一对应值识别匹配和/或校验未通过时，对所述总次数进行累加，获得第二总次数；

基于所述第二总次数和所述任一对应值所属的敏感类型的次数，获得第二识别率；

当确定所述第二识别率不小于所述预设阈值，则保持所述任一对应值对应的标签不变。

7.一种处理敏感数据的装置，其特征在于，所述装置包括：

获得单元，用于对每条所述转换数据中的对应值进行敏感类型识别，获得每条所述转换数据中所有对应值对应的敏感类型；

其中，所述确定单元，具体用于：确定所述当前周期时长是否为首次确定每个所述接口标识的样本数据的周期时长；当确定所述当前周期时长为首次确定每个所述接口标识的样本数据的周期时长时，确定当前周期时长内当前时刻的任一所述接口标识对应的接口数据总量，与所述当前周期时长内当前时刻的数据总量的比值；将所述比值与所述最大处理数据总量相乘，获得任一所述接口标识的初始样本数据的初始数据总量；确定所述当前周期时长内当前时刻后的任一时刻，任一所述接口标识对应的第一接口数据的第一接口数据总量；当确定所述第一接口数据总量不大于对应的所述初始数据总量时，确定所述第一接口数据中每条数据被返回到对应的数组中的第一概率，并基于所述第一概率和所述第一接口数据中的数据，获得所述对应的数组中的第一数据；将所述第一数据作为任一所述接口标识的样本数据，以确定任一所述接口标识的样本数据。

8.一种计算机设备，其特征在于，包括程序或指令，当所述程序或指令被执行时，如权利要求1至6中任意一项所述的方法被执行。

9.一种存储介质，其特征在于，包括程序或指令，当所述程序或指令被执行时，如权利要求1至6中任意一项所述的方法被执行。