CN113157854A

CN113157854A - Api的敏感数据泄露检测方法及系统

Info

Publication number: CN113157854A
Application number: CN202110086563.7A
Authority: CN
Inventors: 范石林; 田礼军
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-07-23
Anticipated expiration: 2041-01-22
Also published as: CN113157854B

Abstract

本发明提供一种API的敏感数据泄露检测方法，包括：获取API基于查询请求返回的查询信息，所述查询信息包括多个目标字段；识别出所述多个目标字段中的多个敏感字段；及根据所述多个敏感字段的字段数量和预设阈值，确定所述查询信息是否存在敏感数据泄露。本发明还提供一种API的敏感数据泄露检测系统。本发明能够及时有效判断API是否存在敏感数据泄露的问题，提高数据安全性。

Description

API的敏感数据泄露检测方法及系统

技术领域

本发明实施例涉及安全领域，尤其涉及一种API的敏感数据泄露检测方法、系统、计算机设备及计算机可读存储介质。

背景技术

随着大数据技术的兴起，数据已经成为核心资产。基于REST (RepresentationalState Transfer，表述性状态传递)标准和API(Application Programming Interface，应用程序接口)复用原因，在API设计过程中会考虑其通用性。基于通用性设计的API，其API针对不同需求的调用者，均返回全部的接口返回值。然而，上述做法会导致API调用过程中频繁发生敏感信息暴露。例如，提供用户信息查询的API，调用者A需求为：{用户名、住址}，调用者 B需求为：{用户名，年龄}，但是，无论是响应调用者A的调用请求还是响应调用者B的调用请求，该API均返回如下接口返回值：{用户名、住址、年龄}，此接口返回值对于调用者A来说多返回了“年龄”，对于调用者B来说多返回了 “住址”，即API会将调用者不需要的部分值提供给调用者，造成敏感信息泄露，数据安全性低。

因此，有必要提供API的敏感数据泄露检测方案，以防止敏感数据泄露，提高数据安全性。

发明内容

有鉴于此，本发明实施例提供了一种API的敏感数据泄露检测方法、系统、计算机设备及计算机可读存储介质，用于解决API调用过程中频繁发生敏感信息泄露的问题。

本发明实施例是通过下述技术方案来解决上述技术问题：

一种API的敏感数据泄露检测方法，包括：

获取API基于查询请求返回的查询信息，所述查询信息包括多个目标字段；识别出所述多个目标字段中的多个敏感字段；及

根据所述多个敏感字段的字段数量和预设阈值，确定所述查询信息是否存在敏感数据泄露。

可选地，所述识别出所述多个目标字段中的多个敏感字段的步骤，包括：

将各个目标字段输入到预先训练好的敏感字段识别模型组合中，并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果，所述识别结果用于指示相应目标字段是否为敏感字段；

根据所述各个目标字段的识别结果，获取第一敏感字段集，所述第一敏感字段集包括根据所述敏感字段识别模型组合识别出的若干个第一敏感字段；

根据预设的多个正则规则识别所述多个目标字段的多个字段内容，得到基于所述多个正则规则识别出的若干个敏感字段内容，并根据所述若干个敏感字段内容获取相应的若干个第二敏感字段，以根据所述若干个第二敏感字段构建第二敏感字段集；及

对所述第一敏感字段集和所述第二敏感字段集取并集，并根据所述并集确定所述字段数量。

可选地，所述敏感字段识别模型组合包括M个敏感字段识别模型，M为大于1的奇数；所述将各个目标字段输入到预先训练好的敏感字段识别模型组合中，并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果的步骤，包括：

将第i个目标字段分别输入到每个敏感字段识别模型中，获取所述每个敏感字段识别模型的模型输出结果，所述每个敏感字段识别模型的模型输出结果为第一模型输出结果或第二模型输出结果，所述第一模型输出结果用于表征所述第i个目标字段为第一敏感字段，所述第二模型输出结果用于表征所述第i 个目标字段为非敏感字段；所述第i个目标字段为所述多个目标字段中的其中一个目标字段，i为正整数；

比较所述第一模型输出结果的数量和所述第二模型输出结果的数量；

当所述第一模型输出结果的数量大于所述第二模型输出结果的数量，则确定所述识别结果为所述第i个目标字段为第一敏感字段；及

当所述第一模型输出结果的数量小于所述第二模型输出结果的数量，则确定所述识别结果为所述第i个目标字段为非敏感字段。

可选地，所述M个敏感字段识别模型根据相应的M个待训练模型训练得到；所述方法还包括对所述M个待训练模型进行预先训练的步骤：

构造多个样本字段，每个样本字段携带对应的样本标记，所述样本标记用于表征相应的样本字段是否为敏感字段；

将所述多个样本字段转化为多个样本字段特征向量；

将每个样本字段特征向量输入至第j个待训练模型中，以获取所述每个样本字段对应的模型输出结果，其中，所述第j个待训练模型为所述M个待训练模型中的其中一个；

比对所述每个样本字段的模型输出结果和对应的样本标记；及

根据所述每个样本字段的模型输出结果和对应的样本标记的比对结果，调整所述第j个待训练模型的一个或多个模型参数，以得到第j个敏感字段识别模型，1≤j≤M，j为正整数。

可选地，所述M个待训练模型包括深度神经网络模型、支持向量机模型和随机森林模型。

可选地，所述多个样本字段包括敏感样本字段集合和非敏感样本字段集合，所述构造多个样本字段的步骤，包括：

获取多个敏感样本字段，并根据所述多个敏感样本字段得到所述敏感样本字段集合；

获取多个非敏感样本字段，并根据所述多个非敏感样本字段得到所述非敏感样本字段集合；

获取每个敏感样本字段对应的多个扩展字段，其中，所述多个扩展字段的字段名称与相应敏感样本字段的字段名称之间具有相同含义但分别对应不同的表达形式；及

将所述每个敏感样本字段对应的多个扩展字段加入到所述敏感样本字段集合中。

可选地，还包括确定所述预设阈值的步骤：

获取API调用行为日志，所述API调用行为日志包括多个历史敏感字段的数量；

根据所述多个历史敏感字段的数量，确定第一四分位数和第三四分位数；

根据所述第一四分位数和所述第三四分位数，确定四分位距；及

根据所述第一四分位数、所述第三四分位数和所述四分位距，确定所述预设阈值。

为了实现上述目的，本发明实施例还提供一种API的敏感数据泄露检测系统，包括：

获取模块，用于获取API基于查询请求返回的查询信息，所述查询信息包括多个目标字段；

识别模块，用于识别出所述多个目标字段中的多个敏感字段；及

判断模块，用于根据所述多个敏感字段的字段数量和预设阈值，确定所述查询信息是否存在敏感数据泄露。

为了实现上述目的，本发明实施例还提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述API的敏感数据泄露检测方法的步骤。

为了实现上述目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的API的敏感数据泄露检测方法的步骤。

本发明实施例提供的API的敏感数据泄露检测方法、系统、计算机设备及计算机可读存储介质，通过识别出API基于查询请求返回的查询信息中的多个目标字段中的多个敏感字段，再根据识别出的多个敏感字段的字段数量和预设阈值的比较，确定所述查询信息是否存在敏感数据泄露；本发明实施例能够及时有效判断API是否存在敏感数据泄露的问题，提高数据安全性。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本申请实施例的API的敏感数据泄露检测方法的环境应用示意图；

图2为本申请实施例一之API的敏感数据泄露检测方法的整体步骤流程图；

图3为本申请实施例一之API的敏感数据泄露检测方法中通过识别敏感字段和字段敏感内容的步骤流程图；

图4为本申请实施例一之API的敏感数据泄露检测方法中通过多个模型识别敏感字段的步骤流程图；

图5为本申请实施例一之API的敏感数据泄露检测方法中确定预设阈值的步骤流程图；

图6为本申请实施例一之API的敏感数据泄露检测方法中敏感字段识别模型训练的步骤流程示意图；

图7为本申请实施例一之API的敏感数据泄露检测方法中预先对M个待训练模型进行训练的具体步骤流程图；

图8为本申请实施例一之API的敏感数据泄露检测方法中多个样本字段构造的步骤流程图；

图9为本申请实施例二之API的敏感数据泄露检测系统的程序模块示意图；及

图10为本申请实施例三之计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

在本发明的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本发明及区别每一步骤，因此不能理解为对本发明的限制。

图1示意性示出了根据本申请实施例的API的敏感数据泄露检测方法的环境应用示意图。在示例性的实施例中，该应用环境的系统可包括后端设备11 和前端设备10。

前端设备10，用于根据查询指令向后端设备11发送查询请求。

后端设备11，用于提供数据查询服务。后端设备11的API可以接收前端设备10发送的查询请求，并基于该查询请求生成相应的查询信息并返回给前端设备10。

其中，前端设备10可以是PC(Personal Computer，个人电脑)、手机、平板电脑、笔记本电脑、虚拟主机等。后端设备11可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。

本申请实施例在于检测后端设备11的API返回的查询信息是否存在敏感数据泄露。以下将提供一个或多个实施例，来具体介绍API的敏感数据泄露检测方案。

实施例一

请参阅图2，示出了本发明实施例之API的敏感数据泄露检测方法的整体步骤流程图。下面以后端设备11为执行主体进行示例性描述，具体如下：

如图2所示，所述API的敏感数据泄露检测方法可以包括步骤S100～S300，其中：

步骤S100，获取API基于查询请求返回的查询信息，所述查询信息包括多个目标字段。

举例而言，某提供用户信息查询的API为API-1，关于API-1的查询信息的调用和返回具体参见下表1：

表1

为了API-1的通用性，该API-1返回的查询信息的格式被设置为：{name、 pwd、phone、detail}，即该查询信息包括姓名(name)、密码(pwd)、手机号码(phone)、细节数据(detail)四个目标字段。其中，“user id”为调用者账号字段，“123”或“456”为调用者账号字段的字段内容。

步骤S200，识别出所述多个目标字段中的多个敏感字段。

敏感字段的识别可以包括敏感字段识别和字段敏感内容识别。

为了提高API的敏感数据泄露检测的准确率，通过敏感字段识别和字段敏感内容识别两方面对查询信息的多个目标字段进行识别。

请参阅图3，所述步骤S200还可以进一步包括步骤S210～S240，其中：步骤S210，将各个目标字段输入到预先训练好的敏感字段识别模型组合中，并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果，所述识别结果用于指示相应目标字段是否为敏感字段；步骤S220，根据所述各个目标字段的识别结果，获取第一敏感字段集，所述第一敏感字段集包括根据所述敏感字段识别模型组合识别出的若干个第一敏感字段；步骤S230，根据预设的多个正则规则识别所述多个目标字段的多个字段内容，得到基于所述多个正则规则识别出的若干个敏感字段内容，并根据所述若干个敏感字段内容获取相应的若干个第二敏感字段，以根据所述若干个第二敏感字段构建第二敏感字段集；及步骤S240，对所述第一敏感字段集和所述第二敏感字段集取并集，并根据所述并集确定所述字段数量。

举例说明，前端设备10向API-1发送的查询请求为{姓名，手机号}，API-1 生成的查询信息为：

{”name”:”a”,”pwd”:”abc”,”phone”:1300000000000,”detail”:”aaa@mail.com”}。

通过敏感字段识别和字段敏感内容识别两方面对上述多个目标字段进行识别，其中，敏感字段识别为通过敏感字段识别模型组合对多个目标字段进行识别，字段敏感内容识别为通过预设的多个正则规则对多个目标字段的字段内容进行识别。

(1)敏感字段识别：

所述敏感字段识别模型组合包括M个敏感字段识别模型，M为大于1的奇数。当M为3时，通过三个敏感字段识别模型对多个目标字段进行识别。其中三个敏感字段识别模型包括根据深度神经网络模型(Wide&Deep神经网络模型)训练得到的第一敏感字段识别模型、根据支持向量机(SVM)模型训练得到的第二敏感字段识别模型和根据随机森林模型训练得到的第三敏感字段识别模型。

请参阅图4，所述敏感字段识别还包括：通过敏感字段识别模型组合对多个字段进行识别，具体如下：步骤S2111，将第i个目标字段分别输入到每个敏感字段识别模型中，获取所述每个敏感字段识别模型的模型输出结果，所述每个敏感字段识别模型的模型输出结果为第一模型输出结果或第二模型输出结果，所述第一模型输出结果用于表征所述第i个目标字段为第一敏感字段，所述第二模型输出结果用于表征所述第i个目标字段为非敏感字段；所述第i个目标字段为所述多个目标字段中的其中一个目标字段，i为正整数；步骤S2112，比较所述第一模型输出结果的数量和所述第二模型输出结果的数量；步骤S2113，当所述第一模型输出结果的数量大于所述第二模型输出结果的数量，则确定所述识别结果为所述第i个目标字段为第一敏感字段；及步骤S2114，当所述第一模型输出结果的数量小于所述第二模型输出结果的数量，则确定所述识别结果为所述第i个目标字段为非敏感字段。

下面以“name”字段、“pwd”字段、“phone”字段以及“detail”字段为例，示例性说明通过敏感字段识别模型组合对多个目标字段的具体识别操作：

①对于“name”字段的识别：

通过第一敏感字段识别模型、第二敏感字段识别模型和第三敏感字段识别模型分别对“name”字段进行识别，三个敏感字段识别模型均输出第一模型输出结果，第一输出结果的数量为3，第二输出结果的数量为0，3>0，即“name”字段对应的第一模型输出结果的数量大于第二模型输出结果的数量，因此确定 “name”字段的识别结果为“name”字段被认定为第一敏感字段。

②对于“pwd”字段的识别：

通过第一敏感字段识别模型、第二敏感字段识别模型和第三敏感字段识别模型分别对“pwd”字段进行识别，第一敏感字段识别模型和第三敏感字段识别模型均输出第一模型输出结果，第二敏感字段识别模型输出第二模型输出结果，第一输出结果的数量为2，第二输出结果的数量为1，2>1，即“pwd”字段对应的第一输出结果的数量大于第二输出结果的数量，因此确定“pwd”字段的识别结果为“pwd”字段被认定为第一敏感字段。

③对于“phone”字段的识别：

通过第一敏感字段识别模型、第二敏感字段识别模型和第三敏感字段识别模型分别对“phone”字段进行识别，第一敏感字段识别模型、第二敏感字段识别模型和第三敏感字段识别模型均输出第一模型输出结果，第一输出结果的数量为3，第二输出结果的数量为0，3>0，即“phone”字段对应的第一模型输出结果的数量大于第二模型输出结果的数量，因此确定“phone”字段的识别结果为 “phone”字段被认定为第一敏感字段。

④对于“detail”字段的识别：

通过第一敏感字段识别模型、第二敏感字段识别模型和第三敏感字段识别模型分别对“detail”字段进行识别，第一敏感字段识别模型、第二敏感字段识别模型和第三敏感字段识别模型均输出第二模型输出结果，第一输出结果的数量为0，第二输出结果的数量为3，0<3，即“detail”字段对应的第一模型输出结果的数量小于第二模型输出结果的数量，因此确定“detail”字段的识别结果为 “detail”字段被认定为非敏感字段。在本实施例中，通过综合各个敏感字段识别模型的优势同时对目标字段进行识别，提高了模型识别目标字段的准确率。

根据各个字段的识别结果，得到：第一敏感字段集为：

[“name”,“pwd”,“phone”]。

(2)字段敏感内容识别：

多个正则规则为根据各类字段敏感内容的数据格式、特点进行预先设置的。其中，多个正则规则包括手机号码正则表达式、邮箱号正则表达式以及身份证号码正则表达式。通过预设的多个正则规则识别“name”字段、“pwd”字段、 “phone”字段以及“detail”字段，“name”字段对应的字段内容被识别为非敏感字段内容，则“name”字段被识别为非敏感字段，“pwd”字段对应的字段内容被识别为非敏感字段内容，则“pwd”字段被识别为非敏感字段，“phone”字段对应的字段内容因包含手机号码被识别为敏感字段内容，则“phone”字段被识别为第二敏感字段，“detail”字段对应的字段内容因包含邮箱号和身份证号码被识别为敏感字段内容，则“detail”字段被识别为第二敏感字段。在本实施例中，通过字段中具体的字段内容反推该字段是否为敏感字段，提高了识别各个字段是否为敏感字段的准确率。

根据各个字段敏感内容识别的结果，得到第二敏感字段集： [“phone”,“detail”]。

取第一敏感字段集[“name”,“pwd”,“phone”]和第二敏感字段集 [“phone”,“detail”]的并集，所述并集为[“name”,“pwd”,“phone”,“detail”]。可知，该并集中的字段数量为4。

步骤S300，根据所述多个敏感字段的字段数量和预设阈值，确定所述查询信息是否存在敏感数据泄露。

接上例，假设API-1的预设阈值为2，4>2，即并集中的字段数量大于预设阈值，则确定API-1生成的查询信息存在敏感数据泄露。

在示例性的实施例中，为了设置合适的预设阈值，更有效地进行敏感数据泄露检测，请参阅图5，所述方法还包括确定所述预设阈值的步骤，其中：步骤S500，获取API调用行为日志，所述API调用行为日志包括多个历史敏感字段的数量；步骤S510，根据所述多个历史敏感字段的数量，确定第一四分位数和第三四分位数；步骤S520，根据所述第一四分位数和所述第三四分位数，确定四分位距；及步骤S530，根据所述第一四分位数、所述第三四分位数和所述四分位距，确定所述预设阈值。

例如，计算API调用行为日志中包含的敏感字段的总个数，构成列表N，针对列表N做以下计算：

(1)计算第一四分位数和第三四分位数：根据列表N中敏感字段的总个数，确定出第一四分位数Q1和第三四分位数Q3，其中，第一四分位数为列表 N中从小到大排列后的第25％的数字，第三四分位数为列表N中从小到大排列后第75％的数字。

(2)根据公式IQR＝Q3-Q1，计算四分位距IQR。

(3)根据公式ub＝Q3+IQR*1.5，计算预设阈值ub。

为了提高多个敏感字段识别模型对于敏感字段的识别效率和识别准确率，请参阅图6，所述方法还包括模型训练步骤，具体如下：训练数据构造、数据处理、数据建模、训练得到敏感字段识别模型。通过敏感字段识别模型识别能得到识别结果。

为了使得本申请更加容易理解，如图7，以下提供对M个待训练模型进行预先训练的具体步骤流程图，其中：步骤S400，构造多个样本字段，每个样本字段携带对应的样本标记，所述样本标记用于表征相应的样本字段是否为敏感字段；步骤S410，将所述多个样本字段转化为多个样本字段特征向量；步骤 S420，将每个样本字段特征向量输入至第j个待训练模型中，以获取所述每个样本字段对应的模型输出结果，其中，所述第j个待训练模型为所述M个待训练模型中的其中一个；步骤S430，比对所述每个样本字段的模型输出结果和对应的样本标记；及步骤S440，根据所述每个样本字段的模型输出结果和对应的样本标记的比对结果，调整所述第j个待训练模型的一个或多个模型参数，以得到第j个敏感字段识别模型，1≤j≤M，j为正整数。

所述M个敏感字段识别模型根据相应的M个待训练模型训练得到；所述 M个待训练模型包括深度神经网络模型、支持向量机模型和随机森林模型。示例性的，可以通过损失函数以及比对结果得到损失值，根据损失值调整带训练模型的一个或多个模型参数，再根据调整后的模型参数优化相应敏感字段识别模型。通过上述对模型训练的操作，优化多个敏感字段识别模型，能够更好地提高模型对敏感字段的识别率和灵敏度。

作为示例，所述多个样本字段包括敏感样本字段集合和非敏感样本字段集合。为了更好地对模型进行训练，如图8所示，可以通过以下步骤构造多个样本字段：步骤S401，获取多个敏感样本字段，并根据所述多个敏感样本字段得到所述敏感样本字段集合；步骤S402，获取多个非敏感样本字段，并根据所述多个非敏感样本字段得到所述非敏感样本字段集合；步骤S403，获取每个敏感样本字段对应的多个扩展字段，其中，所述多个扩展字段的字段名称与相应敏感样本字段的字段名称之间具有相同含义但分别对应不同的表达形式；及步骤 S404，将所述每个敏感样本字段对应的多个扩展字段加入到所述敏感样本字段集合中。

作为示例，敏感样本字段集合中多个敏感样本字段和多个扩展字段的构造如下：

根据多个类型信息获取相应的敏感样本字段，可参见下表2，例如：设备名、设备id、设备型号均为设备信息类的敏感样本字段。

表2

为了构造更加丰富的敏感样本字段，构造出每个敏感样本字段对应的多个扩展字段。每个敏感样本字段的多个扩展字段的字段名称包括根据每个敏感样本字段的字段名称扩展出的英文全拼字段名称、英文缩写字段名称、中文拼音全拼字段名称和中文拼音缩写字段名称。例如：敏感样本字段“地址”对应的多个扩展字段包括：“address”、“add”、“dizhi”、“dzh”。并且，为每个敏感样本字段和相应的多个扩展字段打上样本标记1。

作为示例，多个非敏感样本字段的构造：可以从牛津词典中直接获取，还可以随机组合中文或英文字母生成非敏感样本字段。并且，为每个非敏感样本字段打上样本标记0。

为了多个敏感字段识别模型能够更合理地识别敏感字段和非敏感字段，将所述多个样本字段转化为多个样本字段特征向量的步骤还可以通过以下操作得到：采用one-hot(独热码)编码方式，将所有敏感样本字段和非敏感样本字段转换为29个属性，其中，前26位对应26个英文字母a-z(不区分大小写)、第27位对应数据0-9、第28位对应其它所有字符，属性的值代表当前属性出现的次数，29个属性的值组合成样本字段特征向量。例如，参见下表3，敏感样本字段password，其对应的one-hot表示方式如下表3所示：

表3

本发明实施例可以通过识别出的多个敏感字段的字段数量和预设阈值的比较，及时有效地判断API返回的查询信息是否存在敏感数据泄露的问题，以确保数据安全。

实施例二

请继续参阅图9，示出了本发明API的敏感数据泄露检测系统的程序模块示意图。在本实施例中，API的敏感数据泄露检测系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述API的敏感数据泄露检测方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段。以下描述将具体介绍本实施例各程序模块的功能：

获取模块600，用于获取API基于查询请求返回的查询信息，所述查询信息包括多个目标字段；

识别模块610，用于识别出所述多个目标字段中的多个敏感字段；及

判断模块620，用于根据所述多个敏感字段的字段数量和预设阈值，确定所述查询信息是否存在敏感数据泄露。

在示例性的实施例中，所述识别模块610，还用于：将各个目标字段输入到敏感字段识别模型组合中，并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果，所述识别结果用于指示相应目标字段是否为敏感字段；根据所述各个目标字段的识别结果，获取第一敏感字段集，所述第一敏感字段集包括根据所述敏感字段识别模型组合识别出的若干个敏感字段；根据所述多个目标字段的多个字段内容，获取第二敏感字段集，所述第二敏感字段集包括根据所述多个字段内容识别出的若干个敏感字段；及对所述第一敏感字段集和所述第二敏感字段集取并集，并根据所述并集确定所述字段数量。

在示例性的实施例中，所述敏感字段识别模型组合包括M个敏感字段识别模型，M为大于1的奇数；所述识别模块610，还用于：将第i个目标字段分别输入到每个敏感字段识别模型中，获取所述每个敏感字段识别模型的模型输出结果，所述每个敏感字段识别模型的模型输出结果为第一模型输出结果或第二模型输出结果，所述第一模型输出结果用于表征所述第i个目标字段为敏感字段，所述第二模型输出结果用于表征所述第i个目标字段为非敏感字段；所述第i个目标字段为所述多个目标字段中的其中一个目标字段，i为正整数；比较所述第一模型输出结果的数量和所述第二模型输出结果的数量；当所述第一模型输出结果的数量大于所述第二模型输出结果的数量，则确定所述识别结果为所述第i个目标字段为敏感字段；及当所述第一模型输出结果的数量小于所述第二模型输出结果的数量，则确定所述识别结果为所述第i个目标字段为非敏感字段。

在示例性的实施例中，所述M个敏感字段识别模型根据相应的M个待训练模型训练得到；所述API的敏感数据泄露检测系统20还包括模型训练模块 630。所述模型训练模块630，还用于：构造多个样本字段，每个样本字段携带对应的样本标记，所述样本标记用于表征相应的样本字段是否为敏感字段；将所述多个样本字段转化为多个样本字段特征向量；将每个样本字段特征向量输入至第j个待训练模型中，以获取所述每个样本字段对应的模型输出结果，其中，所述第j个待训练模型为所述M个待训练模型中的其中一个；比对所述每个样本字段的模型输出结果和对应的样本标记；及根据所述每个样本字段的模型输出结果和对应的样本标记的比对结果，调整所述第j个待训练模型的一个或多个模型参数，以得到第j个敏感字段识别模型，1≤j≤M，j为正整数。

在示例性的实施例中，所述M个待训练模型包括深度神经网络模型、支持向量机模型和随机森林模型。

在示例性的实施例中，所述多个样本字段包括敏感样本字段集合和非敏感样本字段集合，所述模型训练模块630，还用于：获取多个敏感样本字段，并根据所述多个敏感样本字段得到所述敏感样本字段集合；获取多个非敏感样本字段，并根据所述多个非敏感样本字段得到所述非敏感样本字段集合；获取每个敏感样本字段对应的多个扩展字段，其中，所述多个扩展字段的字段名称与相应敏感样本字段的字段名称之间具有相同含义但分别对应不同的表达形式；及将所述每个敏感样本字段对应的多个扩展字段加入到所述敏感样本字段集合中。

在示例性的实施例中，所述API的敏感数据泄露检测系统20还包括阈值设置模块640。所述阈值设置模块640，还用于：获取API调用行为日志，所述API调用行为日志包括多个历史敏感字段的数量；根据所述多个历史敏感字段的数量，确定第一四分位数和第三四分位数；根据所述第一四分位数和所述第三四分位数，确定四分位距；及根据所述第一四分位数、所述第三四分位数和所述四分位距，确定所述预设阈值。

实施例三

参阅图10，是本发明实施例三之计算机设备2的硬件架构示意图。所述计算机设备2可以为后端设备11或作为后端设备11的一部分。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图10所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及API的敏感数据泄露检测系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器 (PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字 (Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如上述实施例的API的敏感数据泄露检测系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit， CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器 21中存储的程序代码或者处理数据，例如运行API的敏感数据泄露检测系统 20，以实现上述实施例的API的敏感数据泄露检测方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图10仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述API的敏感数据泄露检测系统 20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图9示出了所述实现API的敏感数据泄露检测系统20实施例二的程序模块示意图，该实施例中，所述基于API的敏感数据泄露检测系统20可以被划分为获取模块600、识别模块610以及判断模块620。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述API的敏感数据泄露检测系统20在所述计算机设备2中的执行过程。所述程序模块600-620的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储API的敏感数据泄露检测系统20，被处理器执行时实现上述实施例的API的敏感数据泄露检测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种API的敏感数据泄露检测方法，其特征在于，包括：

获取API基于查询请求返回的查询信息，所述查询信息包括多个目标字段；

识别出所述多个目标字段中的多个敏感字段；及

2.根据权利要求1所述的API的敏感数据泄露检测方法，其特征在于，所述识别出所述多个目标字段中的多个敏感字段的步骤，包括：

3.根据权利要求2所述的API的敏感数据泄露检测方法，其特征在于，所述敏感字段识别模型组合包括M个敏感字段识别模型，M为大于1的奇数；所述将各个目标字段输入到预先训练好的敏感字段识别模型组合中，并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果的步骤，包括：

将第i个目标字段分别输入到每个敏感字段识别模型中，获取所述每个敏感字段识别模型的模型输出结果，所述每个敏感字段识别模型的模型输出结果为第一模型输出结果或第二模型输出结果，所述第一模型输出结果用于表征所述第i个目标字段为第一敏感字段，所述第二模型输出结果用于表征所述第i个目标字段为非敏感字段；所述第i个目标字段为所述多个目标字段中的其中一个目标字段，i为正整数；

4.根据权利要求3所述的API的敏感数据泄露检测方法，其特征在于，所述M个敏感字段识别模型根据相应的M个待训练模型训练得到；所述方法还包括对所述M个待训练模型进行预先训练的步骤：

将所述多个样本字段转化为多个样本字段特征向量；

5.根据权利要求4所述的API的敏感数据泄露检测方法，其特征在于，所述M个待训练模型包括深度神经网络模型、支持向量机模型和随机森林模型。

6.根据权利要求4所述的API的敏感数据泄露检测方法，其特征在于，所述多个样本字段包括敏感样本字段集合和非敏感样本字段集合，所述构造多个样本字段的步骤，包括：

7.根据权利要求1至6任意一项所述的API的敏感数据泄露检测方法，其特征在于，还包括确定所述预设阈值的步骤：

8.一种API的敏感数据泄露检测系统，其特征在于，包括：

9.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的API的敏感数据泄露检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1至7中任意一项所述的API的敏感数据泄露检测方法的步骤。