CN111539021A

CN111539021A - 一种数据隐私类型识别方法、装置及设备

Info

Publication number: CN111539021A
Application number: CN202010337967.4A
Authority: CN
Inventors: 刘佳伟; 王德胜; 刘洋; 贾茜; 张谦; 郑鹏; 章鹏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-14

Abstract

本说明书实施例提供一种数据隐私类型确定方法、装置及设备。方案包括：获取待识别数据；采用多分类模型识别对待识别数据的隐私类型进行初步筛选，得到隐私类型集合；对于隐私类型集合中的每种隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合；采用识别规则集合中的各条规则对待识别数据进行识别，得到多个识别结果；根据多个识别结果，确定待识别数据的一个目标隐私类型。

Description

一种数据隐私类型识别方法、装置及设备

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种数据隐私类型识别方法、装置及设备。

背景技术

目前，随着物联网和移动互联网的迅猛发展，数据以几何级数的速度快速增长，而爬虫技术的日新月异，让数据极易暴露在不确定环境中，导致用户隐私数据的泄露，存在高度风险。例如：个人行踪记录泄露、“朋友圈”信息遭盗用等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。因此，隐私数据保护逐渐成为公众关切的焦点问题。

隐私数据往往贯穿于数据的生产、处理、存储、发布和使用的全过程。然而，数据库中在存储数据时，一般对于非隐私数据，不进行加密，直接存储在数据库中；对于隐私数据，进行加密再进行存储。但是，如果不同类型的隐私数据均采用同样的加密方式进行加密，或者对于数据库中潜在的隐私数据的字段未能及时识别出来进行加密，可能会导致隐私数据的泄露，从而对隐私数据拥有者的权益造成损害。

因此，需要提供一种更可靠的数据隐私类型识别方案。

发明内容

有鉴于此，本说明书一个或多个实施例提供了一种数据隐私类型识别方法、装置及设备，用于提高数据隐私类型的识别效率以及识别准确率。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种数据隐私类型识别方法，包括：

获取待识别数据；

采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合；

对于所述隐私类型集合中的每种所述隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合；

采用所述识别规则集合中的各条规则对所述待识别数据进行识别采用所述识别规则集合中的各条规则对所述待识别数据进行识别，得到多个识别结果；

根据所述多个识别结果，确定所述待识别数据的一个目标隐私类型。

本说明书实施例提供的一种数据隐私类型识别装置，包括：

数据获取模块，用于获取待识别数据；

多分类模型识别模块，用于采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合；

识别规则确定模块，用于对于所述隐私类型集合中的每种所述隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合；

规则识别模块，用于采用所述识别规则集合中的各条规则对所述待识别数据进行识别采用所述识别规则集合中的各条规则对所述待识别数据进行识别，得到多个识别结果；

目标隐私类型确定模块，用于根据所述多个识别结果，确定所述待识别数据的一个目标隐私类型。

本说明书实施例提供的一种数据隐私类型识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取待识别数据；

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现一种数据隐私类型识别方法。

本说明书一个实施例实现了能够达到以下有益效果：采用多分类模型对获取的待识别数据的隐私类型进行识别，得到隐私类型集合；并对于隐私类型集合中的每种隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合；然后采用识别规则集合中的各个规则对待识别数据进行识别，得到多个识别结果；根据所述多个识别结果，确定所述待识别数据的一个目标隐私类型。通过采用多分类模型进行初筛，并使用与隐私类型对应的识别规则进行二次筛选，能够提高数据隐私类型识别的准确率，提升数据隐私类型识别的效率，从而能够有效防范隐私数据的泄露。

附图说明

此处所说明的附图用来提供对本说明书一个或多个实施例的进一步理解，构成本说明书一个或多个实施例的一部分，本说明书的示意性实施例及其说明用于解释本说明书一个或多个实施例，并不构成对本说明书一个或多个实施例的不当限定。在附图中：

图1为本说明书实施例中一种数据隐私类型识别方法的整体示意图；

图2为本说明书实施例提供的一种数据隐私类型识别方法的流程示意图；

图3为本说明书实施例提供的对应于图2的一种数据隐私类型识别装置的结构示意图；

图4为本说明书实施例提供的对应于图2的一种数据隐私类型识别设备的结构示意图。

具体实施方式

为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。

隐私类型的识别，目的是为了更有针对性地对隐私数据进行加密，从而对隐私数据实施有效的保护。隐私数据保护首先需要从海量数据表中识别出潜在隐私数据字段；其次，针对识别出的隐私数据字段，利用相应的手段进行加密，从而有效防范隐私数据的泄露。

在实际的隐私类型识别中，可以利用规则对数据的隐私类型进行识别，例如：采用正则表达式对手机号进行识别。再比如：采用Luhn算法(Luhn algorithm)对银行卡号进行识别等。基于规则的方案在扫描数据库的时候，一般需要通过每一条规则来达到判断的效果，因此当隐私数据很多的情况下，数据隐私类型的识别效率较低，并且仅仅只依赖规则来识别数据隐私类型，在识别准确率上也会受到制约，例如当使用正则表达式识别纯数字的数据记录时，极有可能在数据库中出现长度相同但属于不同类别的纯数字记录，那么只用正则表达式无法有效的区分两者。

本方案中提供的隐私类型识别方法，在采用规则对隐私数据进行识别之前，可以采用多分类模型对待识别数据进行初筛，然后再采用初筛得到的隐私类型对应的识别规则进行识别，从而同时兼顾数据隐私类型识别的准确率和效率。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例中一种数据隐私类型识别方法的整体示意图。如图1所示，从数据库中进行数据采样，例如：从数据库的某个字段中抽取1000条数据进行预测。采用多分类模型对抽取的数据进行隐私类型预测，输出每条数据对应的隐私类型集合。针对每条数据，对于该条数据对应的隐私类型集合中的每种隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合；采用识别规则集合中的各个规则对该数据进行识别，得到识别结果之后，可以采用投票机制进行决策，如果通过判断确定该数据为隐私数据，则采用该数据的隐私类型对应的加密方法对该数据进行加密后保存在数据库中，如果该数据为非隐私数据，则不需要加密。

接下来，将针对说明书实施例提供的一种数据隐私类型识别方法结合附图进行具体说明：

图2为本说明书实施例提供的一种数据隐私类型识别方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图2所示，该流程可以包括以下步骤：

202：获取待识别数据。

需要说明的是，这里的待识别数据可以指的是一个字段对应的一条数据，例如：数据表中可以包含“姓名”、“年龄”、“手机号”、“身份证号”等多个字段，每个字段可以对应多条数据。在实际应用中，一个字段对应的字段属性应该是相同的，比如：“姓名”这一字段中包含的所有数据都是用户的姓名。

步骤204：采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合。

多分类模型可以是有监督学习中的一种算法，可以根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。具体地，多分类模型可以根据已知的训练集提供的样本数据，通过计算选择特征参数，创建判别函数对样本进行分类。具体地，这里的多分类模型可以包括：支持向量机(Support Vector Machine，SVM)，K近邻算法(K-NearestNeighbor，KNN)，长短时记忆网络(Long Short-Term Memory，LSTM)，卷积神经网络(Convolutional Neural Networks，CNN)等。

隐私类型可以表示数据属于隐私数据的具体类型。隐私数据(Private Data)即秘密数据，可以指的是不想被他人或无关人等获知的数据，从隐私数据的所有者的角度，可以将隐私数据分为个人隐私数据和共同隐私数据，其中个人隐私数据包括可以用来定位或者识别个人的信息(个人通信信息、个人身份信息、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。

需要说明的是，多分类模型具有识别多种隐私类型的功能，例如：采用分类模型可以识别出身份证号、银行卡号、手机号、IP地址、系统账号等多种隐私类型。

可以采用多分类模型进行初筛，确定待识别数据可能属于的隐私类型。例如：需要识别数据A的隐私类型，此时，采用多分类模型识别出数据A最有可能对应的隐私类型为：手机号、系统账号、电子邮箱。

从理论上讲，集合可以为空集。上述步骤中的隐私类型集合中可以包含一种隐私类型、也可以包含多种隐私类型，还可以不包含隐私类型。具体地，可以根据实际情况进行限定。

步骤206：对于所述隐私类型集合中的每种所述隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合。

隐私类型集合中的每种隐私类型都可以对应一种识别规则。例如：隐私类型集合S＝{身份证号，手机号，银行卡号}，其中，身份证号可以对应规则1，手机号可以对应规则2，银行卡号可以对应规则3。在实际应用中，手机号的识别规则可以是正则表达式，比如：手机号可以用正则表达式

“^1[3-9][0-9]{9}$”来表示，只要匹配该正则表达式的字段就可以确定是手机号字段。银行卡号的识别规则可以是Luhn算法(Luhn algorithm)，也称为“模10”(Mod 10)算法。

由于每种隐私类型都会对应一种识别规则，因此，对于隐私类型集合中的每种隐私类型，可以确定与该种隐私类型对应的识别规则，从而得到识别规则集合。

步骤208：采用所述识别规则集合中的各条规则对所述待识别数据进行识别，得到多个识别结果。

采用识别规则集合中的每一个规则对待识别数据进行识别，可以理解为采用每一条规则对待识别数据进行校验，得到待识别数据对应每种隐私类型的校验结果。例如：识别规则集合A＝{规则1，规则2，规则3}，待识别数据为数据X，其中，规则1对应的隐私类型为身份证号，规则2对应的隐私类型为手机号，规则3对应的隐私类型为银行卡号。采用规则1对数据X进行识别，数据X的校验结果为匹配；采用规则2对数据X进行识别，数据X的校验结果为不匹配；采用规则3对数据X进行识别，数据X的校验结果为不匹配。

步骤210：根据所述多个识别结果，确定所述待识别数据的一个目标隐私类型。

根据识别结果，可以确定待识别数据对应的目标隐私类型。其中，校验通过，可以表示校验通过的规则对应的隐私类型为待识别数据的目标隐私类型。

当然，在具体的实现过程中，也可以采用每条规则识别待识别数据，得到待识别数据属于每种隐私类型的概率值大小，然后根据概率值的大小来确定待识别数据的目标隐私类型，例如：可以将概率值最大的隐私类型确定为待识别数据对应的目标隐私类型。

得到每个隐私类型对应的概率值之后，再继续采用与每种隐私类型对应的识别规则与所述待识别数据进行匹配，得到“是”或者“否”的匹配结果；当所述匹配结果表示所述待识别数据与所述识别规则匹配时，将与所述识别规则对应的隐私类型确定为所述待识别数据的目标隐私类型。

图2中的方法，采用多分类模型对获取的待识别数据的隐私类型进行识别，得到隐私类型集合；并对于隐私类型集合中的每种隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合；然后采用识别规则集合中的各个规则对待识别数据进行识别，得到多个识别结果；根据所述多个识别结果，确定所述待识别数据的一个目标隐私类型。通过采用多分类模型进行初筛，并使用与隐私类型对应的识别规则进行二次筛选，能够提高数据隐私类型识别的准确率，提升数据隐私类型识别的效率，从而能够有效防范隐私数据的泄露。

基于图2的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

上述图2中的方法是对一条待识别数据的隐私类型进行识别的方法。在实际应用中，往往同一个字段中会包括成千上百条数据，在识别过程中，需要识别每条数据对应的隐私类型，最后根据每一条数据对应的隐私类型确定这些数据所在的同一字段对应的隐私类型。

所述待识别数据为待识别数据集合中的一条数据，对于所述待识别数据集合中的每条待识别数据，确定出每条待识别数据的目标隐私类型后，所述方法还包括：

统计各种目标隐私类型的数据的数量；

计算所述数量与所述待识别数据集合中的数据总数的比值，得到各种目标隐私类型对应的比值；

根据所述比值确定所述待识别数据集合对应的一个隐私类型。

需要说明的是，图2步骤中的待识别数据可以是属于待识别数据集合中的一条数据。在具体识别过程中，待识别数据集合中的每一条数据均可以采用图2中的方法确定每条数据对应的目标隐私类型。确定得到每条数据对应的目标隐私类型中之后，可以统计各种目标隐私类型的数据的数量。例如：待识别数据集合S＝{数据1，数据2，数据3，……数据10}，数据1-数据10采用图2中的方法识别得到各个数据对应的目标隐私类型之后，得到目标隐私类型为身份证号的数据有：数据1、数据3、数据6、数据7、数据8、数据10；目标隐私类型为手机号的数据有：数据2、数据4、数据5；目标隐私类型为银行卡号的数据有：数据9。可以看出，目标隐私类型为身份证号的数据有6条，目标隐私类型为手机号的数据有3条，目标隐私类型为银行卡号的数据有1条。

在统计了各种目标隐私类型的数据的数量之后，可以计算各种目标隐私类型的数据数量在待识别数据集合中的占比，即可以计算各种目标隐私类型的数据数量与所述待识别数据集合中的数据总数的比值。沿用上例，身份证号对应的比值为：6/10＝3/5，手机号对应的比值为：3/10＝3/10，银行卡号对应的比值为：1/10。

根据各种目标隐私类型对应的比值可以确定待识别数据集合对应的一个隐私类型。更为具体地，可以采用投票机制来确定待识别数据集合对应的根据比值确定待识别数据集合对应的一个隐私类型时，可以包括以下实现方法：

方法1、当比值超过预设阈值的目标隐私类型的类别数量为1时，将比值超过预设阈值的目标隐私类型确定为待识别数据集合对应的隐私类型。

具体地，所述根据所述比值确定所述待识别数据集合对应的一个隐私类型，具体可以包括：

确定所述比值超过预设阈值的目标隐私类型的类别数量；

当所述类别数量为1时，将所述比值超过预设阈值的目标隐私类型确定为所述待识别数据集合对应的一个隐私类型。

需要说明的是，在确定了各种目标隐私类型对应的数据数量与待识别数据集合中数据总数的比值之后，可以设置一个预设阈值，确定比值超过预设阈值的类别数量。

比如：以数据库中的字段为例，从数据库的X字段中抽取的1000条数据中，对应的目标隐私类型有：身份证号、手机号、银行卡号、注册账号，其中，目标隐私类型属于身份证号的数据有800条、目标隐私类型属于手机号的数据有30条，目标隐私类型属于银行卡号的数据有70条，目标隐私类型属于注册账号的数据有100条，计算比值为：身份证号对应的数据的比值＝800/1000＝4/5，手机号对应的数据的比值＝30/1000＝3/100，银行卡号对应的数据的比值＝70/1000＝7/100，注册账号对应的数据的比值＝100/1000＝1/10，假设预设阈值为1/2，比值大于1/2的目标隐私类型为身份证号，此时，比值超过预设阈值的目标隐私类型的类别数量仅为1，可以将身份证号作为字段X的目标隐私类型。

方法二、当比值超过预设阈值的隐私类型的类别数量为0时，待识别字段对应的数据仅为非隐私数据，不需要进行加密。

具体地，所述确定所述比值超过预设阈值的目标隐私类型的类别数量之后，还可以包括：

当所述类别数量为0时，确定所述待识别数据集合中的数据为非隐私数据。

比如：从数据库的X字段中抽取的1000条数据中，对应的目标隐私类型有：手机号、订单号、注册账号以及身份证号，其中，属于身份证号的数据有200条、属于手机号的数据有300条，属于订单号的数据有300条，属于注册账号的数据有200条，计算比值为：身份证号对应的数据的比值＝200/1000＝1/5，手机号对应的数据的比值＝300/1000＝3/10，订单号对应的数据的比值＝300/1000＝3/10，注册账号对应的数据的比值＝200/1000＝1/5，假设比值的预设阈值为1/2，此时，没有满足预设阈值的隐私类型，即比值超过预设阈值的隐私类型的类别数量为0，可以认为该字段X对应的数据属于非隐私数据，字段X对应的数据不需要加密。

方法三、当比值超过预设阈值的目标隐私类型的类别数量为两种或两种以上时，将优先级最高的目标隐私类型作为待识别字段的隐私类型。

当所述类别数量大于或等于2时，获取所述比值超过预设阈值的各个目标隐私类型对应的预设优先级；

将所述预设优先级级别最高的目标隐私类型确定为所述待识别数据集合对应的一个隐私类型。

比如：从数据库的X字段中抽取的1000条数据中，对应的目标隐私类型有：身份证号、手机号、银行卡号、注册账号，其中，目标隐私类型属于身份证号的数据有500条、目标隐私类型属于手机号的数据有30条，目标隐私类型属于银行卡号的数据有70条，目标隐私类型属于注册账号的数据有400条，计算比值为：身份证号对应的数据的比值＝500/1000＝1/2，手机号对应的数据的比值＝30/1000＝3/100，银行卡号对应的数据的比值＝70/1000＝7/100，注册账号对应的数据的比值＝400/1000＝2/5，假设比值的预设阈值为3/10，满足预设阈值的目标隐私类型有身份证号和注册账号，假设身份证号的优先级比注册账号更高，此时，将身份证号作为字段X的目标隐私类型。

通过上述方法，可以更加准确地确定待识别数据集合对应的隐私类型，从而对隐私数据进行更好的保护。

在实际应用中，一个待识别数据集合可以对应数据表中的一列，待识别数据集合中的数据可以是数据表中某一列中的数据。数据库表中的每一列称作一个字段。表是由其包含的各种字段定义的，每个字段描述了它所含有的数据。创建一个数据库时，须为每个字段分配一个数据类型、最大长度和其它属性。字段可包含各种字符、数字甚至图形。因此，待识别数据集合中的数据也可以认为是数据表中的一个字段包含的数据。

可选的，所述待识别数据集合中的数据为同一字段的描述数据；

所述方法还可以包括：

针对包括多个字段的数据条目，对于每个字段，确定所述字段对应的目标隐私类型，直至确定出所述数据条目中的所有字段对应的隐私类型。

需要说明的是，上述方法中的数据条目可以指的是包含多个字段的一条数据记录。数据存储在数据库中时，可以确定一条数据记录中包含的字段，然后按照字段对数据进行存储；当然，也可以直接将一整条数据记录直接存储在数据库中。例如：数据库接收到的一条数据记录为：身份证号为X的周某于2019年10月10日在A市购买价值2000元的C商品，此时，可以将该条数据记录按照字段进行存储，具体地，可以按照：身份证号、姓名、日期、地点、价格、商品名称这些字段进行存储。也可以将整条记录直接存储在数据库中。

以数据库为例，数据表中包括多个字段，在扫描数据库的时候，会识别数据库中每个字段对应的目标隐私类型，直至将数据库中所有字段的目标隐私类型都识别出来为止。

实际应用中，在采用规则对待识别数据的隐私类型进行识别之前，可以先采用多分类模型对待识别数据的隐私类型进行初次筛选，这样，能够保证后续采用规则对待识别数据的隐私类型进行识别时，不需要将规则库中的每一条规则都对待识别数据进行识别。

具体地，所述采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合，具体可以包括：

采用所述多分类模型确定所述待识别数据对应的n种隐私类型的概率值；所述多分类模型是预先训练的用于计算待识别数据与n种隐私类型之间的归属概率的模型；

确定所述概率值大于预设阈值的多个隐私类型，记入所述隐私类型集合中。

需要说明的是，上述步骤中的隐私类型的种类数量n可以大于等于2，也可以大于等于本方案中，理论上多分类模型可以识别所有的隐私类型，但是在实际情况中，一般不可能穷尽所有隐私类型对待识别数据进行训练，因此，一个多分类模型的性能越好，识别准确性越高，但是识别的隐私类型种类可以根据具体的实际情况进行限定，比如：在某公司应用中，主要需要识别的隐私类型是：身份证号、银行卡号、系统账号，此时，该多分类模型可以是用于识别身份证号、银行卡号、系统账号的模型。

另外，上述步骤中的多分类模型可以指的是预先训练完成的，用于计算待识别数据与n种隐私类型之间的归属概率的模型。该多分类模型可以识别得到n种隐私类型。具体地，采用多分类模型计算得得到识别数据与n种隐私类型之间的归属概率之后，可以将概率值大于预设阈值的隐私类型全部记入待识别数据的隐私类型集合中。例如：待识别数据为数据A，采用多分类模型对数据A的隐私类型进行识别时，识别得到的结果是：身份证号0.8、手机号0.4、银行卡号0.7、系统账号0.6、邮箱地址0.3、……用户密码0.7，假设预设阈值为0.5，可以将大于0.5的隐私类型记入隐私类型集合中，得到数据A的隐私类型集合S＝{身份证号，银行卡号，系统账号，用户密码}。

也可以继续确定所述概率值大于预设阈值的多个隐私类型，得到备选隐私类型集合；从所述备选隐私类型集合中按照所述概率值从大到小的顺序取出预设数目个隐私类型，记入所述隐私类型集合中，比如上述公式中，取出前K个记入隐私类型集合中，从而提高召回率。

延用上例，采用多分类模型对数据A的隐私类型进行识别时，识别得到的结果是：身份证号0.8、手机号0.4、银行卡号0.9、系统账号0.6、邮箱地址0.3、……用户密码0.7，假设预设阈值为0.5，可以将大于0.5的隐私类型有身份证号，银行卡号，系统账号，用户密码，按照概率值的大小从大到小排序：银行卡号，身份证号，用户密码，系统账号。设定需要取出3个隐私类型记入隐私类型集合中，那么隐私类型集合S＝{银行卡号，身份证号，用户密码}。

当然，需要说明的是，在确定待识别数据的隐私类型集合时，上述步骤中设置的与概率值进行比较的预设阈值的大小可以根据实际情况进行设定，从大于预设阈值的隐私类型中取出多少个隐私类型记入隐私类型集合，也可以根据实际应用场景进行设定，本方案对此不进行具体限定。

假设系统设置的隐私数据类型为m种，使用多分类模型进行初筛，判断某条记录最可能属于的某k类隐私类型{c₁，c₂，…,c_k}其中k<m，然后分别用这k类对应的规则{r₁，r₂,…,r_k}去对记录做二次验证，这样一来，从效率上看，采用多分类模型进行初筛后仅需过k种规则，相比之前的m种规则，效率上得到提高。其次，基于多分类的隐私数据识别框架识别数据的隐私类型，利用多分类模型做初筛，采用规则进行二次筛选，相当于有二次验证的行为，可以提高隐私类型识别的准确率。

在识别得到待识别隐私数据集合的目标隐私类型之后，还可以包括：

确定所述隐私类型对应的加密方法；

采用所述加密方法对所述待识别数据集合中的所有数据进行加密，得到加密后的隐私数据。

确定隐私类型的目的，是为了对相应的隐私数据进行加密，以防止隐私数据的泄露。在加密的方法中，不一样的隐私类型可以对应不同的加密方法，因此，在确定了待识别数据集合的隐私类型之后，可以确定隐私类型对应的加密方法，采用相应的加密方法对待识别数据集合中的数据进行加密。

其中，需要说明的是，数据加密可以指通过加密算法和加密密钥将明文转变为密文，而解密则是通过解密算法和解密密钥将密文恢复为明文。

在实际应用中，加密后的数据可以不显示，只有在用户输入相应的密钥之后才进行显示，比如：在数据表中需要对用户的身份证号以及手机号进行加密，加密后，用户的身份证号字段以及手机号字段中包含的数据将隐藏，当接收到用户输入的正确密码指令时，为用户显示身份证号以及手机号字段中包含的描述数据。

当然，也可以仅对需要加密的数据中的部分信息进行掩盖，比如：需要对用户的身份证号以及手机号进行加密时，可以直接采用如“******”的符号代替身份证号中的部分数字，例如：张三，身份证号为：5303******12。

通过上述方法，利用密码技术对信息进行加密，实现信息隐蔽，从而起到保护信息的安全的作用。

当然，在实际应用中，上述步骤中用到的多分类模型可以预先进行训练，具体地，所述采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合之前，还可以包括：

获取已知隐私类型的数据训练样本；

采用所述数据训练样本对初始多分类模型进行训练，得到所述初始多分类模型对所述数据训练样本的识别结果，所述识别结果为所述数据训练样本中各条数据与各种隐私类型之间的归属概率；

根据所述识别结果与已知的隐私类型，计算交叉熵损失函数；

根据所述交叉熵损失函数调整所述多分类模型对应的参数，直至所述交叉熵损失函数收敛为止，得到训练完成的多分类模型。

需要说明的是，数据训练样本中的每条数据都是已知隐私类型的数据，例如：训练样本中可以包括数据1-数据1000，数据1的隐私类型为家庭住址、数据2的隐私类型为IP地址，数据3的隐私类型为身份证号，……，数据100的隐私类型为手机号。采用数据训练样本中的数据对初始的多分类模型进行训练，可以得到数据训练样本中的各条数据与各种隐私类型之间的归属概率。以身份证号和手机号为例，可以构建训练集，该训练集中每一个训练样本由两部分组成，前面是数据(身份证or手机号)，后面是分类类别标签(label)，比如身份证为0，手机号为1，那么在训练过程中，可以读取训练样本然后进行预测，针对训练样本中的每条数据，输出两个预测值，比如一条数据

“320XXXXX”，输入初始多分类模型中，输出的预测值为(0.90，0.10)，解释为这条数据为身份证号的概率为0.9，为手机号的概率为0.1，然后根据这个输出的概率与训练样本中标注的标签，计算交叉熵损失函数，然后使用反向传导来训练整个神经网络的权重，直到这个交叉熵损失函数的值达到收敛为止。

为了更加清楚地描述图2对应的实施方案，可以采用以下的具体实施例对方案作进一步说明：

在进行隐私数据保护时，海量数据表中包含多个字段，首先可以从海量数据表中识别出潜在隐私数据的字段，其次，针对识别出的隐私数据的字段，利用对应的加密手段对隐私数据的字段进行加密，从而有效防范隐私数据的泄露。

在对隐私数据进行加密时，一般是根据隐私数据的类型查找隐私类型对应的加密方法对其进行加密，因此，需要首先识别得到隐私数据的隐私类型，比如：需要对数据A进行加密，需要先识别数据A的隐私类型，识别得到数据A的隐私类型为身份证号，此时，可以选择对身份证号进行加密的方法对数据A进行加密。

因此，具体在识别数据的隐私类型时，可以采用以下技术方案：

以识别数据表中的数据为例，数据库中包括海量的数据表，每张数据表中包括数十个字段，在进行识别时，对数据库中的数据进行扫描，进行数据采样，比如：从数据库中的某一个字段下抽取1000条数据进行预测，针对任意一条抽样数据A，会进行如下操作：

将需要识别的抽样数据A作为待识别数据，假设系统设置的隐私类型有m种，采用训练完成的多分类模型对数据A的隐私类型进行初步识别，得到数据A对应的各种隐私类型的概率，比如：采用训练完成的多分类模型对数据A进行初步识别后，多分类模型的输出预测值为：(0.5、0.3、0.1、0.1)，表示数据A为身份证号的概率为0.5、为银行卡号的概率为0.3、为手机号的概率为0.1为系统账号的概率为0.1，假设将概率大于等于预设阈值(0.3)的隐私类型作为数据A最有可能属于的隐私类型，此时，通过多分类模型进行初步筛选，确定数据A属于身份证号的概率为0.5，属于银行卡号的概率为0.3。

采用多分类模型对数据A的隐私类型进行初筛之后，可以确定数据A对应的隐私类型集合为{身份证号，银行卡号}。接下来，根据每种隐私类型对应的识别规则对数据A的隐私类型进行二次筛选，具体过程如下：

沿用上述例子，隐私类型集合中包括身份证号和银行卡号，可以采用身份证号对应的识别规则对数据A进行识别，采用银行卡号对应的识别规则对数据A进行识别，得到识别结果。

此时，需要说明的是，识别结果可以是各个识别规则对数据A进行识别之后，得到的隐私类型对应的概率值，例如：身份证号对应的识别规则为规则1，银行卡号的识别规则为规则2，采用规则1和规则2对数据A进行识别，得到数据A为身份证号的概率值为0.8，为银行卡号的概率值为0.2。此时，可以将身份证号作为数据A的隐私类型。

识别结果还可以表示数据A与各个规则是否匹配，比如：通过判断发现，规则1与数据A匹配，规则2与数据A不匹配，此时，可以将该规则1对应的隐私类型(身份证号)作为数据A的隐私类型。

采用上述方法对1000条数据中的素有数据进行识别，识别得到1000条数据对应的隐私类型，然后根据投票机制，统计1000条数据中每个隐私类型得到的票数，得票数最高的隐私类型作为备选隐私类型，最后如果分到备选隐私类型的记录数占抽样数据(1000条)的占比超过预设阈值，则认为该字段为备选隐私类型。

在识别出包含1000条数据的字段对应的隐私类型之后，可以采用隐私类型对应的加密方式对该字段中的1000条数据进行加密，比如：识别得到该字段的隐私类型为身份证号之后，可以采用针对身份证号进行加密的方法对待识别数据进行加密。

通过上述方法，本方案可以实现的技术效果是：

1)采用多分类模型进行初筛后仅需通过k种规则，相比之前的m种规则，效率上得到提高。其次，基于多分类的隐私数据识别框架识别隐私数据的隐私类型，利用多分类模型做初筛，采用规则进行二次筛选，相当于有二次验证的行为，可以提高隐私类型识别的准确率；

2)能够从海量数据库中快速识别出潜在的用户关注或预设的隐私数据类型，进而进行有针对性的加密，从而有效避免隐私数据的泄露问题。

需要说明的是，如果当语义复合类型数据和语义单一类型数据混合出现的时候，可以使用多分类模型和命名实体识别(Named Entity Recognition,简称NER)模型来进行初筛，针对单一类型用多分类，针对复合类型用NER模型，例如：对于像地址，人名，公司名等命名实体，可以利用NER进行初筛。

在某些应用场景中，也可以采用元数据对数据的隐私类型进行初次筛选，然后再采用规则对隐私数据的隐私类型进行细筛。对于某些无法用明显的规则进行识别的数据，也可以采用语言模型来进行识别。具体可以根据实际应用场景进行合理使用，本说明书实施例对此不进行具体限定。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图3为本说明书实施例提供的对应于图2的一种数据隐私类型识别装置的结构示意图。如图3所示，该装置可以包括：

数据获取模块302，用于获取待识别数据；

多分类模型识别模块304，用于采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合；

识别规则确定模块306，用于对于所述隐私类型集合中的每种所述隐私类型，确定与该种隐私类型对应的识别规则，得到识别规则集合；

规则识别模块308，用于采用所述识别规则集合中的各条规则对所述待识别数据进行识别采用所述识别规则集合中的各条规则对所述待识别数据进行识别，得到多个识别结果；

目标隐私类型确定模块310，用于根据所述多个识别结果，确定所述待识别数据的一个目标隐私类型。

可选的，所述待识别数据可以为待识别数据集合中的一条数据，对于所述待识别数据集合中的每条待识别数据，确定出每条待识别数据的目标隐私类型后，所述装置还可以包括：

统计模块，用于统计各种目标隐私类型的数据的数量；

比值计算模块，用于计算所述数量与所述待识别数据集合中的数据总数的比值，得到各种目标隐私类型对应的比值；

隐私类型确定模块，用于根据所述比值确定所述待识别数据集合对应的一个隐私类型。

可选的，所述待识别数据集合中的数据可以为同一字段的描述数据；

所述装置还可以用于：

可选的，所述多分类模型识别模块304，具体可以包括：

隐私类型概率确定单元，用于采用所述多分类模型确定所述待识别数据对应的n种隐私类型的概率值；所述多分类模型是预先训练的用于计算待识别数据与n种隐私类型之间的归属概率的模型；

隐私类型集合确定单元，用于确定所述概率值大于预设阈值的多个隐私类型，记入所述隐私类型集合中。

可选的，所述规则识别模块308，具体可以用于：

采用所述识别规则集合中的每条识别规则对所述待识别数据进行匹配识别，得到每条识别规则对所述待识别数据的识别结果；

所述目标隐私类型确定模块310，具体可以用于：

当所述识别结果表示所述识别规则与所述待识别数据匹配时，将与所述识别规则对应的隐私类型确定为所述待识别数据的一个目标隐私类型。

可选的，所述装置，还可以包括：

加密方法确定模块，用于确定所述隐私类型对应的加密方法；

加密模块，用于采用所述加密方法对所述待识别数据集合中的所有数据进行加密，得到加密后的隐私数据。

可选的，所述隐私类型确定模块，具体可以包括：

类别数量确定单元，用于确定所述比值超过预设阈值的目标隐私类型的类别数量；

第一隐私类型确定单元，用于当所述类别数量为1时，将所述比值超过预设阈值的目标隐私类型确定为所述待识别数据集合对应的一个隐私类型。

可选的，所述隐私类型确定模块，还可以用于：

可选的，所述隐私类型确定模块，还可以包括：

隐私类型优先级确定单元，用于当所述类别数量大于或等于2时，获取所述比值超过预设阈值的各个目标隐私类型对应的预设优先级；

隐私类型第二确定单元，用于将所述预设优先级级别最高的目标隐私类型确定为所述待识别数据集合对应的一个隐私类型。

可选的，所述装置，还可以包括：

数据训练样本获取模块，用于获取已知隐私类型的数据训练样本；

识别模块，用于采用所述数据训练样本对初始多分类模型进行训练，得到所述初始多分类模型对所述数据训练样本的识别结果，所述识别结果为所述数据训练样本中各条数据与各种隐私类型之间的归属概率；

损失函数计算模块，用于根据所述识别结果与已知的隐私类型，计算交叉熵损失函数；

训练模块，用于根据所述交叉熵损失函数调整所述多分类模型对应的参数，直至所述交叉熵损失函数收敛为止，得到训练完成的多分类模型。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。图4为本说明书实施例提供的对应于图2的一种数据隐私类型识别设备的结构示意图。如图4所示，设备400可以包括：

至少一个处理器410；以及，

与所述至少一个处理器通信连接的存储器430；其中，

所述存储器430存储有可被所述至少一个处理器410执行的指令420，所述指令被所述至少一个处理器410执行。

所述指令可以使所述至少一个处理器410能够：

获取待识别数据；

基于同样的思路，本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下方法：

获取待识别数据；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims

1.一种数据隐私类型识别方法，包括：

获取待识别数据；

采用所述识别规则集合中的各条规则对所述待识别数据进行识别，得到多个识别结果；

2.如权利要求1所述的方法，所述待识别数据为待识别数据集合中的一条数据，对于所述待识别数据集合中的每条待识别数据，确定出每条待识别数据的目标隐私类型后，所述方法还包括：

统计各种目标隐私类型的数据的数量；

3.如权利要求2所述的方法，所述待识别数据集合中的数据为同一字段的描述数据；

所述方法还包括：

4.如权利要求1所述的方法，所述采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合，具体包括：

5.如权利要求1所述的方法，所述采用所述识别规则集合中的各条规则对所述待识别数据进行识别，得到多个识别结果，具体包括：

所述根据所述多个识别结果，确定所述待识别数据的一个目标隐私类型，具体包括：

6.如权利要求2所述的方法，所述根据所述比值确定所述待识别数据集合对应的一个隐私类型之后，还包括：

确定所述隐私类型对应的加密方法；

7.如权利要求2所述的方法，所述根据所述比值确定所述待识别数据集合对应的一个隐私类型，具体包括：

确定所述比值超过预设阈值的目标隐私类型的类别数量；

8.如权利要求7所述的方法，所述确定所述比值超过预设阈值的目标隐私类型的类别数量之后，还包括：

9.如权利要求7所述的方法，所述确定所述比值超过预设阈值的目标隐私类型的类别数量之后，还包括：

10.如权利要求1所述的方法，所述采用多分类模型识别所述待识别数据的隐私类型，得到隐私类型集合之前，还包括：

获取已知隐私类型的数据训练样本；

11.一种数据隐私类型识别装置，包括：

数据获取模块，用于获取待识别数据；

12.如权利要求11所述的装置，所述待识别数据为待识别数据集合中的一条数据，对于所述待识别数据集合中的每条待识别数据，确定出每条待识别数据的目标隐私类型后，所述装置还包括：

统计模块，用于统计各种目标隐私类型的数据的数量；

13.如权利要求11所述的装置，所述多分类模型识别模块，具体包括：

14.如权利要求11所述的装置，所述装置，还包括：

15.一种数据隐私类型识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待识别数据；

16.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至10中任一项所述的数据隐私类型识别方法。