CN111783126B

CN111783126B - 一种隐私数据识别方法、装置、设备和可读介质

Info

Publication number: CN111783126B
Application number: CN202010706285.6A
Authority: CN
Inventors: 刘佳伟; 章鹏; 王德胜; 贾茜; 刘洋; 张谦
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2022-04-29
Anticipated expiration: 2040-07-21
Also published as: CN111783126A; US11321486B2; US20220027505A1

Abstract

本说明书实施例公开了一种隐私数据识别方法、装置、设备和可读介质。方案包括：获取第一数据集的第一长度分布向量和第一字符分布统计信息，所述第一数据集为隐私数据样本的集合；获取第二数据集的第二长度分布向量和第二字符分布统计信息，所述第二数据集为待识别字段对应的至少部分数据样本的集合；计算所述第一数据集与所述第二数据集的长度分布相似度、字符分布相似度，并基于所述长度分布相似度和字符分布相似度确定所述待识别字段对应的数据是否为与所述第一数据集同类型的隐私数据。

Description

一种隐私数据识别方法、装置、设备和可读介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种隐私数据识别方法、装置、设备和计算机可读介质。

背景技术

现有技术中，当进行目标类型的数据识别时，通常可以采用与该类型对应的内置规则来进行识别，内置规则可以是特定的正则表达式或预先训练的多分类模型。然而，由于这些预先准备或训练的内置规则无法覆盖全部的数据类型，而当用户想要识别的数据并不具有对应的预设内置规则时，就无法实现对目标数据的识别。

由此，需要提供一种能够适应用户需求的、适用范围广的对目标数据的识别方法。

发明内容

本说明书实施例提供一种隐私数据识别的方法、装置、设备和计算机可读介质，以提供一种能够适应用户需求的、适用范围广的隐私数据识别方案。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种隐私数据识别方法，包括：获取第一数据集的第一统计量信息；所述第一数据集为隐私数据样本的集合；所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息；获取第二数据集的第二统计量信息；所述第二数据集为待识别字段对应的至少部分数据样本的集合；所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息；基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度；若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度；若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。

本说明书实施例提供的一种隐私数据识别装置，包括：第一获取模块，用于获取第一数据集的第一统计量信息；所述第一数据集为隐私数据样本的集合；所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息；第二获取模块，用于获取第二数据集的第二统计量信息；所述第二数据集为待识别字段对应的至少部分数据样本的集合；所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息；长度分布相似度确定模块，用于基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度；字符分布相似度确定模块，用于若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度；隐私数据确定模块，用于若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。

本说明书实施例提供的一种隐私数据识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取第一数据集的第一统计量信息；所述第一数据集为隐私数据样本的集合；所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息；获取第二数据集的第二统计量信息；所述第二数据集为待识别字段对应的至少部分数据样本的集合；所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息；基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度；若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度；若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现一种隐私数据识别方法。

本说明书一个实施例至少能够达到以下有益效果：获取指定隐私数据类型的第一数据集的第一统计量信息以及待识别字段对应的第二数据集的第二统计量信息，通过判断所述第二统计量信息与所述第二统计量信息之间的数据统计信息的相似度，可以确定所述待识别字段对应的数据是否为所述指定隐私数据类型的数据。该方案中，由于基于统计信息来识别隐私数据，无需预先进行数据打标，耗费的人力资源和计算机资源均较少；并且，由于可以基于指定的隐私数据来识别出同类型的隐私数据，能够识别的隐私数据类型不限于预设规则对应的隐私类型，适用范围更广。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种隐私数据识别方法的流程示意图；

图2为本说明书实施例中一种隐私数据识别方法的整体方案流程示意图；

图3为本申请的实施例中的决策流程的示意图；

图4为本说明书实施例提供的对应于图1的一种隐私数据识别装置的结构示意图；

图5为本说明书实施例提供的对应于图1的一种隐私数据识别设备的结构示意图。

具体实施方式

目前，当进行隐私数据识别时，用户可以根据想要识别的隐私数据的类型，采用相应的预设正则表达式或者相应的提前训练的多分类模型来进行识别。

正则表达式(Regular Expression)，又称正则表示式、正则表示法、规则表达式、常规表示法，其基于约定的语法规则，构建单个字符串来描述、匹配一系列符合某个句法规则的字符串。例如，对于手机号可以用正则表达式“^1[3-9][0-9]{9}$”来表示，只要匹配这个正则表达式的字段就可以被识别为手机号字段。目前，若采用基于规则的隐私数据识别方案，在扫描数据库时，会将数据库的抽样数据通过每一条正则表达式来判断隐私数据的类型，然后将所有抽样数据的识别结果进行汇总后，再做最终的判断。由于需要通过每一条规则来达到判断的效果，因此当隐私数据类型很多的情况下，匹配的效率非常低；并且，由于内置规则无法覆盖全部的隐私数据类型，适用范围非常受限，当用户想要识别的隐私类型没有相应的预设规则时，用户需求无法满足；再者，内置规则的撰写需要专业人士参与，人力资源损耗较大。

基于多分类模型(Multi-classification)的隐私数据识别方法，是有监督学习(Supervised Learning)方法的一种。通过预先标注的隐私数据类型，通过机器学习或深度学习算法学习多分类模型，然后对于需要检测的数据，过多分类模型，输出后验概率最大的类别作为待识别数据的隐私数据类型。该基于深度学习的多分类方法，需要预先标注数据，比较耗费人力成本；并且，多分类模型的训练需要耗费较多GPU或CPU资源。

现有技术中的隐私数据识别方案均属于被动识别方案，即，主要依靠系统内置规则(例如正则规则、多分类模型等)来识别隐私数据，用户在使用被动识别服务时，只能够挑选内置规则覆盖的隐私数据类型进行处理，会出现内置规则无法覆盖用户需求的情况。

在本申请的实施例中，提供了一种对隐私数据进行主动识别的方案。主动识别可以是指，在没有预先训练和提供用于识别某类型的隐私数据的识别模型(例如，正则规则、多分类模型、预言模型等)的情况下，用户实现对隐私数据的识别。用户可以指想要识别出隐私数据的人员。进行隐私数据主动识别的主要工作流程包括，由用户主动指定数据库中某些数据为隐私数据，然后算法或模型可以依据给定的数据学习出一定模式，进而从数据库中筛选出与该指定的数据模式相近或相同的数据，以便于针对性地进行加密处理，以保护隐私数据不被泄露。

本申请的实施例采用的是无监督学习(Unsupervised Learning)的方法，无需事先标记训练样本，基于统计的方法来自动对输入的数据进行分类或分群，对资源的依赖比较低，复杂度低，效率高，有望实现实时性的目标。本申请的实施例的方案，由于不依赖标注，属于无监督方案，可以同时适用于被动识别和主动识别，应用范围广。

为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。

应当理解，尽管在本说明书中可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例提供的一种隐私数据识别方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器或应用终端的程序。

如图1所示，该流程可以包括以下步骤：

步骤102：获取第一数据集的第一统计量信息；所述第一数据集为隐私数据样本的集合；所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息。

在本申请的实施例中，可以将隐私数据样本的集合称为第一数据集。在实际应用中，隐私数据样本可以是被选定的数据。在后续的步骤中，可以基于统计信息来确定与该选定的数据类似的数据，更具体地，可以从数据库中确定出与该选择的隐私数据样本的隐私类型一致的隐私数据。

可以将第一数据集的统计量信息称为第一统计量信息。

所述统计量信息中可以包括用于表示数据集中的数据样本的长度分布统计情况的长度分布向量，所述第一数据集的长度分布向量称为第一长度分布向量。长度分布向量中的各值可以表示数据集中不同长度的数据样本的数量。

所述统计量信息中还可以包括用于表示数据集中的数据样本中的字符分布统计情况的字符分布统计信息，所述第一数据集的字符分布统计信息称为第一字符分布统计信息。字符分布统计信息可以包含与数据集的样本长度对应数量的多个字符分布向量，例如，若数据集中的样本长度为N(N为正整数)，则该数据集的字符分布统计信息由N个字符分布向量构成。对于与一个长度位置对应的字符分布向量，该字符分布向量中的各值可以表示数据集中所有数据样本在该长度位置处出现的预设字符的统计量。其中，预设字符可以是预先设定的字符列表中的字符。

在本申请的实施例中，隐私数据的具体类型不被具体地限定，只要是用户想要识别和保护的数据均可称为隐私数据。例如，隐私数据可以包括用来定位或者识别个人的个人特征信息(例如，电话号码、地址、信用卡号等)、敏感信息(例如，个人健康情况、财务信息、公司重要文件等)等，也可以包括家庭隐私数据(例如，家庭年收入情况等)、法人隐私数据等。

隐私数据可以包括个人基本信息、个人身份信息、个人生物识别信息、网络身份标识信息、个人健康生理信息、个人教育工作信息、个人财产信息、个人通信信息、联系人信息、个人上网记录、个人常用设备信息、个人位置信息等。

其中，个人基本信息类隐私数据可以包括个人姓名、生日、性别、民族、国籍、家庭关系、住址、个人电话号码、电子邮箱等具体隐私类型。个人身份信息类隐私数据可以包括身份证、军官证、护照、驾驶证、工作证、出入证、社保卡、居住证等具体隐私类型。个人生物识别信息类隐私数据可以包括个人基因、指纹、声纹、眼纹、掌纹、耳廓、虹膜、面部特征等具体隐私类型。网络身份标识信息类隐私数据可以包括系统账号、IP地址、邮箱地址及与前述有关的密码、口令、口令保护答案、个人数字证书等具体隐私类型。个人健康生理信息类隐私数据可以包括个人因生病医治等产生的相关记录，如病症、住院志、医嘱单、检验报告、手术及麻醉记录、护理记录、用药记录、药物食物过敏信息、生育信息、以往病史、诊治情况、家族病史、现病史、传染病史等，以及与个人身体健康状况相关的其他信息；以及，体重、身高、肺活量等具体隐私类型。个人教育工作信息类隐私数据可以包括个人职业、职位、工作单位、学历、学位、教育经历、工作经历、培训记录、成绩单等具体隐私类型。个人财产信息类隐私数据可以包括银行账号、鉴别信息(口令)、存款信息(包括资金数量、支付收款记录等)、房产信息、信贷记录、征信信息、交易和消费记录、流水记录等，以及虚拟货币、虚拟交易、游戏类兑换码等虚拟财产信息等具体隐私类型。个人通信信息类隐私数据可以包括通信记录和内容、短信、彩信、电子邮件，以及描述个人通信的数据(通常称为元数据)等具体隐私类型。联系人信息类隐私数据可以包括通讯录、好友列表、群列表、电子邮件地址列表等具体隐私类型。个人上网记录类隐私数据可以指通过日志储存的操作记录，可以包括网站浏览记录、软件使用记录、点击记录等具体隐私类型。个人常用设备信息类隐私数据可以指用于描述个人常用设备基本情况的信息，可以包括硬件序列号、设备MAC地址、软件列表、唯一设备识别码(如IMEI/android ID/IDFA/OPENUDID/GUID、SIM卡IMSI信息等)等具体隐私类型。个人位置信息类隐私数据可以包括行踪轨迹、精准定位信息、住宿信息、经纬度等具体隐私类型。此外，隐私数据还可以包括婚史、宗教信仰、性取向、未公开的违法犯罪记录等具体隐私类型。

以上罗列的信息仅是作为本申请的实施例可识别的隐私数据的示例，并不限于上述示例。

步骤104：获取第二数据集的第二统计量信息；所述第二数据集为待识别字段对应的至少部分数据样本的集合；所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息。

在本申请的实施例中，可以将待识别的数据样本的集合称为第二数据集，更具体地，可以将数据库中待识别字段对应的至少部分数据样本的集合称为第二数据集。其中，字段可以指是数据库中的表字段。可以将第二数据集的统计量信息称为第二统计量信息。所述统计量信息中可以包括长度分布向量和字符分布统计信息，所述第二数据集的长度分布向量称为第二长度分布向量，所述第二数据集的字符分布统计信息称为第二字符分布统计信息。

在可选的实施例中，当识别一个目标字段是否为隐私字段时，可以基于该目标字段对应的至少部分数据来识别。在实际应用中，可以获取目标字段对应的数据中不小于预定数量的数据，或者，可以是获取目标字段对应的数据中不小于预定比例的数据。可选地，获取的所述多条数据也可以同时满足不小于预定数量且不小于预定比例。将被识别的样本数量设置为满足不小于预定数量和/或预定比例的条件，可以进一步提升基于这些样本得到的对所述目标字段是否包含隐私数据的判断结果的准确性。

步骤106：基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度。

本申请的至少一个实施例基于假设：同种数据类型的数据在长度分布上是相似的。因此，可以基于第二数据集与第一数据集的长度分布向量之间的相似度，来确定所述第二数据集是否为与所述第一数据集同类型的数据。

在实际应用中，在计算字符分布相似度之前考虑样本长度分布信息，具有高度的容错性，即便在第一数据集中出现噪声样本的情况下，该数据识别方案也能显示足够的鲁棒性；并且，对于长度分布信息与第一数据集中不一致的第二数据集，无需进行后续的字符分布信息统计信息的识别，相当于进行粗筛，提升隐私数据识别的效率，节约计算资源。

步骤108：若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度。

本申请的至少一个实施例基于假设：同种数据类型的数据在字符分布上是相似的。因此，可以基于第二数据集与第一数据集的字符分布统计信息之间的相似度，来确定所述第二数据集是否为与所述第一数据集同类型的数据。

在实际应用中，在基于统计量信息来识别隐私数据的过程中，由于考虑了数据样本每个位置的字符信息，考虑的细节更加多样化，相当于对识别结果进行细筛，识别的准确率更高。

步骤110：若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。

具体地，当所述第一数据集中的数据为指定隐私类型的数据样本的集合时，步骤110中可以将所述待识别字段对应的数据确定为所述指定隐私类型的数据。

应当理解，本说明书一个或多个实施例所述的方法中，部分步骤的顺序可以根据实际需要调整，或者可以省略部分步骤

图1中的方法，基于同种数据类型在长度分布和字符分布上都应该保持相近这一假设，通过计算已知隐私数据集的长度分布和字符分布统计量信息与待识别数据集的长度分布和字符分布统计量信息之间的相似度，来确定待识别数据集中的数据是否为隐私数据。

本申请实施例的方案是无监督识别的方案，基于样本的统计信息来进行识别，无需进行大量的人工标注，对计算资源的依赖较低；并且，由于复杂度低，计算量小，效率较高，可以实现准实时识别。

本申请中至少一个实施例的主要逻辑是，通过提取数据集的长度分布信息和每个位置的字符分布信息来达到鉴别隐私数据的目的，既可以预先提取数据统计量特征，然后依据被动识别的流程加以利用，也可以嵌套在主动识别的流程中，适用范围广，可以适用于对用户自选隐私类型数据的识别。

基于图1的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

所述获取第一数据集的第一统计量信息(步骤102)之前，还可以包括：获取用户选定的第一数据集；确定所述第一数据集的第一统计量信息。所述获取第二数据集的第二统计量信息(步骤104)之前，还可以包括：获取待识别字段对应的至少部分数据样本构成的第二数据集；确定所述第二数据集的第二统计量信息。

本申请的实施例的方案可以应用于用户主动识别的场景。在实际应用中，当用户已知一些隐私数据，且想要识别出与所述已知的隐私数据的类似的数据时，可以选定所述隐私数据作为第一数据集的数据。以结构化存储的数据库为例，当已知某字段为隐私字段，即该字段对应的数据为隐私数据时，可以选定该字段对应的数据作为第一数据集的数据。从用户的角度，可以选定一个或多个字段的数据作为第一数据集。

从程序的角度，可以获取用户选定的第一数据集并确定所述第一数据集的第一统计量信息，并针对数据库中的其他字段确定第二统计量信息，然后执行步骤102至步骤110，以确定出数据库中的与该选定字段的数据隐私类型相同的隐私字段和相应的隐私数据。

在上述主动识别场景中，获取第一数据集并计算第一统计量信息的步骤，与获取第二数据集并计算第二统计量信息的步骤可以在同一设备上顺序地执行，更具体地，可以在用户进行隐私数据识别的过程中顺序地执行。

传统的隐私数据识别方案中，基于正则规则的识别方法需要预先撰写针对特定隐私类型的规则，基于多分类模型的识别方法需要提前标注大量样本数据并提前训练模型，这些方案只能应用于被动识别的场景，而本申请的实施例的方案，属于无监督方案，即便没有预先撰写的正则规则或预先训练的多分类模型，也可以基于用户选定的已知隐私数据，来方便地通过统计量信息来识别出类似的隐私数据，即，本申请的实施例的方案可以同时应用于主动识别和被动识别，应用范围更广。

本申请的实施例的方案应用于被动识别场景时，在实际应用中，可以直接为用户提供基于某类型的隐私数据计算得到的第一统计量信息，使得，用户可以利用该提供的第一统计量信息，来确定出具有与该第一统计量信息类似的统计量信息的数据。从用户的角度，可以选择获取特定类型的数据的第一统计量信息。

从程序的角度，可以根据用户的选择获取第一统计量信息，并针对数据库中的其他字段确定第二统计量信息，然后执行步骤102至步骤110，以确定出数据库中的与该特定类型的数据的类型相同的隐私字段和相应的隐私数据。

在上述被动识别场景中，获取第一数据集并计算第一统计量信息的步骤，与获取第二数据集并计算第二统计量信息的步骤可以在不同设备上执行，后者可以在用户进行隐私数据识别时执行，前者可以预先执行。

无论应用于主动识别场景或被动识别场景，由于基于统计量信息来进行隐私数据的识别，计算量小，节约大量的计算资源，并且耗时短，使得隐私数据的识别可以做到准实时。

在本申请的至少一个实施例中，确定第一数据集的第一统计量信息的方法与确定第二数据集的第二统计量信息的方法可以相同或相应。具体地，确定第一数据集的第一长度分布向量的方法与确定第二数据集的第二长度分布向量的方法可以相同或相应；确定第一数据集的第一字符分布统计信息的方法与确定第二数据集的第二字符分布统计信息的方法可以相同或相应。下面以第二数据集的第二统计量信息确定方法为例进行详细说明。

所述确定所述第二数据集的第二统计量信息可以包括确定所述第二数据集的所述第二长度分布向量，具体地：初始化第二长度分布向量，所述第二长度分布向量中第i个位置的值表示长度为i的数据样本的数量，其中，i为小于或等于所述第二长度分布向量的长度的正整数；遍历所述第二数据集中的数据样本，获取各数据样本的长度信息；根据所述各数据样本的长度信息，确定所述第二长度分布向量。

例如，给定第二数据集B，设定数据样本的最大长度为L。初始化长度分布向量为V_B＝[0,......,0]，向量V_B的长度为L，向量V_B的位置i处的值表示长度为i的数据样本的数量，1≦i≦L。依次扫描数据集B中的每个数据样本，对于任意b_i∈B，计算bi的长度，将V_B中对应位置的数值加1，最终可以得到长度分布向量V_B。同理，对于第一数据集A，可以得到长度分布向量V_A。

在本申请的至少一个实施例中，所述确定所述第二数据集的第二统计量信息可以包括确定所述第二数据集的第二字符分布统计信息，具体地：根据所述第二数据集中数据样本的长度，从所述第二数据集中确定至少一个子数据集，其中，同一子数据集中的数据样本具有相同的长度；对于各个子数据集，确定所述子数据集中数据样本的第二字符分布统计信息。

所述确定所述子数据集中数据样本的第二字符分布统计信息，具体可以包括：基于所述子数据集中数据样本包含的字符，对于所述子数据集中数据样本的各个长度位置，确定与所述长度位置对应的字符分布向量；基于与各个所述长度位置对应的所述字符分布向量，得到所述子数据集中数据样本的第二字符分布统计信息。

所述确定与所述长度位置对应的字符分布向量，具体可以包括：初始化第二字符分布向量，所述字符分布向量中的各值表示所述子数据集中数据样本在对应的所述长度位置处包含有预设字符的数量；确定所述子数据集中各数据样本在所述长度位置处的字符；据所述子数据集中各数据样本在所述长度位置处的字符，确定所述第二字符分布向量。

沿用上例，可以将第二数据集B按长度分类，长度相等的数据样本归为一类。针对某个类别B_n进行统计，n表示该类别的数据样本的长度。针对任意位置j∈[1，n]，初始化一个字符分布向量V_j＝[0,......,0]，V_j的长度为预设字符列表C的长度，其中，预设字符列表C中包含的字符可以是预先确定的，可选地，预设字符列表C中包含的字符可以是在隐私数据中的出现概率大于一定概率阈值的字符。依次扫描数据集合B_n中每个数据样本的每个位置，基于每个位置的字符，将V_j的对应位置的数值加1，最终可以得到字符分布统计信息Statistic(B_n)＝[V₁,......,V_n]。同理，对于第一数据集A中的每个类别A_m，可以得到Statistic(A_m)＝[V₁,......,V_m]。

图2为本说明书实施例中一种隐私数据识别方法的整体方案流程示意图。如图2所示，方案可以包括训练阶段和检测阶段。

在训练阶段，获取用户给定的训练数据样本(步骤202)，通过统计量提取器提取出该训练数据样本特有的统计量信息(步骤204)。可选地，将提取的统计量信息存储到统计量存储库(步骤206)。在本申请的实施例的训练阶段中，获取的用户给定的训练数据样本可以是隐私数据样本。如图2所示，规则存储库中存储的的规则_1至规则_n，可以对应于基于不同类型的隐私数据类型得到的统计量信息。

要说明的是，本申请的实施例提供的是无监督的隐私数据识别方案，不需要人工标注样本，此处的训练阶段不同于现有技术中基于标注的样本对例如多分类模型进行训练的过程。在本申请的实施例中，训练阶段可以与后续的检测阶段在相同或不同的设备上执行。

在检测阶段，遍历数据库中的每个字段，从测试字段下抽样出一定量的数据样本(步骤208)，送入统计量提取器中提取出统计量信息(步骤210)，然后将训练样本的统计量信息以及测试样本的统计量信息输入决策引擎，由决策引擎判断该测试字段是否与训练样本属于同一类型，若为同一类型，则判断该测试字段为隐私字段，若非同一类型，则判断该测试字段不是隐私字段(步骤212)。

如图2所示，本申请的至少一个实施例的技术构思包括，基于数据的统计量信息来识别隐私数据。具体地，当第一数据集中的数据为某隐私数据类型的数据时，若确定第二数据集与第一数据集的统计量信息相似，则可以确定该第二数据集中的数据也是该隐私数据类型的数据。

在实际应用的过程中，隐私数据的保护可以大致分为两个部分，以对数据库中的隐私数据进行保护为例，首先需要识别出数据库中的隐私数据字段，然后针对识别出的隐私数据字段，利用各种手段进行加密，从而有效地防止隐私数据泄露。如图2中所示，隐私数据的保护方案还可以包括对识别出的隐私数据进行数据脱敏处理(步骤214)。可选地，可以基于检测阶段的结果，对被识别为隐私字段的数据进行脱敏处理。可选地，可以基于检测阶段的结果，对识别出的隐私字段添加用于标识隐私数据的标签；随后，当带标签字段对应的数据被访问时，可以对被访问数据进行脱敏处理。

下面对图2中的决策引擎部分的流程进行进一步说明。图3为本申请的实施例中的决策流程的示意图。所述决策流程可以划分为基于长度分布进行判断和基于字符分布进行判断两个阶段。

如图3所示，所述确定所述第一数据集与所述第二数据集的长度分布相似度之前，还可以包括：确定所述第一数据集中数量最多的数据样本长度与所述第二数据集中数量最多的数据样本长度相同(步骤302)。

沿用上文的示例，假设子数据集A_m是第一数据集对应的数量最多的子数据集，子数据集B_n是第二数据集对应的数量最多的子数据集，在计算第一数据集A的子数据集A_m与第二数据集B的子数据集B_n之间的长度分布相似度和/或字符分布相似度之前，可以首先判断m与n是否相等，若判断结果为是，流程继续，若判断结果为否，流程结束。执行上述判断步骤的理由在于，本申请的实施例的方案是建立在同类型数据的长度分布应当一致或相近的算法假设基础上的，由此，对于样本长度不一致的两个数据集，通常认为不属于同一类型。在进行长度相似度判断和字符相似度判断等相对较复杂的计算前，执行前述判断步骤，相当于进行初筛，耗费资源量小，能够整体上提升隐私数据识别方案的效率。

在本申请的实施例中，可以采用KL距离来度量分布差异。KL距离是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称，也叫做相对熵(RelativeEntropy)。KL距离可以用于衡量相同事件空间里的两个概率分布的差异情况。

对于给定的分布P(x)和分布Q(x)，分布P(x)与分布Q(x)之间的KL距离可以定义如下：

KL距离KL(P,Q)的值越小，表示分布P(x)和分布Q(x)越相似；当两个概率分布P(x)和Q(x)完全相同时，相应的KL距离KL(P,Q)的值为0。

需要说明的是，在上述公式中，分布P(x)与分布Q(x)之间的KL距离被定义为分布P(x)相对于分布Q(x)的距离。在本申请的一个或更多个实施例中，第一长度分布向量与第二长度分布向量之间的第一KL距离，可以指第一长度分布向量相对于第二长度分布向量的距离；相应地，第一字符分布向量与第二字符分布向量之间的第二KL距离，可以指第一长度分布向量相对于第二长度分布向量的距离；相应地，第一数据集与第二数据集之间的相似度值，可以指第一数据集相对于第二数据集的相似度值。

如图3所示，所述基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度，具体可以包括：计算所述第一长度分布向量与所述第二长度分布向量之间的第一KL距离KL1(步骤304)。由此，所述确定所述长度分布相似度满足第一预设条件，具体可以包括：确定所述第一KL距离KL1小于或等于第一KL阈值KL_len(步骤306)。

沿用上文的示例，计算所述第一长度分布向量与所述第二长度分布向量之间的第一KL距离KL1，即，计算第一长度分布向量V_A与第二长度分布向量V_B之间的第一KL距离KL(V_A,V_B)。然后，判断第一KL距离KL(V_A,V_B)是否小于或等于第一KL阈值KL_len；若是，则说明第一数据集A与第二数据集B的样本长度分布一致，为同一类型的数据，流程继续；若否，则说明第一数据集A与第二数据集B的样本长度分布不一致，不是同一类型的数据，流程结束。

如图3所示，所述基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度，具体可以包括：确定至少一个数据组，每个所述数据组包括一个第一子数据集和一个第二子数据集，同一数据组中的所述第一子数据集的数据样本长度与所述第二子数据集的数据样本长度相同，所述第一子数据集中的数据样本选自所述第一数据集，所述第二子数据集中的数据样本选自所述第二数据集；对于所述至少一个数据组中的各数据组，计算所述第一子数据集的第一字符分布统计信息与所述第二子数据集的第二字符分布统计信息之间的子相似度值；基于所述至少一个数据组中各数据组对应的子相似度值，确定所述第一数据集与所述第二数据集之间的相似度值。

更具体地，所述计算所述第一子数据集的第一字符分布统计信息与所述第二子数据集的第二字符分布统计信息之间的子相似度值，可以包括：对于所述第一子数据集和所述第二子数据集的各长度位置，计算第一字符分布向量与第二字符分布向量之间的第二KL距离，得到多个第二KL距离(步骤308)；确定所述多个第二KL距离中小于或等于所述第二KL阈值的第二KL距离的第一数量；计算所述第一数量与所述多个第二KL距离的总数量的第一比值，作为所述子相似度值。其中，对于任一长度位置，若第二KL距离小于或等于第二KL阈值，则意味着第一子数据集与第二子数据集在该位置处的字符分布一致；所述比值表示第一子数据集与第二子数据集中字符分布一致的位置的比例，即，第一子数据集与第二子数据集的字符分布一致的程度。

沿用上文的示例，对于Statistic(A_m)和Statistic(B_n)的每一个位置的字符分布向量计算第二KL距离，如果该第二距离小于或等于第二KL阈值KL_char，则认为该位置处的字符分布一致。最终，根据字符分布一致的位置数量占样本长度的比例是否超过覆盖率阈值O(步骤310)来判断待识别数据与已选定数据是否为同类型的数据。

在一个可选的实施例中，所述确定所述第一数据集与所述第二数据集之间的相似度值，具体可以包括：将满足预定条件的一个数据组对应的子相似度值确定为所述第一数据集与第二数据集之间的相似度值。由此，所述确定字符分布相似度满足第二预设条件，具体可以包括：确定所述相似度值大于预设相似度阈值。可选地，所述满足预定条件可以是所述至少一个数据组中包括该一个数据组。可选地，所述满足预设条件的数据组可以是所述至少一个数据组中数据样本的数量最多的数据组。

在上述将满足预定条件的一个数据组对应的子相似度值确定为所述第一数据集与第二数据集之间的相似度值的方案中，计算该满足预定条件的数据组的字符分布一致的位置数量占样本长度的比例，判断该比例是否超过覆盖率阈值O，若是，则认为数据集A和数据集B属于同一类型，若否，则不是同一类型。在该方案中，基于多个数据组中的一个数据组来计算子相似度值并作为第一数据集与第二数据集最终的字符分布相似度值，一定程度上节约了计算资源，提高了计算效率。尤其，在不同数组的数据量分布不均的情况下，可以减少干扰信息，提升了数据识别的鲁棒性。

在另一可选的实施例中，所述确定所述第一数据集与所述第二数据集之间的相似度值，具体可以包括：基于所述至少一个数据组中两个或更多个数据组对应的子相似度值，计算所述第一数据集与所述第二数据集之间的相似度值。更具体地，可以基于所述至少一个数据组中两个或更多个数据组对应的子相似度值以及所述两个或更多个数据组对应的投票加权值，计算所述第一数据集与所述第二数据集之间的相似度值。由此，所述字符分布相似度满足第二预设条件，具体可以包括：确定所述相似度值大于预设相似度阈值。

在该另一可选的方案中，对于类别A_m1、......、A_mk以及类别B_n1、......、B_nk，相应的字符分布统计信息为Statistic(A_m1)、......、Statistic(A_mk)以及Statistic(B_n1)、......、Statistic(B_nk)。对于任一组数据集A_mk和数据集B_nk，可以基于Statistic(A_mk)与Statistic(B_nk)计算其子相似度值，最终，通过各组数据集对应的子相似度值计算得到Statistic(A_m)与Statistic(B_n)的相似度值，进而基于所述相似度值确定数据集A与数据集B是否属于同一类型。在该方案中，基于多个数据组的子相似度值来确定第一数据集与第二数据集的字符分布相似度，提高了识别结果的准确率。尤其，在各数据组的数据量分布均衡的情况下，提升识别结果准确性的效果更为显著。

在又一可选的实施例中，所述确定所述第一数据集与所述第二数据集之间的相似度值，具体可以包括：确定所述至少一个数据组中所述子相似度值大于预设相似度阈值的数据组的数量与所述至少一个数据组中数据组的总数量的第二比值。由此，所述字符分布相似度满足第二预设条件，具体可以包括：所述第二比值大于预设比值。

在该又一可选的方案中，对于类别A_m1、......、A_mk以及类别B_n1、......、B_nk，相应的字符分布统计信息为Statistic(A_m1)、......、Statistic(A_mk)以及Statistic(B_n1)、......、Statistic(B_nk)。可以基于Statistic(A_m1)与Statistic(B_n1)确定数据集A_m1和数据集B_n1是否属于同一类型，同理，确定数据集A_mk与数据集B_nk是否属于同一类型。最终，通过投票确定数据集A与数据集B是否属于同一类型。

在本申请的至少一个实施例中，所述基于所述第一长度分布向量和所述第二长度分布向量确定所述第一数据集与所述第二数据集的长度分布相似度，以及所述基于所述第一字符分布统计信息和所述第二字符分布统计信息确定所述第一数据集与所述第二数据集的字符分布相似度之前，还可以包括：将第一长度分布向量、第二长度分布向量、第一字符分布统计信息中各个位置的向量以及第二字符分布统计信息中各个位置的向量，均进行归一化处理。沿用上例，可以在执行决策模块的各个判断步骤前，对V_A、V_B、Statistic(A_m)各个位置的向量、Statistic(B_n)各个位置的向量分别进行归一化处理。

返回参照图2，在本申请的至少一个实施例中，所述将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据之后，还可以包括：对所述待识别字段对应的数据进行脱敏处理。具体地，可以采用预设的数据脱敏方法，对所述待识别字段对应的数据进行脱敏处理。更具体地，可以在接收到对所述待识别字段对应的数据的访问请求时，对所述被访问的数据进行脱敏处理，并向数据请求方反馈脱敏处理后的数据。

在可选的实施例中，所述预设的数据脱敏方法可以包括：掩盖所述隐私数据中的至少部分字符；或，采用所述隐私数据的哈希值替换所述隐私数据；或，保持数据长度不变，替换所述隐私数据的至少部分字符；不限于此。

在实际应用中，对于各个不同类型的隐私数据，可以相同的或不同的预设脱敏方式对所述隐私数据进行脱敏处理。作为示例，对于手机号类型的隐私数据，可选地，可以采用掩盖所述隐私数据中的至少部分字符的方式，例如将手机号“18866668888”脱敏后为“188*****888”；可选地，也可以采用所述隐私数据的哈希值替换所述隐私数据，例如使用Hash(34240118600913257X)的值替换身份证号“34240118600913257X”。进行隐私数据脱敏的方式不限于上述示例。

在本申请的至少一个实施例中，所述将所述待识别字段对应的数据确定为与所述第一数据集的数据同类型的隐私数据之后，还可以对所述待识别字段添加标签。所述标签可以用于表示所述待识别字段对应的数据是否为隐私数据。可以将对应数据为隐私数据的字段称为隐私字段。可选地，可以仅对隐私字段添加用于表示隐私字段的标签，而不对非隐私字段添加标签。可选地，可以对隐私字段添加用于表示隐私字段标签，并对非隐私字段添加表示非隐私字段标签。由此，当被标识为隐私字段的数据被访问时，可以基于隐私字段的标签，采用预设的脱敏方法对所述被访问的数据进行脱敏处理。

上述方案中，在隐私数据被请求时，通过对被请求的隐私数据进行脱敏处理，防止隐私数据被泄露，保护了隐私数据的安全。

在本申请的一个或更多个实施例中，所述第一数据集中的数据样本和所述第二数据集中的数据样本的语种类型包括英文、法文或中文，且所述第一数据集中的数据样本和所述第二数据集中的数据样本的语种类型相同。例如，所述第一数据集中的数据样本和所述第二数据集中的数据样本的语种类型均为英文。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图4为本说明书实施例提供的对应于图1的一种隐私数据识别装置的结构示意图。如图4所示，该装置可以包括：

第一获取模块402，用于获取第一数据集的第一统计量信息；所述第一数据集为隐私数据样本的集合；所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息。

第二获取模块404，用于获取第二数据集的第二统计量信息；所述第二数据集为待识别字段对应的至少部分数据样本的集合；所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息。

长度分布相似度确定模块406，用于基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度。

字符分布相似度确定模块408，用于若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度。

隐私数据确定模块410，用于若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。

基于图4的装置，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

在本申请的至少一个实施例中，所述装置还可以包括第一统计量信息确定模块，用于获取用户选定的第一数据集；确定所述第一数据集的第一统计量信息。

所述装置还可以包括第二统计量信息确定模块，用于获取待识别字段对应的至少部分数据样本构成的第二数据集；确定所述第二数据集的第二统计量信息。

可选地，所述第二统计量信息确定模块可以用于确定所述第二数据集的所述第二长度分布向量，具体地：初始化第二长度分布向量；所述第二长度分布向量中第i个位置的值表示长度为i的数据样本的数量；其中，i为小于或等于所述第二长度分布向量的长度的正整数；遍历所述第二数据集中的数据样本，获取各数据样本的长度信息；根据所述各数据样本的长度信息，确定所述第二长度分布向量。

可选地，所述第二统计量信息确定模块可以用于确定所述第二数据集的第二字符分布统计信息，具体地：根据所述第二数据集中数据样本的长度，从所述第二数据集中确定至少一个子数据集；其中，同一子数据集中的数据样本具有相同的长度；对于各个子数据集，确定所述子数据集中数据样本的第二字符分布统计信息。

可选地，所述确定所述子数据集中数据样本的第二字符分布统计信息，具体可以包括：基于所述子数据集中数据样本包含的字符，对于所述子数据集中数据样本的各个长度位置，确定与所述长度位置对应的字符分布向量；基于与各个所述长度位置对应的所述字符分布向量，得到所述子数据集中数据样本的第二字符分布统计信息。

可选地，所述确定与所述长度位置对应的字符分布向量，具体可以包括：初始化第二字符分布向量；所述字符分布向量中的各值表示所述子数据集中数据样本在对应的所述长度位置处包含有预设字符的数量；确定所述子数据集中各数据样本在所述长度位置处的字符；根据所述子数据集中各数据样本在所述长度位置处的字符，确定所述第二字符分布向量。

在本申请的至少一个实施例中，所述长度分布相似度确定模块406，具体可以用于：计算所述第一长度分布向量与所述第二长度分布向量之间的第一KL距离。相应地，所述确定所述长度分布相似度满足第一预设条件，具体可以包括：确定所述第一KL距离小于或等于第一KL阈值。

在本申请的至少一个实施例中，所述字符分布相似度确定模块408，具体可以用于：确定至少一个数据组；每个所述数据组包括一个第一子数据集和一个第二子数据集；同一数据组中的所述第一子数据集的数据样本长度与所述第二子数据集的数据样本长度相同；所述第一子数据集中的数据样本选自所述第一数据集，所述第二子数据集中的数据样本选自所述第二数据集；对于所述至少一个数据组中的各数据组，计算所述第一子数据集的第一字符分布统计信息与所述第二子数据集的第二字符分布统计信息之间的子相似度值；基于所述至少一个数据组中各数据组对应的子相似度值，确定所述第一数据集与所述第二数据集之间的相似度值。

其中，所述计算所述第一子数据集的第一字符分布统计信息与所述第二子数据集的第二字符分布统计信息之间的子相似度值，具体可以包括：对于所述第一子数据集和所述第二子数据集的各长度位置，计算第一字符分布向量与第二字符分布向量之间的第二KL距离，得到多个第二KL距离；确定所述多个第二KL距离中小于或等于所述第二KL阈值的第二KL距离的第一数量；计算所述第一数量与所述多个第二KL距离的总数量的第一比值。

可选地，所述确定所述第一数据集与所述第二数据集之间的相似度值，具体可以包括：将满足预定条件的一个数据组对应的子相似度值，确定为所述第一数据集与第二数据集之间的相似度值。相应地，所述确定字符分布相似度满足第二预设条件，具体可以包括：确定所述相似度值大于预设相似度阈值。

可选地，所述确定所述第一数据集与所述第二数据集之间的相似度值，具体可以包括：基于所述至少一个数据组中两个或更多个数据组对应的子相似度值，计算所述第一数据集与所述第二数据集之间的相似度值。相应地，所述确定所述字符分布相似度满足第二预设条件，具体可以包括：确定所述相似度值大于预设相似度阈值。

在本申请的至少一个实施例中，所述确定所述第一数据集与所述第二数据集的长度分布相似度之前，还可以包括：确定所述第一数据集中数量最多的数据样本长度与所述第二数据集中数量最多的数据样本长度相同。

在本申请的至少一个实施例中，所述第一数据集中的数据样本和所述第二数据集中的数据样本的语种类型包括英文、法文或中文，且所述第一数据集中的数据样本和所述第二数据集中的数据样本的语种类型相同。

在本申请的至少一个实施例中，所述装置还可以包括脱敏模块，用于：对所述待识别字段对应的数据进行脱敏处理。

可以理解，上述的各模块是指计算机程序或者程序段，用于执行某一项或多项特定的功能。此外，上述各模块的区分并不代表实际的程序代码也必须是分开的。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图5为本说明书实施例提供的对应于图1的一种隐私数据识别设备的结构示意图。如图5所示，设备500可以包括：

至少一个处理器510；以及，

与所述至少一个处理器通信连接的存储器530；其中，

所述存储器530存储有可被所述至少一个处理器510执行的指令520，所述指令被所述至少一个处理器510执行，以使所述至少一个处理器510能够：

获取第一数据集的第一统计量信息；所述第一数据集为隐私数据样本的集合；所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息；

获取第二数据集的第二统计量信息；所述第二数据集为待识别字段对应的至少部分数据样本的集合；所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息；

基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度；

若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度；

若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。

基于同样的思路，本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下方法：

上述对本说明书特定实施例进行了描述，在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各实施例均采用递进的方式描述，各实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

本说明书实施例提供的装置、设备、计算机可读介质与方法是对应的，因此，装置、设备、计算机可读介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、计算机可读介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种隐私数据识别方法，包括：

基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度；所述长度分布向量中的各值表示数据集中不同长度的数据样本的数量；

若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度；所述字符分布统计信息包含与数据集的样本长度对应数量的多个字符分布向量；对于与数据样本的一个长度位置对应的字符分布向量，该字符分布向量中的各值表示数据集中所有数据样本在所述长度位置处出现的预设字符的统计量；

若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据；

所述确定所述第一数据集与所述第二数据集的字符分布相似度，具体包括：确定至少一个数据组；每个所述数据组包括一个第一子数据集和一个第二子数据集；同一数据组中的所述第一子数据集的数据样本长度与所述第二子数据集的数据样本长度相同；所述第一子数据集中的数据样本选自所述第一数据集，所述第二子数据集中的数据样本选自所述第二数据集；对于所述至少一个数据组中的各数据组，计算所述第一子数据集的第一字符分布统计信息与所述第二子数据集的第二字符分布统计信息之间的子相似度值；基于所述至少一个数据组中各数据组对应的子相似度值，确定所述第一数据集与所述第二数据集之间的相似度值。

2.如权利要求1所述的方法，所述获取第一数据集的第一统计量信息之前，还包括：

获取用户选定的第一数据集；

确定所述第一数据集的第一统计量信息。

3.如权利要求1所述的方法，所述获取第二数据集的第二统计量信息之前，还包括：

获取待识别字段对应的至少部分数据样本构成的第二数据集；

确定所述第二数据集的第二统计量信息。

4.如权利要求3所述的方法，所述确定所述第二数据集的第二统计量信息，包括确定所述第二数据集的所述第二长度分布向量，具体包括：

初始化第二长度分布向量；所述第二长度分布向量中第i个位置的值表示长度为i的数据样本的数量；其中，i为小于或等于所述第二长度分布向量的长度的正整数；

遍历所述第二数据集中的数据样本，获取各数据样本的长度信息；

根据所述各数据样本的长度信息，确定所述第二长度分布向量。

5.如权利要求3所述的方法，所述确定所述第二数据集的第二统计量信息，包括确定所述第二数据集的第二字符分布统计信息，具体包括：

根据所述第二数据集中数据样本的长度，从所述第二数据集中确定至少一个子数据集；其中，同一子数据集中的数据样本具有相同的长度；

对于各个子数据集，确定所述子数据集中数据样本的第二字符分布统计信息。

6.如权利要求5所述的方法，所述确定所述子数据集中数据样本的第二字符分布统计信息，具体包括：

基于所述子数据集中数据样本包含的字符，对于所述子数据集中数据样本的各个长度位置，确定与所述长度位置对应的字符分布向量；

基于与各个所述长度位置对应的所述字符分布向量，得到所述子数据集中数据样本的第二字符分布统计信息。

7.如权利要求6所述的方法，所述确定与所述长度位置对应的字符分布向量，具体包括：

初始化第二字符分布向量；所述字符分布向量中的各值表示所述子数据集中数据样本在对应的所述长度位置处包含有预设字符的数量；

确定所述子数据集中各数据样本在所述长度位置处的字符；

根据所述子数据集中各数据样本在所述长度位置处的字符，确定所述第二字符分布向量。

8.如权利要求1所述的方法，所述基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度，具体包括：

计算所述第一长度分布向量与所述第二长度分布向量之间的第一KL距离；

所述确定所述长度分布相似度满足第一预设条件，具体包括：

确定所述第一KL距离小于或等于第一KL阈值。

9.如权利要求1所述的方法，所述计算所述第一子数据集的第一字符分布统计信息与所述第二子数据集的第二字符分布统计信息之间的子相似度值，具体包括：

对于所述第一子数据集和所述第二子数据集的各长度位置，计算第一字符分布向量与第二字符分布向量之间的第二KL距离，得到多个第二KL距离；

确定所述多个第二KL距离中小于或等于第二KL阈值的第二KL距离的第一数量；

计算所述第一数量与所述多个第二KL距离的总数量的第一比值。

10.如权利要求1所述的方法，所述确定所述第一数据集与所述第二数据集之间的相似度值，具体包括：

将满足预定条件的一个数据组对应的子相似度值，确定为所述第一数据集与第二数据集之间的相似度值；

所述确定字符分布相似度满足第二预设条件，具体包括：

确定所述相似度值大于预设相似度阈值。

11.如权利要求1所述的方法，所述确定所述第一数据集与所述第二数据集之间的相似度值，具体包括：

基于所述至少一个数据组中两个或更多个数据组对应的子相似度值，计算所述第一数据集与所述第二数据集之间的相似度值；

所述确定所述字符分布相似度满足第二预设条件，具体包括：

确定所述相似度值大于预设相似度阈值。

12.如权利要求1所述的方法，所述确定所述第一数据集与所述第二数据集的长度分布相似度之前，还包括：

确定所述第一数据集中数量最多的数据样本长度与所述第二数据集中数量最多的数据样本长度相同。

13.如权利要求1所述的方法，所述第一数据集中的数据样本和所述第二数据集中的数据样本的语种类型包括英文、法文或中文，且所述第一数据集中的数据样本和所述第二数据集中的数据样本的语种类型相同。

14.如权利要求1所述的方法，所述将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据之后，还包括：

对所述待识别字段对应的数据进行脱敏处理。

15.一种隐私数据识别装置，包括：

第一获取模块，用于获取第一数据集的第一统计量信息；所述第一数据集为隐私数据样本的集合；所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息；

第二获取模块，用于获取第二数据集的第二统计量信息；所述第二数据集为待识别字段对应的至少部分数据样本的集合；所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息；

长度分布相似度确定模块，用于基于所述第一长度分布向量和所述第二长度分布向量，确定所述第一数据集与所述第二数据集的长度分布相似度；所述长度分布向量中的各值表示数据集中不同长度的数据样本的数量；

字符分布相似度确定模块，用于若确定所述长度分布相似度满足第一预设条件，则基于所述第一字符分布统计信息和所述第二字符分布统计信息，确定所述第一数据集与所述第二数据集的字符分布相似度；所述字符分布统计信息包含与数据集的样本长度对应数量的多个字符分布向量；对于与数据样本的一个长度位置对应的字符分布向量，该字符分布向量中的各值表示数据集中所有数据样本在所述长度位置处出现的预设字符的统计量；所述确定所述第一数据集与所述第二数据集的字符分布相似度，具体包括：确定至少一个数据组；每个所述数据组包括一个第一子数据集和一个第二子数据集；同一数据组中的所述第一子数据集的数据样本长度与所述第二子数据集的数据样本长度相同；所述第一子数据集中的数据样本选自所述第一数据集，所述第二子数据集中的数据样本选自所述第二数据集；对于所述至少一个数据组中的各数据组，计算所述第一子数据集的第一字符分布统计信息与所述第二子数据集的第二字符分布统计信息之间的子相似度值；基于所述至少一个数据组中各数据组对应的子相似度值，确定所述第一数据集与所述第二数据集之间的相似度值；

隐私数据确定模块，用于若确定所述字符分布相似度满足第二预设条件，则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。

16.权利要求15所述的装置，所述长度分布相似度确定模块，具体用于：计算所述第一长度分布向量与所述第二长度分布向量之间的第一KL距离。

17.一种隐私数据识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

18.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至14中任一项所述的隐私数据识别方法。