CN113934999A

CN113934999A - 一种个人信息去标识化方法、装置和电子设备

Info

Publication number: CN113934999A
Application number: CN202010672803.7A
Authority: CN
Inventors: 于乐; 江为强; 袁捷; 张峰; 李祥军
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2022-01-14

Abstract

本申请实施例提供了一种个人信息去标识化方法、装置和电子设备，涉及信息安全技术领域。本申请实施例方法中，获取访问目标数据的用户的生物特征信息，生成生物特征值；根据目标数据包含的数据之间的关联关系，对生物特征值进行分割，得到多个子生物特征值。分别建立目标数据中各个数据与多个子生物特征值之间的对应关系，并根据子生物特征值映射的数据位置，确定数据变换位置，对目标数据中各个数据进行位置变换。通过数据位置变换，保持具有关联关系的数据之间的关联性，从而保护数据的可用性，同时打破不具有关联关系的数据之间的关联性，从而实现个人信息去标识化，有效抵御重标识攻击，防止用户个人信息的泄露。

Description

一种个人信息去标识化方法、装置和电子设备

【技术领域】

本申请涉及信息安全技术领域，尤其涉及一种个人信息去标识化方法、装置和电子设备。

【背景技术】

随着信息技术和大数据应用的快速发展，越来越多的人认识到了数据的价值，意识到了数据开放共享的重大意义。但数据开放共享的同时也带来了个人信息安全保护问题。政府机构、企业和其它组织收集的数据中，通常含有个人姓名、电话、证件号码等信息，如果将收集到的原始数据直接进行发布，会导致严重的个人信息泄露。

个人信息去标识化是指去除一组可识别数据和数据所对应的个体间关联关系的过程，用来防止个人信息的泄露。根据数据的属性，可以将个人信息分为标识符、准标识符和敏感数据三个类别。其中，标识符是指可以直接确定一个个体的信息，如：身份证号，姓名等；准标识符是指可以通过和外部数据表的关联来识别个体的信息，如：邮编，生日，性别等；敏感数据是指用户不希望被人知道的信息，如：薪水，疾病历史，购买偏好等。目前的个人信息去标识化技术对上述三个类别的信息采取的处理手段主要有：泛化、抑制、加密、k-匿名等。但现有技术存在以下两点问题：首先，目前的去标识化技术虽然使得信息所对应的个体难以识别，但是准标识符和敏感数据的可用性也受到破坏，不利于数据的分析；其次，目前的去标识化技术的重标识风险较高，即去标识化后的个人信息容易受到重标识攻击，如链接攻击、背景知识攻击等，导致个人信息泄露。

【发明内容】

本申请实施例提供了一种个人信息去标识化方法、装置和电子设备，用以在保护数据可用性的前提下，实现个人信息去标识化，有效防止用户个人信息泄露。

第一方面，本申请实施例提供一种个人信息去标识化方法，包括：获取访问目标数据的用户的生物特征信息，根据所述生物特征信息生成生物特征值；

根据所述目标数据包含的数据之间的关联关系，对所述生物特征值进行分割，得到多个子生物特征值；分别建立所述目标数据中各个数据与所述多个子生物特征值之间的对应关系，其中，所述子生物特征值与数据位置相映射；根据目标数据中各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，根据所述数据变换位置变换目标数据中各个数据的位置。

其中一种可能的实现方式中，所述根据所述生物特征信息生成生物特征值，包括：将所述访问目标数据的用户的生物特征信息转换为二进制数据；对所述二进制数据或者所述二进制数据经过至少一次变换后的变换数据进行哈希计算，得到预设长度的生物特征值。

其中一种可能的实现方式中，根据所述目标数据包含的数据之间的关联关系，对所述生物特征值进行分割，包括：确定所述目标数据所包含的各个数据的数据属性；根据所述数据属性的个数以及所述数据属性之间的关联关系，对所述生物特征值进行分割。

其中一种可能的实现方式中，所述根据所述目标数据包含的数据个数以及数据之间的关联关系，对所述生物特征值进行分割，包括：确定所述目标数据中的关联属性以及独立属性；其中，所述关联属性中包含所述目标数据中的至少两个数据，所述至少两个数据之间具有关联关系；所述独立属性与所述目标数据中的其他数据之间没有关联关系；根据所述目标数据中所述关联属性和独立属性的个数之和，确定所述生物特征值的分割个数，并按照所述分割个数对所述生物特征值进行分割。

其中一种可能的实现方式中，所述按照所述分割个数对所述生物特征值进行分割，包括：根据所述生物特征值的数据长度，按照所述分割个数对所述生物特征值进行等分或者随机分割；其中，所述分割个数大于或者等于所述目标数据中的关联属性和独立属性的个数之和。

其中一种可能的实现方式中，所述分别建立所述目标数据中各个数据与所述多个子生物特征值之间的对应关系，包括：每个所述关联属性包含的所述至少两个数据属性对应同一个子生物特征值；每个所述独立属性对应一个子生物特征值；所述目标数据中的各个数据与其所属的数据属性对应相同的子生物特征值。

其中一种可能的实现方式中，根据目标数据中各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，包括：将所述目标数据中各个数据在数据表中的坐标位置与各个数据所对应子生物特征值映射的数据位置加权，得到目标数据中各个数据的变换位置。

第二方面，本申请实施例提供一种个人信息去标识化装置，包括：生成模块，用于获取访问目标数据的用户的生物特征信息，根据所述生物特征信息生成生物特征值；分割模块，用于根据所述目标数据包含的数据之间的关联关系，对所述生物特征值进行分割，得到多个子生物特征值；确定模块，用于确定所述目标数据中各个数据与所述多个子生物特征值之间的对应关系，其中，所述子生物特征值与数据位置相映射；位置变换模块，用于根据目标数据中各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，根据所述数据变换位置变换目标数据中各个数据的位置。

第三方面，本申请实施例提供一种电子设备，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上所述的方法。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上所述的方法。

以上技术方案中，获取访问目标数据的用户的生物特征信息，生成生物特征值；根据目标数据包含的数据之间的关联关系，对生物特征值进行分割，得到多个子生物特征值。分别建立目标数据中各个数据与多个子生物特征值之间的对应关系，并根据子生物特征值映射的数据位置，确定数据变换位置，对目标数据中各个数据进行位置变换。通过数据位置变换，保持具有关联关系的数据之间的关联性，从而保护数据的可用性，同时打破不具有关联关系的数据之间的关联性，从而实现个人信息去标识化，有效抵御重标识攻击，防止用户个人信息的泄露。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请个人信息去标识化方法一个实施例的流程图；

图2为本申请个人信息去标识化方法一个数据表的示意图；

图3为本申请个人信息去标识化装置一个实施例的结构示意图；

图4为本申请电子设备一个实施例的结构示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的 “一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。

图1为本申请个人信息去标识化方法一个实施例的流程图。

本实施例中，可对一个数据表中所包含的用户数据执行本申请的个人信息去标识化方法。其中，数据表中的用户数据可以包括：姓名、年龄、性别、住址、身体状况、收入水平等。具体的，可以根据用户数据的属性，将用户数据分为标识符、准标识符和敏感数据。

在一个具体的实现过程中，可以将用户数据中的准标识符和敏感数据作为目标数据，执行本申请的个人信息去标识化方法。如图1所示，该个人信息去标识化方法可以包括：

步骤101，获取访问目标数据的用户的生物特征信息，根据所述生物特征信息生成生物特征值。

本实施例中，目标数据可以为存储在系统中的共享信息，当用户需要获取系统中的共享信息时，可以输入个人生物特征信息，对系统中的共享信息进行访问。

本实施例中，可以在用户对目标数据进行访问时，获取用户的生物特征信息，包括但不限于：用户的DNA、指纹、声纹、面部特征等具有唯一标识的生物特征，并将得到的生物特征信息转换为生物特征值。

具体的，可以将生物特征信息转换为二进制数据。可选的，根据实际需求，对得到的二进制数据进行变换，变换方式可以包括但不限于：对二进制数据求反、对二进制数据求补、加减任意随机数。进一步的，为了保护用户的个人信息安全，可以利用哈希算法的不可逆性，对得到的二进制数据进行哈希计算，得到加密后的生物特征值。同时，哈希算法还可以完成对二进制数据的压缩，对于不同的访问用户，将其对应的二进制数据压缩为等长的生物特征值。

步骤102，根据所述目标数据包含的数据之间的关联关系，对所述生物特征值进行分割，得到多个子生物特征值。

在对生物特征值进行分割时，首先，确定目标数据中各个数据的数据属性。

进一步的，确定数据属性中的关联属性以及独立属性。

具体地，可以根据信息的具体应用场景，将数据属性中，相互之间需要保持关联性的数据属性确定为关联属性，关联属性中至少包含两个数据属性；将数据属性中，不需要与其它数据属性保持关联性的数据属性确定为独立属性。举例来说，当信息的应用场景为，分析年龄与心脏病发病率之间的关系时，年龄与是否患有心脏病两个数据属性是需要保持关联的，是关联属性。而性别、住址、学历等数据属性不需要保持关联，均为独立属性。

其次，根据关联属性和独立属性的个数之和，确定生物特征值的分割个数，并按照分割个数对生物特征值进行分割。需要说明的是，对关联属性计数时，不论关联属性中包含多少个数据属性，均计为1个关联属性。仍以上述举例来讲，年龄与是否患有心脏病两个数据属性为关联属性，那么关联属性的个数计为1。

步骤103，分别建立目标数据中各个数据与多个子生物特征值之间的对应关系，其中，子生物特征值与数据位置相映射。

本实施例中，每个关联属性包含的至少两个数据属性对应同一个子生物特征值；每个独立属性对应一个子生物特征值；目标数据中的各个数据与其所属的数据属性对应相同的子生物特征值。其中，子生物特征值与数据位置相映射。

具体的，子生物特征值与数据位置相映射可以是，使子生物特征值的取值与数据位置相映射；还可以是，子生物特征值与数据位置相映射，根据子生物特征值查表，可得到数据位置。

步骤104，根据目标数据中，各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，根据数据变换位置变换目标数据中各个数据的位置。

将目标数据中各个数据在数据表中的坐标位置，与各个数据所对应子生物特征值映射的数据位置进行加权，得到目标数据中各个数据的变换位置。

具体的，首先，可以将目标数据中，各个数据所对应子生物特征值的取值，作为子生物特征值映射的数据位置。

然后，将目标数据中各个数据在数据表中的坐标位置，与各个数据所对应子生物特征值的取值进行加权，得到目标数据中各个数据的变换位置。

最后，根据得到的数据的变换位置，变换目标数据中的各个数据的位置。

本实施例中，获取访问目标数据的用户的生物特征信息，生成生物特征值；根据目标数据包含的数据之间的关联关系，对生物特征值进行分割，得到多个子生物特征值。分别建立目标数据中各个数据与多个子生物特征值之间的对应关系，并根据子生物特征值映射的数据位置，确定数据变换位置，对目标数据中各个数据进行位置变换。由于关联属性中所包含的至少两个数据属性对应于同一个子生物特征值，因此可以保证在完成位置变换后，关联属性中所包含的目标数据仍然能够保持关联性，从而保护数据可用性，使得用户能够从去标识化的信息中分析得到有用信息。而由于各个独立属性均对应不同的子生物特征值，因此能够切断独立属性所包含的数据的关联性，从而保护数据主体的隐私安全，防止对信息进行访问的用户窃取数据主体的个人信息。

在本申请的另一个实施例中，给出了对生物特征值进行分割的四个方法。

在本实施例中，根据生物特征值的数据长度，按照分割个数对生物特征值进行等分或者随机分割。其中，分割个数大于或者等于目标数据中的关联属性和独立属性的个数之和。具体的操作方法如下：

方法一：

根据关联属性和独立属性的个数之和，确定生物特征值的分割个数等于关联属性和独立属性的个数之和。之后，可以按照分割个数，对生物特征值进行等分。

举例来说。当关联属性有3个，独立属性有17个时，关联属性和独立属性个数之和为20。确定生物特征值的分割个数为20个，对生物特征值进行等分，得到20个长度相等的子生物特征值。当建立子生物特征值与关联属性和独立属性的对应关系时，将3个子生物特征值分别为3个关联属性及其所包含的数据；将17个子生物特征值分别为17个独立属性及其所包含的数据。其中，对于3个关联属性及其所包含的数据，每个关联属性中包含的至少两个数据属性及其所包含的数据，对应于同一个子生物特征值。

方法二：

根据关联属性和独立属性的个数之和，确定生物特征值的分割个数大于关联属性和独立属性的个数之和，按照分割个数，对生物特征值进行等分。

举例来说。当关联属性有3个，独立属性有17个时，关联属性和独立属性个数之和为20。确定生物特征值的分割个数为25个，对生物特征值进行等分，得到25个长度相等的子生物特征值。当建立子生物特征值与关联属性和独立属性的对应关系时，从25个子生物特征值中取20个子生物特征值，将3 个子生物特征值分别为3个关联属性及其所包含的数据；将17个子生物特征值分别为17个独立属性及其所包含的数据。其中，对于3个关联属性及其所包含的数据，每个关联属性中包含的至少两个数据属性及其所包含的数据，对应于同一个子生物特征值。具体的，从25个子生物特征值中取20个子生物特征值时，可以随机选取，也可以按照顺序，取前20个子生物特征值。

方法三：

根据关联属性和独立属性的个数之和，确定生物特征值的分割个数等于关联属性和独立属性的个数之和，按照分割个数，对生物特征值进行不等分。

举例来说。当关联属性有3个，独立属性有17个时，关联属性和独立属性个数之和为20。确定生物特征值的分割个数为20，对生物特征值进行不等分，得到20个长度不相等的子生物特征值。当建立子生物特征值与关联属性和独立属性的对应关系时，将3个子生物特征值分别为3个关联属性及其所包含的数据；将17个子生物特征值分别为17个独立属性及其所包含的数据。其中，对于3个关联属性及其所包含的数据，每个关联属性中包含的至少两个数据属性及其所包含的数据，对应于同一个子生物特征值。

方法四：

根据关联属性和独立属性的个数之和，确定生物特征值的分割个数大于关联属性和独立属性的个数之和，按照分割个数，对生物特征值进行不等分。

举例来说。当关联属性有3个，独立属性有17个时，关联属性和独立属性个数之和为20。确定生物特征值的分割个数为25，对生物特征值进行不等分，得到25个长度不相等的子生物特征值。当建立子生物特征值与关联属性和独立属性的对应关系时，从25个子生物特征值中取20个子生物特征值，将3个子生物特征值分别为3个关联属性及其所包含的数据；将17个子生物特征值分别为17个独立属性及其所包含的数据。其中，对于3个关联属性及其所包含的数据，每个关联属性中包含的至少两个数据属性及其所包含的数据，对应于同一个子生物特征值。具体的，从25个子生物特征值中取20个子生物特征值时，可以随机选取，也可以按照顺序，取前20个子生物特征值。

在本申请的另一个实施例中，给出了确定目标数据中各个数据的变换位置的方法。

首先，确定目标数据中各个数据在数据表中的坐标位置，可选的，该坐标位置可以为各个数据在数据表中所在行的行号，或者，所在列的列号，又或者，同时使用行号和列号作为坐标位置，本申请不做限定。

然后，确定目标数据中，各个数据所对应的子生物特征值映射的数据位置，可选的，将子生物特征值的取值作为其映射的数据位置。

最后，将上述各个数据的行号，与各个数据所对应的子生物特征值的取值相加，相加后得到的数值与数据表的总行数进行取余运算，得到各个数据的变换位置，对各个数据进行位置变换。特别的，当取余运算得到的结果为0 时，该数据的变换位置的行号等于总行数。

可选的，将上述各个数据的列号，与各个数据所对应的子生物特征值的取值相加，相加后得到的数值与数据表的总列数进行取余运算，得到各个数据的变换位置，对各个数据进行位置变换。特别的，当取余运算得到的结果为0时，该数据的变换位置的列号等于总列数。

图2为本申请个人信息去标识化方法一个数据表的示意图。本申请另一个实施例中，给出了运用本申请的个人信息去标识化方法，实现个人信息去标识化的具体实现过程。

举例来说。

首先，获取访问目标数据的用户的指纹信息M，生成指纹信息二进制数据Get(M)。利用哈希算法对得到的二进制数据进行加密，得到生物特征值 H(M)。其中，H(M)为二进制数111001011100001。

其次，确定目标数据所包含的各个数据的数据属性，根据信息应用场景，确定数据属性中关联属性和独立属性的个数。

如图2所示，确定目标数据中的性别数据、年龄数据和身高数据为关联属性，住址数据、邮编数据为独立属性。那么，关联属性为1个，独立属性为2个，关联属性和独立属性的个数之和为3。

然后，根据关联属性和独立属性的个数之和，对生物特征值H(M)进行分割。在本实施例中，根据关联属性和独立属性的个数之和3，将H(M)分为 3等份，得到三个子生物特征值，分别为11100、10111、00001。

建立子生物特征值和关联属性与独立属性，以及子生物特征值和关联属性与独立属性各自包含的数据之间的对应关系。

在本实施例中，如图2所示，将关联属性及其所包含的数据与11100对应，即将性别属性及性别属性所包含的数据、年龄属性及年龄属性所包含的数据、身高属性及身高属性所包含的数据，与11100对应。将独立属性中的住址数据与00001对应，将独立属性中的邮编数据与10111对应。当然，也可以选取不同的对应方式，不再赘述。

最后，根据各个数据在数据表中的坐标位置，及子生物特征值映射的数据位置，得到各个数据的变换位置，对各个数据进行位置变换。

在本实施例中，取目标数据中各个数据在数据表中的行号为其坐标位置，取子生物特征值的取值为其映射的数据位置。

如图2所示，数据表的总行数为10，仅以关联属性所包含数据中，行号为3的数据为例进行说明，其对应的子生物特征值11100的取值为28。对于独立属性中的住址属性，仅以其中行号为4的住址数据为例进行说明，其对应的子生物特征值00001的取值为1。对于独立属性中的邮编属性，仅以其中行号为5的邮编数据为例进行说明，其对应的子生物特征值10111的取值为 23。

将各个数据的行号和对应的子生物特征值的取值相加，相加得到的数值与总行数进行取余运算，得到各个数据的变换位置。

其中，关联属性中行号为3的数据的变换位置为mod(3+28，10)，即1；独立属性中行号为4的住址数据的变换位置为mod(4+1，10)，即5；独立属性中行号为5的邮编数据的变换位置为mod(5+23，10)，即8。相应的，关联属性中行号为3的数据变换至第1行，独立属性中行号为4的住址数据变换至第5行，独立属性中行号为5的邮编数据变换至第8行。

特别的，当取余运算得到的结果为0时，那么该数据的变换位置的行号等于数据表的总行数，即变换至第10行。

对于图2中所包含的其他数据，其变换方式与上述方式相同，不再赘述。

图3为本申请个人信息去标识化装置一个实施例的结构示意图，本实施例中的个人信息去标识化装置可以作为个人信息去标识化设备实现本申请实施例提供的个人信息去标识化方法。

如图3所示，上述个人信息去标识化装置可以包括：生成模块21、分割模块22、确定模块23和位置变换模块24。

生成模块21，用于获取访问目标数据的用户的生物特征信息，根据生物特征信息生成生物特征值。

具体实现时，生成模块21用于，将访问目标数据的用户的生物特征信息转换为二进制数据；对二进制数据，或者二进制数据经过至少一次变换后的变换数据进行哈希计算，得到预设长度的生物特征值。

分割模块22，用于根据目标数据包含的数据之间的关联关系，对生物特征值进行分割，得到多个子生物特征值。

具体实现时，首先，确定目标数据所包含的各个数据的数据属性；根据信息应用场景，确定数据属性中的关联属性以及独立属性。然后，根据关联属性和独立属性的个数之和，确定生物特征值的分割个数，并按照分割个数对生物特征值进行分割。

确定模块23，用于确定目标数据中各个数据与多个子生物特征值之间的对应关系，其中，子生物特征值与数据位置相映射。

位置变换模块24，用于根据目标数据中各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，根据数据变换位置变换目标数据中各个数据的位置。

具体用于，将目标数据中各个数据在数据表中的坐标位置，与各个数据所对应子生物特征值映射的数据位置加权，得到目标数据中各个数据的变换位置。

本实施例中，生成模块21根据访问目标数据的用户的生物特征信息，生成生物特征值，分割模块22根据关联属性和独立属性的个数对生物特征值进行分割，得到多个子生物特征值。确定模块23确定出多个子生物特征值与目标数据中关联属性和独立属性的对应关系，位置变换模块24根据子生物特征值映射的数据位置，对目标数据中的关联属性所包含的数据，以及独立属性所包含的数据进行位置变换。在保护数据可用性的前提下，实现个人信息去标识化，防止用户个人信息的泄露。

图4为本申请电子设备一个实施例的结构示意图，如图4所示，上述电子设备可以包括至少一个处理器；以及与上述处理器通信连接的至少一个存储器，其中：存储器存储有可被处理器执行的程序指令，上述处理器调用上述程序指令能够执行本申请实施例提供的个人信息去标识化方法。

其中，上述电子设备可以为个人信息去标识化设备，本实施例对上述电子设备的具体形态不作限定。

图4示出了适于用来实现本申请实施方式的示例性电子设备的框图。图4所示的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器31，存储器33，连接不同系统组件(包括存储器33和处理单元31)的通信总线34。

通信总线34表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称： VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器33可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。尽管图4中未示出，可以提供用于对可移动非易失性磁盘 (例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read Only Memory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read Only Memory；以下简称： DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与通信总线34相连。存储器33可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块的程序/实用工具，可以存储在存储器33 中，这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本申请所描述的实施例中的功能和/或方法。

电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备 (例如网卡，调制解调器等等)通信。这种通信可以通过通信接口32进行。并且，电子设备还可以通过网络适配器(图4中未示出)与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(WideArea Network；以下简称：WAN)和/或公共网络，例如因特网)通信，上述网络适配器可以通过通信总线34与电子设备的其它模块通信。应当明白，尽管图 4中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Drives；以下简称：RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器31通过运行存储在存储器33中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的个人信息去标识化方法。

本申请实施例还提供一种非临时性计算机可读存储介质，上述非暂态计算机可读存储介质存储计算机指令，上述计算机指令使上述计算机执行本申请实施例提供的个人信息去标识化方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器 (ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(Local Area Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

需要说明的是，本申请实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer；以下简称：PC)、个人数字助理(Personal Digital Assistant；以下简称：PDA)、无线手持设备、平板电脑(Tablet Computer)、手机等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等) 或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种个人信息去标识化方法，其特征在于，包括：

获取访问目标数据的用户的生物特征信息，根据所述生物特征信息生成生物特征值；

根据所述目标数据包含的数据之间的关联关系，对所述生物特征值进行分割，得到多个子生物特征值；

分别建立所述目标数据中各个数据与所述多个子生物特征值之间的对应关系，其中，所述子生物特征值与数据位置相映射；

根据目标数据中各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，根据所述数据变换位置变换目标数据中各个数据的位置。

2.根据权利要求1所述的方法，其特征在于，根据所述生物特征信息生成生物特征值，包括：

将所述访问目标数据的用户的生物特征信息转换为二进制数据；

对所述二进制数据或者所述二进制数据经过至少一次变换后的变换数据进行哈希计算，得到预设长度的生物特征值。

3.根据权利要求1所述的方法，其特征在于，根据所述目标数据包含的数据之间的关联关系，对所述生物特征值进行分割，包括：

确定所述目标数据所包含的各个数据的数据属性；

根据所述数据属性的个数以及所述数据属性之间的关联关系，对所述生物特征值进行分割。

4.根据权利要求3所述的方法，其特征在于，根据所述数据属性的个数以及所述数据属性之间的关联关系，对所述生物特征值进行分割，包括：

确定所述数据属性中的关联属性以及独立属性；其中，所述关联属性中包含至少两个数据属性，所述至少两个数据属性之间具有关联关系；所述独立属性与其它数据属性之间没有关联关系；

根据所述关联属性和独立属性的个数之和，确定所述生物特征值的分割个数，并按照所述分割个数对所述生物特征值进行分割。

5.根据权利要求4所述的方法，其特征在于，按照所述分割个数对所述生物特征值进行分割，包括：

根据所述生物特征值的数据长度，按照所述分割个数对所述生物特征值进行等分或者随机分割；

其中，所述分割个数大于或者等于所述目标数据中的关联属性和独立属性的个数之和。

6.根据权利要求4所述的方法，其特征在于，所述分别建立所述目标数据中各个数据与所述多个子生物特征值之间的对应关系，包括：

每个所述关联属性包含的所述至少两个数据属性对应同一个子生物特征值；

每个所述独立属性对应一个子生物特征值；

所述目标数据中的各个数据与其所属的数据属性对应相同的子生物特征值。

7.根据权利要求1所述的方法，其特征在于，根据目标数据中各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，包括：

将所述目标数据中各个数据在数据表中的坐标位置与各个数据所对应子生物特征值映射的数据位置加权，得到目标数据中各个数据的变换位置。

8.一种个人信息去标识化装置，其特征在于，包括：

生成模块，用于获取访问目标数据的用户的生物特征信息，根据所述生物特征信息生成生物特征值；

分割模块，用于根据所述目标数据包含的数据之间的关联关系，对所述生物特征值进行分割，得到多个子生物特征值；

确定模块，用于确定所述目标数据中各个数据与所述多个子生物特征值之间的对应关系，其中，所述子生物特征值与数据位置相映射；

位置变换模块，用于根据目标数据中各个数据所对应子生物特征值映射的数据位置，确定数据变换位置，根据所述数据变换位置变换目标数据中各个数据的位置。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。