CN110210242A

CN110210242A - 一种数据脱敏的方法、装置、存储介质及计算机设备

Info

Publication number: CN110210242A
Application number: CN201910341136.1A
Authority: CN
Inventors: 许超俊
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-09-06

Abstract

本发明提供了一种数据脱敏的方法、装置、存储介质及计算机设备，其中，该方法包括：建立脱敏模型，脱敏模型的输入为字段和与字段相应的数据，输出为数据的脱敏规则；确定待脱敏数据以及与待脱敏数据相应的待脱敏字段，将待脱敏数据和待脱敏字段作为脱敏模型的输入，确定待脱敏数据的脱敏规则；根据确定的待脱敏数据的脱敏规则对待脱敏数据进行脱敏处理。该方法基于数据和字段两个维度来确定待脱敏数据的脱敏规则，可以使得确定脱敏规则的结果更加准确；且该方法适用于确定数据库中的大量数据的脱敏规则，可以省去人工去逐条设置脱敏规则的繁琐工作，在提高数据脱敏效率的同时，还可以节约人力成本。

Description

一种数据脱敏的方法、装置、存储介质及计算机设备

技术领域

本发明涉及数据脱敏技术领域，特别涉及一种数据脱敏的方法、装置、存储介质及计算机设备。

背景技术

敏感信息一般指涉及隐私权的信息，包括财产信息、健康生理信息、生物识别信息、身份信息和网络身份标识信息等，比如，身份证号、银行卡号、电话号码、网页浏览记录、行踪轨迹等。由于敏感信息可能涉及用户或其他主体的隐私信息，故需要采用数据安全防护手段防止数据泄露，一般采用数据脱敏、或加密的方法保护数据的隐私性和安全性。例如，可以利用掩码脱敏的方法将11位的手机号码修改为“135xxxx6789”，其中的四位数“xxxx”即为隐去的信息。

目前存在多种脱敏方法，而不同类型的敏感数据可能适用于不同的脱敏方法，且按照业务需求、同类型数据的脱敏方法也可能存在不同。当前在选择脱敏方法时，主要依赖操作人员手工设定，过程较为繁琐；同时还需要根据业务实际需要与管控内部要求共同协商制定，许多字段的规则无法简单复用，但若按逐个确认又十分消耗人力与时间。

发明内容

为解决现有技术中存在问题，本发明提供一种数据脱敏的方法、装置、存储介质及计算机设备。

根据本发明的第一个方面，提供一种数据脱敏的方法，包括：

建立脱敏模型，所述脱敏模型的输入为字段和与所述字段相应的数据，输出为所述数据的脱敏规则；

确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段，将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的脱敏规则；

根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。

根据本发明的第二个方面，提供一种数据脱敏的装置，包括：

模型建立模块，用于建立脱敏模型，所述脱敏模型的输入为字段和与所述字段相应的数据，输出为所述数据的脱敏规则；

处理模块，用于确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段，将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的脱敏规则；

脱敏模块，用于根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。

根据本申请的第三个方面，提供一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现数据脱敏的步骤。

根据本申请的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现数据脱敏的步骤。

本发明实施例提供的一种数据脱敏的方法、装置、存储介质及计算机设备，建立输入是字段和相应数据的脱敏模型，在需要确定待脱敏数据的脱敏规则时，将该待脱敏数据以及相应的待脱敏字段作为脱敏模型的输入，通过脱敏模型可以确定待脱敏数据的脱敏规则。基于数据和字段两个维度来确定待脱敏数据的脱敏规则，可以使得确定脱敏规则的结果更加准确；且该方法适用于确定数据库中的大量数据的脱敏规则，可以省去人工去逐条设置脱敏规则的繁琐工作，在提高数据脱敏效率的同时，还可以节约人力成本。通过对样本数据进行分段，可以更加突出样本数据在脱敏过程中的处理特点；将样本数据和样本子数据综合起来作为脱敏模型的输入进行训练，使得训练后的脱敏模型更能体现样本数据与相应的脱敏规则之间的关联关系。通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，提高了样本字段与相应的脱敏规则之间的关联关系，从而提高利用脱敏模型确定脱敏规则的的准确性。通过利用第二脱敏规则对待脱敏子数据进行脱敏处理，可以将脱敏处理的粒度精细到子数据的维度，使得脱敏处理更加精细、准确。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的数据脱敏的方法流程示意图；

图2为本发明实施例提供的数据脱敏方法中，建立脱敏模型的具体方法流程示意图；

图3为本发明实施例提供的数据脱敏的装置的结构示意图；

图4为本发明实施例提供的用于执行数据脱敏方法的计算机设备的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供的一种数据脱敏的方法，参见图1所示，包括：

步骤101：建立脱敏模型，脱敏模型的输入为字段和与字段相应的数据，输出为数据的脱敏规则。

本发明实施例中，通过建立输出为脱敏规则的脱敏模型的方式，实现智能确定用户所需的脱敏规则。具体的，该脱敏模型的输入为字段和与字段相应的数据，输出为数据的脱敏规则。其中，字段具体可以为文字形式、数字形式等，比如“身份证号”、“2018”、“姓名”等；该数据具体为文字形式或者数字形式，比如“110105……”(身份证号码)，或“张三”、“李四”(姓名)等。一个字段可以那个一个或多个数据，即可以以数据库的形式存储字段和数据。例如，字段“姓名”对应多个数据，包括数据“张三”、数据“李四”等。

脱敏规则为对数据进行脱敏处理的具体方式，例如，脱敏规则包括屏蔽脱敏、变形脱敏、掩码脱敏、替换脱敏、随机脱敏、格式保留加密和数据加密等。同时，一般情况下还会设置脱敏的位数以及脱敏的位置，即从数据的哪一位开始进行脱敏，且脱敏的位数是特定的。例如，某个脱敏规则为将11位的手机号码修改为“135xxxx6789”，其中的四位数“xxxx”即为隐去的信息，则该脱敏规则对应的脱敏位置即为数据的第4位，脱敏位数为4位。同时，若数据不是敏感数据，则不需要对该数据进行脱敏，即此时输出的脱敏规则可以为不脱敏，或者为空。

步骤102：确定待脱敏数据以及与待脱敏数据相应的待脱敏字段，将待脱敏数据和待脱敏字段作为脱敏模型的输入，确定待脱敏数据的脱敏规则。

本发明实施例中，在建立脱敏模型后即可基于该脱敏模型确定待脱敏数据的脱敏规则。其中，由于待脱敏字段可能包含多个数据，本发明实施例中以待脱敏数据为最小单元作为脱敏模型的数据，即将每个待脱敏数据和相应的待脱敏字段分别作为该脱敏模型的输入。例如，待脱敏字段为“出生日期”，待脱敏数据包括“01/12”和“11/06”，则可以将其拆分为两组：“出生日期-01/12”、“出生日期-11/06”，分别将每组的数据和字段作为脱敏模型的输入来确定每个待脱敏数据的脱敏规则。

步骤103：根据确定的待脱敏数据的脱敏规则对待脱敏数据进行脱敏处理。

本发明实施例中，在确定该待脱敏数据的脱敏规则后，即可对待脱敏数据进行脱敏处理，以提高该待脱敏数据的安全性。例如，基于该脱敏模型所确定的脱敏规则为隐去数据的第4位至第7位，则可以将待脱敏数据的第4位至第7位的数据替换为“xxxx”，或者直接删除。

同时，当需要对大量的数据进行脱敏处理时，可以根据该脱敏模型确定每个数据对应的脱敏规则，从而实现大量数据的脱敏处理。可选的，当待脱敏的数据为数据库中的一列数据、一个数据表或整个数据库时，此时一个待脱敏字段对应多个待脱敏数据，本发明实施例中基于脱敏模型确定待脱敏字段所对应的部分待脱敏数据的脱敏规则，若该部分待脱敏数据的脱敏规则相同、或者在该部分待脱敏数据中有超过预设数量或预设比例的待脱敏数据具有相同的脱敏规则，此时即可将该相同的脱敏规则设为与该待脱敏字段相对应的脱敏规则，该待脱敏字段中所有的的待脱敏数据均按照该脱敏规则进行脱敏处理。例如，待脱敏字段“手机号码”中对应有100个待脱敏数据，此时可以选取其中的10个待脱敏数据，并根据脱敏模型确定该10个待脱敏数据的脱敏规则，若10个待脱敏数据的脱敏规则均为脱敏规则A，则可以将待脱敏字段“手机号码”对应的100个待脱敏数据的脱敏规则均设置为脱敏规则A。利用一个字段中的数据一般采用相同的脱敏规则这一特点，可以极大地减少确定脱敏规则的过程，从而可以在数据量过大时提高处理效率。

本发明实施例提供的一种数据脱敏的方法，建立输入是字段和相应数据的脱敏模型，在需要确定待脱敏数据的脱敏规则时，将该待脱敏数据以及相应的待脱敏字段作为脱敏模型的输入，通过脱敏模型可以确定待脱敏数据的脱敏规则。基于数据和字段两个维度来确定待脱敏数据的脱敏规则，可以使得确定脱敏规则的结果更加准确；且该方法适用于确定数据库中的大量数据的脱敏规则，可以省去人工去逐条设置脱敏规则的繁琐工作，在提高数据脱敏效率的同时，还可以节约人力成本。

本发明另一实施例提供一种数据脱敏的方法，该方法包括上述实施例中的步骤101-103，其实现原理以及技术效果参见图1对应的实施例。同时，本发明实施例中，参见图2所示，步骤101“建立脱敏模型”包括：

步骤1011：获取样本集，样本集包括样本字段、与样本字段相对应的一个或多个样本数据以及每个样本数据的预设脱敏规则。

本发明实施例中，样本集是用于对脱敏模型进行训练的样本，其包含样本字段、相应的样本数据，以及样本数据的脱敏规则；样本集具体可以以数据库的方式、或数据库中表的方式进行存储。例如，某个样本库用于存储该样本集，样本库中每个字段对应一个样本字段，每个字段下所对应的一列数据即为相应的样本数据，另一个字段存储样本数据的脱敏规则。其中，

此外，由于样本数据的量较大，由于一般情况下一个字段中的不同数据采用相同的过敏规则，为了方便确定样本数据的脱敏规则，故也可以只为样本字段确定相应的预设脱敏规则，该样本字段下对应的所有样本数据均采用该预设脱敏规则进行脱敏。同时，有的样本字段是敏感字段，例如“身份证号码”、“地理位置”等；有的样本字段不是敏感字段，例如“序号”、“天气”等。对于敏感字段，可以设置相应的预设脱敏规则；对于非敏感字段，其对应设置的预设脱敏规则为“不脱敏”或者为空。

步骤1012：将样本字段和相对应的样本数据作为预设的脱敏模型的输入、将样本数据的预设脱敏规则作为脱敏模型的输出，对脱敏模型进行训练，确定训练后的脱敏模型。

步骤1013：根据测试集对训练后的脱敏模型进行测试，在脱敏模型通过测试时，将训练后的脱敏模型作为最终建立的脱敏模型。

本发明实施例中，在确定样本集后即可对脱敏模型进行训练；其中，该脱敏模型具体可以为神经网络模型、深度学习模型等，本实施例对此不做限定。在将样本字段和相对应的样本数据作为预设的脱敏模型的输入、将样本数据的预设脱敏规则作为脱敏模型的输出，对脱敏模型进行训练之后，即可确定训练后的脱敏模型，之后利用测试集对训练后的脱敏模型进行测试，以验证脱敏模型的准确性。

其中，测试集为用于测试模型的测试样本集合，与样本集类似，测试集也包括测试字段、与测试字段相对应的一个或多个测试数据，以及每个测试数据的测试规则。利用测试集对训练后的脱敏模型进行测试，可以得到更加准确地脱敏模型。当脱敏模型没有通过测试时，则对脱敏模型继续训练即可，直至训练后的脱敏模型通过测试，此时即可将脱敏模型作为后续可用的模型，即步骤102中根据训练后的脱敏模型确定待脱敏数据的脱敏规则。

在上述实施例的基础上，步骤1012“将样本字段和相对应的样本数据作为预设的脱敏模型的输入”包括对样本数据进行分段处理的过程，该过程具体包括：

步骤A1：根据预设脱敏规则中的规则信息对相应的样本数据进行分段处理，确定每段的样本子数据，预设脱敏规则的规则信息包括脱敏位置和脱敏位数。

在实际脱敏过程中，一般只是对数据中的一部分进行脱敏，本发明实施例中可以将该数据分为几个部分。例如，将手机号“13579246810”脱敏为“135xxxx6810”，则该脱敏规则只是将手机号中的第4至7位进行了脱敏，则该手机号可分为三部分，分别是“135”、“7924”、“6810”。通过对样本数据进行分段，可以更加突出样本数据在脱敏过程中的处理特点。

步骤A2：根据样本数据生成数据总特征向量，并根据每段的样本子数据生成相应的数据子特征向量，将数据总特征数据向量和所有的数据子特征向量作为脱敏模型的输入。

本发明实施例中，在对脱敏模型进行训练时，除了考虑每个分段的样本子数据，还需要结合该样本数据的整体特征进行训练，即将样本数据的数据总特征向量和每段样本子数据的数据子特征向量均作为脱敏模型的输入，或者说样本数据对应的特征向量是基于样本子数据和整个的样本数据生成的。其中，可以采用现有的方法确定样本数据的特征向量，例如word2vec词向量等。

本发明实施例中，通过对样本数据进行分段，可以更加突出样本数据在脱敏过程中的处理特点；将样本数据和样本子数据综合起来作为脱敏模型的输入进行训练，使得训练后的脱敏模型更能体现样本数据与相应的脱敏规则之间的关联关系。

在上述实施例的基础上，上述步骤1012“将样本字段和相对应的样本数据作为预设的脱敏模型的输入”还包括对样本字段进行分词的过程，该过程具体包括：

步骤B1：分别对样本集中的样本字段进行分词处理，确定每个样本字段的分词。

本发明实施例中，对样本字段进行分词后，即可确定每个样本字段的分词；例如，样本字段“手机号码”分词处理后可以得到两个分词：“手机”和“号码”。其中，分词处理的过程具体可基于分词模型进行分词，本实施例对此不做限定。

步骤B2：将所有样本字段的分词作为分词集合，确定样本字段每个分词在分词集合中的词频。

本发明实施例中，在确定样本集中每个样本字段的分词后，即可生成总的分词集合，从而确定分词在该分词集合中的词频。本发明实施例中，由于样本字段可能对应多个样本数据，某个样本字段包含的样本数据越多，则说明该样本字段对确定数据的脱敏规则时的影响越大，即基于该样本字段确定待脱敏数据的脱敏规则时，该样本字段具有更高的权重。具体的，步骤B2“将所有样本字段的分词作为分词集合，确定样本字段每个分词在分词集合中的词频”包括：

步骤B21：分别确定样本集中每个样本字段所对应的样本数据的数量ω_i，ω_i表示第i个样本字段所对应的样本数量，i∈[1,n]，n为样本集中的样本字段的数量。

本发明实施例中，每个样本字段可以对应一个或多个样本数据，根据样本字段对应的样本数据的数量来确定样本字段的权重。例如，参见下面表1所示，样本集中包含三个样本字段“姓名”、“身份证号码”、“手机号码”，每个样本字段对应的样本数据如表1所示，表1中空白部分表示不存在样本数据，则样本字段“姓名”对应有4个样本数据，“身份证号码”对应有2个样本数据，“手机号码”对应有3个样本数据。

表1

姓名	身份证号码	手机号码
			赵	110105xxxx	135xxx
钱
			孙	310000xxxx	134xxx
李		186xxx

步骤B22：将ω_i作为样本字段中的每个分词的数量的权重值，将所有分词作为分词集合，并确定分词集合的分词总数量：其中，N为分词总数量，m_i为样本集中第i个样本字段的分词数量。

本发明实施例中，将ω_i作为样本字段中的每个分词的数量的权重值，将所有分词作为分词集合，相当于将第i个样本字段的分词进行复制，样本字段的每个分词总共生成ω_i个，故对于第i个样本字段，其包含ω_im_i个分词，则n个样本字段的分词总数量即为

例如，如上述表1所示，第3个样本字段“手机号码”分词后得到两个分词“手机”和“号码”，即m₃＝2；又由于该样本字段“手机号码”相对应有3个样本数据，则ω₃＝3。此时，在将样本字段“手机号码”的分词添加至分词集合时，相当于将该样本字段重复了ω₃＝3次，即共添加了6个分词，即{“手机”、“号码”、“手机”、“号码”、“手机”、“号码”}。通过为样本字段设置权重值ω_i的方式来提高具有多个样本数据的样本字段的权重，提高样本字段与相应的脱敏规则之间的关联关系，从而提高利用脱敏模型确定脱敏规则的的准确性。

步骤B23：分别确定样本字段的每个分词a_ij在分词集合中的词频：

其中，f_ij表示第i个样本字段中第j个分词a_ij的词频，j∈[1,m_i]；k表示具有分词a_ij的样本字段的顺位，ω_k表示第k个样本字段的分词数量的权重值，λ_k表示第k个样本字段中包含分词a_ij的数量。

本发明实施例中，在计算样本集中第i个样本字段中第j个分词a_ij的词频时，仍然需要考虑分词的权重；即在将样本集中包含该分词a_ij的所有样本字段作为参考量的同时，还要引入样本字段的权重。具体的，第k个样本字段中包含有分词a_ij，即k表示具有分词a_ij的样本字段的顺位；此时即可根据第k个样本字段的权重值ω_k来确定第k个样本字段中所包含的分词a_ij的数量。同时，由于一个样本字段中可能包含多个相同的分词，即第k个样本字段中包含λ_k个分词a_ij，故第k个样本字段中共包含ω_kλ_k个分词a_ij。其中，由于一般样本字段的字符较短，一般不会包含重复的分词，即λ_k可以默认为1，以简化计算过程。同时，由于第i个样本字段中一定包含分词a_ij，故k的一个取值一定为i；k的其他取值具体根据实际情况而定。

例如，如上述表1所示，若需要计算第3个样本字段“手机号码”中的第2个字段“号码”的词频，即分词a₃₂“号码”的词频，此时k的一个取值为3；由于第2个样本字段中也包含分词“号码”，即k的另一个取值为2；同时，两个样本字段中均只包含一个分词“号码”，故λ₂和λ₃均为1。分词a₃₂“号码”的词频同理，可计算样本字段其他分词的词频。

本发明实施例通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，提高了样本字段与相应的脱敏规则之间的关联关系，从而提高利用脱敏模型确定脱敏规则的的准确性。

步骤B3：根据分词的词频生成样本字段的字段特征向量，并将字段特征向量作为脱敏模型的输入。

本发明实施例中，在确定分词的词频后即可生成相应的字段特征向量，进而根据该字段特征向量作为模型的输入参数一部分对模型进行训练。例如，第i个样本字段的字段特征向量利用样本字段本身的语义(分词结果)、以及其在整个样本字段集中的词频来训练脱敏模型，更容易确定字段对应的脱敏规则。比如，身份证号码、手机号码等具有相同的分词“号码”，且“号码”对应的数据一般均为数值型的数据，可以采用相同或相似的脱敏规则，此时即可通过高词频的“号码”这一分词更容易正确确定脱敏规则。

在上述实施例的基础上，步骤102“将待脱敏数据和待脱敏字段作为脱敏模型的输入，确定待脱敏数据的脱敏规则”包括：

步骤C1：对待脱敏数据进行分段处理，确定待脱敏数据每段的待脱敏子数据。

本发明实施例中，在确定待脱敏数据的脱敏规则时，首先对待脱敏数据进行分段处理。具体的，可以基于预设的分段规则对待脱敏数据进行分段处理，从而可以确定待脱敏数据每段的待脱敏子数据。例如，若该待脱敏数据为数字形式，则可按照预设的位数对该待脱敏数据进行分词，比如将11位的待脱敏数据分为三段子数据：3位-4位-4位，或者4位-4位-3位等。

步骤C2：将待脱敏数据和待脱敏字段作为脱敏模型的输入，确定待脱敏数据的第一脱敏规则；并将待脱敏子数据和与待脱敏数据相应的待脱敏字段作为脱敏模型的输入，确定待脱敏子数据的第二脱敏规则。

步骤C3：在第二脱敏规则属于第一脱敏规则时，根据第一脱敏规则对待脱敏数据进行脱敏处理。

本发明实施例中，基于待脱敏字段和整个的待脱敏数据来确定该待脱敏数据的脱敏规则，即第一脱敏规则；同时，将每个待脱敏子数据也作为一个独立的数据，且该待脱敏子数据的字段与待脱敏数据的字段相同，也为该待脱敏字段，此时将待脱敏子数据和与待脱敏数据相应的待脱敏字段作为脱敏模型的输入，可以确定待脱敏子数据的脱敏规则，即第二脱敏规则。当第二脱敏规则属于第一脱敏规则时，说明利用第二脱敏规则对该待脱敏子数据进行脱敏处理是利用第一脱敏规则对整个的待脱敏数据进行脱敏处理的一部分，即根据第一脱敏规则对待脱敏数据进行脱敏处理，此时也可以保证对每个待脱敏子数据进行正确的脱敏处理。

在上述实施例的基础上，在第二脱敏规则不属于第一脱敏规则时，对待脱敏数据进行脱敏处理的过程还包括：

步骤C4：根据第二脱敏规则对待脱敏数据中的待脱敏子数据进行脱敏处理，并根据第一脱敏规则对待脱敏数据中除待脱敏子数据之外的数据进行脱敏处理。

本发明实施例中，当第二脱敏规则不属于第一脱敏规则时，则说明只是利用第一脱敏规则对待脱敏数据进行脱敏处理，可能并不能完全正确的对待脱敏数据进行脱敏。具体的，在实际场景中，由于待脱敏数据可能包含不同的信息内容，不同内容可能采用不同的脱敏方式更合适。比如身份证号码包括：六位数字地址码、八位数字出生日期码、三位数字顺序码和一位数字校验码，其中的地址码和出生日期码可以采用不同的脱敏方式进行脱敏，而后续的数字顺序码可以采用其他方式脱敏、甚至不脱敏。通过利用第二脱敏规则对待脱敏子数据进行脱敏处理，可以将脱敏处理的粒度精细到子数据的维度，使得脱敏处理更加精细、准确。同时，通过对待脱敏数据进行分词处理，可以对每个分词部分(即待脱敏子数据)进行相应的脱敏处理，以组合脱敏的方式进行脱敏，脱敏效果更好、更能符合业务的需求，且安全性更高。

本发明实施例提供的一种数据脱敏的方法，建立输入是字段和相应数据的脱敏模型，在需要确定待脱敏数据的脱敏规则时，将该待脱敏数据以及相应的待脱敏字段作为脱敏模型的输入，通过脱敏模型可以确定待脱敏数据的脱敏规则。基于数据和字段两个维度来确定待脱敏数据的脱敏规则，可以使得确定脱敏规则的结果更加准确；且该方法适用于确定数据库中的大量数据的脱敏规则，可以省去人工去逐条设置脱敏规则的繁琐工作，在提高数据脱敏效率的同时，还可以节约人力成本。通过对样本数据进行分段，可以更加突出样本数据在脱敏过程中的处理特点；将样本数据和样本子数据综合起来作为脱敏模型的输入进行训练，使得训练后的脱敏模型更能体现样本数据与相应的脱敏规则之间的关联关系。通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，提高了样本字段与相应的脱敏规则之间的关联关系，从而提高利用脱敏模型确定脱敏规则的的准确性。通过利用第二脱敏规则对待脱敏子数据进行脱敏处理，可以将脱敏处理的粒度精细到子数据的维度，使得脱敏处理更加精细、准确。

以上详细介绍了数据脱敏的方法流程，该方法也可以通过相应的装置实现，下面详细介绍该装置的结构和功能。

本发明实施例提供的一种数据脱敏的装置，参见图3所示，包括：

模型建立模块31，用于建立脱敏模型，所述脱敏模型的输入为字段和与所述字段相应的数据，输出为所述数据的脱敏规则；

处理模块32，用于确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段，将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的脱敏规则；

脱敏模块33，用于根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。

在上述实施例的基础上，所述模型建立模块31包括：

获取单元，用于获取样本集，所述样本集包括样本字段、与所述样本字段相对应的一个或多个样本数据以及每个样本数据的预设脱敏规则；

训练单元，用于将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入、将所述样本数据的预设脱敏规则作为所述脱敏模型的输出，对所述脱敏模型进行训练，确定训练后的脱敏模型；

测试单元，用于根据测试集对训练后的所述脱敏模型进行测试，在所述脱敏模型通过测试时，将训练后的所述脱敏模型作为最终建立的脱敏模型。

在上述实施例的基础上，所述训练单元将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入包括：

根据预设脱敏规则中的规则信息对相应的样本数据进行分段处理，确定每段的样本子数据，所述预设脱敏规则的规则信息包括脱敏位置和脱敏位数；

根据所述样本数据生成数据总特征向量，并根据每段的所述样本子数据生成相应的数据子特征向量，将所述数据总特征数据向量和所有的所述数据子特征向量作为脱敏模型的输入。

分别对样本集中的所述样本字段进行分词处理，确定每个所述样本字段的分词；

将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频；

根据分词的词频生成所述样本字段的字段特征向量，并将所述字段特征向量作为脱敏模型的输入。

在上述实施例的基础上，所述将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频，包括：

分别确定所述样本集中每个所述样本字段所对应的样本数据的数量ω_i，ω_i表示第i个样本字段所对应的样本数量，i∈[1,n]，n为所述样本集中的样本字段的数量；

将ω_i作为所述样本字段中的每个分词的数量的权重值，将所有分词作为分词集合，并确定所述分词集合的分词总数量：其中，N为分词总数量，m_i为所述样本集中第i个样本字段的分词数量；

分别确定所述样本字段的每个分词a_ij在所述分词集合中的词频：

其中，f_ij表示第i个样本字段中第j个分词a_ij的词频，j∈[1,m_i]；k表示具有所述分词a_ij的样本字段的顺位，ω_k表示第k个样本字段的分词数量的权重值，λ_k表示第k个样本字段中包含分词a_ij的数量。

在上述实施例的基础上，所述处理模块32用于：

对所述待脱敏数据进行分段处理，确定所述待脱敏数据每段的待脱敏子数据；

将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的第一脱敏规则；并将所述待脱敏子数据和与所述待脱敏数据相应的待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏子数据的第二脱敏规则；

在所述第二脱敏规则属于所述第一脱敏规则时，根据所述第一脱敏规则对所述待脱敏数据进行脱敏处理。

在上述实施例的基础上，在所述第二脱敏规则不属于所述第一脱敏规则时，所述脱敏模块33用于：

根据所述第二脱敏规则对所述待脱敏数据中的待脱敏子数据进行脱敏处理，并根据所述第一脱敏规则对所述待脱敏数据中除所述待脱敏子数据之外的数据进行脱敏处理。

本发明实施例提供的一种数据脱敏的装置，建立输入是字段和相应数据的脱敏模型，在需要确定待脱敏数据的脱敏规则时，将该待脱敏数据以及相应的待脱敏字段作为脱敏模型的输入，通过脱敏模型可以确定待脱敏数据的脱敏规则。基于数据和字段两个维度来确定待脱敏数据的脱敏规则，可以使得确定脱敏规则的结果更加准确；且该装置适用于确定数据库中的大量数据的脱敏规则，可以省去人工去逐条设置脱敏规则的繁琐工作，在提高数据脱敏效率的同时，还可以节约人力成本。通过对样本数据进行分段，可以更加突出样本数据在脱敏过程中的处理特点；将样本数据和样本子数据综合起来作为脱敏模型的输入进行训练，使得训练后的脱敏模型更能体现样本数据与相应的脱敏规则之间的关联关系。通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，提高了样本字段与相应的脱敏规则之间的关联关系，从而提高利用脱敏模型确定脱敏规则的的准确性。通过利用第二脱敏规则对待脱敏子数据进行脱敏处理，可以将脱敏处理的粒度精细到子数据的维度，使得脱敏处理更加精细、准确。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，其包含用于执行上述数据脱敏的方法的程序，该计算机可执行指令可执行上述任意方法实施例中的方法。

其中，所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

图4示出了本发明的另一个实施例的一种计算机设备的结构框图。所述计算机设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算机设备的具体实现做限定。

该计算机设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信，其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU，或者是专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行，以使处理器1110能够执行上述任意方法实施例中的方法。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据脱敏的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述建立脱敏模型包括：

获取样本集，所述样本集包括样本字段、与所述样本字段相对应的一个或多个样本数据以及每个样本数据的预设脱敏规则；

将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入、将所述样本数据的预设脱敏规则作为所述脱敏模型的输出，对所述脱敏模型进行训练，确定训练后的脱敏模型；

根据测试集对训练后的所述脱敏模型进行测试，在所述脱敏模型通过测试时，将训练后的所述脱敏模型作为最终建立的脱敏模型。

3.根据权利要求2所述的方法，其特征在于，所述将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入包括：

5.根据权利要求4所述的方法，其特征在于，所述将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的脱敏规则，包括：

7.根据权利要求6所述的方法，其特征在于，在所述第二脱敏规则不属于所述第一脱敏规则时，所述对所述待脱敏数据进行脱敏处理包括：

8.一种数据脱敏的装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现权利要求1至7中任一项所述方法的步骤。