CN110222170A

CN110222170A - 一种识别敏感数据的方法、装置、存储介质及计算机设备

Info

Publication number: CN110222170A
Application number: CN201910337266.8A
Authority: CN
Inventors: 许超俊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-09-10
Also published as: WO2020215571A1

Abstract

本发明提供了一种识别敏感数据的方法、装置、存储介质及计算机设备，其中，该方法包括：建立识别模型；获取待测信息；根据识别子模型判断待测字段是否为敏感字段，并根据分类子模型判断待测数据是否为敏感数据；在待测字段是敏感字段且待测数据是敏感数据时，确定待测信息为敏感的信息。该方法在识别敏感数据时增加识别数据的字段的过程，通过建立识别子模型和分类子模型对待识别的待测信息中的待测字段和待测数据分别进行识别判断，基于字段和数据两个维度来确定待测信息是否为敏感信息，从而可以更加准确的判断待测数据是否为敏感数据，可以使得识别准确度更高。

Description

一种识别敏感数据的方法、装置、存储介质及计算机设备

技术领域

本发明涉及数据识别技术领域，特别涉及一种识别敏感数据的方法、装置、存储介质及计算机设备。

背景技术

敏感信息一般指涉及隐私权的信息，包括财产信息、健康生理信息、生物识别信息、身份信息和网络身份标识信息等，比如，身份证号、银行卡号、电话号码、网页浏览记录、行踪轨迹等。

用户相关的敏感信息目前主要依靠人工识别与定义模糊校验字段实现对用户敏感信息的获取。人工识别大量表字段时人力消耗较高，主观性较强，出现漏识别、错识别的可能性较高。自定义模糊校验字段的方法容易造成字段名称在选取后模糊匹配时发生错误，将不该匹配的字段匹配上，或者因为模糊匹配范围过小将该匹配的字段漏过。并且自定义模糊校验字段的方法需要大量的理解数据和阅读数据，并进行人工的定义，对操作人员的业务能力和数据理解的能力要求较高。

发明内容

为了解决现有技术存在的问题，本发明提供一种识别敏感数据的方法、装置、存储介质及计算机设备。

根据本发明的第一个方面，提供一种识别敏感数据的方法，包括：

建立识别模型，所述识别模型包括用于识别字段是否为敏感字段的识别子模型和用于区分敏感数据和非敏感数据的分类子模型；

获取待测信息，所述待测信息包括待测字段和与所述待测字段相对应的待测数据；

根据所述识别子模型判断所述待测字段是否为敏感字段，并根据所述分类子模型判断所述待测数据是否为敏感数据；

在所述待测字段是敏感字段且所述待测数据是敏感数据时，确定所述待测信息为敏感的信息。

根据本发明的第二个方面，提供一种识别敏感数据的装置，包括：

模型模块，用于建立识别模型，所述识别模型包括用于识别字段是否为敏感字段的识别子模型和用于区分敏感数据和非敏感数据的分类子模型；

获取模块，用于获取待测信息，所述待测信息包括待测字段和与所述待测字段相对应的待测数据；

判断模块，用于根据所述识别子模型判断所述待测字段是否为敏感字段，并根据所述分类子模型判断所述待测数据是否为敏感数据；

识别处理模块，用于在所述待测字段是敏感字段且所述待测数据是敏感数据时，确定所述待测信息为敏感的信息。

根据本申请的第三个方面，提供一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现识别敏感数据的步骤。

根据本申请的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现识别敏感数据的步骤。

本发明实施例提供的一种识别敏感数据的方法、装置、存储介质及计算机设备，利用数据库中数据包含字段属性这一特点，在识别敏感数据时增加识别数据的字段的过程，通过建立识别子模型和分类子模型对待识别的待测信息中的待测字段和待测数据分别进行识别判断，基于字段和数据两个维度来确定待测信息是否为敏感信息，从而可以更加准确的判断待测数据是否为敏感数据，可以使得识别准确度更高。且该方法适用于识别数据库中的大量数据，可以省去人工去逐条查看大量实际数据而建立起来的字段与数据之间的联系，提高识别效率。将与敏感字段对应的样本数据设为敏感数据，与非敏感字段对应的样本数据设为非敏感数据，从而可以快速确定样本数据是否为敏感数据，方便快速获取包含大量数据的样本集。通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，建立的识别子模型更加准确，可以进一步提高对字段敏感识别的准确性。通过识别子模型与分类子模型的两个判断结果实现判断结果的相互验证，进一步提高识别准确度。通过将该待测信息作为样本继续训练识别模型中的识别子型，可以修正识别子模型，提高识别子模型的识别准确度。同时，通过对识别模型的不断学习和优化，可以逐渐提高模型的准确度，最终建立比较实用的识别模型。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的识别敏感数据的方法流程图；

图2为本发明实施例提供的识别敏感数据的方法中，建立识别模型的具体方法流程图；

图3为本发明实施例提供的识别敏感数据的装置结构图；

图4为本发明实施例提供的用于执行识别敏感数据方法的计算机设备的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供的一种识别敏感数据的方法，通过识别模型识别敏感数据，具体的，参见图1所示，该方法包括：

步骤101：建立识别模型，识别模型包括用于识别字段是否为敏感字段的识别子模型和用于区分敏感数据和非敏感数据的分类子模型。

本发明实施例中，将识别模型分为字段和数据两个维度，即识别模型包括识别子模型和分类子模型，具体可以通过机器学习等方式训练识别模型、并建立识别模型。其中，识别子模型用于识别某个字段是否为敏感字段，敏感字段即为包含敏感信息的字段，比如字段“身份证号码”、“手机号码”等；字段具体可以为文字形式、数字形式等，比如“身份证号”、“2018”、“姓名”等；该识别子模型具体可以为神经网络模型或分类模型。分类子模型用于识别数据是否为敏感数据，即区分敏感数据和非敏感数据；该数据具体为文字形式或者数字形式，比如“110105……”(身份证号码)，或“张三”、“李四”(姓名)等；分类子模型具体可采用XGboost、随机森林等模型。

本发明实施例中，一个字段可以对应一个或多个数据，即可以以数据库的形式存储字段和数据。例如，字段“姓名”对应多个数据，包括数据“张三”、数据“李四”等。

步骤102：获取待测信息，待测信息包括待测字段和与待测字段相对应的待测数据。

本发明实施例中，在建立识别模型后，即可基于该识别模型对待识别的信息进行识别验证，即对待测信息进行识别验证，以确定该待测信息是否为敏感的信息。相应的，待测信息中也包含待测字段和相应的待测数据。一般情况下，待测信息包含一个待测字段和一个相应的待测数据，若需要对同一个待测字段的多个待测数据进行识别时，将每个待测数据均拆分为一个待测信息。例如，待识别的信息的待测字段为“出生日期”，待测数据包括“01/12”和“11/06”，则可以将其拆分为两个待测信息：“出生日期-01/12”、“出生日期-11/06”，分别对每个待测信息进行识别。

步骤103：根据识别子模型判断待测字段是否为敏感字段，并根据分类子模型判断待测数据是否为敏感数据。

步骤104：在待测字段是敏感字段且待测数据是敏感数据时，确定待测信息为敏感的信息。

本发明实施例中，在确定待测信息后，即可利用识别模型判断该待测信息是否为敏感信息。此时，根据识别子模型判断待测信息中的待测字段是否为敏感字段，根据分类子模型判断待测信息中的待测数据是否为敏感数据，基于字段和数据两个维度来确定待测信息是否为敏感信息，可以使得识别准确度更高。具体的，在待测字段是敏感字段且待测数据是敏感数据时，即可说明该待测信息是敏感信息。

同时，如上所述，即使需要识别大量的数据，也可以将数据拆分为多个待测信息，从而可以实现对数据库中的一列数据、一个数据表或整个数据库进行敏感识别。可选的，待测信息中的待测字段也可以对应多个待测数据，即在识别过程中不需要重复判断某个待测字段是否是敏感字段，此时也可以确定每个待测数据所对应的待测字段是否是敏感字段，从而减少判断待测字段是否为敏感字段的判断次数，减少了处理量，进而提高了处理效率。

本发明实施例提供的一种识别敏感数据的方法，利用数据库中数据包含字段属性这一特点，在识别敏感数据时增加识别数据的字段的过程，通过建立识别子模型和分类子模型对待识别的待测信息中的待测字段和待测数据分别进行识别判断，基于字段和数据两个维度来确定待测信息是否为敏感信息，从而可以更加准确的判断待测数据是否为敏感数据，可以使得识别准确度更高。且该方法适用于识别数据库中的大量数据，可以省去人工去逐条查看大量实际数据而建立起来的字段与数据之间的联系，提高识别效率。

本发明另一实施例提供一种识别敏感数据的方法，该方法包括上述实施例中的步骤101-104，其实现原理以及技术效果参见图1对应的实施例。同时，本发明实施例中，步骤101“建立识别模型”包括：

步骤1011：获取样本集，样本集包括样本字段和与样本字段相对应的一个或多个样本数据；样本字段包括敏感字段和非敏感字段，且与敏感字段对应的样本数据为敏感数据，与非敏感字段对应的样本数据为非敏感数据。

本发明实施例中，样本集是用于对识别模型进行训练的样本，其包含样本字段和相应的样本数据；样本集具体可以以数据库的方式、或数据库中表的方式进行存储。例如，样本库用于存储该样本集，样本库中每个字段对应一个样本字段，每个字段下所对应的一列数据即为相应的样本数据。其中，有的样本字段是敏感字段，例如“身份证号码”、“地理位置”等；有的样本字段不是敏感字段，例如“序号”、“天气”等。同时，由于样本数据的量较大，为了方便确定样本数据的敏感性，即样本数据是否为敏感数据，本发明实施例中将与敏感字段对应的样本数据设为敏感数据，与非敏感字段对应的样本数据设为非敏感数据，从而可以快速确定样本数据是否为敏感数据，方便快速获取包含大量数据的样本集。

步骤1012：根据样本集中的所有样本字段对识别子模型进行训练，确定训练后的识别子模型，根据所有的样本数据对分类子模型进行训练，确定训练后的分类子模型。

步骤1013：根据测试集对训练后的识别子模型和分类子模型进行测试，在识别子模型和分类子模型通过测试时，根据训练后的识别子模型和分类子模型生成识别模型。

本发明实施例中，在获取到样本集后，即可利用样本字段对识别子模型进行训练，确定识别子模型的参数；同样可以利用样本数据对分类子模型进行训练，确定分类子模型的参数，从而确定训练后的识别子模型和分类子模型。之后即可利用测试集对训练后的模型进行测试，以验证模型的效果。

其中，测试集为用于测试模型的测试样本集合，与样本集类似，测试集也包括测试字段和与测试字段相对应的一个或多个测试数据，且已知测试字段是否是敏感字段，并已知测试数据是否是敏感数据。利用测试集对训练后的识别子模型和分类子模型进行测试，可以得到更加准确地识别模型。当识别子模型或分类子模型没有通过测试时，则对识别子模型或分类子模型继续训练即可，直至训练后的识别子模型和分类子模型通过测试，此时即可将训练后的识别子模型和分类子模型作为后续可用的模型，即步骤103中根据训练后的识别子模型和分类子模型进行敏感识别判断。

在上述实施例的基础上，“根据所有的样本数据对分类子模型进行训练”的过程具体可以采用现有的对敏感数据进行分类的训练方法，而本发明实施例中，步骤1012“根据样本集中的所有样本字段对识别子模型进行训练”中基于样本字段的词频对识别子模型进行训练，对样本字段进行训练的过程包括：

步骤A1：分别对样本集中的样本字段进行分词处理，确定每个样本字段的分词。

本发明实施例中，对样本字段进行分词后，即可确定每个样本字段的分词；例如，样本字段“手机号码”分词处理后可以得到两个分词：“手机”和“号码”。其中，分词处理的过程具体可基于分词模型进行分词，本实施例对此不做限定。

步骤A2：将所有样本字段的分词作为分词集合，确定样本字段每个分词在分词集合中的词频。

本发明实施例中，在确定样本集中每个样本字段的分词后，即可生成总的分词集合，从而确定分词在该分词集合中的词频。本发明实施例中，由于样本字段可能对应多个样本数据，某个样本字段包含的敏感数据越多，则说明该样本字段越是与敏感相关的字段，即基于该样本字段判断其他字段是否是敏感字段时，该样本字段具有更高的权重。具体的，步骤A2“将所有样本字段的分词作为分词集合，确定样本字段每个分词在分词集合中的词频”包括：

步骤A21：分别确定样本集中每个样本字段所对应的样本数据的数量ω_i，ω_i表示第i个样本字段所对应的样本数量，i∈[1,n]，n为样本集中的样本字段的数量。

本发明实施例中，每个样本字段可以对应一个或多个样本数据，根据样本字段对应的样本数据的数量来确定样本字段的权重。例如，参见下面表1所示，样本集中包含三个样本字段“姓名”、“身份证号码”、“手机号码”，每个样本字段对应的样本数据如表1所示，表1中空白部分表示不存在样本数据，则样本字段“姓名”对应有4个样本数据，“身份证号码”对应有2个样本数据，“手机号码”对应有3个样本数据。

表1

姓名	身份证号码	手机号码
			赵	110105xxxx	135xxx
钱
			孙	310000xxxx	134xxx
李		186xxx

步骤A22：将ω_i作为样本字段中的每个分词的数量的权重值，将所有分词作为分词集合，并确定分词集合的分词总数量：其中，N为分词总数量，m_i为样本集中第i个样本字段的分词数量。

本发明实施例中，将ω_i作为样本字段中的每个分词的数量的权重值，将所有分词作为分词集合，相当于将第i个样本字段的分词进行复制，样本字段的每个分词总共生成ω_i个，故对于第i个样本字段，其包含ω_im_i个分词，则n个样本字段的分词总数量即为

例如，如上述表1所示，第3个样本字段“手机号码”分词后得到两个分词“手机”和“号码”，即m₃＝2；又由于该样本字段“手机号码”相对应有3个样本数据，则ω₃＝3。此时，在将样本字段“手机号码”的分词添加至分词集合时，相当于将该样本字段重复了ω₃＝3次，即共添加了6个分词，即{“手机”、“号码”、“手机”、“号码”、“手机”、“号码”}。通过为样本字段设置权重值ω_i的方式来提高具有多个样本数据的样本字段的权重，进一步提高对字段敏感识别的准确性。

步骤A23：分别确定样本字段的每个分词a_ij在分词集合中的词频：

其中，f_ij表示第i个样本字段中第j个分词a_ij的词频，j∈[1,m_i]；k表示具有分词a_ij的样本字段的顺位，ω_k表示第k个样本字段的分词数量的权重值，λ_k表示第k个样本字段中包含分词a_ij的数量。

本发明实施例中，在计算样本集中第i个样本字段中第j个分词a_ij的词频时，仍然需要考虑分词的权重；即在将样本集中包含该分词a_ij的所有样本字段作为参考量的同时，还要引入样本字段的权重。具体的，第k个样本字段中包含有分词a_ij，即k表示具有分词a_ij的样本字段的顺位；此时即可根据第k个样本字段的权重值ω_k来确定第k个样本字段中所包含的分词a_ij的数量。同时，由于一个样本字段中可能包含多个相同的分词，即第k个样本字段中包含λ_k个分词a_ij，故第k个样本字段中共包含ω_kλ_k个分词a_ij。其中，由于一般样本字段的字符较短，一般不会包含重复的分词，即λ_k可以默认为1，以简化计算过程。同时，由于第i个样本字段中一定包含分词a_ij，故k的一个取值一定为i；k的其他取值具体根据实际情况而定。

例如，如上述表1所示，若需要计算第3个样本字段“手机号码”中的第2个字段“号码”的词频，即分词a₃₂“号码”的词频，此时k的一个取值为3；由于第2个样本字段中也包含分词“号码”，即k的另一个取值为2；同时，两个样本字段中均只包含一个分词“号码”，故λ₂和λ₃均为1。分词a₃₂“号码”的词频同理，可计算样本字段其他分词的词频。

本发明实施例通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，建立的识别子模型更加准确，可以进一步提高对字段敏感识别的准确性。

步骤A3：根据分词的词频生成样本字段的特征向量，并根据样本字段的特征向量对识别子模型进行训练。

本发明实施例中，在确定分词的词频后即可生成相应的特征向量，进而根据该特征向量作为模型的输入参数对模型进行训练。例如，第i个样本字段的敏感特征向量利用样本字段本身的语义(分词结果)、以及其在整个样本字段集中的词频来训练识别子模型，更容易识别出敏感数据字段的特性。比如，一般身份证号码、手机号码等均是敏感数据，此时即可确定“号码”这一分词具有更高概率被认定为是敏感字段对应的分词。

本领域技术人员可以理解，在步骤103中对待测字段进行判断时，与上述步骤A1-A3类似，也通过对待测字段进行分词并确定词频后生成待测字段的特征向量，并进而根据识别子模型进行识别判断；其与训练过程中确定字段的特征向量的过程类似，此处不做赘述。

在上述实施例的基础上，在步骤103之后，该方法还包括：

步骤B1：在待测数据是敏感数据但待测字段不是敏感字段时，获取待测字段对应的多个其他数据，并根据分类子模块判断每个其他数据是否为敏感数据。

步骤B2：当所有的其他数据中有超过预设数量或预设比例的数据是敏感数据时，将待测字段标记为敏感字段，并将标记后的待测信息作为样本训练识别模型。

本发明实施例中，由于样本集中的样本字段的数量远小于样本数据的数量，故一般来说，相对于分类子模型，识别子模型的识别准确度更低。故当待测数据是敏感数据但待测字段不是敏感字段时，需要进一步判断该待测字段是不是敏感字段。具体的，该待测字段为数据库中的一个字段，该待测字段除了对应该待测数据之外，还会对应其他的数据；本发明实施例中通过判断该待测字段对应的其他数据是否是敏感数据来及你一步确定待测字段是不是为敏感字段。如步骤B2所示，当所有的其他数据中有超过预设数量或预设比例的数据是敏感数据时，说明该待测字段中包含大量的敏感数据，则该待测字段也应该为敏感字段。同时，由于现有的识别子模型并不能正确识别该待测字段(现有的识别子模型认为该待测字段不是敏感字段)，本发明实施例同通过将该待测信息作为样本继续训练识别模型中的识别子型，可以修正识别子模型，提高识别子模型的识别准确度。同时，通过对识别模型的不断学习和优化，可以逐渐提高模型的准确度，最终建立比较实用的识别模型。

此外，在步骤B1之后，当所有的其他数据中没有超过预设数量或预设比例的数据是敏感数据时，此时可以确定该待测字段中只是包含了少量的敏感数据，此时可以将待测字段作为非敏感字段，输出对该待测信息的识别结果：待测字段为非敏感字段，待测数据为敏感数据。可选的，还可以通过与该待测字段相关的其他字段再次进一步判断该待测字段的敏感性。具体的，当所有的其他数据中没有超过预设数量或预设比例的数据是敏感数据时，该方法还包括：

步骤B3：查询是否存在目标字段，待测数据的一部分与目标字段对应的数据相同，且待测字段的其他数据的一部分也与目标字段对应的其他数据相同；当存在目标字段、且目标字段为敏感字段时，将待测字段标记为敏感字段，并将标记后的待测信息作为样本训练识别模型。

本发明实施例中，通过判断待测字段的数据是否包含其他敏感数据来确定该待测字段是否为敏感字段。具体的，若存在一个目标字段，且待测字段中的数据的一部分与目标字段的数据相同，则说明待测字段的数据与该目标字段的数据之间是包含关系，即待测字段包含目标字段；此时若目标字段为敏感字段，则目标字段的数据也为敏感数据，相应的，由于待测字段包含目标字段，则待测字段以及待测字段中的数据也均具有敏感性。例如，待测字段为“身份证号码”，若存在一个目标字段“出生日期”，由于身份证号码中的一部分是出生日期的信息，则待测字段中的数据的一部分是与“出生日期”的数据完全相同的，此时若“出生日期”为敏感字段，则“身份证号码”也应该设为敏感字段。本发明实施例中通过查询待测字段所包含的目标字段来确定待测字段是否是敏感字段，可以对识别子模型的识别结果进行修正，进一步提高对待测字段的识别准确性。

在上述实施例的基础上，在步骤103之后，该方法还包括：

步骤C1：在待测数据不是敏感数据但待测字段是敏感字段时，获取待测字段对应的多个其他数据，并根据分类子模块判断每个其他数据是否为敏感数据。

步骤C2：当所有的其他数据中有超过预设数量或预设比例的数据是敏感数据时，将待测数据标记为敏感数据，并将标记后的待测信息作为样本训练识别模型。

本发明实施例中，若待测数据不是敏感数据但待测字段是敏感字段时，与上述实施例中的步骤B1-B2类似，仍然可以通过判断该待测字段中其他数据是否是敏感数据来对分类子模型的分类结果进行修正。具体的，若所有的其他数据中有超过预设数量或预设比例的数据是敏感数据时，此时说明该待测数据有极大概率是敏感数据，此时将待测数据标记为敏感数据，并将标记后的待测信息作为样本训练识别模型，修正分类子模型，也可以提高分类子模型的识别准确度。同时，通过识别子模型与分类子模型的两个判断结果实现判断结果的相互验证，进一步提高识别准确度。

可选的，当所有的其他数据中没有超过预设数量或预设比例的数据是敏感数据时，与上述实施例步骤B3类似，在步骤C1之后，该方法还包括：

步骤C3：查询是否存在目标字段，待测数据的一部分与目标字段对应的数据相同，且待测字段的其他数据的一部分也与目标字段对应的其他数据相同；当存在目标字段、且目标字段为敏感字段时，将待测数据标记为敏感数据，并将标记后的待测信息作为样本训练识别模型。

同样的，本发明实施例中虽然确定待测字段为敏感字段，但是该待测字段中只有少量数据是敏感数据，此时需要对待测字段的数据进行进一步的识别验证，具体通过查询目标字段的方式进行识别验证。即，若存在目标字段，且目标字段中的数据均为敏感数据时，则将该待测字段的待测数据也作为敏感数据，实现对待测信息的准确识别。

在上述实施例的基础上，若待测数据不是敏感数据且待测字段不是敏感字段，也可以基于上述实施例步骤B1-B3和步骤C1-C3类似的过程进一步判断待测信息的敏感性。例如，获取待测字段对应的多个其他数据，并根据分类子模块判断每个其他数据是否为敏感数据；当所有的其他数据中有超过预设数量或预设比例的数据是敏感数据时，将待测数据标记为敏感数据，并将待测字段标记为敏感字段；将标记后的待测信息作为样本训练识别模型；当所有的其他数据中没有超过预设数量或预设比例的数据是敏感数据时，通过查询目标字段的方式确定待测字段是否是敏感字段以及待测数据是否是敏感数据。

本发明实施例提供的一种识别敏感数据的方法，利用数据库中数据包含字段属性这一特点，在识别敏感数据时增加识别数据的字段的过程，通过建立识别子模型和分类子模型对待识别的待测信息中的待测字段和待测数据分别进行识别判断，基于字段和数据两个维度来确定待测信息是否为敏感信息，从而可以更加准确的判断待测数据是否为敏感数据，可以使得识别准确度更高。且该方法适用于识别数据库中的大量数据，可以省去人工去逐条查看大量实际数据而建立起来的字段与数据之间的联系，提高识别效率。将与敏感字段对应的样本数据设为敏感数据，与非敏感字段对应的样本数据设为非敏感数据，从而可以快速确定样本数据是否为敏感数据，方便快速获取包含大量数据的样本集。通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，建立的识别子模型更加准确，可以进一步提高对字段敏感识别的准确性。通过识别子模型与分类子模型的两个判断结果实现判断结果的相互验证，进一步提高识别准确度。通过将该待测信息作为样本继续训练识别模型中的识别子型，可以修正识别子模型，提高识别子模型的识别准确度。同时，通过对识别模型的不断学习和优化，可以逐渐提高模型的准确度，最终建立比较实用的识别模型。

以上详细介绍了识别敏感数据的方法流程，该方法也可以通过相应的装置实现，下面详细介绍该装置的结构和功能。

本发明实施例还提供一种识别敏感数据的装置，参见图3所示，包括：

模型模块31，用于建立识别模型，所述识别模型包括用于识别字段是否为敏感字段的识别子模型和用于区分敏感数据和非敏感数据的分类子模型；

获取模块32，用于获取待测信息，所述待测信息包括待测字段和与所述待测字段相对应的待测数据；

判断模块33，用于根据所述识别子模型判断所述待测字段是否为敏感字段，并根据所述分类子模型判断所述待测数据是否为敏感数据；

识别处理模块34，用于在所述待测字段是敏感字段且所述待测数据是敏感数据时，确定所述待测信息为敏感的信息。

在上述实施例的基础上，所述模型模块包括：

获取样本单元，用于获取样本集，所述样本集包括样本字段和与所述样本字段相对应的一个或多个样本数据；所述样本字段包括敏感字段和非敏感字段，且与所述敏感字段对应的样本数据为敏感数据，与所述非敏感字段对应的样本数据为非敏感数据；

训练单元，用于根据所述样本集中的所有样本字段对识别子模型进行训练，确定训练后的识别子模型，根据所有的所述样本数据对分类子模型进行训练，确定训练后的分类子模型；

测试单元，用于根据测试集对训练后的所述识别子模型和所述分类子模型进行测试，在所述识别子模型和所述分类子模型通过测试时，根据训练后的所述识别子模型和所述分类子模型生成识别模型。

在上述实施例的基础上，所述训练单元包括：

分词子单元，用于分别对样本集中的所述样本字段进行分词处理，确定每个所述样本字段的分词；

处理子单元，用于将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频；

训练子单元，用于根据分词的词频生成所述样本字段的特征向量，并根据所述样本字段的特征向量对识别子模型进行训练。

在上述实施例的基础上，所述处理子单元具体用于：

分别确定所述样本集中每个所述样本字段所对应的样本数据的数量ω_i，ω_i表示第i个样本字段所对应的样本数量，i∈[1,n]，n为所述样本集中的样本字段的数量；

将ω_i作为所述样本字段中的每个分词的数量的权重值，将所有分词作为分词集合，并确定所述分词集合的分词总数量：其中，N为分词总数量，m_i为所述样本集中第i个样本字段的分词数量；

分别确定所述样本字段的每个分词a_ij在所述分词集合中的词频：

其中，f_ij表示第i个样本字段中第j个分词a_ij的词频，j∈[1,m_i]；k表示具有所述分词a_ij的样本字段的顺位，ω_k表示第k个样本字段的分词数量的权重值，λ_k表示第k个样本字段中包含分词a_ij的数量。

在上述实施例的基础上，识别处理模块34还用于：

在所述待测数据是敏感数据但所述待测字段不是敏感字段时，获取所述待测字段对应的多个其他数据，并根据所述分类子模块判断每个其他数据是否为敏感数据；

当所有的其他数据中有超过预设数量或预设比例的数据是敏感数据时，将所述待测字段标记为敏感字段，并将标记后的所述待测信息作为样本训练所述识别模型。

在上述实施例的基础上，识别处理模块34还用于：

在所述待测数据不是敏感数据但所述待测字段是敏感字段时，获取所述待测字段对应的多个其他数据，并根据所述分类子模块判断每个其他数据是否为敏感数据；

当所有的其他数据中有超过预设数量或预设比例的数据是敏感数据时，将所述待测数据标记为敏感数据，并将标记后的所述待测信息作为样本训练所述识别模型。

在上述实施例的基础上，当所有的其他数据中没有超过预设数量或预设比例的数据是敏感数据时，识别处理模块34还用于：

查询是否存在目标字段，所述待测数据的一部分与所述目标字段对应的数据相同，且所述待测字段的其他数据的一部分也与所述目标字段对应的其他数据相同；

当存在所述目标字段、且所述目标字段为敏感字段时，将所述待测字段标记为敏感字段和/或将所述待测数据标记为敏感数据，并将标记后的所述待测信息作为样本训练所述识别模型。

本发明实施例提供的一种识别敏感数据的装置，利用数据库中数据包含字段属性这一特点，在识别敏感数据时增加识别数据的字段的过程，通过建立识别子模型和分类子模型对待识别的待测信息中的待测字段和待测数据分别进行识别判断，基于字段和数据两个维度来确定待测信息是否为敏感信息，从而可以更加准确的判断待测数据是否为敏感数据，可以使得识别准确度更高。且该方法适用于识别数据库中的大量数据，可以省去人工去逐条查看大量实际数据而建立起来的字段与数据之间的联系，提高识别效率。将与敏感字段对应的样本数据设为敏感数据，与非敏感字段对应的样本数据设为非敏感数据，从而可以快速确定样本数据是否为敏感数据，方便快速获取包含大量数据的样本集。通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重，在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值，使得分词的词频更符合该样本集的特性，建立的识别子模型更加准确，可以进一步提高对字段敏感识别的准确性。通过识别子模型与分类子模型的两个判断结果实现判断结果的相互验证，进一步提高识别准确度。通过将该待测信息作为样本继续训练识别模型中的识别子型，可以修正识别子模型，提高识别子模型的识别准确度。同时，通过对识别模型的不断学习和优化，可以逐渐提高模型的准确度，最终建立比较实用的识别模型。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，其包含用于执行上述识别敏感数据的方法的程序，该计算机可执行指令可执行上述任意方法实施例中的方法。

其中，所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

图4示出了本发明的另一个实施例的一种计算机设备的结构框图。所述计算机设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算机设备的具体实现做限定。

该计算机设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信，其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU，或者是专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行，以使处理器1110能够执行上述任意方法实施例中的方法。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别敏感数据的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述建立识别模型包括：

获取样本集，所述样本集包括样本字段和与所述样本字段相对应的一个或多个样本数据；所述样本字段包括敏感字段和非敏感字段，且与所述敏感字段对应的样本数据为敏感数据，与所述非敏感字段对应的样本数据为非敏感数据；

根据所述样本集中的所有样本字段对识别子模型进行训练，确定训练后的识别子模型，根据所有的所述样本数据对分类子模型进行训练，确定训练后的分类子模型；

根据测试集对训练后的所述识别子模型和所述分类子模型进行测试，在所述识别子模型和所述分类子模型通过测试时，根据训练后的所述识别子模型和所述分类子模型生成识别模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本集中的所有样本字段对识别子模型进行训练包括：

分别对样本集中的所述样本字段进行分词处理，确定每个所述样本字段的分词；

将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频；

根据分词的词频生成所述样本字段的特征向量，并根据所述样本字段的特征向量对识别子模型进行训练。

4.根据权利要求3所述的方法，其特征在于，所述将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求5或6所述的方法，其特征在于，当所有的其他数据中没有超过预设数量或预设比例的数据是敏感数据时，还包括：

8.一种识别敏感数据的装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现权利要求1至7中任一项所述方法的步骤。