CN116881687B

CN116881687B - 一种基于特征提取的电网敏感数据识别方法及装置

Info

Publication number: CN116881687B
Application number: CN202310751109.8A
Authority: CN
Inventors: 那琼澜; 苏丹; 张实君; 来骥; 杨艺西; 任建伟; 庞思睿; 曽婧; 李硕; 徐相森
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2024-04-05
Anticipated expiration: 2043-06-25
Also published as: CN116881687A

Abstract

本申请公开了一种基于特征提取的电网敏感数据识别方法及装置，涉及电网安全加固技术领域，融合数据应用场景和数据内容以构建电网敏感数据对应的多为特征空间，将其应用去从待处理的目标文本中识别目标敏感数据，提高识别准确率，以提供更佳地识别敏感数据的解决方案。本申请的主要技术方案为：采集电网敏感数据作为样本数据；融合数据应用场景抽取和数据内容识别，通过抽取所述样本数据的属性以提取到多维度特征，构建所述样本数据对应的多维度特征空间；基于所述多维度特征空间，从待处理的目标文本中识别出目标敏感数据。

Description

一种基于特征提取的电网敏感数据识别方法及装置

技术领域

本申请涉及电网安全加固技术领域，尤其涉及一种基于特征提取的电网敏感数据识别方法及装置。

背景技术

电网数据量大、类型和特征复杂多样，敏感数据识别是数据安全防护的前提。传统使用的敏感数据识别技术，对内容特征显著的个人信息有较高的识别准确率，例如个人身份证号、银行卡号等，但是对内容特征不显著的敏感数据识别准确率不高。

例如“某某创业园区”既可能是用电地址，也可能是客户名称，如果仅仅是根据字面意思，则无法进一步确定它是否为敏感数据的。

所以为了满足对敏感数据精准识别的越来越高的需求，亟待更佳地识别敏感数据的解决方案。

发明内容

有鉴于此，本申请提供一种基于特征提取的电网敏感数据识别方法及装置，融合数据应用场景和数据内容以构建电网敏感数据对应的多为特征空间，将其应用去从待处理的目标文本中识别目标敏感数据，如此不管内容是否包含显著敏感数据，都能够达到更加精准的识别，从而提供更佳地识别敏感数据的解决方案。

为了达到上述目的，本申请主要提供如下技术方案：

本申请第一方面提供了一种基于特征提取的电网敏感数据识别方法，该方法包括：

采集电网敏感数据作为样本数据；

融合数据应用场景抽取和数据内容识别，通过抽取所述样本数据的属性以提取到多维度特征，构建所述样本数据对应的多维度特征空间；

基于所述多维度特征空间，从待处理的目标文本中识别出目标敏感数据。

本申请第二方面提供了一种基于特征提取的电网敏感数据识别装置，该装置包括：

采集单元，用于采集电网敏感数据作为样本数据；

第一构建单元，用于融合数据应用场景抽取和数据内容识别，通过抽取所述样本数据的属性以提取到多维度特征，构建所述样本数据对应的多维度特征空间；

处理单元，用于基于所述多维度特征空间，从待处理的目标文本中识别出目标敏感数据。

本申请第三方面提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如上述的基于特征提取的电网敏感数据识别方法。

本申请第四方面提供了一种电子设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

其中，所述处理器、所述存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行如上述的基于特征提取的电网敏感数据识别方法。

借由上述技术方案，本申请提供的技术方案至少具有下列优点：

本申请提供一种基于特征提取的电网敏感数据识别方法及装置，本申请首先采集电网敏感数据作为样本数据，然后融合数据应用场景抽取和数据内容识别，通过抽取样本数据的属性以提取到多维度特征，去构建样本数据对应的多维度特征空间，该多维度特征空间相当于是融合了业务属性和数据内容本身的特征而构建的，从而对于不管内容是否包含显著敏感数据，将这样多维度特征空间应用去从待处理的目标文本中识别目标敏感数据，都能够达到更加精准识别。相较于现有技术，解决了传统使用的敏感数据识别技术难以应对处理包含不显著敏感数据的数据内容的技术问题，本申请能够大大提高敏感数据识别的准确率，从而提供更佳地识别敏感数据的解决方案。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的一种基于特征提取的电网敏感数据识别方法流程图；

图2为本申请实施例提供的多维度特征空间的示意图；

图3为本申请实施例提供的另一种基于特征提取的电网敏感数据识别方法流程图；

图4为本申请实施例例举的最优特征向量生成流程图；

图5为本申请实施例例举的基于影响程度的敏感数据分级方法流程示意图；

图6为本申请实施例提供的一种基于特征提取的电网敏感数据识别装置的组成框图；

图7为本申请实施例提供的另一种基于特征提取的电网敏感数据识别装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种基于特征提取的电网敏感数据识别方法，如图1所示，对此本发明实施例提供以下具体步骤：

101、采集电网敏感数据作为样本数据。

对于数据采集，首先通过已有的资产探查管理系统获取需要采集数据的应用服务器、数据库服务器、运维终端等的资产信息，然后自动登录采集所需要的文件、文档、图片、数据库、图像、二进制文件等数据。

电网敏感数据采集的来源包括应用服务器采集、数据库采集、运维终端采集等，例如：

(1)应用服务器数据采集：对FTP、共享目录形式的文件服务器、Exchange邮件服务器、以及其他应用服务器进行数据采集。

(2)数据库服务器数据采集：对Oracle、MSSQL、Mysql、PostgreSQL，Access、DB2、Informix、Sybase等主流数据库进行数据采集。

(3)运维终端数据采集：对运维终端上存储的各种形式的文件、文档、图片、图像、二进制文件等进行数据采集。

在本申请实施例中，将采集到电网敏感数据作为样本数据，以便基于此构建更多样、全面的敏感数据特征，应用到对任何一个待处理文本进行敏感数据识别处理。

另外需要说明的是，对于采集到的数据，会存在有缺失值、重复值等，在使用之前需要进行数据预处理。数据预处理没有标准的流程，通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为：去除唯一属性、处理缺失值、属性编码、数据标准化、正则化、特征选择、主成分分析。

102、融合数据应用场景抽取和数据内容识别，通过抽取样本数据的属性以提取到多维度特征，构建样本数据对应的多维度特征空间。

在本申请实施例中，主要为通过从样本数据中抽取属性以提取多维度特征。其中，属性抽取由两个部分组成，即数据应用场景抽取和数据内容识别，如此相当于是分别从数据的应用场景和数据本身出发，为电网敏感数据提供多维度特征。

相比传统的属性抽取方案(即只关注数据内容本身)，本步骤将数据具体应用的场景与数据内容相结合，共同提取敏感数据属性，从而可以提取更多的特征，进而可以比传统方案构建出更加多维度的特征空间。

示例性的，例如：对于构建的多维度特征空间，主要从敏感数据内容特征、敏感数据业务特征和敏感数据泄露危害特征等维度进行构建，特征空间示意图，如图2所示。

内容特征、业务特征和泄露危害特征各自之下还包含了许多子特征。例如：在内容特征下包括规划用户身份特征、服务内容特征、服务数据特征和设备信息特征等；在业务特征下包括规划建设特征、系统资源特征、系统运维特征和安全管理特征等；在泄露危害特征下包括规划违规记录特征、物理位置特征、服务日志特征和用户统计特征等。这些从数据应用场景和从数据本身中提取出的特征共同组成了多维度特征空间。

103、基于多维度特征空间，从待处理的目标文本中识别出目标敏感数据。

如多维度特征空间，它的最大优点就是不局限于数据内容本身，从而对那些数据内容本身不具有显著敏感数据的，也能达到识别出其中敏感数据的目的。

以上，本申请实施例提供了一种基于特征提取的电网敏感数据识别方法，本申请实施例首先采集电网敏感数据作为样本数据，然后融合数据应用场景抽取和数据内容识别，通过抽取样本数据的属性以提取到多维度特征，去构建样本数据对应的多维度特征空间，该多维度特征空间相当于是融合了业务属性和数据内容本身的特征而构建的，从而对于不管内容是否包含显著敏感数据，将这样多维度特征空间应用去从待处理的目标文本中识别目标敏感数据，都能够达到更加精准识别。相较于现有技术，解决了传统使用的敏感数据识别技术难以应对处理包含不显著敏感数据的数据内容的技术问题，本申请实施例能够大大提高敏感数据识别的准确率，从而提供更佳地识别敏感数据的解决方案。

为了对上述实施例做出更加详细的说明，本申请实施例还提供了另一种基于特征提取的电网敏感数据识别方法，如图3所示，对此本申请实施例提供以下具体步骤：

201、采集电网敏感数据作为样本数据。

202、融合数据应用场景抽取和数据内容识别，通过抽取样本数据的属性以提取到多维度特征，构建样本数据对应的多维度特征空间。

在本申请实施例中，对步骤201-202的解释说明，参见步骤101-102，此处不再赘述了。

另外，需要说明的是，虽然基于多维度特征能够达到提高识别敏感数据的准确率的目的，但是出于识别操作成本考虑，本申请实施例提供优选实施方案为：基于多维度特征空间构建最优特征集，从而减少掉一些冗余且不够显著特征，也就是减少识别敏感数据过程中特征之间比对成本，从而大大提高识别敏感数据的效率，具体步骤参见步骤203-205。

203、基于多维度特征空间中包含的特征，构建原始特征集。

204、利用预置关联度计算方法，从原始特征集中选出在各个特征之间最大相关且最小冗余的目标特征，以构建最优特征集。

其中，预置关联度计算方法是包括相关分析与回归分析的。特征间的关联是指特征之间确实存在一定的联系，但是数量关系表现为不严格的相互依存关系。即对一个特征或几个特征出现某一值时，另一特征表现为在一定范围内随机波动，具有非确定性。

相关分析是研究特征之间关联的紧密程度，并用相关系数或指数来表示。其目的是揭示特征之间是否存在相关关系，确定相关关系的表现形式以及确定特征间关联的密切程度和方向。另一方面，回归分析对具有关联的两个或两个以上特征之间的变化的一般关系进行测定，确立一个相应的关联函数，描述特征变动的相互关系，以便从一个特征来推测另一个特征，为估计预测值提供一个重要的方法，根据回归分析建立的函数成为回归函数。

相关分析是回归分析的基础和前提，回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现特征之间的关系的具体形式，而回归分析则需要依靠相关分析来表现特征之间数量变化的相关程度，在特征关联度计算中，要把相关分析和回归分析结合起来。

在本申请实施例中，利用构建出的特征空间，使用最优特征生成技术，在敏感数据的特征集合(即多维度特征空间)中进行最优特征向量的生成和选择，即：利用特征之间的相关特性对特征进行筛选排序，采用最大相关最小冗余特性实现最优特征选择。

示例性的，得到最优特征集的具体实施步骤包括如下：

(1)采集电网敏感数据作为原始数据集D、基于启发式搜索算法从原始数据集D中得到原始特征集F，将特征标识作为标签集C，特征标识相应关联的敏感数据的属性，而不仅仅作为标识使用，将最终生成的最优特征集定义为S。

(2)初始化最优特征集S：首先将S设为空集，计算原始特征集F里每一个特征的互信息p(fc)为联合概率密度函数，p(f)和p(c)为边缘概率密度函数。

选择和标签集C相关性最大的特征变量记为f_max，存入S集合；同时将f_max从集合F中去除。

(3)使用贪婪搜索方法寻找符合要求的下一个特征，并进行特征评估和特征排序：

遍历集合F中的所有特征，计算该特征与标签集C的相关性，以及与集合F内其他特征之间两两间冗余性，得到f_max。

f_max表示与标签集合C相关性最大，同时与F集合内其他元素的冗余性最小的特征；其中H(f_j)＝-p(f_j)lbp(f_j)定义为变量f_j的信息熵，为变量f_j在集合C下的条件熵。

如上步骤(1)(2)和(3)，将f_max加入到集合S中，并将其从集合F中剔除，再重复执行直至直到集合F为空，输出子集S。例举最优特征向量生成流程图，如图4所示。

205、利用最优特征集，从待处理的目标文本中识别出目标敏感数据。

206、对目标敏感数据进行分类处理。

本步骤对得到的目标敏感数据进行分类处理，以便达到对目标敏感数据的更加细化管理。

根据电网数据特点及业务场景，敏感数据可分为四大类数据(即四个分类)：(1)用户身份相关数据：包括用户身份和标识信息和用户网络身份鉴权信息；(2)用户服务内容数据：包括服务内容和资料数据；(3)用户服务衍生数据：包括用户服务使用数据和设备信息数据；(4)企业运营管理数据：包括企业管理数据、业务运营数据、网络运维数据和合作伙伴数据。敏感数据的匹配按照业务属性和逻辑关系进行。

需要说明的是，本申请实施例通过分类处理，不局限于对目标敏感数据的整体判断，在目标敏感数据可能横跨多个分类时，还可以进一步判断目标敏感数据中某些数据内容是属于哪个分类的，以达到更加充分全面的敏感数据细化管理。

目标敏感数据可以包括结构化数据和非结构化数据(即可分为两部分数据)，由此本申请实施例针对结构化数据和非结构化数据各自的数据特点，对这两部分数据各自进行分类处理，细化步骤包括如下：

首先，按照结构化数据和非结构化数据各自具有的特点，将目标敏感数据划分成两个部分，第一部分数据对应为结构化数据，第二部分数据对应为非结构化数据。

其次，对于第一部分数据的处理方法为如下：

步骤A1、构建预置结构化数据源，预置结构化数据源包括C列和R行，C列表征敏感字段，R行为在敏感字段下的数据表现形式。

例如，C列表征敏感字段，如数字、日期，也可能是文字，但不存在二进制数据类型。而R行为在敏感字段下的数据表现形式，例如，在敏感字段“日期”下的表现形式是多样的。

步骤A2、将第一部分数据与预置结构化数据源进行比对，以确定第一部分数据对应属于的分类。

在本申请实施例中，通过将第一部分数据与预置结构化数据源进行比对，将得到第一部分数据中的数据与如上由“C列和R行”组成格式化内容中的匹配程度。从而基于这个匹配程度，进一步基于所匹配的内容信息，判断第一部分数据是属于如上提及的哪个分类的。

此外，由于非结构化数据将更倾向于涉及到自然语言处理，所以对于第二部分数据的处理方法为例如：利用预置敏感数据分类模型对第二部分数据进行处理，以确定第二部分数据对应属于的分类。

以上根据对第一部分数据和第二部分数据各自执行分类，完成对目标敏感数据的分类处理，以达到在分类上对目标敏感数据的细化管理。

207、对目标敏感数据进行分级处理。

数据分级按照对国家安全影响、企业利益影响和用户利益影响进行级别匹配。在数据分类基础上，根据电网数据重要程度以及泄露后对国家安全、社会秩序、企业经营管理和公众利益造成的影响和危害程度，对数据资源进行分级。本步骤可进一步细化包括如下步骤：

步骤B1、将目标敏感数据划分成多个数据组，每个数据组表征一个待分级处理的对象。

对目标敏感数据，基于它包含内容信息的多样性，可将其分成多个数据组，从而基于每个数据组进行敏感数据分级处理，从而在细化处理基础上，也能准确地核查出其敏感数据级别。

步骤B2、根据数据组所包含的内容信息，模拟构建在数据安全受到破坏时造成影响的客体。

步骤B3、通过将客体与预置客体安全级别进行比对，得到客体对应的目标安全级别。

步骤B4、将目标安全级别，反向确定为数据组的敏感级别。

对于安全级别而言，它越高则相应反向证明其敏感级别也是越高的，由此，本申请实施例从模拟数据组在数据安全受到破坏时造成影响的角度(即反向探查角度)，由于造成影响越严重，则表明客体的安全级别越高，也就相应的敏感级别也是越高的，从而基于这个反向探查角度，间接地来判断数据组的敏感级别。

另外，由于造成影响的严重程度是不容易衡量的，因此本申请实施例采用“客体被影响”而进行衡量表征，例如“商业机密泄露”，并预先构建预置客体安全级别，从而以客体的安全级别，间接反应表征“”造成影响的严重程度。

例如，基于预置客体安全级别，定义“商业数据”为“第3级”，则相应的，由于“数据组”在数据安全受到破坏时造成影响的客体(即“商业秘密泄露”)，而确定的“商业秘密”所对应得到“敏感数据级别”也可为“第3级”。

步骤B5、根据每个数据组对应的敏感级别，综合得到目标敏感数据对应的敏感级别。

进一步的，在步骤B5中，若数据组的敏感级别表征为对应分值，则根据数据组的敏感级别对应表征为对应分值，得到数据组对应的分值，例如，通过对数据组的分值进行加权处理，得到目标敏感数据对应的分值，按照预置规则，将目标敏感数据对应分值转换为对应的敏感级别。从而利用数值量化来清楚展示敏感级别。由此在级别处理上，本申请实施例实现对目标敏感数据的细化管理。

如在步骤B1-B5基础之上，本申请实施例还例举如下具体实例进行解释说明，以及示例性的，例举如图5所示的基于影响程度的敏感数据分级方法流程示意图：

(1)确定数据分级对象；

电网数据分级对象可以是最小数据类，也可以是最小数据类下的具体数据字段。

(2)确定数据安全受到破坏时造成影响的客体；

数据的安全属性(机密性、完整性、可用性)遭到破坏时造成的影响的客体包括：国家安全和社会公共利益，企业利益和用户利益。

1)对国家安全和社会公共利益的影响应考虑数据一旦未经授权披露、丢失、滥用、篡改、销毁，可能造成的后果对国家安全和社会公共利益的影响程度。

2)对企业利益的影响应考虑如下3个方面：

①业务影响应考虑数据安全事件发生后对生产业务造成的影响。

②财务影响应考虑数据安全事件发生后导致的财务损失。包括：直接损失(收入受损、缴纳罚款、赔偿金或其他资源损失等)和恢复成本(比如恢复数据、恢复业务、消除影响、安抚/挽回客户等涉及的资金或人工成本等)。

③声誉影响应考虑数据安全事件发生后被外界所知所造成的声誉受损，包括客户信任度、公司形象、行业声誉、社会认同感等。

3)对用户利益的影响应考虑如下用户数据一旦发生安全事件后，对用户财产、声誉、生活状态以及生理和心理等方面产生的影响。

(3)评定对影响客体的影响程度；

将分级对象对照数据分级影响程度参照表进行映射，判断分级对象发生丢失、泄露、被篡改、被损毁等安全事件时对影响客体的侵害程度。

(4)确定数据分级对象的安全等级；

根据数据对象对客体的影响程度，取影响程度中的最高影响等级为该数据对象的重要敏感程度。例如：若某数据对象发生安全事件时对国家安全和社会公共利益的影响程度为低，对企业利益影响程度为低，对用户利益影响程度为高，则该数据对象的重要敏感程度取三者中最高，即为高。

按照如上原则，本申请实施例根据敏感程度不同，将敏感数据划分为三级，例如下：

第3级商密数据：指涉及企业商业秘密的数据。商业秘密是指为公司所有、且不为公众所知悉、能为公司带来经济利益、具有实用性并经公司采取保密措施的经营信息和技术信息。

第2级企业重要数据：指在公司经营管理过程中产生的不涉及商业秘密，但数据敏感度高，与公司利益密切相关的且存在一定的社会影响的数据，如公司内部生产经营生成的企业重要数据、电力客户敏感信息和第三方提供的重要外部数据等。企业重要数据的存储、传输、交换等环节需严格采用相关安全防护措施。

第1级一般数据：指公司在经营管理过程中产生的其他数据，不包含商密数据和企业重要数据，如公共服务数据等。

商密数据、企业重要数据和一般数据与国家相关要求中数据分级、公司保密要求的对应关系和示例如下表一所示：

表一

进一步的，作为对上述图1、图3所示方法的实现，本申请实施例提供了一种基于特征提取的电网敏感数据识别装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于提高敏感数据识别的准确率，具体如图6所示，该装置包括：

采集单元31，用于采集电网敏感数据作为样本数据；

第一构建单元32，用于融合数据应用场景抽取和数据内容识别，通过抽取所述样本数据的属性以提取到多维度特征，构建所述样本数据对应的多维度特征空间；

处理单元33，用于基于所述多维度特征空间，从待处理的目标文本中识别出目标敏感数据。

进一步的，如图7所示，所述处理单元33包括：

第一构建模块331，用于基于多维度特征空间中包含的特征，构建原始特征集；

第二构建模块332，用于利用预置关联度计算方法，从所述原始特征集中选出在各个所述特征之间最大相关且最小冗余的目标特征，以构建最优特征集；

处理模块333，用于利用所述最优特征集，从待处理的目标文本中识别出目标敏感数据。

进一步的，如图7所示，所述装置还包括：

划分单元34，用于按照结构化数据和非结构化数据各自具有的特点，将所述目标敏感数据划分成两个部分，第一部分数据对应为结构化数据，第二部分数据对应为非结构化数据；

第二构建单元35，用于构建预置结构化数据源，所述预置结构化数据源包括C列和R行，所述C列表征敏感字段，所述R行为在所述敏感字段下的数据表现形式；

第一确定单元36，用于将所述第一部分数据与所述预置结构化数据源进行比对，以确定所述第一部分数据对应属于的分类；

所述第一确定单元36，还用于利用预置敏感数据分类模型对所述第二部分数据进行处理，以确定所述第二部分数据对应属于的分类；

所述第一确定单元36，还用于根据所述分类，完成对所述目标敏感数据的分类处理。

进一步的，如图7所示，所述装置还包括：

分组单元37，用于将所述目标敏感数据划分成多个数据组，每个数据组表征一个待分级处理的对象；

模拟单元38，用于根据所述数据组所包含的内容信息，模拟构建在数据安全受到破坏时造成影响的客体；

第二确定单元39，用于通过将所述客体与预置客体安全级别进行比对，得到所述客体对应的目标安全级别；

所述第二确定单元39，还用于将所述目标安全级别，反向确定为所述数据组的敏感级别；

所述第二确定单元39，还用于根据每个所述数据组对应的所述敏感级别，综合得到所述目标敏感数据对应的敏感级别。

进一步的，如图7所示，若所述数据组的敏感级别表征为对应分值，则所述第二确定单元39，还用于：

根据所述数据组的敏感级别对应表征为对应分值，得到所述数据组对应的分值；通过对所述数据组的分值进行加权处理，得到所述目标敏感数据对应的分值；按照预置规则，将所述目标敏感数据对应分值转换为对应的敏感级别。

综上所述，本申请实施例提供一种基于特征提取的电网敏感数据识别方法及装置，本申请实施例融合数据应用场景抽取和数据内容识别，通过抽取敏感数据的样本数据的属性以提取到多维度特征，去构建样本数据对应的多维度特征空间，将这样多维度特征空间应用去从待处理的目标文本中识别目标敏感数据，都能够达到更加精准识别。此外，本申请实施例还利用自动分类和分级对识别出的敏感数据进行更加精细化管理，由此提供更佳地识别敏感数据的解决方案。

所述基于特征提取的电网敏感数据识别装置包括处理器和存储器，上述采集单元、第一构建单元和处理单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来融合数据应用场景和数据内容以构建电网敏感数据对应的多为特征空间，将其应用去从待处理的目标文本中识别目标敏感数据，如此不管内容是否包含显著敏感数据，都能够达到更加精准的识别，从而提供更佳地识别敏感数据的解决方案。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述基于特征提取的电网敏感数据识别方法。

本申请实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述基于特征提取的电网敏感数据识别方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有上基于特征提取的电网敏感数据识别方法步骤的程序。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于特征提取的电网敏感数据识别方法，其特征在于，所述方法包括：

采集电网敏感数据作为样本数据；

基于所述多维度特征空间，从待处理的目标文本中识别出目标敏感数据，包括：基于多维度特征空间中包含的特征，构建原始特征集；利用预置关联度计算方法，从所述原始特征集中选出在各个所述特征之间最大相关且最小冗余的目标特征，以构建最优特征集；利用所述最优特征集，从待处理的目标文本中识别出目标敏感数据；

按照结构化数据和非结构化数据各自具有的特点，将所述目标敏感数据划分成两个部分，第一部分数据对应为结构化数据，第二部分数据对应为非结构化数据；构建预置结构化数据源，所述预置结构化数据源包括C列和R行，所述C列表征敏感字段，所述R行为在所述敏感字段下的数据表现形式；将所述第一部分数据与所述预置结构化数据源进行比对，以确定所述第一部分数据对应属于的分类；利用预置敏感数据分类模型对所述第二部分数据进行处理，以确定所述第二部分数据对应属于的分类；根据所述分类，完成对所述目标敏感数据的分类处理；

将所述目标敏感数据划分成多个数据组，每个数据组表征一个待分级处理的对象；根据所述数据组所包含的内容信息，模拟构建在数据安全受到破坏时造成影响的客体；通过将所述客体与预置客体安全级别进行比对，得到所述客体对应的目标安全级别；将所述目标安全级别，反向确定为所述数据组的敏感级别；根据每个所述数据组对应的所述敏感级别，综合得到所述目标敏感数据对应的敏感级别。

2.根据权利要求1所述的方法，其特征在于，若所述数据组的敏感级别表征为对应分值，则所述根据每个所述数据组对应的所述敏感级别，综合得到所述目标敏感数据对应的敏感级别，包括：

根据所述数据组的敏感级别对应表征为对应分值，得到所述数据组对应的分值；

通过对所述数据组的分值进行加权处理，得到所述目标敏感数据对应的分值；

按照预置规则，将所述目标敏感数据对应分值转换为对应的敏感级别。

3.一种基于特征提取的电网敏感数据识别装置，其特征在于，所述装置包括：

采集单元，用于采集电网敏感数据作为样本数据；

处理单元，用于基于所述多维度特征空间，从待处理的目标文本中识别出目标敏感数据；

所述处理单元包括：第一构建模块，用于基于多维度特征空间中包含的特征，构建原始特征集；第二构建模块，用于利用预置关联度计算方法，从所述原始特征集中选出在各个所述特征之间最大相关且最小冗余的目标特征，以构建最优特征集；处理模块，用于利用所述最优特征集，从待处理的目标文本中识别出目标敏感数据；

划分单元，用于按照结构化数据和非结构化数据各自具有的特点，将所述目标敏感数据划分成两个部分，第一部分数据对应为结构化数据，第二部分数据对应为非结构化数据；

第二构建单元，用于构建预置结构化数据源，所述预置结构化数据源包括C列和R行，所述C列表征敏感字段，所述R行为在所述敏感字段下的数据表现形式；

第一确定单元，用于将所述第一部分数据与所述预置结构化数据源进行比对，以确定所述第一部分数据对应属于的分类；

所述第一确定单元，还用于利用预置敏感数据分类模型对所述第二部分数据进行处理，以确定所述第二部分数据对应属于的分类；

所述第一确定单元，还用于根据所述分类，完成对所述目标敏感数据的分类处理；

分组单元，用于将所述目标敏感数据划分成多个数据组，每个数据组表征一个待分级处理的对象；

模拟单元，用于根据所述数据组所包含的内容信息，模拟构建在数据安全受到破坏时造成影响的客体；

第二确定单元，用于通过将所述客体与预置客体安全级别进行比对，得到所述客体对应的目标安全级别；

所述第二确定单元，还用于将所述目标安全级别，反向确定为所述数据组的敏感级别；

所述第二确定单元，还用于根据每个所述数据组对应的所述敏感级别，综合得到所述目标敏感数据对应的敏感级别。

4.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1或2所述的基于特征提取的电网敏感数据识别方法。

5.一种电子设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1或2所述的基于特征提取的电网敏感数据识别方法。