CN114969348B

CN114969348B - 基于逆变调节知识库的电子文件分级分类方法及系统

Info

Publication number: CN114969348B
Application number: CN202210893651.2A
Authority: CN
Inventors: 吴国华; 李成煜; 王玉娟; 张祯; 王秋华; 李逸佳
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2023-10-27
Anticipated expiration: 2042-07-27
Also published as: CN114969348A

Abstract

本发明属于电子文件安全管理技术领域，具体涉及基于逆变调节知识库的电子文件分级分类方法及系统。方法包括如下步骤：S1，构建公开电子文件知识库；S2，对拟判定电子文件进行预处理后，进行公开判定；S3，对步骤S2中无法公开判定的不明确文件，进行敏感判定。本发明具有在初始时不依赖于任何敏感电子文件，且能够有效解决机器学习辅助电子文件分级分类时敏感电子文件难以获取问题的特点。

Description

基于逆变调节知识库的电子文件分级分类方法及系统

技术领域

本发明属于电子文件安全管理技术领域，具体涉及基于逆变调节知识库的电子文件分级分类方法及系统。

背景技术

进入数字经济时代，各企事业单位产生了大量内部业务电子文件，一旦泄露将会产生严重安全隐患。提升各行业领域的数据安全治理能力已成为紧迫任务，必须对电子文件进行分级分类，并采取措施规范电子文件的分发和流转。

本发明所涉及的电子文件分级分类，是指从数据开放维度上，对涉及国家安全、社会秩序、公共利益以及个人、法人和其他组织的合法权益，依据法律法规或合同，要求限制性使用的政务、商务电子文件，进行公开或敏感两种类别判定。

目前，电子文件的敏感数据识别方法多以敏感关键词检测为主，但是无法融合上下文语义信息，且对无明显敏感关键词的电子文件不适用，存在很多检出率低、分级分类出现误报的情况。另外，运用机器学习技术进行电子文件分级分类的方法，使用各行业领域企事业单位内部产生的电子文件作为语料集作为训练样本数据，但因为敏感电子文件因知悉范围权限管控等因素获取样本量少且不足，导致训练效果无法达到应用要求。

因此，如何减少对敏感电子文件样本量的依赖，成为当前电子文件分级分类工作亟需解决的问题。

例如，申请号为CN201810258598.2的中国专利文献描述的基于模板的电子公文分类分级系统，包括用于提供敏感词和停用词的设置操作的敏感词、停用词管理模块；根据用户输入的敏感词和导入的源文件进行学习并生成模板的源文件学习模块；用于待检测文件的文本抽取的扫描模块；用于支持在企业内网环境中选择和导出模版和上级部门上传的源文件、在非企业内网环境只能选择导出模版的模板管理模块；用于将文本按照导出的模板进行敏感词匹配，对段落、全文相似度进行判定的涉密匹配模块。虽然能够解决现有的通过信息安全督查手段中敏感字库需统一设定存在适用性较差的问题和仅对敏感词进行匹配的敏感词排查过程存在很多误报的情况，但是其缺点在于，由于仍然以敏感关键词检测为主，因此无法融合上下文语义信息，且对无明显敏感关键词的电子文件不适用，存在很多检出率低、分级分类出现误报的情况。

发明内容

本发明是为了克服现有技术中，现有的电子文件的敏感数据识别方法，无法融合上下文语义信息，且对无明显敏感关键词的电子文件不适用，存在很多检出率低、分级分类出现误报的问题，提供了一种在初始时不依赖于任何敏感电子文件，能够有效解决机器学习辅助电子文件分级分类时敏感电子文件难以获取问题的基于逆变调节知识库的电子文件分级分类方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于逆变调节知识库的电子文件分级分类方法，包括如下步骤：

S1，构建公开电子文件知识库；

S2，对拟判定电子文件进行预处理后，进行公开判定；

S3，对步骤S2中无法公开判定的不明确文件，进行敏感判定。

作为优选，步骤S1中，所述公开电子文件知识库由互联网公开的各行业领域企事业单位电子文件进行处理后构建；所述各行业领域企事业单位电子文件构成公开知识，所述公开知识由企事业单位导入或通过爬虫工具在互联网爬取。

作为优选，步骤S1还包括如下步骤：

步骤S11，对所述公开知识进行预处理，形成公开知识的特征词序列；所述预处理包括分词和去噪声处理，所述去噪声处理包括去除停用词和标点符号；

步骤S12，将预处理后的特征词序列转换为特征向量，即公开知识词向量集合；

步骤S13，对公开知识词向量进行聚类，计算公开知识各类簇的中心向量，聚类公式如下：

其中，为凝聚度，表示度量聚类效果；为类簇的总数目；是类簇中的成员总数；为类簇中的第个成员；为文本与类簇中心点的相似度；为类簇的中心向量，通过下式求得：

其中，为聚类样本的权重，，且。

作为优选，步骤S2包括如下步骤：

步骤S21，对拟判定电子文件进行预处理，形成特征词序列；所述预处理包括分词和去噪声处理，所述去噪声处理包括去除停用词和标点符号；

步骤S22，将预处理后的特征词序列转换为特征向量；

步骤S23，计算特征向量与各类簇中心向量的相似度，其中，为相似度值序列，且；

步骤S24，根据与设定阈值的大小关系，对拟判定电子文件进行判定：

若存在，则“吸收”特征向量所对应的拟判定电子文件，即判定为公开电子文件，并将文件对应的特征向量加入到公开电子文件知识库中；

若，则“排斥”特征向量所对应的拟判定电子文件，并视为不明确文件，同时将不明确文件归为敏感或公开电子文件，并进入步骤S3。

作为优选，步骤S3包括如下步骤：

步骤S31，在专网环境下构建敏感电子文件知识库和非敏感电子文件知识库；对于专网环境下的知识库，初始状态下数据量为0，拟判定电子文件直接由专家辅助判定，经下述步骤后知识库数据量逐步增加；

步骤S32，对步骤S2中无法判定的不明确文件，计算不明确文件的特征向量与敏感电子文件知识库类簇中心向量的相似度，参照步骤S24设置的阈值，并进行敏感判定：

若敏感电子文件知识库“吸收”电子文件，则判定为敏感电子文件，若敏感电子文件知识库“排斥”电子文件，则视为无法判定的不明确文件，并进入下一步骤；

步骤S33，对步骤S32中无法判定的不明确文件，计算不明确文件的特征向量到与非敏感电子文件知识库类簇中心向量的相似度，参照步骤S24设置的阈值，并进行敏感判定：

若非敏感电子文件知识库“吸收”电子文件，则判定为非敏感电子文件，若非敏感电子文件知识库“排斥”电子文件，则视为无法判定的不明确文件，进入下一步骤，进行专家辅助判定；

步骤S34，对于步骤S33中无法判定的不明确文件，由企事业单位内部电子文件分级分类负责人和业务骨干担任专家，辅助判定电子文件为敏感或非敏感；

步骤S35，将步骤S33和步骤S34中判定为敏感的电子文件，加入敏感电子文件知识库；将步骤S33和步骤S34中判定为非敏感的电子文件，加入非敏感电子文件知识库。

本发明还提供了基于逆变调节知识库的电子文件分级分类系统，包括：

公开知识库判定系统，用于利用内网的公开电子文件知识库，对拟判定电子文件是否为公开进行判定，判定为公开的电子文件，直接加入公开电子文件知识库；

敏感知识库判定系统，用于将公开知识库判定系统无法判定的不明确文件，使用专网内的敏感电子文件知识库、非敏感电子文件知识库和专家辅助的方法进行判定，对于判定为敏感的电子文件，加入敏感电子文件知识库；判定为非敏感的电子文件，加入非敏感电子文件知识库；

单向导入接口，用于将数据从单位内网单向导入专网。

作为优选，所述公开知识库判定系统包括：

电子文件处理模块，用于对拟判定电子文件进行预处理，形成特征词序列，并将预处理后的特征词序列转换为特征向量；

知识获取模块，用于将企事业单位公开的电子文件经过数据处理形成公开知识类簇，并输出至公开电子文件知识库存储；

公开相似度计算器，用于计算由公开电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值，并输出相似度值序列；

公开度判定器，用于相似度值与设定的阈值进行比较，表示拟判定电子文件的公开程度，若由公开相似度计算器输入的相似度值大于设定的阈值，则判定电子文件为公开文件，否则将拟判定电子文件特征向量输出到敏感知识库判定系统；

公开电子文件知识库，用于存储公开的电子文件类簇。

作为优选，所述电子文件处理模块包括：

第一预处理模块，用于对拟判定电子文件进行预处理，形成特征词序列；所述预处理包括分词和去噪声处理，所述去噪声处理包括去除停用词和标点符号；

第一词向量生成模块，用于将预处理后的特征词序列转换为特征向量。

作为优选，所述知识获取模块包括：

第二预处理模块，用于对各企事业单位公开电子文件进行预处理，形成特征词序列，所述预处理包括分词和去噪声处理，所述去噪声处理包括去除停用词和标点符号；

第二词向量生成模块，用于将预处理后的特征词序列转换为特征向量；

聚类模块，用于对公开电子文件的特征向量进行聚类，将同一类的数据聚集到同一知识类簇，并计算公开样本中各知识类簇的中心向量。

作为优选，所述敏感知识库判定系统包括：

敏感相似度计算器，用于计算由敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值，并输出相似度值序列；

敏感度判定器，用于相似度值与设定的阈值进行比较，表示拟判定电子文件的敏感程度，若由敏感相似度计算器输入的相似度值大于设定的阈值，则判定电子文件为敏感文件，否则将拟判定电子文件特征向量输出到非敏感相似度计算器；

非敏感相似度计算器，用于计算由非敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值，并输出相似度值序列；

非敏感度判定器，用于当非敏感相似度计算器输入的相似度值大于设定的阈值，则判定电子文件为非敏感文件，否则将拟判定电子文件输出到专家辅助判定系统；

敏感电子文件知识库，用于存储在敏感知识库判定系统被判定为敏感的电子文件类簇；

非敏感电子文件知识库，用于存储企事业单位在敏感知识库判定系统中被判定为非敏感的电子文件类簇；

专家辅助判定系统，由企事业单位内部电子文件分级分类负责人和业务骨干担任专家，用于辅助判定电子文件为敏感或非敏感。

本发明与现有技术相比，有益效果是：（1）本发明在初始时不依赖于任何敏感电子文件，能有效解决机器学习辅助电子文件分级分类时，敏感电子文件难以获取的问题；随着各知识库数据量的不断增加，可以逐渐减少使用直至脱离专家辅助判定系统，实现电子文件的自动分类分级；（2）本发明适用于敏感电子文件的分级分类，也适用于涉密电子文件的分级分类；本发明可以部署在不同等级保护要求的专网，进行内部、敏感电子文件的分级分类；还可以部署在不同分级保护要求的专网，进行涉密电子文件的分级分类。

附图说明

图1为本发明实施例所提供的基于逆变调节知识库的电子文件分级分类方法的一种流程图；

图2为本发明实施例所提供的基于逆变调节知识库的电子文件分级分类系统的一种构架图；

图3为本发明实施例所提供的公开知识库判定系统的一种构架示意图；

图4为本发明实施例所提供的敏感知识库判定系统的一种构架示意图；

图5为本发明实施例所提供的电子文件处理模块的一种构架示意图；

图6为本发明实施例所提供的知识获取模块的一种构架示意图；

图7为本发明实施例所提供的基于逆变调节知识库的电子文件分级分类系统的一种硬件装置示意图；

图8为本发明实施例所提供的知识库“吸收”过程的一种示意图；

图9为本发明实施例所提供的知识库“排斥”过程的一种示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：

如图1所示，本发明提供了基于逆变调节知识库的电子文件分级分类方法，包括如下步骤：

S1，构建公开电子文件知识库；

利用各行业领域企事业单位在互联网公开的电子文件，构建公开电子文件知识库，公开电子文件经过数据处理后进行聚类，形成特征词向量集合,对于，为知识库中的类簇，为第类中的第个向量；并计算各类簇中心，得到中心向量集合，；

S2，对拟判定电子文件进行预处理后，进行公开判定；

对拟判定电子文件进行预处理后，使用在企事业单位内网环境下的外部知识库库判定系统进行公开判定，即计算该文件特征与公开电子文件知识库各类簇中心的相似度，并按照相似程度从大到小进行排序，得到相似度值序列，其中，为相似度值设置一个阈值，对拟判定电子文件是否为公开文件进行判定；向量的相似程度可以通过计算余弦距离得到；

S3，对步骤S2中无法公开判定的不明确文件，使用在专网环境下的敏感知识库判定系统进行敏感判定。

步骤S1中，所述公开电子文件知识库由互联网公开的各行业领域企事业单位电子文件进行处理后构建；所述各行业领域企事业单位电子文件构成公开知识，所述公开知识由企事业单位导入或通过爬虫工具在互联网爬取。

步骤S1还包括如下步骤：

其中，为聚类样本的权重，，且。

步骤S2包括如下步骤：

步骤S22，将预处理后的特征词序列转换为特征向量；

步骤S3包括如下步骤：

单向导入接口，用于将数据从单位内网单向导入专网。数据由单位内网单向导入专网的接口，数据无法通过此接口反向导出。

如图3所示，公开知识库判定系统包括：

公开电子文件知识库，用于存储公开的电子文件类簇。

如图5所示，电子文件处理模块包括：

第一词向量生成模块，用于将预处理后的特征词序列转换为特征向量，例如采用Word2Vec等技术。

如图6所示，知识获取模块包括：

如图4所示，敏感知识库判定系统包括：

在初始状态下，专网的两个知识库数据量为0，经系统运行一段时间后，知识库存储部分相关数据。专网知识库数据量的增加，也体现了本发明所涉及的逆变调节过程。

如图7所示，为本发明的硬件装置图，包括：公网、防火墙、主交换机、单位内网、单导、公网，其中：

公网，即互联网，用于实现公开知识的收集和企事业单位信息公开；

防火墙，对公网和单位内网实行逻辑隔离；

主交换机，实现公网与单位内网数据的转发；

单位内网，单位内网即维持单位日常办公需要、内部资源访问的网络，与公网互联互通，用于运行公开知识库判定系统；

单导，公开知识库判定系统无法判定的不明确文件通过单导进入专网敏感判定系统，数据进入专网无法导出；

专网，专用网为敏感或涉密网络，用于运行敏感知识库判定系统。

如图8和图9所示，为本发明知识库“排斥”与“吸收”示意图，其中：

如图8所示，拟判定电子文件对应向量输入知识库判定系统时，系统计算其与各类簇中心向量的相似度，其中与的相似度均大于阈值，与的相似度小于阈值，该电子文件即被“吸收”至知识库的类簇2；

如图9所示，拟判定电子文件对应向量输入知识库判定系统时，系统计算其与各类簇中心向量的相似度，其中与的相似度均大于阈值，则系统 “排斥”该电子文件。

本发明涉及的不明确文件，是指不能根据外网公开数据集或逆变调节知识库技术进行明确分级分类的文件。逆变调节知识库技术，即利用公开的电子文件在单位内网环境下构建公开电子文件知识库，利用其“吸收”公开文件、“排斥”无法判定的不明确文件的特性，进一步建立专网环境下的敏感和非敏感知识库，通过敏感知识库“吸收”敏感文件、“排斥”无法判定的不明确文件；非敏感知识库“吸收”非敏感文件、“排斥”无法判定的不明确文件；对判定系统无法判定的不明确文件，通过专家辅助系统进行敏感度判定，并将结果输入敏感知识库或非敏感知识库，从而有效实现电子文件分级分类。

本发明在初始时不依赖于任何敏感电子文件，能有效解决机器学习辅助电子文件分级分类时，敏感电子文件难以获取的问题；随着各知识库数据量的不断增加，可以逐渐减少使用直至脱离专家辅助判定系统，实现电子文件的自动分类分级；本发明适用于敏感电子文件的分级分类，也适用于涉密电子文件的分级分类；本发明可以部署在不同等级保护要求的专网，进行内部、敏感电子文件的分级分类；还可以部署在不同分级保护要求的专网，进行涉密电子文件的分级分类。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于逆变调节知识库的电子文件分级分类方法，其特征在于，包括如下步骤：

S1，构建公开电子文件知识库；

S2，对拟判定电子文件进行预处理后，进行公开判定；

S3，对步骤S2中无法公开判定的不明确文件，进行敏感判定；

步骤S1中，所述公开电子文件知识库由互联网公开的各行业领域企事业单位电子文件进行处理后构建；所述各行业领域企事业单位电子文件构成公开知识，所述公开知识由企事业单位导入通过或通过爬虫工具在互联网爬取；

步骤S1还包括如下步骤：

步骤S12，将预处理后的特征词序列转换为特征向量，即公开知识词向量集合

其中，J为凝聚度，表示度量聚类效果；k为类簇的总数目；m_i是类簇i中的成员总数；为类簇i中的第j个成员；/>为文本与类簇中心点的相似度；/>为类簇i的中心向量，通过下式求得：

其中，w_j为聚类样本i的权重，且/>

步骤S2包括如下步骤：

步骤S22，将预处理后的特征词序列转换为特征向量

步骤S23，计算特征向量与各类簇中心向量的相似度/>其中，(d₁,d₂,…,d_k,)为相似度值序列，且d₁≥d₂…≥d_k；

步骤S24，根据(d₁,d₂,…,d_k,)与设定阈值D的大小关系，对拟判定电子文件进行判定：

若存在d_x≥D(x∈(1～k))，则“吸收”特征向量所对应的拟判定电子文件，即判定为公开电子文件，并将文件对应的特征向量加入到公开电子文件知识库中；

若d₁<D，则“排斥”特征向量所对应的拟判定电子文件，并视为不明确文件，同时将不明确文件归为敏感或公开电子文件，并进入步骤S3；

步骤S3包括如下步骤：

2.基于逆变调节知识库的电子文件分级分类系统，用于实现权利要求1所述的基于逆变调节知识库的电子文件分级分类方法，其特征在于，所述基于逆变调节知识库的电子文件分级分类系统包括：

单向导入接口，用于将数据从单位内网单向导入专网。

3.根据权利要求2所述的基于逆变调节知识库的电子文件分级分类系统，其特征在于，所述公开知识库判定系统包括：

公开电子文件知识库，用于存储公开的电子文件类簇。

4.根据权利要求3所述的基于逆变调节知识库的电子文件分级分类系统，其特征在于，所述电子文件处理模块包括：

5.根据权利要求3所述的基于逆变调节知识库的电子文件分级分类系统，其特征在于，所述知识获取模块包括：

6.根据权利要求2所述的基于逆变调节知识库的电子文件分级分类系统，其特征在于，所述敏感知识库判定系统包括：