CN114969348B - 基于逆变调节知识库的电子文件分级分类方法及系统 - Google Patents
基于逆变调节知识库的电子文件分级分类方法及系统 Download PDFInfo
- Publication number
- CN114969348B CN114969348B CN202210893651.2A CN202210893651A CN114969348B CN 114969348 B CN114969348 B CN 114969348B CN 202210893651 A CN202210893651 A CN 202210893651A CN 114969348 B CN114969348 B CN 114969348B
- Authority
- CN
- China
- Prior art keywords
- electronic file
- knowledge base
- sensitive
- public
- judged
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 38
- 230000035945 sensitivity Effects 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 96
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 5
- 230000001419 dependent effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 238000001514 detection method Methods 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于电子文件安全管理技术领域,具体涉及基于逆变调节知识库的电子文件分级分类方法及系统。方法包括如下步骤:S1,构建公开电子文件知识库;S2,对拟判定电子文件进行预处理后,进行公开判定;S3,对步骤S2中无法公开判定的不明确文件,进行敏感判定。本发明具有在初始时不依赖于任何敏感电子文件,且能够有效解决机器学习辅助电子文件分级分类时敏感电子文件难以获取问题的特点。
Description
技术领域
本发明属于电子文件安全管理技术领域,具体涉及基于逆变调节知识库的电子文件分级分类方法及系统。
背景技术
进入数字经济时代,各企事业单位产生了大量内部业务电子文件,一旦泄露将会产生严重安全隐患。提升各行业领域的数据安全治理能力已成为紧迫任务,必须对电子文件进行分级分类,并采取措施规范电子文件的分发和流转。
本发明所涉及的电子文件分级分类,是指从数据开放维度上,对涉及国家安全、社会秩序、公共利益以及个人、法人和其他组织的合法权益,依据法律法规或合同,要求限制性使用的政务、商务电子文件,进行公开或敏感两种类别判定。
目前,电子文件的敏感数据识别方法多以敏感关键词检测为主,但是无法融合上下文语义信息,且对无明显敏感关键词的电子文件不适用,存在很多检出率低、分级分类出现误报的情况。另外,运用机器学习技术进行电子文件分级分类的方法,使用各行业领域企事业单位内部产生的电子文件作为语料集作为训练样本数据,但因为敏感电子文件因知悉范围权限管控等因素获取样本量少且不足,导致训练效果无法达到应用要求。
因此,如何减少对敏感电子文件样本量的依赖,成为当前电子文件分级分类工作亟需解决的问题。
例如,申请号为CN201810258598.2的中国专利文献描述的基于模板的电子公文分类分级系统,包括用于提供敏感词和停用词的设置操作的敏感词、停用词管理模块;根据用户输入的敏感词和导入的源文件进行学习并生成模板的源文件学习模块;用于待检测文件的文本抽取的扫描模块;用于支持在企业内网环境中选择和导出模版和上级部门上传的源文件、在非企业内网环境只能选择导出模版的模板管理模块;用于将文本按照导出的模板进行敏感词匹配,对段落、全文相似度进行判定的涉密匹配模块。虽然能够解决现有的通过信息安全督查手段中敏感字库需统一设定存在适用性较差的问题和仅对敏感词进行匹配的敏感词排查过程存在很多误报的情况,但是其缺点在于,由于仍然以敏感关键词检测为主,因此无法融合上下文语义信息,且对无明显敏感关键词的电子文件不适用,存在很多检出率低、分级分类出现误报的情况。
发明内容
本发明是为了克服现有技术中,现有的电子文件的敏感数据识别方法,无法融合上下文语义信息,且对无明显敏感关键词的电子文件不适用,存在很多检出率低、分级分类出现误报的问题,提供了一种在初始时不依赖于任何敏感电子文件,能够有效解决机器学习辅助电子文件分级分类时敏感电子文件难以获取问题的基于逆变调节知识库的电子文件分级分类方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
基于逆变调节知识库的电子文件分级分类方法,包括如下步骤:
S1,构建公开电子文件知识库;
S2,对拟判定电子文件进行预处理后,进行公开判定;
S3,对步骤S2中无法公开判定的不明确文件,进行敏感判定。
作为优选,步骤S1中,所述公开电子文件知识库由互联网公开的各行业领域企事业单位电子文件进行处理后构建;所述各行业领域企事业单位电子文件构成公开知识,所述公开知识由企事业单位导入或通过爬虫工具在互联网爬取。
作为优选,步骤S1还包括如下步骤:
步骤S11,对所述公开知识进行预处理,形成公开知识的特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
步骤S12,将预处理后的特征词序列转换为特征向量,即公开知识词向量集合;
步骤S13,对公开知识词向量进行聚类,计算公开知识各类簇的中心向量,聚类公式如下:
其中,为凝聚度,表示度量聚类效果;为类簇的总数目;是类簇中的成员总
数;为类簇中的第个成员;为文本与类簇中心点的相似度;为类簇的中心向
量,通过下式求得:
其中,为聚类样本的权重,,且。
作为优选,步骤S2包括如下步骤:
步骤S21,对拟判定电子文件进行预处理,形成特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
步骤S22,将预处理后的特征词序列转换为特征向量;
步骤S23,计算特征向量与各类簇中心向量的相似度,其
中,为相似度值序列,且;
步骤S24,根据与设定阈值的大小关系,对拟判定电子文件进行判
定:
若存在,则“吸收”特征向量所对应的拟判定电子文件,即判定
为公开电子文件,并将文件对应的特征向量加入到公开电子文件知识库中;
若,则“排斥”特征向量所对应的拟判定电子文件,并视为不明确文件,同
时将不明确文件归为敏感或公开电子文件,并进入步骤S3。
作为优选,步骤S3包括如下步骤:
步骤S31,在专网环境下构建敏感电子文件知识库和非敏感电子文件知识库;对于专网环境下的知识库,初始状态下数据量为0,拟判定电子文件直接由专家辅助判定,经下述步骤后知识库数据量逐步增加;
步骤S32,对步骤S2中无法判定的不明确文件,计算不明确文件的特征向量与敏感电子文件知识库类簇中心向量的相似度,参照步骤S24设置的阈值,并进行敏感判定:
若敏感电子文件知识库“吸收”电子文件,则判定为敏感电子文件,若敏感电子文件知识库“排斥”电子文件,则视为无法判定的不明确文件,并进入下一步骤;
步骤S33,对步骤S32中无法判定的不明确文件,计算不明确文件的特征向量到与非敏感电子文件知识库类簇中心向量的相似度,参照步骤S24设置的阈值,并进行敏感判定:
若非敏感电子文件知识库“吸收”电子文件,则判定为非敏感电子文件,若非敏感电子文件知识库“排斥”电子文件,则视为无法判定的不明确文件,进入下一步骤,进行专家辅助判定;
步骤S34,对于步骤S33中无法判定的不明确文件,由企事业单位内部电子文件分级分类负责人和业务骨干担任专家,辅助判定电子文件为敏感或非敏感;
步骤S35,将步骤S33和步骤S34中判定为敏感的电子文件,加入敏感电子文件知识库;将步骤S33和步骤S34中判定为非敏感的电子文件,加入非敏感电子文件知识库。
本发明还提供了基于逆变调节知识库的电子文件分级分类系统,包括:
公开知识库判定系统,用于利用内网的公开电子文件知识库,对拟判定电子文件是否为公开进行判定,判定为公开的电子文件,直接加入公开电子文件知识库;
敏感知识库判定系统,用于将公开知识库判定系统无法判定的不明确文件,使用专网内的敏感电子文件知识库、非敏感电子文件知识库和专家辅助的方法进行判定,对于判定为敏感的电子文件,加入敏感电子文件知识库;判定为非敏感的电子文件,加入非敏感电子文件知识库;
单向导入接口,用于将数据从单位内网单向导入专网。
作为优选,所述公开知识库判定系统包括:
电子文件处理模块,用于对拟判定电子文件进行预处理,形成特征词序列,并将预处理后的特征词序列转换为特征向量;
知识获取模块,用于将企事业单位公开的电子文件经过数据处理形成公开知识类簇,并输出至公开电子文件知识库存储;
公开相似度计算器,用于计算由公开电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
公开度判定器,用于相似度值与设定的阈值进行比较,表示拟判定电子文件的公开程度,若由公开相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为公开文件,否则将拟判定电子文件特征向量输出到敏感知识库判定系统;
公开电子文件知识库,用于存储公开的电子文件类簇。
作为优选,所述电子文件处理模块包括:
第一预处理模块,用于对拟判定电子文件进行预处理,形成特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
第一词向量生成模块,用于将预处理后的特征词序列转换为特征向量。
作为优选,所述知识获取模块包括:
第二预处理模块,用于对各企事业单位公开电子文件进行预处理,形成特征词序列,所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
第二词向量生成模块,用于将预处理后的特征词序列转换为特征向量;
聚类模块,用于对公开电子文件的特征向量进行聚类,将同一类的数据聚集到同一知识类簇,并计算公开样本中各知识类簇的中心向量。
作为优选,所述敏感知识库判定系统包括:
敏感相似度计算器,用于计算由敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
敏感度判定器,用于相似度值与设定的阈值进行比较,表示拟判定电子文件的敏感程度,若由敏感相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为敏感文件,否则将拟判定电子文件特征向量输出到非敏感相似度计算器;
非敏感相似度计算器,用于计算由非敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
非敏感度判定器,用于当非敏感相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为非敏感文件,否则将拟判定电子文件输出到专家辅助判定系统;
敏感电子文件知识库,用于存储在敏感知识库判定系统被判定为敏感的电子文件类簇;
非敏感电子文件知识库,用于存储企事业单位在敏感知识库判定系统中被判定为非敏感的电子文件类簇;
专家辅助判定系统,由企事业单位内部电子文件分级分类负责人和业务骨干担任专家,用于辅助判定电子文件为敏感或非敏感。
本发明与现有技术相比,有益效果是:(1)本发明在初始时不依赖于任何敏感电子文件,能有效解决机器学习辅助电子文件分级分类时,敏感电子文件难以获取的问题;随着各知识库数据量的不断增加,可以逐渐减少使用直至脱离专家辅助判定系统,实现电子文件的自动分类分级;(2)本发明适用于敏感电子文件的分级分类,也适用于涉密电子文件的分级分类;本发明可以部署在不同等级保护要求的专网,进行内部、敏感电子文件的分级分类;还可以部署在不同分级保护要求的专网,进行涉密电子文件的分级分类。
附图说明
图1为本发明实施例所提供的基于逆变调节知识库的电子文件分级分类方法的一种流程图;
图2为本发明实施例所提供的基于逆变调节知识库的电子文件分级分类系统的一种构架图;
图3为本发明实施例所提供的公开知识库判定系统的一种构架示意图;
图4为本发明实施例所提供的敏感知识库判定系统的一种构架示意图;
图5为本发明实施例所提供的电子文件处理模块的一种构架示意图;
图6为本发明实施例所提供的知识获取模块的一种构架示意图;
图7为本发明实施例所提供的基于逆变调节知识库的电子文件分级分类系统的一种硬件装置示意图;
图8为本发明实施例所提供的知识库“吸收”过程的一种示意图;
图9为本发明实施例所提供的知识库“排斥”过程的一种示意图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例:
如图1所示,本发明提供了基于逆变调节知识库的电子文件分级分类方法,包括如下步骤:
S1,构建公开电子文件知识库;
利用各行业领域企事业单位在互联网公开的电子文件,构建公开电子文件知识
库,公开电子文件经过数据处理后进行聚类,形成特征词向量集合,对于,为
知识库中的类簇,为第类中的第个向量;并计算各类簇中心,得到中心向量集合,;
S2,对拟判定电子文件进行预处理后,进行公开判定;
对拟判定电子文件进行预处理后,使用在企事业单位内网环境下的外部知识库库
判定系统进行公开判定,即计算该文件特征与公开电子文件知识库各类簇中心的相似度,
并按照相似程度从大到小进行排序,得到相似度值序列,其中,为相似度值设
置一个阈值,对拟判定电子文件是否为公开文件进行判定;向量的相似程度可以通过计
算余弦距离得到;
S3,对步骤S2中无法公开判定的不明确文件,使用在专网环境下的敏感知识库判定系统进行敏感判定。
步骤S1中,所述公开电子文件知识库由互联网公开的各行业领域企事业单位电子文件进行处理后构建;所述各行业领域企事业单位电子文件构成公开知识,所述公开知识由企事业单位导入或通过爬虫工具在互联网爬取。
步骤S1还包括如下步骤:
步骤S11,对所述公开知识进行预处理,形成公开知识的特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
步骤S12,将预处理后的特征词序列转换为特征向量,即公开知识词向量集合;
步骤S13,对公开知识词向量进行聚类,计算公开知识各类簇的中心向量,聚类公式如下:
其中,为凝聚度,表示度量聚类效果;为类簇的总数目;是类簇中的成员总
数;为类簇中的第个成员;为文本与类簇中心点的相似度;为类簇的中心向
量,通过下式求得:
其中,为聚类样本的权重,,且。
步骤S2包括如下步骤:
步骤S21,对拟判定电子文件进行预处理,形成特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
步骤S22,将预处理后的特征词序列转换为特征向量;
步骤S23,计算特征向量与各类簇中心向量的相似度,其
中,为相似度值序列,且;
步骤S24,根据与设定阈值的大小关系,对拟判定电子文件进行判
定:
若存在,则“吸收”特征向量所对应的拟判定电子文件,即判定
为公开电子文件,并将文件对应的特征向量加入到公开电子文件知识库中;
若,则“排斥”特征向量所对应的拟判定电子文件,并视为不明确文件,同
时将不明确文件归为敏感或公开电子文件,并进入步骤S3。
步骤S3包括如下步骤:
步骤S31,在专网环境下构建敏感电子文件知识库和非敏感电子文件知识库;对于专网环境下的知识库,初始状态下数据量为0,拟判定电子文件直接由专家辅助判定,经下述步骤后知识库数据量逐步增加;
步骤S32,对步骤S2中无法判定的不明确文件,计算不明确文件的特征向量与敏感电子文件知识库类簇中心向量的相似度,参照步骤S24设置的阈值,并进行敏感判定:
若敏感电子文件知识库“吸收”电子文件,则判定为敏感电子文件,若敏感电子文件知识库“排斥”电子文件,则视为无法判定的不明确文件,并进入下一步骤;
步骤S33,对步骤S32中无法判定的不明确文件,计算不明确文件的特征向量到与非敏感电子文件知识库类簇中心向量的相似度,参照步骤S24设置的阈值,并进行敏感判定:
若非敏感电子文件知识库“吸收”电子文件,则判定为非敏感电子文件,若非敏感电子文件知识库“排斥”电子文件,则视为无法判定的不明确文件,进入下一步骤,进行专家辅助判定;
步骤S34,对于步骤S33中无法判定的不明确文件,由企事业单位内部电子文件分级分类负责人和业务骨干担任专家,辅助判定电子文件为敏感或非敏感;
步骤S35,将步骤S33和步骤S34中判定为敏感的电子文件,加入敏感电子文件知识库;将步骤S33和步骤S34中判定为非敏感的电子文件,加入非敏感电子文件知识库。
本发明还提供了基于逆变调节知识库的电子文件分级分类系统,包括:
公开知识库判定系统,用于利用内网的公开电子文件知识库,对拟判定电子文件是否为公开进行判定,判定为公开的电子文件,直接加入公开电子文件知识库;
敏感知识库判定系统,用于将公开知识库判定系统无法判定的不明确文件,使用专网内的敏感电子文件知识库、非敏感电子文件知识库和专家辅助的方法进行判定,对于判定为敏感的电子文件,加入敏感电子文件知识库;判定为非敏感的电子文件,加入非敏感电子文件知识库;
单向导入接口,用于将数据从单位内网单向导入专网。数据由单位内网单向导入专网的接口,数据无法通过此接口反向导出。
如图3所示,公开知识库判定系统包括:
电子文件处理模块,用于对拟判定电子文件进行预处理,形成特征词序列,并将预处理后的特征词序列转换为特征向量;
知识获取模块,用于将企事业单位公开的电子文件经过数据处理形成公开知识类簇,并输出至公开电子文件知识库存储;
公开相似度计算器,用于计算由公开电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
公开度判定器,用于相似度值与设定的阈值进行比较,表示拟判定电子文件的公开程度,若由公开相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为公开文件,否则将拟判定电子文件特征向量输出到敏感知识库判定系统;
公开电子文件知识库,用于存储公开的电子文件类簇。
如图5所示,电子文件处理模块包括:
第一预处理模块,用于对拟判定电子文件进行预处理,形成特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
第一词向量生成模块,用于将预处理后的特征词序列转换为特征向量,例如采用Word2Vec等技术。
如图6所示,知识获取模块包括:
第二预处理模块,用于对各企事业单位公开电子文件进行预处理,形成特征词序列,所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
第二词向量生成模块,用于将预处理后的特征词序列转换为特征向量;
聚类模块,用于对公开电子文件的特征向量进行聚类,将同一类的数据聚集到同一知识类簇,并计算公开样本中各知识类簇的中心向量。
如图4所示,敏感知识库判定系统包括:
敏感相似度计算器,用于计算由敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
敏感度判定器,用于相似度值与设定的阈值进行比较,表示拟判定电子文件的敏感程度,若由敏感相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为敏感文件,否则将拟判定电子文件特征向量输出到非敏感相似度计算器;
非敏感相似度计算器,用于计算由非敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
非敏感度判定器,用于当非敏感相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为非敏感文件,否则将拟判定电子文件输出到专家辅助判定系统;
敏感电子文件知识库,用于存储在敏感知识库判定系统被判定为敏感的电子文件类簇;
非敏感电子文件知识库,用于存储企事业单位在敏感知识库判定系统中被判定为非敏感的电子文件类簇;
专家辅助判定系统,由企事业单位内部电子文件分级分类负责人和业务骨干担任专家,用于辅助判定电子文件为敏感或非敏感。
在初始状态下,专网的两个知识库数据量为0,经系统运行一段时间后,知识库存储部分相关数据。专网知识库数据量的增加,也体现了本发明所涉及的逆变调节过程。
如图7所示,为本发明的硬件装置图,包括:公网、防火墙、主交换机、单位内网、单导、公网,其中:
公网,即互联网,用于实现公开知识的收集和企事业单位信息公开;
防火墙,对公网和单位内网实行逻辑隔离;
主交换机,实现公网与单位内网数据的转发;
单位内网,单位内网即维持单位日常办公需要、内部资源访问的网络,与公网互联互通,用于运行公开知识库判定系统;
单导,公开知识库判定系统无法判定的不明确文件通过单导进入专网敏感判定系统,数据进入专网无法导出;
专网,专用网为敏感或涉密网络,用于运行敏感知识库判定系统。
如图8和图9所示,为本发明知识库“排斥”与“吸收”示意图,其中:
如图8所示,拟判定电子文件对应向量输入知识库判定系统时,系统计算其与各
类簇中心向量的相似度,其中与的相似度均大于阈值,与的相
似度小于阈值,该电子文件即被“吸收”至知识库的类簇2;
如图9所示,拟判定电子文件对应向量输入知识库判定系统时,系统计算其与各
类簇中心向量的相似度,其中与的相似度均大于阈值,则系统
“排斥”该电子文件。
本发明涉及的不明确文件,是指不能根据外网公开数据集或逆变调节知识库技术进行明确分级分类的文件。逆变调节知识库技术,即利用公开的电子文件在单位内网环境下构建公开电子文件知识库,利用其“吸收”公开文件、“排斥”无法判定的不明确文件的特性,进一步建立专网环境下的敏感和非敏感知识库,通过敏感知识库“吸收”敏感文件、“排斥”无法判定的不明确文件;非敏感知识库“吸收”非敏感文件、“排斥”无法判定的不明确文件;对判定系统无法判定的不明确文件,通过专家辅助系统进行敏感度判定,并将结果输入敏感知识库或非敏感知识库,从而有效实现电子文件分级分类。
本发明在初始时不依赖于任何敏感电子文件,能有效解决机器学习辅助电子文件分级分类时,敏感电子文件难以获取的问题;随着各知识库数据量的不断增加,可以逐渐减少使用直至脱离专家辅助判定系统,实现电子文件的自动分类分级;本发明适用于敏感电子文件的分级分类,也适用于涉密电子文件的分级分类;本发明可以部署在不同等级保护要求的专网,进行内部、敏感电子文件的分级分类;还可以部署在不同分级保护要求的专网,进行涉密电子文件的分级分类。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (6)
1.基于逆变调节知识库的电子文件分级分类方法,其特征在于,包括如下步骤:
S1,构建公开电子文件知识库;
S2,对拟判定电子文件进行预处理后,进行公开判定;
S3,对步骤S2中无法公开判定的不明确文件,进行敏感判定;
步骤S1中,所述公开电子文件知识库由互联网公开的各行业领域企事业单位电子文件进行处理后构建;所述各行业领域企事业单位电子文件构成公开知识,所述公开知识由企事业单位导入通过或通过爬虫工具在互联网爬取;
步骤S1还包括如下步骤:
步骤S11,对所述公开知识进行预处理,形成公开知识的特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
步骤S12,将预处理后的特征词序列转换为特征向量,即公开知识词向量集合
步骤S13,对公开知识词向量进行聚类,计算公开知识各类簇的中心向量,聚类公式如下:
其中,J为凝聚度,表示度量聚类效果;k为类簇的总数目;mi是类簇i中的成员总数;为类簇i中的第j个成员;/>为文本与类簇中心点的相似度;/>为类簇i的中心向量,通过下式求得:
其中,wj为聚类样本i的权重,且/>
步骤S2包括如下步骤:
步骤S21,对拟判定电子文件进行预处理,形成特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
步骤S22,将预处理后的特征词序列转换为特征向量
步骤S23,计算特征向量与各类簇中心向量的相似度/>其中,(d1,d2,…,dk,)为相似度值序列,且d1≥d2…≥dk;
步骤S24,根据(d1,d2,…,dk,)与设定阈值D的大小关系,对拟判定电子文件进行判定:
若存在dx≥D(x∈(1~k)),则“吸收”特征向量所对应的拟判定电子文件,即判定为公开电子文件,并将文件对应的特征向量加入到公开电子文件知识库中;
若d1<D,则“排斥”特征向量所对应的拟判定电子文件,并视为不明确文件,同时将不明确文件归为敏感或公开电子文件,并进入步骤S3;
步骤S3包括如下步骤:
步骤S31,在专网环境下构建敏感电子文件知识库和非敏感电子文件知识库;对于专网环境下的知识库,初始状态下数据量为0,拟判定电子文件直接由专家辅助判定,经下述步骤后知识库数据量逐步增加;
步骤S32,对步骤S2中无法判定的不明确文件,计算不明确文件的特征向量与敏感电子文件知识库类簇中心向量的相似度,参照步骤S24设置的阈值,并进行敏感判定:
若敏感电子文件知识库“吸收”电子文件,则判定为敏感电子文件,若敏感电子文件知识库“排斥”电子文件,则视为无法判定的不明确文件,并进入下一步骤;
步骤S33,对步骤S32中无法判定的不明确文件,计算不明确文件的特征向量到与非敏感电子文件知识库类簇中心向量的相似度,参照步骤S24设置的阈值,并进行敏感判定:
若非敏感电子文件知识库“吸收”电子文件,则判定为非敏感电子文件,若非敏感电子文件知识库“排斥”电子文件,则视为无法判定的不明确文件,进入下一步骤,进行专家辅助判定;
步骤S34,对于步骤S33中无法判定的不明确文件,由企事业单位内部电子文件分级分类负责人和业务骨干担任专家,辅助判定电子文件为敏感或非敏感;
步骤S35,将步骤S33和步骤S34中判定为敏感的电子文件,加入敏感电子文件知识库;将步骤S33和步骤S34中判定为非敏感的电子文件,加入非敏感电子文件知识库。
2.基于逆变调节知识库的电子文件分级分类系统,用于实现权利要求1所述的基于逆变调节知识库的电子文件分级分类方法,其特征在于,所述基于逆变调节知识库的电子文件分级分类系统包括:
公开知识库判定系统,用于利用内网的公开电子文件知识库,对拟判定电子文件是否为公开进行判定,判定为公开的电子文件,直接加入公开电子文件知识库;
敏感知识库判定系统,用于将公开知识库判定系统无法判定的不明确文件,使用专网内的敏感电子文件知识库、非敏感电子文件知识库和专家辅助的方法进行判定,对于判定为敏感的电子文件,加入敏感电子文件知识库;判定为非敏感的电子文件,加入非敏感电子文件知识库;
单向导入接口,用于将数据从单位内网单向导入专网。
3.根据权利要求2所述的基于逆变调节知识库的电子文件分级分类系统,其特征在于,所述公开知识库判定系统包括:
电子文件处理模块,用于对拟判定电子文件进行预处理,形成特征词序列,并将预处理后的特征词序列转换为特征向量;
知识获取模块,用于将企事业单位公开的电子文件经过数据处理形成公开知识类簇,并输出至公开电子文件知识库存储;
公开相似度计算器,用于计算由公开电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
公开度判定器,用于相似度值与设定的阈值进行比较,表示拟判定电子文件的公开程度,若由公开相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为公开文件,否则将拟判定电子文件特征向量输出到敏感知识库判定系统;
公开电子文件知识库,用于存储公开的电子文件类簇。
4.根据权利要求3所述的基于逆变调节知识库的电子文件分级分类系统,其特征在于,所述电子文件处理模块包括:
第一预处理模块,用于对拟判定电子文件进行预处理,形成特征词序列;所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
第一词向量生成模块,用于将预处理后的特征词序列转换为特征向量。
5.根据权利要求3所述的基于逆变调节知识库的电子文件分级分类系统,其特征在于,所述知识获取模块包括:
第二预处理模块,用于对各企事业单位公开电子文件进行预处理,形成特征词序列,所述预处理包括分词和去噪声处理,所述去噪声处理包括去除停用词和标点符号;
第二词向量生成模块,用于将预处理后的特征词序列转换为特征向量;
聚类模块,用于对公开电子文件的特征向量进行聚类,将同一类的数据聚集到同一知识类簇,并计算公开样本中各知识类簇的中心向量。
6.根据权利要求2所述的基于逆变调节知识库的电子文件分级分类系统,其特征在于,所述敏感知识库判定系统包括:
敏感相似度计算器,用于计算由敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
敏感度判定器,用于相似度值与设定的阈值进行比较,表示拟判定电子文件的敏感程度,若由敏感相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为敏感文件,否则将拟判定电子文件特征向量输出到非敏感相似度计算器;
非敏感相似度计算器,用于计算由非敏感电子文件知识库输入的向量集合与拟判定电子文件特征向量的相似度值,并输出相似度值序列;
非敏感度判定器,用于当非敏感相似度计算器输入的相似度值大于设定的阈值,则判定电子文件为非敏感文件,否则将拟判定电子文件输出到专家辅助判定系统;
敏感电子文件知识库,用于存储在敏感知识库判定系统被判定为敏感的电子文件类簇;
非敏感电子文件知识库,用于存储企事业单位在敏感知识库判定系统中被判定为非敏感的电子文件类簇;
专家辅助判定系统,由企事业单位内部电子文件分级分类负责人和业务骨干担任专家,用于辅助判定电子文件为敏感或非敏感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210893651.2A CN114969348B (zh) | 2022-07-27 | 2022-07-27 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210893651.2A CN114969348B (zh) | 2022-07-27 | 2022-07-27 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969348A CN114969348A (zh) | 2022-08-30 |
CN114969348B true CN114969348B (zh) | 2023-10-27 |
Family
ID=82970110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210893651.2A Active CN114969348B (zh) | 2022-07-27 | 2022-07-27 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969348B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182611A (ja) * | 2003-12-22 | 2005-07-07 | Fuji Xerox Co Ltd | 文書分類方法、文書分類装置 |
CN106446148A (zh) * | 2016-09-21 | 2017-02-22 | 中国运载火箭技术研究院 | 一种基于聚类的文本查重方法 |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
CN110442726A (zh) * | 2019-08-15 | 2019-11-12 | 电子科技大学 | 基于实体约束的社交媒体短文本在线聚类方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
CN111414479A (zh) * | 2020-03-16 | 2020-07-14 | 北京智齿博创科技有限公司 | 基于短文本聚类技术的标签抽取方法 |
CN111581956A (zh) * | 2020-04-08 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 基于bert模型和k近邻的敏感信息识别方法及系统 |
CN111767733A (zh) * | 2020-06-11 | 2020-10-13 | 安徽旅贲科技有限公司 | 一种基于统计分词的文献密级甄别方法 |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
CN112836509A (zh) * | 2021-02-22 | 2021-05-25 | 西安交通大学 | 一种专家系统知识库构建方法及系统 |
CN114662486A (zh) * | 2022-04-01 | 2022-06-24 | 辽宁工程技术大学 | 一种基于机器学习的突发事件敏感词检测方法 |
-
2022
- 2022-07-27 CN CN202210893651.2A patent/CN114969348B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182611A (ja) * | 2003-12-22 | 2005-07-07 | Fuji Xerox Co Ltd | 文書分類方法、文書分類装置 |
CN106446148A (zh) * | 2016-09-21 | 2017-02-22 | 中国运载火箭技术研究院 | 一种基于聚类的文本查重方法 |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
CN110442726A (zh) * | 2019-08-15 | 2019-11-12 | 电子科技大学 | 基于实体约束的社交媒体短文本在线聚类方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
CN111414479A (zh) * | 2020-03-16 | 2020-07-14 | 北京智齿博创科技有限公司 | 基于短文本聚类技术的标签抽取方法 |
CN111581956A (zh) * | 2020-04-08 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 基于bert模型和k近邻的敏感信息识别方法及系统 |
CN111767733A (zh) * | 2020-06-11 | 2020-10-13 | 安徽旅贲科技有限公司 | 一种基于统计分词的文献密级甄别方法 |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
CN112836509A (zh) * | 2021-02-22 | 2021-05-25 | 西安交通大学 | 一种专家系统知识库构建方法及系统 |
CN114662486A (zh) * | 2022-04-01 | 2022-06-24 | 辽宁工程技术大学 | 一种基于机器学习的突发事件敏感词检测方法 |
Non-Patent Citations (2)
Title |
---|
基于卷积神经网络的敏感文件检测方法;林学峰;夏元轶;郭金龙;于晓文;;计算机与现代化(第07期);全文 * |
基于数据敏感性的大数据存储安全技术;胡志达;;移动通信(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114969348A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sabbeh et al. | ARABIC NEWS CREDIBILITY ON TWITTER: AN ENHANCED MODEL USING HYBRID FEATURES. | |
CN101692639A (zh) | 一种基于url的不良网页识别方法 | |
KR20110115542A (ko) | 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
Riadi | Detection of cyberbullying on social media using data mining techniques | |
Dang et al. | Framework for retrieving relevant contents related to fashion from online social network data | |
CN109271523A (zh) | 一种基于信息检索的政府公文主题分类方法 | |
CN110489745A (zh) | 基于引文网络的论文文本相似性的检测方法 | |
CN113450147A (zh) | 基于决策树的产品匹配方法、装置、设备及存储介质 | |
JP5168620B2 (ja) | データ種類検出装置及びデータ種類検出方法 | |
Hamborg et al. | Newsalyze: enabling news consumers to understand media bias | |
Gurav et al. | Survey on automated system for fake news detection using NLP & machine learning approach | |
CN113158206A (zh) | 一种基于决策树的文档安全等级划分方法 | |
CN114969348B (zh) | 基于逆变调节知识库的电子文件分级分类方法及系统 | |
Engelstad et al. | Advanced classification lists (dirty word lists) for automatic security classification | |
Hardaya et al. | Application of text mining for classification of community complaints and proposals | |
CN117271716A (zh) | 一种基于生成式语言模型的法律法规问答系统及构建方法 | |
Chandana et al. | BCC NEWS classification comparison between naive bayes, support vector machine, recurrent neural network | |
Jain et al. | Review on analysis of classifiers for fake news detection | |
Kashid et al. | Discrimination-aware data mining: a survey | |
CN105787101A (zh) | 一种信息处理方法和电子设备 | |
CN113590738A (zh) | 一种基于内容与情感的网络敏感信息的检测方法 | |
CN112329468B (zh) | 异质关系网络的构建方法、装置、计算机设备及存储介质 | |
Ding et al. | How reliable is sentiment analysis? A multi-domain empirical investigation | |
Nagano et al. | Ontology-based topic extraction service from weblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |