CN108399164A

CN108399164A - 基于模板的电子公文分类分级系统

Info

Publication number: CN108399164A
Application number: CN201810258598.2A
Authority: CN
Inventors: 尚方; 冉庆辉; 韩冰; 张凯; 王孝余; 刘生
Original assignee: State Grid Corp of China SGCC; State Grid Heilongjiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Heilongjiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Heilongjiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Heilongjiang Electric Power Co Ltd
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2018-08-14
Anticipated expiration: 2038-03-27
Also published as: CN108399164B

Abstract

基于模板的电子公文分类分级系统，涉及一种电子公文分类分级系统。本发明为了解决现有的通过信息安全督查手段中敏感字库需统一设定存在适用性较差的问题和仅对敏感词进行匹配的敏感词排查过程存在很多误报的情况。本发明包括用于提供敏感词和停用词的设置操作的敏感词、停用词管理模块；根据用户输入的敏感词和导入的源文件进行学习并生成模板的源文件学习模块；用于待检测文件的文本抽取的扫描模块；用于支持在企业内网环境中选择和导出模版和上级部门上传的源文件、在非企业内网环境只能选择导出模版的模板管理模块；用于将文本按照导出的模板进行敏感词匹配，对段落、全文相似度进行判定的涉密匹配模块。本发明用于电子公文分类分级管理。

Description

基于模板的电子公文分类分级系统

技术领域

本发明涉及一种电子公文分类分级系统。

背景技术

当今这样一个信息化的社会，各级政府部门、企事业单位的日常办公已离不开计算机系统的应用，公司的各种电子公文涉及种类多，分布及其广泛，同时在各种存储介质中以及网站中也存有公司的各种重要信息和工作资料。确保这些数据的安全已经成为信息安全工作的一个方向。政府和大型企事业单位的业务数据是重要基础性数据，数据的泄露都会给国家和用户造成重大的经济损失和严重的安全隐患。因此，总部分发电子公文时，要把各种电子公文进行分级分类，挑选出涉密信息及敏感数据，控制内部文件的流转范围非常必要。

为加强和规范电子公文工作，保证内部电子数据安全，多数企事业单位都会有规范电子公文在分发、流转方面的要求，并且会采取一系列是措施来推动此项工作的开展，其中最常用方式的是通过信息安全督查手段，首先对全部设备进行扫描，再依靠各基层单位各层级保密工作者进行重点排查。一般通过以下方式进行：

1、通过内网杀毒软件或者上网管控助手，统一分发策略，定期对所有在线计算机进行重点字检索，并把结果反馈在用户桌面上，提醒用户注意；

2、通过保密工作检查专用工具，在用户的计算机上直接进行安装扫描；

3、在内网邮件和及时通讯服务器上配置策略，对所有过往邮件和及时通讯进行甄别。

然而这几种方式互相配合，确实起到了一定的效果，但是还存在着如下问题：

1.所有的敏感字库是统一设定的，不能根据用户需要进行个性化调整策略；

2.敏感词的排查过程不能良好的基于电子公文的上下文含义，仅是对敏感词进行匹配，有很多误报的情况；

3.目前这几种检查方式，不能对网页内容进行敏感词排查，而很多时候某些电子公文材料是在网页上进行流转的(如新闻主页，协同办公系统，特定URL的信息录入)；

4.目前检查方式，不能对电子公文中指定文件的指定段落进行排查和筛选；

5.目前的保密工作人员有针对性的人工排查某些计算机终端的方法，难以应对大批量电子数据分发和分类的要求，一方面工作量特别大，另外保密工作人员难以准确区分各业务部门各专业的信息确定属于哪个级别，哪些文件是可以公布的，哪些是需要保密的，这些往往需要本业务部门本专业的人员进行区分。由此可见，国家和企事业单位对于电子公文分级方面存在巨大需求。

发明内容

本发明为了解决现有的通过信息安全督查手段中敏感字库需统一设定存在适用性较差的问题和仅对敏感词进行匹配的敏感词排查过程存在很多误报的情况。

基于模板的电子公文分类分级系统，包括：

敏感词、停用词管理模块，用于为用户提供敏感词和停用词的设置操作；基于敏感词、停用词管理模块，用户根据所在部门自身的实际情况设定只适用于所在部门的敏感词；用户能够设定停用词；

所述的敏感词为用户认为文件或页面中涉密或可能涉密的关键词汇或参数；

所述的停用词是指为了节省空间和提高搜索效率，在扫描模块进行扫描时在索引页面或处理搜索请求时会自动忽略的字或词；

源文件学习模块，根据用户输入的敏感词，针对用户导入的源文件进行学习并生成模板，模板是通过源文件学习之后生成的包含关键词和匹配规则；

扫描模块，用于待检测文件的文本抽取，并在文本抽取的过程中自动屏蔽掉文本中的停用词；

模板管理模块，用于支持用户在企业内网环境中选择和导出模版以及上级部门上传的源文件；支持用户在在非企业内网环境中仅能选择导出模版；

同时还能够支持用户添加和删除模版，添加和删除模版包括用户基于自己设置敏感词对应的模版和从上级部门继承的模板；

涉密匹配模块，用于将扫描模块抽取的文本按照用户导出的模板进行敏感词匹配，对段落相似度、全文相似度进行判定；并能够为在企业内网环境中的用户提供待检测文件与模版和源文件的相似内容对比查看操作；并且不支持为在非企业内网环境中的用户提供待检测文件与模版内容的相似内容对比查看。

优选地，所述的扫描模块包括文件扫描子模块和URL扫描子模块：

所述的文件扫描子模块，用于针对办公文档，提供全文文本抽取；针对压缩文件，提供解压缩后再进行文件类型判定和文本抽取的操作，并支持压缩文件的嵌套递归解压；

URL扫描子模块，用于扫描指定位置的URL，使用搜索引擎爬虫技术根据设置的爬取层数递归爬取，实现对HTML页面及页面附件的文本抽取；对附件形式也支持办公文档以及压缩类型的文本提取；

优选地，所述的文件扫描子模块采用对不同文件的文本内容提取进行封装，即只提供单一的接口来实现文档内容的提取。

优选地，所述的URL扫描子模块在提取HTML内容时，默认处理文本的编码为UTF-8。

优选地，所述涉密匹配模块进行敏感词匹配的过程采用AC算法。

优选地，所述涉密匹配模块利用AC算法进行匹配的过程中采用基于空间向量的余弦算法的相似度匹配进行匹配。

优选地，所述停用词包括全局停用词和局部停用词：所述的全局停用词是为了实现上级部门生成模板时对应的所有文档材料都需要停用的字词，对应需要在扫描模块抽取文本的过程中自动屏蔽掉的停用词；所述的局部停用词是为了实现下级部门继承上级部门的模板后再次进行编辑生成模板时对应的所有文档材料需要停用的字词，对应需要在扫描模块抽取文本的过程中自动屏蔽掉的停用词。

本发明具有以下有益效果：

本发明在源文件学习模块中对敏感文件的内容进行学习建模，为用户文档保密分级提供支持。用户可以通过输入关键字、输入学习文档的方式，使得源文件学习模块抽象出专用于此项内容检测的模板。有了这个基础模板之后，其他用户可以直接调用这个模板，也可以根据需要对模板进行继续细化。使得上级机构下发的模板可以完全的推行下去，而各个下级机构又可以体现自己的工作需要，也就是实现通过模板管理模块管理敏感文件模板；在模板分发(上级用户下发给下级用户)的过程中，上级用户可以选择“包含源文件”与“不包含源文件”两种方式，这样既可以让下级单位了解检测的关键信息是什么，同时也不会造成需要保密的电子文档泄露。

更重要的是本发明并不需要统一设定敏感字库，各级部门分别设置敏感字不仅仅能够使下级能够完全继承上级部门所要进行进行敏感词匹配的模板，通过知晓上级部门的涉密内容引起本级部门的注意，以免造成上级将所要涉密的内容隐去了，下级部门不知道此种情况有在原来的文件中将这部分内容添加进去，同时还能实现针对本部门(本级部门中的一个)有针对性的隐去本部门应该隐去的涉密的内容；不仅仅适用性强，而且实现了各级部门电子公文的分类分级管理。

本发明把“段落”与“全文”分别处理，是针对保密工作者业务开展的一个特殊设计。在对涉密内容匹配检查，如果只计算全文的相似度则可能会对扫描文件产生误判，在文件特别大的情况下，如果只有一个段落的部分内容相似，这在全文相似度中是无法体现出来的(例如一篇100页的文档，其中一段仅有40个字词的段落公开了一个需要保密的参数或者信息，但是从全文的百分比上来看恐怕只有不到1/100)，而这种情况出现的概率是比较高的，所以本发明添加了段落相似度的判定，将扫描文件的所有段落和模版文件段落逐个进行匹配，并给出报警提示。而另一方面，根据实验发现在匹配时可能出现某些段落的相似度达到100％，但都是些无关紧要的内容，是可忽略的。为了研究这种误报的情况，经过调查是由于出现这种误报的原因是该段落的字数少，不足以公开某些信息，所以段落字数<10(可根据实际情况自定义)的将不再进行相似度判定，有效的解决了基于关键词扫描的传统软件对敏感信息的大规模误判情况。

本发明扫描模块设计了统一多格式文本内容抽取接口，能够有效的降低接口的复杂度。并且本系统采用了支持大规模敏感词匹配的AC算法。采用这种高速扫描的设计，可以使得扫描效率极大提高，在实际测试中，246M的文本材料，使用20个关键字及3个材料组成的模板进行匹配，仅消耗约190s。在匹配过程中，为节省存储空间和提高搜索效率，本发明通过扫描模块自动屏蔽掉停用词，适当减少停用词出现的频率，可以有效的帮助我们提高关键词密度，帮助缩小搜索范围，同时还会提升搜索的效率，以实现高效的文本相似度判定和判定精确度。

附图说明

图1为基于模板的电子公文分类分级系统的示意图；

图2为模板管理模块对应的界面图；

图3为基于源文件学习模块进行学习时添加源文件的界面图；

图4为板模板分发过程中，上级用户选择是否添加源文件的界面图；

图5为涉密匹配模块对办公文档中段落相似度、全文相似度判定结果的界面图；

图6为涉密匹配模块对HTML中段落相似度、全文相似度判定结果的界面图；

图7为局部停用词设定的界面图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，

基于模板的电子公文分类分级系统，包括：

敏感词、停用词管理模块，用于为用户提供敏感词和停用词的设置操作；基于敏感词、停用词管理模块，用户根据所在部门自身的实际情况设定只适用于所在部门的敏感词；用户能够根据汉语用法习惯设定停用词；

所述的停用词是指为了节省空间和提高搜索效率，在扫描模块进行扫描时在索引页面或处理搜索请求时会自动忽略的某些字或词；通常意义上，停用词大致包含语气助词、副词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用；也可以是某个部门特定的词语，需要针对某个部门才有实际含义，而针对其他部门并没有特殊含义或者特殊的作用，可以将其针对某个部门以外部门作为停用词；

源文件学习模块，根据用户输入的敏感词，针对用户导入的源文件进行学习并生成模板，如图3所示；模板是通过源文件学习之后生成的包含关键词和匹配规则；

模板管理模块，用于支持用户在企业内网环境中选择和导出模版以及上级部门上传的源文件；支持用户在在非企业内网环境中仅能选择导出模版，避免敏感文件的内容泄漏；防止有人特意的针对某些内容进行修订再发布，起到对文档的保护作用。同时还能够支持用户添加和删除模版，添加和删除模版包括用户基于自己设置敏感词(敏感词、停用词管理模块中添加的)对应的模版和从上级部门继承的模板；如图2所示，其中的备注栏是用于供用户添加备注用的。

采用分类模板的设计思路是本系统的一大亮点，也就是源文件学习模块和模板管理模块共同实现的过程。在源文件学习模块中对敏感文件的内容进行学习建模，为用户文档保密分级提供支持。用户可以通过输入关键字、输入学习文档的方式，使得源文件学习模块抽象出专用于此项内容检测的模板。有了这个基础模板之后，其他用户可以直接调用这个模板，也可以根据需要对模板进行继续细化。使得上级机构下发的模板可以完全的推行下去，而各个下级机构又可以体现自己的工作需要，也就是实现通过模板管理模块管理敏感文件模板；在模板分发(上级用户下发给下级用户)的过程中，上级用户可以选择“包含源文件”与“不包含源文件”两种方式，如图4所示；这样既可以让下级单位了解检测的关键信息是什么，同时也不会造成需要保密的电子文档泄露。

涉密匹配模块，用于将扫描模块抽取的文本按照用户导出的模板进行敏感词匹配，对段落相似度、全文相似度进行判定，如图5和图6所示；并能够为在企业内网环境中的用户提供待检测文件与模版和源文件的相似内容对比查看操作；就是下级部门的用户需要对待检测文件进行涉密内容检测时，基于用户选择和导出的模板以及源文件(自己的利用源文件学习模块学习时对应的源文件和导出的上级部门上传的源文件)，在待检测文件中对应涉密内容进行特殊显示或标记(标记字体颜色、背景颜色或者加粗等)，同时在导出的模板以及源文件中，将与待检测文件中涉密内容相对应的模板以及源文件中内容进行特殊显示或标记，方便用户直观了解所涉密内容与源文件之间的相同之处；并且不支持为在非企业内网环境中的用户提供待检测文件与模版内容的相似内容对比查看。

本系统把“段落”与“全文”分别处理，是针对保密工作者业务开展的一个特殊设计。在对涉密内容匹配检查，如果只计算全文的相似度则可能会对扫描文件产生误判，在文件特别大的情况下，如果只有一个段落的部分内容相似，这在全文相似度中是无法体现出来的(例如一篇100页的文档，其中一段仅有40个字词的段落公开了一个需要保密的参数或者信息，但是从全文的百分比上来看恐怕只有不到1/100)，而这种情况出现的概率是比较高的，所以本发明添加了段落相似度的判定，将扫描文件的所有段落和模版文件段落逐个进行匹配，并给出报警提示。而另一方面，根据实验发现在匹配时可能出现某些段落的相似度达到100％，但都是些无关紧要的内容，是可忽略的。为了研究这种误报的情况，经过调查是由于出现这种误报的原因是该段落的字数少，不足以公开某些信息，所以段落字数<10(可根据实际情况自定义)的将不再进行相似度判定，有效的解决了基于关键词扫描的传统软件对敏感信息的大规模误判情况。

具体实施方式二：

本实施方式所述的扫描模块包括文件扫描子模块和URL扫描子模块：

所述的文件扫描子模块，用于针对Office系列文档、PDF等办公文档，提供全文文本抽取；针对ZIP、RAR等压缩文件，提供解压缩后再进行文件类型判定和文本抽取的操作，并支持压缩文件的嵌套递归解压；

URL扫描子模块，用于扫描指定位置的URL(Uniform Resource Locator，统一资源定位符)，使用搜索引擎爬虫技术根据设置的爬取层数递归爬取，实现对HTML页面及页面附件的文本抽取；对附件形式也支持Office系列、PDF等文档类型的办公文档以及ZIP、RAR等压缩类型的文本提取；

其他模块与具体实施方式一相同。

具体实施方式三：

本实施方式所述的文件扫描子模块采用对不同文件的文本内容提取进行封装，即只提供单一的接口来实现Office、PDF等文档内容的提取。所述的URL扫描子模块在提取HTML内容时，默认处理文本的编码为UTF-8。

扫描模块设计了统一多格式文本内容抽取接口：支持Office和PDF的文本内容抽取、HTML及附件的文本抽取，由于不同类型文档的文本抽取方法不同，甚至同一个类型的不同版本的文档都有区别，比如Office 2003和Office 2007，分别提取文件内容会导致接口复杂化和可维护性降低，针对以上情况采用对不同文件的文本内容提取进行封装，即只提供单一的接口来实现Office、PDF等文档内容的提取，有效的降低了接口的复杂度。在提取HTML内容时，默认处理文本的编码为UTF-8，但是不同的网页存在不同的编码，这里并不能一概而论，编码不一致会导致数据乱码不可读，获取到HTML的实际编码来对数据进行编码格式转换，解决了爬取数据的正确性问题。UTF-8是一种用于将宽字符值转换为字节流的Unicode的标准机制。同时为了解决大规模信息上网工程，本发明还增加对网站内容的自动扫描与网页文本和附件的内容进行文本抽取和并通过涉密匹配模块进行相似度判定。

其他模块与具体实施方式二相同。

具体实施方式四：

本实施方式所述涉密匹配模块进行敏感词匹配的过程采用支持大规模敏感词匹配的AC算法。

本发明所述涉密匹配模块进行敏感词匹配的过程支持大规模敏感词匹配的AC算法。涉密匹配模块的工作速度是本系统的重要要求，本系统采用了支持大规模敏感词匹配的AC算法。AC算法是一个多模式匹配算法(Alfred V.Aho和Margaret J.Corasick于1974年提出的)，可以保证对于给定的长度为n的文本，和模式集合P＝{p1，p2，...pm}，p1、p2、...、pm分别是模板中的每一条含有关键词的匹配规则；在O(n)时间复杂度内，找到文本中的所有目标模式，而与模式集合的规模m无关；O(n)为时间复杂度的函数。敏感词匹配支持大规模关键词库(>1万)的并行匹配。采用这种高速扫描的设计，可以使得扫描效率极大提高，在实际测试中，246M的文本材料，使用20个关键字及3个材料组成的模板进行匹配，仅消耗约190s。

其他模块与具体实施方式一至三之一相同。

具体实施方式五：

本实施方式所述涉密匹配模块利用AC算法进行匹配的过程中采用基于空间向量的余弦算法的相似度匹配进行匹配。

实际上是基于空间向量的余弦算法的相似度匹配嵌套在AC算法算法中共同实现涉密匹配的过程。在匹配过程中，为节省存储空间和提高搜索效率，本发明通过扫描模块自动屏蔽掉停用词，通常意义上，停用词包含语气助词、副词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用。适当减少停用词出现的频率，可以有效的帮助我们提高关键词密度，帮助缩小搜索范围，同时还会提升搜索的效率，以实现高效的文本相似度判定和判定精确度。具体做法是，先将文本内容进行中文分词，按照停用词表将语料中对文本内容识别意义不大但出现频率很高的词去掉，并生成各自的词频向量，计算扫描文件中词频向量和模型中词频向量的余弦相似度，值越大表示越相似。

其他模块与具体实施方式四相同。

具体实施方式六：

本实施方式所述停用词包括全局停用词和局部停用词。

所述的全局停用词是为了实现上级部门生成模板时对应的所有文档材料都需要停用的字词，对应需要在扫描模块抽取文本的过程中自动屏蔽掉的停用词；所述的局部停用词是为了实现下级部门继承上级部门的模板后再次进行编辑生成模板时对应的所有文档材料需要停用的字词，对应需要在扫描模块抽取文本的过程中自动屏蔽掉的停用词。也就是下级部门继承上级部门的模板之后，需要针对本部门的特点选择屏蔽一些内容，所以需要再次进行编辑，当下级部门进行编辑时就需要对应输入局部停用词，局部停用词设定的界面图如图7所示，当下级部门通过配置局部停用词后，扫描模块进行待检测文件的文本抽取时自动屏蔽掉局部停用词。这种设计使得模板的设计在足够严谨的同时保持了巨大的灵活性。

其他模块与具体实施方式一至五之一相同。

Claims

1.基于模板的电子公文分类分级系统，其特征在于，包括：

2.根据权利要求1所述逇基于模板的电子公文分类分级系统，其特征在于，所述的扫描模块包括文件扫描子模块和URL扫描子模块：

URL扫描子模块，用于扫描指定位置的URL，使用搜索引擎爬虫技术根据设置的爬取层数递归爬取，实现对HTML页面及页面附件的文本抽取；对附件形式也支持办公文档以及压缩类型的文本提取。

3.根据权利要求2所述逇基于模板的电子公文分类分级系统，其特征在于，所述的文件扫描子模块采用对不同文件的文本内容提取进行封装，即只提供单一的接口来实现文档内容的提取。

4.根据权利要求3所述逇基于模板的电子公文分类分级系统，其特征在于，所述的URL扫描子模块在提取HTML内容时，默认处理文本的编码为UTF-8。

5.根据权利要求1至4之一所述逇基于模板的电子公文分类分级系统，其特征在于，所述涉密匹配模块进行敏感词匹配的过程采用AC算法。

6.根据权利要求5所述逇基于模板的电子公文分类分级系统，其特征在于，所述涉密匹配模块利用AC算法进行匹配的过程中采用基于空间向量的余弦算法的相似度匹配进行匹配。

7.根据权利要求6所述逇基于模板的电子公文分类分级系统，其特征在于，所述停用词包括全局停用词和局部停用词；

所述的全局停用词是为了实现上级部门生成模板时对应的所有文档材料都需要停用的字词，对应需要在扫描模块抽取文本的过程中自动屏蔽掉的停用词；所述的局部停用词是为了实现下级部门继承上级部门的模板后再次进行编辑生成模板时对应的所有文档材料需要停用的字词，对应需要在扫描模块抽取文本的过程中自动屏蔽掉的停用词。