CN116089910B

CN116089910B - 一种支持多种格式电子文档的密级检测方法

Info

Publication number: CN116089910B
Application number: CN202310120266.9A
Authority: CN
Inventors: 李浩宇; 陶金龙; 贾张涛; 张霄霄; 胡雅頔
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-10-20
Anticipated expiration: 2043-02-16
Also published as: CN116089910A

Abstract

本发明涉及一种支持多种格式电子文档的密级检测方法，属于电子文档密级检测技术领域。本发明的方法通过直接对待测文档进行检测分析得到密级检测结果，定密责任人无需对文档全部内容进行审核，只需对基于本发明得到的检测结果进行复核便可得到文档的最后密级，能够减轻检查全部文本内容的工作负担，提升定密过程的效率；敏感词匹配过程通过模型自动检测，能够降低人工审核敏感词带来的不确定性，减少敏感词漏报情况。

Description

一种支持多种格式电子文档的密级检测方法

技术领域

本发明属于电子文档密级检测技术领域，具体涉及一种支持多种格式电子文档的密级检测方法。

背景技术

随着信息技术的发展，涉密信息往往以各类电子文档的形式在涉密系统内传递，对这些电子文档进行准确的密级检测已成为涉密单位保密工作中的重要环节。因此，高效的文档密级检测方法可以有效降低国家秘密泄露的风险，对于保护我国国家安全有着重要意义。

传统的定密过程中，往往需要定密责任人针对文档的所有内容基于敏感词词库和相关密级规则来审核其中出现的敏感词汇，最后得到文档定密结果。此过程中往往会给定密责任人带来庞大的工作量，存在时间开销过大，效率不高且可能出现敏感词漏报的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种支持多种格式文档的自动密级检测方法，以提高电子文档定密效率的同时减少敏感词漏报情况，降低泄密风险。

(二)技术方案

为了解决上述技术问题，本发明提供了一种支持多种格式电子文档的密级检测方法，包括以下步骤：

第一步、收集涉密项目相关的敏感词汇，建立词汇信息与项目信息的对应关系，并构建敏感词词库；

第二步、基于所述敏感词词库构建敏感词匹配模型；

第三步、对待测文档进行格式转化，实现电子文档格式的统一；

第四步、对文档内容进行分页读取，在分页读取的过程中，基于所述敏感词匹配模型进行敏感词匹配，并按照敏感词词库中对应的密级和项目来源，得到最后的密级检测结果。

优选地，第一步构建敏感词词库的过程中，以敏感词作为唯一标识，同时对所属的涉密项目和密级信息进行记录，对于不同项目中存在的相同敏感词，对项目密级进行对比，选择高密级信息进行录入。

优选地，第一步敏感词词库构建过程的具体步骤如下：

步骤11.创建一个空的敏感词词库，以敏感词作为唯一标识，包含密级和对应的项目信息；

步骤12.从当前未解密的项目中筛选出其中的敏感词，并记录其密级和来源信息；

步骤13.将选中的敏感词与敏感词词库对比，若不存在同一敏感词，则进行保存；若已经存在，则与敏感词词库中的敏感词密级进行对比，选择其中密级较高的进行保存。

优选地，第二步的敏感词匹配模型构建步骤如下：

步骤21.定义节点类，每一个节点包含一个字符和多个子节点；

步骤22.构造一个不包含任何字符的根节点，以此来作为敏感词匹配的入口，除了根结点外每一个节点都只包含一个字符；

步骤23.根据敏感词词库中的涉密词汇，选取共有的前缀字符，依次作为根节点的子节点进行构建，从根节点到某一子节点的路径上，将所有经过的字符连成一个字符串，该字符串代表当前子节点对应的字符串，且每个节点下的所有子节点所包含的字符都是不同的。

优选地，第二步中，每一个敏感词匹配模型都是从根节点开始，根据敏感词词库中所储存的敏感词从上到下进行节点构造，如果所需要的敏感词字符不存在，那么就创造一个新的子节点来存储这个字符，同时在每一个敏感词结尾字符所在的节点上进行标记。

优选地，第三步的具体步骤如下：

步骤31.根据上传到系统中文档的后缀名确定该文档的类型；

步骤32.通过调用LibreOffice中的命令实现将目标文档转化为统一中间格式。

优选地，步骤32中，通过命令行“libreoffice--headless--convert-topdfsource_document”实现对多种格式文档的转化过程。

优选地，第四步对文档内容进行读取的过程中，通过定义起始页码和终止页码对整个文档进行遍历，在遍历过程中按照固定步长递增页码。

优选地，第四步对文档内容进行分页读取的过程中，对文档进行加窗动态扫描，每次对窗内文本数据进行读取并进行敏感词匹配，当窗口内数据处理完成后，该窗口向后移动窗口大小的步长进行后续内容的匹配。

优选地，第四步中，基于所述敏感词匹配模型进行敏感词匹配，并按照敏感词词库中对应的密级和项目来源，得到最后的密级检测结果的具体步骤如下：

在敏感词匹配过程中，当遇到可以作为敏感词字符串结尾的节点时，对该节点的位置信息、对应敏感词的位置信息、敏感词的所属项目以及密级进行临时记录；

如果该节点下还有其他能够匹配的节点，则继续向下匹配，直到遇到可以作为结尾的节点，并对比该节点对应的信息与之前记录的临时信息进行对比，选取密级最高的节点作为该敏感词的密级检测结果；如果该节点下已无其他可以匹配的节点，则将该节点信息作为密级检测结果；

选择所有敏感词中密级最高的等级作为该文档最后的密级检测结果，定密责任人对该检测结果进行审核，得到文档最终密级。

(三)有益效果

本发明提出了一种针对多种格式的电子文档密级检测方法，相比与传统方法主要有以下优点：

1、在面对大量敏感词汇时，相比通过关键词搜索的方法，敏感词匹配模型通过公共前缀可以有效节省存储空间；同时可以最大限度地减少无谓的词汇比较，提升匹配查找速度。

2、在面对大规模文档时，一次性全部读取的方式会产生庞大的内存开销，严重影响文档的读取效率；另一方面当读取过程中遇到问题(如文档损坏)时，已经读取部分也会受到影响，造成了额外的时间开销。采用自动分页读取的方式可以解决一次性读取全部文档带来的问题，从而提升整个读取过程的效率。

3、通过文档转化，实现了对多种常见的文档格式的统一支持，方便后续使用统一读取方式对中间格式文档进行自动读取。

4、通过敏感词匹配模型查找涉密词汇并得到检测结果，减轻了定密责任人审核全部文本内容带来的负担，有效提升效率，减少敏感词漏报情况，降低泄密风险。

附图说明

图1为本发明的方法流程图；

图2为本发明的敏感词词库构建原理图；

图3为本发明的敏感词匹配模型构建原理图；

图4为本发明的文档转换原理图；

图5为本发明的密级检测原理图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提出了一种支持多种格式电子文档的自动密级检测方法，支持敏感词定位和溯源，不仅可以提升定密责任人审核电子文档的效率，而且可以降低由于文档秘籍审核不准确造成的泄密风险。本发明的设计思想为：首先通过收集涉密项目相关的敏感词汇，创建敏感词词库并构造敏感词匹配模型，对待检测的电子文档进行格式转化得到统一格式的文档，便于后续以统一方式对待测文档进行分页读取和分析，对读取到的内容进行敏感词匹配和溯源，最后得到密级检测结果。

本发明方法的自动密级检测工作流程具体如图1所示，包括以下步骤：

第一步收集现有涉密项目相关的敏感词汇，建立词汇信息与项目信息的对应关系并构建敏感词词库

敏感词是电子文档密级检测结果的依据来源，根据不同敏感词对应的项目密级可以决定最后文档的密级，敏感词的准确性对于最后检测结果的可信度起到了至关重要的作用。不同项目中的敏感词可以包括中文、英文、繁体字、简体字、字母和数字等，还可以包括以上多种形式的混合形式，例如，中文和字母的组合、字母和数字的组合等。

在涉密文档中，往往不同的敏感词来自不同的涉密项目，能够体现不同密级，因此需要构建并维护一个能够覆盖全部现有涉密项目中敏感词的词库，通过敏感词可以追溯到对应涉密项目和密级。

构建敏感词词库过程中，以敏感词作为唯一标识，同时对所属的涉密项目和密级信息进行记录，对于不同项目中存在的相同敏感词，为了避免出现高密低传的泄密情况，对项目密级进行对比，选择高密级信息进行录入。

敏感词词库构建过程如图2所示，具体步骤如下：

第二步基于所述敏感词词库构建敏感词匹配模型

从文档中匹配敏感词涉及到字符匹配和分词等过程，因此敏感词匹配模型在构建过程中不仅仅需要考虑传统分词中字符长度而且需要根据敏感词密级的不同进行设计。

敏感词匹配模型是一种专门用来处理字符串匹配的数据结构，通过构造树形结构，可以解决在一组字符串集合中快速查找某个字符或字符串的问题。该模型本质上是利用字符串之间的公共前缀，将重复的前缀进行合并，并继续向子节点继续匹配。

本发明提出的敏感词匹配模型结构如图3所示，具体构建步骤如下：

步骤21.定义节点类，每一个节点包含一个字符(可以是汉字，英文或数字)和多个子节点；

步骤23.根据敏感词词库中的涉密词汇，选取共有的前缀字符，依次作为根节点的子节点进行构建，从根节点到某一子节点的路径上，将所有经过的字符连成一个字符串，该字符串代表当前子节点对应的字符串，且每个节点下的所有子节点所包含的字符都是不同的；

每一个敏感词匹配模型都是从根节点开始，根据敏感词词库中所储存的敏感词从上到下进行节点构造，如果所需要的敏感词字符不存在，那么就创造一个新的子节点来存储这个字符，同时在每一个敏感词结尾字符所在的节点上进行标记，防止出现一个长字符串中包含了短字符串，但是无法匹配的错误情况。

针对涉密文档密级检测这一应用场景，考虑到最后的检测结果是按照敏感词所属的最高密级来确定的，因此最后字符串的匹配结果是按照敏感词的密级来确定的，以匹配到的所有字符串中最高密级作为检测结果。同时考虑到某些保密场景下，会采用一些同音词和同形词来代替原文中的敏感词汇，在设计敏感词匹配模型的时候同样需要对这些词汇进行存储。本步骤中采用树状数据结构进行关键词词库的存储，可以有效减少直接通过字符串的公共前缀进行匹配带来的时间开销，能够最大限度上减少无意义的字符串匹配过程，提升了匹配查找效率。

第三步对待测文档进行格式转化，实现电子文档格式的统一，便于文档内容的统一处理

在实际应用中，面对丰富的文档类型，需要具备各种对应格式的读取工具来对其中内容进行读取，为了解决这一问题，首先需要对各类电子文档进行转化，实现对所有类型文档格式的统一，方便后续对文档的处理。

本发明中设计的文档转化流程如图4所示，其具体步骤如下：

步骤31.根据上传到系统中文档的后缀名确定该文档的类型；

考虑到文档格式的多样性，若直接对文档进行处理，需要具备多种与文档格式对应的解析工具，给后续的处理工作带来额外的开销。本步骤中调用LibreOffice工具，通过命令行“libreoffice--headless--convert-topdfsource_document”实现对多种格式文档(如doc、ppt、xsl、txt、xml、rtf等)的转化过程。经过转化后的文档除了格式发生改变，其他均与原文档保持一致，这样既实现了格式的统一，同时也保证了原始文档中数据的完整性，只需要通过一种解析工具便可以对文档进行内容读取和并进行后续的密级检测工作；另一方面，相比于原始文档，经过格式转化后的文档占据更小的存储空间且与操作系统无关，更加便于对内容的读取和处理。

第四步优化文档读取方式，实现对文档内容的分页读取，在分页读取的过程中，进行敏感词匹配，实现敏感词定位和溯源，得到最后的密级检测结果

经过第三步格式转化，可以将原始多种类型的电子文档转化为更利于读取和定位的统一格式，之后通过定义起始页码和终止页码对整个文档进行遍历，在遍历过程中按照固定步长递增页码。在本步骤中，通过对统一格式后的文档进行自动分页读取，可以分别对文档每页内容进行处理，减轻定密负责人直接阅读大量文本内容的负担，同时能够缓解一次性读取全部文档带来的内存压力。

本步骤中的分页读取的思想简单可以理解为对原始文档进行加窗动态扫描，每次对窗内文本数据进行读取并进行敏感词匹配，当窗口内数据处理完成后，该窗口向后移动窗口大小的步长进行后续内容的匹配。整个过程中，只针对窗口内的数据进行敏感词检查，降低了由于一次性处理数据过多造成数据堵塞或丢失的风险，且保证了文档的读取效率。采用这种分页读取的方式可以对文档进行动态访问，降低内存开销从而提升整个读取过程速度。

进行敏感词匹配实现密级检测时，通过第二步构建的敏感词匹配模型对读取到的文档内容进行分词匹配，该过程可以自动匹配识别所有敏感词汇，减少人工参与带来的不确定性，减少敏感词漏报情况，降低泄密风险；然后按照敏感词词库中对应的密级和项目来源，得到文档密级检测结果，并且可以溯源到敏感词所属项目。

密级检测的过程如图5所示，其具体步骤如下：

可以看出，本发明的方法通过直接对待测文档进行检测分析得到密级检测结果，定密责任人无需对文档全部内容进行审核，只需对基于本发明得到的检测结果进行复核便可得到文档的最后密级，相比于传统方式，本发明能够减轻检查全部文本内容的工作负担，提升定密过程的效率；在涉密领域，漏报的敏感词可能包含重要的项目信息，漏报带来的泄密风险远远大于误报的风险，由于敏感词匹配过程通过匹配模型自动实现，降低了人工审核敏感词带来的不确定性，减少了敏感词漏报的情况，可以有效降低泄密风险。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种支持多种格式电子文档的密级检测方法，其特征在于，包括以下步骤：

第二步、基于所述敏感词词库构建敏感词匹配模型；

第四步、对文档内容进行分页读取，在分页读取的过程中，基于所述敏感词匹配模型进行敏感词匹配，并按照敏感词词库中对应的密级和项目来源，得到最后的密级检测结果；

第一步构建敏感词词库的过程中，以敏感词作为唯一标识，同时对所属的涉密项目和密级信息进行记录，对于不同项目中存在的相同敏感词，对项目密级进行对比，选择高密级信息进行录入；

第一步敏感词词库构建过程的具体步骤如下：

步骤13.将选中的敏感词与敏感词词库对比，若不存在同一敏感词，则进行保存；若已经存在，则与敏感词词库中的敏感词密级进行对比，选择其中密级较高的进行保存；

第二步的敏感词匹配模型构建步骤如下：

第二步中，每一个敏感词匹配模型都是从根节点开始，根据敏感词词库中所储存的敏感词从上到下进行节点构造，如果所需要的敏感词字符不存在，那么就创造一个新的子节点来存储这个字符，同时在每一个敏感词结尾字符所在的节点上进行标记；

第三步的具体步骤如下：

步骤31.根据上传到系统中文档的后缀名确定该文档的类型；

步骤32.通过调用LibreOffice中的命令实现将目标文档转化为统一中间格式；

第四步对文档内容进行读取的过程中，通过定义起始页码和终止页码对整个文档进行遍历，在遍历过程中按照固定步长递增页码；

第四步对文档内容进行分页读取的过程中，对文档进行加窗动态扫描，每次对窗内文本数据进行读取并进行敏感词匹配，当窗口内数据处理完成后，该窗口向后移动窗口大小的步长进行后续内容的匹配；

第四步中，基于所述敏感词匹配模型进行敏感词匹配，并按照敏感词词库中对应的密级和项目来源，得到最后的密级检测结果的具体步骤如下：

2.如权利要求1所述的方法，其特征在于，步骤32中，通过命令行“libreoffice--headless--convert-to pdfsource_document”实现对多种格式文档的转化过程。