CN116089910B - 一种支持多种格式电子文档的密级检测方法 - Google Patents

一种支持多种格式电子文档的密级检测方法 Download PDF

Info

Publication number
CN116089910B
CN116089910B CN202310120266.9A CN202310120266A CN116089910B CN 116089910 B CN116089910 B CN 116089910B CN 202310120266 A CN202310120266 A CN 202310120266A CN 116089910 B CN116089910 B CN 116089910B
Authority
CN
China
Prior art keywords
sensitive word
node
sensitive
document
security
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310120266.9A
Other languages
English (en)
Other versions
CN116089910A (zh
Inventor
李浩宇
陶金龙
贾张涛
张霄霄
胡雅頔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202310120266.9A priority Critical patent/CN116089910B/zh
Publication of CN116089910A publication Critical patent/CN116089910A/zh
Application granted granted Critical
Publication of CN116089910B publication Critical patent/CN116089910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种支持多种格式电子文档的密级检测方法,属于电子文档密级检测技术领域。本发明的方法通过直接对待测文档进行检测分析得到密级检测结果,定密责任人无需对文档全部内容进行审核,只需对基于本发明得到的检测结果进行复核便可得到文档的最后密级,能够减轻检查全部文本内容的工作负担,提升定密过程的效率;敏感词匹配过程通过模型自动检测,能够降低人工审核敏感词带来的不确定性,减少敏感词漏报情况。

Description

一种支持多种格式电子文档的密级检测方法
技术领域
本发明属于电子文档密级检测技术领域,具体涉及一种支持多种格式电子文档的密级检测方法。
背景技术
随着信息技术的发展,涉密信息往往以各类电子文档的形式在涉密系统内传递,对这些电子文档进行准确的密级检测已成为涉密单位保密工作中的重要环节。因此,高效的文档密级检测方法可以有效降低国家秘密泄露的风险,对于保护我国国家安全有着重要意义。
传统的定密过程中,往往需要定密责任人针对文档的所有内容基于敏感词词库和相关密级规则来审核其中出现的敏感词汇,最后得到文档定密结果。此过程中往往会给定密责任人带来庞大的工作量,存在时间开销过大,效率不高且可能出现敏感词漏报的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种支持多种格式文档的自动密级检测方法,以提高电子文档定密效率的同时减少敏感词漏报情况,降低泄密风险。
(二)技术方案
为了解决上述技术问题,本发明提供了一种支持多种格式电子文档的密级检测方法,包括以下步骤:
第一步、收集涉密项目相关的敏感词汇,建立词汇信息与项目信息的对应关系,并构建敏感词词库;
第二步、基于所述敏感词词库构建敏感词匹配模型;
第三步、对待测文档进行格式转化,实现电子文档格式的统一;
第四步、对文档内容进行分页读取,在分页读取的过程中,基于所述敏感词匹配模型进行敏感词匹配,并按照敏感词词库中对应的密级和项目来源,得到最后的密级检测结果。
优选地,第一步构建敏感词词库的过程中,以敏感词作为唯一标识,同时对所属的涉密项目和密级信息进行记录,对于不同项目中存在的相同敏感词,对项目密级进行对比,选择高密级信息进行录入。
优选地,第一步敏感词词库构建过程的具体步骤如下:
步骤11.创建一个空的敏感词词库,以敏感词作为唯一标识,包含密级和对应的项目信息;
步骤12.从当前未解密的项目中筛选出其中的敏感词,并记录其密级和来源信息;
步骤13.将选中的敏感词与敏感词词库对比,若不存在同一敏感词,则进行保存;若已经存在,则与敏感词词库中的敏感词密级进行对比,选择其中密级较高的进行保存。
优选地,第二步的敏感词匹配模型构建步骤如下:
步骤21.定义节点类,每一个节点包含一个字符和多个子节点;
步骤22.构造一个不包含任何字符的根节点,以此来作为敏感词匹配的入口,除了根结点外每一个节点都只包含一个字符;
步骤23.根据敏感词词库中的涉密词汇,选取共有的前缀字符,依次作为根节点的子节点进行构建,从根节点到某一子节点的路径上,将所有经过的字符连成一个字符串,该字符串代表当前子节点对应的字符串,且每个节点下的所有子节点所包含的字符都是不同的。
优选地,第二步中,每一个敏感词匹配模型都是从根节点开始,根据敏感词词库中所储存的敏感词从上到下进行节点构造,如果所需要的敏感词字符不存在,那么就创造一个新的子节点来存储这个字符,同时在每一个敏感词结尾字符所在的节点上进行标记。
优选地,第三步的具体步骤如下:
步骤31.根据上传到系统中文档的后缀名确定该文档的类型;
步骤32.通过调用LibreOffice中的命令实现将目标文档转化为统一中间格式。
优选地,步骤32中,通过命令行“libreoffice--headless--convert-topdfsource_document”实现对多种格式文档的转化过程。
优选地,第四步对文档内容进行读取的过程中,通过定义起始页码和终止页码对整个文档进行遍历,在遍历过程中按照固定步长递增页码。
优选地,第四步对文档内容进行分页读取的过程中,对文档进行加窗动态扫描,每次对窗内文本数据进行读取并进行敏感词匹配,当窗口内数据处理完成后,该窗口向后移动窗口大小的步长进行后续内容的匹配。
优选地,第四步中,基于所述敏感词匹配模型进行敏感词匹配,并按照敏感词词库中对应的密级和项目来源,得到最后的密级检测结果的具体步骤如下:
在敏感词匹配过程中,当遇到可以作为敏感词字符串结尾的节点时,对该节点的位置信息、对应敏感词的位置信息、敏感词的所属项目以及密级进行临时记录;
如果该节点下还有其他能够匹配的节点,则继续向下匹配,直到遇到可以作为结尾的节点,并对比该节点对应的信息与之前记录的临时信息进行对比,选取密级最高的节点作为该敏感词的密级检测结果;如果该节点下已无其他可以匹配的节点,则将该节点信息作为密级检测结果;
选择所有敏感词中密级最高的等级作为该文档最后的密级检测结果,定密责任人对该检测结果进行审核,得到文档最终密级。
(三)有益效果
本发明提出了一种针对多种格式的电子文档密级检测方法,相比与传统方法主要有以下优点:
1、在面对大量敏感词汇时,相比通过关键词搜索的方法,敏感词匹配模型通过公共前缀可以有效节省存储空间;同时可以最大限度地减少无谓的词汇比较,提升匹配查找速度。
2、在面对大规模文档时,一次性全部读取的方式会产生庞大的内存开销,严重影响文档的读取效率;另一方面当读取过程中遇到问题(如文档损坏)时,已经读取部分也会受到影响,造成了额外的时间开销。采用自动分页读取的方式可以解决一次性读取全部文档带来的问题,从而提升整个读取过程的效率。
3、通过文档转化,实现了对多种常见的文档格式的统一支持,方便后续使用统一读取方式对中间格式文档进行自动读取。
4、通过敏感词匹配模型查找涉密词汇并得到检测结果,减轻了定密责任人审核全部文本内容带来的负担,有效提升效率,减少敏感词漏报情况,降低泄密风险。
附图说明
图1为本发明的方法流程图;
图2为本发明的敏感词词库构建原理图;
图3为本发明的敏感词匹配模型构建原理图;
图4为本发明的文档转换原理图;
图5为本发明的密级检测原理图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提出了一种支持多种格式电子文档的自动密级检测方法,支持敏感词定位和溯源,不仅可以提升定密责任人审核电子文档的效率,而且可以降低由于文档秘籍审核不准确造成的泄密风险。本发明的设计思想为:首先通过收集涉密项目相关的敏感词汇,创建敏感词词库并构造敏感词匹配模型,对待检测的电子文档进行格式转化得到统一格式的文档,便于后续以统一方式对待测文档进行分页读取和分析,对读取到的内容进行敏感词匹配和溯源,最后得到密级检测结果。
本发明方法的自动密级检测工作流程具体如图1所示,包括以下步骤:
第一步收集现有涉密项目相关的敏感词汇,建立词汇信息与项目信息的对应关系并构建敏感词词库
敏感词是电子文档密级检测结果的依据来源,根据不同敏感词对应的项目密级可以决定最后文档的密级,敏感词的准确性对于最后检测结果的可信度起到了至关重要的作用。不同项目中的敏感词可以包括中文、英文、繁体字、简体字、字母和数字等,还可以包括以上多种形式的混合形式,例如,中文和字母的组合、字母和数字的组合等。
在涉密文档中,往往不同的敏感词来自不同的涉密项目,能够体现不同密级,因此需要构建并维护一个能够覆盖全部现有涉密项目中敏感词的词库,通过敏感词可以追溯到对应涉密项目和密级。
构建敏感词词库过程中,以敏感词作为唯一标识,同时对所属的涉密项目和密级信息进行记录,对于不同项目中存在的相同敏感词,为了避免出现高密低传的泄密情况,对项目密级进行对比,选择高密级信息进行录入。
敏感词词库构建过程如图2所示,具体步骤如下:
步骤11.创建一个空的敏感词词库,以敏感词作为唯一标识,包含密级和对应的项目信息;
步骤12.从当前未解密的项目中筛选出其中的敏感词,并记录其密级和来源信息;
步骤13.将选中的敏感词与敏感词词库对比,若不存在同一敏感词,则进行保存;若已经存在,则与敏感词词库中的敏感词密级进行对比,选择其中密级较高的进行保存。
第二步基于所述敏感词词库构建敏感词匹配模型
从文档中匹配敏感词涉及到字符匹配和分词等过程,因此敏感词匹配模型在构建过程中不仅仅需要考虑传统分词中字符长度而且需要根据敏感词密级的不同进行设计。
敏感词匹配模型是一种专门用来处理字符串匹配的数据结构,通过构造树形结构,可以解决在一组字符串集合中快速查找某个字符或字符串的问题。该模型本质上是利用字符串之间的公共前缀,将重复的前缀进行合并,并继续向子节点继续匹配。
本发明提出的敏感词匹配模型结构如图3所示,具体构建步骤如下:
步骤21.定义节点类,每一个节点包含一个字符(可以是汉字,英文或数字)和多个子节点;
步骤22.构造一个不包含任何字符的根节点,以此来作为敏感词匹配的入口,除了根结点外每一个节点都只包含一个字符;
步骤23.根据敏感词词库中的涉密词汇,选取共有的前缀字符,依次作为根节点的子节点进行构建,从根节点到某一子节点的路径上,将所有经过的字符连成一个字符串,该字符串代表当前子节点对应的字符串,且每个节点下的所有子节点所包含的字符都是不同的;
每一个敏感词匹配模型都是从根节点开始,根据敏感词词库中所储存的敏感词从上到下进行节点构造,如果所需要的敏感词字符不存在,那么就创造一个新的子节点来存储这个字符,同时在每一个敏感词结尾字符所在的节点上进行标记,防止出现一个长字符串中包含了短字符串,但是无法匹配的错误情况。
针对涉密文档密级检测这一应用场景,考虑到最后的检测结果是按照敏感词所属的最高密级来确定的,因此最后字符串的匹配结果是按照敏感词的密级来确定的,以匹配到的所有字符串中最高密级作为检测结果。同时考虑到某些保密场景下,会采用一些同音词和同形词来代替原文中的敏感词汇,在设计敏感词匹配模型的时候同样需要对这些词汇进行存储。本步骤中采用树状数据结构进行关键词词库的存储,可以有效减少直接通过字符串的公共前缀进行匹配带来的时间开销,能够最大限度上减少无意义的字符串匹配过程,提升了匹配查找效率。
第三步对待测文档进行格式转化,实现电子文档格式的统一,便于文档内容的统一处理
在实际应用中,面对丰富的文档类型,需要具备各种对应格式的读取工具来对其中内容进行读取,为了解决这一问题,首先需要对各类电子文档进行转化,实现对所有类型文档格式的统一,方便后续对文档的处理。
本发明中设计的文档转化流程如图4所示,其具体步骤如下:
步骤31.根据上传到系统中文档的后缀名确定该文档的类型;
步骤32.通过调用LibreOffice中的命令实现将目标文档转化为统一中间格式。
考虑到文档格式的多样性,若直接对文档进行处理,需要具备多种与文档格式对应的解析工具,给后续的处理工作带来额外的开销。本步骤中调用LibreOffice工具,通过命令行“libreoffice--headless--convert-topdfsource_document”实现对多种格式文档(如doc、ppt、xsl、txt、xml、rtf等)的转化过程。经过转化后的文档除了格式发生改变,其他均与原文档保持一致,这样既实现了格式的统一,同时也保证了原始文档中数据的完整性,只需要通过一种解析工具便可以对文档进行内容读取和并进行后续的密级检测工作;另一方面,相比于原始文档,经过格式转化后的文档占据更小的存储空间且与操作系统无关,更加便于对内容的读取和处理。
第四步优化文档读取方式,实现对文档内容的分页读取,在分页读取的过程中,进行敏感词匹配,实现敏感词定位和溯源,得到最后的密级检测结果
经过第三步格式转化,可以将原始多种类型的电子文档转化为更利于读取和定位的统一格式,之后通过定义起始页码和终止页码对整个文档进行遍历,在遍历过程中按照固定步长递增页码。在本步骤中,通过对统一格式后的文档进行自动分页读取,可以分别对文档每页内容进行处理,减轻定密负责人直接阅读大量文本内容的负担,同时能够缓解一次性读取全部文档带来的内存压力。
本步骤中的分页读取的思想简单可以理解为对原始文档进行加窗动态扫描,每次对窗内文本数据进行读取并进行敏感词匹配,当窗口内数据处理完成后,该窗口向后移动窗口大小的步长进行后续内容的匹配。整个过程中,只针对窗口内的数据进行敏感词检查,降低了由于一次性处理数据过多造成数据堵塞或丢失的风险,且保证了文档的读取效率。采用这种分页读取的方式可以对文档进行动态访问,降低内存开销从而提升整个读取过程速度。
进行敏感词匹配实现密级检测时,通过第二步构建的敏感词匹配模型对读取到的文档内容进行分词匹配,该过程可以自动匹配识别所有敏感词汇,减少人工参与带来的不确定性,减少敏感词漏报情况,降低泄密风险;然后按照敏感词词库中对应的密级和项目来源,得到文档密级检测结果,并且可以溯源到敏感词所属项目。
密级检测的过程如图5所示,其具体步骤如下:
在敏感词匹配过程中,当遇到可以作为敏感词字符串结尾的节点时,对该节点的位置信息、对应敏感词的位置信息、敏感词的所属项目以及密级进行临时记录;
如果该节点下还有其他能够匹配的节点,则继续向下匹配,直到遇到可以作为结尾的节点,并对比该节点对应的信息与之前记录的临时信息进行对比,选取密级最高的节点作为该敏感词的密级检测结果;如果该节点下已无其他可以匹配的节点,则将该节点信息作为密级检测结果;
选择所有敏感词中密级最高的等级作为该文档最后的密级检测结果,定密责任人对该检测结果进行审核,得到文档最终密级。
可以看出,本发明的方法通过直接对待测文档进行检测分析得到密级检测结果,定密责任人无需对文档全部内容进行审核,只需对基于本发明得到的检测结果进行复核便可得到文档的最后密级,相比于传统方式,本发明能够减轻检查全部文本内容的工作负担,提升定密过程的效率;在涉密领域,漏报的敏感词可能包含重要的项目信息,漏报带来的泄密风险远远大于误报的风险,由于敏感词匹配过程通过匹配模型自动实现,降低了人工审核敏感词带来的不确定性,减少了敏感词漏报的情况,可以有效降低泄密风险。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (2)

1.一种支持多种格式电子文档的密级检测方法,其特征在于,包括以下步骤:
第一步、收集涉密项目相关的敏感词汇,建立词汇信息与项目信息的对应关系,并构建敏感词词库;
第二步、基于所述敏感词词库构建敏感词匹配模型;
第三步、对待测文档进行格式转化,实现电子文档格式的统一;
第四步、对文档内容进行分页读取,在分页读取的过程中,基于所述敏感词匹配模型进行敏感词匹配,并按照敏感词词库中对应的密级和项目来源,得到最后的密级检测结果;
第一步构建敏感词词库的过程中,以敏感词作为唯一标识,同时对所属的涉密项目和密级信息进行记录,对于不同项目中存在的相同敏感词,对项目密级进行对比,选择高密级信息进行录入;
第一步敏感词词库构建过程的具体步骤如下:
步骤11.创建一个空的敏感词词库,以敏感词作为唯一标识,包含密级和对应的项目信息;
步骤12.从当前未解密的项目中筛选出其中的敏感词,并记录其密级和来源信息;
步骤13.将选中的敏感词与敏感词词库对比,若不存在同一敏感词,则进行保存;若已经存在,则与敏感词词库中的敏感词密级进行对比,选择其中密级较高的进行保存;
第二步的敏感词匹配模型构建步骤如下:
步骤21.定义节点类,每一个节点包含一个字符和多个子节点;
步骤22.构造一个不包含任何字符的根节点,以此来作为敏感词匹配的入口,除了根结点外每一个节点都只包含一个字符;
步骤23.根据敏感词词库中的涉密词汇,选取共有的前缀字符,依次作为根节点的子节点进行构建,从根节点到某一子节点的路径上,将所有经过的字符连成一个字符串,该字符串代表当前子节点对应的字符串,且每个节点下的所有子节点所包含的字符都是不同的;
第二步中,每一个敏感词匹配模型都是从根节点开始,根据敏感词词库中所储存的敏感词从上到下进行节点构造,如果所需要的敏感词字符不存在,那么就创造一个新的子节点来存储这个字符,同时在每一个敏感词结尾字符所在的节点上进行标记;
第三步的具体步骤如下:
步骤31.根据上传到系统中文档的后缀名确定该文档的类型;
步骤32.通过调用LibreOffice中的命令实现将目标文档转化为统一中间格式;
第四步对文档内容进行读取的过程中,通过定义起始页码和终止页码对整个文档进行遍历,在遍历过程中按照固定步长递增页码;
第四步对文档内容进行分页读取的过程中,对文档进行加窗动态扫描,每次对窗内文本数据进行读取并进行敏感词匹配,当窗口内数据处理完成后,该窗口向后移动窗口大小的步长进行后续内容的匹配;
第四步中,基于所述敏感词匹配模型进行敏感词匹配,并按照敏感词词库中对应的密级和项目来源,得到最后的密级检测结果的具体步骤如下:
在敏感词匹配过程中,当遇到可以作为敏感词字符串结尾的节点时,对该节点的位置信息、对应敏感词的位置信息、敏感词的所属项目以及密级进行临时记录;
如果该节点下还有其他能够匹配的节点,则继续向下匹配,直到遇到可以作为结尾的节点,并对比该节点对应的信息与之前记录的临时信息进行对比,选取密级最高的节点作为该敏感词的密级检测结果;如果该节点下已无其他可以匹配的节点,则将该节点信息作为密级检测结果;
选择所有敏感词中密级最高的等级作为该文档最后的密级检测结果,定密责任人对该检测结果进行审核,得到文档最终密级。
2.如权利要求1所述的方法,其特征在于,步骤32中,通过命令行“libreoffice--headless--convert-to pdfsource_document”实现对多种格式文档的转化过程。
CN202310120266.9A 2023-02-16 2023-02-16 一种支持多种格式电子文档的密级检测方法 Active CN116089910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310120266.9A CN116089910B (zh) 2023-02-16 2023-02-16 一种支持多种格式电子文档的密级检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310120266.9A CN116089910B (zh) 2023-02-16 2023-02-16 一种支持多种格式电子文档的密级检测方法

Publications (2)

Publication Number Publication Date
CN116089910A CN116089910A (zh) 2023-05-09
CN116089910B true CN116089910B (zh) 2023-10-20

Family

ID=86213953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310120266.9A Active CN116089910B (zh) 2023-02-16 2023-02-16 一种支持多种格式电子文档的密级检测方法

Country Status (1)

Country Link
CN (1) CN116089910B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7958147B1 (en) * 2005-09-13 2011-06-07 James Luke Turner Method for providing customized and automated security assistance, a document marking regime, and central tracking and control for sensitive or classified documents in electronic format
CN102819604A (zh) * 2012-08-20 2012-12-12 徐亮 基于内容相关性的文件涉密内容检索、密级判定及标注方法
CN104156365A (zh) * 2013-05-14 2014-11-19 中国移动通信集团湖南有限公司 一种文件的监控方法、装置及系统
CN107016320A (zh) * 2016-01-27 2017-08-04 四川效率源信息安全技术股份有限公司 一种基于中文词库提高图片密级识别准确率的方法
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108399164A (zh) * 2018-03-27 2018-08-14 国网黑龙江省电力有限公司电力科学研究院 基于模板的电子公文分类分级系统
CN110019649A (zh) * 2017-12-25 2019-07-16 北京新媒传信科技有限公司 一种建立、搜索索引树的方法及装置
CN110941729A (zh) * 2019-10-30 2020-03-31 烟台职业学院 一种基于敏感标记的内容审查方法
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
CN112347779A (zh) * 2020-11-23 2021-02-09 军工保密资格审查认证中心 一种涉密文本密级自动判定的方法和装置
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN113158206A (zh) * 2021-04-15 2021-07-23 国家电网有限公司 一种基于决策树的文档安全等级划分方法
CN113704498A (zh) * 2021-09-01 2021-11-26 云知声(上海)智能科技有限公司 用于文档的智能审核方法及其系统
CN113837113A (zh) * 2021-09-27 2021-12-24 中国平安财产保险股份有限公司 基于人工智能的文档校验方法、装置、设备及介质
CN113961768A (zh) * 2021-12-22 2022-01-21 金蝶软件(中国)有限公司 敏感词检测方法、装置、计算机设备和存储介质
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN114564912A (zh) * 2021-11-30 2022-05-31 中国电子科技集团公司第十五研究所 一种文档格式智能检查校正方法及系统
WO2022121164A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 封停敏感词预测方法、装置、计算机设备及存储介质
CN114969840A (zh) * 2022-06-09 2022-08-30 北京百度网讯科技有限公司 数据防泄漏方法和装置
CN115062158A (zh) * 2022-06-06 2022-09-16 四川封面传媒科技有限责任公司 敏感信息知识图谱构建方法、装置及敏感信息确定方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7669051B2 (en) * 2000-11-13 2010-02-23 DigitalDoors, Inc. Data security system and method with multiple independent levels of security
KR102509943B1 (ko) * 2021-07-20 2023-03-14 강상훈 문서 작성 보조 장치

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7958147B1 (en) * 2005-09-13 2011-06-07 James Luke Turner Method for providing customized and automated security assistance, a document marking regime, and central tracking and control for sensitive or classified documents in electronic format
CN102819604A (zh) * 2012-08-20 2012-12-12 徐亮 基于内容相关性的文件涉密内容检索、密级判定及标注方法
CN104156365A (zh) * 2013-05-14 2014-11-19 中国移动通信集团湖南有限公司 一种文件的监控方法、装置及系统
CN107016320A (zh) * 2016-01-27 2017-08-04 四川效率源信息安全技术股份有限公司 一种基于中文词库提高图片密级识别准确率的方法
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN110019649A (zh) * 2017-12-25 2019-07-16 北京新媒传信科技有限公司 一种建立、搜索索引树的方法及装置
CN108399164A (zh) * 2018-03-27 2018-08-14 国网黑龙江省电力有限公司电力科学研究院 基于模板的电子公文分类分级系统
CN110941729A (zh) * 2019-10-30 2020-03-31 烟台职业学院 一种基于敏感标记的内容审查方法
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
CN112347779A (zh) * 2020-11-23 2021-02-09 军工保密资格审查认证中心 一种涉密文本密级自动判定的方法和装置
WO2022121164A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 封停敏感词预测方法、装置、计算机设备及存储介质
CN113158206A (zh) * 2021-04-15 2021-07-23 国家电网有限公司 一种基于决策树的文档安全等级划分方法
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN113704498A (zh) * 2021-09-01 2021-11-26 云知声(上海)智能科技有限公司 用于文档的智能审核方法及其系统
CN113837113A (zh) * 2021-09-27 2021-12-24 中国平安财产保险股份有限公司 基于人工智能的文档校验方法、装置、设备及介质
CN114564912A (zh) * 2021-11-30 2022-05-31 中国电子科技集团公司第十五研究所 一种文档格式智能检查校正方法及系统
CN113961768A (zh) * 2021-12-22 2022-01-21 金蝶软件(中国)有限公司 敏感词检测方法、装置、计算机设备和存储介质
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN115062158A (zh) * 2022-06-06 2022-09-16 四川封面传媒科技有限责任公司 敏感信息知识图谱构建方法、装置及敏感信息确定方法
CN114969840A (zh) * 2022-06-09 2022-08-30 北京百度网讯科技有限公司 数据防泄漏方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
叶情 ; .基于改进Trie树的变形敏感词过滤算法.现代计算机(专业版).2018,(第33期),全文. *
基于SSH的电子政务系统的设计与实现;王晓敏;《中国优秀硕士学位论文全文数据库信息科技辑》(第03期);I138-2072 *
基于决策树的敏感词变形体识别算法研究及应用;余敦辉;《计算机应用研究》;第1395-1405页 *
基于改进Trie树的变形敏感词过滤算法;叶情;;现代计算机(专业版)(第33期);全文 *

Also Published As

Publication number Publication date
CN116089910A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110569214B (zh) 用于日志文件的索引构建方法、装置及电子设备
CN100432996C (zh) 基于网页页面布局提取网页核心内容的系统、方法
CN109165373B (zh) 一种数据处理方法及装置
CN113761879B (zh) 报文格式校验方法、装置以及存储介质
CN112363706A (zh) 一种嵌套组合的预处理方法及设备
CN100428153C (zh) 一种生成测试脚本的方法及装置
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN116089910B (zh) 一种支持多种格式电子文档的密级检测方法
CN117473984A (zh) 一种txt文档内容章节划分方法和系统
KR100762712B1 (ko) 규칙기반의 전자문서 변환방법 및 그 시스템
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN110956030A (zh) 变电站远动机组态配置信息比对方法及系统
CN116089663A (zh) 一种规则表达式匹配方法、装置及计算机可读存储介质
TWI793432B (zh) 工程專案文件管理方法與系統
CN116089262A (zh) 一种基于代码动态分析的代码安全扫描系统及方法
CN112925874B (zh) 基于案例标记的相似代码搜索方法及系统
CN112699642B (zh) 复杂医疗文书的索引提取方法及装置、介质及电子设备
Majumder et al. A generalized model of text steganography by summary generation using frequency analysis
CN101261632B (zh) 一种基于HTML文法树的FrontPage操作阅卷方法
CN114186554A (zh) 脚本数据处理方法、装置、计算机设备及存储介质
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN1226692C (zh) 基于语义语言的机器翻译系统及方法
JP2009282903A (ja) 知識抽出・検索装置およびその方法
JP3477822B2 (ja) 文書登録検索システム
CN112379891B (zh) 一种数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant