CN102819604B - 基于内容相关性的文件涉密内容检索、密级判定及标注方法 - Google Patents

基于内容相关性的文件涉密内容检索、密级判定及标注方法 Download PDF

Info

Publication number
CN102819604B
CN102819604B CN201210296061.8A CN201210296061A CN102819604B CN 102819604 B CN102819604 B CN 102819604B CN 201210296061 A CN201210296061 A CN 201210296061A CN 102819604 B CN102819604 B CN 102819604B
Authority
CN
China
Prior art keywords
document
concerning security
security matters
level
confidentiality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210296061.8A
Other languages
English (en)
Other versions
CN102819604A (zh
Inventor
徐亮
谭煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210296061.8A priority Critical patent/CN102819604B/zh
Publication of CN102819604A publication Critical patent/CN102819604A/zh
Application granted granted Critical
Publication of CN102819604B publication Critical patent/CN102819604B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一种基于内容相关性进行涉密内容检索、密级确定及标注的方法,其主要是根据文档所属范围选择相应的涉密关键词及匹配规则库,通过对文档内容进行分词操作并构建语义关联网,准确而全面地查找出文档中的涉密信息,并依据定密规则库中的定密规则,对各个涉密信息点进行密级判定和加密处理,然后综合各个涉密信息点的密级给出整个文档的相应密级,最后,将相关的密级信息在文档中进行标注。该方法能够高效地查找文档中的涉密信息并准确地判断文档的密级,大大减少了人工定密的工作量,提高了定密工作和密级鉴定工作的效率,有效地防止定密过程中随意定密现象的产生,可以自动地学习新的涉密关键词及匹配规则,从而不断的提高检索和密级判定的精度。

Description

基于内容相关性的文件涉密内容检索、密级判定及标注方法
技术领域
本发明涉及对电子文档里的具体内容进行基于内容相关性的文件涉密内容检索、密级判定和标注方法。
背景技术
在现在的保密工作当中,对于涉密文件的管理和使用是很重要的一个环节,而其中对于文件密级的判定则是一项很重要的工作。现在的密级判定全部依赖于人工来实现,使得判定工作的周期过长、准确性不高,而且密级的确定涉及到整个文件,这就给涉密文件中一些非涉密内容的引用带来了极大的不便。为此能够依靠计算机,实现自动化且有效的判断一个文件的内容是否涉密、哪些具体内容涉密、涉密内容的密级如何的方法就显得尤为重要了。现在的文件涉密内容检索,包括一个已公开的发明专利申请——计算机系统涉密文件搜索方法(申请号:200910156814.3,申请公布号:CN 101763394 A),其采用的是对涉密关键词的匹配或者是通过对不同密级、不同类型、不同行业的涉密文件分析出特征点,然后对这些特征点实现组合搜索。但这种搜索方法存在一定的局限性,原因如下:
1.准确性不高。有些关键词和特征点只有在某种特定的语境下才涉密,而简单的关键词和特征点的匹配只能找出文件中是否含有该词语和特征点,并不能有效的判断该处文字的语境,因此,很多时候找出来的“涉密内容”实际上并不涉密。
2.完整性不强。文件内容的表达方式多种多样,包括文字、图片、视频、音频等,仅仅文字方面,对一个事物的表述方式就千差万别,这就使得无法用一些固定的关键词或特征点来涵盖所有的涉密信息,关键词和特征点只能起到提纲的作用,基于简单的搜索匹配的方法有可能会漏掉很多不包含关键词和特征点,但却包含涉密信息的内容,给保密工作带来隐患。
3.搜索结果的可用性不强。采用已有的方法查找出的文件,用户只能知道整个文件是涉密还是不涉密,并不能具体的给出文件中究竟哪个词语、哪个句子、哪个段落的内容涉密、涉密内容的密级分别是什么,这就给今后引用该文件中的内容造成了很大的不便。
4.不具备自动学习的功能。随着社会的发展,不断的会有新的文件、新的关键词、新的特征点出现。而已有的方法,只能是在已有的涉密文件的基础上来进行搜索,而没有办法涉及到新出现的涉密内容。
发明内容
本发明目的在于,针对现有技术中的问题,提出一种基于内容相关性的涉密内容检索、密级判定及标注方法,其可根据文件的上下文内容来进行智能化的语义检索,能准确地检索出文件中的涉密信息、确定涉密内容的范围、密级,实现对文本内容中涉密内容的准确定位和范围界定,帮助定密负责人和保密部门的工作人员进行高效的定密和保密检查工作,实现定密的科学化、合理化、规范化、高效化;还可以对检索出来的涉密内容进行标注,方便今后对该文件的引用。
为了实现上述目的,本发明提出了基于内容相关性进行涉密内容检索、密级确定及标注的方法,其依次包括以下步骤:
A、加载步骤:加载文档所属范围的涉密关键词及匹配规则库、本体库和定密规则库;
B、解析步骤:对文档中的文字进行分词操作,并解析出该文档所包含图片、视频、音频中隐含的信息;
C、检索步骤:根据文档的分词结果和加载的所属范围的涉密关键词词库和本体库查找文档中的涉密关键词,得到文档中的涉密关键词,并利用基于内容相关性的语义检索,依次检索出文档中与找到的涉密关键词有内容相关性的词语、句子和段落,将检索出的与涉密关键词有内容相关性的信息按其相关程度的大小,加入到有内容相关性的语义关联网中,得到语义关联网,再将语义关联网中构建的关系与涉密匹配规则库的规则比较,检索出涉密的语句、段落;
D、密级确定步骤:根据检索结果和所属范围的定密规则库,确定文档中涉密内容的密级;
E、标注步骤:对文档中确定了密级的涉密内容进行标注,生成标注文档。
作为优选,本发明还包括步骤F:根据对整个文件的密级标注进行分析统计,给出文件中各个密级内容的统计信息,依据设定的文档密级确定规则给出整个文档的密级判定,并对其进行标注。
作为优选,本发明还包括步骤G:从文档中提取相关信息,如提取相应的关键字、生成内容摘要、给出该文档应属的部门、定密时间等,制成该文档的定密审批表和加了密级标注的文档。
作为优选,本发明基于内容相关性进行涉密内容检索、密级确定及标注的方法还包括自学习步骤:对不属于已有范围的文档,对文档进行完检索后,提取相应的关键字和匹配规则,加入到默认关键词词库和匹配规则库当中。
作为优选,所述加载步骤中文档所属范围的涉密关键词及匹配规则库是指对属于某一特定领域范围、某一特定部门、行业中的已知的所有涉密关键词集合;与该行业、领域判断是否是涉密信息的相关文字的语法、语义规则的集合以及相关图片涉密信息的匹配规则集合。
作为优选,所述加载步骤中,对于不确定文档所属领域的,可采用默认的涉密关键词及匹配规则库。默认的涉密关键词及匹配规则库是由所有的部门关键词词库和匹配规则中使用频率最高的一些关键词和匹配规则组成,可以最大范围的覆盖各个不同领域的文档。
作为优选,所述加载步骤中,若选择了默认的涉密关键词及匹配规则库,则还需要据初次匹配的结果,分析得出该文档所属的领域或部门,再加载该部门涉密关键词词库和规则库进行进一步的分析匹配,以得到更精确的结果。
作为优选,所述解析步骤中的分词操作的主要对象是中文和英文。分词又叫切词,中文分词是指将连续的汉字序列按照一定的规范重新切成分词序列的过程,即将文档的文字内容分解成与上下文环境相匹配的一个一个的词语;英文分词则相对简单,根据文中英文单词之间的空格就可以很好的对英文进行分词操作。
作为优选,所述解析步骤中的分词操作,可以采用某种单一的分词方法,也可以采用多种不同分词方法的组合,并可以对分词方法进行优先级设定,即在采用多种不同的分词方法进行分词操作的过程中,如果发生了分词冲突,则以优先级高的分词方法为准。
作为优选,所述解析步骤中的分词操作可以与多核并行计算相结合,在保证分词精度的同时提高分词的速度。
作为优选,所述解析步骤中,还包括对文字以外的其它信息的解析,如对图片、视频、音频中所隐含的信息的解析。
作为优选,在检索步骤中,利用解析步骤的结果,对解析后的文档进行基于内容相关性的语义检索,并根据语义关联度的大小来判断文档中相关信息与涉密关键词的内容相关性的大小,从而得知文档中的相关信息是否涉密。
作为优选,在检索步骤中,对解析出的信息依据其与涉密关键词的内容相关性程度,构建一个基于涉密关键词的语义关联网络,便于依据关键词来检索与涉密相关的信息。
作为优选,在密级确定步骤中,对文档中的涉密信息,依据相应的定密规则库对其进行密级的判定,根据对文档中所有涉密信息的密级判定,最终确定整个文档的密级。
作为优选,在密级确定步骤中,密级判定规则可以有多种不同的形成方式。可以直接采用与该涉密信息相关的涉密关键词的密级;也可以通过分析其与多个不同涉密关键词的关联程度来计算得到;也可以将相应的密级判定办法用语义规则来描述,通过语义规则来判断涉密信息的密级;还可以将关键词和语义规则结合起来,共同判定涉密信息的密级。
作为优选,在标注步骤中,将文档中所有涉密信息进行标注,注明涉密关键词、涉密关键句、涉密关键段落的密级,并生成相应的标注文档,便于今后的检查和使用。
作为优选,在标注步骤中,除了简单的标注密级外,还应给整篇文档加注符合规范的密级标签,使得该文档具有相应密级所应具备的所有属性。
作为优选,在标注步骤中,采用相应的加密技术,对生成的标注文档做加密处理,让其中的内容无法被复制,增强涉密文档的保密性。
作为优选,在自学习阶段,通过对属于已有关键词词库范围外的文档的分析检索,并进行与已有涉密关键词的内容相关性搜索,匹配出与已有涉密关键词内容相关性最高的若干个词语,进行新的关键词的提取操作,将其加入到默认关键词词库当中。
作为优选,在自学习阶段,通过提取的涉密关键词,还可以提取出与新的涉密关键词相关的定密语义规则,并将该规则加入到默认的涉密匹配规则库当中。
作为优选,该方法能够在单机版的应用程序中实现,也能在网络版的应用程序中使用,还能够作为插件嵌入到其它应用程序中使用。
作为优选,该方法可以对单个文档进行定密操作,也可以对一批文档进行定密操作。
本发明的有益效果:本发明对文档进行基于内容相关性的语义搜索,可根据文档所属范围选择相应的涉密关键词及匹配规则库,通过对文档内容进行分词操作并构建语义关联网,准确而全面地查找出文档中的涉密信息,并依据定密规则,对各个涉密信息点进行密级判定和加密处理,然后综合各个涉密信息点的密级给出整个文档的相应密级,最后,将相关的密级信息在文档中进行标注。该方法能够高效地查找文档中的涉密信息并准确地判断文档的密级,大大减少了人工定密的工作量,提高了定密工作和密级鉴定工作的效率。该方法能准确的确定计算机中文件的密级,有效地防止定密过程中随意定密现象的产生,是保密工作源头的重要保障。另外,本发明还具有自动学习的功能,通过不断地对各种类型的文件进行涉密内容的检索,可以自动地生成相应的检索关键字和检索规则,从而不断的提高检索和密级判定的精度。
附图说明
图1是本发明基于内容相关性的文件涉密内容检索及密级判定和标注方法的流程图。
图2为本发明实施例形成的语义关联网示意图。
具体实施方式
参阅图1,基于内容相关性的文件涉密内容检索、密级判定及标注的流程具体步骤描述如下:
A、加载步骤:用户填写相关信息,如部门名称、定密人、事项名称等,并提交文档,其中,定密人一项为必填项目,其它项目可由系统自动生成,根据用户填写的部门信息加载所属范围的涉密关键词及匹配规则库、本体库和定密规则库,若用户没有填写部门信息,则加载默认的涉密关键词及匹配规则库、本体库和定密规则库。
B、解析步骤:对提交的文档进行分词操作,并解析出该文档所包含图片、视频、音频中隐含的信息。根据不同的文档类型,使用不同的解析方法(分词方法):如TXT文档,则直接利用中英文的分词算法对其进行分词操作;如WORD文档,除了对其中的文字内容进行分词操作以外,还需要对其中可能包含的图片进行解析,提取其中可能包含的涉密信息;对PDF等其他类型的文件,采用相应的方法解析出文字、图片、格式等信息。
C、检索步骤:根据文档的解析(即分词)结果和加载的所属范围的涉密关键词词库及本体库查找文档中的涉密关键词(本体库是某领域的词语的集合,结合本体库,就可以更好的找到文本中可能存在的与涉密关键词同义的词语。);利用基于内容相关性的语义检索,依次检索出文档中与找到的涉密关键词有内容相关性的词语、句子和段落,将检索出的与涉密关键词有内容相关性的信息按其相关程度的大小,加入到有内容相关性的语义关联网中,再将语义关联网中构建的关系与涉密匹配规则库的规则比较,检索出涉密的语句、段落。语义关联网就是根据涉密关键词之间的关系组建的涉密关键词联系网。语义关联网的主要作用就是便于定密规则的机器化实现。
D、密级确定步骤:利用所属范围的定密规则库对检索出来的涉密关键词、短语、句子、段落进行密级判定;
E、标注步骤:对文档中确定了密级的涉密内容进行标注,生成标注文档。
F、根据对整个文档的密级标注进行分析统计,给出文档中各个密级内容的统计信息,依据设定的文档密级确定规则给出整个文档的密级判定,并对其进行标注。
G、从文档中提取相关信息,如提取相应的关键字、生成内容摘要、给出该文档应属的部门、定密时间等,制成该文档的定密审批表和加了密级标注的文档。
本发明通过对文档内容进行基于内容相关性的语义检索,检索文档中与涉密关键词相关的内容信息,并将其与定密规则库中的定密规则相匹配,对文档中的信息进行密级的判定和标注。同时,除了对涉密关键词的密级判定外,还可以对句子、段落进行密级的判定和标注,实现定密过程的自动化和深入化,有效地简化了定密人员的工作,缩短了定密和密级鉴定的时间,提高了定密的精确度,很好地防止了随意定密造成的涉密文件过多的现象,以利于保密工作的开展。
本发明基于内容相关性的文件涉密内容检索、密级判定和标注方法可以根据待定密文档所属的部门来进行密级判定,也可以选择默认的涉密关键词库、本体库来进行密级判定。对文档中相关信息的判定结果,会在文档中进行标注,并对整个文档的密级进行计算和标注,同时生成密级审批表和标注文档,并将其放入到一个临时的文件保护区当中,待审核过后,便按密级、按部门进行分类保存。
本发明可以应用于政府、公检法、财税、金融、军队、企事业单位等,凡是会产生涉密文件的单位,对新产生的文件进行密级鉴定,确定其密级后,才能在该密级所规定的范围内进行传播;还可用于保密工作部门对各行业开展保密工作检查,提高保密工作的效率。
下面以一段文字为例,来看看是如何进行密级判定的。
例文:加勒比总理Sotos将于2012年10月31日应邀来华进行国事访问。在其访问期间,将与我国总理就目前加勒比的紧张局势进行磋商。Sotos总理在华期间的安全必须得到保障。保卫工作中,无线电的使用方案如下:在其出行的过程中,主要是从钓鱼台到中南海的道路沿线,对周边1公里范围内的无线电进行管制,只允许保卫人员用无线电频率91.8MHz进行通信。
A、加载所属范围的涉密关键词及匹配规则库、本体库和定密规则库;
涉密关键词词库:外国元首,政府首脑,重要领导人,无线电,安全……。
本体库:总统、总理、国王、副总统、副总理、议长、委员长……(省略了很多与“外国元首”、“政府首脑”、“重要领导人”有关的词语)、电台、微波、频率、管制、实施方案……(省略了很多与“无线电”有关的词语)、安全措施、安全保障、安全手段……(省略了很多与“安全”有关的词语)……
B、对该文档进行解析(分词),得到解析结果如下:
加勒比总理Sotos将于2012年10月31日应邀来华进行国事访问。在其访问期间,将与我国总理就目前加勒比的紧张局势进行磋商。Sotos总理在华期间的安全必须得到保障。保卫工作中,无线电的使用方案如下:在其出行的过程中,主要是从钓鱼台到中南海的道路沿线,对周边1公里范围内的无线电进行管制,只允许保卫人员用无线电频率91.8 M Hz进行通信。
C、根据文档的解析(即分词)结果和加载的所属范围的涉密关键词词库和本体库查找文档中的涉密关键词,得到文档中的涉密关键词:总理、安全、保障、无线电、使用方案、频率、管制;利用基于内容相关性的语义检索,依次检索出文档中与找到的涉密关键词有内容相关性的词语、句子和段落,将检索出的与涉密关键词有内容相关性的信息按其相关程度的大小,加入到有内容相关性的语义关联网中,得到语义关联网如图2所示;
图2中,斜体文字表示是涉密关键词,圆圈为语义关联网的初始节点,双环形为语义关联网的终止节点,类椭圆形框中的词语为中心词语,矩形框中的词语为中心词语的修饰语,圆角矩形中的内容为某一中心词语的复合修饰内容,可以看作是一个语义子网。
再将语义关联网中构建的关系与所属范围的涉密匹配规则库的规则比较,检索出涉密的语句、段落。
通过对涉密关键词所在的语义网路径进行搜索,我们知道,是要对“加勒比”“总理”“在华”的安全进行保障;通过对“无线电”“使用方案”的复合修饰内容的检索,里面包含有对关键词“无线电”进行修饰的“频率”,并且有“91.8MHz”这个具体的频率值来进一步修饰“频率”。分析完成后,我们知道,这段文字涉及到对外国元首来访期间安全保障所使用的无线电频率。在此,可以注意到,在语义关联网中,给出具体使用频率的斜体的“无线电”上方的那个“无线电”不是涉密关键词,这是由语义检索来判定的,所以在不同的环境下,同一个词语它是否涉密是需要通过语义检索来进行判定的,并不是简单的查找匹配就能判定的。
D、通过查找所属范围的定密规则库,即在《国家无线电管理工作中国家秘密及其密级具体范围的规定》中,第二条第(二)项第二点规定:外国元首、政府首脑或其它重要领导人来访期间使用的无线电技术资料应为机密级事项。因而,判定这段文字符合该定密规则,其密级可以确定为“机密级”。
E、对该段文字中的机密级内容进行标注,标注修饰“使用方案”的复合修饰内容为“机密级”,这意味着在加标注的文件中,与语义关联网中,该修饰部分内容对应的文字,全部要标注成“机密级”,其余文字不标注;
F、将整个段落标注成“机密级”段落,因为整个文档的密级通过对各个段落的密级取最高级别得到,从而完成对整个文档的密级判定和标注工作。
由此得到经过标注的文档如下:(阴影文字表示绝密内容,加粗黑体表示机密内容,普通黑体表示秘密内容,下划线表示涉密关键词,段落最后的上标表示该段落的密级)
加勒比总理Sotos将于2012年10月31日应邀来华访进行国事访问。在其访问期间,将与我国总理就目前Alish国内的紧张局势进行磋商。Sotos总理在华期间的安全必须得到 。保卫工作中,无线电使用方案如下:在其出行的过程中,主要是从钓鱼台到中南海的道路沿线,对周边1公里范围内的无线电进行管制,只允许保卫人员用无线电频率91.8MHz进行通信。机密
G、结合相应的“用户填写信息”,输出“定密审批表”如下表所示(其中,*号为用户填写的相关信息,除签字盖章部分外,其余均由系统生成)。
国家秘密事项密级确定审批表

Claims (9)

1.一种基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于依次包括以下步骤:
A、加载步骤:加载文档所属范围的涉密关键词及匹配规则库、本体库和定密规则库;
B、解析步骤:对文档中的文字进行分词操作,并解析出该文档所包含图片、视频、音频中隐含的信息;
C、检索步骤:根据文档的分词结果和加载的所属范围的涉密关键词词库和本体库查找文档中的涉密关键词,得到文档中的涉密关键词,并利用基于内容相关性的语义检索,依次检索出文档中与找到的涉密关键词有内容相关性的词语、句子和段落,将检索出的与涉密关键词有内容相关性的信息按其相关程度的大小,加入到有内容相关性的语义关联网中,得到语义关联网,再将语义关联网中构建的关系与涉密匹配规则库的规则比较,检索出涉密的语句、段落;
D、密级确定步骤:根据检索结果和所属范围的定密规则库,确定文档中涉密内容的密级;
E、标注步骤:对文档中确定了密级的涉密内容进行标注,生成标注文档。
2.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于还包括自学习步骤:对不属于已有范围的文档,对文档进行完检索后,提取相应的关键字和匹配规则,加入到默认的涉密关键词及匹配规则库中。
3.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于还包括步骤F:根据对整个文档的密级标注进行分析统计,给出文档中各个密级内容的统计信息,依据设定的文档密级确定规则给出整个文档的密级判定,并对其进行标注。
4.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于还包括步骤G:从文档中提取相关信息制成该文档的定密审批表和加了密级标注的文档。
5.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于,所述加载步骤中文档所属范围的涉密关键词及匹配规则库是指该文档所属的某一特定领域范围或某一特定部门已知的所有涉密关键词集合,和该领域、部门判断是否是涉密信息的相关文字的语法、语义规则的集合以及相关图片涉密信息的匹配规则集合。
6.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于,所述加载步骤中,对于不确定文档所属领域的,采用默认的涉密关键词及匹配规则库,该默认的涉密关键词及匹配规则库是由所有的部门关键词词库和匹配规则中使用频率最高的一些关键词和匹配规则组成。
7.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于,所述加载步骤中,若选择了默认的涉密关键词及匹配规则库,则根据初次匹配的结果,分析得出该文档所属的领域或部门,再加载该部门的涉密关键词及匹配规则库进行进一步的分析匹配。
8.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于,所述解析步骤中的分词操作与多核并行计算相结合。
9.根据权利要求1所述的基于内容相关性进行涉密内容检索、密级确定及标注的方法,其特征在于,所述标注步骤中,采用加密技术对生成的标注文档做加密处理。
CN201210296061.8A 2012-08-20 2012-08-20 基于内容相关性的文件涉密内容检索、密级判定及标注方法 Expired - Fee Related CN102819604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210296061.8A CN102819604B (zh) 2012-08-20 2012-08-20 基于内容相关性的文件涉密内容检索、密级判定及标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210296061.8A CN102819604B (zh) 2012-08-20 2012-08-20 基于内容相关性的文件涉密内容检索、密级判定及标注方法

Publications (2)

Publication Number Publication Date
CN102819604A CN102819604A (zh) 2012-12-12
CN102819604B true CN102819604B (zh) 2015-06-10

Family

ID=47303715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210296061.8A Expired - Fee Related CN102819604B (zh) 2012-08-20 2012-08-20 基于内容相关性的文件涉密内容检索、密级判定及标注方法

Country Status (1)

Country Link
CN (1) CN102819604B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093154B (zh) * 2013-02-06 2016-01-20 杭州电子科技大学 一种定密信息管理系统及定密信息管理方法
CN103164515B (zh) * 2013-03-01 2015-03-25 傅如毅 计算机系统涉密文件知识库搜索方法
CN104156365B (zh) * 2013-05-14 2018-05-11 中国移动通信集团湖南有限公司 一种文件的监控方法、装置及系统
CN103870758B (zh) * 2014-03-20 2016-05-11 陈建 基于词归类组合判定与概率统计的涉密信息密级归属方法
CN105022963A (zh) * 2014-04-23 2015-11-04 宇龙计算机通信科技(深圳)有限公司 文档保存方法、系统及终端
CN104008169B (zh) * 2014-05-30 2017-02-22 中国测绘科学研究院 一种基于语义的地理标注内容安全检查方法及装置
US10140296B2 (en) * 2015-11-24 2018-11-27 Bank Of America Corporation Reversible redaction and tokenization computing system
US10068100B2 (en) * 2016-01-20 2018-09-04 Microsoft Technology Licensing, Llc Painting content classifications onto document portions
CN107016320B (zh) * 2016-01-27 2021-08-03 四川效率源信息安全技术股份有限公司 一种基于中文词库提高图片密级识别准确率的方法
CN105930742A (zh) * 2016-04-18 2016-09-07 Ubiix有限公司 企业档案监控、发送及转发方法和装置同应用的通信设备
CN106650432B (zh) * 2016-09-30 2020-11-10 北京奇虎科技有限公司 涉密信息的分析方法及装置
CN106485144A (zh) * 2016-09-30 2017-03-08 北京奇虎科技有限公司 涉密信息的分析方法及装置
CN108536695B (zh) * 2017-03-02 2021-06-04 北京嘀嘀无限科技发展有限公司 一种地理位置信息点的聚合方法以及装置
CN108334490B (zh) * 2017-04-07 2021-05-07 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108399164B (zh) * 2018-03-27 2022-04-29 国网黑龙江省电力有限公司电力科学研究院 基于模板的电子公文分类分级系统
CN109871426B (zh) * 2018-12-18 2021-08-10 国网浙江桐乡市供电有限公司 一种涉密数据的监测识别方法
CN110517008A (zh) * 2019-07-24 2019-11-29 杭州电子科技大学 一种国家涉密文件信息统计方法
CN110647505B (zh) * 2019-08-21 2021-06-29 杭州电子科技大学 一种基于指纹特征的计算机辅助密点标注方法
CN111353301B (zh) * 2020-02-24 2023-07-21 成都网安科技发展有限公司 辅助定密方法及装置
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
CN112149403A (zh) * 2020-10-16 2020-12-29 军工保密资格审查认证中心 一种确定涉密文本的方法和装置
CN112214262B (zh) * 2020-12-09 2021-03-02 南京中孚信息技术有限公司 基于浏览器插件实现对文档在线内容标注的方法及系统
CN113032811A (zh) * 2021-04-13 2021-06-25 北京国联易安信息技术有限公司 数据库敏感信息检查方法
CN113806797A (zh) * 2021-08-11 2021-12-17 珠海金山办公软件有限公司 文档标密方法、装置、存储介质及处理器
CN113672915A (zh) * 2021-10-20 2021-11-19 南京中孚信息技术有限公司 一套基于机器学习的数据防泄露系统
CN114722416B (zh) * 2022-06-09 2022-10-11 湖南师范大学 一种基于加密的财务信息化数据处理方法和系统
CN116089910B (zh) * 2023-02-16 2023-10-20 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法
CN117082021B (zh) * 2023-10-12 2024-01-02 太平金融科技服务(上海)有限公司 邮件干预方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于可信度的不确定推理辅助定密;张帆等;《2009全国计算机网络与通信学术会议论文集》;20090530;218-222 *
基于知识的网上监控系统的研究;刘林等;《微电子学与计算机》;20071005;第24卷(第10期);150-152 *
科学定密机制研究;王宇等;《保密科学技术》;20110530(第5期);42-46 *

Also Published As

Publication number Publication date
CN102819604A (zh) 2012-12-12

Similar Documents

Publication Publication Date Title
CN102819604B (zh) 基于内容相关性的文件涉密内容检索、密级判定及标注方法
CN111897970A (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
TWI536181B (zh) 在多語文本中的語言識別
CN113158653B (zh) 预训练语言模型的训练方法、应用方法、装置及设备
CN108664595B (zh) 领域知识库构建方法、装置、计算机设备和存储介质
CN108121697B (zh) 一种文本改写的方法、装置、设备和计算机存储介质
US10831820B2 (en) Content based image management and selection
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN113486158B (zh) 基于案情比对的类案检索方法、装置、设备及存储介质
CN105183710A (zh) 一种文档摘要自动生成的方法
CN110134780B (zh) 文档摘要的生成方法、装置、设备、计算机可读存储介质
Mola-Velasco Wikipedia vandalism detection
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN105138637A (zh) 一种数据处理的方法及装置
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
CN108846134A (zh) 一种基于网络爬虫的运维方案推荐系统及方法
CN108009155A (zh) 数据处理方法及系统和服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150610

Termination date: 20210820

CF01 Termination of patent right due to non-payment of annual fee