CN110298024B - 涉密文档的检测方法、装置及存储介质 - Google Patents

涉密文档的检测方法、装置及存储介质 Download PDF

Info

Publication number
CN110298024B
CN110298024B CN201810232937.XA CN201810232937A CN110298024B CN 110298024 B CN110298024 B CN 110298024B CN 201810232937 A CN201810232937 A CN 201810232937A CN 110298024 B CN110298024 B CN 110298024B
Authority
CN
China
Prior art keywords
word
document
preset
determining
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810232937.XA
Other languages
English (en)
Other versions
CN110298024A (zh
Inventor
杨黎斌
蔡晓妍
戴航
张野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201810232937.XA priority Critical patent/CN110298024B/zh
Publication of CN110298024A publication Critical patent/CN110298024A/zh
Application granted granted Critical
Publication of CN110298024B publication Critical patent/CN110298024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种涉密文档的检测方法、装置及存储介质,该涉密文档的检测方法包括:对待检测文档进行分词处理,得到N个词;N为大于等于2的整数;通过循环神经网络模型在N个词中提取M个关键词;其中,M为小于N的整数;将M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定待检测文档为涉密文档。本发明实施例提供的涉密文档的检测方法、装置及存储介质,提高了检测效率,且提高了检测的准确度。

Description

涉密文档的检测方法、装置及存储介质
技术领域
本发明实施例涉及机器学习技术领域,尤其涉及一种涉密文档的检测方法、装置及存储介质。
背景技术
随着全球网络信息化的高速发展,互联网已经进入大数据时代,为了避免泄密问题的发生,并保证数据的安全性,因此,在文档发布之前,对涉密文档进行安全性检测已成为至关重要的工作。
现有技术中,在检测一个文档是否为涉密文档时,是通过该文档进行分词处理,得到若干个词,并将该若干个词与预设设置的涉密词库中的词进行匹配,从而根据匹配结果确定该文档是否为涉密文档。
然而,采用现有的检测方式,由于要将文档进行分词处理之后的若干个词均与涉密词库中的词进行匹配,从而使得检测效率较低,且检测的准确度不高。
发明内容
本发明实施例提供一种涉密文档的检测方法、装置及存储介质,以提高检测效率,且提高检测的准确度。
本发明实施例提供一种涉密文档的检测方法,包括:
对待检测文档进行分词处理,得到N个词;N为大于等于2的整数;
通过循环神经网络模型在所述N个词中提取M个关键词;其中,M为小于N的整数;
将所述M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定所述待检测文档为涉密文档。
在本发明一实施例中,所述将所述M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定所述待检测文档为涉密文档,包括:
通过聚类算法将所述涉密词库中的关键词划分为K个簇;K为大于等于2的整数;
获取所述M个关键词求和得到的特征向量分别与所述K个簇中的每一个簇的特征向量之间的相似度,得到K个相似度;
若所述K个相似度中存在至少一个相似度大于第二阈值,则确定所述待检测文档为涉密文档。
在本发明一实施例中,所述通过循环神经网络模型在所述N个词中提取M个关键词之前,还包括:
确定用于训练初始循环神经网络模型的预设词和所述预设词对应的词标签;
将所述预设词的词向量矩阵和所述词标签输入至所述初始循环神经网络模型,得到所述词标签对应的预测值;
根据所述词标签和所述词标签的预测值调整所述初始循环神经网络模型的参数,得到所述循环神经网络模型,所述循环神经网络模型输出的所述词标签的预测值和所述词标签的误差满足预设条件。
在本发明一实施例中,所述将所述M个关键词与涉密词库中的关键词进行匹配之前,还包括:
根据所述预设词的逆文档频率和所述预设词中最高逆文档频率确定每一个所述预设词的基础权重;
根据所述每一个所述预设词的基础权重确定所述每一个所述预设词的权重;
根据包括所述预设词的文档发布者的影响力和所述每一个所述预设词的权重确定所述每一个所述预设词的涉密度;
若所述预设词的涉密度大于第三阈值,则将所述预设词存储至所述涉密词库中。
在本发明一实施例中,所述根据所述预设词所属的文档发布者的影响力和所述每一个所述预设词的权重确定所述每一个所述预设词的涉密度,包括:
根据
Figure BDA0001603187080000021
确定所述每一个所述预设词的涉密度;
其中,
Figure BDA0001603187080000031
表示词j在时间窗t内的涉密度,
Figure BDA0001603187080000032
是词j在时间窗t内的权重,
Figure BDA0001603187080000033
是时间窗t内包含词j的所有文档,
Figure BDA0001603187080000034
是包含词j的文档pn的发布者的影响力,N表示回顾窗大小,回顾窗由时间窗t之前的N个时间窗组成,K表示第K个时间窗,pb表示任一个文档。
在本发明一实施例中,所述根据所述每一个所述预设词的基础权重确定所述每一个所述预设词的权重,包括:
根据
Figure BDA0001603187080000035
确定所述每一个所述预设词的权重;
其中:
Figure BDA0001603187080000036
表示时间窗t内词j的权重;wj,i表示词j在文档i中的基础权重;
Figure BDA0001603187080000037
是时间窗t内包含词j的所有文档;
Figure BDA0001603187080000038
是文档pi的表态数;
Figure BDA0001603187080000039
是文档pi的回复数;c1与c2是影响因子,且c1+c2=1。
本发明实施例还提供一种涉密文档的检测装置,该涉密文档的检测装置包括:
处理单元,用于对待检测文档进行分词处理,得到N个词;N为大于等于2的整数;
提取单元,用于通过循环神经网络模型在所述N个词中提取M个关键词;其中,M为小于N的整数;
匹配单元,用于将所述M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定所述待检测文档为涉密文档。
在本发明一实施例中,所述匹配单元,具体用于通过聚类算法将所述涉密词库中的关键词划分为K个簇;K为大于等于2的整数;并获取所述M个关键词求和得到的特征向量分别与所述K个簇中的每一个簇的特征向量之间的相似度,得到K个相似度;若所述K个相似度中存在至少一个相似度大于第二阈值,则确定所述待检测文档为涉密文档。
在本发明一实施例中,该涉密文档的检测装置还包括:
确定单元,用于确定用于训练初始循环神经网络模型的预设词和所述预设词对应的词标签;
获取单元,用于将所述预设词的词向量矩阵和所述词标签输入至所述初始循环神经网络模型,得到所述词标签对应的预测值;
调整单元,根据所述词标签和所述词标签的预测值调整所述初始循环神经网络模型的参数,得到所述循环神经网络模型,所述循环神经网络模型输出的所述词标签的预测值和所述词标签的误差满足预设条件。
在本发明一实施例中,所述确定单元,还用于根据所述预设词的逆文档频率和所述预设词中最高逆文档频率确定每一个所述预设词的基础权重;并根据所述每一个所述预设词的基础权重确定所述每一个所述预设词的权重;根据包括所述预设词的文档发布者的影响力和所述每一个所述预设词的权重确定所述每一个所述预设词的涉密度;若所述预设词的涉密度大于第三阈值,则将所述预设词存储至所述涉密词库中。
在本发明一实施例中,所述确定单元,具体用于根据
Figure BDA0001603187080000041
确定所述每一个所述预设词的涉密度;
其中,
Figure BDA0001603187080000042
表示词j在时间窗t内的涉密度,
Figure BDA0001603187080000043
是词j在时间窗t内的权重,
Figure BDA0001603187080000044
是时间窗t内包含词j的所有文档,
Figure BDA0001603187080000045
是包含词j的文档pn的发布者的影响力,N表示回顾窗大小,回顾窗由时间窗t之前的N个时间窗组成,K表示第K个时间窗,pb表示任一个文档。
在本发明一实施例中,所述确定单元,具体用于根据
Figure BDA0001603187080000046
确定所述每一个所述预设词的权重;
其中:
Figure BDA0001603187080000047
表示时间窗t内词j的权重;wj,i表示词j在文档i中的基础权重;
Figure BDA0001603187080000048
是时间窗t内包含词j的所有文档;
Figure BDA0001603187080000049
是文档pi的表态数;
Figure BDA00016031870800000410
是文档pi的回复数;c1与c2是影响因子,且c1+c2=1。
本发明实施例还提供一种涉密文档的检测装置,该涉密文档的检测装置可以包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为通过执行所述可执行指令来执行上述任一实施例所示的涉密文档的检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所示的涉密文档的检测方法的步骤。
本发明实施例提供了一种涉密文档的检测方法、装置及存储介质,通过对待检测文档进行分词处理,得到N个词;并通过循环神经网络模型在N个词中提取M个关键词;再将M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定待检测文档为涉密文档。由此可见,本发明实施例提供的涉密文档的检测方法、装置及存储介质,在对对待检测文档进行分词处理后,不是直接将分词处理得到的N个词与涉密词库中的关键词进行匹配,而是需要先通过循环神经网络模型在N个词中提取M个关键词,并将该M个关键词与涉密词库中的关键词进行匹配,这样可以减少与涉密词库中的关键词进行匹配的数据量,从而提高了检测效率,且提高了检测的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种涉密文件的检测方法的流程图;
图2为本发明实施例提供的另一种涉密文档的检测方法的流程图;
图3为本发明实施例提供的一种循环神经网络模型的示意图;
图4为本发明实施例提供的一种构建涉密词库的方法的示意图;
图5为本发明实施例提供的一种涉密文档的检测装置的结构示意图;
图6为本发明实施例提供的另一种涉密文档的检测装置的结构示意图;
图7为本发明实施例提供的又一种涉密文档的检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有技术中,在检测一个文档是否为涉密文档时,是先将该文档进行分词处理,并将分词处理之后的若干个词均与涉密词库中的词进行匹配,从而使得检测效率较低,且检测的准确度不高。为了提高检测效率,且提高检测的准确度,本发明实施例提供了一种涉密文档的检测方法,通过对待检测文档进行分词处理,得到N个词;并通过循环神经网络模型在N个词中提取M个关键词;再将M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定待检测文档为涉密文档。由此可见,本发明实施例提供的涉密文档的检测方法,在对待检测文档进行分词处理后,不是直接将分词处理得到的N个词与涉密词库中的关键词进行匹配,而是需要先通过循环神经网络模型在N个词中提取M个关键词,并将该M个关键词与涉密词库中的关键词进行匹配,这样可以减少与涉密词库中的关键词进行匹配的数据量,从而提高了检测效率,且提高了检测的准确度。
下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图1为本发明实施例提供的一种涉密文件的检测方法的流程图,该涉密文件的检测方法可以由涉密文件的检测装置执行,该涉密文件的检测装置可以独立设置,也可以集成在处理器中。示例的,请参见图1所示,该涉密文件的检测方法可以包括:
S101、对待检测文档进行分词处理,得到N个词。
其中,N为大于等于2的整数。
在确定待检测文档之后,可以对该待检测文档进行分词处理,得到N个词,示例的,在本发明实施例中,可以采用NLPIR(原ICTCLAS2013分词系统)对待检测文档进行分词处理。在进行分词处理之后,对该N个词进行去停用词,词频统计等预处理的操作,从而减少数据量。其中,停用词可以为标点符号、的、是、那么等高频且没有代表性的常规词汇,还可以进一步统计词频,计算IF-IDF值(一种用于信息检索与数据挖掘的常用加权技术,TF表示词频,IDF表示逆向文件词频,两个数值的乘积用以评估该词语在文件中的重要程度),并根据计算得到的IF-IDF值初步筛选关键词。
S102、通过循环神经网络模型在N个词中提取M个关键词。
其中,M为小于N的整数。
在通过S101对待检测文档进行分词处理之后,可以通过循环神经网络模型在N个词中提取M个关键词,并在提取到M个关键词之后,执行下述S103:
S103、将M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定待检测文档为涉密文档。
示例的,第一阈值可以根据实际需要进行设置,在此,对于第一阈值的大小,本发明实施例不做进一步地限制。
需要说明的是,此处的若匹配可以理解为提取到的关键词与涉密词库中的关键词相同,也可以理解为提取到的关键词与涉密词库中的关键词所表达的意思相同,即为近义词。
在通过S102提取到关键词之后,将该M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定待检测文档为涉密文档。由此可见,本发明实施例提供的涉密文档的检测方法,在对待检测文档进行分词处理后,不是直接将分词处理得到的N个词与涉密词库中的关键词进行匹配,而是需要先通过循环神经网络模型在N个词中提取M个关键词,并将该M个关键词与涉密词库中的关键词进行匹配,这样可以减少与涉密词库中的关键词进行匹配的数据量,从而提高了检测效率,且提高了检测的准确度。
本发明实施例提供的涉密文档的检测方法,通过对待检测文档进行分词处理,得到N个词;并通过循环神经网络模型在N个词中提取M个关键词;再将M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定待检测文档为涉密文档。由此可见,本发明实施例提供的涉密文档的检测方法,在对对待检测文档进行分词处理后,不是直接将分词处理得到的N个词与涉密词库中的关键词进行匹配,而是需要先通过循环神经网络模型在N个词中提取M个关键词,并将该M个关键词与涉密词库中的关键词进行匹配,这样可以减少与涉密词库中的关键词进行匹配的数据量,从而提高了检测效率,且提高了检测的准确度。
基于图1所示的实施例,为了更清楚地说明本发明实施例所示的技术方案,进一步地,请参见图2所示,图2为本发明实施例提供的另一种涉密文档的检测方法的流程图,该涉密文档的检测方法可以包括:
S201、确定用于训练初始循环神经网络模型的预设词和预设词对应的词标签。
示例的,在构建循环神经网络模型时,可以预先确定一些预设词和预设词对应的词标签,并通过这些预设词和预设词对应的词标签对初始循环神经网络模型进行训练,从而调整初始循环神经网络模型中的参数,以提高循环神经网络模型的准确性。其中,预设词对应的词标签用于指示预设词是否为涉密词,示例的,词标签可以用0或1表示,若词标签为0,则说明该预设词不是涉密词,若词标签为1,则说明该预设词是涉密词,当然,本发明实施例只是以词标签为0或1为例进行说明,并不代表本方能实施例仅局限于此。
S202、将预设词的词向量矩阵和词标签输入至初始循环神经网络模型,得到词标签对应的预测值。
在通过上述S201确定预设词和预设词对应的词标签之后,就可以构造一个层次结合的初始循环神经网络模型,并将预设词的词向量矩阵和词标签输入至初始循环神经网络模型,得到词标签对应的预测值。示例的,请参见图3所示,图3为本发明实施例提供的一种循环神经网络模型的示意图,结合图3可以看出,层次结合的初始循环神经网络是堆叠RNN的拓展,这里有六个隐藏层。初始循环神经网络模型的输入为预测词向量,黑色hi表示隐藏层,灰色表示输出层,y1、y3、y5代表关键词,y2、y4、y6表示关键短语,关键短语由关键词构成。在t时刻,网络的训练输入xt是在一个窗口内各特征的连接。使用预设词对应的词向量作为特征输入,输出
Figure BDA0001603187080000091
Figure BDA0001603187080000092
表示输入关键词和预测关键词,
Figure BDA0001603187080000093
Figure BDA0001603187080000094
分别表示输入关键短语和预测关键短语。初始循环神经网络模型的输入为预测词向量,hi表示隐藏层,灰色表示输出层,y1、y3、y5代表关键词,y2、y4、y6表示关键短语。第l个隐藏层在t时刻的激活函数为:
Figure BDA0001603187080000095
其中,Ul和Wl分别是t-1时刻,隐藏层激活的权重矩阵和前一层激活函数值的权重矩阵。当l=1时,隐藏层激活函数值
Figure BDA0001603187080000096
Figure BDA0001603187080000097
是非线性函数,如Sigmoid函数。第l个输出激活函数值为:
Figure BDA0001603187080000098
其中,Vl是第l隐藏层
Figure BDA0001603187080000099
的权重矩阵,
Figure BDA00016031870800000910
也是非线性函数,如softmax函数。
在通过S202将预设词对应的词向量和词标签输入至初始循环神经网络模型,得到预设词对应的预测词向量词标签的预测值之后,就可以执行下述S203:
S203、根据词标签和所述词标签的预测值调整初始循环神经网络模型的参数,得到循环神经网络模型,循环神经网络模型输出的词标签的预测值和词标签的误差满足预设条件。
示例的,初始循环神经网络模型的参数可以为θ,其中,θ={X,Wi,Ui,Vi},i=1,2,3,4,5,6,X表示嵌入的词向量,其他参数是之前定义的变量。给出被标记的句子,可以得到关键词和关键短语。第一个输出层
Figure BDA00016031870800000911
用于判别关键词,第二个输出层
Figure BDA00016031870800000912
用于判别输出关键短语。为了使结果更加准确,可以在第一个和第二个输出层后面添加一个类似的结构,使得最终输出
Figure BDA00016031870800000913
Figure BDA00016031870800000914
再将各子目标结合成为最终的目标函数,即为本发明实施例中的预设条件,预设条件可以为:
J(θ)=αJ7(θ)+(1-α)J8(θ)
其中,α是线性权重因子,示例的,α可以为0.5。给定N个待训练序列
Figure BDA00016031870800000915
子目标函数被定义为:
J7(θ)=βJ3(θ)+(1-β)J4(θ)
J8(θ)=βJ5(θ)+(1-β)J6(θ)
Figure BDA0001603187080000101
其中,k=3、4、5、6,d(a,b)是预定义的衡量a与b差异的度量方法,如欧氏距离或交叉熵,权重因子β可以为0.5。
第e步的迭代过程中第i个参数θi的更新规则为:θe,i=θe-1,i-εge,i,其中,ε是维度共享的全局学习速率,he是第e步迭代参数的导数。
通过执行上述S201-S203,可以通过对初始循环神经网络模型进行训练,并调整初始循环神经网络模型中的参数,从而构建循环神经网络模型。
S204、对待检测文档进行分词处理,得到N个词。
其中,N为大于等于2的整数。
同样的,在本发明实施例中,可以采用NLPIR(原ICTCLAS2013分词系统)对待检测文档进行分词处理。在进行分词处理之后,对该N个词进行去停用词,词频统计等预处理的操作,从而减少数据量。其中,停用词可以为标点符号、的、是、那么等高频且没有代表性的常规词汇,还可以进一步统计词频,计算IF-IDF值(一种用于信息检索与数据挖掘的常用加权技术,TF表示词频,IDF表示逆向文件词频,两个数值的乘积用以评估该词语在文件中的重要程度),并根据计算得到的IF-IDF值初步筛选关键词。
S205、通过循环神经网络模型在N个词中提取M个关键词。
其中,M为小于N的整数。
在通过S204对待检测文档进行分词处理之后,可以通过循环神经网络模型在N个词中提取M个关键词,并在提取到M个关键词之后,执行下述S206:
S206、通过聚类算法将涉密词库中的关键词划分为K个簇。
其中,K为大于等于2的整数。
K-means聚类算法是数据挖掘领域常用的聚类算法之一,算法思想为:对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。其具体过程可以包括:S1、创建K个点作为K个簇的起始质心(随机选取);S2、分别计算剩下的元素到K个簇中心的距离,将这些元素分别划分到距离最小的簇;S3、根据聚类结果,重新计算K个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均值;S4、按照新的中心重新聚类;S5、重复S3和S4,直到聚类结果不再变化;S6、输出聚类结果,从而通过聚类算法将涉密词库中的关键词划分为K个簇类。
通过聚类算法对涉密词库中的关键词进行聚类,是涉密信息检测的关键步骤,经过聚类,涉密词库中的关键词会被划分到不同的类簇中,筛选出合适的类簇,每个类簇即代表一个涉密事件,可见,聚类结果最终决定了涉密信息检测的准确率。
S207、获取M个关键词求和得到的特征向量分别与K个簇中的每一个簇的特征向量之间的相似度,得到K个相似度。
在上述S206的聚类结果集中,涉密词库中的关键词会被归入不同的类簇。对每个类簇的所有向量求和,用其代表该簇的特征向量。同样对M个关键词对应的词向量求和,用其表示该待检测文档的特征向量,再计算该待检测文档的特征向量与K个簇中每一个簇的特征向量之间的相似度。
示例的,鉴于Word2vec是一种将单词转换成向量形式的工具,因此,可以通过Word2vec获取M个关键词对应的词向量,并和每个簇的特征向量求余弦相似度。在确定相似度的过程中,可以先使用word2vec将前面提取到的关键词和构造好的涉密词库中的关键词都转换为特征向量,特征向量表示形式如下:
Figure BDA0001603187080000111
其中,
Figure BDA0001603187080000112
表示时间窗t内词i的向量表示,
Figure BDA0001603187080000113
表示向量的分量。那么两个词语之间的相似性就可以表示为向量之间的余弦相似度,公式为
Figure BDA0001603187080000114
从而得到M个关键词对应的特征向量分别与K个簇中的每一个簇的特征向量之间的相似度,得到K个相似度。
S208、若K个相似度中存在至少一个相似度大于第二阈值,则确定待检测文档为涉密文档。
示例的,第二阈值可以为0.9,当然,也可以为0.8,具体可以根据实际需要进行设置,在此,对于第二阈值具体是多少,本发明实施例不做进一步地限制。
在获取M个关键词求和得到的特征向量分别与K个簇中的每一个簇的特征向量之间的相似度之后,就可以将该K个相似度与第二阈值进行比较,若该K个相似度中有至少一个相似度大于第二阈值,则说明该文档为涉密文档。由此可见,本发明实施例提供的涉密文档的检测方法,在对待检测文档进行分词处理后,不是直接将分词处理得到的N个词与涉密词库中的关键词进行匹配,而是需要先通过循环神经网络模型在N个词中提取M个关键词,并将该M个关键词与涉密词库中的关键词进行匹配,这样可以减少与涉密词库中的关键词进行匹配的数据量,从而提高了检测效率,且提高了检测的准确度。
需要说明的是,在通过聚类算法将所述涉密词库中的关键词划分为K个簇之前,需要先构建涉密词库,可选的,在本发明实施例中,可以通过以下可能的方式实现,请参见图4所示,图4为本发明实施例提供的一种构建涉密词库的方法的示意图,该构建涉密词库的方法可以包括:
S401、根据预设词的逆文档频率和预设词中最高逆文档频率确定每一个预设词的基础权重。
示例的,TF-IDF(Term Frequency-Inverse Document Frequency)算法是常用的权重计算方法,该方法倾向于使出现频率高且区分度大的词拥有较大的权重。因此,在本发明实施例中,可以通过
Figure BDA0001603187080000121
得到实词在其所处文档的特征向量中的权重,将该权重称为词语的基础权重。
其中:wj,i是文档i中实词j的基础权重,idfj,i是文档i中实词j的逆文档频率,
Figure BDA0001603187080000122
是文档i中实词的最高逆文档频率。
在通过S401确定每一个预设词的基础权重之后,就可以根据每一个预设词的基础权重确定每一个预设词的权重,即执行下述S402:
S402、根据每一个预设词的基础权重确定每一个预设词的权重。
可选的,在本发明实施例中,S402根据每一个预设词的基础权重确定每一个预设词的权重,可以包括:
根据
Figure BDA0001603187080000123
确定每一个预设词的权重。
其中:
Figure BDA0001603187080000124
表示时间窗t内词j的权重;wj,i表示词j在文档i中的基础权重;
Figure BDA0001603187080000125
是时间窗t内包含词j的所有文档;
Figure BDA0001603187080000126
是文档pi的表态数;
Figure BDA0001603187080000127
是文档pi的回复数;c1与c2是影响因子,且c1+c2=1。
S403、根据包括预设词的文档发布者的影响力和每一个预设词的权重确定每一个预设词的涉密度。
其中,涉密度可以理解为用以判断一个词是否为涉密词的衡量标准,涉密度越高,表示该词成为涉密词的可能性越大。
可选的,在本发明实施例中,S303根据包括预设词的文档发布者的影响力和每一个预设词的权重确定每一个预设词的涉密度,可以包括:
根据
Figure BDA0001603187080000131
确定每一个预设词的涉密度。
其中,
Figure BDA0001603187080000132
表示词j在时间窗t内的涉密度,
Figure BDA0001603187080000133
是词j在时间窗t内的权重,
Figure BDA0001603187080000134
是时间窗t内包含词j的所有文档,
Figure BDA0001603187080000135
是包含词j的文档pn的发布者的影响力,N表示回顾窗大小,回顾窗由时间窗t之前的N个时间窗组成,K表示第K个时间窗,pb表示任一个文档。
其中,发布者的影响力,可以由其多种属性(发布文档数量、平均被访问量等)共同反应。示例的,在本发明实施例中,可以通过5类属性特征计算发布者的影响力。为了便于下文描述,提出用户及用户活跃度定义,如下所示:
用户U可以定义为一个五元组,U=(Id,Fa,Tw,IsVip,Pos)。其中:Id是用户的id;Fa是用户的被访问量;Tw是用户发布的文档数量;IsVip用于判断用户是否是VIP用户,1代表用户是VIP用户,0代表用户是普通用户;Pos是用户的活跃度。
用户活跃度用于表征用户的活跃程度,其定义如下:
Figure BDA0001603187080000136
其中:Pos是用户U的活跃度,avgPosted是用户每天平均发布的文档数量。一个用户的影响力可以由多方面因素决定,如相对于普通用户,VIP用户更可能拥有较大的影响力;相对于非活跃用户,活跃用户更可能对其他用户造成影响;被访问量越多的用户发布的文档产生的影响力较大。因此,综合考虑多种因素,发布者的影响力计算公式可以表示为:
Infu=Fau+Twu+γ×IsVip+Pos
其中:Infu是用户U的影响力权重;Fau、Twu、IsVip、Pos分别表征用户U的五元组中的被访问量、发布的文档数量、是否VIP用户及活跃度;γ是VIP用户的影响因子0<γ<1。
其中,用户活跃度的取值主要考虑以下两个因素:
(1)忽略不活跃用户的用户影响力。若用户的日平均文档数少于一条,则认为该用户是不活跃用户,该用户对其他用户的影响可以忽略不计,因此将其设置为0。(2)约束活跃人气用户的影响力。活跃人气用户是指发布文档频繁且被访问量大的用户,这些用户通常具有极高的用户影响力。这就导致在决定词语涉密度的多个因素中,用户影响力成为决定性的因素,其他因素的作用被其弱化了。因此,需要通过活跃度来控制用户影响力的范围,以避免其成为决定性因素。
在根据发布者的影响力和每一个预设词的权重确定每一个预设词的涉密度之后,就可以执行下述S404:
S404、若预设词的涉密度大于第三阈值,则将预设词存储至涉密词库中。
其中,第三阈值可以根据实际需要进行设置,在此,对于第三阈值具体为多少,本发明实施例不做进一步地限制。
根据涉密词库构建规则,抽取时间窗t内,若涉密度大于第三阈值的预设词存储至涉密词库,从而构建时间窗t内的涉密词库,该涉密词库可以表示为:
Figure BDA0001603187080000141
其中,
Figure BDA0001603187080000142
表示时间窗t内的第i个关键词。
若预设词的涉密度大于第三阈值,则将预设词存储至涉密词库中,从而构建涉密词库。
图5为本发明实施例提供的一种涉密文档的检测装置50的结构示意图,请参见图5所示,该涉密文档的检测装置50可以包括:
处理单元501,用于对待检测文档进行分词处理,得到N个词;N为大于等于2的整数。
提取单元502,用于通过循环神经网络模型在N个词中提取M个关键词;其中,M为小于N的整数。
匹配单元503,用于将M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定待检测文档为涉密文档。
可选的,匹配单元503,具体用于通过聚类算法将涉密词库中的关键词划分为K个簇;K为大于等于2的整数;并获取M个关键词求和得到的特征向量分别与K个簇中的每一个簇的特征向量之间的相似度,得到K个相似度;若K个相似度中存在至少一个相似度大于第二阈值,则确定待检测文档为涉密文档。
可选的,该涉密文档的检测装置50还可以包括:确定单元504、获取单元505及调整单元506,请参见图6所示,图6为本发明实施例提供的另一种涉密文档的检测装置50的结构示意图。
确定单元504,用于确定用于训练初始循环神经网络模型的预设词和预设词对应的词标签。
获取单元505,用于将预设词的词向量矩阵和词标签输入至初始循环神经网络模型,得到词标签对应的预测值。
调整单元506,用于根据词标签和词标签的预测值调整初始循环神经网络模型的参数,得到循环神经网络模型,循环神经网络模型输出的词标签的预测值和词标签的误差满足预设条件。
可选的,确定单元504,还用于根据预设词的逆文档频率和预设词中最高逆文档频率确定每一个预设词的基础权重;并根据每一个预设词的基础权重确定每一个预设词的权重;根据包括预设词的文档发布者的影响力和每一个预设词的权重确定每一个预设词的涉密度;若预设词的涉密度大于第三阈值,则将预设词存储至涉密词库中。
可选的,确定单元504,具体用于根据
Figure BDA0001603187080000151
确定每一个预设词的涉密度。
其中,
Figure BDA0001603187080000152
表示词j在时间窗t内的涉密度,
Figure BDA0001603187080000153
是词j在时间窗t内的权重,
Figure BDA0001603187080000154
是时间窗t内包含词j的所有文档,
Figure BDA0001603187080000155
是包含词j的文档pn的发布者的影响力,N表示回顾窗大小,回顾窗由时间窗t之前的N个时间窗组成,K表示第K个时间窗,pb表示任一个文档。
可选的,确定单元504,具体用于根据
Figure BDA0001603187080000156
确定每一个预设词的权重;
其中:
Figure BDA0001603187080000157
表示时间窗t内词j的权重;wj,i表示词j在文档i中的基础权重;
Figure BDA0001603187080000161
是时间窗t内包含词j的所有文档;
Figure BDA0001603187080000162
是文档pi的表态数;
Figure BDA0001603187080000163
是文档pi的回复数;c1与c2是影响因子,且c1+c2=1。
本发明实施例提供的涉密文档的检测装置50,对应地可执行任一实施例所示的涉密文档的检测方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
图7为本发明实施例提供的又一种涉密文档的检测装置70的结构示意图,请参见7所示,该涉密文档的检测装置可以包括:
处理器701;以及存储器702,用于存储处理器701的可执行指令;
其中,处理器701配置为通过执行可执行指令来执行上述任一项实施例所示的涉密文档的检测方法的步骤。
本发明实施例提供的涉密文档的检测装置70,对应地可执行任一实施例所示的涉密文档的检测方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述任一项实施例所示的涉密文档的检测方法的步骤。
本发明实施例提供的计算机可读存储介质,对应地可执行任一实施例所示的涉密文档的检测方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(random access memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种涉密文档的检测方法,其特征在于,包括:
对待检测文档进行分词处理,得到N个词;N为大于等于2的整数;
确定用于训练初始循环神经网络模型的预设词和所述预设词对应的词标签;
将所述预设词的词向量矩阵和所述词标签输入至所述初始循环神经网络模型,得到所述词标签对应的预测值;
根据所述词标签和所述词标签的预测值调整所述初始循环神经网络模型的参数,得到所述循环神经网络模型,所述循环神经网络模型输出的所述词标签的预测值和所述词标签的误差满足预设条件;其中,M为小于N的整数;
根据所述预设词的逆文档频率和所述预设词中最高逆文档频率确定每一个所述预设词的基础权重;
根据所述每一个所述预设词的基础权重确定所述每一个所述预设词的权重;
根据包括所述预设词的文档发布者的影响力和所述每一个所述预设词的权重确定所述每一个所述预设词的涉密度;
若所述预设词的涉密度大于第三阈值,则将所述预设词存储至所述涉密词库中;
将所述M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定所述待检测文档为涉密文档;
所述将所述M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定所述待检测文档为涉密文档,包括:
通过聚类算法将所述涉密词库中的关键词划分为K个簇;K为大于等于2的整数;
获取所述M个关键词求和得到的特征向量分别与所述K个簇中的每一个簇的特征向量之间的相似度,得到K个相似度;
若所述K个相似度中存在至少一个相似度大于第二阈值,则确定所述待检测文档为涉密文档。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预设词所属的文档发布者的影响力和所述每一个所述预设词的权重确定所述每一个所述预设词的涉密度,包括:
根据
Figure FDA0003822360750000021
确定所述每一个所述预设词的涉密度;
其中,
Figure FDA0003822360750000022
表示词j在时间窗t内的涉密度,
Figure FDA0003822360750000023
是词j在时间窗t内的权重,
Figure FDA0003822360750000024
是时间窗t内包含词j的所有文档,
Figure FDA0003822360750000025
是包含词j的文档pn的发布者的影响力,N表示回顾窗大小,回顾窗由时间窗t之前的N个时间窗组成,K表示第K个时间窗,pb表示任一个文档。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每一个所述预设词的基础权重确定所述每一个所述预设词的权重,包括:
根据
Figure FDA0003822360750000026
确定所述每一个所述预设词的权重;
其中:
Figure FDA00038223607500000210
表示时间窗t内词j的权重;wj,i表示词j在文档i中的基础权重;
Figure FDA0003822360750000027
是时间窗t内包含词j的所有文档;
Figure FDA0003822360750000028
是文档pi的表态数;
Figure FDA0003822360750000029
是文档pi的回复数;c1与c2是影响因子,且c1+c2=1。
4.一种涉密文档的检测装置,其特征在于,包括:
处理单元,用于对待检测文档进行分词处理,得到N个词;N为大于等于2的整数;
提取单元,用于通过循环神经网络模型在所述N个词中提取M个关键词;其中,M为小于N的整数;
匹配单元,用于将所述M个关键词与涉密词库中的关键词进行匹配,若匹配率大于第一阈值,则确定所述待检测文档为涉密文档;
所述匹配单元,具体用于通过聚类算法将所述涉密词库中的关键词划分为K个簇;K为大于等于2的整数;并获取所述M个关键词求和得到的特征向量分别与所述K个簇中的每一个簇的特征向量之间的相似度,得到K个相似度;若所述K个相似度中存在至少一个相似度大于第二阈值,则确定所述待检测文档为涉密文档;
所述装置还包括:
确定单元,用于确定用于训练初始循环神经网络模型的预设词和所述预设词对应的词标签;
获取单元,用于将所述预设词的词向量矩阵和所述词标签输入至所述初始循环神经网络模型,得到所述词标签对应的预测值;
调整单元,根据所述词标签和所述词标签的预测值调整所述初始循环神经网络模型的参数,得到所述循环神经网络模型,所述循环神经网络模型输出的所述词标签的预测值和所述词标签的误差满足预设条件;
所述确定单元,还用于根据所述预设词的逆文档频率和所述预设词中最高逆文档频率确定每一个所述预设词的基础权重;并根据所述每一个所述预设词的基础权重确定所述每一个所述预设词的权重;根据包括所述预设词的文档发布者的影响力和所述每一个所述预设词的权重确定所述每一个所述预设词的涉密度;若所述预设词的涉密度大于第三阈值,则将所述预设词存储至所述涉密词库中。
5.根据权利要求4所述的装置,其特征在于,
所述确定单元,具体用于根据
Figure FDA0003822360750000031
确定所述每一个所述预设词的涉密度;
其中,
Figure FDA0003822360750000032
表示词j在时间窗t内的涉密度,
Figure FDA0003822360750000039
是词j在时间窗t内的权重,
Figure FDA0003822360750000033
是时间窗t内包含词j的所有文档,
Figure FDA0003822360750000034
是包含词j的文档pn的发布者的影响力,N表示回顾窗大小,回顾窗由时间窗t之前的N个时间窗组成,K表示第K个时间窗,pb表示任一个文档。
6.根据权利要求5所述的装置,其特征在于,
所述确定单元,具体用于根据
Figure FDA0003822360750000035
确定所述每一个所述预设词的权重;
其中:
Figure FDA00038223607500000310
表示时间窗t内词j的权重;wj,i表示词j在文档i中的基础权重;
Figure FDA0003822360750000036
是时间窗t内包含词j的所有文档;
Figure FDA0003822360750000037
是文档pi的表态数;
Figure FDA0003822360750000038
是文档pi的回复数;c1与c2是影响因子,且c1+c2=1。
7.一种涉密文档的检测装置,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为通过执行所述可执行指令来执行权利要求1~3任一项所述涉密文档的检测方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1~3任一项所述涉密文档的检测方法的步骤。
CN201810232937.XA 2018-03-21 2018-03-21 涉密文档的检测方法、装置及存储介质 Active CN110298024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810232937.XA CN110298024B (zh) 2018-03-21 2018-03-21 涉密文档的检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810232937.XA CN110298024B (zh) 2018-03-21 2018-03-21 涉密文档的检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110298024A CN110298024A (zh) 2019-10-01
CN110298024B true CN110298024B (zh) 2022-10-11

Family

ID=68025304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810232937.XA Active CN110298024B (zh) 2018-03-21 2018-03-21 涉密文档的检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110298024B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062208B (zh) * 2019-12-13 2023-05-12 建信金融科技有限责任公司 一种文件审核的方法、装置、设备及存储介质
CN112149403A (zh) * 2020-10-16 2020-12-29 军工保密资格审查认证中心 一种确定涉密文本的方法和装置
CN112487475B (zh) * 2020-11-30 2023-06-09 北京京航计算通讯研究所 一种涉密载体风险分析方法及系统
CN113672915A (zh) * 2021-10-20 2021-11-19 南京中孚信息技术有限公司 一套基于机器学习的数据防泄露系统
CN115080704B (zh) * 2022-07-20 2022-11-11 广州世安信息技术股份有限公司 一种基于评分机制的计算机文件保密检查方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608155A (zh) * 2015-12-17 2016-05-25 北京华油信通科技有限公司 海量数据分布式存储系统
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN105608155A (zh) * 2015-12-17 2016-05-25 北京华油信通科技有限公司 海量数据分布式存储系统
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于BP的计算机辅助定密管理系统研究与设计;李宙恒等;《信息系统工程》;20180320(第03期);全文 *
融合Word2vec与TextRank的关键词抽取研究;宁建飞等;《现代图书情报技术》;20160625(第06期);全文 *

Also Published As

Publication number Publication date
CN110298024A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110298024B (zh) 涉密文档的检测方法、装置及存储介质
Rudolph et al. Dynamic embeddings for language evolution
US11636380B2 (en) Method for protecting a machine learning model against extraction using an ensemble of a plurality of machine learning models
Agarwal et al. Fake news detection: an ensemble learning approach
Wang et al. t-Test feature selection approach based on term frequency for text categorization
Dey Sarkar et al. A novel feature selection technique for text classification using Naive Bayes
Boenninghoff et al. Similarity learning for authorship verification in social media
CN110516210B (zh) 文本相似度的计算方法和装置
Rudolph et al. Dynamic bernoulli embeddings for language evolution
Maree et al. Towards responsible AI for financial transactions
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
Ma et al. A hybrid methodologies for intrusion detection based deep neural network with support vector machine and clustering technique
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
Sattu A study of machine learning algorithms on email spam classification
Zhang et al. Semisupervised particle swarm optimization for classification
CN115473726A (zh) 一种识别域名的方法及装置
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
Srivastava et al. Learning-based text classifiers using the Mahalanobis distance for correlated datasets
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
Walkowiak et al. Algorithm based on modified angle‐based outlier factor for open‐set classification of text documents
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
Barbaresi Computationally efficient discrimination between language varieties with large feature vectors and regularized classifiers
Gillmann et al. Quantification of Economic Uncertainty: a deep learning approach
Sun et al. Analysis of English writing text features based on random forest and Logistic regression classification algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant