CN107368542B - 一种涉密数据的涉密等级评定方法 - Google Patents

一种涉密数据的涉密等级评定方法 Download PDF

Info

Publication number
CN107368542B
CN107368542B CN201710503902.0A CN201710503902A CN107368542B CN 107368542 B CN107368542 B CN 107368542B CN 201710503902 A CN201710503902 A CN 201710503902A CN 107368542 B CN107368542 B CN 107368542B
Authority
CN
China
Prior art keywords
text
classified
word
hash value
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710503902.0A
Other languages
English (en)
Other versions
CN107368542A (zh
Inventor
孙建强
陆腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huasoft Golden Shield Software Co ltd
Original Assignee
Shandong Huasoft Golden Shield Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Huasoft Golden Shield Software Co ltd filed Critical Shandong Huasoft Golden Shield Software Co ltd
Priority to CN201710503902.0A priority Critical patent/CN107368542B/zh
Publication of CN107368542A publication Critical patent/CN107368542A/zh
Application granted granted Critical
Publication of CN107368542B publication Critical patent/CN107368542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种涉密数据的涉密等级评定方法,系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能,特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度,同时利用更新后的特征库重新训练、升级模型,提高模型的预测性能.极大简化用户操作,无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取,自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时,用户只需设置未知文本的路径,即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高,同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。

Description

一种涉密数据的涉密等级评定方法
技术领域
本专利涉及计算机信息涉密数据领域,具体涉及一种涉密数据的涉密等级评定方法。
背景技术
近年来随着信息安全管控点正在经历从网络安全到内容安全的转变,如何防止内部敏感数据、隐私信息泄露成为安全防护的重点。这就需要从数据内容本身出发,分析内容的敏感性以及敏感程度以满足未来各行业用户信息化发展中面临的合规及风控需求。
目前市面上对于敏感数据的感知多采用定义敏感关键字、正则表达式、文件MD5值的方式,此类技术需要用户手动收集各类敏感信息相关的关键字等特征。系统将根据用户输入的关键字、正则表达式、MD5值等信息进行敏感数据的扫描和匹配。
上述方法的问题在于:1.用户手动定义敏感关键字、正则表达式、文件MD5值的过程繁琐,普通用户难以收集有效的敏感信息特征。2.由于“关键字比对”仅仅是对于设定的关键字进行“有”或“无”的判断,因而这种分类方式较为粗糙,对分类的判断不够准确。例如,含有“合同”关键词的并不一定是法律合同,而含有“协议”但无“合同”关键词的,也有可能是法律合同。3.基于关键词和正则表达式搜索文本的技术存在误报、漏报、缺少细分能力、以及无法应对故意隐瞒的局限,以下列举了一些实例。
-误报:
大量含有“合同”关键词的文件被误报为合同文档。
绝大部分含有“年报”关键词的都与上市公司年报无关。
18位连续数字被误报为身份证号,16位数字被误报银联卡号。
-漏报:
专利的权利说明书中一般没有关键词“专利”。
几乎所有的机关央企公文中都没有关键词“公文”。
合同文档通篇使用“协议”而无“合同”两字。
发明内容
本发明为了克服以上技术的不足,提供了一种简化用户操作、无须定义关键字、自动建立涉密数据涉密等级的评定方法。
本发明克服其技术问题所采用的技术方案是:
一种涉密数据的涉密等级评定方法,包括如下步骤:
a)用户将N个文本批量添加至计算机;
b)对导入的文本进行预处理,所述预处理包括:删除空格符、制表符、通过hash函数生成相应的散列值;
c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对,如果步骤b)中hash函数生成的散列值已经存在,则不添加到训练样本集或测试样本集中,如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值,则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中;
d)对导入的N个文本的语句进行分词处理;
e)通过公式
Figure GDA0002535059800000021
计算出步骤d)中分词后的每个词的词频TF,其中ni,j为第j个文本中含有第i个词的个数,通过
Figure GDA0002535059800000022
计算出步骤d)中分词后的每个词的逆向文件频率IDFi,其中|D|为数据库中总的文本个数,{j:ti∈dj}为含有第i个词的文本个数,ti为第i个词,dj为第j个文档;
f)通过公式Xj=[x1,j,x2,j,…,xi,j]计算机j个文本的向量,其中xi,j=TFi,j×IDFi
g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集;
h)通过公式
Figure GDA0002535059800000023
计算训练集中的文本涉密等级为I的先验概率P{CI},其中M为涉密等级的级数,CI为训练集中涉密等级为I的文本向量组成的集合,#{j:Xj∈CI}为CI中含有的文本样本个数;
i)通过公式
Figure GDA0002535059800000031
计算词汇J在涉密等级为I中出现的条件概率P{tJ|CI},其中Xk为训练集中第K个文本向量,xk,s为Xk中第s个分量,n为词汇类别总数,α取值范围为0.001-1之间的以千分之一为单位的小数;
j)通过公式
Figure GDA0002535059800000032
计算出现为本k以及该文本的涉密等级为I的联合密度P{Xk,Ci},其中c为概率求和等于1的常数;
k)利用公式C预测=argmax{P{Xk,CI}}计算测试集中测试文本Xk的涉密等级类别C预测
l)α从取值0.001开始一直到1为止以千分之一为单位取1000个值,将1000个α取值分别通过步骤i)-步骤k)计算出1000个C预测,分别将每一C预测中预测的各个文本的涉密等级与各个文本真实的涉密等级进行比对,将对比相一致的文本个数除以文本总数计算得到定义模型的正确率R正确率,找到1000个R正确率中的最大值,定义为
Figure GDA0002535059800000033
中对应的α即为1000个α中的最大值,标记为αmax
m)将αmax导入步骤i)中,通过步骤i)-步骤k)计算出最终的文本涉密等级。
进一步的,上述步骤d)中的分词处理采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法。
进一步的,在步骤f)后增加特征选择或特征生成的步骤,所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。
本发明的有益效果是:本涉密数据的涉密等级评定方法由程序自动完成提取并追加至特征库,系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能,特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度,同时利用更新后的特征库重新训练、升级模型,提高模型的预测性能.极大简化用户操作,无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取,自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时,用户只需设置未知文本的路径,即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高,同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。
具体实施方式
下面对本发明做进一步说明。
一种涉密数据的涉密等级评定方法,包括如下步骤:
a)用户将N个文本批量添加至计算机。
b)对导入的文本进行预处理,所述预处理包括:删除空格符、制表符、通过hash函数生成相应的散列值。
c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对,如果步骤b)中hash函数生成的散列值已经存在,则不添加到训练样本集或测试样本集中,如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值,则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中。其目的是根据步骤b)中hash函数生成的散列值判断新导入的文本样本是否在之前的模型训练中已经用过。为了提高系统的运算效率及模型的可靠性,防止用户由于遗忘所造成的同一个文本多次导入系统进行模型训练,进而导致后续的特征分布与实际分布偏差过大,步骤c)通过查阅历史上已有的文本hash散列值,只允许之前未出现的文本样本添加到训练样本集或测试样本集中。
d)对导入的N个文本的语句进行分词处理。计算机并不具有人类的智慧,不能读懂文字,所以必须把文本转化成计算机能够理解的形式,即进行文本表示。而一个文本表示往往是由多个特征对应的数值(或权重)组成的多元向量。因此,要生成一个文本表示必须确定文本包含的特征进而通过观察或计算得到每个特征对应的取值(或权重)。一个文本是由词组成的,所以很自然的可以把词看成文本的特征。通过语句进行分词可以确定一个文本是由哪些词汇组成的。
e)通过公式
Figure GDA0002535059800000051
计算出步骤d)中分词后的每个词的词频TF,其中ni,j为第j个文本中含有第i个词的个数,通过
Figure GDA0002535059800000052
计算出步骤d)中分词后的每个词的逆向文件频率IDFi,其中|D|为数据库中总的文本个数,{j:ti∈dj}为含有第i个词的文本个数,ti为第i个词,dj为第j个文档。词的权重是与衡量该词在其所在文本中的重要性相关的指标,即权重越大代表该词在其所在文本中越重要。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
f)通过公式Xj=[x1,j,x2,j,…,xi,j]计算机j个文本的向量,其中xi,j=TFi,j×IDFi,可以把没一个文本表示成对应的向量形式。
g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集,其中训练集用于下面步骤中的模型训练,而测试集用来测试模型是否是过学习(或过拟合)以及对模型的预测质量相关的指标(这里我们用正确率来衡量模型的预测质量)。
h)通过公式
Figure GDA0002535059800000053
计算训练集中的文本涉密等级为I的先验概率P{CI},其中M为涉密等级的级数,CI为训练集中涉密等级为I的文本向量组成的集合,#{j:Xj∈CI}为CI中含有的文本样本个数;
i)通过公式
Figure GDA0002535059800000054
计算词汇J在涉密等级为I中出现的条件概率P{tJ|CI},其中Xk为训练集中第K个文本向量,xk,s为Xk中第s个分量,n为词汇类别总数,α取值范围为0.001-1之间的以千分之一为单位的小数,即α取值为0.001,0.002,…1这1000个取值中的一个。
j)通过公式
Figure GDA0002535059800000061
计算出现为本k以及该文本的涉密等级为I的联合密度P{Xk,Ci},其中c为概率求和等于1的常数,因其取值不影响最终文本类分类结果,这里不妨让c=1;k)利用公式C预测=argmax{P{Xk,CI}}计算测试集中测试文本Xk的涉密等级类别C预测
l)α从取值0.001开始一直到1为止以千分之一为单位取1000个值,将1000个α取值分别通过步骤i)-步骤k)计算出1000个C预测,分别将每一C预测中预测的各个文本的涉密等级与各个文本真实的涉密等级进行比对,将对比相一致的文本个数除以文本总数计算得到定义模型的正确率R正确率,找到1000个R正确率中的最大值,定义为
Figure GDA0002535059800000062
中对应的α即为1000个α中的最大值,标记为αmax
m)将αmax导入步骤i)中,通过步骤i)-步骤k)计算出最终的文本涉密等级。
本涉密数据的涉密等级评定方法由程序自动完成提取并追加至特征库,系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能,特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度,同时利用更新后的特征库重新训练、升级模型,提高模型的预测性能.极大简化用户操作,无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取,自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时,用户只需设置未知文本的路径,即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高,同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。
步骤d)中的分词处理可以采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法中的任意一种。进一步的,在步骤f)后增加特征选择或特征生成的步骤,所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。

Claims (3)

1.一种涉密数据的涉密等级评定方法,其特征在于,包括如下步骤:
a)用户将N个文本批量添加至计算机;
b)对导入的文本进行预处理,所述预处理包括:删除空格符、制表符、通过hash函数生成相应的散列值;
c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对,如果步骤b)中hash函数生成的散列值已经存在,则不添加到训练样本集或测试样本集中,如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值,则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中;
d)对导入的N个文本的语句进行分词处理;
e)通过公式
Figure FDA0002535059790000011
计算出步骤d)中分词后的每个词的词频TF,其中ni,j为第j个文本中含有第i个词的个数,通过
Figure FDA0002535059790000012
计算出步骤d)中分词后的每个词的逆向文件频率IDFi,其中|D|为数据库中总的文本个数,{j:ti∈dj}为含有第i个词的文本个数,ti为第i个词,dj为第j个文档;
f)通过公式Xj=[x1,j,x2,j,…,xi,j]计算机j个文本的向量,其中xi,j=TFi,j×IDFi
g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集;
h)通过公式
Figure FDA0002535059790000013
计算训练集中的文本涉密等级为I的先验概率P{CI},其中M为涉密等级的级数,CI为训练集中涉密等级为I的文本向量组成的集合,#{j:Xj∈CI}为CI中含有的文本样本个数;
i)通过公式
Figure FDA0002535059790000014
计算词汇J在涉密等级为I中出现的条件概率P{tJ|CI},其中xk为训练集中第k个文本向量,xk,s为xk中第s个分量,n为词汇类别总数,α取值范围为0.001-1之间的以千分之一为单位的小数;
j)通过公式
Figure FDA0002535059790000021
计算出现为本k以及该文本的涉密等级为I的联合密度P{Xk,Ci},其中c为概率求和等于1的常数;
k)利用公式C预测=argmax{P{Xk,CI}}计算测试集中测试文本Xk的涉密等级类别C预测
l)α从取值0.001开始一直到1为止以千分之一为单位取1000个值,将1000个α取值分别通过步骤i)-步骤k)计算出1000个C预测,分别将每一C预测中预测的各个文本的涉密等级与各个文本真实的涉密等级进行比对,将对比相一致的文本个数除以文本总数计算得到定义模型的正确率R正确率,找到1000个R正确率中的最大值,定义为
Figure FDA0002535059790000022
Figure FDA0002535059790000023
中对应的α即为1000个α中的最大值,标记为αmax
m)将αmax导入步骤i)中,通过步骤i)-步骤k)计算出最终的文本涉密等级。
2.根据权利要求1所述的涉密数据的涉密等级评定方法,其特征在于:所述步骤d)中的分词处理采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法。
3.根据权利要求1所述的涉密数据的涉密等级评定方法,其特征在于:在步骤f)后增加特征选择或特征生成的步骤,所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。
CN201710503902.0A 2017-06-27 2017-06-27 一种涉密数据的涉密等级评定方法 Active CN107368542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710503902.0A CN107368542B (zh) 2017-06-27 2017-06-27 一种涉密数据的涉密等级评定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710503902.0A CN107368542B (zh) 2017-06-27 2017-06-27 一种涉密数据的涉密等级评定方法

Publications (2)

Publication Number Publication Date
CN107368542A CN107368542A (zh) 2017-11-21
CN107368542B true CN107368542B (zh) 2020-08-14

Family

ID=60306307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710503902.0A Active CN107368542B (zh) 2017-06-27 2017-06-27 一种涉密数据的涉密等级评定方法

Country Status (1)

Country Link
CN (1) CN107368542B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108023882B (zh) * 2017-12-04 2020-09-25 北京明朝万达科技股份有限公司 一种协同数据防泄漏方法及系统
CN108399164B (zh) * 2018-03-27 2022-04-29 国网黑龙江省电力有限公司电力科学研究院 基于模板的电子公文分类分级系统
CN109219003B (zh) * 2018-08-22 2022-02-22 Oppo广东移动通信有限公司 信息加密方法、装置、存储介质及电子设备
CN109308264B (zh) * 2018-10-22 2021-11-16 北京天融信网络安全技术有限公司 数据脱敏效果的评价方法及相应设备和存储介质
CN110008470B (zh) * 2019-03-19 2023-05-26 创新先进技术有限公司 报表的敏感性分级方法和装置
CN110046229B (zh) * 2019-04-18 2021-07-23 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN112347779B (zh) * 2020-11-23 2024-06-14 军工保密资格审查认证中心 一种涉密文本密级自动判定的方法和装置
CN112861507B (zh) * 2021-03-12 2023-11-14 北京达佳互联信息技术有限公司 文本处理方法、装置、服务器及存储介质
CN112989018B (zh) * 2021-05-19 2021-08-17 江苏联著实业股份有限公司 一种基于语义分析的档案自动开放鉴定方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
CN102426599A (zh) * 2011-11-09 2012-04-25 中国人民解放军信息工程大学 基于d-s证据理论的敏感信息检测方法
CN106845265A (zh) * 2016-12-01 2017-06-13 北京计算机技术及应用研究所 一种文档密级自动识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US10354187B2 (en) * 2013-01-17 2019-07-16 Hewlett Packard Enterprise Development Lp Confidentiality of files using file vectorization and machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
CN102426599A (zh) * 2011-11-09 2012-04-25 中国人民解放军信息工程大学 基于d-s证据理论的敏感信息检测方法
CN106845265A (zh) * 2016-12-01 2017-06-13 北京计算机技术及应用研究所 一种文档密级自动识别方法

Also Published As

Publication number Publication date
CN107368542A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN107368542B (zh) 一种涉密数据的涉密等级评定方法
US20220188708A1 (en) Systems and methods for predictive coding
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
Wåreus et al. Automated CPE labeling of CVE summaries with machine learning
CN110516210B (zh) 文本相似度的计算方法和装置
Probierz et al. Rapid detection of fake news based on machine learning methods
CN112307164A (zh) 信息推荐方法、装置、计算机设备和存储介质
Ragel et al. Authorship detection of SMS messages using unigrams
Pratiwi et al. Implementation of rumor detection on twitter using the svm classification method
CN114547670A (zh) 利用差分隐私词嵌入扰动的敏感文本脱敏方法
CN114595689A (zh) 数据处理方法、装置、存储介质和计算机设备
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
Wibowo et al. Detection of Fake News and Hoaxes on Information from Web Scraping using Classifier Methods
Esteki et al. A Plagiarism Detection Approach Based on SVM for Persian Texts.
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe
Cao et al. Intention classification in multiturn dialogue systems with key sentences mining
CN114936376A (zh) 文本定密方法及装置、非易失性存储介质、处理器
Lopardo et al. Faithful and Robust Local Interpretability for Textual Predictions
Pei [Retracted] Construction of a Legal System of Corporate Social Responsibility Based on Big Data Analysis Technology
Kashihara et al. Automated corpus annotation for cybersecurity named entity recognition with small keyword dictionary
Mirylenka et al. Linking IT product records
Saini et al. A Hybrid LSTM-BERT and Glove-based Deep Learning Approach for the Detection of Fake News
Wang et al. SICM: a supervised-based identification and classification model for Chinese jargons using feature adapter enhanced BERT
Gao et al. Few-shot fake news detection via prompt-based tuning
Kang et al. A transfer learning algorithm for automatic requirement model generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20231113

Granted publication date: 20200814

PP01 Preservation of patent right