CN107368542B - 一种涉密数据的涉密等级评定方法 - Google Patents
一种涉密数据的涉密等级评定方法 Download PDFInfo
- Publication number
- CN107368542B CN107368542B CN201710503902.0A CN201710503902A CN107368542B CN 107368542 B CN107368542 B CN 107368542B CN 201710503902 A CN201710503902 A CN 201710503902A CN 107368542 B CN107368542 B CN 107368542B
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- word
- hash value
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 14
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000014509 gene expression Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种涉密数据的涉密等级评定方法,系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能,特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度,同时利用更新后的特征库重新训练、升级模型,提高模型的预测性能.极大简化用户操作,无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取,自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时,用户只需设置未知文本的路径,即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高,同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。
Description
技术领域
本专利涉及计算机信息涉密数据领域,具体涉及一种涉密数据的涉密等级评定方法。
背景技术
近年来随着信息安全管控点正在经历从网络安全到内容安全的转变,如何防止内部敏感数据、隐私信息泄露成为安全防护的重点。这就需要从数据内容本身出发,分析内容的敏感性以及敏感程度以满足未来各行业用户信息化发展中面临的合规及风控需求。
目前市面上对于敏感数据的感知多采用定义敏感关键字、正则表达式、文件MD5值的方式,此类技术需要用户手动收集各类敏感信息相关的关键字等特征。系统将根据用户输入的关键字、正则表达式、MD5值等信息进行敏感数据的扫描和匹配。
上述方法的问题在于:1.用户手动定义敏感关键字、正则表达式、文件MD5值的过程繁琐,普通用户难以收集有效的敏感信息特征。2.由于“关键字比对”仅仅是对于设定的关键字进行“有”或“无”的判断,因而这种分类方式较为粗糙,对分类的判断不够准确。例如,含有“合同”关键词的并不一定是法律合同,而含有“协议”但无“合同”关键词的,也有可能是法律合同。3.基于关键词和正则表达式搜索文本的技术存在误报、漏报、缺少细分能力、以及无法应对故意隐瞒的局限,以下列举了一些实例。
-误报:
大量含有“合同”关键词的文件被误报为合同文档。
绝大部分含有“年报”关键词的都与上市公司年报无关。
18位连续数字被误报为身份证号,16位数字被误报银联卡号。
-漏报:
专利的权利说明书中一般没有关键词“专利”。
几乎所有的机关央企公文中都没有关键词“公文”。
合同文档通篇使用“协议”而无“合同”两字。
发明内容
本发明为了克服以上技术的不足,提供了一种简化用户操作、无须定义关键字、自动建立涉密数据涉密等级的评定方法。
本发明克服其技术问题所采用的技术方案是:
一种涉密数据的涉密等级评定方法,包括如下步骤:
a)用户将N个文本批量添加至计算机;
b)对导入的文本进行预处理,所述预处理包括:删除空格符、制表符、通过hash函数生成相应的散列值;
c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对,如果步骤b)中hash函数生成的散列值已经存在,则不添加到训练样本集或测试样本集中,如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值,则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中;
d)对导入的N个文本的语句进行分词处理;
e)通过公式计算出步骤d)中分词后的每个词的词频TF,其中ni,j为第j个文本中含有第i个词的个数,通过计算出步骤d)中分词后的每个词的逆向文件频率IDFi,其中|D|为数据库中总的文本个数,{j:ti∈dj}为含有第i个词的文本个数,ti为第i个词,dj为第j个文档;
f)通过公式Xj=[x1,j,x2,j,…,xi,j]计算机j个文本的向量,其中xi,j=TFi,j×IDFi;
g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集;
i)通过公式计算词汇J在涉密等级为I中出现的条件概率P{tJ|CI},其中Xk为训练集中第K个文本向量,xk,s为Xk中第s个分量,n为词汇类别总数,α取值范围为0.001-1之间的以千分之一为单位的小数;
k)利用公式C预测=argmax{P{Xk,CI}}计算测试集中测试文本Xk的涉密等级类别C预测;
l)α从取值0.001开始一直到1为止以千分之一为单位取1000个值,将1000个α取值分别通过步骤i)-步骤k)计算出1000个C预测,分别将每一C预测中预测的各个文本的涉密等级与各个文本真实的涉密等级进行比对,将对比相一致的文本个数除以文本总数计算得到定义模型的正确率R正确率,找到1000个R正确率中的最大值,定义为中对应的α即为1000个α中的最大值,标记为αmax;
m)将αmax导入步骤i)中,通过步骤i)-步骤k)计算出最终的文本涉密等级。
进一步的,上述步骤d)中的分词处理采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法。
进一步的,在步骤f)后增加特征选择或特征生成的步骤,所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。
本发明的有益效果是:本涉密数据的涉密等级评定方法由程序自动完成提取并追加至特征库,系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能,特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度,同时利用更新后的特征库重新训练、升级模型,提高模型的预测性能.极大简化用户操作,无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取,自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时,用户只需设置未知文本的路径,即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高,同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。
具体实施方式
下面对本发明做进一步说明。
一种涉密数据的涉密等级评定方法,包括如下步骤:
a)用户将N个文本批量添加至计算机。
b)对导入的文本进行预处理,所述预处理包括:删除空格符、制表符、通过hash函数生成相应的散列值。
c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对,如果步骤b)中hash函数生成的散列值已经存在,则不添加到训练样本集或测试样本集中,如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值,则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中。其目的是根据步骤b)中hash函数生成的散列值判断新导入的文本样本是否在之前的模型训练中已经用过。为了提高系统的运算效率及模型的可靠性,防止用户由于遗忘所造成的同一个文本多次导入系统进行模型训练,进而导致后续的特征分布与实际分布偏差过大,步骤c)通过查阅历史上已有的文本hash散列值,只允许之前未出现的文本样本添加到训练样本集或测试样本集中。
d)对导入的N个文本的语句进行分词处理。计算机并不具有人类的智慧,不能读懂文字,所以必须把文本转化成计算机能够理解的形式,即进行文本表示。而一个文本表示往往是由多个特征对应的数值(或权重)组成的多元向量。因此,要生成一个文本表示必须确定文本包含的特征进而通过观察或计算得到每个特征对应的取值(或权重)。一个文本是由词组成的,所以很自然的可以把词看成文本的特征。通过语句进行分词可以确定一个文本是由哪些词汇组成的。
e)通过公式计算出步骤d)中分词后的每个词的词频TF,其中ni,j为第j个文本中含有第i个词的个数,通过计算出步骤d)中分词后的每个词的逆向文件频率IDFi,其中|D|为数据库中总的文本个数,{j:ti∈dj}为含有第i个词的文本个数,ti为第i个词,dj为第j个文档。词的权重是与衡量该词在其所在文本中的重要性相关的指标,即权重越大代表该词在其所在文本中越重要。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
f)通过公式Xj=[x1,j,x2,j,…,xi,j]计算机j个文本的向量,其中xi,j=TFi,j×IDFi,可以把没一个文本表示成对应的向量形式。
g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集,其中训练集用于下面步骤中的模型训练,而测试集用来测试模型是否是过学习(或过拟合)以及对模型的预测质量相关的指标(这里我们用正确率来衡量模型的预测质量)。
i)通过公式计算词汇J在涉密等级为I中出现的条件概率P{tJ|CI},其中Xk为训练集中第K个文本向量,xk,s为Xk中第s个分量,n为词汇类别总数,α取值范围为0.001-1之间的以千分之一为单位的小数,即α取值为0.001,0.002,…1这1000个取值中的一个。
j)通过公式计算出现为本k以及该文本的涉密等级为I的联合密度P{Xk,Ci},其中c为概率求和等于1的常数,因其取值不影响最终文本类分类结果,这里不妨让c=1;k)利用公式C预测=argmax{P{Xk,CI}}计算测试集中测试文本Xk的涉密等级类别C预测;
l)α从取值0.001开始一直到1为止以千分之一为单位取1000个值,将1000个α取值分别通过步骤i)-步骤k)计算出1000个C预测,分别将每一C预测中预测的各个文本的涉密等级与各个文本真实的涉密等级进行比对,将对比相一致的文本个数除以文本总数计算得到定义模型的正确率R正确率,找到1000个R正确率中的最大值,定义为中对应的α即为1000个α中的最大值,标记为αmax;
m)将αmax导入步骤i)中,通过步骤i)-步骤k)计算出最终的文本涉密等级。
本涉密数据的涉密等级评定方法由程序自动完成提取并追加至特征库,系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能,特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度,同时利用更新后的特征库重新训练、升级模型,提高模型的预测性能.极大简化用户操作,无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取,自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时,用户只需设置未知文本的路径,即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高,同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。
步骤d)中的分词处理可以采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法中的任意一种。进一步的,在步骤f)后增加特征选择或特征生成的步骤,所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。
Claims (3)
1.一种涉密数据的涉密等级评定方法,其特征在于,包括如下步骤:
a)用户将N个文本批量添加至计算机;
b)对导入的文本进行预处理,所述预处理包括:删除空格符、制表符、通过hash函数生成相应的散列值;
c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对,如果步骤b)中hash函数生成的散列值已经存在,则不添加到训练样本集或测试样本集中,如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值,则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中;
d)对导入的N个文本的语句进行分词处理;
e)通过公式计算出步骤d)中分词后的每个词的词频TF,其中ni,j为第j个文本中含有第i个词的个数,通过计算出步骤d)中分词后的每个词的逆向文件频率IDFi,其中|D|为数据库中总的文本个数,{j:ti∈dj}为含有第i个词的文本个数,ti为第i个词,dj为第j个文档;
f)通过公式Xj=[x1,j,x2,j,…,xi,j]计算机j个文本的向量,其中xi,j=TFi,j×IDFi;
g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集;
i)通过公式计算词汇J在涉密等级为I中出现的条件概率P{tJ|CI},其中xk为训练集中第k个文本向量,xk,s为xk中第s个分量,n为词汇类别总数,α取值范围为0.001-1之间的以千分之一为单位的小数;
k)利用公式C预测=argmax{P{Xk,CI}}计算测试集中测试文本Xk的涉密等级类别C预测;
l)α从取值0.001开始一直到1为止以千分之一为单位取1000个值,将1000个α取值分别通过步骤i)-步骤k)计算出1000个C预测,分别将每一C预测中预测的各个文本的涉密等级与各个文本真实的涉密等级进行比对,将对比相一致的文本个数除以文本总数计算得到定义模型的正确率R正确率,找到1000个R正确率中的最大值,定义为 中对应的α即为1000个α中的最大值,标记为αmax;
m)将αmax导入步骤i)中,通过步骤i)-步骤k)计算出最终的文本涉密等级。
2.根据权利要求1所述的涉密数据的涉密等级评定方法,其特征在于:所述步骤d)中的分词处理采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法。
3.根据权利要求1所述的涉密数据的涉密等级评定方法,其特征在于:在步骤f)后增加特征选择或特征生成的步骤,所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710503902.0A CN107368542B (zh) | 2017-06-27 | 2017-06-27 | 一种涉密数据的涉密等级评定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710503902.0A CN107368542B (zh) | 2017-06-27 | 2017-06-27 | 一种涉密数据的涉密等级评定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107368542A CN107368542A (zh) | 2017-11-21 |
CN107368542B true CN107368542B (zh) | 2020-08-14 |
Family
ID=60306307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710503902.0A Active CN107368542B (zh) | 2017-06-27 | 2017-06-27 | 一种涉密数据的涉密等级评定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368542B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108023882B (zh) * | 2017-12-04 | 2020-09-25 | 北京明朝万达科技股份有限公司 | 一种协同数据防泄漏方法及系统 |
CN108399164B (zh) * | 2018-03-27 | 2022-04-29 | 国网黑龙江省电力有限公司电力科学研究院 | 基于模板的电子公文分类分级系统 |
CN109219003B (zh) * | 2018-08-22 | 2022-02-22 | Oppo广东移动通信有限公司 | 信息加密方法、装置、存储介质及电子设备 |
CN109308264B (zh) * | 2018-10-22 | 2021-11-16 | 北京天融信网络安全技术有限公司 | 数据脱敏效果的评价方法及相应设备和存储介质 |
CN110008470B (zh) * | 2019-03-19 | 2023-05-26 | 创新先进技术有限公司 | 报表的敏感性分级方法和装置 |
CN110046229B (zh) * | 2019-04-18 | 2021-07-23 | 北京百度网讯科技有限公司 | 用于获取信息的方法及装置 |
CN112347779B (zh) * | 2020-11-23 | 2024-06-14 | 军工保密资格审查认证中心 | 一种涉密文本密级自动判定的方法和装置 |
CN112861507B (zh) * | 2021-03-12 | 2023-11-14 | 北京达佳互联信息技术有限公司 | 文本处理方法、装置、服务器及存储介质 |
CN112989018B (zh) * | 2021-05-19 | 2021-08-17 | 江苏联著实业股份有限公司 | 一种基于语义分析的档案自动开放鉴定方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN102012985A (zh) * | 2010-11-19 | 2011-04-13 | 国网电力科学研究院 | 一种基于数据挖掘的敏感数据动态识别方法 |
CN102426599A (zh) * | 2011-11-09 | 2012-04-25 | 中国人民解放军信息工程大学 | 基于d-s证据理论的敏感信息检测方法 |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
US10354187B2 (en) * | 2013-01-17 | 2019-07-16 | Hewlett Packard Enterprise Development Lp | Confidentiality of files using file vectorization and machine learning |
-
2017
- 2017-06-27 CN CN201710503902.0A patent/CN107368542B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN102012985A (zh) * | 2010-11-19 | 2011-04-13 | 国网电力科学研究院 | 一种基于数据挖掘的敏感数据动态识别方法 |
CN102426599A (zh) * | 2011-11-09 | 2012-04-25 | 中国人民解放军信息工程大学 | 基于d-s证据理论的敏感信息检测方法 |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107368542A (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368542B (zh) | 一种涉密数据的涉密等级评定方法 | |
US20220188708A1 (en) | Systems and methods for predictive coding | |
CN109918505B (zh) | 一种基于文本处理的网络安全事件可视化方法 | |
Wåreus et al. | Automated CPE labeling of CVE summaries with machine learning | |
CN110516210B (zh) | 文本相似度的计算方法和装置 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN112307164A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
Ragel et al. | Authorship detection of SMS messages using unigrams | |
Pratiwi et al. | Implementation of rumor detection on twitter using the svm classification method | |
CN114547670A (zh) | 利用差分隐私词嵌入扰动的敏感文本脱敏方法 | |
CN114595689A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
Gunaseelan et al. | Automatic extraction of segments from resumes using machine learning | |
Wibowo et al. | Detection of Fake News and Hoaxes on Information from Web Scraping using Classifier Methods | |
Esteki et al. | A Plagiarism Detection Approach Based on SVM for Persian Texts. | |
WO2021160822A1 (en) | A method for linking a cve with at least one synthetic cpe | |
Cao et al. | Intention classification in multiturn dialogue systems with key sentences mining | |
CN114936376A (zh) | 文本定密方法及装置、非易失性存储介质、处理器 | |
Lopardo et al. | Faithful and Robust Local Interpretability for Textual Predictions | |
Pei | [Retracted] Construction of a Legal System of Corporate Social Responsibility Based on Big Data Analysis Technology | |
Kashihara et al. | Automated corpus annotation for cybersecurity named entity recognition with small keyword dictionary | |
Mirylenka et al. | Linking IT product records | |
Saini et al. | A Hybrid LSTM-BERT and Glove-based Deep Learning Approach for the Detection of Fake News | |
Wang et al. | SICM: a supervised-based identification and classification model for Chinese jargons using feature adapter enhanced BERT | |
Gao et al. | Few-shot fake news detection via prompt-based tuning | |
Kang et al. | A transfer learning algorithm for automatic requirement model generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right |
Effective date of registration: 20231113 Granted publication date: 20200814 |
|
PP01 | Preservation of patent right |