CN102426599A - 基于d-s证据理论的敏感信息检测方法 - Google Patents

基于d-s证据理论的敏感信息检测方法 Download PDF

Info

Publication number
CN102426599A
CN102426599A CN2011103505803A CN201110350580A CN102426599A CN 102426599 A CN102426599 A CN 102426599A CN 2011103505803 A CN2011103505803 A CN 2011103505803A CN 201110350580 A CN201110350580 A CN 201110350580A CN 102426599 A CN102426599 A CN 102426599A
Authority
CN
China
Prior art keywords
document
algorithm
evidence theory
weight
sensitive information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103505803A
Other languages
English (en)
Other versions
CN102426599B (zh
Inventor
陈性元
杜学绘
夏春涛
陈华城
王超
曹利峰
孙奕
李炳龙
张东巍
赵艳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN2011103505803A priority Critical patent/CN102426599B/zh
Publication of CN102426599A publication Critical patent/CN102426599A/zh
Application granted granted Critical
Publication of CN102426599B publication Critical patent/CN102426599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种电子政务系统的敏感信息检测方法。一种基于D-S证据理论的敏感信息检测方法,融合了包括基于正则表达式模型的检测算法、基于向量空间的检测算法、基于布尔模型的检测算法和基于概率模型的检测算法多种检测算法。首先利用D-S证据理论将各算法对同一查询中不同的关键词得到的值进行融合,其次再利用D-S证据理论对不同的算法得到的信任值进行融合,从而得到信息检测对象的敏感程度。本发明基于D-S证据理论的敏感信息检测方法综合利用了各个算法在电子政务系统信息检测中的优点,克服了单一算法查全率、查准率不高和不同算法之间检测结果的不一致性问题,能够较好的防止电子政务系统中敏感信息越级保存和泄露。

Description

基于D-S证据理论的敏感信息检测方法
技术领域
本发明涉及一种电子政务系统的敏感信息检测方法,特别是涉及一种基于D-S证据理论的敏感信息检测方法。属于计算机安全领域。
背景技术
互联网是信息化的重要基础设施,是国家重要的战略资源,积极利用互联网进行电子政务建设,既能节约资源、节省成本,又能提高效率、扩大服务的覆盖面。对于中国这样一个发展中国家的电子政务乃至信息化建设具有重要的战略意义。但是,利用开放的互联网开展电子政务建设,面临着计算机病毒、网络攻击、信息泄漏、身份假冒等安全威胁和风险,应该高度重视信息安全。基于互联网电子政务系统的政务应用主要分为政务办公和公共服务等。公共服务面向社会公众提供公开信息,政务办公则自来一些政府部门间的公文流转等。基于互联网电子政务的数据安全要求:一方面不能在公共服务域内发布一些未公开的或未审定的公文等敏感信息,另一方面不能在政务域中存储超越该政府级别的敏感信息。一旦文件越级保存,则可能造成信息泄露,从而对政府部门带来严重的影响。因此,有必要对电子政务系统的信息进行审查,并采取相应的防护措施,防止敏感信息越级保存和泄露。
对信息审查的过程实质上就是对信息集合与需求集合的匹配与选择。要实现匹配与选择,首先要对信息集合进行特征化表示;其次在检索时,也要对用户所提出的信息需求进行分析,提取概念或属性,然后通过匹配和选择机制,对需求集合与信息集合进行相似性比较,最后根据一定的标准选出符合需要的信息。传统的信息检测算法(如:基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法等)都是基于不同的框架而开发的,由于算法的思想不同,对于同一份文档各个算法检测的结果不一样,甚至存在冲突,而且在一定程度上存在误检、漏检等现象。
发明内容
本发明的目的是克服单一敏感信息检测算法(如基于向量模型、布尔模型、概率模型)中查全率、查准率不高,算法之间的结果不一致的问题,在统计了各种算法在检测电子政务敏感信息效果的基础上,提出了一种基于证据理论的融合各种检测算法的方法。
为了实现上述目的,本发明提供了一种基于D-S证据理论的多种敏感信息检测算法融合的方法。证据理论方法提供了一种不完全证据联合决策的技术,在对待一个待定的决策问题时,由于决策者的经验、知识以及对该问题的认识的局限性,在做出决策时会存在不足;而且由于不同的决策者的经验、知识以及对该问题的认识的不同,对同一问题会得出截然相反的结论,证据理论正是基于人们对客观世界认识存在的不确定性,从而提出综合多个证据进行融合决策的方法。具体如下:
一种基于D-S证据理论的敏感信息检测方法,包括:
步骤1)、对数据库中检测文档进行格式转换,并作为数据对象进行预处理,提取索引项;
步骤2)、根据步骤1)得到的索引项建立索引信息,为关键词赋予相应的权重,存入数据库中;
步骤3)、用基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法和基于正则表达式的检测算法或其中的任意两项或三项检测算法对敏感级别已知的文档集合进行检测,计算每一算法的权重;
步骤4)、用步骤3)中所述的算法对目标检测文档进行检测,利用证据理论合成规则计算每一算法检测得到的文档的信任值,然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值,得到被检测文档最终的敏感度信任值,将该值和事先分类好的各个阈值比较,归入相应的类别文档中。其流程图详见附图1。
所述的基于D-S证据理论的敏感信息检测方法,数据库中的文档均是经过预处理后建立索引的,所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的;在所述的步骤2)之前还包括对关键词权重的获得,该权重获取的方法采用TFIDF加权策略,具体采用基于向量空间的敏感信息检测算法,步骤如下:
步骤(1)、根据TFIDF加权策略将文档表示为权重的向量Wj=<w1j,w2j,...,wMj>,其中wij表示索引项ti在文档dj中的权重,
具体的计算公式可以表示为:
Figure BSA00000608185200031
其中tf(ti,dj)为词ti在文档dj中出现的词数;N为所有要聚类的文本的个数;df(ti)为包含有词ti的文档个数;
步骤(2)、将查询p表示成权重的向量以计算查询与文档的相似度,查询权重向量的表示公式为Q=<w1q,w2q,...,wMq>;
步骤(3)、计算查询p与文档dj中索引项ti的相似度,
相似度的计算公式表示为: Sim ( Q , d j ) = &Sigma; k = 1 M w ki &times; w kj ( &Sigma; k = 1 M w 2 ki ) ( &Sigma; k = 1 M w 2 kj ) ,
步骤(4)、将相似度的值和设定的阈值进行比较,若大于最低敏感级阈值则输出结果。
所述的基于D-S证据理论的敏感信息检测方法,在所述的步骤3)中,敏感级别已知的文档是一个数据集;在所述的步骤4)中,利用证据理论合成规则计算每一算法检测得到的文档的信任值,采用如下方法:查询为一组关键词Q=<q1,q2,…qn>,对于每一个查询qi能够得到一个指标层的信任值,利用证据理论规则合成指标层的n个信任值得到准则层的一个信任值,对于每一算法能够得到准则层的一个信任层,再次利用证据理论规则合成准则层的各个信任值,得到目标层的最终信任值。
所述的基于D-S证据理论的敏感信息检测方法,步骤3)中,计算权重的步骤包括:步骤3-1)、计算每一个算法的查全率和查准率;步骤3-2)、对每一算法的查全率和查准率进行归一化,从而确定该算法的权重。
本发明的有益效果:
1、本发明基于D-S证据理论的敏感信息检测方法,通过对各种信息检测算法在信息检测效率、检测效果方面进行研究,提出了一种效果较好的检测方法。综合利用了各个算法(如基于向量模型、布尔模型、概率模型算法)在电子政务系统信息检测中的优点,克服单一算法查全率、查准率不高和不同算法之间检测结果的不一致性问题,较好的防止电子政务系统中敏感信息越级保存和泄露。
2、本发明基于D-S证据理论的敏感信息检测方法,首次提出了基于正则表达式的融合检测算法,能够将一个文档多个属性作为证据进行融合。实现了对基于向量空间模型、基于布尔模型、基于概率模型和基于正则表达式模型算法的融合。算法权重的获取是通过对训练数据的检测,统计其查全率和查准率并归一化得到的,而传统的权重的获得都是基于专家给定的。
附图说明
图1:本发明基于D-S证据理论的敏感信息检测方法流程图;
图2:本发明基于D-S证据理论的敏感信息检测融合模型结构示意图。
具体实施方式
实施例一:参见图1、图2,本实施例结合附图具体说明本发明的一个实施方式。在对本发明的具体实现做详细说明之前,首先对本发明中所涉及的一些概念做统一的说明。
敏感信息:指用户需要和关心的、由用户判定为有意义的信息,具体表征为查询请求(如关键词)以及相关的描述信息等。我们把包含敏感信息的文件称为敏感文件。
信息检索模块:完成在本地资源库检索用户所需文本的功能,并向用户接口模块提交检索结果。
关键词:本文中所涉及到的关键词是基于电子政务系统中涉及敏感政务信息的关键词汇。
关键词的权重:关键词在政务信息被判断是否为敏感级别过程中所占比重的大小。
训练数据:即信息敏感级别已知的数据对象。
分类:分类是这样的过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测信息敏感级别未知的对象类。导出模型是基于对训练数据集的分析。
索引信息库:是包含关键词等索引信息的数据库。如文件名、标题、作者、关键词,关键词的权重等。
D-S证据理论:证据理论又称为Dempster-Shafer证据理论,首先由Dempster提出,其学生Shafer进一步发展了该理论。作为一种不确定推理方法,证据理论为不确定信息的表达和合成提供了自然而强有力的方法,因而在不确定推理和数据融合中获得了广泛的应用。
识别框架:设完备集合Θ,Θ中的所有元素都是两两互斥的,对某一问题,在任一时刻答案只取Θ中的某一元素,则称此互不相容事件的完备集合Θ为识别框架。本文中将信息的敏感级别划分作为识别框架。
基本信任分配函数m:基本信任分配函数m是一个从集合2Θ到[0,1]的映射,A表示识别框架Θ的任一子集,记作
Figure BSA00000608185200061
且满足
Figure BSA00000608185200062
式中:m(A)称为事件A的基本信任分配函数,它表示证据对A的信任程度。
信任函数:信任函数Bel是一个从集合2Θ到[0,1]的映射,如果A表示识别框架Θ的任一子集,记作
Figure BSA00000608185200063
且满足
Bel ( A ) = &Sigma; B &SubsetEqual; A m ( B ) - - - ( 2 )
则Bel(A)称为A的信任函数,它表示证据对A为真的信任程度。
证据的合成:对于m1,m2为识别框架Θ下的两个基本信任分配函数,设 K = &Sigma; A i &cap; B j = &phi; m 1 ( A i ) m 2 ( B j ) < 1 , 则D-S合成规则为
m ( A ) = &Sigma; A i &cap; B j = A m 1 ( A i ) m 2 ( B j ) 1 - K 0 - - - ( 3 )
式中
K = &Sigma; A i &cap; B j = &phi; m 1 ( A i ) m 2 ( B j ) < 1
它反映了各个证据之间的冲突程度,系数1/(1-K)称为正则化因子。由m给定的信任函数称为m1和m2的正交和,记为
Figure BSA00000608185200068
对于多个信任分配函数m1,m2,……mn则按照式(3)依次计算。
在对本发明中的相关概念做上述说明后,为了便于理解,下面结合实施例对本发明方法加以说明。
首先简要介绍本发明中涉及到的几种算法和相关定义。
假定:
查全率R=被检出相关文档量/总文档中所有相关文档量*100%;
查准率P=被检出相关文档量/被检出文档总量*100%;
上述被检测文档的集合为训练数据对象。
定义1对于算法ai,其对文档的检测结果j,将j作为判断文档是否为敏感信息的证据,则在识别框架Θ下的基本信任分配函数m(A)=j,j∈[0,1]。
定义2对于算法ai,在给定的检测文档集合的查全率为R,查准率为P,则对该算法的信任权重为
W ( a i ) = R &CirclePlus; P - - - ( 4 )
定义3即对同一份文档,在一个算法中检测为普通级文档,而在另一个算法中检测为高敏感级文档,此时证据完全冲突无法合成,K=1,称该种情况为证据的冲突。
由式(3)可看出,当K趋近于1时,证据之间发生严重冲突,合成结果往往与实际情况不相符合。因此,为减少冲突的影响,给各个算法分配了不同的权重。设权重向量W=(w1,w2,…,wn),满足wi∈[0,1],wi的值可由(4)式得到。设wmax=max{w1,w2,…,wn},可得相对权重向量W′=(w1,w2,…,wn)/wmax,由此可确定证据的基本可信度的“折扣率”αi(0≤αi ≤1),(1-αi)=wi/wmax,i=1,2,…,n,利用“折扣率”按如下方法调整各识别框架内所有命题的基本可信度,则调整后基本可信度分配函数为:
m i &prime; ( A k ) = ( 1 - &alpha; i ) m i ( A k ) m &prime; ( &Theta; ) = ( 1 - &alpha; i ) m ( &Theta; ) + &alpha; i - - - ( 5 )
最后,将各证据的所有命题调整后的基本可信度值mi′(Ak),m′(Θ)代入公式(3)的合成公式,构成新的证据合成公式。
算法1基于正则表达式的敏感信息检测算法
输入:关键词K1,K2,K3,……Kn
关键词的基本概率分配m1,m2,m3,……mn
关键词的权重因子β1,β2,β3,……βn
输出:文档检测对象的敏感程度S级别为低以上的文件。
实现步骤:
步骤(1)、初始时根据正则表达式Regex类构造函数对n个关键词Ki(i=1,2,3……,n)进行匹配,根据Matches()函数计算关键词出现的个数从而为每一个关键词分配权重βi
步骤(2)、对给出的关键词的基本概率分配mi和由步骤1得到的权重βi,根据公式(3)和(4)计算Dempster合成规则后的基本可信度分配值。
步骤(3)、重复步骤(2)最终得到每个文档的敏感程度的信任值Bel()。
步骤(4)、如果Bel()的值在原先设定的敏感文件级别范围内,则根据Bel()值划分到不同的级别类中,并给出文件所在的文件路径,否则不进行分类。
步骤(5)、输出结果。
上述算法给定关键词的基本概率分配时,需要有一个分配依据,为训练数据库对关键词进行提取后所赋予的值,如果所输入的关键词不在关键词数据库中,则人为的添加一个基本概率分配,并添加到关键词数据库中。
算法2基于向量空间的敏感信息检测算法
输入:关键词K1,K2,K3,……Kn
文档权重向量Wj=<w1j,w2j,...,wMj>,其中wij表示索引项ti在文档dj中的权重,
查询权重向量Q=<w1q,w2q,...,wMq>。
输出:Sim(Q,dj),即查询p与文档dj的相似度。
实现步骤:
步骤(1)、根据TFIDF加权策略将文档表示为权重的向量Wj=<w1j,w2j,...,wMj>,具体的计算公式可以表示为:
Figure BSA00000608185200091
其中tf(ti,dj)为词ti在文档dj中出现的词数;
N为所有要聚类的文本的个数;df(ti)为包含有词ti的文档个数。
步骤(2)、将查询p表示成权重的向量以计算查询与文档的相似度。查询表示公式为Q=<w1q,w2q,...,wMq>。
步骤(3)、计算查询p与文档dj中索引项ti的相似度。相似度的计算公式表示为: Sim ( Q , d j ) = &Sigma; k = 1 M w ki &times; w kj ( &Sigma; k = 1 M w 2 ki ) ( &Sigma; k = 1 M w 2 kj )
步骤(4)、将相似度的值和设定的阈值进行比较,若大于最低敏感级阈值则输出结果。
上述算法中提到的索引项是在对电子政务敏感级别已知的数据进行训练后所提取的。
算法3基于布尔模型的敏感信息检测算法
输入:查询q;
文档的标引词权重变量。
输出:Sim(dj,q),即文档dj和查询q的相似度。
实现步骤:
步骤(1)、用qdnf表示查询q的析取范式,qcc表示qdnf的任意析取分量。将标引词权重变量标为0或1,其中标引词为训练数据阶段提取的特征词。
步骤(2)、计算文档dj和查询q的相似度
Sim ( d j , q ) = 1 if &Exists; q cc | ( q cc &Element; q dnf ) ^ ( &ForAll; k i , g i ( d j ) = g i ( q cc ) ) 0 otherwise
步骤(3)、判断Sim(dj,q)的值,如果为1则布尔模型表示文档dj与查询q相关,否则文档与查询不相关。
算法4基于概率模型的敏感信息检测算法
输入:查询q,
标引词权重变量。
输出:p(R|q,d),即文档d对检索式q来说被判断为相关的概率。
实现步骤:
步骤(1)、每一篇文档根据有没有标引词将文档表示为二值向量d=(d1,d2…dn),n为标引词的数量,di=0或1表示文档中没有或有第i个标引词。其中标引词为训练数据阶段提取的特征词。
步骤(2)、根据贝叶斯理论计算条件概率
Figure BSA00000608185200102
Figure BSA00000608185200103
p ( q | R ) = R t R , p ( q | R &OverBar; ) = f t - R t N - R t , 这里p(R)和
Figure BSA00000608185200106
是相关和不相关的先验概率,Rt表示在相关R中出现关键词q的文档数;N表示文档数;ft表示在N个文档中出现关键词q的文档数。
步骤(3)、计算相关度概率p(R|q,d)。
步骤(4)、相关度概率和设定的阈值进行比较,若大于最低敏感级阈值则输出结果。
基于D-S证据理论的检测模型的建立:
首先对图2基于D-S证据理论的多关键词多方法的敏感信息检测模型进行描述,具体如下:
在本系统中,要对不同的检测算法融合后的方法进行有效性分析,需要有一个量化的语言来描述其有效性的程度。融合后的算法有i项指标ai来衡量,其中i=1,2,…,i.如果指标ai较粗,可以根据实际情况再进行细分为下一层子指标aij,aij表示第i个指标的第j个子指标,其中j的值由第i个指标来确定应由多少个子指标组成,依此类推,构成了一个树型三层结构,分别为目标层、准则层和指标层。
根据图2和前面的描述,融合的数学模型是将L位专家对模型树的底层各个叶节点的评判作为证据,并按照上面的分层评估方法,将证据依次向上合成,同时对每一层的证据进行修正,避免证据冲突,最终得到根节点的可信度值,按照可信度值的大小将检测到的敏感信息归类。数学模型中的相关内容描述如下:
1)识别框架Θ:所有的指标均采用同一识别框架Θ,即为指标评语集Θ={普通文件(x1),低敏感级文件(x2),中敏感级文件(x3),高敏感级文件(x4)}。Xh(h=1,2,…,k)为具体评语。
2)A={a1,a2,a3}:敏感信息检测最终结果由3个因素融合而成,即基于向量空间的信息检测、基于概率模型的信息检测、基于布尔模型的信息检测,ai对应的权重为wi(i=1,2,3),如:a1对应向量空间的信息检测算法,权重值可由(4)式得到。
3)A1={a11,a12,a13}:将a1分解为3个评价因素(本发明中以3个评价因素为例,可扩展到n个评价因素),aij对应的权重为wij,(j=1,2,3),如a11代表查询Q={q1,q2,q3}中q1,即a1检测算法对查询q1进行检测后得到的结果作为证明文档是否敏感的指标之一,a12代表q2,a13代表q3;A2={a21,a22,a23},A3={a31,a32,a33}。
4)Xhij)表示专家对元素aij关于Xh的可信度为βij,其中0≤βij≤1。
5)Xhi)表示专家对元素ai关于Xh的可信度为βi,0≤βi≤1。βi由βij经Dempster合成法则合成而得到的。由此可得专家对文件的敏感程度的可信度为β。
以a11与a12的合成为例,对于a11与a12,具体算法如下:
K = &Sigma; A i &cap; B j = &phi; m 1 ( A i ) m 2 ( B j ) = m 11 &prime; ( x 1 ) m 12 &prime; ( x 2 ) + m 11 &prime; ( x 2 ) m 12 &prime; ( x 1 )
m 11 &CirclePlus; m 12 ( { x 1 } ) = 1 1 - K &Sigma; B &cap; C = { x 1 } m 11 ( B ) &CenterDot; m 12 ( C ) = m 11 &prime; ( x 1 ) m 12 &prime; ( x 1 ) + m 11 &prime; ( x 1 ) m 12 &prime; ( &Theta; ) + m 11 &prime; ( &Theta; ) m 12 &prime; ( x 1 ) 1 - ( m 11 &prime; ( x 1 ) m 12 &prime; ( x 2 ) + m 11 &prime; ( x 2 ) m 12 &prime; ( x 1 ) )
m 11 &CirclePlus; m 12 ( { x 2 } ) = 1 1 - K &Sigma; B &cap; C = { x 2 } m 11 ( B ) &CenterDot; m 12 ( C ) = m 11 &prime; ( x 2 ) m 12 &prime; ( x 2 ) + m 11 &prime; ( x 2 ) m 12 &prime; ( &Theta; ) + m 11 &prime; ( &Theta; ) m 12 &prime; ( x 2 ) 1 - ( m 11 &prime; ( x 1 ) m 12 &prime; ( x 2 ) + m 11 &prime; ( x 2 ) m 12 &prime; ( x 1 ) )
其中,m′ij的值由公式(5)得到。
由多个证据理论的联合计算公式,可逐步推导出最终的敏感程度检测结果,判断所得到的结果是否大于初始设定的阈值,若是则为相应级别的敏感文档,若不是,则为普通文件。
实施例二:参见图1,本实施例基于D-S证据理论的敏感信息检测方法,实现方式包括下述步骤:
步骤1)、对数据库中检测文档进行格式转换,并作为数据对象进行预处理,提取索引项;
步骤2)、根据步骤1)得到的索引项建立索引信息,为关键词赋予相应的权重,存入数据库中;
步骤3)、用基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法和基于正则表达式的检测算法或其中的任意两项或三项检测算法对敏感级别已知的文档集合进行检测,计算每一算法的权重;
步骤4)、用步骤3)中所述的算法对目标检测文档进行检测,利用证据理论合成规则计算每一算法检测得到的文档的信任值,然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值,得到被检测文档最终的敏感度信任值,将该值和事先分类好的各个阈值比较,归入相应的类别文档中。
实施例三:参见图1,本实施例基于D-S证据理论的敏感信息检测方法,与实施例二不同的是:
在所述的步骤2)之前还包括对关键词权重的获得,该权重获取的方法采用TFIDF加权策略,具体采用基于向量空间的敏感信息检测算法,步骤如下:
步骤(1)、根据TFIDF加权策略将文档表示为权重的向量Wj=<w1j,w2j,...,wMj>,其中wij表示索引项ti在文档dj中的权重,
具体的计算公式可以表示为:
Figure BSA00000608185200131
其中tf(ti,dj)为词ti在文档dj中出现的词数;N为所有要聚类的文本的个数;df(ti)为包含有词ti的文档个数;
步骤(2)、将查询p表示成权重的向量以计算查询与文档的相似度,查询权重向量的表示公式为Q=<w1q,w2q,...,wMq>;
步骤(3)、计算查询p与文档dj中索引项ti的相似度,
相似度的计算公式表示为: Sim ( Q , d j ) = &Sigma; k = 1 M w ki &times; w kj ( &Sigma; k = 1 M w 2 ki ) ( &Sigma; k = 1 M w 2 kj ) ,
步骤(4)、将相似度的值和设定的阈值进行比较,若大于最低敏感级阈值则输出结果。
数据库中的文档均是经过预处理后建立索引的,所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的。在所述的步骤3)中,敏感级别已知的文档是一个数据集。
实施例四:本实施例于D-S证据理论的敏感信息检测方法,与实施例二或实施例三的不同之处在于:
在步骤4)中,利用证据理论合成规则计算每一算法检测得到的文档的信任值,采用如下方法:查询为一组关键词Q=<q1,q2,…qn>,对于每一个查询qi能够得到一个指标层的信任值,利用证据理论规则合成指标层的n个信任值得到准则层的一个信任值,对于每一算法能够得到准则层的一个信任层,再次利用证据理论规则合成准则层的各个信任值,得到目标层的最终信任值。
实施例五:本实施例于D-S证据理论的敏感信息检测方法,与前述各实施例的不同之处在于:步骤3)中,计算权重的步骤包括:
步骤3-1)、计算每一个算法的查全率和查准率;
步骤3-2)、对每一算法的查全率和查准率进行归一化,从而确定该算法的权重。

Claims (5)

1.一种基于D-S证据理论的敏感信息检测方法,包括:
步骤1)、对数据库中检测文档进行格式转换,并作为数据对象进行预处理,提取索引项;
步骤2)、根据步骤1)得到的索引项建立索引信息,为关键词赋予相应的权重,存入数据库中;
步骤3)、用基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法和基于正则表达式的检测算法或其中的任意两项或三项检测算法对敏感级别已知的文档集合进行检测,计算每一算法的权重;
步骤4)、用步骤3)中所述的算法对目标检测文档进行检测,利用证据理论合成规则计算每一算法检测得到的文档的信任值,然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值,得到被检测文档最终的敏感度信任值,将该值和事先分类好的各个阈值比较,归入相应的类别文档中。
2.根据权利要求1所述的基于D-S证据理论的敏感信息检测方法,其特征是:
所述步骤2)中,数据库中的文档均是经过预处理后建立索引的,所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的;
在所述的步骤2)之前还包括对关键词权重的获得,该权重获取的方法采用TFIDF加权策略,具体采用基于向量空间的敏感信息检测算法,包括:
步骤(1)、根据TFIDF加权策略将文档表示为权重的向量Wj=<w1j,w2j,...,wMj>,其中wij表示索引项ti在文档dj中的权重,
具体的计算公式可以表示为:
Figure FSA00000608185100011
其中tf(ti,dj)为词ti在文档dj中出现的词数;N为所有要聚类的文本的个数;df(ti)为包含有词ti的文档个数;
步骤(2)、将查询p表示成权重的向量以计算查询与文档的相似度,查询权重向量的表示公式为Q=<w1q,w2q,...,wMq>;
步骤(3)、计算查询p与文档dj中索引项ti的相似度,
相似度的计算公式表示为: Sim ( Q , d j ) = &Sigma; k = 1 M w ki &times; w kj ( &Sigma; k = 1 M w 2 ki ) ( &Sigma; k = 1 M w 2 kj ) ,
步骤(4)、将相似度的值和设定的阈值进行比较,若大于最低敏感级阈值则输出结果。
3.根据权利要求1或2所述的基于D-S证据理论的敏感信息检测方法,其特征是:
在所述的步骤3)中,敏感级别已知的文档是一个数据集;
在所述的步骤4)中,利用证据理论合成规则计算每一算法检测得到的文档的信任值,采用如下方法:查询为一组关键词Q=<q1,q2,…qn>,对于每一个查询qi能够得到一个指标层的信任值,利用证据理论规则合成指标层的n个信任值得到准则层的一个信任值,对于每一算法能够得到准则层的一个信任层,再次利用证据理论规则合成准则层的各个信任值,得到目标层的最终信任值。
4.根据权利要求3所述的基于D-S证据理论的敏感信息检测方法,其特征是:步骤3)中,计算权重的步骤包括:
步骤3-1)、计算每一个算法的查全率和查准率;
步骤3-2)、对每一算法的查全率和查准率进行归一化,从而确定该算法的权重。
5.根据权利要求1或2所述的基于D-S证据理论的敏感信息检测方法,其特征是:步骤3)中,计算权重的步骤包括:
步骤3-1)、计算每一个算法的查全率和查准率;
步骤3-2)、对每一算法的查全率和查准率进行归一化,从而确定该算法的权重。
CN2011103505803A 2011-11-09 2011-11-09 基于d-s证据理论的敏感信息检测方法 Active CN102426599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103505803A CN102426599B (zh) 2011-11-09 2011-11-09 基于d-s证据理论的敏感信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103505803A CN102426599B (zh) 2011-11-09 2011-11-09 基于d-s证据理论的敏感信息检测方法

Publications (2)

Publication Number Publication Date
CN102426599A true CN102426599A (zh) 2012-04-25
CN102426599B CN102426599B (zh) 2013-04-24

Family

ID=45960579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103505803A Active CN102426599B (zh) 2011-11-09 2011-11-09 基于d-s证据理论的敏感信息检测方法

Country Status (1)

Country Link
CN (1) CN102426599B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651028A (zh) * 2012-04-09 2012-08-29 云南大学 基于d-s证据理论的不确定性数据世系查询处理方法
CN102752318A (zh) * 2012-07-30 2012-10-24 中国人民解放军信息工程大学 一种基于互联网的信息安全验证方法和系统
CN103077347A (zh) * 2012-12-21 2013-05-01 中国电力科学研究院 一种基于改进核心向量机数据融合的复合式入侵检测方法
CN103810526A (zh) * 2014-01-28 2014-05-21 北京仿真中心 一种基于d-s证据理论的知识融合方法
CN103823880A (zh) * 2014-03-03 2014-05-28 国家认证认可监督管理委员会信息中心 一种基于属性加权计算检测机构相似度的方法
CN103929407A (zh) * 2013-01-15 2014-07-16 腾讯科技(深圳)有限公司 一种木马拦截方法、装置和系统
CN105824812A (zh) * 2015-01-04 2016-08-03 北京神州泰岳信息安全技术有限公司 文件类型敏感数据的自动识别方法及装置
CN106161440A (zh) * 2016-07-04 2016-11-23 中国人民武装警察部队工程大学 基于d‑s证据和博弈理论的多域光网络信任模型
CN106649515A (zh) * 2016-10-17 2017-05-10 中国电子技术标准化研究院 一种基于多种检索模型的实时微博分类器
CN107368542A (zh) * 2017-06-27 2017-11-21 山东华软金盾软件股份有限公司 一种涉密数据的涉密等级评定方法
CN107918740A (zh) * 2017-12-02 2018-04-17 北京明朝万达科技股份有限公司 一种敏感数据决策判决方法及系统
CN108363717A (zh) * 2017-12-29 2018-08-03 天津南大通用数据技术股份有限公司 一种数据安全级别的识别检测方法及装置
CN108761263A (zh) * 2018-05-24 2018-11-06 深圳大图科创技术开发有限公司 一种基于证据理论的故障诊断系统
CN109977222A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 数据敏感行为的识别方法
CN110377558A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 文档查询方法、装置、计算机设备和存储介质
CN111079829A (zh) * 2019-12-14 2020-04-28 长沙芯连心智慧系统有限责任公司 一种多传感器自适应融合目标识别方法及系统
CN111263012A (zh) * 2020-01-17 2020-06-09 杭州勒格网络科技有限公司 一种数字无中心呼叫系统及方法
CN111597310A (zh) * 2020-05-26 2020-08-28 成都卫士通信息产业股份有限公司 一种敏感内容检测方法、装置、设备、介质
WO2021212968A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种非结构化数据的处理方法、装置、设备及介质
US20220092086A1 (en) * 2020-09-23 2022-03-24 Electronic Arts Inc. Order Independent Data Categorization, Indication, and Remediation Across Realtime Datasets of Live Service Environments
CN115524150A (zh) * 2022-09-13 2022-12-27 西安交通大学 基于稀疏时域同步平均的旋转机械故障检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060004753A1 (en) * 2004-06-23 2006-01-05 Coifman Ronald R System and method for document analysis, processing and information extraction
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060004753A1 (en) * 2004-06-23 2006-01-05 Coifman Ronald R System and method for document analysis, processing and information extraction
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
屈志宏,等: "基于D_S证据理论信息融合的故障诊断方法", 《火炮发射与控制学报》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651028A (zh) * 2012-04-09 2012-08-29 云南大学 基于d-s证据理论的不确定性数据世系查询处理方法
CN102651028B (zh) * 2012-04-09 2013-10-30 云南大学 基于d-s证据理论的不确定性数据世系查询处理方法
CN102752318B (zh) * 2012-07-30 2015-02-04 中国人民解放军信息工程大学 一种基于互联网的信息安全验证方法和系统
CN102752318A (zh) * 2012-07-30 2012-10-24 中国人民解放军信息工程大学 一种基于互联网的信息安全验证方法和系统
CN103077347B (zh) * 2012-12-21 2015-11-04 中国电力科学研究院 一种基于改进核心向量机数据融合的复合式入侵检测方法
CN103077347A (zh) * 2012-12-21 2013-05-01 中国电力科学研究院 一种基于改进核心向量机数据融合的复合式入侵检测方法
CN103929407A (zh) * 2013-01-15 2014-07-16 腾讯科技(深圳)有限公司 一种木马拦截方法、装置和系统
CN103929407B (zh) * 2013-01-15 2015-03-11 腾讯科技(深圳)有限公司 一种木马拦截方法、装置和系统
CN103810526A (zh) * 2014-01-28 2014-05-21 北京仿真中心 一种基于d-s证据理论的知识融合方法
CN103810526B (zh) * 2014-01-28 2016-09-21 北京仿真中心 一种基于d-s证据理论的知识融合方法
CN103823880A (zh) * 2014-03-03 2014-05-28 国家认证认可监督管理委员会信息中心 一种基于属性加权计算检测机构相似度的方法
CN105824812A (zh) * 2015-01-04 2016-08-03 北京神州泰岳信息安全技术有限公司 文件类型敏感数据的自动识别方法及装置
CN105824812B (zh) * 2015-01-04 2019-07-30 北京神州泰岳信息安全技术有限公司 文件类型敏感数据的自动识别方法及装置
CN106161440B (zh) * 2016-07-04 2019-05-21 中国人民武装警察部队工程大学 基于d-s证据和博弈理论的多域光网络信任系统
CN106161440A (zh) * 2016-07-04 2016-11-23 中国人民武装警察部队工程大学 基于d‑s证据和博弈理论的多域光网络信任模型
CN106649515A (zh) * 2016-10-17 2017-05-10 中国电子技术标准化研究院 一种基于多种检索模型的实时微博分类器
CN107368542B (zh) * 2017-06-27 2020-08-14 山东华软金盾软件股份有限公司 一种涉密数据的涉密等级评定方法
CN107368542A (zh) * 2017-06-27 2017-11-21 山东华软金盾软件股份有限公司 一种涉密数据的涉密等级评定方法
CN107918740A (zh) * 2017-12-02 2018-04-17 北京明朝万达科技股份有限公司 一种敏感数据决策判决方法及系统
CN108363717A (zh) * 2017-12-29 2018-08-03 天津南大通用数据技术股份有限公司 一种数据安全级别的识别检测方法及装置
CN108363717B (zh) * 2017-12-29 2021-03-12 天津南大通用数据技术股份有限公司 一种数据安全级别的识别检测方法及装置
CN108761263A (zh) * 2018-05-24 2018-11-06 深圳大图科创技术开发有限公司 一种基于证据理论的故障诊断系统
CN108761263B (zh) * 2018-05-24 2021-03-12 中电华创(苏州)电力技术研究有限公司 一种基于证据理论的故障诊断系统
CN109977222A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 数据敏感行为的识别方法
CN110377558A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 文档查询方法、装置、计算机设备和存储介质
CN110377558B (zh) * 2019-06-14 2023-06-20 平安科技(深圳)有限公司 文档查询方法、装置、计算机设备和存储介质
CN111079829A (zh) * 2019-12-14 2020-04-28 长沙芯连心智慧系统有限责任公司 一种多传感器自适应融合目标识别方法及系统
CN111263012A (zh) * 2020-01-17 2020-06-09 杭州勒格网络科技有限公司 一种数字无中心呼叫系统及方法
CN111263012B (zh) * 2020-01-17 2021-08-27 西安迪科数金智能科技有限公司 一种数字无中心呼叫系统及方法
WO2021212968A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种非结构化数据的处理方法、装置、设备及介质
CN111597310A (zh) * 2020-05-26 2020-08-28 成都卫士通信息产业股份有限公司 一种敏感内容检测方法、装置、设备、介质
CN111597310B (zh) * 2020-05-26 2023-10-20 成都卫士通信息产业股份有限公司 一种敏感内容检测方法、装置、设备、介质
US20220092086A1 (en) * 2020-09-23 2022-03-24 Electronic Arts Inc. Order Independent Data Categorization, Indication, and Remediation Across Realtime Datasets of Live Service Environments
US11789982B2 (en) * 2020-09-23 2023-10-17 Electronic Arts Inc. Order independent data categorization, indication, and remediation across realtime datasets of live service environments
CN115524150A (zh) * 2022-09-13 2022-12-27 西安交通大学 基于稀疏时域同步平均的旋转机械故障检测方法
CN115524150B (zh) * 2022-09-13 2024-04-05 西安交通大学 基于稀疏时域同步平均的旋转机械故障检测方法

Also Published As

Publication number Publication date
CN102426599B (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN102426599B (zh) 基于d-s证据理论的敏感信息检测方法
Arya et al. A novel TODIM‐VIKOR approach based on entropy and Jensen–Tsalli divergence measure for picture fuzzy sets in a decision‐making problem
Kao et al. Expert finding in question-answering websites: a novel hybrid approach
US20070156720A1 (en) System for hypothesis generation
Elzinga et al. Terrorist threat assessment with formal concept analysis
CN106294319A (zh) 一种串并案识别方法
CN104346425A (zh) 一种层次化的互联网舆情指标体系的方法及系统
CN112417176A (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
Bao et al. Wetland landscape classification based on the BP neural network in DaLinor lake area
Wang et al. Examining multilevel poverty-causing factors in poor villages: A hierarchical spatial regression model
Connelly et al. What approaches exist to evaluate the effectiveness of UK-relevant natural flood management measures? A systematic map protocol
CN112508376A (zh) 一种指标体系构建方法
Zhang et al. A regret theory-based multi-granularity three-way decision model with incomplete T-spherical fuzzy information and its application in forest fire management
Fuli et al. Application of knn improved algorithm in automatic classification of network public proposal cases
Nie et al. Optimization of the economic and trade management legal model based on the support vector machine algorithm and logistic regression algorithm
Lee et al. Emerging gender issues in Korean online media: A temporal semantic network analysis approach
Ilmarinen et al. Consistency and variation in the associations between Refugee and environmental attitudes in European mass publics
Ünlüçay et al. Cumulative belief degrees approach for assessment of sustainable development
Rajendran et al. Multi level object relational similarity based image mining for improved image search using semantic ontology
Gaona-García et al. Usability of big data resources in visual search interfaces of repositories based on KOS
Mohammadi et al. Combining topic modelling and citation network analysis to study case law from the European Court on Human Rights on the right to respect for private and family life
KR20210083510A (ko) 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법
US11782963B2 (en) Semantic database query method
Qiu et al. An ex-convict recognition method based on text mining
Zhang et al. Research on retrieval and matching methods in scenario library

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant