CN102426599A

CN102426599A - 基于d-s证据理论的敏感信息检测方法

Info

Publication number: CN102426599A
Application number: CN2011103505803A
Authority: CN
Inventors: 陈性元; 杜学绘; 夏春涛; 陈华城; 王超; 曹利峰; 孙奕; 李炳龙; 张东巍; 赵艳杰
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2011-11-09
Filing date: 2011-11-09
Publication date: 2012-04-25
Anticipated expiration: 2031-11-09
Also published as: CN102426599B

Abstract

本发明涉及一种电子政务系统的敏感信息检测方法。一种基于D-S证据理论的敏感信息检测方法，融合了包括基于正则表达式模型的检测算法、基于向量空间的检测算法、基于布尔模型的检测算法和基于概率模型的检测算法多种检测算法。首先利用D-S证据理论将各算法对同一查询中不同的关键词得到的值进行融合，其次再利用D-S证据理论对不同的算法得到的信任值进行融合，从而得到信息检测对象的敏感程度。本发明基于D-S证据理论的敏感信息检测方法综合利用了各个算法在电子政务系统信息检测中的优点，克服了单一算法查全率、查准率不高和不同算法之间检测结果的不一致性问题，能够较好的防止电子政务系统中敏感信息越级保存和泄露。

Description

基于D-S证据理论的敏感信息检测方法

技术领域

本发明涉及一种电子政务系统的敏感信息检测方法，特别是涉及一种基于D-S证据理论的敏感信息检测方法。属于计算机安全领域。

背景技术

互联网是信息化的重要基础设施，是国家重要的战略资源，积极利用互联网进行电子政务建设，既能节约资源、节省成本，又能提高效率、扩大服务的覆盖面。对于中国这样一个发展中国家的电子政务乃至信息化建设具有重要的战略意义。但是，利用开放的互联网开展电子政务建设，面临着计算机病毒、网络攻击、信息泄漏、身份假冒等安全威胁和风险，应该高度重视信息安全。基于互联网电子政务系统的政务应用主要分为政务办公和公共服务等。公共服务面向社会公众提供公开信息，政务办公则自来一些政府部门间的公文流转等。基于互联网电子政务的数据安全要求：一方面不能在公共服务域内发布一些未公开的或未审定的公文等敏感信息，另一方面不能在政务域中存储超越该政府级别的敏感信息。一旦文件越级保存，则可能造成信息泄露，从而对政府部门带来严重的影响。因此，有必要对电子政务系统的信息进行审查，并采取相应的防护措施，防止敏感信息越级保存和泄露。

对信息审查的过程实质上就是对信息集合与需求集合的匹配与选择。要实现匹配与选择，首先要对信息集合进行特征化表示；其次在检索时，也要对用户所提出的信息需求进行分析，提取概念或属性，然后通过匹配和选择机制，对需求集合与信息集合进行相似性比较，最后根据一定的标准选出符合需要的信息。传统的信息检测算法(如：基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法等)都是基于不同的框架而开发的，由于算法的思想不同，对于同一份文档各个算法检测的结果不一样，甚至存在冲突，而且在一定程度上存在误检、漏检等现象。

发明内容

本发明的目的是克服单一敏感信息检测算法(如基于向量模型、布尔模型、概率模型)中查全率、查准率不高，算法之间的结果不一致的问题，在统计了各种算法在检测电子政务敏感信息效果的基础上，提出了一种基于证据理论的融合各种检测算法的方法。

为了实现上述目的，本发明提供了一种基于D-S证据理论的多种敏感信息检测算法融合的方法。证据理论方法提供了一种不完全证据联合决策的技术，在对待一个待定的决策问题时，由于决策者的经验、知识以及对该问题的认识的局限性，在做出决策时会存在不足；而且由于不同的决策者的经验、知识以及对该问题的认识的不同，对同一问题会得出截然相反的结论，证据理论正是基于人们对客观世界认识存在的不确定性，从而提出综合多个证据进行融合决策的方法。具体如下：

一种基于D-S证据理论的敏感信息检测方法，包括：

步骤1)、对数据库中检测文档进行格式转换，并作为数据对象进行预处理，提取索引项；

步骤2)、根据步骤1)得到的索引项建立索引信息，为关键词赋予相应的权重，存入数据库中；

步骤3)、用基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法和基于正则表达式的检测算法或其中的任意两项或三项检测算法对敏感级别已知的文档集合进行检测，计算每一算法的权重；

步骤4)、用步骤3)中所述的算法对目标检测文档进行检测，利用证据理论合成规则计算每一算法检测得到的文档的信任值，然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值，得到被检测文档最终的敏感度信任值，将该值和事先分类好的各个阈值比较，归入相应的类别文档中。其流程图详见附图1。

所述的基于D-S证据理论的敏感信息检测方法，数据库中的文档均是经过预处理后建立索引的，所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的；在所述的步骤2)之前还包括对关键词权重的获得，该权重获取的方法采用TFIDF加权策略，具体采用基于向量空间的敏感信息检测算法，步骤如下：

步骤(1)、根据TFIDF加权策略将文档表示为权重的向量W_j＝<w_1j，w_2j，...，w_Mj>，其中w_ij表示索引项t_i在文档d_j中的权重，

具体的计算公式可以表示为：

其中tf(t_i，d_j)为词t_i在文档d_j中出现的词数；N为所有要聚类的文本的个数；df(t_i)为包含有词t_i的文档个数；

步骤(2)、将查询p表示成权重的向量以计算查询与文档的相似度，查询权重向量的表示公式为Q＝<w_1q，w_2q，...，w_Mq>；

步骤(3)、计算查询p与文档d_j中索引项t_i的相似度，

相似度的计算公式表示为：

Sim (Q, d_{j}) = \frac{Σ_{k = 1}^{M} w_{ki} \times w_{kj}}{\sqrt{(Σ_{k = 1}^{M} {w^{2}}_{ki}) (Σ_{k = 1}^{M} {w^{2}}_{kj})}},

步骤(4)、将相似度的值和设定的阈值进行比较，若大于最低敏感级阈值则输出结果。

所述的基于D-S证据理论的敏感信息检测方法，在所述的步骤3)中，敏感级别已知的文档是一个数据集；在所述的步骤4)中，利用证据理论合成规则计算每一算法检测得到的文档的信任值，采用如下方法：查询为一组关键词Q＝<q₁，q₂，…q_n>，对于每一个查询q_i能够得到一个指标层的信任值，利用证据理论规则合成指标层的n个信任值得到准则层的一个信任值，对于每一算法能够得到准则层的一个信任层，再次利用证据理论规则合成准则层的各个信任值，得到目标层的最终信任值。

所述的基于D-S证据理论的敏感信息检测方法，步骤3)中，计算权重的步骤包括：步骤3-1)、计算每一个算法的查全率和查准率；步骤3-2)、对每一算法的查全率和查准率进行归一化，从而确定该算法的权重。

本发明的有益效果：

1、本发明基于D-S证据理论的敏感信息检测方法，通过对各种信息检测算法在信息检测效率、检测效果方面进行研究，提出了一种效果较好的检测方法。综合利用了各个算法(如基于向量模型、布尔模型、概率模型算法)在电子政务系统信息检测中的优点，克服单一算法查全率、查准率不高和不同算法之间检测结果的不一致性问题，较好的防止电子政务系统中敏感信息越级保存和泄露。

2、本发明基于D-S证据理论的敏感信息检测方法，首次提出了基于正则表达式的融合检测算法，能够将一个文档多个属性作为证据进行融合。实现了对基于向量空间模型、基于布尔模型、基于概率模型和基于正则表达式模型算法的融合。算法权重的获取是通过对训练数据的检测，统计其查全率和查准率并归一化得到的，而传统的权重的获得都是基于专家给定的。

附图说明

图1：本发明基于D-S证据理论的敏感信息检测方法流程图；

图2：本发明基于D-S证据理论的敏感信息检测融合模型结构示意图。

具体实施方式

实施例一：参见图1、图2，本实施例结合附图具体说明本发明的一个实施方式。在对本发明的具体实现做详细说明之前，首先对本发明中所涉及的一些概念做统一的说明。

敏感信息：指用户需要和关心的、由用户判定为有意义的信息，具体表征为查询请求(如关键词)以及相关的描述信息等。我们把包含敏感信息的文件称为敏感文件。

信息检索模块：完成在本地资源库检索用户所需文本的功能，并向用户接口模块提交检索结果。

关键词：本文中所涉及到的关键词是基于电子政务系统中涉及敏感政务信息的关键词汇。

关键词的权重：关键词在政务信息被判断是否为敏感级别过程中所占比重的大小。

训练数据：即信息敏感级别已知的数据对象。

分类：分类是这样的过程，它找出描述和区分数据类或概念的模型(或函数)，以便能够使用模型预测信息敏感级别未知的对象类。导出模型是基于对训练数据集的分析。

索引信息库：是包含关键词等索引信息的数据库。如文件名、标题、作者、关键词，关键词的权重等。

D-S证据理论：证据理论又称为Dempster-Shafer证据理论，首先由Dempster提出，其学生Shafer进一步发展了该理论。作为一种不确定推理方法，证据理论为不确定信息的表达和合成提供了自然而强有力的方法，因而在不确定推理和数据融合中获得了广泛的应用。

识别框架：设完备集合Θ，Θ中的所有元素都是两两互斥的，对某一问题，在任一时刻答案只取Θ中的某一元素，则称此互不相容事件的完备集合Θ为识别框架。本文中将信息的敏感级别划分作为识别框架。

基本信任分配函数m：基本信任分配函数m是一个从集合2^Θ到[0，1]的映射，A表示识别框架Θ的任一子集，记作

且满足

式中：m(A)称为事件A的基本信任分配函数，它表示证据对A的信任程度。

信任函数：信任函数Bel是一个从集合2^Θ到[0，1]的映射，如果A表示识别框架Θ的任一子集，记作

且满足

Bel (A) = \underset{B &SubsetEqual; A}{Σ} m (B) - - - (2)

则Bel(A)称为A的信任函数，它表示证据对A为真的信任程度。

证据的合成：对于m₁，m₂为识别框架Θ下的两个基本信任分配函数，设

K = \underset{A_{i} \cap B_{j} = φ}{Σ} m_{1} (A_{i}) m_{2} (B_{j}) < 1,

则D-S合成规则为

m (A) = \{\begin{matrix} \frac{\underset{A_{i} \cap B_{j} = A}{Σ} m_{1} (A_{i}) m_{2} (B_{j})}{1 - K} \\ 0 \end{matrix} - - - (3)

式中

K = \underset{A_{i} \cap B_{j} = φ}{Σ} m_{1} (A_{i}) m_{2} (B_{j}) < 1

它反映了各个证据之间的冲突程度，系数1/(1-K)称为正则化因子。由m给定的信任函数称为m₁和m₂的正交和，记为

对于多个信任分配函数m₁，m₂，……m_n则按照式(3)依次计算。

在对本发明中的相关概念做上述说明后，为了便于理解，下面结合实施例对本发明方法加以说明。

首先简要介绍本发明中涉及到的几种算法和相关定义。

假定：

查全率R＝被检出相关文档量/总文档中所有相关文档量*100％；

查准率P＝被检出相关文档量/被检出文档总量*100％；

上述被检测文档的集合为训练数据对象。

定义1对于算法a_i，其对文档的检测结果j，将j作为判断文档是否为敏感信息的证据，则在识别框架Θ下的基本信任分配函数m(A)＝j，j∈[0，1]。

定义2对于算法a_i，在给定的检测文档集合的查全率为R，查准率为P，则对该算法的信任权重为

W (a_{i}) = R &CirclePlus; P - - - (4)

定义3即对同一份文档，在一个算法中检测为普通级文档，而在另一个算法中检测为高敏感级文档，此时证据完全冲突无法合成，K＝1，称该种情况为证据的冲突。

由式(3)可看出，当K趋近于1时，证据之间发生严重冲突，合成结果往往与实际情况不相符合。因此，为减少冲突的影响，给各个算法分配了不同的权重。设权重向量W＝(w₁，w₂，…，w_n)，满足w_i∈[0，1]，w_i的值可由(4)式得到。设w_max＝max{w₁，w₂，…，w_n}，可得相对权重向量W′＝(w₁，w₂，…，w_n)/w_max，由此可确定证据的基本可信度的“折扣率”α_i(0≤α_i ≤1)，(1-α_i)＝w_i/w_max，i＝1，2，…，n，利用“折扣率”按如下方法调整各识别框架内所有命题的基本可信度，则调整后基本可信度分配函数为：

\{\begin{matrix} m_{i}^{'} (A_{k}) = (1 - α_{i}) m_{i} (A_{k}) \\ m^{'} (Θ) = (1 - α_{i}) m (Θ) + α_{i} \end{matrix} - - - (5)

最后，将各证据的所有命题调整后的基本可信度值m_i′(A_k)，m′(Θ)代入公式(3)的合成公式，构成新的证据合成公式。

算法1基于正则表达式的敏感信息检测算法

输入：关键词K₁，K₂，K₃，……K_n，

关键词的基本概率分配m₁，m₂，m₃，……m_n，

关键词的权重因子β₁，β₂，β₃，……β_n。

输出：文档检测对象的敏感程度S级别为低以上的文件。

实现步骤：

步骤(1)、初始时根据正则表达式Regex类构造函数对n个关键词K_i(i＝1，2，3……，n)进行匹配，根据Matches()函数计算关键词出现的个数从而为每一个关键词分配权重β_i；

步骤(2)、对给出的关键词的基本概率分配m_i和由步骤1得到的权重β_i，根据公式(3)和(4)计算Dempster合成规则后的基本可信度分配值。

步骤(3)、重复步骤(2)最终得到每个文档的敏感程度的信任值Bel()。

步骤(4)、如果Bel()的值在原先设定的敏感文件级别范围内，则根据Bel()值划分到不同的级别类中，并给出文件所在的文件路径，否则不进行分类。

步骤(5)、输出结果。

上述算法给定关键词的基本概率分配时，需要有一个分配依据，为训练数据库对关键词进行提取后所赋予的值，如果所输入的关键词不在关键词数据库中，则人为的添加一个基本概率分配，并添加到关键词数据库中。

算法2基于向量空间的敏感信息检测算法

输入：关键词K₁，K₂，K₃，……K_n，

文档权重向量W_j＝<w_1j，w_2j，...，w_Mj>，其中w_ij表示索引项t_i在文档d_j中的权重，

查询权重向量Q＝<w_1q，w_2q，...，w_Mq>。

输出：Sim(Q，d_j)，即查询p与文档d_j的相似度。

实现步骤：

步骤(1)、根据TFIDF加权策略将文档表示为权重的向量W_j＝<w_1j，w_2j，...，w_Mj>，具体的计算公式可以表示为：

其中tf(t_i，d_j)为词t_i在文档d_j中出现的词数；

N为所有要聚类的文本的个数；df(t_i)为包含有词t_i的文档个数。

步骤(2)、将查询p表示成权重的向量以计算查询与文档的相似度。查询表示公式为Q＝<w_1q，w_2q，...，w_Mq>。

步骤(3)、计算查询p与文档d_j中索引项t_i的相似度。相似度的计算公式表示为：

Sim (Q, d_{j}) = \frac{Σ_{k = 1}^{M} w_{ki} \times w_{kj}}{\sqrt{(Σ_{k = 1}^{M} {w^{2}}_{ki}) (Σ_{k = 1}^{M} {w^{2}}_{kj})}}

上述算法中提到的索引项是在对电子政务敏感级别已知的数据进行训练后所提取的。

算法3基于布尔模型的敏感信息检测算法

输入：查询q；

文档的标引词权重变量。

输出：Sim(d_j，q)，即文档d_j和查询q的相似度。

实现步骤：

步骤(1)、用q_dnf表示查询q的析取范式，q_cc表示q_dnf的任意析取分量。将标引词权重变量标为0或1，其中标引词为训练数据阶段提取的特征词。

步骤(2)、计算文档d_j和查询q的相似度

Sim (d_{j}, q) = \{\begin{matrix} 1 & if &Exists; q_{cc} | (q_{cc} &Element; q_{dnf})^(&ForAll; k_{i}, g_{i} (d_{j}) = g_{i} (q_{cc})) \\ 0 & otherwise \end{matrix}

步骤(3)、判断Sim(d_j，q)的值，如果为1则布尔模型表示文档d_j与查询q相关，否则文档与查询不相关。

算法4基于概率模型的敏感信息检测算法

输入：查询q，

标引词权重变量。

输出：p(R|q，d)，即文档d对检索式q来说被判断为相关的概率。

实现步骤：

步骤(1)、每一篇文档根据有没有标引词将文档表示为二值向量d＝(d₁，d₂…d_n)，n为标引词的数量，d_i＝0或1表示文档中没有或有第i个标引词。其中标引词为训练数据阶段提取的特征词。

步骤(2)、根据贝叶斯理论计算条件概率

p (q | R) = \frac{R_{t}}{R},

p (q | \overset{&OverBar;}{R}) = \frac{f_{t} - R_{t}}{N - R_{t}},

这里p(R)和

是相关和不相关的先验概率，R_t表示在相关R中出现关键词q的文档数；N表示文档数；f_t表示在N个文档中出现关键词q的文档数。

步骤(3)、计算相关度概率p(R|q，d)。

步骤(4)、相关度概率和设定的阈值进行比较，若大于最低敏感级阈值则输出结果。

基于D-S证据理论的检测模型的建立：

首先对图2基于D-S证据理论的多关键词多方法的敏感信息检测模型进行描述，具体如下：

在本系统中，要对不同的检测算法融合后的方法进行有效性分析，需要有一个量化的语言来描述其有效性的程度。融合后的算法有i项指标a_i来衡量，其中i＝1，2，…，i.如果指标a_i较粗，可以根据实际情况再进行细分为下一层子指标a_ij，a_ij表示第i个指标的第j个子指标，其中j的值由第i个指标来确定应由多少个子指标组成，依此类推，构成了一个树型三层结构，分别为目标层、准则层和指标层。

根据图2和前面的描述，融合的数学模型是将L位专家对模型树的底层各个叶节点的评判作为证据，并按照上面的分层评估方法，将证据依次向上合成，同时对每一层的证据进行修正，避免证据冲突，最终得到根节点的可信度值，按照可信度值的大小将检测到的敏感信息归类。数学模型中的相关内容描述如下：

1)识别框架Θ：所有的指标均采用同一识别框架Θ，即为指标评语集Θ＝{普通文件(x₁)，低敏感级文件(x₂)，中敏感级文件(x₃)，高敏感级文件(x₄)}。X_h(h＝1，2，…，k)为具体评语。

2)A＝{a₁，a₂，a₃}：敏感信息检测最终结果由3个因素融合而成，即基于向量空间的信息检测、基于概率模型的信息检测、基于布尔模型的信息检测，a_i对应的权重为w_i(i＝1，2，3)，如：a₁对应向量空间的信息检测算法，权重值可由(4)式得到。

3)A₁＝{a₁₁，a₁₂，a₁₃}：将a₁分解为3个评价因素(本发明中以3个评价因素为例，可扩展到n个评价因素)，a_ij对应的权重为w_ij，(j＝1，2，3)，如a₁₁代表查询Q＝{q₁，q₂，q₃}中q₁，即a₁检测算法对查询q₁进行检测后得到的结果作为证明文档是否敏感的指标之一，a₁₂代表q₂，a₁₃代表q₃；A₂＝{a₂₁，a₂₂，a₂₃}，A₃＝{a₃₁，a₃₂，a₃₃}。

4)X_h(β_ij)表示专家对元素a_ij关于X_h的可信度为β_ij，其中0≤β_ij≤1。

5)X_h(β_i)表示专家对元素a_i关于X_h的可信度为β_i，0≤β_i≤1。β_i由β_ij经Dempster合成法则合成而得到的。由此可得专家对文件的敏感程度的可信度为β。

以a₁₁与a₁₂的合成为例，对于a₁₁与a₁₂，具体算法如下：

K = \underset{A_{i} \cap B_{j} = φ}{Σ} m_{1} (A_{i}) m_{2} (B_{j}) = m_{11}^{'} (x_{1}) m_{12}^{'} (x_{2}) + m_{11}^{'} (x_{2}) m_{12}^{'} (x_{1})

m_{11} &CirclePlus; m_{12} ({x_{1}}) = \frac{1}{1 - K} \underset{B \cap C = {x_{1}}}{Σ} m_{11} (B) {\cdot m}_{12} (C) = \frac{m_{11}^{'} (x_{1}) m_{12}^{'} (x_{1}) + m_{11}^{'} (x_{1}) m_{12}^{'} (Θ) + m_{11}^{'} (Θ) m_{12}^{'} (x_{1})}{1 - (m_{11}^{'} (x_{1}) m_{12}^{'} (x_{2}) + m_{11}^{'} (x_{2}) m_{12}^{'} (x_{1}))}

m_{11} &CirclePlus; m_{12} ({x_{2}}) = \frac{1}{1 - K} \underset{B \cap C = {x_{2}}}{Σ} m_{11} (B) {\cdot m}_{12} (C) = \frac{m_{11}^{'} (x_{2}) m_{12}^{'} (x_{2}) + m_{11}^{'} (x_{2}) m_{12}^{'} (Θ) + m_{11}^{'} (Θ) m_{12}^{'} (x_{2})}{1 - (m_{11}^{'} (x_{1}) m_{12}^{'} (x_{2}) + m_{11}^{'} (x_{2}) m_{12}^{'} (x_{1}))}

其中，m′_ij的值由公式(5)得到。

由多个证据理论的联合计算公式，可逐步推导出最终的敏感程度检测结果，判断所得到的结果是否大于初始设定的阈值，若是则为相应级别的敏感文档，若不是，则为普通文件。

实施例二：参见图1，本实施例基于D-S证据理论的敏感信息检测方法，实现方式包括下述步骤：

步骤4)、用步骤3)中所述的算法对目标检测文档进行检测，利用证据理论合成规则计算每一算法检测得到的文档的信任值，然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值，得到被检测文档最终的敏感度信任值，将该值和事先分类好的各个阈值比较，归入相应的类别文档中。

实施例三：参见图1，本实施例基于D-S证据理论的敏感信息检测方法，与实施例二不同的是：

在所述的步骤2)之前还包括对关键词权重的获得，该权重获取的方法采用TFIDF加权策略，具体采用基于向量空间的敏感信息检测算法，步骤如下：

具体的计算公式可以表示为：

步骤(3)、计算查询p与文档d_j中索引项t_i的相似度，

相似度的计算公式表示为：

Sim (Q, d_{j}) = \frac{Σ_{k = 1}^{M} w_{ki} \times w_{kj}}{\sqrt{(Σ_{k = 1}^{M} {w^{2}}_{ki}) (Σ_{k = 1}^{M} {w^{2}}_{kj})}},

数据库中的文档均是经过预处理后建立索引的，所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的。在所述的步骤3)中，敏感级别已知的文档是一个数据集。

实施例四：本实施例于D-S证据理论的敏感信息检测方法，与实施例二或实施例三的不同之处在于：

在步骤4)中，利用证据理论合成规则计算每一算法检测得到的文档的信任值，采用如下方法：查询为一组关键词Q＝<q₁，q₂，…q_n>，对于每一个查询q_i能够得到一个指标层的信任值，利用证据理论规则合成指标层的n个信任值得到准则层的一个信任值，对于每一算法能够得到准则层的一个信任层，再次利用证据理论规则合成准则层的各个信任值，得到目标层的最终信任值。

实施例五：本实施例于D-S证据理论的敏感信息检测方法，与前述各实施例的不同之处在于：步骤3)中，计算权重的步骤包括：

步骤3-1)、计算每一个算法的查全率和查准率；

步骤3-2)、对每一算法的查全率和查准率进行归一化，从而确定该算法的权重。

Claims

1.一种基于D-S证据理论的敏感信息检测方法，包括：

2.根据权利要求1所述的基于D-S证据理论的敏感信息检测方法，其特征是：

所述步骤2)中，数据库中的文档均是经过预处理后建立索引的，所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的；

在所述的步骤2)之前还包括对关键词权重的获得，该权重获取的方法采用TFIDF加权策略，具体采用基于向量空间的敏感信息检测算法，包括：

具体的计算公式可以表示为：

步骤(3)、计算查询p与文档d_j中索引项t_i的相似度，

相似度的计算公式表示为：

Sim (Q, d_{j}) = \frac{Σ_{k = 1}^{M} w_{ki} \times w_{kj}}{\sqrt{(Σ_{k = 1}^{M} {w^{2}}_{ki}) (Σ_{k = 1}^{M} {w^{2}}_{kj})}},

3.根据权利要求1或2所述的基于D-S证据理论的敏感信息检测方法，其特征是：

在所述的步骤3)中，敏感级别已知的文档是一个数据集；

在所述的步骤4)中，利用证据理论合成规则计算每一算法检测得到的文档的信任值，采用如下方法：查询为一组关键词Q＝<q₁，q₂，…q_n>，对于每一个查询q_i能够得到一个指标层的信任值，利用证据理论规则合成指标层的n个信任值得到准则层的一个信任值，对于每一算法能够得到准则层的一个信任层，再次利用证据理论规则合成准则层的各个信任值，得到目标层的最终信任值。

4.根据权利要求3所述的基于D-S证据理论的敏感信息检测方法，其特征是：步骤3)中，计算权重的步骤包括：

步骤3-1)、计算每一个算法的查全率和查准率；

5.根据权利要求1或2所述的基于D-S证据理论的敏感信息检测方法，其特征是：步骤3)中，计算权重的步骤包括：

步骤3-1)、计算每一个算法的查全率和查准率；