CN101436937B

CN101436937B - 一种对网络系统控制能力进行评价的方法

Info

Publication number: CN101436937B
Application number: CN2008102274180A
Authority: CN
Inventors: 方滨兴; 周渊; 殷丽华; 陆天波; 郭云川
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2008-11-26
Filing date: 2008-11-26
Publication date: 2011-05-11
Anticipated expiration: 2028-11-26
Also published as: CN101436937A

Abstract

本发明公开了一种对网络系统控制能力进行评价的方法，属于网络通信领域，所述方法包括：对网络系统中传输通信数据的信道进行捕获，并计算出信道捕获的概率；从捕获的信道数据中，提取数据信息并按照预设的鉴别策略对数据信息进行鉴别，得到鉴别结果；根据所述鉴别结果对所述每一条数据信息进行响应，并计算网络系统的响应效率；根据所述鉴别结果，计算网络系统的漏鉴率和误鉴率；并最终计算得到网络系统的漏控率和误控率，将所述漏控率和误控率作为对所述网络系统的评价。本发明实施例通过建立网络系统的评价框架，可以对网络系统的控制能力进行有效的评价，并以此发现网络系统的缺陷，对网络系统的内容安全提供了有力支持。

Description

一种对网络系统控制能力进行评价的方法

技术领域

本发明涉及网络通信领域，特别涉及一种对网络系统控制能力进行评价的方法

背景技术

互联网上有害信息的泛滥给社会带来了不稳定因素，在各种网络系统中，通常采用信息过滤的方法处理有害的信息。目前与信息过滤相关的技术有很多，互联网信息的复杂性决定了只依靠某种单一的技术是不够的，在实际应用中需要将这些技术进行有机的组合，才能更有效的遏制有害信息的传播。比如将内容鉴别和基于身份或行为的访问控制相结合，提高网络系统处理有害信息的能力。

在实际应用中，多数网络系统的对有害信息进行响应的机制仍不完善，在实际操作中难免会出现错误，错误发生率是评价一个网络系统的重要指标。在对网络系统的信息内容安全进行评价时，主要的评价标准就是网络系统的漏控率和误控率，漏控率即没有过滤掉一些有害信息，误控率即将一些无害信息误判为有害信息进行了处理。网络系统的漏控率和误控率体现了网络系统对信息内容安全的控制能力，即网络系统对通信信息的获取能力、对通信信息的鉴别能力和通信对信息的响应能力，这三种能力可以根据网络系统的漏控率和误控率进行衡量。

在对现有技术进行研究后，发明人发现：

现有技术中，虽然网络安全评价的理论与实践均得到重大发展，但目前互联网通信内容安全的定量评价方法还未见具体研究，对网络系统的控制能力没有完整的评价框架。目前难以对网络系统进行定量评价以发现网络系统的缺陷。

发明内容

为了实现对网络系统的信息安全进行正确评价，本发明实施例提供了一种对网络系统控制能力进行评价的方法，所述技术方案如下：

一种对网络系统控制能力进行评价的方法，所述方法包括：

对网络系统中传输通信数据的信道进行捕获，并计算出信道捕获的概率；

从捕获的信道数据中，提取每一条通信的数据信息；

按照预设的鉴别策略，对所述每一条数据信息进行鉴别，得到鉴别结果；其中，所述按照预设的鉴别策略，对所述每一条数据信息进行鉴别包括：按照预设的鉴别策略，对所述每一条数据信息进行内容鉴别、身份鉴别或行为鉴别；其中内容鉴别为鉴别通信内容是否有害，身份鉴别为鉴别通信者身份是否为发布有害信息者，行为鉴别为鉴别通信行为是否为恶意行为；

根据所述鉴别结果对所述数据信息进行响应，如果所述数据信息被鉴别为匹配的数据信息，则对所述数据信息进行响应，如果所述数据信息被鉴别为不匹配的数据信息，则不对所述数据信息进行响应；

并计算网络系统的响应效率；包括：统计进行响应的数据信息的数量，同时统计所述进行响应的数据信息中有效响应的数据信息的数量，将所述有效响应的数据信息的数量与所述进行响应的数据信息的数量的比值作为网络系统的响应效率；

根据所述鉴别结果，计算网络系统的漏鉴率和误鉴率；其中漏鉴率表示与模板匹配，但鉴别为不匹配的概率；误鉴率表示与模板不匹配，但鉴别为匹配的概率；

通过如下公式计算网络系统的漏控率：

MSelfFPR_x＝1-CapCh_x×(1-Auth_FPR_x)×BlockCh_x；

通过如下公式计算网络系统的误控率：

MSelfFNR_x＝CapCh_x×Auth_FNR_x×BlockCh_x；

其中，所述信道的捕获率为CapCh_x，所述网络系统的漏鉴率为Auth_FPR_x，所述网络系统的误鉴率为Auth_FNR_x，所述网络系统的响应效率为BlockCh_x；

根据所述信道捕获的概率、网络系统响应效率、漏鉴率和误鉴率，计算网络系统的漏控率和误控率，将所述网络系统的漏控率和误控率作为对所述网络系统的评价。

本发明实施例通过建立网络系统的评价框架，可以对网络系统的控制能力进行有效的评价，并以此发现网络系统的缺陷，对网络系统的内容安全提供了有力支持。

附图说明

图1是本发明实施例1提供的对网络系统控制能力进行评价的方法流程图；

图2是本发明实施例2提供的对邮件过滤系统控制能力进行评价的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1

参见图1，本发明实施例提供了一种对网络系统控制能力进行评价的方法，该方法包括：

对网络系统中通信的数据进行信道捕获，并计算出信道捕获的概率。从捕获的信道数据中，提取通信的数据信息。对数据信息进行鉴别，得到鉴别结果；根据鉴别结果，计算网络系统的漏鉴率和误鉴率；同时根据鉴别结果对数据信息进行响应，并计算网络系统的响应效率；最后综合信道捕获的概率、网络系统的漏鉴率和误鉴率以及网络系统的响应效率，计算网络系统的漏控率和误控率。具体步骤如下：

101：对网络系统中的传输通信数据的信道进行粗粒度的信道捕获，并计算出信道捕获的概率。

在本实施例中，信道捕获的定义为：

V：结点集，V＝{vi|i≥1}；

S：为V的一个非空子集，表示信息源集合；

D：为V的一个非空子集，表示信息目的地集合；

将信息的传输拓扑看作一个图，其中传输结点为图的顶点，两个传输结点的直接逻辑链路作为图的边，设拓扑图为G，图G的顶点集为V，边集为E，即G＝(V，E)，则信道集合Ch表示信息从信息源到目的地传输过程中传输链路的集合，可表示如下：

Ch:{2^S\{φ}}×{2^D\{φ}}→2^E，其中2^S\{φ}和2^D\{φ}分别表示2^S和2^D与{φ}的差，φ为空集。给定图G＝(V，E)，则信道捕获是指获取边集E′

(E' &SubsetEqual; E) .

进一步的，信道完全捕获是指获取边集E′(

E' &SubsetEqual; E

)，并满足：

①对任意的s∈S，d∈D，若s＝d，则s为G′＝G-E′的孤立点，其中，G′＝G-E′为图G中删除边集E′所得到的拓扑图；

②对任意的s∈S，d∈D，若s≠d，则不存在V′∈V/R′使得s∈V′且d∈V′，其中，R′为G′＝G-E′的连通关系，V/R′表示V关于等价关系R′的商集。

其中，①表示若一个结点既是源结点，又是目的结点，则在删除边集E′之后，该结点为孤立结点；②表示若一个结点既不是源结点，又不是目的结点，则在删除边集E′之后，任意一个源结点和目的结点均不在同一个链路分支中，即不存在从源结点到目的结点的链路。

定义捕获的信道集合E′的规模为|E′|，其中|E′|表示集合E′中元素的数目。给定图G＝(V，E)和一系列的信道捕获，定义在G中的极小完全捕获为完全捕获E′₁，且满足：E′₁的规模不大于其它任意完全捕获。将所有极小完全捕获E′₁的集合作为极小完全捕获集，记为MinE。在实际的信道捕获中，有可能难以达到完全捕获的要求，因此需要给出信道捕获率CapCh：可用下式表示：CapCh:{2^S\{φ}}×{2^D\{φ}}→[0，1]

给定信道的捕获E′和极小完全捕获集MinE，则信道的完全捕获率为：

\max_{me &Element; MinE} (| me \cap E' | / | me |)

102：在捕获的粗粒度信道数据中，提取对网络系统控制能力进行评价所需的数据信息，并确定数据信息的状态。

在本发明实施例中，为了对网络系统的控制能力进行全面的评价，提取的数据信息中应包括：通信者身份、通信行为和通信内容。此外，在对方案进行优化时，还需要获取信道信息。因此，在粗粒度信道数据中中，提取出的一条数据信息应包括：信道信息、通信者身份、通信行为和通信内容，但在实际应用中，由于P2P网络和渗透等技术的存在，会导致信道信息难以获取；由于匿名等技术的存在，会导致通信者的真实身份难识别；由于加密等技术的存在，会导致通信内容难识别；由于隐蔽通道等技术的存在，会导致行为难识别。

综上所述，提取的数据信息的状态跟通信方式有关。比如，在网络系统中采用了加密技术的情况下，则捕获的数据信息中，信道、通信者身份和通信行为可以获取，通信内容不可获取。将数据信息的状态用四元组<ch，i，b，c>来表示。其中ch、i、b和c分别表示信道、通信者身份、通信行为和通信内容。若用ch表示信道已获取，ch表示信道未获取，i表示通信者的真实身份已获取，i表示通信者的真实身份未获取，b表示通信行为特征已获取，b表示通信行为特征未获取，c表示通信内容已获取，c表示通信内容未获取，则获取的数据信息的可能状态有16种：<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>，<ch，i，b，c>和<ch，i，b，c>。在网络系统采用了加密技术的情况下，捕获的数据信息中，信道、通信者身份和通信行为可以获取，通信内容不可获取，则在该网络系统中，确定提取的数据信息的状态为<ch，i，b，c>。

需要补充说明的是，在一定条件下，可以采用技术手段将数据信息的当前状态向有利于评价系统的状态进行转移，比如，如果能采用密码破解技术对通信内容进行破解，则该数据信息的状态可以转换为<ch，i，b，c>。在数据信息的状态能够进行转移时，对网络系统的评价也会相应的增加状态转移情况下的评价，具体方法将在下文中详细介绍。

103：将102中提取的所有数据信息作为样本集，从样本集的数据信息中，提取出可以获取的信息，按照预设的鉴别策略，对样本集中的数据信息进行鉴别，得到鉴别结果。

对数据信息的鉴别包括内容鉴别、身份鉴别和行为鉴别，由相应的控制模型完成。具体的，由基于内容的控制模型CCON_C进行数据信息的内容鉴别，由基于身份的控制模型CCON_I对进行数据信息的身份鉴别，由基于行为的控制模型CCON_B进行数据信息的行为鉴别。

具体的，针对不同的网络系统，可以有不同的数据信息鉴别策略，例如，在邮件系统中，可以制定以内容鉴别为主，身份鉴别和行为鉴别为辅的鉴别策略，如果一条数据信息通过内容鉴别被判定为有害信息，则不需要进一步进行身份鉴别和行为鉴别。如果一个数据信息的内容未获取或通过内容鉴别被判定为无害信息时，则进一步进行身份鉴别和行为鉴别。比如在邮件系统中，如果一个数据信息的通信内容被判定为有害信息，则无需进行身份鉴别和行为鉴别，如果一个数据信息是垃圾邮件，在内容鉴别时被判定为无害信息，就需要进一步的进行身份鉴别和行为鉴别。

具体的，在预设了针对网络系统的预设鉴别策略以后，就可以对样本集中的每个数据信息进行相应的内容鉴别、身份鉴别或行为鉴别。具体的方法参见103a、103b和103c。

103a：使用基于内容的控制模型CCON_C对样本集中的数据信息进行内容鉴别。将数据信息中的通信内容与预设的通信内容模板进行比对，得到相似度值，如果该相似度值大于预设的阀值，则将数据信息鉴别为匹配的数据信息；如果该相似度值小于预设的阀值，则将该数据信息鉴别为不匹配的数据信息。

具体的，以鉴别内容是否有害为例进行说明，在CCON_C中，数据信息中的通信内容与预设的通信内容模板的相似度值，可以表示为数据信息与有害内容模板之间的距离，如果该距离大于预设的阀值，则将数据信息鉴别为匹配的数据信息，即有害的数据信息，如果该距离小于预设的阀值，则将数据信息鉴别为不匹配的数据信息，即无害的数据信息。具体方法如下：

1)计算样本集中的数据信息与有害内容模板之间的距离。

其中，在CCON_C中，进行如下定义：

C：样本集中的通信内容集；

TEMP_C：有害内容模板；

D_CM：C×{TEMPC}→ξ：测量距离函数。其中，ξ为非负实数集。距离的计算方法因不同应用而不同，具体的计算方法会在下文中结合应用场景进行详细介绍。

其中，有害内容模板是衡量一条数据信息的有害程度的模板，有害内容模板中预定义了网络系统认定的有害内容，比如一些有害的词语或句子，通过将一条数据信息与有害内容模板进行比较，可以衡量该数据信息的有害程度，在本实施例中将有害程度表示为与有害内容模板之间的距离。

内容鉴别是利用有害内容鉴别模版，计算所获取的数据信息与有害内容模版的距离，距离愈近，说明其内容愈有害，则愈应采用裁剪、阻断等方式进行响应；距离愈远，说明其内容愈无害。有害内容模板的定义以及计算数据信息与有害内容模板的距离的具体方法将在下文中结合具体的应用场景详细介绍。

对于通信内容集中的一条通信内容c(c∈C)，用D_CM(c，TEMP_C)表示通信内容c与有害内容模板TEMP_C之间的测量距离，D_CM(c，TEMP_C)愈小，说明通信内容c与有害信息模板之间的距离越近，即通信内容愈有害；反之D_CM(c，TEMP_C)愈大，说明通信内容与有害信息模板之间的距离愈远，通信的内容愈无害。

2)根据计算出的通信内容与有害内容模板的距离，结合CCON_C中的内容鉴别函数，计算得到内容鉴别结果。

具体的，本发明实施例中CCON_C的内容鉴别函数可以表示为：Auth_C：ξ→[0，1]。该鉴别函数根据通信内容c(c∈C)与有害内容模板之间的距离D_CM(c，TEMP_C)，计算相应的鉴别结果。鉴别函数的计算方法可以根据具体的应用场景进行定义，比如，一种鉴别函数的计算方法可以为：当通信内容与有害内容鉴别模板之间的距离小于预设的阀值时，则鉴别结果为0，表示信息无害，当通信内容与有害内容鉴别模板之间的距离大于预设的阀值时，则鉴别结果为1，表示信息有害。

虽然内容鉴别是最精细粒度的鉴别，但当数据信息被加密时，基于内容的鉴别手段是无能力的。为此，可考虑其它鉴别方式，比如探测信息的来源，这样可以采用身份鉴别手段。互联网通信内容安全中，身份可能是指IP地址、URL地址或者其他标识信息等。身份鉴别的具体步骤参见103b。

103b：使用基于身份的控制模型CCON_I对样本集中的数据信息进行身份鉴别。将该数据信息中的通信者身份与预设的通信者身份模板进行比对，得到相似度值，如果该相似度值大于预设的阀值，则将该数据信息鉴别为匹配的数据信息；如果该相似度值小于预设的阀值，则将该数据信息鉴别为不匹配的数据信息。

具体的，在CCON_I中，数据信息中的通信者身份与预设的通信者身份模板的相似度值，可以表示为数据信息与通信者身份模板之间的距离。对数据信息进行身份鉴别的步骤如下：

1)计算样本集中的数据信息与身份模板之间的距离。

其中，在CCON_I中，进行如下定义：

I：样本集中的通信者身份集；

TEMP_I：通信者身份模板；

D_IM：I×{TEMP_I}→ξ：测量距离函数，即测量通信者身份与身份模板之间距离，其中ξ为非负实数集。距离的具体计算方法因不同应用而不同。

身份鉴别中的模板和距离函数与内容鉴别中的模板和距离函数的定义原理相同，不再赘述。

具体的，当通信者身份模板TEMP_I为黑名单时，即发布有害信息者的身份集，对于通信者身份集中的一个通信者身份i(i∈I)，用D_IM(i，TEMP_I)表示通信者身份i与身份模板TEMP_I之间的测量距离，D_IM(i，TEMP_I)愈小，说明i与TEMP_I之间的距离越近，即i越可能是发布有害信息者；反之D_IM(i，TEMP_I)愈大，说明i与TEMP_I之间的距离愈远，即i越不可能是发布有害信息者；

2)根据计算出的通信者身份与身份模板的距离，结合CCON_I中的身份鉴别函数，计算得到身份鉴别结果。

具体的，本发明实施例中CCON_I的身份鉴别函数可以表示为Auth_I：ξ→[0，1]，该鉴别函数根据通信者身份i(i∈I)与身份模板之间的距离D_IM(i，TEMP_I)，计算相应的鉴别结果。鉴别函数的计算方法可以根据具体的应用场景进行定义，比如，在邮件系统中，使用黑名单作为身份模板，鉴别函数的计算方法可以为：当通信者身份与身份模板之间的距离小于预设的阀值时，则鉴别结果为0，表示信息来自有害信息发布者，当通信者身份与身份模板之间的距离大于预设的阀值时，则鉴别结果为1，表示信息来自无害信息发布者。

在内容鉴别和身份鉴别都失效的情况下，为了保障内容安全，需要考虑针对通信基本要素中的最后一个要素进行鉴别，即行为鉴别。为了传播有害信息，有害信息的传播者需要一些传播工具，使用这些工具时可能会体现出独特的行为特征，因此可对这些独特的行为特征进行鉴别，从而达到互联网通信内容安全的目的。因此可考虑采用基于行为的方式来进行鉴别。行为鉴别具体步骤参见103c。

103c：使用基于行为的控制模型CCON_B对样本集中的数据信息进行行为鉴别。将该数据信息中的通信行为与预设的通信行为模板进行比对，得到相似度值，如果该相似度值大于预设的阀值，则将该数据信息鉴别为匹配的数据信息；如果该相似度值小于预设的阀值，则将该数据信息鉴别为不匹配的数据信息。

具体的，以鉴别行为是否为恶意行为为例进行说明，在CCON_B中，数据信息中的通信行为与预设的通信行为模板的相似度值，可以表示为数据信息与恶意行为模板之间的距离，如果该距离大于预设的阀值，则将数据信息鉴别为匹配的数据信息，即通信行为是恶意的，如果该距离小于预设的阀值，则将数据信息鉴别为不匹配的数据信息，即通信行为非恶意的。具体方法如下：

1)计算样本集中的数据信息与恶意行为模板之间的距离。

具体的，在CCON_B中，进行如下定义：

B：样本集中的通信行为集；

TEMP_B：恶意行为模板；

D_BM：B×{TEMP_B}→ξ：测量距离函数，即测量通信行为和恶意行为模板之间的测量的函数，其中ξ为非负实数集。距离的具体计算方法因不同应用而不同。

行为鉴别中的模板和距离函数与内容鉴别中的模板和距离函数的定义原理相同，不再赘述。

对于通信行为集中的一个通信行为b(b∈B)，用D_B(b，TEMP_B)表示通信行为b与恶意行为模板TEMP_B之间的测量距离，D_B(b，TEMP_B)愈小，说明b与TEMP_B之间的距离越近，b愈可能是恶意行为；反之D_B(b，TEMP_B)愈大，说明b与TEMP_B之间的距离越远，b愈不可能是恶意行为。

2)根据计算出的通信者行为与恶意行为模板的距离，结合CCON_B中的行为鉴别函数，计算得到行为鉴别结果。

具体的，本发明实施例中鉴别函数可以表示为Auth_B：ξ→[0，1]，该鉴别函数根据通信行为b(b∈B)与行为模板之间的距离D_B(b，TEMP_B)，计算相应的鉴别结果。鉴别函数的计算方法可以根据具体的应用场景进行定义，比如，一种鉴别函数的计算方法可以为：当通信行为与恶意行为模板之间的距离小于预设的阀值时，则鉴别结果为0，表示信息的发布为恶意行为；当通信行为与行为模板之间的距离大于预设的阀值时，则鉴别结果为1，表示信息的发布非恶意行为。

104：根据数据信息的鉴别结果对数据信息进行响应，并统计样本集中响应的数据信息的数量，将有效响应的数据信息的数量与响应的数据信息的数量的比值作为网络系统的响应效率。

在对样本集中的数据进行了内容、身份或行为的鉴别后，需要对鉴别后的数据信息进行响应，即对有害的数据信息采取相应的措施，包括阻断、裁剪等。

对数据信息的响应包括对通信者身份的响应、对通信行为的响应和对通信内容的响应。若分别用i，b和c表示这三个要素，则可用(i，b，c)来表示一条通信的数据信息。给定身份鉴别模板TEMP_I，行为鉴别模板TEMP_B和内容鉴别模板TEMP_C，对于一条捕获的数据信息(i，b，c)∈I×B×C，记i、b和c与TEMP_I、TEMP_B和TEMP_C的测量距离分别ξ_i、ξ_b和ξ_c，鉴别函数分别为Auth_I(ξ_i)、Auth_B(ξ_b)和Auth_C(ξ_c)。若对数据信息(i，b，c)采用的是身份鉴别，则对(i，b，c)进行响应的概率为Auth_I(ξ_i)；若对数据信息(i，b，c)采用的是内容鉴别，则对(i，b，c)进行响应的概率为Auth_C(ξ_c)；若对数据信息(i，b，c)采用的是行为鉴别，则对(i，b，c)进行响应的概率为Auth_B(ξ_b)。

在对样本集中的数据信息进行了相应的响应后，通过统计得到网络系统的响应效率，设响应的效率为BlockCh，则BlockCh表示样本集中有效响应的数据信息的数量与样本集中应响应的数据信息的数量的比值。比如，样本集中有150条数据信息被鉴别为有害信息并进行了响应，但这150条信息中，只有120条信息被有效的阻断或裁剪，则系统的响应效率就为80％。其中，有效响应的数据信息可以根据网络系统的反馈进行准确的判断。

105：根据103中得到的样本集中数据信息的鉴别结果，计算网络系统的漏鉴率和误鉴率。

网络系统的鉴别能力包括了身份鉴别能力、行为鉴别能力、内容鉴别能力，衡量每种鉴别能力的主要指标是漏鉴率和误鉴率，漏鉴率表示与模板“匹配”，但鉴别为不“匹配”的概率；误鉴率表示与模板不“匹配”，但鉴别为“匹配”的概率。以下给出三种漏鉴率和误鉴率的计算方法：

105a：计算内容鉴别的漏鉴率和误鉴率。

内容鉴别的漏鉴率可表示为：

{FPR}_{{AUTH}_{C}} : C \times {{TEMP}_{C}} &RightArrow; [0,1];

内容鉴别的误鉴率可表示为：

{FNR}_{{AUTH}_{C}} : C \times {{TEMP}_{C}} &RightArrow; [0,1] .

其中，C、TEMP_C、ξ、D_CM和Auth_C的定义与103中CCON_C中的定义相同。设测量距离为ξ_m的概率为

(ξm)，预设的C与TEMP_C的阀值距离为ξ_r，样本集为J，且

\underset{j &Element; J}{Σ} P (D_{CM} (c, {TEMP}_{C}) = ξ_{j}) = 1

则内容鉴别的漏鉴率：

{FPR}_{{AUTH}_{C}} (c, {TEMP}_{C}) = \underset{j &Element; J, ξ_{j} > ξ_{r}}{Σ} (({Auth}_{C} (ξ_{r}) - {Auth}_{C} (ξ_{j})) . P_{ξ_{r}} (ξ_{j}));

内容鉴别的误鉴率：

{FNR}_{{AUTH}_{C}} (c, {TEMP}_{C}) = \underset{j &Element; J, ξ_{j} > ξ_{r}}{Σ} (({Auth}_{C} (ξ_{j}) - {Auth}_{C} (ξ_{r})) . P_{ξ_{r}} (ξ_{j})) .

105b：计算身份鉴别的漏鉴率和误鉴率。

身份鉴别的漏鉴率可表示为：

{FPR}_{{AUTH}_{I}} : I \times {{TEMP}_{I}} &RightArrow; [0,1];

身份鉴别的误鉴率可表示为：

{FNR}_{{AUTH}_{I}} : I \times {{TEMP}_{I}} &RightArrow; [0,1] .

其中，I、TEMP_I、ξ、D_IM和Auth_I的定义与与103中CCON_I中的定义相同；设测量距离为ξ_m的概率为

(ξ_m)，预设的I与TEMP_I的阀值距离为ξ_r，样本集为J，且

\underset{j &Element; J}{Σ} P (D_{IM} (i, {TEMP}_{I}) = ξ_{j}) = 1 .

则身份鉴别的漏鉴率：

{FPR}_{{AUTH}_{I}} (i, {TEMP}_{I}) = \underset{j &Element; J, ξ_{j} > ξ_{r}}{Σ} (({Auth}_{I} (ξ_{r}) - {Auth}_{I} (ξ_{j})) . P_{ξ_{r}} (ξ_{j}));

身份鉴别的误鉴率：

{FNR}_{{AUTH}_{I}} (i, {TEMP}_{I}) = \underset{j &Element; J, ξ_{j} > ξ_{r}}{Σ} (({Auth}_{I} (ξ_{j}) - {Auth}_{I} (ξ_{r})) . P_{ξ_{r}} (ξ_{j})) .

105c：计算行为鉴别的漏鉴率和误鉴率。

行为鉴别的漏鉴率可表示为：

{FPR}_{{AUTH}_{B}} : B \times {{TEMP}_{B}} &RightArrow; [0,1];

行为鉴别的误鉴率可表示为：

{FNR}_{{AUTH}_{B}} : B \times {{TEMP}_{B}} &RightArrow; [0,1] .

其中，B、TEMP_B、ξ、D_BM和Auth_B的定义与103中CCON_B中的定义相同，设测量距离为ξ_m的概率为

(ξ_m)，预设的b与TEMP_B的阀值距离为ξ_r，样本集为J，且

\underset{j &Element; J}{Σ} P (D_{BM} (b, {TEMP}_{B}) = ξ_{j}) = 1 .

则行为鉴别的漏鉴率：

{FPR}_{{AUTH}_{B}} (b, {TEMP}_{B}) = \underset{j &Element; J, ξ_{j} > ξ_{r}}{Σ} (({Auth}_{B} (ξ_{r}) - {Auth}_{B} (ξ_{j})) . P_{ξ_{r}} (ξ_{j}));

行为鉴别的误鉴率：

{FNR}_{{AUTH}_{B}} (b, {TEMP}_{B}) = \underset{j &Element; J, ξ_{j} > ξ_{r}}{Σ} (({Auth}_{B} (ξ_{j}) - {Auth}_{B} (ξ_{r})) . P_{ξ_{r}} (ξ_{j})) .

105d：进一步的，根据105a、105b和105c计算出的漏鉴率和误鉴率。计算网络系统整体的漏鉴率和误鉴率。

不同信息获取状态下鉴别能力评价方法：上面给出了身份鉴别、行为鉴别和内容鉴别的漏鉴率和误鉴率。根据获取的数据信息的状态和鉴别策略的不同，这三种控制方式可单独使用，也可组合使用。比如在<ch，i，b，c>状态下，可只采用身份鉴别，也可以先采用身份鉴别，再采用行为鉴别，最后进行内容鉴别。这样，不同状态下的鉴别漏鉴率和误鉴率与该状态下所采用鉴别模型的漏鉴率和误鉴率有关。下面给出不同状态下的漏鉴率和误鉴率的定义：

定义在x状态下，

和分别为x状态下采用内容鉴别、身份鉴别和行为鉴别的漏鉴率，

和

分别为x状态下内容鉴别、身份鉴别和行为鉴别的误鉴率。

则在x状态下网络系统整体的漏鉴率Auth_FPR_x为

和

的函数，表述如下：Auth_FPR_x：[0，1]×[0，1]×[0，1]→[0，1]。

在x状态下网络系统整体的误鉴率Auth_FNR_x为

和

的函数，表述如下：Auth_FNR_x：[0，1]×[0，1]×[0，1]→[0，1]。

Auth_FPR_x和Auth_FNR_x计算方法根据身份鉴别、行为鉴别和内容鉴别的组合方式以及使用方式不同而不同。可以根据具体的应用场景在鉴别策略预先设定，比如，预设策略如果同时采取了内容鉴别、身份鉴别和行为鉴别，则鉴别函数的计算方法可以为

Auth_{FPR}_{x} = {FPR}_{c}^{x} \times {FPR}_{i}^{x} \times {FPR}_{b}^{x}

，预设策略如果以内容鉴别和身份鉴别为主，以行为鉴别为辅，则鉴别函数的计算方法可以为

Auth_{FPR}_{x} = {FPR}_{c}^{x} \times {FPR}_{i}^{x} .

106：根据信道的捕获概率、网络系统的响应效率以及网络系统的漏鉴率和误鉴率，计算网络系统的漏控率和误控率，将漏控率和误控率作为对网络系统控制能力的评价结果。

对网络系统控制能力进行评价的主要方法为：在样本集中数据信息的当前状态下，计算网络系统对数据信息的漏控率和误控率；以及在样本集中的数据信息有可能向有利状态转移时，网络系统对有利状态的数据信息的漏控率和误控率。比如，在一个采用匿名技术和加密技术的系统中，捕获的数据信息的状态为<ch，i，b，c>，可能可以采用解密技术将数据信息的当前状态<ch，i，b，c>转移为<ch，i，b，c>。对网络系统进行控制能力进行评价时要分别求出数据信息在这两种状态下系统的漏控率和误控率。

在本实施例中，信道的获取能力即101中计算出的信道的捕获概率；信道的响应能力即104中统计得到的网络系统的响应效率，信息鉴别能力即105计算出的网络系统整体的漏鉴率和误鉴率。根据上述数据，就可以对网络系统控制能力进行评价，具体方法如下：

106a：定义数据信息在当前状态下，网络系统的漏控率为MSelfFPR_x，误控率为MSelfFNR_x，信道的捕获率为CapCh_x，网络系统的响应效率为BlockCh_x，则：

MSelfFPR_x＝1-CapCh_x×(1-Auth_FPR_x)×BlockCh_x；

MSelfFNR_x＝CapCh_x×Auth_FNR_x×BlockCh_x。

106b：定义在数据信息向有利状态转移的过程中，网络系统的漏控率为MFPR_x，误控率为MFNR_x，则：

{MFPR}_{x} = Tran_policy (x, x) \times {MSelfFPR}_{x} + \underset{s &Element; SUCC (x)}{Σ} Tran_ability (x, s) \times Tran_policy (x, s) \times {MFPR}_{s}

{MFNR}_{x} = Tran_policy (x, x) \times {MSelfFNR}_{x} + \underset{s &Element; SUCC (x)}{Σ} Tran_ability (x, s) \times Tran_policy (x, s) \times {MFNR}_{s}

其中，MFPR_s表示数据信息在转移后的状态下，网络系统的漏控率，MFNR_s表示数据信息在转移后的状态下，网络系统的误控率。

MFPR_s和MFNR_s的计算公式与106a中的计算公式原理相同，具体为：

MFPR_s＝1-CapCh_x×(1-Auth_FPR_s)×BlockCh_s；

MFNR_s＝CapCh_x×Auth_FNR_s×BlockCh_s。

在上述公式中，在数据信息转移后的状态下，网络系统的响应效率为BlockCh_s，网络系统的漏鉴率为Auth_FPR_s，网络系统的误鉴率为Auth_FNR_s，Auth_FPR_s和Auth_FPR_s的计算方法与105d中的计算方法相同，BlockCh_s的计算方法与104中的计算方法相同，此处不再赘述。具体的，以数据信息从<ch，i，b，c>状态转移到<ch，i，b，c>为例，106a中计算得到的是数据信息在<ch，i，b，c>状态下网络系统的漏控率和误控率，而本步骤中MFPR_s和MFNR_s为数据信息在<ch，i，b，c>状态下网络系统的漏控率和误控率。进一步的，MFPR_x和MFNR_x表示的是网络系统在数据信息的状态从<ch，i，b，c>向<ch，i，b，c>转移的过程中，网络系统的漏控率和误控率，即MFPR_x和MFNR_x表示的是网络系统对数据信息的转移能力和控制能力的综合体现。

进一步的，在进行数据信息的状态转移时，Tran_ability表示数据信息进行状态转移的成功概率，Tran_policy表示对网络系统漏控率和误控率的影响率。比如，在上述采用解密手段对数据信息进行状态转移的方法中，如果解密成功的概率为90％，则公式中Tran_ability＝90％；如果对数据解密后，使网络系统的漏控率和误控率变为原来的70％，则上述公式中，Tran_policy＝70％。SUCC(x)表示转移状态后的数据信息的集合。

实施例2

本发明实施例提供了一种对网络系统控制能力进行评价的方法，本实施例中的网络系统为一个邮件过滤系统，对该邮件过滤系统的控制能力进行评价的方法如下：

201：对邮件过滤系统中的传输通信数据的信道进行粗粒度的信道捕获，并计算出信道捕获的概率。

在邮件过滤系统中，在对信道数据进行捕获时，可以将网络监控器部署在发送服务器或接收服务器中。使用网络监控器捕获信道概率很高，可以近似认为能够全部捕获。在此不再深入说明。

202：在201捕获的粗粒度信道数据中，提取对邮件过滤系统的控制能力进行评价所需的数据信息，并确定数据信息的状态。

通常情况下，使用网络监控器进行信道捕获和信息解析都是成功的，即提取的数据信息中，通信内容、通信者身份和通信行为均可识别，则数据信息的状态为<ch，i，b，c>状态。

203：将202中提取的所有数据信息作为样本集，从样本集的数据信息中，提取出可以获取的信息，按照预设的鉴别策略，对样本集中的数据信息进行鉴别，得到鉴别结果。

采用CCON_I、CCON_B和CCON_C模型对样本集中的数据信息进行鉴别，其中，预设的鉴别策略可以为：对某个数据信息进行鉴别时，如果有一个模型鉴别出该数据信息是有害的，则将该信息判定为有害信息；当3个模型同时鉴别该信息无害时才判定该信息为无害信息。对数据信息进行鉴别的具体步骤如下：

①使用CCON_C模型对数据信息进行内容鉴别。

在CCON_C中采用关键词向量对数据信息中的通信内容进行鉴别，在CCON_C中，进行如下定义：

C：样本集中的通信内容集；

Temp_keyword：色情词汇模板，包括色情关键词向量T＝(T₁，T₂，...，T_n)，和权重向量t＝(t₁，t₂，...，t_n)，其中T_i为向量T中的第i个关键词，t_i为第i个关键词的权值，1≤i≤n。

用n维关键词向量来表示待鉴别的一条通信内容c(c∈C)，设待鉴别的通信内容c用关键词向量表示为V＝(V₁，V₂，...，V_n)，权重向量v＝(v₁，v₂，...，v_n)，词频向量w＝(w₁，w₂，...,w_n)，其中v中的每个分量可由词频向量w计算而来。

距离函数为：D_CM：c×{Temp_keyword}→[0，∞)，计算方法为：

D_{CM} (w, k) = ξ_{c} = \cos (w, k) = Σ_{i = 1}^{n} k_{i} \cdot w_{i} / \sqrt{Σ_{i = 1}^{n} k_{i} \cdot Σ_{i = 1}^{n} w_{i}},

其中ξ_c即通信内容c(c∈C)与词汇模板的距离。

鉴别阀值；

鉴别函数Auth_C(ξ_c)的计算方法为：

当Auth_C(ξ_c)＝1时即表示当前信息为有害信息。

②CCON_I模型的信息鉴别

在本实施例中，CCON_I模型可以采用黑白Email名单的方式对数据信息中的通信者身份进行鉴别，在CCON_I中，进行如下定义：

I：样本集中的通信者身份集；

EMAIL_black：Email黑名单集合，即恶意的通信者集合。

EMAIL_white：Email白名单集合，即诚实的通信者集合；

其中，EMAIL_black和EMAIL_white的交集为空集；

定义模板TEMP_email为黑名单和白名单的合集：EMAIL_black∪EMAIL_white；

距离函数为：D_IM：EMAIL_addr×{TEMP_email}→[0，∞)，其计算方法如下：

D_{IM} (i, {TEMP}_{email}) = ξ_{i} = \{\begin{matrix} 0 & if & emailaddr &Element; {EMAIL}_{black} \\ 1 & if & emailaddr &Element; {EMAIL}_{white} \\ 0.5 & otherwise \end{matrix}

其中ξ_i即通信者身份i(i∈I)与模板的距离。

对于通信者身份i(i∈I)，鉴别函数Auth_I(ξ_i)的计算方法为：

{Auth}_{I} (ξ_{i}) = \{\begin{matrix} 1 & if & ξ_{i} = 0 \\ 0 & if & ξ_{i} = 1 \end{matrix}

当Auth_I(ξ_i)＝1时，表示通信者是诚实的通信者，当Auth_I(ξ_i)＝1，表示通信者是恶意通信者。

③CCON_B模型的信息鉴别

CCON_B模型可以采用虚假地址鉴别的方式对数据信息中的通信行为进行鉴别。在进行行为鉴别时，考察接收邮件RCPT和发送邮件MAIL这两个动作，对每个动作考察ip2domain和falseAddratio这两个属性。其中falseAddratio表示所能容忍的虚假地址率。ip2domain表示发件人服务器域的ip和domain是否一致，当ip和domain一致性时，定义ip2domain＝1，否则ip2domain＝0。因为一般来说邮件发送服务器的ip和domain是相对固定的，而垃圾邮件发送者通常会伪造一个或多个domain来欺骗邮件接收服务器，导致发件人服务器域的ip和domain不一致，所以ip2domain可用于区分邮件的合法性。

在CCON_B中，进行如下定义：

B：行为鉴别中所关注的通信者行为或动作集合；

ATTR＝{ip2domain，falseAddratio}：动作的属性集；其判断公式g(x)为：

g (x) = \{\begin{matrix} falseAddratio & if x = RCPT \\ ip 2 domain & if x = MAIL \\ φ & otherwise \end{matrix}

判断公式g(x)中，ip2domain为发送邮件动作MAIL所关注的属性，falseAddratio为接收邮件动作RCPT所关注的属性；

行为鉴别模板Temp_behavior＝{MAIL.ip2domain.RCPT.falseAddratio}，模板中的ip2domain的属性定义了ip与domain的一致性，falseAddratio定义了所能容忍的虚假地址率；

给定一个实际行为b∈B，定义该行为与模板Temp_blockb之间的距离为：

D_{BM} (b, {Temp}_{behavior}) = ξ_{b} = \{\begin{matrix} 0 & if ip 2 {domain}_{A} = 0 or {falseAddratio}_{A} &GreaterEqual; falseAddratio \\ 1 & otherwise \end{matrix}

其中ξ_b即通信者行为b(b∈B)与模板的距离。

204：根据数据信息的鉴别结果对数据信息进行响应，并统计样本集中响应的数据信息的数量，将有效响应的数据信息的数量与响应的数据信息的数量的比值作为邮件过滤系统的响应效率。

对数据信息进行响应的过程为：

①CCON_C模型的信息响应

CCON_C模型的鉴别函数为

。这个鉴别函数表明当所鉴别文本和鉴别模板的距离小于等于某个预定的阀值时，则对该邮件进行响应。当所鉴别文本和鉴别模板的距离大于某个预定的阀值，则采用CCON_I模型。

②CCON_I模型的信息响应

CCON_I模型的鉴别函数如下：

{Auth}_{I} (ξ_{i}) = \{\begin{matrix} 1 & if & ξ_{i} = 0 \\ 0 & if & ξ_{i} = 1 \end{matrix}

该鉴别函数和CCON_I模型中定义的距离表明，当发送者地址属于黑名单时，以1的概率对该邮件进行响应；发送者地址属于白名单时，不对该邮件进行响应。若发送者地址既不属于黑名单又不属于白名单，则可采用CCON_B模型。

③CCON_B模型的信息响应

CCON_B模型的鉴别函数为：

{Auth}_{B} (ξ_{b}) = \{\begin{matrix} 1 & if & ξ_{b} = 0 \\ 0 & if & ξ_{b} = 1 \end{matrix}

该鉴别函数和CCON_B模型中定义的距离表明，当虚假地址的错误率高于容忍值或者发送者域IP与其域地址不一致时，认为该行为属于发送垃圾邮件的行为，并给予相应的处理。

在对样本集中的数据信息进行了相应的响应后，通过统计得到网络系统的响应效率，设响应的效率为BlockCh，则BlockCh表示样本集中有效响应的数据信息的数量与样本集中响应的数据信息的数量的比值。其中，有效响应的数据信息可以根据邮件过滤系统的反馈进行准确的判断。

205：根据203中得到的样本集中数据信息的鉴别结果，计算邮件过滤系统的漏鉴率和误鉴率。

具体的，可以根据实施例1中计算网络系统漏鉴率和误鉴率的公式计算该邮件过滤的漏鉴率和误鉴率，此处不再赘述。

206：根据信道的捕获概率、邮件过滤系统的响应效率以及邮件过滤系统的漏鉴率和误鉴率，计算邮件过滤系统的漏控率和误控率，将漏控率和误控率作为对邮件过滤系统控制能力的评价结果。

具体的，可以根据实施例1中计算网络系统漏控率和误控率的公式计算该邮件过滤系统的漏控率和误控率，此处不再赘述。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对网络系统控制能力进行评价的方法，其特征在于，所述方法包括：

从捕获的信道数据中，提取每一条通信的数据信息；

通过如下公式计算网络系统的漏控率：

MSelfFPR_x＝1-CapCh_x×(1-Auth_FPR_x)×BlockCh_x；

通过如下公式计算网络系统的误控率：

MSelfFNR_x＝CapCh_x×Auth_FNR_x×BlockCh_x；

2.根据权利要求1所述的对网络系统控制能力进行评价的方法，其特征在于，所述对所述每一条数据信息进行内容鉴别，包括：

将所述数据信息中的通信内容与预设的通信内容模板进行比对，得到相似度值，如果所述相似度值大于预设的阀值，则将所述数据信息鉴别为匹配的数据信息；如果所述相似度值小于预设的阀值，则将所述数据信息鉴别为不匹配的数据信息；

其中所述通信内容模板为有害内容模板。

3.根据权利要求1所述的对网络系统控制能力进行评价的方法，其特征在于，所述对所述每一条数据信息进行身份鉴别，包括：

将所述数据信息中的通信者身份与预设的通信者身份模板进行比对，得到相似度值，如果所述相似度值大于预设的阀值，则将所述数据信息鉴别为匹配的数据信息；如果所述相似度值小于预设的阀值，则将所述数据信息鉴别为不匹配的数据信息；

其中所述通信者身份模板为有害信息者的身份集。

4.根据权利要求1所述的对网络系统控制能力进行评价的方法，其特征在于，所述对每一条数据信息进行行为鉴别，包括：

将所述数据信息中的通信行为与预设的通信行为模板进行比对，得到相似度值，如果所述相似度值大于预设的阀值，则将所述数据信息鉴别为匹配的数据信息；如果所述相似度值小于预设的阀值，则将所述数据信息鉴别为不匹配的数据信息；

其中所述通信行为模板为恶意行为模板。

5.根据权利要求1所述的对网络系统控制能力进行评价的方法，其特征在于，所述按照预定的鉴别策略，对所述每一条数据信息进行鉴别包括：按照预设的鉴别策略，对所述每一数据信息进行内容鉴别、身份鉴别和行为鉴别，其中内容鉴别为鉴别通信内容是否有害，身份鉴别为鉴别通信者身份是否为发布有害信息者，行为鉴别为鉴别通信行为是否为恶意行为；

所述根据所述鉴别结果，计算网络系统的漏鉴率和误鉴率，包括：

根据所述对每一条数据信息进行内容鉴别所得到的鉴别结果，计算网络系统鉴别通信内容的漏鉴率和误鉴率；

根据所述对每一条数据信息进行身份鉴别所得到的鉴别结果，计算网络系统鉴别通信者身份的漏鉴率和误鉴率；

根据所述对每一条数据信息进行行为鉴别所得到的鉴别结果，计算得到网络系统鉴别通信行为的漏鉴率和误鉴率；

根据所述网络系统鉴别通信内容、通信者身份和通信行为的漏鉴率和误鉴率，计算网络系统的漏鉴率和误鉴率。

6.根据权利要求5所述的对网络系统控制能力进行评价的方法，其特征在于，所述根据所述信道捕获的概率、网络系统响应效率、漏鉴率和误鉴率，计算网络系统的漏控率和误控率，将所述网络系统的漏控率和误控率作为对所述网络系统的评价之后，还包括：

将所述响应效率作为第一响应效率，将所述漏鉴率作为第一漏鉴率，将所述漏控率作为第一漏控率，将所述误控率作为第一误控率；

采用预设的转移策略改变所述每一条数据信息的状态；

按照预设的鉴别策略，对改变后的每一条数据信息进行鉴别，得到鉴别结果；

根据对改变后的每一条数据信息进行鉴别所得到的鉴别结果，计算网络系统的第二漏鉴率和第二误鉴率；

根据对改变后的所述数据信息进行鉴别所得到的鉴别结果，对所述改变后的数据信息进行响应，并计算网络系统的第二响应效率；

根据所述信道捕获的概率、网络系统的第一漏控率、第一误控率、第二响应效率、第二漏鉴率和第二误鉴率，计算网络系统的第二漏控率和第二误控率，将所述第一漏控率、第一误控率、第二漏控率和第二误控率作为评价结果；

其中，所述计算网络系统的第二漏控率和第二误控率，包括：

通过如下公式计算网络系统的第二漏控率：

{MFPR}_{x} = Tran_policy (x, x) \times {MSelfFPR}_{x} + \underset{s &Element; SUCC (x)}{Σ} Tran_ability (x, s) \times Tran_policy (x, s) \times {MFPR}_{s};

通过如下公式计算网络系统的第二误控率：

{MFNR}_{x} = Tran_policy (x, x) \times {MSelfFNR}_{x} + \underset{s &Element; SUCC (x)}{Σ} Tran_ability (x, s) \times Tran_policy (x, s) \times {MFNR}_{s};

其中，MFPR_s＝1-CapCh_x×(1-Auth_FPR_s)×BlockCh_s；MFNR_s＝CapCh_x×Auth_FNR_s×BlockCh_s；所述第二漏鉴率为Auth_FPR_s，所述第二误鉴率为Auth_FNR_s，所述第二响应效率为BlockCh_s；所述第一漏控率为MSelfFPR_x，所述第一误控率为MSelfFNR_x，预设的转移策略改变所述数据信息状态的成功率为：Tran_ability，预设的转移策略对网络系统漏控率和误控率的影响概率为Tran_policy，改变后的数据信息的集合为SUCC(x)。