CN1331078C

CN1331078C - 一种获取聚类距离的方法及其系统

Info

Publication number: CN1331078C
Application number: CNB031433901A
Authority: CN
Inventors: 王建新; 韦卫; 肖政
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2003-09-30
Filing date: 2003-09-30
Publication date: 2007-08-08
Anticipated expiration: 2023-09-30
Also published as: CN1604087A

Abstract

本发明公开了一种获取聚类距离的方法及其系统，所述方法包括：A.判断数据对象集合的聚类是否为单树中的聚类，如果是，则执行步骤B，否则，执行步骤C；B.获取单树中的综合距离，结束流程；C.获取每个单树中的综合距离；D.将步骤C中获取的每个单树的综合距离的和作为数据对象集合的综合距离，结束流程。所述系统包括单棵树中综合距离计算模块和若干棵树中的综合距离计算模块，所述单棵树中综合距离计算模块获取单棵树中综合距离，并将获取的综合距离输入到若干棵树中的综合距离计算模块，由该模块获取数据对象集合的综合距离，从而减少因为聚类而造成的信息损失，使得用户对数据的理解与数据的真实面貌尽量一致。

Description

一种获取聚类距离的方法及其系统

技术领域

本发明涉及计算机信息技术领域中的数据挖掘技术，尤其涉及一种获取聚类距离的方法及其系统。

背景技术

随着计算机及网络技术的迅猛发展，人们面临的数据规模快速扩张。但与日益成熟的管理技术与软件工具相比，人们所依赖的数据分析工具难以有效地为决策者提供其决策支持所需要的相关知识，从而导致了一种“丰富的数据，贫乏的知识”的问题，比如，网络中的各种安全设备不断地产生大量日志，而管理员很难在短时间内理解和掌握这些日志。为了有效地解决这个问题，出现了数据挖掘技术。数据挖掘技术及其工具能帮助人们从大量的数据中寻找有用的模式或知识，帮助人们理解、掌握数据，并为决策提供支持。

聚类是数据挖掘中常用的一种方法，这种方法将数据集划分为若干个组或类，并使得同一个组内的数据对象具有较高的相似度，而不同组中的数据对象是不相似的。数据对象之间相似或不相似的度量是基于数据对象描述属性的取值确定的，是一种客观的度量。

针对上述的各种安全设备不断地产生大量日志，而管理员很难在短时间内理解和掌握这些日志这一突出问题，目前在Claus Julisch的论文Mining IntrusionDetection Alarms for Actionable Knowledge中提出了一种利用树结构进行数据聚类的方法，利用这种方法可以得到一定数量的类，使得管理员能够对日志数据有整体的把握，该方法对距离的定义为：同一数据对象之间的距离为0；具有覆盖关系的数据对象之间的距离为它们之间相差的层数的和；不具有覆盖关系的数据对象之间的距离无定义。例如，图1为一种数据对象树结构图，如图所示，该树结构包括两个单树，分别为单树101和单树102，单树是指一个独立的树结构，根据Claus Julisch对距离的定义，同一数据对象之间的距离为0，比如，(IP1，IPA)与(IPA，IPA)之间的距离为0；具有覆盖关系的数据对象之间的距离为它们之间相差的层数的和，比如(IP1，IPA)与(IP1，B网段)之间的距离为1，(IP1，IPA)与(A网段，B网段)之间的距离为2；不具有覆盖关系的数据对象之间的距离无定义，比如(IP2，B网段)与(IP1，B网段)之间的距离无定义，在这种方法中，针对树结构中的每个结点都有一个聚类距离，该聚类距离作为一种度量来表示该结点的各子结点之间相似或不相似的程度，距离大表示相似程度低，距离小表示相似程度高，如果一个父结点的距离大于表示相似程度的一个阈值，则这个父结点的子结点不能聚为一类；如果一个父结点的距离小于表示相似程度的一个阈值，则这个父结点中的子结点就能聚为一类；所以，一组数据能否聚为一类，即一个父结点能否作为其子结点的一个聚类，关键在于获得这组数据的聚类距离的大小，即该父结点的距离。另外，基于方法还有一相应的处理系统，图2为该系统的结构图，如图2所示，该系统204包括：子结点频率比例计算模块201、单树中的客观距离计算模块202和若干树中的客观距离计算模块203，其中子结点频率比例计算模块201获取子结点的频率比例，并将获取的子结点的频率比例输入到单树中的客观距离计算模块202中，单树中的客观距离计算模块获取单树中的客观距离，并将客观距离输入到若干树中的客观距离计算模块203中，若干树中的客观距离计算模块203获取若干树中的客观距离。

Claus Julisch提供的方法及其系统获取的聚类距离是一种客观距离，它没有考虑到管理员对聚类中数据的理解，事实上，管理员接收到一条聚类信息后，用这种方法及其系统获取聚类距离，而他根据历史记录或自己的经验和知识对这个类有自己的理解和解释，因此，可能导致细节信息的丢失。例如，假设一条聚类信息为(IP1，B网段，63)，它由3条基本信息合成得到：(IP1，IPA，10)，(IP1，IPB，50)，(IP1，IPC，3)，如图1所示，利用Claus Julisch提供的方法获取的该聚类信息的聚类距离为1，由于该聚类距离为客观的距离，所以不论管理员的理解为什么，该聚类信息的聚类距离始终为1。假如给定的阈值为0.8，则不论管理员的理解为什么，上述3条基本信息(IP1，IPA，10)，(IP1，IPB，50)，(IP1，IPC，3)始终能聚类成聚类信息(IP1，B网段，63)，如果他的理解为，B网段中的所有计算机处在相似重要的位置，所受到的攻击威胁几乎一致，由于上述的聚类距离为1，呈现给管理员的是聚类信息(IP1，B网段，63)，这样就会丢弃了细节信息(IP1，IPA，10)，(IP1，IPB，50)，(IP1，IPC，3)，使得聚类信息(IP1，B网段，63)掩盖了细节信息(IP1，IPA，10)，(IP1，IPB，50)，(IP1，IPC，3)，造成了管理员对数据的理解与数据实际状况的不一致；但如果管理员凭以往的经验以及历史记录知道B网段中的IPB计算机容易受到攻击，而且与其它两台机器相比差别很大，则上述的一条聚类信息在呈现给管理员时，即使掩盖了细节信息(IP1，IPA，10)，(IP1，IPB，50)，(IP1，IPC，3)，丢弃的信息也较少。

因此，利用上述Claus Julisch提供的方法获取的聚类距离，只反应了客观的聚类距离，没有考虑到管理员对聚类数据的理解，如果管理员的理解和客观的数据差距较大时，聚类信息就会掩盖实际的细节信息，从而造成了细节信息的丢失，不利于用户理解、掌握、和分析数据。

发明内容

有鉴于此，本发明的主要目的是提供一种获取聚类距离的方法及其系统，能够控制聚类的生成，从而减少因为聚类而造成的信息损失，使得用户对数据的理解与数据的真实面貌尽量一致，更加有利于用户理解、掌握和分析数据。

为了实现上述目的，本发明的技术方案具体是这样实现的：

一种获取聚类距离的方法，利用树结构获取当前数据对象集合的聚类距离，其特征在于，该方法包括以下步骤：

A、判断当前数据对象集合的聚类是否为单树中的聚类，如果是，则执行步骤B，否则，执行步骤C；

B、获取单树中的客观距离、以及根据单树中各结点的频率比率和信念概率获取单树的主观距离，将该客观距离和主观距离相加获取单树的综合距离，并将该综合距离作为当前数据对象集合的聚类距离，结束当前获取聚类距离流程；

C、分别获取每个单树中的客观距离、以及根据单树中各结点的频率比率和信念概率获取该单树的主观距离，将每个单树客观距离和主观距离相加获取各自的综合距离；

D、将步骤C中获取的每个单树的综合距离相加，将得到的和作为当前数据对象集合的聚类距离，结束当前获取聚类距离流程。

所述步骤B具体包括以下步骤：

a、在树结构中搜索出所述单树根结点的所有子孙结点，并进行分层；b、初始化所述单树根结点及其所有子孙结点的客观距离值、主观距离值以及频率值；c、把数据对象集合中每个数据对象的频率逐一更新到其定位的叶子结点的频率值中；d、设置游标，使其指向所述单树的倒数第二层；e、如果所述单树的根结点不在游标指向的层，则获取该层上每个非叶子结点的客观距离、以及根据该非叶子结点所包含的所有子结点的频率比率和信念概率获取主观距离，将该客观距离和主观距离分别更新到该非叶子结点的客观距离值和主观距离值中去，并将游标指向当前层的上一层，返回步骤e；否则，获取该单树根结点的客观距离、以及根据该根结点所包含的所有子结点的频率比率和信念概率获取主观距离，将该客观距离和主观距离分别更新到该单树根结点的客观距离值和主观距离值中，并将该客观距离值与主观距离值相加，得到单树的综合距离。

步骤e中所述的获取结点客观距离的具体步骤为：

e1、获取当前结点所有子结点的频率比率；

e2、根据结点所有子结点的频率比率和所述所有子结点所携带的客观距离值，获取所述所有子结点的客观距离的加权和；

e3、根据所述所有子结点的频率比率，获取所述各个子结点会聚到所述结点时的会聚客观距离；

e4、将步骤e2和步骤e3得到的值相加，得到的值为所述结点的客观距离。

步骤e中所述的获取结点主观距离的具体步骤为：

E1、获取所述结点所有子结点的频率比率f_i；

E2、获取单树中所有结点的信念概率b_i；

E3、根据该结点所有子结点的频率比率f_i和所述各个子结点所携带的主观距离值，获取所述所有子结点的主观距离的加权和；

E4、根据

e_{add} = \sqrt{\frac{Σ_{i = 1}^{m} {(f_{i} - b_{i})}^{2}}{m}}

获取该结点各个子结点会聚到该结点时的会聚主观距离e_add；

E5、将步骤E3得到的值与步骤E4得到的e_add相加，得到的值为所述结点的主观距离。

步骤E2中所述获取单树中所有结点的信念概率的过程具体包括以下步骤：

E21、判断是否需自动获取信念概率，如果是，则执行步骤E22；否则，执行步骤E27；

E22、判断是根据树结构和历史数据合成的方法计算信念概率，还是单独使用其中一种方式，如果用户选择合成的方式，则执行步骤E23；否则执行步骤E24；

E23、根据树结构获取所述结点的信念概率，根据历史数据获取所述结点的信念概率，并根据输入的对两个信念概率的权值，求得加权和作为该结点的综合信念概率，执行步骤E27；

E24、判断是采用树结构的方式计算信念概率还是采用历史数据的方式，如果采用树结构的方式，则执行步骤E25；否则，执行步骤E26；

E25、根据树结构获取所述结点的信念概率，执行步骤E27；

E26、根据历史数据获取所述结点的信念概率，执行步骤E27；

E27、判断是否要对获取的信念概率进行编辑，如果是，则编辑信念概率；否则，结束当前获取信念概率流程。

步骤E23和步骤E25中所述的根据树结构获取所述单树中所有结点的信念概率的具体步骤为：

1)将所述结点中的每个叶子结点的频率值设置为1，非叶子结点的频率值设置为0；

2)设置游标，使其指向所述单树的倒数第二层；

3)对于游标所指层的每个非叶子结点，将其所有子结点的频率值之和作为该非叶子结点的频率值，如果所述单树的根结点不在游标指向的层，则将游标指向当前层的上一层，返回步骤3)；否则，执行步骤4)；

4)获取所述单树中每个结点的信念概率，如果该结点为根结点，则该结点的信念概率为1；否则该结点的信念概率为：该结点自身的频率值与该结点的父结点的频率值之比。

步骤E23和步骤E26中所述的根据历史数据获取所述单树所有结点的信念概率的具体步骤为：

(1)确定选取的历史数据的开始和截止时间；

(2)把单树结构中的每个结点的频率值设置为0；

(3)读取数据库中的每一条历史数据，把历史数据的频率值更新到所述单树中的叶子结点的频率值中；

(4)设置游标，使其指向所述单树的倒数第二层；

(6)对于游标所指层的每一个非叶子结点，把该非叶子结点的所有子结点的频率值之和作为该非叶子结点的频率值，如果所述单树的根结点不在游标指向的层，则将游标指向当前层的上一层，返回步骤(6)；否则，执行步骤(7)；

(7)获取所述单树中每个结点的信念概率，如果该结点为根结点，则该结点的信念概率为1；否则，该结点的信念概率为：该结点自身的频率值与该结点的父结点的频率值之比。

所述的方法在步骤D之后，进一步包括：用步骤B或步骤D中获取的聚类距离替代该结点原有的聚类距离。

一种获取聚类距离的系统，该系统包括子结点频率比例计算模块，其特征在于，该系统还包括：信息概率获取综合模块、数据对象在树结构中的客观距离一次积累模块、数据对象在树结构中的主观距离一次积累模块、单棵树中综合距离计算模块和若干棵树中的综合距离计算模块，其中：

子结点频率比例计算模块接收子结点的数目和各个子结点的出现频率，获取子结点的频率比例，并将获取的子结点的频率比例输出到信息概率获取综合模块、数据对象在树结构中的客观距离一次积累模块、数据对象在树结构中的主观距离一次积累模块和单棵树中综合的距离计算模块中；

信息概率获取综合模块获取树结构中每个结点的信念概率，并将获取的信念概率输入到数据对象在树结构中的主观距离一次积累模块中；

数据对象在树结构中的主观距离一次积累模块，根据每个父结点所有子结点的频率比率和信念概率获取各自的主观距离，并将获取的主观距离输入到单棵树中的综合距离计算模块中；

数据对象在树结构中的客观距离一次积累模块获取单树中每个父结点的客观距离，并将获取的客观距离输入到单棵树中的综合距离计算模块中；

单棵树中的综合距离计算模块，将收到的作为根结点的父结点的主观距离和客观距离相加获取单棵树中的综合距离，并将获取的综合距离输入到若干棵树中的综合距离计算模块中；

若干棵树中的综合距离计算模块获取若干棵树中的综合距离，该综合距离为聚类距离。

所述的信念概率获取综合模块还包括：从历史数据中获取信念概率的模块、根据树结构自动获取信念概率的模块和获取人工输入信念概率的模块，其中，从历史数据中获取信念概率的模块接收子结点频率比例计算模块输出的子结点频率比例。

所述的系统还包括聚类控制模块，该模块接收若干棵树中的综合距离计算模块输出的综合距离，并用该综合距离替换该树结构原有的客观距离。

由于本发明所述的方法及其系统基于信念概率的概念模型，把数据的真实面貌与用户对数据形态理解的差异作为主观距离，并将主观距离和客观距离相结合，得到综合距离，用综合距离表示聚类距离，并控制聚类的生成，从而能够减少因为聚类而造成的信息损失，使得用户对数据的理解与数据的真实面貌尽量一致，更加有利于用户理解、掌握和分析数据。

附图说明

图1为一种数据对象树结构图；

图2为现有的获取聚类距离系统的结构图；

图3为本发明实施例的树结构图；

图4为本发明所述的方法获取单树中综合距离的流程图；

图5为本发明所述系统的结构图。

具体实施方式

下面结合附图和具体实施例对本发明再作进一步详细的说明。

图3所示为本实施例的树结构图，在图3中，有两个树结构，树结构1有三层，并以源地址作为该树结构的根结点，源地址的子结点包括：SA网段、SB网段和SC网段，其中，SA网段包括两个子结点，分别为IP1和IP2；SB网段包括一个子结点IP3；SC网段包括两个子结点，分别为IP4和IP5。树结构2也有三层，并以目的地址作为该树结构的根结点，目的地址的子结点包括：DA网段、DB网段和DC网段，其中，DA网段包括子结点IPD；DB网段包括三个子结点，分别为IPA、IPB和IPC；DC网段包括两个子结点，分别为IPE和IPF。树结构1和树结构2中，处于最底层的结点为叶子结点。在本实施例中，给出了一组数据对象，如表1所示：

数据对象	出现频率
数据对象	出现频率	IP1，IPD	2
IP1，IPA	3	IP1，IPD	2
IP1，IPA	3	IP1，IPC	5
IP2，IPB	4	IP1，IPC	5
IP2，IPB	4	IP2，IPD	1

表1

为了对该组数据对象进行聚类，首先要获取该组数据对象的聚类距离，本发明所述方法获取聚类距离的总体思想为：

判断数据对象集合的聚类是否为单树中的聚类，单树是指一个独立的树结构，如果是，则获取单树中的综合距离；否则，获取每个单树中的综合距离，再将每个单树的综合距离相加，将得到的和作为数据对象集合的综合距离，这个综合距离就是聚类距离；

在本实施例中，表1中所示的数据在图3中的树结构中的最小覆盖为(SA网段，目标地址，15)，因此，本组数据对象集合为两个单树中的聚类，这两个单树的根结点分别为SA网段和目标地址，接下来分别获取每个单树的综合距离，此处，首先获取根结点为目标地址的单树中的综合距离，图4为获取单树中综合距离的流程图，如图4所示，具体步骤如下：

A、在树结构中搜索出所述单树根结点的所有子孙结点，并进行分层，如图3所示，该单树分为三层，并以目的地址作为该树结构的根结点，目的地址的子结点包括：DA网段、DB网段和DC网段，其中，DA网段包括子结点IPD；DB网段包括三个子结点，分别为IPA、IPB和IPC；DC网段包括两个子结点，分别为IPE和IPF。在该单树结构中，处于最底层的结点IPA、IPB、IPC、IPD、IPE和IPF为叶子结点；

B、把所述的单树根结点目标地址及其所有的子孙结点：DA网段、DB网段、DC网段、IPA、IPB、IPC、IPD、IPE和IPF的客观距离值、主观距离值以及频率值设置为0.0；并把数据对象集合中的每个数据对象的出现频率逐一更新到其定位的叶子结点的频率值中；

C、设置游标，使其指向所述单树的倒数第二层；

D、判断根结点是否在游标指向的当前层，如果是，执行步骤G，否则，执行步骤E；

E、此时，根结点目标地址不在游标指向的层，获取该层上的每一个非叶子结点的客观距离和主观距离，在此层中，非叶子结点为DA网段、DB网段和DC网段，此处以获取DB网段的客观距离为例说明客观距离的获取方法。

获取客观距离的方法为：

E11、根据式1)获取DB网段所有子结点IPA、IPB和IPC的频率比率：

f_{i} = \{\begin{matrix} \frac{F_{i}}{T} & T > 0 \\ \frac{1}{m} & T = 0 \end{matrix}, i = 0,1, . . ., m - - - 1)

式1)中，f_i为所述各个子结点的频率比率，F_i为各个子结点出现的频率，T为各个子结点出现频率的总和，也是父结点的出现频率，m为父结点拥有的子结点的数目，由于IPA、IPB、IPC三个子结点的频率分别为3，4，5，因此DB网段的频率为12，各个子结点PA、IPB、IPC的频率比例为0.25∶0.333∶0.417；

E12、根据式2)获取子结点IPA、IPB、IPC的客观距离的加权和：

d_{sum} = Σ_{i = 1}^{m} f_{i} \times d_{i} - - - 2)

式2)中，d_sum为各子结点客观距离的加权和；f_i为各个子结点的频率比率，d_i为各个子结点所携带的客观距离值，m为父结点拥有的子结点的数目，由于子结点IPA、IPB、IPC都是叶子结点，所以，它们携带的客观距离值为0，因此，它们的客观距离的加权和为0；

E13、根据式3)获取子结点IPA、IPB、IPC会聚到父结点DB网段的会聚客观距离：

d_{add} = Σ_{i = 1}^{m} f_{i} \times 1 - - - 3)

式3)中，d_add为会聚客观距离，由于每个子结点IPA、IPB、IPC到父结点DB网段的客观距离总为1，所以该会聚客观距离d_add为1；

E14、将步骤E12得到的客观距离的加权和与步骤E13得到的会聚客观距离相加，得到的值为父结点DB网段的客观距离，其值为1；

父结点DA网段和DC网段的客观距离的获取方法和上述步骤一样，根据上述步骤得到父结点DA网段的客观距离为：1，父结点DC网段的客观距离为：1；

接下来获取父结点DB网段的主观距离，其步骤为：

E21、获取所述结点所有子结点IPA、IPB、IPC的频率比率，其方法和步骤E11中所述方法一样，各个子结点PA、IPB、IPC的频率比例为0.25∶0.333∶0.417；

E22、获取该单树中所有结点的信念概率，本实施例中，根据人工输入的方式获取信念概率，即用人工输入的方式编辑和修改信念概率，假设某个结点K有m个子结点，有两种输入方式：直接输入比例的方式和输入相对数值的方式。

如果用户选择直接输入比例的方式，则首先提示用户直接输入前m-1个子结点的信念概率，前m-1个子结点的信念概率值和必须小于或等于1；然后，对最后一个子结点的信念概率无需计算，因为它不是独立的，它的值等于1减去前面m-1个子结点的信念概率值和。

如果用户选择输入相对数值的方式，则首先提示用户输入每个结点的相对数值，然后求和，每个子结点的信念概率等于该结点的相对数值与总和的比。

管理员根据自己的经验输入相关结点的信念概率值，此处假设管理员认为IPA出现的频率比IPB和IPC出现的频率高的多，DC网段出现的频率比DA网段和DB网段出现的频率多，且他输入的IPA、IPB和IPC的信念概率为：0.98、0.01、0.01；IPD的信念概率为1；IPE和IPF的信念概率为：0∶0；DA网段、DB网段和DC网段的信念概率为：0.1、0.1、0.8；

E23、根据式4)获取所述子结点的主观距离的加权和

e_{sum} = Σ_{i = 1}^{m} f_{i} \times e_{i} - - - 4)

其中，e_sum为所述子结点主观距离的加权和，e_i为所述子结点携带的主观距离，因为，子结点IPA、IPB、IPC携带的主观距离都为0，所以，所述子结点的主观距离的加权和为0。

E24、根据式5)获取子结点IPA、IPB、IPC会聚到父结点DB网段时的会聚主观距离：

e_{add} = \sqrt{\frac{Σ_{i = 1}^{m} {(f_{i} - b_{i})}^{2}}{m}} - - - 5)

式5)中，e_add为所述子结点会聚到父结点DB网段时的会聚主观距离，b_i为各个子结点的信念概率，该主观距离为：

e_add＝(((0.98-0.25)²+(0.01-0.333)²+(0.01-0.417)²)/3)^1/2＝0.5173；

E25、将步骤E23得到的e_sum与步骤E24得到的e_add相加，得到的值为父结点DB网段的主观距离e_parent＝e_sum+e_add＝0+0.5173＝0.5173。

父结点DA网段和DC网段的主观距离的获取方法和上述步骤一样，根据上述步骤得到父结点DA网段的主观距离为：0+(((1.0-1.0)²)/2)^1/2＝0，父结点DC网段的主观距离为：0+0＝0；

F、将该客观距离和主观距离分别更新到该非叶子结点的客观距离值和主观距离值中去，并将游标指向当前层的上一层，返回步骤D；

G、此时，单树根结点目标地址在游标指向的当前层，所以，获取该单树根结点目标地址的客观距离和主观距离，获取方法与上述获取客观距离和主观距离的方法一样，只不过此时的父结点为目标地址，子结点为DA网段、DB网段和DC网段，具体的获取过程如下：

首先获取客观距离，DA网段，DB网段，和DC网段的出现频率分别为3，12，0，因此，结点“目标地址”的出现频率为3+12+0＝15。所以，各个子结点的频率比例为0.2∶0.8∶0。结点“目标地址”的客观距离由两部分构成：其一是各个子结点DA网段、DB网段、和DC网段自身携带的距离(1，1，1)的加权和；其二是各个子结点会聚到父结点目标地址时的会聚距离。对于第一部分，获得其加权和：1*0.2+1*0.8+0*1＝1.0；对于第二部分，会聚距离为1*0.2+1*0.8+1*0＝1.0。因此，父结点目标地址的客观距离为1.0+1.0＝2.0。这个结果与Claus Julisch定义的距离计算结果是相同的。

再获得主观距离：主观距离也分两部分，第一部分，获取各个子结点积累的主观距离的加权和，其中各个子结点的频率比例为3∶12∶0＝0.2∶0.8∶0，因此，加权和为0.2*0.0+0.8*0.5173+0.0*0.0＝0.4139；第二部分，获取子结点会聚成父结点目标地址时的会聚主观距离，由于各个子结点的信念概率比例为0.1∶0.1∶0.8，因此，该会聚主观距离为(((0.1-0.2)²+(0.1-0.8)²+(0.8-0.0)²)/3)^1/2＝0.6164，所以，根结点目标地址的主观距离为：0.4239+0.6164＝1.0403。

H、将获取的客观距离和主观距离分别更新到目标地址的客观距离值和主观距离值中去，并将该客观距离值与主观距离值相加，得到的值为单树的综合距离，该单树的综合距离为：2+1.0403＝3.0403。

获取以SA网段为根结点的单树的综合距离的方法和上述步骤相似，在此不再鳌述，依照上述方法，最后获得的以SA网段为根结点的单树的综合距离为：1.236。

最后把获取的两个单树的综合距离相加，将得到的和作为数据对象集合的聚类距离，该聚合距离为：4.7263。

利用Claus Julisch的方法获取上述表1中数据对象集合的聚合距离为：3，该距离为一客观距离，如果设定的阈值为3.5，因为客观距离小于阈值，所以可以将表1中所述的数据对象集合聚类为(SA网段，目标地址，15)呈现在管理员面前，但是，由于管理员理解的细节信息的与实际的细节信息严重不符，这就造成了细节信息的损失；而利用本发明所述的方法把表1中数据的真实面貌与用户对数据形态的理解的差异作为主观距离，并把这个主观距离和树结构中聚类的客观距离相结合，从而获取一个综合距离4.7263，该距离远大于阈值3.5，所以表1中的数据不能聚合为(SA网段，目标地址，15)，呈现给管理员的还是表1中的数据，这就不会造成细节信息的损失，管理员也可根据表1中的细节信息改变对数据的原有理解。

本实施例中，在步骤E22中利用人工输入的方式获取所述单树中所有结点的信念概率，而本发明还可以根据历史数据获取所述单树所有结点的信念概率，具体步骤为：

(1)确定选取的历史数据的开始和截止时间；

(2)把单树结构中的每个结点的频率值设置为0；

(4)设置游标，使其指向所述单树的倒数第二层；

(5)对于游标所指层的每一个非叶子结点，把该非叶子结点的所有子结点的频率值之和作为该非叶子结点的频率值，并判断所述单树的根结点是否在游标指向的层，如果是，则执行步骤(6)，否则，将游标指向当前层的上一层，返回步骤(5)；

(6)获取所述单树中的每一个结点的信念概率，如果该结点为根结点，则该结点的信念概率为1；否则，该结点的信念概率为：该结点自身的频率值与该结点的父结点的频率值之比。

下面以上述的表1中的数据对象为例对根据历史数据获取所述单树所有结点的信念概率的过程加以说明：假设根据用户给定的起始时间和截止时间之间，共有5条历史纪录，如表1所示，首先根据历史数据获取各个结点的频率，在图3的根结点为目标地址的单树种，最下层的5个叶子结点的频率分别为10，5，0，0，0，第二层的三个结点“SA网段”，“SB网段”，“SC网段”的频率分别为15，0，0，而根结点“源地址”的频率为15。根据所有结点的频率，可以得到处在同一个结点的子结点位置上各个子结点的频率比例，由此可以得出信念概率。例如，由与子结点“IP1”和“IP2”在历史数据中的频率分别为10和5，因此它们的信念概率分别为0.333和0.667。获取单树中叶子结点的频率比率，

本发明还可以根据树结构获取所述单树中所有结点的信念概率，其获取方法如以下步骤：

1)把所述结点中的每个叶子结点的频率值设置为1，非叶子结点的频率值设置为0；

2)设置游标，使其指向所述单树的倒数第二层；

3)对于游标所指层的每一个非叶子结点，把它的所有的子结点的频率值之和作为该非叶子结点的频率值，如果所述单树的根结点不在游标指向的层，则将游标指向当前层的上一层，返回步骤3)；否则，执行步骤4)；

4)获取所述单树中的每一个结点的信念概率，如果该结点为根结点，则该结点的信念概率为1；否则该结点的信念概率为：该结点自身的频率值与该结点的父结点的频率值之比。

另外，本发明还可把以上三种获取结点信念概率的方法综合起来，得到一种综合的方法，具体包括以下步骤：

1、判断是否需自动获取信念概率，如果是，则执行步骤2；否则，执行步骤7；

2、判断是根据树结构和历史数据合成的方式计算信念概率，还是单独使用其中一种方式，如果用户选择合成的方式，则执行步骤3；否则执行步骤4；

3、根据树结构获取所述结点的信念概率，根据历史数据获取所述结点的信念概率，并根据输入的对两个信念概率的权值，求得加权和作为该结点的综合信念概率，执行步骤7；

4、判断是采用树结构的方式计算信念概率还是采用历史数据的方式，如果采用树结构的方式，则执行步骤5；否则，执行步骤6；

5、根据树结构获取所述结点的信念概率，执行步骤7；

6、根据历史数据获取所述结点的信念概率，执行步骤7；

7、判断是否要对获取的信念概率进行编辑，如果是，则编辑信念概率；否则，结束信念概率的获取流程。

基于上述的方法，本发明还公开了一种获取聚类距离的系统，图5为该系统的结构图，如图5所示，该系统511包括子结点频率比例计算模块501、信息概率获取综合模块502、数据对象在树结构中的客观距离一次积累模块503、数据对象在树结构中的主观距离一次积累模块504、单棵树中综合距离计算模块505、若干棵树中的综合距离计算模块506和聚类控制模块507，其中：

子结点频率比例计算模块501接收子结点的数目和各个子结点的出现频率，获取子结点的频率比例，并将获取的子结点的频率比例输出到信息概率获取综合模块502、数据对象在树结构中的客观距离一次积累模块503、数据对象在树结构中的主观距离一次积累模块504和单棵树中综合的距离计算模块505中；

信息概率获取综合模块502获取树结构中各个结点的信念概率，并将获取的信念概率输入到数据对象在树结构中的主观距离一次积累模块504中；

数据对象在树结构中的主观距离一次积累模块504获取单树中各个父结点的主观距离，并将获取的主观距离输入到单棵树中的综合距离计算模块505中；

数据对象在树结构中的客观距离一次积累模块503获取单树中各个父结点的客观距离，并将获取的客观距离输入到单棵树中的综合距离计算模块505中；

单棵树中的综合距离计算模块505获取单棵树中的综合距离，并将获取的综合距离输入到若干棵树中的综合距离计算模块506中；

若干棵树中的综合距离计算模块506获取若干棵树中的综合距离，该综合距离为聚类距离；

聚类控制模块507接收若干棵树中的综合距离计算模块输出的综合距离，并用该综合距离替换原有的客观距离。

上述的信念概率获取综合模块还包括：从历史数据中获取信念概率的模块508、根据树结构自动获取信念概率的模块509和获取人工输入信念概率的模块510，其中，从历史数据中获取信念概率的模块508接收子结点频率比例计算模块输出的子结点频率比例。

虽然本发明所述方法及其系统的对象是在树结构中聚类的过程，但这种方法在类似的聚类过程中同样有效。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1、一种获取聚类距离的方法，利用树结构获取当前数据对象集合的聚类距离，其特征在于，该方法包括以下步骤：

2、如权利要求1所述的方法，其特征在于，所述步骤B具体包括以下步骤：

a、在树结构中搜索出所述单树根结点的所有子孙结点，并进行分层；

b、初始化所述单树根结点及其所有子孙结点的客观距离值、主观距离值以及频率值；

c、把数据对象集合中每个数据对象的频率逐一更新到其定位的叶子结点的频率值中；

d、设置游标，使其指向所述单树的倒数第二层；

e、如果所述单树的根结点不在游标指向的层，则获取该层上每个非叶子结点的客观距离、以及根据该非叶子结点所包含的所有子结点的频率比率和信念概率获取主观距离，将该客观距离和主观距离分别更新到该非叶子结点的客观距离值和主观距离值中去，并将游标指向当前层的上一层，返回步骤e；否则，获取该单树根结点的客观距离、以及根据该根结点所包含的所有子结点的频率比率和信念概率获取主观距离，将该客观距离和主观距离分别更新到该单树根结点的客观距离值和主观距离值中，并将该客观距离值与主观距离值相加，得到单树的综合距离。

3、如权利要求2所述的方法，其特征在于，步骤e中所述的获取结点客观距离的具体步骤为：

e1、获取当前结点所有子结点的频率比率；

4、如权利要求2所述的方法，其特征在于，步骤e中所述的获取结点主观距离的具体步骤为：

E1、获取所述结点所有子结点的频率比率f_i；

E2、获取单树中所有结点的信念概率b_i；

E4、根据

e_{add} = \sqrt{\frac{Σ_{i = 1}^{m} {(f_{i} - b_{i})}^{2}}{m}}

5、如权利要求4所述的方法，其特征在于，步骤E2中所述获取单树中所有结点的信念概率的过程具体包括以下步骤：

E25、根据树结构获取所述结点的信念概率，执行步骤E27；

E26、根据历史数据获取所述结点的信念概率，执行步骤E27；

6、如权利要求5所述的方法，其特征在于，步骤E23和步骤E25中所述的根据树结构获取所述单树中所有结点的信念概率的具体步骤为：

2)设置游标，使其指向所述单树的倒数第二层；

7、如权利要求5所述的方法，其特征在于，步骤E23和步骤E26中所述的根据历史数据获取所述单树所有结点的信念概率的具体步骤为：

(1)确定选取的历史数据的开始和截止时间；

(2)把单树结构中的每个结点的频率值设置为0；

(4)设置游标，使其指向所述单树的倒数第二层；

8、如权利要求1所述的方法，其特征在于，所述的方法在步骤D之后，进一步包括：用步骤B或步骤D中获取的聚类距离替代该结点原有的聚类距离。

9、一种获取聚类距离的系统，该系统包括子结点频率比例计算模块，其特征在于，该系统还包括：信息概率获取综合模块、数据对象在树结构中的客观距离一次积累模块、数据对象在树结构中的主观距离一次积累模块、单棵树中综合距离计算模块和若干棵树中的综合距离计算模块，其中：

10、如权利要求9所述的系统，其特征在于，所述的信念概率获取综合模块还包括：从历史数据中获取信念概率的模块、根据树结构自动获取信念概率的模块和获取人工输入信念概率的模块，其中，从历史数据中获取信念概率的模块接收子结点频率比例计算模块输出的子结点频率比例。

11、如权利要求9所述的系统，其特征在于，所述的系统还包括聚类控制模块，该模块接收若干棵树中的综合距离计算模块输出的综合距离，并用该综合距离替换该树结构原有的客观距离。