CN101410831A

CN101410831A - 对于对象的顺序稳定的分类的线性无监督方法

Info

Publication number: CN101410831A
Application number: CNA2006800528444A
Authority: CN
Inventors: J·阿-派因; H·本哈达; J·勒穆瓦纳
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2005-12-16
Filing date: 2006-12-14
Publication date: 2009-04-15
Anticipated expiration: 2026-12-14
Also published as: WO2007068741A1; US8423549B2; FR2895110A1; US20090287723A1; FR2895110B1; CN101410831B; EP1960916A1

Abstract

一种线性无监督分类方法，其允许将对象和描述符所组成的数据库结构化，该方法对于所述对象的顺序是稳定的，所述方法包括一初始步骤，该初始步骤将定性的、定量的或者文本的数据变换成为存在－不存在二元数据，所述方法特征在于其包括至少下述步骤：确定关于所述待分类对象之间n²个一致性的结构阈值α_s函数，该结构阈值定义了适用于所述数据的优化准则，使用所述描述符作为类别的划分或集合的结构化和构造生成器，将生成器生成的类别与划分逐步地合并(40、41、42)，对于涉及函数f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)的优化准则，对Minimum函数的和进行线性化。

Description

对于对象的顺序稳定的分类的线性无监督方法

本发明涉及对于对象的顺序稳定的线性无监督分类方法。

其更一般地涉及称为术语“聚类”的自动分类技术。

在大型数据库中，其特别地被使用在无预先假设的“知识发现”的“数据挖掘”和“文本挖掘”领域。这种数据可以是例如处理行为的或人口统计的数据时的有结构类型，或者是处理文本数据时的无结构类型。

从一组由m个描述符(或变量)描述的一组(或种群)n个对象组成的数据库开始，自动分类在于对这些对象以非常均匀的类别(或群)的形式进行结构化。均匀性表示同一类别的两个对象必须比属于两个不同类别的两个对象彼此更加相似(或类似)。

取决于数据是有结构的还是无结构类型，这些类别的构成将允许具有相似概要特征或主题的对象的群被容易地探测到。

若通过精确的方法求解，这个问题的排列与组合太多。由于这个原因，为了找到这个问题近似解，已经出现了在处理时间和机器资源方面代价较少的启发式算法。

这些启发式算法中的某一些通过任意地固定类别的数量来给出解，而其他的提出具有可变数量类别的划分的层次。

例如，可能提及下列启发式算法：

·“移动中心”类型的方法，比如“k均值”，动态聚类，等等......

·层次分类的方法(增加的或者减少的)

·“第一领导者(leader)”类型的方法等等

下列参考文献给出了各种无监督分类方法的实例：1)Saporta G.(1990)，Probabilités，Analyse de données et Statistique(概率，数据分析与统计)，Technip；2)Lebart and al(1995)，Statistique exploratoire multidimensionnelle(多维探索统计)，Dunod；3)Hartigan，J.(1975)，Clustering Algorithms(聚类算法)，John Wiley and Sons，New York，NY，US。

“移动中心”和层次分类类型的方法任意地固定类别的数量。另一方面，“第一领导者”类型的方法要求固定一相似性阈值并且依赖于被考虑对象的顺序。实际上，取决于对象排定的顺序，他们可能产生完全不同的结果。不过，他们允许在合理的时间内能够处理大量的数据。然而，为了获得该性能，这些方法要求类别的最大数量被固定在相对于对象数量非常小的数量。

其中，处理自动分类主题遇到的主要问题可能涉及：

·所讨论种群中类别数量的确定；

·就取决于待处理的数量多少的处理时间而言和所得到类别的均匀性质量而言的性能；

·解释所得结果的能力：测量类别的均匀性的统计指示符的定义，以及参加这些类别构成的描述符的区分能力。

本发明的思想特别地以关联分析理论为根据。作为提醒，该理论在如下列参考文献中得到描述：1)P.Michaud and JF Marcotorchino，“Modèlesd′optimisation en analyse de données relationnelles”(关联数据分析中的优化模型)，Mathématiques et Sciences Humaines n°67，1979，p7-38；2：JFMarcotorchino and P Michaud，“Agrégation de similarités en classificationautomatique”(自动分类中的相似性聚合)，Revue def statistique appliquée，Vol30，n°2，1981。该理论为与固定类别数量和解释所得结果相关的问题提供解决方案。但是，每当对象的数量超过100时，所依据的理论模型会产生很大的机器资源成本。本发明使用这个理论的启发式方法，其使得大的数据库的理论结果能够非常接近地被近似。

本发明涉及一种线性无监督分类的方法，其允许对由对象和描述符组成的数据库进行结构化，该方法对于对象的顺序是稳定的，该方法包括将定性的、定量的或者文本的数据转换成存在-不存在的二元数据的初始步骤，其特征在于其至少包括下列步骤：

a)确定被分类的对象之间n²个一致性的结构阈值α_s函数，该结构阈值定义了适合于数据的优化准则，

b)使用描述符作为类别的划分P或者类别的集合的结构化与构造生成器，

c)将生成器生成的类别与划分逐步地合并(40、41、42)，

d)对于涉及函数f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)的优化准则，将Minimum函数的和进行线性化。

该方法可以包括在一个划分中的多个类别自身之间重新组合的步骤。

例如，合并步骤c)包括一个步骤，其基于两个相交的类，从下列4项中确定最佳的操作(按照优化准则)：

·“拆分”第一个类别并组成两个类别；

·“拆分”第二个类别并组成两个类别；

·“拆分”两个类别以组成三个类别；

·将两个相交的类别合并以组成一个单个的类别。

例如，对一个划分的多个类别的重新组合在数个层次级别上执行，并包括下列步骤：

·在每个级别减少结构阈值的数值，使得弱的负贡献变成正的，

·将所组成的多个类别之间的连接值最大化，其中该连接值通过使用一对对象的贡献来确定：

Link (C_{q}, C_{q^{'}}) = \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; C q^{'}}{Σ} Contri b_{{ii}^{'}} = \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; C q^{'}}{Σ} (C_{{ii}^{'}} - α^{'} \times f (C_{ii}, C_{i^{'} i^{'}}))

其中α′为α的新的值，

·合并连接值为正的两个类，并在所有级别重复这个过程。

本发明还涉及用于进行线性无监督分类的设备，其允许对由对象和描述符组成的数据库进行结构化，该分类对于对象的顺序是稳定的，该分类包括将定性的、定量的或者文本的数据转换成存在-不存在的二元数据的初始步骤，该设备特征在于其至少包括下列部件：包括存储器、数据库以及处理器的计算机，其被设计用来实现显示上述特征之一的方法的步骤。

本发明显著地具有下列优点：

·在分类过程中自动探测类别数量的能力，

·在合理数量的时间内处理大量数据的能力，

·其对于数据库中对象顺序的独立性。本发明对于对象的处理顺序自然地是稳定的，

·本方法允许测量所获结果质量的指示符非常快速地定义并被计算(线性复杂度)，

·本方法对于对象的复制是稳定的。换言之，如果数据库被数次复制，可以就相同类别中被复制的对象来恢复同样的初始的解。

本发明的其他特性和优点将随着阅读本说明书而变得更为明显，其所附的附图所示为：

·图1是支持根据本发明的方法的系统的一般系统的框图，

·图2是描述应用于文档语料库或数值数据库的数据挖掘领域的处理链的一般操作的流程框图，

·图3是示出在预处理阶段中的步骤的流程框图，该阶段在自动分类过程的初期执行，

·图4是示出组成本发明方法的步骤的顺序的流程框图，

·图5是详细说明在图4中的处理41期间执行各种操作的流程框图，

·图6是确定来自两个相交类别的最优本地划分(分成一个、两个或三个类别)的基本操作，

·图7是在图6中描述的基本操作期间所计算的量，

·图8是示出类别的层次组织过程中的步骤的流程框图。

图1给出根据本发明的方法的应用实例的非限制性说明，其允许自动生成将基于分类结果来实现的各种动作。

运行所述方法的系统包括，例如包括存储器2和与分类5的过程相关联的处理器3的计算机1。计算机1与数据库4通信。举例来说，分类的结果以类别集合的形式存储于适合的器件6中。举例来说，器件6与例如电子邮件交换服务器7通信。服务器具有本领域的技术人员所共知的、用于处理接收到的类别信息，以及用于向所讨论的类别中的个体发送消息的潜在触发机制的处理装置。

可以使用任何能够进行作为分类结果的函数而进行或控制的动作的设备。

下面的说明通过示例的方式，在计算机程序中的可执行指令的普通上下文中给出，例如在计算机或任何其他计算设备上运行的程序模块。本发明可以在任何种类的计算机、PDA等等上实现。

在图2中，起始点可以是任何给定的数据库(由一组数值变量描述的个体的集合)或任何给定的文档语料库。这两类数据分别由圆形框20和25表示。

在数值数据情形下，可以存在由常规统计处理操作组成的任选的预处理阶段21，比如对数据的中心化或简化，或其它的转换等等。这些处理操作得出数据表格22。这个表格构成信息分析过程23的来源。

对于文件语料库，在预处理阶段26过程中，每个文本被转换成向量，其维数对应于经语言学上的处理而获得的描述符，该过程可以是词法-语法分析、概念抽取、共现(co-occurrence)抽取、语言学的或语义处理操作等等。所获得的存在-不存在(二元)或频率矩阵27，其构成处理操作的来源，由方框23表示。

方框23特别地对应于数据处理和分析阶段。这些处理操作可以是数个类型的(监督分类、无监督分类、统计“计分”、回归等等)。本发明的范围涉及数据的无监督分类，也称为自动分类或“聚类”。本发明特别地涉及无监督分类过程，取决于初始数据类型，其结果是例如对象24或的文档28的层次化划分。

图3中的输入数据以表格T(22或27)的形式(分别表示数值数据的情形和文件语料库的情形)，跨越由n个对象O₁，O₂，...，O_n(个体或文档)组成的集合I和由m个在I上测量的变量(或描述符)V¹，V²，...，V^m组成的集合V。

I＝{O₁，O₂，...，O_n}

V＝{V¹，V²，...，V^m}

表格T具有作为其一般项的t_ik，其代表变量V_k在对象O_i上所取的值，并具有下列形式：

T = \{\begin{matrix} t_{11} & . . . & t_{1 k} & . . . & t_{1 m} \\ . & . & . \\ . & . . . & . & . . . & . \\ . & . & . \\ t_{i 1} & . . . & t_{ik} & . . . & t_{im} \\ . & . & . \\ . & . . . & . & . . . & . \\ . & . & . \\ t_{n 1} & . . . & t_{nk} & . . . & t_{nm} \end{matrix}\}

输入数据的一般项t_ik表示：

·在定性变量的情形下，对象i所取的变量k的模态(modality)，

·在定量变量的情形下，对象i所取的变量k的值，

·在文本数据的情形下，文档i中的词汇单元k的存在或不存在。

在定性和定量数据情形下，该方法将下文所描述的重编码操作30应用到该表格，例如定量变量的离散化或将定性变量重编码为存在/不存在描述符。定性和定量变量被转换成将组为存在-不存在表格K的二元变量。

在定性变量情形下，举例来说，该转换在于将模态重编码为存在-不存在描述符向量。

对于定量变量，离散化在于将定量变量转换成每个模态对应于一个区间的定性变量。举例来说，令定量变量“尺寸”以厘米表示并且在一组个体上测量得到。假设在所讨论的种群中构成种群的个体的尺寸在140厘米和210厘米之间的范围内，一个可能的离散化是将变量划分到下列三个区间[140，160[:[160，180[:[180，210]。然后这三个区间分别对应于下列三个模态：小、中和大。因此，经过离散化，例如尺寸为175厘米的个体将具有的模态为中。

具有经过这些转换后获得的具有一般项k_ij的表格K(31)表现为下列形式：

K = \{\begin{matrix} k_{11} & . . . & k_{1 j} & . . . & k_{1 p} \\ . & . & . \\ . & . . . & . & . . . & . \\ . & . & . \\ k_{i 1} & . . . & k_{ij} & . . . & k_{ip} \\ . & . & . \\ . & . . . & . & . . . & . \\ . & . & . \\ k_{n 1} & . . . & k_{nj} & . . . & k_{np} \end{matrix}\}

它的一般项k_ij，取决于变量初始是定性变量还是定量变量，可能有两个含义：

在定性变量的情形下，k_ij具有下列定义：

在定量变量的情形下，k_ij具有下列定义：

在文本数据的情形下，不存在重编码步骤，因为在预处理步骤26之后，存在-不存在二元表格已经获得K，其一般项k_ij具有含义：

表格T的每个变量，无论其是定性的或定量的，将生成数个存在-不存在描述符向量。当然地，表格T和K具有不同的维数。

考虑变量“SPC”(Socio-Professional Category，社会-专业类别)并假设存在四个个体(I1，I2，I3，I4)，变量SPC的几个可能的模态为：管理人员、体力劳动者、专业人员。进一步假设这四个个体具有下列模态：

个体	SPC
个体	SPC	I1	管理人员
I2	管理人员	I1	管理人员
I2	管理人员	I3	体力劳动者
I4	专业人员	I3	体力劳动者

在对定性变量SPC的模态重编码之后，获得下列结果：

所讨论的变量的每个模态因此变成存在-不存在描述符。因此，经过转换的数据的表格K将具有(n×p)维且p＞m，其中m是集合V中的变量数。

从表格K(31)开始，执行统计计算(32)，(均值、标准差、分辨系数等等)，其特别地允许在一方面设置描述符的过滤参数(33)，(排除分辨不佳的描述符)，以及在另一方面，计算被称为结构阈值的指示符(34)，以消除设置分类过程参数的需要(类别的数量或类别的最大数量均不固定)。该指示符在下面得到详细描述。

过滤过程允许排除分辨不佳的描述符。描述符的排除取决于他们的类型而不同。在数值数据情形下，描述符的相关指示符被用作基(basis)。

在文档情形下，语料库集合中描述符出现的频率，或者任何其他的分辨测量指示符(比如熵等等)以及看起来不能很好分辨的那些描述符被排除。过滤步骤产生新的简化的二元表格(35)，其包含有限数量的列。这是一个用作自动分类过程的输入数据的新的表格，方框36和在图4和5中详细描述。适合于数据的结构阈值和准则

本发明的方法使用结构阈值或者指示符，其功能特别是定义适合于数据的优化准则。

为了更好地理解其作用，对基于对简化的孔多塞准则最大化的关联分析理论回忆如下：

C (X) = Σ_{i = 1}^{n} Σ_{i^{'} = 1}^{n} [C_{{ii}^{'}} - \frac{1}{2} \times f (C_{ii}, C_{i^{'} i^{'}})] X_{{ii}^{'}}

其中C_ii′表示在两个对象i和i′之间的相似程度。例如

C_{{ii}^{'}} = < {\overset{&RightArrow;}{O}}_{i}, {\overset{&RightArrow;}{O}}_{i^{'}} > = Σ_{j = 1}^{p} k_{ij} k_{i^{'} j}

其中

表示表格K的第i行给出的对象O_i的概要信息：

{\overset{&RightArrow;}{O}}_{i} = (k_{i 1}, k_{i 2}, . . ., k_{ij}, . . ., k_{ip})

其中f(C_ii，C_i′i′)是个体i和i′的最大特定一致性函数。

例如：

f (C_{ii}, C_{i^{'} i^{'}}) = \frac{1}{2} (C_{ii} + C_{i^{'} i^{'}})

f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)等等。

X_ii′进一步由下式给出：

基于

和类型的公式可以被线性地计算，根据本发明的方法是线性复杂度的。上述作为实例的函数都是可线性化的。显然，所使用的相似性度量C_ii′是具有已知线性属性的标量积，函数

f (C_{ii}, C_{i^{'} i^{'}}) = \frac{1}{2} (C_{ii} + C_{i^{'} i^{'}})

是线性的，而函数f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)不是线性的。但是，

类型的计算可以被线性化。

通过说明的方式，本发明描述了特别适合于包含大量丢失数据的数据库的特定的情形f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)，以及允许以线性复杂度来计算

类型的步骤。

根据本发明的方法实现例如下列准则：

C^{α} (X) = Σ_{i = 1}^{n} Σ_{i^{'} = 1}^{n} [C_{{ii}^{'}} - α \times f (C_{ii}, C_{i^{'} i^{'}})] X_{{ii}^{'}}

= Σ_{i = 1}^{n} Σ_{i^{'} = 1}^{n} {Contrib}_{{ii}^{'}} X_{{ii}^{'}}

其中α是阈值，量Contrib_ii′是两个对象i和i′对准则C^α(X)的单个贡献。

根据本发明，结构阈值参数α_s被自动计算。这是被分类的对象之间的n²个一致性的函数的指示符：

α_s＝g({C_ii′}_{i，i′＝1，...，n})

举例来说，当它表示所有对象之间一致性的算术平均值比上它们的最大一致性的算术平均值的比率时，它用公式表达为：

α_{s} = \frac{\frac{1}{n^{2}} \times Σ_{i = 1}^{n} Σ_{i^{'} = 1}^{n} C_{{ii}^{'}}}{\frac{1}{n^{2}} \times Σ_{i = 1}^{n} Σ_{i^{'} = 1}^{n} f (C_{ii}, C_{i^{'} i^{'}})}

如先前所提到的，在相同的条件下，这个公式是可线性化的。

例如，在本发明中使用的准则

在于将任何两个对象的一致性同阈值α_s和它们的最大一致性的乘积相比较(其代表最大一致性的百分率)。

因而，两个对象只要它们的相似性高于或等于计算出的最大一致性的百分数(正的贡献)，则它们将自动地被分在相同的类别中。

本发明的自动分类过程

分类过程36在图4中得到详细描述。起始点是其描述符已被过滤过的二元数据表格35。

分类过程的第一个步骤是对描述符进行排序(40)，其依赖于每个描述符对准则值的贡献(描述符的质量)的测量。举例来说，描述符被用作待分类对象的种群的结构化“生成器”。描述符由1和0(存在-不存在)组成的列向量表示。类别与由取值为1的对象所组成的描述符相关联。对于对象的每个类别C_q，然后可以计算出其对全局准则值的贡献水平Contrib(C_q)：

Contrib (C_{q}) = \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; Cq}{Σ} Contri b_{{ii}^{'}} = \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; Cq}{Σ} C_{i i^{'}} - α \times \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; Cq}{Σ} f (C_{ii}, C_{i^{'} i^{'}}) - - - [1]

对类别的贡献的计算是多项式复杂度的。事实上，如果假设所有对象组成单个类别，为了确定准则的值，那么将会需要计算n²个单个贡献。

在_ii′是标量积的情形下，在公式右边的第一部分，

可以被简化成下列形式：

\underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; Cq}{Σ} C_{{ii}^{'}} = < {\overset{&RightArrow;}{R}}^{q}, {\overset{&RightArrow;}{R}}^{q} >

其中

{\overset{&RightArrow;}{R}}^{q} = (r_{1}^{q}, r_{2}^{q}, . . ., r_{p}^{q})

被称为类别C_q的代表元，它的各个项由类别对象的表格K的每个模态的列和来给出：

r_{l}^{q} = \underset{i &Element; Cq}{Σ} k_{il} .

每个值r_l ^q，j＝1，...，p表示类别C_q具有模态l的对象的数量。

在f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)的情形下，在等式[1]右边的公式的第二部分等于

允许该量以线性复杂度计算的过程在下文给出。

****************************************************************

过程MinCC(类别C)

要求：CardC＞0

要求：类别C排好序的个体的列表

整数：result＝0

整数：j＝C的下一个元素

整数：i＝0

While类别C未结束，Do

result＝result+[(CardC-i)×2-1]×C_jj

j＝C的下一个元素

i＝i+1

End While

****************************************************************

对于每个描述符q，后面生成的类别的贡献的值或其他关于准则的描述符的性质的度量因此而获得。这些贡献值然后被排序，例如降序，来获得被考虑的描述符的顺序。这个顺序的选择对结果的质量几乎没有影响(可能存在极少的局部的差异)。但是，先取出最佳贡献的描述符生成的类别，允许更快地获得稳定的解决方案，且因此对于来自于当前划分与描述符所生成的划分之间的相交的最佳划分41的计算过程，得到加速。

这个过程41特别地在于逐步“合并”(42)由描述符生成的类别(40)和当前的划分(由数个类别组成)。该“合并”操作从两个相交的类别开始，从下列4项中确定最佳的操作(根据准则)：

·“拆分”第一个类别并组成两个类别；

·“拆分”第二个类别并组成两个类别；

·“拆分”两个类别以组成三个类别；

·将两个相交的类别合并以组成一个单个的类别。

这些操作在图6中说明并且允许最佳操作的计算将在图7中决定。

这个过程相当于逐步构造划分，使得局部地且逐步地优化全局准则。

一旦所有描述符都已使用，获得的划分P₀被认为是对象43的第一个最终确定的划分。

在类别的“合并”阶段(40、41、42)期间，只尝试“合并”具有交集的类别。处理操作44的目标是合并，换言之是组合，不具有任何交集的类，如果该操作允许准则被优化(进行测试以对所获得的划分的类别一起合并)。这导致修改的划分，一种级别为1的划分，其构成分类过程的最终划分。

划分45组成类别聚类的过程46的输入，该过程在图8中得到描述。

图5示出处理操作41的示例性流程框图。其特别地在于将描述符X生成的新的类别50(记为C_x)，与由κ个类别所组成的当前划分P51进行“合并”。过程如下：

·计算划分P的类别与类别C_x之间的交集(52)，

·将划分P的类别C_y的集合Λ与类别C_x的交集降序排序，例如以它们的交集的基数的顺序(53)，

·对于集合Λ每个类别C_y(55)，合并两个类C_y和C_x(54)。

所有C_x与P之间的集合交被处理，并且一旦所有Λ的类别C_y已经与C_x合并(55)，获得新的对象的划分，其提高全局准则值且然后变成新的当前划分51。下一个步骤是转向新的描述符(42)，以及重复这个过程直到所有的描述符被处理完毕。

类别C_x和划分P的类别的交集(52)的元素的基数，可以以下面所描述的方式线性地获得。

类别C_x被考虑为其与划分P的交集被期望来计算的类别。排序后的列表，例如按其所包含的对象的索引进行升序排序，与这个类相关联。出于此目的，每个对象由单个整数来进行标识，作为其索引。为了对这些对象进行排序，由于被排序的值的上界已知，使用例如线性排序过程(例如，基数排序，对于此的一个参考文献如下：Cormen等(2002)，Introduction toalgorithmics(算法导论)，Dunod)。

计算交集基数的操作使用n维的向量

每一维i表示个体O_i所存储的类别的索引。

计算交集的基数的实例

如果考虑6个对象O₁，O₂，…，O₆的种群，以及这些对象的当前划分P(51)，该划分由三个类别C₁＝{O₁，O₃}，C₂＝{O₂，O₄，O₆}，C₃＝{O₅}构成，向量等于：

O₁	O₂	O₃	O₄	O₅	O₆
O₁	O₂	O₃	O₄	O₅	O₆	1	2	1	2	3	2

因此，如果现有划分与类别C_x＝{O₂，O₃，O₄，O₆}(50)“合并”，类别C_x与现有划分的类别的交集的基数可以被快速地确定，在本例子中，Card(Inter(C₁，C_x))＝1，Card(Inter(C₂，C_x))＝3以及Card(Inter(C₃，C_x))＝0。

在计算交集(52)期间执行的操作的数目等于在类别C_x中的要与划分P合并的对象的数量。事实上，对于新的类别的每个对象，验证其是否属于划分P的类别；如果属于，这个类别的交集计数器被增加。

如下文所示，如果类别C_x与划分P之间存在数个交集，为了为他们获得被考虑所需的顺序，计算C_x和划分P的类别C_y之间各个交集的基数。

基于C_x和划分P的一个类别C_y的交集，评估图6中给出的哪一个是最佳配置。出于这个目的，对在图7中被识别的数量进行计算。因此，图6和图7说明了处理步骤54所代表的本发明的基本操作的实例。

两个类的“合并”过程示例如下：

令

和作为类C_x和C_y的表达式向量，向量

和

由下述定义来构造：

{\overset{&RightArrow;}{R}}^{a} = {\overset{&RightArrow;}{R}}^{y} - {\overset{&RightArrow;}{R}}^{c}

{\overset{&RightArrow;}{R}}^{b} = {\overset{&RightArrow;}{R}}^{x} - {\overset{&RightArrow;}{R}}^{c}

其中C_c＝C_x∩C_y是由C_x和C_y的交集所定义的类别(类别C_x和C_y均有的对象)，

是其代表元。

因此，

表示只存在于C_y中的对象，

表示只存在于C_x中的对象。

CardA、CardB和CardC将被分别定义为由

和

代表的类别的基数。

包含在类C_y和C_x中的对象的两个列表通过增加它们的指数的阶来分类整理了快速地计算三个向量，因此可以应用下列常规程序：

****************************************************************

向量计算(类C_x、类C_y)的程序

{\overset{&RightArrow;}{R}}^{a} = {\overset{&RightArrow;}{R}}^{y}

{\overset{&RightArrow;}{R}}^{b} = {\overset{&RightArrow;}{R}}^{x}

{\overset{&RightArrow;}{R}}^{c} = 0

CardA＝CardB＝CardC＝0

L₁＝C_y的对象的列表

e＝列表L₁的头部

L₂＝C_x的对象的列表

f＝列表L₂的头部

While列表L₁未结束，Do

While列表L₂未结束，Do

If e＝f，Do

{\overset{&RightArrow;}{R}}^{e} = {\overset{&RightArrow;}{O}}_{e}

{\overset{&RightArrow;}{R}}^{a} = {\overset{&RightArrow;}{R}}^{a} - {\overset{&RightArrow;}{R}}^{e}

{\overset{&RightArrow;}{R}}^{b} = {\overset{&RightArrow;}{R}}^{b} - {\overset{&RightArrow;}{R}}^{e}

{\overset{&RightArrow;}{R}}^{c} = {\overset{&RightArrow;}{R}}^{c} + {\overset{&RightArrow;}{R}}^{e}

e＝列表L₁的头部

f＝列表L₂的头部

cardC＝cardC+1

Else If e＜f，Do

e＝列表L₁的头部

cardA＝cardA+1

Else

f＝列表L₂的头部

cardB＝cardB+1

End If

End While

****************************************************************

基于这三个向量，从下列四个之中选择最佳解决方案是可能的，图6的实例中示出这些解决方案：

·“拆分”类别C_y以便提供下列两个类别：C_y-C_x和C_x

·“拆分”类别C_x以便提供下列两个类别：C_x-C_y和C_y

·“拆分”类别C_x并且“拆分”类别C_y以便提供下列三个类别：

C_x-C_y、C_y-C_x和C_z∩C_x

·合并两个类别以便提供单一的类别：C_y∪C_x。

四个解决方案中的最佳的选择是，例如，基于上文所给出的3个不同的子类之间的“连接值”的计算。两个类C_q和C_q′之间的“连接值”的一般计算由下列公式给出：

Link (C_{q}, C_{q^{'}}) = \underset{i &Element; C_{q}}{Σ} \underset{i^{'} &Element; C_{q^{'}}}{Σ} Contri b_{{ii}^{'}} = \underset{i &Element; C_{q}}{Σ} \underset{i^{'} &Element; C_{q^{'}}}{Σ} (C_{ii}, - α \times f (C_{ii}, C_{i^{'} i^{'}}))

当相似性的量度是标量积时，并且如同先前，当f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)时，两个不同的类之间的连接值的计算可以被线性化。出于这个目的，该方法使用标量积的线性性，其得出下列化简：

Link (C_{q}, C_{q^{'}}) = < {\overset{&RightArrow;}{R}}^{q}, {\overset{&RightArrow;}{R}}^{q^{'}} > - α \times \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; {Cq}^{'}}{Σ} Min (C_{ii}, C_{i^{'} i^{'}})

也可以使用下列过程，其允许以线性复杂度来计算

****************************************************************

过程MinCC’(类C，类C′)

要求：CardC＞0

要求：CardC′＞0

要求：类别C和C′排好序的个体的列表

整数：result＝0

整数：nb_rows＝CardC

整数：nb_cols＝CardC′

整数：j＝C的下一个元素

整数：j′＝C′的下一个元素

While类别C未结束并且类别C′未结束，Do

If j＜j′do

result＝result+nb_cols×C_jj

j＝C的下一个元素

nb_rows＝nb_rows-1

Else

If j′＜j do

result＝result+nb_rows×C_j′j′

j′＝C′的下一个元素

nb_cols＝nb_cols-1

Else

result＝result+(nb_cols+nb_rows-1)×C_j′j′

j＝C的下一个元素

j′＝C′的下一个元素

nb_rows＝nb_rows-1

nb_cols＝nb_cols-1

End If

End While

****************************************************************

关于两个类别的交集，该方法计算下列在图7的实例中示出的三个量：

Lin k_{1} = Link (C_{y} - C_{c}, C_{x} - C_{c}) = < {\overset{&RightArrow;}{R}}^{a}, {\overset{&RightArrow;}{R}}^{b^{'}} > - α \times \underset{i &Element; Cy \cap i &NotElement; Cc}{Σ} \underset{i^{'} &Element; Cx \cap i^{'} &NotElement; Cc}{Σ} f (C_{ii}, C_{i^{'} i^{'}})

Lin k_{2} = Link (C_{y} - C_{c}, C_{c}) = < {\overset{&RightArrow;}{R}}^{a}, {\overset{&RightArrow;}{R}}^{c^{'}} > - α \times \underset{i &Element; Cy \cap i &NotElement; Cc}{Σ} \underset{i^{'} &Element; Cc}{Σ} f (C_{ii}, C_{i^{'} i^{'}})

Lin k_{3} = Link (C_{x} - C_{c}, C_{c}) = < {\overset{&RightArrow;}{R}}^{b}, {\overset{&RightArrow;}{R}}^{c^{'}} > - α \times \underset{i &Element; Cx \cap i &NotElement; Cc}{Σ} \underset{i^{'} &Element; Cc}{Σ} f (C_{ii}, C_{i^{'} i^{'}})

因此，为了局部地将全局准则值最大化：

·如果Link₁+Link₂+Link₃最大，选择解决方案4(合并两个类)；

·如果Link₂最大，选择解决方案2(“拆分”C_x)；

·如果Link₃最大，选择解决方案1(“拆分”C_y)；

·如果0最大，换言之如果Link₁+Link₂+Link₃＜0，Link₂＜0并且Link₃＜0，那么选择解决方案3(“拆分”C_x和C_y)。

一旦类C_x50已经与第一个类别C_y合并，划分P其他的类别与类别C_x的交集继续被处理(55)。出于这个目的，类C_x将被转换成类C_x′：

·如果选择方案1，C_x′＝C_x

·如果选择方案2，C_x′＝C_x-C_y

·如果选择方案3，C_x′＝C_x-C_y

·如果选择方案4，C_x′＝C_x∪C_y

在任何情形下，新的类别C_x′包含可以属于划分P的其他的类别的对象，因为提前已知，类别C_y的对象中没有可以属于划分P的另一类别。

从类别中删除对象的过程

为了从类别中删除对象的集合Δ，只需从类别的对象的列表删除Δ并从所述的类别的代表元减去代表元

即可。例如，在操作C_x′＝C_x-C_y期间，

等于

实际上，代表元

代表的相交的对象从类别C_x中减去。因此，

{\overset{&RightArrow;}{R}}^{x^{'}} = {\overset{&RightArrow;}{R}}^{x} - {\overset{&RightArrow;}{R}}^{c} .

通过这个方法，“拆分”操作不需要大量的计算时间，因为从类别的代表元减去的量总是等于已经被计算出的向量

。而且，从列表删除对象是简单和线性的操作。

组合两个类别的过程

在该过程中，已知C₁与C₂的交集的代表元(在上文由

定义)和该交集的基数(在上文由CardC定义)。因此，想法是不执行完整的线性排序过程来创建类C₁∪C₂。

*************************************************************

组合过程(类别C₁，类别C₂，代表元Inter，整数CardInter)

Temporary为长度为(CardC₁+CardC₂-CardInter)的向量

整数position＝0

L₁＝C₁的对象的列表

e＝列表L₁的头部

L₂＝C₂的对象的列表

f＝列表L₂的头部

While列表L₁未结束，Do

While列表L₂未结束，Do

If e＝f，Do

el＝e

e＝列表L₁的头部

f＝列表L₂的头部

Else If e＜fDo

el＝e

e＝列表L₁的头部

Else

el＝f

f＝列表L₂的头部

End If

Temporary[position]＝el

position＝position+1

End While

将Temporary复制到对象的列表中

Representative＝Representative(C₁)+Representative(C₂)-Inter

**************************************************************

重组过程(划分P)44

令κ为划分P的类别的数量

对划分P的每一个类别，计算Contrib(C_q)

令C_x为具有最强贡献的类别

计算具有κ-1个值得向量

其定义为：

\overset{&RightArrow;}{S} = (s_{1}, s_{2}, . . ., s_{k - 1})

其中

对

中的所有值为正数的连接值，其相对应的类别将被合并。这些类别的集合将被标记为已分配的，而此后将不能再被合并。该过程在为标记类别的集合κ′上反复迭代。

本发明的类别的层次聚类的过程

在图8中，示出了一个将类别层次聚类成为元类别的方法的示例性体系结构。

该过程特别地在于在多个层次上(层次的数量由用户来固定)将类别在它们自身之间进行重组。对全局准则的优化涉及例如对组成的类别之间的连接值最大化。换言之，所获得类别最终必须都具有负的连接值。但是，对连接值的计算基于一对对象(i，i′)的贡献的定义Contrib_ii′。在下文中，对一对对象的贡献的定义进行回忆，其中函数f是最小值函数：

Contrib_ii′＝C_ii′-α×Min(C_ii，C_i′i′)

本发明提出的类别聚类的过程然后在于在每一级别减少结构阈值(80)的值，使得微负的贡献能变成正的。通过这种方法，两个类别之间的连接值可以变为正的，从而允许它们被重组(81)，且划分的类别之间的关系得以突出。该过程被重复的次数与级别的数量一样(82)。然后获得嵌套的划分的集合83，其允许层次的和概念的关系在划分45中初始所考虑的类别之间被探测到。通过该原则，本发明因此使得能获得知识发现。

对于级别j的类别在j+1级别上进行层次聚类的过程与前面所描述的重组过程相似。

允许评价本发明的分类结果的质量的计算

度量所获得的解的质量的指标的理论公式在这里给出，其以百分数的形式来表达。该指标越接近100％，所研究的解的质量(划分、类别或个体的质量)就越高。

先对一些记号进行介绍：

两个类别之间的一致性：

A_{{CC}^{'}} = \underset{i &Element; C}{Σ} \underset{i^{'} &Element; C^{'}}{Σ} C_{{ii}^{'}}

两个类别之间的最大一致性：

{AM}_{{CC}^{'}} = \underset{i &Element; C}{Σ} \underset{i^{'} &Element; C^{'}}{Σ} f (C_{ii}, C_{i^{'} i^{'}})

两个类别之间的不一致性：A_CC′＝AM_CC′-A_CC′

所获得划分的最终质量由下式给出：

Q = \frac{Σ_{C = 1}^{K} A_{CC} + Σ_{C = 1}^{K} \underset{C^{'} &NotEqual; C}{Σ} {\overset{&OverBar;}{A}}_{C C^{'}}}{Σ_{C = 1}^{K} Σ_{C^{'} = 1}^{K} A M_{C C^{'}}} = \frac{Σ_{C = 1}^{K} A_{CC} - Σ_{C = 1}^{K} \underset{C^{'} &NotEqual; C}{Σ} A_{C C^{'}} + Σ_{C = 1}^{K} \underset{C^{'} &NotEqual; C}{Σ} A M_{C C^{'}}}{Σ_{C = 1}^{K} Σ_{C^{'} = 1}^{K} A M_{C C^{'}}}

其中κ是该划分的类别的数量。

类别C的质量由下式给出：

Q_{C} = \frac{A_{CC} + 2 \times \underset{C^{'} &NotEqual; C}{Σ} {\overset{&OverBar;}{A}}_{C C^{'}}}{A M_{CC} + 2 \times Σ_{C^{'} &NotEqual; C}^{NbCl} A M_{C C^{'}}} = \frac{A_{CC} - 2 \times \underset{C^{'} &NotEqual; C}{Σ} A_{C C^{'}} + 2 \times \underset{C^{'} &NotEqual; C}{Σ} A M_{C C^{'}}}{A M_{CC} + 2 \times Σ_{C^{'} &NotEqual; C}^{NbCl} A M_{C C^{'}}}

属于类别C的对象i的质量由下式给出：

Q_{i} = \frac{\underset{i^{'} &Element; C}{Σ} C_{{ii}^{'}} + \underset{i^{'} &NotElement; C}{Σ} {\overset{&OverBar;}{C}}_{{ii}^{'}}}{Σ_{i^{'} = 1}^{n} f (C_{ii}, C_{i^{'} i^{'}})} = \frac{\underset{i^{'} &Element; C}{Σ} C_{{ii}^{'}} - \underset{i^{'} &NotElement; C}{Σ} C_{{ii}^{'}} + \underset{i^{'} &NotElement; C}{Σ} f (C_{ii}, C_{i^{'} i^{'}})}{Σ_{i^{'} = 1}^{n} f (C_{ii}, C_{i^{'} i^{'}})}

其中C_ii′＝f(C_ii，C_i′i′)-C_ii′是个体i与个体i’之间的不一致性。

由于标量积的线性性，当相似度C_ii′是标量积时，在项A_CC′上的求和是可以线性化的。当f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)时，下面给出的示例性过程允许下面在各个质量公式中涉及到的量可以被线性地计算出来：

• \underset{C}{Σ} \underset{C^{'}}{Σ} {AM}_{{CC}^{'}} = \underset{C}{Σ} \underset{C^{'}}{Σ} (\underset{i &Element; C}{Σ} \underset{i^{'} &Element; C^{'}}{Σ} Min (C_{ii}, C_{i^{'} i^{'}}))

• \underset{C^{'}}{Σ} {AM}_{{CC}^{'}} = \underset{C^{'}}{Σ} (\underset{i &Element; C}{Σ} \underset{i^{'} &Element; C^{'}}{Σ} Min (C_{ii}, C_{i^{'} i^{'}}))

• \underset{i^{'} &Element; C}{Σ} Min (C_{ii}, C_{i^{'} i^{'}})

这些量分别被记为SS’MinCC’，S’MinC’and MiniC：

*************************************************************

过程SS’MinCC’(类别C，类别C′)

要求：κ＞0

整数：result＝0

For i从1到n，以1为增量，Do

result＝result+((n-i+1)×2-1)×C_ii

End For

*************************************************************

************************************************************

过程S’MinCC’(类别C，类别C′)

要求：CardC＞0

要求：κ＞0

要求：多个类别C的个体的已排好序的列表

整数：result＝0

整数：nb_rows＝CardC

整数：nb_cols＝n

整数：j＝C的下一个元素

整数：i＝1

While类别i≤n并且C未结束，Do

If i＝j do

result＝result+(nb_cols+nb_rows-1)×C_ii

nb_rows＝nb_rows-1

nb_cols＝nb_cols-1

i＝i+1

j＝C′的下一个元素

Else

result＝result+nb_rows×C_ii

i＝i+1

nb_cols＝nb_cols-1

End If

End While

**********************************************************

***********************************************************

过程MiniC(类别C)

要求：CardC＞0

要求：类别C的个体的已排好序的列表

整数：result＝0

整数：nb_cols＝CardC

整数：j＝C的下一个元素

While类别C未结束并且nb_cols≤j，Do

If i＝j，Do

result＝result+nb_cols×C_ii

Else

result＝result+C_jj

j＝C的下一个元素

nb_cols＝nb_cols-1

End If

End While

***********************************************************

Claims

1、一种线性无监督分类方法，其允许将对象和描述符所组成的数据库结构化，该方法对于所述对象的顺序是稳定的，所述方法包括一初始步骤，该初始步骤将定性的、定量的或者文本的数据变换成为存在-不存在二元数据，所述方法特征在于其包括至少下述步骤：

·确定关于所述待分类对象之间n²个一致性的结构阈值α_s函数，该结构阈值定义了适用于所述数据的优化准则，

·使用描述符作为类别的划分或集合的结构化和构造生成器，

·将描述符生成的类别与划分逐步地合并(40、41、42)，

·对于涉及函数f(C_ii，C_i′i′)＝Min(C_ii，C_i′i′)的优化准则，对Minimum函数的和进行线性化。

2、根据权利要求1所述的方法，其特征在于，该方法包括将所述划分的类别在他们自身之间进行重组的步骤。

3、根据权利要求1所述的方法，其特征在于，所述合并步骤包括基于两个相交的类别，从下面4个操作之中确定最佳(根据所述优化准则)操作的步骤：

·“拆分”第一个类别并组成两个类别；

·“拆分”第二个类别并组成两个类别；

·“拆分”所述两个相交的类别以组成三个类别；

·将所述两个相交的类别合并以组成一个单个的类别。

4、根据权利要求2所述的分类方法，其特征在于对一个划分的所述类别进行重组的过程在多个层次级别上进行，并包括下列步骤：

·在每一个级别上减少所述结构阈值的值(70)，使得微负的贡献可以变为正的，

·将所构成的类别之间的连接值最大化，其中所述连接值通过使用来自一对对象的贡献来确定

Link (C_{q}, C_{q^{'}}) = \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; {Cq}^{'}}{Σ} Contri b_{i i^{'}} = \underset{i &Element; Cq}{Σ} \underset{i^{'} &Element; C q^{'}}{Σ} (C_{{ii}^{'}} - α^{'} \times f (C_{ii}, C_{i^{'} i^{'}}))

其中α′为α的新的值，

·将连接值为正的两个类别进行组合(71)，并在所有所述级别上重复该过程。

5、一种设备，其能够进行线性无监督分类，该线性无监督分类允许将对象和描述符所组成的数据库结构化，该分类对于所述对象的顺序是稳定的，该分类过程包括一初始步骤，该初始步骤将定性的、定量的或者文本的数据变换成为存在-不存在二元数据，该设备特征在于其包括至少下列部件：用于实现权利要求1～4其中之一所述方法的步骤的计算机(1)，该计算机包括存储器(2)、数据库(4)和处理器(3)。

6、根据权利要求2所述的设备，其特征在于其包括用于依赖于所述分类的结果而采取动作的装置(7)。