CN1423781A

CN1423781A - 用于统计资料模糊分析的装置和方法

Info

Publication number: CN1423781A
Application number: CN01808178A
Authority: CN
Inventors: 陈垣洋
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-03-16
Filing date: 2001-03-15
Publication date: 2003-06-11
Also published as: AU2001259025A1; EP1279109A1; WO2001069410A1; JP2003527686A; MXPA02009001A; CA2402916A1; US20020010691A1

Abstract

公开一种用于执行并行分布式处理的装置和方法。多个节点用权连接来连接(图1和12)。权连接基于相关节点的似然函数来更新(30),同样,到节点的输入使用t范数(306)或t共同范数函数来聚集,输出表示可能性及信念度量(308)。

Description

用于统计资料模糊分析的装置和方法

在本申请中描述的本发明在政府支持下由美国陆军部的职员完成。政府具有本发明中某些权利。

本申请以35 U.S.C§119(e)向2000年3月16日申请的美国临时专利申请号60/189,893要求优先权。

发明领域

本发明通常涉及一种装置和方法，其使用用于解决模型分类和知识发现问题的模糊集合和统计理论来执行统计资料模糊分析(FASE)。FASE的若干特征类似于人类判断的特征。它从数据信息中学习，将它们并入知识信念，并且它用新信息来更新信念。本发明也涉及将称作似真神经网络(PLANN)的东西。

发明背景

模拟并行分布机，或神经网络，计算模糊逻辑，其包括可能性，信念和概率度量。模糊逻辑对模拟机所做的就是布尔逻辑对数字计算机所做的。使用布尔逻辑，可以用数字计算机来执行定理证明，弈棋，或者许多其它具有精确或已知规则的应用。类似地，基于模糊逻辑，可以使用模拟机来执行近似推理，似真推理和信念判断，其中规则是固有的，不确定的或矛盾的。信念判断由可能性及信念的度量来表示，然而布尔逻辑是特殊情况或缺省。统计资料模糊分析(FASE)可以由模拟并行分布机更有效地计算。而且，因为FASE可以提取模糊/信念规则，它也可以充当到分布式处理和符号处理的链接。

对提供更高精度和更快计算的用于模式分类的机器学习算法有持续的研究。但是，由于可用数据资料的不一致性，由属性提供的信息不足，以及类边界的模糊，机器学习算法(甚至人类专家)不总是作出正确的分类。如果在特殊实例的分类中有不确定性，可能需要进一步的信息来阐明它。这在医疗诊断，信用评价，和许多其它应用中经常出现。

因此，希望有一种方法，其用于用新属性信息来更新信念而不重新训练数据样品。这样一种方法将提供增加额外资料(属性)而不导致沉重计算代价的好处。

当前分类方法的另一问题是名称Na

ve贝叶斯假设的广泛接受。贝叶斯信念更新依赖于属性值的乘法，这需要任一新属性不依赖于先前属性或条件概率可以估计这一假设。这一假设并不通常是真的，导致新属性对结果具有大于适当的影响。

发明概述

为了克服这些困难，本发明提供一种分类方法，其基于可能性度量并且使用模糊集理论的t范数函数来聚集属性信息。该方法在这里描述，并且称作统计资料模糊分析(FASE)。机器学习的过程可以认为是从训练样品到总体的推理，这是归纳推理。如在Y.Y.Chen，柏努利试验：从模糊测度的观点，数学分析应用杂志，vol.175，pp.392-404，1993，和Y.Y.Chen，基于可能性及信念度量的统计推理，美国数学协会论文集，vol.347，pp.1855-1863，1995中看到的，其在此引入作为参考，由可能性及信念度量测度归纳信念比由概率度量更有利。

FASE具有若干所希望的性质。它是容噪声的，并且能够处理缺失数值，从而允许考虑大量属性。这是重要的，因为当增加数据维数时许多模式变成可分离的。

除分类之外，FASE对知识发现也是有利的。从数据中提取的统计模式由知识信念来表示，其又是专家系统的命题。这些命题可以由推理规则来连接。从而，从机器学习到专家系统，FASE提供从归纳推理到演绎推理的改进的链接。

此外，提供似真神经网络(PLANN)，其包括基于附属神经元的似然函数的权连接。到神经元的输入根据t共同范数函数而聚集，而输出表示可能性及信念度量。

附图简述

本发明的优选实施方案在下面参考附图详细描述，其中：

图1说明交互信息和神经元连接之间的关系；

图2说明多个属性神经元和类神经元的相互连接；

图3表示神经网络中的似然判断；

图4是流程图，其显示两个神经元之间权更新的计算；

图5描绘花瓣宽度的概率分布；

图6以花瓣宽度的函数描绘分类的确信因子曲线；

图7描绘大花瓣宽度的模糊从属关系；

图8是用于执行统计资料模糊分析的系统的功能框图；

图9是流程图，其显示信念判断的认知过程；

图10是流程图，其显示监督学习的认知过程；

图11是流程图，其显示知识发现的认知过程；

图12是根据本发明的两层神经网络的图；

图13是贝叶斯神经网络和使用中的可能性神经网络实例的图

优选实施方案详述

1. FASE方法和性质

设C是类变量，A₁，…，A_n。是属性变量：并且设Pos是可能性度量。基于在Y.Y.Chen，柏努利试验：从模糊测度的观点，数学分析应用杂志，vol.175，pp.392-404，1993中发展的统计推理，我们有：

Pos(C|A₁，…，A_n)＝Pr(A₁，…，A_n|C)/sup_C Pr(A₁，…，A_n|C)，(1)

如果先验信念是不提供资料的。Bel(C|A₁，…，A_n)＝1-Pos( C|A₁，…，A_n)是实例属于类C的信念度量和确信因子(CF)。

等式(1)和贝叶斯公式之间的不同仅仅是归一化常数的不同。在可能性度量中sup范数是1，而在概率度量中加法范数(积分)是1。对类的指定，贝叶斯分类器基于最大一个后验概率，其又相当于最大可能性。

在机器学习中，由于训练样品和/或大量属性的限制，联合概率Pr(A₁，…，A_n|C)经常不从数据直接估计。这一问题类似于维数灾难。如果分别估计条件概率Pr(A_i|C)或

\Pr (A_{i_{1}}, . . ., A_{i_{k}} | C),

其中{i₁，…，i_k}形成{1，…，n}的分块，那么需要适当的运算将它们联合到一起。

接下来我们给出t范数函数的定义，其经常用于模糊集的逻辑乘。模糊逻辑乘/t范数是二进制运算T：[0，1]×[0，1]→[0，1]，它是通信的和联合的，并且满足下面的条件(cf.[5])：

(i)T(a，1)＝a，对所有的a，

(ii)T(a，b)≤T(c，d)，只要a≤c，b≤d。 (2)

下面是经常用于文献中的t范数实例：

最小值：M(a，b)＝min(a，b)

乘积：∏(a，b)＝ab

有限差分：W(a，b)＝max(0，a+b-1)

并且我们有W≤∏≤M。

基于属性的不同关系，我们有不同的信念更新规则。通常地：

其中是t范数运算。如果A₁和A₂是不相关的，那么是乘积∏(Y.Y.Chen，柏努利试验：从模糊测度的观点，数学分析应用杂志，vol.175，pp.392-404，1993)。如果A₁和A₂是完全相关的，即Pr(A₁|A₂)＝1且Pr(A₂|A₂)＝1，那么我们有：

其中^是最小值运算。这成立因为Pos(C|A₁，A₂)＝Pos(C|A₁)＝Pos(C|A₂)。注意到，如果A₁，A₂是彼此的函数，那么它们完全相关，从而使得资料冗余。

当通常地属性间的关系未知时，t范数可以处于∏和M之间而用于更新信念。从而，可以选择更接近地补偿属性之间不同依存度的t范数，而不需要知道实际的依赖关系。为简单起见，我们将注意力限制在如下用共同t范数聚集所有属性的模型：

Pos(C|A₁，...，A_n)＝_{i＝1，...，n}Pos(C|A_i)/sup_C_{i＝1，...，n}Pos(C|A_i)， (5)其包括作为特殊情况的na ve贝叶斯分类器，即当等于乘积∏。如在Y.Y.Chen，基于可能性及信念度量的统计推理，美国数学协会论文集，vol.347，pp.1855-1863，1995中显示的，乘积规则意味添加资料的权。如果属性是相关的，它将过度补偿资料的权。

下面是FASE的一些特性：

(a)对任何t范数，如果属性A_i是不提供资料的，即Pos(C＝c_j|A_i)＝1，j，那么：

Pos(C|A₁，...，A_n)＝Pos(C|A₁，...，A_i-1，A_i+1，...，A_n)， (6)

这成立因为T(a，1)＝a。

公式(6)表明，不提供资料的属性对总体分类不提供任何资料，并且当实例α_i缺失或A_i是常数时发生。类似地，如果A_i是白噪声，那么它对分类几乎不提供信息，因为Pos(C＝c_j|A_i)≈1，j。因此，FASE是容噪声的。

(b)对任何t范数，如果对某个i，Pos(C|A_i)＝0，那么：

Pos(C|A₁，...，A_n)＝0， (7)

这成立因为T(a，0)＝0。

公式(7)表明，信念更新的过程是通过基于资料去除较小似真类/假设，即Pos(C|A_i)≈0。过程后继续存在的成为真值。

(c)对二进制分类，如果Bel(C＝c_j|A₁)＝a，Bel(C≠c_i|A₂)＝b，并且0＜b≤a，那么：

Bel(C＝c_j|A₁，A₂)＝(a-b)/(1-b)， (8)

假设(a-b)/(1-b)≤a，公式(8)意味冲突资料将降低我们先前信念的置信度；但是，不管使用哪个t范数，计算是相同的。如果资料指向相同的方向，即Bel(C＝c_j|A₁)＝a，并且Bel(C＝c_j|A₂)＝b，0＜a，b≤1，那么我们的置信度水平将增加。对处于M(最小值)和∏(乘积)之间的t范数函数，置信度度量Bel(C＝c_j|A₁，A₂)为max(a，b)～a+b-ab。t范数越大，它考虑的资料权就越弱。这一性质可以称作t范数的强度。

因此，如果我们使用不同的t范数来联合属性，计算彼此是非常类似的。这也解释为什么na ve贝叶斯分类器可以充分地执行，即使经常违背独立性假定。

2. 似真神经网络

在人类推理中，有两种思想方法：期望和似然。期望用来计划或预测将来的真实状态。似然用来判断当前状态的真实性。两种思想方法不是排他的，而是它们彼此相互作用。例如，我们需要识别我们的环境以便作决定。相互作用这两种思想方法的统计推理模型在Chen(1993)中讨论，它是概率和可能性度量的混合。

在机器学习和模式识别中的统计推理与神经网络之间的关系已经吸引相当多的研究关注。先前联系依照贝叶斯推理讨论(见例如Kononenko I.(1989)贝叶斯神经网络，生物控制论61：361-370；和MacKay D.J.C.，后向传播网络的实践贝叶斯结构，神经计算4，448-472，1992；或统计学习理论Vapnik V.，统计学习理论，Wiley，N.Y.，1998)。贝叶斯神经网络需要先验信念在网络权分布上的指定。遗憾地，这使得大规模网络的计算几乎不可能。统计学习理论不具有推理的不确定性度量，因此它不能用新信息而不重新训练变量而更新。

根据本发明，对每个变量X有两种截然不同的含义。一是P(X)，它考虑X的总体分布，而另一是Pr(X)，它是基于总体的随机样品。如果总体P(X)是未知的，它可以认为是模糊变量或模糊函数(这在Chen(1993)中称作平稳变量或平稳过程)。基于样品统计，我们可以有P(X)的似然估计。在总体上使用可能性度量的优点是，它具有普遍的空先验，从而不需要如在贝叶斯推理中那样考虑先验。

根据本发明，X是表示神经元的二进制变量。在任一给定时间，X＝1表示神经元激发，而X＝0表示神经元静止。神经元X和神经元Y之间的权连接给定如下：

ω₁₂＝log(P(X，Y)/P(X)P(Y))， (9)

这是两个神经元之间的交互信息。

将神经元的神经键权链接到信息理论有若干优点。首先，知识由神经键权给定。并且，信息和能量是可互换的。从而，神经学习是统计推理。

从统计推理的观点，一对连接的神经元的神经活动由对两个独立随机变量的柏努利试验给定。单个随机变量的柏努利试验在Chen(1993)中讨论。

设P(X)＝θ₁，P(Y)＝θ₂，P(X，Y)＝θ₁₂，以及g(θ₁，θ₂，θ₁₂)＝log(θ₁₂/θ₁θ₂)。给定数据x，y的ω₁₂的似然函数是：

l (ω_{12} | x, y) = \sup θ_{1}, θ_{2}, θ_{12_{ω_{12} = g (θ_{1}, θ_{2}, θ_{12})}} \log {({θ_{12}}^{xy} (θ_{1} - θ_{12}))}^{x (1 - y)} {(θ_{2} - θ_{12})}^{(1 - x) y} (1 - θ_{1} - θ_{2} + θ_{12})

{/_{(1 - x) (1 - y)} θ}_{1}^{x} {(1 - θ_{1})}^{1 - x} {θ_{2}}^{y} {(1 - θ_{2})}^{1 - y}) - - - (10)

这基于模糊集理论的扩展规则。当具有记录x，y(基于权ω₁₂)的神经键接收新信息x_t，y_t时，权的似然函数由似然规则更新：

l (ω_{12} | x, y, x_{t}, y_{t}) = l (ω_{12} | xy) l (ω_{12} | x_{1}, y) / \sup_{ω_{12}} l (ω_{12} | x, y) l (ω_{12} | x_{t}, y_{t}) - - - (11 a)

本领域技术人员将认识到，等式(11a)表示Hebb规则。当前神经网络研究使用各式各样的近似方法。贝叶斯推理需要先验假设，并且概率度量在变换下不是标量恒定的。等式(11a)可用来设计电子设备，以控制并行分布式计算机中的神经键权。

对数据分析，ω₁₂的置信度度量由α割集或1-α似然区间来表示，这在Y.Y.Chen，基于可能性及信念度量的统计推理，美国数学协会论文集，vol-347，pp.1855-1863，1995中描述。这只有当训练样品的规模小时才需要。如果样品规模足够大，ω₁₂的最大值似然估计将是充分的，这可以从θ₁，θ₂和θ₁₂的最大值似然估计来计算。因为

{\hat{θ}}_{1} = Σ_{i} x_{i} / n,

{\hat{θ}}_{2} = Σ_{i} y_{i} / n,

{\hat{θ}}_{11} = Σ_{i} x_{i} y_{i} / n,

我们有：

等式(11a)和(11b)可以用在似真神经网络(PLANN)中用于更新权。等式(11b)用于数据分析。等式(11a)可以用于并行分布机或模拟神经网络中。如在图1中所说明，从公式(9)我们看到

ω₁₂＞0，如果X和Y正相关，

ω₁₂＜0，如果X和Y负相关，

ω₁₂＝0，当且仅当X和Y统计不相关。

如果神经元X和神经元Y接近于不相关，即ω₁₂≈0，它们的连接可以撤消，因为它不会影响总体网络计算。从而最初全连接的网络可以在训练后变成具有一些分层结构的稀疏连接网络。这是有利的，因为神经元可以释放权连接以节省能量和为了进一步的信息处理而生长权连接。

根据本发明的似真神经网络(PLANN)是具有由交互信息给定的权连接的全连接网络。这通常叫做递归网络。

权连接的对称性保证网络的稳定状态(Hopfield，J.J.，前馈和反馈网络中的学习算法和概率分布，国家科学院会刊，美国，8429-8433(1985))。X_j是与神经元X_i连接并激发到神经元X_i的神经元集合。X_i的激活由下式给定：

X_i＝s(_jω_ijx_j)， (12)

信号函数可以是确定的或随机的，传递函数可以是S形的或二进制阈值。每一个表示不同种的机器。本发明集中在随机的S形函数，因为它较接近于生物大脑。

具有附加激活的随机S型模型相当于在Ackley，D.H.，Hinton，G.E.，和T.J.Sejnowski，玻尔兹曼学习算法，认知科学9，pp.147-169(1985)中描述的玻尔兹曼机。但是本发明的PLANN学习算法远快于玻尔兹曼机，因为神经元接收的每一数据信息通过公式(11a)自动地加到神经键权。从而，本发明的训练方法更接近地模拟生物神经元的行为。

本发明具有执行似真推理的能力。具有这一能力的神经网络在图2中说明。神经网络使用统计资料模糊分析(FASE)，这在上面描述。如在图2中看到的，显示的实施方案是单层神经网络1，其具有连接到多个类神经元4的多个属性神经元2。属性神经元2以权连接6连接到类神经元4。每一类神经元聚集来自属性神经元2的输入。在信号变换下，t共同范数函数变成t范数，从而FASE用t范数来聚集信息。

统计独立于类神经元的属性神经元不具有到类神经元的权连接。从而，统计独立的神经元不对特殊类提供任何资料。例如，在图2中没有属性神经元A₂和类神经元C₁之间的连接。类似地，没有属性神经元A₃和类神经元C₂之间的连接.

发送到类神经元4的信号是可能性。类神经元4以表现权8相互连接。在竞争性性质中，每一类神经元中的能量减少其他类神经元的输出。可能性之间的差是信念度量。因此，如果两个类神经元具有非常类似的可能性度量，信念度量将很低。低信念能量表示特殊类神经元是正确输出的低真实信念。另一方面，如果一个类神经元的可能性度量远高于任何其它类神经元，信念度量将很高，表明已选择正确类神经元的较高置信度。

在图2的实例中，没有估计属性神经元间的权连接。但是，属性之间的真实关系可以在属性神经元之间具有不同种的抑制和表现权。因此，属性神经元的能量将抵销其他属性神经元的能量。平均t范数执行得最好。

在通常使用的na

ve贝叶斯中，假设所有属性彼此独立。从而，在属性神经元之间没有连接权。在这一方案下，类神经元接收过载的信息/能量，并且信念很快变得接近于0或1。因为考虑属性神经元之间的权，FASE更加鲁棒准确(robust accurate)，从而更加准确地表示属性神经元的相互依赖。

本领域的技术人员将认识到本发明广泛的应用范围。每一输出神经元信号可以是模糊类，并且它的含义依赖于上下文。对分类，输出将意味可能性和信念。对预测，输出将意味概率。将认识到，给定进一步的研究，其他含义也是可能的，并且将被发现。

如在上面讨论的，有两种人类思想方法：期望和似然。期望可以在前向神经网络中模拟。似然可以用后向神经网络模拟。优选地，神经网络是全连接网络，并且网络后向或前向工作由事件的时间选择决定。在前向神经网络中，能量分散，其不由数据信息加强，概率度量小。后向神经网络接收能量，从而可能性大。如果几个神经元具有近似相等的可能性，它们的表现连接减少它们的活动性，只有具有较高能量水平的神经元保持活跃。

图3说明用于执行图象识别的神经网络。网络10包括第一层12和第二层14节点或神经元。这一网络也具有第三层16。在这个图中，网络在输入层12接收退化的图象信息。输入节点激发到第二层神经元14，并且祖母和祖父接收输入的最高聚集。但是，图象表示一个或另一个的信念非常小，因为可能性值非常接近。因此，网络知道图象是祖母或祖父的，但是不确信它知道是哪一个。但是，这一信息进一步聚集到表示“老人”的神经元16的非常高的可能性和信念值。

因此，如果属性神经元表示到图象识别网络的输入，退化图像可以最终分类为老人。这是前向网络的实例。前向网络可以与后向网络相互作用。这样的设计在ART(Grossberg S.，适应的大脑，2vol。阿姆斯特丹：Elsevier(1987))中讨论。这一类型的网络可以解释为概率和可能性的相互作用，并且变为似真性度量，这在Chen(1993)中讨论。

根据本发明的似真神经网络计算并更新权连接，这在图4中说明。数据在步骤20输入到网络中。对连接神经元X和Y的特殊权连接，执行三个似然计算。似然函数根据上面的等式(10)来计算。对参数θ₁22，参数θ₂24，和参数θ₁₂26计算似然函数。接下来，权连接的似然函数通过对数变换和优化来计算28。最后，上面描述的似然规则用来更新权连接的记录30。

现在将描述神经网络中的数据编码。设每一神经元是表示特殊数据值存在与否的指示函数。用关于数据值之间关系的信息，许多网络体系结构可以加到神经元连接。如果变量是离散的，具有k个分类尺度，它可以由X＝(X₁，X₂，...，X_k)来表示，这是标准二进制编码方案。但是，如果这些分类是互斥的，那么抑制连接指定到任一对神经元以使它们竞争。如果变量是有序尺度的，那么我们将X₁，X₂，...，X_k按它的正确次序排列，具有相邻神经元之间的弱抑制连接和远隔神经元之间的强抑制。如果变量是连续的，X₁，X₂，...，X_k是区间或二进制的指示函数，具有正确次序。我们可以指定邻近神经元之间的表现连接和远隔神经元的抑制连接。一个好的选择是Kohonen网络体系结构。因为连续变量只能以一定的精度度量，具有有限长度的二进制向量是充分的。这一方法也覆盖模糊集编码，因为模糊分类通常是有序尺度的。

对模式分类问题，解决办法是将竞争的类网络连接到属性网络。依赖于在训练样品的类标签中提供的信息，这样的网络可以执行监督学习，半监督学习，或简单的无监督学习。可以考虑各种分类方案。类变量可以是连续的，并且类分类可以是脆的或模糊的。通过设计类神经元之间的权连接，类可以排列为层次或它们可以是不相关的。

对预测问题，例如天气预报或预测股票市场，PLANN用不确定性度量来预测。因为它经常学习，所以预测经常更新。

认识到神经元学习机理是普遍的这一点是重要的。似真推理过程是那些表面到意认水平的过程。对于机器人学习问题，PLANN过程加速机器人的学习过程。

PLANN是已知的最快机器学习过程。它具有用于权更新的精确公式，并且计算只涉及第一和第二顺序统计量。PLANN主要用于大规模数据计算。

(i) 用于并行分布机的PLANN训练

根据本发明的并行分布机可以如下构造。并行分布机可以用许多处理部件构造，它是如等式(11a)中描述的那样计算权更新的设备。机器程式化以使用附加的激活函数。训练数据输入到神经网络机中。权值用每一经过处理的数据来更新。输入数据直到机器如期望的那样执行。最后，一旦机器如期望的那样执行，对机器冻结权值以继续执行特定的任务。作为选择，对交互的学习过程可以允许权值不断地更新。

(ii) 用于模拟神经网络的PLANN训练

模拟神经网络可以根据本发明如下构造。设(X₁，X₂，...，X_N)表示网络中的神经元，ω_ij是X_i和Y_i之间的权连接。权可以随机指定。输入数据并计算第一和第二顺序统计量。统计信息记录在寄存器中。如果数据记录是较高维数的，它们可以分解为较低维数的数据，这样交互信息少。然后分别对较低维数的数据计算统计量。更多的数据可以输入并存储于寄存器中。权ω_ij通过基于等式(11)从输入的数据计算统计量来周期性地更新。然后可以测试性能。

举例来说，考虑狗吠数据。对较慢的训练，狗吠数据自身可以重复地输入而不带权连接信息。随着越来越多的输入数据，权将发展。对较快的训练，带有权连接的狗吠数据可以输入到网络中。对不同种的变量可以选择适当的数据编码方案。输入数据直到网络如期望的那样执行。

(iii) 用于数据分析的PLANN

为了使用PLANN来分析数据，数据优选地缩小到具有较小维数的节。然后可以对每节计算第一和第二顺序统计量。中等强度的t共同范数/t范数用来聚集信息。变量之间真实的关系最终达到平衡。

本发明将统计推理，物理学，生物学，以及信息理论链接到单一结构中。每个可以由其它来解释。McCulloch，W.S.和Pitts，神经元活动中内在思想的逻辑演算，数理生物学通报5，pp.115-133，1943显示，神经元可以用二进制阈值信号函数作通用计算。本发明通过用等式(11a)中给定的权函数连接神经元来执行通用计算。本领域技术人员将认识到，用不同的信号函数，可以描述和构造通用模拟计算机，通用数字计算机，和两种机器的混合。

3. FASE计算和实验结果

对本领域技术人员将是显然的，FASE同等成功地应用于包含模糊和/或连续属性，以及模糊和/或连续类的分类中。对连续属性，对密度估计我们使用核估计量D.W.Scott，多元密度估计：理论，实践，和可视化，John Wiley & Sons，1992，第六章，pp.125。

p(x)＝1/nh∑_iK((x-x_i)/h)， (13)

其中为简单起见，选择K来统一。对离散属性，我们使用最大值似然估计。从每一属性的估计概率标准化为可能性，然后如等式(12)中的t范数联合。

我们分析下面两个t范数族来聚集属性信息，因为这些t范数包含模糊运算符的广泛范围。一个由M.J.Frank，关于F(x，y)和X+y-F(x，y)的同时结合性，不等式数学，Vol.19，pp.194-226，1979提出，如下：

T_s(a，b)＝log_s(1+(s^a-1)(s^b-1)/(s-1))，对0＜s＜∞， (14)

我们有T_s＝M，当s→0；T_s＝∏，当s→1；以及T_s＝W，当s→∞。

t范数的另一族由B.Schweizer和A.Sklar，联合函数和抽象半群，出版数学，德布勒森，Vol.10，pp.69-81，1963提出，如下：

T_p(a，b)＝(max(0，a^p+b^p-1))^1/p，对-∞＜p＜∞， (15)

我们有T_p＝M，当p→-∞；T_p＝∏，当p→0；T_p＝W，当p→1。

对于二进制分类，如果我们对每个属性的disciminant功率感兴趣，那么可以应用发散信息(见S.Kullbac，信息理论与统计学，多佛，纽约，第一章，pp.6，1968)，其由下式给出：

I(p₁，p₂)＝∑_x(p₁(x)-p₂(x))log(p₁(x)/p₂(x)) (16)

FASE不需要考虑先验。但是，如果我们依照可能性度量，将先验乘以似然，那么它将对某些类的资料打折扣。在宽松意义上，先验也可以认为是一种资料。

在我们的实验中使用的数据集来自于UCI资料档案库C.L.Blake和C.J.Merz，UCI资料档案库的机器学习数据库[http：//www.ics.uci.edu/～mlearn/MLRository.html]，1998。为了预测准确性，使用五重交叉验证方法(见R.A.Kohavi，用于准确估计及模型选择的交叉验证及引导程序的研究，第十四届人工智能联合会议会议录，摩根马Kaufmann，旧金山，pp.1137-1143，1995)。这一计算基于所有记录，包括那些带有缺失值的记录。在训练集中，那些非缺失的值仍然对模型估计提供有用的信息。如果实例有缺失的值，其被指定为空信念，它的分类基于较少数目的属性。但是，我们并不经常需要所有的属性以作出正确的分类。即使马腹痛数据缺失其值的30％，FASE仍然相当好地执行。

表格1：具有共同t范数FASE模型的实验结果

数据集 t范数参数** ∏ M
数据集 t范数参数** ∏ M	1澳大利亚人 s＝.75 85.0 84.7 81.82胸部^* s＝.5 96.7 96.7 96.23crx^* s＝.1 85.5 84.9 83.94DNA s＝.5 95.5 94.3 82.55心脏 s＝.8 82.3 82.3 81.16肝炎^* p＝-.1 85.4 85.3 84.77马腹痛^* p＝-3 80.7 79.0 80.28inosphere s＝.7 88.5 88.5 83.89虹彩 s＝.5 93.3 93.3 93.310大豆^* p＝-1 90.1 89.8 87.711波形 s＝.1 84.2 83.6 80.912投票^* p＝-8 94.9 90.3 95.2

^*带有缺失值的数据集

^**对数据集很好地执行的t范数参数

s-弗兰克参数，p-Schweizer&Sklar参数

强于乘积的t范数较少引起关注并且也不能执行，所以不包括它们。最小值规则反映属性中最强的资料。如果我们需要聚集大量不相关属性，例如DNA数据，那么它执行得不好。但是如果属性彼此强相关，例如投票数据，那么它执行得最好。

在某些数据集中，分类对使用哪个t范数是不敏感的。这可由等式(2)和(3)来解释。但是，较弱的t范数通常对置信度度量提供更合理的估计，尤其当属性数目大的时候。即使那些不是真实的置信度度量，较低的CF通常表明有冲突属性。因此，它们仍然对分类提供基本信息。例如在crx数据中，FASE分类器，具有s＝.1，大约85％准确。如果考虑那些具有较高的置信度，例如CF＞9的实例那么可以达到超过95％的准确度。

4. 知识发现和推理规则

基于类属性的数据信息，喜爱规则的专家系统可以通过使用FASE方法被提取。我们用渔民的虹彩数据来说明它，因为文献中它的历史背景和它的共通承认。

图5-7说明从类概率到类确信因子及模糊集的变换。图5显示三个类型的花瓣宽度概率分布，图6显示以花瓣宽度的函数显示分类的确信因子(CF)曲线，以及图7显示“大”花瓣宽度的模糊从属关系。

图5-7显示类概率分布和它们的到信念度量的变换，其表示为确信因子(CF)。CF假设是正的，但是通过负数表示假设不成立是方便的。

Bel(C|A)可解释为“如果A那么C具有确信因子CF”。本领域技术人员将认识到，A可以是单值，集合，或模糊集。通常地，确信因子可以如下计算：

其中是

的模糊从属关系。

如果我们设

μ (\tilde{A} (x)) = Bel (C = Virginica | x)

为花瓣宽度的模糊集“大”，这在图7中显示，那么我们有类似“如果花瓣宽度大，那么虹彩类型为Virginica”的规则。

这一命题的确信因子与前提x∈

的事实相符，它不需要指定。因此在FASE方法下，模糊集和模糊命题可以客观地从数据获得。

每一信念陈述是证明C，驳斥C，或两者都不是的命题。如果命题的CF低，它将对联合信念没有太大的影响，并且可以忽略。只有那些具有高置信度的命题被提取并且用作专家系统规则。用于联合命题确信因子的推理规则基于如等式(3)中给定的t范数。在C.L.Blake和C.J.Merz，UCI资料档案库的机器学习数据库[http：//www.ies.uci.edu/～mlearn/MLRository.html]，1998中已经显示，MYCIN CF模型可以认为是FASE的特殊情况，并且它的联合规则(见E.H.Shortliffe和B.G.Buchanan，医学中的不精确推理模型，数学生物科学，Vol.23，pp.351-379，1975)相当于可能性度量下的乘积规则。因此MYCIN推理无意地假定命题的独立性。

联合信念Bel(C|A₁，A₂)可以解释为“如果A₁和A₂那么C具有确信因子CF”。但是，我们不经常将这一命题作为规则，除非两个属性都需要以便获得高置信度，例如XOR问题。这需要联合概率的估计和到可能性及信念度量的转换。

在前面的描述中，我们已经引入用于模式分类和知识发现的FASE方法的通用结构。对实验，我们将我们的研究限制到用共同t范数聚集属性信息的简单模型。这一模型的回报是它计算快，并且它发现的知识易于神会。如果单个类属性为分类提供判别信息，它可以很好地执行，例如在图5-7中所显示。在那些情形下，精确信念模型不是非常重要。如果分类问题依赖于属性的联合关系，例如XOR问题，这一模式将是不成功的。优选地，希望估计所有类属性的联合概率，但是由于组合影响，总是有局限性。而且，如果概率估计的维数高，提取的知识将不易理解。用属性信息来信念更新的方法总是所希望的。

图8是根据本发明的可以用来实现FASE系统100的框图。系统100可以包括计算机，其包括用户输入设备102，输出设备104，以及连接到处理器108的存储器106。输出设备104可以是可视显示设备，例如CRT显示器或LCD显示器，投影仪及屏幕，打印机，或者允许用户在视觉上观察图象的任何其它设备。存储器106优选地存储一组指令110及待运算的数据112。本领域技术人员将必然认识到，也可以用分开的存储器存储指令110和数据112。

存储器106优选地使用静态或动态RAM来实现。但是，存储器也可以使用软盘及磁盘驱动器，可写光盘及磁盘驱动器，硬盘驱动器，闪存等等来实现。

用户输入设备102可以是键盘，定点设备例如鼠标，触摸屏，可视接口，音频接口例如麦克风及模数音频转换器，扫描仪，读带机，或者允许用户将信息输入到系统的任何其它设备。

处理器108优选地在可编程通用计算机上实现。但是，如本领域技术人员将认识的，处理器108也可以在专用计算机，可编程微处理器或微控制器及外设集成电路部件，ASIC或其它集成电路，数字信号处理器，硬布线电子或逻辑电路例如离散单元电路，可编程逻辑设备例如PLD，PLA，FPGA或PAL，等等上实现。通常地，能够实现图9-11中所示步骤的任何设备可以用来实现处理器108。

在优选实施方案中，用于执行统计资料模糊分析的系统是安装在模拟并行分布机或神经网络上的计算机软件程序。本领域技术人员将认识到，计算机软件程序可以安装并运行于许多不同种类的计算机上，包括个人计算机，小型机，大型机，它们具有不同的处理器体系结构，数字和模拟，包括例如，基于X86的，基于麦金托什G3摩托罗拉处理器的计算机，和基于SPARC和ULTRA-SPARC体系结构的工作站，以及所有它们各自的兼容产品。处理器108也可以包括允许用户编辑显示在显示设备上的图象的图形用户界面编辑器。

作为选择，用于执行统计资料模糊分析的系统也为不需要人类编程的新品种机器而设计。这些机器通过数据来学习，并且为将来的判断组织知识。硬件或神经网络是具有许多互连的处理单元的集合，并且互连的强度可以通过学习过程来修改，就像人类那样。

可选的方法是使用神经网络来估计后验信念。大多数文献(例如M.D.Richard和R.P.Lippmann，神经网络分类器估计贝叶斯后验概率，神经计算，Vol.3，pp.461-483，1991)通过概率度量来表示后验信念，但是它们也可以通过可能性度量来表示。试探地，可能性及信念度量更适合于对假设形成描绘神经元活动的竞争自然。机器学习的许多其它规则，例如E-M算法，也可以由概率(期望)及可能性(最大似然)度量的相互作用来解释。

图9-11是流程图，其说明用于分析输入到数据库或从数据库提取的信息的统计资料模糊分析。基于可能性及信念判断的优选分类方法在图9中说明。在图9中说明的方法可以由如在图8中说明的计算机系统100的计算机系统来执行，并且熟悉本领域的人将容易认识到，其也可以由模拟分布机或神经网络来执行。下面的描述将说明根据本发明的使用离散属性的方法。但是，本领域技术人员将认识到，本发明的方法可以同样好地使用模糊属性的连续属性来应用。类似地，本发明的方法同样好地应用于连续或模糊类，虽然为简单起见本发明实施方案使用离散类来描述。在步骤200，对应于待分类项一个实例的数据从数据库112取回，并传送到处理器108而处理。这一特殊的数据实例将具有与多个属性相关的多个值。在步骤202，对N个可能类中的每一个处理属性数据。将认识到，在模拟分布机或神经网络中，每一类的属性数据可以同时处理，而在典型数字计算机中，对每一可能类，属性数据可能必须顺序地处理。在步骤204，对每一类根据选定的t范数来聚集属性数据，t范数优选地是上面描述的t范数中的一个。在步骤206，比较每一类的每一聚集值得到选定的最高聚集值。在步骤208，对与选定聚集值相关的类计算可能性及信念度量。通过用与特殊类相关的特殊聚集值除以在步骤206选定的最高聚集值来计算可能性值。通过次最高可能性值减特殊类的可能性值来计算信念度量。因为对应于在步骤206的最高聚集值的类将总是导致可能性1，选定类的信念度量减少到(1-α)，其中α是第二最高可能性值。在步骤210，特殊实例属于由最高可能性值选择的类这一假设的信念或真实性是在显示器104上的输出。

图10说明根据本发明的监督学习的优选方法。在步骤300，训练数据从数据库112接收。训练数据包括多个属性值，以及每一记录的类标签。在步骤302，对训练数据的每一记录执行概率估计。在步骤304，每一记录的属性数据一次一个地传递以检验特殊记录属于每一可能类的假设。在步骤306，对每一类使用选定的t范数函数来聚集属性数据。在步骤308，聚集的属性值转换为可能性值。最后，在步骤310，对经过处理的每一记录，根据从每一属性获得多少在分类中有用的信息来更新加于每一属性的权。对训练数据的每一记录，将由机器解决的分类与可用的类标号比较，并且在作出正确分类的地方增加权，而在错误分类出现的地方减小权。关于此事，通过适当地调节加于每一属性的权，机器能够学习而对将不具有可用类标签的将来数据分类。

图11说明使用本发明的知识发现的优选方法。在步骤400，训练数据从数据库112取回。在步骤402执行概率估计。在步骤404，对每一类测试每一记录。在步骤406，对每一类根据选定的t范数函数来聚集属性。在步骤408，聚集的值转换为可能性。在步骤410，信念值从产生于步骤408的可能性来计算。最后，在步骤412，对每个类以具有对应于有用知识的最高信念的每一类显示信念值。这样，使用在图11中说明的方法，可以识别最有用的属性。从而，在随后的分类中，可以通过去除处理中最没用的属性来减少计算过载。

图12说明根据本发明的神经网络。神经网络包括多个输入节点450。输入节点450通过连接器454连接到多个输出节点452中的每一个。每一输出节点452又产生由确信因子节点458接收的输出456。

图13说明执行概率计算的贝叶斯神经网络，并将它与根据本发明的可能性神经网络相比较。两个神经网络都具有多个输入节点500以及中间层端口502。同贝叶斯神经网络相比较，在可能性网络中中间层输出的计算不同。如在贝叶斯神经网络中显示的，中间层节点502的输出是概率，因此其和为1。但是，在可能性网络中，最可能的选择，老妇人，给定值1，而下一最高值，老人，给定比较低的值(0.8)。因此，可能性神经网络将退化的输入图象分类为祖母，但是祖母分类是正确的这一信念将相对低，因为祖父的上限值不明显低于祖母的上限值。这也在贝叶斯神经网络中显示。但是，如果进一步的信息变得可用，将看到额外的属性并入可能性神经网络将比它并入贝叶斯神经网络更容易。如果在可能性神经网络中额外的属性变得可用，新信息简单地加到现有信息，导致更新后的可能性输出。相反，在贝叶斯网络中，为了并入新信息，每一概率输出将必须重新计算，以使概率输出再一次相加得1。因此，具有确信因子的附加好处及较低的计算代价，可能性网络在分类上至少与贝叶斯神经网络同样有效。

虽然已选择有利的实施方案来说明本发明，但是本领域技术人员将认识到，其中可以作各种改变和调整而不违背于本发明的范畴。

Claims

1.一种将事物分类成为多个类中一个或多个的成员的方法，所述事物具有多个与之相关的属性，所述方法包括步骤：

(a)对所述多个类中的每一个，基于每一所述属性指定属性值，每一所述属性值表示所述事物是基于所述属性的相关类的成员的相对可能性，

(b)对所述多个类中的每一个，使用t范数函数来聚集所述属性值，

(c)选择最高聚集值，

(d)确定所述事物属于与所述最高聚集值相关的类，

(e)基于所述最高聚集值和第二最高聚集值的相对值来确定确信因子。

2.权利要求1的方法进一步包括：

(f)基于由每一属性提供的相对信息来规范化所述属性值。

3.一种训练机器以将事物分类成为多个类中一个或多个的成员的方法，该方法包括步骤：

(a)对所述机器提供训练数据，所述训练数据包括多个记录，每一记录具有与之相关的属性，所述属性数据包括与多个可能属性相关的值，每一记录进一步具有与之相关的类值，其指示该记录属于的类，

(b)对每一所述可能属性，基于对基本上所有所述记录中的属性给出的值分布来规范化每一记录的所述属性数据，

(c)对每一所述记录，在可用的属性数据上执行t范数运算，并且对每一所述可能类产生可能性值，所述可能性值对应于该记录属于所述特殊类中一个的相对可能性，

(d)对所述多个类中的每一个，聚集具有与所述类相关的类值的基本上所有记录，并且根据每一属性符合所述类正确确定的程度来产生每一属性的权。

4.权利要求3的方法，进一步包括步骤：

(b)对每一所述记录，产生具有最高可能性值的一个或多个类的信念值，所述信念值表示所述类的可能性值与下一最高可能性值之间的差，

(c)从与产生阈值之上信念值的那条记录相关的属性中产生一列提供资料的属性。

5.适合于计算机使用的一种产品，包括：

存储介质，其上存储实现多个函数的机器指令，这些函数对将一个项目分类成为多个类中一个或多个的成员有用，所述事物具有与之相关的多个属性，当机器指令由计算机执行时，所述函数包括：

(a)对所述多个类中的每一个，基于每一所述属性指定属性值，每一所述属性值表示所述事物基于所述属性是相关类的成员的相对概率，

(c)选择最高聚集值，

(d)确定所述事物属于与所述最高聚集值相关的类，

6.适合于计算机使用的一种产品，包括：

存储介质，其上存储实现多个函数的机器指令，这些函数对训练机器以将一个事物分类成为多个类中一个或多个的成员有用，所述函数包括：

(a)对所述计算机提供训练数据，所述训练数据包括多个记录，每一记录具有与之相关的属性数据，所述属性数据包括与多个可能属性相关的值，每一记录进一步具有与之相关的类值，其指示记录属于的类，

(c)对每一所述记录，在可用的属性数据上执行t范数运算，并且对每一所述可能类产生可能性值，所述可能性值对应于记录属于所述特殊类中一个的相对可能性，

7.权利要求6的产品，所述函数进一步包括：

(e)对每一所述记录，产生具有最高可能性值的一个或多个类的信念值，所述信念值表示所述类的可能性值与下一最高可能性值之间的差，

(f)从与产生阈值之上信念值的那条记录相关的属性中产生一列提供资料的属性。

8.一种适合于将事物分类成为多个类中一个或多个的成员的装置，所述事物具有与之相关的多个属性，所述装置包括：

输出设备和输入设备，

处理器，以及

存储器，其具有用于执行其中存储的一系列函数的机器可执行指令，并且适合于接收和存储一系列数据记录，所述函数包括：

(a)在所述输入设备接收对应于寻求分类的所述事物的数据记录，所述数据记录包括对应于所述事物属性的属性值，

(b)对所述多个类的每一个，通过使用t范数函数聚集所述属性值来产生聚集值，

(c)从所属聚集值中选择最高聚集值，

(d)基于所述最高聚集值从多个类中确定最可能的类，

(e)基于所述最高聚集值和第二最高聚集值的相对值来确定确信因子，

(f)在所述输出设备输出所述最可能的类和所述确信因子。

9.一种适合于被训练来将事物分类成为多个类中一个或多个的成员的装置，所述事物具有与之相关的多个属性，所述机器包括：

输出设备和输入设备，

处理器，以及

(a)在所述输入设备接收训练数据，所述训练数据包括多个记录，每一记录具有与之相关的属性，所述属性数据包括与多个属性相关的值，每一记录进一步具有与之相关的类值，其指示记录属于的类，

(b)对每一所述属性，基于对基本上所有所述记录中的属性给出的值分布来规范化每一记录的所述属性数据，

10.权利要求9的装置，所述函数进一步包括：

11.权利要求10的装置，所述函数进一步包括：

(g)通过所述输出设备输出所述信念值和所述列。

12.一种神经网络，包括：

至少一个输入层和一个输出层，输入层具有多个输入节点，输出层具有多个输出节点，这样每一输出节点从每一输入节点接收加权输入，其表示特殊输出节点代表正确输出的可能性，

其中，输出节点根据t范数函数从每一输入节点聚集输入，并且产生表示t范数函数结果的输出。

13.一种神经网络，包括：

至少一个输入层，一个输出层，和一个确信因子节点，输入层具有多个输入节点，输出层具有多个输出节点，这样每一输出节点从每一输入节点接收加权输入，其表示特殊输出节点代表正确输出的可能性，并且确信因子节点从每一输出节点接收输入。

其中，输出节点根据t范数函数从每一输入节点聚集输入，并且产生表示t范数函数结果的输出，并且其中，确信因子节点产生表示来自于输出节点的最高输出和来自于输出节点的第二最高输出之间差的输出。

14.权利要求13的神经网络，其中网络包括多个确信因子节点，每一确信因子节点从每一输出节点接收输入，并且每一确信因子节点的输出表示n最高输出节点的输出和来自于输出结点的下一最高输出之间的差。

15.一种通用并行分布式计算机，包括：

至少一个输入层和一个输出层，所述输入层具有多个输入神经元，并且所述输出层具有多个输出神经元，这样每一所述神经元具有到至少一个其它神经元的权连接。

其中，所述权连接表示交互信息，并且所述交互信息由权的似然函数表示。

16.权利要求15的机器，其中所述权连接的值通过将两个相关神经元的似然函数相乘并规范化结果来确定。

17.权利要求15的机器，其中所述机器是模拟并行分布机。

18.权利要求15的机器，其中所述机器是数字并行分布机。

19.权利要求15的机器，其中所述机器是混合数字和模拟并行分布机。

20.一种训练神经网络的方法，该神经网络包括具有多个输入神经元的输入层和具有多个输出神经元的输出层，每一所述神经元具有到至少一个其它神经元的权连接，所述方法包括步骤：

(a)对所述机器提供训练数据，所述训练数据包括多个记录，每一记录具有至少一个与之相关的神经元，这样所述记录导致所述相关神经元将信号激发到连接的神经元，

(b)使用似然规则来更新所述权连接的权，所述规则基于每一连接的激发神经元的似然和一起激发的两个神经元的似然，

(c)用t共同范数运算聚集在每一所述连接的神经元的所述信号，

(d)评价所述机器的性能，以及

(e)重复步骤(a)-(d)。