CN110728369A

CN110728369A - 一种视角约减的多视角tsk模糊系统

Info

Publication number: CN110728369A
Application number: CN201910960692.7A
Authority: CN
Inventors: 张远鹏; 杨娟
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-01-24

Abstract

本发明公开了一种视角约减的多视角TSK模糊系统，该多视角TSK模糊系统的目标函数包含2个部分，第一部分为协同学习机制，第二部分为视角约减机制，在该模型的目标函数中，引入误差约束项，使得当前视角的决策结果与其他视角决策结果的均值之差最小，从而实现多视角协同学习；另外，引入“变体信息熵”，学习各视角的权重，并设计约减规则，剔除噪声视角或弱相关视角。这对于提高多视角数据的分类精度有着非常重要的作用。

Description

一种视角约减的多视角TSK模糊系统

技术领域

本发明涉及人工智能技术领域，具体为一种视角约减的多视角TSK模糊系统。

背景技术

随着数据采集渠道的多样化发展，数据复杂程度的不断提高，多视角数据不断涌现。故具备多视角协同学习的TSK(Takagi-Sugeno-Kang)模糊系统应运而生。一般来说，此类多视角TSK模糊系统通过在目标函数中引入各视角决策误差最小的约束项来实现协同学习，同时引入信息熵学习各个视角的权重。然而，在目前已有的多视角TSK模糊系统模型中，甚少考虑了噪声视角或弱相关视角给多视角TSK模糊决策结果带来的“负影响”。所谓噪声视角或弱相关视角，指的是在其所包含的样本特征空间中，缺乏有效的模式识别信息来训练模型参数。为此，将发明一种具备视角约减功能的多视角TSK模糊系统。

发明内容

本发明的目的在于提供一种视角约减的多视角TSK模糊系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种视角约减的多视角TSK 模糊系统,所述多视角TSK模糊系统的目标函数包含2个部分，第一部分为协同学习机制，第二部分为视角约减机制，所述协同学习机制具体为：若存在多视角训练数据集

其中,

为第m个视角的训练样本，M表示总视角数，N表示总样本数。则在该训练数据集O上的协同学习准则可以表示式(1)所示的形式：

其中，

在式(1)中，表示第m个视角下第i个训练样本

通过模糊集映射后的输入向量；

表示第m个视角下第c类的后件参数，

为每个视角的先验知识；

表示各视角训练样本决策结果的均值，

表示第m个视角样本的期望输出；通过最小化式(1)，使得各个视角的决策结果达到一致，实现多视角间的协同学习；此外，参数α用于控制

和

之间的一致性程度，该值由用户指定或者在训练数据集上通过交叉验证的方式得到。

优选的，视角约减机制具体为：对于训练数据集O而言，视角加权的机制可以表示为如式(4)所示的形式：

在式(4)中，引入视角权重向量w＝[w₁,w₂,...,w_M]^T,其中，w_m,m＝1,2,...,M表示第m个视角的权重，δ_m为控制权重w_m学习的参数；从式(4)可知，Δ由两项组成，第一项为各个视角预测误差的加权求和，通过最小化可以获得最佳的预测精度；第二项为香浓熵的一种变体形式，即

优选的，所述多视角TSK模糊系统的目标函数表示为：

对式(5)的求解，看成是一个凸函数在有约束条件下求极小值问题，故可通过引入朗格朗日乘子λ，构建朗格朗日目标函数，从而求得和w的迭代表达式，所构建的朗格朗日目标函数为：

令

可分别求得

和w的迭代表达式如式(7)和式(8) 所示：

基于

和w的迭代表达式，采用类似模糊C均值聚类算法的迭代优化方式获得最优解；在式(5)所示的目标函数中，w中的元素需要满足和为1的约束，当出现视角需要被约减时，采用式(9)进行视角权重更新，使其继续满足和为1的约束；

其中，M'为约减后的视角总数。

在在获得最优的

和w后，对于需要预测的样本x_i，其最终的决策函数可以定义为各个视角决策结果的线性组合，如式(10)所示：

优选的，具体步骤如下：

步骤1：初始化视角权重向量w，其中，w_m＝1/M；

步骤2：利用聚类算法(FCM)，获取本发明所提出的算法在每个视角模糊规则的前件参数，并求得后件参数；

步骤3：利用RMV计算δ_m；

步骤4：利用式(7)求

步骤5：利用式(8)求w_m；

步骤6：若存在m，使得则约减第m视角，且M＝M-1；

步骤7：利用式(9)更新w_m；

步骤8：若相邻两次的目标函数值之差小于ε，则算法停止；否则跳转至步骤3继续执行。

与现有技术相比，本发明的有益效果是：本发明多视角TSK模糊系统的目标函数包含2个部分，第一部分为协同学习机制，第二部分为视角约减机制，在该模型的目标函数中，引入误差约束项，使得当前视角的决策结果与其他视角决策结果的均值之差最小，从而实现多视角协同学习；另外，引入“变体信息熵”，学习各视角的权重，并设计约减规则，剔除噪声视角或弱相关视角。这对于提高多视角数据的分类精度有着非常重要的作用。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供如下技术方案：一种视角约减的多视角TSK模糊系统,所述多视角TSK模糊系统的目标函数包含2个部分，第一部分为协同学习机制，第二部分为视角约减机制，所述协同学习机制具体为：若存在多视角训练数据集

其中,为第m个视角的训练样本，M表示总视角数，N表示总样本数。则在该训练数据集O上的协同学习准则可以表示式(1)所示的形式：

其中，

在式(1)中，

表示第m个视角下第i个训练样本

通过模糊集映射后的输入向量；

表示第m个视角下第c类的后件参数，

为每个视角的先验知识；表示各视角训练样本决策结果的均值，

和

本发明中，视角约减机制具体为：对于训练数据集O而言，视角加权的机制可以表示为如式(4)所示的形式：

信息熵实际上反映的是一种变量的不确定性，通过最小化这种不确定性，从而获得确定的变量信息。在Δ的第一项和第二项中，δ_m用于控制每个视角权重的变化，如何设定δ_m对于最终学习到的视角权重以及视角约减情况，有着非常重要的作用。这也是本发明与其它类似权重学习机制的重要区别。接下来给出一种确定δ_m的方法。

在概率统计领域，通常使用“方差均值比(variance-to-mean-ratio,VMR)”来观察样本的分散程度，VMR越小，表示样本越聚集，反之则表示样本越分散。在式(4)中，期望通过第二项，使得包含分散的样本的视角能够获得较小的权重。因此，在本发明中，采用VMR的倒数形式，即“均值方差比 (mean-to-variance-ratio,RMV)”作为δ_m，来实现对各个视角权重学习的控制。

为了能够在决策过程中，约减权重较小的视角，需要制定约减规则。对于所有视角而言，由于存在约束

故当总视角数M较大时，可以选择 1/M作为约减阈值，当w_m＜1/M时，约减第m个视角。但是，在本发明中，期望其能够适应所有的多视角数据集，甚至仅仅包含少量视角的数据集。众所周知，为了在较大m和较小m之间寻求平衡，用样本数N 代替其中一个M，那么阈值变为

即当

时，约减该视角。

本发明中，所述多视角TSK模糊系统的目标函数表示为：

对式(5)的求解，看成是一个凸函数在有约束条件下求极小值问题，故可通过引入朗格朗日乘子λ，构建朗格朗日目标函数，从而求得

和w的迭代表达式，所构建的朗格朗日目标函数为：

令

可分别求得

和w的迭代表达式如式(7)和式(8) 所示：

基于

其中，M'为约减后的视角总数。

在在获得最优的

此外，本发明的具体步骤如下：

步骤1：初始化视角权重向量w，其中，w_m＝1/M；

步骤3：利用RMV计算δ_m；

步骤4：利用式(7)求

步骤5：利用式(8)求w_m；

步骤6：若存在m，使得则约减第m视角，且M＝M-1；

步骤7：利用式(9)更新w_m；

步骤8：若相邻两次的目标函数值

之差小于ε，则算法停止；否则跳转至步骤3继续执行。

实验例：

利用爬虫从互联网抽取服装装饰工艺文本文档共5400篇，并利用中科院提供的分词工具ICTCLA进行分词处理。随后，利用Blei提出的潜在狄利克雷分配模型(LatentDirichletAllocation,LDA)进行特征提取，每篇文档提取50个特征。特征提取后，每篇文档对应一个特征向量(样本)。

对于5400个样本，选择80％进行人工类别标注，并作为训练样本(训练样本示例如表1所示)，构建测试数据集。所涉及的服装装饰工艺类别包括5类，分别为“刺绣”，“印染”，“编结”，“手绘”和“镶嵌”。其余20％作为测试样本，构建测试数据集。

表1训练样本示例

本发明所提出的算法的参数(模糊规则数K，正则化参数α，β)均通过在训练数据集上进行5-折交叉验证的方式获取。模糊规则数K的寻优范围为 [2,3,…,30],正则化参数α，β的寻优范围均为为[0.1,0.2,…,10]每个样本的每个特征被当成一个视角。

另外，为了进行对比，说明本发明的有效性，引入支持向量机(SVM)，决策树(C4.5)，1-阶TSK模糊系统(1-TSK-FS)以及Jiang等人提出的多视角TSK模糊系统(MV-TSK-FS)作为对比决策模型进行决策结果的比较。SVM，C4.5， 1-TSK-FS的参数也通过在训练数据集上进行5-折交叉验证的方式获取。参数寻优范围按照这些算法的原始文献推荐进行设置。

实验过程与结果分析

实验将从3个方面进行：

(1)对于本发明所提出的算法，观察有视角约减和无视角约减时(只需将δ_m设置为0)在测试数据集上的分类精度；

(2)观察本发明所提出的算法和所引入的对比模型在测试数据集上的分类精度；

(3)将本发明所提出的算法所约减的视角从测试数据集中剔除，用剔除后的测试数据集重新测试对比模型，观察与剔除之前分类精度的变化。

表2给出了实验结果。所报道的分类精度均为对应模型在测试数据集上运行50次的平均值和标准差。分类精度(Accuracy)采用正确分类的样本数和总样本数的比值来衡量。

在表2的第二列中，给出了所有算法在测试数据集上的分类精度。第三列给出了本发明所提出的算法模型50次运行所约减的视角数的均值。第三列给出了对比算法在剔除了本发明所提出的算法所约减的视角后的分类精度。表2给出了本发明所提出的算法和所引入的对比模型的测试分类精度。

表2本发明所提出的算法和对比模型的实验结果

从表2的实验结果可以看出，在测试数据集上，本发明所提出的算法在约减噪声视角或弱相关视角后，50次的平均分类精度相比未约减之前，提高了 2.68％。另外，即使本发明所提出的算法未进行视角约减，由于采用了多视角协同学习机制，相比其它单视角决策模型(SVM，C4.5，1-TSK-FS)，分类精度仍然具有优势。

本发明所提出的算法在50次运行后，共约减的视角数的平均值为11.4。通过将这50次约减的视角交集从测试数据集中剔除，然后重新运行对比算法 (包括本发明所提出的算法在δ_m＝0时)。从表2的第四列可看出，在剔除噪声视角或弱相关视角后，对于决策模型的分类精度均有所提高，这再次印证了本发明所提出的本发明所提出的算法进行噪声视角或弱相关视角的有效性。

综上所述，本发明多视角TSK模糊系统的目标函数包含2个部分，第一部分为协同学习机制，第二部分为视角约减机制，在该模型的目标函数中，引入误差约束项，使得当前视角的决策结果与其他视角决策结果的均值之差最小，从而实现多视角协同学习；另外，引入“变体信息熵”，学习各视角的权重，并设计约减规则，剔除噪声视角或弱相关视角。这对于提高多视角数据的分类精度有着非常重要的作用。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。