CN111444937A - 一种基于集成tsk模糊分类器的众包质量提升的方法 - Google Patents

一种基于集成tsk模糊分类器的众包质量提升的方法 Download PDF

Info

Publication number
CN111444937A
CN111444937A CN202010039850.8A CN202010039850A CN111444937A CN 111444937 A CN111444937 A CN 111444937A CN 202010039850 A CN202010039850 A CN 202010039850A CN 111444937 A CN111444937 A CN 111444937A
Authority
CN
China
Prior art keywords
data
noise
tsk
label
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010039850.8A
Other languages
English (en)
Other versions
CN111444937B (zh
Inventor
蒋云良
张雄涛
胡文军
邬惠峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou University
Original Assignee
Huzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huzhou University filed Critical Huzhou University
Priority to CN202010039850.8A priority Critical patent/CN111444937B/zh
Publication of CN111444937A publication Critical patent/CN111444937A/zh
Application granted granted Critical
Publication of CN111444937B publication Critical patent/CN111444937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Navigation (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于集成TSK模糊分类器的众包质量提升的方法,包括以下步骤:利用含有标签噪音的两分类数据构建多个具有抗噪能力的TSK模糊分类器TSK‑noise‑FC,在挑选出的不含噪音数据的验证集上产生多个增强属性,从而生成增强验证集;利用经典的模糊聚类算法FCM对增强验证集进行聚类,形成含有标签的多代表点数据,记做数据字典,利用生成的数据字典,对含有标签噪音的数据进行快速矫正,对于每一个含噪音数据的众包数据,找到其最近的代表点,该代表点的标签就是预测的结果。该方法能够降低众包的成本,而且运行速度快,多个具有抗噪能力的弱分类器可以并行运行,对于众包数据的预测,只需要找到最近的含有标签的代表点,此代表点的标签就是该众包数据的矫正结果。

Description

一种基于集成TSK模糊分类器的众包质量提升的方法
【技术领域】
本发明涉及众包系统的技术领域,特别是一种基于集成TSK模糊分类器的众包质量提升 的方法。
【背景技术】
众包一词最早是由JeffHowe在2006年提出,即将过去由一个公司或组织内部员工执行的 工作,以自由自愿的形式交给大众去完成,然后付给个人一定的报酬。其出现是作为一种分 布式的问题解决和生产模式,用以降低任务完成的成本。众包系统利用大量网络工作者的多 种技能来解决问题和执行项目。事实上,一些开源的软件(Linux项目)和维基百科都可以被 视为众包产品,典型地,全世界最大的图像数据集ImageNet的标注,也是通过众包实现的。 这些众包系统包括Amazon MTurk和Crowd Flower最近得到了很大的普及,因为其将请求者 将所要解决的问题张贴到拥有大量在线工作人员的众包平台上,为问题得以迅速解决提供了 方便的途径。众包成功的应用在了对图像和文档的标注,编写和审阅软件代码,大型产品的 设计,筹集资金等。众包的初衷就是为了降低成本,找全世界的工人(专业或业余)来完成 一件庞大的工程或项目。
一个完整的众包系统,其工作流程包括任务的分配和接受,众包平台的设计,任务的选 择、接受和解答,以及最后答案的提交与整合。其中,最后答案的整合直接决定了众包的成 败。虽然众包的应用加速了大型应用问题的解决,但是由于完成任务的工人都是匿名的,这 样不可避免会出现噪音甚至恶意标记(比如图像或文档的标记)的发生。即便恶意的工人目 前仍是少数,识别出他们,并且提高众包标签的质量仍是一件很重要的事情。目前有两种路 径提高众包的质量,一种是每个任务分配一个工人,即每一条数据只有一个标签。众包完成 后,首先对所有的数据使用过滤器进行过滤,将有噪音标签的数据过滤掉,再使用相关的矫 正算法对有噪音标签的数据进行矫正。第二种途径是将每个任务分配给多个工人,最后以某 种方式或策略将他们的答案进行整合。可以用简单的投票表决方法,这种方法假设每个工人 的答题准确率是一致的,没有考虑工人的多样性和差异性,例如欺诈者和不具备此任务专业 知识的答题者,答题准确率较低,因此这种方法往往不够准确。后来有研究者提出了EM (Expectation Maximization)算法,即将工人之前的答题准确率和工人目前给出的答案相结合, 利用贝叶斯理论得到最终的结果。由于工人的准确率在不断的变化,EM算法是一个迭代的 过程,因此计算量特别大,无形中也增加了众包的计算成本。由于工人每完成一个任务,众 包平台都要支付一定的报酬给工人,将每个任务分配给多个工人,这也在一定程度上增加了 众包的经济成本。
本发明的方法基于上述的第一种途径,利用基于集成学习的模糊分类器来降低噪音,提 高标签质量。在构造模糊分类器的时候,考虑到多分类任务的复杂性,而且目前大多数众包 标签矫正算法都只针对两分类任务,因此本发明提出的标签矫正算法也只针对两分类任务, 即y∈{-1,1}。在分配众包任务的时候,由于各工人专业知识的差异性和欺诈者的存在,众包 标签存在很大的不确定性,因此,采用模糊分类器,模糊分类器能够处理不确定数据。
为了构建一个集成模糊分类器,使之能够利用模糊系统的不确定性处理能力和高可解释 下,处理众包问题中的标签噪音矫正问题,本发明基于以下考虑:1)子分类器目标函数考虑 到标签噪音的存在,即不确定标签和错误标注标签,加入了两个约束式,使其对标签噪音具 有一定的鲁棒性;2)本发明只考虑两分类问题的标签噪音矫正,由于两分类问题相比多分类 问题比较简单,因此,在由两个阶段组成的集成模糊分类器中,关于第二阶段的聚类算法, 采用经典的模糊聚类算法FCM。基于以上考虑,提出了具有标签抗噪能力的集成TSK模糊 分类器EW-TSK-CS,并将其成功应用于众包环境中。
【发明内容】
本发明的目的就是解决现有众包矫正技术中的问题,提出一种基于集成TSK模糊分类器 的众包质量提升的方法,该集成TSK模糊分类器EW-TSK-CS基于单标签众包质量提升方法, 能够降低众包的成本,而且运行速度快,多个具有抗噪能力的弱分类器可以并行运行,对于 众包数据的预测,直接利用数据字典,只需要找到最近的含有标签的代表点,此代表点的标 签就是该众包数据的矫正结果。
为实现上述目的,本发明提出了一种基于集成TSK模糊分类器的众包质量提升的方法, 依次包括以下步骤:
S1.利用含有标签噪音的两分类数据构建多个TSK-noise-FC模糊子分类器,在挑选出的 不含噪音数据的验证集上产生多个增强属性,从而生成增强验证集;
S2.利用经典的模糊聚类算法FCM对增强验证集进行聚类,形成含有标签的多代表点数 据,记做数据字典,利用生成的数据字典,对含有标签噪音的数据进行快速矫正,对于每一 个含噪音标签的众包数据,找到其最近的代表点,该代表点的标签就是预测的结果。
作为优选,所述步骤S1的具体过程为:在含有标签噪声的L个训练集上构建L个模糊 分类器,TSK-noise-FC-1到TSK-noise-FC-L,然后将这些模糊子分类器分别作用于不含噪音 数据的验证集上,对验证集进行扩维,形成增强验证集。
作为优选,所述步骤S2的具体过程为:利用FCM聚类算法对增强验证集进行聚类,对 增强验证集中的正负类分别进行聚类,求得带标签的多代表中心点,对中心点去掉增强属性, 数据维度恢复到原数据维度大小,然后使用KNN算法找到距离测试点最近的中心点,该中 心点的类标作为所求测试点的类别。
作为优选,所述TSK-noise-FC模糊分类器的所采用的算法1为:
a)算法1的输入:第l个训练子集
Figure BDA0002367344260000031
对应的标签集
Figure BDA0002367344260000032
其中xi∈Rd,yi∈{-1,+1,0},i=1,2,…,Nl,模糊规则数Kl,参数ε=(ε12,…,εN-M),εi=ε,i=1,2,…,N-M;
b)算法1的输出:模糊规则和子分类器的输出函数
Figure BDA0002367344260000033
c)算法1的学习过程如下:
c1)通过从集合{0,0.25,0.5,0.75,1}中随机选择一个值作为特征值,构造规则组合矩阵
Figure BDA0002367344260000034
表示五个高斯函数中哪一个被选择;
c2)通过随机选择一个0到1之间的正数,构造核宽度矩阵
Figure BDA0002367344260000035
c3)根据规则组合矩阵和核宽度矩阵,构造每一条模糊规则的模糊隶属度,利用公式(1) 计算隶属度,并且
Figure BDA0002367344260000036
Figure BDA0002367344260000037
其中j=1,2,…,d,k=1,2,…,Kl,归一化并构造矩阵Xg
Figure BDA0002367344260000038
第l个TSK-noise-FC TSK模糊分类器的前件参数可计算得出;
c4)根据公式(3),计算后件参数ag
Figure BDA0002367344260000041
其中α,β,γ是拉格朗日乘子,在公式(4)求得
Figure BDA0002367344260000042
其中,Q=[qij](2N-M)*(2N-M)为核矩阵,
Figure BDA0002367344260000043
Figure BDA0002367344260000044
f=(y,-ε,-ε),y=(y1,y2,…,yM),ε=(ε12,…,εN-M),εi=ε,i=1,2,…,N-M
ζ=(α1,…,αMM+1,…,βNM+1,…,γN)T
c5)计算第l个TSK-noise-FCTSK模糊分类器的输出
yl=Xgag (5)
作为优选,该方法所采用的算法2具体为:
a)算法2的输入:训练数据Dtr=[Xtr Ytr],验证数据Dv=[Xv Yv],其中Xtr和Xv代表数据, Ytr和Yv代表标签,分类器个数L,K1,K2,…,KL表示每一个子分类器的模糊规则数;
b)算法2的输出:代表性中心点及其标签;
c)算法2的训练过程:
c1)初始化
从两分类训练数据集Dtr中随机抽取各子分类器的训练子集D1,D2,…,DL,并且
D1∪D2∪……∪DL=Dtr,在对应标签Y1,Y2,…,YL中加入噪音标签,对于错误标签,翻转每个 对应的标签值,对于不确定的标签,其对应的标签值设置为0;
c2)以并行学习的方式学习第L个TSK-noise-FC模糊子分类器:
c2.1)为每一个子分类器指派模糊规则数,
c2.2)通过调用算法1,并行生成L个子分类器,
c2.3)输出L个子分类器的输出函数F1(x),F2(x),......,FL(x)并将其值作为源数据的增强特 征;
c3)生成增强验证数据集:
计算验证数据集的每一个样本的输出函数值F1(x),F2(x),......,FL(x),生成增强验证数据集
Figure BDA0002367344260000051
其中
Figure BDA0002367344260000052
表示增强数据,Xv表示原数据;
d)生成代表性中心点及其标签:
在增强验证数据集
Figure BDA0002367344260000053
上,对于每一类,分别调用FCM生成代表性中心点及其标签;
e)测试过程:
e1)对于含有噪音的众包数据,在代表性中心点上利用KNN对其标签进行快速矫正,
e2)输出矫正后的众包数据。
本发明的有益效果:
1)与EM算法等众包矫正方法相比,EW-TSK-CS基于单标签众包质量提升方法,因此能够降低众包的成本,这和众包的初衷一致。
2)EW-TSK-CS运行速度快,多个具有抗噪能力的弱分类器可以并行运行,对于众包数 据的预测,直接利用数据字典,只需要找到最近的含有标签的代表点,此代表点的标签就是 该众包数据的矫正结果。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是EW-TSK-CS的结构图;
图2是EW-TSK-CS并行特征增强模块的示意图;
图3是标签矫正原理的示意图;
图4是EW-TSK-CS在数据集Adult上的平均测试精度的示意图;
图5是EW-TSK-CS在数据集chess上的平均测试精度的示意图;
图6是EW-TSK-CS在数据集waveform3上的平均测试精度的示意图;
图7是EW-TSK-CS在数据集Adult上的平均测试精度的示意图;
图8是EW-TSK-CS在数据集seismic_bumps上的平均测试精度的示意图;
图9是EW-TSK-CS在数据集movementAAL上的平均测试精度的示意图;
图10是标签噪音Holm测试图。
其中,图4至图10中(a)图、(b)图分别模拟了含有5%和10%标签噪音的众包数据。
【具体实施方式】
1.具有标签抗噪能力的TSK模糊子分类器TSK-noise-FC
根据TSK分类器,以及众包环境中存在标签噪音问题,我们对TSK模糊分类器进行改进, 提出了具有标签抗噪能力的TSK模糊分类器TSK-noise-FC。经典的TSK模糊分类器的输出 可以转换为以下线性回归问题
Figure BDA0002367344260000061
在传统的回归问题中,目标是最小化二次损失函数。根据结构风险最小化原则,并且考 虑到众包的实际情况,众包工人给出的答案包括确定的和不确定的,在此,我们将不确定的 标签标示为0,因此y∈{-1,+1,0},公式(6)的参数学习可以表示为以下形式:
Figure BDA0002367344260000062
其中,参数ag表示待学习的后件参数,ξi是预测误差,ρ代表了平衡训练误差和模型复 杂性的正则化因子。
在许多实际应用中,噪音在系统中是不可避免的。众包系统中的人为错误会在数据中产 生更多的不确定性。如果噪音数据处理不当,分类器的训练将受到很大影响。此外,考虑到 众包中的不确定数据并产生稳健的估计,因此,不等式约束被添加到目标函数中,如公式(7) 所示,其中,等式约束
Figure BDA0002367344260000063
满足所有的确定标签数据,不等式约束
Figure BDA0002367344260000064
Figure BDA0002367344260000065
满足所有的不确定标签数据,ε是一个很小的正数。
基于KKT理论,训练TSK-noise-FC等价于求解下面的对偶优化问题,其拉格朗日函数 构造为:
Figure BDA0002367344260000066
其中α,β,γ是拉格朗日乘子。
对于上述方程,通过优化学习理论,其对偶问题可以表示为如下的二次规划问题
Figure BDA0002367344260000071
从以上结果可以清楚地看出,TSK-noise-FC模糊分类器训练的优化问题可以转化为一个 QuadraticProgramming问题,记做QP问题,由现有的QP解决方案直接求解。利用对偶问题 的(9)式的拉格朗日乘子,我们能够得到原始问题(7)式的最优解。后件参数ag
Figure BDA0002367344260000072
推导过程如下:
Figure BDA0002367344260000073
Figure BDA0002367344260000074
Figure BDA0002367344260000075
拉格朗日函数为:
Figure BDA0002367344260000076
Figure BDA0002367344260000077
Figure BDA0002367344260000078
Figure BDA0002367344260000079
Figure BDA00023673442600000710
将公式(11)和公式(12)带入到拉格朗日函数中
Figure RE-GDA0002514551740000081
Figure RE-GDA0002514551740000082
因此,我们得到式(7)的对偶式
Figure BDA0002367344260000083
式(14)是个QP问题,带入QP求解之。
ζ=(α1,…,αMM+1,…,βNM+1,…,γN)T
Figure BDA0002367344260000084
把式(14)简化为如下的标准二次规划形式:
Figure BDA0002367344260000085
其中,Q=[qij](2N-M)*(2N-M)为核矩阵,
Figure BDA0002367344260000086
Figure BDA0002367344260000087
f=(y,-ε,-ε),y=(y1,y2,…,yM),ε=(ε12,…,εN-M),εi=ε,i=1,2,…,N-M
证毕。
因此,我们可以计算所有分类器的后件参数agi,i=1,2,…,L,一旦后件参数和规则组合矩 阵确定,L个TSK-noise-FC的输出就可以得到,然后,我们可以得到L个分类器在验证集上 的输出,输出表达如下:
Figure BDA0002367344260000091
其中,Xgi是验证集的模糊映射,其通过高斯函数求得,
Figure BDA0002367344260000093
是第i个TSK-noise-FC模糊 子分类器的输出。
TSK-noise-FC算法详细描述如下:
Figure BDA0002367344260000092
Figure BDA0002367344260000101
2.具有标签抗噪能力的集成TSK模糊分类器EW-TSK-CS
为了适应众包环境中标签矫正,提出具有标签抗噪能力的集成TSK模糊分类器EW-TSK-CS,本发明首先给出了EW-TSK-CS的结构,然后给出了EW-TSK-CS的学习算法 和算法的时间复杂度分析。
2.1 EW-TSK-CS的结构
EW-TSK-CS的结构如图1所示,Dtr是含有标签噪声的总训练集,X1,X2,…,XL分别是Dtr的子集,TSK-noise-FC-1到TSK-noise-FC-1表示L个TSK-noise-FC模糊子分类器, F1(x),F2(x),…,FL(x)是通过训练生成的L个子分类器的逼近函数。[C1(vi),…,Cd(vi),yi]是聚类后形成的中心点,即数据字典,此刻的维度和源数据维度相同,去掉了增强属性。 EW-TSK-CS的工作流程,首先在含有标签噪声的L个训练集上构建L个模糊分类器, TSK-noise-FC-1到TSK-noise-FC-L,然后将这些模糊子分类器分别作用于无噪的验证集上, 对验证集进行扩维,形成增强验证集,此刻增强验证集数据的维度是d+L,接着利用FCM算 法对增强验证集进行聚类,形成带有类标签的中心点,接着对中心点去掉增强属性,数据维 度恢复到原数据维度大小即d,最后使用KNN算法找到距离测试点最近的中心点,此中心点 的类标即是所求测试点的类别。
EW-TSK-CS模糊分类器主要分为两个模块:并行特征增强和标签噪音矫正机制,分别对 两个模块进行介绍。
1)基于并行学习的特征增强
首先从总训练集中随机选取L个子集,分别调用算法1训练L个TSK-noise-FC模糊分类 器,训练好后将这些分类器作用于验证集上,对验证集进行扩维。此模块主要是以并行递增 的学习方式生成增强数据,此增强验证数据带有明显的识别信息,有助于分类。通过并行特 征提取,不断的保留对学习任务有用的信息。
本模块主要功能是特征提取,进而形成增强验证数据,首先构建TSK-noise-FC模糊分类 器,前件中心点采用等间隔划分,规则随机组合,后件采用二次规划求解。可以构建L个改 进型TSK分类器,对于验证样本,在每一个模型中都有一个输出,把每一个输出当作一个属 性看待加入到原验证数据中,这样就实现了对数据的并行重构。优点是简单,速度快。除此 之外,所有构建的TSK-noise-FC分类器都可实现并行机制,大大缩短了运行时间。
参阅图2可以看出,EW-TSK-CS基于并行学习的特征增强模块有以下优点:a)各个子 分类器的训练样本均从总训练样本中随机抽取,训练样本不宜太多,少量即可,快速构建多 个简单的TSK-noise-FC模糊弱分类器,因此具有的模糊规则数很少。b)理想情况下,随着 TSK-noise-FC分类器数目的增加,不断的增加具有识别能力的新的特征信息到验证集中,形 成增强验证集,增强数据对原数据具有更本质的刻画,从而能最终提升分类或预测的准确性。 c)当原数据特征维数不是很多时,学习宽度不宜太多,分类器数目太多会造成对原有数据的 扭曲,随着分类器数目的增加,算法性能可能会不增反降。
2)标签噪音矫正
利用FCM聚类算法对增强验证集(augmented validation data)进行聚类。对增强验证集 中的正负类分别进行聚类,求得带标签的多代表中心点,即数据字典(DictionaryData),然 后利用KNN算法寻找距离测试点最近的带标签的多代表点,在这里,我们利用最经典的KNN 算法作为分类判别依据,选取距离测试点最近的1个代表点,这个代表点的类别作为测试数 据的预测类标,这是一种新的判别机制。参阅图1和图3可以看出:a)利用FCM进行聚类 之后,将中心点的增强属性全部去掉,只保留原有属性,也就是说恢复到原有维度大小,然 后再使用KNN算法,这样做的目的是,对于所有的测试点,不必再使用L个TSK-noise-FC 进行计算,从而降低了计算成本;b)提出了FCM+KNN新的分类决策机制,带有标签的多 代表点不会很多,利用KNN算法只需要找到距离测试点最近的一个代表点,这个代表点的 标签就是测试点的标签。因此,这种分类决策机制,简单,快捷,运行时间短。
综上,我们可以得出,EW-TSK-CS架构具有以下优点:
a)本发明提出的EW-TSK-CS具有标签抗噪能力,是为众包应用中的标签矫正而专门设 计的一种集成TSK模糊分类器。
b)本发明提出的子分类器TSK-noise-FC的构建具有以下随机性:每一个TSK-noise-FC 模糊规则随机组合,核函数宽度在0到1之间随机选取,样本数从总样本中随机抽取,由于 具有以上随机性,不用选参,寻找最优参数,判别机制也很简单。因此可以实现快速的构建。
c)本发明中只需要快速的构建多个简单的TSK-noise-FC弱分类器,因此模糊规则数不 需要太多。通常情况下,对于模糊分类器来说,规则数越少,可解释性越高。并且,组成EW-TSK-CS的所有子分类器并行运行,没有中间变量。因此,EW-TSK-CS具有高可解释性。
2.2 EW-TSK-CS的算法描述
Figure BDA0002367344260000121
2.3时间复杂度分析
分析EW-TSK-CS的时间复杂度。EW-TSK-CS由两部分组成,分别是并行特征增强和标 签矫正机制。在第一部分中,模糊子分类前件采用规则随机组合,构造规则组合矩阵Θ的时 间复杂度是O(5dKl),其中Kl是第l个子分类器的模糊规则数,构造核宽度矩阵Φ的时间复杂 度是O(dKl),生成矩阵Xg的时间复杂度是O(5Nld2Kl),后件采用QP求解参数,时间复杂度为
Figure BDA0002367344260000131
由于以并行的方式实现特征增强,因此这部分的时间复杂度和子分类器的个数无关, 因此第一部分的时间复杂度即拥有最大样本数的TSK-noise-FC的时间复杂度为
Figure BDA0002367344260000132
其中Nmax为具有最大样本数的子 分类器,K'为具有最大样本数的子分类器用到到模糊规则数。在标签噪音矫正阶段,FCM的 时间复杂度为O(Nvc2(d+L)Itermax),其中Nv是增强验证数据集样本数,Itermax是迭代次数, KNN的时间复杂度为O(NQcd),其中N是待矫正众包数据的样本的总数。因此,EW-TSK-CS 总的时间复杂度为
Figure BDA0002367344260000133
由于通过增加模糊分类器的 个数,降低每一个分类器的训练子集数量,通常情况下子集数不会太大,因此EW-TSK-CS 的时间复杂度和待矫正的众包数据样本数N线性相关。
3.实验与分析
为了验证本节所提出的EW-TSK-CS的性能,选取UCI数据集中的二分类数据集并模拟 众包中的真实环境。实验的运行环境是CPU Inter(R)Core(TM)i3-3240 CPU 3.40GHz,RAM 4GB,with Matlab2016a。
3.1实验设置
实验中用到7个UCI数据集,其详细信息如表1所述。由于多分类数据集的标签矫正比 较复杂,本发明中只专注于二分类标签的矫正。表1用到的所有的数据集都是二分类数据集。 每一个数据集被随机地划分20%作为验证集,10%作为测试集,70%作为训练集。为了模拟 众包中的真实数据环境,在训练集中分别随机加入5%和10%的标签噪音,即随机选取总训 练集的5%和10%样本,分别加入标签噪音(错误的标签和不确定的标签)。对于错误的标 签噪音设置,如果真实标签是正的,将其设置为负,反之亦然;对于不确定的标签噪音设置, 将原数据标签设置为0。
表1数据集描述
Figure BDA0002367344260000134
Figure BDA0002367344260000141
表2 EW-TSK-CS参数设置
数据集 每一类的中心点数 规则数
waveform3(WAV) 17~20 10~80
chess(CHE) 17~20 12~90
adult(ADU) 40~45 16~110
spambase(SPA) 16~18 12~94
seismic_bumps(SEI) 15~17 10~80
movement_AAL(MOV) 25~28 20~98
electricity_price(ELE) 23~25 16~106
表3模糊分类器参数设置
数据集 zero-order-TSK first-order-TSK
waveform3(WAV) 16~100 14~90
chess(CHE) 18~110 16~100
adult(ADU) 20~140 16~150
spambase(SPA) 16~108 14~90
seismic_bumps(SEI) 20~90 18~80
movement_AAL(MOV) 20~120 16~110
electricity_price(ELE) 16~130 14~120
EW-TSK-CS作为一种特殊的新型集成TSK模糊分类器,用来解决众包环境中的标签矫正 问题而被提出的。因此,在本实验中,对于对比算法的选取,我们有两方面考虑。一种是选 用经典的TSK模糊分类器,即零阶和一阶TSK模糊分类器(i.e.,zero-order-TSK和first-order-TSK);其次,选用常用来处理众包中标签噪音的经典集成算法,即GFS-Adaboost 和Ensemble-C,他们都来自于Keel toolbox。选用精度来衡量所有算法的性能,其表达公式如 下
Figure BDA0002367344260000142
其中,TP表示在正类中正确识别的样本数,FP表示在负类中错误识别的样本数,TN表 示在负类中正确识别的样本数,FN表示在正类中错误识别的样本数。
EW-TSK-CS中子分类器的个数,从3到8,间隔为1。最近邻k在集合{3,5,7}中寻最优值。规则化参数ρ设定为100,ε=0.1。EW-TSK-CS中每个数据集子分类器规则数搜索范围,和在验证集上每一类聚类的中心点数,如表2所示。对比算法中,GFS-Adaboost和Ensemble-C 来自于keel toolbox,所以采用默认参数。zero-order-TSK和first-order-TSK的模糊规则数设置 如表3所示。
3.2 UCI数据集仿真实验
图4至图9分别展示了子分类器数目在3~8时,每个数据集的平均测试精度。表4至表 9展示了本发明所提出的EW-TSK-CS和四个比较分类器在UCI数据集上的实验结果,分别是平均训练/测试精度和平均模糊规则数,并且分别模拟了含有5%和10%标签噪声的众包数 据。由于GFS-Adaboost-C和Ensemble-C两个集成分类器不涉及模糊规则,因此,其相应的值 表示为“--”。如表4至表9所示,TrAcc和TeAcc分别表示平均训练精度和平均测试精度。
表4五个分类器在Adult数据集上的性能比较
Figure BDA0002367344260000151
表5五个分类器在chess数据集上的性能比较
Figure BDA0002367344260000152
表6五个分类器在waveform3数据集上的性能比较
Figure BDA0002367344260000153
表7五个分类器在spambase数据集上的性能比较
Figure BDA0002367344260000154
Figure BDA0002367344260000161
表8五个分类器在seismic_bumps数据集上的性能比较
Figure BDA0002367344260000162
表9五个分类器在movement_AAL数据集上的性能比较
Figure BDA0002367344260000163
可以从以上实验结果中发现:
a)在所有6个数据集上,EW-TSK-CS取得了最高的训练精度或测试精度。取得这样的 结果,原因在于两个方面,首先,归功于上述提出的具有标签抗噪能力的模糊子分类器TSK-noise-FC,由于在目标函数的约束中考虑到了标签噪音的存在,因此它具有很强的鲁棒 性;其次,和zero-order TSK、first-order TSK、GFS-Adaboost-C和Ensemble-C不同的是, EW-TSK-CS的决策在于无噪音的增强验证数据,根据堆栈泛化原理,增强属性能够打开原始 数据空间的流行结构,从而能够保证EW-TSK-CS的分类性能。根据图4至图9,及表5至表 9,我们可以发现:1)当子分类器(工人)数目从3增加到8时,EW-TSK-CS的平均测试精 度也会随之增加,这和众包的初衷一致。然而,当分类器数目增加到某一个值时,与此同时,EW-TSK-CS取得最高测试精度,平均测试精度停止增加。例如在Adult数据集中,当子分类器数达到7时,取得最高精度。这意味着并不是子分类器越多,EW-TSK-CS的测试精度越高;2)当标签噪音从5%增加到10%时,用于众包标签矫正的传统方法—集成分类器 GFS-Adaboost-C和Ensemble-C,测试精度下降比较快,然而,EW-TSK-CS仍然保持较好的 可靠性。原因在于,每一个子分类器TSK-noise-FC的输出被当做验证集的一个增强属性,从 而打开原始验证数据的流行空间,真正的决策机制是基于无标签噪音的增强验证数据集,所以,EW-TSK-CS和其他分类器相比,具有较强的标签噪音抗噪能力。
b)从模糊规则的角度来观察,可以发现,EW-TSK-CS在每个数据集上所需的平均模糊 规则数比零阶和一阶TSK模糊分类器所需的模糊规则数都要少,通常情况下,对于模糊分类 器而言,所需的规则数越少,可解释下就越强。因此,EW-TSK-CS具有较强的可解释性。此 外,当标签噪音从5%增加到10%时,每个数据集所需的模糊规则数都会相应增加,因为更 多的标签噪音会对源数据产生更多的扰动,因此需要更多的模糊规则。
3.3非参数统计分析
为了观察所提出的模糊集成分类器EW-TSK-CS和所采用的模糊及集成对比算法之间是 否存在显著性差异,引入2种非参数测试方法Frideman Ranking测试和Holm post-hoc测试来 统计分析他们分别在所有6个数据集上分别含有5%和10%标签噪音的平均分类测试精度, 置信度α=0.05。首先,利用Frideman Ranking测试五个对比算法之间的差异性,图10(a)和图 10(b)给出了排序结果。显然,从图中可以看出,EW-TSK-CS获得了最佳的等级,这说明 EW-TSK-CS和其他四个对比算法之间具有显著性差异,不管在含有5%的高斯噪音数据上还 是10%的高斯噪音数据上。接着,利用Holm post-hoc测试来进一步评估EW-TSK-CS和四个 对比算法之间的差异性。从表10和表11可以看出,除了first-order TSK之外,EW-TSK-CS 对于所有其他算法都是拒绝(Rejected),说明他们之间存在着显著性差异。
表10含有5%标签噪音Holm测试
i Classifier z p Holm=α/i Hypothesis
4 GFS-Adaboost-C 3.834 1.26e-4 0.0125 Rejected
3 Ensemble-C 3.468 5.23e-4 0.0167 Rejected
2 zero-order TSK 2.556 0.0105 0.025 Rejected
1 first-order TSK 1.095 0.2733 0.05 Not Rejected
表11含有10%标签噪音Holm测试
Figure BDA0002367344260000171
Figure BDA0002367344260000181
3.4电力价格数据集实验
为了更进一步展示EW-TSK-CS的可解释性,我们以电力价格数据集electricity_price为 例。原始的electricity_price数据集总共由45312个样本,9个特征组成,我们只选择其中的5 个特征,相应的表示为“F1”,“F2”,“F3”,“F4”,“F5”。由于electricity_price的前17660个样本存在信息丢失的问题,我们选择其中的27552个样本来验证本章所提算法的性能。electricity_price是一个两分类问题,分别表示电力价格的上升和下降,表示为“+” 和“—”。表12给出了EW-TSK-CS和四个对比算法在数据集electricity_price上运行的实验 结果,从实验结果可以看出,EW-TSK-CS取得了最优的训练和测试精度,不管是在5%的标 签噪音还是10%的标签噪音上,并且需要最少的平均模糊规则数。EW-TSK-CS具有较强的标 签抗噪能力,实验结论和2.2节完全一致。为了在数据集electricity_price上进一步展示 EW-TSK-CS的可解释性,当EW-TSK-CS在5%标签噪音取得最优分类精度时,取某一次运 行中第一个子分类器的前五条模糊规则进行展示,如表13所示。由于EW-TSK-CS中,每条 模糊规则的前件高斯核中心是从集合{0,0.25,0.5,0.75,1}中随机选取,因而具有相应的语义解 释:非常小,小,中,大,非常大。虽然不同的专家根据自己的经验不同,可能会有不同的 语义解释。对应的中心我们在此表示为“VL”“L”“M”“H”“VH”。
表12五个分类器在electricity_price数据集上的性能比较
Figure BDA0002367344260000182
表13 EW-TSK-CS在electricity_price数据集上的模糊规则
Figure BDA0002367344260000183
Figure BDA0002367344260000191
以第一条模糊规则为例,EW-TSK-CS的模糊规则形式为:
Figure BDA0002367344260000192
Then f1(x)=1.0738
为了能够解决众包系统中的标签噪音矫正问题,本发明提出了一种改进型具有标签抗噪 能力的集成TSK模糊分类器EW-TSK-CS。在EW-TSK-CS中,每一个子分类器TSK-noise-FC 在原始零阶TSK模糊分类器目标函数的基础上,增加了两个约束,分别对于不确定标签和错 误标签,即标签噪音,因此TSK-noise-FC具有较强的标签噪音抗噪能力。在EW-TSK-CS的 决策阶段,采用模糊聚类+KNN的策略。由于在此只考虑二分类问题的中的标签噪音问题, 因此决策阶段选用FCM+KNN。每一个子分类器的输出被当做验证数据的特征从而打开原始 数据空间中的流行结构,从而保证了所提出的EW-TSK-CS的高效性。在实验部分,在UCI 数据集上模拟真实众包环境中的标签噪音矫正问题,与经典的模糊分类器和常用的标签矫正 集成分类器进行对比,验证了所提出的EW-TSK-CS的性能。最后在电力价格数据集上展示 了集成模糊分类器EW-TSK-CS的高可解释性。
上述实施例是对本发明的说明,不是对本发明的限定,任何对本发明简单变换后的方案 均属于本发明的保护范围。

Claims (5)

1.一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:依次包括以下步骤:
S1.利用含有标签噪音的两分类数据集构建多个TSK-noise-FC模糊子分类器,在挑选出的不含噪音数据的验证集上产生多个增强属性,从而生成增强验证集;
S2.利用经典的模糊聚类算法FCM算法对增强验证集进行聚类,形成含有标签的多代表点数据,记做数据字典,利用生成的数据字典,对含有标签噪音的数据进行快速矫正,对于每一个含噪音数据的众包数据,找到其最近的代表点,该代表点的标签就是预测的结果。
2.如权利要求1所述的一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:所述步骤S1的具体过程为:在含有标签噪声的L个训练子集上构建L个模糊子分类器,TSK-noise-FC-1到TSK-noise-FC-L,然后将这些模糊子分类器分别作用于不含噪音数据的验证集上,对验证集进行扩维,形成增强验证集。
3.如权利要求1所述的一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:所述步骤S2的具体过程为:利用FCM聚类算法对增强验证集进行聚类,对增强验证集中的正负类分别进行聚类,求得带标签的多代表中心点,对中心点去掉增强属性,数据维度恢复到原数据维度大小,然后使用KNN算法找到距离测试点最近的中心点,该中心点的类标作为所求测试点的类别。
4.如权利要求1所述的一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:所述TSK-noise-FC模糊分类器所采用的算法1为:
a)算法1的输入:第l个训练子集
Figure FDA0002367344250000011
对应的标签集
Figure FDA0002367344250000012
其中xi∈Rd,yi∈{-1,+1,0},i=1,2,…,Nl,模糊规则数Kl,参数ε=(ε12,…,εN-M),εi=ε,i=1,2,…,N-M;
b)算法1的输出:模糊规则和子分类器的输出函数
Figure FDA0002367344250000013
c)算法1的学习过程如下:
c1)通过从集合{0,0.25,0.5,0.75,1}随机选择一个特征值,构造规则组合矩阵
Figure FDA0002367344250000014
表示五个高斯函数中哪一个被选择;
c2)通过随机选择一个正数,构造核宽度矩阵
Figure FDA0002367344250000015
c3)根据规则组合矩阵和核宽度矩阵,构造每一条模糊规则的模糊隶属度,利用公式(1)计算,并且
Figure FDA0002367344250000021
Figure FDA0002367344250000022
其中j=1,2,…,d,k=1,2,…,Kl,归一化并构造矩阵Xg
Figure FDA0002367344250000023
第l个TSK-noise-FC TSK模糊分类器的前件参数可计算得出;
c4)根据公式(3),计算后件参数ag
Figure FDA0002367344250000024
其中α,β,γ是拉格朗日乘子,在公式(4)求得
Figure FDA0002367344250000025
其中,Q=[qij](2N-M)*(2N-M)为核矩阵,
Figure FDA0002367344250000026
Figure FDA0002367344250000027
f=(y,-ε,-ε),y=(y1,y2,…,yM),ε=(ε12,…,εN-M),εi=ε,i=1,2,…,N-M
ζ=(α1,…,αMM+1,…,βNM+1,…,γN)T
c5)计算第l个TSK-noise-FC TSK模糊子分类器的输出
yl=Xgag (5)。
5.如权利要求4所述的一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:该方法所采用的算法2具体为:
a)算法2的输入:训练数据Dtr=[Xtr Ytr],验证数据Dv=[Xv Yv],其中Xtr和Xv代表数据,Ytr和Yv代表标签,分类器个数L,K1,K2,…,KL表示每一个子分类器的模糊规则数;
b)算法2的输出:代表性中心点及其标签;
c)算法2的训练过程:
c1)初始化
从两分类训练数据集Dtr中随机抽取各子分类器的训练子集D1,D2,…,DL,并且D1∪D2∪……∪DL=Dtr,在对应标签Y1,Y2,…,YL中加入噪音标签,对于错误标签,翻转其对应的标签值,对于不确定的标签,其对应的标签值设置为0;
c2)以并行学习的方式学习第L个TSK-noise-FC模糊子分类器:
c2.1)为每一个子分类器指派模糊规则数,
c2.2)通过调用算法1,并行生成L个子分类器,
c2.3)输出L个子分类器的输出函数F1(x),F2(x),......,FL(x)并将其值作为源数据的增强特征;
c3)生成增强验证数据集:
计算验证数据集的每一个样本的输出函数值F1(x),F2(x),......,FL(x),生成增强验证数据集
Figure FDA0002367344250000031
其中
Figure FDA0002367344250000032
表示源数据,Xv表示增强数据;
d)生成代表性中心点及其标签:
在增强验证数据集
Figure FDA0002367344250000033
上调用FCM生成代表性中心点及其标签;
e)测试过程:
e1)对于含有噪音的众包数据,在代表性中心点上利用KNN对其标签进行快速矫正,
e2)输出矫正后的众包数据。
CN202010039850.8A 2020-01-15 2020-01-15 一种基于集成tsk模糊分类器的众包质量提升的方法 Active CN111444937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010039850.8A CN111444937B (zh) 2020-01-15 2020-01-15 一种基于集成tsk模糊分类器的众包质量提升的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010039850.8A CN111444937B (zh) 2020-01-15 2020-01-15 一种基于集成tsk模糊分类器的众包质量提升的方法

Publications (2)

Publication Number Publication Date
CN111444937A true CN111444937A (zh) 2020-07-24
CN111444937B CN111444937B (zh) 2023-05-12

Family

ID=71652474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010039850.8A Active CN111444937B (zh) 2020-01-15 2020-01-15 一种基于集成tsk模糊分类器的众包质量提升的方法

Country Status (1)

Country Link
CN (1) CN111444937B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814917A (zh) * 2020-08-28 2020-10-23 成都千嘉科技有限公司 一种存在模糊态的字轮图像数字识别方法
CN115205011A (zh) * 2022-06-15 2022-10-18 海南大学 基于lsf-fc算法的银行用户画像模型生成方法
CN115293300A (zh) * 2022-10-09 2022-11-04 广东技术师范大学 基于tsk模糊语义的心律失常分类方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799902A (zh) * 2012-08-13 2012-11-28 南京师范大学 一种基于代表性样本的增强型关系分类器
CN105069471A (zh) * 2015-07-31 2015-11-18 西安电子科技大学 基于模糊标签的高光谱数据子空间投影和分类方法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks
CN108665070A (zh) * 2018-05-16 2018-10-16 深圳大学 基于极限学习机的极限ts模糊推理方法及系统
CN109284315A (zh) * 2018-08-24 2019-01-29 大连莫比嗨客智能科技有限公司 一种众包模式下的标签数据统计推断方法
US20190236478A1 (en) * 2018-01-29 2019-08-01 Slice Technologies, Inc. Quality of labeled training data
CN110298434A (zh) * 2019-05-27 2019-10-01 湖州师范学院 一种基于模糊划分和模糊加权的集成深度信念网络
CN110349187A (zh) * 2019-07-18 2019-10-18 深圳大学 基于tsk模糊分类器的目标跟踪方法、装置及存储介质
WO2019218263A1 (zh) * 2018-05-16 2019-11-21 深圳大学 基于极限学习机的极限ts模糊推理方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799902A (zh) * 2012-08-13 2012-11-28 南京师范大学 一种基于代表性样本的增强型关系分类器
CN105069471A (zh) * 2015-07-31 2015-11-18 西安电子科技大学 基于模糊标签的高光谱数据子空间投影和分类方法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks
US20190236478A1 (en) * 2018-01-29 2019-08-01 Slice Technologies, Inc. Quality of labeled training data
CN108665070A (zh) * 2018-05-16 2018-10-16 深圳大学 基于极限学习机的极限ts模糊推理方法及系统
WO2019218263A1 (zh) * 2018-05-16 2019-11-21 深圳大学 基于极限学习机的极限ts模糊推理方法及系统
CN109284315A (zh) * 2018-08-24 2019-01-29 大连莫比嗨客智能科技有限公司 一种众包模式下的标签数据统计推断方法
CN110298434A (zh) * 2019-05-27 2019-10-01 湖州师范学院 一种基于模糊划分和模糊加权的集成深度信念网络
CN110349187A (zh) * 2019-07-18 2019-10-18 深圳大学 基于tsk模糊分类器的目标跟踪方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TA ZHOU ET.AL: "Deep TSK Fuzzy Classifier With Stacked Generalization and Triplely Concise Interpretability Guarantee for Large Data" *
蒋亦樟等: "多视角模糊双加权可能性聚类算法" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814917A (zh) * 2020-08-28 2020-10-23 成都千嘉科技有限公司 一种存在模糊态的字轮图像数字识别方法
CN111814917B (zh) * 2020-08-28 2020-11-24 成都千嘉科技有限公司 一种存在模糊态的字轮图像数字识别方法
CN115205011A (zh) * 2022-06-15 2022-10-18 海南大学 基于lsf-fc算法的银行用户画像模型生成方法
CN115205011B (zh) * 2022-06-15 2023-08-08 海南大学 基于lsf-fc算法的银行用户画像模型生成方法
CN115293300A (zh) * 2022-10-09 2022-11-04 广东技术师范大学 基于tsk模糊语义的心律失常分类方法及系统

Also Published As

Publication number Publication date
CN111444937B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与系统
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
Minaei-Bidgoli et al. Ensembles of partitions via data resampling
Demidova et al. Big data classification using the SVM classifiers with the modified particle swarm optimization and the SVM ensembles
Polikar et al. Learn++. MF: A random subspace approach for the missing feature problem
CN111444937B (zh) 一种基于集成tsk模糊分类器的众包质量提升的方法
CN111444342B (zh) 一种基于多重弱监督集成的短文本分类方法
CN107292225B (zh) 一种人脸识别方法
Afsari et al. Group action induced distances for averaging and clustering linear dynamical systems with applications to the analysis of dynamic scenes
CN105023006B (zh) 基于增强型非参数最大边缘准则的人脸识别方法
Miller et al. Critic-driven ensemble classification
CN105868796A (zh) 基于核空间的线性鉴别稀疏表示分类器的设计方法
Zoidi et al. Multiplicative update rules for concurrent nonnegative matrix factorization and maximum margin classification
Zhang et al. Supervised feature selection algorithm via discriminative ridge regression
Guo et al. Deep embedded k-means clustering
Arowolo et al. A hybrid dimensionality reduction model for classification of microarray dataset
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
Antosik et al. New measures of classifier competence-heuristics and application to the design of multiple classifier systems
Liu et al. A weight-incorporated similarity-based clustering ensemble method
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values
Bandyopadhyay et al. Hierarchical clustering using auto-encoded compact representation for time-series analysis
Jena et al. Elitist TLBO for identification and verification of plant diseases
CN113378009A (zh) 基于二元决策图的二值神经网络定量分析方法
Wang et al. Cosine kernel based density peaks clustering algorithm
Yang et al. Dynamic Weighting Ensembles for incremental learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant