CN114818979A - 一种基于最大化间隔机制的含噪多标记分类方法 - Google Patents

一种基于最大化间隔机制的含噪多标记分类方法 Download PDF

Info

Publication number
CN114818979A
CN114818979A CN202210576145.0A CN202210576145A CN114818979A CN 114818979 A CN114818979 A CN 114818979A CN 202210576145 A CN202210576145 A CN 202210576145A CN 114818979 A CN114818979 A CN 114818979A
Authority
CN
China
Prior art keywords
model
confidence
label
mark
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210576145.0A
Other languages
English (en)
Inventor
张敏灵
朱雅婷
杨浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210576145.0A priority Critical patent/CN114818979A/zh
Publication of CN114818979A publication Critical patent/CN114818979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于最大化间隔机制的含噪多标记分类方法,该方法适用于标记空间含有噪声的多标记数据分类场景。该方法包括以下步骤:(1)用户在保证完全获得真实标记的前提下收集多标记数据;(2)使用标记置信度来表示标记信息,为每个标记初始化置信度值;(3)将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题,求得凸优化问题的最优解生成多标记分类模型;(4)根据训练得到的分类模型对未见示例进行预测,得到每个类别的分类结果;(5)如果用户对预测结果满意,则结束,否则转到步骤(2),为每个标记重新初始化置信度值。

Description

一种基于最大化间隔机制的含噪多标记分类方法
技术领域
本发明涉及一种多标记数据分类方法,具体是一种基于最大化间隔机制的含噪多标记分类方法,属于弱监督分类技术领域。
背景技术
在多标记学习中,一个示例会关联多个正确的语义标记,学习系统的目标是利用多标记数据集构造输入空间(特征空间)到输出空间(标记空间)的映射关系,用于预测未见示例的一组正确标记集合。在传统的多标记学习任务中最关键的假设在于多标记数据集中每个示例均被赋予其正确的语义标记集合,然而现实生活中,精确地给每个示例赋予标记是很困难的。在很多任务中,可能会出现标记错误、标记缺失或标记冗余等情况,导致多标记数据集中标记信息包含噪声,而研究此类多标记数据集的框架统称为含噪多标记学习框架。
本发明研究的是其中标记冗余的含噪多标记学习任务,每个示例会关联一组候选标记集合,示例的真实标记未知但隐藏于候选标记集合中。学习系统的目标是在已知的弱监督信息下学习输入空间到输出空间的映射关系,用于预测未见示例的一组正确标记集合。为了解决数据集中含有噪声的问题,目前已有的方法主要分为两大类:消歧方法与非消歧方法。消歧方法分为两个阶段,第一阶段对数据集中候选标记集合消歧得到不含噪声标记的数据集,第二阶段利用消歧的数据集使用多标记学习方法进行模型训练,此类方法的重点在于如何对数据集进行消歧,这将直接影响学习模型的分类性能。而非消歧方法则直接利用原始含有噪声的数据集信息进行模型学习。
发明内容
在含噪多标记分类任务中,由于候选标记集合中含有噪声,传统的多标记分类模型无法表现优异的性能。已有的方法中常利用元学习、生成对抗网络等方法来处理含噪多标记分类问题,而很少利用传统的机器学习模型,因此本发明基于传统机器学习模型提出一种含噪多标记分类方法,将传统的SVM模型进行改进使其适用于含噪多标记分类任务。直接在含噪多标记数据集上进行学习,构建预测模型,提高多标记分类模型的性能。
技术方案:本发明提出一种基于最大化间隔机制的含噪多标记分类方法,将含噪标记信息整合到传统SVM框架上,并为候选标记集合中每个标记学得置信度,将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题。该方法包括以下步骤:(1)用户在保证完全获得真实标记的前提下收集多标记数据(不可避免会含有噪声);(2)使用标记置信度来表示标记信息,为每个标记初始化置信度值;(3)将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题,求得凸优化问题的最优解得到分类模型;(4)根据训练得到的分类模型对未见示例进行预测,得到每个类别的分类结果;(5)如果用户对预测结果满意,则结束,否则转到步骤(2),为每个标记重新初始化置信度值。
本发明进一步优选,所述步骤(2)具体包括:
假设
Figure BDA0003662224630000031
表示d维的示例空间,Y={y1,y2,…,yq}表示含有q个类别的标记空间。给定含噪多标记数据集D={(x1,S1),(x2,S2),…,(xm,Sm)},包含m个示例的,其中
Figure BDA0003662224630000032
为d维的属性向量,而
Figure BDA0003662224630000033
为与示例xi对应的一组候选标记集合。此外,
Figure BDA0003662224630000034
表示与示例xi对应的一组非候选标记集合;Yi为示例xi的真实标记集合;
为了更好的区别候选标记集合中的真实标记与噪声标记,定义置信度θij表示标记yj能成为示例xi的真实标记的可能性,θij越大表示标记yj为示例xi的真实标记的可能性越大;当θij=1时表示标记yj是示例xi的真实标记,当θij=0时表示标记yj是示例xi的不相关标记;显然,当
Figure BDA0003662224630000035
时,θij=0,即与示例xi对应的非候选标记集合中的所有标记均为该示例的不相关标记;
因此,初始化标记置信度时,当yj∈Si时,
Figure BDA0003662224630000036
Figure BDA0003662224630000037
时,θij=0。
本发明进一步优选,步骤(3)具体包括:
基于上述符号定义,为标记空间Y中每个标记yp分别学习一个线性分类器fp(xi)=<ωp,xi>+bp,其中ωp∈Rd为线性分类器的权重向量,bp∈R为线性分类器的偏置;对此,将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题,目标函数如下所示:
Figure BDA0003662224630000038
Figure BDA0003662224630000041
上式中第一项为模型的结构损失函数,通过此项约束模型自身的复杂度,从一定程度上防止模型过拟合;第二项为模型的经验损失函数,优化此损失函数让模型拟合训练样本,防止模型发生欠拟合的问题;其中ξik为松弛变量,用于度量样本违背约束的程度,当样本违背约束的程度越大,松弛变量的值也会越大;ξik是通过示例xi非候选标记集合中的标记yk学习得到的松弛变量,如式(2)所示;考虑到样本具有多义性,为了保证模型对标记置信度学习的公平性,第三项中对置信度加以约束;
Figure BDA0003662224630000042
公式(1)的目标是最小化模型的损失误差,包括模型的结构损失、经验损失以及对置信度值的约束;由于公式中需要学习的变量较多,因此可以采取交替迭代优化策略,将优化分为两个阶段,第一阶段中固定置信度θ求解模型权重ω和偏置b,第二阶段中固定模型权重ω和偏置b求解置信度θ,每个阶段中各利用二次规划工具包求解;
本发明进一步优选,(3.1)第一阶段:当置信度θ固定时,公式(1)的优化目标如下:
Figure BDA0003662224630000051
构造公式(3)的拉格朗日函数如下:
Figure BDA0003662224630000052
上式中αik≥0,βik≥0;
对公式(4)分别关于ωp,bpik求导并令导数为0可得如下公式:
Figure BDA0003662224630000061
Figure BDA0003662224630000062
C=αikik (7)上式中II(·)为指示函数,当·为真时指示函数取值为1,否则取值为0。将公式(5)-(7)带入公式(4)可得原问题的对偶问题
Figure BDA0003662224630000063
的优化目标如下所示:
Figure BDA0003662224630000064
(3.2)第二阶段:当模型权重ω和偏置b固定时,公式(1)的优化目标如下:
Figure BDA0003662224630000065
本发明的有益效果:
1、本发明将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题,通过交替迭代优化策略为每个标记学得一个分类模型,使得候选标记集合中模型的加权输出与非候选标记集合中模型的最大输出之间间隔最大化。
2、在含有噪声标记的数据集上同时学得标记置信度与多标记分类模型。验证了传统机器学习模型的有效性,并在一定程度上降低了噪声标记的影响。
附图说明
图1是文档分类装置的工作流程图;
图2是本发明方法的流程图;
图3是分类模型构建阶段的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
如图1所示,以文档分类的过程为例。文档存储设备中包含了大量有歧义的主题文档,每个文档被标记为了多个主题,其中只有少部分主题属于此文档的真实主题,且真实主题个数未知。在对文档真实主题进行判断时,用户首先从全部有歧义的文档中选择N篇样例文档提交给文档分类器(计算机模型)处理。此时需要对待分类的文档提取特征,这一步一般使用一些针对中文文本的特征降维技术,例如词频(Term Frequency,记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency,记为TF-IDF)等。提取完文档的特征后,本发明提出的文档分类器先为每个主题初始化置信度值,并为每个主题生成一个线性分类器,再通过求解经验损失、铰链损失与置信度约束最小化的凸优化问题得到最终的分类模型。当有未知主题的文档需要预测时,以同样的方式抽取特征,再用此分类模型预测并返回分类结果。如图1所示。如果用户对所得结果不满意,可以从文档库中选取更多的样例文档反馈给文档分类装置。
本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的样例文档集合D={(x1,S1),(x2,S2),…,(xm,Sm)},其中样本
Figure BDA0003662224630000081
为d维的特征向量,而
Figure BDA0003662224630000082
为与样本xi对应的一组候选标记集合。Yi为样本xi的真实标记集合,Yi未知且
Figure BDA0003662224630000083
在步骤11中,为每个标记初始化置信度值。在步骤12中,先为每个标记生成一个线性分类器,再通过求解经验损失、铰链损失与置信度约束最小化的凸优化问题得到最终的分类模型,具体转化在图3介绍。步骤13中,利用步骤12得到的预测模型对文档存储设备中未分类的文档进行分类并返回分类结果。最后进入步骤14的结束状态。
图3给出了步骤12的详细描述。步骤1200是起始动作。步骤1201至步骤1205构成循环体,循环的每一轮中对目标函数进行一次迭代优化求解。具体来说,为标记空间Y中每个标记yp分别学习一个线性分类器fp(xi)=<ωp,xi>+bp,其中ωp∈Rd为线性分类器的权重向量,bp∈R为线性分类器的偏置。对此,将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题,目标函数如下所示:
Figure BDA0003662224630000091
上式中第一项为模型的结构损失函数,通过此项约束模型自身的复杂度,从一定程度上防止模型过拟合。第二项为模型的经验损失函数,优化此损失函数让模型拟合训练样本,防止模型发生欠拟合的问题。其中ξik为松弛变量,用于度量样本违背约束的程度,当样本违背约束的程度越大,松弛变量的值也会越大。ξik是通过示例xi非候选标记集合中的标记yk学习得到的松弛变量,如式(2)所示。考虑到样本具有多义性,为了保证模型对标记置信度学习的公平性,第三项中对置信度加以约束。
Figure BDA0003662224630000092
公式(1)的目标是最小化模型的损失误差,包括模型的结构损失、经验损失以及对置信度值的约束。由于公式中需要学习的变量较多,因此可以采取交替迭代优化策略,将优化分为两个阶段,第一阶段中固定置信度θ求解模型权重ω和偏置b,第二阶段中固定模型权重ω和偏置b求解置信度θ,每个阶段中各利用二次规划工具包求解。步骤1203中当置信度θ固定时,公式(1)的优化目标如下:
Figure BDA0003662224630000101
构造公式(3)的拉格朗日函数如下:
Figure BDA0003662224630000102
上式中αik≥0,βik≥0。对公式(4)分别关于ωp,bpik求导并令导数为0可得如下公式:
Figure BDA0003662224630000111
Figure BDA0003662224630000112
C=αikik (7)
上式中II(·)为指示函数,当·为真时指示函数取值为1,否则取值为0。将公式(5)-(7)带入公式(4)可得原问题的对偶问题
Figure BDA0003662224630000113
的优化目标如下所示:
Figure BDA0003662224630000114
步骤1204中当模型权重ω和偏置b固定时,公式(1)的优化目标如下:
Figure BDA0003662224630000115
Figure BDA0003662224630000121
经过T轮交替迭代得到最终分类模型的权重ω和偏置b,随即进入步骤1206的结束状态。
本发明给出了一种基于最大化间隔机制的含噪多标记分类方法,将含噪标记信息整合到传统SVM框架上,并为候选标记集合中每个标记学得置信度,将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题。通过交替迭代优化策略为每个标记学得一个分类模型,使得候选标记集合中模型的加权输出与非候选标记集合中模型的最大输出之间间隔最大化。简单来说,该算法在含有噪声标记的数据集上同时学得标记置信度与多标记分类模型。基于这种方法进行学习和训练,可以提高多标记分类模型的有效性、稳定性和鲁棒性。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (4)

1.一种基于最大化间隔机制的含噪多标记分类方法,其特征在于:该方法包括以下步骤:
步骤(1)用户在保证完全获得真实标记的前提下收集多标记数据;
步骤(2)使用标记置信度来表示标记信息,为每个标记初始化置信度值;
步骤(3)将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题,求得凸优化问题的最优解生成多标记分类模型;
步骤(4)根据训练得到的分类模型对未见示例进行预测,得到每个类别的分类结果;
步骤(5)如果用户对预测结果满意,则结束,否则转到步骤(2),为每个标记重新初始化置信度值。
2.根据权利要求1所述的一种基于最大化间隔机制的含噪多标记分类方法,其特征在于:所述步骤(2)具体包括:
假设
Figure FDA0003662224620000011
表示d维的示例空间,Y={y1,y2,…,yq}表示含有q个类别的标记空间。给定含噪多标记数据集D={(x1,S1),(x2,S2),…,(xm,Sm)},包含m个示例的,其中
Figure FDA0003662224620000012
为d维的属性向量,而
Figure FDA0003662224620000013
为与示例xi对应的一组候选标记集合。此外,
Figure FDA0003662224620000014
表示与示例xi对应的一组非候选标记集合;Yi为示例xi的真实标记集合;
为了更好的区别候选标记集合中的真实标记与噪声标记,定义置信度θij表示标记yj能成为示例xi的真实标记的可能性,θij越大表示标记yj为示例xi的真实标记的可能性越大;当θij=1时表示标记yj是示例xi的真实标记,当θij=0时表示标记yj是示例xi的不相关标记;显然,当
Figure FDA0003662224620000015
时,θij=0,即与示例xi对应的非候选标记集合中的所有标记均为该示例的不相关标记;
因此,初始化标记置信度时,当yj∈Si时,
Figure FDA0003662224620000016
Figure FDA0003662224620000017
时,θij=0。
3.根据权利要求1所述的一种基于最大化间隔机制的含噪多标记分类方法,其特征在于:步骤(3)具体包括:
基于上述符号定义,为标记空间Y中每个标记yp分别学习一个线性分类器fp(xi)=<ωp,xi>+bp,其中ωp∈Rd为线性分类器的权重向量,bp∈R为线性分类器的偏置;对此,将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题,目标函数如下所示:
Figure FDA0003662224620000021
上式中第一项为模型的结构损失函数,通过此项约束模型自身的复杂度,从一定程度上防止模型过拟合;第二项为模型的经验损失函数,优化此损失函数让模型拟合训练样本,防止模型发生欠拟合的问题;其中ξik为松弛变量,用于度量样本违背约束的程度,当样本违背约束的程度越大,松弛变量的值也会越大;ξik是通过示例xi非候选标记集合中的标记yk学习得到的松弛变量,如式(2)所示;考虑到样本具有多义性,为了保证模型对标记置信度学习的公平性,第三项中对置信度加以约束;
Figure FDA0003662224620000022
公式(1)的目标是最小化模型的损失误差,包括模型的结构损失、经验损失以及对置信度值的约束;由于公式中需要学习的变量较多,因此可以采取交替迭代优化策略,将优化分为两个阶段,第一阶段中固定置信度θ求解模型权重ω和偏置b,第二阶段中固定模型权重ω和偏置b求解置信度θ,每个阶段中各利用二次规划工具包求解。
4.根据权利要求3所述的一种基于最大化间隔机制的含噪多标记分类方法,其特征在于:(3.1)第一阶段:当置信度θ固定时,公式(1)的优化目标如下:
Figure FDA0003662224620000031
构造公式(3)的拉格朗日函数如下:
Figure FDA0003662224620000032
上式中αik≥0,βik≥0;
对公式(4)分别关于ωp,bpik求导并令导数为0可得如下公式:
Figure FDA0003662224620000041
Figure FDA0003662224620000042
C=αikik (7)
上式中
Figure FDA0003662224620000043
为指示函数,当·为真时指示函数取值为1,否则取值为0。将公式(5)-(7)带入公式(4)可得原问题的对偶问题
Figure FDA0003662224620000044
的优化目标如下所示:
Figure FDA0003662224620000045
(3.2)第二阶段:当模型权重ω和偏置b固定时,公式(1)的优化目标如下:
Figure FDA0003662224620000046
CN202210576145.0A 2022-05-25 2022-05-25 一种基于最大化间隔机制的含噪多标记分类方法 Pending CN114818979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210576145.0A CN114818979A (zh) 2022-05-25 2022-05-25 一种基于最大化间隔机制的含噪多标记分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210576145.0A CN114818979A (zh) 2022-05-25 2022-05-25 一种基于最大化间隔机制的含噪多标记分类方法

Publications (1)

Publication Number Publication Date
CN114818979A true CN114818979A (zh) 2022-07-29

Family

ID=82517564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210576145.0A Pending CN114818979A (zh) 2022-05-25 2022-05-25 一种基于最大化间隔机制的含噪多标记分类方法

Country Status (1)

Country Link
CN (1) CN114818979A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758223A (zh) * 2022-12-05 2023-03-07 重庆邮电大学 一种智能数据噪声筛选方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758223A (zh) * 2022-12-05 2023-03-07 重庆邮电大学 一种智能数据噪声筛选方法
CN115758223B (zh) * 2022-12-05 2023-10-27 千一禾盛(北京)科技有限公司 一种智能数据噪声筛选方法

Similar Documents

Publication Publication Date Title
Xu et al. Survey on multi-output learning
Liu et al. The emerging trends of multi-label learning
Xu et al. Label enhancement for label distribution learning
Ren et al. Cotype: Joint extraction of typed entities and relations with knowledge bases
Sener et al. Learning transferrable representations for unsupervised domain adaptation
Zhang et al. Zero-shot recognition via structured prediction
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
Zhang A survey of unsupervised domain adaptation for visual recognition
Rahman et al. Classifying non-functional requirements using RNN variants for quality software development
Reyes et al. Effective lazy learning algorithm based on a data gravitation model for multi-label learning
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
Huang et al. Siamese network-based supervised topic modeling
Washio et al. Neural latent relational analysis to capture lexical semantic relations in a vector space
Patel et al. Dynamic lexicon generation for natural scene images
Todorov et al. Mining concept similarities for heterogeneous ontologies
Monka et al. Learning visual models using a knowledge graph as a trainer
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN113282714A (zh) 一种基于区分性词向量表示的事件检测方法
Padate et al. Image caption generation using a dual attention mechanism
CN114818979A (zh) 一种基于最大化间隔机制的含噪多标记分类方法
Lang et al. A Survey on Out-of-Distribution Detection in NLP
Mehyadin et al. Classification based on semi-supervised learning: A review
Lei et al. Hierarchical learning of large-margin metrics for large-scale image classification
Zhang et al. Projected-prototype based classifier for text categorization
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination