CN110427973B

CN110427973B - 一种面向歧义标注样本的分类方法

Info

Publication number: CN110427973B
Application number: CN201910614555.8A
Authority: CN
Inventors: 张敏灵; 吴璇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2023-07-18
Anticipated expiration: 2039-07-09
Also published as: CN110427973A

Abstract

本发明公开了一种面向歧义标注样本的分类方法，适用于对标记集合中存在歧义的样本进行分类。该方法包括以下步骤：(1)用户从样本存储设备中选样本；(2)根据样本自身特性提取特征，并整理对应的标记集合；(3)采用标记成对比较方法，将原始样本集重构为多个多分类样本集，并学习对应分类器；(4)使用学习所得分类器，对待测样本进行分类，并对各个标记进行投票；(5)如果用户对上一步预测的结果满意则结束，否则从样本存储设备中选择更多的样本进行训练，并转到步骤(2)。

Description

一种面向歧义标注样本的分类方法

技术领域

本发明涉及一种分类方法，具体是针对样本标注中存在歧义的情况，属于弱监督分类技术领域。

背景技术

分类是许多实际问题的基本子任务，在互联网时代，存在海量的图片、文档、商品等信息，如何高效准确地返回用户搜索的目标，或进行精准地推荐，均依赖于对样本高效地归类。机器学习的发展，为自动化分类海量样本提供了更为便捷的选择。该类方法，首先选取部分具有明确标注的样本，将提取的特征与对应的标记提交至学习算法并学得分类器，之后将待分类的样本送至分类器，即可得到该待测样本的类别标记。

使用机器学习对样本进行分类并得到泛化性能较强的分类器，需要满足强监督的假设，即拥有大量的训练样本，且训练样本具有明确的标记。在大数据时代，大量的训练样本并不难获得，然而对样本进行准确的标注却需要耗费大量的人力成本。但是实际上，获得大量标注具有歧义性的样本却相对容易。例如，在新闻中的图片中包含了两个人脸，新闻的叙述中也包含了两个人名，若将人脸与人名一一对应需要耗费人力资源，若直接将两个人名作为歧义标记分配给人脸图片样本，则只需自动完成，随后，即可使用相应的学习算法进行训练，并对待测样本进行分类。然而，目前的分类算法均基于准确标记，无法对具有歧义标注样本进行分类。

发明内容

发明目的：本发明的目的在于解决现有的分类技术依赖大量具有明确标记样本的问题，提出一种面向歧义标注样本的分类方法。

技术方案：为解决上述问题，本发明提供以下技术方案：

一种面向歧义标注样本的分类方法，包括以下步骤：

(1)根据事先制定的规则，构建标注集合，从样本存储设备中选样本；

(2)根据样本自身特性提取特征，并整理对应的标记集合；

(3)采用标记成对比较方法，将原始样本集重构为多个多分类样本集，并学习对应分类器；

(4)使用学习所得分类器，对待测样本进行分类，并对各个标记进行投票；

(5)如果符合事先制定的结果则结束，否则从样本存储设备中选择更多的样本进行训练，并转到步骤(2)。

进一步地，所述步骤(2)中，根据样本自身特性提取特征，并整理对应的标记集合，具体为：将样本集合定义为其中x_i是d维的特征向量，Y_i表示与样本x_i对应的歧义标记集合，样本的真实标记y_i∈Y_i，但在训练过程中，无法被学习算法所获得，在此规定，标记集合的大小为q，即总共有q种类别。

进一步地，利用标记成对比较方法，对原始样本重构为多个多分类样本集，并学习对应分类器；具体包括：

对于一组标记对(y_j，y_k)(1≤j＜k≤n)，通过下式对所有样本的类别标记进行重构：

在上式中，根据标记对与歧义标记集合的关系，重新构建了4种类别，接下来，基于重构类别，为标记对(y_j，y_k)按下式构建训练集

对所有样本遍历重构之后，可使用任一多分类学习算法来对训练集/>进行训练，并得到对应的多类分类器g_jk，即/>

进一步地，步骤(4)对待分类样本进行测试，具体如下：在对每一组标记对的遍历中，利用对应的多类分类器对待测样本x^*进行分类，记对标记j的投票为v_j，投票准则由下式给出：

当所有分类器均进行过投票之后，需根据投票结果确定最终标记，具体按照下式进行：

进一步地，所述步骤(5)中，如果不符合事先制定的结果则需对样本进行筛选过滤，将标记出现次数小于3次的样本筛选掉，并从样本存储设备中选择更多的样本进行训练，再转入步骤(2)。

有益效果：本发明与现有技术相比：

现有机器学习的分类技术均需要大量准确的标注，本发明可以仅利用具有歧义标注的样本进行训练，并对待测样本进行预测，可以极大程度地降低人工标注的成本，也可以避免人工标注错误的情况。

附图说明

图1是歧义标注样本分类装置的工作流程图；

图2是本发明方法的流程图；

图3是本发明方法步骤3的流程图；

图4是本发明方法步骤4的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明。

如图1所示，样本存储设备中存放的是全部待分类的样本，首先选取部分样本用作训练，针对原始样本，需要完成特征提取工作，在这一步中，需根据样本自身特性来选择合适的方法，例如对于图像，可选择卷积神经网络抽取特征，对于文档，可选择词作为特征，利用词频、词频-逆文档词频等来构建降维后的特征，对于商品，可从商品属性、产地等多个角度来构建特征。同时，需要对样本构造歧义标注集合，此步骤中无需人工参与标注，只需制定规则，自动完成。同时，值得注意的是，构建标注集合后，需对样本进行筛选过滤，将标记出现次数极少的样本筛选掉，以获得较好的泛化性能。在本发明中，规定样本的真实标记仅为一个，如对于人脸的命名，一张人脸仅对应于一个名字，对于一个文档，仅定义最精准的类别。得到样本特征与歧义标注集合后，利用本发明方法对其进行训练并对待测样本进行分类，如图1所示，若抽检准确率达标则结束，否则通过用户反馈与增加样本量来改善提升模型性能，获得新的歧义样本分类模型，重新送检。

本发明涉及的方法如图2所示。步骤10是起始动作。首先根据样本自身特性提取特征并整理对应的标记集合。在此，将样本集合定义为其中x_i是d维的特征向量，Y_i表示与样本x_i对应的歧义标记集合，样本的真实标记y_i∈Y_i，但在训练过程中，无法被学习算法所获得，在此规定，标记集合的大小为q，即总共有q种类别。在步骤12中，采用标记成对比较方法，将原始样本集重构为多个多分类样本集，并学习对应的学习器，具体学习过程将在图3中进行介绍。在步骤13中，使用学习所得分类器，对待测样本进行分类，并对各个标记进行投票，得到最终标记，具体步骤将在图4中进行介绍。最终进入步骤14结束状态，如果不符合事先制定的结果则需对样本进行筛选过滤，将标记出现次数小于3次的样本筛选掉，并从样本存储设备中选择更多的样本进行训练，再转入步骤10。

图3给出了步骤12的详细描述。步骤1201-1212与步骤1202-1210构成两重循环，目的是对标记配对组合进行遍历，具体来说，循环每一次，构建标记对(y_j，y_k)(1≤j＜k≤n)。步骤1203-1207构成一个循环，遍历所有样本，对类别进行重构，并构建训练集。具体来说，在步骤1204中，根据下式对类别标记进行重构：

在式(1)中，根据标记对与歧义标记集合的关系，重新构建了4种类别，接下来，基于重构类别，为标记对(y_j，y_k)按下式构建训练集

图4给出了步骤13的详细描述。与图3中类似，步骤1301-1307与步骤1302-1305均是对标记对进行遍历，在每一轮遍历中，利用对应的多类分类器对待测样本x^*进行分类，记对标记j的投票为v_j，投票准则由下式给出：

本方法利用标记成对比较技术，考虑标记对与样本歧义标注集合的关系，将原始样本集合重新整合为多个多分类样本集合，并进行学习，并利用投票机制对待测样本的标记进行预测，可减少人工标注成本。

Claims

1.一种面向歧义标注样本的分类方法，其特征在于：包括以下步骤：

(2)根据样本自身特性提取特征，并整理对应的标记集合；具体为：将样本集合定义为其中x_i是d维的特征向量，Y_i表示与样本x_i对应的歧义标记集合，样本的真实标记y_i∈Y_i，但在训练过程中，无法被学习算法所获得，在此规定，标记集合的大小为q，即总共有q种类别；

(3)采用标记成对比较方法，将原始样本集重构为多个多分类样本集，并学习对应分类器；具体包括：

对于一组标记对(y_j,y_k)1≤j＜k≤n，通过下式对所有样本的类别标记进行重构：

在上式中，根据标记对与歧义标记集合的关系，重新构建了4种类别，接下来，基于重构类别，为标记对(y_j,y_k)按下式构建训练集

(4)使用学习所得分类器，对待测样本进行分类，并对各个标记进行投票；对待分类样本进行测试，具体如下：在对每一组标记对的遍历中，利用对应的多类分类器对待测样本x^*进行分类，记对标记j的投票为v_j，投票准则由下式给出：

y^*＝max_jv_j(1≤j≤q)；

(5)如果符合事先制定的结果则结束，否则从样本存储设备中选择更多的样本进行训练，并转到步骤(2)；具体为：如果不符合事先制定的结果则需对样本进行筛选过滤，将标记出现次数小于3次的样本筛选掉，并从样本存储设备中选择更多的样本进行训练，再转入步骤(2)。