CN110427973B - 一种面向歧义标注样本的分类方法 - Google Patents

一种面向歧义标注样本的分类方法 Download PDF

Info

Publication number
CN110427973B
CN110427973B CN201910614555.8A CN201910614555A CN110427973B CN 110427973 B CN110427973 B CN 110427973B CN 201910614555 A CN201910614555 A CN 201910614555A CN 110427973 B CN110427973 B CN 110427973B
Authority
CN
China
Prior art keywords
sample
samples
mark
labels
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910614555.8A
Other languages
English (en)
Other versions
CN110427973A (zh
Inventor
张敏灵
吴璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910614555.8A priority Critical patent/CN110427973B/zh
Publication of CN110427973A publication Critical patent/CN110427973A/zh
Application granted granted Critical
Publication of CN110427973B publication Critical patent/CN110427973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向歧义标注样本的分类方法,适用于对标记集合中存在歧义的样本进行分类。该方法包括以下步骤:(1)用户从样本存储设备中选样本;(2)根据样本自身特性提取特征,并整理对应的标记集合;(3)采用标记成对比较方法,将原始样本集重构为多个多分类样本集,并学习对应分类器;(4)使用学习所得分类器,对待测样本进行分类,并对各个标记进行投票;(5)如果用户对上一步预测的结果满意则结束,否则从样本存储设备中选择更多的样本进行训练,并转到步骤(2)。

Description

一种面向歧义标注样本的分类方法
技术领域
本发明涉及一种分类方法,具体是针对样本标注中存在歧义的情况,属于弱监督分类技术领域。
背景技术
分类是许多实际问题的基本子任务,在互联网时代,存在海量的图片、文档、商品等信息,如何高效准确地返回用户搜索的目标,或进行精准地推荐,均依赖于对样本高效地归类。机器学习的发展,为自动化分类海量样本提供了更为便捷的选择。该类方法,首先选取部分具有明确标注的样本,将提取的特征与对应的标记提交至学习算法并学得分类器,之后将待分类的样本送至分类器,即可得到该待测样本的类别标记。
使用机器学习对样本进行分类并得到泛化性能较强的分类器,需要满足强监督的假设,即拥有大量的训练样本,且训练样本具有明确的标记。在大数据时代,大量的训练样本并不难获得,然而对样本进行准确的标注却需要耗费大量的人力成本。但是实际上,获得大量标注具有歧义性的样本却相对容易。例如,在新闻中的图片中包含了两个人脸,新闻的叙述中也包含了两个人名,若将人脸与人名一一对应需要耗费人力资源,若直接将两个人名作为歧义标记分配给人脸图片样本,则只需自动完成,随后,即可使用相应的学习算法进行训练,并对待测样本进行分类。然而,目前的分类算法均基于准确标记,无法对具有歧义标注样本进行分类。
发明内容
发明目的:本发明的目的在于解决现有的分类技术依赖大量具有明确标记样本的问题,提出一种面向歧义标注样本的分类方法。
技术方案:为解决上述问题,本发明提供以下技术方案:
一种面向歧义标注样本的分类方法,包括以下步骤:
(1)根据事先制定的规则,构建标注集合,从样本存储设备中选样本;
(2)根据样本自身特性提取特征,并整理对应的标记集合;
(3)采用标记成对比较方法,将原始样本集重构为多个多分类样本集,并学习对应分类器;
(4)使用学习所得分类器,对待测样本进行分类,并对各个标记进行投票;
(5)如果符合事先制定的结果则结束,否则从样本存储设备中选择更多的样本进行训练,并转到步骤(2)。
进一步地,所述步骤(2)中,根据样本自身特性提取特征,并整理对应的标记集合,具体为:将样本集合定义为其中xi是d维的特征向量,Yi表示与样本xi对应的歧义标记集合,样本的真实标记yi∈Yi,但在训练过程中,无法被学习算法所获得,在此规定,标记集合的大小为q,即总共有q种类别。
进一步地,利用标记成对比较方法,对原始样本重构为多个多分类样本集,并学习对应分类器;具体包括:
对于一组标记对(yj,yk)(1≤j<k≤n),通过下式对所有样本的类别标记进行重构:
在上式中,根据标记对与歧义标记集合的关系,重新构建了4种类别,接下来,基于重构类别,为标记对(yj,yk)按下式构建训练集
对所有样本遍历重构之后,可使用任一多分类学习算法来对训练集/>进行训练,并得到对应的多类分类器gjk,即/>
进一步地,步骤(4)对待分类样本进行测试,具体如下:在对每一组标记对的遍历中,利用对应的多类分类器对待测样本x*进行分类,记对标记j的投票为vj,投票准则由下式给出:
当所有分类器均进行过投票之后,需根据投票结果确定最终标记,具体按照下式进行:
进一步地,所述步骤(5)中,如果不符合事先制定的结果则需对样本进行筛选过滤,将标记出现次数小于3次的样本筛选掉,并从样本存储设备中选择更多的样本进行训练,再转入步骤(2)。
有益效果:本发明与现有技术相比:
现有机器学习的分类技术均需要大量准确的标注,本发明可以仅利用具有歧义标注的样本进行训练,并对待测样本进行预测,可以极大程度地降低人工标注的成本,也可以避免人工标注错误的情况。
附图说明
图1是歧义标注样本分类装置的工作流程图;
图2是本发明方法的流程图;
图3是本发明方法步骤3的流程图;
图4是本发明方法步骤4的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明。
如图1所示,样本存储设备中存放的是全部待分类的样本,首先选取部分样本用作训练,针对原始样本,需要完成特征提取工作,在这一步中,需根据样本自身特性来选择合适的方法,例如对于图像,可选择卷积神经网络抽取特征,对于文档,可选择词作为特征,利用词频、词频-逆文档词频等来构建降维后的特征,对于商品,可从商品属性、产地等多个角度来构建特征。同时,需要对样本构造歧义标注集合,此步骤中无需人工参与标注,只需制定规则,自动完成。同时,值得注意的是,构建标注集合后,需对样本进行筛选过滤,将标记出现次数极少的样本筛选掉,以获得较好的泛化性能。在本发明中,规定样本的真实标记仅为一个,如对于人脸的命名,一张人脸仅对应于一个名字,对于一个文档,仅定义最精准的类别。得到样本特征与歧义标注集合后,利用本发明方法对其进行训练并对待测样本进行分类,如图1所示,若抽检准确率达标则结束,否则通过用户反馈与增加样本量来改善提升模型性能,获得新的歧义样本分类模型,重新送检。
本发明涉及的方法如图2所示。步骤10是起始动作。首先根据样本自身特性提取特征并整理对应的标记集合。在此,将样本集合定义为 其中xi是d维的特征向量,Yi表示与样本xi对应的歧义标记集合,样本的真实标记yi∈Yi,但在训练过程中,无法被学习算法所获得,在此规定,标记集合的大小为q,即总共有q种类别。在步骤12中,采用标记成对比较方法,将原始样本集重构为多个多分类样本集,并学习对应的学习器,具体学习过程将在图3中进行介绍。在步骤13中,使用学习所得分类器,对待测样本进行分类,并对各个标记进行投票,得到最终标记,具体步骤将在图4中进行介绍。最终进入步骤14结束状态,如果不符合事先制定的结果则需对样本进行筛选过滤,将标记出现次数小于3次的样本筛选掉,并从样本存储设备中选择更多的样本进行训练,再转入步骤10。
图3给出了步骤12的详细描述。步骤1201-1212与步骤1202-1210构成两重循环,目的是对标记配对组合进行遍历,具体来说,循环每一次,构建标记对(yj,yk)(1≤j<k≤n)。步骤1203-1207构成一个循环,遍历所有样本,对类别进行重构,并构建训练集。具体来说,在步骤1204中,根据下式对类别标记进行重构:
在式(1)中,根据标记对与歧义标记集合的关系,重新构建了4种类别,接下来,基于重构类别,为标记对(yj,yk)按下式构建训练集
对所有样本遍历重构之后,可使用任一多分类学习算法来对训练集/>进行训练,并得到对应的多类分类器gjk,即/>
图4给出了步骤13的详细描述。与图3中类似,步骤1301-1307与步骤1302-1305均是对标记对进行遍历,在每一轮遍历中,利用对应的多类分类器对待测样本x*进行分类,记对标记j的投票为vj,投票准则由下式给出:
当所有分类器均进行过投票之后,需根据投票结果确定最终标记,具体按照下式进行:
本方法利用标记成对比较技术,考虑标记对与样本歧义标注集合的关系,将原始样本集合重新整合为多个多分类样本集合,并进行学习,并利用投票机制对待测样本的标记进行预测,可减少人工标注成本。

Claims (1)

1.一种面向歧义标注样本的分类方法,其特征在于:包括以下步骤:
(1)根据事先制定的规则,构建标注集合,从样本存储设备中选样本;
(2)根据样本自身特性提取特征,并整理对应的标记集合;具体为:将样本集合定义为其中xi是d维的特征向量,Yi表示与样本xi对应的歧义标记集合,样本的真实标记yi∈Yi,但在训练过程中,无法被学习算法所获得,在此规定,标记集合的大小为q,即总共有q种类别;
(3)采用标记成对比较方法,将原始样本集重构为多个多分类样本集,并学习对应分类器;具体包括:
对于一组标记对(yj,yk)1≤j<k≤n,通过下式对所有样本的类别标记进行重构:
在上式中,根据标记对与歧义标记集合的关系,重新构建了4种类别,接下来,基于重构类别,为标记对(yj,yk)按下式构建训练集
对所有样本遍历重构之后,可使用任一多分类学习算法来对训练集/>进行训练,并得到对应的多类分类器gjk,即/>
(4)使用学习所得分类器,对待测样本进行分类,并对各个标记进行投票;对待分类样本进行测试,具体如下:在对每一组标记对的遍历中,利用对应的多类分类器对待测样本x*进行分类,记对标记j的投票为vj,投票准则由下式给出:
当所有分类器均进行过投票之后,需根据投票结果确定最终标记,具体按照下式进行:
y*=maxjvj(1≤j≤q);
(5)如果符合事先制定的结果则结束,否则从样本存储设备中选择更多的样本进行训练,并转到步骤(2);具体为:如果不符合事先制定的结果则需对样本进行筛选过滤,将标记出现次数小于3次的样本筛选掉,并从样本存储设备中选择更多的样本进行训练,再转入步骤(2)。
CN201910614555.8A 2019-07-09 2019-07-09 一种面向歧义标注样本的分类方法 Active CN110427973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910614555.8A CN110427973B (zh) 2019-07-09 2019-07-09 一种面向歧义标注样本的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910614555.8A CN110427973B (zh) 2019-07-09 2019-07-09 一种面向歧义标注样本的分类方法

Publications (2)

Publication Number Publication Date
CN110427973A CN110427973A (zh) 2019-11-08
CN110427973B true CN110427973B (zh) 2023-07-18

Family

ID=68409125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910614555.8A Active CN110427973B (zh) 2019-07-09 2019-07-09 一种面向歧义标注样本的分类方法

Country Status (1)

Country Link
CN (1) CN110427973B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595215A (zh) * 2023-07-14 2023-08-15 先进操作系统创新中心(天津)有限公司 基于多模态技术的中文文本搜索图像或视频的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633009A (zh) * 2017-08-14 2018-01-26 东南大学 一种基于标记置信度的弱监督文档分类方法
CN109582793B (zh) * 2018-11-23 2023-05-23 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质

Also Published As

Publication number Publication date
CN110427973A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110175613A (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN109086756A (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
CN103617435B (zh) 一种主动学习图像分类方法和系统
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN102385592B (zh) 图像概念的检测方法和装置
CN103761531A (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN110717554A (zh) 图像识别方法、电子设备及存储介质
CN103810274A (zh) 基于WordNet语义相似度的多特征图像标签排序方法
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN109271523A (zh) 一种基于信息检索的政府公文主题分类方法
CN108805102A (zh) 一种基于深度学习的视频字幕检测与识别方法及系统
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN114360030A (zh) 一种基于卷积神经网络的人脸识别方法
CN114329034A (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及系统
CN111242131B (zh) 一种智能阅卷中图像识别的方法、存储介质及装置
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN114372532B (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN111898704A (zh) 对内容样本进行聚类的方法和装置
CN110427973B (zh) 一种面向歧义标注样本的分类方法
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN109471941A (zh) 一种应对类别不平衡的罪名分类方法
CN111191027B (zh) 一种基于高斯混合分布vae的广义零样本识别方法
Yu et al. Bag of Tricks and a Strong Baseline for FGVC.
CN109829887B (zh) 一种基于深度神经网络的图像质量评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant