CN111476141A - 一种提高样本标签准确性的方法和装置 - Google Patents
一种提高样本标签准确性的方法和装置 Download PDFInfo
- Publication number
- CN111476141A CN111476141A CN202010256114.8A CN202010256114A CN111476141A CN 111476141 A CN111476141 A CN 111476141A CN 202010256114 A CN202010256114 A CN 202010256114A CN 111476141 A CN111476141 A CN 111476141A
- Authority
- CN
- China
- Prior art keywords
- importance weight
- sample
- facial expression
- label
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及机器学习图像识别技术领域,具体涉及一种样本标签准确性的方法和装置。一种提高样本标签准确性方法,包括:确定面部表情样本集合中的每个面部表情样本的重要性权重及人工标注标签;按照重要性权重从高到低的顺序对面部表情样本集合进行排序;将排序后的面部表情样本集合分成高重要性权重组和低重要性权重组;在低重要性权重组中,确定出需要调整标签的面部表情样本;将所述需要调整标签的面部表情样本从低重要性权重组加入高重要性权重组并把人工标注标签更改为新的标签。通过本发明可以调整样本的标签,将权重低的人工标签调整为权重高的标签;从而有助于对机器学习模型进行训练而得到更科学的参数,从而提高模型的识别准确度。
Description
技术领域
本发明涉及机器学习图像识别技术领域,具体涉及一种提高样本标签准确性的方法和装置。
背景技术
机器学习面部表情识别技术已经成熟并且广泛应用;在机器学习表情识别模型的训练的过程中,需要使用测试的样本;样本中的图片的数量越多,模型训练的越精确,识别的准确性越高;值得注意的是,样本中的图片的标签是人工标注的,由于样本中的图片的数量巨大,人工标注标签难免出错;比如,一个图片比较模糊,表情是中性的图片被人工标注为高兴。图像样本的标签标记模糊甚至错误,对于模型的训练会带来不利影响。
发明内容
为此,本发明实施例提供一种提高样本标签准确性的方法和装置,以提高样本标签的准确性。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,一种提高样本标签准确性方法,包括:
确定面部表情样本集合中的每个面部表情样本的重要性权重及人工标注标签;
按照重要性权重从高到低的顺序对面部表情样本集合进行排序;
将排序后的面部表情样本集合分成高重要性权重组和低重要性权重组;
在低重要性权重组中,确定出需要调整标签的面部表情样本;
将所述需要调整标签的面部表情样本从低重要性权重组加入高重要性权重组并把人工标注标签更改为新的标签。
进一步地,在低重要性权重组中,确定出需要调整标签的面部表情样本,包括:
对于任意的一个表情样本,用预先训练的机器学习模型进行识别;得到一组预测概率值;
如果最大的预测概率值与预先设定的预测概率值的差值大于预定阈值,则确定所述表情样本为需要调整标签的表情样本;
其中,最大预测概率值对应更改后的标签;预先设定的预测概率值对应人工标注标签。
进一步地,确定面部表情样本集合中的每个面部表情样本的重要性权重,包括:
进一步地,所述重要性权重的损失函数的计算,包括:
Lall=γLRR+(1-γ)LWCE;
其中,Wj为第j个分类器;
N为样本的数量;
C为表情的种类的数量;
LRR=max{0,δ1-(αH-αL)};
根据本发明实施例的第一方面,一种提高样本标签准确性的装置,包括:
自注意力重要性权重模块,用于确定面部表情样本集合中的每个面部表情样本的重要性权重;
排序规则化模块,用于按照重要性权重从高到低的顺序对面部表情样本集合进行排序;
分组模块,用于将排序后的面部表情样本集合分成高重要性权重组和低重要性权重组;
标签更新模块,用于在低重要性权重组中,确定出需要调整的面部表情样本;
将所述需要调整的面部表情样本从低重要性权重组加入高重要性权重组。
进一步地,标签更新模块还用于:
对于任意的一个表情样本,用预先训练的机器学习模型进行识别;得到一组预测概率值;
如果最大的预测概率值与预先设定的预测概率值的差值大于预定阈值,则确定所述表情样本为需要调整标签的表情样本;
其中,最大预测概率值对应更改后的标签;预先设定的预测概率值对应人工标注标签。
进一步地,自注意力重要性权重模块还用于:
进一步地,还包括重要性权重损失函数计算模块;所述重要性权重损失函数计算模块用于按照以下公式计算损失函数:
Lall=γLRR+(1-γ)LWCE;
其中,LWCE为单个重要性权重损失函数;
N为样本的数量;
C为表情的种类的数量;
LRR=max{0,δ1-(αH-αL)};
本发明实施例具有如下优点:确定面部表情样本集合中的每个面部表情样本的重要性权重及人工标注标签;将需要调整标签的面部表情样本从低重要性权重组加入高重要性权重组并把人工标注标签更改为新的标签。本发明的技术方案,可以调整样本的标签,从而使得样本的标签更加准确。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种提高样本标签准确性方法的流程图;
图2为本发明实施例提供的一种提高样本标签准确性的装置的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
将面部表情的训练样本输入到机器学习的模型中,通过对模型的训练,调整模型的参数,得到训练后的模型;将一张人工标注标签为高兴的面部表情的图片输入模型中,机器学习模型可以输出一组概率值;包括面部表情为高兴的概率值为0.9;面部表情为悲伤的概率值为0.1;面部表情为惊讶的表情为0.3;取最大的概率值0.9对应的表情为高兴;则确定该图像的面部表情为高兴。模型识别的结果与人工标注的标签相同,识别成功;
申请人发现,如果训练样本集合中的个别图像的标签有错误,可能会导致模型参数不准确;最后识别时,比如,把人工标注为中性的面部表情的图片;识别成高兴的概率是0.9,识别成中性的概率是0.8;最终模型确定出的标签为高兴,而实际上是中性,与人工标注的标签不符。
基于此,本申请提出了一种提高样本标签准确性的方法,参见附图1所示的一种提高样本标签准确性的方法流程图;该方法包括:
步骤S101,确定面部表情样本集合中的每个面部表情样本的重要性权重及人工标注标签;
其中,面部表情样本集合中面部表情图片是用于对机器学习模型进行训练的;
重要性权重根据样本的图像特征进行计算得到;如果图像比较清晰,表情比较明显,则权重值比较高;如果图像比较模糊,表情不明显,则权重值比较低。
人工标注标签是预先人工进行标注的,包括高兴、悲伤、中性、惊讶等;人类表情的种类一般为喜、怒、忧、思、悲、恐、惊,再加上中性;表情的种类可以为8种;对应的标签有8种。
步骤S102,按照重要性权重从高到低的顺序对面部表情样本集合进行排序;
步骤S103,将排序后的面部表情样本集合分成高重要性权重组和低重要性权重组;
其中,确定出一个中间点值;小于中间点值的一组为低权重组;高于等于中间点值的一组为高权重组;
可以预先设定一个比例系数;该比例系数为低权重组中的样本的数量和高权重组中的样本数量的比例值;或者该比例系数为低权重组中的样本的数量和总的样本数量的比例值,其中,总的样本的数量=低权重组中的样本的数量+高权重组中的样本数量。
低权重组的标签为第一标签,第一标签为人工标注标签;高权重组的标签为第二标签;
步骤S104,在低重要性权重组中,确定出需要调整标签的面部表情样本;
步骤S105,将所述需要调整标签的面部表情样本从低重要性权重组加入高重要性权重组并把人工标注标签更改为新的标签。
其中,新的标签为第二标签。
本发明的上述的方法,通过为每一个样本分配重要性权重;在低重要性权重组中,确定出需要调整的面部表情样本;将需要调整的面部表情样本从低重要性权重组加入高重要性权重组;相应地,对标签进行调整;把人工标注标签更改为高权重组对应的标签;提高了样本的标签的准确性。
在一种实施方式中,在低重要性权重组中,确定出需要调整标签的面部表情样本,包括:
对于任意的一个表情样本,用预先训练的机器学习模型进行识别;得到一组预测概率值;
确定出该组预测概率值中的最大的预测概率值;
如果最大的预测概率值与预先设定的预测概率值的差值大于预定阈值,则确定所述表情样本为需要调整标签的表情样本;
其中,最大预测概率值对应更改后的标签;预先设定的预测概率值对应人工标注标签。
在一种实施方式中,确定面部表情样本集合中的每个面部表情样本的重要性权重,包括:
在一种实施方式中,所述重要性权重的损失函数的计算,包括:
Lall=γLRR+(1-γ)LWCE;
其中,Wj为第j个分类器;
N为样本的数量;
C为表情的种类的数量;
LRR=max{0,δ1-(αH-αL)};
δ1为第一阈值;
M为高权重组中的样本数量;
N为样本的总的数量;
αH为高重要性权重组的权重平均值;
αL为低重要性权重组的权重平均值。
基于同一个发明构思,与上述的方法对应,本申请还提出了一种提高样本标签准确性的装置,参见附图2所示的一种提高样本标签准确性的装置的结构示意图;该装置包括:
自注意力重要性权重模块21,确定面部表情样本集合中的每个面部表情样本的重要性权重及人工标注标签;
排序规则化模块22,按照重要性权重从高到低的顺序对面部表情样本集合进行排序;
分组模块23,将排序后的面部表情样本集合分成高重要性权重组和低重要性权重组;
标签更新模块24,在低重要性权重组中,确定出需要调整标签的面部表情样本;
将所述需要调整标签的面部表情样本从低重要性权重组加入高重要性权重组并把人工标注标签更改为新的标签。
在一种实施方式中,标签更新模块24还用于:对于任意的一个表情样本,用预先训练的机器学习模型进行识别;得到一组预测概率值;
如果最大的预测概率值与预先设定的预测概率值的差值大于预定阈值,则确定所述表情样本为需要调整标签的表情样本;
其中,最大预测概率值对应更改后的标签;预先设定的预测概率值对应人工标注标签。
在一种实施方式中,自注意力重要性权重模块还用于:
在一种实施方式中,还包括重要性权重损失函数计算模块;所述重要性权重损失函数计算模块用于按照以下公式计算损失函数:
Lall=γLRR+(1-γ)LWCE;
其中,LWCE为单个重要性权重损失函数;
N为样本的数量;
C为表情的种类的数量;
LRR=max{0,δ1-(αH-αL)};
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (8)
1.一种提高样本标签准确性的方法,其特征在于,包括:
确定面部表情样本集合中的每个面部表情样本的重要性权重及人工标注标签;
按照重要性权重从高到低的顺序对面部表情样本集合进行排序;
将排序后的面部表情样本集合分成高重要性权重组和低重要性权重组;
在低重要性权重组中,确定出需要调整标签的面部表情样本;
将所述需要调整标签的面部表情样本从低重要性权重组加入高重要性权重组并把人工标注标签更改为新的标签。
2.如权利要求1所述的提高样本标签准确性的方法,其特征在于,在低重要性权重组中,确定出需要调整标签的面部表情样本,包括:
对于任意的一个表情样本,用预先训练的机器学习模型进行识别;得到一组预测概率值;
如果最大的预测概率值与预先设定的预测概率值的差值大于预定阈值,则确定所述表情样本为需要调整标签的表情样本;
其中,最大预测概率值对应更改后的标签;预先设定的预测概率值对应人工标注标签。
5.一种提高样本标签准确性的装置,其特征在于,包括:
自注意力重要性权重模块,用于确定面部表情样本集合中的每个面部表情样本的重要性权重;
排序规则化模块,用于按照重要性权重从高到低的顺序对面部表情样本集合进行排序;
分组模块,用于将排序后的面部表情样本集合分成高重要性权重组和低重要性权重组;
标签更新模块,用于在低重要性权重组中,确定出需要调整的面部表情样本;
将所述需要调整的面部表情样本从低重要性权重组加入高重要性权重组。
6.如权利要求5所述的提高样本标签准确性的装置,其特征在于,标签更新模块还用于:
对于任意的一个表情样本,用预先训练的机器学习模型进行识别;得到一组预测概率值;
如果最大的预测概率值与预先设定的预测概率值的差值大于预定阈值,则确定所述表情样本为需要调整标签的表情样本;
其中,最大预测概率值对应更改后的标签;预先设定的预测概率值对应人工标注标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256114.8A CN111476141A (zh) | 2020-04-02 | 2020-04-02 | 一种提高样本标签准确性的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256114.8A CN111476141A (zh) | 2020-04-02 | 2020-04-02 | 一种提高样本标签准确性的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111476141A true CN111476141A (zh) | 2020-07-31 |
Family
ID=71749645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010256114.8A Pending CN111476141A (zh) | 2020-04-02 | 2020-04-02 | 一种提高样本标签准确性的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476141A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650870A (zh) * | 2020-12-30 | 2021-04-13 | 北京天广汇通科技有限公司 | 一种训练图片排序模型的方法、图片排序的方法以及装置 |
CN113704469A (zh) * | 2021-08-18 | 2021-11-26 | 百融至信(北京)征信有限公司 | 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713905A (zh) * | 2010-01-08 | 2012-10-03 | 瑞典爱立信有限公司 | 用于媒体文件的社会标签的方法和设备 |
JP2017054438A (ja) * | 2015-09-11 | 2017-03-16 | 日本電信電話株式会社 | 画像認識装置、方法、及びプログラム |
CN108416384A (zh) * | 2018-03-05 | 2018-08-17 | 苏州大学 | 一种图像标签标注方法、系统、设备及可读存储介质 |
-
2020
- 2020-04-02 CN CN202010256114.8A patent/CN111476141A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713905A (zh) * | 2010-01-08 | 2012-10-03 | 瑞典爱立信有限公司 | 用于媒体文件的社会标签的方法和设备 |
JP2017054438A (ja) * | 2015-09-11 | 2017-03-16 | 日本電信電話株式会社 | 画像認識装置、方法、及びプログラム |
CN108416384A (zh) * | 2018-03-05 | 2018-08-17 | 苏州大学 | 一种图像标签标注方法、系统、设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
KAI WANG等: "Suppressing Uncertainties for Large-Scale Facial Expression Recognition", 《ARXIV》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650870A (zh) * | 2020-12-30 | 2021-04-13 | 北京天广汇通科技有限公司 | 一种训练图片排序模型的方法、图片排序的方法以及装置 |
CN113704469A (zh) * | 2021-08-18 | 2021-11-26 | 百融至信(北京)征信有限公司 | 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133616B (zh) | 一种基于深度学习的无分割字符定位与识别方法 | |
CN110991435A (zh) | 一种基于深度学习的快递运单关键信息定位方法和装置 | |
CN110837870A (zh) | 基于主动学习的声呐图像目标识别方法 | |
CN111476141A (zh) | 一种提高样本标签准确性的方法和装置 | |
CN114049513A (zh) | 一种基于多学生讨论的知识蒸馏方法和系统 | |
CN112668579A (zh) | 基于自适应亲和力和类别分配的弱监督语义分割方法 | |
CN111126514A (zh) | 图像多标签分类方法、装置、设备及介质 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN111882055A (zh) | 一种基于CycleGAN与伪标签的目标检测自适应模型的构建方法 | |
CN111461301A (zh) | 序列化数据处理方法和装置、文本处理方法和装置 | |
CN108304890A (zh) | 一种分类模型的生成方法及装置 | |
CN109034281A (zh) | 加速基于卷积神经网络的中文手写体识别的方法 | |
CN112200797B (zh) | 一种基于pcb噪声标注数据的有效训练方法 | |
CN116563738A (zh) | 一种基于不确定性的多阶段引导的小目标半监督学习检测方法 | |
CN111239137B (zh) | 基于迁移学习与自适应深度卷积神经网络的谷物质量检测方法 | |
CN109919055A (zh) | 一种基于AdaBoost-KNN的动态人脸情感识别方法 | |
CN115393902A (zh) | 一种基于对比语言图像预训练模型clip的行人重识别方法 | |
CN114972952A (zh) | 一种基于模型轻量化的工业零部件缺陷识别方法 | |
CN113222043B (zh) | 一种图像分类方法、装置、设备及存储介质 | |
CN117037006B (zh) | 一种高续航能力的无人机跟踪方法 | |
CN116152644A (zh) | 一种基于人工合成数据和多源迁移学习的长尾物体识别方法 | |
CN113706477B (zh) | 缺陷类别识别方法、装置、设备及介质 | |
CN113920511A (zh) | 车牌识别方法、模型训练方法、电子设备及可读存储介质 | |
CN108197663A (zh) | 基于对偶集合多标记学习的书法作品图像分类方法 | |
CN113076823A (zh) | 一种年龄预测模型的训练方法、年龄预测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200731 |