CN112052900B - 机器学习样本权重调整方法和装置、存储介质 - Google Patents

机器学习样本权重调整方法和装置、存储介质 Download PDF

Info

Publication number
CN112052900B
CN112052900B CN202010922347.7A CN202010922347A CN112052900B CN 112052900 B CN112052900 B CN 112052900B CN 202010922347 A CN202010922347 A CN 202010922347A CN 112052900 B CN112052900 B CN 112052900B
Authority
CN
China
Prior art keywords
sample
weight
data
samples
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010922347.7A
Other languages
English (en)
Other versions
CN112052900A (zh
Inventor
聂健
黄婉棉
郑邦祺
彭南博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202010922347.7A priority Critical patent/CN112052900B/zh
Publication of CN112052900A publication Critical patent/CN112052900A/zh
Application granted granted Critical
Publication of CN112052900B publication Critical patent/CN112052900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种机器学习样本权重调整方法和装置、存储介质。该机器学习样本权重调整方法包括:对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差;根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重。本公开可以通过启发式迭代思路实现对学习样本权重的动态、精细调节。

Description

机器学习样本权重调整方法和装置、存储介质
技术领域
本公开涉及及其学习领域,特别涉及一种机器学习样本权重调整方法和装置、存储介质。
背景技术
随着计算机算力、数据量、数据维度的不断增长,机器学习已深入现代生活的方方面面,并且成为各类互联网服务的重要支撑:在搜索、推荐、导航、反欺诈等与日常场景中,正是由于各类机器学习算法的不断发展和迭代,才能给用户越来越好的使用体验。按照训练数据是否有标记,可以将机器学习方法简单分为有监督学习(Supervised MachineLearning)和无监督学习(Unsupervised Machine Learning),目前主流的机器学习手段是有监督学习。对于有监督学习方法而言,样本标签(Label)极为关键,如通过历史观测并标注的“是垃圾邮件”和“非垃圾邮件”标签,训练机器学习模型将能够学习两类标签各自特征,从而实现对未知邮件样本进行分类;由于样本标签往往需要人工标注或校验、成本较高,所以现实生活中样本标签往往存在不全或不准的情况:例如“垃圾邮件”样本数往往远少于“非垃圾邮件”样本数,且可能由于标注人员的评价标准不一,同一封邮件可能被打上不同标签,这些因素都将影响机器学习模型的学习性能效果。
为了解决样本不均衡问题,相关技术主流解决方案是调节样本比例或权重(Sample_weigth),如通过上采样(Over-sampling)、下采样(Under-sampling)直接调整各标签样本数量,或通过增大少数类样本的权重使得模型加大对少数类样本的学习偏重。为了解决错误标签造成的干扰,相关技术主要通过人工排除或通过在模型损失函数降低异常难拟合样本(Hard Negative,即模型预测值Prediction与样本标签Label间差距过大的样本)权重,减少此类样本对模型的干扰。
发明内容
发明人通过研究发现:针对样本不均衡问题,相关技术从数据层面和算法层面进行解决:第一、通过上采样或下采样从数据量层面调节样本比例,其中,上采样通常指通过合成或复制技术生成更多的少数类样本,通过合成技术生成更多的少数类样本,下采样通常指通过抽样技术减少多数类样本,以达到平衡各类样本数的目的;第二、通过增大少数类样本权重(或减小多数样本学习权重)使得模型在梯度求解或损失计算时偏向少样本。但是相关技术的第一种方式改变了样本真实分布情况,且减少了训练样本数,使得模型在线上预测时可能存在一定误差;而相关技术的第二种方式,往往难以确定权重或对一批样本使用固定权重,无法在训练过程中实现准确、动态调节。
鉴于以上技术问题中的至少一项,本公开提供了一种机器学习样本权重调整方法和装置、存储介质,可以基于启发式迭代思路实现对学习样本权重的动态、精细调节。
根据本公开的一个方面,提供一种机器学习样本权重调整方法,包括:
对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差;
根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重。
在本公开的一些实施例中,所述机器学习样本权重调整方法还包括:
初始化全局样本权重,作为将初始化的全局样本权重作为第一轮模型训练的样本权重。
在本公开的一些实施例中,初始化全局样本权重包括:
根据每一类型样本数量和样本总数确定每一类型样本的全局样本权重;
其中,每一类型样本的全局样本权重与每一类型样本占总样本的比例成反比。
在本公开的一些实施例中,所述不同类型样本数量不均衡的场景包括以下场景中的任一项:
邮件数据中的垃圾邮件数据和非垃圾邮件数据;
交易数据中的异常数据、欺诈数据和正常数据;
图像数据目标检测任务中人脸范围区域数据、以及其它区域数据;
医疗数据中的患病数据和健康数据;
安防数据中的异常数据和正常数据。
在本公开的一些实施例中,所述确定样本预测值与样本标签值的误差包括:
针对每个样本,将样本预测值与样本标签值的差值绝对值,作为样本预测值与样本标签值的误差。
在本公开的一些实施例中,所述根据样本预测值与样本标签值间的误差,对模型训练的当前样本权重进行动态调整包括:
针对每个样本,根据样本预测值与样本标签值的误差确定调节因子;
根据每个样本的调节因子,对模型训练中所述样本的当前样本权重进行动态调整。
在本公开的一些实施例中,所述根据样本预测值与样本标签值的误差确定调节因子包括:
根据样本预测值与样本标签值的误差,按照预定分段函数关系,确定调节因子,其中,误差越大,调节因子越大。
在本公开的一些实施例中,所述根据每个样本的调节因子,对模型训练中所述样本的当前样本权重进行动态调整包括:
按照每个样本的调节因子,增加所述样本的当前样本权重。
在本公开的一些实施例中,所述机器学习样本权重调整方法还包括:
在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断每个样本的权重是否大于预定权重阈值;
将权重大于预定权重阈值的样本作为难分负样本,对于难分负样本,降低样本权重,或修正样本标签。
在本公开的一些实施例中,所述机器学习样本权重调整方法还包括:
将权重不大于预定权重阈值的样本作为正常样本,对于正常样本,执行所述根据样本预测值与标签值间的误差,对模型训练的当前样本权重进行动态调整的步骤;
融合难分负样本和正常样本的调整后的权重值,作为下轮模型训练的全局样本权重。
在本公开的一些实施例中,所述机器学习样本权重调整方法还包括:
在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断模型效果是否达到预定效果;
在模型效果未达到预定效果的情况下,执行判断每个样本的权重是否大于预定权重阈值的步骤。
在本公开的一些实施例中,所述判断模型效果是否达到预定值包括:
判断误判样本数量是否小于预定数量;
在判断误判样本数量小于预定数量的情况下,判定模型效果达到预定效果;
在判断误判样本数量不小于预定数量的情况下,判定模型效果未达到预定效果。
根据本公开的另一方面,提供一种机器学习样本权重调整装置,包括:
误差确定模块,用于对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差;
样本权重调整模块,用于根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重。
根据本公开的另一方面,提供一种机器学习样本权重调整装置,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述机器学习样本权重调整装置执行实现如上述任一实施例所述的机器学习样本权重调整方法的操作。
根据本公开的另一方面,提供一种非瞬时性计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如如上述任一实施例所述的机器学习样本权重调整方法。
本公开可以通过启发式迭代思路实现对学习样本权重的动态、精细调节。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开机器学习样本权重调整方法一些实施例的示意图。
图2为本公开机器学习样本权重调整方法另一些实施例的示意图。
图3为本公开机器学习样本权重调整装置一些实施例的示意图。
图4为本公开机器学习样本权重调整装置另一些实施例的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
发明人通过研究还发现:对于错误标签样本,可以看作离群点(Outlier或Noise),模型打分往往背离其标签值,所以相关技术主要通过训练前排查,或训练中对模型打分与实际标签差距超过一定阈值的一类样本进行降权。但相关技术的第一种方式并没有做到启发式自动识别该类样本,相关技术的第二种方式只靠单一模型打分结果就对样本调权,容易导致部分正常“难学”样本被误伤。
鉴于以上技术问题中的至少一项,本公开提供了一种机器学习样本权重调整方法和装置、存储介质,下面结合实施例对本公开进行说明。
图1为本公开机器学习样本权重调整方法一些实施例的示意图。优选的,本实施例可由本公开机器学习样本权重调整装置执行。该方法可以包括步骤11和步骤12,其中:
步骤11,对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差。
在本公开的一些实施例中,所述不同类型样本数量不均衡的场景包括以下场景中的任一项:
邮件数据中的垃圾邮件数据和非垃圾邮件数据,其中,垃圾邮件数据为少数类样本,非垃圾邮件数据为多数类样本。
交易数据中的异常数据、欺诈数据和正常数据,其中,异常数据、欺诈数据为少数类样本,正常数据为多数类样本。
图像数据目标检测任务中人脸范围区域数据(30*30)、以及目标检测任务中除人脸范围区域外的其它区域数据(500*500),其中,人脸范围区域数据为少数类样本,其它区域数据为多数类样本。
医疗数据中的患病数据和健康数据,其中,患病数据为少数类样本,非垃圾邮件数据为健康数据。
安防数据中的异常安防数据和正常安防数据,其中,异常安防数据为少数类样本,正常安防数据为多数类样本。
在本公开的另一些实施例中,所述不同类型样本数量不均衡的场景还可以为其他不同类型样本数量不均衡的场景。
在本公开的另一些实施例中,本公开上述实施例可以适用于有监督机器学习模型,其中,有监督机器学习,是机器学习的一种方法,可以由训练数据中的输入-输出样本对,学习或建立一个模式(函数/映射),并依此模式对新的实例进行预测。数据或模型输出可以是一个连续的值(称作回归),或预测一个标签(称作分类)。
在本公开的一些实施例中,在步骤11之前,所述机器学习样本权重调整方法还可以包括:初始化全局样本权重,作为将初始化的全局样本权重作为第一轮模型训练的样本权重。
在本公开的一些实施例中,初始化全局样本权重可以包括:根据每一类型样本数量和样本总数确定每一类型样本的全局样本权重;其中,每一类型样本的全局样本权重与每一类型样本占总样本的比例成反比。
在本公开的一些实施例中,步骤11中,所述确定样本预测值与样本标签值的误差的步骤可以包括:针对每个样本,将样本预测值与样本标签值的差值绝对值,作为样本预测值与样本标签值的误差loss。
步骤12,根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重(Sample weight)。
在本公开的一些实施例中,样本权重指的是机器学习样本的重要程度,每个样本的权重值都会对机器学习模型优化(如计算梯度)、损失计算产生影响。
在本公开的一些实施例中,步骤12中,所述根据样本预测值与样本标签值间的误差,对模型训练的当前样本权重进行动态调整的步骤可以包括步骤121和步骤122,其中:
步骤121,针对每个样本,根据样本预测值与样本标签值的误差确定调节因子。
在本公开的一些实施例中,步骤121可以包括:针对每个样本,根据样本预测值与样本标签值的误差,按照预定分段函数关系,确定调节因子,其中,误差越大,调节因子越大。
步骤122,根据每个样本的调节因子,对模型训练中所述样本的当前样本权重进行动态调整。
在本公开的一些实施例中,步骤122可以包括:按照每个样本的调节因子,增加所述样本的当前样本权重。
本公开一些实施例中,机器学习模型训练时会基于多组参数进行交叉验证(CrossValidation)或多轮训练或对比,选取效果最优的模型或参数进行输出。因此本公开种机器学习样本权重调整方法可以包括:第一、训练前,对同一类型样本根据样本数初始化设置统一权重Wr1;第二、模型迭代时,使用上轮权重(或初始化权重)参数进行训练,当前训练结束后根据当前轮模型效果微调样本的权重,定义loss=|label-prediction|,即预测值与真实标签间的差距,根据样本loss增加被误判样本的权重,将更新后的权重参数用于下一轮模型训练,使得下一轮训练时侧重loss较大的误判样本;第三、如果存在样本经多轮调节后权重过大(当超过预定权重阈值θ时即认为累计误判次数过多,可认为标签错误)则降低样本权重(或修正样本标签、剔除样本)。第四、如果模型效果达到预期或完成指定轮数迭代,则终止训练。
基于本公开上述实施例提供的机器学习样本权重调整方法,针对有监督机器学习中的样本不均衡、样本标签错误问题,提出了一种基于启发式迭代思路实现对学习样本权重的动态、精细调节。本公开上述实施例可以通过初始化少数类样本权重,在模型训练过程中不断细粒度调整样本权重;本公开上述实施例可以通过多轮训练方法检测误判样本,进而实现对错误标签样本的权重调节或标签转化,最终实现对模型训练效果的提升。
本公开上述实施例可以在模型训练过程中增大少数类样本或难拟合样本权重,同时降低错误标签样本权重,实现对样本权重的动态、精细调整,将有助于提升机器学习模型的性能和效果。
图2为本公开机器学习样本权重调整方法另一些实施例的示意图。优选的,本实施例可由本公开机器学习样本权重调整装置执行。该方法可以包括步骤21-步骤28,其中:
步骤21,初始化全局样本权重。
在本公开的一些实施例中,步骤21可以包括:假设样本标签有K类,label为i的样本数为Nci,样本总数为Nall,初始化样本权重时,设定label为i的所有样本权重Wci=Nall/(K*Nci),此时所有同类样本的权重均相等无差异。
例如:总样本数为100,标签为0的样本有20个,标签为1的样本有80个,则标签为0的样本权重统一设为100/(2*20)=2.5,标签为1的样本权重设为100/(2*80)=0.625。
步骤22,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值label与样本标签值prediction的误差。
在本公开的一些实施例中,步骤22可以包括:针对每个样本,将样本预测值与样本标签值的差值绝对值,作为样本预测值与样本标签值的误差loss。
在本公开的一些实施例中,步骤22可以包括:假设第r轮模型训练输入样本权重为Wr=[w1,w2,w3…,wn],训练完成后,定义loss=|label-prediction|,则样本预测值与样本标签值的误差为Lr=[l1,l2,l3…,ln]。
步骤23,判断模型效果是否达到预定效果。在模型效果达到预定效果的情况下,终止训练,流程结束;否则,在模型效果未达到预定效果的情况下,执行步骤24。
步骤24,判断每个样本的权重是否大于预定权重阈值θ。若一个样本的权重大于预定权重阈值θ,则将权重大于预定权重阈值θ的样本作为难分负样本,之后执行步骤26;否则,若一个样本的权重不大于预定权重阈值θ,则将权重不大于预定权重阈值θ的样本作为正常样本,之后执行步骤25。
步骤25,对于正常样本,根据样本预测值与标签值间的误差,对模型训练的当前样本权重进行动态调整,之后执行步骤27。
在本公开的一些实施例中,步骤25中,所述根据样本预测值与样本标签值间的误差,对模型训练的当前样本权重进行动态调整的步骤可以包括步骤251和步骤252,其中:
步骤251,针对每个样本,根据样本预测值与样本标签值的误差确定调节因子α。
在本公开的一些实施例中,步骤251可以包括:针对每个样本,根据样本预测值与样本标签值的误差,按照预定分段函数关系f(l),确定调节因子α,其中,误差Loss越大,调节因子α越大,对权重调节也越大。
在本公开的一些实施例中,公式(1)为二分类时f(l)的示例:
步骤252,根据每个样本的调节因子α,对模型训练中所述样本的当前样本权重进行动态调整。
在本公开的一些实施例中,步骤252可以包括:按照每个样本的调节因子α,增加所述样本的当前样本权重。
步骤26,对于难分负样本(Hard Negative),降低样本权重到于定值(例如0),或修正样本标签。
在本公开的一些实施例中,难分负样本的概念源于目标检测中对模型难以区分的少数类(负样本)的定义,通过将误报的样本及标签重新加入训练集,达到减少误报的情况。
在本公开的一些实施例中,步骤26可以包括:如果存在某些标注错误的异常难拟合样本,其调节因子α较大,经过多次调权后,其累计权重值往往过大,此时不应继续增大其权重,否则容易导致模型学到错误知识,所以针对权重值过大(可根据经验设置阈值为θ)的样本应当降低其权重,如将其权重重置为0(或修正样本标签、删除样本)。
步骤27,融合难分负样本和正常样本的调整后的权重值,作为下轮模型训练的全局样本权重;之后执行步骤22。
在本公开的一些实施例中,步骤25和步骤27可以包括:根据每个样本的调节因子αi更新Wr+1=[w11,w22,w33…,wnn],并将Wr+1用于第r+1轮模型训练中,本公开上述实施例通过对单个样本权重进行启发式、精细化调节,可以保证下轮训练时更侧重对上轮拟合不佳的样本学习。
发明人还发现:样本不均衡伴随的另一问题是代价敏感,也即将少数类样本误判为多数类的“危害”大于将多数类误判为少数类的情况,如欺诈检测中将欺诈用户错分为正常用户,可能引起风险漏洞和欺诈损失。
本公开上述实施例通过在多轮训练过程中引入启发式调权方法,减少人工干预,使得模型重点关注少数类样本,同时对难拟合样本进行识别和修正,最终提升模型的效果。另外本公开上述实施例独立于模型训练过程,与具体算法实现无关,因此具有较强普适性,现有主流有监督分类算法均适用于该方案框架。
本公开上述实施例针对难拟合样本的启发式加权调节,即在多轮迭代过程中根据样本预测值与标签值间的误差(loss),动态调整下轮训练时的样本权重,可以实现对样本权重参数精细化调节,从而提高对难拟合样本的拟合能力。
本公开上述实施例针对错误标签样本的启发式识别和修正,即若样本经多轮权重调整训练后仍然误判,可认定为Hard Negative样本,需要反向降低样本权重,或修正样本标签,从而避免错误数据对模型效果的干扰。
图3为本公开机器学习样本权重调整装置一些实施例的示意图。如图3所示,本公开机器学习样本权重调整装置可以包括误差确定模块31和样本权重调整模块32,其中:
误差确定模块31,用于对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差。
在本公开的一些实施例中,所述不同类型样本数量不均衡的场景包括以下场景中的任一项:
邮件数据中的垃圾邮件数据和非垃圾邮件数据,其中,垃圾邮件数据为少数类样本,非垃圾邮件数据为多数类样本。
交易数据中的异常数据、欺诈数据和正常数据,其中,异常数据、欺诈数据为少数类样本,正常数据为多数类样本。
图像数据目标检测任务中人脸范围区域数据(30*30)、以及目标检测任务中除人脸范围区域外的其它区域数据(500*500),其中,人脸范围区域数据为少数类样本,其它区域数据为多数类样本。
医疗数据中的患病数据和健康数据,其中,患病数据为少数类样本,非垃圾邮件数据为健康数据。
安防数据中的异常安防数据和正常安防数据,其中,异常安防数据为少数类样本,正常安防数据为多数类样本。
在本公开的另一些实施例中,所述不同类型样本数量不均衡的场景还可以为其他不同类型样本数量不均衡的场景。
在本公开的一些实施例中,误差确定模块31可以用于针对每个样本,将样本预测值与样本标签值的差值绝对值,作为样本预测值与样本标签值的误差。
样本权重调整模块32,用于根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重。
在本公开的一些实施例中,样本权重调整模块32可以用于针对每个样本,根据样本预测值与样本标签值的误差确定调节因子;根据每个样本的调节因子,对模型训练中所述样本的当前样本权重进行动态调整。
在本公开的一些实施例中,样本权重调整模块32可以用于根据样本预测值与样本标签值的误差,按照预定分段函数关系,确定调节因子,其中,误差越大,调节因子越大。
在本公开的一些实施例中,样本权重调整模块32可以用于按照每个样本的调节因子,增加所述样本的当前样本权重。
在本公开的一些实施例中,样本权重调整模块32还可以用于在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断每个样本的权重是否大于预定权重阈值;将权重大于预定权重阈值的样本作为难分负样本,对于难分负样本,降低样本权重,或修正样本标签。
在本公开的一些实施例中,样本权重调整模块32还可以用于将权重不大于预定权重阈值的样本作为正常样本,对于正常样本,执行所述根据样本预测值与标签值间的误差,对模型训练的当前样本权重进行动态调整的操作。
在本公开的一些实施例中,样本权重调整模块32还可以用于融合难分负样本和正常样本的调整后的权重值,作为下轮模型训练的全局样本权重。
在本公开的一些实施例中,样本权重调整模块32还可以用于在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断模型效果是否达到预定效果;在模型效果达到预定效果的情况下,终止训练;在模型效果未达到预定效果的情况下,执行判断每个样本的权重是否大于预定权重阈值的操作。
在本公开的一些实施例中,样本权重调整模块32还可以用于在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断模型效果是否达到预定效果;在模型效果未达到预定效果的情况下,判断每个样本的权重是否大于预定权重阈值;将权重大于预定权重阈值的样本作为难分负样本,将权重不大于预定权重阈值的样本作为正常样本。
在本公开的一些实施例中,样本权重调整模块32可以用于在判断模型效果是否达到预定值的情况下,判断误判样本数量是否小于预定数量;在判断误判样本数量小于预定数量的情况下,判定模型效果达到预定效果;在判断误判样本数量不小于预定数量的情况下,判定模型效果未达到预定效果。
在本公开的一些实施例中,样本权重调整模块32还可以用于对于难分负样本,降低样本权重,或修正样本标签;对于正常样本,根据样本预测值与标签值间的误差,对模型训练的当前样本权重进行动态调整。
在本公开的一些实施例中,本公开机器学习样本权重调整装置还可以用于初始化全局样本权重,作为将初始化的全局样本权重作为第一轮模型训练的样本权重。
在本公开的一些实施例中,本公开机器学习样本权重调整装置还可以用于根据每一类型样本数量和样本总数确定每一类型样本的全局样本权重,其中,每一类型样本的全局样本权重与每一类型样本占总样本的比例成反比。
基于本公开上述实施例提供的机器学习样本权重调整装置,针对有监督机器学习中的样本不均衡、样本标签错误问题,提出了一种基于启发式迭代思路实现对学习样本权重的动态、精细调节。本公开上述实施例可以通过初始化少数类样本权重,在模型训练过程中不断细粒度调整样本权重;本公开上述实施例可以通过多轮训练方法检测误判样本,进而实现对错误标签样本的权重调节或标签转化,最终实现对模型训练效果的提升。
图4为本公开机器学习样本权重调整装置另一些实施例的示意图。如图4所示,本公开机器学习样本权重调整装置可以包括存储器41和处理器42,其中:
存储器41,用于存储指令。
处理器42,用于执行所述指令,使得所述机器学习样本权重调整装置执行实现如上述任一实施例(例如图1或图2实施例)所述的机器学习样本权重调整方法的操作。
本公开上述实施例通过在多轮训练过程中引入启发式调权方式,减少人工干预,使得模型重点关注少数类样本,同时对难拟合样本进行识别和修正,最终提升模型的效果。另外本公开上述实施例独立于模型训练过程,与具体算法实现无关,因此具有较强普适性,现有主流有监督分类算法均适用于该方案框架。
根据本公开的另一方面,提供一种非瞬时性计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如如上述任一实施例(例如图1或图2实施例)所述的机器学习样本权重调整方法。
基于本公开上述实施例提供的非瞬时性计算机可读存储介质,针对难拟合样本进行启发式加权调节,即在多轮迭代过程中根据样本预测值与标签值间的误差(loss),动态调整下轮训练时的样本权重,可以实现对样本权重参数精细化调节,从而提高对难拟合样本的拟合能力。
本公开上述实施例针对错误标签样本进行启发式识别和修正,即若样本经多轮权重调整训练后仍然误判,可认定为Hard Negative样本,需要反向降低样本权重,或修正样本标签,从而避免错误数据对模型效果的干扰。
在上面所描述的机器学习样本权重调整装置可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (13)

1.一种机器学习样本权重调整方法,其特征在于,包括:
对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差,其中,所述不同类型样本数量不均衡的场景包括以下场景中的任一项:邮件数据中的垃圾邮件数据和非垃圾邮件数据,交易数据中的异常数据、欺诈数据和正常数据,图像数据目标检测任务中人脸范围区域数据、以及其它区域数据,医疗数据中的患病数据和健康数据,安防数据中的异常数据和正常数据;
根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重;
其中,所述机器学习样本权重调整方法还包括:
在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断每个样本的权重是否大于预定权重阈值;
将权重大于预定权重阈值的样本作为难分负样本,对于难分负样本,降低样本权重,或修正样本标签。
2.根据权利要求1所述的机器学习样本权重调整方法,其特征在于,还包括:
初始化全局样本权重,作为将初始化的全局样本权重作为第一轮模型训练的样本权重。
3.根据权利要求2所述的机器学习样本权重调整方法,其特征在于,初始化全局样本权重包括:
根据每一类型样本数量和样本总数确定每一类型样本的全局样本权重;
其中,每一类型样本的全局样本权重与每一类型样本占总样本的比例成反比。
4.根据权利要求1-3中任一项所述的机器学习样本权重调整方法,其特征在于,所述确定样本预测值与样本标签值的误差包括:
针对每个样本,将样本预测值与样本标签值的差值绝对值,作为样本预测值与样本标签值的误差。
5.根据权利要求1-3中任一项所述的机器学习样本权重调整方法,其特征在于,所述根据样本预测值与样本标签值间的误差,对模型训练的当前样本权重进行动态调整包括:
针对每个样本,根据样本预测值与样本标签值的误差确定调节因子;
根据每个样本的调节因子,对模型训练中所述样本的当前样本权重进行动态调整。
6.根据权利要求5所述的机器学习样本权重调整方法,其特征在于,所述根据样本预测值与样本标签值的误差确定调节因子包括:
根据样本预测值与样本标签值的误差,按照预定分段函数关系,确定调节因子,其中,误差越大,调节因子越大。
7.根据权利要求5所述的机器学习样本权重调整方法,其特征在于,所述根据每个样本的调节因子,对模型训练中所述样本的当前样本权重进行动态调整包括:
按照每个样本的调节因子,增加所述样本的当前样本权重。
8.根据权利要求1-3中任一项所述的机器学习样本权重调整方法,其特征在于,还包括:
将权重不大于预定权重阈值的样本作为正常样本,对于正常样本,执行所述根据样本预测值与标签值间的误差,对模型训练的当前样本权重进行动态调整的步骤;
融合难分负样本和正常样本的调整后的权重值,作为下轮模型训练的全局样本权重。
9.根据权利要求1-3中任一项所述的机器学习样本权重调整方法,其特征在于,还包括:
在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断模型效果是否达到预定效果;
在模型效果未达到预定效果的情况下,执行判断每个样本的权重是否大于预定权重阈值的步骤。
10.根据权利要求9所述的机器学习样本权重调整方法,其特征在于,所述判断模型效果是否达到预定值包括:
判断误判样本数量是否小于预定数量;
在判断误判样本数量小于预定数量的情况下,判定模型效果达到预定效果;
在判断误判样本数量不小于预定数量的情况下,判定模型效果未达到预定效果。
11.一种机器学习样本权重调整装置,其特征在于,包括:
误差确定模块,用于对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差,其中,所述不同类型样本数量不均衡的场景包括以下场景中的任一项:邮件数据中的垃圾邮件数据和非垃圾邮件数据,交易数据中的异常数据、欺诈数据和正常数据,图像数据目标检测任务中人脸范围区域数据、以及其它区域数据,医疗数据中的患病数据和健康数据,安防数据中的异常数据和正常数据;
样本权重调整模块,用于根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重;
其中,样本权重调整模块,还用于在每一轮模型训练后确定样本预测值与样本标签值的误差后,判断每个样本的权重是否大于预定权重阈值;将权重大于预定权重阈值的样本作为难分负样本,对于难分负样本,降低样本权重,或修正样本标签。
12.一种机器学习样本权重调整装置,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述机器学习样本权重调整装置执行实现如权利要求1-10中任一项所述的机器学习样本权重调整方法的操作。
13.一种非瞬时性计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1-10中任一项所述的机器学习样本权重调整方法。
CN202010922347.7A 2020-09-04 2020-09-04 机器学习样本权重调整方法和装置、存储介质 Active CN112052900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010922347.7A CN112052900B (zh) 2020-09-04 2020-09-04 机器学习样本权重调整方法和装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010922347.7A CN112052900B (zh) 2020-09-04 2020-09-04 机器学习样本权重调整方法和装置、存储介质

Publications (2)

Publication Number Publication Date
CN112052900A CN112052900A (zh) 2020-12-08
CN112052900B true CN112052900B (zh) 2024-05-24

Family

ID=73607851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010922347.7A Active CN112052900B (zh) 2020-09-04 2020-09-04 机器学习样本权重调整方法和装置、存储介质

Country Status (1)

Country Link
CN (1) CN112052900B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392889A (zh) * 2021-06-07 2021-09-14 深圳市欢太数字科技有限公司 数据处理方法、装置以及电子设备
CN118247046B (zh) * 2024-05-28 2024-08-02 上海冰鉴信息科技有限公司 行为欺诈预测方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
WO2016032692A1 (en) * 2014-08-26 2016-03-03 Qualcomm Incorporated Systems and methods for object classification, object detection and memory management
CN109472345A (zh) * 2018-09-28 2019-03-15 深圳百诺名医汇网络技术有限公司 一种权重更新方法、装置、计算机设备和存储介质
CN109583485A (zh) * 2018-11-16 2019-04-05 聚时科技(上海)有限公司 一种基于反馈训练的有监督深度学习方法
WO2019095782A1 (zh) * 2017-11-20 2019-05-23 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN109815332A (zh) * 2019-01-07 2019-05-28 平安科技(深圳)有限公司 损失函数优化方法、装置、计算机设备及存储介质
CN109902722A (zh) * 2019-01-28 2019-06-18 北京奇艺世纪科技有限公司 分类器、神经网络模型训练方法、数据处理设备及介质
CN111027487A (zh) * 2019-12-11 2020-04-17 山东大学 基于多卷积核残差网络的行为识别系统、方法、介质及设备
CN111310814A (zh) * 2020-02-07 2020-06-19 支付宝(杭州)信息技术有限公司 利用不平衡正负样本对业务预测模型训练的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016032692A1 (en) * 2014-08-26 2016-03-03 Qualcomm Incorporated Systems and methods for object classification, object detection and memory management
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
WO2019095782A1 (zh) * 2017-11-20 2019-05-23 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN109472345A (zh) * 2018-09-28 2019-03-15 深圳百诺名医汇网络技术有限公司 一种权重更新方法、装置、计算机设备和存储介质
CN109583485A (zh) * 2018-11-16 2019-04-05 聚时科技(上海)有限公司 一种基于反馈训练的有监督深度学习方法
CN109815332A (zh) * 2019-01-07 2019-05-28 平安科技(深圳)有限公司 损失函数优化方法、装置、计算机设备及存储介质
CN109902722A (zh) * 2019-01-28 2019-06-18 北京奇艺世纪科技有限公司 分类器、神经网络模型训练方法、数据处理设备及介质
CN111027487A (zh) * 2019-12-11 2020-04-17 山东大学 基于多卷积核残差网络的行为识别系统、方法、介质及设备
CN111310814A (zh) * 2020-02-07 2020-06-19 支付宝(杭州)信息技术有限公司 利用不平衡正负样本对业务预测模型训练的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
非平衡样本分类的集成迁移学习算法;于重重;田蕊;谭励;涂序彦;;电子学报(07);全文 *

Also Published As

Publication number Publication date
CN112052900A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112052900B (zh) 机器学习样本权重调整方法和装置、存储介质
CN109214436A (zh) 一种针对目标场景的预测模型训练方法及装置
CN109598414B (zh) 风险评估模型训练、风险评估方法、装置及电子设备
WO2020082734A1 (zh) 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
EP3525121A1 (en) Risk control event automatic processing method and apparatus
CN111178446B (zh) 一种基于神经网络的目标分类模型的优化方法、装置
US20200204431A1 (en) Automated machine-learning-based ticket resolution for system recovery
CN109376226A (zh) 投诉文本的分类模型、构建方法、系统、分类方法和系统
CN111523604A (zh) 一种用户分类的方法和相关装置
CN113139570A (zh) 一种基于最优混合估值的大坝安全监测数据补全方法
CN117092525B (zh) 电池热失控预警模型的训练方法、装置及电子设备
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
CN112561569B (zh) 基于双模型的到店预测方法、系统、电子设备及存储介质
CN112243247B (zh) 基站优化优先级确定方法、装置及计算设备
CN115567371B (zh) 一种异常检测方法、装置、设备及可读存储介质
CN110969483A (zh) 一种识别商户位置的方法、装置及电子设备
CN117218472A (zh) 图像分类模型训练方法、图像分类方法及相关装置
CN111898626B (zh) 模型确定方法、装置和电子设备
CN115932661A (zh) 一种对变压器噪声合规性进行分析判断的方法
JP2020095583A (ja) 人工知能を利用した倒産確率算出システム
CN115410250A (zh) 阵列式人脸美丽预测方法、设备及存储介质
CN113641823A (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN114463014A (zh) 基于SVM-Xgboost的移动支付风险预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant