CN110956255B - 难样本挖掘方法、装置、电子设备及计算机可读存储介质 - Google Patents

难样本挖掘方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110956255B
CN110956255B CN201911180004.1A CN201911180004A CN110956255B CN 110956255 B CN110956255 B CN 110956255B CN 201911180004 A CN201911180004 A CN 201911180004A CN 110956255 B CN110956255 B CN 110956255B
Authority
CN
China
Prior art keywords
sample
predicted
positive
negative
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911180004.1A
Other languages
English (en)
Other versions
CN110956255A (zh
Inventor
郭强
陈灿灿
郑闪
孙丰龙
马建辉
邱亭林
杜君
郭蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cancer Hospital and Institute of CAMS and PUMC
Original Assignee
Cancer Hospital and Institute of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cancer Hospital and Institute of CAMS and PUMC filed Critical Cancer Hospital and Institute of CAMS and PUMC
Priority to CN201911180004.1A priority Critical patent/CN110956255B/zh
Publication of CN110956255A publication Critical patent/CN110956255A/zh
Application granted granted Critical
Publication of CN110956255B publication Critical patent/CN110956255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种难样本挖掘方法、装置、电子设备及计算机可读存储介质,属于数据挖掘领域。该方法包括:在获得收敛的神经网络模型之后,统计训练集中各样本在网络反向传播过程中的梯度值,然后设定阈值,分别把训练集中样本分类为容易样本、难样本、极难样本三个类别。然后选取适量难样本,将难样本与原训练集融合,得到更新后的训练集。在用于更新训练集所添加的难样本中,已过滤掉极难样本。当把过滤掉极难样本的难样本加入到原训练集时,使得原训练集中的难样本比例增加,极难样本比例降低。当后续基于新的训练集训练神经网络模型时,可以避免神经网络模型对极难样本过度学习,从而得到性能较高的神经网络模型。

Description

难样本挖掘方法、装置、电子设备及计算机可读存储介质
技术领域
本申请属于数据挖掘领域,具体涉及一种难样本挖掘方法、装置、电子设备及计算机可读存储介质。
背景技术
神经网络在对数字病理切片进行识别时,可能将正常区域(正常区域对应的小图为阴性小图,阴性小图对应的样本为负样本)以及癌症区域(癌症区域对应的小图为阳性小图,阳性小图对应的样本为正样本)识别错误,这些识别错误的区域对应的小图称之为难样本,反之,位于识别正确的区域对应的小图是容易样本。挑选一定数量的难样本与原来的训练集合并构建新的训练集,这一过程称为难样本挖掘。
难样本的挖掘可以调整训练模型的训练集中难易样本不均衡的问题,从而提高训练出的神经网络模型的识别精度。
现有的难样本挖掘方法统称为二分法,通过一定的手段把训练集中的样本划分为难样本以及容易样本,后续再将得到的难样本与训练集进行融合。后续利用进行融合后的训练集重新训练卷积神经网络模型时,由于难样本中包含大量的极难样本(很容易导致识别错误),会使得后续的训练过程中,卷积神经网络模型对极难样本过度学习。如此,难样本挖掘没有实现其应该实现的效果,挖掘失败。
发明内容
有鉴于此,本申请的目的在于提供一种难样本挖掘方法、装置、电子设备及计算机可读存储介质,基于梯度来实现难样本挖掘,并基于阈值过滤极难样本,可避免卷积神经网络模型对极难样本特征的过度学习,从而实现提高模型性能的目的。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供一种难样本挖掘方法,所述方法包括:计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述训练集训练至收敛;将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集;从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集;其中,所述第一阈值小于所述第二阈值。在用于更新训练集所添加的难样本中,已过滤掉极难样本。当把过滤掉极难样本的难样本加入到原训练集时,使得原训练集中的难样本比例增加,极难样本比例降低。当后续基于新的训练集训练神经网络模型时,可以避免神经网络模型对极难样本过度学习,从而得到性能较高的神经网络模型。
结合第一方面实施例,在一种可能的实施方式中,所述计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,包括:针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。
结合第一方面实施例,在一种可能的实施方式中,所述针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值,包括:当所述激活函数为softmax函数时,基于公式
Figure BDA0002289738420000031
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;当所述激活函数为sigmoid函数时,基于公式
Figure BDA0002289738420000032
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述神经网络模型的输出层预测该样本为正样本的预测值,e表示自然常数。
结合第一方面实施例,在一种可能的实施方式中,所述针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值,包括:基于公式
Figure BDA0002289738420000033
确定样本的梯度值,其中,g(样本)为样本的梯度值,当label为0时,p为负样本的概率值,当label为1时,p为正样本的概率值。
结合第一方面实施例,在一种可能的实施方式中,所述方法还包括:根据所述更新后的训练集重新训练得到新的神经网络模型。
第二方面,本申请实施例提供一种难样本挖掘装置,所述装置包括:计算模块,用于计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述训练集训练至收敛;加入模块,用于将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集;确定模块,用于从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集;其中,所述第一阈值小于所述第二阈值。
结合第二方面实施例,在一种可能的实施方式中,所述计算模块,用于针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。
结合第二方面实施例,在一种可能的实施方式中,所述计算模块,用于当所述激活函数为softmax函数时,基于公式
Figure BDA0002289738420000041
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;当所述激活函数为sigmoid函数时,基于公式
Figure BDA0002289738420000042
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述神经网络模型的输出层预测该样本为正样本的预测值,e表示自然常数。
结合第二方面实施例,在一种可能的实施方式中,所述计算模块,用于基于公式
Figure BDA0002289738420000043
确定样本的梯度值,其中,g(样本)为样本的梯度值,当label为0时,p为负样本的概率值,当label为1时,p为正样本的概率值。
结合第二方面实施例,在一种可能的实施方式中,所述装置还包括训练模块,用于根据所述更新后的训练集重新训练得到新的神经网络模型。
第三方面,本申请实施例还提供一种电子设备包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器用于存储程序;所述处理器调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
第四方面,本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质),其上存储有计算机程序,所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本申请实施例提供的一种难样本挖掘方法的流程图。
图2示出了本申请实施例提供的神经网络模型的结构示意图。
图3示出了本申请实施例提供的样本梯度分布图。
图4示出了本申请实施例提供的一种难样本挖掘装置的结构框图。
图5示出了本申请实施例提供的一种电子设备的结构示意图。
100-电子设备;110-处理器;120-存储器;400-难样本挖掘装置;410-计算模块;420-加入模块;430-确定模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
此外,针对现有技术中的难样本挖掘方法所存在的缺陷(使得得到的训练集中包括大量极难样本)是申请人在经过实践并仔细研究后得出的结果,因此,上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案,都应该是申请人在本申请过程中对本申请做出的贡献。
为了解决上述问题,本申请实施例提供一种难样本挖掘方法、装置、电子设备及计算机可读存储介质,可避免卷积神经网络模型对极难样本特征的过度学习,从而实现提高模型性能的目的。该技术可采用相应的软件、硬件以及软硬结合的方式实现。
下面将针对本申请所提供的难样本挖掘方法进行介绍。
请参阅图1,本申请实施例提供一种应用于电子设备的难样本挖掘方法。下面将结合图1对其所包含的步骤进行说明。
步骤S110:计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述训练集训练至收敛。
在本申请实施例中,定义病理切片的正常区域对应的小图为阴性小图,阴性小图对应的样本为负样本;癌症区域对应的小图为阳性小图,阳性小图对应的样本为正样本。
通常情况下,工作人员可以随机选取某一病理切片,然后通过瓦片式切割法或者随机切割法对病理切片进行分割,得到大量固定尺寸的小图集,构建成训练集。其中,训练集中的每个小图成为样本。在每个样本中标注有该样本所属的分类类别的真实标签,例如某个样本为正样本,在该样本中标注有正样本标签,再例如某个样本为负样本,在该样本中标注有负样本标签。
后续,电子设备获取训练集,并通过训练集训练神经网络模型。
其中,请参看图2,神经网络模型可以包括依次连接的输入层、多层隐含层以及输出模块。其中,输出模块可以包括依次连接的输出层、输出子模块。
输入层主要用于接受外界的样本所携带的输入信息(图片、信号等)。在隐含层中,有层层相接的网络参数连接权值,可对输入信息进行加工处理,并对输入信息进行学习。输出层可以对输入的样本的分类类别进行预测,得到预测值,然后输出层将预测值作用于输出子模块所包括的激活函数,使得激活函数输出对样本类别的预测概率。其中,图2中所示的softmax以及sigmoid均为激活函数,激活函数是可以使得神经网络模型的分类类别预测值变成概率值的归一化函数。当然,图2中所示出的激活函数仅为举例,可以理解,上述激活函数的类型不应该对本申请实施例的保护范围造成限定。
总的来说,对神经网络模型进行训练的过程,即是神经网络模型进行自动学习过程,即是根据输出层输出的对样本的分类类别预测值与样本的真实标签生成损失函数,然后计算损失函数与神经网络模型中网络参数的梯度,利用神经网络模型反向传播过程中的梯度下降方法更新神经网络模型中的网络参数的过程。
当后续神经网络模型的损失函数达到稳定状态时,神经网络模型被训练至收敛状态。
在得到收敛的神经网络模型后,电子设备开始计算训练集中的每个样本在已收敛的神经网络模型中的梯度值。
在本申请实施中,样本的梯度值指通过某个样本得到的损失函数关于参变量-分类类别预测值的梯度,神经网络模型的隐含层的网络参数学习也是通过此梯度在经网络模型中的反向传播来实现。
下面将针对计算样本的梯度值的过程进行介绍。
计算样本的梯度值的整体思路为:针对训练集中的每个样本,先根据神经网络模型所采用的激活函数,分别计算该样本被预测为不同样本类别的预测概率,即计算该样本被预测为正样本的概率值以及计算该样本被预测为负样本的概率值;然后根据样本被预测为正样本的概率值、样本被预测为负样本的概率值确定该样本在已收敛的神经网络模型中的反向传播过程中的梯度值。
具体的,上文中指出,神经网络模型的输出层对输入的样本的分类类别进行预测得到预测值,该预测值包括样本被预测为正样本的预测值x1以及样本被预测为负样本的预测值x0。后续,电子设备获取到样本的分类类别预测值后,可以将预测值输入激活函数进行归一化处理,得到样本分别被预测为正样本的概率值以及被预测为负样本的概率值,即得到预测概率值。
可选的,当激活函数为softmax函数时,电子设备可以基于公式
Figure BDA0002289738420000091
计算得到样本被预测为正样本的概率值p1、被预测为负样本的概率值p0。其中,x0、x1分别表示神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数,label为0表示样本被预测为负样本,label为1表示样本被预测为正样本。
可选的,当激活函数为sigmoid函数时,电子设备可以基于公式
Figure BDA0002289738420000092
计算得到该样本被预测为正样本的概率值p1、被预测为负样本的概率值p0。其中,x1表示神经网络模型的输出层预测该样本为正样本的预测值,e表示自然常数,label为0表示样本被预测为负样本,label为1表示样本被预测为正样本。
在得到样本的预测概率值后,电子设备基于样本的预测概率值与该样本的真实标签计算损失函数。可选的,在本申请实施例中,可以用交叉熵来表示损失函数。该损失函数用于度量样本的预测类别和样本的真实标签间的差异性信息。其中,计算交叉熵的过程为现有技术,此处不再赘述。
在得到交叉熵后,可以得到公式:
softmax函数:
Figure BDA0002289738420000093
sigmoid函数:
Figure BDA0002289738420000094
其中,p0、p1分别为神经网络模型输出层通过激活函数之后的样本预测概率,LCE表示计算交叉熵的损失函数,符号
Figure BDA0002289738420000095
表示关于模型的预测变量x0、x1对交叉熵LCE求梯度。损失函数关于预测变量x0、x1下降最快的方向,损失函数越小,表示神经网络模型对训练集中样本分类预测越准确。
由于神经网络模型中参数学习的更新方向为负梯度方向,因此,可以确定样本的梯度与样本被预测为正样本的概率值、样本被预测为负样本的概率值之间的关系:
Figure BDA0002289738420000101
其中,g(样本)为样本的梯度值,当label为0时,p为该样本被预测为负样本的概率值,当label为1时,p为该样本被预测为正样本的概率值。
步骤S120:将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集。
在卷积神经网络训练过程中,难易样本均作用于神经网络反向传播过程中的梯度。请参看图3,根据训练集中的梯度分布图,训练集中的样本大致可归类为容易样本、难样本、极难样本三类。其中,容易样本为神经网络模型容易识别的小图,其生成的梯度值较低;难样本为神经网络模型较难识别的小图,其生成的梯度值位于中间区域;极难样本为神经网络模型极难识别的切片分割的小图,其生成的小图梯度值较高,对网络参数的迭代训练影响也最大。然而,网络参数对极难样本特征的过度学习会导致神经网络模型对容易样本的识别准确率下降,从而降低模型性能。因此,在本申请实施例中,在得到样本的梯度值后,可以设置两个阈值(第一阈值与第二阈值),将训练集中的容易样本、难样本、极难样本进行划分。
假设第一阈值为θ1,第二阈值为θ2,且θ1<θ2。样本划分方法如下:若g(样本)∈[0,θ1),该样本划分为容易样本;若g(样本)∈[θ1,θ2),该样本划分为难样本;若g(样本)∈[θ2,1],该样本划分为极难样本。因此,可以得到公式:
Figure BDA0002289738420000102
其中,θ1、θ2的选取,须使得训练集中容易样本、难样本、极难样本的比例较为均衡,以便提高神经网络模型训练的收敛速度。可选的,其中,θ1的取值范围为[0.15,0.25],θ2的取值范围为[0.75,0.85],例如在图3中,θ1=0.2,θ2=0.8。
在设置好第一阈值以及第二阈值后,电子设备可以从训练集中确定出哪些样本属于难样本,并加入难样本集。
值得指出的是,一个样本是否为难样本与该样本为正样本或负样本无关,因此,当一个样本为难样本时,该样本可能为正样本(即正标签难样本),也可能为负样本(即负标签难样本)。
步骤S130:从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集。
在得到难样本集后,可以通过增加训练集中难样本的数量的方式来提高训练集中难样本的比例,得到更新后的训练集。
作为一种可选的实施方式,可以从难样本集中选取固定预设数量的难样本,其中,负标签难样本的数量为N0,正标签难样本的数量为N1,N0与N1的比例预先确定。把选取出的难样本添加至原训练集中,并随机打乱原训练集,得到更新后的训练集。
在更新后的训练集中,难样本比例升高,相应的极难样本的比例降低。当后续用更新后的训练集训练神经网络模型至收敛后,可以提升最后得到的处于收敛状态的神经网络模型的性能。
当然,对于神经网络模型的性能,可以通过AUC(Area Under Curve)值来进行评价。当最后得到的神经网络模型的性能未达到期望值时,还可以调整θ1、θ2的大小以及调整选取的难样本数量,直到得到的新神经网络模型的性能达到期望值。
本申请实施例所提供的一种难样本挖掘方法,在获得收敛的神经网络模型之后,统计训练集中各样本在网络反向传播过程中的梯度值,然后设定阈值,分别把训练集中样本分类为容易样本、难样本、极难样本三个类别。然后选取适量难样本,将难样本与原训练集融合,得到更新后的训练集。在用于更新训练集所添加的难样本中,已过滤掉极难样本。当把过滤掉极难样本的难样本加入到原训练集时,使得原训练集中的难样本比例增加,极难样本比例降低。当后续基于新的训练集训练神经网络模型时,可以避免神经网络模型对极难样本过度学习,从而得到性能较高的神经网络模型。
如图4所示,本申请实施例还提供一种难样本挖掘装置400,难样本挖掘装置400可以包括:计算模块410、加入模块420以及确定模块430。
计算模块410,用于计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述训练集训练至收敛;
加入模块420,用于将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集,其中,所述第一阈值小于所述第二阈值;
确定模块430,用于从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集;
可选的,计算模块410,用于针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。
可选的,计算模块410,用于当所述激活函数为softmax函数时,基于公式
Figure BDA0002289738420000121
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;当所述激活函数为sigmoid函数时,基于公式
Figure BDA0002289738420000131
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述神经网络模型的输出层预测该样本为正样本的预测值,e表示自然常数。
可选的,所述计算模块410,用于基于公式
Figure BDA0002289738420000132
确定样本的梯度值,其中,g(样本)为样本的梯度值,当label为0时,p为负样本的概率值,当label为1时,p为正样本的概率值。
可选的,所述装置还包括训练模块,用于根据所述更新后的训练集重新训练得到新的神经网络模型。
本申请实施例所提供的难样本挖掘装置400,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被计算机运行时,执行如上述的难样本挖掘方法。
此外,请参看图5,本发明实施例还提供一种用于实现本申请实施例的难样本挖掘方法、装置的电子设备100,包括处理器110、存储器120。处理器110与存储器120连接。
可选的,电子设备100,可以是,但不限于个人电脑(Personal computer,PC)、智能手机、平板电脑、移动上网设备(Mobile Internet Device,MID)、个人数字助理、服务器等设备。
应当注意,图5所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,电子设备100也可以具有其他组件和结构,例如显示器等。
处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
存储器120用于存储程序,例如存储有前文出现的难样本挖掘方法对应的程序或者前文出现的难样本挖掘装置。可选的,当存储器120内存储有难样本挖掘装置时,难样本挖掘装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。
可选的,难样本挖掘装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system,OS)中。
处理器110用于执行存储器120中存储的可执行模块,例如难样本挖掘装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后,可以执行计算机程序,例如执行:计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述训练集训练至收敛;将其梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集;从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集;其中,所述第一阈值小于所述第二阈值。
当然,本申请任一实施例所揭示的方法都可以应用于处理器110中,或者由处理器110实现。
综上所述,本发明实施例提出的难样本挖掘方法、装置、电子设备及计算机可读存储介质,在获得收敛的神经网络模型之后,统计训练集中各样本在网络反向传播过程中的梯度值,然后设定阈值,分别把训练集中样本分类为容易样本、难样本、极难样本三个类别。然后选取适量难样本,将难样本与原训练集融合,得到更新后的训练集。在用于更新训练集所添加的难样本中,已过滤掉极难样本。当把过滤掉极难样本的难样本加入到原训练集时,使得原训练集中的难样本比例增加,极难样本比例降低。当后续基于新的训练集训练神经网络模型时,可以避免神经网络模型对极难样本过度学习,从而得到性能较高的神经网络模型。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (5)

1.一种难样本挖掘方法,其特征在于,所述方法包括:
计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述训练集为分割病理切片得到的固定尺寸的小图集,所述训练集中的每个小图成为所述样本,其中,所述病理切片的正常区域对应的所述小图为阴性小图,所述阴性小图对应的所述样本为负样本,癌变区域对应的所述小图为阳性小图,所述阳性小图对应的所述样本为正样本,在每个所述样本中标注有该所述样本所属的分类类别的真实标签,所述已收敛的神经网络模型由所述训练集训练至收敛,包括:
针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值,包括:
当所述激活函数为softmax函数时,基于公式
Figure FDA0004037412010000011
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;
当所述激活函数为sigmoid函数时,基于公式
Figure FDA0004037412010000012
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述神经网络模型的输出层预测该样本为正样本的预测值,e表示自然常数;
针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值,包括:
基于公式
Figure FDA0004037412010000021
确定样本的梯度值,其中,g(样本)为样本的梯度值,当label为0时,p为负样本的概率值,当label为1时,p为正样本的概率值;
将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集,所述第一阈值的取值范围为[0.15,0.25],所述第二阈值的取值范围为[0.75,0.85];
从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集;
其中,所述第一阈值小于所述第二阈值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述更新后的训练集重新训练得到新的神经网络模型。
3.一种难样本挖掘装置,其特征在于,所述装置包括:
计算模块,用于计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述训练集为分割病理切片得到的固定尺寸的小图集,所述训练集中的每个小图成为所述样本,其中,所述病理切片的正常区域对应的所述小图为阴性小图,所述阴性小图对应的所述样本为负样本,癌变区域对应的所述小图为阳性小图,所述阳性小图对应的所述样本为正样本,在每个所述样本中标注有该所述样本所属的分类类别的真实标签,所述已收敛的神经网络模型由所述训练集训练至收敛,包括:
针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值,包括:
当所述激活函数为softmax函数时,基于公式
Figure FDA0004037412010000031
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;
当所述激活函数为sigmoid函数时,基于公式
Figure FDA0004037412010000032
计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述神经网络模型的输出层预测该样本为正样本的预测值,e表示自然常数;
针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值,包括:
基于公式
Figure FDA0004037412010000033
确定样本的梯度值,其中,g(样本)为样本的梯度值,当label为0时,p为负样本的概率值,当label为1时,p为正样本的概率值;
加入模块,用于将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本,并加入到难样本集,所述第一阈值的取值范围为[0.15,0.25],所述第二阈值的取值范围为[0.75,0.85];
确定模块,用于从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集,得到更新后的训练集;
其中,所述第一阈值小于所述第二阈值。
4.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器连接;
所述存储器用于存储程序;
所述处理器调用存储于所述存储器中的程序,以执行如权利要求1-2中任一项所述的方法。
5.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-2中任一项所述的方法。
CN201911180004.1A 2019-11-26 2019-11-26 难样本挖掘方法、装置、电子设备及计算机可读存储介质 Active CN110956255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911180004.1A CN110956255B (zh) 2019-11-26 2019-11-26 难样本挖掘方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911180004.1A CN110956255B (zh) 2019-11-26 2019-11-26 难样本挖掘方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110956255A CN110956255A (zh) 2020-04-03
CN110956255B true CN110956255B (zh) 2023-04-07

Family

ID=69978522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911180004.1A Active CN110956255B (zh) 2019-11-26 2019-11-26 难样本挖掘方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110956255B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461243B (zh) * 2020-04-08 2023-06-20 中国医学科学院肿瘤医院 分类方法、装置、电子设备及计算机可读存储介质
CN111488927B (zh) * 2020-04-08 2023-07-21 中国医学科学院肿瘤医院 分类阈值确定方法、装置、电子设备及存储介质
CN111753870B (zh) * 2020-04-16 2023-08-18 杭州海康威视数字技术股份有限公司 目标检测模型的训练方法、装置和存储介质
CN111667050B (zh) * 2020-04-21 2021-11-30 佳都科技集团股份有限公司 度量学习方法、装置、设备及存储介质
CN111881757B (zh) * 2020-06-29 2023-09-01 浪潮电子信息产业股份有限公司 一种行人重识别方法、装置、设备及介质
CN112651458B (zh) * 2020-12-31 2024-04-02 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN113361588A (zh) * 2021-06-03 2021-09-07 北京文安智能技术股份有限公司 基于图像数据增强的图像训练集生成方法和模型训练方法
CN114120452A (zh) * 2021-09-02 2022-03-01 北京百度网讯科技有限公司 一种活体检测模型训练方法、装置、电子设备及存储介质
CN115618921B (zh) * 2022-09-09 2024-02-06 美的集团(上海)有限公司 知识蒸馏方法、装置、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780448A (zh) * 2016-12-05 2017-05-31 清华大学 一种基于迁移学习与特征融合的超声甲状腺结节良恶性分类方法
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN107463954A (zh) * 2017-07-21 2017-12-12 华中科技大学 一种模糊异谱图像的模板匹配识别方法
CN108305248A (zh) * 2018-01-17 2018-07-20 慧影医疗科技(北京)有限公司 一种骨折识别模型的构建方法及应用
CN108346154A (zh) * 2018-01-30 2018-07-31 浙江大学 基于Mask-RCNN神经网络的肺结节分割装置的建立方法
CN108647577A (zh) * 2018-04-10 2018-10-12 华中科技大学 一种自适应难例挖掘的行人重识别模型、方法与系统
CN108665005A (zh) * 2018-05-16 2018-10-16 南京信息工程大学 一种利用dcgan提高基于cnn图像识别性能的方法
CN108664893A (zh) * 2018-04-03 2018-10-16 福州海景科技开发有限公司 一种人脸检测方法及存储介质
CN109829541A (zh) * 2019-01-18 2019-05-31 上海交通大学 基于学习自动机的深度神经网络增量式训练方法及系统
CN109902805A (zh) * 2019-02-22 2019-06-18 清华大学 自适应样本合成的深度度量学习及装置
CN109978017A (zh) * 2019-03-06 2019-07-05 开易(北京)科技有限公司 难样本采样方法和系统
CN110084149A (zh) * 2019-04-09 2019-08-02 南京邮电大学 一种基于难样本四元组动态边界损失函数的人脸验证方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985135A (zh) * 2017-06-02 2018-12-11 腾讯科技(深圳)有限公司 一种人脸检测器训练方法、装置及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780448A (zh) * 2016-12-05 2017-05-31 清华大学 一种基于迁移学习与特征融合的超声甲状腺结节良恶性分类方法
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN107463954A (zh) * 2017-07-21 2017-12-12 华中科技大学 一种模糊异谱图像的模板匹配识别方法
CN108305248A (zh) * 2018-01-17 2018-07-20 慧影医疗科技(北京)有限公司 一种骨折识别模型的构建方法及应用
CN108346154A (zh) * 2018-01-30 2018-07-31 浙江大学 基于Mask-RCNN神经网络的肺结节分割装置的建立方法
CN108664893A (zh) * 2018-04-03 2018-10-16 福州海景科技开发有限公司 一种人脸检测方法及存储介质
CN108647577A (zh) * 2018-04-10 2018-10-12 华中科技大学 一种自适应难例挖掘的行人重识别模型、方法与系统
CN108665005A (zh) * 2018-05-16 2018-10-16 南京信息工程大学 一种利用dcgan提高基于cnn图像识别性能的方法
CN109829541A (zh) * 2019-01-18 2019-05-31 上海交通大学 基于学习自动机的深度神经网络增量式训练方法及系统
CN109902805A (zh) * 2019-02-22 2019-06-18 清华大学 自适应样本合成的深度度量学习及装置
CN109978017A (zh) * 2019-03-06 2019-07-05 开易(北京)科技有限公司 难样本采样方法和系统
CN110084149A (zh) * 2019-04-09 2019-08-02 南京邮电大学 一种基于难样本四元组动态边界损失函数的人脸验证方法

Also Published As

Publication number Publication date
CN110956255A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110956255B (zh) 难样本挖掘方法、装置、电子设备及计算机可读存储介质
CN110796154B (zh) 一种训练物体检测模型的方法、装置以及设备
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
CN108229419B (zh) 用于聚类图像的方法和装置
EP3968280A1 (en) Target tracking method and apparatus, storage medium and electronic device
CN109740499A (zh) 视频分割方法、视频动作识别方法、装置、设备及介质
WO2019051941A1 (zh) 车型识别方法、装置、设备及计算机可读存储介质
CN113361593B (zh) 生成图像分类模型的方法、路侧设备及云控平台
US20220375192A1 (en) Optimization method, apparatus, device for constructing target detection network, medium and product
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
CN112348081A (zh) 用于图像分类的迁移学习方法、相关装置及存储介质
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN112183627A (zh) 生成预测密度图网络的方法和车辆年检标数量检测方法
JP2021193564A (ja) 機械学習方法、機械学習システム及び非一時的コンピュータ可読記憶媒体
CN110135428B (zh) 图像分割处理方法和装置
CN110097184B (zh) 信息处理方法以及信息处理系统
US20230134508A1 (en) Electronic device and method with machine learning training
CN115810105A (zh) 一种全景分割方法、装置、设备及存储介质
CN111488927B (zh) 分类阈值确定方法、装置、电子设备及存储介质
CN111582456B (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN113947154A (zh) 一种目标检测方法、系统、电子设备及存储介质
WO2020113563A1 (zh) 人脸图像质量评估方法、装置、设备及存储介质
CN111881833B (zh) 一种车辆检测方法、装置、设备及存储介质
CN111311616B (zh) 用于分割图像的方法和装置
US11995537B1 (en) Training network with batches of input instances

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant