CN112036491A - 确定训练样本的方法及装置、训练深度学习模型的方法 - Google Patents

确定训练样本的方法及装置、训练深度学习模型的方法 Download PDF

Info

Publication number
CN112036491A
CN112036491A CN202010904622.2A CN202010904622A CN112036491A CN 112036491 A CN112036491 A CN 112036491A CN 202010904622 A CN202010904622 A CN 202010904622A CN 112036491 A CN112036491 A CN 112036491A
Authority
CN
China
Prior art keywords
labeled
samples
sample
sample set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010904622.2A
Other languages
English (en)
Inventor
张荣国
李新阳
王少康
陈宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuoxiang Technology Co ltd
Beijing Infervision Technology Co Ltd
Original Assignee
Beijing Tuoxiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuoxiang Technology Co ltd filed Critical Beijing Tuoxiang Technology Co ltd
Priority to CN202010904622.2A priority Critical patent/CN112036491A/zh
Publication of CN112036491A publication Critical patent/CN112036491A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种确定训练样本的方法及装置、训练深度学习模型的方法。确定训练样本的方法包括:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。通过根据N个待标注样本的特征向量之间的差异性选取待标注样本,能够更有效率地从待标注样本集中筛选样本进行标注,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。

Description

确定训练样本的方法及装置、训练深度学习模型的方法
技术领域
本发明涉及深度学习技术领域,具体涉及一种确定训练样本的方法及装置、训练深度学习模型的方法。
背景技术
近年来,深度学习技术已经改变了计算机视觉,并且已经在大量面向消费者的产品中得到了应用。例如,在医学影像领域,医学图像的分割对精度要求很高,得益于深度学习技术的发展,取得了超越传统分割方法的优异效果,对于临床的分析、诊断、治疗及预后具有重要的意义。
但是,一种有效的深度学习模型,通常需要大量的高质量的标注好的训练样本,标记工作量大。而且,训练样本的标注是一项非常耗时耗力的工作,例如,分割标注任务需要人工勾画目标的边缘轮廓,医学影像的标注更需要有相应的临床知识才能标记准确,标注成本较高。
发明内容
有鉴于此,本发明实施例提供了一种确定训练样本的方法及装置、训练深度学习模型的方法,能够更有效率地确定待标注样本,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。
根据本发明实施例的第一方面,提供一种确定训练样本的方法,包括:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。
在本发明的一个实施例中,标注样本集包括第一标注样本集,上述根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,包括:将第一待标注样本集中的第一样本分别与其余每个待标注样本进行特征相似度计算,获得第一相似度结果,其中,第一样本为第一待标注样本集中的任意一个待标注样本;根据第一相似度结果,从第一待标注样本集中确定与第一样本存在最大差异的至少一个第一训练样本,以对至少一个第一训练样本进行标注,获得第一标注样本集。
在本发明的一个实施例中,标注样本集包括第一标注样本集和标注样本集,上述根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,还包括:根据至少一个第一训练样本,得到第二待标注样本集,其中第二待标注样本集包括第一待标注样本集中除至少一个第一训练样本之外的待标注样本;根据特征向量,分别将第二待标注样本集中的每个待标注样本分别与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果;根据第二相似度结果,从第二待标注样本集中确定与第一标注样本集存在最大差异的至少一个第二训练样本,以对至少一个第二训练样本进行标注,获得第二标注样本集。
在本发明的一个实施例中,特征相似度计算包括特征距离计算,上述分别将第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果,包括:分别计算第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本的特征距离之和,获得第二相似度结果。
在本发明的一个实施例中,上述确定训练样本的方法还包括:根据M个训练样本中的每个训练样本的标识符,对M个训练样本进行去重处理,其中,上述对M个待标注样本进行标注,获得标注样本集,包括:对去重后的训练样本进行标注,获得标注样本集。
在本发明的一个实施例中,标注样本集用于对医学图像分割模型进行训练,训练样本为医学图像,医学图像的标识符是通过哈希算法对医学图像对应的医疗数据记录计算得到。
在本发明的一个实施例中,上述获取第一待标注样本集中的N个待标注样本的特征向量,包括:获取N个待标注样本中的每个待标注样本中的待标注目标区域;对待标注目标区域进行特征提取,获得特征向量。
根据本发明实施例的第二方面,提供一种训练深度学习模型的方法,包括:根据上述任一所述的确定训练样本的方法确定待标注样本,以对所述待标注样本进行标注,获得标注样本集;利用标注样本集训练深度学习模型。
根据本发明实施例的第三方面,提供一种确定训练样本的装置,包括:获取模块,用于获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;标注模块,用于根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。
根据本发明实施例的第四方面,提供一种训练深度学习模型的装置,包括:获取模块,用于根据上述任一所述的确定训练样本的方法得到标注样本集;训练模块,用于利用标注样本集训练深度学习模型。
根据本发明实施例的第五方面,提供一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的方法。
根据本发明实施例的第六方面,提供一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的方法。
根据本发明实施例提供的技术方案,通过根据N个待标注样本的特征向量之间的差异性选取待标注样本,能够更有效率地从待标注样本集中筛选样本进行标注,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明一实施例提供的确定训练样本的方法的流程示意图。
图2所示为本发明一实施例提供的位置特征的示意图。
图3所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。
图4所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。
图5所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。
图6所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。
图7所示为本发明一实施例提供的训练深度学习模型的方法的流程示意图。
图8所示为本发明一实施例提供的确定训练样本的装置的框图。
图9所示为本发明一实施例提供的训练深度学习模型的装置的框图。
图10所示为本发明一实施例提供的电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一实施例提供的确定训练样本的方法的流程示意图。该方法可以由计算机设备(例如,服务器)执行。如图1所示,该方法包括如下内容。
S110:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数。
上述第一待标注样本集可以包括自然图像、医学影像和/或视频等,其中,医学影像可以包括X光片、X线计算机断层摄影(CT)影像、核磁共振(MR)影像、病理图像、超声影像、内镜影像等,本发明对图像样本的种类不作具体限定。
应当理解,可以获取第一待标注样本集中的每个待标注样本的特征向量,也可以是获取第一待标注样本集中的部分待标注样本的特征向量,本发明对N的取值不作具体限定。
在本发明的另一个实施例中,为了更好地对训练样本进行选取,可以先获取N个待标注样本中的每个待标注样本中的待标注目标区域;然后对待标注目标区域进行特征提取,获得特征向量。
具体地,可以利用矩形框对待标注样本中的待标注目标进行框取,获得上述待标注目标区域;也可以利用圆圈对待标注样本中的待标注目标进行圈取,获取上述待标注目标区域,本发明对此不作具体限定。例如,一张图像中的猫为待标注目标,则可以利用一个能够将猫全部包含在其中的矩形框将猫框取起来。
应当理解,对于单张图像来说,可以标定一个能够包含目标的矩形框;对于由多张图像构成的视频或者医学影像(如CT影像)来说,可以在每个层面做一个矩形框标定,其中,矩形框的尺寸以能包含各个层面中的目标的最大横截面为准。
具体地,可以对待标注样本集中的每个待标注样本的形状特征、纹理特征和/或待标注目标区域的位置特征等特征进行提取,进而获得每个待标注样本的特征向量。应当理解,本发明对提取的特征种类不作具体限定,例如,还可以对颜色特征等进行提取。
本发明对形状特征的提取方法不作具体限定,例如,可以采用形状描述子提取形状特征,获得形状特征向量[fshape];也可以通过深度学习等其他方法提取形状特征。
本发明对纹理特征的提取方法不作具体限定,例如,可以采用纹理特征子提取纹理特征,获得纹理特征向量[ftexture];也可以通过深度学习等其他方法提取纹理特征。
本发明对位置特征的提取方法也不作具体限定。例如,在本发明的一个实施例中,对于2D待标注目标区域,如图2所示,位置特征向量[fposition]可以用
Figure BDA0002660964310000061
表示,其中,w,h分别为待标注样本在x、y轴方向上的长度,x1,x2分别为待标注目标区域的对角线上的两个点在x轴方向上的坐标,y1,y2分别为待标注目标区域的对角线上的两个点在y轴方向上的坐标。
另外,对于3D待标注目标区域,位置特征向量可以用
Figure BDA0002660964310000062
表示,其中,w,h,l分别为待标注样本在x、y、z轴方向上的长度,x1,x2分别为待标注目标区域的对角线上的两个点在x轴方向上的坐标,y1,y2分别为待标注目标区域的对角线上的两个点在y轴方向上的坐标,z1,z2分别为待标注目标区域的对角线上的两个点在z轴方向上的坐标。应当理解,上述描述仅为示例性描述,本发明对此不作限定。
进一步地,可以将形状特征向量、纹理特征向量和位置特征向量拼接,获得待标注目标区域对应的特征向量,即[fshape,ftexture,fposition]。
S120:根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。
在本发明的一个实施例中,可以是从N个待标注样本中选取差异性较大的M个待标注样本;也可以是从N个待标注样本中选取差异性较小的M个待标注样本等,可以根据实际需要选取,本发明对此不作具体限定。
上述对M个待标注样本进行标注可以是人工标注,也可以是机器标注,本发明对此不作具体限定。例如,从N个待标注样本中筛选M个差异性较大的待标注样本,交给相关领域的专家进行标注。
具体地,可以是对框取的待标注目标进行边缘轮廓标注,从而完成分割标注。
上述标注样本集可以作为训练样本对分类、分割、检测等深度学习模型进行训练,本发明对此不作具体限定。例如,可以对待分割标注样本进行分割标注,将分割标注完成的样本作为训练样本训练分割模型等。
根据本发明实施例提供的技术方案,获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。通过根据N个待标注样本的特征向量之间的差异性选取待标注样本,能够更有效率地从待标注样本集中筛选样本进行标注,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。
图3所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。在本发明图1所示实施例的基础上延伸出本发明图3所示实施例,下面着重叙述图3所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图3所示,在本发明实施例提供的确定训练样本的方法中,标注样本集包括第一标注样本集,上述步骤S120包括步骤S121和步骤S122。
S121:将第一待标注样本集中的第一样本分别与其余每个待标注样本进行特征相似度计算,获得第一相似度结果,其中,第一样本为第一待标注样本集中的任意一个待标注样本。
上述特征相似度计算可以为特征距离计算,通过计算待标注样本的特征向量之间的距离,获得各个待标注样本之间的相似度。距离越远,则相似度越小;距离越小,则相似度越大。例如余弦距离计算、欧氏距离计算、曼哈顿距离计算等,本发明对特征距离计算的方式不作具体限定。
上述第一样本可以为从待标注样本集中随机抽取出的一个样本。将第一待标注样本集中的除第一样本外的每个待标注样本均与第一样本进行特征相似度计算。
具体地,可以是第一待标注样本集中除第一样本外的每个待标注样本的待标注目标区域的特征向量与第一样本的待标注目标的特征向量进行距离计算,从而获取其余每个待标注样本与第一样本的待标注目标区域的特征距离。
S122:根据第一相似度结果,从第一待标注样本集中确定与第一样本存在最大差异的至少一个第一训练样本,以对至少一个第一训练样本进行标注,获得第一标注样本集。
具体地,可以从待标注样本集中确定与第一样本存在差异的K(K为整数)个第一训练样本。应当理解,也可以是与第一样本存在最小差异或一定差异的K个第一训练样本,可以根据实际需要进行选取,本发明对此不作具体限定。
例如,选取用于训练分割模型的训练样本时,为了优先标注差异性较大的样本集,即保证训练样本的多样性,使得在相同标注成本的情况下,模型的训练样本更加丰富,获得信息量更大,模型的鲁棒性更能得到保证,训练样本的选取策略可以是选取与第一样本存在最大差异的K个训练样本。
具体地,可以选取与第一样本的特征距离大于预设阈值的K个待标注样本作为训练样本;也可以按照特征距离从大到小的顺序,选取与第一样本的特征距离最大的K(预设数量)个待标注样本作为训练样本。
应当理解,上述预设阈值、预设数量可以根据实际需要进行设定,本发明对此不作限定。例如,K值可以根据实际待标注样本集数量的情形选取,例如,K=10、K=20或K=30等,本发明对K的具体取值不作限定。
应当理解,也可以将与第一样本存在最大差异的K个训练样本以及第一样本均进行标注,即K+1个样本进行标注,获得第一标注样本集,本发明对此不作具体限定。
根据本发明实施例提供的技术方案,通过从第一待标注样本集中随机选取一个第一样本,计算其余待标注样本与第一样本的特征相似度,选取与第一样本存在最大差异的K个第一训练样本,以对K个第一训练样本进行标注,得到标注样本集,可以优先标注差异性较大的样本集,即保证训练样本的多样性,使得在相同标注成本的情况下,模型的训练样本更加丰富,获得信息量更大,模型的鲁棒性更能得到保证。
图4所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。在本发明图3所示实施例的基础上延伸出本发明图4所示实施例,下面着重叙述图4所示实施例与图3所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本发明实施例提供的确定训练样本的方法中,标注样本集包括第一标注样本集和第二标注样本集,上述步骤S120还包括步骤S123、步骤S124和步骤S125。
S123:根据至少一个第一训练样本,得到第二待标注样本集,其中第二待标注样本集包括第一待标注样本集中除至少一个第一训练样本之外的待标注样本。
S124:根据特征向量,分别将第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果。
S125:根据第二相似度结果,从第二待标注样本集中确定与第一标注样本集存在最大差异的至少一个第二训练样本,以对至少一个第二训练样本进行标注,获得第二标注样本集。
也就是说,在获得第一标注样本集之后,可以通过上述步骤123、步骤S124和步骤S125继续获取第二标注样本集。
具体地,为了保证第二标注样本集与第一标注样本集中的样本的差异性较大,首先,可以将第二待标注样本集中的每个待标注样本的待标注目标区域的特征向量与第一标注样本集中的每个标注样本的待标注目标区域的特征向量进行距离计算;其次,分别计算第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本的特征距离之和;然后,选取特征距离之和最大的L(L为整数)个待标注样本进行标注,获得第二标注样本集,进而,可以利用第二标注样本集对深度学习模型做进一步训练。
应当理解,还可以继续按照上述方法依次获取第三、第四……标注样本集,直到深度学习模型的训练效果达到要求为止。
例如,可以根据至少一个第二训练样本,得到第三待标注样本集,其中第三待标注样本集包括第二待标注样本集中除至少一个第二训练样本之外的待标注样本;根据特征向量,分别将第三待标注样本集中的每个待标注样本与第一标注样本集和第二标注样本集中的每个标注样本进行特征相似度计算,获得第三相似度结果。根据第二相似度结果,从第三待标注样本集中确定与第一标注样本集和第二标注样本集存在最大差异的至少一个第三训练样本,以对至少一个第三训练样本进行标注,获得第三标注样本集,以此类推。
根据本发明实施例提供的技术方案,通过将待标注样本集中的每个待标注样本与已标注样本集中的每个标注样本进行特征相似度计算,选取与已标注样本差异性大的多个训练样本进行标记,可以保证训练样本的多样性,使得在相同标注成本的情况下,模型的训练样本更加丰富,获得信息量更大,模型的鲁棒性更能得到保证。
图5所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。在本发明图1所示实施例的基础上延伸出本发明图5所示实施例,下面着重叙述图5所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本发明实施例提供的确定训练样本的方法中,上述确定训练样本的方法还包括步骤S130。
S130:根据M个训练样本中的每个训练样本的标识符,对M个训练样本进行去重处理。
其中,上述对M个待标注样本进行标注,获得标注样本集,包括:对去重后的训练样本进行标注,获得标注样本集。
具体地,可以利用标识符对待标注样本集和已标注样本集进行管理。例如,用一个文件记录所有每个待标注样本和每个标注样本的标识符。由于训练样本存在重复性标记的可能性,这种情况会导致耗费同样的标注成本,但对模型效果提升有限。因此,可以比较选取的每个训练样本的标识符,先对选取的训练样本进行去重处理,然后对去重后的训练样本进行标注。
例如,自然图像的标识符(ID值)可以用图像的MD5(消息摘要算法第五版)值来表示。医学图像比较特殊,在敏感信息脱敏过程中,可能造成MD5值改变,即会存在两个文件的MD5值不同但实际上是一个文件的情况,不能满足训练集去重的目的。因此,在本发明的一个实施例中,医学图像的标识符(即ID值)可以通过哈希算法对所述医学图像对应的医疗数据记录计算得到。
例如,针对DICOM(医学数字成像和通信)格式的医学图像,可以读取该医学图像的文件信息(即医学图像对应的医疗数据记录),经过各个字段对应的内容比较,以及防止某些字段脱敏造成的信息差异,在本发明的一个实施例中,可以选取Study Date(检查开始日期)、SeriesDate(序列开始日期)、AcquisitionDate(数据获得开始日期)、ContentDate(影像拍摄日期)、StudyTime(检查开始时间)、SeriesTime(序列开始时间)、AcquisitionTime(数据获得开始时间)、AccessionNumber(检查号)、Modality(检查模态)、Manufacture(制造商)等10个字段对应的内容,组成字符串,例如[20170901,20170901,20170901,20170901,123652,123733,123753,31839404,CT,GE MEDICAL SYSTEMS],然后计算该字符串的MD5值,作为该医学图像的ID值。
应当理解,上述描述仅为示例性描述,也可以采用其他哈希算法计算得到标识符,例如SHA-1(安全散列算法1)、SHA-2(安全散列算法2)、SHA-3(安全散列算法3)等,本发明对此不作具体限定。
根据本发明实施例提供的技术方案,由于重复样本对模型效果的贡献非常有限,通过比较训练样本的标识符的方法,去除重复出现的样本,避免出现重复标记的情形,可以降低标注成本消耗,同样也可以保证模型训练样本的多样性。
图6所示为本发明另一实施例提供的确定训练样本的方法的流程示意图。图6所示实施例为图1所示实施例的具体例子。如图6所示,该方法包括以下内容。
S210:对第一待标注样本集中的每个待标注样本中的待分割标注目标进行框取,获得待标注目标区域。
S220:对每个待标注目标区域进行形状特征、纹理特征和待标注目标区域在待标注样本中的位置特征进行特征提取,获得特征向量[fshape,ftexture,fposition]。
S230:从第一待标注样本集中随机选取一个样本作为第一样本,计算其余每个待标注样本中的待标注目标区域与第一样本中的待标注目标区域的特征距离。
例如,计算其余每个待标注样本中的待标注目标区域的特征向量与第一样本中的待标注目标区域的特征向量的余弦距离。
S240:从第一待标注样本集中选取与第一样本的特征距离最大的K个第一训练样本。
优先对上述K个第一训练样本和第一样本(即K+1个待标注样本)进行分割标注(即,对框取的待分割标注目标进行边缘轮廓标注),获得第一标注样本集(即K+1个已标注样本),第一标注样本集可以用于训练医学图像分割模型。
另外,将上述第一标注样本集(即K+1个已标注样本)的图像标识符(ID值)整理成一个表格,以便于后续去重处理使用。
S250:获取第二待标注样本集,第二待标注样本集为第一待标注样本集中除K个第一训练样本和第一样本之外的待标注样本。
S260:分别计算第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本的特征距离之和。
也就是说分别计算第二待标注样本集中的每个待标注样本与上述K+1个已标注样本的特征距离,然后针对每个带标注样本,求取K+1个距离的和。
S270:从第二待标注样本集中选取特征距离之和最大的K个第二训练样本。
S280:通过比较K个第二训练样本和第一标注集的每个标注样本的标识符,对K个第二训练样本进行去重处理,获得去重后的第二训练样本。
对上述去重后的第二训练样本进行标注,获得第二标注样本集,以此类推,还可以根据上述步骤S250至S280的训练样本选取策略继续获得第三训练样本、第四训练样本等;在对其进行去重处理后进行标注,依次获得第三标注样本集、第四标注样本集等;依次利用第一标注样本集、第二标注样本集、第三标注样本集、第四标注样本集等对医学图像分割模型进行训练,直到医学图像分割模型的效果达到要求。
也就是说,通过上述步骤230至步骤280的样本选取策略确定待标注样本的标注顺序,然后,对待标注样本进行去重处理后再进行标注。
根据本发明实施例提供的技术方案,通过框取待分割标注目标,获得待标注目标区域;以及基于待标注目标区域的特征相似度计算的样本选取策略,保证了优先标注差异性较大的样本集,即保证训练样本的多样性,使得在相同标注成本的情况下,模型的训练样本更加丰富,获得信息量更大,模型的鲁棒性更能得到保证;另外,由于重复样本对模型效果的贡献非常有限,通过比较训练样本的标识符的方法,去除重复出现的样本,可以降低标注成本消耗,同样也可以保证模型训练样本的多样性。综上所述,在同样分割标注成本的情况下,本发明实施例提供的技术方案可以保证深度学习模型的效果更好;或者说,在深度学习模型训练效果相同的条件下,标注成本较低。
图7所示为本发明一实施例提供的训练深度学习模型的方法的流程示意图。该方法可以由计算机设备(例如,服务器)执行。如图7所示,该方法包括如下内容。
S310:根据上述任一实施例所述的确定训练样本的方法确定待标注样本,以对待标注样本进行标注,获得标注样本集。
S320:利用标注样本集训练深度学习模型。
根据本发明实施例提供的技术方案,通过上述任一所述的确定训练样本的方法确定待标注样本,以对待标注样本进行标注,获得标注样本集,并用该标注样本集训练深度学习模型,能够利用较少的训练样本,达到较好的深度学习模型训练效果;或者说,在深度学习模型训练效果相同的条件下,标注成本较低。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图8所示为本发明一实施例提供的确定训练样本的装置的框图。如图8所示,该确定训练样本的装置800包括:
获取模块810,用于获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数。
确定模块820,用于根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。
根据本发明实施例提供的技术方案,获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。通过根据N个待标注样本的特征向量之间的差异性选取待标注样本,能够更有效率地从待标注样本集中筛选样本进行标注,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。
在本发明的另一个实施例中,标注样本集包括第一标注样本集,上述确定模块820还用于将第一待标注样本集中的第一样本分别与其余每个待标注样本进行特征相似度计算,获得第一相似度结果,其中,第一样本为第一待标注样本集中的任意一个待标注样本;根据第一相似度结果,从第一待标注样本集中确定与第一样本存在最大差异的至少一个第一训练样本,以对至少一个第一训练样本进行标注,获得第一标注样本集。
在本发明的一个实施例中,上述确定模块820还用于根据至少一个第一训练样本,得到第二待标注样本集,其中第二待标注样本集包括第一待标注样本集中除至少一个第一训练样本之外的待标注样本;根据特征向量,分别将第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果;根据第二相似度结果,从第二待标注样本集中确定与第一标注样本集存在最大差异的至少一个第二训练样本,以对至少一个第二训练样本进行标注,获得第二标注样本集。
在本发明的一个实施例中,特征相似度计算包括特征距离计算,上述确定模块820还用于分别计算第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本的特征距离之和,获得第二相似度结果。
在本发明的一个实施例中,上述确定训练样本的装置还包括去重模块830,用于根据M个训练样本中的每个训练样本的标识符,对M个训练样本进行去重处理,以对去重后的训练样本进行标注,获得标注样本集。
在本发明的一个实施例中,标注样本集用于对医学图像分割模型进行训练,训练样本为医学图像,医学图像的标识符是通过哈希算法对医学图像对应的医疗数据记录计算得到。
在本发明的一个实施例中,上述获取模块810还用于获取N个待标注样本中的每个待标注样本中的待标注目标区域;对待标注目标区域进行特征提取,获得特征向量。
装置800各个模块的功能和作用的实现过程具体详见上述图1的实施例中对应步骤的实现过程,在此不再赘述。
图9所示为本发明一实施例提供的训练深度学习模型的装置的框图。如图9所示,该训练深度学习模型的装置900包括:
获取模块910,用于根据上述任一实施例所述的确定训练样本的方法确定待标注样本,以对待标注样本进行标注,获得标注样本集。
训练模块920,用于利用标注样本集训练深度学习模型。
根据本发明实施例提供的技术方案,通过上述任一所述的确定训练样本的方法确定待标注样本,以对待标注样本进行标注,获得标注样本集,并用该标注样本集训练深度学习模型,能够利用较少的训练样本,达到较好的深度学习模型训练效果;或者说,在深度学习模型训练效果相同的条件下,标注成本较低。
上述装置900中各个模块的功能和作用的实现过程具体详见图7的实施例中对应步骤的实现过程,在此不再赘述。
图10所示为本发明一实施例提供的电子设备1000的框图。
参照图10,电子设备1000包括处理组件1010,其进一步包括一个或多个处理器,以及由存储器1020所代表的存储器资源,用于存储可由处理组件1010的执行的指令,例如应用程序。存储器1020中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1010被配置为执行指令,以执行上述确定训练样本的方法和训练深度学习模型的方法。
电子设备1000还可以包括一个电源组件被配置为执行电子设备1000的电源管理,一个有线或无线网络接口被配置为将电子设备1000连接到网络,和一个输入输出(I/O)接口。电子设备1000可以操作基于存储在存储器1020的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
一种非临时性计算机可读存储介质,当存储介质中的指令由上述电子设备1000的处理器执行时,使得上述电子设备1000能够执行一种确定训练样本的方法和训练深度学习模型的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序校验码的介质。
另外,还需要说明的是,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案所记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。
应当理解,本发明实施例中提到的第一、第二等限定词,仅仅为了更清楚地描述本发明实施例的技术方案使用,并不能用以限制本发明的保护范围。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种确定训练样本的方法,其特征在于,包括:
获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;
根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。
2.根据权利要求1所述的方法,其特征在于,所述标注样本集包括第一标注样本集,所述根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,包括:
将所述第一待标注样本集中的第一样本分别与其余每个待标注样本进行特征相似度计算,获得第一相似度结果,其中,所述第一样本为所述第一待标注样本集中的任意一个待标注样本;
根据所述第一相似度结果,从所述第一待标注样本集中确定与所述第一样本存在最大差异的至少一个第一训练样本,以对所述至少一个第一训练样本进行标注,获得第一标注样本集。
3.根据权利要求2所述的方法,其特征在于,所述标注样本集包括所述第一标注样本集和第二标注样本集,所述根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,还包括:
根据所述至少一个第一训练样本,得到第二待标注样本集,其中所述第二待标注样本集包括所述第一待标注样本集中除所述至少一个第一训练样本之外的待标注样本;
根据所述特征向量,分别将所述第二待标注样本集中的每个待标注样本与所述第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果;
根据所述第二相似度结果,从所述第二待标注样本集中确定与所述第一标注样本集存在最大差异的至少一个第二训练样本,以对所述至少一个第二训练样本进行标注,获得所述第二标注样本集。
4.根据权利要求3所述的方法,其特征在于,所述特征相似度计算包括特征距离计算,所述分别将所述第二待标注样本集中的每个待标注样本与所述第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果,包括:
分别计算所述第二待标注样本集中的每个待标注样本与所述第一标注样本集中的每个标注样本的特征距离之和,获得所述第二相似度结果。
5.根据权利要求1所述的方法,其特征在于,还包括:
根据所述M个训练样本中的每个训练样本的标识符,对所述M个训练样本进行去重处理,
其中,上述对所述M个待标注样本进行标注,获得标注样本集,包括:
对去重后的训练样本进行标注,获得所述标注样本集。
6.根据权利要求5所述的方法,其特征在于,所述标注样本集用于对医学图像分割模型进行训练,所述训练样本为医学图像,所述医学图像的标识符是通过哈希算法对所述医学图像对应的医疗数据记录计算得到。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述获取第一待标注样本集中的N个待标注样本的特征向量,包括:
获取所述N个待标注样本中的每个待标注样本中的待标注目标区域;
对所述待标注目标区域进行特征提取,获得所述特征向量。
8.一种训练深度学习模型的方法,其特征在于,包括:
根据权利要求1至7中的任一项所述的确定训练样本的方法确定待标注样本,以对所述待标注样本进行标注,获得标注样本集;
利用所述标注样本集训练深度学习模型。
9.一种确定训练样本的装置,其特征在于,包括:
获取模块,用于获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;
确定模块,用于根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至8任一所述的方法。
CN202010904622.2A 2020-09-01 2020-09-01 确定训练样本的方法及装置、训练深度学习模型的方法 Pending CN112036491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010904622.2A CN112036491A (zh) 2020-09-01 2020-09-01 确定训练样本的方法及装置、训练深度学习模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010904622.2A CN112036491A (zh) 2020-09-01 2020-09-01 确定训练样本的方法及装置、训练深度学习模型的方法

Publications (1)

Publication Number Publication Date
CN112036491A true CN112036491A (zh) 2020-12-04

Family

ID=73590799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010904622.2A Pending CN112036491A (zh) 2020-09-01 2020-09-01 确定训练样本的方法及装置、训练深度学习模型的方法

Country Status (1)

Country Link
CN (1) CN112036491A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN114612699A (zh) * 2022-03-10 2022-06-10 京东科技信息技术有限公司 一种图像数据处理的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869645A (zh) * 2016-03-25 2016-08-17 腾讯科技(深圳)有限公司 语音数据处理方法和装置
CN108399414A (zh) * 2017-02-08 2018-08-14 南京航空航天大学 样本选择方法及装置
CN110766080A (zh) * 2019-10-24 2020-02-07 腾讯科技(深圳)有限公司 一种标注样本确定方法、装置、设备及存储介质
CN111368924A (zh) * 2020-03-05 2020-07-03 南京理工大学 基于主动学习的不平衡数据分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869645A (zh) * 2016-03-25 2016-08-17 腾讯科技(深圳)有限公司 语音数据处理方法和装置
CN108399414A (zh) * 2017-02-08 2018-08-14 南京航空航天大学 样本选择方法及装置
CN110766080A (zh) * 2019-10-24 2020-02-07 腾讯科技(深圳)有限公司 一种标注样本确定方法、装置、设备及存储介质
CN111368924A (zh) * 2020-03-05 2020-07-03 南京理工大学 基于主动学习的不平衡数据分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN113190851B (zh) * 2021-05-26 2023-07-18 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN114612699A (zh) * 2022-03-10 2022-06-10 京东科技信息技术有限公司 一种图像数据处理的方法和装置

Similar Documents

Publication Publication Date Title
CN112036491A (zh) 确定训练样本的方法及装置、训练深度学习模型的方法
JP6623265B2 (ja) 偽陽性低減での小結節検出
CN109308681B (zh) 图像处理方法和装置
US7480400B2 (en) Detection of fiber pathways
CN111553892B (zh) 基于深度学习的肺结节分割计算方法、装置及系统
WO2022042348A1 (zh) 医学影像标注方法和装置、设备及存储介质
WO2017181892A1 (zh) 前景分割方法及装置
JP2009207709A (ja) 画像処理システム、画像保管装置、および、画像処理装置、並びに、画像処理方法、プログラム
CN111625668B (zh) 对象检测和候选过滤系统
WO2014152929A1 (en) Measuring glomerular number from kidney mri images
EP3671544A1 (en) Image processing method and information processing device
Li et al. Automatic comic page segmentation based on polygon detection
WO2015042891A1 (zh) 图像语义分割的方法和装置
CN110837572A (zh) 图像检索方法、装置、可读存储介质及电子设备
EP2866198A2 (en) Registration of multiple laser scans
US20170185713A1 (en) Automatic detection of medical image acquisition protocol
CN105678778A (zh) 一种图像匹配方法和装置
US20220277574A1 (en) Image classification using color profiles
CN113469981A (zh) 图像处理方法、装置及存储介质
JP2019180749A (ja) 画像処理プログラム、画像処理装置、および画像処理方法
CN111382801A (zh) 一种医学影像分类方法、装置、设备及存储介质
TWI773045B (zh) 影像處理方法、系統及非暫態電腦可讀取儲存媒體
JP2018180879A (ja) 物体認識装置、物体認識システム、及び物体認識方法
CN111275722A (zh) 肺段、肝段分割方法及系统
CN112487943B (zh) 关键帧去重的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: Room B401, floor 4, building 1, No. 12, Shangdi Information Road, Haidian District, Beijing 100085

Applicant after: Tuxiang Medical Technology Co.,Ltd.

Address before: Room B401, floor 4, building 1, No. 12, Shangdi Information Road, Haidian District, Beijing 100085

Applicant before: INFERVISION

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201204

RJ01 Rejection of invention patent application after publication