CN112560993A - 数据筛选方法、装置、电子设备及存储介质 - Google Patents
数据筛选方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112560993A CN112560993A CN202011569017.0A CN202011569017A CN112560993A CN 112560993 A CN112560993 A CN 112560993A CN 202011569017 A CN202011569017 A CN 202011569017A CN 112560993 A CN112560993 A CN 112560993A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- data set
- labeled
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013145 classification model Methods 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 41
- 201000010099 disease Diseases 0.000 claims description 27
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 26
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 10
- 239000000463 material Substances 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000002059 diagnostic imaging Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 231100000915 pathological change Toxicity 0.000 description 2
- 230000036285 pathological change Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开提供了一种数据筛选方法、装置、电子设备及存储介质,涉及人工智能、深度学习、数据筛选、数据标注、图像处理、医学影像等领域。具体实现方案为:从已标注数据集中提取待处理的影像数据;根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果;根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据。采用本公开,节约了人力物力,且提高了数据标注的准确度及类别多样性。
Description
技术领域
本公开涉及数据处理领域。本公开尤其涉及人工智能、深度学习、数据筛选、数据标注、图像处理、医学影像等领域。
背景技术
随着人工智能、深度学习技术的深入发展,越来越多的应用场景(如目标检测,目标识别,目标分类等)可以通过基于深度学习技术实现的神经网络模型来实现。
在神经网络模型的训练过程中,需要大量的使用到标注数据,以便基于该标注数据构建训练样本数据集后,基于该训练样本数据集对该神经网络模型进行训练。但是,存在数据标注的准确度不高、类别单一的问题,使得对模型训练而言高价值的标注数据并不容易得到,即便可以得到也要浪费大量的人力物力成本,对此,相关技术中并未存在有效的解决方案。
发明内容
本公开提供了一种数据筛选方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种数据筛选方法,包括:
从已标注数据集中提取待处理的影像数据;
根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果;
根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据。
根据本公开的另一方面,提供了一种数据筛选装置,包括:
提取模块,用于从已标注数据集中提取待处理的影像数据;
分类预测模块,用于根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果;
数据筛选模块,用于根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。
采用本公开,可以从已标注数据集中提取待处理的影像数据,根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果。根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据,从而节约了人力物力,且提高了数据标注的准确度及类别多样性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是相关技术中数据标注的示意图;
图2是根据本公开实施例的数据筛选方法的流程示意图;
图3是根据本公开实施例的应用示例中模型训练及模型应用的示意图;
图4是根据本公开实施例的数据筛选装置的组成结构示意图;
图5是用来实现本公开实施例的数据筛选方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
相关技术中,基于深度学习技术实现的神经网络模型,可以应用于如目标检测,目标识别,目标分类等诸多应用场景中,以目标分类中针对医学影像数据为例,随着医学成像技术和计算机技术的不断发展和进步,医学图像分析已成为医学研究、临床疾病诊断和治疗中一个不可或缺的工具和技术手段,许多患者因医学影像分析和筛查技术,在疾病早期就获得了诊断和治疗。然而,由于专业影像科医生的匮乏,加之基层医疗卫生条件仍不够完善,仍有大量患者无法受益于医学影像筛查技术,而错过了疾病诊断和治疗的黄金时间。因此,如何利用计算机技术进行病变的自动筛查,如基于深度学习技术实现的神经网络模型进行疾病分类,及进一步针对疾病分类进行当前类别下的各个疾病分级的自动筛查,具有重大的研究意义和实用价值。基于深度学习技术实现的神经网络模型,其训练过程依赖大量的标注数据。
图1是相关技术中数据标注的示意图,如图1所示,目前更多通过人工手段,对未标注数据集进行人工标注后得到已标注数据集,从而将该已标注数据集用于模型训练(本示例为分类模型),以得到训练好的模型,从而,直接基于该训练好的模型来实现上述针对病变的自动筛查。已标注数据集中的样本数据种类越多,标注的分类越精确,则模型的训练效果越好,自动筛查的精度越高。
然而,高质量的有标注医学影像是非常昂贵且不易获得的,即便能获得,也需要付出大量的人力物力、及投入巨大的经济成本。
目前,基于深度学习技术实现的神经网络模型,可以基于置信度、边缘采样、基于熵的方式来识别数据是否具有标注价值,其中,针对置信度而言,根据置信度最低的原则,比如,对于二分类模型或多分类模型,模型会输出样本属于每一个类别的概率。如二分类场景下,两个样本的输出概率分别是(0.9,0.1)和(0.51,0.49),“最大概率值”趋于越小的样本,即第二个样本更“难”被区分,因此更有被标注的价值。就边缘采样而言,边缘采样指:选择模型预测“概率最大值”与“概率第二大值”的差值最小的样本,该样本更有被标注的价值。就基于熵而言,熵可以衡量一个系统的不确定性,熵越大表示系统的不确定性越大,在分类场景下,熵较大的样本数据更有被标注的价值。
由于上述基于置信度、边缘采样、基于熵的方式来识别数据是否具有标注价值,只针对单个样本数据,未考虑多个数据集间的关联及样本数据各类别的平衡性,因此,并不能很好的提升模型训练效果。对此,本申请可以采用基于有限的数据训练得到的分类模型来自动筛选出对模型性能提升贡献最大的样本(即标注价值最高的样本),以充分利用有限的标注经费,减少对人力物力的占用,并尽可能提升模型性能,模型性能提升后,通过该模型实现上述针对病变的自动筛查,在精度和速度上的处理效果更好。
需要指出的是,本文涉及的第一分类模型,第二分类模型,只是为了区分,与最初未训练的分类模型相比,第一分类模型是第一次训练(初次训练)后得到的分类模型;第二分类模型是第二次训练(即再次训练)后得到的分类模型。
根据本公开的实施例,提供了一种数据筛选方法,图2是根据本公开实施例的数据筛选方法的流程示意图,该方法可以应用于数据筛选装置,例如,该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以执行分类概率预测、相似度比对、数据筛选、数据标注等等。其中,终端可以为用户设备(UE,User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA,Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图2所示,包括:
S101、从已标注数据集中提取待处理的影像数据。
S102、根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果。
S103、根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据。
基于S101-S103的一示例中,可以采用基于有限的数据(即已标注数据集)所训练出的分类模型,自动筛选对提升该分类模型性能贡献最大的样本数据,以得到标注价值最高的样本(该样本为已标注数据集中未覆盖的样本),具体的,包括:1)从已标注数据集中选择影像数据(如医疗场景中的医学影像数据),对该影像数据进行图像预处理,以得到可以更好训练该分类模型的预处理数据;2)将该预处理数据输入分类模型(如疾病分类模型或者进一步的疾病分级模型),并对该分类模型进行第一次训练(即初次训练),第一次训练后得到的分类模型记为第一分类模型,获得该第一分类模型输出的特征向量,及根据该特征向量得到的概率预测结果;3)在数据筛选阶段是针对数据集的相似度,即根据该概率预测结果与该已标注数据集之间的数据集相似度(数据集中样本数据对应特征向量的相似度)进行数据筛选,得到该待标注数据。还可以,将该数据集的相似度,与针对某数据集中的单个样本数据的运算处理结合在一起来进行该数据筛选,可以得到更为精确的待标注数据。其中,基于所述概率预测结果而言,为了提高数据筛选速度及精确度,还可以进一步筛选数据,即基于该概率预测结果得到待处理数据集,比如,将该概率预测结果中符合分类需求的预测结果作为该待处理数据集。
采用本公开,可以从已标注数据集中提取待处理的影像数据,根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果。基于所述概率预测结果得到概率预测结果,根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据,从而,通过数据筛选得到了对分类模型性能提升帮助最大的待标样本,节约了人力物力及经济成本。而且,该待标样本为已标注数据集中未覆盖的样本,也提高了数据标注的准确度及类别多样性。
一实施方式中,还包括:对所述待处理的影像数据进行图像预处理,得到预处理数据。采用本实施方式,由于影像数据本身并不是直接可用于分类模型的数据,也达不到很好的模型训练效果,因此,对待处理的影像数据进行图像预处理,可以更好的去训练分类模型。
一实施方式中,所述根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果,包括:将所述预处理数据输入所述分类模型,对所述分类模型进行第一次训练,得到训练后的第一分类模型;根据所述第一分类模型输出的特征向量,得到所述概率预测结果。采用本实施方式,可以对分类模型进行第一次训练后,根据模型输出的特征向量,可以自动得到概率预测结果,无需人工干预,从而节约了人力物力及经济成本。
一实施方式中,所述根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据,包括:根据所述概率预测结果与所述已标注数据集中样本数据对应特征向量的相似度,得到所述数据集相似度,根据所述数据集相似度进行数据筛选后得到所述待标注数据。采用本实施方式,主要是基于数据集的相似度,而不是某一个单一数据的相似度来实现数据筛选,针对多个数据集而言,比如针对概率预测结果与已标注数据集之间所包含样本数据对应的特征向量,并基于该特征向量的相似度得到该数据集相似度,从而,可以根据该数据集相似度进行数据筛选后得到待标注数据,无需人工干预,通过自动的数据筛选即可得到所需的标注数据。
进而,还可以根据得到的待标注数据对已标注数据集进行数据标注的二次扩充,从而,既考虑了数据集间的相关性,又考虑到了数据集中各类别样本的平衡,从而可以利用该数据标注信息更好的训练分类模型,使得后续采用该最终训练好的分类模型,可以针对医学影像的分类得到精确的识别。
一实施方式中,还包括:根据所述概率预测结果中任一样本数据对应的样本熵值,并结合所述数据集相似度进行所述数据筛选。采用本实施方式,还可以将针对任一样本数据对应的样本熵值(即针对单一样本的样本熵值),与针对多个数据集的数据集相似度结合在一起,共同实现上述数据筛选,可以得到对模型性能提升更为精确的标注数据。
一实施方式中,还包括:根据所述待标注数据对所述已标注数据集进行标注数据的扩充处理,得到更新后的标注数据集;根据所述更新后的标注数据集,对所述分类模型进行第二次训练,得到训练后的第二分类模型。采用本实施方式,在数据扩充后进行分类模型的再次训练,从而,得到最终使用的分类识别效果更为精确的分类模型。
一示例中,为了提高数据筛选速度及精确度,还可以进一步筛选数据,即基于该概率预测结果得到待处理数据集,比如,将该概率预测结果中符合分类需求的预测结果作为该待处理数据集,则将上述样本熵值与上述数据集相似度结合,并进行上述数据筛选的过程中,可以包括如下内容:
1)可以基于该概率预测结果,为基于概率预测结果得到的待处理数据集(可以根据该待处理数据集得到最终的待标注数据集)计算样本熵值;
2)通过上述第一分类模型得到已标注数据集与待处理数据集中所有样本的特征向量;
3)计算该待处理数据集中每一个样本数据(即待标样本数据)与整个已标注数据集中的特征向量相似度;
4)根据该待处理数据集中针对单个样本数据所得到的样本熵值(如步骤1所示),以及针对样本数据集所得到的已标注数据集和待处理数据集的相似度(如步骤3所示),得到待标注数据,该待标注数据构成待标注数据集,将该待标注数据集加入原有的已标注数据集中,实现了对原有已标注数据集的数据扩充,将数据扩充后得到的该更新后的标注数据集作为样本数据集,二次训练该分类模型(即再次训练该分类模型),直至分类模型收敛后得到训练后分类模型。
采用本示例,由于主要是基于数据集的相似度,而不是某一个单一样本数据的相似度来实现数据筛选,从而使得数据分类更为精确,根据数据筛选结果进行数据标注信息的二次扩充,既考虑了数据集间的相关性,又考虑到了数据集中各类别样本的平衡,从而,利用该该更新后的标注数据集可以更好的训练该分类模型,使得后续采用该训练好的分类模型(即最终的目标分类模型),可以针对医学影像的分类得到精确的识别,提高了分类精确度。
一实施方式中,还包括:根据待处理的影像数据及所述第二分类模型,得到针对所述待处理的影像数据的分类结果;根据所述分类结果,在所述待处理的影像数据与疾病分类间建立关联。采用本实施方式,可以基于第二分类模型实现精确的分类,针对分类而言,还可以根据该分类结果,在该待处理的影像数据与疾病分类间建立关联后,对疾病分级(如癌症分四期)进行精确的分类识别,提高了分类精确度。
应用示例:
机器学习及深度学习系统建模过程中,可以包含样本选择、模型训练、模型预测及评估、模型更新等步骤。基于深度学习的模型训练是一类自动化样本选择的技术,通过将人工标注数据进行样本选择后,引入整体的步骤流程中来实现模型训练、模型预测及评估、模型更新等步骤。
针对样本选择而言,由于基于置信度、边缘采样及基于熵的方式是针对单一样本,且根据系统的不确定性来筛选样本,未考虑待标样本集与已有标注的样本集之间的关联,也未考虑标注集中各类别样本平衡的问题。实际上,若向数据标注集中补充大量特定类别的样本,则会显著损害其他类别的分类性能,反而会降低分类模型的训练效果,降低其分类性能。
应用本公开实施例一处理流程包括如下内容:
图3是根据本公开实施例的应用示例中模型训练及模型应用的示意图,如图3所示,包括:将医学影像I进行数据预处理后训练疾病分类模型M,根据输出的特征向量F来计算分类概率P后进行数据筛选。在数据筛选过程中,主要是利用多个数据集间的数据集相似度来进行数据筛选,最终得到待标数据集,将该待标数据集作为新标注数据集对已标注数据集进行数据扩充后,可以训练该疾病分类模型M,直至模型训练结束。在模型应用的分类推断过程中,可以将待识别的医学影像输入该训练好的疾病分类模型,输出分类结果,可以将该分类结果用于疾病分类,及进一步的某类别下的疾病分级,比如,对医学影像与相应疾病严重程度间的关系进行建模,并将病程分级之间的强度与关联纳入建模范围,以实现更准确的病程分级。
图3中,涉及模型训练及数据筛选一些具体的公式及描述如下:
一、数据预处理
在模型训练阶段,可以从已标注数据集中选择医学影像I,在模型推理预测阶段,选择医学影像I后,可以利用标准分(Z-Score)归一化、高斯滤波和中值滤波等适合医疗影像的图像预处理方式,对医学影像I进行图像预处理,得到预处理之后的图像。
二、数据筛选
将该预处理之后的图像输入该疾病分类网络M,并获得模型输出的特征向量F和最终的概率预测结果P。
可以基于概率预测结果P为待处理数据集计算样本熵值,其中,该待处理数据集为最终想要获得的待标注样本集的母集(或称父集),通过本数据筛选的步骤,最终可以得到包含待标注样本的该待标注样本集,该待标注样本集为该待处理样本集的子集。
还可以计算该已标注数据集与该待处理数据集中所有样本的特征向量F。具体的,计算该待处理数据集中每一个待标样本与整个已标注数据集中的向量相似度,考虑了已标注数据集中共存在多个类别(即N个类别,N为大于1的整数),按照如下公式,可以筛选出由待标样本x构成的最终待标注样本集S:
Fc=mean(Fx),x∈c
S={Sc},c∈N
公式中,entropy(x)为待标样本x的样本熵值;sim(Fx,Fy)为两向量Fx,Fy之间的样本相似度(如cosine相似度);考虑N个类别中特定类别c,Fc为已标注样本集中所有属于该类别的样本特征向量的平均值;意义为选择与c类别样本最相似,且与其它类别样本最不相似的待标样本x。
三、模型训练
对于每个类别c,还可以分别抽取所需数量的待标样本,以便组成待标样本集S。对选取出的待标样本经标注后,合并入该已标注数据集,从而实现数据扩充,并对已标注数据集进行更新,基于更新后的标注数据集继续进行疾病分类模型M的训练。
四、模型应用
将待识别的医学影像输入训练好的疾病分类模型,从而,可以基于模型分类推断的预测,得到分类概率及所需的最终分类结果。其中,针对疾病分类模型而言,该模型可以为任意分类网络,如Inception,ResNet,DenseNet等等,也可以自主构造一个分类网络并作为该模型。该模型所输出的特征向量F是具有空间意义的,即特征向量F是经过L2归一化的特征向量,可以与另一组经过L2归一化的特征向量计算cosine相似度。比如,疾病严重程度或分类共有N个类别的情况下,分类概率是基于特征向量F所计算出的分类概率,共包含N个元素。
根据本公开的实施例,提供了一种数据筛选装置,图4是根据本公开实施例的数据筛选装置的组成结构示意图,如图4所示,数据筛选装置400包括:提取模块401,用于从已标注数据集中提取待处理的影像数据;分类预测模块402,用于根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果;数据筛选模块403,用于根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据。
一实施方式中,还包括图像预处理模块,用于对所述待处理的影像数据进行图像预处理,得到预处理数据。
一实施方式中,所述分类预测模块,用于将所述预处理数据输入所述分类模型,对所述分类模型进行第一次训练,得到训练后的第一分类模型;根据所述第一分类模型输出的特征向量,得到所述概率预测结果。
一实施方式中,所述数据筛选模块,用于根据所述概率预测结果与所述已标注数据集中样本数据对应特征向量的相似度,得到所述数据集相似度,根据所述数据集相似度进行数据筛选后得到所述待标注数据。
一实施方式中,所述数据筛选模块,用于根据所述概率预测结果中任一样本数据对应的样本熵值,并结合所述数据集相似度进行所述数据筛选。
一实施方式中,还包括训练模块,用于根据所述待标注数据对所述已标注数据集进行标注数据的扩充处理,得到更新后的标注数据集;根据所述更新后的标注数据集,对所述分类模型进行第二次训练,得到训练后的第二分类模型。
一实施方式中,还包括分类处理模块,用于根据待处理的影像数据及所述第二分类模型,得到针对所述待处理的影像数据的分类结果;根据所述分类结果,在所述待处理的影像数据与疾病分类间建立关联。
本公开实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质及一种计算机程序产品。
如图5所示,是用来实现本公开实施例的数据筛选方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如数据筛选方法。例如,在一些实施例中,数据筛选方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的数据筛选方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据筛选方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (17)
1.一种数据筛选方法,所述方法包括:
从已标注数据集中提取待处理的影像数据;
根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果;
根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据。
2.根据权利要求1所述的方法,还包括:
对所述待处理的影像数据进行图像预处理,得到预处理数据。
3.根据权利要求2所述的方法,其中,所述根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果,包括:
将所述预处理数据输入所述分类模型,对所述分类模型进行第一次训练,得到训练后的第一分类模型;
根据所述第一分类模型输出的特征向量,得到所述概率预测结果。
4.根据权利要求1至3中任一项所述的方法,其中,所述根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据,包括:
根据所述概率预测结果与所述已标注数据集中样本数据对应特征向量的相似度,得到所述数据集相似度,根据所述数据集相似度进行数据筛选后得到所述待标注数据。
5.根据权利要求4所述的方法,还包括:
根据所述概率预测结果中任一样本数据对应的样本熵值,并结合所述数据集相似度进行所述数据筛选。
6.根据权利要求5所述的方法,还包括:
根据所述待标注数据对所述已标注数据集进行标注数据的扩充处理,得到更新后的标注数据集;
根据所述更新后的标注数据集,对所述分类模型进行第二次训练,得到训练后的第二分类模型。
7.根据权利要求6所述的方法,还包括:
根据待处理的影像数据及所述第二分类模型,得到针对所述待处理的影像数据的分类结果;
根据所述分类结果,在所述待处理的影像数据与疾病分类间建立关联。
8.一种数据筛选装置,所述装置包括:
提取模块,用于从已标注数据集中提取待处理的影像数据;
分类预测模块,用于根据所述待处理的影像数据及分类模型进行分类概率预测,得到概率预测结果;
数据筛选模块,用于根据所述概率预测结果与所述已标注数据集之间的数据集相似度进行数据筛选,得到待标注数据。
9.根据权利要求8所述的装置,还包括图像预处理模块,用于:
对所述待处理的影像数据进行图像预处理,得到预处理数据。
10.根据权利要求9所述的装置,其中,所述分类预测模块,用于:
将所述预处理数据输入所述分类模型,对所述分类模型进行第一次训练,得到训练后的第一分类模型;
根据所述第一分类模型输出的特征向量,得到所述概率预测结果。
11.根据权利要求8至10中任一项所述的装置,其中,所述数据筛选模块,用于:
根据所述概率预测结果与所述已标注数据集中样本数据对应特征向量的相似度,得到所述数据集相似度,根据所述数据集相似度进行数据筛选后得到所述待标注数据。
12.根据权利要求11所述的装置,所述数据筛选模块,用于:
根据所述概率预测结果中任一样本数据对应的样本熵值,并结合所述数据集相似度进行所述数据筛选。
13.根据权利要求12所述的装置,还包括训练模块,用于:
根据所述待标注数据对所述已标注数据集进行标注数据的扩充处理,得到更新后的标注数据集;
根据所述更新后的标注数据集,对所述分类模型进行第二次训练,得到训练后的第二分类模型。
14.根据权利要求13所述的装置,还包括分类处理模块,用于:
根据待处理的影像数据及所述第二分类模型,得到针对所述待处理的影像数据的分类结果;
根据所述分类结果,在所述待处理的影像数据与疾病分类间建立关联。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011569017.0A CN112560993B (zh) | 2020-12-25 | 2020-12-25 | 数据筛选方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011569017.0A CN112560993B (zh) | 2020-12-25 | 2020-12-25 | 数据筛选方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560993A true CN112560993A (zh) | 2021-03-26 |
CN112560993B CN112560993B (zh) | 2024-07-23 |
Family
ID=75033216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011569017.0A Active CN112560993B (zh) | 2020-12-25 | 2020-12-25 | 数据筛选方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560993B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113576487A (zh) * | 2021-06-18 | 2021-11-02 | 深圳技术大学 | 特征的确定、心电预测方法及装置、电子设备和存储介质 |
CN114090601A (zh) * | 2021-11-23 | 2022-02-25 | 北京百度网讯科技有限公司 | 一种数据筛选方法、装置、设备以及存储介质 |
CN114241243A (zh) * | 2021-12-20 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 图像分类模型的训练方法、装置、电子设备和存储介质 |
CN114612699A (zh) * | 2022-03-10 | 2022-06-10 | 京东科技信息技术有限公司 | 一种图像数据处理的方法和装置 |
CN116246756A (zh) * | 2023-01-06 | 2023-06-09 | 北京医准智能科技有限公司 | 模型更新方法、装置、电子设备及介质 |
CN118747837A (zh) * | 2024-08-12 | 2024-10-08 | 北京小蝇科技有限责任公司 | 基于机器学习的样本数据处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595497A (zh) * | 2018-03-16 | 2018-09-28 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置及终端 |
WO2019233297A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 数据集的构建方法、移动终端、可读存储介质 |
CN111274425A (zh) * | 2020-01-20 | 2020-06-12 | 平安科技(深圳)有限公司 | 医疗影像分类方法、装置、介质及电子设备 |
CN112101162A (zh) * | 2020-09-04 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 图像识别模型的生成方法、装置、存储介质和电子设备 |
-
2020
- 2020-12-25 CN CN202011569017.0A patent/CN112560993B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595497A (zh) * | 2018-03-16 | 2018-09-28 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置及终端 |
WO2019233297A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 数据集的构建方法、移动终端、可读存储介质 |
CN111274425A (zh) * | 2020-01-20 | 2020-06-12 | 平安科技(深圳)有限公司 | 医疗影像分类方法、装置、介质及电子设备 |
CN112101162A (zh) * | 2020-09-04 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 图像识别模型的生成方法、装置、存储介质和电子设备 |
Non-Patent Citations (2)
Title |
---|
ANSARI, R等: "Data-hiding in audio using frequency-selective phase alteration", 《2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》, 31 December 2004 (2004-12-31) * |
李荣龙;胡伟;: "字符候选集筛选算法评测方法研究", 信息技术, no. 01, 24 January 2018 (2018-01-24) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113576487A (zh) * | 2021-06-18 | 2021-11-02 | 深圳技术大学 | 特征的确定、心电预测方法及装置、电子设备和存储介质 |
CN113576487B (zh) * | 2021-06-18 | 2023-06-13 | 深圳技术大学 | 特征的确定、心电预测方法及装置、电子设备和存储介质 |
CN114090601A (zh) * | 2021-11-23 | 2022-02-25 | 北京百度网讯科技有限公司 | 一种数据筛选方法、装置、设备以及存储介质 |
CN114090601B (zh) * | 2021-11-23 | 2023-11-03 | 北京百度网讯科技有限公司 | 一种数据筛选方法、装置、设备以及存储介质 |
CN114241243A (zh) * | 2021-12-20 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 图像分类模型的训练方法、装置、电子设备和存储介质 |
CN114612699A (zh) * | 2022-03-10 | 2022-06-10 | 京东科技信息技术有限公司 | 一种图像数据处理的方法和装置 |
CN116246756A (zh) * | 2023-01-06 | 2023-06-09 | 北京医准智能科技有限公司 | 模型更新方法、装置、电子设备及介质 |
CN116246756B (zh) * | 2023-01-06 | 2023-12-22 | 浙江医准智能科技有限公司 | 模型更新方法、装置、电子设备及介质 |
CN118747837A (zh) * | 2024-08-12 | 2024-10-08 | 北京小蝇科技有限责任公司 | 基于机器学习的样本数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112560993B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560993B (zh) | 数据筛选方法、装置、电子设备及存储介质 | |
CN113326764A (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN112784778B (zh) | 生成模型并识别年龄和性别的方法、装置、设备和介质 | |
CN112906502A (zh) | 目标检测模型的训练方法、装置、设备以及存储介质 | |
CN112633276B (zh) | 训练方法、识别方法、装置、设备、介质 | |
CN108564102A (zh) | 图像聚类结果评价方法和装置 | |
US12061991B2 (en) | Transfer learning with machine learning systems | |
CN113869449A (zh) | 一种模型训练、图像处理方法、装置、设备及存储介质 | |
CN115457329B (zh) | 图像分类模型的训练方法、图像分类方法和装置 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
EP4343616A1 (en) | Image classification method, model training method, device, storage medium, and computer program | |
CN115359308B (zh) | 模型训练、难例识别方法、装置、设备、存储介质及程序 | |
CN115861255A (zh) | 用于图像处理的模型训练方法、装置、设备、介质及产品 | |
CN113449778B (zh) | 用于量子数据分类的模型训练方法以及量子数据分类方法 | |
CN113591709A (zh) | 动作识别方法、装置、设备、介质和产品 | |
CN113191261A (zh) | 图像类别的识别方法、装置和电子设备 | |
CN115482436B (zh) | 图像筛选模型的训练方法、装置以及图像筛选方法 | |
CN116578925A (zh) | 基于特征画像的行为预测方法、装置及存储介质 | |
CN116092101A (zh) | 训练方法、图像识别方法、装置、设备及可读存储介质 | |
CN114091463B (zh) | 地区工单乱点分析方法、装置、电子设备及可读存储介质 | |
CN115631370A (zh) | 一种基于卷积神经网络的mri序列类别的识别方法及装置 | |
CN115809687A (zh) | 一种图像处理网络的训练方法及装置 | |
CN114120341A (zh) | 简历文档识别模型训练方法、简历文档识别方法及装置 | |
CN114120410A (zh) | 用于生成标签信息的方法、装置、设备、介质和产品 | |
CN114693950B (zh) | 一种图像特征提取网络的训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |