CN112614570A - 样本集标注、病理图像分类、分类模型构建方法及装置 - Google Patents

样本集标注、病理图像分类、分类模型构建方法及装置 Download PDF

Info

Publication number
CN112614570A
CN112614570A CN202011487838.XA CN202011487838A CN112614570A CN 112614570 A CN112614570 A CN 112614570A CN 202011487838 A CN202011487838 A CN 202011487838A CN 112614570 A CN112614570 A CN 112614570A
Authority
CN
China
Prior art keywords
sample
pathological image
labeling
uncertainty
pathological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011487838.XA
Other languages
English (en)
Other versions
CN112614570B (zh
Inventor
柯晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bi Ren Technology Co ltd
Original Assignee
Shanghai Biren Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Biren Intelligent Technology Co Ltd filed Critical Shanghai Biren Intelligent Technology Co Ltd
Priority to CN202011487838.XA priority Critical patent/CN112614570B/zh
Publication of CN112614570A publication Critical patent/CN112614570A/zh
Application granted granted Critical
Publication of CN112614570B publication Critical patent/CN112614570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种样本集标注、病理图像分类、分类模型构建方法及装置,所述方法包括:基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度,基于各样本病理图像的综合不确定度选取满足预设标注条件的样本病理图像进行标注,直至满足预设收敛条件。本发明基于标注不确定度、先验不确定度以及空间相关度获取综合不确定度,进而根据综合不确定度选取部分样本病理图像进行标注,不仅能够准确且高质量标注样本,而且大幅度减少了样本的标注量,降低了模型的训练成本,提高了模型的训练效率和精度。

Description

样本集标注、病理图像分类、分类模型构建方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种样本集标注、病理图像分类、分类模型构建方法及装置。
背景技术
近年来依赖于卷积神经网络(Convolutional Neural Network,简称CNN)强大的分层特征提取能力,已经广泛应用于各个领域,如病理图像的分类。
然而,训练病理图像分类模型需要获取大规模的医学图像训练样本,且需要用手工方法为训练样本标注,既费时又容易出错,并且手工标注的方法也未考虑不同训练样本数据的不均衡性,容易降低病理图像标注的质量,进而影响分类模型的训练效果。
发明内容
本发明提供一种样本集标注、病理图像分类、分类模型构建方法及装置,实现减少训练样本标注量,降低训练成本。
本发明提供一种样本集标注方法,包括:
样本获取步骤:获取若干个待标注的样本病理图像;
不确定度计算步骤:基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;
样本标注步骤:基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;
迭代步骤:基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;
其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
根据本发明提供的一种样本集标注方法,所述样本病理图像的标注不确定度的获取步骤包括:
将样本病理图像输入预测损失函数模型,输出所述样本病理图像的预测损失函数值;
其中,所述预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到,所述预测病理图像的损失函数值的获取步骤包括:
将所述预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层,获取所述预测病理图像的损失函数值;
所述目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。
根据本发明提供的一种样本集标注方法,所述样本病理图像的先验不确定度是基于先验值模型确定的,所述先验值模型为:
Figure BDA0002839843510000021
Figure BDA0002839843510000022
其中,
Figure BDA0002839843510000023
表示样本病理图像的先验不确定度,
Figure BDA0002839843510000024
表示归一化常数,
Figure BDA0002839843510000025
表示第k张样本病理图像中中心像素坐标为(i,j)的子图像,
Figure BDA0002839843510000031
表示第k张样本病理图像中中心像素坐标为(i',j')的子图像,
Figure BDA0002839843510000032
表示相邻与第l-1轮以及标注过的子图像全体集合
Figure BDA0002839843510000033
的指标函数,g[(i,j),(i′,j′)]表示空间距离核函数,∫di′dj′表示对于全部可行的i′和j′进行累加。
根据本发明提供的一种样本集标注方法,所述样本病理图像的空间相关度是基于空间相关性模型确定的,所述空间相关性模型为:
Figure BDA0002839843510000034
其中,
Figure BDA0002839843510000035
表示空间相关度,exp表示指数函数,σ2表示方差,
Figure BDA0002839843510000036
标注未标注的子图像。
根据本发明提供的一种样本集标注方法,基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注,包括:
将各样本病理图像的综合不确定度,按照由大到小的顺序进行排序,选取排序在前的预设数量的样本病理图像进行标注。
本发明还提供一种病理图像分类方法,包括:
获取待分类的病理图像;
将所述病理图像输入至病理图像分类模型中,获取所述病理图像的分类结果;
其中,所述病理图像分类模型为采用如上所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。
本发明还提供一种病理图像分类模型构建方法,包括:
采用如上所述的样本集标注方法标注的样本病理图像;
基于所述样本病理图像,采用机器学习的方式对机器学习模型进行训练,得到病理图像分类模型。
本发明还提供一种样本集标注装置,包括:
样本获取单元,用于获取若干个待标注的样本病理图像;
不确定度计算单元,用于基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;
样本标注单元,用于基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;
迭代单元,用于基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;
其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
本发明还提供一种病理图像分类装置,包括:
获取单元,用于获取待分类的病理图像;
分类单元,用于将所述病理图像输入至病理图像分类模型中,获取所述病理图像的分类结果;
其中,所述病理图像分类模型为采用如上所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。
本发明还提供一种病理图像分类模型构建装置,包括:
标注单元,用于采用如上所述的样本集标注方法标注的样本病理图像;
训练单元,用于基于所述样本病理图像,采用机器学习的方式对机器学习模型进行训练,得到病理图像分类模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述样本集标注方法的步骤;和/或,所述处理器执行所述程序时实现如上所述病理图像分类方法的步骤;和/或,所述处理器执行所述程序时实现如上所述病理图像分类模型构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述样本集标注方法的步骤;和/或,所述处理器执行所述程序时实现如上所述病理图像分类方法的步骤;和/或,所述处理器执行所述程序时实现如上所述病理图像分类模型构建方法的步骤。
本发明提供的样本集标注、病理图像分类、分类模型构建方法及装置,基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度,基于各样本病理图像的综合不确定度选取满足预设标注条件的样本病理图像进行标注,直至满足预设收敛条件。由于样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,从而可以表征样本病理图像是否需要进行标注的必要性,而样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,从而可以结合先验知识确定样本病理图像的最佳标注区域,以及样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的,从而可以结合样本病理图像邻域的标注情况确定是否对样本病理图像进行标注,避免冗余标注并保证样本集标注的均衡性,由此可见,本发明基于标注不确定度、先验不确定度以及空间相关度获取综合不确定度,进而根据综合不确定度选取部分样本病理图像进行标注,不仅能够准确且高质量标注样本,而且大幅度减少了样本的标注量,降低了模型的训练成本,提高了模型的训练效率和精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的样本集标注方法的流程示意图;
图2是现有技术中基于FCN网络的模型训练流程示意图;
图3是现有技术中FCN网络的结构示意图;
图4是本发明提供的病理图像分类模型训练的流程示意图;
图5是本发明提供的病理图像分类方法的流程示意图;
图6是本发明提供的病理图像分类模型构建方法的流程示意图;
图7是本发明提供的样本集标注装置的结构示意图;
图8是本发明提供的病理图像分类装置的结构示意图;
图9是本发明提供的病理图像分类模型构建装置的结构示意图;
图10是本发明提供的电子设备的结构示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中训练病理图像分类模型需要获取大规模的医学图像训练样本,且需要用手工方法为训练样本标注,既费时又容易出错,并且手工标注的方法也未考虑不同训练样本数据的不均衡性,从而容易降低病理图像标注的质量,进而影响分类模型的训练效果。
对此,本申请提供一种样本集标注方法。图1是本申请提供的样本集标注方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、样本获取步骤:获取若干个待标注的样本病理图像。
在本步骤中,需要说明的是,在训练病理图像分类模型之前,需要获取大量的样本病理图像作为分类模型的训练样本,而现有技术中需要通过人工对样本中各区域进行大量标注,耗费大量的人力成本和时间成本,并且还会由于人工误差导致错误标注。此外,人工标注会存在主观性,容易导致标注的数据样本不均衡,例如人工标注时会存在样本病理图像中A区域标注过于密集,而B区域标注过于稀疏,进而导致病理图像分类模型无法全面学习病理图像中的特征,影响模型的训练效果。
如图2和图3所示,现有技术中基于FCN网络提供的病理图像分类模型,虽然一定程度上降低了训练分割神经网络和病理学家的标注成本,但其旨在加快训练速度,在降低标注成本的同时无法保证分类模型的精度。
因此,本实施例基于图像自身的空间信息,选取样本图像中的部分区域进行标注,不仅能够进一步降低图像的标注成本,而且保证了分类模型的训练精度。
步骤120、不确定度计算步骤:基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度。
在本步骤中,需要说明的是,标注不确定度是指对应的样本病理图像需要标注的必要程度。样本病理图像各个区域的子图像(patch)对分类模型训练的效果影响是不一致的,例如将子图像A输入分类模型中,得到的损失函数值为L1;将子图像B输入分类模型中,得到的损失函数值为L2;若L1>L2,则表明子图像A对分类模型训练的影响较大,不确定度越高,即对子图像A标注后进行训练获得的信息价值越高,越有利于分类模型的训练。
因此,本实施例基于样本病理图像的预测损失函数值确定对应样本病理图像的标注不确定度,从而可以表征该样本病理图像标注的价值程度,标注不确定度越高,表明对应样本病理图像标注的价值程度越高,且标注训练后获得的信息价值也越高,从而可以提高模型的精度。
此外,由于病理图像中包含大量的病理信息,种类繁杂,而且不同病理信息的组合可能会导致不同的分类和诊断结果,若仅按照标注不确定度判断样本病理图像标注的价值,可能会导致漏标注或冗余标注。例如,基于标注不确定度判断子图像A的标注价值较低,但根据先验知识该子图像A对于特殊疾病的诊断有较高的参考价值,需要对其进行标注。因此,本实施例基于样本病理图像的标注先验值确定对于样本病理图像的先验不确定度,从而可以进一步准确选取最佳的标注区域,先验不确定度越大,说明该图像的标注价值越高,标注后训练获得的信息价值也越高。
在对样本病理图像某些区域进行标记后,若该区域已标注的子图像占比较大,则表明该区域的已标注信息可以提供足量的信息以供分类模型训练,而不需要再对该区域进行重复冗余数据标注,避免样本病理图像标注失去均衡性。例如子图像A附近已标注的子图像占比较大,则表明标注过于密集,无需再对子图像A进行标注,而子图像B附近已标注的子图像占比较小,则表明标注过于稀疏,需要对子图像B进行标注。由此可见,本实施例基于样本病理图像邻域内已标注的图像比例确定的样本病理图像的空间相关度,可以使得样本标注更均衡,从而提高模型的训练效果。其中,空间相关度越高,表明该图像附近已被标注的样本比例较高,即该图像的标注价值越低。
在确定各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度后,可以确定各样本病理图像的综合不确定度。例如可以通过对标注不确定度、先验不确定度以及空间相关度进行加权求和,获取综合不确定度。其中,综合不确定度可以表征对应样本病理图像的子图像的标注价值,即综合不确定度的值越大,表明该子图像的标注价值越高,标注后训练获得的信息价值也越高。
其中,确定综合不确定度可以采用如下公式进行计算:
Figure BDA0002839843510000091
其中,
Figure BDA0002839843510000092
表示标注不确定度query,
Figure BDA0002839843510000093
表示先检不确定度query,
Figure BDA0002839843510000094
表示空间相关度query,γ1和γ2是两个可调平衡参数,根据医生、病理学家根据对于数据特征的先验知识确定,均是正数。
Figure BDA0002839843510000095
越大代表图像x等待标注的价值越高且标注后训练获得的信息价值也越高。
因此,本实施例利用空间相关性建立query函数及病理学家的先验知识来迭代地选择最佳标注区域,避免重复冗余的数据,进而十分有效地减轻标注工作量和训练成本。利用已采样和标注的图像中的不同种类分布比例对下一步采样的种类分布情况进行预估,避免训练数据集种类失去均衡性。
步骤130、样本标注步骤:基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注。
在本步骤中,在获取综合不确定度后,各样本病理图像对应的综合不确定度值不同,需要从中选取满足预设条件的样本病理图像进行标注。基于综合不确定度值越高,标注价值越高,则预设条件可以为当综合不确定度大于预设值时,选取对应的样本病理图像进行标注,也可以根据实际情况选取对应的样本病理图像进行标注,本实施例对此不作具体限定。
步骤140、迭代步骤:基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件。
在本步骤中,需要说明的是,在根据步骤130选取了部分样本病理图像进行标注后,为了使得标注的质量较高,本实施例在对执行样本标注步骤后的各样本病理图像,循环执行步骤120和步骤130,从而当前执行的样本病理图像标注过程是在上一轮标注的基础上进行的,可以获取上一轮标注的信息,进而准确获取样本病理图像的综合不确定度,直至满足预设收敛条件。其中,预设收敛条件可以是迭代次数满足预设要求,也可以是通过测试集验证分类模型的准确度达到预设值,本实施例对此不作具体限定。
如图4所示,本实施例对于未标注的样本病理图像,分别获取标注不确定度
Figure BDA0002839843510000101
先验不确定度
Figure BDA0002839843510000102
和空间相关度
Figure BDA0002839843510000103
然后基于标注不确定度
Figure BDA0002839843510000104
先验不确定度
Figure BDA0002839843510000105
和空间相关度
Figure BDA0002839843510000106
确定综合不确定度
Figure BDA0002839843510000107
最后根据综合不确定度确定需要标注的样本。
以DenseNet作为病理图像分类模型的分类网络结构为例,采用本实施例提供的方法对样本病理图像进行标注用于模型训练后,在由100张来自公开的TCGA-COAD数据集中的全视野数字组织学图像组成的100000张patch的结直肠癌9分类组织学图像数据集上进行试验测试,可以在保证准确率相比常规训练方法不降低(准确率达到94.3%)的限定下,减少50%的训练数据集。由此可见,本实施例提供的方法不仅能够大幅减少样本的标注数量,而且可以同步保证模型的训练精度。
本发明提供的样本集标注方法,基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度,基于各样本病理图像的综合不确定度选取满足预设标注条件的样本病理图像进行标注,直至满足预设收敛条件。由于样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,从而可以表征样本病理图像是否需要进行标注的必要性,而样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,从而可以结合先验知识确定样本病理图像的最佳标注区域,以及样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的,从而可以结合样本病理图像邻域的标注情况确定是否对样本病理图像进行标注,避免冗余标注并保证样本集标注的均衡性,由此可见,本发明基于标注不确定度、先验不确定度以及空间相关度获取综合不确定度,进而根据综合不确定度选取部分样本病理图像进行标注,不仅能够准确且高质量标注样本,而且大幅度减少了样本的标注量,降低了模型的训练成本,提高了模型的训练效率和精度。
基于上述实施例,样本病理图像的标注不确定度的获取步骤包括:
将样本病理图像输入预测损失函数模型,输出样本病理图像的预测损失函数值;
其中,预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到,预测病理图像的损失函数值的获取步骤包括:
将预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层,获取预测病理图像的损失函数值;
目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。
在本实施例中,标注不确定度是表征对应样本病理图像的预测损失函数值,即标注不确定值越大,对应的预测损失函数值越大,该样本图像的标注价值越高。本实施例中将样本病理图像输入预测损失函数模型,输出样本病理图像的预测损失函数值;其中,预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到。
在本实施例中,预测病理图像的损失函数值是通过将预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层获取的;其中,目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。
由此可见,标注不确定度Qloss(x)是由一个预测损失函数值的神经网络预测得到,该预测神经网络和目标分类神经网络在训练阶段同时训练。以目标分类神经网络的中间提取特征作为输入,通过全局池化层(Global Average Pooling,GAP)和全联接层(FullyConnected Layer,FC)输出一个预测损失函数值,通过和目标分类神经网络的实际损失值的L1范数差作为训练的损失函数,从而可以模拟预测神经网络损失值,通过损失值的大小作为图像标注不确定度的大小。
基于上述任一实施例,样本病理图像的先验不确定度是基于先验值模型确定的,所述先验值模型为:
Figure BDA0002839843510000121
Figure BDA0002839843510000122
其中,
Figure BDA0002839843510000123
表示样本病理图像的先验不确定度,
Figure BDA0002839843510000124
表示归一化常数,
Figure BDA0002839843510000125
表示第k张样本病理图像(WSI)中中心像素坐标为(i,j)的子图像(patch),
Figure BDA0002839843510000126
表示第k张样本病理图像(WSI)中中心像素坐标为(i',j')的子图像(patch),
Figure BDA0002839843510000127
表示相邻与第l-1轮以及标注过的子图像全体集合
Figure BDA0002839843510000128
的指标函数,g[(i,j),(i′,j′)]表示空间距离核函数,∫di′dj′表示对于全部可行的i′和j′进行累加。
在本实施例中,
Figure BDA0002839843510000129
表示归一化常数,该函数是把空间相关性引入不确定性的度量中,
Figure BDA00028398435100001210
是相邻与第l-1轮以及标注过的patch全体集合
Figure BDA0002839843510000131
的指标函数,即若
Figure BDA0002839843510000132
在第l-1轮标注过,则
Figure BDA0002839843510000133
等于1否则为0,
Figure BDA0002839843510000134
Figure BDA0002839843510000135
在l-1轮的实际损失函数值。
基于上述任一实施例,样本病理图像的空间相关度是基于空间相关性模型确定的,所述空间相关性模型为:
Figure BDA0002839843510000136
其中,
Figure BDA0002839843510000137
表示空间相关度,exp表示指数函数,σ2表示方差(这是一个可调参数),u标注未标注的子图像(全部未标注的patch全体)。
在本实施例中,通过计算空间相关度,可以避免采用的标注点过于累积于局部区域,从而造成分类模型整体学习的特征具有偏差,若Qspat越高,则代表该子图像(patch)的领域内已经被标注的图像比例较大,标注价值越低。
基于上述任一实施例,基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注,包括:
将各样本病理图像的综合不确定度,按照由大到小的顺序进行排序,选取排序在前的预设数量的样本病理图像进行标注。
在本实施例中,可以在每一次迭代过程中,从未标注的样本病理图像数据集的全体中选择出相同数量的具有最高的综合不确定度的子图像(patch)进行标注,并且迭代进行进一步的训练,即将各样本病理图像的综合不确定度,按照由大到小的顺序进行排序,选取排序在前的预设数量的样本病理图像进行标注。
基于上述任一实施例,本实施例提供一种病理图像分类方法,如图5所示,该方法包括如下步骤:
步骤510、获取待分类的病理图像;
步骤520、将病理图像输入至病理图像分类模型中,获取病理图像的分类结果;
其中,病理图像分类模型为采用如上任一实施例所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。
在本实施例中,需要说明的是,由于病理图像分类模型是基于上述任一实施例所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到,即大幅度减少了样本标注数量,降低了标注成本,而且同时保证了标注的质量,即用于训练的样本能够较好表征图像的特征信息,使得分类模型能够更好的学习样本特征,保证模型的精度。
由此可见,本实施例利用机器学习中的主动学习范式训练病理图像分类模型,从而可以减少组织学病理图像的训练数据集规模,提高训练效率和模型的精度。
基于上述任一实施例,本实施例提供一种病理图像分类模型构建方法,如图6所示,该方法包括如下步骤:
步骤610、采用如上任一实施例所述的样本集标注方法标注的样本病理图像;
步骤620、基于样本病理图像,采用机器学习的方式对机器学习模型进行训练,得到病理图像分类模型。
在本实施例中,需要说明的是,由于病理图像分类模型是基于上述任一实施例所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到,即大幅度减少了样本标注数量,降低了标注成本,而且同时保证了标注的质量,即用于训练的样本能够较好表征图像的特征信息,使得分类模型能够更好的学习样本特征,保证模型的精度。
下面对本发明提供的样本集标注装置进行描述,下文描述的样本集标注装置与上文描述的样本集标注方法可相互对应参照。
基于上述任一实施例,本实施例提供一种样本集标注装置,如图7所示,该装置包括:
样本获取单元710,用于获取若干个待标注的样本病理图像;
不确定度计算单元720,用于基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;
样本标注单元730,用于基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;
迭代单元740,用于基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;
其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
基于上述任一实施例,该装置还包括标注不确定度获取单元,用于获取所述样本病理图像的标注不确定度,具体包括:
将样本病理图像输入预测损失函数模型,输出所述样本病理图像的预测损失函数值;
其中,所述预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到,所述预测病理图像的损失函数值的获取步骤包括:
将所述预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层,获取所述预测病理图像的损失函数值;
所述目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。
基于上述任一实施例,本实施例提供一种病理图像分类装置,如图8所示,该装置包括:
获取单元810,用于获取待分类的病理图像;
分类单元820,用于将所述病理图像输入至病理图像分类模型中,获取所述病理图像的分类结果;
其中,所述病理图像分类模型为采用如上任一实施例所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。
基于上述任一实施例,本实施例提供一种病理图像分类模型构建装置,如图9所示,该装置包括:
标注单元910,用于采用如上任一实施例所述的样本集标注方法标注的样本病理图像;
训练单元920,用于基于所述样本病理图像,采用机器学习的方式对机器学习模型进行训练,得到病理图像分类模型。
图10是本申请提供的电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行样本集标注方法,该方法包括:样本获取步骤:获取若干个待标注的样本病理图像;不确定度计算步骤:基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;样本标注步骤:基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;迭代步骤:基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的样本集标注方法,该方法包括:样本获取步骤:获取若干个待标注的样本病理图像;不确定度计算步骤:基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;样本标注步骤:基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;迭代步骤:基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的样本集标注方法,该方法包括:样本获取步骤:获取若干个待标注的样本病理图像;不确定度计算步骤:基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;样本标注步骤:基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;迭代步骤:基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种样本集标注方法,其特征在于,包括:
样本获取步骤:获取若干个待标注的样本病理图像;
不确定度计算步骤:基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;
样本标注步骤:基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;
迭代步骤:基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;
其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
2.根据权利要求1所述的样本集标注方法,其特征在于,所述样本病理图像的标注不确定度的获取步骤包括:
将样本病理图像输入预测损失函数模型,输出所述样本病理图像的预测损失函数值;
其中,所述预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到,所述预测病理图像的损失函数值的获取步骤包括:
将所述预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层,获取所述预测病理图像的损失函数值;
所述目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。
3.根据权利要求1所述的样本集标注方法,其特征在于,所述样本病理图像的先验不确定度是基于先验值模型确定的,所述先验值模型为:
Figure FDA0002839843500000021
Figure FDA0002839843500000022
其中,
Figure FDA0002839843500000023
表示样本病理图像的先验不确定度,
Figure FDA0002839843500000024
表示归一化常数,
Figure FDA0002839843500000025
表示第k张样本病理图像中中心像素坐标为(i,j)的子图像,
Figure FDA0002839843500000026
表示第k张样本病理图像中中心像素坐标为(i',j')的子图像,
Figure FDA0002839843500000027
表示相邻与第l-1轮以及标注过的子图像全体集合
Figure FDA0002839843500000028
的指标函数,g[(i,j),(i′,j′)]表示空间距离核函数,∫di′dj′表示对于全部可行的i′和j′进行累加。
4.根据权利要求3所述的样本集标注方法,其特征在于,所述样本病理图像的空间相关度是基于空间相关性模型确定的,所述空间相关性模型为:
Figure FDA0002839843500000029
其中,
Figure FDA00028398435000000210
表示空间相关度,exp表示指数函数,σ2表示方差,
Figure FDA00028398435000000211
标注未标注的子图像。
5.根据权利要求1至4任一项所述的样本集标注方法,其特征在于,基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注,包括:
将各样本病理图像的综合不确定度,按照由大到小的顺序进行排序,选取排序在前的预设数量的样本病理图像进行标注。
6.一种病理图像分类方法,其特征在于,包括:
获取待分类的病理图像;
将所述病理图像输入至病理图像分类模型中,获取所述病理图像的分类结果;
其中,所述病理图像分类模型为采用如权利要求1至5任一项所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。
7.一种病理图像分类模型构建方法,其特征在于,包括:
采用如权利要求1至5任一项所述的样本集标注方法标注的样本病理图像;
基于所述样本病理图像,采用机器学习的方式对机器学习模型进行训练,得到病理图像分类模型。
8.一种样本集标注装置,其特征在于,包括:
样本获取单元,用于获取若干个待标注的样本病理图像;
不确定度计算单元,用于基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度,确定各样本病理图像的综合不确定度;
样本标注单元,用于基于各样本病理图像的综合不确定度,选取满足预设标注条件的样本病理图像进行标注;
迭代单元,用于基于执行样本标注步骤后的各样本病理图像,循环执行所述不确定度计算步骤和所述样本标注步骤,直至满足预设收敛条件;
其中,所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的,所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的,所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。
9.一种病理图像分类装置,其特征在于,包括:
获取单元,用于获取待分类的病理图像;
分类单元,用于将所述病理图像输入至病理图像分类模型中,获取所述病理图像的分类结果;
其中,所述病理图像分类模型为采用如权利要求1至5任一项所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。
10.一种病理图像分类模型构建装置,其特征在于,包括:
标注单元,用于采用如权利要求1至5任一项所述的样本集标注方法标注的样本病理图像;
训练单元,用于基于所述样本病理图像,采用机器学习的方式对机器学习模型进行训练,得到病理图像分类模型。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述样本集标注方法的步骤;和/或,所述处理器执行所述程序时实现如权利要求6所述病理图像分类方法的步骤;和/或,所述处理器执行所述程序时实现如权利要求7所述病理图像分类模型构建方法的步骤。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述样本集标注方法的步骤;和/或,所述处理器执行所述程序时实现如权利要求6所述病理图像分类方法的步骤;和/或,所述处理器执行所述程序时实现如权利要求7所述病理图像分类模型构建方法的步骤。
CN202011487838.XA 2020-12-16 2020-12-16 样本集标注、病理图像分类、分类模型构建方法及装置 Active CN112614570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011487838.XA CN112614570B (zh) 2020-12-16 2020-12-16 样本集标注、病理图像分类、分类模型构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011487838.XA CN112614570B (zh) 2020-12-16 2020-12-16 样本集标注、病理图像分类、分类模型构建方法及装置

Publications (2)

Publication Number Publication Date
CN112614570A true CN112614570A (zh) 2021-04-06
CN112614570B CN112614570B (zh) 2022-11-25

Family

ID=75239804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011487838.XA Active CN112614570B (zh) 2020-12-16 2020-12-16 样本集标注、病理图像分类、分类模型构建方法及装置

Country Status (1)

Country Link
CN (1) CN112614570B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298774A (zh) * 2021-05-20 2021-08-24 复旦大学 一种基于对偶条件相容神经网络的图像分割方法、装置
CN114140723A (zh) * 2021-12-01 2022-03-04 北京有竹居网络技术有限公司 多媒体数据的识别方法、装置、可读介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617435A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习图像分类方法和系统
CN110781941A (zh) * 2019-10-18 2020-02-11 苏州浪潮智能科技有限公司 一种基于主动学习的人环标注方法及装置
CN110837870A (zh) * 2019-11-12 2020-02-25 东南大学 基于主动学习的声呐图像目标识别方法
CN111310846A (zh) * 2020-02-28 2020-06-19 平安科技(深圳)有限公司 一种选取样本图像的方法、装置、存储介质和服务器
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法
CN111666993A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 医学图像样本筛查方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617435A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习图像分类方法和系统
CN110781941A (zh) * 2019-10-18 2020-02-11 苏州浪潮智能科技有限公司 一种基于主动学习的人环标注方法及装置
CN110837870A (zh) * 2019-11-12 2020-02-25 东南大学 基于主动学习的声呐图像目标识别方法
CN111310846A (zh) * 2020-02-28 2020-06-19 平安科技(深圳)有限公司 一种选取样本图像的方法、装置、存储介质和服务器
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法
CN111666993A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 医学图像样本筛查方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298774A (zh) * 2021-05-20 2021-08-24 复旦大学 一种基于对偶条件相容神经网络的图像分割方法、装置
CN114140723A (zh) * 2021-12-01 2022-03-04 北京有竹居网络技术有限公司 多媒体数据的识别方法、装置、可读介质及电子设备
CN114140723B (zh) * 2021-12-01 2023-07-04 北京有竹居网络技术有限公司 多媒体数据的识别方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
CN112614570B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
US10755411B2 (en) Method and apparatus for annotating medical image
CN111161311A (zh) 一种基于深度学习的视觉多目标跟踪方法及装置
CN112614570B (zh) 样本集标注、病理图像分类、分类模型构建方法及装置
CN109978872B (zh) 基于白质纤维束的白质微结构特征筛选系统及方法
CN111666900B (zh) 基于多源遥感影像的土地覆盖分类图的获取方法和装置
CN110570435B (zh) 用于对车辆损伤图像进行损伤分割的方法及装置
CN108228684B (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
CN110992366B (zh) 一种图像语义分割方法、装置及存储介质
CN109146891B (zh) 一种应用于mri的海马体分割方法、装置及电子设备
CN108664986B (zh) 基于lp范数正则化的多任务学习图像分类方法及系统
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
US20240169518A1 (en) Method and apparatus for identifying body constitution in traditional chinese medicine, electronic device, storage medium and program
CN112132166A (zh) 一种数字细胞病理图像智能分析方法、系统及装置
WO2020168648A1 (zh) 一种图像分割方法、装置及计算机可读存储介质
CN110457677A (zh) 实体关系识别方法及装置、存储介质、计算机设备
CN113065609B (zh) 图像分类方法、装置、电子设备及可读存储介质
CN112102230A (zh) 超声切面识别方法、系统、计算机设备和存储介质
CN112614573A (zh) 基于病理图像标注工具的深度学习模型训练方法及装置
CN113706472A (zh) 公路路面病害检测方法、装置、设备及存储介质
CN113034528A (zh) 基于影像组学的靶区及危及器官勾画轮廓准确性检验方法
CN111709941A (zh) 一种面向病理图像的轻量级自动化深度学习系统及方法
CN112839185B (zh) 用于处理图像的方法、装置、设备和介质
CN116468690B (zh) 基于深度学习的浸润性非粘液性肺腺癌的亚型分析系统
CN111127432B (zh) 一种医学图像检测方法、装置、设备及存储介质
CN112801940A (zh) 模型评测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai

Patentee after: Shanghai Bi Ren Technology Co.,Ltd.

Country or region after: China

Address before: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai

Patentee before: Shanghai Bilin Intelligent Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address