CN114240867A - 内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置 - Google Patents
内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置 Download PDFInfo
- Publication number
- CN114240867A CN114240867A CN202111501503.3A CN202111501503A CN114240867A CN 114240867 A CN114240867 A CN 114240867A CN 202111501503 A CN202111501503 A CN 202111501503A CN 114240867 A CN114240867 A CN 114240867A
- Authority
- CN
- China
- Prior art keywords
- image
- blind
- gradient vector
- sample image
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 175
- 238000002372 labelling Methods 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 65
- 230000000875 corresponding effect Effects 0.000 claims description 63
- 238000005070 sampling Methods 0.000 claims description 62
- 230000008859 change Effects 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000002596 correlated effect Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000003767 ileocecal valve Anatomy 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000037062 Polyps Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000004534 cecum Anatomy 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 210000003405 ileum Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30028—Colon; Small intestine
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Endoscopes (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置,以从无标注的内窥镜图像中自动选取目标样本图像进行模型训练,提高内窥镜图像识别模型的训练效率和识别效率。该训练方法包括:将第一样本图像输入内窥镜图像识别模型,得到第一预测回盲识别结果,并基于第一预测回盲识别结果生成第一样本图像对应的伪标注回盲识别结果,第一样本图像为未标注回盲识别结果的内窥镜图像;基于预测回盲识别结果和伪标注回盲识别结果,确定内窥镜图像识别模型的第一梯度向量;获取内窥镜图像识别模型的第二梯度向量;基于第一梯度向量的长度、以及第一梯度向量和第二梯度向量之间的相似度,在第一样本图像中选择目标样本图像来训练内窥镜图像识别模型。
Description
技术领域
本公开涉及医疗图像技术领域,具体地,涉及一种内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置。
背景技术
回盲部是指人体中回肠末端与盲肠互相交接的部位,结肠镜可以利用电子肠镜到达回盲部,从黏膜侧观察结肠情况。在内镜检查过程中,对回盲部的识别至关重要。
实际应用中,回盲的图像帧在整个内窥镜影像中占比低,因此相关技术主要通过卷积神经网络在固定小规模的数据集上进行全监督训练,得到内窥镜图像识别模型进行回盲识别。其中,全监督训练是指先人工标注好训练样本,然后基于标注好的训练样本进行模型训练。按照此种方式,一方面需要耗费较多的人力和时间进行样本标注,标注成本较高,另一方面由于数据集的规模限制,训练后内窥镜图像识别模型的鲁棒性无法得到保证,从而影响回盲识别的准确性。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种内窥镜图像识别模型的训练方法,所述内窥镜图像识别模型用于识别回盲部位,所述方法包括:
将第一样本图像输入内窥镜图像识别模型,得到第一预测回盲识别结果,并基于所述第一预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,所述第一样本图像为未标注回盲识别结果的内窥镜图像;
基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;
获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;
基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关;
在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像;
基于所述目标样本图像训练所述内窥镜图像识别模型。
第二方面,本公开提供一种内窥镜图像识别方法,所述方法包括:
获取待识别的内窥镜图像;
将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过第一方面所述的内窥镜图像识别模型的训练方法训练得到的。
第三方面,本公开提供一种内窥镜图像识别模型的训练装置,所述内窥镜图像识别模型用于识别回盲部位,所述装置包括:
预测模块,用于将第一样本图像输入所述内窥镜图像识别模型,得到所述第一样本图像对应的预测回盲识别结果,并基于所述预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,其中所述第一样本图像为未标注样本回盲识别结果的内窥镜图像;
确定模块,用于基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;
第一获取模块,用于获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;
第一训练模块,用于基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关,在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像,并基于所述目标样本图像训练所述内窥镜图像识别模型。
第四方面,本公开提供一种内窥镜图像识别装置,所述装置包括:
第二获取模块,用于获取待识别的内窥镜图像;
识别模块,用于将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过第一方面所述的内窥镜图像识别模型的训练方法训练得到的。
第五方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面中所述方法的步骤。
第六方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面中所述方法的步骤。
通过上述技术方案,可以从海量无标注数据中发掘有利于内窥镜图像识别模型模型学习的样本,提升内窥镜图像识别模型的鲁棒性。并且,通过样本的伪标注计算模型变化,无需遍历样本所有可能的标签计算模型变化期望,从而减少内窥镜图像识别模型训练过程中的计算成本和人工标注成本。此外,在样本选择过程中结合带标注样本(即第二样本图像)的梯度(即第二梯度向量)计算无标注样本与其之间的相似度,并基于该相似度在第一样本图像中确定目标样本图像进行内窥镜图像识别模型的训练,可以减少噪声数据对内窥镜图像识别模型训练的影响,提高训练后内窥镜图像识别模型输出结果的准确性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据本公开一示例性实施例示出的一种内窥镜图像识别模型的训练方法的流程图;
图2是根据本公开一示例性实施例示出的一种内窥镜图像识别模型的训练方法的过程示意图;
图3是根据本公开一示例性实施例示出的一种内窥镜图像识别方法的流程图;
图4是根据本公开一示例性实施例示出的一种内窥镜图像识别模型的训练装置的框图;
图5是根据本公开一示例性实施例示出的一种内窥镜图像识别装置的框图;
图6是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
首先对本公开实施例可能涉及的技术名词进行说明。
主动学习(Active Learning)是指从数据集中自动挑选出部分数据并请求人工标注。主动学习通过设计合理的样本选择策略(即查询函数),不断从未标注的数据中挑选出数据人工标注后放入训练集。
模型变化(Model Change,MC)是指一个样本给当前模型带来的变化和影响,通常用梯度来表示模型变化。
伪标注(Pseudo Label)是指模型首先用带有标注的数据训练,然后被用于预测无标注的数据的标签,从而生成伪标签。
自训练(Self-training)是指挑选合适的(如置信度最高的)伪标注的样本加入训练集,如此迭代不断地用无标注数据扩充训练集。
正如背景技术所言,实际应用中,回盲的图像帧在整个内窥镜影像中占比低,因此相关技术主要通过卷积神经网络在固定小规模的数据集上进行全监督训练,得到内窥镜图像识别模型进行回盲识别。其中,全监督训练是指先人工标注好训练样本,然后基于标注好的训练样本进行模型训练。按照此种方式,一方面需要耗费较多的人力和时间进行样本标注,标注成本较高,另一方面由于数据集的规模限制,训练后内窥镜图像识别模型的鲁棒性无法得到保证,从而影响回盲识别的准确性。
发明人研究发现,提高模型鲁棒性的一个直接方式是扩大训练数据的规模。但是,在回盲识别任务场景中,回盲的图像帧在整个内镜影像中占比很低,因此为了采集足够的数据,数据集不可避免地来自于多个医疗中心,而不同医疗中心的医疗器械来自不同厂商,不同医疗中心的患者人群也不同,数据集中的数据不可能满足同分布假设,即数据集中的数据无法满足同一个数据分布,从而导致内窥镜图像识别模型的泛化能力和鲁棒性无法得到保证。另外,从多个医疗中心获取到内窥镜影像数据后,还需要人工从海量未清洗数据中发掘有利于内窥镜图像识别模型学习的影像数据,并要求多个专家对这些影像数据提供标注,这带来了高昂的标注成本。
为了降低数据标注成本,相关技术提出了在具有少量标注的情况下从无标注数据中学习的半监督训练方式。具体地,首先使用少量带有标签的数据训练模型,再用这个训练好的模型对无标注数据进行预测,并将预测结果作为无标注数据的标签重新训练模型。然而,此种半监督方法依赖于无标注数据与有标注数据的同分布假设,来自多个医疗中心的回盲数据集无法满足此种同分布假设,当引入低质量的噪声数据(即无标注数据的预测结果)时会降低内窥镜图像识别模型的性能。
此外,相关技术还提出不断地从未标注的数据中挑选出有用的影像,请求人工标注后将该样本放入训练集的主动学习方法。但是,主动学习的方式仍然需要大量地请求专家标注,而不能自动从无标注数据中进行学习。并且,相关技术主要从未标注的数据中优先选取具有高不确定性的数据或者梯度范数最大的数据。对于前一种数据选取方式,在回盲识别场景下,不确定性与内窥镜图像的成像效果相关,成像效果越差,则不确定性越高,从而容易选择成像效果较差的未标注样本,影响内窥镜图像识别模型的训练效果。对于后一种数据选取方式,需要遍历每个样本所有可能的标签值来计算模型变化(即梯度)期望,计算成本较高,从而影响内窥镜图像识别模型的训练效率和识别效率。
有鉴于此,本公开提供一种内窥镜图像识别模型的训练方法,可以从海量无标注数据中发掘有利于内窥镜图像识别模型学习的样本,提升内窥镜图像识别模型的鲁棒性。并且,通过样本的伪标注计算模型变化,无需遍历样本所有可能的标签计算模型变化期望,从而减少内窥镜图像识别模型训练过程中的计算成本和人工标注成本。此外,在样本选择过程中结合带标注样本的梯度计算无标注样本与其之间的相似度,并基于该相似度在第一样本图像中确定目标样本图像进行内窥镜图像识别模型的训练,减少噪声数据对内窥镜图像识别模型训练的影响,提高训练后内窥镜图像识别模型输出结果的准确性。
图1是根据本公开一示例性实施例示出的一种内窥镜图像识别模型的训练方法的流程图。参照图1,该内窥镜图像识别模型用于识别回盲部位,该训练方法包括:
步骤101,将第一样本图像输入内窥镜图像识别模型,得到第一预测回盲识别结果,并基于第一预测回盲识别结果生成第一样本图像对应的伪标注回盲识别结果。其中,该第一样本图像为未标注回盲识别结果的内窥镜图像。
步骤102,基于预测回盲识别结果和伪标注回盲识别结果,确定内窥镜图像识别模型的第一梯度向量。其中,该第一梯度向量用于表征输入第一样本图像后内窥镜图像识别模型的参数变化。
步骤103,获取内窥镜图像识别模型的第二梯度向量。其中,该第二梯度向量用于表征输入第二样本图像后内窥镜图像识别模型的参数变化,该第二样本图像为标注有样本回盲识别结果的内窥镜图像。
步骤104,基于第一梯度向量的长度、以及第一梯度向量和第二梯度向量之间的相似度,确定第一样本图像的采样概率。其中,该采样概率与第一梯度向量的长度正相关,且采样概率与第一梯度向量和第二梯度向量之间的相似度正相关。
步骤105,在第一样本图像中确定采样概率大于概率阈值的目标样本图像。
步骤106,基于目标样本图像训练内窥镜图像识别模型。
在可能的方式中,在步骤101之前,还可以先基于第三样本图像对内窥镜图像识别模型进行初始训练,该第三样本图像为标注有样本回盲识别结果的内窥镜图像,且第三样本图像可以与第二样本图像相同或不同。相应地,步骤101可以是将第一样本图像输入初始训练后的内窥镜图像识别模型。
示例地,内窥镜图像识别模型可以是任一分类模型,比如可以是Transformer网络模型,将多层次特征连接并池化(Pooling)后送入全连接层做分类,本公开实施例对内窥镜图像识别模型的类型和结构不作限定。
通过上述方式,在初始化训练阶段,可以先用人工标注的小规模回盲识别数据集训练内窥镜图像识别模型。之后,可以通过初始训练后的内窥镜图像识别模型为大规模的无标注内窥镜图像生成伪标注。
比如,小规模带标注的回盲识别数据集为Ds={(xn,yn)|1≤n≤N},其中,xn表示数据集Ds中的第n个内窥镜图像,yn表示第n个内窥镜图像标注的样本回盲识别结果,N表示数据集Ds包括的内窥镜图像的数量。大规模无标注的回盲识别数据集为Du={xm|1≤m≤M},其中,xm表示数据集Du中的第m个内窥镜图像,M表示数据集Du包括的内窥镜图像的数量。回盲识别网络为f,则基于第三样本图像对内窥镜图像识别模型进行初始训练可以是:先将第三样本图像xq输入内窥镜图像识别模型,得到对应的预测回盲识别结果:然后基于第三样本图像标注的回盲识别结果与预测回盲识别结果yq,计算损失函数最后基于损失函数的计算结果调整内窥镜图像识别模型的参数。由此,可以基于人工标注的小规模回盲识别数据集对内窥镜图像识别模型进行初始训练。之后,则可以基于初始训练后的内窥镜图像识别模型为大规模的无标注内窥镜图像生成伪标注。
应当理解的是,内窥镜图像识别模型相当于是分类模型,比如回盲识别结果可以用于分类内窥镜图像是否包括回盲瓣信息。在标注过程中,可以通过标注0表示内窥镜不包括回盲瓣信息,通过标注1表示内窥镜图像包括回盲瓣信息,则内窥镜图像识别模型输出的预测回盲识别结果可以包括每一类回盲识别结果(比如包括回盲瓣信息为一类结果,不包括回盲瓣信息为另一类结果)对应的预测概率。由此,可以按照如下公式,基于第一预测回盲识别结果生成第一样本图像对应的伪标注回盲识别结果:
以第一预测回盲识别结果包括两类回盲识别结果对应的预测概率为例,第一类回盲识别结果表征不包括回盲瓣信息,类别标签为0,第二类回盲识别结果表征包括回盲瓣信息,类别标签为1。若第一样本图像对应第一类回盲识别结果的预测概率为0.3,对应第二类回盲识别结果对应的预测概率为0.7,则按照上述公式可以取预测概率0.7对应的回盲识别结果的类别标签为伪标注回盲识别结果,即伪标注回盲识别结果为1。
在得到伪标注回盲识别结果后,该伪标注回盲识别结果可以相当于是第一样本图像对应的识别标签,从而可以基于预测回盲识别结果和伪标注回盲识别结果,确定内窥镜图像识别模型的第一梯度向量,该第一梯度向量用于表征输入第一样本图像后内窥镜图像识别模型的参数变化。即,通过第一梯度向量衡量第一样本图像对内窥镜图像识别模型带来的变化和影响。
示例地,可以先基于预测回盲识别结果和伪标注回盲识别结果计算损失函数,然后对该损失函数进行梯度向量的计算,得到第一梯度向量,即可以按照如下公式确定内窥镜图像识别模型的第一梯度向量:
应当理解的是,通过计算第一梯度向量的2范数可以确定第一梯度向量的长度,即按照如下公式确定第一梯度向量的长度:从而确定第一样本图像对内窥镜图像识别模型带来的变化尺度,进而选择使得模型变化尺度较大的第一样本图像进行模型训练,提高内窥镜图像识别模型的鲁棒性。
但是,由于伪标注是内窥镜图像识别模型预测得到的,有可能是错误的,因此仅通过第一梯度向量选取无标注数据可能会影响训练后模型输出结果的准确性。相关技术通常根据预测回盲识别结果的置信度(或者不确定性)来过滤掉潜在的可能出错的伪标注。然而,仍有大量的高置信度的错误伪标注被用于后续训练,影响内窥镜图像识别模型的鲁棒学习。而本公开实施例可以结合带标注样本的梯度,即可以在步骤103中获取第二梯度向量,从而减少伪标注噪声数据对模型训练的影响,提高训练后内窥镜图像识别模型输出结果的准确性。
示例地,第二梯度向量可以是标注有回盲识别结果的多个图像对内窥镜图像识别模型的平均梯度向量。在可能的方式中,第二梯度向量可以通过如下方式得到:先将多个第二样本图像输入内窥镜图像识别模型,得到多个第二预测回盲识别结果,然后针对每个第二样本图像,基于第二样本图像对应的第二预测回盲识别结果和样本回盲识别结果,确定输入第二样本图像后内窥镜图像识别模型的梯度向量,最后基于多个梯度向量,确定平均梯度向量,并将平均梯度向量作为第二梯度向量。
在得到第一梯度向量和第二梯度向量后,可以基于第一梯度向量的长度、以及第一梯度向量和第二梯度向量之间的相似度,在第一样本图像中选择目标样本图像。
示例地,可以先基于第一梯度向量的长度、以及第一梯度向量和第二梯度向量之间的相似度,确定第一样本图像的采样概率,其中采样概率与第一梯度向量的长度正相关,且采样概率与第一梯度向量和第二梯度向量之间的相似度正相关,然后在第一样本图像中确定采样概率大于概率阈值的目标样本图像。其中,概率阈值可以根据实际情况设定,本公开实施例对此不作限定。
示例地,相似度可以通过计算第一梯度向量与第二梯度向量之间的余弦相似度得到第一梯度向量与第二梯度向量之间的相似度,或者也可以通过其他方式确定第一梯度向量与第二梯度向量之间的相似度,本公开实施例对此不作限定。以余弦相似度为例,可以按照如下公式确定第一样本图像的采样概率:
其中,s(j)表示第j个第一样本图像的采样概率,τ表示置信度阈值,表示第j个第一样本图像对应的预测回盲识别概率,I(·)表示指示函数,若第j个第一样本图像对应的最大预测识别概率大于等于置信度阈值,则该指示函数取值为1,否则该指示函数取值为0,||·||2表示2范数计算,表示第一梯度向量的长度,表示第一梯度向量,gs表示第二梯度向量。
应当理解的是,第j个第一样本图像对应的最大预测识别概率(即)可以理解为是第j个第一样本图像的置信度,则指示函数I(·)可以当第j个第一样本图像的置信度大于等于置信度阈值τ时取1,否则取0。其中,置信度阈值τ可以根据实际情况设定,比如可以设定为0.95,本公开实施例对此不作限定。
由此,按照上述确定采样概率的公式,从第一样本图像中选择的目标样本图像需满足置信度大于等于置信度阈值τ。并且,第一梯度向量与第二梯度向量之间的相似度越高,且第一梯度向量的尺度越大,则对应的采样概率越高,从而可以挑选出更有利于内窥镜图像识别模型学习的伪标注内镜图像进行模型训练,减少噪声伪标注对模型训练的影响,提高内窥镜图像识别模型的鲁棒性。
在得到第一样本图像的采样概率后,若该采样概率大于等于概率阈值,则可以选择该第一样本图像为目标样本图像进行后续的模型训练,反之若该采样概率小于概率阈值,则不选择该第一样本图像为目标样本图像进行后续的模型训练,从而可以挑选出更有利于内窥镜图像识别模型学习的伪标注内镜图像进行模型训练,减少噪声伪标注对模型训练的影响,提高内窥镜图像识别模型的鲁棒性。
在可能的方式中,基于目标样本图像训练内窥镜图像识别模型可以是:先将目标样本图像输入内窥镜图像识别模型,得到目标样本图像对应的回盲识别结果,并将第二样本图像输入内窥镜图像识别模型,得到第二样本图像的预测回盲识别结果,然后基于目标样本图像的采样概率、目标样本图像对应的预测回盲识别结果和伪标注回盲识别结果,计算第一损失函数,并基于第二样本图像对应的预测回盲识别结果和样本回盲识别结果,计算第二损失函数。最后,基于第一损失函数和第二损失函数的计算结果,调整内窥镜图像识别模型的参数。
也即是说,内窥镜图像识别模型的训练过程包括两种类型的损失函数,一个是伪标注样本的第一损失函数,另一个是有标注样本的第二损失函数,从而可以结合第一损失函数和第二损失函数调整内窥镜图像识别模型的参数。
示例地,第一损失函数和第二损失函数可以是交叉熵损失(Cross Entropy Loss,CE),或者可以是其他类型的损失函数,本公开实施例对此不作限定。
以交叉熵损失为例,每次在混合样本图像中选取B个带标注的第二样本图像和B个伪标注的目标样本图像进行训练,则可以按照如下公式计算第一损失函数:
其中,Lu表示第一损失函数的计算结果,CE(·)表示交叉熵损失计算。
同时,可以按照如下公式计算第二损失函数:
在计算第一损失函数和第二损失函数后,可以基于第一损失函数和第二损失函数的计算结果,调整内窥镜图像识别模型的参数。比如,可以先基于第一损失函数和第二函数的计算结果确定内窥镜图像识别模型的整体损失函数,从而基于整体损失函数调整内窥镜图像识别模型的参数。其中,整体损失函数可以是第一损失函数和第二损失函数的计算结果之和,或者可以按照如下公式,基于第一损失函数和第二损失函数的计算结果,计算内窥镜图像识别模型的整体损失函数:
L=Ls+λLu
其中,λ是固定的标量超参数,用于调节第一损失函数的相对权重,可以根据实际设定,本公开实施例对此不作限定。
下面通过另一示例性实施例对本公开提供的内窥镜图像识别模型的训练方法进行说明。
参照图2,该内窥镜图像识别模型的训练方法主要包括三个过程。第一个过程,通过人工标注的小规模回盲识别数据集训练内窥镜图像识别模型。第二个过程,为大规模的无标注内窥镜图像生成伪标注,并基于该伪标注得到第一梯度向量,同时结合该伪标注和带标注数据对应的第二梯度向量,确定无标注内窥镜图像的采样概率。然后基于该采样概率在无标注内窥镜图像中选取目标样本图像。第三个过程,将带标注的回盲识别数据集和选取的目标样本图像一同训练内窥镜图像识别模型。其中,第二个过程与第三个过程可以交替迭代进行,直到满足迭代停止条件,该迭代停止条件比如可以是达到预设迭代次数,本公开实施例对此不作限定。
通过上述方式,可以从海量无标注数据中发掘有利于模型学习的样本来提升内窥镜图像识别模型的鲁棒性。并且,通过样本的伪标注计算模型变化,无需遍历样本所有可能的标签计算模型变化期望,从而可以减少模型训练过程中的计算成本和人工标注成本。此外,在样本选择过程中结合带标注样本的梯度,可以减少噪声数据对模型训练的影响,提高训练后内窥镜图像识别模型输出结果的准确性。
基于同一构思,本公开实施例还提供一种内窥镜图像识别方法。参照图3,该内窥镜图像识别方法包括以下步骤:
步骤301,获取待识别的内窥镜图像;
步骤302,将内窥镜图像输入内窥镜图像识别模型中,得到内窥镜图像对应的回盲识别结果,其中内窥镜图像识别模型是通过本公开提供的任一内窥镜图像识别模型的训练方法训练得到的。
示例地,获取内窥镜图像可以是从内窥镜装置中获取。在具体实施时,本公开提供的内窥镜图像识别方法可以应用于内窥镜装置的控制单元,该控制单元在获取到内窥镜装置的图像采集单元采集到的内窥镜图像后,可以执行本公开提供的内窥镜图像识别方法,从而通过训练好的内窥镜图像识别模型确定该内窥镜图像对应的回盲识别结果。或者,本公开提供的息肉分型方法可以应用于包括内窥镜装置的医疗系统,该医疗系统中的控制设备可以通过有线或无线的方式与内窥镜装置通信,从而可以从内窥镜装置中获取内窥镜图像,并执行本公开提供的内窥镜图像识别方法,从而通过训练好的内窥镜图像识别模型确定该内窥镜图像对应的回盲识别结果。
由此,由于内窥镜图像识别模型的训练过程中通过样本的伪标注计算模型变化,无需遍历样本所有可能的标签计算模型变化期望,减少了模型训练过程中的计算成本和人工标注成本,从而可以提高回盲识别的效率。此外,在样本选择过程中结合带标注样本的梯度,可以减少噪声数据对模型训练的影响,提高训练后内窥镜图像识别模型输出结果的准确性,即提高回盲识别的准确性。
基于同一构思,本公开实施例还提供一种内窥镜图像识别模型的训练装置。参照图4,该内窥镜图像识别模型用于识别回盲部位,该训练装置400包括:
预测模块401,用于将第一样本图像输入所述内窥镜图像识别模型,得到所述第一样本图像对应的预测回盲识别结果,并基于所述预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,其中所述第一样本图像为未标注样本回盲识别结果的内窥镜图像;
确定模块402,用于基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;
第一获取模块403,用于获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;
第一训练模块404,用于基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关,在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像,并基于所述目标样本图像训练所述内窥镜图像识别模型。
可选地,所述第二梯度向量是通过如下模块得到的:
第一处理模块,用于将多个第二样本图像输入所述内窥镜图像识别模型,得到多个第二预测回盲识别结果;
第二处理模块,用于针对每个所述第二样本图像,基于所述第二样本图像对应的所述第二预测回盲识别结果和所述样本回盲识别结果,确定输入所述第二样本图像后所述内窥镜图像识别模型的梯度向量;
第三处理模块,用于基于多个所述梯度向量,确定平均梯度向量,并将所述平均梯度向量作为所述第二梯度向量。
可选地,所述第一训练模块404用于:
按照如下公式,确定所述第一样本图像的采样概率:
其中,s(j)表示第j个第一样本图像的采样概率,τ表示置信度阈值,表示第j个第一样本图像对应的预测回盲识别概率,I(·)表示指示函数,若第j个第一样本图像对应的最大预测识别概率大于等于所述置信度阈值,则所述指示函数取值为1,否则所述指示函数取值为0,||·||2表示2范数计算,表示第一梯度向量的长度,表示第一梯度向量,gs表示第二梯度向量。
可选地,所述第一训练模块404用于:
将所述目标样本图像输入所述内窥镜图像识别模型,得到所述目标样本图像对应的回盲识别结果,并将所述第二样本图像输入所述内窥镜图像识别模型,得到所述第二样本图像的预测回盲识别结果;
基于所述目标样本图像的采样概率、所述目标样本图像对应的预测回盲识别结果和伪标注回盲识别结果,计算第一损失函数,并基于所述第二样本图像对应的预测回盲识别结果和样本回盲识别结果,计算第二损失函数;
基于所述第一损失函数和第二损失函数的计算结果,调整所述内窥镜图像识别模型的参数。
可选地,所述装置400还包括:
第二训练模块,用于在将第一样本图像输入所述内窥镜图像识别模型之前,基于第三样本图像对所述内窥镜图像识别模型进行初始训练,所述第三样本图像为标注有样本回盲识别结果的内窥镜图像,所述第三样本图像与所述第二样本图像相同或不同;
所述预测模块401用于:
将第一样本图像输入初始训练后的所述内窥镜图像识别模型。
基于同一构思,本公开实施例还提供一种内窥镜图像识别装置。参照图5,该内窥镜图像识别装置500包括:
第二获取模块501,用于获取待识别的内窥镜图像;
识别模块502,用于将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过本公开提供的任一内窥镜图像识别模型的训练方法训练得到的。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一构思,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现上述任一内窥镜图像识别模型的训练方法或任一内窥镜图像识别方法的步骤。
基于同一构思,本公开实施例还提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现上述任一内窥镜图像识别模型的训练方法或任一内窥镜图像识别方法的步骤。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,可以利用诸如HTTP(HyperText Transfer Protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将第一样本图像输入内窥镜图像识别模型,得到第一预测回盲识别结果,并基于所述第一预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,所述第一样本图像为未标注回盲识别结果的内窥镜图像;基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关;在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像;基于所述目标样本图像训练所述内窥镜图像识别模型。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待识别的内窥镜图像;将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过本公开提供的任一项内窥镜图像识别模型的训练方法训练得到的。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种内窥镜图像识别模型的训练方法,所述内窥镜图像识别模型用于识别回盲部位,包括:
将第一样本图像输入内窥镜图像识别模型,得到第一预测回盲识别结果,并基于所述第一预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,所述第一样本图像为未标注回盲识别结果的内窥镜图像;
基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;
获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;
基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关;
在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像;
基于所述目标样本图像训练所述内窥镜图像识别模型。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述第二梯度向量是通过如下方式得到的:
将多个第二样本图像输入所述内窥镜图像识别模型,得到多个第二预测回盲识别结果;
针对每个所述第二样本图像,基于所述第二样本图像对应的所述第二预测回盲识别结果和所述样本回盲识别结果,确定输入所述第二样本图像后所述内窥镜图像识别模型的梯度向量;
基于多个所述梯度向量,确定平均梯度向量,并将所述平均梯度向量作为所述第二梯度向量。
根据本公开的一个或多个实施例,示例3提供了示例1的方法,所述基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,包括:
按照如下公式,确定所述第一样本图像的采样概率:
其中,s(j)表示第j个第一样本图像的采样概率,τ表示置信度阈值,表示第j个第一样本图像对应的预测回盲识别概率,I(·)表示指示函数,若第j个第一样本图像对应的最大预测识别概率大于等于所述置信度阈值,则所述指示函数取值为1,否则所述指示函数取值为0,||·||2表示2范数计算,表示第一梯度向量的长度,表示第一梯度向量,gs表示第二梯度向量。
根据本公开的一个或多个实施例,示例3提供了示例1的方法,所述基于所述目标样本图像训练所述内窥镜图像识别模型,包括:
将所述目标样本图像输入所述内窥镜图像识别模型,得到所述目标样本图像对应的回盲识别结果,并将所述第二样本图像输入所述内窥镜图像识别模型,得到所述第二样本图像的预测回盲识别结果;
基于所述目标样本图像的采样概率、所述目标样本图像对应的预测回盲识别结果和伪标注回盲识别结果,计算第一损失函数,并基于所述第二样本图像对应的预测回盲识别结果和样本回盲识别结果,计算第二损失函数;
基于所述第一损失函数和第二损失函数的计算结果,调整所述内窥镜图像识别模型的参数。
根据本公开的一个或多个实施例,示例5提供了示例1-4任一项所述的方法,在将第一样本图像输入所述内窥镜图像识别模型之前,所述方法还包括:
基于第三样本图像对所述内窥镜图像识别模型进行初始训练,所述第三样本图像为标注有样本回盲识别结果的内窥镜图像,所述第三样本图像与所述第二样本图像相同或不同;
所述将第一样本图像输入所述内窥镜图像识别模型,包括:
将第一样本图像输入初始训练后的所述内窥镜图像识别模型。
根据本公开的一个或多个实施例,示例6提供了一种内窥镜图像识别方法,所述方法包括:
获取待识别的内窥镜图像;
将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过示例1-5任一项所述的内窥镜图像识别模型的训练方法训练得到的。
根据本公开的一个或多个实施例,示例7提供了一种内窥镜图像识别模型的训练装置,所述内窥镜图像识别模型用于识别回盲部位,所述装置包括:
预测模块,用于将第一样本图像输入所述内窥镜图像识别模型,得到所述第一样本图像对应的预测回盲识别结果,并基于所述预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,其中所述第一样本图像为未标注样本回盲识别结果的内窥镜图像;
确定模块,用于基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;
第一获取模块,用于获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;
第一训练模块,用于基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关;在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像,并基于所述目标样本图像训练所述内窥镜图像识别模型。
根据本公开的一个或多个实施例,示例8提供了一种内窥镜图像识别装置,所述装置包括:
第二获取模块,用于获取待识别的内窥镜图像;
识别模块,用于将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过示例1-5任一项所述的内窥镜图像识别模型的训练方法训练得到的。
根据本公开的一个或多个实施例,示例9提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1-6中任一项所述方法的步骤。
根据本公开的一个或多个实施例,示例10提供了一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-6中任一项所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
Claims (10)
1.一种内窥镜图像识别模型的训练方法,其特征在于,所述内窥镜图像识别模型用于识别回盲部位,所述方法包括:
将第一样本图像输入内窥镜图像识别模型,得到第一预测回盲识别结果,并基于所述第一预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,所述第一样本图像为未标注回盲识别结果的内窥镜图像;
基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;
获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;
基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关;
在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像;
基于所述目标样本图像训练所述内窥镜图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述第二梯度向量是通过如下方式得到的:
将多个第二样本图像输入所述内窥镜图像识别模型,得到多个第二预测回盲识别结果;
针对每个所述第二样本图像,基于所述第二样本图像对应的所述第二预测回盲识别结果和所述样本回盲识别结果,确定输入所述第二样本图像后所述内窥镜图像识别模型的梯度向量;
基于多个所述梯度向量,确定平均梯度向量,并将所述平均梯度向量作为所述第二梯度向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标样本图像训练所述内窥镜图像识别模型,包括:
将所述目标样本图像输入所述内窥镜图像识别模型,得到所述目标样本图像对应的回盲识别结果,并将所述第二样本图像输入所述内窥镜图像识别模型,得到所述第二样本图像的预测回盲识别结果;
基于所述目标样本图像的采样概率、所述目标样本图像对应的预测回盲识别结果和伪标注回盲识别结果,计算第一损失函数,并基于所述第二样本图像对应的预测回盲识别结果和样本回盲识别结果,计算第二损失函数;
基于所述第一损失函数和第二损失函数的计算结果,调整所述内窥镜图像识别模型的参数。
5.根据权利要求1-4任一项所述的方法,其特征在于,在将第一样本图像输入所述内窥镜图像识别模型之前,所述方法还包括:
基于第三样本图像对所述内窥镜图像识别模型进行初始训练,所述第三样本图像为标注有样本回盲识别结果的内窥镜图像,所述第三样本图像与所述第二样本图像相同或不同;
所述将第一样本图像输入所述内窥镜图像识别模型,包括:
将第一样本图像输入初始训练后的所述内窥镜图像识别模型。
6.一种内窥镜图像识别方法,其特征在于,所述方法包括:
获取待识别的内窥镜图像;
将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过权利要求1-5任一项所述的内窥镜图像识别模型的训练方法得到的。
7.一种内窥镜图像识别模型的训练装置,其特征在于,所述内窥镜图像识别模型用于识别回盲部位,所述装置包括:
预测模块,用于将第一样本图像输入所述内窥镜图像识别模型,得到所述第一样本图像对应的预测回盲识别结果,并基于所述预测回盲识别结果生成所述第一样本图像对应的伪标注回盲识别结果,其中所述第一样本图像为未标注样本回盲识别结果的内窥镜图像;
确定模块,用于基于所述预测回盲识别结果和所述伪标注回盲识别结果,确定所述内窥镜图像识别模型的第一梯度向量,所述第一梯度向量用于表征输入所述第一样本图像后所述内窥镜图像识别模型的参数变化;
第一获取模块,用于获取所述内窥镜图像识别模型的第二梯度向量,所述第二梯度向量用于表征输入第二样本图像后所述内窥镜图像识别模型的参数变化,所述第二样本图像为标注有样本回盲识别结果的内窥镜图像;
第一训练模块,用于基于所述第一梯度向量的长度、以及所述第一梯度向量和所述第二梯度向量之间的相似度,确定所述第一样本图像的采样概率,其中所述采样概率与所述第一梯度向量的长度正相关,且所述采样概率与所述第一梯度向量和所述第二梯度向量之间的相似度正相关,在所述第一样本图像中确定采样概率大于概率阈值的目标样本图像,并基于所述目标样本图像训练所述内窥镜图像识别模型。
8.一种内窥镜图像识别装置,其特征在于,所述装置包括:
第二获取模块,用于获取待识别的内窥镜图像;
识别模块,用于将所述内窥镜图像输入内窥镜图像识别模型中,得到所述内窥镜图像对应的回盲识别结果,其中所述内窥镜图像识别模型是通过权利要求1-6任一项所述的内窥镜图像识别模型的训练方法训练得到的。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111501503.3A CN114240867A (zh) | 2021-12-09 | 2021-12-09 | 内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111501503.3A CN114240867A (zh) | 2021-12-09 | 2021-12-09 | 内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114240867A true CN114240867A (zh) | 2022-03-25 |
Family
ID=80754517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111501503.3A Pending CN114240867A (zh) | 2021-12-09 | 2021-12-09 | 内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114240867A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051486A (zh) * | 2022-12-29 | 2023-05-02 | 抖音视界有限公司 | 内窥镜图像识别模型的训练方法、图像识别方法及装置 |
WO2023185516A1 (zh) * | 2022-03-28 | 2023-10-05 | 北京字节跳动网络技术有限公司 | 图像识别模型的训练方法、识别方法、装置、介质和设备 |
-
2021
- 2021-12-09 CN CN202111501503.3A patent/CN114240867A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023185516A1 (zh) * | 2022-03-28 | 2023-10-05 | 北京字节跳动网络技术有限公司 | 图像识别模型的训练方法、识别方法、装置、介质和设备 |
CN116051486A (zh) * | 2022-12-29 | 2023-05-02 | 抖音视界有限公司 | 内窥镜图像识别模型的训练方法、图像识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860573B (zh) | 模型训练方法、图像类别检测方法、装置和电子设备 | |
CN113470031B (zh) | 息肉分型方法、模型训练方法及相关装置 | |
CN113487608B (zh) | 内窥镜图像检测方法、装置、存储介质及电子设备 | |
CN110009059B (zh) | 用于生成模型的方法和装置 | |
CN113658178B (zh) | 组织图像的识别方法、装置、可读介质和电子设备 | |
CN113033580B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN114240867A (zh) | 内窥镜图像识别模型的训练方法、内窥镜图像识别方法及装置 | |
CN113496512B (zh) | 用于内窥镜的组织腔体定位方法、装置、介质及设备 | |
CN113469295B (zh) | 生成模型的训练方法、息肉识别方法、装置、介质及设备 | |
CN113140012B (zh) | 图像处理方法、装置、介质及电子设备 | |
CN113449070A (zh) | 多模态数据检索方法、装置、介质及电子设备 | |
CN112200173B (zh) | 多网络模型训练方法、图像标注方法和人脸图像识别方法 | |
CN112907628A (zh) | 视频目标追踪方法、装置、存储介质及电子设备 | |
CN115439449B (zh) | 全视野组织学图像的处理方法、装置、介质和电子设备 | |
WO2023185516A1 (zh) | 图像识别模型的训练方法、识别方法、装置、介质和设备 | |
CN115830001A (zh) | 肠道图像处理方法、装置、存储介质及电子设备 | |
CN113256339B (zh) | 资源投放的方法、装置、存储介质及电子设备 | |
CN114937178B (zh) | 基于多模态的图像分类方法、装置、可读介质和电子设备 | |
CN113470026B (zh) | 息肉识别方法、装置、介质及设备 | |
CN116051486B (zh) | 内窥镜图像识别模型的训练方法、图像识别方法及装置 | |
CN116228715B (zh) | 息肉检测模型的训练方法、息肉检测方法及相关装置 | |
CN114429660A (zh) | 年龄预测网络生成、年龄预测方法、装置、设备和介质 | |
CN114639147A (zh) | 年龄信息生成方法、装置、电子设备和计算机可读介质 | |
CN118823820A (zh) | 一种模型构建方法、姿态确定方法、装置、设备、介质 | |
CN114627475A (zh) | 笔顺检测方法、装置、可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |