CN112037221A - 宫颈癌tct切片阳性细胞检测模型多域共适应训练方法 - Google Patents

宫颈癌tct切片阳性细胞检测模型多域共适应训练方法 Download PDF

Info

Publication number
CN112037221A
CN112037221A CN202011209104.5A CN202011209104A CN112037221A CN 112037221 A CN112037221 A CN 112037221A CN 202011209104 A CN202011209104 A CN 202011209104A CN 112037221 A CN112037221 A CN 112037221A
Authority
CN
China
Prior art keywords
image
domain
tct
feature
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011209104.5A
Other languages
English (en)
Other versions
CN112037221B (zh
Inventor
亢宇鑫
李涵生
崔灿
崔磊
杨林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Diyingjia Technology Co ltd
Original Assignee
Hangzhou Diyingjia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Diyingjia Technology Co ltd filed Critical Hangzhou Diyingjia Technology Co ltd
Priority to CN202011209104.5A priority Critical patent/CN112037221B/zh
Publication of CN112037221A publication Critical patent/CN112037221A/zh
Application granted granted Critical
Publication of CN112037221B publication Critical patent/CN112037221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种宫颈癌TCT切片细胞检测模型多域共适应训练方法,采用源域图像和目标域图像对检测模型进行训练,将源域图像和目标域图像交替输入参数共享的编码器进行特征提取,对源域图像进行特征提取后得到第一特征,对目标域图像进行特征提取后得到第二特征;将第一特征和第二特征分别输入区域生成网络中得到区域候选框,对候选框进行特征分组、非极大值抑制后得到候选组群,进而使用对抗学习技术对候选组群进行组内特征判别,得到域不变特征;将两域的区域候选框交替输入分类器得到对应的类别及坐标位置;在训练过程中,编码器、区域生成网络、判别器及分类器通过不断迭代进行参数更新;当训练迭代次数达到指定次数时,训练结束。

Description

宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法
技术领域
本发明涉及深度学习技术领域,特别是涉及一种宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法。
背景技术
宫颈癌是目前世界范围内第二常见的女性癌症,发病率仅次于乳腺癌。尤其在发展中国家,宫颈癌更是一种常见的死亡原因。宫颈液基薄层细胞学检查(ThinprepCytologic Test, TCT),是预防和发现早期宫颈癌最流行的筛查方法,目前已经在发达国家广泛使用,并显著降低了宫颈癌的发病率和死亡人数。随着数字成像技术的成熟,如全切片数字化扫描仪的应用。已有广泛的研究试图将自动化机器学习方法与TCT切片的数字扫描图像相结合,此类自动辅助筛查手段,利用新兴的计算机图像处理技术,高效率的进行自动化精准分析,并将分析结果用于辅助医生进行临床诊断,旨在缓解医生工作压力的同时提高诊断的准确率。但是目前宫颈切片的制片方法不统一,比如膜式和沉降式这两种不同的制片方法所产出的宫颈切片就存在形态上的不一致,而且即使在相同的制片方法下,制片过程中所用的染色剂浓度、涮洗液浓度以及对制成的涂片进行扫描时所用的数字扫描仪型号都会对最终得到的TCT图像质量造成影响,使得最终生成的TCT图像之间具有较高的异质性。图1展示了由于不同制片方式,所导致的TCT图像的异质性,可看出不同的制片方式所获得的TCT图像存在不同的效果分布,图像质量存在巨大的差异。但是,深度学习模型对数据的变化相当敏感,当送入模型的数据是与训练数据形态及噪声分布差异较大的TCT图像时,检测效果势必不会很理想。而且,对每一批数据都进行标注并重新训练模型显然是不切实际的。因此,如何在某一模态的有限数据下挖掘出不同域数据之间的共同特征,从而消除域间差异造成的影响也是落实宫颈癌自动化筛查必须要解决的问题。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种宫颈癌TCT切片细胞检测模型多域共适应训练方法,用于在仅有的单域标注数据集下,对宫颈癌TCT切片阳性细胞检测模型进行充分的训练。
根据本申请的一个方面,提供了一种宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法,包括:
获取第一宫颈癌TCT切片的数字病理图像作为源域图像;获取第二宫颈癌TCT切片的数字病理图像作为目标域图像,所述目标域图像与所述源域图像大小相同;
所述第一宫颈癌TCT切片和第二宫颈癌TCT切片根据噪声分布情况进行划分;
采用所述源域图像和目标域图像对阳性细胞检测模型进行训练,阳性细胞检测模型包括编码器、区域生成网络、判别器及分类器;
将所述源域图像和目标域图像交替输入所述编码器进行特征提取,对源域图像进行特征提取后得到第一特征
Figure 631024DEST_PATH_IMAGE001
,对目标域图像进行特征提取后得到第二特征
Figure 626793DEST_PATH_IMAGE002
,其中s,t分别表示源域与目标域,i表示第i幅图像,
Figure 514852DEST_PATH_IMAGE003
表示编码器;
将第一特征
Figure 424908DEST_PATH_IMAGE001
和第二特征
Figure 291145DEST_PATH_IMAGE002
分别输入所述区域生成网络中得到第一区域候选框
Figure 34979DEST_PATH_IMAGE004
与第二区域候选框
Figure 675913DEST_PATH_IMAGE005
使用K-Mean聚类方法对所述第一区域候选框
Figure 546917DEST_PATH_IMAGE004
与第二区域候选框
Figure 356742DEST_PATH_IMAGE005
的中心点进行特征聚类,经过特征聚类后得到第一候选群组特征
Figure 520744DEST_PATH_IMAGE006
和第二候选群组特征
Figure 681598DEST_PATH_IMAGE007
将所述第一候选群组特征
Figure 90714DEST_PATH_IMAGE006
和第二候选群组特征
Figure 513300DEST_PATH_IMAGE007
输入所述判别器进行特征判别;
当所述判别器的损失函数
Figure 615248DEST_PATH_IMAGE008
达到设定条件时,提取到的第一候选群组特征
Figure 263398DEST_PATH_IMAGE006
和第二候选群组特征
Figure 443582DEST_PATH_IMAGE007
为域不变特征;
将所述区域候选框
Figure 759156DEST_PATH_IMAGE004
Figure 766427DEST_PATH_IMAGE005
交替输入所述分类器得到对应的第一分类结果
Figure 400408DEST_PATH_IMAGE009
、第二分类结果
Figure 151326DEST_PATH_IMAGE010
及第一检测坐标位置Pos(
Figure 55829DEST_PATH_IMAGE011
、第二检测坐标位置Pos(R(
Figure 998114DEST_PATH_IMAGE012
));
在训练过程中,所述编码器、区域生成网络、判别器及分类器通过不断迭代进行参数更新;
当训练迭代次数达到指定次数时,训练结束。
进一步地,还包括,采用带有第二标注信息的目标域图像对所述阳性细胞检测模型训练过程中每一代模型及参数进行性能验证,评价指标包括F1 值,将F1 值最高的模型作为最优模型。
进一步地,当所述判别器的损失函数
Figure 620857DEST_PATH_IMAGE008
逼近0.5时,提取到的第一候选群组特征
Figure 175466DEST_PATH_IMAGE006
和第二候选群组特征
Figure 438869DEST_PATH_IMAGE007
为域不变特征,所述损失函数为
Figure 787942DEST_PATH_IMAGE008
Figure 897981DEST_PATH_IMAGE013
进一步地,所述源域图像上携带有第一标注信息,对于所述第一分类结果
Figure 223657DEST_PATH_IMAGE009
及第一检测坐标位置Pos(
Figure 368331DEST_PATH_IMAGE011
,根据所述第一标注信息结合交叉熵和平均绝对误差进行损失计算,检测分类损失为
Figure 153884DEST_PATH_IMAGE014
Figure 984175DEST_PATH_IMAGE015
Figure 880587DEST_PATH_IMAGE016
Figure 348608DEST_PATH_IMAGE017
其中M表示所述第一图像中含有的标注个数,j表示每幅图像中的第j个标注,C表示预测类别总数,K表示当前标注框的坐标个数,y表示当前标注的当前类别的标注值,p表示当前标注的当前类别的预测概率,
Figure 803598DEST_PATH_IMAGE018
Figure 888229DEST_PATH_IMAGE019
的值越趋于0,表示检测分类及定位结果越精确。
进一步地,对于所述对于所述第二分类结果
Figure 588331DEST_PATH_IMAGE010
及第二检测坐标位置Pos(R(
Figure 692552DEST_PATH_IMAGE012
)),定位分类损失函数为
Figure 554329DEST_PATH_IMAGE020
Figure 860676DEST_PATH_IMAGE021
Figure 738371DEST_PATH_IMAGE022
Figure 413941DEST_PATH_IMAGE023
其中M表示所述第二图像中含有的检测框个数,j表示每幅图像中的第j个标注,C表示预测类别总数,K表示当前检测框的坐标个数,p表示当前标注的当前类别的预测概率,
Figure 446619DEST_PATH_IMAGE020
的值越趋于0,表示检测分类及定位结果越精确。
进一步地,所述阳性细胞检测模型总的损失校准为:L=
Figure 240263DEST_PATH_IMAGE024
与现有技术相比,采用本申请实施例的一种宫颈癌TCT切片细胞检测模型多域共适应训练方法,可以将风格迁移机制与目标检测网络相结合,通过多阶段训练方法,有效地提取到域不变特征并对其进行分类,进而进行多域适应。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是宫颈癌TCT切片图像多场景分布差异图;
图2是本发明域适应训练方法网络结构图;
图3是采用单域训练,经多域测试的结果图;
图4是采用本申请域适应方法训练,经多域测试结果图。
具体实施方式
下面,将参考附图详细描述本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
在病理图像中往往存在数十万个细胞,对于宫颈癌TCT切片,病理医生需要对切片中的阳性细胞进行详细分析,因此有效的对阳性细胞进行精确定位是病理医生目前渴望的辅助工具之一。细胞关键点定位网络通常通过卷积神经网络有效多尺度特征及其上下文信息并进行编码,然后将编码到的深度特征利用区域生成网络得到候选区域框,最终通过非极大值抑制、全连接分类等技术手段对候选区域框的类别及位置进行回归,从而达到对细胞进行定位的效果。
细胞关键点定位网络需要丰富的上下文信息以及局部的细粒度特征信息。同时细胞关键点定位网络对于数据集样本的特征域特别敏感,当使用单一域的数据对模型进行训练并接近拟合时,模型的参数对于多域下的图像信息是非常敏感的,噪声分布不同的影响均会导致模型性能降低。但是由于宫颈癌TCT切片图像场景分布受外界影像较大,不同场景下由于光照、扫描仪规格等外界因素影像导致产生不同的分布。因此将单一场景(源域)下训练得到的模型应用至多场景(目标域)往往由于噪声分布、数据偏差等影响导致模型的性能受到很大影响,测试效果差强人意。然而如果对多场景的图像均进行标注,面对用于进行深度学习所需的大量的标注数据,成本太高且时效性差。因此,对多场景的图像进行标注基本是不可能的。而这也进一步造成,在目前现有的宫颈癌TCT切片图像阳性细胞检测的性能受到极大限制。
目前风格迁移方法多用于解决域适应问题。这些方法的共性均是两阶段进行训练;首先将源域的图像作为深度网络的输入,利用对抗生成网络将源域的图像分布迁移至目标域图像分布,其次使用风格迁移后的伪目标域图像及其原有的标签进行关键点网络训练,最终在目标域的图像上进行测试。但是由于目标域图像分布不一,因此在风格迁移的过程中,网络无法有效的提取到目标域图像的共同特征,进而训练得到的定位、分类方法往往不精确。若对每一目标域的图像进行迁移,这样训练成本过大,且耗时较长,并非明智的选择。
针对上述技术问题,本申请的构思是将风格迁移机制与细胞定位网络的训练相结合,在仅有的单域标注数据集下,对宫颈癌TCT切片阳性细胞检测模型进行充分的训练。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
宫颈癌TCT切片细胞检测模型多域共适应训练方法,包括:
S10,数据获取与预处理
获取第一宫颈癌TCT切片的数字病理图像作为源域图像;获取第二宫颈癌TCT切片的数字病理图像作为目标域图像。第一宫颈癌TCT切片和第二宫颈癌TCT切片根据噪声分布情况进行划分;将噪声分布较一致的宫颈癌TCT切片作为第一宫颈癌TCT切片;将噪声分布不一致的宫颈癌TCT切片作为第二宫颈癌TCT切片,具体划分标准根据实际所具有的宫颈癌TCT切片的数量和质量,以及对于定位结果的要求来确定,目标域图像与所述源域图像大小相同。对所述源域图像和所述目标域图像进行数据扩充,得到N组训练数据,每组训练数据包括1个源域图像和1个目标域图像。
需要说明的是,这里获取的源域图像上带有第一标注信息,作为单域标注数据集。为了充分利用图像的样本数据,数据扩充至关重要。考虑到由于目标域图像分布过于杂乱,为了更大程度的适配目标域图像分布的不确定性,首先使用不同来源的数据集进行对比度增强、色彩增强等方法进行数据扩充。
S20,域不变特征提取
采用所述N组训练数据对宫颈癌TCT切片阳性细胞检测模型进行训练,阳性细胞检测模型包括编码器、区域生成网络、判别器及分类器;
将源域与目标域的图像作为阳性细胞检测模型的输入,值得注意的是,源域图像与目标域图像采用同一个编码器来提取深度特征,编码器参数共享。编码器为残差网络,由卷积层、批标准化层、激活层及池化层组成,源域与目标域的图像交替输入至编码器进行特征提取。对源域图像进行特征提取后得到第一特征
Figure 780703DEST_PATH_IMAGE001
,对目标域图像进行特征提取后得到第二特征
Figure 343403DEST_PATH_IMAGE002
,其中s,t分别表示源域与目标域,i表示第i幅图像,
Figure 546982DEST_PATH_IMAGE003
表示编码器;
S30, 区域候选框生成及特征分组
在提取到源域与目标域图像的第一特征
Figure 332316DEST_PATH_IMAGE001
与第二特征
Figure 177913DEST_PATH_IMAGE002
后,将特征分别输入区域生成网络中得到区域候选框
Figure 595119DEST_PATH_IMAGE004
Figure 733714DEST_PATH_IMAGE005
,其中区域生成网络由一系列的卷积层构成。特征图首先经过一个3×3的卷积,得到一个256×16 ×6的特征图,然后经过两次1×1的卷积,分别得到一个18×16×6的特征图,和一个36×16×16的特征图,每个特征包含2个分数和4个坐标,再结合预先定义的锚机制,得到候选框
Figure 236370DEST_PATH_IMAGE004
Figure 620078DEST_PATH_IMAGE005
使用K-Mean聚类方法对候选框的中心点进行聚类,具体需要聚类的个数是个超参数K,然后进行非极大值抑制,因为每一个聚类的组群中都有不同数目的候选框,为了后续的计算方便,需要每一个组群中的个数相同,因此当聚类后,一个组群中的个数多于m,只取置信度大于n的候选区域框,当一个组群的个数小于m,则通过复制的形式得到m个候选区域矿,这样就得到了K×m个候选区域矿,然后取候选区域框的特征,假设每一个候选区域框是d维度特征,则总共有K×m×d的特征,因为后续有判别器D用于判别特征,且判别器需要输入固定尺寸,所以使用超参数s设定的每个候选区域框的大小。经过特征聚类后得到第一候选群组特征
Figure 655905DEST_PATH_IMAGE006
和第二候选群组特征
Figure 466866DEST_PATH_IMAGE007
S40,候选群组特征域判别
在提取到第一候选群组特征
Figure 456819DEST_PATH_IMAGE006
和第二候选群组特征
Figure 877174DEST_PATH_IMAGE007
,利用对抗学习机制中的博弈思想,采用判别器D对两种特征进行分类,来区分特征,其中源域特征标签为1,目标域标签为0。对抗学习最终的目标是当判别器无法对两种域的特征进行有效分类,说明此时两种特征的分布已非常相似,因此该特征称为域不变特征。具体地,将所述第一候选群组特征
Figure 268972DEST_PATH_IMAGE006
和第二候选群组特征
Figure 516414DEST_PATH_IMAGE007
输入判别器进行特征判别;
当所述判别器的损失函数
Figure 486338DEST_PATH_IMAGE008
逼近0.5时,表示判别器已无法区分两类特征,此时特征提取器提取到的第一候选群组特征
Figure 211849DEST_PATH_IMAGE006
和第二候选群组特征
Figure 458154DEST_PATH_IMAGE007
输为域不变特征;
S40,检测模型训练并计算损失
阳性细胞检测模型的任务为对宫颈癌TCT切片图像中的阳性细胞进行检测并分类,因此需要对域不变特征进行分类及坐标点回归。分类器由一系列的卷积层、激活层及全连接层等操作组成,最终经过分类器会得到one-hot编码的分类结果与对应的坐标点;
将所述区域候选框
Figure 109453DEST_PATH_IMAGE004
Figure 73998DEST_PATH_IMAGE025
交替输入所述分类器得到对应的第一分类结果
Figure 337620DEST_PATH_IMAGE009
、第二分类结果
Figure 671387DEST_PATH_IMAGE010
及第一检测坐标位置Pos(
Figure 995052DEST_PATH_IMAGE011
、第二检测坐标位置Pos(R(
Figure 712472DEST_PATH_IMAGE012
))。
(1)源域图像检测训练并计算损失
对于所述第一分类结果
Figure 278321DEST_PATH_IMAGE009
及第一检测坐标位置Pos(
Figure 233638DEST_PATH_IMAGE011
,根据所述第一标注信息结合交叉熵和平均绝对误差进行损失计算,定位分类损失为
Figure 993784DEST_PATH_IMAGE014
Figure 171736DEST_PATH_IMAGE015
Figure 980423DEST_PATH_IMAGE016
Figure 695307DEST_PATH_IMAGE017
其中M表示所述第一图像中含有的标注个数,j表示每幅图像中的第j个标注,C表示预测类别总数,K表示当前标注框的坐标个数,y表示当前标注的当前类别的标注值,p表示当前标注的当前类别的预测概率(或标注框坐标的预测值),
Figure 626354DEST_PATH_IMAGE018
Figure 285744DEST_PATH_IMAGE019
的值越趋于0,表示检测分类及定位结果越精确。
(2)目标域图像检测训练并计算损失
对于目标域图像,由于其缺乏标注,无法与标注信息相应的损失计算并得到反向传播的梯度并以此来训练网络。因此在对目标域图像进行损失计算时,需要考虑到预测概率的自信息,而信息熵则是考虑目标自信息的最佳之选
具体地,对于所述对于所述第二分类结果
Figure 694859DEST_PATH_IMAGE010
及第二检测坐标位置Pos(R(
Figure 890348DEST_PATH_IMAGE012
)),定位分类损失函数为
Figure 490832DEST_PATH_IMAGE020
Figure 873403DEST_PATH_IMAGE021
Figure 86209DEST_PATH_IMAGE022
Figure 917897DEST_PATH_IMAGE023
其中M表示所述第二图像中含有的检测框个数,j表示每幅图像中的第j个标注,C表示预测类别总数,K表示当前检测框的坐标个数,p表示当前标注的当前类别的预测概率(或标注框坐标的预测值),
Figure 659588DEST_PATH_IMAGE020
的值越趋于0,表示检测分类及定位结果越精确。
检测模型总的损失校准为:L=
Figure 60614DEST_PATH_IMAGE024
在训练过程中,所述编码器、区域生成网络、判别器及分类器通过不断迭代进行参数更新,在参数更新时,当第一分类结果
Figure 310067DEST_PATH_IMAGE009
、第二分类结果
Figure 214570DEST_PATH_IMAGE010
及第一检测坐标位置Pos(
Figure 625697DEST_PATH_IMAGE011
、第二检测坐标位置Pos(R(
Figure 514019DEST_PATH_IMAGE012
))均完成了损失计算,则算为一次训练结束,进行参数更新;网络的结构图如图2所示(图中标注域即为源域图像,目标域即为目标域图像),包含源域输入图像
Figure 68628DEST_PATH_IMAGE026
及目标域输入图像
Figure 326172DEST_PATH_IMAGE027
,编码器
Figure 940824DEST_PATH_IMAGE028
,区域生成网络RPN,判别器D,分类器C。在训练过程中,编码器交替进行特征提取,之后对提取到的源域与目标域的特征进行判别,判别的同时,对特征进行分类、定位预测,得到分类及定位。在参数更新时,当目标域图像与源域图像均完成了损失计算,则算为一次训练结束,进行参数更新。当训练迭代次数达到指定次数时,训练结束。最终保留编码器、区域生成网络、及分类器作为最终的检测模型并用于多域测试。
S50,最优模型选取
在训练过程中,模型通过不断迭代进行参数更新。通过少量的拥有标注的目标域图像(即带有第二标注信息的目标域图像)对每一代的模型及参数进行性能验证,评价指标包括准确率、召回率及F1 值,准确率、召回率及F1 值越接近1表示当前模型及参数性能越优,最终将F1 值最高的模型作为最优模型。当然也可以根据物体检测准确率、召回率等参数进行最优模型的判别。
本发明通过采用多域共适应的方式,可以有效提取不同域分布之间的共性,同时降低目标检测网络对于噪声的敏感度。如图3所示,由于噪声分布与源域差异较大,且深度网络非常依赖当前目标物的上下文信息,因此直接将单域模型应用至多域场景下使用,会导致细胞漏检。通过多域共适应后,编码器有效提取到当前目标的不变特征,且有效降低了对于上下文信息的依赖性,如图4所示,有效检测出了阳性细胞。
还需要指出的是,在本申请的方法中,各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本 申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (6)

1.宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法,其特征在于,包括:
获取第一宫颈癌TCT切片的数字病理图像作为源域图像;获取第二宫颈癌TCT切片的数字病理图像作为目标域图像,所述目标域图像与所述源域图像大小相同;
所述第一宫颈癌TCT切片和第二宫颈癌TCT切片根据噪声分布情况进行划分;
采用所述源域图像和目标域图像对阳性细胞检测模型进行训练,阳性细胞检测模型包括编码器、区域生成网络、判别器及分类器;
将所述源域图像和目标域图像交替输入所述编码器进行特征提取,对源域图像进行特征提取后得到第一特征
Figure 744386DEST_PATH_IMAGE001
,对目标域图像进行特征提取后得到第二特征
Figure 32279DEST_PATH_IMAGE002
,其中s,t分别表示源域与目标域,i表示第i幅图像,
Figure 281119DEST_PATH_IMAGE003
表示编码器;
将第一特征
Figure 400384DEST_PATH_IMAGE001
和第二特征
Figure 58899DEST_PATH_IMAGE004
分别输入所述区域生成网络中得到第一区域候选框
Figure 37350DEST_PATH_IMAGE005
与第二区域候选框
Figure 806723DEST_PATH_IMAGE006
;
使用K-Mean聚类方法对所述第一区域候选框
Figure 46075DEST_PATH_IMAGE007
与第二区域候选框
Figure 609911DEST_PATH_IMAGE008
的中心点进行特征聚类,经过特征聚类后得到第一候选群组特征
Figure 934713DEST_PATH_IMAGE009
和第二候选群组特征
Figure 383143DEST_PATH_IMAGE010
将所述第一候选群组特征
Figure 742580DEST_PATH_IMAGE011
和第二候选群组特征
Figure 742897DEST_PATH_IMAGE012
输入所述判别器进行特征判别;
当所述判别器的损失函数
Figure 289416DEST_PATH_IMAGE013
达到设定条件时,提取到的第一候选群组特征
Figure 400592DEST_PATH_IMAGE014
和第二候选群组特征
Figure 348956DEST_PATH_IMAGE015
为域不变特征;
将所述区域候选框
Figure 248736DEST_PATH_IMAGE016
Figure 423497DEST_PATH_IMAGE006
交替输入所述分类器得到对应的第一分类结果
Figure 338363DEST_PATH_IMAGE017
、第二分类结果
Figure 406813DEST_PATH_IMAGE018
及第一检测坐标位置Pos(
Figure 748933DEST_PATH_IMAGE019
、第二检测坐标位置Pos(R(
Figure 4465DEST_PATH_IMAGE004
));
在训练过程中,所述编码器、区域生成网络、判别器及分类器通过不断迭代进行参数更新;
当训练迭代次数达到指定次数时,训练结束。
2.根据权利要求1所述的宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法,其特征在于,
还包括,采用带有第二标注信息的目标域图像对所述阳性细胞检测模型训练过程中每一代模型及参数进行性能验证,评价指标包括F1 值,将F1 值最高的模型作为最优模型。
3.根据权利要求1所述的宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法,其特征在于,
当所述判别器的损失函数
Figure 129547DEST_PATH_IMAGE020
逼近0.5时,提取到的第一候选群组特征G(R(
Figure 318083DEST_PATH_IMAGE021
))和第二候选群组特征G(R(
Figure 237628DEST_PATH_IMAGE004
))为域不变特征,所述损失函数为
Figure 246035DEST_PATH_IMAGE020
Figure 909229DEST_PATH_IMAGE022
4.根据权利要求3所述的宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法,其特征在于,所述源域图像上携带有第一标注信息,对于所述第一分类结果C(R(
Figure 686692DEST_PATH_IMAGE001
))及第一检测坐标位置Pos(R(
Figure 364755DEST_PATH_IMAGE001
)),根据所述第一标注信息结合交叉熵和平均绝对误差进行损失计算,检测分类损失为
Figure 126038DEST_PATH_IMAGE023
:
Figure 796185DEST_PATH_IMAGE024
Figure 959313DEST_PATH_IMAGE025
Figure 814136DEST_PATH_IMAGE026
其中M表示所述第一图像中含有的标注个数,j表示每幅图像中的第j个标注,C表示预测类别总数,K表示当前标注框的坐标个数,y表示当前标注的当前类别的标注值,p表示当前标注的当前类别的预测概率,
Figure 938081DEST_PATH_IMAGE027
Figure 536553DEST_PATH_IMAGE028
的值越趋于0,表示检测分类及定位结果越精确。
5.根据权利要求4所述的宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法,其特征在于,对于所述对于所述第二分类结果G(R(
Figure 554187DEST_PATH_IMAGE004
))及第二检测坐标位置Pos(R(
Figure 720858DEST_PATH_IMAGE004
)),定位分类损失函数为
Figure 925574DEST_PATH_IMAGE029
Figure 327736DEST_PATH_IMAGE030
Figure 199877DEST_PATH_IMAGE031
Figure 130924DEST_PATH_IMAGE033
;其中M表示所述第二图像中含有的检测框个数,j表示每幅图像中的第j个标注,C表示预测类别总数,K表示当前检测框的坐标个数,p表示当前标注的当前类别的预测概率,
Figure 82657DEST_PATH_IMAGE034
的值越趋于0,表示检测分类及定位结果越精确。
6.根据权利要求5所述的宫颈癌TCT切片阳性细胞检测模型多域共适应训练方法,其特征在于,所述阳性细胞检测模型总的损失校准为:L=
Figure 163876DEST_PATH_IMAGE035
CN202011209104.5A 2020-11-03 2020-11-03 宫颈癌tct切片阳性细胞检测模型多域共适应训练方法 Active CN112037221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011209104.5A CN112037221B (zh) 2020-11-03 2020-11-03 宫颈癌tct切片阳性细胞检测模型多域共适应训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011209104.5A CN112037221B (zh) 2020-11-03 2020-11-03 宫颈癌tct切片阳性细胞检测模型多域共适应训练方法

Publications (2)

Publication Number Publication Date
CN112037221A true CN112037221A (zh) 2020-12-04
CN112037221B CN112037221B (zh) 2021-02-02

Family

ID=73572724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011209104.5A Active CN112037221B (zh) 2020-11-03 2020-11-03 宫颈癌tct切片阳性细胞检测模型多域共适应训练方法

Country Status (1)

Country Link
CN (1) CN112037221B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516022A (zh) * 2021-04-23 2021-10-19 黑龙江机智通智能科技有限公司 一种宫颈细胞的细粒度分类系统
CN113569887A (zh) * 2021-01-18 2021-10-29 腾讯科技(深圳)有限公司 图片识别模型训练和图片识别方法、装置和存储介质
CN113764045A (zh) * 2021-09-09 2021-12-07 东北林业大学 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8189900B2 (en) * 2004-05-13 2012-05-29 Tha Charles Stark Draper Laboratory, Inc. Image-based methods for measuring global nuclear patterns as epigenetic markers of cell differentiation
CN110082821A (zh) * 2019-03-26 2019-08-02 长江大学 一种无标签框微地震信号检测方法及装置
CN111353995A (zh) * 2020-03-31 2020-06-30 成都信息工程大学 一种基于生成对抗网络的宫颈单细胞图像数据生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8189900B2 (en) * 2004-05-13 2012-05-29 Tha Charles Stark Draper Laboratory, Inc. Image-based methods for measuring global nuclear patterns as epigenetic markers of cell differentiation
CN110082821A (zh) * 2019-03-26 2019-08-02 长江大学 一种无标签框微地震信号检测方法及装置
CN111353995A (zh) * 2020-03-31 2020-06-30 成都信息工程大学 一种基于生成对抗网络的宫颈单细胞图像数据生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569887A (zh) * 2021-01-18 2021-10-29 腾讯科技(深圳)有限公司 图片识别模型训练和图片识别方法、装置和存储介质
CN113516022A (zh) * 2021-04-23 2021-10-19 黑龙江机智通智能科技有限公司 一种宫颈细胞的细粒度分类系统
CN113516022B (zh) * 2021-04-23 2023-01-10 黑龙江机智通智能科技有限公司 一种宫颈细胞的细粒度分类系统
CN113764045A (zh) * 2021-09-09 2021-12-07 东北林业大学 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备

Also Published As

Publication number Publication date
CN112037221B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN108664971B (zh) 基于2d卷积神经网络的肺结节检测方法
Li et al. Deep learning based gastric cancer identification
CN112037221B (zh) 宫颈癌tct切片阳性细胞检测模型多域共适应训练方法
JP6710135B2 (ja) 細胞画像の自動分析方法及びシステム
Irshad et al. Methods for nuclei detection, segmentation, and classification in digital histopathology: a review—current status and future potential
CN110766051A (zh) 一种基于神经网络的肺结节形态学分类方法
CN113574534A (zh) 使用基于距离的相似性标签的机器学习
CN105160355B (zh) 一种基于区域相关和视觉单词的遥感图像变化检测方法
CN112686902B (zh) 核磁共振影像中脑胶质瘤识别与分割的两阶段计算方法
CN111860236A (zh) 一种基于迁移学习的小样本遥感目标检测方法及系统
CN108550131B (zh) 基于特征融合稀疏表示模型的sar图像车辆检测方法
CN109087330A (zh) 一种基于由粗到精图像分割的运动目标检测方法
CN109801305B (zh) 基于深度胶囊网络的sar图像变化检测方法
JP7427080B2 (ja) 細胞検出およびセグメンテーションのための弱教師ありマルチタスク学習
CN112330625B (zh) 免疫组化核染色切片细胞定位多域共适应训练方法
Khumancha et al. Lung cancer detection from computed tomography (CT) scans using convolutional neural network
JP2022027473A (ja) 半導体試料の検査に使用可能な訓練データの生成
WO2024021461A1 (zh) 缺陷检测方法及装置、设备、存储介质
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
KR102373985B1 (ko) 서포트 벡터 머신을 이용한 전립선암의 등급 분류 방법
Debnath et al. Brain tumour segmentation using memory based learning method
He et al. An automated three-dimensional detection and segmentation method for touching cells by integrating concave points clustering and random walker algorithm
US20240054639A1 (en) Quantification of conditions on biomedical images across staining modalities using a multi-task deep learning framework
CN107729863B (zh) 人体指静脉识别方法
Shankara et al. Detection of lung cancer using convolution neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant