CN117576052A - 一种乳腺x线摄影的病灶诊断方法 - Google Patents
一种乳腺x线摄影的病灶诊断方法 Download PDFInfo
- Publication number
- CN117576052A CN117576052A CN202311589761.0A CN202311589761A CN117576052A CN 117576052 A CN117576052 A CN 117576052A CN 202311589761 A CN202311589761 A CN 202311589761A CN 117576052 A CN117576052 A CN 117576052A
- Authority
- CN
- China
- Prior art keywords
- instance
- package
- key
- focus detection
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 210000005075 mammary gland Anatomy 0.000 title claims description 22
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 26
- 210000000481 breast Anatomy 0.000 claims abstract description 20
- 238000009607 mammography Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 230000003902 lesion Effects 0.000 claims description 12
- 230000003211 malignant effect Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 206010006187 Breast cancer Diseases 0.000 abstract description 13
- 208000026310 Breast neoplasm Diseases 0.000 abstract description 13
- 230000006870 function Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 5
- 206010028980 Neoplasm Diseases 0.000 description 8
- 238000012216 screening Methods 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 208000004434 Calcinosis Diseases 0.000 description 3
- 230000002308 calcification Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002498 deadly effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
- G06T7/0014—Biomedical image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30068—Mammography; Breast
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种乳腺X线摄影的病灶检测方法,基于多实例乳腺数据集,依据多分类交叉熵损失函数挑选交叉熵损失值最小的前K个关键实例作为关键实例包的关键实例,并通过有序损失函数更新病灶检测模型的参数,迭代优化训练过程,直到病灶检测模型收敛。本发明是一种基于不确定性有序多实例学习的乳腺癌检测识别方法,仅利用图像的类别标记就可以识别出病灶的具体位置和类别,解决了现有方法中乳腺病灶检测需要对图像中的病灶位置进行标注的问题,降低了标注的难度和成本。
Description
技术领域
本发明涉及一种乳腺X线摄影的病灶诊断方法,属于弱监督研究领域下的目标检测技术。
背景技术
乳腺癌(Breast Cancer,BC)是女性致命率最高的癌症之一,发病率较高,通常与遗传、生活方式、激素水平和环境因素有关。但实际上通过早发现、早诊断、早治疗,也可以很好的控制乳腺癌的发展。乳腺X线摄影可以很好的反映出乳腺组织中的异常情况,是目前最简单、最有效的乳腺癌早期筛查工具。乳腺癌临床中最常见的病灶包括钙化点和肿块,其中,钙化点表现为高对比度的小而明亮的聚簇状点,肿块表现为多样化的形状和边界。肿块和钙化的类别主要有良性和恶性,对于肿块来说,由于个体乳腺的密度不同,使得肿块可能隐藏乳腺组织中,很难与正常的乳腺组织区域区别开来。特别是,良性的病灶区域与乳腺正常的组织特征极为相似,医生很难通过人眼识别出图像中的良性病灶。然而,尽早的筛查出良性的病灶对预防乳腺癌疾病的恶化起着关键作用。
传统的乳腺癌筛查和诊断需要医生通过人工阅片的方式来观察乳腺组织中的异常情况。但由于人工诊断存在主观性而且医生经验水平也不尽相同,阅片结果也有很大差异。同时,人工筛查费时费力,很容易出现漏检或错检的情况。因此,近年来基于深度学习的乳腺癌医疗诊断技术也在迅速发展,主要是利用FasterRCNN、YOLO等目标检测模型完成对乳腺X光图像的训练,实现端到端的预测。然而,完成这些模型的训练需要医生手工标注每张图像具体位置的异常病变区域,现实任务中很难实现。相反,医院提供的更多是每张图像的类别信息,而不是图像中每个病灶区域的类别信息。
有序的多实例学习解决一种弱监督场景问题,其中每个训练包中的实例不仅是多类别的,而且类之间存在自然有序的关系。乳腺X光图像可以看作是包,图像中的子块可以看作是实例。已有的方法大多是将乳腺X光图像的病灶区域分类为良性或恶性,而忽略了图像中正常区域的分类。由于乳房X光图像上的早期良性病变区域与正常组织非常相似,因此乳房X光图像的三种分类对于早期良性病变的筛查是必要的。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种乳腺X线摄影的病灶诊断方法,拟解决现有技术中提到的乳腺X线摄影标注成本高、标注难度大,以及利用图像中有序类别的信息实现乳腺癌三分类问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种乳腺X线摄影的病灶检测方法,属于弱监督学习领域下的乳腺病灶的检测识别技术;具体包括以下步骤:
S1、获取公开的DDSM乳腺数据集;
S2、将DDSM乳腺数据集制作成多实例包的形式,并划分出训练集和测试集;
S3、将多实例包的类别作为多实例包内所有实例的伪标记;
S4、基于浅层的卷积神经网络(比如五层卷积神经网络)建立乳腺X摄影的病灶检测模型;
S5、将训练集中的多实例包输入病灶检测模型,计算每个多实例包中各个实例的交叉熵损失值,挑选出每个多实例包中交叉熵损失值最小的前K个实例作为关键实例构成关键实例包,将多实例包的类别作为关键实例包的类别,将关键实例包的类别作为关键实例包内所有关键实例的伪标记;
S6、将关键实例包输入病灶检测模型,计算每个关键实例包中各个关键实例的有序损失值,通过梯度下降法优化病灶检测模型;
S7、重复步骤S5和S6,在病灶检测模型训练完成前,每次挑选出的关键实例多少都会发生变化,当连续两次所有的关键实例都维持不变时,可以认为病灶检测模型已经到了一个比较稳定的状态,也即病灶检测模型收敛;因此,若连续两次(次数更多将会更好)训练集中所有多实例包挑选出的关键实例包相同,则可认为完成病灶检测模型的训练;
S8、将测试集中的多实例包送入训练好的病灶检测模型,预测多实例包的类别。
具体的,所述步骤S2中,将DDSM乳腺数据集制作成多实例包的形式,包括如下步骤:
S21、将DDSM乳腺数据集中的不同尺寸大小的正常、良性和恶性原始图像裁剪为N个统一高宽比的网格块;
S22、建立与原始图像一一对应的文件夹作为各原始图像的多实例包,将裁剪出来的N个网格块作为对应多实例包中的实例;
S23、对多实例包中的实例进行预处理,然后将多实例包划分为训练集和测试集。
具体的,所述步骤S23中,对多实例包中的实例进行预处理,包括如下步骤:
S231、对于任一实例,计算像素值低于阈值β1或高于阈值β2的像素点的占该实例全部像素点的比例值:若所得比例超过阈值γ(一般设定为70%以上),则判定该实例为噪声实例,滤除该实例;否则,判定该实例为有用实例;
S232、对每个多实例包中的所有有用实例进行数据增强,通过包括翻转、旋转在内的操作,将多实例包中的实例个数增加为N个;
S233、将多实例包中的所有实例的尺寸统一大小为a×a。
具体的,所述步骤S5中,将训练集中的多实例包输入病灶检测模型中预测多实例包中各实例的类别,使用交叉熵损失函数计算多实例包中各实例的交叉熵损失值;所述多分类交叉熵损失函数为:
Lin=-ci log(pin)
其中:表示第i个多实例包中第n个实例经过病灶检测模型最后的全连接层的第m个神经元的softmax输出;/>表示yin_m的softmax输出,yin_m表示第i个多实例包中第n个实例属于类别cm的预测概率,m=1,2,…,M,M表示总共的类别数量;Lin表示第i个多实例包中第n个实例的交叉熵损失值;ci表示第i个多实例包的类别,也即第i个多实例包中第n个实例的伪标记,ci∈{cm};/>pin表示第i个多实例包中第n个实例预测为各个类别的输出概率分布。
具体的,所述病灶检测模型包括依次连接的输入层、卷积层I、池化层、卷积层II、全连接层I、全连接层II和输出层。
具体的,所述步骤S6中,将关键实例包输入病灶检测模型中,使用有序损失函数计算每个关键实例包中各关键实例的有序损失值,优化病灶检测模型;所述有序损失函数为:
其中:Lo_ik表示第i个关键实例包中第k个关键实例的有序损失值;yik_m表示第i个关键实例包中第k个关键实例属于类别cm的预测概率,m=1,2,…,M,M表示总共的类别数量;yik表示第i个关键实例包中第k个关键实例的预测类别;ci表示第i个关键实例包的类别,也即第i个关键实例包中第n个关键实例的伪标记,ci∈{cm};|yik-ci|表示第i个关键实例包中第k个关键实例的预测类别和伪标记之间的距离,α是决定距离系数强弱的超参数。
具体的,所述DDSM乳腺数据集中的图像为灰度图像,多实例包的类别至少包括正常、良性、恶性三大类别。
具体的,所述步骤S2中,将DDSM乳腺数据集制作成多实例包的形式,并划分出训练集和测试集;一般来说训练集的占比要多一些,优选按照8:2的比例划分训练集和测试集。
具体的,所述步骤S22中,建立与原始图像一一对应的文件夹作为各原始图像的多实例包,使用原始图像名命名文件夹名。
有益效果:本发明提供的乳腺X线摄影的病灶检测方法,是一种基于不确定性有序多实例学习的乳腺癌检测识别方法,仅利用图像的类别标记就可以识别出病灶的具体位置和类别,解决了现有方法中乳腺病灶检测需要对图像中的病灶位置进行标注的问题,降低了标注的难度和成本;同时,本发明通过迭代的方式优化病灶检测模型的参数,同时让病灶检测模型的优化过程和关键实例的挑选过程相互促进直至完成病灶检测模型的优化,加快的病灶检测模型的学习速度。
附图说明
图1为本发明方法的实施流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为一种乳腺X线摄影的病灶检测方法,属于弱监督学习领域下的乳腺病灶的检测识别技术;下面就一个具体实施例对各个步骤加以说明。
S1、获取公开的DDSM乳腺数据集。
DDSM乳腺数据集是美国的医学机构所建立的专门用于存放乳腺癌图像的数据库,里面存放了normal、benign、benign_without_callback和cancer四类数据;本案至少需要使用到normal(正常)、benign(良性)和cancer(恶性)三类数据集。DDSM乳腺数据集的下载过程如下:
S11、安装winscp软件,该软件可以用于远程ftp下载;
S12、打开软件,选择ftp,输入DDSM网址,匿名登录;
S13、选择远程数据库的/pub/DDSM/cases目录路径,下载normal、benign、cancer文件下的所有数据集;
S14、将下载的LJPEG格式的图像转化为PNG格式的图像;
S15、将normal、benign、cancer三个类别的图像分别移动到正常、良性、恶性三个类别的文件夹中;最终的DDSM乳腺数据集由正常、良性、恶性三个类别下的所有图像组成,每个类别各自有1700张图像,且某些图像的尺寸不一致。
S2、将DDSM乳腺数据集制作成多实例包的形式,并划分出训练集和测试集。
S21、将DDSM乳腺数据集中不同尺寸大小的正常、良性和恶性的乳腺X光图像为原始图像;
S22、将原始图像裁剪为N=98个高宽比为14:7的网格块。
S23、建立与原始图像一一对应的文件夹作为各原始图像的多实例包,使用原始图像名命名文件夹名,将裁剪出来的N=98个网格块作为对应多实例包中的实例,网格块的命名可以结合其在网格中的位置等信息进行命名(比如包名+裁剪编号,裁剪编号的数字顺序按照从左到右的顺序依次排列)。最终每个类别下有1700个多实例包,每个多实例包中有98个实例。
S24、由于乳腺X光图像中乳腺仅占整个图像的一部分比例,图像中存在大量的噪声区域(非乳腺区域),分割出来的噪声区域远大于乳腺区域;因此,需要先对多实例包进行预处理,筛选出乳腺区域的网格块(即有用实例);具体过程如下:
S241、对于任一实例,计算像素值低于90或高于200的像素点的占该实例全部像素点的比例值:若所得比例超过90%,则判定该实例为噪声实例,滤除该实例;否则,判定该实例为有用实例;
S242、基于上述的阈值筛选操作,每个多实例包中的实例个数将不再统一;对每个多实例包中的所有有用实例进行数据增强,通过包括翻转、旋转在内的操作,将多实例包中的实例个数增加为N=98个;
S243、将多实例包中的所有实例的尺寸统一大小为224×224;
S25、按照8:2的比例将所有多实例包划分训练集和测试集,划分后的训练集中每个类别有1360个多实例包,测试集中每个类别有340个多实例包。
S3、将多实例包的类别作为多实例包内所有实例的伪标记。
S4、基于浅层的卷积神经网络建立乳腺X摄影的病灶检测模型。
本案中的病灶检测模型五层卷积神经网络,包括依次连接的输入层、卷积层I、池化层、卷积层II、全连接层I、全连接层II和输出层。病灶检测模型的输入图像是灰度图像,尺寸为224×224;首先,输入图像经过卷积层I后输出的大小变为220×220,卷积层I由5×5的卷积核和Relu激活函数构成;接着,经过池化层后输出的大小变为110×110;接着,经过卷积层II后输出的大小变为108×108,卷积层II由3×3的卷积核和Relu激活函数构成;接着经过一个有500个神经元的全连接层I和一个有3个神经元的全连接层II后输出每个类别的预测概率。病灶检测模型的具体参数设置如表1所示。
表1病灶检测模型的具体参数设置
网络层 | 输入 | 输出 | 卷积核 | 步长 | 填充 | 参数量 |
输入尺寸 | 224×224×1 | 224×224×1 | - | - | - | 0 |
卷积层I | 224×224×1 | 220×220×10 | 5×5×10 | 1 | 0 | 260 |
Relu激活函数 | 220×220×10 | 220×220×10 | - | - | - | 0 |
池化层 | 220×220×10 | 110×110×10 | 2×2 | 2 | 0 | 0 |
卷积层II | 110×110×10 | 108×108×20 | 3×3×20 | 1 | 0 | 1,820 |
Relu激活函数 | 108×108×20 | 108×108×20 | - | - | - | 0 |
全连接层I | 108×108×20 | 500 | - | - | - | 116,640,500 |
全连接层II | 500 | 3 | - | - | - | 1503 |
S5、将训练集中的多实例包输入病灶检测模型,计算每个多实例包中各个实例的交叉熵损失值,挑选出每个多实例包中交叉熵损失值最小的前K个实例作为关键实例构成关键实例包,将多实例包的类别作为关键实例包的类别,将关键实例包的类别作为关键实例包内所有关键实例的伪标记。
所述多分类交叉熵损失函数是计算各多实例包的包标记的one-hot编码与实例的概率分布之间的交叉熵损失,表示为:
Lin=-ci log(pin)
其中:表示第i个多实例包中第n个实例经过病灶检测模型最后的全连接层的第m个神经元的softmax输出;/>表示yin_m的softmax输出,yin_m表示第i个多实例包中第n个实例属于类别cm的预测概率,m=1,2,…,M,M表示总共的类别数量;Lin表示第i个多实例包中第n个实例的交叉熵损失值;ci表示第i个多实例包的类别,也即第i个多实例包中第n个实例的伪标记,ci∈{cm};/>pin表示第i个多实例包中第n个实例预测为各个类别的输出概率分布。
比较交叉熵损失值的大小并排序,即对Li1,Li2,…,Lin,…,LiN进行升序排序,选取前K个交叉熵损失值最小的实例作为关键实例。
S6、将关键实例包输入病灶检测模型,计算每个关键实例包中各个关键实例的有序损失值,通过梯度下降法优化病灶检测模型。
所述有序损失函数为:
其中:Lo_ik表示第i个关键实例包中第k个关键实例的有序损失值;yik_m表示第i个关键实例包中第k个关键实例属于类别cm的预测概率,m=1,2,…,M,M表示总共的类别数量;yik表示第i个关键实例包中第k个关键实例的预测类别;ci表示第i个关键实例包的类别,也即第i个关键实例包中第n个关键实例的伪标记,ci∈{cm};|yik-ci|表示第i个关键实例包中第k个关键实例的预测类别和伪标记之间的距离,α是决定距离系数强弱的超参数。
本例中有序损失函数,预测类别与真实类别(伪标记)距离越远,损失应该越大;反之,损失应该越小。乳腺癌的类别是有序的,预测类别产生的损失大小应该与真实类别的距离的绝对值大小成正相关。
S7、重复步骤S5和S6,直至连续两次训练集中所有多实例包挑选出的关键实例包相同,完成病灶检测模型的训练。
迭代过程中的超参数设置如表2所示。
表2实验参数设置
初始迭代 | 0 | 迭代轮数 | 100 |
批次大小 | 32 | 优化器 | Adam |
学习率 | 0.0001 | 权重衰减率 | 0.0005 |
关键实例挑选个数 | 4 | GPU数量 | 1 |
CPU数量 | 16 | 并行工作线程数量 | 8 |
S8、将测试集中的多实例包送入训练好的病灶检测模型,预测多实例包的类别。
将测试包中的实例送入模型中进行预测,若包中的实例类别预测存在恶性类别,则该包为恶性类别;若包中实例预测不存在恶性类别,但是存在良性类别的实例,则该包为良性类别;若该包所有实例类别预测全部为正常类别,则该包为正常类别。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (9)
1.一种乳腺X线摄影的病灶检测方法,其特征在于:包括以下步骤:
S1、获取公开的DDSM乳腺数据集;
S2、将DDSM乳腺数据集制作成多实例包的形式,并划分出训练集和测试集;
S3、将多实例包的类别作为多实例包内所有实例的伪标记;
S4、基于浅层的卷积神经网络建立乳腺X摄影的病灶检测模型;
S5、将训练集中的多实例包输入病灶检测模型,计算每个多实例包中各个实例的交叉熵损失值,挑选出每个多实例包中交叉熵损失值最小的前K个实例作为关键实例构成关键实例包,将多实例包的类别作为关键实例包的类别,将关键实例包的类别作为关键实例包内所有关键实例的伪标记;
S6、将关键实例包输入病灶检测模型,计算每个关键实例包中各个关键实例的有序损失值,通过梯度下降法优化病灶检测模型;
S7、重复步骤S5和S6,直至连续两次训练集中所有多实例包挑选出的关键实例包相同,完成病灶检测模型的训练;
S8、将测试集中的多实例包送入训练好的病灶检测模型,预测多实例包的类别。
2.根据权利要求1所述的乳腺X线摄影的病灶检测方法,其特征在于:所述步骤S2中,将DDSM乳腺数据集制作成多实例包的形式,包括如下步骤:
S21、将DDSM乳腺数据集中的原始图像裁剪为N个统一高宽比的网格块;
S22、建立与原始图像一一对应的文件夹作为各原始图像的多实例包,将裁剪出来的N个网格块作为对应多实例包中的实例;
S23、对多实例包中的实例进行预处理,然后将多实例包划分为训练集和测试集。
3.根据权利要求2所述的乳腺X线摄影的病灶检测方法,其特征在于:所述步骤S23中,对多实例包中的实例进行预处理,包括如下步骤:
S231、对于任一实例,计算像素值低于阈值β1或高于阈值β2的像素点的占该实例全部像素点的比例值:若所得比例超过阈值γ,则判定该实例为噪声实例,滤除该实例;否则,判定该实例为有用实例;
S232、对每个多实例包中的所有有用实例进行数据增强,通过包括翻转、旋转在内的操作,将多实例包中的实例个数增加为N个;
S233、将多实例包中的所有实例的尺寸统一大小为a×a。
4.根据权利要求1所述的乳腺X线摄影的病灶方法,其特征在于:所述步骤S5中,将训练集中的多实例包输入病灶检测模型中预测多实例包中各实例的类别,使用交叉熵损失函数计算多实例包中各实例的交叉熵损失值;所述多分类交叉熵损失函数为:
Lin=-cilog(pin)
其中:表示第i个多实例包中第n个实例经过病灶检测模型最后的全连接层的第m个神经元的softmax输出;/>表示yin_m的softmax输出,yin_m表示第i个多实例包中第n个实例属于类别cm的预测概率,m=1,2,…,M,M表示总共的类别数量;Lin表示第i个多实例包中第n个实例的交叉熵损失值;ci表示第i个多实例包的类别,也即第i个多实例包中第n个实例的伪标记,ci∈{cm};/>pin表示第i个多实例包中第n个实例预测为各个类别的输出概率分布。
5.根据权利要求1所述的乳腺X线摄影的病灶方法,其特征在于:所述病灶检测模型包括依次连接的输入层、卷积层I、池化层、卷积层II、全连接层I、全连接层II和输出层。
6.根据权利要求1所述的乳腺X线摄影的病灶方法,其特征在于:所述步骤S6中,将关键实例包输入病灶检测模型中,使用有序损失函数计算每个关键实例包中各关键实例的有序损失值,优化病灶检测模型;所述有序损失函数为:
其中:Lo_ik表示第i个关键实例包中第k个关键实例的有序损失值;yik_m表示第i个关键实例包中第k个关键实例属于类别cm的预测概率,m=1,2,…,M,M表示总共的类别数量;yik表示第i个关键实例包中第k个关键实例的预测类别;ci表示第i个关键实例包的类别,也即第i个关键实例包中第n个关键实例的伪标记,ci∈{cm};|yik-ci|表示第i个关键实例包中第k个关键实例的预测类别和伪标记之间的距离,α是决定距离系数强弱的超参数。
7.根据权利要求1所述的乳腺X线摄影的病灶方法,其特征在于:所述DDSM乳腺数据集中的图像为灰度图像,多实例包的类别至少包括正常、良性、恶性三大类别。
8.根据权利要求1所述的乳腺X线摄影的病灶方法,其特征在于:所述步骤S2中,将DDSM乳腺数据集制作成多实例包的形式,按照8:2的比例划分训练集和测试集。
9.根据权利要求1所述的乳腺X线摄影的病灶方法,其特征在于:所述步骤S22中,建立与原始图像一一对应的文件夹作为各原始图像的多实例包,使用原始图像名命名文件夹名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311589761.0A CN117576052B (zh) | 2023-11-27 | 2023-11-27 | 一种乳腺x线摄影的病灶诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311589761.0A CN117576052B (zh) | 2023-11-27 | 2023-11-27 | 一种乳腺x线摄影的病灶诊断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576052A true CN117576052A (zh) | 2024-02-20 |
CN117576052B CN117576052B (zh) | 2024-10-11 |
Family
ID=89889679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311589761.0A Active CN117576052B (zh) | 2023-11-27 | 2023-11-27 | 一种乳腺x线摄影的病灶诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576052B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410167A (zh) * | 2018-08-31 | 2019-03-01 | 深圳大学 | 一种3d乳腺图像的分析方法及相关产品 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109670489A (zh) * | 2019-02-18 | 2019-04-23 | 广州视源电子科技股份有限公司 | 基于多实例学习的弱监督式早期老年性黄斑病变分类方法 |
CN111784671A (zh) * | 2020-06-30 | 2020-10-16 | 天津大学 | 基于多尺度深度学习的病理图像病灶区域检测方法 |
CN113855079A (zh) * | 2021-09-17 | 2021-12-31 | 上海仰和华健人工智能科技有限公司 | 基于乳腺超声影像的实时检测和乳腺疾病辅助分析方法 |
EP3944185A1 (en) * | 2020-07-23 | 2022-01-26 | INESC TEC - Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência | Computer-implemented method, system and computer program product for detecting a retinal condition from eye fundus images |
CN115170884A (zh) * | 2022-07-22 | 2022-10-11 | 西安交通大学 | 一种基于分层注意力机制的儿童白血病多实例分类方法 |
US20230190179A1 (en) * | 2021-12-17 | 2023-06-22 | City University Of Hong Kong | Graph-based prostate diagnosis network and method for using the same |
WO2023179099A1 (zh) * | 2022-03-23 | 2023-09-28 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及可读存储介质 |
-
2023
- 2023-11-27 CN CN202311589761.0A patent/CN117576052B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410167A (zh) * | 2018-08-31 | 2019-03-01 | 深圳大学 | 一种3d乳腺图像的分析方法及相关产品 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109670489A (zh) * | 2019-02-18 | 2019-04-23 | 广州视源电子科技股份有限公司 | 基于多实例学习的弱监督式早期老年性黄斑病变分类方法 |
CN111784671A (zh) * | 2020-06-30 | 2020-10-16 | 天津大学 | 基于多尺度深度学习的病理图像病灶区域检测方法 |
EP3944185A1 (en) * | 2020-07-23 | 2022-01-26 | INESC TEC - Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência | Computer-implemented method, system and computer program product for detecting a retinal condition from eye fundus images |
CN113855079A (zh) * | 2021-09-17 | 2021-12-31 | 上海仰和华健人工智能科技有限公司 | 基于乳腺超声影像的实时检测和乳腺疾病辅助分析方法 |
US20230190179A1 (en) * | 2021-12-17 | 2023-06-22 | City University Of Hong Kong | Graph-based prostate diagnosis network and method for using the same |
WO2023179099A1 (zh) * | 2022-03-23 | 2023-09-28 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及可读存储介质 |
CN115170884A (zh) * | 2022-07-22 | 2022-10-11 | 西安交通大学 | 一种基于分层注意力机制的儿童白血病多实例分类方法 |
Non-Patent Citations (1)
Title |
---|
XINZHENG XU ET.AL: "Uncertainty Ordinal Multi-Instance Learning for Breast Cancer Diagnosis", 《HEALTHCARE》, 17 November 2022 (2022-11-17), pages 1 - 12 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576052B (zh) | 2024-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669792B2 (en) | Medical scan triaging system and methods for use therewith | |
CN107316294B (zh) | 一种基于改进的深度玻尔兹曼机肺结节特征提取方法 | |
CN112184658A (zh) | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 | |
CN113450320B (zh) | 一种基于较深网络结构的超声结节分级与良恶性预测方法 | |
CN108520518A (zh) | 一种甲状腺肿瘤超声图像识别方法及其装置 | |
US20230230241A1 (en) | System and method for detecting lung abnormalities | |
CN108364293A (zh) | 一种在线训练甲状腺肿瘤超声图像识别方法及其装置 | |
CN112614133B (zh) | 一种无锚点框的三维肺结节检测模型训练方法及装置 | |
US11087883B1 (en) | Systems and methods for transfer-to-transfer learning-based training of a machine learning model for detecting medical conditions | |
CN105640577A (zh) | 一种自动检测放射影像中局部性病变的方法和系统 | |
JP7294695B2 (ja) | 学習済モデルによるプログラム、情報記録媒体、分類装置、ならびに、分類方法 | |
CN109685765A (zh) | 一种基于卷积神经网络的x光片肺炎结果预测装置 | |
CN112819747A (zh) | 一种基于肺部断层扫描图片自动诊断结节良恶性的方法 | |
CN114693671B (zh) | 基于深度学习的肺结节半自动分割方法、装置、设备及介质 | |
JP2023508358A (ja) | 2次元及び3次元画像データを分析するためのシステム及び方法 | |
Tyagi et al. | LCSCNet: A multi-level approach for lung cancer stage classification using 3D dense convolutional neural networks with concurrent squeeze-and-excitation module | |
Khan et al. | An effective approach to address processing time and computational complexity employing modified CCT for lung disease classification | |
CN114282594A (zh) | 医学图像分类方法、系统和存储介质 | |
Seyyedi et al. | SCREENet: A multi-view deep convolutional neural network for classification of high-resolution synthetic mammographic screening scans | |
CN117576052B (zh) | 一种乳腺x线摄影的病灶诊断方法 | |
Agarwal et al. | Using Deep Convolutional Neural Networks to predict semantic features of lesions in mammograms | |
CN113947682A (zh) | 基于神经网络的植物叶片病害分类方法、装置、计算机设备及计算机可读存储介质 | |
Qasim et al. | An Accurate Breast Cancer Detection System Based on Deep Learning CNN. | |
Munasinghe et al. | Yuwathi: early detection of breast cancer and classification of mammography images using machine learning | |
D'Souza et al. | Multiclass Osteoporosis Detection: Enhancing Accuracy with Woodpecker-Optimized CNN-XGBoost. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |