CN116739988A - 一种基于多难度课程学习的深度学习脑出血分类方法 - Google Patents

一种基于多难度课程学习的深度学习脑出血分类方法 Download PDF

Info

Publication number
CN116739988A
CN116739988A CN202310535114.5A CN202310535114A CN116739988A CN 116739988 A CN116739988 A CN 116739988A CN 202310535114 A CN202310535114 A CN 202310535114A CN 116739988 A CN116739988 A CN 116739988A
Authority
CN
China
Prior art keywords
image
training
hemorrhage
classification
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310535114.5A
Other languages
English (en)
Inventor
刘小娟
周尚波
唐宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202310535114.5A priority Critical patent/CN116739988A/zh
Publication of CN116739988A publication Critical patent/CN116739988A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30016Brain
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多难度课程学习的深度学习脑出血分类方法,主要涉及医学图像分类技术领域;包括步骤:S1、构建ConvBoTNeXt‑T分类网络、Bert语义网络;S2、采用基于难度的多模式课程学习方法训练ConvBoTNeXt‑T分类网络;S3、将脑出血CT图像输入ConvBoTNeXt‑T分类网络,最后输出脑实质内出血、脑室内出血、硬膜下出血、硬膜外出血、蛛网膜下腔出血、合并出血的六类出血亚型的概率;本发明通过融合临床信息、改进训练方法、改进分类网络构建新的分类模型,能够在提升训练速度的同时能获得更好的分类效果。

Description

一种基于多难度课程学习的深度学习脑出血分类方法
技术领域
本发明涉及医学图像分类技术领域,具体是一种基于多难度课程学习的深度学习脑出血分类方法。
背景技术
脑出血(ICH)具有高死亡率和时间敏感性,医生会根据不同的出血类型和出血的程度采取不同的治疗措施,根据脑部出血位置的不同,脑出血可以分为脑实质内出血(IPH)、脑室内出血(IVH)、硬膜下出血(SDH)、硬膜外出血(EDH)、蛛网膜下腔出血(SAH)五种类型。众所周知,脑部存在着大量的神经细胞,脑内存在的神经中枢控制着人体的各个器官,不同的出血类型会对不同的神经功能形成破坏,所以,对不同类型脑出血的早期检测对于挽救患者的神经功能乃至生命有重要意义。
临床上,对于一般的脑出血患者,首选的检查方式应该是采用计算机断层扫描(Computed Tomography,CT),在出血的检测和诊断中,CT成像方式因其速度快、成本低、能精确捕获相当好的对比度图像的能力而起着非常重要的作用,根据CT图像,医生可以明确脑出血的具体位置,出血量的大小、是否存在脑部水肿,以及脑出血是否破入脑室等,这些信息对病人的诊治至关重要。
随着计算机技术的进步,基于计算机辅助的脑出血类型识别技术也在不断的进步,从传统的机器学习方法到目前的深度学习方法,脑出血的检测与类型识别准确度也在不断的提高。针对传统的机器学习方法,由于阈值的检测并不准确,提取距离变换的特征也非常有限,这类传统机器学习方法检测速度慢,检测效果不好。随着深度学习的发展,卷积神经网络(CNN)因其可靠性和高效率而广受欢迎,成为医学诊断支持的重要因素。基于深度学习的脑出血检测和分类的方法不断被提出,虽然基于深度学习的脑出血检测与识别已经取得了很好的结果,但是这些方法很少从根本上解决数据样本不平衡的问题,以及训练效率等问题,所以脑出血的分类精度仍然有很大的提升空间。
发明内容
本发明的目的在于解决现有技术中存在的问题,提供一种基于多难度课程学习的深度学习脑出血分类方法,通过融合临床信息、改进训练方法、改进分类网络构建新的分类模型,能够在提升训练速度的同时能获得更好的分类效果。
本发明为实现上述目的,通过以下技术方案实现:
一种基于多难度课程学习的深度学习脑出血分类方法,包括步骤:
S1、构建ConvBoTNeXt-T分类网络、Bert语义网络,其中,ConvBoTNeXt-T分类网络作为主干网络,是在ConvNeXt-T网络的基础上,将ConvNeXt-T网络的C5中的3×3卷积替换为多头自注意力结构,利用自注意力机制替换ConvNeXt-T网络的最后三个卷积层;Bert语义网络用于将临床信息转换为一维语义向量,并将向量信息添加到ConvBoTNeXt-T分类网络中,用以辅助分类;
S2、采用基于难度的多模式课程学习方法训练ConvBoTNeXt-T分类网络;
S3、将脑出血CT图像输入ConvBoTNeXt-T分类网络,由ConvBoTNeXt-T分类网络提取图像特征后结合Bert语义网络输出的语义向量,最后输出脑实质内出血、脑室内出血、硬膜下出血、硬膜外出血、蛛网膜下腔出血、合并出血的六类出血亚型的概率。
优选的,步骤S1中:Bert语义网络将病人初诊时的临床症状作为输入,Bert最后一层输出的第一个token位置当作句子的表示,将获得的语义向量与主干网络的全连接层拼接一起用于分类。
优选的,步骤S1中:临床信息包括患者是否有脑挫裂伤、昏迷、中度清醒期、头痛、恶心、呕吐和偏瘫症状。
优选的,步骤S2中:将健康图像xh1、原始病理图像xp、合成的伪病理图像xrp作为模型的训练输入图像,其中,合成的伪病理图像xrp是掩膜和健康图像通过网络融合,合成的病理图像;通过生成人工掩膜的方式,能够得到不局限于病变的位置、形状及大小的掩膜。
优选的,步骤S2中:定义三种难度,分别为:出血区域比例、与健康图像的灰度差异、与健康图像的灰度分布差异;
出血区域比例d1为:
其中,xp是病理图像,fp是预先训练的分割器,N(·)是计算像素个数的函数;
分母计算的是脑部图像的总的像素个数,当分割出的病理掩模的像素个数变大时,d1就会增加,表明出血区域占整个脑部图像的比例越大,越容易被分类;
与健康图像的灰度差异d2为:
其中,表示病理图像的第i个像素的值,/>表示配准后健康图像的第i个像素的平均值,N表示病理图像的总像素个数,d2越大,说明该图像越容易被分类;
与健康图像的像素灰度分布差异d3为:
其中,N表示病理图像的总像素个数,表示病理图像xp的第i个像素的值,/>表示配准后的健康图像的第i个像素的正态分布的期望,ρi表示配准后的健康图像的第i个像素的方差;
d3计算的是概率密度函数的和,与/>越接近,d3越大,说明该图像与健康图像的分布越相似,越不容易被分类。
优选的,其中,M表示有M张配准好的图像,/>表示第j张图像的第i个像素的值。
优选的,步骤S2中:首先根据难度度量di对训练数据集Dtrain中的每个图像样本进行排序,得到排序后的训练数据集根据模型当前的能力,按比例选择排序后的训练数据集,对训练批数据进行采样来训练模型,这样模型就能够在培训中逐渐从简单的样本过渡到更复杂的样本,直至收敛,这样的学习方式称之为课程学习,每一种难度对应一种课程。
优选的,步骤S2中:通过训练时间步t的函数,定义模型能力c(t)∈(0,1],计算公式为:
其中,c(0)为模型的初始能力,通常设置为0.01,p为控制课程安排的系数,通常设置为2,T为课程学习的持续时间,并决定了课程学习的持续时间;
根据模型的能力,获得每个课程的训练样本Bi(ti),在第一轮训练结束之后,进一步估计模型在不同课程上对应的不同训练样本Bi(ti)上的复杂度PBj(tj);
复杂度PBj(tj)衡量的是训练每个Bi(ti)到收敛时的时间长度,PBj(tj)的计算公式为:
PBj(tj)=T(Bi(ti))
当前PBj(tj)较高的课程意味着该模型没有很好地学习,需要改进;PBj(tj)用来动态地确定每个训练时间步的课程;在第二次训练的时候首先选择PBj(tj)最大的课程,来训练当前的模型,然后依次训练其他课程;再次估计所选课程中的模型能力,并在所选课程对应的训练样本上计算模型的PBj(tj)再进行训练,一直循环,直到全部训练结束。
优选的,步骤S2中,损失函数为:
其中,yt∈{0,1}表示类别t的真实标签,Yt∈[0,1]表示类别t的预测,t∈{1,2,3,4,5,6}。
对比现有技术,本发明的有益效果在于:
本发明从网络设计、模型训练两个方面提出三种提高分类精度的措施,具体而言,通过构建结合临床信息的语义辅助分类网络,减少了漏诊、误诊的可能性;通过构建结合多头自注意力(Multi-Head Self Attention,MHSA)机制的ConvBoTNeXt-T主干分类网络,更好地捕捉特征信息的全局依赖性,在参数量较少的同时保证了分类精度;通过基于难度的多模式课程学习方法,提升了训练速度的同时并提升了分类性能;收敛速度快,分类精度更高,提升训练速度的同时能获得更好的分类效果。
附图说明
图1是本发明的基于多难度课程学习的脑出血分类模型一;
图2是本发明的基于多难度课程学习的脑出血分类模型二;
图3是本发明的基于Bert的临床语义编码模型;
图4是本发明的ConvBoTNeXt-T网络结构示意图;
图5是本发明的基于ConvNeXt-T的脑出血分类网络示意图;
图6是本发明的基于难度的多模式课程学习模型;
图7是本发明的课程学习示意图;
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
由于基于深度学习的脑出血分类方法的分类结果好坏与训练数据的质量有密切关系,针对基于有监督深度学习的脑出血分类模型来说,需要有足够的脑出血样本,并且要求样本的类别能覆盖到全部类别,各个类别有一定比例的样本已经做好了类别标注。但是在实际情况中,样本的数量往往不够,并且样本的质量不够高,因为人体脑部结构复杂,从不同的个体获取的脑出血CT图像形态差异也很大,并且脑部的每个位置都有出血的可能,现实中的样本一般不能覆盖到脑部的各个位置,即样本出血位置覆盖面不够广,并且不同出血类型的样本数据量也不一定会平衡。因此数据样本不够、样本出血位置覆盖面不够广、样本类别之间数据不平衡等方面是可以改进的方向。
在以前的基于深度学习的脑出血分类研究工作中,一般脑出血图像是脑出血分类的唯一依据,很少利用到患者的其他信息,单纯的只靠脑出血图像确定脑出血的类别依据太单一,可能会导致诊断不准确,比如一个患者明明有很剧烈的头痛,但是医生却说影像显示没有出血,这可能是由于出血量过少,影像医生漏诊了。其实,不同脑出血类型的患者的临床表现也是有较大的差别的,因此,患者的临床信息(Clinical Information,CI)也可以作为辅助分类的依据,这样就能一定程度的减少漏诊、误诊等情况。因此,将临床信息用于辅助分类可以增加分类的准确率。
由于基于深度学习的图像分类任务往往数据量很大,并且一般的模型参数众多,因此,训练一个模型往往需要很长的时间,根据数据量和模型参数的不同,耗时差异较大。因此,寻求一种好的训练方法和分类网络,在保证准确度的同时,可以提升训练速度,这也是提高分类效果的改进方向。
由于基于深度学习的图像分类任务在进行模型训练寻找最优解的时候,常采用随机梯度下降优化算法,粒子群优化等常规算法,这些优化算法可能会使得模型收敛到局部最优解,导致一些错误的分类预测,比如用训练好的模型分类一些出血小的样本时,可能会出现错误的预测。所以,如果对优化算法加以改进,使得模型收敛到全局最优解,可以提升模型的分类精确度。
实施例:如附图1-2所示,本发明所述是一种基于多难度课程学习的深度学习脑出血分类方法,是以卷积神经网络(CNN)为基础,利用ConvBoTNeXt-T主干网络和基于Bert的语义辅助网络相融合的方式进行建模,将脑出血数据分为五种出血亚型和一种合并类型,最终得到好的分类输出结果。
主要是将健康图像xh1、原始病理图像xp、合成的病理图像xrp作为模型的训练输入图像;主干网络模块是基于ConvNeXt-T网络设计的ConvBoTNeXt-T分类网络模块,临床信息(Clinical Information,CI)经过Bert语义网络模块(Bert Model,BM),将其转化为一维语义向量,将向量信息添加到ConvBoTNeXt-T分类网络模块中,用以辅助分类;为了提高训练速度,采用多模式课程学习(Multi Mode Course Learning,MMCL)方法训练网络;最后输出脑实质内出血(IPH)、脑室内出血(IVH)、硬膜下出血(SDH)、硬膜外出血(EDH)、蛛网膜下腔出血(SAH)、合并出血(Any)等六类出血亚型的概率。
包括步骤:
S1、构建ConvBoTNeXt-T分类网络、Bert语义网络,其中,ConvBoTNeXt-T分类网络作为主干网络,是在ConvNeXt-T网络的基础上,将ConvNeXt-T网络的C5中的3×3卷积替换为多头自注意力结构,利用自注意力机制替换ConvNeXt-T网络的最后三个卷积层;Bert语义网络用于将临床信息转换为一维语义向量,并将向量信息添加到ConvBoTNeXt-T分类网络中,用以辅助分类;
S2、采用基于难度的多模式课程学习方法训练ConvBoTNeXt-T分类网络;
S3、将脑出血CT图像输入ConvBoTNeXt-T分类网络,由ConvBoTNeXt-T分类网络提取图像特征后结合Bert语义网络输出的语义向量,最后输出脑实质内出血、脑室内出血、硬膜下出血、硬膜外出血、蛛网膜下腔出血、合并出血的六类出血亚型的概率。
具体的:
一、网络模块
1)Bert语义网络
Bert语义网络是基于Bert的临床语义编码网络。
在以往的基于深度学习的脑出血分类研究工作中,脑出血图像是判断患者脑出血类型的唯一依据,但是在实际工作中,如果仅凭影像医生的判断,可能会导致误诊。对于临床医生来说,患者的临床表现也对脑出血的分类有重要的指示作用。因此,本申请将临床信息作为辅助分类的依据,用以提高分类的准确率,并期望能在一定程度上减少漏诊、误诊等情况。
为了将临床信息用于辅助分类任务,需要将临床信息这类标准化语句用矢量表示出来,采用一种基于Bert的语义网络模型,如图3所示,
2)ConvBoTNeXt-T分类网络
ConvBoTNeXt-T分类网络为基于ConvNeXt-T的脑出血图像特征提取网络。
随着技术的发展,视觉转换器(Vision Transformers,ViT)模型因为其良好的分类效果正在逐步取代ConvNET模型。但是普通的ViT模型在应用于一些目标检测和语义分割时,效果不佳。改进的转换器(Transformers),如Swin Transformers重新引入了ConvNET先验,使Transformers作为一种通用的视觉主干网络,并在各种视觉任务上表现出卓越的性能。
ConvNeXt模型完全由标准卷视网模块构建,在精度和可扩展性方面可与Transformers媲美,同时保持了标准ConvNETs的简单性和有效性。ConvNeXt是一个向transformer网络靠拢的CNN模型,每一点精度的提升都是经过大量的实验得到证明。
ConvNeXt-T对应于ResNet-50,ConvNeXt-T的网络结构首先有个输入4x4x 96的卷积层,然后经过3+3+9+3=21个bulding block,每个block为3层,所以有3x 21=63层,最后有个fc层(全连接层),所以一共有1+63+1=65层。
BoTNet(Bottleneck Transformer)与ResNet网络相比,与ResNet的唯一区别,是在C5中,将3×3卷积替换成了多头自注意力(Multi-Head Self Attention,MHSA)结构。利用自注意力机制来替换ConvNeXt-T的最后三个卷积层,这样的结构,使用卷积提取图像中局部的信息,然后利用自注意力机制来对全局的依赖性进行建模,能够降低网络获取局部信息的代价,提升训练效率。
本发明结合BoTNet与ConvNeXt-T,提出一种基于ConvNeXt-T的脑出血分类主干网络,并命名为ConvBoTNeXt-T网络,网络结构如图4所示,该网络的演变过程如表1所示:
表1 ConvBoTNeXt-T网络的演变过程
3)基于ConvNeXt-T的脑出血分类网络模型
在ConvBoTNeXt-T网络作为主干分类网络的基础上,结合临床信息的语义网络作为辅助分支,提出一种基于ConvNeXt-T的脑出血分类网络模型,模型结构如图5所示,临床信息经过Bert模型编码为向量,与主干网络ConvBoTNeXt-T提取的图像特征拼接并进行分类,期望提高分类效率,帮助医生减少误诊、漏诊。
二、模型训练
由于深度学习分类模型需要训练大量的参数,好的训练方法和优化算法不仅可以提高训练速度,还可以提高分类精度,为提高脑出血图像分类网络的训练速度和网络的分类精度,本申请提出一种基于难度的多模式课程学习优化算法,通过对网络训练方法,提高模型的训练速度,并且可以提高分类的精度。
人们在学习的过程当中,一般遵循先易后难的学习原则,即,先学习简单的,再学习复杂的,这样逐步学习的方式使得学习效率更高。比如在学习数学的时候,通常先学习加减法,再学习乘除法,先学习10以内的,再学习100以内的,逐步递进,最后融会贯通。基于这种思想,对于分类神经网络来说,可以先让神经网络分类容易区分的,再分类那些不好分的,本申请提出了一种基于难度的多模式课程学习网络训练方法,根据样本的难度和模型当前的训练能力,在训练期间的不同阶段采用适当的训练样本,采用过滤后训练样本训练模型,可以有效防止模型陷入局部最优,并且其收敛速度比均匀抽样更快,因此DMCL训练方法可以提高脑出血图像分类网络的训练速度,并且也会适当提高网络的分类精度。
DMCL方法首先需要定义图像的分类难度,对于脑出血图像来说,本申请定义三种难度,这三种难度一定程度上反应了图像分类的难易程度。将训练图像数据集根据三种难度分别进行排序,就可以将数据变为3个按难度排序的数据集,每一次根据模型的能力选择训练每个难度数据集的一定比例的数据样本,收敛以后再对每种难度训练时间进行比较,训练最久的难度的数据集在第二次训练中,优先训练,如此循环,直到训练完三个难度的所有数据,图6展示了基于难度的多模式课程学习模型。
1)图像的分类难度
根据图像的分类难易度,本申请定义三种难度,分别是出血区域比例、与健康图像的灰度差异、与健康图像的灰度分布差异。
A.血肿区域比例d1
一般情况下,出血区域占整个图像的比例越大,越容易被识别,也越容易被分类。为了评估出血区域比例d1的大小,为此,预先训练了一个出血区域分割器,然后,使用这个分割器从待分类的图像中分割出病理区域掩膜,并计算病理区域占整个图像的比例,计算公式如式(1.1)所示。
注意,对于分割器,是先在训练数据上训练的一个分割器,并在验证集上对其进行微调。在形式上,出血区域比例d1被定义为:
其中xp是病理图像,fp是预先训练的分割器,N(·)是计算像素个数的函数。分母计算的是脑部图像的总的像素个数。当分割出的病理掩模的像素个数变大时,d1就会增加,表明出血区域占整个脑部图像的比例越大,越容易被分类。
B.与健康图像的灰度差异d2
一般情况下,将病理图像与健康图像进行灰度对比,如果差异越大,表明该图像越容易被分类。为了评估与健康图像的灰度差异d2,采用一种简单直观的策略,对于脑部图像的每个像素,将所有配准后的健康图像的灰度值做平均,得到健康图像的每个像素的灰度参考值,再将患者图像的灰度值与该参考值作比较,得到健康图像的灰度差异d2,计算公式如式(1.2所示)
健康图像的灰度差异d2提示了患者图像中所有像素的灰度与健康图像的灰度值的偏离程度。在公式(1.2)中,表示病理图像的第i个像素的值,/>表示配准后健康图像的第i个像素的平均值,N表示病理图像的总像素个数,对病理图像进行公式(1.2)的计算,可以得到该图像与健康图像的偏离度。为了减少无关因素的影响,将大脑去除头骨后得到的脑组织进行计算,这样可以排除脑组织以外的信息,d2越大,说明该图像越容易被分类。
C.与健康图像的像素灰度分布差异d3
一般情况下,对于健康图像来说,每个像素的值都服从正态分布,将病理图像的每个像素与健康图像对应位置的像素的分布进行比较,如果分布差异越大,表明该图像越容易被分类。为了评估与健康图像的灰度分布差异d3,利用其中健康图像的像素信息,来构建每个像素上的正常组织对应的灰度分布。方便起见,假设该分布是正态分布,与健康图像的像素灰度分布差异用d3表示,如式(1.3)所示。
其中,N表示病理图像的总像素个数,表示病理图像xp的第i个像素的值,/>表示配准后的健康图像的第i个像素的正态分布的期望,为了方便,用平均值代替,计算公式如式(1.4),/>表示配准后的健康图像的第i个像素的方差,计算公式如式(1.5)所示。
其中M表示有M张配准好的图像,表示第j张图像的第i个像素的值。对病理图像的每一个像素都进行计算,可以得到与健康图像灰度分布差异d3。同样将大脑去除头骨后得到的脑组织才进行计算,这样可以排除脑组织以外的信息,由式(1.3)可知,d3计算的是概率密度函数的和,/>与/>越接近,d3越大,说明该图像与健康图像的分布越相似,越不容易被分类。
2)基于难度的多模式课程学习算法
首先根据难度度量di对训练数据集Dtrain中的每个图像样本进行排序,得到排序后的训练数据集根据模型当前的能力,按比例选择排序后的训练数据集,对训练批数据进行采样来训练模型。这样,该模型就能够在培训中逐渐从简单的样本过渡到更复杂的样本,直至收敛,这样的学习方式称之为课程学习,每一种难度对应一种课程。课程学习示意图如图7所示。
通过训练时间步t的函数,定义模型能力c(t)∈(0,1],计算公式如式(2.1)。
其中,c(0)为模型的初始能力,通常设置为0.01,p为控制课程安排的系数,通常设置为2,T为课程学习的持续时间,并决定了课程学习的持续时间。在实现中,在训练时间步t,选择排序的训练数据集的顶部c(t)部分对训练批进行采样来训练模型。
根据模型的能力,获得每个课程的训练样本Bi(ti),在第一轮训练结束之后,进一步估计模型在不同课程上对应的不同训练样本Bi(ti)上的复杂度PBj(tj)。复杂度PBj(tj)衡量的是训练每个Bi(ti)到收敛时的时间长度,PBj(tj)的计算公式如式(2.2)所示,因此当前PBj(tj)较高的课程意味着该模型没有很好地学习,需要改进。因此,PBj(tj)可以用来动态地确定每个训练时间步的课程。在第二次训练的时候首先选择学习不足的课程,即PBj(tj)最大的课程,来训练当前的模型,然后依次训练其他课程。再次估计所选课程中的模型能力,并在所选课程对应的训练样本上计算模型的PBj(tj)再进行训练,一直循环,直到全部训练结束。
PBj(tj)=T(Bi(ti)) (2.2)
随着训练时间的增加,慢慢将分类难度大的图像加入训练,使得模型分类能力逐步增强。基于多难度的课程学习算法如2所示。
表2基于难度的多模式课程学习算法
3)损失函数
脑出血亚型分类可以作为多标签分类问题。一个数据样本,例如,一张CT切片,可以同时出现多种类型的出血。训练提出的模型5种亚型及合并出血类型分类,模型的输出值在0到1之间,表示每种类型的脑出血的发生概率的发生概率。总的来说,提出的模型在最后一个(分类)层上包含6个单元,输出6个独立的类别概率。使用多标签对数损失,对给定输入样本的每种出血类型的二进制交叉熵损失相加,得到如公式(3.1)。
其中,yt∈{0,1}表示类别t的真实标签,Yt∈[0,1]表示类别t的预测(类概率)。脑出血有5种亚型和一个合并类型,因此t∈{1,2,3,4,5,6}。
本发明通过构建结合临床信息的语义辅助分类网络,减少了漏诊、误诊的可能性;通过构建结合多头自注意力(Multi-Head Self Attention,MHSA)机制的ConvBoTNeXt-T主干分类网络,更好地捕捉特征信息的全局依赖性,在参数量较少的同时保证了分类精度;通过提出一种基于难度的多模式课程学习网络算法,提升了训练速度的同时并提升了分类性能。

Claims (9)

1.一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,包括步骤:
S1、构建ConvBoTNeXt-T分类网络、Bert语义网络,其中,ConvBoTNeXt-T分类网络作为主干网络,是在ConvNeXt-T网络的基础上,将ConvNeXt-T网络的C5中的3×3卷积替换为多头自注意力结构,利用自注意力机制替换ConvNeXt-T网络的最后三个卷积层;Bert语义网络用于将临床信息转换为一维语义向量,并将向量信息添加到ConvBoTNeXt-T分类网络中,用以辅助分类;
S2、采用基于难度的多模式课程学习方法训练ConvBoTNeXt-T分类网络;
S3、将脑出血CT图像输入ConvBoTNeXt-T分类网络,由ConvBoTNeXt-T分类网络提取图像特征后结合Bert语义网络输出的语义向量,最后输出脑实质内出血、脑室内出血、硬膜下出血、硬膜外出血、蛛网膜下腔出血、合并出血的六类出血亚型的概率。
2.根据权利要求1所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,步骤S1中:Bert语义网络将病人初诊时的临床症状作为输入,Bert最后一层输出的第一个token位置当作句子的表示,将获得的语义向量与主干网络的全连接层拼接一起用于分类。
3.根据权利要求1所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,步骤S1中:临床信息包括患者是否有脑挫裂伤、昏迷、中度清醒期、头痛、恶心、呕吐和偏瘫症状。
4.根据权利要求1所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,步骤S2中:将健康图像xh1、原始病理图像xp、合成的伪病理图像xrp作为模型的训练输入图像,其中,合成的伪病理图像xrp是掩膜和健康图像通过网络融合,合成的病理图像;通过生成人工掩膜的方式,能够得到不局限于病变的位置、形状及大小的掩膜。
5.根据权利要求1所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,步骤S2中:定义三种难度,分别为:出血区域比例、与健康图像的灰度差异、与健康图像的灰度分布差异;
出血区域比例d1为:
其中,xp是病理图像,fp是预先训练的分割器,N(·)是计算像素个数的函数;
分母计算的是脑部图像的总的像素个数,当分割出的病理掩模的像素个数变大时,d1就会增加,表明出血区域占整个脑部图像的比例越大,越容易被分类;
与健康图像的灰度差异d2为:
其中,表示病理图像的第i个像素的值,/>表示配准后健康图像的第i个像素的平均值,N表示病理图像的总像素个数,d2越大,说明该图像越容易被分类;
与健康图像的像素灰度分布差异d3为:
其中,N表示病理图像的总像素个数,表示病理图像xp的第i个像素的值,/>表示配准后的健康图像的第i个像素的正态分布的期望,/>表示配准后的健康图像的第i个像素的方差;
d3计算的是概率密度函数的和,与/>越接近,d3越大,说明该图像与健康图像的分布越相似,越不容易被分类。
6.根据权利要求5所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,其中,M表示有M张配准好的图像,表示第j张图像的第i个像素的值。
7.根据权利要求5所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,步骤S2中:首先根据难度度量di对训练数据集Dtrain中的每个图像样本进行排序,得到排序后的训练数据集根据模型当前的能力,按比例选择排序后的训练数据集,对训练批数据进行采样来训练模型,这样模型就能够在培训中逐渐从简单的样本过渡到更复杂的样本,直至收敛,这样的学习方式称之为课程学习,每一种难度对应一种课程。
8.根据权利要求7所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,步骤S2中:通过训练时间步t的函数,定义模型能力c(t)∈(0,1],计算公式为:
其中,c(0)为模型的初始能力,通常设置为0.01,p为控制课程安排的系数,通常设置为2,T为课程学习的持续时间,并决定了课程学习的持续时间;
根据模型的能力,获得每个课程的训练样本Bi(ti),在第一轮训练结束之后,进一步估计模型在不同课程上对应的不同训练样本Bi(ti)上的复杂度PBj(tj);
复杂度PBj(tj)衡量的是训练每个Bi(ti)到收敛时的时间长度,PBj(tj)的计算公式为:
PBj(tj)=T(Bi(ti))
当前PBj(tj)较高的课程意味着该模型没有很好地学习,需要改进;PBj(tj)用来动态地确定每个训练时间步的课程;在第二次训练的时候首先选择PBj(tj)最大的课程,来训练当前的模型,然后依次训练其他课程;再次估计所选课程中的模型能力,并在所选课程对应的训练样本上计算模型的PBj(tj)再进行训练,一直循环,直到全部训练结束。
9.根据权利要求8所述的一种基于多难度课程学习的深度学习脑出血分类方法,其特征在于,步骤S2中,损失函数为:
其中,yt∈{0,1}表示类别t的真实标签,Yt∈[0,1]表示类别t的预测,t∈{1,2,3,4,5,6}。
CN202310535114.5A 2023-05-12 2023-05-12 一种基于多难度课程学习的深度学习脑出血分类方法 Pending CN116739988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310535114.5A CN116739988A (zh) 2023-05-12 2023-05-12 一种基于多难度课程学习的深度学习脑出血分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310535114.5A CN116739988A (zh) 2023-05-12 2023-05-12 一种基于多难度课程学习的深度学习脑出血分类方法

Publications (1)

Publication Number Publication Date
CN116739988A true CN116739988A (zh) 2023-09-12

Family

ID=87906923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310535114.5A Pending CN116739988A (zh) 2023-05-12 2023-05-12 一种基于多难度课程学习的深度学习脑出血分类方法

Country Status (1)

Country Link
CN (1) CN116739988A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117894454A (zh) * 2024-01-29 2024-04-16 脉得智能科技(无锡)有限公司 一种肌少症诊断方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117894454A (zh) * 2024-01-29 2024-04-16 脉得智能科技(无锡)有限公司 一种肌少症诊断方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110930416B (zh) 一种基于u型网络的mri图像前列腺分割方法
CN106682435B (zh) 一种多模型融合自动检测医学图像中病变的系统及方法
CN112529839B (zh) 一种核磁共振图像中颈动脉血管中心线的提取方法及系统
CN116681958B (zh) 基于机器学习的胎儿肺脏超声影像成熟度预测方法
CN112884788B (zh) 基于丰富上下文网络的视杯视盘分割方法及成像方法
CN113012173A (zh) 基于心脏mri的心脏分割模型和病理分类模型训练、心脏分割、病理分类方法及装置
CN112396605B (zh) 网络训练方法及装置、图像识别方法和电子设备
CN115035127A (zh) 一种基于生成式对抗网络的视网膜血管分割方法
Sengupta et al. An Empirical Analysis on Detection and Recognition of Intra-Cranial Hemorrhage (ICH) using 3D Computed Tomography (CT) images
CN112381846A (zh) 一种基于非对称网络的超声甲状腺结节分割方法
CN116739988A (zh) 一种基于多难度课程学习的深度学习脑出血分类方法
CN117036288A (zh) 一种面向全切片病理图像的肿瘤亚型诊断方法
CN113610118A (zh) 一种基于多任务课程式学习的眼底图像分类方法、装置、设备及介质
Zhi et al. Intelligent medical image feature extraction method based on improved deep learning
CN115984555A (zh) 一种基于深度自编码器构图的冠状动脉狭窄识别方法
Wang et al. Deep learning based fetal middle cerebral artery segmentation in large-scale ultrasound images
Sengan et al. Echocardiographic image segmentation for diagnosing fetal cardiac rhabdomyoma during pregnancy using deep learning
CN113538363A (zh) 一种基于改进U-Net的肺部医学影像分割方法及装置
CN116740041B (zh) 基于机器视觉的cta扫描图像分析系统及其方法
CN110992309B (zh) 基于深层信息传递网络的眼底图像分割方法
CN114764855A (zh) 基于深度学习的膀胱镜下肿瘤智能分割方法、装置及设备
CN116228690A (zh) 基于pet-ct的胰腺癌与自身性免疫性胰腺炎自动辅助诊断方法
CN115409812A (zh) 一种基于融合时间注意机制的ct图像自动分类方法
CN113902738A (zh) 一种心脏mri分割方法及系统
CN115409857A (zh) 一种基于深度学习的三维脑积水ct图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination