CN114758032B - 基于时空注意力模型的多相期ct图像分类系统及构建方法 - Google Patents

基于时空注意力模型的多相期ct图像分类系统及构建方法 Download PDF

Info

Publication number
CN114758032B
CN114758032B CN202210672853.4A CN202210672853A CN114758032B CN 114758032 B CN114758032 B CN 114758032B CN 202210672853 A CN202210672853 A CN 202210672853A CN 114758032 B CN114758032 B CN 114758032B
Authority
CN
China
Prior art keywords
layer
attention
vector
image
msa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210672853.4A
Other languages
English (en)
Other versions
CN114758032A (zh
Inventor
吴元锋
朱闻韬
薛梦凡
江浩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210672853.4A priority Critical patent/CN114758032B/zh
Publication of CN114758032A publication Critical patent/CN114758032A/zh
Application granted granted Critical
Publication of CN114758032B publication Critical patent/CN114758032B/zh
Priority to JP2023007862A priority patent/JP7411126B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于时空注意力模型的多相期CT图像分类系统及构建方法,本发明系统包括数据获取单元、第一嵌入层网络单元、空间注意力单元、第二嵌入层网络单元、时间注意力单元和分类层单元。其中通过嵌入层单元将多相期CT图像向量化,随后使用空间注意力单元提取空间特征,并把多相期CT图像的空间特征合并后输入到时间注意力单元,得到具有空间特征和时间特征的向量,通过分类层单元完成分类。本发明采用了注意力机制,并分离了空间和时间特征,更关注CT图像中的重点部分,同时能将各个相期的CT图像全局联系起来,减少了计算冗余,提升了分类效率和精度,对于通过多相期CT图像进行分类的医学诊断更具有适应性,且具有更高的实用性。

Description

基于时空注意力模型的多相期CT图像分类系统及构建方法
技术领域
本发明涉及医学图像处理技术领域,尤其涉及一种基于时空注意力模型的多相期CT图像分类系统及构建方法。
背景技术
CT(Computed Tomography),即电子计算机断层扫描,它是利用精确准直的X线束、γ射线、超声波等,与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描,具有扫描时间快,图像清晰等特点,随着治疗方法的改进,CT图像扫描应用在各类肿瘤(如肝癌)的诊断也越来越普及,能够快速发现肿瘤的部位、大小和范围,可直接观察到病变内是否有坏死、出血等改变,并且可发现是否有肿瘤转移等情况,提高了肿瘤的检出率。
尽管CT平扫可以快速地发现病变,甚至检查出一些疾病,但是有些病变如血管畸形、早期癌症和转移瘤等无法通过CT平扫诊断出来。为了提高病变的显示率、确定病灶的范围和临床分期,需要用到增强CT扫描。以颅脑CT检查为例,平扫CT诊断的准确率为82%,增强扫描的准确率则上升到92%-95%,可见增强CT对提高诊断率很有帮助。CT增强扫描一般是通过静脉注射造影剂,目前常用的静脉注射方法分为两种,一种是人工手推注射,一种是采用高压注射器进行注射。注射造影剂后,增强CT能够比平扫CT提供更多的信息,可观察到动脉期、门静脉期、延迟期的血液流动,对诊断非常有帮助。不同亚型肿瘤的治疗方案各不相同,目前,多相增强CT已成为术前诊断肿瘤亚型的重要工具。
深度学习应用在医学图像处理也是一个大的方向,它被引入机器学习使其更接近于最初的目标——人工智能,并学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术,在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。随着深度学习的发展,卷积神经网络在不断地更新迭代,在图像识别方面得到越来越多的应用,具有不需要过多人工干预,能够自动提取图像特征且学习能力强等优点,尤其在癌症分类和病变检测等医学图像分析任务中表现出了极具竞争力的性能。
然而,恶性肿瘤的鉴别诊断仍具有挑战性,术前误诊可能会误导治疗决策,肿瘤成像报告和数据系统的日益复杂使得其在大容量实践中的实施变得不太可行,使得需要扩大对计算决策支持工具的临床需求,以提高工作效率,虽然传统卷积神经网络在CT图像的局部特征提取方面有一定优势,能够快速地检查病灶情况,但是无法利用增强CT的多个相期图像,会使得时间上的信息联系减弱,信息利用不完全,影响最后的诊断结果。
中国专利申请CN110443268A公布了一种基于深度学习的肝癌CT图像良性恶性分类方法,该方法在现有Resnet34网络模型的基础上进行设计改造,选取病人肝部信息最大切片,通过数据处理与增强,放入模型后进行分类。然而,由于CT图像是3D形状,该方法提取到的空间特征不完全,且未考虑到多相期CT图像的情况,不能有效地结合病人多个相期的病变进行处理,使诊断结果准确精度下降。
因此针对上述问题,需要一种能将多相CT结合处理、并能提高分类精准度和速度的方法。根据现有的医学图像处理方法和深度学习发展内容,可以考虑使用注意力机制和以transformer为结构的编码器,其中注意力机制能够加强平扫期CT图像和增强CT图像的时间联系,而transformer最初是自然语言处理(NLP)领域在2017年提出来的模型,在2020年首次使用到视觉领域,类比为NLP,将图像序列化,能够很好地执行图像分类任务,最后的分类结果可与最优卷积神经网络相媲美,同时所需要的计算资源大大减少,提高了分类的效率和准确率。
发明内容
本发明考虑到正常CT扫描和增强CT扫描时患者的病灶结构未发生剧烈变化,提出了一种基于时空注意力模型的多相期CT图像分类系统及构建方法,解决现有的基于传统卷积神经网络无法将多相期CT图像结合起来处理的问题。
本发明首先由专业的医学影像科医生对多相期CT图像进行标注,再对图像进行预处理,把病灶部分分割出来,调整图像大小以适应模型的输入,进行数据增强,搭建嵌入层,输入是正常平扫的CT图像和注射造影剂后的多相期增强CT图像,输出是正常平扫的CT图像和注射造影剂后的多相期增强CT图像的嵌入向量,搭建空间注意力网络,该网络模型的输入是以上CT图像的嵌入向量,能分别输出正常平扫的CT图像和注射造影剂后的多相期CT图像的空间特征,再将以上空间特征进行合并,并搭建时间注意力网络,该网络模型的输入是合并后的空间特征,能输出结合了时间特征和空间特征的向量,再通过分类层输出最后的分类结果,最后与标签进行计算得到损失,不断训练优化使损失降到最小,得到最佳的分类模型作为基于时空注意力模型的多相期CT图像分类系统。
本发明采用的技术方案具体如下:
一种基于时空注意力模型的多相期CT图像分类系统,包括:
数据获取单元,用于获取待分类患者的s个相期的CT图像;
第一嵌入层网络单元,包括s个第一嵌入层网络,第一嵌入层网络分别用于将每个相期CT图像分割成多个图像块并分别将每个图像块展平为图像块向量,再将所有图像块向量与类别标记向量合并后与同维度位置向量相加获得对应相期的CT图像的嵌入向量;
空间注意力单元,包括s个空间注意力网络,每个空间注意力网络包括L1层第一多头注意力网络MSA、L1层第一多层感知机和一层第一归一化层,其中L1层第一多头注意力网络MSA和L1层第一多层感知机依次交错连接,所述第一多头注意力网络MSA包括多个自注意力模块SA、一个拼接层,其中,自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q1i ,关键字矩阵K1i 和值矩阵V1i ,并依据三个不同的查询矩阵Q1i ,关键字矩阵K1i 和值矩阵V1i 生成输入向量中每个向量之间的注意力函数,i=1,2…,表示空间注意力单元中第i个自注意力模块SA;拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终空间注意力函数;将最终空间注意力函数与输入向量相加作为对应下一层多层第一感知机的输入向量;
该网络通过多头注意力模块能够相互对比不同向量之间的联系,将关键的地方进行加强。
所述第一多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第一多头注意力网络MSA的输入;其中,第一层第一多头注意力网络MSA的输入向量为嵌入向量;第一归一化层用于对最后一层第一多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化并作为对应相期的CT图像的空间特征;
第二嵌入层网络单元,包括1个第二嵌入层网络,用于将s个空间注意力网络输出的s个对应相期的CT图像的空间特征合并后与类别标记向量结合获得嵌入层向量;
时间注意力单元,包括1个时间注意力网络,时间注意力网络包括L2层第二多头注意力网络MSA、L2层第二多层感知机和一层第二归一化层,其中L2层第二多头注意力网络MSA和L2层第二多层感知机依次交错连接,所述第二多头注意力网络MSA包括多个自注意力模块SA、一个拼接层,其中,自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q2j ,关键字矩阵K2j 和值矩阵V2j ,并依据三个不同的查询矩阵Q2j ,关键字矩阵K2j 和值矩阵V2j 生成输入向量中每个向量之间的注意力函数;拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终时间注意力函数;j=1,2…,表示时间注意力单元中第j个自注意力模块SA;将最终时间注意力函数与输入向量相加作为对应下一层第二多层感知机的输入向量;所述第二多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第二多头注意力网络MSA的输入;其中,第一层第二多头注意力网络MSA的输入向量为第二嵌入层网络单元输出的嵌入层向量;第二归一化层用于对最后一层第二多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化获得具有空间特征和时间特征的向量;
分类层单元,包括分类层,用于依据具有空间特征和时间特征的向量获得分类结果。
进一步地,s大于等于2,s个相期的CT图像具体包括:平扫期CT图像、动脉期CT图像、门静脉期CT图像和延迟期CT图像中的至少两种。
进一步地,所述嵌入向量具体为:
X 0 = [X class ; X 1 p ; X 2 p X N p ]+ X pos
其中,X class 表示类别标记向量,X pos 表示位置向量,X p 表示线性化后的图像块向量,N表示分割后的图像块数量。
进一步地,所述依据三个不同的查询矩阵Q1i ,关键字矩阵K1i 和值矩阵V1i 生成输入向量中每个向量之间的注意力函数,具体为:
Figure 40325DEST_PATH_IMAGE001
其中,d k 表示关键字矩阵K1i 中每个关键字向量k的维度;softmax()是softmax函数。
同理,所述依据三个不同的查询矩阵Q2j ,关键字矩阵K2j 和值矩阵V2j 生成输入向量中每个向量之间的注意力函数,具体为:
Figure 223045DEST_PATH_IMAGE002
其中,d k 表示关键字矩阵K2j 中每个关键字向量k的维度;softmax()是softmax函数。
进一步地,所述第一多头注意力网络MSA、第二多头注意力网络MSA的输入向量为:
Figure 533941DEST_PATH_IMAGE003
LN表示归一化方法,x l 表示第一多头注意力网络MSA或第二多头注意力网络MSA的输入向量,MLP()表示对应的第一多层感知机或第二多层感知机的输出,x l-1表示第l-1层第一多层感知机或第二多层感知机的输入向量。
进一步地,所述第一多层感知机、第二多层感知机的输入向量为:
Figure 335675DEST_PATH_IMAGE004
LN表示归一化方法,x l 表示第一多层感知机或第二多层感知机的输入向量,MSA()表示对应的第一多头注意力网络MSA或第二多头注意力网络MSA的输出,x l 表示第l层第一多头注意力网络MSA或第二多头注意力网络MSA的输入向量。
一种基于时空注意力模型的多相期CT图像分类系统的构建方法,包括:
收集样本构建数据集,所述数据集的每个样本包括一个患者的s个相期的CT图像;
构建上述基于时空注意力模型的多相期CT图像分类系统,并将数据集中每个样本作为系统的输入,以系统输出的分类结果与分类标签的误差最小化为目标进行训练,获得所述基于时空注意力模型的多相期CT图像分类系统。
本发明的有益效果是:
(1)本发明提出了一种基于时空注意力模型的多相期CT图像分类系统,包含两种注意力网络:空间注意力网络和时间注意力网络。空间注意力网络可以提取CT图像的空间特征,而时间注意力网络可以提取不同相期CT图像之间的联系,在各相期CT之间加强了全局注意力。
(2)本发明对需要依据多相期CT图像进行诊断的各类疾病具有普适性,更有效地利用不同相期的病灶特征,增强时间上的联系,摒弃了以传统的卷积神经网络为主要模型的设计,通过注意力机制,能够将更多的计算投入到重点区域,以获取更多所需要关注目标的细节信息,从而抑制其他无用信息,减少计算的冗余和延迟,易于更短的时间内实现对CT图像的诊断,使诊断精度更高且诊断效果更稳定。
附图说明
图1是本发明一种基于时空注意力模型的多相期CT图像分类系统的结构图;
图2是本发明一种基于时空注意力模型的多相期CT图像分类系统的分类流程图;
图3是本发明一种基于时空注意力模型的肝癌多相期CT图像分类系统的构建方法流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。
在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明的核心思想在于提出了一种基于时空注意力模型的多相期CT图像分类系统及构建方法,解决现有的基于传统卷积神经网络无法将多相期CT图像结合起来处理的问题。需要指出的是,本发明的多相期CT图像包括临床上正常扫描的CT图像和注射造影剂后扫描的增强CT图像,其中,正常扫描的CT图像为平扫期CT图像,注射造影剂后扫描的增强CT图像包括动脉期、门静脉期、延迟期的CT图像。
本发明的一种基于时空注意力模型的多相期CT图像分类系统,如图1所示,包括:
数据获取单元,用于获取待分类患者的s个相期的CT图像;
第一嵌入层网络单元,包括s个第一嵌入层网络,第一嵌入层网络分别用于将每个 相期CT图像分割成多个图像块并分别将每个图像块展平为图像块向量,再将所有图像块向 量与类别标记向量合并后与同维度位置向量相加获得对应相期的CT图像的嵌入向量;其 中,每个相期CT图像的大小为
Figure 415626DEST_PATH_IMAGE005
, H和W为单张CT图像的长度和宽度,而C为CT图像 层数。分割后的图像块的大小为P×P×C,P为分割后的图像块的长度和宽度;每个图像块通 过卷积层展平为图像块向量,并线性投影为嵌入向量X 0,嵌入向量X 0为:
X 0 = [X class ; X 1 p ; X 2 p X N p ]+ X pos , X p R D , X pos R (1+ND (1)
其中,X class 表示类别标记向量,X pos 表示位置向量,X p 表示线性化后的图像块向量,N表示分割后的图像块数量,N=HW/P 2。D为卷积层的卷积核个数,通过卷积层后的图像块向量与可学习的类别标记向量合并,能够聚集整个标记向量的表征信息,再与可学习的同维度位置向量相加,可增强数据信息。
空间注意力单元,包括s个空间注意力网络,每个空间注意力网络包括L1层第一多头注意力网络MSA、L1层第一多层感知机和一层第一归一化层,其中L1层第一多头注意力网络MSA和L1层第一多层感知机依次交错连接,所述第一多头注意力网络MSA包括多个自注意力模块SA、一个拼接层,其中,自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q1i ,关键字矩阵K1i 和值矩阵V1i ,具体地,首先将输入向量转换为三个不同的向量:查询向量q、关键字向量k和值向量v,其中查询向量q是用来与其他向量匹配,关键字向量k被匹配,而值向量v表示被提取的信息,q、k、v三类向量通过可学习的矩阵与输入向量相乘得到。考虑到嵌入向量是多维度的关系,从全局的角度进行表示,表示如下:
Q1i = XW 1i Q ,K1i = XW 1i K ,V1i = XW 1i V (2)
其中,W 1i Q W 1i K W 1i V 表示第i个可训练的权重矩阵,X表示输入向量。
依据三个不同的查询矩阵Q1i ,关键字矩阵K1i 和值矩阵V1i 生成输入向量中每个向量之间的注意力函数;具体地,将查询向量q和每个关键字向量k互相点乘,将点乘后的积除以关键字向量k的维度的开方,经过softmax层与值向量v相乘并求和,其中softmax函数是将输入到的值映射到(0,1)这个区间。输入向量之间的注意函数计算如下:
Figure 893881DEST_PATH_IMAGE006
(3)
其中,d k 表示关键字矩阵K1i 中每个关键字向量k的维度;softmax()是softmax函数,head 1i 表示第i个自注意力模块SA的输出。
拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终空间注意力函数,表示如下:
MSA( )=Concat(head 11,…, head 1i ,…) W 1 O (4)
MSA( )是空间注意力网络的输出,W 1 O 是可训练的权重矩阵。
该网络通过多头注意力模块能够相互对比不同向量之间的联系,将关键的地方进行加强。在第一多头注意力网络MSA的基础上使用第一多层感知机MLP,MLP表示有Gelu函数作为非线性层的多层感知机,其中,Gelu函数是一种高性能的神经网络激活函数,因为它的非线性变化是一种符合预期的随机正则变换方式。具体地,将最终空间注意力函数与输入向量相加作为对应下一层第一多层感知机的输入向量:
Figure 692072DEST_PATH_IMAGE007
(5)
LN表示归一化方法,x l 表示第一多层感知机的输入向量,MSA()表示第一多头注意力网络的输出,x l 表示第l层第一多头注意力网络的输入向量。
所述第一多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层多头注意力网络MSA的输入向量:
Figure 156552DEST_PATH_IMAGE003
(6)
MLP()表示第一多层感知机的输出,x l-1表示第l-1层第一多层感知机的输入向量。
其中,第一层第一多头注意力网络MSA的输入向量为嵌入向量,即x 1= X 0;第一归一化层用于对最后一层第一多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化并作为对应相期的CT图像的空间特征:
Figure 231955DEST_PATH_IMAGE008
(7)
x 0 L 表示通过所有编码层后的x L 的第一维度的数据,L=2L1。
对于平扫期、动脉期、门静脉期和延迟期的CT图像,分别得到对应的平扫期、动脉期、门静脉期和延迟期的CT图像的空间特征;
第二嵌入层网络单元,包括1个第二嵌入层网络,用于将s个空间注意力网络输出的s个对应相期的CT图像的空间特征合并后与类别标记向量结合获得嵌入层向量x
x =[ X class ; x space ], x space R s×D , X class R D (8)
其中,x space 表示合并后的空间特征。
时间注意力单元,包括1个时间注意力网络,时间注意力网络结构及功能与空间注意力网络结构相同,具体包括L2层第二多头注意力网络MSA、L2层第二多层感知机和一层第二归一化层,其中L2层第二多头注意力网络MSA和L2层第二多层感知机依次交错连接,所述第二多头注意力网络MSA包括多个自注意力模块SA、一个拼接层,其中,自注意力模块SA按照公式(2)将归一化的输入向量转换为三个不同的查询矩阵Q2j ,关键字矩阵K2j 和值矩阵V2j ,并依据三个不同的查询矩阵Q2j ,关键字矩阵K2j 和值矩阵V2j 按照公式(3)生成输入向量中每个向量之间的注意力函数,j是时间注意力单元中自注意力模块SA的索引;拼接层用于按照公式(4)拼接每个自注意力模块SA输出的注意力函数获得最终时间注意力函数;按照公式(5)将最终时间注意力函数与输入向量相加作为对应下一层第二多层感知机的输入向量;按照公式(6)第二多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第二多头注意力网络MSA的输入向量;其中,第一层第二多头注意力网络MSA的输入向量为第二嵌入层网络单元输出的嵌入层向量;第二归一化层用于对最后一层第二多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化获得具有空间特征和时间特征的向量x time
分类层单元,包括分类层W,用于依据具有空间特征和时间特征的向量获得分类结果Prob
Prob=Wx time T )(9)
Prob 𝜖R C代表分类的概率分布,C表示类的总数。
图2为本发明基于时空注意力模型的多相期CT图像分类系统的分类流程图,具体地为:
将数据获取单元获取的待分类患者的s个相期的CT图像输入至第一嵌入层网络单元,每个第一嵌入层网络将对应的单相期CT图像分割成多个图像块并分别将每个图像块展平为图像块向量,再将所有图像块向量与类别标记向量合并后与同维度位置向量相加获得对应相期的CT图像的嵌入向量;
将获得的对应相期的CT图像的嵌入向量输入至空间注意力单元中对应的空间注意力网络获得对应相期的CT图像的空间特征;
将s个空间注意力网络输出的s个对应相期的CT图像的空间特征输入至第二嵌入层网络单元,合并s个对应相期的CT图像的空间特征后与类别标记向量结合堆叠构成嵌入层向量;
将嵌入层向量输入至时间注意力单元,获得具有空间特征和时间特征的向量,最后将获得具有空间特征和时间特征的向量输入至分类层单元,输出最终分类结果。
本发明系统是基于不同肿瘤类别或亚型在CT图像中的差异实现CT图像的分类,进一步实现肿瘤分型/分期的诊断分类。本发明系统可以用于两种或者多种肿瘤的分类,具体取决于系统的构建方法。如肝癌一般可分为原发性和继发性两大类。原发性肝脏恶性肿瘤起源于肝脏的上皮或间叶组织,继发性或称转移性肝癌系指全身多个器官起源的恶性肿瘤侵犯至肝脏。一般多见于胃、胆道、胰腺、结直肠、卵巢、子宫、肺、乳腺等器官恶性肿瘤的肝转移。
图3示出为本发明一种基于时空注意力模型的多相期肝癌CT图像分类系统的构建方法流程图,该方法具体包括:
(1)收集样本构建数据集,所述数据集的每个样本包括一个患者的s个相期的肝癌CT图像;
以对肝癌CT图像进行肝细胞癌和肝内胆管细胞癌的二分类为例,其中,肝细胞癌(hepatocellular carcinoma,HCC)是一种高死亡率的原发性肝癌,肝内胆管细胞癌(intrahepatic cholangiocarcinoma ICC)是指起源于二级胆管及其分支上皮的腺癌,是发病率仅次于肝细胞肝癌的肝脏原发恶性肿瘤。收集共有400例样本,其中HCC样本200例,ICC样本200例,所有样本的标注均由专业医学影像科医生完成,具体如下:
(1.1)首先从医院收集肝癌患者的平扫期肝部CT图像和增强CT图像(动脉期、门静脉期、延迟期的肝部CT图像),通过数据筛查,挑选出具有完整研究信息的患者数据,通过数据脱敏技术,去除患者的个人敏感信息,有利于保护患者的隐私以及提高数据的保密性,最终收集到HCC和ICC患者共400例肝部CT图像以及对应的肝功能检测报告,其中HCC患者200例,ICC患者200例,根据所属类别进行标注,HCC患者标注为1,ICC患者标注为0。
(1.2)由专业医学影像科医生将四相期肝部CT图像中的病灶部分标记并分割出来,构建获得数据集。
进一步地,由于患者的个体性差异,检验科医生对不同的患者可能设置不同的扫描次数,使得原始的CT图像中的切片数量不同,为了研究的便利性,因此统一定义每个相期CT图像的大小以及张数。在本实施例中,将每个样本的肝部CT图像大小处理为64×128×128×4,其中64表示每个相期的肝部CT图像层数,128和128表示每张肝部CT图像的长和宽,4表示四个相期;
进一步地,数据增强,在数据不够多的情况下,让数据产生更多的价值,输入为已完成数据预处理的四相期肝部CT图像,进行随机旋转、随机翻转等操作,补充数据集的样本。
(2)构建前述基于时空注意力模型的多相期CT图像分类系统,包括数据获取单元、第一嵌入层网络单元、空间注意力单元、第二嵌入层网络单元、时间注意力单元和分类层单元。并将数据集中每个样本作为系统的输入,以系统输出的分类结果与分类标签的误差最小化为目标进行训练,以二值交叉熵损失函数计算系统输出的分类结果与分类标签的误差为例,表示如下:
Loss = -ylog(Prob)-(1-y)log(1- Prob) (10)
其中,y∈{0,1},0表示ICC患者,1表示HCC患者。
使用随机梯度下降算法对整个系统进行优化,目标是找到最小的误差损失,最终得到最佳分类模型。在本实施例中,使用Adam随机优化算法进行梯度的反向传播与优化,学习率设置为0.0001,最终获得实现肝细胞癌和肝内胆管细胞癌二分类的基于时空注意力模型的多相期CT图像分类系统。
本发明的方法对需要依据多相期CT图像进行诊断的各类疾病具有普适性,更有效地利用不同相期的病灶特征,增强时间上的联系,摒弃了以传统的卷积神经网络为主要模型的设计,通过注意力机制,能够将更多的计算投入到重点区域,以获取更多所需要关注目标的细节信息,从而抑制其他无用信息,减少计算的冗余和延迟,易于更短的时间内实现对CT图像的诊断,使诊断精度更高且诊断效果更稳定。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种基于时空注意力模型的多相期CT图像分类系统,其特征在于,包括:
数据获取单元,用于获取待分类患者的s个相期的CT图像;
第一嵌入层网络单元,包括s个第一嵌入层网络,第一嵌入层网络分别用于将每个相期CT图像分割成多个图像块并分别将每个图像块展平为图像块向量,再将所有图像块向量与类别标记向量合并后与同维度位置向量相加获得对应相期的CT图像的嵌入向量;
空间注意力单元,包括s个空间注意力网络,每个空间注意力网络包括L1层第一多头注意力网络MSA、L1层第一多层感知机和一层第一归一化层,其中L1层第一多头注意力网络MSA和L1层第一多层感知机依次交错连接,所述第一多头注意力网络MSA用于生成最终空间注意力函数,将最终空间注意力函数与输入向量相加作为对应下一层第一多层感知机的输入向量;所述第一多层感知机对归一化的输入向量编码后与所述第一多层感知机的输入向量相加作为对应下一层第一多头注意力网络MSA的输入;其中,第一层第一多头注意力网络MSA的输入向量为嵌入向量;第一归一化层用于对最后一层第一多层感知机输出的向量与所述第一多层感知机的输入向量相加后的向量的第一维度向量进行归一化并作为对应相期的CT图像的空间特征;
第二嵌入层网络单元,包括1个第二嵌入层网络,用于将s个空间注意力网络输出的s个对应相期的CT图像的空间特征合并后与类别标记向量结合获得嵌入层向量;
时间注意力单元,包括1个时间注意力网络,时间注意力网络包括L2层第二多头注意力网络MSA、L2层第二多层感知机和一层第二归一化层,其中L2层第二多头注意力网络MSA和L2层第二多层感知机依次交错连接,所述第二多头注意力网络MSA用于生成最终时间注意力函数,将最终时间注意力函数与输入向量相加作为对应下一层第二多层感知机的输入向量;所述第二多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第二多头注意力网络MSA的输入;其中,第一层第二多头注意力网络MSA的输入向量为第二嵌入层网络单元输出的嵌入层向量;第二归一化层用于对最后一层第二多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化获得具有空间特征和时间特征的向量;
分类层单元,包括分类层W,用于依据具有空间特征和时间特征的向量获得分类结果Prob=Wx time T );其中,Prob 𝜖R C代表分类的概率分布,C表示类的总数。
2.根据权利要求1所述的系统,其特征在于,s大于等于2,s个相期的CT图像具体包括:平扫期CT图像、动脉期CT图像、门静脉期CT图像和延迟期CT图像中的至少两种。
3.根据权利要求1所述的系统,其特征在于,所述嵌入向量具体为:
X 0 = [X class ; X 1 p ; X 2 p X N p ]+ X pos
其中,X class 表示类别标记向量,X pos 表示位置向量,X p 表示线性化后的图像块向量,N表示分割后的图像块数量。
4.根据权利要求1所述的系统,其特征在于,所述多头注意力网络MSA包括多个自注意力模块SA、一个拼接层,其中,自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q,关键字矩阵K和值矩阵V,并依据三个不同的查询矩阵Q,关键字矩阵K和值矩阵V生成输入向量中每个向量之间的注意力函数:
Figure DEST_PATH_IMAGE001
其中,d k 表示关键字矩阵K中每个关键字向量k的维度;softmax()是softmax函数;
拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终空间或时间注意力函数。
5.根据权利要求1所述的系统,其特征在于,所述第一多头注意力网络MSA、第二多头注意力网络MSA的输入向量为:
Figure DEST_PATH_IMAGE002
LN表示归一化方法,x l 表示第一多头注意力网络MSA或第二多头注意力网络MSA的输入向量,MLP()表示对应的第一多层感知机或第二多层感知机的输出,x l-1表示第l-1层第一多层感知机或第二多层感知机的输入向量。
6.根据权利要求1所述的系统,其特征在于,所述第一多层感知机、第二多层感知机的输入向量为:
Figure DEST_PATH_IMAGE003
LN表示归一化方法,x l 表示第一多层感知机或第二多层感知机的输入向量,MSA()表示对应的第一多头注意力网络MSA或第二多头注意力网络MSA的输出,x l 表示第l层第一多头注意力网络MSA或第二多头注意力网络MSA的输入向量。
7.一种基于时空注意力模型的多相期CT图像分类系统的构建方法,其特征在于,包括:
收集样本构建数据集,所述数据集的每个样本包括一个患者的s个相期的CT图像;
构建权利要求1-6任一项所述基于时空注意力模型的多相期CT图像分类系统,并将数据集中每个样本作为系统的输入,以系统输出的分类结果与分类标签的误差最小化为目标进行训练,获得所述基于时空注意力模型的多相期CT图像分类系统。
CN202210672853.4A 2022-06-15 2022-06-15 基于时空注意力模型的多相期ct图像分类系统及构建方法 Active CN114758032B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210672853.4A CN114758032B (zh) 2022-06-15 2022-06-15 基于时空注意力模型的多相期ct图像分类系统及构建方法
JP2023007862A JP7411126B2 (ja) 2022-06-15 2023-01-23 時空間的アテンションモデルに基づく多時相ct画像分類システム及び構築方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210672853.4A CN114758032B (zh) 2022-06-15 2022-06-15 基于时空注意力模型的多相期ct图像分类系统及构建方法

Publications (2)

Publication Number Publication Date
CN114758032A CN114758032A (zh) 2022-07-15
CN114758032B true CN114758032B (zh) 2022-09-16

Family

ID=82336458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210672853.4A Active CN114758032B (zh) 2022-06-15 2022-06-15 基于时空注意力模型的多相期ct图像分类系统及构建方法

Country Status (2)

Country Link
JP (1) JP7411126B2 (zh)
CN (1) CN114758032B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152246B (zh) * 2023-04-19 2023-07-25 之江实验室 一种图像识别方法、装置、设备及存储介质
CN116188469A (zh) * 2023-04-28 2023-05-30 之江实验室 一种病灶检测方法、装置、可读存储介质及电子设备
CN116206164B (zh) * 2023-05-06 2023-08-18 之江实验室 基于半监督对比学习的多相期ct分类系统及构建方法
CN117808976B (zh) * 2024-03-01 2024-05-24 之江实验室 一种三维模型构建方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019232027A1 (en) * 2018-05-29 2019-12-05 The General Hospital Corporation System and method for analyzing medical images to detect/classify medical conditions using machine-learning and case radiology atlas
CN111539491A (zh) * 2020-07-07 2020-08-14 点内(上海)生物科技有限公司 基于深度学习与注意力机制的多发性结节分类系统和方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN114399634A (zh) * 2022-03-18 2022-04-26 之江实验室 基于弱监督学习的三维图像分类方法、系统、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3050334C (en) 2017-05-23 2023-04-11 Google Llc Attention-based sequence transduction neural networks
JP6912998B2 (ja) 2017-10-25 2021-08-04 株式会社日立製作所 データ分析装置、データ分析方法、およびデータ分析プログラム
JP2020087127A (ja) 2018-11-28 2020-06-04 国立研究開発法人産業技術総合研究所 グラフ構造を有するデータのエンコードに関するプログラム、情報処理方法及び情報処理システム
CN110443268B (zh) 2019-05-30 2022-02-08 杭州电子科技大学 一种基于深度学习的肝部ct图像良性恶性分类方法
US11158048B2 (en) * 2019-06-28 2021-10-26 Shandong University Of Science And Technology CT lymph node detection system based on spatial-temporal recurrent attention mechanism
JP2021081921A (ja) 2019-11-18 2021-05-27 株式会社Preferred Networks データ処理装置、データ処理方法、プログラム、およびモデル
CN113902926B (zh) * 2021-12-06 2022-05-31 之江实验室 一种基于自注意力机制的通用图像目标检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019232027A1 (en) * 2018-05-29 2019-12-05 The General Hospital Corporation System and method for analyzing medical images to detect/classify medical conditions using machine-learning and case radiology atlas
CN111539491A (zh) * 2020-07-07 2020-08-14 点内(上海)生物科技有限公司 基于深度学习与注意力机制的多发性结节分类系统和方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN114399634A (zh) * 2022-03-18 2022-04-26 之江实验室 基于弱监督学习的三维图像分类方法、系统、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
External Attention Assisted Multi-Phase Splenic Vascular Injury Segmentation With Limited Data;Yuyin Zhou,etc;《IEEE Transactions on Medical Imaging》;20211230;第41卷(第6期);全文 *
基于多尺度特征融合的肺结节良恶性分类方法;顾军华等;《深圳大学学报(理工版)》;20200721(第04期);全文 *
基于深度学习的医学图像研究综述;吴扬;《电脑知识与技术》;20200705(第19期);全文 *
肝脏肿瘤CT图像深度学习分割方法综述;马金林等;《中国图象图形学报》;20201016(第10期);全文 *

Also Published As

Publication number Publication date
CN114758032A (zh) 2022-07-15
JP2023183367A (ja) 2023-12-27
JP7411126B2 (ja) 2024-01-10

Similar Documents

Publication Publication Date Title
CN114758032B (zh) 基于时空注意力模型的多相期ct图像分类系统及构建方法
Ge et al. Enlarged training dataset by pairwise GANs for molecular-based brain tumor classification
Chouhan et al. Deep convolutional neural network and emotional learning based breast cancer detection using digital mammography
Chan et al. Texture-map-based branch-collaborative network for oral cancer detection
Wu et al. Automated detection of kidney abnormalities using multi-feature fusion convolutional neural networks
CN116206164B (zh) 基于半监督对比学习的多相期ct分类系统及构建方法
Zhang et al. SAA-Net: U-shaped network with Scale-Axis-Attention for liver tumor segmentation
Guo et al. Msanet: multiscale aggregation network integrating spatial and channel information for lung nodule detection
Wu et al. Self-supervised transfer learning framework driven by visual attention for benign–malignant lung nodule classification on chest CT
Zhang et al. CdcSegNet: automatic COVID-19 infection segmentation from CT images
Dong et al. Learning from dermoscopic images in association with clinical metadata for skin lesion segmentation and classification
Li et al. Reconstruction-assisted feature encoding network for histologic subtype classification of non-small cell lung cancer
Saravagi et al. Diagnosis of lumbar spondylolisthesis using optimized pretrained CNN models
CN110503147A (zh) 基于相关性学习的多模图像分类系统
Qi et al. Mdf-net: A multi-scale dynamic fusion network for breast tumor segmentation of ultrasound images
Naik et al. A deep feature concatenation approach for lung nodule classification
US20220287647A1 (en) Disease classification by deep learning models
Wang et al. Controlling False-Positives in Automatic Lung Nodule Detection by Adding 3D Cuboid Attention to a Convolutional Neural Network
Dodia et al. A novel bi-level lung cancer classification system on CT scans
Balannolla et al. Detection and Classification of Lung Carcinoma using CT scans
Cao et al. EFAG-CNN: Effectively fused attention guided convolutional neural network for WCE image classification
Dong et al. Segmentation of pulmonary nodules based on improved UNet++
Wu et al. Mscan: Multi-scale channel attention for fundus retinal vessel segmentation
Basu et al. Deep discriminative learning model with calibrated attention map for the automated diagnosis of diffuse large B-cell lymphoma
Kakarla et al. An automatic multi-class lung disease classification using deep learning based bidirectional long short term memory with spiking neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant