CN114758032B

CN114758032B - 基于时空注意力模型的多相期ct图像分类系统及构建方法

Info

Publication number: CN114758032B
Application number: CN202210672853.4A
Authority: CN
Inventors: 吴元锋; 朱闻韬; 薛梦凡; 江浩东
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-16
Anticipated expiration: 2042-06-15
Also published as: CN114758032A; JP2023183367A; JP7411126B2

Abstract

本发明公开了一种基于时空注意力模型的多相期CT图像分类系统及构建方法，本发明系统包括数据获取单元、第一嵌入层网络单元、空间注意力单元、第二嵌入层网络单元、时间注意力单元和分类层单元。其中通过嵌入层单元将多相期CT图像向量化，随后使用空间注意力单元提取空间特征，并把多相期CT图像的空间特征合并后输入到时间注意力单元，得到具有空间特征和时间特征的向量，通过分类层单元完成分类。本发明采用了注意力机制，并分离了空间和时间特征，更关注CT图像中的重点部分，同时能将各个相期的CT图像全局联系起来，减少了计算冗余，提升了分类效率和精度，对于通过多相期CT图像进行分类的医学诊断更具有适应性，且具有更高的实用性。

Description

基于时空注意力模型的多相期CT图像分类系统及构建方法

技术领域

本发明涉及医学图像处理技术领域，尤其涉及一种基于时空注意力模型的多相期CT图像分类系统及构建方法。

背景技术

CT(Computed Tomography)，即电子计算机断层扫描，它是利用精确准直的X线束、γ射线、超声波等，与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描，具有扫描时间快，图像清晰等特点，随着治疗方法的改进，CT图像扫描应用在各类肿瘤（如肝癌）的诊断也越来越普及，能够快速发现肿瘤的部位、大小和范围，可直接观察到病变内是否有坏死、出血等改变，并且可发现是否有肿瘤转移等情况，提高了肿瘤的检出率。

尽管CT平扫可以快速地发现病变，甚至检查出一些疾病，但是有些病变如血管畸形、早期癌症和转移瘤等无法通过CT平扫诊断出来。为了提高病变的显示率、确定病灶的范围和临床分期，需要用到增强CT扫描。以颅脑CT检查为例，平扫CT诊断的准确率为82%，增强扫描的准确率则上升到92%－95%，可见增强CT对提高诊断率很有帮助。CT增强扫描一般是通过静脉注射造影剂，目前常用的静脉注射方法分为两种，一种是人工手推注射，一种是采用高压注射器进行注射。注射造影剂后，增强CT能够比平扫CT提供更多的信息，可观察到动脉期、门静脉期、延迟期的血液流动，对诊断非常有帮助。不同亚型肿瘤的治疗方案各不相同，目前，多相增强CT已成为术前诊断肿瘤亚型的重要工具。

深度学习应用在医学图像处理也是一个大的方向，它被引入机器学习使其更接近于最初的目标——人工智能，并学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术，在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。随着深度学习的发展，卷积神经网络在不断地更新迭代，在图像识别方面得到越来越多的应用，具有不需要过多人工干预，能够自动提取图像特征且学习能力强等优点，尤其在癌症分类和病变检测等医学图像分析任务中表现出了极具竞争力的性能。

然而，恶性肿瘤的鉴别诊断仍具有挑战性，术前误诊可能会误导治疗决策，肿瘤成像报告和数据系统的日益复杂使得其在大容量实践中的实施变得不太可行，使得需要扩大对计算决策支持工具的临床需求，以提高工作效率，虽然传统卷积神经网络在CT图像的局部特征提取方面有一定优势，能够快速地检查病灶情况，但是无法利用增强CT的多个相期图像，会使得时间上的信息联系减弱，信息利用不完全，影响最后的诊断结果。

中国专利申请CN110443268A公布了一种基于深度学习的肝癌CT图像良性恶性分类方法，该方法在现有Resnet34网络模型的基础上进行设计改造，选取病人肝部信息最大切片，通过数据处理与增强，放入模型后进行分类。然而，由于CT图像是3D形状，该方法提取到的空间特征不完全，且未考虑到多相期CT图像的情况，不能有效地结合病人多个相期的病变进行处理，使诊断结果准确精度下降。

因此针对上述问题，需要一种能将多相CT结合处理、并能提高分类精准度和速度的方法。根据现有的医学图像处理方法和深度学习发展内容，可以考虑使用注意力机制和以transformer为结构的编码器，其中注意力机制能够加强平扫期CT图像和增强CT图像的时间联系，而transformer最初是自然语言处理（NLP）领域在2017年提出来的模型，在2020年首次使用到视觉领域，类比为NLP，将图像序列化，能够很好地执行图像分类任务，最后的分类结果可与最优卷积神经网络相媲美，同时所需要的计算资源大大减少，提高了分类的效率和准确率。

发明内容

本发明考虑到正常CT扫描和增强CT扫描时患者的病灶结构未发生剧烈变化，提出了一种基于时空注意力模型的多相期CT图像分类系统及构建方法，解决现有的基于传统卷积神经网络无法将多相期CT图像结合起来处理的问题。

本发明首先由专业的医学影像科医生对多相期CT图像进行标注，再对图像进行预处理，把病灶部分分割出来，调整图像大小以适应模型的输入，进行数据增强，搭建嵌入层，输入是正常平扫的CT图像和注射造影剂后的多相期增强CT图像，输出是正常平扫的CT图像和注射造影剂后的多相期增强CT图像的嵌入向量，搭建空间注意力网络，该网络模型的输入是以上CT图像的嵌入向量，能分别输出正常平扫的CT图像和注射造影剂后的多相期CT图像的空间特征，再将以上空间特征进行合并，并搭建时间注意力网络，该网络模型的输入是合并后的空间特征，能输出结合了时间特征和空间特征的向量，再通过分类层输出最后的分类结果，最后与标签进行计算得到损失，不断训练优化使损失降到最小，得到最佳的分类模型作为基于时空注意力模型的多相期CT图像分类系统。

本发明采用的技术方案具体如下：

一种基于时空注意力模型的多相期CT图像分类系统，包括：

数据获取单元，用于获取待分类患者的s个相期的CT图像；

第一嵌入层网络单元，包括s个第一嵌入层网络，第一嵌入层网络分别用于将每个相期CT图像分割成多个图像块并分别将每个图像块展平为图像块向量，再将所有图像块向量与类别标记向量合并后与同维度位置向量相加获得对应相期的CT图像的嵌入向量；

空间注意力单元，包括s个空间注意力网络，每个空间注意力网络包括L1层第一多头注意力网络MSA、L1层第一多层感知机和一层第一归一化层，其中L1层第一多头注意力网络MSA和L1层第一多层感知机依次交错连接，所述第一多头注意力网络MSA包括多个自注意力模块SA、一个拼接层，其中，自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q_1i，关键字矩阵K_1i和值矩阵V_1i，并依据三个不同的查询矩阵Q_1i，关键字矩阵K_1i和值矩阵V_1i生成输入向量中每个向量之间的注意力函数，i=1,2…，表示空间注意力单元中第i个自注意力模块SA；拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终空间注意力函数；将最终空间注意力函数与输入向量相加作为对应下一层多层第一感知机的输入向量；

该网络通过多头注意力模块能够相互对比不同向量之间的联系，将关键的地方进行加强。

所述第一多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第一多头注意力网络MSA的输入；其中，第一层第一多头注意力网络MSA的输入向量为嵌入向量；第一归一化层用于对最后一层第一多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化并作为对应相期的CT图像的空间特征；

第二嵌入层网络单元，包括1个第二嵌入层网络，用于将s个空间注意力网络输出的s个对应相期的CT图像的空间特征合并后与类别标记向量结合获得嵌入层向量；

时间注意力单元，包括1个时间注意力网络，时间注意力网络包括L2层第二多头注意力网络MSA、L2层第二多层感知机和一层第二归一化层，其中L2层第二多头注意力网络MSA和L2层第二多层感知机依次交错连接，所述第二多头注意力网络MSA包括多个自注意力模块SA、一个拼接层，其中，自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q_2j，关键字矩阵K_2j和值矩阵V_2j，并依据三个不同的查询矩阵Q_2j，关键字矩阵K_2j和值矩阵V_2j生成输入向量中每个向量之间的注意力函数；拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终时间注意力函数；j=1,2…，表示时间注意力单元中第j个自注意力模块SA；将最终时间注意力函数与输入向量相加作为对应下一层第二多层感知机的输入向量；所述第二多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第二多头注意力网络MSA的输入；其中，第一层第二多头注意力网络MSA的输入向量为第二嵌入层网络单元输出的嵌入层向量；第二归一化层用于对最后一层第二多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化获得具有空间特征和时间特征的向量；

分类层单元，包括分类层，用于依据具有空间特征和时间特征的向量获得分类结果。

进一步地，s大于等于2，s个相期的CT图像具体包括：平扫期CT图像、动脉期CT图像、门静脉期CT图像和延迟期CT图像中的至少两种。

进一步地，所述嵌入向量具体为：

X ₀= [X _class; X ¹ _p; X ² _p…X ^N _p]+ X _pos

其中，X _class表示类别标记向量，X _pos表示位置向量，X _p表示线性化后的图像块向量，N表示分割后的图像块数量。

进一步地，所述依据三个不同的查询矩阵Q_1i，关键字矩阵K_1i和值矩阵V_1i生成输入向量中每个向量之间的注意力函数，具体为：

其中，d _k表示关键字矩阵K_1i中每个关键字向量k的维度；softmax（）是softmax函数。

同理，所述依据三个不同的查询矩阵Q_2j，关键字矩阵K_2j和值矩阵V_2j生成输入向量中每个向量之间的注意力函数，具体为：

其中，d _k表示关键字矩阵K_2j中每个关键字向量k的维度；softmax（）是softmax函数。

进一步地，所述第一多头注意力网络MSA、第二多头注意力网络MSA的输入向量为：

LN表示归一化方法，x _l表示第一多头注意力网络MSA或第二多头注意力网络MSA的输入向量，MLP（）表示对应的第一多层感知机或第二多层感知机的输出，x’_l-1表示第l-1层第一多层感知机或第二多层感知机的输入向量。

进一步地，所述第一多层感知机、第二多层感知机的输入向量为：

LN表示归一化方法，x’_l表示第一多层感知机或第二多层感知机的输入向量，MSA（）表示对应的第一多头注意力网络MSA或第二多头注意力网络MSA的输出，x _l表示第l层第一多头注意力网络MSA或第二多头注意力网络MSA的输入向量。

一种基于时空注意力模型的多相期CT图像分类系统的构建方法，包括：

收集样本构建数据集，所述数据集的每个样本包括一个患者的s个相期的CT图像；

构建上述基于时空注意力模型的多相期CT图像分类系统，并将数据集中每个样本作为系统的输入，以系统输出的分类结果与分类标签的误差最小化为目标进行训练，获得所述基于时空注意力模型的多相期CT图像分类系统。

本发明的有益效果是：

（1）本发明提出了一种基于时空注意力模型的多相期CT图像分类系统，包含两种注意力网络：空间注意力网络和时间注意力网络。空间注意力网络可以提取CT图像的空间特征，而时间注意力网络可以提取不同相期CT图像之间的联系，在各相期CT之间加强了全局注意力。

（2）本发明对需要依据多相期CT图像进行诊断的各类疾病具有普适性，更有效地利用不同相期的病灶特征，增强时间上的联系，摒弃了以传统的卷积神经网络为主要模型的设计，通过注意力机制，能够将更多的计算投入到重点区域，以获取更多所需要关注目标的细节信息，从而抑制其他无用信息，减少计算的冗余和延迟，易于更短的时间内实现对CT图像的诊断，使诊断精度更高且诊断效果更稳定。

附图说明

图1是本发明一种基于时空注意力模型的多相期CT图像分类系统的结构图；

图2是本发明一种基于时空注意力模型的多相期CT图像分类系统的分类流程图；

图3是本发明一种基于时空注意力模型的肝癌多相期CT图像分类系统的构建方法流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。

在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明的核心思想在于提出了一种基于时空注意力模型的多相期CT图像分类系统及构建方法，解决现有的基于传统卷积神经网络无法将多相期CT图像结合起来处理的问题。需要指出的是，本发明的多相期CT图像包括临床上正常扫描的CT图像和注射造影剂后扫描的增强CT图像，其中，正常扫描的CT图像为平扫期CT图像，注射造影剂后扫描的增强CT图像包括动脉期、门静脉期、延迟期的CT图像。

本发明的一种基于时空注意力模型的多相期CT图像分类系统，如图1所示，包括：

数据获取单元，用于获取待分类患者的s个相期的CT图像；

第一嵌入层网络单元，包括s个第一嵌入层网络，第一嵌入层网络分别用于将每个相期CT图像分割成多个图像块并分别将每个图像块展平为图像块向量，再将所有图像块向量与类别标记向量合并后与同维度位置向量相加获得对应相期的CT图像的嵌入向量；其中，每个相期CT图像的大小为

， H和W为单张CT图像的长度和宽度，而C为CT图像层数。分割后的图像块的大小为P×P×C，P为分割后的图像块的长度和宽度；每个图像块通过卷积层展平为图像块向量，并线性投影为嵌入向量X ₀，嵌入向量X ₀为：

X ₀= [X _class; X ¹ _p; X ² _p…X ^N _p]+ X _pos, X _p∈R ^1×D, X _pos∈R ^(1+N)×D （1）

其中，X _class表示类别标记向量，X _pos表示位置向量，X _p表示线性化后的图像块向量，N表示分割后的图像块数量，N=HW/P ²。D为卷积层的卷积核个数，通过卷积层后的图像块向量与可学习的类别标记向量合并，能够聚集整个标记向量的表征信息，再与可学习的同维度位置向量相加，可增强数据信息。

空间注意力单元，包括s个空间注意力网络，每个空间注意力网络包括L1层第一多头注意力网络MSA、L1层第一多层感知机和一层第一归一化层，其中L1层第一多头注意力网络MSA和L1层第一多层感知机依次交错连接，所述第一多头注意力网络MSA包括多个自注意力模块SA、一个拼接层，其中，自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q_1i，关键字矩阵K_1i和值矩阵V_1i，具体地，首先将输入向量转换为三个不同的向量：查询向量q、关键字向量k和值向量v，其中查询向量q是用来与其他向量匹配，关键字向量k被匹配，而值向量v表示被提取的信息，q、k、v三类向量通过可学习的矩阵与输入向量相乘得到。考虑到嵌入向量是多维度的关系，从全局的角度进行表示，表示如下：

Q_1i = XW _1i ^Q，K_1i = XW _1i ^K，V_1i= XW _1i ^V（2）

其中，W _1i ^Q，W _1i ^K，W _1i ^V表示第i个可训练的权重矩阵，X表示输入向量。

依据三个不同的查询矩阵Q_1i，关键字矩阵K_1i和值矩阵V_1i生成输入向量中每个向量之间的注意力函数；具体地，将查询向量q和每个关键字向量k互相点乘，将点乘后的积除以关键字向量k的维度的开方，经过softmax层与值向量v相乘并求和，其中softmax函数是将输入到的值映射到(0,1)这个区间。输入向量之间的注意函数计算如下：

（3）

其中，d _k表示关键字矩阵K_1i中每个关键字向量k的维度；softmax（）是softmax函数，head _1i表示第i个自注意力模块SA的输出。

拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终空间注意力函数，表示如下：

MSA( )=Concat(head ₁₁,…, head _1i,…) W ₁ ^O（4）

MSA( )是空间注意力网络的输出，W ₁ ^O是可训练的权重矩阵。

该网络通过多头注意力模块能够相互对比不同向量之间的联系，将关键的地方进行加强。在第一多头注意力网络MSA的基础上使用第一多层感知机MLP，MLP表示有Gelu函数作为非线性层的多层感知机，其中，Gelu函数是一种高性能的神经网络激活函数，因为它的非线性变化是一种符合预期的随机正则变换方式。具体地，将最终空间注意力函数与输入向量相加作为对应下一层第一多层感知机的输入向量：

（5）

LN表示归一化方法，x’_l表示第一多层感知机的输入向量，MSA（）表示第一多头注意力网络的输出，x _l表示第l层第一多头注意力网络的输入向量。

所述第一多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层多头注意力网络MSA的输入向量：

（6）

MLP（）表示第一多层感知机的输出，x’_l-1表示第l-1层第一多层感知机的输入向量。

其中，第一层第一多头注意力网络MSA的输入向量为嵌入向量，即x ₁= X ₀；第一归一化层用于对最后一层第一多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化并作为对应相期的CT图像的空间特征：

（7）

x ⁰ _L表示通过所有编码层后的x _L的第一维度的数据，L=2L1。

对于平扫期、动脉期、门静脉期和延迟期的CT图像，分别得到对应的平扫期、动脉期、门静脉期和延迟期的CT图像的空间特征；

第二嵌入层网络单元，包括1个第二嵌入层网络，用于将s个空间注意力网络输出的s个对应相期的CT图像的空间特征合并后与类别标记向量结合获得嵌入层向量x：

x =[ X _class; x _space], x _space∈R ^s×D, X _class ∈R ^1×D （8）

其中，x _space表示合并后的空间特征。

时间注意力单元，包括1个时间注意力网络，时间注意力网络结构及功能与空间注意力网络结构相同，具体包括L2层第二多头注意力网络MSA、L2层第二多层感知机和一层第二归一化层，其中L2层第二多头注意力网络MSA和L2层第二多层感知机依次交错连接，所述第二多头注意力网络MSA包括多个自注意力模块SA、一个拼接层，其中，自注意力模块SA按照公式（2）将归一化的输入向量转换为三个不同的查询矩阵Q_2j，关键字矩阵K_2j和值矩阵V_2j，并依据三个不同的查询矩阵Q_2j，关键字矩阵K_2j和值矩阵V_2j按照公式（3）生成输入向量中每个向量之间的注意力函数，j是时间注意力单元中自注意力模块SA的索引；拼接层用于按照公式（4）拼接每个自注意力模块SA输出的注意力函数获得最终时间注意力函数；按照公式（5）将最终时间注意力函数与输入向量相加作为对应下一层第二多层感知机的输入向量；按照公式（6）第二多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第二多头注意力网络MSA的输入向量；其中，第一层第二多头注意力网络MSA的输入向量为第二嵌入层网络单元输出的嵌入层向量；第二归一化层用于对最后一层第二多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化获得具有空间特征和时间特征的向量x _time；

分类层单元，包括分类层W，用于依据具有空间特征和时间特征的向量获得分类结果Prob：

Prob=W（x _time ^T）（9）

Prob 𝜖R ^C代表分类的概率分布，C表示类的总数。

图2为本发明基于时空注意力模型的多相期CT图像分类系统的分类流程图，具体地为：

将数据获取单元获取的待分类患者的s个相期的CT图像输入至第一嵌入层网络单元，每个第一嵌入层网络将对应的单相期CT图像分割成多个图像块并分别将每个图像块展平为图像块向量，再将所有图像块向量与类别标记向量合并后与同维度位置向量相加获得对应相期的CT图像的嵌入向量；

将获得的对应相期的CT图像的嵌入向量输入至空间注意力单元中对应的空间注意力网络获得对应相期的CT图像的空间特征；

将s个空间注意力网络输出的s个对应相期的CT图像的空间特征输入至第二嵌入层网络单元，合并s个对应相期的CT图像的空间特征后与类别标记向量结合堆叠构成嵌入层向量；

将嵌入层向量输入至时间注意力单元，获得具有空间特征和时间特征的向量，最后将获得具有空间特征和时间特征的向量输入至分类层单元，输出最终分类结果。

本发明系统是基于不同肿瘤类别或亚型在CT图像中的差异实现CT图像的分类，进一步实现肿瘤分型/分期的诊断分类。本发明系统可以用于两种或者多种肿瘤的分类，具体取决于系统的构建方法。如肝癌一般可分为原发性和继发性两大类。原发性肝脏恶性肿瘤起源于肝脏的上皮或间叶组织，继发性或称转移性肝癌系指全身多个器官起源的恶性肿瘤侵犯至肝脏。一般多见于胃、胆道、胰腺、结直肠、卵巢、子宫、肺、乳腺等器官恶性肿瘤的肝转移。

图3示出为本发明一种基于时空注意力模型的多相期肝癌CT图像分类系统的构建方法流程图，该方法具体包括：

（1）收集样本构建数据集，所述数据集的每个样本包括一个患者的s个相期的肝癌CT图像；

以对肝癌CT图像进行肝细胞癌和肝内胆管细胞癌的二分类为例，其中，肝细胞癌(hepatocellular carcinoma，HCC)是一种高死亡率的原发性肝癌，肝内胆管细胞癌（intrahepatic cholangiocarcinoma ICC）是指起源于二级胆管及其分支上皮的腺癌，是发病率仅次于肝细胞肝癌的肝脏原发恶性肿瘤。收集共有400例样本，其中HCC样本200例，ICC样本200例，所有样本的标注均由专业医学影像科医生完成，具体如下：

（1.1）首先从医院收集肝癌患者的平扫期肝部CT图像和增强CT图像（动脉期、门静脉期、延迟期的肝部CT图像），通过数据筛查，挑选出具有完整研究信息的患者数据，通过数据脱敏技术，去除患者的个人敏感信息，有利于保护患者的隐私以及提高数据的保密性，最终收集到HCC和ICC患者共400例肝部CT图像以及对应的肝功能检测报告，其中HCC患者200例，ICC患者200例，根据所属类别进行标注，HCC患者标注为1，ICC患者标注为0。

（1.2）由专业医学影像科医生将四相期肝部CT图像中的病灶部分标记并分割出来，构建获得数据集。

进一步地，由于患者的个体性差异，检验科医生对不同的患者可能设置不同的扫描次数，使得原始的CT图像中的切片数量不同，为了研究的便利性，因此统一定义每个相期CT图像的大小以及张数。在本实施例中，将每个样本的肝部CT图像大小处理为64×128×128×4，其中64表示每个相期的肝部CT图像层数，128和128表示每张肝部CT图像的长和宽，4表示四个相期；

进一步地，数据增强，在数据不够多的情况下，让数据产生更多的价值，输入为已完成数据预处理的四相期肝部CT图像，进行随机旋转、随机翻转等操作，补充数据集的样本。

（2）构建前述基于时空注意力模型的多相期CT图像分类系统，包括数据获取单元、第一嵌入层网络单元、空间注意力单元、第二嵌入层网络单元、时间注意力单元和分类层单元。并将数据集中每个样本作为系统的输入，以系统输出的分类结果与分类标签的误差最小化为目标进行训练，以二值交叉熵损失函数计算系统输出的分类结果与分类标签的误差为例，表示如下：

Loss = -ylog(Prob)-(1-y)log(1- Prob) （10）

其中，y∈{0,1}，0表示ICC患者，1表示HCC患者。

使用随机梯度下降算法对整个系统进行优化，目标是找到最小的误差损失，最终得到最佳分类模型。在本实施例中，使用Adam随机优化算法进行梯度的反向传播与优化，学习率设置为0.0001，最终获得实现肝细胞癌和肝内胆管细胞癌二分类的基于时空注意力模型的多相期CT图像分类系统。

本发明的方法对需要依据多相期CT图像进行诊断的各类疾病具有普适性，更有效地利用不同相期的病灶特征，增强时间上的联系，摒弃了以传统的卷积神经网络为主要模型的设计，通过注意力机制，能够将更多的计算投入到重点区域，以获取更多所需要关注目标的细节信息，从而抑制其他无用信息，减少计算的冗余和延迟，易于更短的时间内实现对CT图像的诊断，使诊断精度更高且诊断效果更稳定。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于时空注意力模型的多相期CT图像分类系统，其特征在于，包括：

数据获取单元，用于获取待分类患者的s个相期的CT图像；

空间注意力单元，包括s个空间注意力网络，每个空间注意力网络包括L1层第一多头注意力网络MSA、L1层第一多层感知机和一层第一归一化层，其中L1层第一多头注意力网络MSA和L1层第一多层感知机依次交错连接，所述第一多头注意力网络MSA用于生成最终空间注意力函数，将最终空间注意力函数与输入向量相加作为对应下一层第一多层感知机的输入向量；所述第一多层感知机对归一化的输入向量编码后与所述第一多层感知机的输入向量相加作为对应下一层第一多头注意力网络MSA的输入；其中，第一层第一多头注意力网络MSA的输入向量为嵌入向量；第一归一化层用于对最后一层第一多层感知机输出的向量与所述第一多层感知机的输入向量相加后的向量的第一维度向量进行归一化并作为对应相期的CT图像的空间特征；

时间注意力单元，包括1个时间注意力网络，时间注意力网络包括L2层第二多头注意力网络MSA、L2层第二多层感知机和一层第二归一化层，其中L2层第二多头注意力网络MSA和L2层第二多层感知机依次交错连接，所述第二多头注意力网络MSA用于生成最终时间注意力函数，将最终时间注意力函数与输入向量相加作为对应下一层第二多层感知机的输入向量；所述第二多层感知机对归一化的输入向量编码后与其输入向量相加作为对应下一层第二多头注意力网络MSA的输入；其中，第一层第二多头注意力网络MSA的输入向量为第二嵌入层网络单元输出的嵌入层向量；第二归一化层用于对最后一层第二多层感知机输出的向量与其输入向量相加后的向量的第一维度向量进行归一化获得具有空间特征和时间特征的向量；

分类层单元，包括分类层W，用于依据具有空间特征和时间特征的向量获得分类结果Prob=W（x _time ^T）；其中，Prob 𝜖R ^C代表分类的概率分布，C表示类的总数。

2.根据权利要求1所述的系统，其特征在于，s大于等于2，s个相期的CT图像具体包括：平扫期CT图像、动脉期CT图像、门静脉期CT图像和延迟期CT图像中的至少两种。

3.根据权利要求1所述的系统，其特征在于，所述嵌入向量具体为：

X ₀= [X _class; X ¹ _p; X ² _p…X ^N _p]+ X _pos

4.根据权利要求1所述的系统，其特征在于，所述多头注意力网络MSA包括多个自注意力模块SA、一个拼接层，其中，自注意力模块SA用于将归一化的输入向量转换为三个不同的查询矩阵Q，关键字矩阵K和值矩阵V，并依据三个不同的查询矩阵Q，关键字矩阵K和值矩阵V生成输入向量中每个向量之间的注意力函数：

其中，d _k表示关键字矩阵K中每个关键字向量k的维度；softmax（）是softmax函数；

拼接层用于拼接每个自注意力模块SA输出的注意力函数获得最终空间或时间注意力函数。

5.根据权利要求1所述的系统，其特征在于，所述第一多头注意力网络MSA、第二多头注意力网络MSA的输入向量为：

6.根据权利要求1所述的系统，其特征在于，所述第一多层感知机、第二多层感知机的输入向量为：

7.一种基于时空注意力模型的多相期CT图像分类系统的构建方法，其特征在于，包括：

构建权利要求1-6任一项所述基于时空注意力模型的多相期CT图像分类系统，并将数据集中每个样本作为系统的输入，以系统输出的分类结果与分类标签的误差最小化为目标进行训练，获得所述基于时空注意力模型的多相期CT图像分类系统。