CN113743463A

CN113743463A - 一种基于影像数据和深度学习的肿瘤良恶性识别方法和系统

Info

Publication number: CN113743463A
Application number: CN202110879294.XA
Authority: CN
Inventors: 刘宏; 焦梦磊; 王向东; 钱跃良
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-12-03
Anticipated expiration: 2041-08-02
Also published as: CN113743463B

Abstract

本发明提出一种面向医学影像序列的基于深度学习的患者级肿瘤良恶性自动判别方法及系统。首先进行患者影像数据的采集和整理及标注，然后使用肿瘤区域检测模型、序列分类模型、年龄信息这三个信息模块获得不同级别下患者肿瘤良恶性的概率，最后通过多模型加权融合进行患者级肿瘤良恶性综合判别。该技术将有助于在患者早期，基于影像检测数据对肿瘤良恶性进行预判，从而制定相应的治疗方案及提升预后效果，同时也能辅助提高医生早期利用影像数据进行肿瘤良恶性诊断的准确率。

Description

一种基于影像数据和深度学习的肿瘤良恶性识别方法和系统

技术领域

本发明创造涉及图片中目标检测和识别技术领域，并特别涉及一种面向医学影像序列的基于深度学习的患者级肿瘤良恶性自动判别方法及系统。

背景技术

肿瘤是指机体在各种致瘤因子的作用下，局部组织细胞增生形成的新生物。根据新生物的细胞特性及对机体的危害性程度，又将肿瘤分为良性肿瘤和恶性肿瘤两大类。良性肿瘤绝大多数不会恶变、很少复发、生长缓慢，对机体影响比较小，但并不绝对，有些良性肿瘤依然对人体会有一定的危险，特别是长在身体要害部位的良性肿瘤同样会造成严重后果。恶性肿瘤对人体的危害更大，甚至会造成患者的死亡，恶性肿瘤具有细胞分化和增值异常、生长失去控制、浸润性和转移性等生物学特征，有些良性肿瘤如果不加以控制，也会有恶变的倾向。目前临床上，肿瘤的良恶性主要基于病理切片的病理诊断结果，属于一种有创方式，而如何在早期直接通过患者影像数据对肿瘤良恶性进行预判，及时制定相应的治疗方案对于，患者康复和预后具有非常重要的临床意义。

由于肿瘤病理的复杂性和组织的多样性，即使经验丰富的影像科医生或临床医生，也很难直接通过早期影像数据准确给出患者所患肿瘤的良恶性，往往需要依赖后期病理切片的病理诊断结果才能确定。随着计算机技术和图像处理技术的发展，基于医学图像的辅助诊断技术得到越来越多的关注。

目前大多数利用影像数据对肿瘤进行分类的方法都是基于机器学习或深度学习。基于机器学习的方法，通常使用现有医学图像分析软件，比如hCAD或PyRadiomics等，提取出病灶区域的多维特征，通过特征筛选，最后利用机器学习方法对这些特征进行良恶性的分类。基于深度学习的方法，有的先提取肿瘤区域特征，然后利用卷积神经网络或卷积长短时记忆网络来区分不同的肿瘤类型，有的直接将肿瘤区域作为输入，进行CNN等分类网络的训练和测试。

目前利用影像数据对于肿瘤进行良恶性识别的研究还较少，而且现有人工智能方法大多基于单帧图像进行肿瘤区域的检测和识别，或者直接对医生标注的肿瘤区域进行分类，缺乏对连续影像数据的有效融合。在实际临床应用上，影像科医生往往需要观察同一位患者的多张影像数据，或者参考多个序列，同时结合患者临床数据，比如年龄，或者既往病史等信息，来对患者所患的肿瘤给出一个初步的诊断结果。现有的人工智能方法对如何综合利用单帧信息，多帧信息以及临床信息，还缺乏相应的研究和有效的技术手段。

发明内容

本发明综合考虑患者的所有影像序列，并结合患者的临床信息，最终判断患者所患肿瘤的良恶性。并针对现有技术基于影像的肿瘤良恶性分类鲁棒性不高的问题，提出了一种基于影像序列和深度学习的患者级肿瘤良恶性判别方法及系统。

针对现有技术的不足，本发明提出一种基于影像数据和深度学习的肿瘤良恶性识别方法，其中包括：

步骤1、获取患者多张已标注肿瘤区域的图像作为训练数据，并将该训练数据的良性或恶性病理诊断结果作为训练目标，构建并训练单帧图像中的肿瘤区域检测模型，以及多帧序列分类模型；

步骤2、对待测试的患者，使用该肿瘤区域检测模型对该患者的所有序列的所有图像帧进行肿瘤区域检测，得到该图像帧中肿瘤区域位置信息及其良恶性概率，对该患者的每一个影像序列，基于肿瘤区域检测结果，提取包含前后图像帧的三维肿瘤区域，使用该多帧序列分类模型对该三维肿瘤区域进行良恶性分类，得到该影像序列的良恶性概率；

步骤3、根据该单帧肿瘤区域检测模型得到的肿瘤良恶性分类概率、该多帧分类模型得到的良恶性分类概率，以及该待测试患者对应的年龄分布信息，利用多信息加权融合策略得到该患者的肿瘤良恶性识别结果。

所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其中该步骤1包括：

将包含肿瘤标注区域的单帧图像作为训练数据，以肿瘤区域对应的良恶性标注信息为训练目标，训练针对单帧图像的肿瘤区域检测模型；根据该训练识别结果和该训练目标间的损失函数，迭代训练该肿瘤区域检测模型，直到该损失函数收敛或达到预设迭代次数，保存该肿瘤区域检测模型。

针对每一个影像序列，获取连续帧中具有肿瘤区域标注的三维肿瘤图像区域作为训练数据，以肿瘤区域对应的良恶性标注信息为训练目标，训练针对该三维肿瘤图像区域的多帧序列分类模型；根据该训练识别结果和该训练目标间的损失函数，迭代训练该多帧分类模型，直到该损失函数收敛或达到预设迭代次数，保存该多帧分类模型。

在将该训练数据进行数据扩充后送入该肿瘤区域检测模型，且该数据扩充包括：该训练数据中每帧影像的肿瘤区域为正样本，背景区域为负样本，随机提取影像帧中多个标注肿瘤区域的标注框，对标注框区域的宽和高进行随机尺度因子的缩放，然后将缩放后的肿瘤区域重新放置在原图中。

所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其中该肿瘤区域检测模型包括特征提取模块、特征金字塔模块、区域推荐模块和感兴趣区域提取模块；

其中该特征提取模块，用于提取训练数据的多尺度特征图；

该特征金字塔模块，用于对该多尺度特征图进行融合，融合过程包括：

a)使用一个大小为1×1，步长为1，填充为0的卷积核将该多尺度特征图统一转换为256通道；

b)从该多尺度特征图中最小尺度的特征图开始，将其依次上采样两倍并和相邻尺度的特征图相加，得到多个相加特征图；

c)使用一个大小为3×3，步长为1，填充为1的卷积核对该多个相加特征图进行卷积，以融合相加后的特征，得到多个融合特征；

该区域推荐模块，用于为该融合特征的特征图生成候选框，特征图中每个像素对应多个纵横比的候选框，计算每个候选框与所有标注框之间的交并比；如果候选框与所有标注框之间的最大交并比小于0.7，则判定候选框为负样本；如果候选框和所有标注框之间的最大交并比大于0.3，则判定该候选框为正样本；对于每个标注框，如果一个标注框与所有候选框之间的最大交并比大于0.3，则判定标注框对应的候选框为是正样本；然后对256个标有正负样本的候选框进行采样，同时根据该区域推荐模块的分类分支输出的候选框置信度，对所有候选框进行筛选，得到备选候选框；

该感兴趣区域提取模块，用于判断备选候选框与所有标注框之间的最大交并比是否小于0.5，若是则判定该备选候选框是负样本，否则判定该备选候选框为正样本，然后对候选框所对应的特征进行分类和坐标的回归。

所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其中该多帧序列分类模型的输入是肿瘤区域所构成的序列；

选择序列影像中面积最大的肿瘤区域作为该序列影像的肿瘤区域，并在训练阶段，为了扩充训练数据，每次迭代前，以预设概率按照序列顺序或者随机抽取N帧，得到N×W×H的三维肿瘤序列，其中W和H为肿瘤区域的归一化尺寸；其中在测试阶段，以序列顺序抽取N帧。

数据采集步骤，根据待良恶性识别的肿瘤类别以及影像模态，从数据库中导出患者的影像数据，作为原始数据，同时获取该原始数据对应的病理诊断结果作为该训练目标；

数据整理步骤，将该原始数据按照规则重新归纳和整理，以更加适用于后期深度模型的训练和测试，该规则包括以患者为单位进行影像数据的整合，以及对患者目录下的数据进行目录名和文件名的重命名，患者的影像数据按照Dicom文件格式存取，Dicom元数据中的一些字段作为文件夹命名的属性，同一患者不同检查所对应的文件夹命名格式如下：

Id-性别-年龄-模态-位姿-检查信息

其中Id为患者编号，性别为男或女，年龄为患者做检测时的年龄，模态为CT，MRI或者CT&MRI，位姿为轴位、矢状位或者冠状位，检查信息来自Dicom元数据Study description字段；

规则还包括将患者病理诊断结果进一步归纳为良性或者恶性两类标签，中间性的肿瘤被归为良性；规则还包括将患者数据分为训练集和测试集，且训练集和测试集中包含的患者不重叠；

数据标注步骤，在标注软件中使用矩形框对该原始数据中肿瘤区域进行标记，肿瘤的具体类别根据患者病理诊断结果获得，并将其归为良性或恶性。

所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其中该步骤3包括：

多信息加权融合策略，首先针对该测试患者的每个序列的每个图像帧得到检测模型、分类模型以及年龄信息的加权后的良恶性概率，选择概率最高的类别作为当前图像中包含的肿瘤类别；在得到每个序列中所有图像的良恶性肿瘤类别后，选择比例最大的类别作为序列类别；得到所有序列的肿瘤类别后，选择比例最大的类别作为该患者的良恶性肿瘤类别。

本发明还提出了一种基于影像数据和深度学习的肿瘤良恶性识别系统，其中包括：

模块1，用于获取患者多张已标注肿瘤区域的图像作为训练数据，并将该训练数据的良性或恶性病理诊断结果作为训练目标，构建并训练单帧图像中的肿瘤区域检测模型，以及多帧序列分类模型；

模块2，用于对待测试的患者，使用该肿瘤区域检测模型对该患者的所有序列的所有图像帧进行肿瘤区域检测，得到该图像帧中肿瘤区域位置信息及其良恶性概率，对该患者的每一个影像序列，基于肿瘤区域检测结果，提取包含前后图像帧的三维肿瘤区域，使用该多帧序列分类模型对该三维肿瘤区域进行良恶性分类，得到该影像序列的良恶性概率；

模块3，用于根据该单帧肿瘤区域检测模型得到的肿瘤良恶性分类概率、该多帧分类模型得到的良恶性分类概率，以及该待测试患者对应的年龄分布信息，利用多信息加权融合策略得到该患者的肿瘤良恶性识别结果。

所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其中该模块1包括：

所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其中该肿瘤区域检测模型包括特征提取模块、特征金字塔模块、区域推荐模块和感兴趣区域提取模块；

其中该特征提取模块，用于提取训练数据的多尺度特征图；

所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其中该多帧序列分类模型的输入是肿瘤区域所构成的序列；

数据采集模块，用于根据待良恶性识别的肿瘤类别以及影像模态，从数据库中导出患者的影像数据，作为原始数据，同时获取该原始数据对应的病理诊断结果作为该训练目标；

数据整理模块，用于将该原始数据按照规则重新归纳和整理，以更加适用于后期深度模型的训练和测试，该规则包括以患者为单位进行影像数据的整合，以及对患者目录下的数据进行目录名和文件名的重命名，患者的影像数据按照Dicom文件格式存取，Dicom元数据中的一些字段作为文件夹命名的属性，同一患者不同检查所对应的文件夹命名格式如下：

Id-性别-年龄-模态-位姿-检查信息

数据标注模块，用于在标注软件中使用矩形框对该原始数据中肿瘤区域进行标记，肿瘤的具体类别根据患者病理诊断结果获得，并将其归为良性或恶性。

所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其中该模块3包括：

由以上方案可知，本发明的优点在于：

本发明利用深度学习技术，使用肿瘤检测模型、肿瘤序列分类模型、年龄相关的良恶性分布信息，这三类信息模块，获得患者在不同级别下的肿瘤良恶性概率，最后通过多模型加权融合策略对患者的肿瘤良恶性进行综合判别。该技术将有助于在早期，基于患者影像数据直接对肿瘤的良恶性进行预判，从而制定相应的治疗方案及提升预后效果，同时也能辅助提高医生早期利用影像数据进行肿瘤良恶性诊断的准确率。

附图说明

图1为本发明基于影像的患者良恶性识别整体框架图。

具体实施方式

本发明提出了一种基于深度学习，根据影像数据以及临床信息进行患者级肿瘤良恶性判别的方法及系统。主要包括以下几个步骤：

(1)首先使用肿瘤区域检测模型对同一位患者的所有影像序列的所有图像帧进行肿瘤区域的检测和良恶性粗分类。

(2)对于患者的每一个序列，基于以上肿瘤区域检测结果，提取出一个三维的肿瘤区域序列，并使用多帧序列分类模型进行更精细化的良恶性分类。

(3)综合考虑检测模型的结果、多帧序列分类模型的结果、以及年龄相关的良恶性分布结果，利用多信息加权融合策略得到最终的患者级肿瘤良恶性识别结果。

下面结合附图1来说明本发明包含的关键点：

关键点1，数据集的采集

首先需要确定待良恶性识别的肿瘤类别，比如肝癌，肺癌，或者脊柱肿瘤等，以及影像模态，比如CT，MRI或者两个模态的数据。

然后确定需要哪些患者的数据，在医院信息系统中导出这些患者的影像数据，作为原始数据。

同时需要获取这些患者对应的病理诊断结果数据。

关键点2，数据集的整理

数据整理指将原始数据按照一定规则进行重新归纳和整理，以更加适用于后期深度模型的训练和测试。

规则包括以患者为单位进行影像数据的整合，即将同一患者不同时间段的影像检查数据合并在一个目录下。

规则还包括按照一定的命名规则对某位患者目录下的数据进行目录名和文件名的重命名。

规则还包括将患者病理诊断结果进一步归纳为良性或者恶性两类标签。

规则还包括将患者数据分为训练集和测试集。

关键点3，肿瘤区域标注

采集和整理完患者影像数据后，需要对肿瘤区域进行人工标注。可以采用交互式标注工具，由专业人员利用矩形框或者勾边方式对患者影像数据中的每个肿瘤区域进行框取或者勾画，并存储对应的肿瘤区域位置信息。

区域标注还包括如果该患者的肿瘤为良性，则该患者影像数据中人工标注的肿瘤区域，都自动标注为良性。如果该患者的肿瘤为恶性，则该患者影像数据中人工标注的肿瘤区域，都自动标注为恶性。

关键点4，模型的训练

本发明主要对两个深度网络模型进行训练，包括肿瘤区域检测模型和肿瘤序列分类模型，这两个模型独立进行训练。

肿瘤区域检测模型可以选择Faster-RCNN等模型，其训练输入数据为单帧影像以及医生标注的肿瘤区域和对应的良恶性标签。采用三分类的目标检测模型，包括背景区域类，良性肿瘤区域类和恶性肿瘤区域类。使用训练数据扩充方法提高单帧影像中的肿瘤区域数量，然后经过特征提取模块和特征空间金字塔模块进行肿瘤区域多尺度的特征提取，之后使用候选区域推荐模块为每个尺度的特征图生成肿瘤区域候选框，最后使用感兴趣区域提取模块将筛选出来的候选框所对应的特征变为尺寸一样的特征图，进行坐标的回归和特征的良恶性分类。

肿瘤序列分类模型的训练输入数据为医生标注的肿瘤区域序列，首先根据每个影像序列中医生标注的最大的肿瘤区域框的位置和尺度，提取出相邻具有肿瘤标注区域的三维肿瘤区域，对该三维肿瘤区域进行尺度的归一化处理，然后使用序列分类模型对该三维区域进行良恶性的分类训练。

关键点5，模型的测试

在进行测试的时候，首先利用训练好的肿瘤区域检测模型对患者的所有影像帧进行肿瘤区域的检测、定位和粗分类。然后根据检测到的肿瘤区域的概率值，筛选出概率高于一定阈值的肿瘤区域。然后对于患者的每个序列，基于筛选出的肿瘤区域，选择尺寸最大的肿瘤区域，依据该位置和尺寸提取出其前后帧三维肿瘤区域数据，将该数据作为输入，利用序列分类模型进一步进行肿瘤良恶性分类，得到该序列的良恶性分类概率。

关键点6，多信息融合得到患者级良恶性识别结果

利用多信息融合得到患者最终的良恶性识别结果。这些信息包括(1)肿瘤区域检测模型输出的测试集中每张图像中的肿瘤区域的良恶性粗分类概率；(2)肿瘤序列分类模型输出的每个影像序列的良恶性分类概率；(3)根据患者的年龄信息，以及训练集上的年龄分布模型，得到该患者基于年龄信息的良恶性概率。

将这三类概率结果按照一定的权重加权求和，得到每帧影像最终的良恶性概率，选择概率最高的类别作为该帧影像的良恶性类别。然后对于患者的每个序列，选择占比最大的类别作为该序列的类别，最后选择所有序列中占比最大的类别作为该患者最终的良恶性类别识别结果。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

如图1所示，本发明面向医学影像序列的基于深度学习的患者级肿瘤良恶性判别方法包含如下步骤及部件：

步骤1：数据的采集

数据采集部件101：

首先需要确定待良恶性识别的肿瘤类别，比如肝癌，肺癌，或者脊柱肿瘤等，以及影像模态，比如CT，MRI或者两个模态的数据。然后确定需要哪些患者的数据，在医院信息系统中导出这些患者的影像数据，作为原始数据。同时需要获取这些患者对应的病理诊断结果。为了保证患者的信息不被泄漏，需要对导出来的数据进行脱密处理，一般需要将患者姓名住院号等信息进行匿名化，即脱密处理。

步骤2：数据的整理

数据整理部件102：

数据整理指将原始数据按照一定规则进行重新归纳和整理，以更加适用于后期深度模型的训练和测试。规则包括以患者为单位进行影像数据的整合，即将同一患者不同时间段的影像检查数据合并在一个目录下。规则还包括按照一定的命名规则对某位患者目录下的数据进行目录名和文件名的重命名。患者的影像数据一般是按照Dicom文件格式存取，Dicom元数据中的一些字段可以作为文件夹命名的属性，同一患者不同检查所对应的文件夹命名格式如下所示：

Id-性别-年龄-模态-位姿-检查信息

包含6个属性，其中Id为患者编号，性别为男或女，年龄为患者做检测时的年龄，模态为CT，MRI或者CT&MRI，位姿为轴位、矢状位或者冠状位，检查信息来自Dicom元数据Studydescription字段。以上信息采用数字化编码的形式进行保存，比如第二属性的1代表男，0代表女。

规则还包括将患者病理诊断结果进一步归纳为良性或者恶性两类标签，中间性的肿瘤被归为良性。规则还包括将患者数据分为训练集和测试集，同时需要确保训练集和测试集中包含的患者不重叠。

步骤3：数据标注

肿瘤区域的标注部件103：

采集和整理完数据后，需要对肿瘤区域进行标注，具体实施方法为：医生观察患者的影像帧，如果存在肿瘤，则在标注软件中使用矩形框对肿瘤区域进行标记，不标记出肿瘤的具体类别，肿瘤的具体类别根据患者病理诊断结果获得，并将其归为良性或恶性。

步骤4：模型的训练

本发明包含两个需要训练的模型：肿瘤区域检测模型和肿瘤序列分类模型，并且这两个模型的训练流程是独立的。

肿瘤区域检测模型训练部件：104

在将数据送入到检测模型前，需要做一定的数据扩充，以防止模型过拟合。每帧影像中的肿瘤区域为正样本，背景区域为负样本，由于每帧影像中肿瘤数量过少，会导致正负样本不均衡，因此在模型训练阶段采用数据扩展方法，该方法会随机提取影像帧中若干个标注框对应的肿瘤区域，对区域的宽和高进行随机尺度因子的缩放，尺度因子的缩放范围为0.5至1。然后将缩放后的肿瘤区域重新放置在原图中，尽量放在组织区域，在这个过程中，计算新生成的肿瘤区域和已经生成的肿瘤区域之间的交并比IOU，避免产生区域重叠。

整个肿瘤区域检测模型包含特征提取(FEN)、特征金字塔(FPN)、区域推荐(RPN)、感兴趣区域提取(ROI)四个模块，下面将分别介绍这四个模块。

(a)FEN模块。FEN用来提取图像的特征，我们使用ResNeXt101[5]作为FEN的骨干网络进行特征提取，FEN模块共提取出五个尺度的特征图，分别对应原图的1/4，1/8，1/16，1/32，1/64。不同尺度的特征图中，每个像素对应在原图中的像素个数不同，比如，1/4尺度下的特征图中，每个像素代表原图中的4个像素，而1/32尺度下的特征图中，每个像素代表原图中的32个像素。这些不同尺度的特征图涵盖了原图中的小目标和大目标。

(b)FPN模块。由于FEN提取的不同尺度的特征图是相互独立的，没有结合全局的信息，因此使用FPN模块对这些不同尺度的特征图进行融合，具体融合方法如下：

a)首先使用一个大小为1×1，步长为1，填充为0的卷积核将这些不同尺度的特征图统一转换为256通道。

b)然后，从1/64尺度的特征图开始，将其依次上采样两倍并和相邻尺度的特征图相加，在这个过程中，将得到5个特征图M1，M2，M3，M4，M5，其中M5为1/64尺度的特征图。

c)最后，使用一个大小为3×3，步长为1，填充为1的卷积核对M1-M5进行卷积，以融合相加后的特征，得到C1-C5，并送入到RPN模块。

(c)RPN模块。RPN模块会为C1-C5生成一定数量的候选框。这里以某个尺度特征为例介绍RPN中候选框的生成过程。在RPN中，候选框生成器负责为当前尺度的特征图生成大量的候选框。每个像素将对应三个纵横比(0.5、1、2)的候选框。假设特征图有N个像素，最终会生成3N个候选框。这些候选框生成后，需要指定这些候选框是正样本还是负样本。首先，计算每个候选框与所有标注框之间的IOU值。如果候选框与所有标注框之间的最大IOU值小于0.7，则认为候选框为负样本。如果候选框和所有标注框之间的最大IOU值大于0.3，则该候选框被认为是一个正样本。对于每个标注框，如果一个标注框与所有候选框之间的最大IOU大于0.3，则标注框对应的候选框也被认为是正样本。然后对256个标有正负样本的候选框进行采样，其中128个为正样本，128个为负样本，用于在RPN模块的训练过程中平衡正负样本。在训练阶段，只有这些被采样到的候选框参与损失函数的计算。同时根据RPN的分类分支输出的候选框置信度，在每个尺度的输出层使用非极大值抑制(NMS)选择2000个候选框。最后使用NMS从整幅图像中保留1000个候选框并送入到后面的ROI模块，其中NMS的阈值为0.7。

(d)ROI模块。ROI用于调整候选框的大小来固定尺寸。ROI模块从RPN接收1000个候选框。在训练阶段，就像在RPN阶段获取正负样本一样，利用标注框来标记1000个候选框的正负性。如果候选框与所有标注框之间的最大IOU值小于0.5，则认为是负样本。如果候选框与所有标注框之间的最大IOU值大于0.5，则认为该样本为正样本。如果标注框与所有候选框之间的最大IOU值大于0.5，则认为标注框对应的候选框为正样本。之后一共采样512个样本，包括256个正样本和256个负样本，用于在计算损失函数时平衡正负样本的数量。然后将512个候选框映射到FPN模块输出的不同尺度特征图上，提取出相应的特征。这些固定大小的特征分别发送到分类分支和回归分支进行候选框预测和回归。

经过检测模型之后，对于给定的单帧影像，将获得其中肿瘤的区域和对应区域的良恶性概率。

基于序列的肿瘤良恶性分类模型训练部件：105

肿瘤序列分类模型的输入是医生标注的多帧仅包含肿瘤区域的图像序列。在训练阶段，肿瘤区域是医生标注的区域。对于同一个序列中的影像，如果存在影像有肿瘤区域，则找出面积最大的区域作为该序列的肿瘤区域，并以此为基础，得到序列中该区域所对应的一个三维肿瘤区域序列。分类模型要求数据的输出尺寸固定，需要对肿瘤序列进行抽帧或者补充帧。在训练阶段，每次迭代前，为了做数据扩充，以50％的概率按照序列顺序抽取N帧，以50％的概率随机抽取N帧。最后将会得到N×W×H的单个三维肿瘤序列，将多个三维肿瘤序列形成B×N×W×H尺寸的数据一块送入分类模型并行进行训练。实验中，N是序列帧数，可以取16。由于不同序列中肿瘤区域大小可能不一致，需要将获取的肿瘤区域序列的尺寸进一步归一化为W×H，W和H为肿瘤区域的归一化尺寸，可以取112，B为Batch size，如果GPU显存为12G的话，B可以取32。

经过序列分类模型之后，对于给定的肿瘤序列，将获得其良恶性的概率。

步骤5：模型的测试

肿瘤区域检测模型测试部件：107

步骤4中的两个模型训练完毕之后，接下来对模型进行测试。首先使用肿瘤区域检测模型对患者的所有影像帧进行肿瘤的定位。然后按序列整合这些检测到的区域，得到s1,s2,s3,...,sN，其中序列i中的第j个图像表示为

中包含良性和恶性的检测区域，表示为

其中p＝0可表示良性检测区域，p＝1可表示恶性检测区域。

检测模型可能存在一些误报，需要在患者级融合前去除。我们将每个患者序列的检测框堆叠起来，只保留重叠最多的区域。重叠最多的区域作为患者序列的掩码，记为

其中i表示患者的第i个序列，p＝0表示良性区域的掩码，p＝1表示恶性区域的掩码，例如

表示患者第0个序列中良性区域的掩码，

表示患者第0个序列中恶性区域的掩码。

对于单帧图像。首先将图像中同一类别检测框对应区域的像素指定为检测框的置信度，并将这些置信度相加。然后，将图像点乘以与序列对应的掩码，如下所示：

其中

表示和第i个序列的第j张图像有着同样大小的矩阵，f表示第f个预测框。

中预测框所对应的每个像素表示预测框的置信度，其他像素值为0。最后我们可以得到这个图像的良恶性概率

和

如下所示：

基于序列的肿瘤良恶性分类模型测试部件：108

然后对于患者的每个序列，根据检测模型定位的最大肿瘤区域提取出三维肿瘤区域，以100％的概率按照序列顺序抽取N帧，形成N×W×H的三维肿瘤序列，使用序列分类模型对该三维区域进行更加精细的良恶性分类，得到每个序列的良恶性概率

其中i表示第i个序列，p＝0表示第i个序列为良性的概率，p＝1表示第i个序列为恶性的概率。

年龄相关良恶性统计模型部件：106

然后根据年龄的统计信息得到当前患者患良恶性的概率，记为T_p，p＝0表示患者患良性肿瘤的概率，p＝1表示患者患恶性肿瘤的概率。

步骤6：多信息融合得到患者级良恶性识别结果

多信息融合的患者级良恶性识别部件：109

最后，根据以上信息，同一患者图像中包含的肿瘤为良恶性的概率如下。

上述公式中，不同模型的权重用λ1、λ2和λ3表示。选择概率最高的类别作为当前图像中包含的肿瘤类别。在得到每个序列中所有图像的良恶性肿瘤类别后，选择比例最大的类别作为序列类别。得到所有序列的肿瘤类别后，也选择比例最大的类别作为患者的良恶性肿瘤类别。

步骤7：结果保存

结果输出与保存部件：110

将患者最终的良恶性识别结果进行输出，并保存在硬盘文件中，方便后续进行测试集的的结果比对，或者对新的数据进行良恶性预测。

以上实施例在训练过程中，可以选择GPU为GTX 1080Ti型号，具有12G显存，内存选择64G，CPU为E5-2640 v2。检测模型和序列分类模型都训练20个Epoch，得到满足收敛要求的检测模型和序列分类模型。该实施不仅适用于MRI数据，也适用于CT数据，不仅适用于良恶性判别，也适用于其他类别肿瘤的患者级识别和分类。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

其中该特征提取模块，用于提取训练数据的多尺度特征图；

Id-性别-年龄-模态-位姿-检查信息

Claims

1.一种基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，包括：

2.如权利要求1所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，该步骤1包括：

3.如权利要求1所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，该步骤1包括：

4.如权利要求1所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，该步骤1包括：

5.如权利要求4所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，该肿瘤区域检测模型包括特征提取模块、特征金字塔模块、区域推荐模块和感兴趣区域提取模块；

其中该特征提取模块，用于提取训练数据的多尺度特征图；

该感兴趣区域提取模块，用于判断备选候选框与所有标注框之间的最大交并比是否小于0.5，若是则判定该备选候选框是负样本，否则判定该备选候选框为正样本，并对备选候选框所对应的特征进行分类和坐标的回归。

6.如权利要求1所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，该多帧序列分类模型的输入是肿瘤区域所构成的序列；

7.如权利要求1所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，该步骤1包括：

Id-性别-年龄-模态-位姿-检查信息

8.如权利要求1所述的基于影像数据和深度学习的肿瘤良恶性识别方法，其特征在于，该步骤3包括：

9.一种基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，包括：

10.如权利要求9所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，该模块1包括：

11.如权利要求9所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，该模块1包括：

12.如权利要求9所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，该模块1包括：

13.如权利要求12所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，该肿瘤区域检测模型包括特征提取模块、特征金字塔模块、区域推荐模块和感兴趣区域提取模块；

其中该特征提取模块，用于提取训练数据的多尺度特征图；

该感兴趣区域提取模块，用于判断备选候选框与所有标注框之间的最大交并比是否小于0.5，若是则判定该备选候选框是负样本，否则判定该备选候选框为正样本。

14.如权利要求9所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，该多帧序列分类模型的输入是肿瘤区域所构成的序列；

15.如权利要求9所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，该模块1包括：

Id-性别-年龄-模态-位姿-检查信息

16.如权利要求9所述的基于影像数据和深度学习的肿瘤良恶性识别系统，其特征在于，该模块3包括：