CN110136108B

CN110136108B - 一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法

Info

Publication number: CN110136108B
Application number: CN201910379311.6A
Authority: CN
Inventors: 翟运开; 赵杰; 陈昊天; 甘富文; 石金铭; 陈保站; 卢耀恩; 曹明波
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2022-09-13
Anticipated expiration: 2039-05-08
Also published as: CN110136108A

Abstract

本发明公开了一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，属于大数据技术领域，建立影像数据库服务器、医生客户端服务器、第一辅助服务器和第二辅助服务器，解决了全面的提取重要的影响特征，进行特征去冗余，提高结果准确度的技术问题，本发明辅助系统的分类结果比较准确，可以作为医生诊断的重要参考信息，同时本发明可以循环迭代更新，随着数据量的增多，准确率会越来越高。

Description

一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法

技术领域

本发明属于大数据技术领域，尤其涉及一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法。

背景技术

目前对于乳腺癌的诊断主要依靠医生的临床经验，很多医院的医生水平有限，不能对患者的病情进行准确的判断，这会延误病人的治疗，如果借助影像组学的方法对乳腺癌的MRI图像进行分析，从而对病人的病情进行较为准确的判断，将大大减轻医生的压力，帮助医生制定治疗方案。

然而采用影像组学的方法其在对MRI图像进行分析会产生大量的特征冗余，其结果准确度低。

发明内容

本发明的目的是提供一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，解决了全面的提取重要的影响特征，进行特征去冗余，提高结果准确度的技术问题。

为实现上述目的，本发明采用如下技术方案：

一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，包括如下步骤：

步骤1：建立影像数据库服务器、医生客户端服务器、第一辅助服务器和第二辅助服务器，影像数据库服务器、医生客户端服务器、第一辅助服务器和第二辅助服务器之间均通过互联网通信；

影像数据库服务器用于存储所有病人的乳腺MRI图像；

步骤2：医生通过医生客户端服务器读取影像数据库服务器中的病人的乳腺MRI图像；

医生在医生客户端服务器上对病人的乳腺MRI图像进行肿瘤区域分割，医生客户端服务器将分割后的病人的乳腺MRI图像保存为分割文件，并将分割文件传送给数据库服务器进行存储；

数据库服务器将分割文件和病人的乳腺MRI图像归类存储在同一个文件夹中，生成病人数据包；

步骤3：重复执行步骤2，直到影像数据库服务器中存储的所有病人的乳腺MRI图像均生成分割文件，并生成病人数据包为止；

步骤4：第二辅助服务器调取影像数据库服务器中所有的病人数据包作为训练数据，并进行特征提取、特征选择和分类器训练，进而得到分类器模型，其具体步骤如下：

步骤A1：每一个病人数据包中包含的乳腺MRI图像均拥有2个序列，分别为T2W序列和T1C序列，T2W序列和T1C序列均包括数张图片；

步骤A2：特征提取包括使用Pyradiomics2.1.2工具中的python包对分割文件进行肿瘤最大层面的2D特征提取，2D特征包括一阶统计特征、2D形状特征、灰度共生矩阵特征和灰度游程长度矩阵纹理特征；

同时对一阶统计特征和灰度游程长度矩阵纹理特征进行小波变换；

步骤A3：特征选择包括对所述2D特征进行Box-Cox变换，使得偏态分布更接近于正态分布；

对所述2D特征进行全局归一化z-score标准化，生成数据集，经过处理后的2D特征值均值为0，标准差为1；

采用Scikitlearn工具中的分层抽样的方法对数据集进行划分，分成训练样本和测试样本，训练集样本为N例，测试集样本为M例，N 取值为正整数，M取值为正整数，指定一个用于保证试验的可重复性的随机数种子，随机数种子的选取只是为了保证每次分层抽样的结果不变，随机数种子的取值数由用户自由选取；

对训练样本和测试样本的2D特征值进行曼-惠特尼U检验，选取 p值小于0.10的特征；

在单参数情况下，使用曼-惠特尼U检验单独评估每个2D特征值的预测值，在youden系数最大化时记录每个2D特征值的AUC值；

使用最大相关最小冗余的特征选择算法进行2D特征值的筛选，即，采用Survcomo程序包，将每个2D特征值得出的mRMR值按照由大到小的顺序进行排序；

选取mRMR排名前30的2D特征值，通过基于AIC的后退法减少 2D特征值，知道最后剩余20个2D特征值；

步骤A4：分类器训练包括分别对T1C序列、T2W序列和T1C序列 +T2W序列进行训练，使用SVM分类器进行模型训练：

采用支持向量机训练分类模型，得出最优模型，分类决策函数为以下公式：

其中，k(x,y)＝h(x)·h(y)为核函数，用于将样本数据映射到线性可分离的高维空间；

通过选择合适的核函数k(x,y)和惩罚系数，构造并找到最优解a_i*，其中b_i*的值通过任意一个支持向量求得；用四种核函数进行训练，这四种核函数包括线性核函数Linear、多项式核函数Poly、径向基核函数RBF和Sigmoid核函数Sigmoid，训练模型在验证数据集上进行验证，最后选出效果最好的SVM模型，作为最优模型；

步骤5：第二辅助服务器将最优模型传送给影像数据库服务器进行存储器；

步骤6：医生通过医生客户端服务器将就诊病人的MRI图像输入到影像数据库服务器；

影像数据库服务器根据步骤2的方法生成病人数据包；

第一辅助服务器从影像数据库服务器中调取病人数据包，第一辅助服务器根据步骤A1到步骤A3的方法对病人数据包进行特征提取、特征选择和分类器训练，并调取第二辅助服务器所得出的最优模型，进行肿瘤良恶性的数据统计，生成特征数据统计表；

步骤7：第一辅助服务器将特征数据统计表发送给医生客户端服务器并展示给医生进行参考。

优选的，在执行步骤1时，影像数据库服务器中的病人的乳腺MRI 图像均为dicom图像数据。

优选的，在执行步骤2时，所述分割文件为mha文件。

本发明所述的一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，解决了全面的提取重要的影响特征，进行特征去冗余，提高结果准确度的技术问题，本发明辅助系统的分类结果比较准确，可以作为医生诊断的重要参考信息，同时本发明可以循环迭代更新，随着数据量的增多，准确率会越来越高。

附图说明

图1是本发明的流程图图；

图2是本发明的影像组学基本流程图；

图3是本发明的最优模型的数学模型图。

具体实施方式

如图1-图3所示的一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，包括如下步骤：

影像数据库服务器用于存储所有病人的乳腺MRI图像；

肿瘤区域全部由影像科的专业医生在ITK-SNAP上进行勾画，并由另一位医生进行重新检查，保证了肿瘤区域的准确性。

本实施例采用2017-2018年的300例病人的乳腺MRI图像作为样本进行训练，其中训练集200例，测试集100例，正负样本比例为1： 1。每个病人拥有两个序列，分别为T2W和T1C，其中每个病人有T2W 图片24张，T1C图片132张，T2W和T1C是核磁共振的两个序列，分别代表T2增强和T1增强

本实施中，使用Pyradiomics2.1.2的python包进行肿瘤最大层面的2D特征提取，其中

一阶统计特征17个包括Energy、Total Energy、Entropy、Minimum、 10thPercentile、90th Percentile、Maximum、Mean、Median、Interquartile Range、Range、MAD、rMAD、RMS、Standard Deviation、Kurtosis、 Uniformity。

一阶统计特征的含义如表1所示：

编号	名称	含义
			1	Energy	能量
2	Total Energy	总能量
			3	Entropy	熵
4	Minimum	最小值
			5	10th Percentile	第十百分位数
6	90th Percentile	第九十百分位数
			7	Maximum	最大值
8	Mean	均值
			9	Median	中位数
10	Interquartile Range	四分位数范围
			11	Range	区域大小
12	MAD	平均绝对偏差
			13	rMAD	稳定平均绝对偏差
14	RMS	均方根
			15	Standard Deviation	标准偏差
16	Kurtosis	峰态
			17	Uniformity	一致性

表1

其中Energy能量是图像中体素值的大小的度量，值越大意味着这些值的平方和越大。

2D形状特征10个包括：Mesh Surface、Pixel Surface、Perimeter、 Perimeter toSurface Ratio、Sphericity、Spherical Disproportion、 Maximum 2D diameter、MajorAxis Length、Minor Axis Length、 Elongation。

2D形状特征的含义如表2所示：

编号	名称	含义
			1	Mesh Surface	网格面积
2	Pixel Surface	像素面积
			3	Perimeter	周长
4	Perimeter to Surface Ratio	周长与面积比
			5	Sphericity	球形度
6	Spherical Disproportion	球形比例
			7	Maximum 2D diameter	最大2D直径
8	Major Axis Length	主轴长度
			9	Minor Axis Length	小轴长度
10	Elongation	伸长率

表2

灰度共生矩阵特征(GLCM)26个包括：Autocorrelation、Joint Average、ClusterProminence、Cluster Shade、Cluster Tendency、Contrast、 Correlation、DifferenceEntropy、Difference Variance、Joint Energy、Joint Entropy、DEPRECATED.Homogeneity1、DEPRECATED.Homogeneity2、 I MC1、IMC2、IDM、MCC、IDMN、Inverse Difference、I DN、I nverse Variance、Maximum Probability、Sum Average、DEPRECATED.Sum Variance、Sum Entropy、Sum of Squares。

灰度共生矩阵特征的含义如表3所示：

编号	名称	含义
			1	Autocorrelation	自相关
2	Joint Average	联合平均数
			3	Cluster Prominence	聚类突出
4	Cluster Shade	聚类阴影
			5	Cluster Tendency	聚类趋势
6	Contrast	对比
			7	Correlation	相关性
8	Difference Entropy	差异熵
			9	Difference Variance	差异方差
10	Joint Energy	联合能量
			11	Joint Entropy	联合熵
12	DEPRECATED.Homogeneity1	同质性1
			13	Homogeneity2	同质性2
14	IMC1	信息相关度量1
			15	IMC2	信息相关度量2
16	IDM	逆差均值
			17	MCC	最大相关系数
18	IDMN	逆差分矩归一化
			19	Inverse Difference	逆差
20	IDN	逆差归一化
			21	Inverse Variance	反方差
22	Maximum Probability	最大概率
			23	Sum Average	总和平均值
24	Sum Variance	总和方差
			25	Sum Entropy	熵的和
26	Sum of Squares	平方和

表3

灰度游程长度矩阵文理特征(GLRLM)13个包括：SRE、LRE、GLM、 RLN、PR、LGRE、HGRE、SRLGE、SRHGE、LRLGE、LRHGE、GLV、RLV。

灰度游程长度矩阵文理特征的含义如表4所示：

编号	名称	含义
			1	SRE	短期强调
2	LRE	长期强调
			3	GLN	灰度不均匀性
4	RLN	运行长度不均匀性
			5	PR	运行百分比
6	RE	运行熵
			7	HGLRE	高灰度级运行强调
8	SRLGLE	短期低灰度级运行强调
			9	SRHGE	短期高灰度级强调
10	LRLGLE	长期低灰度级强调
			11	LRHGLE	长期高灰度强调
12	GLV	灰度变化
			13	RV	运行方差

表4

对一阶统计特征和纹理特征(GLRLM)进行小波变换，小波变换为现有技术故不详细叙述。

通过Pyradiomics和小波变换，在MRI图像上一共提取了274个特征。

其中，x_i为输入数据，x为函数系数，y_i为每个函数的权重， k(x,y)＝h(x)·h(y)为核函数，用于将样本数据映射到线性可分离的高维空间；

影像数据库服务器根据步骤2的方法生成病人数据包；

优选的，在执行步骤2时，所述分割文件为mha文件。

Claims

1.一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，其特征在于：包括如下步骤：

影像数据库服务器用于存储所有病人的乳腺MRI图像；

采用Scikitlearn工具中的分层抽样的方法对数据集进行划分，分成训练样本和测试样本，训练集样本为N例，测试集样本为M例，N取值为正整数，M取值为正整数，指定一个用于保证试验的可重复性的随机数种子，随机数种子的选取只是为了保证每次分层抽样的结果不变，随机数种子的取值数由用户自由选取；

对训练样本和测试样本的2D特征值进行曼-惠特尼U检验，选取p值小于0.10的特征；

选取mRMR排名前30的2D特征值，通过基于AIC的后退法减少2D特征值，直到最后剩余20个2D特征值；

步骤A4：分类器训练包括分别对T1C序列、T2W序列和T1C序列+T2W序列进行训练，使用SVM分类器进行模型训练：

通过选择合适的核函数k(x,y)和惩罚系数，构造并找到最优解a_i ^*，其中b_i ^*的值通过任意一个支持向量求得；用四种核函数进行训练，这四种核函数包括线性核函数Linear、多项式核函数Poly、径向基核函数RBF和Sigmoid核函数Sigmoid，训练模型在验证数据集上进行验证，最后选出效果最好的SVM模型，作为最优模型；

影像数据库服务器根据步骤2的方法生成病人数据包；

2.如权利要求1所述的一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，其特征在于：在执行步骤1时，影像数据库服务器中的病人的乳腺MRI图像均为dicom图像数据。

3.如权利要求1所述的一种采用机器学习算法对乳腺癌进行良恶性特征统计的方法，其特征在于：在执行步骤2时，所述分割文件为mha文件。