CN111430024B

CN111430024B - 一种用于疾病程度分类的数据决策方法及其系统

Info

Publication number: CN111430024B
Application number: CN202010010514.0A
Authority: CN
Inventors: 吴嘉; 余庚花; 谭延林; 常柳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2023-07-11
Anticipated expiration: 2040-01-06
Also published as: CN111430024A

Abstract

本发明提供了一种用于疾病程度分类的数据决策方法及其系统，包括：对疾病的特征指标进行聚类分析，将特征指标划分为关联度高的特征I_high和关联度低的特征I_low；将关联度高的特征I_high和CT图像输入编码器进行训练得到训练后的自编码器；将训练好的自编码器与softmax分类器结合得到决策分类器，由决策分类器对CT图像进行分类并将分类结果作为分期决策的输出。本发明能够将CT图像和辅助信息结合进行疾病阶段决策的输入信息，能够快速。准确的得到疾病阶段决策结果。

Description

一种用于疾病程度分类的数据决策方法及其系统

技术领域

本发明涉及数据处理领域，具体公开了一种用于疾病程度分类的数据决策方法及其系统。

背景技术

在发展中国家，癌症问题困扰着大多数人，癌症5年的生存率达到40.5％。而乳腺癌在我国女性中最常见的癌症，乳腺癌位居女性恶性肿瘤死亡率首位，每年发病约达到30.4万。乳腺癌是城市地区的高发疾病。中国病例占全世界新诊断乳腺癌的12.2％，占全世界乳腺癌死亡病例的9.6％。但由于我国与其它国家相比，乳腺癌患者的发病年龄偏小，患者数量多，面对资源不足的情况。医疗资源和患者通常供不应求，医生平均每人每天要处理的病人数量达60人。因此，辅助医生进行分期诊断，从而根据诊断结果进行决策和预后具有重要意义。在乳腺癌诊断中，传统的显像方法(如超声、钼靶等)不能精确地检测到淋巴结的远处转移或累及的情况，这两点都对肿瘤分期起着关键作用。传统方法对于检测多病灶乳腺癌的敏感性低很多，为43.8％，而PET-CT不仅对原发性肿瘤的敏感性为93％，对多病灶肿瘤敏感性高达100％。因此，临床上一般是用放射性示踪剂18F-FDG和pet-ct的显像来为肿瘤进行诊断和明确分期。他们在乳腺癌的发现早期肿瘤，确定肿瘤分期，疗效评价，判断肿瘤复发，预后评价等方面发挥着重要作用。在医院的医疗系统中，每个病人诊疗时进行PET-CT扫描至少会生成600多张图像，每个病人产生的图像数量非常大，而在这些图像中仅仅只有少数几张图像能够作为医生诊断依据。对医生来说，每个人每天要接待上百个病人，要从每个病人产生的600多张图像中挑选出具有价值的那几张图片的工作量是非常巨大的，也是非常费神的，很容易造成人为判断上的误差。

现有的筛选工作和决策诊断均依靠人工操作。

发明内容

本发明目的在提供一种用于疾病程度分类的数据决策方法及其系统，以解决现有技术中存在的依靠人工去筛选和诊断决策使医生工作量大，效率低下的技术缺陷。

为实现上述目的，本发明提供了一种用于疾病程度分类的数据决策方法，包括以下步骤：

对疾病的特征指标进行聚类分析，将特征指标划分为关联度高的特征I_high和关联度低的特征I_low；

将关联度高的特征I_high和CT图像输入编码器进行训练得到训练后的自编码器；

将训练好的自编码器与softmax分类器结合得到决策分类器，将关联度高的特征I_high和CT图像输入决策分类器得到决策输出。

优选地，对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选：

删去不包含病变区域的图像，保留存在病变区域的图像。

优选地，对特征指标进行聚类分析包括以下步骤：

数据预处理，筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指标；

把同期病人数据分成一类，把病人在筛选出的D个指标作为参考值，并结合波动程度、标准范围以及参考值构建目标函数；

根据目标函数进行迭代计算得到关联度高的特征I_high和关联度低的特征I_low。

优选地，波动程度的计算模型为：

假设第

期患者的第d个指标值的波动程度为/>

则：

其中，

为第/>

期患者第d个指标的波动情况，/>

为第/>

期患者第d个指标的均值，I_rd表示第r个患者的d个指标数值，R_κ为数据中/>

期患者总数,指标的值在第/>

期患者中普遍波动范围大的值，即/>

值较大,则该指标d在/>

期患者中没有代表性。

优选地，目标函数的模型为：

其中，C为模糊组个数，D为指标的个数，τ_c为组c的聚类中心，

为控制参数，σ为指标d的关键值Imp_d的聚类中心和它们的所属矩阵，λ为拉格朗日乘子。

优选地，将关联度高的特征I_high和CT图像输入编码器前对输入数据进行加噪处理。

优选地，加噪处理为通过编码器为输入数据加上标记信息：

对于只含有一层隐藏层的编码器，第一层隐藏层的输出为：

其中，w₁为第一层隐藏层单元对应的权重向量，v₁表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量，b₁为偏差向量，加噪后的数据为：

x^ou＝g(w₂h₁+b₂)

I^ou＝g(v₂h₁+b′₂)

对隐藏层层数为L层的编码器，则对于第l层隐藏层，由于

第一层隐藏层输入为/>

加噪后的数据为：

x^ou＝g(w_Lh_L-1+b_L)

I^ou＝g(v_Lh_L-1+b′_L)

假设L层的编码器，前

层为编码层，后/>

为解码层，将图像信息/>

作为编码器的输入，输出为输入数据经过编码和解码的重构版本x^ou，并通过最小化损失来训练模型，即最小化输入x和它的重构版本x^ou的差值。

优选地，损失函数的模型为：

优选地，对编码器进行训练前需要对编码器添加相似性约束，相似性约束模型为：

对于相似性约束模型需优化的问题为：

依托于上述方法，本发明还提供了一种用于疾病程度分类的数据决策系统，包括处理器、存储器以及存储于存储器上的计算机程序，处理器执行计算机程序时实现上述任一的方法。

本发明具有以下有益效果：

1、本发明的将CT图像和辅助信息结合进行疾病阶段决策的输入信息，能够快速。准确的得到疾病阶段决策结果。

2、本发明能够将快速、准确的对CT图像进行筛选，杜绝了人工操作效率低，工作量大，准确度差的弊端。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本研究提出的基于深度学习的乳腺癌数据分析提取的模型图；

图2是训练的编码器结合分类器的分期决策模型图；

图3a是实施例1中湘雅医院2013至2017年间三家医院乳腺癌患者CEA的平均表现；

图3b是实施例1中湘雅医院2011至2015年三家医院乳腺癌患者CA153的平均表现；

图3c是实施例1中湘雅医院2011至2015年间三家医院乳腺癌患者CA125的平均表现；

图3d是实施例1中湘雅医院2011至2015年三家医院乳腺癌患者CA19-9的平均表现；

图4a是实施例1中不同隐藏层数对模型准确度的影响；

图4b是实施例1中不同隐藏层数对模型严重误差率的影响；

图5是实施例1中是在不同的时期内分期正确率，当用户添加辅助特征信息和不添加辅助特征信息时的分期正确率；

图6是实施例1中是在不同辅助数据破坏率情况下，不同方法在病人分期的预测准确性；

图7是实施例1中是在不同图像破坏率情况下，不同方法在病人分期的预测准确性；

图8a是实施例1中是不同方法在不同测试集情况下的分期准确率；

图8b是实施例1中是不同方法在不同测试集情况下的分期误差率；

图9是本发明一种用于疾病程度分类的数据决策方法流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

本发明的目的是提出一种以机器学习为基础的新型应用技术，近年来作为医学信息融合的辅助诊断应用，有望改善发展中国家当前的医疗卫生状况。本发明通过建立的医疗系统的数据预处理模块对病人的图像进行一次预筛选，提供有价值的图像信息以减少数据维度，然后通过医疗分期决策模块使用选择的特征的诊断参数添加额外信息结合提取的图像信息来进行分期决策，以提供辅助医生分期诊断的方法，以便医生确定后期的治疗方案。通过pet-ct图像可以清楚的展示出病变区域和病变范围等，乳腺癌治疗方案的制定取决于肿瘤的分期。因此，PET-CT检查对于准确分期并给出指导性的治疗方案是非常有价值的，尤其对分期较晚的乳腺癌患者。本发明在机器诊断和医疗决策模块设计的基础上，通过图像采集和双参数机器决策方法获取数据。图像与诊断参数相结合是解决大数据环境下患者诊断问题的有效途径。

实施例1

本发明提供了一种用于疾病程度分类的数据决策方法，包括以下步骤：

S1：对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选。

由于一个病人拍摄一次pet-ct图像的数据量巨大，但其中有很多是不包含病变区域的图像，因此，本实施例首先对图像进行了一次筛选，提取出病变区域的几张或十几张图像，删去不包含病变区域的图像。图像筛选依据是图像的密度分割，在机器扫描产生的图像中，有密度特别高的地方一般会呈现区域块，因此，极大可能包含病变区域，筛选出含有病变区域的图片。

S2：对疾病的特征指标进行聚类分析，将特征指标划分为关联度高的特征I_high和关联度低的特征I_low。

本实施例提出了一种指标参数筛选的方法，减少肿瘤标记物假阳性，假阴性的影响。通过对数千名不同期的患者记录进行指标相似性分析，来找到在癌症每期分类中影响较大的决策特征。结合筛选的关联度较强的肿瘤标记物参数作为辅助参数输入编码器中训练提取特征。

对特征指标进行聚类分析包括以下步骤：

S201：数据预处理，筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指标。

S202：把同期病人数据分成一类，把病人在筛选出的D个指标作为参考值，并结合波动程度、标准范围以及参考值构建目标函数。

把同期病人数据分成一类，把病人在上一步筛选出的D个指标作为参考值。假设

期患者有/>

个，/>

则第r个患者的指标记录为I_r＝{I_r1,I_r2,…,I_rD}。通过相似病人的指标波动情况来判断病人的d指标在/>

期情况下的关键程度。当I期所有病人的某一指标的均值在正常范围内，则表明大部分/>

期患者的该指标有很大概率是在正常范围内。变化波动较小或规律性波动的指标的集合大概率可以作为辅助分期决策时判断为I期的重要指标。因此，假设第/>

期患者的第d个指标值的波动程度为/>

定义如下：

其中，

为第/>

期患者第d个指标的波动情况，/>

为第/>

期患者第d个指标的均值。I_rd表示第r个患者的d个指标数值，R_κ为数据中/>

期患者总数,指标的值在第/>

期患者中普遍波动范围大的值，即/>

值较大,则该指标d在/>

期患者中没有代表性。

但是仅仅靠波动情况找到具有代表性指标欠缺一些参照性。因此，假设正常范围内阈值为标准值η_d，大多指标是一个区间范围内

则指标一般性与标准值的距离为：

当指标d的值大部分在正常范围内时，它的距离值dis_d一般较小，为了提高异常指标的重要性，定义检测指标关键值为

其中,

表示第/>

期癌症中第d个指标的重要性，波动情况越少的指标/>

值越小，不失一般性，该期患者的第d个指标值大多在/>

值附近波动和聚集。

把D个指标按照计算的关键值

分为C个模糊组，C＝3。并求每组的聚类中心，使非相似性指标重要性值的价值函数越小。并通过[0,1]范围空间的值来判断关键值在各组中隶属度。所有数据的隶属度和为1，/>

它的目标函数为：

其中，σ_cd∈(0,1)，τ_c为组c的聚类中心，d′_cd＝‖τ_c-Imp_d‖第i个聚类中心z_i与第d个指标关键值之间的欧几里得距离。它是一个加权值，构造新的目标函数为：

其中，对参数求导，最小化目标函数值的方法为

S203：根据目标函数进行迭代计算得到关联度高的特征I_high和关联度低的特征I_low。

通过迭代的方式确定指标d的关键值Imp_d的聚类中心和它们的所属矩阵σ。迭代算法如算法1所示通过聚类参数C和控制参数

来调整聚类效果，并根据每期分类结果求出最终的关联度高的标记和关联度低的标记。

算法1：标记参数特征选择算法

输入：

I

输出：I_high、I_low

1:Initialσ[c,d]in[0,1]use formula 11；i＝1；

2:Computeτ_cuse formula 10

3:val_iis get value use formula 4

4:If(val_i<thr or val_i-val_i-1<thr)break；

5:Else

6:Computeσuse formula 11

7:i＝i+1；

8:Return step2；

9:C[d]←select Maxnum(σ)

10:

11:

12:

13:

14:I_lowremove(I_high.getMixer(I_low))

ReturnI_high、I_low

S3：将关联度高的特征I_high和CT图像输入编码器前对输入数据进行加噪处理。

在实际应用中，图像可能会受到噪声的影响。为了使pet-ct图像的处理更具有鲁棒性。本实施例通过降噪自编码器来提取图像特征，再除去图像像素点节点之间相似性特征造成的影响，然后通过提取的标记参数辅助训练编码器，使提取的特征具有更好的表示性。为此本实施例提出了一个混合模型，利用筛选的图像和标记信息共同进行特征提取并在这一过程中保留输入数据的原始结构。

加噪处理为通过编码器为输入数据加上标记信息：

本实施例首先提出了结合标记提取特征的APSDAE模型，给定一组筛选后的图像的数据集x＝{x₁,x₂,…}∈R^m和筛选出的标记参数集I＝{I,I₂,…}∈Rⁿ，每一项x_i都是编码器的一个原始输入。由于pet-ct图像可能会受噪声干扰，为了能够使模型更具有鲁棒性，在训练编码器时，会使用加噪后的数据。因此，通过对数据进行加噪作为编码的输入，即，

我们通过去噪自编码器加上标记信息作为另一辅助决策的元素。对于只含有一层的自编码器第一层隐藏层，它的输出有：

其中，w₁为第一层隐藏层单元对应的权重向量，v₁表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量，b₁为偏差向量。则只含有一层隐藏层的自编码器输出为:

x^ou＝g(w₂h₁+b₂)

I^ou＝g(v₂h₁+b′₂)

通过堆叠自编码器使它能有更精确更丰富的表示，使编码器可以适用于更多复杂的任务。因此，本实施例假设隐藏层层数为L层，则对于第L层隐藏层，有

第一层隐藏层输入为/>

则第L层输出表示为:

x^ou＝g(w_Lh_L-1+b_L)

I^ou＝g(v_Lh_L-1+b′_L)

假设L层的自编码器，前

为编码层，后/>

为解码层。将corruption版本的图像信息

作为自编码器的输入，输出为输入数据经过编码和解码的重构版本x^ou。通过最小化损失来训练模型，即最小化输入x和它的重构版本x^ou的差值。因此，该优化问题的目标函数考虑到最小化损失问题，损失函数可表示为：

λ是拉格朗日乘子，为了求原函数的极值引入的。

另外，考虑到图像数据的相似性问题，通过给编码器添加相似性约束，在输入数据

中，使用编码器在它上面建立相似关系来提取图像特征之间的相似性。当两个数据空间中的值越接近，则它们输入的差值越小，意味着相似性越高，用S_kj来表示:

通过在自编码器上添加额外因素来保留输入数据的结构，当输入空间中的两个数据x_k，x_j的相似性越高，在图像中反映的是像素点差值越小，则图像越接近，则我们定义优化问题为：

通过使用结合标记的SDAE和在编码器中添加相似性约束来提取有效的非冗余特征，为了是模型训练过程中损失最小，通过建立损失函数来训练模型：

L(w,v,b)＝L_A(w,v,b)+L_B(w,b)

为解决上式的优化问题，我们通过梯度下降方法来使函数最小情况下的权重值和偏差。本实施例设计的模型如图1所示。

S4：将关联度高的特征I_high和CT图像输入编码器进行训练得到训练后的自编码器。

这样，普通的编码器就训练成了适用于本发明的自编码器了。

S5：将训练好的自编码器与softmax分类器结合得到决策分类器，将关联度高的特征I_high和CT图像输入决策分类器得到决策输出。

当然，自编码器也可以与其他分类器结合。

最后，如图2所示，将训练的编码器结合softmax分类器，由分类器分为四类作为分期决策的输出。

实施例2

在本实施例中，所使用的医疗信息来自中国三所一流医院：湘雅医院、湘雅附属二医院、湘雅附属三医院。信息记录中心根据三家医院的不同系统收集、分类、预处理和集成与乳腺癌相关的各类医疗数据。本实施例对近年来乳腺癌患者的pet图像和指标检测等信息进行统计和整理，就2013年至2017年三家医院乳腺癌病例关键参数的平均表现而言，自2011年至2015年期间，与乳腺癌有关的大量医疗数据被三家医院的不同系统严格记录、预处理和分类。从医院的乳腺癌患者的数据中，整理出7362例乳腺癌患者的数据进行分析。本实施例选取其中80％的数据作为训练集，20％的数据作为测试集。

此外，在数据训练过程中，可以看到每期患者的诊断参数的变化情况，为了保证选择的参数组合特异性更强，本实施例选择了它们的并集作为重要性参数。通过图3所示的统计来分析每个参数的指标，如表1所示，显示的是正常人的该指标的一般性正常范围。

表1

分析结果如下：

图3a显示了近5年的患者数据的CEA指标的平均情况。从表1中可以看到CEA的正常范围在0-5g/ml之间。而从图中可以看出乳腺癌患者的CEA指标平均值超出正常范围，平均比正常人超出7倍，近5年的数据显示患者在这一指标上均属于异常值。图3b显示了近5年患者数据的CA15-3指标的平均情况。从表1中可以看到CA15-3的正常范围在0-30IU/ml之间。而从图中可以看出乳腺癌患者的CA15-3指标平均值超出正常范围，平均比正常人超出4倍，近5年的数据显示患者在这一指标上均属于异常值。图3c显示了近5年的患者数据的CA125指标的平均情况。从表1中可以看到CA125的正常范围在0-35IU/ml之间。而从图中可以看出乳腺癌患者的CA125指标平均值超出正常范围，平均比正常人超出5倍，近5年的数据显示患者在这一指标上均属于异常值。图3d显示了近5年的患者数据的CA19-9指标的平均情况。从表1中可以看到CA19-9的正常范围在0-37IU/ml之间。而从图中可以看出乳腺癌患者的CA19-9指标平均值超出正常范围，平均比正常人超出3倍，近5年的数据显示患者在这一指标上均属于异常值。

对于每个患者的图像信息和诊断参数信息，通过本发明的模型为患者进行分期。仅使用图像作为一组数据，使用图像结合诊断信息作为另一组数据。定义一些相关评分指标来评价模型的性能。其中T_P表示正确分期的病人数，正确分期指的是实际是某期的患者正确分为这一期的情况。T_N表示错误分期的病人数，错误分期指的是实际是某期的患者分为其他期的情况。

表示第i期病人正确分期的病人数，/>

表示第i期病人错误分期的病人数。T_L表示Ⅰ、Ⅱ期患者被过度诊断成Ⅲ、Ⅳ期患者的数量，T_H表示Ⅲ、Ⅳ期患者被轻度诊断成Ⅰ、Ⅱ期患者。

则分期的灵敏度设为

评价模型的识别准确性设为：

由于在数据预处理过程中用分割的方法提取了每个患者的包含病变区域的图像作为模型的输入，使用本发明提出的特征筛选的方式筛选出目前比较具有特异性的特征组合作为辅助信息的输入。通过这两种方式降低模型输入数据的维数。因此，本实施例把数据分成了包含辅助信息和不包含辅助信息的两组数据，且分别把他们输入模型中进行训练，最终通过softmax分类器分类结果检测模型获得的特征表示的性能。

图4显示的是实施例1研究了不同隐藏层数目对模型性能的影响，比较了在不同层数下模型的评估值。结果如图4a所示，可以看到，实施例1的方法对于提供辅助特征的模型具有较高的识别准确率。实施例1所提出的方法，在设置三层隐藏层情况下对于两组数据都有较好的表现，表明在三层隐藏层(包括编码器和解码器共五层)的结构是适合实施例1提出的模型。当隐藏层数小于3时，分类的准确度随隐藏层数的增加而提高。但是，当隐藏层数超过3层时，分类的精确值没有太大的变化。这可能是由于缺少足够的图像块来拟合网络中的大量参数造成的。

从图4b可以看出，失误率随着隐藏层的数量增多而减少。在1层隐藏层情况下，添加辅助信息训练和模型和不添加辅助信息的模型的性能没有太大的差别，这可能是因为没有深度学习使特征的提取不具有表示性。随着层数的增加，失误率提高不大甚至有上升的趋势。这可能是由于层数过多可能会产生梯度消失，使模型并没有表现出较大的改进，在数据量增多的情况下，可能还会造成训练过多的时间而资源浪费。

本实施例把辅助信息添加污染作为输入来看模型的测试结果，对辅助信息平均每间隔2个,4个和8个做一次污染，污染的方式是加上一个(0,1)范围内的随机值，污染后的数据表示为2-I，4-I,8-I原始数据表示为I。分别把这些污染后的数据作为模型辅助信息的输入。同样，图像也做相同的污染处理，分别把污染率设置为20％,40％,60％来污染图像。

图5中展示的是患者在不同期数情况下添加辅助特征信息和不添加辅助特征信息情况下的分期准确率，这一准确率对应的是患者在某期情况下分期正确的概率。从图中可以看出含辅助特征信息的模型对于每期的准确度影响和变化不大，而对于不含辅助特征信息的模型在期数较高情况下性能有所下降。

图6可以看出在辅助信息污染率较高的情况下，对于Ⅰ、Ⅱ期的患者的预测准确度产生较大的影响，对于Ⅲ、Ⅳ期患者的预测准确度影响较小。从图7可以看出，图像污染率较大的情况下，对于Ⅲ、Ⅳ期患者的预测准确度影响较大，对于Ⅰ、Ⅱ期的患者的预测准确度影响较小。这可能是因为图像对于分期越高的患者的预测，具有较高的精确度和特异性。分期较低的患者通过图像和肿瘤标志物联合检测判断乳腺癌诊断具有更高地敏感性。

把湘雅，湘雅附一和湘雅附二三所医院的数据分别每所医院预留总数据的20％作为测试集，分别表示为Te₀、Te₁、Te₂。然后三所医院分别按照每所医院的数据占总数据的比例来选取总数据的20％的数量作为新的测试集，表示为Te₃。然后，将本发明提出的模型APSDAE与PSDAE、SDAE进行了比较。其中，PSDAE是除去了我们的模型中添加信息辅助训练的模块。这三个模型都是从未标记的数据中学习潜在特征并通过分类器进行微调来建立特征提取器。本实施例使用相同数量的隐藏层，并且隐藏层中的神经元数量设置与APSDAE模型相同。通过这三个训练的模型分别连上softmax分类器来训练分类器和微调模型，然后使用8次交叉验证计算每个模型的评价指标值Accu，Erro。

图8显示了使用AP-SDAE与P-SDAE、SDAE三个模型和softmax分类器的评价结果，从中可以发现，AP-SDAE在不同方式划分的数据集中都有比较好的性能，通过图8中不同方法的精确值比较，说明无监督的方法在利用深层神经网络提取特征方面有比较好的效果，能够获取更好的分类特征。在四个数据集上，AP-SDAE在精确度，误差率都有相对稳定并较好的表现，能够说明本发明的模型具有一定的泛化能力。而AP-SDAE的性能在这些数据集上都优于另外两种方法，且PSDAE比SDAE的精确度和泛化能力都更好，说明辅助信息和保留图像的特征结构的这两个改进策略都在提高性能方面发挥着重要作用。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。