CN111430024B - 一种用于疾病程度分类的数据决策方法及其系统 - Google Patents

一种用于疾病程度分类的数据决策方法及其系统 Download PDF

Info

Publication number
CN111430024B
CN111430024B CN202010010514.0A CN202010010514A CN111430024B CN 111430024 B CN111430024 B CN 111430024B CN 202010010514 A CN202010010514 A CN 202010010514A CN 111430024 B CN111430024 B CN 111430024B
Authority
CN
China
Prior art keywords
data
encoder
decision
index
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010010514.0A
Other languages
English (en)
Other versions
CN111430024A (zh
Inventor
吴嘉
余庚花
谭延林
常柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010010514.0A priority Critical patent/CN111430024B/zh
Publication of CN111430024A publication Critical patent/CN111430024A/zh
Application granted granted Critical
Publication of CN111430024B publication Critical patent/CN111430024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于疾病程度分类的数据决策方法及其系统,包括:对疾病的特征指标进行聚类分析,将特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow;将关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器;将训练好的自编码器与softmax分类器结合得到决策分类器,由决策分类器对CT图像进行分类并将分类结果作为分期决策的输出。本发明能够将CT图像和辅助信息结合进行疾病阶段决策的输入信息,能够快速。准确的得到疾病阶段决策结果。

Description

一种用于疾病程度分类的数据决策方法及其系统
技术领域
本发明涉及数据处理领域,具体公开了一种用于疾病程度分类的数据决策方法及其系统。
背景技术
在发展中国家,癌症问题困扰着大多数人,癌症5年的生存率达到40.5%。而乳腺癌在我国女性中最常见的癌症,乳腺癌位居女性恶性肿瘤死亡率首位,每年发病约达到30.4万。乳腺癌是城市地区的高发疾病。中国病例占全世界新诊断乳腺癌的12.2%,占全世界乳腺癌死亡病例的9.6%。但由于我国与其它国家相比,乳腺癌患者的发病年龄偏小,患者数量多,面对资源不足的情况。医疗资源和患者通常供不应求,医生平均每人每天要处理的病人数量达60人。因此,辅助医生进行分期诊断,从而根据诊断结果进行决策和预后具有重要意义。在乳腺癌诊断中,传统的显像方法(如超声、钼靶等)不能精确地检测到淋巴结的远处转移或累及的情况,这两点都对肿瘤分期起着关键作用。传统方法对于检测多病灶乳腺癌的敏感性低很多,为43.8%,而PET-CT不仅对原发性肿瘤的敏感性为93%,对多病灶肿瘤敏感性高达100%。因此,临床上一般是用放射性示踪剂18F-FDG和pet-ct的显像来为肿瘤进行诊断和明确分期。他们在乳腺癌的发现早期肿瘤,确定肿瘤分期,疗效评价,判断肿瘤复发,预后评价等方面发挥着重要作用。在医院的医疗系统中,每个病人诊疗时进行PET-CT扫描至少会生成600多张图像,每个病人产生的图像数量非常大,而在这些图像中仅仅只有少数几张图像能够作为医生诊断依据。对医生来说,每个人每天要接待上百个病人,要从每个病人产生的600多张图像中挑选出具有价值的那几张图片的工作量是非常巨大的,也是非常费神的,很容易造成人为判断上的误差。
现有的筛选工作和决策诊断均依靠人工操作。
发明内容
本发明目的在提供一种用于疾病程度分类的数据决策方法及其系统,以解决现有技术中存在的依靠人工去筛选和诊断决策使医生工作量大,效率低下的技术缺陷。
为实现上述目的,本发明提供了一种用于疾病程度分类的数据决策方法,包括以下步骤:
对疾病的特征指标进行聚类分析,将特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow
将关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器;
将训练好的自编码器与softmax分类器结合得到决策分类器,将关联度高的特征Ihigh和CT图像输入决策分类器得到决策输出。
优选地,对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选:
删去不包含病变区域的图像,保留存在病变区域的图像。
优选地,对特征指标进行聚类分析包括以下步骤:
数据预处理,筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指标;
把同期病人数据分成一类,把病人在筛选出的D个指标作为参考值,并结合波动程度、标准范围以及参考值构建目标函数;
根据目标函数进行迭代计算得到关联度高的特征Ihigh和关联度低的特征Ilow
优选地,波动程度的计算模型为:
假设第
Figure GDA0002526630850000021
期患者的第d个指标值的波动程度为/>
Figure GDA0002526630850000022
则:
Figure GDA0002526630850000023
Figure GDA0002526630850000024
其中,
Figure GDA0002526630850000025
为第/>
Figure GDA0002526630850000026
期患者第d个指标的波动情况,/>
Figure GDA0002526630850000027
为第/>
Figure GDA00025266308500000214
期患者第d个指标的均值,Ird表示第r个患者的d个指标数值,Rκ为数据中/>
Figure GDA0002526630850000028
期患者总数,指标的值在第/>
Figure GDA0002526630850000029
期患者中普遍波动范围大的值,即/>
Figure GDA00025266308500000210
值较大,则该指标d在/>
Figure GDA00025266308500000211
期患者中没有代表性。
优选地,目标函数的模型为:
Figure GDA00025266308500000212
其中,C为模糊组个数,D为指标的个数,τc为组c的聚类中心,
Figure GDA00025266308500000215
为控制参数,σ为指标d的关键值Impd的聚类中心和它们的所属矩阵,λ为拉格朗日乘子。
优选地,将关联度高的特征Ihigh和CT图像输入编码器前对输入数据进行加噪处理。
优选地,加噪处理为通过编码器为输入数据加上标记信息:
对于只含有一层隐藏层的编码器,第一层隐藏层的输出为:
Figure GDA00025266308500000213
其中,w1为第一层隐藏层单元对应的权重向量,v1表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量,b1为偏差向量,加噪后的数据为:
xou=g(w2h1+b2)
Iou=g(v2h1+b′2)
对隐藏层层数为L层的编码器,则对于第l层隐藏层,由于
Figure GDA0002526630850000031
第一层隐藏层输入为/>
Figure GDA0002526630850000032
加噪后的数据为:
xou=g(wLhL-1+bL)
Iou=g(vLhL-1+b′L)
假设L层的编码器,前
Figure GDA0002526630850000033
层为编码层,后/>
Figure GDA0002526630850000034
为解码层,将图像信息/>
Figure GDA0002526630850000035
作为编码器的输入,输出为输入数据经过编码和解码的重构版本xou,并通过最小化损失来训练模型,即最小化输入x和它的重构版本xou的差值。
优选地,损失函数的模型为:
Figure GDA0002526630850000036
优选地,对编码器进行训练前需要对编码器添加相似性约束,相似性约束模型为:
Figure GDA0002526630850000037
对于相似性约束模型需优化的问题为:
Figure GDA0002526630850000038
依托于上述方法,本发明还提供了一种用于疾病程度分类的数据决策系统,包括处理器、存储器以及存储于存储器上的计算机程序,处理器执行计算机程序时实现上述任一的方法。
本发明具有以下有益效果:
1、本发明的将CT图像和辅助信息结合进行疾病阶段决策的输入信息,能够快速。准确的得到疾病阶段决策结果。
2、本发明能够将快速、准确的对CT图像进行筛选,杜绝了人工操作效率低,工作量大,准确度差的弊端。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本研究提出的基于深度学习的乳腺癌数据分析提取的模型图;
图2是训练的编码器结合分类器的分期决策模型图;
图3a是实施例1中湘雅医院2013至2017年间三家医院乳腺癌患者CEA的平均表现;
图3b是实施例1中湘雅医院2011至2015年三家医院乳腺癌患者CA153的平均表现;
图3c是实施例1中湘雅医院2011至2015年间三家医院乳腺癌患者CA125的平均表现;
图3d是实施例1中湘雅医院2011至2015年三家医院乳腺癌患者CA19-9的平均表现;
图4a是实施例1中不同隐藏层数对模型准确度的影响;
图4b是实施例1中不同隐藏层数对模型严重误差率的影响;
图5是实施例1中是在不同的时期内分期正确率,当用户添加辅助特征信息和不添加辅助特征信息时的分期正确率;
图6是实施例1中是在不同辅助数据破坏率情况下,不同方法在病人分期的预测准确性;
图7是实施例1中是在不同图像破坏率情况下,不同方法在病人分期的预测准确性;
图8a是实施例1中是不同方法在不同测试集情况下的分期准确率;
图8b是实施例1中是不同方法在不同测试集情况下的分期误差率;
图9是本发明一种用于疾病程度分类的数据决策方法流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明的目的是提出一种以机器学习为基础的新型应用技术,近年来作为医学信息融合的辅助诊断应用,有望改善发展中国家当前的医疗卫生状况。本发明通过建立的医疗系统的数据预处理模块对病人的图像进行一次预筛选,提供有价值的图像信息以减少数据维度,然后通过医疗分期决策模块使用选择的特征的诊断参数添加额外信息结合提取的图像信息来进行分期决策,以提供辅助医生分期诊断的方法,以便医生确定后期的治疗方案。通过pet-ct图像可以清楚的展示出病变区域和病变范围等,乳腺癌治疗方案的制定取决于肿瘤的分期。因此,PET-CT检查对于准确分期并给出指导性的治疗方案是非常有价值的,尤其对分期较晚的乳腺癌患者。本发明在机器诊断和医疗决策模块设计的基础上,通过图像采集和双参数机器决策方法获取数据。图像与诊断参数相结合是解决大数据环境下患者诊断问题的有效途径。
实施例1
本发明提供了一种用于疾病程度分类的数据决策方法,包括以下步骤:
S1:对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选。
由于一个病人拍摄一次pet-ct图像的数据量巨大,但其中有很多是不包含病变区域的图像,因此,本实施例首先对图像进行了一次筛选,提取出病变区域的几张或十几张图像,删去不包含病变区域的图像。图像筛选依据是图像的密度分割,在机器扫描产生的图像中,有密度特别高的地方一般会呈现区域块,因此,极大可能包含病变区域,筛选出含有病变区域的图片。
S2:对疾病的特征指标进行聚类分析,将特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow
本实施例提出了一种指标参数筛选的方法,减少肿瘤标记物假阳性,假阴性的影响。通过对数千名不同期的患者记录进行指标相似性分析,来找到在癌症每期分类中影响较大的决策特征。结合筛选的关联度较强的肿瘤标记物参数作为辅助参数输入编码器中训练提取特征。
对特征指标进行聚类分析包括以下步骤:
S201:数据预处理,筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指标。
S202:把同期病人数据分成一类,把病人在筛选出的D个指标作为参考值,并结合波动程度、标准范围以及参考值构建目标函数。
把同期病人数据分成一类,把病人在上一步筛选出的D个指标作为参考值。假设
Figure GDA00025266308500000517
期患者有/>
Figure GDA0002526630850000051
个,/>
Figure GDA0002526630850000052
则第r个患者的指标记录为Ir={Ir1,Ir2,…,IrD}。通过相似病人的指标波动情况来判断病人的d指标在/>
Figure GDA0002526630850000053
期情况下的关键程度。当I期所有病人的某一指标的均值在正常范围内,则表明大部分/>
Figure GDA00025266308500000518
期患者的该指标有很大概率是在正常范围内。变化波动较小或规律性波动的指标的集合大概率可以作为辅助分期决策时判断为I期的重要指标。因此,假设第/>
Figure GDA0002526630850000054
期患者的第d个指标值的波动程度为/>
Figure GDA0002526630850000055
定义如下:
Figure GDA0002526630850000056
Figure GDA0002526630850000057
其中,
Figure GDA0002526630850000058
为第/>
Figure GDA0002526630850000059
期患者第d个指标的波动情况,/>
Figure GDA00025266308500000510
为第/>
Figure GDA00025266308500000511
期患者第d个指标的均值。Ird表示第r个患者的d个指标数值,Rκ为数据中/>
Figure GDA00025266308500000512
期患者总数,指标的值在第/>
Figure GDA00025266308500000513
期患者中普遍波动范围大的值,即/>
Figure GDA00025266308500000514
值较大,则该指标d在/>
Figure GDA00025266308500000515
期患者中没有代表性。
但是仅仅靠波动情况找到具有代表性指标欠缺一些参照性。因此,假设正常范围内阈值为标准值ηd,大多指标是一个区间范围内
Figure GDA00025266308500000516
则指标一般性与标准值的距离为:
Figure GDA0002526630850000061
当指标d的值大部分在正常范围内时,它的距离值disd一般较小,为了提高异常指标的重要性,定义检测指标关键值为
Figure GDA0002526630850000062
其中,
Figure GDA0002526630850000063
表示第/>
Figure GDA0002526630850000064
期癌症中第d个指标的重要性,波动情况越少的指标/>
Figure GDA0002526630850000065
值越小,不失一般性,该期患者的第d个指标值大多在/>
Figure GDA0002526630850000066
值附近波动和聚集。
把D个指标按照计算的关键值
Figure GDA0002526630850000067
分为C个模糊组,C=3。并求每组的聚类中心,使非相似性指标重要性值的价值函数越小。并通过[0,1]范围空间的值来判断关键值在各组中隶属度。所有数据的隶属度和为1,/>
Figure GDA0002526630850000068
它的目标函数为:
Figure GDA0002526630850000069
其中,σcd∈(0,1),τc为组c的聚类中心,d′cd=‖τc-Impd‖第i个聚类中心zi与第d个指标关键值之间的欧几里得距离。它是一个加权值,构造新的目标函数为:
Figure GDA00025266308500000610
其中,对参数求导,最小化目标函数值的方法为
Figure GDA00025266308500000611
Figure GDA00025266308500000612
S203:根据目标函数进行迭代计算得到关联度高的特征Ihigh和关联度低的特征Ilow
通过迭代的方式确定指标d的关键值Impd的聚类中心和它们的所属矩阵σ。迭代算法如算法1所示通过聚类参数C和控制参数
Figure GDA00025266308500000614
来调整聚类效果,并根据每期分类结果求出最终的关联度高的标记和关联度低的标记。
算法1:标记参数特征选择算法
输入:
Figure GDA00025266308500000613
I
输出:Ihigh、Ilow
1:Initialσ[c,d]in[0,1]use formula 11;i=1;
2:Computeτcuse formula 10
3:valiis get value use formula 4
4:If(vali<thr or vali-vali-1<thr)break;
5:Else
6:Computeσuse formula 11
7:i=i+1;
8:Return step2;
9:C[d]←select Maxnum(σ)
10:
Figure GDA0002526630850000073
11:
Figure GDA0002526630850000074
12:
Figure GDA0002526630850000075
13:
Figure GDA0002526630850000076
14:Ilowremove(Ihigh.getMixer(Ilow))
ReturnIhigh、Ilow
S3:将关联度高的特征Ihigh和CT图像输入编码器前对输入数据进行加噪处理。
在实际应用中,图像可能会受到噪声的影响。为了使pet-ct图像的处理更具有鲁棒性。本实施例通过降噪自编码器来提取图像特征,再除去图像像素点节点之间相似性特征造成的影响,然后通过提取的标记参数辅助训练编码器,使提取的特征具有更好的表示性。为此本实施例提出了一个混合模型,利用筛选的图像和标记信息共同进行特征提取并在这一过程中保留输入数据的原始结构。
加噪处理为通过编码器为输入数据加上标记信息:
本实施例首先提出了结合标记提取特征的APSDAE模型,给定一组筛选后的图像的数据集x={x1,x2,…}∈Rm和筛选出的标记参数集I={I,I2,…}∈Rn,每一项xi都是编码器的一个原始输入。由于pet-ct图像可能会受噪声干扰,为了能够使模型更具有鲁棒性,在训练编码器时,会使用加噪后的数据。因此,通过对数据进行加噪作为编码的输入,即,
Figure GDA0002526630850000071
Figure GDA0002526630850000072
我们通过去噪自编码器加上标记信息作为另一辅助决策的元素。对于只含有一层的自编码器第一层隐藏层,它的输出有:
Figure GDA0002526630850000081
其中,w1为第一层隐藏层单元对应的权重向量,v1表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量,b1为偏差向量。则只含有一层隐藏层的自编码器输出为:
xou=g(w2h1+b2)
Iou=g(v2h1+b′2)
通过堆叠自编码器使它能有更精确更丰富的表示,使编码器可以适用于更多复杂的任务。因此,本实施例假设隐藏层层数为L层,则对于第L层隐藏层,有
Figure GDA0002526630850000082
第一层隐藏层输入为/>
Figure GDA0002526630850000083
则第L层输出表示为:
xou=g(wLhL-1+bL)
Iou=g(vLhL-1+b′L)
假设L层的自编码器,前
Figure GDA0002526630850000084
为编码层,后/>
Figure GDA0002526630850000085
为解码层。将corruption版本的图像信息
Figure GDA0002526630850000086
作为自编码器的输入,输出为输入数据经过编码和解码的重构版本xou。通过最小化损失来训练模型,即最小化输入x和它的重构版本xou的差值。因此,该优化问题的目标函数考虑到最小化损失问题,损失函数可表示为:
Figure GDA0002526630850000087
λ是拉格朗日乘子,为了求原函数的极值引入的。
另外,考虑到图像数据的相似性问题,通过给编码器添加相似性约束,在输入数据
Figure GDA0002526630850000088
中,使用编码器在它上面建立相似关系来提取图像特征之间的相似性。当两个数据空间中的值越接近,则它们输入的差值越小,意味着相似性越高,用Skj来表示:
Figure GDA0002526630850000089
通过在自编码器上添加额外因素来保留输入数据的结构,当输入空间中的两个数据xk,xj的相似性越高,在图像中反映的是像素点差值越小,则图像越接近,则我们定义优化问题为:
Figure GDA00025266308500000810
通过使用结合标记的SDAE和在编码器中添加相似性约束来提取有效的非冗余特征,为了是模型训练过程中损失最小,通过建立损失函数来训练模型:
L(w,v,b)=LA(w,v,b)+LB(w,b)
为解决上式的优化问题,我们通过梯度下降方法来使函数最小情况下的权重值和偏差。本实施例设计的模型如图1所示。
S4:将关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器。
这样,普通的编码器就训练成了适用于本发明的自编码器了。
S5:将训练好的自编码器与softmax分类器结合得到决策分类器,将关联度高的特征Ihigh和CT图像输入决策分类器得到决策输出。
当然,自编码器也可以与其他分类器结合。
最后,如图2所示,将训练的编码器结合softmax分类器,由分类器分为四类作为分期决策的输出。
依托于上述方法,本发明还提供了一种用于疾病程度分类的数据决策系统,包括处理器、存储器以及存储于存储器上的计算机程序,处理器执行计算机程序时实现上述任一的方法。
实施例2
在本实施例中,所使用的医疗信息来自中国三所一流医院:湘雅医院、湘雅附属二医院、湘雅附属三医院。信息记录中心根据三家医院的不同系统收集、分类、预处理和集成与乳腺癌相关的各类医疗数据。本实施例对近年来乳腺癌患者的pet图像和指标检测等信息进行统计和整理,就2013年至2017年三家医院乳腺癌病例关键参数的平均表现而言,自2011年至2015年期间,与乳腺癌有关的大量医疗数据被三家医院的不同系统严格记录、预处理和分类。从医院的乳腺癌患者的数据中,整理出7362例乳腺癌患者的数据进行分析。本实施例选取其中80%的数据作为训练集,20%的数据作为测试集。
此外,在数据训练过程中,可以看到每期患者的诊断参数的变化情况,为了保证选择的参数组合特异性更强,本实施例选择了它们的并集作为重要性参数。通过图3所示的统计来分析每个参数的指标,如表1所示,显示的是正常人的该指标的一般性正常范围。
表1
Figure GDA0002526630850000091
分析结果如下:
图3a显示了近5年的患者数据的CEA指标的平均情况。从表1中可以看到CEA的正常范围在0-5g/ml之间。而从图中可以看出乳腺癌患者的CEA指标平均值超出正常范围,平均比正常人超出7倍,近5年的数据显示患者在这一指标上均属于异常值。图3b显示了近5年患者数据的CA15-3指标的平均情况。从表1中可以看到CA15-3的正常范围在0-30IU/ml之间。而从图中可以看出乳腺癌患者的CA15-3指标平均值超出正常范围,平均比正常人超出4倍,近5年的数据显示患者在这一指标上均属于异常值。图3c显示了近5年的患者数据的CA125指标的平均情况。从表1中可以看到CA125的正常范围在0-35IU/ml之间。而从图中可以看出乳腺癌患者的CA125指标平均值超出正常范围,平均比正常人超出5倍,近5年的数据显示患者在这一指标上均属于异常值。图3d显示了近5年的患者数据的CA19-9指标的平均情况。从表1中可以看到CA19-9的正常范围在0-37IU/ml之间。而从图中可以看出乳腺癌患者的CA19-9指标平均值超出正常范围,平均比正常人超出3倍,近5年的数据显示患者在这一指标上均属于异常值。
对于每个患者的图像信息和诊断参数信息,通过本发明的模型为患者进行分期。仅使用图像作为一组数据,使用图像结合诊断信息作为另一组数据。定义一些相关评分指标来评价模型的性能。其中TP表示正确分期的病人数,正确分期指的是实际是某期的患者正确分为这一期的情况。TN表示错误分期的病人数,错误分期指的是实际是某期的患者分为其他期的情况。
Figure GDA0002526630850000101
表示第i期病人正确分期的病人数,/>
Figure GDA0002526630850000102
表示第i期病人错误分期的病人数。TL表示Ⅰ、Ⅱ期患者被过度诊断成Ⅲ、Ⅳ期患者的数量,TH表示Ⅲ、Ⅳ期患者被轻度诊断成Ⅰ、Ⅱ期患者。
则分期的灵敏度设为
Figure GDA0002526630850000103
评价模型的识别准确性设为:
Figure GDA0002526630850000104
由于在数据预处理过程中用分割的方法提取了每个患者的包含病变区域的图像作为模型的输入,使用本发明提出的特征筛选的方式筛选出目前比较具有特异性的特征组合作为辅助信息的输入。通过这两种方式降低模型输入数据的维数。因此,本实施例把数据分成了包含辅助信息和不包含辅助信息的两组数据,且分别把他们输入模型中进行训练,最终通过softmax分类器分类结果检测模型获得的特征表示的性能。
图4显示的是实施例1研究了不同隐藏层数目对模型性能的影响,比较了在不同层数下模型的评估值。结果如图4a所示,可以看到,实施例1的方法对于提供辅助特征的模型具有较高的识别准确率。实施例1所提出的方法,在设置三层隐藏层情况下对于两组数据都有较好的表现,表明在三层隐藏层(包括编码器和解码器共五层)的结构是适合实施例1提出的模型。当隐藏层数小于3时,分类的准确度随隐藏层数的增加而提高。但是,当隐藏层数超过3层时,分类的精确值没有太大的变化。这可能是由于缺少足够的图像块来拟合网络中的大量参数造成的。
从图4b可以看出,失误率随着隐藏层的数量增多而减少。在1层隐藏层情况下,添加辅助信息训练和模型和不添加辅助信息的模型的性能没有太大的差别,这可能是因为没有深度学习使特征的提取不具有表示性。随着层数的增加,失误率提高不大甚至有上升的趋势。这可能是由于层数过多可能会产生梯度消失,使模型并没有表现出较大的改进,在数据量增多的情况下,可能还会造成训练过多的时间而资源浪费。
本实施例把辅助信息添加污染作为输入来看模型的测试结果,对辅助信息平均每间隔2个,4个和8个做一次污染,污染的方式是加上一个(0,1)范围内的随机值,污染后的数据表示为2-I,4-I,8-I原始数据表示为I。分别把这些污染后的数据作为模型辅助信息的输入。同样,图像也做相同的污染处理,分别把污染率设置为20%,40%,60%来污染图像。
图5中展示的是患者在不同期数情况下添加辅助特征信息和不添加辅助特征信息情况下的分期准确率,这一准确率对应的是患者在某期情况下分期正确的概率。从图中可以看出含辅助特征信息的模型对于每期的准确度影响和变化不大,而对于不含辅助特征信息的模型在期数较高情况下性能有所下降。
图6可以看出在辅助信息污染率较高的情况下,对于Ⅰ、Ⅱ期的患者的预测准确度产生较大的影响,对于Ⅲ、Ⅳ期患者的预测准确度影响较小。从图7可以看出,图像污染率较大的情况下,对于Ⅲ、Ⅳ期患者的预测准确度影响较大,对于Ⅰ、Ⅱ期的患者的预测准确度影响较小。这可能是因为图像对于分期越高的患者的预测,具有较高的精确度和特异性。分期较低的患者通过图像和肿瘤标志物联合检测判断乳腺癌诊断具有更高地敏感性。
把湘雅,湘雅附一和湘雅附二三所医院的数据分别每所医院预留总数据的20%作为测试集,分别表示为Te0、Te1、Te2。然后三所医院分别按照每所医院的数据占总数据的比例来选取总数据的20%的数量作为新的测试集,表示为Te3。然后,将本发明提出的模型APSDAE与PSDAE、SDAE进行了比较。其中,PSDAE是除去了我们的模型中添加信息辅助训练的模块。这三个模型都是从未标记的数据中学习潜在特征并通过分类器进行微调来建立特征提取器。本实施例使用相同数量的隐藏层,并且隐藏层中的神经元数量设置与APSDAE模型相同。通过这三个训练的模型分别连上softmax分类器来训练分类器和微调模型,然后使用8次交叉验证计算每个模型的评价指标值Accu,Erro。
图8显示了使用AP-SDAE与P-SDAE、SDAE三个模型和softmax分类器的评价结果,从中可以发现,AP-SDAE在不同方式划分的数据集中都有比较好的性能,通过图8中不同方法的精确值比较,说明无监督的方法在利用深层神经网络提取特征方面有比较好的效果,能够获取更好的分类特征。在四个数据集上,AP-SDAE在精确度,误差率都有相对稳定并较好的表现,能够说明本发明的模型具有一定的泛化能力。而AP-SDAE的性能在这些数据集上都优于另外两种方法,且PSDAE比SDAE的精确度和泛化能力都更好,说明辅助信息和保留图像的特征结构的这两个改进策略都在提高性能方面发挥着重要作用。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种用于疾病程度分类的数据决策方法,其特征在于,包括以下步骤:
对疾病的特征指标进行聚类分析,将所述特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow
将所述关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器;
将训练好的自编码器与softmax分类器结合得到决策分类器,将所述关联度高的特征Ihigh和CT图像输入所述决策分类器得到决策输出;
对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选:删去不包含病变区域的图像,保留存在病变区域的图像;
对特征指标进行聚类分析包括以下步骤:
数据预处理,筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指标;
把同期病人数据分成一类,把病人在筛选出的D个指标作为参考值,并结合波动程度、标准范围以及所述参考值构建目标函数;
根据所述目标函数进行迭代计算得到关联度高的特征Ihigh和关联度低的特征Ilow
目标函数的模型为:
Figure QLYQS_1
其中,C为模糊组个数,D为指标的个数,τc为组c的聚类中心,
Figure QLYQS_2
为控制参数,σ为指标d的关键值Impd的聚类中心,λ为拉格朗日乘子,dcd为组c的聚类中心τc与第d个指标关键值之间的距离。
2.根据权利要求1所述的一种用于疾病程度分类的数据决策方法,其特征在于,所述波动程度的计算模型为:
假设第
Figure QLYQS_3
期患者的第d个指标值的波动程度为/>
Figure QLYQS_4
则:
Figure QLYQS_5
Figure QLYQS_6
其中,
Figure QLYQS_9
为第/>
Figure QLYQS_12
期患者第d个指标的波动情况,/>
Figure QLYQS_14
为第/>
Figure QLYQS_8
期患者第d个指标的均值,Ird表示第r个患者的d个指标数值,Rκ为数据中/>
Figure QLYQS_10
期患者总数,指标的值在第/>
Figure QLYQS_11
期患者中普遍波动范围大的值,即/>
Figure QLYQS_13
值较大,则该指标d在/>
Figure QLYQS_7
期患者中没有代表性。
3.根据权利要求1所述的一种用于疾病程度分类的数据决策方法,其特征在于,将所述关联度高的特征Ihigh和CT图像输入编码器前对输入数据进行加噪处理。
4.根据权利要求3所述的一种用于疾病程度分类的数据决策方法,其特征在于,所述加噪处理为通过编码器为输入数据加上标记信息:
对于只含有一层隐藏层的编码器,第一层隐藏层的输出为:
Figure QLYQS_15
其中,w1为第一层隐藏层单元对应的权重向量,v1表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量,
Figure QLYQS_16
表示所述输入数据经过加噪后的数据,I表示筛选出的标记参数集,标记参数作为辅助决策信息,b1为偏差向量,
加噪后的数据为:
xou=g(w2h1+b2)
Iou=g(v2h1+b′2)
对隐藏层层数为L层的编码器,则对于第l层隐藏层,由于
Figure QLYQS_17
第一层隐藏层输入为/>
Figure QLYQS_18
加噪后的数据为:
xou=g(wLhL-1+bL)
Iou=g(vLhL-1+b′L)
假设L层的编码器,前
Figure QLYQS_19
层为编码层,后/>
Figure QLYQS_20
为解码层,将图像信息/>
Figure QLYQS_21
作为编码器的输入,输出为输入数据经过编码和解码的重构版本xou,并通过最小化损失来训练模型,即最小化输入x和它的重构版本xou的差值。
5.根据权利要求3所述的一种用于疾病程度分类的数据决策方法,其特征在于,损失函数的模型为:
Figure QLYQS_22
6.根据权利要求1所述的一种用于疾病程度分类的数据决策方法,其特征在于,对编码器进行训练前需要对编码器添加相似性约束,相似性约束模型为:
Figure QLYQS_23
对于相似性约束模型的损失函数为:
Figure QLYQS_24
7.一种用于疾病程度分类的数据决策系统,包括处理器、存储器以及存储于所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任一所述的方法。
CN202010010514.0A 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统 Active CN111430024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010010514.0A CN111430024B (zh) 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010010514.0A CN111430024B (zh) 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统

Publications (2)

Publication Number Publication Date
CN111430024A CN111430024A (zh) 2020-07-17
CN111430024B true CN111430024B (zh) 2023-07-11

Family

ID=71546959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010010514.0A Active CN111430024B (zh) 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统

Country Status (1)

Country Link
CN (1) CN111430024B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590902B (zh) * 2021-08-13 2022-07-12 郑州大学 基于大数据的恶性血液病个性化的信息支持系统
CN114388135B (zh) * 2022-01-19 2022-07-26 韩昕倬 一种孕妇指标数据分析方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035283A (zh) * 2018-09-05 2018-12-18 中国医科大学附属盛京医院 一种基于随机选取分区的肺气肿精准检测与量化分析方法
CN109886465A (zh) * 2019-01-20 2019-06-14 东北电力大学 一种基于智能电表用户聚类分析的配电网负荷预测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996549B2 (en) * 1998-05-01 2006-02-07 Health Discovery Corporation Computer-aided image analysis
AU2004251359B2 (en) * 2003-06-25 2009-01-22 Siemens Medical Solutions Usa, Inc. Systems and methods for automated diagnosis and decision support for breast imaging
CN105718744B (zh) * 2016-01-25 2018-05-29 深圳大学 一种基于深度学习的代谢质谱筛查方法及系统
WO2017172629A1 (en) * 2016-03-28 2017-10-05 Icahn School Of Medicine At Mount Sinai Systems and methods for applying deep learning to data
JP6992590B2 (ja) * 2018-02-23 2022-01-13 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
CN110364255B (zh) * 2019-06-06 2024-03-22 江苏大学 一种基于自编码器的肝病评估方法
CN110516747A (zh) * 2019-08-29 2019-11-29 电子科技大学 基于对抗生成网络和自编码结合的肺结节良恶性分类方法
CN110444294B (zh) * 2019-09-10 2023-04-25 中南大学 一种基于感知神经网络的前列腺癌辅助分析方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035283A (zh) * 2018-09-05 2018-12-18 中国医科大学附属盛京医院 一种基于随机选取分区的肺气肿精准检测与量化分析方法
CN109886465A (zh) * 2019-01-20 2019-06-14 东北电力大学 一种基于智能电表用户聚类分析的配电网负荷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Adaboost算法的多特征融合肺部PET-CT图像的肿瘤分类方法;何校栋;邢海群;王瞳;霍力;李方;张辉;;中国医学装备(第08期);全文 *

Also Published As

Publication number Publication date
CN111430024A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
Murugesan et al. A hybrid deep learning model for effective segmentation and classification of lung nodules from CT images
Chen et al. Transattunet: Multi-level attention-guided u-net with transformer for medical image segmentation
Afshar et al. From handcrafted to deep-learning-based cancer radiomics: challenges and opportunities
Fuhrman et al. A review of explainable and interpretable AI with applications in COVID‐19 imaging
Zhao et al. Prediction of Alzheimer's disease progression with multi-information generative adversarial network
Soni et al. Light weighted healthcare CNN model to detect prostate cancer on multiparametric MRI
Senousy et al. MCUa: Multi-level context and uncertainty aware dynamic deep ensemble for breast cancer histology image classification
Naik et al. Lung nodule classification on computed tomography images using deep learning
CN102165454B (zh) 用于提高计算机辅助诊断对图像处理不确定性的鲁棒性的方法
Pang et al. VGG16-T: a novel deep convolutional neural network with boosting to identify pathological type of lung cancer in early stage by CT images
US20060064017A1 (en) Hierarchical medical image view determination
CN111430024B (zh) 一种用于疾病程度分类的数据决策方法及其系统
JP7312510B1 (ja) 腫瘍微小環境を考慮した全スライド病理画像分類システム及び構築方法
EP3929936A1 (en) Automatic detection of covid-19 in chest ct images
Yu et al. A diagnostic prediction framework on auxiliary medical system for breast cancer in developing countries
CN112348800A (zh) 融合多尺度特征的密集神经网络肺部肿瘤图像识别方法
Qiao et al. Breast tumor classification based on MRI-US images by disentangling modality features
Ma et al. Blinded clinical evaluation for dementia of Alzheimer’s type classification using FDG-PET: A comparison between feature-engineered and non-feature-engineered machine learning methods
Zhao et al. AE-FLOW: autoencoders with normalizing flows for medical images anomaly detection
CN112233070A (zh) 一种平扫ct图像的影像组学特征处理方法及装置
Feng et al. Optimizing the radiomics-machine-learning model based on non-contrast enhanced CT for the simplified risk categorization of thymic epithelial tumors: A large cohort retrospective study
CN113052857A (zh) 一种基于CovSegNet的肺部病变图像分割方法
CN1823337B (zh) 用于检测医学图像中的隆起的系统和方法
CN116504406A (zh) 基于影像组合病理的肺癌术后风险模型构建方法和系统
Fichtinger et al. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2011: 14th International Conference, Toronto, Canada, September 18-22, 2011, Proceedings, Part III

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant