CN111430024A - 一种用于疾病程度分类的数据决策方法及其系统 - Google Patents

一种用于疾病程度分类的数据决策方法及其系统 Download PDF

Info

Publication number
CN111430024A
CN111430024A CN202010010514.0A CN202010010514A CN111430024A CN 111430024 A CN111430024 A CN 111430024A CN 202010010514 A CN202010010514 A CN 202010010514A CN 111430024 A CN111430024 A CN 111430024A
Authority
CN
China
Prior art keywords
data
encoder
image
index
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010010514.0A
Other languages
English (en)
Other versions
CN111430024B (zh
Inventor
吴嘉
余庚花
谭延林
常柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010010514.0A priority Critical patent/CN111430024B/zh
Publication of CN111430024A publication Critical patent/CN111430024A/zh
Application granted granted Critical
Publication of CN111430024B publication Critical patent/CN111430024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于疾病程度分类的数据决策方法及其系统,包括:对疾病的特征指标进行聚类分析,将特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow;将关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器;将训练好的自编码器与softmax分类器结合得到决策分类器,由决策分类器对CT图像进行分类并将分类结果作为分期决策的输出。本发明能够将CT图像和辅助信息结合进行疾病阶段决策的输入信息,能够快速。准确的得到疾病阶段决策结果。

Description

一种用于疾病程度分类的数据决策方法及其系统
技术领域
本发明涉及数据处理领域,具体公开了一种用于疾病程度分类的数据决策方法及其系统。
背景技术
在发展中国家,癌症问题困扰着大多数人,癌症5年的生存率达到40.5%。而乳腺癌在我国女性中最常见的癌症,乳腺癌位居女性恶性肿瘤死亡率首位,每年发病约达到30.4万。乳腺癌是城市地区的高发疾病。中国病例占全世界新诊断乳腺癌的12.2%,占全世界乳腺癌死亡病例的9.6%。但由于我国与其它国家相比,乳腺癌患者的发病年龄偏小,患者数量多,面对资源不足的情况。医疗资源和患者通常供不应求,医生平均每人每天要处理的病人数量达60人。因此,辅助医生进行分期诊断,从而根据诊断结果进行决策和预后具有重要意义。在乳腺癌诊断中,传统的显像方法(如超声、钼靶等)不能精确地检测到淋巴结的远处转移或累及的情况,这两点都对肿瘤分期起着关键作用。传统方法对于检测多病灶乳腺癌的敏感性低很多,为43.8%,而PET-CT不仅对原发性肿瘤的敏感性为93%,对多病灶肿瘤敏感性高达100%。因此,临床上一般是用放射性示踪剂18F-FDG和pet-ct的显像来为肿瘤进行诊断和明确分期。他们在乳腺癌的发现早期肿瘤,确定肿瘤分期,疗效评价,判断肿瘤复发,预后评价等方面发挥着重要作用。在医院的医疗系统中,每个病人诊疗时进行PET-CT扫描至少会生成600多张图像,每个病人产生的图像数量非常大,而在这些图像中仅仅只有少数几张图像能够作为医生诊断依据。对医生来说,每个人每天要接待上百个病人,要从每个病人产生的600多张图像中挑选出具有价值的那几张图片的工作量是非常巨大的,也是非常费神的,很容易造成人为判断上的误差。
现有的筛选工作和决策诊断均依靠人工操作。
发明内容
本发明目的在提供一种用于疾病程度分类的数据决策方法及其系统,以解决现有技术中存在的依靠人工去筛选和诊断决策使医生工作量大,效率低下的技术缺陷。
为实现上述目的,本发明提供了一种用于疾病程度分类的数据决策方法,包括以下步骤:
对疾病的特征指标进行聚类分析,将特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow
将关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器;
将训练好的自编码器与softmax分类器结合得到决策分类器,将关联度高的特征Ihigh和 CT图像输入决策分类器得到决策输出。
优选地,对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选:
删去不包含病变区域的图像,保留存在病变区域的图像。
优选地,对特征指标进行聚类分析包括以下步骤:
数据预处理,筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指标;
把同期病人数据分成一类,把病人在筛选出的D个指标作为参考值,并结合波动程度、标准范围以及参考值构建目标函数;
根据目标函数进行迭代计算得到关联度高的特征Ihigh和关联度低的特征Ilow
优选地,波动程度的计算模型为:
假设第
Figure RE-GDA0002429373120000021
期患者的第d个指标值的波动程度为
Figure RE-GDA0002429373120000022
则:
Figure RE-GDA0002429373120000023
Figure RE-GDA0002429373120000024
其中,
Figure RE-GDA0002429373120000025
为第
Figure RE-GDA00024293731200000214
期患者第d个指标的波动情况,
Figure RE-GDA0002429373120000026
为第
Figure RE-GDA0002429373120000027
期患者第d个指标的均值, Ird表示第r个患者的d个指标数值,Rκ为数据中
Figure RE-GDA00024293731200000213
期患者总数,指标的值在第
Figure RE-GDA00024293731200000215
期患者中普遍波动范围大的值,即
Figure RE-GDA0002429373120000028
值较大,则该指标d在
Figure RE-GDA0002429373120000029
期患者中没有代表性。
优选地,目标函数的模型为:
Figure RE-GDA00024293731200000210
其中,C为模糊组个数,D为指标的个数,τc为组c的聚类中心,
Figure RE-GDA00024293731200000211
为控制参数,σ为指标d 的关键值Impd的聚类中心和它们的所属矩阵,λ为拉格朗日乘子。
优选地,将关联度高的特征Ihigh和CT图像输入编码器前对输入数据进行加噪处理。
优选地,加噪处理为通过编码器为输入数据加上标记信息:
对于只含有一层隐藏层的编码器,第一层隐藏层的输出为:
Figure RE-GDA00024293731200000212
其中,w1为第一层隐藏层单元对应的权重向量,v1表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量,b1为偏差向量,加噪后的数据为:
xou=g(w2h1+b2)
Iou=g(v2h1+b′2)
对隐藏层层数为L层的编码器,则对于第l层隐藏层,由于
Figure RE-GDA0002429373120000031
第一层隐藏层输入为
Figure RE-GDA0002429373120000032
加噪后的数据为:
xou=g(wLhL-1+bL)
Iou=g(vLhL-1+b′L)
假设L层的编码器,前
Figure RE-GDA0002429373120000033
层为编码层,后
Figure RE-GDA0002429373120000034
为解码层,将图像信息
Figure RE-GDA0002429373120000035
作为编码器的输入,输出为输入数据经过编码和解码的重构版本xou,并通过最小化损失来训练模型,即最小化输入x和它的重构版本xou的差值。
优选地,损失函数的模型为:
Figure RE-GDA0002429373120000036
优选地,对编码器进行训练前需要对编码器添加相似性约束,相似性约束模型为:
Figure RE-GDA0002429373120000037
对于相似性约束模型需优化的问题为:
Figure RE-GDA0002429373120000038
依托于上述方法,本发明还提供了一种用于疾病程度分类的数据决策系统,包括处理器、存储器以及存储于存储器上的计算机程序,处理器执行计算机程序时实现上述任一的方法。
本发明具有以下有益效果:
1、本发明的将CT图像和辅助信息结合进行疾病阶段决策的输入信息,能够快速。准确的得到疾病阶段决策结果。
2、本发明能够将快速、准确的对CT图像进行筛选,杜绝了人工操作效率低,工作量大,准确度差的弊端。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本研究提出的基于深度学习的乳腺癌数据分析提取的模型图;
图2是训练的编码器结合分类器的分期决策模型图;
图3a是实施例1中湘雅医院2013至2017年间三家医院乳腺癌患者CEA的平均表现;
图3b是实施例1中湘雅医院2011至2015年三家医院乳腺癌患者CA153的平均表现;
图3c是实施例1中湘雅医院2011至2015年间三家医院乳腺癌患者CA125的平均表现;
图3d是实施例1中湘雅医院2011至2015年三家医院乳腺癌患者CA19-9的平均表现;
图4a是实施例1中不同隐藏层数对模型准确度的影响;
图4b是实施例1中不同隐藏层数对模型严重误差率的影响;
图5是实施例1中是在不同的时期内分期正确率,当用户添加辅助特征信息和不添加辅助特征信息时的分期正确率;
图6是实施例1中是在不同辅助数据破坏率情况下,不同方法在病人分期的预测准确性;
图7是实施例1中是在不同图像破坏率情况下,不同方法在病人分期的预测准确性;
图8a是实施例1中是不同方法在不同测试集情况下的分期准确率;
图8b是实施例1中是不同方法在不同测试集情况下的分期误差率;
图9是本发明一种用于疾病程度分类的数据决策方法流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明的目的是提出一种以机器学习为基础的新型应用技术,近年来作为医学信息融合的辅助诊断应用,有望改善发展中国家当前的医疗卫生状况。本发明通过建立的医疗系统的数据预处理模块对病人的图像进行一次预筛选,提供有价值的图像信息以减少数据维度,然后通过医疗分期决策模块使用选择的特征的诊断参数添加额外信息结合提取的图像信息来进行分期决策,以提供辅助医生分期诊断的方法,以便医生确定后期的治疗方案。通过pet-ct 图像可以清楚的展示出病变区域和病变范围等,乳腺癌治疗方案的制定取决于肿瘤的分期。因此,PET-CT检查对于准确分期并给出指导性的治疗方案是非常有价值的,尤其对分期较晚的乳腺癌患者。本什么在机器诊断和医疗决策模块设计的基础上,通过图像采集和双参数机器决策方法获取数据。图像与诊断参数相结合是解决大数据环境下患者诊断问题的有效途径。
实施例1
本发明提供了一种用于疾病程度分类的数据决策方法,包括以下步骤:
S1:对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选。
由于一个病人拍摄一次pet-ct图像的数据量巨大,但其中有很多是不包含病变区域的图像,因此,本实施例首先对图像进行了一次筛选,提取出病变区域的几张或十几张图像,删去不包含病变区域的图像。图像筛选依据是图像的密度分割,在机器扫描产生的图像中,有密度特别高的地方一般会呈现区域块,因此,极大可能包含病变区域,筛选出含有病变区域的图片。
S2:对疾病的特征指标进行聚类分析,将特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow
本实施例提出了一种指标参数筛选的方法,减少肿瘤标记物假阳性,假阴性的影响。通过对数千名不同期的患者记录进行指标相似性分析,来找到在癌症每期分类中影响较大的决策特征。结合筛选的关联度较强的肿瘤标记物参数作为辅助参数输入编码器中训练提取特征。
对特征指标进行聚类分析包括以下步骤:
S201:数据预处理,筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指。
S202:把同期病人数据分成一类,把病人在筛选出的D个指标作为参考值,并结合波动程度、标准范围以及参考值构建目标函数。
把同期病人数据分成一类,把病人在上一步筛选出的D个指标作为参考值。假设
Figure RE-GDA0002429373120000051
期患者有
Figure RE-GDA0002429373120000052
个,
Figure RE-GDA0002429373120000053
则第r个患者的指标记录为Ir={Ir1,Ir2,…,IrD}。通过相似病人的指标波动情况来判断病人的d指标在
Figure RE-GDA00024293731200000515
期情况下的关键程度。当I期所有病人的某一指标的均值在正常范围内,则表明大部分
Figure RE-GDA00024293731200000516
期患者的该指标有很大概率是在正常范围内。变化波动较小或规律性波动的指标的集合大概率可以作为辅助分期决策时判断为I期的重要指标。因此,假设第
Figure RE-GDA00024293731200000517
期患者的第d个指标值的波动程度为
Figure RE-GDA0002429373120000054
定义如下:
Figure RE-GDA0002429373120000055
Figure RE-GDA0002429373120000056
其中,
Figure RE-GDA0002429373120000057
为第
Figure RE-GDA0002429373120000058
期患者第d个指标的波动情况,
Figure RE-GDA0002429373120000059
为第
Figure RE-GDA00024293731200000510
期患者第d个指标的均值。 Ird表示第r个患者的d个指标数值,Rκ为数据中
Figure RE-GDA00024293731200000511
期患者总数,指标的值在第
Figure RE-GDA00024293731200000512
期患者中普遍波动范围大的值,即
Figure RE-GDA00024293731200000513
值较大,则该指标d在
Figure RE-GDA00024293731200000518
期患者中没有代表性。
但是仅仅靠波动情况找到具有代表性指标欠缺一些参照性。因此,假设正常范围内阈值为标准值ηd,大多指标是一个区间范围内
Figure RE-GDA00024293731200000514
则指标一般性与标准值的距离为:
Figure RE-GDA0002429373120000061
当指标d的值大部分在正常范围内时,它的距离值disd一般较小,为了提高异常指标的重要性,定义检测指标关键值为
Figure RE-GDA0002429373120000062
其中,
Figure RE-GDA0002429373120000063
表示第
Figure RE-GDA0002429373120000064
期癌症中第d个指标的重要性,波动情况越少的指标
Figure RE-GDA0002429373120000065
值越小,不失一般性,该期患者的第d个指标值大多在
Figure RE-GDA0002429373120000066
值附近波动和聚集。
把D个指标按照计算的关键值
Figure RE-GDA0002429373120000067
分为C个模糊组,C=3。并求每组的聚类中心,使非相似性指标重要性值的价值函数越小。并通过[0,1]范围空间的值来判断关键值在各组中隶属度。所有数据的隶属度和为1,
Figure RE-GDA0002429373120000068
d∈(1,D)。它的目标函数为:
Figure RE-GDA0002429373120000069
其中,σcd∈(0,1),τc为组c的聚类中心,d′cd=||τc-Impd||第i个聚类中心zi与第d个指标关键值之间的欧几里得距离。它是一个加权值,构造新的目标函数为:
Figure RE-GDA00024293731200000610
其中,对参数求导,最小化目标函数值的方法为
Figure RE-GDA00024293731200000611
Figure RE-GDA00024293731200000612
S203:根据目标函数进行迭代计算得到关联度高的特征Ihigh和关联度低的特征Ilow
通过迭代的方式确定指标d的关键值Impd的聚类中心和它们的所属矩阵σ。迭代算法如算法1所示通过聚类参数C和控制参数
Figure RE-GDA00024293731200000614
来调整聚类效果,并根据每期分类结果求出最终的关联度高的标记和关联度低的标记。
算法1:标记参数特征选择算法
输入:
Figure RE-GDA00024293731200000613
I
输出:Ihigh、Ilow
1:Initialσ[c,d]in[0,1]use formula 11;i=1;
2:Compute τc use formula 10
3:vali is get value use formula 4
4:If(vali<thr or vali-vali-1<thr)break;
5:Else
6:Compute σ use formula 11
7:i=i+1;
8:Return step2;
9:C[d]←select Maxnum(σ)
10:
Figure RE-GDA0002429373120000071
11:
Figure RE-GDA0002429373120000072
12:
Figure RE-GDA0002429373120000073
13:
Figure RE-GDA0002429373120000074
14:Ilowremove(Ihigh·getMixer(Ilow))
Return Ihigh、Ilow
S3:将关联度高的特征Ihigh和CT图像输入编码器前对输入数据进行加噪处理。
在实际应用中,图像可能会受到噪声的影响。为了使pet-ct图像的处理更具有鲁棒性。本实施例通过降噪自编码器来提取图像特征,再除去图像像素点节点之间相似性特征造成的影响,然后通过提取的标记参数辅助训练编码器,使提取的特征具有更好的表示性。为此本实施例提出了一个混合模型,利用筛选的图像和标记信息共同进行特征提取并在这一过程中保留输入数据的原始结构。
加噪处理为通过编码器为输入数据加上标记信息:
本实施例首先提出了结合标记提取特征的APSDAE模型,给定一组筛选后的图像的数据集 x={x1,x2,…}∈Rm和筛选出的标记参数集I={I,I2,…}∈Rn,每一项xi都是编码器的一个原 始输入。由于pet-ct图像可能会受噪声干扰,为了能够使模型更具有鲁棒性,在训练编码器 时,会使用加噪后的数据。因此,通过对数据进行加噪作为编码的输入,即,
Figure RE-GDA0002526630850000071
Figure RE-GDA0002526630850000072
我们通过去噪自编码器加上标记信息作为另一辅助决策的元素。对于只含有 一层的自编码器第一层隐藏层,它的输出有:
Figure RE-GDA0002429373120000081
其中,w1为第一层隐藏层单元对应的权重向量,v1表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量,b1为偏差向量。则只含有一层隐藏层的自编码器输出为:
xou=g(w2h1+b2)
Iou=g(v2h1+b'2)
通过堆叠自编码器使它能有更精确更丰富的表示,使编码器可以适用于更多复杂的任务。因此,本实施例假设隐藏层层数为L层,则对于第l层隐藏层,有
Figure RE-GDA0002429373120000082
第一层隐藏层输入为
Figure RE-GDA0002429373120000083
则第L层输出表示为:
xou=g(wLhL-1+bL)
Iou=g(vLhL-1+b'L)
假设L层的自编码器,前
Figure RE-GDA0002429373120000084
层为编码层,后
Figure RE-GDA0002429373120000085
勾解码层。将corruption版本的图像信启
Figure RE-GDA0002429373120000086
作为自编码器的输入,输出为输入数据经过编码和解码的重构版本xou。通过最小化损失来训练模型,即最小化输入x和它的重构版本xou的差值。因此,该优化问题的目标函数考虑到最小化损失问题,损失函数可表示为:
Figure RE-GDA0002429373120000087
λ是拉格朗日乘子,为了求原函数的极值引入的。
另外,考虑到图像数据的相似性问题,通过给编码器添加相似性约束,在输入数据
Figure RE-GDA0002429373120000088
中,使用编码器在它上面建立相似关系来提取图像特征之间的相似性。当两个数据空间中的值越接近,则它们输入的差值越小,意味着相似性越高,用Skj来表示:
Figure RE-GDA0002429373120000089
通过在自编码器上添加额外因素来保留输入数据的结构,当输入空间中的两个数据xk,xj的相似性越高,在图像中反映的是像素点差值越小,则图像越接近,则我们定义优化问题为:
Figure RE-GDA00024293731200000810
通过使用结合标记的SDAE和在编码器中添加相似性约束来提取有效的非冗余特征,为了是模型训练过程中损失最小,通过建立损失函数来训练模型:
L(w,v,b)=LA(w,v,b)+LB(w,b)
为解决上式的优化问题,我们通过梯度下降方法来使函数最小情况下的权重值和偏差。本实施例设计的模型如图1所示。
S4:将关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器。
这样,普通的编码器就训练成了适用于本发明的自编码器了。
S5:将训练好的自编码器与softmax分类器结合得到决策分类器,将关联度高的特征Ihigh和CT图像输入决策分类器得到决策输出。
当然,自编码器也可以与其他分类器结合。
最后,如图2所示,将训练的编码器结合softmax分类器,由分类器分为四类作为分期决策的输出。
依托于上述方法,本发明还提供了一种用于疾病程度分类的数据决策系统,包括处理器、存储器以及存储于存储器上的计算机程序,处理器执行计算机程序时实现上述任一的方法。
实施例2
在本实施例中,所使用的医疗信息来自中国三所一流医院:湘雅医院、湘雅附属二医院、湘雅附属三医院。信息记录中心根据三家医院的不同系统收集、分类、预处理和集成与乳腺癌相关的各类医疗数据。本实施例对近年来乳腺癌患者的pet图像和指标检测等信息进行统计和整理,就2013年至2017年三家医院乳腺癌病例关键参数的平均表现而言,自2011年至 2015年期间,与乳腺癌有关的大量医疗数据被三家医院的不同系统严格记录、预处理和分类。从医院的乳腺癌患者的数据中,整理出7362例乳腺癌患者的数据进行分析。本实施例选取其中80%的数据作为训练集,20%的数据作为测试集。
此外,在数据训练过程中,可以看到每期患者的诊断参数的变化情况,为了保证选择的参数组合特异性更强,本实施例选择了它们的并集作为重要性参数。通过图3所示的统计来分析每个参数的指标,如表1所示,显示的是正常人的该指标的一般性正常范围。
表1
Figure RE-GDA0002429373120000091
分析结果如下:
图3a显示了近5年的患者数据的CEA指标的平均情况。从表1中可以看到CEA的正常范围在0-5g/ml之间。而从图中可以看出乳腺癌患者的CEA指标平均值超出正常范围,平均比正常人超出7倍,近5年的数据显示患者在这一指标上均属于异常值。图3b显示了近5年患者数据的CA15-3指标的平均情况。从表1中可以看到CA15-3的正常范围在0-30IU/ml之间。而从图中可以看出乳腺癌患者的CA15-3指标平均值超出正常范围,平均比正常人超出4倍,近5年的数据显示患者在这一指标上均属于异常值。图3c显示了近5年的患者数据的CA125指标的平均情况。从表1中可以看到CA125的正常范围在0-35IU/ml之间。而从图中可以看出乳腺癌患者的CA125指标平均值超出正常范围,平均比正常人超出5倍,近5年的数据显示患者在这一指标上均属于异常值。图3d显示了近5年的患者数据的CA19-9指标的平均情况。从表1中可以看到CA19-9的正常范围在0-37IU/ml之间。而从图中可以看出乳腺癌患者的CA19-9指标平均值超出正常范围,平均比正常人超出3倍,近5年的数据显示患者在这一指标上均属于异常值。
对于每个患者的图像信息和诊断参数信息,通过本发明的模型为患者进行分期。仅使用图像作为一组数据,使用图像结合诊断信息作为另一组数据。定义一些相关评分指标来评价模型的性能。其中TP表示正确分期的病人数,正确分期指的是实际是某期的患者正确分为这一期的情况。TN表示错误分期的病人数,错误分期指的是实际是某期的患者分为其他期的情况。
Figure RE-GDA0002429373120000101
表示第i期病人正确分期的病人数,
Figure RE-GDA0002429373120000102
表示第i期病人错误分期的病人数。TL表示I、 II期患者被过度诊断成III、IV期患者的数量,TH表示III、IV期患者被轻度诊断成I、II期患者。
则分期的灵敏度设为
Figure RE-GDA0002429373120000103
评价模型的识别准确性设为:
Figure RE-GDA0002429373120000104
由于在数据预处理过程中用分割的方法提取了每个患者的包含病变区域的图像作为模型的输入,使用本发明提出的特征筛选的方式筛选出目前比较具有特异性的特征组合作为辅助信息的输入。通过这两种方式降低模型输入数据的维数。因此,本实施例把数据分成了包含辅助信息和不包含辅助信息的两组数据,且分别把他们输入模型中进行训练,最终通过 softmax分类器分类结果检测模型获得的特征表示的性能。
图4显示的是实施例1研究了不同隐藏层数目对模型性能的影响,比较了在不同层数下模型的评估值。结果如图4a所示,可以看到,实施例1的方法对于提供辅助特征的模型具有较高的识别准确率。实施例1所提出的方法,在设置三层隐藏层情况下对于两组数据都有较好的表现,表明在三层隐藏层(包括编码器和解码器共五层)的结构是适合实施例1提出的模型。当隐藏层数小于3时,分类的准确度随隐藏层数的增加而提高。但是,当隐藏层数超过3层时,分类的精确值没有太大的变化。这可能是由于缺少足够的图像块来拟合网络中的大量参数造成的。
从图4b可以看出,失误率随着隐藏层的数量增多而减少。在1层隐藏层情况下,添加辅助信息训练和模型和不添加辅助信息的模型的性能没有太大的差别,这可能是因为没有深度学习使特征的提取不具有表示性。随着层数的增加,失误率提高不大甚至有上升的趋势。这可能是由于层数过多可能会产生梯度消失,使模型并没有表现出较大的改进,在数据量增多的情况下,可能还会造成训练过多的时间而资源浪费。
本实施例把辅助信息添加污染作为输入来看模型的测试结果,对辅助信息平均每间隔2 个,4个和8个做一次污染,污染的方式是加上一个(0,1)范围内的随机值,污染后的数据表示为2-I,4-I,8-I原始数据表示为I。分别把这些污染后的数据作为模型辅助信息的输入。同样,图像也做相同的污染处理,分别把污染率设置为20%,40%,60%来污染图像。
图5中展示的是患者在不同期数情况下添加辅助特征信息和不添加辅助特征信息情况下的分期准确率,这一准确率对应的是患者在某期情况下分期正确的概率。从图中可以看出含辅助特征信息的模型对于每期的准确度影响和变化不大,而对于不含辅助特征信息的模型在期数较高情况下性能有所下降。
图6可以看出在辅助信息污染率较高的情况下,对于I、II期的患者的预测准确度产生较大的影响,对于III、IV期患者的预测准确度影响较小。从图7可以看出,图像污染率较大的情况下,对于III、IV期患者的预测准确度影响较大,对于I、II期的患者的预测准确度影响较小。这可能是因为图像对于分期越高的患者的预测,具有较高的精确度和特异性。分期较低的患者通过图像和肿瘤标志物联合检测判断乳腺癌诊断具有更高地敏感性。
把湘雅,湘雅附一和湘雅附二三所医院的数据分别每所医院预留总数据的20%作为测试集,分别表示为Te0、Te1、Te2。然后三所医院分别按照每所医院的数据占总数据的比例来选取总数据的20%的数量作为新的测试集,表示为Te3。然后,将本发明提出的模型APSDAE与 PSDAE、SDAE进行了比较。其中,PSDAE是除去了我们的模型中添加信息辅助训练的模块。这三个模型都是从未标记的数据中学习潜在特征并通过分类器进行微调来建立特征提取器。本实施例使用相同数量的隐藏层,并且隐藏层中的神经元数量设置与APSDAE模型相同。通过这三个训练的模型分别连上softmax分类器来训练分类器和微调模型,然后使用8次交叉验证计算每个模型的评价指标值Accu,Erro。
图8显示了使用AP-SDAE与P-SDAE、SDAE三个模型和softmax分类器的评价结果,从中可以发现,AP-SDAE在不同方式划分的数据集中都有比较好的性能,通过图8中不同方法的精确值比较,说明无监督的方法在利用深层神经网络提取特征方面有比较好的效果,能够获取更好的分类特征。在四个数据集上,AP-SDAE在精确度,误差率都有相对稳定并较好的表现,能够说明本发明的模型具有一定的泛化能力。而AP-SDAE的性能在这些数据集上都优于另外两种方法,且PSDAE比SDAE的精确度和泛化能力都更好,说明辅助信息和保留图像的特征结构的这两个改进策略都在提高性能方面发挥着重要作用。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于疾病程度分类的数据决策方法,其特征在于,包括以下步骤:
对疾病的特征指标进行聚类分析,将所述特征指标划分为关联度高的特征Ihigh和关联度低的特征Ilow
将所述关联度高的特征Ihigh和CT图像输入编码器进行训练得到训练后的自编码器;
将训练好的自编码器与softmax分类器结合得到决策分类器,将所述关联度高的特征Ihigh和CT图像输入所述决策分类器得到决策输出。
2.根据权利要求1所述的一种用于疾病程度分类的数据决策方法,其特征在于,对特征指标进行聚类分析前需对提取特征指标的CT图像进行筛选:
删去不包含病变区域的图像,保留存在病变区域的图像。
3.根据权利要求2所述的一种用于疾病程度分类的数据决策方法,其特征在于,对特征指标进行聚类分析包括以下步骤:
数据预处理,筛选出存在病变区域的CT图像,根据筛选后的CT图像筛选出乳腺癌诊断相关的肿瘤标志物和病理特征中量化的指标;
把同期病人数据分成一类,把病人在筛选出的D个指标作为参考值,并结合波动程度、标准范围以及所述参考值构建目标函数;
根据所述目标函数进行迭代计算得到关联度高的特征Ihigh和关联度低的特征Ilow
4.根据权利要求3所述的一种用于疾病程度分类的数据决策方法,其特征在于,所述波动程度的计算模型为:
假设第
Figure FDA0002356975460000011
期患者的第d个指标值的波动程度为
Figure FDA0002356975460000012
则:
Figure FDA0002356975460000013
Figure FDA0002356975460000014
其中,
Figure FDA0002356975460000015
为第
Figure FDA0002356975460000016
期患者第d个指标的波动情况,
Figure FDA0002356975460000017
为第
Figure FDA0002356975460000018
期患者第d个指标的均值,Ird表示第r个患者的d个指标数值,Rκ为数据中
Figure FDA00023569754600000112
期患者总数,指标的值在第
Figure FDA0002356975460000019
期患者中普遍波动范围大的值,即
Figure FDA00023569754600000110
值较大,则该指标d在
Figure FDA00023569754600000111
期患者中没有代表性。
5.根据权利要求3所述的一种用于疾病程度分类的数据决策方法,其特征在于,目标函数的模型为:
Figure FDA0002356975460000021
其中,C为模糊组个数,D为指标的个数,τc为组c的聚类中心,
Figure FDA0002356975460000029
为控制参数,σ为指标d的关键值Impd的聚类中心和它们的所属矩阵,λ为拉格朗日乘子。
6.根据权利要求1所述的一种用于疾病程度分类的数据决策方法,其特征在于,将所述关联度高的特征Ihigh和CT图像输入编码器前对输入数据进行加噪处理。
7.根据权利要求6所述的一种用于疾病程度分类的数据决策方法,其特征在于,所述加噪处理为通过编码器为输入数据加上标记信息:
对于只含有一层隐藏层的编码器,第一层隐藏层的输出为:
Figure FDA0002356975460000022
其中,w1为第一层隐藏层单元对应的权重向量,v1表示第一层隐藏层单元所对应的辅助决策信息对应的权重向量,b1为偏差向量,
加噪后的数据为:
xou=g(w2h1+b2)
Iou=g(v2h1+b′2)
对隐藏层层数为L层的编码器,则对于第l层隐藏层,由于
Figure FDA0002356975460000024
第一层隐藏层输入为
Figure FDA0002356975460000025
加噪后的数据为:
xou=g(wLhL-1+bL)
Iou=g(vLhL-1+b′L)
假设L层的编码器,前
Figure FDA0002356975460000026
层为编码层,后
Figure FDA0002356975460000027
为解码层,将图像信息
Figure FDA0002356975460000028
作为编码器的输入,输出为输入数据经过编码和解码的重构版本xou,并通过最小化损失来训练模型,即最小化输入x和它的重构版本xou的差值。
8.根据权利要求6所述的一种用于疾病程度分类的数据决策方法,其特征在于,所述损失函数的模型为:
Figure FDA0002356975460000023
9.根据权利要求1所述的一种用于疾病程度分类的数据决策方法,其特征在于,对编码器进行训练前需要对编码器添加相似性约束,相似性约束模型为:
Figure FDA0002356975460000031
对于相似性约束模型需优化的问题为:
Figure FDA0002356975460000032
10.一种用于疾病程度分类的数据决策系统,包括处理器、存储器以及存储于所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-9任一所述的方法。
CN202010010514.0A 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统 Active CN111430024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010010514.0A CN111430024B (zh) 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010010514.0A CN111430024B (zh) 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统

Publications (2)

Publication Number Publication Date
CN111430024A true CN111430024A (zh) 2020-07-17
CN111430024B CN111430024B (zh) 2023-07-11

Family

ID=71546959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010010514.0A Active CN111430024B (zh) 2020-01-06 2020-01-06 一种用于疾病程度分类的数据决策方法及其系统

Country Status (1)

Country Link
CN (1) CN111430024B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590902A (zh) * 2021-08-13 2021-11-02 郑州大学 基于大数据的恶性血液病个性化的信息支持系统
CN114388135A (zh) * 2022-01-19 2022-04-22 韩昕倬 一种孕妇指标数据分析方法、装置、设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165837A1 (en) * 1998-05-01 2002-11-07 Hong Zhang Computer-aided image analysis
CN1839391A (zh) * 2003-06-25 2006-09-27 美国西门子医疗解决公司 用于乳房成像的自动诊断和决策支持的系统和方法
CN105718744A (zh) * 2016-01-25 2016-06-29 深圳大学 一种基于深度学习的代谢质谱筛查方法及系统
CN109035283A (zh) * 2018-09-05 2018-12-18 中国医科大学附属盛京医院 一种基于随机选取分区的肺气肿精准检测与量化分析方法
CN109886465A (zh) * 2019-01-20 2019-06-14 东北电力大学 一种基于智能电表用户聚类分析的配电网负荷预测方法
CN110364255A (zh) * 2019-06-06 2019-10-22 江苏大学 一种基于自编码器的肝病评估方法
CN110444294A (zh) * 2019-09-10 2019-11-12 中南大学 一种基于感知神经网络的前列腺癌辅助分析方法及设备
CN110516747A (zh) * 2019-08-29 2019-11-29 电子科技大学 基于对抗生成网络和自编码结合的肺结节良恶性分类方法
US20200327404A1 (en) * 2016-03-28 2020-10-15 Icahn School Of Medicine At Mount Sinai Systems and methods for applying deep learning to data
US20210089827A1 (en) * 2018-02-23 2021-03-25 Nippon Telegraph And Telephone Corporation Feature representation device, feature representation method, and program

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165837A1 (en) * 1998-05-01 2002-11-07 Hong Zhang Computer-aided image analysis
CN1839391A (zh) * 2003-06-25 2006-09-27 美国西门子医疗解决公司 用于乳房成像的自动诊断和决策支持的系统和方法
CN105718744A (zh) * 2016-01-25 2016-06-29 深圳大学 一种基于深度学习的代谢质谱筛查方法及系统
US20200327404A1 (en) * 2016-03-28 2020-10-15 Icahn School Of Medicine At Mount Sinai Systems and methods for applying deep learning to data
US20210089827A1 (en) * 2018-02-23 2021-03-25 Nippon Telegraph And Telephone Corporation Feature representation device, feature representation method, and program
CN109035283A (zh) * 2018-09-05 2018-12-18 中国医科大学附属盛京医院 一种基于随机选取分区的肺气肿精准检测与量化分析方法
CN109886465A (zh) * 2019-01-20 2019-06-14 东北电力大学 一种基于智能电表用户聚类分析的配电网负荷预测方法
CN110364255A (zh) * 2019-06-06 2019-10-22 江苏大学 一种基于自编码器的肝病评估方法
CN110516747A (zh) * 2019-08-29 2019-11-29 电子科技大学 基于对抗生成网络和自编码结合的肺结节良恶性分类方法
CN110444294A (zh) * 2019-09-10 2019-11-12 中南大学 一种基于感知神经网络的前列腺癌辅助分析方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何校栋;邢海群;王瞳;霍力;李方;张辉;: "基于Adaboost算法的多特征融合肺部PET-CT图像的肿瘤分类方法", 中国医学装备, no. 08 *
雒续源等: "基于移动医疗大数据平台下深度最优匹配算法的机会网络转发机制", pages 1799 - 1805 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590902A (zh) * 2021-08-13 2021-11-02 郑州大学 基于大数据的恶性血液病个性化的信息支持系统
CN113590902B (zh) * 2021-08-13 2022-07-12 郑州大学 基于大数据的恶性血液病个性化的信息支持系统
CN114388135A (zh) * 2022-01-19 2022-04-22 韩昕倬 一种孕妇指标数据分析方法、装置、设备及可读存储介质
CN114388135B (zh) * 2022-01-19 2022-07-26 韩昕倬 一种孕妇指标数据分析方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN111430024B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
Li et al. Cov-Net: A computer-aided diagnosis method for recognizing COVID-19 from chest X-ray images via machine vision
Fuhrman et al. A review of explainable and interpretable AI with applications in COVID‐19 imaging
Tufail et al. Binary classification of Alzheimer’s disease using sMRI imaging modality and deep learning
Senousy et al. MCUa: Multi-level context and uncertainty aware dynamic deep ensemble for breast cancer histology image classification
Khan et al. Intelligent pneumonia identification from chest x-rays: A systematic literature review
US20060064017A1 (en) Hierarchical medical image view determination
CN109064455B (zh) 一种基于bi-rads的乳腺超声图像多尺度融合的分类方法
Henschke et al. Neural networks for the analysis of small pulmonary nodules
CN112150442A (zh) 基于深度卷积神经网络及多实例学习的新冠诊断系统
Rafael-Palou et al. Re-identification and growth detection of pulmonary nodules without image registration using 3d siamese neural networks
CN112348800A (zh) 融合多尺度特征的密集神经网络肺部肿瘤图像识别方法
CN111430024B (zh) 一种用于疾病程度分类的数据决策方法及其系统
Liu et al. A fast online COVID-19 diagnostic system with chest CT scans
CN111767952A (zh) 一种可解释的肺结节良恶性分类方法
Sivakumar et al. Lung nodule segmentation through unsupervised clustering models
CN112233070A (zh) 一种平扫ct图像的影像组学特征处理方法及装置
Liang et al. Dense networks with relative location awareness for thorax disease identification
Zhang et al. THAN: task-driven hierarchical attention network for the diagnosis of mild cognitive impairment and Alzheimer’s disease
Tian et al. Radiomics and Its Clinical Application: Artificial Intelligence and Medical Big Data
Kumar et al. Detection and diagnosis of COVID‐19 infection in lungs images using deep learning techniques
CN114581698A (zh) 一种基于空间交叉注意力机制特征融合的目标分类方法
Xu et al. Identification of benign and malignant lung nodules in CT images based on ensemble learning method
CN113902702A (zh) 一种基于计算机断层扫描的肺结节良恶性辅助诊断系统
CN116228759B (zh) 肾细胞癌类型的计算机辅助诊断系统及设备
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant