CN117423467B - 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置 - Google Patents

面向医学临床诊断的缺失值感知和容忍深度网络方法和装置 Download PDF

Info

Publication number
CN117423467B
CN117423467B CN202311353255.1A CN202311353255A CN117423467B CN 117423467 B CN117423467 B CN 117423467B CN 202311353255 A CN202311353255 A CN 202311353255A CN 117423467 B CN117423467 B CN 117423467B
Authority
CN
China
Prior art keywords
missing
value
clinical diagnosis
variable
depth network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311353255.1A
Other languages
English (en)
Other versions
CN117423467A (zh
Inventor
高理文
张意锋
吴荷菁
张栩
江其龙
陈凯佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University of Traditional Chinese Medicine
Original Assignee
Guangzhou University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University of Traditional Chinese Medicine filed Critical Guangzhou University of Traditional Chinese Medicine
Priority to CN202311353255.1A priority Critical patent/CN117423467B/zh
Publication of CN117423467A publication Critical patent/CN117423467A/zh
Application granted granted Critical
Publication of CN117423467B publication Critical patent/CN117423467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开一种面向医学临床诊断的缺失值感知和容忍深度网络方法和装置,方法包括以下步骤:S1:根据临床诊断文字记录,对号入座地录入预设变量的值,形成医学临床诊断记录;同时根据变量缺失情况填写变量非缺失标记;S2:建立缺失值感知和容忍深度网络,缺失值感知和容忍深度网络被设置为自动过滤医学临床诊断记录的变量缺失值;S3:利用步骤S1得到的医学临床诊断记录和变量非缺失标记训练缺失值感知和容忍深度网络,得到面向医学临床诊断的缺失值感知和容忍深度网络;S4:利用面向医学临床诊断的缺失值感知和容忍深度网络对待分类的医学临床诊断记录进行分类。本实施例中把变量非缺失标记作为深度网络的一部分输入,取得较好的分类结果。

Description

面向医学临床诊断的缺失值感知和容忍深度网络方法和装置
技术领域
本发明涉及深度网络技术领域,更具体地,涉及一种面向医学临床诊断的缺失值感知和容忍深度网络方法和装置。
背景技术
涉及数据处理分析的课题研究或工程应用中,数据缺失问题,一直是需要克服的困难。尤其是医学临床中,病例资料缺项是很正常的现象。其缺失值的情况分两种,一种是主动缺失。也就是,医生认为:在该病例中,某项体征或生理参数(在数据处理中就是变量)参考作用不大,不需要花费大的代价去获得,从而形成了缺失。在这种情况下,医生凭借已有的体征和生理参数,就能准确作出诊断。于是,模型也应该通过训练获得这样的能力。另一类则是被动缺失。因病人的经济及其它原因,未能进行某项检查;又或者进行的是线上诊断,一些查体操作无法进行;还有可能是医生问诊时,病人对该项情况记忆不清或感觉模棱两可,未给出确切的回答。
现有的方法是先依赖现有数据来对缺失值进行填充,然后基于完整的训练数据进行分类训练,本质上,是先利用已有数据估算缺失位置的值,填充完整后再训练模型来进行分类预测。这样的断开的分步操作往往有一个问题,缺失值填充时,以缺失值所在变量原有的真实值为贴近目标。这样得到的填充值,不一定有利于最终的分类。
发明内容
本发明的目的之一是提供一种面向医学临床诊断的缺失值感知和容忍深度网络方法,克服或缓解临床数据中的数据缺失问题,提高临床诊断机器模型的准确性;本发明的目的之一是提供一种面向医学临床诊断的缺失值感知和容忍深度网络装置。
为解决上述技术问题,本发明的技术方案如下:
本发明提供一种面向医学临床诊断的缺失值感知和容忍深度网络方法,包括以下步骤:
S1:根据临床诊断文字记录,对号入座地录入预设变量的值,形成医学临床诊断记录;同时根据变量缺失情况填写变量非缺失标记;并录入临床诊断结果,形成诊断分类结果标签;
S2:建立缺失值感知和容忍深度网络,所述缺失值感知和容忍深度网络的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输出为临床诊断分类结果,所述缺失值感知和容忍深度网络被设置为自动过滤医学临床诊断记录的变量缺失值;
S3:以步骤S1得到的医学临床诊断记录和变量非缺失标记为输入,以步骤S1得到的诊断分类结果标签为标记,训练所述缺失值感知和容忍深度网络,得到面向医学临床诊断的缺失值感知和容忍深度网络;
S4:利用所述面向医学临床诊断的缺失值感知和容忍深度网络对待分类的医学临床诊断记录进行分类。
进一步的,步骤S1中所述医学临床诊断记录包括多个变量,每一变量对应一个所述变量非缺失标记,所述变量非缺失标记用于表示对应变量是正常值还是缺失值。
进一步的,所述变量非缺失标记表示所述医学临床诊断记录中的对应变量是正常值还是缺失值,包括:
令X为任意变量,notMissingFlatX为与X对应的变量非缺失标记;
当X的值是缺失值时,设置notMissingFlatX为0;
当X的值是正常值时,设置notMissingFlatX为1。
进一步的,步骤S2中所述缺失值感知和容忍深度网络为深度网络,且所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值。
进一步的,所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值,包括:
所述缺失值感知和容忍深度网络的输入层的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输入层对所述医学临床诊断记录的任意变量X的输出Y为:
Y=(aX+b)×notMissingFlatX
式中,a、b为网络参数。
本发明还提供一种面向医学临床诊断的缺失值感知和容忍深度网络装置,包括:
数据模块,根据临床诊断文字记录,对号入座地录入预设变量的值,形成医学临床诊断记录;同时根据变量缺失情况填写变量非缺失标记;并录入临床诊断结果,形成诊断分类结果标签;
网络模块,所述网络模块用于建立缺失值感知和容忍深度网络,所述缺失值感知和容忍深度网络的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输出为临床诊断分类结果,所述缺失值感知和容忍深度网络被设置为自动过滤医学临床诊断记录的变量缺失值;
训练模块,所述训练模块以所述数据模块得到的医学临床诊断记录和变量非缺失标记为输入,以所述数据模块得到的诊断分类结果标签为标记,训练所述缺失值感知和容忍深度网络,得到面向医学临床诊断的缺失值感知和容忍深度网络;
分类模块,所述分类模块利用所述面向医学临床诊断的缺失值感知和容忍深度网络对待分类的临床诊断记录进行分类。
进一步的,数据模块中所述医学临床诊断记录包括多个变量,每一变量对应一个所述变量非缺失标记,所述变量非缺失标记用于表示对应变量是正常值还是缺失值。
进一步的,数据模块所述变量非缺失标记表示所述医学临床诊断记录中的对应变量是正常值还是缺失值,包括:
令X为任意变量,notMissingFlatX为与X对应的变量非缺失标记;
当X的值是缺失值时,设置notMissingFlatX为0;
当X的值是正常值时,设置notMissingFlatX为1。
进一步的,网络模块中所述缺失值感知和容忍深度网络为深度网络,且所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值。
进一步的,网络模块中所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值,包括:
所述缺失值感知和容忍深度网络的输入层的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输入层对所述医学临床诊断记录的任意变量X的输出Y为:
Y=(aX+b)×notMissingFlatX
式中,a、b为网络参数。
与现有技术相比,本发明技术方案的有益效果是:
1、本发明打破了传统思路,让模型知道哪些记录的哪些变量缺失。模型能够在适当位置断开缺失值的输入,仅使用真实的数据计算分类结果,并且始终以分类损失最小化为唯一目标,充分依赖真实数据进行模型训练和分类预测。深度网络经过反复训练,能够在不同变量及变量组合缺失的多种情况下,依赖真实值,取得准确的分类结果。
2、本发明无需通过计算来对缺失值进行填补,使用方便。
3、本发明提出的深度网络的大部分结构可以更改。可扩展性强,适用场景广泛。
附图说明
图1为本发明实施例提供的一种面向医学临床诊断的缺失值感知和容忍深度网络方法的流程示意图。
图2为本发明实施例提供的缺失值感知和容忍深度网络结构示意图。
图3为本发明实施例提供的一种面向医学临床诊断的缺失值感知和容忍深度网络装置的模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种面向医学临床诊断的缺失值感知和容忍深度网络方法,如图1所示,包括以下步骤:
S1:根据临床诊断文字记录,对号入座地录入预设变量的值,形成医学临床诊断记录;同时根据变量缺失情况填写变量非缺失标记;并录入临床诊断结果,形成诊断分类结果标签;
S2:建立缺失值感知和容忍深度网络,所述缺失值感知和容忍深度网络的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输出为临床诊断分类结果,所述缺失值感知和容忍深度网络被设置为自动过滤医学临床诊断记录的变量缺失值;
S3:以步骤S1得到的医学临床诊断记录和变量非缺失标记为输入,以步骤S1得到的诊断分类结果标签为标记,训练所述缺失值感知和容忍深度网络,得到面向医学临床诊断的缺失值感知和容忍深度网络;
S4:利用所述面向医学临床诊断的缺失值感知和容忍深度网络对待分类的医学临床诊断记录进行分类。
医学临床数据和其他数据的缺失,有一个很大的不同。医学临床诊断和后续的病历资料录入,都是人工过程,是明确知道哪些变量缺失的,也就是可以提供完全真实的缺失与否标记。这和全自动的传感器采集情况不同,自动采集情况下,系统不会标记哪些属于缺失值,而需要另外设计一套算法来检测。没有提供完全真实的缺失与否标记。本实施例中充分利用医学临床诊断数据的这一特点,把缺失与否标记作为深度网络的一部分输入。
实施例2
本实施例在实施例1的基础上,继续公开以下内容:
步骤S1中所述医学临床诊断记录包括多个变量,每一变量对应一个所述变量非缺失标记,所述变量非缺失标记用于表示对应变量是正常值还是缺失值。
在进一步的实施例中,所述变量非缺失标记表示所述医学临床诊断记录中的对应变量是正常值还是缺失值,包括:
令X为任意变量,notMissingFlatX为与X对应的变量非缺失标记;
当X的值是缺失值时,设置notMissingFlatX为0;
当X的值是正常值时,设置notMissingFlatX为1。
在进一步的实施例中,步骤S2中所述缺失值感知和容忍深度网络为深度网络,且所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值。
在进一步的实施例中,所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值,包括:
所述缺失值感知和容忍深度网络的输入层的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输入层对所述医学临床诊断记录的任意变量X的输出Y为:
Y=(aX+b)×notMissingFlatX
式中,a、b为网络参数。
在具体的实施例中,在该输入层中,每个变量X首先单独经过一个线性变换。具体地,输入为X,输出为:Y=aX+b。
在此,a和b经过训练,被调节至合适的值。
接着,把Y,和它所对应的X的非缺失标记notMissingFlatX相乘,得到Z。
Z=Y×notMissingFlatX=(aX+b)×notMissingFlatX
然后再把每一个Z,输入到后续的网络结构中。
本实施例提出的输入层结构,使得:
(1)当X变量的值为正常值时,notMissingFlatX=1,则Z=Y=(aX+b)。正常值的输入不受任何阻碍。变量X的值会经过大小调节和偏置调节,调整到合适的范围。然后再输送到后续的网络层中。
如果区分正常值和缺失值,有利于降低网络损失函数值,网络参数a和b往往就会被调节到合适的值,使得X的正常值输入时,Z不为0。
(2)当X变量的值缺失时,notMissingFlatX=0。无论该缺失位置初始化什么值,Z都为0。就形成了本实施例中的缺失值不需要刻意填充的特点(任意填一个值让程序能运行即可)。再者,无论所提出的网络的参数往哪个方向调节,Z永远保持为0,也就是对后续网络部分的输入始终保持为零,对整个网络最终输出的影响能力受到极大限制。又因为网络训练是以减小网络的输出和真实标记的差距为目标,所以该网络在训练过程中就专注地拟合了正常值和分类结果的关系。
和本实施例提出的输入结构不同的其它结构,往往没有上述的两个特点。比如,普通的深度网络,变量X直接输入,当缺失时,缺失位置的值,也和非缺失时一样地参与到整个网络的运算过程从而影响分类结果的。又比如,如果把本结构改为Z=X×notMissingFlatX。那么正常的0值(逻辑型变量、类别型变量经常有该值),就永远和缺失值混为一谈。
在具体的实施例中,缺失值感知和容忍深度网络可以为任意深度网络,只需要将输入层设置为本实施例提供的输入层即可,为了具体说明,本实施例提供一个具体的例子,但不限于此。
如图2所示,为本实施例提供的缺失值感知和容忍深度网络,其具体结构为:
(1)missing_perception_input层(全称:缺失值感知输入层,Missing ValuePerception Input Layer),有两个输入:一个是以全体变量组成的向量XVector,长度是K;一个是每个变量的非缺失标记(0表示该记录相应变量的值为缺失值,1表示正常)组成的向量notMissingFlatVector,长度是K。
令i是任意变量在XVector的位置编号,在missing_perception_input层中,对于所有的i,执行以下子步骤:
a)XVector[i]输入到一个线性变换中。令输出为YVector[i]。则
YVector[i]=ai×XVector[i]+b i。在此ai和b i为网络参数,经过训练,被调节至合适的值。
b)YVector[i]与notMissingFlatVector[i]相乘,以乘积为输出。
(2)expand_dims是一个维度扩展层,使其维度由(batch_size,K),变为(batch_size,K,1),以missing_perception_input层的输出为输入。
(3)dense_1是一个包含64个神经元的全连接层,使用ReLU激活函数,以tf.expand_dims层的输出为输入。
(4)batch_nomalization是批量归一化层,用于加速训练和提高模型稳定性,以dense_1层的输出为输入。
(5)dropout是用于防止过拟合的丢弃层,丢弃率为20%,以batch_nomalization层的输出为输入。
(6)inception_1层由五部分组合而成,具体结构为:
a)第一部分由1D卷积conv1d层组成,卷积核大小为1,使用PReLU激活函数,以dropout层的输出为输入。
b)第二部分由conv1d_1和conv1d_2两个1D卷积层组成。其中conv1d_1层的卷积核大小为1,使用PReLU激活函数,以dropout层的输出为输入。conv1d_2层的卷积核大小为3,使用PReLU激活函数,以conv1d_1层的输出为输入。
c)第三部分由conv1d_3和conv1d_4两个1D卷积层组成。其中conv1d_3层的卷积核大小为1,使用PReLU激活函数,以dropout层的输出为输入。conv1d_4层的卷积核大小为5,使用PReLU激活函数,以conv1d_3层的输出为输入。
d)第四部分由1D最大池化max_pooling1d层和1D卷积conv1d_5层组成。其中,max_pooling1d层池化窗口大小为3,步幅为1,以dropout层的输出为输入。conv1d_5层的卷积核大小为1,使用ReLU激活函数,以max_pooling1d层的输出为输入。
e)第五部分由concatenate层组成,连接维度参数为-1,连接最后一个维度。该层以conv1d,conv1d_2,conv1d_4,conv1d_5的输出为输入。其输出也是整个inception_1层的输出。
(7)dense_2是一个包含32个神经元的全连接层,使用ReLU激活函数,以inception_1层的输出为输入。
(8)dropout_1是用于防止过拟合的丢弃层,丢弃率为20%,以dense_2层的输出为输入。
(9)dense_3是一个包含64个神经元的全连接层,使用ReLU激活函数,以dropout_1层的输出为输入。
(10)add层是由dense_3和batch_nomalization的输出跳跃连接相加而来,这里采用残差的思想。
(11)dropout_2是用于防止过拟合的丢弃层,丢弃率为20%,以add层的输出为输入。
(12)dense_4是一个包含128个神经元的全连接层,使用ReLU激活函数,以dropout_2层的输出为输入。
(13)dropout_3是用于防止过拟合的丢弃层,丢弃率为30%,以dense_4层的输出为输入。
(14)inception_2层由五部分组合而成,具体结构为:
a)第一部分由1D卷积conv1d_6层组成,卷积核大小为1,使用PReLU激活函数,以dropout_3层的输出为输入。
b)第二部分由conv1d_7和conv1d_8两个1D卷积层组成。其中conv1d_7层的卷积核大小为1,使用PReLU激活函数,以dropout_3层的输出为输入。conv1d_8层的卷积核大小为3,使用PReLU激活函数,以conv1d_7层的输出为输入。
c)第三部分由conv1d_9和conv1d_10两个1D卷积层组成。其中conv1d_9层的卷积核大小为1,使用PReLU激活函数,以dropout_3层的输出为输入。conv1d_10层的卷积核大小为5,使用PReLU激活函数,以conv1d_9层的输出为输入。
d)第四部分由1D最大池化max_pooling1d_1层和1D卷积conv1d_11层组成。其中,max_pooling1d_1层池化窗口大小为3,步幅为1,以dropout_3层的输出为输入。conv1d_11层的卷积核大小为1,使用ReLU激活函数,以max_pooling1d_1层的输出为输入。
e)第五部分由concatenate_1层组成,连接维度参数为-1,连接最后一个维度。该层以conv1d_6,conv1d_8,conv1d_10,conv1d_11的输出为输入。其输出也是整个inception_2层的输出。
(15)dense_5是一个包含64个神经元的全连接层,使用ReLU激活函数,以inception_2层的输出为输入。
(16)dense_6是一个包含32个神经元的全连接层,使用ReLU激活函数,以dense_5层的输出为输入。
(17)add_1层是由dropout_1和dense_6的输出跳跃连接相加而来,这里采用残差的思想。
(18)dense_7是一个包含64个神经元的全连接层,使用ReLU激活函数,以add_1层的输出为输入。
(19)add_2层是由dense_5和dense_7的输出跳跃连接相加而来,这里采用残差的思想。
(20)dense_8是一个包含128个神经元的全连接层,使用ReLU激活函数,以add_2层的输出为输入。
(21)dense_9是一个包含32个神经元的全连接层,使用ReLU激活函数,以dense_8层的输出为输入。
(22)add_3层是由dropout_1和dense_9的输出跳跃连接相加而来,这里采用残差的思想。
(23)dropout_4是用于防止过拟合的丢弃层,丢弃率为20%,以add_3层的输出为输入。
(24)dense_10是一个包含16个神经元的全连接层,使用ReLU激活函数,带有L2正则化项,正则化系数为0.02,以dropout_4层的输出为输入。
(25)dropout_5是用于防止过拟合的丢弃层,丢弃率为10%,以dense_10层的输出为输入。
(26)flatten层将卷积层的输出扁平化,以便连接到最终的全连接层,以dropout_5层的输出为输入。
(27)predictions是一个包含C个神经元的输出全连接层,使用softmax激活函数,以flatten层的输出为输入。该层的输出即为该网络的输出。
以重症肌无力体征症状及诊断分型数据集为例,纳入标准为第一诊断为重症肌无力,排除非第一诊断的重症肌无力患者,共整理得437份有效量表,其中,确诊I型重症肌无力患者233例,确诊II型重症肌无力患者162例(其中IIa型53例,IIb型109例),III型重症肌无力患者18例,IV型重症肌无力患者24例,V型重症肌无力患者0例。这437例患者中,有285例为女性,152例为男性,他们的年龄范围从0岁到86岁不等,平均年龄为(29±21)岁。在开展这项研究之前,已经通过了医院医学伦理委员会的审批,确保了研究过程的合规性和伦理性。
参考名老专家的经验、指示,结合门诊搜集病案,在以往研究量表的基础上,重点选出九大类核心指标纳入统计分析,分别为:年龄、性别、首发症状、眼部症状、肌力表现、晨轻暮重、实验室检查、胸腺CT/MR/病理报告、甲状腺疾病。
在以上核心指标的基础上添补细化,确定了量表条目,继而咨询临床名老专家并结合既往研究报道结果,不断优化指标。我们最终制定的数据采集量,为重症肌无力的诊断指标选择、临床诊断分型提供了心得思路参考。
其变量涵盖:病人编码、年龄、性别、诊断分型、病程时长、能否生活自理、首发症状(眼肌/延髓/四肢/危急重症)、眼部症状(左眼睑下垂/右眼睑下垂/复试/斜视/眼球活动受限)、延髓表现(吞咽困难/呼吸困难/构音障碍/饮水呛咳)、是否需要气管插管或呼吸机、肌力表现(上肢肌疲劳试验/下肢肌疲劳试验/眼肌疲劳试验/四肢无力/抬颈乏力)、症状波动/晨轻暮重、实验室检查(新斯的明试验/溴比斯的明起效/重症肌无力血清抗体检测四项)、甲状腺功能检测。
最终,数据集包括变量27个,分类标签(诊断分型,共5型,即5类)1个。
相应地,按K=27,C=5,设置缺失值感知和容忍深度网络的这两个参数。
把该数据集,以4:1的比例,随机分为训练集和测试集。为了验证本方法的效果,除了通过训练和测试,获得本方法的预测分类准确率外,还尝试了多种常见的缺失值填充方法和若干常用分类器的组合方案。实验结果如表1所示。
表1
补充说明:
(1)普通深度网络,不含missing_perception_input层,不含缺失标记输入,用普通输入层替代missing_perception_input层,只输入变量。其余部分和本方法网络一致。
(2)0填充:对缺失值填充0值。
(3)众数填充:对缺失值,通过寻找缺失值所在列出现次数最多的值来填充。
(4)中位数填充:对缺失值,通过寻找缺失值所在列索引在中间的值来填充。
(5)KNN(k=5)填充:对缺失值,通过距离测量来识别数据集中空间相似或相近的k个样本的平均值进行插补。
(6)前插/后插填充:前插是指从第一行样本开始,当遇到缺失值时,从上一行寻找数据来填充,直到最后一行样本为止。而若在第一行中出现了缺失值,前插无法做到,采用后插的方法填充,原理同上。
(7)后插/前插填充:后插是指从第一行样本开始,当遇到缺失值时,从下一行寻找数据来填充,直到最后一行样本为止。而若在最后一行中出现了缺失值,后插无法做到,采用前插的方法填充,原理同上。
可以看出,本实施例的方法相对于其他方法取得更高的预测分类准确率。
实施例3
本实施例提供一种面向医学临床诊断的缺失值感知和容忍深度网络装置,如图3所示,包括:
数据模块,根据临床诊断文字记录,对号入座地录入预设变量的值,形成医学临床诊断记录;同时根据变量缺失情况填写变量非缺失标记;并录入临床诊断结果,形成诊断分类结果标签;
网络模块,所述网络模块用于建立缺失值感知和容忍深度网络,所述缺失值感知和容忍深度网络的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输出为临床诊断分类结果,所述缺失值感知和容忍深度网络被设置为自动过滤医学临床诊断记录的变量缺失值;
训练模块,所述训练模块以所述数据模块得到的医学临床诊断记录和变量非缺失标记为输入,以所述数据模块得到的诊断分类结果标签为标记,训练所述缺失值感知和容忍深度网络,得到面向医学临床诊断的缺失值感知和容忍深度网络;
分类模块,所述分类模块利用所述面向医学临床诊断的缺失值感知和容忍深度网络对待分类的临床诊断记录进行分类。
在进一步的实施例中,数据模块中所述医学临床诊断记录包括多个变量,每一变量对应一个所述变量非缺失标记,所述变量非缺失标记用于表示对应变量是正常值还是缺失值。
在进一步的实施例中,数据模块所述变量非缺失标记表示所述医学临床诊断记录中的对应变量是正常值还是缺失值,包括:
令X为任意变量,notMissingFlatX为与X对应的变量非缺失标记;
当X的值是缺失值时,设置notMissingFlatX为0;
当X的值是正常值时,设置notMissingFlatX为1。
在进一步的实施例中,网络模块中所述缺失值感知和容忍深度网络为深度网络,且所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值。
在进一步的实施例中,网络模块中所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值,包括:
所述缺失值感知和容忍深度网络的输入层的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输入层对所述医学临床诊断记录的任意变量X的输出Y为:
Y=(aX+b)×notMissingFlatX
式中,a、b为网络参数。
相同或相似的标号对应相同或相似的部件;
本发明研究获得广东省医学科学技术研究基金项目(编号:B2021155)的资助。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种面向医学临床诊断的缺失值感知和容忍深度网络方法,其特征在于,包括以下步骤:
S1:根据临床诊断文字记录,对号入座地录入预设变量的值,形成医学临床诊断记录;同时根据变量缺失情况填写变量非缺失标记;并录入临床诊断结果,形成诊断分类结果标签;
S2:建立缺失值感知和容忍深度网络,所述缺失值感知和容忍深度网络的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输出为临床诊断分类结果,所述缺失值感知和容忍深度网络被设置为自动过滤医学临床诊断记录的变量缺失值;
S3:以步骤S1得到的医学临床诊断记录和变量非缺失标记为输入,以步骤S1得到的诊断分类结果标签为标记,训练所述缺失值感知和容忍深度网络,得到面向医学临床诊断的缺失值感知和容忍深度网络;
S4:利用所述面向医学临床诊断的缺失值感知和容忍深度网络对待分类的医学临床诊断记录进行分类;
所述变量非缺失标记表示所述医学临床诊断记录中的对应变量是正常值还是缺失值,包括:
令X为任意变量,notMissingFlatX为与X对应的变量非缺失标记;
当X的值是缺失值时,设置notMissingFlatX为0;
当X的值是正常值时,设置notMissingFlatX为1;
所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值,包括:
所述缺失值感知和容忍深度网络的输入层的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输入层对所述医学临床诊断记录的任意变量X的输出Y为:
Y=(aX+b)×notMissingFlatX
式中,a、b为网络参数。
2.根据权利要求1所述的面向医学临床诊断的缺失值感知和容忍深度网络方法,其特征在于,步骤S1中所述医学临床诊断记录包括多个变量,每一变量对应一个所述变量非缺失标记,所述变量非缺失标记用于表示对应变量是正常值还是缺失值。
3.根据权利要求2所述的面向医学临床诊断的缺失值感知和容忍深度网络方法,其特征在于,步骤S2中所述缺失值感知和容忍深度网络为深度网络,且所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值。
4.一种面向医学临床诊断的缺失值感知和容忍深度网络装置,其特征在于,包括:
数据模块,根据临床诊断文字记录,对号入座地录入预设变量的值,形成医学临床诊断记录;同时根据变量缺失情况填写变量非缺失标记;并录入临床诊断结果,形成诊断分类结果标签;
网络模块,所述网络模块用于建立缺失值感知和容忍深度网络,所述缺失值感知和容忍深度网络的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输出为临床诊断分类结果,所述缺失值感知和容忍深度网络被设置为自动过滤医学临床诊断记录的变量缺失值;
训练模块,所述训练模块以所述数据模块得到的医学临床诊断记录和变量非缺失标记为输入,以所述数据模块得到的诊断分类结果标签为标记,训练所述缺失值感知和容忍深度网络,得到面向医学临床诊断的缺失值感知和容忍深度网络;
分类模块,所述分类模块利用所述面向医学临床诊断的缺失值感知和容忍深度网络对待分类的临床诊断记录进行分类;
数据模块所述变量非缺失标记表示所述医学临床诊断记录中的对应变量是正常值还是缺失值,包括:
令X为任意变量,notMissingFlatX为与X对应的变量非缺失标记;
当X的值是缺失值时,设置notMissingFlatX为0;
当X的值是正常值时,设置notMissingFlatX为1;
网络模块中所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值,包括:
所述缺失值感知和容忍深度网络的输入层的输入为所述医学临床诊断记录和变量非缺失标记,所述缺失值感知和容忍深度网络的输入层对所述医学临床诊断记录的任意变量X的输出Y为:
Y=(aX+b)×notMissingFlatX
式中,a、b为网络参数。
5.根据权利要求4所述的面向医学临床诊断的缺失值感知和容忍深度网络装置,其特征在于,数据模块中所述医学临床诊断记录包括多个变量,每一变量对应一个所述变量非缺失标记,所述变量非缺失标记用于表示对应变量是正常值还是缺失值。
6.根据权利要求5所述的面向医学临床诊断的缺失值感知和容忍深度网络方法,其特征在于,网络模块中所述缺失值感知和容忍深度网络为深度网络,且所述缺失值感知和容忍深度网络的输入层被设置为自动过滤医学临床诊断记录的变量缺失值。
CN202311353255.1A 2023-10-18 2023-10-18 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置 Active CN117423467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311353255.1A CN117423467B (zh) 2023-10-18 2023-10-18 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311353255.1A CN117423467B (zh) 2023-10-18 2023-10-18 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Publications (2)

Publication Number Publication Date
CN117423467A CN117423467A (zh) 2024-01-19
CN117423467B true CN117423467B (zh) 2024-04-19

Family

ID=89522226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311353255.1A Active CN117423467B (zh) 2023-10-18 2023-10-18 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Country Status (1)

Country Link
CN (1) CN117423467B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110957015A (zh) * 2019-12-02 2020-04-03 南开大学 电子医疗记录数据的缺失值填充方法
CN111063434A (zh) * 2019-12-26 2020-04-24 北京中润普达信息技术有限公司 一种基于临床症状特征的性病诊断系统
CN112183723A (zh) * 2020-09-17 2021-01-05 西北工业大学 一种针对临床检测数据缺失问题的数据处理方法
CN114093448A (zh) * 2021-11-24 2022-02-25 首都医科大学附属北京天坛医院 一种疾病风险预测模型的构建方法
CN114550909A (zh) * 2022-01-24 2022-05-27 杭州未名信科科技有限公司 医学时序数据的缺失值处理方法、装置、设备及存储介质
CN115223709A (zh) * 2022-07-26 2022-10-21 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法
CN115458140A (zh) * 2022-09-16 2022-12-09 纳里健康科技有限公司 基于医疗大数据的互联网医院智慧运营系统
CN116072302A (zh) * 2023-02-17 2023-05-05 西安电子科技大学 基于有偏随机森林模型的医疗不平衡数据分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133275A1 (en) * 2006-11-28 2008-06-05 Ihc Intellectual Asset Management, Llc Systems and methods for exploiting missing clinical data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110957015A (zh) * 2019-12-02 2020-04-03 南开大学 电子医疗记录数据的缺失值填充方法
CN111063434A (zh) * 2019-12-26 2020-04-24 北京中润普达信息技术有限公司 一种基于临床症状特征的性病诊断系统
CN112183723A (zh) * 2020-09-17 2021-01-05 西北工业大学 一种针对临床检测数据缺失问题的数据处理方法
CN114093448A (zh) * 2021-11-24 2022-02-25 首都医科大学附属北京天坛医院 一种疾病风险预测模型的构建方法
CN114550909A (zh) * 2022-01-24 2022-05-27 杭州未名信科科技有限公司 医学时序数据的缺失值处理方法、装置、设备及存储介质
CN115223709A (zh) * 2022-07-26 2022-10-21 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法
CN115458140A (zh) * 2022-09-16 2022-12-09 纳里健康科技有限公司 基于医疗大数据的互联网医院智慧运营系统
CN116072302A (zh) * 2023-02-17 2023-05-05 西安电子科技大学 基于有偏随机森林模型的医疗不平衡数据分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
关于缺失临床数据的一种数据修复技术研究;陈姿羽;李伟鹏;;中国医学物理学杂志;20090315(第02期) *
陈姿羽 ; 李伟鹏 ; .关于缺失临床数据的一种数据修复技术研究.中国医学物理学杂志.2009,(02), *

Also Published As

Publication number Publication date
CN117423467A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN110992382B (zh) 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及系统
Lu et al. WBC-Net: A white blood cell segmentation network based on UNet++ and ResNet
Nawaz et al. An efficient deep learning approach to automatic glaucoma detection using optic disc and optic cup localization
CN111739075A (zh) 一种结合多尺度注意力的深层网络肺部纹理识别方法
CN106202891B (zh) 一种面向医疗质量评价的大数据挖掘方法
CN110135459B (zh) 一种基于双三元组深度度量学习网络的零样本分类方法
CN110222771A (zh) 一种零样本图片的类别识别方法
Boutinaud et al. 3D segmentation of perivascular spaces on T1-weighted 3 Tesla MR images with a convolutional autoencoder and a U-shaped neural network
CN112465745B (zh) 一种基于全卷积回归网络的细胞计数方法
CN113469119A (zh) 基于视觉转换器和图卷积网络的宫颈细胞图像分类方法
CN113610118A (zh) 一种基于多任务课程式学习的眼底图像分类方法、装置、设备及介质
CN117612703A (zh) 一种基于医学检验指标的糖尿病视网膜病变分类方法
Chen et al. Abnormality detection in retinal image by individualized background learning
Lonij et al. Open-world visual recognition using knowledge graphs
Adorno III et al. Advancing eosinophilic esophagitis diagnosis and phenotype assessment with deep learning computer vision
Daniel et al. A deep multi-label segmentation network for eosinophilic esophagitis whole slide biopsy diagnostics
CN114140437A (zh) 一种基于深度学习的眼底硬渗出物分割方法
Gulati et al. Comparative analysis of deep learning approaches for the diagnosis of diabetic retinopathy
CN117423467B (zh) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置
CN114098779A (zh) 尘肺病等级智能判别方法
CN110992309B (zh) 基于深层信息传递网络的眼底图像分割方法
CN112420170A (zh) 一种提高计算机辅助诊断系统图片分类准确度的方法
CN107292340A (zh) 基于卷积神经网络的侧线鳞识别方法
CN106778252A (zh) 基于粗糙集理论与waode算法的入侵检测方法
CN110458203A (zh) 一种广告图像素材检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant