CN113744873B - 一种基于任务分解策略的发热待查辅助鉴别诊断系统 - Google Patents

一种基于任务分解策略的发热待查辅助鉴别诊断系统 Download PDF

Info

Publication number
CN113744873B
CN113744873B CN202111311947.0A CN202111311947A CN113744873B CN 113744873 B CN113744873 B CN 113744873B CN 202111311947 A CN202111311947 A CN 202111311947A CN 113744873 B CN113744873 B CN 113744873B
Authority
CN
China
Prior art keywords
data
time
classification
variable
etiology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111311947.0A
Other languages
English (en)
Other versions
CN113744873A (zh
Inventor
李劲松
王执晓
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111311947.0A priority Critical patent/CN113744873B/zh
Publication of CN113744873A publication Critical patent/CN113744873A/zh
Application granted granted Critical
Publication of CN113744873B publication Critical patent/CN113744873B/zh
Priority to PCT/CN2022/124226 priority patent/WO2023078025A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于任务分解策略的发热待查辅助鉴别诊断系统,首次全面且系统地构建了发热待查潜在病因类别层次结构,基于类别层次结构实现了针对发热待查潜在病因进行辅助鉴别诊断的层次分类模型,并能够模拟临床医生的推理逻辑,逐层给出鉴别诊断意见,不仅鉴别范围更全面、系统,同时具有更高的鉴别准确度和更好的临床可解释性,由上向下的逐层推理模式也更加符合临床医生的临床实践习惯;本发明所利用的临床数据都是患者就诊早期极易获取的早期临床表现数据,因此在患者早期就诊阶段就能够基于有限信息给出极具临床价值和可信度的鉴别诊断意见;本发明为发热待查潜在病因的鉴别诊断提供了全面、系统、层次化的解决策略。

Description

一种基于任务分解策略的发热待查辅助鉴别诊断系统
技术领域
本发明属于医疗健康信息技术领域,尤其涉及一种基于任务分解策略的发热待查辅助鉴别诊断系统。
背景技术
作为多数临床问题的最常见症状之一,发热不仅是约30%儿童就诊的首要原因,同时在ICU护理的急重症成人患者中发生率也高达75%。尽管随着诊疗技术的进步,大部分发热待查患者可以得到相应的诊断,但在国际范围内仍有约7%-53%的发热待查患者即使通过全面系统的检查也未能得到明确诊断。同时发热待查患者的预后与潜在病因高度相关,部分病程发展较快的患者,若前期得不到准确诊断与恰当治疗,可快速出现危及生命的并发症,因此确诊越晚其预后越差。除此之外,在没有倾向性诊断基础上进行经验性抗感染治疗不仅缺乏循证医学依据,高度依赖临床医生经验,同时也易导致致病菌耐药性的提升以及非靶向性药物和多次转诊等医疗资源的浪费。加之发热待查潜在病因可达200多种,且其临床表现多样、复合度高,因此对发热待查潜在病因的早期鉴别诊断仍然是国内外临床医生所面临的重要挑战,尤其是在医疗资源条件相对落后的地区。
由于发热待查潜在病因复杂,且不同地区、不同时期和不同年龄的患者在不同配置的医疗资源条件下其病因构成比例都会有所差异,因此直接通过传统机器学习手段进行潜在病因多分类,往往存在类别间样本不均衡、分类问题复杂度高的固有缺陷,难以确保分类精度。
现有技术方案[申请公布号:CN112768057A,发明名称:鉴别儿童发热待查病因的系统]提出的发热待查潜在病因鉴别方案只针对儿童群体,因此其潜在病因范围相对较小,系统鉴别难度低。除此之外,该方案描述的鉴别系统只利用了年龄、钠离子、氯离子、乳酸脱氢酶、球蛋白、红细胞压积、C反应蛋白及白细胞酯酶8项指标对发热待查患者的潜在病因是否为感染性进行判断,因此发热待查潜在病因鉴别诊断内容不完整,且8项指标所能表示的特征空间较小,临床适应性较差。
现有技术方案[申请公布号:CN107785075A,发明名称:基于文本病历的小儿发热疾病深度学习辅助诊断系统]描述的发热疾病深度学习辅助诊断方案同样只针对小儿群体,且该系统直接对30种常见小儿发热疾病进行分类,而非针对发热待查潜在病因。此外,该方案主要是强调对临床文本病历数据的利用,通过自然语言处理技术对其进行文本特征提取以作为小儿发热鉴别诊断的特征空间,不涉及其他时序、结构化数据内容。
目前针对发热待查潜在病因进行辅助鉴别诊断的技术方案相对缺乏,该研究技术领域仍处于探索阶段。现有技术方案存在如下缺陷:
1.现有技术方案均只针对儿童群体的发热相关疾病进行鉴别诊断,儿童群体的发热相关疾病类型与范围相较于整体发热待查潜在病因的类型和范围仍有很大差别,且临床实际场景中发热待查群体主要是以成年人为主。
2.现有技术方案均只局限于感染性疾病与非感染性疾病的鉴别或只局限于易区分的小部分疾病,发热待查潜在病因的鉴别诊断覆盖范围不完整,因此临床实际适用性和可扩展性差。
3.现有技术方案只是对小部分发热相关疾病进行分类,所依赖的临床数据并非患者早期就诊的非特异性数据,而对发热待查患者进行辅助鉴别诊断最具有临床价值的便是在患者就诊早期,在临床医生基于有限临床表现数据难以得出倾向性诊断的情况下给予临床医生以辅助鉴别诊断意见。
4.现有技术方案均只涉及患者几项临床化验指标或单模态临床数据,并未对多模态的数据融合给出详细解决方案,因此所能挖掘的特征关联与所能表达的信息空间有限,而对发热待查患者做早期辅助鉴别诊断亟需对有限数据进行最大程度的利用。
5.现有技术方案针对发热待查潜在病因的鉴别诊断主要依赖于机器学习模型直接进行多分类,因此难以解决因发热待查潜在病因复杂多样导致的样本分布不均衡问题,不仅难以保证多分类的分类精度,且复杂的多分类任务缺少临床可解释性,难以在临床实际应用场景条件下被医生所接受。
6.发热患者入院就诊往往存在多次多科室门诊就诊或住院就诊,相关临床数据主要以就诊主索引进行关联组织,现有技术方案均缺少针对多次就诊的分散临床数据进行规整的有效机制,无法对患者分散的临床数据进行分割与整合,造成临床业务数据与辅助鉴别系统所需数据之间的数据鸿沟。
发明内容
本发明针对现有技术方案的不足,提供一种基于任务分解策略的发热待查辅助鉴别诊断系统,为发热待查潜在病因的鉴别诊断提供了全面、系统、层次化的解决策略。
本发明的目的是通过以下技术方案实现的:一种基于任务分解策略的发热待查辅助鉴别诊断系统,该系统包括以下模块:
(1)数据获取模块:实现发热待查辅助鉴别诊断系统与异构源数据库的连接;通过交互界面配置在异构源数据库内的目标临床信息的数据范围,以及患者唯一标识、就诊唯一标识,并完成对目标数据的扫描以及校验性数据的统计,建立目标数据采集的完整数据通路;
(2)数据规整模块:建立数据规整策略,通过设定发热待查诊断锚点和锚点前后就诊时间差,确定不同就诊周期;基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合,形成单个患者因单次发热就诊产生的最小数据分析单元;在最小数据分析单元时间范围内提取最早的就诊病历记录数据;
(3)多模态数据预处理模块:针对指定类型的病历文本数据,利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取;对不同采样频率、不同长度以及存在缺失值的多变量时序数据,进行时间窗口对齐与归一化处理;针对结构化数据,完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化;
(4)发热待查潜在病因层次鉴别模块,包括:
结合医学文献与临床指南,基于任务分解策略构建发热待查潜在病因类别层次结构,将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题;建立发热待查潜在病因层次分类模型,将模型分类输出空间定义在发热待查潜在病因类别层次结构之上;
在模型训练阶段,采取siblings策略对阳性与阴性训练样本进行划分,基于划分的多个训练样本集分别训练多个基分类器;在模型实际应用阶段,采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理,修正单个基分类器的局部概率,给出符合发热待查潜在病因类别层次结构的一致概率,得到发热待查患者潜在病因的层次类别分类结果,基于层次类别分类结果给出层次化鉴别诊断意见。
进一步地,所述系统还包括结果展示模块,所述结果展示模块用于对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示,并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。
进一步地,所述数据获取模块包含数据库连接管理单元和目标数据自定义单元;
所述数据库连接管理单元包括:通过java编程语言的类及接口编写多个JDBC模块,建立与异构数据库之间的数据通路,实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储;
所述目标数据自定义单元包括:针对发热待查潜在病因层次分类模型所需的目标临床信息划定数据范围,通过交互界面配置数据范围、患者唯一标识和就诊唯一标识,完成目标数据到缓存数据库的数据传输,确定完整数据通路。
进一步地,所述数据规整模块中,以患者最早被诊断为发热待查的电子病历记录事件为发热待查诊断锚点,往前纳入7个自然日以内的就诊病历记录,往后纳入下次就诊开始时间与本次就诊结束时间差小于等于24小时的所有就诊病历记录,作为一次就诊周期;下次就诊开始时间距离本次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期,以此形成单个患者因单次发热就诊产生的最小数据分析单元。
进一步地,所述多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元;
所述文本数据预处理单元包括:针对既往史、个人史、家族史与婚育史这四类病历文本数据,采取位置导向模式分别编写正则表达式语句进行目标信息结构化提取;基于主诉与现病史这两类病历文本数据,采取关键词导向模式,利用词典分词技术构建目标症状词典及词典匹配规则;所述目标症状词典包括位置信息不敏感的全身症状词典、位置信息敏感的症状词典以及身体部位词典,所述词典匹配采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取;
所述时序数据预处理单元包括:对多变量时序数据进行时间窗口对齐,取每次就诊固定时间内的数据作为患者早期临床表现数据;每行数据对应于每位患者的一项时序变量数据序列,依据每一项时序变量数据采样频率以及采样时间跨度的长短分布,明确输入数据时间窗口以及列与列之间的时间间隔,实现对同一患者同一次就诊内多时序变量之间的时序对齐;采取Min-Max归一化对时序数据做数值归一化;
所述结构化数据预处理单元包括:针对结构化后的病历文本数据、基本信息数据以及实验室常规化验数据进行以下预处理操作:异常值处理、缺失值填充、标准编码以及标准化。
进一步地,所述结构化数据预处理单元中,所述异常值处理包括:针对数值变量的异常值检测,采取统计分析和3σ原则,将异常值视为缺失值,利用缺失值处理方法进行处理;针对分类变量的异常值检测,对预设类别之外的错误输入认定为异常值,删除异常值并通过分类变量内的众数值进行填充;
所述缺失值填充包括:对于分类变量使用众数填充,对于数值变量若其分布符合正态分布则采取平均值填充法,若其分布不符合正态分布则采取中位数填充法;
所述标准编码包括:针对分类变量进行数值化处理,对于不同变量值之间存在序列关系、不平等重要性的变量,采取整数编码,对于不同变量值之间无序列关系、无重要性差别的变量,采取独热编码。
进一步地,所述发热待查潜在病因层次鉴别模块中,基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因分类时,首先区分发热潜在病因属于感染性疾病还是非感染性疾病,若属于感染性疾病,则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病;若属于非感染性疾病,则继续区分是属于肿瘤性疾病、NIID还是其他非感染性疾病;若属于肿瘤性疾病,则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤;若属于NIID,则继续区分是属于自身免疫性疾病还是自身炎症性疾病;所述发热待查潜在病因类别层次结构具有非对称性、反自反性和可传递性。
进一步地,所述发热待查潜在病因层次鉴别模块中,以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,所述基分类器结构如下:
针对高基数分类变量,利用实体嵌入技术构建嵌入网络层,对分类变量进行特征提取;通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取;通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数,对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取;
采取后期融合策略,对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合,输入softmax层进行交叉熵损失函数的计算与基分类器的训练。
进一步地,所述基分类器中,利用实体嵌入技术,将高基数分类变量的每一离散取值映射到一维数值向量,将一维数值向量经过线性单元转化得到分类变量的实体嵌入表示;将分类变量的实体嵌入表示与结构化数值变量合并后输入DNN网络层,经多层全连接神经网络的非线性转换,得到样本经DNN网络层学习到的数据特征表示。
进一步地,所述基分类器中,以
Figure 946285DEST_PATH_IMAGE001
表示含有D个 时序变量的第n个样本的多变量时序数据,
Figure 253639DEST_PATH_IMAGE002
表示第n个样本的时间节点数量,
Figure 767797DEST_PATH_IMAGE003
表 示第n个样本的所有时序变量在第t个时间节点的观测值,
Figure 100689DEST_PATH_IMAGE004
;以
Figure 603477DEST_PATH_IMAGE005
表示 第t个时间节点的事件观测时间,引入屏蔽向量
Figure 98043DEST_PATH_IMAGE006
表示在第t个时间节点某一时序 变量值是否缺失,同时引入时间间隔因子
Figure 552027DEST_PATH_IMAGE007
对时序变量d在第t个时间节点的不规则 时间间隔进行建模,表示为:
Figure 485348DEST_PATH_IMAGE008
其中
Figure 845572DEST_PATH_IMAGE009
表示第n个样本的第d维时序变量在第t个时间节点的屏蔽向量取值;
Figure 511040DEST_PATH_IMAGE010
表示
Figure 999790DEST_PATH_IMAGE011
在第d维时序变量的值;
Figure 658173DEST_PATH_IMAGE012
表示第n个样本的第d维时序变量在第t个时间节点的时 间间隔因子;
所述GRU网络层的多变量时序数据输入空间表示为
Figure 915979DEST_PATH_IMAGE013
Figure 34239DEST_PATH_IMAGE014
Figure 947969DEST_PATH_IMAGE015
Figure 957513DEST_PATH_IMAGE016
Figure 319093DEST_PATH_IMAGE017
表示 第n个样本在第t个时间节点的事件观测时间,
Figure 326363DEST_PATH_IMAGE018
表示第n个样本在第t个时间节点的屏蔽 向量取值;
所述GRU网络层中引入衰减系数,对缺失值与不规则时间间隔所含的潜在模式进行挖掘,并在模型端到端的学习过程中对每个时序变量的衰减系数进行学习;
Figure 789706DEST_PATH_IMAGE019
其中
Figure 554006DEST_PATH_IMAGE020
Figure 724087DEST_PATH_IMAGE021
是在GRU网络层训练过程中与其他所有网络参数共同训练得到的与 衰减系数相关的模型参数,
Figure 213843DEST_PATH_IMAGE022
表示在第t个时间节点的时间间隔因子,
Figure 898902DEST_PATH_IMAGE023
表示在第t个时间 节点的衰减系数;
采取输入衰减系数对缺失变量进行衰减操作,直到变量经验均值;采取隐藏状态衰减系数在计算新的隐藏状态之前对其前一个时刻的隐藏状态进行衰减;
取GRU网络层在所有时序数据的最后一层网络输出作为多变量时序数据的特征表示。
本发明的有益效果是:
1.首次全面且系统地构建了发热待查潜在病因类别层次结构,全面囊括了感染性疾病、肿瘤性疾病与NIID等大类疾病,且基于上述类别层次结构实现了针对发热待查潜在病因进行辅助鉴别诊断的层次分类模型,并能够模拟临床医生的推理逻辑,逐层给出鉴别诊断意见。因此不仅鉴别范围更全面、系统,同时具有更高的鉴别准确度和更好的临床可解释性。除此之外,其由上向下的逐层推理模式也更加符合临床医生的临床实践习惯。
2.所利用的临床数据都是患者就诊早期极易获取的早期临床表现数据,因此在患者早期就诊阶段就能够基于有限信息给出极具临床价值和可信度的鉴别诊断意见。
3.对多变量时序数据、文本数据以及结构化数据等多模态数据均进行了数据预处理与特征提取,并给出了详细的多模态数据融合解决方案。
4.针对分散、多次的门诊就诊与住院就诊,设计了数据规整模块对其进行重新的分割与整合,有助于准确获取患者早期就诊数据,消弭因不规范就诊流程带来的数据获取不精确的问题,建立了临床业务数据与发热待查潜在病因层次分类模型输入数据之间的数据通路。
附图说明
图1为本发明实施例提供的系统结构框架图;
图2为本发明实施例提供的数据流动路径图;
图3为本发明实施例提供的数据规整原理图;
图4为本发明实施例提供的发热待查潜在病因类别层次结构示意图;
图5为本发明实施例提供的发热待查潜在病因层次分类模型框架图;
图6为本发明实施例提供的引入衰减机制的GRU结构示意图;
图7为本发明实施例提供的基分类器具体神经网络结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实施提供一种基于任务分解策略的发热待查辅助鉴别诊断系统,如图1所示,该系统包括以下模块:
一、数据获取模块,包含数据库连接管理单元和目标数据自定义单元;
数据库连接管理单元:实现发热待查辅助鉴别诊断系统与异构源数据库的连接;
目标数据自定义单元:通过交互界面配置在异构源数据库内的目标临床信息的数据范围,以及患者唯一标识、就诊唯一标识,并完成对目标数据的扫描以及校验性数据的统计,建立目标数据采集的完整数据通路。
二、数据规整模块,包括:
(1)建立数据规整策略:通过设定发热待查诊断锚点和锚点前后就诊时间差,确定不同就诊周期;
(2)基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合,形成单个患者因单次发热就诊产生的最小数据分析单元;
(3)在最小数据分析单元时间范围内提取最早的就诊病历记录数据,输入多模态数据预处理模块。
三、多模态数据预处理模块,包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元;
文本数据预处理单元:针对指定类型的病历文本数据,利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取;
时序数据预处理单元:对不同采样频率、不同长度以及存在缺失值的多变量时序数据,进行时间窗口对齐与归一化处理;
结构化数据预处理单元:针对结构化数据,完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化。
四、发热待查潜在病因层次鉴别模块,包括:
(1)结合医学文献与临床指南,基于任务分解策略构建发热待查潜在病因类别层次结构,将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题;
(2)建立发热待查潜在病因层次分类模型,将模型分类输出空间定义在发热待查潜在病因类别层次结构之上;
(3)在模型训练阶段,采取siblings策略对阳性与阴性训练样本进行划分;基于划分的多个训练样本集,分别训练多个基分类器;
(4)在模型实际应用阶段,采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理,修正单个基分类器的局部概率,给出符合发热待查潜在病因类别层次结构的一致概率,得到发热待查患者潜在病因的层次类别分类结果;基于层次类别分类结果给出层次化鉴别诊断意见。
进一步地,以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,基分类器的具体神经网络结构如下:
(1)针对高基数分类变量,利用实体嵌入技术构建嵌入网络层,对分类变量进行特征提取;
(2)通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取;
(3)通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数,对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取;
(4)采取后期融合策略,对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合,输入softmax层进行交叉熵损失函数的计算与基分类器的训练。
五、结果展示模块:对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示,并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。
数据流动路径如图2所示,下面详细阐述每个模块的实现过程。
一、数据获取模块
主要负责在物理层面实现对HIS(Hospital Information System)、LIS(Laboratory Information System)以及EMR(Electronic Medical Record)等目标临床信息系统后端数据的访问以及目标数据范围内的数据获取,包括数据库连接管理单元和目标数据自定义单元。
数据库连接管理单元实现方式主要通过java编程语言的现有类及接口编写多个JDBC模块,建立与异构数据库之间的数据通路,以此为基础实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储。
目标数据自定义单元主要基于数据库连接管理单元建立的数据通路,针对后续发热待查潜在病因层次分类模型所需要的目标临床信息划定源数据范围,目标临床信息范围包括:年龄、性别、身高和体重4大类基本信息,主诉、既往史、个人史、家族史、婚育史与现病史6大类病历文本数据,体温、呼吸、心律、脉搏与血压5大类护理时序数据以及血常规、尿常规、凝血功能常规检查、心肌酶谱常规检查、肝肾脂糖电解质测定、粪便常规、红细胞沉降率测定、超敏C反应蛋白、钾钠氯测定、肝功能常规检查等实验室常规化验大项下的124项化验小项数据,即实验室常规化验数据。
通过交互界面人工标定涵盖上述目标临床信息的数据范围以及患者唯一标识、就诊唯一标识之后,完成目标数据到缓存数据库的数据传输,由此确定完整的数据通路。
二、数据规整模块
基于数据获取模块中建立的数据通路,数据规整模块即对临床业务当中产生的不定间隔的业务数据进行规整,以符合后续发热待查潜在病因层次分类模型输入分析的要求。
若将所有患者的电子病历记录数据表示为
Figure 453512DEST_PATH_IMAGE024
,其中
Figure 291149DEST_PATH_IMAGE025
表 示患者数量,
Figure 905801DEST_PATH_IMAGE026
表示患者
Figure 78156DEST_PATH_IMAGE027
的电子病历记录数据;则对患者
Figure 420145DEST_PATH_IMAGE027
,其一般具有唯一的人口统计 数据
Figure 627135DEST_PATH_IMAGE028
,以及
Figure 154632DEST_PATH_IMAGE029
份就诊病历记录
Figure 814283DEST_PATH_IMAGE030
;以
Figure 710695DEST_PATH_IMAGE031
表示患者
Figure 490301DEST_PATH_IMAGE027
的就诊病历集合,则
Figure 712335DEST_PATH_IMAGE032
,其中每一份就诊病历记录
Figure 859283DEST_PATH_IMAGE030
下包含多项时序数据集
Figure 310118DEST_PATH_IMAGE033
以及非 时序数据集
Figure 960542DEST_PATH_IMAGE034
因此需要在
Figure 884636DEST_PATH_IMAGE026
内选定发热待查诊断锚点,对多个
Figure 705830DEST_PATH_IMAGE030
及其范围内的
Figure 6361DEST_PATH_IMAGE033
Figure 727936DEST_PATH_IMAGE034
进行分 割与组合,获取准确的与本次发热待查就诊相关的
Figure 822931DEST_PATH_IMAGE030
集合。本技术方案提出的数据规整方 法,参见图3示例,首先以患者
Figure 882154DEST_PATH_IMAGE027
最早被诊断为发热待查的电子病历记录事件为时间锚点
Figure 235644DEST_PATH_IMAGE035
,往前纳入7个自然日以内的就诊病历记录,往后纳入下次就诊开始时间与本次就诊结束时 间差小于等于24小时的所有就诊病历记录,作为一次就诊周期;下次就诊开始时间距离本 次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期,以此形成单个患者最小 的数据分析单元。其后基于前述数据分析单元,提取在该数据分析单元时间范围内发生的 最早的就诊病历记录数据
Figure 798344DEST_PATH_IMAGE036
组成后续发热待查潜在病因层次分类模型的输入特征空 间。上述规整技术内容在操作数据库内完成。
三、多模态数据预处理模块
多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元。
文本数据预处理单元通过接收指定类型的病历文本数据,利用自然语言处理技术理解输入的病历文本,对病历文本进行目标信息的结构化提取。此处主要是利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取。其中,既往史、个人史、家族史与婚育史这些病历文本数据均具有固定格式要求,因此通过位置导向模式分别编写正则表达式语言达到信息提取的目的。主要基于主诉与现病史这两类病历文本数据对患者早期临床症状表现信息进行症状实体抽取,因此采取关键词导向模式,利用词典分词技术构建一部目标症状词典C以及一套词典匹配规则R。词典C包括位置信息不敏感的全身症状词典C1(如消瘦、贫血、乏力等)、位置信息敏感的症状词典C2(如疼痛、占位、酸软等)以及身体部位词典C2-pos(如头部、四肢、扁桃体等)。词典匹配主要采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取。最终结构化数据存储结构如表1所示。
表1 文本结构化数据存储示例
Figure 329819DEST_PATH_IMAGE038
时序数据预处理单元主要针对体温、呼吸、心律、脉搏和血压5大类护理时序数据。 由于临床业务环境相对复杂,因此在临床护理过程中产生的上述时序数据具有时间跨度不 一、不同时序变量间采样频率差异大、普遍存在缺失值以及高度稀疏等特点,给该部分时序 数据的分析利用带来极大困难。本技术方案针对护理时序数据的以上特点,首先对护理时 序数据进行时间窗口对齐,取每次就诊
Figure 361491DEST_PATH_IMAGE039
小时内的数据作为患者早期的临床表现数据;每 行数据对应于每位患者的一项时序变量数据序列,依据每一项时序变量数据采样频率以及 采样时间跨度的长短分布,明确输入数据时间窗口
Figure 269404DEST_PATH_IMAGE039
以及列与列之间的时间间隔
Figure 201457DEST_PATH_IMAGE040
,实现 对同一患者同一次就诊内多时序变量之间的时序对齐。进而采取Min-Max归一化对上述护 理时序数据做数值归一化,同时保留时序波形。值得注意的是,此处无须对固有缺失值与重 采样产生的缺失值,以及不同就诊之间的采样频率不一致问题进行预处理,因为本技术方 案考虑到涉及的多变量时序数据是患者临床护理生命体征状态的反映,后续会通过发热待 查潜在病因层次鉴别模块将护理时序数据内的数值缺失模式纳入模型特征范围内做统一 处理。
结构化数据预处理单元主要针对结构化以后的病历文本数据、基本信息数据(年龄、性别、身高和体重)以及实验室常规化验数据进行以下预处理操作:异常值处理、缺失值填充、标准编码以及标准化。
异常值处理主要针对人为错误产生的离群点进行处理,针对数值变量的异常值检 测,本技术方案主要采取简单统计分析和3σ原则,简单统计分析即对变量值进行描述性统 计,预设数值合理空间
Figure 903834DEST_PATH_IMAGE041
,判断超出该数值合理空间的即识别为异常值;3σ原则即 对符合正态分布的变量,距离变量平均值3σ之外的概率为
Figure 672070DEST_PATH_IMAGE042
,即 属于极小概率事件,因此变量值距离变量平均值大于3σ的即可被认定为异常值。
Figure 871757DEST_PATH_IMAGE043
上述公式中
Figure 409048DEST_PATH_IMAGE044
为变量
Figure 282327DEST_PATH_IMAGE045
的正态分布函数,
Figure 787126DEST_PATH_IMAGE046
为期望(均数),
Figure 771263DEST_PATH_IMAGE047
为标准差,因此在区 间
Figure 179372DEST_PATH_IMAGE048
之外的数据即为异常值。处理方法即将异常值视为缺失值,利用缺失 值处理方法进行处理。针对分类变量的异常值检测,即对预设类别之外的错误输入认定为 异常值,处理方法即删除该异常值,并通过该变量内的众数值进行填充。
缺失值填充主要针对完全随机缺失;对于分类变量使用众数填充,对于数值变量若其分布符合正态分布则采取平均值填充法,若其分布不符合正态分布则采取中位数填充法,以此降低数据预处理阶段数据预处理的复杂度。
标准编码主要针对分类变量进行数值化处理,对于不同变量值之间存在序列关 系、不平等重要性的变量,本技术方案采取整数编码,即对于存在
Figure 223552DEST_PATH_IMAGE049
个唯一取值的变量,可 以按顺序将其编码为
Figure 966380DEST_PATH_IMAGE050
;对于不同变量值之间无序列关系、无重要性差别的 变量,本技术方案采取独热编码,即对于存在
Figure 3475DEST_PATH_IMAGE049
个唯一取值的变量,将每个变量值表示为一 个长度为
Figure 515359DEST_PATH_IMAGE049
Figure 730440DEST_PATH_IMAGE051
序列,假设某变量值在
Figure 708366DEST_PATH_IMAGE049
个唯一取值中排序位置为
Figure 237568DEST_PATH_IMAGE052
,则其独热编码后的 值为
Figure 915543DEST_PATH_IMAGE053
标准化即在不改变原始数据分布的前提下将数据转化为均值为0,标准差为1的标准正态分布,以消除不同变量之间不同量纲对于后续模型分类的影响。
四、发热待查潜在病因层次鉴别模块
本技术方案针对发热待查潜在病因类别多样、鉴别诊断困难等客观问题,结合既往医学文献与临床指南中对现有发热待查潜在病因的研究与总结,基于任务分解策略形成发热待查潜在病因类别层次结构,将原本复杂、样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题,详细的类别层次结构划分见图4所示。在基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因的分类时,首先区分发热待查潜在病因属于感染性疾病还是非感染性疾病,若属于感染性疾病,则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病;若属于非感染性疾病,则继续区分是属于肿瘤性疾病、非感染性炎症性疾病(non-infectious inflammatory disease,NIID)还是其他非感染性疾病;若属于肿瘤性疾病,则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤;若属于NIID,则继续区分是属于自身免疫性疾病还是自身炎症性疾病。因此在解决大基数多分类任务中存在的样本分布不均衡问题的同时,实现了对临床医生推理逻辑的模拟建模,具有更好的临床可解释性。
层次分类可以看作是一种特殊类型的结构化分类问题,其分类输出空间定义在一 个类别层次结构之上。本技术方案构建的类别层次结构
Figure 239208DEST_PATH_IMAGE054
属于树状常规概念层次结构,其具 体可被定义为一个偏序集
Figure 18945DEST_PATH_IMAGE055
,其中
Figure 836991DEST_PATH_IMAGE056
表示发热待查潜在病因分类问题涉及到的所有类 别概念的有限集合,符号≺表示父子继承关系“IS-A”,将类别层次结构
Figure 120204DEST_PATH_IMAGE054
的根节点记为
Figure 129618DEST_PATH_IMAGE057
。类别层次结构
Figure 131072DEST_PATH_IMAGE054
具有非对称性、反自反性和可传递性,分别表示如下:
非对称性:对于任意类别
Figure 2076DEST_PATH_IMAGE058
,若
Figure 905177DEST_PATH_IMAGE059
,则
Figure 836224DEST_PATH_IMAGE060
反自反性:对于任意类别
Figure 324974DEST_PATH_IMAGE061
Figure 983357DEST_PATH_IMAGE062
可传递性:对于任意类别
Figure 444426DEST_PATH_IMAGE063
,若
Figure 93844DEST_PATH_IMAGE059
Figure 804311DEST_PATH_IMAGE064
,则
Figure 17118DEST_PATH_IMAGE065
在模型训练阶段的阳性与阴性样本划分策略方面,为模拟临床医生的推理诊断逻 辑,使发热待查潜在病因层次分类模型具有更好的临床可解释性和适用性,本技术方案采 取siblings策略,即对类别
Figure 644277DEST_PATH_IMAGE066
进行分类预测时,阳性样本为
Figure 651547DEST_PATH_IMAGE067
,其中
Figure 114889DEST_PATH_IMAGE068
表示类别为
Figure 879190DEST_PATH_IMAGE066
的样本集合,
Figure 49271DEST_PATH_IMAGE069
表示类别为
Figure 273448DEST_PATH_IMAGE066
所有子类别的样本集合;阴性样本为
Figure 224086DEST_PATH_IMAGE070
,其中
Figure 44275DEST_PATH_IMAGE071
表示与类别
Figure 819595DEST_PATH_IMAGE066
隶属于同一父类别的同级类别的 样本集合,
Figure 496564DEST_PATH_IMAGE072
表示与类别
Figure 855870DEST_PATH_IMAGE066
隶属于同一父类别的所有同级类别的所有子类别的样 本集合;
Figure 10908DEST_PATH_IMAGE073
表示集合求并集。
为避免基于局部信息训练基分类器在模型实际应用阶段导致的上下层级间分类 结果不一致的情况,本技术方案在模型实际应用阶段采取Top-Down算法对多层间的分类结 果进行后处理,对于样本
Figure 155581DEST_PATH_IMAGE074
,在节点
Figure 491535DEST_PATH_IMAGE075
将其分类为类别
Figure 88869DEST_PATH_IMAGE066
的基分类器决策概率为
Figure 47598DEST_PATH_IMAGE076
, Top-Down算法定义如下:
Figure 296045DEST_PATH_IMAGE077
其中
Figure 314817DEST_PATH_IMAGE078
为后处理后的样本
Figure 150180DEST_PATH_IMAGE074
在节点
Figure 647021DEST_PATH_IMAGE075
被判别为类别
Figure 500707DEST_PATH_IMAGE066
的概率;用
Figure 939648DEST_PATH_IMAGE079
表示样本
Figure 511574DEST_PATH_IMAGE074
是否属于类别
Figure 763171DEST_PATH_IMAGE066
的父类别,如果属于则为1,否则为0。
当前输入样本的类别分类结果不仅取决于当前基分类器对输入样本分类结果的 置信度高低,同时也取决于输入样本当前类别的父类别节点基分类器分类结果的正确与 否。模型训练阶段会基于前述类别层次结构
Figure 533681DEST_PATH_IMAGE080
训练多个基分类器,模型训练阶段与模型实 际应用阶段的实现框架如图5所示。
在模型实际应用阶段每个基分类器会估计给定样本
Figure 831938DEST_PATH_IMAGE074
属于类别
Figure 202745DEST_PATH_IMAGE066
的局部概率
Figure 244651DEST_PATH_IMAGE081
,后处理的Top-Down算法通过修正局部概率给出最终的一致概率
Figure 869667DEST_PATH_IMAGE082
,若共有
Figure 355137DEST_PATH_IMAGE083
个类别, 则样本
Figure 901656DEST_PATH_IMAGE074
属于类别
Figure 262099DEST_PATH_IMAGE066
的一致概率
Figure 210464DEST_PATH_IMAGE084
表示为:
Figure 858046DEST_PATH_IMAGE085
对发热待查患者进行辅助鉴别诊断的临床必要性尤其体现在患者就诊早期,其临 床症状表现复合度高,缺少鉴别诊断所需的特异性临床表现,因此本技术方案构建的发热 待查潜在病因层次分类模型只采取患者就诊早期易获取的临床表现数据。以
Figure 626282DEST_PATH_IMAGE086
表示含有
Figure 55995DEST_PATH_IMAGE087
个发热待查就诊样本的数据集,其中
Figure 124445DEST_PATH_IMAGE088
表示 主要来自于病历文本数据的高基数分类变量,
Figure 951718DEST_PATH_IMAGE089
表示结构化数值变量,
Figure 207250DEST_PATH_IMAGE090
表示多变量时序 数据,
Figure 191387DEST_PATH_IMAGE091
表示就诊样本
Figure 98032DEST_PATH_IMAGE092
的发热待查潜在病因标签。
针对上述以高基数分类变量、结构化数值变量以及多变量时序数据组成的模型输入特征空间,为实现在患者就诊早期即完成对发热待查患者潜在病因的有效鉴别,因此需要对上述多模态数据进行充分的应用与挖掘。故本技术方案构建端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,其中包括针对高基数分类变量进行特征提取的实体嵌入网络层、针对多变量时序数据进行特征提取的GRU(门控循环单元)网络层以及针对结构化数值变量进行特征提取的DNN(前馈神经网络)网络层,基分类器的具体神经网络结构如图7所示。
首先为实现对分类变量内具体类别间关系的自动提取,本技术方案采取衍生于文 本特征提取的word2vec技术的实体嵌入技术,将高基数分类变量的每一离散取值映射到一 维数值向量。首先分类变量
Figure 142211DEST_PATH_IMAGE093
的独热编码过程,可以表示为:
Figure 632842DEST_PATH_IMAGE094
其中
Figure 623932DEST_PATH_IMAGE095
表示分类变量
Figure 198132DEST_PATH_IMAGE096
Figure 600164DEST_PATH_IMAGE097
的映射关系,
Figure 627026DEST_PATH_IMAGE097
表示克罗内克符号,
Figure 906960DEST_PATH_IMAGE098
的可能取值 空间等同于
Figure 335667DEST_PATH_IMAGE093
的可能取值空间,若
Figure 659332DEST_PATH_IMAGE099
是分类变量
Figure 891599DEST_PATH_IMAGE096
的可能取值数量,则
Figure 21229DEST_PATH_IMAGE097
为一个长度为
Figure 995788DEST_PATH_IMAGE099
的一维数值向量,其中元素仅在
Figure 818251DEST_PATH_IMAGE100
时取值为1。进而以向量
Figure 22967DEST_PATH_IMAGE097
作为输入,通过一层 线性单元完成下述映射过程:
Figure 143239DEST_PATH_IMAGE101
其中
Figure 484221DEST_PATH_IMAGE102
表示向量
Figure 228317DEST_PATH_IMAGE097
经过一层线性单元转化为
Figure 389171DEST_PATH_IMAGE103
的映射关系,输出向量
Figure 578713DEST_PATH_IMAGE103
可以表 示为:
Figure 836519DEST_PATH_IMAGE104
其中
Figure 672888DEST_PATH_IMAGE105
为独热编码后的一维数值向量
Figure 396737DEST_PATH_IMAGE097
到嵌入层间的映射权重,可以随模型 整体神经网络的误差反向传播进行学习与更新,
Figure 609544DEST_PATH_IMAGE106
为嵌入层的索引,
Figure 721856DEST_PATH_IMAGE103
即为最后分类变量
Figure 509553DEST_PATH_IMAGE093
的嵌入表示。对于单个样本内所有分类变量的实体嵌入过程
Figure 644999DEST_PATH_IMAGE107
即可表示为:
Figure 474546DEST_PATH_IMAGE108
其后实体嵌入表示
Figure 644627DEST_PATH_IMAGE109
与标准化之后的结构化数值变量
Figure 885116DEST_PATH_IMAGE110
合并为向量
Figure 22705DEST_PATH_IMAGE111
作为DNN网 络层的输入,经多层全连接神经网络的非线性转换,即:
Figure 639631DEST_PATH_IMAGE112
其中
Figure 898441DEST_PATH_IMAGE113
为网络层
Figure 309831DEST_PATH_IMAGE114
的输入向量,
Figure 216607DEST_PATH_IMAGE115
为网络层
Figure 824175DEST_PATH_IMAGE116
的输入向量,
Figure 765586DEST_PATH_IMAGE117
表示
Figure 301872DEST_PATH_IMAGE118
Figure 164785DEST_PATH_IMAGE119
的映射转换过程,
Figure 576044DEST_PATH_IMAGE120
Figure 637541DEST_PATH_IMAGE121
分别为网络层
Figure 593996DEST_PATH_IMAGE114
的权重矩阵与偏置,
Figure 223167DEST_PATH_IMAGE122
为网络层
Figure 923270DEST_PATH_IMAGE114
的 非线性激活函数,可以采取sigmoid,tanh或ReLu。假设DNN网络总层数为
Figure 839273DEST_PATH_IMAGE123
,则采取
Figure 215896DEST_PATH_IMAGE124
作 为DNN网络层学习到的数据特征表示。对于单个样本的上述特征表示融合过程也可表示为:
Figure 53402DEST_PATH_IMAGE125
其中
Figure 104666DEST_PATH_IMAGE126
为样本
Figure 812859DEST_PATH_IMAGE127
经DNN网络层学习到的数据特征表示,
Figure 173433DEST_PATH_IMAGE128
表示对单个样本
Figure 216345DEST_PATH_IMAGE127
的结 构化数值变量与分类变量的嵌入表示的特征表示融合过程。
考虑到本技术方案涉及的患者护理时序数据具有时间跨度不一、不规则采样频率 以及普遍存在缺失值等问题,因此本技术方案采取循环神经网络框架,基于GRU(门控循环 单元)网络对多变量时序数据进行特征提取。考虑到不规则采样频率以及缺失值可能是患 者临床状态的反映,若患者某项症状消失,则医生可能会取消对其某项护理生命体征的监 测或降低监测频率,因此在上述GRU网络层建模过程中同时将不规则采样频率信息以及缺 失值信息纳入时序特征空间进行特征挖掘。本技术方案以
Figure 320567DEST_PATH_IMAGE129
表示含有
Figure 168087DEST_PATH_IMAGE130
个时序变量的第
Figure 902825DEST_PATH_IMAGE127
个样本的多变量时序数据,
Figure 980502DEST_PATH_IMAGE131
表示第
Figure 809787DEST_PATH_IMAGE127
个样本的时间节点数量。其中
Figure 554889DEST_PATH_IMAGE132
表示所有时序变量在第
Figure 945681DEST_PATH_IMAGE133
个时间节点的观测值,
Figure 776234DEST_PATH_IMAGE134
Figure 425521DEST_PATH_IMAGE135
在第
Figure 477660DEST_PATH_IMAGE136
维时序变量的值。以
Figure 85359DEST_PATH_IMAGE137
表示第
Figure 137628DEST_PATH_IMAGE133
个时间节点的事 件观测时间,引入屏蔽向量
Figure 72830DEST_PATH_IMAGE138
表示在第
Figure 792524DEST_PATH_IMAGE133
个时间节点某一时序变量值是否缺失,同 时引入时间间隔因子
Figure 23654DEST_PATH_IMAGE139
对时序变量d在第t个时间节点的不规则时间间隔进行建模, 即可表示为:
Figure 563220DEST_PATH_IMAGE140
其中
Figure 288730DEST_PATH_IMAGE009
表示第n个样本的第d维时序变量在第t个时间节点的屏蔽向量取值;
Figure 613664DEST_PATH_IMAGE012
表示第n个样本的第d维时序变量在第t个时间节点的时间间隔因子。
则该GRU网络层的多变量时序数据输入空间可以表示为
Figure 766427DEST_PATH_IMAGE013
,其 中
Figure 58868DEST_PATH_IMAGE141
Figure 571758DEST_PATH_IMAGE015
Figure 469307DEST_PATH_IMAGE142
;其 中,
Figure 597232DEST_PATH_IMAGE017
表示第n个样本在第t个时间节点的事件观测时间,
Figure 49074DEST_PATH_IMAGE018
表示第n个样本在第t个时间节 点的屏蔽向量取值。
通过在GRU网络层内引入衰减系数对缺失值与不规则时间间隔所含的潜在模式进 行挖掘,修改后的GRU结构如图6所示,并在模型端到端的学习过程中对每个时序变量的衰 减系数
Figure 178704DEST_PATH_IMAGE143
进行学习:
Figure 914447DEST_PATH_IMAGE019
其中
Figure 674593DEST_PATH_IMAGE020
Figure 426779DEST_PATH_IMAGE021
是在GRU网络层训练过程中与其他所有网络参数共同训练得到的与 衰减系数
Figure 297783DEST_PATH_IMAGE143
相关的模型参数,
Figure 701083DEST_PATH_IMAGE022
表示在第t个时间节点的时间间隔因子,
Figure 615818DEST_PATH_IMAGE023
表示在第t个时间 节点的衰减系数。
具体的,本技术方案采取输入衰减系数
Figure 104568DEST_PATH_IMAGE144
对缺失变量进行衰减操作,直到变量经 验均值,即:
Figure 576001DEST_PATH_IMAGE145
其中
Figure 784872DEST_PATH_IMAGE146
为第
Figure 621241DEST_PATH_IMAGE147
维时序变量在第
Figure 846555DEST_PATH_IMAGE148
个时间节点的观测值经过输入衰减计算之后的 值,
Figure 59361DEST_PATH_IMAGE149
表示第
Figure 171674DEST_PATH_IMAGE147
维时序变量在上一次非缺失的第
Figure 195256DEST_PATH_IMAGE150
个时间节点的观测值,
Figure 393019DEST_PATH_IMAGE151
表示第
Figure 658784DEST_PATH_IMAGE147
维时 序变量的经验均值,
Figure 625603DEST_PATH_IMAGE152
表示第
Figure 69354DEST_PATH_IMAGE147
维时序变量在第
Figure 508075DEST_PATH_IMAGE148
个时间节点的屏蔽向量取值,
Figure 328264DEST_PATH_IMAGE153
表示 第
Figure 602119DEST_PATH_IMAGE147
维时序变量在第
Figure 13509DEST_PATH_IMAGE148
个时间节点的观测值,
Figure 389127DEST_PATH_IMAGE154
表示第
Figure 560476DEST_PATH_IMAGE147
维时序变量在第
Figure 439570DEST_PATH_IMAGE148
个时间节点的输 入衰减系数。
为保证缺失值信息被充分挖掘,本技术方案同时引入隐藏状态衰减系数
Figure 287441DEST_PATH_IMAGE155
,即在 计算新的隐藏状态
Figure 134043DEST_PATH_IMAGE156
之前对其前一个时刻的隐藏状态
Figure 827192DEST_PATH_IMAGE157
进行衰减:
Figure 839754DEST_PATH_IMAGE158
其中
Figure 592947DEST_PATH_IMAGE159
表示在第
Figure 677577DEST_PATH_IMAGE160
个时间节点的隐藏状态,
Figure 689265DEST_PATH_IMAGE161
表示在第
Figure 542951DEST_PATH_IMAGE162
个时间节点的隐藏 状态衰减系数,
Figure 732624DEST_PATH_IMAGE163
表示
Figure 789704DEST_PATH_IMAGE161
Figure 293498DEST_PATH_IMAGE159
之间的元素点积运算,
Figure 578854DEST_PATH_IMAGE164
表示在第
Figure 877112DEST_PATH_IMAGE160
个时间节点经过 衰减计算之后的隐藏状态。
加之将屏蔽向量
Figure 733072DEST_PATH_IMAGE165
直接输入GRU网络层训练过程,实现在不显式地计算缺失值的 前提下,通过将某个变量的缺失与否信息以及缺失状态持续时间信息输入发热待查潜在病 因层次分类模型,实现在模型训练过程中端到端的解决多变量时序数据的不规则时间间隔 以及缺失值问题,即:
Figure 540358DEST_PATH_IMAGE166
Figure 430954DEST_PATH_IMAGE167
表示在第
Figure 149380DEST_PATH_IMAGE162
个时间节点的时序变量,其中
Figure 492637DEST_PATH_IMAGE168
Figure 72654DEST_PATH_IMAGE169
表示第
Figure 771751DEST_PATH_IMAGE170
个样本 在第
Figure 474127DEST_PATH_IMAGE162
个时间节点的时间间隔因子,则GRU网络层的更新函数如下所示:
Figure 491631DEST_PATH_IMAGE171
其中
Figure 937656DEST_PATH_IMAGE172
为经过输入衰减计算之后的第
Figure 474947DEST_PATH_IMAGE162
个时间节点的时序变量输入,
Figure 96028DEST_PATH_IMAGE173
为GRU网络 隐藏层的净输入,
Figure 617139DEST_PATH_IMAGE174
表示在第
Figure 601276DEST_PATH_IMAGE148
个时间节点的隐藏状态,
Figure 976762DEST_PATH_IMAGE175
表示通过非线性函数得到的第
Figure 709357DEST_PATH_IMAGE162
个时间节点的候选状态,
Figure 514502DEST_PATH_IMAGE176
表示GRU网络层在第
Figure 505592DEST_PATH_IMAGE148
个时间节点的遗忘门,
Figure 266744DEST_PATH_IMAGE177
表示在第
Figure 481824DEST_PATH_IMAGE162
个时 间节点的屏蔽向量取值,
Figure 508686DEST_PATH_IMAGE178
为Logistic函数,其输出区间为
Figure 525970DEST_PATH_IMAGE179
Figure 157940DEST_PATH_IMAGE180
表示元素点积运算, 矩阵
Figure 465294DEST_PATH_IMAGE181
以及向量
Figure 667867DEST_PATH_IMAGE182
均为GRU网络层参数。
因此,将隐藏状态
Figure 531918DEST_PATH_IMAGE174
作为GRU网络层在第
Figure 80711DEST_PATH_IMAGE162
个时间节点的输出
Figure 824545DEST_PATH_IMAGE183
,后取GRU网络层在 所有时序数据的最后一层网络输出
Figure 29261DEST_PATH_IMAGE184
作为多变量时序数据的特征表示。则上述多变量时 序数据的特征提取过程
Figure 710385DEST_PATH_IMAGE185
可以表示为:
Figure 848105DEST_PATH_IMAGE186
其中
Figure 513573DEST_PATH_IMAGE187
表示第
Figure 251591DEST_PATH_IMAGE188
个样本的多变量时序数据,
Figure 660706DEST_PATH_IMAGE189
表示第
Figure 918512DEST_PATH_IMAGE188
个样本的多变量时序数据 经特征提取过程
Figure 771193DEST_PATH_IMAGE185
映射后的特征向量。
进而通过将
Figure 747239DEST_PATH_IMAGE189
与前述DNN网络层的输出
Figure 943734DEST_PATH_IMAGE190
合并之后作为最后softmax层的输入,通 过如下交叉熵损失函数计算真实值
Figure 321626DEST_PATH_IMAGE191
与预测值
Figure 328896DEST_PATH_IMAGE192
之间的误差,通过误差反向传播算法完 成对上述多模态融合深度神经网络的训练。
Figure 534182DEST_PATH_IMAGE193
由于本技术方案在上述多模态数据融合框架中采取后期融合策略,因此最终多模态融合深度神经网络即可表示为:
Figure 285100DEST_PATH_IMAGE194
其中
Figure 517498DEST_PATH_IMAGE195
表示对结构化数值变量、分类变量与多变量时序数据进行特征融合,并 得到样本分类预测结果的完整映射转换过程。
五、结果展示模块
结果展示模块主要通过系统前端可视化界面设计对发热待查潜在病因层次分类模型纳入考虑的临床表现数据通过就诊时间线的方式进行可视化展示,同时显示来自发热待查潜在病因层次鉴别模块输出的鉴别诊断意见以及每一基分类器鉴别诊断意见的置信度,以方便临床医生作参考。
本发明针对发热待查潜在病因的辅助鉴别诊断问题构建了全面且系统的发热待查潜在病因类别层次结构,基于任务分解策略将复杂、分类空间异质性大的多分类问题转化为包含多个二分类和三分类任务的层次分类问题,解决了分类难度大、标签样本分布不均衡的难题。
本发明充分考虑临床业务实际,设计数据规整策略并对其进行了自动化实现,将原有因患者多次就诊或转诊导致的分散临床数据进行了有效分割与整合,形成以发热待查患者单次发热病程为基本路径的最小数据分析单元。
本发明基于设计的发热待查潜在病因类别层次结构,设计实现发热待查潜在病因层次分类模型,其从上往下的逐层推理方式更加符合临床医生的鉴别诊断逻辑,有效提升模型可解释性和临床适用性。
本发明构建了完整的多模态融合深度神经网络,对患者入院早期易获取的病历文本数据、实验室常规化验数据以及护理时序数据进行了充分、有效的融合与挖掘,实现了对发热待查潜在病因进行早期辅助鉴别诊断的目的以及对早期有限临床表现数据最大程度的利用。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (9)

1.一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,包括以下模块:
(1)数据获取模块:实现发热待查辅助鉴别诊断系统与异构源数据库的连接;通过交互界面配置在异构源数据库内的目标临床信息的数据范围,以及患者唯一标识、就诊唯一标识,并完成对目标数据的扫描以及校验性数据的统计,建立目标数据采集的完整数据通路;
(2)数据规整模块:建立数据规整策略,以患者最早被诊断为发热待查的电子病历记录事件为发热待查诊断锚点,往前纳入7个自然日以内的就诊病历记录,往后纳入下次就诊开始时间与本次就诊结束时间差小于等于24小时的所有就诊病历记录,作为一次就诊周期;下次就诊开始时间距离本次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期;基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合,形成单个患者因单次发热就诊产生的最小数据分析单元;在最小数据分析单元时间范围内提取最早的就诊病历记录数据;
(3)多模态数据预处理模块:针对指定类型的病历文本数据,利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取;对不同采样频率、不同长度以及存在缺失值的多变量时序数据,进行时间窗口对齐与归一化处理;针对结构化数据,完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化;
(4)发热待查潜在病因层次鉴别模块,包括:
基于任务分解策略构建发热待查潜在病因类别层次结构,将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题;建立发热待查潜在病因层次分类模型,将模型分类输出空间定义在发热待查潜在病因类别层次结构之上;
在模型训练阶段,采取siblings策略对阳性与阴性训练样本进行划分,基于划分的多个训练样本集分别训练多个基分类器;在模型实际应用阶段,采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理,修正单个基分类器的局部概率,给出符合发热待查潜在病因类别层次结构的一致概率,得到发热待查患者潜在病因的层次类别分类结果,基于层次类别分类结果给出层次化鉴别诊断意见。
2.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述系统还包括结果展示模块,所述结果展示模块用于对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示,并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。
3.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述数据获取模块包含数据库连接管理单元和目标数据自定义单元;
所述数据库连接管理单元包括:通过java编程语言的类及接口编写多个JDBC模块,建立与异构数据库之间的数据通路,实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储;
所述目标数据自定义单元包括:针对发热待查潜在病因层次分类模型所需的目标临床信息划定数据范围,通过交互界面配置数据范围、患者唯一标识和就诊唯一标识,完成目标数据到缓存数据库的数据传输,确定完整数据通路。
4.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元;
所述文本数据预处理单元包括:针对既往史、个人史、家族史与婚育史这四类病历文本数据,采取位置导向模式分别编写正则表达式语句进行目标信息结构化提取;基于主诉与现病史这两类病历文本数据,采取关键词导向模式,利用词典分词技术构建目标症状词典及词典匹配规则;所述目标症状词典包括位置信息不敏感的全身症状词典、位置信息敏感的症状词典以及身体部位词典,所述词典匹配采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取;
所述时序数据预处理单元包括:对多变量时序数据进行时间窗口对齐,取每次就诊固定时间内的数据作为患者早期临床表现数据;每行数据对应于每位患者的一项时序变量数据序列,依据每一项时序变量数据采样频率以及采样时间跨度的长短分布,明确输入数据时间窗口以及列与列之间的时间间隔,实现对同一患者同一次就诊内多时序变量之间的时序对齐;采取Min-Max归一化对时序数据做数值归一化;
所述结构化数据预处理单元包括:针对结构化后的病历文本数据、基本信息数据以及实验室常规化验数据进行以下预处理操作:异常值处理、缺失值填充、标准编码以及标准化。
5.根据权利要求4所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述结构化数据预处理单元中,所述异常值处理包括:针对数值变量的异常值检测,采取统计分析和3σ原则,将异常值视为缺失值,利用缺失值处理方法进行处理;针对分类变量的异常值检测,对预设类别之外的错误输入认定为异常值,删除异常值并通过分类变量内的众数值进行填充;
所述缺失值填充包括:对于分类变量使用众数填充,对于数值变量若其分布符合正态分布则采取平均值填充法,若其分布不符合正态分布则采取中位数填充法;
所述标准编码包括:针对分类变量进行数值化处理,对于不同变量值之间存在序列关系、不平等重要性的变量,采取整数编码,对于不同变量值之间无序列关系、无重要性差别的变量,采取独热编码。
6.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述发热待查潜在病因层次鉴别模块中,基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因分类时,首先区分发热潜在病因属于感染性疾病还是非感染性疾病,若属于感染性疾病,则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病;若属于非感染性疾病,则继续区分是属于肿瘤性疾病、NIID还是其他非感染性疾病;若属于肿瘤性疾病,则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤;若属于NIID,则继续区分是属于自身免疫性疾病还是自身炎症性疾病;所述发热待查潜在病因类别层次结构具有非对称性、反自反性和可传递性。
7.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述发热待查潜在病因层次鉴别模块中,以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,所述基分类器结构如下:
针对高基数分类变量,利用实体嵌入技术构建嵌入网络层,对分类变量进行特征提取;通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取;通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数,对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取;
采取后期融合策略,对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合,输入softmax层进行交叉熵损失函数的计算与基分类器的训练。
8.根据权利要求7所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述基分类器中,利用实体嵌入技术,将高基数分类变量的每一离散取值映射到一维数值向量,将一维数值向量经过线性单元转化得到分类变量的实体嵌入表示;将分类变量的实体嵌入表示与结构化数值变量合并后输入DNN网络层,经多层全连接神经网络的非线性转换,得到样本经DNN网络层学习到的数据特征表示。
9.根据权利要求7所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特 征在于,所述基分类器中,以
Figure DEST_PATH_IMAGE001
表示含有D个时序变量的 第n个样本的多变量时序数据,
Figure 179028DEST_PATH_IMAGE002
表示第n个样本的时间节点数量,
Figure DEST_PATH_IMAGE003
表示第n个样本 的所有时序变量在第t个时间节点的观测值,
Figure 299430DEST_PATH_IMAGE004
;以
Figure DEST_PATH_IMAGE005
表示第t个时间节 点的事件观测时间,引入屏蔽向量
Figure 751272DEST_PATH_IMAGE006
表示在第t个时间节点某一时序变量值是否 缺失,同时引入时间间隔因子
Figure DEST_PATH_IMAGE007
对时序变量d在第t个时间节点的不规则时间间隔进 行建模,表示为:
Figure 349743DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE009
表示第n个样本的第d维时序变量在第t个时间节点的屏蔽向量取值;
Figure 101798DEST_PATH_IMAGE010
表示
Figure DEST_PATH_IMAGE011
在第d维时序变量的值;
Figure 861944DEST_PATH_IMAGE012
表示第n个样本的第d维时序变量在第t个时间节点的时间间 隔因子;
所述GRU网络层的多变量时序数据输入空间表示为
Figure DEST_PATH_IMAGE013
Figure 473185DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 140927DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
表示 第n个样本在第t个时间节点的事件观测时间,
Figure 888434DEST_PATH_IMAGE018
表示第n个样本在第t个时间节点的屏蔽 向量取值;
所述GRU网络层中引入衰减系数,对缺失值与不规则时间间隔所含的潜在模式进行挖掘,并在模型端到端的学习过程中对每个时序变量的衰减系数进行学习;
Figure DEST_PATH_IMAGE019
其中
Figure 85060DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
是在GRU网络层训练过程中与其他所有网络参数共同训练得到的与衰减系 数相关的模型参数,
Figure 42652DEST_PATH_IMAGE022
表示在第t个时间节点的时间间隔因子,
Figure DEST_PATH_IMAGE023
表示在第t个时间节点的 衰减系数;
采取输入衰减系数对缺失变量进行衰减操作,直到变量经验均值;采取隐藏状态衰减系数在计算新的隐藏状态之前对其前一个时刻的隐藏状态进行衰减;
取GRU网络层在所有时序数据的最后一层网络输出作为多变量时序数据的特征表示。
CN202111311947.0A 2021-11-08 2021-11-08 一种基于任务分解策略的发热待查辅助鉴别诊断系统 Active CN113744873B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111311947.0A CN113744873B (zh) 2021-11-08 2021-11-08 一种基于任务分解策略的发热待查辅助鉴别诊断系统
PCT/CN2022/124226 WO2023078025A1 (zh) 2021-11-08 2022-10-10 一种基于任务分解策略的发热待查辅助鉴别诊断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111311947.0A CN113744873B (zh) 2021-11-08 2021-11-08 一种基于任务分解策略的发热待查辅助鉴别诊断系统

Publications (2)

Publication Number Publication Date
CN113744873A CN113744873A (zh) 2021-12-03
CN113744873B true CN113744873B (zh) 2022-02-11

Family

ID=78727712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111311947.0A Active CN113744873B (zh) 2021-11-08 2021-11-08 一种基于任务分解策略的发热待查辅助鉴别诊断系统

Country Status (2)

Country Link
CN (1) CN113744873B (zh)
WO (1) WO2023078025A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744873B (zh) * 2021-11-08 2022-02-11 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN115547502B (zh) * 2022-11-23 2023-04-07 浙江大学 基于时序数据的血透病人风险预测装置
CN116153516B (zh) * 2023-04-19 2023-07-07 山东中医药大学第二附属医院(山东省中西医结合医院) 一种基于分布式计算的疾病大数据挖掘分析系统
CN116342345B (zh) * 2023-05-26 2023-09-19 贺显雅 一种基于大数据的智慧社区便民综合服务方法及平台
CN116383722A (zh) * 2023-06-05 2023-07-04 青岛理工大学 一种基于门控循环单元神经网络的压裂措施过程监控方法
CN116700094B (zh) * 2023-06-21 2024-03-01 哈尔滨博尼智能技术有限公司 一种数据驱动控制系统
CN116860977B (zh) * 2023-08-21 2023-12-08 之江实验室 一种面向矛盾纠纷调解的异常检测系统及方法
CN117116497B (zh) * 2023-10-16 2024-01-12 长春中医药大学 一种用于妇科疾病的临床护理管理系统
CN117743957B (zh) * 2024-02-06 2024-05-07 北京大学第三医院(北京大学第三临床医学院) 一种基于机器学习的Th2A细胞的数据分选方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709252A (zh) * 2016-12-26 2017-05-24 重庆星空云医疗科技有限公司 预测、诊断、治疗和控制医院感染的智能决策辅助系统
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN113342973A (zh) * 2021-06-03 2021-09-03 重庆南鹏人工智能科技研究院有限公司 一种基于疾病二分类器的辅助诊断模型的诊断方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488713B2 (en) * 2017-08-15 2022-11-01 Computer Technology Associates, Inc. Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support
CN112768057B (zh) * 2021-01-14 2023-01-10 重庆医科大学 鉴别儿童发热待查病因的系统
CN113488183B (zh) * 2021-06-30 2023-10-31 吾征智能技术(北京)有限公司 一种发热疾病多模态特征融合认知系统、设备、存储介质
CN113744873B (zh) * 2021-11-08 2022-02-11 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709252A (zh) * 2016-12-26 2017-05-24 重庆星空云医疗科技有限公司 预测、诊断、治疗和控制医院感染的智能决策辅助系统
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN113342973A (zh) * 2021-06-03 2021-09-03 重庆南鹏人工智能科技研究院有限公司 一种基于疾病二分类器的辅助诊断模型的诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A web based decision support system driven by fuzzy logic for the diagnosis of typhoid fever;O.W.Samuel;《Expert Systems with Applications》;20130830;第40卷(第10期);第4164-4171页 *
基于3D卷积神经网络-感兴趣区域的阿尔茨海默症辅助诊断模型;曾安等;《生物医学工程研究》;20200625(第02期);第133-138页 *

Also Published As

Publication number Publication date
WO2023078025A1 (zh) 2023-05-11
CN113744873A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN113744873B (zh) 一种基于任务分解策略的发热待查辅助鉴别诊断系统
WO2022227294A1 (zh) 一种基于多模态融合的疾病风险预测方法和系统
ȚĂRANU Data mining in healthcare: decision making and precision
WO2023202508A1 (zh) 一种基于认知图谱的全科患者个性化诊疗方案推荐系统
WO2016192612A1 (zh) 基于深度学习对医疗数据进行分析的方法及其智能分析仪
CN113015977A (zh) 使用自然语言处理的对疾病和病症的基于深度学习的诊断和转诊
CN107247881A (zh) 一种多模态智能分析方法及系统
Rostami et al. A novel explainable COVID-19 diagnosis method by integration of feature selection with random forest
CN108986871A (zh) 一种智慧医疗知识图谱的构建方法
Pokharel et al. Temporal tree representation for similarity computation between medical patients
Dudkina et al. Classification and Prediction of Diabetes Disease using Decision Tree Method.
Arbet et al. Lessons and tips for designing a machine learning study using EHR data
Xie et al. Learning an expandable EMR-based medical knowledge network to enhance clinical diagnosis
Yang et al. Disease prediction model based on bilstm and attention mechanism
Karaca et al. Multi-Chaos, Fractal and Multi-Fractional Artificial Intelligence of Different Complex Systems
CN114191665A (zh) 机械通气过程中人机异步现象的分类方法和分类装置
JP7365747B1 (ja) 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム
CN117457192A (zh) 智能远程诊断方法及系统
CN115019960B (zh) 一种基于个性化状态空间进展模型的疾病辅助决策系统
Chen et al. Unmasking Bias and Inequities: A Systematic Review of Bias Detection and Mitigation in Healthcare Artificial Intelligence Using Electronic Health Records
CN113990489A (zh) 一种中医药临床证候诊疗智能数据处理和分析挖掘系统
Ahmed et al. A Weight Based Labeled Classifier Using Machine Learning Technique for Classification of Medical Data.
Baron Artificial Intelligence in the Clinical Laboratory: An Overview with Frequently Asked Questions
Rama Sree et al. A Comparative Study on a Disease Prediction System Using Machine Learning Algorithms
Wang et al. Interpretable knowledge mining for heart failure prognosis risk evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant