CN105868526A - 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法 - Google Patents

基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法 Download PDF

Info

Publication number
CN105868526A
CN105868526A CN201610100284.0A CN201610100284A CN105868526A CN 105868526 A CN105868526 A CN 105868526A CN 201610100284 A CN201610100284 A CN 201610100284A CN 105868526 A CN105868526 A CN 105868526A
Authority
CN
China
Prior art keywords
data
tensor
cap
child
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610100284.0A
Other languages
English (en)
Other versions
CN105868526B (zh
Inventor
舒林华
金博
邵欣蔚
查宏远
于广军
陈凯
齐开悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai City Children Hospital
Shanghai Jiaotong University
East China Normal University
Original Assignee
Shanghai City Children Hospital
Shanghai Jiaotong University
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai City Children Hospital, Shanghai Jiaotong University, East China Normal University filed Critical Shanghai City Children Hospital
Priority to CN201610100284.0A priority Critical patent/CN105868526B/zh
Publication of CN105868526A publication Critical patent/CN105868526A/zh
Application granted granted Critical
Publication of CN105868526B publication Critical patent/CN105868526B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • G06F19/36
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法,该系统,包括:CAP电子病历系统、数据预处理模块和病原学分析模块,其中:CAP电子病历系统从电子健康记录系统中使用SQL语言抽取CAP患儿的原始数据,并输出至数据预处理模块,数据预处理模块进行数据清洗、格式转换、规则校验等计算,并输出标准化的儿童CAP数据至病原学分析模块,病原学分析模块进行鲁棒张亮分析得到儿童CAP病理学数据模型。本发明侧重于在现有电子健康记录系统上对数据进行清洗与挖掘,实现数据的标准化与基于鲁棒张量保持算法的病原学分析,可以为儿童呼吸科医生对患者进行诊断与用药方案选择提供决策支持。

Description

基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法。
背景技术
儿童社区获得性肺炎(Community Acquired Pneumonia,CAP)是指健康儿童在医院之外(社区)感染所致的肺炎,是儿童常见的呼吸系统感染性疾病之一,是儿童住院的最常见原因之一,同时是5岁以下儿童死亡的首位原因。据统计,国内小儿肺炎占小儿内科总住院人数的24.5%~56.2%。世界卫生组织(WHO)调查结果显示,全球每年有15.5亿例儿童CAP病例,WHO将儿童CAP列为最重要儿科疾病之一。2010年,医学权威学术期刊《柳叶刀》指出,CAP是中国儿童因疾病死亡的原因之首。
CAP常见的治病微生物包括细菌、病毒、支原体、衣原体等;此外,许多患儿存在多种病原混合感染的情况。临床上,医生准确用药的前提是明确患者的病原,否则常需要先使用广谱抗生素或者进行试药。然而,由于种种原因,儿童CAP患者治病微生物的诊断存在很多困难。中国2013年修订的《儿童社区获得性肺炎管理指南》以及大量研究分析表明,影响CAP病原检测发现的因素包括以下三点:(1)CAP治病微生物自身繁殖以及药物引起的变异;(2)人种、地域、环境以及医疗条件影响;(3)病原学检验技术本身的难点、敏感性与特异性。此外,在检测与治疗过程中,各个环节的标准化、衔接程度也会影响检测的准确度。总的来说,无论是在病原学上还是临床上,儿童CAP的治病微生物的检测存在很多困难,使得医生往往无法及时的针对病原进行正确用药,造成患儿身体的额外伤害与医疗费用的增加,并且很大程度上造成了抗生素的滥用。因此,研制新的儿童CAP病原学分析与检测技术已经迫在眉急。
近年来,医学临床检测技术与计算机技术的得到了突飞猛进的发展,随着我国医疗体系中医院健康信息系统的推广与医疗数据系统的标准化,我国已经积累了大量的医疗数据,包括医生的临床记录、用药与治疗遗嘱、化验结果与诊断报告,以及医疗影像等。此外,许多医院已经开展了病人的患病家族史、基因测序等数据的录入工作。儿童CAP是儿科最普遍、患病人数最多的疾病之一,所以儿童CAP在数字化诊疗方面处于优势,数据的收集情况较为理想。在目前的医学知识与检测技术下,这些数据包含了患者生理与疾病状况相关的完整信息。然而,这些数据的量级与复杂程度已经远远超过了临床医生的处理分析能力。例如,仅一名住院CAP患儿的化验报告就包含了600多种指标、上千条记录,此外还有大量的医生记录、护士笔记、数字影像等。目前临床上,在治疗儿童CAP时,医生仍然仅参考临床指南与个人的经验,未充分利用蕴含在医疗数据中的信息。因此,如何将海量医疗数据合理的呈现给医生,提供数据分析、决策支持,对儿童CAP临床医学以及数字化医疗的发展,均具有重要的意义。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法,侧重于在现有电子健康记录系统上对数据进行清洗与挖掘,实现数据的标准化与基于鲁棒张量保持算法的病原学分析,可以为儿童呼吸科医生对患者进行诊断与用药方案选择提供决策支持。
本发明是通过以下技术方案实现的:
本发明涉及一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统,包括:CAP电子病历系统、数据预处理模块和病原学分析模块,其中:CAP电子病历系统从电子健康记录系统(EHR)中使用SQL语言抽取CAP患儿的原始数据(临床记录、化验报告、影音数据等),并输出至数据预处理模块,数据预处理模块进行数据清洗、格式转换、规则校验等计算,并输出标准化的儿童CAP数据至病原学分析模块,病原学分析模块进行鲁棒张亮分析得到儿童CAP病理学数据模型。
本发明涉及上述系统的数据处理方法,包括以下步骤:
第一步,建立患者数据库,包括患者编号、入院时间、出生日期、年龄、性别;
第二步,对来自EHR的原始数据进行数据清洗,建立医疗数据预处理规则库,然后根据规则库生成标准化的儿童CAP病程数据;
第三步,利用医疗数据是张量的特点,提取第二步所生成的标准化CAP病程数据,利用鲁棒张量保持算法,对儿童CAP数据进行病原学分析。
所述的第二步中,对EHR的原始数据进行数据清洗是指剔除数据中不合规范、错误以至于系统无法使用记录条,并初步提取其中的数据元素。目前医院使用的EHR在开发时是从工程师角度设计的,不少软件使用流程不符合医生的习惯,医生只能手工输入。由于医生表述习惯不同,特别是部分医学术语的缩写,相同数据的在系统中出现形式有多种,给后续数据的标准化造成了困难。此外,数据在采集环节、治疗过程中的衔接问题也会导致数据存在错误。由以上原因,原始数据在使用之前必须进行清洗。
优选的,所述的第二步中的数据清洗,具体包括如下步骤:
2.1)每一条记录项在EHR中的原始数据是一个字符串,扫描该字符串,删除空白的记录项,其余的则删除错误或者多余的字符,如标点符号、空格等;
2.2)对儿童CAP单一病种的所有化验报告来说,记录条中可能出现的非结构化文字型描述(包括规定形式以及医生的习惯方式)是很有限的,通常仅有几十种,因此建立“描述词条”模板,包括“阳性”、“阴性”、“P”、“N”等,再使用描述词条逐个匹配数据的字符串,若存在匹配项,该记录条对应的预处理结果中增加一条文本型的数据T,同时在字符串中删除这部分字符;
2.3)在部分检验结果中,医生根据医学指南会判断其所处的程度(级别)。为此,对上一步处理所剩余的字符串,使用字符串“一级“、”二级”、“+1”、“+2”等进行匹配,若匹配成功,则在该记录条对应的预处理结果中增加一条离散型的数据N,同时在字符串中删除这部分字符;
2.4)检查剩余的字符串,若全为数值,则在该记录条对应的预处理结果中增加一条连续型的数据V,即实际的检测结果;否则,删除剩余的字符串;
2.5)添加患者编号、化验名称与检测时间,最终清洗处理的每一条记录条表示为{P,t,G,c,T,N,V},其中:P为患者编号,t为检测时间,G为化验大类名称,c为具体化验名称,T为文本型的描述数据,N为表示程度或级别的整型数据,V为记录实际检测结果的连续型数据。在不同的记录条中,T、N、V可能缺失,也可能出现多次。
优选的,所述的第二步中,对清洗过的数据在规则库的基础上进行规范化处理得到儿童CAP标准化病程数据,是指对上述清洗过程所得数据进行冗余处理,并转换为更适合病原学分析的数据形式,具体包括以下步骤:
2.i)对于大部分化验数据,医学指南有指出其参考值,医生根据参考值进行定性判断,然而医生在录入仅对部分判断结果进行了录入。因此,本发明建立预处理规则库,每种化验类型对应一组预处理规则,{c,R1,R2,…},其中:c为化验名称,Ri为规则,包括文本型与数值型两种。文本型规则主要进行匹配处理,形式如下:{‘text’,S,label},其中:’text’表示为文本型规则,S是用于跟文本数据T进行匹配的字符串,label为规则成立时的输出,可以为:N(正常),S(异常),N(阴性),P(阳性),H(高),L(低);数值型规则主要进行区间比较,形式如下:{‘value’,min,max,label},其中:’value’表示为数值型规则,min与max分别区间的上下界,值得注意的是它们分别可取为上下无穷,label为连续性数据V处在区间[min,max]内时的输出,具体为:N(正常),S(异常),N(阴性),P(阳性),H(高),L(低);
2.ii)对清洗步骤所得到的每一记录条{P,t,G,c,T,N,V},查询所对应的规则组{c,R1,R2,…},依次进行校验,输出标签L1,L2等;如果这些输出标签相同,均为L,则用L代替文本数据T,否则说明数据录入存在错误,仅保留原始的连续性数据V;
2.iii)经过规则库的校验,最终得到标准化的儿童CAP病程数据,其中:每一条记录的形式为{P,t,G,c,L,N,V},其中:L,N,V可能缺失,但至少存在一种,并且每种至多一项。
因此,本发明经过所述的第二步的数据清洗与预处理过程,所得到的标准化儿童CAP病程数据已经剔除了错误与冗余信息,并统一成了规范格式,为后续处理分析提供了便利。
所述的第三步中的基于鲁棒张量保持算法的病原学分析,是指将每一个患者的标准化临床数据表示成张量,然后利用鲁棒张量保持算法建立儿童CAP的病原学数据模型,从而为医生在CAP患儿致病微生物检测时提供决策支持,具体为:首先对现有EHR中患者数据经过清洗与预处理后的标准化病程数据,提取张量数据,再基于鲁棒张量保持算法,训练病原学数据模型;然后以新加入的CAP患儿的标准化病程数据与训练模块所得到的病原学数据模型为输入,进行分析处理,输出为该患儿的原始病程数据在低维空间内的张量表示,即本发明的病理学数据特征。
优选的,所述的第三步,具体包括以下步骤:
3.1)设定所观察的时间窗口[0,D],表示考虑CAP患儿在入院0到D天内的数据,针对每一个大类G,抽取时间窗口内每一个患者的标准化病程数据,若患者存在多次检查,则选择第一项,若患者没有进行该项检测,则补零,L中的标签N、S、P、H、L分别使用0、1、1、1、-1代替;所抽取的数据表示为{L1,N1,V1,L2,N2,V2,…}i,其中:下标i表示第i个类别;为了表示方便,使用向量Qi表示上述数据;
3.2)将每一个患者提取的所有数据{Q1,Q2,…,Qn},其中:n是大类的数目,合并成n阶张量;因此,所有CAP患者数据的张量形式表示为{P1,P2,P3,…,PN},其中:每一个是n阶张量,N是患者的数目,mj(j=1,2,…,n)是维数。由于原始张量的维数较高,本发明将原始张量投影到嵌入到一个最优的低阶张量空间上,使得原始张量数据结构最本征的拓扑特性在新的张量空间中能够得到保留。采用本发明提出的鲁棒张量保持算法,可以得到一组最优投影矩阵以及原始儿童CAP数据在低阶张量空间中的形式{C1,C2,C3,…,CN}。
优选的,上述步骤所述的将原始的高阶张量数据Pi映射到低阶张量Ci,是指利用一组变换矩阵 T k &Element; R d k &times; m k , d k < m k , k = 1 , 2 , ... , n , 将原始张量Pi映射到Ci,Ci=Pi×1T1×2T2×3…×nTn。为了更好的对儿童CAP张量数据的数据特征进行分析,低阶张量空间需要尽可能的保留原数据集的几何特性。为此,本发明构造邻域矩阵W=[wij]N×N来刻画张量数据在其所在的流形上的空间几何结构。邻域矩阵W的每一个元素wij描述儿童CAP患者i与患者j的医疗数据在张量空间上的距离:其中:N(K,Pi)表示Pi的K个最邻近的点,τ是一个正的常数。
所述的张量保持算法目的是使数据集在高阶张量空间与低阶张量空间的几何邻域特性尽可能一致。为此,其采用F范数定义张量保持的目标函数:
arg min J(T1,T2,…,Tn)=∑i||Ci-∑jwijCj||2
i||Pi×1T1…×nTn-∑jwijPj×1T1…×nTn||2
为了保证最优的变换矩阵组的尺度不是任意缩放的,本发明采用了尺度约束:∑i‖Ci2=1
进而,为了使用低阶张量对儿童CAP的高阶张量原始数据进行建模,本发明采用的张量近邻保持算法所需求解的优化问题就可以表述为:
arg min J(T1,T2,…,Tn)=∑i||Pi×1T1…×nTn-∑jwijPj×1T1…×nTn||2
s.t.∑i‖Pi×1T1…×nTn2=1
经过最优张量保持映射,原始儿童CAP数据在低阶张量空间中的数据维数远低于原始维度,并含有原数据主要的数据特征,因此有助于提高对高维医疗数据的分析效果与计算效率。
上述的本发明优化问题是一个带高阶非线性约束条件的高阶非线性规划问题,它的直接计算是不可行的。本发明采用一种低秩近似迭代方案来求解该优化问题,具体为:在求解某一阶对应的投影矩阵时,先固定其他投影矩阵,优化计算该矩阵,然后整体迭代进行,最终得到整组最优的投影矩阵。以计算Tk为例,先假设T1,T2,…Tk-1,Tk+1,…,Tn是已知的。此外,为了表示的简洁,设则根据原优化问题,求解Tk函数的目标函数为: a arg min J ( T k ) = &Sigma; i | | T k C i k - &Sigma; j &omega; i j T k C j k | | = &Sigma; i , j t r { T k ( ( C i k - &omega; i j C j k ) ( C i k - &omega; i j C j k ) T ) T k T } = t r { T k ( &Sigma; i , j ( C i k - &omega; i j C j k ) ( C i k - &omega; i j C j k ) T ) T k T } ,
&Sigma; i | | T k C i k | | = t r { T k ( &Sigma; i , j C i k C i k T ) T k T } = 1
上述优化问题具有显式的最优解,即该子问题的最优投影矩阵Tk是下述特征值问题的前k个最小特征值对应的特征向量: ( &Sigma; i , j ( C i k - &omega; i j C j k ) ( C i k - &omega; i j C j k ) T ) &mu; = &lambda; ( &Sigma; i , j C i k C i k T ) &mu;
考虑到儿童CAP临床数据是高度稀疏,存在缺失,且含有噪声的,为了提高系统的抗干扰与鲁棒性,本发明进一步在张量保持算法的基础上引入了稀疏特性,其基本思想是使用一组稀疏的相似度系数矩阵来代替邻域权重矩阵。它分为两个步骤:首先,采用张量稀疏表示计算原始儿童CAP数据之间的稀疏表示系数矩阵,然后构建稀疏的相似度系数矩阵;再将相似度系数矩阵作为邻接权重矩阵,采用张量保持算法来计算最优的投影矩阵组与最佳低阶张量数据。
上述基于张量稀疏表示构建稀疏相似度系数矩阵是指:设原始张量数据{P1,P2,P3,…,PN}之间的稀疏线性表出系数矩阵为ZN×N={zij}i,j=1,…,N,其满足如下优化问题:
min||Zi,:||1
s.t.||Pi-∑j,j≠izijPj||2
其中:Zi,:是矩阵Z的第i个行向量。由于采用了L1范数约束,Zi,:是稀疏的,其非零元素表示为 { z ij k i | i = 1 , 2 , ... , N ; j k i = 1 , 2 , ... , K i } , 其中:Ki是第i行非零元的数目。
由于Z是数据点之间的线性表出系数,反映它们的相似特性,因此本发明在鲁棒化张量保持算法、构建样本之间的相似度矩阵时,保持Z具有的稀疏特性。设相似度矩阵为SN×N={Sij}i,j=1,…,N,其中:如果Zij=0,则Sij=0。S的非零元素表示为 相似度矩阵S通过如下优化问题来计算:
m i n | | P i - &Sigma; k = 1 K i s ij k i P j k i | |
s . t . &Sigma; k = 1 K i s ij k i = 1 , s ij k i > 0 , k = 1 , ... , K i
其中:上面和为1的约束可以解决尺度问题,并使得模型具有更好的可解释性。
在得到相似度矩阵S后,用其代替邻域权重矩阵,数学形式不需改变,便可以得到本发明提出的鲁棒张量保持算法。类似的,本发明采用低秩迭代近似的优化策略来求解最优的投影矩阵组。以计算Tk为例,其优化目标函数为:
arg min J ( T k ) = &Sigma; i | | T k C i k - &Sigma; j s i j T k C j k | | 2
s . t . t r { T k ( &Sigma; i C i k C i k T ) T k T } = 1
经过简单的推导,上式中的目标函数可以简化为:
J(Tk)=tr{TkCk(I-S)T(I-S)Ck TTk T}
其中:I是单位矩阵。类似的,约束条件可以改写为因此,该子问题的最优解可以显式计算,即下述特征值问题的最小特征值对应的特征向量:
C k ( I - S ) T ( I - S ) C k T u = &lambda;C k C k T u
从而,通过迭代求解一系列子问题,可以到一组鲁棒稀疏邻域约束条件下,最优的投影矩阵组以及原始儿童CAP数据的低阶张量形式{C1,C2,C3,…,CN}。它们维数较低,易于分析计算,并且包含了原始数据的主要信息,因此本发明使用它们作为原始高维儿童CAP数据的数据模型。
在测试模块中,给定新添加的已完成清洗的儿童CAP数据样本Pnew,使用训练模块中得到的最佳投影矩阵组将其映射到低阶张量空间中,Cnew=Pnew×1T1×2…×nTn,Cnew就是该患者采用本发明的儿童CAP病原学模型表示的低维本征数据特征,并且包含了将其分析结果给医生作为参考。
附图说明
图1为本发明系统示意图;
图2为实施例儿童CAP数据预处理模块流程图;
图3为实施例儿童CAP数据病原学分析模块流程图。
具体实施方式
本实施例是针对儿童CAP临床数据的预处理与病原学分析,其数据输入是从现有医院电子健康记录(EHR)系统的导出模块或者数据库语言导出的,包括患者信息、临床检验结果、医生病原学诊断结果。本发明在本实施例中的具体实施过程如下所示:
步骤1:建立患者数据库,包括患者编号、入院时间、出生日期、年龄、性别;
步骤2:对临床检验的原始数据进行数据清洗,建立医疗数据预处理规则库,然后根据规则库生成标准化的儿童CAP病程数据;
2.1,对原始数据的字符串进行异常字符处理,扫描该字符串,删除空白的记录项,删除错误或者多余的字符,如标点符号、空格等;
2.2,在医生帮助下,整理儿童CAP临床数据记录中常用非结构化本文型描述词条,构建描述词条模板;
2.3,上述描述词条模板,对其中:每一个描述词条,逐个匹配数据字符串,若存在匹配项,再该记录的预处理结果中添加一条文本型的数据T,同时在字符串中删除这部分字符;
2.4,对2.3处理所得字符串,针对临床程度描述符“一级“、”二级”、“+1”、“+2”等进行逐个匹配,若匹配成功,在该记录条的预处理结果中添加一条离散型的数据N,同时在字符串中删除这部分字符;
2.5,检查剩余字符串,若全为数值,则在该记录条的预处理结果中增加一条连续型的数据V,即实际的检测结果;否则,删除剩余的字符串;
2.6,查询步骤1所建立的患者基本信息数据库,添加患者编号、化验名称与检测时间,最终清洗处理的每一条记录条表示为{P,t,G,c,T,N,V},其中:P为患者编号,t为检测时间,G为化验大类名称,c为具体化验名称,T为文本型的描述数据,N为表示程度或级别的整型数据,V为记录实际检测结果的连续型数据;
2.7,建立预处理规则库,每一种化验结果对应一组预处理规则,{c,R1,R2,…},其中:c为化验名称,Ri为规则。文本型规则主要进行匹配处理,形式为{‘text’,S,label},其中:’text’表示为文本型规则,S是用于跟文本数据T进行匹配的字符串;数值型规则主要进行区间比较,形式为{‘value’,min,max,label}其中:’value’表示为数值型规则,min与max分别区间的上下界;label为规则成立时的输出,可以为:N(正常),S(异常),N(阴性),P(阳性),H(高),L(低);
2.8,对2.6所得到的每个记录条{P,t,G,c,T,N,V},查询所对应的规则组{c,R1,R2,…},依次进行校验,输出标签L1,L2等;如果这些输出标签相同,均为L,则用L代替文本数据T,否则说明数据存在错误,仅保留原始的连续性数据V;
2.9,最终得到标准化的儿童CAP病程数据,其中:每条记录的标准形式为{P,t,G,c,L,N,V}。
步骤3:对第二步所建立数据库的标准化的CAP病程数据,利用鲁棒张量保持算法,对儿童CAP致病微生物的病原学分析进行决策支持。
3.1,设定病原学分析时所考虑的时间窗口[0,D],D为入院天数;
3.2,对步骤2处理所得到的儿童CAP标准化病程数据库,在时间窗口[0,D]内,进行张量数据抽取:提取每一个患者该时间内的标准化数据,针对每个大类G依次提取,若患者存在多次检查,则选择第一次的结果;若患者没有进行该项检测,则补零;L中的标签N、S、P、H、L分别使用0、1、1、1、-1代替;所抽取数据表示为{L1,N1,V1,L2,N2,V2,…}i,其中:下标i表示第i个类别,使用向量Qi表示上述数据;将每一个患者提取的所有数据{Q1,Q2,…,Qn},其中:n是大类的数目,合并成n阶张量Pi;所有CAP患者数据的张量形式表示为{P1,P2,P3,…,PN},其中:每一个是n阶张量,N是患者的数目,mj(j=1,2,…,n)是维数。
3.4,使用软阈值算子求解优化问题:
min||Zi,:||1
s.t.||Pi-∑j,j≠izijPj||2
得到原始张量数据{P1,P2,P3,…,PN}之间的稀疏线性表出系数矩阵为ZN×N={zij}ij=1,…,N,Zi,:是Z的第i个稀疏行向量,其非零元素表示为 其中:Ki是第i行的非零元数目。
3.5,设相似度矩阵为SN×N={Sij}i,j=1,…,N,其中:如果Zij=0,则Sij=0。,S的非零元素表示为利用软阈值算子求解如下优化问题得到:
m i n | | P i - &Sigma; k = 1 K i s ij k i P j k i | |
s . t . &Sigma; k = 1 K i s ij k i = 1 , s ij k i > 0 , k = 1 , ... , K i
3.6,初始化投影矩阵组 T 1 0 = I d 1 &times; m 1 , T 2 0 = I d 2 &times; m 2 , ... , T n 0 = I d n &times; m n ;
3.7,逐个迭代优化T1,T2,…,Tn;其中:在求解子问题Tk时,按照如下过程进行:
1)计算 C i k = P i &times; T 1 1 ... &times; T k - 1 k - 1 &times; T k + 1 k + 1 ... &times; T n n ;
2)更新Ck的第k阶,
3)计算H1=Ck(I-S)T(I-S)Ck T
4)计算 H 2 = C k C k T ;
5)求解特征值问题H1Tk=λH2Tk,得到子问题Tk的解;
6)合并每个子问题的解,得到当前迭代的投影矩阵组{T1,T2,…,Tn};
7)与前一次迭代结果相比较,若{T1,T2,…,Tn}已经收敛,3.7的处理完成;若尚未收敛,则进入下一次迭代,重新计算3.7;
3.8,经过3.7的计算,得到最优的投影矩阵组通过它们将原始的张量数据映射到低阶张量空间中,得到{C1,C2,C3,…,CN},该组张量数据维数较低,并且包含了原始数据的主要信息,因此作为儿童CAP临床数据的病原学数据模型;
3.9,对新的候选CAP患儿的标准化病程数据,利用3.2的处理方法,得到其在时间窗口内的张量数据Pnew
3.10,使用最佳投影矩阵组将Pnew映射到低阶张量空间中,Cnew=Pnew×1T1×2T2×3…×nTn,然后使用K-近邻分类器,得到该患者被几类病原体感染的概率,并将这组概率作为病原学分析结果输出给医生作为参考。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统,其特征在于,包括:CAP电子病历系统、数据预处理模块和病原学分析模块,其中:CAP电子病历系统从电子健康记录系统中使用SQL语言抽取CAP患儿的原始数据,并输出至数据预处理模块,数据预处理模块进行数据清洗、格式转换、规则校验等计算,并输出标准化的儿童CAP数据至病原学分析模块,病原学分析模块进行鲁棒张亮分析得到儿童CAP病理学数据模型。
2.一种根据权利要求1所述系统的数据处理方法,其特征在于,包括以下步骤:
第一步,建立包括患者编号、入院时间、出生日期、年龄、性别的患者数据库;
第二步,对来自EHR的原始数据进行数据清洗,建立医疗数据预处理规则库,然后根据规则库生成标准化的儿童CAP病程数据;
第三步,利用医疗数据是张量的特点,提取第二步所生成的标准化CAP病程数据,利用鲁棒张量保持算法,对儿童CAP数据进行病原学分析。
3.根据权利要求2所述的方法,其特征是,所述的数据清洗,具体包括如下步骤:
2.1)每一条记录项在EHR中的原始数据是一个字符串,扫描该字符串,删除空白的记录项,其余的则删除错误或者多余的字符;
2.2)使用描述词条逐个匹配数据的字符串,若存在匹配项,该记录条对应的预处理结果中增加一条文本型的数据T,同时在字符串中删除这部分字符;
2.3)对上一步处理所剩余的字符串,使用字符串“一级“、”二级”、“+1”、“+2”进行匹配,若匹配成功,则在该记录条对应的预处理结果中增加一条离散型的数据N,同时在字符串中删除对应字符;
2.4)检查剩余的字符串,若全为数值,则在该记录条对应的预处理结果中增加一条连续型的数据V,即实际的检测结果;否则删除剩余的字符串;
2.5)添加患者编号、化验名称与检测时间,最终清洗处理的每一条记录条表示为{P,t,G,c,T,N,V},其中:P为患者编号,t为检测时间,G为化验大类名称,c为具体化验名称,T为文本型的描述数据,N为表示程度或级别的整型数据,V为记录实际检测结果的连续型数据。
4.根据权利要求2所述的方法,其特征是,所述的第二步中,对清洗过的数据在规则库的基础上进行规范化处理得到儿童CAP标准化病程数据,是指对上述清洗过程所得数据进行冗余处理,并转换为适合病原学分析的数据形式,具体包括以下步骤:
2.i)建立预处理规则库,每种化验类型对应一组预处理规则,{c,R1,R2,…},其中:c为化验名称,Ri为规则,包括文本型与数值型两种,
所述的文本型规则进行匹配处理,形式如下:{‘text’,S,label},其中:’text’表示为文本型规则,S是用于跟文本数据T进行匹配的字符串,label为规则成立时的输出,具体为:N(正常),S(异常),N(阴性),P(阳性),H(高),L(低);
所述的数值型规则主要进行区间比较,形式如下:{‘value’,min,max,label},其中:’value’表示为数值型规则,min与max分别区间的上下界,label为连续性数据V处在区间[min,max]内时的输出,具体为:N(正常),S(异常),N(阴性),P(阳性),H(高),L(低);
2.ii)对清洗步骤所得到的每一记录条{P,t,G,c,T,N,V},查询所对应的规则组{c,R1,R2,…},依次进行校验,输出标签L1,L2;当这些输出标签相同,均为L,则用L代替文本数据T,否则说明数据录入存在错误,仅保留原始的连续性数据V;
2.iii)经过规则库的校验,最终得到标准化的儿童CAP病程数据,其中:每一条记录的形式为{P,t,G,c,L,N,V},其中:L,N,V至少存在一种且每种至多一项;
5.根据权利要求2所述的方法,其特征是,所述的第三步,具体包括以下步骤:
3.1)设定所观察的时间窗口[0,D],表示考虑CAP患儿在入院0到D天内的数据,针对每一个大类G,抽取时间窗口内每一个患者的标准化病程数据,若患者存在多次检查,则选择第一项,若患者没有进行该项检测,则补零,L中的标签N、S、P、H、L分别使用0、1、1、1、-1代替;所抽取的数据表示为{L1,N1,V1,L2,N2,V2,…}i,其中:下标i表示第i个类别;为了表示方便,使用向量Qi表示上述数据;
3.2)将每一个患者提取的所有数据{Q1,Q2,…,Qn},其中:n是大类的数目,合并成n阶张量;因此,所有CAP患者数据的张量形式表示为{P1,P2,P3,…,PN},其中:每一个是n阶张量,N是患者的数目,mj(j=1,2,…,n)是维数;
将原始张量投影到嵌入到一个最优的低阶张量空间上,使得原始张量数据结构最本征的拓扑特性在新的张量空间中能够得到保留,采用鲁棒张量保持算法得到一组最优投影矩阵以及原始儿童CAP数据在低阶张量空间中的形式{C1,C2,C3,…,CN}。
6.根据权利要求5所述的方法,其特征是,所述的将原始的高阶张量数据Pi映射到低阶张量Ci,是指利用一组变换矩阵k=1,2,…,n,将原始张量Pi映射到Ci,Ci=Pi×1T1×2T2×3…×nTn;通过构造邻域矩阵W=[wij]N×N刻画张量数据在其所在的流形上的空间几何结构,邻域矩阵W的每一个元素wij描述儿童CAP患者i与患者j的医疗数据在张量空间上的距离:其中:N(K,Pi)表示Pi的K个最邻近的点,τ是一个正的常数。
7.根据权利要求6所述的方法,其特征是,所述的鲁棒张量保持算法采用F范数定义张量保持的目标函数:
arg min J ( T 1 , T 2 , ... , T n ) = &Sigma; i | | C i - &Sigma; j w i j C j | | 2 = &Sigma; i | | P i &times; T 1 1 ... T n n - &Sigma; j w i j P j &times; T 1 1 ... &times; T n n | | 2 ;
为了保证最优的变换矩阵组的尺度不是任意缩放的,采用尺度约束:∑i||Ci||2=1。
8.根据权利要求7所述的方法,其特征是,为了使用低阶张量对儿童CAP的高阶张量原始数据进行建模,采用的张量近邻保持算法所需求解的优化问题就可以表述为:
arg min J(T1,T2,…,Tn)=∑i||Pi×1T1…×nTn-∑jwijPj×1T1…×nTn||2
s.t. ∑i||Pi×1T1…×nTn||2=1;
所述优化问题采用低秩近似迭代方案来求解,具体为:在求解某一阶对应的投影矩阵时,先固定其他投影矩阵,优化计算该矩阵,然后整体迭代进行,最终得到整组最优的投影矩阵,具体为:
设T1,T2,…Tk-1,Tk+1,…,Tn是已知的,设则根据原优化问题,求解Tk函数的目标函数为:
a arg min J ( T k ) = &Sigma; i | | T k C i k - &Sigma; j &omega; i j T k C j k | | = &Sigma; i , j t r { T k ( ( C i k - &omega; i j C j k ) ( C i k - &omega; i j C j k ) T ) T k T } = t r { T k ( &Sigma; i , j ( C i k - &omega; i j C j k ) ( C i k - &omega; i j C j k ) T ) T k T } ,
&Sigma; i | | T k C i k | | = t r { T k ( &Sigma; i , j C i k C i k T ) T k T } = 1 ;
所述的优化问题具有显式的最优解,即该子问题的最优投影矩阵Tk是下述特征值问题的前k个最小特征值对应的特征向量: ( &Sigma; i , j ( C i k - &omega; i j C j k ) ( C i k - &omega; i j C j k ) T ) &mu; = &lambda; ( &Sigma; i , j C i k C i k T ) &mu; .
9.根据权利要求8所述的方法,其特征是,所述的鲁棒张量保持算法中引入稀疏特性,具体为:首先采用张量稀疏表示计算原始儿童CAP数据之间的稀疏表示系数矩阵,然后构建稀疏的相似度系数矩阵;再将相似度系数矩阵作为邻接权重矩阵,采用张量保持算法来计算最优的投影矩阵组与最佳低阶张量数据,具体为:
设原始张量数据{P1,P2,P3,…,PN}之间的稀疏线性表出系数矩阵为ZN×N={zij}i,j=1,…,N,其满足如下优化问题:
min ||Zi,:||1
s.t. ||Pi-∑j,j≠izijPj||2
其中:Zi,:是矩阵Z的第i个行向量;由于采用了L1范数约束,Zi,:是稀疏的,其非零元素表示为 { z ij k i | i = 1 , 2 , ... , N ; j k i = 1 , 2 , ... , K i } , 其中:Ki是第i行非零元的数目;
设相似度矩阵为SN×N={Sij}i,j=1,…,Z,其中:如果Zij=0,则Sij=0;S的非零元素表示为 { s ij k i | i = 1 , 2 , ... , N ; j k i = 1 , 2 , ... , K i } ; 相似度矩阵S通过如下优化问题来计算:
m i n | | P i - &Sigma; k = 1 K i s ij k i P j k i | | ,
s . t . &Sigma; k = 1 K i s ij k i = 1 , s ij k i > 0 , k = 1 , ... , K i ,
其中:为和为1的约束解决尺度问题,在得到相似度矩阵S后,用其代替邻域权重矩阵,则得到所述鲁棒张量保持算法。
10.根据权利要求9所述的方法,其特征是,所述的最优的投影矩阵组采用低秩迭代近似的优化策略得到,具体为:以计算Tk为例其优化目标函数为:
arg min J ( T k ) = &Sigma; i | | T k C i k - &Sigma; j s i j T k C j k | | 2 ,
s . t . t r { T k ( &Sigma; i C i k C i k T ) T k T } = 1 ,
将目标函数简化为J(Tk)=tr{TkCk(I-s)T(I-S)Ck TTk T},其中:I是单位矩阵,约束条件则改写为因此通过显式计算得到下述特征值问题的最小特征值对应的特征向量:从而通过迭代求解一系列子问题,到一组鲁棒稀疏邻域约束条件下,最优的投影矩阵组以及原始儿童CAP数据的低阶张量形式{C1,C2,C3,…,CN}。
CN201610100284.0A 2016-02-24 2016-02-24 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法 Expired - Fee Related CN105868526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610100284.0A CN105868526B (zh) 2016-02-24 2016-02-24 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610100284.0A CN105868526B (zh) 2016-02-24 2016-02-24 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法

Publications (2)

Publication Number Publication Date
CN105868526A true CN105868526A (zh) 2016-08-17
CN105868526B CN105868526B (zh) 2018-05-08

Family

ID=56625210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610100284.0A Expired - Fee Related CN105868526B (zh) 2016-02-24 2016-02-24 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法

Country Status (1)

Country Link
CN (1) CN105868526B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951710A (zh) * 2017-03-22 2017-07-14 华东师范大学 基于特权信息学习支持向量机的cap数据系统及方法
CN107220484A (zh) * 2017-05-10 2017-09-29 山东中医药大学 一种中医方药数据分析挖掘系统
CN107436933A (zh) * 2017-07-20 2017-12-05 广州慧扬健康科技有限公司 用于病历档案整理的层次聚类系统
CN107480426A (zh) * 2017-07-20 2017-12-15 广州慧扬健康科技有限公司 自迭代病历档案聚类分析系统
CN108320797A (zh) * 2018-01-18 2018-07-24 中山大学 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN109558398A (zh) * 2018-10-31 2019-04-02 平安医疗健康管理股份有限公司 基于大数据的数据清洗方法及相关装置
WO2019080427A1 (zh) * 2017-10-27 2019-05-02 平安科技(深圳)有限公司 医疗数据清洗方法、电子装置及存储介质
CN111949691A (zh) * 2020-07-29 2020-11-17 合肥森亿智能科技有限公司 基于规则衰减的临床辅助决策方法、系统、设备和介质
CN112163616A (zh) * 2020-09-25 2021-01-01 电子科技大学 一种局部稀疏约束变换rcs序列特征提取方法
CN117609434A (zh) * 2024-01-23 2024-02-27 中科领讯(北京)科技有限公司 一种肺炎相似病例检索方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101198952A (zh) * 2005-04-15 2008-06-11 通用电气公司 用于解析医疗数据的系统和方法
CN201788510U (zh) * 2010-07-13 2011-04-06 南通大学 融合粒子群与可拓粗糙格的动态电子病历协同挖掘系统
CN103020453A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 基于本体技术的结构化电子病历生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101198952A (zh) * 2005-04-15 2008-06-11 通用电气公司 用于解析医疗数据的系统和方法
CN201788510U (zh) * 2010-07-13 2011-04-06 南通大学 融合粒子群与可拓粗糙格的动态电子病历协同挖掘系统
CN103020453A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 基于本体技术的结构化电子病历生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIU SHUAI 等: "Orthogonal tensor discriminant neighborhood preserving embedding for facial expression recognition", 《JOURNAL OF BEIJING INSTITUTE OF TECHNOLOGY》 *
MINGMING QI 等: "Study on Orthogonal Tensor Sparse Neighborhood Preserving Embedding Algorithm for Dimension Reduction", 《2014 IEEE WORKSHOP ON ADVANCED RESEARCH AND TECHNOLOGY IN INDUSTRY APPLICATIONS》 *
MOHAN ZHANG 等: "Modular tensor sparsity preserving projection algorithm for dimension reduction", 《SPIE PROCEEDINGS》 *
丁小芳 等: "100例重症社区获得性肺炎住院儿童的病毒病原学分析", 《临床儿科杂志》 *
邱新涛 等: "基于张量的稀疏保持投影降维方法", 《中国科技论文》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951710A (zh) * 2017-03-22 2017-07-14 华东师范大学 基于特权信息学习支持向量机的cap数据系统及方法
CN107220484A (zh) * 2017-05-10 2017-09-29 山东中医药大学 一种中医方药数据分析挖掘系统
CN107220484B (zh) * 2017-05-10 2019-11-05 山东中医药大学 一种中医方药数据分析挖掘系统
CN107436933A (zh) * 2017-07-20 2017-12-05 广州慧扬健康科技有限公司 用于病历档案整理的层次聚类系统
CN107480426A (zh) * 2017-07-20 2017-12-15 广州慧扬健康科技有限公司 自迭代病历档案聚类分析系统
CN107480426B (zh) * 2017-07-20 2021-01-19 广州慧扬健康科技有限公司 自迭代病历档案聚类分析系统
WO2019080427A1 (zh) * 2017-10-27 2019-05-02 平安科技(深圳)有限公司 医疗数据清洗方法、电子装置及存储介质
CN108320797A (zh) * 2018-01-18 2018-07-24 中山大学 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN109558398A (zh) * 2018-10-31 2019-04-02 平安医疗健康管理股份有限公司 基于大数据的数据清洗方法及相关装置
CN109558398B (zh) * 2018-10-31 2023-09-19 深圳平安医疗健康科技服务有限公司 基于大数据的数据清洗方法及相关装置
CN111949691A (zh) * 2020-07-29 2020-11-17 合肥森亿智能科技有限公司 基于规则衰减的临床辅助决策方法、系统、设备和介质
CN112163616A (zh) * 2020-09-25 2021-01-01 电子科技大学 一种局部稀疏约束变换rcs序列特征提取方法
CN117609434A (zh) * 2024-01-23 2024-02-27 中科领讯(北京)科技有限公司 一种肺炎相似病例检索方法及系统
CN117609434B (zh) * 2024-01-23 2024-03-29 中科领讯(北京)科技有限公司 一种肺炎相似病例检索方法及系统

Also Published As

Publication number Publication date
CN105868526B (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN105868526A (zh) 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN111986770B (zh) 药方用药审核方法、装置、设备及存储介质
CN110838368B (zh) 一种基于中医临床知识图谱的主动问诊机器人
WO2023078025A1 (zh) 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN107066791A (zh) 一种基于病人检验结果的辅助疾病诊断方法
CN107247881A (zh) 一种多模态智能分析方法及系统
WO2023071530A1 (zh) 一种小样本弱标注条件下的医疗事件识别方法及系统
CN109994216A (zh) 一种基于机器学习的icd智能诊断编码方法
CN106934235A (zh) 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
CN114664463A (zh) 一种全科医生诊疗辅助系统
CN109360658A (zh) 一种基于词向量模型的疾病模式挖掘方法及装置
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN116910172A (zh) 基于人工智能的随访量表生成方法及系统
CN106951710B (zh) 基于特权信息学习支持向量机的cap数据系统及方法
CN111816245A (zh) 结合mNGS和临床知识库的病原微生物检测方法及系统
CN117371525A (zh) 一种融合实体描述的常见病知识图谱链接预测方法
CN115019958A (zh) 一种病例异常检测方法及设备
CN117766086A (zh) 一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法
CN117609635A (zh) 一种基于协同过滤的数据推送方法和装置
Putra et al. Classification of childhood diseases with fever using fuzzy K-nearest neighbor method
CN115602299A (zh) 一种基于深度学习的icu辅助干预手段预测方法
Neustein et al. Innovative Data Integration and Conceptual Space Modeling for COVID, Cancer, and Cardiac Care

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180508

Termination date: 20190224

CF01 Termination of patent right due to non-payment of annual fee