CN105868526B

CN105868526B - 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法

Info

Publication number: CN105868526B
Application number: CN201610100284.0A
Authority: CN
Inventors: 舒林华; 金博; 邵欣蔚; 查宏远; 于广军; 陈凯; 齐开悦
Original assignee: Shanghai City Children Hospital; Shanghai Jiaotong University; East China Normal University
Current assignee: Shanghai City Children Hospital; Shanghai Jiaotong University; East China Normal University
Priority date: 2016-02-24
Filing date: 2016-02-24
Publication date: 2018-05-08
Anticipated expiration: 2036-02-24
Also published as: CN105868526A

Abstract

一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法，该系统，包括：CAP电子病历系统、数据预处理模块和病原学分析模块，其中：CAP电子病历系统从电子健康记录系统中使用SQL语言抽取CAP患儿的原始数据，并输出至数据预处理模块，数据预处理模块进行数据清洗、格式转换、规则校验计算，并输出标准化的儿童CAP数据至病原学分析模块，病原学分析模块进行鲁棒张量分析得到儿童CAP病理学数据模型。本发明侧重于在现有电子健康记录系统上对数据进行清洗与挖掘，实现数据的标准化与基于鲁棒张量保持算法的病原学分析，可以为儿童呼吸科医生对患者进行诊断与用药方案选择提供决策支持。

Description

基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法。

背景技术

儿童社区获得性肺炎(Community Acquired Pneumonia，CAP)是指健康儿童在医院之外(社区)感染所致的肺炎，是儿童常见的呼吸系统感染性疾病之一，是儿童住院的最常见原因之一，同时是5岁以下儿童死亡的首位原因。据统计，国内小儿肺炎占小儿内科总住院人数的24.5％～56.2％。世界卫生组织(WHO)调查结果显示，全球每年有15.5亿例儿童CAP病例，WHO将儿童CAP列为最重要儿科疾病之一。2010年，医学权威学术期刊《柳叶刀》指出，CAP是中国儿童因疾病死亡的原因之首。

CAP常见的治病微生物包括细菌、病毒、支原体、衣原体；此外，许多患儿存在多种病原混合感染的情况。临床上，医生准确用药的前提是明确患者的病原，否则常需要先使用广谱抗生素或者进行试药。然而，由于种种原因，儿童CAP患者治病微生物的诊断存在很多困难。中国2013年修订的《儿童社区获得性肺炎管理指南》以及大量研究分析表明，影响CAP病原检测发现的因素包括以下三点：(1)CAP治病微生物自身繁殖以及药物引起的变异；(2)人种、地域、环境以及医疗条件影响；(3)病原学检验技术本身的难点、敏感性与特异性。此外，在检测与治疗过程中，各个环节的标准化、衔接程度也会影响检测的准确度。总的来说，无论是在病原学上还是临床上，儿童CAP的治病微生物的检测存在很多困难，使得医生往往无法及时的针对病原进行正确用药，造成患儿身体的额外伤害与医疗费用的增加，并且很大程度上造成了抗生素的滥用。因此，研制新的儿童CAP病原学分析与检测技术已经迫在眉急。

近年来，医学临床检测技术与计算机技术的得到了突飞猛进的发展，随着我国医疗体系中医院健康信息系统的推广与医疗数据系统的标准化，我国已经积累了大量的医疗数据，包括医生的临床记录、用药与治疗遗嘱、化验结果与诊断报告，以及医疗影像。此外，许多医院已经开展了病人的患病家族史、基因测序数据的录入工作。儿童CAP是儿科最普遍、患病人数最多的疾病之一，所以儿童CAP在数字化诊疗方面处于优势，数据的收集情况较为理想。在目前的医学知识与检测技术下，这些数据包含了患者生理与疾病状况相关的完整信息。然而，这些数据的量级与复杂程度已经远远超过了临床医生的处理分析能力。例如，仅一名住院CAP患儿的化验报告就包含了600多种指标、上千条记录，此外还有大量的医生记录、护士笔记、数字影像。目前临床上，在治疗儿童CAP时，医生仍然仅参考临床指南与个人的经验，未充分利用蕴含在医疗数据中的信息。因此，如何将海量医疗数据合理的呈现给医生，提供数据分析、决策支持，对儿童CAP临床医学以及数字化医疗的发展，均具有重要的意义。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法，侧重于在现有电子健康记录系统上对数据进行清洗与挖掘，实现数据的标准化与基于鲁棒张量保持算法的病原学分析，可以为儿童呼吸科医生对患者进行诊断与用药方案选择提供决策支持。

本发明是通过以下技术方案实现的：

本发明涉及一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统，包括：CAP电子病历系统、数据预处理模块和病原学分析模块，其中：CAP电子病历系统从电子健康记录系统(电子健康记录系统)中使用SQL语言抽取CAP患儿的原始数据(临床记录、化验报告、影音数据)，并输出至数据预处理模块，数据预处理模块进行数据清洗、格式转换、规则校验计算，并输出标准化的儿童CAP数据至病原学分析模块，病原学分析模块进行鲁棒张量分析得到儿童CAP病理学数据模型。

本发明涉及上述系统的数据处理方法，包括以下步骤：

第一步，建立患者数据库，包括患者编号、入院时间、出生日期、年龄、性别；

第二步，对来自电子健康记录系统的原始数据进行数据清洗，建立医疗数据预处理规则库，然后根据规则库生成标准化的儿童CAP病程数据；

第三步，利用医疗数据是张量的特点，提取第二步所生成的标准化CAP病程数据，利用鲁棒张量保持算法，对儿童CAP数据进行病原学分析。

所述的第二步中，对电子健康记录系统的原始数据进行数据清洗是指剔除数据中不合规范、错误以至于系统无法使用记录条，并初步提取其中的数据元素。目前医院使用的电子健康记录系统在开发时是从工程师角度设计的，不少软件使用流程不符合医生的习惯，医生只能手工输入。由于医生表述习惯不同，特别是部分医学术语的缩写，相同数据的在系统中出现形式有多种，给后续数据的标准化造成了困难。此外，数据在采集环节、治疗过程中的衔接问题也会导致数据存在错误。由以上原因，原始数据在使用之前必须进行清洗。

优选的，所述的第二步中的数据清洗，具体包括如下步骤：

2.1)每一条记录项在电子健康记录系统中的原始数据是一个字符串，扫描该字符串，删除空白的记录项，其余的则删除错误或者多余的字符，如标点符号、空格；

2.2)对儿童CAP单一病种的所有化验报告来说，记录条中可能出现的非结构化文字型描述(包括规定形式以及医生的习惯方式)是很有限的，通常仅有几十种，因此建立“描述词条”模板，包括“阳性”、“阴性”、“P”、“N”，再使用描述词条逐个匹配数据的字符串，若存在匹配项，该记录条对应的预处理结果中增加一条文本型的数据T，同时在字符串中删除这部分字符；

2.3)在部分检验结果中，医生根据医学指南会判断其所处的程度(级别)。为此，对上一步处理所剩余的字符串，使用字符串“一级“、”二级”、“+1”、“+2”进行匹配，若匹配成功，则在该记录条对应的预处理结果中增加一条离散型的数据N，同时在字符串中删除这部分字符；

2.4)检查剩余的字符串，若全为数值，则在该记录条对应的预处理结果中增加一条连续型的数据V，即实际的检测结果；否则，删除剩余的字符串；

2.5)添加患者编号、化验名称与检测时间，最终清洗处理的每一条记录条表示为{P，t，G，c，T，N，V}，其中：P为患者编号，t为检测时间，G为化验大类名称，c为具体化验名称，T为文本型的描述数据，N为表示程度或级别的整型数据，V为记录实际检测结果的连续型数据。在不同的记录条中，T、N、V可能缺失，也可能出现多次。

优选的，所述的第二步中，对清洗过的数据在规则库的基础上进行规范化处理得到儿童CAP标准化病程数据，是指对上述清洗过程所得数据进行冗余处理，并转换为更适合病原学分析的数据形式，具体包括以下步骤：

2.i)对于大部分化验数据，医学指南有指出其参考值，医生根据参考值进行定性判断，然而医生在录入仅对部分判断结果进行了录入。因此，本发明建立预处理规则库，每种化验类型对应一组预处理规则，{c，R1，R2，…}，其中：c为化验名称，Ri为规则，包括文本型与数值型两种。文本型规则主要进行匹配处理，形式如下：{‘text’，S，label}，其中：’text’表示为文本型规则，S是用于跟文本数据T进行匹配的字符串，label为规则成立时的输出，可以为：N(正常、阴性)，S(异常)，P(阳性)，H(高)，L(低)；数值型规则主要进行区间比较，形式如下：{‘value’，min，max，label}，其中：’value’表示为数值型规则，min与max分别区间的上下界，值得注意的是它们分别可取为上下无穷，label为连续性数据V处在区间[min，max]内时的输出，具体为：N(正常、阴性)，S(异常)，P(阳性)，H(高)，L(低)；

2.ii)对清洗步骤所得到的每一记录条{P，t，G，c，T，N，V}，查询所对应的规则组{c，R1，R2，…}，依次进行校验，输出标签L₁，L₂；如果这些输出标签相同，均为L，则用L代替文本数据T，否则说明数据录入存在错误，仅保留原始的连续性数据V；

2.iii)经过规则库的校验，最终得到标准化的儿童CAP病程数据，其中：每一条记录的形式为{P，t，G，c，L，N，V}，其中：L，N，V可能缺失，但至少存在一种，并且每种至多一项。

因此，本发明经过所述的第二步的数据清洗与预处理过程，所得到的标准化儿童CAP病程数据已经剔除了错误与冗余信息，并统一成了规范格式，为后续处理分析提供了便利。

所述的第三步中的基于鲁棒张量保持算法的病原学分析，是指将每一个患者的标准化临床数据表示成张量，然后利用鲁棒张量保持算法建立儿童CAP的病原学数据模型，从而为医生在CAP患儿致病微生物检测时提供决策支持，具体为：首先对现有电子健康记录系统中患者数据经过清洗与预处理后的标准化病程数据，提取张量数据，再基于鲁棒张量保持算法，训练病原学数据模型；然后以新加入的CAP患儿的标准化病程数据与训练模块所得到的病原学数据模型为输入，进行分析处理，输出为该患儿的原始病程数据在低维空间内的张量表示，即本发明的病理学数据特征。

优选的，所述的第三步，具体包括以下步骤：

3.1)设定所观察的时间窗口[0，D]，表示考虑CAP患儿在入院0到D天内的数据，针对每一个大类G，抽取时间窗口内每一个患者的标准化病程数据，若患者存在多次检查，则选择第一项，若患者没有进行该项检测，则补零，L中的标签N、S、P、H、L分别使用0、1、1、1、-1代替；所抽取的数据表示为{L₁，N₁，V₁，L₂，N₂，V₂，…}_i，其中：下标i表示第i个类别；为了表示方便，使用向量Q_i表示上述数据；

3.2)将每一个患者提取的所有数据{Q₁，Q₂，…，Q_n}，其中：n是大类的数目，合并成n阶张量；因此，所有CAP患者数据的张量形式表示为{P₁，P₂，P₃，…，P_N}，其中：每一个是n阶张量，N是患者的数目，m_j(j＝1，2，…，n)是维数。由于原始张量的维数较高，本发明将原始张量投影到嵌入到一个最优的低阶张量空间上，使得原始张量数据结构最本征的拓扑特性在新的张量空间中能够得到保留。采用本发明提出的鲁棒张量保持算法，可以得到一组最优投影矩阵以及原始儿童CAP数据在低阶张量空间中的形式{C₁，C₂，C₃，…，C_N}。

优选的，上述步骤所述的将原始的高阶张量数据P_i映射到低阶张量C_i，是指利用一组变换矩阵d_k<m_k，k＝1，2，…，n，将原始张量P_i映射到C_i，C_i＝P_i×₁T₁×₂T₂×₃…×_n T_n。为了更好的对儿童CAP张量数据的数据特征进行分析，低阶张量空间需要尽可能的保留原数据集的几何特性。为此，本发明构造邻域矩阵W＝[w_ij]_N×N来刻画张量数据在其所在的流形上的空间几何结构。邻域矩阵W的每一个元素w_ij描述儿童CAP患者i与患者j的医疗数据在张量空间上的距离：其中：N(K,P_i)表示P_i的K个最邻近的点，τ是一个正的常数。

所述的张量保持算法目的是使数据集在高阶张量空间与低阶张量空间的几何邻域特性尽可能一致。为此，其采用F范数定义张量保持的目标函数：

argminJ(T₁，T₂，…，T_n)＝∑_i||C_i-∑_jw_ijC_j||²＝

∑_i||P_i×₁T₁…×_n T_n-∑_jw_ijP_j×₁T₁…×_n T_n||²

为了保证最优的变换矩阵组的尺度不是任意缩放的，本发明采用了尺度约束：∑_i||C_i||²＝1

进而，为了使用低阶张量对儿童CAP的高阶张量原始数据进行建模，本发明采用的张量近邻保持算法所需求解的优化问题就可以表述为：

argminJ(T₁，T₂，…，T_n)＝∑_i||P_i×₁T₁…×_n T_n-∑_jw_ijP_j×₁T₁…×_n T_n||²

s.t.∑_i||P_i×₁T₁…×_n T_n||²＝1

经过最优张量保持映射，原始儿童CAP数据在低阶张量空间中的数据维数远低于原始维度，并含有原数据主要的数据特征，因此有助于提高对高维医疗数据的分析效果与计算效率。

上述的本发明优化问题是一个带高阶非线性约束条件的高阶非线性规划问题，它的直接计算是不可行的。本发明采用一种低秩近似迭代方案来求解该优化问题，具体为：在求解某一阶对应的投影矩阵时，先固定其他投影矩阵，优化计算该矩阵，然后整体迭代进行，最终得到整组最优的投影矩阵。以计算T_k为例，先假设T₁，T₂，…T_k-1，T_k+1，…，T_n是已知的。此外，为了表示的简洁，设则根据原优化问题，求解T_k函数的目标函数为：

且

上述优化问题具有显式的最优解，即该子问题的最优投影矩阵T_k是下述特征值问题的前k个最小特征值对应的特征向量:

考虑到儿童CAP临床数据是高度稀疏，存在缺失，且含有噪声的，为了提高系统的抗干扰与鲁棒性，本发明进一步在张量保持算法的基础上引入了稀疏特性，其基本思想是使用一组稀疏的相似度系数矩阵来代替邻域权重矩阵。它分为两个步骤：首先，采用张量稀疏表示计算原始儿童CAP数据之间的稀疏表示系数矩阵，然后构建稀疏的相似度系数矩阵；再将相似度系数矩阵作为邻接权重矩阵，采用张量保持算法来计算最优的投影矩阵组与最佳低阶张量数据。

上述基于张量稀疏表示构建稀疏相似度系数矩阵是指:设原始张量数据{P₁，P₂，P₃，…，P_N}之间的稀疏线性表出系数矩阵为Z_N×N＝{z_ij}_i，j＝1，…，_N，其满足如下优化问题：

min||Z_i，:||₁

s.t.||P_i-∑_j，j≠iz_ijP_j||²

其中：Z_i，:是矩阵Z的第i个行向量。由于采用了L1范数约束，Z_i，:是稀疏的，其非零元素表示为其中：K_i是第i行非零元的数目。

由于Z是数据点之间的线性表出系数，反映它们的相似特性，因此本发明在鲁棒化张量保持算法、构建样本之间的相似度矩阵时，保持Z具有的稀疏特性。设相似度矩阵为S_N×N＝{S_ij}_i，j＝1，…，_N，其中：如果Z_ij＝0，则S_ij＝0。S的非零元素表示为相似度矩阵S通过如下优化问题来计算：

其中：上面和为1的约束可以解决尺度问题，并使得模型具有更好的可解释性。

在得到相似度矩阵S后，用其代替邻域权重矩阵，数学形式不需改变，便可以得到本发明提出的鲁棒张量保持算法。类似的，本发明采用低秩迭代近似的优化策略来求解最优的投影矩阵组。以计算T_k为例，其优化目标函数为：

经过简单的推导，上式中的目标函数可以简化为：

J(T_k)＝tr{T_kC_k(I-S)^T(I-S)C_k ^TT_k ^T}

其中：I是单位矩阵。类似的，约束条件可以改写为因此，该子问题的最优解可以显式计算，即下述特征值问题的最小特征值对应的特征向量：

从而，通过迭代求解一系列子问题，可以到一组鲁棒稀疏邻域约束条件下，最优的投影矩阵组以及原始儿童CAP数据的低阶张量形式{C₁，C₂，C₃，…，C_N}。它们维数较低，易于分析计算，并且包含了原始数据的主要信息，因此本发明使用它们作为原始高维儿童CAP数据的数据模型。

在测试模块中，给定新添加的已完成清洗的儿童CAP数据样本P_new，使用训练模块中得到的最佳投影矩阵组将其映射到低阶张量空间中，C_new＝P_new×₁T₁×₂…×_n T_n，C_new就是该患者采用本发明的儿童CAP病原学模型表示的低维本征数据特征，并且包含了将其分析结果给医生作为参考。

附图说明

图1为本发明系统示意图；

图2为实施例儿童CAP数据预处理模块流程图；

图3为实施例儿童CAP数据病原学分析模块流程图。

具体实施方式

本实施例是针对儿童CAP临床数据的预处理与病原学分析，其数据输入是从现有医院电子健康记录(电子健康记录系统)系统的导出模块或者数据库语言导出的，包括患者信息、临床检验结果、医生病原学诊断结果。本发明在本实施例中的具体实施过程如下所示：

步骤1：建立患者数据库，包括患者编号、入院时间、出生日期、年龄、性别；

步骤2：对临床检验的原始数据进行数据清洗，建立医疗数据预处理规则库，然后根据规则库生成标准化的儿童CAP病程数据；

2.1，对原始数据的字符串进行异常字符处理，扫描该字符串，删除空白的记录项，删除错误或者多余的字符，如标点符号、空格；

2.2，在医生帮助下，整理儿童CAP临床数据记录中常用非结构化本文型描述词条，构建描述词条模板；

2.3，上述描述词条模板，对其中：每一个描述词条，逐个匹配数据字符串，若存在匹配项，再该记录的预处理结果中添加一条文本型的数据T，同时在字符串中删除这部分字符；

2.4，对2.3处理所得字符串，针对临床程度描述符“一级“、”二级”、“+1”、“+2”进行逐个匹配，若匹配成功，在该记录条的预处理结果中添加一条离散型的数据N，同时在字符串中删除这部分字符；

2.5，检查剩余字符串，若全为数值，则在该记录条的预处理结果中增加一条连续型的数据V，即实际的检测结果；否则，删除剩余的字符串；

2.6，查询步骤1所建立的患者基本信息数据库，添加患者编号、化验名称与检测时间，最终清洗处理的每一条记录条表示为{P，t，G，c，T，N，V}，其中：P为患者编号，t为检测时间，G为化验大类名称，c为具体化验名称，T为文本型的描述数据，N为表示程度或级别的整型数据，V为记录实际检测结果的连续型数据；

2.7，建立预处理规则库，每一种化验结果对应一组预处理规则，{c，R1，R2，…}，其中：c为化验名称，Ri为规则。文本型规则主要进行匹配处理，形式为{‘text’，S，label}，其中：’text’表示为文本型规则，S是用于跟文本数据T进行匹配的字符串；数值型规则主要进行区间比较，形式为{‘value’，min，max，label}其中：’value’表示为数值型规则，min与max分别区间的上下界；label为规则成立时的输出，可以为：N(正常、阴性)，S(异常)，P(阳性)，H(高)，L(低)；

2.8，对2.6所得到的每个记录条{P，t，G，c，T，N，V}，查询所对应的规则组{c，R1，R2，…}，依次进行校验，输出标签L1，L2；如果这些输出标签相同，均为L，则用L代替文本数据T，否则说明数据存在错误，仅保留原始的连续性数据V；

2.9，最终得到标准化的儿童CAP病程数据，其中：每条记录的标准形式为{P，t，G，c，L，N，V}。

步骤3:对第二步所建立数据库的标准化的CAP病程数据，利用鲁棒张量保持算法，对儿童CAP致病微生物的病原学分析进行决策支持。

3.1，设定病原学分析时所考虑的时间窗口[0，D]，D为入院天数；

3.2，对步骤2处理所得到的儿童CAP标准化病程数据库，在时间窗口[0，D]内，进行张量数据抽取:提取每一个患者该时间内的标准化数据，针对每个大类G依次提取，若患者存在多次检查，则选择第一次的结果；若患者没有进行该项检测，则补零；L中的标签N、S、P、H、L分别使用0、1、1、1、-1代替；所抽取数据表示为{L₁，N₁，V₁，L₂，N₂，V₂，…}_i，其中：下标i表示第i个类别，使用向量Q_i表示上述数据；将每一个患者提取的所有数据{Q₁，Q₂，…，Q_n}，其中：n是大类的数目，合并成n阶张量P_i；所有CAP患者数据的张量形式表示为{P₁，P₂，P₃，…，P_N}，其中：每一个是n阶张量，N是患者的数目，m_j(j＝1，2，…，n)是维数。

3.4，使用软阈值算子求解优化问题:

min||Z_i，:||₁

s.t.||P_i-∑_j，j≠iz_ijP_j||²

得到原始张量数据{P₁，P₂，P₃，…，P_N}之间的稀疏线性表出系数矩阵为Z_N×N＝{z_ij}_i，j＝1，…，_N，Z_i，:是Z的第i个稀疏行向量，其非零元素表示为其中：K_i是第i行的非零元数目。

3.5，设相似度矩阵为S_N×N＝{S_ij}_i，j＝1，…，_N，其中：如果Z_ij＝0，则S_ij＝0。，S的非零元素表示为利用软阈值算子求解如下优化问题

3.6，初始化投影矩阵组

3.7，逐个迭代优化T₁，T₂，…，T_n；其中：在求解子问题T_k时，按照如下过程进行：

1)计算

2)更新C^k的第k阶，

3)计算H₁＝C_k(I-S)T(I-S)C_k ^T；

4)计算

5)求解特征值问题H₁T_k＝λH₂T_k，得到子问题T_k的解；

6)合并每个子问题的解，得到当前迭代的投影矩阵组{T₁，T₂，…，T_n}；

7)与前一次迭代结果相比较，若{T₁，T₂，…，T_n}已经收敛，3.7的处理完成；若尚未收敛，则进入下一次迭代，重新计算3.7；

3.8，经过3.7的计算，得到最优的投影矩阵组通过它们将原始的张量数据映射到低阶张量空间中，得到{C₁，C₂，C₃，…，C_N}，该组张量数据维数较低，并且包含了原始数据的主要信息，因此作为儿童CAP临床数据的病原学数据模型；

3.9，对新的候选CAP患儿的标准化病程数据，利用3.2的处理方法，得到其在时间窗口内的张量数据P_new；

3.10，使用最佳投影矩阵组将P_new映射到低阶张量空间中，C_new＝P_new×₁T₁×₂T₂×…×_n T_n，然后使用K-近邻分类器，得到该患者被几类病原体感染的概率，并将这组概率作为病原学分析结果输出给医生作为参考。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统，其特征在于，包括：CAP电子病历系统、数据预处理模块和病原学分析模块，其中：CAP电子病历系统从电子健康记录系统中使用SQL语言抽取CAP患儿的原始数据，并输出至数据预处理模块，数据预处理模块进行数据清洗、格式转换、规则校验计算，并输出标准化的儿童CAP病程数据至病原学分析模块，病原学分析模块进行鲁棒张量分析得到儿童CAP病理学数据模型。

2.一种根据权利要求1所述系统的数据处理方法，其特征在于，包括以下步骤：

第一步，建立包括患者编号、入院时间、出生日期、年龄、性别的患者数据库；

第三步，利用医疗数据是张量的特点，提取第二步所生成的标准化的儿童CAP病程数据，利用鲁棒张量保持算法进行病原学分析。

3.根据权利要求2所述的方法，其特征是，所述的数据清洗，具体包括如下步骤：

2.1)每一条记录项在电子健康记录系统中的原始数据是一个字符串，扫描该字符串，删除空白的记录项，其余的则删除错误或者多余的字符；

2.2)使用描述词条逐个匹配数据的字符串，若存在匹配项，该记录项对应的预处理结果中增加一条文本型的数据T，同时在字符串中删除这部分字符；

2.3)对上一步处理所剩余的字符串，使用字符串“一级“、”二级”、“+1”、“+2”进行匹配，若匹配成功，则在该记录条对应的预处理结果中增加一条离散型的数据N，同时在字符串中删除对应字符；

2.4)检查剩余的字符串，若全为数值，则在该记录条对应的预处理结果中增加一条连续型的数据V，即实际的检测结果；否则删除剩余的字符串；

2.5)添加患者编号、化验名称与检测时间，最终清洗处理的每一条记录条表示为{P，t，G，c，T，N，V}，其中：P为患者编号，t为检测时间，G为化验大类名称，c为具体化验名称，T为文本型的描述数据，N为表示程度或级别的整型数据，V为记录实际检测结果的连续型数据。

4.根据权利要求2所述的方法，其特征是，所述的第二步中，对清洗过的数据在规则库的基础上进行规范化处理得到标准化的儿童CAP病程数据，是指对上述清洗过程所得数据进行冗余处理，并转换为适合病原学分析的数据形式，具体包括以下步骤：

2.i)建立预处理规则库，每种化验类型对应一组预处理规则，{c，R1，R2，…}，其中：c为化验名称，Ri为规则，包括文本型与数值型两种，

所述的文本型规则进行匹配处理，形式如下：{‘text’，S，label}，其中：’text’表示为文本型规则，S是用于跟文本数据T进行匹配的字符串，label为规则成立时的输出，具体为：N(正常、阴性)，S(异常)，P(阳性)，H(高)，L(低)；

所述的数值型规则主要进行区间比较，形式如下：{‘value’，min，max，label}，其中：’value’表示为数值型规则，min与max分别区间的上下界，label为连续性数据V处在区间[min，max]内时的输出，具体为：N(正常、阴性)，S(异常)，P(阳性)，H(高)，L(低)；

2.ii)对清洗步骤所得到的每一记录条{P，t，G，c，T，N，V}，查询所对应的规则组{c，R1，R2，…}，依次进行校验，输出标签L₁，L₂；当这些输出标签相同，均为L，则用L代替文本数据T，否则说明数据录入存在错误，仅保留原始的连续性数据V；

2.iii)经过规则库的校验，最终得到标准化的儿童CAP病程数据，其中：每一条记录的形式为{P，t，G，c，L，N，V}，其中：L，N，V至少存在一种且每种至多一项。

5.根据权利要求2所述的方法，其特征是，所述的第三步，具体包括以下步骤：

3.1)设定所观察的时间窗口[0，D]，表示考虑CAP患儿在入院0到D天内的数据，针对每一个大类G，抽取时间窗口内每一个患者的标准化病程数据，若患者存在多次检查，则选择第一项，若患者没有进行该项检查，则补零，L中的标签N、S、P、H、L分别使用0、1、1、1、-1代替；所抽取的数据表示为{L₁，N₁，V₁，L₂，N₂，V₂，…}_i，其中：下标i表示第i个类别；为了表示方便，使用向量Q_i表示上述数据；

3.2)将每一个患者提取的所有数据{Q₁，Q₂，…，Q_n}，其中：n是大类的数目，合并成n阶张量；因此，所有CAP患者数据的张量形式表示为{P₁，P₂，P₃，…，P_N}，其中：每一个n阶张量N是患者的数目，m_j为维数，j＝1，2，…，n；

将原始张量投影到嵌入到一个最优的低阶张量空间上，使得原始张量数据结构最本征的拓扑特性在新的张量空间中能够得到保留，采用鲁棒张量保持算法得到一组最优投影矩阵以及原始儿童CAP数据在低阶张量空间中的形式{C₁，C₂，C₃，…，C_N}。

6.根据权利要求5所述的方法，其特征是，所述的将原始的高阶张量数据P_i映射到低阶张量C_i，是指利用最优投影矩阵将原始张量P_i映射到C_i，C_i＝P_i×₁T₁×₂T₂×…×_nT_n；通过构造邻域矩阵W＝[w_ij]_N×N刻画张量数据在其所在的流形上的空间几何结构，邻域矩阵W的每一个元素w_ij描述儿童CAP患者i与患者j的医疗数据在张量空间上的距离：其中：N(K,P_i)表示P_i的K个最邻近的点，τ是一个正的常数；

所述的鲁棒张量保持算法采用F范数定义张量保持的目标函数：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>arg</mi> <mi> </mi> <mi>min</mi> <mi> </mi> <mi>J</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>T</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>T</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <msub> <mo>&times;</mo> <mn>1</mn> </msub> <msub> <mi>T</mi> <mn>1</mn> </msub> <mn>...</mn> <msub> <mo>&times;</mo> <mi>n</mi> </msub> <msub> <mi>T</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>P</mi> <mi>j</mi> </msub> <msub> <mo>&times;</mo> <mn>1</mn> </msub> <msub> <mi>T</mi> <mn>1</mn> </msub> <mn>...</mn> <msub> <mo>&times;</mo> <mi>n</mi> </msub> <msub> <mi>T</mi> <mi>n</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

为了保证最优投影矩阵的尺度不是任意缩放的，采用尺度约束：∑_i||C_i||²＝1；

为了使用低阶张量对儿童CAP的高阶张量原始数据进行建模，采用的张量近邻保持算法所需求解的优化问题就可以表述为：

arg minJ(T₁，T₂，…，T_n)＝∑_i||P_i×₁T₁…×_n T_n-∑_jw_ijP_j×₁T₁…×_n T_n||²，

s.t.∑_i||P_i×₁T₁…×_n T_n||²＝1；

所述优化问题采用低秩近似迭代方案来求解，具体为：在求解某一阶对应的投影矩阵时，先固定其他投影矩阵，优化计算该矩阵，然后整体迭代进行，最终得到整组最优投影矩阵，具体为：

设T₁，T₂，…T_k-1，T_k+1，…，T_n是已知的，设则根据原优化问题，求解T_k函数的目标函数为：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>arg</mi> <mi> </mi> <mi>min</mi> <mi> </mi> <mi>J</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>k</mi> </msub> <msubsup> <mi>C</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <munder> <mi>&Sigma;</mi> <mi>j</mi> </munder> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>T</mi> <mi>k</mi> </msub> <msubsup> <mi>C</mi> <mi>j</mi> <mi>k</mi> </msubsup> <mo>|</mo> <mo>|</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mi>t</mi> <mi>r</mi> <mo>{</mo> <msub> <mi>T</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <msubsup> <mi>C</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msubsup> <mi>C</mi> <mi>j</mi> <mi>k</mi> </msubsup> </mrow> <mo>)</mo> <msup> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>C</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msubsup> <mi>C</mi> <mi>j</mi> <mi>k</mi> </msubsup> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>)</mo> </mrow> <msubsup> <mi>T</mi> <mi>k</mi> <mi>T</mi> </msubsup> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>t</mi> <mi>r</mi> <mo>{</mo> <msub> <mi>T</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mo>(</mo> <mrow> <msubsup> <mi>C</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msubsup> <mi>C</mi> <mi>j</mi> <mi>k</mi> </msubsup> </mrow> <mo>)</mo> <msup> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>C</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msubsup> <mi>C</mi> <mi>j</mi> <mi>k</mi> </msubsup> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>)</mo> </mrow> <msubsup> <mi>T</mi> <mi>k</mi> <mi>T</mi> </msubsup> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> </mrow>

且

所述的优化问题具有显式的最优解，即该问题的最优投影矩阵T_k是下述特征值问题的前k个最小特征值对应的特征向量:

所述的鲁棒张量保持算法中引入稀疏特性，具体为：首先采用张量稀疏表示计算原始儿童CAP数据之间的稀疏表示系数矩阵，然后构建稀疏的相似度系数矩阵；再将相似度系数矩阵作为邻接权重矩阵，采用张量保持算法来计算最优投影矩阵组与最佳低阶张量数据，具体为:

设原始张量数据{P₁，P₂，P₃，…，P_N}之间的稀疏线性表出系数矩阵为Z_N×N＝{z_ij}_{i，j＝1，…，N}，其满足如下优化问题：

min||Z_i，:||₁，

s.t.||P_i-∑_j，j≠iz_ijP_j||²，

其中：Z_i，:是矩阵Z的第i个行向量；由于采用了L1范数约束，Z_i，:是稀疏的，其非零元素表示为其中：K_i是第i行非零元的数目；

设相似度矩阵为S_N×N＝{S_ij}_{i，j＝1，…，N}，其中：如果Z_ij＝0，则S_ij＝0；S的非零元素表示为相似度矩阵S通过如下优化问题来计算：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </mtd> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>s</mi> <mrow> <msubsup> <mi>ij</mi> <mi>k</mi> <mi>i</mi> </msubsup> </mrow> </msub> <msub> <mi>P</mi> <msubsup> <mi>j</mi> <mi>k</mi> <mi>i</mi> </msubsup> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> </mrow>

<mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>s</mi> <mrow> <msubsup> <mi>ij</mi> <mi>k</mi> <mi>i</mi> </msubsup> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> <msub> <mi>s</mi> <mrow> <msubsup> <mi>ij</mi> <mi>k</mi> <mi>i</mi> </msubsup> </mrow> </msub> <mo>></mo> <mn>0</mn> <mo>,</mo> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>K</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow>

其中：为和为1的约束解决尺度问题，在得到相似度矩阵S后，用其代替邻域权重矩阵，则得到所述鲁棒张量保持算法；

所述的最优的投影矩阵组采用低秩迭代近似的优化策略得到，即T_k的优化目标函数为：

<mrow> <mi>arg</mi> <mi> </mi> <mi>min</mi> <mi> </mi> <mi>J</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>k</mi> </msub> <msubsup> <mi>C</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>T</mi> <mi>k</mi> </msub> <msubsup> <mi>C</mi> <mi>j</mi> <mi>k</mi> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>,</mo> </mrow>

<mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mi>t</mi> <mi>r</mi> <mo>{</mo> <msub> <mi>T</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msubsup> <mi>C</mi> <mi>i</mi> <mi>k</mi> </msubsup> <msubsup> <mi>C</mi> <mi>i</mi> <msup> <mi>k</mi> <mi>T</mi> </msup> </msubsup> <mo>)</mo> </mrow> <msup> <msub> <mi>T</mi> <mi>k</mi> </msub> <mi>T</mi> </msup> <mo>}</mo> <mo>=</mo> <mn>1</mn> <mo>,</mo> </mrow>

将目标函数简化为J(T_k)＝tr{T_kC_k(I-S)^T(I-S)C_k ^TT_k ^T}，其中：I是单位矩阵，约束条件则改写为因此通过显式计算得到下述特征值问题的最小特征值对应的特征向量：从而通过迭代求解一系列子问题，到一组鲁棒稀疏邻域约束条件下，最优投影矩阵组以及原始儿童CAP数据的低阶张量形式{C₁，C₂，C₃，…，C_N}。