CN106951710A

CN106951710A - 基于特权信息学习支持向量机的cap数据系统及方法

Info

Publication number: CN106951710A
Application number: CN201710173213.8A
Authority: CN
Inventors: 邵欣蔚; 金博; 舒林华; 查宏远; 于广军
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2017-07-14
Anticipated expiration: 2037-03-22
Also published as: CN106951710B

Abstract

本发明涉及一种基于特权信息学习支持向量机的CAP数据系统及方法，包括：依次连接的医疗数据处理模块、医疗数据特征生成与特权信息提取模块、病原分析模块；所述医疗数据处理模块，用于对大量CAP患儿的医疗数据进行筛选并进行统计分析；所述的医疗数据特征生成与特权信息提取模块，用于按照检测时间将检测项目区分为普通医疗数据特征与特权信息，生成医疗数据特征矩阵和特权信息矩阵，并输入病原分析模块；所述病原分析模块通过基于特权信息学习的SVM+算法训练，形成儿童CAP早期病原诊断数据模型。与现有技术相比，本发明对大量CAP患儿医疗数据进行清洗、统计以及区分，实现医疗数据标准化矩阵化，并通过基于特权信息学习支持向量机模型，实现儿童CAP早期病原数据分析。

Description

基于特权信息学习支持向量机的CAP数据系统及方法

技术领域

本发明涉及信息处理技术领域，尤其是涉及一种基于特权信息学习支持向量机的CAP数据系统及方法。

背景技术

儿童社区获得性肺炎(community acquired pneumonia，CAP)是指既往健康儿童在院外(即社区)由细菌、病毒、衣原体和支原体等多种微生物感染所致的肺炎。该病是儿童时期最常见的呼吸系统感染性疾病之一，是儿童住院的最常见原因之一。据统计，我国住院儿童的24.5％-56.2％的病因是儿童肺炎；根据权威医学期刊《柳叶刀》于2010年发表的研究，社区获得性肺炎(CAP)是中国的儿童患病死亡首因，我国卫生部将其列为4种儿童常见病之首。

儿童社区获得性肺炎由多种病原引起，其中细菌、病毒、支原体、衣原体这几类最为常见，也有不少是多于一种病原的混合感染。修订于2013年的《儿童社区获得性肺炎管理指南》指出，影响CAP病原检测发现的因素包括：(1)CAP患儿自身的免疫状况、病原的繁殖数量与毒力作用，以及抗菌素等的使用对前二者的影响等综合因素；(2)各种标本采集、保管、运送、检验等各个流程环节的标准化、衔接与密切配合程度；(3)病原学检测技术的敏感性与特异性；(4)地域、年份、卫生环境、社会环境及社会经济因素、卫生医疗条件等；(5)新发病原出现、病原的变异、抗菌药物使用及耐药性等。总体来说，无论是在病原学还是临床上，儿童CAP的病原检测存在许多困难。

现有的儿童CAP病原学分析与检测较为准确的方法基本基于细菌培养、病毒的PR-PCR检测等针对性检测方法，这些检测方法均需要较长时间才能得到结果。由于对于不同的病原的对抗药物不同，儿童CAP早期病原的检测结果往往直接影响到治疗方法以及治疗药物的选择，检测时间较长或不准确的病原检验结果，导致临床治疗的延误或者药物使用的错误，甚至会导致对治疗儿童的抗生素滥用。因此，研制新的儿童CAP的早期病原分析数据系统及方法已十分迫切。

近年来，随着计算机技术的快速发展，特别是医疗数据系统的标准化与大数据技术的相得益彰，一方面，电子病历系统在许多先进的医院全面使用，通过电子病历的记录，患儿的大量化验以及治疗数据均得以以电子形式长期保存；另一方面，大数据分析技术也可以通过这大量的医疗数据，通过机器学习方法建立模型，从而指导和帮助医生的判断与治疗。大数据技术分析在医疗领域有极大的辅助作用，通过计算机可以快速计算一般人脑难以处理的化验项目结果数据，同时能够不断累积所有能得到数据的病例，这样的数据积累与全面分析往往能更全面、准确的辅助判断一些医疗问题。通过机器学习方法辅助解决儿童CAP病原的早期判断是一个非常好的解决方案，机器学习技术可以在经过数据训练后，做到在很短的时间内综合可以得到的有效的大量病人数据，对儿童CAP的病原做出初步早期判断，对儿童CAP的早期病原诊断与治疗技术进步有着非常重要的意义。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于特权信息学习支持向量机的CAP数据系统及方法，重于在大量儿童CAP医疗记录中进行有效性筛选，并将筛选后的医疗数据进行数字化结构化处理，生成医疗数据特征模块和特权信息模块，并输入基于特权信息学习支持向量机SVM+算法，以此形成基于特权信息学习支持向量机的机器学习病原分析系统；并以此进行病原学分析，可以为临床儿童CAP早期病原判断以及治疗方案提供决策支持。

本发明的目的可以通过以下技术方案来实现：

一种基于特权信息学习支持向量机的CAP数据系统，包括：依次连接的医疗数据处理模块、医疗数据特征生成与特权信息提取模块、病原分析模块；

所述医疗数据处理模块，用于对大量CAP患儿的医疗数据进行筛选并进行统计分析；

所述的医疗数据特征生成与特权信息提取模块，用于按照检测时间将检测项目区分为普通医疗数据特征与特权信息，生成医疗数据特征矩阵和特权信息矩阵，并输入病原分析模块；

所述病原分析模块通过基于特权信息学习的SVM+算法训练，形成儿童CAP早期病原诊断数据模型。

一种采用所述数据系统的方法，包括以下步骤：

第一步，筛选出有效的CAP患儿列表，以及与这些CAP患儿相关的有效数据；

第二步，对所有筛选出的有效数据进行统计，选择其中部分项目作为特权信息，其余的有效数据显示为普通医疗数据特征；

第三步，将选择出的患儿检测项目结果以及患儿信息生成关于每一个有效CAP患儿的医疗数据特征矩阵，并选择特权信息，形成有效CAP患儿的特权信息矩阵；

第四步，建立基于特权信息学习支持向量SVM+算法，并利用该算法，使用第三步生成的两个矩阵，建立基于特权信息学习支持向量机的儿童社区获得性肺炎数据模型。

所述第一步中，CAP患儿相关的有效数据筛选，具体包括以下步骤：

1.1)对所有医疗检测数据进行初级筛选，去除其中信息不全，或者结果无法量化的部分；

1.2)对每一个CAP患儿的确诊性以及病原确定性进行筛查，并确保该患儿在数据源中有超过设定数量的有效检测数据记录，输出一个有效的CAP患儿列表；

1.3)针对每一个有效的CAP患儿样例，收集有效患儿信息、医疗检测信息。

所述第二步中，特权信息筛选，具体包括以下步骤：

2.3.1)根据病原分析的经验，选择设定的指标检测项目作为特权信息，其中设定的指标检测项目包括病毒PRC检测、细菌培养结果；

2.3.2)根据检测项目时间，平均时间超过早期诊断时间的项目，确定为特权信息；

2.3.3)其余的病人信息以及其余检测项目信息则作为普通医疗数据特征信息。

所述第三步中，将选择出的患儿检测项目结果以及患儿信息生成关于每一个有效CAP患儿的医疗数据特征矩阵，并选择特权信息，形成有效CAP患儿的特权信息矩阵，具体包括以下步骤：

3.1)根据已知患儿信息计算患儿年龄，并将入院季节数值加入医疗数据特征矩阵，其中患儿信息包括出生日期和入院日期；

3.2)将检测项目结果进行数据挖掘处理；

3.3)将经过数据处理和挖掘数值化的检测结果分别生成医疗数据特征矩阵与特权信息矩阵。

所述3.2)将检测项目结果进行数据挖掘处理具体为：

一部分数据通过数据处理中常见的归一化步骤，直接被作为一个维度的医疗数据特征；而对于非标准数值的检测项目结果，包括正常N、偏高H、偏低L，一部分的检测项目结果为医学上通用的化验检测结果，包括阳性P、阴性N、可疑S，还有一部检测结果为按照程度进行的分级，包括1-9级，其中1级表示轻微，9级表示严重；

为了能将这些结果中的检测项目进行数据分析，需要根据如下的规则将这些结果转化为数字，从而进行数据处理和挖掘，并且这些数字需要符合其他数值型结果归一化之后的规律：

3.2.1)正常N、偏高H、偏低L分别对应数字-1,0,1；

3.2.2)阳性P、阴性N、可疑S分别对应数字1,0,0.5；

3.2.3)1-9级根据公式x-1/10转化为数字。

所述3.3)将经过数据处理和挖掘数值化的检测结果分别生成医疗数据特征矩阵与特权信息矩阵具体为：

3.3.1)按照横向为不同检测项目及信息种类，纵向为不同CAP患儿的规则，排列生成一个医疗数据特征矩阵；若同一检测项目，同一患儿有多条信息，则求取平均值；若某一项目某患儿没有检测结果，则以0代替，即得到医疗数据特征矩阵；

3.3.2)按照与3.3.1)所述规则，对确定为特权信息的患儿检测项目结果进行同样的操作，得到特权信息矩阵。

所述第四步具体包括以下步骤：

4.1)基于机器学习中采用特权信息的SVM+算法，利用在第三步中生成的医疗数据特征矩阵与特权信息矩阵，利用采用特权信息的SVM+算法进行训练，建立基于特权信息学习支持向量机的儿童社区获得性肺炎的数据分析模型；

4.2)将待诊断的新CAP患儿信息数据与其早期的检测项目数据构成医疗数据特征矩阵向量，进入已完成训练的基于特权信息学习支持向量机的儿童社区获得性肺炎的数据分析模型，进行医疗数据特征向量生成操作，得到对病原分析的判断。

所述SVM+模型在原本SVM算法的基础上加入了特权信息的部分，其模型表述为：

假设样本数量为n的数据集T,其中x_i为第i个样本的特征向量，为第i个样本的特权信息向量，y_i为第i个样本的标签信息，原SVM模型中的松弛变量与特权信息关系为

其中部分即为特权信息所构成的松弛向量软间隔，C为软间隔的惩罚参数，γ为特权信息的惩罚参数，，(w,b)为分割两类样本的超平面，(w^*,b^*)为特权信息偏移方向的超平面；

所述模型决策函数为

其中x'为一个向量特征，K(x_i,x')为特征向量的核函数。

所述SVM+模型可以采用拉格朗日对偶方法得到优化函数：

其中α,β为拉格朗日系数，均为n维的向量，其中α,β为拉格朗日系数，均为n维的向量，其中为特权信息的核函数，通过求解优化函数，即可以得到决策函数中的α以得到模型结果；

通过求解优化函数，即可以得到决策函数中的α以得到模型结果。

与现有技术相比，本发明可以通过基于特权信息学习支持向量机SVM+算法，经过对原始医疗数据的处理，将得到的医疗数据特征矩阵与特权信息矩阵，用于机器学习模型的训练，从而获得基于特权信息学习支持向量机SVM+模型的儿童社区获得性肺炎病原数据系统及方法，建立儿童社区获得性肺炎早期病原分析系统。并通过待诊CAP儿童相关信息进入该早期病原分析系统的分析，完成医疗数据特征向量的训练，得到该待诊CAP儿童的早期病原分析结构，对临床医学治疗CAP儿童有重大帮助。

附图说明

图1为本发明系统的结构框图；

图2为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，本发明涉及一种基于特权信息学习支持向量机的儿童社区获得性肺炎数据处理的系统，包括：医疗数据处理模块、医疗数据特征模块与特权信息提取模块、病原分析模块。其中医疗数据处理模块对大量CAP患儿的医疗数据(化验检测数据和影像学数据等)按照检测类别项目、患儿信息、化验时间等几个维度进行分类或统计，并经过数据处理和挖掘，实现数据标准化。医疗数据特征生成与特权信息提取模块，此模块包含两部分内容：第一步骤，是根据统计结果选择适合的检测项目标准化数据，加上表明患儿特征的标准化数据，生成所有患儿的医疗数据特征矩阵；第二步骤，根据检测项目的时间统计结果，截取出不属于早期诊断时间的医疗数据信息部分，作为特权信息，并与患儿信息生成特权信息矩阵。将医疗数据特征矩阵与特权信息矩阵输入病原分析模块，通过基于特权信息学习的SVM+算法得到儿童CAP早期病原诊断结果数据模型。

如图2所示，本发明涉及上述的系统数据处理模块方法，包括以下步骤：

第二步，对所有筛选出的有效数据进行统计，选择其中适宜的项目作为特权信息，其余的有效数据显示为普通医疗数据特征；

第三步，将选择出的检测项目结果以及患儿信息生成关于每一个有效CAP患儿的医疗数据特征矩阵以及特权信息矩阵；

第四步，建立基于特权信息学习支持向量SVM+算法，并利用该算法，使用第三步生成的两个矩阵，建立基于特权信息学习支持向量机的儿童社区获得性肺炎数据模型；随后利用待诊断的新的患儿信息，开展对病原的早期分析诊断，从而辅助支持医生的早期诊断和治疗。

所述第一步中，由于医疗数据来源于真实的医院录入系统，属于人工输入与电子表单的混合插入，由于检测结果的多变性会导致一些结果难以输入或者因为其描述语言无法被电脑处理，同时由人工输入的数据会存在一定的人为错误，也由于检测项目的不断改变或者更新，一些预定之后未完成(即没有结果)的检测项目也会在医院的录入系统中被保存，这些检测信息会导致医疗数据的统计出现偏差，同时严重影响医疗数据的质量，导致其他数据处理模块的处理准确性下降以及耗费时间增多，所以在医疗数据处理初始就筛除这些数据会对其后简历系统有极大的帮助。由于部分CAP患儿为疑似(即无法确诊)病例，而在确诊的CAP患儿中，还存在一部分无法判定感染病原的病例，由于我们的系统注重于对儿童CAP早期病原的分析，这些疑似患儿或者不明确病原患儿的数据会干扰到机器学习模型的准确性，所以必须谨慎确认最终进行训练的CAP患儿样例情况，以保证模型训练的质量。

所述第一步筛选有效数据，具体包括以下步骤：

1.2)对每一个CAP患儿的确诊性以及病原确定性进行筛查，并确保该患儿在数据源中有足够数量的有效检测数据记录，输出一个有效的CAP患儿列表；

1.3)针对每一个有效的CAP患儿样例，收集整理有效患儿信息、医疗检测信息；

根据上述步骤，可以得到一个利于准确数据分析、数据质量较高的CAP患儿样例的资料表，这些患儿的资料数据将会成为之后系统中分析有效的数据源，为本发明的数据可信性提供保障。并且在CAP患儿数据不断增加等情况下，将新加入的患儿资料进行数据筛查后，将新的符合条件的有效CAP患儿加入列表，整理信息，激发后续模块不断更新数据以及模型，不断对系统最后结果进行更新优化。

所述医疗数据处理第二步中，具体包括以下步骤：

2.1)按照检测项目对所有有效的医疗检测数据进行统计分析；

上述步骤中，将属于有效CAP患儿资料按照化验大类(如血液化验、尿液化验等)以及检测项目(红细胞数量、白细胞数量等)进行分类统计，记录每个大类的化验项目以及每个检测项目的总共检测人次数、实际检测人数、项目检测时间中位数等项目，这些结果可以帮助之后的医疗数据特征生成模块选择合适的检测项目数据进行特征生成。

2.2)筛选出对儿童CAP病因的影响较大、且数据适合的检测项目；

上述步骤中，由于现代医疗中的检测项目多且杂，所有CAP患儿医疗检测数据中，存在一些无效检测(检测项目与儿童CAP症状、病因均无关)，一部分特异检测(只针对特定患儿，如药物过敏)，以及一些尚未推广的新检测，这些检测项目与儿童CAP病原关联较小或者尚未证实，不适合作为儿童CAP病原诊断的标准。同时，一部分检测项目的检测人数占比较小，造成数据缺失率较大，会对之后的儿童CAP早期病原分析造成影响，所以优选的，该步骤可以通过医学知识首先排除一部分检测项目，再根据检测项目的检测人数占全部CAP患儿比例确定是否将该项目加入进一步的数据分析。

2.3)选取出适合作为特权信息的检测项目；

上述步骤中，特权信息的定义为，在机器学习模型算法工程中，仅在训练数据集内提供，而不在测试数据集中包含的信息。在我们的系统中，可以看作面对一个医院新接诊的CAP患儿时，对CAP病原进行早期诊断时医生无法获得的数据，但这些数据我们可以在收集的全面的CAP患儿数据中找到。例如，早期诊断的时间定义为入院72小时以内，则入院72小时后得到的检测项目结果就无法在早期诊断中使用，但根据前文所述的儿童CAP病原检测技术，许多能对病原确定有重要指向性的检测都需要较长的时间，所以如果将这些检测项目结果作为训练数据加入机器学习判断儿童CAP模型中，可以大大增加模型的准确性。所以，优选的，所述步骤可以是：

2.3.1)根据病原分析的经验，选择一些特定的指标检测项目，如病毒PRC检测、细菌培养结果等作为特权信息；

2.3.2)根据检测项目时间，平均时间超过早期诊断时间的项目，可以确定为特权信息；

2.3.3)其余的病人信息以及合适的其余检测项目信息则作为普通医疗数据特征信息。

上述所述的医疗数据处理第二步中，随着医疗数据处理模块不断增加，更多CAP患儿数据，对检测项目的统计结果会有一定改变，一些新推广的检测项目就会在再次进行所述步骤筛选中被留下，一部分项目可能会被剔除，通过医疗数据的不断积累以及更新，会使系统分析越来越准确。

所述第三步骤，具体包括以下步骤：

3.1)根据已知患儿信息(出生日期、入院日期)等计算患儿年龄，并将入院季节等数值加入医疗数据特征矩阵；

上述所述步骤中，由于儿童CAP病原在不同患儿年龄，不同患病季节等条件下的分布中均有显著差异，所以这部分信息会对病因早期诊断有非常大的影响，需要从患儿资料中提取或者计算获得。

3.2)将检测项目结果进行数据挖掘处理；

上述所述步骤中，由于系统提取医疗数据检测结果已经在之前去除了其中不规则的部分数据，其中一些检测项目原本结果为连续的数值，这些结果通过数据处理中常见的归一化步骤，即可以直接被作为一个维度的医疗数据特征。然而许多其他的检测项目结果并不是标准数值，这些结果有部分为经过与一个正常值范围进行比对之后得到的结果如：N(正常)、H(偏高)、L(偏低)，一部分的检测项目结果为医学上通用的化验检测结果如：P(阳性)、N(阴性)、S(可疑)，还有一部检测结果为按照程度进行的分级，如1-9级，其中1级表示轻微，9级表示严重。

优选的，为了能将这些结果中部分纯粹数字的检测项目也可以进行数据分析，我们需要根据如下的规则将这些结果转化为数字，从而进行数据处理和挖掘，并且这些数字需要符合其他数值型结果归一化之后的规律，

i)N,H,L分别对应数字-1,0,1；

ii)P,N,S分别对应数字1,0,0.5；

iii)1-9级根据公式x-1/10转化为数字；

上述规律可以在不为数字的检测结果和数字之间建立一个映射关系，该映射关系能使得到转化之后的数字结果和其他归一化后的连续数值型结果处于同一个区间，有类似分布，使所有的数字结果可以一起加入之后的数据分析步骤。

3.3)将数据处理和挖掘的数值化的检测结果分别加入医疗数据特征矩阵与特权信息矩阵；

上述步骤中，将取得的患儿信息以及一部分检测项目结果按照横向为不同检测项目及信息种类，纵向为不同CAP患儿的规则，排列生成一个医疗数据特征矩阵；若同一检测项目，同一患儿有多条信息，则求取平均值；若某一项目某患儿没有检测结果，则以0代替，即可以得到医疗数据特征矩阵。按照同样的规则，对确定为特权信息的患儿检测项目结果进行同样的操作，可以得到特权信息矩阵。

本发明所述的第四步中，是建立基于特权信息学习支持向量机的儿童社区获得性肺炎分析模型，开展对病原的早期分析诊断，从而辅助支持医生的早期诊断和治疗。

主要步骤是：第一，基于机器学习中采用特权信息的SVM+算法，利用在第三步中生成的医疗数据特征矩阵与特权信息矩阵，利用采用特权信息的SVM+算法进行训练，建立基于特权信息学习支持向量机的儿童社区获得性肺炎的数据系统分析模型；第二，将待诊断新的CAP患儿信息数据与其早期的检测项目数据等构成医疗数据特征矩阵向量，进入已完成训练的基于特权信息学习支持向量机的儿童社区获得性肺炎早期病原诊断的分析模型，进行医疗数据特征向量生成操作，得到对病原分析的判断。这一发明对辅助临床医生在第一时间快速准确进行儿童社区获得性肺炎早期诊断和治疗具有重要意义。

所述SVM+模型算法的目的，是将种类数量较多的儿童CAP住院治疗全程的检测数据作为训练数据，与儿童CAP早期诊断时获得的较少的数据化验作为测试数据，这不对称的训练数据与测试数据作为机器学习的输入，得到病原分析的模型，为此，采用将儿童CAP住院治疗全程的检测数据中难以在早期诊断中获得的部分作为特权信息的模式。

所述SVM(支持向量机)模型是90年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。SVM理念为选择一个超平面将所有样本分为两类，使其两分类之间间隔尽量大，即支持向量的最大化。定义这个超平面为(w,b)。给定一个样本数量为n的数据集{T|(x_i,y_i),y_i＝±1,i＝1,…n,}，则两分类的间隔可表示为

得到SVM模型的目标函数：

由于超平面参数w,b可以按比例扩大，并不影响优化问题的解，所以限定γ||w||＝1，则目标函数可以转化为

s.t y_i(w·x_i+b)≥1,i＝1,…,n

为了使模型转化为凸二次规划问题，转化优化问题到等价问题

s.ty_i(w·x_i+b)≥1,i＝1,…,n

为了将SVM模型扩展至线性不可分的情况，对于原优化问题约束条件加入了松弛变量ξ，优化目标函数变为

根据拉格朗日对偶方法，我们可以得到

s.t.0≤α_i≤C i＝1,2.…,n

其中α为拉格朗日系数，是一个n维的向量。

使优化函数偏导为0，可以得到：

0≤α_i≤C

进行推导后得到

求解α的最优值α'后，可以通过决策函数预测测试样本的类别。

所述SVM+模型，即在原本SVM的模型的基础上加入了特权信息的部分，以方便下一步新的待诊断患儿。SVM+模型所提出的方法，模仿了SVM模型中松弛变量的概念，将特权信息作为一种对分类结果的软间隔加入模型中，得到的SVM+模型。

假设样本数量为n的数据集原SVM模型中的松弛变量与特权信息关系为则SVM模型目标函数可以演化为

其中部分即为特权信息所构成的松弛向量软间隔，C为软间隔的惩罚参数，γ为特权信息的惩罚参数

同样通过加入核技巧K(x_i,x_j)以及通过拉格朗日对偶方法，我们可以得到SVM+模型的优化函数

其中α,β为拉格朗日系数，均为n维的向量。

求解α,β的最优值α',β'后，同样可以通过决策函数

预测测试样本的类别。

根据拉格朗日对偶方法求导之后，我们可以得到

其中α,β为拉格朗日系数，均为n维的向量。

求解α,β的最优值α',β'后，同样可以通过决策函数

预测测试样本的类别。

具体实施例

本发明在本实施例中的具体实施过程如下所示：

步骤1：建立检测项目与结果数据库，包括检测的化验大类名称、检测项目名称、检测结果、检测时间(检测报告时间、患儿入院时间)，对所有数据条目进行筛选，去除其中信息不全、或者结果无法量化的条目；

步骤2：为经过筛选的CAP患儿建立患儿数据库，包括患儿编号、年龄、性别、出生日期、入院时间、参与检测的项目结果在数据库中的记录位置；

2.1，根据影像学二次诊断资料确认患儿为CAP确诊患儿；

2.2，根据指标性检测项目结果(如病毒PCR检测)与后期整理诊断资料(如出院小结等)确认患儿有确定的被检测出CAP感染病原；

2.3，在检测项目与结果数据库中查找患儿的检测项目数据记录，对属于该患儿的医疗检测数据数量进行统计，确保患儿有足够的检测项目资料；

2.4，最终记录下通过以上步骤筛选的患儿资料；

步骤3：对所有患儿数据库中的患儿医疗检测信息进行统计，获取检测种类，每种检测次数，检测结果平均时间等信息；

3.1，综合所有患儿数据库检测项目条目，建立检测项目数据库，包括检测项目名称，检测项目所属化验大类，检测项目检测人次，参与检测项目患儿编号；

3.2，根据检测项目数据库中每一个项目，参与检测项目人数占总患儿数比值，检测项目平均检测时间；

步骤4：筛选出适合的作为医疗数据特征的检测项目以及适合作为特权信息的检测项目；

4.1，针对每一个检测项目数据库中的项目，若参与检测项目人数占总患儿数比值高于30％，则该检测项目适合作为医疗数据特征；

4.2，若该检测项目属于医学指导中的病原指标性检测项目(如病毒PCR检测)，则检测项目不作为医疗数据特征而作为特权信息；

4.3，若该检测项目平均检测时间大于72小时，则检测项目不作为医疗特征数据而作为特权信息；

步骤5，将检测项目结果转化为数值并统一数值范围，进行数据处理和挖掘；

5.1，判断该检测项目结果是否属于连续数值，如果是，则对所有该项目检测结果进行归一化计算；

5.2，判断该检测项目结果不属于连续数值，根据之前所述转化规则，通过其他结果与数字之间映射关系，得到对应的数字结果；

步骤6，将检测结果数值与患儿信息生成医疗数据特征矩阵以及特权信息矩阵；

6.1，将不同患儿作为纵轴，患儿信息项目(性别、年龄、入院时间等)以及不同检测项目作为横轴生成医疗数据特征矩阵；

6.2，将不同患儿作为纵轴，属于特权信息的不同检测项目作为横轴生成特权信息矩阵；

6.3，若某一检测项目，同一个患儿有多次结果的情况，则计算所有结果均值记入医疗数据特征矩阵与特权信息矩阵；

6.4，若某一患儿没有做该项目检测，则以0记入医疗数据特征矩阵与特权信息矩阵；

步骤7，根据患儿数据库，按照不同患儿为纵轴，不同病原为横轴，生成患儿病原标签矩阵，其中该患儿确定为该病原记录为1，不确定该病原则记录为-1；

步骤8，针对每一种病原，将医疗数据特征矩阵、特权信息矩阵，对应的一列病原标签矩阵，作多个训练集；

步骤9，将每一个训练集输入SVM+模型，求解其优化向量，形成基于特权信息学习支持向量机的决策函数——即机器学习模型；

步骤10，对新的待诊断CAP患儿收集数据，处理为新的测试医疗特征向量；

10.1，收集新的患儿性别、年龄、入院时间等信息；

10.2，核对所有属于医疗数据特征的检测项目，若新的患儿进行了该项检测，则将检测结果转化为数值记录；

10.3，将患儿信息项目(性别，年龄，入院时间等)以及不同检测项目作为横轴生成医疗数据特征向量；

步骤11，通过决策函数，计算每种病原对应的SVM+模型的分类结果，并将病原分析结果输出，为医生对患儿的早期病原诊断作为重要参考；

11.1，计算决策函数的值；

11.2，若决策函数的值为1，则判断患儿有该病原感染，若决策函数值为-1，则判断该患儿没有次病原感染；

11.3，若患儿有多个病原感染则判断患儿为混合感染，若患儿没有成功判别出任何病原，则需要加入更多医疗检测项目重新计算。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于特权信息学习支持向量机的CAP数据系统，其特征在于，包括：依次连接的医疗数据处理模块、医疗数据特征生成与特权信息提取模块、病原分析模块；

2.一种采用权利要求1所述数据系统的方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述第一步中，CAP患儿相关的有效数据筛选，具体包括以下步骤：

4.根据权利要求2所述的方法，其特征在于，所述第二步中，特权信息筛选，具体包括以下步骤：

5.根据权利要求2所述的方法，其特征在于，所述第三步中，将选择出的患儿检测项目结果以及患儿信息生成关于每一个有效CAP患儿的医疗数据特征矩阵，并选择特权信息，形成有效CAP患儿的特权信息矩阵，具体包括以下步骤：

3.2)将检测项目结果进行数据挖掘处理；

6.根据权利要求5所述的方法，其特征在于，所述3.2)将检测项目结果进行数据挖掘处理具体为：

3.2.1)正常N、偏高H、偏低L分别对应数字-1,0,1；

3.2.2)阳性P、阴性N、可疑S分别对应数字1,0,0.5；

3.2.3)1-9级根据公式x-1/10转化为数字。

7.根据权利要求5所述的方法，其特征在于，所述3.3)将经过数据处理和挖掘数值化的检测结果分别生成医疗数据特征矩阵与特权信息矩阵具体为：

8.根据权利要求2所述的方法，其特征在于，所述第四步具体包括以下步骤：

9.根据权利要求8所述的方法，其特征在于，所述SVM+模型在原本SVM算法的基础上加入了特权信息的部分，其模型表述为：

假设样本数量为n的数据集T,其中x_i为第i个样本的特征向量，为第i个样本的特权信息向量，y_i为第i个样本的标签信息，

原SVM模型中的松弛变量与特权信息关系为

\underset{w, w^{*}, b, b^{*}}{m i n} R (w, w^{*}, b, b^{*}) = \frac{1}{2} [(w \cdot w) + γ (w^{*} \cdot w^{*})] + C Σ_{i = 1}^{n} [(w^{*} \cdot x_{i}^{*}) + b^{*}]

\begin{matrix} s . t . & \begin{matrix} y_{i} [(w \cdot x_{i}) + b] &GreaterEqual; 1 - [(w^{*} \cdot x_{i}^{*}) + b^{*}] \\ (w^{*} \cdot x_{i}^{*}) + b^{*} &GreaterEqual; 0, C > 0 \end{matrix} \end{matrix}

其中部分即为特权信息所构成的松弛向量软间隔，C为软间隔的惩罚参数，γ为特权信息的惩罚参数，(w,b)为分割两类样本的超平面，(w^*,b^*)为特权信息偏移方向的超平面；

所述模型决策函数为

f (x^{'}) = sgn (Σ_{i = 1}^{n} y_{i} K (x_{i}, x^{'}) α_{i}^{'})

其中x'为一个向量特征，K(x_i,x')为特征向量的核函数。

10.根据权利要求8所述的方法，其特征在于，

所述SVM+模型可以采用拉格朗日对偶方法得到优化函数：

\begin{matrix} \min_{α, β} L (α, β) \\ = \frac{1}{2} Σ_{i = 1}^{n} Σ_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, y_{j}) + \frac{1}{2 γ} Σ_{i = 1}^{n} Σ_{j = 1}^{n} (α_{i} + β_{i} - C) (α_{j} + β_{j} - C) K^{*} (x_{i}^{*}, x_{j}^{*}) - Σ_{i = 1}^{n} α_{i} \end{matrix}

\begin{matrix} s . t . & \begin{matrix} \begin{matrix} α_{i}, β_{i} &GreaterEqual; 0 & i = 1, 2, ..., n \end{matrix} \\ Σ_{i = 1}^{n} α_{i} y_{i} = 0, Σ_{i = 1}^{n} (α_{i} + β_{i} - C) = 0 \end{matrix} \end{matrix}

其中α,β为拉格朗日系数，均为n维的向量，其中为特权信息的核函数，通过求解优化函数，即可以得到决策函数中的α以得到模型结果。