CN103020454A

CN103020454A - 发病关键因素提取与疾病预警方法及系统

Info

Publication number: CN103020454A
Application number: CN2012105463369A
Authority: CN
Inventors: 蔡云鹏; 樊小毛; 李烨; 郑卓远; 杨玉洁
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-15
Filing date: 2012-12-15
Publication date: 2013-04-03

Abstract

本发明涉及医疗信息决策系统技术领域，提供了一种发病关键因素提取与疾病预警方法，所述方法包括如下步骤：数据预处理，将病历档案数据转换为训练数值矩阵；建立疾病预警模型；通过验证找到最优预警模型。本发明还提供了一种发病关键因素提取与疾病预警系统。通过本发明提供的发病关键因素提取与疾病预警方法与系统，能够提取疾病的高风险因子，进行疾病突变预警，实现简单，效果好。

Description

发病关键因素提取与疾病预警方法及系统

技术领域

本发明涉及医疗信息决策系统技术领域，特别是涉及一种发病关键因素提取与疾病预警方法及系统。

背景技术

随着数据挖掘技术的快速发展，人们已经可以从大量的数据中提取出有用的数据进行处理，并得到以前认为无关信息间的密切关联关系，或者根据现有经验预测将来有可能发生的事情。据医学相关领域研究成果显示，许多重大疾病甚至造成严重后果的慢性病在病变前或多或少都会有一些症状产生。而对于不严重的病症如体温变化、腰部酸痛等，很多人都会忽略，致使医生和研究人员无法掌握完整的信息和资料对重大疾病进行预防性研究。

现在的电子病历基本上能够做到对有记录的病人的身体情况做较为详细的记录，以电子病历为数据源，利用数据挖掘技术可以研究重大疾病发生前的有关特征，并建立相关的疾病预警机制。比如：国家医疗卫生机构可以在某一时期内对某种慢性病的病变情况进行实时追踪，国家可以根据慢性病实际分布及病变情况进行及时、准确的决策、预警。公开号为CN1961321A的中国专利“为医疗决策提供支持的方法及系统”提出了以例证为根据的医疗决策而提供支持的系统和方法，包含现有医疗/保健数据库中的统计分析，以便向患者或医护人员提供在不同治疗方法之间作出抉择的客观依据。公开号为CN101366032A的中国专利“用于医疗信息系统的基于决策的显示”给出了一种决策支持系统，包括用户接口，用于显示多步指南的流程图，以用于指定提供给服务接收者的服务的当前阶段沿着该指南处于什么位置以及当前阶段确定要呈现的决策支持数据。

目前，现有技术存在着如下问题：

1、现有技术中所涉及的医疗信息系统均为电子病历信息管理，并未涉及到疾病高风险因子提取及疾病预警领域；

2、现有技术中有对重大传染病建立预警机制，但是往往由于病历数据的噪声及数据不完整性导致模型复杂性高，预警效果大大降低。

发明内容

本发明针对现有技术的上述缺陷，提供了一种发病关键因素提取与疾病预警方法，能够提取疾病的高风险因子，以及进行疾病突变预警，实现简单，效果好。本发明采用如下技术方案：

一种发病关键因素提取与疾病预警方法，所述方法包括如下步骤：

数据预处理，将病历档案数据转换为训练数值矩阵；

建立疾病预警模型；

通过验证找到最优预警模型。

优选地，所述方法还包括：

输入具体患者的病历档案数据，提取患者的疾病高风险因子以及进行疾病风险评估。

优选地，采用L1正则逻辑斯蒂回归模型建立疾病预警模型。

优选地，采用N折交叉验证方法找到最优预警模型。

优选地，所述数据预处理，将病历档案数据转换为训练数值矩阵的步骤具体为：

通过分词和匹配，将文本病历拆分成一系列关键词，通过预先设定的匹配规则，将划分的关键词分为特征变量和变量取值两种类型。

优选地，所述病历档案数据包括电子病历、病历档案或生化检查数据。

优选地，所述分词的方法包括字符串匹配的分词法、词义分词法或统计分词法。

优选地，所述字符串匹配的分词法包括正向最大匹配法、反向最大匹配法、最短路径分词法或双向最大匹配法。

优选地，L1正则逻辑斯蒂回归模型为：

\min_{w, b} \frac{1}{Σ α_{i}} Σ_{i = 1}^{n} α_{i} \log (1 + \exp (- y_{i} (w^{T} x_{i} + b))) + γ | | w | | - - - (1)

其中，

α_i是样本平衡权重，m⁺是正类样本的数量，m^-是负类样本的数量，负类样本记录为健康记录，正类样本记录为疾病记录，γ是调节权重参数，b是判断正负类的阈值，w^T是分类器权重，x_i是单条样本记录，y_i是类标记。

优选地，所述方法还包括：

将分类器权重w^T初始化为0，采用梯度下降法求解w^T和b，循环迭代，直到求得最小目标值。

优选地，所述采用N折交叉验证方法找到最优预警模型的步骤具体为：

将初始数据随机划分成N个不相交的子集D1，D2，…，DN；

进行N次训练和检验；

在第i次迭代时，划分子集Di用作检验集，其余的子集用作训练集来训练模型；

综合计算所有子集上的平均误差，评定选定调节权重参数γ的性能；

分别采用不同的调节权重参数进行尝试，从结果中选取最优的模型参数，得到最优化的疾病预警模型。

优选地，所述输入具体患者的病历档案数据，提取患者的疾病高风险因子以及进行疾病风险评估的步骤具体为：

输入具体患者的电子病历数据、病历档案数据或生化检查数据；

将所述输入的数据按照数据预处理流程转换为个体数值矩阵，所述个体数值矩阵中每一行对应的特征变量与所述通过数据预处理得到的训练数值矩阵中的特征变量的顺序一致；

将所述最优预警模型应用于个体数值矩阵，由每个特征变量对公式（2）中发病风险的贡献值大小，提取出该患者的疾病高风险因子，并通过公式（2）得到每个具体患者的发病风险概率，进行疾病风险评估：

P (Y = 1 | x) = π (x) = \frac{1}{1 + e^{- g (x)}} - - - (2)

其中g(x)＝β₀+β₁x₁+…+β_px_p。

本发明还提供了一种发病关键因素提取与疾病预警系统，包括：

进行数据预处理，将病历档案数据转换为训练数值矩阵的数据预处理模块；

建立疾病预警模型，通过验证找到最优预警模型，提取患者的疾病高风险因子以及进行疾病风险评估的预警模型模块；和

输入具体患者的病历档案数据的患者病历数据模块。

优选地，所述系统还包括：

显示提取的疾病高风险因子和疾病风险评估的结果的显示模块。

本发明具有以下有益效果：

1、可直接针对电子文本病历或电子健康档案，也即把患者的病历档案数据导入该系统，便可给出疾病的高风险因子及疾病突变预警；

2、具有对噪声数据不敏感的特性，在数据不完整的情况下仍然可以给出较好的结果；

3、能够同时处理电子文本病历中的大量关键特征，不需要进行筛选。

附图说明

图1为本发明实施例1发病关键因素提取与疾病预警方法流程图；

图2为本发明实施例2发病关键因素提取与疾病预警系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明针对目前技术领域中对疾病高风险因子提取及疾病预警系统的缺失，以电子病历、病历档案与生化检查数据为数据源，进行数据预处理，建立L1正则逻辑斯蒂回归模型，利用N折交叉验证方法找到最优预警模型，给出疾病潜在高风险因子及进行风险评估和预警。针对一个具体的患者，输入其基本情况，如年龄、性别、肢体活动灵便程度、生化检查数据等，便可个性化的提取患者的疾病高风险因子及进行疾病风险评估。

实施例1：

如图1所示，本发明实施例1提供了一种发病关键因素提取与疾病预警方法，该方法包括下述步骤：

步骤S1：病历档案数值化。

本步骤主要进行数据预处理，将病历档案数据转换为训练数值矩阵。具体而言，病历档案数值化主要是通过分词和匹配，将文本病历拆分成一系列关键词，通过预先设定的匹配规则，将划分的关键词分为特征变量和变量取值两种类型。该病历档案数据包括电子病历、病历档案或生化检查数据等记录病人健康或疾病记录的数据。

分词的方法可采用字符串匹配的分词法、词义分词法或统计分词法：

1、字符串匹配的分词法

字符串匹配的分词法分为正向最大匹配法、反向最大匹配法、最短路径分词法和双向最大匹配法4种分词方法。

（1）正向最大匹配法

正向最大匹配法亦称MM法。假设自动分词词典（或词库）中的最长词条是y个字，则取被处理材料当前字符串序列中的前y个字作为匹配字段，查找词典，若词典中存在这样的一个y字词，则匹配成功，匹配字段被作为一个词切分出来；如果在词典中找不到这样一个y字词，则匹配失败，匹配字段去掉最后一个字，剩下的字段重新进行匹配，如此进行下去，直到匹配成功，也就是完成一轮匹配，切分出一个词为止。

（2）反向最大匹配法

反向最大匹配法也称为逆向最大匹配法（由右到左的方向），就是朝相反的方向发掘可以匹配的文字，比如“网上商城”这个文字串，那么会向左延伸在“网上”的前面会出现的结果是区域性的文字，比如“上海”或者“北京”等，在“商城”的前面会出现更精准的定义文字符，比如“爱家”、“女人”等专属性强的文字符。

（3）最短路径分词法

最短路径分词法是在一段话里面要求切出的词数是最少的。

（4）双向最大匹配法

双向最大匹配法是正反向同时进行分词匹配。在一种特殊的情况下，关键词前后组合内容被认为粘性相差不大，进行正反向同时分词匹配可以达到比较好的效果。

2、词义分词法

词义分词法是一种根据句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词的方法。

3、统计分词法

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。

在完成分词的基础上，通过预先设定的匹配规则，将划分的关键词分为特征变量和变量取值两种类型，并进行对应，就完成了病历的数值化。

步骤S2：建立疾病预警模型。

本实施例中采用L1正则逻辑斯蒂回归模型来建立疾病预警模型。

一般情况下，人的身体生病的时候处在两种状态：有疾病和健康。逻辑斯蒂回归模型（Logistic regression）比较符合此问题。逻辑斯蒂回归是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。考虑具有p个独立变量的向量x′＝(x₁,x₂,…,x_p)，设条件概率P(Y＝1|x)＝p为根据观测量相对于某事件发生的概率，逻辑斯蒂回归模型可表示为：

P (Y = 1 | x) = π (x) = \frac{1}{1 + e^{- g (x)}} - - - (2)

（2）式右侧形式的函数称为逻辑斯蒂函数。其中g(x)＝β₀+β₁x₁+…+β_px_p。

不过，在大量运用多元逻辑斯蒂回归的研究中往往忽视了另一个相当重要的问题，即模型自变量之间可能存在的多重共线性干扰。与其他多元回归方法一样，逻辑斯蒂回归模型也对多元共线性敏感。当变量之间的相关程度提高时，系数估计的标准误差将会急剧增加；同时，系数对样本和模型设置都非常敏感，模型设置的微小变化、在样本总体中加入或删除案例等变动，都会导致系数估计的较大变化。由于电子病历数据很多属性与目标疾病往往不相关或相关性很小，众多不相关字段的存在增加了逻辑斯蒂回归模型的复杂性，从而导致整个预测结果很差。因此，为了解决经典逻辑斯蒂回归模型的缺陷，本发明采用了L1正则逻辑斯蒂回归模型（或称为稀疏逻辑斯蒂回归模型），其中分类器的权重向量是由一组非常小的非零向量组成。L1正则逻辑斯蒂回归模型很有价值的特性是对噪声数据不敏感且具有高鲁棒性。利用L1正则逻辑斯蒂回归模型，建立了疾病预警模型。此模型能够很好的处理医疗数据中不平衡、多噪声的问题。

L1正则逻辑斯蒂回归模型为：

\min_{w, b} \frac{1}{Σ α_{i}} Σ_{i = 1}^{n} α_{i} \log (1 + \exp (- y_{i} (w^{T} x_{i} + b))) + γ | | w | | - - - (1)

其中，

本发明采用梯度下降法迭代求解方程（1）。对固定的参数γ，开始将分类器权重w^T初始化为0，利用梯度下降方法求解w^T和b。循环迭代，直到求得最小目标值，此时模型的解为w*^T和b*。

步骤S3：找到最优预警模型。

本步骤主要通过验证找到最优预警模型。本实施例中采用N折交叉验证方法确定步骤S2中的参数γ，找到最优预警模型。在N折交叉验证（N-foldcross-validation）中，将初始数据随机划分成N个不相交的子集成“折”D1，D2，…，DN，每个折的大小大致相等。训练和检验进行N次。在第i次迭代时，划分子集Di用作检验集，其余的划分子集用作训练集，一起用来训练模型。例如，在第一次迭代时，子集D2，…，DN一起作为训练集，得到第一个模型，并在D1检验；第二次迭代在子集D1，D3，…，DN子集上训练，并在D2上检验；如此下去。最终综合计算所有子集上的平均误差，来评定选定参数γ中的性能。通过分别采用一系列不同的参数进行尝试，从结果中选取最优的模型参数，得到最优化的疾病预警模型。

步骤S4：模型应用。

本步骤中，通过输入具体患者的病历数据，个性化地提取患者的疾病高风险因子以及进行疾病风险评估。患者的病历数据包括电子病历数据、病历档案数据或生化检查数据。将输入的数据按照数据预处理流程转换为个体数值矩阵，个体数值矩阵中每一行对应的特征变量与通过数据预处理得到的训练数值矩阵中的特征变量的顺序一致。将步骤S3得到的最优预警模型应用于个体数值矩阵，由每个特征变量对公式（2）中发病风险的贡献值大小，提取出该患者的疾病高风险因子，并通过公式（2）得到每个具体患者的发病风险概率，进行疾病风险评估。

实施例2：

如图2所示，本发明实施例2提供了一种发病关键因素提取与疾病预警系统，该系统包括数据预处理模块1、预警模型模块2、患者病历数据模块3和结果显示模块4，其中数据预处理模块1用于数据预处理，将病历档案数据转换为训练数值矩阵，并输入预警模型模块2；预警模型模块2用于接收数据预处理模块1输入的训练数据，建立疾病预警模型，并通过验证找到最优预警模型；患者病历数据模块3用于向预警模型模块2输入具体患者的病历数据，由预警模型模块2个性化地提取患者的疾病高风险因子以及进行疾病风险评估；结果显示模块4用于显示提取的疾病高风险因子和疾病风险评估。该系统的具体建立方法可采用实施例1提供的方法。

实验：

采用本发明的发病关键因素提取与疾病预警方法对高血压患者的数据进行建模，高效的进行了高血压患者个体的潜在风险因子提取，并且对高血压病变进行预警，得到了较好的结果。

综上所述，本发明通过将病历文本拆分为关键词项的方式，将电子病历、病历档案或生化检查数据等转换为数值矩阵，并在此基础上应用L1正则逻辑斯蒂回归模型抽取关键特征进行数值建模，获得可应用于预测个体病人疾病风险的预警模型。

本发明可直接针对电子文本病历或电子健康档案，也即把患者的病历档案数据导入该系统，便可给出疾病的高风险因子及疾病突变预警；对噪声数据不敏感，在数据不完整的情况下仍然可以给出较好的结果；能够同时处理电子文本病历中的大量关键特征，不需要进行筛选。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种发病关键因素提取与疾病预警方法，其特征在于，所述方法包括如下步骤：

数据预处理，将病历档案数据转换为训练数值矩阵；

建立疾病预警模型；

通过验证找到最优预警模型。

2.根据权利要求1所述的发病关键因素提取与疾病预警方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的发病关键因素提取与疾病预警方法，其特征在于，采用L1正则逻辑斯蒂回归模型建立疾病预警模型。

4.根据权利要求1所述的发病关键因素提取与疾病预警方法，其特征在于，采用N折交叉验证方法找到最优预警模型。

5.根据权利要求1所述的发病关键因素提取与疾病预警方法，其特征在于，所述数据预处理，将病历档案数据转换为训练数值矩阵的步骤具体为：

6.根据权利要求1所述的发病关键因素提取与疾病预警方法，其特征在于，所述病历档案数据包括电子病历、病历档案或生化检查数据。

7.根据权利要求5所述的发病关键因素提取与疾病预警方法，其特征在于，所述分词的方法包括字符串匹配的分词法、词义分词法或统计分词法。

8.根据权利要求7所述的发病关键因素提取与疾病预警方法，其特征在于，所述字符串匹配的分词法包括正向最大匹配法、反向最大匹配法、最短路径分词法或双向最大匹配法。

9.根据权利要求3所述的发病关键因素提取与疾病预警方法，其特征在于，L1正则逻辑斯蒂回归模型为：

\min_{w, b} \frac{1}{Σ α_{i}} Σ_{i = 1}^{n} α_{i} \log (1 + \exp (- y_{i} (w^{T} x_{i} + b))) + γ | | w | | - - - (1)

其中，

10.根据权利要求9所述的发病关键因素提取与疾病预警方法，其特征在于，所述方法还包括：

11.根据权利要求4所述的发病关键因素提取与疾病预警方法，其特征在于，所述采用N折交叉验证方法找到最优预警模型的步骤具体为：

将初始数据随机划分成N个不相交的子集D1，D2，…，DN；

进行N次训练和检验；

12.根据权利要求2所述的发病关键因素提取与疾病预警方法，其特征在于，所述输入具体患者的病历档案数据，提取患者的疾病高风险因子以及进行疾病风险评估的步骤具体为：

P (Y = 1 | x) = π (x) = \frac{1}{1 + e^{- g (x)}} - - - (2)

其中g(x)＝β₀+β₁x₁+…+β_px_p。

13.一种发病关键因素提取与疾病预警系统，其特征在于，包括：

输入具体患者的病历档案数据的患者病历数据模块。

14.根据权利要求13所述的发病关键因素提取与疾病预警系统，其特征在于，所述系统还包括：