CN110265151A

CN110265151A - 一种基于ehr中异构时态数据的学习方法

Info

Publication number: CN110265151A
Application number: CN201910262444.5A
Authority: CN
Inventors: 莫毓昌
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-09-20
Anticipated expiration: 2039-04-02
Also published as: CN110265151B

Abstract

本发明公开了一种基于EHR中异构时态数据的学习方法，包括如下步骤，S1、将患者的EHR描述为由水平维度上的时间和垂直维度上的时间构成的时间矩阵；S2、将时间矩阵划分为多组时间序列，并将各时间序列通过SAX算法表示成符号序列；S3、使用生成的符号序列作为特征，采用原始序列方法、序列聚类方法和随机子序列方法分别建立预测模型；S4、评估使用原始序列方法、序列聚类方法和随机子序列方法分别建立的预测模型的预测性能，确定预测性能最好的预测模型。优点是：实现了将原始EHR数据转换为用标准机器学习算法直接处理的表格格式，允许直接应用任何标准机器学习算法；与基于单一表示的方法相比，该方法获取的预测模型的预测性能得到显著提高。

Description

一种基于EHR中异构时态数据的学习方法

技术领域

本发明涉及预测模型领域，尤其涉及一种基于EHR中异构时态数据的学习方法。

背景技术

电子健康档案(EHR)包含日常临床活动中获得的大量纵向数据，EHR中综合病人病史构成了表型特征的可计算集合。在EHR中可以获得各种各样的数据类型，数据的异构类型提供了患者的整体视角，随时间收集的临床数据为患者提供了临床事件的轨迹，因此可以进行纵向分析。

目前，EHR数据的分析主要分为四类：共病性、患者聚类、机器学习和队列查询。其中，机器学习作为一种从大量EHR数据中获取有用信息的方法受到了广泛的关注，它们通常要求训练数据和测试数据都采用表格格式。然而，在不损失关键信息的条件下，EHR数据很少直接符合这种格式，标准机器学习算法不能直接从复杂的数据表中构建预测模型。因此将原始EHR数据转换为用标准机器学习算法直接处理的表格格式十分关键。

发明内容

本发明的目的在于提供一种基于EHR中异构时态数据的学习方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于EHR中异构时态数据的学习方法，包括如下步骤，

S1、将患者的EHR描述为由水平维度上的时间和垂直维度上的时间构成的时间矩阵；

S2、将时间矩阵划分为多组时间序列，并将各时间序列通过SAX算法表示成符号序列；

S3、使用生成的符号序列作为特征，采用原始序列方法、序列聚类方法和随机子序列方法分别建立预测模型；

S4、评估使用原始序列方法、序列聚类方法和随机子序列方法分别建立的预测模型的预测性能，确定预测性能最好的预测模型。

优选的，步骤S2中将各时间序列通过SAX算法表示成符号序列包括如下步骤，

给定时间序列T；

将时间序列T使用PAA算法获得实向量

将的每个值映射到使用高斯分布定义的离散符号，获取的离散表示。

优选的，所述PAA算法包括如下步骤，

给出固定参数w；

将时间序列T表示在w维空间中得到实向量

优选的，获取实向量的离散表示包括如下步骤，

定义一组α-1个分割点Β＝{β₁,...,β_α-1},使来自每对(β_i,β_i+1)高斯正态曲线下的面积等于1/a，其中α是字母表大小；

假设β₀＝-∞，β_α＝∞，得到分割点后，中的PAA系数将映射到符号的序列，获取实向量的离散表示。

优选的，采用原始序列方法建立预测模型包括如下步骤，

使用SAX算法将每个时间序列转换为符号序列；

在SAX算法中设置两个参数，维数w和字母表大小a；

通过将SAX算法应用于每个特征，将由异构时间序列组成的第一数据集转换为包含不同长度序列的第二数据集；

采用分类器处理第二数据集，生成第一预测模型。

优选的，采用序列聚类方法建立预测模型包括如下步骤，

在步骤S5获取第二数据集的基础上，以第二数据集作为特征；

使用PAM算法对第二数据集进行聚类，获取第二预测模型。

优选的，使用PAM算法对第二数据集进行聚类包括如下步骤，

在第二数据集中寻找K个有代表性的中心点；

令各中心点在所属类中的对象与其他对象之间的平均异度度量最小；

通过将各中心点在所属类中的对象分配到与其最近的中心点来构建K个类别；

将第二数据集划分为K个类别后，第二数据集中属于同一类的序列被其中心点代替，用于获取第二预测模型。

优选的，利用最大化第二数据集的轮廓宽度自动选择K；所述是第二数据集中所有序列s(i)的平均值；

其中，a(i)是序列i与其所属类中其他序列之间的平均距离，b(i)是序列i与其他类中所有序列之间的最短距离。

优选的，使用随机子序列方法建立预测模型，包括如下步骤，

将特征从序列向量转换为原始序列与子序列之间的距离向量；

使用信息增益评估生成的子序列，在子序列中选择IG最高的子序列；

将特征转化为IG最高的子序列与原始序列之间的编辑距离，获取第三预测模型。

优选的，采用十折交叉验证方法评估三个预测模型的预测性能，确定预测性能最好的预测模型；评估过程中使用到的评估指标包括ROC曲线下的区域AUC、以及精度和召回曲线下的区域AUPRC。

本发明的有益效果是：1、允许应用任何标准及其学习算法。2、与基于单一表示的方法相比，预测性能得到显著提高。

附图说明

图1是本发明实施例中学习方法的流程图；

图2是本发明实施例中随机子序列选择的算法实现示意图；

图3是本发明实施例中随机动态子序列选择的算法实现示意图；

图4是本发明实施例中使用SAX方法表示生成符号序列示意图；

图5是本发明实施例中每个数据集中所有临床测量序列的长度分布示意图；

图6是本发明实施例中19个数据集的平均预测性能示意图；

图7是本发明实施例中每个数据集中使用不同字母表大小的随机子序列模型的相对预测性能示意图；

图8是本发明实施例中a值在前5％，10％，20％特征中的分布示意图；

图9是本发明是实力中选定子序列长度的分布示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1至图3所示，本发明提供了一种基于EHR中异构时态数据的学习方法，包括如下步骤，

本实施例中，步骤S2中将各时间序列通过SAX算法表示成符号序列包括如下步骤，给定时间序列T；将时间序列T使用PAA算法获得实向量将的每个值映射到使用高斯分布定义的离散符号，获取的离散表示。所述时间序列T是在一个时间周期内进行的n个度量的有序集合，所述T表示为

本实施例中，所述SAX算法为符号聚合近似算法。

本实施例中，所述PAA算法包括如下步骤，给出固定参数w；将时间序列T表示在w维空间中得到实向量实向量表示为且的第i个元素计算如下，

本实施例中，获取实向量的离散表示包括如下步骤，定义一组α-1个分割点Β＝{β₁,...,β_α-1},使来自每对(β_i,β_i+1)高斯正态曲线下的面积等于1/a，其中α是字母表大小；假设β₀＝-∞，β_α＝∞，得到分割点后，中的PAA系数将映射到符号的序列，获取实向量的离散表示。

本实施例中，所述PAA算法为分段聚合近似算法。

本实施例中，采用原始序列方法建立预测模型包括如下步骤，使用SAX算法将每个时间序列转换为符号序列；在SAX算法中设置两个参数，维数w和字母表大小a；通过将SAX算法应用于每个特征，将由异构时间序列组成的第一数据集转换为包含不同长度序列的第二数据集；采用分类器处理第二数据集，生成第一预测模型。

本实施例中，采用序列聚类方法建立预测模型包括如下步骤，在步骤S5获取第二数据集的基础上，以第二数据集作为特征；使用PAM算法对第二数据集进行聚类，获取第二预测模型。

本实施例中，所述PAM算法为中心点的划分算法。

本实施例中，使用PAM算法对第二数据集进行聚类包括如下步骤，在第二数据集中寻找K个有代表性的中心点；令各中心点在所属类中的对象与其他对象之间的平均异度度量最小；通过将各中心点在所属类中的对象分配到与其最近的中心点来构建K个类别；将第二数据集划分为K个类别后，第二数据集中属于同一类的序列被其中心点代替，用于获取第二预测模型。

本实施例中，利用最大化第二数据集的轮廓宽度自动选择K；所述是第二数据集中所有序列s(i)的平均值；

本实施例中，使用随机子序列方法建立预测模型，包括如下步骤，将特征从序列向量转换为原始序列与子序列之间的距离向量；使用IG评估生成的子序列，在子序列中选择IG最高的子序列；将特征转化为IG最高的子序列与原始序列之间的编辑距离，获取第三预测模型。

本实施例中，对长度为U的离散事件序列X，X的子序列S被定义为X中连续符号长度为l的抽样，使得l≤U,即S＝{xq,...xq+l-1},1≤q≤U-l+1。设D(·)是两个长度相同的离散事件序列的距离函数。给定长度为U的目标序列X和长度为l的序列S，l≤U，S到X的距离函数D(·)定义如下：

其中S’是长度为l的时间序列X的子序列。D(·)可以是字符串匹配的任意距离函数，本研究使用编辑距离，也被称为Levenshtein距离。

本实施例中，考虑由K类组成的离散序列数据集D，设P(C_i)为属于C_i类的序列的比例，D的熵定义为

将D划分为m个不相交的子集D₁,...D_m，D的总熵定义为

因此，数据集D上的特定分区策略sp的信息增益定义为

通过使用子序列，具有不同长度的原始序列的问题得到解决，因为长度不同的两个序列只要有相同的代表性子序列，相互之间就是有关的。对于每个特征，将特征从序列向量转换为原始序列与子序列之间的距离向量；使用IG评估生成的子序列，在子序列中选择IG最高的子序列；将特征转化为IG最高的子序列与原始序列之间的编辑距离。

本实施例中，所述IG为信息增益。

本实施例中，所述随机子序列方法在选择子序列时，可以通过使用随机动态子序列，使用可变字母表大小扩展随机子序列模型；将不同a值(2、3和5)的SAX表示应用于每个临床测量，然后从使用不同a值创建的序列组中选择一个子序列。

本实施例中，采用十折交叉验证方法评估三个预测模型的预测性能，确定预测性能最好的预测模型；评估过程中使用到的评估指标包括ROC曲线下的区域AUC、以及精度和召回曲线下的区域AUPRC。

本实施例中，随机子序列选择的算法实现见图2，随机动态子序列选择的算法实现见图3。

实施例二

如图4至图5所示，通过对药品不良事件检测的实证研究，评估预测模型的预测性能。从斯德哥尔摩EPR语料库中获取实验数据：包括11623种不同的诊断(由ICD-10码编码)，1564种不同的药物(由ATC码编码)，1877种来自实验室测试的临床测量数据和数以百万计的免费临床注释。ICD-10诊断代码用于表示ADE的存在，并根据在住院期间诊断ADE的方法进行分类；总共选择了19个与ADE相关的诊断代码，并根据ADE相关诊断代码的存在来提取健康记录；因此，创建了19个对应的数据集，以目标ADE的存在与否作为类标签；在每个数据集中，阳性是患者被分配了一个特定ADE诊断代码，阴性是患者被分配了一个与相关ADE对应代码相似但不同的代码；每个特征构成了每位患者在特定的时间周期中获得的时间序列数据，为每位病人规定的时间周期相同，但由于时间间隔不包括在序列中，如图4所示，图4为使用SAX方法表示生成符号序列，每个序列的长度实际上是由这段时间内发生事件的数量决定的；因此，这些序列通常具有不同的长度；图5给出了每个数据集中所有临床测量序列的长度分布。

本实施例中，设计了一系列的实验来研究所提出的方法在分类任务中处理异构时间序列作为特征的影响，根据患者的临床测量确定是否应该诊断为特定的ADE患者。

本实施例中，第一个实验评估三组9个模型的预测性能；每组包含a值为2、3和5的SAX表示得到的数据集；第一组模型使用SAX表示得到的序列作为特征，用原始序列表示；第二组模型使用序列聚类得到的中心点作为特征，用序列聚类表示；第三组以序列与其对应的随机子序列之间的编辑距离作为特征，用随机子序列表示。第二个实验比较随机动态子序列作为特征与序列长度作为特征的模型；序列长度是指序列中符号的数量，不考虑时间序列的序列信息；后续实验通过变量重要度分析对随机动态子序列模型进行研究，得到使用不同a值生成的子序列中，最好的代表相应临床测量动态表示的子序列。最后一个实验使用领域知识创建序列；然后评估以这种方式创建序列的原始序列、聚类序列和随机子序列；将使用领域知识和学习序列得到的模型进行比较，得到最好的预测模型。

本实施例中，采用随机森林算法作为底层分类器评估所提出的方法；使用基尼重要性评分进行估计；较高的基尼重要性评分意味着变量将数据划分为定义的类别时起着更大的作用；基尼重要性评分为零表示变量从未被选择来构建任何树木。

使用十折交叉验证对生成的预测模型进行评估；使用的性能评估指标是ROC曲线下的区域(AUC)；ROC曲线代表敏感性(真阳性率)和1-特异性(假阳性率)之间的一种权衡，前者衡量有多少阳性被识别为阳性，后者衡量有多少阴性被识别为阳性。使用的另一个评估指标是精度和召回曲线下的区域(AUPRC)；AUPRC表示精度与召回之间的关系，描述了对每个召回阈值，精度高于召回的概率；精度测量有多少被识别为阳性的是真阳性；AUPAR对分类问题非常敏感，并且当阳性类别远小于阴性类别的数量，但比阴性类别更加引起关注时会被优先考虑。采用Wilcoxon符号秩检验评估两个模型的统计显著性；Friedman检验用于性能相等的所有模型零假设的统计检验，然后使用Bergmann-Hommel过程事后检验，以便进行两两比较。

实施例三

如图6至图9所示，本发明实施例中，上述实验的对应结果如下：比较原始序列、序列聚类和随机子序列；使用字母表大小a分别为2、3和5的原始序列、聚类序列和随机子序列这三种方法建立了9个预测模型；图6给出了19个数据集的平均性能得分。可以看出，对于选定的a，模型的选择并不总是对预测性能产生显著的影响。但总体来说，使用随机子序列模型可以获得最好的预测性能。

本实施例中，图7给出了每个数据集中使用不同字母表大小的随机子序列模型的相对预测性能；从图中看到，没有迹象表明一个特定的a值在所有或大多数数据集中是最有效的。因此使用随机动态子序列方法为数据集中的每个特征寻找最合适的a值。

本实施例中，比较随机动态子序列与序列长度。使用随机动态子序列和序列长度创建特征的随机森林模型的结果见表1；得到随机动态子序列优于序列长度，相比于序列长度，使用随机动态子序列方法时，AUC平均提高了5％，AUPAR平均提高了15％。

表1

本实施例中，根据基尼重要性评分计算每个特征的变量重要度后，对所有特征进行相应的排序。图8显示了三个a值在按变量重要性排列的前5％、10％、20％的特征中的分布情况。结果表明，大多数排名靠前的特征都是通过a值为2的SAX表示进行转换的。

本实施例中，图9给出了每个数据集所选子序列长度的分布情况。每块颜色反映了所选子序列在x轴上具有相应长度的临床测量数。得到最长的子序列有20个符号，大多数所选子序列的长度较短。

本实施例中，使用领域知识创建序列。比较领域知识创建序列的原始序列、序列聚类和随机子序列。表2的结果表明，模型的选择具有显著的影响，随机子序列的性能最好，原始序列的性能最差。表3总结了事后分析，给出三种模型之间两两比较的结果。除了序列聚类和随机子序列的AUPAR结果外，每对模型之间的差异都具有统计学意义。

表2

表3

本实施例中，比较使用领域知识创建序列的随机子序列(见表2中的RS)和随机动态子序列(见表1中的RDS)，得到AUC(p-值为0.04)和AUPAR(p-值为0.0006)，因此随机动态子序列作为特征的随机森林模型的预测性能较好。

综上所述，在真实世界EHR数据库中验证了预测模型的有效性；研究表明，使用标准机器学习算法可以有效地利用不同长度的时间序列作为特征建立预测模型。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明通过提供一种基于EHR中异构时态数据的学习方法，实现了将原始EHR数据转换为用标准机器学习算法直接处理的表格格式，允许直接应用任何标准机器学习算法；与基于单一表示的方法相比，该方法获取的预测模型的预测性能得到显著提高。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于EHR中异构时态数据的学习方法，其特征在于：包括如下步骤，

2.根据权利要求1所述的基于EHR中异构时态数据的学习方法，其特征在于：步骤S2中将各时间序列通过SAX算法表示成符号序列包括如下步骤，

给定时间序列T；

将时间序列T使用PAA算法获得实向量

3.根据权利要求2所述的基于EHR中异构时态数据的学习方法，其特征在于：所述PAA算法包括如下步骤，

给出固定参数w；

将时间序列T表示在w维空间中得到实向量

4.根据权利要求2所述的基于EHR中异构时态数据的学习方法，其特征在于：获取实向量的离散表示包括如下步骤，

5.根据权利要求1所述的基于EHR中异构时态数据的学习方法，其特征在于：采用原始序列方法建立预测模型包括如下步骤，

使用SAX算法将每个时间序列转换为符号序列；

在SAX算法中设置两个参数，维数w和字母表大小a；

采用分类器处理第二数据集，生成第一预测模型。

6.根据权利要求1所述的基于EHR中异构时态数据的学习方法，其特征在于：采用序列聚类方法建立预测模型包括如下步骤，

使用PAM算法对第二数据集进行聚类，获取第二预测模型。

7.根据权利要求6所述的基于EHR中异构时态数据的学习方法，其特征在于：使用PAM算法对第二数据集进行聚类包括如下步骤，

在第二数据集中寻找K个有代表性的中心点；

8.根据权利要求7所述的基于EHR中异构时态数据的学习方法，其特征在于：利用最大化第二数据集的轮廓宽度自动选择K；所述是第二数据集中所有序列s(i)的平均值；

9.根据权利要求1所述的基于EHR中异构时态数据的学习方法，其特征在于：使用随机子序列方法建立预测模型，包括如下步骤，

使用IG评估生成的子序列，在子序列中选择IG最高的子序列；

10.根据权利要求1至9任一所述的基于EHR中异构时态数据的学习方法，其特征在于：采用十折交叉验证方法评估三个预测模型的预测性能，确定预测性能最好的预测模型；评估过程中使用到的评估指标包括ROC曲线下的区域AUC、以及精度和召回曲线下的区域AUPRC。