CN108304446A

CN108304446A - 一种健康体检生理时间序列数据的可视化表示方法、存储介质

Info

Publication number: CN108304446A
Application number: CN201711283984.9A
Authority: CN
Inventors: 潘国栋; 霍晓军; 吴栋; 周琳; 戚伟; 孟纪元; 赵磊; 王建安; 李永; 孙朝阳; 张延莉; 马卫
Original assignee: Henan Electric Power Hospital
Current assignee: Henan Electric Power Hospital
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-07-20

Abstract

本发明提供一种健康体检生理时间序列数据的可视化表示方法，包括（1）SAX离散化：将长度为L的原始时间序列T进行标准化后划分为L/n个子区间，对每个子区间计算均值，然后使用SAX方法中的对应等概率高斯分布区间映射为相应的a个字符，即对应离散的a个区间；（2）构建马尔科夫转移矩阵：计算所述a个区间上的转移概率，得到a×a马尔科夫转移矩阵；（3）可视化：将所述a×a马尔科夫转移矩阵作为a×a带权重的邻接矩阵，得到a个节点的有向图复杂网络，采用可视化工具对所述有向图复杂网络进行图形化表示。本发明首次提出了将基于SAX的离散化方法用于时间序列的马尔科夫矩阵转化；首次将复杂网络与时间序列挖掘结合起来。

Description

一种健康体检生理时间序列数据的可视化表示方法、存储介质

技术领域

本发明涉及一种健康体检生理时间序列数据的可视化表示方法。

背景技术

时间序列数据广泛存在于科学研究、生产过程与金融服务等领域中，尤其是近年来随着信息技术的应用与发展，时间序列数据也呈现出爆发性增长的趋势，海量的数据处理与应用工作日益增多。对于健康体检领域来讲，ECG等时间序列是非常常见的生理数据。时间序列数据通常具有高维的特征，而且由于在产生过程中环境因素的影响，极易存在一定的噪声。因此，对于此类复杂数据进行研究，从而有效地挖掘和获取信息与知识，无论对于科学理论研究还是社会生产实践都具有重要的价值与意义。

在大量的与时间序列数据有关的问题中，人们试图研究物理现象随时间动态变化的过程，并期望对时间序列数据进行分类、模式发现等任务处理。在对时间序列数据进行处理分析的过程中，时间序列数据的可视化是较为有效的方法之一，该方法将时间序列数据映射为可视图像或直观图形符号，这种映射大大方便了对原始数据的分析和解释过程，有利于揭示隐藏在数据中不易被直观发现的复杂物理现象。然而，数据测量、收集或求解过程所得到的数据量往往是海量的，由于时间序列具有高维特性，而且数据中往往存在大量的噪声信息，因此在数据挖掘和知识获取过程中，为了减少计算代价、提高数据挖掘与信息获取效率，往往需要对原始数据采用某种特征表示方法进行特征提取，以便于将原始时间序列数据映射到新的低维特征空间中，从而在保持和反映基本形态和信息的前提下，达到数据降维、去除噪声的目的。

特征是隐含在数据集合中的任何有助于解释相应物理现象的信息。基于特征的表示方法是一种更简洁、更清晰、更具含义的代替原始数据的高级表示方法，所抽取的特征用于进一步分析及可视化过程。以可视化的方式来展现时间序列的预测结果可为终端用户带来极大的便利，为此，时间序列数据预测的可视化研究也成为热点之一。通过使用恰当的可视化方式可以对各种数据进行可视化处理，可视化后的数据，将使用户可以直观地发现数据特征与数据隐含的依赖关系，为数据分析人员提供很好的帮助。

作为时间序列数据挖掘与分析处理任务的基础，时间序列的特征表示和相似性度量是热点问题之一。Pazzani和Agrawal研究小组较早开展相关的研究，UCR的Keogh小组做出了一系列创造性的研究工作。目前在该领域的研究过程中，已产生较多种特征提取及表示方法，如基于域变换的表示方法、符号化表示方法以及分段线性表示方法等。

在已有的时间序列数据可视化研究方法中，Andriana S.L.O.Campanharo,M.Irmak Sirer,R.Dean Malmgren,Fernando M.Ramos,Lu1′s A.Nunes Amaral于2011年所提出并发表在PLoS ONE上的方法较为新颖简洁直观，该方法基于分位数算法将时间序列进行离散化特征表示，然后将其与网络图及马尔科夫转移矩阵相结合，在原始序列、离散化特征表示、网路图、转移概率矩阵之间建立联系，在时间序列与网络图之间建立关联，从而可以对时间序列进行网络化表示，进而以图的方式进行可视化展示。该方法的基本原理与过程如图1所示。

图1所示的方法中分位数离散化的过程是，首先将根据时间序列的值域划分为a个区间，然后计算时间序列在这a个区间上的转移概率，随后将每个区间作为一个节点，转移概率作为权值，然后采用一定的算法将其转换为网络图，从而得到可视化的图形表示。

时间序列本身固有的特征(复杂性、随机性、噪声、非线性等等)使得对其进行精确预测以及可视化变得相当困难。时间序列数据往往是高维的，可以通过特征压缩的方式将高维的数据压缩为低维的数据，从而达到可视化的目的。然而，很多特征压缩算法会导致分类信息的丢失，导致降维后数据分类能力的下降。采用分位数方法进行时间序列的离散化，进而进行可视化表示，思想简单直观，但存在的问题一方面是信息损失较大，另一方面是KL距离相对较大，即在反映原始时间序列方面精度存在偏差。

发明内容

本发明要解决的技术问题在于提供一种基于符号化特征表示的时间序列数据可视化表示方法，对于ECG等生理特征数据，在满足数据降维、去除噪声的前提下，尽可能降低信息损失，逼近精度更接近于原始数据分布，从而取得更好的可视化效果，并有利于分类与预测。

为解决上述技术问题，本发明采用以下技术方案：

一种健康体检生理时间序列数据的可视化表示方法，包括以下步骤：

(1)SAX离散化：将长度为L的原始时间序列T进行标准化后划分为L/n个子区间，对每个子区间计算均值，然后使用SAX方法中的对应等概率高斯分布区间映射为相应的a个字符，即对应离散的a个区间；

(2)构建马尔科夫转移矩阵：计算所述a个区间上的转移概率，得到a×a马尔科夫转移矩阵；

(3)可视化：将所述a×a马尔科夫转移矩阵作为a×a带权重的邻接矩阵，得到a个节点的有向图复杂网络，采用可视化工具对所述有向图复杂网络进行图形化表示。

所述步骤(1)中将原始时间序列转换为SAX表示的具体步骤为：

a)原始时间序列规格化：将原始时间序列C＝{c₁,c₂,...,c_n}转换为标准序列C′＝{c₁′,c₂′,...,c_L′}，标准序列C'的均值为0、标准差为1；

其中，C_L表示第L个时间序列的子序列；

b)数据降维：利用公式对C'进行PAA表示，其中w为时间序列PAA表示的分段数，得到

其中，其中c_i′和c_j′为标准序列的第i个和第j个子序列；

c)离散化字符表示：依据选定大小的字母集，利用高斯分布表来查找区间分裂点，将PAA映射转换为相应字符，得到离散化目标字符串。

所述步骤(3)中可视化工具采用Gephi复杂网络分析软件进行图形化表示。

一种存储介质，所述存储器上存储有能够被处理器执行的指令，所述指令用于执行上述的方法。

本发明的有益效果：

1、首次提出了将基于SAX的离散化方法用于时间序列的马尔科夫矩阵转化；

2、采用时间序列的马尔科夫矩阵转化方法定量研究ECG等生理数据时间序列的分类问题，架起时间序列数据挖掘与可视化分析之间的桥梁；

3、首次将复杂网络与时间序列挖掘结合起来,为时间序列数据的挖掘与分析提供了新的工具与方向。

附图说明

图1为基于SAX离散化与马尔科夫转移矩阵的时间序列可视化方法的示意图。

图2为本发明所采用的SAX表示方法对ECG数据处理的SAX离散化特征表示示意图。

图3为本发明所采用的ECG数据集SAX离散化复杂网络图(1)。

图4为本发明所采用的ECG数据集SAX离散化复杂网络图(2)。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

在时间序列数据的表示方法中，符号化表示是一种有效的离散化时间序列降维方法。由于字符型数据可以很好地描述一些难以使用具体定量数据来表示的问题，同时，由于字符串具有特定的数据结构以及众多较为成熟的算法，近年来研究者开始对时间序列的符号化表示方法进行研究和关注。其中，由Lin等人提出的SAX(Symbolic AggregateapproXimation，符号化聚合近似)方法被认为是一种最为典型的符号化表示方法。该方法基于PAA(Piecewise Aggregate Approximation，分段聚合近似)方法，将时间序列进行分段均值，之后将这些均值转化为离散化的字符表示，从而达到了降维降噪的目的，而且其符号化距离度量方法还满足了下界要求。

实验证明，SAX方法能够有效降维以及进行相似性度量，且满足下边界引理，在时间序列的分类、聚类、模式发现等数据挖掘任务中表现出了良好的性能。因此，本发明将基于SAX方法的时间序列特征表示作为时间序列可视化研究的基础，在此基础上，将符号化特征表示转换为马尔科夫转移矩阵，然后利用复杂网络建立时间序列的图形化表示，达到时间序列数据可视化表示的目的。不仅如此，可视化表示的结果可以运用于时间序列数据挖掘的分类问题，从而为该类问题的研究与分析提供了新的工具与方向。

本发明的具体步骤如下：

1)SAX离散化

对于SAX离散化过程，遵从标准SAX方法，将长度为L的原始时间序列C进行标准化后划分为长度为n的L/n个子序列，将每个子序列划分为w段，计算每段的均值后按照SAX方法中的对应等概率高斯分布区间，将其根据均值分别映射为相应的a个字符中的其中一个字符，即可对应离散的a个区间。n，w，a均为人为设定的参数，如下文所描述。

其中，将一个时间序列C转换为SAX表示的步骤为：

a)原始序列规格化。将时间序列C＝{c₁,c₂,...,c_L}转换为标准序列C′＝{c₁′,c₂′,...,c_L′}(C′均值为0、标准差为1)；该过程为现有技术，不再赘述；C_L表示第L个时间序列的子序列。

b)数据降维。对每一个长度为n的子序列，利用公式对标准序列C′进行PAA表示，得到其中w为子序列PAA表示的分段数，其中c_i′和c_j′为标准序列的第i个和第j个子序列。

c)离散化字符表示。依据选定大小为a的字符集，利用高斯分布表来查找区间的分裂点，从而将PAA映射转换为相应字符，最终得到离散化目标字符串。

采用基于SAX方法对时间序列数据进行特征表示及有效降维时，需要设定参数簇(n，w,a)，三个参数分别表示窗口长度n，窗口内符号串(单词)长度w和字母表大小a。不同的参数簇设定将产生不同的SAX数据表示：从数据中提取的每个单词(pattern)对应的范围随着窗口长度n的增大而增加，较大的n值会产生低解析度表示，较小的n会产生高解析度表示，而改变w值对解析度的影响效果则相反；较大字母表a会将窗口内的值映射到更多更细的区间，而较小的字母表则会提高对于噪声和异常值的容忍度。参数a的取值，即对应着状态转换的a个区间。

图2以UCR(University of Califonia,Riverside，加州大学河滨分校)数据集中的ECG(Electrocardiograph，心电图)数据为例，给出了SAX离散化的示意图。本例中，n＝96，w＝5，a＝5，该时间序列被映射为ABDED。

2)构建马尔科夫转移矩阵

根据SAX离散化表示的结果，计算这a个区间上的转移概率，得到a×a马尔科夫转移矩阵。

例如，对于简单时间序列T：

T＝{50,8,4,10,9,1}

假设a＝2，同时假设子区间长度n＝1，

a、将T划分为6/1＝6个子区间,进行Z标准化后得到：

T_z＝{2.0054,-0.3128,-0.5335,-0.2024,-0.2576,-0.6991}；

b、确定标准高斯分布的a个等概率区间t₁＝[-∞,0],t₂＝(0,∞]；

c、将时间序列T_Z映射到等概率的a段空间上,得到

d、根据映射后的时间序列T,计算马尔科夫转移矩阵：

3)可视化

得到了马尔科夫转移矩阵后，可以根据马尔科夫矩阵进行可视化。基本思想非常简单直观，即将a×a马尔科夫转移矩阵作为a×a带权重的邻接矩阵，得到a个节点的有向图复杂网络，采用可视化工具对所述有向图复杂网络进行图形化表示。a×a带权重的邻接矩阵中的每个权重M_ij表示时间序列从区间i转移到区间j的概率。

上述进行时间序列数据的可视化方法与工具，包括树图、雷达图、日历图、ThemeRiver、地图结合表达法等。Gephi是一个应用于各种网络、复杂系统和动态分层图的开源交互可视化平台，堪称为一款数据可视化利器。本发明可视化工具采用Gephi等复杂网络分析软件进行图形化表示。复杂网络的layout算法采用Gephi中的Force Atlas算法，该算法能够根据边与节点的权重以网络结构更好的传导塑形引力与排斥力，从而从图形上更好的反应网络的拓扑结构与统计特性。layout主要参数包括:Repulsion Strength，Attraction Strength，Maximum Displacement，以及Gravity。通过设置以上参数的取值，可以得到相应的图形化表示。

本发明还提供一种存储介质，该存储介质运行上述本发明描述的健康体检生理时间序列数据的特征提取及可视化表示方法的指令；该存储主介质上存储的指令能够被处理器执行。

上述的存储介质包括各种形式的计算机可读介质，例如易失性存储器和费易失性存储器，或者半导体存储介质、光存储介质等。

上述的处理器可执行上述的指令程序，可选择中央处理单元CPU或者FPGA或者其它处理单元。

本发明以SAX方法为基础对ECG等健康体检生理数据等时间序列数据进行特征表示及降维，然后将结果与马尔科夫转移矩阵相对应，之后将其转化为复杂网络并以图形化方式进行表示，这个过程清晰明确。其优点及效果主要体现在：

(1)SAX方法自身比较直观简单。SAX方法简单易用，能够有效降维以及进行相似性度量，且满足下边界引理，在时间序列的分类、聚类、模式识别与发现以及可视化中具有良好的性能。

(2)时间序列离散化后对应的马尔科夫转移矩阵，能够较好抽取时间序列的统计特征。

(3)根据马尔科夫转移矩阵生成的复杂网络，可以进行直观与良好的可视化分析。

采用Gephi等相关可视化工具，并采用其所提供的相关layout算法，可以提高可视化工作效率，并取得简洁直观的可视化效果。

Claims

1.一种健康体检生理时间序列数据的可视化表示方法，其特征在于包括以下步骤：

2.根据权利要求1所述的时间序列数据的可视化表示方法，其特征在于：所述步骤(1)中将原始时间序列转换为SAX表示的具体步骤为：

其中，C_L表示第L个时间序列的子序列；

其中，其中c_i′和c_j′为标准序列的第i个和第j个子序列；

3.根据权利要求1所述的时间序列数据的可视化表示方法，其特征在于：所述步骤(3)中可视化工具采用Gephi复杂网络分析软件进行图形化表示。

4.一种存储介质，其特征在于：所述存储器上存储有能够被处理器执行的指令，所述指令用于执行如权利要求1～3任一项所述的方法。