CN111949704A

CN111949704A - 一种可解释的多维时序数据分析方法

Info

Publication number: CN111949704A
Application number: CN202010690245.7A
Authority: CN
Inventors: 姚振杰; 涂燕晖; 陈一昕
Original assignee: Network Communication and Security Zijinshan Laboratory
Current assignee: Network Communication and Security Zijinshan Laboratory
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-17

Abstract

本发明公开一种可解释的多维时序数据分析方法，包括S1、建立多维时序数据分析模型，分析模型为卷积神经网络，依次包括输入层、卷积层、隐层和输出层；S2、将不同时间点采集的多个指标数据作为输入数据输入分析模型，输入数据为n*k的矩阵，其中n为输入数据的维数，即指标数量，k为输入数据的采集次数；S3、分析模型输出一个或多个预测结果，对应不同建模任务；S4、对预测结果进行回溯，得到神经元的权重，进而得到组成该神经元的输入数据维度和变化模式的权重，使得分析模型具有可解释性。本发明的这种自适应模式匹配机制可以充分挖掘各个指标的变化趋势，进而提升数据分析模型的预测能力。

Description

一种可解释的多维时序数据分析方法

技术领域

本发明涉及数据处理技术领域，尤其是一种可解释的多维时序数据分析方法。

背景技术

实际生活中，有些指标的具体数值很重要，但只看具体数值并不能反映相应指标的发展趋势，从而不能做出准确判断。比如，三个人的体检结果，收缩压都是145mmHg，如果按照静态值来看，三者没有区别，都是一级高血压。但是，如果考虑变化趋势，查看多年的体检结果，A是多年高血压，收缩压长期超过170mmHg；B的收缩压长期稳定在140mmHg附近；而C的收缩压之前一直是是正常的，低于120mmHg。那么我们可以得出截然不同的结论，A是成功的降低了血压，心血管健康状况有了显著的改善；B是较成功的控制了自己的高血压病情；而C是心血管健康状况急剧恶化。

现有的多维时序分析方法分为两类，一类是传统的统计学方法，例如Logistic回归、COX回归等，这种方法的预测性能较低，结果难以令人满意。另一类方法是基于机器学习方法，例如神经网络、集成学习等，尤其是深度学习方法，可以得到比传统方法更好的性能。但这类方法不能给出强的解释性。虽然部分机器学习方法，如随机森林和梯度提升树方法，可以给出某些特征的重要性，但是不能直接分析同一指标的时序变化趋势。

发明内容

为了克服现有技术中的上述缺陷，本发明提供一种多维时序数据分析方法，通过趋势分析神经网络(Trend Analysis Neural Networks，TANN)可以对各个指标的变化趋势进行建模和解析，实现更有效的预测和解析。

为此，本发明采用了以下技术方案：

一种多维时序数据分析方法，由处理器执行，包括以下步骤，

S1、建立多维时序数据分析模型，所述分析模型为卷积神经网络，依次包括输入层、卷积层、隐层和输出层；其中卷积层用于对多维输入数据进行模式匹配，模式匹配的结果有n*m种，其中n为输入数据的维数，m为卷积核的数量即模式数量；所述隐层相应的包括n*m个神经元，所述神经元由所述模式匹配的结果经过激活函数计算得到；所述输出层对所述隐层的神经元采用全连接层得到预测结果；

S2、将不同时间点采集的多个指标数据作为输入数据输入所述分析模型，所述输入数据为n*k的矩阵，其中n为输入数据的维数，即指标数量，k为输入数据的采集次数；

S3、所述分析模型输出一个或多个预测结果，对应多个建模任务；

S4、对所述预测结果进行回溯，得到所述神经元的权重，进而得到组成该神经元的输入数据维度和模式的权重，进而实现所述分析模型的可解释性。

进一步，S1中所述根据卷积核的数量m得到多个变化趋势具体为，所述卷积核的尺寸为1*k，则变化趋势数量为m*k。

进一步的，所述激活函数为非线性激活函数。

进一步的，在S1之后还包括对所述卷积神经网络进行训练的步骤，具体为，重复对所述神经元的参数W和b按照以下公式进行更新，

其中W为权值矩阵，b为偏置值，W'为更新后的权值矩阵，b'为更新后的偏置值，C为损失函数，η为学习率参数，取值区间为(0,1)。

进一步，将所述损失函数C最小化，实现参数W和b的优化。

进一步，所述输入数据的指标为人体体征指标。

本发明的这种自适应模式匹配机制可以充分挖掘各个指标的变化趋势，进而提升数据分析模型的预测能力。传统的机器学习方法和生存分析方法并不具备这种能力，无法对指标变化趋势进行建模，因此本发明的趋势分析神经网络具备传统方法无法比拟的优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多维时序数据分析方法使用的TANN网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如背景技术中所说的那样，合理的多维时序数据分析方法应该不仅能考虑绝对值，而且要考虑指标的变化趋势。好的趋势建模方法应该可以合理的表示趋势，发现危险的趋势，并解析模式。

本实施例提出一种多维时序数据分析方法，可以对各个指标的变化趋势进行建模和解析，实现更有效的预测和解析，包括以下步骤：

S1、建立多维时序数据分析模型，所述分析模型为卷积神经网络，依次包括输入层、卷积层、隐层和输出层，如图1所示。其中卷积层用于对多维输入数据进行模式匹配，模式匹配的结果有n*m种，其中n为输入数据的维数，m为卷积核的数量即模式数量；隐层相应的包括n*m个神经元，所述神经元由模式匹配的结果经过激活函数计算得到；所述输出层对所述隐层的神经元采用全连接层得到预测结果。

通过观察TANN的网络架构可以发现，卷积核与输入数据指标的纵向变化序列进行卷积。由于卷积核的尺寸与序列尺寸一致，都是k，实际操作是一个点积。由此得到的输出值，经过激活函数后作为隐层的一个神经元，每个卷积核得到n个隐层神经元。这种点积可以理解为一种模式匹配，每个隐层神经元都代表了一个指标的变化趋势与一个模式的匹配程度。隐层一共有n*m个神经元，就代表了n个指标的变化趋势与m个模式的匹配程度。

在本实施例中，激活函数为非线性激活函数，如sigmoid函数，tanh函数，ReLU函数等。上述激活函数和将隐层的节点经过激活函数即进行非线性变换的过程均为现有技术，本领域技术人员无需进行创造性劳动，即可选用上述某一种激活函数对隐层节点进行分线性变换，因此不再展开描述。

S2、将不同时间点采集的多个指标数据作为输入数据输入分析模型，输入数据为n*k的矩阵，其中n为输入数据的维数，即指标数量，k为输入数据的采集次数。

如图1所示，输入层的X为某个个体多次体检的数据，作为网络输入，包括如血压、肌酐、房颤、体重等n个指标，k为在不同时间点采集上述n个指标的次数，X形式上是一个n行k列的矩阵。

卷积层的卷积核尺寸为1*k，可以理解为k次测量的变化趋势，本实施例中有m个不同的卷积核，即m*k个不同的变化趋势。

然后卷积核与输入数据X进行卷积，每个卷积核可有n*1种模式匹配结果。将m个卷积核的模式匹配结果连接起来，组成了m*n个结果，此即为隐层的神经元数量。

S3、分析模型输出一个或多个预测结果，预测结果的数量P根据需要由用户自行确定，对应P个任务，P大于等于1。

S4、对所述预测结果进行回溯，得到所述神经元的权重，进而得到组成该神经元的输入数据维度和模式的权重。

通过以上对TANN的深入分析，可以得知隐层的每个神经元代表某个指标的变化趋势与可训练模式的匹配程度。换言之，这一层的每个神经元都是有物理意义的，这为解释模型提供了可能。通过从输出层向隐层回溯，权重大的隐层神经元对分类更有意义。确定了一个神经元后，我们可以继续向前回溯，找到对应的指标项和对应的模式，每个神经元都对应了唯一的指标项和唯一的变化模式。如图1中h22对应的第2个指标项，和第2个模式项。这样一来，我们就可以实现全面的解释性，即得出何种指标的何种变化模式对最终的预测结果影响最大。

通常的，每种变化模式(卷积核)都是通过训练得到的。通过对TANN网络的训练，可以得到对分类效果最好的模式，这种自适应的模式匹配机制可以充分挖掘各个指标的变化趋势，进而提升模型的预测能力。传统的机器学习方法和生存分析方法并不具备这种能力，无法对指标变化趋势进行建模，因此TANN具备传统方法无法弥补的优势。

在一些实施方式中，对卷积神经网络进行训练采用反向传播算法，即通过训练数据进行学习，不断调整神经网络中的神经元。具体为，重复对神经元的参数W和b按照以下公式进行更新，

损失函数C需先定义，损失函数有多种，下面分别是二值交叉熵和类别交叉熵。

其中，y_i表示目标值，

表示输出期望值。

采用梯度下降法修正系统参数，最小化损失函数即可实现参数优化。

本实施例的多维时序数据分析方法不但可应用于健康趋势预测，还可以对通信网络、股票市场和交通流量等场景中的不良事件预测和趋势分析。下面以人体健康趋势预测为例，进一步说明本实施例。

为了衡量分析性能，采用一个多维时序数据的实例(三次体检数据)进行死亡预测，采用灵敏度(Sensitivity)，特异度(Specificity)和精度(Accuracy)三个指标衡量算法性能，定义如下：

Sensitivity＝TP/(TP+FN),

Specificity＝TN/(TN+FP),

Acc＝(TP+TN)/(TP+FN+TN+FP),

其中TP为房颤被正确检测的数量，FN为房颤被检测为非房颤的数量，TN为非房颤检测为非房颤的数量，FP为非房颤被检测为房颤的数量。

AUC是检测器ROC曲线的线下面积，其值越大，说明检测性能越好。经过多次试验，证明TANN的预测性能远优于传统统计方法，AUC较传统逻辑回归和随机森林改善约6％，而较COX回归改善约3％。

步骤1、输入数据为原始多维时序数据，例如，三次体检，每次检查30个指标，那么输入数据就是30行3列的矩阵。

步骤2、取128个长度为3的卷积核，也就是128个趋势模板，分别于每个指标的3次测量做匹配，可以得到30*128个匹配结果，经过激活函数，作为隐层单元。

步骤3、3840个隐层单元与后面的任务作为输出，假设只预测1个单元，P＝1，即只需要一个输出神经元，输出1则为死亡，输出0则为不死亡。实际还可以输出多个预测结果，除了简单预测是否有死亡风险，还可以输出是否有某种疾病的预测结果以及是否需要立即住院的建议。用户可根据需要调整任务数量，即预测结果的数量P。

网络采用反向传播算法进行训练：即通过训练数据进行学习，不断调整神经网络中的神经元(以权值矩阵W和偏置b表示)。首先定义损失函数C，采用梯度下降法修正系统参数，最小化损失函数即可实现参数优化。具体更新公式为

通过回溯，可以找到重要的指标变化趋势，表1列出了死亡相关的重要指标的变化趋势。这些重要趋势可以帮助专家从全新的角度对数据进行审视，为事件发生原因提供了新的解释。

表1死亡预测模型的重要趋势

指标	权重	卷积核	提示风险因素
				TC	-0.1267	-0.1221 -0.1275 0.0865	总胆固醇快速下降
TG	0.1167	0.0888 0.07990 -0.1088	甘油三酯快速下降
				Cr	-0.1031	-0.0338 -0.0713 -0.1445	肌酐快速升高
PLT	-0.0995	-0.0191 -0.0078 -0.1290	血小板计数快速升高
				WT	0.0983	0.0904 -0.0678 -0.0623	体重快速下降后保持在低水平

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种可解释的多维时序数据分析方法，由处理器执行，其特征在于，包括以下步骤，

S3、所述分析模型输出一个或多个预测结果，对应不同的建模任务；

S4、对所述预测结果进行回溯，得到所述神经元的权重，进而得到组成该神经元的输入数据维度和模式的权重，实现所述分析模型的可解释性。

2.根据权利要求1所述的多维时序数据分析方法，其特征在于，S1中所述根据卷积核的数量m得到多个变化趋势具体为，所述卷积核的尺寸为1*k，则变化趋势数量为m*k。

3.根据权利要求1所述的多维时序数据分析方法，其特征在于，所述激活函数为非线性激活函数。

4.根据权利要求1所述的多维时序数据分析方法，其特征在于，在S1之后还包括对所述卷积神经网络进行训练的步骤，具体为，重复对所述神经元的参数W和b按照以下公式进行更新，

5.根据权利要求4所述的多维时序数据分析方法，其特征在于，将所述损失函数C最小化，实现参数W和b的优化。

6.根据权利要求1～5任一项所述的多维时序数据分析方法，其特征在于，所述输入数据的指标为人体体征指标。