CN111949704A - 一种可解释的多维时序数据分析方法 - Google Patents

一种可解释的多维时序数据分析方法 Download PDF

Info

Publication number
CN111949704A
CN111949704A CN202010690245.7A CN202010690245A CN111949704A CN 111949704 A CN111949704 A CN 111949704A CN 202010690245 A CN202010690245 A CN 202010690245A CN 111949704 A CN111949704 A CN 111949704A
Authority
CN
China
Prior art keywords
input data
analysis model
layer
index
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010690245.7A
Other languages
English (en)
Inventor
姚振杰
涂燕晖
陈一昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Network Communication and Security Zijinshan Laboratory
Original Assignee
Network Communication and Security Zijinshan Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Network Communication and Security Zijinshan Laboratory filed Critical Network Communication and Security Zijinshan Laboratory
Priority to CN202010690245.7A priority Critical patent/CN111949704A/zh
Publication of CN111949704A publication Critical patent/CN111949704A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种可解释的多维时序数据分析方法,包括S1、建立多维时序数据分析模型,分析模型为卷积神经网络,依次包括输入层、卷积层、隐层和输出层;S2、将不同时间点采集的多个指标数据作为输入数据输入分析模型,输入数据为n*k的矩阵,其中n为输入数据的维数,即指标数量,k为输入数据的采集次数;S3、分析模型输出一个或多个预测结果,对应不同建模任务;S4、对预测结果进行回溯,得到神经元的权重,进而得到组成该神经元的输入数据维度和变化模式的权重,使得分析模型具有可解释性。本发明的这种自适应模式匹配机制可以充分挖掘各个指标的变化趋势,进而提升数据分析模型的预测能力。

Description

一种可解释的多维时序数据分析方法
技术领域
本发明涉及数据处理技术领域,尤其是一种可解释的多维时序数据分析方法。
背景技术
实际生活中,有些指标的具体数值很重要,但只看具体数值并不能反映相应指标的发展趋势,从而不能做出准确判断。比如,三个人的体检结果,收缩压都是145mmHg,如果按照静态值来看,三者没有区别,都是一级高血压。但是,如果考虑变化趋势,查看多年的体检结果,A是多年高血压,收缩压长期超过170mmHg;B的收缩压长期稳定在140mmHg附近;而C的收缩压之前一直是是正常的,低于120mmHg。那么我们可以得出截然不同的结论,A是成功的降低了血压,心血管健康状况有了显著的改善;B是较成功的控制了自己的高血压病情;而C是心血管健康状况急剧恶化。
现有的多维时序分析方法分为两类,一类是传统的统计学方法,例如Logistic回归、COX回归等,这种方法的预测性能较低,结果难以令人满意。另一类方法是基于机器学习方法,例如神经网络、集成学习等,尤其是深度学习方法,可以得到比传统方法更好的性能。但这类方法不能给出强的解释性。虽然部分机器学习方法,如随机森林和梯度提升树方法,可以给出某些特征的重要性,但是不能直接分析同一指标的时序变化趋势。
发明内容
为了克服现有技术中的上述缺陷,本发明提供一种多维时序数据分析方法,通过趋势分析神经网络(Trend Analysis Neural Networks,TANN)可以对各个指标的变化趋势进行建模和解析,实现更有效的预测和解析。
为此,本发明采用了以下技术方案:
一种多维时序数据分析方法,由处理器执行,包括以下步骤,
S1、建立多维时序数据分析模型,所述分析模型为卷积神经网络,依次包括输入层、卷积层、隐层和输出层;其中卷积层用于对多维输入数据进行模式匹配,模式匹配的结果有n*m种,其中n为输入数据的维数,m为卷积核的数量即模式数量;所述隐层相应的包括n*m个神经元,所述神经元由所述模式匹配的结果经过激活函数计算得到;所述输出层对所述隐层的神经元采用全连接层得到预测结果;
S2、将不同时间点采集的多个指标数据作为输入数据输入所述分析模型,所述输入数据为n*k的矩阵,其中n为输入数据的维数,即指标数量,k为输入数据的采集次数;
S3、所述分析模型输出一个或多个预测结果,对应多个建模任务;
S4、对所述预测结果进行回溯,得到所述神经元的权重,进而得到组成该神经元的输入数据维度和模式的权重,进而实现所述分析模型的可解释性。
进一步,S1中所述根据卷积核的数量m得到多个变化趋势具体为,所述卷积核的尺寸为1*k,则变化趋势数量为m*k。
进一步的,所述激活函数为非线性激活函数。
进一步的,在S1之后还包括对所述卷积神经网络进行训练的步骤,具体为,重复对所述神经元的参数W和b按照以下公式进行更新,
Figure BDA0002589077320000021
Figure BDA0002589077320000022
其中W为权值矩阵,b为偏置值,W'为更新后的权值矩阵,b'为更新后的偏置值,C为损失函数,η为学习率参数,取值区间为(0,1)。
进一步,将所述损失函数C最小化,实现参数W和b的优化。
进一步,所述输入数据的指标为人体体征指标。
本发明的这种自适应模式匹配机制可以充分挖掘各个指标的变化趋势,进而提升数据分析模型的预测能力。传统的机器学习方法和生存分析方法并不具备这种能力,无法对指标变化趋势进行建模,因此本发明的趋势分析神经网络具备传统方法无法比拟的优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多维时序数据分析方法使用的TANN网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如背景技术中所说的那样,合理的多维时序数据分析方法应该不仅能考虑绝对值,而且要考虑指标的变化趋势。好的趋势建模方法应该可以合理的表示趋势,发现危险的趋势,并解析模式。
本实施例提出一种多维时序数据分析方法,可以对各个指标的变化趋势进行建模和解析,实现更有效的预测和解析,包括以下步骤:
S1、建立多维时序数据分析模型,所述分析模型为卷积神经网络,依次包括输入层、卷积层、隐层和输出层,如图1所示。其中卷积层用于对多维输入数据进行模式匹配,模式匹配的结果有n*m种,其中n为输入数据的维数,m为卷积核的数量即模式数量;隐层相应的包括n*m个神经元,所述神经元由模式匹配的结果经过激活函数计算得到;所述输出层对所述隐层的神经元采用全连接层得到预测结果。
通过观察TANN的网络架构可以发现,卷积核与输入数据指标的纵向变化序列进行卷积。由于卷积核的尺寸与序列尺寸一致,都是k,实际操作是一个点积。由此得到的输出值,经过激活函数后作为隐层的一个神经元,每个卷积核得到n个隐层神经元。这种点积可以理解为一种模式匹配,每个隐层神经元都代表了一个指标的变化趋势与一个模式的匹配程度。隐层一共有n*m个神经元,就代表了n个指标的变化趋势与m个模式的匹配程度。
在本实施例中,激活函数为非线性激活函数,如sigmoid函数,tanh函数,ReLU函数等。上述激活函数和将隐层的节点经过激活函数即进行非线性变换的过程均为现有技术,本领域技术人员无需进行创造性劳动,即可选用上述某一种激活函数对隐层节点进行分线性变换,因此不再展开描述。
S2、将不同时间点采集的多个指标数据作为输入数据输入分析模型,输入数据为n*k的矩阵,其中n为输入数据的维数,即指标数量,k为输入数据的采集次数。
如图1所示,输入层的X为某个个体多次体检的数据,作为网络输入,包括如血压、肌酐、房颤、体重等n个指标,k为在不同时间点采集上述n个指标的次数,X形式上是一个n行k列的矩阵。
卷积层的卷积核尺寸为1*k,可以理解为k次测量的变化趋势,本实施例中有m个不同的卷积核,即m*k个不同的变化趋势。
然后卷积核与输入数据X进行卷积,每个卷积核可有n*1种模式匹配结果。将m个卷积核的模式匹配结果连接起来,组成了m*n个结果,此即为隐层的神经元数量。
S3、分析模型输出一个或多个预测结果,预测结果的数量P根据需要由用户自行确定,对应P个任务,P大于等于1。
S4、对所述预测结果进行回溯,得到所述神经元的权重,进而得到组成该神经元的输入数据维度和模式的权重。
通过以上对TANN的深入分析,可以得知隐层的每个神经元代表某个指标的变化趋势与可训练模式的匹配程度。换言之,这一层的每个神经元都是有物理意义的,这为解释模型提供了可能。通过从输出层向隐层回溯,权重大的隐层神经元对分类更有意义。确定了一个神经元后,我们可以继续向前回溯,找到对应的指标项和对应的模式,每个神经元都对应了唯一的指标项和唯一的变化模式。如图1中h22对应的第2个指标项,和第2个模式项。这样一来,我们就可以实现全面的解释性,即得出何种指标的何种变化模式对最终的预测结果影响最大。
通常的,每种变化模式(卷积核)都是通过训练得到的。通过对TANN网络的训练,可以得到对分类效果最好的模式,这种自适应的模式匹配机制可以充分挖掘各个指标的变化趋势,进而提升模型的预测能力。传统的机器学习方法和生存分析方法并不具备这种能力,无法对指标变化趋势进行建模,因此TANN具备传统方法无法弥补的优势。
在一些实施方式中,对卷积神经网络进行训练采用反向传播算法,即通过训练数据进行学习,不断调整神经网络中的神经元。具体为,重复对神经元的参数W和b按照以下公式进行更新,
Figure BDA0002589077320000041
Figure BDA0002589077320000042
其中W为权值矩阵,b为偏置值,W'为更新后的权值矩阵,b'为更新后的偏置值,C为损失函数,η为学习率参数,取值区间为(0,1)。
损失函数C需先定义,损失函数有多种,下面分别是二值交叉熵和类别交叉熵。
Figure BDA0002589077320000043
Figure BDA0002589077320000044
其中,yi表示目标值,
Figure BDA0002589077320000045
表示输出期望值。
采用梯度下降法修正系统参数,最小化损失函数即可实现参数优化。
本实施例的多维时序数据分析方法不但可应用于健康趋势预测,还可以对通信网络、股票市场和交通流量等场景中的不良事件预测和趋势分析。下面以人体健康趋势预测为例,进一步说明本实施例。
为了衡量分析性能,采用一个多维时序数据的实例(三次体检数据)进行死亡预测,采用灵敏度(Sensitivity),特异度(Specificity)和精度(Accuracy)三个指标衡量算法性能,定义如下:
Sensitivity=TP/(TP+FN),
Specificity=TN/(TN+FP),
Acc=(TP+TN)/(TP+FN+TN+FP),
其中TP为房颤被正确检测的数量,FN为房颤被检测为非房颤的数量,TN为非房颤检测为非房颤的数量,FP为非房颤被检测为房颤的数量。
AUC是检测器ROC曲线的线下面积,其值越大,说明检测性能越好。经过多次试验,证明TANN的预测性能远优于传统统计方法,AUC较传统逻辑回归和随机森林改善约6%,而较COX回归改善约3%。
步骤1、输入数据为原始多维时序数据,例如,三次体检,每次检查30个指标,那么输入数据就是30行3列的矩阵。
步骤2、取128个长度为3的卷积核,也就是128个趋势模板,分别于每个指标的3次测量做匹配,可以得到30*128个匹配结果,经过激活函数,作为隐层单元。
步骤3、3840个隐层单元与后面的任务作为输出,假设只预测1个单元,P=1,即只需要一个输出神经元,输出1则为死亡,输出0则为不死亡。实际还可以输出多个预测结果,除了简单预测是否有死亡风险,还可以输出是否有某种疾病的预测结果以及是否需要立即住院的建议。用户可根据需要调整任务数量,即预测结果的数量P。
网络采用反向传播算法进行训练:即通过训练数据进行学习,不断调整神经网络中的神经元(以权值矩阵W和偏置b表示)。首先定义损失函数C,采用梯度下降法修正系统参数,最小化损失函数即可实现参数优化。具体更新公式为
Figure BDA0002589077320000051
Figure BDA0002589077320000052
通过回溯,可以找到重要的指标变化趋势,表1列出了死亡相关的重要指标的变化趋势。这些重要趋势可以帮助专家从全新的角度对数据进行审视,为事件发生原因提供了新的解释。
表1死亡预测模型的重要趋势
指标 权重 卷积核 提示风险因素
TC -0.1267 -0.1221 -0.1275 0.0865 总胆固醇快速下降
TG 0.1167 0.0888 0.07990 -0.1088 甘油三酯快速下降
Cr -0.1031 -0.0338 -0.0713 -0.1445 肌酐快速升高
PLT -0.0995 -0.0191 -0.0078 -0.1290 血小板计数快速升高
WT 0.0983 0.0904 -0.0678 -0.0623 体重快速下降后保持在低水平
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (6)

1.一种可解释的多维时序数据分析方法,由处理器执行,其特征在于,包括以下步骤,
S1、建立多维时序数据分析模型,所述分析模型为卷积神经网络,依次包括输入层、卷积层、隐层和输出层;其中卷积层用于对多维输入数据进行模式匹配,模式匹配的结果有n*m种,其中n为输入数据的维数,m为卷积核的数量即模式数量;所述隐层相应的包括n*m个神经元,所述神经元由所述模式匹配的结果经过激活函数计算得到;所述输出层对所述隐层的神经元采用全连接层得到预测结果;
S2、将不同时间点采集的多个指标数据作为输入数据输入所述分析模型,所述输入数据为n*k的矩阵,其中n为输入数据的维数,即指标数量,k为输入数据的采集次数;
S3、所述分析模型输出一个或多个预测结果,对应不同的建模任务;
S4、对所述预测结果进行回溯,得到所述神经元的权重,进而得到组成该神经元的输入数据维度和模式的权重,实现所述分析模型的可解释性。
2.根据权利要求1所述的多维时序数据分析方法,其特征在于,S1中所述根据卷积核的数量m得到多个变化趋势具体为,所述卷积核的尺寸为1*k,则变化趋势数量为m*k。
3.根据权利要求1所述的多维时序数据分析方法,其特征在于,所述激活函数为非线性激活函数。
4.根据权利要求1所述的多维时序数据分析方法,其特征在于,在S1之后还包括对所述卷积神经网络进行训练的步骤,具体为,重复对所述神经元的参数W和b按照以下公式进行更新,
Figure FDA0002589077310000011
Figure FDA0002589077310000012
其中W为权值矩阵,b为偏置值,W'为更新后的权值矩阵,b'为更新后的偏置值,C为损失函数,η为学习率参数,取值区间为(0,1)。
5.根据权利要求4所述的多维时序数据分析方法,其特征在于,将所述损失函数C最小化,实现参数W和b的优化。
6.根据权利要求1~5任一项所述的多维时序数据分析方法,其特征在于,所述输入数据的指标为人体体征指标。
CN202010690245.7A 2020-07-17 2020-07-17 一种可解释的多维时序数据分析方法 Pending CN111949704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010690245.7A CN111949704A (zh) 2020-07-17 2020-07-17 一种可解释的多维时序数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010690245.7A CN111949704A (zh) 2020-07-17 2020-07-17 一种可解释的多维时序数据分析方法

Publications (1)

Publication Number Publication Date
CN111949704A true CN111949704A (zh) 2020-11-17

Family

ID=73340017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010690245.7A Pending CN111949704A (zh) 2020-07-17 2020-07-17 一种可解释的多维时序数据分析方法

Country Status (1)

Country Link
CN (1) CN111949704A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064460A (zh) * 2018-08-01 2018-12-21 中国科学院合肥物质科学研究院 基于多时序属性元素深度特征的小麦重度病害预测方法
CN110267292A (zh) * 2019-05-16 2019-09-20 湖南大学 基于三维卷积神经网络的蜂窝网络流量预测方法
US20200034708A1 (en) * 2018-07-24 2020-01-30 Fujitsu Limited Generation of data for improving determination accuracy of a classifier model
CN111367961A (zh) * 2020-02-27 2020-07-03 西安交通大学 基于图卷积神经网络的时序数据事件预测方法、系统及其应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034708A1 (en) * 2018-07-24 2020-01-30 Fujitsu Limited Generation of data for improving determination accuracy of a classifier model
CN109064460A (zh) * 2018-08-01 2018-12-21 中国科学院合肥物质科学研究院 基于多时序属性元素深度特征的小麦重度病害预测方法
CN110267292A (zh) * 2019-05-16 2019-09-20 湖南大学 基于三维卷积神经网络的蜂窝网络流量预测方法
CN111367961A (zh) * 2020-02-27 2020-07-03 西安交通大学 基于图卷积神经网络的时序数据事件预测方法、系统及其应用

Similar Documents

Publication Publication Date Title
CN106778014B (zh) 一种基于循环神经网络的患病风险预测建模方法
CN109350032B (zh) 一种分类方法、系统、电子设备及存储介质
CN104809226B (zh) 一种早期分类不平衡多变量时间序列数据的方法
CN111951975B (zh) 一种基于深度学习模型gpt-2的脓毒症早期预警方法
Artemenko et al. The formation of a set of informative features based on the functional relationships between the data structure field observations
CN107169284A (zh) 一种生物医学关键属性选择方法
CN111000553A (zh) 一种基于投票集成学习的心电数据智能分类方法
CN113380407A (zh) 构建认知障碍智能预测方法
Dharmasaroja et al. Application of artificial neural networks for prediction of learning performances
Kwakye et al. Machine learning-based classification algorithms for the prediction of coronary heart diseases
Telu et al. Optimizing predictions of brain stroke using machine learning
Shiddiq et al. Estimation of rice milling degree using image processing and adaptive network based fuzzy inference system (ANFIS)
Aiosa et al. EXplainable AI for decision Support to obesity comorbidities diagnosis
Wankhade et al. Machine learning approach for breast cancer prediction: A review
Fatemidokht et al. Development of a hybrid neuro-fuzzy system as a diagnostic tool for Type 2 Diabetes Mellitus
CN111949704A (zh) 一种可解释的多维时序数据分析方法
Dehnavi et al. The risk prediction of heart disease by using neuro-fuzzy and improved GOA
Srivastava et al. Multi-parameter based performance evaluation of classification algorithms
US20230214668A1 (en) Hyperparameter adjustment device, non-transitory recording medium in which hyperparameter adjustment program is recorded, and hyperparameter adjustment program
Komalavalli et al. An Effective Heart Disease Prediction Using Machine Learning
Sree et al. A Comprehensive Analysis on Risk Prediction of Heart Disease using Machine Learning Models
JP7455892B2 (ja) 異常予測システム、方法及びコンピュータプログラム
CN118097435B (zh) 基于超图神经网络的玉米倒伏分类方法及装置
Madhavi et al. Early Discovery of Chronic Kidney Disease by Attributing Missing Values
Masruriyah et al. Thorough Evaluation of the Effectiveness of SMOTE and ADASYN Oversampling Methods in Enhancing Supervised Learning Performance for Imbalanced Heart Disease Datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination