CN111370122B - 一种基于知识指导的时序数据风险预测方法、系统及其应用 - Google Patents

一种基于知识指导的时序数据风险预测方法、系统及其应用 Download PDF

Info

Publication number
CN111370122B
CN111370122B CN202010125334.7A CN202010125334A CN111370122B CN 111370122 B CN111370122 B CN 111370122B CN 202010125334 A CN202010125334 A CN 202010125334A CN 111370122 B CN111370122 B CN 111370122B
Authority
CN
China
Prior art keywords
risk
matrix
event
embedding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010125334.7A
Other languages
English (en)
Other versions
CN111370122A (zh
Inventor
钱步月
刘洋
张先礼
赵荣建
潘迎港
陈航
吴风浪
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010125334.7A priority Critical patent/CN111370122B/zh
Publication of CN111370122A publication Critical patent/CN111370122A/zh
Application granted granted Critical
Publication of CN111370122B publication Critical patent/CN111370122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines

Abstract

本发明公开了一种基于知识指导的时序数据风险预测方法、系统及其应用,包括以下步骤:采集样本时序数据,将每个样本时序数据转换为输入序列矩阵,从知识图中获取风险事件及事件关系的特征信息;将距离权重矩阵、风险事件及事件关系的特征信息输入到预先设定的网络模型中,获得两个上下文向量,将两个上下文向量进行全连接,进行风险预测;根据各样本时序数据序列以及两个上下文向量训练预先设定的网络模型,进行有监督的训练,得到发生风险的概率后训练至预设收敛条件,获得训练好的风险预测模型;通过得到的风险预测模型进行风险预测。本发明对时序序列数据表示更加合理有效,能够提升时序数据风险预测的准确性。

Description

一种基于知识指导的时序数据风险预测方法、系统及其应用
技术领域
本发明属于时序数据的数据挖掘技术领域,特别涉及一种基于知识指导的时序数据风险预测方法、系统及其应用。
背景技术
近年来产生了各种以数据为依据的预测方法,基于时序数据的风险预测是数据挖掘和机器学习中的重要应用之一。它可以广泛应用于医疗治疗、数据检索、队列分析等多个应用领域。在过去的十年中,该领域吸引了广泛的研究兴趣并取得了长足的进步,但时序数据的时间性、异质性、高维和不规则性为该领域的研究提出了极大的挑战。
由于有限数量的数据无法满足最新方法所需的大量样本,尤其是针对深度学习模型,数据量的不足使得模型准确率无法达到预期理想。此外,在数据收集过程中,某些丢失的数据记录可能包含重要的数据信息,该类数据信息可能对实验结果产生了重要的引导作用,如果忽略此类数据信息,则将导致预测偏差。时序数据存在稀疏性、高维度、不等维、时序性和不规则性,大多数现有的风险预测模型是纯粹由数据驱动的,无法纳入相关辅助知识的缺陷,未将风险事件与事件间的关系纳入考虑,无法从不足的数据输入中提取更多信息的功能,影响了预测结果的可靠性和准确性。基于深度学习的方法无法确定每个事件对最终结果的贡献,这阻止了此类模型在实际应用中被广泛接受。
综上,亟需一种新的面向时序数据知识指导的风险预测方法及系统。
发明内容
本发明的目的在于提供一种基于知识指导的时序数据风险预测方法、系统及其应用,以解决上述存在的一个或多个技术问题。本发明中,通过对时序数据有效表示,可弥补传统方法中忽视数据中事件之间以及事件与发生时间之间潜在关系的缺陷,提升时序数据风险预测的准确性,有效弥补预测偏差;可解释性强。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于知识指导的时序数据风险预测方法,包括以下步骤:
步骤1,采集预设数量的样本时序数据,所述样本时序数据包括风险事件及风险事件的发生时间;将每条样本时序数据转换为输入序列矩阵,根据风险事件关系知识图获得距离权重矩阵、风险事件及事件关系的特征信息;
步骤2,将步骤1获得的距离权重矩阵、风险事件及事件关系的特征信息输入到预先构建的网络模型中,进行特征提取获得两个上下文向量;将获得的两个上下文向量进行全连接操作后,经过线性层和softmax,获得发生风险的概率;
步骤3,通过步骤1的样本时序数据、步骤2获得的两个上下文向量训练预先构建的网络模型,得到发生风险的概率后训练至预设收敛条件,获得训练好的风险预测模型;
步骤4,通过步骤1的方法获得待预测的时序数据的向量化表示;将待预测的时序数据的向量化表示输入步骤3获得的训练好的风险预测模型中,获得待预测的时序数据的风险预测结果。
本发明的进一步改进在于,步骤1具体包括:
步骤1.1,采集预设数量的样本时序数据,将每条样本时序数据进行全连接转换为一个输入序列矩阵;
步骤1.2,根据风险事件关系知识图,初始化距离权重矩阵;
步骤1.3,利用TransE将风险事件关系知识图中的风险事件及其关系转化为实体嵌入和关系嵌入,获得每个风险事件的表示形式向量以及关系向量。
本发明的进一步改进在于,步骤2中,所述预先构建的网络模型结构包括:
输入层,用于将每条样本时序数据转换为输入序列矩阵;
编码层,用于将知识图中风险事件及其关联关系转化为距离权重矩阵,并利用距离权重矩阵经过Word2vec和GlobalPooling层操作,得到编码后的距离权重矩阵;
图注意力模块层,用于获得知识图中每个风险事件的邻域信息;其中,首先使用TransE来表示知识图中的风险事件和其关系,获得实体嵌入与关系嵌入;将实体嵌入与关系嵌入输入图注意力模块,挖掘每个风险事件的潜在信息,获得潜在信息矩阵;
访问注意力模块层,用于计算输入序列矩阵中每次访问的重要性权重;其中,首先使用LSTM层通过每次访问的距离权重编码来捕获不同访问之间的依赖性,获得隐藏状态矩阵;再将LSTM层的输出隐藏状态矩阵输入访问注意力模块,进行attention机制的操作,计算获得关注权重,表示为注意力向量a;
潜在注意力模块层,用于获得每次访问的不同潜在信息的注意力权重;其中,使用LSTM层捕获不同访问的潜在信息之间的依赖关系,获得隐藏状态矩阵;使用每个潜在信息的隐藏状态来获得相应的关注权重,表示为注意力向量b;
输出层,用于将访问注意力模块层获得的注意力向量a和潜在注意力模块层获得的注意力向量b进行全连接,输入线性层来获取对数;使用softmax层输出风险事件发生的最终可能性。
本发明的进一步改进在于,步骤2具体包括:
步骤2.1,利用学习的嵌入矩阵乘以输入矩阵,获得输入嵌入矩阵;
步骤2.2,将步骤1.2获得的距离权重矩阵,利用word2vec和Global Pooling编码为输入序列,嵌入到输入嵌入矩阵,获得矩阵E;
步骤2.3,将步骤1.3获得的每个风险事件的表示形式向量以及关系向量输入到图注意力机制模块,获得潜在信息矩阵;
步骤2.4,将步骤2.2获得的矩阵E和步骤2.3获得的潜在信息矩阵分别输入到长短期记忆网络中,得到两个隐藏状态矩阵;
步骤2.5,将步骤2.4获得的两个隐藏状态矩阵分别输入访问注意力模块和潜在注意力模块,得到两个注意力向量;
步骤2.6,利用步骤2.1获得的输入嵌入矩阵、步骤2.3获得的潜在信息矩阵和步骤2.5获得的两个注意力向量获得两个上下文向量。
本发明的进一步改进在于,步骤3具体包括:
步骤3.1,将步骤2.6获得的两个上下文向量输入输出层中的线性层,获取对数;
步骤3.2,将步骤3.1得到的对数输入softmax层,获得发生风险的最终可能性,通过Softmax计算获得两条时序数据的相似度;
步骤3.3,将步骤1.1得到的输入序列矩阵和步骤1.3获得的每个风险事件的表示形式向量以及关系向量输入到预先设定的风险预测模型中进行训练;
步骤3.4,构建损失函数,训练预先构建的网络模型至预设收敛条件,获得训练好的风险预测模型。
本发明的进一步改进在于,步骤3.4包括:构建目标函数,根据目标函数计算每一次迭代的损失;目标函数对每个参数求偏导,参数向其导数负方向更新损失,不断优化参数至预设收敛条件;
其中,损失函数形式化表示为:
式中,y表示数据真实的标签,表示模型预测的结果。
本发明的一种基于知识指导的时序数据风险预测系统,包括:
时序数据采集及表示模块,用于采集预设数量的样本时序数据,所述样本时序数据包括风险事件及风险事件的发生时间;将每条样本时序数据转换为输入序列矩阵,根据风险事件关系知识图获得距离权重矩阵、风险事件及事件关系的特征信息;
风险预测网络模块,用于将时序数据采集及表示模块构建的输入序列矩阵与输入矩阵相乘,获得输入嵌入矩阵;用于将距离权重矩阵编码为输入序列,并嵌入到输入嵌入矩阵;用于将每个风险事件的表示形式向量以及关系向量输入到图注意力机制模块,获得潜在信息矩阵,获取每个风险事件之间的关联关系潜在矩阵表示;用于将获得的两个隐藏状态矩阵分别输入访问注意力模块和潜在注意力模块,得到两个注意力向量,并根据输入嵌入矩阵、潜在信息矩阵和两个注意力向量获得两个上下文向量;用于将两个上下文向量进行最后的风险预测;用于将各样本时序数据序列以及获得的两个上下文向量训练预先设定的网络模型,得到发生风险的概率后训练至预设收敛条件,获得训练好的风险预测模型;其中,所述训练好的风险预测模型用于待度量时序数据的风险预测。
本发明的一种基于知识指导的时序数据风险预测方法的应用,用于医学领域疾病风险预测度量。
本发明的一种基于知识指导的时序数据风险预测方法的应用,包括以下步骤:
S101,将每个电子病历样本时序数据转换为输入序列矩阵,并从疾病风险知识图中获取风险事件及事件关系的特征信息;疾病风险知识图中包含每种疾病或病症实例,以及它们之间的相互关系;
步骤S101具体包括:
Step1.1,将每条样本时序数据进行全连接转换为一个输入序列矩阵,将原始的电子病历数据进行向量表示,得到病人的医学输入序列矩阵X;
Step1.2,根据疾病风险知识图,初始化一个距离权重矩阵D;
Step1.3.利用TransE将疾病风险知识图中的风险事件及其关系转化为实体嵌入和关系嵌入,获得每个风险事件的表示形式向量以及关系向量;利用TransE将疾病风险知识图数据嵌入到一个低维空间里,获得每个疾病风险事件的表示向量以及每个疾病风险事件之间关系的表示向量,分别为实体嵌入K和关系嵌入R;
S102.将获得的距离权重矩阵D、风险事件嵌入E及事件关系嵌入R输入到预先设定的网络模型中,对于输入的信息进行特征提取,并获得两个上下文向量;
步骤S102具体包括:
Step2.1,利用学习的嵌入矩阵M乘以病人的医学输入序列矩阵X,获得输入嵌入矩阵V;
Step2.2,将距离权重矩阵D利用word2vec和Global Pooling编码为输入序列,并嵌入到输入嵌入矩阵V,从而获得矩阵E;利用word2vec将距离权重矩阵D中每个医学事件及其关系映射成定长的向量,word2vec利用深度学习的思想,将词表示为向量的高效模型;
Step2.3,将每个疾病风险事件以实体嵌入向量K以及关系嵌入向量R的表示形式输入到图注意力机制模块,并输入病人的医学事件输入矩阵X,获得潜在信息矩阵L;
Step2.4,将矩阵E和潜在信息矩阵L分别输入到LSTM模块中,得到两个隐藏状态矩阵E’和L’;
Step2.5,将两个隐藏状态矩阵E’和L’分别输入访问注意力模块和潜在注意力模块,得到两个注意力向量α和β;
将两个上下文向量α和β输入线性层,获取对数;得到的对数输入softmax层,获得发生风险的最终可能性;构建损失函数,并训练网络;
损失函数形式化表示为:
式中,y表示数据真实的标签,表示模型预测的结果。当网络参数收敛时,停止训练,得到最终良好的EHR疾病风险预测模型。
与现有技术相比,本发明具有以下有益效果:
不同于现有方法仅考虑序列中特定时间段内事件的本身特征,忽视数据中事件之间以及事件与发生时间之间潜在关系;本发明针对时序数据的稀疏性、高维度、不等维、时序性和不规则性等特点,并考虑到数据量的不足,提供一种合理有效的时序数据风险预测方法。
本发明的方法中:首先,采集样本时序数据,将每个样本时序数据转换为输入序列矩阵,从知识图中获取风险事件及事件关系的特征信息;其次,将距离权重矩阵、风险事件及事件关系的特征信息输入到预先设定的网络模型中,对于输入的信息进行特征提取,并获得两个上下文向量,将两个上下文向量进行全连接,从而进行风险预测;最后,根据各样本时序数据序列以及两个上下文向量训练预先设定的网络模型,进行有监督的训练,得到发生风险的概率后训练至预设收敛条件,获得训练好的风险预测模型。本发明通过对数据进行表示和处理,弥补了大多数现有的风险预测模型是纯粹由数据驱动的,无法纳入相关辅助知识的缺陷;本发明将风险事件与事件间的关系纳入考虑,结合知识图,丰富了从不足的数据输入中提取更多信息的功能,并可以有效的指导预测,提高预测结果的可靠性和准确性。由于深度学习的黑盒性质,深度学习模型缺乏可解释性,很难知道每个事件输入对最终风险预测结果的贡献;本发明是一种可解释的疾病风险预测模型,从知识图中提取知识以指导模型做出准确的预测,显式地和隐式地结合了临床知识图,即使在训练数据数量有限的情况下,也能实现良好的预测效果。本发明通过使用跳过连接和关注机制,可以将模型输出更好的解释。
本发明的系统是一种新颖且可解释的风险预测模型,从风险事件知识图中提取风险事件的潜在关系信息,使得预测更加准确。由于时序数据具有稀疏性等特点,而本系统即使训练数据数量有限,也可以做出准确的预测。由于引入attention机制,系统的结果具备很良好的可解释性。
本发明应用中,结合了临床知识图,补充了在临床信息中疾病风险发生的潜在关系,可以针对临床的疾病知识更加准确的预测某种疾病风险发生的概率。由于在医学领域中,疾病风险的产生原因倍受关注,系统结果的可解释性尤为重要,本发明中的attention机制,可更准确的解释在疾病风险发生时的医学原因,从而有效辅助病人预防某些疾病而做出提前措施。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于知识指导的时序数据风险预测方法的流程示意框图;
图2是本发明实施例的一种基于知识指导的时序数据风险预测方法中的网络模型示意图;
图3是本发明实施例的一种基于知识指导的时序数据风险预测方法中的知识图;
图4是本发明具体实施例中,时序数据风险预测方法的流程示意框图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
本发明实施例的一种基于知识指导的时序数据风险预测方法,包括以下步骤:
步骤1,构建风险事件及事件关系的特征表示。
采集样本时序数据,样本时序数据中包含了每个时间点下某种风险事件发生的情况,将每个样本时序数据转换为输入序列矩阵,即时序数据表示;由于每个风险事件的数据信息有限,需要从知识图中获取更多的信息,以进行更加准确的风险预测,本发明利用知识图,从知识图中获取风险事件及事件关系的特征信息,构建风险事件及事件关系的特征表示,将稀疏的时序数据变得稠密,考虑时序数据序列中各个风险事件的相对关系,以及各个事件与发生时间的相对关系,将高维空间的数据映射到低维空间。
优选的,步骤1具体包括以下步骤:
步骤1.1,将每条样本时序数据进行全连接转换为一个输入序列矩阵;
步骤1.2,根据风险事件关系知识图,初始化距离权重矩阵;
步骤1.3,利用TransE将知识图中的风险事件及其关系转化为实体嵌入和关系嵌入,获得每个风险事件的表示形式向量以及关系向量。
本发明的时序数据表示方法具有以下特征:1)将稀疏的时序数据矩阵变成稠密的事件向量,非稀疏性。2)根据风险事件关系知识图,初始化距离权重矩阵,利用TransE将知识图中的风险事件及其关系转化为实体嵌入和关系嵌入,获得每个风险事件的表示形式向量以及关系向量,知识指导性。3)最终的事件序列表示融合了风险事件之间的相对关系和事件与发生时间之间的相对关系。
步骤2,对于输入的信息进行特征提取,并获得两个上下文向量。
将步骤1所获得的距离权重矩阵、风险事件及事件关系的特征信息输入到预先设定的网络模型中,对于输入的信息进行特征提取,并获得两个上下文向量,对于时序数据的表示,需要对其进行特征抽取,以有效的进行风险预测。
优选的,步骤2具体包括以下步骤:
步骤2.1,利用学习的嵌入矩阵乘以输入矩阵从而获得输入嵌入矩阵;
步骤2.2,将步骤1.2获得的距离权重矩阵利用word2vec和Global Pooling编码为输入序列,并嵌入到输入嵌入矩阵,从而获得矩阵E;
步骤2.3,将步骤1.3获得的每个风险事件的表示形式向量以及关系向量输入到图注意力机制模块,图注意力机制模块为attention机制,attention机制可关注每个风险事件及其之间关系的重要信息,忽略或降低每个风险事件及其关系中的次要信息的影响,从而获得潜在信息矩阵;
步骤2.4,将步骤2.2获得的矩阵E和步骤2.3获得的潜在信息矩阵分别输入到长短期记忆网络(Long Short-Term Memory,LSTM)中,得到两个隐藏状态矩阵;
步骤2.5,将步骤2.4获得的两个隐藏状态矩阵分别输入访问注意力模块和潜在注意力模块(这两个模块均采用attention机制,结构是完全相同的),得到两个注意力向量;
步骤2.6,利用步骤2.1获得的输入嵌入矩阵、步骤2.3获得的潜在信息矩阵和步骤2.5获得的两个注意力向量获得两个上下文向量。
步骤3,风险预测,并输出发生风险的概率。
对于上一步提取的两个上下文向量,基于相似度矩阵计算两个上下文向量间的相似度,考虑由于任意调换两个数据的位置,相似度应该是相等的,因此对相似度矩阵加以约束,即该相似度矩阵必须是对称的。用计算出的相似度计算损失,并训练网络。
优选的,步骤3具体包括以下步骤:
步骤3.1,将步骤2.6得到的两个上下文向量输入线性层从而获取对数;
步骤3.2,将步骤3.1得到的对数输入softmax层,从而获得发生风险的最终可能性;
步骤3.3,将步骤1.1得到的输入序列矩阵和步骤1.3获得的每个风险事件的表示形式向量以及关系向量输入到模型中进行训练;
步骤3.4,构建损失函数,并训练预设的模型,获得训练好的风险预测模型。
首先构建目标函数,根据目标函数计算每一次迭代的损失,目标函数对每个参数求偏导,参数向其导数负方向更新损失,从而不断优化模型参数;
损失函数形式化表示为:
式中,y表示数据真实的标签,表示模型预测的结果。
综上,本发明实施例针对时序数据的稀疏性、高维度、不等维、时序性和不规则性等特点,并考虑到数据量的不足,提供一种合理有效的时序数据风险预测方法,通过对数据进行表示和处理,弥补了大多数现有的风险预测模型是纯粹由数据驱动的,无法纳入相关辅助知识的缺陷,本发明将风险事件与事件间的关系纳入考虑,结合知识图,丰富了从不足的数据输入中提取更多信息的功能,并可以有效的指导预测,提高预测结果的可靠性和准确性。由于深度学习的黑盒性质,深度学习模型缺乏可解释性,很难知道每个事件输入对最终风险预测结果的贡献;本发明是一种可解释的疾病风险预测模型,从知识图中提取知识以指导模型做出准确的预测,显式地和隐式地结合了临床知识图,即使在训练数据数量有限的情况下,也能实现良好的预测效果。本发明通过使用跳过连接和关注机制,可以将模型输出更好的解释。
本发明实施例的一种基于知识指导的时序数据风险预测系统,包括:
时序数据表示构建模块,用于采集预设数量的样本时序数据,考虑每个样本时序数据中各个事件的相对关系以及各个事件与发生时间的相对关系,将高维空间的数据映射到低维空间,构建出每个样本时序数据的表示;
知识图特征嵌入模块,用于获得每个风险事件以及事件与事件之间的关联关系,并将各个关系和各个事件实体的嵌入向量进行表示;
风险预测网络模块,用于将时序数据时序数据采集及表示模块构建的输入序列矩阵和输入矩阵相乘,获得输入嵌入矩阵;用于将距离权重矩阵编码为输入序列,并嵌入到输入嵌入矩阵;用于将每个风险事件的表示形式向量以及关系向量输入到图注意力机制模块,获得潜在信息矩阵,从而获取了每个风险事件之间的关联关系潜在矩阵表示;用于将获得的两个隐藏状态矩阵分别输入访问注意力模块和潜在注意力模块,得到两个注意力向量,并将输入嵌入矩阵、潜在信息矩阵和两个注意力向量获得两个上下文向量;用于将两个上下文向量进行最后的风险预测;用于将各样本时序数据序列以及获得的两个上下文向量训练预先设定的网络模型,得到发生风险的概率后训练至预设收敛条件,获得训练好的风险预测模型;
输入输出模块,用于构建出待度量时序数据的表示,提取获得待度量时序数据的特征向量,并将其输入风险预测度量网络模块中,输出待度量时序数据的风险预测结果。
实施例
请参阅图1至图4,本发明实施例的一种可解释的基于知识指导的时序数据风险预测方法,应用于医学领域疾病风险预测度量,包括以下步骤:
S101,将每个样本时序数据转换为输入序列矩阵,并从知识图中获取风险事件及事件关系的特征信息。
Step1,电子病历(EHR)矩阵数据可能存在缺失或不足,首先要做的是,将每条样本时序数据进行全连接转换为一个输入序列矩阵,将原先的电子病历数据进行向量表示,得到病人的医学输入序列矩阵X。
Step2,将知识图的信息进行深层次的挖掘与表示,请参阅图3,知识图中描述了每个医学疾病实例及每个医学疾病实例之间的关系,利用知识图可以直观的表达每个医学风险疾病间的关系,其中的关系包括引起、被引起、被缓解等。请参阅图2,根据知识图,可初始化一个距离权重矩阵D;
Step3.利用TransE将知识图中的风险事件及其关系转化为实体嵌入和关系嵌入,获得每个风险事件的表示形式向量以及关系向量,利用TransE将知识图数据嵌入到一个低维空间里从而获得了每个疾病风险事件的表示向量以及每个疾病风险事件之间关系的表示向量,分别为实体嵌入K和关系嵌入R。
具体地,上述医学事件序列表示具有以下特征:1)将EHR稀疏的时序数据矩阵变成稠密的事件向量,非稀疏性。2)根据风险事件关系知识图,初始化距离权重矩阵,利用TransE将知识图中的风险事件及其关系转化为实体嵌入和关系嵌入,获得每个风险事件的表示形式向量以及关系向量,知识指导性。3)最终的事件序列表示融合了风险事件之间的相对关系和事件与发生时间之间的相对关系。
S102.将获得的距离权重矩阵D、风险事件嵌入E及事件关系嵌入R输入到预先设定的网络模型中,对于输入的信息进行特征提取,并获得两个上下文向量,请参阅图2。
Step1,利用学习的嵌入矩阵M乘以病人医学事件输入矩阵X从而获得输入嵌入矩阵V。
Step2,将距离权重矩阵D利用word2vec和Global Pooling编码为输入序列,并嵌入到输入嵌入矩阵V,从而获得矩阵E,利用word2vec将距离权重矩阵D中每个医学事件及其关系映射成定长的向量,word2vec利用深度学习的思想,将词表示为向量的高效模型。
Step3,将每个医疗风险事件的表示形式向量K以及关系嵌入向量R输入到图注意力机制模块,并输入病人医学事件输入矩阵X从而获得潜在信息矩阵L,为了获得知识图中各个医学代码的邻域信息,在使用TransE来表示知识库中的实体和关系后,采用多层感知机层来弥合知识库和医学代码之间的表示差距。为了获得每个医学代码风险事件之间的关系相关程度,使用attention机制将每个医学代码风险事件进行计算,将病人医学事件输入矩阵X作为输入,最终得到潜在信息矩阵L,有效的扩充了有限的数据,潜在信息矩阵L将医学代码风险事件的关系纳入矩阵的数据信息,使得对于疾病风险预测的结果更加准确。
Step4,将矩阵E和潜在信息矩阵L分别输入到LSTM模块中,得到两个隐藏状态矩阵E’和L’,LSTM可以更好的对于时序数据进行处理。
Step5,将两个隐藏状态矩阵E’和L’分别输入访问注意力模块和潜在注意力模块,得到两个注意力向量α和β,在本发明中不使用隐藏状态矩阵E’或L’来获得最终上下文向量,因为模型可以通过这种方式保持可解释性。
S103.计算相似度并训练网络。
对于上一步提取的两个注意力向量α和β,可进行进一步的疾病风险概率的预测,预测任务的风险可以视为二元分类问题,给定患者的输入医疗事件矩阵X时,本发明会预测将来是否会诊断为某一疾病,采用线性层来获取获得某一疾病的概率,然后使用softmax层来输出患者被诊断为HF的最终可能性。用计算出的相似度计算损失,并训练网络。
具体包括以下步骤:
Step1.将两个上下文向量α和β输入线性层从而获取对数;
Step2.得到的对数输入softmax层,从而获得发生风险的最终可能性;
Step3.构建损失函数,并训练网络;
首先构建目标函数,根据目标函数计算每一次迭代的损失,目标函数对每个参数求偏导,参数向其导数负方向更新损失,从而不断优化模型参数;
损失函数形式化表示为:
式中,y表示数据真实的标签,表示模型预测的结果。当网络参数收敛时,停止训练,得到最终良好的EHR疾病风险预测模型。
综上,本发明实施例的方法涉及一种面向时序数据知识知道的风险预测方法,主要解决在少量异质的高维时序数据下难以准确并可解释地的进行风险预测的问题。具体包括以下步骤:首先,采集样本时序数据,将每个样本时序数据转换为输入序列矩阵,从知识图中获取风险事件及事件关系的特征信息;其次,将距离权重矩阵、风险事件及事件关系的特征信息输入到预先设定的网络模型中,对于输入的信息进行特征提取,并获得两个上下文向量,将两个上下文向量进行全连接,从而进行风险预测;最后,根据各样本时序数据序列以及两个上下文向量训练预先设定的网络模型,进行有监督的训练,得到发生风险的概率后训练至预设收敛条件,获得训练好的风险预测模型。本发明通过对数据进行表示和处理,弥补了大多数现有的风险预测模型是纯粹由数据驱动的,无法纳入相关辅助知识的缺陷,本发明将风险事件与事件间的关系纳入考虑,结合知识图,丰富了从不足的数据输入中提取更多信息的功能,并可以有效的指导预测,提高预测结果的可靠性和准确性。由于深度学习的黑盒性质,深度学习模型缺乏可解释性,很难知道每个事件输入对最终风险预测结果的贡献;本发明是一种可解释的疾病风险预测模型,从知识图中提取知识以指导模型做出准确的预测,显式地和隐式地结合了临床知识图,即使在训练数据数量有限的情况下,也能实现良好的预测效果。本发明通过使用跳过连接和关注机制,可以将模型输出更好的解释。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (1)

1.一种基于知识指导的时序数据风险预测方法的应用,其特征在于,包括以下步骤:
S101,将每个电子病历样本时序数据转换为输入序列矩阵,并从疾病风险知识图中获取风险事件及事件关系的特征信息;疾病风险知识图中包含每种疾病或病症实例,以及它们之间的相互关系;
步骤S101具体包括:
Step1.1,将每条样本时序数据进行全连接转换为一个输入序列矩阵,将原始的电子病历数据进行向量表示,得到病人的医学输入序列矩阵X;
Step1.2,根据疾病风险知识图,初始化一个距离权重矩阵D;
Step1.3.利用TransE将疾病风险知识图中的风险事件及其关系转化为实体嵌入和关系嵌入,获得每个风险事件的表示形式向量以及关系向量;利用TransE将疾病风险知识图数据嵌入到一个低维空间里,获得每个疾病风险事件的表示向量以及每个疾病风险事件之间关系的表示向量,分别为实体嵌入K和关系嵌入R;
S102.将获得的距离权重矩阵D、风险事件嵌入E及事件关系嵌入R输入到预先设定的网络模型中,对于输入的信息进行特征提取,并获得两个上下文向量;
步骤S102具体包括:
Step2.1,利用学习的嵌入矩阵M乘以病人的医学输入序列矩阵X,获得输入嵌入矩阵V;
Step2.2,将距离权重矩阵D利用word2vec和Global Pooling编码为输入序列,并嵌入到输入嵌入矩阵V,从而获得矩阵E;利用word2vec将距离权重矩阵D中每个医学事件及其关系映射成定长的向量,word2vec利用深度学习的思想,将词表示为向量的高效模型;
Step2.3,将每个疾病风险事件以实体嵌入向量K以及关系嵌入向量R的表示形式输入到图注意力机制模块,并输入病人的医学事件输入矩阵X,获得潜在信息矩阵L;
Step2.4,将矩阵E和潜在信息矩阵L分别输入到LSTM模块中,得到两个隐藏状态矩阵E’和L’;
Step2.5,将两个隐藏状态矩阵E’和L’分别输入访问注意力模块和潜在注意力模块,得到两个注意力向量α和β;
将两个上下文向量α和β输入线性层,获取对数;得到的对数输入softmax层,获得发生风险的最终可能性;构建损失函数,并训练网络;
损失函数形式化表示为:
式中,y表示数据真实的标签,表示模型预测的结果;当网络参数收敛时,停止训练,得到最终良好的EHR疾病风险预测模型。
CN202010125334.7A 2020-02-27 2020-02-27 一种基于知识指导的时序数据风险预测方法、系统及其应用 Active CN111370122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010125334.7A CN111370122B (zh) 2020-02-27 2020-02-27 一种基于知识指导的时序数据风险预测方法、系统及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010125334.7A CN111370122B (zh) 2020-02-27 2020-02-27 一种基于知识指导的时序数据风险预测方法、系统及其应用

Publications (2)

Publication Number Publication Date
CN111370122A CN111370122A (zh) 2020-07-03
CN111370122B true CN111370122B (zh) 2023-12-19

Family

ID=71206304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125334.7A Active CN111370122B (zh) 2020-02-27 2020-02-27 一种基于知识指导的时序数据风险预测方法、系统及其应用

Country Status (1)

Country Link
CN (1) CN111370122B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112202726B (zh) * 2020-09-10 2021-11-19 西安交通大学 一种基于上下文感知的系统异常检测方法
CN111933303B (zh) * 2020-09-30 2021-01-15 平安科技(深圳)有限公司 事件预测方法、装置、电子设备及存储介质
CN112017776B (zh) * 2020-10-27 2021-01-15 平安科技(深圳)有限公司 基于动态图和医学知识图谱的疾病预测方法及相关设备
CN112233798B (zh) * 2020-12-16 2021-03-19 杭州智策略科技有限公司 基于病理模式与注意力机制的可解释疾病风险分析系统
CN113012808B (zh) * 2021-04-15 2022-11-01 北京理工大学 一种健康预测方法
CN113488112A (zh) * 2021-06-10 2021-10-08 五邑大学 一种共价结合预测方法及装置
CN113989043A (zh) * 2021-10-28 2022-01-28 支付宝(杭州)信息技术有限公司 一种事件的风险识别方法、装置及设备
CN114022058A (zh) * 2022-01-06 2022-02-08 成都晓多科技有限公司 基于时序知识图谱的中小企业失信风险预测方法
CN117557086B (zh) * 2023-07-05 2024-03-26 北京忠业兴达科技有限公司 涉密载体监管方法、装置、设备及可读存储介质
CN117174319B (zh) * 2023-11-03 2024-03-01 神州医疗科技股份有限公司 一种基于知识图谱的脓毒症时序预测方法及系统
CN117291314B (zh) * 2023-11-24 2024-03-05 山东理工昊明新能源有限公司 能源风险识别模型的构建方法、能源风险识别方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895949A (ja) * 1994-09-21 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> 時系列データの予測装置
WO2011135606A1 (ja) * 2010-04-26 2011-11-03 株式会社 日立製作所 時系列データ診断圧縮方法
CN106778014A (zh) * 2016-12-29 2017-05-31 浙江大学 一种基于循环神经网络的患病风险预测方法
CN107402921A (zh) * 2016-05-18 2017-11-28 阿里巴巴集团控股有限公司 识别用户行为的事件时序数据处理方法、装置及系统
CN108648020A (zh) * 2018-05-15 2018-10-12 携程旅游信息技术(上海)有限公司 用户行为量化方法、系统、设备及存储介质
CN109493979A (zh) * 2018-10-23 2019-03-19 平安科技(深圳)有限公司 一种基于智能决策的疾病预测方法和装置
CN109859854A (zh) * 2018-12-17 2019-06-07 中国科学院深圳先进技术研究院 传染病预测方法、装置、电子设备及计算机可读介质
CN109902862A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种融合时间注意力机制的时间序列预测系统
CN109934845A (zh) * 2019-03-15 2019-06-25 腾讯科技(深圳)有限公司 基于自注意力网络的时序行为捕捉框生成方法及装置
JP2019125306A (ja) * 2018-01-19 2019-07-25 国立研究開発法人科学技術振興機構 データ処理方法、データ処理装置およびプログラム
WO2019196286A1 (zh) * 2018-04-11 2019-10-17 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备
CN110738355A (zh) * 2019-09-19 2020-01-31 河源职业技术学院 一种基于神经网络的城市内涝预测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895949A (ja) * 1994-09-21 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> 時系列データの予測装置
WO2011135606A1 (ja) * 2010-04-26 2011-11-03 株式会社 日立製作所 時系列データ診断圧縮方法
CN107402921A (zh) * 2016-05-18 2017-11-28 阿里巴巴集团控股有限公司 识别用户行为的事件时序数据处理方法、装置及系统
CN106778014A (zh) * 2016-12-29 2017-05-31 浙江大学 一种基于循环神经网络的患病风险预测方法
JP2019125306A (ja) * 2018-01-19 2019-07-25 国立研究開発法人科学技術振興機構 データ処理方法、データ処理装置およびプログラム
WO2019196286A1 (zh) * 2018-04-11 2019-10-17 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
CN108648020A (zh) * 2018-05-15 2018-10-12 携程旅游信息技术(上海)有限公司 用户行为量化方法、系统、设备及存储介质
CN109493979A (zh) * 2018-10-23 2019-03-19 平安科技(深圳)有限公司 一种基于智能决策的疾病预测方法和装置
CN109859854A (zh) * 2018-12-17 2019-06-07 中国科学院深圳先进技术研究院 传染病预测方法、装置、电子设备及计算机可读介质
CN109902862A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种融合时间注意力机制的时间序列预测系统
CN109934845A (zh) * 2019-03-15 2019-06-25 腾讯科技(深圳)有限公司 基于自注意力网络的时序行为捕捉框生成方法及装置
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备
CN110738355A (zh) * 2019-09-19 2020-01-31 河源职业技术学院 一种基于神经网络的城市内涝预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张栗粽 等.面向金融数据的神经网络时间序列预测模型.计算机应用研究.2018,第第35卷卷(第第9期期),全文. *
戴倩雯 ; 张龙印 ; 孔芳 ; .融合依存关系和篇章修辞关系的事件时序关系识别.模式识别与人工智能.2019,(12),全文. *
陈德华 ; 殷苏娜 ; 乐嘉锦 ; 王梅 ; 潘乔 ; 朱立峰 ; .一种面向临床领域时序知识图谱的链接预测模型.计算机研究与发展.2017,(12),全文. *

Also Published As

Publication number Publication date
CN111370122A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111370122B (zh) 一种基于知识指导的时序数据风险预测方法、系统及其应用
CN112784965B (zh) 面向云环境下大规模多元时间序列数据异常检测方法
CN111367961B (zh) 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
Zhou et al. Remaining useful life prediction of bearings by a new reinforced memory GRU network
Chen et al. Time series data for equipment reliability analysis with deep learning
CN111382930B (zh) 一种面向时序数据的风险预测方法及系统
Jiang et al. A hybrid intelligent model for acute hypotensive episode prediction with large-scale data
Akpudo et al. Towards bearing failure prognostics: A practical comparison between data-driven methods for industrial applications
CN114298050A (zh) 模型的训练方法、实体关系抽取方法、装置、介质、设备
CN110838364A (zh) 一种基于深度学习混合模型的克罗恩病预测方法及装置
CN115983087A (zh) 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN116628510A (zh) 一种自训练可迭代的人工智能模型训练方法
CN116702831A (zh) 一种考虑数据大量丢失的混合短期风电功率预测方法
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN117408394A (zh) 电力系统的碳排放因子预测方法、装置及电子设备
Liang et al. Foundation models for time series analysis: A tutorial and survey
CN113076545A (zh) 一种基于深度学习的内核模糊测试序列生成方法
CN115952928B (zh) 一种短期电力负荷预测方法、装置、设备及存储介质
Liu et al. Residual useful life prognosis of equipment based on modified hidden semi-Markov model with a co-evolutional optimization method
CN116775918A (zh) 基于互补熵对比学习跨模态检索方法、系统、设备及介质
Tang et al. An improved bpnn prediction method based on multi-strategy sparrow search algorithm
CN116128082A (zh) 高速公路交通流量预测方法及电子设备
CN114613497A (zh) 基于gbdt样例级的病患样本的智能医学辅助诊断方法
CN114925808B (zh) 一种基于云网端资源中不完整时间序列的异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant