CN110942831B - 基于自注意力机制的孕期数据建模方法 - Google Patents

基于自注意力机制的孕期数据建模方法 Download PDF

Info

Publication number
CN110942831B
CN110942831B CN201911175168.5A CN201911175168A CN110942831B CN 110942831 B CN110942831 B CN 110942831B CN 201911175168 A CN201911175168 A CN 201911175168A CN 110942831 B CN110942831 B CN 110942831B
Authority
CN
China
Prior art keywords
data
pregnancy
basic
information
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911175168.5A
Other languages
English (en)
Other versions
CN110942831A (zh
Inventor
王静远
马元
杨英
李超
邹晓璇
胥芹
马旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haidian Maternal & Child Health Hospital
Institute Of Science And Technology National Health Commission
Beihang University
Original Assignee
Haidian Maternal & Child Health Hospital
Institute Of Science And Technology National Health Commission
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haidian Maternal & Child Health Hospital, Institute Of Science And Technology National Health Commission, Beihang University filed Critical Haidian Maternal & Child Health Hospital
Priority to CN201911175168.5A priority Critical patent/CN110942831B/zh
Publication of CN110942831A publication Critical patent/CN110942831A/zh
Application granted granted Critical
Publication of CN110942831B publication Critical patent/CN110942831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于自注意力机制的孕期数据建模方法,包括如下具体步骤:提取三大类型的数据,以一次孕产为基本单位整合各项信息,整理出孕产样本,进行数据预处理;使用融合时间信息的Transformer架构建模离散化的实验室数据,使用GRU‑ATN架构建模趋势性强的妊娠图数据;融合表征部分首先加入孕产基本信息,将三部分数据的进行拼接,使用带激活层的线性变换进一步融合多方面信息,得到最终表征。本发明提供了一种基于自注意力机制的孕期数据建模方法,主要利用自注意力等机制对数据进行建模,将原始的多元、高维、信息稀疏的输入数据转化为单一、低维,信息密集的输出数据,输出数据表征向量,用于进一步分析使用。

Description

基于自注意力机制的孕期数据建模方法
技术领域
本发明涉及数据挖掘技术领域,更具体的说是涉及基于自注意力机制的孕期数据建模方法。
背景技术
随着深度学习的发展,深度学习模型在医疗数据建模表征中使用也成为一个主要的方向。目前使用深度学习对电子病历数据进行建模表征时,首先对离散的医学事件向量进行表征,使用词向量技术,或构造特定的医学向量表征模型。其次,由于电子病历数据具有就诊的时间序列,因此常使用序列化建模模型循环神经网络,并添加注意力模型以提高解释性。在此基础上,可充分利用时间间隔特征,或使用多种注意力机制比较其效果。卷积神经网络也得到应用,主要在时间维度卷积以建模时间关系,并可使用多组长度不同的卷积核增加多样性,通过融合时间戳可进一步利用就诊中的时间信息。
但目前的表征模型中,缺乏对医学事件之间两两关系的建模,而自然语言处理领域中出现自注意力机制模型则能够很好解决这一问题。自注意力机制为序列化数据建模提供了新的视角,在多种自然语言处理问题中表现良好,并解决了循环网络模型难以深度化、并行化的问题,规避了卷积网络模型难以捕捉长距离特征的问题。
因此,如何提供一种基于自注意力机制的建模方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于自注意力机制的孕期数据建模方法,主要利用自注意力等机制对数据进行建模,将原始的多元、高维、信息稀疏的输入数据转化为单一、低维,信息密集的输出数据,输出数据表征向量,用于进一步分析使用。主要由数据预处理模块,处理三种不同类型的数据(实验室数据、妊娠图数据、孕产基本信息数据)以及最终的融合表征模块组成。数据首先进行预处理操作,其次输入到各自的表征模块进行表征,最后将结果输入融合表征层得到最终结果。根据最终的表征结果便于孕妇身体状况的监控。
为了实现上述目的,本发明提供如下技术方案:
一种基于自注意力机制的孕期数据建模方法,包括如下具体步骤:
数据预处理:提取实验室数据、妊娠图数据、孕产基本信息三大类型的数据,以一次孕产为基本单位整合各项信息,整理出孕产样本,进行数据预处理;
建立数据表征模型:使用融合时间信息的Transformer架构建模离散化的实验室数据,使用GRU-ATN架构建模趋势性强的妊娠图数据;
孕期数据表征:融合表征部分首先加入孕产基本信息,将三部分数据的进行拼接,使用带激活层的线性变换进一步融合多方面信息,得到最终表征。
优选的,在上述的一种基于自注意力机制的孕期数据建模方法中,所述数据预处理:
实验室数据预处理:通过统计实验室数据的出现次数,剔除在实验室数据条目中出现次数少于100的数据,并进行离散化,表示结果为实验室检查医学事件序列
Figure GDA0003799426500000021
时间戳为
Figure GDA0003799426500000022
第n个病人实验室医学事件序列的长度为M(n);定义选择的实验室医学事件数为din_lab,则每个医学事件维度为din_lab;部分医学事件序列的维度为M(n)×din_lab,时间戳序列的维度为M(n)
妊娠图数据预处理:使用z-score标准归一化公式进行归一化处理,表示结果为:全部检测项目值的时间序列
Figure GDA0003799426500000031
时间戳为孕周
Figure GDA0003799426500000032
第n个病人妊娠图序列的长度为L(n);定义选择的妊娠图检测项目数为din_pgraph,则该部分检测值序列的维度为L(n)×din_pgraph,时间戳序列的维度为L(n)
孕产基本信息预处理:使用z-score标准归一化公式进行归一化处理,预处理后的表示结果为元组
Figure GDA0003799426500000033
该部分维度为din_basic
通过上述的技术方案,本发明的技术效果:预处理部分的目的是将原始数据转换为可以理解的、适合进一步处理的格式,所使用的数据信息量丰富,数据来自多种不同来源并具有不同类型,且受采集过程影响存在不完整、不一致的、以及噪声(错误或异常值)的问题,因此需要对数据首先进行处理,避免低质量的数据导致低质量的建模结果。数据预处理的主要过程包括数据清洗(数据中重复、噪声、缺失值处理)、数据标准化、特征离散化、特征选择、特征构造等。
优选的,在上述的一种基于自注意力机制的孕期数据建模方法中,实验室数据表征的具体步骤:
(1)将实验室特征的原始编码映射为训练好的词向量;
(2)对实验室数据中的孕周时间信息进行编码对时间进行向量化表征和融合;采用向量相加的方式,将词向量和时间向量相加作为融合了时间信息的词表征结果vm,作为后续自注意力层的输入;
(3)引入自注意力模型,通过学习序列中事件间的关联权重建模事件间两两关系,在输出中根据权重融合其他事件的信息;
(4)使用前馈网络对自注意力得到的结果进行变换,对输入表征先后进行两次线性变换,得到最终整体实验室事件序列的表征结果。
通过上述的技术方案,本发明的技术效果:处理实验室数据的部分,参考了用于自然语言处理的Transformer模型的设计。依次包括词向量层、时间表征层、自注意力层、前馈层以及融合变换层。主要使用自注意力机制捕捉实验室离散事件之间的关系,以及通过时间表征层融合时间信息。
优选的,在上述的一种基于自注意力机制的孕期数据建模方法中,所述离散化实验室数据的步骤(3)中,利用多种不同的特征变换空间所表示的信息,从多个不同的角度计算相关性,增加使用多头机制;利用多组不同的线性变换参数,得到多头注意力,并将结果拼接。
优选的,在上述的一种基于自注意力机制的孕期数据建模方法中,使用GRU-ATN架构建模趋势性强的妊娠图数据具体步骤包括:
(1)以预处理的妊娠图检据作为输入,将检查数值与对应的当前孕周相拼接,输出为对于序列中每个时间片的数据表示结果;
(2)所述数据表示结果使用基于位置的注意力机制,以按重要性加权的方式融合序列中所有时间片向量的信息,对序列整体信息进行表征,输出妊娠图数据的最后表征结果。
优选的,在上述的一种基于自注意力机制的孕期数据建模方法中,孕产基本信息数据表征的具体步骤:输入为预处理后的孕产基本信息数据;输出为据表征结果向量,计算方法如下公式所示,对输入孕产基本信息数据inbasic进行线性变换,得到表征后结果ybasic,输入inbasic维度为所选择的孕产基本信息特征数目din_basic,输出结果ybasic维度为dbasic
ybasic=Wbasicinbasic
优选的,在上述的一种基于自注意力机制的孕期数据建模方法中,将三部分数据的进行拼接,使用带激活层的线性变换进一步融合多方面信息,得到最终表征具体步骤:首先将三部分数据的建模结果进行拼接,ylab,ypgraph,ybasic分别为实验室数据、妊娠图数据、孕产基本信息数据的最终表征结果;其次对拼接结果yall进行线性变换,得到最终表征结果ylast
yall=concat(ylab,ypgraph,ybasic)
ylast=Wlastyall+blast
输入数据ylab维度为dlab,ypgraph维度为dpgraph,ybasic维度为dbasic,输出最终结果维度为dlab+dpgraph+dbasic,输出最终结果维度为dlast;权重矩阵Wbasic维度为dbasic,Wlast维度为(dlab+dpgraph+dbasic)×dlast,偏置向量blast维度为dlast
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于自注意力机制的孕期数据建模方法,主要利用自注意力等机制对数据进行建模,将原始的多元、高维、信息稀疏的输入数据转化为单一、低维,信息密集的输出数据,输出数据表征向量,用于进一步分析使用。主要由数据预处理模块,处理三种不同类型的数据(实验室数据、妊娠图数据、孕产基本信息数据)以及最终的融合表征模块组成。数据首先进行预处理操作,其次输入到各自的表征模块进行表征,最后将结果输入融合表征层得到最终结果。根据最终的表征结果便于孕妇身体状况的监控。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的整体流程图;
图2附图为本发明的实验室数据表征流程图;
图3附图为本发明的多头机制流程图;
图4附图为本发明的妊娠图数据表征流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于自注意力机制的孕期数据建模方法,主要利用自注意力等机制对数据进行建模,将原始的多元、高维、信息稀疏的输入数据转化为单一、低维,信息密集的输出数据,输出数据表征向量,用于进一步分析使用。主要由数据预处理模块,处理三种不同类型的数据(实验室数据、妊娠图数据、孕产基本信息数据)以及最终的融合表征模块组成。数据首先进行预处理操作,其次输入到各自的表征模块进行表征,最后将结果输入融合表征层得到最终结果。根据最终的表征结果便于孕妇身体状况的监控。
如图1所示,一种基于自注意力机制的孕期数据建模方法,包括如下具体步骤:
数据预处理:提取实验室数据、妊娠图数据、孕产基本信息三大类型的数据,以一次孕产为基本单位整合各项信息,整理出孕产样本,进行数据预处理;
建立数据表征模型:使用融合时间信息的Transformer架构建模离散化的实验室数据,使用GRU-ATN架构建模趋势性强的妊娠图数据;
孕期数据表征:融合表征部分首先加入孕产基本信息,将三部分数据的进行拼接,使用带激活层的线性变换进一步融合多方面信息,得到最终表征。
需要了解的是:实验室项目包括血常规、尿常规、生化、血凝、肝肾功能等大类项目,大类中包括多个细分检查项目,如血常规中包括淋巴细胞绝对值、单核细胞绝对值、血小板比积、嗜碱细胞绝对值等小项,小项为实验室检查的最基本单元。全部检查项目中,一些项目是比较常见的,常规的产检项目,如血常规等,而另一些则出现很少,为医生根据病人特殊需要而开具的检查。该部分数据格式为实验室项目(小项)检查序列,其中一次检查包含检查项目名称,检查数值,以及检查时间。
实验室数据预处理:特征筛选,数据离散化。首先特征筛选通过统计实验室项目的出现次数,剔除了在全部数据条目中出现次数少于100的实验室项目。其次数据离散化使用国际通用的医学实验室检验指标标准对实验室数据进行离散化,引入医学知识以提高性能。其中有正常区间的检测项目进行了三分类,分别为正常,偏高和偏低。有阴性、阳性区分的检测项目按出现类别情况进行多分类,最多分类为5类,分别为阴性,弱阳性(+/-),阳性(1+),阳性(2+),阳性(3+)。数预处理后的表示结果为实验室检查医学事件序列
Figure GDA0003799426500000071
时间戳为
Figure GDA0003799426500000072
第n个病人实验室医学事件序列的长度为M(n)。这里将离散化后的每一次某种实验室检测值视为一个医学事件xm(如‘血红蛋白偏高’),并以热独编码(Onehotencoding)的形式表征。定义选择的实验室医学事件数为din_lab,则每个医学事件维度为din_lab。该部分医学事件序列的维度为M(n)×din_lab,时间戳序列的维度为M(n)。注意孕期中每次产检都可能检查多个项目,即同一个孕周可能有多个检查指标,这里将每种指标的值都视为一个独立的医学事件,以便后续对各个孕周的事件间关系进行详细分析。
妊娠图数据预处理:使用如下公式所示z-score标准归一化公式,假设数据服从正态分布,其中μ为样本均值,σ为样本方差,该方法优势在于能较好对数据中的离群点进行表示。缺失值填充为该项目均值。
Figure GDA0003799426500000073
该部分数据预处理后的表示结果为:全部检测项目值的时间序列
Figure GDA0003799426500000074
时间戳为孕周
Figure GDA0003799426500000075
第n个病人妊娠图序列的长度为L(n)。定义选择的妊娠图检测项目数为din_pgraph,则该部分检测值序列的维度为L(n)×din_pgraph,时间戳序列的维度为L(n)。注意对一个样本包涵实验室、妊娠图两个时间序列,两序列的时间不一定重叠。
孕产基本信息预处理:使用z-score标准归一化公式进行归一化处理,预处理后的表示结果为元组
Figure GDA0003799426500000081
该部分维度为din_basic
如图2所示,依次包括词向量层、时间表征层、自注意力层、前馈网络层以及融合表征层。主要使用自注意力机制捕捉实验室离散事件之间的关系,以及通过时间表征层融合时间信息。输入为预处理后的实验室数据,即医学事件序列
Figure GDA0003799426500000082
(以下省略记M(n)为M),输出为数据的表征向量ylab,输出维度为dlab。其中一个与自注意力层与一个前馈层组成一个自注意力单元,该单元重复N次。第N个单元的输入为第N-1单元的输出,第一个单元的输入为时间表征层的输出,最后一个单元的输出为融合变换层的输入。
为了进一步优化上述技术方案,离实验室数据表征的具体步骤:
(1)将实验室特征的原始编码映射为训练好的词向量;过程如下公式所示。其中对于初始事件序列中的事件xm,wm为词向量的表示结果,M为事件序列长度。Wemb为预训练好的词向量映射矩阵,其维度中done-hot为原始数据的特征维度,demb为词向量的维度。
Figure GDA0003799426500000083
(2)对实验室数据中的孕周时间信息进行编码对时间进行向量化表征和融合;主要使用如下公式;其中输入xtm为事件xm对应的孕周时间戳,时间表征结果为tm。为方便与xm的事件信息融合,本模型中tm的输出维度与词向量vm维度相同,同样设定为demb。tm中每一输出维度j,j∈[1,dmodel]的数值可由如下公式计算,其中奇数编号的维度和偶数编号的维度分别使用不同的公式。
vm=wm+tm
Figure GDA0003799426500000091
Figure GDA0003799426500000092
采用向量相加的方式,将词向量和时间向量相加作为融合了时间信息的词表征结果vm,作为后续自注意力层的输入。使得孕周的时间信息可以很很好的融入后续自注意力以及前馈网络的多层模块中。使用公式化的表征方式相对于学习表征向量的方法,首先在模型性能上没有太多损失,其次降低了模型的训练难度,公式的设计中三角函数的应用也使相对时间信息的表征成为可能。
(3)引入自注意力模型,通过学习序列中事件间的关联权重建模事件间两两关系,在输出中根据权重融合其他事件的信息;模型实际具有多个自注意力层,每层输入、输出与其他模块的衔接关系不尽相同。此处统一记某个注意力层的输入为a1,a2,...aM,输出为a'1,a'2,...a'M。其中自注意力部分的第一层输入为时间表征层的输出,即a1,a2,...aM=v1,v2,...vM。主要计算方法如下公式所示。对序列中每一个输入事件am,m∈[1,M],其输出为a'm,首先计算am与序列中所有其他事件(包括其自身)an,n∈[1,M]的注意力权重αmn,其次按照权重对这些事件的值加权。在计算权重时使用an的信息为其自身,而在加权时其取值也为其自身,因此构成自注意力方法。该式中使用WV对待加权的输入做线性变换,变换将事件an从原始特征空间映射到新的特征空间,通常能够更好捕捉到数据中潜在的特性。该模块输入am维度为demb,输出a'm维度为dsize,参数WV维度为demb×dsize
Figure GDA0003799426500000093
其中具体的注意力权重αmn主要由参与计算的两个事件决定,如以下公式所示。首先分别对两个事件分别进行线性变换,通常am称为待查元素(query),an为键值元素(key),因此分别使用WQ,WK来表示两组不同的线性变换权重
Figure GDA0003799426500000101
使用矩阵乘法计算线性变换后两事件的相关关系,并使用范围变换因子
Figure GDA0003799426500000102
对数值范围变换,得到相关性表征数值emn∈[-∞,+∞]。对所有的emn,n∈[1,M(n)],使用softmax进行归一化(公式中为避免重复,使用ems,s∈[1,M]为同样意义),所得到的注意力权重为数值αmn∈[0,1]。该部分参数WQ,WK维度与上述WV均为demb×dsize
Figure GDA0003799426500000103
Figure GDA0003799426500000104
(4)使用前馈网络层对自注意力得到的结果进行变换,对输入表征先后进行两次线性变换,得到最终整体实验室事件序列的表征结果;
输入为自注意力机制层输出a'm,输出为前馈变换后结果fm,主要计算为对输入表征先后进行两次线性变换,如下公式所示。
fm=ReLU(a'mW1+b1)W2+b2
第一次线性变换权重参数为W1,偏置参数为b1,并使用ReLU激活函数进行非线性映射。ReLU函数定义如下公式所示。
ReLU(x)=max(x,0)
第二次线性变换输入为第一次线性变换的结果,权重参数为W2,偏置参数为b2,不使用激活函数,输出即为前馈网络层最终输出。前馈网络层的输入a'm维度和输出fm均保持为dmodel,两次变换的中间结果维度为dff,前馈网络层中参数维度设置如下公式所示。
Figure GDA0003799426500000105
Figure GDA0003799426500000106
融合表征层输入为最后一个前馈网络层的输出,输出为实验室数据最终表示结果。主要使用线性变换。如下公式所示,输入f=f1,f2,...fM为序列中所有事件的前馈网络层表征矩阵,维度为L×dmodel。输出为序列整体表征向量ylab,维度为dlab。其中权重矩阵Wlab维度为dmodel×dlab,偏置向量blab维度为dlab
ylab=Wlabf+blab
为了进一步优化上述技术方案,所述步骤(3)中,利用多种不同的特征变换空间所表示的信息,从多个不同的角度计算相关性,增加使用多头机制;
多头机制输入为多次自注意力层的结果,输出为多头注意力融合的表征结果。主要使用多组不同的线性变换参数,得到多头注意力,并将结果拼接。如下图3所示。
主要计算方法如下公式所示。对于某一输入向量am,得到多组不同的注意力表征,将多组结果拼接作为输出a'm。共设置h∈[1,H]个注意力头,即H组不同的参数,每组参数分别包括对应的
Figure GDA0003799426500000111
使用上节所述公式计算,使用该组参数中的
Figure GDA0003799426500000112
得到注意力权重值
Figure GDA0003799426500000113
进一步使用
Figure GDA0003799426500000114
得到注意力表征结果
Figure GDA0003799426500000115
最后将多组结果拼接,符号∪表示拼接操作。该模块输入am维度为dsize,输出a'm维度为dmodel,其中dmodel=H×dsize
Figure GDA0003799426500000116
自注意力部分很好地捕捉了任何两两医学事件之间的关系,这种关系在目前针对电子病历数据的预测建模中是缺乏的。该部分的并行化特性也使得对于大规模数据的处理,在时间上更加有优势。相比而言,Health-ATM的模型中首先使用RNN架构对所有的医学事件建模,其次用CNN进一步融合不同时间片之间诊疗的关系同一时间中不同症状之间的关系。但因为同一时间片中的不同事件之间并没有时间上的依赖关系,因此首先使用RNN这种考虑序列中顺序依赖关系的建模方式是缺乏合理性的。而自注意力的架构没有明确限制输入需要具有时间上顺序的关联,而是捕捉任何可能的两两关系,通过多层捕捉进行建模,因此更加适用目前的场景。仅仅使用自注意力就能完成多层次的建模目的,相对于额外加入CNN的架构更加简洁清晰。
妊娠图表征模块捕捉妊娠图检查指标随时间变化的趋势。输入为预处理后的妊娠图数据,即妊娠图检测序列
Figure GDA0003799426500000121
(以下省略记L(n)为L),输出为妊娠图数据表征向量ypgraph,输出维度为dpgraph。主要采用循环神经网络以及注意力机制,以符合序列化建模场景,并捕捉不同时间输入的重要性,如下图4所示。
主要使用GRU模块保证了每个时间片的表征结果都蕴含了前一个以及多个时间片的数据信息。GRU模块的输入处理以及计算输出的基本方法如下公式所示;
hl=GRU(hl-1l),l∈[1,L]
ρl=concat(pl,ptl);
其中pl为序列中某次妊娠图全部多项检查结果,ptl为对应的当前孕周时间戳,ρl为拼接后结果作为GRU模型的输入;
GRU模块的基本计算公式为每个时间片的输出hl,l∈[1,L]由该时间片的输入ρl以及上一时间片GRU的输出结果hl-1决定,这两部分的输入送入基本的GRU(hl-1l)计算单元。计算单元包括一组含参数的计算公式,其中公式本身不随时间片变化,而其中的参数随着时间片不断得到训练更新。GRU模块的输入pl维度为din_pgraph,din_pgraph为所选择的妊娠图检测项目的个数,ptl为标量维度为1,因此ρl维度为din_pgraph+1,定义GRU隐藏层以及输出hl维度为dGRU
具体而言,使用标准的GRU模型,其计算单元GRU(hl-1l)内部的公式如下(标准GRU公式中采用ht代替hl,采用xt代替ρl)。
zt=σ(Wzxt+Uzht-1)
rt=σ(Wtxt+Utht-1)
ht=tanh(Wxt+U(rtoht-1))
ht=(1-zt)oht-1+ztoht
该公式中输入时间序列为xt,GRU隐藏单元为ht,候选输出单元为ht,门运算单元分别为更新门zt和重置门rt。更新门zt用于控制当前候选输出单元的信息ht(包含当前输入信息)被带入到当前状态中的程度,其值越大说明当前候选输出单元的信息带入越多。重置门rt用于控制前一时刻的状态信息ht-1被写入到当前的候选集ht上的程度,其值越大前一状态的信息被写入的越多。
GRU模块通过以上两种门运算单元将重要特征保留,保证了长时间序列建模时信息得以在传播时保留,因此能够捕捉时间序列中的长距离依赖关系,性能明显优于普通的RNN。此外GRU模块相对于LSTM模型减少了一个门函数,因此在参数的数量较少,整体上训练速度要优于LSTM。
经GRU模块处理的数据作为输入使用基于RNN(具体本文使用GRU)输出的注意力机制,使得模型能够学习到不同时间片的输入数据对预测结果的不同影响力。
自注意力机制模块的输入为上述GRU模块的输出,即序列中每个时间片分别对应一个表征向量。该模块的输出为序列整体的注意力表征结果,即输出妊娠图检测值序列的注意力表征向量。该模块主要使用基于位置的注意力机制,以按重要性加权的方式融合序列中所有时间片向量的信息,更好对序列整体信息进行表征。作为妊娠图数据处理部分的最后一层,该模块的输出即为妊娠图数据的最后表征结果,可拼接到整体模型最后一层进行融合。
该模块的主要计算方法如下公式所示。其中该模块输入记为h=h1,h2,...hL,输出为hatn。同时作为妊娠图部分的表征输出ypgraph=hatn。输出将输入序列中所有时间片的向量hl相加,并且给予不同的权重αl。该模块的输入h维度为L×dGRU,输出hatn维度为dGRU,中间结果权重αl为标量,维度为1。
Figure GDA0003799426500000141
具体的权重αl的计算方法如下公式所示。首先根据每个时间片的向量hl计算初步权重值el∈[-∞,+∞](标量,维度为1),其次对所有时间片的el归一化得到最终的权重结果αl∈[0,1]。el的计算主要由输入hl决定,进行基本的线性变换,通过定义可学习的权重和偏置参数以学习注意力权重。权重矩阵Wα维度为dGRU×datn,Wo维度为datn,偏置向量维度为datn
Figure GDA0003799426500000142
el=(Wαhl+bα)Wo
为了进一步优化上述技术方案,孕产基本信息数据表征的具体步骤:输入为预处理后的孕产基本信息数据;输出为据表征结果向量,计算方法如下公式所示,对输入孕产基本信息数据inbasic进行线性变换,得到表征后结果ybasic,输入inbasic维度为所选择的孕产基本信息特征数目din_basic,输出结果ybasic维度为dbasic
ybasic=Wbasicinbasic
为了进一步优化上述技术方案,将三部分数据的进行拼接,使用带激活层的线性变换进一步融合多方面信息,得到最终表征具体步骤:首先将三部分数据的建模结果进行拼接,ylab,ypgraph,ybasic分别为实验室数据、妊娠图数据、孕产基本信息数据的最终表征结果;其次对拼接结果yall进行线性变换,得到最终表征结果ylast
yall=concat(ylab,ypgraph,ybasic)
ylast=Wlastyall+blast
输入数据ylab维度为dlab,ypgraph维度为dpgraph,ybasic维度为dbasic,输出最终结果维度为dlab+dpgraph+dbasic,输出最终结果维度为dlast;权重矩阵Wbasic维度为dbasic,Wlast维度为(dlab+dpgraph+dbasic)×dlast,偏置向量blast维度为dlast
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种基于自注意力机制的孕期数据建模方法,其特征在于,包括如下具体步骤:
数据预处理:提取实验室数据、妊娠图数据、孕产基本信息三大类型的数据,以一次孕产为基本单位整合各项信息,整理出孕产样本,进行数据预处理;
(1)实验室数据预处理:通过统计实验室数据的出现次数,剔除在实验室数据条目中出现次数少于100的数据,并进行离散化,表示结果为实验室检查医学事件序列
Figure FDA0003799426490000011
时间戳为
Figure FDA0003799426490000012
第n个病人实验室医学事件序列的长度为M(n);定义选择的实验室医学事件数为din_lab,则每个医学事件维度为din_lab;部分医学事件序列的维度为M(n)×din_lab,时间戳序列的维度为M(n)
(2)妊娠图数据预处理:使用z-score标准归一化公式进行归一化处理,表示结果为:全部检测项目值的时间序列
Figure FDA0003799426490000013
时间戳为孕周
Figure FDA0003799426490000014
第n个病人妊娠图序列的长度为L(n);定义选择的妊娠图检测项目数为din_pgraph,则该部分检测值序列的维度为L(n)×din_pgraph,时间戳序列的维度为L(n)
孕产基本信息预处理:使用z-score标准归一化公式进行归一化处理,预处理后的表示结果为元组
Figure FDA0003799426490000015
该部分维度为din_basic
建立数据表征模型:使用融合时间信息的Transformer架构建模离散化的实验室数据,使用GRU-ATN架构建模趋势性强的妊娠图数据;
实验室数据表征的具体步骤:
(1)将实验室特征的原始编码映射为训练好的词向量;
(2)对实验室数据中的孕周时间信息进行编码对时间进行向量化表征和融合;采用向量相加的方式,将词向量和时间向量相加作为融合了时间信息的词表征结果vm,作为后续自注意力层的输入;
(3)引入自注意力模型,通过学习序列中事件间的关联权重建模事件间两两关系,在输出中根据权重融合其他事件的信息;
(4)使用前馈网络对自注意力得到的结果进行变换,对输入表征先后进行两次线性变换,得到最终整体实验室事件序列的表征结果;
孕期数据表征:融合表征部分首先加入孕产基本信息,将三部分数据的进行拼接,使用带激活层的线性变换融合多方面信息,得到最终表征。
2.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法,其特征在于,所述步骤(3)中,利用多种不同的特征变换空间所表示的信息,从多个不同的角度计算相关性,增加使用多头机制;利用多组不同的线性变换参数,得到多头注意力,并将结果拼接。
3.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法,其特征在于,使用GRU-ATN架构建模趋势性强的妊娠图数据具体步骤包括:
(1)以预处理的妊娠图检据作为输入,将检查数值与对应的当前孕周相拼接,输出为对于序列中每个时间片的数据表示结果;
(2)所述数据表示结果使用基于位置的注意力机制,以按重要性加权的方式融合序列中所有时间片向量的信息,对序列整体信息进行表征,输出妊娠图数据的最后表征结果。
4.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法,其特征在于,孕产基本信息数据表征的具体步骤:输入为预处理后的孕产基本信息数据;输出为据表征结果向量,计算方法如下公式所示,对输入孕产基本信息数据inbasic进行线性变换,得到表征后结果ybasic,输入inbasic维度为所选择的孕产基本信息特征数目din_basic,输出结果ybasic维度为dbasic
ybasic=Wbasicinbasic
5.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法,其特征在于,将三部分数据的进行拼接,使用带激活层的线性变换进一步融合多方面信息,得到最终表征具体步骤:首先将三部分数据的建模结果进行拼接,ylab,ypgraph,ybasic分别为实验室数据、妊娠图数据、孕产基本信息数据的最终表征结果;其次对拼接结果yall进行线性变换,得到最终表征结果ylast
yall=concat(ylab,ypgraph,ybasic)
ylast=Wlastyall+blast
输入数据ylab维度为dlab,ypgraph维度为dpgraph,ybasic维度为dbasic,输出最终结果维度为dlab+dpgraph+dbasic,输出最终结果维度为dlast;权重矩阵Wbasic维度为dbasic,Wlast维度为(dlab+dpgraph+dbasic)×dlast,偏置向量blast维度为dlast
CN201911175168.5A 2019-11-26 2019-11-26 基于自注意力机制的孕期数据建模方法 Active CN110942831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911175168.5A CN110942831B (zh) 2019-11-26 2019-11-26 基于自注意力机制的孕期数据建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911175168.5A CN110942831B (zh) 2019-11-26 2019-11-26 基于自注意力机制的孕期数据建模方法

Publications (2)

Publication Number Publication Date
CN110942831A CN110942831A (zh) 2020-03-31
CN110942831B true CN110942831B (zh) 2022-10-11

Family

ID=69908643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911175168.5A Active CN110942831B (zh) 2019-11-26 2019-11-26 基于自注意力机制的孕期数据建模方法

Country Status (1)

Country Link
CN (1) CN110942831B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784303B (zh) * 2020-07-06 2023-08-22 泰康保险集团股份有限公司 核保信息处理方法、装置、计算机存储介质及电子设备
CN112164468B (zh) * 2020-10-09 2023-04-07 北京航空航天大学 一种孕期检查数据的缺失数据处理方法
CN112802467B (zh) * 2020-12-21 2024-05-31 出门问问(武汉)信息科技有限公司 语音识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231148A (zh) * 2018-02-05 2018-06-29 深圳市是源医学科技有限公司 孕期数据处理方法、系统、计算机设备和存储介质
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN110111901A (zh) * 2019-05-16 2019-08-09 湖南大学 基于rnn神经网络的可迁移病人分类系统
CN110196946A (zh) * 2019-05-29 2019-09-03 华南理工大学 一种基于深度学习的个性化推荐方法
CN110348019A (zh) * 2019-07-17 2019-10-18 南通大学 一种基于注意力机制的医疗实体向量转化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980746B (zh) * 2016-12-16 2021-01-26 清华大学 一种基于时序分析的通用无创血糖预测方法
US10831773B2 (en) * 2017-03-01 2020-11-10 Next Pathway Inc. Method and system for parallelization of ingestion of large data sets

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231148A (zh) * 2018-02-05 2018-06-29 深圳市是源医学科技有限公司 孕期数据处理方法、系统、计算机设备和存储介质
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN110111901A (zh) * 2019-05-16 2019-08-09 湖南大学 基于rnn神经网络的可迁移病人分类系统
CN110196946A (zh) * 2019-05-29 2019-09-03 华南理工大学 一种基于深度学习的个性化推荐方法
CN110348019A (zh) * 2019-07-17 2019-10-18 南通大学 一种基于注意力机制的医疗实体向量转化方法

Also Published As

Publication number Publication date
CN110942831A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN110942831B (zh) 基于自注意力机制的孕期数据建模方法
CN109659033B (zh) 一种基于循环神经网络的慢性疾病病情变化事件预测装置
Glymour et al. Causal diagrams
Frazier et al. Robust approximate Bayesian inference with synthetic likelihood
US10504030B2 (en) Systems, methods, and computer program products for generating a query specific Bayesian network
CN104572583B (zh) 用于数据致密化的方法和系统
Suo et al. Recurrent imputation for multivariate time series with missing values
CN108090686B (zh) 一种医疗事件风险评估分析方法及系统
CN114864099B (zh) 一种基于因果关系挖掘的临床数据自动化生成方法及系统
CN113177666A (zh) 一种基于非侵入式注意力预处理过程与BiLSTM模型的预测方法
Wang et al. Learning fine-grained patient similarity with dynamic bayesian network embedded RNNs
CN115579141A (zh) 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置
JP2019525133A (ja) 生体現象の時間的進行の判定方法ならびに関連する方法および装置
CN114300081B (zh) 基于电子病历多模态数据的预测设备、系统和存储介质
Lataniotis Data-driven uncertainty quantification for high-dimensional engineering problems
Zhang et al. Medical diagnosis from laboratory tests by combining generative and discriminative learning
CN117765530A (zh) 一种多模态脑网络分类方法、系统、电子设备及介质
El-Bashbishy et al. Pediatric diabetes prediction using deep learning
Nissimagoudar et al. AlertNet: Deep convolutional-recurrent neural network model for driving alertness detection
CN114724630B (zh) 用于预测蛋白质翻译后修饰位点的深度学习方法
CN115410642A (zh) 一种生物关系网络信息建模方法与系统
CN112086174B (zh) 一种三维知识诊断模型构建方法和系统
Mahmoud et al. On bivariate compound exponentiated survival function of the beta distribution: estimation and prediction
Ma et al. A recurrent gated unit-based mixture kriging machine Bayesian filtering approach for long-term prediction of dynamic intermittency
CN116125922B (zh) 一种基于平行式字典学习的复杂工业过程监测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant