CN110942831B

CN110942831B - 基于自注意力机制的孕期数据建模方法

Info

Publication number: CN110942831B
Application number: CN201911175168.5A
Authority: CN
Inventors: 王静远; 马元; 杨英; 李超; 邹晓璇; 胥芹; 马旭
Original assignee: Haidian Maternal & Child Health Hospital; Institute Of Science And Technology National Health Commission; Beihang University
Current assignee: Haidian Maternal & Child Health Hospital; Institute Of Science And Technology National Health Commission; Beihang University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-10-11
Anticipated expiration: 2039-11-26
Also published as: CN110942831A

Abstract

本发明公开了一种基于自注意力机制的孕期数据建模方法，包括如下具体步骤：提取三大类型的数据，以一次孕产为基本单位整合各项信息，整理出孕产样本，进行数据预处理；使用融合时间信息的Transformer架构建模离散化的实验室数据，使用GRU‑ATN架构建模趋势性强的妊娠图数据；融合表征部分首先加入孕产基本信息，将三部分数据的进行拼接，使用带激活层的线性变换进一步融合多方面信息，得到最终表征。本发明提供了一种基于自注意力机制的孕期数据建模方法，主要利用自注意力等机制对数据进行建模，将原始的多元、高维、信息稀疏的输入数据转化为单一、低维，信息密集的输出数据，输出数据表征向量，用于进一步分析使用。

Description

基于自注意力机制的孕期数据建模方法

技术领域

本发明涉及数据挖掘技术领域，更具体的说是涉及基于自注意力机制的孕期数据建模方法。

背景技术

随着深度学习的发展，深度学习模型在医疗数据建模表征中使用也成为一个主要的方向。目前使用深度学习对电子病历数据进行建模表征时，首先对离散的医学事件向量进行表征，使用词向量技术，或构造特定的医学向量表征模型。其次，由于电子病历数据具有就诊的时间序列，因此常使用序列化建模模型循环神经网络，并添加注意力模型以提高解释性。在此基础上，可充分利用时间间隔特征，或使用多种注意力机制比较其效果。卷积神经网络也得到应用，主要在时间维度卷积以建模时间关系，并可使用多组长度不同的卷积核增加多样性，通过融合时间戳可进一步利用就诊中的时间信息。

但目前的表征模型中，缺乏对医学事件之间两两关系的建模，而自然语言处理领域中出现自注意力机制模型则能够很好解决这一问题。自注意力机制为序列化数据建模提供了新的视角，在多种自然语言处理问题中表现良好，并解决了循环网络模型难以深度化、并行化的问题，规避了卷积网络模型难以捕捉长距离特征的问题。

因此，如何提供一种基于自注意力机制的建模方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于自注意力机制的孕期数据建模方法，主要利用自注意力等机制对数据进行建模，将原始的多元、高维、信息稀疏的输入数据转化为单一、低维，信息密集的输出数据，输出数据表征向量，用于进一步分析使用。主要由数据预处理模块，处理三种不同类型的数据(实验室数据、妊娠图数据、孕产基本信息数据)以及最终的融合表征模块组成。数据首先进行预处理操作，其次输入到各自的表征模块进行表征，最后将结果输入融合表征层得到最终结果。根据最终的表征结果便于孕妇身体状况的监控。

为了实现上述目的，本发明提供如下技术方案：

一种基于自注意力机制的孕期数据建模方法，包括如下具体步骤：

数据预处理：提取实验室数据、妊娠图数据、孕产基本信息三大类型的数据，以一次孕产为基本单位整合各项信息，整理出孕产样本，进行数据预处理；

建立数据表征模型：使用融合时间信息的Transformer架构建模离散化的实验室数据，使用GRU-ATN架构建模趋势性强的妊娠图数据；

孕期数据表征：融合表征部分首先加入孕产基本信息，将三部分数据的进行拼接，使用带激活层的线性变换进一步融合多方面信息，得到最终表征。

优选的，在上述的一种基于自注意力机制的孕期数据建模方法中，所述数据预处理：

实验室数据预处理：通过统计实验室数据的出现次数，剔除在实验室数据条目中出现次数少于100的数据，并进行离散化，表示结果为实验室检查医学事件序列

时间戳为

第n个病人实验室医学事件序列的长度为M⁽ⁿ⁾；定义选择的实验室医学事件数为d_{in_lab}，则每个医学事件维度为d_{in_lab}；部分医学事件序列的维度为M⁽ⁿ⁾×d_{in_lab}，时间戳序列的维度为M⁽ⁿ⁾。

妊娠图数据预处理：使用z－score标准归一化公式进行归一化处理，表示结果为：全部检测项目值的时间序列

时间戳为孕周

第n个病人妊娠图序列的长度为L⁽ⁿ⁾；定义选择的妊娠图检测项目数为d_{in_pgraph}，则该部分检测值序列的维度为L⁽ⁿ⁾×d_{in_pgraph}，时间戳序列的维度为L⁽ⁿ⁾；

孕产基本信息预处理：使用z－score标准归一化公式进行归一化处理，预处理后的表示结果为元组

该部分维度为d_{in_basic}。

通过上述的技术方案，本发明的技术效果：预处理部分的目的是将原始数据转换为可以理解的、适合进一步处理的格式，所使用的数据信息量丰富，数据来自多种不同来源并具有不同类型，且受采集过程影响存在不完整、不一致的、以及噪声(错误或异常值)的问题，因此需要对数据首先进行处理，避免低质量的数据导致低质量的建模结果。数据预处理的主要过程包括数据清洗(数据中重复、噪声、缺失值处理)、数据标准化、特征离散化、特征选择、特征构造等。

优选的，在上述的一种基于自注意力机制的孕期数据建模方法中，实验室数据表征的具体步骤：

(1)将实验室特征的原始编码映射为训练好的词向量；

(2)对实验室数据中的孕周时间信息进行编码对时间进行向量化表征和融合；采用向量相加的方式，将词向量和时间向量相加作为融合了时间信息的词表征结果v_m，作为后续自注意力层的输入；

(3)引入自注意力模型，通过学习序列中事件间的关联权重建模事件间两两关系，在输出中根据权重融合其他事件的信息；

(4)使用前馈网络对自注意力得到的结果进行变换，对输入表征先后进行两次线性变换，得到最终整体实验室事件序列的表征结果。

通过上述的技术方案，本发明的技术效果：处理实验室数据的部分，参考了用于自然语言处理的Transformer模型的设计。依次包括词向量层、时间表征层、自注意力层、前馈层以及融合变换层。主要使用自注意力机制捕捉实验室离散事件之间的关系，以及通过时间表征层融合时间信息。

优选的，在上述的一种基于自注意力机制的孕期数据建模方法中，所述离散化实验室数据的步骤(3)中，利用多种不同的特征变换空间所表示的信息，从多个不同的角度计算相关性，增加使用多头机制；利用多组不同的线性变换参数，得到多头注意力，并将结果拼接。

优选的，在上述的一种基于自注意力机制的孕期数据建模方法中，使用GRU-ATN架构建模趋势性强的妊娠图数据具体步骤包括：

(1)以预处理的妊娠图检据作为输入，将检查数值与对应的当前孕周相拼接，输出为对于序列中每个时间片的数据表示结果；

(2)所述数据表示结果使用基于位置的注意力机制，以按重要性加权的方式融合序列中所有时间片向量的信息，对序列整体信息进行表征，输出妊娠图数据的最后表征结果。

优选的，在上述的一种基于自注意力机制的孕期数据建模方法中，孕产基本信息数据表征的具体步骤：输入为预处理后的孕产基本信息数据；输出为据表征结果向量，计算方法如下公式所示，对输入孕产基本信息数据in_basic进行线性变换，得到表征后结果y_basic，输入in_basic维度为所选择的孕产基本信息特征数目d_{in_basic}，输出结果y_basic维度为d_basic；

y_basic＝W_basicin_basic。

优选的，在上述的一种基于自注意力机制的孕期数据建模方法中，将三部分数据的进行拼接，使用带激活层的线性变换进一步融合多方面信息，得到最终表征具体步骤：首先将三部分数据的建模结果进行拼接，y_lab,y_pgraph,y_basic分别为实验室数据、妊娠图数据、孕产基本信息数据的最终表征结果；其次对拼接结果y_all进行线性变换，得到最终表征结果y_last；

y_all＝concat(y_lab,y_pgraph,y_basic)

y_last＝W_lasty_all+b_last

输入数据y_lab维度为d_lab，y_pgraph维度为d_pgraph，y_basic维度为d_basic，输出最终结果维度为d_lab+d_pgraph+d_basic，输出最终结果维度为d_last；权重矩阵W_basic维度为d_basic，W_last维度为(d_lab+d_pgraph+d_basic)×d_last，偏置向量b_last维度为d_last。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于自注意力机制的孕期数据建模方法，主要利用自注意力等机制对数据进行建模，将原始的多元、高维、信息稀疏的输入数据转化为单一、低维，信息密集的输出数据，输出数据表征向量，用于进一步分析使用。主要由数据预处理模块，处理三种不同类型的数据(实验室数据、妊娠图数据、孕产基本信息数据)以及最终的融合表征模块组成。数据首先进行预处理操作，其次输入到各自的表征模块进行表征，最后将结果输入融合表征层得到最终结果。根据最终的表征结果便于孕妇身体状况的监控。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的整体流程图；

图2附图为本发明的实验室数据表征流程图；

图3附图为本发明的多头机制流程图；

图4附图为本发明的妊娠图数据表征流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于自注意力机制的孕期数据建模方法，主要利用自注意力等机制对数据进行建模，将原始的多元、高维、信息稀疏的输入数据转化为单一、低维，信息密集的输出数据，输出数据表征向量，用于进一步分析使用。主要由数据预处理模块，处理三种不同类型的数据(实验室数据、妊娠图数据、孕产基本信息数据)以及最终的融合表征模块组成。数据首先进行预处理操作，其次输入到各自的表征模块进行表征，最后将结果输入融合表征层得到最终结果。根据最终的表征结果便于孕妇身体状况的监控。

如图1所示，一种基于自注意力机制的孕期数据建模方法，包括如下具体步骤：

需要了解的是：实验室项目包括血常规、尿常规、生化、血凝、肝肾功能等大类项目，大类中包括多个细分检查项目，如血常规中包括淋巴细胞绝对值、单核细胞绝对值、血小板比积、嗜碱细胞绝对值等小项，小项为实验室检查的最基本单元。全部检查项目中，一些项目是比较常见的，常规的产检项目，如血常规等，而另一些则出现很少，为医生根据病人特殊需要而开具的检查。该部分数据格式为实验室项目(小项)检查序列，其中一次检查包含检查项目名称，检查数值，以及检查时间。

实验室数据预处理：特征筛选，数据离散化。首先特征筛选通过统计实验室项目的出现次数，剔除了在全部数据条目中出现次数少于100的实验室项目。其次数据离散化使用国际通用的医学实验室检验指标标准对实验室数据进行离散化，引入医学知识以提高性能。其中有正常区间的检测项目进行了三分类，分别为正常，偏高和偏低。有阴性、阳性区分的检测项目按出现类别情况进行多分类，最多分类为5类，分别为阴性，弱阳性(+/-)，阳性(1+)，阳性(2+)，阳性(3+)。数预处理后的表示结果为实验室检查医学事件序列

时间戳为

第n个病人实验室医学事件序列的长度为M⁽ⁿ⁾。这里将离散化后的每一次某种实验室检测值视为一个医学事件x_m(如‘血红蛋白偏高’)，并以热独编码(Onehotencoding)的形式表征。定义选择的实验室医学事件数为d_{in_lab}，则每个医学事件维度为d_{in_lab}。该部分医学事件序列的维度为M⁽ⁿ⁾×d_{in_lab}，时间戳序列的维度为M⁽ⁿ⁾。注意孕期中每次产检都可能检查多个项目，即同一个孕周可能有多个检查指标，这里将每种指标的值都视为一个独立的医学事件，以便后续对各个孕周的事件间关系进行详细分析。

妊娠图数据预处理：使用如下公式所示z－score标准归一化公式，假设数据服从正态分布，其中μ为样本均值，σ为样本方差，该方法优势在于能较好对数据中的离群点进行表示。缺失值填充为该项目均值。

该部分数据预处理后的表示结果为：全部检测项目值的时间序列

时间戳为孕周

第n个病人妊娠图序列的长度为L⁽ⁿ⁾。定义选择的妊娠图检测项目数为d_{in_pgraph}，则该部分检测值序列的维度为L⁽ⁿ⁾×d_{in_pgraph}，时间戳序列的维度为L⁽ⁿ⁾。注意对一个样本包涵实验室、妊娠图两个时间序列，两序列的时间不一定重叠。

该部分维度为d_{in_basic}。

如图2所示，依次包括词向量层、时间表征层、自注意力层、前馈网络层以及融合表征层。主要使用自注意力机制捕捉实验室离散事件之间的关系，以及通过时间表征层融合时间信息。输入为预处理后的实验室数据，即医学事件序列

(以下省略记M⁽ⁿ⁾为M)，输出为数据的表征向量y_lab，输出维度为d_lab。其中一个与自注意力层与一个前馈层组成一个自注意力单元，该单元重复N次。第N个单元的输入为第N-1单元的输出，第一个单元的输入为时间表征层的输出，最后一个单元的输出为融合变换层的输入。

为了进一步优化上述技术方案，离实验室数据表征的具体步骤：

(1)将实验室特征的原始编码映射为训练好的词向量；过程如下公式所示。其中对于初始事件序列中的事件x_m，w_m为词向量的表示结果，M为事件序列长度。W_emb为预训练好的词向量映射矩阵，其维度中d_one-hot为原始数据的特征维度，d_emb为词向量的维度。

(2)对实验室数据中的孕周时间信息进行编码对时间进行向量化表征和融合；主要使用如下公式；其中输入xt_m为事件x_m对应的孕周时间戳，时间表征结果为t_m。为方便与x_m的事件信息融合，本模型中t_m的输出维度与词向量v_m维度相同，同样设定为d_emb。t_m中每一输出维度j,j∈[1,d_model]的数值可由如下公式计算，其中奇数编号的维度和偶数编号的维度分别使用不同的公式。

v_m＝w_m+t_m

采用向量相加的方式，将词向量和时间向量相加作为融合了时间信息的词表征结果v_m，作为后续自注意力层的输入。使得孕周的时间信息可以很很好的融入后续自注意力以及前馈网络的多层模块中。使用公式化的表征方式相对于学习表征向量的方法，首先在模型性能上没有太多损失，其次降低了模型的训练难度，公式的设计中三角函数的应用也使相对时间信息的表征成为可能。

(3)引入自注意力模型，通过学习序列中事件间的关联权重建模事件间两两关系，在输出中根据权重融合其他事件的信息；模型实际具有多个自注意力层，每层输入、输出与其他模块的衔接关系不尽相同。此处统一记某个注意力层的输入为a₁,a₂,...a_M，输出为a'₁,a'₂,...a'_M。其中自注意力部分的第一层输入为时间表征层的输出，即a₁,a₂,...a_M＝v₁,v₂,...v_M。主要计算方法如下公式所示。对序列中每一个输入事件a_m,m∈[1,M]，其输出为a'_m，首先计算a_m与序列中所有其他事件(包括其自身)a_n,n∈[1,M]的注意力权重α_mn，其次按照权重对这些事件的值加权。在计算权重时使用a_n的信息为其自身，而在加权时其取值也为其自身，因此构成自注意力方法。该式中使用W_V对待加权的输入做线性变换，变换将事件a_n从原始特征空间映射到新的特征空间，通常能够更好捕捉到数据中潜在的特性。该模块输入a_m维度为d_emb，输出a'_m维度为d_size，参数W_V维度为d_emb×d_size。

其中具体的注意力权重α_mn主要由参与计算的两个事件决定，如以下公式所示。首先分别对两个事件分别进行线性变换，通常a_m称为待查元素(query)，a_n为键值元素(key)，因此分别使用W_Q,W_K来表示两组不同的线性变换权重

使用矩阵乘法计算线性变换后两事件的相关关系，并使用范围变换因子

对数值范围变换，得到相关性表征数值e_mn∈[-∞,+∞]。对所有的e_mn,n∈[1,M⁽ⁿ⁾]，使用softmax进行归一化(公式中为避免重复，使用e_ms,s∈[1,M]为同样意义)，所得到的注意力权重为数值α_mn∈[0,1]。该部分参数W_Q,W_K维度与上述W_V均为d_emb×d_size。

(4)使用前馈网络层对自注意力得到的结果进行变换，对输入表征先后进行两次线性变换，得到最终整体实验室事件序列的表征结果；

输入为自注意力机制层输出a'_m，输出为前馈变换后结果f_m，主要计算为对输入表征先后进行两次线性变换，如下公式所示。

f_m＝ReLU(a'_mW₁+b₁)W₂+b₂

第一次线性变换权重参数为W₁，偏置参数为b₁，并使用ReLU激活函数进行非线性映射。ReLU函数定义如下公式所示。

ReLU(x)＝max(x,0)

第二次线性变换输入为第一次线性变换的结果，权重参数为W₂，偏置参数为b₂，不使用激活函数，输出即为前馈网络层最终输出。前馈网络层的输入a'_m维度和输出f_m均保持为d_model，两次变换的中间结果维度为d_ff，前馈网络层中参数维度设置如下公式所示。

融合表征层输入为最后一个前馈网络层的输出，输出为实验室数据最终表示结果。主要使用线性变换。如下公式所示，输入f＝f₁,f₂,...f_M为序列中所有事件的前馈网络层表征矩阵，维度为L×d_model。输出为序列整体表征向量y_lab，维度为d_lab。其中权重矩阵W_lab维度为d_model×d_lab，偏置向量b_lab维度为d_lab。

y_lab＝W_labf+b_lab。

为了进一步优化上述技术方案，所述步骤(3)中，利用多种不同的特征变换空间所表示的信息，从多个不同的角度计算相关性，增加使用多头机制；

多头机制输入为多次自注意力层的结果，输出为多头注意力融合的表征结果。主要使用多组不同的线性变换参数，得到多头注意力，并将结果拼接。如下图3所示。

主要计算方法如下公式所示。对于某一输入向量a_m，得到多组不同的注意力表征，将多组结果拼接作为输出a'_m。共设置h∈[1,H]个注意力头，即H组不同的参数，每组参数分别包括对应的

使用上节所述公式计算，使用该组参数中的

得到注意力权重值

进一步使用

得到注意力表征结果

最后将多组结果拼接，符号∪表示拼接操作。该模块输入a_m维度为d_size，输出a'_m维度为d_model，其中d_model＝H×d_size。

自注意力部分很好地捕捉了任何两两医学事件之间的关系，这种关系在目前针对电子病历数据的预测建模中是缺乏的。该部分的并行化特性也使得对于大规模数据的处理，在时间上更加有优势。相比而言，Health－ATM的模型中首先使用RNN架构对所有的医学事件建模，其次用CNN进一步融合不同时间片之间诊疗的关系同一时间中不同症状之间的关系。但因为同一时间片中的不同事件之间并没有时间上的依赖关系，因此首先使用RNN这种考虑序列中顺序依赖关系的建模方式是缺乏合理性的。而自注意力的架构没有明确限制输入需要具有时间上顺序的关联，而是捕捉任何可能的两两关系，通过多层捕捉进行建模，因此更加适用目前的场景。仅仅使用自注意力就能完成多层次的建模目的，相对于额外加入CNN的架构更加简洁清晰。

妊娠图表征模块捕捉妊娠图检查指标随时间变化的趋势。输入为预处理后的妊娠图数据，即妊娠图检测序列

(以下省略记L⁽ⁿ⁾为L)，输出为妊娠图数据表征向量y_pgraph，输出维度为d_pgraph。主要采用循环神经网络以及注意力机制，以符合序列化建模场景，并捕捉不同时间输入的重要性，如下图4所示。

主要使用GRU模块保证了每个时间片的表征结果都蕴含了前一个以及多个时间片的数据信息。GRU模块的输入处理以及计算输出的基本方法如下公式所示；

h_l＝GRU(h_l-1,ρ_l),l∈[1,L]

ρ_l＝concat(p_l,pt_l)；

其中p_l为序列中某次妊娠图全部多项检查结果，pt_l为对应的当前孕周时间戳，ρ_l为拼接后结果作为GRU模型的输入；

GRU模块的基本计算公式为每个时间片的输出h_l,l∈[1,L]由该时间片的输入ρ_l以及上一时间片GRU的输出结果h_l-1决定，这两部分的输入送入基本的GRU(h_l-1,ρ_l)计算单元。计算单元包括一组含参数的计算公式，其中公式本身不随时间片变化，而其中的参数随着时间片不断得到训练更新。GRU模块的输入p_l维度为d_{in_pgraph}，d_{in_pgraph}为所选择的妊娠图检测项目的个数，pt_l为标量维度为1，因此ρ_l维度为d_{in_pgraph+1}，定义GRU隐藏层以及输出h_l维度为d_GRU。

具体而言，使用标准的GRU模型，其计算单元GRU(h_l-1,ρ_l)内部的公式如下(标准GRU公式中采用h_t代替h_l，采用x_t代替ρ_l)。

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_tx_t+U_th_t-1)

h_t＝tanh(Wx_t+U(r_toh_t-1))

h_t＝(1-z_t)oh_t-1+z_toh_t

该公式中输入时间序列为x_t，GRU隐藏单元为h_t，候选输出单元为h_t，门运算单元分别为更新门z_t和重置门r_t。更新门z_t用于控制当前候选输出单元的信息h_t(包含当前输入信息)被带入到当前状态中的程度，其值越大说明当前候选输出单元的信息带入越多。重置门r_t用于控制前一时刻的状态信息h_t-1被写入到当前的候选集h_t上的程度，其值越大前一状态的信息被写入的越多。

GRU模块通过以上两种门运算单元将重要特征保留，保证了长时间序列建模时信息得以在传播时保留，因此能够捕捉时间序列中的长距离依赖关系，性能明显优于普通的RNN。此外GRU模块相对于LSTM模型减少了一个门函数，因此在参数的数量较少，整体上训练速度要优于LSTM。

经GRU模块处理的数据作为输入使用基于RNN(具体本文使用GRU)输出的注意力机制，使得模型能够学习到不同时间片的输入数据对预测结果的不同影响力。

自注意力机制模块的输入为上述GRU模块的输出，即序列中每个时间片分别对应一个表征向量。该模块的输出为序列整体的注意力表征结果，即输出妊娠图检测值序列的注意力表征向量。该模块主要使用基于位置的注意力机制，以按重要性加权的方式融合序列中所有时间片向量的信息，更好对序列整体信息进行表征。作为妊娠图数据处理部分的最后一层，该模块的输出即为妊娠图数据的最后表征结果，可拼接到整体模型最后一层进行融合。

该模块的主要计算方法如下公式所示。其中该模块输入记为h＝h₁,h₂,...h_L，输出为h_atn。同时作为妊娠图部分的表征输出y_pgraph＝h_atn。输出将输入序列中所有时间片的向量h_l相加，并且给予不同的权重α_l。该模块的输入h维度为L×d_GRU，输出h_atn维度为d_GRU，中间结果权重α_l为标量，维度为1。

具体的权重α_l的计算方法如下公式所示。首先根据每个时间片的向量h_l计算初步权重值e_l∈[-∞,+∞](标量，维度为1)，其次对所有时间片的e_l归一化得到最终的权重结果α_l∈[0,1]。e_l的计算主要由输入h_l决定，进行基本的线性变换，通过定义可学习的权重和偏置参数以学习注意力权重。权重矩阵W_α维度为d_GRU×d_atn，W_o维度为d_atn，偏置向量维度为d_atn。

e_l＝(W_αh_l+b_α)W_o。

为了进一步优化上述技术方案，孕产基本信息数据表征的具体步骤：输入为预处理后的孕产基本信息数据；输出为据表征结果向量，计算方法如下公式所示，对输入孕产基本信息数据in_basic进行线性变换，得到表征后结果y_basic，输入in_basic维度为所选择的孕产基本信息特征数目d_{in_basic}，输出结果y_basic维度为d_basic；

y_basic＝W_basicin_basic。

为了进一步优化上述技术方案，将三部分数据的进行拼接，使用带激活层的线性变换进一步融合多方面信息，得到最终表征具体步骤：首先将三部分数据的建模结果进行拼接，y_lab,y_pgraph,y_basic分别为实验室数据、妊娠图数据、孕产基本信息数据的最终表征结果；其次对拼接结果y_all进行线性变换，得到最终表征结果y_last；

y_all＝concat(y_lab,y_pgraph,y_basic)

y_last＝W_lasty_all+b_last

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于自注意力机制的孕期数据建模方法，其特征在于，包括如下具体步骤：

(1)实验室数据预处理：通过统计实验室数据的出现次数，剔除在实验室数据条目中出现次数少于100的数据，并进行离散化，表示结果为实验室检查医学事件序列

时间戳为

第n个病人实验室医学事件序列的长度为M⁽ⁿ⁾；定义选择的实验室医学事件数为d_{in_lab}，则每个医学事件维度为d_{in_lab}；部分医学事件序列的维度为M⁽ⁿ⁾×d_{in_lab}，时间戳序列的维度为M⁽ⁿ⁾；

(2)妊娠图数据预处理：使用z－score标准归一化公式进行归一化处理，表示结果为：全部检测项目值的时间序列

时间戳为孕周

该部分维度为d_{in_basic}；

实验室数据表征的具体步骤：

(1)将实验室特征的原始编码映射为训练好的词向量；

(4)使用前馈网络对自注意力得到的结果进行变换，对输入表征先后进行两次线性变换，得到最终整体实验室事件序列的表征结果；

孕期数据表征：融合表征部分首先加入孕产基本信息，将三部分数据的进行拼接，使用带激活层的线性变换融合多方面信息，得到最终表征。

2.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法，其特征在于，所述步骤(3)中，利用多种不同的特征变换空间所表示的信息，从多个不同的角度计算相关性，增加使用多头机制；利用多组不同的线性变换参数，得到多头注意力，并将结果拼接。

3.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法，其特征在于，使用GRU-ATN架构建模趋势性强的妊娠图数据具体步骤包括：

4.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法，其特征在于，孕产基本信息数据表征的具体步骤：输入为预处理后的孕产基本信息数据；输出为据表征结果向量，计算方法如下公式所示，对输入孕产基本信息数据in_basic进行线性变换，得到表征后结果y_basic，输入in_basic维度为所选择的孕产基本信息特征数目d_{in_basic}，输出结果y_basic维度为d_basic；

y_basic＝W_basicin_basic。

5.根据权利要求1所述的一种基于自注意力机制的孕期数据建模方法，其特征在于，将三部分数据的进行拼接，使用带激活层的线性变换进一步融合多方面信息，得到最终表征具体步骤：首先将三部分数据的建模结果进行拼接，y_lab,y_pgraph,y_basic分别为实验室数据、妊娠图数据、孕产基本信息数据的最终表征结果；其次对拼接结果y_all进行线性变换，得到最终表征结果y_last；

y_all＝concat(y_lab,y_pgraph,y_basic)

y_last＝W_lasty_all+b_last