CN115862875B

CN115862875B - 基于多类型特征融合的术后肺部并发症预测方法及系统

Info

Publication number: CN115862875B
Application number: CN202310167372.2A
Authority: CN
Inventors: 郝学超; 王亚强; 吴少峰; 舒红平; 朱涛; 陈果
Original assignee: Chengdu University of Information Technology; West China Hospital of Sichuan University
Current assignee: Chengdu University of Information Technology; West China Hospital of Sichuan University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2024-02-09
Anticipated expiration: 2043-02-27
Also published as: CN115862875A

Abstract

本发明提供了一种基于多类型特征融合的术后肺部并发症预测方法及系统，属于数据处理技术领域，基于多类型特征融合的术后肺部并发症预测方法由其系统执行，方法包括：步骤S1.获取临床记录表格数据的表格数据特征；获取术前诊断文本的粗粒度医学语义信息特征和细粒度医学语义信息特征；步骤S2.分别对步骤S1得到的特征进行编码，分别得到第一矩阵、第二矩阵和第三矩阵；并采用自注意机制和交叉注意机制对得到的矩阵进行多类型特征融合，得到输出向量；步骤S3.对输出向量进行解码处理，得到预测结果。本发明将表格数据特征、粗粒度医学语义信息特征和细粒度医学语义信息特征关联起来，进一步提高PPC预测的性能。

Description

基于多类型特征融合的术后肺部并发症预测方法及系统

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种基于多类型特征融合的术后肺部并发症预测方法及系统。

背景技术

术后肺部并发症(PPC)是术后死亡率和发病率的主要原因，也是手术和麻醉后发生的主要危险因素。据报道，PPC患者术后30天死亡率为20%，90天死亡率为24%。因此，早期预测PPC，再进行干预，对于提高围手术期诊治质量，减少对更高层次护理和管理的要求，缩短术后住院时间，降低护理成本有积极作用。

近年来，PPC预测备受研究者的关注，它通常被认为是一个二元分类任务，即根据术前和/或术中阶段获得的基本变量，用二元分类来预测患者是否有PPC的风险。例如，薛某等人研究了五种机器学习模型，用于基于711个术前和术中变量预测患者的PPC风险。

PPC预测被广泛应用于统计机器学习模型，如Logistic回归(LR)、随机森林(RF)和XGBoost(XGB)。近年来，应用深度学习(DL)模型(如深度神经网络(DNN)和卷积神经网络)进行PPC预测成为一种趋势。相比之下，DL模型由于其优异的表示学习能力和预测性能往往优于统计机器学习模型。

对此，发明人发现，用于PPC预测的变量(或特征)通常采用表格数据的形式。换句话说，它们是结构化数据。通常，这些特征由患者的人口统计数据(如年龄、性别和种族)、生理测量数据(如收缩压、舒张压和心率)和实验室值(如白细胞计数、中性粒细胞计数和单核细胞计数)组成，这些特征可以从多个来源收集。从技术上讲，这些特征可以进一步分为两类，即连续特征(如收缩压和舒张压)和分类特征(如性别和种族)，它使功能异构。这种特征固有的异质性给PPC预测带来了巨大的挑战，而如何有效地离散连续特征就是其中的挑战之一。

目前，DL模型在PPC预测方面取得了许多有前景的结果。对此，发明人发现，现有的DL模型仍有两个不足之处。

首先，模型中没有直接考虑特征之间的相关性。图1中的收缩压和舒张压等特征通常被机器学习模型视为特征向量中的独立特征，如LR、RF和XGB等。这将导致在PPC预测中丢失大量额外的医学语义信息。如图1所示，患者“8081d897c”收缩压为“156 mm Hg”，舒张压为“76 mm Hg”。将这两种特征相关联后，向临床医生发送信息，说明此时患者患有“2期高血压”，可能导致术后肺部并发症。当只看一个特征时，这个额外的医学语义信息（MSI）可能会丢失。

其次，第三类特征，即非结构化的术前诊断文本(简称PDT)被忽视。临床医生记录的非结构化PDT不仅包括他们根据术前检查结果做出的诊断，还包括通过与患者沟通获得的补充MSI，更重要的是他们根据自己的经验做出的推论。也在图1中的第一个病人作为一个例子,在“高血压”(“高血压”)是一个诊断,临床医生通过关联收缩压和舒张压身体检查,在“3级,高危”(“第三阶段高血压、高危”)是临床医生的互补MSI通过询问患者的病史,和“肺部感染”(“肺部感染”)病是推断由临床医生根据病人的体温,收缩压和舒张压，患者使用血管活性药物的状况，以及表格数据中的其他额外信息。毫无疑问，非结构化PDT也包含了丰富的额外MSI，而这些额外MSI可以用于PPC预测，进一步提高预测性能。如何合理有效地利用隐藏在非结构化PDT中的额外MSI仍然是一个需要进一步研究的重要问题。

为此，本发明试图提供一种基于多类型特征融合的术后肺部并发症预测方法及系统，以至少解决上述一个问题。

发明内容

本发明提供一种基于多类型特征融合的术后肺部并发症预测方法及系统，结合多类型特征，并将分类特征、连续特征、粗粒度医学语义信息特征和细粒度医学语义信息特征关联起来，进一步提高PPC预测的性能，以至少解决上述一个问题。

本发明实施例的一方面公开了一种基于多类型特征融合的术后肺部并发症预测方法，包括：

步骤S1.对患者的临床记录表格数据进行特征提取，得到表格数据特征；对临床医生记录的非结构化的术前诊断文本进行粗粒度医学语义信息提取和细粒度医学语义信息提取，得到粗粒度医学语义信息特征和细粒度医学语义信息特征；

步骤S2.分别对所述表格数据特征、所述粗粒度医学语义信息特征和细粒度医学语义信息特征进行编码，分别得到第一矩阵、第二矩阵和第三矩阵；并采用自注意机制和交叉注意机制对所述第一矩阵、第二矩阵和第三矩阵进行多类型特征融合，得到输出向量；

步骤S3.对所述输出向量进行解码处理，得到预测结果。

在一些实施例中，步骤S1中，所述临床记录表格数据包括有连续特征和分类特征，进行特征提取时，先将一个连续的特征值映射到一个分类特征或一个离散的容器，再将的与和的其他离散化特征值联合索引，得到统一的特征向量来表示表格数据特征。

在一些实施例中，步骤S1中，将非结构化的术前诊断文本定义为非结构化PDT，将非结构化的术前诊断文本的全局信息定义为粗粒度MSI，进行粗粒度医学语义信息提取后，得到一个向量来表示粗粒度医学语义信息特征，是一个动态大小为的向量，是分割非结构化PDT的术前诊断向量后统计的字数。

在一些实施例中，步骤S1中，将MNEs 和非结构化PDTs中包含的一般域词定义为细粒度MSI，进行细粒度医学语义信息提取后，得到一个向量来表示细粒度医学语义信息特征，是一个动态大小为的向量，是在一个非结构化PDT的中识别出的MNEs 个数与提取出的通用域词个数之和。

在一些实施例中，步骤S2中，对进行编码的过程中：

对于中的特征，将中的每个特征映射到一个密集向量，其中,为中的特征数量，的大小为；对中的分类特征和离散连续特征进行编码，得到一个由密集向量组成的第一矩阵，其大小为。

在一些实施例中，步骤S2中，对进行编码的过程中：

对于中的特征，将中的每个特征映射为一个密集向量，的大小为，；然后利用个密集向量形成嵌入矩阵，该嵌入矩阵为第二矩阵，的大小为。

在一些实施例中，步骤S2中，对进行编码的过程中：

对于中的特征，将中的每个特征映射为一个密集向量，的大小为,；然后利用个密集向量形成嵌入矩阵，该嵌入矩阵为第三矩阵，的大小为。

在一些实施例中，步骤S2 中，采用自注意机制和交叉注意机制对所述第一矩阵、第二矩阵和第三矩阵进行多类型特征融合，得到输出向量S，S的大小为:

。

在一些实施例中，步骤S3中，通过平滑的非线性逻辑激活函数感知器对所述输出向量进行解码处理，计算函数为:

；

其中权矩阵的大小为，S是输出向量，b是偏置参数向量，为预测结果，，如果，则PPC会发生。

本发明实施例的另一方面公开了一种基于多类型特征融合的术后肺部并发症预测系统，包括：

提取特征模块，用于对患者的临床记录表格数据进行特征提取，得到表格数据特征；对临床医生记录的非结构化的术前诊断文本进行粗粒度医学语义信息提取和细粒度医学语义信息提取，得到粗粒度医学语义信息特征和细粒度医学语义信息特征；

编码模块，用于通过多类型特征编码器分别对所述表格数据特征、所述粗粒度医学语义信息特征和细粒度医学语义信息特征进行编码，分别得到第一矩阵、第二矩阵和第三矩阵；并采用自注意机制和交叉注意机制对所述第一矩阵、第二矩阵和第三矩阵进行多类型特征融合，得到输出向量；

解码模块，用于通过平滑的非线性逻辑激活函数感知器对所述输出向量进行解码处理，得到预测结果。

综上所述，本发明至少具有以下有益效果：

本发明将对患者的临床记录表格数据进行特征提取，对临床医生记录的非结构化的术前诊断文本进行粗粒度医学语义信息提取和细粒度医学语义信息提取，将表格数据特征、粗粒度医学语义信息特征和细粒度医学语义信息特征分别进行编码后进行多类型特征融合，得到输出向量，对输出向量进行解码处理得到预测结果；本发明将表格数据特征（分类特征、连续特征）、粗粒度医学语义信息特征和细粒度医学语义信息特征关联起来，进一步提高PPC预测的性能。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为用于术后肺部并发症预测的表格数据中的临床记录示例的示意图。

图2为本发明中所涉及的基于多类型特征融合的术后肺部并发症预测方法的步骤示意图。

图3为本发明中所涉及的基于多类型特征融合的术后肺部并发症预测系统的示意图。

图4为本发明中所涉及的进行表格数据特征提取的示意图。

图5为本发明中所涉及的进行粗粒度MSI提取和细粒度MSI提取的示意图。

图6为本发明中所涉及的进行多类型特征融合的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明实施例的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明实施例。此外，本发明实施例可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

下面结合附图对本发明的实施例进行详细说明。

如图2所示，本发明实施例的一方面公开了一种基于多类型特征融合的术后肺部并发症预测方法，包括：

步骤S3.对所述输出向量进行解码处理，得到预测结果。

在一些实施例中，步骤S2中，对进行编码的过程中：

。

其中权矩阵的大小为，为预测结果，，如果，则PPC 会发生。

如图3所示，本发明实施例的另一方面公开了一种基于多类型特征融合的术后肺部并发症预测系统，用于执行基于多类型特征融合的术后肺部并发症预测方法，系统包括：

为了更好地阐述本发明的技术方案和目的，本发明的发明构思如下：

首先，对于发明人提出的现有的DL模型仍有两个不足之处，本发明将做出以下阐述：

(1)非结构化PDT中包含哪些类型的额外MSI？

针对这个问题，将在分析非结构化PDT的生成过程和内容，以便了解和分类非结构化PDT中埋藏的额外MSI类型。

(2)如何从非结构化PDT中提取不同类型的额外MSI并将其形成特征？

针对这个问题，将在非结构化PDT中提取不同粒度的MSI。

(3)如何关联不同的特征并将额外的MSI合并到PPC预测模型中？

对于这个问题，将进行多类型特征融合。

其次，发明人发现，DL模型是PPC预测的最新(SOTA)模型，表格数据中的连续特征和分类特征是PPC预测的主要信息源，更重要的是包含丰富MSI的非结构化PDT可以为PPC预测提供重要的补充特征。

为了有效利用非结构化PDT中额外的MSI，提出了一种新的PPC预测框架（基于多类型特征融合的术后肺部并发症预测系统），该框架基于DL模型，特别适应于交叉注意网络(cross-attention network, CAN)，结合多类型特征，并将分类特征、连续特征和粗粒度和细粒度医学语义特征关联起来，进一步提高PPC预测的性能。

一、PPC预测的正式定义

PPC预测可以自然地定义为一个二元分类问题。从图1表格数据中给出一个病人的变量值列表，基于DL的PPC预测方法一般是:(1)从列表数据中提取特征值列表，(2)将每个特征值编码为向量表示，(3)将编码的向量转换为维数为的统一向量表示，(4)最后将输入到输出层，预测的值。

在上述PPC预测的形式化定义中，是表格数据中可用于PPC预测的变量的数量。将表示中第个变量的值，且。为从变量值中提取的特征的数量。是中第个特征的值，且。每个对应于一个，其维度大小为。作为一个二元分类问题，对于PPC预测，的值为1或0，表示PPC会发生，反之不会发生。

二、基于DL的PPC预测通用框架（基于多类型特征融合的术后肺部并发症预测系统）

上述已经形式化地定义了PPC预测任务，下述将根据形式化定义进一步构建一个通用的基于DL的PPC预测框架。如图3所示。

该框架将PPC预测过程划分为三个模块。在上述描述的基于DL的PPC预测方法的一般过程(1)在框架中被重命名为“预处理模块”或“提取特征模块”。过程(2)和(3)被合并并共同定义为“表示转换模块”或“编码模块”。最后，过程(4)形成“预测模块”或“解码模块”。

2.1提取特征模块

特征提取模块完成了表格数据特征提取、粗粒度MSI提取和细粒度MSI提取三个任务(图1)。表格数据是PPC预测的主要数据源，非结构化PDT包含大量额外的MSI，可用于进一步提高PPC预测性能。为了有效地利用这两类数据，有必要从给定的特征向量和（和分别为两类数据的原始向量化数据）中提取有价值的特征。此外，PDT包含两种类型的额外MSI，即粗粒度MSI和细粒度MSI。

2.1.1表格数据特征提取

表格数据中有两种类型的特征，包括连续特征和分类特征。例如，图1中的“体温”是一个连续特征，而“患者是否使用血管活性药物”是一个分类特征。在实践中，连续特征通常被离散为类别特征，形成一个具有类别特征的统一特征值列表，即特征向量。在基于DL的通用框架中应用的通用表格数据特征提取方法如图4所示。

表格数据特征提取方法包括两个步骤。

一是特征值离散化步骤。这一步将一个连续的特征值映射到一个分类特征或一个离散的容器。例如，在图4中，基于UD（Uniform Discretization，均匀离散化）方法，根据所属的分区条件，可以将“体温”值映射为分类特征值。

另一个是联合索引步骤。在这一步中，将连续变量的离散化特征值与和的其他离散化特征值联合索引，形成统一的特征向量。

此处，三种常见的离散化(也称为Binning)方法，包括UD、QD (QuantileDiscretization，分位数离散化)和CART（Classification and Regression Tree，分类与回归树离散化）。通常，离散化方法将变量的值分组到离散的箱中，并且每个箱分配一个唯一的整数。这些整数传递变量的分类语义信息。例如，将低于37.2℃的“Body Temperature”分组，分配到一个离散的箱“1”中，则整数“1”可以传递一个分类语义信息，即箱“1”中的值为正常体温。

每种离散化方法都有自己的特点。首先，UD和QD是无监督的，CART离散化是有监督的。其次，对于UD，每个箱在变量可能值的跨度中具有相同的宽度；对于QD，每个箱有相同数量的值;对于CART离散化，基于事先训练的决策树，根据一个变量的值与PPC类之间的关联信息将分类到箱。最后，UD会改变变量值的分布，而QD不会。CART离散化还能找到一个变量值与PPC类之间的后验关系。

2.1.2粗粒度MSI提取和细粒度MSI提取

将每个非结构化PDT表示的全局信息定义为粗粒度MSI。一方面，非结构化PDT的 MSI是通过包含在其中的文字来表达的。因为单词是语义的基本单位。另一方面，从技术上讲，DL模型对全局信息的编码对象通常是非结构化PDT中的语义单元。因此，粗粒度MSI提取组件的主要工作是从每个非结构化PDT中提取特征，然后形成一个矢量来表示非结构化PDT 的全局信息。是一个动态大小为的向量，是分割（表示术前诊断向量）后统计的字数。如图5 中(a)所示。可以使用中文分词工具来实现粗粒度的MSI提取。

此外，细粒度MSI用于定义MNEs（Medical Named Entities，医学命名实体）和非结构化PDTs中包含的一般域词。因此，细粒度MSI提取组件实现从非结构化PDTs 中识别MNEs ，并逐字提取识别的MNEs 未覆盖的一般域词。这些提取的特征形成一个矢量，用来表示后续PPC预测过程中的细粒度MSI。也是一个动态大小为的向量，是一个非结构化 PDT的中识别出的MNEs 个数与提取出的通用域词个数之和。如图5 中(b)所示。可以应用在公共数据集上训练的MNE识别工具，用于医疗命名实体识别任务。

2.2编码模块

基于DL模型的PPC预测的关键是将、和中的每一个离散化特征编码成一个向量表示，然后将这些向量表示融合成一个统一的向量表示。

2.2.1多类型特征编码器

如图3所示，多类型特征编码器将分别对、、中包含的三种类型特征进行编码。

中的特征编码方法：对于中的特征，编码器将中包含的每个离散特征映射为一个密集向量，其中，为中不同特征的数量，的维度大小为。采用常规使用的方法对中的分类特征和离散连续特征进行编码，结果是一个由密集向量组成的矩阵，其大小为。

中的特征编码方法：对于中的特征，编码器首先将中包含的每个离散型特征映射为一个密集向量，该向量的大小为，。然后利用个密集向量形成嵌入矩阵，的大小，该嵌入矩阵包含了的医学语义信息。第一步的主要目的是获取上下文语义向量的特性,也就是说,从PDT中提取的单词嵌入。BERT（Bidirectional Encoder Representation from Transformers，双向变形编码表征方法）是获取上下文语义向量的最先进的方法，因此本发明使用该方法。此外，为了获得特定于领域的语义信息并适应特定于领域的任务，一般的BERT模型通常在大规模的特定于领域的数据集上进行再训练，然后在当前任务的训练数据上进行微调。本发明也采用了这种方法，在对我们的训练数据进行微调后，使用了预训练的中文MedBERT（Medical BERT，医学BERT）。在第二步中，获取PDT所携带的粗粒度全局语义信息的常用方法是将矩阵中所有行向量相加得到向量，即。

中的特征编码方法：对于中的特征，编码器将中包含的每个离散型特征映射为一个密集向量，该向量的大小为,。这里密集向量的学习方法与中的特征编码方法相似，不同之处在于，这里对每个离散型特征的编码方法仅作用于在PDT中包含的MNEs，而中的特征编码方法所编码的对象是PDT中包含的全部单词。我们将在这里使用同样经过训练的中文MedBERT。结果是一个由密集向量组成的矩阵，其大小为。

一般情况下，、、按照惯例相等，设为768。

2.2.2多类型特征融合

为了将、和分别携带的三种类型的信息进行关联和充分利用，提出了一种多类型特征融合网络架构(FUNAR)，采用自注意机制(Self-Attention Mechanism, SAM)和交叉注意机制(Cross-Attention Mechanism, CAM)来融合和关联三种类型的信息。如图6所示。

在FUNAR中，SAM和CAM用于自适应关联和融合多类型特征，包括局部和全局。从图6 可以看出，(1)组件直接改编自SAM，用于局部关联特征中的MSI，(2)和(3)组件改编自 CAM思想，用于局部融合和关联和多类型特征中的MSI，以及全局融合和关联和的MSI。

一般来说，CAM实现两类特征融合的方法是将一类特征矩阵作为输入，另一类特征矩阵作为输入和，然后将它们输入到SAM网络中[21,22,34]。本发明将两种特征矩阵和或和合并在一起，分别形成一个统一的矩阵，然后分别输入到一个类似于sami的计算过程中(见图6中的(2)和(3)部分)。得到的注意矩阵和的意义和可解释性与不同。注意矩阵和不仅包含单一类型特征之间的注意得分，还包含两类特征之间的注意权重。更重要的是，这些分数或权重是通过共同优化得到的。

因此，本发明提出的FUNAR用于PPC预测的优势包括以下四点:

FUNAR建立了用于PPC预测的表格数据中连续特征与分类特征之间的相关性，并将相关信息保存在注意矩阵中。

FUNAR建立了细粒度MSI和粗粒度MSI之间的相关性，同时也建立了细粒度MSI本身之间的相关性。并计算了细粒度MSI在PPC预测过程中的重要性。以上信息都保存在注意矩阵中。

FUNAR建立结构化表格数据与术前非结构化诊断之间的相关性，用于预测PPC，并将该相关性信息保存在注意矩阵中。

FUNAR以分层的方式对上述相关信息进行联合建模。

计算过程如表1所示，其最终输出为向量，由中所有行向量拼接得到，其大小为:；

表1.FUNAR的计算过程

表1中的、、、、、、、和是要学习的参数矩阵。表1中的公式1、2定义了图6中(1)的计算过程，公式4、5定义了图6中(2)的计算过程，公式7、8、9定义了图6中(3)的计算过程。其中，、、、和是中间计算结果缓存矩阵和向量。

三、解码模块

如上所述，PPC预测通常被建模为一个二进制分类问题，分类基于编码模块FUNAR 的输出。该分类任务在DL框架中也被称为解码模块，如图6所示，由输出层处理。

输出层由一个平滑的非线性逻辑激活函数感知器组成。计算函数为:

其中权矩阵的大小为，是偏置参数向量。为PPC二进制分类结果，，如果，则PPC会发生，反之不会发生。

以上所述实施例是用以说明本发明，并非用以限制本发明，所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。

由以上详细说明，可使本领域普通技术人员明了本发明的确可达成前述目的，实已符合专利法的规定。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应当注意的是，上述有关流程的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。因此，本申请的各个方面可以完全由硬件实施、可以完全由软件（包括固件、常驻软件、微代码等）实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写，包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但是它也可以实现为纯软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反，发明的主体应具备比上述单一实施例更少的特征。

Claims

1.一种基于多类型特征融合的术后肺部并发症预测方法，其特征在于，包括：

步骤S2.分别对所述表格数据特征、所述粗粒度医学语义信息特征和细粒度医学语义信息特征进行编码，分别得到第一矩阵、第二矩阵和第三矩阵；并

采用自注意机制和交叉注意机制对所述第一矩阵、第二矩阵和第三矩阵进行多类型特征融合，得到输出向量；

步骤S3.对所述输出向量进行解码处理，得到预测结果；

步骤S1中，所述临床记录表格数据包括有连续特征v_con和分类特征v_cat，进行特征提取时，先将一个连续的特征值v_con,j映射到一个分类特征或一个离散的容器d_j,k，再将v_con,j的d_j,k与v_con和v_cat的其他离散化特征值联合索引，得到统一的特征向量来表示表格数据特征，f_con表示连续特征的特征向量，f_cat表示分类特征的特征向量；

步骤S1中，将非结构化的术前诊断文本的全局信息定义为粗粒度医学语义信息，进行粗粒度医学语义信息提取后，得到一个向量f_coa来表示粗粒度医学语义信息特征，f_coa是一个动态大小为l_coa的向量，l_coa是分割非结构化术前诊断文本的术前诊断向量v_PDT后统计的字数；

步骤S1中，将医学命名实体和非结构化术前诊断文本中包含的一般域词定义为细粒度医学语义信息，进行细粒度医学语义信息提取后，得到一个向量f_fin来表示细粒度医学语义信息特征，f_fin是一个动态大小为l_fin的向量，l_fin是在一个非结构化术前诊断文本的v_PDT中识别出的医学命名实体与提取出的通用域词个数之和；

步骤S2中，对f_tab进行编码的过程中：

对于f_tab中的特征，将f_tab中的每个特征f_tab,i映射到一个密集向量x_tab,i1，其中i₁∈[1,l_tab],l_tab为f_tab中的特征数量，x_tab,i1的大小为d_tab；

对f_tab中的分类特征和离散连续特征进行编码，得到一个由密集向量组成的第一矩阵X_tab，其大小为(l_tab,d_tab)；

步骤S2中，对f_coa进行编码的过程中：

对于f_coa中的特征，将f_coa中的每个特征f_coa,i2映射为一个密集向量x_coa,i2，x_coa,i2的大小为d_coa，i₂∈[1,l_coa]；

然后利用l_coa个密集向量形成嵌入矩阵，该嵌入矩阵为第二矩阵X_coa，X_coa的大小为(l_coa,d_coa)；

步骤S2中，对f_fin进行编码的过程中：

对于f_fin中的特征，将f_fin中的每个特征f_fin,i映射为一个密集向量x_fin,i3，x_fin,i3的大小为d_fin,i₃∈[1,l_fin]；

然后利用l_fin个密集向量形成嵌入矩阵，该嵌入矩阵为第三矩阵X_fin，X_fin的大小为(l_fin,d_fin)；

步骤S2中，采用自注意机制和交叉注意机制对所述第一矩阵、第二矩阵和第三矩阵进行多类型特征融合，得到输出向量S，S的大小为:d_s＝(l_tab+1+l_fin)×d_tab；

其中，使用多类型特征融合网络架构FUNAR，对X_tab、x_coa和X_fin分别携带的三种类型的信息进行融合和关联；多类型特征融合网络架构FUNAR采用自注意机制和交叉注意机制来融合和关联三种类型的信息；

在FUNAR中，自注意机制和交叉注意机制用于自适应关联和融合多类型特征，包括局部和全局；

FUNAR包括(1)组件、(2)组件和(3)组件，(1)组件用于局部关联X_tab特征中的医学语义信息，(2)组件和(3)组件用于局部融合和关联X_coa和X_fin多类型特征中的医学语义信息，以及全局融合和关联X′_tab和的医学语义信息；

在FUNAR中，(1)组件将两种特征矩阵X_coa和X_fin或X′_tab和合并在一起，分别形成一个统一的矩阵，然后分别输入到(2)组件和(3)组件中，得到注意矩阵A′和A″，注意矩阵A′和A″不仅包含单一类型特征之间的注意得分，还包含两类特征之间的注意权重；

计算过程如公式1到公式9，其最终输出为向量s，由A″中所有行向量拼接得到，其大小d_s为:d_s＝(l_tab+1+l_fin)×d_tab；

公式1到公式9依次为：

X′_tab＝A(X_tabW_V)；

其中，W_Q、W_K、W_V、W′_Q、W′_K、W′_V、W″_Q、W″_K和W″_V为参数矩阵；公式1、2定义了(1)组件的计算过程，公式4、5定义了(2)组件的计算过程，公式7、8、9定义了(3)组件的计算过程，A、A′、A″、是中间计算结果缓存矩阵；

步骤S3中，通过平滑的非线性逻辑激活函数感知器对所述输出向量进行解码处理，计算函数为:

y＝sigmoid(sW+b)；

其中权矩阵W的大小为(d_s,1)，S是输出向量，b是偏置参数向量，y为预测结果，y∈(0,1)，如果y≥0.5，则术后肺部并发症会发生。

2.一种基于多类型特征融合的术后肺部并发症预测系统，其特征在于，用于实现如权利要求1所述的基于多类型特征融合的术后肺部并发症预测方法；

所述基于多类型特征融合的术后肺部并发症预测系统包括：