CN117038063A

CN117038063A - 基于多模态数据的事件预测模型构建方法和事件预测装置

Info

Publication number: CN117038063A
Application number: CN202311073959.3A
Authority: CN
Inventors: 吕行; 张伯羽
Original assignee: Zhuhai Hengqin Shengao Yunzhi Technology Co ltd
Current assignee: Zhuhai Hengqin Shengao Yunzhi Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-10

Abstract

本发明提供一种基于多模态数据的事件预测模型构建方法和事件预测装置，通过利用独立的特征提取层对多个个人医学影像和多个个人非影像数据分别进行特征提取，得到多个个人医学影像和多个个人非影像数据的特征向量后，基于多模态融合层对多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行全局自注意力变换，得到预设令牌向量的自注意力向量，再基于预设令牌向量的自注意力向量进行事件预测，得到样本对象的事件预测结果，形成端到端的预测结构，从而可以通过构建的样本数据集对模型进行训练并调整模型的参数设置最终得到事件预测模型，该模型简化网络结构基础上有效利用多模态数据信息，提升了事件预测模型的预测准确度。

Description

基于多模态数据的事件预测模型构建方法和事件预测装置

技术领域

本发明涉及事件预测技术领域，尤其涉及一种基于多模态数据的事件预测模型构建方法和事件预测装置。

背景技术

在临床上，部分情况下需要根据患者当前的状态数据预测未来一段时间内该患者可能出现的事件或者出现各类事件的概率，例如3个月内该患者出现目标症状、6个月内该患者目标症状消失等。如何利用临床检查数据等患者的状态数据准确预测患者未来一段时间内发生各类事件的概率或者风险仍待突破。目前已有部分研究利用深度学习技术建模，基于患者的CT影像进行事件预测。然而，此类研究主要存在的问题是CT影像携带信息有限，此类模型的准确度有待提升。

针对该问题，除CT影像数据外，患者的各种临床检查数据对于事件预测任务亦有重大价值。例如病理切片图像、核磁共振图像等影像数据以及循环染色体异常细胞检查(CAC)、免疫组织化学评估的肿瘤PD-L1表达(TPS)、基因突变等非影像数据。如何高效地融合多模态数据，精准进行事件预测仍然存在巨大挑战。为了解决上述难题，部分工作利用分类网络、自编码器、影像组学等技术提取CT影像的特征，从而将高维的图像数据转化为低维的图像特征，并将所得低维特征与非影像数据结合后使用机器学习技术建模，实现事件预测。然而，这类方法往往需要建立多个模型，在提取图像特征的时候会出现一定程度的信息丢失，使模型的性能无法到达理论上限。另外也有部分工作提出了基于特征表示的多模态融合方法，在深度学习模型中实现多模态数据融合并实现端到端的训练，但这一类方法常常缺乏可解释性，且融合方法仅限于特征向量的拼接、平均或者克罗内克积，难以挖掘不同模态信息之间的内在联系，预测精度欠佳。

因此，针对目前医学领域的事件预测任务，需要一种能够实现多模态异构数据的有效融合且能够实现端到端的事件预测的事件预测模型，以提升事件预测的精度。

发明内容

本发明提供一种基于多模态数据的事件预测模型构建方法和事件预测装置，用以解决现有技术中无法准确提取和融合多模态数据的特征，导致事件预测精度欠佳的缺陷。

本发明提供一种基于多模态数据的事件预测模型构建方法，包括：

获取样本对象的多个个人医学影像和多个个人非影像数据；

基于初始模型中所述多个个人医学影像和多个个人非影像数据各自对应的特征提取层，对所述多个个人医学影像和多个个人非影像数据分别进行特征提取，得到所述多个个人医学影像和多个个人非影像数据的特征向量；

基于所述初始模型中的多模态融合层，对所述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的自注意力向量；

基于所述初始模型中的预测层，结合所述预设令牌向量的自注意力向量进行事件预测，得到所述样本对象的事件预测结果；

基于所述样本对象的事件预测结果及所述样本对象的事件标签，对所述初始模型的参数进行调整，得到事件预测模型。

根据本发明提供的一种基于多模态数据的事件预测模型构建方法，所述多模态融合层有多个；所述对所述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的自注意力向量，具体包括：

基于当前多模态融合层，将上一多模态融合层输出的所述预设令牌向量、所述多个个人医学影像的特征向量和所述多个个人非影像数据的特征向量对应的过程自注意力向量中的任一过程自注意力向量，分别与其他过程自注意力向量进行乘法注意力交互，得到所述其他过程自注意力向量针对所述任一过程自注意力向量的注意力权重，并基于所述其他过程自注意力向量针对所述任一过程自注意力向量的注意力权重，对所述其他过程自注意力向量进行融合，基于融合结果和所述任一过程自注意力向量确定所述当前多模态融合层输出的所述预设令牌向量、所述多个个人医学影像的特征向量或所述多个个人非影像数据的特征向量对应的过程自注意力向量；其中，对于首个多模态融合层，所述上一多模态融合层输出的所述预设令牌向量、所述多个个人医学影像的特征向量和多个个人非影像数据的特征向量对应的过程自注意力向量分别为所述预设令牌向量、所述多个个人医学影像的特征向量和所述多个个人非影像数据的特征向量；

确定最后一层多模态融合层输出的所述预设令牌向量对应的过程自注意力向量为所述预设令牌向量的自注意力向量。

根据本发明提供的一种基于多模态数据的事件预测模型构建方法，所述基于所述样本对象的事件预测结果及所述样本对象的事件标签，对所述初始模型的参数进行调整，得到事件预测模型，具体包括：

基于所述样本对象的事件预测结果及所述样本对象的事件标签之间的差异，计算所述初始模型的主任务损失；

基于所述多个个人医学影像和多个个人非影像数据各自对应的上采样层，对所述多个个人医学影像和多个个人非影像数据的特征向量分别进行还原，得到所述多个个人医学影像对应的还原影像和多个个人非影像数据对应的还原非影像数据，并基于所述多个个人医学影像与其对应的还原影像之间的差异，以及所述多个个人非影像数据与其对应的还原非影像数据之间的差异，确定所述初始模型的多模态数据重建损失；

基于所述主任务损失和所述多模态数据重建损失，对所述初始模型的参数进行调整，得到事件预测模型。

根据本发明提供的一种基于多模态数据的事件预测模型构建方法，所述多个个人医学影像对应的特征提取层是基于卷积神经网络构建的；所述多个个人非影像数据对应的特征提取层是基于人工神经网络构建的。

根据本发明提供的一种基于多模态数据的事件预测模型构建方法，所述获取样本对象的多个个人医学影像和多个个人非影像数据，具体包括：

获取所述样本对象的多个原始医学影像和多个原始非影像数据；

基于三维插值算法将所述样本对象的多个原始医学影像调整至统一的空间分辨率后，切取所述样本对象的多个原始医学影像中的目标区域，并将目标区域以外的区域的像素置零，得到所述样本对象的多个个人医学影像；

对所述样本对象的多个原始非影像数据进行结构化处理，得到所述样本对象的多个个人非影像数据。

本发明还提供一种基于多模态数据的事件预测装置，包括：

数据获取单元，用于获取待预测对象的多个测试医学影像和多个测试非影像数据；

事件预测单元，用于基于事件预测模型，对所述待预测对象的多个测试医学影像和多个测试非影像数据进行事件预测，得到所述待预测对象的事件预测结果；

其中，所述事件预测模型是基于如上述任一种所述基于多模态数据的事件预测模型构建方法构建得到的。

根据本发明提供的一种基于多模态数据的事件预测装置，所述事件预测模型包括：

多个特征提取层，分别对应所述多个测试医学影像和多个测试非影像数据，用于对所述多个测试医学影像和多个测试非影像数据分别进行特征提取，得到所述多个测试医学影像和多个测试非影像数据的特征向量；

多模态融合层，用于对所述多个测试医学影像和多个测试非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的预测自注意力向量；

预测层，用于基于所述预设令牌向量的预测自注意力向量进行事件预测，得到所述待预测对象的事件预测结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于多模态数据的事件预测模型构建方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于多模态数据的事件预测模型构建方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于多模态数据的事件预测模型构建方法。

本发明提供的基于多模态数据的事件预测模型构建方法和事件预测装置，通过利用独立的特征提取层对多个个人医学影像和多个个人非影像数据分别进行特征提取，得到多个个人医学影像和多个个人非影像数据的特征向量后，基于多模态融合层对多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到预设令牌向量的自注意力向量，可以有效捕捉多模态数据之间的非线性关联并进行多模态数据间的全局感知，提升了模型的特征提取能力，再基于预设令牌向量的自注意力向量进行事件预测，得到样本对象的事件预测结果，从而基于样本对象的事件预测结果及样本对象的事件标签，对初始模型的参数进行调整得到事件预测模型，形成端到端的预测结构，可在简化网络结构的基础上有效利用多模态数据信息，提升了事件预测模型的预测准确度，避免了信息丢失导致事件预测精度下降的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于多模态数据的事件预测模型构建方法的流程示意图；

图2是本发明提供的基于多模态数据的事件预测装置的结构示意图；

图3是本发明提供的事件预测模型的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的基于多模态数据的事件预测模型构建方法的流程示意图，如图1所示，该方法包括：

步骤110，获取样本对象的多个个人医学影像和多个个人非影像数据。

具体地，可以收集样本对象的回顾性数据，形成事件预测数据集，该数据集中的任一训练样本中应当包含：多种不同的个人医学影像和多种不同的个人非影像数据作为初始模型的输入；随访记录作为初始模型的标签。其中，个人医学影像包括患者的胸部CT扫描图像及目标区域勾画的标注、患者的组织切片图像及目标区域勾画的标注等；个人非影像数据包括患者的临床检查数据，例如临床信息(年龄、性别、吸烟史等)、CAC细胞计数、血检等其他生化检查数据。另外，随访记录是指患者在预设时间段内发生的事件标签，而具体事件标签的设置可以根据实际应用场景灵活调整，本发明实施例对此不作具体限定。以上两个数据集均按比例划分为训练集和测试集，其中训练集用于调整初始模型的参数，而测试集用于评估初始模型的训练效果。

在一些实施例中，可以获取样本对象的多个原始医学影像和多个原始非影像数据，即未经过处理的原始的胸部CT扫描图像、组织切片图像以及临床检查数据等。随后，基于三维插值算法(如最近邻插值、双线性插值、三次B样条插值等)将样本对象的多个原始医学影像调整至统一的空间分辨率后，切取样本对象的多个原始医学影像中的目标区域(不同原始医学影像中的目标区域可以不同，且目标区域可以预先设置)，并将目标区域以外的区域的像素置零，得到样本对象的多个个人医学影像。此处，针对任一原始医学影像，可以根据其中目标区域的勾画记录确定可以涵盖所有目标区域大小的矩形框，针对每一个目标区域，以勾画的掩膜的中心对该原始医学影像进行切取，并通过掩膜图像将目标区域以外的区域置零。

此外，对样本对象的多个原始非影像数据进行结构化处理，得到样本对象的多个个人非影像数据。其中，针对分类变量的原始非影像数据，例如是否吸烟、性别可以转换为0或1的离散数据，对于连续变量例如CAC细胞计数、红细胞含量等原始非影像数据，对每一项原始非影像数据均进行整体的归一化操作，使变量的值均限制在0到1之间。

步骤120，基于初始模型中所述多个个人医学影像和多个个人非影像数据各自对应的特征提取层，对所述多个个人医学影像和多个个人非影像数据分别进行特征提取，得到所述多个个人医学影像和多个个人非影像数据的特征向量。

具体地，初始模型中包含多个特征提取层，分别对应上述多个个人医学影像和多个个人非影像数据。即，每一种个人医学影像和每一种个人非影像数据均对应各自独立的特征提取层，以应对多个个人医学影像和多个个人非影像数据的多模态特性和数据异构性，从而准确地提取出多模态异构数据的语义特征。基于初始模型中多个个人医学影像和多个个人非影像数据各自对应的特征提取层，分别对上述多个个人医学影像和多个个人非影像数据进行特征提取，得到多个个人医学影像和多个个人非影像数据的特征向量。需要说明的是，多个个人医学影像和多个个人非影像数据的特征向量的维度是相同的。在一些实施例中，多个个人医学影像对应的特征提取层可以基于卷积神经网络构建得到，例如采用ResNet或者U-Net、V-Net等网络的下采样分支作为个人医学影像对应的特征提取层，而多个个人非影像数据对应的特征提取层可以基于人工神经网络构建得到。

步骤130，基于所述初始模型中的多模态融合层，对所述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的自注意力向量。

具体地，在多个独立的特征提取层之后，初始模型中还包括一个或多个多模态融合层，用于融合上述多个特征提取层输出的多模态数据的特征向量，即上述多个个人医学影像和多个个人非影像数据的特征向量。具体而言，多模态融合层可以对输入的向量(如上述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量)进行自注意力变换，得到预设令牌向量的自注意力向量。其中，预设令牌向量是一个由固定长度的可学习参数组成的向量，预设令牌向量的维度与多个个人医学影像和多个个人非影像数据的特征向量的维度相同，且预设令牌向量的初始向量值可以随机化得到，而在后续的模型训练过程中，预设令牌向量的向量值可以连同初始模型的模型参数一同被更新。

此处，预设令牌向量经过多模态融合层可与多模态的个人医学影像和个人非影像数据的特征向量进行自注意力交互，理解不同模态之间的非线性依赖关系，深度挖掘多模态数据中的内在联系，实现全局感知，从而融合得到预设令牌向量的语义表达能力更强的自注意力向量，有助于提升事件预测的准确度。在一些实施例中，多模态融合层可以基于Transformer中的编码层构建得到，其中可以采用多头注意力机制实现上述自注意力交互。

在一些实施例中，当多模态融合层有多层时，多层多模态融合层的运行机制相同，均会对输入的多个向量进行自注意力变换，从而得到相应的过程自注意力向量。其中，首层多模态融合层的输入为上述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量，输出为多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量对应的过程自注意力向量。其余层多模态融合层的输入为前一层多模态融合层输出的多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量对应的过程自注意力向量，而输出为该层更新后的多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量对应的过程自注意力向量。

针对任一层多模态融合层，可以将上一多模态融合层输出的预设令牌向量、多个个人医学影像的特征向量和多个个人非影像数据的特征向量对应的过程自注意力向量中的任一过程自注意力向量，分别与其他过程自注意力向量进行乘法注意力交互(例如可以将预设令牌向量分别与多个个人医学影像和多个个人非影像数据的特征向量进行点乘操作)，得到其他过程自注意力向量针对该过程自注意力向量的注意力权重，并基于其他过程自注意力向量针对该过程自注意力向量的注意力权重，对其他过程自注意力向量进行融合(具体可以通过其他过程自注意力向量针对该过程自注意力向量的注意力权重，对其他过程自注意力向量进行加权求和，得到融合结果)，基于融合结果和该过程自注意力向量确定当前多模态融合层输出的预设令牌向量(当该过程自注意力向量是预设令牌向量的过程自注意力向量时)、多个个人医学影像的特征向量(当该过程自注意力向量是个人医学影像的特征向量的过程自注意力向量时)或多个个人非影像数据的特征向量(当该过程自注意力向量是个人非影像数据的特征向量的过程自注意力向量时)对应的过程自注意力向量。其中，可以采用将融合结果和该过程自注意力向量进行按位加或按位乘等方式(本发明实施例对此不作具体限定)进行融合，得到当前多模态融合层输出的上述过程自注意力向量。需要说明的是，对于首个多模态融合层，上述上一多模态融合层输出的预设令牌向量、多个个人医学影像的特征向量和多个个人非影像数据的特征向量对应的过程自注意力向量分别为预设令牌向量、多个个人医学影像的特征向量和多个个人非影像数据的特征向量。

步骤140，基于所述初始模型中的预测层，结合所述预设令牌向量的自注意力向量进行事件预测，得到所述样本对象的事件预测结果。

具体地，多模态融合层融合得到的预设令牌向量的自注意力向量中包含有多个个人医学影像和多个个人非影像数据的特征向量之间相互依赖的语义信息，因此，可以在初始模型中设置预测层，根据预设令牌向量的自注意力向量进行事件预测，得到样本对象的事件预测结果。其中，事件预测结果中包含对应的样本对象在预设时间段内发生各类事件的概率。在一些实施例中，预测层可以基于多层感知机构建得到。

步骤150，基于所述样本对象的事件预测结果及所述样本对象的事件标签，对所述初始模型的参数进行调整，得到事件预测模型。

具体地，可以基于样本对象的事件预测结果及该样本对象的事件标签计算模型损失，利用该模型损失反向调整初始模型的参数，并重复上述步骤直至初始模型收敛或达到预设迭代次数，从而得到训练好的事件预测模型。在正式基于样本对象的事件预测结果及样本对象的事件标签，对初始模型的参数进行调整之前，可以设置模型组件，如学习率曲线、优化器(如Adam、SGD等)、用于计算模型损失的损失函数(COX局部似然函数、均方差等)、正则化项(L1、L2等)，并设置模型超参数，如训练迭代次数、批训练大小、正则化权重、各损失函数的权重、多个个人医学影像和多个个人非影像数据的特征向量的维度、多模态融合层的数量、当多模态融合层采用多头注意力机制时多头结构的数量等。通过网格搜索技术(Grid SearchCV)，综合对比模型在使用不同模型组件及模型超参数时初始模型在测试集上的表现，其评价指标可以使用一致性指数(Concoedance index)、布里尔评分(BrierScore)等确定当前任务下最佳的模型设置，然后选用最佳的模型组件及模型超参数，并基于根据样本对象的事件预测结果及该样本对象的事件标签计算得到的模型损失完成对初始模型的训练并保存。

在一些实施例中，为了进一步提升事件预测模型的预测准确度，可以在基于样本对象的事件预测结果及样本对象的事件标签之间的差异计算初始模型的主任务损失之外，还基于多个个人医学影像和多个个人非影像数据的特征向量，确定初始模型的多模态数据重建损失，并基于上述主任务损失和上述多模态数据重建损失，对初始模型的参数进行调整，得到事件预测模型。其中，主任务损失越大，表明初始模型的预测结果准确度越差，而多模态数据重建损失越大，表明初始模型中各层特征提取层的特征提取能力越差。考虑到特征提取层提取的特征向量是整个初始模型进行事件预测时的基础，因此特征提取层的特征提取能力对初始模型的事件预测能力有着重大影响。通过利用多模态数据重建损失评估量化特征提取层的特征提取能力，从而结合主任务损失一同影响模型参数的调整方向，能够有效提升特征提取层的特征提取能力，提升其对于个人医学影像或个人非影像数据中噪声的抗干扰能力，以辅助提高初始模型的事件预测能力。

在另一些实施例中，可以在预测层中设置多个个人医学影像和多个个人非影像数据各自对应的上采样层(与特征提取层一一对应)，然后基于多个个人医学影像和多个个人非影像数据各自对应的上采样层，对多个个人医学影像和多个个人非影像数据的特征向量分别进行还原，得到多个个人医学影像对应的还原影像和多个个人非影像数据对应的还原非影像数据。其中，还原影像与其对应的个人医学影像的格式相同，而还原非影像数据与其对应的个人非影像数据的格式相同。需要说明的是，每个个人医学影像均对应一个还原影像，而每个个人非影像数据均对应一个还原非影像数据。

随后，基于多个个人医学影像与其对应的还原影像之间的差异，以及多个个人非影像数据与其对应的还原非影像数据之间的差异，确定初始模型的多模态数据重建损失。其中，个人医学影像与其对应的还原影像之间的差异和/或个人非影像数据与其对应的还原非影像数据之间的差异越大，则表明相应的特征提取层的特征提取能力越差，据此得到的多模态数据重建损失也越大。在一些实施例中，可以基于多个个人医学影像与其对应的还原影像之间的差异，利用相应的损失函数(例如均方误差或结构性损失函数等)计算影像损失，另外基于多个个人非影像数据与其对应的还原非影像数据之间的差异，利用相应的损失函数(例如交叉熵或均方误差等)计算非影像损失，并对上述影像损失和非影像损失加和，得到多模态数据重建损失。

综上所述，本发明实施例提供的方法，通过利用独立的特征提取层对多个个人医学影像和多个个人非影像数据分别进行特征提取，得到多个个人医学影像和多个个人非影像数据的特征向量后，基于多模态融合层对多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到预设令牌向量的自注意力向量，可以有效捕捉多模态数据之间的非线性关联并进行多模态数据间的全局感知，提升了模型的特征提取能力，再基于预设令牌向量的自注意力向量进行事件预测，得到样本对象的事件预测结果，从而基于样本对象的事件预测结果及样本对象的事件标签，对初始模型的参数进行调整得到事件预测模型，形成端到端的预测结构，可在简化网络结构的基础上有效利用多模态数据信息，提升了事件预测模型的预测准确度，避免了信息丢失导致事件预测精度下降的问题。

下面对本发明提供的基于多模态数据的事件预测装置进行描述，下文描述的基于多模态数据的事件预测装置与上文描述的基于多模态数据的事件预测模型构建方法可相互对应参照。

基于上述任一实施例，图2是本发明提供的基于多模态数据的事件预测装置的结构示意图，如图2所示，该装置包括：

数据获取单元210，用于获取待预测对象的多个测试医学影像和多个测试非影像数据；

事件预测单元220，用于基于事件预测模型，对所述待预测对象的多个测试医学影像和多个测试非影像数据进行事件预测，得到所述待预测对象的事件预测结果；

其中，所述事件预测模型是基于如上述任一实施例提供的基于多模态数据的事件预测模型构建方法构建得到的。

具体地，获取的待预测对象的多个测试医学影像和多个测试非影像数据的类型与上述实施例中样本对象的多个个人医学影像和多个个人非影像数据是相同的，在此不再赘述。将获取到的上述多个测试医学影像和多个测试非影像数据输入到经由上述实施例中提供的基于多模态数据的事件预测模型构建方法构建得到的事件预测模型中进行事件预测，得到事件预测模型输出的该待预测对象的事件预测结果。其中，事件预测结果中包含待预测对象在预设时间段内发生各类事件的概率。

在一些实施例中，如图3所示，事件预测模型包括：

多个特征提取层，分别对应上述多个测试医学影像和多个测试非影像数据，用于对多个测试医学影像和多个测试非影像数据分别进行特征提取，得到多个测试医学影像和多个测试非影像数据的特征向量；

多模态融合层，用于对多个测试医学影像和多个测试非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到预设令牌向量的预测自注意力向量；

预测层，用于基于预设令牌向量的预测自注意力向量进行事件预测，得到待预测对象的事件预测结果。

需要说明的是，多模态融合层可以有多个，图3中示出的一个多模态融合层仅为示例，本发明实施例对此不作具体限定。

具体而言，多模态融合层具体用于：

其中，事件预测模型中各层的运行机制与上述实施例中给出的运行机制相同，在此不再赘述。

本发明实施例提供的装置，通过利用独立的特征提取层对多个测试医学影像和多个测试非影像数据分别进行特征提取，得到多个测试医学影像和多个测试非影像数据的特征向量后，基于多模态融合层对多个测试医学影像和多个测试非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到预设令牌向量的预测自注意力向量，可以有效捕捉多模态数据之间的非线性关联并进行多模态数据间的全局感知，提升了模型的特征提取能力，再基于预设令牌向量的预测自注意力向量进行事件预测，得到样本对象的事件预测结果，可以有效利用多模态数据信息，提升了事件预测模型的预测准确度，避免了信息丢失导致事件预测精度下降的问题。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440，其中，处理器410，存储器420，通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令，以执行基于多模态数据的事件预测模型构建方法，该方法包括：获取样本对象的多个个人医学影像和多个个人非影像数据；基于初始模型中所述多个个人医学影像和多个个人非影像数据各自对应的特征提取层，对所述多个个人医学影像和多个个人非影像数据分别进行特征提取，得到所述多个个人医学影像和多个个人非影像数据的特征向量；基于所述初始模型中的多模态融合层，对所述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的自注意力向量；基于所述初始模型中的预测层，结合所述预设令牌向量的自注意力向量进行事件预测，得到所述样本对象的事件预测结果；基于所述样本对象的事件预测结果及所述样本对象的事件标签，对所述初始模型的参数进行调整，得到事件预测模型。

此外，上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于多模态数据的事件预测模型构建方法，该方法包括：获取样本对象的多个个人医学影像和多个个人非影像数据；基于初始模型中所述多个个人医学影像和多个个人非影像数据各自对应的特征提取层，对所述多个个人医学影像和多个个人非影像数据分别进行特征提取，得到所述多个个人医学影像和多个个人非影像数据的特征向量；基于所述初始模型中的多模态融合层，对所述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的自注意力向量；基于所述初始模型中的预测层，结合所述预设令牌向量的自注意力向量进行事件预测，得到所述样本对象的事件预测结果；基于所述样本对象的事件预测结果及所述样本对象的事件标签，对所述初始模型的参数进行调整，得到事件预测模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于多模态数据的事件预测模型构建方法，该方法包括：获取样本对象的多个个人医学影像和多个个人非影像数据；基于初始模型中所述多个个人医学影像和多个个人非影像数据各自对应的特征提取层，对所述多个个人医学影像和多个个人非影像数据分别进行特征提取，得到所述多个个人医学影像和多个个人非影像数据的特征向量；基于所述初始模型中的多模态融合层，对所述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的自注意力向量；基于所述初始模型中的预测层，结合所述预设令牌向量的自注意力向量进行事件预测，得到所述样本对象的事件预测结果；基于所述样本对象的事件预测结果及所述样本对象的事件标签，对所述初始模型的参数进行调整，得到事件预测模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多模态数据的事件预测模型构建方法，其特征在于，包括：

获取样本对象的多个个人医学影像和多个个人非影像数据；

2.根据权利要求1所述的基于多模态数据的事件预测模型构建方法，其特征在于，所述多模态融合层有多个；所述对所述多个个人医学影像和多个个人非影像数据的特征向量以及预设令牌向量进行自注意力变换，得到所述预设令牌向量的自注意力向量，具体包括：

3.根据权利要求1所述的基于多模态数据的事件预测模型构建方法，其特征在于，所述基于所述样本对象的事件预测结果及所述样本对象的事件标签，对所述初始模型的参数进行调整，得到事件预测模型，具体包括：

4.根据权利要求1至3任一项所述的基于多模态数据的事件预测模型构建方法，其特征在于，所述多个个人医学影像对应的特征提取层是基于卷积神经网络构建的；所述多个个人非影像数据对应的特征提取层是基于人工神经网络构建的。

5.根据权利要求1所述的基于多模态数据的事件预测模型构建方法，其特征在于，所述获取样本对象的多个个人医学影像和多个个人非影像数据，具体包括：

6.一种基于多模态数据的事件预测装置，其特征在于，包括：

其中，所述事件预测模型是基于如权利要求1至5任一项所述基于多模态数据的事件预测模型构建方法构建得到的。

7.根据权利要求7所述的基于多模态数据的事件预测装置，其特征在于，所述事件预测模型包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于多模态数据的事件预测模型构建方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于多模态数据的事件预测模型构建方法。