CN111916207A

CN111916207A - 一种基于多模态融合的疾病识别方法及装置

Info

Publication number: CN111916207A
Application number: CN202010788745.4A
Authority: CN
Inventors: 史业民; 于重之; 俞益洲
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-10
Anticipated expiration: 2040-08-07
Also published as: CN111916207B

Abstract

本发明提供了一种基于多模态融合的疾病识别方法及装置，其中方法包括：获取结构化数据，对结构化数据进行特征提取，得到结构化数据特征；获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本特征；利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出；获取医疗影像，对医疗影像进行特征提取，并进行特征空间转换，得到转换后的输出；将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告；将结构化特征、融合后的输出、转换后的输出以及影像诊断报告进行全连接特征融合，得到疾病识别结果。

Description

一种基于多模态融合的疾病识别方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种基于多模态融合的疾病识别方法及装置。

背景技术

随着医院信息化程度的增强，为规范病历书写，便于统计和研究，大量医院对病历进行了结构化的工作，将病历的文字信息，转换成一系列固定格式的数值编码，这降低了数据分析和处理的难度，为通过人工智能对结构化病历的分析预测呼吸道疾病提供了便利。基于结构化病历的呼吸道疾病诊断数据来源较为有限，检验数据和病情的描述较为简单，导致数据的维度较低，常见采用回归模型，支持向量机，贝叶斯网络等相对简单的机器学习方法。近年来，随着卷积神经网络的性能提升，简单的网络如浅层卷积神经网络，开始被运用在这一领域。较为复杂的基于卷积神经网络的算法，由于复杂度较高，容易过拟合，往往难以直接使用到结构化病历中。

相对于结构化病历，病历中的文字描述包含更丰富的信息。由于病历信息中，数据维度远高于结构化信息，深度学习算法过拟合的问题在文字病历信息分析中，得到一定缓解。

相对于结构化数据和病历，影像技术为直接观察疾病区域带来可能。然而，仅依赖影像技术将忽略对病人症状的表达能力，从而导致无法从宏观角度观察病人。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于多模态融合的疾病识别方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种基于多模态融合的疾病识别方法，包括：获取结构化数据，对结构化数据进行特征提取，得到结构化数据特征；获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本特征；利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出；获取医疗影像，对医疗影像进行特征提取，并进行特征空间转换，得到转换后的输出；将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告；将结构化特征、融合后的输出、转换后的输出以及影像诊断报告进行全连接特征融合，得到疾病识别结果。

其中，获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本信息包括：将病例文本的句拆分为词，采用预设词嵌入权重将所有词按顺序输入词嵌入算法，利用卷积神经网络进行特征提取，得到文本特征。

其中，利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出包括：利用如下公式进行双向特征嵌入：

其中，Wi,W1,Wo和bi,b1,bo代表卷积层的卷积核以及偏置，Softmax代表softmax操作，LN代表层归一化操作；利用如下公式进行双向注意力选择：

其中，Si,Ti,So代表2个输入流及一个输出，Wd,We,Ws以及 b_d,b_e,b_s分别代表卷积层的卷积核及偏置；其中，S_i为文本特征，T_i为结构化数据特征；将两组S_o拼接，得到融合后的输出。

其中，将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告包括：将医疗影像特征映射为隐空间特征向量，长度为d_h，初始化图像描述领域的注意力LSTM模型的隐状态h_t；利用如下公式计算隐状态：

其中，

为影像诊断报告的真实结果，f为融合后的输出，α_t代表上一步LSTM预测的显著性矩阵，X为转换后的输出，h_t-1为LSTM上一步的隐状态；利用如下公式计算重要性矩阵

β＝Softmax(W₂ tanh(W₁H))；其中，W₁是s×d_h的矩阵，W₂是r×s的矩阵；通过矩阵W₁和W₂，模型将原始隐状态转换为r个相似的重要性向量，

代表时间步的重要性；通过矩阵β来筛选每个时间步的隐状态，得到文本隐状态编码特征：T＝βH；利用矩阵β融合所有时间步的影像空间特征；

得到影像诊断报告。

本发明另一方面提供了一种基于多模态融合的疾病识别装置，包括：第一获取模块，用于获取结构化数据，对结构化数据进行特征提取，得到结构化数据特征；第二获取模块，用于获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本特征；融合模块，用于利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出；转换模块，用于获取医疗影像，对医疗影像进行特征提取，并进行特征空间转换，得到转换后的输出；影像诊断报告生成模块，用于将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告；疾病识别模块，用于将结构化特征、融合后的输出、转换后的输出以及影像诊断报告进行全连接特征融合，得到疾病识别结果。

其中，第二获取模块通过如下方式获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本信息：第二获取模块，具体用于将病例文本的句拆分为词，采用预设词嵌入权重将所有词按顺序输入词嵌入算法，利用卷积神经网络进行特征提取，得到文本特征。

其中，融合模块通过如下方式利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出：融合模块，具体用于利用如下公式进行双向特征嵌入：

其中，W_i,W₁,W_o和b_i,b₁,b_o代表卷积层的卷积核以及偏置，Softmax代表softmax操作，LN代表层归一化操作；利用如下公式进行双向注意力选择：

其中， S_i,T_i,S_o代表2个输入流及一个输出，W_d,W_e,W_s以及b_d,b_e,b_s分别代表卷积层的卷积核及偏置；其中，S_i为文本特征，T_i为结构化数据特征；将两组S_o拼接，得到融合后的输出。

其中，影像诊断报告生成模块通过如下方式将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告：影像诊断报告生成模块，具体用于将医疗影像特征映射为隐空间特征向量，长度为d_h，初始化图像描述领域的注意力LSTM模型的隐状态h_t；利用如下公式计算隐状态：

其中，

为影像诊断报告的真实结果，f为融合后的输出，α_t代表上一步LSTM预测的显著性矩阵，X为转换后的输出，h_t-1为LSTM 上一步的隐状态；利用如下公式计算重要性矩阵

β＝Softmax(W₂tanh(W₁H))；其中，W₁是s×d_h的矩阵，W₂是r×s的矩阵；通过矩阵W₁和W₂，模型将原始隐状态转换为r个相似的重要性向量，

得到影像诊断报告。

由此可见，通过本发明提供的基于多模态融合的疾病识别方法及装置，从多模态融合角度出发，融合结构化数据、病历文本和影像，通过跨模态显著性和多模态特征融合实现疾病诊断。

本发明通过融合病历、影像等多模态数据进行疾病诊断，可以结合多个角度的信息，实现更精确地诊断；提出了跨模态显著性提取方法，实现有效的多模态信息筛选；提出多模态特征融合方法，有效融合信息，用于最终疾病诊断。从而，可融合所有的模态数据，有效提高识别准确率；可根据当前医院环境调整输入模态数据，训练对应模型，从而适应各种医院环境；可通过病历引入医生思考过程，从而结合医生经验进行诊断。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于多模态融合的疾病识别方法的流程图；

图2为本发明实施例提供的基于多模态融合的疾病识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的核心在于：通过学习全局统一的文字嵌入特征，实现对于病历及诊断报告的统一建模，之后基于注意力机制实现对于结构化数据及文本辨别性特征的学习，进一步利用长短时记忆网络学习病历、诊断报告与影像在时序上的相关性特征，并学习每个时间步的影像像素级显著性，最后，通过融合病历、结构化数据、影像、影像诊断报告的多模态特征，实现对于疾病的精确预测。

图1示出了本发明实施例提供的基于多模态融合的疾病识别方法的流程图，参见图1，本发明实施例提供的基于多模态融合的疾病识别方法，包括：

S1，获取结构化数据，对结构化数据进行特征提取，得到结构化数据特征。

具体地，本发明中，对于结构化数据的特征提取，可以采用一维卷积神经网络。

S2，获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本特征。

具体地，本发明采用权重共享的文本嵌入模块E(·)来学习对于临床病历和诊断报告中文字的表示。对于每个词，将其从独热表示的向量映射到高维特征向量空间

从而将每个句子表示为

其中e_i∈V。为了有效标记句子的开始与结束，本发明在句子前后加入e₀和e_end特殊字符。

对于病历文本的特征提取，作为本发明实施例的一个可选实施方式，获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本信息包括：将病例文本的句拆分为词，采用预设词嵌入权重将所有词按顺序输入词嵌入算法，利用卷积神经网络进行特征提取，得到文本特征。

具体地，首先将句拆分为词，将所有词按顺序输入词嵌入算法(英文为wordembedding)，得到高维特征空间

中的表示

其中e_i∈V。其中，权重共享的文本嵌入模块E(·)指的是病历文本与报告文本采用相同的词嵌入权重E(·)。

S3，利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出。

具体地，为了有效提取病历文本及结构化数据中的信息，本发明首先利用卷积层进行预处理，学习初始特征。之后，引入多层嵌入模块，从而实现结构化数据与病历文本的双向特征嵌入和分析。为了进一步融合结构化及文本信息，本发明引入多模态注意力融合层，将两种信息进行双向注意力选择，保留关键信息，进而进行拼接融合。

本步骤将结构化数据产生的特征与文本特征融合，可以包括两步：特征嵌入(Feature infusion)和特征融合(Feature fuision)。

作为本发明实施例的一个可选实施方式，利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出包括：利用如下公式进行双向特征嵌入：

其中，Wi,W1,Wo和bi,b1,bo代表卷积层的卷积核以及偏置， Softmax代表softmax操作，LN代表层归一化操作；利用如下公式进行双向注意力选择：

其中，S_i,T_i,S_o代表2个输入流及一个输出，W_d,W_e,W_s以及b_d,b_e,b_s分别代表卷积层的卷积核及偏置；其中，S_i为文本特征，T_i为结构化数据特征；将两组S_o拼接，得到融合后的输出。

具体地，特征嵌入(Feature infusion)：通过注意力机制，分别将结构化分支和文本分支作为目标，从另外一个分支选择特征，并进行融合。特征嵌入模块可以表示为：

其中，W_i,W₁,W_o和b_i,b₁,b_o代表卷积层的卷积核以及偏置，Softmax代表softmax操作， LN代表层归一化操作。

特征融合(Feature fuision)：通过双向注意力机制，从结构划分至和文本分支提取特征，并进行拼接，得到最后融合后的特征。特征融合模块可表示为：

其中，S_i,T_i,S_o代表2个输入流及一个输出，W_d,W_e,W_s以及b_d,b_e,b_s分别代表卷积层的卷积核及偏置。将文本和结构化数据分别作为S_i和T_i，可得到2组S_o。之后将2组S_o拼接作为输出f。

S4，获取医疗影像，对医疗影像进行特征提取，并进行特征空间转换，得到转换后的输出。

具体地，本步骤用于对医疗影像进行特征提取，其中影像可为CT或X光。本发明利用 CNN网络提取影像的空间特征，比如ResNet-50网络。之后，通过额外的卷积层实现特征空间的转换，得到输出X，用于后续与文本特征结合。

值得说明的是，上述步骤S1、S2、S4的执行顺序可以不固定，可以同时执行，也可以具有先后顺序，这在本发明中并不做具体限制。

S5，将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告。

具体地，本步骤融合前述得到的文本/结构化特征以及影像特征，同时生成影像报告。

作为本发明实施例的一个可选实施方式，将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告包括：将医疗影像特征映射为隐空间特征向量，长度为d_h，初始化图像描述领域的注意力LSTM模型的隐状态h_t；利用如下公式计算隐状态：

其中，

β＝Softmax(W₂tanh(W₁H))；其中，W₁是s×d_h的矩阵， W₂是r×s的矩阵；通过矩阵W₁和W₂，模型将原始隐状态转换为r个相似的重要性向量，

得到影像诊断报告。

具体地，本发明可以利用图像描述领域的注意力LSTM模型来实现诊断报告生成。首先通过全连接层φ(X)将X映射为隐空间特征向量长度d_h，并用来初始化LSTM的隐状态h_t。为了学习临床病历与影像的相关性，本发明将特征f作为LSTM在所有时间点的输入，从而保证 LSTM可以不断关注病历信息。同时，通过将影像特征X作为输入来融合文本与图像。LSTM 模型在每个时间步会为X预测显著性矩阵α_t，以保留最相关区域。因此，每次将X输入到LSTM 之前，将上一步的显著性矩阵α_t通过像素乘法附加到X上，从而实现显著区域的筛选，之后输入到LSTM中。为了实现理解输出报告上下文，预测诊断报告，LSTM在每个时间步还会以上一步的预测作为输入。

总体来说，LSTM模块可形式化表示为：

其中，

代表诊断报告的真实结果，f代表临床病历与结构化数据的融合特征，α_t代表上一步LSTM预测的显著性矩阵，h_t-1代表LSTM上一步的隐状态。测试时，使用LSTM预测值

的嵌入特征代替

表示为：

其中，E(·)与临床病历及诊断报告共享文本嵌入模型参数。因此，LSTM通过理解当前的隐状态、上一步的预测结果和影像特征来实现对于当前状态的推理。当模型训练完成之后，诊断报告可以通过顺序按照e_t～p(e_t|h_t)进行生成，并更新隐状态h_t。

为了学习语义相关的全局表示，本发明进一步引入时序注意力机制，通过每个时间步的隐状态学习当前时间步在时间维的重要性，并进一步用于融合时间维的隐状态及影像图像特征。为了得到时间维重要性,假设时间维所有隐状态为

计算重要性矩阵

β＝Softmax(W₂ tanh(W₁H))

其中，W₁是一个s×d_h的矩阵，而W₂是一个r×s的矩阵。通过矩阵W₁和W₂，模型将原始隐状态转换为r个相似的重要性向量，从而实现类似多头注意力的效果，

代表时间步的重要性。

之后，通过矩阵β来筛选每个时间步的隐状态，得到文本隐状态编码特征：

T＝βH

进一步利用β来融合所有时间步的影像空间特征：

由此，可以得到影像诊断报告。

S6，将结构化特征、融合后的输出、转换后的输出以及影像诊断报告进行全连接特征融合，得到疾病识别结果。

具体地，通过拼接前述文本/结构化融合特征、影像特征、报告特征实现全局特征融合，并通过全连接实现疾病诊断/预测。

由此可见，本发明实施例提供的基于多模态融合的疾病识别方法，通过融合病历、影像等多模态数据进行疾病诊断，可以结合多个角度的信息，实现更精确地诊断；提出了跨模态显著性提取方法，实现有效的多模态信息筛选；提出多模态特征融合方法，有效融合信息，用于最终疾病诊断。从而，可融合所有的模态数据，有效提高识别准确率；可根据当前医院环境调整输入模态数据，训练对应模型，从而适应各种医院环境；可通过病历引入医生思考过程，从而结合医生经验进行诊断。

图2示出了本发明实施例提供的基于多模态融合的疾病识别装置的结构示意图，该基于多模态融合的疾病识别装置应用上述方法，以下仅对基于多模态融合的疾病识别装置的结构进行简单说明，其他未尽事宜，请参照上述基于多模态融合的疾病识别方法中的相关描述，参见图2，本发明实施例提供的基于多模态融合的疾病识别装置，包括：

第一获取模块，用于获取结构化数据，对结构化数据进行特征提取，得到结构化数据特征；

第二获取模块，用于获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本特征；

融合模块，用于利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出；

转换模块，用于获取医疗影像，对医疗影像进行特征提取，并进行特征空间转换，得到转换后的输出；

影像诊断报告生成模块，用于将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告；

疾病识别模块，用于将结构化特征、融合后的输出、转换后的输出以及影像诊断报告进行全连接特征融合，得到疾病识别结果。

作为本发明实施例的一个可选实施方式，第二获取模块通过如下方式获取病例文本，利用权重共享的文本嵌入模块学习病历文本，得到文本信息：第二获取模块，具体用于将病例文本的句拆分为词，采用预设词嵌入权重将所有词按顺序输入词嵌入算法，利用卷积神经网络进行特征提取，得到文本特征。

作为本发明实施例的一个可选实施方式，融合模块通过如下方式利用特征嵌入模块将结构化数据特征与文本特征进行双向特征嵌入，利用特征融合模块将结构化数据特征与文本特征进行双向注意力选择，拼接融合，得到融合后的输出：融合模块，具体用于利用如下公式进行双向特征嵌入：

作为本发明实施例的一个可选实施方式，影像诊断报告生成模块通过如下方式将结构化特征、文本特征以及医疗影像特征进行融合，得到影像诊断报告：影像诊断报告生成模块，具体用于将医疗影像特征映射为隐空间特征向量，长度为d_h，初始化图像描述领域的注意力 LSTM模型的隐状态h_t；利用如下公式计算隐状态：

其中，

得到影像诊断报告。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于多模态融合的疾病识别方法，其特征在于，包括：

获取结构化数据，对所述结构化数据进行特征提取，得到结构化数据特征；

获取病例文本，利用权重共享的文本嵌入模块学习所述病历文本，得到文本特征；

利用特征嵌入模块将所述结构化数据特征与所述文本特征进行双向特征嵌入，利用特征融合模块将所述结构化数据特征与所述文本特征进行双向注意力选择，拼接融合，得到融合后的输出；

获取医疗影像，对所述医疗影像进行特征提取，并进行特征空间转换，得到转换后的输出；

将所述结构化特征、所述文本特征以及所述医疗影像特征进行融合，得到影像诊断报告；

将所述结构化特征、所述融合后的输出、所述转换后的输出以及所述影像诊断报告进行全连接特征融合，得到疾病识别结果。

2.根据权利要求1所述的方法，其特征在于，所述获取病例文本，利用权重共享的文本嵌入模块学习所述病历文本，得到文本信息包括：

将所述病例文本的句拆分为词，采用预设词嵌入权重将所有词按顺序输入词嵌入算法，利用卷积神经网络进行特征提取，得到所述文本特征。

3.根据权利要求1所述的方法，其特征在于，所述利用特征嵌入模块将所述结构化数据特征与所述文本特征进行双向特征嵌入，利用特征融合模块将所述结构化数据特征与所述文本特征进行双向注意力选择，拼接融合，得到融合后的输出包括：

利用如下公式进行双向特征嵌入：

其中，W_i，W₁，W_o和b_i，b₁，b_o代表卷积层的卷积核以及偏置，Softmax代表softmax操作，LN代表层归一化操作；

利用如下公式进行双向注意力选择：

其中，S_i，T_i，S_o代表2个输入流及一个输出，W_d，W_e，W_s以及b_d，b_e，b_s分别代表卷积层的卷积核及偏置；其中，S_i为所述文本特征，T_i为所述结构化数据特征；

将两组S_o拼接，得到所述融合后的输出。

4.根据权利要求1所述的方法，其特征在于，所述将所述结构化特征、所述文本特征以及所述医疗影像特征进行融合，得到影像诊断报告包括：

将所述医疗影像特征映射为隐空间特征向量，长度为d_h，初始化图像描述领域的注意力LSTM模型的隐状态h_t；

利用如下公式计算隐状态：

其中，

为影像诊断报告的真实结果，f为所述融合后的输出，α_t代表上一步LSTM预测的显著性矩阵，X为所述转换后的输出，h_t-1为LSTM上一步的隐状态；

利用如下公式计算重要性矩阵

β＝Softmax(W₂ tanh(W₁H))；

其中，W₁是s×d_h的矩阵，W₂是r×s的矩阵；通过矩阵W₁和W₂，模型将原始隐状态转换为r个相似的重要性向量，

代表时间步的重要性；

通过矩阵β来筛选每个时间步的隐状态，得到文本隐状态编码特征：

T＝βH；

利用矩阵β融合所有时间步的影像空间特征；

得到影像诊断报告。

5.一种基于多模态融合的疾病识别装置，其特征在于，包括：

第一获取模块，用于获取结构化数据，对所述结构化数据进行特征提取，得到结构化数据特征；

第二获取模块，用于获取病例文本，利用权重共享的文本嵌入模块学习所述病历文本，得到文本特征；

融合模块，用于利用特征嵌入模块将所述结构化数据特征与所述文本特征进行双向特征嵌入，利用特征融合模块将所述结构化数据特征与所述文本特征进行双向注意力选择，拼接融合，得到融合后的输出；

转换模块，用于获取医疗影像，对所述医疗影像进行特征提取，并进行特征空间转换，得到转换后的输出；

影像诊断报告生成模块，用于将所述结构化特征、所述文本特征以及所述医疗影像特征进行融合，得到影像诊断报告；

疾病识别模块，用于将所述结构化特征、所述融合后的输出、所述转换后的输出以及所述影像诊断报告进行全连接特征融合，得到疾病识别结果。

6.根据权利要求5所述的装置，其特征在于，所述第二获取模块通过如下方式获取病例文本，利用权重共享的文本嵌入模块学习所述病历文本，得到文本信息：

所述第二获取模块，具体用于将所述病例文本的句拆分为词，采用预设词嵌入权重将所有词按顺序输入词嵌入算法，利用卷积神经网络进行特征提取，得到所述文本特征。

7.根据权利要求5所述的装置，其特征在于，所述融合模块通过如下方式利用特征嵌入模块将所述结构化数据特征与所述文本特征进行双向特征嵌入，利用特征融合模块将所述结构化数据特征与所述文本特征进行双向注意力选择，拼接融合，得到融合后的输出：

所述融合模块，具体用于利用如下公式进行双向特征嵌入：

其中，Wi，W1，Wo和bi，b1，bo代表卷积层的卷积核以及偏置，Softmax代表softmax操作，LN代表层归一化操作；利用如下公式进行双向注意力选择：

其中，S_i，T_i，S_o代表2个输入流及一个输出，W_d，W_e，W_s以及b_d，b_e，b_s分别代表卷积层的卷积核及偏置；其中，S_i为所述文本特征，T_i为所述结构化数据特征；将两组S_o拼接，得到所述融合后的输出。

8.根据权利要求5所述的装置，其特征在于，所述影像诊断报告生成模块通过如下方式将所述结构化特征、所述文本特征以及所述医疗影像特征进行融合，得到影像诊断报告：

所述影像诊断报告生成模块，具体用于将所述医疗影像特征映射为隐空间特征向量，长度为d_h，初始化图像描述领域的注意力LSTM模型的隐状态h_t；利用如下公式计算隐状态：

其中，

为影像诊断报告的真实结果，f为所述融合后的输出，α_t代表上一步LSTM预测的显著性矩阵，X为所述转换后的输出，h_t-1为LSTM上一步的隐状态；利用如下公式计算重要性矩阵

得到影像诊断报告。