CN116487031A

CN116487031A - 一种多模态融合的肺炎辅助诊断方法及其系统

Info

Publication number: CN116487031A
Application number: CN202310406023.1A
Authority: CN
Inventors: 郭存涵; 黄道银
Original assignee: Putian Digital Group Co ltd
Current assignee: Putian Digital Group Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-25

Abstract

本发明涉及智慧医疗和辅助诊断技术领域，具体公开了一种多模态融合的肺炎辅助诊断方法及其系统，所述方法包括：步骤S1：采集多模态数据信息，所述多模态数据信息来自电子听诊器、CT设备、医保系统、以及体检科室的各项信息，所述模态数据包括图像模态、文本模态和音频模态；步骤S2：对多模态数据进行预处理，将三种模态数据信息进行粗加工，使其变为适合神经网络处理的数据格式等内容；本发明基于多模态融合的肺炎辅助诊断系统，考虑了图像‑文本‑音频三种特征，丰富了特征语义，能够有效的提高辅助诊断的准确性；基于深度学习的算法开发能够充分的保障辅助诊断系统的泛用性，避免不同医院之间的难以部署的难题。

Description

一种多模态融合的肺炎辅助诊断方法及其系统

技术领域

本发明涉及智慧医疗和辅助诊断技术领域，具体是一种多模态融合的肺炎辅助诊断方法及其系统。

背景技术

目前医院在肺炎诊断时需要医生需要结合放射科医生给出的CT图像描述和检验报告针对病人的肺部影像进行仔细阅片，同时还要结合病人的病史、体检报告以及心肺听诊等多种信息，最后才能得出结论，存在着耗时长，且实习医生难以胜任的问题。近年来，人工智能辅助诊断系统正逐步深入各大医院，在肺炎辅助诊断领域也有所涉足，但现有技术仍存在着很大的局限性。目前的辅助诊断方法可以按照涉及的模态分为2类，具体如下：

1、单模态辅助诊断方法

目前医院最多使用的辅助诊断方法就是基于图像单模态的方法，该方法仅仅只有图像特征(可能为3维也可能为2维)，缺乏其他模态的信息作为支撑，效果一般。南京安科医疗科技有限公司公开了一个用于辅助肺炎诊断的图像处理方法和系统，该系统对肺部图像进行分割处理去除血管后，导入神经网络中，最后输出带有验证标记的图像。该方法仅考虑了CT影像，信息单一。且使用的主干网络为VGG和UNet等非自有专利的方法。如【申请号CN202010126181.8】

2、多模态辅助诊断方法

目前针对多模态辅助诊断可以进一步细分为两类，一类多模态是指不同医疗成像设备得到的图像资料，另一种是指图像资料与文本资料等。其中由于前者实现难度较低，成本低，所以更加广泛。

2.1基于多模态图像资料的辅助诊断

山西医科大学第一医院公开了一种多模态图像辅助诊断系统及其搭建方法，该方法中关于多模态的应用主要是将CT影像使用UNet进行分割提取轮廓，投影到SPECT影像上提取对应特征，这种方法仅仅是用到了图像信息，且具体工作是图像配准，在某种意义上不能算多模态特征融合。如【申请号CN201811528324.7】

2.2基于多模态图像、文本等信息的辅助诊断

中国科学院大学(中国科学院沈阳计算技术研究所)的吕晴提出了基于人工智能的肺癌辅助诊断系统，该系统使用了肺部CT图像以及放射科医生给出的CT图像描述和检验报告作为系统输入，涉及到图像及文本模态，但是涉及到的信息量较少，未能充分利用患者的病史、体检以及心肺音频等多方面信息【基于人工智能的肺癌辅助诊断系统的设计与实现】

此外，若按照涉及的算法类别分类，目前的辅助诊断方法可以分为传统图像处理方法和机器学习方法2类。其中传统图像处理方法需要耗费极大的人力和时间成本进行调整参数，同时泛用性差，对于不同型号设备的不同成像效果，难以达到很好的兼容性，因此我们提出一种多模态融合的肺炎辅助诊断方法及其系统。

发明内容

本发明的目的在于提供一种多模态融合的肺炎辅助诊断方法及其系统，目的在于使用深度学习算法构建神经网络，以包括医疗影像、心肺音频、病史等多模态的信息作为肺炎辅助诊断系统的输入，综合考虑多方面因素，输出辅助诊断的结果并标注影像中的对应位置，供内科医生参考，以此提高医院的接诊效率，提高诊断准确度，并加快实习医生的成长过程。

为实现上述目的，本发明提供如下技术方案：一种多模态融合的肺炎辅助诊断方法，所述方法包括：

步骤S1：采集多模态数据信息，所述多模态数据信息来自电子听诊器、CT设备、医保系统、以及体检科室的各项信息，所述模态数据包括图像模态、文本模态和音频模态；

步骤S2：对多模态数据进行预处理，将三种模态数据信息进行粗加工，使其变为适合神经网络处理的数据格式；

步骤S3：对预处理信息进行特征分析处理，在特征处理完三个模态的信息后，将抽取到的多模态特征进行形态变换，进行多模态特征融合；

步骤S4：将模态特征融的数据经过形状变化得到最终的输出，输出结果为患者是否患有肺炎，若患有肺炎则还进一步输出对应的标注了炎症位置的影像图，提供给医生参考。

作为本发明所述的一种优选实施方案，其中，所述步骤S1中，所述文字模态的文字信息可以进一步分为结构化文本信息和非结构化文本信息，所述结构化文本信包括体检数据，所述非结构化文本信息包括影响分析报告、病史。

作为本发明所述的一种优选实施方案，其中，所述步骤S2中：

图像预处理：是将图像大小裁切，将图像拉伸为224*224像素的尺寸，默认使用灰度图像，也可使用彩色多通道图像，数据的尺寸为[N,C,H,W]，分别代表图片数、通道数、高度以及宽度；

文本预处理：文本信息可以分为两类，结构化文本与非结构化文本，结构化文本以[数值]的形式保存，即[[V₁,V_1max,V_1min],[V₂,V_2max,V_2min]....[V_N,V_Nmax,V_Nmin]]，尺寸为[L_N,V]，其中V为value代表对应的数值，V_max为value代表对应的最大值，V_min为value代表对应的最小值，L_N为列表长度，列表的每一项内容，代表一项属性的数值，考虑到体检等多类信息数据庞大，预先取L_N＝512，对于数据长度不足512的，将其[数值]用[0]进行填充；便于神经网络计算；对于非结构化文本，直接将其读入即可，分别包括身体各类参数指标报告T₀、影象分析报告T₁以及病史T₂，格式为[T₀,T₁,T₂]，尺寸为[3,L_T]，L_T分别为三份文本的最大长度，默认取512；

音频预处理，音频信息一般为一段固定长度的时间序列，对于过长的音频，使用首尾裁切的方法自动保留中间信噪比更高的内容，对于过短的音频，在音频末尾自动添加空白音频，将其扩展到期望长度，尺寸为[L_A,A]，其中L_A为音频时长，A为某一采样时刻的音频信息，默认取32位存储空间；

其中，三类模态信息预处理完毕后，将其进行连接，形成多模态数据，尺寸为[[N,C,224,224],[[L_N,3],[3,L_T]],[L_A,32]]。

作为本发明所述的一种优选实施方案，其中，所述步骤S3中，特征处理包括图像模态特征提取、文本模态特征提取和音频模态特征提取，具体如下：

图像模态特征提取：图像模态的输入为CT影像，图像的格式已预处理为224*224，对于每一张图像使用U型网络进行特征提取，最后模块输出的特征尺寸同样为224*224；

文本模态特征提取：在结构化文本中，对于数值型的数据，可以直接输入多层感知机进行使用，而对于非数值型则需要进行独热码编码，在非结构化文本中，将其分别将其分为三类，每类以一段话的形式体现，对于某类文本缺失的，直接使用空字符替代；同时需要对文本进行词句嵌入，即将词句映射到一定长度的向量中去，通常可以使用词袋模型或者基于Bert的模型进行特征抽取；

音频模态特征提取：对于心肺音频的信息，通过KALDI工具箱或l ibrosa库进行特征提取，提取音频的FBANK或MFCCs普遍特征。

作为本发明所述的一种优选实施方案，其中，所述步骤S3中将抽取到的多模态特征进行形态变换，进行多模态特征融合中，所有类型的特征均需要展平为1维长向量，按[图像，文本，音频]的顺序进行首尾相连，共同作为输入。

一种多模态融合的肺炎辅助诊断系统，所述系统包括：

数据预处理模块，所述数据预处理模块用于对来自数据采集层的信息进行粗加工，使其变为适合神经网络处理的数据格式；

模态特征提取模块，所述模态特征提取模块用于分别对三种模态信息进行处理提取特征信息；

形状变换模块，所述形状变换模块用于将转换模态特征数据进行形态转换；

多模态特征融合分析模块，所述多模态特征融合分析模块包括两个自注意力模块，所述自注意力模块用于进行模态特征融合；

结果后处理模块，用于对输出结果进行处理；

作为本发明所述的一种优选实施方案，其中，所述模态特征提取模块包括：

图像模态特征提取模块，所述图像模态特征提取模块采用UNet的U型网络结构，其采用两次3*3卷积堆叠操作，具体的包括4次下采样操作和4次上采样操作，两两对应，并确保放缩倍率一致，保证同一层的输出特征尺寸与输入特征尺寸相同，其中3*3卷积层负责局部特征提取操作和特征通道数的变更，同一层采用跳层连接，并在同一层中插入注意力模块，左侧部分通道数逐渐增加，特征尺寸逐渐减小，右侧通道数逐渐减少，特征尺寸逐渐增大，最后恢复到单通道图层；

文本模态特征提取模块，所述文本模态特征提取模块包括结构化文本模块和非结构化文本模块；

音频特征提取模块，所述音频特征提取模块用于提取音频特征信息。

作为本发明所述的一种优选实施方案，其中，所述注意力模块包括：1*1卷积、全局池化层、全连接层和3*3卷积层；

其中,1*1卷积层用于整合输入特征通道间的特征，此次卷积通道数不进行变化，卷积过程相当于全连接层的计算过程，还加入非线性激活函数,所述全局池化层和全连接层用于对1*1卷积获得的特征进行了进一步的映射，获得通道注意力，该注意力特征尺寸为1*1，通道数与输入特征通道数相同；所述3*3卷积层用于实现空间注意力，因为多层操作中均有上下采样操作。

作为本发明所述的一种优选实施方案，其中，所述结构化文本模块包括用于编码的编码模块和用于提取特征的多层感知模块，所述多层感知模块包括三个全连接层和两个激活函数，且二者交替设置。

作为本发明所述的一种优选实施方案，其中，所述得结构化文本模块包括用于进行文本词句嵌入的文字嵌入模块和用于特征抽取的模型库模块。

与现有技术相比，本发明的有益效果是：

本发明基于多模态融合的肺炎辅助诊断系统，考虑了图像-文本-音频三种特征，丰富了特征语义，能够有效的提高辅助诊断的准确性。基于深度学习的算法开发能够充分的保障辅助诊断系统的泛用性，避免不同医院之间的难以部署的难题。

通道空间联合的注意力模块综合考虑了空间上以及通道间的信息，双重的注意力能够保证U型网络更好的提取特征。

辅助诊断系统的应用带动了医保系统、电子听诊器、体检科室、CT设备等多个维度的设备进行联动，提高了医院信息的交互。同时提高了医生的诊断效率，提高了医院的接诊速度和患者康复率，还能帮助实习医生查缺补漏，促使其更快地成长。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明一种多模态融合的肺炎辅助诊断方法及系统的结构流程图；

图2为本发明一种多模态融合的肺炎辅助诊断方法及系统的实施例系统图；

图3为本发明一种多模态融合的肺炎辅助诊断系统数据流程图；

图4为本发明一种多模态融合的肺炎辅助诊断系统的U型网络结构图；

图5为本发明一种多模态融合的肺炎辅助诊断系统的注意力模块的通道空间结构图；

图6为本发明一种多模态融合的肺炎辅助诊断系统多层感知模块原理图；

图7为本发明一种多模态融合的肺炎辅助诊断系统自注意力模块结构图；

图8为本发明一种多模态融合的肺炎辅助诊断系统的文字模态特征提取模块结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1-图8，本发明为实现上述目的对本发明所述技术方案进行详细说明。

本发明提供一种多模态融合的肺炎辅助诊断方法，所述方法包括：

进一步的，所述步骤S1中，所述文字模态的文字信息可以进一步分为结构化文本信息和非结构化文本信息，所述结构化文本信包括体检数据，所述非结构化文本信息包括影响分析报告、病史。

进一步的，所述步骤S2中：

进一步的，所述步骤S3中，特征处理包括图像模态特征提取、文本模态特征提取和音频模态特征提取，具体如下：

进一步的，所述步骤S3中将抽取到的多模态特征进行形态变换，进行多模态特征融合中，所有类型的特征均需要展平为1维长向量，按[图像，文本，音频]的顺序进行首尾相连，共同作为输入。

一种多模态融合的肺炎辅助诊断系统，所述系统包括：

结果后处理模块，用于对输出结果进行处理。

进一步的，所述模态特征提取模块包括：

进一步的，所述注意力模块包括：1*1卷积、全局池化层、全连接层和3*3卷积层；

进一步的，所述结构化文本模块包括用于编码的编码模块和用于提取特征的多层感知模块，所述多层感知模块包括三个全连接层和两个激活函数，且二者交替设置。

进一步的，所述得结构化文本模块包括用于进行文本词句嵌入的文字嵌入模块和用于特征抽取的模型库模块。

下面结合实际实施例对本发明所述系统进行详细说明:

如图2所示，系统主要分为数据采集层、网络层、功能平台层。其中数据层接收来自电子听诊器、CT设备、医保系统、以及体检科室的各项信息，数据主要分为图像-文本-音频三种模态，其中文字信息可以进一步分为结构化文本信息(体检数据)和非结构化文本信息(影响分析报告、病史)；网络层主要负责将上述的数据传递到辅助诊断系统；功能平台层由辅助诊断系统形成，实现对上述数据的多模态特征提取与融合任务，并将辅助诊断的结果反馈给医生以及上传内网保存记录。

辅助诊断系统流程图如图3所示。多模态数据作为辅助诊断系统神经网络的输入，针对多种模态分别提取特征后，统一输入多层自注意力模块，最后经过形状变换模块，输出最终的辅助诊断结果。以下针对数据预处理模块以及3种模态的特征提取，分别加以介绍。

1、数据预处理模块

数据预处理模块主要负责对来自数据采集层的信息进行粗加工，使其变为适合神经网络处理的数据格式。(1)对于图像的预处理主要为图像大小裁切，一般将图像拉伸为224*224像素的尺寸，默认使用灰度图像，也可使用彩色多通道图像，数据的尺寸为[N,C,H,W]，分别代表图片数、通道数、高度以及宽度。(2)文本信息可以分为两类，结构化文本与非结构化文本，结构化文本以[数值]的形式保存，即[[V₁,V_1max,V_1min],[V₂,V_2max,V_2min]....[V_N,V_Nmax,V_Nmin]]，尺寸为[L_N,V]，其中V为value代表对应的数值，V_max为value代表对应的最大值，V_min为value代表对应的最小值，L_N为列表长度，列表的每一项内容，代表一项属性的数值，考虑到体检等多类信息数据庞大，预先取L_N＝512，对于数据长度不足512的，将其[数值]用[0]进行填充。此外，非数值型的数据需要将其编码为独热码形式，如“性别”属性重有[男]与[女]两种属性，则分别编码为[01]与[10]，便于神经网络计算。对于非结构化文本，直接将其读入即可，分别包括身体各类参数指标报告T₀、影象分析报告T₁以及病史T₂，格式为[T₀,T₁,T₂]，尺寸为[3,L_T]，L_T分别为三份文本的最大长度，默认取512。(3)音频信息一般为一段固定长度的时间序列，对于过长的音频，使用首尾裁切的方法自动保留中间信噪比更高的内容，对于过短的音频，在音频末尾自动添加空白音频，将其扩展到期望长度，尺寸为[L_A,A]，其中L_A为音频时长，A为某一采样时刻的音频信息，默认取32位存储空间。。

2、图像模态特征提取模块

图像模态的输入为CT影像，图像的格式已预处理为224*224，对于每一张图像使用改进的U型网络进行特征提取，最后模块输出的特征尺寸同样为224*224，如图4所示。

核心思想：(1)U型网络重有4次下采样操作(即图片分辨率降低操作，通常选择使特征长宽均减半，见图4左侧部分)以及4次上采样操作(即图片分辨率提升操作)，两两一一对应，并确保放缩倍率一致，保证同一层的输出特征尺寸与输入特征尺寸相同。(2)同一层还是用了跳层连接，将浅层特征传递给深层特征，这种操作确保了在网络深度增加后依然可以保持已有的图像结构知识，方便进行图像分割操作。(3)跳层连接中加入了注意力模块，用于加强对图片中重点区域的关注，可以显著提升对小尺寸特征区域的细节分割效果。

模块网络结构：深度神经网络模型借鉴UNet的U型网络结构，进行了重新设计，其中3*3卷积层负责局部特征提取操作和特征通道数的变更，选择两次3*3卷积堆叠操作，可以获得5*5的感受野，但是消耗的计算量却远远低于5*5卷积操作，在保证特征提取效果的同时，提升了特征提取的效率；关于通道数变更，左侧部分通道数逐渐增加，特征尺寸逐渐减小，方便获取更多的特征，右侧通道数逐渐减少，特征尺寸逐渐增大，最后恢复到单通道图层。图4中下采样操作选择步长为2的卷积操作代替常见的最大池化操作，主要的作用是，在实现特征尺寸减半的同时，增加了模型的参数数量，这些参数量的提升，可以不需要增加模型的层数便达到提高模型的拟合能力的作用(过深的模型层数很容易引起梯度爆炸或者梯度弥散，让模型训练不稳定)；上采样操作使用逆卷积操作实现，改操作会增加一定数量的参数，减少计算速度，但是可以大幅提高分割效果，上采样和下采样的方法选择都是在合理参数量条件下，于模型层数和单层计算量中取得一个最优平衡。

为了更好的对肺部区域进行分割，本发明还提出了一种通道空间联合的注意力模块如图5所示，其中通道注意力部分由1*1卷积、全局池化层和全连接层组成。1*1卷积层用于整合输入特征通道间的特征，此次卷积通道数不进行变化，卷积过程相当于全连接层的计算过程，并且还加入了非线性激活函数，从而可以增加网络的非线性，使得网络可以表达更加复杂的特征，此次操作后得到的特征通道维度和尺寸与输入特征相同。进一步的使用全局池化层和全连接层，对1*1卷积获得的特征进行了进一步的，因此空间注意力不采用过于复杂的操作，减少计算量，提高计算速度。空间注意力和通道注意力进行相乘得到联合注意力，最后与输入特征进行整合得到最终的输出，输出特征与输入特征通道数和尺寸均一致，确保该模块可以即插即用，不影响网络其他模块，便于调试。

图像模态特征提取模块的最终输出内容为分割后的肺部影像图片，通道数和图片大小与输入完全一致，通道该操作，可以减少CT中其他部位对于后续模型的干扰，提高辅助诊断的准确性和可靠性。

3、文本模态

3.1结构化文本

结构化本文主要为体验表格，如下表所示

可以发现，体检项目名均为非数值型数据，而部分体检值为数值型。对于数值型的数据，可以直接输入多层感知机进行使用，而对于非数值型则需要进行独热码编码，以是否为色盲为例，一共有两种可能，因此编码的维度为2，则是色盲记为[1,0]，非色盲记为[0,1]，其他内容同理，编码后则可以输入多层感知机进行特征提取。多层感知机结构如图6。

本发明设计的多层感知机主要由全连接层和激活函数组成，其中，第一层全连接层负责输入的预处理完的结构化文本数据扩展到特定的尺寸，本发明中将改尺寸选择为1024维,以便获得更细致的特征表示。第二层全连接层将特征进一步扩大到2048维，这一步主要作用是对数据进行更深层次的映射，便于特征提取和数据拟合。第三层全连接层，将数据维度减少到512维，浓缩上一层获取得到的特征，减少输出特征的维度，减轻后续网络的计算压力，提高运算速度。

3.2非结构化文本

对于非结构化文本，如身体各类参数指标报告、影象分析报告以及病史，这类文本通常为一段或者多段描述类语句，在使用时，我们将其分别将其分为三类，每类以一段话的形式体现，对于某类文本缺失的，直接使用空字符替代。为了系统可以更好地对文本信息进行处理，需要对文本进行词句嵌入，即将词句映射到一定长度的向量中去，通常可以使用词袋模型或者基于Bert的模型进行特征抽取即可。

4、音频模态

对于心肺音频的信息，通过KALDI工具箱或l ibrosa库等进行特征提取，提取音频的FBANK或MFCCs等普遍特征，抽取得到的特征与图像-文本特征共同作为后续的输入。

5、多模态融合

在处理完3个模态的信息后，将抽取到的多模态特征进行形态变换，所有类型的特征均需要展平为1维长向量，按[图像，文本，音频]的顺序进行首尾相连，共同作为输入传入多层自注意力模块中，进行多模态特征融合，本发明选择Transformer用作自注意力模块，如图7。最后经过形状变化得到最终的输出，输出结果为患者是否患有肺炎，若患有肺炎则还进一步输出对应的标注了炎症位置的影像图，提供给医生参考。

其中，Transformer性能卓越，为目前最被普遍使用的自注意力模块，图3中仅绘制了2层自注意力模块，但是根据训练用医疗数据的多少以及医院算力能力的充足与否，可以进行更多层的叠加，以达到更好的效果。

综上所述，本发明提出将心肺音频和病史以及体验表格等多模态信息融合作为辅助诊断系统的输入，综合考虑了多方面的信息，提高辅助诊断系统的准确性；

提出一种通道空间联合的注意力机制，用于改进的U型网络结构中，可以更好的提取炎症部位等细节特征，改进的U型网络能够在更浅的模型深度下获得较好的拟合能力，同时兼顾运算时间和算力成本；

将保系统、电子听诊器、体检科室、CT设备等多个维度的设备进行联动，提高了医院信息的交互。

本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Process ing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digi tal Signal Processor，DSP)、专用集成电路(Applicat ion Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。

上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digi tal，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上所述为本发明的较佳实施例，并不用于限制本发明。在本发明原理及实施范围内所作的任何修改、等同替换及改进等均应包含在本发明的保护范围内。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多模态融合的肺炎辅助诊断方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种多模态融合的肺炎辅助诊断方法，其特征在于，所述步骤S1中，所述文字模态的文字信息可以进一步分为结构化文本信息和非结构化文本信息，所述结构化文本信包括体检数据，所述非结构化文本信息包括影响分析报告、病史。

3.根据权利要求2所述的一种多模态融合的肺炎辅助诊断方法，其特征在于，所述步骤S2中：

4.根据权利要求3所述的一种多模态融合的肺炎辅助诊断方法，其特征在于，所述步骤S3中，特征处理包括图像模态特征提取、文本模态特征提取和音频模态特征提取，具体如下：

音频模态特征提取：对于心肺音频的信息，通过KALDI工具箱或librosa库进行特征提取，提取音频的FBANK或MFCCs普遍特征。

5.根据权利要求4所述的一种多模态融合的肺炎辅助诊断方法，其特征在于，所述步骤S3中将抽取到的多模态特征进行形态变换，进行多模态特征融合中，所有类型的特征均需要展平为1维长向量，按[图像，文本，音频]的顺序进行首尾相连，共同作为输入。

6.一种多模态融合的肺炎辅助诊断系统，所述系统用于执行权利要求1-5所述的方法，其特征在于，所述系统包括：

结果后处理模块，用于对输出结果进行处理。

7.根据权利要求6所述的一种多模态融合的肺炎辅助诊断系统，其特征在于，所述模态特征提取模块包括：

8.根据权利要求7所述的一种多模态融合的肺炎辅助诊断系统，其特征在于，所述注意力模块包括：1*1卷积、全局池化层、全连接层和3*3卷积层；

9.根据权利要求8所述的一种多模态融合的肺炎辅助诊断系统，其特征在于，所述结构化文本模块包括用于编码的编码模块和用于提取特征的多层感知模块，所述多层感知模块包括三个全连接层和两个激活函数，且二者交替设置。

10.根据权利要求9所述的一种多模态融合的肺炎辅助诊断系统，其特征在于，所述得结构化文本模块包括用于进行文本词句嵌入的文字嵌入模块和用于特征抽取的模型库模块。