CN117194605A - 用于多模态医学数据缺失的哈希编码方法、终端及介质 - Google Patents

用于多模态医学数据缺失的哈希编码方法、终端及介质 Download PDF

Info

Publication number
CN117194605A
CN117194605A CN202311474216.7A CN202311474216A CN117194605A CN 117194605 A CN117194605 A CN 117194605A CN 202311474216 A CN202311474216 A CN 202311474216A CN 117194605 A CN117194605 A CN 117194605A
Authority
CN
China
Prior art keywords
medical
semantic similarity
report
hash
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311474216.7A
Other languages
English (en)
Other versions
CN117194605B (zh
Inventor
龙军
蒯明锦
杨展
陈云飞
李逸楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202311474216.7A priority Critical patent/CN117194605B/zh
Publication of CN117194605A publication Critical patent/CN117194605A/zh
Application granted granted Critical
Publication of CN117194605B publication Critical patent/CN117194605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种用于多模态医学数据缺失的哈希编码方法、终端及介质,包括如下步骤:对多模态医学数据进行标签抽取,然后构建随机化的语义相似度标签空间,构建视觉编码器和文本编码器对医学图像和医学报告进行深度语义哈希编码,构建随机化的语义相似度嵌入空间,生成统一语义相似度损失子空间,然后训练视觉编码器和文本编码器以进行多模态医学数据的深度语义哈希编码。本发明在能充分利用医学图像和医学报告的模态内一致性和模态间互补性的同时,能有效解决多模态医学数据中部分数据缺失的问题,并且还克服了成对医学数据所带来的假阴性和大规模多模态医学数据的存储消耗问题。

Description

用于多模态医学数据缺失的哈希编码方法、终端及介质
技术领域
本发明涉及多模态医学大数据研究领域,尤其涉及一种用于多模态医学数据缺失的哈希编码方法、终端及介质。
背景技术
深度语义哈希编码(Deep Semantic Hash Coding)是多模态医学领域中将高维数据映射到低维二进制编码的技术。它结合了深度学习和哈希函数的思想,用于处理语义相关的任务。
在多模态医学领域中图像和报告编码是一项非常重要的任务,一般而言,目前主要是通过对比学习成对的医学图像和报告,训练医学图像和报告编码器。在对比学习中,进一步通过注意力学习机制,考虑医学图像和报告的全局粗粒度和局部细粒度的关联关系,构建全局-局部特征的交互模型,提高了多模态医学数据表征的语义表达能力。
然而,发明人发现,目前的技术有着明显的局限性:首先,多模态医学数据中部分数据缺失;目前医学图像和报告的联合编码中,都需要考虑成对的医学图像和报告。然而,在网络传输过程中,多模态医学数据会出现部分数据缺失的情况,导致大量的医学图像和纯文本报告数据未被使用。其次,即是医学图像和报告联合编码中的假阴性问题;由于目前的技术考虑的都是成对的医学图像和报告,试图将不同患者的图像和文本嵌入分隔开来。假设一些医学报告不属于目标患者,但是它可以描述与目标患者相同的病症,如果简单的将其视为负样本,会对模型产生负面影响,使得模型性能下降。最后,大规模多模态医学数据的存储消耗也是一个问题;多模态医学数据大多都是海量的大规模数据集合,仅仅只是采用简单的向量化编码,会带来巨大的存储消耗。对于下游任务,例如跨模态检索等会带来一些消极影响。如何解决上述问题,是本领域的重要技术课题之一。
发明内容
本发明提供了一种用于多模态医学数据缺失的哈希编码方法、终端及介质,以解决多模态医学数据中部分数据缺失、成对医学数据带来的假阴性的问题。
第一方面,提供了一种用于多模态医学数据缺失的哈希编码方法,包括:
S1:对多模态医学数据中医学图像和医学报告进行标签提取;
S2:将医学图像和医学报告的标签进行模态内和模态间的随机组合,构建随机化的语义相似度标签空间;
S3:构建视觉编码器,对医学图像进行深度语义哈希编码;
S4:构建文本编码器,对进行文本数据增强前后的医学报告进行深度语义哈希编码;
S5:将医学图像的哈希码和文本数据增强前后的医学报告的哈希码进行模态内和模态间的随机组合,构建随机化的语义相似度嵌入空间;
S6:基于随机化的语义相似度标签空间和随机化的语义相似度嵌入空间建立统一语义相似度损失子空间上的统一语义相似度损失;
S7:基于统一语义相似度损失构建目标函数,利用多模态医学数据集对视觉编码器和文本编码器进行训练,得到最终的视觉编码器和文本编码器;
S8:利用最终的视觉编码器和文本编码器对多模态医学数据中医学图像和医学报告进行深度语义哈希编码。
进一步地,所述步骤S2中,随机化的语义相似度标签空间包括:“医学图像-医学图像”、“医学报告-医学报告”的模态内语义相似度标签矩阵,以及“医学图像-医学报告”、“医学报告-医学图像”的模态间语义相似度标签矩阵。
进一步地,所述步骤S5中,随机化的语义相似度嵌入空间包括:“医学图像-医学图像”的模态内语义相似度嵌入矩阵,进行文本数据增强前后的“医学报告-医学报告”的模态内语义相似度嵌入矩阵,进行文本数据增强前后的“医学图像-医学报告”的模态间语义相似度嵌入矩阵,以及进行文本数据增强前后的“医学报告-医学图像”的模态间语义相似度嵌入矩阵。
进一步地,所述步骤S3中,视觉编码器包括基于卷积神经网络的特征提取层和哈希网络层,使用视觉编码器对医学图像进行编码得到的输出表示如下:
式中,表示第个医学图像的二进制近似哈希码;表示第个医学图像的输 入值;表示视觉编码器;
视觉编码器二值约束的量化损失表示如下:
式中,表示视觉编码器二值约束的量化损失;表示第个医学图像的二进 制近似哈希码中的第个元素,表示平滑函数,R表示哈希码的维度,M表示 医学图像的数量。
进一步地,所述步骤S4中,文本编码器包括基于BERT模型的特征提取层和哈希网络层;
对医学报告进行文本数据增强处理,然后将文本数据增强前后的医学报告输入文本编码器进行编码;
使用文本编码器对原始医学报告进行编码得到的输出表示如下:
式中,表示第个医学报告的二进制近似哈希码;表示第个医学报告的输 入值;表示文本编码器;
文本数据增强前文本编码器二值约束的量化损失表示如下:
式中,表示文本数据增强前文本编码器二值约束的量化损失;表示第个医 学报告的二进制近似哈希码中的第个元素,表示平滑函数,R表示哈希码的 维度,N表示医学报告的数量;
使用文本编码器对文本数据增强后的医学报告进行编码得到的输出表示如下:
式中,表示文本数据增强后第个医学报告的二进制近似哈希码;表 示文本数据增强后第个医学报告的输入值;
文本数据增强后文本编码器二值约束的量化损失表示如下:
式中,表示文本数据增强后文本编码器二值约束的量化损失;表示文 本数据增强后第个医学报告的二进制近似哈希码中的第个元素。
进一步地,所述步骤S4中,文本编码器包括基于BERT模型的特征提取层和哈希网络层,其中基于BERT模型的特征提取层对医学报告进行特征提取,选择特征提取层中前两层和最后两层的隐藏状态,将其经过平均池化层后接入一层全连接线性投影层,然后将全连接线性投影层的输出作为哈希网络层的输入。
进一步地,所述步骤S6中,统一语义相似度损失表示如下:
式中,表示统一语义相似度损失;分别表示医学报告文本数据增 强前后的语义相似度损失,基于随机化的语义相似度标签空间和随机化的语义相似度嵌入 空间利用交叉熵损失函数计算得到;表示视觉编码器二值约束的量化损失; 分别表示医学报告文本数据增强前后文本编码器二值约束的量化损失;均表示超 参数。
进一步地,医学报告文本数据增强前的语义相似度损失表示如下:
式中,分别表示随机化的语义相似度标签空间中的“医学图像- 医学图像”、“医学报告-医学报告”、“医学图像-医学报告”、“医学报告-医学图像”四个语义 相似度标签矩阵;分别表示随机化的语义相似度嵌入空间中“医学图 像-医学图像”语义相似度嵌入矩阵和文本数据增强前的“医学报告-医学报告”、“医学图 像-医学报告”、“医学报告-医学图像”三个语义相似度嵌入矩阵;表示语义相似度标 签矩阵的第行、第列的元素;表示语义相似度嵌入矩阵的第行、第列的元素;M 表示医学图像的数量,N表示医学报告的数量;
医学报告文本数据增强后的语义相似度损失表示如下:
式中,分别表示随机化的语义相似度嵌入空间中文本数 据增强后的“医学报告-医学报告”、“医学图像-医学报告”、“医学报告-医学图像”三个语义 相似度嵌入矩阵;表示文本数据增强后的语义相似度嵌入矩阵的第行、第列 的元素。
第二方面,提供了一种电子终端,包括:
存储器,其上存储有计算机程序;
处理器,用于加载并执行所述计算机程序,以实现如上所述的用于多模态医学数据缺失的哈希编码方法的步骤。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于多模态医学数据缺失的哈希编码方法的步骤。
本发明提出了一种用于多模态医学数据缺失的哈希编码方法、终端及介质,首先对多模态医学数据进行标签抽取,然后构建随机化的语义相似度标签空间,针对缺失医学图像或医学报告的多模态医学数据,将医学图像和医学报告标签进行模态内和模态间的随机组合,构建语义关联随机化的相似度标签空间;构建视觉编码器和文本编码器对医学图像和医学报告进行深度语义哈希编码;构建随机化的语义相似度嵌入空间,针对缺失医学图像或报告的多模态医学数据得到医学图像和医学报告的哈希码,构建模态内和模态间的语义关联随机化的相似度嵌入空间;生成统一语义相似度损失子空间,从模态内和模态间计算语义相似度损失。本发明提出的深度语义哈希编码在能充分利用医学图像和报告的模态内一致性和模态间互补性的同时,能有效解决多模态医学数据中部分数据缺失的问题,并且还克服了成对医学数据所带来的假阴性和大规模多模态医学数据的存储消耗问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用于多模态医学数据缺失的哈希编码方法流程图;
图2是本发明实施例提供的用于多模态医学数据缺失的哈希编码方法整体框架图;
图3是本发明实施例提供的视觉编码器网络结构图;
图4是本发明实施例提供的文本编码器网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
术语解释:
深度语义哈希编码,是一种用于将高维数据映射到低维二进制编码的技术,它结合了深度学习和哈希函数的思想,用于处理语义相关的任务。
数据缺失,在网络传输过程中,多模态医学数据会出现部分数据丢失的情况。
假阴性,是指在考虑成对的医学图像和报告时,一份医学图像或报告与一对医学图像和报告描述相同的病症,却被简单视为负样本的现象。
语义相似度空间,本发明是指捕获多模态医学数据模态内和模态间的相似度,并将其映射到一个统一的、具有语义含义的空间。又包括了语义相似度标签空间和语义相似度嵌入空间。
语义相似度损失子空间,本发明是指在深度语义哈希学习任务中,分别从模态内和模态间考虑标签语义和嵌入语义之间的相似度,从而定义的损失函数子空间。
本发明为了解决多模态医学数据中部分数据缺失、成对医学数据带来的假阴性以及大规模多模态医学数据的存储消耗问题,提出了针对多模态医学数据缺失的深度语义哈希编码方案,包括如下步骤:多模态医学数据的实体标签抽取、构建随机化的语义相似度标签空间、多模态医学数据的深度语义哈希编码、构建随机化的语义相似度嵌入空间、生成统一语义相似度损失子空间、训练深度语义哈希网络、多模态医学数据编码。下面结合具体实施例对本发明的技术方案做具体说明。
如图1、图2所示,本发明实施例公开了一种用于多模态医学数据缺失的哈希编码方法,包括:
S1:对多模态医学数据中医学图像和医学报告进行标签提取。
对多模态医学数据中医学图像和报告进行医学实体抽取,进而提取标签。本实施例中,以多模态肺部医学数据(包括肺部医学图像和医学报告)为例,基于CheXpert自动标签提取器,提取观测值映射到观察结果,用作医学图像和医学报告的结构化标签。其中每个观测值被标记为多个观察结果的存在,本实施例中分类在14个观察结果的最终标签上,每个观察结果包括积极的、消极的或不确定的情况(其中1表示肯定,0表示否定,-1表示不确定,空白NA表示未提及)。即设置有14个观察对象,根据提取的观测值,对14个观察对象的观察结果进行赋值,若是积极的,将对应观察对象的观察结果赋值为1,若是消极的,将对应观察对象的观察结果赋值为0,若是不确定的,将对应观察对象的观察结果赋值为-1,若没有观测值,将对应观察对象的观察结果赋值为NA,最终14个观察结果构成标签。需要理解的是,此为示例性的说明,其他实施例中可以选择不同数量的观察对象和观察结果赋值方式。
S2:将医学图像和医学报告的标签进行模态内和模态间的随机组合,构建随机化的语义相似度标签空间。
在网络传输过程中,多模态医学数据会出现部分数据缺失的情况,导致大量的医学图像和纯文本数据未被使用。本实施例中采用随机化的思想,对医学图像和医学报告进行深度语义哈希编码时不再考虑成对的医学图像和医学报告,而是将医学图像和医学报告的标签进行模态内和模态间的随机组合,计算模态内和模态间的语义相似度标签矩阵,构建语义关联随机化的相似度标签空间。
针对步骤S1提取到的原始标签进一步处理,构建软标签,将未提及的归为不确定这一类,使得每个观察结果包括积极的、消极的或不确定的情况(其中1表示肯定,0表示否定,-1表示不确定)。本实施例中利用余弦相似度函数和softmax函数,分别构建医学图像和医学报告的模态内和模态间相似度标签矩阵。
以模态间的“医学图像-医学报告”语义相似度标签矩阵构建为例,利用余弦相似度函数,计算随机医学图像和医学报告的相似度:
式中,表示第个医学图像(picture)和第个医学报告 (report)之间的余 弦相似度;表示第个医学图像的标签向量;表示第个医学报告的标签向量,表 示向量的范数,表示标签向量的转置。
利用softmax函数对上述医学图像和医学报告的余弦相似度进行归一化:
式中,表示第个医学图像和第个医学报告归一化后的相似度,N表示医学 报告的数量。
将语义相似度范围限制为,方便后续生成统一语义相似度损失子空间。处理得 到的模态间的“医学图像-医学报告”语义相似度标签矩阵为
其中,M表示医学图像的数量。
同理,也可以得到“医学图像-医学图像”、“医学报告-医学报告”模态内和“医学报告-医学图像”模态间的语义相似度标签矩阵如下:
其中,分别表示 “医学图像-医学图像”、“医学报告-医学报告”、“医 学报告-医学图像”三个语义相似度标签矩阵;表示第个医学图像和第个医学图像 归一化后的相似度,表示第个医学报告和第个医学报告归一化后的相似度,表 示第个医学报告和第个医学图像归一化后的相似度。
S3:构建视觉编码器,对医学图像进行深度语义哈希编码。
具体地,视觉编码器包括基于卷积神经网络的特征提取层和哈希网络层,如图3所示,本实施例中,以ResNet-50作为基于卷积神经网络的特征提取层为例进行说明,即首先利用ResNet-50进行医学图像的特征提取,用新的全连接线性层替换原有ResNet-50网络结构中的全连接线性层,使特征提取层的输出维度改变(如变为512维);其次引入三层全连接线性层作为哈希网络层(hash),将哈希网络层的最后一层全连接层的节点个数设置为哈希码的长度。使用二值约束的量化函数作为生成近似哈希码的误差函数,确保输出是固定长度的二进制近似哈希码(例如32位或64位)。
使用视觉编码器对医学图像进行编码得到的输出表示如下:
式中,表示第个医学图像的二进制近似哈希码;表示第个医学图像的 输入值;表示视觉编码器。
原始二值约束的量化损失为:
其中表示视觉编码器原始二值约束的量化损失;表示第个医学图像的二 进制近似哈希码,维度为表示维度为,元素全为1的向量;表示向量1-的范数。通 过最小化,使得中的元素尽可能接近0或1,以达到近似离散的目的。
但是由于函数在元素为0的位置不可导,可能会导致视觉编码器的梯度无法 计算。为了克服这些困难,本实施例考虑引入一个平滑函数对上述原始二值约束 的量化损失进行改进,最终的视觉编码器二值约束的量化损失表示如下:
式中,表示视觉编码器二值约束的量化损失;表示第个医学图像的二进 制近似哈希码中的第个元素,表示平滑函数。
在一些可选的实施例中,在视觉编码器之前还设置图像预处理模块,使用图像增 加技术,对医学图像进行预处理,以增强视觉编码器的鲁棒性。这里的图像增强是一个预处 理的步骤,后续在应用时,直接应用预处理后的医学图像,原因在于:初始的医学图像,例如 图片大小等方面可能是不一致的,需要处理之后才方便使用。预处理过程包括:将高分辨率 的医学图像进行缩放、再将缩放的医学图像进行随机裁剪,得到大小为的 医学图像。还可以选择再依次进行随机水平翻转、调整亮度、对比度和随机仿射变换(旋转、 缩放和平移)等操作。
S4:构建文本编码器,对进行文本数据增强前后的医学报告进行深度语义哈希编码。
在对医学报告进行编码之前,对医学报告进行文本数据增强处理,本实施例中,使用EDA文本数据增强技术,实现一些常见的医学报告增强操作,包括同义词替换、随机插入、随机交换和随机删除等。
其中,文本编码器包括基于BERT模型的特征提取层和哈希网络层,如图4所示,本实施例中,以BioClinicalBERT作为基于BERT模型的特征提取层为例进行说明。首先利用BioClinicalBERT进行医学报告的特征提取,选择BioClinicalBERT编码层中第1、2、11、12层的隐藏状态,将其经过平均池化层后,接入一层全连接线性投影层,使特征提取层的输出维度变为512维;其次引入三层全连接线性层作为哈希网络层(hash),将哈希网络层的最后一层全连接层的节点个数设置为哈希码的长度。选择与视觉编码器相同的二值约束的量化函数作为生成近似哈希码的误差函数,确保输出是固定长度的二进制近似哈希码(例如32位或64位)。
使用文本编码器对原始医学报告进行编码得到的输出表示如下:
式中,表示第个医学报告的二进制近似哈希码;表示第个医学报告的输 入值;表示文本编码器。
文本数据增强前文本编码器二值约束的量化损失表示如下:
式中,表示文本数据增强前文本编码器二值约束的量化损失;表示第个医 学报告的二进制近似哈希码中的第个元素。
使用文本编码器对文本数据增强后的医学报告进行编码得到的输出表示如下:
式中,表示文本数据增强后第个医学报告的二进制近似哈希码;表 示文本数据增强后第个医学报告的输入值。
文本数据增强后文本编码器二值约束的量化损失表示如下:
式中,表示文本数据增强后文本编码器二值约束的量化损失;表示 文本数据增强后第个医学报告的二进制近似哈希码中的第个元素。
本实施例涉及利用具有多个Transformer编码层的BioClinicalBERT模型的隐藏状态来生成输入序列的多视角表示。BioClinicalBERT模型主要包括词嵌入层和多个堆积的Transformer编码层等。在模型进行正向传递时,每个Transformer编码层都会产生一组隐藏状态,代表输入序列在不同抽象水平上的表示。本实施例提出了组合多个Transformer编码层的隐藏状态,以捕获输入序列在不同上下文中的多角度表示。本实施例选择了第1、2、11、12这四个Transformer编码层的隐藏状态。主要的原因在于以下几个方面:
(1)捕获多尺度的上下文信息:医学报告的内容复杂,包含细节、症状、治疗方案等各种信息,分布在不同长度的句子中。选择1、2这两个低层隐藏状态可以捕获医学报告中单词和短语间的关系, 倒数第二层与最后一层的高层隐藏状态可以捕获更长距离的句子与句子之间的联系,甚至可以提取整篇报告的全局上下文。
(2)提供富有层次的文本理解:医学报告在对细节做准确理解的同时,也需要对整篇医学报告形成高级医学概念和判断。低层隐藏状态关注单词和短语,高层隐藏状态更多关注全局信息,不同层次的表示可以提供这种富有层次的理解。
(3)生成更全面的医学报告表示:不同层次的隐藏状态在某种程度上可以互补,融合生成更全面的表示。尤其第11层隐藏状态可以加强最终层的隐藏状态,生成更加抽象化的报告表示。这就是为什么在考虑最后一层后,还考虑了倒数第二层。
本发明通过将四个隐藏状态按照嵌入维度堆叠,从而生成输入序列的最终多层上下文表示。相比仅使用最后一个Transformer编码层的隐藏状态(常用的方法:仅选择最后一层的隐藏状态),本发明的方法可以提供更加丰富的上下文信息,可以为医学报告任务获取更好的效果。总的来说,既需要前两层来提取细节局部信息,也需要后两层来生成全局信息。本发明考虑融合四层隐藏状态,可以充分利用BioClinicalBERT在不同层次上获得的信息。通过选择不同层次的隐藏状态,可以为医学报告任务提供多尺度上下文、富有层次的理解和更全面的表示,这对提升最后效果非常有利。
S5:将医学图像的哈希码和文本数据增强前后的医学报告的哈希码进行模态内和模态间的随机组合,构建随机化的语义相似度嵌入空间。
在构建语义相似度嵌入空间时,与语义相似度标签空间的构建类似。采用随机化的思想,考虑多模态医学数据的相似度损失时,不再考虑成对的医学图像和报告,而是将医学图像和报告的哈希码进行模态内和模态间的随机组合,计算模态内和模态间的语义相似度嵌入矩阵,构建语义关联随机化的相似度嵌入空间。通过随机组合,能有效解决网络传输错误带来的成对医学数据中部分数据缺失和成对医学数据联合编码带来的假阴性的问题。
以模态间的“医学图像-医学报告”语义相似度嵌入矩阵构建为例,利用余弦相似 度函数,计算随机医学图像和医学报告的相似度。根据步骤S4可知,分别得到了文本数据增 强前后医学报告的哈希码。因此,医学图像与文本数据增强前后医学报告的相似度分别为:
式中,表示第个医学图像的哈希码与文本数据增强前第个医学报告的哈 希码的余弦相似度;表示第个医学图像的哈希码与文本数据增强后第个医学 报告的哈希码的余弦相似度。
利用改进的softmax函数对上述医学图像和医学报告的余弦相似度进行归一化:
式中,分别表示文本数据增强前后第个医学图像和第个医学 报告归一化后的相似度;表示一个可变参数。
与计算多模态医学数据的语义相似度标签矩阵不同的是,考虑softmax函数的同 时引入可变参数,将语义相似度范围限制为,方便后续生成统一语义相似度损失子 空间。处理得到文本数据增强前后的模态间的“医学图像-医学报告”语义相似度嵌入矩阵 为:
式中,分别表示文本数据增强前后的“医学图像-医学报告”语义 相似度嵌入矩阵。
同理,也可以得到“医学图像-医学图像”模态内的语义相似度嵌入矩阵如下:
式中,表示“医学图像-医学图像”模态内的语义相似度嵌入矩阵。
文本数据增强前后的模态内“医学报告-医学报告”的语义相似度嵌入矩阵如下:
式中,分别表示文本数据增强前后的“医学报告-医学报告”语义相 似度嵌入矩阵。
文本数据增强前后的模态间“医学图像-医学报告”的语义相似度嵌入矩阵如下:
式中,分别表示文本数据增强前后的“医学图像-医学报告”语义相 似度嵌入矩阵。
S6:基于随机化的语义相似度标签空间和随机化的语义相似度嵌入空间建立统一语义相似度损失子空间上的统一语义相似度损失。
本实施例分别从“医学图像-医学图像”、“医学报告-医学报告”模态内和“医学图像-医学报告”、“ 医学报告-医学图像”模态间计算语义相似度损失。
在考虑计算语义相似度损失时,利用交叉熵损失函数的方法,针对语义相似度标签和嵌入矩阵进行处理。首先考虑文本数据增强前:
式中,表示医学报告文本数据增强前的语义相似度损失; 分别表示随机化的语义相似度标签空间中的“医学图像-医学图像”、“医学报告-医学报 告”、“医学图像-医学报告”、“医学报告-医学图像”四个语义相似度标签矩阵;分别表示随机化的语义相似度嵌入空间中“医学图像-医学图像”语义 相似度嵌入矩阵和文本数据增强前的“医学报告-医学报告”、“医学图像-医学报告”、“医学 报告-医学图像”三个语义相似度嵌入矩阵;均表示语义相似度标签矩阵的第行、第列的元素;均表示语义相似度嵌入矩阵的第行、第列的元素;M表 示医学图像的数量,N表示医学报告的数量。
同样,考虑文本数据增强后,利用交叉熵损失函数,计算语义相似度损失:
式中,表示医学报告文本数据增强前后的语义相似度损失;分别表示随机化的语义相似度嵌入空间中文本数据增强后的“医 学报告-医学报告”、“医学图像-医学报告”、“医学报告-医学图像”三个语义相似度嵌入矩 阵;均表示文本数据增强后的语义相似度嵌入矩阵的第行、第列的 元素。
同时,考虑不周S3和S4中的二值约束的量化损失,构建统一语义相似度损失表示如下:
式中,表示统一语义相似度损失;均表示超参数,根据经验进行设置。
S7:以统一语义相似度损失最小构建目标函数,选择Adam优化方案,利用多模态医学数据集对视觉编码器和文本编码器进行训练直至模型收敛,得到最终的视觉编码器和文本编码器。
S8:利用最终的视觉编码器和文本编码器对多模态医学数据中医学图像和医学报告进行深度语义哈希编码。
本实施例提出的用于多模态医学数据缺失的哈希编码方法在能充分利用医学图像和报告的模态内一致性和模态间互补性的同时,能有效解决多模态医学数据中部分数据缺失的问题,并且还克服了成对医学数据所带来的假阴性和大规模多模态医学数据的存储消耗问题。
本发明实施例还公开了一种电子终端,包括:
存储器,其上存储有计算机程序;
处理器,用于加载并执行所述计算机程序,以实现如前述实施例所述的用于多模态医学数据缺失的哈希编码方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施例所述的用于多模态医学数据缺失的哈希编码方法的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种用于多模态医学数据缺失的哈希编码方法,其特征在于,包括:
S1:对多模态医学数据中医学图像和医学报告进行标签提取;
S2:将医学图像和医学报告的标签进行模态内和模态间的随机组合,构建随机化的语义相似度标签空间;
S3:构建视觉编码器,对医学图像进行深度语义哈希编码;
S4:构建文本编码器,对进行文本数据增强前后的医学报告进行深度语义哈希编码;
S5:将医学图像的哈希码和文本数据增强前后的医学报告的哈希码进行模态内和模态间的随机组合,构建随机化的语义相似度嵌入空间;
S6:基于随机化的语义相似度标签空间和随机化的语义相似度嵌入空间建立统一语义相似度损失子空间上的统一语义相似度损失;
S7:基于统一语义相似度损失构建目标函数,利用多模态医学数据集对视觉编码器和文本编码器进行训练,得到最终的视觉编码器和文本编码器;
S8:利用最终的视觉编码器和文本编码器对多模态医学数据中医学图像和医学报告进行深度语义哈希编码。
2.根据权利要求1所述的用于多模态医学数据缺失的哈希编码方法,其特征在于,所述步骤S2中,随机化的语义相似度标签空间包括:“医学图像-医学图像”、“医学报告-医学报告”的模态内语义相似度标签矩阵,以及“医学图像-医学报告”、“医学报告-医学图像”的模态间语义相似度标签矩阵。
3.根据权利要求1所述的用于多模态医学数据缺失的哈希编码方法,其特征在于,所述步骤S5中,随机化的语义相似度嵌入空间包括:“医学图像-医学图像”的模态内语义相似度嵌入矩阵,进行文本数据增强前后的“医学报告-医学报告”的模态内语义相似度嵌入矩阵,进行文本数据增强前后的“医学图像-医学报告”的模态间语义相似度嵌入矩阵,以及进行文本数据增强前后的“医学报告-医学图像”的模态间语义相似度嵌入矩阵。
4.根据权利要求1所述的用于多模态医学数据缺失的哈希编码方法,其特征在于,所述步骤S3中,视觉编码器包括基于卷积神经网络的特征提取层和哈希网络层,使用视觉编码器对医学图像进行编码得到的输出表示如下:
式中,表示第/>个医学图像的二进制近似哈希码;/>表示第/>个医学图像的输入值;/>表示视觉编码器;
视觉编码器二值约束的量化损失表示如下:
式中,表示视觉编码器二值约束的量化损失;/>表示第/>个医学图像的二进制近似哈希码/>中的第/>个元素,/>表示平滑函数,R表示哈希码的维度,M表示医学图像的数量。
5.根据权利要求1所述的用于多模态医学数据缺失的哈希编码方法,其特征在于,所述步骤S4中,文本编码器包括基于BERT模型的特征提取层和哈希网络层;
对医学报告进行文本数据增强处理,然后将文本数据增强前后的医学报告输入文本编码器进行编码;
使用文本编码器对原始医学报告进行编码得到的输出表示如下:
式中,表示第/>个医学报告的二进制近似哈希码;/>表示第/>个医学报告的输入值;表示文本编码器;
文本数据增强前文本编码器二值约束的量化损失表示如下:
式中,表示文本数据增强前文本编码器二值约束的量化损失;/>表示第/>个医学报告的二进制近似哈希码/>中的第/>个元素,/>表示平滑函数,R表示哈希码的维度,N表示医学报告的数量;
使用文本编码器对文本数据增强后的医学报告进行编码得到的输出表示如下:
式中,表示文本数据增强后第/>个医学报告的二进制近似哈希码;/>表示文本数据增强后第/>个医学报告的输入值;
文本数据增强后文本编码器二值约束的量化损失表示如下:
式中,表示文本数据增强后文本编码器二值约束的量化损失;/>表示文本数据增强后第/>个医学报告的二进制近似哈希码/>中的第/>个元素。
6.根据权利要求1所述的用于多模态医学数据缺失的哈希编码方法,其特征在于,所述步骤S4中,文本编码器包括基于BERT模型的特征提取层和哈希网络层,其中基于BERT模型的特征提取层对医学报告进行特征提取,选择特征提取层中前两层和最后两层的隐藏状态,将其经过平均池化层后接入一层全连接线性投影层,然后将全连接线性投影层的输出作为哈希网络层的输入。
7.根据权利要求1至6任一项所述的用于多模态医学数据缺失的哈希编码方法,其特征在于,所述步骤S6中,统一语义相似度损失表示如下:
式中,表示统一语义相似度损失;/>、/>分别表示医学报告文本数据增强前后的语义相似度损失,基于随机化的语义相似度标签空间和随机化的语义相似度嵌入空间利用交叉熵损失函数计算得到;/>表示视觉编码器二值约束的量化损失;/>、/>分别表示医学报告文本数据增强前后文本编码器二值约束的量化损失;/>均表示超参数。
8.根据权利要求7所述的用于多模态医学数据缺失的哈希编码方法,其特征在于,医学报告文本数据增强前的语义相似度损失表示如下:
式中,分别表示随机化的语义相似度标签空间中的“医学图像-医学图像”、“医学报告-医学报告”、“医学图像-医学报告”、“医学报告-医学图像”四个语义相似度标签矩阵;/>分别表示随机化的语义相似度嵌入空间中“医学图像-医学图像”语义相似度嵌入矩阵和文本数据增强前的“医学报告-医学报告”、“医学图像-医学报告”、“医学报告-医学图像”三个语义相似度嵌入矩阵;/>表示语义相似度标签矩阵的第/>行、第/>列的元素;/>表示语义相似度嵌入矩阵的第/>行、第/>列的元素;M表示医学图像的数量,N表示医学报告的数量;
医学报告文本数据增强后的语义相似度损失表示如下:
式中,分别表示随机化的语义相似度嵌入空间中文本数据增强后的“医学报告-医学报告”、“医学图像-医学报告”、“医学报告-医学图像”三个语义相似度嵌入矩阵;/>表示文本数据增强后的语义相似度嵌入矩阵的第/>行、第/>列的元素。
9.一种电子终端,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于加载并执行所述计算机程序,以实现如权利要求1至8任一项所述的用于多模态医学数据缺失的哈希编码方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的用于多模态医学数据缺失的哈希编码方法的步骤。
CN202311474216.7A 2023-11-08 2023-11-08 用于多模态医学数据缺失的哈希编码方法、终端及介质 Active CN117194605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311474216.7A CN117194605B (zh) 2023-11-08 2023-11-08 用于多模态医学数据缺失的哈希编码方法、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311474216.7A CN117194605B (zh) 2023-11-08 2023-11-08 用于多模态医学数据缺失的哈希编码方法、终端及介质

Publications (2)

Publication Number Publication Date
CN117194605A true CN117194605A (zh) 2023-12-08
CN117194605B CN117194605B (zh) 2024-01-19

Family

ID=88987344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311474216.7A Active CN117194605B (zh) 2023-11-08 2023-11-08 用于多模态医学数据缺失的哈希编码方法、终端及介质

Country Status (1)

Country Link
CN (1) CN117194605B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111723220A (zh) * 2020-06-18 2020-09-29 中南大学 基于注意力机制和哈希的图像检索方法、装置及存储介质
CN112800292A (zh) * 2021-01-15 2021-05-14 南京邮电大学 一种基于模态特定和共享特征学习的跨模态检索方法
WO2021174537A1 (zh) * 2020-03-06 2021-09-10 深圳市欢太科技有限公司 数据传输方法及装置
US20210342684A1 (en) * 2020-04-29 2021-11-04 International Business Machines Corporation Method and system for table retrieval using multimodal deep co-learning with helper query-dependent and query-independent relevance labels
US11263749B1 (en) * 2021-06-04 2022-03-01 In-Med Prognostics Inc. Predictive prognosis based on multimodal analysis
WO2022068196A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
WO2022068195A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
US20220130499A1 (en) * 2020-10-28 2022-04-28 International Business Machines Corporation Medical visual question answering
WO2022104540A1 (zh) * 2020-11-17 2022-05-27 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
WO2022155994A1 (zh) * 2021-01-21 2022-07-28 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
WO2022199462A1 (zh) * 2021-03-25 2022-09-29 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
US20220405524A1 (en) * 2021-06-17 2022-12-22 International Business Machines Corporation Optical character recognition training with semantic constraints
CN115982403A (zh) * 2023-01-12 2023-04-18 之江实验室 一种多模态哈希检索方法及装置
CN116204706A (zh) * 2022-12-30 2023-06-02 中山大学 一种文本内容结合图像分析的多模态内容检索方法与系统
CN116414867A (zh) * 2023-06-12 2023-07-11 中南大学 一种基于量化哈希编码的时空数据检索方法
CN116431847A (zh) * 2023-06-14 2023-07-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN116594994A (zh) * 2023-03-30 2023-08-15 重庆师范大学 视觉语言知识蒸馏在跨模态哈希检索的应用
US20230260304A1 (en) * 2021-05-12 2023-08-17 Tencent Cloud Computing (Beijing) Co., Ltd. Image data processing method, apparatus and device, and storage medium
CN116775798A (zh) * 2023-05-11 2023-09-19 南京邮电大学 一种基于图网络与模态间特征融合的跨模态哈希方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
WO2021174537A1 (zh) * 2020-03-06 2021-09-10 深圳市欢太科技有限公司 数据传输方法及装置
US20210342684A1 (en) * 2020-04-29 2021-11-04 International Business Machines Corporation Method and system for table retrieval using multimodal deep co-learning with helper query-dependent and query-independent relevance labels
CN111723220A (zh) * 2020-06-18 2020-09-29 中南大学 基于注意力机制和哈希的图像检索方法、装置及存储介质
WO2022068196A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
WO2022068195A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
US20220130499A1 (en) * 2020-10-28 2022-04-28 International Business Machines Corporation Medical visual question answering
WO2022104540A1 (zh) * 2020-11-17 2022-05-27 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
CN112800292A (zh) * 2021-01-15 2021-05-14 南京邮电大学 一种基于模态特定和共享特征学习的跨模态检索方法
WO2022155994A1 (zh) * 2021-01-21 2022-07-28 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
WO2022199462A1 (zh) * 2021-03-25 2022-09-29 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
US20230260304A1 (en) * 2021-05-12 2023-08-17 Tencent Cloud Computing (Beijing) Co., Ltd. Image data processing method, apparatus and device, and storage medium
US11263749B1 (en) * 2021-06-04 2022-03-01 In-Med Prognostics Inc. Predictive prognosis based on multimodal analysis
US20220405524A1 (en) * 2021-06-17 2022-12-22 International Business Machines Corporation Optical character recognition training with semantic constraints
CN116204706A (zh) * 2022-12-30 2023-06-02 中山大学 一种文本内容结合图像分析的多模态内容检索方法与系统
CN115982403A (zh) * 2023-01-12 2023-04-18 之江实验室 一种多模态哈希检索方法及装置
CN116594994A (zh) * 2023-03-30 2023-08-15 重庆师范大学 视觉语言知识蒸馏在跨模态哈希检索的应用
CN116775798A (zh) * 2023-05-11 2023-09-19 南京邮电大学 一种基于图网络与模态间特征融合的跨模态哈希方法
CN116414867A (zh) * 2023-06-12 2023-07-11 中南大学 一种基于量化哈希编码的时空数据检索方法
CN116431847A (zh) * 2023-06-14 2023-07-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIUSHAN NIE等: "Deep Multiscale Fusion Hashing for Cross-Modal Retrieval", 《IEEE》 *
ZHAN YANG等: "Enhanced Deep Discrete Hashing with semantic-visual similarity for image retrieval", 《ELSEVIER》 *
刘昊鑫;吴小俊;庾骏;: "联合哈希特征和分类器学习的跨模态检索算法", 《模式识别与人工智能》, no. 02 *
李加恒等: "基于互信息的多模态医学图像融合", 《浙江理工大学学报(自然科学版)》 *
李新卫;吴飞;荆晓远;: "基于协同矩阵分解的单标签跨模态检索", 计算机技术与发展, no. 11 *

Also Published As

Publication number Publication date
CN117194605B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
Chen et al. Progressively guided alternate refinement network for RGB-D salient object detection
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
Meng et al. Co-embedding attributed networks
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
Wu et al. Cycle-consistent deep generative hashing for cross-modal retrieval
CN105938485B (zh) 一种基于卷积循环混合模型的图像描述方法
Cong et al. A weakly supervised learning framework for salient object detection via hybrid labels
CN109033095B (zh) 基于注意力机制的目标变换方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN111260653B (zh) 一种图像分割方法、装置、存储介质和电子设备
CN109213975B (zh) 一种基于字符层级卷积变分自编码的推特文本表示方法
CN112084841B (zh) 跨模态的图像多风格字幕生成方法及系统
CN111914950B (zh) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN113779219A (zh) 一种结合文本双曲分段知识嵌入多重知识图谱的问答方法
CN113987129A (zh) 基于变分自动编码器的数字媒体保护文本隐写方法
CN113747168A (zh) 多媒体数据描述模型的训练方法和描述信息的生成方法
CN115062587B (zh) 一种基于周围信息的知识图谱嵌入及回复生成方法
Wang et al. Unidirectional RGB-T salient object detection with intertwined driving of encoding and fusion
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN110502236B (zh) 基于多尺度特征解码的前端代码生成方法、系统及设备
Divya et al. Memory Guided Transformer with Spatio-Semantic Visual Extractor for Medical Report Generation
CN116822534A (zh) 基于细粒度特征的机翻评估指标的解释方法、解释器模型及计算机可读存储介质
Chen et al. : Edge-Aware Multimodal Transformer for RGB-D Salient Object Detection
CN117877029A (zh) 一种基于基础模型的指代图像分割方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant