CN117391092B

CN117391092B - 一种基于对比学习的电子病历多模态医疗语义对齐方法

Info

Publication number: CN117391092B
Application number: CN202311694492.4A
Authority: CN
Inventors: 费洪晓; 李亚宁; 黄文体; 龙军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-03-08
Anticipated expiration: 2043-12-12
Also published as: CN117391092A

Abstract

本发明涉及智能医疗技术领域，具体公开了一种基于对比学习的电子病历多模态医疗语义对齐方法，包括如下步骤：步骤S1，对医学报告进行实体关系抽取，获取医疗三元组；步骤S2，对医学检查图像、医学报告和医疗三元组进行编码；步骤S3，进行全局特征对齐和局部特征对齐；步骤S4，联合实例级对齐模块和描述级对齐模块进行迭代训练，实现电子病历多模态医疗语义对齐。优点是，应用本发明方法，对齐医学影像特征表示中医学报告的语义信息，让关键的病灶区域学习相关的视觉和文本特征，输出多模态的语义特征表示。

Description

一种基于对比学习的电子病历多模态医疗语义对齐方法

技术领域

本发明涉及智能医疗技术领域，具体涉及一种基于对比学习的电子病历多模态医疗语义对齐方法。

背景技术

电子病历以患者为主题比较完整地记录了患者病情的发生、发展、转归，和辅助检查、诊断、治疗方案等一系列的医疗活动，包括结构化与非结构化的多类型多模态医疗数据，是临床辅助决策的重要资源。目前的电子病历行业应用多基于病历文本或医学图像等单一模态的数据，采用自然语言处理或计算机视觉的方法，根据输入的文本或图片提取相关信息与特征输出对应的分析结果等。但是，真实世界的诊疗过程是医生综合电子病历中的多模态数据，进行全面综合的分析与判断，例如皮肤病诊断时，不仅需要进行皮肤图像的视觉诊断，还需要根据病历中记录的现病史、既往病史等文本病历信息进行综合诊断。而医疗数据的标注成本高、标注难度大，公开可训练的电子病历多模态数据比其他的通用领域的数据集要低好几个数量级，给深度学习的预训练任务带来了艰巨的挑战；再者，对于医学检查图像来说，疾病的病变区域往往只占图像的一小部分，笼统的进行检查图像和医学报告的对齐与学习并不能捕捉疾病的细粒度信息，导致有价值的医疗信息挖掘不充分。同时，医学检查图像或者医学报告的信息表示能力不足，会影响医生或人工智能医生进行疾病辅助诊断、临床决策、治疗反应预测等下游任务的准确性。

目前的医疗图文对比学习的方法中，虽然有局部特征的提取，但是仅单纯的将文本或图像进行片段或区域划分，包含大量噪声，缺乏较为精确的医疗信息提取和对齐。如何利用多模态数据中蕴含的潜在语义信息，全面准确的挖掘患者的医疗信息，为医生或人工智能医生的诊断提供可靠的数据支撑，仍是当前医学多模态学习研究的一大难题。

综上所述，针对电子病历多模态数据异构、标注成本高、专业性强、无法实现全面更细粒度得语义对齐的难点，急需一种基于对比学习的电子病历多模态医疗语义对齐方法。

发明内容

本发明目的在于提供一种基于对比学习的电子病历多模态医疗语义对齐方法，具体技术方案如下：

一种基于对比学习的电子病历多模态医疗语义对齐方法，包括如下步骤：

步骤S1，对医学报告进行实体关系抽取：

采用实体关系抽取模块对医学报告进行关系抽取，得到医疗实体关系，组成医疗三元组；

步骤S2，对医学检查图像、医学报告和医疗三元组进行编码：

采用图像编码器对医学检查图像进行编码，得到局部视觉特征和全局视觉特征；采用文本编码器对整个医学报告和其对应的医疗三元组进行编码，整个医学报告的编码信息为医学文本特征，医疗三元组的编码信息为局部文本特征；将医学文本特征和局部文本特征输入到具有激活函数的全连接层，得到全局文本特征；

步骤S3，进行全局特征对齐和局部特征对齐：

全局特征对齐：采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习，计算全局对比损失；

局部特征对齐：采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习，计算局部对比损失：

步骤S4，联合实例级对齐模块和描述级对齐模块进行迭代训练，实现电子病历多模态医疗语义对齐：

联合实例级对齐模块和描述级对齐模块构建医疗语义对齐模型，总损失为全局对比损失和局部对比损失的加权和，利用医疗语义对齐模型进行迭代训练，进行医学检查图像和医学报告的语义对齐，实现电子病历多模态医疗语义对齐。

优选的，在步骤S1中，对于医学报告，其对应的医疗三元组/>的表达式如下：

；

其中，对于第个三元组来说，/>代表头实体，/>代表关系，/>代表尾实体，，/>表示抽取到的医疗三元组的个数。

优选的，在步骤S2中，使用图像编码器对医学检查图像/>进行编码，得到一系列局部视觉特征/>和全局特征表示/>，/>，其中，/>代表第/>个医学检查图像中第/>个视觉向量特征，/>，/>代表视觉标记的总数。

优选的，在步骤S2中，使用文本编码器对医学报告/>和其对应的医疗三元组进行编码，提取得到医学文本特征和局部文本特征/>，其中，/>代表第/>个医学报告中第/>个医疗三元组的向量特征，/>，/>代表医疗三元组的个数，将医学文本特征和局部文本特征输入到具有激活函数的全连接层/>，输出得到全局文本特征/>。

优选的，在步骤S3中，对齐模块基于对比学习在映射空间中拉近同一对图像报告对的距离，拉远随机图像报告对之间的距离，实现特征对齐。

优选的，在步骤S3中，采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习的具体过程如下：

使用两个非线性投影层和/>将全局视觉特征和全局文本特征分别转化为归一化的低纬嵌入，计算二者的余弦相似度：

；

其中，表示第/>个图像报告对的余弦相似度；；/>表示全局视觉特征的低纬嵌入，/>，/>表示向量空间；/>表示全局文本特征的低维嵌入，/>；/>表示转置；

全局对比损失的计算过程如下：

；

其中，表示图像到文本的全局对比损失，/>表示文本到图像的全局对比损失，/>表示全局对比损失，/>表示实例级温度超参数，用于调整生成结果的熵值。

优选的，在步骤S3中，采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习的具体过程如下：

首先，将局部视觉特征和医疗三元组的特征转化为标准化的低纬嵌入，让局部视觉特征的低纬嵌入关注所有的医疗三元组低纬嵌入/>，计算得到对应的跨模态低纬嵌入，计算过程如下：

；

其中，表示跨模态键值计算公式，/>表示跨模态检索计算公式，/>表示激活函数，/>表示指数线性单元函数，/>、/>和/>均表示可学习的矩阵，/>、/>、/>，/>表示向量空间/>；

然后，计算局部视觉特征到医疗三元组的描述级对比损失和医疗三元组到局部视觉特征的描述级对比损失/>，/>和/>的计算方式相同，/>表达式如下：

；

其中，表示医学检查图像和医学报告的对数，/>表示描述级温度超参数，用于调整生成结果的熵值，/>表示特征分配权重；

最后，计算局部对比损失，表达式如下：

。

优选的，在步骤S4中，总损失的表达式如下：

；

其中，表示用于平衡实例级对齐模块的超参数，/>表示用于平衡描述级对齐模块的超参数。

优选的，所述医疗三元组中的实体包括视觉病灶描述实体和病灶生理部位实体，所述医疗三元组中的关系包括视觉病灶描述实体与视觉病灶描述实体之间的推断关系、视觉病灶描述实体与病灶生理部位实体之间的位于关系以及视觉病灶描述实体与视觉病灶描述实体或者病灶生理部位实体与病灶生理部位实体之间存在的量化关系。

应用本发明的技术方案，具有以下有益效果：

（1）本发明方法通过实体关系抽取模块的设计对电子病历中的文本数据进行挖掘和提取，得到结构化的医疗三元组，以此作为知识引导，提高多模态语义对齐的细粒度。

（2）本发明方法通过设计实例级对齐模块和描述级对齐模块，进行两次对比学习，分别学习全局和局部的特征表示，使医学影像特征表示中对齐相关的细粒度的医学报告的语义信息，让关键的病灶区域学习相关的视觉和文本特征，输出多模态的语义特征表示。

（3）本发明方法在描述级对齐模块中，设计了一种线性计算的交叉注意力计算方法，提升描述级对齐模块在进行多模态对齐时的计算速度，减轻算力负担。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明优选实施例中电子病历多模态医疗语义对齐方法的步骤流程图；

图2是本发明优选实施例中电子病历多模态医疗语义对齐方法的模型设计图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

参见图1和图2，本实施例公开了一种基于对比学习的电子病历多模态医疗语义对齐方法，应用本实施例公开的医疗语义对齐方法对对医学检查图像以及与所述医疗检查图像对应的医学报告数据集/>进行医疗语义对齐。对于第/>个图像报告对/>来说/>代表医学检查图像，/>代表对应的医学报告文本，/>，所述电子病历多模态医疗语义对齐方法包括如下步骤：

步骤S1，对医学报告进行实体关系抽取：

采用实体关系抽取模块对医学报告进行关系抽取，得到医疗实体关系，组成医疗三元组；每个医学报告可抽取到多个医疗三元组，所述医疗三元组/>的表达式如下：

；

进一步地，在本实施例中，所述医疗三元组中的实体包括视觉病灶描述实体和病灶生理部位实体，所述医疗三元组中的关系包括视觉病灶描述实体与视觉病灶描述实体之间的推断关系、视觉病灶描述实体与病灶生理部位实体之间的位于关系以及视觉病灶描述实体与视觉病灶描述实体或者病灶生理部位实体与病灶生理部位实体之间存在的量化关系。具体可见表1。

表 1 抽取到的医疗三元组类型

需要说明的是，通过上述三元组作为医学报告的细粒度表示用来和医学检查图像中的病灶视觉特征进行对齐，使本实施例最终得到的医学检查图像的表示具有更细粒度的信息特征。本实施例优选的实体关系抽取模块为DYGIE++，DYGIE++是一种用于信息提取（Information Extraction）的深度学习模型，特别专注于医学领域的实体关系抽取。

具体的，使用图像编码器对医学检查图像/>进行编码，得到一系列局部视觉特征/>和全局特征表示/>，/>，其中，/>代表第/>个医学检查图像中第/>个视觉向量特征，/>，/>代表视觉标记的总数。

具体的，使用文本编码器对医学报告/>和其对应的医疗三元组/>进行编码，在每个医疗三元组的开头添加[CLS]标记，在末尾添加[SEP]标记，将每个医疗三元组编码后[CLS]特征表示信息提取出来，医学报告中编码信息为医学文本特征，医疗三元组的编码信息为局部文本特征/>，其中，/>代表第/>个医学报告中第/>个医疗三元组的向量特征，/>，/>代表医疗三元组的个数，将医学文本特征和局部文本特征输入到具有激活函数（本实施例优选的激活函数为/>激活函数）的全连接层/>，输出得到全局文本特征/>。

需要说明的是，本实施例中优选的图像编码器为50层深度残差网络或者视觉Transformer模型，本实施例中优选的文本编码器为临床领域BERT语言模型。

步骤S3，进行全局特征对齐和局部特征对齐：

局部特征对齐：采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习，计算局部对比损失。

具体的，在本实施例中，利用对比学习的思想，在映射空间中拉近同一对图像报告对的距离，拉远随机对之间的距离。采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习的具体过程如下：

使用两个非线性投影层和/>将全局视觉特征和全局文本特征分别转化为归一化的低纬嵌入，计算第/>个图像报告对的余弦相似度：

；

全局对比损失的计算过程如下：

；

首先，将局部视觉特征和医疗三元组的特征转化为标准化的低纬嵌入，让局部视觉特征的低纬嵌入关注所有的医疗三元组低纬嵌入/>，计算得到对应的跨模态低纬嵌入，本实施例采用一种线性计算方法，简化计算步骤，提升了运算速度，计算过程如下：

；

其中，表示跨模态键值计算公式，/>表示跨模态检索计算公式，/>表示激活函数，/>是指数线性单元（Exponential Linear Unit）函数，是一种激活函数，/>、/>和/>均表示可学习的矩阵，/>、/>、/>，/>表示向量空间/>；

然后，计算局部视觉特征到医疗三元组的描述级对比损失和医疗三元组到局部视觉特征的描述级对比损失/>，/>和/>的计算方式相同，此处仅对/>的计算方式进行说明，/>表达式如下：

；

其中，表示医学检查图像和医学报告的对数，/>表示描述级温度超参数，用于调整生成结果的熵值，/>表示特征分配权重；本实施例考虑到病理区域特征的重要性，在计算描述级对比损失时进一步地为第/>个区域特征分配权重/>，/>设置为从第/>个局部特征到跨多个头平均的[CLS]标记的最后一层注意力权重。

最后，计算局部对比损失，表达式如下：

。

联合实例级对齐模块和描述级对齐模块得到医疗语义对齐模型，总损失为全局对比损失和局部对比损失的加权和，利用医疗语义对齐模型进行迭代训练，进行医学检查图像和医学报告的语义对齐，实现电子病历多模态医疗语义对齐。

具体的，在步骤S4中，总损失的表达式如下：

；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对比学习的电子病历多模态医疗语义对齐方法，其特征在于，用于医学检查图像和医学报告的语义对齐，所述方法包括如下步骤：

步骤S1，对医学报告进行实体关系抽取：

步骤S3，进行全局特征对齐和局部特征对齐：

2.根据权利要求1所述的电子病历多模态医疗语义对齐方法，其特征在于，在步骤S1中，对于第i个医学报告x_t，i，x_t，i对应的医疗三元组x_tri，i的表达式如下：

x_tri，i＝{(s_1，i，p_1，i，o_1，i)，(s_2，i，p_2，i，o_2，i)...(s_M，i，p_M，i，o_M，i)}；

其中，对于第m个医疗三元组来说，s_m，i代表头实体，p_m，i代表关系，o_m，i代表尾实体，m∈[1，M]，M表示抽取到的医疗三元组的个数。

3.根据权利要求2所述的电子病历多模态医疗语义对齐方法，其特征在于，在步骤S2中，使用图像编码器E_v对医学检查图像x_v，i进行编码，得到一系列局部视觉特征和全局特征表示v_i，v_i＝E_v(x_v，i)，其中，/>代表第i个医学检查图像中第j个视觉向量特征，j∈[1，L]，L代表视觉标记的总数。

4.根据权利要求3所述的电子病历多模态医疗语义对齐方法，其特征在于，在步骤S2中，使用文本编码器E_t对医学报告x_t，i和其对应的医疗三元组x_tri，i进行编码，提取得到医学文本特征和局部文本特征其中，/>代表第i个医学报告中第m个医疗三元组的向量特征，m∈[1，M]，M代表医疗三元组的个数，将医学文本特征和局部文本特征输入到具有激活函数的全连接层Tanh，输出得到全局文本特征t_i。

5.根据权利要求4所述的电子病历多模态医疗语义对齐方法，其特征在于，在步骤S3中，对齐模块基于对比学习在映射空间中拉近同一对图像报告对(x_v，i，x_t，i)的距离，拉远随机图像报告对之间的距离，实现特征对齐。

6.根据权利要求5所述的电子病历多模态医疗语义对齐方法，其特征在于，在步骤S3中，采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习的具体过程如下：

使用两个非线性投影层g_v和g_t将全局视觉特征和全局文本特征分别转化为归一化的低纬嵌入，计算二者的余弦相似度：

其中，s(x_v，i，x_t，i)表示第i个图像报告对的余弦相似度；表示全局视觉特征的低纬嵌入，/> 表示向量空间d；/>表示全局文本特征的低维嵌入，T表示转置；

全局对比损失的计算过程如下：

其中，表示图像到文本的全局对比损失，/>表示文本到图像的全局对比损失，表示全局对比损失，τ₁表示实例级温度超参数，用于调整生成结果的熵值，N表示医学检查图像和医学报告的对数。

7.根据权利要求6所述的电子病历多模态医疗语义对齐方法，其特征在于，在步骤S3中，采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习的具体过程如下：

首先，将局部视觉特征和医疗三元组的特征转化为标准化的低纬嵌入，让局部视觉特征的低纬嵌入关注所有的医疗三元组低纬嵌入/>计算得到对应的跨模态低纬嵌入/>计算过程如下：

φ(x)＝elu(x)+1；

其中，表示跨模态键值计算公式，/>表示跨模态检索计算公式，φ(x)表示激活函数，elu(x)表示指数线性单元函数，Q、K和V均表示可学习的矩阵，/> 表示向量空间d×d；

然后，计算局部视觉特征到医疗三元组的描述级对比损失和医疗三元组到局部视觉特征的描述级对比损失/>和/>的计算方式相同，/>表达式如下：

其中，N表示医学检查图像和医学报告的对数，τ₂表示描述级温度超参数，用于调整生成结果的熵值，表示特征分配权重，/>表示以局部视觉特征的低纬嵌入作为查询和跨模态低纬嵌入之间的相似度，/>表示以跨模态低纬嵌入作为查询和局部视觉特征的低纬嵌入之间的相似度；

最后，计算局部对比损失表达式如下：

8.根据权利要求7所述的电子病历多模态医疗语义对齐方法，其特征在于，在步骤S4中，总损失的表达式如下：

其中，λ₁表示用于平衡实例级对齐模块的超参数，λ₂表示用于平衡描述级对齐模块的超参数。

9.根据权利要求1-8任意一项所述的电子病历多模态医疗语义对齐方法，其特征在于，所述医疗三元组中的实体包括视觉病灶描述实体和病灶生理部位实体，所述医疗三元组中的关系包括视觉病灶描述实体与视觉病灶描述实体之间的推断关系、视觉病灶描述实体与病灶生理部位实体之间的位于关系以及视觉病灶描述实体与视觉病灶描述实体或者病灶生理部位实体与病灶生理部位实体之间存在的量化关系。