CN117391092B - 一种基于对比学习的电子病历多模态医疗语义对齐方法 - Google Patents
一种基于对比学习的电子病历多模态医疗语义对齐方法 Download PDFInfo
- Publication number
- CN117391092B CN117391092B CN202311694492.4A CN202311694492A CN117391092B CN 117391092 B CN117391092 B CN 117391092B CN 202311694492 A CN202311694492 A CN 202311694492A CN 117391092 B CN117391092 B CN 117391092B
- Authority
- CN
- China
- Prior art keywords
- medical
- representing
- global
- alignment
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000003902 lesion Effects 0.000 claims description 22
- 238000003780 insertion Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000037431 insertion Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007721 medicinal effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 208000017520 skin disease Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Image Analysis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及智能医疗技术领域,具体公开了一种基于对比学习的电子病历多模态医疗语义对齐方法,包括如下步骤:步骤S1,对医学报告进行实体关系抽取,获取医疗三元组;步骤S2,对医学检查图像、医学报告和医疗三元组进行编码;步骤S3,进行全局特征对齐和局部特征对齐;步骤S4,联合实例级对齐模块和描述级对齐模块进行迭代训练,实现电子病历多模态医疗语义对齐。优点是,应用本发明方法,对齐医学影像特征表示中医学报告的语义信息,让关键的病灶区域学习相关的视觉和文本特征,输出多模态的语义特征表示。
Description
技术领域
本发明涉及智能医疗技术领域,具体涉及一种基于对比学习的电子病历多模态医疗语义对齐方法。
背景技术
电子病历以患者为主题比较完整地记录了患者病情的发生、发展、转归,和辅助检查、诊断、治疗方案等一系列的医疗活动,包括结构化与非结构化的多类型多模态医疗数据,是临床辅助决策的重要资源。目前的电子病历行业应用多基于病历文本或医学图像等单一模态的数据,采用自然语言处理或计算机视觉的方法,根据输入的文本或图片提取相关信息与特征输出对应的分析结果等。但是,真实世界的诊疗过程是医生综合电子病历中的多模态数据,进行全面综合的分析与判断,例如皮肤病诊断时,不仅需要进行皮肤图像的视觉诊断,还需要根据病历中记录的现病史、既往病史等文本病历信息进行综合诊断。而医疗数据的标注成本高、标注难度大,公开可训练的电子病历多模态数据比其他的通用领域的数据集要低好几个数量级,给深度学习的预训练任务带来了艰巨的挑战;再者,对于医学检查图像来说,疾病的病变区域往往只占图像的一小部分,笼统的进行检查图像和医学报告的对齐与学习并不能捕捉疾病的细粒度信息,导致有价值的医疗信息挖掘不充分。同时,医学检查图像或者医学报告的信息表示能力不足,会影响医生或人工智能医生进行疾病辅助诊断、临床决策、治疗反应预测等下游任务的准确性。
目前的医疗图文对比学习的方法中,虽然有局部特征的提取,但是仅单纯的将文本或图像进行片段或区域划分,包含大量噪声,缺乏较为精确的医疗信息提取和对齐。如何利用多模态数据中蕴含的潜在语义信息,全面准确的挖掘患者的医疗信息,为医生或人工智能医生的诊断提供可靠的数据支撑,仍是当前医学多模态学习研究的一大难题。
综上所述,针对电子病历多模态数据异构、标注成本高、专业性强、无法实现全面更细粒度得语义对齐的难点,急需一种基于对比学习的电子病历多模态医疗语义对齐方法。
发明内容
本发明目的在于提供一种基于对比学习的电子病历多模态医疗语义对齐方法,具体技术方案如下:
一种基于对比学习的电子病历多模态医疗语义对齐方法,包括如下步骤:
步骤S1,对医学报告进行实体关系抽取:
采用实体关系抽取模块对医学报告进行关系抽取,得到医疗实体关系,组成医疗三元组;
步骤S2,对医学检查图像、医学报告和医疗三元组进行编码:
采用图像编码器对医学检查图像进行编码,得到局部视觉特征和全局视觉特征;采用文本编码器对整个医学报告和其对应的医疗三元组进行编码,整个医学报告的编码信息为医学文本特征,医疗三元组的编码信息为局部文本特征;将医学文本特征和局部文本特征输入到具有激活函数的全连接层,得到全局文本特征;
步骤S3,进行全局特征对齐和局部特征对齐:
全局特征对齐:采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习,计算全局对比损失;
局部特征对齐:采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习,计算局部对比损失:
步骤S4,联合实例级对齐模块和描述级对齐模块进行迭代训练,实现电子病历多模态医疗语义对齐:
联合实例级对齐模块和描述级对齐模块构建医疗语义对齐模型,总损失为全局对比损失和局部对比损失的加权和,利用医疗语义对齐模型进行迭代训练,进行医学检查图像和医学报告的语义对齐,实现电子病历多模态医疗语义对齐。
优选的,在步骤S1中,对于医学报告,其对应的医疗三元组/>的表达式如下:
;
其中,对于第个三元组来说,/>代表头实体,/>代表关系,/>代表尾实体,,/>表示抽取到的医疗三元组的个数。
优选的,在步骤S2中,使用图像编码器对医学检查图像/>进行编码,得到一系列局部视觉特征/>和全局特征表示/>,/>,其中,/>代表第/>个医学检查图像中第/>个视觉向量特征,/>,/>代表视觉标记的总数。
优选的,在步骤S2中,使用文本编码器对医学报告/>和其对应的医疗三元组进行编码,提取得到医学文本特征和局部文本特征/>,其中,/>代表第/>个医学报告中第/>个医疗三元组的向量特征,/>,/>代表医疗三元组的个数,将医学文本特征和局部文本特征输入到具有激活函数的全连接层/>,输出得到全局文本特征/>。
优选的,在步骤S3中,对齐模块基于对比学习在映射空间中拉近同一对图像报告对的距离,拉远随机图像报告对之间的距离,实现特征对齐。
优选的,在步骤S3中,采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习的具体过程如下:
使用两个非线性投影层和/>将全局视觉特征和全局文本特征分别转化为归一化的低纬嵌入,计算二者的余弦相似度:
;
其中,表示第/>个图像报告对的余弦相似度;;/>表示全局视觉特征的低纬嵌入,/>,/>表示向量空间;/>表示全局文本特征的低维嵌入,/>;/>表示转置;
全局对比损失的计算过程如下:
;
;
;
其中,表示图像到文本的全局对比损失,/>表示文本到图像的全局对比损失,/>表示全局对比损失,/>表示实例级温度超参数,用于调整生成结果的熵值。
优选的,在步骤S3中,采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习的具体过程如下:
首先,将局部视觉特征和医疗三元组的特征转化为标准化的低纬嵌入,让局部视觉特征的低纬嵌入关注所有的医疗三元组低纬嵌入/>,计算得到对应的跨模态低纬嵌入,计算过程如下:
;
;
;
;
其中,表示跨模态键值计算公式,/>表示跨模态检索计算公式,/>表示激活函数,/>表示指数线性单元函数,/>、/>和/>均表示可学习的矩阵,/>、/>、/>,/>表示向量空间/>;
然后,计算局部视觉特征到医疗三元组的描述级对比损失和医疗三元组到局部视觉特征的描述级对比损失/>,/>和/>的计算方式相同,/>表达式如下:
;
其中,表示医学检查图像和医学报告的对数,/>表示描述级温度超参数,用于调整生成结果的熵值,/>表示特征分配权重;
最后,计算局部对比损失,表达式如下:
。
优选的,在步骤S4中,总损失的表达式如下:
;
其中,表示用于平衡实例级对齐模块的超参数,/>表示用于平衡描述级对齐模块的超参数。
优选的,所述医疗三元组中的实体包括视觉病灶描述实体和病灶生理部位实体,所述医疗三元组中的关系包括视觉病灶描述实体与视觉病灶描述实体之间的推断关系、视觉病灶描述实体与病灶生理部位实体之间的位于关系以及视觉病灶描述实体与视觉病灶描述实体或者病灶生理部位实体与病灶生理部位实体之间存在的量化关系。
应用本发明的技术方案,具有以下有益效果:
(1)本发明方法通过实体关系抽取模块的设计对电子病历中的文本数据进行挖掘和提取,得到结构化的医疗三元组,以此作为知识引导,提高多模态语义对齐的细粒度。
(2)本发明方法通过设计实例级对齐模块和描述级对齐模块,进行两次对比学习,分别学习全局和局部的特征表示,使医学影像特征表示中对齐相关的细粒度的医学报告的语义信息,让关键的病灶区域学习相关的视觉和文本特征,输出多模态的语义特征表示。
(3)本发明方法在描述级对齐模块中,设计了一种线性计算的交叉注意力计算方法,提升描述级对齐模块在进行多模态对齐时的计算速度,减轻算力负担。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明优选实施例中电子病历多模态医疗语义对齐方法的步骤流程图;
图2是本发明优选实施例中电子病历多模态医疗语义对齐方法的模型设计图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
参见图1和图2,本实施例公开了一种基于对比学习的电子病历多模态医疗语义对齐方法,应用本实施例公开的医疗语义对齐方法对对医学检查图像以及与所述医疗检查图像对应的医学报告数据集/>进行医疗语义对齐。对于第/>个图像报告对/>来说/>代表医学检查图像,/>代表对应的医学报告文本,/>,所述电子病历多模态医疗语义对齐方法包括如下步骤:
步骤S1,对医学报告进行实体关系抽取:
采用实体关系抽取模块对医学报告进行关系抽取,得到医疗实体关系,组成医疗三元组;每个医学报告可抽取到多个医疗三元组,所述医疗三元组/>的表达式如下:
;
其中,对于第个三元组来说,/>代表头实体,/>代表关系,/>代表尾实体,,/>表示抽取到的医疗三元组的个数。
进一步地,在本实施例中,所述医疗三元组中的实体包括视觉病灶描述实体和病灶生理部位实体,所述医疗三元组中的关系包括视觉病灶描述实体与视觉病灶描述实体之间的推断关系、视觉病灶描述实体与病灶生理部位实体之间的位于关系以及视觉病灶描述实体与视觉病灶描述实体或者病灶生理部位实体与病灶生理部位实体之间存在的量化关系。具体可见表1。
表 1 抽取到的医疗三元组类型
需要说明的是,通过上述三元组作为医学报告的细粒度表示用来和医学检查图像中的病灶视觉特征进行对齐,使本实施例最终得到的医学检查图像的表示具有更细粒度的信息特征。本实施例优选的实体关系抽取模块为DYGIE++,DYGIE++是一种用于信息提取(Information Extraction)的深度学习模型,特别专注于医学领域的实体关系抽取。
步骤S2,对医学检查图像、医学报告和医疗三元组进行编码:
具体的,使用图像编码器对医学检查图像/>进行编码,得到一系列局部视觉特征/>和全局特征表示/>,/>,其中,/>代表第/>个医学检查图像中第/>个视觉向量特征,/>,/>代表视觉标记的总数。
具体的,使用文本编码器对医学报告/>和其对应的医疗三元组/>进行编码,在每个医疗三元组的开头添加[CLS]标记,在末尾添加[SEP]标记,将每个医疗三元组编码后[CLS]特征表示信息提取出来,医学报告中编码信息为医学文本特征,医疗三元组的编码信息为局部文本特征/>,其中,/>代表第/>个医学报告中第/>个医疗三元组的向量特征,/>,/>代表医疗三元组的个数,将医学文本特征和局部文本特征输入到具有激活函数(本实施例优选的激活函数为/>激活函数)的全连接层/>,输出得到全局文本特征/>。
需要说明的是,本实施例中优选的图像编码器为50层深度残差网络或者视觉Transformer模型,本实施例中优选的文本编码器为临床领域BERT语言模型。
步骤S3,进行全局特征对齐和局部特征对齐:
全局特征对齐:采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习,计算全局对比损失;
局部特征对齐:采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习,计算局部对比损失。
具体的,在本实施例中,利用对比学习的思想,在映射空间中拉近同一对图像报告对的距离,拉远随机对之间的距离。采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习的具体过程如下:
使用两个非线性投影层和/>将全局视觉特征和全局文本特征分别转化为归一化的低纬嵌入,计算第/>个图像报告对的余弦相似度:
;
其中,表示第/>个图像报告对的余弦相似度;;/>表示全局视觉特征的低纬嵌入,/>,/>表示向量空间;/>表示全局文本特征的低维嵌入,/>;/>表示转置;
全局对比损失的计算过程如下:
;
;
;
其中,表示图像到文本的全局对比损失,/>表示文本到图像的全局对比损失,/>表示全局对比损失,/>表示实例级温度超参数,用于调整生成结果的熵值。
优选的,在步骤S3中,采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习的具体过程如下:
首先,将局部视觉特征和医疗三元组的特征转化为标准化的低纬嵌入,让局部视觉特征的低纬嵌入关注所有的医疗三元组低纬嵌入/>,计算得到对应的跨模态低纬嵌入,本实施例采用一种线性计算方法,简化计算步骤,提升了运算速度,计算过程如下:
;
;
;
;
其中,表示跨模态键值计算公式,/>表示跨模态检索计算公式,/>表示激活函数,/>是指数线性单元(Exponential Linear Unit)函数,是一种激活函数,/>、/>和/>均表示可学习的矩阵,/>、/>、/>,/>表示向量空间/>;
然后,计算局部视觉特征到医疗三元组的描述级对比损失和医疗三元组到局部视觉特征的描述级对比损失/>,/>和/>的计算方式相同,此处仅对/>的计算方式进行说明,/>表达式如下:
;
其中,表示医学检查图像和医学报告的对数,/>表示描述级温度超参数,用于调整生成结果的熵值,/>表示特征分配权重;本实施例考虑到病理区域特征的重要性,在计算描述级对比损失时进一步地为第/>个区域特征分配权重/>,/>设置为从第/>个局部特征到跨多个头平均的[CLS]标记的最后一层注意力权重。
最后,计算局部对比损失,表达式如下:
。
步骤S4,联合实例级对齐模块和描述级对齐模块进行迭代训练,实现电子病历多模态医疗语义对齐:
联合实例级对齐模块和描述级对齐模块得到医疗语义对齐模型,总损失为全局对比损失和局部对比损失的加权和,利用医疗语义对齐模型进行迭代训练,进行医学检查图像和医学报告的语义对齐,实现电子病历多模态医疗语义对齐。
具体的,在步骤S4中,总损失的表达式如下:
;
其中,表示用于平衡实例级对齐模块的超参数,/>表示用于平衡描述级对齐模块的超参数。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于对比学习的电子病历多模态医疗语义对齐方法,其特征在于,用于医学检查图像和医学报告的语义对齐,所述方法包括如下步骤:
步骤S1,对医学报告进行实体关系抽取:
采用实体关系抽取模块对医学报告进行关系抽取,得到医疗实体关系,组成医疗三元组;
步骤S2,对医学检查图像、医学报告和医疗三元组进行编码:
采用图像编码器对医学检查图像进行编码,得到局部视觉特征和全局视觉特征;采用文本编码器对整个医学报告和其对应的医疗三元组进行编码,整个医学报告的编码信息为医学文本特征,医疗三元组的编码信息为局部文本特征;将医学文本特征和局部文本特征输入到具有激活函数的全连接层,得到全局文本特征;
步骤S3,进行全局特征对齐和局部特征对齐:
全局特征对齐:采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习,计算全局对比损失;
局部特征对齐:采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习,计算局部对比损失:
步骤S4,联合实例级对齐模块和描述级对齐模块进行迭代训练,实现电子病历多模态医疗语义对齐:
联合实例级对齐模块和描述级对齐模块构建医疗语义对齐模型,总损失为全局对比损失和局部对比损失的加权和,利用医疗语义对齐模型进行迭代训练,进行医学检查图像和医学报告的语义对齐,实现电子病历多模态医疗语义对齐。
2.根据权利要求1所述的电子病历多模态医疗语义对齐方法,其特征在于,在步骤S1中,对于第i个医学报告xt,i,xt,i对应的医疗三元组xtri,i的表达式如下:
xtri,i={(s1,i,p1,i,o1,i),(s2,i,p2,i,o2,i)...(sM,i,pM,i,oM,i)};
其中,对于第m个医疗三元组来说,sm,i代表头实体,pm,i代表关系,om,i代表尾实体,m∈[1,M],M表示抽取到的医疗三元组的个数。
3.根据权利要求2所述的电子病历多模态医疗语义对齐方法,其特征在于,在步骤S2中,使用图像编码器Ev对医学检查图像xv,i进行编码,得到一系列局部视觉特征和全局特征表示vi,vi=Ev(xv,i),其中,/>代表第i个医学检查图像中第j个视觉向量特征,j∈[1,L],L代表视觉标记的总数。
4.根据权利要求3所述的电子病历多模态医疗语义对齐方法,其特征在于,在步骤S2中,使用文本编码器Et对医学报告xt,i和其对应的医疗三元组xtri,i进行编码,提取得到医学文本特征和局部文本特征其中,/>代表第i个医学报告中第m个医疗三元组的向量特征,m∈[1,M],M代表医疗三元组的个数,将医学文本特征和局部文本特征输入到具有激活函数的全连接层Tanh,输出得到全局文本特征ti。
5.根据权利要求4所述的电子病历多模态医疗语义对齐方法,其特征在于,在步骤S3中,对齐模块基于对比学习在映射空间中拉近同一对图像报告对(xv,i,xt,i)的距离,拉远随机图像报告对之间的距离,实现特征对齐。
6.根据权利要求5所述的电子病历多模态医疗语义对齐方法,其特征在于,在步骤S3中,采用实例级对齐模块对全局视觉特征和全局文本特征进行对比学习的具体过程如下:
使用两个非线性投影层gv和gt将全局视觉特征和全局文本特征分别转化为归一化的低纬嵌入,计算二者的余弦相似度:
其中,s(xv,i,xt,i)表示第i个图像报告对的余弦相似度; 表示全局视觉特征的低纬嵌入,/> 表示向量空间d;/>表示全局文本特征的低维嵌入,T表示转置;
全局对比损失的计算过程如下:
其中,表示图像到文本的全局对比损失,/>表示文本到图像的全局对比损失,表示全局对比损失,τ1表示实例级温度超参数,用于调整生成结果的熵值,N表示医学检查图像和医学报告的对数。
7.根据权利要求6所述的电子病历多模态医疗语义对齐方法,其特征在于,在步骤S3中,采用描述级对齐模块对局部视觉特征和局部文本特征进行对比学习的具体过程如下:
首先,将局部视觉特征和医疗三元组的特征转化为标准化的低纬嵌入,让局部视觉特征的低纬嵌入关注所有的医疗三元组低纬嵌入/>计算得到对应的跨模态低纬嵌入/>计算过程如下:
φ(x)=elu(x)+1;
其中,表示跨模态键值计算公式,/>表示跨模态检索计算公式,φ(x)表示激活函数,elu(x)表示指数线性单元函数,Q、K和V均表示可学习的矩阵,/> 表示向量空间d×d;
然后,计算局部视觉特征到医疗三元组的描述级对比损失和医疗三元组到局部视觉特征的描述级对比损失/>和/>的计算方式相同,/>表达式如下:
其中,N表示医学检查图像和医学报告的对数,τ2表示描述级温度超参数,用于调整生成结果的熵值,表示特征分配权重,/>表示以局部视觉特征的低纬嵌入作为查询和跨模态低纬嵌入之间的相似度,/>表示以跨模态低纬嵌入作为查询和局部视觉特征的低纬嵌入之间的相似度;
最后,计算局部对比损失表达式如下:
8.根据权利要求7所述的电子病历多模态医疗语义对齐方法,其特征在于,在步骤S4中,总损失的表达式如下:
其中,λ1表示用于平衡实例级对齐模块的超参数,λ2表示用于平衡描述级对齐模块的超参数。
9.根据权利要求1-8任意一项所述的电子病历多模态医疗语义对齐方法,其特征在于,所述医疗三元组中的实体包括视觉病灶描述实体和病灶生理部位实体,所述医疗三元组中的关系包括视觉病灶描述实体与视觉病灶描述实体之间的推断关系、视觉病灶描述实体与病灶生理部位实体之间的位于关系以及视觉病灶描述实体与视觉病灶描述实体或者病灶生理部位实体与病灶生理部位实体之间存在的量化关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694492.4A CN117391092B (zh) | 2023-12-12 | 2023-12-12 | 一种基于对比学习的电子病历多模态医疗语义对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694492.4A CN117391092B (zh) | 2023-12-12 | 2023-12-12 | 一种基于对比学习的电子病历多模态医疗语义对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117391092A CN117391092A (zh) | 2024-01-12 |
CN117391092B true CN117391092B (zh) | 2024-03-08 |
Family
ID=89468740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311694492.4A Active CN117391092B (zh) | 2023-12-12 | 2023-12-12 | 一种基于对比学习的电子病历多模态医疗语义对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117391092B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117636099B (zh) * | 2024-01-23 | 2024-04-12 | 数据空间研究院 | 一种医学图像和医学报告配对训练模型 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN112883736A (zh) * | 2021-02-22 | 2021-06-01 | 零氪科技(北京)有限公司 | 医疗实体关系抽取方法和装置 |
CN114036336A (zh) * | 2021-11-15 | 2022-02-11 | 上海交通大学 | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 |
CN114722216A (zh) * | 2022-04-15 | 2022-07-08 | 大连理工大学 | 一种基于中文电子病历知识图谱的实体对齐方法 |
CN116450877A (zh) * | 2023-04-26 | 2023-07-18 | 东北大学 | 一种基于语义选择与层次对齐的图像文本匹配方法 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
CN116797848A (zh) * | 2023-07-12 | 2023-09-22 | 山西大学 | 一种基于医疗图像文本对齐的疾病定位方法及系统 |
CN116822579A (zh) * | 2023-07-03 | 2023-09-29 | 齐鲁工业大学(山东省科学院) | 基于对比学习的疾病分类icd自动编码方法和装置 |
CN117009924A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 电子病历引导的多模态自适应多中心数据融合方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106506502B (zh) * | 2016-11-15 | 2017-09-22 | 合肥工业大学 | 一种多模态移动电子病历系统及其工作方法 |
-
2023
- 2023-12-12 CN CN202311694492.4A patent/CN117391092B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN112883736A (zh) * | 2021-02-22 | 2021-06-01 | 零氪科技(北京)有限公司 | 医疗实体关系抽取方法和装置 |
CN114036336A (zh) * | 2021-11-15 | 2022-02-11 | 上海交通大学 | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 |
CN114722216A (zh) * | 2022-04-15 | 2022-07-08 | 大连理工大学 | 一种基于中文电子病历知识图谱的实体对齐方法 |
CN116450877A (zh) * | 2023-04-26 | 2023-07-18 | 东北大学 | 一种基于语义选择与层次对齐的图像文本匹配方法 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
CN116822579A (zh) * | 2023-07-03 | 2023-09-29 | 齐鲁工业大学(山东省科学院) | 基于对比学习的疾病分类icd自动编码方法和装置 |
CN116797848A (zh) * | 2023-07-12 | 2023-09-22 | 山西大学 | 一种基于医疗图像文本对齐的疾病定位方法及系统 |
CN117009924A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 电子病历引导的多模态自适应多中心数据融合方法及系统 |
Non-Patent Citations (5)
Title |
---|
Temporal sequence alignment in electronic health records for computable patient representation;Ming Huang;IEEE;20190124;第1054-1061页 * |
基于树状语料库的中文短语相似度计算;费洪晓;计算机应用与软件;20130831;第18-42页 * |
基于深度学习的电子病历医疗命名实体识别;阿依图尔荪・喀迪尔;;电脑知识与技术;20200605(16);第201-203页 * |
电子病历实体关系抽取研究;吴嘉伟;中国优秀硕士论文电子期刊网;20150215;第I138-1519页 * |
面向医疗领域的术语抽取与对齐平台的设计与实现;韩振桥;中国优秀硕士论文电子期刊网;20230215;第E054-172页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117391092A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113241135A (zh) | 一种基于多模态融合的疾病风险预测方法和系统 | |
Sun et al. | Intelligent analysis of medical big data based on deep learning | |
Altuwairqi et al. | Student behavior analysis to measure engagement levels in online learning environments | |
CN117391092B (zh) | 一种基于对比学习的电子病历多模态医疗语义对齐方法 | |
WO2020224433A1 (zh) | 基于机器学习的目标对象属性预测方法及相关设备 | |
Mozayan et al. | Practical guide to natural language processing for radiology | |
Sejuti et al. | A hybrid CNN–KNN approach for identification of COVID-19 with 5-fold cross validation | |
CN114564959A (zh) | 中文临床表型细粒度命名实体识别方法及系统 | |
CN116797848A (zh) | 一种基于医疗图像文本对齐的疾病定位方法及系统 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
Ma et al. | Rectify vit shortcut learning by visual saliency | |
CN114550946A (zh) | 医疗数据处理方法、装置及存储介质 | |
CN116403728B (zh) | 医疗就诊数据的数据处理装置和相关设备 | |
CN117393098A (zh) | 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法 | |
Shetty et al. | Multimodal medical tensor fusion network-based DL framework for abnormality prediction from the radiology CXRs and clinical text reports | |
Guo et al. | From spoken narratives to domain knowledge: Mining linguistic data for medical image understanding | |
CN111539194A (zh) | 一种医疗文本结构化算法的可用度评估方法 | |
CN116313058A (zh) | 面瘫智能评估方法、系统、设备及存储介质 | |
JPWO2019207714A1 (ja) | 動作推定システム、動作推定方法および動作推定プログラム | |
Ovi et al. | Infection segmentation from covid-19 chest ct scans with dilated cbam u-net | |
CN114429822A (zh) | 病历质检方法、装置和存储介质 | |
CN115862837A (zh) | 一种基于类型推理与语义约束的医学视觉问答方法 | |
Štajduhar et al. | Analysing large repositories of medical images | |
Wang et al. | Knowledge-Enhanced Medical Visual Question Answering: A Survey (Invited Talk Summary) | |
Hiriyannaiah et al. | Multi-modal Data-Driven Analytics for Health Care |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |