CN114283127B - 一种多模态信息指导的医学图像分割系统及图像处理方法 - Google Patents
一种多模态信息指导的医学图像分割系统及图像处理方法 Download PDFInfo
- Publication number
- CN114283127B CN114283127B CN202111524363.1A CN202111524363A CN114283127B CN 114283127 B CN114283127 B CN 114283127B CN 202111524363 A CN202111524363 A CN 202111524363A CN 114283127 B CN114283127 B CN 114283127B
- Authority
- CN
- China
- Prior art keywords
- image
- information
- text
- text information
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 46
- 238000003672 processing method Methods 0.000 title abstract description 3
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 5
- 238000002604 ultrasonography Methods 0.000 description 4
- 201000001320 Atherosclerosis Diseases 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 208000005189 Embolism Diseases 0.000 description 1
- 208000032382 Ischaemic stroke Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001715 carotid artery Anatomy 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 208000031225 myocardial ischemia Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开提出了一种多模态信息指导的医学图像分割系统及图像处理方法,基于文本信息的指导进而更新视觉图像特征表示,然后通过门控融合模块将多模态特征进行融合,建立了文本和图像这两种模态信息之间的联系,使用文本指导图像分割,两种模态信息相互作用,而不是简单的将文本信息和图像信息融合,较高层的特征为底层特征提供全局和语义指导,底层特征为较高层的特征提供局部和更精细的信息,使用文本指导图像分割,两种模态信息相互作用,提高了图像分割的准确性。
Description
技术领域
本公开涉及智能医疗信息技术相关技术领域,具体的说,是涉及一种多模态信息指导的医学图像分割系统及图像分割方法。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,并不必然构成在先技术。
动脉粥样硬化(Atherosclerosis,AS)是缺血性心脏病和中风的主要原因,导致全球范围内的高死亡率和发病率。颈部动脉斑块是颈部动脉粥样硬化的典型症状,多形成于颈总动脉分叉处。当颈动脉不稳定斑块脱落或破裂后容易引起心血管栓塞和颈动脉的急性闭塞,进而引发心梗甚至脑卒中。颈动脉斑块的准确评估对于相关的诊断和预后非常重要。目前,常规超声是一种非侵入性成像方法,已被广泛用于颈动脉斑块的检测和测量。
通常情况下,颈动脉斑块的分割是由具备专业知识的医学专家手动完成,但手动分割耗时长且分割效果多会依赖操作者的临床经验。通过将自然图像分割等深度学习算法应用到超声图像中能够有效的解决颈动脉斑块分割的问题。现有的医学图像分割方法通常是仅基于视觉区域进行分割算法的研究,而没有考虑到视觉和语言之间的相互指导,基于单模态的颈动脉超声图像的分割常常会出现斑块定位不准确等问题。
发明内容
本公开为了解决上述问题,提出了一种多模态信息指导的医学图像分割系统及图像分割方法,基于文本信息的指导进而更新视觉图像特征表示,然后通过门控融合模块将多模态特征进行融合,建立了文本和图像这两种模态信息之间的联系,使用文本指导图像分割,两种模态信息相互作用,而不是简单的将文本信息和图像信息融合,较高层的特征为底层特征提供全局和语义指导,底层特征为较高层的特征提供局部和更精细的信息,使用文本指导图像分割,两种模态信息相互作用,提高了图像分割的准确性。
为了实现上述目的,本公开采用如下技术方案:
一个或多个实施例提供了一种多模态信息指导的医学图像分割系统,包括:
图像特征提取模块,被配置为用于对输入图像进行编码,提取图像特征;
文本特征编码模块,被配置为用于采用双向语言模型来对文本信息进行向量化表示;
跨模态信息融合模块,被配置为用于建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果。
一个或多个实施例提供了一种多模态信息指导的医学图像分割方法,包括如下步骤:
获取图像以及对图像的描述的文本信息;
对获取的图像进行编码,提取图像特征;
对获取的文本信息进行编码,获得文本向量编码;
建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果。
一种终端设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,执行以下步骤:
获取图像以及对图像的描述的文本信息;
对获取的图像进行编码,提取图像特征;
对获取的文本信息进行编码,获得文本向量编码;
建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果。
与现有技术相比,本公开的有益效果为:
(1)本公开提供了一种端到端的颈动脉斑块分割系统,该系统将颈动脉超声图像和图像的文本描述作为输入,结合深度学习方法,对相应特征进行提取、融合后输出斑块的分割结果。该方法能够节约时间成本,大大提高了图像分割的准确性,为医生提供有效的参考信息,为相关的诊断和预后提供帮助。
(2)本公开建立了文本信息与图像区域的关系,充分理解语言与视觉之间的关系,基于文本信息的指导进而更新视觉特征表示,丰富了目标区域的上下文表示,更一致地突出超声图像中要分割的目标区域。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。
图1是本公开实施例1的系统的框图;
图2是本公开实施例1的跨模态信息融合模块配置图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
近几年,基于深度学习的图像分割方法发展迅速,但是,医学图像分割与深度学习的结合存在以下问题:
(1)医学影像信息被数字化进一步用于影像数据的挖掘是非常耗时的过程,分割任务中需要有相关经验或知识的医生进行目标区域标注。这往往导致数据规模小,标注质量差等问题,极大地影响深度神经网络的学习和训练。
(2)目前大多医学图像分割模型仅针对影像数据进行方法的改进和探索,对于多个模态共同指导分割的研究较少,只考虑视觉因素不能对目标区域的分割进行综合学习,相关数据也未被充分挖掘利用。
(3)对于视觉特征与语言特征的融合,一些方法直接将提取后的特征进行连接用于生成分割目标,这样简单的将多模态特征进行融合不仅会使特征冗余,还会忽略跨模态数据之间的相互作用,使目标定位不精确。
实施例1
在一个或多个实施方式公开的技术方案中,如图1所示,一种多模态信息指导的医学图像分割系统,包括图像特征提取模块、文本特征编码模块和跨模态信息融合模块;
图像特征提取模块,被配置为用于对输入图像进行编码,提取图像特征;
文本特征编码模块,被配置为用于采用双向语言模型bert来对文本信息进行向量化表示;
跨模态信息融合模块,被配置为用于建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果。
本系统将颈动脉超声图像和图像的文本描述作为输入,结合深度学习方法,对相应特征进行提取、融合后输出斑块的分割结果。能够节约时间成本,大大提高了图像分割的准确性,为医生提供有效的参考信息,为相关的诊断和预后提供帮助。
进一步的技术方案,还包括:
数据获取模块:被配置为获得图像以及针对图像描述的文本信息,具体的,文本信息可以直接通过键盘输入,也可以是预存的文件包。
图像具体的可以为超声波图像,还包括超声波检测设备,数据获取模块与超声波检测设备通信连接。
进一步地,还包括数据预处理模块,被配置为通过旋转、镜像等对影像或图像数据进行增强,并对数据做归一化处理。
在一些实施例中,图像特征提取模块采用ResNet101网络对输入图像进行编码,ResNet网络利用深度残差学习构建深层次网络解决网络深度增加时出现的梯度消失和梯度爆炸的问题,更好地提取图像特征。
可选的,文本特征编码模块为双向语言模型bert,模型的核心由BERT Encoder组成,BERT Encoder由多层BERT Layer组成,每一层的BERT Layer其实都是Transformer中的Encoder Block。每一个encoder层包含两层,一个自注意力机制层一个前馈神经网络层。
可选的,跨模态信息融合模块,如图2所示,被配置为执行以下步骤:
步骤3-1、根据文本信息对每个图像区域的重要性,建立了文本信息与图像特征之间的关系,对图像特征提取模块输出的图像特征表示进行更新;
由于文本信息中的每个单词对图像中不同区域的重要性不同,因此按照如下公式计算第n单词对图像中的第i个区域的重要性,文本信息T={t1,t2,…tn}。文本信息对每个图像区域的重要性的计算公式,可以如下:
其中,vi是图像特征,tN是采用双向语言模型bert连接的LSTM最后一个隐藏层的输出,si是空间坐标,w1是可学习参数。代表了第n个单词对视觉图像中第i个区域的重要性。
以上建立了文本信息与图像特征之间的关系,其中,LSTM,为Long Short-TermMemory简称,即为长短期记忆网络。
设Ij为第j个区域的图像特征,则图像中不同区域之间的关系可由如下公式定义,图像中i、j区域之间的联系如下:
其中,w2,w3,w4均为可学习参数,代表了第j个区域对应的文本特征对第i个区域的重要性。
然后对图像特征(即视觉特征)表示进行更新:
步骤3-2)针对更新后的图像特征,采用多个比例捕捉图像信息;
具体的,可以采用空洞空间卷积池化金字塔(ASPP),以不同采样率的空洞卷积并行采样,扩大感受野,以多个比例捕捉图像信息。
步骤3-3)融合输出:针对捕捉图像信息,采用门控融合函数进行融合以生成分割目标,按照分割目标进行分割获得图像分割结果。
颈动脉斑块的分割通常会出现斑块边界分割不精确的问题,将池化金字塔的输出不是进行简单的连接,本实施例中,采用门控融合函数对空洞空间卷积池化金字塔的输出进行融合,期望较低层的特征为较高层的特征提供局部和精细的指导。其中较底层的特征是指网络中底层的layer输出的特征,较高层次的特征指网络较高层的layer输出的特征。
采用门控融合函数进行融合的公式,如下:
其中pi,pj,pk为空洞空间卷积池化金字塔的输出,G(i,j)为门控函数,foutput为最后的输出。
本实施例采用空洞空间卷积池化金字塔,以不同采样率的空洞卷积并行采样,扩大感受野并嵌入多尺度上下文信息。用门控融合函数对空洞空间卷积池化金字塔的输出进行融合,使局部分割更加精细。
实施例2
基于实施例1,本实施例提供一种多模态信息指导的医学图像分割方法,包括如下步骤:
步骤1、获取图像以及对图像的描述的文本信息;
步骤2、对获取的图像进行编码,提取图像特征;
步骤3、对获取的文本信息进行编码,获得文本向量编码;
步骤4、建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果。
步骤1中,获得图像以及针对图像描述的文本信息,具体的,文本信息可以直接通过键盘输入,也可以是预存的文件包。
图像具体的可以为超声波图像,还包括超声波检测设备,数据获取模块与超声波检测设备通信连接。
进一步的,还包括数据预处理步骤:通过旋转、镜像等对影像或图像数据进行增强,并对数据做归一化处理。
图像特征提取,具体的,采用ResNet101网络对输入图像进行编码,ResNet网络利用深度残差学习构建深层次网络解决网络深度增加时出现的梯度消失和梯度爆炸的问题,更好地提取图像特征。
步骤4中,为跨模态信息融合的步骤,同实施例1中的步骤(3-1)-步骤(3-3)。
实施例3
基于实施例1,本实施例提供一种终端设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,执行以下步骤:
步骤1、获取图像以及对图像的描述的文本信息;
步骤2、对获取的图像进行编码,提取图像特征;
步骤3、对获取的文本信息进行编码,获得文本向量编码;
步骤4、建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种多模态信息指导的医学图像分割系统,其特征是,包括:
图像特征提取模块,被配置为用于对输入图像进行编码,提取图像特征;
文本特征编码模块,被配置为用于采用双向语言模型来对文本信息进行向量化表示;
跨模态信息融合模块,被配置为用于建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果;
根据文本信息对每个图像区域的重要性,建立文本信息与图像特征之间的关系,其中,文本信息对每个图像区域重要性的计算公式为:
其中,是图像特征,/>是采用双向语言模型bert连接的LSTM最后一个隐藏层的输出,是空间坐标,/>是可学习参数;/>代表了第n个单词对视觉图像中第i个区域的重要性;文本信息T = {t1, t2, …tn}。
2.如权利要求1所述的一种多模态信息指导的医学图像分割系统,其特征是:采用残差网络对输入图像进行编码,提取图像特征。
3.如权利要求1所述的一种多模态信息指导的医学图像分割系统,其特征是:采用双向语言模型来对文本信息进行向量化表示。
4.如权利要求1所述的一种多模态信息指导的医学图像分割系统,其特征是:数据获取模块:被配置为获得图像以及针对图像描述的文本信息;
或者,还包括超声波检测设备,数据获取模块与超声波检测设备通信连接。
5.如权利要求1所述的一种多模态信息指导的医学图像分割系统,其特征是:还包括数据预处理模块,被配置为通过旋转、镜像方法图像数据进行增强,并对数据做归一化处理。
6.如权利要求1所述的一种多模态信息指导的医学图像分割系统,其特征是:跨模态信息融合模块,被配置为执行以下步骤:
根据文本信息对每个图像区域的重要性,建立了文本信息与图像特征之间的关系,对图像特征提取模块输出的图像特征表示进行更新;
针对更新后的图像特征,采用多个比例捕捉图像信息;
针对捕捉图像信息,采用门控融合函数进行融合以生成分割目标,按照分割目标进行分割获得图像分割结果。
7.如权利要求1所述的一种多模态信息指导的医学图像分割系统,其特征是:针对更新后的图像特征,采用多个比例捕捉图像信息,具体的:采用空洞空间卷积池化金字塔,以不同采样率的空洞卷积并行采样。
8.一种多模态信息指导的医学图像分割方法,其特征是,包括如下步骤:
获取图像以及对图像的描述的文本信息;
对获取的图像进行编码,提取图像特征;
对获取的文本信息进行编码,获得文本向量编码;
建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果;
根据文本信息对每个图像区域的重要性,建立文本信息与图像特征之间的关系,其中,文本信息对每个图像区域重要性的计算公式为:
其中,是图像特征,/>是采用双向语言模型bert连接的LSTM最后一个隐藏层的输出,是空间坐标,/>是可学习参数;/>代表了第n个单词对视觉图像中第i个区域的重要性;文本信息T = {t1, t2, …tn}。
9.如权利要求8所述的一种多模态信息指导的医学图像分割方法,其特征是:
建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果,包括如下步骤:
根据文本信息对每个图像区域的重要性,建立了文本信息与图像特征之间的关系,对图像特征提取模块输出的图像特征表示进行更新;
针对更新后的图像特征,采用多个比例捕捉图像信息;
针对捕捉图像信息,采用门控融合函数进行融合以生成分割目标,按照分割目标进行分割获得图像分割结果。
10.一种终端设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,其特征是,所述计算机指令被处理器运行时,执行以下步骤:
获取图像以及对图像的描述的文本信息;
对获取的图像进行编码,提取图像特征;
对获取的文本信息进行编码,获得文本向量编码;
建立图像特征、文本向量编码和空间坐标特征之间的连接,根据连接关系更新图像特征后重新捕捉图像信息,将捕捉的图像信息采用门控融合函数融合,获得图像分割结果;
根据文本信息对每个图像区域的重要性,建立文本信息与图像特征之间的关系,其中,文本信息对每个图像区域重要性的计算公式为:
其中,是图像特征,/>是采用双向语言模型bert连接的LSTM最后一个隐藏层的输出,是空间坐标,/>是可学习参数;/>代表了第n个单词对视觉图像中第i个区域的重要性;文本信息T = {t1, t2, …tn}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524363.1A CN114283127B (zh) | 2021-12-14 | 2021-12-14 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524363.1A CN114283127B (zh) | 2021-12-14 | 2021-12-14 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114283127A CN114283127A (zh) | 2022-04-05 |
CN114283127B true CN114283127B (zh) | 2024-04-23 |
Family
ID=80872149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111524363.1A Active CN114283127B (zh) | 2021-12-14 | 2021-12-14 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283127B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842312B (zh) * | 2022-05-09 | 2023-02-10 | 深圳市大数据研究院 | 面向不配对跨模态图像分割模型的生成及分割方法、装置 |
CN117437516A (zh) * | 2022-07-11 | 2024-01-23 | 北京字跳网络技术有限公司 | 语义分割模型训练方法、装置、电子设备及存储介质 |
CN115761222B (zh) * | 2022-09-27 | 2023-11-03 | 阿里巴巴(中国)有限公司 | 图像分割方法、遥感图像分割方法以及装置 |
CN117274185B (zh) * | 2023-09-19 | 2024-05-07 | 阿里巴巴达摩院(杭州)科技有限公司 | 检测方法、检测模型产品、电子设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733533A (zh) * | 2020-12-31 | 2021-04-30 | 浙大城市学院 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
CN113158875A (zh) * | 2021-04-16 | 2021-07-23 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
CN113657400A (zh) * | 2021-08-19 | 2021-11-16 | 大连理工大学 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10642887B2 (en) * | 2016-12-27 | 2020-05-05 | Adobe Inc. | Multi-modal image ranking using neural networks |
US11093560B2 (en) * | 2018-09-21 | 2021-08-17 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
-
2021
- 2021-12-14 CN CN202111524363.1A patent/CN114283127B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733533A (zh) * | 2020-12-31 | 2021-04-30 | 浙大城市学院 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
CN113158875A (zh) * | 2021-04-16 | 2021-07-23 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
CN113657400A (zh) * | 2021-08-19 | 2021-11-16 | 大连理工大学 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
Non-Patent Citations (2)
Title |
---|
A Two-Stage Transformer-Based Approach for Variable-Length Abstractive Summarization;Ming-Hsiang Su 等;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20201231;全文 * |
Aiding Intra-Text Representations with Visual Context for Multimodal Named Entity Recognition;Omer Arshad 等;《2019 International Conference on Document Analysis and Recognition (ICDAR)》;20191231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114283127A (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114283127B (zh) | 一种多模态信息指导的医学图像分割系统及图像处理方法 | |
US11669746B2 (en) | System and method for active machine learning | |
US11837017B2 (en) | System and method for face recognition based on dynamic updating of facial features | |
WO2021179570A1 (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN107977361B (zh) | 基于深度语义信息表示的中文临床医疗实体识别方法 | |
CN114511906A (zh) | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 | |
EP3786814A1 (en) | Intelligent extraction of information from a document | |
JP7346788B2 (ja) | 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 | |
US11461638B2 (en) | Figure captioning system and related methods | |
CN113807440A (zh) | 利用神经网络处理多模态数据的方法、设备和介质 | |
CN111667027B (zh) | 多模态图像的分割模型训练方法、图像处理方法及装置 | |
CN113407698B (zh) | 意图识别模型的训练与意图识别的方法、装置 | |
CN116564355A (zh) | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 | |
EP3955217A2 (en) | Human behavior recognition method, apparatus, storage medium and program product | |
CN116341546A (zh) | 一种基于预训练模型的医学自然语言处理方法 | |
EP4071729A2 (en) | Method and apparatus for training image recognition model based on semantic enhancement | |
Elakkiya et al. | Extricating manual and non-manual features for subunit level medical sign modelling in automatic sign language classification and recognition | |
CN114972910B (zh) | 图文识别模型的训练方法、装置、电子设备及存储介质 | |
CN112632227A (zh) | 简历匹配方法、装置、电子设备、存储介质和程序产品 | |
CN113781462A (zh) | 一种人体伤残检测方法、装置、设备及存储介质 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
CN116680575B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN117392138A (zh) | 舌象图像处理方法、存储介质及电子设备 | |
JP2021170247A (ja) | 情報処理装置、情報処理システム、情報処理方法およびプログラム | |
CN115631370A (zh) | 一种基于卷积神经网络的mri序列类别的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |