CN114661933A - 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 - Google Patents

基于胎儿先心病超声图像—诊断报告的跨模态检索方法 Download PDF

Info

Publication number
CN114661933A
CN114661933A CN202210220551.3A CN202210220551A CN114661933A CN 114661933 A CN114661933 A CN 114661933A CN 202210220551 A CN202210220551 A CN 202210220551A CN 114661933 A CN114661933 A CN 114661933A
Authority
CN
China
Prior art keywords
text
modal
image
cross
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210220551.3A
Other languages
English (en)
Inventor
曾宪华
王鼎杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanzhida Technology Transfer Center Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210220551.3A priority Critical patent/CN114661933A/zh
Publication of CN114661933A publication Critical patent/CN114661933A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

本发明公开了基于胎儿先心病超声图像—诊断报告的跨模态检索方法,包括:对跨模态胎儿先天性心脏病的超声图像文本数据集进行预处理;训练时利用特征提取网络,提取图像特征、文本特征和语义特征;将各模态的特征输入参数共享的跨模态注意力层,得到具有语义关联信息的各模态的特征;将图像特征和文本特征分别同语义特征计算对比中心损失;将特征向量输入参数共享的标签预测层,生成预测标签后,计算标签预测损失;检索时利用训练好的最优模型将数据库中的多模态数据生成低维特征;对于查询数据,首先生成低维特征,然后计算它与其它模态特征的相似度;按相似度进行排序,返回满足条件的跨模态实例。本发明有效的提升了跨模态多标签超声图像检索的精度。

Description

基于胎儿先心病超声图像—诊断报告的跨模态检索方法
技术领域
本发明属于人工智能跨模态超声图像文本检索领域,更具体的,涉及基于胎儿先心病超声图像—诊断报告的跨模态检索方法。
背景技术
随着医学技术的发展,医院每天都会产生大量的医学扫描图像,在医学领域,超声图像对于现代临床诊断具有重要意义,例如超声波、X射线、MRI和其他超声图像为医生提供大量的病理信息,医生分析超声图像中的信息并形成超声图像诊断报告。在实践中,为医生提供不同的模式搜索结果(即X光、MRI、PET和相对应的医学影像报告)可以让医生获取更全面的疾病信息,这对于辅助临床诊断和多模态医学信息管理具有重要意义。但是,超声图像和文本的跨模态差异较大。此外,一份诊断报告和它所对应的超声图像往往显示了多种病症,医学数据往往是多标签数据,超声图像和文本对应的语义较为复杂,如何在减小模态间差异性的同时学习到图像和文本的语义相关性是一个难点。
发明内容
针对上述问题,利用基于胎儿先天性心脏病的超声图像—诊断报告跨模态检索方法可以充分利用图像文本对的语义标签,通过一个以标签信息作为输入的语义特征子网络生成语义特征,结合标签预测层生成的预测标签,实现在特征空间和语义空间中同时监督模型生成有效的图像和文本特征。此外通过一个跨模态注意力层进一步提取了图像和文本模态之间的关联信息。最终能够有效的提升多标签超声图像文本数据的跨模态检索精度。
本发明旨在解决以上现有技术的问题,提出了基于胎儿先心病超声图像—诊断报告的跨模态检索方法,具体包括以下步骤:
1)对跨模态超声图像文本数据集进行预处理,利用分词工具对医学文本进行分词,然后通过词袋模型训练词向量,将标签信息转化为one-hot向量,跨模态医学数据集中的每一例样本包括超声图像文本对及其对应的one-hot向量。
2)设置一模型,该模型包括图像特征提取网络、文本特征提取网络、语义特征提取网络、跨模态注意力模块、标签预测层、损失函数。
所述图像特征提取网络由卷积神经网络构成,通过卷积、池化、激活函数、全连接层,原始图像被输出为图像特征向量。所述文本特征提取网络,先通过预先构建的词典将文本转换为向量形式,向量中的每一个数字对应一个300维的词向量,通过词向量嵌入,将代表文本的向量转换为p×300的矩阵,其中p为文本的长度,然后将矩阵输入卷积神经网络,得到文本特征向量。所述语义特征提取网络,由全连接层和激活函数构成,代表语义标签的one-hot向量被输出为和图像或文本特征维度相同的语义特征向量。所述跨模态注意力模块,由全连接层和Sigmoid激活函数构成,将之前得到的特征输入到跨模态注意力模块,通过全连接层和Sigmoid激活函数学习到特征权重后各模态特征相乘,得到各模态的注意力特征,然后作恒等映射之后将各模态特征输入一个参数共享的全连接层,输出最终的特征向量到一个公共的特征空间。所述标签预测层,由全连接层构成,将图像特征、文本特征和语义特征映射为和标签向量相同维度的向量。所述损失函数,包括特征空间中的对比中心损失,标签空间中的标签预测损失。
3)模型训练:利用特征提取网络,提取图像特征、文本特征和语义特征;将图像文本对以及代表语义标签的one-hot向量分别输入对应的特征提取网络,得到中间层的图像特征、文本特征和语义特征;将中间层的特征输入到跨模态注意力层,通过全连接层和Sigmoid激活函数学习到特征权重后各模态特征相乘,得到各模态的注意力特征,然后作恒等映射之后将各模态特征输入一个参数共享的全连接层,最终的特征向量输出到一个公共的特征空间;将得到的图像特征和文本特征分别同语义特征计算对比中心损失;将各模态的特征输入参数共享的标签预测层,生成预测标签后,分别与真实标签计算标签预测损失;利用特征空间中的对比中心损失和标签空间中的标签预测损失更新模型参数;当模型参数收敛时,保存最优的模型。
4)利用步骤3)中训练好的模型,将数据集中的图像和文本数据映射为低维特征向量。
5)对于查询数据,首先按照步骤4)生成低维特征向量,然后计算该低维特征向量与其它模态数据的特征向量之间的欧式距离作为相似度,按相似度进行排序,返回满足条件的跨模态实例。
本发明的优点及有益效果如下:
本发明构建一个跨模态超声图像文本检索框架,在实际的场景中,一张超声图像或者一份诊断报告往往显示了多个病症,所以这些图像文本对一般对应多个语义类别。基于特征嵌入的跨模态检索方法往往通过语义监督信息来监督模型生成具有类间判别性的特征,然后计算特征相似度来进行检索。现有的一些方法通常用三元组损失或者对比损失在特征空间中构建类间关系,为了进一步利用多语义标签,本发明通过一个语义标签网络在特征空间中生成高维的语义信息,通过在特征空间中利用语义信息监督多模态特征的生成。此外,超声图像之前的类间差异一般仅仅体现在图像中的某一块病症区域,如图3与图像对应的诊断报告之间的差异也一般仅体现在描述病症区域的关键字上。所以为了提取图像中病症区域和诊断报告中关键字的联合信息,参考中提出的残差注意力机制,本发明通过一个跨模态注意力层来联合语义特征学习图像特征和文本特征中的高级语义信息。最终整个模型通过特征空间中的跨模态对比中心损失和标签空间中的标签预测损失进行优化。
本发明构建构建的一种基于胎儿先天性心脏病的超声图像—诊断报告跨模态检索框架,充分利用了医学数据中的多语义标签,一个以标签信息作为输入的语义特征网络生成语义特征在特征空间中通过跨模态的对比中心损失监督模型生成具有跨模态一致性和跨模态类间判别性的图像和文本特征。同时在通过标签预测层生成预测标签,在标签空间中计算标签预测损失监督模型生成具有高级语义信息的特征。为了进一步提取多种模态之间的关联信息,一个共享的跨模态注意力层被用于输出最终的特征向量,这样的特征在语义上是有区别的,并且在不同模态间是相似的。有效的提升了跨模态多标签超声图像检索的精度。
附图说明
图1是本发明一种基于胎儿先天性心脏病的超声图像—诊断报告跨模态检索框架;
图2是跨模态注意力层;
图3是超声图像文本标签关联示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
如图1所示,基于胎儿先心病超声图像—诊断报告的跨模态检索方法,包括:
1)对跨模态超声图像文本数据集进行预处理;跨模态超声图像文本数据的每个实例样本包含一个图像-文本对以及所对应的语义标签,利用分词工具对文本数据进行分词处理后得到的具有唯一性的词中,然后词向量通过CBOW模型进行训练;对文本数据进行分词保留出现频率5次以上的词,构成词典,并进行词向量训练,得到维度为300维的词向量;每张图像都被resize为一样的大小,并进行数据归一化处理;将标签信息转化为one-hot向量。跨模态超声医学数据集中的每一例样本包括超声图像文本对及其对应的one-hot向量。每个图像文本实例都被分配了一个one-hot向量
Figure BDA0003537112730000031
表示维度,其中c是类别数。如果第i个实例属于第j个类别,yij=1,否则yij=0,每个图像文本实例可以属于单个语义类别或多个语义类别。将图像样本定义为
Figure BDA0003537112730000032
文本样本定义为
Figure BDA0003537112730000033
和语义标签定义为
Figure BDA0003537112730000034
2)图1是本发明中设计的模型框架,该框架包括:图像特征提取网络,定义为:
Figure BDA0003537112730000035
其中v′i表示图像特征,θv表示图像模态子网络的可训练参数,d表示公共特征空间的维度,
Figure BDA0003537112730000036
表示第i个超声图像样本。该网络是在ImageNet数据集上预训练的ResNet模型,由卷积神经网络构成,通过卷积、池化、激活函数、全连接层,原始图像被输出为2048维的图像特征向量。文本特征提取网络,定义为:
Figure BDA0003537112730000037
其中ti′表示文本特征,θt为文本模态子网络的可训练参数,
Figure BDA0003537112730000038
表示第i个超声图像样本。词向量嵌入矩阵为N*300,N是词典大小。先通过预先构建的词典将文本转换为向量形式,向量中的每一个数字对应一个300维的词向量,通过词向量嵌入,将代表文本的向量转换为p×300的矩阵,其中p为文本的长度,然后将矩阵输入卷积神经网络,再经过一个2048维的全连接层得到文本特征向量。语义特征提取网络,定义为:
Figure BDA0003537112730000041
其中si′表示中间层的语义特征,yi表示语义标签对应的one-hot向量,θy为语义标签子网络的可训练参数,由2048和1024维的全连接层和Relu激活函数构成,代表语义标签的one-hot向量被输出为和图像(文本)特征维度相同的语义特征向量。图2所示为跨模态注意力模块,由1024维全连接层和Sigmoid激活函数构成,将之前得到的特征输入到跨模态注意力模块,通过全连接层和Sigmoid激活函数学习到特征权重,定义为:Mi(v)=fatt(vi′)Mi(t)=fatt(ti′)Mi(s)=fatt(si′)。Mi(v),Mi(t),Mi(s)分别表示跨模态注意力层提取出来的图像特征权重、文本特征权重和语义特征权重,取值范围为(0,1],fatt表示全连接映射层。然后权重与各模态特征相乘,得到各模态的注意力特征,然后作恒等映射之后得到各模态特征:Hi(v)=(1+Mi(v))·v′,Hi(t)=(1+Mi(t))·t′,Hi(s)=(1+Mi(s))·s′,其中v′,t′,s′分别表示特征提取网络提取的中间层图像、文本和语义特征,将Hi(v)、Hi(t)和Hi(s)输入一个参数共享的1024维的全连接层,输出图像特征、文本特征和语义特征vi、ti和si到一个公共的特征空间中;标签预测层,由c维的全连接层构成,c是数据集中的语义标签数量,图像特征vi、文本特征ti和语义特征si经过标签预测层P生成预测标签:Yv=P(V,θp),Yt=P(T,θp),Ys=P(S,θp),其中,
Figure BDA0003537112730000042
表示来自第k个图像模态的图像特征矩阵,
Figure BDA0003537112730000043
表示文本特征矩阵,
Figure BDA0003537112730000044
表示文本特征矩阵,Yv、Yt和Ys分别表示对应于V、T和S的预测标签矩阵。P是一个具有c个隐藏单元的全连接层,c是数据集的类别数。损失函数:其中损失函数包括特征空间中的对比中心损失,标签空间中的标签预测损失。
3)模型训练时,各模态的特征提取网络提取特征,并通过跨模态注意力模块得到最终的特征向量后,计算这一训练批次中每一类别的语义特征中心μj,然后计算跨模态对比中心损失L1,将各模态的特征输入标签预测层,得到预测标签Yv、Yt、Ys,然后同真实标签向量Y计算标签预测损失L2。结合L1和L2,同时在标签空间和语义空间添加约束,我们得到了该方法的目标函数为:L=L1+α•L2。其中,超参数α控制了这两项的贡献比重,通过反向传播,利用随机梯度下降的方法更新模型的参数,模型的精度评价指标是mAP分数。当模型参数收敛并且在测试数据上的检索精度达到最优时,保存此时的最优模型。
所述跨模态对比中心损失L1计算公式如下:
Figure BDA0003537112730000045
其中
Figure BDA0003537112730000046
表示第j个类别的语义特征中心,vi、ti分别表示低维公共特征空间中的图像特征表示和文本特征表示,nb表示小批量中的训练样本数,c表示语义类别的数量,yij=1表示第i个图像文本对属于第j个语义类别,δ是用来防止分母等于0的常数,vi,ti,si,分别表示第i个图像特征、文本特征和语义特征。
所述标签预测损失L2的计算公式如下:
Figure BDA0003537112730000051
其中Yv,Yt和Ys分别表示标签预测层输出的预测标签矩阵,
Figure BDA0003537112730000052
表示真实标签矩阵。
4)利用步骤3)中训练好的模型,将数据集中的图像和文本数据映射为低维特征向量,为下一步进行实值的跨模态检索作准备。
5)检索阶段。对于查询数据,首先按照步骤4)生成低维特征向量,然后计算该低维特征向量与其它模态数据的特征向量之间的欧式距离作为相似度,按相似度进行排序,返回满足条件的跨模态实例。
欧式距离的计算为:
Figure BDA0003537112730000053
xA,xB,yA,yB分别表示向量A和向量B的第一个维度和第二个维度的值。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于,包括以下步骤:
1)对跨模态超声图像文本数据集进行预处理,利用分词工具对医学文本进行分词,然后通过词袋模型训练词向量,将标签信息转化为one-hot向量,跨模态医学数据集中的每一例样本包括超声图像文本对及其对应的one-hot向量;
2)设置一模型,该模型包括图像特征提取网络、文本特征提取网络、语义特征提取网络、跨模态注意力模块、标签预测层、损失函数;
3)模型训练:利用特征提取网络,提取图像特征、文本特征和语义特征;将图像文本对以及代表语义标签的one-hot向量分别输入对应的特征提取网络,得到中间层的图像特征、文本特征和语义特征;将中间层的特征输入到跨模态注意力层,通过全连接层和Sigmoid激活函数学习到特征权重后各模态特征相乘,得到各模态的注意力特征,然后作恒等映射之后将各模态特征输入一个参数共享的全连接层,最终的特征向量输出到一个公共的特征空间;将得到的图像特征和文本特征分别同语义特征计算对比中心损失;将各模态的特征输入参数共享的标签预测层,生成预测标签后,分别与真实标签计算标签预测损失;利用特征空间中的对比中心损失和标签空间中的标签预测损失更新模型参数;当模型参数收敛时,保存最优的模型;
4)利用步骤3)中训练好的模型,将数据集中的图像和文本数据映射为低维特征向量;
5)对于查询数据,首先按照步骤4)生成低维特征向量,然后计算该低维特征向量与其它模态数据的特征向量之间的欧式距离作为相似度,按相似度进行排序,返回满足条件的跨模态实例。
2.根据权利要求1所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:所述步骤1)具体包括,跨模态超声图像文本数据的每个实例样本包含一个图像-文本对以及所对应的语义标签,对文本数据进行分词处理后得到的具有唯一性的词中,保留出现频率5次以上的词,构成词典,并进行词向量训练,得到词向量;每个图像-文本实例都被分配了一个语义标签,将其转化为one-hot向量
Figure FDA0003537112720000011
其中c是类别数,
Figure FDA0003537112720000012
表示向量维度,如果第i个实例属于第j个类别,yij=1,否则yij=0,每个图像文本实例可以属于单个语义类别或多个语义类别。
3.根据权利要求1所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:步骤2)中所述图像特征提取网络由卷积神经网络构成,通过卷积、池化、激活函数、全连接层,原始图像被输出为图像特征向量;
所述文本特征提取网络,先通过预先构建的词典将文本转换为向量形式,向量中的每一个数字对应一个300维的词向量,通过词向量嵌入,将代表文本的向量转换为p×300的矩阵,其中p为文本的长度,然后将矩阵输入卷积神经网络,得到文本特征向量;
所述语义特征提取网络,由全连接层和激活函数构成,代表语义标签的one-hot向量被输出为和图像或文本特征维度相同的语义特征向量;
所述跨模态注意力模块,由全连接层和Sigmoid激活函数构成,将之前得到的特征输入到跨模态注意力模块,通过全连接层和Sigmoid激活函数学习到特征权重后各模态特征相乘,得到各模态的注意力特征,然后作恒等映射之后将各模态特征输入一个参数共享的全连接层,输出最终的特征向量到一个公共的特征空间;
所述标签预测层,由全连接层构成,将图像特征、文本特征和语义特征映射为和标签向量相同维度的向量;
所述损失函数,包括特征空间中的对比中心损失,标签空间中的标签预测损失。
4.根据权利要求3所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:所述跨模态注意力模块的输出为:Hi(v)=(1+Mi(v))·v′,Hi(t)=(1+Mi(t))·t′,Hi(s)=(1+Mi(s))·s′,其中v′,t′,s′分别表示特征提取网络提取的中间层图像、文本和语义特征,Mi(v)、Mi(t)、Mi(s)代表跨模态注意力模块中学习到的特征权重,Hi(v)、Hi(t)、Hi(s)分别代表恒等映射后的图像、文本和语义特征。
5.根据权利要求1所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:所述步骤3)计算语义特征中心μj,然后计算跨模态对比中心损失L1,将各模态的特征输入标签预测层,得到预测标签Yv、Yt、Ys,然后同真实标签向量Y计算标签预测损失L2,结合L1和L2,同时在标签空间和语义空间添加约束,得到目标函数为:L=L1+α·L2,α为超参数。
6.根据权利要求5所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:所述跨模态对比中心损失L1计算公式如下:
Figure FDA0003537112720000021
其中
Figure FDA0003537112720000022
表示第j个类别的语义特征中心,uz表示第z个类别的语义特征中心,vi、ti分别表示低维公共特征空间中的图像特征表示和文本特征表示,nb表示小批量中的训练样本数,c表示语义类别的数量,yij=1表示第i个图像文本对属于第j个语义类别,δ是用来防止分母等于0的常数,vi,ti,si,分别表示第i个图像特征、文本特征和语义特征。
7.根据权利要求5所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:所述标签预测损失L2的计算公式如下:
Figure FDA0003537112720000023
其中Yv,Yt和Ys分别表示标签预测层输出的预测标签矩阵,
Figure FDA0003537112720000024
表示真实标签矩阵。
8.一种计算机可读存储介质,其存储有计算机程序,其特征在于:所述计算机程序被执行时,可实现权利要求1-7任一项所述的基于胎儿先心病超声图像—诊断报告的跨模态检索方法。
CN202210220551.3A 2022-03-08 2022-03-08 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 Pending CN114661933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210220551.3A CN114661933A (zh) 2022-03-08 2022-03-08 基于胎儿先心病超声图像—诊断报告的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210220551.3A CN114661933A (zh) 2022-03-08 2022-03-08 基于胎儿先心病超声图像—诊断报告的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN114661933A true CN114661933A (zh) 2022-06-24

Family

ID=82029184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210220551.3A Pending CN114661933A (zh) 2022-03-08 2022-03-08 基于胎儿先心病超声图像—诊断报告的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN114661933A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080699A (zh) * 2022-07-04 2022-09-20 福州大学 基于模态特异自适应缩放与注意力网络的跨模态检索方法
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN116383724A (zh) * 2023-02-16 2023-07-04 北京数美时代科技有限公司 一种单一领域标签向量提取方法、装置、电子设备及介质
CN117112829A (zh) * 2023-10-24 2023-11-24 吉林大学 医疗数据跨模态检索方法、装置和相关设备
CN117153343A (zh) * 2023-08-16 2023-12-01 丽水瑞联医疗科技有限公司 一种胎盘多尺度分析系统
WO2024001104A1 (zh) * 2022-06-30 2024-01-04 苏州元脑智能科技有限公司 一种图文数据互检方法、装置、设备及可读存储介质
CN118115501A (zh) * 2024-04-30 2024-05-31 成都泰特润博检测技术有限公司 基于工业ct成像的数据分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN113010720A (zh) * 2021-02-24 2021-06-22 华侨大学 一种基于关键对象特征的深度监督跨模态检索方法
CN113139512A (zh) * 2021-05-14 2021-07-20 辽宁工程技术大学 基于残差和注意力的深度网络高光谱影像分类方法
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN113010720A (zh) * 2021-02-24 2021-06-22 华侨大学 一种基于关键对象特征的深度监督跨模态检索方法
CN113139512A (zh) * 2021-05-14 2021-07-20 辽宁工程技术大学 基于残差和注意力的深度网络高光谱影像分类方法
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANGHYUK CHUN等: "Probabilistic Embeddings for Cross-Modal Retrieval", 《 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 2 November 2021 (2021-11-02), pages 1 - 18 *
刘慧婷等: "融合全模态自编码器和生成对抗机制的跨模态检索", 《 计算机辅助设计与图形学学报 》, vol. 33, no. 10, 3 September 2021 (2021-09-03), pages 1486 - 1494 *
王鼎杰: "面向医学影像的深度跨模态检索方法研究", 《万方数据》, 6 July 2023 (2023-07-06), pages 1 - 79 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024001104A1 (zh) * 2022-06-30 2024-01-04 苏州元脑智能科技有限公司 一种图文数据互检方法、装置、设备及可读存储介质
CN115080699A (zh) * 2022-07-04 2022-09-20 福州大学 基于模态特异自适应缩放与注意力网络的跨模态检索方法
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN115171838B (zh) * 2022-08-24 2023-04-07 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN116383724A (zh) * 2023-02-16 2023-07-04 北京数美时代科技有限公司 一种单一领域标签向量提取方法、装置、电子设备及介质
CN116383724B (zh) * 2023-02-16 2023-12-05 北京数美时代科技有限公司 一种单一领域标签向量提取方法、装置、电子设备及介质
CN117153343A (zh) * 2023-08-16 2023-12-01 丽水瑞联医疗科技有限公司 一种胎盘多尺度分析系统
CN117153343B (zh) * 2023-08-16 2024-04-05 丽水瑞联医疗科技有限公司 一种胎盘多尺度分析系统
CN117112829A (zh) * 2023-10-24 2023-11-24 吉林大学 医疗数据跨模态检索方法、装置和相关设备
CN117112829B (zh) * 2023-10-24 2024-02-02 吉林大学 医疗数据跨模态检索方法、装置和相关设备
CN118115501A (zh) * 2024-04-30 2024-05-31 成都泰特润博检测技术有限公司 基于工业ct成像的数据分析方法及系统
CN118115501B (zh) * 2024-04-30 2024-07-02 成都泰特润博检测技术有限公司 基于工业ct成像的数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN114661933A (zh) 基于胎儿先心病超声图像—诊断报告的跨模态检索方法
CN112905822B (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
CN110263160B (zh) 一种计算机问答系统中的问句分类方法
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN112015868B (zh) 基于知识图谱补全的问答方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112632972A (zh) 一种电网设备故障报告内故障信息的快速提取方法
CN109902714B (zh) 一种基于多图正则化深度哈希的多模态医学图像检索方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111145913B (zh) 基于多重注意力模型的分类方法、装置及设备
CN114936623A (zh) 一种融合多模态数据的方面级情感分析方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN113239153B (zh) 一种基于实例遮掩的文本与图像互检索方法
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法
CN114398935A (zh) 一种基于深度学习的医学影像报告多标签分类方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN113987188B (zh) 一种短文本分类方法、装置及电子设备
Mohammadi et al. On parameter tuning in meta-learning for computer vision
CN113987175B (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
Ngueilbaye et al. SDLER: stacked dedupe learning for entity resolution in big data era
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN114764865A (zh) 数据分类模型训练方法、数据分类方法和装置
CN117113214A (zh) 一种基于语义和胶囊网络的旋转机械故障智能诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240719

Address after: 1003, Building A, Zhiyun Industrial Park, No. 13 Huaxing Road, Henglang Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Applicant after: Shenzhen Wanzhida Technology Transfer Center Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TA01 Transfer of patent application right