CN117496126B

CN117496126B - 基于关键词的影像自动定位系统及方法

Info

Publication number: CN117496126B
Application number: CN202311504980.4A
Authority: CN
Inventors: 胡利荣; 伍华樑; 张跃华; 尤堃
Original assignee: Zhejiang Feitu Imaging Technology Co ltd
Current assignee: Zhejiang Feitu Imaging Technology Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-04-30
Anticipated expiration: 2043-11-13
Also published as: CN117496126A

Abstract

公开了一种基于关键词的影像自动定位系统及方法。其首先获取目标医学影像和定位关键词，接着，对所述定位关键词进行文本预处理以得到定位关键词嵌入向量，然后，对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列，最后，基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果。这样，可以结合深度学习模型来学习关键词与目标医学影像中局部区域的关联度，并以此来实现定位。

Description

基于关键词的影像自动定位系统及方法

技术领域

本申请涉及影像自动定位领域，且更为具体地，涉及一种基于关键词的影像自动定位系统及方法。

背景技术

医学影像是一种利用各种成像技术来显示人体内部结构和功能的图像，它在临床诊断和治疗中发挥着重要的作用。然而，医学影像的数量和复杂度也给医生带来了巨大的挑战，如何快速准确地从海量的影像数据中找到感兴趣的区域，是一项亟待解决的问题。

目前，医学影像的定位主要依赖于人工标注或者基于规则的方法，这些方法存在以下缺点：一是人工标注费时费力，且容易出现主观偏差和不一致性；二是基于规则的方法需要预先定义明确的定位标准和流程，且难以适应不同类型和来源的影像数据；三是这些方法都不能直接利用医生的自然语言描述来进行定位，而这是医生最常用和最直观的方式。

因此，期待一种优化的影像自动定位方法。

发明内容

有鉴于此，本申请提出了一种基于关键词的影像自动定位系统及方法，其可以根据医生输入的关键词来自动定位目标医学影像中的感兴趣区域，无需人工标注或者预定义规则，具体地，结合深度学习模型来学习关键词与目标医学影像中局部区域的关联度，以此来实现定位。

根据本申请的一方面，提供了一种基于关键词的影像自动定位方法，其包括：

获取目标医学影像和定位关键词；

对所述定位关键词进行文本预处理以得到定位关键词嵌入向量；

对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列；以及

基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果。

根据本申请的另一方面，提供了一种基于关键词的影像自动定位系统，其包括：

数据获取模块，用于获取目标医学影像和定位关键词；

文本预处理模块，用于对所述定位关键词进行文本预处理以得到定位关键词嵌入向量；

语义分析模块，用于对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列；以及

定位结果确定模块，用于基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果。

根据本申请的实施例，其首先获取目标医学影像和定位关键词，接着，对所述定位关键词进行文本预处理以得到定位关键词嵌入向量，然后，对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列，最后，基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果。这样，可以结合深度学习模型来学习关键词与目标医学影像中局部区域的关联度，并以此来实现定位。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出根据本申请的实施例的基于关键词的影像自动定位方法的流程图。

图2示出根据本申请的实施例的基于关键词的影像自动定位方法的架构示意图。

图3示出根据本申请的实施例的基于关键词的影像自动定位方法的子步骤S130的流程图。

图4示出根据本申请的实施例的基于关键词的影像自动定位方法的子步骤S132的流程图。

图5示出根据本申请的实施例的基于关键词的影像自动定位方法的子步骤S140的流程图。

图6示出根据本申请的实施例的基于关键词的影像自动定位方法的子步骤S142的流程图。

图7示出根据本申请的实施例的基于关键词的影像自动定位系统的框图。

图8示出根据本申请的实施例的基于关键词的影像自动定位方法的应用场景图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

针对上述技术问题，本申请的技术构思是根据医生输入的关键词来自动定位目标医学影像中的感兴趣区域，无需人工标注或者预定义规则。具体来说，结合深度学习模型来学习关键词与目标医学影像中局部区域的关联度，以此来实现定位。

基于此，图1示出根据本申请的实施例的基于关键词的影像自动定位方法的流程图。图2示出根据本申请的实施例的基于关键词的影像自动定位方法的架构示意图。如图1和图2所示，根据本申请实施例的基于关键词的影像自动定位方法，包括步骤：S110，获取目标医学影像和定位关键词；S120，对所述定位关键词进行文本预处理以得到定位关键词嵌入向量；S130，对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列；以及，S140，基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果。

应可以理解，在步骤S110中，获取的目标医学影像是需要进行定位的影像，同时，还获取与目标医学影像相关的定位关键词，这些关键词可以用于指导后续的定位过程。在步骤S120中，定位关键词需要经过文本预处理的过程，以将其转换为定位关键词嵌入向量，文本预处理可以包括词干提取、停用词去除、词向量表示等技术，目的是将关键词表示为计算机能够理解和处理的向量形式。在步骤S130中，针对目标医学影像，进行区域图像语义分析，这可以包括使用计算机视觉技术，如目标检测、图像分割等方法，对医学影像中的不同区域进行分析和提取特征，这些特征可以表示为目标医学影像备选区域语义特征向量的序列。在步骤S140中，使用定位关键词嵌入向量和目标医学影像备选区域语义特征向量的序列进行定位结果的确定，可能采用的方法包括计算关键词与备选区域特征之间的相似度或匹配度，以及结合机器学习算法进行定位结果的预测和优化。通过以上步骤的组合，基于关键词的影像自动定位方法可以实现从获取医学影像和定位关键词到最终确定定位结果的自动化过程，这个方法可以帮助医学影像领域的研究人员和医生更快速、准确地定位和分析影像中的目标区域。

具体地，在本申请的技术方案中，首先获取目标医学影像和定位关键词。这里，定位关键词是指能够描述目标区域的特征或位置的词语，它应当具备明确的语义，即能够清楚地表达目标区域的特征或位置，同时它应当具备一定的区分度，即能够区别于其他非目标区域。

然后，将所述定位关键词通过词嵌入层以得到定位关键词嵌入向量。也就是，通过词嵌入层可以将所述定位关键词转化为连续的向量表示。也就是说，词嵌入技术（WordEmbedding）可以将单词映射到一个连续向量空间中，以表达所述定位关键词的语义信息。

相应地，在步骤S120中，对所述定位关键词进行文本预处理以得到定位关键词嵌入向量，包括：将所述定位关键词通过词嵌入层以得到所述定位关键词嵌入向量。

值得一提的是，词嵌入层（Word Embedding Layer）是深度学习中一种常用的技术，用于将离散的词语表示转化为连续的向量表示，它是自然语言处理（NLP）领域中的一项重要技术，用于捕捉词语之间的语义关系和上下文信息。词嵌入层的作用是将单词映射到一个低维的连续向量空间中，使得语义相似的词在向量空间中的距离也较近。通过这种方式，词嵌入层可以将词语的语义信息编码为向量表示，从而在后续的模型训练和处理中更好地捕捉单词的语义关系。词嵌入层的主要优点包括：1.降低维度：将高维的离散词语表示转化为低维的连续向量表示，减少了特征空间的维度，提高了计算效率。2.语义信息编码：通过学习词语之间的语义关系，词嵌入层可以将语义相似的词在向量空间中彼此靠近，从而更好地表示词语的语义信息。3.泛化能力：词嵌入层可以通过学习大规模语料库中的词语上下文信息，提取出词语之间的共性和一般性特征，具有一定的泛化能力。在基于关键词的影像自动定位方法中，通过词嵌入层将定位关键词转化为连续的向量表示，可以更好地表达定位关键词的语义信息。这样，定位关键词嵌入向量可以与目标医学影像备选区域语义特征向量的序列进行匹配和相似度计算，进而用于确定定位结果。词嵌入层的使用可以提高定位关键词的表示能力，从而增强了定位方法的准确性和效果。

接着，对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列。也就是，对所述目标医学影像进行基于局部区域的语义分析与语义理解，以捕捉所述目标医学影像的局部区域语义特征信息。这里，每个目标医学影像的局部区域可能对应着一部分关键区域，对其进行语义分析与语义理解可以学习到每个局部区域的细节和语义信息，以使得模型能够了解每个局部区域的内容。

在本申请的一个具体示例中，如图3所示，在步骤S130中，对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列的编码过程，包括：S131，对所述目标医学影像进行区域划分以得到目标医学影像备选区域的序列；以及，S132，将所述目标医学影像备选区域的序列通过包含嵌入层的ViT模型以得到所述目标医学影像备选区域语义特征向量的序列。

应可以理解，在步骤S131中，目标医学影像需要进行区域划分，将影像分割成多个区域，区域划分可以使用计算机视觉技术，如图像分割算法，将医学影像中的不同区域进行划分和提取，划分后的区域可以表示为一个序列，每个元素代表一个备选区域。在步骤S132中，将目标医学影像备选区域的序列输入到一个包含嵌入层的视觉转换器（VisionTransformer，ViT）模型中。ViT模型是一种基于自注意力机制的深度学习模型，用于对图像进行特征提取和编码，通过ViT模型，每个备选区域可以被转换为一个语义特征向量，表示该区域的语义信息。通过以上两个步骤的组合，可以得到目标医学影像备选区域语义特征向量的序列。这些特征向量可以用于后续的定位结果确定步骤，例如与定位关键词嵌入向量进行相似度计算或匹配，从而确定最终的定位结果。这样的编码过程可以帮助系统更好地理解和表示目标医学影像中不同区域的语义信息，提高定位方法的准确性和效果。

这里，ViT（Vision Transformer）是一种基于自注意力机制的视觉处理模型，它可以将图像中的局部特征映射到语义特征空间中。ViT模型具有较强的表达能力，能够学习到图像中不同区域之间的语义关系。

值得一提的是，ViT（Vision Transformer）是一种基于自注意力机制的视觉处理模型，传统的卷积神经网络（Convolutional Neural Networks，CNN）在图像处理领域取得了巨大成功，但它们通常使用卷积层来处理图像的局部特征。相比之下，ViT模型采用了完全不同的方法，它将图像分割成一系列的图像块，并将这些块作为序列输入到Transformer模型中进行处理。Transformer模型最初是用于自然语言处理（Natural LanguageProcessing，NLP）任务，通过自注意力机制实现了对序列数据的建模。ViT模型将Transformer模型应用于图像领域，通过自注意力机制来捕捉图像中不同区域之间的语义关系。在ViT模型中，输入的图像被分割成一系列的图像块，每个图像块被展平并作为序列的一部分输入到Transformer模型中。Transformer模型通过自注意力机制和全连接层对图像块序列进行处理，学习到图像中不同区域之间的语义关系，并将其映射到语义特征空间中。通过使用ViT模型，可以将图像中的局部特征映射到语义特征空间中，从而实现对图像的全局理解和语义编码。ViT模型具有较强的表达能力和泛化能力，在图像分类、目标检测、图像生成等视觉任务中取得了很好的性能。换言之，ViT模型是一种基于自注意力机制的视觉处理模型，通过将图像分割成图像块序列，并使用Transformer模型进行处理，实现对图像的语义编码和全局理解。

具体地，如图4所示，在步骤S132中，将所述目标医学影像备选区域的序列通过包含嵌入层的ViT模型以得到所述目标医学影像备选区域语义特征向量的序列，包括：S1321，使用所述ViT模型的嵌入层分别对所述目标医学影像备选区域的序列中各个目标医学影像备选区域进行嵌入编码以得到目标医学影像备选区域嵌入向量的序列；以及，S1322，将所述目标医学影像备选区域嵌入向量的序列输入所述ViT模型的转换器模块以得到所述目标医学影像备选区域语义特征向量的序列。

应可以理解，在步骤S1321中，将目标医学影像备选区域的序列输入到ViT模型的嵌入层中，嵌入层是ViT模型的一部分，它将输入序列中的每个元素（即备选区域）转换为对应的嵌入向量，嵌入向量是连续的向量表示，用于捕捉备选区域的语义信息和特征。通过使用ViT模型的嵌入层，可以将每个目标医学影像备选区域转换为对应的嵌入向量，形成一个嵌入向量的序列。在步骤S1322中，将目标医学影像备选区域嵌入向量的序列输入到ViT模型的转换器模块中，转换器模块是ViT模型的核心部分，它通过自注意力机制和全连接层对输入序列进行处理和转换。通过使用ViT模型的转换器模块，可以对目标医学影像备选区域嵌入向量的序列进行进一步的特征提取和编码，学习到备选区域之间的语义关系和特征表示。输出的序列即为目标医学影像备选区域语义特征向量的序列，每个特征向量表示一个备选区域的语义信息。通过以上两个步骤的组合，可以将目标医学影像备选区域的序列转换为对应的语义特征向量的序列。这些语义特征向量可以用于后续的定位结果确定步骤，例如与定位关键词嵌入向量进行相似度计算或匹配，从而确定最终的定位结果。这样的编码过程可以帮助系统更好地理解和表示目标医学影像中不同区域的语义信息，提高定位方法的准确性和效果。

更具体地，在步骤S1322中，将所述目标医学影像备选区域嵌入向量的序列输入所述ViT模型的转换器模块以得到所述目标医学影像备选区域语义特征向量的序列，包括：将所述目标医学影像备选区域嵌入向量的序列进行一维排列以得到全局目标医学影像备选区域特征向量；计算所述全局目标医学影像备选区域特征向量与所述目标医学影像备选区域嵌入向量的序列中各个目标医学影像备选区域嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述目标医学影像备选区域嵌入向量的序列中各个目标医学影像备选区域嵌入向量进行加权以得到所述目标医学影像备选区域语义特征向量的序列。

进一步地，分别计算所述定位关键词嵌入向量与所述目标医学影像备选区域语义特征向量的序列中的各个目标医学影像备选区域语义特征向量之间的语义匹配矩阵以得到多个备选语义匹配矩阵。也就是，将所述定位关键词嵌入向量所表达的定位关键词的语义信息与所述目标医学影像各个局部区域所表达的图像语义信息进行关联与匹配。通过这样的方式来衡量所述目标医学影像各个局部区域与所述定位关键词之间的匹配程度。

继而，将所述多个备选语义匹配矩阵通过分类器以得到多个概率值；并返回所述多个概率值中最大概率值对应的目标医学影像备选区域作为定位结果。这里，每个备选语义匹配矩阵表示了定位关键词与对应备选区域语义特征向量之间的匹配程度。通过分类器来比较和量化不同备选语义匹配矩阵中相应位置与定位关键词之间的匹配度，以选择匹配度最高的备选区域作为最终的定位结果。

相应地，如图5所示，在步骤S140中，基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果，包括：S141，分别计算所述定位关键词嵌入向量与所述目标医学影像备选区域语义特征向量的序列中的各个目标医学影像备选区域语义特征向量之间的语义匹配矩阵以得到多个备选语义匹配矩阵；以及，S142，利用分类器来对所述多个备选语义匹配矩阵进行匹配与分类以得到所述定位结果。

应可以理解，在一个示例中，在步骤S141中，首先计算定位关键词嵌入向量与目标医学影像备选区域语义特征向量序列中的每个备选区域语义特征向量之间的语义相似度或距离，这可以通过计算它们之间的余弦相似度、欧氏距离或其他相似度度量方法来实现。通过计算语义匹配矩阵，可以得到一个备选语义匹配矩阵，其中每个元素表示定位关键词嵌入向量与对应备选区域语义特征向量之间的语义匹配程度。这个备选语义匹配矩阵可以提供备选区域与定位关键词之间的语义相关性信息，用于后续的匹配与分类。在步骤S142中，使用分类器对多个备选语义匹配矩阵进行匹配与分类，以确定最终的定位结果。分类器可以是传统的机器学习分类器，如支持向量机（Support Vector Machine，SVM）或随机森林（Random Forest），也可以是深度学习模型，如卷积神经网络（Convolutional NeuralNetwork，CNN）或递归神经网络（Recurrent Neural Network，RNN）。通过训练分类器，可以将备选语义匹配矩阵与对应的定位结果进行关联，从而实现对定位结果的预测和分类。分类器可以根据备选语义匹配矩阵中的语义匹配程度，判断每个备选区域与定位关键词之间的匹配程度，并将其分类为相应的定位结果。通过以上两个步骤的组合，可以利用定位关键词嵌入向量和目标医学影像备选区域语义特征向量的序列，计算语义匹配矩阵并利用分类器进行匹配与分类，从而确定最终的定位结果。这个过程可以帮助系统根据备选区域的语义信息和与定位关键词的匹配程度，确定最可能的定位结果，提高定位方法的准确性和效果。

其中，如图6所示，在步骤S142中，利用分类器来对所述多个备选语义匹配矩阵进行匹配与分类以得到所述定位结果，包括：S1421，对所述多个备选语义匹配矩阵进行特征分布校正以得到多个校正后备选语义匹配矩阵；S1422，将所述多个校正后备选语义匹配矩阵通过所述分类器以得到多个概率值；以及，S1423，返回所述多个概率值中最大概率值对应的目标医学影像备选区域作为所述定位结果。

应可以理解，在步骤S1421中，对多个备选语义匹配矩阵进行特征分布校正，以消除不同备选语义匹配矩阵之间的特征分布差异，这样做的目的是为了使不同备选语义匹配矩阵之间的特征分布更加一致，从而减少由于特征分布差异引起的分类偏差。通过对多个备选语义匹配矩阵进行特征分布校正，可以得到多个校正后备选语义匹配矩阵，使它们的特征分布更加一致。在步骤S1422中，将多个校正后备选语义匹配矩阵输入到分类器中进行分类，分类器会根据输入的备选语义匹配矩阵的特征，判断其与定位关键词之间的语义相关性，并输出相应的概率值。通过分类器，可以将多个校正后备选语义匹配矩阵转化为对应的概率值，表示备选区域与定位关键词匹配的可能性。在步骤S1423中，从多个概率值中选择具有最大概率值的备选区域作为最终的定位结果，最大概率值对应的备选区域被认为是与定位关键词最相关的备选区域，因此将其作为定位结果返回。通过选择具有最大概率值的备选区域作为定位结果，可以确定定位关键词在目标医学影像中最有可能出现的位置，从而实现准确的定位。

在本申请的技术方案中，所述定位关键词嵌入向量表达所述定位关键词的源文本语义，而所述目标医学影像备选区域语义特征向量的序列中的各个目标医学影像备选区域语义特征向量表达所述目标医学影像基于图像源语义全局空间下的各个局部空间源图像语义上下文关联的局部空间域图像语义特征，这样，计算所述定位关键词嵌入向量与所述目标医学影像备选区域语义特征向量之间的逐位置语义关联匹配得到的所述备选语义匹配矩阵除了跨模态关联语义表示之外，还具有跨图像语义空间尺度的特征表示和源域-特征域跨域特征表示。

因此，考虑到所述备选语义匹配矩阵的这种多维度关联语义特征分布之间的差异性，会导致所述备选语义匹配矩阵的与维度子集相关的关联语义特征分布的分布稀疏化，从而导致将所述备选语义匹配矩阵通过分类器进行类概率回归映射时，所述备选语义匹配矩阵的各个特征值的回归概率的概率密度分布的收敛性差，影响通过分类器得到的概率值的准确性。因此，优选地，对所述备选语义匹配矩阵的各个特征值进行优化。

相应地，在一个示例中，对所述多个备选语义匹配矩阵进行特征分布校正以得到多个校正后备选语义匹配矩阵，包括：以如下校正公式对所述多个备选语义匹配矩阵进行特征分布校正以得到所述多个校正后备选语义匹配矩阵；其中，所述校正公式为：其中，/>是所述多个备选语义匹配矩阵，/>和/>是所述多个备选语义匹配矩阵/>的第/>和第/>个特征值，且/>是所述多个备选语义匹配矩阵/>的全局特征均值，/>表示数值的指数运算，所述数值的指数运算表示计算以所述数值为幂的自然指数函数值，/>是所述多个校正后备选语义匹配矩阵的第/>个特征值。

具体地，针对所述备选语义匹配矩阵在高维特征空间内的稀疏分布导致的概率空间内概率密度分布的局部概率密度不匹配，通过正则化全局自洽类编码，来模仿所述备选语义匹配矩阵/>的高维特征在概率空间内的编码行为的全局自洽关系，以调整在高维开放空间域内的特征流形的误差景观，实现所述备选语义匹配矩阵/>的高维特征对显式概率空间嵌入的自洽匹配式类编码，从而提升所述备选语义匹配矩阵/>的回归概率的概率密度分布的收敛性，改进其通过分类器得到的概率值的准确性。

综上，基于本申请实施例的基于关键词的影像自动定位方法，其根据医生输入的关键词来自动定位目标医学影像中的感兴趣区域，无需人工标注或者预定义规则，具体地，结合深度学习模型来学习关键词与目标医学影像中局部区域的关联度，以此来实现定位。

图7示出根据本申请的实施例的基于关键词的影像自动定位系统100的框图。如图7所示，根据本申请实施例的基于关键词的影像自动定位系统100，包括：数据获取模块110，用于获取目标医学影像和定位关键词；文本预处理模块120，用于对所述定位关键词进行文本预处理以得到定位关键词嵌入向量；语义分析模块130，用于对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列；以及，定位结果确定模块140，用于基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果。

在一种可能的实现方式中，所述文本预处理模块120，用于：将所述定位关键词通过词嵌入层以得到所述定位关键词嵌入向量。

在一种可能的实现方式中，所述语义分析模块130，包括：区域划分单元，用于对所述目标医学影像进行区域划分以得到目标医学影像备选区域的序列；以及，嵌入编码单元，用于将所述目标医学影像备选区域的序列通过包含嵌入层的ViT模型以得到所述目标医学影像备选区域语义特征向量的序列。

这里，本领域技术人员可以理解，上述基于关键词的影像自动定位系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的基于关键词的影像自动定位方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的基于关键词的影像自动定位系统100可以实现在各种无线终端中，例如具有基于关键词的影像自动定位算法的服务器等。在一种可能的实现方式中，根据本申请实施例的基于关键词的影像自动定位系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该基于关键词的影像自动定位系统100可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该基于关键词的影像自动定位系统100同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该基于关键词的影像自动定位系统100与该无线终端也可以是分立的设备，并且该基于关键词的影像自动定位系统100可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

图8示出根据本申请的实施例的基于关键词的影像自动定位方法的应用场景图。如图8所示，在该应用场景中，首先，获取目标医学影像和定位关键词（例如，图8中所示意的D），然后，将所述目标医学影像和所述定位关键词输入至部署有基于关键词的影像自动定位算法的服务器（例如，图8中所示意的S）中，其中，所述服务器能够使用所述基于关键词的影像自动定位算法对所述目标医学影像和所述定位关键词进行处理以得到定位结果。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于关键词的影像自动定位方法，其特征在于，包括：

获取目标医学影像和定位关键词；

基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果；

其中，对所述定位关键词进行文本预处理以得到定位关键词嵌入向量，包括：

将所述定位关键词通过词嵌入层以得到所述定位关键词嵌入向量；

其中，对所述目标医学影像进行区域图像语义分析以得到目标医学影像备选区域语义特征向量的序列，包括：

对所述目标医学影像进行区域划分以得到目标医学影像备选区域的序列；以及

将所述目标医学影像备选区域的序列通过包含嵌入层的ViT模型以得到所述目标医学影像备选区域语义特征向量的序列；

其中，将所述目标医学影像备选区域的序列通过包含嵌入层的ViT模型以得到所述目标医学影像备选区域语义特征向量的序列，包括：

使用所述ViT模型的嵌入层分别对所述目标医学影像备选区域的序列中各个目标医学影像备选区域进行嵌入编码以得到目标医学影像备选区域嵌入向量的序列；以及

将所述目标医学影像备选区域嵌入向量的序列输入所述ViT模型的转换器模块以得到所述目标医学影像备选区域语义特征向量的序列；

其中，将所述目标医学影像备选区域嵌入向量的序列输入所述ViT模型的转换器模块以得到所述目标医学影像备选区域语义特征向量的序列，包括：

将所述目标医学影像备选区域嵌入向量的序列进行一维排列以得到全局目标医学影像备选区域特征向量；

计算所述全局目标医学影像备选区域特征向量与所述目标医学影像备选区域嵌入向量的序列中各个目标医学影像备选区域嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；

分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；

将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及

分别以所述多个概率值中各个概率值作为权重对所述目标医学影像备选区域嵌入向量的序列中各个目标医学影像备选区域嵌入向量进行加权以得到所述目标医学影像备选区域语义特征向量的序列；

其中，基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果，包括：

分别计算所述定位关键词嵌入向量与所述目标医学影像备选区域语义特征向量的序列中的各个目标医学影像备选区域语义特征向量之间的语义匹配矩阵以得到多个备选语义匹配矩阵；以及

利用分类器来对所述多个备选语义匹配矩阵进行匹配与分类以得到所述定位结果。

2.根据权利要求1所述的基于关键词的影像自动定位方法，其特征在于，利用分类器来对所述多个备选语义匹配矩阵进行匹配与分类以得到所述定位结果，包括：

对所述多个备选语义匹配矩阵进行特征分布校正以得到多个校正后备选语义匹配矩阵；

将所述多个校正后备选语义匹配矩阵通过所述分类器以得到多个概率值；以及

返回所述多个概率值中最大概率值对应的目标医学影像备选区域作为所述定位结果。

3.一种基于关键词的影像自动定位系统，其特征在于，包括：

数据获取模块，用于获取目标医学影像和定位关键词；

定位结果确定模块，用于基于所述定位关键词嵌入向量和所述目标医学影像备选区域语义特征向量的序列，确定定位结果；

其中，所述文本预处理模块，用于：

其中，所述语义分析模块，包括：

区域划分单元，用于对所述目标医学影像进行区域划分以得到目标医学影像备选区域的序列；以及

嵌入编码单元，用于将所述目标医学影像备选区域的序列通过包含嵌入层的ViT模型以得到所述目标医学影像备选区域语义特征向量的序列；