CN114998607A

CN114998607A - 超声图像的特征提取方法、装置、电子设备及存储介质

Info

Publication number: CN114998607A
Application number: CN202210511777.9A
Authority: CN
Inventors: 马璐; 李小星; 丁佳; 吕晨翀
Original assignee: Beijing Yizhun Medical AI Co Ltd
Current assignee: Zhejiang Yizhun Intelligent Technology Co ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-09-02
Anticipated expiration: 2042-05-11
Also published as: CN114998607B

Abstract

本公开提供了超声图像的特征提取方法、装置、电子设备及存储介质，包括：通过图像特征编码器和文本特征编码器对超声图像和诊断报告进行特征提取，得到图像特征和文本特征；对超声图像和任意诊断报告，根据图像特征和文本特征确定该超声图像与诊断报告之间的第一余弦相似度，根据第一余弦相似度，得到全局损失；对超声图像和其匹配的诊断报告，根据图像特征和文本特征，确定各图像块之间的第二余弦相似度和各句子的第三余弦相似度，根据第二余弦相似度和第三余弦相似度得到图像局部损失和文本局部损失；根据全局损失、图像局部损失和文本局部损失优化图像特征编码器和文本特征编码器；通过优化后的图像特征编码器对待处理的超声图像进行特征提取。

Description

超声图像的特征提取方法、装置、电子设备及存储介质

技术领域

本公开涉及大数据技术领域，尤其涉及一种超声图像的特征提取方法、装置、电子设备及存储介质。

背景技术

在目前计算机视觉的医学应用中，基于超声图像或视频的任务(分类、分割、检测)中大都依赖大量的标注数据，不同的任务需要的标注数据的内容也不同，但是高质量的标注数据稀缺且获取成本高昂，利用人工进行数据标注，较为繁琐且质量不高，限制了深度学习在该领域的应用。

此外，在临床上有与超声图像对应的诊断报告，这类报告是临床实践中的例行报告，准确率很高，因此，这些诊断报告可以提供一个有价值的语义信息源，并且几乎不需要额外的成本。目前，对于超声图像的研究大多仅仅是基于超声图像本身的研究，造成了诊断报告中有价值信息的大量浪费。

发明内容

本公开提供了一种超声图像的特征提取方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种超声图像的特征提取方法，包括：获取多张超声图像和与所述超声图像匹配的诊断报告，并通过图像特征编码器对所述超声图像进行特征提取，得到图像特征，通过文本特征编码器对所述诊断报告进行特征提取，得到文本特征；对于所述超声图像和任意一个诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，并根据所述第一余弦相似度，得到全局损失；对于所述超声图像和与其匹配的诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，并根据所述第二余弦相似度得到图像局部损失，根据所述第三余弦相似度，得到文本局部损失；根据所述全局损失、图像局部损失和文本局部损失对所述图像特征编码器和所述文本特征编码器进行优化；通过优化后的所述图像特征编码器对待处理的超声图像进行特征提取。

根据本公开的第二方面，提供了一种超声图像的特征提取装置，包括：特征提取模块，用于获取多张超声图像和与所述超声图像匹配的诊断报告，并通过图像特征编码器对所述超声图像进行特征提取，得到图像特征，通过文本特征编码器对所述诊断报告进行特征提取，得到文本特征；全局匹配模块，用于对于所述超声图像和任意一个诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，并根据所述第一余弦相似度，得到全局损失；局部匹配模块，用于对于所述超声图像和与其匹配的诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，并根据所述第二余弦相似度得到图像局部损失，根据所述第三余弦相似度，得到文本局部损失；模型优化模块，用于根据所述全局损失、图像局部损失和文本局部损失对所述图像特征编码器和所述文本特征编码器进行优化；特征提取模块，还用于对待处理的超声图像进行特征提取。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的一种超声图像的特征提取方法、装置、电子设备及存储介质，通过将大量的超声图像和诊断报告放在一起进行匹配，提取其中超声图像和诊断报告的特征，无需标注数据即可得到大量超声图像和诊断报告中有价值的信息，并对待识别的超声图像进行特征提取，在不依赖标注数据的同时，还充分利用了无标注的超声图像和诊断报告的有用信息，为后续的分类或检测等任务注入大量的数据信息。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例一种超声图像的特征提取方法的实现流程示意图一；

图2示出了本公开实施例超声图像与诊断报告的示意图二；

图3示出了本公开实施例一种确定第一余弦相似度的实现流程示意图三；

图4示出了本公开实施例一种确定各图像块之间的第二余弦相似度的实现流程示意图四；

图5示出了本公开实施例一种确定各句子的第三余弦相似度的实现流程示意图五；

图6示出了本公开实施例一种确定图像局部损失和文本局部损失的实现流程示意图六；

图7示出了本公开实施例一种超声图像的特征提取装置的结构示意图七。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本发明一示例提供了一种超声图像的特征提取方法，实现流程如图1所示，包括：

步骤101，获取多张超声图像和与超声图像匹配的诊断报告，并通过图像特征编码器对超声图像进行特征提取，得到图像特征，通过文本特征编码器对诊断报告进行特征提取，得到文本特征。

首先，获取多张超声图像和与每张超声图像匹配的诊断报告，则诊断报告的数量与超声图像相同，那么，所有的超声图像组成超声图像数据集，所有的诊断报告组成诊断报告数据集。其中，可将超声图像与诊断报告两两组成样本对，例如有N个超声图像和N个诊断报告，共组成N×N个样本对。

如图2中左侧部分所示为超声图像的示意图，右侧部分所示为诊断报告的示意图，诊断报告包含有检查病灶的部位、患者年龄、病灶的属性(超声描述)和/或病灶BIRADS分级结论(超声提示)等等信息。

然后，分别对每个超声图像和每个诊断报告进行特征提取。通过图像特征编码器，对超声图像进行特征提取，得到图像特征。通过文本特征编码器，对诊断报告进行特征提取，得到文本特征。

在一可实施方式中，图像特征编码器采用残差网络ResNet50的网络结构，并用ImageNet中的大量图像对该残差网络ResNet50进行预训练。其中ImageNet为大型可视化数据库，含有大量图像数据。

在一可实施方式中，文本特征编码器采用语言模型BERT(Bidirectional EncoderRepresentations from Transformers)的网络结构。

步骤102，对于所述超声图像和任意一个诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，并根据所述第一余弦相似度，得到全局损失。

计算超声图像和任意一个诊断报告之间的第一余弦相似度，若超声图像和诊断报告两两组成了样本对，即上述的N×N个样本对，则计算每个样本对的第一余弦相似度。余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估它们之间的相似度。本公开示例中，通过计算超声图像的图像特征和诊断报告的文本特征之间的夹角余弦值来衡量超声图像和诊断报告之间的相似度。

该步骤中确定第一余弦相似度的确定过程由后续图3所示示例进行详细说明。

最后，根据第一余弦相似度，可得到全局损失。可通过如下公式计算全局损失Loss₁：

其中，N为获取的超声图像或诊断报告的数量；

表示第i个超声图像的图像全局特征；

表示第i个诊断报告的文本全局特征；

表示第j个超声图像的图像全局特征；

表示第j个诊断报告的文本全局特征；τ是温度超参数，可根据需要设定，例如τ＝0.2；α为超声图像的权重，例如α＝0.5，；

和

为第一余弦相似度；其中，第i个超声图像与第i个诊断报告匹配，即编号相同的超声图像和诊断报告为匹配的。

步骤103，对于超声图像和与其匹配的诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，并根据第二余弦相似度得到图像局部损失，根据第三余弦相似度，得到文本局部损失。

需要说明的是，该步骤中图像局部损失和文本局部损失的确定是基于由超声图像和与其匹配的诊断报告组成的样本对，而步骤102中全局损失的确定是基于所有样本对，其中包含了由超声图像和与其匹配的诊断报告组成的样本对。

对于超声图像和与其匹配的诊断报告：

首先，根据图像特征，得到该超声图像中各图像块的图像区域特征；根据文本特征，得到该诊断报告中各句子的文本句子特征。

在一可实施方式中，图像特征编码器后接有一个非线性层，图像特征通过该非线性层进行降维，得到超声图像中各图像块对应的图像区域特征。每个超声图像得到多个图像区域特征。

文本特征编码器后也接有一个非线性层，文本特征通过该非线性层进行降维，得到诊断报告中各句子对应的文本句子特征。每个诊断报告得到多个文本句子特征。

本公开中，对局部非线性层的结构不做具体限定，可以为包括一个1*1的卷积核、BN(Batch Normalization，批量归一化)和ReLU激活函数的卷积神经网络结构。ReLU激活函数为激活函数的一种，具有强大的非线性拟合能力。

然后，根据该超声图像的所有图像区域特征和该诊断报告的所有文本句子特征确定该超声图像中各图像块之间的第二余弦相似度；根据该超声图像的所有图像区域特征和所述句子的文本句子特征确定该句子的第三余弦相似度。

确定各图像块之间的第二余弦相似度的具体实现流程由后续图4示例进行详细说明。

确定各句子的第三余弦相似度的具体实现流程由后续图5示例进行详细说明。

之后，可根据所有超声图像的第二余弦相似度，得到图像局部损失，用Loss₂来表示，根据所有诊断报告的句子的第三余弦相似度，得到文本局部损失，用Loss₃来表示。

确定图像局部损失和文本局部损失的具体实现流程由后续图6示例进行详细说明。

步骤104，根据全局损失、图像局部损失和文本局部损失对图像特征编码器和文本特征编码器进行优化。

对上述计算得到的全局损失Loss₁、图像局部损失Loss₂和文本局部损失Loss₃，分别进行加权计算，得到总体损失Loss，具体的计算方法如下：

Loss＝aLoss₁+bLoss₂+cLoss₃

其中，权重a、b、c通过网格搜索的方法确定。

在一示例中，选取a＝1.0，b＝0.75，c＝0.75，那么

Loss＝1.0×Loss₁+0.75×Loss₂+0.75×Loss₃

当总体损失Loss值经过多轮迭代后无变化时，即总体损失Loss值趋于平稳，停止训练；否则，不断迭代训练(即重复执行步骤101-103)，对图像特征编码器和文本特征编码器的参数进行不断调节，同时，需要对多个模型的参数分别进行不断调节，包括：非线性层、下文中提到的池化层以及单头注意力机制等模型中的参数，直至总体损失Loss值趋于平稳。

当总体损失Loss趋于平稳时，可认为此时的图像特征编码器和文本特征编码器为最优，拥有了超声图像与诊断报告中的信息。

由于运用了全局损失与局部损失(图像局部损失和文本局部损失)的结合，使得优化后的图像特征编码器不仅能够学习到丰富的超声图像和诊断报告的信息，更不会导致模型的坍塌。

步骤105，通过优化后的图像特征编码器对待处理的超声图像进行特征提取。

将待处理的超声图像输入上述优化后的图像特征编码器，进行特征提取，得到待处理的超声图像的图像特征，该图像特征融合了大量超声图像和诊断报告的信息。

在一可实施方式中，上述优化后的图像特征编码器后，接入全连接层，构成分类模型。上述分类模型的全连接层经过标注有病灶等级的超声图像进行训练，对全连接层进行了优化，得到了一个优化后的分类模型。将待识别超声图像输入优化后的分类模型，经过优化后的超声图像编码器进行特征提取后，得到待识别超声图像的图像特征，之后，通过全连接层进行分类，得到待识别超声图像的分类结果，确定待识别超声图像中包含的病灶等级。

上述优化后的超声图像编码器，还可以接入解码器，对待识别超声图像进行分割。不需要利用大量的人工数据标注，更因结合了超声图像和诊断报告的信息，使得优化后的超声图像编码器后接入不同的任务层能更快更好地完成不同的下游任务。

在一示例中，根据步骤101-104，采用大量的乳腺超声图像和与其匹配的诊断报告进行训练，得到一个优化后的关于乳腺超声图像的图像特征编码器，在该优化后的图像特征编码器后接入全连接层，并对全连接层的参数进行微调，就可以得到一个关于乳腺的分类模型，用于识别乳腺超声图像中病灶的等级。在训练的过程中不需要依赖标注数据，并且充分利用了乳腺超声图像和诊断报告中所包含的信息，使图像特征编码器包含了更丰富的特征。乳腺超声图像的图像特征编码器后接入不同的任务层，可以用来识别病灶的类型，也可以用来预测病灶等级，还可以对乳腺超声图像进行不同部位的分割等等。

本公开一示例，上述步骤102中确定第一余弦相似度时，首先分别对所述图像特征和所述文本特征进行降维处理，得到所述超声图像的图像全局特征和所述诊断报告的文本全局特征；然后，根据所述图像全局特征和所述文本全局特征，确定所述超声图像与所述诊断报告之间的第一余弦相似度。具体实现过程，如图3所示，包括：

步骤301，分别对图像特征和文本特征通过池化层进行降维处理，得到超声图像的池化后的图像特征和诊断报告的池化后的文本特征。

对图像特征和文本特征分别进行池化处理，即通过池化层进行降维处理，可采用全局平均池化方法或者最大池化方法。

在一可实施方式中，池化层采用多头注意力机制的结构，多头注意力机制中存在多个注意力头，每个注意力头输出池化后的特征，将注意力头输出的池化后的特征进行加权融合，得到总的池化后的特征，并且注意力头之间相对独立，能有效防止过拟合现象的发生。

在一个示例中，所述图像特征的维度为d_y，每个注意力头的维度为g，多头注意力机制中注意力头的个数设为h，按照公式

计算得到注意力头的个数。例如，图像特征的维度d_y为512，每个注意力头的维度g为64，那么多头注意力机制中注意力头的个数

注意力头输出的池化后的图像特征用head_i来表示，其中i＝1，2，3，……h，表示第i个注意力头。则：

其中，y_image为超声图像的图像特征；d_y为所述图像特征y_image的维度；W^Q、W^K、W^V分别是维度为

的矩阵，用来学习图像特征y_image，并将图像特征y_image全局平均池化后映射到新的维度，T表示矩阵的转置；softMax表示归一化函数。

然后，将上述输出的h个head_i按照如下公式进行融合，得到超声图像的池化后的图像特征h_image：

h_image＝concat(head₁，...，head_h)W^O

其中，W^O是维度为d_y×d_y的可学习矩阵，可学习矩阵可以根据提取到的超声图像的图像特征进行不同的参数变换，concat表示将h个特征head_i进行加权融合。

通过以上同样操作，根据池化层，对所述诊断报告的文本特征进行池化，得到诊断报告的池化后的文本特征。

步骤302，分别对池化后的图像特征和池化后的文本特征通过非线性层进行降维处理，得到超声图像的图像全局特征和诊断报告的文本全局特征。

根据非线性层，超声图像的池化后的图像特征，进行降维处理，得到该超声图像的图像全局特征。对诊断报告的池化后的文本特征，进行降维处理，得到该诊断报告的文本全局特征。

本公开中，非线性层的具体结构本公开不做具体限定，可以为包括一个1*1的卷积核、BN和ReLU激活函数的卷积神经网络结构。

步骤303，根据图像全局特征和文本全局特征，确定超声图像与诊断报告之间的第一余弦相似度。

计算超声图像的图像全局特征与该诊断报告的文本全局特征之间夹角的余弦值，作为该超声图像的第一余弦相似度，如上述步骤102中所述，第一余弦相似度包括

和

其中，

表示图像全局特征，

表示文本全局特征。

本公开一示例，上述步骤103中根据图像区域特征和文本句子特征确定超声图像中各图像块之间的第二余弦相似度的过程，如图4所示，包括：

步骤401，根据图像块的图像区域特征和句子的文本句子特征，确定图像块与句子之间的第一关联度。

在一可实施方式中，上述非线性层对图像特征进行降维处理得到各图像块的图像区域特征、对文本特征进行降维处理得到各句子的文本句子特征之后，可通过一个注意力单元来确定图像块与句子之间的第一关联度，该注意力单元采用单头注意力机制。

假设，超声图像有v个图像块的图像区域特征，诊断报告有u个句子的文本句子特征。对于超声图像和与其匹配的诊断报告，将该超声图像的v个图像区域特征和诊断报告的u个文本句子特征输入上述注意力单元，使超声图像的一个图像块关注诊断报告的u个文本句子特征，计算该图像块和每个句子之间的第一关联度。

在一示例中，超声图像的图像块k与诊断报告中句子m之间的第一关联度

可通过如下公式进行计算：

其中，Q为可学习的投影矩阵，

表示图像块k的图像区域特征，

表示句子m的文本句子特征，T为矩阵的转置，d_zi为图像区域特征

的维度，softmax表示归一化函数。

按照上述公式计算得到超声图像的图像块k与诊断报告中每个句子之间的第一关联度。

步骤402，对诊断报告的所有文本句子特征进行加权计算，得到图像块的图像区域融合特征，文本句子特征的权重为对应的句子与该图像块之间的第一关联度。

对于超声图像中的任一图像块，对所有的文本句子特征进行加权计算，其中该图像块与句子之间的第一关联度作为该句子的文本句子特征的权重，得到超声图像中该图像块对应的图像区域融合特征。例如，按照如下公式计算图像块k的图像区域融合特征

其中，O和V为可学习的投影矩阵；u表示诊断报告中句子的数量；

表示图像块k与句子m之间的第一关联度；

表示句子m的文本句子特征。

根据上述公式，得到超声图像的所有图像块的图像区域融合特征。

步骤403，根据任意两个图像块各自的图像区域特征和图像区域融合特征，确定所述两个图像块之间的第二余弦相似度。

对于超声图像的任意两个图像块、记为图像块A和B，计算图像块A的图像区域特征与图像块B的图像区域融合特征之间夹角的余弦值，以及图像块A的图像区域融合特征与图像块B的图像区域特征之间夹角的余弦值，作为图像块A和B之间的第二余弦相似度，依次来衡量该两个图像块之间的相似性。

在一示例中，超声图像i中图像块k和图像块l之间的第二余弦相似度包括：

和

其中，

表示图像块k的图像区域特征，

表示图像块l的图像区域特征，

表示图像块k的图像区域融合特征，

表示图像块l的图像区域融合特征。

对于超声图像的各图像块执行上述步骤401-403，得到两两图像块之间的第二余弦相似度。

本公开一示例，上述步骤103中根据图像区域特征和句子的文本句子特征确定该句子的第三余弦相似度的过程，如图5所示，包括：

步骤501，根据句子的文本句子特征和图像块的图像区域特征，确定句子与图像块之间的第二关联度。

同上述得到句子与图像块之间的第一关联度相似，通过上述注意力单元，对于诊断报告和与其匹配的超声图像，诊断报告的一个句子关注各图像块的图像区域特征，计算该句子与每个图像块之间的的第二关联度。

在一示例中，对于诊断报告的句子m与图像块k的第二关联度

可通过如下公式进行计算：

其中，

表示句子m的文本句子特征，

表示图像块k的图像区域特征，Q为可学习的投影矩阵，T为矩阵的转置，d_zr为句子m的文本句子特征

的维度，softmax表示归一化函数。

按照上述公式，计算得到诊断报告的句子m与超声图像的各图像块之间的第二关联度。

步骤502，对超声图像的所有图像区域特征进行加权计算，得到句子的文本句子融合特征，所述图像区域特征的权重为对应的图像块与该句子之间的第二关联度。

对于诊断报告中的任一句子，对超声图像的各图像区域特征进行加权计算，该句子与图像块之间的第二关联度作为该图像块的图像区域特征的权重，得到诊断报告中该句子对应的文本句子融合特征。例如，按照如下公式计算句子m的文本句子融合特征

其中，O和V为可学习的投影矩阵；v表示超声图像中图像块的数量；

表示图像块k与句子m之间的第二关联度；

表示图像块k的图像区域特征。

根据上述公式，得到诊断报告的所有句子的图像区域融合特征。

步骤503，根据句子的文本句子特征和该句子的文本句子融合特征，确定句子的第三余弦相似度。

对于诊断报告中的一个句子，计算该句子的文本句子特征与该句子的文本句子融合特征之间夹角的余弦值，作为该句子的第三余弦相似度。

在一示例中，诊断报告中句子m的第三余弦相似度包括

和

其中

表示句子m的文本句子特征，

表示句子m的文本句子融合特征。

对于诊断报告的各句子执行上述步骤501-503，得到诊断报告中各句子的第三余弦相似度。

本公开一示例，上述步骤103中根据第二余弦相似度，得到图像局部损失，根据第三余弦相似度，得到文本局部损失的实现过程，如图6所示，包括：

步骤601，根据超声图像中两个图像块之间的距离，确定该两个图像块之间的相似度。

对于该超声图像中的每两个图像块，采用欧氏距离或者曼哈顿距离计算该两个图像块之间的距离，并将该两个图像块之间的距离进行归一化，得到该两个图像块之间的区域距离。

对于超声图像的任意两个图像块，基于该两个图像块之间的区域距离确定该两个图像块之间的相似度，用来表征该两个图像块的相似性。

由于超声图像中附近的区域通常是相似的，所以当两个图像块的区域距离越小时，这两个图像块之间的相似度越大。设定阈值T，当两个图像块之间的区域距离小于或者等于阈值T时，将这两个图像块之间的相似度设为1，当两个图像块的区域距离大于阈值T时，将这两个图像块的相似度设为0。

在一示例中，按照如下公式计算得到图像块k与图像块l的相似度

其中，图像块k与图像块l的区域距离为dist(k，l)，可设阈值T＝0.6。

步骤602，对所有超声图像的各图像块之间的第二余弦相似度进行加权计算，得到图像局部损失，其中，图像块之间的第二余弦相似度的权重为该两个图像块之间的相似度。

对于每个超声图像，将该超声图像的两图像块之间的相似度作为该两图像块之间的第二余弦相似度的权重，对所有超声图像的图像块之间的第二余弦相似度进行加权计算，得到图像局部损失。可按照如下公式计算图像局部损失Loss₂：

其中，N为获取的超声图像的数量，v为超声图像中的图像块个数；

为图像块k与图像块l之间的相似度，

表示第i个超声图像中图像块k的图像区域特征，

表示第i个超声图像中图像块l的图像区域融合特征，

表示第i个超声图像中图像块k′的图像区域融合特征，

表示第i个超声图像中图像块k的图像区域融合特征，

表示第i个超声图像中图像块l的图像区域特征，

表示第i个超声图像中图像块k′的图像区域特征，τ′同上是温度超参数，可根据需要设定，例如τ＝0.2。

步骤603，对所有诊断报告的所有句子的第三余弦相似度进行加和计算，得到文本局部损失。

对所有的诊断报告的所有句子的第三余弦相似度行加和计算，得到文本局部损失，可按照如下公式计算文本局部损失Loss₃：

其中，N为获取的诊断报告的数量，u为诊断报告的句子个数，

为第i个诊断报告中句子m的文本句子特征，

为第i个诊断报告中句子m的文本句子融合特征，

为第i个诊断报告中句子m′的文本句子融合特征，

为第i个诊断报告中句子m的文本句子融合特征，

为第i个诊断报告中句子m′的文本句子特征，τ′同上是温度超参数，可根据需要设定，例如τ＝0.2。

为了实现上述方法，本公开一示例提供了一种超声图像的特征提取装置，其结构示意图如图7所述，包括：

特征提取模块70，用于获取多张超声图像和与所述超声图像匹配的诊断报告，并通过图像特征编码器对所述超声图像进行特征提取，得到图像特征，通过文本特征编码器对所述诊断报告进行特征提取，得到文本特征。

全局匹配模块71，用于对于所述超声图像和任意一个诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，并根据所述第一余弦相似度，得到全局损失。

局部匹配模块72，用于对于所述超声图像和与其匹配的诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，并根据所述第二余弦相似度得到图像局部损失，根据所述第三余弦相似度，得到文本局部损失。

模型优化模块73，用于根据所述全局损失、图像局部损失和文本局部损失对所述图像特征编码器和所述文本特征编码器进行优化。

特征提取模块70，还用于通过优化后的所述图像特征编码器对待处理的超声图像进行特征提取。

根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，全局匹配模块71，还用于：

分别对所述图像特征和所述文本特征进行降维处理，得到所述超声图像的图像全局特征和所述诊断报告的文本全局特征；

根据所述图像全局特征和所述文本全局特征，确定所述超声图像与所述诊断报告之间的第一余弦相似度。

根据所述第一余弦相似度，得到全局损失，全局匹配模块71，还用于：通过如下公式计算全局损失Loss₁：

其中，N为获取的超声图像或诊断报告的数量；

表示第i个超声图像的图像全局特征；

表示第i个诊断报告的文本全局特征；

表示第j个超声图像的图像全局特征；

表示第j个诊断报告的文本全局特征；τ是温度超参数；α为超声图像的权重；

和

为第一余弦相似度；其中，第i个超声图像与第i个诊断报告匹配。

根据所述图像特征和所述文本特征，该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，局部匹配模块72，还用于：

根据所述图像特征得到所述超声图像中各图像块的图像区域特征；

根据所述文本特征得到所述诊断报告中各句子的文本句子特征；

根据所述超声图像的所有图像区域特征和所述诊断报告的所有文本句子特征确定所述超声图像中各图像块之间的第二余弦相似度；

根据所述超声图像的所有图像区域特征和所述句子的文本句子特征确定所述句子的第三余弦相似度。

根据所述超声图像的所有图像区域特征和所述诊断报告的所有文本句子特征确定所述超声图像中各图像块之间的第二余弦相似度，局部匹配模块72，还用于：

根据所述图像块的图像区域特征和所述句子的文本句子特征，确定所述图像块与所述句子之间的第一关联度；

对所述诊断报告的所有文本句子特征进行加权计算，得到所述图像块的图像区域融合特征，所述文本句子特征的权重为对应的句子与该图像块之间的第一关联度；

根据任意两个图像块各自的图像区域特征和图像区域融合特征，确定所述两个图像块之间的第二余弦相似度。

根据所述超声图像的所有图像区域特征和所述句子的文本句子特征确定所述句子的第三余弦相似度，局部匹配模块72，还用于：

根据所述句子的文本句子特征和所述图像块的图像区域特征，确定所述句子与所述图像块之间的第二关联度；

对所述超声图像的所有图像区域特征进行加权计算，得到所述句子的文本句子融合特征，所述图像区域特征的权重为对应的图像块与该句子之间的第二关联度；

根据所述句子的文本句子特征和该句子的文本句子融合特征，确定所述句子的第三余弦相似度。

根据所述第二余弦相似度得到图像局部损失，根据所述第三余弦相似度，得到文本局部损失，局部匹配模块72，还用于：

根据所述超声图像中两图像块之间的距离，确定所述超声图像中两图像块之间的相似度；对所有超声图像的各图像块之间的第二余弦相似度进行加权计算，得到图像局部损失，其中，所述图像块之间的第二余弦相似度的权重为该两个图像块之间的相似度；

对所有诊断报告的所有句子的第三余弦相似度进行加和计算，得到文本局部损失。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种超声图像的特征提取方法，其特征在于，所述方法包括：

获取多张超声图像和与所述超声图像匹配的诊断报告，并通过图像特征编码器对所述超声图像进行特征提取，得到图像特征，通过文本特征编码器对所述诊断报告进行特征提取，得到文本特征；

对于所述超声图像和任意一个诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，并根据所述第一余弦相似度，得到全局损失；

对于所述超声图像和与其匹配的诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，并根据所述第二余弦相似度得到图像局部损失，根据所述第三余弦相似度，得到文本局部损失；

根据所述全局损失、图像局部损失和文本局部损失对所述图像特征编码器和所述文本特征编码器进行优化；

通过优化后的所述图像特征编码器对待处理的超声图像进行特征提取。

2.根据权利要求1所述的方法，其特征在于，所述根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一余弦相似度，得到全局损失，包括：

通过如下公式计算全局损失Loss₁：

其中，N为获取的超声图像或诊断报告的数量；

表示第i个超声图像的图像全局特征；

表示第i个诊断报告的文本全局特征；

表示第j个超声图像的图像全局特征；

和

4.根据权利要求1所述的方法，其特征在于，所述根据该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述超声图像的所有图像区域特征和所述诊断报告的所有文本句子特征确定所述超声图像中各图像块之间的第二余弦相似度，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述超声图像的所有图像区域特征和所述句子的文本句子特征确定所述句子的第三余弦相似度，包括：

根据所述句子的文本句子特征和文本句子融合特征，确定所述句子的第三余弦相似度。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第二余弦相似度得到图像局部损失，根据所述第三余弦相似度，得到文本局部损失，包括：

根据所述超声图像中两个图像块之间的距离，确定该两个图像块之间的相似度；对所有超声图像的各图像块之间的第二余弦相似度进行加权计算，得到图像局部损失，其中，所述图像块之间的第二余弦相似度的权重为该两个图像块之间的相似度；

8.一种超声图像的特征提取装置，其特征在于，所述装置包括：

特征提取模块，用于获取多张超声图像和与所述超声图像匹配的诊断报告，并通过图像特征编码器对所述超声图像进行特征提取，得到图像特征，通过文本特征编码器对所述诊断报告进行特征提取，得到文本特征；

全局匹配模块，用于对于所述超声图像和任意一个诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征确定该超声图像与该诊断报告之间的第一余弦相似度，并根据所述第一余弦相似度，得到全局损失；

局部匹配模块，用于对于所述超声图像和与其匹配的诊断报告，根据该超声图像的图像特征和该诊断报告的文本特征，确定该超声图像中各图像块之间的第二余弦相似度以及该诊断报告中各句子的第三余弦相似度，并根据所述第二余弦相似度得到图像局部损失，根据所述第三余弦相似度，得到文本局部损失；

模型优化模块，用于根据所述全局损失、图像局部损失和文本局部损失对所述图像特征编码器和所述文本特征编码器进行优化；

特征提取模块，还用于通过优化后的所述图像特征编码器对待处理的超声图像进行特征提取。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。