CN115082426A

CN115082426A - 一种基于深度学习模型的卵泡检测方法及装置

Info

Publication number: CN115082426A
Application number: CN202210850786.0A
Authority: CN
Inventors: 李明磊; 刘文平; 朱晓波; 刘行军; 彭瑞卿; 郑路
Original assignee: HUBEI UNIVERSITY OF ECONOMICS
Current assignee: HUBEI UNIVERSITY OF ECONOMICS
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-20
Anticipated expiration: 2042-07-20
Also published as: CN115082426B

Abstract

本发明公开了一种基于深度学习模型的卵泡检测方法及装置，属于医学图像数据处理领域。本发明通过将待检查对象的卵巢三维超声图像、电子病历文本和检验报告输入至训练好的深度学习模型，所述深度学习模型分别提取向量化后电子病历文本的文本特征、预处理后三维超声图像的图像特征、二值化后检验报告的特征，并对提取到的三类特征进行融合，得到多源异构数据特征图，最终能够自动识别出三维超声图像中所有卵泡的位置和大小信息。本发明不仅使用三维超声图像，还充分利用检查对象的电子病历和检验结果等信息，对三维超声图像中的卵泡进行目标检测，能够提高对卵泡检测的准确率。

Description

一种基于深度学习模型的卵泡检测方法及装置

技术领域

本发明属于医学图像数据处理领域，更具体地，涉及一种基于深度学习模型的卵泡检测方法及装置。

背景技术

在超促排卵过程中会有多卵泡发育，临床医生需要根据这些卵泡的生长情况，从而确定准确的取卵时间。目前在临床上，主要由超声医生对卵巢超声图像中的卵泡进行检测，卵泡检测的准确性取决于超声医生的经验和工作状态，受主观影响比较大。经验丰富的超声医生能够快速判断分析出卵泡的数目和大小，而经验不足的超声医生难以快速准确地给出分析结果，甚至会得出错误的结果，给临床医生带来误导。在现实中，一方面，一个患者在一个超促排卵周期中需要做7-10次的卵泡监测，形成了大量的卵泡检测任务；另一方面，经验丰富的超声医生比较稀缺，使得超声医生的工作压力很大。因此，借助于人工智能深度学习等技术，辅助超声医生对超声图像进行处理，自动对卵巢的三维超声图像进行卵泡识别，标注出卵泡的位置和大小等信息，从而能够显著降低超声医生的工作强度和普遍提高超声医生分析判断的准确率，在临床实际应用中具有重大意义。

目前，利用人工智能深度学习方法对医学超声图像进行分析是一个研究热点，但是对卵巢三维超声图像进行卵泡检测的研究比较少见。因此，针对卵巢三维超声图像进行卵泡检测，以及如何融合多源异构数据提高卵泡检测的准确率，还需要进一步研究。

发明内容

针对现有技术的缺陷，本发明提供了一种基于深度学习模型的卵泡检测方法及装置，目的在于提高卵泡检测的准确率。

为实现上述目的，第一方面，本发明提供了一种基于深度学习模型的卵泡检测装置，包括：输入模块，用于将检查对象的卵巢三维超声图像、电子病历文本和检验报告输入至训练好的深度学习模型，得到该三维超声图像中卵泡的数量及各卵泡的位置和大小；所述深度学习模型包括：数据预处理模块、特征提取模块、备选区域框生成模块和卵泡检测模块；所述数据预处理模块，用于向量化电子病历文本，将三维超声图像进行预处理，以提高图像质量，二值化检验报告中各项检验结果；所述特征提取模块，用于提取向量化后电子病历文本的文本特征，提取预处理后三维超声图像的图像特征，提取二值化后检验报告的特征，对提取到的三类特征进行融合和尺寸统一，得到多源异构数据特征图；所述备选区域框生成模块，用于生成不同尺寸、不同长宽高比的多个锚框，并且使用卷积神经网络判断各锚框内是否可能存在检测目标及其位置和大小，从而筛选出若干备选区域框；所述卵泡检测模块，用于针对备选区域框生成模块的备选区域框进行处理，提取卵泡所在的详细区域框，并判断该区域框内是否为卵泡，输出卵泡的位置和大小。

优选地，所述特征提取模块中用于提取三维超声图像特征的子模块包括：卷积层块、第一残差块、第二残差块、第三残差块、第四残差块、第一视觉转换器、第二视觉转换器、第三视觉转换器、第四视觉转换器；所述卷积层块和第一残差块串联，用于从预处理后三维超声图像中提取浅层特征；所述第一视觉转换器，用于从第一残差块的输出中提取局部特征；所述第二残差块，用于从第一残差块的输出中提取三维超声图像的中浅层特征；所述第二视觉转换器，用于从第二残差块的输出与第一视觉转换器的输出的拼接结果中，提取三维超声图像的中浅层特征的局部特征；所述第三残差块，用于从第二残差块的输出中提取三维超声图像的中层特征；所述第三视觉转换器，用于从第三残差块的输出与第二视觉转换器的输出的拼接结果中，提取三维超声图像的中层特征的局部特征；所述第四残差块，用于从第三残差块的输出中提取三维超声图像的深层特征；所述第四视觉转换器，用于从第四残差块的输出与第三视觉转换器的输出的拼接结果中，提取三维超声图像的包含全局信息和局部信息的深层特征。

需要说明的是，本发明提出一种新的网络模型，用于提取预处理后三维超声图像的图像特征。相对于传统基于深度学习的目标检测模型中提取图像特征的主干网络采用的卷积深度学习网络，主要提取图像的全局特征信息，忽略了超声图像的局部特征；本发明将ResNet和ViT相结合，ResNet更关注于超声图像的全局特征，ViT更关注超声图像的局部特征，两者相结合，使得该主干网络能够同时注意到三维超声图像的全局信息和局部信息，最终获得更优的图像特征，有助于准确地对卵泡进行检测。

优选地，所述视觉转换器包括：切片模块，用于将所对应的残差块输出的特征图进行三维切片，并记录每个切片的顺序；迭代模块，用于三维切片归一化处理后输入到多头注意力机制和多层感知机中，反复这个过程，从而获得当前三维超声图像的局部信息。

优选地，所述特征提取模块通过注意力方法提取到的三类特征进行融合和尺寸统一，获得多源异构数据特征图：

其中，

为多源异构数据特征图；

为尺寸统一函数；

为注意力方法函数；

为连接函数，

为三维超声图像的图像特征，

为电子病历文本的文本特征，

为检验报告的特征。

需要说明的是，本发明优选注意力方法对提取到的三类特征进行融合，引入注意力机制，有助于深入发现和提取有利于卵泡检测的特征，从而有效提高对三维超声图像中卵泡检测的准确率。

优选地，所述备选区域框生成模块生成不同长宽高比的多个锚框，长宽高比分别为1:1:1、1:1:1.2、1:1.2:1、1.2:1:1、1.2:1.2:1、1.2:1:1.2和1:1.2:1.2。

需要说明的是，针对卵泡的形态大多为球形或椭圆体，本发明优选七种不同长宽高比的锚框，更好贴合卵泡的各种形状，可以提高卵泡检测的准确率。

优选地，所述特征提取模块使用Bert网络提取向量化后电子病历文本的文本特征，使用MLP提取二值化后检验报告的特征。

优选地，所述卵泡检测模块使用DBSCAN聚类方法在备选区域框中生成待检测目标的区域。

需要说明的是，针对卵巢三维超声图像无遮挡特性，本发明优选DBSCAN聚类方法在备选区域框中生成卵泡的边界，该方法能够针对不同尺寸的卵泡获得准确的边界框，从而进一步提高卵泡检测的准确率。

优选地，以标注的卵巢三维超声图像中卵泡的位置和大小作为深度学习模型的训练标签；采用两阶段的训练方式来训练整个网络：首先以备选区域框生成模块所生成的锚框是否包含检测目标的分类损失和备选区域框生成模块输出锚框的位置的回归损失为损失函数训练特征提取模块和备选区域框生成模块的网络参数；然后固定特征提取模块和备选区域框生成模块的网络参数，以卵泡检测模块获得的卵泡的分类损失、和卵泡检测模块获得卵泡位置的回归损失为损失函数训练卵泡检测模块的网络参数，最终完成整个深度学习模型的训练。

为实现上述目的，第二方面，本发明提供了一种基于深度学习模型的卵泡检测方法，包括：将检查对象的卵巢三维超声图像、电子病历文本和检验报告输入至训练好的深度学习模型，得到该三维超声图像中卵泡的数量及各卵泡的位置和大小；所述深度学习模型包括：数据预处理模块、特征提取模块、备选区域框生成模块和卵泡检测模块；所述数据预处理模块，用于向量化电子病历文本，将三维超声图像进行预处理，以提高图像质量，二值化检验报告中各项检验结果；所述特征提取模块，用于提取向量化后电子病历文本的文本特征，提取预处理后三维超声图像的图像特征，提取二值化后检验报告的特征，对提取到的三类特征进行融合和尺寸统一，得到多源异构数据特征图；所述备选区域框生成模块，用于生成不同尺寸、不同长宽高比的多个锚框，并且使用卷积神经网络判断各锚框内是否可能存在检测目标及其位置和大小，从而筛选出若干备选区域框；所述卵泡检测模块，用于针对备选区域框生成模块的备选区域框进行处理，提取卵泡所在的详细区域框，并判断该区域框内是否为卵泡，输出卵泡的位置和大小。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提出一种基于深度学习模型的卵泡检测方法和装置，传统的目标检测方法主要依赖于待检测的图像，本发明通过将待检查对象的卵巢三维超声图像、电子病历文本和检验报告输入至训练好的深度学习模型，所述深度学习模型分别提取向量化后电子病历文本的文本特征、预处理后三维超声图像的图像特征、二值化后检验报告的特征，并对提取到的三类特征进行融合，得到多源异构数据特征图，最终能够自动识别出三维超声图像中所有卵泡的位置和大小信息，不仅使用三维超声图像，还充分利用检查对象的电子病历和检验结果等信息，对三维超声图像中的卵泡进行目标检测，能够提高对卵泡检测的准确率。

附图说明

图1为本发明提供的深度学习模型的网络结构图。

图2为本发明提供的特征提取模块结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于深度学习模型的卵泡检测方法，包括以下步骤：将检查对象的卵巢三维超声图像、电子病历文本和检验结果输入至训练完毕的深度学习模型中，获得该超声图像中卵泡的数目、以及每个卵泡的位置和大小，从而能够辅助生成卵泡检查的报告内容。

图1为本发明提供的深度学习模型的网络结构图。如图1所示，深度学习网络模型包括：数据预处理模块、特征提取模块、备选区域框生成模块和卵泡检测模块。特征提取模块的输出端连接备选区域框生成模块和卵泡检测模块，备选区域框生成模块的输出端也连接卵泡检测模块。

数据预处理模块，用于对卵巢三维超声图像、电子病历文本和检验结果等输入数据进行预处理。

特征提取模块，用于在三维超声图像、电子病历文本和检验结果中分别获取超声图像特征、电子病历文本特征和检验结果特征；并对三维超声图像特征、电子病历文本特征和检验结果特征进行融合，构成特征提取模块的输出。

备选区域框生成模块，用于生成锚框（Anchors），并判断Anchors是否存在检测物体，以及Anchors的位置和大小等信息，选择符合要求的Anchors作为备选区域框输入卵泡检测模块。

卵泡检测模块，用于针对备选区域框生成模块的备选区域框进行处理，提取卵泡所在的详细区域框，并判断该区域框内是否为卵泡，输出卵泡的位置和大小。

优选地，训练深度学习模型的方法，包括以下步骤：

收集检查对象的卵巢三维超声图像、相关电子病历文本和检验结果作为训练深度学习模型的原始数据，根据相关专家的判断对三维超声图像中卵泡和其他目标进行标注，这些标注信息包括：三维超声图像中包含卵泡及其他目标的数目和每个卵泡在三维超声图像中的位置和大小等信息。

对三维超声图像进行降噪、标准化等处理以提高三维超声图像的质量；将电子病历文本使用Word2Vec进行文本向量化；对检验结果根据每项结果是否在正常值范围内或者为阴性赋值为1或者0。

使用ResNet-ViT网络提取三维超声图像特征；使用Bert网络提取电子病历文本的特征；使用多层感知机MLP提取检验结果的特征。将以上三种类型的特征进行融合，形成提取特征图。

特征图输入备选区域框生成模块，备选区域框生成模块生成候选锚框（Anchors），并判断Anchors是否存在待检测物体，以及Anchors的位置和大小等信息。

以特征图和备选区域框生成模块中选出的Anchors为输入，卵泡检测模块对Anchors备选框进行处理，并输出所获得卵泡及其位置和大小。

以相关专家标注的卵巢三维超声图像中卵泡和其他目标的位置和大小作为模型的训练标签，首先以备选区域框生成模块所生成的锚框是否包含检测目标的分类损失和备选区域框生成模块输出锚框的位置的回归损失为损失函数训练特征提取模块和备选区域框生成模块的网络参数；然后固定特征提取模块和备选区域框生成模块的网络参数，以卵泡检测模块获得的卵泡的分类损失、和卵泡检测模块获得卵泡位置的回归损失为损失函数训练卵泡检测模块的网络参数，最终完成整个深度学习模型的训练。

优选地，电子病历文本特征的获取方法为：

使用临床医生对排卵期卵泡描述的相关知识构建语料库，使用中文分词工具jieba分词对语料库中的文本进行分词。

以分词的语料库训练Word2Vec模型。

采用训练完毕的所述Word2Vec模型对电子病历文本进行向量化。

使用Bert网络对向量化后的电子病历文本提取电子病历文本特征。

优选地，三维超声图像特征、电子病历文本特征和检验结果特征分别为：

其中，

为三维超声图像特征；

为电子病历文本特征；

为检验结果特征；

为三维超声图像；

为向量化后的电子病历文本；

为赋值为0或1的检验结果；

为ResNet-ViT网络函数；

为Bert网络函数；

为多层感知机MLP函数。

优选地，通过注意力方法将三维超声图像特征、电子病历文本特征和检验结果特征进行融合为综合特征：

其中，

为将三维超声图像特征、电子病历文本特征和检验结果特征进行融合后获得的特征图；

为重塑函数；

为注意力方法函数；

为连接函数。

优选地，将获得的Fea输入备选区域框生成模块，生成大量的锚框（Anchors），并判断Anchors是否存在检测物体，以及Anchors的位置和大小等信息，选择符合要求的Anchors作为备选区域框输入卵泡检测模块，卵泡检测模块则针对备选区域框生成模块的备选区域框进行处理，生成该卵巢三维超声图像中卵泡的位置和大小信息。

另一方面，本发明提供了一种基于深度学习模型的卵泡检测装置，包括：

数据预处理模块，用于对检查对象的三维超声图像、电子病历文本和检验结果进行预处理。

深度学习模型，用于接收预处理后的三维超声图像、电子病历文本和检验结果，生成该三维超声图像中包含卵泡的数目、以及每个卵泡的位置和大小。

其中，所述深度学习网络模型包括特征提取模块和卵泡检测模块，特征提取模块的输出端连接卵泡检测模块。

所述特征提取模块用于在三维超声图像、电子病历文本和检验结果中分别获取超声图像特征、电子病历文本特征和检验结果特征；对三维超声图像特征、电子病历文本特征和检验结果特征进行融合，对融合的特征进行变换生成特征图，作为备选区域框生成模块和卵泡检测模块的输入。

备选区域框生成模块用于生成待检测目标可能存在的备选区域框，卵泡检测模块用于基于备选区域生成卵泡所在的区域框，并判断对应区域框为是否为卵泡和该区域框的位置及大小信息。

优选地，训练深度学习模型的方法，包括以下步骤：

数据预处理模块收集三维超声图像、电子病历文本和检验结果作为训练深度学习模型的原始数据，以三维超声中卵泡的位置和大小信息作为训练深度学习模型的标签；对三维超声图像进行降噪、标准化等处理；将电子病历文本使用Word2Vec进行文本向量化；对检验结果根据每项结果是否在正常值范围内或者为阴性赋值为1或者0。

特征提取模块使用ResNet-ViT网络提取三维超声图像特征；使用Bert网络提取电子病历文本的特征；使用多层感知机MLP提取检验结果的特征；对生成的三类特征进行融合，并对融合的特征进行变换生成特征图，作为备选区域框生成模块和卵泡检测模块的输入。

备选区域框生成模块生成候选锚框（Anchors），并初步判断Anchors是否存在待检测物体，以及Anchors的位置和大小等信息；以特征图和备选区域框生成模块中选出的Anchors为输入，卵泡检测模块对Anchors备选框进行处理，提取出卵泡的具体位置，然后输出其是否为卵泡及卵泡的位置和大小。

优选地，电子病历文本特征的获取方法为：

以分词的语料库训练Word2Vec模型。

其中，

为三维超声图像特征；

为电子病历文本特征；

为检验结果特征；

为三维超声图像；

为向量化后的电子病历文本；

为赋值为0或1的检验结果；

为ResNet-ViT网络函数；

为Bert网络函数；

为多层感知机MLP函数。

其中，

为重塑函数；

为注意力方法函数；

为连接函数。

实施例

步骤一：收集检查对象的卵巢三维超声图像、相关电子病历文本和检验结果，根据相关专家的判断对三维超声图像中卵泡和其他目标进行标注，这些标注信息包括三维超声图像中包含卵泡及其他目标的数目和每个卵泡在三维超声图像中的位置和大小等信息；上述数据构成本实施例的训练数据集。

步骤二：对数据进行预处理。

针对检查对象的卵巢三维超声图像，进行降噪、增强、标准化等处理等预处理，以提高三维超声图像的质量；基于专家经验对卵巢三维超声图像中包含的卵泡、其他目标等物体进行标注，记录其位置和大小等信息。

针对电子病历文本数据，以图书“实用人类辅助生殖技术（黄荷凤著）”和“辅助生殖临床技术（周灿权，乔杰著）”作为语料库，使用中文分词工具jieba分词对图书中的文本进行分词，并将医学专有名词添加到jieba的词库中提高分词的准确性，以此语料训练针对妇科肿瘤的Word2Vec模型，然后使用训练完毕的Word2Vec对电子病历文本进行向量化。

针对检验结果，选取年龄（是否大于35岁），BMI（是否大于24），血清抑制素B（INHB），抗苗勒管激素（AMH），性激素6项（HCG、E2、P、T、LH、FSH），根据每项结果是否在正常值范围内或者为阴性赋值为1或者0。

步骤三：构建深度学习网络提取各类数据的特征。

使用ResNet-ViT网络提取卵巢三维超声图像的特征，ResNet-ViT网络主要有ResNet50和ViT两个子网络模块组成；ResNet50子网络是有一个卷积层块和四个残差网络块串联组成，依次被标注为卷积层块、残差块1、残差块2、残差块3、残差块4，此处ResNet50的卷积层和池化层均采用3维卷积和3维池化；ViT首先将ResNet50中残差块的输出进行3维切片，并记录每个切片的顺序，然后输入到transformer结构中，经过多头注意力机制和多层感知机输出ViT的结果，然后依次将ViT提取的结果串联起来，最终得到三维超声图像的特征。

使用Bert网络提取电子病历文本的特征，最终以长度为256的向量作为电子病历文本特征。

使用多层感知机MLP提取检验结果的特征，经过多个隐含层，输出一个长度为32的向量作为检验结果的特征。

具体为：定义经过步骤二预处理后获得的患者卵巢三维超声图像为X；经过步骤二特征向量化的电子病历文本数据向量为Y；经过步骤二预处理后的检验结果为Z；ResNet-ViT网络为

，Bert网络为

，多层感知机MLP为

，则各类数据类型的特征可以表示为：

其中，

为三维超声图像特征；

为电子病历文本特征；

为检验结果特征；

为三维超声图像；

为向量化后的电子病历文本；

为赋值为0或1的检验结果；

为ResNet-ViT网络函数；

为Bert网络函数；

为多层感知机MLP函数。

步骤四：将

、

和

进行融合，并使得特征融合后的尺寸和

保持一致。

将三维超声图像特征、电子病历文本特征和检验结果特征进行融合为综合特征：

其中，

为重塑函数；

为注意力方法函数；

为连接函数。

步骤五：备选区域框生成模块中设计3中不同的Anchors尺寸，分别为32³、64³和128³，长宽高比为1:1:1、1:1:1.2、1:1.2:1、1.2:1:1、1.2:1.2:1、1.2:1:1.2和1:1.2:1.2；然后使用卷积神经网络来判断Anchors是否包含拟检测的目标及其检测目标的位置和大小，并通过非极大值抑制（NMS）方法选择出包含待检测目标可能性最大的100个区域框；卵泡检测模块中使用DBSCAN聚类方法在备选区域框中生成卵泡的边界，然后使用卷积神经网络判断其是否为卵泡及卵泡的位置和大小。

步骤六：将步骤一获得的数据，经过步骤二预处理后输入步骤三、四和五所设计的融合深度学习网络模型进行训练，首先以备选区域框生成模块所生成的锚框是否包含检测目标的分类损失和备选区域框生成模块输出锚框的位置的回归损失为损失函数训练特征提取模块和备选区域框生成模块的网络参数；然后固定特征提取模块和备选区域框生成模块的网络参数，以卵泡检测模块获得的卵泡的分类损失、和卵泡检测模块获得卵泡位置的回归损失为损失函数训练卵泡检测模块的网络参数，最终完成整个深度学习模型的训练。

步骤七：在临床使用中，将检查对象的相关数据输入深度学习模型，即可获得其卵泡三维超声图像中卵泡的位置和大小。一方面，根据卵泡区域框的长宽高计算出卵泡的体积，获得不同尺寸卵泡的数目；另一方面，可以在卵巢三维超声图像中标出卵泡区域框，临床医生根据检查对象不同时间下卵巢三维超声图像，观察卵泡的变化情况。

综上所述，本发明与现有技术相比，具有以下优势：

本发明根据卵巢三维超声图像、电子病历和检验结果设计深度学习模型，对卵巢三维超声图像中的卵泡进行自动检测，相比于人工观察的方法，能够极大提高三维超声图像分析的效率和质量。

本发明设计了ResNet-ViT网络提取卵巢三维超声图像的特征，使用Bert和MLP分别提取电子病历文本和检验结果的特征，然后将这些特征融合在一起，完成对卵巢三维超声图像中卵泡的检测。本发明结合了多种数据信息，从而保证了对卵泡检测的准确性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习模型的卵泡检测装置，其特征在于，包括：

输入模块，用于将检查对象的卵巢三维超声图像、电子病历文本和检验报告输入至训练好的深度学习模型，得到该三维超声图像中卵泡的数量及各卵泡的位置和大小；

所述深度学习模型包括：数据预处理模块、特征提取模块、备选区域框生成模块和卵泡检测模块；

所述数据预处理模块，用于向量化电子病历文本，将三维超声图像进行预处理，以提高图像质量，二值化检验报告中各项检验结果；

所述特征提取模块，用于提取向量化后电子病历文本的文本特征，提取预处理后三维超声图像的图像特征，提取二值化后检验报告的特征，对提取到的三类特征进行融合和尺寸统一，得到多源异构数据特征图；

所述备选区域框生成模块，用于生成不同尺寸、不同长宽高比的多个锚框，并且使用卷积神经网络判断各锚框内是否可能存在检测目标及其位置和大小，从而筛选出若干备选区域框；

所述卵泡检测模块，用于针对备选区域框生成模块的备选区域框进行处理，提取卵泡所在的详细区域框，并判断该区域框内是否为卵泡，输出卵泡的位置和大小。

2.如权利要求1所述的装置，其特征在于，所述特征提取模块中用于提取三维超声图像特征的子模块包括：卷积层块、第一残差块、第二残差块、第三残差块、第四残差块、第一视觉转换器、第二视觉转换器、第三视觉转换器、第四视觉转换器；

所述卷积层块和第一残差块串联，用于从预处理后三维超声图像中提取浅层特征；

所述第一视觉转换器，用于从第一残差块的输出中提取局部特征；

所述第二残差块，用于从第一残差块的输出中提取三维超声图像的中浅层特征；

所述第二视觉转换器，用于从第二残差块的输出与第一视觉转换器的输出的拼接结果中，提取三维超声图像的中浅层特征的局部特征；

所述第三残差块，用于从第二残差块的输出中提取三维超声图像的中层特征；

所述第三视觉转换器，用于从第三残差块的输出与第二视觉转换器的输出的拼接结果中，提取三维超声图像的中层特征的局部特征；

所述第四残差块，用于从第三残差块的输出中提取三维超声图像的深层特征；

所述第四视觉转换器，用于从第四残差块的输出与第三视觉转换器的输出的拼接结果中，提取三维超声图像的包含全局信息和局部信息的深层特征。

3.如权利要求2所述的装置，其特征在于，所述视觉转换器包括：

切片模块，用于将所对应的残差块输出的特征图进行三维切片，并记录每个切片的顺序；

迭代模块，用于三维切片归一化处理后输入到多头注意力机制和多层感知机中，反复这个过程，从而获得当前三维超声图像的局部信息。

4.如权利要求1所述的装置，其特征在于，所述特征提取模块通过注意力方法提取到的三类特征进行融合和尺寸统一，获得多源异构数据特征图：

其中，

为多源异构数据特征图；

为尺寸统一函数；

为注意力方法函数；

为连接函数，

为三维超声图像的图像特征，

为电子病历文本的文本特征，

为检验报告的特征。

5.如权利要求1所述的装置，其特征在于，所述备选区域框生成模块生成不同长宽高比的多个锚框，长宽高比分别为1:1:1、1:1:1.2、1:1.2:1、1.2:1:1、1.2:1.2:1、1.2:1:1.2和1:1.2:1.2。

6.如权利要求1所述的装置，其特征在于，所述特征提取模块使用Bert网络提取向量化后电子病历文本的文本特征，使用MLP提取二值化后检验报告的特征。

7.如权利要求1所述的装置，其特征在于，所述卵泡检测模块使用DBSCAN聚类方法在备选区域框中生成待检测目标的区域。

8.如权利要求1所述的装置，其特征在于，以标注的卵巢三维超声图像中卵泡的位置和大小作为深度学习模型的训练标签；采用两阶段的训练方式来训练整个网络：

首先以备选区域框生成模块所生成的锚框是否包含检测目标的分类损失和备选区域框生成模块输出锚框的位置的回归损失为损失函数训练特征提取模块和备选区域框生成模块的网络参数；

然后固定特征提取模块和备选区域框生成模块的网络参数，以卵泡检测模块获得的卵泡的分类损失、和卵泡检测模块获得卵泡位置的回归损失为损失函数训练卵泡检测模块的网络参数，最终完成整个深度学习模型的训练。

9.一种基于深度学习模型的卵泡检测方法，其特征在于，包括：

将检查对象的卵巢三维超声图像、电子病历文本和检验报告输入至训练好的深度学习模型，得到该三维超声图像中卵泡的数量及各卵泡的位置和大小；

10.如权利要求9所述的方法，其特征在于，所述特征提取模块中用于提取三维超声图像特征的子模块包括：卷积层块、第一残差块、第二残差块、第三残差块、第四残差块、第一视觉转换器、第二视觉转换器、第三视觉转换器、第四视觉转换器；