CN115187530A - 超声自动乳腺全容积图像的识别方法、装置、终端及介质 - Google Patents
超声自动乳腺全容积图像的识别方法、装置、终端及介质 Download PDFInfo
- Publication number
- CN115187530A CN115187530A CN202210726680.XA CN202210726680A CN115187530A CN 115187530 A CN115187530 A CN 115187530A CN 202210726680 A CN202210726680 A CN 202210726680A CN 115187530 A CN115187530 A CN 115187530A
- Authority
- CN
- China
- Prior art keywords
- feature map
- attention
- transformer
- level
- volume image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30068—Mammography; Breast
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
Abstract
本发明公开了一种超声自动乳腺全容积图像的识别方法、装置、终端及介质,构建了用于提取局部信息的CNN网络分支和用于提取全局信息的Transformer网络分支,然后将同一超声自动乳腺全容积图像分别输入至两个网络分支,层级提取对应的特征图,并将两个分支提取的特征图结合上一层级输出的融合后特征图,通过空间和通道混合注意力机制进行融合,使得CNN网络分支的局部信息层级引导Transformer网络分支的全局信息,增强Transformer网络分支的特征提取能力。与现有技术相比,能够准确识别超声自动乳腺全容积图像中各种大小和形态的感兴趣区域。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及的是一种超声自动乳腺全容积图像的识别方法、装置、终端及存储介质。
背景技术
自动乳腺体积扫描仪(ABVS)目前被认为是一种最佳的、可以覆盖全乳腺组织的扫描工具。但是自动乳腺体积扫描仪输出的超声自动乳腺全容积图像尺寸很大,并且感兴趣区域较小,图像效果不清晰,通过人工阅片仍是一项极具挑战性的工作。该工作需要耗费大量的时间。
虽然已有使用深度学习方法来识别超声自动乳腺全容积图像以识别图像中的各个目标区域。但是现有的方法不能精准提取到图像中的有效信息,识别的准确率不高。
因此,现有技术有待改进和提高。
发明内容
本发明的主要目的在于提供一种超声自动乳腺全容积图像的识别方法、装置、智能终端及存储介质,能够将局部信息和全局信息有效融合,准确地对超声自动乳腺全容积图像中的感兴趣区域进行识别。
为了实现上述目的,本发明第一方面提供一种超声自动乳腺全容积图像的识别方法,所述方法包括:
将超声自动乳腺全容积图像分别输入CNN网络分支和Transformer网络分支,对每一个网络分支的层级输出采用3D卷积操作,获得多种尺度的CNN特征图和Transformer特征图;
依据特征图的尺度从小至大顺序,基于空间和通道混合注意力机制,将每一层级的CNN特征图与对应层级的Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图并逐层迭代直至获得最后层级的融合后特征图;
基于所述最后层级的融合后特征图,获得识别后的图像并输出。
可选的,所述基于空间和通道混合注意力机制,将CNN特征图与Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图,包括:
若当前层级为第一层级,将所述CNN特征图和所述Transformer特征图输入空间和通道混合注意力模型,获得第一注意力引导特征,将所述第一注意力引导特征设为所述当前层级的融合后特征图;
否则,
将所述CNN特征图和所述上一层级的融合后特征图输入空间和通道混合注意力模型,获得第二注意力引导特征;
将第二注意力引导特征与所述Transformer特征图融合,获得所述当前层级的融合后特征图。
可选的,所述空间和通道混合注意力模型包括空间注意力块和通道注意力块,将所述CNN特征图作为第一特征图,所述Transformer特征图或所述上一层级的融合后特征图作为第二特征图,将第一特征图和第二特征图输入空间和通道混合注意力模型,获得注意力引导特征,包括:
将所述第一特征图输入空间注意力块,进行最大池化和平均池化的级联输出,获得空间注意力图;
将所述第二特征图输入通道注意力块,进行最大池化和平均池化的并行输出并将输出结果相加,获得通道注意力图;
将所述第二特征图与所述通道注意力图和所述空间注意力图连乘,并与所述第一特征图进行加权相加,获得所述注意力引导特征。
可选的,所述Transformer网络分支包括Swin-Transformer块,所述Swin-Transformer块包括用于捕获更多全局信息的膨胀多头自注意力机制,所述膨胀多头自注意力机制与Swin-Transformer的窗口自注意力机制并行采样并将输出结果相加。
可选的,膨胀多头自注意力机制对特征图进行采样,包括:
对特征图进行区间采样,提取八个不同位置的特征;
根据窗口自注意机制处理提取的特征,输出采样结果。
可选的,获得识别后的图像并输出后,还包括:
获取乳头下阴影、肋骨阴影的空间位置关系和共同特征;
对所述空间位置关系和所述共同特征进行判定以去除乳头下阴影和肋骨阴影。
可选的,获得识别后的图像并输出后,还包括:
基于网络的分割概率,获得全局最大值;
对网络的分割概率进行划分,获得分割概率块;
获得每个所述分割概率块的局部最大值,当所述局部最大值与所述全局最大值的比值大于设定阈值时,筛选当前分割概率块的遍历点并加入遍历点集合中;
输出用于对识别结果进行分类的遍历点集合。
本发明第二方面提供一种超声自动乳腺全容积图像的识别装置,其中,上述装置包括:
层级特征图获取模块,用于将超声自动乳腺全容积图像分别输入CNN网络分支和Transformer网络分支,对每一个网络分支的层级输出采用3D卷积操作,获得多种尺度的CNN特征图和Transformer特征图;
融合后特征图获取模块,用于依据特征图的尺度从小至大顺序,基于空间和通道混合注意力机制,将每一层级的CNN特征图与对应层级的Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图并逐层迭代直至获得最后层级的融合后特征图;
识别结果获取模块,用于基于所述最后层级的融合后特征图,获得识别后的图像并输出。
本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的超声自动乳腺全容积图像的识别程序,上述超声自动乳腺全容积图像的识别程序被上述处理器执行时实现任意一项上述超声自动乳腺全容积图像的识别方法的步骤。
本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有超声自动乳腺全容积图像的识别程序,上述超声自动乳腺全容积图像的识别程序被处理器执行时实现任意一项上述超声自动乳腺全容积图像的识别方法的步骤。
由上可见,与现有技术相比,本发明构建了用于提取局部信息的CNN网络分支和用于提取全局信息的Transformer网络分支,然后将同一超声自动乳腺全容积图像分别输入至两个网络分支,层级提取对应的特征图,并将两个分支提取的特征图结合上一层级输出的融合后特征图,通过空间和通道混合注意力机制进行融合,使得CNN网络分支的局部信息层级引导Transformer网络分支的全局信息,增强Transformer网络分支的特征提取能力,从而准确识别超声自动乳腺全容积图像中的感兴趣区域。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的超声自动乳腺全容积图像的识别方法具体流程示意图;
图2是图1实施例中的双分支分割网络框架示意图;
图3是图1实施例的Transformer分支框架示意图;
图4是图1实施例的步骤S200具体流程示意图;
图5是图1实施例的空间和通道混合注意力机制示意图;
图6是肋骨阴影和乳头下阴影区域去除示意图;
图7是自适应阈值算法示意图;
图8是实验用的体素图像示意图;
图9是本发明实施例提供的超声自动乳腺全容积图像的识别装置的结构示意图;
图10是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于识别到”。类似的,短语“如果确定”或“如果识别到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦识别到[所描述的条件或事件]”或“响应于识别到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
自动乳腺体积扫描仪(ABVS)目前被认为是一种最佳的、可以覆盖全乳腺组织的扫描工具,该扫描仪处理完成后输出的图像即为超声自动乳腺全容积图像。但是由于图像尺寸大、不清晰,人工阅片仍然比较困难。
目前提出了许多基于深度学习的分割或检测方法,以自动读取超声自动乳腺全容积图像(ABVS图像)等医学图像。例如:循环神经网络(RNN)和卷积神经网络(CNN)被广泛用于ABUS(自动乳腺超声)图像的分割;使用双向长短时记忆(LSTM)作为RNN的变体,在自动乳腺超声(ABUS)中进行图像分割;UNet是使用CNN网络架构的最常见分割方法之一,也被应用于医学图像分割,然而,由于缺乏全局感受野,CNN网络通常表现不佳;Transformer网络通过探索用于医学图像分析的全局信息而吸引了越来越多研究人员的兴趣,然而,大多数Transformer网络通常与CNN网络串联或并联,在这些模型中,CNN网络仅用作Transformer网络的特征提取器,并不能有效地融合CNN和Transformer的功能,导致模型识别的准确率不高。
本发明提出了一种超声自动乳腺全容积图像的识别方法,使用了CNN和Transformer双分支分割网络来对ABVS图像进行识别,并将CNN网络分支提取的局部信息与Transformer网络分支提取的全局信息有效融合,提高图像分割识别的准确率。
示例性方法
如图1所示,本实施例的超声自动乳腺全容积图像的识别方法具体包括如下步骤:
步骤S100:将超声自动乳腺全容积图像分别输入CNN网络分支和Transformer网络分支,对每一个网络分支的层级输出采用3D卷积操作,获得多种尺度的CNN特征图和Transformer特征图;
具体地,如图2所示,本发明中的3D双分支分割网络架构,包括一个CNN网络分支和一个Transformer网络分支。其中,每个网络分支都为层级输出架构。将ABVS图像分别输入CNN网络分支和Transformer网络分支,能够获得多种尺度的CNN特征图和Transformer特征图。
如左边的Transformer网络分支依次输出五个维度的特征值(96、192、384、768、768)后经过反卷积块获得五个尺度的Transformer特征图;右边的CNN网络分支也对应依次输出五个维度的特征值(64、64、128、256、512)后经过反卷积块获得五个尺度的CNN特征图。其中反卷积块包括多个3D卷积层和一个3D转置卷积层。
步骤S200:依据特征图的尺度从小至大顺序,基于空间和通道混合注意力机制,将每一层级的CNN特征图与对应层级的Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图并逐层迭代直至获得最后层级的融合后特征图;
具体地,由于现有的网络模型不能有效地融合CNN和Transformer的功能,即不能实现CNN中提取的局部信息与Transformer中提取的全局信息的有效融合,导致提取到的特征不精准,不能实现ABVS图像中感兴趣区域的准确识别。
本发明通过在CNN网络分支与Transformer网络分支的每个层级输出之间采用空间和通道混合注意力机制作为全局信息和局部细节信息之间的桥梁以将局部信息和全局信息相融合,获得融合后特征图,并且将融合后特征图引入至下一层级以增强特征融合的效果。即依据特征图的尺度从小至大顺序,逐层迭代地进行融合。
其中,空间和通道混合注意力机制包括空间注意力块和通道注意力块,能够分别提取CNN特征图中的空间信息和Transformer特征图中的通道信息并将提取到的空间信息和通道信息进行融合,获得融合特征。
具体地,若当前层级为第一层级,即CNN特征图及Transformer特征图的尺度在此层级均为最小,直接将CNN特征图和Transformer特征图输入空间和通道混合注意力机制,获得注意力引导特征,然后对该注意力引导特征执行解码操作获得融合后特征图,并输入至下一层级的空间和通道混合注意力机制中。
若当前层级不是第一层级,则根据空间和通道混合注意力机制将该层级对应的CNN特征图和上一层级输入的融合后特征图进行融合,获得注意力引导特征;并将该注意力引导特征与该层级对应的Transformer特征图融合并执行上采样解码操作,获得当前层级的融合后特征图,并输入至下一层级的空间和通道混合注意力机制中。如此逐层地进行迭代,直至获得最后层级的融合后特征图。
通过本发明的空间和通道混合注意力机制和逐层地迭代,能够使得CNN的局部信息更好地引导Transformer提取ABVS图像的全局信息。
进一步地,在Transformer模型中自注意的计算复杂度与维度有关,为了降低计算复杂度,如图3所示,本发明中Transformer分支采用多个Swin-Transformer块。Swin-Transformer能够在保持全局信息的同时,利用窗口自注意和移位窗口操作来降低计算复杂度。并且,本发明的Transformer网络分支中,在最后两个阶段采用普通的自我关注。因为在这些阶段中,解决方案已降至可接受的水平。因此,采用普通的自我关注以提高计算效率并且在保持窗口大小不变的情况下,引入了扩展操作来捕获更多全局信息。
本发明还对Swin-Transformer块做了进一步改进,采用了用于捕获更多全局信息的膨胀多头自注意力机制(即DS-Transformer),将膨胀多头自注意力机制与窗口自注意力机制并行采样并将两个自注意机制的输出结果相加。
其中,膨胀多头自注意力机制对特征图进行采样的步骤包括:如图3所示,首先将特征图划分为八个不同的位置,对特征图进行区间采样,提取特征图中八个不同位置的特征;然后根据窗口内自注意机制处理提取到的特征,获得采样结果。采用该方法,意味着当窗口大小保持不变时,会包含更大的区域,即获得更大的感受野。
本发明中的自注意力计算表达式为:
其中Q、K、V分别为查询矩阵、键矩阵和值矩阵,d代表模型的维度。
步骤S300:基于最后层级的融合后特征图,获得识别后的图像并输出。
具体地,对最后层级输出的融合后特征图采用解码操作就可以获得识别后的图像并输出。如图2所示,该解码操作中包含多个3D卷积层。
由上所述,通过将同一超声自动乳腺全容积图像输入至两个网络分支,层级提取对应的特征图,并将两个分支提取的特征图结合上一层级输出的融合后特征图,通过空间和通道混合注意力机制进行融合,使得CNN网络分支的局部信息层级引导Transformer网络分支的全局信息,增强Transformer网络分支的特征提取能力,能够准确识别超声自动乳腺全容积图像中感兴趣区域。
在一个实施例中,如图4所示,上述步骤S200中获得注意力引导特征,具体包括如下步骤:
步骤S210:将第一特征图输入空间注意力块,进行最大池化和平均池化的级联输出,获得空间注意力图;
具体地,参考图5所示,第一特征图为CNN特征图(FC),空间注意力块(SA)中包括最大池化层和平均池化层,将第一特征图输入空间注意力块后,最大池化层和平均池化层的级联输出后再输入激活层,获得空间注意力图(Spatial map)。
步骤S220:将第二特征图输入通道注意力块,进行最大池化和平均池化的并行输出并将输出结果相加,获得通道注意力图;
具体地,参考图5所示,第二特征图(FT)可以是Transformer特征图(当前层级为第一层时)或上一层级输入的融合后特征图,通道注意力块(CA)中包括并联设置的最大池化层和平均池化层。将第二特征图输入通道注意力块后,获得最大池化和平均池化的并行输出并将输出结果相加,再输入激活层,获得通道注意力图。
步骤S230:将第二特征图与通道注意力图和空间注意力图连乘,并与第一特征图进行加权相加,获得注意力引导特征。
具体地,先将第二特征图(FT)与通道注意力图和空间注意力图连乘,再对获得的结果与第一特征图进行加权相加,就可以获得注意力引导特征。
获得注意力引导特征的具体表达式为:
其中,MS表示空间注意力图,MC表示通道注意力图,FC表示CNN特征图,FT表示Transformer特征图或上一层级输入的融合后特征图,FA表示注意力引导特征。是按元素求和,是串联运算,是元素相乘,σ是sigmoid函数。参数λ1和λ2来为特征的权重。
由上所示,空间注意力块块(SA)通过通道方式的最大池和平均池,使用本地细节细化SA映射;通道注意力块(CA)通过选择具有代表性的通道特征来生成通道图;然后将Transformer特征图或融合后特征图连续乘以通道注意力图和空间注意力图以融合详细信息,最后根据λ1和λ2的权重加和,获得注意力引导特征。通过提取CNN特征图中的空间信息和Transformer特征图中的通道信息并将提取到的空间信息和通道信息进行融合,将CNN分支的局部细节与Transformer分支的长期依赖性联系起来,获得更好的特征提取效果。
进一步地,在一个实施例中,获得识别后的图像并输出后,还可以对双分支分割网络获得识别后的图像做进一步的处理以进行区域检测。为了检测整个ABVS图像,类似于UNet,使用滑动窗口机制来推断。在检测过程中,对于窗口之间存在重叠的情况,使用高斯概率图来降低边界附近的预测概率。
经过实践得知,乳头下阴影和肋骨阴影可能会导致产生一些假阳性结果,因此,本实施例中通过图像识别模型获取到乳头下阴影、肋骨阴影的空间位置关系和共同特征;根据常用的乳头下阴影和肋骨阴影的空间位置关系和共同特征,从而对这些阴影区域进行判定以去除乳头下阴影和肋骨阴影。如图6所示,其中乳头阴影在输出图像中将会以圆形亮区伴随外圈环形亮区的形式存在,只需检测此类高亮区域即可判断为乳头顶点,并去除该区域下方的锥形高亮区域即可;而肋骨阴影的存在形式通常为斜向的长弧形亮区,有远远大于真实肿块的斜向长径,因此去除该形态的高亮区域实现肋骨阴影的去除。
进一步地,由于边界区域附近的分割概率会降低,因此使用固定的较大值作为阈值将缩小边界的范围,反之使用固定的较小阈值会增加假阳性率。为了提高检测的召回率,设计了一种充分考虑全局和局部区域的自适应阈值算法,将根据该自适应阈值算法获得的阈值使用在局部范围区域增长算法中。如图7所示,该自适应阈值算法具体步骤包括:首先根据输入的网络的分割概率获得全局最大值;再对网络的分割概率进行划分获得分割概率块;在每个分割概率块中循环,获得每个分割概率块的局部最大值,当局部最大值与全局最大值的比值大于设定阈值时,筛选当前分割概率块的遍历点并加入遍历点集合中;所有的分割概率块循环完毕后,获得用于对识别结果进行分类的遍历点集合。
由上所述,对获得的识别后的图像经过上述处理,可以降低假阳性率,同时提高灵敏度。
本发明中的双分支分割模型使用的损失函数融合了两类损失函数:二元交叉熵损失(BCELoss)和Dice损失。其中,二元交叉熵损失用于像素级的分类,将像素点分为前景类和背景类别;Dice损失则对正负样本严重不平衡的场景有不错的性能,对于本发明中图像存在的前景背景面积差距很大的情况,将两者联合使用可以提高图像的识别精度。损失函数表达式为:
以下采用数据集对本发明的超声自动乳腺全容积图像的识别方法的识别效果和准确性进行验证:
如图8所示,从医院收集了149个带标签的体素图像,包括185个目标区域,执行三次样条插值,将图像的体素间隔调整为[0.5,0.5,0.5]。插值前的分辨率和插值后的分辨率分别为[318,409~604,682~734]和[636,39~119,304]。由于体积庞大,每个体积随机裁剪成(128×48×128)进行训练。此外,对于额外的数据预处理和数据扩充,采用了nnUNet的方法,如旋转、翻转和缩放。并使用滑动窗口操作进行推断。
本实验通过5倍交叉验证进行。使用PyTorch框架在具有24GB内存的单个TITANRTX GPU上训练模型。在训练过程中,初始学习率设置为10-4,并利用具有0.95衰减系数的学习率衰减机制。为实验设置了200个批次,在每个批次中,批处理大小均设置为1,以适应阶段2中不同的输入大小和GPU内存的限制。
实验分为分割和分类两个子任务,采用了两类不同的评价指标分别对两个任务的性能进行评判。
分割任务的评价指标都是基于像素点进行计算的,采用了Dice系数(dice)、Jaccard相似系数(JI)、Hausdorff距离(HD_95)指标进行评判。其计算方法如下所示:
检测任务的评价指标采用了敏感度(Sensitivity)、单位图像内假阳性个数(FPs/vol)。其计算方法如下:
上式中TP(true positive)、TN(true negative)、FP(false positive)和FN(false negative)分别为真阳性、真阴性、假阳性和假阴性的样本个数。
实验表面:实现了良好的三维分割和识别性能。在ABVS数据集中实现了68.10%的分割骰子系数和92.43%的识别灵敏度。
示例性设备
如图9所示,对应于上述超声自动乳腺全容积图像的识别方法,本发明实施例还提供一种超声自动乳腺全容积图像的识别装置,上述超声自动乳腺全容积图像的识别装置包括:
层级特征图获取模块600,用于将超声自动乳腺全容积图像分别输入CNN网络分支和Transformer网络分支,对每一个网络分支的层级输出采用3D卷积操作,获得多种尺度的CNN特征图和Transformer特征图;
融合后特征图获取模块610,用于依据特征图的尺度从小至大顺序,基于空间和通道混合注意力机制,将每一层级的CNN特征图与对应层级的Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图并逐层迭代直至获得最后层级的融合后特征图;
识别结果获取模块620,用于基于所述最后层级的融合后特征图,获得识别后的图像并输出。
具体的,本实施例中,上述超声自动乳腺全容积图像的识别装置的各模块的具体功能可以参照上述超声自动乳腺全容积图像的识别方法中的对应描述,在此不再赘述。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图10所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和超声自动乳腺全容积图像的识别程序。该内存储器为非易失性存储介质中的操作系统和超声自动乳腺全容积图像的识别程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该超声自动乳腺全容积图像的识别程序被处理器执行时实现上述任意一种超声自动乳腺全容积图像的识别方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图10中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的超声自动乳腺全容积图像的识别程序,上述超声自动乳腺全容积图像的识别程序被上述处理器执行时进行以下操作指令:
将超声自动乳腺全容积图像分别输入CNN网络分支和Transformer网络分支,对每一个网络分支的层级输出采用3D卷积操作,获得多种尺度的CNN特征图和Transformer特征图;
依据特征图的尺度从小至大顺序,基于空间和通道混合注意力机制,将每一层级的CNN特征图与对应层级的Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图并逐层迭代直至获得最后层级的融合后特征图;
基于所述最后层级的融合后特征图,获得识别后的图像并输出。
可选的,所述基于空间和通道混合注意力机制,将CNN特征图与Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图,包括:
若当前层级为第一层级,将所述CNN特征图和所述Transformer特征图输入空间和通道混合注意力模型,获得第一注意力引导特征,将所述第一注意力引导特征设为所述当前层级的融合后特征图;
否则,
将所述CNN特征图和所述上一层级的融合后特征图输入空间和通道混合注意力模型,获得第二注意力引导特征;
将第二注意力引导特征与所述Transformer特征图融合,获得所述当前层级的融合后特征图。
可选的,所述空间和通道混合注意力模型包括空间注意力块和通道注意力块,将所述CNN特征图作为第一特征图,所述Transformer特征图或所述上一层级的融合后特征图作为第二特征图,将第一特征图和第二特征图输入空间和通道混合注意力模型,获得注意力引导特征,包括:
将所述第一特征图输入空间注意力块,进行最大池化和平均池化的级联输出,获得空间注意力图;
将所述第二特征图输入通道注意力块,进行最大池化和平均池化的并行输出并将输出结果相加,获得通道注意力图;
将所述第二特征图与所述通道注意力图和所述空间注意力图连乘,并与所述第一特征图进行加权相加,获得所述注意力引导特征。
可选的,所述Transformer网络分支包括Swin-Transformer块,所述Swin-Transformer块包括用于捕获更多全局信息的膨胀多头自注意力机制,所述膨胀多头自注意力机制与Swin-Transformer的窗口自注意力机制并行采样并将输出结果相加。
可选的,膨胀多头自注意力机制对特征图进行采样,包括:
对特征图进行区间采样,提取八个不同位置的特征;
根据窗口自注意机制处理提取的特征,输出采样结果。
可选的,获得识别后的图像并输出后,还包括:
获取乳头下阴影、肋骨阴影的空间位置关系和共同特征;
对所述空间位置关系和所述共同特征进行判定以去除乳头下阴影和肋骨阴影。
可选的,后,还包括:
基于网络的分割概率,获得全局最大值;
对网络的分割概率进行划分,获得分割概率块;
获得每个所述分割概率块的局部最大值,当所述局部最大值与所述全局最大值的比值大于设定阈值时,筛选当前分割概率块的遍历点并加入遍历点集合中;
输出用于对识别结果进行分类的遍历点集合。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有超声自动乳腺全容积图像的识别程序,上述超声自动乳腺全容积图像的识别程序被处理器执行时实现本发明实施例提供的任意一种超声自动乳腺全容积图像的识别方法的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.超声自动乳腺全容积图像的识别方法,其特征在于,所述方法包括:
将超声自动乳腺全容积图像分别输入CNN网络分支和Transformer网络分支,对每一个网络分支的层级输出采用3D卷积操作,获得多种尺度的CNN特征图和Transformer特征图;
依据特征图的尺度从小至大顺序,基于空间和通道混合注意力机制,将每一层级的CNN特征图与对应层级的Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图并逐层迭代直至获得最后层级的融合后特征图;
基于所述最后层级的融合后特征图,获得识别后的图像并输出。
2.如权利要求1所述的超声自动乳腺全容积图像的识别方法,其特征在于,所述基于空间和通道混合注意力机制,将CNN特征图与Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图,包括:
若当前层级为第一层级,将所述CNN特征图和所述Transformer特征图输入空间和通道混合注意力模型,获得第一注意力引导特征,将所述第一注意力引导特征设为所述当前层级的融合后特征图;
否则,
将所述CNN特征图和所述上一层级的融合后特征图输入空间和通道混合注意力模型,获得第二注意力引导特征;
将第二注意力引导特征与所述Transformer特征图融合,获得所述当前层级的融合后特征图。
3.如权利要求2所述的超声自动乳腺全容积图像的识别方法,其特征在于,所述空间和通道混合注意力模型包括空间注意力块和通道注意力块,将所述CNN特征图作为第一特征图,所述Transformer特征图或所述上一层级的融合后特征图作为第二特征图,将第一特征图和第二特征图输入空间和通道混合注意力模型,获得注意力引导特征,包括:
将所述第一特征图输入空间注意力块,进行最大池化和平均池化的级联输出,获得空间注意力图;
将所述第二特征图输入通道注意力块,进行最大池化和平均池化的并行输出并将输出结果相加,获得通道注意力图;
将所述第二特征图与所述通道注意力图和所述空间注意力图连乘,并与所述第一特征图进行加权相加,获得所述注意力引导特征。
4.如权利要求1所述的超声自动乳腺全容积图像的识别方法,其特征在于,所述Transformer网络分支包括Swin-Transformer块,所述Swin-Transformer块包括用于捕获更多全局信息的膨胀多头自注意力机制,所述膨胀多头自注意力机制与Swin-Transformer的窗口自注意力机制并行采样并将输出结果相加。
5.如权利要求4所述的超声自动乳腺全容积图像的识别方法,其特征在于,膨胀多头自注意力机制对特征图进行采样,包括:
对特征图进行区间采样,提取八个不同位置的特征;
根据窗口自注意机制处理提取的特征,输出采样结果。
6.如权利要求1所述的超声自动乳腺全容积图像的识别方法,其特征在于,获得识别后的图像并输出后,还包括:
获取乳头下阴影、肋骨阴影的空间位置关系和共同特征;
对所述空间位置关系和所述共同特征进行判定以去除乳头下阴影和肋骨阴影。
7.如权利要求1所述的超声自动乳腺全容积图像的识别方法,其特征在于,获得识别后的图像并输出后,还包括:
基于网络的分割概率,获得全局最大值;
对网络的分割概率进行划分,获得分割概率块;
获得每个所述分割概率块的局部最大值,当所述局部最大值与所述全局最大值的比值大于设定阈值时,筛选当前分割概率块的遍历点并加入遍历点集合中;
输出用于对识别结果进行分类的遍历点集合。
8.超声自动乳腺全容积图像的识别装置,其特征在于,所述装置包括:
层级特征图获取模块,用于将超声自动乳腺全容积图像分别输入CNN网络分支和Transformer网络分支,对每一个网络分支的层级输出采用3D卷积操作,获得多种尺度的CNN特征图和Transformer特征图;
融合后特征图获取模块,用于依据特征图的尺度从小至大顺序,基于空间和通道混合注意力机制,将每一层级的CNN特征图与对应层级的Transformer特征图、上一层级的融合后特征图进行融合,获得当前层级的融合后特征图并逐层迭代直至获得最后层级的融合后特征图;
识别结果获取模块,用于基于所述最后层级的融合后特征图,获得识别后的图像并输出。
9.智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的超声自动乳腺全容积图像的识别程序,所述超声自动乳腺全容积图像的识别程序被所述处理器执行时实现如权利要求1-7任意一项所述超声自动乳腺全容积图像的识别方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有超声自动乳腺全容积图像的识别程序,所述超声自动乳腺全容积图像的识别程序被处理器执行时实现如权利要求1-7任意一项所述超声自动乳腺全容积图像的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210726680.XA CN115187530A (zh) | 2022-06-24 | 2022-06-24 | 超声自动乳腺全容积图像的识别方法、装置、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210726680.XA CN115187530A (zh) | 2022-06-24 | 2022-06-24 | 超声自动乳腺全容积图像的识别方法、装置、终端及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115187530A true CN115187530A (zh) | 2022-10-14 |
Family
ID=83514731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210726680.XA Pending CN115187530A (zh) | 2022-06-24 | 2022-06-24 | 超声自动乳腺全容积图像的识别方法、装置、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187530A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN115861717A (zh) * | 2023-02-21 | 2023-03-28 | 华中科技大学协和深圳医院 | 乳腺肿瘤良恶性分类模型方法、系统、终端及存储介质 |
CN117237740A (zh) * | 2023-11-07 | 2023-12-15 | 山东军地信息技术集团有限公司 | 一种基于CNN和Transformer的SAR图像分类方法 |
-
2022
- 2022-06-24 CN CN202210726680.XA patent/CN115187530A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN115861717A (zh) * | 2023-02-21 | 2023-03-28 | 华中科技大学协和深圳医院 | 乳腺肿瘤良恶性分类模型方法、系统、终端及存储介质 |
CN117237740A (zh) * | 2023-11-07 | 2023-12-15 | 山东军地信息技术集团有限公司 | 一种基于CNN和Transformer的SAR图像分类方法 |
CN117237740B (zh) * | 2023-11-07 | 2024-03-01 | 山东军地信息技术集团有限公司 | 一种基于CNN和Transformer的SAR图像分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696094B (zh) | 免疫组化pd-l1膜染色病理切片图像处理方法、装置和设备 | |
CN110428432B (zh) | 结肠腺体图像自动分割的深度神经网络算法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
EP3767521A1 (en) | Object detection and instance segmentation of 3d point clouds based on deep learning | |
WO2023207163A1 (zh) | 用于消防通道占用目标检测的目标检测模型、方法及应用 | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN115187530A (zh) | 超声自动乳腺全容积图像的识别方法、装置、终端及介质 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
WO2023116632A1 (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN113592060A (zh) | 一种神经网络优化方法以及装置 | |
CN112861915A (zh) | 一种基于高级语义特征无锚框非合作目标检测方法 | |
CN113674288A (zh) | 一种非小细胞肺癌数字病理图像组织自动分割方法 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
CN114155474A (zh) | 基于视频语义分割算法的损伤识别技术 | |
CN114596252A (zh) | 用于缺陷检测的分层图像分解 | |
CN115578616A (zh) | 多尺度物体实例分割模型的训练方法、分割方法和装置 | |
CN116363037A (zh) | 一种多模态图像融合方法、装置及设备 | |
CN115661828B (zh) | 一种基于动态分层嵌套残差网络的文字方向识别方法 | |
Al-Shammri et al. | A combined method for object detection under rain conditions using deep learning | |
CN116071649A (zh) | 一种遥感图像识别的方法及装置 | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |