CN117252884B - 一种基于自注意力机制的茶芽叶目标分割方法 - Google Patents

一种基于自注意力机制的茶芽叶目标分割方法 Download PDF

Info

Publication number
CN117252884B
CN117252884B CN202311540916.1A CN202311540916A CN117252884B CN 117252884 B CN117252884 B CN 117252884B CN 202311540916 A CN202311540916 A CN 202311540916A CN 117252884 B CN117252884 B CN 117252884B
Authority
CN
China
Prior art keywords
sequence
attention
feature
characteristic
leaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311540916.1A
Other languages
English (en)
Other versions
CN117252884A (zh
Inventor
吴伟斌
陈天赐
李浩欣
黄靖凯
曾锦彬
程肖锦
李嘉堂
郑泽勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202311540916.1A priority Critical patent/CN117252884B/zh
Publication of CN117252884A publication Critical patent/CN117252884A/zh
Application granted granted Critical
Publication of CN117252884B publication Critical patent/CN117252884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • G06T2207/30188Vegetation; Agriculture
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种基于自注意力机制的茶芽叶目标分割方法,获取茶芽叶图像,提取茶芽叶图像的特征,得到初级特征。将初级特征输入编码网络进行特征编码,得到第一编码序列。将第一编码序列输入双分支注意力模块。对第一编码序列进行单头注意力计算,得到第一特征序列,对第一编码序列进行多头注意力计算,得到第二特征序列,拼接第一特征序列和第二特征序列,得到第一拼接序列。基于第一拼接序列计算出第一特征块、第二特征块、第三特征块和第四特征块,对所有特征块进行多特征级联,分割出茶芽叶目标。上述方法可以结合茶芽叶图像的各种局部特征和全局特征,通过多特征级联可以在茶芽叶图像中分割出多种形态不同,遮挡状态不同的茶芽叶目标。

Description

一种基于自注意力机制的茶芽叶目标分割方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于自注意力机制的茶芽叶目标分割方法。
背景技术
茶含有丰富的茶多酚、儿茶素、氨基酸、咖啡因等营养成分,已成为了最受欢迎的饮料之一。近年来茶叶的消费市场不断扩大,用户对优质茶叶的需求量不断增大。单芽和一芽一叶是优质茶的主要原材料,采茶机器人可以取代人工采摘茶叶,近年来基于计算机视觉的茶芽叶分割方法大量应用于采茶机器人。
为了更好的优化机器人对鲜茶芽叶的检测定位性能,许多研究人员对传统图像处理和深度学习方法做了大量研究,但现有的茶芽叶目标检测方法存在两个问题。第一个问题是绝大多数茶芽叶目标检测方法是用回归框检测茶芽叶目标,回归框包含有背景区域,对分割性能存在较大的干扰。第二个问题是检测出来的茶芽叶目标难以分辨其遮挡状态,由于缺少有效的视觉感知信息导致无法精准判定茎秆采摘点的位置。
因此,需要一种可以在不同遮挡状态下对茶芽叶进行精准分割的图像分割方法。
发明内容
为克服相关技术中存在的问题,本发明的目的是提供一种基于自注意力机制的茶芽叶目标分割方法,该方法的编码网络可以捕获茶芽叶图像中的各类局部特征,以及茶芽叶图像的全局特征,结合各类局部特征和全局特征,从而区分不同遮挡状态下的茶芽叶。该方法的解码网络通过多特征级联可以在不同遮挡状态下精准分割出茶芽叶目标。
一种基于自注意力机制的茶芽叶目标分割方法,包括获取茶芽叶图像,提取所述茶芽叶图像的特征,得到初级特征;
将所述初级特征输入编码网络进行特征编码,得到第一编码序列;
将所述第一编码序列输入双分支注意力模块的第一单元,对所述第一编码序列进行单头注意力计算,得到第一特征序列;将所述第一编码序列输入所述双分支注意力模块的第二单元,对所述第一编码序列进行多头注意力计算,得到第二特征序列;
拼接所述第一特征序列和所述第二特征序列,得到第一拼接序列;结合所述第一拼接序列和所述第一编码序列,得到第一双分支注意力结果;
对所述第一双分支注意力结果进行多层感知,得到第一特征块;对所述第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块;
将所述第四特征块输入解码网络进行多层感知,得到第一特征图;对所述第一特征图进行上采样,得到第一上采样结果;
基于所述第三特征块、所述第二特征块和所述第一特征块对所述第一上采样结果进行多特征级联,分割出茶芽叶目标。
在本发明较佳的技术方案中,所述基于所述第三特征块、所述第二特征块和所述第一特征块对所述第一上采样结果进行多特征级联,分割出茶芽叶目标,包括:
将所述第三特征块与所述第一上采样结果进行拼接,得到第一拼接图像;
对所述第一拼接图像进行上采样,得到第二上采样结果;
将所述第二上采样结果与所述第二特征块进行拼接,得到第二拼接图像;
对所述第二拼接图像进行上采样,得到第三上采样结果;
将所述第三上采样结果与所述第一特征块进行拼接,得到第三拼接图像;
对所述第三拼接图像进行上采样,分割出茶芽叶目标。
在本发明较佳的技术方案中,所述对所述第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块,包括:
对所述第一特征块进行特征块编码,得到第二编码序列;
将所述第二编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第二双分支注意力结果;对所述第二双分支注意力结果进行多层感知,得到第二特征块;
对所述第二特征块进行特征块编码,得到第三编码序列;
将所述第三编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第三双分支注意力结果;对所述第三双分支注意力结果进行多层感知,得到第三特征块;
对所述第三特征块进行特征块编码,得到第四编码序列;
将所述第四编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第四双分支注意力结果;对所述第四双分支注意力结果进行多层感知,得到第四特征块。
在本发明较佳的技术方案中,所述将所述第二编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第二双分支注意力结果,包括:
将所述第二编码序列输入所述双分支注意力模块的第一单元,对所述第二编码序列进行单头注意力计算,得到第三特征序列;
将所述第二编码序列输入所述双分支注意力模块的第二单元,对所述第二编码序列进行多头注意力计算,得到第四特征序列;
拼接所述第三特征序列和所述第四特征序列,得到第二拼接序列;
对所述第二拼接序列进行全连接运算,得到所述第二拼接序列对应的映射序列;
将所述第二拼接序列对应的映射序列与所述第二编码序列融合,得到第二双分支注意力结果。
在本发明较佳的技术方案中,所述对所述第一编码序列进行单头注意力计算,得到第一特征序列,包括:
获取第一参数矩阵、第二参数矩阵和第三参数矩阵,计算所述第一编码序列与所述第一参数矩阵的乘积,得到查询矩阵;计算所述第一编码序列与所述第二参数矩阵的乘积,得到键矩阵;计算所述第一编码序列与所述第三参数矩阵的乘积,得到值矩阵;
计算所述查询矩阵和所述键矩阵的转置的乘积,得到中间矩阵;
计算所述中间矩阵和向量长度的平方根的比值,得到缩放矩阵;所述向量长度为所述键矩阵的长度;
对所述缩放矩阵进行归一化,得到注意力分数矩阵;
计算所述注意力分数矩阵和所述值矩阵的乘积,得到第一特征序列。
在本发明较佳的技术方案中,所述对所述第一编码序列进行多头注意力计算,得到第二特征序列,包括:
将所述查询矩阵、所述键矩阵和所述值矩阵输入多个注意力单元进行缩放点积注意力运算,得到多个注意力计算结果;
将所有所述注意力计算结果拼接,得到第二特征序列。
在本发明较佳的技术方案中,所述将所述初级特征输入编码网络进行特征编码之前,还包括:
构建所述编码网络和所述解码网络,所述编码网络和所述解码网络构成茶芽叶目标分割模型;
基于交叉熵损失函数使用随机梯度下降法训练所述茶芽叶目标分割模型。
在本发明较佳的技术方案中,所述将所述初级特征输入编码网络进行特征编码,得到第一编码序列,包括:
采用特征关联的方式调节卷积核的参数;
使用所述卷积核对所述初级特征进行卷积,得到特征图像;
对所述特征图像进行编码,得到第一编码序列。
在本发明较佳的技术方案中,所述获取茶芽叶图像之前,还包括:
采集原始图像,调节所述原始图像的分辨率,得到分辨率调节图像;
增强所述分辨率调节图像的色调和对比度,得到增强图像;
对所述增强图像进行形态变换,得到所述茶芽叶图像。
在本发明较佳的技术方案中,所述提取所述茶芽叶图像的特征,得到初级特征,包括:
将所述茶芽叶图像输入特征提取器,依次对所述茶芽叶图像进行卷积、批量归一化、激活和池化,得到初级特征。
本发明的有益效果为:
本发明提供的一种基于自注意力机制的茶芽叶目标分割方法,包括获取茶芽叶图像,提取茶芽叶图像的特征,得到初级特征。将初级特征输入编码网络进行特征编码,得到第一编码序列。将第一编码序列输入双分支注意力模块的第一单元,对第一编码序列进行单头注意力计算,得到第一特征序列。将第一编码序列输入双分支注意力模块的第二单元,对第一编码序列进行多头注意力计算,得到第二特征序列。采用多头注意力计算可以捕获更加丰富的局部特征,采用单头注意力计算可以更有效地提取全局特征。拼接第一特征序列和第二特征序列,可以结合茶芽叶图像的各种局部特征和全局特征,得到第一拼接序列;结合第一拼接序列和第一编码序列,得到第一双分支注意力结果。对第一双分支注意力结果进行多层感知,得到第一特征块;对第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块。将第四特征块输入解码网络进行多层感知,得到第一特征图;对第一特征图进行上采样,得到第一上采样结果;基于第三特征块、第二特征块和第一特征块对第一上采样结果进行多特征级联,分割出茶芽叶目标。第一特征块、第二特征块、第三特征块和第四特征块表示不同层次的茶芽叶特征,通过多特征级联可以在茶芽叶图像中分割出多种形态不同,遮挡状态不同的茶芽叶目标。
附图说明
图1是本发明提供的基于自注意力机制的茶芽叶目标分割方法的流程图;
图2是本发明提供的对第一特征块进行双分支注意力计算的流程图;
图3是本发明提供的分割出茶芽叶目标的流程图;
图4是本发明提供的多特征级联的示意图;
图5是本发明提供的双分支注意力模块的示意图。
具体实施方式
下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1
如图1所示,本实施例提供一种基于自注意力机制的茶芽叶目标分割方法,包括以下步骤:
S1:获取茶芽叶图像,提取所述茶芽叶图像的特征,得到初级特征。
采用手持移动式相机设备,在不同距离下对茶园中的茶芽叶进行拍摄,得到原始图像,根据原始图像中的茶芽叶类型制作标签。原始图像和茶芽叶图像中包括茶茎秆未遮挡区域,茶茎秆遮挡区域、单芽或单叶遮挡区域。
将所述茶芽叶图像输入特征提取器,依次对所述茶芽叶图像进行卷积、批量归一化、激活和池化,得到初级特征。
批量归一化可以加快运算的收敛速度,提高特征提取器的泛化能力。激活采用sigmoid函数或ReLU函数,使得提取的特征具有非线性的特点,池化可以减少运算量。
获取茶芽叶图像之前,还包括:
采集原始图像,调节所述原始图像的分辨率,得到分辨率调节图像;
增强所述分辨率调节图像的色调和对比度,得到增强图像;
对所述增强图像进行形态变换,得到所述茶芽叶图像。
调节原始图像的分辨率可以采用插值法或基于深度学习的方法,此处不作限定。增强分辨率调节图像的对比度可以采用分段线性变换法、直方图均衡化或伽马变换,此处不作限定。增强分辨率调节图像的色调可以采用线性变换法或非线性变换法,此处不作限定。采用平移、旋转和缩放中的一种或多种方法对增强图像进行形态变换,得到茶芽叶图像。
S2:将所述初级特征输入编码网络进行特征编码,得到第一编码序列。
对初级特征进行卷积,得到特征图像,再对特征图像进行编码,得到第一编码序列。第一特征编码序列包含多个相互之间存在联系的编码向量。
S3:将所述第一编码序列输入双分支注意力模块的第一单元,对所述第一编码序列进行单头注意力计算,得到第一特征序列;将所述第一编码序列输入所述双分支注意力模块的第二单元,对所述第一编码序列进行多头注意力计算,得到第二特征序列。
单头注意力计算可以捕获第一编码序列的全局特征,从而捕获茶芽叶图像的全局特征。多头注意力计算可以捕获第一编码序列中的各个编码向量的局部特征,从而捕获茶芽叶图像更加丰富的局部特征。
双分支注意力模块的第一单元包括一个注意力计算层,该注意力计算层对第一编码序列进行单头注意力计算,得到第一特征序列。双分支注意力模块的第二单元包括多个注意力计算层,每个注意力计算层对第一编码序列进行注意力计算,得到注意力计算结果,将所有注意力计算结果拼接,得到第二特征序列。
S4:拼接所述第一特征序列和所述第二特征序列,得到第一拼接序列;结合所述第一拼接序列和所述第一编码序列,得到第一双分支注意力结果。
如图5所示,对第一拼接序列进行全连接运算,调整第一拼接序列的长度。将调整长度后的第一拼接序列与第一编码序列进行残差融合,得到第一双分支注意力结果。
S5:对所述第一双分支注意力结果进行多层感知,得到第一特征块;对所述第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块。
如图2所示,所述对所述第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块,包括:
S52:对所述第一特征块进行特征块编码,得到第二编码序列。
步骤S52之前,还包括步骤S51:对所述第一双分支注意力结果进行多层感知,得到第一特征块。多层感知采用前馈神经网络,可以提取更深层次的语义信息的特征,该前馈神经网络由输入层、若干个隐藏层和输出层组成,每一层都由多个神经元组成。
本实施例以第一特征块的特征维度为(128,128,32)为例,即分辨率为128*128,通道数为32。
S53:将所述第二编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第二双分支注意力结果;对所述第二双分支注意力结果进行多层感知,得到第二特征块。
S531:将所述第二编码序列输入所述双分支注意力模块的第一单元,对所述第二编码序列进行单头注意力计算,得到第三特征序列。
S532:将所述第二编码序列输入所述双分支注意力模块的第二单元,对所述第二编码序列进行多头注意力计算,得到第四特征序列。
步骤S531-S532和步骤S3相似,将步骤S3中的第一编码序列替换为第二编码序列,按照步骤S531-S532的计算方式可以得到第三特征序列和第四特征序列,此处不再赘述。
S533:拼接所述第三特征序列和所述第四特征序列,得到第二拼接序列。
步骤S533与步骤S4中的拼接所述第一特征序列和所述第二特征序列,得到第一拼接序列相似,此处不再赘述。
S534:对所述第二拼接序列进行全连接运算,得到所述第二拼接序列对应的映射序列。
通过全连接运算可以调节第二拼接序列的长度,得到第二拼接序列对应的映射序列。
S535:将所述第二拼接序列对应的映射序列与所述第二编码序列融合,得到第二双分支注意力结果。
步骤S534-535是使用残差模型将第二拼接序列和第二编码序列融合,使用全连接运算对第二拼接序列进行映射,将第二拼接序列对应的映射序列与第二编码序列相加或相减,得到第二双分支注意力结果,本实施例以将第二拼接序列对应的映射序列与第二编码序列相加为例。
S54:对所述第二特征块进行特征块编码,得到第三编码序列。
步骤S54与步骤S52相同,此处不再赘述。本实施例以第二特征块的尺寸为(64,64,64),即分辨率为64*64,通道数为64为例。
S55:将所述第三编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第三双分支注意力结果;对所述第三双分支注意力结果进行多层感知,得到第三特征块。
步骤S55与步骤S53相似,此处不再赘述。本实施例以第三特征块的尺寸为(32,32,128),即分辨率为32*32,通道数为128为例。
S56:对所述第三特征块进行特征块编码,得到第四编码序列。
步骤S56与步骤S54相似,此处不再赘述。
S57:将所述第四编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第四双分支注意力结果;对所述第四双分支注意力结果进行多层感知,得到第四特征块。
步骤S57与步骤S53相似,此处不再赘述。本实施例以第四特征块的尺寸为(16,16,256),即分辨率为16*16,通道数为256为例。
S6:将所述第四特征块输入解码网络进行多层感知,得到第一特征图;对所述第一特征图进行上采样,得到第一上采样结果。
通过多层感知将第四特征块还原成第一特征图,使用线性插值对第一特征图进行上采样,将第一特征图的分辨率扩大一倍,得到第一上采样结果。
S7:基于所述第三特征块、所述第二特征块和所述第一特征块对所述第一上采样结果进行多特征级联,分割出茶芽叶目标。
图4为本实施例提供的多特征级联的示意图,图3是本实施例提供的分割出茶芽叶目标的流程图,如图3所示,步骤S7包括以下步骤S71-S76:
S71:将所述第三特征块与所述第一上采样结果进行拼接,得到第一拼接图像。
第一上采样结果的尺寸与第三特征块的尺寸相同,均为(32,32,256),第一上采样结果与第三特征块在通道维度合并,得到的第一拼接图像的尺寸为(32,32,384),对第一拼接图像进行多层感知,提取第一拼接图像的特征并还原分辨率。
S72:对所述第一拼接图像进行上采样,得到第二上采样结果。
使用线性插值对多层感知后的第一拼接图像进行上采样,得到的第二上采样结果的尺寸为(64,64,384)。
S73:将所述第二上采样结果与所述第二特征块进行拼接,得到第二拼接图像。
第二上采样结果的尺寸与第二特征块的尺寸相同,均为(64,64,384),在通道维度对第二上采样结果和第二特征块进行拼接,得到的第二拼接图像的尺寸为(64,64,448),对第二拼接图像进行多层感知,提取第二拼接图像的特征并还原分辨率。
S74:对所述第二拼接图像进行上采样,得到第三上采样结果。
使用线性插值对多层感知后的第二拼接图像进行上采样,得到的第三上采样结果的尺寸为(128,128,448)。
S75:将所述第三上采样结果与所述第一特征块进行拼接,得到第三拼接图像。
第三上采样结果与第一特征块的尺寸相同,均为(128,128,448),在通道维度对第三上采样结果与第一特征块进行拼接,得到的第三拼接图像的尺寸为(128,128,480),对第三拼接图像进行多层感知,提取第三拼接图像的特征并还原分辨率。
S76:对所述第三拼接图像进行上采样,分割出茶芽叶目标。
使用线性插值对多层感知后的第三拼接图像进行上采样,得到的输出图像的尺寸为(256,256,480)。输出图像中包含分割出的一个或多个茶芽叶目标。
本实施例采用多层级联的方式构建解码网络,拓展了解码网络的非线性层。茶芽叶图像中包括茶茎秆未遮挡区域,茶茎秆遮挡区域、单芽或单叶遮挡区域,通过收集本地和上下文的特征信息,以及提取不同序列长度的特征数据,可以有效结合不同尺度的特征,使得序列特征与图像特征相关联,从而准确地分割出各种遮挡状态下的茶芽叶目标。
本实施例提供的一种基于自注意力机制的茶芽叶目标分割方法,包括获取茶芽叶图像,提取茶芽叶图像的特征,得到初级特征。将初级特征输入编码网络进行特征编码,得到第一编码序列。将第一编码序列输入双分支注意力模块的第一单元,对第一编码序列进行单头注意力计算,得到第一特征序列。将第一编码序列输入双分支注意力模块的第二单元,对第一编码序列进行多头注意力计算,得到第二特征序列。采用多头注意力计算可以捕获更加丰富的局部特征,采用单头注意力计算可以更有效地提取全局特征。拼接第一特征序列和第二特征序列,可以结合茶芽叶图像的各种局部特征和全局特征,得到第一拼接序列;结合第一拼接序列和第一编码序列,得到第一双分支注意力结果。对第一双分支注意力结果进行多层感知,得到第一特征块;对第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块。将第四特征块输入解码网络进行多层感知,得到第一特征图;对第一特征图进行上采样,得到第一上采样结果;基于第三特征块、第二特征块和第一特征块对第一上采样结果进行多特征级联,分割出茶芽叶目标。第一特征块、第二特征块、第三特征块和第四特征块表示不同层次的茶芽叶特征,通过多特征级联可以在茶芽叶图像中分割出多种形态不同,遮挡状态不同的茶芽叶目标。
实施例2
本实施例仅描述与实施例1的不同之处,其余特征与上述实施例相同。对所述第一编码序列进行单头注意力计算,得到第一特征序列,包括:
S32:获取第一参数矩阵、第二参数矩阵和第三参数矩阵,计算所述第一编码序列与所述第一参数矩阵的乘积,得到查询矩阵;计算所述第一编码序列与所述第二参数矩阵的乘积,得到键矩阵;计算所述第一编码序列与所述第三参数矩阵的乘积,得到值矩阵。
根据以下公式计算查询矩阵、键矩阵和值矩阵:
其中,为第一参数矩阵,/>为第二参数矩阵,/>为第三参数矩阵,X为第一编码序列,Q为查询矩阵,K为键矩阵,V为值矩阵。
步骤S32之前还包括步骤S31:将所述第一编码序列输入双分支注意力模块的第一单元。
S33:计算所述查询矩阵和所述键矩阵的转置的乘积,得到中间矩阵。
S34:计算所述中间矩阵和向量长度的平方根的比值,得到缩放矩阵;所述向量长度为所述键矩阵的长度。
键矩阵包含多个键向量,值矩阵包含多个值向量,查询矩包含多个查询向量,向量长度为键矩阵的长度,即键矩阵中键向量的总数。
S35:对所述缩放矩阵进行归一化,得到注意力分数矩阵。
根据以下公式计算注意力分数矩阵:
S36:计算所述注意力分数矩阵和所述值矩阵的乘积,得到第一特征序列。
其中,H为第一特征序列,V为值矩阵,softmax为归一化指数函数,为键矩阵的转置,Q为查询矩阵,/>为向量长度的平方根,/>为中间矩阵,/>为缩放矩阵,为注意力分数矩阵。
所述对所述第一编码序列进行多头注意力计算,得到第二特征序列,包括:
将所述查询矩阵、所述键矩阵和所述值矩阵输入多个注意力单元进行缩放点积注意力运算,得到多个注意力计算结果;
将所有所述注意力计算结果拼接,得到第二特征序列。
优选地,在将所述查询矩阵、所述键矩阵和所述值矩阵输入多个注意力单元进行缩放点积注意力运算之前,还包括对查询矩阵、键矩阵和值矩阵进行全连接运算。在得到多个注意力计算结果之后,还包括对第二特征序列进行全连接运算。
本实施例提供的单头注意力计算采用矩阵的形式表示多个查询向量、键向量和值向量,通过归一化指数函数计算出注意力分数矩阵,再点乘注意力分数矩阵和值矩阵,得到第一特征序列。采用矩阵形式进行运算,提高了运算效率,归一化指数函数的运算复杂度不高,可以快速地计算出第一特征序列。将查询矩阵、键矩阵和值矩阵输入多个注意力单元,可以并行进行缩放点积注意力运算,具有较高的运算效率。
实施例3
本实施例仅描述与实施例1的不同之处,其余特征与上述实施例相同。所述将所述初级特征输入编码网络进行特征编码,得到第一编码序列,包括:
采用特征关联的方式调节卷积核的参数;
使用所述卷积核对所述初级特征进行卷积,得到特征图像;
对所述特征图像进行编码,得到第一编码序列。
调节卷积核参数,将原来卷积核大小等于卷积步长,通过卷积步长划分特征块的方式调整为采用更大的卷积核,加入padding即盒子模型的内边距补全边界信息,保持原卷积步长不变以固定特征图像中的特征块的数量,从而更有效地关联相邻的特征块。具体地,卷积核大小为7×7,步长为3。
调整特征图像的特征通道数,以特征通道数作为每个特征块的序列长度,从而对特征图像中的每个特征块进行编码,得到第一编码序列。
所述将所述初级特征输入编码网络进行特征编码之前,还包括:
构建所述编码网络和所述解码网络,所述编码网络和所述解码网络构成茶芽叶目标分割模型;
基于交叉熵损失函数使用随机梯度下降法训练所述茶芽叶目标分割模型。
交叉熵损失函数描述的是理想概率分布和当前概率分布之间的距离,交叉熵损失函数越小,当前概率分布与理想概率分布越接近。
将交叉熵损失函数作为目标函数,使用反向传播的随机梯度下降法训练茶芽叶目标分割模型。随机梯度下降法是从训练样本集即包含多张茶芽叶图像的样本集中抽取第一组图像,基于第一组图像训练后按梯度更新一次参数,再抽取第二组图像,基于第二组图像训练后按梯度更新一次参数。
本实施例采用特征关联的方式调节卷积核的参数,使用所述卷积核对所述初级特征进行卷积,得到特征图像。对所述特征图像进行编码,得到第一编码序列。特征关联通过保持原卷积步长不变以固定特征图像中的特征块的数量,从而更有效地关联相邻的特征块。
实施例4
与前述应用功能实现方法实施例相对应,本实施例提供了一种基于自注意力机制的茶芽叶目标分割方法所对应的电子设备。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
电子设备包括存储器和处理器。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器上存储有可执行代码,当可执行代码被处理器处理时,可以使处理器执行上文述及的方法中的部分或全部。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。以上所述仅为本发明的优选实施例而已,并不用于限制本发明。
对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自注意力机制的茶芽叶目标分割方法,其特征在于,包括:
获取茶芽叶图像,提取所述茶芽叶图像的特征,得到初级特征;
将所述初级特征输入编码网络进行特征编码,得到第一编码序列;
将所述第一编码序列输入双分支注意力模块的第一单元,对所述第一编码序列进行单头注意力计算,得到第一特征序列;将所述第一编码序列输入所述双分支注意力模块的第二单元,对所述第一编码序列进行多头注意力计算,得到第二特征序列;
拼接所述第一特征序列和所述第二特征序列,得到第一拼接序列;结合所述第一拼接序列和所述第一编码序列,得到第一双分支注意力结果;
对所述第一双分支注意力结果进行多层感知,得到第一特征块;对所述第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块;
将所述第四特征块输入解码网络进行多层感知,得到第一特征图;对所述第一特征图进行上采样,得到第一上采样结果;
基于所述第三特征块、所述第二特征块和所述第一特征块对所述第一上采样结果进行多特征级联,分割出茶芽叶目标。
2.根据权利要求1所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述基于所述第三特征块、所述第二特征块和所述第一特征块对所述第一上采样结果进行多特征级联,分割出茶芽叶目标,包括:
将所述第三特征块与所述第一上采样结果进行拼接,得到第一拼接图像;
对所述第一拼接图像进行上采样,得到第二上采样结果;
将所述第二上采样结果与所述第二特征块进行拼接,得到第二拼接图像;
对所述第二拼接图像进行上采样,得到第三上采样结果;
将所述第三上采样结果与所述第一特征块进行拼接,得到第三拼接图像;
对所述第三拼接图像进行上采样,分割出茶芽叶目标。
3.根据权利要求1所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述对所述第一特征块进行双分支注意力计算,得到第二特征块、第三特征块和第四特征块,包括:
对所述第一特征块进行特征块编码,得到第二编码序列;
将所述第二编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第二双分支注意力结果;对所述第二双分支注意力结果进行多层感知,得到第二特征块;
对所述第二特征块进行特征块编码,得到第三编码序列;
将所述第三编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第三双分支注意力结果;对所述第三双分支注意力结果进行多层感知,得到第三特征块;
对所述第三特征块进行特征块编码,得到第四编码序列;
将所述第四编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第四双分支注意力结果;对所述第四双分支注意力结果进行多层感知,得到第四特征块。
4.根据权利要求3所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述将所述第二编码序列输入所述双分支注意力模块,进行双分支注意力计算,得到第二双分支注意力结果,包括:
将所述第二编码序列输入所述双分支注意力模块的第一单元,对所述第二编码序列进行单头注意力计算,得到第三特征序列;
将所述第二编码序列输入所述双分支注意力模块的第二单元,对所述第二编码序列进行多头注意力计算,得到第四特征序列;
拼接所述第三特征序列和所述第四特征序列,得到第二拼接序列;
对所述第二拼接序列进行全连接运算,得到所述第二拼接序列对应的映射序列;
将所述第二拼接序列对应的映射序列与所述第二编码序列融合,得到第二双分支注意力结果。
5.根据权利要求1所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述对所述第一编码序列进行单头注意力计算,得到第一特征序列,包括:
获取第一参数矩阵、第二参数矩阵和第三参数矩阵,计算所述第一编码序列与所述第一参数矩阵的乘积,得到查询矩阵;计算所述第一编码序列与所述第二参数矩阵的乘积,得到键矩阵;计算所述第一编码序列与所述第三参数矩阵的乘积,得到值矩阵;
计算所述查询矩阵和所述键矩阵的转置的乘积,得到中间矩阵;
计算所述中间矩阵和向量长度的平方根的比值,得到缩放矩阵;所述向量长度为所述键矩阵的长度;
对所述缩放矩阵进行归一化,得到注意力分数矩阵;
计算所述注意力分数矩阵和所述值矩阵的乘积,得到第一特征序列。
6.根据权利要求5所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述对所述第一编码序列进行多头注意力计算,得到第二特征序列,包括:
将所述查询矩阵、所述键矩阵和所述值矩阵输入多个注意力单元进行缩放点积注意力运算,得到多个注意力计算结果;
将所有所述注意力计算结果拼接,得到第二特征序列。
7.根据权利要求1所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述将所述初级特征输入编码网络进行特征编码之前,还包括:
构建所述编码网络和所述解码网络,所述编码网络和所述解码网络构成茶芽叶目标分割模型;
基于交叉熵损失函数使用随机梯度下降法训练所述茶芽叶目标分割模型。
8.根据权利要求1所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述将所述初级特征输入编码网络进行特征编码,得到第一编码序列,包括:
采用特征关联的方式调节卷积核的参数;
使用所述卷积核对所述初级特征进行卷积,得到特征图像;
对所述特征图像进行编码,得到第一编码序列。
9.根据权利要求1所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述获取茶芽叶图像之前,还包括:
采集原始图像,调节所述原始图像的分辨率,得到分辨率调节图像;
增强所述分辨率调节图像的色调和对比度,得到增强图像;
对所述增强图像进行形态变换,得到所述茶芽叶图像。
10.根据权利要求1所述的基于自注意力机制的茶芽叶目标分割方法,其特征在于,所述提取所述茶芽叶图像的特征,得到初级特征,包括:
将所述茶芽叶图像输入特征提取器,依次对所述茶芽叶图像进行卷积、批量归一化、激活和池化,得到初级特征。
CN202311540916.1A 2023-11-20 2023-11-20 一种基于自注意力机制的茶芽叶目标分割方法 Active CN117252884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311540916.1A CN117252884B (zh) 2023-11-20 2023-11-20 一种基于自注意力机制的茶芽叶目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311540916.1A CN117252884B (zh) 2023-11-20 2023-11-20 一种基于自注意力机制的茶芽叶目标分割方法

Publications (2)

Publication Number Publication Date
CN117252884A CN117252884A (zh) 2023-12-19
CN117252884B true CN117252884B (zh) 2024-03-22

Family

ID=89137270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311540916.1A Active CN117252884B (zh) 2023-11-20 2023-11-20 一种基于自注意力机制的茶芽叶目标分割方法

Country Status (1)

Country Link
CN (1) CN117252884B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117253050B (zh) * 2023-11-20 2024-03-22 华南农业大学 一种基于自适应特征提取的茶芽叶检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990219A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 用于图像语义分割的方法和装置
CN115546485A (zh) * 2022-10-17 2022-12-30 华中科技大学 一种分层自注意力场景语义分割模型的构建方法
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116309650A (zh) * 2023-05-22 2023-06-23 湖南大学 基于双分支嵌入注意力机制的医学图像分割方法与系统
WO2023123108A1 (en) * 2021-12-29 2023-07-06 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods and systems for enhancing qualities of images
CN116721112A (zh) * 2023-08-10 2023-09-08 南开大学 基于双分支解码器网络的水下伪装物体图像分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990219A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 用于图像语义分割的方法和装置
WO2023123108A1 (en) * 2021-12-29 2023-07-06 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods and systems for enhancing qualities of images
CN115546485A (zh) * 2022-10-17 2022-12-30 华中科技大学 一种分层自注意力场景语义分割模型的构建方法
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116309650A (zh) * 2023-05-22 2023-06-23 湖南大学 基于双分支嵌入注意力机制的医学图像分割方法与系统
CN116721112A (zh) * 2023-08-10 2023-09-08 南开大学 基于双分支解码器网络的水下伪装物体图像分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LiDAR点云多尺度注意力语义分割方法研究;耿笑笑;《中国优秀硕士学位论文全文数据库信息科技辑》(第08期);第I136-189页 *
Research on Image Semantic Segmentation Model Based on Bidirectional Recursive Double Branch Network;Zhuang Yufeng等;《2021 IEEE Conference on Telecommunications, Optics and Computer Science (TOCS)》;第744-747页 *
吴伟斌等.《华中农业大学学报》.2022,第41卷(第01期),第246-254页. *
图像处理中注意力机制综述;祁宣豪等;《计算机科学与探索》;第1-20页 *

Also Published As

Publication number Publication date
CN117252884A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN111768432B (zh) 基于孪生深度神经网络的动目标分割方法及系统
CN108830855B (zh) 一种基于多尺度低层特征融合的全卷积网络语义分割方法
CN109711481B (zh) 用于画作多标签识别的神经网络、相关方法、介质和设备
CN109492643A (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN117252884B (zh) 一种基于自注意力机制的茶芽叶目标分割方法
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN115953665B (zh) 一种目标检测方法、装置、设备及存储介质
CN110555399A (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN111860233B (zh) 基于选择注意力网络的sar图像复杂建筑物提取方法及系统
CN116824307B (zh) 基于sam模型的图像标注方法、装置及相关介质
CN110211127B (zh) 基于双相关性网络的图像分割方法
CN113689434B (zh) 一种基于条带池化的图像语义分割方法
CN114881871A (zh) 一种融合注意力单幅图像去雨方法
CN112270366A (zh) 基于自适应多特征融合的微小目标检测方法
CN114549913A (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN115565071A (zh) 高光谱图像Transformer网络训练及分类方法
CN113393434A (zh) 一种基于非对称双流网络架构的rgb-d显著性检测方法
CN115331024A (zh) 一种基于深度监督和逐步学习的肠道息肉检测方法
CN116977809A (zh) 一种基于深度学习的端到端多模态图像融合框架
CN116704206A (zh) 图像处理方法、装置、计算机设备和存储介质
CN116597142A (zh) 基于全卷积神经网络与变换器的卫星图像语义分割方法及系统
CN116206227A (zh) 5g富媒体信息的图片审查系统、方法、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant