CN110110751A - 一种基于注意力机制的金字塔网络的中草药识别方法 - Google Patents
一种基于注意力机制的金字塔网络的中草药识别方法 Download PDFInfo
- Publication number
- CN110110751A CN110110751A CN201910254774.XA CN201910254774A CN110110751A CN 110110751 A CN110110751 A CN 110110751A CN 201910254774 A CN201910254774 A CN 201910254774A CN 110110751 A CN110110751 A CN 110110751A
- Authority
- CN
- China
- Prior art keywords
- herbal medicine
- chinese herbal
- layers
- path
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的金字塔网络的中草药识别方法,包括以下步骤:1)构建中草药数据集,制作中草药训练集与中草药测试集;2)构建基于通道注意力机制的特征融合结构块,引入竞争注意力模块;3)在金字塔网络的特征融合结构块添加空间注意力机制,使用空间协同注意力模块,对两条信息流进行调整,将调整后的两条信息流融合作为输出;4)构造基于注意力机制的金字塔网络,用中草药训练集进行训练;5)将中草药测试集中的图片传入训练好的网络模型,识别出该图片对应的中草药类别。本发明提高了中草药识别的准确率与性能,并且除了能辅助相关产业人员识别中草药,也能方便非专业人士对中草药的辨别。
Description
技术领域
本发明涉及计算机领域中的图像识别、中医领域的中草药识别的应用技术领域,具体涉及一种基于注意力机制的金字塔网络的中草药识别方法。
背景技术
图像分类识别技术是以数字图像为基础,从图像中提取出特征来对图像的类别进行识别判定。深度卷积神经网络在图片处理领域已经取得了巨大的成功[C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,andA.Rabinovich.Going deeper with convolutions.CVPR,2015.],它能够从复杂的图片数据集中自动建模提取特征,因此已经广泛应用在目标检测[R.Girshick.Fast r-cnn.Proceedings of the IEEE international conference on computer vision,2015]与图像识别[G.Huang,Z.Liu,L.Van Der Maaten,and K.Q.Weinberger.Denselyconnected convolutional networks.CVPR,2017.]上并且有不错的表现。在深度卷积神经网络中,特征金字塔网络[T.-Y.Lin,P.Doll′ar,R.B.Girshick,K.He,B.Hariharan,andS.J.Belongie.Feature pyramid networks for objectdetection.CVPR,2017.]能够以不牺牲模型表达能力、速度以及内存的前提下,产生不同分辨率的特征图,并且在每个尺度上的特征图都融合了较强的语义特征,使得每个尺度的特征都可用来分类以解决多尺度问题。而中草药通常以下特点:某些中草药通过大致的轮廓形状即可区分,而非过于细节的特征;某些中草药则外形相似,需要更为精细的特征才能区分。因此,由于中草药图片通常涉及多种尺度的特征,选择基于特征金字塔网络进行中草药识别任务。
另一方面,在网络内部隐含关系的建模上,通道注意力机制[Hu,Jie,Li Shen,andGang Sun."Squeeze-and-excitation networks."Proceedings of the IEEE conferenceon computer vision and pattern recognition.2018.]可以建模特征通道间的依赖关系,突出强调某些通道上更有用的特征图,而抑制冗余的特征图,从而让网络性能得到提升。由于传统的特征金字塔不加区别地把所有通道的特征图都用上从而导致冗余,有用的特征图没有得到充分的训练,因此有必要对进行融合的信息流引入通道注意力机制,让其隐含的竞争关系更好地权衡每个通道的特征通道关系,减少冗余产生的同时,突出强调在不同层次中通道间更有利于分类的特征图。另外,空间注意力机制[W.Li,X.Zhu,andS.Gong.Harmonious attention network for person re-identification.CVPR,2018.]是在像素级别上对特征进行重新校准的机制,除了能够从全局的角度重新调整特征图的空间分布,还能突出强调更有利于分类的区域,从而让网络性能得到提升。
在中医学中,中药是常见而有效的治疗手段之一,在中医完整的理论体系指导下,其被用于调和人体机能以及治疗和预防疾病[C.C.Yang and P.Veltri.Intelligenthealthcare informatics in big data era.Artificial intelligence in medicine,65(2):75–77,2015.]。现如今人们对中医健康养生观念越加重视,但他们中的大多数并非专业人士,对中草药辨别的知识十分匮乏;即使是相关产业人员,面对纷繁复杂的中草药种类,他们也无法完全准确地识别出中草药。此外,因误识中草药而导致严重后果的事件也时有发生。尽管中医从业人员可以凭借丰富的经验快速识别出某种中草药,但对于普通人群来说,识别中草药具有一定的困难,因此利用计算设备来自动识别中草药成为一种急迫的需求。近年来的中草药识别可以从特征的提取方式分为两类方法,分别是基于物理或化学特征的中草药识别[陈艳江,刘艳艳,赵国忠,等.基于支持向量机的中药太赫兹光谱鉴别[J].光谱学与光谱分析,2009,29(9):2346-2350.]和基于图像提取特征的中草药识别[Liu,Changjiang,Xuling Wu,and Wei Xiong."Chinese herbal medicineclassification based on BP neural network."Journal of Software 9.4(2014):938-944.]。前者往往需要特定器材来提取中草药特征,不便于推广使用;而后者现有的方法还是利用传统图像特征来进行识别,这些相对单一的传统特征表达能力有限,从而限制了识别效果。并且,以上方法的特征提取和学习过程是分离的,这带来了参数优化的不连续性。虽然如此,但这也表明了基于图像的中草药识别的可行性。而神经网络以其丰富的表征能力见长,并且能够进行端到端的训练。因此利用深度卷积网络来进行中草药识别,可以大大提高识别的性能,为非专业人士提供更便捷的识别方法,还可以辅助相关从业人员进行识别。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于注意力机制的金字塔网络的中草药识别方法,所述方法能够准确、快速地对中草药的类别进行识别,为相关从业人员提供辅助依据,更能方便非专业人士准确识别中草药。
本发明的目的可以通过如下技术方案实现。
一种基于注意力机制的金字塔网络的中草药识别方法,包括以下步骤:
S1、采集中草药图片及标注图片的类别标签构建中草药数据集,制作中草药训练集与中草药测试集,并分别进行预处理;
S2、构建基于通道注意力机制的特征融合结构块,引入竞争注意力模块;
S3、在金字塔网络的特征融合结构块添加空间注意力机制,即添加空间协同注意力模块;将空间协同注意力模块获得的空间关系信息以及S2中竞争注意力模块获得的通道关系信息同时对金字塔网络的特征融合结构块的输入的两条信息流进行调整,最后将调整后的两条信息流融合,作为金字塔网络的基于竞争注意力模块的特征融合结构块的输出;
S4、构造基于注意力机制的金字塔网络,并用中草药训练集进行训练;
S5、将中草药测试集的图片传入S4中训练好的基于注意力机制的金字塔网络,识别出该图片对应的中草药类别。
进一步的,所述步骤S1中采集中草药图片的方式包括拍摄药材图片和网络爬虫的方式;所述中草药数据集包括98种中草药图片,每一张中草药图片都标注一种类别的中草药标签;
进一步的,所述中草药训练集图片的预处理方式为随机裁剪、缩放、随机翻转和归一化操作,测试样本集图片的预处理方式为缩放、居中裁剪和归一化操作。
进一步的,所述步骤S2的构建基于通道注意力机制的特征融合结构块是将不同层级的特征进行融合,并且在融合过程使用竞争注意力模块,让来自不同层级的特征融合的两条流进行自适应的竞争,得到不同层级特征的通道关系信息,具体如下:
2a)设置金字塔网络包含N(N为超参数)层金字塔层,每层金字塔层包含两个路径,即自下而上路径(Bottom-up)和自上而下路径(Top-down),自下而上路径(Bottom-up)又包含α个(α为超参数,一般设为2或3)卷积层,而自上而下路径(Top-down)包含一个特征融合结构块;
定义第l层金字塔层的自上而下路径即Top-down路径上第l层上采样的输出为其中Hl、Wl、Cd分别为第l层特征图的高、宽和通道数,下同),作为金字塔网络的第l层金字塔层的特征融合结构块的一个输入之一,而第l层金字塔层自下而上的路径即Bottom-up路径上的最后一个卷积层输出的特征经过侧向连接输出的一组特征图为作为该金字塔网络的第l层金字塔层的特征融合结构块的另一输入。
2a)引入竞争注意力模块,所述竞争注意力模块是对特征进行挤压处理和激励处理。
进一步的,所述挤压处理是将来自Top-down路径与Bottom-up路径的输入分别经过全局平均池化处理,具体为:
定义第l层金字塔层的自上而下路径(Top-down)上的上采样的输出其中为其第c通道的特征图,共有Cd个通道;而第l层金字塔层的Bottom-up路径上的最后一个卷积层输出的特征经过侧向连接输出的一组特征图其中为其第c通道的特征图,共有Cd个通道,则全局平均池化操作为:
其中,分别为第l层两条流中Top-down路径和Bottom-up路径上的输入中的特征第c个通道的描述符,与Cd是一体的,为一个常量,d仅是一个标记,Fsq(·)为全局平均池化操作,分别为第l层两条流中Top-down路径和Bottom-up路径上的输入中的特征第c个通道的特征图,分别为第l层两条流中Top-down路径和Bottom-up路径上的输入中的特征第c个通道的特征图在位置(i,j)上的值。
所述激励处理是用一个由两层全连接层组成的轻量级小网络对这两条被池化过的信息流进行建模,从而得到第l层融合特征的通道关系信息,该网络的建模方式如下:
其中,sl为尺寸是1×1×2Cd的权重矩阵,即在两条信息流的融合过程中乘上该权重来调配这两条信息流,其中Fex(·)为两层全连接层的前向传播操作,wex为两层全连接层的权重矩阵,为第1层的特征融合结构块的竞争注意力模块的权重矩阵中第c个通道对应的权重。
进一步的,所述步骤S3是在金字塔网络的特征融合结构块添加空间注意力机制,即利用空间协同注意力模块,让来自深层的、含有更多全局信息的特征,以来自浅层的、含有更多局部信息的特征进行融合,自适应地协同建模不同粒度的空间关系,将获得的空间关系信息以及通道关系信息同时对两条信息流进行调整,最后将调整后的两条分别来自自上而下Top-down路径与自下而上的Bottom-up路径的信息流融合,作为该金字塔网络的特征融合结构块的输出,具体为:
3a)将要融合的两条信息流与(含义同2a)分别经过跨通道的全局平均池化操作处理,得到两个经挤压后的空间描述符分别对应两条信息流,其中对应这两张特征图的位置(i,j)的和的计算如下:
其中,Gsq(·)为跨通道的全局平均池化操作,与分别为第l层两条流中Top-down路径和Bottom-up路径上的输入中的特征中所有通道的位置为(i,j)的值,而含义同2a。
3b)然后用一个由两层卷积层组成的轻量级小网络对这两张被压缩过的空间描述符 差行空间上的建模,从而得到第l层融合特征的空间关系信息。所述的的建模方式如下:
其中,hl是尺寸为Hl×Wl×2的权重矩阵,即空间关系信息在两条信息流的融合过程中乘上该权重来调配这两条信息流,其中Gex(·)为两层卷积层的前向传播操作,wha为两层卷积层的权重矩阵,和分别为第1层的特征融合结构块的空间协同注意力模块的激活权重矩阵中Top-down和Bottom-up路径上的输入对应的权重。
3c)然后将该空间关系信息hl与步骤S2中得到的通道关系信息sl点乘之后再做一个调整,调整如下:
分别为2b中第1层特征融合结构块在Bottom-up与Top-down路径上的输入的通道关系信息,含义也同2b,接着将该通道关系信息与3b中的空间关系信息hl相乘得到完整的注意力模块的激活值:
其中为通道关系信息和空间关系信息相乘后的权重矩阵,再将 输入一个卷积层后,得到金字塔第1层的注意力模块的激活值为
3d)将3c)中得到的金字塔网络第l层金字塔层的特征融合结构块中的注意力模块的激活值分别乘上两条要融合的信息流上,并且两条要融合的信息流相加进行融合,得到该结构块的输出:
进一步的,所述步骤S4的构造基于注意力机制的金字塔网络,具体为:在Top-down路径上使用S3中的基于注意力机制的特征融合结构块,将所有层的基于注意力机制的特征融合结构块输出的融合后的特征进行沿着通道维的连接操作,并连接分类器Softmax进行输出,至此得到完整的基于注意力机制的金字塔网络。
进一步的,所述步骤S4的训练是采用交叉熵损失函数,优化算法采用随机梯度下降方法。输入训练数据集,多次迭代将能训练出较优网络模型。
进一步的,步骤S5是将中草药测试集中的中草药图片传入训练好的网络模型,网络输出的Softmax预测向量中最大值对应的类别标签,即该测试图片的中草药类别。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明的基于竞争注意力模块的特征融合结构块考虑了融合的两条信息流通道间的关系,让两条信息流在竞争中调整通道间每一张特征图的权重,减少信息冗余的发生,从而提升网络的建模能力。另一方面,该结构块也考虑了两条信息流的空间上的关系,让来自深层的、含有更多全局信息的特征,以来自浅层的、含有更多局部信息的特征进行融合,自适应地协同建模不同粒度的空间关系,从而得到融合了不同粒度信息的融合特征,进一步提升网络的表达能力,且基于该结构块搭建的网络在中草药图像分类任务中表现出色。
2、本发明的基于注意力机制的金字塔网络提取的特征相比传统图像特征具有不同的粒度,这是更强的表征能力,并且能够进行端到端的训练。
3、本发明将基于注意力机制的金字塔网络引入中草药识别领域,能提取拥有较强语义的多个粒度的特征,满足中草药识别任务对多粒度特征的需求,让中草药识别精度得到进一步提升。这种方法不依赖特定器材,便于推广使用,方便非专业人士识别中草药以及辅助相关从业人员的工作。
附图说明
图1为竞争注意力模块和基于竞争注意力模块的金字塔网络结构的架构图;
图2为竞争注意力模块与空间协同注意力模块结合后完整的注意力模块结构图;
图3为本发明实施例基于注意力模块构建的金字塔网络的中草药识别方法的流程图;
图4为本发明实施例中中草药的训练集与测试集的预处理流程图。
具体实施方式
下面结合实施例及附图对本发明的实施作进一步详细的描述,但本发明的实施方式不限于此。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种基于注意力机制的金字塔网络的中草药识别方法,所述方法的流程图如图3所示,包括以下步骤:
S1、利用采集设备采集中草药图片数据并标注其类别标签作为输入;然后对带标签的中草药图片进行预处理,制作中草药训练集与中草药测试集;
本实施例所用数据集覆盖了常见的98类中草药,共9184张图片,大部分为天然的植物以及小部分为菌藻类,包含了8大类中草药:果实籽仁类、根茎类、花类、树皮类、菌藻类、全草类、叶类和树脂类。所述的中草药图片部分来自于在药材店、医院药房等利用相机或者手机进行拍摄,另一部分是从网络上爬取下来的,每张图片的类别标签都是根据药材店或者医院相关从业人员提供的信息人工进行标注的。本实施例采用python语言,基于mxnet-gluon深度学习框架,在ubuntu系统上实现实施例的代码及运行。
如图4所示,将采集的中草药图片数据以4∶1的比例分为训练集和测试集两个部分,对于训练集,以0.08至1.0的比例对原始图像进行裁剪,再将裁剪出的图片放缩到224×224尺寸;然后对其进行随机水平翻转进行数据增广,并对图片的R、G、B三个通道分别进行归一化与标准化处理。而对于测试集,将图片均缩放到256×256尺寸,再居中裁剪出224×224尺寸的图片,并对图片的R、G、B三个通道分别进行归一化与标准化处理。每一张中草药图片都标注一种类别的中草药标签。
S2、构建基于竞争注意力模块的特征融合结构块:在金字塔网络中使用竞争注意力模块,让来自不同层级的特征融合的两条流进行自适应的竞争,得到不同层级特征的通道关系信息。该实施例的特征融合结构块使用基于竞争注意力模块的特征融合结构块,其中,对于竞争注意力模块的结构采用全连接层的方式。如图1所示的竞争注意力模块和基于竞争注意力模块的金字塔网络结构的架构图,具体描述步骤如下:
S2.1:进行融合的两条信息流分别来自Top-down路径与Bottom-up路径:设金字塔网络共有N(本实施例中N取4,最高一层特征图的高为HN,宽为WN,通道数为CN)层金字塔层,对于金字塔的每一层金字塔层(这里用第l层指代其中一层),Top-down路径的特征输入结构块前都经过一次上采样(采用双线性插值的方式)得到特征使其分辨率与即将融合的信息流的特征分辨率一致,并且通道维固定为Cd,Cd为当前两条信息流各自的通道数,本实施例取256;而Bottom-up路径的特征经过1×1卷积都统一将通道维固定为Cd从而得到Bottom-up路径上即将融合的信息流的特征接着利用如图1右图所示的竞争注意力模块建模,即挤压和激励步骤。
S2.2:进行挤压处理,将S2.1所述的两条输入的信息流与分别经过全局平均池化处理,得到该层两条流中Top-down路径和Bottom-up路径上的输入特征所有通道描述符,分别为
S2.3:进行激励处理,用由两层全连接层组成的网络对被挤压后的两条信息流进行建模,从而得到这两条信息流的通道关系信息。如图1右图展示了该网络的结构图,采用双全连接层的方法来建模;
S2.3.1:首先把经过挤压处理的两条信息流的通道描述符与沿着通道维进行连接(concatenate)操作得到然后将其输入一层全连接层(在本实施例中,图1右图中的放缩因子t取16)得到一个低维空间的激励信号其中该全连接层由(即)个神经元组成,激活函数为ReLU函数(线性整流函数);
S2.3.2:然后再将步骤S2.2.1得到的输出再通过一层全连接层进行建模,该全连接层由2Cd个神经元组成,激活函数采用Sigmoid函数。从而得到该激励结构的最后的激励信号作为两条融合的信息流共同的通道关系信息表现为尺寸为1×1×2Cd的权重矩阵,即将sl分成两部分,分别对两条信息流进行调配权重,其中Bottom-up路径上的输入信息流对应的权重矩阵为Top-down路径上的输入信息流对应的权重矩阵为
S3、在步骤S2的特征融合结构块中使用空间协同注意力模块,让来自深层的、含有更多全局信息的特征,以来自浅层的、含有更多局部信息的特征进行融合,自适应地协同建模不同粒度的空间关系,将获得的空间关系信息以及通道关系信息同时对两条信息流进行调整,最后将调整后的两条信息流融合,作为该结构块的输出。
对要进行融合的两条信息流与使用空间协同注意力模块进行建模,具体步骤如下:
S3.1:将两条信息流与分别进行跨通道的全局平均池化处理,得到两张被挤压后的空间描述符Hl,Wl分别表示金字塔网络的第l层金字塔层的特征的高和宽。
S3.2:用一个由两层卷积层组成的轻量级小网络对这两张被压缩过的空间描述符进行空间上的建模,从而得到这两条信息流的空间建模信息,如图2所示:
S3.2.1:首先把这两张被压缩过的空间描述符与沿着通道维进行连接(concatenate)操作得到然后将其输入到步长为2,尺寸为3×3×2的卷积中得到一个激励信号
S3.2.2:然后对S3.2.2中的pl′使用双线性插值的方法进行上采样(Resize)得到输出再用一个步长为1,尺寸为1×1×2的卷积进行自适应放缩,减少上采样的混叠效应,得到的激励信号作为空间关系信息表现为尺寸为Hl×Wl×2的权重矩阵,即将hl分成两部分,分别对两条信息流进行调配权重,其中Bottom-up路径上的输入信息流对应的权重矩阵为Top-down路径上的输入信息流对应的权重矩阵为
S3.3:将该空间关系信息的两部分与步骤S2中得到的通道关系信息的两部分 相乘得到
其中为通道关系信息和空间关系信息相乘后的权重矩阵,然后将这两个权重矩阵分别通过1层步长为1,尺寸为1×1×Cd的卷积层对通道与空间信息做一个调整,并且再使用Sigmoid函数将其归一化,得到金字塔第l层的注意力模块的激活值为
S3.4:最后将注意力模块的激活值分别乘回S2中的两条融合的两条信息流与上,得到激励后的信息流,再对这两条信息流进行点到点相加操作,得到该基于注意力机制的特征融合结构块输出的特征图,即xpl,输出后的融合特征会经过3×3×Cd的卷积层以及批归一化(Batch Normalization)和ReLU函数(线性整流函数)处理来减缓上采样带来的混叠效应。
S4、以残差网络(Pre-act ResNet18)作为金字塔网络的主网络结构,在特征融合结构块中使用S3中基于注意力机制的特征融合结构块,构造基于注意力机制的金字塔网络,并用中草药训练集进行训练。
具体地,以残差网络Pre-act ResNet18作为金字塔网络的主网络结构,在金字塔网络中使用S3中构造完成的基于注意力机制的特征融合结构块,构造。构造完成的基于注意力机制的金字塔网络的Bottom-up路径与Top-down路径的详细设计分别如表1与表2所示:
表1自下而上路径(Bottom-up)
其中,表1中的Conv表示卷积核,stride为步长,Maxpool为最大池化层。
表2自上而下路径(Top-down)
其中,表中的upsampling为上采样操作,avgpool为平均池化操作,concatenate为连接操作,fc为全连接层,channel-avgpool为跨通道的平均池化操作,Conv为卷积核,dense,pconv分别为对应层的名称。
训练阶段具体过程为:
a)使用中草药训练集训练基于注意力机制的金字塔网络,对每层输出的融合特征进行全局平均池化处理后沿着通道维进行连接(concatenate)操作,再输入一层全连接层将维度压缩到98维之后,使用Softmax分类器得到该网络的输出。损失函数采用交叉熵损失函数。
b)采用带动量为0.9的随机梯度下降优化算法训练网络;
c)训练的超参设置为:初始学习率为0.1且分别在迭代次数为120,200,260时学习率下降5倍,权重衰减设置为0.0005,每一个批次大小(batch size)设置为64,一共迭代300轮。
S5、将中草药测试集的图片传入训练好的网络模型,识别出该中草药图片对应的类别。
具体地,将经过预处理后的测试图片,传入步骤S4中训练得到的表现良好的模型,从而得到Softmax的预测输出。这预测输出中数值最高对应的类别即为该中草药图片对应的类别。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。
Claims (9)
1.一种基于注意力机制的金字塔网络的中草药识别方法,其特征在于,所述方法包括以下步骤:
S1、采集中草药图片及标注图片的类别标签构建中草药数据集,制作中草药训练集与中草药测试集,分别对中草药训练集与中草药测试集进行预处理;
S2、构建基于通道注意力机制的特征融合结构块,同时引入竞争注意力模块;
S3、在基于通道注意力机制的特征融合结构块添加空间注意力机制,即添加空间协同注意力模块;
S4、构造基于注意力机制的金字塔网络,并用中草药训练集进行训练;
S5、将中草药测试集中的样本图片传入S4中训练好的基于注意力机制的金字塔网络,识别出该图片对应的中草药类别。
2.根据权利要求1所述的中草药识别方法,其特征在于,所述步骤S1中采集中草药图片的方式包括拍摄药材图片和网络爬虫;所述中草药数据集包括98种中草药图片,每一张中草药图片都标注一种类别的中草药标签。
3.根据权利要求1所述的中草药识别方法,其特征在于,所述中草药训练集的预处理方式为随机裁剪、缩放、随机翻转和归一化操作;所述中草药测试集的预处理方式为缩放、居中裁剪和归一化操作。
4.根据权利要求1所述的中草药识别方法,其特征在于,所述步骤S2的构建基于通道注意力机制的特征融合结构块是将不同层级的特征进行融合,并且在融合过程使用竞争注意力模块,让来自不同层级的特征融合的两条流进行自适应的竞争,得到不同层级特征的通道关系信息,具体如下:
2a)设置金字塔网络包含N层金字塔层,N为超参数;每层金字塔层包括两个路径,分别为自下而上路径(Bottom-up)和自上而下路径(Top-down);所述自下而上路径包括α个卷积层,α为超参数;所述自上而下路径包含一个特征融合结构块;
定义第l层金字塔层的自上而下路径即Top-down路径上的特征经过上采样的输出为其中,Hl、Wl、Cd分别为第l层特征图的高、宽和通道数量,Cd为超参数,通常为常量,,N分别代表第l层金字塔层和金字塔层数,特征图作为金字塔网络的第l层金字塔层的特征融合结构块的一个输入之一;第l层金字塔层自下而上的路径即Bottom-up路径上的最后一个卷积层输出的特征经过侧向连接输出的一组特征图为作为金字塔网络的第l层金字塔层的特征融合结构块的另一输入;
2b)引入竞争注意力模块,所述竞争注意力模块是对特征进行挤压处理和激励处理。
5.根据权利要求4所述的中草药识别方法,其特征在于,所述挤压处理是将来自Top-down路径与Bottom-up路径的输入分别经过全局平均池化处理,具体为:
定义第l层金字塔层的Top-down路径上的上采样的输出其中为其第c通道的特征图,其中,共有Cd个通道;而第l层金字塔层的Bottom-up路径上的最后一个卷积层输出的特征经过侧向连接输出的一组特征图其中为其第c通道的特征图,共有Cd个通道,则全局平均池化操作为:
其中,分别是第l层金字塔层的Top-down路径和Bottom-up路径上输入的特征中第c个通道的描述符,Fsq(·)为全局平均池化操作,分别是第l层金字塔层的Top-down路径和Bottom-up路径上输入的特征中第c个通道的一张特征图,分别是第l层金字塔层的Top-down路径和Bottom-up路径上输入的特征中第c个通道的特征图在位置(i,j)上的值;
所述激励处理是用一个由两层全连接层组成的网络对这两条被池化过的信息流进行建模,从而得到第l层金字塔层融合特征的通道关系信息,建模方式如下:
其中,sl为尺寸是1×1×2Cd的权重矩阵,即在两条信息流的融合过程中乘上该权重来调配这两条信息流,其中Fex(·)为两层全连接层的前向传播操作,wex为两层全连接层的权重矩阵,为第l层金字塔层的特征融合结构块的竞争注意力模块生成的权重矩阵中第c个通道对应的权重。
6.根据权利要求1所述的中草药识别方法,其特征在于,所述步骤S3具体为:
3a)将要融合的两条信息流与分别经过跨通道的全局平均池化操作处理,得到两个经挤压后的的空间描述符 分别对应两条信息流,其中对应这两张特征图的位置(i,j)的和的计算如下:
其中,Gsq(·)为跨通道的全局平均池化操作,与分别为第l层两条流中Top-down路径和Bottom-up路径上的输入中的特征中所有通道的位置为(i,j)的值,而 含义同2a;
3b)然后用一个由两层卷积层组成的网络对这两个经挤压后的空间描述符 进行空间上的建模,从而得到第l层融合特征的空间关系信息,所述的的建模方式如下:
其中,hl是尺寸为Hl×Wl×2的权重矩阵,即空间关系信息在两条信息流的融合过程中乘上该权重来调配这两条信息流,其中Gex(·)为两层卷积层的前向传播操作,wha为两层卷积层的权重矩阵,和分别为第l层的特征融合结构块的空间协同注意力模块的激活权重矩阵中Top-down和Bottom-up路径上的输入对应的权重;
3c)然后将该空间关系信息hl与步骤S2中得到的通道关系信息sl点乘之后再做一个调整,调整如下:
分别为2b中第l层特征融合结构块在Bottom-up与Top-down路径上的输入的通道关系信息,含义也同2b,接着将该通道关系信息与3b中的空间关系信息hl相乘得到完整的注意力模块的激活值:
其中 为通道关系信息和空间关系信息相乘后的权重矩阵,再将 输入一个卷积层后,得到金字塔第l层的注意力模块的激活值为
3d)将步骤3c)中得到的金字塔网络第l层金字塔层的特征融合结构块中的注意力模块的激活值 分别乘上两条要融合的信息流上,并且两条要融合的信息流相加进行融合,得到该结构块的输出:
7.根据权利要求1所述的中草药识别方法,其特征在于,所述步骤S4的构造基于注意力机制的金字塔网络,具体为:在Top-down路径上使用S3中的基于注意力机制的特征融合结构块,将所有层的基于注意力机制的特征融合结构块输出的融合后的特征进行沿着通道维的连接操作,并连接分类器Softmax进行输出,至此得到完整的基于注意力机制的金字塔网络。
8.根据权利要求1所述的中草药识别方法,其特征在于,所述步骤S4的训练是采用交叉熵损失函数和采用随机梯度下降方式对基于注意力机制的金字塔网络进行迭代训练。
9.根据权利要求1所述的中草药识别方法,其特征在于,步骤S5是将中草药测试集的中草药图片传入训练好的练基于注意力机制的金字塔网络后,以预测输出结果中预测值最高的标签为该测试图片的中草药类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910254774.XA CN110110751A (zh) | 2019-03-31 | 2019-03-31 | 一种基于注意力机制的金字塔网络的中草药识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910254774.XA CN110110751A (zh) | 2019-03-31 | 2019-03-31 | 一种基于注意力机制的金字塔网络的中草药识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110751A true CN110110751A (zh) | 2019-08-09 |
Family
ID=67484777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910254774.XA Pending CN110110751A (zh) | 2019-03-31 | 2019-03-31 | 一种基于注意力机制的金字塔网络的中草药识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110751A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796239A (zh) * | 2019-10-30 | 2020-02-14 | 福州大学 | 一种通道与空间融合感知的深度学习目标检测方法 |
CN110827312A (zh) * | 2019-11-12 | 2020-02-21 | 北京深境智能科技有限公司 | 一种基于协同视觉注意力神经网络的学习方法 |
CN111160389A (zh) * | 2019-12-02 | 2020-05-15 | 东北石油大学 | 一种基于融合vgg的岩性识别方法 |
CN111241326A (zh) * | 2019-12-26 | 2020-06-05 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111428191A (zh) * | 2020-03-12 | 2020-07-17 | 五邑大学 | 基于知识蒸馏的天线下倾角计算方法、装置和存储介质 |
CN111860619A (zh) * | 2020-07-02 | 2020-10-30 | 苏州富鑫林光电科技有限公司 | 一种工业检测用深度学习的ai智能模型 |
CN112036467A (zh) * | 2020-08-27 | 2020-12-04 | 循音智能科技(上海)有限公司 | 基于多尺度注意力神经网络的异常心音识别方法及装置 |
CN112381176A (zh) * | 2020-12-03 | 2021-02-19 | 天津大学 | 一种基于双目特征融合网络的图像分类方法 |
WO2021063119A1 (en) * | 2019-10-01 | 2021-04-08 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and apparatus for image processing, terminal |
CN112801942A (zh) * | 2020-12-31 | 2021-05-14 | 广西慧云信息技术有限公司 | 一种基于注意力机制的柑橘黄龙病图像识别方法 |
CN112906780A (zh) * | 2021-02-08 | 2021-06-04 | 中国科学院计算技术研究所 | 一种果蔬图像分类系统及方法 |
CN113095265A (zh) * | 2021-04-21 | 2021-07-09 | 西安电子科技大学 | 基于特征融合和注意力的真菌目标检测方法 |
CN113869292A (zh) * | 2021-12-02 | 2021-12-31 | 智道网联科技(北京)有限公司 | 用于自动驾驶的目标检测方法、装置及设备 |
CN114638993A (zh) * | 2022-03-21 | 2022-06-17 | 华南师范大学 | 基于深度学习的图像细粒度分类方法及装置 |
CN114723745A (zh) * | 2022-05-18 | 2022-07-08 | 南京工业大学 | 一种基于双注意力机制的卷积神经网络的中药种类识别方法 |
CN114778485A (zh) * | 2022-06-16 | 2022-07-22 | 中化现代农业有限公司 | 基于近红外光谱和注意力机制网络的品种鉴定方法及系统 |
CN113920378B (zh) * | 2021-11-09 | 2023-10-20 | 西安交通大学 | 基于注意力机制的柴胡种子识别方法 |
-
2019
- 2019-03-31 CN CN201910254774.XA patent/CN110110751A/zh active Pending
Non-Patent Citations (1)
Title |
---|
YINGXUE XU 等: "Chinese Herbal Recognition based on Competitive Attentional Fusion of Multi-hierarchies Pyramid Features", 《ARXIV:1812.09648V1 [CS.CV]》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021063119A1 (en) * | 2019-10-01 | 2021-04-08 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and apparatus for image processing, terminal |
CN110796239A (zh) * | 2019-10-30 | 2020-02-14 | 福州大学 | 一种通道与空间融合感知的深度学习目标检测方法 |
CN110827312B (zh) * | 2019-11-12 | 2023-04-28 | 北京深境智能科技有限公司 | 一种基于协同视觉注意力神经网络的学习方法 |
CN110827312A (zh) * | 2019-11-12 | 2020-02-21 | 北京深境智能科技有限公司 | 一种基于协同视觉注意力神经网络的学习方法 |
CN111160389A (zh) * | 2019-12-02 | 2020-05-15 | 东北石油大学 | 一种基于融合vgg的岩性识别方法 |
CN111241326A (zh) * | 2019-12-26 | 2020-06-05 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111241326B (zh) * | 2019-12-26 | 2023-09-26 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111401201B (zh) * | 2020-03-10 | 2023-06-20 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111428191A (zh) * | 2020-03-12 | 2020-07-17 | 五邑大学 | 基于知识蒸馏的天线下倾角计算方法、装置和存储介质 |
CN111428191B (zh) * | 2020-03-12 | 2023-06-16 | 五邑大学 | 基于知识蒸馏的天线下倾角计算方法、装置和存储介质 |
CN111860619A (zh) * | 2020-07-02 | 2020-10-30 | 苏州富鑫林光电科技有限公司 | 一种工业检测用深度学习的ai智能模型 |
CN112036467A (zh) * | 2020-08-27 | 2020-12-04 | 循音智能科技(上海)有限公司 | 基于多尺度注意力神经网络的异常心音识别方法及装置 |
CN112036467B (zh) * | 2020-08-27 | 2024-01-12 | 北京鹰瞳科技发展股份有限公司 | 基于多尺度注意力神经网络的异常心音识别方法及装置 |
CN112381176A (zh) * | 2020-12-03 | 2021-02-19 | 天津大学 | 一种基于双目特征融合网络的图像分类方法 |
CN112801942A (zh) * | 2020-12-31 | 2021-05-14 | 广西慧云信息技术有限公司 | 一种基于注意力机制的柑橘黄龙病图像识别方法 |
CN112801942B (zh) * | 2020-12-31 | 2023-10-13 | 广西慧云信息技术有限公司 | 一种基于注意力机制的柑橘黄龙病图像识别方法 |
CN112906780A (zh) * | 2021-02-08 | 2021-06-04 | 中国科学院计算技术研究所 | 一种果蔬图像分类系统及方法 |
CN113095265A (zh) * | 2021-04-21 | 2021-07-09 | 西安电子科技大学 | 基于特征融合和注意力的真菌目标检测方法 |
CN113920378B (zh) * | 2021-11-09 | 2023-10-20 | 西安交通大学 | 基于注意力机制的柴胡种子识别方法 |
CN113869292A (zh) * | 2021-12-02 | 2021-12-31 | 智道网联科技(北京)有限公司 | 用于自动驾驶的目标检测方法、装置及设备 |
CN114638993A (zh) * | 2022-03-21 | 2022-06-17 | 华南师范大学 | 基于深度学习的图像细粒度分类方法及装置 |
CN114723745A (zh) * | 2022-05-18 | 2022-07-08 | 南京工业大学 | 一种基于双注意力机制的卷积神经网络的中药种类识别方法 |
CN114778485A (zh) * | 2022-06-16 | 2022-07-22 | 中化现代农业有限公司 | 基于近红外光谱和注意力机制网络的品种鉴定方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110751A (zh) | 一种基于注意力机制的金字塔网络的中草药识别方法 | |
CN105956532B (zh) | 一种基于多尺度卷积神经网络的交通场景分类方法 | |
CN110210485A (zh) | 基于注意力机制指导特征融合的图像语义分割方法 | |
CN108564097A (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
CN105894045B (zh) | 一种基于空间金字塔池化的深度网络模型的车型识别方法 | |
CN108875674B (zh) | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 | |
CN110298262A (zh) | 物体识别方法及装置 | |
CN108549893A (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN110084794A (zh) | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 | |
CN108509978A (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN109389055A (zh) | 基于混合卷积和注意力机制的视频分类方法 | |
CN108764063A (zh) | 一种基于特征金字塔的遥感影像时敏目标识别系统及方法 | |
CN108596248A (zh) | 一种基于改进深度卷积神经网络的遥感影像分类模型 | |
CN109522966A (zh) | 一种基于密集连接卷积神经网络的目标检测方法 | |
CN110428428A (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
CN109584248A (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN105426919B (zh) | 基于显著性指导非监督特征学习的图像分类方法 | |
Gao et al. | MLNet: Multichannel feature fusion lozenge network for land segmentation | |
CN109101975A (zh) | 基于全卷积神经网络的图像语义分割方法 | |
CN108427920A (zh) | 一种基于深度学习的边海防目标检测方法 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN108460403A (zh) | 一种图像中多尺度特征融合的目标检测方法与系统 | |
CN107742107A (zh) | 人脸图像分类方法、装置及服务器 | |
CN109101914A (zh) | 一种基于多尺度的行人检测方法和装置 | |
CN109741331A (zh) | 一种图像前景物体分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |
|
RJ01 | Rejection of invention patent application after publication |