CN110647897A - 一种基于多部分注意力机制的零样本图像分类识别方法 - Google Patents
一种基于多部分注意力机制的零样本图像分类识别方法 Download PDFInfo
- Publication number
- CN110647897A CN110647897A CN201810673456.2A CN201810673456A CN110647897A CN 110647897 A CN110647897 A CN 110647897A CN 201810673456 A CN201810673456 A CN 201810673456A CN 110647897 A CN110647897 A CN 110647897A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- follows
- training
- sample image
- zero
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多部分注意力机制的零样本图像分类识别方法,其特征在于,包括以下步骤:S1.训练多部分卷积探测器;S2.训练语义特征提取器;S3.获取训练集的图片,通过训练注意力探测器进行处理;S4.进行损失计算;S5.重复进行步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。本发明采用了语义分割的方式,先将整张图片进行语义分割出有效部位,筛掉不必要的冗余信息,然后再分别对多个部位进行特征提取;对于不同的部位,提出了将注意力机制作用于不同部位进行加权,使得每一个样本都有不同的加权方式,因此对于每一个样本,都会产生一些权值高的部位,这些部位能更好的把它和其他类别区分开。
Description
技术领域
本发明涉及电力领域,更具体地,涉及一种基于多部分注意力机制的零样本图像分类识别方法。
背景技术
随着近几年大数据和大规模数据量学习的兴起,传统的图像识别技术逐渐无法满足新的图像识别需求,例如在测试过程中出现训练集中没有出现过的类别,这个问题在当前的海量数据中尤为突出,因为大规模数据量即大规模类别,并且一个类别下还存在多个子类。因此提高零样本下的图像分类问题具有重要的现实意义。为了提高训练不可见类别的识别率,人们提出了双线性模型,通过语义描述的辅助信息资源建立从可见类到不可见类的联系。在训练过程中,用具有语义信息的嵌入向量代替原类别标签,并将图像特征和语义特征映射到同一低维潜层空间,通过各种机器学习方法来完成图像的分类工作。这种方法减少了传统分类过程中训练好的分类器对原数据的过度依赖,实现了分类器的泛化性,完成了知识的迁移过程,最终提高了零样本学习过程的识别精度。
然而,目前的这种双线性映射都是直接建立在整张图片和语义描述之间。对于现实来说,整张图片除了需要识别的目标以外,还存在大量的与语义描述无关的信息,例如背景、其他目标主体与识别信息中无用的信息等,这些信息会对整个实验的特征提取乃至识别分类都有一定程度的干扰。其次,对于图片有效区域的不同位置,目前的算法都是统一进行处理的,但是从理论上来说,我们识别物体都会重点关注一些具有区别性的部分,这些区别性的部分能更好的将该类和其他类更好的区分开,尤其对于一些细粒度的分类来说,例如对于燕子,尾巴是识别该类的重点区域,因此该部分区域需要比其他区域有更高的关注度,从另一个方面来说,该区域的分类贡献值比其他区域更高。之前的分类过程都没有关注到这一问题,从而影响到后续的分类过程。
发明内容
本发明为克服上述现有技术所述的缺陷,提供一种基于多部分注意力机制的零样本图像分类识别方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于多部分注意力机制的零样本图像分类识别方法,包括以下步骤:
S1.获取图像,训练多部分卷积探测器;
S2.训练语义特征提取器;
S3.获取训练集的图片,通过训练注意力探测器进行处理;
S4.进行损失计算;
S5.重复进行所述步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。
进一步地,所述步骤S1的多部分卷积探测器具体包括以下步骤:
S101.通过选择性搜索算法从所述图像中得到候选框RoI;
S102.通过卷积网络从候选框RoI中得到图像特征,在卷积层conv5得到特征分布feature map;
S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的featuremap并裁剪出对应的patch,使用Ro1pooling layer将所述patch调整至固定尺寸;
S104.将patch通过两个全连接层得到特征,将特征分别通过新的全连接层进行处理,连接上各自对应的损失函数。
进一步地,所述步骤S2的具体过程如下:
使用大规模语料库作为语义的输入,通过神经网络算法提取出所有训练类和测试类的类别词向量,将。
进一步地,所述步骤S3的具体过程如下:
将训练集的图片代入所述步骤S1中的多部分探测器内,得到1张图片的多个探测部位的卷积特征,其函数如下式所示:
x1,x2,x3…xp=g(I)
其中,xp为第p部分的卷积特征;
将所述步骤S2的语义特征映射到和局部区域特征xp同样的维度,如下式所示,作为语义特征的隐藏层表示:
将局部区域特征xp和语义做内积,得到对应区域加权的权值,如下式所示:
其中,a为对应于局部区域特征x的权值,每有一个局部区域x就有一个权值a;
为了便于对权值计算,将权值进行归一化,如下所示:
进一步地,所述步骤S4的具体过程如下:
为了在分类过程中度量图像与语义表达的相似度,将语义通过两层全连接层映射到隐藏空间,如下所示:
ψ(zi)=f(W2f(W1zi))
进一步地,所述步骤S5的具体过程如下:
对所述步骤S3和S4进行多次迭代计算,当算法的损失低于预设数值后,进行测试,所述测试重复步骤S3和S4的过程,选取最小距离c*的作为类别值,如下所示:
进一步地,所述步骤S104中的新的全连接层包括分类和回归,其中,分类所对应的是softmax函数,回归所对应的是smooth_L1_loss函数。
进一步地,所述语料库为Wikipedia,神经网络算法为Word2vector。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的图像分类识别方法使用多个局部特征,减少了对其他背景信息的计算,专注于对局部位置的特征更有效的学习;
通过对局部区域加权的方式,使得不同的局部特征得到了不同的关注度,更加有利于将该类与其他类别区分开;
本发明针对目前的问题在步骤S4中提出了一个新型的损失函数;
通过在几个基准数据集上实现我们的算法,从结果上证明我们提出的方法的优越性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于多部分注意力机制的零样本图像分类识别方法流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于多部分注意力机制的零样本图像分类识别方法,其过程如图1所示,包括以下步骤:
S1.获取图像,训练多部分卷积探测器;
S2.训练语义特征提取器;
S3.获取训练集的图片,通过训练注意力探测器进行处理;
S4.进行损失计算;
S5.重复进行所述步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。
在本实施例中,所述步骤S1的多部分卷积探测器具体包括以下步骤:
S101.通过选择性搜索算法从所述图像中得到候选框RoI;
S102.通过卷积网络从候选框RoI中得到图像特征,在卷积层conv5得到特征分布feature map;
S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的featuremap并裁剪出对应的patch,使用Ro1pooling layer将所述patch调整至固定尺寸;
S104.将patch通过两个全连接层得到特征,将特征分别通过新的全连接层进行处理,连接上各自对应的损失函数。
在本实施例中,所述步骤S2的具体过程如下:
使用大规模语料库作为语义的输入,通过神经网络算法提取出所有训练类和测试类的类别词向量,将。
在本实施例中,所述步骤S3的具体过程如下:
将训练集的图片代入所述步骤S1中的多部分探测器内,得到1张图片的多个探测部位的卷积特征,其函数如下式所示:
x1,x2,x3…xp=g(I)
其中,xp为第p部分的卷积特征;
将所述步骤S2的语义特征映射到和局部区域特征xp同样的维度,如下式所示,作为语义特征的隐藏层表示:
将局部区域特征xp和语义做内积,得到对应区域加权的权值,如下式所示:
其中,a为对应于局部区域特征x的权值,每有一个局部区域x就有一个权值a;
为了便于对权值计算,将权值进行归一化,如下所示:
在本实施例中,所述步骤S4的具体过程如下:
将语义通过两层全连接层映射到隐藏空间,如下所示:
ψ(zi)=f(W2f(W1zi))
将映射后的语义矩阵与所述步骤S3得到的局部特征进行矩阵相乘,
然后与其对应的真实类别值进行欧氏距离度量差值,如下所示:
在本实施例中,所述步骤S5的具体过程如下:
对所述步骤S3和S4进行多次迭代计算,当算法的损失低于预设数值后,进行测试,所述测试重复步骤S3和S4的过程,选取最小距离c*的作为类别值,如下所示:
在本实施例中,所述步骤S104中的新的全连接层包括分类和回归,其中,分类所对应的是softmax函数,回归所对应的是smooth_L1_loss函数。
在本实施例中,所述语料库为Wikipedia,神经网络算法为Word2vector。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种基于多部分注意力机制的零样本图像分类识别方法,其特征在于,包括以下步骤:
S1.获取图像,训练多部分卷积探测器;
S2.训练语义特征提取器;
S3.获取训练集的图片,通过训练注意力探测器进行处理;
S4.进行损失计算;
S5.重复进行所述步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。
2.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S1的多部分卷积探测器具体包括以下步骤:
S101.通过选择性搜索算法从所述图像中得到候选框RoI;
S102.通过卷积网络从候选框RoI中得到图像特征,在卷积层conv5得到特征分布feature map;
S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的feature map并裁剪出对应的patch,使用Ro1pooling layer将所述patch调整至固定尺寸;
S104.将patch通过两个全连接层得到特征,将特征分别通过新的全连接层进行处理,连接上各自对应的损失函数。
3.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S2的具体过程如下:
使用大规模语料库作为语义的输入,通过神经网络算法提取出所有训练类和测试类的类别词向量,将。
4.根据权利要求2和3所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S3的具体过程如下:
将训练集的图片代入所述步骤S1中的多部分探测器内,得到1张图片的多个探测部位的卷积特征,其函数如下式所示:
x1,x2,x3...xp=g(I)
其中,xp为第p部分的卷积特征;
将所述步骤S2的语义特征映射到和局部区域特征xp同样的维度,如下式所示,作为语义特征的隐藏层表示:
将局部区域特征xp和语义做内积,得到对应区域加权的权值,如下式所示:
其中,a为对应于局部区域特征x的权值,每有一个局部区域x就有一个权值a;
为了便于对权值计算,将权值进行归一化,如下所示:
7.根据权利要求2所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S104中的新的全连接层包括分类和回归,其中,分类所对应的是softmax函数,回归所对应的是smooth_L1_loss函数。
8.根据权利要求3所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述语料库为Wikipedia,神经网络算法为Word2vector。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810673456.2A CN110647897B (zh) | 2018-06-26 | 2018-06-26 | 一种基于多部分注意力机制的零样本图像分类识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810673456.2A CN110647897B (zh) | 2018-06-26 | 2018-06-26 | 一种基于多部分注意力机制的零样本图像分类识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647897A true CN110647897A (zh) | 2020-01-03 |
CN110647897B CN110647897B (zh) | 2023-04-18 |
Family
ID=68988763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810673456.2A Active CN110647897B (zh) | 2018-06-26 | 2018-06-26 | 一种基于多部分注意力机制的零样本图像分类识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647897B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113435531A (zh) * | 2021-07-07 | 2021-09-24 | 中国人民解放军国防科技大学 | 零样本图像分类方法、系统、电子设备及存储介质 |
CN113936141A (zh) * | 2021-12-17 | 2022-01-14 | 深圳佑驾创新科技有限公司 | 图像语义分割方法及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063647A2 (en) * | 1999-04-16 | 2000-10-26 | Universita' Degli Studi Di Firenze | Method of detecting a watermark in digital images |
CN102054178A (zh) * | 2011-01-20 | 2011-05-11 | 北京联合大学 | 一种基于局部语义概念的国画图像识别方法 |
CN105740879A (zh) * | 2016-01-15 | 2016-07-06 | 天津大学 | 基于多模态判别分析的零样本图像分类方法 |
CN107480688A (zh) * | 2017-06-20 | 2017-12-15 | 广东工业大学 | 基于零样本学习的细粒度图像识别方法 |
CN107563444A (zh) * | 2017-09-05 | 2018-01-09 | 浙江大学 | 一种零样本图像分类方法及系统 |
CN107679556A (zh) * | 2017-09-18 | 2018-02-09 | 天津大学 | 基于变分自动编码器的零样本图像分类方法 |
CN108038409A (zh) * | 2017-10-27 | 2018-05-15 | 江西高创保安服务技术有限公司 | 一种行人检测方法 |
US20180137338A1 (en) * | 2016-11-16 | 2018-05-17 | The Governing Council Of The University Of Toronto | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
-
2018
- 2018-06-26 CN CN201810673456.2A patent/CN110647897B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063647A2 (en) * | 1999-04-16 | 2000-10-26 | Universita' Degli Studi Di Firenze | Method of detecting a watermark in digital images |
CN102054178A (zh) * | 2011-01-20 | 2011-05-11 | 北京联合大学 | 一种基于局部语义概念的国画图像识别方法 |
CN105740879A (zh) * | 2016-01-15 | 2016-07-06 | 天津大学 | 基于多模态判别分析的零样本图像分类方法 |
US20180137338A1 (en) * | 2016-11-16 | 2018-05-17 | The Governing Council Of The University Of Toronto | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
CN107480688A (zh) * | 2017-06-20 | 2017-12-15 | 广东工业大学 | 基于零样本学习的细粒度图像识别方法 |
CN107563444A (zh) * | 2017-09-05 | 2018-01-09 | 浙江大学 | 一种零样本图像分类方法及系统 |
CN107679556A (zh) * | 2017-09-18 | 2018-02-09 | 天津大学 | 基于变分自动编码器的零样本图像分类方法 |
CN108038409A (zh) * | 2017-10-27 | 2018-05-15 | 江西高创保安服务技术有限公司 | 一种行人检测方法 |
Non-Patent Citations (1)
Title |
---|
翼中 等: "基于典型相关分析和距离度量学习的零样本学习", 《天津大学学报(自然科学与工程技术版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113010656B (zh) * | 2021-03-18 | 2022-12-20 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113435531A (zh) * | 2021-07-07 | 2021-09-24 | 中国人民解放军国防科技大学 | 零样本图像分类方法、系统、电子设备及存储介质 |
CN113435531B (zh) * | 2021-07-07 | 2022-06-21 | 中国人民解放军国防科技大学 | 零样本图像分类方法、系统、电子设备及存储介质 |
CN113936141A (zh) * | 2021-12-17 | 2022-01-14 | 深圳佑驾创新科技有限公司 | 图像语义分割方法及计算机可读存储介质 |
CN113936141B (zh) * | 2021-12-17 | 2022-02-22 | 深圳佑驾创新科技有限公司 | 图像语义分割方法及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110647897B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110909820B (zh) | 基于自监督学习的图像分类方法及系统 | |
Lu et al. | Dense and sparse reconstruction error based saliency descriptor | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
Tong et al. | Salient object detection via bootstrap learning | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
Li et al. | Adaptive metric learning for saliency detection | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN110647897B (zh) | 一种基于多部分注意力机制的零样本图像分类识别方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN114882521A (zh) | 基于多分支网络的无监督行人重识别方法及装置 | |
CN117197904B (zh) | 人脸活体检测模型的训练方法、人脸活体检测方法及装置 | |
Huo et al. | Semisupervised learning based on a novel iterative optimization model for saliency detection | |
CN114783604A (zh) | 一种乳腺癌前哨淋巴结转移的预测方法、系统及存储介质 | |
CN111400528A (zh) | 一种图像压缩方法、装置、服务器及存储介质 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
Wei et al. | Food image classification and image retrieval based on visual features and machine learning | |
CN111815582A (zh) | 改进背景先验和前景先验的二维码区域检测方法 | |
Wu et al. | RGBD co-saliency detection via multiple kernel boosting and fusion | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
CN114091551A (zh) | 色情图像识别方法、装置、电子设备及存储介质 | |
CN105844299B (zh) | 一种基于词袋模型的图像分类方法 | |
Yao et al. | Invoice detection and recognition system based on deep learning | |
CN111582057A (zh) | 一种基于局部感受野的人脸验证方法 | |
CN112507137B (zh) | 开放环境下基于粒度感知的少样本关系抽取方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |