CN112488132A - 一种基于语义特征增强的细粒度图像分类方法 - Google Patents
一种基于语义特征增强的细粒度图像分类方法 Download PDFInfo
- Publication number
- CN112488132A CN112488132A CN202011501882.1A CN202011501882A CN112488132A CN 112488132 A CN112488132 A CN 112488132A CN 202011501882 A CN202011501882 A CN 202011501882A CN 112488132 A CN112488132 A CN 112488132A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- text
- semantic
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义特征增强的细粒度图像分类方法,创造性地将文本引入图像分类模型训练过程,通过让文本特征和图像特征共享分类器的方式提升模型对语义信息的决策能力。同时,在训练过程中,进一步地将两种门控语义特征增强、语义边界特征增强应用到特征提取阶段和特征分类阶段。这样利用文本的语义信息对图像特征进行约束,从而提升图像分类模型对小样本数据的泛化能力,不再依赖于大规模高质量标注数据集,避免高额数据成本。
Description
技术领域
本发明属于细粒度图像分类技术领域,更为具体地讲,涉及一种基于语义特征增强的细粒度图像分类方法。
背景技术
细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分类任务相对通用图像(General/Generic Images)分类任务的区别和难点在于其图像所属类别的粒度更为精细。通用图像的分类任务诉求是将“袋鼠”和“狗”这两个物体大类分开,无论从样貌、形态等方面,二者还是很容易被区分的;而细粒度图像的分类任务则要求对“狗”该类类别下细粒度的子类,即分别为“哈士奇”和“爱斯基摩犬”的图像分辨开来。正因同类别物种的不同子类往往仅在耳朵形状、毛色等细微处存在差异,可谓“差之毫厘,谬以千里”。不止对计算机,对普通人来说,细粒度图像任务的难度和挑战无疑也更为巨大。
细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。但是,由于分类的粒度很小,细粒度图像分类非常困难,在某些类别上甚至专家都难以区分,导致收集和整理高质量的标注数据集伴随着高额的成本。现有的方法都依赖于海量高质量的标注数据,高额数据成本使得细粒度图像分类任务在众多领域无法得到应用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于语义特征增强的细粒度图像分类方法,不依赖于大规模高质量标注数据集,避免高额数据成本。
为实现上述发明目的,本发明基于语义特征增强的细粒度图像分类方法,其特征在于,包括以下步骤:
(1)、构建图像特征提取模型(Image Encoder)
采用残差网络(Residual Network)(图像特征提取模型)提取图像的特征,得到特征图X,特征图X由图像各个区域的维度为c的图像特征xij构成,其中,i表示宽度方向的位置,i=1,2,…,w,j表示高度方向的位置,j=1,2,…,h;w、h分别为特征图X的宽度和高度;
(2)、构建文本特征提取模型(Text Encoder)
采用卷积神经网络(CNN)作为文本特征提取模型提取文本的特征,得到维度为c的文本特征t;
(3)、构建共享分类器(Classifier)
构建FBP&GMP(FBP,Factorized Bilinear Pooling,因式双线性池化;GMP,GlobalMax Pooling,全局最大池化)网络、FBP网络以及一个共享FC(全连接层)组成构建共享分类器;
(4)、训练细粒度图像分类模型
图像特征提取模型、文本特征提取模型以及共享分类器构成细粒度图像分类模型;
构建训练数据集,其每条数据包括一副图像、对应的对图像进行描述的文本以及图像类别标签;
4.1)、图像、文本特征提取
在训练过程中,从训练数据集中取出一条数据,将图像及其对应的对图像进行描述的文本,分别送入图像特征提取模型以及文本特征提取模型,得到图像特征xij以及文本特征t;
4.2)、门控语义特征增强
对于图像特征xij,门控语义特征增强为新的图像特征x′ij:
x′ij=sij·xij+(1-sij)·nij
其中,sij为文本特征t与区域ij的相似度,nij为维度为c的高斯白噪声;
新的图像特征x′ij构成特征图X′;
4.3)、语义边界特征增强
对于特征图X′,输入到共享分类器的FBP&GMP网络中进行特征映射,得到维度为c′的图像特征fI;
对于文本特征t,输入到共享分类器的FBP网络中进行特征映射,得到维度为c′的文本特征fT;
对于图像特征fI,语义边界特征增强为新的图像特征fI':
其中,r表示采样半径,α表示(0,1)区间的任意实数,β表示任意方向的维度为c′的单位向量;
4.4)、图像、文本特征分类
图像特征fI'经过共享全连接层映射为图像类别;
文本特征fT经过共享全连接层映射为图像类别;
4.5)、更新细粒度图像分类模型网络参数
以输入图像的图像类别标签与图像特征fI'映射输出的图像类别、文本特征fT映射输出的图像类别分别建立损失函数,然后更新细粒度图像分类模型网络参数;
不断从训练数据集中取出数据,重复步骤4.1)~4.4),直到所有数据提取完毕,此时,细粒度图像分类模型训练完毕;
(5)、图像分类
将一张未知类别的图像,输入到图像特征提取模型,得到特征图X,然后送入FBP&GMP网络中得到图像特征fI,图像特征fI经过共享全连接层映射为图像类别。
本发明的目的是这样实现的。
本发明基于语义特征增强的细粒度图像分类方法,
传统图像分类模型包括两个重要组成部分:图像特征提取模型和特征分类模型。本发明基于语义特征增强的细粒度图像分类方法,创造性地将文本引入图像分类模型训练过程,通过让文本特征和图像特征共享分类器的方式提升模型对语义信息的决策能力。同时,在训练过程中,进一步地将两种门控语义特征增强、语义边界特征增强应用到特征提取阶段和特征分类阶段。这样利用文本的语义信息对图像特征进行约束,从而提升图像分类模型对小样本数据的泛化能力,不再依赖于大规模高质量标注数据集,避免高额数据成本。
附图说明
图1是本发明基于语义特征增强的细粒度图像分类方法一种具体实施方式流程图;
图2是本发明基于语义特征增强的细粒度图像分类方法一种具体实施方式的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于语义特征增强的细粒度图像分类方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明基于语义特征增强的细粒度图像分类方法,包括以下步骤:
步骤S1:构建图像特征提取模型(Image Encoder)
采用残差网络(Residual Network)(图像特征提取模型)提取图像的特征,得到特征图X,特征图X由图像各个区域的维度为c的图像特征xij构成,其中,i表示宽度方向的位置,i=1,2,…,w,j表示高度方向的位置,j=1,2,…,h;w、h分别为特征图X的宽度和高度。
传统图像分类模型包括两个重要组成部分:图像特征提取模型和特征分类模型。本发明也包括图像特征提取模型,在本实施例中,如图2所示,采用ResNet50的残差网络作为图像特征提取模型。
步骤S2:构建文本特征提取模型(Text Encoder)
采用卷积神经网络(CNN)作为文本特征提取模型提取文本的特征,得到维度为c的文本特征t。
在本发明中,创造性地将文本引入图像分类模型训练过程。其中,在特征提取阶段,增加了文本特征提取模型(Text Encoder)。
步骤S3:构建共享分类器(Classifier)
构建FBP&GMP网络、FBP网络以及一个共享FC(全连接层)组成构建共享分类器。
步骤S4:训练细粒度图像分类模型
图像特征提取模型、文本特征提取模型以及共享分类器构成细粒度图像分类模型。
构建训练数据集,其每条数据包括一副图像、对应的对图像进行描述的文本以及图像类别标签。
步骤S4.1:图像、文本特征提取
在训练过程中,从训练数据集中取出一条数据,将图像及其对应的对图像进行描述的文本,分别送入图像特征提取模型以及文本特征提取模型,得到图像特征xij以及文本特征t。
步骤S4.2:门控语义特征增强
不同于传统图像分类任务,细粒度图像分类任务更依赖于图像的局部特征,这需要图像特征提取模型(Image Encoder)更专注于提供分类线索的区域而忽略其他区域。本发明通过建立图像局部特征与语义的文本特征的相关性,准确定位能够提供分类线索的图像区域。具体地,在训练过程中,计算图像的各个区域与语义的文本特征的相似度,保留相似度高的包含分类线索的区域,同时对其它不包含分类线索的区域施加高斯白噪声,从而在特征层面进行增强。在数据的每一次训练过程中,通过增加不同的高斯白噪音,隐式的增加数据量,以应对数据稀少的问题。同时,迫使图像特征提取模型更专注于能够提供分类线索的区域而忽略其他区域。
具体地,对于图像特征xij,门控语义特征增强为新的图像特征x′ij:
x′ij=sij·xij+(1-sij)·nij
其中,sij为文本特征t与区域ij的相似度,nij为维度为c的高斯白噪声。
新的图像特征x′ij构成特征图X′。
步骤S4.3:语义边界特征增强
得益于分类器共享方法,图像特征与其对应的文本特征将具有高度的空间相似性。根据语义空间连续性假设,即语义特征在空间中具有连续的分布,具有相同类别的语义特征在空间中具有相似的分布。因此,在图像特征和其对应的文本特征共同构成的封闭语义空间内的任意一点都表示相同的类别。本发明基于这一假设,在训练阶段,通过在该区域内采样,进一步增加数据规模,从而实现特征层面的数据增强。使得少量的训练数据也可以训练得到具备泛化能力的分类模型。
对于特征图X′,输入到共享分类器的FBP&GMP网络中进行特征映射,得到维度为c′的图像特征fI。
对于文本特征t,输入到共享分类器的FBP网络中进行特征映射,得到维度为c′的文本特征fT。
对于图像特征fI,语义边界特征增强为新的图像特征fI':
其中,r表示采样半径,α表示(0,1)区间的任意实数,β表示任意方向的维度为c′的单位向量。
步骤S4.4:图像、文本特征分类
图像特征fI'经过共享全连接层映射为图像类别,文本特征fT经过共享全连接层映射为图像类别。
步骤S4.5:更新细粒度图像分类模型网络参数
以输入图像的图像类别标签与图像特征fI'映射输出的图像类别、文本特征fT映射输出的图像类别分别建立损失函数,然后更新细粒度图像分类模型网络参数。
受限于数据规模,深度神经网络在训练过程中很容易得到对于训练数据的过拟合模型,从而失去了对真实数据的泛化能力。本发明通过分类器共享的方式(构建共享分类器),在不改变传统图像分类模型结构的前提下,将文本数据引入细粒度图像分类模型的训练。具体的,在训练过程中,图像和其对应的文本分别被送入图像特征提取模型和文本特征提取模型中,在特征分类阶段,两组特征即图片特征、文本特征被分别送入同一个分类模型即全连接层,并得到相同的分类结果。通过共享分类器的方式,使得分类模型同时具备分类文本和图像的能力,从而训练特征提取器提取得到与语义相关的特征,忽略会导致过拟合的无用特征。
不断从训练数据集中取出数据,重复步骤4.1)~4.4),直到所有数据提取完毕,此时,细粒度图像分类模型训练完毕;
步骤S5:图像分类
将一张未知类别的图像,输入到图像特征提取模型,得到特征图X,然后送入FBP&GMP网络中得到图像特征fI,图像特征fI经过共享全连接层映射为图像类别。
在本实施例中,对于一张未知类别的图像,如果还包括图像描述对应的文本,则进一步将文本输入到文本特征提取模型,得到文本特征t,文本特征t输入到共享分类器的FBP网络中进行特征映射,得到维度为c′的文本特征fT;然后,结合文本特征t对特征图X进行门控语义特征增强,得到特征图X′,特征图X′送入FBP&GMP网络中得到图像特征fI;然后,结合文本特征fT对图像特征fI进行语义边界特征增强,得到新的图像特征fI';最后,图像特征fI'送入共享全连接层映射为图像类别。
综上所述,本发明在不改变图像分类模型结构,通过在训练过程中引入文本特征,并通过特征增强方法和分类器共享,减小了图像分类模型对于小规模数据的过拟合现象,提升了图像分类模型的泛化能力。
本发明在两个细粒度图像分类数据集Oxford Flowers-102和CUB-Bird-200上做了实验,。其中,Oxford Flowers-102,内含8,189张图片,包括102种鲜花类别。CUB-Bird-200,内含11,788张图片,包括200种鸟类类别。为了模拟小样本数据的情况,在训练过程中,每个类别的数据,只采用其中的1张或5张进行训练,其余均用于测试。
在实验中,图像特征提取模型采用ResNet50[3],文本特征提取模型采用单层LSTM,最终分类器采用FBP&GMP网络和全连接层。
表1
从表1可以看出,通过文本数据的引入,本发明能够大幅度提升图像分类模型在小样本数据下的分类精度,大幅度降低了深度学习在小众领域的应用成本。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于语义特征增强的细粒度图像分类方法,其特征在于,包括以下步骤:
(1)、构建图像特征提取模型(Image Encoder)
采用残差网络(Residual Network)(图像特征提取模型)提取图像的特征,得到特征图X,特征图X由图像各个区域的维度为c的图像特征xij构成,其中,i表示宽度方向的位置,i=1,2,…,w,j表示高度方向的位置,j=1,2,…,h;w、h分别为特征图X的宽度和高度;
(2)、构建文本特征提取模型(Text Encoder)
采用卷积神经网络(CNN)作为文本特征提取模型提取文本的特征,得到维度为c的文本特征t;
(3)、构建共享分类器(Classifier)
构建FBP&GMP网络、FBP网络以及一个共享FC(全连接层)组成构建共享分类器;
(4)、训练细粒度图像分类模型
图像特征提取模型、文本特征提取模型以及共享分类器构成细粒度图像分类模型;
构建训练数据集,其每条数据包括一副图像、对应的对图像进行描述的文本以及图像类别标签;
4.1)、图像、文本特征提取
在训练过程中,从训练数据集中取出一条数据,将图像及其对应的对图像进行描述的文本,分别送入图像特征提取模型以及文本特征提取模型,得到图像特征xij以及文本特征t;
4.2)、门控语义特征增强
对于图像特征xij,门控语义特征增强为新的图像特征x′ij:
x′ij=sij·xij+(1-sij)·nij
其中,sij为文本特征t与区域ij的相似度,nij为维度为c的高斯白噪声;
新的图像特征x′ij构成特征图X′;
4.3)、语义边界特征增强
对于特征图X′,输入到共享分类器的FBP&GMP网络中进行特征映射,得到维度为c′的图像特征fI;
对于文本特征t,输入到共享分类器的FBP网络中进行特征映射,得到维度为c′的文本特征fT;
对于图像特征fI,语义边界特征增强为新的图像特征fI':
其中,r表示采样半径,α表示(0,1)区间的任意实数,β表示任意方向的维度为c′的单位向量;
4.4)、图像、文本特征分类
图像特征fI'经过共享全连接层映射为图像类别;
文本特征fT经过共享全连接层映射为图像类别;
4.5)、更新细粒度图像分类模型网络参数
以输入图像的图像类别标签与图像特征fI'映射输出的图像类别、文本特征fT映射输出的图像类别分别建立损失函数,然后更新细粒度图像分类模型网络参数;
不断从训练数据集中取出数据,重复步骤4.1)~4.4),直到所有数据提取完毕,此时,细粒度图像分类模型训练完毕;
(5)、图像分类
将一张未知类别的图像,输入到图像特征提取模型,得到特征图X,然后送入FBP&GMP网络中得到图像特征fI,图像特征fI经过共享全连接层映射为图像类别。
2.根据权利要求1所示的基于语义特征增强的细粒度图像分类方法,其特征在于,在步骤(5)中,对于一张未知类别的图像,如果还包括图像描述对应的文本,则进一步将文本输入到文本特征提取模型,得到文本特征t,文本特征t输入到共享分类器的FBP网络中进行特征映射,得到维度为c′的文本特征fT;然后,结合文本特征t对特征图X进行门控语义特征增强,得到特征图X′,特征图X′送入FBP&GMP网络中得到图像特征fI;然后,结合文本特征fT对图像特征fI进行语义边界特征增强,得到新的图像特征fI';最后,图像特征fI'送入共享全连接层映射为图像类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501882.1A CN112488132B (zh) | 2020-12-18 | 2020-12-18 | 一种基于语义特征增强的细粒度图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501882.1A CN112488132B (zh) | 2020-12-18 | 2020-12-18 | 一种基于语义特征增强的细粒度图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488132A true CN112488132A (zh) | 2021-03-12 |
CN112488132B CN112488132B (zh) | 2022-04-19 |
Family
ID=74914775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011501882.1A Active CN112488132B (zh) | 2020-12-18 | 2020-12-18 | 一种基于语义特征增强的细粒度图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488132B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452895A (zh) * | 2023-06-13 | 2023-07-18 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN116597151A (zh) * | 2023-07-17 | 2023-08-15 | 南京亚信软件有限公司 | 一种基于细粒度特征分组的无监督语义分割方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522942A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备和存储介质 |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
CN110826639A (zh) * | 2019-11-12 | 2020-02-21 | 福州大学 | 一种利用全量数据训练零样本图像分类方法 |
US20200242348A1 (en) * | 2017-08-09 | 2020-07-30 | Open Text Sa Ulc | Systems and methods for generating and using semantic images in deep learning for classification and data extraction |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
-
2020
- 2020-12-18 CN CN202011501882.1A patent/CN112488132B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200242348A1 (en) * | 2017-08-09 | 2020-07-30 | Open Text Sa Ulc | Systems and methods for generating and using semantic images in deep learning for classification and data extraction |
CN109522942A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备和存储介质 |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
CN110826639A (zh) * | 2019-11-12 | 2020-02-21 | 福州大学 | 一种利用全量数据训练零样本图像分类方法 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
Non-Patent Citations (5)
Title |
---|
DR. PRIYANKA MISHRA .ETC: ""Text to Image Synthesis using Residual GAN"", 《2020 3RD INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGIES IN COMPUTER ENGINEERING: MACHINE LEARNING AND INTERNET OF THINGS (ICETCE)》 * |
JIWEI WEI .ETC: ""Residual Graph Convolutional Networks for Zero-Shot Learning"", 《MMASIA"19: PROCEEDINGS OF THE ACM MULTIMEDIA ASIA》 * |
KERANG CAO .ECT: ""Deep Learning for Facial Beauty Prediction"", 《MDPI》 * |
冯语姗 等: ""自上而下注意图分割的细粒度图像分类"", 《中国图象图形学报》 * |
袁建平 等: ""基于文本与视觉信息的细粒度图像分类"", 《图学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452895A (zh) * | 2023-06-13 | 2023-07-18 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN116452895B (zh) * | 2023-06-13 | 2023-10-20 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN116597151A (zh) * | 2023-07-17 | 2023-08-15 | 南京亚信软件有限公司 | 一种基于细粒度特征分组的无监督语义分割方法 |
CN116597151B (zh) * | 2023-07-17 | 2023-09-26 | 南京亚信软件有限公司 | 一种基于细粒度特征分组的无监督语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112488132B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
Zhu et al. | TA-CNN: Two-way attention models in deep convolutional neural network for plant recognition | |
US20220222918A1 (en) | Image retrieval method and apparatus, storage medium, and device | |
Ahmad et al. | Data augmentation-assisted deep learning of hand-drawn partially colored sketches for visual search | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN112488132B (zh) | 一种基于语义特征增强的细粒度图像分类方法 | |
CN110598018B (zh) | 一种基于协同注意力的草图图像检索方法 | |
CN106383912A (zh) | 一种图片检索方法和装置 | |
Qi et al. | Personalized sketch-based image retrieval by convolutional neural network and deep transfer learning | |
Li et al. | Neural abstract style transfer for chinese traditional painting | |
CN111723239A (zh) | 一种基于多模态的视频标注方法 | |
Zheng et al. | Feature enhancement for multi-scale object detection | |
Wu et al. | Generic proposal evaluator: A lazy learning strategy toward blind proposal quality assessment | |
Bengamra et al. | A comprehensive survey on object detection in Visual Art: taxonomy and challenge | |
Fu et al. | Multi‐style Chinese art painting generation of flowers | |
CN112668662A (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
Liu et al. | Spatiotemporal fusion networks for video action recognition | |
Daryanto et al. | Survey: recent trends and techniques in image co-segmentation challenges, issues and its applications | |
Quan et al. | D_dNet-65 R-CNN: Object detection model fusing deep dilated convolutions and light-weight networks | |
Jiang et al. | Weakly supervised detection with decoupled attention-based deep representation | |
Yang et al. | Improved YOLOv4 based on dilated coordinate attention for object detection | |
CN111353397B (zh) | 基于大数据和ocr的网络课堂中文板书结构化分享系统 | |
Dong et al. | Towards class interpretable vision transformer with multi-class-tokens | |
Fang et al. | Sketch recognition based on attention mechanism and improved residual network | |
CN106202338B (zh) | 基于多特征多关系的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |