CN114067294B - 一种基于文本特征融合的细粒度车辆识别系统及方法 - Google Patents

一种基于文本特征融合的细粒度车辆识别系统及方法 Download PDF

Info

Publication number
CN114067294B
CN114067294B CN202210052681.0A CN202210052681A CN114067294B CN 114067294 B CN114067294 B CN 114067294B CN 202210052681 A CN202210052681 A CN 202210052681A CN 114067294 B CN114067294 B CN 114067294B
Authority
CN
China
Prior art keywords
label
image
fusion
distribution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210052681.0A
Other languages
English (en)
Other versions
CN114067294A (zh
Inventor
章依依
曹卫强
徐晓刚
王军
虞舒敏
应志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210052681.0A priority Critical patent/CN114067294B/zh
Publication of CN114067294A publication Critical patent/CN114067294A/zh
Application granted granted Critical
Publication of CN114067294B publication Critical patent/CN114067294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于文本特征融合的细粒度车辆识别系统及方法,系统包括:特征提取模块、分类层、文本表示网络、相似度计算模块、融合标签计算模块、散度损失计算模块;方法包括:步骤S1,构建细粒度车辆图像分类数据集;步骤S2,将训练图像进行特征提取;步骤S3,对图像特征向量进行分类;步骤S4,将数据集各子类标签输入预先训练好的文本表示网络;步骤S5,通过图像特征向量与图像标签的词向量;将得到的强化标签分布与原标签向量进行加权融合;步骤S6,将预测标签分布与加权融合的标签分布的相似度作为损失,指导整个系统的训练;步骤S7,推理阶段,将待测图像进行特征提取与分类层,根据预测的标签分布确定图像类别。

Description

一种基于文本特征融合的细粒度车辆识别系统及方法
技术领域
本发明涉及计算机视觉识别技术领域,尤其是涉及一种基于文本特征融合的细粒度车辆识别系统及方法。
背景技术
细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景,与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中,识别不同的子类别存在着巨大的应用需求。细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细,其子类间差异细微、子类内部差异大。因此,不止对计算机,对普通人来说,细粒度图像任务的难度和挑战无疑也十分巨大。
随着深度学习的不断发展,自然语言处理技术迎来了突破。通过训练语言模型得到的词向量,可以较好地反应出词与词之间的关系。比如训练出的同义词的词向量非常接近,而反义词的词向量则互为相反向量。因此标签的词向量可以在一定程度上反应出标签之间的关系。目前较为流行的词向量有Word2Vec、BERT等。
相对熵又称KL散度(Kullback-Leibler divergence),对于同一个随机变量,有两个单独的概率分布P和Q,通过KL散度可以衡量这两个分布的差异。Q的分布越接近P(Q分布越拟合P),则散度值越小,即损失值越小,但KL散度是不对称的。JS散度是基于KL散度的变体,度量了两个概率分布的相似度,解决了KL散度非对称的问题,通常,JS散度是对称的,其取值是0到1之间。
考虑到细粒度图像存在大量相近类别,部分细微差异即使人类也难以区分,在标注过程中容易引入噪声标签。在分类过程中,采用独热编码作为原标签表现地过于武断,忽略了标签之间的相关性,使得噪声标签对网络训练起到较大的负面作用,从而影响网络收敛。
发明内容
为解决现有技术的不足,本发明通过捕捉样本图像特征与各标签词向量之间的相似度,模拟出一个更加可靠的标签分布,在训练过程中取代独热编码的原标签,有效地提升了细粒度图像分类的精度,本发明采用如下的技术方案:
一种基于文本特征融合的细粒度车辆识别系统,包括:特征提取模块、分类层、文本表示网络、相似度计算模块、融合标签计算模块、散度损失计算模块,特征提取模块分别与分类层连接,相似度计算模块分别与特征提取模块、文本表示网络、融合标签计算模块连接,散度损失计算模块分别与分类层、融合标签计算模块连接;
所述特征提取模块,用于提取图像的特征向量
Figure 244077DEST_PATH_IMAGE001
所述分类层,通过图像的特征向量
Figure 971730DEST_PATH_IMAGE001
,得到预测标签分布
Figure 818464DEST_PATH_IMAGE002
所述文本表示网络,用于获取图像标签的语义特征;
所述相似度计算模块,通过图像的特征向量
Figure 622471DEST_PATH_IMAGE001
与图像标签的语义特征,得到强化标 签分布
Figure 554655DEST_PATH_IMAGE003
所述融合标签计算模块,将强化标签分布
Figure 351579DEST_PATH_IMAGE003
与独热编码的原标签向量进行加权融 合,得到融合标签分布
Figure 52819DEST_PATH_IMAGE004
所述散度损失计算模块,将预测标签分布
Figure 293307DEST_PATH_IMAGE002
与融合标签分布
Figure 962055DEST_PATH_IMAGE004
的相似度作为损失, 指导整个系统的训练。利用标签先验语义特征,通过计算相似度,模拟出一个更加真实可靠 的标签分布作为融合标签,在训练过程中取代独热编码的原标签,对原标签进行增强,从而 减少噪声标签对网络训练的影响,提高细粒度图像分类的性能
进一步地,特征提取模块为深度卷积网络,提取图像特征,得到图像特征向量
Figure 47822DEST_PATH_IMAGE001
,采 用ResNet101或ResNet50作为深度卷积网络。
进一步地,分类层,包括全连接层和softmax层,公式表示如下:
Figure 869148DEST_PATH_IMAGE005
将图像特征向量
Figure 280538DEST_PATH_IMAGE001
输入全连接层
Figure 171002DEST_PATH_IMAGE006
,再通过softmax层
Figure 326040DEST_PATH_IMAGE007
,得到预测标 签分布
Figure 1872DEST_PATH_IMAGE002
,代表图像各自在各个汽车类别的概率分布情况。
进一步地,文本表示网络,获取数据集各子类标签,得到各标签的词向量
Figure 567851DEST_PATH_IMAGE008
Figure 961924DEST_PATH_IMAGE009
表示,
Figure 655073DEST_PATH_IMAGE010
表示车辆类别个数,采用BERT或Word2Vec作为文本表示网络。
进一步地,相似度计算模块,包括全连接神经网络和softmax层,将图像特征向量
Figure 450991DEST_PATH_IMAGE001
与作为图像标签语义特征的标签词向量
Figure 916433DEST_PATH_IMAGE011
相乘,计算两者之间的相似度向量,输入全连接神 经网络和softmax层,得到强化标签分布:
Figure 797801DEST_PATH_IMAGE012
Figure 294642DEST_PATH_IMAGE013
其中,
Figure 194333DEST_PATH_IMAGE014
Figure 852848DEST_PATH_IMAGE015
为全连接网络
Figure 955933DEST_PATH_IMAGE016
的权重参数。
进一步地,融合标签计算模块,将强化标签分布
Figure 990885DEST_PATH_IMAGE003
与独热编码的原标签向量
Figure 745084DEST_PATH_IMAGE017
进行 加权融合,得到融合标签分布:
Figure 840078DEST_PATH_IMAGE018
其中,超参数
Figure 430460DEST_PATH_IMAGE019
取值范围为
Figure 252791DEST_PATH_IMAGE020
,用于控制
Figure 877808DEST_PATH_IMAGE003
Figure 143704DEST_PATH_IMAGE017
的权重,利用标签先验语义特征对 原标签进行增强,模拟出一个更加真实可靠的融合标签分布,从而减少噪声标签对网络训 练的影响。
进一步地,超参数
Figure 221381DEST_PATH_IMAGE019
的取值为0.3时性能最佳。
进一步地,散度损失计算模块,计算预测标签分布
Figure 581824DEST_PATH_IMAGE002
与融合标签分布
Figure 61347DEST_PATH_IMAGE004
的JS散度, 以度量上述两个分布之间的相似度,并作为损失函数指导整个系统的训练,损失函数计算 公式如下:
Figure 498145DEST_PATH_IMAGE021
Figure 312386DEST_PATH_IMAGE022
Figure 227252DEST_PATH_IMAGE023
其中,
Figure 561282DEST_PATH_IMAGE024
表示KL散度,inn表示车辆类别个数,采用SGD或Adam梯度下降方法 进行训练,在epoch达到指定次数后停止训练,采用JS散度计算融合标签分布与预测标签分 布的相似度,更有效地模拟两项分布之间的距离,加快网络收敛。
一种基于文本特征融合的细粒度车辆识别方法,包括如下步骤:
步骤S1,构建细粒度车辆图像分类数据集,并划分训练集和测试集,其中包括多种车辆类别;
步骤S2,将训练图像进行特征提取,得到图像的特征向量
Figure 152669DEST_PATH_IMAGE001
步骤S3,对图像特征向量
Figure 204938DEST_PATH_IMAGE001
进行分类,得到预测标签分布
Figure 189075DEST_PATH_IMAGE002
步骤S4,将数据集各子类标签输入预先训练好的文本表示网络,获取图像标签的 词向量
Figure 112032DEST_PATH_IMAGE011
步骤S5,融合标签计算,包括如下步骤:
步骤S51,通过图像的特征向量
Figure 139899DEST_PATH_IMAGE001
与图像标签的词向量
Figure 679465DEST_PATH_IMAGE011
,得到强化标签分布
Figure 201713DEST_PATH_IMAGE003
步骤S52,将强化标签分布
Figure 510335DEST_PATH_IMAGE003
与独热编码的原标签向量进行加权融合,得到融合标 签分布
Figure 449384DEST_PATH_IMAGE004
步骤S6,将预测标签分布
Figure 476246DEST_PATH_IMAGE002
与融合标签分布
Figure 536606DEST_PATH_IMAGE004
的相似度作为损失,指导整个系统的 训练;
步骤S7,推理阶段,将待测图像依次进行特征提取与分类层,根据预测的标签分布确定图像类别,系统参数大小与推理速度无需增加任何额外成本,在保证灵活性和高速性的情况下,提高了模型的性能。
进一步地,通过图像类别的准确率的上升幅度,推测出该类别对应的数据集中,存在噪声标签的多少,从而对该数据集重新标注和/或加入更多该类别的图像样本等方式进行修正,从而提高数据集的质量。
本发明的优势和有益效果在于:
1. 利用标签先验语义特征对原标签进行增强,模拟出一个更加真实可靠的融合标签分布,从而减少噪声标签对网络训练的影响;
2. 采用JS散度计算融合标签分布与预测标签分布的相似度,更有效地模拟两项分布之间的距离,加快网络收敛;
3. 推理阶段,模型参数大小与推理速度无需增加任何额外成本,在保证灵活性和高速性的情况下,提高了模型的性能;
4. 通过计算各类别准确率上升的幅度,可以推测出数据集中含有噪声标签较多的类别,有助于研究人员了解数据集自身的情况。
附图说明
图1是本发明的系统结构示意图。
图2是本发明的方法流程图。
图3是本发明中融合标签计算的流程图。
图4是本发明中训练阶段流程图。
图5a是本发明的测试结果为卡车的样例图。
图5b是本发明的测试结果为摩托车的样例图。
图5c是本发明的测试结果为自行车样例图。
图5d是本发明的测试结果为救护车样例图。
图6是本发明中一种基于文本特征融合的细粒度车辆识别装置的结构图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,一种基于文本特征融合的细粒度车辆识别系统,包括:特征提取模块、分类层、文本表示网络、相似度计算模块、融合标签计算模块、散度损失计算模块,特征提取模块分别与分类层连接,相似度计算模块分别与特征提取模块、文本表示网络、融合标签计算模块连接,散度损失计算模块分别与分类层、融合标签计算模块连接。
特征提取模块,用于提取图像的特征向量
Figure 949001DEST_PATH_IMAGE001
;特征提取模块为深度卷积网络,提取 图像特征,得到图像特征向量
Figure 69404DEST_PATH_IMAGE001
,采用ResNet101或ResNet50作为深度卷积网络。
分类层,通过图像的特征向量
Figure 317983DEST_PATH_IMAGE001
,得到预测标签分布
Figure 182034DEST_PATH_IMAGE002
,包括全连接层和softmax 层,公式表示如下:
Figure 714515DEST_PATH_IMAGE005
将图像特征向量
Figure 740240DEST_PATH_IMAGE001
输入全连接层
Figure 476115DEST_PATH_IMAGE006
,再通过softmax层
Figure 127545DEST_PATH_IMAGE007
,得到预测标 签分布
Figure 265265DEST_PATH_IMAGE002
,代表图像各自在各个汽车类别的概率分布情况。
文本表示网络,用于获取图像标签的语义特征;具体地,获取数据集各子类标签, 得到各标签的词向量
Figure 727471DEST_PATH_IMAGE008
Figure 950641DEST_PATH_IMAGE009
表示,
Figure 405762DEST_PATH_IMAGE010
表示车辆类别个数,采用BERT或Word2Vec 作为文本表示网络。
相似度计算模块,通过图像的特征向量
Figure 132410DEST_PATH_IMAGE001
与图像标签的语义特征,得到强化标签分 布
Figure 31096DEST_PATH_IMAGE003
,包括全连接神经网络和softmax层,将图像特征向量
Figure 990830DEST_PATH_IMAGE001
与作为图像标签语义特征的标 签词向量
Figure 734796DEST_PATH_IMAGE011
相乘,计算两者之间的相似度向量,输入全连接神经网络和softmax层,得到强化 标签分布:
Figure 581529DEST_PATH_IMAGE025
Figure 385537DEST_PATH_IMAGE013
其中,
Figure 832568DEST_PATH_IMAGE014
Figure 380224DEST_PATH_IMAGE015
为全连接网络
Figure 81463DEST_PATH_IMAGE016
的权重参数。
融合标签计算模块,将强化标签分布
Figure 571219DEST_PATH_IMAGE003
与独热编码的原标签向量
Figure 990699DEST_PATH_IMAGE017
进行加权融合, 得到融合标签分布:
Figure 342046DEST_PATH_IMAGE026
其中,超参数
Figure 897793DEST_PATH_IMAGE027
取值范围为
Figure 576028DEST_PATH_IMAGE028
,为0.3时性能最佳,用于控制
Figure 482804DEST_PATH_IMAGE003
Figure 372263DEST_PATH_IMAGE017
的权重,利用标 签先验语义特征对原标签进行增强,模拟出一个更加真实可靠的融合标签分布,从而减少 噪声标签对网络训练的影响。
散度损失计算模块,将预测标签分布
Figure 297362DEST_PATH_IMAGE002
与融合标签分布
Figure 879653DEST_PATH_IMAGE004
的相似度作为损失,指导 整个系统的训练。利用标签先验语义特征,通过计算相似度,模拟出一个更加真实可靠的标 签分布作为融合标签,在训练过程中取代独热编码的原标签,对原标签进行增强,从而减少 噪声标签对网络训练的影响,提高细粒度图像分类的性能。
具体地,计算预测标签分布
Figure 8146DEST_PATH_IMAGE002
与融合标签分布
Figure 701296DEST_PATH_IMAGE004
的JS散度,以度量上述两个分布之 间的相似度,并作为损失函数指导整个系统的训练,损失函数计算公式如下:
Figure 480902DEST_PATH_IMAGE021
Figure 234094DEST_PATH_IMAGE022
Figure 849883DEST_PATH_IMAGE023
其中,
Figure 595991DEST_PATH_IMAGE029
表示KL散度,inn表示车辆类别个数,采用SGD或Adam梯度下降方法 进行训练,在epoch达到指定次数后停止训练,采用JS散度计算融合标签分布与预测标签分 布的相似度,更有效地模拟两项分布之间的距离,加快网络收敛。
如图2至图4所示,一种基于文本特征融合的细粒度车辆识别方法,包括如下步骤:
步骤S1:构建细粒度车辆图像分类数据集,并划分训练集和测试集,其中包括多种车辆类别;具体地,收集下载各类型车辆图像数据集,包括10种汽车类型:轿车、巴士、卡车、工程车、泥头车、摩托车、自行车、电瓶车、救护车、三轮车,每种类别1000张图像,共计10000张图像数据,其中训练集和测试集分别为7000张和3000张。
步骤S2:将训练图像进行特征提取,得到图像的特征向量
Figure 246416DEST_PATH_IMAGE001
;具体地,将训练图像以 batch size为16输入深度卷积网络中提取图像特征,本实例采用ResNet101作为深度卷积 网络(也可采用ResNet50等作为深度卷积网络),输出一个
Figure 904930DEST_PATH_IMAGE030
的图像特征向量
Figure 273594DEST_PATH_IMAGE001
步骤S3:对图像特征向量
Figure 292235DEST_PATH_IMAGE001
进行分类,得到预测标签分布
Figure 62745DEST_PATH_IMAGE002
;具体地,将图像特征向 量输入分类层
Figure 626581DEST_PATH_IMAGE031
,该分类层由一个
Figure 731809DEST_PATH_IMAGE032
的全连接层和一个softmax层组成,输出预测 标签分布
Figure 570452DEST_PATH_IMAGE002
,公式表示如下:
Figure 664310DEST_PATH_IMAGE005
其中预测标签分布
Figure 930207DEST_PATH_IMAGE002
的维度为
Figure 257152DEST_PATH_IMAGE033
,代表16张图各自在10个汽车类别的概率 分布情况。
步骤S4:将数据集各子类标签输入预先训练好的文本表示网络,获得各标签的词 向量
Figure 899486DEST_PATH_IMAGE008
Figure 113429DEST_PATH_IMAGE010
为类别个数,本实例
Figure 799494DEST_PATH_IMAGE034
,采用BERT作为文本表示网络(也可采 用Word2Vec等作为文本表示网络),每个词向量的维度为2048,
Figure 364468DEST_PATH_IMAGE011
的维度为
Figure 279334DEST_PATH_IMAGE035
步骤S5:融合标签计算,包括如下步骤:
步骤S51:通过图像的特征向量
Figure 613364DEST_PATH_IMAGE001
与图像标签的词向量
Figure 476189DEST_PATH_IMAGE011
,得到强化标签分布
Figure 262880DEST_PATH_IMAGE003
;具 体地,将步骤2输出的图像特征向量
Figure 981437DEST_PATH_IMAGE001
与步骤4输出的标签词向量
Figure 684820DEST_PATH_IMAGE011
相乘,输入一个
Figure 463420DEST_PATH_IMAGE032
的全连接神经网络
Figure 737407DEST_PATH_IMAGE036
和softmax层,获得强化标签向量
Figure 259655DEST_PATH_IMAGE003
,其计算公式如 下:
Figure 817544DEST_PATH_IMAGE025
Figure 501466DEST_PATH_IMAGE013
其中强化标签向量
Figure 262749DEST_PATH_IMAGE003
的维度为
Figure 837955DEST_PATH_IMAGE033
Figure 735504DEST_PATH_IMAGE037
Figure 855907DEST_PATH_IMAGE015
为全连接网络
Figure 370065DEST_PATH_IMAGE016
的权重参数。
步骤S52:将强化标签分布
Figure 483383DEST_PATH_IMAGE003
与独热编码的原标签向量进行加权融合,得到融合标 签分布
Figure 235439DEST_PATH_IMAGE004
;具体地,将步骤5.1获得的强化标签向量
Figure 792322DEST_PATH_IMAGE003
与独热编码的原标签向量
Figure 777464DEST_PATH_IMAGE017
进行加权 融合,获得融合标签分布,其计算公式如下:
Figure 445206DEST_PATH_IMAGE026
其中独热编码的原标签向量
Figure 51768DEST_PATH_IMAGE017
维度为
Figure 779553DEST_PATH_IMAGE033
,采用超参数
Figure 251991DEST_PATH_IMAGE027
控制
Figure 457844DEST_PATH_IMAGE003
Figure 184492DEST_PATH_IMAGE017
的权重,本 实例
Figure 332446DEST_PATH_IMAGE038
的取值为0.3时性能最佳。
步骤S6:将预测标签分布
Figure 777333DEST_PATH_IMAGE002
与融合标签分布
Figure 521298DEST_PATH_IMAGE004
的相似度作为损失,指导整个系统的 训练;具体地,最后计算步骤3获得的预测标签分布
Figure 633611DEST_PATH_IMAGE002
与步骤5.2获得的融合标签分布
Figure 681027DEST_PATH_IMAGE004
的JS 散度,以度量上述两个分布之间的相似度,并作为损失函数指导整个网络的训练,其计算公 式如下:
Figure 878790DEST_PATH_IMAGE021
Figure 426446DEST_PATH_IMAGE022
Figure 376954DEST_PATH_IMAGE023
本实施例中,采用SGD优化器,其初始学习率为0.01,当训练epoch达到90时,将学习率降至0.001。当训练epoch达到150次后,停止训练。
步骤S7:推理阶段,将待测图像依次进行特征提取与分类层,根据预测的标签分布确定图像类别;系统参数大小与推理速度无需增加任何额外成本,在保证灵活性和高速性的情况下,提高了模型的性能。
通过图像类别的准确率的上升幅度,推测出该类别对应的数据集中,存在噪声标签的多少,从而对该数据集重新标注和/或加入更多该类别的图像样本等方式进行修正,从而提高数据集的质量。
本实例训练与推理阶段皆在8卡GPU服务器GEFORCE RTX 2080 Ti上实现。
本发明针对细粒度图像数据集容易出现标签混淆,即数据集中存在大量噪声标签的问题,通过捕捉样本图像特征与各标签词向量之间的相似度,模拟出一个更加真实可靠的标签分布作为融合标签,在训练过程中取代独热编码的原标签,从而提高细粒度图像分类的性能。构建的细粒度数据集在ResNet101网络下训练分类性能达到86.2%,采用本发明可使分类性能达到89.3%。
测试结果样例如图5a至图5d所示,图5a中卡车识别的分类置信度为88%,图5b中摩托车识别的分类置信度为89%,图5c中自行车识别的分类置信度为92%,图5d中救护车识别的分类置信度为91%。
此外,通过计算各类别准确率上升的幅度,可以推测出数据集中含有噪声标签较多的类别,从而提供一定的数据集相关信息,有助于研究人员了解数据集自身的情况。例如:一个类别在采用本发明后,性能提升较大,由于本发明就是通过减少噪声标签达到的,则说明该类别的原标签,可能存在很多噪声(如:人工打标签时错误标注了标签)。通过噪声多的类别,研究人员可以后续对该类别的图像进行重新人工标注,或者加入更多该类别的样本,来减少噪声标签的比例。从而提升数据集质量。
与前述一种基于文本特征融合的细粒度车辆识别方法的实施例相对应,本发明还提供了一种基于文本特征融合的细粒度车辆识别装置的实施例。
参见图6,本发明实施例提供的一种基于文本特征融合的细粒度车辆识别装置,包括一个或多个处理器,用于实现上述实施例中的一种基于文本特征融合的细粒度车辆识别方法。
本发明一种基于文本特征融合的细粒度车辆识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种基于文本特征融合的细粒度车辆识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于文本特征融合的细粒度车辆识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (9)

1.一种基于文本特征融合的细粒度车辆识别系统,包括:特征提取模块、分类层、文本表示网络、相似度计算模块、融合标签计算模块、散度损失计算模块,其特征在于特征提取模块分别与分类层连接,相似度计算模块分别与特征提取模块、文本表示网络、融合标签计算模块连接,散度损失计算模块分别与分类层、融合标签计算模块连接;
所述特征提取模块,用于提取图像的特征向量;
所述分类层,通过图像的特征向量,得到预测标签分布;
所述文本表示网络,用于获取图像标签的语义特征;
所述相似度计算模块,通过图像的特征向量与图像标签的语义特征,得到强化标签分布;所述相似度计算模块,包括全连接神经网络和softmax层,将图像特征向量,与作为图像标签语义特征的标签词向量相乘,输入全连接神经网络和softmax层,得到强化标签分布;
所述融合标签计算模块,将强化标签分布与原标签向量进行加权融合,得到融合标签分布;
所述散度损失计算模块,将预测标签分布与融合标签分布的相似度作为损失,指导整个系统的训练。
2.根据权利要求1所述的一种基于文本特征融合的细粒度车辆识别系统,其特征在于所述特征提取模块为深度卷积网络,提取图像特征,得到图像特征向量。
3.根据权利要求2所述的一种基于文本特征融合的细粒度车辆识别系统,其特征在于所述分类层,包括全连接层和softmax层,将所述图像特征向量输入全连接层,再通过softmax层,得到预测标签分布。
4.根据权利要求1所述的一种基于文本特征融合的细粒度车辆识别系统,其特征在于所述文本表示网络,获取数据集各子类标签,得到各标签的词向量。
5.根据权利要求1所述的一种基于文本特征融合的细粒度车辆识别系统,其特征在于 所述融合标签计算模块,将强化标签分布
Figure DEST_PATH_IMAGE001
与原标签向量
Figure DEST_PATH_IMAGE002
进行加权融合,得到融合标签分 布:
Figure DEST_PATH_IMAGE004
其中,超参数
Figure DEST_PATH_IMAGE005
取值范围为
Figure DEST_PATH_IMAGE006
,用于控制
Figure 578594DEST_PATH_IMAGE001
Figure 823631DEST_PATH_IMAGE002
的权重。
6.根据权利要求5所述的一种基于文本特征融合的细粒度车辆识别系统,其特征在于 所述超参数
Figure 868947DEST_PATH_IMAGE005
的取值为0.3。
7.根据权利要求1所述的一种基于文本特征融合的细粒度车辆识别系统,其特征在于所述散度损失计算模块,计算预测标签分布与融合标签分布的JS散度,以度量所述预测标签分布与所述融合标签分布之间的相似度,并作为损失函数指导整个系统的训练。
8.一种基于文本特征融合的细粒度车辆识别方法,其特征在于包括如下步骤:
步骤S1,构建细粒度车辆图像分类数据集,并划分训练集和测试集,其中包括多种车辆类别;
步骤S2,将训练图像进行特征提取,得到图像的特征向量;
步骤S3,对图像特征向量进行分类,得到预测标签分布;
步骤S4,将数据集各子类标签输入预先训练好的文本表示网络,获取图像标签的词向量;
步骤S5,融合标签计算,包括如下步骤:
步骤S51,通过图像的特征向量与图像标签的词向量,得到强化标签分布;相似度计算模块,包括全连接神经网络和softmax层,将图像特征向量与作为图像标签语义特征的标签词向量相乘,计算两者之间的相似度向量,输入全连接神经网络和softmax层,得到强化标签分布;
步骤S52,将强化标签分布与原标签向量进行加权融合,得到融合标签分布;
步骤S6,将预测标签分布与融合标签分布的相似度作为损失,指导整个系统的训练;
步骤S7,推理阶段,将待测图像依次进行特征提取与分类层,根据预测的标签分布确定图像类别。
9.根据权利要求8所述的一种基于文本特征融合的细粒度车辆识别方法,其特征在于通过图像类别的准确率的上升幅度,推测出该类别对应的数据集中,存在噪声标签的多少,从而对该数据集进行修正。
CN202210052681.0A 2022-01-18 2022-01-18 一种基于文本特征融合的细粒度车辆识别系统及方法 Active CN114067294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210052681.0A CN114067294B (zh) 2022-01-18 2022-01-18 一种基于文本特征融合的细粒度车辆识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210052681.0A CN114067294B (zh) 2022-01-18 2022-01-18 一种基于文本特征融合的细粒度车辆识别系统及方法

Publications (2)

Publication Number Publication Date
CN114067294A CN114067294A (zh) 2022-02-18
CN114067294B true CN114067294B (zh) 2022-05-13

Family

ID=80231258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210052681.0A Active CN114067294B (zh) 2022-01-18 2022-01-18 一种基于文本特征融合的细粒度车辆识别系统及方法

Country Status (1)

Country Link
CN (1) CN114067294B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114332544B (zh) * 2022-03-14 2022-06-07 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN117036829A (zh) * 2023-10-07 2023-11-10 之江实验室 一种基于原型学习实现标签增强的叶片细粒度识别方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN113536922A (zh) * 2021-06-11 2021-10-22 北京理工大学 一种加权融合多种图像任务的视频行为识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769491B2 (en) * 2017-09-01 2020-09-08 Sri International Machine learning system for generating classification data and part localization data for objects depicted in images
CN109359684B (zh) * 2018-10-17 2021-10-29 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN110991321B (zh) * 2019-11-29 2023-05-02 北京航空航天大学 一种基于标签更正与加权特征融合的视频行人再识别方法
CN112149720A (zh) * 2020-09-09 2020-12-29 南京信息工程大学 一种细粒度车辆类型识别方法
CN113159066B (zh) * 2021-04-12 2022-08-30 南京理工大学 基于类间相似度的分布式标签的细粒度图像识别算法
CN113255793B (zh) * 2021-06-01 2021-11-30 之江实验室 一种基于对比学习的细粒度舰船识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN113536922A (zh) * 2021-06-11 2021-10-22 北京理工大学 一种加权融合多种图像任务的视频行为识别方法

Also Published As

Publication number Publication date
CN114067294A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN110188765B (zh) 图像语义分割模型生成方法、装置、设备及存储介质
CN114067294B (zh) 一种基于文本特征融合的细粒度车辆识别系统及方法
CN113469088B (zh) 一种无源干扰场景下的sar图像舰船目标检测方法及系统
US20210056353A1 (en) Joint representation learning from images and text
CN116824307B (zh) 基于sam模型的图像标注方法、装置及相关介质
CN111680757A (zh) 一种基于自编码器的零样本图像识别算法及系统
CN116704431A (zh) 水污染的在线监测系统及其方法
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
Franchi et al. Latent discriminant deterministic uncertainty
CN116469110A (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
Bouguezzi et al. Improved architecture for traffic sign recognition using a self-regularized activation function: SigmaH
CN113989838A (zh) 行人重识别模型训练方法、识别方法、系统、装置及介质
CN111291672B (zh) 一种联合图像文本识别和模糊判断方法、装置及存储介质
US20230281826A1 (en) Panoptic segmentation with multi-database training using mixed embedding
CN114120074B (zh) 基于语义增强的图像识别模型的训练方法和训练装置
CN116343016A (zh) 一种基于轻量型卷积网络的多角度声呐图像目标分类方法
CN115690752A (zh) 一种驾驶员行为检测方法及装置
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN114998748A (zh) 遥感图像目标精细识别方法、电子设备及存储介质
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN114220145A (zh) 人脸检测模型生成方法和装置、伪造人脸检测方法和装置
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
CN113919348A (zh) 命名实体识别方法、装置、电子设备及计算机存储介质
Sastry et al. Training diffusion classifiers with denoising assistance
CN116050428B (zh) 意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant