CN116311104B - 一种车辆改装识别模型的训练方法、装置、设备及介质 - Google Patents

一种车辆改装识别模型的训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN116311104B
CN116311104B CN202310540210.9A CN202310540210A CN116311104B CN 116311104 B CN116311104 B CN 116311104B CN 202310540210 A CN202310540210 A CN 202310540210A CN 116311104 B CN116311104 B CN 116311104B
Authority
CN
China
Prior art keywords
training
vehicle
model
image
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310540210.9A
Other languages
English (en)
Other versions
CN116311104A (zh
Inventor
陈晨
李建华
周平
刘晓静
杨明珠
张雨林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zenmorn Hefei Technology Co ltd
Original Assignee
Zenmorn Hefei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zenmorn Hefei Technology Co ltd filed Critical Zenmorn Hefei Technology Co ltd
Priority to CN202310540210.9A priority Critical patent/CN116311104B/zh
Publication of CN116311104A publication Critical patent/CN116311104A/zh
Application granted granted Critical
Publication of CN116311104B publication Critical patent/CN116311104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种车辆改装识别模型的训练方法、装置、设备及介质,包括:获取图像数据集,其中,所述图像数据集包括训练图像集、测试图像集以及验证图像集;对所述图像数据集进行处理,生成对应的损失函数集;根据所述损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;将所述图像数据集输入到所述中间辆改装识别模型中的编码器中,生成输出特征图集;在所述编码器与解码器之间设置门注意力机制,并基于所述输出特征图集,以生成训练好的目标车辆改装识别模型。通过本发明公开的一种车辆改装识别模型的训练方法、装置、设备及介质,能够提升车辆识别的精确度。

Description

一种车辆改装识别模型的训练方法、装置、设备及介质
技术领域
本发明涉及图像处理技术领域,特别是涉及一种车辆改装识别模型的训练方法、装置、设备及介质。
背景技术
在通过摄像头中的车辆改装识别模型对路桥上的过往车辆进行识别检测的过程中,由于车辆在镜头中可能存在目标占比较小、摄像方向与角度偏差、树木或光线等遮挡,导致摄像头无法精确拍摄到路桥上的过往车辆,进而无法精确判断过往车辆是否存在改装的情况。因此,存在待改进之处。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种车辆改装识别模型的训练方法、装置、设备及介质,能够提升车辆识别的精确度。
为实现上述目的及其他相关目的,本发明提供一种车辆改装识别模型的训练方法,包括:
获取图像数据集,其中,所述图像数据集包括训练图像集、测试图像集以及验证图像集;
对所述图像数据集进行处理,生成对应的损失函数集;
根据所述损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;
将所述图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集;
在所述编码器与解码器之间设置门注意力机制,并基于所述输出特征图集,以生成训练好的目标车辆改装识别模型。
在本发明一实施例中,所述获取图像数据集的步骤包括:
获取过往车辆图像;
分别对所述车辆图像进行打标签处理,生成对应的图像数据集,其中,所述图像数据集包括多个图像数据;
将所有的所述图像数据按照预设比例分为训练图像集、测试图像集以及验证图像集。
在本发明一实施例中,所述对所述图像数据集进行处理,生成对应的损失函数集的步骤包括:
对所述图像数据集进行归一化处理,生成对应的归一数据集;
根据二值交叉熵损失函数对所述归一数据集进行处理,生成对应的损失函数集。
在本发明一实施例中,所述根据所述损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型的步骤包括:
根据训练损失集与测试损失集对初始车辆改装识别模型进行训练,生成训练后的初始车辆改装识别模型;
将验证损失集作为参数输入到所述训练后的初始车辆改装识别模型中,生成模型精度;
基于所述训练后的初始车辆改装识别模型的模型精度与训练前的所述初始车辆改装识别模型的模型精度的比较结果,保留模型精度较高的模型。
在本发明一实施例中,在所述基于所述训练后的初始车辆改装识别模型的模型精度与训练前的所述初始车辆改装识别模型的模型精度的比较结果,保留模型精度较高的模型的步骤后,还包括:
对保留的车辆改装识别模型重复训练,直到训练次数达到训练阈值后为止,生成中间车辆改装识别模型。
在本发明一实施例中,所述将所述图像数据集输入到所述中间辆改装识别模型中的编码器中,生成输出特征图集的步骤包括:
对所述图像数据集进行特征提取处理,生成特征图集;
对所述特征图集进行全局平均池运算处理,以生成空间方向上的特征图的统计信息集;
将所述统计信息集与所述中间车辆改装识别模型的输出相加,以生成输出特征图集。
在本发明一实施例中,所述在所述编码器与解码器之间设置门注意力机制,并基于所述输出特征图集,以生成训练好的目标车辆改装识别模型的步骤包括:
在所述编码器与解码器之间设置门注意力机制,将所述编码器与所述解码器中不同尺寸的输出特征进行融合,并将所述输出特征图集输入到所述解码器中,以生成融合特征通道;
对所述融合特征通道进行反卷积操作处理,同时在所述解码器之后设置激活函数;
根据所述激活函数,设置对应的置信度,以生成训练好的目标车辆改装识别模型。
本发明还提供一种车辆改装识别模型的训练装置,包括:
图像获取模块,用以获取图像数据集,其中,所述图像数据集包括训练图像集、测试图像集以及验证图像集;
数据处理模块,用以对所述图像数据集进行处理,生成对应的损失函数集;
模型训练模块,用以根据所述损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;
模型改进模块,用以将所述图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集;以及
模型添加模块,用以在所述编码器与解码器之间设置门注意力机制,并基于所述输出特征图集,以生成训练好的目标车辆改装识别模型。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述车辆改装识别模型的训练方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述车辆改装识别模型的训练方法的步骤。
如上所述,本发明提供一种车辆改装识别模型的训练方法、装置、设备及介质,通过对车辆改装识别模型中的编码器、解码器等进行改进,能够提高图像的识别精度,解决了常规图像分类识别算法应用于特定场景图像中导致精度过低的问题。改造后的编码器、解码器能够抓取不同层次的特征图,改进的Transformer特征网络和下采样能够获取更加细节的特征,通过在二值交叉熵损失函数,设定不同权重得到设定损失函数,使得模型的训练效果更加稳定,精度更高。同时,通过设置门注意力机制,能够提升感兴趣区域的曝光度,筛除无关信息,能够进一步提升识别精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图生成其他的附图。
图1显示为本发明的一种车辆改装识别模型的训练方法的流程图;
图2显示为图1中步骤S10的流程图;
图3显示为图1中步骤S20的流程图;
图4显示为图1中步骤S30的流程图;
图5显示为图1中步骤S40的流程图;
图6显示为图1中步骤S50的流程图;
图7显示为本发明的车辆改装识别模型中编码器的多层示意图;
图8显示为本发明的车辆改装识别模型中编码器的示意图;
图9显示为本发明的车辆改装识别模型中解码器和编码器的连接示意图;
图10显示为本发明的车辆改装识别模型中特征网络的示意图;
图11显示为本发明的车辆改装识别模型中门注意力机制的示意图;
图12显示为本发明的一种车辆改装识别模型的训练装置的示意图;
图13显示为本发明的一种计算机设备的示意图;
图14显示为本发明的另一种计算机设备的示意图。
元件标号说明:
100、下采样处理;210、输入层;220、隐层;230、输出层;300、门注意力机制;400、特征网络;500、图像获取模块;600、数据处理模块;700、模型训练模块;800、模型改进模块;900、模型添加模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所生成的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明提供了一种车辆改装识别模型的训练方法,其可对车辆改装识别模型进行训练,以便摄像头能够对路桥上的过往车辆进行识别检测,以判断过往车辆是否存在车辆改装的情况。车辆改装识别模型的训练方法可包括如下步骤:
步骤S10、获取图像数据集,其中,图像数据集包括训练图像集、测试图像集以及验证图像集;
步骤S20、对图像数据集进行处理,生成对应的损失函数集;
步骤S30、根据损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;
步骤S40、将图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集;
步骤S50、在编码器与解码器之间设置门注意力机制,并基于输出特征图集,以生成训练好的目标车辆改装识别模型。
请参阅图2所示,在本发明的一个实施例中,当执行步骤S10时,具体的,步骤S10可包括如下步骤:
步骤S11、获取过往车辆图像;
步骤S12、分别对车辆图像进行打标签处理,生成对应的图像数据集,其中,图像数据集包括多个图像数据;
步骤S13、将所有的图像数据按照预设比例分为训练图像集、测试图像集以及验证图像集。
在本发明的一个实施例中,可以通过安装在路桥上的摄像头,分别对过桥车辆进行拍摄,进而生成过往的多个行车图像。由于行车图像中的车辆可能会存在改装的情况,也可能存在未改装的情况,因此需要对行车图像进行筛分,将存在改装情况的车辆筛分出来,进而生成相应的车辆图像。由于车辆图像中的车辆可能在不同的位置进行改装,例如,可能在车门处进行改装,也可能在车尾处进行改装,还可能在车头处进行改装,因此,需要对车辆图像进行打标签处理,以生成对应的图像数据。其中,图像数据可以包括车辆图像与对应的改装标签。将多个图像数据进行整合,进而可以生成图像数据集。
进一步的,由于图像数据的数量是多个的,因此需要对其进行分配,将其按照预设比例分为训练图像集、测试图像集以及验证图像集。例如,预设比例可以为6:2:2,即训练图像集中的图像数据的数量、测试图像集中的图像数据的数量以及验证图像集中的图像数据的数量的比值可以为6:2:2。预设比例的具体大小可不加限制,只要能够满足对车辆改装识别模型进行训练即可。其中,训练图像集中的m张图像数据可以表示为,对应的m张车辆图像可以表示为/>,/>可以表示训练图像集中第/>张图形数据对应的车辆图像,/>可以表示训练图像集中第/>张图像数据,/>。验证图像集中的n张图像数据可以表示为/>,对应的n张车辆图像可以表示为/>,/>可以表示验证图像集中中第/>张图形数据对应的车辆图像,/>可以表示验证图像集中第/>张图像数据,/>
请参阅图3所示,在本发明的一个实施例中,当执行步骤S20时,具体的,步骤S20可包括如下步骤:
步骤S21、对图像数据集进行归一化处理,生成对应的归一数据集,其中,归一数据集包括训练数据集、测试数据集以及验证数据集;
步骤S22、根据二值交叉熵损失函数对归一数据集进行处理,生成对应的损失函数集,其中,损失函数集包括训练损失集、测试损失集以及验证损失集。
在本发明的一个实施例中,当获取到图像数据集后,需要对图像数据集中的各个图像数据的色彩模型通道(Red Green Blue,RGB)通道进行归一化处理,将归一化后的RGB通道的数值最终限定于-1至1之间,使其有利于车辆改装识别模型的收敛。由于图像数据的RGB通道数值范围是0到255,需要将其转换为0到1之间的32位的浮点数形式,最后进行将其数值限定于-1到1之间,可使用opencv完成图片读取与归一化操作。该图像数据的尺寸为256*256,其RGB通道数为3。归一化后的RGB通道的数值可以表示为归一数据s,,其中/>为图像数据。当对所有的图像数据进行归一化处理后,可以生成相应的归一数据集。归一数据集可以被区分为训练数据集、测试数据集以及验证数据集。训练数据集中的归一数据的数量、测试数据集中的归一数据的数量以及验证数据集中的归一数据的数量的比值可以为6:2:2。
进一步的,可以根据交叉熵(CE)损失和AdamW优化器训练车辆改装识别模型,权重衰减可以等于0.01,β值等于(0.9,0.999),将优化器设定为AdamW,获得最终的损失函数。具体的,当获取到归一数据集后,可以根据二值交叉熵损失函数对归一数据集进行处理,生成对应的损失函数集。损失函数集中可以包括多个损失函数,损失函数可以表示为:,其中,/>表示二值交叉熵损失函数,其中/>表示归一数据中的真值,/>表示归一数据中的预测值。损失函数集可以包括训练损失集、测试损失集以及验证损失集,包括训练损失集中的损失函数的数量、测试损失集中的损失函数的数量以及验证损失集中的损失函数的数量的比值可以为6:2:2。
请参阅图4所示,在本发明的一个实施例中,当执行步骤S30时,具体的,步骤S30可包括如下步骤:
步骤S31、根据训练损失集与测试损失集对初始车辆改装识别模型进行训练,生成训练后的初始车辆改装识别模型;
步骤S32、将验证损失集作为参数输入到训练后的初始车辆改装识别模型中,生成模型精度;
步骤S33、基于训练后的初始车辆改装识别模型的模型精度与训练前的初始车辆改装识别模型的模型精度的比较结果,保留模型精度较高的模型;
步骤S34、对保留的车辆改装识别模型重复训练,直到训练次数达到训练阈值后为止,生成中间车辆改装识别模型。
在本发明的一个实施例中,当获取到损失函数集后,损失函数集中可以包括训练损失集、测试损失集以及验证损失集。训练损失集中可以包括多个损失函数。测试损失集中可以包括多个损失函数。验证损失集中可以包括多个损失函数。可以将训练损失集与测试损失集作为参数,输入到初始车辆改装识别模型进行训练,生成训练后的初始车辆改装识别模型,其中,可以通过验证损失集对初始车辆改装识别模型进行训练,可以通过验证损失集对训练后的初始车辆改装识别模型进行验证,进而得到训练后的初始车辆改装识别模型的模型精度。
进一步的,由于训练后的初始车辆改装识别模型的模型精度相较于未训练的初始车辆改装识别模型的模型精度而言,其模型精度可能较高,也可能较低,因此,需要将训练后的初始车辆改装识别模型的模型精度与之前的模型精度进行比较,以保留模型精度较高的模型。为了能够进一步提升训练后的模型的精度,因此,可以对模型进行多次重复训练,直至训练次数达到训练阈值后为止。其中,训练阈值可以为200,训练阈值的具体大小可根据实际需求进行设定。在每一次训练后,都会将训练后的初始车辆改装识别模型的模型精度与训练前的初始车辆改装识别模型的模型精度进行比较,进而保留模型精度较高的车辆改装识别模型,直至训练次数达到训练阈值后为止,最终得到的训练后的初始车辆改装识别模型可以表示为中间车辆改装识别模型。在获取车辆改装识别模型的模型精度的过程中,模型精度可以由准确率和F1分数来作为评估标准。准确率为预测正确的样本和所有样本的比值,F1分数是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的精确率和召回率。可以看作是模型精确率和召回率的一种加权平均。其中,车辆改装识别模型的学习率最初设置可以为0.0001,线性衰减可以为0。
请参阅图6所示,在本发明的一个实施例中,当执行步骤S40时,具体的,步骤S40可包括如下步骤:
步骤S41、对图像数据集进行特征提取处理,生成特征图集;
步骤S42、对特征图集进行全局平均池运算处理,以生成空间方向上的特征图的统计信息集;
步骤S43、将统计信息集与中间车辆改装识别模型的输出相加,以生成输出特征图集。
请参阅图7及图8所示,在本发明的一个实施例中,当对初始车辆改装识别模型进行多次训练后,得到中间车辆改装识别模型。此时对中间车辆改装识别模型中的编码器进行搭建,采用改进的Transformer特征网络400提取特征,对图像数据集进行特征提取处理,以生成特征图集。其中,图像数据集中的图像数据X可以表示为,对其进行四次下采样处理100,可以得到特征图Xn,表示为/>,n=0、1、2、3,X={X0,X1,X2,X3},在下采样的过程中额外增加了SoftPool分支,它是可微的,并且可以在下采样激活图中保留更多信息,表示为/>,R为框中选择的区域,是ai中的像素,例如,大小为C*H*W的特征图的局部区域可以表示为R,W和H分别表示特征图的宽和高,C表示特征图的通道数,R为2D空间区域,大小等同于池化核大小,i和j表示R中不同的索引。编码器提取特征为改进的Transformer特征网络400,除了Transformer特征网络400的主要分支之外,Transformer特征网络400的另一个分支为像素融合模块,像素融合模块可以在水平和垂直两个空间维度上引入注意力,以考虑每个像素之间的关系。在实际应用场景中,往往会因为镜头中,可能存在目标过小、角度偏、树或光遮挡,导致出现错误判断的情况,因此需要一些空间信息来改变这种现象,Transformer特征网络400更适合于分类任务,增加识别精度。
请参阅图7所示,在本发明的一个实施例中,编码器的前三层输出会通过一个连接与映射层,进而连接了前三层所有的信息,随后送入第四层下采样,得到最终编码层结果,C1=512。前三层通过一个多层感知机(MLP)进行映射,多层感知机(也叫人工神经网络,除了输入层210、输出层230,它中间可以有多个隐层220,最简单的MLP只含一个隐层220),即三层结构。在最后一层的输入为前三层映射到/>,C2=256,的张量连接的结果。
进一步的,对图像数据集进行特征提取处理,以生成特征图集后,此时需要对特征图集进行全局平均池运算处理,以生成空间方向上的特征图的统计信息集。具体的,特征图的统计信息集在水平方向的像素可以表示为/>,特征图的统计信息集在垂直方向的像素/>可以表示为/>,特征/>,/>是具有批量归一化和GELU激活函数的扩张卷积层,/>和/>分别表示在垂直方向与水平方向的收敛特征图的像素级权重,i,j,和k是垂直方向、水平方向和通道的索引。X表示此时特征图的特征尺寸在n次下采样的结果,w和h分别此时特征图的宽和高。
进一步的,当生成所有的统计信息后,可以对所有的统计信息进行集合,进而得到统计信息集。此时可以将统计信息集与中间车辆改装识别模型的输出相加,以生成输出特征图集。输出特征图集可以包括多个输出特征图F,输出特征图F可以表示为,其中,/>表示通过Transformer网络操作输出的特征,/>表示元素级加法,/>表示矩阵乘法,/>表示具有批量归一化和GELU的1×1卷积层。
请参阅图6所示,在本发明的一个实施例中,当执行步骤S50时,具体的,步骤S50可包括如下步骤:
步骤S51、在编码器与解码器之间设置门注意力机制,将编码器与解码器中不同尺寸的输出特征进行融合,并将输出特征图集输入到解码器中,以生成融合特征通道;
步骤S52、对融合特征通道进行反卷积操作处理,同时在解码器之后设置激活函数;
步骤S53、根据激活函数,设置对应的置信度,以生成训练好的目标车辆改装识别模型。
请参阅图9、图10及图11所示,在本发明的一个实施例中,在中间车辆改装识别模型中的编码器与解码器之间设置门注意力机制300,门注意力机制300可以抑制图像中不相关区域的特征激活,降低错检率。门注意力机制300在跳过连接之前对编码器中的融合模块及其相应的解码器进行相应的操作,门注意力机制300通过两个分支传输,一个(e)来自相应编码器的融合模块,其包含相应层中的双时态图像的所有上下文和空间信息,另一个(d)来自下面的解码器层,其包含更为丰富的全局特征。两个分支将通过一个1×1卷积和一个MLP并行信道,以减少信道数量,MLP的使用携带更多有用的信息,并且更适合稍后的分类任务,然后添加这两个特征并使用Sigmoid函数来获得概率权重。最后,编码器(e)的输入分支乘以权重,以实现使用高级特征来指导低级信息的筛选的作用。
进一步的,在编码器与解码器之间设置门注意力机制300时,可以用编码器与解码器中对应尺度的特征图,在经过门注意力机制后的编码器与解码器采用跳跃连接的方式将编码阶段的低级特征与解码阶段的高级特征相结合,再采用相加的操作以获得融合特征通道F,表示为F={F0,F1,F2,F3}={512,256,128,64},,其中,/>表示解码阶段第i层特征图,/>是通过门注意力机制加权后所得结果,/>表示编码阶段第/>层特征图,表示编码阶段第/>层特征图,/>表示为特征图上采样操作,/>表示为对应元素的相加,通过跳跃连接的操作将编码器与解码器中不同尺寸的特征进行融合,/>
对融合特征进行上采样,在上采样的过程中,利用反卷积操作将特征图的尺寸扩大为原特征图尺寸的2倍,特征通道数缩减为原通道数的一半:,/>可以表示为上采样之前的特征图,其特性维度表示为/>,/>可以表示为利用反卷积上采样之后的特征图,其特征维度表示为/>,/>表示特征图通道数,/>表示特征图的高,/>表示特征图的宽,特征图的通道数由/>变化为/>,特征图的宽和高分别由、/>变化为/>、/>,通过上述过程执行三次,特征X逐渐扩展到/>,C3=64。最后利用在解码器的最后一层之后设置/>激活函数,计算置信度,并限定在0至1之间,置信度表示为/>,其中,/>表示对特征图计算得到所述目标置信度是正样本的概率值,设定阈值界定目标与非目标。设置好对应的置信度后,可以以生成训练好的目标车辆改装识别模型。阈值的大小可以不加限制,可以根据实际需求进行设定,例如,阈值可以为0.7。当将某一张摄像头拍摄的图像输入到目标车辆改装识别模型,目标车辆改装识别模型可以对该图像进行计算,进而得到置信度,可以将置信度与阈值进行比较,若置信度大于或等于阈值,则表示该图像中的车辆存在改装的情况,若置信度小于阈值,则表示该图像中的车辆不存在改装的情况。
可见,在上述方案中,通过对车辆改装识别模型中的编码器、解码器等进行改进,能够提高图像的识别精度,解决了常规图像分类识别算法应用于特定场景图像中导致精度过低的问题。改造后的编码器、解码器能够抓取不同层次的特征图,改进的Transformer特征网络和下采样能够获取更加细节的特征,通过在二值交叉熵损失函数,设定不同权重得到设定损失函数,使得模型的训练效果更加稳定,精度更高。同时,通过设置门注意力机制,能够提升感兴趣区域的曝光度,筛除无关信息,能够进一步提升识别精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
请参阅图12所示,本发明还提供了一种车辆改装识别模型的训练装置,该训练装置与上述实施例中训练方法一一对应。该训练装置可以包括图像获取模块500、数据处理模块600、模型训练模块700、模型改进模块800以及模型添加模块900。各功能模块详细说明如下:
图像获取模块500可用于获取图像数据集,其中,图像数据集包括训练图像集、测试图像集以及验证图像集。进一步的,图像获取模块500可具体用于获取过往车辆图像,分别对车辆图像进行打标签处理,生成对应的图像数据集,其中,图像数据集包括多个图像数据,将所有的图像数据按照预设比例分为训练图像集、测试图像集以及验证图像集。
数据处理模块600可用于对图像数据集进行处理,生成对应的损失函数集。进一步的,数据处理模块600可具体用于对图像数据集进行归一化处理,生成对应的归一数据集,其中,归一数据集包括训练数据集、测试数据集以及验证数据集,根据二值交叉熵损失函数对归一数据集进行处理,生成对应的损失函数集,其中,损失函数集包括训练损失集、测试损失集以及验证损失集。
模型训练模块700可用于根据损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型。进一步的,模型训练模块700可具体用于根据训练损失集与测试损失集对初始车辆改装识别模型进行训练,生成训练后的初始车辆改装识别模型,将验证损失集作为参数输入到训练后的初始车辆改装识别模型中,生成模型精度,基于训练后的初始车辆改装识别模型的模型精度与训练前的初始车辆改装识别模型的模型精度的比较结果,保留模型精度较高的模型,对保留的车辆改装识别模型重复训练,直到训练次数达到训练阈值后为止,生成中间车辆改装识别模型。
模型改进模块800可用于将图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集。进一步的,模型改进模块800可具体用于对图像数据集进行特征提取处理,生成特征图集,对特征图集进行全局平均池运算处理,以生成空间方向上的特征图的统计信息集,将统计信息集与中间车辆改装识别模型的输出相加,以生成输出特征图集。
模型添加模块900可用于在编码器与解码器之间设置门注意力机制,并基于输出特征图集,以生成训练好的目标车辆改装识别模型。进一步的,模型添加模块900可具体用于在编码器与解码器之间设置门注意力机制,将编码器与解码器中不同尺寸的输出特征进行融合,并将输出特征图集输入到解码器中,以生成融合特征通道,对融合特征通道进行反卷积操作处理,同时在解码器之后设置激活函数,根据激活函数,设置对应的置信度,以生成训练好的目标车辆改装识别模型。
关于训练装置的具体限定可以参见上文中对于训练方法的限定,在此不再赘述。上述训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图13所示,本发明还提供了一种计算机设备,该计算机设备可以是服务端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种车辆改装识别模型的训练方法的功能或步骤。
请参阅图14所示,本发明还提供了另一种计算机设备,该计算机设备可以是客户端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种车辆改装识别模型的训练方法的功能或步骤。
在本发明的一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取图像数据集,其中,图像数据集包括训练图像集、测试图像集以及验证图像集;
对图像数据集进行处理,生成对应的损失函数集;
根据损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;
将图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集;
在编码器与解码器之间设置门注意力机制,并基于输出特征图集,以生成训练好的目标车辆改装识别模型。
在本发明的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取图像数据集,其中,图像数据集包括训练图像集、测试图像集以及验证图像集;
对图像数据集进行处理,生成对应的损失函数集;
根据损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;
将图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集;
在编码器与解码器之间设置门注意力机制,并基于输出特征图集,以生成训练好的目标车辆改装识别模型。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在本说明书的描述中,参考术语“本实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明实施例只是用于帮助阐述本发明。实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (9)

1.一种车辆改装识别模型的训练方法,其特征在于,包括:
获取图像数据集,其中,所述图像数据集包括训练图像集、测试图像集以及验证图像集;
对所述图像数据集进行处理,生成对应的损失函数集;
根据所述损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;
将所述图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集;
在所述编码器与解码器之间设置门注意力机制,将所述编码器与所述解码器中不同尺寸的输出特征进行融合,并将所述输出特征图集输入到所述解码器中,以生成融合特征通道;
对所述融合特征通道进行反卷积操作处理,同时在所述解码器之后设置激活函数;
根据所述激活函数,设置对应的置信度,以生成训练好的目标车辆改装识别模型。
2.根据权利要求1所述的车辆改装识别模型的训练方法,其特征在于,所述获取图像数据集的步骤包括:
获取过往车辆图像;
分别对所述车辆图像进行打标签处理,生成对应的图像数据集,其中,所述图像数据集包括多个图像数据;
将所有的所述图像数据按照预设比例分为训练图像集、测试图像集以及验证图像集。
3.根据权利要求1所述的车辆改装识别模型的训练方法,其特征在于,所述对所述图像数据集进行处理,生成对应的损失函数集的步骤包括:
对所述图像数据集进行归一化处理,生成对应的归一数据集;
根据二值交叉熵损失函数对所述归一数据集进行处理,生成对应的损失函数集。
4.根据权利要求1所述的车辆改装识别模型的训练方法,其特征在于,所述根据所述损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型的步骤包括:
根据训练损失集与测试损失集对初始车辆改装识别模型进行训练,生成训练后的初始车辆改装识别模型;
将验证损失集作为参数输入到训练后的初始车辆改装识别模型中,生成模型精度;
基于训练后的初始车辆改装识别模型的模型精度与训练前的初始车辆改装识别模型的模型精度的比较结果,保留模型精度较高的模型。
5.根据权利要求4所述的车辆改装识别模型的训练方法,其特征在于,在所述基于训练后的初始车辆改装识别模型的模型精度与训练前的初始车辆改装识别模型的模型精度的比较结果,保留模型精度较高的模型的步骤后,还包括:对保留的车辆改装识别模型重复训练,直到训练次数达到训练阈值后为止,生成中间车辆改装识别模型。
6.根据权利要求1所述的车辆改装识别模型的训练方法,其特征在于,所述将所述图像数据集输入到所述中间辆改装识别模型中的编码器中,生成输出特征图集的步骤包括:
对所述图像数据集进行特征提取处理,生成特征图集;
对所述特征图集进行全局平均池运算处理,以生成空间方向上的特征图的统计信息集;
将所述统计信息集与所述中间车辆改装识别模型的输出相加,以生成输出特征图集。
7.一种车辆改装识别模型的训练装置,其特征在于,包括:
图像获取模块,用以获取图像数据集,其中,所述图像数据集包括训练图像集、测试图像集以及验证图像集;
数据处理模块,用以对所述图像数据集进行处理,生成对应的损失函数集;
模型训练模块,用以根据所述损失函数集对初始车辆改装识别模型进行训练,生成中间车辆改装识别模型;
模型改进模块,用以将所述图像数据集输入到中间辆改装识别模型中的编码器中,生成输出特征图集;以及
模型添加模块,用以在所述编码器与解码器之间设置门注意力机制,将所述编码器与所述解码器中不同尺寸的输出特征进行融合,并将所述输出特征图集输入到所述解码器中,以生成融合特征通道,对所述融合特征通道进行反卷积操作处理,同时在所述解码器之后设置激活函数,根据所述激活函数,设置对应的置信度,以生成训练好的目标车辆改装识别模型。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述车辆改装识别模型的训练方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述车辆改装识别模型的训练方法的步骤。
CN202310540210.9A 2023-05-15 2023-05-15 一种车辆改装识别模型的训练方法、装置、设备及介质 Active CN116311104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310540210.9A CN116311104B (zh) 2023-05-15 2023-05-15 一种车辆改装识别模型的训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310540210.9A CN116311104B (zh) 2023-05-15 2023-05-15 一种车辆改装识别模型的训练方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116311104A CN116311104A (zh) 2023-06-23
CN116311104B true CN116311104B (zh) 2023-08-22

Family

ID=86803488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310540210.9A Active CN116311104B (zh) 2023-05-15 2023-05-15 一种车辆改装识别模型的训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116311104B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118366110B (zh) * 2024-06-20 2024-09-06 杭州像素元科技有限公司 高速公路高杆监控摄像机的小目标车辆识别算法模型的构建方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949572A (zh) * 2021-03-26 2021-06-11 重庆邮电大学 基于Slim-YOLOv3的口罩佩戴情况检测方法
CN113269182A (zh) * 2021-04-21 2021-08-17 山东师范大学 一种基于变体transformer对小区域敏感的目标果实检测方法及系统
CN113762144A (zh) * 2021-09-05 2021-12-07 东南大学 一种基于深度学习的黑烟车检测方法
CN113850821A (zh) * 2021-09-17 2021-12-28 武汉兰丁智能医学股份有限公司 一种注意力机制和多尺度融合的白细胞分割方法
CN113850263A (zh) * 2021-08-31 2021-12-28 深圳壹账通智能科技有限公司 基于图像识别的车型预测方法、装置、设备及介质
CN115063632A (zh) * 2022-06-20 2022-09-16 平安科技(深圳)有限公司 基于人工智能的车辆损伤识别方法、装置、设备及介质
CN115546468A (zh) * 2021-12-31 2022-12-30 沈阳理工大学 一种基于transformer的细长类物体目标检测方法
CN116109821A (zh) * 2022-12-13 2023-05-12 北京航空航天大学 基于下采样和注意力机制的语义分割方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468239B2 (en) * 2020-05-22 2022-10-11 Capital One Services, Llc Joint intent and entity recognition using transformer models
US12067081B2 (en) * 2021-08-10 2024-08-20 Kwai Inc. Transferable vision transformer for unsupervised domain adaptation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949572A (zh) * 2021-03-26 2021-06-11 重庆邮电大学 基于Slim-YOLOv3的口罩佩戴情况检测方法
CN113269182A (zh) * 2021-04-21 2021-08-17 山东师范大学 一种基于变体transformer对小区域敏感的目标果实检测方法及系统
CN113850263A (zh) * 2021-08-31 2021-12-28 深圳壹账通智能科技有限公司 基于图像识别的车型预测方法、装置、设备及介质
CN113762144A (zh) * 2021-09-05 2021-12-07 东南大学 一种基于深度学习的黑烟车检测方法
CN113850821A (zh) * 2021-09-17 2021-12-28 武汉兰丁智能医学股份有限公司 一种注意力机制和多尺度融合的白细胞分割方法
CN115546468A (zh) * 2021-12-31 2022-12-30 沈阳理工大学 一种基于transformer的细长类物体目标检测方法
CN115063632A (zh) * 2022-06-20 2022-09-16 平安科技(深圳)有限公司 基于人工智能的车辆损伤识别方法、装置、设备及介质
CN116109821A (zh) * 2022-12-13 2023-05-12 北京航空航天大学 基于下采样和注意力机制的语义分割方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zhu He 等.Deconv-transformer (DecT): A histopathological image classification model for breast cancer based on color deconvolution and transformer architecture.Information Sciences.2022,第608卷1093-1112. *

Also Published As

Publication number Publication date
CN116311104A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN113362329B (zh) 病灶检测模型的训练方法及识别图像中的病灶的方法
US11308714B1 (en) Artificial intelligence system for identifying and assessing attributes of a property shown in aerial imagery
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN113673530B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN114187450B (zh) 一种基于深度学习的遥感图像语义分割方法
CN116824307B (zh) 基于sam模型的图像标注方法、装置及相关介质
CN113468967A (zh) 基于注意力机制的车道线检测方法、装置、设备及介质
CN116368500A (zh) 模型训练方法、图像处理方法、计算处理设备及非瞬态计算机可读介质
CN116311104B (zh) 一种车辆改装识别模型的训练方法、装置、设备及介质
CN113221645B (zh) 目标模型训练方法、人脸图像生成方法以及相关装置
CN111783819A (zh) 小规模数据集上基于感兴趣区域训练改进的目标检测方法
CN117671509B (zh) 遥感目标检测方法、装置、电子设备及存储介质
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Mo et al. SAUNet3+ CD: A Siamese-attentive UNet3+ for change detection in remote sensing images
CN108154199B (zh) 一种基于深度学习的高精度快速单类目标检测方法
CN116612272A (zh) 一种图像处理智能数字化的检测系统及其检测方法
CN116468702A (zh) 黄褐斑评估方法、装置、电子设备及计算机可读存储介质
CN114067221B (zh) 一种遥感影像林地提取方法及系统及装置及介质
CN112699809B (zh) 痘痘类别识别方法、装置、计算机设备及存储介质
CN112287995A (zh) 一种基于多层耦合映射的低分辨率图像识别方法
CN118608753B (zh) 面向半监督旋转目标检测的密集伪标签方法、装置和设备
CN118397403B (zh) 低照度车辆图像检测模型的训练方法、装置、设备及介质
CN118470333B (zh) 一种基于遥感图像的地理环境语义分割方法及系统
Liu Concrete Crack Segmentation Using UNet Algorithm with Swin Transformer Block & CPAM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant