CN116168267A - 一种多任务神经网络模型的训练方法、装置、设备及介质 - Google Patents
一种多任务神经网络模型的训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116168267A CN116168267A CN202310004710.0A CN202310004710A CN116168267A CN 116168267 A CN116168267 A CN 116168267A CN 202310004710 A CN202310004710 A CN 202310004710A CN 116168267 A CN116168267 A CN 116168267A
- Authority
- CN
- China
- Prior art keywords
- neural network
- image
- training
- network model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及深度学习技术领域,提供一种多任务神经网络模型的训练方法,所述方法包括:获取图像数据集;对所述图像训练数据集进行图像增强处理,生成目标训练数据集;将所述目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集;对所述子任务图像数据集进行前向推理处理,生成多个初始梯度数据;对所述子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据;根据所述目标权重数据对所有所述初始梯度数据分别进行加权平均处理,生成目标梯度数据;以及将所述目标梯度数据输入所述目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。本发明能够降低多任务机器学习模型训练时的算力成本。
Description
技术领域
本申请涉及深度学习技术领域,具体涉及一种多任务神经网络模型的训练方法、装置、设备及介质。
背景技术
近年来,随着人工智能机器视觉技术等相关科学的发展,利用机器学习模型进行多任务训练已经被广泛应用。现有多任务机器学习模型由多个任务组成,并且每个子任务有各自对应的数据集和对应的标注标签。训练时,会先根据经验预设各个子任务的权重值,再根据训练效果,调整各个任务的权值,如某个子任务训练后发现不太充分,就加大子任务的权重,相反,若某个子任务出现了过拟合,就减少该任务的权值,然而这样不断的试错过程会使得整个模型训练周期增加,使得训练模型的参数量增加,从而导致多任务机器学习模型训练时的算力成本大大增加。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种多任务神经网络模型的训练方法、装置、设备及介质,以解决上述技术问题。
本发明提供一种多任务神经网络模型的训练方法,所述方法包括:
获取图像数据集,其中,所述图像数据集包括图像训练数据集和图像测试数据集;
对所述图像训练数据集进行图像增强处理,生成目标训练数据集;
将所述目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集;
对所述子任务图像数据集进行前向推理处理,生成多个初始梯度数据;
对所述子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据;
根据所述目标权重数据对所有所述初始梯度数据分别进行加权平均处理,生成目标梯度数据;以及
将所述目标梯度数据输入所述目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。
于本发明的一实施例中,所述图像增强处理包括对所述图像训练集的图像的亮度、对比度以及色度进行随机增强,以提高所述图像训练集的图像稳定性。
于本发明的一实施例中,所述图像训练数据集包括图片分类任务数据集、目标检测任务数据集以及深度预测任务数据集。
于本发明的一实施例中,所述将所述目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集的步骤之前还包括:
获取基础卷积神经网络模型;
将图像分割网络结构添加至所述基础卷积神经网络模型中,生成初始卷积神经网络模型;
对所述初始卷积神经网络模型进行头部标记处理,生成中间卷积神经网络模型;以及
将损失函数输入所述中间卷积神经网络模型中进行训练,生成目标卷积神经网络模型。
于本发明的一实施例中,所述将图像分割网络结构添加至所述基础卷积神经网络模型中,生成初始卷积神经网络模型的步骤包括:
将所述图像分割网络结构添加至所述基础卷积神经网络中进行特征提取处理,生成多个所述基础卷积神经网络模型的层级特征;
将所有所述层级特征输入带有所述图像分割网络结构的基础卷积神经网络模型中进行特征融合处理,生成初始卷积神经网络模型。
于本发明的一实施例中,所述损失函数包括分类损失函数、检测回归损失函数以及深度回归损失函数。
于本发明的一实施例中,所述对所述子任务图像数据集的初始损失值进行动态权重计算,生成多个目标权重数据的步骤之前还包括:
对所述子任务图像数据集采用相应的损失函数分别进行损失评估处理,生成多个子任务图像数据的初始损失数据。
本发明还提供一种多任务神经网络模型的训练装置,所述装置包括:
数据获取模块,用以获取图像数据集,其中,所述图像数据集包括图像训练数据集和图像测试数据集;
图像处理模块,用以对所述图像训练数据集进行图像增强处理,生成目标训练数据集;
图像生成模块,用以将所述目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集;
前向推理模块,用以对所述子任务图像数据集进行前向推理处理,生成多个初始梯度数据;
权重计算模块,用以对所述子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据;
加权处理模块,用以根据所述目标权重数据对所有所述初始梯度数据分别进行加权平均处理,生成目标梯度数据;以及
模型训练模块,用以将所述目标梯度数据输入所述目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。
本发明还提供一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上任一项所述的多任务神经网络模型的训练方法。
本发明还提供一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行如上任一项所述的多任务神经网络模型的训练方法。
本发明的有益效果:本发明通过对子任务图像数据集进行前向推理处理,获得初始梯度数据,再对子任务图像数据集的初始损失数据进行动态权重计算,以获得多个目标权重数据,再根据目标权重数据对所有初始梯度数据分别进行加权平均处理,生成目标梯度数据,最后将目标梯度数据输入目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型,能够使模型训练周期缩短,从而降低多任务机器学习模型训练时的算力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出的多任务神经网络模型的训练方法实施环境示意图;
图2是本申请的一示例性实施例示出的多任务神经网络模型的训练方法的流程图;
图3是图2所示实施例中的步骤S230在一示例性的实施例中的流程图;
图4是图2所示实施例中的步骤S232在一示例性的实施例中的流程图;
图5是图2所示实施例中的步骤S250在一示例性的实施例中的流程图;
图6是本申请的一示例性实施例示出的多任务神经网络模型的训练装置的结构示意图;
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
首先需要说明的是,随着大数据时代的发展,人工智能技术突飞猛进,其中深度机器学习技术被应用于图像分割、目标检测、语音分割等诸多领域。利用机器学习模型进行多任务训练已经被广泛应用。现有多任务机器学习模型由多个任务组成,并且每个子任务有各自对应的数据集和对应的标注标签。训练时,会先根据经验预设各个子任务的权重值,再根据训练效果,调整各个任务的权值,如某个子任务训练后发现不太充分,就加大子任务的权重,相反,若某个子任务出现了过拟合,就减少该任务的权值,然而这样不断的试错过程会使得整个模型训练周期增加,使得训练模型的参数量增加,从而导致多任务机器学习模型训练时的算力成本大大增加。深度学习(Deep Learning,DL)是机器学习(MachineLearning,ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(Artificial Intelligence,AI)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。现有的多任务神经网络模型的训练方法仅仅通过经验预设各个子任务的权重值,再根据训练效果,调整各个任务的权值,如某个子任务训练后发现不太充分,就加大子任务的权重,相反,若某个子任务出现了过拟合,就减少该任务的权值,这样不断的试错过程会使得整个模型训练周期增加,使得训练模型的参数量增加,从而导致多任务机器学习模型训练时的算力成本大大增加。多任务神经网络模型的训练方法是通过获取图像数据集,对图像训练数据集进行图像增强处理后,获得目标训练数据集。再通过将目标训练数据集输入目标卷积神经网络模型中,以获得子任务图像数据集。再对子任务图像数据集进行前向推理处理,生成多个初始梯度数据,同时对子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据。再根据目标权重数据对所有初始梯度数据分别进行加权平均处理,生成多个目标梯度数据,最后将目标梯度数据输入目标卷积神经网络模型中进行训练,生成训练好的多任务神经网络模型,以完成对多任务神经网络模型的训练。在其它的应用场景中,针对对象的多任务神经网络模型的训练方法可以根据实际情况进行设置,本申请的实施例不对此进行限制。
图1是本申请的一示例性实施例示出的多任务神经网络模型的训练方法的实施环境示意图。如图1所示,通过智能终端110上安装的智能感知传感器等,可以对图像数据进行采集。再对图像数据进行图像增强处理,以生成目标训练数据集,再将目标训练数据集输入目标卷积神经网络模型中,获得子任务图像数据集,对子任务图像数据集分别进行前向推理处理和动态权重计算,对应生成初始梯度数据和目标权重数据,再根据目标权重数据对所有初始梯度数据分别进行加权平均处理,生成多个目标梯度数据。最终将目标梯度数据输入至服务端120中进行训练,以生成训练好的多任务神经网络模型。其中,图1所示的智能终端110可以是智能手机、智能汽车、平板电脑、笔记本电脑或者任意支持安装智能感知传感器等的终端设备,但并不限于此。图1所示的服务端120是服务器,例如可以是独立的显示屏,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,在此也不进行限制。智能终端110可以通过3G(第三代的移动信息技术)、4G(第四代的移动信息技术)、5G(第五代的移动信息技术)等无线网络与服务端120进行通信,本处也不对此进行限制。由于现有的多任务神经网络模型的训练方法仅仅根据经验预设各个子任务的权重值,再根据训练效果,调整各个任务的权值,如某个子任务训练后发现不太充分,就加大子任务的权重,相反,若某个子任务出现了过拟合,就减少该任务的权值,这样不断的试错过程会使得整个模型训练周期增加,使得训练模型的参数量增加,从而导致多任务机器学习模型训练时的算力成本大大增加。为解决这些问题,本申请的实施列分别提出一种多任务神经网络模型的训练方法、一种多任务神经网络模型的训练装置、一种电子设备以及一种计算机可读存储介质,以下将对这些实施例进行详细描述。
请参阅图2,图2是本申请的一示例性实施例示出的多任务神经网络模型的训练方法的流程图,应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
如图2所示,在一示例性的实施例中,多任务神经网络模型的训练方法至少包括步骤S210至步骤S260,详细介绍如下:
步骤S210、获取图像数据集,其中,图像数据集包括图像训练数据集和图像测试数据集。
步骤S220、对图像训练数据集进行图像增强处理,生成目标训练数据集。
步骤S230、将目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集。
步骤S240、对子任务图像数据集进行前向推理处理,生成多个初始梯度数据。
步骤S250、对子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据。
步骤S260、根据目标权重数据对所有初始梯度数据分别进行加权平均处理,生成目标梯度数据。
步骤S270、将目标梯度数据输入目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。
如图2所示,在一示例性的实施例中,当执行步骤S210时,即获取图像数据集,其中,图像数据集包括图像训练数据集和图像测试数据集。需要说明的是,图像训练数据集可以包括多张尺寸大小为256×256的训练图像,然不限于此,图像训练集的数量还可以为其他数量,且图像训练集的尺寸可以为其他尺寸。图像训练数据集可以包括图片分类任务数据集、目标检测任务数据集以及深度预测任务数据集等,且每一个任务数据集都对应一种标签。
如图2所示,在一示例性的实施例中,当执行步骤S220时,即对图像训练数据集进行图像增强处理,生成目标训练数据集。具体的,图像增强处理可以包括对图像训练数据集中的图像亮度、对比度以及色度进行随机增强,以提高图像训练数据集的图象稳定性。
如图3所示,在一示例性的实施例中,当执行步骤S230时,即将目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集。具体的,步骤S230之前还包括步骤S231至步骤S234,详细介绍如下:
步骤S231、获取基础卷积神经网络模型。
步骤S232、将图像分割网络结构添加至基础卷积神经网络模型中,生成初始卷积神经网络模型。
步骤S233、对初始卷积神经网络模型进行头部标记处理,生成中间卷积神经网络模型。
步骤S234、将损失函数输入中间卷积神经网络模型中进行训练,生成目标卷积神经网络模型。
在一示例性的实施例中,需要说明的是,基础卷积神经网络是以轻量级卷积神经网络(MobileNetV2)作为共享网络的主干网络(backbone)。头部标记处理可以包括将头文件(head)添加至初始卷积神经网络模型中,head能够对初始卷积神经网络模型中的特征做出预测,从而获得中间卷积神经网络模型。损失函数可以包括分类损失函数、检测回归损失函数以及深度回归损失函数等函数。其中,不同类型的损失函数可以对不同的任务进行损失评估计算,以获得不同任务训练时的损失值。
如图4所示,在一示例性的实施例中,当执行步骤S232时,即将图像分割网络结构添加至基础卷积神经网络模型中,生成初始卷积神经网络模型。具体的,步骤S232还包括步骤S235至步骤S236,详细介绍如下:
步骤S235、将图像分割网络结构添加至基础卷积神经网络中进行特征提取处理,生成多个基础卷积神经网络模型的层级特征;
步骤S236、将所有层级特征输入带有图像分割网络结构的基础卷积神经网络模型中进行特征融合处理,生成初始卷积神经网络模型。
在一示例性的实施例中,图像分割网络结构是unet结构,可用于通过四个下采样提取目标特征,再通过四个上采样,最后逐个对其像素点进行分类。
如图2所示,在一示例性的实施例中,当执行步骤S240时,即对子任务图像数据集进行前向推理处理,生成多个初始梯度数据。具体的,前向推理处理可以包括根据对应子任务的损失函数分别对相应的子任务进行共享参数进而独占参数的梯度值的计算,即生成多个初始梯度数据,并将每个初始梯度数据分别保存至对应的任务中。
如图5所示,在一示例性的实施例中,当执行步骤S250时,即对子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据。具体的,步骤S250的步骤之前还包括步骤S251,详细介绍如下:
步骤S251、对子任务图像数据集采用相应的损失函数分别进行损失评估处理,生成多个子任务图像数据的初始损失数据。
在一示例性的实施例中,初始损失数据是各个子任务训练时的损失值,动态权重计算可以满足以下公式:
其中,λi(t)表示为第i个任务的初始损失数据的下降程度,Li(t)表示为第i个任务在t时刻的初始损失数据,Li(t-1)表示为第i个任务在t-1时刻的初始损失数据,weighti表示为第i个任务的目标权重数据,N表示为子任务的总数,T表示为一个温度超参数,exp(λi(t)/T)表示为对第i个任务的初始损失数据的下降程度与温度超参数的比值进行指数函数处理,表示为对从第i个任务开始到第N个任务结束的的所有初始损失数据的下降程度与温度超参数的比值进行指数函数处理获得的比值进行求和处理。
如图2所示,在一示例性的实施例中,当执行步骤S260时,即根据目标权重数据对所有初始梯度数据分别进行加权平均处理,生成目标梯度数据。具体的,加权平均处理是指根据不同的权重使用加权因子计算一组数据的平均值,可用于给不同的数据赋予不同的重要性,从而得到较为准确的平均值。加权平均处理满足以下公式:
其中,grad表示为目标梯度数据,n表示为子任务的总数,i表示为第i个任务,weighti表示为第i个任务的目标权重数据,gradi表示为第i个任务的目标梯度数据,表示为第i个任务到第n个任务的目标梯度数据与第i个任务到第n个任务的目标权重数据的对应乘积的和,/>表示为第i个任务到第n个任务目标权重数据的总和。
如图2所示,在一示例性的实施例中,当执行步骤S270时,即将目标梯度数据输入目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。具体的,通过对初始损失数据进行动态权重计算能够获得动态的目标权重数据,再通过动态的目标权重数据能够获得动态的目标梯度数据,从而可以动态的调整各个子任务的训练程度,以使各个子任务训练的更加充分,加快收敛速度。
在一些示例性的实施例中,为进一步提升模拟训练得到的多任务神经网络模型的准确性,在神经网络模型的训练的模拟过程中还需要考虑更加全面的情况,例如,目标权重数据的精确性、目标梯度数据的精确性等,因此可以采用机器学习的手段来模拟训练时的神经网络模型的准确性。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。其中,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
基于机器学习的强大学习能力,可通过针对大量的历史轨迹的机器学习过程,可以实现机器学习模型对于多任务神经网络模型中的子任务收敛条件的估计,以保证所预估得到的子任务的收敛条件是更加准确可信的。示例性的,机器学习模型可以包括基于神经网络的监督模型,例如二分类机器学习模型,通过使用大量的历史轨迹对机器学习模型进行训练,以使机器学习模型在训练过程中进行模型参数调整,使得调整后的模型参数对于子任务的收敛条件等全方位特征具有综合性的预测表现。
图6是本申请的一示例性实施例示出的多任务神经网络模型的训练装置的结构示意图。该装置可以应用在图1所示的实施环境中,并具体配置在智能终端110中。该装置也可以适用于其它的示例性实施环境,并具体配置在其它设备中,本实施例不对该装置所适用的实施环境进行限制。
多任务神经网络模型的训练装置可以包括数据获取模块610、图像处理模块620、图像生成模块630、前向推理模块640、权重计算模块650、加权处理模块660以及模型训练模块670。
在一示例性的实施例中,数据获取模块610可用以获取图像数据集,其中,图像数据集包括图像训练数据集和图像测试数据集。需要说明的是,图像训练数据集可以包括多张尺寸大小为256×256的训练图像,然不限于此,图像训练集的数量还可以为其他数量,且图像训练集的尺寸可以为其他尺寸。图像训练数据集可以包括图片分类任务数据集、目标检测任务数据集以及深度预测任务数据集等,且每一个任务数据集都对应一种标签。
在一示例性的实施例中,图像处理模块620可用以对图像训练数据集进行图像增强处理,生成目标训练数据集。具体的,图像增强处理可以包括对图像训练数据集中的图像亮度、对比度以及色度进行随机增强,以提高图像训练数据集的图象稳定性。
在一示例性的实施例中,图像生成模块630可用以将目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集。具体的,在将目标训练数据集输入目标卷积神经网络模型之前还包括获取基础卷积神经网络模型,将图像分割网络结构添加至基础卷积神经网络模型中,生成初始卷积神经网络模型。再对初始卷积神经网络模型进行头部标记处理,生成中间卷积神经网络模型。最后将损失函数输入中间卷积神经网络模型中进行训练,生成目标卷积神经网络模型。基础卷积神经网络是以轻量级卷积神经网络(MobileNetV2)作为共享网络的主干网络(backbone)。头部标记处理可以包括将头文件(head)添加至初始卷积神经网络模型中,head能够对初始卷积神经网络模型中的特征做出预测,从而获得中间卷积神经网络模型。损失函数可以包括分类损失函数、检测回归损失函数以及深度回归损失函数等函数。其中,不同类型的损失函数可以对不同的任务进行损失评估计算,以获得不同任务训练时的损失值。
在一示例性的实施例中,前向推理模块640可用以对子任务图像数据集进行前向推理处理,生成多个初始梯度数据。具体的,前向推理处理可以包括根据对应子任务的损失函数分别对相应的子任务进行共享参数进而独占参数的梯度值的计算,即生成多个初始梯度数据,并将每个初始梯度数据分别保存至对应的任务中。
在一示例性的实施例中,权重计算模块650可用以对子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据。权重计算模块650还可用以对子任务图像数据集采用相应的损失函数分别进行损失评估处理,生成多个子任务图像数据的初始损失数据。具体的,初始损失数据是各个子任务训练时的损失值,动态权重计算可以满足以下公式:
其中,λi(t)表示为第i个任务的初始损失数据的下降程度,Li(t)表示为第i个任务在t时刻的初始损失数据,Li(t-1)表示为第i个任务在t-1时刻的初始损失数据,weighti表示为第i个任务的目标权重数据,N表示为子任务的总数,T表示为一个温度超参数,exp(λi(t)/T)表示为对第i个任务的初始损失数据的下降程度与温度超参数的比值进行指数函数处理,表示为对从第i个任务开始到第N个任务结束的的所有初始损失数据的下降程度与温度超参数的比值进行指数函数处理获得的比值进行求和处理。
在一示例性的实施例中,加权处理模块660可用以根据目标权重数据对所有初始梯度数据分别进行加权平均处理,生成多个目标梯度数据。具体的,加权平均处理是指根据不同的权重使用加权因子计算一组数据的平均值,可用于给不同的数据赋予不同的重要性,从而得到较为准确的平均值。加权平均处理满足以下公式:
其中,grad表示为目标梯度数据,n表示为子任务的总数,i表示为第i个任务,weighti表示为第i个任务的目标权重数据,gradi表示为第i个任务的目标梯度数据,表示为第i个任务到第n个任务的目标梯度数据与第i个任务到第n个任务的目标权重数据的对应乘积的和,/>表示为第i个任务到第n个任务目标权重数据的总和。
在一示例性的实施例中,模型训练模块670可用以将目标梯度数据输入目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。具体的,通过对初始损失数据进行动态权重计算能够获得动态的目标权重数据,再通过动态的目标权重数据能够获得动态的目标梯度数据,从而可以动态的调整各个子任务的训练程度,以使各个子任务训练的更加充分,加快收敛速度。
需要说明的是,上述实施例所提供的多任务神经网络模型的训练装置与上述实施例所提供的多任务神经网络模型的训练方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的多任务神经网络模型的训练装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的多任务神经网络模型的训练方法。
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(Central Processing Unit,CPU)701,其可以根据存储在只读存储器(Read-OnlyMemory,ROM)702中的程序或者从储存部分708加载到随机访问存储器(Random Access Memory,RAM)703中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(Input/Output,I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707,包括硬盘等的储存部分708;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入储存部分708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前所述的多任务神经网络模型的训练方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种多任务神经网络模型的训练方法,其特征在于,所述方法包括:
获取图像数据集,其中,所述图像数据集包括图像训练数据集和图像测试数据集;
对所述图像训练数据集进行图像增强处理,生成目标训练数据集;
将所述目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集;
对所述子任务图像数据集进行前向推理处理,生成多个初始梯度数据;
对所述子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据;
根据所述目标权重数据对所有所述初始梯度数据分别进行加权平均处理,生成目标梯度数据;以及
将所述目标梯度数据输入所述目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。
2.根据权利要求1所述的多任务神经网络模型的训练方法,其特征在于,所述图像增强处理包括对所述图像训练集的图像的亮度、对比度以及色度进行随机增强,以提高所述图像训练集的图像稳定性。
3.根据权利要求1所述的多任务神经网络模型的训练方法,其特征在于,所述图像训练数据集包括图片分类任务数据集、目标检测任务数据集以及深度预测任务数据集。
4.根据权利要求1所述的多任务神经网络模型的训练方法,其特征在于,所述将所述目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集的步骤之前还包括:
获取基础卷积神经网络模型;
将图像分割网络结构添加至所述基础卷积神经网络模型中,生成初始卷积神经网络模型;
对所述初始卷积神经网络模型进行头部标记处理,生成中间卷积神经网络模型;以及
将损失函数输入所述中间卷积神经网络模型中进行训练,生成目标卷积神经网络模型。
5.根据权利要求4所述的多任务神经网络模型的训练方法,其特征在于,所述将图像分割网络结构添加至所述基础卷积神经网络模型中,生成初始卷积神经网络模型的步骤包括:
将所述图像分割网络结构添加至所述基础卷积神经网络中进行特征提取处理,生成多个所述基础卷积神经网络模型的层级特征;
将所有所述层级特征输入带有所述图像分割网络结构的基础卷积神经网络模型中进行特征融合处理,生成初始卷积神经网络模型。
6.根据权利要求4所述的多任务神经网络模型的训练方法,其特征在于,所述损失函数包括分类损失函数、检测回归损失函数以及深度回归损失函数。
7.根据权利要求1所述的多任务神经网络模型的训练方法,其特征在于,所述对所述子任务图像数据集的初始损失值进行动态权重计算,生成多个目标权重数据的步骤之前还包括:
对所述子任务图像数据集采用相应的损失函数分别进行损失评估处理,生成多个子任务图像数据的初始损失数据。
8.一种多任务神经网络模型的训练装置,其特征在于,所述装置包括:
数据获取模块,用以获取图像数据集,其中,所述图像数据集包括图像训练数据集和图像测试数据集;
图像处理模块,用以对所述图像训练数据集进行图像增强处理,生成目标训练数据集;
图像生成模块,用以将所述目标训练数据集输入目标卷积神经网络模型中,生成子任务图像数据集;
前向推理模块,用以对所述子任务图像数据集进行前向推理处理,生成多个初始梯度数据;
权重计算模块,用以对所述子任务图像数据集的初始损失数据进行动态权重计算,生成多个目标权重数据;
加权处理模块,用以根据所述目标权重数据对所有所述初始梯度数据分别进行加权平均处理,生成目标梯度数据;以及
模型训练模块,用以将所述目标梯度数据输入所述目标卷积神经网络模型中进行训练,以生成训练好的多任务神经网络模型。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述的多任务神经网络模型的训练方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的多任务神经网络模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310004710.0A CN116168267A (zh) | 2023-01-03 | 2023-01-03 | 一种多任务神经网络模型的训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310004710.0A CN116168267A (zh) | 2023-01-03 | 2023-01-03 | 一种多任务神经网络模型的训练方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116168267A true CN116168267A (zh) | 2023-05-26 |
Family
ID=86415790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310004710.0A Pending CN116168267A (zh) | 2023-01-03 | 2023-01-03 | 一种多任务神经网络模型的训练方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116168267A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363462A (zh) * | 2023-06-01 | 2023-06-30 | 合肥市正茂科技有限公司 | 一种路桥过车检测模型的训练方法、系统、设备及介质 |
-
2023
- 2023-01-03 CN CN202310004710.0A patent/CN116168267A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363462A (zh) * | 2023-06-01 | 2023-06-30 | 合肥市正茂科技有限公司 | 一种路桥过车检测模型的训练方法、系统、设备及介质 |
CN116363462B (zh) * | 2023-06-01 | 2023-08-22 | 合肥市正茂科技有限公司 | 一种路桥过车检测模型的训练方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191791B (zh) | 基于机器学习模型的图片分类方法、装置及设备 | |
CN109983480B (zh) | 使用聚类损失训练神经网络 | |
CN108830288A (zh) | 图像处理方法、神经网络的训练方法、装置、设备及介质 | |
US20200410365A1 (en) | Unsupervised neural network training using learned optimizers | |
CN110476173B (zh) | 利用强化学习的分层设备放置 | |
CN113254785B (zh) | 推荐模型训练方法、推荐方法和相关设备 | |
CN113095475A (zh) | 一种神经网络的训练方法、图像处理方法以及相关设备 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
WO2023213157A1 (zh) | 数据处理方法、装置、程序产品、计算机设备和介质 | |
WO2020030052A1 (zh) | 一种动物数量识别方法、装置、介质及电子设备 | |
WO2024001806A1 (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN112464042B (zh) | 根据关系图卷积网络的任务标签生成方法及相关装置 | |
WO2022111387A1 (zh) | 一种数据处理方法及相关装置 | |
CN111311480A (zh) | 图像融合方法和装置 | |
WO2022100607A1 (zh) | 一种神经网络结构确定方法及其装置 | |
US20220004849A1 (en) | Image processing neural networks with dynamic filter activation | |
US20220044109A1 (en) | Quantization-aware training of quantized neural networks | |
US20240289926A1 (en) | Processing images using mixture of experts | |
CN113850012B (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
CN116168267A (zh) | 一种多任务神经网络模型的训练方法、装置、设备及介质 | |
CN117132950A (zh) | 一种车辆追踪方法、系统、设备及存储介质 | |
CN115909009A (zh) | 图像识别方法、装置、存储介质及电子设备 | |
CN115795025A (zh) | 一种摘要生成方法及其相关设备 | |
CN116188896A (zh) | 基于动态半监督深度学习的图像分类方法、系统及设备 | |
CN114021010A (zh) | 一种信息推荐模型的训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |