CN112464760A - 一种目标识别模型的训练方法和装置 - Google Patents
一种目标识别模型的训练方法和装置 Download PDFInfo
- Publication number
- CN112464760A CN112464760A CN202011280520.4A CN202011280520A CN112464760A CN 112464760 A CN112464760 A CN 112464760A CN 202011280520 A CN202011280520 A CN 202011280520A CN 112464760 A CN112464760 A CN 112464760A
- Authority
- CN
- China
- Prior art keywords
- recognition model
- training
- probability sequence
- target
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000009471 action Effects 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 40
- 238000004891 communication Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种目标识别模型的训练方法和装置,属于深度学习技术领域。该方法包括:将样本图像输入初始识别模型,得到初始识别模型中的训练概率序列,其中,训练概率序列为包含样本图像中样本对象所有关联动作的概率的序列;通过样本概率序列、训练概率序列以及损失函数,对初始识别模型进行训练,直至样本概率序列与训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型,其中,部分样本概率序列来自第一识别模型,第一识别模型的网络层数不少于初始识别模型的网络层数。本申请通过网络层数较多的第一识别模型对网络层数较少的初始识别模型进行训练,减少模型复杂度,降低算法计算量,提供模型训练效率。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种目标识别模型的训练方法和装置。
背景技术
随着图像视频捕捉设备制造技术、视频存储与解析技术的飞速发展,人们已经能够快速便捷地获取更加多样化和更加复杂化的视频图像。根据视频捕捉设备记录的图像序列,识别计算机识别视频中发生的动作已经成为计算机视觉与模式识别技术领域重要的一个分支。
目前大多数人体动作识别的深度学习算法都是基于RGB数据,RGB数据采用的深度神经网络的网络层数过多,造成算法复杂度高,计算量大,计算效率低。
发明内容
本申请实施例的目的在于提供一种目标识别模型的训练方法和装置,以解决识别网络算法复杂的问题。具体技术方案如下:
第一方面,提供了一种目标识别模型的训练方法,所述方法包括:
将样本图像输入初始识别模型,得到所述初始识别模型中的训练概率序列,其中,所述训练概率序列为包含所述样本图像中样本对象所有关联动作的概率的序列;
通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练,直至所述样本概率序列与所述训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型,其中,部分所述样本概率序列来自第一识别模型,所述第一识别模型的网络层数不少于所述初始识别模型的网络层数。
可选地,在得到训练后的目标识别模型之后,所述方法还包括:
将目标图像输入所述目标识别模型,得到所述目标识别模型中的目标概率序列;
将多个目标训练概率的加权平均结果作为最终概率序列;
选取所述最终概率序列中最大概率值对应的动作类别,作为所述目标图像中目标对象的目标动作类别。
可选地,所述损失函数包括第一损失函数和第二损失函数,所述样本概率序列包括第一概率序列和第二概率序列,所述第一概率序列为已训练好的第一识别模型中的包含正确动作概率的序列,所述第二概率序列为包含标签动作概率的序列,所述通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练,直至所述样本概率序列与所述训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型包括:
通过所述第一概率序列和所述训练概率序列对所述初始识别模型进行训练,直至所述第一概率序列与所述训练概率序列的第一损失值不大于第一阈值,并通过所述第二概率序列和所述训练概率序列对所述初始识别模型进行训练,直至所述第二概率序列与所述训练概率序列的第二损失值不大于第二阈值;
确定包含目标损失值的目标损失函数,其中,所述目标损失值是由所述第一损失值与所述第二损失值的加权求和得到的;
将训练好的初始识别模型作为所述目标识别模型。
可选地,通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练之前,所述方法还包括:
将所述样本图像输入训练好的第一识别模型,得到所述第一识别模型中的第二概率序列,其中,所述第二概率序列为包含所述样本图像中样本对象当前执行的动作的概率的序列;
获取所有第一识别模型中的第二概率序列;
将所有所述第二概率序列的加权平均结果作为所述第一概率序列。
可选地,在将所述样本图像输入训练好的第一识别模型之前,所述方法还包括:
获取所述样本图像,其中,所述样本图像包括深度图像和从压缩视频中提取的编码帧图像、运动矢量图像与残差帧图像;
通过所述样本图像对第二识别模型进行训练,得到训练后的所述第一识别模型。
可选地,所述通过所述样本图像对第二识别模型进行训练,得到训练后的所述第一识别模型包括:
将所述样本图像输入到所述第二识别模型,得到所述第二识别模型输出的识别结果,其中,所述识别结果用于表示所述样本图像中样本对象动作的所属类别;
在所述识别结果与所述样本图像的标注结果不一致的情况下,调整所述第二识别模型的模型参数,得到所述第一识别模型,其中,在所述第一识别模型输出的所述识别结果与所述标注结果一致,所述标注结果用于表示所述样本图像中样本对象动作的所属类别。
第二方面,提供了一种目标识别模型的训练装置,所述装置包括:
第一输入模块,用于将样本图像输入初始识别模型,得到所述初始识别模型中的训练概率序列,其中,所述训练概率序列为包含所述样本图像中样本对象所有关联动作的概率的序列;
训练模块,用于通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练,直至所述样本概率序列与所述训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型,其中,部分所述样本概率序列来自第一识别模型,所述第一识别模型的网络层数不少于所述初始识别模型的网络层数。
可选地,所述装置还包括:
第二输入模块,用于将目标图像输入所述目标识别模型,得到所述目标识别模型中的目标概率序列;
作为模块,用于将多个目标训练概率的加权平均结果作为最终概率序列;
选取模块,用于选取所述最终概率序列中最大概率值对应的动作类别,作为所述目标图像中目标对象的目标动作类别。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种目标识别模型的训练方法,方法包括:服务器将样本图像输入初始识别模型,得到初始识别模型中的训练概率序列,然后通过样本概率序列、训练概率序列以及损失函数,对初始识别模型进行训练,直至样本概率序列与训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型,其中,部分样本概率序列来自第一识别模型,第一识别模型的网络层数不少于初始识别模型的网络层数。本申请通过网络层数较多的第一识别模型对网络层数较少的初始识别模型进行训练,减少模型复杂度,降低算法计算量,提供模型训练效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种目标识别模型训练的方法流程图;
图2为本申请实施例提供的确定目标动作类别的方法流程图;
图3为本申请实施例提供的目标识别模型训练示意图;
图4为本申请实施例提供的教师模型和学生模型融合示意图;
图5为本申请实施例提供的目标识别模型训练的流程图;
图6为本申请实施例提供的一种目标识别模型训练的装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种目标识别模型的训练方法,可以应用于服务器,用于训练出网络层数较小的目标识别模型。
下面将结合具体实施方式,对本申请实施例提供的一种目标识别模型的训练方法进行详细的说明,如图1所示,具体步骤如下:
步骤101:将样本图像输入初始识别模型,得到初始识别模型中的训练概率序列。
其中,训练概率序列为包含样本图像中样本对象所有关联动作的概率的序列。
服务器获取包含样本对象的样本图像,其中,样本图像中的样本对象正在执行某个动作,服务器需要建立一个目标识别模型,用于识别图像中对象的动作类别,其中,动作类别包括跑、跳、站、举手、蹲等。
服务器将样本图像输入初始识别模型进行训练,得到初始识别模型输出的动作类别,训练过程中初始识别模型中生成训练概率序列,该训练概率序列中包含多个概率值,每个概率值对应样本对象可能出现的一个关联动作,数值最大的概率值对应初始识别模型输出的动作类别。
步骤102:通过样本概率序列、训练概率序列以及损失函数,对初始识别模型进行训练,直至样本概率序列与训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型。
其中,部分样本概率序列来自第一识别模型,第一识别模型的网络层数不少于初始识别模型的网络层数。
服务器获取样本概率序列,样本概率序列中包含图像中对象动作所属的正确类别的概率,样本概率序列的来源包括两种,一种来源是第一识别模型,另一来源是标签动作类别,服务器通过样本概率序列、训练概率序列以及损失函数,对初始识别模型的损失函数进行训练,直至样本概率序列与训练概率序列的损失值不大于预设阈值,这样得到训练后的目标识别模型。
在本申请中,第一识别模型的网络层数不少于初始识别模型的网络层数,采用网络层数较多的第一识别模型对网络层数较少的初始识别模型进行训练,得到目标识别模型,目标识别模型中包含了第一识别模型的准确的概率序列,目标识别模型网络层数少,可以降低模型算法的复杂度,减少计算量,提高计算效率。
另外,第一识别模型的概率序列的准确度较高,采用该概率序列用作转移训练初始识别模型,有利于初始识别模型更准确快速的得到训练后的概率序列。将数据从网络层数较多的第一识别模型转移到网络层数较少的训练识别模型为知识蒸馏技术,本申请中的知识蒸馏可以采用RGB-D视频动作识别算法。
作为一种可选的实施方式,如图2所示,在得到训练后的目标识别模型之后,方法还包括:
步骤201:将目标图像输入目标识别模型,得到目标识别模型中的目标概率序列。
服务器得到训练后的目标识别模型后,将目标图像输入目标识别模型,得到目标识别模型中的目标概率序列,其中,该目标概率序列中包含目标动作对应的概率。
步骤202:将多个目标训练概率的加权平均结果作为最终概率序列。
本申请包括多个目标识别模型,不同目标识别模型是由不同的初始识别模型训练得到的,本申请中可以包括多个初始识别模型,每个初始识别模型对应输入的样本图像对应同一图像的不同模态,这样导致生成的每个目标识别模型的目标概率序列是不同的。
同一图像的不同模态图像包括编码帧图像(I-frame image)、运动矢量图像(P-frame motion vector image)、残差帧图像(P-frame motion vector image)和深度图像(P-frame motion vector)。
RGB使用压缩的图像和视频,压缩后的图像和视频方便存储且易于传输,图像和视频可以通过编解码器分割为I帧(编码帧),P帧(预测帧)和零或B帧(双向帧)。服务器从压缩视频中提取出I帧图像,P帧中的运动矢量图像和残差帧图像,从深度数据中提取深度图像。
服务器计算多个目标概率序列的加权平均结果,然后将该加权平均结果作为最终概率序列,这样最终概率序列中融合了不同模态图像的概率,使得最终概率序列很准确。
步骤203:选取最终概率序列中最大概率值对应的动作类别,作为目标图像中目标对象的目标动作类别。
最终概率序列中包含多个概率值,最大概率值对应目标图像中目标对象的目标动作类别,服务器选取最大概率值作为目标对象的目标动作类别。
在本申请中,在确定目标对象的目标动作类别的过程中,融合了多个目标识别模型的目标概率序列得到最终概率序列,即采用了多模态图像得到的多个目标概率序列,多模态图像可以使最终概率序列对应的动作类别更加精准。
作为一种可选的实施方式,损失函数包括第一损失函数和第二损失函数,样本概率序列包括第一概率序列和第二概率序列,第一概率序列为已训练好的第一识别模型中的包含正确动作概率的序列,第二概率序列为包含标签动作概率的序列,通过样本概率序列、训练概率序列以及损失函数,对初始识别模型进行训练,直至样本概率序列与训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型包括:
通过第一概率序列和训练概率序列对初始识别模型进行训练,直至第一概率序列与训练概率序列的第一损失值不大于第一阈值,并通过第二概率序列和训练概率序列对初始识别模型进行训练,直至第二概率序列与训练概率序列的第二损失值不大于第二阈值;确定包含目标损失值的目标损失函数,其中,目标损失值是由第一损失值与第二损失值的加权求和得到的;将训练好的初始识别模型作为目标识别模型。
样本概率序列包括第一概率序列和第二概率序列,第一概率序列是通过训练好的第一识别模型得到的,第一识别模型的样本图像与初始识别模型的样本图像相同,这样便于通过第一识别模型对初始识别模型进行训练,使训练结果更准确,第一概率序列中包含样本图像中样本对象正确动作类别对应的概率,正确动作类别对应的概率的数值最大。第二概率序列包含样本图像中标签动作类别对应的概率,该概率在第二概率序列中的数值最大。
服务器通过初始识别模型中的训练概率序列和第一识别模型中的第一概率序列,对初始识别模型的第一损失函数进行训练,直至第一概率序列与训练概率序列的第一损失值不大于第一阈值,在这种情况下第一损失函数训练完成。
服务器通过第二概率序列和初始识别模型中的训练概率序列,对初始识别模型的第二损失函数进行训练,直至第二概率序列与训练概率序列的第二损失值不大于第二阈值,在这种情况下第二损失函数训练完成。
在第一损失函数和第二损失函数均训练完成后,服务器将第一损失值与第二损失值进行加权求和得到目标损失值,服务器将训练好的初始识别模型作为目标识别模型。
在本申请中,第一概率序列相当于第一识别模型的软概率,训练概率序列相当于初始识别模型的软概率,第一损失函数相当于第一交叉熵,服务器通过第一识别模型的软概率和初始识别模型的软概率生成第一交叉熵;第二概率序列相当于标签动作类别的软概率,第二损失函数相当于第二交叉熵,服务器通过标签动作类别的软概率和初始识别模型的软概率生成第二交叉熵。
在本申请中,目标识别模型在训练过程中,融合了训练好的第一识别模型的第一概率序列和标签动作类别对应的第二概率序列,采用样本对象正确动作对应的概率训练损失函数,使得到的损失函数更加准确,目标识别模型的输出结果更加准确。
作为一种可选的实施方式,通过样本概率序列、训练概率序列以及损失函数,对初始识别模型进行训练之前,方法还包括:将样本图像输入训练好的第一识别模型,得到第一识别模型中的第二概率序列,其中,第二概率序列为包含样本图像中样本对象当前执行的动作的概率的序列;获取所有第一识别模型中的第二概率序列;将所有第二概率序列的加权平均结果作为第一概率序列。
服务器通过第一概率序列对初始识别模型进行训练之前,需要得到第一识别模型的第一概率序列。服务器获取样本图像,然后将样本图像输入训练好的第一识别模型,得到第一识别模型中的第二概率序列,由于第一识别模型在训练过程中与初始识别模型过程相似,也是采用不同模态的样本图像进行训练得到的,不同第一识别模型的得到的第二概率序列是不同的,为了综合图像各模态,服务器计算所有第二概率序列的加权平均结果,将该加权平均结果作为第一概率序列。
在本申请中,服务融合多个第二概率序列,由于不同第二概率序列由不同模态的样本图像得到,因此,融合第二概率序列可以融合图像的不同模态,弥补光照、面部特征或图像纹理不稳定的特点,提高识别精度。
作为一种可选的实施方式,在将样本图像输入训练好的第一识别模型之前,方法还包括:获取样本图像,其中,样本图像包括深度图像和从压缩视频中提取的编码帧图像、运动矢量图像与残差帧图像;通过样本图像对第二识别模型进行训练,得到训练后的第一识别模型。
第一识别模型训练采用的样本图像与初始识别模型相同,样本图像包括根据深度数据得到的深度图像,和从压缩视频中提取的编码帧图像、运动矢量图像与残差帧图像,服务器获取到样本图像后,通过样本图像对第二识别模型进行训练,得到训练后的第一识别模型。
作为一种可选的实施方式,通过样本图像对第二识别模型进行训练,得到训练后的第一识别模型包括:
服务器获取样本图像和样本图像的标注结果,其中,标注结果用于表示样本图像中样本对象动作的所属类别;服务器将样本图像输入到第二识别模型,得到第二识别模型输出的识别结果,其中,识别结果用于表示样本图像中样本对象动作的所属类别;在标注结果与识别结果不一致的情况下,调整第二识别模型的模型参数,直至第一识别模型输出的识别结果与标注结果一致,得到第一识别模型。
图3为目标识别模型训练示意图。教师模型即为网络层数较多的第一识别模型,学生模型即为网络层数较少的初始训练模型,分别采用I-frame image、P-frame motionvector、P-frame residual和Depth image作为输入图像对教师模型进行训练,从图中可以看出,教师模型的四个输入图像为同一图像的不同模态,I-frame image和Depth image对应的教师模型的网络层数为152层,P-frame motion vector和P-frame residual对应的教师模型的网络层数为18层。采用I-frame image作为输入图像对学生模型进行训练,任何学生模型的网络层数均为18层,减少了模型复杂度,降低网络参数数量,提高计算效率。
图4为教师模型和学生模型融合示意图,可以看到,教师模型和学生模型是多对多的关系,每个教师模型将自身的软概率与多个学生模型的软概率形成多个交叉熵,每个学生模型通过多个教师模型的软概率进行训练,教师模型和学生模型采用相同的样本图像。
图5为目标识别模型训练的流程图,四个教师模型采用不同的输入分别得到四个Gsoftmax(第二概率序列),四个Gsoftmax进行加和平均计算得到Soft Label(第一概率序列),学生模型采用ifame作为样本图像,得到两个相同的Gsoftmax,然后其中一个Gsoftmax与Soft Label生成LossL1(第一损失值),另外一个Gsoftmax与Hard Label生成LossL2(第二损失值),LossL1和LossL2进行加和计算得到Total Loss(目标损失值)。学生模型采用其他输入图像(如P-frame motion vector、P-frame motion vector或P-frame motionvector)作为样本图像,也是相同的训练过程。
基于相同的技术构思,本申请实施例还提供了一种目标识别模型的训练装置,如图6所示,该装置包括:
第一输入模块601,用于将样本图像输入初始识别模型,得到初始识别模型中的训练概率序列,其中,训练概率序列为包含样本图像中样本对象所有关联动作的概率的序列;
第一训练模块602,用于通过样本概率序列、训练概率序列以及损失函数,对初始识别模型进行训练,直至样本概率序列与训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型,其中,部分样本概率序列来自第一识别模型,第一识别模型的网络层数不少于初始识别模型的网络层数。
可选地,装置还包括:
第二输入模块,用于将目标图像输入目标识别模型,得到目标识别模型中的目标概率序列;
第一作为模块,用于将多个目标训练概率的加权平均结果作为最终概率序列;
选取模块,用于选取最终概率序列中最大概率值对应的动作类别,作为目标图像中目标对象的目标动作类别。
可选地,损失函数包括第一损失函数和第二损失函数,样本概率序列包括第一概率序列和第二概率序列,第一概率序列为已训练好的第一识别模型中的包含正确动作概率的序列,第二概率序列为包含标签动作概率的序列,第一训练模块602包括:
训练单元,用于通过第一概率序列和训练概率序列对初始识别模型进行训练,直至第一概率序列与训练概率序列的第一损失值不大于第一阈值,并通过第二概率序列和训练概率序列对初始识别模型进行训练,直至第二概率序列与训练概率序列的第二损失值不大于第二阈值;
确定单元,用于确定包含目标损失值的目标损失函数,其中,目标损失值是由第一损失值与第二损失值的加权求和得到的;
作为单元,用于将训练好的初始识别模型作为目标识别模型。
可选地,装置还包括:
第三输入模块,用于将样本图像输入训练好的第一识别模型,得到第一识别模型中的第二概率序列,其中,第二概率序列为包含样本图像中样本对象当前执行的动作的概率的序列;
第一获取模块,用于获取所有第一识别模型中的第二概率序列;
第二作为模块,用于将所有第二概率序列的加权平均结果作为第一概率序列。
可选地,装置还包括:
第二获取模块,用于获取样本图像,其中,样本图像包括深度图像和从压缩视频中提取的编码帧图像、运动矢量图像与残差帧图像;
第二训练模块,用于通过样本图像对第二识别模型进行训练,得到训练后的第一识别模型。
可选的,第二训练模块包括:
输入单元,用于将样本图像输入到第二识别模型,得到第二识别模型输出的识别结果,其中,识别结果用于表示样本图像中样本对象动作的所属类别;
调整单元,用于在识别结果与样本图像的标注结果不一致的情况下,调整第二识别模型的模型参数,得到第一识别模型,其中,在第一识别模型输出的识别结果与标注结果一致,标注结果用于表示样本图像中样本对象动作的所属类别。
基于相同的技术构思,本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现上述步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种目标识别模型的训练方法,其特征在于,所述方法包括:
将样本图像输入初始识别模型,得到所述初始识别模型中的训练概率序列,其中,所述训练概率序列为包含所述样本图像中样本对象所有关联动作的概率的序列;
通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练,直至所述样本概率序列与所述训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型,其中,部分所述样本概率序列来自第一识别模型,所述第一识别模型的网络层数不少于所述初始识别模型的网络层数。
2.根据权利要求1所述的方法,其特征在于,在得到训练后的目标识别模型之后,所述方法还包括:
将目标图像输入所述目标识别模型,得到所述目标识别模型中的目标概率序列;
将多个目标训练概率的加权平均结果作为最终概率序列;
选取所述最终概率序列中最大概率值对应的动作类别,作为所述目标图像中目标对象的目标动作类别。
3.根据权利要求1所述的方法,其特征在于,所述损失函数包括第一损失函数和第二损失函数,所述样本概率序列包括第一概率序列和第二概率序列,所述第一概率序列为已训练好的第一识别模型中的包含正确动作概率的序列,所述第二概率序列为包含标签动作概率的序列,所述通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练,直至所述样本概率序列与所述训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型包括:
通过所述第一概率序列和所述训练概率序列对所述初始识别模型进行训练,直至所述第一概率序列与所述训练概率序列的第一损失值不大于第一阈值,并通过所述第二概率序列和所述训练概率序列对所述初始识别模型进行训练,直至所述第二概率序列与所述训练概率序列的第二损失值不大于第二阈值;
确定包含目标损失值的目标损失函数,其中,所述目标损失值是由所述第一损失值与所述第二损失值的加权求和得到的;
将训练好的初始识别模型作为所述目标识别模型。
4.根据权利要求3所述的方法,其特征在于,通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练之前,所述方法还包括:
将所述样本图像输入训练好的第一识别模型,得到所述第一识别模型中的第二概率序列,其中,所述第二概率序列为包含所述样本图像中样本对象当前执行的动作的概率的序列;
获取所有第一识别模型中的第二概率序列;
将所有所述第二概率序列的加权平均结果作为所述第一概率序列。
5.根据权利要求4所述的方法,其特征在于,在将所述样本图像输入训练好的第一识别模型之前,所述方法还包括:
获取所述样本图像,其中,所述样本图像包括深度图像和从压缩视频中提取的编码帧图像、运动矢量图像与残差帧图像;
通过所述样本图像对第二识别模型进行训练,得到训练后的所述第一识别模型。
6.根据权利要求5所述的方法,其特征在于,所述通过所述样本图像对第二识别模型进行训练,得到训练后的所述第一识别模型包括:
将所述样本图像输入到所述第二识别模型,得到所述第二识别模型输出的识别结果,其中,所述识别结果用于表示所述样本图像中样本对象动作的所属类别;
在所述识别结果与所述样本图像的标注结果不一致的情况下,调整所述第二识别模型的模型参数,得到所述第一识别模型,其中,在所述第一识别模型输出的所述识别结果与所述标注结果一致,所述标注结果用于表示所述样本图像中样本对象动作的所属类别。
7.一种目标识别模型的训练装置,其特征在于,所述装置包括:
第一输入模块,用于将样本图像输入初始识别模型,得到所述初始识别模型中的训练概率序列,其中,所述训练概率序列为包含所述样本图像中样本对象所有关联动作的概率的序列;
训练模块,用于通过样本概率序列、所述训练概率序列以及损失函数,对所述初始识别模型进行训练,直至所述样本概率序列与所述训练概率序列的损失值不大于预设阈值,得到训练后的目标识别模型,其中,部分所述样本概率序列来自第一识别模型,所述第一识别模型的网络层数不少于所述初始识别模型的网络层数。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二输入模块,用于将目标图像输入所述目标识别模型,得到所述目标识别模型中的目标概率序列;
作为模块,用于将多个目标训练概率的加权平均结果作为最终概率序列;
选取模块,用于选取所述最终概率序列中最大概率值对应的动作类别,作为所述目标图像中目标对象的目标动作类别。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280520.4A CN112464760A (zh) | 2020-11-16 | 2020-11-16 | 一种目标识别模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280520.4A CN112464760A (zh) | 2020-11-16 | 2020-11-16 | 一种目标识别模型的训练方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112464760A true CN112464760A (zh) | 2021-03-09 |
Family
ID=74836538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011280520.4A Pending CN112464760A (zh) | 2020-11-16 | 2020-11-16 | 一种目标识别模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464760A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076983A (zh) * | 2021-03-26 | 2021-07-06 | 北京明略软件系统有限公司 | 一种图像的识别方法和装置 |
CN113361381A (zh) * | 2021-06-03 | 2021-09-07 | 上海哔哩哔哩科技有限公司 | 人体关键点检测模型训练方法、检测方法及装置 |
CN113642605A (zh) * | 2021-07-09 | 2021-11-12 | 北京百度网讯科技有限公司 | 模型蒸馏方法、装置、电子设备及存储介质 |
CN113762051A (zh) * | 2021-05-13 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像检测方法、装置、存储介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027403A (zh) * | 2019-11-15 | 2020-04-17 | 深圳市瑞立视多媒体科技有限公司 | 手势估计方法、装置、设备及计算机可读存储介质 |
CN111259738A (zh) * | 2020-01-08 | 2020-06-09 | 科大讯飞股份有限公司 | 人脸识别模型构建方法、人脸识别方法及相关装置 |
CN111260449A (zh) * | 2020-02-17 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、商品推荐的方法、装置及存储介质 |
CN111444879A (zh) * | 2020-04-10 | 2020-07-24 | 广东工业大学 | 一种关节劳损自主康复动作识别方法及系统 |
CN111460150A (zh) * | 2020-03-27 | 2020-07-28 | 北京松果电子有限公司 | 一种分类模型的训练方法、分类方法、装置及存储介质 |
CN111553479A (zh) * | 2020-05-13 | 2020-08-18 | 鼎富智能科技有限公司 | 一种模型蒸馏方法、文本检索方法及装置 |
WO2020183059A1 (en) * | 2019-03-14 | 2020-09-17 | Nokia Technologies Oy | An apparatus, a method and a computer program for training a neural network |
CN111932534A (zh) * | 2020-09-22 | 2020-11-13 | 平安科技(深圳)有限公司 | 医学影像图片分析方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-11-16 CN CN202011280520.4A patent/CN112464760A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020183059A1 (en) * | 2019-03-14 | 2020-09-17 | Nokia Technologies Oy | An apparatus, a method and a computer program for training a neural network |
CN111027403A (zh) * | 2019-11-15 | 2020-04-17 | 深圳市瑞立视多媒体科技有限公司 | 手势估计方法、装置、设备及计算机可读存储介质 |
CN111259738A (zh) * | 2020-01-08 | 2020-06-09 | 科大讯飞股份有限公司 | 人脸识别模型构建方法、人脸识别方法及相关装置 |
CN111260449A (zh) * | 2020-02-17 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、商品推荐的方法、装置及存储介质 |
CN111460150A (zh) * | 2020-03-27 | 2020-07-28 | 北京松果电子有限公司 | 一种分类模型的训练方法、分类方法、装置及存储介质 |
CN111444879A (zh) * | 2020-04-10 | 2020-07-24 | 广东工业大学 | 一种关节劳损自主康复动作识别方法及系统 |
CN111553479A (zh) * | 2020-05-13 | 2020-08-18 | 鼎富智能科技有限公司 | 一种模型蒸馏方法、文本检索方法及装置 |
CN111932534A (zh) * | 2020-09-22 | 2020-11-13 | 平安科技(深圳)有限公司 | 医学影像图片分析方法、装置、电子设备及可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076983A (zh) * | 2021-03-26 | 2021-07-06 | 北京明略软件系统有限公司 | 一种图像的识别方法和装置 |
CN113762051A (zh) * | 2021-05-13 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像检测方法、装置、存储介质及设备 |
CN113762051B (zh) * | 2021-05-13 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像检测方法、装置、存储介质及设备 |
CN113361381A (zh) * | 2021-06-03 | 2021-09-07 | 上海哔哩哔哩科技有限公司 | 人体关键点检测模型训练方法、检测方法及装置 |
CN113642605A (zh) * | 2021-07-09 | 2021-11-12 | 北京百度网讯科技有限公司 | 模型蒸馏方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464760A (zh) | 一种目标识别模型的训练方法和装置 | |
CN111897939B (zh) | 视觉对话方法、视觉对话模型的训练方法、装置及设备 | |
CN110458282A (zh) | 一种融合多角度多模态的图像描述生成方法及系统 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN107871014A (zh) | 一种基于深度融合哈希的大数据跨模态检索方法及系统 | |
WO2023010758A1 (zh) | 一种动作检测方法、装置、终端设备和存储介质 | |
CN108197592B (zh) | 信息获取方法和装置 | |
CN107545301B (zh) | 页面展示方法及装置 | |
WO2023221328A1 (zh) | 一种基于多光谱图像的语义分割方法、装置及存储介质 | |
CN114926835A (zh) | 文本生成、模型训练方法和装置 | |
CN114510939A (zh) | 实体关系抽取方法、装置、电子设备及存储介质 | |
CN110414541A (zh) | 用于识别物体的方法、设备和计算机可读存储介质 | |
CN112712068B (zh) | 一种关键点检测方法、装置、电子设备及存储介质 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN110399547A (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
CN114998777A (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
CN117540221B (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN117876940B (zh) | 视频语言任务执行及其模型训练方法、装置、设备、介质 | |
CN117315249A (zh) | 指代图像分割模型训练和分割方法、系统、设备及介质 | |
CN117392138B (zh) | 舌象图像处理方法、存储介质及电子设备 | |
CN117173715A (zh) | 一种注意力视觉问答方法、装置、电子设备及存储介质 | |
CN116563856A (zh) | 一种面向图片文本的命名实体识别方法、电子设备、介质 | |
CN116092101A (zh) | 训练方法、图像识别方法、装置、设备及可读存储介质 | |
CN117616473A (zh) | 工序视频评估 | |
CN112328879A (zh) | 新闻推荐方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |