CN116453209A - 模型训练方法、行为分类方法、电子设备及存储介质 - Google Patents

模型训练方法、行为分类方法、电子设备及存储介质 Download PDF

Info

Publication number
CN116453209A
CN116453209A CN202310240144.3A CN202310240144A CN116453209A CN 116453209 A CN116453209 A CN 116453209A CN 202310240144 A CN202310240144 A CN 202310240144A CN 116453209 A CN116453209 A CN 116453209A
Authority
CN
China
Prior art keywords
features
loss value
loss
sub
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310240144.3A
Other languages
English (en)
Inventor
司永洁
潘华东
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202310240144.3A priority Critical patent/CN116453209A/zh
Publication of CN116453209A publication Critical patent/CN116453209A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种行为分类模型的训练方法、行为分类方法、电子设备及计算机可读存储介质。该方法包括获取训练数据集,训练数据集包括至少两个类别的多个样本数据;将训练数据集输入至行为分类模型,得到不同尺度的至少两组特征;对至少两组特征进行尺度归一化处理,确定尺度归一化后至少两组特征对应类别的第一损失值;对至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值;利用第一损失值和第二损失值对行为分类模型进行参数调整。通过上述方式,本申请能够提高行为分类模型对于预测结果的准确率和召回率。

Description

模型训练方法、行为分类方法、电子设备及存储介质
技术领域
本申请涉及模型训练领域,特别是涉及一种行为分类模型的训练方法、行为分类方法、电子设备及计算机可读存储介质。
背景技术
行为分类任务的应用十分的广泛,特别在人体行为分类的应用方面,包括但不限于在一些特定的场所对人的行为动作进行分类,例如在安防监控的行业领域中对人体的行为进行分类,在这种情况下,行为分类的召回率和准确率是非常重要的衡量指标。但通常,由于设备的架设角度以及环境因素等的影响,使得提升分类模型的分类准确率以及召回率是比较困难的。
发明内容
本申请主要目的是提供一种行为分类模型的训练方法、行为分类方法、电子设备及计算机可读存储介质,能够解决行为分类模型准确率和召回率不高的技术问题。
为解决上述技术问题,本申请采用的第一个技术方案是:提供一种行为分类模型的训练方法。该方法包括获取训练数据集,训练数据集包括至少两个类别的多个样本数据;将训练数据集输入至行为分类模型,得到不同尺度的至少两组特征;对至少两组特征进行尺度归一化处理,确定尺度归一化后至少两组特征对应类别的第一损失值;对至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值;利用第一损失值和第二损失值对行为分类模型进行参数调整。
为解决上述技术问题,本申请采用的第二个技术方案是:提供一种行为分类方法。该方法包括获取待分类数据;将待分类数据输入至利用第一个技术方案中行为分类模型的训练方法中得到的行为分类模型,得到分类结果。
为解决上述技术问题,本申请采用的第三个技术方案是:提供一种电子设备。该电子设备包括存储器和处理器,存储器用于存储程序数据,程序数据能够被处理器执行,以实现如第一个技术方案以及第二个技术方案中所述的方法。
为解决上述技术问题,本申请采用的第四个技术方案是:提供一种计算机可读存储介质。该计算机可读存储介质存储有程序数据,能够被处理器执行,以实现如第一个技术方案以及第二个技术方案中所述的方法。
本申请的有益效果是:获取训练数据集,利用行为分类模型得到训练数据集对应的不同尺度的至少两组特征。对至少两组特征进行尺度归一化处理,利用归一化之后的特征确定对应类别的第一损失值,用以提高同类特征之间的聚合程度,减少同类特征之间的差异。对不同组的特征进行特征聚合,以聚合后的特征进行行为类别预测,使得行为分类模型对于复杂样本具有更高的判断准确率。利用对应类别的第一损失值以及对应复杂样本的第二损失值对行为分类模型进行优化,提高行为分类模型对于预测结果的准确率和召回率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请行为分类模型的训练方法第一实施例的流程示意图;
图2是本申请行为分类模型的训练方法第二实施例的流程示意图;
图3是本申请行为分类模型的训练方法第三实施例的流程示意图;
图4是本申请行为分类模型的训练方法第四实施例的流程示意图;
图5是本申请行为分类模型的训练方法第五实施例的流程示意图;
图6是本申请行为分类模型的训练方法第六实施例的流程示意图;
图7是本申请行为分类模型的训练方法第七实施例的流程示意图;
图8是本申请行为分类模型训练方法一具体实施例的流程示意图;
图9是本申请电子设备第一实施例的结构示意图;
图10是本申请计算机可读存储介质第一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
通常,对于行为分类的优化方法包括两类。
第一类,是对同类别下的样本进行分类网络的训练,但是同类别下的个体差异较大,类内差异大使得网络模型在预测阶段的指标上还存在着较大的提升空间,因此其在一些实际的应用场景中会存在缺陷,从而难以大范围的进行使用。
第二类,结合人体关键点信息进行人体行为分类,这样可以捕捉到同类样本在特征表达层面的共性,更好地实现目标的正确分类。
以下为本申请为提高行为分类模型的准确率和召回率所提出的方法实施例。
参照图1,图1为本申请行为分类模型的训练方法第一实施例的流程示意图。其包括以下步骤:
S11:获取训练数据集。
训练数据集包括至少两个类别的多个样本数据。训练数据的类别预先确定,训练数据会与对应的类别标签对应,按照类别进行分组。在训练时,要保证各个类别的下的数据量处于均衡状态,并且在每一批训练数据中存在多类样本数据。
S12:将训练数据集输入至行为分类模型,得到不同尺度的至少两组特征。
数据准备完成后,将一批训练数据输入至行为分类模型中进行特征获取。具体地,行为分类模型中包括了关键点提取网络,通过将训练数据输入至关键点提取网络中,得到了不同尺度的至少两组特征。不同尺度即表明特征信息的大小不同、其长、宽以及通道数等均不同。
进一步地,在得到不同尺度特征的特征后,将不同组的特征输入至对应的分支网络进行处理。分支网络可以包括bottleneck、卷积和自适应平均池化三个模块,特征经过分支网络后转化为[batchsize,feat_dim]的尺度,batchsize代表网路进行一次前向操作需处理的样本数,feat_dim代表特征维度。
S13:对至少两组特征进行尺度归一化处理,确定尺度归一化后至少两组特征对应类别的第一损失值。
每组特征中包括了多个类别,其组内信息之间存在差异,为了提高同类别下特征的聚合程度、减少同类特征差异性,对得到的至少两组特征进行尺度归一化,变化为同一尺度的特征信息,而后由归一化之后的特征来确定对应类别的第一损失值。
S14:对至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值。
为了提升行为分类模型对于复杂样本的稳定性,将不同组的特征进行特征聚合,利用聚合后的特征进行预测,再通过预测结果确定第二损失。特征聚合即将多个特征聚合为一个单一的特征,特征聚合的方法可以包括均值和标准差聚合、分位数聚合或矩聚合等等。
S15:利用第一损失值和第二损失值对行为分类模型进行参数调整。
第一损失值用以减少同类别数据之间的差异,第二损失值用以减少模型对于复杂样本的判断失误率,利用第一损失值和第二损失值对行为分类模型进行参数调整,不断优化行为分类模型。
在本实施例中,获取训练数据集,利用行为分类模型得到训练数据集对应的不同尺度的至少两组特征。对至少两组特征进行尺度归一化处理,利用归一化之后的特征确定对应类别的第一损失值,用以提高同类特征之间的聚合程度,减少同类特征之间的差异。对不同组的特征进行特征聚合,以聚合后的特征进行行为类别预测,使得行为分类模型对于复杂样本具有更高的判断准确率。利用对应类别的第一损失值以及对应复杂样本的第二损失值对行为分类模型进行优化,提高行为分类模型对于预测结果的准确率和召回率。
参照图2,图2为本申请行为分类模型的训练方法第二实施例的流程示意图。该方法是对步骤S13的进一步扩展,其包括以下步骤:
S21:将至少两组特征处理为同一尺度的目标特征。
归一化处理,将尺度不同的至少两组特征处理为同尺度特征。处理包括上下采样等。
S22:利用目标特征分别确定出属于同一类别的第一子损失值,以及属于不同类别的第二子损失值。
在一实施例中,利用训练样本集中的类别总数、目标特征和目标特征对应的类别平均特征,可以得到属于同一类别的第一子损失值。
在一实施例中,利用训练样本集中的类别总数、类别平均特征的高维表示、特征维度和目标特征对应的类别平均特征,得到属于不同类别的第二子损失值。
S23:利用第一子损失值和第二子损失值得到第一损失值。
第一损失值可以通过如下的公式得到:
loss_select=loss_sam+α*loss_diff
其中,loss_sam为同类目标的损失,即第一子损失值;loss_diff为异类目标(并非真实目标特征)的损失,即第二子损失值;α为同类和异类损失的权重调节参数。
在本实施例中,利用归一化之后的特征确定对应类别的第一损失值,用以提高同类特征之间的聚合程度,减少同类特征之间的差异。
参照图3,图3为本申请行为分类模型的训练方法第三实施例的流程示意图。该方法是对步骤S21的进一步扩展,其包括以下步骤:
S31:将至少两组特征处理为同一尺度的初始特征。
先对不同尺度特征进行处理,将尺度不同的至少两组特征处理为同尺度特征。处理包括上下采样等。
S32:选择每一通道中激活响应最佳的初始特征作为目标特征。
每组特征及对应一个通道,对不同组中的特征进行优选,选取各个通道中激活响应最佳的特征值作为目标特征以确定第一损失值。特征优选即按照一定的准则对特征的效果进行排序,得到最佳响应的特征。常见的特征优选方法有T检验、KL距离、切诺夫届、ROC曲线以及wilcoxon test等等。
参照图4,图4为本申请行为分类模型的训练方法第四实施例的流程示意图。该方法是对步骤S22的进一步扩展,其包括以下步骤:
S41:利用训练样本集中的类别总数、目标特征和目标特征对应的类别平均特征,得到属于同一类别的第一子损失值。
同一类别的第一子损失值可以通过如下的公式得到:
其中,loss_sam为同类目标的平均平方误差损失;cls_feat为当前批次训练数据中某类样本的特征列表;cls_mean为某类样本的特征均值(随机初始化得到);该特征的大小为[cls,cls_feat],cls为模型训练的类别总数;ave为对同类目标的平方误差求平均;c_num为当前批次训练数据中的样本类别;eps为极小正数,防止分母为0。
S42:利用训练样本集中的类别总数、类别平均特征的高维表示、特征维度和目标特征对应的类别平均特征,得到属于不同类别的第二子损失值。
不同类别的第二子损失值可以通过如下的公式得到:
其中,loss_diff为异类目标(并非真实目标特征)的平均平方误差损失;cls_tmp为当前类目标特征均值的高维表示;cls_mean为某类样本的特征均值(随机初始化得到),该特征的大小为[cls,cls_feat],cls为模型训练的类别总数;feat_dim为特征维度;c_num为当前批次训练数据中的样本类别;eps为极小正数,防止分母为0。
在上述计算过程中,cls_feat作为当前批次训练数据中某类样本的特征向量列表,在上述计算的过程中使用其他特征是与该类特征无关的。针对某类目标A,其均值特征向量大小为[1,cls_feat],该值为随机初始化得到,通过训练逐渐稳定且具有高级语义表达信息,异类特征向量大小为[cls,cls_feat],其值为A类目标的特征均值的高维表示,相当于[1,cls_feat]在第一维度上进行复制,总共复制cls次。由于使用真实的样本特征均值容易发生过拟合,因此训练时使用具有一定通用性的初始化特征,通过不断优化使其趋于稳定。
参照图5,图5为本申请行为分类模型的训练方法第五实施例的流程示意图。该方法是对第一实施例的进一步扩展,其包括以下步骤:
S51:获取训练数据集。
训练数据集包括至少两个类别的多个样本数据。训练数据的类别预先确定,训练数据会与对应的类别标签对应,按照类别进行分组。在训练时,要保证各个类别的下的数据量处于均衡状态,并且在每一批训练数据中存在多类样本数据。
S52:将训练数据集输入至行为分类模型,得到不同尺度的至少三组特征。
将训练数据输入至行为分类模型,利用行为分类模型中的关键点提取网络进行特征提取,得到不同尺度的至少三组特征。
S53:对至少三组特征进行尺度归一化处理,确定尺度归一化后至少两组特征对应类别的第一损失值。
每组特征中包括了多个类别,其组内信息之间存在差异,为了提高同类别下特征的聚合程度、对至少三组或者所有组的特征进行尺度归一化处理,由归一化之后的特征来确定对应类别的第一损失值。
S54:对至少三组特征中的至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值。
为了提升行为分类模型对于复杂样本的稳定性,对至少三组特征中的至少两组特征进行特征聚合,利用聚合后的特征进行预测,再通过预测结果确定第二损失。
S55:利用第一损失值和第二损失值对行为分类模型进行参数调整。
第一损失值用以减少同类别数据之间的差异,第二损失值用以减少模型对于复杂样本的判断失误率,利用第一损失值和第二损失值对行为分类模型进行参数调整,不断优化行为分类模型。
在本实施例中,获取训练数据集,利用行为分类模型得到训练数据集对应的不同尺度的至少三组特征。对至少三组特征进行尺度归一化处理,利用归一化之后的特征确定对应类别的第一损失值,用以提高同类特征之间的聚合程度,减少同类特征之间的差异。对至少三组特征中的至少两组特征进行特征聚合,以聚合后的特征进行行为类别预测,使得行为分类模型对于复杂样本具有更高的判断准确率。利用对应类别的第一损失值以及对应复杂样本的第二损失值对行为分类模型进行优化,提高行为分类模型对于预测结果的准确率和召回率。
参照图6,图6为本申请行为分类模型的训练方法第六实施例的流程示意图。该方法是对步骤S54的进一步扩展,其包括以下步骤:
S61:对至少三组特征中的至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,得到训练数据集中每一数据对应的预测结果。
将聚合后的特征和输入全连接层进行特征预测,得到数据对应的预测结果。
S62:根据预测结果得到每一数据对应的目标损失值。
目标损失值可通过如下公式得到:
loss_tmp=cross_entroy(preds,label)
其中,loss_tmp为每个样本的分类损失,preds为模型预测结果,label为目标真实标签。
S63:从多个目标损失值中确定出第一数量的目标损失值和第二数量的目标损失值。
获取上述得到loss_tmp的数值,对从中确定出第一数量的目标损失值以及第二数量的目标损失值。其中,第一数量的目标损失值中的任一目标损失值大于或等于剩余的多个目标损失值,第二数量的目标损失值中的任一目标损失值小于或等于剩余的多个目标损失值。
在一实施例中,可以对loss_tmp进行排序,取排名靠前以及排名靠后的若干数量作为第一数量和第二数量。
具体地,对loss_tmp进行升序,取排名靠前的至少一个目标损失值作为第二数量的目标损失值,取排名靠后的至少一个目标损失值作为第一数量的目标损失值。
或者具体地,对loss_tmp进行降序,取排名靠前的至少一个目标损失值作为第一数量的目标损失值,取排名靠后的至少一个目标损失值作为第二数量的目标损失值。
S64:利用第一数量的目标损失值得到第三子损失值。
第三子损失值可通过以下公式得到:
loss_hard=ave(loss_tmp[top·m])
其中,loss_hard为复杂样本的损失,即第一数量的目标损失值。
S65:利用第二数量的目标损失值得到第四子损失值。
第四子损失值可通过以下公式得到:
loss_easy=ave(loss_tmp[top·k])
其中,loss_easy为简单样本的损失,即第二数量的目标损失值。
S66:根据训练数据集中的数据数量、第三子损失值和第四子损失值得到第二损失值。
第二损失值可通过以下公式得到:
loss_cls=β*loss_easy+loss_hard
其中,loss_cls为复杂样本优化损失,β为简单和复杂损失的权重调节参数,β取值范围可以是[0.1,0.5]。
在该损失定义中的超参数k、m、β可根据自身任务进行优选。
参照图7,图7为本申请行为分类模型的训练方法第七实施例的流程示意图。该方法是对步骤S66的进一步扩展,其包括以下步骤:
S71:在训练数据集中的数据数量小于预设数据数量时,将第四子损失值作为第二损失值。
S72:在训练数据集中的数据数量大于或等于预设数据数量时,根据第三子损失值和第四子损失值得到第二损失值将第四子损失值作为第二损失值。
为了提高模型的训练速度,在模型训练前期仅使用简单样本的损失,即第二数量的目标损失值,来进行参数优化,将第四子损失值作为第二损失值。在训练后期加入复杂样本损失进行微调,使用复杂样本优化损失来进行参数。
具体地,在确定了第一损失值以及第二损失值后,确定模型的整体损失为:
loss_total=γ*loss_select+loss_cls
其中,γ为特征优选损失和复杂样本优化损失的权重调节参数,取值范围[0.001,0.005]。
而在训练过程前期仅使用简单样本损失,后期加入复杂样本损失,则模型整体的损失为:
其中,epoch_tol为模型训练总批次数;epoch为模型当前训练的批次数。
本申请还提出了一种行为分类方法,其包括以下步骤:
S81:获取待分类数据。
S82:将待分类数据输入至行为分类模型,得到分类结果。
本方法中所使用的行为分类模型是基于本申请上述行为分类模型的训练方法第一至第七实施例中的任一实施例及可能的组合所提供的方法训练得到的。
下面举一具体实施例来对本申请中的方案进行进一步详细地说明。
参照图8,图8为本申请行为分类模型训练方法一具体实施例的流程示意图。
步骤a:数据准备,训练数据按照类别进行分组,保证各类别下的数据量处于均衡状态,每个批次数据内存在多类样本;其次,准备人体姿态的关键点信息模型。
步骤b:针对步骤a中的训练数据,使用在线数据增强方法,包括但不限于随机角度旋转、水平翻转、颜色抖动、随机padding和随机裁剪等,提升训练数据丰富程度。
步骤c:将数据导入关键点信息模型,获取输入图片的特征信息C3、C4、C5,这三组特征信息具有不同的大小,其长、宽、通道数均不同。
步骤d:针对步骤c,为了后续合理使用C3、C4、C5,设计多分支网络结构,实现各尺度特征的高度聚合。分支网络结构包括了bottleneck、卷积和自适应平均池化操作三个模块。
步骤e:针对步骤d,获取特征向量C_3、C_4、C_5,它们经过bottleneck、卷积和自适应平均池化操作,转化为[batchsize,feat_dim]的尺度,其中batchsize代表网路进行一次前向操作需处理的样本数,feat_dim代表特征维度。
步骤f:针对步骤e,对特征向量C_3、C_4、C_5进行优选,每个分支中所包含的特征信息存在差异,选取各通道上激活响应top1处的特征值,再使用特征聚合优选损失优化各类样本特征。得到的特征聚合优选损失参照上述第一损失值的描述。
步骤g:针对步骤e,对特征向量C_4和C_5进行特征聚合,再接入全连接层,进行行为类别预测,为了提升模型对于复杂样本的稳定性,分类分支使用复杂样本优化损失。该损失函数参照上述第二损失值的描述。
步骤h:针对步骤f和步骤g中的损失函数,确定模型整体损失,该损失定义为:
loss_total=γ*loss_select+loss_cls
其中,γ为特征优选损失和复杂样本优化损失的权重调节参数,取值范围[0.001,0.005]。
而在训练过程前期仅使用简单样本损失,后期加入复杂样本损失,则模型整体的损失为:
其中,epoch_tol为模型训练总批次数;epoch为模型当前训练的批次数。
在本申请上述实施例中,利用特征归一化优选的损失,对初始化得到的各类平均特征向量进行优化训练,可获得各类聚合程度更高的特征向量,提升模型的分类效果;将特征聚合,利用复杂样本优化损失进行训练,第一阶段使用简单样本计算损失,实现模型快速收敛;第二阶段使用复杂样本计算损失,实现模型微调,提升其对于复杂难样例的分类效果,复杂样本损失缓解了样本不均衡的问题,使得模型对于复杂样本具有较好的稳定性;进一步结合人体关键网络输出的特征信息,相比直接进行目标分类的网络设计,本申请的技术方案训练得到的行为分类模型在预测结果的准确性上具有明显提升。
如图9所示,图9为本申请电子设备第一实施例的结构示意图。
该电子设备包括处理器110、存储器120。
处理器110控制电子设备的操作,处理器110还可以称为CPU(Central ProcessingUnit,中央处理单元)。处理器110可能是一种集成电路芯片,具有信号序列的处理能力。处理器110还可以是通用处理器、数字信号序列处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器120存储处理器110工作所需要的指令和程序数据。
处理器110用于执行指令以实现本申请前述行为分类模型的训练方法第一至第七实施例中的任一实施例及可能的组合所提供的方法和行为分类方法。
如图10所示,图10为本申请计算机可读存储介质第一实施例的结构示意图。
本申请可读存储介质一实施例包括存储器210,存储器210存储有程序数据,该程序数据被执行时实现本申请行为分类模型的训练方法第一至第七实施例中的任一实施例及可能的组合所提供的方法和行为分类方法。
存储器210可以包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质,或者也可以为存储有该程序指令的服务器,该服务器可将存储的程序指令发送给其他设备运行,或者也可以自运行该存储的程序指令。
综上所述,获取训练数据集,利用行为分类模型得到训练数据集对应的不同尺度的至少两组特征。对至少两组特征进行尺度归一化处理,利用归一化之后的特征确定对应类别的第一损失值,用以提高同类特征之间的聚合程度,减少同类特征之间的差异。对不同组的特征进行特征聚合,以聚合后的特征进行行为类别预测,使得行为分类模型对于复杂样本具有更高的判断准确率。利用对应类别的第一损失值以及对应复杂样本的第二损失值对行为分类模型进行优化,提高行为分类模型对于预测结果的准确率和召回率。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种行为分类模型的训练方法,其特征在于,所述方法包括:
获取训练数据集,所述训练数据集包括至少两个类别的多个样本数据;
将所述训练数据集输入至行为分类模型,得到不同尺度的至少两组特征;
对所述至少两组特征进行尺度归一化处理,确定尺度归一化后所述至少两组特征对应类别的第一损失值;
对所述至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值;
利用所述第一损失值和所述第二损失值对所述行为分类模型进行参数调整。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少两组特征进行尺度归一化处理,确定尺度归一化后所述至少两组特征对应类别的第一损失值,包括:
将所述至少两组特征处理为同一尺度的目标特征;
利用所述目标特征分别确定出属于同一类别的第一子损失值,以及属于不同类别的第二子损失值;
利用所述第一子损失值和所述第二子损失值得到所述第一损失值。
3.根据权利要求2所述的方法,其特征在于,所述将所述至少两组特征处理为同一尺度的目标特征,包括:
将所述至少两组特征处理为同一尺度的初始特征;
选择每一通道中激活响应最佳的初始特征作为所述目标特征。
4.根据权利要求2所述的方法,其特征在于,所述利用所述目标特征分别确定出属于同一类别的第一子损失值,以及属于不同类别的第二子损失值,包括:
利用训练样本集中的类别总数、所述目标特征和所述目标特征对应的类别平均特征,得到属于同一类别的所述第一子损失值;
利用训练样本集中的类别总数、所述类别平均特征的高维表示、特征维度和所述目标特征对应的类别平均特征,得到属于不同类别的第二子损失值。
5.根据权利要求1所述的方法,其特征在于,所述将所述训练数据集输入至行为分类模型,得到不同尺度的至少两组特征,包括:
将所述训练数据集输入至行为分类模型,得到不同尺度的至少三组特征;
所述对所述至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值,包括:
对所述至少三组特征中的至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值。
6.根据权利要求5所述的方法,其特征在于,所述对所述至少三组特征中的至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,根据预测结果得到第二损失值,包括:
对所述至少三组特征中的至少两组特征进行特征聚合,利用聚合后的特征进行行为类别预测,得到所述训练数据集中每一数据对应的预测结果;
根据所述预测结果得到每一数据对应的目标损失值;
从多个所述目标损失值中确定出第一数量的目标损失值和第二数量的目标损失值;其中,所述第一数量的目标损失值中的任一目标损失值大于或等于剩余的多个所述目标损失值,所述第二数量的目标损失值中的任一目标损失值小于或等于剩余的多个所述目标损失值;
利用第一数量的目标损失值得到第三子损失值;
利用第二数量的目标损失值得到第四子损失值;
根据所述训练数据集中的数据数量、所述第三子损失值和所述第四子损失值得到所述第二损失值。
7.根据权利要求6所述的方法,其特征在于,所述根据所述训练数据集中的数据数量、所述第三子损失值和所述第四子损失值得到所述第二损失值,包括:
在所述训练数据集中的数据数量小于预设数据数量时,将所述第四子损失值作为所述第二损失值;
在所述训练数据集中的数据数量大于或等于所述预设数据数量时,根据所述第三子损失值和所述第四子损失值得到所述第二损失值将所述第四子损失值作为所述第二损失值。
8.一种行为分类方法,其特征在于,所述方法包括:
获取待分类数据;
将所述待分类数据输入至利用权利要求1-7中任一项所述的方法得到的行为分类模型,得到分类结果。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储程序数据,所述程序数据能够被所述处理器执行,以实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有程序数据,能够被处理器执行,以实现如权利要求1-8任一项所述的方法。
CN202310240144.3A 2023-03-09 2023-03-09 模型训练方法、行为分类方法、电子设备及存储介质 Pending CN116453209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310240144.3A CN116453209A (zh) 2023-03-09 2023-03-09 模型训练方法、行为分类方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310240144.3A CN116453209A (zh) 2023-03-09 2023-03-09 模型训练方法、行为分类方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116453209A true CN116453209A (zh) 2023-07-18

Family

ID=87122822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310240144.3A Pending CN116453209A (zh) 2023-03-09 2023-03-09 模型训练方法、行为分类方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116453209A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115596A (zh) * 2023-10-25 2023-11-24 腾讯科技(深圳)有限公司 对象动作分类模型的训练方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115596A (zh) * 2023-10-25 2023-11-24 腾讯科技(深圳)有限公司 对象动作分类模型的训练方法、装置、设备及介质
CN117115596B (zh) * 2023-10-25 2024-02-02 腾讯科技(深圳)有限公司 对象动作分类模型的训练方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107103332B (zh) 一种面向大规模数据集的相关向量机分类方法
CN108491765A (zh) 一种蔬菜图像的分类识别方法及系统
CN107305637B (zh) 基于K-Means算法的数据聚类方法和装置
CN107766929B (zh) 模型分析方法及装置
CN110298663A (zh) 基于序列宽深学习的欺诈交易检测方法
WO2020114108A1 (zh) 聚类结果的解释方法和装置
Oyama et al. Identifying useful features for malware detection in the ember dataset
CN113435509B (zh) 基于元学习的小样本场景分类识别方法及系统
TW201833851A (zh) 風控事件自動處理方法及裝置
CN116453209A (zh) 模型训练方法、行为分类方法、电子设备及存储介质
CN111445304A (zh) 信息推荐方法、装置、计算机设备及存储介质
CN111062425A (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN111523964A (zh) 基于聚类的召回方法、装置、电子设备及可读存储介质
CN114609994A (zh) 基于多粒度正则化重平衡增量学习的故障诊断方法及装置
CN113761026A (zh) 基于条件互信息的特征选择方法、装置、设备和存储介质
CN106919808A (zh) 基于变步长最小均方误差自适应滤波器的基因识别系统
CN114417095A (zh) 一种数据集划分方法及装置
KR20210143460A (ko) 특징 추천 장치 및 그것의 특징 추천 방법
CN116628600A (zh) 基于随机森林的不平衡数据采样方法及装置
CN111984842B (zh) 银行客户数据处理方法及装置
CN110134575B (zh) 一种服务器集群的服务能力计算方法及装置
CN114970856A (zh) 基于硬件特性的模型剪枝方法、装置、设备及存储介质
CN114462447A (zh) 电压暂降的识别方法、装置、计算机设备、存储介质
CN114662568A (zh) 数据分类方法、装置、设备和存储介质
CN113657501A (zh) 模型自适应训练方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination