CN118228836A

CN118228836A - 模型更新方法、模型更新装置以及计算机存储介质

Info

Publication number: CN118228836A
Application number: CN202410316236.XA
Authority: CN
Inventors: 江俊林; 朱树磊; 殷俊; 夏炜栋
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-21

Abstract

本申请公开了一种模型更新方法、模型更新装置以及计算机存储介质，该模型更新方法包括：获取第一模型和第二模型，所述第一模型的模型版本高于所述第二模型；判断所述第一模型的特征维度与所述第二模型的特征维度是否相同；若是，则将训练数据分别输入所述第一模型和所述第二模型进行训练，得到混合特征；计算所述混合特征的分类损失，基于所述分类损失对所述第一模型进行更新。通过上述方式，本申请通过将训练数据分别输入新老模型并使用混合得到的特征对新模型进行更新训练的方法，从而使得新模型得到的特征可以直接在统一的特征空间与老模型得到的特征进行特征比较，提高了模型版本更新的速率和效率。

Description

模型更新方法、模型更新装置以及计算机存储介质

技术领域

本申请涉及模型训练领域，特别是涉及一种模型更新方法、模型更新装置以及计算机存储介质。

背景技术

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术，在机器学习中，训练应用于各种不同场景的网络模型为其中的关键步骤。

由于视频监控正在快速普及，众多的视频监控应用迫切需要一种远距离、用户非配合状态下的快速身份识别技术，以求远距离快速确认人员身份，实现智能预警。

然而身份识别模型需要随着底库特征的更新而更新，这将出现多个版本的身份识别模型提取到的特征无法进行比对的情况，因此需要在更新身份识别模型时考虑到新老模型之间的兼容性。在现有的模型更新方法中，使用额外训练的转换器对新老模型提取到的特征统一转换，导致在每次模型更新后都需要训练新的转换器，影响了模型更新的效率。

发明内容

本申请主要解决的技术问题是如何提高模型更新的效率，对此，本申请提供一种模型更新方法、模型更新装置以及计算机可读存储介质。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种模型更新方法，该方法包括：获取第一模型和第二模型，第一模型的模型版本高于第二模型；判断第一模型的特征维度与第二模型的特征维度是否相同；若是，则将训练数据分别输入第一模型和第二模型进行训练，得到混合特征；计算混合特征的分类损失，基于分类损失对第一模型进行更新。

其中，将训练数据分别输入第一模型和第二模型进行训练，得到混合特征，包括：在当前训练次数，将训练数据输入第一模型得到第一特征；将训练数据输入第二模型得到第二特征；使用第一混合比例将第一特征和第二特征进行特征融合，得到当前训练次数的混合特征，其中，第一混合比例中第一特征对应的混合权重小于第二特征对应的混合权重。

其中，将训练数据分别输入第一模型和第二模型进行训练，得到混合特征，包括：在下一个训练次数，将下一个训练数据输入第一模型得到第三特征；将下一个训练数据输入第二模型得到第四特征；使用第二混合比例将第三特征和第四特征进行特征融合，得到下一个训练次数的混合特征，其中，第一混合比例中第一特征的占比小于第二混合比例中第三特征的占比。

其中，基于分类损失对第一模型进行更新，包括：计算第一模型的嵌入层特征与第二模型的嵌入层特征之间的特征差异；基于特征差异获取特征分布损失；使用特征分布损失和分类损失对第一模型进行更新。

其中，在判断第一模型的特征维度与第二模型的特征维度是否相同之后，模型更新方法还包括：若否，则构建用于将第一模型的特征转换至第二模型的特征的转换模块；基于转换模块对第一模型进行更新。

其中，在构建用于将第一模型转换至第二模型的转换模块之后，模型更新方法包括：将训练数据输入第二模型得到原始特征；将训练数据依次输入第一模型和转换模块后得到转换特征；计算原始特征和转换特征之间的边界损失和对齐损失；基于边界损失和对齐损失对转换模块进行优化。

其中，计算原始特征和转换特征之间的边界损失和对齐损失，包括：获取第二模型的中心特征与转换特征之间的中心距离；基于中心距离与中心特征到第二模型的边界角度计算边界损失；计算原始特征与转换特征之间的距离作为对齐损失。

其中，基于转换模块对第一模型进行更新，包括：分别获取多个第二模型与下一版本的模型对应的多个转换模块；将多个转换模块进行转换计算得到最终的转换模块；使用最终的转换模块对最终的第一模型进行更新。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种模型更新装置，该模型更新装置包括处理器和存储器，存储器与处理器耦接，存储器存储有程序数据，处理器用于执行程序数据以实现如上述的模型更新方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有程序数据，程序数据在被执行时，用于实现上述的模型更新方法。

本申请的有益效果是：区别于现有技术的情况，本发明提供的模型更新方法应用于模型更新装置，模型更新装置获取第一模型和第二模型，第一模型的模型版本高于第二模型；判断第一模型的特征维度与第二模型的特征维度是否相同；若是，则将训练数据分别输入第一模型和第二模型进行训练，得到混合特征；计算混合特征的分类损失，基于分类损失对第一模型进行更新。通过上述方式，与常规的模型更新方法相比，本申请采用的对新老模型的特征维度进行比较，将训练数据输入特征维度相同的新老模型得到混合特征，使用混合特征对新模型进行训练的方法，在满足了新老模型中特征能够兼容互比且不影响模型效果的前提下，简化了模型更新的训练过程，减少了新老模型的更新成本，提高了模型更新的效率，能够适应快速变化的模型业务需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本申请提供的模型更新方法第一实施例的流程示意图；

图2是本申请提供的模型更新方法的整体流程示意图；

图3是本申请提供的模型更新装置中应用模型更新方法得到混合特征的分类损失的流程示意图；

图4是本申请提供的模型更新方法第二实施例的流程示意图；

图5是本申请提供的模型更新装置中应用模型更新方法训练转换模块的流程示意图；

图6是本申请提供的模型更新方法第三实施例的流程示意图；

图7是本申请提供的模型更新装置第一实施例的结构示意图；

图8是本申请提供的模型更新装置第二实施例的结构示意图；

图9是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本申请提供的模型更新方法主要应用于一种模型更新装置，其中，本申请的模型更新装置可以为服务器，也可以为由服务器和终端设备相互配合的系统。相应地，模型更新装置包括的各个部分，例如各个单元、子单元、模块、子模块可以全部设置于服务器中，也可以分别设置于服务器和终端设备中。

进一步地，上述服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，例如用来提供分布式服务器的软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。在一些可能的实现方式中，本申请实施例的模型更新方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在现有技术中，在身份识别模型等网络模型进行更新迭代的过程中，每当模型升级到下一版本后，新老版本模型提取到的特征往往是不兼容的，即在身份识别的应用场景中，使用同一个人的照片经过新模型提取后的特征与老模型提取后的特征进行比对，得到的相似度是很低的。因此需要分别给新模型和旧模型的模型中加上一个转换模块，将新老模型的特征转换到同一特征空间从而实现特征的互相对比。而由于模型版本的更新迭代较多，使得需要经常重新训练转换模块，导致模型更新的效率很低。

因此，本申请提供一种模型更新方法，通过使用新老模型的混合特征得到的损失来更新新模型的模型参数，从而使得新模型与老模型之间的特征能够相互比较，具体实施方法如下所述。

参阅图1和图2，图1是本申请提供的模型更新方法第一实施例的流程示意图；图2是本申请提供的模型更新方法的整体流程示意图。

步骤11：获取第一模型和第二模型，第一模型的模型版本高于第二模型。

具体地，第一模型为版本比第二模型高的且应用于同一特征提取场景的网络模型，网络模型的应用场景可以根据用户需求自行设定，在此不做限定。为了方便说明，本申请以应用于身份识别场景下的模型更新过程进行描述。

具体地，第二模型对大量带有标注信息的人脸图像进行特征提取，从而得到身份识别的底库特征，并将底库特征存储在数据库中作为识别人脸的样本特征。在其他实施例中，第二模型也可以用于对音频、视频等数据进行特征提取，在此不做限定。

具体地，对于任意版本的模型，为了使得新老模型特征相互兼容，使用新模型提取到的特征与底库特征之间的距离需要满足以下关系：

其中，新模型提取的特征可以用来表示，/>和/>分别表示底库特征中的正样本与负样本。

步骤12：判断第一模型的特征维度与第二模型的特征维度是否相同。

具体地，特征的维度表示特征向量中包含的元素个数，也就是向量的长度。可以将特征向量看作一个点在高维空间中的坐标，其中每个维度代表一个不同的特征。例如，在图像处理中，可以使用卷积神经网络从图像中提取特征。在卷积神经网络中，每个卷积层和池化层都可以生成一个新的特征图(或称为卷积特征)，其中每个像素代表了一个特征。这些特征可以被展平成一个一维向量，这个向量的维度就是所有特征的数量。

具体地，对于一个系列的特征提取模型而言，随着模型版本升级与迭代，模型嵌入层的特征维度会随着实际情况发生改变，高维特征可能会包含更多的信息，但是训练和计算成本也会更高。低维特征可能会降低计算复杂度，但是可能会丢失一些重要信息。在特征提取的模型中，通常希望降低模型特征维度，因此在模型更新过程中需要考虑新老模型之间特征维度是否相同。

具体地，当第一模型的特征维度与第二模型的特征维度相同时，进入步骤13。

步骤13：将训练数据分别输入第一模型和第二模型进行训练，得到混合特征。

参阅图3，图3是本申请提供的模型更新装置中应用模型更新方法得到混合特征的分类损失的流程示意图。

具体地，如图3所示，模型更新装置在当前训练次数，将训练数据输入第一模型即新模型得到第一特征；将训练数据输入第二模型即旧模型得到第二特征；使用第一混合比例将第一特征和第二特征进行特征融合，得到当前训练次数的混合特征，其中，第一混合比例中第一特征对应的混合权重小于第二特征对应的混合权重。

具体地，在下一个训练次数，模型更新装置将下一个训练数据输入第一模型得到第三特征；将下一个训练数据输入第二模型得到第四特征；使用第二混合比例将第三特征和第四特征进行特征融合，得到下一个训练次数的混合特征，其中，第一混合比例中第一特征的占比小于第二混合比例中第三特征的占比。

在一些实施例中，模型更新装置可以通过提高第一模型得到的第一特征的混合权重和/或降低第二模型得到的第二特征的混合权重的方式来调整第一特征和第二特征的特征混合比例。

随着训练次数的增长，模型更新装置逐渐调整第一特征和第二特征的特征混合比例，从而使得新模型的特征表征能力逐渐增加。

步骤14：计算混合特征的分类损失，基于分类损失对第一模型进行更新。

具体地，模型更新装置基于得到的混合特征计算分类损失，分类损失用于判断模型是否能够准确地识别出人脸图像中的对象,并将其分类到正确的类别中，具体计算公式如下所示：

其中，为混合特征，L_m为分类损失。

具体地，请继续参阅图3，模型更新装置还会计算第一模型的嵌入层特征与第二模型的嵌入层特征之间的特征差异；基于特征差异获取特征分布损失；使用特征分布损失和分类损失对第一模型进行更新。特征分布损失L₂的具体计算公式如下所示：

其中，分别表示使用新模型和旧模型提取到的特征。L2损失(也称为均方误差或平方误差损失)是在机器学习中常用的一种损失函数，主要用于衡量预测值与实际值之间的差异。其定义是将预测值与实际值之间的差值的平方相加，然后除以样本数量得到平均值。

在老模型与新模型的特征维度相同时，通过混合新老模型特征，并不断改变混合比例得到的分类损失，使用分类损失训练新模型的方法，实现了新模型能够自适应地与老模型特征进行特征互比，提高了模型更新的效率，满足了模型的向后兼容更新问题。

在本申请一实施例，若第一模型与第二模型的特征维度不同，则模型更新装置使用如图4所示的方法进行模型更新。参阅图4，图4是本申请提供的模型更新方法第二实施例的流程示意图。

步骤41：获取第一模型和第二模型，第一模型的模型版本高于第二模型。

具体地，步骤41与步骤11所述的方法类似，在此不做赘述。

步骤42：判断第一模型的特征维度与第二模型的特征维度是否相同。

具体地，步骤42与步骤12所述的方法类似，在此不做赘述。当第一模型的特征维度与第二模型的特征维度不相同时，进入步骤43。

步骤43：构建用于将第一模型的特征转换至第二模型的特征的转换模块。

具体地，由于第一模型与第二模型的特征维度不同，具有不同的特征维度的特征之间无法进行互比，因此需要训练一个转换模块对新模型的特征进行转换。参阅图5，图5是本申请提供的模型更新装置中应用模型更新方法训练转换模块的流程示意图。

具体地，模型更新装置将训练数据输入第二模型得到原始特征将训练数据依次输入第一模型和转换模块后得到转换特征；计算原始特征和转换特征之间的边界损失L_a和对齐损失L_b；基于边界损失和对齐损失对转换模块进行优化。

具体地，模型更新装置获取第二模型的中心特征与转换特征之间的中心距离基于中心距离与中心特征到第二模型的边界角度/>计算边界损失，边界损失的具体计算公式如下：

模型更新装置计算原始特征与转换特征之间的距离作为对齐损失，对齐损失的具体计算公式如下：

其中，与/>分别表示原始参数经过转换模块转换后得到的转换参数以及原始参数。

步骤44：基于转换模块对第一模型进行更新。

具体地，模型更新装置使用优化后的转换模块对第一模型进行更新，使得新模型提取到的特征可以转换映射至老模型中的特征空间，实现新老模型之间的特征互比，提高了模型更新的更新效率。

在本申请一实施例中，当存在多个版本的模型需要进行更新时，模型更新装置使用如图6所述的方法对最新的模型进行更新，参阅图6，图6是本申请提供的模型更新方法第三实施例的流程示意图。

步骤61：分别获取多个第二模型与下一版本的模型对应的多个转换模块。

具体地，当存在多个迭代版本模型M₁、M₂、M₃、M₄、M₅时，用f₁、f₂、f₃、f₄、f₅分别表示从M₁～M₅模型提取到的特征，有：

其中，表示M_k的转换模块，用于将使用M_k模型得到的特征转换至使用M_k-1模型得到的特征。

步骤62：将多个转换模块进行转换计算得到最终的转换模块。

具体地，若要实现M_j与M_k模型的特征互比(1<j<k)，可以通过以下关系进行转换:

即：

因此，模型更新模型将多个版本模型对应的转换模块进行转换计算，得到最终的转换模块。

步骤63：使用最终的转换模块对最终的第一模型进行更新。

具体地，模型更新装置通过相邻的两个特征版本之间的递推关系，提前计算好任意两个模型版本之间的模型转换模块，快速的实现任意两个版本之间的特征互比，大大减少了计算量。

在本申请一实施例中，模型更新装置使用最新的身份识别模型对图像进行特征提取得到身份特征，将身份特征与底库特征进行比对得到识别结果。

具体地，底库特征由版本低于最新的身份识别模型的身份识别模型即旧版本的身份识别模型进行提取。

通过上述步骤中的模型更新方法对身份识别模型的更新，实现了对新模型提取的特征进行转换后即可和老模型提取的特征底库进行比对，提高了身份识别的效率，减少了训练过程中的冗余步骤。

区别于现有技术的情况，本发明提供的模型更新方法应用于模型更新装置，模型更新装置获取第一模型和第二模型，第一模型的模型版本高于第二模型；判断第一模型的特征维度与第二模型的特征维度是否相同；若是，则将训练数据分别输入第一模型和第二模型进行训练，得到混合特征；计算混合特征的分类损失，基于分类损失对第一模型进行更新。通过上述方式，与常规的模型更新方法相比，本申请采用的对新老模型的特征维度进行比较，将训练数据输入特征维度相同的新老模型得到混合特征，使用混合特征对新模型进行训练的方法，在满足了新老模型中特征能够兼容互比且不影响模型效果的前提下，简化了模型更新的训练过程，减少了新老模型的更新成本，提高了模型更新的效率，能够适应快速变化的模型业务需求。

上述实施例的方法，可以利用一模型更新装置来实现，下面结合图7进行描述，图7是本申请提供的模型更新装置第一实施例的结构示意图。

如图7所示，本申请实施例的模型更新装置70包括模型获取模块71、判断模块72、训练模块73、模型更新模块74。

其中，模型获取模块71，用于获取第一模型和第二模型，第一模型的模型版本高于第二模型。

判断模块72，用于判断第一模型的特征维度与第二模型的特征维度是否相同。

训练模块73，用于将训练数据分别输入第一模型和第二模型进行训练，得到混合特征。

模型更新模块74，用于计算混合特征的分类损失，基于分类损失对第一模型进行更新。

上述实施例的方法，可以利用一模型更新装置来实现，下面结合图8，图8是本申请提供的模型更新装置第二实施例的结构示意图，该模型更新装置80包括存储器81和处理器82，存储器81用于存储程序数据，处理器82用于执行程序数据以实现如下的方法：

获取第一模型和第二模型，第一模型的模型版本高于第二模型；判断第一模型的特征维度与第二模型的特征维度是否相同；若是，则将训练数据分别输入第一模型和第二模型进行训练，得到混合特征；计算混合特征的分类损失，基于分类损失对第一模型进行更新。

参阅图9，图9是本申请提供的计算机可读存储介质一实施例的结构示意图，该计算机可读存储介质90存储有程序数据91，程序数据91在被处理器执行时，用于实现如下的方法：

本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种模型更新方法，其特征在于，所述模型更新方法包括：

获取第一模型和第二模型，所述第一模型的模型版本高于所述第二模型；

判断所述第一模型的特征维度与所述第二模型的特征维度是否相同；

若是，则将训练数据分别输入所述第一模型和所述第二模型进行训练，得到混合特征；

计算所述混合特征的分类损失，基于所述分类损失对所述第一模型进行更新。

2.根据权利要求1所述的模型更新方法，其特征在于，

所述将训练数据分别输入所述第一模型和所述第二模型进行训练，得到混合特征，包括：

在当前训练次数，将所述训练数据输入所述第一模型得到第一特征；

将所述训练数据输入所述第二模型得到第二特征；

使用第一混合比例将所述第一特征和所述第二特征进行特征融合，得到所述当前训练次数的混合特征，其中，所述第一混合比例中所述第一特征对应的混合权重小于所述第二特征对应的混合权重。

3.根据权利要求2所述的模型更新方法，其特征在于，

在下一个训练次数，将下一个训练数据输入所述第一模型得到第三特征；

将所述下一个训练数据输入所述第二模型得到第四特征；

使用第二混合比例将所述第三特征和所述第四特征进行特征融合，得到所述下一个训练次数的混合特征，其中，所述第一混合比例中第一特征的占比小于所述第二混合比例中第三特征的占比。

4.根据权利要求1所述的模型更新方法，其特征在于，

基于所述分类损失对所述第一模型进行更新，包括：

计算所述第一模型的嵌入层特征与所述第二模型的嵌入层特征之间的特征差异；

基于所述特征差异获取特征分布损失；

使用所述特征分布损失和所述分类损失对所述第一模型进行更新。

5.根据权利要求1所述的模型更新方法，其特征在于，

在所述判断所述第一模型的特征维度与所述第二模型的特征维度是否相同之后，所述模型更新方法还包括：

若否，则构建用于将所述第一模型的特征转换至所述第二模型的特征的转换模块；

基于所述转换模块对所述第一模型进行更新。

6.根据权利要求5所述的模型更新方法，其特征在于，

在所述构建用于将所述第一模型转换至所述第二模型的转换模块之后，所述模型更新方法包括：

将训练数据输入第二模型得到原始特征；

将所述训练数据依次输入所述第一模型和所述转换模块后得到转换特征；

计算所述原始特征和所述转换特征之间的边界损失和对齐损失；

基于所述边界损失和所述对齐损失对所述转换模块进行优化。

7.根据权利要求6所述的模型更新方法，其特征在于，

所述计算所述原始特征和所述转换特征之间的边界损失和对齐损失，包括：

获取所述第二模型的中心特征与所述转换特征之间的中心距离；

基于所述中心距离与所述中心特征到所述第二模型的边界角度计算所述边界损失；

计算所述原始特征与所述转换特征之间的距离作为所述对齐损失。

8.根据权利要求5所述的模型更新方法，其特征在于，

所述基于所述转换模块对所述第一模型进行更新，包括：

分别获取多个所述第二模型与下一版本的模型对应的多个转换模块；

将多个所述转换模块进行转换计算得到最终的转换模块；

使用所述最终的转换模块对最终的所述第一模型进行更新。

9.一种模型更新装置，其特征在于，所述模型更新装置包括存储器以及与所述存储器耦接的处理器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1至8任一项所述的模型更新方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被计算机执行时，用以实现如权利要求1至8任一项所述的模型更新方法。