CN113515980A

CN113515980A - 模型训练方法、装置、设备和存储介质

Info

Publication number: CN113515980A
Application number: CN202010432011.2A
Authority: CN
Inventors: 钟华松; 林旸; 夏亮; 黄建强; 华先胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2021-10-19
Anticipated expiration: 2040-05-20
Also published as: CN113515980B

Abstract

本发明实施例提供一种模型训练方法、装置、设备和存储介质，该方法包括：接收包含相同目标对象的第一图像样本以及第二图像样本，且第一图像样本包含的信息量少于或等于第二图像样本。分别将两图像样本输入第一识别模型和第二识别模型。再根据两个识别模型各自提取出的图像特征，调整第一识别模型的模型参数，并将模型参数输出给用户。根据上述描述可知，由于第二图像样本中包含的内容量比第一图像样本丰富，因此，第二识别模型提取出的第二图像特征也更加准确、恰当的表征目标对象。第二识别模型可以在第一识别模型的训练过程中起到指导作用，从而保证第一识别模型的训练效果。

Description

模型训练方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型训练方法、装置、设备和存储介质。

背景技术

目标识别是近几年的研究热门，其已经广泛应用于机器人导航、智能视频监控等诸多领域。特别是在智能监控领域中，对特定的目标对象，比如行人或者车辆等进行识别的需求尤其明显。

在上述场景下，由于特定目标对象的活动范围广泛，通常需要结合使用多个监控设备采集到的图像进行目标对象的识别。因此，在使用多张图像进行目标对象识别时，如何保证识别的准确性就成为一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种模型训练方法、装置、设备和存储介质，用以保障模型的识别效果。

第一方面，本发明实施例提供一种模型训练方法，包括：

接收包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量；

将所述第一图像样本输入第一识别模型，以获得所述第一图像样本的第一图像特征；

将所述第二图像样本输入第二识别模型，以获得所述第二图像样本的第二图像特征；

根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数；

输出所述第一识别模型的模型参数。

第二方面，本发明实施例提供一种模型训练装置，包括：

接收模块，用于接收包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量；

第一输入模块，用于将所述第一图像样本输入第一识别模型，以获得所述第一图像样本的第一图像特征；

第二输入模块，用于将所述第二图像样本输入第二识别模型，以获得所述第二图像样本的第二图像特征；

调整模块，用于根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数；

输出模块，用于输出所述第一识别模型的模型参数。

第三方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的模型训练方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的模型训练方法。

第五方面，本发明实施例提供一种模型训练方法，包括：

获取包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量；

将所述第二图像样本输入第二识别模型，以获得所述第二图像样本的图像特征；

根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数。

第六方面，本发明实施例提供一种模型训练装置，包括：

获取模块，用于获取包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量；

第二输入模块，用于将所述第二图像样本输入第二识别模型，以获得所述第二图像样本的图像特征；

调整模块，用于根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数。

第七方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的模型训练方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第八方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第五方面所述的模型训练方法。

第九方面，本发明实施例提供一种模型训练方法，包括：

响应于用户触发的输入操作，获取模型训练对应的要求信息；

获取对应于所述要求信息的第一识别模型；

输出所述第一识别模型的模型参数。

第十方面，本发明实施例提供一种模型训练装置，包括：

第一获取模块，用于响应于用户触发的输入操作，获取模型训练对应的要求信息；以及获取对应于所述要求信息的第一识别模型；

第二获取模块，用于获取包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量；

输出模块，用于输出所述第一识别模型的模型参数。

第十一方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第九方面中的模型训练方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第十二方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第九方面所述的模型训练方法。

本发明实施例提供的模型训练方法，接收包含相同目标对象的第一图像样本以及第二图像样本，其中，第一图像样本包含的信息量少于或等于第二图像样本包含的信息量。然后，分别将两图像样本输入第一识别模型和第二识别模型，并根据两个识别模型各自提取出的图像特征对第一识别模型进行训练，即调整其的模型参数，最终，将模型参数输出给用户。

由于第二样本图像中包含的信息量比第一图像样本丰富，因此，第二识别模型提取出的第二图像特征中也包含关于目标对象的信息量也更丰富，提取出的第二图像特征能够更加准确、恰当的反映目标对象。又由于两图像样本包含同一目标对象，因此，两模型提取出的图像特征之间应该具有较高的相似度，此时使用第二图像特征能够对第一识别模型的特征提取能力进行指导，也即是使第二识别模型对第一识别模型的训练起到指导作用，从而保证第一识别模型的训练效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种模型训练方法的流程图；

图2为本发明实施例提供的一种模型训练的示意图；

图3为本发明实施例提供的另一种模型训练的示意图；

图4为本发明实施例提供的又一种模型训练的示意图；

图5为本发明实施例提供的一种图像样本获取方式的流程图；

图6a为本发明实施例提供的一种图像样本的剪裁结果；

图6b为本发明实施例提供的另一种图像样本的剪裁结果；

图7为本发明实施例提供的另一种模型训练方法的流程图；

图8为本发明实施例提供的又一种模型训练的示意图；

图9为本发明实施例提供的又一种模型训练的示意图；

图10为本发明实施例提供的又一种模型训练的示意图；

图11为本发明实施例提供的又一种模型训练的示意图；

图12为本发明实施例提供的又一种模型训练的示意图；

图13为本发明实施例提供的又一种模型训练方法的流程图；

图14为本发明实施例提供的又一种模型训练方法的流程图；

图15为本发明实施例提供的一种模型训练服务的交互界面；

图16为本发明实施例提供的识别模型在行人检测场景下的示意图；

图17为本发明实施例提供的一种模型训练装置的结构示意图；

图18为与图17所示实施例提供的模型训练装置对应的电子设备的结构示意图；

图19为本发明实施例提供的另一种模型训练装置的结构示意图；

图20为与图19所示实施例提供的模型训练装置对应的电子设备的结构示意图；

图21为本发明实施例提供的又一种模型训练装置的结构示意图；

图22为与图21所示实施例提供的模型训练装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

正如背景技术中提到的，目标对象的识别在智能监控领域中的应用最为广泛，识别的目标对象可以是行人或车辆等等。搜索过程中，在确定目标对象之后，比如在确定违章车辆或者涉事人员的信息后，便会进一步存在对目标对象的搜索需求，即存在对目标对象的重识别需求。而识别过程依赖的是安装于道路各处的摄像头拍得的监控视频。

传统的人工识别方式，需要对不同摄像头采集的监控视频，也即是需要对跨设备采集的视频进行逐一排查，费时费力。而为了解决此问题，一种常见的方法是借助识别模型来实现目标对象的智能识别。此时，便可以采用对本发明实施例提供的模型训练方法训练识别模型，以保证识别模型的识别效果。

基于上述背景，下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

另外，本发明中各实施例提供的模型训练方法，其可以部署在服务平台上，存在模型训练需求的用户可以借由此服务平台完成模型训练，也即是为用户提供了一种模型训练的软件服务。

图1为本发明实施例提供的一种模型训练方法的流程图。本发明实施例提供的该模型训练方法可以由识别设备来执行。可以理解的是，该识别设备可以实现为软件、或者软件和硬件的组合。本实施例以及下述各实施例中的识别设备具体来说可以是服务器。如图1所示，该方法包括如下步骤：

S101，接收包含相同目标对象的第一图像样本和第二图像样本，第一图像样本包含的信息量不超过第二图像样本包含的信息量。

承接上述的内容，位于道路不同位置的摄像头可以从不同角度进行拍摄，从而得到历史时间段内的多段视频，比如一周内摄像头拍得的视频，则视频中的每一帧图像可以认为是都图像样本。可选地，可以通过人工选择的方式从其中选择出第一图像样本和第二图像样本，用户可以根据识别设备提供的操作界面，将选中的图像样本输入识别设备。可选地，用户还可以在服务平台上触发模型训练任务，以使服务平台从平台自身配置的样本集合中找到第一样本图像和第二样本图像。

对于第一图像样本和第二图像样本需要满足以下条件：

第一，两图像样本包含相同的目标对象，比如包含同一车辆或者同一行人。第二，第一图像样本包含的信息量小于或者等于第二图像样本中包含的信息量。可选地，图像样本包含的信息量可以具体体现为图像的尺寸、分辨率，或者图像中是否包含完整的目标对象等等。

实际应用中，第一样本图像的尺寸、分辨率可以小于或者等于第二图像样本的尺寸、分辨率，或者第二图像样本包含一个完整的目标对象，比如，第二图像样本包含行人整个身体或者包含完整车身。所以，满足条件的第二图像样本实际上是一张大尺寸或者全视角的图像。

需要说明的有，第一样本图像和第二样本图像中包含的目标对象的标识信息可以是已知的，标识信息用于表明目标对象的身份信息。

S102，将第一图像样本输入第一识别模型，以获得第一图像样本的第一图像特征。

S103，将第二图像样本输入第二识别模型，以获得第二图像样本的第二图像特征。

然后，将第一图像样本及其标识信息输入第一识别模型，以由第一识别模型的特征提取层提取第一图像样本的第一图像特征。同时，将第二图像样本及其标识信息输入第二识别模型，以由第二识别模型的特征提取层提取第二图像样本的第二图像特征。可选地，第二识别模型通常是特征提取能力高于第一识别模型的。

由于第二图像样本包含的信息量更大，能够更加详细的描述目标对象，因此，相较于第一图像特征，第二图像特征能够更准确、恰当的表征目标对象。

S104，根据第一图像特征和第二图像特征，调整第一识别模型的模型参数。

S105，输出第一识别模型的模型参数。

最终，可以利用两个图像特征调整第一识别模型的模型参数，并将模型参数输出给用户，以满足用户的模型训练需求。由于第二图像特征的准确性，因此，参数调整也可以认为是第二识别模型对第一识别模型的训练进行指导。

一种可选地调整方式，根据第一图像特征和第二图像特征之间的相似度，调整第一识别模型的模型参数。图像特征之间的相似度可以体现为欧式距离、汉明距离等等。

具体来说，可以采用下述公式进行相似度的计算：

其中，I_s为第一图像特征，f_s为第一识别模型的提取特征函数，I_t为第二图像特征，f_t为第二识别模型的提取特征函数。

基于上述相似度的描述，模型训练的指导过程可以这样理解：

由于第一图像样本图像和第二图像样本包含相同的目标对象，因此，第一识别模型训练效果的好坏可以通过两图像特征之间的相似度来体现。相似度越高，表明训练效果越好，第一识别模型越趋近收敛。所以，通过计算两个图像特征之间的相似度能够确定第一识别模型的模型参数的调整方向，也即是使第二识别模型起到了指导作用。

相比于直接根据第一图像特征进行参数调整，经过上述指导更能够保证模型训练的效果。并且第一图像样本中包含的关于目标对象的内容信息越少，比如第一样本图像的尺寸越小、分辨率越低、或者其中包含的目标对象越不完整，则上述的指导作用越明显。

另外，需要说明的有，当第二样本图像的尺寸或者分辨率高于第一图像样本时，可以认为在第一识别模型的训练过程中使用到了多尺寸的图像样本。当第二样本图像是包含完整的目标对象的图像时，可以认为第一识别模型的训练过程中使用到了全视角的图像样本。

上述的模型训练过程可以参见图2所示。

本实施例中，获取包含相同目标对象的第一图像样本以及第二图像样本，且第一图像样本包含的信息量少于或等于第二图像样本包含的信息量。分别将两图像样本输入第一识别模型和第二识别模型。根据两个识别模型各自提取出的图像特征，调整第一识别模型的模型参数，并将模型参数输出给用户。

由于第二样本图像中包含的内容量比第一图像样本丰富，因此，提取出的第二图像特征中也包含的关于目标对象的信息量也更丰富，第二图像特征能够更加准确、恰当反映目标对象。此时，可以使用第二图像特征对第一识别模型的特征提取能力进行指导，也即是使第二识别模型对第一识别模型训练过程起到指导作用，以保证第一识别模型的训练效果。

其中，可选地，第二识别模型可以是收敛的，并且与第二图像样本存在对应关系。因此，第二识别模型提取出的第二图像特征能够更加准确、恰当的描述目标对象。模型与样本图像之间的对应关系可以理解为：

假设第二图像样本是大尺寸、高分辨率的，则识别模型与图像样本的对应可以体现为第二识别模型对大尺寸、高分辨率的图像样本都能够进行准确识别。第二识别模型可以是根据大尺寸、高分辨率的图像样本训练得到的。若第二图像样本包含完整的目标对象，则上述的对应也可以进行类似理解。此时，第二识别模型是根据全视角的图像样本训练得到的。

上述实施例中已经提供了根据两个图像特征之间的相似度来调整模型参数的方式。为了进一步保证模型的训练效果，在步骤104之后，另一种可选地调整方式，可以根据第一识别模型输出的识别结果调整第一识别模型的参数。此时模型的训练过程可以参考图3所示。

在步骤104之后，又一种可选地调整方式，根据第一识别模型和第二识别模型各自输出的识别结果，调整第二识别模型的模型参数，从而保证模型的训练效果。此时模型的训练过程可以参考图4所示。

具体来说，可以采用以上公式实现根据两识别模型各种的识别结果调整模型参数：

其中，p为第二识别模型输出的识别概率矩阵，q为第一识别模型输出的识别概率矩阵，T为初始参数，其是一个超参数。

在实际应用中，在图1所示实施例提供的调整方式的基础上，上述两种调整方式也可以同时执行。

图1所示实施例中提及的通过人工选择的方式来获取两图像样本。然而在实际应用中，摄像头拍得视频的数量众多，也就使人工选择的工作量巨大。另一方面，由于视频中的一图像帧不仅包含目标对象通常还会包括环境背景，这些环境背景往往会对模型训练产生影响。因此，如图5所示，另一种可选地图像样本获取方式，该方式包括以下步骤：

S201，对获取到的多张原始图像进行目标检测。

S202，根据检测结果，筛选包含目标对象的图像。

S203，对筛选出的图像中目标对象所在的区域进行截取。

摄像头拍得的每段视频中的每帧图像都可以认为是原始图像。但容易理解的，并不是每张原始图像中都包含目标对象，因此，可以先对每张原始图像进行目标检测，从而根据检测结果从多张原始图像中筛选出包含目标对象的图像。并且原始图像中包含的目标对象的标识信息也是已知的。

其中，可以采用基于循环神经网络(Recurrent Neural Network,简称RNN)来实现目标检测，也可以采用现有技术中任一种成熟的目标检测算法，在此并不进行限定。

同时，在进行目标检测后，目标对象也会被框选出来，此时，还可以进一步按照此框选结果对步骤202中筛选出的图像进行截取，也即是将目标对象从图像中截取出来，将原始图像中的背景环境滤除，使得背景环境对应的图像区域不会参与到模型训练中。比如，截取出来的部分可以是原始图像中包含目标对象的最小外接矩形。

S204，由尺寸信息满足预设条件的截取结果，生成第一样本集合。

S205，由完整包含目标对象的截取结果，生成第二样本集合，第一图像样本和第二图像样本为第一样本集合或第二样本集合中的任一张图像。

容易理解的，对于出现在特定位置1的目标对象M来说，由于摄像头安装的位置不同，因此，在同一时刻目标对象M可以被多个摄像头拍到，并且在不同摄像头拍得的原始图像中，目标对象M的大小，分辨率以及是否包含完整的目标对象M也都各不不同。这也就使得步骤203得到的截取结果也是尺寸不同、分辨率不同的图像，截取结果中包含完整或者不完整的目标对象。

对于这些截取结果，可以由尺寸信息满足预设条件，即尺寸大于或等于预设尺寸的截取结果生成第一样本集合。第一样本集合中包含的是不同尺寸、高分辨率的目标对象的图像。还可以由完整包含目标对象的截取结果生成第二样本集合。第二样本集合包含的是全视角的目标对象的图像。

其中，图1所示实施例中的第一图像样本和第二样本图像均可以是第一图像集合或者第二样本集合中的任一张。但两个图像样本需要满足图1所示实施例中描述的条件。

本实施例中，可以通过目标检测自动生成两个样本集合。这样在第一识别模型训练的过程中，便可以直接从两个样本结合中自动选出第一图像样本和第二图像样本，再基于图1所示的方式进行后续的模型训练过程。相比于人工选择图像样本的方式，本实施例提供的样本自动获取方式，可以大大提高效率。另外，由于样本集合中的图像样本都不包含背景环境，而只包含目标对象，因此，背景环境与不会参与到模型训练的过程中，从而保证训练效果。

除此之外，为了丰富样本，保证识别模型的训练效果，还可以对步骤203的截取结果进行剪裁，并且剪裁结果需要保证要包含目标对象的至少一个完整的部位。

以目标对象为行人为例，将原始图像中行人所在的区域截取出来，即得到截取结果。再对此截取结果进行裁剪，比如可以将行人的裁剪为上半身、下半身，可以如图6a所示。又或者可以将行人的头部，身体、脚等部位单独裁剪出来，可以如图6b所示。

最终，还可以由步骤203的截取结果以及上述的剪裁结果共同构成第三样本集合。第一样本集合和第二样本集合都是第三样本集合的子集。此时，第一图像样本可以是第三样本集合中的任一张，第二图像样本可以是第一样本集合或第二样本集合中的任一张。

根据上述描述可知，图1所示实施例中描述的模型训练过程只单独使用到了多尺寸或者全角度的图像样本。而在实际应用中，为了保证模型训练效果，还可以将二者结合使用。比如可以先使用不同尺寸的图像样本调整模型参数，再使用全视角的图像样本调整模型参数。

则图7为本发明实施例提供的另一种模型训练方法的流程图，如图7所示，在图1所示实施例步骤105之前，该方法还包括如下步骤：

S301，接收包含目标对象的第三图像样本，第一图像样本包含的信息量不超过第三图像样本包含的信息量，第三图像样本为第一样本集合或第二样本集合中的任一张图像，且第三样本图像与第二图像样本属于不同的样本集合。

S302，将第三图像样本输入第三识别模型，以获得第三图像样本的第三图像特征。

S303，根据第三图像特征和第一图像特征，调整第一识别模型的模型参数。

具体来说，接收第三图像样本，第三图像样本可以为第一样本集合和第二样本集合中的任一张，并且第三图像样本需要与第二图像样本来自于不同的样本集合。也就是说，若第二样本图像为大尺寸、高分辨率的包含目标对象的图像，则第三样本图像为包含完整目标对象的图像，反之也如此。

然后，将第三样本图像以及标识信息输入第三识别模型，以由第三识别模型提取第三样本图像的第三图像特征，此第三图像特征能够反映目标对象的全局特征。最终，还可以根据第三图像特征和第一图像特征之间的相似度来调整第一识别模型的模型参数，并将调整后的模型参数输出给用户。

其中，可选地，第三识别模型的特征提取能力同样高于第一识别模型。可选地，与第二识别模型类型的第三识别模型通常是收敛的，并且第三识别模型可以与第三图像样本对应。假设第三图像样本是完整包含目标对象的图像，则识别模型与图像样本的对应可以体现为第三识别模型对完整包含目标对象的、全视角的图像样本都能够进行准确识别。第三识别模型可以是根据全视角图像样本训练得到的。

若第一图像样本中没有包含完整的目标对象，则第一图像特征只能反映目标对象的局部特征，则相比于直接使用第一图像特征进行参数调整，由于第三图像特征能够体现目标对象的全局特征，且全局特征又能够准确的反映目标对象的标识信息，因此，根据全局特征确定第一识别模型的模型参数的调整方向，也即是使第三识别模型起到了模型训练的指导作用。

另外，本实施例中未详细描述的内容可以参见图1～图2所示实施例中的相关描述，在此不再赘述。本实施例中模型的训练过程可以如图8所示。

本实施例中，分别使用不同尺寸、全视角的图像样本对第一识别模型进行训练，使已经收敛的第二识别模型和第三识别模型在模型训练过程中起到指导作用，从而保证第一识别模型的训练效果。

可选地，步骤303之后，还可以根据第一识别模型输出的识别结果，调整第一识别模型的模型参数。此时的训练过程可以如图9所示。

可选地，步骤303之后，还可以根据第三识别模型和第一识别模型各自输出的识别结果，调整第一识别模型的模型参数。具体内容与参见图4所示实施例中的相关内容类似，在此不再赘述。此时的训练过程可以图10所示。

可选地，还可以根据根据第二识别模型和第一识别模型各自输出的识别结果，调整第一识别模型的模型参数。此时的训练过程与图10所示内容类似。

可选地，还可以根据三个识别模型各自输出的图像特征以及各自输出的识别结果调整第一识别模型的模型参数。此时的训练过程可以如图11所示。

可选地，也可以单独根据三个识别模型各自输出的识别结果进行参数调整。具体可以采用以下公式来实现：

其中，L_cls为根据第一识别模型的识别结果计算出的损失值，

为根据第一、第二识别模型各自的识别结果计算出的损失值，

为根据第一、第三识别模型各自的识别结果计算出的损失值。

各自的表示形式可以参见图4所示实施例中的相关描述。

需要说明的有，除了图7所示实施例的方法，也可以先使用全视角的图像样本进行参数调整，再使用不同尺寸的图像样本进行模型参数的调整。则图12为本发明实施例提供的又一种模型训练方法的流程图，如图12所示，其中各步骤的具体实现方式可以参见图1、图7所示实施例中的相关描述。

综上所述，对于第一识别模型的训练，可选地，可以单独使用多尺寸或者全视角的第一、第二图像样本，如图1所示的实施例。此时，可以使用第一、第二识别模型提取出的图像特征调整模型参数，正如图2所示的过程；也可以使用两模型图像特征以及第一识别模型自身输出的识别结果调整模型参数，正如图3所示的过程；又可以同时根据通过第一、第二识别模型得到的图像特征以及识别结果调整模型参数，正如图4所示的过程。

可选地，还可以通过同时使用多尺寸以及全视角的第一图像样本至第三图像样本来训练第一识别模型，如图7或图12所示的实施例。此时，可以根据三个识别模型提取出的图像特征调整模型参数，正如图8所示的过程；还可以根据三个识别模型提取出的图像特征以及第一识别模型的识别结果调整模型参数，正如图9所示的过程；又可以同时根据三个模型得到的图像特征以及识别结果调整模型参数，正如图11所示的过程。

根据上述各实施例的描述可知，服务平台上利用可以上述的模型训练方法为用户提供模型训练服务。但抛开软件服务场景，本发明也可以单独提供一种模型训练方法。则图13为本发明实施例提供的又一种模型训练方法的流程图，该模型训练方法可以由识别设备来执行。可以理解的是，该识别设备可以实现为软件、或者软件和硬件的组合。如图13所示，该方法包括如下步骤：

S401，获取包含相同目标对象的第一图像样本和第二图像样本，第一图像样本包含的信息量不超过第二图像样本包含的信息量。

S402，将第一图像样本输入第一识别模型，以获得第一图像样本的第一图像特征。

S403，将第二图像样本输入第二识别模型，以获得第二图像样本的第二图像特征。

S404，根据第一图像特征和第二图像特征，调整第一识别模型的模型参数。

本实施例中未详细描述的部分，可参考对图1～图12所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1～图12所示实施例中的描述，在此不再赘述。

在图1～12所示实施例中，是由服务平台为用户提供一种模型训练服务，在这种场景下，图14为本发明实施例提供的又一种模型训练方法的流程图。如图14所示，该方法包括如下步骤：

S501，响应于用户触发的输入操作，获取模型训练对应的要求信息。

S502，获取对应于要求信息的第一识别模型。

用户可以在识别设备即服务平台提供的交互界面上触发输入操作，以使识别设备获取识别模型训练对应的要求信息。其中，可选地，要求信息可以包括第一识别模型的类型，也可以包括在此类型下识别模型的初始模型参数。

然后，可以根据用户输入的要求信息得到对应的第一识别模型，此模型是一个初始模型。

具体来说，当用户输入的要求信息中包含模型类型时，则识别设备可以自动生成模型的初始模型参数，并以此为基础进行后续训练。当用户同时输入模型类型以及模型初始参数时，则识别设备就会以用户输入的初始参数为准进行模型训练。

S503，获取包含相同目标对象的第一图像样本和第二图像样本，第一图像样本包含的信息量不超过第二图像样本包含的信息量。

S504，将第一图像样本输入第一识别模型，以获得第一图像样本的第一图像特征。

S505，将第二图像样本输入第二识别模型，以获得第二图像样本的第二图像特征。

S506，根据第一图像特征和第二图像特征，调整第一识别模型的模型参数。

S507，输出第一识别模型的模型参数。

另外，在第一识别模型的模型参数展示给用户后，若不满意训练结果，则用户还可以进一步在识别设备提供的交互界面上触发重新训练操作，或者在交互界面上重新设置要求信息，以重新训练第一识别模型。交互界面可以如图15所示。

为了便于理解，假设训练出的第一识别模型应用于对行人识别场景，即目标对象是行人，则可以对模型训练方法进行描述。

用户可以先收集一定时间段内摄像头拍得的多段视频，并对其中每帧图像中的行人进行截取，还可以进一步对截取结果进行剪裁，以得到剪裁结果。根据截取结果和剪裁结果可以生成不同的样本集合。具体来说，将截取结果中尺寸以及分辨率大于预设阈值的划分至第一样本集合中；将截取结果中包含完整行人、全视角的图像划分至第二样本集合中；所有的剪裁结果和截取结果可以共同组成第三样本集合。当然样本集合中每张图像中包含的行人的标识信息也可以预先获得。

然后，根据第一样本集合中的图像以及图像中行人的标识信息，训练第二识别模型，以使第二识别模型具有较好的特征提取能力以及识别能力，特别是对大尺寸、高分辨率的图像具有较好的识别能力。

同时，还可以根据第二样本集合中的图像以及图像中行人的标识信息，训练第三识别模型，以使第三识别模型具有较好的特征提取能力以及识别能力，特别是对全视角的图像具有较好的识别能力，第三识别模型能够提取出的是行人对应的全局特征。

接着，基于上述经过训练的第二识别模型，则可以开始训练第一识别模型。其中，第三样本集合中的每张图像都可以作为输入第一识别模型的样本图像，即上述的第一图像样本。具体来说，先从第三样本集合中获取第一图像样本，从第一样本集合中获取第二图像样本。再将第一图像样本输入第一识别模型，以由此模型提取出第一图像样本的第一图像特征；将第二图像样本输入第二识别模型中，以由此模型提取出第二图像样本的第二图像特征。

进而，根据第一图像特征和第二图像特征调整第一识别模型的模型参数，并将此参数输出给用户，从而使第二识别模型起到对第一识别模型的指导作用。可选地，一种常见的方式，待第一识别模型收敛后，才将模型参数输出给用户。

可选地，为了保证第一识别模型的训练效果，在根据第一、第二图像特征调整模型参数的基础上，还可以根据第一识别模型输出识别结果，或者根据两识别模型各自输出的识别结果调整模型参数，具体训练过程可以参见上述图1～图4所示的方式。

可选地，为了保证第一识别模型的训练效果，基于上述训练的第三识别模型，还可以再从第二样本集合中获取第三图像样本，将第三图像样本输入第三识别模型，以由此模型提取第三图像样本的第三图像特征。根据第三图像特征以及第一图像特征进一步调整第一识别模型的参数，从而使第三识别模型也起到对第一识别模型的指导作用。具体训练过程可以参见上述图8所示的方式。

可选地，还可以根据第一、第三识别模型各自输出的识别结果调整模型参数。具体训练过程可以参见上述图9～图11所示的方式。

则通过上述方式完成第一识别模型的训练后，第一识别模型的具体工作过程可以为：

用户先将包含行人A的待识别图像输入第一识别模型，第一识别模型中可以提取出待识别图像对应的待识别图像特征。然后，再将此待识别图像特征与特征库中的图像特征比对。其中，可以采用以下方式得到特征库，先对包含对象，即行人的历史图像进行特征提取，以得到的图像特征，且历史图像中包含的行人的标识信息是已知的，图像特征也关联有与此行人相同的标识信息，可以由这些关联有标识信息的图像特征构成特征库。

最终，从特征库中确定与待识别图像特征具有最高相似度的目标图像特征，此目标图像特征具有的标识信息也即是待识别图像中行人A的标识信息，从而完成了行人A的标识信息的确定。上述内容可以结合图16进行理解。

需要说明的有，上述各实施例中，训练出的识别模型可以用于识别图像中目标对象的标识信息。在实际应用中，也可以识别模型也可以适用于语音或者文本，即模型训练的样本就由图像变为音频数据或者文本数据。此时，同样可以按照上述方式进行模型训练，从而实现比如在人机对话场景中，智能机器人能够通过用户产生的语音指令确定用户的身份。

以下将详细描述本发明的一个或多个实施例的模型训练装置。本领域技术人员可以理解，这些模型训练装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图17为本发明实施例提供的一种模型训练装置的结构示意图，如图17所示，该装置包括：

接收模块11，用于接收包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量。

第一输入模块12，用于将所述第一图像样本输入第一识别模型，以获得所述第一图像样本的第一图像特征。

第二输入模块13，用于将所述第二图像样本输入第二识别模型，以获得所述第二图像样本的第二图像特征。

调整模块14，用于根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数。

输出模块15，用于输出所述第一识别模型的模型参数。

可选地，所述第二识别模型对应于所述第二图像样本，所述第二识别模型为训练至收敛的。

所述调整模块14，具体用于：根据所述第一图像特征和所述第二图像特征之间的相似度，调整所述第一识别模型的模型参数。

可选地，所述调整模块14，具体还用于：根据所述第一识别模型和所述第二识别模型各自输出的识别结果，调整所述第一识别模型的模型参数。

可选地，所述装置还包括：

检测模块21，用于对获取到的多张原始图像进行目标检测。

筛选模块22，用于根据检测结果，筛选包含所述目标对象的图像。

截取模块23，用于对筛选出的图像中所述目标对象所在的区域进行截取。

生成模块24，用于由尺寸信息和/或分辨率满足预设条件的截取结果，生成所述第一样本集合；以及由完整包含所述目标对象的截取结果，生成所述第二样本集合，所述第一图像样本和所述第二图像样本为所述第一样本集合或所述第二样本集合中的任一张图像。

可选地，所述装置还包括：剪裁模块25，用于剪裁所述截取结果，剪裁结果中包含所述目标对象的至少一个完整的部位。

所述生成模块24，还用于由所述剪裁结果和所述截取结果，生成第三样本集合，所述第一图像样本为所述第三样本集合中的任一张图像。

可选地，所述接收模块11，还用于：接收所述包含所述目标对象的第三图像样本，所述第一图像样本包含的信息量不超过第三图像样本包含的信息量，所述第三图像样本为所述第一样本集合或所述第二样本集合中的任一张图像，且所述第三样本图像与所述第二图像样本属于不同的样本集合。

所述装置还包括：第三输入模块26，用于将所述第三图像样本输入第三识别模型，以获得所述第三图像样本的第三图像特征。

所述调整模块14，用于根据所述第三识别模型和所述第一识别模型各自提取的图像特征，调整所述第一识别模型的模型参数。

可选地，所述第三识别模型对应于所述第三图像样本，所述第三识别模型为训练至收敛的。

所述调整模块14，还用于根据所述第三识别模型和所述第一识别模型各自输出的识别结果，调整所述第一目标识别对象模型的模型参数。

图17所示装置可以执行图1至图12所示实施例的方法，本实施例未详细描述的部分，可参考对图1至图12所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图12所示实施例中的描述，在此不再赘述。

以上描述了模型训练装置的内部功能和结构，在一个可能的设计中，模型训练装置的结构可实现为一电子设备，比如服务器，如图18所示，该电子设备可以包括：处理器31和存储器32。其中，所述存储器32用于存储支持该电子设备执行上述图1至图12所示实施例中提供的模型训练方法的程序，所述处理器31被配置为用于执行所述存储器32中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器31执行时能够实现如下步骤：

输出所述第一识别模型的模型参数。

可选地，所述处理器31还用于执行前述图1至图12所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口33，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图1至图12所示方法实施例中模型训练方法所涉及的程序。

图19为本发明实施例提供的另一种模型训练装置的结构示意图，如图19所示，该装置包括：

获取模块41，用于获取包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量。

第一输入模块42，用于将所述第一图像样本输入第一识别模型，以获得所述第一图像样本的第一图像特征。

第二输入模块43，用于将所述第二图像样本输入第二识别模型，以获得所述第二图像样本的图像特征。

调整模块44，用于根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数。

图19所示装置可以执行图13所示实施例的方法，本实施例未详细描述的部分，可参考对图13所示实施例的相关说明。该技术方案的执行过程和技术效果参见图13所示实施例中的描述，在此不再赘述。

以上描述了模型训练装置的内部功能和结构，在一个可能的设计中，模型训练装置的结构可实现为一电子设备，比如服务器，如图20所示，该电子设备可以包括：处理器51和存储器52。其中，所述存储器52用于存储支持该电子设备执行上述图13所示实施例中提供的模型训练方法的程序，所述处理器51被配置为用于执行所述存储器52中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器51执行时能够实现如下步骤：

可选地，所述处理器51还用于执行前述图13所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口53，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图13所示方法实施例中模型训练方法所涉及的程序。

图21为本发明实施例提供的又一种模型训练装置的结构示意图，如图21所示，该装置包括：

第一获取模块61，用于响应于用户触发的输入操作，获取模型训练对应的要求信息；以及获取对应于所述要求信息的第一识别模型。

第二获取模块62，用于获取包含相同目标对象的第一图像样本和第二图像样本，所述第一图像样本包含的信息量不超过第二图像样本包含的信息量。

第一输入模块63，用于将所述第一图像样本输入第一识别模型，以获得所述第一图像样本的第一图像特征。

第二输入模块64，用于将所述第二图像样本输入第二识别模型，以获得所述第二图像样本的第二图像特征。

调整模块65，用于根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数。

输出模块66，用于输出所述第一识别模型的模型参数。

图21所示装置可以执行图14至图15所示实施例的方法，本实施例未详细描述的部分，可参考对图14至图15所示实施例的相关说明。该技术方案的执行过程和技术效果参见图14至图15所示实施例中的描述，在此不再赘述。

以上描述了模型训练装置的内部功能和结构，在一个可能的设计中，模型训练装置的结构可实现为一电子设备，比如服务器，如图22所示，该电子设备可以包括：处理器71和存储器72。其中，所述存储器72用于存储支持该电子设备执行上述图14至图15所示实施例中提供的模型训练方法的程序，所述处理器51被配置为用于执行所述存储器72中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器71执行时能够实现如下步骤：

获取对应于所述要求信息的第一识别模型；

输出所述第一识别模型的模型参数。

可选地，所述处理器71还用于执行前述图14至图15所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口73，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图14至图15所示方法实施例中模型训练方法所涉及的程序。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

输出所述第一识别模型的模型参数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像特征和所述第二图像特征，调整所述第一识别模型的模型参数，包括：

根据所述第一图像特征和所述第二图像特征之间的相似度，调整所述第一识别模型的模型参数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一识别模型和所述第二识别模型各自输出的识别结果，调整所述第一识别模型的模型参数。

4.根据权利要求1所述的方法，其特征在于，所述第二识别模型对应于所述第二图像样本，所述第二识别模型为训练至收敛的。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对获取到的多张原始图像进行目标检测；

根据检测结果，筛选包含所述目标对象的图像；

对筛选出的图像中所述目标对象所在的区域进行截取；

由尺寸信息和/或分辨率满足预设条件的截取结果，生成所述第一样本集合；

由完整包含所述目标对象的截取结果，生成所述第二样本集合，所述第一图像样本和所述第二图像样本为所述第一样本集合或所述第二样本集合中的任一张图像。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

剪裁所述截取结果，剪裁结果中包含所述目标对象的至少一个完整的部位；

由所述剪裁结果和所述截取结果，生成第三样本集合，所述第一图像样本为所述第三样本集合中的任一张图像。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取包含所述目标对象的第三图像样本，所述第一图像样本包含的信息内容不超过第三图像样本包含的信息内容，所述第三图像样本为所述第一样本集合或所述第二样本集合中的任一张图像，且所述第三样本图像与所述第二图像样本属于不同的样本集合；

将所述第三图像样本输入第三识别模型，以获得所述第三图像样本的第三图像特征；

根据所述第三图像特征和所述第一图像特征，调整所述第一识别模型的模型参数。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述第三识别模型和所述第一识别模型各自输出的识别结果，调整所述第一目标识别对象模型的模型参数。

9.根据权利要求7所述的方法，其特征在于，所述第三识别模型对应于所述第三图像样本，所述第三识别模型为训练至收敛的。

10.一种模型训练方法，其特征在于，包括：

11.一种模型训练方法，其特征在于，包括：

获取对应于所述要求信息的第一识别模型；

输出所述第一识别模型的模型参数。

12.一种模型训练装置，其特征在于，包括：

输出模块，用于输出所述第一识别模型的模型参数。

13.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的模型训练方法。

14.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的模型训练方法。

15.一种模型训练装置，其特征在于，包括：

16.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求10所述的模型训练方法。

17.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求10所述的模型训练方法。

18.一种模型训练装置，其特征在于，包括：

输出模块，用于输出所述第一识别模型的模型参数。

19.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求11所述的模型训练方法。

20.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求11所述的模型训练方法。