CN111401192B

CN111401192B - 基于人工智能的模型训练方法和相关装置

Info

Publication number: CN111401192B
Application number: CN202010162183.2A
Authority: CN
Inventors: 宋奕兵
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-07-18
Anticipated expiration: 2040-03-10
Also published as: CN111401192A

Abstract

本申请实施例公开了基于人工智能的模型训练方法和相关装置，针对用于目标跟踪的识别网络模型的训练过程中，采用目标图像和训练图像进行训练，得到训练图像对应的第一识别结果，其体现对训练图像中目标对象的预测位置。基于所述训练图像的标签确定第一识别结果中针对目标对象的差异信息，并根据差异信息生成用于标识目标对象的形态变化的变换参数，通过变换参数调整训练图像对应的特征数据，可以使得调整后的特征数据实现模拟目标对象的上述形态变化。识别网络模型可以针对调整后的特征数据得到第二识别结果，并根据第二识别结果与训练图像的标签对识别网络模型的参数进行更新，提高了识别网络模型的对待识别对象形态变化的鲁棒性。

Description

基于人工智能的模型训练方法和相关装置

技术领域

本申请涉及人工智能领域，特别是涉及基于人工智能的模型训练方法和相关装置。

背景技术

目标跟踪是一种神经网络模型应用的典型场景，通过神经网络模型可以实现识别视频帧中目标的位置，并基于各视频帧的目标识别结果，实现在视频中对该目标进行跟踪。

一种目标跟踪场景是无预定义目标的情况，例如安防中对可疑危险目标的跟踪，广告植入中对候选广告位的跟踪等。

在这种目标跟踪场景中，神经网络模型在跟踪一个目标之前难以获知该目标的一切信息，当目标在跟踪过程中发生明显的形态变化时，会很容易出现分辨不出目标而导致跟踪失败的情况。

发明内容

为了解决上述技术问题，本申请提供了基于人工智能的模型训练方法和相关装置，提高了识别网络模型对待识别对象形态变化的鲁棒性。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种模型训练方法，所述方法包括：

根据标识目标对象的目标图像和包括所述目标对象的训练图像训练识别网络模型，得到所述训练图像对应的第一识别结果，所述第一识别结果用于标识对所述训练图像中所述目标对象的预测位置；

根据所述训练图像的标签确定所述第一识别结果中针对所述目标对象的差异信息；

根据所述差异信息生成用于标识所述目标对象的形态变化的变换参数；

通过所述变换参数调整所述训练图像对应的特征数据，调整后的所述特征数据用于模拟所述目标对象的所述形态变化；

通过所述识别网络模型得到第二识别结果，所述第二识别结果用于标识基于调整后的所述特征数据对所述训练图像中所述目标对象的预测位置；

根据所述第二识别结果与所述训练图像的标签对所述识别网络模型的参数进行更新。

另一方面，本申请实施例提供了一种模型训练方法的装置，所述装置包括训练单元，确定单元，生成单元，调整单元和更新单元：

所述训练单元，用于根据标识目标对象的目标图像和包括所述目标对象的训练图像训练识别网络模型，得到所述训练图像对应的第一识别结果，所述第一识别结果用于标识对所述训练图像中所述目标对象的预测位置；

所述确定单元，用于根据所述训练图像的标签确定所述第一识别结果中针对所述目标对象的差异信息；

所述生成单元，用于根据所述差异信息生成用于标识所述目标对象的形态变化的变换参数；

所述调整单元，用于通过所述变换参数调整所述训练图像对应的特征数据，调整后的所述特征数据用于模拟所述目标对象的所述形态变化；

所述训练单元，还用于通过所述识别网络模型得到第二识别结果，所述第二识别结果用于标识基于调整后的所述特征数据对所述训练图像中所述目标对象的预测位置；

所述更新单元，用于根据所述第二识别结果与所述训练图像的标签对所述识别网络模型的参数进行更新。

另一方面，本申请实施例提供了一种用于模型训练的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

由上述技术方案可以看出，在针对用于目标跟踪的识别网络模型的训练过程中，采用目标图像和训练图像进行训练，由于目标图像标识了需被跟踪的目标对象，训练图像中包含有目标对象，故识别网络模型可以得到训练图像对应的第一识别结果，其体现对训练图像中目标对象的预测位置。基于所述训练图像的标签确定第一识别结果中针对目标对象的差异信息，并根据差异信息生成用于标识目标对象的形态变化的变换参数，通过变换参数调整训练图像对应的特征数据，可以使得调整后的特征数据实现模拟目标对象的上述形态变化。识别网络模型可以针对调整后的特征数据得到第二识别结果，并根据第二识别结果与训练图像的标签对识别网络模型的参数进行更新。由于调整后的特征数据中模拟了目标对象的形态变化，相当于在训练过程中针对任意一个训练图像增加了形式变化的多样性。以此方式训练识别网络模型，可以有效提高识别网络模型对待识别对象在形态变化的注意程度，提高了识别网络模型的对待识别对象形态变化的鲁棒性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的应用场景示意图；

图2为本申请实施例提供的一种模型训练方法的流程示意图；

图3为本申请实施例提供的另一种模型训练方法的应用场景示意图；

图4为本申请实施例提供的一种生成网络模型的结构示意图；

图5为本申请实施例提供的另一种模型训练方法的应用场景示意图；

图6为本申请实施例提供的一种模型训练装置的结构示意图；

图7为本申请实施例提供的服务器的结构示意图；

图8为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了提高网络模型对待识别对象形态变化的鲁棒性，本申请实施例提供了一种基于人工智能的模型训练方法，该方法利用变换参数调整与训练图像对应的特征数据，将调整后的特征数据用于模型训练，增加了训练过程中待识别对象的多样性，从而提高了识别网络模型对待识别对象形态变化的鲁棒性。

本申请实施例提供的模型训练方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、机器学习/深度学习等方向。

例如可以涉及计算机视觉(Computer Vision)中的图像处理(ImageProcessing)、图像语义理解(Image Semantic Understanding，ISU)、视频处理(videoprocessing)、视频语义理解(video semantic understanding，VSU)、人脸识别(facerecognition)等。

例如可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(artificial neural network)。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的模型训练方法进行介绍。

本申请提供的模型训练方法可以应用于具有处理能力的数据处理设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理(PersonalDigital Assistant，PDA)、平板电脑等；服务器具体可以为独立服务器，也可以为集群服务器。

该数据处理设备可以具备实施计算机视觉技术的能力，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，数据处理设备可以通过计算机视觉技术对视频不同视频帧中的不同对象进行识别、检测和跟踪。

该数据处理设备可以具备机器学习(Machine Learning,ML)能力。ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

本申请实施例提供的模型训练方法主要涉及对各类人工神经网络的应用。

为了便于理解，结合图1，以安防系统中对可疑危险目标的跟踪应用场景作为示例，对本申请实施例提供的模型训练方法的应用场景进行介绍。在图1所示的安防系统中，包括服务器101、摄像头102、以及显示屏103。

其中，摄像头102可以用于针对某一小区的大门区域拍摄视频，并将视频通过网络上传至服务器101。服务器101中部署有预先构建的识别网络模型，通过对该识别网络模型进行训练，训练后的识别网络模型可以用于对视频的视频帧中的可疑危险目标进行跟踪，并将该跟踪结果传至显示屏103。显示屏103用于显示服务器101利用识别网络模型对视频的跟踪结果。其中，神经网络模型可以是卷积神经网络模型、孪生网络模型等。在本申请后续实施例中主要以孪生网络模型作为示例进行说明。

在应用过程中，利用摄像头102拍摄视频，并上传给服务器101。服务器101可以利用存储器保存该视频，在模型训练时，可以利用处理对该视频中的视频帧进行提取和标注，获取用于训练的目标图像和训练图像。其中，目标图像中包括目标对象和该目标对象的标签，训练图像中包括该目标对象。

如图1所示的应用场景中，可以将视频深夜时间段对应的视频帧提取出来，若该段时间对应的视频帧中出现了某位可疑危险对象，可以将该可疑危险对象选做目标对象，则可以将该目标对象首次出现的视频帧作为目标图像，并将该目标对象随后出现的多个视频帧中的一个视频帧作为训练图像，且将该目标对象在视频帧中所在位置标注出来作为标签，用于对识别网络模型的训练。

在获取到目标图像和训练图像后，可以利用服务器101中的处理器将目标图像和训练图像作为输入，对预构建的识别网络模型进行训练，得到与训练图像对应的第一识别结果。其中，第一识别结果是识别网络模型根据目标图像中标识的目标对象，对训练图像进行识别，对目标对象在训练图像中的预测位置。在实际应用中，识别结果可以用响应图、概率图等不同的形式表示，在此不做限定。

在图1所示的应用场景中，将目标图像x和训练图像z输入到识别网络模型中，通过恒等变换后，对/>和/>做相关处理，得到第一识别结果y₁，该第一识别结果y₁标识了目标对象x在训练图像z中的预测位置。其中，第一识别结果y₁的表现形式为三维的预测响应图，预测响应图中高低不同的响应点表征对应训练图像中该位置的点是目标对象的可能性大小，例如，响应图中的波峰表征训练图像中该波峰所对应位置的点是目标对象的可能性最大。

由于目标图像中标识了需要被跟踪的目标对象，因此，识别网络模型可以将目标图像作为跟踪模板，对训练图像进行识别和检测，获取包括目标对象在训练图像中的预测位置作为第一识别结果。

服务器101可以利用处理器根据训练图像的标签确定上述第一识别结果中针对目标对象的差异信息。其中，训练图像的标签用于标识目标对象在训练图像中的实际位置。因此，差异信息可以理解为目标对象的预测位置相对于训练图像中的实际位置的差异。

服务器101可以利用处理器根据上述差异信息生成用于标识目标对象形态变化的变换参数。其中，变换参数用于表示目标图像中标识的目标图像与第一识别结果中预测的目标对象之间形态特征的变换过程。在实际应用过程中，可以通过不同的方式获取不同形式的变换参数。

服务器101可以利用处理器通过上述变换参数调整训练图像中对应的特征数据，调整后的特征数据模拟目标对象在训练图像中发生的形态变化。也就是说，利用变换参数对训练图像中与目标对象对应的特征数据进行调整，将训练图像中目标对象形态变化的信息融入调整后的特征数据中。

基于上述，服务器101可以利用处理器将调整后的特征数据继续用于训练识别网络模型，获得对应的第二识别结果，从而根据该第二识别结果与上述训练图像的标签对识别网络模型的参数进行更新。其中，第二识别结果用于标识调整后的特征数据对训练图像中目标对象的预测位置。

在图1所示的应用场景中，服务器101可以利用处理器根据训练图像的标签确定上述第一识别结果y₁中针对目标对象的差异信息，该差异信息体现了识别网络模型对于训练图像中目标对象的预测位置与实际位置之间的差异。然后，利用基于深度学习中的生成网络模型，以差异信息作为输入，输出变换矩阵作为目标对象形态变化的变换参数。进而，根据变换参数，对利用识别网络模型获得训练图像的中间层在正向传播时输出的特征数据进行调整，得到调整后的特征数据，用于获取第二次识别结果y₂。从而，根据第二次识别结果y₂对网络识别模型的参数进行更新。

由于调整后的特征数据模拟了目标对象的形态变化，因此，增加该调整后的特征数据用于识别网络模型的训练，增加了针对待识别对象形态变化的多样性，提高识别网络模型对待识别对象在形态变化的注意程度，提高了识别网络模型的对待识别对象形态变化的鲁棒性。

服务器101通过执行上述实施例提供的模型训练方法对识别网络模型进行训练后，可以利用训练好的识别网络模型对摄像头102上传的视频进行识别、检测和跟踪，对视频中的可疑危险对象识别、检测、跟踪出来后，可以将跟踪结果通过网络传至显示屏103并展示给相关人员，以便保证小区的安全。

下面结合上述应用场景对本申请实施例提供的模型训练方法进行介绍。

参见图2，图2为本申请实施例提供的一种模型训练方法的流程示意图。为了便于描述，后续实施例中主要以服务器作为执行主体，对本申请实施例提供的模型训练方法进行介绍。在图2所示的方法中，包括以下步骤：

S201:根据标识目标对象的目标图像和包括所述目标对象的训练图像训练识别网络模型，得到所述训练图像对应的第一识别结果。

以前述在安防系统中对可疑危险目标进行跟踪为例，服务器101可以获取来自摄像头102拍摄的视频，并利用内部处理器对该视频中的视频帧进行提取和标注，获取用于识别网络模型训练的目标图像和训练图像。

在模型训练过程中，服务器可以利用处理器将获取的目标图像和训练图像作为输入，对识别网络模型进行训练。其中，目标图像用于标识目标对象，训练图像中包括有该目标对象。目标对象可以是任意具有一定形态的事物，例如，汽车、人等。识别网络模型是预先部署在服务器中的，该识别网络模型可以是各种人工神经网络，例如，生成对抗网络、孪生网络等。第一识别结果标识了目标对象在训练图像中的预测位置。在应用过程中，第一识别结果可以有不同的表达形式，例如，响应图、概率图等。在实际应用中，可以根据不同的应用场景设定识别网络模型和第一识别结果的表达形式，在此不做任何限定。

在图3中，识别网络模型为更深更广泛的孪生神经网络(Deeper and WiderSiamese Networks,SiamDW)，SiamDW通过输入图片对(目标图像x和训练图像z)，逐层提取特征，进行相关操作后，输出预测响应图作为第一识别结果y1。预测响应图中的响应点标识了训练图像中所对应位置是目标对象的可能性大小。预测响应图中的波峰标识了训练图像中所对应位置是目标对象的可能性最大；预测响应图中的波谷标识了训练图像中所对应位置是目标对象的可能性最小。

需要说明的是，目标图像和训练图像的大小可以相同，也可以不同。如图3所示，目标图像x为127*127*3的RGB图像，即目标图像x的尺寸为127*127，通道数为3；训练图像z为255*255*3的RGB图像，即训练图像z的尺寸为255*255，通道数为3。在此不对目标图像x和训练图像z的大小做任何限定。

由于目标图像中标识有目标对象，因此，识别网络模型可以将目标图像作为识别模板，对训练图像进行校验，校验训练图像中的目标对象，并对训练图像中的目标对象所在位置进行预测，从而得到第一识别结果。

S202:根据所述训练图像的标签确定所述第一识别结果中针对所述目标对象的差异信息。

在上述安防系统的应用场景中，服务器101利用处理器通过识别网络模型对训练图像进行识别获取到该训练图像对应的第一识别结果后，可以根据训练图像的标签确定出该第一识别结果中针对目标对象的差异信息。

由于第一识别结果标识了训练图像中目标对象的预测位置，训练图像的标签标识了训练图像中目标对象的实际位置，因此，可以根据训练图像的标签和该第一识别结果，确定针对目标对象的差异信息。其中，差异信息标识了训练图像的标签和第一识别结果针对目标对象的差异。也就是说，差异信息体现了识别网络模型对训练图像中目标对象的预测位置与实际位置之间的差异。

在一种可能的实现方式中，可以根据训练图像的标签标识的目标对象的实际位置，从第一识别结果中提取对应实际位置的识别数据，将识别数据作为差异信息。

其中，训练图像的标签标识的目标对象的实际位置所对应的特征点可以看作是训练图像中的正样本点。以该提取出的识别数据作为差异信息，从目标对象在训练图像中实际位置的角度，体现了识别网络模型针对目标对象的分辨能力。差异信息与训练图像的标签标识的目标对象的实际位置吻合程度较高时，表明识别网络模型分辨目标对象的能力较强；差异信息与训练图像的标签标识的目标对象的实际位置吻合程度较低时，表明识别网络模型分辨目标对象的能力较弱。

在另一种可能的实现方式中，可以通过确定第一识别结果相对于训练图像的标签的第一损失信息，并将该第一损失信息作为差异信息。

其中，第一损失信息用于标识识别网络模型对于目标对象在训练图像中的预测位置和实际位置之间的误差，以该第一损失信息作为差异信息体现了识别网络模型针对目标对象的分辨能力。识别网络模型对于目标对象在训练图像中的预测位置与实际位置之间的误差较小时，识别网路模型分辨目标对象的能力较强；识别网络模型对于目标对象在训练图像中的预测位置与实际位置之间的误差较大时，识别网路模型分辨目标对象的能力较弱。

S203:根据所述差异信息生成用于标识所述目标对象的形态变化的变换参数。

延续上述安防系统的应用场景，服务器101利用处理器确定出差异信息后，可以根据该差异信息生成用于标识目标对象的形态变化的变换参数。

由于差异信息体现了目标对象在训练图像中的预测位置与实际位置之间的差异，也就是说，差异信息携带有目标图像中目标对象与训练图像中目标对象间的形态变化信息，因此，根据该差异信息生成的变换参数体现了目标对象相对于训练图像中形态的变化。

其中，变换参数可以有不同的表达形式，例如，变换参数可以是以差异信息作为自变量的函数，也可以基于深度学习中的生成网络模型，以差异信息作为输入，输出转换矩阵作为该变换参数等，在此不对变换参数的具体表示形式做任何限定。在实际应用中，变换参数可以根据不同的应用场景、不同的需求确定其具体表示形式，在此不做限定。

在一种可能的实现方式中，可以根据差异信息确定贡献信息，然后，根据该贡献信息，通过生成网络模型生成变换参数。

其中，贡献信息用于标识训练图像中特征点对预测差异信息的贡献程度。贡献信息从特征点的贡献角度，体现出识别网络模型在识别训练图像中的目标对象时，所造成上述差异(通过差异信息体现)是由那些特征点的贡献得到的。在一种可能的实现方式中，可以将差异信息在识别网络模型中进行反向传播，通过中间层的输出确定所述贡献信息。其中，可以通过差异信息对识别网络模型的输入数据求偏导的方式实现上述反向传播过程，从而确定出识别网络模型中间层对应的贡献信息。

如图3所示，在确定贡献信息的过程中，将差异信息对该识别网络模型的输入数据(目标图像x和训练图像z)求偏导，获得该识别网络模型在第k层的偏导数，生成内生响应图如图3中虚线所示路径。将内生响应图/>作为贡献信息输入生成网络模型中生成变换参数。其中，生成内生响应图的过程可以理解为网络模型的内生学习(IntrinsicLearning)过程。在图3所示的内生响应图/>中，颜色较深区域所对应特征点对于预测差异信息的贡献程度较大，颜色较浅的所起贡献较小。

上述生成网络模型可以是具有不同结构的人工神经网络，该生成网络模型以贡献信息作为输入，以变换参数作为输出。例如，生成网络模型可以为生成对抗网络。生成对抗网络(Generative Adversarial Networks,GAN)是一种深度学习模型，由生成器(Generator)和判别器(Discriminator)组成。其中，可以利用生成器生成变换参数。

为了更好地理解上述生成对抗网络，参加图4，图4为本申请实施例提供的一种生成对抗网络的结构示意图。

如图4所示，生成网络模型以贡献信息(如内生响应图)作为输入，将输出的转换矩阵T作为变换参数。该生成网络模型包括卷积层(Convolutional Layer)、批量归一化层(Batch Normalization,BN)、渗漏型整流线性激活函数单元(Leaky RectifiedLinear Unit，Leaky ReLU)以及残差单元。其中，每个卷积层后都接一个BN层，每个LeakyReLU的超参数设定为0.2(slope＝0.2)。生成网络模型结构参数具体如表1所示。

表1生成网络模型结构参数

卷积层	尺寸	个数
			1	3x3x256	64
2	3x3x64	64
			3	3x3x64	64
4	3x3x64	64
			5	3x3x64	8
6	3x3x8	1

可以理解的是，差异信息中不同的特征点对预测目标对象的贡献程度不尽相同。有对预测目标对象位置的贡献程度大的特征点，以至于通过该特征点即可识别出目标对象，并通过该特征点预测出目标对象的位置。例如，利用识别网络模型进行人体识别时，当识别网络模型在输入的图像中识别出人体的四肢，即可通过该识别结果大致模拟出该人体的大致轮廓，无需对图像中的所有点进行识别检测与计算。那么在这种情况下，人体的四肢所在特征点相对于识别网络模型来说属于对预测目标对象位置的贡献程度较大。

基于上述，为了增加识别网络模型的识别难度，以提高识别网络模型对待识别对象的识别性能，本申请实施例提供了一种可行的实施方式，即在根据贡献信息，通过生成网络模型生成变换参数之前，可以通过生成网络模型学习贡献信息中不同特征点的贡献程度，将贡献程度大于目标条件的特征点在贡献信息中进行抑制。

也就是说，在生成网络模型输入贡献信息之前，对该贡献信息进行条件判断，例如，判断贡献信息中特征点的贡献程度是否大于设定的阈值，当特征点的贡献程度大于设定阈值时，对该特征点进行抑制。进而，生成网络模型对抑制处理后的贡献信息进行学习，输出标识目标对象相对于训练图像中形态变化的变换参数。

由于生成网络模型在学习贡献信息中不同特征点的贡献程度前，通过目标条件判断，将贡献程度大的特征点进行了抑制处理，使得识别网络模型在对调整后的所述特征数据进行对象识别时，原本容易识别的部分的识别难度提高了，识别网络模型难以通过原有方式进行对象的取巧识别，而需要对特征图全局进行分析。通过这种抑制高贡献特征点的方式来对识别网络模型进行训练，可以增强了识别网络模型的识别稳定性。

S204:通过所述变换参数调整所述训练图像对应的特征数据，调整后的所述特征数据用于模拟所述目标对象的所述形态变化。

针对上述安防系统的应用场景，服务器101在确定针对目标对象的变换参数后，可以利用内部处理器通过该变换参数调整训练图像对应的特征数据。

由于变换参数标识了目标对象相对于训练图像中形态的变化，因此，利用该变换参数调整训练图像对应的特征数据，得到调整后的特征数据模拟了目标对象的形态变化。在实际应用中，可以对识别网络模型中任意一层中间层的特征数据进行调整，在不同识别、训练场景下，可以预先设定、调整，以满足不同的模型训练要求。

在一种可能的实现方式中，可以通过所述变换参数调整所述中间层在正向传播时输出的所述特征数据，得到调整后的所述特征数据。

如图3所示，可以将变换参数(转换矩阵T)与识别网络模型中的第k层特征数据进行点乘，得到调整后的特征数据，并用于模拟目标对象的形态变化。其中，点乘就是对变换矩阵与特征数据进行逐元素相乘。

由于变换参数标识目标对象相对于训练图像中形态的变化，因此，利用变换参数调整训练图像对应的特征数据，得到的调整后的特征数据携带有目标对象形态变化的信息。基于该调整后的特征数据，继续训练识别网络模型，增加了针对待识别对象形态变化的多样性，提高了识别网络模型的对象识别性能。

S205:通过所述识别网络模型得到第二识别结果，所述第二识别结果用于标识基于调整后的所述特征数据对所述训练图像中所述目标对象的预测位置。

在上述安防系统的应用场景中，服务器101可以利用内部处理器，通过将调整后的特征数据作为识别网络模型新的输入，对该特征数据进行识别，得到训练图像对应的第二识别结果。

服务器利用处理器将调整后的特征数据用于训练识别网络模型，可以得到训练图像对应的第二识别结果，该第二识别结果标识了基于调整后的特征数据对训练图像中目标对象的预测位置。如图3所示，可以以预测响应图y2作为第二识别结果。

由于变换参数标识了目标对象相对于训练图像中形态的变化，因此，根据该变换参数得到调整后的特征数据增加了针对目标对象的形态变化信息。基于此，利用调整后的特征数据用于识别网络模型训练，增加了正样本的多样性，提高了识别网络模型对待识别对象形态变化的鲁棒性。

S206:根据所述第二识别结果与所述训练图像的标签对所述识别网络模型的参数进行更新。

对于上述安防系统的应用场景，服务器101可以利用处理器根据上述得到的训练图像对应的第二识别结果与训练图像的标签对识别网络模型的参数进行更新。

由于调整后的特征数据中模拟了目标对象的形态变化，相当于在训练过程中针对任意一个训练图像增加了形式变化的多样性。以该调整后的特征数据训练识别网络模型，可以有效提高识别网络模型对待识别对象在形态变化的注意程度，提高了识别网络模型的对待识别对象形态变化的鲁棒性。

在实际应用中，可以根据第二识别结果和训练图像的标签确定两者之间的损失，从而利用该损失对识别网络结果进行更新。如图3所示，可以计算第二识别结果和训练图像的标签之间的交叉熵损失，从而利用该交叉熵损失对识别网络模型进行更新。

可以理解的是，利用上述变换参数对识别网络模型中与训练图像对应的特征数据进行调整并用于训练识别网络模型，增加了识别网络模型针对待识别对象的识别难度，这会导致识别网络模型对于待识别对象的识别准确度有所下降。

在待识别对象发生形态变化导致识别难度提高的前提下，为了保证识别网络模型对待识别对象的识别准确度，在一种可能的实现方式中，可以根据第二识别结果和训练图像的标签，计算第二损失信息，从而，根据该第二损失信息分别对生成网络模型和识别网络模型的参数进行更新。

在实际应用中，可以根据第二识别结果和训练图像的标签确定两者之间的损失，从而利用该损失对生成网络模型和识别网络模型的参数进行更新。例如，通过计算第二识别结果和训练图像的标签之间的交叉熵损失，从而利用该交叉熵损失对生成网络模型和识别网络模型的参数进行更新。图5中虚线所示路径体现了对于生成网络模型和识别网络模型进行对抗训练的过程。

一方面，由于调整后的特征数据中增加了目标对象形态变化信息，因此，利用基于调整后的特征数据得到的第二识别结果对识别网络模型的参数进行更新，提高了识别网络模型对待识别对象的识别难度。另一方面，利用基于调整后的特征数据得到的第二识别结果对生成网络模型的参数进行更新，通过生成网络模型适应性地调整对待识别对象形态变化的识别难度，以提高识别网络模型对待识别对象的识别准确度。

若第二损失信息体现出识别网络模型较差的识别准确度，可以表明生成网络模型导致的对象形态变化可能过大，识别难度相对于当前的识别网络模型太高。那么这一信息反向传导到生成网络模型时，生成网络模型会基于此调整参数，使得下一次对目标对象的形变程度变小，相当于降低了下一次训练时对象识别的难度，以此避免下一次识别网络模型的识别结果持续走低。

若第二损失信息体现出识别网络模型较高的识别准确度，可以表明生成网络模型导致的对象形态变化可能过小，识别难度相对于当前的识别网络模型太低。那么这一信息反向传导到生成网络模型时，生成网络模型会基于此调整参数，使得下一次对目标对象的形变程度变大，相当于提高了下一次训练时对象识别的难度，以此避免识别网络模型没有受到足够形变难度的训练就开始收敛。

由此可见，通过第二损失信息对识别网络模型和生成网络模型一起进行训练，相当于构建了一个对抗训练的训练环境，在该训练环境中，生成网络模型会保持在合理的形变难度下持续增加难度来考验识别网络模型的对象识别能力，而识别网络模型在形变难度过大时也会及时通过第二损失信息通知生成网络模型降低形变难度。从而在这种对抗中找到对象形态变化和对象识别精度间的合理平衡，使得最终训练出的识别网络模型对于对象形变具有较好的分辨能力。

基于此，利用第二识别结果和训练图像的标签对识别网络模型和生成网络模型的参数同时进行更新，提高了对待识别对象识别难度的同时，也保证了对于待识别对象的识别准确率，从而提高了整个网络模型对于待识别对象形态变化的鲁棒性。

根据上述实施例提供的模型训练方法，服务器利用处理器对识别网络模型进行训练，可以将训练后的识别网络模型应用在上述安防系统中，即服务器接101收到来自安防系统中摄像头102上传的视频后，利用训练后的识别网络模型对该视频中的可疑危险对象进行识别、检测和跟踪，从而提高了地区安全性。需要说明的是，训练后的识别网络模型可以应用于不同的场景，在此不作任何限定。

针对上文描述的模型训练方法，本申请实施例还提供了对应的模型训练装置。

参见图6，图6为本申请实施例提供的一种模型训练装置的结构示意图。如图6所示，该模型训练装置600包括训练单元601，确定单元602，生成单元603，调整单元604和更新单元605：

所述训练单元601，用于根据标识目标对象的目标图像和包括所述目标对象的训练图像训练识别网络模型，得到所述训练图像对应的第一识别结果，所述第一识别结果用于标识对所述训练图像中所述目标对象的预测位置；

所述确定单元602，用于根据所述训练图像的标签确定所述第一识别结果中针对所述目标对象的差异信息；

所述生成单元603，用于根据所述差异信息生成用于标识所述目标对象的形态变化的变换参数；

所述调整单元604，用于通过所述变换参数调整所述训练图像对应的特征数据，调整后的所述特征数据用于模拟所述目标对象的所述形态变化；

所述训练单元601，还用于通过所述识别网络模型得到第二识别结果，所述第二识别结果用于标识基于调整后的所述特征数据对所述训练图像中所述目标对象的预测位置；

所述更新单元605，用于根据所述第二识别结果与所述训练图像的标签对所述识别网络模型的参数进行更新。

其中，所述确定单元602，用于：

根据所述标签所标识的所述目标对象的实际位置，从所述第一识别结果中提取对应所述实际位置的识别数据，将所述识别数据作为所述差异信息。

其中，所述确定单元602，用于：

确定所述第一识别结果相对于所述标签的第一损失信息，将所述第一损失信息作为所述差异信息。

其中，所述生成单元603，用于：

根据所述差异信息确定贡献信息，所述贡献信息用于标识所述训练图像中特征点对预测所述差异信息的贡献程度；

根据所述贡献信息，通过生成网络模型生成所述变换参数。

其中，所述更新单元605，用于：

确定所述第二识别结果相对于所述标签的第二损失信息；

根据所述第二损失信息分别对所述生成网络模型和所述识别网络模型的参数进行更新。

其中，所述装置还包括学习单元和抑制单元：

所述学习单元，用于通过所述生成网络模型学习所述贡献信息中不同特征点的贡献程度；

所述抑制单元，用于将贡献程度大于目标条件的特征点在所述贡献信息中进行抑制。

其中，所述确定单元602，用于：

将所述差异信息在所述识别网络模型中进行反向传播，通过中间层的输出确定所述贡献信息；

所述调整单元604，用于：

通过所述变换参数调整所述中间层在正向传播时输出的所述特征数据，得到调整后的所述特征数据。

上述实施例提供的模型训练装置，在针对用于目标跟踪的识别网络模型的训练过程中，采用目标图像和训练图像进行训练，由于目标图像标识了需被跟踪的目标对象，训练图像中包含有目标对象，故识别网络模型可以得到训练图像对应的第一识别结果，其体现对训练图像中目标对象的预测位置。基于所述训练图像的标签确定第一识别结果中针对目标对象的差异信息，并根据差异信息生成用于标识目标对象的形态变化的变换参数，通过变换参数调整训练图像对应的特征数据，可以使得调整后的特征数据实现模拟目标对象的上述形态变化。识别网络模型可以针对调整后的特征数据得到第二识别结果，并根据第二识别结果与训练图像的标签对识别网络模型的参数进行更新。由于调整后的特征数据中模拟了目标对象的形态变化，相当于在训练过程中针对任意一个训练图像增加了形式变化的多样性。以此方式训练识别网络模型，可以有效提高识别网络模型对待识别对象在形态变化的注意程度，提高了识别网络模型的对待识别对象形态变化的鲁棒性。

本申请实施例还提供了一种用于模型训练的服务器和终端设备，下面将从硬件实体化的角度对本申请实施例提供的用于模型训练的服务器和终端设备进行介绍。

参见图7，图7是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

可选的，CPU 1422还可以执行本申请实施例中模型训练方法任一具体实现方式的方法步骤。

针对上文描述的模型训练方法，本申请实施例还提供了一种用于模型训练的终端设备，以使上述模型训练的方法在实际中实现以及应用。

参见图8，图8为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)等任意终端设备：

图8示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图8，该终端包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图8中示出的平板电脑结构并不构成对平板电脑的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对平板电脑的各个构成部件进行具体的介绍：

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1580是终端的控制中心，利用各种接口和线路连接整个平板电脑的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行平板电脑的各种功能和处理数据。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

在本申请实施例中，该终端所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的模型训练的方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的模型训练方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，所述方法由处理设备执行，所述方法包括：

通过生成网络模型学习所述贡献信息中不同特征点的贡献程度；

将贡献程度大于目标条件的特征点在所述贡献信息中进行抑制；

根据抑制处理后的贡献信息，通过生成网络模型生成用于标识所述目标对象的形态变化的变换参数；

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练图像的标签确定所述第一识别结果中针对所述目标对象的差异信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述训练图像的标签确定所述第一识别结果中针对所述目标对象的差异信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二识别结果与所述训练图像的标签对所述识别网络模型的参数进行更新，包括：

确定所述第二识别结果相对于所述标签的第二损失信息；

5.根据权利要求1所述的方法，其特征在于，所述根据所述差异信息确定贡献信息，包括：

所述通过所述变换参数调整所述训练图像对应的特征数据，包括：

6.一种模型训练装置，其特征在于，所述装置包括训练单元，确定单元，生成单元，调整单元、更新单元、学习单元和抑制单元：

所述生成单元，用于根据所述差异信息确定贡献信息，所述贡献信息用于标识所述训练图像中特征点对预测所述差异信息的贡献程度；

所述学习单元，用于通过生成网络模型学习所述贡献信息中不同特征点的贡献程度；

所述抑制单元，用于将贡献程度大于目标条件的特征点在所述贡献信息中进行抑制；

所述生成单元，还用于根据抑制处理后的贡献信息，通过所述生成网络模型生成用于标识所述目标对象的形态变化的变换参数；

7.根据权利要求6所述的装置，其特征在于，所述确定单元，用于：

8.根据权利要求6所述的装置，其特征在于，所述确定单元，用于：

9.根据权利要求6所述的装置，其特征在于，所述更新单元，用于：

确定所述第二识别结果相对于所述标签的第二损失信息；

10.一种用于模型训练的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任意一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-5任意一项所述的方法。