CN112712005B

CN112712005B - 识别模型的训练方法、目标识别方法及终端设备

Info

Publication number: CN112712005B
Application number: CN202011564572.4A
Authority: CN
Inventors: 林灿然; 程骏; 郭渺辰; 邵池; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-12-15
Anticipated expiration: 2040-12-25
Also published as: CN112712005A

Abstract

本申请适用于图像处理技术领域，提供了一种识别模型的训练方法、目标识别方法及终端设备，应用于第一识别模型，第一识别模型用于识别第一目标对象，第一识别模型中包括第一特征提取网络和第二特征提取网络，识别模型的训练方法包括：获取样本视频片段；通过训练后的第二识别模型获取样本视频片段的第二参考标签；根据第一参考标签训练第一识别模型中的第一特征提取网络，获得训练后的第一特征提取网络；根据第二参考标签训练第一识别模型中的第二特征提取网络，获得训练后的第二特征提取网络。通过上述训练方法获得的识别模型具有较高的识别准确度。

Description

识别模型的训练方法、目标识别方法及终端设备

技术领域

本申请属于图像处理技术领域，尤其涉及一种识别模型的训练方法、目标识别方法及终端设备。

背景技术

行为识别技术是一种识别视频中的行为类别的技术，在视频监控、智能家居等领域发挥着重要的作用。随着深度学习技术的不断发展，行为识别技术受到了广泛应用。例如：在监控领域，通过行为识别技术监测视频中的违法行为。

在行为识别过程中，除了“行为”特征信息之外，视频中的其他特征信息也可能帮助识别行为。例如：识别视频中的游泳行为时，视频中的“场景”特征信息(如游泳池等)和“人体”特征信息(如人的衣着、姿态等)均能够帮助识别游泳行为。但是现有技术中，通常只提取视频中的“行为”特征信息，而忽略了“行为”特征信息之外的特征信息，导致识别结果的准确度较低。

发明内容

本申请实施例提供了一种识别模型的训练方法、目标识别方法及终端设备，可以提高目标识别结果的准确度。

第一方面，本申请实施例提供了一种识别模型的训练方法，应用于第一识别模型，所述第一识别模型用于识别第一目标对象，所述第一识别模型中包括第一特征提取网络和第二特征提取网络，所述识别模型的训练方法包括：

获取样本视频片段，其中，所述样本视频片段携带有第一参考标签，所述第一参考标签用于表示所述第一目标对象的实际识别结果；

通过训练后的第二识别模型获取所述样本视频片段的第二参考标签，其中，所述第二识别模型用于识别第二目标对象，所述第二参考标签用于表示所述第二目标对象的实际识别结果；

根据所述第一参考标签训练所述第一识别模型中的所述第一特征提取网络，获得训练后的所述第一特征提取网络；

根据所述第二参考标签训练所述第一识别模型中的所述第二特征提取网络，获得训练后的所述第二特征提取网络。

在本申请实施例中，通过训练后的第二识别模型辅助训练第一识别模型中的第二特征提取网络，以使第二特征提取网络能够提取出第二目标对象的特征信息，这样训练后的第一识别模型不仅能够从视频中提取出第一目标对象的特征信息，还能够从视频中提取出与第一目标对象相关的第二目标对象的特征信息，增加了用于目标识别的特征信息的数量。另外，第二特征提取网络的训练标签是通过第二识别模型获取到的，无需重新标注样本视频，降低了数据标注的工作量。通过上述方法，能够在不增加工作量的前提下，增加有效的识别特征信息。

在第一方面的一种可能的实现方式中，所述获取样本视频片段，包括：

获取视频样本；

对所述视频样本进行视频抽帧处理，获得图像序列；

将所述图像序列划分为多个图像组，每个所述图像组中包括多张图像；

将每个所述图像组确定为一个所述样本视频片段。

在第一方面的一种可能的实现方式中，所述第一识别模型还包括第三特征提取网络；

所述方法还包括：

将所述样本视频片段输入到所述第三特征提取网络中，获得所述样本视频片段的浅层特征信息；

将所述浅层特征信息输入到所述第一特征提取网络中，获得第一高层特征信息；

将所述浅层特征信息输入到所述第二特征提取网络中，获得第二高层特征信息。

在第一方面的一种可能的实现方式中，所述根据所述第一参考标签训练所述第一识别模型中的所述第一特征提取网络，获得训练后的所述第一特征提取网络，包括：

根据所述第一高层特征信息确定第一预测标签，其中，所述第一预测标签用于表示所述第一目标对象的预测识别结果；

计算所述第一参考标签和所述第一预测标签之间的第一损失值；

根据所述第一损失值更新所述第一特征提取网络的网络参数，获得训练后的所述第一特征提取网络。

在第一方面的一种可能的实现方式中，所述根据所述第二参考标签训练所述第一识别模型中的所述第二特征提取网络，获得训练后的所述第二特征提取网络，包括：

根据所述第二高层特征信息确定第二预测标签，其中，所述第二预测标签用于表示所述第二目标对象的预测识别结果；

计算所述第二参考标签和所述第二预测标签之间的第二损失值；

根据所述第二损失值更新所述第二特征提取网络的网络参数，获得训练后的所述第二特征提取网络。

第二方面，本申请实施例提供了一种目标识别，基于如第一方面中任一项所述的识别模型的训练方法，所述目标识别方法包括：

从待检测视频中获取多个待检测视频片段；

通过训练后的所述第一特征提取网络获取所述待检测视频片段的第三高层特征信息；

通过训练后的所述第二特征提取网络获取所述待检测视频片段的第四高层特征信息；

对所述第三高层特征信息和所述第四高层特征信息进行信息融合处理，获得融合特征信息；

根据所述融合特征信息识别所述待检测视频片段中的所述第一目标对象，获得所述待检测视频片段的识别标签；

根据所述待检测视频片段的所述识别标签确定所述待检测视频的识别结果。

在本申请实施例中，不仅能够提取第一目标对象的特征信息，还能够提取第二目标对象的特征信息；利用两者的融合特征信息对第一目标对象进行识别，相当于在第一目标对象的特征信息的基础上，增加了其他有效的特征信息，以辅助识别第一目标对象。通过上述方法，能够有效提高目标识别的准确率。

在第二方面的一种可能的实现方式中，所述对所述第三高层特征信息和所述第四高层特征信息进行信息融合处理，获得融合特征信息，包括：

对所述第三高层特征信息和所述第四高层特征信息进行逐像素相乘处理，获得相乘特征信息；

将所述相乘特征信息和所述第三高层特征信息进行拼接处理，获得拼接特征信息；

对所述拼接特征信息进行降维处理，获得降维特征信息，其中，所述降维特征信息的维度与所述第三高层特征信息的维度相同；

将所述降维特征信息确定为所述融合特征信息。

在第二方面的一种可能的实现方式中，所述根据所述待检测视频片段的所述识别标签确定所述待检测视频的识别结果，包括：

当获得所述多个待检测视频片段各自的所述识别标签之后，对所述识别标签进行分类；

统计每个类别下所述识别标签的标签数量；

将最大的所述标签数量对应的所述类别下的所述识别标签确定为所述待检测视频的识别结果。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的识别模型的训练方法或实现如上述第二方面中任一项所述的目标识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的识别模型的训练方法或实现如上述第二方面中任一项所述的目标识别方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的识别模型的训练方法或实现如上述第二方面中任一项所述的目标识别方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的第一识别模型的结构示意图；

图2是本申请实施例提供的识别模型的训练方法的流程示意图；

图3是本申请实施例提供的目标识别方法的流程示意图；

图4是本申请实施例提供的行为识别流程的示意图；

图5是本申请实施例提供的特征融合流程的示意图；

图6是本申请实施例提供的识别模型的训练装置的结构框图；

图7是本申请实施例提供的识别模型的训练装置的结构框图；

图8是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

本申请实施例涉及识别模型的训练方法和目标识别方法两个方面。首先利用视频样本对识别模型进行训练，获得训练后的识别模型。然后利用训练后的识别模型对待检测视频进行目标识别。

本申请实施例提供的识别模型的训练方法和目标识别方法均可应用于第一识别模型，第一识别模型用于识别第一目标对象。

本申请实施例中的目标对象可以指某个物体，也可以指某种行为。例如：当第一识别模型用于识别游泳行为时，游泳行为即为第一识别模型的第一目标对象。当第一识别模型用于识别人体时，人体即为第一识别模型的第一目标对象。

参见图1，是本申请实施例提供的第一识别模型的结构示意图。作为示例而非限定，第一识别模型可以包括第一特征提取网络、第二特征提取网络、第三特征提取网络、融合网络和识别层。其中：

第三特征提取网络可以是一种轻量级网络，如MobileNet、ShuffleNet等，用于提取输入图像中的浅层特征信息。通常浅层特征信息中包括轮廓、边缘、颜色、纹理和形状等信息，这些信息所需的分辨率较低、包含的语义信息较少，但是具有一定的通用性，且反映的目标位置相对准确。

第一特征提取网络用于提取第一目标对象的高层特征信息。第二特征提取网络用于提取与第一目标对象相关联的第二目标对象的高层特征信息。高层特征信息中包含的语义信息较为丰富，这些信息所需的分辨率也较高，但是反映的目标位置相对粗糙。为了提取每个目标对象各自的特征信息，可以根据识别任务的复杂程度针对性地设置第一特征提取网络和第二特征提取网络卷积层数量、类型等参数。

融合网络用于将第一特征提取网络输出的高层特征信息和第二特征提取网络输出的高层特征信息融合为融合特征信息。识别层用于根据融合特征信息对第一目标对象进行识别。识别层还可以包括全连接层和softmax层。全连接层用于将融合特征信息映射到分类空间，然后利用softmax函数计算每种类别对应的概率值。

在另一个实施例中，第一识别模型中也可以包括第一特征提取网络、第二特征提取网络、融合网络和识别层。即不包含第三特征提取网络。

另外，利用上述第一识别模型，能够利用一个第二目标对象的特征信息辅助第一目标对象的识别。实际应用中，也可以根据实际需要采用多个第二目标对象的特征信息辅助第一目标对象的识别。当采用N个第二目标对象时，相应的，第一识别模型中需要设置N个第二特征提取网络，以分别提取每个第二目标对象的特征信息。

需要说明的是，第一目标对象和第二目标对象为不同的目标对象，但是第二目标对象为有助于识别第一目标对象的目标对象。“第一”和“第二”仅用于区分不同的目标对象，而不用于限定先后顺序等。

基于图1实施例中所述的第一识别模型，下面介绍本申请实施例提供的识别模型的训练方法。参见图2，是本申请实施例提供的识别模型的训练方法的流程示意图。作为示例而非限定，识别模型的训练方法可以包括以下步骤：

S201，获取样本视频片段。

其中，样本视频片段携带有第一参考标签，第一参考标签用于表示第一目标对象的实际识别结果。实际应用中，需要人工标注每个样本视频片段的第一参考标签。

样本视频片段的一种获取方式可以包括：

获取视频样本；将视频样本中包含的图像划分为多个图像组，每个图像组中包括多张图像；将每个图像组确定为一个样本视频片段。

这种获取样本视频片段的方式，能够保留视频样本中每一帧图像的信息。但是通常视频中相邻的几帧图像中目标对象并未发生变化或变化不明显，而上述方式则会产生信息冗余，增加数据处理量。

为了解决上述问题，在一个实施例中，样本视频片段的获取方式可以包括：

获取视频样本；对视频样本进行视频抽帧处理，获得图像序列；将图像序列划分为多个图像组，每个图像组中包括多张图像；将每个图像组确定为一个样本视频片段。

其中，视频抽帧处理是指，在一段视频中，通过间隔一定帧抽取若干帧的步骤。示例性的，可以每隔2帧从视频中抽取一张图像，获得了图像序列；然后将图像序列中每8张或16张图像组合成一个样本视频片段。

通过视频抽帧处理获取到的样本视频片段，相当于对视频样本进行了降采样，这样能够减少后续的数据处理量，提高训练效率。

如图1所示的第一识别模型中，包括了两条支路：一条支路中通过第一特征提取网络提取特征，另一条支路中通过第二特征提取网络提取特征。训练过程中可以对两条支路分别训练，因此，相应的，训练方法也可以包括两条支路。下述的S202为训练第一条支路的方法，S203-S204为训练第二条支路的方法。

S202，根据第一参考标签训练第一识别模型中的第一特征提取网络，获得训练后的第一特征提取网络。

由于样本视频片段携带了第一目标对象的第一参考标签，而第一特征提取网络用于提取第一目标对象的特征信息。因此，可以利用第一参考标签训练第一特征提取网络。

可选的，一种训练方式是：

将样本视频片段输入第一特征提取网络中，输出第一高层特征信息；根据第一高层特征信息确定第一预测标签；计算第一参考标签和第一预测标签之间的第一损失值；根据第一损失值更新第一特征提取网络的网络参数，获得训练后的第一特征提取网络。

其中，所述第一预测标签用于表示所述第一目标对象的预测识别结果。

如图1所示的第一识别模型中，第一识别模型包括第三特征提取网络。相应的，另一种训练方式是：

将样本视频片段输入到第三特征提取网络中，获得样本视频片段的浅层特征信息；将浅层特征信息输入到第一特征提取网络中，获得第一高层特征信息；根据第一高层特征信息确定第一预测标签；计算第一参考标签和第一预测标签之间的第一损失值；根据第一损失值更新第一特征提取网络的网络参数，获得训练后的第一特征提取网络。

上述训练过程中，根据第一高层特征信息确定第一预测标签的一种方式可以为，将第一高层特征信息输入到预先设置的能够识别第一目标对象的网络中，输出第一预测标签。

在计算第一损失值时，实际是需要评估第一参考标签和第一预测标签之间的差异程度。因此，可以采用如平方损失函数、绝对损失函数、最小二乘损失函数等计算第一损失值。

S203，通过训练后的第二识别模型获取样本视频片段的第二参考标签。

其中，第二识别模型用于识别第二目标对象，第二参考标签用于表示第二目标对象的实际识别结果。

实际应用中，第二目标对象通常选取与第一目标对象相关联的目标对象。换言之，第二目标对象的特征有助于识别第一目标对象。例如：识别视频中的游泳行为时，游泳行为是第一目标对象。视频中的“场景”特征信息(如游泳池等)和“人体”特征信息(如人的衣着、姿态等)均能够帮助识别游泳行为。那么将场景和人体作为第二目标对象。

在本申请实施例中，第二目标对象可以有一个或多个。每个第二目标对象对应一个第二识别模型。

由于样本视频片段中只携带了人工标注的第一参考标签，即第一目标对象的实际识别结果，但是并未携带第二参考标签。因此，需要另外获取第二参考标签。现有技术中，通常是人工对样本视频片段重新标注、以增加第二参考标签。但是这种方式耗时耗力。在本申请实施例S203中，通过训练后的第二识别模型获取第二参考标签，省却了人工标注的过程，节约了人工成本，大大提高了训练效率。

S204，根据第二参考标签训练第一识别模型中的第二特征提取网络，获得训练后的第二特征提取网络。

可选的，一种训练方式为：

将样本视频片段输入第二特征提取网络中，输出第二高层特征信息；根据第二高层特征信息确定第二预测标签；计算第二参考标签和第二预测标签之间的第二损失值；根据第二损失值更新第二特征提取网络的网络参数，获得训练后的第二特征提取网络。

其中，所述第二预测标签用于表示所述第二目标对象的预测识别结果。

与第一特征提取网络的训练过程相似，如图1所示的第一识别模型中，第一识别模型包括第三特征提取网络。相应的，另一种训练方式是：

将样本视频片段输入到第三特征提取网络中，获得样本视频片段的浅层特征信息；将浅层特征信息输入到第二特征提取网络中，获得第二高层特征信息；根据第二高层特征信息确定第二预测标签；计算第二参考标签和第二预测标签之间的第二损失值；根据第二损失值更新第二特征提取网络的网络参数，获得训练后的第二特征提取网络。

由于第三特征提取网络提取的为浅层特征信息，即轮廓、边缘、颜色、纹理和形状等通用特征信息。因此，第一特征提取网络和第二特征提取网络可以共用浅层特征信息。

上述训练过程中，根据第二高层特征信息确定第二预测标签的一种方式可以为：将第二高层特征信息输入到预先设置的能够识别第二目标对象的网络中，输出第二预测标签。需要说明的是，这里预先设置的能够识别第二目标对象的网络可以采用第二识别网络中的识别层，也可以是与第二识别网络不同的网络。

与计算第一损失值相似，在计算第二损失值时，也可以采用如平方损失函数、绝对损失函数、最小二乘损失函数等进行计算。当损失值小于预设值时，训练完成。

通过上述识别模型的训练方法，能够获得训练后的识别模型。训练后的识别模型中包括了训练后的第一特征提取网络和训练后的第二特征提取网络。基于训练后的识别模型，下面介绍本申请实施例提供的目标识别方法。参见图3，是本申请实施例提供的目标识别方法的流程示意图，作为示例而非限定，所述方法可以包括以下步骤：

S301，从待检测视频中获取多个待检测视频片段。

该过程与S201中获取样本视频片段的过程相同，具体可参见S201中的描述，在此不再赘述。

S302，通过训练后的第一特征提取网络获取待检测视频片段的第三高层特征信息。

S303，通过训练后的第二特征提取网络获取待检测视频片段的第四高层特征信息。

S304，对第三高层特征信息和第四高层特征信息进行信息融合处理，获得融合特征信息。

如图1所示的识别模型中包括融合网络。融合网络即可用于对第三高层特征信息和第四高层特征信息进行信息融合处理，获得融合特征信息。在一个实施例中，融合网络的工作方式可以包括：

对第三高层特征信息和第四高层特征信息进行逐像素相乘处理，获得相乘特征信息；将相乘特征信息和第三高层特征信息进行拼接处理，获得拼接特征信息；对拼接特征信息进行降维处理，获得降维特征信息；将降维特征信息确定为融合特征信息。

其中，降维特征信息的维度与第三高层特征信息的维度相同。

第三高层特征信息和第四高层特征信息进行逐像素相乘处理，可以看作是两个矩阵相乘的运算过程。第一个矩阵中各个元素为第三高层特征信息，第二个矩阵中各个元素为第四高层特征信息。通过逐像素相乘处理，相当于在第三高层特征信息和第四高层特征信息有机融合在了一起。

将相乘特征信息和第三高层特征信息进行拼接处理后，特征信息的维度发生了变化。例如：假设第三高层特征信息的维度为C，相乘特征信息的维度为C，那么拼接处理后的拼接特征信息的维度为2C。因此，需要对拼接特征信息进行降维处理，以使降维特征信息的维度与第三高层特征信息的维度相同。

通过S304中的融合处理，相当于在第一目标对象的特征信息中融合了第二目标对象的特征信息，有助于后续识别过程中利用第二目标对象的特征信息辅助识别第一目标对象。

S305，根据融合特征信息识别待检测视频片段中的第一目标对象，获得待检测视频片段的识别标签。

如图1所示的第一识别模型中包括识别层。融合网络输出的融合特征信息输入到识别层；识别层根据融合特征信息识别待检测视频片段中的第一目标对象，输出待检测视频片段的识别标签。

S306，根据待检测视频片段的识别标签确定待检测视频的识别结果。

根据S302-S305中的方法，分别识别从待检测视频中获取的每个待检测视频片段的识别标签。当获得多个待检测视频片段各自的识别标签之后，根据多个待检测视频片段各自的识别标签确定待检测视频的识别结果。

可选的，确定待检测视频的识别结果的一种实现方式为：

对多个待检测视频片段的识别标签进行分类；统计每个类别下识别标签的标签数量；将最大的标签数量对应的类别下的识别标签确定为待检测视频的识别结果。

示例性的，假设从待检测视频中获取了5个待检测视频片段，第1个待检测视频片段的识别标签为1，第2个待检测视频片段的识别标签为0，第3个待检测视频片段的识别标签为1，第4个待检测视频片段的识别标签为1，第5个待检测视频片段的识别标签为0。对5个识别标签进行分类，得到两类，一类识别标签为0，一类识别标签为1。识别标签为0的标签数量为2，识别标签为1的标签数量为3。将识别标签1确定为待检测视频的识别结果。需要说明的是，上述是确定待检测视频的识别结果的示例，并不对待检测视频的数量、识别标签的形式等做具体限定。

下面以人体行为识别为例，对上述实施例中所述的识别模型的训练过程和目标识别过程进行说明。参见图4，是本申请实施例提供的行为识别流程的示意图。如图4所示的识别模型中包括浅层网络(相当于第一识别模型中的第三特征提取网络)、行为高层网络(相当于第一识别模型中的第一特征提取网络)、人体高层网络(相当于第一识别模型中的第二特征提取网络)、场景高层网络(相当于第一识别模型中的第二特征提取网络)、融合模块(相当于第一识别模型中的融合网络)和全连接层/softmax层(相当于第一识别模型中的识别层)。

在识别模型的训练过程中，输入视频样本，然后从视频样本中获取多个样本视频片段(携带第一参考标签，用于表示行为类别)；将每个样本视频片段输入到浅层网络中，获得浅层特征信息；然后将浅层特征信息分别输入到行为高层网络、人体高层网络和场景高层网络中，分别获得样本视频片段中的行为高层特征、人体高层特征和场景高层特征；然后将样本视频片段输入到训练后的人体分割教师网络(相当于第二识别模型，用于识别人体)中，获得人体辅助标签(相当于第二参考标签)；将样本视频片段输入到训练后的场景识别教师网络(相当于第二识别模型，用于识别场景)中，获得场景辅助标签(相当于第二参考标签)；之后利用人体辅助标签对人体高层网络进行训练，利用场景辅助标签对场景高层网络进行训练，利用样本视频片段携带的第一参考标签对行为高层网络进行训练。

在识别过程中，输入待检测视频，从待检测视频中获取多个待检测视频片段；将每个待检测视频片段输入到浅层网络中，获得浅层特征信息；将浅层特征信息分别输入到训练后的行为高层网络、训练后的人体高层网络和训练后的场景高层网络中，分别获得待检测视频片段中的行为高层特征、人体高层特征和场景高层特征；然后将待检测视频片段中的行为高层特征、人体高层特征和场景高层特征输入到融合模块中，输出融合特征信息；将融合特征信息输入到全连接层/softmax层，输出待检测视频片段的识别标签；最后根据各个待检测视频片段的识别标签进行投票，以确定待检测视频的行为结果(即待检测视频的识别结果)。

其中，融合模块的工作流程可参见图5，是本申请实施例提供的特征融合流程的示意图。如图5所示，人体高层特征、行为高层特征和场景高层特征的通道数均为c；将人体高层特征和行为高层特征逐像素乘，得到中间融合特征1，通道数为c；将行为高层特征和场景高层特征逐像素乘，得到中间融合特征2，通道数为c。然后将中间融合特征1、中间融合特征2和行为高层特征进行拼接处理，得到中间融合特征3，通道数为3c；最后对中间融合特征3进行降维处理，即利用1×1卷积核对中间融合特征3进行卷积运算，得到最终融合特征，通道数为c。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的识别模型的训练方法，图6是本申请实施例提供的识别模型的训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置包括：

样本获取单元61，用于获取样本视频片段，其中，所述样本视频片段携带有第一参考标签，所述第一参考标签用于表示所述第一目标对象的实际识别结果.

辅助标签获取单元62，用于通过训练后的第二识别模型获取所述样本视频片段的第二参考标签，其中，所述第二识别模型用于识别第二目标对象，所述第二参考标签用于表示所述第二目标对象的实际识别结果。

第一特征网络训练单元63，用于根据所述第一参考标签训练所述第一识别模型中的所述第一特征提取网络，获得训练后的所述第一特征提取网络。

第二特征网络训练单元64，用于根据所述第二参考标签训练所述第一识别模型中的所述第二特征提取网络，获得训练后的所述第二特征提取网络。

可选的，样本获取单元61还用于：

获取视频样本；对所述视频样本进行视频抽帧处理，获得图像序列；将所述图像序列划分为多个图像组，每个所述图像组中包括多张图像；将每个所述图像组确定为一个所述样本视频片段。

可选的，装置6还包括：

浅层信息提前单元65，用于将所述样本视频片段输入到所述第三特征提取网络中，获得所述样本视频片段的浅层特征信息；将所述浅层特征信息输入到所述第一特征提取网络中，获得第一高层特征信息；将所述浅层特征信息输入到所述第二特征提取网络中，获得第二高层特征信息。

可选的，第一特征网络训练单元63还用于：

根据所述第一高层特征信息确定第一预测标签，其中，所述第一预测标签用于表示所述第一目标对象的预测识别结果；计算所述第一参考标签和所述第一预测标签之间的第一损失值；根据所述第一损失值更新所述第一特征提取网络的网络参数，获得训练后的所述第一特征提取网络。

可选的，第二特征网络训练单元64还用于：

根据所述第二高层特征信息确定第二预测标签，其中，所述第二预测标签用于表示所述第二目标对象的预测识别结果；计算所述第二参考标签和所述第二预测标签之间的第二损失值；根据所述第二损失值更新所述第二特征提取网络的网络参数，获得训练后的所述第二特征提取网络。

对应于上文实施例所述的目标识别方法，图7是本申请实施例提供的识别模型的训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图7，该装置包括：

检测视频获取单元71，用于从待检测视频中获取多个待检测视频片段.

第一特征提取单元72，用于通过训练后的所述第一特征提取网络获取所述待检测视频片段的第三高层特征信息。

第二特征提取单元73，用于通过训练后的所述第二特征提取网络获取所述待检测视频片段的第四高层特征信息。

特征融合单元74，用于对所述第三高层特征信息和所述第四高层特征信息进行信息融合处理，获得融合特征信息。

片段识别单元75，用于根据所述融合特征信息识别所述待检测视频片段中的所述第一目标对象，获得所述待检测视频片段的识别标签。

识别结果单元76，用于根据所述待检测视频片段的所述识别标签确定所述待检测视频的识别结果。

可选的，特征融合单元74还用于：

对所述第三高层特征信息和所述第四高层特征信息进行逐像素相乘处理，获得相乘特征信息；将所述相乘特征信息和所述第三高层特征信息进行拼接处理，获得拼接特征信息；对所述拼接特征信息进行降维处理，获得降维特征信息，其中，所述降维特征信息的维度与所述第三高层特征信息的维度相同；将所述降维特征信息确定为所述融合特征信息。

可选的，识别结果单元76还用于：

当获得所述多个待检测视频片段各自的所述识别标签之后，对所述识别标签进行分类；统计每个类别下所述识别标签的标签数量；将最大的所述标签数量对应的所述类别下的所述识别标签确定为所述待检测视频的识别结果。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

另外，图6或图7所示的装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中，还可以作为独立的终端设备存在。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图8是本申请实施例提供的终端设备的结构示意图。如图8所示，该实施例的终端设备8包括：至少一个处理器80(图8中仅示出一个)处理器、存储器81以及存储在所述存储器81中并可在所述至少一个处理器80上运行的计算机程序82，所述处理器80执行所述计算机程序82时实现上述任意各个方法实施例中的步骤。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图8仅仅是终端设备8的举例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，该处理器80还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81在一些实施例中可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81在另一些实施例中也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种识别模型的训练方法，其特征在于，应用于第一识别模型，所述第一识别模型用于识别第一目标对象，所述第一识别模型中包括第一特征提取网络和第二特征提取网络，所述识别模型的训练方法包括：

根据所述第二参考标签训练所述第一识别模型中的所述第二特征提取网络，获得训练后的所述第二特征提取网络；

所述第一识别模型还包括第三特征提取网络；

所述方法还包括：

将所述浅层特征信息输入到所述第二特征提取网络中，获得第二高层特征信息；

其中，所述浅层特征信息所需的分辨率低于高层特征信息所需的分辨率，所述浅层特征信息包含的语义信息少于高层特征信息包含的语义信息，所述浅层特征信息反映的目标位置的准确度高于高层特征信息反映的目标位置的准确度。

2.如权利要求1所述的识别模型的训练方法，其特征在于，所述获取样本视频片段，包括：

获取视频样本；

对所述视频样本进行视频抽帧处理，获得图像序列；

将每个所述图像组确定为一个所述样本视频片段。

3.如权利要求1所述的识别模型的训练方法，其特征在于，所述根据所述第一参考标签训练所述第一识别模型中的所述第一特征提取网络，获得训练后的所述第一特征提取网络，包括：

4.如权利要求1所述的识别模型的训练方法，其特征在于，所述根据所述第二参考标签训练所述第一识别模型中的所述第二特征提取网络，获得训练后的所述第二特征提取网络，包括：

5.一种目标识别方法，其特征在于，基于如权利要求1至4任一项所述的识别模型的训练方法，所述目标识别方法包括：

从待检测视频中获取多个待检测视频片段；

6.如权利要求5所述的目标识别方法，其特征在于，所述对所述第三高层特征信息和所述第四高层特征信息进行信息融合处理，获得融合特征信息，包括：

将所述降维特征信息确定为所述融合特征信息。

7.如权利要求5所述的目标识别方法，其特征在于，所述根据所述待检测视频片段的所述识别标签确定所述待检测视频的识别结果，包括：

统计每个类别下所述识别标签的标签数量；

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法或实现如权利要求5至7任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法或实现如权利要求5至7任一项所述的方法。