CN113313098B

CN113313098B - 视频处理方法、设备、系统及存储介质

Info

Publication number: CN113313098B
Application number: CN202110874977.6A
Authority: CN
Inventors: 王伟; 黑光月; 杜荣; 邵斌; 陈冬白; 吴翰清
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2022-01-04
Anticipated expiration: 2041-07-30
Also published as: CN113313098A

Abstract

本申请实施例提供一种视频处理方法、设备、系统及存储介质。在本申请实施例中，针对包含移动对象的视频流，一方面采用多级神经网络模型进行属性识别，可提高识别精度，降低误识别现象；另一方面，结合多种多级神经网络模型可以同步对移动对象的多种属性进行识别，提高识别效率。进一步，在多种多级神经网络模型之间，根据模型输入输出之间的关系进行神经网络模型的复用，可以降低神经网络模型整体的复杂度，实现多维多级神经网络模型的轻量化，有效节约算力和运行时间。

Description

视频处理方法、设备、系统及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频处理方法、设备、系统及存储介质。

背景技术

随着视频处理技术的发展，视频处理被广泛应用在道路交通管理场景中。在城市道路、高速路或各类道路路口处安装摄像头、电子眼等采集设备负责采集道路交通视频流；通过车辆算法可获取视频流中的车辆属性，进而可将获取到的车辆属性，应用到车辆检测、车辆跟踪或车辆分类等各个领域。

其中，现有的车辆算法大多是基于人工特征，例如，直方图特征、灰度特征或纹理特征，对车辆属性进行识别的，算法精度较差，易出现误识别现象，而且还只能识别车辆的单一属性，识别效率较低，应用上存在一定的局限性。

发明内容

本申请的多个方面提供一种视频处理方法、设备、系统及存储介质，用以提高识别属性信息的精度和效率。

本申请实施例提供一种视频处理方法，包括：获取包括移动对象的原始视频流，从原始视频流中选择多帧目标图像；利用多维多级神经网络模型对多帧目标图像进行属性识别，以获得移动对象对应的M种属性信息；其中，多维多级神经网络模型包括N种并联的多级神经网络模型，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N。

本申请实施例还提供一种视频处理系统，包括：视频采集设备、服务端设备和应用端设备；视频采集设备，用于采集包括移动对象的原始视频流并上传至服务端设备；服务端设备，用于从视频采集设备上传的原始视频流中，选择多帧目标图像；利用多维多级神经网络模型对多帧目标图像进行属性识别，以获得移动对象对应的M种属性信息，并提供给应用端设备；其中，所述多维多级神经网络模型包括N种并联的多级神经网络模型，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N；应用端设备，用于基于移动对象对应的M种属性信息，执行与移动对象对应的处理操作。

本申请实施例还提供一种计算机设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以用于：获取包括移动对象的原始视频流，从原始视频流中选择多帧目标图像；利用多维多级神经网络模型对多帧目标图像进行属性识别，以获得移动对象对应的M种属性信息；其中，多维多级神经网络模型包括N种并联的多级神经网络模型，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现本申请实施例提供的视频处理方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现本申请实施例提供的视频处理方法中的步骤。

在本申请实施例中，针对包含移动对象的视频流，一方面采用多级神经网络模型进行属性识别，可提高识别精度，降低误识别现象；另一方面，结合多种多级神经网络模型可以同步对移动对象的多种属性进行识别，提高识别效率。进一步，在多种多级神经网络模型之间，根据模型输入输出之间的关系进行神经网络模型的复用，可以降低神经网络模型整体的复杂度，实现多维多级神经网络模型的轻量化，有效节约算力和运行时间。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种视频处理方法的流程示意图；

图2a为一种从移动对象维度进行属性识别的多级神经网络模型的示意图；

图2b为一种从移动对象上的局部特征维度进行属性识别的多级神经网络模型的结构示意图；

图2c为另一种从移动对象上的局部特征维度进行属性识别的多级神经网络模型的结构示意图；

图2d为一种多维多级神经网络模型的结构示意图；

图3为本申请示例性实施例提供的一种视频处理系统的结构示意图；

图4为一种移动对象是车辆的多维多级神经网络模型的结构示意图；

图5为本申请示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有车辆算法精确度较差，易出现误识别现象，且只能识别车辆的单一属性，识别效率较低，应用上存在一定的局限性的问题。在本申请实施例中，针对包含移动对象的视频流，一方面采用多级神经网络模型进行属性识别，可提高识别精度，降低误识别现象；另一方面，结合多种多级神经网络模型可以同步对移动对象的多种属性进行识别，提高识别效率。进一步，在多种多级神经网络模型之间，根据模型输入输出之间的关系进行神经网络模型的复用，可以降低神经网络模型整体的复杂度，实现多维多级神经网络模型的轻量化，有效节约算力和运行时间。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种视频处理方法的流程示意图。如图1所示，该方法包括：

101、获取包括移动对象的原始视频流，从原始视频流中选择多帧目标图像；

102、利用多维多级神经网络模型对多帧目标图像进行属性识别，以获得移动对象对应的M种属性信息；其中，多维多级神经网络模型包括N种并联的多级神经网络模型，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N。

在本实施例中，可以获取原始视频流，获取方式包括接收视频采集终端采集并实时上传的原始视频流，或者视频采集终端也可以将采集到的原始视频流上传至数据库中，从数据库中读取原始视频流。在本实施例中，原始视频流包括移动对象，移动对象可以是各种类型的车辆、人物、动物、机器人等可以自主移动或被控制移动的对象。在一些应用场景中，需要依赖移动对象的属性信息，据此在本实施例中，可以采用多维多级神经网络模型对移动对象进行属性识别，得到移动对象对应的M种属性信息。本实施例中的多维多级神经网络包括N种多级神经网络模型，每种多级神经网络模型可以识别移动对象对应的一种或多种属性信息。根据移动对象的不同，移动对象的属性信息也有所不同。例如，在交通管控场景中，移动对象可以是车辆，则车辆的属性信息可以包括车辆自身的属性信息，如车辆的颜色、车辆的类型、车辆的品牌、车辆的朝向或车辆的清晰度等；进一步，车辆的属性信息还可以包括车辆上局部特征（如车牌、车门、轮胎等）的属性信息，以车牌为例，车牌的属性信息可以包括车牌的颜色、大小、车牌号等，以车门为例，车门的属性信息可以包括车门的颜色、类型、大小等，以轮胎为例，轮胎的属性信息可以包括轮胎尺寸、花纹等。又例如，在一些动物饲养场景中，移动对象可以是动物，则动物的属性信息可以包括动物的种类、毛色、大小等。其中，N和M是大于等于2的正整数，且M≥N。

在本实施例中，针对包含移动对象的视频流，一方面，采用多级神经网络模型进行属性识别，可提高识别精度，降低误识别现象。另一方面，结合多种多级神经网络模型可以同步对移动对象的多种属性信息进行识别，提高识别效率。

进一步，每种多级神经网络模型包括具有上下级关系的多个神经网络模型，上一级神经网络模型的输出是下一级神经网络模型的输入，即多个神经网络模型之间形成串联关系。另外，在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型可复用相同的上级神经网络模型。也就是说，对于可复用上级神经网络模型的多个神经网络模型来说，首先属于不同的多级神经网络模型，另外这些神经网络模型的输入可以全部相同，也可以部分相同。若多个神经网络模型的某个输入均来自同一上级神经网络模型的输出，则多个神经网络模型可复用该相同上级神经网络模型。在多种多级神经网络模型之间进行神经网络模型的复用，可以降低神经网络模型整体的复杂度，实现多维多级神经网络模型的轻量化，有效节约算力和运行时间。

在本申请各实施例中，并不限定从原始视频流中选择多帧目标图像的实施方式。在一可选实施例中，可以从原始视频流中随机选择多帧目标图像。在另一可选实施例中，对原始视频流进行采样，以得到多帧采样图像；利用卷积神经网络对多帧采样图像进行特征提取，以得到多帧采样图像的图像特征；基于多帧采样图像的图像特征，从中选择图像质量符合要求的多帧目标图像。整个过程中，可以过滤掉图像质量较差的采样图像，有效降低后续神经网络模型的计算量和误检率。

其中，卷积神经网络可以是任何能够进行图像特征提取的网络，例如，分类模型，分类模型可以是但不限于：残差模型（resnet）、逻辑回归、朴素贝叶斯、决策树、支持向量机、随机森林、梯度提升树等。其中，卷积神经网络可以提取图像特征可以是但不限于：颜色特征、纹理特征、形状特征、空间关系特征或者清晰度特征等。其中，若上述卷积神经网络提取的图像特征的一种或多种符合设定要求，则可以认为采样图像的图像质量符合要求，可以将该采样图像作为目标图像。例如，若采样图像的清晰度特征超过设定的阈值，则认为该采样图像的图像质量符合设定要求，可以将该采样图像作为目标图像。再例如，若采样图像的颜色特征为设定色彩在整幅图像中所占比例超过设定阈值，则认为该采样图像的图像质量符合设定要求，可以将该采样图像作为目标图像。又例如，若采样图像的形状特征与设定形状特征的相似度超过设定阈值，且采样图像的清晰度特征超过设定的阈值，则认为该采样图像的图像质量符合设定要求，可以将该采样图像作为目标图像。

在本申请一些实施例中，移动对象作为一个整体，不仅具有全局特征，还可以包括至少一个局部特征，根据移动对象的不同，移动对象的局部特征也有所不同。例如，若移动对象是车辆，则车辆的局部特征是指车辆上某个局部结构的特征，例如可以是但不限于：车牌特征、轮胎特征、车窗特征或车灯特征等；若移动对象是动物，则动物的局部特征是指动物身体上某个部位的特征，例如可以是但不限于：头部特征、四肢特征、颈部特征等。基于此，在利用多维多级神经网络模型对多帧目标图像进行属性识别时，可以分别从移动对象这一整体维度和移动对象上的局部特征维度对多帧目标图像进行属性识别，从而得到包含移动对象自身的属性信息和移动对象上局部特征的属性信息在内的M种属性信息。相应地，N种多级神经网络模型中至少包括两类神经网络模型：一类是用于从移动对象维度进行属性识别的多级神经网络模型，一类是从移动对象上的局部特征维度进行属性识别的多级神经网络模型。可选地，移动对象可以有多个局部特征，其中，需要进行属性识别的局部特征可以是一个或多个。可选地，可以针对每个需要进行属性识别的局部特征采用一种多级神经网络模型，假设需要进行属性识别的局部特征的数量为n（n≥1），可以有n种多级神经网络模型分别针对n个局部特征进行属性识别；另外，还有一种多级神经网络模型，用于针对整个移动对象进行全局性的属性识别。在该可选实施例中，N种多级神经网络模型的数量具体为n+1。

在一可选实施例中，可分别从移动对象维度和移动对象上的局部特征维度建立多级神经网络模型。下面以N种多级神经网络模型实现为一个从移动对象维度进行属性识别的多级神经网络模型和一个从移动对象上一个局部特征维度进行属性识别的多级神经网络模型为例进行说明。图2a为从移动对象维度进行属性识别的多级神经网络模型，图2b和图2c为从移动对象上的局部特征维度进行属性识别的多级神经网络模型。

如图2a所示，该多级神经网络模型包括：对象检测模型21、特征可见模型22、对象跟踪模型23以及对象属性识别模型24。其中，对象检测模型21的输入是多帧目标图像，对象检测模型21的输出是对象跟踪模型23和特征可见模型22的输入；对象检测模型21是被下一级的对象跟踪模型23和特征可见模型22复用的首级神经网络模型；对象跟踪模型23和特征可见模型22的输出为对象属性识别模型24的输入；对象属性识别模型24的输出为移动对象的属性信息。

如图2b所示，该多级神经网络模型包括：对象检测模型21、特征可见模型22、对象跟踪模型23以及特征属性识别模型25。其中，对象检测模型21的输入是多帧目标图像，对象检测模型21的输出是对象跟踪模型23和特征可见模型22的输入；对象检测模型21是被下一级的对象跟踪模型23和特征可见模型22复用的首级神经网络模型；对象跟踪模型23和特征可见模型22的输出为特征属性识别模型25的输入；特征属性识别模型25的输出为移动对象的局部特征的属性信息。

进一步，如图2c所示，在特征属性识别模型25之前，还包括：特征检测模型26。特征检测模型26的输入是对象跟踪模型23和特征可见模型22的输出，特征检测模型26的输出是特征属性识别模型25的输入。

下面对图2a-2c中各神经网络模型的功能或工作原理进行详细说明。

在本实施例中，如图2a-2c所示，可以将多帧目标图像输入对象检测模型21，对象检测模型21从多帧目标图像中提取包含移动对象的第一局部图像；其中，针对每一帧目标图像，可以从中提取出一个或多个第一局部图像，而考虑到移动对象的移动特性，移动对象可能出现在连续多帧目标图像中，故对包含同一移动对象的第一局部图像可能有帧。其中，在同一目标图像中，可能包含多个移动对象，则从该目标图像中可以提取出多个第一局部图像；该目标图像中也可能仅包含一个移动对象，则从该目标图像中可以提取出一个第一局部图像；或者，该目标图像中也可能不包含任何移动对象，则无法从该目标图像中提取出第一局部图像。

在此说明，可以按照多帧目标图像之间的采集时间顺序，一帧一帧的送入对象检测模型21中，或者，也可以根据对象检测模型21同时可支持的图像数量，按照采集时间的先后顺序将多帧目标图像进行分组，再按照时间先后顺序以分组为单位，一组一组的送入对象检测模型21。

在图2a-2c所示实施例中，对象检测模型21可以采用任何可以提取目标图像中的移动对象的神经网络模型。例如，目标检测模型，目标检测模型可以是但不限于：区域卷积神经网络（Region-Convolutional Neural Networks，R-CNN）、快速区域卷积神经网络（Fast Region-Convolutional Neural Networks，Fast-R-CNN）、你只能看一次（You OnlyLook Once，YOLO）模型或者单镜头多盒检测器（Single Shot MultiBox Detector，SSD）或者中心网（CenterNet）模型等。下面以CenterNet模型为例，对检测目标图像中的移动对象的实施方式进行说明。对于每个目标图像，CenterNet模型利用移动对象的中心点来表示目标图像中的移动对象，通过预测移动对象中心点的偏移量（offset）和宽高（size）来确定移动对象在目标图像中的位置，从而提取包含移动对象的第一局部图像。

在本实施例中，如图2a-2c所示，对象检测模型21输出的第一局部图像被按序输入特征可见模型22。特征可见模型22用于检测移动对象上的指定局部特征是否在多帧第一局部图像中可见并输出对应的检测结果。其中，特征可见模型22可以实现为分类模型，对于每张第一局部图像，特征可见模型22可以对第一局部图像中移动对象上的局部特征进行分类，若分类结果中包含指定类别，指定类别对应指定局部特征，则认为指定局部特征在该第一局部图像中可见。

在本实施例中，如图2a-2c所示，对象检测模型21输出的多帧第一局部图像被输入对象跟踪模型23。对象跟踪模型23用于跟踪同一移动对象的第一局部图像并输出其中符合质量要求的目标局部图像。其中，对象跟踪模型23可以实现为目标跟踪模型，目标跟踪模型可以是但不限于：简单在线和实时跟踪（Simple Online and Realtime Tracking，SORT）或深度简单在线和实时跟踪（Deep Simple Online and Realtime Tracking，DeepSORT）模型等。其中，DeepSORT模型的基本思想是：基于前一帧或几帧的第一局部图像，预测下一帧的局部图像中移动对象的状态，将预测到的下一帧的局部图像中移动对象的状态与实际下一帧局部图像中移动对象的状态进行匹配，以实现对移动对象的追踪，在每次追踪后，提取局部图像中的移动对象的特征并保存，用于在移动对象被遮挡的情况下，继续实行追踪。对象跟踪模型23跟踪到多帧第一局部图像中同一移动对象后，从多帧包含同一移动对象的第一局部图像中选择符合质量要求的目标局部图像。其中，质量要求可以是清晰度要求，例如，将清晰度最高的第一局部图像作为目标局部图像，或者从多帧包含同一移动对象的第一局部图像中，随机选择清晰度超过设定清晰度阈值的第一局部图像作为目标局部图像。当然，第一局部图像是否符合质量要求还可以采用但不限于：基于机器学习的方法、基于概率模型的方法或者基于神经网络的方法。其中，基于机器学习的方法可以是支持向量机等，基于概率模型的方法可以是根据自然图像质量评价器（Natural Image Quality Evaluator，NIQE）等，基于神经网络的方法可以是卷积神经网络（Convolutional Neural Networks，CNN）等。

在本实施例中，如图2a所示，对象跟踪模型23输出的各移动对象对应的目标局部图像被输入至对象属性识别模型24中，对象属性识别模型24对各移动对象对应的目标局部图像进行属性识别，得到移动对象的属性信息。可选地，在本实施例中，在移动对象上指定局部特征在多帧第一局部图像中不可见的情况下，从移动对象维度对移动对象整体进行属性识别。

在一些应用场景中，需要在移动对象上的指定局部特征可见的情况下，对从移动对象维度对移动对象整体进行属性识别。例如，在移动对象为车辆，指定局部特征为车牌的情况下，需要在车牌可见的情况下获取车辆的属性信息。基于此，在从移动对象维度对移动对象整体进行属性识别的情况下，可以将特征可见模型22输出的多帧第一局部图像对应的检测结果和对象跟踪模型23输出的目标局部图像，一并输入对象属性识别模型24中。其中，多帧第一局部图像中包括目标局部图像，因此可以从多帧第一局部图像中获取目标局部图像对应的检测结果，若目标局部图像对应的检测结果指示移动对象上的指定局部特征在目标局部图像中可见，则针对目标局部图像上的移动对象进行属性识别，得到移动对象的属性信息。

在本实施例中，如图2b所示，特征可见模型22输出的多帧第一局部图像对应的检测结果和对象跟踪模型23输出的目标局部图像被按序输入至特征属性识别模型25中。其中，多帧第一局部图像中包括目标局部图像，因此可以从多帧第一局部图像中获取目标局部图像对应的检测结果，若目标局部图像对应的检测结果指示移动对象上的指定局部特征在目标局部图像中可见，则针对目标局部图像上移动对象的局部特征进行属性识别，得到移动对象局部特征的属性信息。

进一步可选地，在目标局部图像对应可见检测结果的情况下，即目标局部图像对应的检测结果指示移动对象上的指定局部特征在目标局部图像中可见，则基于目标局部图像中的关键点特征对目标局部图像进行裁剪得到包含指定局部特征的第二局部图像；将第二局部图像输入特征属性识别模型25进行属性识别，以得到与指定局部特征对应的至少一种属性信息。

进一步可选地，如图2c所示，在目标局部图像对应可见检测结果的情况下，可以将目标局部图像输入至特征检测模型26中，由特征检测模型26对目标局部图像中的关键点特征进行检测，并基于检测到的关键点特征对目标局部图像进行裁剪，得到包含指定局部特征的第二局部图像。其中，特征检测模型26可以采用目标检测模型，关于目标检测模型的详细内容可参见前述内容，在此不再赘述。其中，指定局部特征的关键点可以是但不限于：中心关键点、左上关键点、右上关键点、左下关键点或右下关键点等。其中，第二局部图像对指定局部特征具有放大功能，对放大后的指定局部特征进行属性识别，有利于提高属性识别的准确度。

在一可选实施例中，移动对象为车辆，指定局部特征为车辆上的车牌。基于此，图2a中的对象属性识别模型24可实现为车辆属性分类模型，则将目标局部图像和多帧第一局部图像对应的检测结果输入车辆属性分类模型，可以针对车辆进行属性分类，以得到车辆的至少一种属性信息。车辆的属性信息包括车辆的颜色、大小、车型等。相应地，在图2b中，特征属性识别模型25包括车牌字符识别模型251和车牌属性分类模型252，可以将第二局部图像输入特征属性识别模型25中的车牌字符识别模型251进行属性识别，以得到车牌的字符信息；将第二局部图像输入特征属性识别模型25中的车牌属性分类模型252，以得到车牌的其它属性信息。其中，车牌的其它属性信息包括但不限于：车牌颜色、车牌类型或车牌清晰度等。

在本实施例中，考虑到不同种多级神经网络模型之间，可以复用相同的上级神经网络模型。将图2a与图2b进行结合，实现神经网络模型的复用，得到图2d所示的多种多级神经网络模型。如图2d所示，对象检测模型21是被下一级的对象跟踪模型23和特征可见模型22复用的首级神经网络模型，特征可见模型22被对象属性识别模型24和特征属性识别模型25复用，对象跟踪模型23被对象属性识别模型24和特征属性识别模型25复用。其中，车牌字符识别模型251和车牌属性分类模型252为可选的实施方式，用虚线表示。需要说明的是，从移动对象的局部特征进行属性识别时，不同局部特征可以对应不同的特征可见模型22，也就是说，特征可见模型22可以是一个或多个，具体特征可见模型22的数量视移动对象上局部特征的数量而定。

图2d所示的多维多级神经网络模型的工作原理如下：将从原始视频流中选择的多帧目标图像输入至对象检测模型21；对象检测模型21从多帧目标图像中提取包含移动对象的多帧第一局部图像，并将多帧第一局部图像输出至特征可见模型22和对象跟踪模型23，对象检测模型21是被下一级的对象跟踪模型23和特征可见模型22复用的首级神经网络模型；特征可见模型22的输入为多帧第一局部图像，特征可见模型22用于检测移动对象上的指定局部特征是否在多帧第一局部图像中可见并输出对应的检测结果，特征可见模型22被对象属性识别模型24和特征属性识别模型25复用；对象跟踪模型23的输入为多帧第一局部图像，对象跟踪模型23用于跟踪同一移动对象的第一局部图像并输出其中符合质量要求的目标局部图像，对象跟踪模型23被对象属性识别模型24和特征属性识别模型25复用；对象属性识别模型24的输入为目标局部图像和多帧第一局部图像对应的检测结果，对象属性识别模型24用于针对移动对象进行属性识别；特征属性识别模型25的输入为目标局部图像和多帧第一局部图像对应的检测结果，特征属性识别模型25用于针对移动对象的指定局部特征进行属性识别；综合对象属性识别模型24和特征属性识别模型25的输出结果，可得到针对移动对象及其局部特征的M种属性信息。

可选地，在特征属性识别模型25之前，在目标局部图像对应可见检测结果的情况下，可以将目标局部图像输入至特征检测模型中，由特征检测模型对目标局部图像中的关键点特征进行检测，并基于检测到的关键点特征对目标局部图像进行裁剪，得到包含指定局部特征的第二局部图像。其中，特征检测模型并未在图2d中示出。

本申请实施例还提供一种视频处理系统，如图3所示，该视频处理系统300包括：视频采集设备301、服务端设备302以及应用端设备303。

在本实施例中，视频采集设备301可以采集包括移动对象的原始视频流并上传至服务端设备302，以供服务端设备302对移动对象进行属性识别。其中，视频采集设备301可以直接将采集到的原始视频流上传至服务端设备302，或者经一些边缘设备或网关设备等上传至服务端设备302，或者，将采集到的原始视频流发送给应用端设备303，由应用端设备303将原始视频流提供给服务端设备302。视频采集设备301可以实现为摄像头或电子眼等。其中，移动对象可以是车辆、人物、动物、机器人等可以自由移动的对象。

服务端设备302从视频采集设备301或应用端设备303上传的原始视频流中，选择多帧目标图像；利用多维多级神经网络模型对多帧目标图像进行属性识别，以获得移动对象对应的M种属性信息，并将移动对象对应的M种属性信息提供给应用端设备303。

应用端设备303基于移动对象对应的M种属性信息，执行与移动对象对应的处理操作，所述处理操作包括针对移动对象的跟踪定位、流量统计、分类、识别、检测中的至少一种操作。应用端可以是但不限于：台式电脑、笔记本电脑或智能手机等终端设备。

在上述系统实施例中，关于服务端设备302获得移动对象对应的M种属性信息的详细实施方式可参见前述方法实施例，在此不再赘述。

场景化实施例：城市交通管理系统

在该城市交通管理系统中，视频采集设备实现为摄像头，服务端设备实现为云服务器，应用端设备实现为管控终端。管控终端需要对一段时间内，通过某个路口的车辆进行分析，例如，车辆跟踪定位、车辆检测、车辆分类或车辆识别等。其中，管控终端需要获取车辆的属性信息和车牌的属性信息，基于车辆和车牌信息实现车辆跟踪定位、车辆检测、车辆分类或车辆识别等。摄像头可以采集包含车辆的原始视频流，并将原始视频流提供给管控终端，管控终端在需要对车辆进行跟踪定位、车辆检测、车辆分类或车辆识别等操作时，将原始视频流提供给云服务器。云服务器对原始视频流进行属性识别得到车辆的属性信息和车牌的属性信息，并提供给管控终端。其中，云服务器进行视频处理的过程如图4所示。

如图4所示，云服务器采用的多维多级神经网络模型包括：视频帧质量过滤模型40、车辆检测模型41、车牌可见模型42、车辆跟踪模型43、车辆属性分类模型44、车牌属性识别模型45、车牌关键点检测模型46，其中，车牌属性识别模型45包括：车牌字符识别模型451和车牌属性分类模型452。

其中，视频帧质量过滤模型40的输入是原始视频流，视频帧质量过滤模型40实现为深度学习分类（classifier）模型，采用分类模型提取原始视频流中图像帧的图片特征（feature），例如亮度、灰度、清晰度或纹理等浅层特征，或者一些深层特征，通过提取的图片特征从原始视频流中选择符合质量要求的多帧目标图像，过滤掉质量较差的视频帧，有效降低后续模块的计算量和误检率。

其中，车辆检测模型41的输入是视频帧质量过滤模型40输出的多帧目标图像，车辆检测模型41实现为深度学习检测（detector）模型，用于检测多帧目标图像中的车辆，在检测检测到车辆后，生成包含车辆的局部图像（后续称为车辆小图）。例如，可以对目标图像进行裁剪，得到包含车辆的车辆小图。另外，考虑到尺寸过小的车辆小图较为模糊，不利于后续的属性识别，在本实施例中，可配合尺寸过滤算法，将尺寸小于设定尺寸阈值的车辆小图过滤掉，得到符合要求的多帧第一局部图像，也即多帧车辆小图。

其中，车牌可见模型42的输入为多帧车辆小图，车牌可见模型42实现为深度学习分类模型，用于采用卷积神经网络提取图片特征，通过提取的特征来判断车辆小图中的车牌是否可见，并输出多帧车辆小图的车牌是否可见的检测结果。

其中，车辆跟踪模型43的输入为多帧车辆小图，车辆跟踪模型43实现为深度学习跟踪（tracker）模型，用于对多帧车辆小图进行跟踪，以对多帧车辆小图中的车辆进行跟踪，获取同一车辆的多帧第一车辆小图，从同一车辆的多帧车辆小图中选择该车辆对应的质量符合要求的车辆小图，即目标局部图像，并将该目标局部图像输出。其中，质量符合要求的车辆小图可实现为车牌清晰度最高的车辆小图。

其中，车辆属性分类模型44的输入为车辆小图中车牌是否可见的检测结果和质量符合要求的车辆小图，车辆属性分类模型44实现为深度学习分类模型，用于在质量符合要求的车辆小图中车牌信息可见的情况下，输出质量符合要求的车辆小图中车辆的属性信息，包括：车辆类型、车辆品牌、车辆朝向、车辆颜色、车辆清晰度等属性。

其中，车牌关键点检测模型46的输入为车辆小图中车牌是否可见的检测结果和质量符合要求的车辆小图，车辆关键点检测模型46实现为深度学习检测模型，用于在质量符合要求的车辆小图中的车牌信息可见的情况下，检测车牌的左上、左下、右上以及右下四个关键点坐标，根据关键点坐标对质量符合要求的车辆小图进行裁剪，得到车牌小图，即第二局部图像。

其中，车牌字符识别模型451的输入为车牌小图，车牌字符识别模型451实现为深度学习识别模型，用于对车牌小图进行识别，输出车牌小图的字符结果。

其中，车牌属性分类模型452的输入为车牌小图，车牌属性分类模型452实现为深度学习分类模型，用于输出车牌的除字符之外的其它属性信息，包括：车牌颜色、车牌类型、车牌清晰度等。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤102的执行主体可以为设备A；又比如，步骤401的执行主体可以为设备A，步骤102的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图5为本申请示例性实施例提供的一种计算机设备的结构示意图。如图5所示，该计算机设备包括：存储器54和处理器55。

存储器54，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算机设备上的操作。这些数据的示例包括用于在计算机设备上操作的任何应用程序或方法的指令。

存储器54可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器55，与存储器54耦合，用于执行存储器54中的计算机程序，以用于：获取包括移动对象的原始视频流，从原始视频流中选择多帧目标图像；利用多维多级神经网络模型对多帧目标图像进行属性识别，以获得移动对象对应的M种属性信息；其中，多维多级神经网络模型包括N种并联的多级神经网络模型，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N。

在一可选实施例中，处理器55在从原始视频流中选择多帧图像时，具体用于：对原始视频流进行采样，以得到多帧采样图像；利用卷积神经网络对多帧采样图像进行特征提取，以得到多帧采样图像的图像特征；基于多帧采样图像的图像特征，从中选择图像质量符合要求的多帧目标图像。

在一可选实施例中，N种多级神经网络模型至少包括：用于从移动对象维度进行属性识别的多级神经网络模型和从移动对象上的局部特征维度进行属性识别的多级神经网络模型。

在一可选实施例中，处理器55在利用多维多级神经网络模型对多帧目标图像进行属性识别，以得到移动对象的M种属性信息时，具体用于：将多帧目标图像输入对象检测模型，以从多帧目标图像中提取包含移动对象的多帧第一局部图像，对象检测模型是被下一级的对象跟踪模型和特征可见模型复用的首级神经网络模型；将多帧第一局部图像输入特征可见模型，以检测移动对象上的指定局部特征是否在多帧第一局部图像中可见并输出对应的检测结果，特征可见模型被对象属性识别模型和特征属性识别模型复用；将多帧第一局部图像输入对象跟踪模型，以跟踪同一移动对象的第一局部图像并输出其中符合质量要求的目标局部图像，对象跟踪模型被对象属性识别模型和特征属性识别模型复用；将目标局部图像和多帧第一局部图像对应的检测结果输入对象属性识别模型和特征属性识别模型，以针对移动对象和指定局部特征分别进行属性识别，得到M种属性信息。

在一可选实施例中，处理器55在将目标局部图像和多帧第一局部图像对应的检测结果输入特征属性识别模型，以针对指定局部特征进行属性识别时，具体用于：将目标局部图像和多帧第一局部图像对应的检测结果输入特征检测模型，以在目标局部图像对应可见检测结果的情况下，基于目标局部图像中的关键点特征对目标局部图像进行裁剪得到包含指定局部特征的第二局部图像；将第二局部图像输入特征属性识别模型，以得到与指定局部特征对应的至少一种属性信息。

在一可选实施例中，移动对象为车辆，指定局部特征为车辆上的车牌，处理器55在将第二局部图像输入特征属性识别模型，以得到与指定局部特征对应的至少一种属性信息时，具体用于：将第二局部图像输入特征属性识别模型中的车牌字符识别模型，以得到车牌的字符信息；将第二局部图像输入特征属性识别模型中的车牌属性分类模型，以得到车牌的其它属性信息。

在一可选实施例中，对象属性识别模型为车辆属性分类模型，处理器55在将目标局部图像和多帧第一局部图像对应的检测结果输入对象属性识别模型，以针对移动对象进行属性识别时，具体用于：将目标局部图像和多帧第一局部图像对应的检测结果输入车辆属性分类模型，以针对车辆进行属性分类，以得到车辆的至少一种属性信息。

进一步，如图5所示，该计算机设备还包括：通信组件56、显示器57、电源组件58、音频组件59等其它组件。图5中仅示意性给出部分组件，并不意味着计算机设备只包括图5所示组件。需要说明的是，图5中虚线框内的组件为可选组件，而非必选组件，具体可视计算机设备的产品形态而定。

本实施例的计算机设备可以实现为台式电脑、笔记本电脑或智能手机等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算机设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图5中虚线框内的组件；若本实施例的计算机设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图5中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现图1所示方法中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现图1所示方法中的步骤。

上述图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图5中的显示器包括屏幕，其屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图5中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图5中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

获取包括移动对象的原始视频流，从所述原始视频流中选择多帧目标图像；

利用多维多级神经网络模型对所述多帧目标图像进行属性识别，以获得所述移动对象对应的M种属性信息；

其中，所述多维多级神经网络模型包括N种并联的多级神经网络模型，每种多级神经网络模型识别移动对象对应的一种或多种属性信息，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N；

所述多级神经网络模型包括：对象检测模型、特征可见模型、对象跟踪模型、对象属性识别模型以及特征属性识别模型；

所述对象检测模的输入是所述多帧目标图像，所述对象检测模型的输出是所述对象跟踪模型和所述特征可见模型的输入，所述对象检测模型是被下一级的对象跟踪模型和特征可见模型复用的首级神经网络模型；所述对象跟踪模型和所述特征可见模型的输出为对象属性识别模型的输入，对象属性识别模型的输出为移动对象的属性信息；所述对象跟踪模型和所述特征可见模型的输出为特征属性识别模型的输入，特征属性识别模型的输出为移动对象的局部特征的属性信息；所述特征可见模型被所述对象属性识别模型和所述特征属性识别模型复用，所述对象跟踪模型被对象属性识别模型和特征属性识别模型复用。

2.根据权利要求1所述的方法，其特征在于，从所述原始视频流中选择多帧图像，包括：

对所述原始视频流进行采样，以得到多帧采样图像；

利用卷积神经网络对所述多帧采样图像进行特征提取，以得到所述多帧采样图像的图像特征；

基于所述多帧采样图像的图像特征，从中选择图像质量符合要求的多帧目标图像。

3.根据权利要求1或2所述的方法，其特征在于，所述N种多级神经网络模型至少包括：用于从移动对象维度进行属性识别的多级神经网络模型和从移动对象上的局部特征维度进行属性识别的多级神经网络模型。

4.根据权利要求3所述的方法，其特征在于，利用多维多级神经网络模型对所述多帧目标图像进行属性识别，以得到移动对象的M种属性信息，包括：

将所述多帧目标图像输入对象检测模型，以从所述多帧目标图像中提取包含所述移动对象的多帧第一局部图像；

将所述多帧第一局部图像输入特征可见模型，以检测移动对象上的指定局部特征是否在所述多帧第一局部图像中可见并输出对应的检测结果；

将所述多帧第一局部图像输入所述对象跟踪模型，以跟踪同一移动对象的第一局部图像并输出其中符合质量要求的目标局部图像；

将所述目标局部图像和所述多帧第一局部图像对应的检测结果输入所述对象属性识别模型和所述特征属性识别模型，以针对所述移动对象和所述指定局部特征分别进行属性识别，得到M种属性信息。

5.根据权利要求4所述的方法，其特征在于，将所述目标局部图像和所述多帧第一局部图像对应的检测结果输入所述特征属性识别模型，以针对所述指定局部特征进行属性识别，包括：

将所述目标局部图像和所述多帧第一局部图像对应的检测结果输入特征检测模型，以在所述目标局部图像对应可见检测结果的情况下，基于所述目标局部图像中的关键点特征对所述目标局部图像进行裁剪得到包含所述指定局部特征的第二局部图像；

将所述第二局部图像输入所述特征属性识别模型，以得到与所述指定局部特征对应的至少一种属性信息。

6.根据权利要求5所述的方法，其特征在于，所述移动对象为车辆，所述指定局部特征为车辆上的车牌，则将所述第二局部图像输入所述特征属性识别模型，以得到与所述指定局部特征对应的至少一种属性信息，包括：

将所述第二局部图像输入所述特征属性识别模型中的车牌字符识别模型，以得到所述车牌的字符信息；

将所述第二局部图像输入所述特征属性识别模型中的车牌属性分类模型，以得到所述车牌的其它属性信息。

7.根据权利要求6所述的方法，其特征在于，所述对象属性识别模型为车辆属性分类模型，则将所述目标局部图像和所述多帧第一局部图像对应的检测结果输入所述对象属性识别模型，以针对所述移动对象进行属性识别，包括：

将所述目标局部图像和所述多帧第一局部图像对应的检测结果输入所述车辆属性分类模型，以针对所述车辆进行属性分类，以得到所述车辆的至少一种属性信息。

8.一种视频处理系统，其特征在于，包括：视频采集设备、服务端设备和应用端设备；

所述视频采集设备，用于采集包括移动对象的原始视频流并上传至服务端设备；

所述服务端设备，用于从所述视频采集设备上传的原始视频流中，选择多帧目标图像；利用多维多级神经网络模型对所述多帧目标图像进行属性识别，以获得所述移动对象对应的M种属性信息，并提供给所述应用端设备；其中，所述多维多级神经网络模型包括N种并联的多级神经网络模型，每种多级神经网络模型识别移动对象对应的一种或多种属性信息，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N；其中，所述多级神经网络模型包括：对象检测模型、特征可见模型、对象跟踪模型、对象属性识别模型以及特征属性识别模型；所述对象检测模的输入是所述多帧目标图像，所述对象检测模型的输出是所述对象跟踪模型和所述特征可见模型的输入，所述对象检测模型是被下一级的对象跟踪模型和特征可见模型复用的首级神经网络模型；所述对象跟踪模型和所述特征可见模型的输出为对象属性识别模型的输入，对象属性识别模型的输出为移动对象的属性信息；所述对象跟踪模型和所述特征可见模型的输出为特征属性识别模型的输入，特征属性识别模型的输出为移动对象的局部特征的属性信息；所述特征可见模型被所述对象属性识别模型和所述特征属性识别模型复用，所述对象跟踪模型被对象属性识别模型和特征属性识别模型复用；

应用端设备，用于基于所述移动对象对应的M种属性信息，执行与所述移动对象对应的处理操作。

9.根据权利要求8所述的系统，其特征在于，所述移动对象为车辆，所述N种多级神经网络模型至少包括：车辆属性识别模型和车牌属性识别模型。

10.一种计算机设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，与所述存储器耦合，用于执行所述计算机程序，以用于：获取包括移动对象的原始视频流，从所述原始视频流中选择多帧目标图像；利用多维多级神经网络模型对所述多帧目标图像进行属性识别，以获得所述移动对象对应的M种属性信息；其中，所述多维多级神经网络模型包括N种并联的多级神经网络模型，每种多级神经网络模型识别移动对象对应的一种或多种属性信息，且在N种多级神经网络模型之间，至少存在部分输入相同的多个神经网络模型复用相同的上级神经网络模型；其中，N和M是大于等于2的正整数，且M≥N；

所述多级神经网络模型包括：对象检测模型、特征可见模型、对象跟踪模型、对象属性识别模型以及特征属性识别模型；所述对象检测模的输入是所述多帧目标图像，所述对象检测模型的输出是所述对象跟踪模型和所述特征可见模型的输入，所述对象检测模型是被下一级的对象跟踪模型和特征可见模型复用的首级神经网络模型；所述对象跟踪模型和所述特征可见模型的输出为对象属性识别模型的输入，对象属性识别模型的输出为移动对象的属性信息；所述对象跟踪模型和所述特征可见模型的输出为特征属性识别模型的输入，特征属性识别模型的输出为移动对象的局部特征的属性信息；所述特征可见模型被所述对象属性识别模型和所述特征属性识别模型复用，所述对象跟踪模型被对象属性识别模型和特征属性识别模型复用。

11.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-7任一项所述方法中的步骤。