CN112990156B

CN112990156B - 基于视频的最优目标捕捉方法、装置及相关设备

Info

Publication number: CN112990156B
Application number: CN202110517094.XA
Authority: CN
Inventors: 张松华; 闫潇宁; 郑双午
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-13
Anticipated expiration: 2041-05-12
Also published as: CN112990156A

Abstract

本发明实施例提供一种基于视频的最优目标捕捉方法，包括：从视频中获取一帧图像，所述图像包括至少一个待捕捉目标；基于所述图像，通过第一模型对所述待捕捉目标进行基础特征提取，得到所述待捕捉目标的基础特征；基于所述待捕捉目标的基础特征，通过第二模型提取所述待捕捉目标的多个属性特征，并通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征；基于所述多个属性特征和所述属性融合特征，通过预构建评分函数对所述图像中的待捕捉目标进行质量评分，得到所述图像的质量分数；重复上述步骤，得到对应多帧图像的多个质量分数，并从中选出质量分数最高的一帧图像作为所述视频的最优目标。

Description

基于视频的最优目标捕捉方法、装置及相关设备

技术领域

本发明涉及人工智能领域，尤其涉及一种基于视频的最优目标捕捉方法、装置及相关设备。

背景技术

近年来，随着人工智能领域中深度学习技术的发展以及相关硬件设备算力的提升，基于计算机视觉的应用在各个领域得到落地和进一步发展，例如安防领域，其中很多业务场景都需要在一段视频帧内捕捉到一个目标的最佳图片，比如基于视频的行人在线认证、跨摄像头的行人重识别等，又如警方在利用监控视频追踪犯罪嫌疑人时，需要对出现嫌疑人的摄像视频进行分析，获取嫌疑人最清晰的正面特征方便后续抓捕工作的开展。

在现有技术中，传统判断目标是否为最优的方法只是通过网络输出的目标置信度进行判断，但是这样并不能确保目标就是最优的，比如目标背对时获得的置信度比正面时置信度更高，这就导致只能够保存目标的背对图像，难以准确从图像中获得最清晰、最大、正面的最优目标，导致后续业务场景无法高效使用。

发明内容

本发明实施例提供一种基于视频的最优目标捕捉方法，能够准确从视频图像中获取最优目标，以供后续业务场景高效使用。

第一方面，本发明实施例提供一种基于视频的最优目标捕捉方法，包括以下步骤：

从视频中获取一帧图像，所述图像包括至少一个待捕捉目标，所述待捕捉目标包括目标行人；

基于所述图像，通过第一模型对所述待捕捉目标进行基础特征提取，得到所述待捕捉目标的基础特征；

基于所述待捕捉目标的基础特征，通过第二模型提取所述待捕捉目标的多个属性特征，并通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征；

基于所述多个属性特征和所述属性融合特征，通过预构建评分函数对所述图像中的待捕捉目标进行质量评分，得到所述图像的质量分数；

重复上述步骤，直到所述视频的最后一帧图像，得到对应多帧图像的多个质量分数，并从中选出质量分数最高的一帧图像作为所述视频的最优目标。

可选的，所述待捕捉目标的多个属性特征包括所述目标行人的多个属性特征，所述多个属性特征包括：目标行人朝向、目标行人遮挡比率、目标行人脸部遮挡比率以及目标行人站立状态。

可选的，所述第一模型包括标准卷积结构和特征降维结构，所述标准卷积结构包括二维卷积层、归一化层和激活层。所述特征降维结构包括分组卷积层、标准卷积层、平均池化层和二维卷积层。

可选的，所述第二模型包括对应所述待捕捉目标的多个属性特征的多个属性特征提取模块，每个属性特征提取模块从所述目标行人的基础特征中提取出一个目标行人属性特征；每个属性特征提取模块包括一个所述标准卷积结构和两个所述特征降维结构。

可选的，所述第三模型包括特征拼接层和特征融合层，所述通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征的步骤，包括：

将所述多个目标行人属性特征通过所述特征拼接层进行拼接，得到拼接特征；

将所述拼接特征通过所述特征融合层进行特征融合，得到属性融合特征。

可选的，所述评分函数的预构建包括以下步骤：

根据业务场景确定每个目标行人属性特征的位置；

确定每个目标行人属性特征的权重；

基于每个目标行人属性特征的位置和权重得到所述评分函数。

可选的，所述方法还包括步骤：

将所述第一模型、所述第二模型以及所述第三模型依次连接起来进行端到端的预训练，其中，所述预训练包括步骤：

获取预训练用的视频数据；

从所述预训练用的视频数据中抽取帧图像，从所述图像中检测出行人并进行标记，包括位置标记和属性标记，得到行人数据集；

将所述行人数据集划分为训练集、验证集和测试集；

分别构建所述第一模型、所述第二模型及所述第三模型，将三个模型连接成一个模型并通过所述行人数据集进行预训练、验证和测试，得到训练好的第一模型、第二模型及第三模型。

第二方面，本发明实施例提供一种基于视频的最优目标捕捉装置，包括：

获取模块，用于从视频中获取一帧图像，所述图像包括至少一个待捕捉目标，所述待捕捉目标包括目标行人；

提取模块，用于基于所述图像，通过第一模型对所述待捕捉目标进行基础特征提取，得到所述待捕捉目标的基础特征；

提取和融合模块，用于基于所述待捕捉目标的基础特征，通过第二模型提取所述待捕捉目标的多个属性特征，并通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征；

评分模块，用于基于所述多个属性特征和所述属性融合特征，通过预构建评分函数对所述图像中的待捕捉目标进行质量评分，得到所述图像的质量分数；

输出模块，用于输出最优目标；

所述获取模块、提取模块、提取和融合模块、以及评分模块所执行的步骤，直到所述视频的最后一帧图像，得到对应多帧图像的多个质量分数，并通过所述输出模块从中选出质量分数最高的一帧图像作为所述视频的最优目标。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的基于视频的最优目标捕捉方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现发明实施例提供的基于视频的最优目标捕捉方法中的步骤。

本发明实施例中，从视频中获取一帧图像，所述图像包括至少一个待捕捉目标；基于所述图像，通过第一模型对所述待捕捉目标进行基础特征提取，得到所述待捕捉目标的基础特征；基于所述待捕捉目标的基础特征，通过第二模型提取所述待捕捉目标的多个属性特征，并通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征；基于所述多个属性特征和所述属性融合特征，通过预构建评分函数对所述图像中的待捕捉目标进行质量评分，得到所述图像的质量分数；重复上述步骤，直到所述视频的最后一帧图像，得到对应多帧图像的多个质量分数，并从中选出质量分数最高的一帧图像作为所述视频的最优目标。通过第一模型从视频中的每一帧包括待捕捉目标的图像提取出基础特征，通过第二模型从基础特征中进一步提取待捕捉目标的多个属性特征，并通过第三模型对所述多个属性特征进行融合得到属性融合特征，最后基于待捕捉目标的多个属性特征和融合特征通过预构建的评分函数对每帧图像中的待捕捉目标进行质量评分，并选出质量分数最高的一帧图像，从而可以准确从所述视频中获得最优目标，以供后续业务场景高效使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于视频的最优目标捕捉方法的流程图；

图2a是本发明实施例提供的一种第一模型的结构示意图；

图2b是本发明实施例提供的第一模型的标准卷积结构示意图；

图2c是本发明实施例提供的第一模型的特征降维结构示意图；

图3是本发明实施例提供的一种第二模型的结构示意图；

图4是本发明实施例提供的一种第三模型的结构示意图；

图5是本发明实施例提供的另一种基于视频的最优目标捕捉方法的流程图；

图6是本发明实施例提供的一种基于视频的最优目标捕捉方法装置的结构示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种基于视频的最优目标捕捉方法的流程图，如图1所示，上述基于视频的最优目标捕捉方法包括以下步骤：

101、从视频中获取一帧图像，所述图像包括至少一个待捕捉目标。

在本发明实施例中，上述一种基于视频的最优目标捕捉方法可以运用在基于视频监控下的应用场景中，如行人在线认证等。上述提供的一种基于视频的最优目标捕捉方法运行于其上的电子设备可以通过有线连接方式或者无线连接方式获取上述视频数据以及进行数据传输。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi（Wireless-Fidelity）连接、蓝牙连接、WiMax（Worldwide Interoperability forMicrowave Access）连接、Zigbee（低功耗局域网协议，又称紫峰协议）连接、UWB( ultrawideband )连接、以及其他现在已知或将来开发的无线连接方式。

上述视频数据可以通过视频采集设备进行实时拍摄采集并传输，也可以通过人工从终端主动上传等，然后对获取的视频数据进行存储或直接输入基于视频的最优目标捕捉方法运行于其上的电子设备上进行检测。上述的视频采集设备可以包括摄像头以及配置有摄像头并可以进行视频图像采集的电子设备。上述视频可以包括多帧连续的图像数据，也可以是间隔一定时间采集到的多帧图像序列，上述图像包括至少一个待捕捉目标，该待捕捉目标可以是行人，也可以是其他事物，如车辆号码牌、动物等。

102、基于所述图像，通过第一模型对所述待捕捉目标进行基础特征提取，得到所述待捕捉目标的基础特征。

参见图2a，图2a是本发明实施例提供的一种第一模型的结构示意图，上述第一模型包括2个标准卷积结构和12层特征降维结构，每4层特征降维结构组成一组，共三组特征降维结构，其中，如图2b所示，每个标准卷积结构包括首尾两个二维卷积层、归一化层和激活层。

首先将上述步骤101中获取的一帧图像处理为640×640的RGB图像，然后输入上述第一模型，先经过卷积核为3×3的两个标准卷积结构将通道数提升至64，具体的，第一个标准卷积结构尾部的二维卷积层将通道提升至32，第二个标准卷积结构尾部的二维卷积层将通道提升至64，将图像的尺寸变为160×160；然后在两个标准卷积结构后，连续设置有上述三组4层特征降维模块结构来提取上述图像中待捕捉目标的基础特征，如图2c所示，每个特征降维结构由分组卷积层、1×1标准卷积层、平均池化层和最后用于提升通道数的二维卷积层组成，同时收集每组特征降维结构输出的基础特征并进行叠加，然后输出到第二模型。上述基础特征包括待捕捉目标的低维度的特征信息，如行人的眼部特征、手脚特征等。

103、基于所述待捕捉目标的基础特征，通过第二模型提取所述待捕捉目标的多个属性特征，并通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征。

在本发明实施例中，所述待捕捉目标包括目标行人，所述待捕捉目标的多个属性特征包括所述目标行人的多个属性特征，如目标行人朝向、目标行人遮挡比率、目标行人脸部遮挡比率以及目标行人站立状态等，还可以根据需要预设其他属性特征，如穿着特征等。

所述第二模型包括对应所述待捕捉目标的多个属性特征的多个属性特征提取模块，如目标行人朝向特征提取模块、目标行人遮挡比率特征提取模块、目标行人脸部遮挡比率特征提取模块以及目标行人站立状态特征提取模块，每个属性特征提取模块从上述步骤102中输出的目标行人的基础特征中提取出一个对应的目标行人属性特征；每个属性特征提取模块包括一个标准卷积结构（其结构与上述的标准卷积结构相同）和两个的特征降维结构（其结构与上述的特征降维结构相同），参见图3所示的本发明实施例提供的一种第二模型的结构示意图。

进一步的，参见图4，图4是本发明实施例提供的一种第三模型的结构示意图，上述第三模型包括特征拼接层和特征融合层，上述特征拼接层用于将上述第二模型提取出的目标行人的多个属性特征进行拼接，得到目标行人的属性拼接特征，然后通过上述特征融合层的4个上述特征降维结构对得到的目标行人的属性拼接特征进行特征融合，得到目标行人的属性融合特征，该目标行人的属性融合特征包括了上述每个属性特征的共性特征，可用于目标行人的检测特征，即基于该属性融合特征可以通过目标检测模型获得目标行人的检测框，该检测框即是目标行人在图像中的位置，还可以基于该检测框与图像尺寸的比例计算出目标人员在图像中的占比。

值得说明的是，本实施例中，还包括对所述第一模型、所述第二模型以及所述第三模型依次连接起来组成一个模型并通过同一个数据集进行端到端的预训练，具体预训练过程包括步骤：

获取预训练用的视频数据；

将所述行人数据集划分为训练集、验证集和测试集；

104、基于所述多个属性特征和所述属性融合特征，通过预构建评分函数对所述图像中的待捕捉目标进行质量评分，得到所述图像的质量分数。

在本发明实施例中，所述评分函数的预构建包括以下步骤：

S1、根据业务场景确定每个目标行人属性特征的位置；

S2、确定每个目标行人属性特征的权重；

S3、基于每个目标行人属性特征的位置和权重得到所述评分函数。

例如，当业务场景为基于人脸的应用时，如行人在线认证的业务场景需要获取行人的面部特征，就必须要求目标行人是正面朝向，并且脸部遮挡要尽量小，则上述目标行人朝向、目标行人遮挡比率、目标行人脸部遮挡比率以及目标行人站立状态四个目标行人属性特征根据重要程度进行位置设置，按目标行人朝向、目标行人脸部遮挡比率、目标行人遮挡比率、目标行人站立状态确定在评分函数中顺序，并确定每个目标行人属性特征的权重，然后基于上述每个目标行人属性特征的位置和权重得到所述评分函数，可表示为：

评分=目标行人朝向*（1-目标行人脸部遮挡比率）*（（1-目标行人遮挡比率）*0.3+目标行人站立状态*0.8+目标行人面积占比）。

其中，目标行人朝向的权重可以取正面（1.0），左面（0.5），右面（0.5），背面（0.0），本实施例中，上述的评分函数及对应属性权重仅作为一种可能的实施方式的示例，并不意味着其他实施例中也适用于该评分函数。在其他的实施例中，可根据具体实际场景、需求及部署模型的性能进行具体设定适用的评分函数。目标行人面积占比可通过目标检测模型从上述属性融合特征中获得目标行人的检测框、然后基于该检测框与图像尺寸的比例计算出的目标人员在图像中的占比得到。

然后通过上述评分函数对图像中的目标行人进行质量评分，即可以得到所述图像的质量分数。

105、重复上述步骤，直到所述视频的最后一帧图像，得到对应多帧图像的多个质量分数，并从中选出质量分数最高的一帧图像作为所述视频的最优目标。

在本发明实施例中，通过重复上述步骤101至104，可以对视频中的每一帧图像进行图像质量评分，得到对应多帧图像的多个质量分数，然后从中选出质量分数最高的一帧图像作为所述视频的最优目标图像，即通过上述步骤可以筛选出视频中目标行人朝向正面、目标行人遮挡最少、且目标行人最大的最优目标图像，从而可以准确从所述视频中获得最优目标，以供后续业务场景高效使用。

进一步的，为了避免出现同一个目标重复保存的情况，本发明实施例使用DeepSort目标跟踪算法对上述视频图像中的目标人员进行跟踪，对得到的最优目标进行查找历史信息库，检查目标是否存在于目标库中，对已经存在于目标库中的相同目标进行去重，即更新对应的目标，如果不存在则将目标添加进目标库中，节约了存储资源，整个过程可参见图5所示的本发明实施例提供的另一种基于视频的最优目标捕捉方法的流程图。

需要说明的是，本发明实施例提供的基于视频的最优目标捕捉方法可以应用于可以进行基于视频的最优目标捕捉的手机、监控器、计算机、服务器等设备。

请参见图6，图6是本发明实施例提供的一种基于视频的最优目标捕捉装置，基于视频的最优目标捕捉装置600包括：

获取模块601，用于从视频中获取一帧图像，所述图像包括至少一个待捕捉目标；

提取模块602，用于基于所述图像，通过第一模型对所述待捕捉目标进行基础特征提取，得到所述待捕捉目标的基础特征；

提取和融合模块603，用于基于所述待捕捉目标的基础特征，通过第二模型提取所述待捕捉目标的多个属性特征，并通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征；

评分模块604，用于基于所述多个属性特征和所述属性融合特征，通过预构建评分函数对所述图像中的待捕捉目标进行质量评分，得到所述图像的质量分数；

输出模块605，用于输出最优目标；

上述获取模块601、提取模块602、提取和融合模块603以及评分模块604所执行步骤，直到所述视频的最后一帧图像，得到对应多帧图像的多个质量分数，并通过所述输出模块605从中选出质量分数最高的一帧图像作为所述视频的最优目标。

需要说明的是，本发明实施例提供的基于视频的最优目标捕捉装置可以应用于可以进行基于视频的最优目标捕捉的手机、监控器、计算机、服务器等设备。

本发明实施例提供的基于视频的最优目标捕捉装置能够实现上述方法实施例中基于视频的最优目标捕捉方法实现的各个过程，且可以达到相同的有益效果。为避免重复，这里不再赘述。

参见图7，图7是本发明实施例提供的一种电子设备的结构示意图，如图7所示，电子设备700包括：存储器702、处理器701及存储在所述存储器702上并可在所述处理器701上运行的计算机程序，其中：

处理器701用于调用存储器702存储的计算机程序，执行如下步骤：

从视频中获取一帧图像，所述图像包括至少一个待捕捉目标；

可选的，处理器701执行的步骤中，所述待捕捉目标包括目标行人，所述待捕捉目标的多个属性特征包括所述目标行人的多个属性特征，包括：目标行人朝向、目标行人遮挡比率、目标行人脸部遮挡比率以及目标行人站立状态。

可选的，处理器701执行的步骤中，所述第一模型包括标准卷积结构和特征降维结构，所述标准卷积结构包括二维卷积层、归一化层和激活层。所述特征降维结构包括分组卷积层、标准卷积层、平均池化层和二维卷积层。

可选的，处理器701执行的步骤中，所述第二模型包括对应所述待捕捉目标的多个属性特征的多个属性特征提取模块，每个属性特征提取模块从所述目标行人的基础特征中提取出一个目标行人属性特征；每个属性特征提取模块包括一个所述标准卷积结构和两个所述特征降维结构。

可选的，所述第三模型包括特征拼接层和特征融合层，处理器701执行的所述通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征，包括：

将所述目标行人的多个属性特征通过所述特征拼接层进行拼接，得到拼接特征；

可选的，处理器701执行的步骤中，所述评分函数的预构建包括以下步骤：

根据业务场景确定每个目标行人属性特征的位置；

确定每个目标行人属性特征的权重；

可选的，处理器701执行的步骤中，将所述第一模型、所述第二模型以及所述第三模型依次连接起来进行端到端的预训练，包括：

获取视频数据；

从所述视频数据中抽取帧图像，从所述图像中检测出行人并进行标记，包括位置标记和属性标记，得到行人数据集；

将所述行人数据集划分为训练集、验证集和测试集；

需要说明的是，上述电子设备可以是可以应用于可以进行基于视频的最优目标捕捉的手机、监控器、计算机、服务器等设备。

本发明实施例提供的电子设备能够实现上述方法实施例中基于视频的最优目标捕捉方法实现的各个过程，且可以达到相同的有益效果，为避免重复，这里不再赘述。

存储器702至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器702可以是电子设备700的内部存储单元，例如该电子设备700的硬盘或内存。在另一些实施例中，存储器702也可以是电子设备700的外部存储设备，例如该电子设备700上配备的插接式硬盘，智能存储卡（SmartMedia Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。当然，存储器702还可以既包括电子设备700的内部存储单元也包括其外部存储设备。本实施例中，存储器702通常用于存储安装于电子设备700的操作系统和各类应用软件，例如一种基于视频的最优目标捕捉方法的程序代码等。此外，存储器702还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器701在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器701通常用于控制电子设备700的总体操作。本实施例中，处理器701用于运行存储器702中存储的程序代码或者处理数据，例如运行一种基于视频的最优目标捕捉方法的程序代码。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的基于视频的最优目标捕捉方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存取存储器（Random AccessMemory，简称RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于视频的最优目标捕捉方法，其特征在于，包括以下步骤：

重复上述步骤，直到所述视频的最后一帧图像，得到对应多帧图像的多个质量分数，并从中选出质量分数最高的一帧图像作为所述视频的最优目标；

所述第三模型包括特征拼接层和特征融合层，所述通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征的步骤，包括：

将所述拼接特征通过所述特征融合层进行特征融合，得到属性融合特征；

所述评分函数的预构建包括以下步骤：

根据业务场景确定每个目标行人属性特征的位置；

确定每个目标行人属性特征的权重；

2.如权利要求1所述的基于视频的最优目标捕捉方法，其特征在于，所述待捕捉目标的多个属性特征包括所述目标行人的多个属性特征，所述多个属性特征包括：目标行人朝向、目标行人遮挡比率、目标行人脸部遮挡比率以及目标行人站立状态。

3.如权利要求1所述的基于视频的最优目标捕捉方法，其特征在于，所述第一模型包括标准卷积结构和特征降维结构，所述标准卷积结构包括二维卷积层、归一化层和激活层；所述特征降维结构包括分组卷积层、标准卷积层、平均池化层和二维卷积层。

4.如权利要求1所述的基于视频的最优目标捕捉方法，其特征在于，所述第二模型包括对应所述待捕捉目标的多个属性特征的多个属性特征提取模块，每个所述属性特征提取模块从所述目标行人的基础特征中提取出一个目标行人属性特征；每个所述属性特征提取模块包括一个标准卷积结构和两个特征降维结构。

5.如权利要求1所述的基于视频的最优目标捕捉方法，其特征在于，所述方法还包括步骤：

获取预训练用的视频数据；

将所述行人数据集划分为训练集、验证集和测试集；

6.一种基于视频的最优目标捕捉装置，其特征在于，包括：

输出模块，用于输出最优目标；

所述获取模块、提取模块、提取和融合模块、以及评分模块重复其所执行的步骤，直到所述视频的最后一帧图像，得到对应多帧图像的多个质量分数，并通过所述输出模块从中选出质量分数最高的一帧图像作为所述视频的最优目标；

其中，所述第三模型包括特征拼接层和特征融合层，所述通过第三模型对所述待捕捉目标的多个属性特征进行融合，得到属性融合特征的步骤，包括：

所述评分函数的预构建包括以下步骤：

根据业务场景确定每个目标行人属性特征的位置；

确定每个目标行人属性特征的权重；

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于视频的最优目标捕捉方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于视频的最优目标捕捉方法中的步骤。