CN111935479B

CN111935479B - 一种目标图像确定方法、装置、计算机设备及存储介质

Info

Publication number: CN111935479B
Application number: CN202010754420.4A
Authority: CN
Inventors: 刘忠耿; 唐邦杰; 潘华东; 殷俊; 张兴明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2023-01-17
Anticipated expiration: 2040-07-30
Also published as: CN111935479A

Abstract

本申请涉及计算机技术领域，提供一种目标图像确定方法、装置、计算机设备及存储介质，用于提高确定目标图像的准确性。该方法包括：获取视频序列中包含第一目标的多个视频帧；分别确定每个视频帧的质量评分；其中，所述质量评分用于表示当前视频帧中所述目标对应的第一目标区域的图像质量；将所述多个视频帧中所述质量评分满足质量评分条件的视频帧确定为目标图像。

Description

一种目标图像确定方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种目标图像确定方法、装置、计算机设备及存储介质。

背景技术

随着深度学习技术的不断发展，如何拓展学习过程中所需的样本成为研究难点。一般在筛选样本之前，可以对图像进行质量评估，进而可以将质量高的图像作为样本。

相关技术通常是从网络资源中获得大量图像，基于一套评价标准评价图像，但是实际上影响图像质量评估的因素有很多，例如拍摄对象和拍摄参数等，对于两个不同的拍摄对象的图像进行图像质量评估时，可能会出现实际质量较高的图像，其质量评估结果反而较差，即图像质量评估结果的准确性较低，从而依据图像质量评估结果确定出的目标图像不准确，进而可能会导致利用这些图像学习出的模型的准确性低。

发明内容

本申请实施例提供一种目标图像确定方法、装置、计算机设备及存储介质，用于提高确定目标图像的准确性。

第一方面，提供一种目标图像确定方法，该方法包括：

获取视频序列中包含第一目标的多个视频帧；

分别确定每个视频帧的质量评分；其中，所述质量评分用于表示当前视频帧中所述目标对应的第一目标区域的图像质量；

将所述多个视频帧中所述质量评分满足质量评分条件的视频帧确定为目标图像。

本申请中，针对包含特定目标的图像进行评分，筛选出的目标图像均是包含特定目标的，且是质量评分满足质量评分条件的视频帧，相较于忽略不同目标之间的差异统一进行评分的方式，本申请针对包含指定目标进行统一的评分和筛选，不会将包含不同目标的图像进行统一评分，考虑了不同目标之间的差异性，在评分时，针对图像中目标区域进行评分，这样使得确定出的目标图像评分更准确，提高了确定出的视频帧的质量评分的准确性，从而提高了确定出的目标图像的准确性，进而提高了后续基于目标图像学习得到的模型的准确性。在对视频序列中的视频帧进行分析处理时，针对包含指定目标的图像进行分析处理，不需要对视频序列中的每一视频帧进行分析处理，减少了针对视频序列进行分析处理的数据量，提高了针对视频序列进行分析处理的效率。且，本申请在评估时，是针对视频序列进行评估，而不是从网络资源获得的图像，即视频序列中每一视频帧在拍摄环境或者拍摄参数等方面差异相对较小，有利于提高评估图像的准确性。

可选的，所述质量评分条件为视频帧的质量评分在所述多个视频帧中每个视频帧的质量评分中最大；或者，

在排序后的所述多个视频帧中，视频帧排在预设排序号之前；其中，所述排序后的所述多个视频帧是按照质量评分的预设顺序对所述多个视频帧进行排序得到的。

本申请中，可以直接将评分最高的视频帧确定为目标图像，这样获得的图像质量评分更高，利于提高后续利用该图像进行学习出的模型的准确。或者筛选排名靠前的多个视频帧作为目标图像，能够一次性筛选出更多的目标图像，提高目标图像的筛选效率。

可选的，所述将所述多个视频帧中所述质量评分满足质量评分条件的视频帧确定为目标图像，包括：

针对所述多个视频帧中每个视频帧，若当前视频帧的质量评分大于目标图像的质量评分，则将当前视频帧更新为所述视频序列的目标图像；

其中，所述目标图像的质量评分为前序视频帧集中各前序视频帧的质量评分最大的质量评分，所述前序视频帧集包括所述多个视频帧中在当前视频帧之前，且包含所述第一目标的视频帧。

本申请中，通过比较多个视频帧中每个视频帧的质量评分，用质量评分大的视频帧代替质量评分小的视频帧，作为目标图像，从而获得视频序列的目标图像。由于各视频帧均属于同一视频序列，使得各视频帧在拍摄环境或者拍摄参数等方面差异相对较小，从而视频帧的质量评分之间具有可比性，确定出的目标图像是视频序列中质量较高的视频帧，相较于视频帧的质量评分与预设评分进行比较，获得目标图像的方式，避免了视频帧的质量评分高于预设评分，而视频帧在视频序列中的质量评分相对较低的情况，提高了确定视频序列中的目标图像的准确性。

可选的，所述获取视频序列中包含第一目标的多个视频帧，包括：

依次针对所述视频序列中每个视频帧，识别出当前视频帧中的多个目标，以及所述多个目标中的每个目标的目标区域；

确定每个目标区域与上一视频帧中第一目标区域之间的相似度；其中，所述上一视频帧中第一目标区域是指当前视频帧的前一帧中第一目标对应的区域；

将所述多个目标中相似度大于或等于阈值的目标确定为当前视频帧中的第一目标。

本申请中，在检测数视频帧的多个目标之后，会依据上一帧中第一目标区域与该视频帧各目标区域的相似度，进而确定出该视频帧中的第一目标，也就是说，在确定该视频帧的第一目标时，不仅仅依赖目标检测，还会依据该视频帧的上一帧的第一目标特征，由于相邻两帧之间针对同一目标呈现的差异较小，因此利用上一帧的第一目标区域与该视频帧各目标区域进行比对的方式，即利用目标跟踪的思想确定出第一目标，能够更准确地确定出该视频帧中的第一目标。

可选的，所述分别确定每个视频帧的质量评分，包括：

针对所述多个视频帧中的每个视频帧，对当前视频帧中第一目标区域的模糊评分、亮度评分和失真评分进行加权求和，获得当前视频帧的质量评分；其中，所述失真评分用于评价视频帧的失真程度。

本申请中，依据视频帧的模糊评分、亮度评分和失真评分多个角度的评分，确定视频帧的质量评分，使得确定出的质量评分包含了视频帧的多个角度的评分，即该质量评分更全面。在一定程度上，提高了确定出的视频帧的质量评分的准确性，从而提高了确定目标图像的准确性。

可选的，在所述分别确定每个视频帧的质量评分之前，包括：

针对每个视频帧，确定当前视频帧中第一目标区域的各像素值的均值对比度归一化系数；

根据各均值对比度归一化系数获取所述第一目标区域的高斯分布；

组合所述高斯分布中的多个分布特征，获得所述第一目标区域的第一特征矩阵；

将所述第一目标区域的第一特征矩阵输入已训练的回归模型，获得当前视频帧的失真评分，其中，所述已训练的回归模型是根据样本数据训练得到的，所述样本数据包括样本图像的样本特征矩阵、所述样本图像的失真评分。

本申请中，由于回归模型是根据大量的样本数据训练得到的，因此相较于仅针对当前视频帧中的像素值进行计算，确定视频帧的失真评分方法，本申请确定出的视频帧的失真评分是基于大数据确定出来的，减少了由于视频帧中的某一像素值，影响最终评估结果的情况，提高了确定出的失真评分的准确性更高，从而提高了根据失真评分确定的视频帧的质量评分的准确性。

针对每个视频帧，对当前视频帧进行灰度处理，获得第一中间视频帧；

根据预设算子，对所述第一中间视频帧进行特征提取，获得第二特征矩阵；

将所述第二特征矩阵的方差确定为当前视频帧的模糊评分。

由于对于清晰度高的图像来说，图像中各目标的像素值之间存在较大的差异，因此，本申请中通过算子提取视频帧的特征，并利用这些特征之间的方差来表征视频帧的模糊评分，与图像的实际质量高低情况相符，能够更恰当地评估出视频帧的模糊评分。且，通过简单的数学计算，获得视频帧的模糊评分，使得确定视频帧的模糊评分时，所占用的计算资源较少，从而降低了确定目标图像的计算资源的占用。

可选的，所述视频序列包括视频中满足以下一种或多种条件的视频帧：

拍摄参数相同，其中，拍摄参数包括拍摄所述视频的拍摄设备的拍摄参数，和/或属于所述视频中预设时间段内的视频帧；或，

拍摄场景相同，其中，所述拍摄场景是拍摄所述视频的拍摄设备所在环境的外部光照条件相同。

本申请中，视频序列中的视频帧是在拍摄参数相同或拍摄场景相同的条件下获得的，使得视频帧的质量评分之间具备可比性，从而，通过视频帧的质量评分之间的比较，确定目标图像时，相较于根据预设质量评分，确定目标图像的方法，本申请确定出的目标图像是视频序列中质量较好的视频帧，避免了视频帧的质量评分高于预设评分，而视频帧在视频序列中的质量评分相对较低的情况，提高了确定视频序列中的目标图像的准确性。

第二方面，提供一种目标图像确定装置，包括：

检测模块：用于获取视频序列中包含第一目标的多个视频帧；

处理模块：用于分别确定每个视频帧的质量评分；其中，所述质量评分用于表示当前视频帧中所述目标对应的第一目标区域的图像质量；以及，将所述多个视频帧中所述质量评分满足质量评分条件的视频帧确定为目标图像。

可选的，所述质量评分条件为视频帧的质量评分在所述多个视频帧中每个视频帧的质量评分中最大；或者，在排序后的所述多个视频帧中，视频帧排在预设排序号之前；其中，所述排序后的所述多个视频帧是按照质量评分的预设顺序对所述多个视频帧进行排序得到的。

可选的，所述处理模块具体用于：针对所述多个视频帧中每个视频帧，若当前视频帧的质量评分大于目标图像的质量评分，则将当前视频帧更新为所述视频序列的目标图像；

可选的，所述检测模块具体用于：

依次针对所述视频序列中每个视频帧，识别出当前视频帧中的多个目标，以及所述多个目标中的每个目标的目标区域；以及，

确定每个目标区域与上一视频帧中第一目标区域之间的相似度；其中，所述上一视频帧中第一目标区域是指当前视频帧的前一帧中第一目标对应的区域；以及，

可选的，所述处理模块具体用于：针对所述多个视频帧中的每个视频帧，对当前视频帧中第一目标区域的模糊评分、亮度评分和失真评分进行加权求和，获得当前视频帧的质量评分；其中，所述失真评分用于评价视频帧的失真程度。

可选的，所述处理模块还用于：

在所述分别确定每个视频帧的质量评分之前，针对每个视频帧，确定视频帧中第一目标区域的各像素值的均值对比度归一化系数；以及，

根据各均值对比度归一化系数获取所述第一目标区域的高斯分布；以及，

组合所述高斯分布中的多个分布特征，获得所述第一目标区域的第一特征矩阵；以及，

可选的，所述处理模块还用于：

在所述分别确定每个视频帧的质量评分之前，针对每个视频帧，对当前视频帧进行灰度处理，获得第一中间视频帧；以及，

根据预设算子，对所述第一中间视频帧进行特征提取，获得第二特征矩阵；以及，

将所述第二特征矩阵的方差确定为当前视频帧的模糊评分。

第三方面，提供一种计算机设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中任一所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面中任一所述的方法。

附图说明

图1为本申请实施例提供的目标图像确定方法的应用场景；

图2为本申请实施例提供的目标图像确定方法的交互示意图；

图3为本申请实施例提供的目标图像确定方法的流程示意图一；

图4为本申请实施例提供的目标图像确定方法的流程示意图二；

图5为本申请实施例提供的目标图像确定方法的流程示意图三；

图6为本申请实施例的提供的目标图像确定装置的结构示意图；

图7为本申请实施例的提供的计算机设备的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

另外，本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

为了提高确定目标图像的准确性，本申请提供一种目标图像确定的方法。下面对该方法涉及的应用场景进行说明。

请参考图1，为目标图像确定的方法的一种应用场景。该应用场景中包括目标图像确定设备101、采集设备102和模型训练设备103。目标图像确定设备101和采集设备102之间可以进行通信，目标图像确定设备101和模型训练设备103之间可以进行通信。

采集设备102泛指用于采集视频数据，获得视频序列的装置，例如摄像机。目标图像确定设备101泛指用于确定视频序列中的目标图像的装置，目标图像确定设备101可以是终端设备或服务器等，终端设备例如手机、台式计算机或平板电脑等。模型训练设备103泛指用于对目标图像进行数据分析的装置，模型训练设备103可以是终端设备或服务器等。

可选的，采集设备102可以集成在目标图像确定设备101上，属于目标图像确定设备101上，或者为两个独立的设备。目标图像确定设备101和模型训练设备103可以为同一个设备，或者，可以为两个不同的设备。

下面对各装置之间的交互进行示例说明：

目标图像确定设备101可以通过采集设备102获得视频序列。其中，视频序列为视频中按照时间轴排列的多个视频帧。可选的，多个视频帧中的每个视频帧为采集设备102在相同拍摄参数的条件下获得的视频帧；或者，采集设备102在相同拍摄场景的条件下获得的视频帧等。拍摄参数包括采集设备102的拍摄参数，或采集设备102的拍摄时间段等参数。拍摄场景包括采集设备102所在环境的外部光照条件。拍摄参数包括拍摄角度。

目标图像确定设备101在获得视频序列之后，识别出视频序列中包含第一目标的多个视频帧。目标图像确定设备101确定多个视频帧中的每一个视频帧的质量评分。目标图像确定设备101确定多个视频帧中，质量评分满足质量评分条件的视频帧。目标图像确定设备101将该视频帧确定为目标图像。

进一步地，目标图像确定设备101可以向模型训练设备103发送该目标图像。模型训练设备103利用这些目标图像进行学习，获得对应的神经网络模型等。

应当说明的是，本申请实施例中的第一目标泛指视频序列中任一视频帧中包含的目标，也可以理解为视频序列中的任意一个目标均可以称为第一目标。对于视频序列中其它目标的处理方式可以参照第一目标的处理过程，本申请不再赘述。目标图像确定设备101在处理一视频帧时，该视频帧则可以视为当前视频帧，也就是说，目标图像确定设备101在获得视频序列之后，依次处理视频序列中的每一个视频帧，每一个视频帧可以依次作为当前视频帧。

本申请实施例中，模型训练设备103在对采集设备102获得的视频序列进行数据分析时，可以先通过目标图像确定设备101对视频序列进行处理，获得其中针对不同目标的目标图像，也就是说，目标图像确定设备101不需要对采集设备102获得的视频序列中所有的视频帧进行处理，提高了模目标图像确定设备101对视频序列进行处理的效率。且，目标图像确定设备101确定出的目标图像是针对第一目标的质量评分满足质量评分条件的视频帧，提高了确定出的视频帧的质量评分的准确性，从而提高了确定目标图像的准确性。

基于图1的应用场景，下面对本申请实施例中的目标图像确定方法进行介绍。

请参考图2，为本申请实施例涉及的目标图像确定设备101、采集设备102和模型训练设备103之间的交互过程示意图。

S201，目标图像确定101接收采集设备102发送的视频序列。

视频序列可以是在拍摄场景相同，且处于相同的拍摄时间段内的多个连续视频帧。这里的拍摄时间段是指世界时间，而不是视频序列在视频所处的时刻。

比如，采集设备102可以在当前拍摄场景下进行连续拍摄，获得视频，该视频具体可以按照时间轴划分为多个视频序列。每个视频序列对应的时长是相同的，或者是不同的。

视频序列可以是拍摄场景相同，处于不同的拍摄时间段的多个视频帧。

比如，采集设备102可以旋转，采集设备102以每个拍摄角度为依据，获得各拍摄角度下的视频序列。具体比如采集设备102在不同拍摄角度下，对当前拍摄场景进行拍摄，获得不同拍摄角度下的视频序列，或者比如采集设备102在不同拍摄角度范围内，对当前拍摄场景进行拍摄，获得不同拍摄角度范围的视频序列等。其中，拍摄角度可以包括水平拍摄角度或垂直拍摄角度中的一种或多种。

采集设备102在获得视频序列之后，向目标图像确定设备101发送视频序列，目标图像确定设备101接收采集设备102发送的视频序列。采集设备102可以是在满足设定条件时，向目标图像确定设备101发送视频序列。或者可以是目标图像确定设备101从采集设备102主动获取视频序列等。

一：设定条件为满足周期。

采集设备102可以周期性向目标图像确定设备101发送视频序列，周期性发送视频序列但并不限制视频序列本身的时长以及视频序列的数量等，比如该视频序列可以包括采集设备102在当前周期内获得的一个或多个视频序列，或者，可以包括多个周期的视频序列，或者，可以包括任意指定时间段内的视频序列等。任意指定时间段可以由目标图像确定设备101设定的，或者，可以用户设备依据用户的设定操作设置的等。

二：设定条件为网络传输资源占用率小于或等于阈值。

采集设备102可以在网络传输资源占用率较低时，向目标图像确定设备101发送视频序列，利于降低网络传输负担等。

作为一种实施例，采集设备102可以向目标图像确定设备101发送视频，由目标图像确定设备101对该视频进行划分获得视频序列。该视频的时长可以是任意的，具体不做限制。目标图像确定设备101对视频序列进行划分的方法可以参照采集设备102对视频序列进行划分的方法，在此不再赘述。

S202，目标图像确定设备101确定视频序列中包含第一目标的多个视频帧。

在一种可能的实施例中，可以由采集设备102识别出视频序列包含第一目标的多个视频帧，将多个视频帧发送给目标图像确定设备101。

或者，目标图像确定设备101接收采集设备102发送的视频序列之后，可以识别视频序列中包含第一目标的多个视频帧。

如果目标图像确定设备101接收到一个视频序列，可以确定该视频序列中包含第一目标的多个视频帧。

如果目标图像确定设备101接收到多个视频序列，可以按照接收视频序列的先后顺序分别确定多个视频序列中每个视频序列包含第一目标的多个视频帧。预设顺序可以是接收多个视频序列中每个视频序列的顺序，或者按照优先级顺序处理各个视频序列。优先级顺序可以是任意设定的，比如可以是先处理包含的视频帧较少的视频序列。

本申请实施例中，以目标图像确定设备101处理一个视频序列为例进行介绍，其它视频序列的处理方式相同，后文不再赘述。

请参考图3，为确定视频序列中包含第一目标的多个视频帧的流程示意图，下面对目标图像确定设备101确定视频序列中包含第一目标的多个视频帧的过程进行介绍。

S301，目标图像确定设备101对视频序列中的每一视频帧进行目标检测，获得每一视频帧中的至少一个目标。

针对视频序列中的每一视频帧，目标图像确定设备101将当前视频帧输入已训练的目标检测模型。已训练的目标检测模型是根据样本数据训练得到的模型，用于检测图像中存在的目标。样本数据包括多个样本图像，以及每个样本图像中的目标的类别，以及目标在对应的样本图像中的目标区域。本申请实施例中的目标泛指图像中的人和/或物等，人具体比如人脸，物比如车辆等。目标的类别比如父类下的两个子类，具体比如属于人脸A和属于人脸B，或者两个父类，具体比如车辆和人。

作为一种实施例，已训练的目标检测模型具体包括依次连接的特征提取模块、位置回归模块和类别分类模块。特征提取模块用于根据输入的图像，提取图像的特征，获得特征矩阵。位置回归模块用于根据输入的特征矩阵，预测目标在图像中的目标区域，输出图像中各目标的目标区域，类别分类模块用于根据输入的特征矩阵，预测目标的类型，并输出目标的类别。

作为一种实施例，特征提取模块中包括依次连接的多个特征提取单元，上一级特征提取单元的输出可以作为下一级特征提取单元的输入。每一级特征提取单元可以提取出图像的不同特征，包括图像的浅层特征，如图像的边缘特征、色彩特征或纹理特征等，还可以包括图像的深层特征，如人眼无法辨别的抽象特征等。

具体的，目标图像确定设备101将当前视频帧输入已训练的目标检测模型之后，目标检测模型中的特征提取模块接收当前视频帧，并对当前视频帧进行特征提取。目标检测模型可以将最后一级特征提取单元输出的特征矩阵作为特征提取模块的输出，或者，可以将每一级特征提取单元输出的特征矩阵叠加，作为特征提取模块的输出。目标检测模型的特征提取模块输出视频帧的特征矩阵之后，将特征矩阵输入位置回归模块和类别分类模块。位置回归模块和类别分类模块分别接收特征提取模块发送的特征矩阵，对特征矩阵进行预测，输出预测结果，预测结果包括在当前视频帧中各目标的目标区域，以及，各目标的类别。预测结果可以通过矩形框形式表示目标在当前视频帧中的目标区域。

作为一种实施例，目标检测模型可以输出预测概率。预测概率用于输出各目标属于某个或某些类别的概率，目标图像确定设备101进而可以将预测概率最大的类别作为目标的类别。

S302，目标图像确定设备101确定视频序列中包含第一目标的视频帧。

作为一种实施例，目标图像确定设备101可以基于S301中的目标检测结果，识别出每帧图像中的第一目标。第一目标泛指不同类别下的特定类别的目标，比如图像中的人脸A。

作为一种实施例，目标图像确定设备101在确定第一视频帧中的第一目标，这里的第一视频帧是指视频序列中目标图像确定处理的包含第一目标的第一个视频帧。进而，目标图像确定设备101可以根据第一个视频帧中的第一目标，确定第二个视频帧中的第一目标。

具体的，目标图像确定设备101可以获得第一目标在第一视频帧中的目标区域，以及第一目标的类别。目标图像确定设备101在第二视频帧中的至少一个目标中，确定与第一目标的类别相同的至少一个目标。具体比如目标图像确定设备101在与第一目标的类别相同的至少一个目标中，确定至少一个目标中每个目标的目标区域与第一目标在第一视频帧中的位置之间的相似度。目标图像确定设备101将相似度最大的目标区域对应的目标确定为第二视频帧中的第一目标。以此类推，目标图像确定设备101确定视频序列中每一视频帧中，是否包含第一目标，以及，第一目标在对应的视频帧中的位置。目标图像确定设备101获得视频序列中包含第一目标的多个视频帧。

应当说明的是，对于视频序列中其它视频帧的处理方式可以参照第一视频帧和第二视频帧的处理过程，此处不再赘述。

本申请实施例中利用目标跟踪的思路确定视频帧中的第一目标，便于快速且准确地确定视频帧中的目标。

作为一种实施例，相似度具体可以是以两个目标区域之间的欧氏距离表征，欧氏距离越大，相似度越低；或者具体以两个目标区域之间的马氏距离表征，马氏距离越大，相似度越低；或者以两个区域之间的余弦相似度表征，余弦相似度越大，相似度越低。

S203，目标图像确定设备101确定多个视频帧中每个视频帧的质量评分。

目标图像确定设备101在确定视频序列中包含第一目标的多个视频帧之后，可以分别确定多个视频帧中每个视频帧的质量评分。

作为一种实施例，目标图像确定设备101可以根据第一目标的目标区域，对视频帧进行裁剪，获得视频帧中的第一目标区域。目标图像确定设备101可以将第一目标区域的质量评分作为该视频帧的质量评分。或者，目标图像确定设备101可以不对视频帧进行裁剪，直接确定视频帧中第一目标的目标区域的质量评分，将该质量评分作为该视频帧的质量评分。本申请实施例中，以目标图像确定设备101对视频帧进行裁剪，获得第一目标区域，将第一目标区域的质量评分作为视频帧的质量评分为例，进行介绍。

在一种可能的实施例中，目标图像确定设备101获得第一目标区域之后，可以对第一目标区域的尺寸进行调整。目标图像确定设备101可以对第一目标区域进行缩放处理，将第一目标区域调整为预设尺寸，如预设尺寸为100×100像素。从而，目标图像确定设备101在确定第一目标区域的质量评分时，不需要对第一目标区域的尺寸进行判断，减少了目标图像确定设备101确定第一目标区域的质量评分过程中的计算量，减少了计算资源的占用，提高了确定视频帧的质量评分的效率。

作为一种实施例，可以对视频帧的模糊评分、亮度评分和失真评分中的任意两种或三种进行加权求和，获得视频帧的质量分数。

具体的，请参考图4，为目标图像确定设备101确定视频帧的质量评分的流程示意图。下面以多个视频帧中的某一帧作为目标图像确定设备101正在处理的当前视频帧为例，对目标图像确定设备101确定视频帧的质量评分的过程进行示例介绍。

S401，目标图像确定设备101确定视频帧的模糊评分。

模糊评分用于表示图像的清晰程度，图像的模糊评分越大表示图像越清晰，可以用于评估图像的清晰程度。第一目标区域的各像素值是通过RGB色彩空间的r、g、b取值表示的，r、g、b分别是RGB颜色空间中的红绿蓝值。

目标图像确定设备101对第一目标区域进行灰度处理，请参考公式(1)，将第一目标区域的各像素值转换为灰度值，获得灰度处理后的第一目标区域。

目标图像确定设备101将灰度处理后的第一目标区域作为第一中间视频帧。目标图像确定设备101根据预设算子，对第一中间视频帧进行特征提取。

以预设算子为拉普拉斯算子为例，介绍目标图像确定设备101对第一中间视频帧进行特征提取的过程。第一中间视频帧可以表示为矩阵形式，矩阵中的各元素取值为第一目标区域中各像素点对应的灰度值。请参考公式(2)，为拉普拉斯算子的一种可能的取值。

具体的，目标图像确定设备101利用拉普拉斯算子对第一中间视频帧进行卷积运算，提取第一中间视频帧的特征，获得第一中间视频帧的第二特征矩阵，请参考公式(3)。

▽²f(x,y)＝[f(x+1,y)+f(x-1,y)+f(x,y+1)+f(x,y-1)]-4f(x,y) (3)

其中，(x，y)表示像素点在第一中间视频帧的矩阵中的位置，f(x，y)表示第一中间视频帧中(x，y)位置对应的像素点的灰度值，▽²f(x,y)表示对第一中间视频帧进行特征提取后获得的第二特征矩阵。

目标图像确定设备101获得第一中间视频帧的第二特征矩阵之后，计算第二特征矩阵的方差，获得第一目标区域的模糊评分，从而获得视频帧的模糊评分，请参考公式(4)。

其中，S_b表示视频帧的模糊评分，s²表示第二特征矩阵的方差，x表示第二特征矩阵中的各元素取值，N表示第二特征矩阵中元素的数量，

表示第二特征矩阵的均值，请参考公式(5)。

S402，目标图像确定设备101确定视频帧的亮度评分。

其中，亮度评分用于表示视频帧的明量程度，亮度评分越大表示图像越明亮。

作为一种实施例，由于HSV颜色空间所表示的图像可以更加直观的人眼对色彩的感知经验，因此可以将第一目标区域对应的RGB颜色空间，转换为HSV颜色空间。

具体的，目标图像确定设备101对视频帧的第一目标区域进行色彩空间转换，获得色彩空间转换后的第一目标区域。目标图像确定设备101将色彩空间转换后的第一目标区域作为第二中间视频帧，其中，第一目标区域对应的是RGB颜色空间，第二中间视频帧对应的是HSV颜色空间，请参考公式(6)。

其中，v分别表示HSV颜色空间的明度分量，s表示HSV颜色空间的饱和度分量，h表示HSV颜色空间的色调分量。

目标图像确定设备101确定第二中间视频帧中各元素的明度分量。目标图像确定设备101可以确定第二中间视频帧中各元素的明度分量的平均值。目标图像确定设备101将第二中间视频帧中各元素的明度分量的平均值确定为第二中间视频帧的亮度评分，从而，目标图像确定设备101获得视频帧的亮度评分。

S403，目标图像确定设备101确定视频帧的失真评分。

失真评分用于评价视频帧的失真程度，具体比如衡量视频帧因模糊、噪声、颜色变换、几何变换等导致的失真。失真评分越小表示模糊、噪声、颜色变换、几何变换等因素对图像的影响越小。

具体的，目标图像确定设备101计算视频帧的第一目标区域中各像素值的去均值对比度归一化(Mean Subtracted Contrast Normalized，MSCN)系数，请参考公式(7)。

其中，I(x，y)表示第一目标区域中的(x，y)位置的像素值，μ(x，y)表示第一目标区域经过高斯滤波后的结果，请参考公式(8)，σ(x，y)表示第一目标区域中各元素的标准差，请参考公式(9)，C为一常数，用于避免分母为0的情况。

其中，ω为中心对称的高斯滤波窗口的滤波系数，K和L表示高斯滤波窗口的宽和高。

目标图像确定设备101在确定第一目标区域中各像素值的MSCN系数之后，目标图像确定设备101可以将MSCN系数拟合为高斯分布。高斯分布有多种形式，下面以其中的两种为例进行介绍。目标图像确定设备101在将MSCN系数拟合为高斯分布时，可以采用一种高斯分布形式，或者多种高斯分布形式，具体不作限制。

高斯分布一：

广义高斯分布，请参考公式(10)和公式(11)。

其中，γ(.)表示gamma函数。

高斯分布二：

非对称性广义高斯分布，请参考公式(12)。

目标图像确定设备101提取高斯分布的各分布特征，例如倾斜程度、峰值、梯度幅度、拉普拉斯的边沿分布或独立分布参数等。目标图像确定设备101将各分布特征叠加，获得第一特征矩阵。将第一特征矩阵输入已训练的回归模型，回归模型对第一目标区域的失真评分进行预测，输出预测的失真评分。其中，已训练的回归模型是根据样本数据训练得到的，样本数据包括样本图像的特征矩阵，以及样本图像对应的失真评分。

S404，目标图像确定设备101根据模糊评分、亮度评分和失真评分，确定视频帧的质量评分。

目标图像确定设备101在获得视频帧的模糊评分、亮度评分和失真评分之后，可以对视频帧的模糊评分、亮度评分和失真评分进行加权处理，并对视频帧加权后的模糊评分、亮度评分和失真评分求和，获得视频帧的质量评分，请参考公式(13)。模糊评分、亮度评分和失真评分的权重系数可以是根据大量的测试数据确定的经验值，或者，可以是根据实际使用场景设置的取值，具体不作限制。

S_ij＝λ₁S_b+λ₂S_v+λ₃S_q (13)

其中，S_b表示视频帧的模糊评分，S_v表示视频帧的亮度评分，S_q表示视频帧的失真评分。

作为一种实施例，模糊评分的权重系数的取值可以是λ₁＝0.3，亮度评分的权重系数的取值可以是λ₂＝0.3，失真评分的权重系数的取值可以是λ₃＝0.4。

作为一种实施例，步骤S401～S403的执行顺序可以是任意顺序，执行顺序不作具体限制。目标图像确定设备101可以只执行步骤S401～S403中一个或多个步骤，不作具体限制。

S204，目标图像确定设备101确定多个视频帧中，质量评分满足质量评分条件的视频帧，将质量评分满足质量评分条件的视频帧作为目标图像。

目标图像确定设备101获得多个视频帧中每个视频帧的质量评分之后，可以对每个视频帧的质量评分进行比较，确定质量评分满足质量评分条件的视频帧。目标图像确定设备101确定质量评分满足质量评分条件的视频帧的方法有多种，下面以其中的两种为例进行介绍。

方法一：

目标图像确定设备101确定每个视频帧的质量评分中最大的质量评分对应的视频帧。请参考图5，为确定每个视频帧的质量评分中最大的质量评分对应的视频帧的流程示意图。

S501，目标图像确定设备101获得一个视频帧；

S502，目标图像确定设备101确定该视频帧的质量评分，即该视频帧的第一质量评分；

S503，目标图像确定设备101确定该视频帧是否为多个视频帧中的第一个视频帧；

S504，若该视频帧是第一个视频帧，则将第一个视频帧作为目标图像，第一质量评分作为目标图像的第二质量评分；

S505，若该视频帧不是第一个视频帧，则目标图像确定设备101确定该视频帧的第一质量评分是否大于目标图像的第二质量评分；

S505，若该视频帧的第一质量评分大于目标图像的第二质量评分，则目标图像确定设备101用该视频帧作为目标图像，该视频帧的第一质量评分作为目标图像的第二质量评分；

若该视频帧的第一质量评分小于或等于目标图像的第二质量评分，则目标图像确定设备101不对目标图像，以及目标图像的第二质量评分进行更新。以此类推，直到目标图像确定设备101处理完视频序列中最后一个视频帧的质量评分，获得目标图像，和目标图像的第二质量评分。

方法二：

目标图像确定设备101确定在依据质量评分的预设顺序排序后的各视频帧中，排在预设排序号之前的视频帧。

目标图像确定设备101依据每个视频帧的质量评分，按照预设顺序对视频帧进行排序，排序的方法有多种，例如冒泡排序法、选择排序法或插入排序法等。其中，预设顺序可以是质量评分由小到大的顺序，或者，可以是质量评分由大到小的顺序，具体不作限制。

目标图像确定设备101对视频帧进行排序之后，获得排序后的各视频帧。目标图像确定设备101可以将排在预设排序号之前的视频帧确定为至少一个目标图像。目标图像确定设备101获得至少一个目标图像，以及目标图像对应的第二质量评分。

S205，目标图像确定设备101向模型训练设备103发送目标图像。

目标图像确定设备101确定了目标图像之后，可以向模型训练设备103发送目标图像。如果目标图像确定设备101确定出的目标图像的数量为一个，那么目标图像确定设备101可以向模型训练设备103发送该目标图像；如果目标图像确定设备101确定出的目标图像的数量为多个，那么目标图像确定设备101可以同时向模型训练设备103发送多个目标图像，或者，目标图像确定设备101可以按照质量评分的排序依次向模型训练设备103发送多个目标图像，等等。

S206，模型训练设备103对目标图像进行数据分析。

模型训练设备103接收目标图像确定设备101发送的目标图像，模型训练设备103可以对目标图像中的目标进行数据分析，例如属性分析或目标识别等。属性分析表示对目标的固有属性进行识别，例如，目标为人类，那么目标的固有属性可以是年龄、性别、发型、衣服类型和颜色等。目标识别表示对目标的进一步识别，例如，目标为人类，那么目标识别可以是识别该目标是否是某一指定的人，等等。

例如，模型训练设备103接收目标图像确定设备101发送的一个目标图像，该目标图像中包括一个行人。模型训练设备103将该目标图像输入属性分析模型。属性分析模型输出目标图像的属性信息，如该行人的年龄、性别、发型、衣服类型和颜色等。

又例如，模型训练设备103基于目标图像，训练目标识别模型。

具体的，接收目标图像确定设备101发送的多个目标图像，多个目标图像分别包括同一个行人的不同姿态。模型训练设备103可以将该多个目标图像作为已训练的目标识别模型的验证数据。模型训练设备103将该多个目标图像分别输入已训练的目标识别模型，已训练的目标识别模型输出目标图像的类别。如果已训练的目标识别模型输出的目标图像的类别与目标图像的真实类别相同，那么已训练的目标识别模型针对该行人的识别效果较好；如果已训练的目标识别模型输出的各目标图像的类别与各目标图像的真实类别不完全相同，或完全不相同，那么已训练的目标识别模型针对该行人的识别效果不好，从而完成对已训练的目标识别模型针对该行人的识别效果的验证。

作为一种实施例，S201和S205～S206步骤是可选的。

应当说明的是，目标图像确定设备101和模型训练设备103为同一个设备时，步骤S205～S206无需执行；采集设备102和目标图像确定设备101为同一个设备时，步骤S201无需执行。

基于同一发明构思，本申请实施例提供一种目标图像确定装置，该装置相当于前文论述的目标图像确定设备101，能够实现前述目标图像确定方法对应的功能。请参考图6，该装置包括检测模块601和处理模块602，其中：

检测模块601：用于获取视频序列中包含第一目标的多个视频帧；

处理模块602：用于分别确定每个视频帧的质量评分；其中，质量评分用于表示当前视频帧中目标对应的第一目标区域的图像质量；以及，将多个视频帧中质量评分满足质量评分条件的视频帧确定为目标图像。

在一种可能的实施例中，质量评分条件为视频帧的质量评分在多个视频帧中每个视频帧的质量评分中最大；或者，在排序后的多个视频帧中，视频帧排在预设排序号之前；其中，排序后的多个视频帧是按照质量评分的预设顺序对多个视频帧进行排序得到的。

在一种可能的实施例中，处理模块602具体用于：针对多个视频帧中每个视频帧，若当前视频帧的质量评分大于目标图像的质量评分，则将当前视频帧更新为视频序列的目标图像；

其中，目标图像的质量评分为前序视频帧集中各前序视频帧的质量评分最大的质量评分，前序视频帧集包括多个视频帧中在当前视频帧之前，且包含第一目标的视频帧。

在一种可能的实施例中，检测模块601具体用于：

依次针对视频序列中每个视频帧，识别出当前视频帧中的多个目标，以及多个目标中的每个目标的目标区域；以及，

确定每个目标区域与上一视频帧中第一目标区域之间的相似度；其中，上一视频帧中第一目标区域是指当前视频帧的前一帧中第一目标对应的区域；以及，

将多个目标中相似度大于或等于阈值的目标确定为当前视频帧中的第一目标。

处理模块602具体用于：针对多个视频帧中的每个视频帧，对当前视频帧中第一目标区域的模糊评分、亮度评分和失真评分进行加权求和，获得当前视频帧的质量评分；其中，失真评分用于评价视频帧的失真程度。

在一种可能的实施例中，处理模块602还用于：

在分别确定每个视频帧的质量评分之前，针对每个视频帧，确定视频帧中第一目标区域的各像素值的均值对比度归一化系数；以及，

根据各均值对比度归一化系数获取第一目标区域的高斯分布；以及，

组合高斯分布中的多个分布特征，获得第一目标区域的第一特征矩阵；以及，

将第一目标区域的第一特征矩阵输入已训练的回归模型，获得当前视频帧的失真评分，其中，已训练的回归模型是根据样本数据训练得到的，样本数据包括样本图像的样本特征矩阵、样本图像的失真评分。

在一种可能的实施例中，处理模块602还用于：

在分别确定每个视频帧的质量评分之前，针对每个视频帧，对当前视频帧进行灰度处理，获得第一中间视频帧；以及，

根据预设算子，对第一中间视频帧进行特征提取，获得第二特征矩阵；以及，

将第二特征矩阵的方差确定为当前视频帧的模糊评分。

在一种可能的实施例中，视频序列包括视频中满足以下一种或多种条件的视频帧：

拍摄参数相同，其中，拍摄参数包括拍摄视频的拍摄设备的拍摄参数，和/或属于视频中预设时间段内的视频帧；或，

拍摄场景相同，其中，拍摄场景是拍摄视频的拍摄设备所在环境的外部光照条件相同。

基于同一发明构思，本申请实施例提供一种计算机设备，该设备能够实现前述目标图像确定方法对应的功能，计算机设备相当于前文论述的目标图像确定设备101，请参考图7，该设备包括：

至少一个处理器701，以及与至少一个处理器701连接的存储器702，本申请实施例中不限定处理器701与存储器702之间的具体连接介质，图7中是以处理器701和存储器702之间通过总线700连接为例。总线700在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线700可以分为地址总线、数据总线、控制总线等，为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器701也可以称为控制器701，对于名称不做限制。

在本申请实施例中，存储器702存储有可被至少一个处理器701执行的指令，至少一个处理器701通过执行存储器702存储的指令，可以执行前文论述的目标图像确定方法。以及，处理器701可以实现图6所示的目标图像确定装置中各个模块的功能。

其中，处理器701是该设备的控制中心，可以利用各种接口和线路连接整个该设备的各个部分，通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据，该设备的各种功能和处理数据。

在一种可能的实施例中，处理器701可包括一个或多个处理单元，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。在一些实施例中，处理器701和存储器702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

其中，处理器701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，当该计算机可执行指令在计算机上运行时，使得计算机执行前文论述的目标图像确定方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种目标图像确定方法，其特征在于，包括：

采集视频数据，针对所述视频数据中的视频序列，确定每一视频帧包含的至少一个目标，其中，所述视频序列包含的各视频帧的拍摄参数相同和拍摄场景相同，所述拍摄场景相同表征所述视频序列是针对某一场景连续拍摄获得的；

基于每一视频帧包含的至少一个目标，依次将每个目标作为第一目标，执行以下操作：

获取所述视频序列中包含所述第一目标的多个视频帧；

分别确定每个视频帧的质量评分；其中，所述质量评分用于表示当前视频帧中所述第一目标对应的第一目标区域的图像质量，所述第一目标区域是基于当前视频帧中的子图像获得的；

2.根据权利要求1所述的方法，其特征在于，所述质量评分条件为视频帧的质量评分在所述多个视频帧中每个视频帧的质量评分中最大；或者，

3.根据权利要求1或2所述的方法，其特征在于，所述将所述多个视频帧中所述质量评分满足质量评分条件的视频帧确定为目标图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取视频序列中包含所述第一目标的多个视频帧，包括：

5.根据权利要求1所述的方法，其特征在于，所述分别确定每个视频帧的质量评分，包括：

6.根据权利要求5所述的方法，其特征在于，在所述分别确定每个视频帧的质量评分之前，包括：

将所述第一目标区域的第一特征矩阵输入已训练的回归模型，获得当前视频帧的失真评分，其中，所述已训练的回归模型是根据样本数据训练得到的，所述样本数据包括样本图像的样本特征矩阵和所述样本图像的失真评分。

7.根据权利要求5所述的方法，其特征在于，在所述分别确定每个视频帧的质量评分之前，包括：

将所述第二特征矩阵的方差确定为当前视频帧的模糊评分。

8.根据权利要求1所述的方法，其特征在于，所述拍摄参数包括拍摄所述视频的拍摄设备的拍摄参数；所述拍摄场景是拍摄所述视频的拍摄设备所在环境的外部光照条件。

9.一种目标图像确定装置，其特征在于，包括：

检测模块：用于采集视频数据，针对所述视频数据中的视频序列，确定每一视频帧包含的至少一个目标，其中，所述视频序列包含的各视频帧的拍摄参数相同和拍摄场景相同，所述拍摄场景相同表征所述视频序列是针对某一场景连续拍摄获得的；以及，基于每一视频帧包含的至少一个目标，依次将每个目标作为第一目标，执行以下操作：获取所述视频序列中包含所述第一目标的多个视频帧；

处理模块：用于分别确定每个视频帧的质量评分；其中，所述质量评分用于表示当前视频帧中所述第一目标对应的第一目标区域的图像质量，所述第一目标区域是基于当前视频帧中的子图像获得的；以及，将所述多个视频帧中所述质量评分满足质量评分条件的视频帧确定为目标图像。

10.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1~8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1~8中任一项所述的方法。