CN112906435A

CN112906435A - 视频帧优选方法及装置

Info

Publication number: CN112906435A
Application number: CN201911220521.7A
Authority: CN
Inventors: 王春茂; 浦世亮; 潘之玮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2021-06-04
Anticipated expiration: 2039-12-03
Also published as: CN112906435B

Abstract

本申请提供一种视频帧优选方法及装置，该方法包括：在优帧选取策略训练过程中，基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，并基于该预设次数的优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件；基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对所述待优选目标视频帧序列进行视频帧优选。该方法可以规避比较逻辑或综合评分的组合方式设计的困难，实现人脸优选的自动学习，提高人脸优选的性能。

Description

视频帧优选方法及装置

技术领域

本申请涉及摄像机技术领域，尤其涉及一种视频帧优选方法及装置。

背景技术

目标选优是目标识别中的传统概念，其目的在于对于跟踪得到的目标视频帧序列中进行质量选优，将适合进行目标识别的视频帧选取出来(通常一个序列仅选择一帧或者少量几帧)，从而能够有效降低后续识别步骤所需要处理的数据量，也能够保证整体识别系统的性能。

以人脸优选为例，影响人脸识别的因素众多，通常至少包括人脸的大小、人脸的角度、人脸的清晰度、人脸的遮挡情况和光照的情况等，能够针对这些影响人脸识别的因素进行量化评价，是进行人脸选优的前提。

在完成这些评价指标的计算后，通常的人脸选优方案中，包括两种实现方式：其一是设计一个复杂比较逻辑，针对这些评价指标进行判断和比较(比如先对人脸大小进行比较，再对姿态进行比较等等)，从而将最优的人脸视频帧选择出来；另一种则不区分这些因素的先后关系，采用一个综合评分的组合方式(综合评分是通过某种组合的方式，基于各单项的评分因素计算得到)进行比较，并选择最优的人脸视频帧。

然而实践发现，目前的目标优选实现方案中，均需要人工参与设计复杂的比较逻辑，或，设计综合评分的组合方式，其实现较为复杂。

发明内容

有鉴于此，本申请提供一种视频帧优选方法及装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种视频帧优选方法，包括：

在优帧选取策略训练过程中，基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，并基于该预设次数的优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件；

基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对所述待优选目标视频帧序列进行视频帧优选。

根据本申请实施例的第二方面，提供一种视频帧优选装置，包括：

训练单元，用于在优帧选取策略训练过程中，基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，并基于该预设次数的优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件；

视频帧优选单元，用于基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对所述待优选目标视频帧序列进行视频帧优选。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述视频帧优选方法。

根据本申请实施例的第四方面，提供一种机器可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述视频帧优选方法。

本申请实施例的视频帧优选方法，通过在优帧选取策略训练过程中，基于预设数量的训练视频帧对应的回报值，对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件，进而，基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对待优选目标视频帧序列进行视频帧优选，规避了比较逻辑或综合评分的组合方式设计的困难，实现了人脸优选的自动学习，提高了人脸优选的性能。

附图说明

图1是本申请一示例性实施例示出的视频帧优选方法的流程示意图；

图2是本申请一示例性实施例示出的人脸优选的过程示意图；

图3A和图3B是本申请示例性实施例示出的视频帧优选的强化学习的闭环示意图；

图4是本申请一示例性实施例示出的一种视频帧优选装置的结构示意图；

图5是本申请又一示例性实施例示出的另一种视频帧优选装置的结构示意图；

图6是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种视频帧优选方法的流程示意图，如图1所示，该视频帧优选方法可以包括以下步骤：

步骤S100、在优帧选取策略训练过程中，基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，并基于该预设次数的优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件。

本申请实施例中，为了规避比较逻辑或综合评分的组合方式设计的困难，实现目标优选过程中的自动学习，采用强化学习的方式实现目标优选。

本申请实施例中，目标可以包括但不限于人脸、车牌、文字或虹膜等。

为便于描述和说明，下文中以目标为人脸为例进行说明。对于车牌、文字或虹膜等其它目标，其实现同理可得。

本申请实施例中，为了实现强化学习的人脸优选，可以构建各人脸视频帧的状态量以及智能体(Agent)的动作。

示例性的，人脸视频帧的状态量可以采用影响人脸识别的各项因素的量化指标，如人脸的大小、人脸的角度、人脸的清晰度、人脸的遮挡情况以及光照情况等转为的可以量化比较的数值指标。

本申请实施例中，在优帧选取策略训练过程中，可以先确定一个初始的优帧选取策略(也可以称为智能体策略)，然后，基于预设人脸视频帧序列(本文中称为训练视频帧序列)对该优帧选取策略进行训练。

对于当前使用的优帧选取策略，可以输入预设数量(可以根据实际场景设定)的训练视频帧，基于该预设数量的训练视频帧，以及当前使用的优帧选取策略，执行预设次数的优帧选取动作(即对输入的每一帧训练视频帧，基于当前使用的优帧选取策略，执行一次优帧选取动作，该预设数量与该预设次数的数值相同)，并基于该预设次数的优帧选取动作中各优帧选取动作的反馈，确定该预设次数的优帧选取动作对应的回报值，并根据该回报值对当前使用的优帧选取策略进行更新。

需要说明的是，对于不同优帧选取策略，上述预设数量可以相同，也可以不同。

例如，若当前使用的优帧选取策略为优帧选取策略1时，可以输入第一预设数量的训练视频帧，基于该第一预设数量的训练视频帧中各训练视频帧所对应的优帧选取动作(即基于优帧选取策略1确定的对各训练视频帧的优帧选取动作)的反馈，确定对应的回报值，并根据该回报值对当前使用的优帧选取策略(即优帧选取策略1)进行更新(假设更新为优帧选取策略2)。

对于优帧选取策略2，可以输入第二预设数量的训练视频帧，基于该第二预设数量的训练视频帧中各训练视频帧所对应的优帧选取动作(即基于优帧选取策略2确定的对各训练视频帧的优帧选取动作)的反馈，确定对应的回报值，并根据该回报值对当前使用的优帧选取策略(即优帧选取策略2)进行更新；第二预设数量与第一预设数量不同。

示例性的，预设数量越大，优帧选取策略的回报值的计算越精确，但计算量也越大，因此，可以根据实际需求均衡考虑回报值的计算精确度和计算工作量，来设定该预设数量。

在一个示例中，对更新后的优帧选取策略进行训练时输入的训练视频帧的数量小于对更新前的优帧选取策略进行训练时输入的训练视频帧的数量。

在另一个示例中，当更新后的优帧选取策略对应的回报值低于更新前的优帧选取策略对应的回报值时，则增大上述预设数量；当更新后的优帧选取策略对应的回报值高于更新前的优帧选取策略对应的回报值时，则减小上述预设数量。

示例性的，在未进行优帧选取策略更新时，当前使用的优帧选取策略为初始的优帧选取策略；在进行了优帧选取策略更新时，当前使用的优帧选取策略为更新后的优帧选取策略。

例如，在确定了初始的优帧选取策略时，可以根据当前输入的训练视频帧的状态量，以及该初始的优帧选取策略，确定下一帧的状态量(即对当前输入的训练视频帧和目前的最优帧进行优选)，并对未来轨迹进行预测采样，利用采样轨迹的回报值更新当前优帧选取策略，即使用该初始的优帧选取策略，进行预设数量的训练视频帧的优选，并基于该预设数量的训练视频帧中各训练视频帧对应优帧选取动作的反馈，确定该预设数量的训练视频帧在初始的优帧选取策略下对应的回报值，基于该回报值对初始的优帧选取策略进行更新。

示例性的，该采样轨迹包括一串交替迭代的序列，该序列包括：输入帧的状态量、所选择的动作(即优帧选取动作，下同)，即预设数量的训练视频帧中各训练视频帧的状态量，以及基于当前使用的优帧选取策略所选择的针对当前输入的训练视频帧的动作，如t1时刻的状态量，t1时刻选取的动作，t2时刻的状态量，t2时刻选取的动作…。

示例性的，利用采样轨迹的回报值更新当前使用的优帧选取策略可以包括：为不同状态量下每一个动作分配一个价值量，并根据采样轨迹的回报值修正价值函数的输出价值量，此时，执行策略即选取对应价值最高的动作。

即根据回报值，当前帧的状态量以及当前帧选取的动作来更新策略，若得到负面的反馈(如低奖励反馈)，则在当前帧的状态量下降低选取该动作的概率(或理解为当前状态下该动作的价值)，反之增加概率。

在一个示例中，优帧选取策略可以包括根据当前状态量从预设动作集合中选择执行的动作；

步骤S100中，基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，可以包括：

若视频帧优选后保留帧的数量为一帧，对于输入的任一训练视频帧，基于当前使用的优帧选取策略、该训练视频帧的评分组合，以及保留帧的评分组合，从第一预设动作集合中选择执行的动作，直至执行动作的次数达到所述预设次数；其中，第一预设动作集合包括更新和放弃；

若视频帧优选后保留帧的数量为多帧，对于输入的任一训练视频帧，基于当前使用的优帧选取策略、保留帧数、该训练视频帧的评分组合，以及保留帧的评分组合，从第二预设动作集合中选择执行的动作，直至执行动作的次数达到所述预设次数；其中，第二预设动作集合新增、更新、放弃、删除。

示例性的，当视频帧优选后保留帧的数量为一帧，如每个人脸视频帧序列进行视频帧优选后最终只保留一帧最佳图像(该保留帧可以称为最优帧，该最优帧即为基于所使用的优帧选取策略从人脸视频帧序列中选出的一个人脸视频帧)用于进行人脸识别时，智能体的状态量可以包括最优帧的评分组合(以评分组合为例，即影响人脸识别的各因素的量化指标构成的一组状态)以及当前输入的人脸视频帧的评分组合；预设动作集合(本文中称为第一预设动作集合)可以包括更新和放弃。

当依次将预设数量的训练视频帧中各训练视频帧输入到当前使用的优帧选取策略时，智能体可以基于当前使用的优帧选取策略，根据最优帧的评分组合，以及当前输入的训练视频帧的评分组合，从第一预设动作集合中选择执行的动作(包括更新或放弃)，并根据执行的动作更新最优帧的评分组合。

示例性的，最优帧的评分组合初始为空，即当一个新的训练视频帧输入到当前使用的优帧选取策略时，最优帧的评分组合为空，输入的第一个训练视频帧对应的动作为更新。

示例性的，当视频帧优选后保留帧的数量为多帧，如每个人脸视频帧序列经过视频帧优选后最终保留多帧(可以设定保留帧数的上限)图像用于进行人脸识别时，智能体的状态量可以包括保留帧数(即已保留的人脸视频帧的数量)、各保留帧的评分组合以及当前输入的人脸视频帧的评分组合；预设动作集合(本文中称为第二预设动作集合)可以包括新增、更新、放弃和删除。

当依次将预设数量的训练视频帧中各训练视频帧输入到当前使用的优帧选取策略时，智能体可以基于当前使用的优帧选取策略，根据保留帧数、各保留帧的评分组合，以及当前输入的训练视频帧的评分组合，从第二预设动作集中选择执行的动作(新增、更新、放弃或删除)，并根据执行的动作更新保留帧数和各保留帧的评分组合。

示例性的，保留帧数初始为零，保留帧的评分组合初始为空，即当一个新的训练视频帧输入到当前使用的优帧选取策略时，保留帧数为零，保留帧的评分组合为空，输入的第一训练视频帧对应的动作为新增。

在一个示例中，步骤S100中，基于预设数量的训练视频帧对应的回报值，对当前使用的优帧选取策略进行更新包括：

若视频帧优选后保留帧的数量为一帧，则根据第一相似度和第二相似度对优帧选取策略训练过程中的动作进行反馈，其中，第一相似度为当前输入的训练视频帧与目标真值的相似度，第二相似度为保留帧与目标真值的相似度。

示例性的，为了提高强化学习的人脸优选方案的人脸优选的性能，在优帧选取策略的训练过程(即智能体的学习过程)中，可以基于训练视频帧(人脸视频帧)与人脸真值的相似度对训练过程中的动作进行反馈。

对于当前输入的人脸视频帧，优帧选取策略可以确定该人脸视频帧与人脸真值的相似度(本文中称为第一相似度)，并根据该第一相似度和最优帧与人脸真值的相似度(本文中称为第二相似度)的比较结果确定对选择执行的动作的反馈。

若选择执行的动作为更新，则当第一相似度高于第二相似度(即相对于最优帧，当前输入的人脸视频帧中的人脸与人脸真值的相似度更高，更新决策正确)时，进行高奖励反馈；当第一相似度低于第二相似度(即相对于最优帧，当前输入的人脸视频帧中的人脸与人脸真值的相似度更低，更新决策错误)时，进行低奖励反馈。

若选择执行的动作为放弃，则当第一相似度高于第二相似度(即相对于最优帧，当前输入的人脸视频帧中的人脸与人脸真值的相似度更高，放弃决策错误)时，进行低奖励反馈；当第一相似度低于第二相似度(即相对于最优帧，当前输入的人脸视频帧中的人脸与人脸真值的相似度更低，放弃决策错误)时，进行低奖励反馈。

智能体可以根据预设数量的人脸视频帧中各人脸视频帧对应的反馈，确定该预设数量的人脸视频帧在当前使用的优帧选取策略下对应的回报值，例如，将各人脸视频帧对应的反馈的总和确定为该预设数量的人脸视频帧在当前使用的优帧选取策略下对应的回报值。

示例性的，当选择执行的动作为更新时，需要将最优帧的评分组合更新为当前输入的人脸视频帧的评分组合。

示例性的，对于第一相似度等于第二相似度的情况，可以按照第一相似度高于第二相似度的情况进行处理，或者，也可以按照第一相似度低于第二相似度的情况进行处理，本申请实施例对此不做赘述。

在另一个示例中，步骤S100中，基于预设数量的训练视频帧对应的回报值，对当前使用的优帧选取策略进行更新包括：

若视频帧优选后保留帧的数量为多帧，则根据第三相似度和第四相似度对优帧选取策略训练过程中的动作进行反馈，其中，第三相似度为当前输入的训练视频帧与目标真值的相似度，第四相似度为利用预设多帧组合策略确定的保留帧与目标真值的相似度。

示例性的，对于当前输入的人脸视频帧，智能体可以利用当前输入的人脸视频帧与人脸真值的相似度(该示例中称为第四相似度)，以及预设多帧组合策略确定保留帧与人脸真值的相似度(本文中称为第三相似度)，并根据第三相似度以及第四相似度对训练过程中动作进行反馈。

举例来说，假设选择执行的动作为新增、更新或删除，则可以根据预设多帧组合策略分别确定动作执行前保留帧与人脸真值的相似度(可以称为组合相似度)和动作执行后保留帧与人脸真值的相似度，即上述第四相似度可以包括动作执行前的组合相似度和动作执行后的组合相似度。

例如，可以将各保留帧与人脸真值的相似度的均值确定为保留帧与人脸真值的组合相似度。

当动作执行前保留帧与人脸真值的组合相似度高于动作执行后保留帧与人脸真值的组合相似度时，进行低奖励反馈；当动作执行前保留帧与人脸真值的组合相似度低于动作执行后保留帧与人脸真值的组合相似度时，进行高奖励反馈。

又举例来说，假设选择执行的动作为放弃，则可以根据预设多帧组合策略确定保留帧与人脸真值的组合相似度(即上述第四相似度)，以及当前输入的人脸视频帧与人脸真值的相似度(即上述第三相似度)。

当第三相似度低于第四相似度时，进行高奖励反馈；当第三相似度高于第四相似度时，进行低奖励反馈。

本申请实施例中，在优帧选取策略训练过程中，可以统计按照上述方式进行奖励反馈得到的回报值，并基于该回报值对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件。

在一个示例中，步骤S100中，预设策略更新完成条件，包括：执行完成预设轮次的策略自学习过程；

步骤S100中，基于当前使用的优帧选取策略，执行预设次数的优帧选取动作之后，包括：

确定全部训练视频帧是否均已进行视频帧优选，以及当前使用的优帧选取策略的回报值是否达到预设阈值；

若全部训练视频帧均已进行视频帧优选，或/和，当前使用的优帧选取策略的回报值达到预设阈值，则确定执行完成一轮策略自学习过程，并在执行完成的策略自学习过程的轮次未达到所述预设轮次时，执行下一轮策略自学习过程；

若全部训练视频帧未均进行视频帧优选，且当前使用的优帧选取策略的回报值未达到预设阈值，则确定执行上述基于该预设次数的优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新的步骤。

示例性的，对于任一优帧选取策略，当基于该优帧选取策略，执行了预设次数的优帧选取动作之后，可以确定全部训练视频帧是否均已进行视频帧优选，以及该优帧选取策略的回报值是否达到预设阈值。

需要说明的是，每一轮策略自学习过程中，训练视频帧初始状态均为未进行视频帧优选的状态，即当前轮次策略自学习过程中训练视频帧是否进行视频帧优选，不影响下一轮策略自学习过程中训练视频帧是否进行视频帧优选的判断。

若全部训练视频帧均已进行视频帧优选，或/和，该优帧选取策略的回报值达到预设阈值，则确定执行完成一轮策略自学习过程。

此时，可以确定执行完成的策略自学习过程的轮次是否达到预设轮次，若未达到，则执行下一轮策略自学习过程，即再次进行优帧选取策略的更新；若达到，则确定达到预设策略更新完成条件，优帧选取策略训练完成。

若全部训练视频帧未均进行视频帧优选(即存在未进行视频帧优选的训练视频帧)，且该优帧选取策略的回报值未达到预设阈值，则基于该预设次数的优帧选取动作对应的回报值，对该优帧选取策略进行更新，并在基于更新后的优帧选取策略执行了预设次数的优帧选取动作之后，再次执行上述判定。

举例来说，以视频帧优选后保留帧的数量为一帧为例，假设预设次数为3，预设轮次为2轮。

在进行优帧选取策略训练时，可以先基于初始的优帧选取策略，根据最优帧的评分组合，以及新输入的训练视频帧的评分组合，选取执行的优帧选取动作(更新或放弃，下同)，以得到优帧选取后的最优帧的评分组合，并再次基于初始的优帧选取策略，该最优帧的评分组合，以及新输入的训练视频帧的评分组合，选取执行的优帧选取动作，以此类推，直至基于该初始的优帧选取策略执行动作的次数达到3次时，可以确定全部训练视频帧是否均已进行视频帧优选，以及当前使用的优帧选取策略(初始的优帧选取策略)的回报值(该3次优帧选取动作对应的回报值)是否达到预设阈值。

若全部训练视频帧未均进行视频帧优选，且当前使用的优帧选取策略的回报值未达到预设阈值，则基于执行该3次优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，并基于更新后的优帧选取策略，根据最优帧的评分组合，以及新输入的训练视频帧的评分组合，选取特定的优帧选取动作，以得到优帧选取后的最优帧的评分组合；基于更新后的优帧选取策略，根据优帧选取后的最优帧的评分组合，以及新输入的训练视频帧的评分组合，再次选取特定的优帧选取动作，以此类推，直至在该更新后的优帧选取策略下，执行的优帧选取动作到达3次时，确定全部训练视频帧是否均已进行视频帧优选，以及当前使用的优帧选取策略(更新后的优帧选取策略)的回报值是否达到预设阈值，并当全部训练视频帧未均进行视频帧优选，且当前使用的优帧选取策略的回报值未达到预设阈值时，再次基于执行该3次优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，并重复上述优帧选取策略更新后的处理步骤，直至全部训练视频帧均进行视频帧优选，或，当前使用的优帧选取策略的回报值达到预设阈值，或，全部训练视频帧均进行视频帧优选，且当前使用的优帧选取策略的回报值达到预设阈值。

例如，若在某一输入视频帧的评分组合和最优帧的评分组合下，优帧选取策略更新前执行的优帧选取动作为保留，则优帧选取策略更新后执行的优帧选取动作为放弃。

若全部训练视频帧均进行视频帧优选，或，当前使用的优帧选取策略的回报值达到预设阈值，或，全部训练视频帧均进行视频帧优选，且当前使用的优帧选取策略的回报值达到预设阈值，则确定执行完成一次策略自学习过程，并确定执行完成的策略自学习过程是否达到2轮；若达到，则确定优帧选取策略更新完成；否则执行第二轮策略自学习过程。

在第二轮策略自学习过程中，先基于第一轮策略自学习执行完成时的优帧选取策略，根据最优帧的评分组合，以及新输入的训练视频帧的评分组合，选取特定的优帧选取动作，以得到优帧选取后的最优帧的评分组合；基于该优帧选取策略，根据优帧选取后的最优帧的评分组合，以及新输入的训练视频帧的评分组合，再次选取特定的优帧选取动作，以此类推，直至在该优帧选取策略下，执行的优帧选取动作达到3次时，确定全部训练视频帧是否均已进行视频帧优选，以及当前使用的优帧选取策略(第一轮策略自学习执行完成时的优帧选取策略)的回报值是否达到预设阈值。

若全部训练视频帧未均进行视频帧优选，且当前使用的优帧选取策略的回报值未达到预设阈值，则基于执行该3次优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，并基于更新后的优帧选取策略按照上述方式执行3次优帧选取动作，确定全部训练视频帧是否均已进行视频帧优选，以及当前使用的优帧选取策略(更新后的优帧选取策略)的回报值是否达到预设阈值。

当全部训练视频帧未均进行视频帧优选，且当前使用的优帧选取策略的回报值未达到预设阈值时，再次基于执行该3次优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，并重复上述优帧选取策略更新后的处理步骤，直至全部训练视频帧均进行视频帧优选，或，当前使用的优帧选取策略的回报值达到预设阈值，或，全部训练视频帧均进行视频帧优选，且当前使用的优帧选取策略的回报值达到预设阈值。

若全部训练视频帧均进行视频帧优选，或，当前使用的优帧选取策略的回报值达到预设阈值，或，全部训练视频帧均进行视频帧优选，且当前使用的优帧选取策略的回报值达到预设阈值，则确定执行完成一次策略自学习过程。此时，执行完成的策略自学习过程达到2轮，优帧选取策略更新完成。

需要说明的是，在本申请实施例中，优帧选取策略的训练可以采用Q-Learning或者其他学习策略，其具体实现可以参见现有强化学习技术中的相关描述，本申请实施例在此不做赘述。

步骤S110、基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对待优选目标视频帧序列进行视频帧优选。

本申请实施例中，按照上述方式完成优帧选取策略训练之后，可以基于训练好的优帧选取策略对待优选目标视频帧序列进行目标视频帧优选，即将待优选目标视频帧序列依次输入到训练好的优帧选取策略，由优帧选取策略根据各目标视频帧序列的状态量(如评分组合)从预设动作集合中选择执行的动作，并当目标视频帧序列均输入完成时，根据最优帧的状态量或保留帧的状态量确定输出结果，该输出结果作为后续识别过程中的输入图像。

在一个示例中，上述基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对待优选目标视频帧序列进行视频帧优选之后，还可以包括：

基于视频帧优选得到的保留帧，对目标进行识别。

示例性的，以目标为人脸为例，该人脸识别可以包括但不限于人脸抓拍机场景中的人脸识别，即可以通过人脸抓拍机对人脸进行跟踪抓拍，以得到多帧人脸抓拍图，并对该多帧人脸抓拍图进行优选，基于优选得到的保留帧，进行人脸识别。

为了使本领域技术人员更好地理解本发明实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

在该实施例中，请参见图2，人脸优选的过程示意图可以如图2所示，对于需要进行人脸优选的视频帧，可以逐帧进行人脸检测，并根据检测结果进行目标跟踪(即人脸跟踪)，并对存在同一人脸的多帧视频图像进行人脸优选，并进行优选结果输出。

在该过程中，为了实现强化学习的人脸优选，需要先进行优帧选取策略的学习。

在该实施例中，假设强化学习使用的状态量复用传统方案中影响人脸识别的各项因素的量化指标，即将人脸的大小、人脸的角度、人脸的清晰度、人脸的遮挡情况和光照的情况等转为可以量化比较的数值指标。上述量化指标构成一组状态(即组合评分)。

实施例一、每个人脸视频帧序列保留一帧最佳图像

请参见图3A，为该实施例中的强化学习的闭环示意图，如图3A所示，在该实施例中，智能体的状态量包括最优帧的评分组合以及当前输入的人脸视频帧的评分组合；所涉及的响应动作(即预设动作集合中的动作)包括两个：更新和放弃；其中：

更新表明智能体认为当前输入的人脸视频帧更有利于识别，从而用当前输入的人脸视频帧替换已有最优帧(同步改变状态中的最优帧状态)；

放弃表明智能体认为当前输入的人脸视频帧不如已有最优帧利于识别。

在该实施例中，采用各人脸视频帧与人脸真值的相似度构建反馈，从而使得学习的目标与人脸优选的目标(选择出最有利于识别的人脸视频帧)一致。

示例性的，当一个新的人脸视频帧序列送入智能体时，此时的最优帧状态为空，因此，第一帧的动作为更新；当一个人脸视频帧序列输入完成后，按照智能体所保留的最优帧进行输出，作为后续识别环节的输入图像。

实施例二、每个人脸视频帧序列保留多帧(不多于预设上限)图像

请参见3B，为该实施例中的强化学习的闭环示意图，如图3B所示，在该实施例中，智能体的状态量包括保留帧数、各保留帧的评分组合以及当前输入的人脸视频帧的评分组合；所涉及的响应动作包括四个：新增、更新、放弃和删除；其中：

新增表明保留帧数未达到上限，且智能体认为当前输入的人脸视频帧加入保留帧更有利于识别，从而将当前输入的人脸视频帧加入保留帧(同步更新保留帧数、各保留帧的评分组合)；

更新表明智能体认为当前输入的人脸视频帧替换某保留帧更有利于识别，从而将当前输入的人脸视频帧替换该保留帧(同步更新各保留帧的评分组合)；

放弃表明智能体认为当前输入的人脸视频帧加入保留帧不利于人脸识别，从而放弃当前输入的人脸视频帧；

删除表明智能体认为删除某保留帧更利于人脸识别(通常在执行新增或更新动作后执行)，从而删除该保留帧(同步更新保留帧数、各保留帧的评分组合)。

在该实施例中，采用保留帧与人脸真值的组合相似度(根据预设多帧组合策略确定)构建反馈，从而使得学习的目标与人脸优选的目标一致。

示例性的，当一个新的人脸视频帧序列送入智能体时，此时的保留帧数为零，保留帧状态为空，因此，第一帧的动作为新增；当一个人脸视频帧序列输入完成后，按照智能体所保留的保留帧组合进行输出，作为后续识别环节的输入图像。

本申请实施例中，通过在优帧选取策略训练过程中，基于预设数量的训练视频帧对应的回报值，对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件，进而，基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对待优选目标视频帧序列进行视频帧优选，规避了比较逻辑或综合评分的组合方式设计的困难，实现了人脸优选的自动学习，提高了人脸优选的性能。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图4，为本申请实施例提供的一种视频帧优选装置的结构示意图，如图4所示，该视频帧优选装置可以包括：

训练单元410，用于在优帧选取策略训练过程中，基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，并基于该预设次数的优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新，直至达到预设策略更新完成条件；

视频帧优选单元420，用于基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对所述待优选目标视频帧序列进行视频帧优选。

在可选实施例中，优帧选取策略包括根据当前状态量从预设动作集合中选择执行的动作；

所述训练单元410，具体用于若视频帧优选后保留帧的数量为一帧，对于输入的任一训练视频帧，基于当前使用的优帧选取策略、该训练视频帧的评分组合，以及保留帧的评分组合，从第一预设动作集合中选择执行的动作，直至执行动作的次数达到所述预设次数；其中，所述第一预设动作集合包括更新和放弃；

若视频帧优选后保留帧的数量为多帧，对于输入的任一训练视频帧，基于当前使用的优帧选取策略、保留帧数、该训练视频帧的评分组合，以及保留帧的评分组合，从第二预设动作集合中选择执行的动作，直至执行动作的次数达到所述预设次数；其中，所述第二预设动作集合新增、更新、放弃、删除。

在可选实施例中，所述训练单元410基于预设数量的训练视频帧对应的回报值，对当前使用的优帧选取策略进行更新，包括：

若视频帧优选后保留帧的数量为一帧，则根据第一相似度和第二相似度对优帧选取策略训练过程中的动作进行反馈，其中，所述第一相似度为当前输入的训练视频帧与目标真值的相似度，所述第二相似度为保留帧与所述目标真值的相似度；

若视频帧优选后保留帧的数量为多帧，则根据第三相似度和第四相似度对优帧选取策略训练过程中的动作进行反馈，其中，所述第三相似度为当前输入的训练视频帧与所述目标真值的相似度，所述第四相似度为利用预设多帧组合策略确定的保留帧与所述目标真值的相似度。

在可选实施例中，所述训练单元410根据第一相似度和第二相似度对优帧选取策略训练过程中的动作进行反馈，包括：

若选择执行的动作为更新，则当第一相似度高于第二相似度时，进行高奖励反馈；当所述第一相似度低于所述第二相似度时，进行低奖励反馈；

若选择执行的动作为放弃，则当所述第一相似度高于所述第二相似度时，进行低奖励反馈；当所述第一相似度低于所述第二相似度时，进行高奖励反馈。

在可选实施例中，所述预设策略更新完成条件包括：执行完成预设轮次的策略自学习过程；

所述训练单元基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对所述待优选目标视频帧序列进行视频帧优选之后，还包括：

若全部训练视频帧未均进行视频帧优选，且当前使用的优帧选取策略的回报值未达到预设阈值，则确定执行所述基于该预设次数的优帧选取动作对应的回报值，对当前使用的优帧选取策略进行更新的步骤。

在可选实施例中，如图5所示，所述视频帧优选装置还可以包括：

识别单元430，用于基于视频帧优选得到的保留帧，对目标进行识别；

其中，所述感兴趣目标包括：人脸、车牌、文字或虹膜。

请参见图6，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器601、通信接口602、存储器603和通信总线604。处理器601、通信接口602以及存储器603通过通信总线404完成相互间的通信。其中，存储器603上存放有计算机程序；处理器601可以通过执行存储器603上所存放的程序，执行上文描述的视频帧优选方法。

本文中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器602可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种视频帧优选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，优帧选取策略包括根据当前状态量从预设动作集合中选择执行的动作；

所述基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，包括：

若视频帧优选后保留帧的数量为一帧，对于输入的任一训练视频帧，基于当前使用的优帧选取策略、该训练视频帧的评分组合，以及保留帧的评分组合，从第一预设动作集合中选择执行的动作，直至执行动作的次数达到所述预设次数；其中，所述第一预设动作集合包括更新和放弃；

3.根据权利要求2所述的方法，其特征在于，所述基于预设数量的训练视频帧对应的回报值，对当前使用的优帧选取策略进行更新，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据第一相似度和第二相似度对优帧选取策略训练过程中的动作进行反馈，包括：

5.根据权利要求1所述的方法，其特征在于，所述预设策略更新完成条件包括：执行完成预设轮次的策略自学习过程；

所述基于当前使用的优帧选取策略，执行预设次数的优帧选取动作之后，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于训练好的优帧选取策略以及待优选目标视频帧序列中各目标视频帧的状态量，对所述待优选目标视频帧序列进行视频帧优选之后，还包括：

基于视频帧优选得到的保留帧，对目标进行识别；

其中，所述感兴趣目标包括：人脸、车牌、文字或虹膜。

7.一种视频帧优选装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，优帧选取策略包括根据当前状态量从预设动作集合中选择执行的动作；

所述训练单元基于当前使用的优帧选取策略，执行预设次数的优帧选取动作，包括：

9.根据权利要求8所述的装置，其特征在于，所述训练单元基于预设数量的训练视频帧对应的回报值，对当前使用的优帧选取策略进行更新，包括：

若视频帧优选后保留帧的数量一帧，则根据第一相似度和第二相似度对优帧选取策略训练过程中的动作进行反馈，其中，所述第一相似度为当前输入的训练视频帧与目标真值的相似度，所述第二相似度为保留帧与所述目标真值的相似度；

10.根据权利要求9所述的装置，其特征在于，所述训练单元根据第一相似度和第二相似度对优帧选取策略训练过程中的动作进行反馈，包括：

11.根据权利要求7所述的装置，其特征在于，所述预设策略更新完成条件包括：执行完成预设轮次的策略自学习过程；

12.根据权利要求7-11任一项所述的装置，其特征在于，所述装置还包括：

识别单元，用于基于视频帧优选得到的保留帧，对目标进行识别；

其中，所述感兴趣目标包括：人脸、车牌、文字或虹膜。