CN111611435A

CN111611435A - 一种视频分类的方法、装置及存储介质

Info

Publication number: CN111611435A
Application number: CN202010251105.XA
Authority: CN
Inventors: 陈世峰; 吴文灏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-09-01

Abstract

本申请公开了一种视频分类的方法、装置及存储介质，包括：在当前时间间隔中，自待处理视频中的多个不同位置选取多个目标帧；根据各个目标帧及关联帧的特征信息，确定各个目标帧对应的选取指示，其中，关联帧为位于目标帧之前和/或之后的若干帧，选取指示用于在下一时间间隔内目标帧的选取位置；根据多个目标帧对应的选取指示，判断多个目标帧是否为关键帧；若是，则利用多个目标帧确定待处理视频的类别。本发明所提供的技术方案可提高视频分类的准确度。

Description

一种视频分类的方法、装置及存储介质

技术领域

本申请涉及视频技术领域，特别是涉及一种视频分类的方法、装置及存储介质。

背景技术

随着视频技术的发展，视频识别分类在诸如视频监控、视频搜索和视频推荐等现实应用中越来越重要，因此对于视频识别分类在计算机视觉界引起了极大的研究兴趣。但是现有技术中，多是对于人工剪辑好的短视频进行分类，而由于较长的视频或者是未剪辑的原始长视频中存在大量冗余的帧，故现有技术中对于较长的视频或者是未剪辑的原始视频的分类精度较低，进而会影响与视频分类相关的应用的准确性，故需要一种技术方案可以解决现有技术中对未剪辑的原始长视频所存在的问题。

发明内容

本申请主要解决的技术问题是提供一种视频分类的方法、装置及存储介质，能够提高视频分类的准确度。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种视频分类的方法，包括：

在当前时间间隔中，自待处理视频中的多个不同位置选取多个目标帧；

根据各个所述目标帧及其关联帧的特征信息，确定各个所述目标帧对应的选取指示，其中，所述关联帧为位于所述目标帧之前和/或之后的若干帧，所述选取指示用于确定在下一时间间隔内所述目标帧的选取位置；

根据所述多个目标帧所对应的所述选取指示，判断所述多个目标帧中是否存在大于或等于预设比例的帧数为关键帧；

若是，则利用所述多个关键帧确定所述待处理视频的类别。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种视频分类的装置，所述装置包括耦接的存储器和处理器，其中，

所述存储器包括本地储存，且存储有计算机程序；

所述处理器用于运行所述计算机程序，以执行如上所述的方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种存储介质，所述存储介质存储有能够被处理器运行的计算机程序，所述计算机程序用于实现如上所述的方法。

本申请所提供的技术方案，通过在当前时间间隔中，自待处理视频中的多个不同位置选取多个目标帧，然后根据各个目标帧及关联帧的特征信息，确定各个目标帧对应的选取指示，再根据多个目标帧对应的选取指示，判断多个目标帧是否为关键帧；若是，则利用多个目标帧确定待处理视频的类别。本申请所提供的技术方案中，通过目标帧及关联帧的特征信息可以得到的选取指示更为准确，进而实现对视频进行更为准确的分类，进而提高视频分类的准确度。

附图说明

图1为本申请一种视频分类的方法一实施例中的流程示意图；

图2为本申请一种视频分类的方法另一实施例中的流程示意图；

图3是本申请一种视频分类的方法又一实施例中的流程示意图；

图4是本申请一种视频分类的方法又一实施例中的流程示意图；

图5为本申请一种视频分类的方法再一实施例中的流程示意图；

图6是本申请一种视频分类的装置一实施例中的结构示意图；

图7是本申请一种存储介质一实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参见图1，图1为本申请一种视频分类的方法一实施例中的流程示意图。在当前实施例中，本申请所提供的方法包括：

S110：在当前时间间隔中，自待处理视频中的多个不同位置选取多个目标帧。

在获取到待处理视频后，首先会自待处理视频中的多个不同位置选取多个视频帧，并输出为目标帧。其中，在本申请中将自待处理视频中选取目标帧的逻辑程序定义为智能体，在本申请所提供的技术方案中，用于对视频进行分类的软件程序中会包括多个智能体，在此对于智能体的数量不做任何限定，多个智能体为并行程序逻辑，且智能体的数量可以根据实际的需要进行设置调整。进一步地，可以将步骤S110视为是由多个智能体与包含多帧/片段的待处理视频序列随着时间推移进行交互，以自待处理视频中选取多个目标帧，或在同一时间间隔内自待处理视频中不同位置分别选取多个目标帧。

进一步地，在另一实施例中，步骤S110进一步包括：在当前时间间隔中，多个智能体自待处理视频中并行选取多个目标帧。

更进一步地，步骤S110也可以理解为相邻的智能体间隔相同的帧数分别自待处理视频中选取多个目标帧。可以理解的是，在其他实施例中，多个智能体之间也可以是间隔不同的帧数进行并行选取多个目标帧。

首先需要说明的是，当自待处理视频中所选取的目标帧不是关键帧时，本申请所提供的技术方案中会重复多次从待处理视频中选取目标帧，然后依次执行下述步骤S120和步骤S130以判断所选取的目标帧进是否为关键帧，只有在判断得到在当前时间间隔所选取的多个目标帧均为关键帧或者是超过预设比例的目标帧为关键帧时，方会执行步骤S140，具体技术细节可以参见下文对应部分的阐述。在当前实施例中，将同一智能体前后两次选取目标帧的时间差定义为时间间隔，时间间隔的长短可以根据实际的需要进行调整并设定，也可以根据经验值进行设定。

S120：根据各个目标帧及其关联帧的特征信息，确定各个目标帧对应的选取指示。其中，关联帧为位于目标帧之前和/或之后的若干帧，选取指示用于确定在下一时间间隔内目标帧的选取位置。

在选取到目标帧之后，进一步根据各个目标帧以及与目标帧关联的关联帧的特征信息，确定各个目标帧对应的选取指示。其中，各个目标帧对应的选取指示是指在判断得到当前多个目标帧不是关键帧时，在下一个时间间隔中各个目标帧所对应的智能体应该移动方向以及移动的帧数。具体地，选取指示中的移动方向至少包括左移、静止和右移。选取指示中的移动帧数具体可以根据目标帧以及关联帧的特征信息计算求得，也可以是预先设定的。

在一实施例中，选取指示也可以是仅仅包括在下一个时间间隔中各个目标帧所对应的智能体应该移动方向。对应的，在当前实施例中会预先设定每个智能体每次移动的帧数。如可以预先设定每个智能体每次移动帧数为1帧，对应的，在当前实施例中，当某一个目标帧对应的选取指示为左移，则在判断得到当前时间间隔内所选取的目标帧不是关键帧时，则在下一个时间间隔内该目标帧对应的智能体则会向左移动1帧选取对应位置的视频帧为目标帧。可以理解的是，在其他实施例中也可以设定每个智能体每次移动帧数为2帧，或者是移动3帧，具体移动帧数可以依据实际应用进行调整，在此不做任何限定。

S130：根据多个目标帧所对应的选取指示，判断多个目标帧中是否存在大于或等于预设比例的帧数为关键帧。

在分别求得多个目标帧所对应的选取指示之后，可以进一步根据所得的多个目标帧所对应的选取指示，分别判断当前所选取的多个目标帧是否为关键帧，并根据对各个目标帧的判断结果进一步判断在当前时间间隔内多个目标帧中是否存在大于或等于预设比例的帧数为关键帧。

其中，当某个目标帧对应的选取指示为静止时，则判断该目标帧为关键帧。反之，如若目标帧对应的选取指示不是静止时，则判断该目标帧不是关键帧。其中，预设比例可以根据实际需要进行设定。

如在一实施例中，可以设定预设比例为百分之百。则在该实施例中，若判断所有的目标帧为关键帧，则判断得到多个目标帧均是关键帧，进而会执行步骤S140，若判断得到多个目标帧不全是关键帧，即当前时间间隔内所选取的目标帧不是百分之百为关键帧，则会在下一个时间间隔内根据选取指示重新选取新的目标帧。

在另一实施例中，预设比例也可以根据经验值设置为一个小于百分之百的值，如设定为百分之九十。对应的，在当前实施例中，在分别确定了各个目标帧是否为关键帧之后，进一步判断当前时间间隔中是否存在超过百分之九十的帧数为关键帧，若是，则可以选择信任剩余不是关键帧的目标帧，进而判断得到当前时间间隔中所选取的目标帧为关键帧，则会进一步执行步骤S140。若判断得到当前时间间隔中目标帧为关键帧的数量小于预设比例时，则判断当前时间间隔内的目标帧不是关键帧，则会在下一个时间间隔内根据选取指示重新选取新的目标帧。更进一步地，在当前实施例中，当预设比例为一个小于百分之百的值时，且在判断得到当前时间间隔中是否存在超过预设比例的帧数为关键帧时，则也可以在执行步骤S140时，仅仅依据为关键帧的目标帧确定待处理视频的类别。

S140：利用多个关键帧确定待处理视频的类别。

在判断得到当前时间间隔中的多个目标帧为关键帧后，则会进一步根据所得的多个关键帧确定待处理视频的类别。具体地，步骤S140可以是先根据各个关键帧所包括的信息分别确定其各自对应的视频帧类别，然后根据多个关键帧各自所对应的多个视频帧类别确定待处理视频的类别。其中，视频帧类别是指仅仅依据一个关键帧进行类别判断得到的该关键帧对应的类别。在当前实施例中，通过根据多个关键帧各自所对应的视频帧分类，可以更准确地求得待处理视频的类别，进而提高了视频分类的准确性。

图1所对应的实施例中所提供的技术方案，通过在当前时间间隔中，自待处理视频中的多个不同位置选取多个目标帧，然后根据各个目标帧及关联帧的特征信息，确定各个目标帧对应的选取指示，再根据多个目标帧对应的选取指示，判断多个目标帧是否为关键帧；若是，则利用多个目标帧确定待处理视频的类别。本申请图1所对应的技术方案中，通过目标帧及各个目标帧对应的关联帧的特征信息可以得到的选取指示更为准确，进而实现对视频进行更为准确的分类，进而提高视频分类的准确度。

请参见图2，图2为本申请一种视频分类的方法另一实施例中的流程示意图。在当前实施例，主要是对上述步骤S120做进一步阐述。在当前实施例中，上述步骤S120根据各个目标帧及其关联帧的特征信息，确定各个目标帧对应的选取指示，进一步包括：

S201：对各个目标帧进行编码处理，以分别获取各个目标帧对应的特征信息。

在获取到多个目标帧之后，对各个目标帧进行编码处理。其中，在当前实施例中，可以是通过卷积神经网络对各个目标帧进行编码处理，进而获得各个目标帧中的所包括的特征信息，也可以理解为各个目标帧所对应的特征信息。

S202：根据各个目标帧对应的联合状态信息，分别获得在当前时间间隔内各个目标帧对应的隐藏状态信息。

其中，目标帧对应的联合状态信息包括目标帧对应的特征信息、目标帧前后预设数量个目标帧所对应的特征信息和在历史时间间隔内目标帧对应的隐藏状态信息。

S203：根据各个目标帧在当前时间间隔内的隐藏状态信息，确定各个目标帧对应的选取指示。

在当前实施例中是根据所得的隐藏状态信息的概率分布确定各个目标帧对应的选取指示，选取指示为所对应的动作是预先定义的，如在一实施例中选取指示包括三个预定义动作，即向前移动、向后移动和停留，每个动作对应的移动步幅可以预先设置为δ帧/片段，δ为根据实际的需要可以进行调整的经验值。如步骤S201对某一个目标帧进行编码处理分别获取该目标帧对应的特征信息为

用

表示该目标帧对应的联合状态信息，用

表示历史时间间隔内目标帧对应的隐藏状态信息，在当前实施例中可以根据

和

求得该目标帧对应的隐藏状态信息。其中，t表示当前时间间隔，α表示的是目标帧的编号，对应的，在本申请所提供的技术方案中，根据下述公式求取各个目标帧在当前时间间隔内对应的隐藏状态信息

在求取到各个目标帧的隐藏状态信息后，会进一步根据各个目标在当前时间间隔内的隐藏状态信息确定各个目标帧对应的选取指示。然后基于softmax函数作为由θ_u参数化的策略网络确定各个目标帧对应的选取指示。具体地，根据概率分布

确定各个目标帧对应的选取指示选择一个要执行的动作

其中，

是由策略网络生成，且

U为动作空间中预设的动作选取指示，在当前实施例中U所对应的选取指示包括三个预定义动作，即向前移动、向后移动和停留，每个动作对应的移动步幅可以预先设置为δ帧/片段，δ为根据实际的需要可以进行调整的经验值，如无特别设定也可以默认δ为1帧。在当前实施例中，我们通过结合各个目标帧前后预设数量个目标帧所对应的特征信息，而不是结合当前时间间隔内的全部目标帧的特征信息，可以较好地简化计算量，提高系统的运行速度，同时通过结合目标帧的联合状态信息可以得到较为准确地选取指示，进而使得根据目标帧选取指示判断目标帧是否为关键帧的判断结果更为准确，进而提高了对于待处理视频的分类结果的准确性。

进一步地，在一实施例中，为了补偿时间分布上的第一个关键帧的联合状态信息，当目标帧为待处理视频中在时间分布上的第一个目标帧时，该目标帧对应的联合状态信息还包括待处理视频的开始帧对应的特征信息。

在另一实施例中，为了补偿时间分布上的最后一个目标帧的联合状态信息，当目标帧为待处理视频中在时间分布上的最后一个目标帧时，该目标帧对应的联合状态信息还包括所述待处理视频的结束帧对应的所述特征信息。

需要说明的是，当当前时间间隔为第一个时间间隔时，对于则各个目标帧所对应的历史时间间隔内目标帧对应的隐藏状态信息是不存在的，也可以理解为目标帧对应的隐藏状态信息为零。

请参见图3，图3为本申请一种视频分类的方法又一实施例中的流程示意图。在当前实施例中，本申请所提供的方法包括：

S301：在当前时间间隔中，自待处理视频中的多个不同位置并行选取多个目标帧。

在当前实施例中，自待处理视频中的多个不同位置并行选取多个目标帧，是指在同一个时间间隔内同时自待处理视频中选取多个视频帧。更进一步地，在另一实施例中也可以理解为是间隔相同的帧数且同时在待处理视频中选取多个目标帧。如，在一实施例中同时并行选取第5帧、第15帧、第25帧、第35帧、第45帧和第55帧。可以理解的是，在其他实施例中也可以是自待处理视频中间隔不同的帧数并行选取多个目标帧，如并行随机选取第5帧、第18帧、第26帧、第39帧、第51帧和第57帧。

S302：根据各个目标帧及其关联帧的特征信息，确定各个目标帧对应的选取指示。

S303：根据多个目标帧所对应的选取指示，判断多个目标帧中是否存在大于或等于预设比例的帧数为关键帧。

步骤S302和步骤S303与上述步骤S120和步骤S130相同，具体可以对应参见S120和S130对应部分的阐述，在此不再详述。

在当前实施例中，在根据多个目标帧所对应的选取指示，判断多个目标帧是否为关键帧之后，本申请所提供的方法还包括步骤S304和步骤S305。

S304：若判断多个目标帧中为关键帧的数量小于预设比例时，则在下一时间间隔内按照选取指示，自待处理视频中的多个不同位置选取新的多个目标帧。

当目标帧所对应的选取指示为静止时，则判断该目标帧为关键帧，反之，当目标帧对应的选取指示不是静止时，即当目标帧对应的选取指示为左移或右移时，则判断该目标帧不是关键帧。在当前实施例中，当判断得到多个目标帧中为关键帧的数量小于预设比例时，则在下一时间间隔内对应按照选取指示，自待处理视频中的多个不同位置选取新的多个目标帧，并在选取到新的多个目标帧之后执行步骤S305。

S305：在获取新的多个目标帧后，再次执行根据各个目标帧及其关联帧的特征信息，确定各个目标帧对应的选取指示及其后续步骤。

在获取到新的多个目标帧之后，然后再次执行根据多个目标帧及其关联帧的特征信息确定各个目标帧在新的时间间隔内对应的选取指示。并在确定了新的目标帧的选取指示之后，进一步判断各个新的多个目标帧中是否存在大于或等于预设比例的帧数为关键帧，并根据判断结果确定是再次重新选取新的目标帧，还是执行步骤利用多个关键帧确定待处理视频的类别。具体的技术细节，可以参见其他实施例中对应部分的阐述，在此不再详述。

进一步地，上述步骤S140利用多个关键帧确定待处理视频的类别进一步包括：步骤S306和步骤S307。

S306：对多个关键帧进行分类识别，以分别获得多个关键帧的帧分类信息。

在确定了当前时间间隔内选取的目标帧为关键帧时，则会分别对各个关键帧进行分类识别，以分别获得多个关键帧的帧分类信息。具体地，可以是依据多个关键对应的特征信息对关键帧进行分类识别，如可以将关键帧中所包括的特征信息与数据库中的预存的各个类别视频帧的特征信息进行比对，如若该关键帧的特征信息与数据库中的预存的各个类别视频帧的特征信息匹配，则判断关键的类别为该类别的视频，并将该类别输出作为该关键帧的帧分类信息。

S307：根据多个关键帧的帧分类信息进行聚合计算，得到待处理视频的类别。

在求得各个关键帧的帧分类信息后，会根据预先设置的聚合计算规则对多个关键帧的帧分类信息进行聚合计算，得到待处理视频的类别。

在一实施例中，将每个目标帧输入至系统中分类网络中进而会产生预测分数

关键帧的预测分数用l_Tstop表示，对于多个关键帧的预测分数为

然后根据预设的聚合计算规则对关键帧的预测分数l_Tstop进行聚合计算，求得多个关键帧的类别信息对应的最终类别预测分数，然后将所得最终类别预测分数与数据库中预设的各个类别的分数进行匹配，进而求得待处理视频的最终类别信息。其中，

C为数据库中的类别数，分类网络f_p由θ_p参数化。

进一步地，请参见图4，图4为本申请一种视频分类的方法又一实施例中的流程示意图。在当前实施例中本申请所提供的方法进一步包括：

S401：对多个关键帧进行分类识别，以分别获得多个关键帧的帧分类信息。

在当前实施例中，上述步骤根据多个关键帧的帧分类信息进行聚合计算，得到待处理视频的类别进一步包括步骤S402至步骤S404。

需要说明的是，在当前实施例中，聚合计算规则包括求取均值和加权求和。在当前实施例中，上述步骤S307根据多个目标帧的帧分类信息进行聚合计算，得到待处理视频的类别，进一步包括步骤S402至步骤S404。

S402：获取多个目标帧的帧分类信息对应的类别预测分数。

在获取到多个关键帧的帧分类信息之后，进一步对所得的各个目标帧的进行计算，以获得多个目标帧帧分类信息对应的类别预测分数。在本申请所提供的技术方案中，对于各个类别预设分数，在求得帧分类信息之后会根据帧分类信息与预设分数的对应关系求得类别预测分数。

S403：将多个目标帧对应的类别预测分数进行求取均值，并将均值输出为待处理视频的最终类别预测分数，或，将多个目标帧对应的类别预测分数进行加权求和，并将和输出为待处理视频的最终类别预测分数。

在一实施例中，在获取多个目标帧的帧分类信息对应的类别预测分数之后，对多个目标帧对应的类别预测分数进行求取均值，然后将求取均值所得的均值输出为待处理视频的最终类别预测分数。如，当自待处理视频中选取5个目标帧时，则在当前实施例中会对这5个目标帧对应的类别预测分数进行求取均值，并将所得的均值输出为待处理视频的最终类别预测分数。

在另一实施例中，在获取多个目标帧的帧分类信息对应的类别预测分数之后，对多个目标帧对应的类别预测分数进行加权求和，并将加权求和所得的结果输出为待处理视频的最终类别预测分数。其中，需要说明的是，在当前实施例中，加权求和中各个权重比可以根据经验值以及实际需要进行设置。如根据经验值得知在时间分布上比较靠前或者是靠后的视频帧的分类信息相对不够准确，则会根据实际的需要将时间分布上比较靠前或者是靠后的目标帧的权重比调小。

S404：将最终类别预测分数对应的类别作为待处理视频的类别。

在求得最终类别预测分数之后，进一步将所得的最终类别预测分数与数据库中各个类别对应的预测分数进行比对，将最终类别预测分数所匹配的视频类别输出作为待处理视频的类别。

进一步地，当最终类别预测分数在数据路中各个类别对应的预测分数均不匹配时，则会再次重新执行上述各个步骤。再或者，在另一实施例中，在求得的最终类别预测分数之后，会将与最终类别分数最接近的视频类别输出作为待处理视频的类别。

请参见图5，图5为本申请一种视频分类的方法再一实施例中的流程示意图。图5中着重展示的是在一实施例中上述步骤S130根据多个目标帧所对应的选取指示，判断多个目标帧中是否存在大于或等于预设比例的帧数为关键帧所包括的步骤。

首先需要说明的是，选取指示为指示在下一时间间隔内选取位置的移动动作。具体的选取指示用于指示各个智能体在下一个时间间隔内移动以选取新的多个目标帧。

S501：判断多个目标帧对应的选取指示是否全部为静止。

在求取得到各个目标帧对应的选取指示之后，判断多个目标帧对应的选取指示是否全部是静止。

S502：判断多个目标帧为关键帧。

若判断得到多个目标帧对应的选取指示全部为静止时，则判断得到当前时间间隔内所选取的多个目标帧为关键帧。

S503：判断多个目标帧不是关键帧。

反之，若判断多个目标帧对应的选取指示不全是静止时，则判断得到当前时间间隔内所选取的多个目标帧不是关键帧。

进一步地，首先需要说明的是，当将执行视频分类的方法执行主体定义为视频分类框架，则视频分类框架包括多个智能体、上下文感知观察网络、策略网络和分类网络。其中，分类网络与上下文感知观察网络共享最后一个分类器层之前各层的参数。最后一个分类器的＝为用于确定待处理视频类别的分类网络。可以理解的是，在不同的实施例中，可以按照功能将视频分类框架分解为不同的模块或网络。

其中，每个智能体用于选取一个目标帧。当本申请所提供的方法在同一个时间间隔内选取多个目标帧时，则视频分类框架中包括多个智能体。进一步地，智能体还用于判断所获取的目标帧是否为关键帧。在一实施例中，可以设置所有智能体之间共享策略网络的参数，以便视频分类框架可以随时应用于选取任意数量的目标帧的测试。

上下文感知观察网络用于获得各个目标帧及其关联帧的特征信息，具体地，上下文感知观察网络还用于。

策略网络用于根据各个目标帧及其关联帧的特征信息，确定各个目标帧对应的选取指示。具体地，策略网络用于根据各个目标帧对应的联合状态信息，分别获得在当前时间间隔内各个目标帧对应的隐藏状态信息，根据各个目标帧在当前时间间隔内的隐藏状态信息，确定各个目标帧对应的选取指示。

分类网络用于利用多个目标帧确定待处理视频的类别。具体地，分类网络用于对多个关键帧进行分类识别，以分别获得多个关键帧的帧分类信息，根据多个关键帧的帧分类信息进行聚合计算，得到待处理视频的类别。

更进一步地，分类网络用于对多个关键帧进行分类识别，以分别获得多个关键帧的帧分类信息，获取多个目标帧的帧分类信息对应的类别预测分数。然后将多个目标帧对应的类别预测分数进行求取均值，并将均值输出为待处理视频的最终类别预测分数，或将多个目标帧对应的类别预测分数进行加权求和，并将和输出为待处理视频的最终类别预测分数。最后将最终类别预测分数对应的类别作为待处理视频的类别。

在当前实施例中，本申请所提供的方法还可以包括对视频分类框架进行优化训练。对视频分类框架的优化训练的目标是同时最大化用于采集目标帧的智能体及与之相关的网络模块的预期奖励，使得用于分类的分类网络的损失函数最小化。

在一实施例中，利用反向传播算法训练分类网络模型，以获得最终的分类网络。

在另一实施例中，利用强化学习策略梯度算法训练上下文感知观察网络模型、策略网络模型进行训练，以分别获得最终的上下文感知观察网络和策略网络。

我们使用标准的反向传播训练由θ_p参数化的分类网络，并使用强化学习梯度算法(REINFORCE算法)优化基础观测网络、上下文模块和策略网络的参数θ_π＝{θ_o,θ_h,θ_u}。因此，我们的损失函数包括视频分类框架损失

和分类损失

对于给定动作序列空间U，目标可表示为

我们希望训练使得目标最大化的网络参数θ_π,因此J(θ_π)的梯度为：

强化学习梯度算法通过使用蒙特卡洛采样来获得K个交互序列以近似策略梯度,然后我们可以使用随机梯度下降来最小化损失函数:

为防止策略网络中所得的策略变得过于确定性，我们使用了熵正则化，熵越大，智能体将具有的探索能力越强。因此，我们遵循使用策略熵来提高探索能力的做法，具体做法是：

在另一实施例中，在训练智能体模型过程中，计算每次训练所得的智能体模型的熵和奖励函数值；将熵和奖励函数值最大的智能体模型作为多个智能体。其中，奖励函数可以反映智能体选取目标帧的行动的准确度，当所有智能体都采取行动时，则每个智能体均会根据当前时间间隔内分类概率

获得其对应的奖励值。给予奖励以鼓励智能体找到包括更多信息的目标帧，该框架可以逐步提高正确预测的可能性。因此，在当前实施例中，我们通过设计奖励函数来鼓励智能体增加其置信度。具体地，对于第t(t>1)时间步骤，智能体a会收到以下奖励，

其中，

表示在智能体a的第t时间步将视频预测为类c的概率，而gt是该视频的真实标签。

当视频分类框架中包括多个智能体时，则可以设置使得所有的智能体共享相同的奖励函数。在时间间隔t内，智能体a的奖励函数为

其中γ∈(0,1]是控制未来奖励重要性的恒定折扣因子。在当前实施例中，通过控制未来奖励重要性的恒定折扣因子可以较好地实现累积折现的奖励函数值，进而使得在较远的将来获得的奖励函数值对当前步骤的贡献较小，使得较近的时间间隔对获得的奖励函数值对当前步骤贡献较大。

视频分类框架的总损失函数是两个损失函数的组合：

其中，λ₁是一个恒定的缩放因子。

我们使用交叉熵损失以最小化视频真实标签分布y和预测p之间的KL散度：

相比现有技术，本申请所提供的技术方案，可较好地以实现对于包含大量冗余帧的未剪辑的视频进行分类，且实现对于场视频进行分类的同时，还可以较好地保证对于视频分类的精度。同时，策略网络具有可迁移性。一旦策略网络完成训练，可以直接迁移到不同类型的长视频数据集以及不同类型的视频分类器进行关键帧提取，即本申请所提供的技术方案的适应性较广。同时本申请所提供的技术方案中，通过多个智能体可以实现并行提取关键帧，而相比于现有技术中的串行挑选关键帧，可以较好地提高GPU使用效率。再者本申请所提供的技术方案中，只需完成一次视频分类框架的训练，就可根据需要提取不同指定数量的关键帧，无需针对指定数量的关键帧进行重复训练，相比现有技术简单且适用面更广。

请参见图6，图6为本申请一种视频分类的装置一实施例中的结构示意图。在当前实施例中，本申请所提供的视频分类的装置600包括耦接的处理器601和存储器602。其中，视频分类的装置600可以执行图1至图5及其对应的任意一个实施例中所述的视频分类的方法。

其中，存储器602包括本地储存(图未示)，且存储有计算机程序，计算机程序被执行时可以实现图1至图5及其所对应的任意一个实施例中所述的方法。

处理器601与存储器602耦接，处理器601用于运行计算机程序，以执行如上图1至图5及其对应的任意一个实施例中所述的视频分类的方法。

进一步地，在另一实施例中，本申请所提供的视频分类的装置600还会包括通信电路(图未示)，通信电路与处理器601连接，用于在处理器601的控制下与外部的终端设备进行数据交互，以获取初始图像数据或指令数据。其中，指令数据至少包括计算机程序升级指令，以及计算机程序升级所需的数据包。

参见图7，图7为本申请一种存储介质一实施例结构示意图。该存储介质700存储有能够被处理器运行的计算机程序701，该计算机程序701用于实现如上图1至图5及其对应的任意一个实施例中所描述的视频分类的方法。具体地，上述存储介质700可以是存储器、个人计算机、服务器、网络设备，或者U盘等其中的一种，具体在此不做任何限定。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频分类的方法，其特征在于，包括：

若是，则利用所述多个关键帧确定所述待处理视频的类别。

2.根据权利要求1所述的视频分类的方法，其特征在于，所述根据所述多个目标帧所对应的所述选取指示，判断所述多个目标帧中是否存在大于或等于预设比例的帧数为关键帧之后，所述方法还包括：

若判断所述多个目标帧中为所述关键帧的数量小于所述预设比例时，则在所述下一时间间隔内按照所述选取指示，自待处理视频中的多个不同位置选取新的多个目标帧；

在获取所述新的多个目标帧后，再次执行所述根据各个所述目标帧及其关联帧的特征信息，确定各个所述目标帧对应的选取指示及其后续步骤。

3.根据权利要求1或2所述的视频分类的方法，其特征在于，所述根据各个所述目标帧及其关联帧的特征信息，确定各个所述目标帧对应的选取指示，进一步包括：

对各个所述目标帧进行编码处理，以分别获取各个所述目标帧对应的特征信息；

根据各个所述目标帧对应的联合状态信息，分别获得在所述当前时间间隔内各个所述目标帧对应的隐藏状态信息，其中，所述目标帧对应的联合状态信息包括所述目标帧对应的特征信息、所述目标帧前后预设数量个所述目标帧所对应的所述特征信息和在历史时间间隔内所述目标帧对应的隐藏状态信息；

根据各个所述目标帧在当前时间间隔内的隐藏状态信息，确定各个所述目标帧对应的选取指示。

4.根据权利要求3所述的视频分类的方法，其特征在于，当所述目标帧为所述待处理视频中在时间分布上的第一个目标帧时，所述联合状态信息还包括所述待处理视频的开始帧对应的所述特征信息；

当所述目标帧为所述待处理视频中在时间分布上的最后一个目标帧时，所述联合状态信息还包括所述待处理视频的结束帧对应的所述特征信息；

当所述当前时间间隔为第一个时间间隔时，所述目标帧对应的隐藏状态信息为零。

5.根据权利要求1所述的视频分类的方法，其特征在于，所述选取指示为指示在所述下一时间间隔内选取位置的移动动作；所述预设比例为百分之百，则所述根据所述多个目标帧所对应的所述选取指示，判断所述多个目标帧中是否存在大于或等于预设比例的帧数为关键帧，进一步包括：

判断所述多个目标帧对应的选取指示是否全部为静止；

若是，则判断所述多个目标帧为所述关键帧；

若否，则判断所述多个目标帧不是所述关键帧。

6.根据权利要求1所述的视频分类的方法，其特征在于，所述在当前时间间隔中，自待处理视频中的多个不同位置选取多个目标帧，包括：

在当前时间间隔中，自待处理视频中的多个不同位置并行选取多个目标帧；和/或，

所述利用所述多个关键帧确定所述待处理视频的类别，包括：

对所述多个关键帧进行分类识别，以分别获得所述多个关键帧的帧分类信息；

根据所述多个关键帧的所述帧分类信息进行聚合计算，得到所述待处理视频的类别。

7.根据权利要求6所述的视频分类的方法，其特征在于，所述根据所述多个关键帧的所述帧分类信息进行聚合计算，得到所述待处理视频的类别，进一步包括：

获取所述多个目标帧的所述帧分类信息对应的类别预测分数；

将所述多个目标帧对应的所述类别预测分数进行求取均值，并将所述均值输出为所述待处理视频的最终类别预测分数；或，将所述多个目标帧对应的所述类别预测分数进行加权求和，并将所述和输出为所述待处理视频的最终类别预测分数；

将所述最终类别预测分数对应的类别作为所述待处理视频的类别。

8.根据权利要求1所述的视频分类的方法，其特征在于，所述方法执行主体为视频分类框架，所述视频分类框架包括多个智能体、所述上下文感知观察网络、策略网络和分类网络；

其中，每个所述智能体用于选取一个所述目标帧；所述上下文感知观察网络用于获得各个所述目标帧及其关联帧的特征信息，所述策略网络用于根据各个所述目标帧及其关联帧的特征信息，确定各个所述目标帧对应的选取指示；所述分类网络用于利用所述多个目标帧确定所述待处理视频的类别；和/或

所述方法还包括以下至少一个步骤：

利用反向传播算法训练分类网络模型，以获得最终的所述分类网络；

利用强化学习策略梯度算法训练所述上下文感知观察网络模型、所述策略网络模型进行训练，以分别获得最终的所述上下文感知观察网络和所述策略网络；

在训练智能体模型过程中，计算每次训练所得的智能体模型的熵和奖励函数值；将熵和奖励函数值最大的所述智能体模型作为所述多个智能体。

9.一种视频分类的装置，其特征在于，所述装置包括耦接的存储器和处理器，其中，

所述存储器包括本地储存，且存储有计算机程序；

所述处理器用于运行所述计算机程序，以执行权利要求1至8任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有能够被处理器运行的计算机程序，所述计算机程序用于实现权利要求1至8任一项所述的方法。