CN114915856B

CN114915856B - 视频关键帧标识方法、装置、设备及介质

Info

Publication number: CN114915856B
Application number: CN202210538159.3A
Authority: CN
Inventors: 张丽萍; 李卫军; 于丽娜; 孙琳钧; 董肖莉
Original assignee: Institute of Semiconductors of CAS
Current assignee: Institute of Semiconductors of CAS
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-05-05
Anticipated expiration: 2042-05-17
Also published as: CN114915856A

Abstract

本发明提供一种视频关键帧标识方法及装置，其中，该方法包括：获取视频数据，所述视频数据包括多帧图像，根据所述前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；解析所述视频段是否显示有预设目标，根据解析结果确定视频标签，在所述视频段上标记所述视频标签，从而帮助用户快速实现对视频的定位、观看。

Description

视频关键帧标识方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，具体的是涉及一种视频关键帧标识方法及装置。

背景技术

日常在用手机或其他摄像设备录制视频的时候，视频的前段和后段内容大多时侯是无效片段，或者是录取一段很长时间的视频，这样的原始视频在保存、分享、发送时，会消耗更多的存储空间、网络带宽和传输时间，而用户经常真正想查看的部分只有中间很少的部分，却需要播放整个视频，或者通过拉动时间进度条寻找感兴趣的部分，非常耗时耗力，而且用户体验不好。

发明内容

本发明提供了一种视频关键帧标识方法，该方法包括：获取视频数据，所述视频数据包括多帧图像，根据所述前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；解析所述视频段是否显示有预设目标，根据解析结果确定视频标签，在所述视频段上标记所述视频标签。

进一步地，通过目标检测网络解析所述视频段是否显示有预设目标。

进一步地，所述解析所述视频段是否显示有预设目标，包括：根据预设规则，抽取所述视频段中的部分图像帧；根据所述部分图像帧，解析所述视频段中是否显示有预设目标。

进一步地，所述获取视频数据之前，还包括：获取用户输入的预设目标图像。

进一步地，所述根据所述部分图像帧，解析所述视频段中显示的目标，包括：将所述部分图像帧输入身份识别网络中，识别身份信息；将所述部分图像帧输入动作姿态识别网络中，识别目标姿态信息；将所述部分图像帧输入物品检测网络中，识别物品名称信息；根据识别出的信息确定解析结果。

进一步地，所述解析所述视频段是否显示有预设目标，包括：根据用户事先输入的音频信息解析视频段中显示的预设目标。

第二方面，本发明还提供了一种视频关键帧标识装置，包括：第一处理模块，用于获取视频数据，所述视频数据包括多帧图像，根据所述前后帧图像之间的相似度或/和根据音频变化信息确定视频段；第二处理模块，用于解析所述视频段是否显示有预设目标，根据解析结果确定视频标签，在所述视频段上标记所述视频标签。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频关键帧标识方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频关键帧标识方法的步骤。

第五方面，本发明实施例还提供了一种计算机程序产品，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面所述视频关键帧标识方法的步骤。

本发明提供的一种视频关键帧标识方法及装置，通过获取视频数据，所述视频数据包括多帧图像，根据所述前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；解析所述视频段是否显示有预设目标，根据解析结果确定视频标签，在所述视频段上标记所述视频标签。可以帮助用户快速定位到关键的位置，而不是需要从头到尾观看视频，节省了时间。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明提供的视频关键帧标识方法的一些实施例的流程示意图；

图2为根据本发明提供的视频关键帧标识装置的一些实施例的结构示意图；

图3是根据本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本发明。

请参阅图1，图1是本发明提供的视频关键帧标识方法的一些实施例的流程示意图。如图1所示，该方法包括以下步骤：

步骤101，获取视频数据，视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段。

一段视频由多帧连续的图像组成，判断连续帧的图像之间的相似度，若相似度大于预设的阈值，则说明前后帧图像之间非常相似，为一个场景的视频段；若相似度小于或等于预设的阈值，则说明前后帧图像之间不相似，具有跳跃性，后帧图像为一个转换场景的视频帧，所述转换场景的视频帧为关键视频帧，根据所述关键视频帧确定各视频段之间的分割点。一个视频段的中间图像帧也可能包括关键视频帧。

作为示例，相似度的计算可以是关于结构相似性度量、余弦相似度、基于直方图的相似度或基于互信息的相似度。

作为另一种实施方式，可以通过将视频数据中语音数据输入音频数据处理器或者音频神经网络，确定音频变化信息，所述音频变化信息包括幅值、频率变化信息，并根据音频变化信息确定关键视频帧，从而可将一整个视频分割为多个视频段。

本发明对视频数据的来源不做限制，例如，视频数据可以是在网上下载的视频，也可以是用户录制的视频，视频内容包括春节晚会视频、孩子上课视频、活动视频、电影或电视剧视频、节目视频、家庭居室录制视频等，本发明对视频数据的内容不做限定。

通过本发明，基于相邻图像帧的相似度，确定视频关键帧，或者基于音频变化信息，确定音频变化跳跃的位置对应的图像帧为视频关键帧，将所述多个视频关键帧作为视频段之间的分割点，从而将整个视频划分为视频段。这个过程可通过处理器完成，也可通过神经网络完成。

步骤102，解析视频段是否显示有预设目标，根据解析结果确定视频标签，在视频段上标记视频标签。

作为示例，预设目标可以包括人、动物、物品等。

作为示例，若分割为多个视频段，那么需要依次解析这些视频段。对于每段视频段的解析，可以将视频段输入训练好的识别网络中，识别网络依次抽取每帧图像进行识别，并将每帧图像的识别结果加权，最后确定视频段是否显示有预设目标以及显得预设目标的相关信息。

作为示例，解析视频段是否显示有预设目标，包括检测视频中是否有人出现/消失。

作为示例，视频标签可以由用户自定义设置。

本发明一些实施例公开的视频关键帧标识方法，通过获取视频数据，视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；解析视频段是否显示有预设目标，根据解析结果确定视频标签，在视频段上标记视频标签。可以帮助用户快速定位到关键的位置，而不是需要从头到尾观看视频，大大节省了用户的时间。

在一些可选的实现方式中，通过目标检测网络解析视频段是否显示有预设目标。

目标检测网络的任务是除了给出待检测目标的类别信息外，还需要给出物体在图像中的位置，并用一个最小的矩形框将其包围起来，即分类+定位。目标检测网络的网络结构可以参考Faster-RCNN、Single Shot MultiBox Detector和SPP-Net等。

在一些可选的实现方式中，解析视频段是否显示有预设目标，包括：根据预设规则，抽取视频段中的部分图像帧；根据部分图像帧，解析视频段中是否显示有预设目标。

作为示例，预设规则可以是抽取相邻图像帧相似度在第一预定范围内的至少三帧图像和/或抽取相邻图像帧相似度在第二预定范围内的至少三帧图像，根据所述至少三帧图像解析视频段中是否显示有预设目标，所述第一预定范围内的至少三帧图像表示图像有逐步变化的至少三帧图像，所述第二预定范围内的至少三帧图像表示图像有跳跃性变化的至少三帧图像。这种实施方式能够大大降低数据处理量，提高数据处理效率，节省处理资源。

在一些可选的实现方式中，获取视频数据之前，还包括：获取用户输入的预设目标图像。

预先训练身份识别网络、动作姿态识别网络、物品检测网络。通过所述预先训练好的身份识别网络、动作姿态识别网络、物品检测网络对视频段进行解析，生成解析结果，作为视频标签。

在一些可选的实现方式中，根据部分图像帧，解析视频段中显示的目标，包括：将所述部分图像帧输入身份识别网络中，识别身份信息；将所述部分图像帧输入动作姿态识别网络中，识别目标姿态信息；将所述部分图像帧输入物品检测网络中，识别物品名称信息；根据识别出的信息确定解析结果。

在一些实施例中，身份识别网络、动作姿态识别网络和物品检测网络都是预先训练好的。将所述部分图像帧输入预先训练好的身份识别网络中，识别身份信息，完成身份注册；将部分图像帧输入预先训练好的动作姿态识别网络中，识别目标姿态信息；将部分图像帧输入预先训练好的物品检测网络中，识别物品名称信息；根据识别出的信息生成解析结果。

在一个应用场景中，可以获取用户输入的包含目标人物的视频或图像，完成目标人物的身份信息注册。身份信息注册也可以分角色注册。注册成功后，身份识别网络即可实现视频中目标人物的特定身份识别。例如，目标人物可以是孩子、爸爸或妈妈，在身份识别网络中输入的包含爸爸的视频或图像，由身份识别网络提取关于爸爸的特征值并存储，即完成注册。注册成功后，将部分图像帧输入身份识别网络中，提取部分图像帧的特征值，将该特征值与已经存储的特征值对比，确定部分图像帧中人物的身份信息。在一些可选的实现方式中，解析视频段是否显示有预设目标，包括：根据用户事先输入的音频信息解析所述视频段中显示的预设目标。

在一些实施例中，根据用户事先输入的音频信息作为注册信息输入音频识别网络进行身份注册，例如，用户按照给定的文本重复录入音频，完成语音身份注册。然后，将视频段的音频信息输入这个网络，解析目标视频序列中显示的预设目标。或者提取音频信息的特征，将其纳入特征库中，用于与视频段的音频信息进行对比，进而确定视频段中显示的预设目标。

作为示例，音频信息可以包括指令和音色。例如，在一个小孩子学习打卡或表演节目的视频中，若视频语音中出现类似于“开始”的语言指令(即音频信息)，也可以以“开始”的语言指令解析视频段中显示的预设目标。

请参阅图2，图2是根据本发明提供的视频关键帧标识装置的一些实施例的结构示意图，作为对上述各图所示方法的实现，本发明还提供了一种视频关键帧标识装置的一些实施例，这些装置实施例与图1所示的一些方法的实施例相对应，且该装置可以应用于各种电子设备中。

如图2所示，一些实施例的视频关键帧标识装置包括第一处理模块201、第二处理模块202：第一处理模块201，用于获取视频数据，视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；第二处理模块202，用于解析视频段是否显示有预设目标，根据解析结果确定视频标签，在视频段上标记视频标签。

在一些实施例的可选实现方式中，通过目标检测网络解析视频段是否显示有预设目标。

在一些实施例的可选实现方式中，第二处理模块202还用于：根据预设规则，抽取视频段中的部分图像帧；根据部分图像帧，解析视频段中是否显示有预设目标。

在一些实施例的可选实现方式中，获取视频数据之前，还包括：第三处理模块，用于获取用户输入的预设目标图像。

在一些实施例的可选实现方式中，第二处理模块202还用于：将部分图像帧输入身份识别网络中，识别身份信息；将部分图像帧输入动作姿态识别网络中，识别目标姿态信息；将部分图像帧输入物品检测网络中，识别物品名称信息；根据识别出的信息确定解析结果。

在一些实施例的可选实现方式中，第二处理模块202还用于：根据用户事先输入的音频信息解析视频段中显示的预设目标。

在一些实施例的可选实现方式中，可以理解的是，该装置中记载的各模块与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置及其中包含的模块、单元，在此不再赘述。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行视频关键帧标识方法，该方法包括：获取视频数据，视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；解析视频段是否显示有预设目标，根据解析结果确定视频标签，在视频段上标记视频标签。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，上述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，上述计算机程序包括程序指令，当上述程序指令被计算机执行时，计算机能够执行上述各方法所提供的视频关键帧标识方法，该方法包括：获取视频数据，视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；解析视频段是否显示有预设目标，根据解析结果确定视频标签，在视频段上标记视频标签。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的视频关键帧标识方法，该方法包括：获取视频数据，视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；解析视频段是否显示有预设目标，根据解析结果确定视频标签，在视频段上标记视频标签。

以上所描述的装置实施例仅仅是示意性的，其中上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分上述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频关键帧标识方法，其特征在于，包括：

获取视频数据，所述视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；

解析所述视频段是否显示有预设目标，根据解析结果确定视频标签，在所述视频段上标记所述视频标签；

通过目标检测网络解析所述视频段是否显示有预设目标；

所述解析所述视频段是否显示有预设目标，包括：

根据预设规则，抽取所述视频段中的部分图像帧；

根据所述部分图像帧，解析所述视频段中是否显示有预设目标；所述预设规则为抽取相邻图像帧相似度在第一预定范围内的至少三帧图像和/或抽取相邻图像帧相似度在第二预定范围内的至少三帧图像；所述第一预定范围内的至少三帧图像表示图像有逐步变化的至少三帧图像，所述第二预定范围内的至少三帧图像表示图像有跳跃性变化的至少三帧图像。

2.根据权利要求1所述的视频关键帧标识方法，其特征在于，所述获取视频数据之前，还包括：

获取用户输入的预设目标图像。

3.根据权利要求2所述的视频关键帧标识方法，其特征在于，所述根据所述部分图像帧，解析所述视频段中显示的目标，包括：

将所述部分图像帧输入身份识别网络中，识别身份信息；

将所述部分图像帧输入动作姿态识别网络中，识别目标姿态信息；

将所述部分图像帧输入物品检测网络中，识别物品名称信息；

根据识别出的信息确定解析结果。

4.根据权利要求1所述的视频关键帧标识方法，其特征在于，所述解析所述视频段是否显示有预设目标，包括：

根据用户事先输入的音频信息解析所述视频段中显示的预设目标。

5.一种视频关键帧标识装置，其特征在于，包括：

第一处理模块，用于获取视频数据，所述视频数据包括多帧图像，根据前后帧图像之间的相似度或/和根据音频变化信息确定关键视频帧，根据所述关键视频帧将视频数据分为多个视频段；

第二处理模块，用于解析所述视频段是否显示有预设目标，根据解析结果确定视频标签，在所述视频段上标记所述视频标签；

通过目标检测网络解析视频段是否显示有预设目标；

所述第二处理模块还用于：

根据预设规则，抽取视频段中的部分图像帧；

根据部分图像帧，解析视频段中是否显示有预设目标；所述预设规则为抽取相邻图像帧相似度在第一预定范围内的至少三帧图像和/或抽取相邻图像帧相似度在第二预定范围内的至少三帧图像；所述第一预定范围内的至少三帧图像表示图像有逐步变化的至少三帧图像，所述第二预定范围内的至少三帧图像表示图像有跳跃性变化的至少三帧图像。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的视频关键帧标识方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的视频关键帧标识方法的步骤。