CN115294506B

CN115294506B - 一种视频高光检测方法和装置

Info

Publication number: CN115294506B
Application number: CN202211226563.3A
Authority: CN
Inventors: 吕钦; 艾国; 杨作兴
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-12-09
Anticipated expiration: 2042-10-09
Also published as: CN115294506A

Abstract

本发明提供了一种视频高光检测方法和装置，该方法包括：收集多个视频数据，对每一视频数据进行帧级高光标注和像素级高光标注；用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型；利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注。本发明可以实现像素级的高光检测，能够有效提高视频高光检测的精准度。

Description

一种视频高光检测方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种视频高光检测方法和装置。

背景技术

视频高光检测（video highlight detection）：是指检测视频中的精彩时刻，可以用于视频自动剪辑，视频快速阅览，视频封面生成等应用场景。

现有视频高光检测一般是直接评估每一帧或者每一视频片段的得分，但是在实际中，人们觉得一段视频有趣好玩其实是因为视频中一些具体的物体或者局部画面吸引了人们的关注。

发明内容

有鉴于此，本发明的目的在于提供了一种视频高光检测方法和装置，可以实现像素级的高光检测，能够有效提高视频高光检测的精准度。

为了达到上述目的，本发明提供了如下技术方案：

一种视频高光检测方法，包括：

收集多个视频数据，对每一视频数据进行帧级高光标注和像素级高光标注；

使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型；

利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注。

一种视频高光检测装置，包括：

收集单元，用于收集多个视频数据，对每一视频数据进行帧级高光标注和像素级高光标注；

训练单元，用于使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型；

检测单元，用于利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；所述至少一个处理器执行所述一个或多个计算机程序时实现上述视频高光检测中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现上述视频高光检测中的步骤。

由上面的技术方案可知，本发明中，收集多个视频数据并进行帧级高光标注和像素级高光标注之后，将其作为训练样本训练预先构建的视频高光检测模型，从而利用训练的视频高光检测模型同时实现帧级高光检测和像素级高光检测，可以精准定位到高光视频中的局部画面，有效提高了视频高光检测的精准度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一视频高光检测方法流程图；

图2是本发明实施例二视频高光检测方法流程图；

图3是本发明实施例帧级高光评估过程示意图；

图4是本发明实施例视频高光检测模型的结构示意图；

图5是本发明提供的视频高光检测的一个实例流程图；

图6是本发明实施例视频高光检测装置的结构示意图；

图7是本发明实施例电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

参见图1，图1是本发明实施例一视频高光检测方法流程图，如图1所示，该方法包括以下步骤：

步骤101、收集多个视频数据，对每一视频数据进行帧级高光标注和像素级高光标注；

步骤102、使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型；

步骤103、利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注。

这里，待处理视频数据的帧级高光标注和像素级高光标注，即为对待处理视频数据的高光检测结果。

从图1所示方法可以看出，本实施例中，收集多个视频数据并进行帧级高光标注和像素级高光标注之后，将其作为训练样本训练预先构建的视频高光检测模型，从而利用训练的视频高光检测模型同时实现帧级高光检测和像素级高光检测，可以精准定位到视频数据的高光视频片段中的局部画面，能够有效提高视频高光检测的精准度。

参见图2，图2是本发明实施例二视频高光检测方法流程图，如图2所示，该方法包括以下步骤：

步骤2011、收集多个视频数据，并在收集每一视频数据时获取该视频数据的播放信息和弹幕信息。

在实际应用中，用户在观看播放的视频数据时，对于不感兴趣的视频片段可能会加快播放速度，而对于感兴趣的视频片段则一般不会加快播放速度，并且还可能会对感兴趣的视频片段发弹幕进行评论。

本实施例中，可以根据每一视频数据的播放信息和弹幕信息对该视频数据进行帧级高光评估，其中，所述播放信息包括用户对该视频数据中每一视频片段的播放速度；所述弹幕信息包括用户在该视频数据中每一视频片段的弹幕数量。这里，所述视频片段包括至少一帧视频图像。

步骤2012、对收集的每一视频数据执行步骤2013至步骤2014；

本实施例中，对每一视频数据执行步骤2013至步骤2014，可以确定该视频数据的帧级高光标注和像素级高光标注。

步骤2013、获取标注者对该视频数据的人工标注，根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息，确定该视频数据的帧级高光标注。

在实际应用中，可以让标注者对每一视频数据进行人工标注，所述人工标注包括标注者对每一视频片段的第一高光评分。在对该视频数据进行帧级高光评估时，可以如图3所示，根据该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息进行综合评估，得到该视频数据的帧级高光评分。

本实施例中，根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息，确定该视频数据的帧级高光标注，可具体包括：

按照播放速度与高光评分成反比的原则和用户对该视频数据中每一视频片段的播放速度，确定该视频片段的第二高光评分；

按照弹幕数量与高光评分成正比的原则和用户在该视频数据中每一视频片段的弹幕数量，确定该视频片段的第三高光评分；

对该视频数据中每一视频片段的第一高光评分、第二高光评分、和第三高光评分进行加权计算得到该视频数据的帧级高光评分，将该帧级高光评分作为该视频片段对应的帧级高光标注。

这里，假设某一视频片段的第一高光评分、第二高光评分、和第三高光评分分别是S_标注、S_速度、S_弹幕，则可以采用以下公式计算该视频片段的帧级高光评分S_帧级：

S_帧级 = α×S_速度 + β×S_弹幕 + （1-α-β）×S_标注；其中，α和β均属于取值区间[0,1]、例如，α和β的取值均为0.25。

步骤2014、获取标注者在该视频数据播放过程中的关注位置信息，根据所述关注位置信息确定该视频数据的像素级高光标注。

在实际应用中，用户在观看播放的视频数据时，能够吸引用户注意力的视频画面就是高光视频帧，而用户在视频画面中的眼神关注位置的像素点覆盖区域则是视频画面中的高光区域。

本实施例中，可以根据用户在观看播放的视频数据时的眼神关注位置确定该视频数据的像素级高光标注，该视频数据的像素级高光标注包括该视频数据中每一视频片段对应的像素级高光标注。所述获取标注者在该视频数据播放过程中的关注位置信息，根据所述关注位置信息确定该视频数据的像素级高光标注，可具体包括：利用部署在视频播放设备上的眼球跟踪仪检测标注者在该视频数据的每一视频片段播放时的眼球转动位置，根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置，将该关注位置信息作为该视频片段对应的像素级高光标注。

这里，将该关注位置信息作为该视频片段对应的像素级高光标注，具体可以采用如下方式实现：将标注者在该视频片段的播放画面中的关注位置的像素点的高光评分设置为1，标注者在该视频片段的播放画面中的未关注位置的像素点的高光评分设置为0。在实际应用中，也可以根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分，关注时间越长，高光评分越高。

为此，本实施例中，根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置时，还可以进一步按照关注时间越长高光评分越高的原则，根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分。这样，可以将由关注位置和关注位置的像素点的高光评分组成的关注位置信息作为该视频片段对应的像素级高光标注。

以上步骤2012至步骤2014是图1所示步骤101中“对每一视频数据进行帧级高光标注和像素级高光标注”的具体细化。

以上步骤2011至步骤2014是图1所示步骤101的具体细化。

步骤202、使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型；

本实施例中，预先构建的视频高光检测模型中包括图像特征编码模块、时序特征解码模块、像素特征解码模块、帧级高光预测模块、和像素级高光预测模块，其连接关系如图4所示。

以下对视频高光检测模型中包括的功能模块进行详细介绍：

1、图像特征编码模块，

本实施例中，图像特征编码模块，用于对输入模型的视频数据进行图像特征编码得到视频特征信息，将视频特征信息分别输出到时序特征解码模块和像素特征解码模块。

本实施例中，图像特征编码模块，可以是三维卷积神经网络（c3d）、膨胀三维卷积神经网络（i3d）、利用残差神经网络（resnet）和transformer结构构建的神经网络、或利用mobilenet神经网络和transformer结构构建的神经网络。

2、时序特征解码模块，

本实施例中，时序特征解码模块，用于对图像特征编码模块输出的视频特征信息进行时序特征解码得到时序特征信息，将时序特征信息输出到帧级高光预测模块。

本实施例中，时序特征解码模块，可以是transformer结构、长短期记忆网络LSTM、或卷积神经网络CNN。

3、像素特征解码模块，

本实施例中，像素特征解码模块，用于对图像特征编码模块输出的视频特征信息进行像素特征解码得到像素特征信息，将像素特征信息输出到像素级高光预测模块。

本实施例中，像素特征解码模块，可以是反卷积网络或transformer结构。

4、帧级高光预测模块，

本实施例中，帧级高光预测模块，用于对时序特征解码模块输出的时序特征信息进行处理得到帧级高光标注。

本实施例中，帧级高光预测模块可以是多层感知器（MLP）或transformer结构。

5、像素级高光预测模块，

本实施例中，像素级高光预测模块，用于对像素特征解码模块输出的像素特征信息进行处理得到像素级高光标注。

本实施例中，像素级高光预测模块，可以是transformer结构或卷积神经网络（CNN）。

步骤203、利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注。

这里，待处理视频数据的帧级高光标注和像素级高光标注，即为对待处理视频数据的高光检测结果。在确定待处理视频数据的高光检测结果之后，还可以进一步根据待处理视频数据的高光检测结果对待处理视频数据进行裁剪得到高光视频，即执行步骤204。

步骤204、根据待处理视频数据的帧级高光标注和像素级高光标注，从待处理视频数据裁剪出高光视频。

本实施例中，根据待处理视频数据的帧级高光标注和像素级高光标注，从待处理视频数据裁剪出高光视频，包括：

根据待处理视频数据的帧级高光标注，从待处理视频数据中选出高光评分最高的预设数量的视频片段；

根据待处理视频数据的像素级高光标注，从选出的视频片段中裁剪出高光区域图像。

这里，选出的视频片段中的像素级高光标注中，高光评分较高（例如大于某个设定阈值）的像素点覆盖的区域图像即高光区域图像。

从图2所示方法可以看出，本实施例中，收集多个视频数据，根据视频数据中每一视频片段的播放信息、弹幕数量信息、和人工标注进行帧级高光标注，根据标注者在视频数据播放过程中的关注位置信息进行像素级高光标注之后，将带有帧级高光标注和像素级高光标注的视频数据作为训练样本训练预先构建的视频高光检测模型，利用训练好的视频高光检测模型同时实现帧级高光检测和像素级高光检测，并据此裁剪出高光视频片段中的高光区域。可以看出，本实施例结合用户行为、人工标注以及眼球跟踪等方法收集用于训练视频高光检测模型的训练样本，使得训练好的视频高光检测模型可以进行时间和空间上的高光检测，进而精准定位到视频数据的高光视频片段中的局部画面，能够有效提高视频高光检测的精准度。

参见图5，图5是本发明提供的视频高光检测的一个实例流程图，如图5所示，在该实施例中，视频高光检测模型中的图像特征编码模块包括用于进行不同分辨率的图像特征提取的第一3D卷积模块、第二3D卷积模块和第三3D卷积模块；视频高光检测模型中的像素特征解码模块包括第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块。视频高光检测过程如下：

第一步、将视频数据输入图像特征编码模块中的第一3D卷积模块；

本实施例中，视频数据的尺寸为T×C×H×W，其中，T表示视频图像数量，C表示视频图像通道数，一般为3（R、G、B三个通道）。H为视频图像高度，W为视频图像宽度。

第二步、第一3D卷积模块，对输入模型的视频数据进行处理得到第一视频特征信息，将第一视频特征信息输出到第二3D卷积模块和第一3D反卷积模块；

本实施例中，第一3D卷积模块、第二3D卷积模块和第三3D卷积模块，均包括：3d卷积层，下采样层、归一化层、和激活层。

本实施例中，第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块均包括：3d卷积层、上采样层、归一化层和激活层。

第三步、第二3D卷积模块，对第一视频特征信息进行处理得到第二视频特征信息，将第二视频特征信息输出到第三3D卷积模块和第二3D反卷积模块；

第四步、第三3D卷积模块，对第二视频特征信息进行处理得到第三视频特征信息，将第三视频特征信息输出到时序特征解码模块和第三3D反卷积模块；

本步骤之后，视频高光检测变为两个分支（即第五步包括两个分支），其中分支1进行像素级高光标注，以下分别进行介绍。

第五步的分支1，包括：

I、第三3D反卷积模块，对第三视频特征信息进行处理得到第一像素特征信息，将第一像素特征信息输出到第二3D反卷积模块；

II、第二3D反卷积模块，用于对第一像素特征信息和第二视频特征信息进行融合处理得到第二像素特征信息，将第二像素特征信息输出到第一3D反卷积模块；

III、第一3D反卷积模块，对第二像素特征信息和第一视频特征信息进行融合处理得到第三像素特征信息，将第三像素特征信息输出到像素级高光预测模块。

IV、像素级高光预测模块，对第三像素特征信息进行处理得到视频数据的像素级高光标注，将视频数据的像素级高光标注输出到裁剪模块。

本实施例中，像素级高光标注的尺寸为T×H×W。其中，视频图像/画面中各像素点的高光评分是标注在H×W上的，为0~1之间的数值。

至此，分支1的处理结束，转至第六步。

第五步的分支2，包括：

I、时序特征解码模块，对第三视频特征信息进行处理得到时序特征信息，将时序特征信息输出到帧级高光预测模块；

本实施例中，时序特征解码模块可以是一个transformer结构，其中包含了平均池化层、线性层、多头注意力层、归一化层等。

II、帧级高光预测模块，对时序特征信息进行处理得到视频数据的帧级高光标注，将视频数据的帧级高光标注输出到裁剪模块。

本实施例中，帧级高光预测模块可以采用transformer层或者是1D卷积层，帧级高光预测模块输出为T×1，其中，T所在的维度表示帧级高光评分。

至此，分支2的处理结束，转至第六步。

第六步、裁剪模块，根据帧级高光预测模块输出的帧级高光标注和像素级高光标注模块输出的像素级高光标注，从视频数据中裁剪高光视频。

本实施例中，从视频数据中裁剪高光视频时，可以根据需求，对裁剪出的每一帧图像进行缩放（按一定比例放大或缩小图像）和/或旋转（将图片照顺时针或逆时针方向旋转一定角度）等操作以增强高光视频的播放特效。

本发明实施例还提供了一种视频高光检测装置，以下结合图6进行详细说明。

参见图6，图6是本发明实施例视频高光检测装置的结构示意图，如图6所示，该装置包括：

收集单元601，用于收集多个视频数据，对每一视频数据进行帧级高光标注和像素级高光标注；

训练单元602，用于使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型；

检测单元603，用于利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注。

图6所示装置中，还包括：裁剪单元604；

所述裁剪单元604，用于根据待处理视频数据的帧级高光标注和像素级高光标注，从待处理视频数据裁剪出高光视频。

图6所示装置中，

所述收集单元601，收集多个视频数据时，进一步获取每一视频数据的播放信息和弹幕信息；

所述收集单元601，对每一视频数据进行帧级高光标注和像素级高光标注，包括：

获取标注者对该视频数据的人工标注，根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息，确定该视频数据的帧级高光标注；

获取标注者在该视频数据播放过程中的关注位置信息，根据所述关注位置信息确定该视频数据的像素级高光标注。

图6所示装置中，

所述人工标注包括标注者对每一视频片段的第一高光评分；

所述播放信息包括用户对每一视频片段的播放速度；

所述弹幕信息包括用户在每一视频片段的弹幕数量；

所述收集单元601，根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息，确定该视频数据的帧级高光标注，包括：

图6所示装置中，

所述视频数据的像素级高光标注包括视频数据中每一视频片段对应的像素级高光标注；

所述收集单元601，获取标注者在该视频数据播放过程中的关注位置信息，根据所述关注位置信息确定该视频数据的像素级高光标注，包括：

利用部署在视频播放设备上的眼球跟踪仪检测标注者在该视频数据中每一视频片段播放时的眼球转动位置，根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置，将该关注位置信息作为该视频片段对应的像素级高光标注。

图6所示装置中，

所述收集单元601，根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置时，进一步按照关注时间越长高光评分越高的原则，根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分。

图6所示装置中，

预先构建的视频高光检测模型中包括图像特征编码模块、时序特征解码模块、像素特征解码模块、帧级高光预测模块、像素级高光预测模块；其中，

所述图像特征编码模块，用于对输入模型的视频数据进行图像特征编码得到视频特征信息；

所述时序特征解码模块，用于对图像特征编码模块输出的视频特征信息进行时序特征解码得到时序特征信息；

所述像素特征解码模块，用于对图像特征编码模块输出的视频特征信息进行像素特征解码得到像素特征信息；

所述帧级高光预测模块，用于对时序特征解码模块输出的时序特征信息进行处理得到帧级高光标注；

所述像素级高光预测模块，用于对像素特征解码模块输出的像素特征信息进行处理得到像素级高光标注。

图6所示装置中，

所述图像特征编码模块为三维卷积神经网络c3d、膨胀三维卷积神经网络i3d、利用残差神经网络resnet和transformer结构构建的神经网络、或利用mobilenet神经网络和transformer结构构建的神经网络；

所述时序特征解码模块为transformer结构、长短期记忆网络LSTM、或卷积神经网络CNN；

所述像素特征解码模块为反卷积网络或transformer结构；

所述帧级高光预测模块为多层感知器MLP或transformer结构；

所述像素级高光预测模块为transformer结构或卷积神经网络CNN。

图6所示装置中，

所述图像特征编码模块包括用于进行不同分辨率的图像特征提取的第一3D卷积模块、第二3D卷积模块和第三3D卷积模块；

所述像素特征解码模块包括第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块；

第一3D卷积模块，用于对输入模型的视频数据进行处理得到第一视频特征信息，将第一视频特征信息输出到第二3D卷积模块和第一3D反卷积模块；

第二3D卷积模块，用于对第一视频特征信息进行处理得到第二视频特征信息，将第二视频特征信息输出到第三3D卷积模块和第二3D反卷积模块；

第三3D卷积模块，用于对第二视频特征信息进行处理得到第三视频特征信息，将第三视频特征信息输出到时序特征解码模块和第三3D反卷积模块；

第三3D反卷积模块，用于对第三视频特征信息进行处理得到第一像素特征信息，将第一像素特征信息输出到第二3D反卷积模块；

第二3D反卷积模块，用于对第一像素特征信息和第二视频特征信息进行融合处理得到第二像素特征信息，将第二像素特征信息输出到第一3D反卷积模块；

第一3D反卷积模块，用于对第二像素特征信息和第一视频特征信息进行融合处理得到第三像素特征信息，将第三像素特征信息输入到像素级高光预测模块。

图6所示装置中，

第一3D卷积模块、第二3D卷积模块和第三3D卷积模块均包括：3d卷积层，下采样层、归一化层、和激活层；

第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块均包括：3d卷积层、上采样层、归一化层和激活层。

图6所示装置中，

所述裁剪单元604，根据待处理视频数据的帧级高光标注和像素级高光标注，从待处理视频数据裁剪出高光视频，包括：

本发明实施例还提供了一种电子设备，如图7所示，该电子设备包括：至少一个处理器701，以及与所述至少一个处理器701通过总线相连的存储器702；所述存储器702存储有可被所述至少一个处理器701执行的一个或多个计算机程序；所述至少一个处理器701执行所述一个或多个计算机程序时实现上述图1-2中任一流程图所示方法中的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现上述图1-2中任一流程图所示方法中的步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种视频高光检测方法，其特征在于，该方法包括：

利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注；

收集多个视频数据时，进一步获取每一视频数据的播放信息和弹幕信息；其中，所述播放信息包括用户对每一视频片段的播放速度；所述弹幕信息包括用户在每一视频片段的弹幕数量；

对每一视频数据进行帧级高光标注和像素级高光标注，包括：

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：

根据待处理视频数据的帧级高光标注和像素级高光标注，从待处理视频数据裁剪出高光视频。

3.根据权利要求1所述的方法，其特征在于，

所述人工标注包括标注者对每一视频片段的第一高光评分；

根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息，确定该视频数据的帧级高光标注，包括：

4.根据权利要求1所述的方法，其特征在于，

获取标注者在该视频数据播放过程中的关注位置信息，根据所述关注位置信息确定该视频数据的像素级高光标注，包括：

5.根据权利要求4所述的方法，其特征在于，

根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置时，进一步按照关注时间越长高光评分越高的原则，根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分。

6.根据权利要求1所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

所述像素特征解码模块为反卷积网络或transformer结构；

所述帧级高光预测模块为多层感知器MLP或transformer结构；

8.根据权利要求6所述的方法，其特征在于，

9.根据权利要求8所述的方法，其特征在于，

第一3D卷积模块、第二3D卷积模块和第三3D卷积模块均包括：3d卷积层、下采样层、归一化层、和激活层；

10.根据权利要求2所述的方法，其特征在于，

根据待处理视频数据的帧级高光标注和像素级高光标注，从待处理视频数据裁剪出高光视频，包括：

11.一种视频高光检测装置，其特征在于，该装置包括：

检测单元，用于利用训练的视频高光检测模型对待处理视频数据进行检测，得到待处理视频数据的帧级高光标注和像素级高光标注；

所述收集单元，收集多个视频数据时，进一步获取每一视频数据的播放信息和弹幕信息；其中，所述播放信息包括用户对每一视频片段的播放速度；所述弹幕信息包括用户在每一视频片段的弹幕数量；

12.一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；其特征在于，所述至少一个处理器执行所述一个或多个计算机程序时实现权利要求1-10中任一权项所述的方法中的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现权利要求1-10中任一权项所述的方法中的步骤。