CN115294506B - 一种视频高光检测方法和装置 - Google Patents

一种视频高光检测方法和装置 Download PDF

Info

Publication number
CN115294506B
CN115294506B CN202211226563.3A CN202211226563A CN115294506B CN 115294506 B CN115294506 B CN 115294506B CN 202211226563 A CN202211226563 A CN 202211226563A CN 115294506 B CN115294506 B CN 115294506B
Authority
CN
China
Prior art keywords
highlight
video
video data
pixel
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211226563.3A
Other languages
English (en)
Other versions
CN115294506A (zh
Inventor
吕钦
艾国
杨作兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202211226563.3A priority Critical patent/CN115294506B/zh
Publication of CN115294506A publication Critical patent/CN115294506A/zh
Application granted granted Critical
Publication of CN115294506B publication Critical patent/CN115294506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种视频高光检测方法和装置,该方法包括:收集多个视频数据,对每一视频数据进行帧级高光标注和像素级高光标注;用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注。本发明可以实现像素级的高光检测,能够有效提高视频高光检测的精准度。

Description

一种视频高光检测方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种视频高光检测方法和装置。
背景技术
视频高光检测(video highlight detection):是指检测视频中的精彩时刻,可以用于视频自动剪辑,视频快速阅览,视频封面生成等应用场景。
现有视频高光检测一般是直接评估每一帧或者每一视频片段的得分,但是在实际中,人们觉得一段视频有趣好玩其实是因为视频中一些具体的物体或者局部画面吸引了人们的关注。
发明内容
有鉴于此,本发明的目的在于提供了一种视频高光检测方法和装置,可以实现像素级的高光检测,能够有效提高视频高光检测的精准度。
为了达到上述目的,本发明提供了如下技术方案:
一种视频高光检测方法,包括:
收集多个视频数据,对每一视频数据进行帧级高光标注和像素级高光标注;
使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;
利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注。
一种视频高光检测装置,包括:
收集单元,用于收集多个视频数据,对每一视频数据进行帧级高光标注和像素级高光标注;
训练单元,用于使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;
检测单元,用于利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注。
一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通过总线相连的存储器;所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序;所述至少一个处理器执行所述一个或多个计算机程序时实现上述视频高光检测中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现上述视频高光检测中的步骤。
由上面的技术方案可知,本发明中,收集多个视频数据并进行帧级高光标注和像素级高光标注之后,将其作为训练样本训练预先构建的视频高光检测模型,从而利用训练的视频高光检测模型同时实现帧级高光检测和像素级高光检测,可以精准定位到高光视频中的局部画面,有效提高了视频高光检测的精准度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一视频高光检测方法流程图;
图2是本发明实施例二视频高光检测方法流程图;
图3是本发明实施例帧级高光评估过程示意图;
图4是本发明实施例视频高光检测模型的结构示意图;
图5是本发明提供的视频高光检测的一个实例流程图;
图6是本发明实施例视频高光检测装置的结构示意图;
图7是本发明实施例电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
参见图1,图1是本发明实施例一视频高光检测方法流程图,如图1所示,该方法包括以下步骤:
步骤101、收集多个视频数据,对每一视频数据进行帧级高光标注和像素级高光标注;
步骤102、使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;
步骤103、利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注。
这里,待处理视频数据的帧级高光标注和像素级高光标注,即为对待处理视频数据的高光检测结果。
从图1所示方法可以看出,本实施例中,收集多个视频数据并进行帧级高光标注和像素级高光标注之后,将其作为训练样本训练预先构建的视频高光检测模型,从而利用训练的视频高光检测模型同时实现帧级高光检测和像素级高光检测,可以精准定位到视频数据的高光视频片段中的局部画面,能够有效提高视频高光检测的精准度。
参见图2,图2是本发明实施例二视频高光检测方法流程图,如图2所示,该方法包括以下步骤:
步骤2011、收集多个视频数据,并在收集每一视频数据时获取该视频数据的播放信息和弹幕信息。
在实际应用中,用户在观看播放的视频数据时,对于不感兴趣的视频片段可能会加快播放速度,而对于感兴趣的视频片段则一般不会加快播放速度,并且还可能会对感兴趣的视频片段发弹幕进行评论。
本实施例中,可以根据每一视频数据的播放信息和弹幕信息对该视频数据进行帧级高光评估,其中,所述播放信息包括用户对该视频数据中每一视频片段的播放速度;所述弹幕信息包括用户在该视频数据中每一视频片段的弹幕数量。这里,所述视频片段包括至少一帧视频图像。
步骤2012、对收集的每一视频数据执行步骤2013至步骤2014;
本实施例中,对每一视频数据执行步骤2013至步骤2014,可以确定该视频数据的帧级高光标注和像素级高光标注。
步骤2013、获取标注者对该视频数据的人工标注,根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息,确定该视频数据的帧级高光标注。
在实际应用中,可以让标注者对每一视频数据进行人工标注,所述人工标注包括标注者对每一视频片段的第一高光评分。在对该视频数据进行帧级高光评估时,可以如图3所示,根据该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息进行综合评估,得到该视频数据的帧级高光评分。
本实施例中,根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息,确定该视频数据的帧级高光标注,可具体包括:
按照播放速度与高光评分成反比的原则和用户对该视频数据中每一视频片段的播放速度,确定该视频片段的第二高光评分;
按照弹幕数量与高光评分成正比的原则和用户在该视频数据中每一视频片段的弹幕数量,确定该视频片段的第三高光评分;
对该视频数据中每一视频片段的第一高光评分、第二高光评分、和第三高光评分进行加权计算得到该视频数据的帧级高光评分,将该帧级高光评分作为该视频片段对应的帧级高光标注。
这里,假设某一视频片段的第一高光评分、第二高光评分、和第三高光评分分别是S标注、S速度、S弹幕,则可以采用以下公式计算该视频片段的帧级高光评分S帧级
S帧级 = α×S速度 + β×S弹幕 + (1-α-β)×S标注;其中,α和β均属于取值区间[0,1]、例如,α和β的取值均为0.25。
步骤2014、获取标注者在该视频数据播放过程中的关注位置信息,根据所述关注位置信息确定该视频数据的像素级高光标注。
在实际应用中,用户在观看播放的视频数据时,能够吸引用户注意力的视频画面就是高光视频帧,而用户在视频画面中的眼神关注位置的像素点覆盖区域则是视频画面中的高光区域。
本实施例中,可以根据用户在观看播放的视频数据时的眼神关注位置确定该视频数据的像素级高光标注,该视频数据的像素级高光标注包括该视频数据中每一视频片段对应的像素级高光标注。所述获取标注者在该视频数据播放过程中的关注位置信息,根据所述关注位置信息确定该视频数据的像素级高光标注,可具体包括:利用部署在视频播放设备上的眼球跟踪仪检测标注者在该视频数据的每一视频片段播放时的眼球转动位置,根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置,将该关注位置信息作为该视频片段对应的像素级高光标注。
这里,将该关注位置信息作为该视频片段对应的像素级高光标注,具体可以采用如下方式实现:将标注者在该视频片段的播放画面中的关注位置的像素点的高光评分设置为1,标注者在该视频片段的播放画面中的未关注位置的像素点的高光评分设置为0。在实际应用中,也可以根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分,关注时间越长,高光评分越高。
为此,本实施例中,根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置时,还可以进一步按照关注时间越长高光评分越高的原则,根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分。这样,可以将由关注位置和关注位置的像素点的高光评分组成的关注位置信息作为该视频片段对应的像素级高光标注。
以上步骤2012至步骤2014是图1所示步骤101中“对每一视频数据进行帧级高光标注和像素级高光标注”的具体细化。
以上步骤2011至步骤2014是图1所示步骤101的具体细化。
步骤202、使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;
本实施例中,预先构建的视频高光检测模型中包括图像特征编码模块、时序特征解码模块、像素特征解码模块、帧级高光预测模块、和像素级高光预测模块,其连接关系如图4所示。
以下对视频高光检测模型中包括的功能模块进行详细介绍:
1、图像特征编码模块,
本实施例中,图像特征编码模块,用于对输入模型的视频数据进行图像特征编码得到视频特征信息,将视频特征信息分别输出到时序特征解码模块和像素特征解码模块。
本实施例中,图像特征编码模块,可以是三维卷积神经网络(c3d)、膨胀三维卷积神经网络(i3d)、利用残差神经网络(resnet)和transformer结构构建的神经网络、或利用mobilenet神经网络和transformer结构构建的神经网络。
2、时序特征解码模块,
本实施例中,时序特征解码模块,用于对图像特征编码模块输出的视频特征信息进行时序特征解码得到时序特征信息,将时序特征信息输出到帧级高光预测模块。
本实施例中,时序特征解码模块,可以是transformer结构、长短期记忆网络LSTM、或卷积神经网络CNN。
3、像素特征解码模块,
本实施例中,像素特征解码模块,用于对图像特征编码模块输出的视频特征信息进行像素特征解码得到像素特征信息,将像素特征信息输出到像素级高光预测模块。
本实施例中,像素特征解码模块,可以是反卷积网络或transformer结构。
4、帧级高光预测模块,
本实施例中,帧级高光预测模块,用于对时序特征解码模块输出的时序特征信息进行处理得到帧级高光标注。
本实施例中,帧级高光预测模块可以是多层感知器(MLP)或transformer结构。
5、像素级高光预测模块,
本实施例中,像素级高光预测模块,用于对像素特征解码模块输出的像素特征信息进行处理得到像素级高光标注。
本实施例中,像素级高光预测模块,可以是transformer结构或卷积神经网络(CNN)。
步骤203、利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注。
这里,待处理视频数据的帧级高光标注和像素级高光标注,即为对待处理视频数据的高光检测结果。在确定待处理视频数据的高光检测结果之后,还可以进一步根据待处理视频数据的高光检测结果对待处理视频数据进行裁剪得到高光视频,即执行步骤204。
步骤204、根据待处理视频数据的帧级高光标注和像素级高光标注,从待处理视频数据裁剪出高光视频。
本实施例中,根据待处理视频数据的帧级高光标注和像素级高光标注,从待处理视频数据裁剪出高光视频,包括:
根据待处理视频数据的帧级高光标注,从待处理视频数据中选出高光评分最高的预设数量的视频片段;
根据待处理视频数据的像素级高光标注,从选出的视频片段中裁剪出高光区域图像。
这里,选出的视频片段中的像素级高光标注中,高光评分较高(例如大于某个设定阈值)的像素点覆盖的区域图像即高光区域图像。
从图2所示方法可以看出,本实施例中,收集多个视频数据,根据视频数据中每一视频片段的播放信息、弹幕数量信息、和人工标注进行帧级高光标注,根据标注者在视频数据播放过程中的关注位置信息进行像素级高光标注之后,将带有帧级高光标注和像素级高光标注的视频数据作为训练样本训练预先构建的视频高光检测模型,利用训练好的视频高光检测模型同时实现帧级高光检测和像素级高光检测,并据此裁剪出高光视频片段中的高光区域。可以看出,本实施例结合用户行为、人工标注以及眼球跟踪等方法收集用于训练视频高光检测模型的训练样本,使得训练好的视频高光检测模型可以进行时间和空间上的高光检测,进而精准定位到视频数据的高光视频片段中的局部画面,能够有效提高视频高光检测的精准度。
参见图5,图5是本发明提供的视频高光检测的一个实例流程图,如图5所示,在该实施例中,视频高光检测模型中的图像特征编码模块包括用于进行不同分辨率的图像特征提取的第一3D卷积模块、第二3D卷积模块和第三3D卷积模块;视频高光检测模型中的像素特征解码模块包括第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块。视频高光检测过程如下:
第一步、将视频数据输入图像特征编码模块中的第一3D卷积模块;
本实施例中,视频数据的尺寸为T×C×H×W,其中,T表示视频图像数量,C表示视频图像通道数,一般为3(R、G、B三个通道)。H为视频图像高度,W为视频图像宽度。
第二步、第一3D卷积模块,对输入模型的视频数据进行处理得到第一视频特征信息,将第一视频特征信息输出到第二3D卷积模块和第一3D反卷积模块;
本实施例中,第一3D卷积模块、第二3D卷积模块和第三3D卷积模块,均包括:3d卷积层,下采样层、归一化层、和激活层。
本实施例中,第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块均包括:3d卷积层、上采样层、归一化层和激活层。
第三步、第二3D卷积模块,对第一视频特征信息进行处理得到第二视频特征信息,将第二视频特征信息输出到第三3D卷积模块和第二3D反卷积模块;
第四步、第三3D卷积模块,对第二视频特征信息进行处理得到第三视频特征信息,将第三视频特征信息输出到时序特征解码模块和第三3D反卷积模块;
本步骤之后,视频高光检测变为两个分支(即第五步包括两个分支),其中分支1进行像素级高光标注,以下分别进行介绍。
第五步的分支1,包括:
I、第三3D反卷积模块,对第三视频特征信息进行处理得到第一像素特征信息,将第一像素特征信息输出到第二3D反卷积模块;
II、第二3D反卷积模块,用于对第一像素特征信息和第二视频特征信息进行融合处理得到第二像素特征信息,将第二像素特征信息输出到第一3D反卷积模块;
III、第一3D反卷积模块,对第二像素特征信息和第一视频特征信息进行融合处理得到第三像素特征信息,将第三像素特征信息输出到像素级高光预测模块。
IV、像素级高光预测模块,对第三像素特征信息进行处理得到视频数据的像素级高光标注,将视频数据的像素级高光标注输出到裁剪模块。
本实施例中,像素级高光标注的尺寸为T×H×W。其中,视频图像/画面中各像素点的高光评分是标注在H×W上的,为0~1之间的数值。
至此,分支1的处理结束,转至第六步。
第五步的分支2,包括:
I、时序特征解码模块,对第三视频特征信息进行处理得到时序特征信息,将时序特征信息输出到帧级高光预测模块;
本实施例中,时序特征解码模块可以是一个transformer结构,其中包含了平均池化层、线性层、多头注意力层、归一化层等。
II、帧级高光预测模块,对时序特征信息进行处理得到视频数据的帧级高光标注,将视频数据的帧级高光标注输出到裁剪模块。
本实施例中,帧级高光预测模块可以采用transformer层或者是1D卷积层,帧级高光预测模块输出为T×1,其中,T所在的维度表示帧级高光评分。
至此,分支2的处理结束,转至第六步。
第六步、裁剪模块,根据帧级高光预测模块输出的帧级高光标注和像素级高光标注模块输出的像素级高光标注,从视频数据中裁剪高光视频。
本实施例中,从视频数据中裁剪高光视频时,可以根据需求,对裁剪出的每一帧图像进行缩放(按一定比例放大或缩小图像)和/或旋转(将图片照顺时针或逆时针方向旋转一定角度)等操作以增强高光视频的播放特效。
本发明实施例还提供了一种视频高光检测装置,以下结合图6进行详细说明。
参见图6,图6是本发明实施例视频高光检测装置的结构示意图,如图6所示,该装置包括:
收集单元601,用于收集多个视频数据,对每一视频数据进行帧级高光标注和像素级高光标注;
训练单元602,用于使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;
检测单元603,用于利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注。
图6所示装置中,还包括:裁剪单元604;
所述裁剪单元604,用于根据待处理视频数据的帧级高光标注和像素级高光标注,从待处理视频数据裁剪出高光视频。
图6所示装置中,
所述收集单元601,收集多个视频数据时,进一步获取每一视频数据的播放信息和弹幕信息;
所述收集单元601,对每一视频数据进行帧级高光标注和像素级高光标注,包括:
获取标注者对该视频数据的人工标注,根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息,确定该视频数据的帧级高光标注;
获取标注者在该视频数据播放过程中的关注位置信息,根据所述关注位置信息确定该视频数据的像素级高光标注。
图6所示装置中,
所述人工标注包括标注者对每一视频片段的第一高光评分;
所述播放信息包括用户对每一视频片段的播放速度;
所述弹幕信息包括用户在每一视频片段的弹幕数量;
所述收集单元601,根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息,确定该视频数据的帧级高光标注,包括:
按照播放速度与高光评分成反比的原则和用户对该视频数据中每一视频片段的播放速度,确定该视频片段的第二高光评分;
按照弹幕数量与高光评分成正比的原则和用户在该视频数据中每一视频片段的弹幕数量,确定该视频片段的第三高光评分;
对该视频数据中每一视频片段的第一高光评分、第二高光评分、和第三高光评分进行加权计算得到该视频数据的帧级高光评分,将该帧级高光评分作为该视频片段对应的帧级高光标注。
图6所示装置中,
所述视频数据的像素级高光标注包括视频数据中每一视频片段对应的像素级高光标注;
所述收集单元601,获取标注者在该视频数据播放过程中的关注位置信息,根据所述关注位置信息确定该视频数据的像素级高光标注,包括:
利用部署在视频播放设备上的眼球跟踪仪检测标注者在该视频数据中每一视频片段播放时的眼球转动位置,根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置,将该关注位置信息作为该视频片段对应的像素级高光标注。
图6所示装置中,
所述收集单元601,根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置时,进一步按照关注时间越长高光评分越高的原则,根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分。
图6所示装置中,
预先构建的视频高光检测模型中包括图像特征编码模块、时序特征解码模块、像素特征解码模块、帧级高光预测模块、像素级高光预测模块;其中,
所述图像特征编码模块,用于对输入模型的视频数据进行图像特征编码得到视频特征信息;
所述时序特征解码模块,用于对图像特征编码模块输出的视频特征信息进行时序特征解码得到时序特征信息;
所述像素特征解码模块,用于对图像特征编码模块输出的视频特征信息进行像素特征解码得到像素特征信息;
所述帧级高光预测模块,用于对时序特征解码模块输出的时序特征信息进行处理得到帧级高光标注;
所述像素级高光预测模块,用于对像素特征解码模块输出的像素特征信息进行处理得到像素级高光标注。
图6所示装置中,
所述图像特征编码模块为三维卷积神经网络c3d、膨胀三维卷积神经网络i3d、利用残差神经网络resnet和transformer结构构建的神经网络、或利用mobilenet神经网络和transformer结构构建的神经网络;
所述时序特征解码模块为transformer结构、长短期记忆网络LSTM、或卷积神经网络CNN;
所述像素特征解码模块为反卷积网络或transformer结构;
所述帧级高光预测模块为多层感知器MLP或transformer结构;
所述像素级高光预测模块为transformer结构或卷积神经网络CNN。
图6所示装置中,
所述图像特征编码模块包括用于进行不同分辨率的图像特征提取的第一3D卷积模块、第二3D卷积模块和第三3D卷积模块;
所述像素特征解码模块包括第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块;
第一3D卷积模块,用于对输入模型的视频数据进行处理得到第一视频特征信息,将第一视频特征信息输出到第二3D卷积模块和第一3D反卷积模块;
第二3D卷积模块,用于对第一视频特征信息进行处理得到第二视频特征信息,将第二视频特征信息输出到第三3D卷积模块和第二3D反卷积模块;
第三3D卷积模块,用于对第二视频特征信息进行处理得到第三视频特征信息,将第三视频特征信息输出到时序特征解码模块和第三3D反卷积模块;
第三3D反卷积模块,用于对第三视频特征信息进行处理得到第一像素特征信息,将第一像素特征信息输出到第二3D反卷积模块;
第二3D反卷积模块,用于对第一像素特征信息和第二视频特征信息进行融合处理得到第二像素特征信息,将第二像素特征信息输出到第一3D反卷积模块;
第一3D反卷积模块,用于对第二像素特征信息和第一视频特征信息进行融合处理得到第三像素特征信息,将第三像素特征信息输入到像素级高光预测模块。
图6所示装置中,
第一3D卷积模块、第二3D卷积模块和第三3D卷积模块均包括:3d卷积层,下采样层、归一化层、和激活层;
第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块均包括:3d卷积层、上采样层、归一化层和激活层。
图6所示装置中,
所述裁剪单元604,根据待处理视频数据的帧级高光标注和像素级高光标注,从待处理视频数据裁剪出高光视频,包括:
根据待处理视频数据的帧级高光标注,从待处理视频数据中选出高光评分最高的预设数量的视频片段;
根据待处理视频数据的像素级高光标注,从选出的视频片段中裁剪出高光区域图像。
本发明实施例还提供了一种电子设备,如图7所示,该电子设备包括:至少一个处理器701,以及与所述至少一个处理器701通过总线相连的存储器702;所述存储器702存储有可被所述至少一个处理器701执行的一个或多个计算机程序;所述至少一个处理器701执行所述一个或多个计算机程序时实现上述图1-2中任一流程图所示方法中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现上述图1-2中任一流程图所示方法中的步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (13)

1.一种视频高光检测方法,其特征在于,该方法包括:
收集多个视频数据,对每一视频数据进行帧级高光标注和像素级高光标注;
使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;
利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注;
收集多个视频数据时,进一步获取每一视频数据的播放信息和弹幕信息;其中,所述播放信息包括用户对每一视频片段的播放速度;所述弹幕信息包括用户在每一视频片段的弹幕数量;
对每一视频数据进行帧级高光标注和像素级高光标注,包括:
获取标注者对该视频数据的人工标注,根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息,确定该视频数据的帧级高光标注;
获取标注者在该视频数据播放过程中的关注位置信息,根据所述关注位置信息确定该视频数据的像素级高光标注。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
根据待处理视频数据的帧级高光标注和像素级高光标注,从待处理视频数据裁剪出高光视频。
3.根据权利要求1所述的方法,其特征在于,
所述人工标注包括标注者对每一视频片段的第一高光评分;
根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息,确定该视频数据的帧级高光标注,包括:
按照播放速度与高光评分成反比的原则和用户对该视频数据中每一视频片段的播放速度,确定该视频片段的第二高光评分;
按照弹幕数量与高光评分成正比的原则和用户在该视频数据中每一视频片段的弹幕数量,确定该视频片段的第三高光评分;
对该视频数据中每一视频片段的第一高光评分、第二高光评分、和第三高光评分进行加权计算得到该视频数据的帧级高光评分,将该帧级高光评分作为该视频片段对应的帧级高光标注。
4.根据权利要求1所述的方法,其特征在于,
所述视频数据的像素级高光标注包括视频数据中每一视频片段对应的像素级高光标注;
获取标注者在该视频数据播放过程中的关注位置信息,根据所述关注位置信息确定该视频数据的像素级高光标注,包括:
利用部署在视频播放设备上的眼球跟踪仪检测标注者在该视频数据中每一视频片段播放时的眼球转动位置,根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置,将该关注位置信息作为该视频片段对应的像素级高光标注。
5.根据权利要求4所述的方法,其特征在于,
根据标注者在该视频片段播放时的眼球转动位置确定标注者在该视频片段的播放画面中的关注位置时,进一步按照关注时间越长高光评分越高的原则,根据标注者对每个关注位置的关注时间为该关注位置的像素点设置高光评分。
6.根据权利要求1所述的方法,其特征在于,
预先构建的视频高光检测模型中包括图像特征编码模块、时序特征解码模块、像素特征解码模块、帧级高光预测模块、像素级高光预测模块;其中,
所述图像特征编码模块,用于对输入模型的视频数据进行图像特征编码得到视频特征信息;
所述时序特征解码模块,用于对图像特征编码模块输出的视频特征信息进行时序特征解码得到时序特征信息;
所述像素特征解码模块,用于对图像特征编码模块输出的视频特征信息进行像素特征解码得到像素特征信息;
所述帧级高光预测模块,用于对时序特征解码模块输出的时序特征信息进行处理得到帧级高光标注;
所述像素级高光预测模块,用于对像素特征解码模块输出的像素特征信息进行处理得到像素级高光标注。
7.根据权利要求6所述的方法,其特征在于,
所述图像特征编码模块为三维卷积神经网络c3d、膨胀三维卷积神经网络i3d、利用残差神经网络resnet和transformer结构构建的神经网络、或利用mobilenet神经网络和transformer结构构建的神经网络;
所述时序特征解码模块为transformer结构、长短期记忆网络LSTM、或卷积神经网络CNN;
所述像素特征解码模块为反卷积网络或transformer结构;
所述帧级高光预测模块为多层感知器MLP或transformer结构;
所述像素级高光预测模块为transformer结构或卷积神经网络CNN。
8.根据权利要求6所述的方法, 其特征在于,
所述图像特征编码模块包括用于进行不同分辨率的图像特征提取的第一3D卷积模块、第二3D卷积模块和第三3D卷积模块;
所述像素特征解码模块包括第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块;
第一3D卷积模块,用于对输入模型的视频数据进行处理得到第一视频特征信息,将第一视频特征信息输出到第二3D卷积模块和第一3D反卷积模块;
第二3D卷积模块,用于对第一视频特征信息进行处理得到第二视频特征信息,将第二视频特征信息输出到第三3D卷积模块和第二3D反卷积模块;
第三3D卷积模块,用于对第二视频特征信息进行处理得到第三视频特征信息,将第三视频特征信息输出到时序特征解码模块和第三3D反卷积模块;
第三3D反卷积模块,用于对第三视频特征信息进行处理得到第一像素特征信息,将第一像素特征信息输出到第二3D反卷积模块;
第二3D反卷积模块,用于对第一像素特征信息和第二视频特征信息进行融合处理得到第二像素特征信息,将第二像素特征信息输出到第一3D反卷积模块;
第一3D反卷积模块,用于对第二像素特征信息和第一视频特征信息进行融合处理得到第三像素特征信息,将第三像素特征信息输入到像素级高光预测模块。
9.根据权利要求8所述的方法,其特征在于,
第一3D卷积模块、第二3D卷积模块和第三3D卷积模块均包括:3d卷积层、下采样层、归一化层、和激活层;
第一3D反卷积模块、第二3D反卷积模块和第三3D反卷积模块均包括:3d卷积层、上采样层、归一化层和激活层。
10.根据权利要求2所述的方法,其特征在于,
根据待处理视频数据的帧级高光标注和像素级高光标注,从待处理视频数据裁剪出高光视频,包括:
根据待处理视频数据的帧级高光标注,从待处理视频数据中选出高光评分最高的预设数量的视频片段;
根据待处理视频数据的像素级高光标注,从选出的视频片段中裁剪出高光区域图像。
11.一种视频高光检测装置,其特征在于,该装置包括:
收集单元,用于收集多个视频数据,对每一视频数据进行帧级高光标注和像素级高光标注;
训练单元,用于使用带有帧级高光标注和像素级高光标注的多个视频数据训练预先构建的视频高光检测模型;
检测单元,用于利用训练的视频高光检测模型对待处理视频数据进行检测,得到待处理视频数据的帧级高光标注和像素级高光标注;
所述收集单元,收集多个视频数据时,进一步获取每一视频数据的播放信息和弹幕信息;其中,所述播放信息包括用户对每一视频片段的播放速度;所述弹幕信息包括用户在每一视频片段的弹幕数量;
对每一视频数据进行帧级高光标注和像素级高光标注,包括:
获取标注者对该视频数据的人工标注,根据标注者对该视频数据的人工标注、以及该视频数据的播放信息和弹幕信息,确定该视频数据的帧级高光标注;
获取标注者在该视频数据播放过程中的关注位置信息,根据所述关注位置信息确定该视频数据的像素级高光标注。
12.一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通过总线相连的存储器;所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序;其特征在于,所述至少一个处理器执行所述一个或多个计算机程序时实现权利要求1-10中任一权项所述的方法中的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现权利要求1-10中任一权项所述的方法中的步骤。
CN202211226563.3A 2022-10-09 2022-10-09 一种视频高光检测方法和装置 Active CN115294506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211226563.3A CN115294506B (zh) 2022-10-09 2022-10-09 一种视频高光检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211226563.3A CN115294506B (zh) 2022-10-09 2022-10-09 一种视频高光检测方法和装置

Publications (2)

Publication Number Publication Date
CN115294506A CN115294506A (zh) 2022-11-04
CN115294506B true CN115294506B (zh) 2022-12-09

Family

ID=83833364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211226563.3A Active CN115294506B (zh) 2022-10-09 2022-10-09 一种视频高光检测方法和装置

Country Status (1)

Country Link
CN (1) CN115294506B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707931A (zh) * 2016-08-08 2018-02-16 阿里巴巴集团控股有限公司 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN110503074A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 视频帧的信息标注方法、装置、设备及存储介质
CN112487913A (zh) * 2020-11-24 2021-03-12 北京市地铁运营有限公司运营四分公司 一种基于神经网络的标注方法、装置及电子设备
CN113780118A (zh) * 2021-08-27 2021-12-10 广州大学 一种基于视觉的建筑视频高光自动检测方法、设备和存储介质
CN114220014A (zh) * 2021-12-20 2022-03-22 北京字节跳动网络技术有限公司 显著性目标检测模型的确定方法、装置、设备和介质
CN114445750A (zh) * 2022-01-28 2022-05-06 阿里巴巴(中国)有限公司 视频目标分割方法、设备、存储介质及程序产品
CN114663821A (zh) * 2022-05-18 2022-06-24 武汉大学 基于视频高光谱成像技术的产品质量实时无损检测方法
CN115147665A (zh) * 2022-07-29 2022-10-04 上海商汤临港智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11665284B2 (en) * 2020-06-20 2023-05-30 Science House LLC Systems, methods, and apparatus for virtual meetings
US11417097B2 (en) * 2020-09-02 2022-08-16 Hewlett Packard Enterprise Development Lp Video annotation system for deep learning based video analytics

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707931A (zh) * 2016-08-08 2018-02-16 阿里巴巴集团控股有限公司 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN110503074A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 视频帧的信息标注方法、装置、设备及存储介质
CN112487913A (zh) * 2020-11-24 2021-03-12 北京市地铁运营有限公司运营四分公司 一种基于神经网络的标注方法、装置及电子设备
CN113780118A (zh) * 2021-08-27 2021-12-10 广州大学 一种基于视觉的建筑视频高光自动检测方法、设备和存储介质
CN114220014A (zh) * 2021-12-20 2022-03-22 北京字节跳动网络技术有限公司 显著性目标检测模型的确定方法、装置、设备和介质
CN114445750A (zh) * 2022-01-28 2022-05-06 阿里巴巴(中国)有限公司 视频目标分割方法、设备、存储介质及程序产品
CN114663821A (zh) * 2022-05-18 2022-06-24 武汉大学 基于视频高光谱成像技术的产品质量实时无损检测方法
CN115147665A (zh) * 2022-07-29 2022-10-04 上海商汤临港智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Learning Pixel-Level Distinctions for Video Highlight Detection";Fanyue Wei等;《2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20220927;第3063-3072页 *

Also Published As

Publication number Publication date
CN115294506A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN110176027B (zh) 视频目标跟踪方法、装置、设备及存储介质
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
CN110503074B (zh) 视频帧的信息标注方法、装置、设备及存储介质
CN107707931B (zh) 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN112423021B (zh) 视频的处理方法、装置、可读介质和电子设备
CN111553362A (zh) 一种视频处理方法、电子设备和计算机可读存储介质
CN111382647B (zh) 一种图片处理方法、装置、设备及存储介质
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
CN110288629B (zh) 基于移动物体检测的目标检测自动标注方法及装置
CN114005019B (zh) 一种翻拍图像识别方法及其相关设备
CN113312951B (zh) 动态视频目标跟踪系统、相关方法、装置及设备
CN115294506B (zh) 一种视频高光检测方法和装置
CN110782392B (zh) 图像处理方法、装置、电子设备及存储介质
CN112580584A (zh) 起立行为检测方法、装置、系统及存储介质
CN111914850B (zh) 图片特征提取方法、装置、服务器和介质
CN111954022A (zh) 视频播放方法、装置、电子设备和可读存储介质
CN111464865B (zh) 一种视频生成方法、装置、电子设备及计算机可读存储介质
CN115239551A (zh) 视频增强方法和装置
CN113194333B (zh) 视频剪辑方法、装置、设备及计算机可读存储介质
CN111291756B (zh) 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN113807354A (zh) 图像语义分割方法、装置、设备和存储介质
CN113570509A (zh) 数据处理方法以及计算机设备
CN113014957A (zh) 视频镜头切分方法和装置、介质和计算机设备
CN102075689A (zh) 一种快速制作动画的字幕机
CN113743219B (zh) 运动目标检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant