CN116095363B

CN116095363B - 基于关键行为识别的移动端短视频高光时刻剪辑方法

Info

Publication number: CN116095363B
Application number: CN202310085888.2A
Authority: CN
Inventors: 吴家骥; 赵坤; 陈少宏; 马彦泽; 谭铭洲
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2024-05-14
Anticipated expiration: 2043-02-09
Also published as: CN116095363A

Abstract

本发明公开了一种基于关键行为识别的移动端短视频高光时刻剪辑方法，主要解决现有智能剪辑方法存在的高光时刻素材识别不准确、剪辑结果观感生硬、剪辑步骤繁琐的问题。其方案为：1)获取输入的视频和图片素材；2)对输入视频素材构建抽帧序列；3)对抽帧序列进行关键行为检测4)根据检测结果结果分割视频素材；5)对输入的图片素材和4)中分割的非关键行为视频切片进行场景分割；6)对分割后的场景进行高光图像帧筛选；7)对高光图像帧和4)中得到的关键行为视频切片按照时间顺序剪辑，得到高光时刻视频。本发明可准确识别输入剪辑素材中的关键行为和高光帧，剪辑结果观感流畅，剪辑步骤简单，可用于手机、平板、智能相机等移动端设备。

Description

基于关键行为识别的移动端短视频高光时刻剪辑方法

技术领域

本发明属于网络媒体的视频处理领域，更进一步涉及一种移动端短视频高光时刻智能剪辑方法，可用于对用户使用移动设备拍摄短视频中的关键行为进行识别，并根据识别结果剪辑高光时刻视频。

背景技术

随着社交媒体的飞速发展和移动设备的大规模普及，拍摄短视频并在社交网络中分享和记录的人数呈爆炸式增长。高光时刻视频以丰富的内容和精妙的剪辑手法在社交媒体中备受欢迎。但对于普通用户而言剪辑并分享生活中的高光时刻门槛极高，其中用户关键行为识别、定位与剪辑过程十分耗时耗力，剪辑效率低，而且人工剪辑的过程容易造成误差，导致剪辑后的高光行为片段不够精准。因此利用人工智能技术对用户拍摄视频中的关键行为片段进行识别和素材推荐，辅助用户轻松剪辑出具有完整关键行为片段的高光时刻，可以显著降低用户剪辑过程中的工作量，增强用户剪辑产品的灵活性和质量。

近年来人工智能技术和计算机视觉技术在短视频智能剪辑领域逐渐开始应用，华为技术有限公司在其申请号为CN202010090350.7的专利申请文献中公开了一种“视频处理方法和视频处理的设备、存储介质”，其实现方案是：第一步：通过计算帧间图像的相似性和时间序列上音频的频率分布，定位可用于视频分割的时间点；第二步：根据分割点将视频分割成多个子视频，并从每个子视频中选择一个关键帧以及一个关键音频节点作为真正的分割点；第三步：通过图像模糊度以及对移动物体的跟踪识别出包含物体的整个运动过程；第四步：对音频片段进行识别，判断当前片段所属的场景，如打电话，交谈等；第五步：根据三四步的结果为用户提供视频主体的独立有意义的视频片段用于用户筛选。该方法由于仅通过画面和音频的清晰度判断素材是否有意义而忽视了画面中最有意义的用户行为，因而不适用于拍摄画面复杂且环境音嘈杂的剪辑素材，且该方法仅能实现对视频素材的分割，其剪辑还需用户手动进行。

腾讯科技(深圳)有限公司在其申请号为CN202110852101.1的专利申请文献中公开了一种“视频剪辑方法、装置、电子设备以及存储介质”。其实现方案是：第一步：对待剪辑视频进行抽帧处理，得到视频帧序列；第二步：识别该视频序列中每一个视频帧的场景类别序列；第三步：基于场景类别序列对原始视频进行切分，得到多个第一视频片段；第四步：按时间顺序拼接多个第一视频片段，以得到该待剪辑视频的视频集锦。该方法由于仅通过场景指标进行剪辑素材的切分，无法突出创作者想表达的视频主题活动，最终导致剪辑结果每个场景中仅包含离散化、碎片化行为片段，视频观感过于生硬，不符合人类审美。

秒影工场(北京)科技有限公司在其申请号为CN202111077438.6的专利申请文献中公开了一种“基于模板拍摄和自动剪辑的短视频制作方法及装置”。其实现方案是：第一步：在后台为待拍摄目标设置拍摄模板和剪辑规则；第二步：用户使用APP根据拍摄模板将视频的每个关键行为片段拍摄完成；第三步：将所拍摄片段编号后上传到智能剪辑云平台，智能剪辑云平台根据所述剪辑规则识别每个拍摄片段中的关键行为并设置转场；第四步：以剪辑顺序完成短视频剪辑并发回给用户。该方法由于用户必须按照固定的剪辑模板进行拍摄指定动作，因而用户创作空间较小、完全受制于剪辑模板，整个剪辑步骤繁琐，无法捕捉生活中转瞬即逝的高光时刻。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于关键行为识别的移动端短视频高光时刻剪辑方法，以解决用户在移动端短视频剪辑过程中存在的高光时刻素材识别不准确、剪辑结果观感生硬、剪辑步骤繁琐的问题。

为实现上述目的，本发明的技术方案包括如下：

(1)对用户筛选的图像帧和视频剪辑素材按照拍摄时间进行排序，并对用户输入的视频素材进行抽帧，得到多个视频素材的抽帧序列；

(2)从多个视频素材的抽帧序列中获取细粒度的关键行为标签；

(2a)从公开网站中下载现有的四个深度学习模型，即训练好的目标检测模型、目标追踪模型、姿态估计模型、骨骼行为识别模型；

(2b)将步骤(1)中获得的每个视频素材的抽帧序列逐帧输入到现有的目标检测模型，输出画面中每个人物的最小外接矩形框坐标数据，作为人物Bounding Box坐标数据；

(2c)将人物Bounding Box坐标数据输入到现有训练好的目标追踪模型中，输出每个人物在整个视频素材序列上的连续唯一ID标识符，即对输入的视频素材进行行人重识别；

(2c)将连续多帧检测到的人物Bounding Box坐标数据输入到现有训练好的的姿态估计模型，输出每个人物Bounding Box坐标数据对应的人体骨骼关键点坐标序列数据；

(2d)将连续多帧的人体骨骼关键点坐标序列数据输入现有训练好的的骨骼行为识别模型，按照每个人物的唯一ID标识符依次输出关键行为的检测结果；

(2e)对上述输出的人物Bounding Box坐标数据、每个人物的连续唯一ID标识符、人体骨骼关键点坐标序列数据以及关键行为的检测结果进行合并，输出关键行为的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息，构成一个细粒度的关键行为标签；

(3)基于输出的细粒度关键行为标签信息，对原始视频自动进行剪辑分割，切分并输出包含完整关键行为的视频切片素材以及不包含关键行为的视频切片素材；

(4)对用户筛选的图像帧素材及步骤(3)得到的不包含关键行为的视频切片素材按照拍摄时间戳排序，并对排序后的图像帧和视频素材依次进行场景分割和高光帧检测，将相邻时间的场景序列帧进行合并，输出每个场景下的高光帧图像帧素材；

(5)将步骤(3)得到的包含完整关键行为的视频切片素材和步骤(4)得到的每个场景下的高光帧图像帧素材，按照时间顺序进行排序、剪辑，输出高光时刻视频。

本发明与现有技术相比具有以下优点：

1.高光时刻素材识别精度高

本发明由于引入了目标检测、目标追踪、姿态估计、骨骼行为识别四种深度学习算法，充分利用了时间序列上的视频帧信息，获取用户输入视频、图片素材中关键行为的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息及高光图片帧，相较于现有智能剪辑技术仅通过单帧的图片信息进行高光时刻识别的方法，提高了高光时刻素材识别的准确性；

2.剪辑结果呈连续性、观感顺畅

本发明将用户输入图片和视频素材的拍摄时间作为高光时刻剪辑的重要依据，结合四种深度学习模型输出的细粒度预测标签，对相同标签的关键行为素材切片和高光图像帧进行时间序列上的合并，相较于现有离散化、碎片化的剪辑方法，保证了剪辑结果的连续性；

3.剪辑步骤简单，不受限于固定的剪辑模板

本发明通过引入目标检测、目标追踪两个算法，可以对用户随手拍摄的图片和视频素材中的任意个体进行关键行为检测，并基于检测到的每个个体的关键行为素材切片进行自动剪辑，相较于现有基于剪辑模板的方法，剪辑步骤简单易上手，且用户创作不受制于固定的剪辑模板。

附图说明

图1是本发明的实现总流程图；

图2是本发明中对视频素材进行抽帧的子流程图；

图3是本发明中使用目标检测模型进行主要人物检测的子流程图；

图4是本发明中使用NMS过滤检测框前后的结果对比图；

图5是本发明中使用的姿态估计模型推理结果可视化示意图；

图6是本发明中基于滑动窗口的关键行为检测子流程图；

具体实施方式

下面结合附图和实施例，对本发明做进一步的详细描述。

参照图1，本实例的实现步骤如下：

步骤1：获取用户输入的待剪辑素材，并进行排序处理。

1.1)从移动端设备中读取用户输入的待剪辑图片和视频素材，并进行分类存储；

1.2)从待剪辑图片和视频素材中解析出其拍摄的时间戳，以拍摄的时间戳为依据对输入素材进行升序排序；

所述的移动端设备包括手机、平板、智能相机，本实例是用户对自己拍摄并存储到移动端设备上的图片和视频素材进行剪辑，同时也支持用户从网络媒体中下载的图片和视频素材的剪辑，即在网络媒体上下载的图片和视频素材的拍摄时间戳为该素材下载到移动端设备上的下载时间。

在具体实施过程中，用户可选择同时输入图片、视频两种文件格式，或仅输入其中一种文件格式，本实例使用但不限于用户自己拍摄的图片和视频素材。

步骤2：对用户输入的视频素材进行抽帧处理。

参照图2，本步骤的具体实现如下：

2.1)在步骤1的输出结果中加载一段视频素材，并获取当前加载视频素材的帧率和总帧数数据；

2.2)设置抽帧间隔K，K是区间[1,10]中的任意一个整数；

2.3)按帧解码当前视频素材，即从第一帧开始每隔K帧抽取一帧图像帧，并记录抽取帧的时间戳，直到解码至最后一帧结束；

2.4)输出当前视频素材抽取的图像帧序列数据以及对应的时间戳序列数据。

步骤3：初始化选用的五种深度学习模型。

3.1)从公开网站中下载现有的五个深度学习模型，即训练好的目标检测模型、目标追踪模型、姿态估计模型、骨骼行为识别模型、场景分类模型；

3.2)将五个深度学习模型依次加载至移动端设备的内存中，并进行初始化。

步骤4：输出待剪辑视频素材中的主要人物检测结果。

参照图3，本步骤的具体实现如下：

3.1)将步骤2视频素材抽帧后输出的图像帧序列数据作为待处理视频素材；

3.2)使用现有的目标检测模型，对待处理视频素材进行逐帧的行人检测，并输出每一帧行人检测的初始结果向量，本实例中行人检测的初始结果向量解析后的内容包括Bounding Box坐标序列数据、Bounding Box置信度序列数据；

3.3)设β1为置信度过滤阈值，对Bounding Box置信度序列数据使用置信度阈值β1进行过滤，将Bounding Box置信度序列数据中置信度低于β1的数据进行删除，同时删除Bounding Box坐标序列数据中对应的数据，其中β1取值范围在区间[0,1]之间；

3.4)对剩余的Bounding Box坐标序列数据、Bounding Box置信度序列数据进行NMS过滤；

3.4.1)将所有Bounding Box坐标按照对应的Bounding Box置信度序列数据从高到低进行排序；

3.4.2)取当前置信度最高的Bounding Box坐标作为基准坐标，依次计算其余Bounding Box坐标与基准坐标之间的IOU数值；

3.4.3)设β2为IOU过滤阈值，删除IOU值大于阈值β2的Bounding Box坐标，其中β2的取值范围在区间[0,1]之间；

3.4.4)重复步骤3.4.2)-3.4.3)，直到所有Bounding Box坐标处理完毕，得到过滤后的检测图，如图4所示，其中：

图4(a)中同一人物检测出了实线、短划线、点-划线对应的3种Bounding Box坐标，其置信度得分依次为0.93、0.85、0.67，因为实线Bounding Box坐标的得分最高为0.93，故选择实线Bounding Box坐标作为基准坐标，由于基准坐标和其它两个坐标的IOU数值都大于β2，故删除短划线、点-划线对应的Bunding Box坐标序列数据、Bounding Box置信度序列数据，仅保留实线Bounding Box坐标，图4(b)展示了NMS过滤后的检测结果；

3.5)逐个遍历剩余的Bunding Box坐标序列数据，判断当前Bunding Box坐标是否处于图像帧中央，即当前Bunding Box坐标构成的矩形框距离图像帧上下左右四个边界的像素距离是否大于50个像素：若大于50个像素，则处于图像帧中央，反之则不在图像帧中央；

3.6)删除不处于画面中央的Bunding Box坐标数据；

3.7)逐个遍历剩余的Bunding Box坐标序列数据，判断当前Bunding Box坐标构成的矩形框面积是否大于1024个像素，若不大于则删除该Bunding Box坐标数据；

3.8)将剩余的Bunding Box坐标序列数据、Bounding Box置信度序列数据作为主要人物的目标检测结果输出。

本实例设置但不限于β1＝0.25，β2＝0.55。

步骤4：对待剪辑视频素材中的主要人物进行目标追踪。

参照图5，本步骤的具体实现如下：

4.1)基于目标检测输出的主要人物Bunding Box坐标序列数据，对用户输入的视频素材进行主要人物定位，获取每一帧中主要人物的最小外接矩形框；

4.2)对用户输入视频素材每一帧中的主要人物的最小外接矩形框进行裁剪，输出每个主要人物的裁剪画面序列；

4.3)基于卡尔曼滤波、多级得分匹配、外形特征匹配三种方法，为每个主要人物的裁剪画面序列分配唯一的ID标识符；

4.3.1)逐帧对目标检测输出的主要人物Bunding Box坐标序列数据进行卡尔曼滤波，得到当前帧每个主要人物Bunding Box坐标数据在下一帧的预测值；

4.3.2)设δ1为一级置信度筛选阈值，将Bounding Box置信度序列数据大于δ1的Bunding Box坐标序列数据与卡尔曼滤波得到的预测值进行IOU相似度匹配，输出每个Bunding Box坐标的匹配得分，其中δ1的取值范围在区间[0,1]之间；

4.3.3)对匹配得分大于δ1的Bunding Box坐标分配唯一的ID标识符；

4.3.4)设δ2为二级置信度筛选阈值，对未分配唯一ID标识符且Bounding Box置信度序列数据大于δ2的Bunding Box坐标序列数据进行外形特征相似度得分计算，输出每个Bunding Box坐标的相似度得分；

4.3.5)对外形特征相似度得分大于δ2的Bunding Box坐标序列数据分配唯一的ID标识符；

4.3.6)删除其余未分配唯一ID标识符的Bounding Box坐标序列数据和BoundingBox置信度序列数据；

4.4)输出包含唯一ID标识符的主要人物裁剪画面序列。

本实例设置但不限于δ1＝0.75、δ1＝0.25。

步骤5：对包含唯一ID标识符的主要人物裁剪画面序列进行姿态估计。

5.1)设M为主要人物裁剪画面序列长度筛选阈值，对步骤4输出的包含唯一ID标识符的主要人物裁剪画面序列进行序列长度筛选，删除序列长度小于M的主要人物裁剪画面序列，其中M的取值范围在区间[15,30]之间；

5.2)设L为当前移动端设备支持的最大推理数量，对序列长度合格的主要人物裁剪画面序列进行批量封包处理，每个包中的序列长度为L；

5.3)使用现有的姿态估计模型，对批量封包后的主要人物裁剪画面序列进行姿态估计，得到每个主要人物的骨骼关键点坐标序列数据，并对其进行可视化，结果如图5所示，其中：

图5(a)展示了姿态估计模型对单人进行姿态估计的可视化推理结果；

图5(b)展示了推理结果中每个索引数字对应的人体骨骼关键坐标点名称，图中索引0-16分别表示鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右髋、左髋、右膝、左膝、右踝、左踝；

5.4)将主要人物的骨骼关键点坐标序列数据与步骤4输出的唯一ID标识符进行关联，输出多个包含唯一ID标识符的主要人物骨骼关键点坐标序列数据。

本实例设置但不限于L＝16。

步骤6：对输入视频素材中的主要人物进行关键行为识别。

参照图6，本步骤的具体实现如下：

6.1)在步骤5输出的多个包含唯一ID标识符的主要人物骨骼关键点坐标序列数据中解析出每个骨骼关键点坐标数据的拍摄时间戳；

6.2)设置行为识别时间隔时间控制变量D的值，即滑动窗口的距离；

6.3)设置行为识别模型每次读入骨骼关键坐标点的序列长度W，即每次输入骨骼行为识别模型的数据是连续W帧的人物骨骼关键点坐标序列数据；

6.4)按照唯一ID标识符的索引任取一个主要人物骨骼关键点坐标序列数据作为待遍历骨骼关键点坐标序列数据；

6.5)将待遍历骨骼关键点坐标序列数据输入骨骼行为识别模型，以窗口大小为W，步长为D的滑动窗口进行预测，输出包含关键行为窗口的起始和结束时间戳、该关键行为的类别标签；

6.6)重复执行步骤6.4)-6.5)，直到所有唯一ID标识符对应的主要人物骨骼关键点坐标序列数据都识别完毕；

本实例设置但不限于D＝5、W＝15。

步骤7：根据关键行为识别结果切分原始视频素材。

7.1)以步骤6输出的关键行为开始时间戳和关键行为结束时间戳为基准，对原始视频素材进行切分，切分为包含完整关键行为的视频片段和不包含关键行为的视频片段；

7.2)按类别对切分结果进行分组，依次输出包含完整关键行为的视频片段的分组与不包含关键行为的视频片段的分组。

步骤8：对待剪辑图片素材和不包含关键行为的视频片段进行场景分割。

8.1)对不包含关键行为的视频片段以大小为K的抽帧间隔进行抽帧操作；

8.2)使用现有训练好的场景分类模型对排好序的图像帧序列数据进行场景分类，得到每一帧图像对应的场景类别标签；

8.3)设图像帧序列合并间隔最大阈值为T，根据每张图像帧的场景类别标签进行图像帧序列的合并：

当前后任意两张图像帧的场景类别标签相同，且这两张图像帧之间间隔的序列长度不超过T时，合并这两张图像帧和这两张图像帧之间的所有图像帧为一个新的序列数据；

8.4)对合并后得到的图像帧序列数据按照场景类别标签进行分组，输出每个场景类别标签下的图像帧序列数据。

本实例设置但不限于K＝5，T＝3。

步骤9：从每个场景的图像帧序列数据中筛选一个高光帧。

9.1)从步骤8输出的多个场景分割结果中任选一个作为待处理场景；

9.2)对待处理场景中的所有图像帧使用二次模糊算法进行清晰度评估，过滤清晰度较低的图像帧：

9.2.1)设清晰度过滤阈值为θ1，其取值范围在区间[0,1]之间；

9.2.2)从待处理场景的所有图像帧中选取一帧作为待处理图像帧；

9.2.3)对待处理图像帧进行拷贝，将拷贝得到的副本图像帧转为灰度图像帧；

9.2.4)对待处理图像进行低通滤波操作，得到模糊图像帧；

9.2.5)计算模糊图像帧和灰度图像帧中相邻像素的梯度变化比值，得到待处理图像帧的清晰度得分；

9.2.6)删除待处理场景中清晰度得分大于阈值θ1的图像帧；

9.2.7)重复步骤9.2.2)-9.2.6)，直到待处理场景中所有的图像帧都处理完毕；

9.3)对待处理场景中剩余的图像帧使用Brenne梯度算法进行相机稳定度评估，过滤拍摄镜头抖动较大的图像帧：

9.3.1)设拍摄镜头抖动过滤阈值为θ2，其取值范围在区间[0,1]之间；

9.3.2)从待处理场景剩余的图像帧中选取一帧作为待处理图像帧；

9.3.3)将待处理图像帧转换为灰度图像帧；

9.3.4)计算灰度图像帧中相邻像素之间的灰度差，输出所有像素点灰度差的平方和，得到待处理图像帧的拍摄镜头抖动得分；

9.3.5)删除待处理场景中拍摄镜头抖动得分大于阈值θ2的图像帧；

9.3.6)重复步骤9.3.2)-9.3.5)，直到待处理场景中所有的图像帧都处理完毕；

9.4)对待处理场景中剩余的图像帧使用颜色直方图算法进行明亮度评估，过滤明亮度过曝或者过暗的图像帧：

9.4.1)设明亮度阈值上限为θ3，明亮度阈值下限为θ4，其中θ3和θ4的取值范围都在区间[0,1]之间；

9.4.2)从待处理场景剩余的图像帧中选取一帧作为待处理图像帧；

9.4.3)将待处理图像帧转换为灰度图像帧；

9.4.4)统计灰度图像帧的16阶颜色直方图分布，根据颜色直方图分布信息计算灰度图片的明亮度均值，得到待处理图像帧的明亮度得分；

9.4.5)删除待处理场景中明亮度得分大于阈值θ3、亮度得分小于θ4的图像帧；

9.4.6)重复步骤9.4.2)-9.4.5)，直到待处理场景中所有的图像帧都处理完毕；

9.5)从待处理场景剩余的图像帧中随机挑选一帧图片作为该场景的高光帧筛选结果输出；

9.6)重复步骤9.1)-9.5)，直到所有场景都处理完毕。

本实例设置但不限于θ1＝0.45、θ2＝0.5、θ3＝0.35、θ4＝0.8。

步骤10：剪辑高光时刻视频。

10.1)对步骤7输出的关键行为视频切片和步骤9输出的每个场景下的高光帧按照拍摄时间戳进行排序；

10.2)将排序后的视频和图片素材按照时间顺序依次进行拼接剪辑；

10.3)输出剪辑的高光时刻视频，完成基于关键行为识别的高光时刻视频剪辑。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于关键行为识别的移动端短视频高光时刻剪辑方法，其特征在于，包括以下步骤：

(2d)将连续多帧检测到的人物Bounding Box坐标数据输入到现有训练好的的姿态估计模型，输出每个人物Bounding Box坐标数据对应的人体骨骼关键点坐标序列数据；

(2e)将连续多帧的人体骨骼关键点坐标序列数据输入现有训练好的的骨骼行为识别模型，按照每个人物的唯一ID标识符依次输出关键行为的检测结果；

(2f)对上述输出的人物Bounding Box坐标数据、每个人物的连续唯一ID标识符、人体骨骼关键点坐标序列数据以及关键行为的检测结果进行合并，输出关键行为的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息，构成一个细粒度的关键行为标签；

(4)对用户筛选的图像帧素材及步骤(3)得到的不包含关键行为的视频切片素材按照拍摄时间戳排序，并对排序后的图像帧和视频素材进行场景分割，对分割后的每个场景执行高光帧检测，根据每个场景中所有图像帧的质量评估结果挑选一帧图片作为该场景的高光帧检测结果输出；

2.根据权利要求1所述的方法，其特征在于，步骤(2e)中将连续多帧的人体骨骼关键点坐标序列数据输入现有的骨骼行为识别模型，按照每个人物的唯一ID标识符依次输出关键行为的检测结果，实现如下：

(2e1)按照人物唯一ID标识符确定所选人物，在所选人物连续多帧的人体骨骼关键点坐标序列数据中选取起始的连续N帧人体骨骼关键点坐标序列数据，其中N为[15,60]区间中的一个正整数；

(2e2)将上述选取的连续N帧的人体骨骼关键点坐标序列数据输入现有的骨骼行为识别模型中，对所选人物进行关键行为检测，输出检测结果；

(2e3)在所选人物连续多帧的人体骨骼关键点坐标序列数据上向后滑动M帧，并重新选取N帧人体骨骼关键点坐标序列数据，重复步骤(2d2)迭代，直到滑动到所选人物连续多帧的人体骨骼关键点坐标序列数据的最后一帧结束，其中M为[5,15]区间中的一个正整数；

(2e4)基于所选人物在滑动窗口上的多次关键行为检测结果，当前后两次关键行为检测结果类别相同，且两者间隔时间不超过T时，合并这两次关键行为检测结果作为一个新的关键行为检测结果，其中T为[3,10]区间中的一个正整数；

(2e5)基于上述关键行为检测结果输出所选人物每个关键行为对应的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息。

3.根据权利要求1中所述的方法，其特征在于，步骤(4)中对排序后的图像帧和视频素材依次进行场景分割和高光帧检测，实现如下：

(4a)对视频素材进行抽帧，得到每个视频素材的抽帧序列图像帧；

(4b)按照拍摄的时间戳对图像帧素材和视频素材抽帧后输出的抽帧序列图像帧进行排序；

(4c)对上述排序好的图像帧进行场景分类，按照分类结果将同一个场景下的所有图像帧进行归类、输出；

(4d)依次对上述输出的每个场景下归类的所有图像帧进行清晰度、稳定度、明亮度三种质量评估，按照评估结果输出每个场景中的高光帧。

4.根据权利要求3所述的方法，其特征在于，步骤(4c)中对图像帧素材和视频抽帧后的序列帧排序好后进行场景分类，按照分类结果将同一个场景下的所有图像帧进行归类，实现如下：

(4c1)从公开网站中下载现有训练好的场景分类深度学习模型；

(4c2)逐帧使用现有训练好的场景识别模型对排好序的图像帧序列进行场景分类；

(4c3)根据每张图像帧的场景分类结果进行图像帧序列场景标签的合并，即当前后两张图像帧的场景分类结果相同，且两者拍摄间隔时间不超过T时，将这两张图像帧之间的所有图像帧的场景分类结果合并为同一场景标签；

(4c4)按照合并后的场景标签，依次输出每个场景类别中所有的图像帧。

5.根据权利要求3所述的方法，其特征在于，步骤(4d)中依次对上述输出的每个场景下归类的所有图像帧进行清晰度、稳定度、明亮度三种质量评估，按照评估结果输出每个场景中的高光帧，实现如下：

(4d1)对每个场景的所有图像帧使用二次模糊算法进行图像帧的清晰度评估，删除清晰度得分高于阈值的图像帧，其中/>；

(4d2)对剩余图像帧使用Brenne梯度法进行相机稳定度评估，删除拍摄镜头抖动得分高于阈值的图像帧，其中/>；

(4d3)对剩余图像帧使用颜色直方图算法进行场景明亮度评估，删除明亮度得分低于，或者高于/>的图像帧，其中/>、/>；

(4d4)从每个场景剩余的图像帧中随机筛选一帧图像帧作为当前场景下的高光帧输出，若某个场景剩余的图像帧为空，则不输出。

6.根据权利要求5所述的方法，其特征在于，步骤(4d1)中对每个场景的所有图像帧使用二次模糊算法进行图像帧的清晰度评估，实现如下：

(4d1.1)从所有输入的图像帧选取一帧作为待处理图像帧；

(4d1.2)将待处理图像帧转换为灰度图片，并对灰度图片进行低通滤波操作，得到模糊图像帧；

(4d1.3)计算待处理帧以及模糊图像帧中相邻像素灰度值的变化梯度比值，得到待处理图像帧的清晰度得分；

(4d1.4)重复步骤(4d1.1)-(4d1.3)，直到所有输入图像帧都处理完毕。

7.根据权利要求5所述的方法，其特征在于，步骤(4d2)中对剩余图像帧使用Brenne梯度法进行相机稳定度评估，实现如下：

(4d2.1)从所有输入的图像帧选取一帧作为待处理图像帧；

(4d2.2)将待处理图像帧转换为灰度图片；

(4d2.3)计算灰度图片中相邻像素之间的灰度差，输出所有像素点灰度差的平方和，得到待处理图像帧的稳定度得分；

(4d2.4)重复步骤(4d2.1)-(4d2.3)，直到所有输入图像帧都处理完毕。

8.根据权利要求5所述的方法，其特征在于，步骤(4d3)中对剩余图像帧使用颜色直方图算法进行场景明亮度评估，实现如下：

(4d3.1)从所有输入的图像帧选取一帧作为待处理图像帧；

(4d3.2)将待处理图像帧转换为灰度图片；

(4d3.3)统计灰度图像的16阶颜色直方图分布，根据颜色直方图分布信息计算灰度图片的明亮度均值，得到待处理图像帧的明亮度得分；

(4d3.4)重复步骤(4d3.1)-(4d3.3)，直到所有输入图像帧都处理完毕。