CN113259780A

CN113259780A - 全息多维音视频播放进度条生成、显示和控制播放方法

Info

Publication number: CN113259780A
Application number: CN202110800053.1A
Authority: CN
Inventors: 柴剑平; 赵薇; 柴宇宸
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-08-13
Anticipated expiration: 2041-07-15
Also published as: CN113259780B

Abstract

本发明公开一种全息多维音视频播放进度条生成、显示和控制播放方法，方法包括：提取音视频中各类信息；将各类信息所对应的关键帧分别整合为对应的时间区间，并将各类信息与对应的时间区间建立关联，时间区间是指包含有相同信息的多个关键帧所在的时间位置构成的区间，并且，包含相同信息的多个时间区间之间的间隔大于设定区间间隔；将各类信息以多级可选的形式嵌入到播放进度条中，并且进度条在音视频整体播放时以标识的形式显示各类信息，或在选择信息后跳转至对应的时间区间进行播放。本发明将人工标记和智能自动生成的各类信息嵌入到播放进度条上，用户通过选择不同维度，播放器呈现个性化进度条，带来更好的用户体验。

Description

全息多维音视频播放进度条生成、显示和控制播放方法

技术领域

本发明涉及媒体播放技术领域，具体地说，涉及一种全息多维音视频播放进度条生成、显示和控制播放方法。

背景技术

现有的音视频播放器进度条，通常只包括时间信息。用户通过进度条，只可以进行快进、快退、暂停、播放、停止等播放器的基本操作。针对电视剧类型，一些播放器添加了“只看TA”功能，可以通过选择，只观看某个主演的播出片段。这种功能和样式都很简单的进度条，极大地限制了用户对节目的播出选择，影响了收视体验。

随着人工智能及大数据技术的飞速发展，对音视频内容及交互信息的挖掘越来越深入。通过音视频内容的检索，可以得到用户喜欢的角色片段、特定情感片段和场景片段等带有明显个人偏好的音视频片段；通过交互信息的数据分析，可以得到弹幕最多片段、重复率最高弹幕文字片段、点赞弹幕最多片段等，通过特定物品或者场景的检索，可以得到类似嵌入式广告的分析。并且，还有社区推荐观看模式，用户可以对进度条进行简单标注，推荐其他人选择观看。但是目前，用户还无法自行通过播放器进行检索和查找，而只能通过在网站上输入检索信息，获得网络上一些媒体制作的与检索信息有关的裁剪的音视频。

发明内容

为解决以上问题，本发明提供一种全息多维音视频播放进度条生成方法，包括：

提取音视频中各类信息，所述各类信息至少包括人物信息、动作戏场景信息、情感场景信息、音乐场景信息、物品信息以及交互信息；

将各类信息所对应的关键帧分别整合为对应的时间区间，并将各类信息与对应的时间区间建立关联，所述时间区间是指包含有相同信息的多个关键帧所在的时间位置构成的区间，并且，包含相同信息的多个时间区间之间的间隔大于设定区间间隔；

将所述各类信息以多级可选的形式嵌入到播放进度条中，所述播放进度条包括时间尺度和频次尺度，并且所述播放进度条在音视频整体播放时以标识的形式显示各类信息，或在选择信息后跳转至对应的时间区间进行播放，并在播放过程中以标识的形式显示其他各类信息。

可选地，对于音视频提取所述人物信息，包括：以一定的时间间隔从音视频中提取多个关键帧图像，通过提取关键帧图像中的面部、服饰、姿态特征，并结合从音视频中提取的声纹特征确定所述人物信息。

可选地，对于音视频提取情感场景信息，包括：以一定的时间间隔从音视频中提取多个关键帧图像，通过提取关键帧图像中人物微表情、物品、环境以及人物语音语调中至少一项的分析，对场景情感类别进行分类。

可选地，对于音视频提取音乐场景信息，包括：通过神经网络模型获得音乐片段及各音乐片段的情感类别信息。

可选地，交互信息包括对实时弹幕数量或点赞数量的统计。

可选地，对于音视频中关键帧的获取方式包括基于镜头边界、基于运动分析、基于视频聚类、基于帧差欧氏距离的方法中任一种。

可选地，以时间尺度为横轴，频次尺度为纵轴形成播放进度条。

可选地，音乐场景信息还包括用符号在音乐场景所对应的时间区间进行音乐相关参数的标注。

本发明还提供一种全息多维音视频播放进度条显示方法，采用以上所述的方法生成播放进度条，所述显示方法包括：

以时间尺度为横轴，频次尺度为纵轴形成播放进度条，

在时间尺度上用区别于播放进度条主体颜色的不同颜色来标识各类信息的时间区间，在频次尺度上以点、线、面及颜色标识各类信息中的相关数量。

本发明还提供一种全息多维音视频播放进度条控制播放方法，采用以上所述的方法生成播放进度条，所述控制播放方法包括：对音视频进行第一播放方式，所述第一播放方式是在音视频整体播放的情况下，在播放进度条上以标识的形式显示各类信息；

或，对音视频进行第二种播放方式，所述第二种播放方式是在用户选择信息后跳转至对应的时间区间进行播放对应的音视频，并在播放过程中以标识的形式显示其他各类信息。

本发明在深入挖掘分析音视频节目内容、交互等相关信息基础上，将人工标注和智能自动生成的各类信息嵌入到播放进度条上，用户通过选择不同维度，播放器将呈现个性化进度条，方便用户进行非线性欣赏，带来更好的用户体验。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明实施例的全息多维音视频播放进度控制方法的流程示意图；

图2是表示本发明实施例的各类信息的菜单形式示意图；

图3是表示本发明实施例的播放进度条在播放画面中的示意图；

图4是表示本发明实施例的菜单关联性的一个示意图；

图5是表示本发明实施例的菜单关联性的另一个示意图；

图6是表示本发明实施例的显示一些场景中激烈程度的曲线示意图；

图7是表示本发明实施例的时间区间和区间间隔的示意图。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的方法和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

如图1所示，本实施例的全息多维音视频播放进度条生成方法，包括以下步骤：

步骤S1，从音视频中提取多个关键帧，通过对关键帧图像的识别结合音视频中的声纹信息提取音视频中各类信息，所述各类信息可以是客观信息也可以是主观信息，所述各类信息至少包括人物信息、动作戏场景信息、情感信息、场景信息、音乐场景信息以及交互信息。音视频是指包含有视频和声音的混合场景。所述主观信息是指根据用户输入的内容提取的各类信息，例如用户输入动作戏，则提取动作戏场景信息。客观信息是指不考虑用户的主观因素从音视频中提取的各类信息。特别的，也可以根据用户通常的音视频观看记录，以及其对于音视频的评分、评论记录等信息构建用户画像，根据用户画像来提取与用户主观相关联的各类信息。

其中，对于人物信息的提取，一部音视频中可以包含有多个人物，可以通过面部、服饰、姿态、声纹等信息的处理，从而识别出音视频中的人物，并对人物按照人物分类规则进行细分类。如果没有设定人物分类规则，则对各人物依次保存成人物列表即可。例如，一个音视频中包含有3个人物，则将这3个人物保存在人物列表中。例如人物分类规则是动作明星、喜剧明星等，则可以将人物按照此分类进行细分类，并在该细分类中再逐个列出相关人物。

进一步地，可以以一定的时间间隔从音视频中提取一些关键帧图像，并对各关键帧图像进行人物识别，多个关键帧图像都包含的人物则认定为主要人物，从而提取主要人物的信息，而仅有极少关键帧图像（例如一个关键帧）包含的人物，则认定为出场时间很短的人物，可以不进行提取其信息。具体的时间间隔以及多少关键帧图像包含人物来判定是否是主要人物，可以自行设定，在此不做限制。当然，也可以对音视频的每一帧都提取图像，并对图像中的所有人物都进行识别输出，也是可以的。

音视频关键帧提取有多种方式，比如基于镜头边界、基于运动分析、基于图像信息提取关键帧，帧差欧氏距离法等。

其中，基于镜头边界是将音视频分割为镜头，将每个镜头的首帧或末帧作为关键帧，从而进行图像识别。

其中，基于运动分析是将音视频分割为多段，然后在每段里面，利用光流分析来计算每段中的运动量，选取运动信息最大的帧为关键帧图像，从而进行图像识别。例如《基于运动目标特征的关键帧提取算法，田丽华，张咪，李晨，西安交通大学软件学院,西安710049》。

其中，基于图像信息提取关键帧，是通过每一帧图像颜色、纹理等视觉信息的改变来提取关键帧，当这些信息有显著变化时，当前帧即可作为关键帧。

其中，帧差欧氏距离法是用F(i)表示第i帧图像的帧差欧氏距离，其数学表达式为

其中N为音视频的一个镜头中的帧图像数目，

分别为第i、i+1、i+2帧图像的灰度值。

用帧差欧式距离法从该镜头中进行关键帧提取的步骤：

1）计算各帧图像之间的帧差欧式距离，在N帧图像的镜头中总共有N-2个帧差欧式距离；

2）计算这N-2个帧差欧式距离的极值，以及各极值点对应的函数值；

3）计算各函数值得均值；

4）比较各极值点所对应函数值与均值的大小，取出大于均值的点，其对应的帧图像即为所要选的关键帧图像。

具体识别人物的方法可以是通过截取音视频中的关键帧图像，通过提取图像的面部特征、姿态特征、服饰特征来综合进行识别，从而获知音视频中的人物。并且也可以通过提取音视频中的声纹特征来进行识别，从而获知音视频中的人物。可以将图像识别与声纹识别结合来进行人物识别，可以加快人物识别速度。对关键帧图像的识别可以是采用神经网络模型，神经网络模型是经过训练的机器学习模型，其至少包括输入层、隐藏层、输出层，将各关键帧图像输入到神经网络模型中，提取关键帧图像的特征，例如面部特征、姿态特征、服饰特征，输出层通过将提取的特征与已知的演员的特征进行比对，符合达到一定的程度，则将其判定为对应的演员。通过大量的带有标记的训练数据，所述训练数据是带有标记人物图像，具体说，是已知的多个演员的人像图像，并带有该演员的姓名的标记。采用优化器在训练过程中求损失函数的梯度，从而通过梯度更新网络参数值使得损失函数不断向最小值搜索迭代，直至收敛，获得训练后的神经网络模型。

其中，基于面部特征识别可以是采用Eigenface方法（特征脸方法），基于服饰特征识别可以是采用神经网络图像识别方法，例如，通过服饰的不同来分辨男性和女性，通过服饰的不同来分辨大人和小孩等。只要把对应的训练数据输入到神经网络中进行训练即可。姿态特征识别可以采用openPose（Github开源人体姿态识别模型）或者AlphaPose（上海交通大学实时姿态估计模型）或者DeepPose（基于深层神经网络的人体姿态估计模型）。通过将演员的一些特有的姿态特征输入到模型中，对模型进行训练，即可利用模型来辅助识别，最终，将提取到的面部特征、服饰特征、姿态特征通过加权的方式获得总的人物特征，将该人物特征进行分类，从而获得人物信息。进一步地，还可以结合声纹特征来提取其人物信息。例如，将演员“陈五”的声纹特征与音视频中的声纹特征进行比对，从而识别出音视频中的人物信息。例如可以是通过提取音视频中的MFCC（梅尔倒谱系数）特征来与通常的演员的音视频信息进行对比，从而识别声音。

其中，对于动作戏场景信息的提取，也可以是通过提取关键帧图像，通过对人物动作交互及姿态的识别，提取出动作戏场景信息，对动作戏场景的识别可以通过神经网络模型来识别行为，只是其提取的特征与人物识别不同而已，例如，对于动作戏的识别，特征可以是人体上的血迹、头发的凌乱、衣服的散乱、人体上的淤青、人体所持的器械等等。并且，也可以结合图像背景来识别行为，背景可能是例如刀具、酒瓶、弓箭、枪械等物体，这有助于对于是否打架的判断。例如刀具，两人之间的刀具有可能是切割物体用，也有可能是打架用。还有酒瓶，可能是喝酒用，也可能是作为凶器打架用。可以针对这些背景来设定训练数据，例如，刀具同时接触到两个人，则认定为打斗，刀具扬起的高度超过肩部，则认定为打斗。刀具上有血迹，则认定为打斗。同样地，酒瓶被一人握住，且扬起的高度超过肩部，则认定为打斗的可能性大。酒瓶被一人握住，瓶口朝下，但瓶口下方并没有酒杯，也认为打斗的可能性大。酒瓶上有血迹，则认定为打斗。各种打斗常用的武器都可以作为特征，通过结合不同的物体的特点设定物体的状态和位置来认定打斗的机率。

通过将大量带有标注的训练数据输入神经网络模型，经过训练的神经网络模型即可识别图像中的行为是否为动作戏。

其中，音乐场景信息，可以是通过智能音乐识别技术，得到带有音乐的片段及该音乐片段的情感种类信息。例如可以采用《基于前馈型人工神经网络的语音和音乐识别，刘乔辉，中山大学，硕士学位论文》中的方法进行音乐片段的识别，从而确定音乐片段所属的情感种类。

其中，情感场景信息的提取，可以是通过提取关键帧图像，提取其中人物微表情，并结合音乐场景信息及人物语音语调的分析，对场景的情感基调进行分类，例如喜悦、悲恸的情感场景等。提取其中人物微表情可以是采用ELRCN(增强型长期递归卷积网络)进行人物微表情识别，人物语音语调的提取可以利用openSMILE工具包提取音视频特征，并用ACNN神经网络实现语音情感分类。并且，还可以利用背景中的物品、环境等特殊信息来判断情感场景，有些物品可以触发人物情感，比如有年代感的物品，通常是比较容易感动流泪的场景。有些环境也同样可以辅助判断情感场景，例如婚礼现场通常是比较欢愉的场景，同样是可以采用神经网络方法识别出来。

其中，通过弹幕数量及点赞的统计，得到用户发弹幕数量及点赞最多的场景，通过弹幕内容的大数据挖掘，得到用户最感兴趣话题。所述大数据挖掘可以是通过例如聚类将弹幕内容进行分类。例如Kmeans聚类，是将各个弹幕内容转换为文本向量，并计算个文本向量之间的距离，从而将文本向量划分为多个类别，其中初始聚类中心点K≈

，N表示弹幕的条数。

或者通过识别关键词的方式将弹幕内容分类，例如，可以是将各弹幕内容与包含有关键词的词典进行对比查找，从而比对出各弹幕内容的关键词，并将各弹幕内容的关键词按照权重组合成关键词组合向量，通过余弦相似度来计算各个关键词组合向量之间的距离，从而判断各弹幕内容的相似度，将余弦相似度高于设定阈值的归为一类，从而将弹幕内容划分为多个类别。

或者通过识别弹幕内容信息的方式将弹幕内容分类，从而获得用户最感兴趣话题。例如可以采用申请号2020112428646的专利的方法，将各弹幕内容分别作为一个文本数据，并对各文本数据进行提取主题词，从而获得各主题词所属的分类。

步骤S2，将各类信息所对应的关键帧分别整合为时间区间，并将各类信息与对应的时间区间建立关联，形成全息信息关联表。所述时间区间是指包含有相同信息的一个或多个关键帧所在的时间位置构成的区间。并且，包含相同信息的多个时间区间之间的间隔大于设定区间间隔。

如图7所示，包含人物A的两个时间区间分别为t1和t2，其区间间隔为d，T为设定区间间隔，

，则人物A出现的时间区间合并为一段新的时间区间，时长为t1+d+t2，

，则人物A出现的时间区间依然作为两段，时长分别为t1和t2。

所述时间区间最短可以是只有一帧，最长不受限定，以便使得一些特定帧可以接续播放。

其中，人物信息可以得到某些关键人物在音视频中的出现的时间区间；情感场景信息可以得到不同情感场景的时间区间，比如喜悦的时间区间、悲恸的时间区间等；动作戏信息可以得到动作戏出现的时间区间；背景音乐信息可以得到不同情感的背景音乐的时间区间；弹幕、点赞高频时间点区间估计可以分别得到弹幕数和点赞数最多的时间区间；最感兴趣话题时间区间可以得到弹幕中相同内容出现频率最高的时间区间。

其中，对于音视频，有相同信息的多个关键帧组成的时间位置，就是时间区间。例如，包含人物“张三”的关键帧图像有00:08:00，00:10:00，00:12:00，00:14:00…00:25:00，则从00:08:00到00:25:00是人物“张三”对应的时间区间。例如包含动作戏场景的关键帧图像有00:15:00，00:16:00，00:17:00，00:18:00…，00:25:00，则从00:15:00到00:25:00是一个动作戏场景的时间区间。

需要说明的是，可以设定一定的区间间隔，例如一个音视频中，一个动作戏场景的时间区间是00:15:00到00:25:00，一个动作戏场景是00:40:00到00:48:00，另一个动作戏场景是01:12:40到01:30:12，区间间隔是00:01:00，只要超过区间间隔时间，则会根据区间间隔区分出三段动作戏场景，而不会把三段动作戏场景作为一个动作戏场景。

一个音视频中，00:15:00到00:20:00是包含人物“李四”的时间区间，00:20:45到00:32:00是包含人物“李四”的时间区间，00:51:00到00:60:00是包含人物“李四”的时间区间，区间间隔为00:01:00，则前两个时间区间之间的间隔由于小于区间间隔，则00:15:00到00:32:00是包含人物“李四”的时间区间，00:51:00到00:60:00是包含人物“李四”的时间区间。

下面表一为获得的包含有各类信息与其对应的时间区间的全息信息关联表。从表一中可以看出，“张三”具有两个对应的时间区间，李四具有一个对应的时间区间。

表一

步骤S3，将所述各类信息以多级可选的形式嵌入到播放进度条中，所述播放进度条包括时间尺度和频次尺度，所述播放进度条具有两种播放方式，第一种播放方式是对于音视频进行常规播放，并在播放进度条上显示各类信息标识。第二种播放方式是对于音视频，在用户选择信息后跳转至对应的时间区间进行播放，并在播放过程中以标识的形式显示其他各类信息。所述多级可选是指将人物信息、动作戏场景信息、情感场景信息、音乐场景信息以及交互信息作为一级菜单，将其中的具体场景作为二级菜单。还可以设置三级菜单，例如表一中，张三具有多个时间区间，则可以在三级菜单分别显示，用户可以根据需要选择对应的时间区间。例如，人物信息为一级菜单，二级菜单为音视频中的关键人物名称，三级菜单为对应的时间区间。

其中，时间尺度是指播放进度条的基本单位是时间（单位：秒），比如关键人物出现的时间区间。频次尺度是指进度条的基本单位是出现次数（单位：次）或者频率（单位：Hz），以时间尺度为横轴，频次尺度为纵轴形成播放进度条。

用户在设置好参数（即选择信息）后，进度条会呈现不同尺度和不同标识的多维状态，方便用户个性化播放及观看。如图3所示，为带有该播放进度条的音视频播放情况。

具体的，可以将各类信息以下拉菜单的形式嵌入到播放进度条中，例如图2所示，一级菜单是人物信息、情感场景、动作戏场景、音乐场景、交互信息，人物信息的二级菜单是张三、李四、陈五。各二级菜单项与对应的时间区间相关联，从而在用户选择了不同的菜单项后，进度条会跳转至对应的时间区间进行播放，例如在选择了张三的某一个时间区间后，则在时间尺度上，对应跳转至该“张三”的时间区间来播放，并在时间尺度上显示该时间区间的时长。并且，在该时间区间播放时，在播放进度条上还可以以不同的标识来显示其他各类信息，例如以不同颜色来显示。比如，有“张三”的时间区间是00:05:00到00:30:00，在这段时间内，还有动作戏场景00:10:00至00:15:00，喜悦情感场景00:18:00至00:25:00，悲恸情感场景00:13:00至00:17:00，各场景之间都以时间来衡量关联，在“张三”的这段时间区间内，动作戏场景、喜悦情感场景、悲恸情感场都有出现，则在“张三”的这段时间区间内，分别以红、黄、蓝色在对应的时间段标识显示对应的场景，其中，各场景可能会有重叠，例如动作戏场景可能也是悲恸情感场景，则叠加显示即可。而用户通过查看该播放进度条，则可以在不需要拖动进度条的情况下，预先对剧情的场景进展有一定的了解。例如，看到红色，则表示在该时间段有动作戏，看到黄色，则表示是喜悦情感场景。具体的颜色标识，是可以根据需求设定的。另外，还可以同时通过频次坐标轴上的点、线、面及颜色标识，表示一些信息出现的次数。比如，在纵轴通过线段的形式显示各时刻对应的弹幕数量。如图6所示，该短横线就表示在该时刻对应的弹幕总数量，可以看出，在悲恸情感场景中，弹幕数量出现了增多，而过了该悲恸情感场景，则弹幕数量有所回落。

进一步的，还可以用特殊符号在音乐场景进行音乐相关参数的标注，如节拍等。

进一步的，还可以允许用户对音视频进行自行简单标注，将标注内容存储在本地，或者上传到视频播放网站的服务器，供他人共享。例如，对于音乐场景，其可能是一段流行音乐的节选，但是当前的播放进度条中没有显示音乐律动的特殊符号，则用户可以根据该段音乐的音乐节奏特性，添加一些随音乐播放跳动的音符。具体可以直接在播放进度条上对应的时刻添加特殊字符即可，纵轴上的尺寸即代表音乐律动的不同。

观众看到某个画面时，可以在播放进度条上对应各时刻做文本记号，进度条提取各个标记的时刻后，生成包含时刻和标记的文本内容的json文件，其格式为{‘offset’:time, ‘text’:context}，则在音视频播放的时候，到达该标记的时刻，则会相应的调用该json文件，显示该标记。

进一步地，对于各时间区间，还可以在菜单中采用虚拟连线显示其关联性，例如，如图4所示，表一中，对于“张三”，其有两个时间区间，一个时间区间中有喜悦场景，另一个时间区间中有悲悯场景，为显示其关联性，可以通过虚拟连线将人物信息的时间区间与对应的情感场景的时间区间连接。通过获取用户点击的最末级菜单的位置坐标，并遍历其他各类信息的时间区间，获取与用户选择的时间区间具有重叠的菜单的位置坐标，并将用户所选的菜单与相关联的菜单之间用虚拟连线连接。这仅是示例性的，如图5所示，也可以将用户所选末级菜单以及其关联菜单用同一颜色显示。

以时间尺度为横轴，频次尺度为纵轴形成播放进度条，在时间尺度上用区别于播放进度条主体颜色的不同颜色来标识各类信息的时间区间，在频次尺度上以点、线、面及颜色标识各类信息中的相关数量。

例如，原有播放进度条为灰度进度条，可以用区别于灰色的明显颜色来标识各种时间区间，如关键人物、打斗戏出现段落等。通过频次坐标轴上的点、线、面及颜色标识来代表各项数据中的统计数量，例如弹幕数量、点赞数量等。

本发明还提供一种全息多维音视频播放进度条控制播放方法，采用以上所述的方法生成播放进度条，所述控制播放方法包括：对音视频进行第一播放方式，所述第一播放方式是在音视频整体播放的情况下，在播放进度条上显示各类信息标识，所述整体播放是指以音视频原有的完整音视频进行播放；

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种全息多维音视频播放进度条生成方法，其特征在于，包括：

2.根据权利要求1所述的全息多维音视频播放进度条生成方法，其特征在于，

对于音视频提取所述人物信息，包括：以一定的时间间隔从音视频中提取多个关键帧图像，通过提取关键帧图像中的面部、服饰、姿态特征，并结合从音视频中提取的声纹特征确定所述人物信息。

3.根据权利要求1所述的全息多维音视频播放进度条生成方法，其特征在于，

对于音视频提取情感场景信息，包括：以一定的时间间隔从音视频中提取多个关键帧图像，通过提取关键帧图像中人物微表情、物品、环境以及人物语音语调中至少一项的分析，对场景情感类别进行分类。

4.根据权利要求1所述的全息多维音视频播放进度条生成方法，其特征在于，

对于音视频提取音乐场景信息，包括：通过神经网络模型获得音乐片段及各音乐片段的情感类别信息。

5.根据权利要求1所述的全息多维音视频播放进度条生成方法，其特征在于，

交互信息包括对实时弹幕数量或点赞数量的统计。

6.根据权利要求2所述的全息多维音视频播放进度条生成方法，其特征在于，

对于音视频中关键帧的获取方式包括基于镜头边界、基于运动分析、基于视频聚类、基于帧差欧氏距离的方法中任一种。

7.根据权利要求1所述的全息多维音视频播放进度条生成方法，其特征在于，

以时间尺度为横轴，频次尺度为纵轴形成播放进度条。

8.根据权利要求1所述的全息多维音视频播放进度条生成方法，其特征在于，

音乐场景信息还包括用符号在音乐场景所对应的时间区间进行音乐相关参数的标注。

9.一种全息多维音视频播放进度条显示方法，其特征在于，采用权利要求1至8中任一项所述的方法生成播放进度条，所述显示方法包括：

以时间尺度为横轴，频次尺度为纵轴形成播放进度条，

10.一种全息多维音视频播放进度条控制播放方法，其特征在于，采用权利要求1至8中任一项所述的方法生成播放进度条，所述控制播放方法包括：对音视频进行第一播放方式，所述第一播放方式是在音视频整体播放的情况下，在播放进度条上以标识的形式显示各类信息；