CN114339391A

CN114339391A - 视频数据处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN114339391A
Application number: CN202110949174.2A
Authority: CN
Inventors: 熊章俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2022-04-12

Abstract

本申请实施例公开一种视频数据处理方法、装置、计算机设备以及存储介质，该方法通过人工智能技术对视频中的故事线进行拆分，可以对单个故事线进行穿越式观影；包括：显示目标视频的播放页面，在播放页面中显示目标视频中的N个视频片段集合的观影标识；每个视频片段集合均包括目标视频中的至少两个不连续的视频片段，N为正整数；响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中按照第i个视频片段集合中的至少两个不连续的视频片段之间的播放顺序，依次播放第i个视频片段集合中的至少两个不连续的视频片段。采用本申请实施例，可以丰富视频的观影方式，增强观影过程中故事线剧情的播放连贯性。

Description

视频数据处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种视频数据处理方法、装置、计算机设备以及存储介质。

背景技术

随着视频技术的发展和应用软件的普及，用户使用视频应用查看内容的频率日益增加。当用户使用视频应用进行观影时，用户在观影过程中只能根据时间推进慢慢知晓后续剧情；而在观影过程中，用户往往会遇到下述情形：主角A所对应的故事线发展到关键时候，视频镜头马上转到配角B所对应的故事线。若用户非常急切地想要知晓主角A的后续剧情，则该用户需要采用快进的方式略过当前正在播放的配角A所对应的故事线内容，或者直接对视频中的播放进度条进行操作，将视频播放进度拉到主角A所在故事线的播放位置。由于用户并不能准确掌握主角A所在故事线的播放位置，用户可能需要进行多次操作才能调整到自己想要观看的播放位置，导致观影过程中所播放的故事线剧情不连贯；每次遇到上述情形，用户均需要进行手动操作调整播放进度，这样的观影方式过于单一。

发明内容

本申请实施例提供一种视频数据处理方法、装置、计算机设备以及存储介质，可以丰富视频的观影方式，增强观影过程中故事线剧情的播放连贯性。

本申请实施例一方面提供了一种视频数据处理方法，该方法包括：

显示目标视频的播放页面，在播放页面中显示目标视频中的N个视频片段集合分别对应的观影标识；每个视频片段集合均包括目标视频中的至少两个不连续的视频片段，N为正整数；

响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第i个视频片段集合所对应的至少两个不连续的视频片段；i为小于或等于N的正整数。

本申请实施例一方面提供了一种视频数据处理装置，该装置包括：

显示模块，用于显示目标视频的播放页面，在播放页面中显示目标视频中的N个视频片段集合分别对应的观影标识；每个视频片段集合均包括目标视频中的至少两个不连续的视频片段，N为正整数；

播放模块，用于响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第i个视频片段集合所对应的至少两个不连续的视频片段；i为小于或等于N的正整数。

其中，显示模块包括：

视频显示单元，用于显示一个或多个视频数据；

视频选取单元，用于响应针对一个或多个视频数据的选取操作，在一个或多个视频数据中，将选取操作所确定的视频数据确定为目标视频；

播放页面显示单元，用于显示目标视频的播放页面，在播放页面中显示目标视频对应的第一集合提示区域，在第一集合提示区域中显示N个视频片段集合分别对应的观影标识。

其中，播放页面包括播放进度指示轴；

显示模块具体用于：

在播放进度指示轴上显示N个视频片段集合分别对应的观影标识，以及第i个视频片段集合所对应的至少两个不连续的视频片段，分别在播放进度指示轴上的播放位置。

其中，播放页面包括播放进度指示轴；

上述显示模块还用于：

当播放页面中的触发点在播放进度指示轴上的坐标位置，处于第i个视频片段集合在播放进度指示轴上的播放位置时，在播放页面中显示第i个视频片段集合的观影提示区域；第i个视频片段集合所对应的观影标识处于第i个视频片段集合的观影提示区域中。

其中，显示模块还用于：

当播放页面中的触发点未处于播放进度指示轴上，且第i个视频片段集合的观影提示区域的显示时长达到时长阈值时，在播放页面中取消显示第i个视频片段集合的观影提示区域。

其中，该装置还包括：

关联视频播放模块，用于当第i个视频片段集合所对应的至少两个不连续的视频片段播放结束时，播放第i个视频片段集合所对应的关联视频；关联视频和目标视频为不同的视频数据。

其中，第i个视频片段集合所对应的至少两个不连续的视频片段包括第一视频片段和第二视频片段，第一视频片段的播放顺序早于第二视频片段的播放顺序；

播放模块包括：

第一视频片段播放单元，用于响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第一视频片段和第二视频片段之间的播放顺序，播放第一视频片段；

第二视频片段播放单元，用于当第一视频片段播放结束时，从第一视频片段的结束进度跳转至第二视频片段的开始进度，继续播放第二视频片段。

其中，目标视频包括第一视频片段、第二视频片段以及第三视频片段，第一视频片段和第二视频片段均属于第i个视频片段集合所对应的至少两个不连续的视频片段，第一视频片段的播放顺序早于第二视频片段的播放顺序，第三视频片段位于第一视频片段和第二视频片段之间；

播放模块包括：

播放速度调整单元，用于当第一视频片段播放结束时，将播放页面中的第一视频播放速度切换至第二视频播放速度，以第二视频播放速度播放第三视频片段；第二视频播放速度大于第一视频播放速度；

播放速度恢复单元，用于当第三视频片段播放结束时，将第二视频播放速度恢复至第一视频播放速度，以第一视频播放速度继续播放第二视频片段。

其中，该装置包括：

集合提示模块，用于当第i个视频片段集合所对应的至少两个不连续的视频片段播放结束时，显示第二集合提示区域，在第二集合提示区域中显示剩余的(N-1)个视频片段集合分别对应的观影标识；(N-1)个视频片段集合为N个视频片段集合中除第i个视频片段集合之外的视频片段集合；

集合选取模块，用于响应针对(N-1)个视频片段集合中的第j个视频片段集合所对应的观影标识的触发操作，按照第j个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第j个视频片段集合所对应的至少两个不连续的视频片段；j为小于或等于N的正整数。

其中，该装置还包括：

标签编辑模块，用于响应针对N个视频片段集合中的第i个视频片段集合的编辑操作，将编辑操作所输入的文本内容，确定为第i个视频片段集合所对应的集合标签信息。

其中，该装置还包括：

视频切分模块，用于获取目标视频，根据目标视频中的字幕时间间隔，将目标视频划分为M个视频片段；M为正整数；

视频片段分析模块，用于获取M个视频片段分别对应的场景特征、人物特征以及情节特征，对场景特征、人物特征以及情节特征进行组合，得到M个视频片段分别对应的片段特征；

视频片段串联模块，用于获取M个视频片段所对应的片段特征之间的关联度，在M个视频片段中，为关联度大于关联阈值的视频片段建立关联关系，将具有关联关系的视频片段进行组合，得到目标视频中的N个视频片段集合；一个视频片段集合中的至少两个不连续的视频片段之间具有关联关系。

其中，视频切分模块包括：

视频切割单元，用于获取目标视频中的字幕时间间隔，当字幕时间间隔大于间隔阈值时，对目标视频进行切割，得到L个初始视频片段；L为大于或等于M的正整数；

音频识别单元，用于获取L个初始视频片段分别对应的语音特征和背景音频特征，根据语音特征确定L个初始视频片段分别对应的语音识别结果，根据背景音频特征确定L个初始视频片段分别对应的背景音识别结果；

片段拼接单元，用于当L个初始视频片段中相邻的两个初始视频片段具有相同的语音识别结果，且相邻的两个初始视频片段具有相同的背景音识别结果时，将相邻的两个初始视频片段进行拼接，得到M个视频片段。

其中，视频片段分析模块包括：

场景特征提取单元，用于在M个视频片段的第t个视频片段中获取关键视频帧，将关键视频帧输入至场景识别模型，在场景识别模型中获取关键视频帧对应的场景特征；t为小于或等于M的正整数；

人脸特征提取单元，用于将关键视频帧输入至人脸识别模型，在人脸识别模型中获取关键视频帧对应的人脸特征；

声纹特征提取单元，用于获取第t个视频片段中的音频数据，对音频数据进行声纹识别，得到音频数据对应的声纹特征，将人脸特征和声纹特征确定为第t个视频片段对应的人物特征；

情节特征提取单元，用于获取第t个视频片段对应的视频字幕信息，对视频字幕信息进行文本分析，得到第t个视频片段对应的情节特征。

其中，声纹特征提取单元包括：

频谱特征生成子单元，用于获取第t个视频片段中的音频数据，对音频数据进行频域变换，生成音频数据对应的频谱特征；

倒谱系数获取子单元，用于将频谱特征转换至倒谱特征，对倒谱特征进行离散余弦变换，得到与频谱特征相对应的倒谱系数，将倒谱系数确定为音频数据对应的声纹特征。

其中，情节特征提取单元包括：

语音识别子单元，用于当第t个视频片段中不存在字幕信息时，对第t个视频片段中的音频数据进行语音识别，得到音频数据对应的音频文本内容，将音频文本内容确定为第t个视频片段对应的视频字幕信息；

文本分析子单元，用于对视频字幕信息进行文本分析，得到视频字幕信息中的语义信息，根据语义信息确定第t个视频片段对应的情节特征。

其中，视频片段串联模块包括：

片段关联特征获取单元，用于将M个视频片段所对应的片段特征输入至关联度模型，在关联度模型中，获取M个视频片段所对应的片段特征之间的片段关联特征；

关联度确定单元，用于根据片段关联特征，确定M个视频片段中的第t个视频片段分别与剩余的(M-1)个视频片段之间的关联度；(M-1)个视频片段为M个视频片段中除第i个视频片段之外的其余视频片段，t为小于或等于M的正整数；

关联关系建立单元，用于若(M-1)个视频片段中存在视频片段与第t个视频片段之间的关联度大于关联阈值，则在(M-1)个视频片段中，将关联度大于关联阈值的视频片段与第t个视频片段之间建立关联关系。

其中，该装置还包括：

描述信息确定模块，用于根据N个视频片段集合分别对应的至少两个不连续的视频片段中的片段特征，确定N个视频片段集合分别对应的角色名称和情节描述信息；

标签设置模块，用于根据角色名称和情节描述信息，分别为N个视频片段集合设置集合标签信息，将每个视频片段集合与对应的集合标签信息进行关联存储。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器与处理器相连，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得该计算机设备执行本申请实施例中上述一方面提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面提供的方法。

本申请实施例可以通过在目标视频的播放页面中显示该目标视频中的N个视频片段集合分别对应的观影标识，每个视频片段集合均可以包括该目标视频中的至少两个不连续的视频片段，N为正整数；通过对N个视频片段集合所对应的观影标识执行触发操作，可以在目标视频的播放页面中对该目标视频中的单个视频片段集合(一个视频片段集合对应目标视频中的一个独立故事线)所对应的多个不连续的视频片段进行跳跃式观影，丰富了目标视频的观影方式，增强了观影过程中针对单个故事线剧情的播放连贯性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方法，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种视频播放场景示意图；

图3是本申请实施例提供的一种视频数据处理方法的流程示意图；

图4是本申请实施例提供的一种目标视频的播放页面的示意图；

图5是本申请实施例提供的一种目标视频的播放页面的示意图；

图6是本申请实施例提供的一种目标视频的播放页面的示意图；

图7是本申请实施例提供的一种视频数据处理方法的流程示意图；

图8是本申请实施例提供的一种视频片段切分的示意图；

图9是本申请实施例提供的一种视频片段特征提取的示意图；

图10是本申请实施例提供的一种视频片段的串联示意图；

图11是本申请实施例提供的一种视频数据处理装置的结构示意图；

图12是本申请实施例提供的一种视频数据处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及人工智能(Artificial Intelligence，AI)技术。人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请具体涉及人工智能技术下属的计算机视觉(Computer Vision，CV)、语音技术以及自然语言处理(Speech Technology)技术。

其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。本申请涉及计算机视觉技术下属的图像场景识别技术和人脸识别技术，通过将视频切分为一系列不同长度的具有一定内聚关联的视频片段，对每个视频片段中的关键视频帧进行场景识别，以获取该关键视频帧所在的视频片段所对应的场景特征；还可以对上述关键视频帧进行人脸识别，以获取该关键视频帧所在的视频片段中的人物所对应的人脸特征(该人脸特征可以是指基于人的脸部特征信息，可以用于身份识别)，此处的场景特征和人脸特征均可以用于后续视频中的故事线串联；其中，关键视频帧可以是指视频片段中包含有丰富的视频信息的视频帧，例如，某个视频片段中的视频帧g包含有视频角色人物、场景等信息，可以将该视频帧g作为关键视频帧。

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。本申请涉及语音技术下属的ASR和声纹识别技术，ASR是一种将人的语音转换为文本的技术，对于没有字幕信息的视频，本申请可以将上述视频的每个视频片段中的音频进行语音识别，得到每个视频片段分别对应的字幕信息；声纹识别技术是指提取说话人声音特征和说话内容信息，确认说话人身份的技术，本申请可以对每个视频片段中的音频进行声纹识别，以获取每个视频片段中的人物所对应的声纹特征，与上述人脸特征一同构成视频片段中的人物特征，该声纹特征同样可以用于后续视频中的故事线串联。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。本申请涉及自然语音处理技术下属的文本处理，通过对视频片段中的字幕信息进行文本分析，以获取视频片段中的情节特征，该情节特征也可以用于后续视频中的故事线串联。总而言之，视频中的故事线串联与上述场景特征、人物特征以及情节特征相关联。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器10d和用户终端集群，用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，多个用户终端具体可以包括用户终端10a、用户终端10b以及用户终端10c等；如图1所示，用户终端10a、用户终端10b以及用户终端10c可以分别与服务器10d进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。

其中，服务器10d可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，用户终端10a、用户终端10b以及用户终端10c均可以包括：智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表、智能手环等)、台式电脑以及智能电视等携带视频数据处理功能(例如，视频播放功能)的智能终端。例如，以图1所示的用户终端10a为例，用户终端10a中可以安装有具有视频播放功能的视频应用(或者视频播放器)，其中，该视频应用可以为手机视频应用，智能电视视频应用、包含视频网站的应用等。当用户A(该用户A可以为用户终端10a的持有者)启动用户终端10a中所安装的视频应用，进入该视频应用的主页后，可以点击目标视频，显示该目标视频对应的播放页面；在该播放页面中可以显示多个观影标识，多个观影标识可以用于指示用户选择观看目标视频的方式，如用户可以选择按照目标视频的正常节奏观影，也可以选择任意一个独立的故事线穿越式观影，这样可以丰富视频的观影方式；其中，本申请中的穿越式观影可以认为是只观影目标视频中的某一个独立故事线所对应的视频片段，而直接跳过其余故事线所对应的视频片段，如目标视频中前5分钟的视频片段属于故事线1，5分钟至10分钟之间的视频片段属于故事线2，后续10分钟至13分钟之间的视频片段仍然属于故事线1；当用户只对目标视频中的故事线1感兴趣时，可以选择目标视频中的故事线1进行观影，在目标视频播放到5分钟时，可以直接将播放进度直接跳转至10分钟处，从10分钟处继续播放故事线1，即无需播放5分钟至10分钟之间的视频片段。

进一步地，请参见图2，图2是本申请实施例提供的一种视频播放场景示意图。如图2所示的用户终端20a可以为上述图1所示的用户集群中所选取的任意一个用户终端，本申请实施例以视频应用为例，对目标视频的观影方式进行具体说明。

如图2所示，用户终端20a的当前显示界面可以为目标视频的播放页面20b，此时播放页面20b中所显示的视频画面为目标视频中的初始视频帧，该播放页面20b中还可以显示故事线提示区域20c、播放进度指示轴20g等信息；其中，播放进度指示轴20g可以用于指示目标视频的播放进度，故事线提示区域20c可以显示目标视频中所包含的多个故事线的观影标识，观影标识可以认为是目标视频中的各故事线的播放入口。例如，目标视频可以为某电视剧中的剧集，该剧集可以包括多个故事线(每个故事线可以为针对特定角色，或者特定事件的故事线)，通过对多个故事线进行穿插融合，可以组成该目标视频所对应的完整故事线。如图2所示，当目标视频中包括人物A故事线、人物B故事线以及人物C故事线时，该目标视频可以认为是人物A故事线、人物B故事线以及人物C等三个故事线穿插融合所组成的完整故事线，因此可以在故事线提示区域20c中显示完整视频故事线、人物A故事线、人物B故事线以及故事线C分别对应的观影标识，如人物B故事线所对应的观影标识可以为播放控件20d。

当用户想要观看完整故事线(即观看完整的目标视频)时，用户可以对完整视频故事线的观影标识(播放控件)执行触发操作，以目标视频的正常节奏进行观影；当用户只想观看目标视频中的某个独立故事线(例如，人物A故事线)时，用户可以对该独立故事线的观影标识(例如，播放控件20d)执行触发操作，对用户所选择的独立故事线进行穿越式观影，等等。

其中，若用户只对目标视频中的人物A故事线感兴趣，则该用户可以对故事线提示区域20c中的播放控件20d(即人物A故事线对应的观影标识)执行触发操作，以在播放页面20b中对人物A故事线进行穿越式观影。当目标视频中的起始视频帧属于用户所选择的人物A故事线时，在用户对上述人物A故事线对应的观影标识(播放控件20d)执行触发操作后，用户终端20a可以响应针对人物A故事线所对应的观影标识的触发操作，在播放页面20b中取消显示故事线提示区域20c，并从目标视频的起始视频帧开始播放人物A故事线所对应的视频内容，即从目标视频的00:00时刻进行播放。

其中，当目标视频开始播放后，播放进度指示轴20g上可以显示针对目标视频的进度指标20f，其中播放页面20b所显示的视频画面中的人物20e可以为人物A故事线所涉及的人物(例如，人物A)。如图2所示，播放进度指示轴20g中的起始位置至位置1之间的视频片段为人物A故事线所对应的视频内容，位置1至位置2之间视频片段为人物B故事线所对应的视频内容，位置2至位置3之间的视频片段同样为人物A故事线所对应的视频内容；当目标视频播放到播放进度指示轴20g中的位置1时，此时播放进度指示轴20g上的进度指针20f可以显示在位置1处，为了在播放页面20b中对人物A故事线所对应的视频片段进行衔接播放，可以将目标视频的播放进度由位置1所处的播放进度跳转至位置2所处的播放进度，即播放进度指示轴20g上的进度指针20f由位置1移动至位置2，从位置2继续播放人物A故事线所对应的视频内容，进度指针20f可以用于指向播放页面20b中正在播放的视频帧。换言之，在播放页面20b中，对于播放进度指示轴20g中起始位置至位置1之间的视频片段，以及位置2至位置2之间的视频片段，可以按照正常节奏进行播放；对于播放进度指示轴20g中位置1和位置2之间的视频片段，可以进行忽略，无需进行播放。

本申请实施例中，用户使用视频应用观看目标视频时，用户可以选择按照正常剧情节奏观看完整的目标视频，也可以选择目标视频中的独立故事线进行穿越式观影，可以丰富目标视频的观影方式；而在用户选择观看独立故事线时，无需用户手动调整目标视频的播放进度，就可以实现对独立故事线进行穿越式观影，可以增强影过程中故事线剧情的播放连贯性。

请参见图3，图3是本申请实施例提供的一种视频数据处理方法的流程示意图。可以理解地，本申请提出视频数据处理方法可以由计算机设备执行，该计算机设备可以为用户终端(如上述图1所对应实施例中的用户终端10a)，或者为服务器(如上述图1所对应实施例中的服务器10d)，或者为用户终端和服务器组成的系统，或者为计算机设备中的一个计算机程序应用(包括程序代码)，这里不做具体限定。如图3所示，该视频数据处理方法可以包括以下步骤S101-步骤S102：

步骤S101，显示目标视频的播放页面，在播放页面中显示目标视频中的N个视频片段集合分别对应的观影标识；每个视频片段集合均包括目标视频中的至少两个不连续的视频片段。

具体的，计算机设备可以安装视频应用或视频播放器，当使用该计算机设备的用户启动该视频应用之后，该计算机设备可以响应视频应用的启动触发操作，启动视频应用，并显示该视频应用中的一个或多个视频数据，此处的一个或多个视频数据可以为视频应用中所包含的电视剧剧集、电影、综艺节目等视频，或者为用户在视频应用中的历史播放视频，或者为视频应用基于用户的历史播放记录所推荐的视频等。

用户可以从视频应用的一个或多个视频数据中选择感兴趣的目标视频进行观影，当用户从一个或多个视频数据中选择任意一个感兴趣的视频数据进行观看时，计算机设备可以响应针对上述一个或多个视频数据的选取操作，在一个或多个视频数据中，将选取操作所确定的视频数据确定为目标视频，并显示该目标视频的播放页面(例如，上述图2所对应实施例中的播放页面20b)，在该播放页面中可以显示目标视频中的N个视频片段集合分别对应的观影标识(例如，上述图2所对应实施例中的播放控件20d)。其中，N可以为正整数，如N可以取值为1，2，……，观影标识可以认为是目标视频中的多个视频片段集合所对应的播放入口，观影标识可以为可触发的功能控件，一个视频片段集合可以认为是目标视频中的一个独立故事线；目标用户可以通过选取N个视频片段集合所对应的观影标识中的任一个观影标识，来观看目标视频中的独立故事线；目标视频中每个独立的故事线均可以包括目标视频中的至少两个不连续的视频片段。

需要特别说明的是，本申请实施例中的视频片段可以是指从目标视频中切割的一段视频，每个视频片段均是由一系列连续的视频帧所组成的，相邻的两个视频片段可以分别属于不同的视频片段集合。其中，若两个连续的视频片段属于同一个视频片段集合，那么可以将这两个连续的视频片段进行拼接，组成一个视频片段，即对于属于同一个视频片段集合的相邻两个视频片段，可以认为是一个重新合并后的视频片段。

可选的，目标视频本身可以认为是将上述N个视频片段集合中所包含的视频片段进行穿插融合所组成的完整故事线，此时可以将目标视频看成是一个完整的视频片段。当然，目标视频中的独立故事线还可能仅包含目标视频中的一个视频片段，如一个视频片段集合可以仅包含一个视频片段。目标视频所对应的完整故事线，以及仅包含一个视频片段的故事线，均可以设置观影标识，上述播放页面中也可以显示完整故事线对应的观影标识，以及仅包含一个视频片段的视频片段集合(故事线)所对应的观影标识。

可选的，目标视频的播放页面中可以显示该目标视频对应的第一集合提示区域，在该第一集合提示区域中可以显示目标视频所包含的每个视频片段集合分别对应的观影标识，具体表现形式如上述图2所对应实施例中的故事线提示区域20c。其中，该第一集合提示区域可以为目标视频的播放页面中的部分区域，或者为独立显示于播放页面的子页面，或者为覆盖播放页面的另一个页面等。

可选的，目标视频的播放页面中还可以包括播放进度指示轴(例如，上述图2所对应实施例中的播放进度指示轴20g)，在该播放进度指示轴上可以显示N个视频片段集合分别对应的观影标识，以及N个视频片段集合中的任一个视频片段集合(第i个视频片段集合，i为小于或等于N的正整数)所对应的至少两个不连续的视频片段，分别在播放进度指示轴上的播放位置。

请一并参见图4，图4是本申请实施例提供的一种目标视频的播放页面的示意图。如图4所示，用户终端30a为用户使用的计算机设备，该用户终端30a的当前显示界面为目标视频的播放页面30b，该播放页面30b正在播放目标视频，该播放页面30b中可以显示目标视频对应的播放进度指示轴30c，该播放进度指示轴30c上可以显示目标视频中所包含的N个视频片段集合分别对应的观影标识(即N个故事线分别对应的观影标识，一个视频片段集合即为一个故事线)；例如，目标视频可以包括3(N＝3)个视频片段集合，该3个视频片段集合可以认为是目标视频中的3个故事线，该3个故事线可以分别表示为故事线1、故事线2、故事线3，每个独立故事线可以对应一个或多个观影标识，且每个故事线所对应的观影标识均是不同的。如图4所示，播放进度指示轴30c中有圆点、正方形、三角形，可以采用圆点表示为故事线1对应的观影标识，一个圆点代表故事线1对应的一个观影标识；采用正方形表示为故事线2对应的观影标识，一个正方形代表故事线2对应的一个观影标识；采用三角形表示为故事线3对应的观影标识，一个三角形代表故事线3对应的一个观影标识。

如图4中的圆点30d、圆点30f、圆点30i以及圆点30k均为故事线1所对应的观影标识，正方形30e、正方形30h均为故事线2所对应的观影标识，三角形30g、三角形30j均为故事线3所对应的观影标识。在播放进度指示轴30c中，圆点30d至正方形30e之间的区域长度、圆点30f至三角形30g之间的区域长度、圆点30i与三角形30j之间的区域长度以及圆点30k与播放进度指示轴30c的末位位置之间的区域长度，可以表示为故事线1所对应的所有视频片段在播放进度指示轴30c中的播放位置；正方形30e与圆点30f之间的区域长度、正方形30h与圆点30i之间的区域长度可以表示为故事线2所对应的所有视频片段在播放进度指示轴30c中的播放位置；三角形30g与正方形30h之间的区域长度、三角形30j与圆点30k之间的区域长度可以表示为故事线3所对应的所有视频片段在播放进度指示轴30c中的播放位置。可以理解的是，播放进度指示轴30c中的观影标识以小圆点、正方形、三角形的形式来呈现只是举例，还存在其他呈现形式，例如：播放进度指示轴30c中的观影标识可以呈现为其他形状(如六边形、不规则多边形等)；再如：播放进度指示轴30c中的观影标识也可以呈现为特殊颜色块(如红色、绿色等)。本申请并不对设置于播放进度指示轴30c中的观影标识的呈现形式进行限定。

可以理解的是，目标视频的播放页面中还可以包括其他内容，包括但不限于：目标视频描述信息(电视剧名称、剧集等)、弹幕信息、弹幕输入框以及其他功能控件，例如清晰度控件、播放倍速控件等，用户可以通过清晰度控件对目标视频的播放画质进行调整，通过播放倍速控件对目标视频的播放速度进行调整。

可选的，当目标视频的播放页面包括播放进度指示轴时，用户可以通过触发播放进度指示轴上的任意一个位置，以显示当前位置所对应视频片段集合的观影提示区域，该观影提示区域可以包含对应视频片段集合的观影标识。当用户在播放页面中的触发点在播放进度指示轴上的坐标位置，处于第i个视频片段集合在播放进度指示轴上的播放位置时，在播放页面中显示第i个视频片段集合的观影提示区域，该第i个视频片段集合所对应的观影标识可以处于第i个视频片段集合的观影提示区域。

可选的，当播放页面中的触发点未处于播放进度指示轴上，且第i个视频片段集合的观影提示区域的显示时长达到时长阈值时，在播放页面中取消显示第i个视频片段集合的观影提示区域。此处，时长阈值可以根据实际情况进行设定，例如设定时长为2秒、5秒等等。通过时长阈值来控制第i个视频片段集合的观影提示区域的显示时长，这样可以避免长时间的提示影响目标视频的播放效果，影响用户的观看体验。

请一并参见图5，图5是本申请实施例提供的一种目标视频的播放页面的示意图。如图5所示，用户终端40a为用户使用的计算机设备，该用户终端40a的当前显示界面为目标视频的播放页面40b，该播放页面40b正在播放目标视频，该播放页面40b中可以显示目标视频对应的播放进度指示轴40c。当播放页面40b正在播放目标视频时，用户可以对播放页面40b执行触发操作，如点击播放页面40b所在区域，当用户在播放页面40b中的接触点处于播放进度指示轴40c上的位置40d时，用户终端40a可以根据位置40d在播放进度指示轴40c中的坐标，确定该位置40d所对应的视频帧所属的故事线(视频片段集合)，例如，位置40d所在的视频帧属于第i个故事线(也可以称为第i个视频片段集合)，则可以在播放页面40b中显示该第i个故事线的观影提示区域40e，该观影提示区域40e可以包含第i个故事线对应的观影标识40f。当用户对观影提示区域40e中的观影标识40f执行触发操作时，用户终端40a可以响应针对观影标识40f的触发操作，在播放页面40b中，从位置40d开始播放第i个故事线所对应的视频片段。该第i个故事线对应的观影提示区域40e的呈现形式可以为多种，例如可呈现为图示的文本框，或者呈现为一个图标；本申请不对观影提示区域40e的呈现形式进行限定，也同样不对观影标识40f的呈现形式进行限定。

当用户在播放页面40b中的接触点移开播放进度指示轴40c所在的位置，或者移开用户终端40a的终端屏幕(即移开播放页面40b)，且观影提示区域40e在播放页面40b中的显示时长达到时长阈值时，取消显示观影提示区域40e。

可选的，N个视频片段集合所包含的每个视频片段均可以对应一个标记，所有标记均可以显示在播放进度指示轴上，所有视频片段所对应的标记的呈现方式可以是相同的，也可以是不同的，这里不对标记的呈现方式进行限定。当用户在播放页面中的触发点位于播放进度指示轴中的任一个标记所在位置(例如，标记a)时，可以显示观影提示区域，并在该观影提示区域中可以显示当前标记(标记a)所对应的视频片段集合的观影标识；当触发点移开上述标记a，且观影提示区域的显示时长达到时长阈值时，取消显示上述观影提示区域。当触发点未处于播放进度指示轴中的任一个标记所在位置时，无法在播放页面中显示观影提示区域。例如，目标视频被划分为视频片段1、视频片段2、视频片段3以及视频片段4，视频片段1和视频片段3属于目标视频中的视频片段集合1，视频片段2和视频片段3属于目标视频中的视频片段集合2，在播放页面的播放进度指示轴中可以显示上述视频片段1、视频片段2、视频片段3以及视频片段4分别对应的标记；当用户在播放页面中的触发点位于视频片段1在播放进度指示轴中的标记所在位置时，可以显示观影提示区域，在该观影提示区域中显示视频片段1所属视频片段集合1的观影标识。

步骤S102，响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第i个视频片段集合所对应的至少两个不连续的视频片段。

具体的，用户可以从播放页面的N个视频片段集合所对应的观影标识中选择任一个观影标识(第i个视频片段集合所对应的观影标识)，进而可以在播放页面中依次播放用户所选择的第i个视频片段集合对应的至少两个不连续的视频片段。当然，第i个视频片段集合所对应的至少两个不连续的视频片段在播放页面中的播放顺序，与上述至少两个不连续的视频片段在目标视频中的排列顺序相同，其中i为小于或等于N的正整数。例如，目标视频按照视频片段集合的不同，可以按照视频播放时间将目标视频依次划分为：视频片段1、视频片段2、视频片段3、视频片段4、视频片段5，视频片段1、视频片段3以及视频片段5均属于目标视频中的视频片段集合1，视频片段2和视频片段4均属于目标视频中的视频片段集合2；当用户选中视频片段集合1所对应的观影标识时，用户无需再次操作，就可以在播放页面中依次播放视频片段1、视频片段3以及视频片段5。

可选的，当一个视频片段集合所对应的观影标识的数量为多个时，若用户想要播放目标视频中的第i个视频片段集合，则该用户可以选中第i个视频片段集合所对应的多个观影标识中的任一个观影标识，此时可以在播放页面中，从用户选中的观影标识开始播放第i个视频片段集合所对应的视频片段。如前述举例，每个视频片段集合所对应的每个视频片段均可以对应一个观影标识，当用户选中视频片段集合中的视频片段3所对应的观影标识时，可以在播放页面中，从视频片段3开始播放，并依次播放视频片段3和视频片段5。

可选的，在播放页面中，第i个视频片段集合所对应的至少两个不连续的视频片段之间的具体播放形式可以包括：假设第i个视频片段集合所对应的至少两个不连续的视频片段可以包括第一视频片段和第二视频片段，第一视频片段的播放顺序早于第二视频片段的播放顺序。当用户对第i个视频片段集合所对应的观影标识执行触发操作时，计算机设备可以响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第一视频片段和第二视频片段之间的播放顺序，播放第一视频片段；当检测到第一视频片段播放结束时，可以从第一视频片段的结束进度跳转至第二视频片段的开始进度，继续播放第二视频片段，具体播放形式如上述图2，这里不再进行赘述。

可选的，第i个视频片段集合所对应的至少两个不连续的视频片段之间的具体播放形式还可以包括：假设目标视频可以包括第一视频片段、第二视频片段以及第三视频片段，第一视频片段和第二视频片段均属于第i个视频片段集合所对应的至少两个不连续的视频片段，第一视频片段的播放顺序早于第二视频片段的播放顺序，第三视频片段位于第一视频片段和第二视频片段之间。当用户对第i个视频片段集合所对应的观影标识执行触发操作时，计算机设备可以响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第一视频片段和第二视频片段之间的播放顺序，播放第一视频片段；当检测到第一视频片段播放结束时，可以将播放页面中的第一视频播放速度切换至第二视频播放速度，以第二视频播放速度播放第三视频片段，其中，第二视频播放速度大于第一视频播放速度；当第三视频片段播放结束时，将第二视频播放速度恢复至第一视频播放速度，以第一视频播放速度继续播放第二视频片段。例如，当用户对第i个视频片段集合所对应的观影标识执行触发操作时，可以在播放页面中以第一视频播放速度(例如，正常播放速度，如1.0倍播放速度)播放第一视频片段，在第一视频片段播放结束后，可以自动将第一视频播放速度切换为第二视频播放速度(例如，3.0倍播放速度、2.5倍播放速度等)，以第三视频播放速度播放第二视频片段，在第三视频片段播放结束后，可以自动将第二视频播放速度恢复至第一视频播放速度，仍然以第一视频播放速度播放第二视频片段。

可选的，当第i个视频片段集合所对应的至少两个不连续的视频片段均播放结束时，可以显示第二集合提示区域，在第二集合提示区域中显示剩余的(N-1)个视频片段集合分别对应的观影标识，其中(N-1)个视频片段集合为N个视频片段集合中除第i个视频片段集合之外的视频片段集合；当用户从(N-1)个视频片段集合分别对应的观影标识中再次选择第j个视频片段集合所对应的观影标识时，计算机设备可以响应针对(N-1)个视频片段集合中的第j个视频片段集合所对应的观影标识的触发操作，按照第j个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第j个视频片段集合所对应的至少两个不连续的视频片段，其中j为小于或等于N的正整数。第j个视频片段集合所对应的至少两个不连续的视频片段之间的播放形式，与上述第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放形式相同，在此不再进行赘述。

请一并参见图6，图6是本申请实施例提供的一种目标视频的播放页面的示意图。如图6所示，用户终端50a为用户使用的计算机设备，该用户终端50a的当前显示界面为目标视频的播放页面50b，该播放页面50b正在播放目标视频，该播放页面50b中可以显示目标视频对应的播放进度指示轴50c，该播放进度指示轴50c中可以由进度指针50d，该进度指针50d可以用于指示播放页面50b中所显示的当前视频帧。

当目标视频播放到播放页面50b中的当前视频帧时，目标视频中第i个故事线(可以称为第i个视频片段集合)所对应的至少两个不连续的视频片段播放结束，此时用户终端50a可以在播放页面中显示故事线提示区域50e(即上述第二集合提示区域)，该故事线提示区域50e中可以显示完整视频故事线对应的观影标识、第j个故事线(可以称为第j个视频片段集合)对应的观影标识50f、第(j+1)个故事线(可以称为第(j+1)个视频片段集合)对应的观影标识，即该故事线提示区域50e可以用于显示目标视频中除第i个故事线之外的其余故事线所对应的观影标识。当用户想要继续观看目标视频中的第j个故事线所对应的视频内容时，用户可以对第j个故事线所对应的观影标识(播放控件50f)执行触发操作，在播放页面50b中播放第j个故事线所对应的所有视频片段。当然，当用户不想要继续观看目标视频中的其余故事线时，可以对故事线提示区域50e中的取消控件执行触发操作，取消显示故事线提示区域50e。

可选的，当第i个视频片段集合所对应的至少两个不连续的视频片段播放结束时，计算机设备还可以在视频应用中继续播放第i个视频片段集合所对应的关联视频，该关联视频和目标视频可以为不同的视频数据。例如，播放页面中当前正在播放的目标视频为电视剧《xx的家》的第一集，当第一集中的角色A视频片段集合(第i个视频片段集合)播放结束时，可以继续播放电视剧《xx的家》的第二集中针对角色A的视频片段，或者可以继续播放饰演角色A的演员所参演的其余电视剧、电影以及综艺等。

可选的，对于目标视频中的N个视频片段集合，用户可以编辑N个视频片段集合分别对应的集合标签信息(也可以称为故事线标签信息)，如用户可以对N个视频片段集合中感兴趣的视频片段集合添加集合标签信息，通过添加集合标签信息，有利于用户通过集合标签信息更为准确地理解该视频片段集合的剧情，方便后续对该视频片段集合进行反复观看。当用户对第i个视频片段集合执行编辑操作时，计算机设备可以响应针对N个视频片段集合中的第i个视频片段集合的编辑操作，将编辑操作所输入的文本内容，确定为第i个视频片段集合所对应的集合标签信息，该集合标签信息可以在播放页面中进行显示。

本申请实施例中，通过在目标视频的播放页面中显示该目标视频中的N个视频片段集合分别对应的观影标识，每个视频片段集合均可以包括该目标视频中的至少两个不连续的视频片段，N为正整数；通过对N个视频片段集合所对应的观影标识执行触发操作，可以在目标视频的播放页面中对该目标视频中的单个视频片段集合所对应的多个不连续的视频片段进行跳跃式观影，丰富了目标视频的观影方式；用户只需对视频片段集合的观影标识执行触发操作，就可以对该视频片段集合的多个视频片段进行依次播放，增强了观影过程中针对单个故事线剧情的播放连贯性，进而增强用户体验。另外，用户通过挑选感兴趣的独立故事线穿越式观影方式，可以节省用户观看不感兴趣的视频内容的时间，进而提升用户感兴趣视频的播放量。

请参见图7，图7是本申请实施例提供的一种视频数据处理方法的流程示意图。可以理解地，本申请提出的视频数据处理方法可以由计算机设备执行，该计算机设备可以为用户终端(如上述图1所对应实施例中的用户终端10a)，或者为服务器(如上述图1所对应实施例中的服务器10d)，或者为用户终端和服务器组成的系统，或者为计算机设备中的一个计算机程序应用(包括程序代码)，这里不做具体限定。如图7所示，该视频数据处理方法可以包括以下步骤S201-步骤S203：

步骤S201，获取目标视频，根据目标视频中的字幕时间间隔，将目标视频划分为M个视频片段；M为正整数。

具体的，对于视频应用中所存储的视频数据，计算机设备均需要对其进行故事线拆分，这样才能在视频应用中为用户提供独立故事线的穿越式观影体验。计算机设备在获取到视频应用中的任一个视频数据(目标视频)后，均可以根据视频的字幕时间间隔、对话声音间隔时间、背景音乐的风格切换，将完整的目标视频切分为M个不同长度的具有一定内聚关联的视频片段，其中，M可以为正整数，如M可以取值为1，2，…。

其中，将目标视频划分为M个视频片段的具体过程可以包括：计算机设备可以获取目标视频中的字幕时间间隔，当字幕时间间隔大于间隔阈值时，对目标视频进行切割，得到L个初始视频片段，其中L为大于或等于M的正整数。进而可以获取L个初始视频片段分别对应的语音特征和背景音频特征，根据语音特征确定L个初始视频片段分别对应的语音识别结果，根据背景音频特征确定L个初始视频片段分别对应的背景音识别结果；当L个初始视频片段中相邻的两个初始视频片段具有相同的语音识别结果，且相邻的两个初始视频片段具有相同的背景音识别结果时，将相邻的两个初始视频片段进行拼接，以得到M个视频片段。

请一并参见图8，图8是本申请实施例提供的一种视频片段切分的示意图。如图8所示，计算机设备在获取到目标视频后，可以利用该目标视频中的字幕时间间隔(也可以称为字幕时间槽，或者字幕时间的间隔槽位)，对该目标视频所对应的时间线进行切分，可以得到10个初始视频片段(此时L＝10)。由于基于字幕时间间隔切分得到的视频切分结果(上述10个初始视频片段)是比较粗糙的，因此计算机设备还可以对基于字幕时间间隔进行切分所得到的10个初始视频片段继续进行处理，以得到更准确地视频片段切分结果。

如图8所示，计算机设备可以对上述10个初始视频片段中相邻的两个初始视频片段分别进行语音识别和背景音识别，通过对相邻的两个初始视频片段的语音识别结果和背景音识别结果进行匹配分析，当相邻的两个初始视频片段语音识别结果和背景音识别结果均相同时，表示相邻的两个初始视频片段中的语音是相同的人物角色所说的话，背景音属于相同的风格，进而可以将相邻的两个初始视频片段进行拼接。例如，可以将目标视频中的初始视频片段7所包含的音频数据依次输入至语音识别模型和背景音识别模型，通过语音识别模型可以获取初始视频片段7对应的语音特征，并输出初始视频片段7对应的语音识别结果；通过背景音识别模型可以获取初始视频片段7对应的背景音特征，并输出初始视频片段7对应的背景音识别结果；同理，初始视频片段8所对应的音频数据同样可以依次输入至语音识别模型和背景音识别模型，通过语音识别模型输出初始视频片段8对应的语音识别结果，通过背景音识别结果输出初始视频片段8对应的背景音识别结果；若初始视频片段7的语音识别结果与初始视频片段8的语音识别结果相同，且初始视频片段7的背景音识别结果与初始视频片段8的背景音识别结果相同，则可以将初始视频片段7和初始视频片段8进行拼接，得到视频片段11。通过语音识别模型和背景音识别模型对10个初始视频片段中的相邻初始视频片段进行匹配后，可以得到9个视频片段(此时的M＝9)。

步骤S202，获取M个视频片段分别对应的场景特征、人物特征以及情节特征，对场景特征、人物特征以及情节特征进行组合，得到M个视频片段分别对应的片段特征。

具体的，计算机设备可以对上述得到的M个视频片段进行分析，通过抓取每个视频片段中的关键视频帧，进而分析关键视频帧中的场景、人物，分析每个视频片段中的对白语音，结合字幕信息，以分析得到每个视频片段分别对应的片段特征。

其中，对于M个视频片段中的任一个视频片段(第t个视频片段，t为小于或等于M的正整数)，计算机设备可以在M个视频片段的第t个视频片段中获取关键视频帧，进而可以将关键视频帧输入至场景识别模型，在场景识别模型中获取关键视频帧对应的场景特征，该场景特征可以用于表征关键视频帧中的场景信息；与此同时，还可以将关键视频帧输入至人脸识别模型，在人脸识别模型中获取关键视频帧对应的人脸特征，该人脸特征可以用于表征关键视频帧中人物的脸部特征信息。计算机设备可以获取第t个视频片段中的音频数据，通过对音频数据进行声纹识别，得到音频数据对应的声纹特征，进而可以将人脸特征和声纹特征确定为第t个视频片段对应的人物特征；获取第t个视频片段对应的视频字幕信息，对视频字幕信息进行文本分析，得到第t个视频片段对应的情节特征。进而可以将第t个视频片段对应的场景特征、人物特征以及情节特征进行组合，得到第t个视频片段对应的片段特征。例如，目标视频为武侠电视剧的剧集时，场景特征可以是指用于描述树林打斗场景的特征，人物特征可以是指用于描述正在打斗的角色人物的人脸特征和声纹特征，情节特征可以是指用于描述打斗起因、打斗双方关系等信息的特征。

可选的，第t个视频片段所对应的声纹特征的提取过程可以包括：计算机设备可以获取第t个视频片段中的音频数据，对音频数据进行频域变换，生成音频数据对应的频谱特征；将频谱特征转换至倒谱特征，对倒谱特征进行离散余弦变换，得到与频谱特征相对应的倒谱系数，将倒谱系数确定为音频数据对应的声纹特征。其中，声纹特征可以是指使用电声学仪器显示的携带语音信息的声波频谱，声纹特征可以包括但不限于：频谱、倒频谱、共振峰、基音、反射系数、谱熵、短时功率谱密度、语谱图、过零率、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)。每个用户的声音都具备独特的特征，这些特征可以跟舌头、喉咙、声带等器官息息相关，与身体状态的健康情况也有关系，由于每个用户的发声器官都是具有特异性的，因此可以根据声纹特征来区分语音数据。倒谱(cepstrum)可以是指一种语音数据的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。

可选的，本申请实施例以梅尔频率倒谱系数为例，对声纹特征的具体提取过程进行具体描述。梅尔频率倒谱系数可以是在梅尔标度频率域提取出来的倒谱参数，梅尔标度描述了人耳频率的非线性特性。由于第t个视频片段中的音频数据包含连续语音，此时的计算机设备可以对第t个视频片段中的音频数据进行预加重处理，得到第t个视频片段中的音频数据对应的补偿语音数据；进而可以将补偿语音数据进行分帧处理，获取补偿语音数据对应的至少两个语音帧片段；计算机设备可以将至少两个语音帧片段进行频域变换，获取补偿语音数据对应的频谱特征，进而可以将频谱特征转换至倒谱特征，对倒谱特征进行离散余弦变换后，可以得到倒谱特征对应的倒谱系数，此时的倒谱系数可以称为梅尔频率倒谱系数，即第t个视频片段中的音频数据对应的声纹特征。

其中，该预加重处理可以用于提升第t个视频片段中的音频数据中的高频部分，使得第t个视频片段中的音频数据的频谱变得平坦，保持在低频到高频的整个频带中，可以采用相同的信噪比来获取频谱；与此同时，预加重处理还可以用于消除发声过程中声带和嘴唇的效应，以补偿第t个视频片段中的音频数据受到发音系统所抑制的高频部分，即可以用于突出第t个视频片段中的音频数据在高频中的共振峰。

可选的，第t个视频片段所对应的情节特征的提取过程可以包括：当第t个视频片段中不存在字幕信息时，对第t个视频片段中的音频数据进行自动语音识别(ASR)处理，得到音频数据对应的音频文本内容，将音频文本内容确定为第t个视频片段对应的视频字幕信息；通过对视频字幕信息进行文本分析，得到视频字幕信息中的语义信息，根据语义信息确定第t个视频片段对应的情节特征。例如，通过对第t个视频片段中的视频字幕信息进行文本处理，将从视频字幕信息中提取到的上下文语义信息，确定为t个视频片段所对应的情节特征。

请一并参见图9，图9是本申请实施例提供的一种视频片段特征提取的示意图。如图9所示，对于M个视频片段中的任一个视频片段(上述第t个视频片段)，计算机设备均需要对其进行特征分析。计算机设备可以获取每个视频片段中的关键视频帧，利用图像识别技术，对关键视频帧进行场景识别和人脸识别，以获取关键视频帧对应的场景特征和人脸特征；计算机设备还可以对每个视频片段的音频数据进行声纹识别，得到每个视频片段分别对应的声纹特征，此时的声纹特征和上述人脸特征可以作为视频片段中的人物特征，在人物特征中引入声纹特征，可以丰富视频片段中的人物特征；计算机设备还可以对每个视频片段中的视频字幕信息进行文本分析，以提取每个视频片段分别对应的情节特征。需要说明的是，若视频片段中没有视频字幕信息，则需要对视频片段中的音频数据进行语音识别，得到音频数据的文本内容，此时的文本内容可以作为视频片段中的视频字幕信息，进而对音频数据的文本内容进行文本分析，可以得到视频片段对应的情节特征。

步骤S203，获取M个视频片段所对应的片段特征之间的关联度，在M个视频片段中，为关联度大于关联阈值的视频片段建立关联关系，将具有关联关系的视频片段进行组合，得到目标视频中的N个视频片段集合；一个视频片段集合中的至少两个不连续的视频片段之间具有关联关系。

具体的，在获取到M个视频片段分别对应的片段特征之后，计算机设备可以获取M个视频片段所对应的片段特征之间的关联度，将关联度大于关联阈值的视频片段之间建立关联关系，具有关联关系的多个视频片段可以串联为一个故事线，即将具有关联关系的多个视频片段组成一个视频片段集合，进而可以得到目标视频中的N个视频片段集合，即一个视频片段集合中的至少两个不连续的视频片段之间具有关联关系。其中，关联阈值可以根据实际需求进行设置，如关联阈值可以为0.75，或者0.8等，本申请不对关联阈值的数值进行限定。

可选的，计算机设备可以将M个视频片段所对应的片段特征输入至关联度模型，在关联度模型中，可以获取M个视频片段所对应的片段特征之间的片段关联特征；根据片段关联特征，确定M个视频片段中的第t个视频片段分别与剩余的(M-1)个视频片段之间的关联度；(M-1)个视频片段为M个视频片段中除第i个视频片段之外的其余视频片段，t为小于或等于M的正整数；若(M-1)个视频片段中存在视频片段与第t个视频片段之间的关联度大于关联阈值，则在(M-1)个视频片段中，将关联度大于关联阈值的视频片段与第t个视频片段之间建立关联关系，具有关联关系的各个视频片段之间可以进行串联，串联起来的各个视频片段可以理解为目标视频中一个独立的故事线。例如，计算机设备可以将每个视频片段分别对应的场景特征、人物特征以及情节特征进行拼接，得到每个视频片段分别对应的片段特征，进而可以将M个片段特征依次输入至关联度模型，在该关联度模型中，可以对每个视频片段所对应的片段特征进行进一步地特征提取，以获取M个片段视频之间的片段关联特征，根据该片段关联特征可以输出M个视频片段中每两个视频片段之间的关联度，将关联度大于关联阈值的视频片段进行串联，以得到目标视频中所包含的所有独立故事线。

举例来说，目标视频中的M个视频片段包括视频片段1、视频片段2、视频片段3、视频片段4、视频片段5，通过将视频片段1、视频片段2、视频片段3、视频片段4以及视频片段5分别对应的片段特征输入至关联度模型，可以得到上述5个视频片段所对应的片段特征之间的片段关联特征，通过该片段关联特征可以输出上述5个视频片段之间的关联度，如视频片段1与视频片段2之间的关联度为：a1，视频片段1与视频片段3之间的关联度为：a2，视频片段1与视频片段4之间的关联度为：a3，视频片段1与视频片段5之间的关联度为：a4，视频片段2与视频片段3之间的关联度为：a5，视频片段2与视频片段4之间的关联度为：a6，视频片段2与视频片段5之间的关联度为：a7，视频片段3与视频片段4之间的关联度为：a8，视频片段3与视频片段5之间的关联度为：a9，视频片段4与视频片段5之间的关联度为：a10；当关联度a2大于关联阈值时，可以为视频片段1与视频片段3之间建立关联关系，当关联度a9大于关联阈值时，可以为视频片段3与视频片段5之间建立关联关系，进而可以确定视频片段1、视频片段3以及视频片段5串联为同一个视频片段集合(故事线)。

可选的，上述关联度模型还可以包括场景识别模型、人物识别模型以及情节识别模型，进而可以将每个视频片段分别对应的场景特征依次输入至场景识别模型，通过该场景识别模型可以输出每个视频片段分别属于各个场景(此处的场景数量可以是指场景识别模型所能识别的所有场景类别)的场景概率值，将最大的场景概率值所对应的场景确定为对应视频片段的场景识别结果；将每个视频片段分别对应的人物特征依次输入至人物识别模型，通过该人物识别模型可以输出每个视频片段分别属于各个视频角色人物(此处的角色人物数量可以是指人物识别模型所能识别的所有角色人物类别)的人物概率值，将最大的人物概率值所对应的角色人物确定为对应视频片段的人物识别结果；将每个视频片段分别对应的情节特征依次输入至情节识别模型，通过该情节识别模型可以输出每个视频片段分别属于各个情节(此处的情节数量可以是指情节识别模型所能识别的所有情节类别)的情节概率值，将最大的情节概率值所对应的情节确定为对应视频片段的情节识别结果。进而可以将M个视频片段中具有相同的情节识别结果、相同的人物识别结果以及相同的场景识别结果的视频片段建立关联关系，将其串联为一个独立的故事线，即将其组合为一个视频片段集合。

如上述举例，视频片段1对应的场景识别结果为：场景1，视频片段2对应的场景识别结果为：场景2，视频片段3对应的场景识别结果为：场景1，视频片段4对应的场景识别结果为：场景2，视频片段5对应的场景识别结果为：场景1；视频片段1对应的人物识别结果为：人物1，视频片段2对应的人物识别结果为：人物2，视频片段3对应的人物识别结果为：人物1，视频片段4对应的人物识别结果为：人物2，视频片段5对应的人物识别结果为：人物1；视频片段1对应的情节识别结果为：情节1，视频片段2对应的情节识别结果为：情节2，视频片段3对应的情节识别结果为：情节1，视频片段4对应的情节识别结果为：情节2，视频片段5对应的情节识别结果为：情节1。由于视频片段1、视频片段3以及视频片段5所对应的场景识别结果、人物识别结果以及情节识别结果均是相同的，因此可以为视频片段1、视频片段3以及视频片段5之间建立关联关系，将视频片段1、视频片段3以及视频片段5串联为一个故事线，即将视频片段1、视频片段3以及视频片段5组合为一个视频片段集合；由于视频片段2和视频片段4所对应的场景识别结果、人物识别结果以及情节识别结果均是相同的，因此可以为视频片段2和视频片段4之间建立关联关系，将视频片段2和视频片段4串联为另一个故事线，即将视频片段2和视频片段4组合成另一个视频片段集合。

请一并参见图10，图10是本申请实施例提供的一种视频片段的串联示意图。如图10所示，目标视频可以被划分为8个视频片段(此处的M＝8)，分别可以表示为片段1，片段2，……，片段8，从每个视频片段中都可以提取相应的片段特征，每个视频片段所对应的片段特征可以包括场景特征、人物特征以及情节特征。如图10所示，上述关联度模型可以包括场景识别模型、人物识别模型以及情节识别模型，通过场景识别模型可以输出8个视频片段分别对应的场景识别结果，通过人物识别模型可以输出8个视频片段分别对应的人物识别结果，通过情节识别模型可以输出8个视频片段分别对应的情节识别结果。其中，场景识别结果、人物识别结果、情节识别结果均可以为概率向量，通过8个视频片段分别对应的场景识别结果、人物识别结果、情节识别结果，可以得到8个视频片段之间有哪些视频片段是相关联的。当片段1、片段3、片段6以及片段8所对应的场景识别结果、人物识别结果、情节识别结果均相同时，可以将片段1、片段3、片段6以及片段8进行串联，得到目标视频中的故事线A(也可以称为视频片段集合A)；当片段2和片段5所对应的场景识别结果、人物识别结果、情节识别结果均相同时，可以将片段2和片段5进行串联，得到目标视频中的故事线B(可以称为视频片段集合B)；当片段4和片段7所对应的场景识别结果、人物识别结果、情节识别结果均相同时，可以将片段4和片段7进行串联，得到目标视频中的故事线C(可以称为视频片段集合C)。

可选的，计算机设备可以根据N个视频片段集合分别对应的至少两个不连续的视频片段中的片段特征，确定N个视频片段集合分别对应的角色名称和情节描述信息；根据角色名称和情节描述信息，分别为N个视频片段集合设置集合标签信息，将每个视频片段集合与对应的集合标签信息进行关联存储。换言之，计算机设备在对目标视频中的视频片段进行串联后，可以获取目标视频中的N个视频片段集合，并根据每个视频片段集合所对应的片段特征，为N个视频片段集合生成相应的集合标签信息，该集合标签信息可以与视频片段集合进行关联存储，也可以展示于视频应用的播放页面中，有利于帮助用户快速理解N个视频片段集合所对应的剧情，进而从N个视频片段集合中快速选出自己感兴趣的视频片段集合进行观影。

本申请实施例中，利用人脸识别、声纹识别、语音识别、场景识别等人工智能技术，将目标视频切分为M个视频片段，再分析各个视频片段之间的关联度，进而获取各个视频片段分别对应片段特征，将具备相同片段特征的视频片段进行串联，拼接组成剧情紧凑的多个故事线，这样就丰富了目标视频的观影方式，增强了观影过程中针对单个故事线剧情的播放连贯性，进而增强用户体验。

进一步地，请参见图11，图11是本申请实施例提供的一种视频数据处理装置的结构示意图。如图11所示，该视频数据处理装置1可以包括：显示模块11，播放模块12；

显示模块11，用于显示目标视频的播放页面，在播放页面中显示目标视频中的N个视频片段集合分别对应的观影标识；每个视频片段集合均包括目标视频中的至少两个不连续的视频片段，N为正整数；

播放模块12，用于响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第i个视频片段集合所对应的至少两个不连续的视频片段；i为小于或等于N的正整数。

其中，显示模块11，播放模块12的具体功能实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S102的描述，这里不再进行赘述。

本申请实施例中，通过在目标视频的播放页面中显示该目标视频中的N个视频片段集合分别对应的观影标识，每个视频片段集合均可以包括该目标视频中的至少两个不连续的视频片段，N为正整数；通过对N个视频片段集合所对应的观影标识执行触发操作，可以在目标视频的播放页面中对该目标视频中的单个视频片段集合(独立故事线)所对应的多个不连续的视频片段进行跳跃式观影，丰富了目标视频的观影方式，增强了观影过程中针对单个故事线剧情的播放连贯性。

请参见图12，图12是本申请实施例提供的一种视频数据处理装置的结构示意图。如图12所示，该视频数据处理装置2可以包括：显示模块21，播放模块22；

显示模块21，用于显示目标视频的播放页面，在播放页面中显示目标视频中的N个视频片段集合分别对应的观影标识；每个视频片段集合均包括目标视频中的至少两个不连续的视频片段，N为正整数；

播放模块22，用于响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第i个视频片段集合所对应的至少两个不连续的视频片段；i为小于或等于N的正整数。

在一些可行的实施方式中，播放页面可以包括播放进度指示轴；

上述显示模块21具体用于：

上述显示模块21还用于：

在一些可行的实施方式中，显示模块21还用于：

其中，显示模块21，播放模块22的具体功能实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S102的描述，这里不再进行赘述。

在一些可行的实施方式中，显示模块21可以包括：视频显示单元211，视频选取单元212，播放页面显示单元213；

视频显示单元211，用于显示一个或多个视频数据；

视频选取单元212，用于响应针对一个或多个视频数据的选取操作，在一个或多个视频数据中，将选取操作所确定的视频数据确定为目标视频；

播放页面显示单元213，用于显示目标视频的播放页面，在播放页面中显示目标视频对应的第一集合提示区域，在第一集合提示区域中显示N个视频片段集合分别对应的观影标识。

其中，视频显示单元211，视频选取单元212，播放页面显示单元213的具体功能实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S102的描述，这里不再进行赘述。

在一些可行的实施方式中，该视频数据处理装置2还可以包括：关联视频播放模块23，标签编辑模块24，集合提示模块25，集合选取模块26；

关联视频播放模块23，用于当第i个视频片段集合所对应的至少两个不连续的视频片段播放结束时，播放第i个视频片段集合所对应的关联视频；关联视频和目标视频为不同的视频数据。

标签编辑模块24，用于响应针对N个视频片段集合中的第i个视频片段集合的编辑操作，将编辑操作所输入的文本内容，确定为第i个视频片段集合所对应的集合标签信息。

集合提示模块25，用于当第i个视频片段集合所对应的至少两个不连续的视频片段播放结束时，显示第二集合提示区域，在第二集合提示区域中显示剩余的(N-1)个视频片段集合分别对应的观影标识；(N-1)个视频片段集合为N个视频片段集合中除第i个视频片段集合之外的视频片段集合；

集合选取模块26，用于响应针对(N-1)个视频片段集合中的第j个视频片段集合所对应的观影标识的触发操作，按照第j个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放第j个视频片段集合所对应的至少两个不连续的视频片段；j为小于或等于N的正整数。

其中，关联视频播放模块23，标签编辑模块24，集合提示模块25，集合选取模块26的具体功能实现方式可以参见上述图3所对应实施例中对步骤S102的描述，这里不再进行赘述。

在一些可行的实施方式中，第i个视频片段集合所对应的至少两个不连续的视频片段包括第一视频片段和第二视频片段，第一视频片段的播放顺序早于第二视频片段的播放顺序；

播放模块22可以包括：第一视频片段播放单元221，第二视频片段播放单元222；

第一视频片段播放单元221，用于响应针对N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在播放页面中，按照第一视频片段和第二视频片段之间的播放顺序，播放第一视频片段；

第二视频片段播放单元222，用于当第一视频片段播放结束时，从第一视频片段的结束进度跳转至第二视频片段的开始进度，继续播放第二视频片段。

在一些可行的实施方式中，目标视频包括第一视频片段、第二视频片段以及第三视频片段，第一视频片段和第二视频片段均属于第i个视频片段集合所对应的至少两个不连续的视频片段，第一视频片段的播放顺序早于第二视频片段的播放顺序，第三视频片段位于第一视频片段和第二视频片段之间；

播放模块22可以包括：第一视频片段播放单元221，播放速度调整单元223，播放速度恢复单元224；

播放速度调整单元223，用于当第一视频片段播放结束时，将播放页面中的第一视频播放速度切换至第二视频播放速度，以第二视频播放速度播放第三视频片段；第二视频播放速度大于第一视频播放速度；

播放速度恢复单元224，用于当第三视频片段播放结束时，将第二视频播放速度恢复至第一视频播放速度，以第一视频播放速度继续播放第二视频片段。

其中，第一视频片段播放单元221，第二视频片段播放单元222，播放速度调整单元223，播放速度恢复单元224的具体功能实现方式可以参见上述图3所对应实施例中对步骤S102的描述，这里不再进行赘述。其中，当第二视频片段播放单元222执行相应的操作时，播放速度调整单元223，播放速度恢复单元224均暂停执行操作；当播放速度调整单元223，播放速度恢复单元224在执行相应的操作时，第二视频片段播放单元222暂停执行操作。

在一些可行的实施方式中，该视频数据处理装置还可以包括：视频切分模块27，视频片段分析模块28，视频片段串联模块29；

视频切分模块27，用于获取目标视频，根据目标视频中的字幕时间间隔，将目标视频划分为M个视频片段；M为正整数；

视频片段分析模块28，用于获取M个视频片段分别对应的场景特征、人物特征以及情节特征，对场景特征、人物特征以及情节特征进行组合，得到M个视频片段分别对应的片段特征；

视频片段串联模块29，用于获取M个视频片段所对应的片段特征之间的关联度，在M个视频片段中，为关联度大于关联阈值的视频片段建立关联关系，将具有关联关系的视频片段进行组合，得到目标视频中的N个视频片段集合；一个视频片段集合中的至少两个不连续的视频片段之间具有关联关系。

其中，视频切分模块27，视频片段分析模块28，视频片段串联模块29的具体功能实现方式可以参见上述图7所对应实施例中对步骤S201-步骤S203的描述，这里不再进行赘述。

在一些可行的实施方式中，视频切分模块27可以包括：视频切割单元271，音频识别单元272，片段拼接单元273；

视频切割单元271，用于获取目标视频中的字幕时间间隔，当字幕时间间隔大于间隔阈值时，对目标视频进行切割，得到L个初始视频片段；L为大于或等于M的正整数；

音频识别单元272，用于获取L个初始视频片段分别对应的语音特征和背景音频特征，根据语音特征确定L个初始视频片段分别对应的语音识别结果，根据背景音频特征确定L个初始视频片段分别对应的背景音识别结果；

片段拼接单元273，用于当L个初始视频片段中相邻的两个初始视频片段具有相同的语音识别结果，且相邻的两个初始视频片段具有相同的背景音识别结果时，将相邻的两个初始视频片段进行拼接，得到M个视频片段。

其中，视频切割单元271，音频识别单元272，片段拼接单元273的具体功能实现方式可以参见上述图7所对应实施例中对步骤S201的描述，这里不再进行赘述。

在一些可行的实施方式中，视频片段分析模块28可以包括：场景特征提取单元281，人脸特征提取单元282，声纹特征提取单元283，情节特征提取单元284；

场景特征提取单元281，用于在M个视频片段的第t个视频片段中获取关键视频帧，将关键视频帧输入至场景识别模型，在场景识别模型中获取关键视频帧对应的场景特征；t为小于或等于M的正整数；

人脸特征提取单元282，用于将关键视频帧输入至人脸识别模型，在人脸识别模型中获取关键视频帧对应的人脸特征；

声纹特征提取单元283，用于获取第t个视频片段中的音频数据，对音频数据进行声纹识别，得到音频数据对应的声纹特征，将人脸特征和声纹特征确定为第t个视频片段对应的人物特征；

情节特征提取单元284，用于获取第t个视频片段对应的视频字幕信息，对视频字幕信息进行文本分析，得到第t个视频片段对应的情节特征。

其中，场景特征提取单元281，人脸特征提取单元282，声纹特征提取单元283，情节特征提取单元284的具体功能实现方式可以参见上述图7所对应实施例中对步骤S202的描述，这里不再进行赘述。

在一些可行的实施方式中，声纹特征提取单元283可以包括：频谱特征生成子单元2831，倒谱系数获取子单元2832；

频谱特征生成子单元2831，用于获取第t个视频片段中的音频数据，对音频数据进行频域变换，生成音频数据对应的频谱特征；

倒谱系数获取子单元2832，用于将频谱特征转换至倒谱特征，对倒谱特征进行离散余弦变换，得到与频谱特征相对应的倒谱系数，将倒谱系数确定为音频数据对应的声纹特征。

其中，频谱特征生成子单元2831，倒谱系数获取子单元2832的具体功能实现方式可以参见上述图7所对应实施例中对步骤S202的描述，这里不再进行赘述。

在一些可行的实施方式中，情节特征提取单元284可以包括：语音识别子单元2841，文本分析子单元2842；

语音识别子单元2841，用于当第t个视频片段中不存在字幕信息时，对第t个视频片段中的音频数据进行语音识别，得到音频数据对应的音频文本内容，将音频文本内容确定为第t个视频片段对应的视频字幕信息；

文本分析子单元2842，用于对视频字幕信息进行文本分析，得到视频字幕信息中的语义信息，根据语义信息确定第t个视频片段对应的情节特征。

其中，语音识别子单元2841，文本分析子单元2842的具体功能实现方式可以参见上述图7所对应实施例中对步骤S202的描述，这里不再进行赘述。

在一些可行的实施方式中，视频片段串联模块29包括：片段关联特征获取单元291，关联度确定单元292，关联关系建立单元293；

片段关联特征获取单元291，用于将M个视频片段所对应的片段特征输入至关联度模型，在关联度模型中，获取M个视频片段所对应的片段特征之间的片段关联特征；

关联度确定单元292，用于根据片段关联特征，确定M个视频片段中的第t个视频片段分别与剩余的(M-1)个视频片段之间的关联度；(M-1)个视频片段为M个视频片段中除第i个视频片段之外的其余视频片段，t为小于或等于M的正整数；

关联关系建立单元293，用于若(M-1)个视频片段中存在视频片段与第t个视频片段之间的关联度大于关联阈值，则在(M-1)个视频片段中，将关联度大于关联阈值的视频片段与第t个视频片段之间建立关联关系。

其中，片段关联特征获取单元291，关联度确定单元292，关联关系建立单元293的具体功能实现方式可以参见上述图7所对应实施例中对步骤S203的描述，这里不再进行赘述。

在一些可行的实施方式中，该视频数据处理装置2可以包括：描述信息确定模块30，标签设置模块31；

描述信息确定模块30，用于根据N个视频片段集合分别对应的至少两个不连续的视频片段中的片段特征，确定N个视频片段集合分别对应的角色名称和情节描述信息；

标签设置模块31，用于根据角色名称和情节描述信息，分别为N个视频片段集合设置集合标签信息，将每个视频片段集合与对应的集合标签信息进行关联存储。

其中，描述信息确定模块30，标签设置模块31的具体功能实现方式可以参见上述图7所对应实施例中对步骤S203的描述，这里不再进行赘述。

本申请实施例中，利用人脸识别、声纹识别、语音识别、场景识别等人工智能技术，将目标视频切分为M个视频片段，再分析各个视频片段之间的关联度，进而获取各个视频片段分别对应片段特征，将具备相同片段特征的视频片段进行串联，拼接组成剧情紧凑的多个故事线，这样就丰富了目标视频的观影方式。另外，通过在目标视频的播放页面中显示该目标视频中的N个视频片段集合(故事线)分别对应的观影标识，每个视频片段集合均可以包括该目标视频中的至少两个不连续的视频片段，N为正整数；通过对N个视频片段集合所对应的观影标识执行触发操作，可以在目标视频的播放页面中对该目标视频中的单个视频片段集合所对应的多个不连续的视频片段进行跳跃式观影，丰富了目标视频的观影方式；用户只需对视频片段集合的观影标识执行触发操作，就可以对该视频片段集合的多个视频片段进行依次播放，增强了观影过程中针对单个故事线剧情的播放连贯性，进而增强用户体验。另外，用户通过挑选感兴趣的独立故事线穿越式观影方式，可以节省用户观看不感兴趣的视频内容的时间，进而提升用户感兴趣视频的播放量。

进一步地，请参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，该计算机设备1000可以为用户终端，例如，上述图1所对应实施例中的用户终端10a，还可以为服务器，例如，上述图1所对应实施例中的服务器10d，这里将不对其进行限制。为便于理解，本申请以计算机设备为用户终端为例，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该计算机设备1000中的网络接口1004还可以提供网络通讯功能，且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3和图7任一个所对应实施例中对视频数据处理方法的描述，也可执行前文图11所对应实施例中对视频数据处理装置1的描述，还可执行前文图12所对应实施例中对视频数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的视频数据处理装置1或者前文提及的视频数据处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3和图7任一个所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3和图7任一个所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

显示目标视频的播放页面，在所述播放页面中显示所述目标视频中的N个视频片段集合分别对应的观影标识；每个视频片段集合均包括所述目标视频中的至少两个不连续的视频片段，N为正整数；

响应针对所述N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在所述播放页面中，按照所述第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放所述第i个视频片段集合所对应的至少两个不连续的视频片段；i为小于或等于N的正整数。

2.根据权利要求1所述的方法，其特征在于，所述显示目标视频的播放页面，在所述播放页面中显示所述目标视频中的N个视频片段集合分别对应的观影标识，包括：

显示一个或多个视频数据；

响应针对所述一个或多个视频数据的选取操作，在所述一个或多个视频数据中，将所述选取操作所确定的视频数据确定为所述目标视频；

显示所述目标视频的播放页面，在所述播放页面中显示所述目标视频对应的第一集合提示区域，在所述第一集合提示区域中显示所述N个视频片段集合分别对应的观影标识。

3.根据权利要求1所述的方法，其特征在于，所述播放页面包括播放进度指示轴；

所述在所述播放页面中显示所述目标视频中的N个视频片段集合分别对应的观影标识，包括：

在所述播放进度指示轴上显示所述N个视频片段集合分别对应的观影标识，以及所述第i个视频片段集合所对应的至少两个不连续的视频片段，分别在所述播放进度指示轴上的播放位置。

4.根据权利要求1所述的方法，其特征在于，所述播放页面包括播放进度指示轴；

所述方法还包括：

当所述播放页面中的触发点在所述播放进度指示轴上的坐标位置，处于所述第i个视频片段集合在所述播放进度指示轴上的播放位置时，在所述播放页面中显示所述第i个视频片段集合的观影提示区域；所述第i个视频片段集合所对应的观影标识处于所述第i个视频片段集合的观影提示区域中。

5.根据权利要求4所述的方法，其特征在于，还包括：

当所述播放页面中的触发点未处于所述播放进度指示轴上，且所述第i个视频片段集合的观影提示区域的显示时长达到时长阈值时，在所述播放页面中取消显示所述第i个视频片段集合的观影提示区域。

6.根据权利要求1所述的方法，其特征在于，还包括：

当所述第i个视频片段集合所对应的至少两个不连续的视频片段播放结束时，播放所述第i个视频片段集合所对应的关联视频；所述关联视频和所述目标视频为不同的视频数据。

7.根据权利要求1所述的方法，其特征在于，所述第i个视频片段集合所对应的至少两个不连续的视频片段包括第一视频片段和第二视频片段，所述第一视频片段的播放顺序早于所述第二视频片段的播放顺序；

所述响应所述N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在所述播放页面中，按照所述第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放所述第i个视频片段集合所对应的至少两个不连续的视频片段，包括：

响应针对所述N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在所述播放页面中，按照所述第一视频片段和所述第二视频片段之间的播放顺序，播放所述第一视频片段；

当所述第一视频片段播放结束时，从所述第一视频片段的结束进度跳转至所述第二视频片段的开始进度，继续播放所述第二视频片段。

8.根据权利要求1所述的方法，其特征在于，所述目标视频包括第一视频片段、第二视频片段以及第三视频片段，所述第一视频片段和所述第二视频片段均属于所述第i个视频片段集合所对应的至少两个不连续的视频片段，所述第一视频片段的播放顺序早于所述第二视频片段的播放顺序，所述第三视频片段位于所述第一视频片段和所述第二视频片段之间；

当所述第一视频片段播放结束时，将所述播放页面中的第一视频播放速度切换至第二视频播放速度，以所述第二视频播放速度播放所述第三视频片段；所述第二视频播放速度大于所述第一视频播放速度；

当所述第三视频片段播放结束时，将所述第二视频播放速度恢复至所述第一视频播放速度，以所述第一视频播放速度继续播放所述第二视频片段。

9.根据权利要求1所述的方法，其特征在于，还包括：

当所述第i个视频片段集合所对应的至少两个不连续的视频片段播放结束时，显示第二集合提示区域，在所述第二集合提示区域中显示剩余的(N-1)个视频片段集合分别对应的观影标识；所述(N-1)个视频片段集合为所述N个视频片段集合中除所述第i个视频片段集合之外的视频片段集合；

响应针对所述(N-1)个视频片段集合中的第j个视频片段集合所对应的观影标识的触发操作，按照所述第j个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放所述第j个视频片段集合所对应的至少两个不连续的视频片段；所述j为小于或等于N的正整数。

10.根据权利要求1所述的方法，其特征在于，还包括：

响应针对所述N个视频片段集合中的第i个视频片段集合的编辑操作，将所述编辑操作所输入的文本内容，确定为所述第i个视频片段集合所对应的集合标签信息。

11.根据权利要求1所述的方法，其特征在于，还包括：

获取所述目标视频，根据所述目标视频中的字幕时间间隔，将所述目标视频划分为M个视频片段；M为正整数；

获取所述M个视频片段分别对应的场景特征、人物特征以及情节特征，对所述场景特征、所述人物特征以及所述情节特征进行组合，得到所述M个视频片段分别对应的片段特征；

获取所述M个视频片段所对应的片段特征之间的关联度，在所述M个视频片段中，为关联度大于关联阈值的视频片段建立关联关系，将具有所述关联关系的视频片段进行组合，得到所述目标视频中的所述N个视频片段集合；一个视频片段集合中的至少两个不连续的视频片段之间具有所述关联关系。

12.根据权利要求11所述的方法，其特征在于，所述根据所述目标视频中的字幕时间间隔，将所述目标视频划分为M个视频片段，包括：

获取所述目标视频中的字幕时间间隔，当所述字幕时间间隔大于间隔阈值时，对所述目标视频进行切割，得到L个初始视频片段；L为大于或等于M的正整数；

获取所述L个初始视频片段分别对应的语音特征和背景音频特征，根据所述语音特征确定所述L个初始视频片段分别对应的语音识别结果，根据所述背景音频特征确定所述L个初始视频片段分别对应的背景音识别结果；

当所述L个初始视频片段中相邻的两个初始视频片段具有相同的语音识别结果，且所述相邻的两个初始视频片段具有相同的背景音识别结果时，将所述相邻的两个初始视频片段进行拼接，得到所述M个视频片段。

13.根据权利要求11所述的方法，其特征在于，所述获取所述M个视频片段分别对应的场景特征、人物特征以及情节特征，包括：

在所述M个视频片段的第t个视频片段中获取关键视频帧，将所述关键视频帧输入至场景识别模型，在所述场景识别模型中获取所述关键视频帧对应的场景特征；t为小于或等于M的正整数；

将所述关键视频帧输入至人脸识别模型，在所述人脸识别模型中获取所述关键视频帧对应的人脸特征；

获取所述第t个视频片段中的音频数据，对所述音频数据进行声纹识别，得到所述音频数据对应的声纹特征，将所述人脸特征和所述声纹特征确定为所述第t个视频片段对应的人物特征；

获取所述第t个视频片段对应的视频字幕信息，对所述视频字幕信息进行文本分析，得到所述第t个视频片段对应的情节特征。

14.根据权利要求13所述的方法，其特征在于，所述获取所述第t个视频片段中的音频数据，对所述音频数据进行声纹识别，得到所述音频数据对应的声纹特征，包括：

获取所述第t个视频片段中的音频数据，对所述音频数据进行频域变换，生成所述音频数据对应的频谱特征；

将所述频谱特征转换至倒谱特征，对所述倒谱特征进行离散余弦变换，得到与所述频谱特征相对应的倒谱系数，将所述倒谱系数确定为所述音频数据对应的声纹特征。

15.根据权利要求13所述的方法，其特征在于，所述获取所述第t个视频片段对应的视频字幕信息，对所述视频字幕信息进行文本分析，得到所述第t个视频片段对应的情节特征，包括：

当所述第t个视频片段中不存在字幕信息时，对所述第t个视频片段中的音频数据进行语音识别，得到所述音频数据对应的音频文本内容，将所述音频文本内容确定为所述第t个视频片段对应的视频字幕信息；

对所述视频字幕信息进行文本分析，得到所述视频字幕信息中的语义信息，根据所述语义信息确定所述第t个视频片段对应的情节特征。

16.根据权利要求11所述的方法，其特征在于，所述获取所述M个视频片段所对应的片段特征之间的关联度，在所述M个视频片段中，为关联度大于关联阈值的视频片段建立关联关系，包括：

将所述M个视频片段所对应的片段特征输入至关联度模型，在所述关联度模型中，获取所述M个视频片段所对应的片段特征之间的片段关联特征；

根据所述片段关联特征，确定所述M个视频片段中的第t个视频片段分别与剩余的(M-1)个视频片段之间的关联度；所述(M-1)个视频片段为所述M个视频片段中除所述第i个视频片段之外的其余视频片段，t为小于或等于M的正整数；

若所述(M-1)个视频片段中存在视频片段与所述第t个视频片段之间的关联度大于所述关联阈值，则在所述(M-1)个视频片段中，将关联度大于所述关联阈值的视频片段与所述第t个视频片段之间建立关联关系。

17.根据权利要求9所述的方法，其特征在于，还包括：

根据所述N个视频片段集合分别对应的至少两个不连续的视频片段中的片段特征，确定所述N个视频片段集合分别对应的角色名称和情节描述信息；

根据所述角色名称和所述情节描述信息，分别为所述N个视频片段集合设置集合标签信息，将每个视频片段集合与对应的集合标签信息进行关联存储。

18.一种视频数据处理装置，其特征在于，包括：

显示模块，用于显示目标视频的播放页面，在所述播放页面中显示所述目标视频中的N个视频片段集合分别对应的观影标识；每个视频片段集合均包括所述目标视频中的至少两个不连续的视频片段，N为正整数；

播放模块，用于响应针对所述N个视频片段集合中的第i个视频片段集合所对应的观影标识的触发操作，在所述播放页面中，按照所述第i个视频片段集合所对应的至少两个不连续的视频片段之间的播放顺序，依次播放所述第i个视频片段集合所对应的至少两个不连续的视频片段；i为小于或等于N的正整数。

19.一种计算机设备，其特征在于，包括存储器和处理器；

所述存储器与所述处理器相连，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-17任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-17任一项所述的方法。