CN113012723A

CN113012723A - 多媒体文件播放方法、装置、电子设备

Info

Publication number: CN113012723A
Application number: CN202110244875.6A
Authority: CN
Inventors: 胡书杰; 孙甲申; 张伟鹏; 宋超
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-22
Anticipated expiration: 2041-03-05
Also published as: CN113012723B

Abstract

本申请公开了一种多媒体文件播放方法，属于计算机技术领域，有助于提升多媒体文件播放的灵活度。所述方法包括：确定构成多媒体文件的若干片段；确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系；根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径；基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放。本申请实施例公开的多媒体文件播放方法，通过基于片段之间的播放关系和片段类型进行多媒体文件重构，并以片段为播放单元，进行可配置播放，提升了多媒体文件交互播放的灵活度。

Description

多媒体文件播放方法、装置、电子设备

技术领域

本申请实施例涉及计算机技术领域，特别是涉及一种多媒体文件播放方法、装置、电子设备及计算机可读存储介质。

背景技术

随着音频文件和视频文件处理技术的发展，对音频文件或视频文件等多媒体文件进行交互播放的需求日益强烈。应运而生的，出现了交互视频等多媒体文件形式。例如，视频播放软件支持跳过广告，直接定位到播放多媒体文件的片头。再例如，视频播放软件通过获取视频文件携带的知识库信息，根据用户的播放需求与知识库中知识点匹配结果，进行视频播放。

然而，现有技术中视频文件携带的知识库信息是人工根据视频内容设置的，交互播放的灵活度较低。

发明内容

本申请实施例提供一种多媒体文件播放方法，有助于提升多媒体文件交互播放的灵活度。

第一方面，本申请实施例提供了一种多媒体文件播放方法，包括：

确定构成多媒体文件的若干片段；

确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系；

根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径；

基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放。

第二方面，本申请实施例提供了一种多媒体文件播放装置，包括：

构成片段确定模块，用于确定构成多媒体文件的若干片段；

片段类型及播放关系确定模块，用于确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系；

重构模块，用于根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径；

交互播放模块，用于基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的多媒体文件播放方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的多媒体文件播放方法的步骤。

本申请实施例公开的多媒体文件播放方法，通过确定构成多媒体文件的若干片段；确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系；根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径；基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放，有助于提升多媒体文件交互播放的灵活度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例一的多媒体文件播放方法流程图；

图2是本申请实施例一的多媒体文件播放方法另一流程图；

图3是本申请实施例二的多媒体文件播放装置结构示意图之一；

图4是本申请实施例二的多媒体文件播放装置结构示意图之二；

图5示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图6示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请实施例公开的一种多媒体文件播放方法，如图1所示，所述方法包括：步骤110至步骤140。

步骤110，确定构成多媒体文件的若干片段。

本申请实施例中所述的多媒体文件可以为进包括音频数据的音频文件，也可以视频文件，其中，所述视频文件中通常包括音频数据。

本申请的一些实施例中，在对多媒体文件进行交互播放之前，首先将多媒体文件分割为若干可以独立播放的，场景相对完整的若干片段，之后，基于若干片段重构片段序列，通过对重构后得到的片段序列进行交互播放，实现多媒体文件的交互播放。

本申请的一些实施例中，所述确定构成多媒体文件的若干片段，包括：基于语句信息和/或镜头连续性，确定多媒体文件的若干候选分割点；确定根据所述候选分割点对所述多媒体文件进行划分得到的若干连续细分片段；对所述若干连续细分片段进行合并处理，得到用于独立播放的片段。例如，可以根据多媒体文件匹配的音频数据中的语句信息，确定多媒体文件的若干候选分割点；或者，根据多媒体文件匹配的视频图像帧中图像内容的镜头连续性数据，确定多媒体文件的若干候选分割点；或者，结合多媒体文件匹配的音频数据中的语句信息，以及，多媒体文件匹配的视频图像帧中图像内容的镜头连续性数据，确定多媒体文件的若干候选分割点。

本申请的一些实施例中，所述基于语句信息和/或镜头连续性，确定多媒体文件的若干候选分割点，包括：根据对多媒体文件的音频数据进行语音识别得到的若干语句，确定所述多媒体文件中各语句对应的分割点位置区间；响应于所述多媒体文件为视频文件，根据所述多媒体文件的视频图像帧中图像内容的镜头连续性，确定所述多媒体文件的若干视频分割点；响应于所述多媒体文件为视频文件，将所述若干视频分割点对齐至所述分割点位置区间内，得到与各所述视频分割点对应的若干第一候选分割点；对于每个所述分割点位置区间，根据所述分割点位置区间内所述第一候选分割点的分布情况，确定所述分割点位置区间内的第二候选分割点；将所述第一候选分割点和所述第二候选分割点作为候选分割点，并对时间间隔或视频图像帧间隔小于相应间隔阈值的所述候选分割点进行合并处理。

本申请的一些实施例中，每个所述分割点位置区间对应所述多媒体文件中的一个播放时间范围，例如，每个所述分割点位置区间对应相应语句在所述多媒体文件中的播放起始时间和所述相应语句的前一语句在所述多媒体文件中的播放结束时间之间的时间段范围。本申请的一些实施例中，每个所述第一候选分割点对应所述多媒体文件中的一个播放时间点，例如，每个所述第一候选分割点对应相应场景镜头的起始视频图像帧在所述多媒体文件中的播放时间。

通常情况下，视频文件中包括音频数据，因此，本申请的实施例中，首先基于多媒体文件的音频数据确定多媒体文件中的分割点位置区间。例如，首先采用语音识别技术识别出多媒体文件的音频数据对应的文本、并断句，得到若干个句子构成的句子序列，然后，将每个句子对应的音频数据的匹配的多媒体文件内容作为一个细分片段。本领域技术人员应当理解，按照语句划分得到的两个相邻细分片段之间是语句的停顿处，对应一段没有语音的多媒体文件。即相邻语句之间的任意一个多媒体文件位置都可以作为分割点，从而将多媒体文件分割为与每个语句对应的细分片段。因此，本申请的实施例中，可以取前一个句子的结束位置和下一个语句的开始位置之间的多媒体文件位置，作为这两个相邻句子对应的分割点位置区间。

本申请的另一些实施例中，还可以根据多媒体文件附带的字幕文件，确定所述多媒体文件中的分割点位置区间。通常情况下，在人工制作字幕文件的过程中，字幕文件中会记录句子及其起止时间，因此，通过对字幕文件进行解析，根据字幕文件中句子的起止时间可以确定每个句子对应的多媒体文件位置，从而可以参照上述方法确定多媒体文件中的所有分割点位置区间。

例如，位于相邻两句话之间的停顿时刻的每个播放时间点都可以作为一个分割点，那么，如果多媒体文件的播放时间t1至t2之间为句子停顿时刻，则可以选择播放时间t1至t2之间的一个播放时间点作为候选分割点时，即可以确定该播放时间t1至t2的播放时间范围作为一个分割点位置区间。

而对于视频文件，除了基于多媒体文件中的语句信息确定细分片段之外，为了提升确定细分片段的准确度，还需要基于视频图像内容的镜头连续性确定细分片段。例如，可以采用现有技术中的镜头分割算法(比如基于像素的镜头分割算法、基于直方图的镜头分割算法等)对多媒体文件的视频数据进行处理，得到若干个分割点(即视频分割点)。根据若干个视频分割点，可以确定多媒体文件中按照另外一种分割方法得到的多个细分片段，例如，不同场景的视频图像帧作为视频分割点，每个场景的连续视频图像帧将被分割至一个细分片段。

当多媒体文件仅包括音频数据时，不存在视频分割点，可以直接在根据语句信息确定的每个分割点位置区间中确定一个或多个候选分割点。当多媒体文件既包括音频数据又包括视频数据时，则为了提升多媒体文件片段划分的准确性，可以进一步对按照不同策略确定的视频分割点和分割点位置区间进行对齐处理，过滤掉不合理的视频分割点。

本申请的一些实施例中，所述将所述若干视频分割点对齐至所述分割点位置区间内，得到与各所述视频分割点对应的若干第一候选分割点，包括：对于位于任意一所述分割点位置区间之内的所述视频分割点，将所述视频分割点确定为第一候选分割点；对于位于所有所述分割点位置区间之外的所述视频分割点，在与所述视频分割点相邻的两个所述分割点位置区间内分别确定一个第一候选分割点。

如前所述，分割点位置区间标识两段语音之间的停顿处，而视频分割点是基于视频内容的镜头连续性确定的。当多媒体文件中两句话中间的停顿处出现了镜头场景切换，则按照视频图像内容确定多媒体文件中的分割点时，在这两句话中间的多媒体文件位置将会确定一个视频分割点，如果按照视频分割点对多媒体文件进行细分片段划分，多媒体文件中这两句话对应的内容将被划分至两个细分片段，即该视频分割点可以作为多媒体文件的一个第一候选分割点，作为一个候选分割点。

而当多媒体文件中一句话播放的过程中出现了镜头场景切换，则按照视频图像内容确定多媒体文件中的分割点时，在这句话中间的多媒体文件中将会确定一个视频分割点，如果按照视频分割点对多媒体文件进行细分片段划分，多媒体文件中该句话对应的内容将被划分至两个细分片段，这是不合理的。因此，本申请实施例中，当某个视频分割点对应的播放时间不在任意一个分割点对应的分割点位置范围之内时，需要进一步遍历前述步骤确定的分割点位置区间，并确定在该视频分割点对应的多媒体文件位置之前的最近一个分割点位置区间，和在该视频分割点对应的多媒体文件位置之后的最近一个分割点位置区间，之后，分别在这两个分割点位置区间之内确定一个合适的第一候选分割点，作为两个候选分割点。

本申请的一些实施例中，当相邻两个分割点位置区间之间出现了多个视频分割点(如一句话中间出现了多个场景的镜头)时，可以仅选择其中一个视频分割点对齐至上述相邻的两个分割点位置区间内，而忽略其他视频分割点。

本申请的一些实施例中，对于每个所述分割点位置区间，根据所述分割点位置区间内所述第一候选分割点的分布情况，确定所述分割点位置区间内的第二候选分割点，包括：响应于所述分割点位置区间内不包含所述第一候选分割点，在所述分割点位置区间确定间隔预设时间间隔阈值的一个或多个第二候选分割点；响应于所述分割点位置区间内包含所述第一候选分割点且所述分割点位置区间内的指定位置子区间大于或等于预设时长阈值，则在所述指定位置子区间中确定间隔预设时间间隔阈值的一个或多个第二候选分割点。

其中，所述指定位置子区间为相应分割点位置区间内包含的所述第一候选分割点与所述相应分割点位置区间边界确定的最大位置区间。以某一分割点位置区间A对应多媒体文件1分0秒至5分30秒的播放位置区间为例，分割点位置区间A可以表示为1分0秒至5分30秒，当确定该分割点位置区间A中5分0秒的位置为一个第一候选分割点之后，第一候选分割点将分割点位置区间A分为两个播放位置区间，区间大小分别为4分钟和30秒，其中，区间大小为4分钟(即多媒体文件1分0秒至5分0秒之间)的播放位置区间即是分割点位置区间A的指定位置子区间。

例如，对于多媒体文件中同一场景内容的连续若干视频图像帧，在没有发生场景镜头切换的情况下，按照视频内容确定视频分割点时，在这连续若干视频图像帧中将不会确定视频分割点，但是，如果这连续若干视频图像帧对应两句话，且两句话之间停顿了1分钟，那么，根据语句信息，将确定一个对应这两句话之间的多媒体文件位置的分割点位置区间，而这一分割点位置区间中，没有视频分割点。在这种情况下，可以在多媒体文件中对应分割点位置区间内，确定一个第二候选分割点。例如，将该分割点位置区间的中间位置确定为一个第二候选分割点。本申请的一些实施例中，为了提高片段划分的精确度，如果该分割点位置区间较长，可以在所述分割点位置区间内确定两个或多个分割点。例如，在所述分割点位置区间内每间隔1分钟的播放时长确定1个分割点，从而将两句话之间的多媒体文件分割为时长1分钟的片段。

本申请的另一些实施例中，如果在两句话之间停顿时间较长，即对应这两句话之间的多媒体文件的分割点位置区间较长，如为5分钟，即使经过对视频分割点进行对齐处理后，在该分割点位置区间内确定了一个第一候选分割点(例如将该分割点位置区间最后半分钟的位置确定为一个第一候选分割点)，但是，该第一候选分割点与所述分割点位置区间的一个边界(如起始位置)之间，的播放时长较长(如4分30秒)，则还需要在这4分30秒的分割点位置区间内每间隔预设时间间隔阈值(如1分钟)确定一个第二候选分割点，使得可以将多媒体文件划分为更细粒度的细分片段。

在按照上述一种或多种方法对视频分割点和分割点位置区间进行对齐处理之后，得到可以作为候选分割点的第一候选分割点和第二候选分割点的集合。

本申请的一些实施例中，对于进行对齐处理后得到的候选分割点，可以进一步根据相邻的候选分割点之间的播放时间间隔或者视频图像帧数间隔对候选分割点进行优化筛选。例如，删除播放时间间隔小于10秒钟的候选分割点，或者，删除间隔图像帧小于200帧的候选分割点。通过基于时间间隔或视频图像帧间隔对候选分割点进行滤除处理，可以减少数据处理量，提升多媒体文件的片段处理效率。

在确定了多媒体文件的若干候选分割点之后，按照所述候选分割点对所述多媒体文件进行细分片段划分，相邻两个所述候选分割点之间的多媒体文件内容构成一个细分片段。

如前所述，细分片段是基于单个语句或场景镜头进行划分的，一个多媒体文件将得到成千上万个细分片段，不利于进行交互播放，因此，需要将划分得到的细分片段进一步合并为相对完整、适合独立播放的片段。下面举例阐述本申请实施例中可用的两种细分片段合并方法。

第一种，基于时间间隔合并。

本申请的另一些实施例中，对所述若干连续细分片段进行合并处理，得到用于独立播放的片段，包括：对细分片段的播放时间间隔小于预设第二时长阈值的连续细分片段进行合并处理，得到用于独立播放的片段。多媒体文件中的每个细分片段都匹配一个播放时间(如该细分片段在多媒体文件中的播放时间偏移)，在具体实施过程中，例如，可以将播放时间间隔在1分钟之内的一个或多个连续的细分片段合并为一个片段。

第二种，基于细分片段特征合并。

本申请的一些实施例中，为了提升多媒体片段的内容完整性，所述对所述若干连续细分片段进行合并处理，得到用于独立播放的片段，包括：通过预先训练的第三神经网络，根据所述若干连续细分片段中每个细分片段匹配的细分片段特征，识别所述若干连续细分片段中的起始细分片段；其中，所述细分片段特征包括以下一项或多项：视频内容特征、音频语义特征、时间戳特征，以及，多媒体文件标题特征、多媒体文件描述特征，所述起始细分片段为独立场景的首个细分片段；将相邻两个所述起始细分片段之间的所述细分片段，与所述相邻两个所述起始细分片段中的前一个所述起始细分片段，合并为用于独立播放的片段。

本申请的一些实施例中，可以基于预先标注的细分片段序列样本，通过有监督训练的方式预先训练神经网络模型(即第三神经网络)，其中，训练样本的样本数据为多个细分片段组成的细分片段序列的细分片段序列特征，所述细分片段序列特征通过所述细分片段序列中各细分片段的细分片段特征拼接而成；训练样本的样本标签为所述样本数据对应的细分片段序列中每个细分片段是否为该细分片段序列描述的场景中某一场景的起始细分片段的标签。

以由序号为细分片段1至10共10个细分片段组成的细分片段序列s 1为例，假设序号为细分片段1至10这10个细分片段描述了同一个场景，且序号为1的细分片段为该场景中第一个细分片段，则组成的细分片段序列s1根据细分片段序列s1构建的训练样本中，样本数据为序号为1至10的细分片段中每个细分片段的视频内容特征、音频语义特征、时间戳特征拼接得到的特征序列；样本标签为序号为1至10的细分片段是否为描述该场景的首个细分片段的标签，例如表示为“(1，0，0，0，0，0，0，0，0，0)”，其中“1”表示该细分片段序列中第一个细分片段为描述该场景的首个细分片段。本申请的一些实施例中，每个细分片段的视频内容特征、音频语义特征、时间戳特征可以采用现有技术中的相应的特征提取方式从该细分片段的音频数据、视频数据或字幕文件中提取，本申请实施例中不再赘述。

在模型(即第三神经网络)应用过程中，对于待合并的多个连续细分片段，采用模型训练时相应的特征提取方式分别提取每个细分片段的相应细分片段特征之后，按照细分片段的先后顺序将个细分片段的细分片段特征进行拼接，得到模型的输入特征，之后，将得到的模型输入特征输入至训练好的模型(即第三神经网络)中，得到的模型输出即为与输入特征对应的细分片段序列中相应细分片段是描述某一场景的起始细分片段的概率。

按照上述方法可以确定前述步骤划分得到的每个细分片段是描述某一场景的起始细分片段的概率，进一步的，根据所述概率即可确定前述步骤划分得到的细分片段中，描述各场景的所有起始细分片段。之后，从第一个起始细分片段起，将该起始细分片段和第二个起始细分片段之前的所有细分片段，合并为第一个片段；将第二个起始细分片段和第三个起始细分片段之前的所有细分片段，合并为第二个片段；…，依此类推，得到合并后的若干片段。由前述描述可知，合并后的到的每个片段是描述独立场景的片段，因此可以用独立播放，能够表达相对完整的内容。

本申请的一些实施例中，确定根据所述候选分割点对所述多媒体文件进行划分得到的若干连续细分片段之后，还包括：展示所述若干连续细分片段；响应于对所述连续细分片段的编辑操作，更新所述编辑操作针对的所述细分片段。例如，可以在交互界面内以首尾连接的色条表示对多媒体文件划分得到的连续细分片段，从而展示对多媒体文件进行划分得到的结果，其中，每个色条对应一个细分片段。之后，响应于对任意一色条边界的调整操作，调整该色条边界关联的两个色条分别对应的细分片段。本申请的另一些实施例中，还可以根据特征的编辑操作，对细分片段进行合并处理。

本申请的一些实施例中，对所述若干连续细分片段进行合并处理，得到用于独立播放的片段之后，还包括：展示用于独立播放的片段；响应于对所述片段的编辑操作，更新构成所述多媒体文件的片段。例如，根据对合并后得到的片段的合并操作，对相关片段进行合并处理。再例如，根据对合并后得到的片段边界的调整操作，对相关片段的分割点进行调整。

通过允许人工编辑细分片段划分结果和合并后得到的片段的分割点，调整自动分段结果，可以得到更加符合期望的分段结果。

步骤120，确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系。

在确定了构成多媒体文件的若干片段之后，为了便于根据用户的配置对多媒体文件进行播放，本申请实施例中，需要进一步以片段为一基本单元对多媒体文件进行重构。例如，将多媒体文件重构为主干内容和分支内容的结构。

本申请的一些实施例中，前述步骤确定的构成给多媒体文件的所述片段包括两大类型：主干片段和分支片段，其中，主干片段指描述主干内容的片段，分支片段指描述分支内容的片段。本申请的一些实施例中，分支片段进一步包括多个子片段类型。例如，分支片段进一步包括：附加解释片段、无关插播片段、转场片段中一种或多种片段子类型。

本申请的一些实施例中，所述确定每个所述片段匹配的片段类型为主干片段或分支片段，包括：根据每个所述片段的预设第一片段特征和所述多媒体文件的文件特征，通过预先训练的第一神经网络，分别预估所述片段匹配主干片段和/或分支片段的概率；根据每个所述片段匹配主干片段的所述概率各自与预设主干片段概率阈值的比较结果，分别确定每个所述片段匹配的片段类型为主干片段或分支片段。其中，所述第一神经网络可以为基于带有标注的训练数据采用有监督训练方式预先训练的神经网络模型。本申请的一些实施例中，所述文件特征包括但不限于以下任意一项或两项：标题特征、描述特征；本申请的一些实施例中，所述预设第一片段特征包括但不限于以下任意一项或多项：视频图像特征、时间戳特征、音频语义特征。

例如，可以预先根据多媒体文件构建第一神经网络训练样本，根据某一多媒体文件中的主干情节的若干片段分别构建对应主干片段的样本数据，根据该多媒体文件中的分支情节的若干片段分别构建对应分支片段的样本数据，并对对应主干片段的训练数据和对应分支片段的训练数据分别设置不同的片段类型标签作为样本标签，从而得到对应主干片段的若干训练样本和对应分支片段的若干训练样本。之后，基于得到的若干训练样本训练二分类神经网络模型，从而得到第一神经网络。基于得到的若干训练样本训练二分类神经网络模型的具体实施方式参见现有技术，本申请实施例中不再赘述。

本申请的一些实施例中，在构建训练第一神经网络的训练样本时，样本数据可以包括相应训练样本对应的多媒体文件片段的视频图像特征(如人物特征、场景特征)、时间戳特征(如时间戳)、音频语义特征(如音频中的关键词特征、背景音乐旋律特征、音频匹配的人物角色标识、字幕文件中的关键词)，以及，所述多媒体文件的文件特征(如标题特征、描述特征)。其中，标题特征、描述特征、视频图像特征、时间戳特征、音频语义特征可以采用现有技术中的方法提取，本申请实施例中不再赘述。

在模型应用阶段，对于以指定多媒体文件中的某一片段，通过模型(即第一神经网络)训练阶段确定样本数据的相应方式确定指定多媒体文件的文件特征以及该多媒体文件中当前片段的预设第一片段特征，并生成第一神经网络的输入特征；之后，将所述输入特征输入至第一神经网络，第一神经网络将输出当前片段为主干片段或分支片段的概率。

本申请的一些实施例中，在构建第一神经网络的训练样本时，对于分支片段，还可以根据该分支片段匹配的片段子类型设置该分支片段对应的样本数据的样本标签，从而构建多类别标签的训练样本。之后，基于构建的训练样本训练多分类的第一神经网络，这样，在模型应用阶段，训练得到的第一神经网络将可以输出任意片段匹配主干片段的概率和匹配各子片段类型的概率。

进一步的，通过将第一神经网络输出的任意片段匹配主干片段的概率与预设主干片段概率阈值进行比较，即可确定该任意片段是否为主干片段。

本申请的一些实施例中，所述预设主干片段概率阈值是根据用户对所述多媒体文件的播放配置确定的。如图2所示，确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系之前，所述方法还包括：步骤100和步骤101。

步骤100，获取预先配置的主干片段播放路径的属性信息；

步骤101，根据所述主干片段播放路径的属性信息确定所述预设主干片段概率阈值。

其中，所述属性信息与相应主干片段播放路径的长度匹配。例如，所述属性信息用于指示预先配置的多媒体文件播放模式，对应不同的播放模式，生成的多媒体文件的主干播放路径长度不同。

以可配置的多媒体文件播放模式包括：超精简模式、精简模式或正常模式为例，当用户配置多媒体文件的播放模式为超精简模式时，生成的主干片段播放路径中片段数量小于设置为精简模式或正常模式时的片段数量。即所述属性信息指示所述主干片段播放路径为多媒体文件的超精简模式时，对应的将确定将片段识别为主干片段的预设主干片段概率阈值将更高。

本申请的一些实施例中，所述确定所述片段之间匹配的播放关系，包括：根据至少两个所述片段的预设第二片段特征，通过预先训练的第二神经网络，预估所述至少两个所述片段之间匹配预设播放关系的概率；其中，所述预设第二片段特征包括以下一项或多项：视频图像特征、时间戳特征、音频语义特征、片段标题特征、片段描述特征。本申请的一些实施例中，片段之间匹配的播放关系至少用于指示所述片段的关联片段信息，其中，所述关联片段信息包括该片段的关联片段、关联片段的描述信息，以及，与每个所述关联片段之间的预设播放关系；所述预设播放关系所述描述信息包括以下任意一种或多种信息：文字摘要、缩略图。本申请的一些实施例中，所述预设播放关系包括但不限于以下任意一种：顺序播放、分支内容、转场、附加解释、无关系。

本申请的一些实施例中，可以预先根据多媒体文件构建第二神经网络训练样本，根据某一多媒体文件中的每N个片段(其中,N为大于等于2的自然数)分别构建一条训练样本的样本数据，并根据这N个片段的播放关系设置该条训练训练样本的样本标签，所述样本标签用于指示这N个片段之间是否存在关联关系，以及存在顺序播放、分支内容、转场、附加解释之中的哪一种关联关系。之后，基于得到的若干训练样本训练多分类神经网络模型，从而得到第二神经网络。基于得到的若干训练样本训练多分类神经网络模型的具体实施方式参见现有技术，本申请实施例中不再赘述。

本申请的一些实施例中，在构建训练第二神经网络的训练样本时，样本数据可以包括相应训练样本对应的多个片段中每个片段的视频图像特征(如人物特征、场景特征)、时间戳特征(如时间戳)、音频语义特征(如音频关键词特征、背景音乐旋律特征、字幕文件中的关键词)、片段描述特征(如视频图像帧中的标题文本)。其中，片段描述特征、视频图像特征、时间戳特征、音频语义特征可以采用现有技术中的方法提取，本申请实施例中不再赘述。

在模型应用阶段，对于以指定多媒体文件中的N个片段，通过模型(即第二神经网络)训练阶段确定样本数据的相应方式确定这N个片段中每个片段的预设第二片段特征，并生成第二神经网络的输入特征；之后，将所述输入特征输入至第二神经网络，第二神经网络将输出这N个片段之间是否存在关联，以及存在上述每种关联的概率。

步骤130，根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径。

在通过上述步骤确定了构成多媒体文件的各个片段的片段类型之后，根据各片段匹配到片段类型和片段之间的播放关系，可以进一步根据构成多媒体文件的所有片段或部分片段，重构多媒体文件，得到用于播放的重构后的多媒体文件。例如，可以仅根据构成多媒体文件的各个片段中属于主干片段类型的全部片段构建描述主干情节的主干片段播放路径，通过顺序播放所述主干片段播放路径中的各片段，展示多媒体文件的主干情节。

本申请的一些实施例中，根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径包括：根据构成多媒体文件的各个片段构建节点，根据所述片段之间匹配的播放关系构建连接所述节点的边，得到片段关系图；遍历所述片段关系图中由匹配主干片段类型的片段对应的节点构成的一个或多个关系分支；根据每个所述关系分支对应的片段序列，分别确定一个主干片段播放路径。例如，可以以构成多媒体文件的各个片段作为节点，并通过指示不同播放关系的边连接相关联的两个片段对应的节点，从而构建片段关系图。然后，通过遍历构建的片段关系图，确定由主干片段对应的节点构成的一个或多个关系分支(如主干情节片段分支)，每个关系分支中各个节点对应的主干片段的序列，即构成了该多媒体文件的一个主干片段播放路径。

通过执行本步骤，可以得到多媒体文件的一个或多个主干片段播放路径。

本申请的一些实施例中，通过遍历构建的片段关系图，还可以确定从每个由主干片段对应的节点构成的关系分支上派生的分支情节对应的关系分支。

本申请的一些实施例中，根据构成多媒体文件的各个片段构建节点，根据所述片段之间匹配的播放关系构建连接所述节点的边，得到片段关系图之后，还包括：展示所述片段关系图；响应于对所述片段关系图的编辑操作，重新生成主干片段播放路径。通过允许人工编辑片段关系图，以便得到更符合期望的播放效果。

步骤140，基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放。

在确定了多媒体文件的主干片段播放路径之后，便可以按照确定的主干片段播放路径开始对多媒体文件进行播放。

本申请的一些实施例中，所述基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放，包括：根据所述主干片段播放路径，确定待播放的所述片段；根据所述片段之间匹配的播放关系，确定待播放的所述片段构成的片段序列；对所述片段序列进行交互播放。如前所述，所述播放关系包括：顺序播放，因此，从主干片段播放路径中的第一个主干片段起，依次确定当前片段存在顺序播放关系的片段(包括主干片段和分支片段)，得到片段序列，并对得到的片段序列中的片段进行顺序播放，即可实现多媒体文件的顺序播放。

本申请的一些实施例中，为了满足用户的个性化播放需求，还可以根据用户对多媒体文件的播放配置，对多媒体文件执行分段选择性播放。如前所述，所述分支片段包括一种或多种片段子类型，相应的，所述基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放，包括：根据用户对所述分支片段匹配的片段子类型的播放配置操作，以及，所述主干片段播放路径，确定待播放的所述片段；根据所述片段之间匹配的播放关系，确定待播放的所述片段构成的片段序列；对所述片段序列进行交互播放。例如，通过在多媒体文件播放界面展示播放配置入口，允许用户配置播放的子片段类型或者配置不播放的子片段类型，然后，在从主干片段播放路径中的第一个主干片段起，依次确定当前片段存在顺序播放关系的片段(包括主干片段和分支片段)时，仅保留主干类型片段和用户配置为播放的子片段类型的片段，过滤掉用户配置为不播放的子片段类型的片段，得到片段序列，并对得到的片段序列中的片段进行顺序播放，即可实现多媒体文件的分段选择性播放。

本申请的一些实施例中，所述片段之间匹配的播放关系至少用于指示所述片段的关联片段信息，所述对所述片段序列进行交互播放，包括：在对所述片段序列进行播放的过程中，展示当前播放片段的关联片段信息；其中，所述关联片段信息包括：根据所述播放关系确定的所述当前播放片段的关联片段的描述信息，所述描述信息包括以下任意一种或多种信息：文字摘要、缩略图。如前所述，播放关系中指示的所述片段的关联片段信息包括与该片段关联的其他片段，因此，在播放每个片段的过程中，可以根据所述播放关系确定与该片段关联的片段，并在多媒体文件播放应用的视频播放界面展示该片段关联的一个或多个片段的文字摘要、缩略图、关键视频图像帧等描述信息，使得用户在观看多媒体文件的当前片段时，可以获取到当前片段相关片段的信息。

本申请的一些实施例中，展示当前播放片段的关联片段信息之后，还包括：响应于对所述关联片段信息的触发操作，确定目标片段；根据所述目标片段所匹配的所述片段类型，控制对所述片段序列执行插播或切换播放。例如，用户通过点击在多媒体文件播放应用的视频播放界面展示该片段关联的片段的描述信息，可以切换到播放用户点击的关联片段，或者，在当前播放时间点插播用户点击的关联片段。

本申请的一些实施例中，所述对所述片段序列进行交互播放，包括：在对所述片段序列进行播放的过程中，获取用户输入的播放交互信息；将所述片段序列中的所有片段，确定为候选片段；或者，将所述播放交互信息针对的播放片段的关联片段，确定为候选片段；其中，所述关联片段根据所述播放片段和所述播放关系确定；将包括所述播放交互信息的片段匹配信息，与各所述候选片段的片段特征进行匹配，确定与所述片段匹配信息匹配的所述候选片段，作为目标片段；根据所述目标片段所匹配的所述片段类型，控制对所述片段序列执行插播或切换播放。

本申请的一些实施例中，获取用户输入的播放交互信息的步骤，包括：获取用户输入的文本信息；或者，获取用户输入的语音信息，并将所述语音信息转换成文本信息。例如，用户可以通过语音输入想要观看的该多媒体文件中的情节、场景、人物等，多媒体文件播放应用在获取到用户输入的语音之后，对所述语音进行文字识别，得到对应的文本。再例如，多媒体文件播放应用可以设置播放交互信息编辑界面，并通过检测用户在播放交互信息编辑界面输入的文本获取播放交互信息。之后，以获取的播放交互信息作为片段匹配信息，进行片段匹配。

本申请的另一些实施例中，所述片段匹配信息还可以包括：所述用户的用户画像特征、用户历史行为特征、用户播放记录特征，以及，所述播放交互信息针对的播放片段的图像特征和/或语音特征。例如，所述片段匹配信息包括：用户输入的播放交互信息、用户的性别、年龄、用户的历史播放习惯、用户输入播放交互信息时多媒体文件播放应用当前播放的片段中的人物特征、场景特征等。

在进行片段匹配的过程中，可以将确定的片段匹配信息与正在播放的片段系列中的每个片段均进行匹配，即正在播放的片段系列中的每个片段均作为候选片段。为了提升匹配效率，本申请的一些实施例中，将所述播放交互信息针对的播放片段(如当前播放片段，或者，获取到所述播放交互信息时最近播放的两个片段)的关联片段，确定为候选片段。

之后，将确定的片段匹配信息分别与每个候选片段的片段特征分别进行匹配，确定每个候选片段分别与所述片段匹配信息的匹配度。本申请的一些实施例中，所述片段特征包括但不限于：候选片段中视频图像帧的图像特征(如人物特征、场景特征)、候选片段中的音频语义特征(如关键词)、视频文本摘要特征中的一种或多种特征。视频图像帧的图像特征、视频片段或音频片段中的音频语义特征和视频文本摘要特征的获取方式参见现有技术中，本实施例中不再赘述。进一步的，可以选择与所述片段匹配信息的匹配度最高的候选片段，作为目标片段。

确定了用户期望播放的目标片段之后，则可以根据所述目标片段所匹配的所述片段类型，控制对所述片段序列执行插播或切换播放。本申请的一些实施例中，所述根据所述目标片段所匹配的所述片段类型，控制对所述片段序列执行插播或切换播放，包括：响应于所述目标片段匹配的所述片段类型为主干片段，切换至从所述目标片段起继续播放所述片段序列；响应于所述目标片段匹配的所述片段类型为分支片段，在当前播放位置处插播所述目标片段。例如，当与用户输入的播放交互信息匹配的目标片段匹配的片段类型为主干片段时，将播放位置切换至目标片段，并播放目标片段以及播放序列中目标片段之后的片段；当与用户输入的播放交互信息匹配的目标片段匹配的片段类型为分支片段时，记录当前播放片段的位置，作为目标片段播放完成后的续播位置，之后切换至播放目标片段，并在播放完成目标片段之后，恢复至从所述续播位置起继续播放播放序列中未被播放的片段。

本申请的一些实施例中，可以预先设置对于目标片段匹配的不同片段类型采用的控制播放方式。例如，对于可以预先配置对主干片段类型的目标片段执行切换播放的操作，对于分支片段类型的目标片段执行插播。

本申请实施例公开的多媒体文件播放方法，通过基于将多媒体文件划分为若干片段，并识别每个片段为主干片段或分支片段，以及确定各片段之间的播放关系，之后，基于片段之间的播放关系和片段类型进行多媒体文件重构，得到主干片段播放路径和若干分支片段播放路径，并以片段为播放单元，基于主干片段播放路径进行可配置播放，由于本申请实施例中确定的片段为相对完整的场景片段，因此，本申请实施例公开的多媒体文件播放方法实现了基于场景的播放控制，提升了多媒体文件交互播放的灵活度。

进一步的，通过基于片段重构多媒体文件，使得多媒体文件结构更清晰，并且可以根据用户的配置，选择片段类型生成播放文件，进一步提升了多媒体文件的播放交互行，改善了用户体验。另外，通过基于片段重构多媒体文件，使得可以基于内容对重构后的多媒体文件进行播放控制，而不仅仅是基于播放时间点进行播放控制，可以实现插播、切换播放，充分提升了多媒体文件的播放交互性。

进一步的，本申请实施例公开的多媒体文件播放方法，结合语句和图像内容对多媒体文件进行分段，并通过神经网络模型对片段类型和片段之间的关系进行识别，自动实现片段播放信息的获取，从而实现多媒体文件重构和交互播放，提升了多媒体文件的播放处理效率。

实施例二

本申请实施例公开的一种多媒体文件播放装置，如图3所示，所述装置包括：

构成片段确定模块310，用于确定构成多媒体文件的若干片段；

片段类型及播放关系确定模块320，用于确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系；

重构模块330，用于根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径；

交互播放模块340，用于基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放。

本申请的一些实施例中，所述分支片段包括一种或多种片段子类型，所述交互播放模块340，进一步用于：

根据用户对所述分支片段匹配的片段子类型的播放配置操作，以及，所述主干片段播放路径，确定待播放的所述片段；

根据所述片段之间匹配的播放关系，确定待播放的所述片段构成的片段序列；

对所述片段序列进行交互播放。

本申请的另一些实施例中，所述交互播放模块340，进一步用于：

根据所述主干片段播放路径，确定待播放的所述片段；以及，根据所述片段之间匹配的播放关系，确定待播放的所述片段构成的片段序列；

对所述片段序列进行交互播放。

本申请的一些实施例中，所述片段之间匹配的播放关系至少用于指示所述片段的关联片段信息，所述对所述片段序列进行交互播放，包括：

在对所述片段序列进行播放的过程中，展示当前播放片段的关联片段信息；其中，所述关联片段信息包括：根据所述播放关系确定的所述当前播放片段的关联片段的描述信息，所述描述信息包括以下任意一种或多种信息：文字摘要、缩略图。

本申请的一些实施例中，所述对所述片段序列进行交互播放，包括：

在对所述片段序列进行播放的过程中，获取用户输入的播放交互信息；

将所述片段序列中的所有片段，确定为候选片段；或者，将所述播放交互信息针对的播放片段的关联片段，确定为候选片段；其中，所述关联片段根据所述播放片段和所述播放关系确定；

将包括所述播放交互信息的片段匹配信息，与各所述候选片段的片段特征进行匹配，确定与所述片段匹配信息匹配的所述候选片段，作为目标片段；

根据所述目标片段所匹配的所述片段类型，控制对所述片段序列执行插播或切换播放。

本申请的一些实施例中，所述根据所述目标片段所匹配的所述片段类型，控制对所述片段序列执行插播或切换播放，包括：

响应于所述目标片段匹配的所述片段类型为主干片段，切换至从所述目标片段起继续播放所述片段序列；

响应于所述目标片段匹配的所述片段类型为分支片段，在当前播放位置处插播所述目标片段。

本申请的另一些实施例中，所述确定每个所述片段匹配的片段类型为主干片段或分支片段，包括：

根据每个所述片段的预设第一片段特征和所述多媒体文件的文件特征，通过预先训练的第一神经网络，分别预估所述片段匹配主干片段和/或分支片段的概率；其中，所述文件特征包括以下一项或两项：标题特征、描述特征，所述预设第一片段特征包括以下任意一项或多项：视频图像特征、时间戳特征、音频语义特征；

根据每个所述片段匹配主干片段的所述概率各自与预设主干片段概率阈值的比较结果，分别确定每个所述片段匹配的片段类型为主干片段或分支片段。

本申请的一些实施例中，所述预设主干片段概率阈值是根据用户对所述多媒体文件的播放配置确定的。如图4所示，所述装置还包括：

播放配置模块300，用于获取预先配置的主干片段播放路径的属性信息；以及，根据所述主干片段播放路径的属性信息确定所述预设主干片段概率阈值。

本申请的一些实施例中，所述确定所述片段之间匹配的播放关系，包括：

根据至少两个所述片段的预设第二片段特征，通过预先训练的第二神经网络，预估所述至少两个所述片段之间匹配预设播放关系的概率；其中，所述预设第二片段特征包括以下一项或多项：视频图像特征、时间戳特征、音频语义特征、片段标题特征、片段描述特征。

本申请的一些实施例中，构成片段确定模块310，进一步用于：

基于语句信息和/或镜头连续性，确定多媒体文件的若干候选分割点；

确定根据所述候选分割点对所述多媒体文件进行划分得到的若干连续细分片段；

对所述若干连续细分片段进行合并处理，得到用于独立播放的片段。

本申请的一些实施例中，所述对所述若干连续细分片段进行合并处理，得到用于独立播放的片段，包括：

通过预先训练的第三神经网络，根据所述若干连续细分片段中每个细分片段匹配的细分片段特征，识别所述若干连续细分片段中的起始细分片段；其中，所述细分片段特征包括以下一项或多项：视频内容特征、音频语义特征、时间戳特征，以及，多媒体文件标题特征、多媒体文件描述特征，所述起始细分片段为独立场景的首个细分片段；

将相邻两个所述起始细分片段之间的所述细分片段，与所述相邻两个所述起始细分片段中的前一个所述起始细分片段，合并为用于独立播放的片段。

本申请的一些实施例中，所述基于语句信息和/或镜头连续性，确定多媒体文件的若干候选分割点，包括：

根据对多媒体文件的音频数据进行语音识别得到的若干语句，确定所述多媒体文件中各语句对应的分割点位置区间；

响应于所述多媒体文件为视频文件，根据所述多媒体文件的视频图像帧中图像内容的镜头连续性，确定所述多媒体文件的若干视频分割点；

响应于所述多媒体文件为视频文件，将所述若干视频分割点对齐至所述分割点位置区间内，得到与各所述视频分割点对应的若干第一候选分割点；

对于每个所述分割点位置区间，根据所述分割点位置区间内所述第一候选分割点的分布情况，确定所述分割点位置区间内的第二候选分割点；

将所述第一候选分割点和所述第二候选分割点作为候选分割点，并对时间间隔或视频图像帧间隔小于相应间隔阈值的所述候选分割点进行合并处理。

本申请实施例公开的多媒体文件播放装置，用于实现本申请实施例一中所述的多媒体文件播放方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的多媒体文件播放装置，通过确定构成多媒体文件的若干片段；确定每个所述片段匹配的片段类型为主干片段或分支片段，以及，确定所述片段之间匹配的播放关系；根据各所述片段匹配的片段类型，以及，所述片段之间匹配的播放关系，由匹配片段类型为主干片段的若干所述片段构建主干片段播放路径；基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放，有助于提升多媒体文件交互播放的灵活度。

本申请实施例公开的多媒体文件播放装置，通过基于将多媒体文件划分为若干片段，并识别每个片段为主干片段或分支片段，以及确定各片段之间的播放关系，之后，基于片段之间的播放关系和片段类型进行多媒体文件重构，得到主干片段播放路径和若干分支片段播放路径，并以片段为播放单元，基于主干片段播放路径进行可配置播放，由于本申请实施例中确定的片段为相对完整的场景片段，因此，本申请实施例公开的多媒体文件播放方法实现了基于场景的播放控制，提升了多媒体文件交互播放的灵活度。

进一步的，本申请实施例公开的多媒体文件播放装置，结合语句和图像内容对多媒体文件进行分段，并通过神经网络模型对片段类型和片段之间的关系进行识别，自动实现片段播放信息的获取，从而实现多媒体文件重构和交互播放，提升了多媒体文件的播放处理效率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种多媒体文件播放方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图5示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器510和存储器520及存储在所述存储器520上并可在处理器510上运行的程序代码530，所述处理器510执行所述程序代码530时实现上述实施例中所述的方法。所述存储器520可以为计算机程序产品或者计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码530的存储空间5201。例如，用于程序代码530的存储空间5201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码530为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的多媒体文件播放方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图5所示的电子设备中的存储器520类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图6所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码530’，所述计算机可读代码530’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多媒体文件播放方法，其特征在于，包括：

确定构成多媒体文件的若干片段；

2.根据权利要求1所述的方法，其特征在于，所述分支片段包括一种或多种片段子类型，所述基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放，包括：

对所述片段序列进行交互播放。

3.根据权利要求1所述的方法，其特征在于，所述基于所述主干片段播放路径和所述片段之间匹配的播放关系，对所述多媒体文件进行交互播放，包括：

根据所述主干片段播放路径，确定待播放的所述片段；

对所述片段序列进行交互播放。

4.根据权利要求2或3所述的方法，其特征在于，所述片段之间匹配的播放关系至少用于指示所述片段的关联片段信息，所述对所述片段序列进行交互播放，包括：

5.根据权利要求2或3所述的方法，其特征在于，所述对所述片段序列进行交互播放，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标片段所匹配的所述片段类型，控制对所述片段序列执行插播或切换播放的步骤，包括：

7.根据权利要求1至3任一项所述的方法，其特征在于，所述确定每个所述片段匹配的片段类型为主干片段或分支片段，包括：

8.根据权利要求1至3任一项所述的方法，其特征在于，所述确定所述片段之间匹配的播放关系，包括：

9.根据权利要求1至3任一项所述的方法，其特征在于，所述确定构成多媒体文件的若干片段，包括：

10.根据权利要求9所述的方法，其特征在于，所述对所述若干连续细分片段进行合并处理，得到用于独立播放的片段，包括：

通过预先训练的第三神经网络，根据所述若干连续细分片段中每个细分片段匹配的细分片段特征，识别所述若干连续细分片段中的起始细分片段；其中，所述细分片段特征包括以下一项或多项：视频内容特征、音频特征、语义特征、时间戳特征，以及，多媒体文件标题特征、多媒体文件描述特征，所述起始细分片段为独立场景的首个细分片段；

11.根据权利要求9所述的方法，其特征在于，所述基于语句信息和/或镜头连续性，确定多媒体文件的若干候选分割点，包括：

12.一种多媒体文件播放装置，其特征在于，包括：

构成片段确定模块，用于确定构成多媒体文件的若干片段；

13.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至11任意一项所述的多媒体文件播放方法。

14.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至11任意一项所述的多媒体文件播放方法的步骤。