CN113347489A

CN113347489A - 视频片段检测方法、装置、设备及存储介质

Info

Publication number: CN113347489A
Application number: CN202110778147.3A
Authority: CN
Inventors: 庞荣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-09-03
Anticipated expiration: 2041-07-09
Also published as: CN113347489B

Abstract

本公开提供了一种视频片段检测方法、装置、设备及存储介质，涉及视频处理技术领域，尤其涉及视频检测技术领域。具体实现方案为：获得视频中音频数据在预设时间段内的音频特征，预设时间段包括：第一时间段，和/或，第二时间段；根据音频特征，检测预设时间段内发生音频切换的切换时刻；若预设时间段包括第一时间段、且切换时刻位于第一时间段，根据视频的开始时刻和切换时刻，确定视频的视频片头片段；和/或，若预设时间段包括第二时间段、且切换时刻位于第二时间段，根据切换时刻和视频的结束时刻，确定视频的视频片尾片段。应用本公开能够准确检测出视频片头片段和视频片尾片段。

Description

视频片段检测方法、装置、设备及存储介质

技术领域

本公开涉及视频处理技术领域，进一步涉及视频检测技术领域，尤其涉及一种视频片段检测方法、装置、设备及存储介质。

背景技术

电视剧、电影等视频中包括视频片头片段和视频片尾片段，而用户在观看视频时，为了节省时间，可能会希望跳过视频片头片段和/或视频片尾片段。因此，为更好满足用户需求，需要对视频片头片段和视频片尾片段进行检测，从而根据用户选择，在播放视频过程中跳过视频片头片段和/或视频片尾片段。

发明内容

本公开提供了一种视频片段检测方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种视频片段检测方法，包括：

获得视频中音频数据在预设时间段内的音频特征，其中，所述预设时间段包括：从所述视频的开始时刻向后延伸第一预设时长的第一时间段，和/或，从所述视频的结束时刻向前延伸第二预设时长的第二时间段；

根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻；

若所述预设时间段包括所述第一时间段、且所述切换时刻位于所述第一时间段，根据所述视频的开始时刻和所述切换时刻，确定所述视频的视频片头片段；和/或

若所述预设时间段包括所述第二时间段、且所述切换时刻位于所述第二时间段，根据所述切换时刻和所述视频的结束时刻，确定所述视频的视频片尾片段。

根据本公开的另一方面，提供了一种视频片段检测装置，包括：

特征获得模块，用于获得视频中音频数据在预设时间段内的音频特征，其中，所述预设时间段包括：从所述视频的开始时刻向后延伸第一预设时长的第一时间段，和/或，从所述视频的结束时刻向前延伸第二预设时长的第二时间段；

时刻检测模块，用于根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻；

第一片段确定模块，用于若所述预设时间段包括所述第一时间段、且所述切换时刻位于所述第一时间段，根据所述视频的开始时刻和所述切换时刻，确定所述视频的视频片头片段；和/或

第二片段确定模块，用于若所述预设时间段包括所述第二时间段、且所述切换时刻位于所述第二时间段，根据所述切换时刻和所述视频的结束时刻，确定所述视频的视频片尾片段。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述视频片段检测的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述视频片段检测的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述视频片段检测的方法。

由以上可见，应用本公开实施例提供的方案检测视频片段时，首先获得视频中音频数据在预设时间段内的音频特征。其次，根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻。最后，当预设时间段包括第一时间段，且切换时刻位于第一时间段，根据视频的开始时刻和切换时刻，视频的视频片头片段，和/或，当预设时间段包括第二时间段，且切换时刻位于第二时间段，根据切换时刻和视频的结束时刻，确定视频的视频片尾片段。因此，能够准确地检测出视频片头片段和视频片尾片段。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的第一种视频片段检测方法的流程示意图；

图2是本公开实施例提供的第二种视频片段检测方法的流程示意图；

图3是本公开实施例提供的第三种视频片段检测方法的流程示意图；

图4是本公开实施例提供的一种音频特征变化曲线示意图；

图5是本公开实施例提供的第四种视频片段检测方法的流程示意图；

图6是本公开实施例提供的第五种视频片段检测方法的流程示意图；

图7是本公开实施例提供的第一种视频片段检测装置的结构示意图；

图8是本公开实施例提供的第二种视频片段检测装置的结构示意图；

图9是本公开实施例提供的第三种视频片段检测装置的结构示意图；

图10是本公开实施例提供的第四种视频片段检测装置的结构示意图；

图11是用来实现本公开实施例提供的视频片段检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

由于用户在观看视频时可能会希望跳过视频片头片段和/或视频片尾片段，因此，需要对视频片头片段和/或视频片尾片段进行检测，所以，本公开实施例提供了一种视频片段检测方法、装置、设备及存储介质。

本公开的一个实施例中，提供了一种视频片段检测方法，该方法包括：

获得视频中音频数据在预设时间段内的音频特征，其中，预设时间段包括：从视频的开始时刻向后延伸第一预设时长的第一时间段，和/或，从视频的结束时刻向前延伸第二预设时长的第二时间段；

根据音频特征，检测预设时间段内发生音频切换的切换时刻；

若预设时间段包括第一时间段、且切换时刻位于第一时间段，根据视频的开始时刻和切换时刻，确定视频的视频片头片段；和/或

若预设时间段包括第二时间段、且切换时刻位于第二时间段，根据切换时刻和所视频的结束时刻，确定视频的视频片尾片段。

可见本公开实施例提供的方案中，首先获得视频中音频数据在预设时间段内的音频特征。其次，根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻。最后，当预设时间段包括第一时间段，且切换时刻位于第一时间段，根据视频的开始时刻和切换时刻，确定视频的视频片头片段，和/或，当预设时间段包括第二时间段，且切换时刻位于第二时间段，根据切换时刻和视频的结束时刻，确定视频的视频片尾片段。因此，能够准确地检测出视频片头片段和视频片尾片段。

除此之外，一方面，由于第一时间段表示的是视频开始后的一段时间，所以，视频中音频数据在第一时间段内的音频特征能够反映视频片头片段以及视频内容片段的前段中音频数据的特征。本公开发现可以利用从视频片头片段向视频内容片段过度时，不仅视频中画面内容发生变化，音频内容也会发生变化这一信息，根据前述获得的音频特征，检测出的第一时间段中发生音频切换的时刻，能够反映视频片头片段的结束时刻，这样根据能够视频的开始时刻和发生音频切换的时刻，检测出视频片头片段。

另一方面，由于第二时间段表示的是视频临近结束的一段时间，所以，视频中音频数据在第二时间段内的音频特征能够反映视频内容片段的后段以及视频片尾片段中音频数据的特征。本公开发现可以利用从视频内容片段向视频片尾片段过度时，不仅视频中画面内容发生变化，音频内容也会发生变化这一信息，根据前述获得的音频特征，检测出的第二时间段中发生音频切换的时刻，能够反映视频片尾片段的开始时刻，这样根据发生音频切换的时刻和视频的结束时刻，能够检测出视频片尾片段。

下面先对本公开实施例中涉及的概念进行说明。

1.视频

本公开实施例中提及的视频可以是：对音频数据和视频帧数据进行系统层封装得到的流数据。也就是，上述视频中包括音频数据和视频帧数据。

上述视频可以是多集视频中的一集视频，例如，可以是一部电视剧的视频中的一集电视剧视频，可以是一部记录片的视频中的一集记录片视频。

上述视频还可以是单集视频，例如，可以是电影视频。

2.视频片段

视频片段是视频中与一时间段相对应的数据。因为视频片段来自于视频，所以视频片段中包括在上述时间段播放的音频数据和在上述时间段播放的视频帧数据。

3.视频片头片段

视频片头片段位于视频开始部分，一般从视频的开始时刻起向后持续一定时长。

视频片头片段中的内容包括片头曲以及以下内容中的一种：

本视频的整体性画面描述内容，例如，电影视频的精彩镜头集合以及演职人员介绍、一集记录片视频的精彩镜头集合以及拍摄人员介绍等；

本视频所属多集视频的整体性画面描述内容，例如，各集电视剧视频的精彩镜头集合以及演职人员介绍等。

从上述内容可以看出，多集视频中每一集视频的视频片头片段可能相同，也可能不相同。

4.视频片尾片段

视频片尾片段位于视频的结束部分，一般从邻近视频结束的一时刻起持续到视频的结束时刻。

视频片尾片段中的内容包括片尾曲以及以下内容中的一种：

本视频的整体性画面描述内容，例如，电影视频的演员列表、本视频的拍摄花絮等；

本视频所属多集视频的整体性画面描述内容，例如，电视剧的演员列表；

多集视频中本视频的下一集视频预告画面，例如，下一集视频的精彩镜头集合。

从上述内容可以看出，多集视频中每一集视频的视频片尾片段可能相同，也可能不相同。

5.视频内容片段

视频内容片段为视频中除视频片头片段和视频片尾片段之外的视频片段。

下面再对本公开实施例的应用场景进行说明。

本公开实施例提供的方案可以应用于对视频的视频片头片段进行检测的场景，也可以应用于对视频的片尾片段进行检测的场景。

具体的，可以用于对单集视频的视频片头片段和/或视频片尾片段进行检测，还可以对多集视频中各集视频的视频片头片段和/或视频片尾片段进行检测。

另外，在对多集视频中各集视频进行检测的情况下，并不限定各集视频中视频片头片段是否相同，也不限定各集视频中视频片尾片段是否相同。

以下对本公开实施例提供的视频片段检测方法进行详细说明。

参见图1，图1为本公开实施例提供的第一种视频片段检测方法的流程示意图，上述方法包括以下步骤S101-S104。

步骤S101：获得视频中音频数据在预设时间段内的音频特征。

上述预设时间段包括：第一时间段和/或第二时间段。

其中，第一时间段为：从视频的开始时刻向后延伸第一预设时长的时间段，也就是视频开始的一段时间。由于视频片头片段位于视频开始一段时间内，所以，视频片头片段位于上述第一时间段的可能性高。

第二时间段段为：从视频的结束时刻向前延伸第二预设时长的时间段，也就是临近视频结束的一段时间。由于视频片尾片段位于视频的结束部分，所以，视频片尾片段位于上述第二时间段的可能性高。

上述第一预设时长与第二预设时长可以相同，例如：第一预设时长为10min、第二预设时长为10min。上述第一预设时长与第二预设时长也可以不同。例如：第一预设时长为8min、第二预设时长为12min。

例如，第一预设时长、第一时间段的具体数值关系可以如下表1-1所示。

表1-1

视频的开始时刻	第一预设时长	第一时间段
			00:00:00	10min	00:00:00-00:10:00

第二预设时长、第一时间段以及第二时间段的具体数值关系可以如下表1-2所示。

表1-2

视频的结束时刻	第二预设时长	第二时间段
			01:00:00	10min	00:50:00-01:00:00

本公开的一个实施例中，可以对上述视频进行系统层解封装处理，得到音频数据，然后从上述音频数据中确定在预设时间段内播放的第一音频数据，对第一音频数据进行特征提取，得到音频特征。

具体的，对第一音频数据进行特征提取时，可以提取第一音频数据的音调、音高、音强、音色等特征。

当然，还可以通过其他方式获得上述音频特征，具体实现过程在后续图2所示实施例中详述。

步骤S102：根据音频特征，检测预设时间段内发生音频切换的切换时刻。

音频切换是指音频内容发生了改变，也就是，从一种音频内容变化为另一种音频内容。例如，音频内容从音乐变化为静音、从静音变化为音乐、从音乐变化为人物对话、从人物对话变化为音乐等。

由于音频内容是通过音频数据描述出来的，音频特征又是对音频数据进行特征提取得到的，所以，音频特征能够表征音频内容，音频内容变化也会引起音频特征变化。基于此，可以根据音频特征的变化情况，检测预设时间段内是否发生了音频切换，并在发生音频切换的情况下，获得切换时刻。

当预设时间段包括第一时间段，由于第一时间段表示的是视频开始后的一段时间，所以，视频中音频数据在第一时间段内的音频特征能够反映视频片头片段以及视频内容片段的前段中音频数据的特征。本公开发现可以利用从视频片头片段向视频内容片段过度时，不仅视频中画面内容发生变化，音频内容也会发生变化这一信息，根据上述获得的音频特征，检测出的第一时间段中发生音频切换的时刻，能够反映视频片头片段的结束时刻。

当预设时间段包括第二时间段，由于第二时间段表示的是视频临近结束的一段时间，所以，视频中音频数据在第二时间段内的音频特征能够反映视频内容片段的后段以及视频片尾片段中音频数据的特征。本公开发现从视频内容片段向视频片尾片段过度时，不仅视频中画面内容发生变化，音频内容也会发生变化这一信息，根据上述获得的音频特征，检测出的第二时间段中发生音频切换的时刻，能够反映视频片头片段的结束时刻。

本公开的一个实施例中，在提取音频特征时，可以针对各个音频数据段提取特征，得到特征值，其中，每一音频数据段对应一个播放时间段，例如，一个播放时间段的时长可以是0.5s、1s等，这样上述音频特征中包括多个特征值。基于上述情况可以检测音频特征中是否存在差异大于预设特征值阈值、且所对应播放时间段相邻的相邻特征值，若存在，则认为预设时间段内发生了音频切换，这时可以根据检测到的相邻特征值所对应音频数据段的播放时间段，获得上述切换时刻。例如，将上述播放时间段的起始时刻或者结束时刻作为上述切换时刻。

下面分别针对视频片头片段和视频片尾片段，对音频切换检测进行举例说明。

情况一，视频片头片段中播放的是片头曲，从视频片头片段向视频内容片段过度时，音频数据从片头曲可能会先过度到静音，再由静音向人物对话等变换，片头曲、静音、人物对话对应的音频特征的特征值不同，例如，片头曲和人物对话的音高均高于静音的音高，片头曲与静音之间音高的差异或者人物对话与静音之间音高的差异大于预设差异阈值，可以判定发生了音频切换。当然，上述“静音”也可以是其他音频内容，本公开实施例仅以此为例进行说明。

情况二，视频片尾片段中播放的是片尾曲，从视频内容片段向视频片尾片段过度时，音频数据可能从人物对话先过度到静音，再由静音向片尾曲变换，片尾曲、静音、人物对话对应的音频特征的特征值不同，例如，片尾曲和人物对话的音高均高于静音的音高，片尾曲与静音之间音高的差异或者人物对话与静音之间音高的差异大于预设差异阈值，可以判定发生了音频切换。当然，上述“静音”也可以是其他音频内容，本公开实施例仅以此为例进行说明。

需要说明的是，除了上述基于特征值间差异检测切换时刻外，还可以通过其他方式检测切换时刻，具体可以参见后续图3所示实施例，这里暂不详述

步骤S103：若预设时间段包括第一时间段、且切换时刻位于第一时间段，根据视频的开始时刻和切换时刻，确定视频的视频片头片段。

由上述步骤S102中的分析可知，由于第一时间段位于视频的开始部分，若切换时刻位于第一时间段，可以认为从视频片头片段切换到了视频内容片段，上述切换时刻表征视频片头片段的结束时刻。又由于视频片头片段一般是从视频的开始时刻开始的，所以，可以根据视频的开始时刻和切换时刻，确定出视频片头片段。

一种实现方式中，可以将视频的开始时刻至切换时刻之间的时间段对应的视频片段，直接确定为视频片头片段。

例如：视频的开始时刻为00:00:00，切换时刻为00:05:30，视频的开始时刻至切换时刻之间的时间段为：00:00:00-00:05:30，将视频中00:00:00-00:05:30内的视频片段确定为视频片头片段。

另一种实现方式中，可以采用预设的第一调整时长对上述切换时刻进行调整。将视频的开始时刻至调整后的切换时刻之间的时间段对应的视频片段，确定为视频片头片段。

例如：视频的开始时刻为00:00:00，切换时刻为00:05:30，预设的第一调整时长为10s，采用预设的调整时长对切换时刻进行调整，可以得到(00:05:30+10s)＝00:05:40，也就是调整后的切换时刻为00:05:40，视频的开始时刻至调整后的切换时刻之间的时间段为：00:00:00-00:05:40，将视频中00:00:00-00:05:40内的视频片段确定为视频片头片段。

步骤S104：若预设时间段包括第二时间段、且切换时刻位于第二时间段，根据切换时刻和视频的结束时刻，确定视频的视频片尾片段。

由上述步骤S102中的分析可知，由于第二时间段位于视频的结束部分，若切换时刻位于第二时间段，可以认为从视频内容片段切换到了视频片尾片段，上述切换时刻表征视频片尾片段的开始时刻。又由于视频片尾片段一般在视频的结束时刻结束，所以，可以根据切换时刻和视频的结束时刻，确定出视频片尾片段。

一种方式中，可以将切换时刻至视频的结束时刻之间的时间段对应的视频片段，直接确定为视频片尾片段。

例如：切换时刻为00:55:30，视频的结束时刻为01:00:00，视频的切换时刻至结束时刻之间的时间段为：00:55:30-01:00:00，将视频在00:55:30-01:00:00内的视频片段确定为视频片尾片段。

另一种方式中，可以采用预设的第二调整时长对上述切换时刻进行调整。将调整后的切换时刻至视频的结束时刻之间的时间段对应的视频片段，确定为视频片尾片段。

例如：切换时刻为00:55:30，视频的结束时刻为01:00:00，预设的第二调整时长为10s，采用预设的第二调整时长对切换时刻进行调整，可以得到(00:55:30+10s)＝00:55:40，也就是调整后的切换时刻为00:55:40，调整后的切换时刻至视频的结束时刻之间时间段为：00:55:40-01:00:00，将视频在00:55:40-01:00:00内的视频片段确定为视频片尾片段。

由以上可见，应用本公开实施例提供的方案检测视频片段时，首先获得视频中音频数据在预设时间段内的音频特征。其次，根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻。最后，当预设时间段包括第一时间段，且切换时刻位于第一时间段，根据视频的开始时刻和切换时刻，确定视频的视频片头片段，和/或，当预设时间段包括第二时间段，且切换时刻位于第二时间段，根据切换时刻和视频的结束时刻，确定视频的视频片尾片段。因此，能够检测出视频片头片段和/或视频片尾片段。

综合以上可以看出，根据音频特征得到的切换时刻，能够准确反映出视频片头片段的结束时刻、视频片尾片段的开始时刻，所以，应用本公开实施例提供的方案，不仅能够检测出视频片头片段、视频片尾片段，还能够提高检测视频片头片段和/或视频片尾片段的准确度。

在检测得到视频片头片段、视频片尾片段后，可以对视频片头片段、视频片尾片段进行标记。这样在用户选择跳过视频片头片段和/或视频片尾片段时，可以基于上述标记，在播放过程中跳过视频片头片段和/或视频片尾片段，从而满足用户的需求。例如，上述标记的内容可以包括：视频片头片段所在时间段、视频片尾片段所在时间段、视频片头片段的开始时刻及时长、视频片尾片段的开始时刻等。

本公开的一个实施例中，参见图2，提供了第二种视频片段检测方法。与前述实施例相比，本实施例中，上述步骤S101中获得视频中音频数据在预设时间段内的音频特征，可以按照以下步骤S1011-步骤S1013实现。

步骤S1011：截取视频在预设时间段内的视频片段。

具体的，可以根据视频中携带的时间戳信息，确定预设时间段的开始时刻在视频中对应的第一位置、以及预设时间段的结束时刻在视频中对应的第二位置，然后截取第一位置与第二位置之间的视频片段，从而实现视频片段截取。

步骤S1012：从视频片段中抽取音频数据。

由于视频中包含视频帧数据和音频数据，所以，上述视频片段中包含在预设时间段内播放的视频帧数据和在预设时间段内播放的音频数据。

又由于视频是对视频帧数据和音频数据进行系统层封装得到的流数据，因此，可以使用解码工具对上述视频片段进行解码，从上述视频片段中解码出音频数据。例如，上述解码工具可以为：FFMpeg(Fast Forward Mpeg)等，具体解码工具可以依据视频采用的编码标准选定。

步骤S1013：提取表征音频数据的音调和/或音高的音频特征。

上述音频数据的音调、音高可以表示音频数据的声音频率、声音强度。音频数据发生变化时，音频数据的音调、音高一般也会发生改变，因此，可以以音调和/或音高作为音频特征进行音频切换检测。

本公开的一个实施例中，可以提取音频数据的MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)特征；获得MFCC特征的第一层特征，作为表征音频数据的音调和/或音高的音频特征。

MFCC特征包括多层特征，且每一层特征是与时间相关的特征，其中，每一层特征的具体结构可以参照相关技术对MFCC每一层特征结构的描述，这里不再详述。这样每一层特征中包括多个特征值，每一个特征值与一个时刻或一个时间段相对应。基于此，MFCC特征可以以二维向量表示，其中，二维向量大小为m*n，m表示MFCC特征的特征层维度，n表示时间维度。

例如：m为3、n为4为例，上述二维向量可以为以下表达式：

其中，每一行对应一个特征层，每一列对应一个时刻或者一个时间段。例如，X11表示第一个特征层中与第一个时刻或第一个时间段相对应的特征值。

具体的，可以采用MFCC特征提取算法提取音频数据的MFCC特征。在提取MFCC特征后，抽取MFCC特征中第一层特征。

由于音频数据发生变化时，MFFCC特征的第一层特征也会发生变化，且经实验发现，上述第一层特征会随着音频数据的音调、音高的变化而变化，因此，上述第一层特征对音频数据的音调、音高具有较强的表征性，这样以上述第一层特征作为表征音频数据的音调和/或音高的音频特征，能够提高所得音频特征的准确度，从而提高检测发生音频切换的切换时刻的准确性。

本公开的另一个实施例中，可以提取音频数据的MFSC(Mel-Frequency SpectralCoefficients梅尔频率光谱系数)特征、CQCC(Constant Q Cepstral Coefficients，常数Q变换倒谱系数)特征等，作为表征音频数据的音调和/或音高的音频特征。

这样，由于所提取的音频特征表征音频数据的音调和/或音高，音频数据的音调和/或音高会反映音频数据的变化情况，所以根据上述表征音频数据的音调和/或音高的音频特征，能够准确检测得到发生音频切换的切换时刻，提高检测所得切换时刻的准确度。

本公开的一个实施例中，参见图3，提供了第三种视频片段检测方法的流程示意图，与前述实施例相比，本实施例中，上述步骤S102中根据音频特征，检测预设时间段内发生音频切换的切换时刻，可以通过以下步骤S1021-S1022实现。

步骤S1021：确定音频特征中的候选切换特征。

上述候选切换特征的特征值小于第一音频特征的特征值、且小于第二音频特征的特征值。其中，上述第一音频特征对应的音频播放时刻为：候选切换特征所对应音频播放时刻的前一时刻，第二音频特征对应的音频播放时刻为：候选切换特征所对应音频播放时刻的后一时刻。

也就是，上述候选切换特征的特征值小于前后相邻时刻对应音频特征的特征值，上述候选切换特征的特征值为局部最小值。

音频特征所对应音频播放时刻可以是：根据提取音频特征时所使用音频数据段对应的播放时间段确定的时刻。例如，上述播放时间段的开始时刻、结束时刻、中点时刻等。这样相邻时刻之间间隔一个播放时间段的时长。如，假设播放时间段的时长为0.5s，则一个时刻的前一时刻为：该时刻前间隔0.5s的时刻，一个时刻的后一时刻为：该时刻后间隔0.5s的时刻。

以图4为例，图4为本公开实施例提供的一种音频特征的变化曲线示意图。在图4中，纵坐标为音频特征的特征值，横坐标为音频播放时刻。T1时刻对应音频特征的特征值小于前后相邻时刻对应音频特征的特征值，所以T1时刻对应的音频特征为候选切换特征，同样的，T2时刻对应的音频特征、T3时刻对应的音频特征、T4时刻对应的音频特征以及T5时刻对应的音频特征均为候选切换特征。

下面列举两种确定候选切换特征的实现方式，当然，本公开实施例仅以此为例进行说明，并不对确定候选切换特征的方式进行限定。

一种方式中，可以比较各音频播放时刻对应音频特征的特征值，若音频特征的特征值既小于该音频特征对应音频播放时刻的前一时刻的特征值、又小于该音频特征对应音频播放时刻的后一时刻的特征值，可以将该音频特征确定为候选切换特征。

例如：以音频特征为MFCC特征的第一层特征为例，当音频播放时刻对应上述第一层特征的特征值为F1，该音频播放时刻的前一时刻对应音频特征的特征值为F2，该音频播放时刻的后一时刻对应音频特征的特征值为F3，且F1<F2、F1<F3，可以将特征值为F1的MFCC特征的第一层特征确定为候选切换特征。

另一种方式中，还可以在判断得到音频特征的特征值小于前后相邻时刻对应音频特征的特征值后，判断该音频特征的特征值是否小于预设特征值阈值，若为是，将该音频特征确定为候选切换特征。上述预设特征值阈值可以由工作人员根据经验设定。

步骤S1022：根据所确定的候选切换特征，检测预设时间段内发生音频切换的切换时刻。

由于候选切换特征既小于前一时刻的音频特征，又小于后一时刻的音频特征，所以，在候选切换特征前后存在发生音频切换的可能性，因此，可以根据各个候选切换特征，检测预设时间段内是否发生了音频切换。

本公开的一个实施例，可以选择特征值最小的候选切换特征；将所选择特征对应的音频播放时刻，确定为预设时间段内发生音频切换的切换时刻。

上述候选切换特征包括至少一个。如所确定的候选切换特征可以包括4个候选切换特征、8个候选切换特征等。

例如：假设各候选切换特征的特征值分别为：SF1、SF2、SF3、SF4，其中，SF1最小，可以将特征值为SF1的候选切换特征对应的音频播放时刻，确定为预设时间段内发生音频切换的切换时刻。

对于每一个候选切换特征而言，其小于前后两个时刻的音频特征，属于局部最小值，在此基础上，从局部时间段上来看，候选切换特征越小，说明在局部时间段内候选切换特征前后音频数据发生的变化越大，发生音频切换的概率越高，因此，以特征值最小的候选切换特征对应的音频播放时刻作为切换时刻，能够使得所得到的切换时刻更加准确。

本公开的另一个实施例中，还可以采用预设时刻调整系数对上述所选择特征对应的音频播放时刻进行调整，将调整后的音频播放时刻确定为上述切换时刻。

沿用上述例子，SF1对应的音频播放时刻为00:03:00，预设时刻调整系数为10s，采用上述调整系数对音频播放时刻进行调整，得到调整后的音频播放时刻可以为(00:03:00+10s)＝00:03:10，也就是切换时刻为00:03:10。

除上述确定切换时刻的方式外，还可以通过其他方式确定切换时刻，具体可以参见后续图5所示实施例，这里暂不详述。

在上述步骤S1021-S1022所属的实施例中，由于候选切换特征既小于前一时刻的音频特征，又小于后一时刻的音频特征，所以各个候选切换特征均为局部最小值，在候选切换特征前后存在发生音频切换的可能性，因此，基于候选切换特征检测预设时间段内发生音频切换的切换时刻，能够提高所确定出切换时刻的准确度。

视频中除了包含音频数据外，还包含视频帧数据。从视频片头片段向视频内容片段过度、以及从视频内容片段向视频片尾片段过度的过程中，除音频会发生切换之外，视频帧的图像内容也可能会发生改变。例如：电影视频中视频片尾片段显示演职表，从视频内容片段向视频片尾片段过度这一过程中，画面内容从电影内容切换到演职表信息。

基于上述分析，本公开的一个实施例中，参见图5，提供了第四种视频片段检测方法的流程示意图。与前述实施例相比，上述方法还包括步骤S105。

步骤S105：检测视频中预设时间段内视频帧中的文字信息。

检测视频帧中的文字信息时，可以是对视频中预设时间段内每一视频帧进行字符识别得到的文字信息。还可以是对视频中预设时间内每预设间隔的视频帧进行字符识别得到的文字信息。

一种实现方式中，可以采用OCR(Optical Character Recognition_，光学字符识别)技术识别视频帧中的文字信息。具体的，可以预先训练基于OCR技术的OCR识别模型，然后通过上述OCR识别模型识别视频帧中的文字信息。

另一种实现方式中，可以识别视频帧中文字信息所在区域，提取上述区域中文字信息的语义特征，根据语义特征确定视频帧中的文字信息。

需要说明的是，步骤S105可以和步骤S101并行执行，当然也可以和步骤S101串行执行，本公开实施例并不对此进行限定。

基于上述情况，在检测得到文字信息后，可以结合上述文字信息以及上述候选切换特征对视频片段进行检测。具体的，本实施例中上述步骤S1022中根据所确定的候选切换特征，检测预设时间段内发生音频切换的切换时刻，可以按照以下步骤S10221-S10222实现。

步骤S10221：根据检测到的文字信息，从预设时间段内的视频帧中，确定存在预设文字信息的目标视频帧。

上述预设文字信息是：视频片头片段播放结束后出现的文字信息，和/或视频片尾片段播放开始后出现的文字信息。

一种情况下，视频片头片段播放结束后和视频片尾片段播放开始后均出现文字信息，但是所出现的文字信息一般不同，这时上述预设文字信息中包括视频片头片段对应的预设文字信息和视频片尾片段对应的预设文字信息，只是两者对应的文字信息可以不同。

例如：电影视频中视频片头片段播放结束后，可能会出现故事内容所发生的时间、发生的场所等文字信息，在视频片尾片段播放开始后，可能会出现“演职表”等文字信息，因此，视频片头片段对应的预设文字信息可以为“xx年xx月xx日”，视频片尾片段对应的预设文字信息可以为“演职表”。

另一种情况下，在一些视频的视频片头片段和视频片尾片段中，可能仅有一个视频片段中经常出现文字信息，另一个视频片段中很少出现文字信息，对于这些视频，预设文字信息可以仅是一个视频片段对应的文字信息。例如，上述预设文字信息中仅包括视频片头片段对应的预设文字信息，或者仅包含视频片尾片段对应的预设文字信息。

例如：在纪录片视频中，视频片头片段播放结束后通常会出现“第xx期”，但视频片尾片段播放开始后很少出现文字信息或者很少出现特定的文字信息，所以可以仅设定视频片头片段对应的预设文字信息。

在确定目标视频帧时，一种实现方式中，可以将文字信息为预设文字信息的视频帧直接确定为目标视频帧。

例如：各视频帧的文字信息分别为：“主演”、“领衔主演”、“导演”、“第3集”，预设的文字信息为：“第X集”，可以将文字信息为“第3集”的视频帧直接确定为目标视频帧。

另一种实现方式中，可以计算各视频帧的文字信息与预设文字信息之间的相似度，将相似度大于预设相似度阈值的文字信息对应的视频帧确定为目标视频帧。

受视频帧自身内容、文字信息检测算法等因素的影响，可能能够成功在确定出目标视频帧，也可能不能成功确定出目标视频帧。鉴于此情况，本公开的一个实施例中，若不存在目标视频帧，还可以将特征值最小的候选切换特征对应的音频播放时刻，确定为预设时间段内发生音频切换的切换时刻。这样，即便不存在目标视频帧，依然能够保证得到预设时间段内发生音频切换的切换时刻。

步骤S10222：从各候选切换特征对应的音频播放时刻中，选择与目标视频帧的播放时刻间隔最小的音频播放时刻，作为预设时间段内发生音频切换的切换时刻。

具体的，可以计算各候选切换特征的音频播放时刻与目标视频帧的播放时刻之间的时间差异，将时间差异最小的音频播放时刻确定为上述切换时刻。

本实施例提供的方案中，在确定切换时刻时，除了考虑可能发生音频切换的候选切换时刻外，还考虑了视频帧中的文字信息，将候选切换时刻与出现预设文字信息的视频帧相结合确定真实发生音频切换的时刻，从而提高了所确定出切换时刻的准确率，进而提高所检测出视频片头片段、视频片尾片段的准确度。

下面以单集电视剧视频为例，结合结合图6，对本公开实施例提供的视频片段检测方案进行具体说明。上述方法包括以下步骤S601-S609。

步骤S601：截取单集电视剧视频前5分钟的第一视频片段和后5分钟的第二视频片段。

步骤S602：抽取前第一视频片段中的第一音频数据和第二视频片段中的第二音频数据。

步骤S603：提取第一音频数据的MFCC特征的第一层特征和第二音频数据的MFCC特征的第一层特征。

步骤S604：确定第一层特征中各局部最小特征为候选切换特征。

步骤S605：抽取第一视频片段的视频帧和第二视频片段的视频帧。

步骤S606：识别各视频帧中的文字信息。

步骤S607：根据各视频帧中的文字信息，确定存在预设文字信息的目标视频帧。

上述预设文字信息可以为“第XX集”。

上述步骤S602-604可以与步骤S605-S607并行执行，也可以串行执行，本公开实施例并不限定S602-604与步骤S605-S607之间的执行顺序。

步骤S608：根据目标视频帧和各候选切换特征，确定第一音频数据中发生音频切换的第一时刻和第二音频数据中发生音频切换的第二时刻。

将第一时刻确定为视频片头片段的结束时刻，将第二时刻确定为视频片尾片段的开始时刻。

步骤S609：将单集电视剧视频的开始时刻至视频片头片段的结束时刻这一时间段对应的视频片段作为单集电视剧视频的视频片头片段，将视频片尾片段的开始时刻至单集电视剧视频的结束时刻这一时间段对应的视频片段作为单集电视剧视频的视频片尾片段。

以下对本公开实施例提供的视频片段检测装置进行说明。

参见图7，图7为本公开实施例提供的第一种视频片段检测装置的结构示意图，上述装置包括以下模块701-704。

特征获得模块701，用于获得视频中音频数据在预设时间段内的音频特征，其中，所述预设时间段包括：从所述视频的开始时刻向后延伸第一预设时长的第一时间段，和/或，从所述视频的结束时刻向前延伸第二预设时长的第二时间段；

时刻检测模块702，用于根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻；

第一片段确定模块703，用于若所述预设时间段包括所述第一时间段、且所述切换时刻位于所述第一时间段，根据所述视频的开始时刻和所述切换时刻，确定所述视频的视频片头片段；和/或

第二片段确定模块704，用于若所述预设时间段包括所述第二时间段、且所述切换时刻位于所述第二时间段，根据所述切换时刻和所述视频的结束时刻，确定所述视频的视频片尾片段。

可见本公开实施例提供的方案中，首先获得视频中音频数据在预设时间段内的音频特征。其次，根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻。最后，当预设时间段包括第一时间段，且切换时刻位于第一时间段，根据视频的开始时刻和切换时刻，确定视频的视频片头片段，和/或，当预设时间段包括第二时间段，且切换时刻位于第二时间段，根据切换时刻和视频的结束时刻，确定视频的视频片尾片段。因此，能够准备地检测出视频片头片段和视频片尾片段。

除此之外，一方面，由于第一时间段表示的是视频开始后的一段时间，所以，视频中音频数据在第一时间段内的音频特征能够反映视频片头片段以及视频内容片段的前段中音频数据的特征。本公开发现可以利用从视频片头片段向视频内容片段过度时，不仅视频中画面内容发生变化，音频内容也会发生变化这一信息，因此，根据前述获得的音频特征，检测出的第一时间段中发生音频切换的时刻，能够反映视频片头片段的结束时刻，这样根据能够视频的开始时刻和发生音频切换的时刻，检测出视频片头片段。

另一方面，由于第二时间段表示的是视频临近结束的一段时间，所以，视频中音频数据在第二时间段内的音频特征能够反映视频内容片段的后段以及视频片尾片段中音频数据的特征。本公开发现可以利用从视频内容片段向视频片尾片段过度时，不仅视频中画面内容发生变化，音频内容也会发生变化这一信息，因此，根据前述获得的音频特征，检测出的第二时间段中发生音频切换的时刻，能够反映视频片尾片段的开始时刻，这样根据发生音频切换的时刻和视频的结束时刻，能够检测出视频片尾片段。

参见图8，图8为本公开实施例提供的第二种片段检测装置的结构示意图，上述特征获得模块701包括以下子模块7011-7013。

片段截取子模块7011，用于截取视频在预设时间段内的视频片段；

数据抽取子模块7012，用于从所述视频片段中抽取音频数据；

特征提取子模块7013，用于提取表征所述音频数据的音调和/或音高的音频特征。

本公开的一个实施例中，上述特征提取子模块7013，具体用于提取所述音频数据的梅尔频率倒谱系数MFCC特征；获得所述MFCC特征的第一层特征，作为表征所述音频数据的音调和/或音高的音频特征。

参见图9，图9为本公开实施例提供的第三种视频片段检测装置的结构示意图，在上述实施例的基础上，上述时刻检测模块702包括以下子模块7021-7022。

特征确定子模块7021，用于确定所述音频特征中的候选切换特征，其中，所述候选切换特征的特征值小于第一音频特征的特征值、且小于第二音频特征的特征值，所述第一音频特征对应的音频播放时刻为：所述候选切换特征所对应音频播放时刻的前一时刻，所述第二音频特征对应的音频播放时刻为：所述候选切换特征所对应音频播放时刻的后一时刻；

时刻检测子模块7022，用于根据所确定的候选切换特征，检测所述预设时间段内发生音频切换的切换时刻。

由于候选切换特征既小于前一时刻的音频特征，又小于后一时刻的音频特征，所以各个候选切换特征均为局部最小值，在候选切换特征前后存在发生音频切换的可能性，因此，基于候选切换特征检测预设时间段内发生音频切换的切换时刻，能够提高所确定出切换时刻的准确度。

本发明的一个实施例中，上述候选切换特征包括至少一个，上述时刻检测子模块7022，还用于选择特征值最小的候选切换特征；将所选择特征对应的音频播放时刻，确定为所述预设时间段内发生音频切换的切换时刻。

参见图10，图10为本公开实施例还提供了第四种片段检测装置的结构示意图，上述候选切换特征包括至少一个，上述装置还包括：信息检测模块705。

所述信息检测模块705，用于检测所述视频中所述预设时间段内视频帧中的文字信息；

在上述实施例的基础上，上述时刻检测子模块7022包括以下单元70221-70222：

视频帧确定单元70221，用于根据检测到的文字信息，从所述预设时间段内的视频帧中，确定存在预设文字信息的目标视频帧；

第一时刻确定单元70222，用于从各候选切换特征对应的音频播放时刻中，选择与所述目标视频帧的播放时刻间隔最小的音频播放时刻，作为所述预设时间段内发生音频切换的切换时刻。

本发明的一个实施例中，上述时刻检测子模块7022，还包括第二时刻确定单元，

所述第二时刻确定单元，用于若不存在所述目标视频帧，将特征值最小的候选切换特征对应的音频播放时刻，确定为所述预设时间时间段内发生音频切换的切换时刻。

这样，即便不存在目标视频帧，依然能够保证得到预设时间段内发生音频切换的切换时刻。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开的一个实施例中，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述方法实施例中任一视频片段检测方法。

本公开的一个实施例中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述方法实施例中任一视频片段检测方法。

本公开的一个实施例中，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述方法实施例中任一视频片段检测方法。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如视频片段检测方法。例如，在一些实施例中，视频片段检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的视频片段检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频片段检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频片段检测方法，包括：

2.根据权利要求1所述的方法，其中，所述获得视频中音频数据在预设时间段内的音频特征，包括：

截取视频在预设时间段内的视频片段；

从所述视频片段中抽取音频数据；

提取表征所述音频数据的音调和/或音高的音频特征。

3.根据权利要求2所述的方法，其中，所述提取表征所述音频数据的音调和/或音高的音频特征，包括：

提取所述音频数据的梅尔频率倒谱系数MFCC特征；

获得所述MFCC特征的第一层特征，作为表征所述音频数据的音调和/或音高的音频特征。

4.根据权利要求1-3中任一项所述的方法，其中，所述根据所述音频特征，检测所述预设时间段内发生音频切换的切换时刻，包括：

确定所述音频特征中的候选切换特征，其中，所述候选切换特征的特征值小于第一音频特征的特征值、且小于第二音频特征的特征值，所述第一音频特征对应的音频播放时刻为：所述候选切换特征所对应音频播放时刻的前一时刻，所述第二音频特征对应的音频播放时刻为：所述候选切换特征所对应音频播放时刻的后一时刻；

根据所确定的候选切换特征，检测所述预设时间段内发生音频切换的切换时刻。

5.根据权利要求4所述的方法，其中，所述候选切换特征包括至少一个，所述根据所确定的候选切换特征，检测所述预设时间段内发生音频切换的切换时刻，包括：

选择特征值最小的候选切换特征；

将所选择特征对应的音频播放时刻，确定为所述预设时间段内发生音频切换的切换时刻。

6.根据权利要求4所述的方法，所述候选切换特征包括至少一个，所述方法还包括：

检测所述视频中所述预设时间段内视频帧中的文字信息；

所述根据所确定的候选切换特征，检测所述预设时间段内发生音频切换的切换时刻，包括：

根据检测到的文字信息，从所述预设时间段内的视频帧中，确定存在预设文字信息的目标视频帧；

从各候选切换特征对应的音频播放时刻中，选择与所述目标视频帧的播放时刻间隔最小的音频播放时刻，作为所述预设时间段内发生音频切换的切换时刻。

7.根据权利要求6所述的方法，还包括：

若不存在所述目标视频帧，将特征值最小的候选切换特征对应的音频播放时刻，确定为所述预设时间段内发生音频切换的切换时刻。

8.一种视频片段检测装置，包括：

9.根据权利要求8所述的装置，其中，所述特征获得模块，包括：

片段截取子模块，用于截取视频在预设时间段内的视频片段；

数据抽取子模块，用于从所述视频片段中抽取音频数据；

特征提取子模块，用于提取表征所述音频数据的音调和/或音高的音频特征。

10.根据权利要求9所述的装置，其中，所述特征提取子模块，具体用于提取所述音频数据的梅尔频率倒谱系数MFCC特征；获得所述MFCC特征的第一层特征，作为表征所述音频数据的音调和/或音高的音频特征。

11.根据权利要求8-10中任一项所述的装置，其中，所述时刻检测模块，包括：

特征确定子模块，用于确定所述音频特征中的候选切换特征，其中，所述候选切换特征的特征值小于第一音频特征的特征值、且小于第二音频特征的特征值，所述第一音频特征对应的音频播放时刻为：所述候选切换特征所对应音频播放时刻的前一时刻，所述第二音频特征对应的音频播放时刻为：所述候选切换特征所对应音频播放时刻的后一时刻；

时刻检测子模块，用于根据所确定的候选切换特征，检测所述预设时间段内发生音频切换的切换时刻。

12.根据权利要求11所述的装置，其中，所述候选切换特征包括至少一个，所述时刻检测子模块，还用于选择特征值最小的候选切换特征；将所选择特征对应的音频播放时刻，确定为所述预设时间段内发生音频切换的切换时刻。

13.根据权利要求11所述的装置，其中，所述候选切换特征包括至少一个，所述装置还包括：信息检测模块，

所述信息检测模块，用于检测所述视频中所述预设时间段内视频帧中的文字信息；

所述时刻检测子模块，包括：

视频帧确定单元，用于根据检测到的文字信息，从所述预设时间段内的视频帧中，确定存在预设文字信息的目标视频帧；

第一时刻确定单元，用于从各候选切换特征对应的音频播放时刻中，选择与所述目标视频帧的播放时刻间隔最小的音频播放时刻，作为所述预设时间段内发生音频切换的切换时刻。

14.根据权利要求13所述的装置，所述时刻检测子模块，还包括第二时刻确定单元，

所述第二时刻确定单元，用于若不存在所述目标视频帧，将特征值最小的候选切换特征对应的音频播放时刻，确定为所述预设时间段内发生音频切换的切换时刻。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。