CN104469487B

CN104469487B - 一种场景切换点的检测方法及装置

Info

Publication number: CN104469487B
Application number: CN201410845412.5A
Authority: CN
Inventors: 吴凯凯; 卢学裕; 付鹏; 白雪; 吴鑫; 姚键; 潘柏宇; 卢述奇
Original assignee: Youku Network Technology Beijing Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2019-02-12
Anticipated expiration: 2034-12-31
Also published as: CN104469487A

Abstract

本发明提供一种场景切换点的检测方法及装置，包括：获取第一视频；提取所述第一视频中音频数据作为第一音频数据；根据所述第一音频数据确定场景的切换位置。通过使用以上方法，可以根据视频中的具体音频信息来判断视频中场景的切换，避免了现有技术中依赖人工进行标注的复杂工作，提高了视频处理的工作效率。

Description

一种场景切换点的检测方法及装置

技术领域

本发明涉及数字多媒体技术领域，特别是一种场景切换点的检测方法及装置。

背景技术

随着数字多媒体技术的快速发展，越来越多的多媒体技术应用到人们的工作和生活中。

在视频编辑领域，经常会接触到“关键帧”的概念，我们可以使用相关算法或工具处理得到某一视频中存在的所有关键帧。例如，在某个电视剧中，从5分30秒开始至10分15秒是一个在咖啡厅会谈的场景；而在10分16秒至12分30秒时是在汽车中对话的场景。因此，在10分16秒里包含一个关键帧，而此处正好是一个场景开始的位置。并且在该时间点后续的对话中，可能会频繁的切换镜头角度，导致相关的算法或工具判断出很多的关键帧，但这些关键帧都不是场景正确的结束位置。

由于在实际中一个场景会有很多个镜头切换，因此仅通过关键帧数据是无法比较准确的定位一个较完整的场景的开始或结束位置。现有的视频场景的标注方法是由人工浏览影片的方式确定不同场景的开始或结束位置。这对编辑人员的经验以及工作强度要求较高，且处理效率很低。

因此，如何提供一种可以对场景切换点进行自动检测的方法和装置是本发明需要解决的问题。

发明内容

针对现有技术的缺陷，本发明提供了一种场景切换点的检测方法及装置，解决了现有技术中依赖人工操作的问题，同时可以更加精确的判断出场景切换的位置点。

一种场景切换点的检测方法，包括：

获取第一视频；

提取所述第一视频中音频数据作为第一音频数据；

根据所述第一音频数据确定场景的切换位置。

优选地，所述提取所述第一视频中音频数据作为第一音频数据，具体为：

提取所述第一视频中的人声音频作为所述第一音频数据。

提取所述第一视频中的背景音频作为所述第一音频数据。

优选地，所述根据所述第一音频数据确定场景的切换位置，具体为：

检测第一音频数据中的声波变化特征；

根据所述声波变化特征确定场景的切换位置。

在根据所述第一音频数据确定场景的切换位置之后，还包括：

获取预判位置信息；

根据所述预判位置信息修正所述场景的切换位置。

一种场景切换点的检测装置，包括：视频获取单元、第一音频提取单元和切换位置确定单元；

所述视频获取单元，用于获取第一视频；

所述第一音频提取单元，用于提取所述第一视频中音频数据作为第一音频数据；

所述切换位置确定单元，用于根据所述第一音频数据确定场景的切换位置。

优选地，所述第一音频提取单元，包括：人声音频提取子单元；

所述人声音频提取子单元，用于提取所述第一视频中的人声音频作为所述第一音频数据。

优选地，所述第一音频提取单元，包括：背景音频提取子单元；

所述背景音频提取子单元，用于提取所述第一视频中的背景音频作为所述第一音频数据。

优选地，所述切换位置确定单元，包括：声音检测子单元和特征判定子单元；

所述声音检测子单元，用于检测第一音频数据中的声波变化特征；

所述特征判定子单元，用于根据所述声波变化特征确定场景的切换位置。

优选地，还包括：预判信息修正单元；

所述预判信息修正单元，用于获取预判位置信息，根据所述预判位置信息修正所述场景的切换位置。

本发明的有益效果是：

在本实施例中，首先获取第一视频，之后提取所述第一视频中音频数据作为第一音频数据，最后根据所述第一音频数据确定场景的切换位置。通过使用以上方法，可以根据视频中的具体音频信息来判断视频中场景的切换，避免了现有技术中依赖人工进行标注的复杂工作，提高了视频处理的工作效率。

附图说明

图1是本发明提供的一种场景切换点的检测方法第一实施例的流程图；

图2是本发明提供的一种场景切换点的检测方法第二实施例的流程图；

图3是本发明提供的一种场景切换点的检测方法第三实施例的流程图；

图4是本发明提供的一种场景切换点的检测装置第一实施例的原理框图；

图5是本发明提供的一种场景切换点的检测装置第二实施例的原理框图；

图6是本发明提供的一种场景切换点的检测装置第三实施例的原理框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明，使本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按比例绘制附图，重点在于示出本发明的主旨。

参见图1，该图为本发明提供的一种场景切换点的检测方法第一实施例的流程图。

本实施例中，包括：

S101: 获取第一视频。

S102: 提取所述第一视频中音频数据作为第一音频数据。

S103: 根据所述第一音频数据确定场景的切换位置。

在本实施例中，首先获取到需要进行场景切换点校验的第一视频数据。例如某一个电影或电视剧视频。

在视频的每一个场景中，一般都会对应有某一场景的声音特征。例如，在咖啡厅中会谈，背景声音一般为较为舒缓的音乐声音，而如果在菜市场中的场景，则背景声音一般为较为嘈杂的声音。

因此，在得到第一视频后，提取出第一视频中的音频数据（如视频的中音频波型图），作为第一音频数据。

之后对第一音频数据进行分析，例如根据第一音频数据中的波型图判断对话或背景音的中断或起伏，从而判断出否存在场景上的切换，进而确定视频中的场景切换位置。

参见图2，该图为本发明提供的一种场景切换点的检测方法第一实施例的流程图。

本实施例中的步骤S201与本发明提供的一种场景切换点的检测方法第一实施例中的步骤S101相同，在此不再重复进行介绍。

在本实施例中，所述提取所述第一视频中音频数据作为第一音频数据，具体为：

S202: 提取所述第一视频中的人声音频或背景音频作为所述第一音频数据。

由于在第一视频的音频数据中包括有多种声音，因此可以使用其中不同声音作为判断场景切换的条件。其中，优选地可以使用音频数据中的人声对话音频或背景音频进行。

如果使用人声对话音频作为判断条件，则需要首先获取出第一视频的音频，之后对其中属于人声波段的声音进行加强，而对其它波段（如背景音等）进行抑制，从而突出人声音频。

如果使用背景音频作为判断条件，则在获取到第一视频的音频后，对处于人声波段的声音进行抑制或去除，而只保留有非人声波段的声音（在一般情况下，该波段声音大部分为背景声音）。

在本实施例中，在得到上述的第一音频后，还需要使用该音频确定视频中场景切换的具体位置。

具体地，

S203: 检测第一音频数据中的声波变化特征。

S204: 根据所述声波变化特征确定场景的切换位置。

以人声音频作为判断条件为例：每个人的声音都有自己的特点，因此在一个对话场景中对话双方的音频声波是相同或相近似的。而此时如果切换到另外的一个场景，对话的双方很可能发生了变化，则音频声波的较之前的声波特征肯定会发生变化。根据该变化进而确定出视频中的场景发生了变化。

而以背景音频作为判断条件时，由于在某一个场景中一般都会伴有相同或相近似的声音。如在咖啡厅会伴有持续优雅的歌曲，而在菜市场中都会一直伴有嘈杂的背景音。因此，如果背景音频发生了变化，则可以判断为场景进行了切换，发生变化的位置即场景切换的位置。

另外，如果只是单纯使用人声音频或背景音频进行判断可能还存在一定的误判的情况。为了能够更加准确的判断出场景的切换变化，还可以同时对第一视频中的人声音频和背景音频进行判断，这样可以大幅提高场景切换位置判断的准确性。例如，如果只是人声音频上的变化而背景音频没有变化，则判断可能是在同一场景上出现了新的谈话对象，但剧情的场景没有变化；而如果在视频中的某一个时间位置上人声和背景音都发生了变化，则可以认为场景发生了变化。

通过使用以上方法，可以结合第一视频中的音频内容对场景切换进行准确判断，从而减少了人工对视频进行场景切换标注的工作，提高了对视频处理的工作效率。

参见图3，该图为本发明提供的一种场景切换点的检测方法第三实施例的流程图。

本实施例中的步骤S301-S303与本发明提供的一种场景切换点的检测方法第一实施例中的步骤S101-S103相同，在此不再重复进行介绍。

在本实施例中，在根据所述第一音频数据确定场景的切换位置之后，还包括：

S304: 获取预判位置信息；

S305: 根据所述预判位置信息修正所述场景的切换位置。

在本实施例中，为了更加准确的得到场景切换的位置，还可以进一步结合关键帧的方式来修正得到的场景切换点位置。

具体的，在确定场景的切换位置之后，再进一步获取到已经在第一视频中标注出的预判位置信息。这些预判位置信息是由人工、算法或其它工具根据视频图像判断出的场景切换时间点信息。

例如，在第一视频中标注出在第5分30秒位置、10分15秒位置、12分钟30秒位置存在多个场景切换。

此时，可以将通过音频确认得到的场景切换位置与标注的预判位置信息进行比较。如果两者时间相同，则认为该位置点即为场景切换位置。如果不相同，则以预判位置信息中的时间点作为第一视频中的场景切换位置。

如，根据音频数据确定在第5分30秒时存在场景切换点，经与预判位置信息相比较，在预判位置信息中也存在第5分30秒的场景切换点，则认为该位置确为场景切换的位置点。若根据音频数据确定在第5分31秒时存在场景切换点，而在预判位置信息中的切换位置点为第5分30秒，则以第5分30秒为准作为场景的切换位置。

通过使用以上方法，可以结合预判位置信息来更加准确地修正的场景切换位置，从而为后续的视频处理工作提供准确的信息。

另外，结合本发明提供的一种场景切换点的检测方法，还可以提供一种场景切换点的检测装置，具体如下：

参见图4，该图为本发明提供的一种场景切换点的检测装置第一实施例的原理框图。

在本实施例中，包括：视频获取单元10、第一音频提取单元20和切换位置确定单元30；

所述视频获取单元10，用于获取第一视频。

所述第一音频提取单元20，用于提取所述第一视频中音频数据作为第一音频数据。

所述切换位置确定单元30，用于根据所述第一音频数据确定场景的切换位置。

在本实施例中，视频获取单元10首先获取到需要进行场景切换点校验的第一视频数据。例如某一个电影或电视剧视频。

因此，在得到第一视频后，第一音频提取单元20提取出第一视频中的音频数据（如视频的中音频波型图），作为第一音频数据。

之后切换位置确定单元30对第一音频数据进行分析，例如根据第一音频数据中的波型图判断对话或背景音的中断或起伏，从而判断出否存在场景上的切换，进而确定视频中的场景切换位置。

在本实施例中，包括：视频获取单元、第一音频提取单元和切换位置确定单元。其中，视频获取单元用于获取第一视频。第一音频提取单元用于提取第一视频中音频数据作为第一音频数据。切换位置确定单元用于根据第一音频数据确定场景的切换位置。通过使用以上装置，可以根据视频中的具体音频信息来判断视频中场景的切换，避免了现有技术中依赖人工进行标注的复杂工作，提高了视频处理的工作效率。

参见图5，该图为本发明提供的一种场景切换点的检测装置第二实施例的原理框图。

由于在第一视频的音频数据中包括有多种声音，因此可以使用其中不同声音作为判断场景切换的条件。其中，优选地可以使用音频数据中的人声对话音频或背景音频进行。因此，在第一音频提取单元20中，可以包括：人声音频提取子单元201，或者包括：背景音频提取子单元202。

所述人声音频提取子单元201，用于提取所述第一视频中的人声音频作为所述第一音频数据。

所述背景音频提取子单元202，用于提取所述第一视频中的背景音频作为所述第一音频数据。

如果由人声音频提取子单元201使用人声对话音频作为判断条件，则需要首先获取出第一视频的音频，之后对其中属于人声波段的声音进行加强，而对其它波段（如背景音等）进行抑制，从而突出人声音频。

如果由背景音频提取子单元202使用背景音频作为判断条件，则在获取到第一视频的音频后，对处于人声波段的声音进行抑制或去除，而只保留有非人声波段的声音（在一般情况下，该波段声音大部分为背景声音）。

具体地，在所述切换位置确定单元30中，包括有：声音检测子单元301和特征判定子单元302。

所述声音检测子单元301，用于检测第一音频数据中的声波变化特征。

所述特征判定子单元302，用于根据所述声波变化特征确定场景的切换位置。

以人声音频作为判断条件为例：每个人的声音都有自己的特点，因此在一个对话场景中对话双方的音频声波是相同或相近似的。而此时如果切换到另外的一个场景，对话的双方很可能发生了变化，则声音检测子单元301检测到音频声波的较之前的声波特征发生变化。根据该变化特征判定子单元302进而确定出视频中的场景发生了变化。

而以背景音频作为判断条件时，由于在某一个场景中一般都会伴有相同或相近似的声音。如在咖啡厅会伴有持续优雅的歌曲，而在菜市场中都会一直伴有嘈杂的背景音。因此，如果声音检测子单元301检测到背景音频发生了变化，则特征判定子单元302可以判断为场景进行了切换，发生变化的位置即场景切换的位置。

另外，如果只是单纯使用人声音频或背景音频进行判断可能还存在一定的误判的情况。为了能够更加准确的判断出场景的切换变化，还可以同时使用人声音频提取子单元201和背景音频提取子单元202进行判断，这样可以大幅提高场景切换位置判断的准确性。例如，如果只是人声音频上的变化而背景音频没有变化，则判断可能是在同一场景上出现了新的谈话对象，但剧情的场景没有变化；而如果在视频中的某一个时间位置上人声和背景音都发生了变化，则可以认为场景发生了变化。

通过使用以上装置，可以结合第一视频中的音频内容对场景切换进行准确判断，从而减少了人工对视频进行场景切换标注的工作，提高了对视频处理的工作效率。

参见图6，该图为本发明提供的一种场景切换点的检测装置第三实施例的原理框图。

在本实施例中，还包括：预判信息修正单元40；

所述预判信息修正单元40，用于获取预判位置信息，根据所述预判位置信息修正所述场景的切换位置。。

具体的，在确定场景的切换位置之后，使用预判信息修正单元40进一步获取到已经在第一视频中标注出的预判位置信息。这些预判位置信息是由人工、算法或其它工具根据视频图像判断出的关键帧场景切换信息。

例如，预判位置信息在第一视频中标注出在第5分30秒位置、10分15秒位置、12分钟30秒位置存在多个场景切换。

此时，预判信息修正单元40将通过音频确认得到的场景切换位置与标注的预判位置信息进行比较。如果两者时间相同，则认为该位置点即为场景切换位置。如果不相同，则以预判位置信息中的时间点作为第一视频中的场景切换位置。

通过使用以上装置，可以结合预判位置信息来更加准确地修正的场景切换位置，从而为后续的视频处理工作提供准确的信息。

在以上的描述中阐述了很多具体细节以便于充分理解本发明。但是以上描述仅是本发明的较佳实施例而已，本发明能够以很多不同于在此描述的其它方式来实施，因此本发明不受上面公开的具体实施的限制。同时任何熟悉本领域技术人员在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种场景切换点的检测方法，其特征在于，包括：

获取第一视频；

提取所述第一视频中的音频数据作为第一音频数据；以及

根据所述第一音频数据确定场景的切换位置；

其中，所述提取所述第一视频中的音频数据作为第一音频数据，具体为：

提取所述第一视频中的人声音频，对人声音频波段进行加强，并对其他波段进行抑制，并且，提取所述第一视频中的背景音频，对人声音频波段进行抑制或去除，从而将提取出的人声音频和背景音频作为所述第一音频数据；

其中，所述根据所述第一音频数据确定场景的切换位置，具体为：

检测所述人声音频的中的声波变化特征；

检测所述背景音频中的声波变化特征；以及

根据所述人声音频中的声波变化特征以及所述背景音频中的声波变化特征确定场景的切换位置，在所述第一视频中的一个时间位置上的所述人声音频和所述背景音频都发生了变化的情况下，将该一个时间位置确定为场景的切换位置。

2.根据权利要求1所述的方法，其特征在于，在根据所述第一音频数据确定场景的切换位置之后，还包括：

获取预判位置信息；

根据所述预判位置信息修正所述场景的切换位置。

3.一种场景切换点的检测装置，其特征在于，包括：视频获取单元、第一音频提取单元和切换位置确定单元；

其中，所述视频获取单元，用于获取第一视频；

所述第一音频提取单元，用于提取所述第一视频中的音频数据作为第一音频数据；

所述切换位置确定单元，用于根据所述第一音频数据确定场景的切换位置；

其中，所述第一音频提取单元提取所述第一视频中的人声音频和背景音频作为所述第一音频数据，其包括：人声音频提取子单元和背景音频提取子单元；

所述人声音频提取子单元，用于提取所述第一视频中的人声音频，对人声音频波段进行加强，并对其他波段进行抑制；

所述背景音频提取子单元，用于提取所述第一视频中的背景音频，对人声音频波段进行抑制或去除；

其中，所述切换位置确定单元，包括：声音检测子单元和特征判定子单元；

所述声音检测子单元，用于检测所述人声音频中的声波变化特征，以及检测所述背景音频中的声波变化特征；

所述特征判定子单元，用于根据所述人声音频中的声波变化特征以及所述背景音频中的声波变化特征确定场景的切换位置，在所述第一视频中的一个时间位置上的所述人声音频和所述背景音频都发生了变化的情况下，将该一个时间位置确定为场景的切换位置。

4.根据权利要求3所述的装置，其特征在于，还包括：预判信息修正单元；