CN104159152A

CN104159152A - 一种针对影视视频的时间轴自动产生方法

Info

Publication number: CN104159152A
Application number: CN201410423608.5A
Authority: CN
Inventors: 程国艮; 袁翔宇; 王宇晨
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Chinese translation language through Polytron Technologies Inc
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2014-11-19
Anticipated expiration: 2034-08-26
Also published as: CN104159152B

Abstract

本发明是一种针对影视视频的时间轴自动产生方法，包括以下步骤：（1）视频场景分析，视频场景分析分为两个部分：i.通过视频镜头分析，分析出子场景；ii.通过语音特征分析，对子场景聚类，聚类为大场景；对于连续出现的子场景，通过过零率和短时能量，区分出噪音和语音，然后，比较连续子场景的平均过零率和短时能量，当差异在预先设定的阈值内，则这两个子场景属于一个大场景，对子场景进行聚类，聚类为大场景；（2）场景里的语音时间轴切分；（3）整体视频时间轴的切分；将不同场景所检测得到的时间轴数据合并，即可得到整体的视频时间轴。本发明的针对影视视频的时间轴自动产生方法，可以自动提取出语音片段，产生字幕时间轴。

Description

一种针对影视视频的时间轴自动产生方法

技术领域

本发明涉及计算机软件技术领域，尤指一种针对影视视频的时间轴自动产生方法。

背景技术

影视类视频的特点是：说话人众多；环境噪音干扰大；存在片首曲、片尾曲和配音的干扰。现有技术对影视类视频的处理方法中，通常，影视类视频长度为0.5-2小时。以1小时的视频为例，切分出时间轴，需要1-2小时的人工，需要投入比较大的人力，并且效率工作效率较低。现有技术中，通过视频镜头分析，分析出子场景的方法很多，郭小川的2011年复旦大学硕士论文《基于内容的视频场景分析方法研究》中也介绍了关于视频场景分析方法的研究。所以在这样的一个现有技术的基础上，结合其他时间轴的切分技术，来实现自动产生时间轴的方法显得可行并且迫切。

发明内容

为了解决上述问题，本发明提供一种针对影视视频的时间轴自动产生方法，可以自动提取出语音片段，产生字幕时间轴。

本发明通过视频分析得到子场景，再通过噪音特征聚类得到大场景；并且对大场景进行语音端点检测得到时间轴，再进行合并成整体时间轴。

本发明是一种针对影视视频的时间轴自动产生方法，包括以下步骤：

（1）视频场景分析，视频场景分析分为两个部分：

i. 通过视频镜头分析，分析出子场景；

ii. 通过语音特征分析，对子场景聚类，聚类为大场景；对于连续出现的子场景，通过过零率和短时能量，区分出噪音和语音，然后，比较连续子场景的平均过零率和短时能量，当差异在预先设定的阈值内，则这两个子场景属于一个大场景，对子场景进行聚类，聚类为大场景；

（2）场景里的语音时间轴切分；

（3）整体视频时间轴的切分；将不同场景所检测得到的时间轴数据合并，即可得到整体的视频时间轴。

本发明的有益技术效果在于：本发明通过语音分析的方式，自动得到影视视频的时间轴，主要用于给影视视频加配字幕时的预处理，省去了人工调制的过程。

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。

本发明是一种针对影视视频的时间轴自动产生方法，本实施例做以下假设：（1）视频由多个场景构成的；（2）每个场景的环境噪音和配音是稳定的。在此假设下，针对影视视频的时间轴自动产生方法包括以下步骤：

（1）视频场景分析，视频场景分析分为两个部分：

i. 通过视频镜头分析，分析出子场景；通过视频分析，将视频分割为一个个的场景有很多种方法。ii. 通过语音特征分析，对子场景聚类，聚类为大场景。比如说，一副室内剧，剧里有几个演员，镜头在几个演员之间切换。通过分析镜头，可以将这样的场景切分出来。但是，这样的场景过于细，而我们需要的是“室内”这个大场景，这个大场景的语音背景、配音背景是一致的，所以，需要同归语音特征分析，对这样的场景进行聚类。对于连续出现的子场景，通过过零率和短时能量，区分出噪音和语音，然后，比较连续子场景的平均过零率和短时能量，当差异在预先设定的阈值内，则这两个子场景属于一个大场景，对子场景进行聚类，聚类为大场景。

（2）场景里的语音时间轴切分；对一个场景内，由于背景音和环境音比较单一，可以使用传统的方法进行语音端点检测，得到语音时间轴。比如，根据过零率和短时能量的双阈值端点检测。

Claims

1.一种针对影视视频的时间轴自动产生方法，其特征在于，包括以下步骤：

（1）视频场景分析，视频场景分析分为两个部分：

i. 通过视频镜头分析，分析出子场景；

ii.通过语音特征分析，对子场景聚类，聚类为大场景；对于连续出现的子场景，通过过零率和短时能量，区分出噪音和语音，然后，比较连续子场景的平均过零率和短时能量，当差异在预先设定的阈值内，则这两个子场景属于一个大场景，对子场景进行聚类，聚类为大场景；

（2）场景里的语音时间轴切分；