CN104159145A

CN104159145A - 一种针对讲座视频的时间轴自动产生方法

Info

Publication number: CN104159145A
Application number: CN201410423661.5A
Authority: CN
Inventors: 程国艮; 袁翔宇; 王宇晨
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Mandarin Technology (beijing) Co Ltd
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2014-11-19
Anticipated expiration: 2034-08-26
Also published as: CN104159145B

Abstract

本发明是一种针对讲座视频的时间轴自动产生方法，包括以下步骤：第一步，扫描一遍视频，通过小波变换和自相关函数法检测出基音频率；第二步，寻找基音频率的平均值μ和标准差σ，作为讲话人的基因频率；第三步，根据基音频率，进行初划分，划分为时间轴单元；第四步，对于每一个时间轴单元，计算其基音频率相似性A及频谱相似性B，对于A，B取两个阈值，当A和B均大于这两个阈值时，认为是演讲人在说话，排除非演讲人说话的时间轴，得到的时间轴为演讲人说话的时间轴。本发明是一种针对视频讲座可以自动产生出高精度的讲座视频时间轴的方法。

Description

一种针对讲座视频的时间轴自动产生方法

技术领域

本发明涉及计算机软件技术领域，尤指一种针对讲座视频的时间轴自动产生方法。

背景技术

讲座、演讲、讲话类视频的特点是：（1）主讲人单一；（2）环境噪音干扰小；（3）主要的干扰是掌声、笑声、拖音和呼吸声。通常，讲座视频长度为10分钟-2小时。以1小时的视频为例，切分出时间轴，需要1-2小时的人工,浪费人力物力。

发明内容

为解决上述问题，本发明提供一种可以自动产生出高精度的讲座视频时间轴的针对讲座视频的时间轴自动产生方法。

本发明是一种针对讲座视频的时间轴自动产生方法，使用频率相似性和频谱相似性结合来得到时间轴语音段；并且采用二次扫描，根据过零率，得到更精确的时间轴语音段，包括以下步骤：

第一步，扫描一遍视频，通过小波变换和自相关函数法检测出基音频率；

第二步，寻找基音频率的平均值μ和标准差σ，作为讲话人的基因频率；

第三步，根据基音频率，进行初划分，划分为时间轴单元；

第四步，对于每一个时间轴单元，计算其基音频率相似性A及频谱相似性B，所述频率相似性A，既是该时间轴的基音平均频率，在以第二步计算得到的，基音频率的平均值μ和标准差σ所得到的正态分布上，所出现的概率；所述频谱相似性B的计算方式如下：每个时间轴由N帧组成，计算每一帧与前一帧的基因频率差的平均值D；取一个阈值K，当D<K时，B = 1，当D>K时，B按线性衰减；对于A，B取两个阈值，当A和B均大于这两个阈值时，认为是演讲人在说话，排除非演讲人说话的时间轴，得到的时间轴为演讲人说话的时间轴。

本发明的有益技术效果在于：本方法通过语音分析的方式，自动得到讲座视频的时间轴，主要用于给讲座、演讲、讲话类视频加配字幕时的预处理，省去了人工调制的过程。本方法可以自动产生出高精度的讲座视频时间轴，节省大量的人工。

附图说明

图1为划分的时间轴单元示意图。

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。

本方法通过语音分析的方式，自动得到讲座视频的时间轴，主要用于给讲座、演讲、讲话类视频加配字幕时的预处理，省去了人工调制的过程。

讲座、演讲、讲话类视频的特点是：

（1）主讲人单一；

（2）环境噪音干扰小；

（3）主要的干扰是掌声、笑声、拖音和呼吸声。

本方法针对讲座视频的上述特点，采用两次扫描、三门阈法产生出时间轴，自动提取出语音片段，产生字幕时间轴。

本发明是一种针对讲座视频的时间轴自动产生方法，通过基音频率对主讲人的声音及其他声音进行分开，具体包括以下步骤：

第一步，扫描一遍视频，通过小波变换和自相关函数法检测出基音频率。

第二步，鉴于讲话人固定，基音频率也固定，寻找基音频率的平均值μ和标准差σ，作为讲话人的基因频率。

第三步，根据基音频率，进行初划分，划分为时间轴单元，如图1所示。

由于人说话时，语音的头部和尾部并不具有基音特征，因此，真实的说话的时间区间比根据基音得到的时间区间要大一些，因此，对于根据基音得到的时间轴，需要在此时间轴基础上，向前或向后各分析0.5秒的时间。计算这段时间的语音信号的过零率，如果过零率的值较大，则认为是语音，从而得到修正后的时间轴数据。

Claims

1.一种针对讲座视频的时间轴自动产生方法，其特征在于，包括以下步骤：

第三步，根据基音频率，进行初划分，划分为时间轴单元；