CN104159152B - 一种针对影视视频的时间轴自动产生方法 - Google Patents
一种针对影视视频的时间轴自动产生方法 Download PDFInfo
- Publication number
- CN104159152B CN104159152B CN201410423608.5A CN201410423608A CN104159152B CN 104159152 B CN104159152 B CN 104159152B CN 201410423608 A CN201410423608 A CN 201410423608A CN 104159152 B CN104159152 B CN 104159152B
- Authority
- CN
- China
- Prior art keywords
- scene
- video
- sub
- time
- time shaft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Circuits (AREA)
- Processing Or Creating Images (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明是一种针对影视视频的时间轴自动产生方法,包括以下步骤:(1)视频场景分析,视频场景分析分为两个部分:i.通过视频镜头分析,分析出子场景;ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;(2)场景里的语音时间轴切分;(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。本发明的针对影视视频的时间轴自动产生方法,可以自动提取出语音片段,产生字幕时间轴。
Description
技术领域
本发明涉及计算机软件技术领域, 尤指一种针对影视视频的时间轴自动产生方法。
背景技术
影视类视频的特点是:说话人众多;环境噪音干扰大;存在片首曲、片尾曲和配音的干扰。现有技术对影视类视频的处理方法中,通常,影视类视频长度为0.5-2小时。以1小时的视频为例,切分出时间轴,需要1-2小时的人工,需要投入比较大的人力,并且效率工作效率较低。现有技术中,通过视频镜头分析,分析出子场景的方法很多,郭小川的2011年复旦大学硕士论文《基于内容的视频场景分析方法研究》中也介绍了关于视频场景分析方法的研究。所以在这样的一个现有技术的基础上,结合其他时间轴的切分技术,来实现自动产生时间轴的方法显得可行并且迫切。
发明内容
为了解决上述问题,本发明提供一种针对影视视频的时间轴自动产生方法,可以自动提取出语音片段,产生字幕时间轴。
本发明通过视频分析得到子场景,再通过噪音特征聚类得到大场景;并且对大场景进行语音端点检测得到时间轴,再进行合并成整体时间轴。
本发明是一种针对影视视频的时间轴自动产生方法,包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i. 通过视频镜头分析,分析出子场景;
ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;
(2)场景里的语音时间轴切分;
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。
本发明的有益技术效果在于:本发明通过语音分析的方式,自动得到影视视频的时间轴,主要用于给影视视频加配字幕时的预处理,省去了人工调制的过程。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种针对影视视频的时间轴自动产生方法,本实施例做以下假设:(1)视频由多个场景构成的;(2) 每个场景的环境噪音和配音是稳定的。在此假设下,针对影视视频的时间轴自动产生方法包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i. 通过视频镜头分析,分析出子场景;通过视频分析,将视频分割为一个个的场景有很多种方法。ii.通过语音特征分析,对子场景聚类,聚类为大场景。比如说,一副室内剧,剧里有几个演员,镜头在几个演员之间切换。通过分析镜头,可以将这样的场景切分出来。但是,这样的场景过于细,而我们需要的是“室内”这个大场景,这个大场景的语音背景、配音背景是一致的,所以,需要同归语音特征分析,对这样的场景进行聚类。对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景。
(2)场景里的语音时间轴切分;对一个场景内,由于背景音和环境音比较单一,可以使用传统的方法进行语音端点检测,得到语音时间轴。比如,根据过零率和短时能量的双阈值端点检测。
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。
Claims (1)
1.一种针对影视视频的时间轴自动产生方法,其特征在于, 包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i.通过视频镜头分析,分析出子场景;
ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;
(2)场景里的语音时间轴切分;
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴;
所述针对影视视频的时间轴自动产生方法通过语音分析的方式,自动得到影视视频的时间轴,用于给影视视频加配字幕时的预处理,省去人工调制的过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423608.5A CN104159152B (zh) | 2014-08-26 | 2014-08-26 | 一种针对影视视频的时间轴自动产生方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423608.5A CN104159152B (zh) | 2014-08-26 | 2014-08-26 | 一种针对影视视频的时间轴自动产生方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104159152A CN104159152A (zh) | 2014-11-19 |
CN104159152B true CN104159152B (zh) | 2017-10-13 |
Family
ID=51884542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410423608.5A Active CN104159152B (zh) | 2014-08-26 | 2014-08-26 | 一种针对影视视频的时间轴自动产生方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104159152B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597497B (zh) * | 2018-04-03 | 2020-09-08 | 中译语通科技股份有限公司 | 一种字幕语音精准同步系统及方法、信息数据处理终端 |
CN109151615B (zh) * | 2018-11-02 | 2022-01-25 | 湖南双菱电子科技有限公司 | 视频处理方法、计算机设备和计算机存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046957A (zh) * | 2006-03-30 | 2007-10-03 | 富士通株式会社 | 语音识别装置、语音识别方法及存储语音识别程序的记录介质 |
CN101625860A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 语音端点检测中的背景噪声自适应调整方法 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN101625862A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 自动字幕生成系统中语音区间的检测方法 |
CN101802920A (zh) * | 2007-09-19 | 2010-08-11 | 索尼公司 | 内容再现设备和内容再现方法 |
CN103024447A (zh) * | 2012-12-31 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种同时同地拍摄的多视频移动端剪辑云端合成方法及服务器 |
CN103533459A (zh) * | 2013-10-09 | 2014-01-22 | 北京中科模识科技有限公司 | 一种新闻视频条目拆分的方法和系统 |
CN103686451A (zh) * | 2012-09-21 | 2014-03-26 | 财团法人资讯工业策进会 | 媒体场景播放系统及其方法 |
CN103959802A (zh) * | 2012-08-10 | 2014-07-30 | 松下电器产业株式会社 | 影像提供方法、发送装置以及接收装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0406512D0 (en) * | 2004-03-23 | 2004-04-28 | British Telecomm | Method and system for semantically segmenting scenes of a video sequence |
-
2014
- 2014-08-26 CN CN201410423608.5A patent/CN104159152B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046957A (zh) * | 2006-03-30 | 2007-10-03 | 富士通株式会社 | 语音识别装置、语音识别方法及存储语音识别程序的记录介质 |
CN101802920A (zh) * | 2007-09-19 | 2010-08-11 | 索尼公司 | 内容再现设备和内容再现方法 |
CN101625860A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 语音端点检测中的背景噪声自适应调整方法 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN101625862A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 自动字幕生成系统中语音区间的检测方法 |
CN103959802A (zh) * | 2012-08-10 | 2014-07-30 | 松下电器产业株式会社 | 影像提供方法、发送装置以及接收装置 |
CN103686451A (zh) * | 2012-09-21 | 2014-03-26 | 财团法人资讯工业策进会 | 媒体场景播放系统及其方法 |
CN103024447A (zh) * | 2012-12-31 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种同时同地拍摄的多视频移动端剪辑云端合成方法及服务器 |
CN103533459A (zh) * | 2013-10-09 | 2014-01-22 | 北京中科模识科技有限公司 | 一种新闻视频条目拆分的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104159152A (zh) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103957359B (zh) | 摄像装置及其对焦方法 | |
CN107316651B (zh) | 基于麦克风的音频处理方法和装置 | |
EP3139640A3 (en) | Method and device for achieving object audio recording and electronic apparatus | |
CN103700370A (zh) | 一种广播电视语音识别系统方法及系统 | |
CN105788610B (zh) | 音频处理方法及装置 | |
CN104463139A (zh) | 一种音频情感驱动下的体育视频精彩事件检测方法 | |
CN104916288B (zh) | 一种音频中人声突出处理的方法及装置 | |
TWI569263B (zh) | 聲頻訊號的訊號擷取方法與裝置 | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
CN107274911A (zh) | 一种基于声音特征的相似度分析方法 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
CN104320670A (zh) | 一种网络视频的摘要信息提取方法及系统 | |
CN105227966A (zh) | 电视播放控制方法、服务器及电视播放控制系统 | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
CN104159152B (zh) | 一种针对影视视频的时间轴自动产生方法 | |
CN103186227A (zh) | 人机互动系统和方法 | |
CN113593601A (zh) | 基于深度学习的视听多模态语音分离方法 | |
Anguera et al. | Hybrid speech/non-speech detector applied to speaker diarization of meetings | |
Liu et al. | MSDWild: Multi-modal Speaker Diarization Dataset in the Wild. | |
EA202091595A1 (ru) | Способ и устройство для построения голосовой модели целевого диктора | |
Liu et al. | Semi-supervised sound event detection based on mean teacher with power pooling and data augmentation | |
Krijnders et al. | Tone-fit and MFCC scene classification compared to human recognition | |
Giannakopoulos et al. | A novel efficient approach for audio segmentation | |
Deadman et al. | Simulating Realistically-Spatialised Simultaneous Speech Using Video-Driven Speaker Detection and the CHiME-5 Dataset. | |
Kunka et al. | Multimodal English corpus for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Patentee after: Chinese translation language through Polytron Technologies Inc Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Patentee before: Mandarin Technology (Beijing) Co., Ltd. |