CN104159152B - 一种针对影视视频的时间轴自动产生方法 - Google Patents

一种针对影视视频的时间轴自动产生方法 Download PDF

Info

Publication number
CN104159152B
CN104159152B CN201410423608.5A CN201410423608A CN104159152B CN 104159152 B CN104159152 B CN 104159152B CN 201410423608 A CN201410423608 A CN 201410423608A CN 104159152 B CN104159152 B CN 104159152B
Authority
CN
China
Prior art keywords
scene
video
sub
time
time shaft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410423608.5A
Other languages
English (en)
Other versions
CN104159152A (zh
Inventor
程国艮
袁翔宇
王宇晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese translation language through Polytron Technologies Inc
Original Assignee
Mandarin Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mandarin Technology (beijing) Co Ltd filed Critical Mandarin Technology (beijing) Co Ltd
Priority to CN201410423608.5A priority Critical patent/CN104159152B/zh
Publication of CN104159152A publication Critical patent/CN104159152A/zh
Application granted granted Critical
Publication of CN104159152B publication Critical patent/CN104159152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明是一种针对影视视频的时间轴自动产生方法,包括以下步骤:(1)视频场景分析,视频场景分析分为两个部分:i.通过视频镜头分析,分析出子场景;ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;(2)场景里的语音时间轴切分;(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。本发明的针对影视视频的时间轴自动产生方法,可以自动提取出语音片段,产生字幕时间轴。

Description

一种针对影视视频的时间轴自动产生方法
技术领域
本发明涉及计算机软件技术领域, 尤指一种针对影视视频的时间轴自动产生方法。
背景技术
影视类视频的特点是:说话人众多;环境噪音干扰大;存在片首曲、片尾曲和配音的干扰。现有技术对影视类视频的处理方法中,通常,影视类视频长度为0.5-2小时。以1小时的视频为例,切分出时间轴,需要1-2小时的人工,需要投入比较大的人力,并且效率工作效率较低。现有技术中,通过视频镜头分析,分析出子场景的方法很多,郭小川的2011年复旦大学硕士论文《基于内容的视频场景分析方法研究》中也介绍了关于视频场景分析方法的研究。所以在这样的一个现有技术的基础上,结合其他时间轴的切分技术,来实现自动产生时间轴的方法显得可行并且迫切。
发明内容
为了解决上述问题,本发明提供一种针对影视视频的时间轴自动产生方法,可以自动提取出语音片段,产生字幕时间轴。
本发明通过视频分析得到子场景,再通过噪音特征聚类得到大场景;并且对大场景进行语音端点检测得到时间轴,再进行合并成整体时间轴。
本发明是一种针对影视视频的时间轴自动产生方法,包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i. 通过视频镜头分析,分析出子场景;
ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;
(2)场景里的语音时间轴切分;
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。
本发明的有益技术效果在于:本发明通过语音分析的方式,自动得到影视视频的时间轴,主要用于给影视视频加配字幕时的预处理,省去了人工调制的过程。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种针对影视视频的时间轴自动产生方法,本实施例做以下假设:(1)视频由多个场景构成的;(2) 每个场景的环境噪音和配音是稳定的。在此假设下,针对影视视频的时间轴自动产生方法包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i. 通过视频镜头分析,分析出子场景;通过视频分析,将视频分割为一个个的场景有很多种方法。ii.通过语音特征分析,对子场景聚类,聚类为大场景。比如说,一副室内剧,剧里有几个演员,镜头在几个演员之间切换。通过分析镜头,可以将这样的场景切分出来。但是,这样的场景过于细,而我们需要的是“室内”这个大场景,这个大场景的语音背景、配音背景是一致的,所以,需要同归语音特征分析,对这样的场景进行聚类。对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景。
(2)场景里的语音时间轴切分;对一个场景内,由于背景音和环境音比较单一,可以使用传统的方法进行语音端点检测,得到语音时间轴。比如,根据过零率和短时能量的双阈值端点检测。
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。

Claims (1)

1.一种针对影视视频的时间轴自动产生方法,其特征在于, 包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i.通过视频镜头分析,分析出子场景;
ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;
(2)场景里的语音时间轴切分;
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴;
所述针对影视视频的时间轴自动产生方法通过语音分析的方式,自动得到影视视频的时间轴,用于给影视视频加配字幕时的预处理,省去人工调制的过程。
CN201410423608.5A 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法 Active CN104159152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410423608.5A CN104159152B (zh) 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410423608.5A CN104159152B (zh) 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法

Publications (2)

Publication Number Publication Date
CN104159152A CN104159152A (zh) 2014-11-19
CN104159152B true CN104159152B (zh) 2017-10-13

Family

ID=51884542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410423608.5A Active CN104159152B (zh) 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法

Country Status (1)

Country Link
CN (1) CN104159152B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597497B (zh) * 2018-04-03 2020-09-08 中译语通科技股份有限公司 一种字幕语音精准同步系统及方法、信息数据处理终端
CN109151615B (zh) * 2018-11-02 2022-01-25 湖南双菱电子科技有限公司 视频处理方法、计算机设备和计算机存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046957A (zh) * 2006-03-30 2007-10-03 富士通株式会社 语音识别装置、语音识别方法及存储语音识别程序的记录介质
CN101625860A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中的背景噪声自适应调整方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101625862A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 自动字幕生成系统中语音区间的检测方法
CN101802920A (zh) * 2007-09-19 2010-08-11 索尼公司 内容再现设备和内容再现方法
CN103024447A (zh) * 2012-12-31 2013-04-03 合一网络技术(北京)有限公司 一种同时同地拍摄的多视频移动端剪辑云端合成方法及服务器
CN103533459A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种新闻视频条目拆分的方法和系统
CN103686451A (zh) * 2012-09-21 2014-03-26 财团法人资讯工业策进会 媒体场景播放系统及其方法
CN103959802A (zh) * 2012-08-10 2014-07-30 松下电器产业株式会社 影像提供方法、发送装置以及接收装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0406512D0 (en) * 2004-03-23 2004-04-28 British Telecomm Method and system for semantically segmenting scenes of a video sequence

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046957A (zh) * 2006-03-30 2007-10-03 富士通株式会社 语音识别装置、语音识别方法及存储语音识别程序的记录介质
CN101802920A (zh) * 2007-09-19 2010-08-11 索尼公司 内容再现设备和内容再现方法
CN101625860A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中的背景噪声自适应调整方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101625862A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 自动字幕生成系统中语音区间的检测方法
CN103959802A (zh) * 2012-08-10 2014-07-30 松下电器产业株式会社 影像提供方法、发送装置以及接收装置
CN103686451A (zh) * 2012-09-21 2014-03-26 财团法人资讯工业策进会 媒体场景播放系统及其方法
CN103024447A (zh) * 2012-12-31 2013-04-03 合一网络技术(北京)有限公司 一种同时同地拍摄的多视频移动端剪辑云端合成方法及服务器
CN103533459A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种新闻视频条目拆分的方法和系统

Also Published As

Publication number Publication date
CN104159152A (zh) 2014-11-19

Similar Documents

Publication Publication Date Title
CN103957359B (zh) 摄像装置及其对焦方法
CN107316651B (zh) 基于麦克风的音频处理方法和装置
EP3139640A3 (en) Method and device for achieving object audio recording and electronic apparatus
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
CN105788610B (zh) 音频处理方法及装置
CN104463139A (zh) 一种音频情感驱动下的体育视频精彩事件检测方法
CN104916288B (zh) 一种音频中人声突出处理的方法及装置
TWI569263B (zh) 聲頻訊號的訊號擷取方法與裝置
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强系统及方法
CN107274911A (zh) 一种基于声音特征的相似度分析方法
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN104320670A (zh) 一种网络视频的摘要信息提取方法及系统
CN105227966A (zh) 电视播放控制方法、服务器及电视播放控制系统
US9165182B2 (en) Method and apparatus for using face detection information to improve speaker segmentation
CN104159152B (zh) 一种针对影视视频的时间轴自动产生方法
CN103186227A (zh) 人机互动系统和方法
CN113593601A (zh) 基于深度学习的视听多模态语音分离方法
Anguera et al. Hybrid speech/non-speech detector applied to speaker diarization of meetings
Liu et al. MSDWild: Multi-modal Speaker Diarization Dataset in the Wild.
EA202091595A1 (ru) Способ и устройство для построения голосовой модели целевого диктора
Liu et al. Semi-supervised sound event detection based on mean teacher with power pooling and data augmentation
Krijnders et al. Tone-fit and MFCC scene classification compared to human recognition
Giannakopoulos et al. A novel efficient approach for audio segmentation
Deadman et al. Simulating Realistically-Spatialised Simultaneous Speech Using Video-Driven Speaker Detection and the CHiME-5 Dataset.
Kunka et al. Multimodal English corpus for automatic speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee after: Chinese translation language through Polytron Technologies Inc

Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee before: Mandarin Technology (Beijing) Co., Ltd.