CN104159152A - 一种针对影视视频的时间轴自动产生方法 - Google Patents

一种针对影视视频的时间轴自动产生方法 Download PDF

Info

Publication number
CN104159152A
CN104159152A CN201410423608.5A CN201410423608A CN104159152A CN 104159152 A CN104159152 A CN 104159152A CN 201410423608 A CN201410423608 A CN 201410423608A CN 104159152 A CN104159152 A CN 104159152A
Authority
CN
China
Prior art keywords
scene
video
scenes
sub
timeline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410423608.5A
Other languages
English (en)
Other versions
CN104159152B (zh
Inventor
程国艮
袁翔宇
王宇晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese translation language through Polytron Technologies Inc
Original Assignee
Mandarin Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mandarin Technology (beijing) Co Ltd filed Critical Mandarin Technology (beijing) Co Ltd
Priority to CN201410423608.5A priority Critical patent/CN104159152B/zh
Publication of CN104159152A publication Critical patent/CN104159152A/zh
Application granted granted Critical
Publication of CN104159152B publication Critical patent/CN104159152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明是一种针对影视视频的时间轴自动产生方法,包括以下步骤:(1)视频场景分析,视频场景分析分为两个部分:i.通过视频镜头分析,分析出子场景;ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;(2)场景里的语音时间轴切分;(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。本发明的针对影视视频的时间轴自动产生方法,可以自动提取出语音片段,产生字幕时间轴。

Description

一种针对影视视频的时间轴自动产生方法
技术领域
本发明涉及计算机软件技术领域, 尤指一种针对影视视频的时间轴自动产生方法。
背景技术
影视类视频的特点是:说话人众多;环境噪音干扰大;存在片首曲、片尾曲和配音的干扰。现有技术对影视类视频的处理方法中,通常,影视类视频长度为0.5-2小时。以1小时的视频为例,切分出时间轴,需要1-2小时的人工,需要投入比较大的人力,并且效率工作效率较低。现有技术中,通过视频镜头分析,分析出子场景的方法很多,郭小川的2011年复旦大学硕士论文《基于内容的视频场景分析方法研究》中也介绍了关于视频场景分析方法的研究。所以在这样的一个现有技术的基础上,结合其他时间轴的切分技术,来实现自动产生时间轴的方法显得可行并且迫切。
发明内容
为了解决上述问题,本发明提供一种针对影视视频的时间轴自动产生方法,可以自动提取出语音片段,产生字幕时间轴。
本发明通过视频分析得到子场景,再通过噪音特征聚类得到大场景;并且对大场景进行语音端点检测得到时间轴,再进行合并成整体时间轴。
本发明是一种针对影视视频的时间轴自动产生方法,包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i. 通过视频镜头分析,分析出子场景;
ii.    通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;
(2)场景里的语音时间轴切分;
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。
本发明的有益技术效果在于:本发明通过语音分析的方式,自动得到影视视频的时间轴,主要用于给影视视频加配字幕时的预处理,省去了人工调制的过程。 
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种针对影视视频的时间轴自动产生方法,本实施例做以下假设:(1) 视频由多个场景构成的;(2) 每个场景的环境噪音和配音是稳定的。在此假设下,针对影视视频的时间轴自动产生方法包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i. 通过视频镜头分析,分析出子场景;通过视频分析,将视频分割为一个个的场景有很多种方法。ii.  通过语音特征分析,对子场景聚类,聚类为大场景。比如说,一副室内剧,剧里有几个演员,镜头在几个演员之间切换。通过分析镜头,可以将这样的场景切分出来。但是,这样的场景过于细,而我们需要的是“室内”这个大场景,这个大场景的语音背景、配音背景是一致的,所以,需要同归语音特征分析,对这样的场景进行聚类。对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景。
(2)场景里的语音时间轴切分;对一个场景内,由于背景音和环境音比较单一,可以使用传统的方法进行语音端点检测,得到语音时间轴。比如,根据过零率和短时能量的双阈值端点检测。
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。

Claims (1)

1.一种针对影视视频的时间轴自动产生方法,其特征在于, 包括以下步骤:
(1)视频场景分析,视频场景分析分为两个部分:
i.  通过视频镜头分析,分析出子场景;
ii.通过语音特征分析,对子场景聚类,聚类为大场景;对于连续出现的子场景,通过过零率和短时能量,区分出噪音和语音,然后,比较连续子场景的平均过零率和短时能量,当差异在预先设定的阈值内,则这两个子场景属于一个大场景,对子场景进行聚类,聚类为大场景;
(2)场景里的语音时间轴切分;
(3)整体视频时间轴的切分;将不同场景所检测得到的时间轴数据合并,即可得到整体的视频时间轴。
CN201410423608.5A 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法 Active CN104159152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410423608.5A CN104159152B (zh) 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410423608.5A CN104159152B (zh) 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法

Publications (2)

Publication Number Publication Date
CN104159152A true CN104159152A (zh) 2014-11-19
CN104159152B CN104159152B (zh) 2017-10-13

Family

ID=51884542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410423608.5A Active CN104159152B (zh) 2014-08-26 2014-08-26 一种针对影视视频的时间轴自动产生方法

Country Status (1)

Country Link
CN (1) CN104159152B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597497A (zh) * 2018-04-03 2018-09-28 中译语通科技股份有限公司 一种字幕语音精准同步系统及方法、信息数据处理终端
CN109151615A (zh) * 2018-11-02 2019-01-04 湖南双菱电子科技有限公司 视频处理方法、计算机设备和计算机存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070201558A1 (en) * 2004-03-23 2007-08-30 Li-Qun Xu Method And System For Semantically Segmenting Scenes Of A Video Sequence
CN101046957A (zh) * 2006-03-30 2007-10-03 富士通株式会社 语音识别装置、语音识别方法及存储语音识别程序的记录介质
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101625860A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中的背景噪声自适应调整方法
CN101625862A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 自动字幕生成系统中语音区间的检测方法
CN101802920A (zh) * 2007-09-19 2010-08-11 索尼公司 内容再现设备和内容再现方法
CN103024447A (zh) * 2012-12-31 2013-04-03 合一网络技术(北京)有限公司 一种同时同地拍摄的多视频移动端剪辑云端合成方法及服务器
CN103533459A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种新闻视频条目拆分的方法和系统
CN103686451A (zh) * 2012-09-21 2014-03-26 财团法人资讯工业策进会 媒体场景播放系统及其方法
CN103959802A (zh) * 2012-08-10 2014-07-30 松下电器产业株式会社 影像提供方法、发送装置以及接收装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070201558A1 (en) * 2004-03-23 2007-08-30 Li-Qun Xu Method And System For Semantically Segmenting Scenes Of A Video Sequence
CN101046957A (zh) * 2006-03-30 2007-10-03 富士通株式会社 语音识别装置、语音识别方法及存储语音识别程序的记录介质
CN101802920A (zh) * 2007-09-19 2010-08-11 索尼公司 内容再现设备和内容再现方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101625860A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中的背景噪声自适应调整方法
CN101625862A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 自动字幕生成系统中语音区间的检测方法
CN103959802A (zh) * 2012-08-10 2014-07-30 松下电器产业株式会社 影像提供方法、发送装置以及接收装置
CN103686451A (zh) * 2012-09-21 2014-03-26 财团法人资讯工业策进会 媒体场景播放系统及其方法
CN103024447A (zh) * 2012-12-31 2013-04-03 合一网络技术(北京)有限公司 一种同时同地拍摄的多视频移动端剪辑云端合成方法及服务器
CN103533459A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种新闻视频条目拆分的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597497A (zh) * 2018-04-03 2018-09-28 中译语通科技股份有限公司 一种字幕语音精准同步系统及方法、信息数据处理终端
CN108597497B (zh) * 2018-04-03 2020-09-08 中译语通科技股份有限公司 一种字幕语音精准同步系统及方法、信息数据处理终端
CN109151615A (zh) * 2018-11-02 2019-01-04 湖南双菱电子科技有限公司 视频处理方法、计算机设备和计算机存储介质

Also Published As

Publication number Publication date
CN104159152B (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
CN105405439B (zh) 语音播放方法及装置
US9749684B2 (en) Multimedia processing method and multimedia apparatus
CN1264137C (zh) 使用基于听觉事件的特征化的时间对准音频信号的方法
CN105788610B (zh) 音频处理方法及装置
CN104463139A (zh) 一种音频情感驱动下的体育视频精彩事件检测方法
CN110881115B (zh) 会议视频的拆条方法及系统
CN103957359A (zh) 摄像装置及其对焦方法
TW200741646A (en) Systems and methods for detecting exciting scenes in sports video
CN105898556A (zh) 一种外挂字幕的自动同步方法及装置
US10728688B2 (en) Adaptive audio construction
KR102255152B1 (ko) 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램
CN104159152A (zh) 一种针对影视视频的时间轴自动产生方法
CN104167211A (zh) 基于分层事件检测和上下文模型的多源场景声音摘要方法
CN109640193B (zh) 一种基于场景检测的新闻拆条方法
CN111243618B (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
JP2009033413A (ja) 情報処理装置及び情報処理方法、並びにプログラム
CN106448710B (zh) 一种音乐播放参数的校准方法及音乐播放设备
Kunka et al. Multimodal English corpus for automatic speech recognition
Bajcsy et al. Fast forwarding egocentric videos by listening and watching
Kim et al. Real-time highlight detection in baseball video for TVs with time-shift function
EP3014622A1 (en) Programme control
US11704087B2 (en) Video-informed spatial audio expansion
Bhoraniya et al. A survey on video genre classification techniques
Wang et al. A mid-level scene change representation via audiovisual alignment
Tzanetakis et al. Building audio classifiers for broadcast news retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee after: Chinese translation language through Polytron Technologies Inc

Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee before: Mandarin Technology (Beijing) Co., Ltd.

CP01 Change in the name or title of a patent holder