CN111586494A - 一种基于音视频分离的智能拆条方法 - Google Patents

一种基于音视频分离的智能拆条方法 Download PDF

Info

Publication number
CN111586494A
CN111586494A CN202010362759.XA CN202010362759A CN111586494A CN 111586494 A CN111586494 A CN 111586494A CN 202010362759 A CN202010362759 A CN 202010362759A CN 111586494 A CN111586494 A CN 111586494A
Authority
CN
China
Prior art keywords
video
scene
audio
segment
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010362759.XA
Other languages
English (en)
Other versions
CN111586494B (zh
Inventor
康洪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Hangzhou Huichuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huichuan Intelligent Technology Co ltd filed Critical Hangzhou Huichuan Intelligent Technology Co ltd
Priority to CN202010362759.XA priority Critical patent/CN111586494B/zh
Publication of CN111586494A publication Critical patent/CN111586494A/zh
Application granted granted Critical
Publication of CN111586494B publication Critical patent/CN111586494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Abstract

本发明公开了一种基于音视频分离的智能拆条方法,具体步骤为:从输入视频中,分离出音频和视频流;使用对象跟踪技术对视频进行场景切分,粗分出场景片段;对各场景片段对应的音频片段进行语音识别,根据识别出的文本细分场景片段;或者根据音频的节奏、声纹等信息进行场景片段细分;利用深度学习技术,基于视频理解,对视频片段打标签;最后,返回带有标签的视频拆条片段;本发明方法有效提高了视频拆条的效率及准确度。

Description

一种基于音视频分离的智能拆条方法
技术领域
本发明涉及媒资管理技术领域,具体涉及一种基于音视频分离的智能拆条方法。
背景技术
在移动互联网、大数据、AI智能的技术驱动下,短视频正以其自身优势,打破内容行业的传统思路。随着5G技术的发展,平台运营成本降低,移动端网速大幅提升,短视频井喷的流量和突出的营销效应,使得用户的社交活跃性和使用黏性大大提升,越来越符合移动用户时间碎片化的体验。但同时,如何根据不同性质的内容信息,将长视频精准拆条成多段独立的短视频,成为一个亟待解决的问题。传统的长视频拆条方式,需要投入大量的人工进行手动预览拆分视频,耗时耗力,无法在短时间内批量地深度挖掘同质同类内容并验证其重复性,对精准的用户传播造成了很大阻碍。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于音视频分离的智能拆条方法。
为实现上述目的,本发明采用的技术方案是:它包含如下步骤:
一、从输入视频中,分离出音频和视频流,并根据时间戳来同步音频与视频流;
二、使用对象跟踪技术对视频进行场景切分,粗分出场景片段;
三、对各场景片段对应的音频片段进行语音识别,根据识别出的文本细分场景片段:对于可识别出文本的场景片段,通过文本分类方式,分离文字段落,根据段落细分每个场景片段;对于不能识别出文本的场景片段,执行步骤四;
四、根据音频的节奏、声纹等信息,进行场景片段细分;
五、利用深度学习技术,基于视频理解,对视频片段打标签;
六、返回带有标签的视频拆条片段。
进一步地,步骤四中根据音频的节奏、声纹等信息,进行场景片段细分的具体方法为:对于不能识别出文本的场景片段,每隔N秒钟取一个分段,使用GRU(Gated RecurrentUnit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征,将相邻特征误差在R范围内的分段作为连续片段,从场景片段中拆分出来。
进一步地,步骤五中利用深度学习技术,基于视频理解,对视频片段打标签的具体方法为:对步骤三与步骤四中从场景片段细分出的视频片段,使用深度3D卷积神经网络提取片段的时空信息,并进行场景识别、动作捕捉、情感分析等,提取出场景信息、对象信息、人物表情、运动信息等,作为视频片段的标签信息。
采用上述方案后,本发明有益效果为:本发明所述的一种基于音视频分离的智能拆条方法,根据不同性质的内容信息,将长视频精准拆条成多段独立的短视频,并能在短时间内批量地深度挖掘同质同类内容并验证其重复性,视频拆条的效率及准确率高。
具体实施方式
下面对本发明作进一步的说明。
本具体实施方式采用的技术方案是:它包含如下步骤:
一、从输入视频中,分离出音频和视频流,并根据时间戳来同步音频与视频流;
二、使用对象跟踪技术对视频进行场景切分,粗分出场景片段;
三、对各场景片段对应的音频片段进行语音识别,根据识别出的文本细分场景片段:对于可识别出文本的场景片段,通过文本分类方式,分离文字段落,根据段落细分每个场景片段;对于不能识别出文本的场景片段,执行步骤四;
四、根据音频的节奏、声纹等信息,进行场景片段细分:对于不能识别出文本的场景片段,每隔N秒钟取一个分段,使用GRU(Gated Recurrent Unit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征,将相邻特征误差在R范围内的分段作为连续片段,从场景片段中拆分出来。
五、利用深度学习技术,基于视频理解,对视频片段打标签:对步骤三与步骤四中从场景片段细分出的视频片段,使用深度3D卷积神经网络提取片段的时空信息,并进行场景识别、动作捕捉、情感分析等,提取出场景信息、对象信息、人物表情、运动信息等,作为视频片段的标签信息。
六、返回带有标签的视频拆条片段。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于音视频分离的智能拆条方法,其特征在于它包含如下步骤:
一、从输入视频中,分离出音频和视频流,并根据时间戳来同步音频与视频流;
二、使用对象跟踪技术对视频进行场景切分,粗分出场景片段;
三、对各场景片段对应的音频片段进行语音识别,根据识别出的文本细分场景片段:对于可识别出文本的场景片段,通过文本分类方式,分离文字段落,根据段落细分每个场景片段;对于不能识别出文本的场景片段,执行步骤四;
四、根据音频的节奏、声纹等信息,进行场景片段细分;
五、利用深度学习技术,基于视频理解,对视频片段打标签;
六、返回带有标签的视频拆条片段。
2.根据权利要求1所述的一种基于音视频分离的智能拆条方法,其特征在于步骤四中根据音频的节奏、声纹等信息,进行场景片段细分的具体方法为:对于不能识别出文本的场景片段,每隔N秒钟取一个分段,使用GRU(Gated Recurrent Unit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征,将相邻特征误差在R范围内的分段作为连续片段,从场景片段中拆分出来。
3.根据权利要求1所述的一种基于音视频分离的智能拆条方法,其特征在于步骤五中利用深度学习技术,基于视频理解,对视频片段打标签的具体方法为:对步骤三与步骤四中从场景片段细分出的视频片段,使用深度3D卷积神经网络提取片段的时空信息,并进行场景识别、动作捕捉、情感分析等,提取出场景信息、对象信息、人物表情、运动信息等,作为视频片段的标签信息。
CN202010362759.XA 2020-04-30 2020-04-30 一种基于音视频分离的智能拆条方法 Active CN111586494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010362759.XA CN111586494B (zh) 2020-04-30 2020-04-30 一种基于音视频分离的智能拆条方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010362759.XA CN111586494B (zh) 2020-04-30 2020-04-30 一种基于音视频分离的智能拆条方法

Publications (2)

Publication Number Publication Date
CN111586494A true CN111586494A (zh) 2020-08-25
CN111586494B CN111586494B (zh) 2022-03-11

Family

ID=72115203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010362759.XA Active CN111586494B (zh) 2020-04-30 2020-04-30 一种基于音视频分离的智能拆条方法

Country Status (1)

Country Link
CN (1) CN111586494B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080853A1 (en) * 2007-09-24 2009-03-26 Fuji Xerox Co., Ltd. System and method for video summarization
CN104778230A (zh) * 2015-03-31 2015-07-15 北京奇艺世纪科技有限公司 一种视频数据切分模型的训练、视频数据切分方法和装置
CN107562760A (zh) * 2016-06-30 2018-01-09 科大讯飞股份有限公司 一种语音数据处理方法及装置
CN107968959A (zh) * 2017-11-15 2018-04-27 广东广凌信息科技股份有限公司 一种教学视频的知识点分割方法
CN108965920A (zh) * 2018-08-08 2018-12-07 北京未来媒体科技股份有限公司 一种视频内容拆条方法及装置
CN109005451A (zh) * 2018-06-29 2018-12-14 杭州星犀科技有限公司 基于深度学习的视频拆条方法
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN109325148A (zh) * 2018-08-03 2019-02-12 百度在线网络技术(北京)有限公司 生成信息的方法和装置
CN109922373A (zh) * 2019-03-14 2019-06-21 上海极链网络科技有限公司 视频处理方法、装置及存储介质
CN110008372A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
CN110097026A (zh) * 2019-05-13 2019-08-06 北京邮电大学 一种基于多维要素视频分割的段落关联规则评判方法
CN110781328A (zh) * 2019-09-09 2020-02-11 天脉聚源(杭州)传媒科技有限公司 基于语音识别的视频生成方法、系统、装置和存储介质
CN110881115A (zh) * 2019-12-24 2020-03-13 新华智云科技有限公司 会议视频的拆条方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080853A1 (en) * 2007-09-24 2009-03-26 Fuji Xerox Co., Ltd. System and method for video summarization
CN104778230A (zh) * 2015-03-31 2015-07-15 北京奇艺世纪科技有限公司 一种视频数据切分模型的训练、视频数据切分方法和装置
CN107562760A (zh) * 2016-06-30 2018-01-09 科大讯飞股份有限公司 一种语音数据处理方法及装置
CN107968959A (zh) * 2017-11-15 2018-04-27 广东广凌信息科技股份有限公司 一种教学视频的知识点分割方法
CN109005451A (zh) * 2018-06-29 2018-12-14 杭州星犀科技有限公司 基于深度学习的视频拆条方法
CN109325148A (zh) * 2018-08-03 2019-02-12 百度在线网络技术(北京)有限公司 生成信息的方法和装置
CN108965920A (zh) * 2018-08-08 2018-12-07 北京未来媒体科技股份有限公司 一种视频内容拆条方法及装置
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN110008372A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
CN109922373A (zh) * 2019-03-14 2019-06-21 上海极链网络科技有限公司 视频处理方法、装置及存储介质
CN110097026A (zh) * 2019-05-13 2019-08-06 北京邮电大学 一种基于多维要素视频分割的段落关联规则评判方法
CN110781328A (zh) * 2019-09-09 2020-02-11 天脉聚源(杭州)传媒科技有限公司 基于语音识别的视频生成方法、系统、装置和存储介质
CN110881115A (zh) * 2019-12-24 2020-03-13 新华智云科技有限公司 会议视频的拆条方法及系统

Also Published As

Publication number Publication date
CN111586494B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
US20220270369A1 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
CN110751224B (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
CN111709358B (zh) 基于课堂视频的师生行为分析系统
CN109005451B (zh) 基于深度学习的视频拆条方法
CN106331893A (zh) 实时字幕显示方法及系统
CN102521340B (zh) 一种基于角色的电视剧视频分析方法
CN106952112A (zh) 一种广告精准投放方法及系统
CN110097026B (zh) 一种基于多维要素视频分割的段落关联规则评判方法
CN102547139A (zh) 一种新闻视频节目切分方法、新闻视频编目方法及系统
CN110012349A (zh) 一种端到端的新闻节目结构化方法及其结构化框架体系
CN108090041B (zh) 一种广告创意的生成方法及装置
CN107992937A (zh) 基于深度学习的非结构化数据判决方法和装置
CN111488487A (zh) 一种面向全媒体数据的广告检测方法及检测系统
CN111586494B (zh) 一种基于音视频分离的智能拆条方法
CN102375863A (zh) 一种地理信息领域的关键字提取的方法及装置
CN111259196B (zh) 一种基于视频大数据的文章转视频的方法
CN103493067A (zh) 识别视频的字符的方法和装置
CN114051154A (zh) 一种新闻视频拆条方法和系统
CN114254077A (zh) 一种基于自然语言对稿件完整性的评估方法
CN101673263B (zh) 视频内容的搜索方法
CN111339865A (zh) 一种基于自监督学习的音乐合成视频mv的方法
CN102314252A (zh) 一种手写字符串的字符切分方法和装置
CN113395544A (zh) 一种语音标注数据生成方法及装置、语音识别系统
CN112002328A (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
CN112822506A (zh) 用于分析视频流的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210220

Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 310012 no.2-10, building 13, 199 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Huichuan Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant