CN111586494A

CN111586494A - 一种基于音视频分离的智能拆条方法

Info

Publication number: CN111586494A
Application number: CN202010362759.XA
Authority: CN
Inventors: 康洪文
Original assignee: Hangzhou Huichuan Intelligent Technology Co ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-25
Anticipated expiration: 2040-04-30
Also published as: CN111586494B

Abstract

本发明公开了一种基于音视频分离的智能拆条方法，具体步骤为：从输入视频中，分离出音频和视频流；使用对象跟踪技术对视频进行场景切分，粗分出场景片段；对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段；或者根据音频的节奏、声纹等信息进行场景片段细分；利用深度学习技术，基于视频理解，对视频片段打标签；最后，返回带有标签的视频拆条片段；本发明方法有效提高了视频拆条的效率及准确度。

Description

一种基于音视频分离的智能拆条方法

技术领域

本发明涉及媒资管理技术领域，具体涉及一种基于音视频分离的智能拆条方法。

背景技术

在移动互联网、大数据、AI智能的技术驱动下，短视频正以其自身优势，打破内容行业的传统思路。随着5G技术的发展，平台运营成本降低，移动端网速大幅提升，短视频井喷的流量和突出的营销效应，使得用户的社交活跃性和使用黏性大大提升，越来越符合移动用户时间碎片化的体验。但同时，如何根据不同性质的内容信息，将长视频精准拆条成多段独立的短视频，成为一个亟待解决的问题。传统的长视频拆条方式，需要投入大量的人工进行手动预览拆分视频，耗时耗力，无法在短时间内批量地深度挖掘同质同类内容并验证其重复性，对精准的用户传播造成了很大阻碍。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种基于音视频分离的智能拆条方法。

为实现上述目的，本发明采用的技术方案是：它包含如下步骤：

一、从输入视频中，分离出音频和视频流，并根据时间戳来同步音频与视频流；

二、使用对象跟踪技术对视频进行场景切分，粗分出场景片段；

三、对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段：对于可识别出文本的场景片段，通过文本分类方式，分离文字段落，根据段落细分每个场景片段；对于不能识别出文本的场景片段，执行步骤四；

四、根据音频的节奏、声纹等信息，进行场景片段细分；

五、利用深度学习技术，基于视频理解，对视频片段打标签；

六、返回带有标签的视频拆条片段。

进一步地，步骤四中根据音频的节奏、声纹等信息，进行场景片段细分的具体方法为：对于不能识别出文本的场景片段，每隔N秒钟取一个分段，使用GRU(Gated RecurrentUnit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征，将相邻特征误差在R范围内的分段作为连续片段，从场景片段中拆分出来。

进一步地，步骤五中利用深度学习技术，基于视频理解，对视频片段打标签的具体方法为：对步骤三与步骤四中从场景片段细分出的视频片段，使用深度3D卷积神经网络提取片段的时空信息，并进行场景识别、动作捕捉、情感分析等，提取出场景信息、对象信息、人物表情、运动信息等，作为视频片段的标签信息。

采用上述方案后，本发明有益效果为：本发明所述的一种基于音视频分离的智能拆条方法，根据不同性质的内容信息，将长视频精准拆条成多段独立的短视频，并能在短时间内批量地深度挖掘同质同类内容并验证其重复性，视频拆条的效率及准确率高。

具体实施方式

下面对本发明作进一步的说明。

本具体实施方式采用的技术方案是：它包含如下步骤：

四、根据音频的节奏、声纹等信息，进行场景片段细分：对于不能识别出文本的场景片段，每隔N秒钟取一个分段，使用GRU(Gated Recurrent Unit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征，将相邻特征误差在R范围内的分段作为连续片段，从场景片段中拆分出来。

五、利用深度学习技术，基于视频理解，对视频片段打标签：对步骤三与步骤四中从场景片段细分出的视频片段，使用深度3D卷积神经网络提取片段的时空信息，并进行场景识别、动作捕捉、情感分析等，提取出场景信息、对象信息、人物表情、运动信息等，作为视频片段的标签信息。

六、返回带有标签的视频拆条片段。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于音视频分离的智能拆条方法，其特征在于它包含如下步骤：

四、根据音频的节奏、声纹等信息，进行场景片段细分；

六、返回带有标签的视频拆条片段。

2.根据权利要求1所述的一种基于音视频分离的智能拆条方法，其特征在于步骤四中根据音频的节奏、声纹等信息，进行场景片段细分的具体方法为：对于不能识别出文本的场景片段，每隔N秒钟取一个分段，使用GRU(Gated Recurrent Unit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征，将相邻特征误差在R范围内的分段作为连续片段，从场景片段中拆分出来。

3.根据权利要求1所述的一种基于音视频分离的智能拆条方法，其特征在于步骤五中利用深度学习技术，基于视频理解，对视频片段打标签的具体方法为：对步骤三与步骤四中从场景片段细分出的视频片段，使用深度3D卷积神经网络提取片段的时空信息，并进行场景识别、动作捕捉、情感分析等，提取出场景信息、对象信息、人物表情、运动信息等，作为视频片段的标签信息。