CN112714348A

CN112714348A - 智能音视频同步方法

Info

Publication number: CN112714348A
Application number: CN202011581013.4A
Authority: CN
Inventors: 段雄波; 任亮; 郭俊峰
Original assignee: Shenzhen Elink Smart Co Ltd
Current assignee: Shenzhen Elink Smart Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-27

Abstract

本发明涉及一种智能音视频同步方法，包括以下步骤：S1、确定语言类型；S2、提取视频文件中的对话场景，形成一个视频数据段；S3、从视频数据段的视频图像中定位出唇部；S4、提取唇部特征，使用所选择的语言的口型数据库训练出的模型，完成口型识别，识别出发音；S5、对识别出的发音进行语音识别，形成发音内容，记录为字幕数据A；S6、将字幕数据A与视频数据段的音频文件对比，分析出与字幕数据A的偏移时间；S7、根据偏移时间，将音频文件与字幕数据A同步。利用深度学习技术实现音视频的同步，以达到一个精准、高效、节省人力物力成本的解决方法，通过人物口型来识别人物说话内容，有了深度学习技术，人物口型识别率大大提高，利于音视频同步。

Description

智能音视频同步方法

技术领域

本发明涉及多媒体领域，更具体地说，涉及一种智能音视频同步方法。

背景技术

随着互联网多媒体技术的发展，音视频技术的应用场景越来越多，电影，直播，短视频等都有用到音视频技术。比如在观看电影时，有一个场景就是音视频的同步技术，比如一个电影，可能有几种语言的配音，而这些配音往往是后期配上去的，这样就存在一个问题，就是音视频的同步，很多时候都是人工来通过调整音频偏移时间来与视频画面同步。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述音视频不同步缺陷，提供一种智能音视频同步方法。

本发明解决其技术问题所采用的技术方案是：构造一种智能音视频同步方法，包括以下步骤：

S1、确定语言类型；

S2、提取视频文件中的对话场景，形成一个视频数据段；

S3、从所述视频数据段的视频图像中定位出唇部；

S4、提取唇部特征，使用所选择的语言的口型数据库训练出的模型，完成口型识别，识别出发音；

S5、对识别出的发音进行语音识别，形成发音内容，记录为字幕数据A；

S6、将所述字幕数据A与所述视频数据段的音频文件对比，分析出与字幕数据A的偏移时间；

S7、根据所述偏移时间，将所述音频文件与所述字幕数据A同步。

优选地，所述步骤S1中，语言类型为用户选择；或，语言类型为通过识别视频文件中的音频文件确定。

优选地，所述步骤S3中，先从所述视频数据段的视频图像中识别出人脸，再从所述人脸上的唇部特征及像素特征定位出唇部。

优选地，所述步骤S3中，利用机器视觉技术识别。

优选地，所述步骤S4中，利用深度学习的方法提取唇部特征。

优选地，所述步骤S4中，识别出的发音包括元音、辅音。

优选地，所述步骤S5中，对形成的发音内容打上时间戳后，再记录为字幕数据A。

优选地，所述步骤S7中，在同步时，以所述字幕数据A为参考。

优选地，所述步骤S6中，分析音频文件，生成与所述音频文件对应的字幕数据B，将字幕数据A与字幕数据B对比，分析出与字幕数据A的偏移时间。

优选地，利用语音识别技术,分析音频文件。

实施本发明的智能音视频同步方法，具有以下有益效果：利用深度学习技术实现音视频的同步，以达到一个精准、高效、节省人力物力成本的解决方法，通过人物口型来识别人物说话内容，有了深度学习技术，人物口型识别率大大提高，从而为音视频同步的实现提供了现实基础。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中的智能音视频同步方法的流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图1所示，本发明一个优选实施例中的智能音视频同步方法包括以下步骤：

S1、确定语言类型；

S2、提取视频文件中的对话场景，形成一个视频数据段；

S3、从视频数据段的视频图像中定位出唇部；

S6、将字幕数据A与视频数据段的音频文件对比，分析出与字幕数据A的偏移时间；

S7、根据偏移时间，将音频文件与字幕数据A同步。

利用深度学习技术实现音视频的同步，以达到一个精准、高效、节省人力物力成本的解决方法，通过人物口型来识别人物说话内容，有了深度学习技术，人物口型识别率大大提高，从而为音视频同步的实现提供了现实基础。

优选地，步骤S1中，语言类型为用户选择，在其他实施例中，也可通过识别视频文件中的音频文件确定语言类型确定。

在一些实施例中，步骤S3中，先从视频数据段的视频图像中识别出人脸，再从人脸上的唇部特征及像素特征定位出唇部。

优选地，步骤S3中，利用机器视觉技术识别。

在一些实施例中，步骤S4中，利用深度学习的方法提取唇部特征。进一步地，步骤S4中，识别出的发音包括元音、辅音。

在一些实施例中，步骤S5中，对形成的发音内容打上时间戳后，再记录为字幕数据A。

在一些实施例中，步骤S6中，分析音频文件，生成与音频文件对应的字幕数据B，将字幕数据A与字幕数据B对比，分析出与字幕数据A的偏移时间。

优选地，步骤S7中，在同步时，以字幕数据A为参考。字幕数据A对应的是口型，让观众看到的和听到的都与口型能对上。

可以理解地，上述各技术特征可以任意组合使用而不受限制。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能音视频同步方法，其特征在于，包括以下步骤：

S1、确定语言类型；

S2、提取视频文件中的对话场景，形成一个视频数据段；

S3、从所述视频数据段的视频图像中定位出唇部；

2.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S1中，语言类型为用户选择；或，语言类型为通过识别视频文件中的音频文件确定。

3.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S3中，先从所述视频数据段的视频图像中识别出人脸，再从所述人脸上的唇部特征及像素特征定位出唇部。

4.根据权利要求3所述的智能音视频同步方法，其特征在于，所述步骤S3中，利用机器视觉技术识别。

5.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S4中，利用深度学习的方法提取唇部特征。

6.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S4中，识别出的发音包括元音、辅音。

7.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S5中，对形成的发音内容打上时间戳后，再记录为字幕数据A。

8.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S7中，在同步时，以所述字幕数据A为参考。

9.根据权利要求1、7、8任一项所述的智能音视频同步方法，其特征在于，所述步骤S6中，分析音频文件，生成与所述音频文件对应的字幕数据B，将字幕数据A与字幕数据B对比，分析出与字幕数据A的偏移时间。

10.根据权利要求9所述的智能音视频同步方法，其特征在于，利用语音识别技术,分析音频文件。