CN109274900A

CN109274900A - 一种视频配音方法

Info

Publication number: CN109274900A
Application number: CN201811029941.2A
Authority: CN
Inventors: 陆成刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-25

Abstract

一种视频配音方法，包括以下步骤：1)形成文字段落；2)解析这段文本段落，每读取一小段文字，通过调用文本转语音TTS接口，生成语音音频；3)重复步骤2)，读取一小段文字并调用TTS接口，生成该段文字对应的音频，且与紧邻之前生成的音频段串接起来，组成一个不断生长增长的新音频段；4)接着打开手机免提扬声器播放音频，且打开手机摄像头进行视频图像抓取；同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码，进行音视频同步处理后，存放在视频文件里；5)最后音频播放完毕，自动停止摄像头图像的抓取，并且写好视频文件尾数据，配音视频文件生成完毕。本发明提供一种程序简单、成本较低的视频配音方法。

Description

一种视频配音方法

技术领域

本发明涉及一种视频配音方法。

背景技术

在数字多媒体处理领域中，对视频配音属于后期制作，一般使用专门的软件，在专门的录音室里，配音员操作软件完成配音。首先，将视频原音剥离去除，其次将待配音段的视频桢间隔时长、以及配音起始时间点确定，然后配音员进行语音讲解并同步录音，讲解完成后再进行下一个待配音段的处理，如此反复，直到所有视频配音完成为止。有时候为了使得视频、音频完全同步，在录音完成后，根据视频段的时长，可以使用音频变速(不变调)处理来增长或缩短录音时长，使得和视频段时长完全匹配。由此可见，给视频配音需要专门的软件、专门的场所，以及训练有素的配音员。

发明内容

为了克服已有视频配音方法的程序复杂、成本较高的不足，本发明提供一种程序简单、成本较低的视频配音方法。

本发明解决其技术问题所采用的技术方案是：

一种视频配音方法，包括以下步骤：

1)首先，形成文字段落；

2)其次，解析这段文本段落，每读取一小段文字，所述一小段文字以逗号、句号或时长分隔符为界，通过调用文本转语音TTS接口，生成语音音频；

3)重复步骤2)，读取一小段文字并调用TTS接口，生成该段文字对应的音频，且与紧邻之前生成的音频段串接起来，组成一个不断生长增长的新音频段；

文本段落解读完毕，生成了最终的配音音频；

4)接着打开手机免提扬声器播放音频，且打开手机摄像头进行视频图像抓取；手机摄像头的摄录方位由用户控制，用户根据音频播放的内容，进行摄录方位和摄录对象的调整；

同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码，音频编码桢和视频编码桢进行音视频同步处理后，存放在视频文件里；

5)最后音频播放完毕，自动停止摄像头图像的抓取，并且写好视频文件尾数据，配音视频文件生成完毕。

进一步，所述步骤1)中，用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。

再进一步，所述文字段落中，除了类似正常的文章编辑含有标点符号外，插入自定义的时间间隔时长的标识符。

如果这个文本段落由预制录音转换得到的，则在识别后的文本段落上通过手动编辑，插入时长间隔符，或者通篇文本段落不含时长间隔符号。

更进一步，所述步骤3)中，在每小段文字生成的音频段串接入不断生长增长的新音频段时，如果该小段文字前有时长间隔符，那么预先读取间隔时长，并在串接前插入等时长的静音段。

本发明的有益效果主要表现在：使用简单的软件方法和处理工具，例如手机，不需要专门的录音房间和训练有素的配音员，就能完成一般意义下质量保证的配音处理。这样的手机上的工具软件对于大众化的商业广告视频制作、小企业产品推介视频、以及机构培训视频都有较好的价值和作用。

具体实施方式

下面本发明作进一步描述。

一种视频配音方法，包括以下步骤：

1)首先，形成文字段落；

文本段落解读完毕，生成了最终的配音音频；

同时通过手机软件的算法把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码，音频编码桢和视频编码桢进行音视频同步处理后，存放在视频文件里；

再进一步，所述文字段落中，除了类似正常的文章编辑含有标点符号外，插入自定义的时间间隔时长的标识符，如“[8s]”表示间隔八秒。

Claims

1.一种视频配音方法，其特征在于，所述方法包括以下步骤：

1)首先，形成文字段落；

文本段落解读完毕，生成了最终的配音音频；

2.如权利要求1所述的一种视频配音方法，其特征在于，所述步骤1)中，用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。

3.如权利要求2所述的一种视频配音方法，其特征在于，所述文字段落中，除了类似正常的文章编辑含有标点符号外，插入自定义的时间间隔时长的标识符。

4.如权利要求2所述的一种视频配音方法，其特征在于，如果这个文本段落由预制录音转换得到的，则在识别后的文本段落上通过手动编辑，插入时长间隔符，或者通篇文本段落不含时长间隔符号。

5.如权利要求1～4之一所述的一种视频配音方法，其特征在于，所述步骤3)中，在每小段文字生成的音频段串接入不断生长增长的新音频段时，如果该小段文字前有时长间隔符，那么预先读取间隔时长，并在串接前插入等时长的静音段。