CN109600566A

CN109600566A - 一种视频配音方法

Info

Publication number: CN109600566A
Application number: CN201811464741.XA
Authority: CN
Inventors: 陆成刚; 陈刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-09

Abstract

一种视频配音方法，打开移动设备的摄像头，暂停图像抓取；输入并递交配音文本；自动取消暂停的图像抓取状态，开始正式的摄像并抓取视频图像；图像抓取线程、解析文本并与TTS交互而实现文本转语音的线程，这两个是同时开启运行的线程；弹出文本编辑窗口的界面，此时用户点击结束，否则可以继续编辑文本或者选择待配音的文本文件，点击提交按钮，并回到步骤，结束摄像头图像的抓取线程，并且写好视频文件尾数据，配音视频文件生成完毕。本发明提供能够简化拍摄视频的后期配音处理工作，保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作；也能够保证视频配音质量，实现配音操作的便携性、可操作性、实时性。

Description

一种视频配音方法

技术领域

本发明属于数字多媒体处理领域，涉及一种视频配音方法

背景技术

在数字多媒体处理领域中，对视频配音属于后期制作，一般使用专门的软件，在专门的录音室里，由专门的配音人员操作软件完成配音。一般配音流程如下：首先去除视频原音，然后确定待配音的视频帧间隔时长、以及配音始末时间点，接着配音人员进行讲解配音内容并同步录音，讲解完成后再进行下一段配音处理。如此往复，直至所有视频配音完成为止。有时，为了防止出现音频和视频不同步的现象，待录音完成后，根据视频时长，使用音频变速不变调处理来增长或缩短录音时长，使得和视频段时长同步。由此可见，给视频配音需要专业软件、专用场所和专业的配音员。

发明内容

为了克服已有视频配音方法的程序复杂、成本较高的不足,本发明提供了一种程序简单、成本较低的视频配音方法，能够简化拍摄视频的后期配音处理工作，保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作；也能够保证视频配音质量，实现配音操作的便携性、可操作性、实时性。

本发明解决其技术问题所采用的技术方案是：

一种视频配音方法，包括以下步骤：

(1)首先，打开移动设备的摄像头，准备进行图像抓取；此时画面呈现的是摄像头抓取的实时图像内容，还并没有进行正式的摄录和后续操作，用户此时预先调整好准备摄录的位置、角度和焦距；

接着，针对用户输入需要配音的文本、文本与TTS接口交互及图像抓取，设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式；

(2)在当前暂停图像抓取只显示取景画面的情形下，用户点击编辑按钮，用户选择输入配音文本文件，配音的文本文件以逗号、句号或时长分隔符为等待符，或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符；待用户完成选择输入文件或编辑好文本后，点击提交按钮，即启动解析文本并与TTS交互而实现文本转语音的线程；

(3)自动取消暂停的图像抓取状态，开始正式的摄像并抓取视频图像。

(4)音视频同步的逻辑如下：

图像抓取线程与开启解析文本并与TTS交互而实现文本转语音的线程，这两个是同时开启运行的线程；

图像抓取线程检查音频缓冲区，如果该缓冲区为空，则图像抓取线程内部自动轮空抓取图像的保存；等到TTS引擎输出的音频到达缓冲区后，“解析文本并与TTS交互而实现文本转语音的线程”自动结束，图像抓取线程检查到音频流的时间长度，然后依照预定的视频帧率计算出所要抓取的图像帧数，开始抓取图像并存入视频文件，同时把音频缓冲区的音频数据也按照这个音频帧率同步存入视频文件；

(5)配音文本对应的音频通过缓冲区全部存入视频文件，且对应的图像抓取线程也完成步骤(4)中的抓取帧数，则图像抓取线程暂停，同时清空缓冲区；

(6)弹出文本编辑窗口的界面，此时用户点击结束，则继续步骤(7)；否则可以继续编辑文本或者选择待配音的文本文件，点击提交按钮，并回到步骤(3)；

(7)结束摄像头图像的抓取线程，并且写好视频文件尾数据，配音视频文件生成完毕。

进一步，所述步骤(4)中，TTS引擎是远程云端的或者本地的。

再进一步，所述步骤(4)中，所述音频帧率是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块。

本发明的有益效果主要表现在：简化拍摄视频的后期配音处理工作，保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作；也能够保证视频配音质量，实现配音操作的便携性、可操作性、实时性。

附图说明

图1是一种视频配音方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种视频配音方法，包括以下步骤：

(1)首先，打开移动设备的摄像头，准备进行图像抓取(实际上只是准备摄像工作，显示取景画面)；此时手机画面呈现的是摄像头抓取的实时图像内容，还并没有进行正式的摄录和后续操作，用户此时可以预先调整好准备摄录的位置、角度和焦距；

接着，针对用户输入需要配音的文本、文本与TTS(Text to Speech/文本转语音)接口交互及图像抓取设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式；

(2)在当前暂停图像抓取只显示取景画面的情形下，用户点击编辑按钮，用户选择输入配音文本文件，配音的文本文件以逗号、句号或时长分隔符为等待符，或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符；待用户完成选择输入文件或编辑好文本后(含等待符)，点击提交按钮，即启动解析文本并与TTS交互而实现文本转语音的线程；

(4)音视频同步的逻辑如下：

图像抓取线程检查音频缓冲区，如果该缓冲区为空，则图像抓取线程内部自动轮空抓取图像的保存；等到TTS引擎输出的音频到达缓冲区后(TTS引擎可能是远程云端的，也可能是本地的)，“解析文本并与TTS交互而实现文本转语音的线程”自动结束，图像抓取线程检查到音频流的时间长度，然后依照预定的视频帧率计算出所要抓取的图像帧数，开始抓取图像并存入视频文件，同时把音频缓冲区的音频数据也按照这个音频(块)帧率(其实是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块)同步存入视频文件。

(5)配音文本对应的音频通过缓冲区全部存入视频文件，且对应的图像抓取线程也完成步骤(4)中的抓取帧数，则图像抓取线程暂停，同时清空缓冲区。

(6)弹出文本编辑窗口的界面，此时用户点击结束，则继续步骤(7)；否则可以继续编辑文本或者选择待配音的文本文件，点击提交按钮，并回到步骤(3)。

本实施例能够简化拍摄视频的后期配音处理工作，保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作。也为了保证视频配音质量，实现配音操作的便携性、可操作性、实时性；该配音方法可以应用在移动设备，如手机上。

Claims

1.一种视频配音方法，其特征在于，所述方法包括以下步骤：

(4)音视频同步的逻辑如下：

2.如权利要求1所述的一种视频配音方法，其特征在于，所述步骤(4)中，TTS引擎是远程云端的或者本地的。

3.如权利要求1或2所述的一种视频配音方法，其特征在于，所述步骤(4)中，所述音频帧率是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块。