CN109600566A - 一种视频配音方法 - Google Patents

一种视频配音方法 Download PDF

Info

Publication number
CN109600566A
CN109600566A CN201811464741.XA CN201811464741A CN109600566A CN 109600566 A CN109600566 A CN 109600566A CN 201811464741 A CN201811464741 A CN 201811464741A CN 109600566 A CN109600566 A CN 109600566A
Authority
CN
China
Prior art keywords
text
video
image
audio
thread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811464741.XA
Other languages
English (en)
Inventor
陆成刚
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811464741.XA priority Critical patent/CN109600566A/zh
Publication of CN109600566A publication Critical patent/CN109600566A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal

Abstract

一种视频配音方法,打开移动设备的摄像头,暂停图像抓取;输入并递交配音文本;自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像;图像抓取线程、解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;弹出文本编辑窗口的界面,此时用户点击结束,否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤,结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。本发明提供能够简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作;也能够保证视频配音质量,实现配音操作的便携性、可操作性、实时性。

Description

一种视频配音方法
技术领域
本发明属于数字多媒体处理领域,涉及一种视频配音方法
背景技术
在数字多媒体处理领域中,对视频配音属于后期制作,一般使用专门的软件,在专门的录音室里,由专门的配音人员操作软件完成配音。一般配音流程如下:首先去除视频原音,然后确定待配音的视频帧间隔时长、以及配音始末时间点,接着配音人员进行讲解配音内容并同步录音,讲解完成后再进行下一段配音处理。如此往复,直至所有视频配音完成为止。有时,为了防止出现音频和视频不同步的现象,待录音完成后,根据视频时长,使用音频变速不变调处理来增长或缩短录音时长,使得和视频段时长同步。由此可见,给视频配音需要专业软件、专用场所和专业的配音员。
发明内容
为了克服已有视频配音方法的程序复杂、成本较高的不足,本发明提供了一种程序简单、成本较低的视频配音方法,能够简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作;也能够保证视频配音质量,实现配音操作的便携性、可操作性、实时性。
本发明解决其技术问题所采用的技术方案是:
一种视频配音方法,包括以下步骤:
(1)首先,打开移动设备的摄像头,准备进行图像抓取;此时画面呈现的是摄像头抓取的实时图像内容,还并没有进行正式的摄录和后续操作,用户此时预先调整好准备摄录的位置、角度和焦距;
接着,针对用户输入需要配音的文本、文本与TTS接口交互及图像抓取,设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式;
(2)在当前暂停图像抓取只显示取景画面的情形下,用户点击编辑按钮,用户选择输入配音文本文件,配音的文本文件以逗号、句号或时长分隔符为等待符,或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符;待用户完成选择输入文件或编辑好文本后,点击提交按钮,即启动解析文本并与TTS交互而实现文本转语音的线程;
(3)自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像。
(4)音视频同步的逻辑如下:
图像抓取线程与开启解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;
图像抓取线程检查音频缓冲区,如果该缓冲区为空,则图像抓取线程内部自动轮空抓取图像的保存;等到TTS引擎输出的音频到达缓冲区后,“解析文本并与TTS交互而实现文本转语音的线程”自动结束,图像抓取线程检查到音频流的时间长度,然后依照预定的视频帧率计算出所要抓取的图像帧数,开始抓取图像并存入视频文件,同时把音频缓冲区的音频数据也按照这个音频帧率同步存入视频文件;
(5)配音文本对应的音频通过缓冲区全部存入视频文件,且对应的图像抓取线程也完成步骤(4)中的抓取帧数,则图像抓取线程暂停,同时清空缓冲区;
(6)弹出文本编辑窗口的界面,此时用户点击结束,则继续步骤(7);否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤(3);
(7)结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。
进一步,所述步骤(4)中,TTS引擎是远程云端的或者本地的。
再进一步,所述步骤(4)中,所述音频帧率是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块。
本发明的有益效果主要表现在:简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作;也能够保证视频配音质量,实现配音操作的便携性、可操作性、实时性。
附图说明
图1是一种视频配音方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种视频配音方法,包括以下步骤:
(1)首先,打开移动设备的摄像头,准备进行图像抓取(实际上只是准备摄像工作,显示取景画面);此时手机画面呈现的是摄像头抓取的实时图像内容,还并没有进行正式的摄录和后续操作,用户此时可以预先调整好准备摄录的位置、角度和焦距;
接着,针对用户输入需要配音的文本、文本与TTS(Text to Speech/文本转语音)接口交互及图像抓取设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式;
(2)在当前暂停图像抓取只显示取景画面的情形下,用户点击编辑按钮,用户选择输入配音文本文件,配音的文本文件以逗号、句号或时长分隔符为等待符,或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符;待用户完成选择输入文件或编辑好文本后(含等待符),点击提交按钮,即启动解析文本并与TTS交互而实现文本转语音的线程;
(3)自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像。
(4)音视频同步的逻辑如下:
图像抓取线程与开启解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;
图像抓取线程检查音频缓冲区,如果该缓冲区为空,则图像抓取线程内部自动轮空抓取图像的保存;等到TTS引擎输出的音频到达缓冲区后(TTS引擎可能是远程云端的,也可能是本地的),“解析文本并与TTS交互而实现文本转语音的线程”自动结束,图像抓取线程检查到音频流的时间长度,然后依照预定的视频帧率计算出所要抓取的图像帧数,开始抓取图像并存入视频文件,同时把音频缓冲区的音频数据也按照这个音频(块)帧率(其实是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块)同步存入视频文件。
(5)配音文本对应的音频通过缓冲区全部存入视频文件,且对应的图像抓取线程也完成步骤(4)中的抓取帧数,则图像抓取线程暂停,同时清空缓冲区。
(6)弹出文本编辑窗口的界面,此时用户点击结束,则继续步骤(7);否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤(3)。
(7)结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。
本实施例能够简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作。也为了保证视频配音质量,实现配音操作的便携性、可操作性、实时性;该配音方法可以应用在移动设备,如手机上。

Claims (3)

1.一种视频配音方法,其特征在于,所述方法包括以下步骤:
(1)首先,打开移动设备的摄像头,准备进行图像抓取;此时画面呈现的是摄像头抓取的实时图像内容,还并没有进行正式的摄录和后续操作,用户此时预先调整好准备摄录的位置、角度和焦距;
接着,针对用户输入需要配音的文本、文本与TTS接口交互及图像抓取,设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式;
(2)在当前暂停图像抓取只显示取景画面的情形下,用户点击编辑按钮,用户选择输入配音文本文件,配音的文本文件以逗号、句号或时长分隔符为等待符,或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符;待用户完成选择输入文件或编辑好文本后,点击提交按钮,即启动解析文本并与TTS交互而实现文本转语音的线程;
(3)自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像。
(4)音视频同步的逻辑如下:
图像抓取线程与开启解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;
图像抓取线程检查音频缓冲区,如果该缓冲区为空,则图像抓取线程内部自动轮空抓取图像的保存;等到TTS引擎输出的音频到达缓冲区后,“解析文本并与TTS交互而实现文本转语音的线程”自动结束,图像抓取线程检查到音频流的时间长度,然后依照预定的视频帧率计算出所要抓取的图像帧数,开始抓取图像并存入视频文件,同时把音频缓冲区的音频数据也按照这个音频帧率同步存入视频文件;
(5)配音文本对应的音频通过缓冲区全部存入视频文件,且对应的图像抓取线程也完成步骤(4)中的抓取帧数,则图像抓取线程暂停,同时清空缓冲区;
(6)弹出文本编辑窗口的界面,此时用户点击结束,则继续步骤(7);否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤(3);
(7)结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。
2.如权利要求1所述的一种视频配音方法,其特征在于,所述步骤(4)中,TTS引擎是远程云端的或者本地的。
3.如权利要求1或2所述的一种视频配音方法,其特征在于,所述步骤(4)中,所述音频帧率是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块。
CN201811464741.XA 2018-12-03 2018-12-03 一种视频配音方法 Pending CN109600566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811464741.XA CN109600566A (zh) 2018-12-03 2018-12-03 一种视频配音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811464741.XA CN109600566A (zh) 2018-12-03 2018-12-03 一种视频配音方法

Publications (1)

Publication Number Publication Date
CN109600566A true CN109600566A (zh) 2019-04-09

Family

ID=65959114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811464741.XA Pending CN109600566A (zh) 2018-12-03 2018-12-03 一种视频配音方法

Country Status (1)

Country Link
CN (1) CN109600566A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
CN112752146A (zh) * 2020-05-25 2021-05-04 腾讯科技(深圳)有限公司 视频质量评估方法、装置、计算机设备和存储介质
CN112911276A (zh) * 2021-01-21 2021-06-04 广东九联科技股份有限公司 一种用于检测机顶盒音视频同步的方法
CN115086757A (zh) * 2021-03-12 2022-09-20 北京字跳网络技术有限公司 一种历史剪辑操作的回撤方法、装置、设备及存储介质
US11594226B2 (en) 2020-12-22 2023-02-28 International Business Machines Corporation Automatic synthesis of translated speech using speaker-specific phonemes

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564618A (zh) * 2004-04-08 2005-01-12 海信集团有限公司 手机摄像中图像数据和声音数据同步播放的方法
CN102821308A (zh) * 2012-06-04 2012-12-12 西安交通大学 一种多场景流媒体课件录制与直播方法
CN102868862A (zh) * 2012-09-13 2013-01-09 北京富年科技有限公司 应用于移动终端的视频配音方法及该设备
CN104092920A (zh) * 2014-07-16 2014-10-08 浙江航天长峰科技发展有限公司 一种音视频同步方法
CN105611171A (zh) * 2016-01-07 2016-05-25 北京东方云图科技有限公司 一种利用多终端联机拍摄视频文件的方法和装置
CN105679120A (zh) * 2016-01-29 2016-06-15 右江民族医学院 基于tts技术制作标准普通话语音微课件的方法
CN108322673A (zh) * 2018-01-24 2018-07-24 北京小米移动软件有限公司 视频生成方法和视频生成装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564618A (zh) * 2004-04-08 2005-01-12 海信集团有限公司 手机摄像中图像数据和声音数据同步播放的方法
CN102821308A (zh) * 2012-06-04 2012-12-12 西安交通大学 一种多场景流媒体课件录制与直播方法
CN102868862A (zh) * 2012-09-13 2013-01-09 北京富年科技有限公司 应用于移动终端的视频配音方法及该设备
CN104092920A (zh) * 2014-07-16 2014-10-08 浙江航天长峰科技发展有限公司 一种音视频同步方法
CN105611171A (zh) * 2016-01-07 2016-05-25 北京东方云图科技有限公司 一种利用多终端联机拍摄视频文件的方法和装置
CN105679120A (zh) * 2016-01-29 2016-06-15 右江民族医学院 基于tts技术制作标准普通话语音微课件的方法
CN108322673A (zh) * 2018-01-24 2018-07-24 北京小米移动软件有限公司 视频生成方法和视频生成装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
CN112752146A (zh) * 2020-05-25 2021-05-04 腾讯科技(深圳)有限公司 视频质量评估方法、装置、计算机设备和存储介质
US11594226B2 (en) 2020-12-22 2023-02-28 International Business Machines Corporation Automatic synthesis of translated speech using speaker-specific phonemes
CN112911276A (zh) * 2021-01-21 2021-06-04 广东九联科技股份有限公司 一种用于检测机顶盒音视频同步的方法
CN115086757A (zh) * 2021-03-12 2022-09-20 北京字跳网络技术有限公司 一种历史剪辑操作的回撤方法、装置、设备及存储介质
CN115086757B (zh) * 2021-03-12 2023-12-19 北京字跳网络技术有限公司 一种历史剪辑操作的回撤方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109600566A (zh) 一种视频配音方法
US11699456B2 (en) Automated transcript generation from multi-channel audio
CN106782545B (zh) 一种将音视频数据转化成文字记录的系统和方法
CA2774985C (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
WO2019000721A1 (zh) 视频文件录制方法、音频文件录制方法及移动终端
CN106412645B (zh) 向多媒体服务器上传视频文件的方法和装置
US20140043531A1 (en) Method and apparatus for synchronizing audio and video streams
WO2021121023A1 (zh) 视频编辑方法、视频编辑装置、终端和可读存储介质
US20040267387A1 (en) System and method for capturing media
CN108712624A (zh) 基于文字记录的录像存档装置及方法
CN105679120B (zh) 基于tts技术制作标准普通话语音微课件的方法
CN108614853A (zh) 一种多数据源信息同步混合存储与回放系统及方法
CN110691204B (zh) 一种音视频处理方法、装置、电子设备及存储介质
CN110769167A (zh) 一种基于文字转语音技术进行视频配音的方法
US20100080536A1 (en) Information recording/reproducing apparatus and video camera
CN109274900A (zh) 一种视频配音方法
US7050110B1 (en) Method and system for generating annotations video
WO2021163879A1 (zh) 一种录屏方法、装置及计算机可读存储介质
CN111970579A (zh) 基于ai视频理解的视频音乐适配方法与系统
CN107277368A (zh) 一种用于智能设备的拍摄方法及拍摄装置
CN105812857B (zh) 动态交互讲座系统
WO2024008047A1 (zh) 数字人手语播报方法、装置、设备及存储介质
JP2012105234A (ja) 字幕生成配信システム、字幕生成配信方法およびプログラム
US7912454B2 (en) Method and system for archiving data in real-time communications
KR101783872B1 (ko) 동영상 검색 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409

RJ01 Rejection of invention patent application after publication