CN109600566A - 一种视频配音方法 - Google Patents
一种视频配音方法 Download PDFInfo
- Publication number
- CN109600566A CN109600566A CN201811464741.XA CN201811464741A CN109600566A CN 109600566 A CN109600566 A CN 109600566A CN 201811464741 A CN201811464741 A CN 201811464741A CN 109600566 A CN109600566 A CN 109600566A
- Authority
- CN
- China
- Prior art keywords
- text
- video
- image
- audio
- thread
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/92—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N5/9201—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/92—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N5/9201—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
- H04N5/9202—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal
Abstract
一种视频配音方法,打开移动设备的摄像头,暂停图像抓取;输入并递交配音文本;自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像;图像抓取线程、解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;弹出文本编辑窗口的界面,此时用户点击结束,否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤,结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。本发明提供能够简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作;也能够保证视频配音质量,实现配音操作的便携性、可操作性、实时性。
Description
技术领域
本发明属于数字多媒体处理领域,涉及一种视频配音方法
背景技术
在数字多媒体处理领域中,对视频配音属于后期制作,一般使用专门的软件,在专门的录音室里,由专门的配音人员操作软件完成配音。一般配音流程如下:首先去除视频原音,然后确定待配音的视频帧间隔时长、以及配音始末时间点,接着配音人员进行讲解配音内容并同步录音,讲解完成后再进行下一段配音处理。如此往复,直至所有视频配音完成为止。有时,为了防止出现音频和视频不同步的现象,待录音完成后,根据视频时长,使用音频变速不变调处理来增长或缩短录音时长,使得和视频段时长同步。由此可见,给视频配音需要专业软件、专用场所和专业的配音员。
发明内容
为了克服已有视频配音方法的程序复杂、成本较高的不足,本发明提供了一种程序简单、成本较低的视频配音方法,能够简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作;也能够保证视频配音质量,实现配音操作的便携性、可操作性、实时性。
本发明解决其技术问题所采用的技术方案是:
一种视频配音方法,包括以下步骤:
(1)首先,打开移动设备的摄像头,准备进行图像抓取;此时画面呈现的是摄像头抓取的实时图像内容,还并没有进行正式的摄录和后续操作,用户此时预先调整好准备摄录的位置、角度和焦距;
接着,针对用户输入需要配音的文本、文本与TTS接口交互及图像抓取,设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式;
(2)在当前暂停图像抓取只显示取景画面的情形下,用户点击编辑按钮,用户选择输入配音文本文件,配音的文本文件以逗号、句号或时长分隔符为等待符,或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符;待用户完成选择输入文件或编辑好文本后,点击提交按钮,即启动解析文本并与TTS交互而实现文本转语音的线程;
(3)自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像。
(4)音视频同步的逻辑如下:
图像抓取线程与开启解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;
图像抓取线程检查音频缓冲区,如果该缓冲区为空,则图像抓取线程内部自动轮空抓取图像的保存;等到TTS引擎输出的音频到达缓冲区后,“解析文本并与TTS交互而实现文本转语音的线程”自动结束,图像抓取线程检查到音频流的时间长度,然后依照预定的视频帧率计算出所要抓取的图像帧数,开始抓取图像并存入视频文件,同时把音频缓冲区的音频数据也按照这个音频帧率同步存入视频文件;
(5)配音文本对应的音频通过缓冲区全部存入视频文件,且对应的图像抓取线程也完成步骤(4)中的抓取帧数,则图像抓取线程暂停,同时清空缓冲区;
(6)弹出文本编辑窗口的界面,此时用户点击结束,则继续步骤(7);否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤(3);
(7)结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。
进一步,所述步骤(4)中,TTS引擎是远程云端的或者本地的。
再进一步,所述步骤(4)中,所述音频帧率是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块。
本发明的有益效果主要表现在:简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作;也能够保证视频配音质量,实现配音操作的便携性、可操作性、实时性。
附图说明
图1是一种视频配音方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种视频配音方法,包括以下步骤:
(1)首先,打开移动设备的摄像头,准备进行图像抓取(实际上只是准备摄像工作,显示取景画面);此时手机画面呈现的是摄像头抓取的实时图像内容,还并没有进行正式的摄录和后续操作,用户此时可以预先调整好准备摄录的位置、角度和焦距;
接着,针对用户输入需要配音的文本、文本与TTS(Text to Speech/文本转语音)接口交互及图像抓取设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式;
(2)在当前暂停图像抓取只显示取景画面的情形下,用户点击编辑按钮,用户选择输入配音文本文件,配音的文本文件以逗号、句号或时长分隔符为等待符,或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符;待用户完成选择输入文件或编辑好文本后(含等待符),点击提交按钮,即启动解析文本并与TTS交互而实现文本转语音的线程;
(3)自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像。
(4)音视频同步的逻辑如下:
图像抓取线程与开启解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;
图像抓取线程检查音频缓冲区,如果该缓冲区为空,则图像抓取线程内部自动轮空抓取图像的保存;等到TTS引擎输出的音频到达缓冲区后(TTS引擎可能是远程云端的,也可能是本地的),“解析文本并与TTS交互而实现文本转语音的线程”自动结束,图像抓取线程检查到音频流的时间长度,然后依照预定的视频帧率计算出所要抓取的图像帧数,开始抓取图像并存入视频文件,同时把音频缓冲区的音频数据也按照这个音频(块)帧率(其实是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块)同步存入视频文件。
(5)配音文本对应的音频通过缓冲区全部存入视频文件,且对应的图像抓取线程也完成步骤(4)中的抓取帧数,则图像抓取线程暂停,同时清空缓冲区。
(6)弹出文本编辑窗口的界面,此时用户点击结束,则继续步骤(7);否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤(3)。
(7)结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。
本实施例能够简化拍摄视频的后期配音处理工作,保证后期不需要通过专业视频编辑软件进行去除环境噪音的工作。也为了保证视频配音质量,实现配音操作的便携性、可操作性、实时性;该配音方法可以应用在移动设备,如手机上。
Claims (3)
1.一种视频配音方法,其特征在于,所述方法包括以下步骤:
(1)首先,打开移动设备的摄像头,准备进行图像抓取;此时画面呈现的是摄像头抓取的实时图像内容,还并没有进行正式的摄录和后续操作,用户此时预先调整好准备摄录的位置、角度和焦距;
接着,针对用户输入需要配音的文本、文本与TTS接口交互及图像抓取,设计基于由TTS引擎输出的音频流时间长度来进行同步录像的方式;
(2)在当前暂停图像抓取只显示取景画面的情形下,用户点击编辑按钮,用户选择输入配音文本文件,配音的文本文件以逗号、句号或时长分隔符为等待符,或者用户直接在编辑窗口内现场编辑待转化为音频的文本以及等待符;待用户完成选择输入文件或编辑好文本后,点击提交按钮,即启动解析文本并与TTS交互而实现文本转语音的线程;
(3)自动取消暂停的图像抓取状态,开始正式的摄像并抓取视频图像。
(4)音视频同步的逻辑如下:
图像抓取线程与开启解析文本并与TTS交互而实现文本转语音的线程,这两个是同时开启运行的线程;
图像抓取线程检查音频缓冲区,如果该缓冲区为空,则图像抓取线程内部自动轮空抓取图像的保存;等到TTS引擎输出的音频到达缓冲区后,“解析文本并与TTS交互而实现文本转语音的线程”自动结束,图像抓取线程检查到音频流的时间长度,然后依照预定的视频帧率计算出所要抓取的图像帧数,开始抓取图像并存入视频文件,同时把音频缓冲区的音频数据也按照这个音频帧率同步存入视频文件;
(5)配音文本对应的音频通过缓冲区全部存入视频文件,且对应的图像抓取线程也完成步骤(4)中的抓取帧数,则图像抓取线程暂停,同时清空缓冲区;
(6)弹出文本编辑窗口的界面,此时用户点击结束,则继续步骤(7);否则可以继续编辑文本或者选择待配音的文本文件,点击提交按钮,并回到步骤(3);
(7)结束摄像头图像的抓取线程,并且写好视频文件尾数据,配音视频文件生成完毕。
2.如权利要求1所述的一种视频配音方法,其特征在于,所述步骤(4)中,TTS引擎是远程云端的或者本地的。
3.如权利要求1或2所述的一种视频配音方法,其特征在于,所述步骤(4)中,所述音频帧率是已知音频采样率下将音频按照视频桢间隔而依照时间先后次序划出的音频桢块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811464741.XA CN109600566A (zh) | 2018-12-03 | 2018-12-03 | 一种视频配音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811464741.XA CN109600566A (zh) | 2018-12-03 | 2018-12-03 | 一种视频配音方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109600566A true CN109600566A (zh) | 2019-04-09 |
Family
ID=65959114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811464741.XA Pending CN109600566A (zh) | 2018-12-03 | 2018-12-03 | 一种视频配音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109600566A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110769167A (zh) * | 2019-10-30 | 2020-02-07 | 合肥名阳信息技术有限公司 | 一种基于文字转语音技术进行视频配音的方法 |
CN112752146A (zh) * | 2020-05-25 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 视频质量评估方法、装置、计算机设备和存储介质 |
CN112911276A (zh) * | 2021-01-21 | 2021-06-04 | 广东九联科技股份有限公司 | 一种用于检测机顶盒音视频同步的方法 |
CN115086757A (zh) * | 2021-03-12 | 2022-09-20 | 北京字跳网络技术有限公司 | 一种历史剪辑操作的回撤方法、装置、设备及存储介质 |
US11594226B2 (en) | 2020-12-22 | 2023-02-28 | International Business Machines Corporation | Automatic synthesis of translated speech using speaker-specific phonemes |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564618A (zh) * | 2004-04-08 | 2005-01-12 | 海信集团有限公司 | 手机摄像中图像数据和声音数据同步播放的方法 |
CN102821308A (zh) * | 2012-06-04 | 2012-12-12 | 西安交通大学 | 一种多场景流媒体课件录制与直播方法 |
CN102868862A (zh) * | 2012-09-13 | 2013-01-09 | 北京富年科技有限公司 | 应用于移动终端的视频配音方法及该设备 |
CN104092920A (zh) * | 2014-07-16 | 2014-10-08 | 浙江航天长峰科技发展有限公司 | 一种音视频同步方法 |
CN105611171A (zh) * | 2016-01-07 | 2016-05-25 | 北京东方云图科技有限公司 | 一种利用多终端联机拍摄视频文件的方法和装置 |
CN105679120A (zh) * | 2016-01-29 | 2016-06-15 | 右江民族医学院 | 基于tts技术制作标准普通话语音微课件的方法 |
CN108322673A (zh) * | 2018-01-24 | 2018-07-24 | 北京小米移动软件有限公司 | 视频生成方法和视频生成装置 |
-
2018
- 2018-12-03 CN CN201811464741.XA patent/CN109600566A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564618A (zh) * | 2004-04-08 | 2005-01-12 | 海信集团有限公司 | 手机摄像中图像数据和声音数据同步播放的方法 |
CN102821308A (zh) * | 2012-06-04 | 2012-12-12 | 西安交通大学 | 一种多场景流媒体课件录制与直播方法 |
CN102868862A (zh) * | 2012-09-13 | 2013-01-09 | 北京富年科技有限公司 | 应用于移动终端的视频配音方法及该设备 |
CN104092920A (zh) * | 2014-07-16 | 2014-10-08 | 浙江航天长峰科技发展有限公司 | 一种音视频同步方法 |
CN105611171A (zh) * | 2016-01-07 | 2016-05-25 | 北京东方云图科技有限公司 | 一种利用多终端联机拍摄视频文件的方法和装置 |
CN105679120A (zh) * | 2016-01-29 | 2016-06-15 | 右江民族医学院 | 基于tts技术制作标准普通话语音微课件的方法 |
CN108322673A (zh) * | 2018-01-24 | 2018-07-24 | 北京小米移动软件有限公司 | 视频生成方法和视频生成装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110769167A (zh) * | 2019-10-30 | 2020-02-07 | 合肥名阳信息技术有限公司 | 一种基于文字转语音技术进行视频配音的方法 |
CN112752146A (zh) * | 2020-05-25 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 视频质量评估方法、装置、计算机设备和存储介质 |
US11594226B2 (en) | 2020-12-22 | 2023-02-28 | International Business Machines Corporation | Automatic synthesis of translated speech using speaker-specific phonemes |
CN112911276A (zh) * | 2021-01-21 | 2021-06-04 | 广东九联科技股份有限公司 | 一种用于检测机顶盒音视频同步的方法 |
CN115086757A (zh) * | 2021-03-12 | 2022-09-20 | 北京字跳网络技术有限公司 | 一种历史剪辑操作的回撤方法、装置、设备及存储介质 |
CN115086757B (zh) * | 2021-03-12 | 2023-12-19 | 北京字跳网络技术有限公司 | 一种历史剪辑操作的回撤方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109600566A (zh) | 一种视频配音方法 | |
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
CN106782545B (zh) | 一种将音视频数据转化成文字记录的系统和方法 | |
CA2774985C (en) | Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs | |
WO2019000721A1 (zh) | 视频文件录制方法、音频文件录制方法及移动终端 | |
CN106412645B (zh) | 向多媒体服务器上传视频文件的方法和装置 | |
US20140043531A1 (en) | Method and apparatus for synchronizing audio and video streams | |
WO2021121023A1 (zh) | 视频编辑方法、视频编辑装置、终端和可读存储介质 | |
US20040267387A1 (en) | System and method for capturing media | |
CN108712624A (zh) | 基于文字记录的录像存档装置及方法 | |
CN105679120B (zh) | 基于tts技术制作标准普通话语音微课件的方法 | |
CN108614853A (zh) | 一种多数据源信息同步混合存储与回放系统及方法 | |
CN110691204B (zh) | 一种音视频处理方法、装置、电子设备及存储介质 | |
CN110769167A (zh) | 一种基于文字转语音技术进行视频配音的方法 | |
US20100080536A1 (en) | Information recording/reproducing apparatus and video camera | |
CN109274900A (zh) | 一种视频配音方法 | |
US7050110B1 (en) | Method and system for generating annotations video | |
WO2021163879A1 (zh) | 一种录屏方法、装置及计算机可读存储介质 | |
CN111970579A (zh) | 基于ai视频理解的视频音乐适配方法与系统 | |
CN107277368A (zh) | 一种用于智能设备的拍摄方法及拍摄装置 | |
CN105812857B (zh) | 动态交互讲座系统 | |
WO2024008047A1 (zh) | 数字人手语播报方法、装置、设备及存储介质 | |
JP2012105234A (ja) | 字幕生成配信システム、字幕生成配信方法およびプログラム | |
US7912454B2 (en) | Method and system for archiving data in real-time communications | |
KR101783872B1 (ko) | 동영상 검색 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |
|
RJ01 | Rejection of invention patent application after publication |