CN109274900A - 一种视频配音方法 - Google Patents
一种视频配音方法 Download PDFInfo
- Publication number
- CN109274900A CN109274900A CN201811029941.2A CN201811029941A CN109274900A CN 109274900 A CN109274900 A CN 109274900A CN 201811029941 A CN201811029941 A CN 201811029941A CN 109274900 A CN109274900 A CN 109274900A
- Authority
- CN
- China
- Prior art keywords
- audio
- text
- video
- section
- crawl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 239000012634 fragment Substances 0.000 claims abstract description 19
- 239000011121 hardwood Substances 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
一种视频配音方法,包括以下步骤:1)形成文字段落;2)解析这段文本段落,每读取一小段文字,通过调用文本转语音TTS接口,生成语音音频;3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,进行音视频同步处理后,存放在视频文件里;5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。本发明提供一种程序简单、成本较低的视频配音方法。
Description
技术领域
本发明涉及一种视频配音方法。
背景技术
在数字多媒体处理领域中,对视频配音属于后期制作,一般使用专门的软件,在专门的录音室里,配音员操作软件完成配音。首先,将视频原音剥离去除,其次将待配音段的视频桢间隔时长、以及配音起始时间点确定,然后配音员进行语音讲解并同步录音,讲解完成后再进行下一个待配音段的处理,如此反复,直到所有视频配音完成为止。有时候为了使得视频、音频完全同步,在录音完成后,根据视频段的时长,可以使用音频变速(不变调)处理来增长或缩短录音时长,使得和视频段时长完全匹配。由此可见,给视频配音需要专门的软件、专门的场所,以及训练有素的配音员。
发明内容
为了克服已有视频配音方法的程序复杂、成本较高的不足,本发明提供一种程序简单、成本较低的视频配音方法。
本发明解决其技术问题所采用的技术方案是:
一种视频配音方法,包括以下步骤:
1)首先,形成文字段落;
2)其次,解析这段文本段落,每读取一小段文字,所述一小段文字以逗号、句号或时长分隔符为界,通过调用文本转语音TTS接口,生成语音音频;
3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;
文本段落解读完毕,生成了最终的配音音频;
4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;手机摄像头的摄录方位由用户控制,用户根据音频播放的内容,进行摄录方位和摄录对象的调整;
同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,音频编码桢和视频编码桢进行音视频同步处理后,存放在视频文件里;
5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。
进一步,所述步骤1)中,用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。
再进一步,所述文字段落中,除了类似正常的文章编辑含有标点符号外,插入自定义的时间间隔时长的标识符。
如果这个文本段落由预制录音转换得到的,则在识别后的文本段落上通过手动编辑,插入时长间隔符,或者通篇文本段落不含时长间隔符号。
更进一步,所述步骤3)中,在每小段文字生成的音频段串接入不断生长增长的新音频段时,如果该小段文字前有时长间隔符,那么预先读取间隔时长,并在串接前插入等时长的静音段。
本发明的有益效果主要表现在:使用简单的软件方法和处理工具,例如手机,不需要专门的录音房间和训练有素的配音员,就能完成一般意义下质量保证的配音处理。这样的手机上的工具软件对于大众化的商业广告视频制作、小企业产品推介视频、以及机构培训视频都有较好的价值和作用。
具体实施方式
下面本发明作进一步描述。
一种视频配音方法,包括以下步骤:
1)首先,形成文字段落;
2)其次,解析这段文本段落,每读取一小段文字,所述一小段文字以逗号、句号或时长分隔符为界,通过调用文本转语音TTS接口,生成语音音频;
3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;
文本段落解读完毕,生成了最终的配音音频;
4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;手机摄像头的摄录方位由用户控制,用户根据音频播放的内容,进行摄录方位和摄录对象的调整;
同时通过手机软件的算法把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,音频编码桢和视频编码桢进行音视频同步处理后,存放在视频文件里;
5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。
进一步,所述步骤1)中,用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。
再进一步,所述文字段落中,除了类似正常的文章编辑含有标点符号外,插入自定义的时间间隔时长的标识符,如“[8s]”表示间隔八秒。
如果这个文本段落由预制录音转换得到的,则在识别后的文本段落上通过手动编辑,插入时长间隔符,或者通篇文本段落不含时长间隔符号。
更进一步,所述步骤3)中,在每小段文字生成的音频段串接入不断生长增长的新音频段时,如果该小段文字前有时长间隔符,那么预先读取间隔时长,并在串接前插入等时长的静音段。
Claims (5)
1.一种视频配音方法,其特征在于,所述方法包括以下步骤:
1)首先,形成文字段落;
2)其次,解析这段文本段落,每读取一小段文字,所述一小段文字以逗号、句号或时长分隔符为界,通过调用文本转语音TTS接口,生成语音音频;
3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;
文本段落解读完毕,生成了最终的配音音频;
4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;手机摄像头的摄录方位由用户控制,用户根据音频播放的内容,进行摄录方位和摄录对象的调整;
同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,音频编码桢和视频编码桢进行音视频同步处理后,存放在视频文件里;
5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。
2.如权利要求1所述的一种视频配音方法,其特征在于,所述步骤1)中,用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。
3.如权利要求2所述的一种视频配音方法,其特征在于,所述文字段落中,除了类似正常的文章编辑含有标点符号外,插入自定义的时间间隔时长的标识符。
4.如权利要求2所述的一种视频配音方法,其特征在于,如果这个文本段落由预制录音转换得到的,则在识别后的文本段落上通过手动编辑,插入时长间隔符,或者通篇文本段落不含时长间隔符号。
5.如权利要求1~4之一所述的一种视频配音方法,其特征在于,所述步骤3)中,在每小段文字生成的音频段串接入不断生长增长的新音频段时,如果该小段文字前有时长间隔符,那么预先读取间隔时长,并在串接前插入等时长的静音段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811029941.2A CN109274900A (zh) | 2018-09-05 | 2018-09-05 | 一种视频配音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811029941.2A CN109274900A (zh) | 2018-09-05 | 2018-09-05 | 一种视频配音方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109274900A true CN109274900A (zh) | 2019-01-25 |
Family
ID=65188392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811029941.2A Pending CN109274900A (zh) | 2018-09-05 | 2018-09-05 | 一种视频配音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109274900A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109905615A (zh) * | 2019-02-20 | 2019-06-18 | 浙江工业大学 | 一种音频播放和视频摄录的全自动协作方法 |
CN109951651A (zh) * | 2019-02-20 | 2019-06-28 | 浙江工业大学 | 一种音频播放和视频抓取的协作方法 |
CN110312137A (zh) * | 2019-04-01 | 2019-10-08 | 浙江工业大学 | 一种音频播放驱动录像的视频文件生成方法 |
CN110769167A (zh) * | 2019-10-30 | 2020-02-07 | 合肥名阳信息技术有限公司 | 一种基于文字转语音技术进行视频配音的方法 |
CN110797003A (zh) * | 2019-10-30 | 2020-02-14 | 合肥名阳信息技术有限公司 | 一种文本转语音显示字幕信息的方法 |
CN111556254A (zh) * | 2020-04-10 | 2020-08-18 | 早安科技(广州)有限公司 | 利用视频内容进行视频切割的方法、系统、介质及智能设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842323A (zh) * | 2012-09-13 | 2012-12-26 | 北京富年科技有限公司 | 应用于移动终端的视频配乐方法及该设备 |
CN102868862A (zh) * | 2012-09-13 | 2013-01-09 | 北京富年科技有限公司 | 应用于移动终端的视频配音方法及该设备 |
CN103491429A (zh) * | 2013-09-04 | 2014-01-01 | 张家港保税区润桐电子技术研发有限公司 | 一种音频处理方法和音频处理设备 |
WO2014141054A1 (en) * | 2013-03-11 | 2014-09-18 | Video Dubber Ltd. | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos |
CN105679120A (zh) * | 2016-01-29 | 2016-06-15 | 右江民族医学院 | 基于tts技术制作标准普通话语音微课件的方法 |
CN106804005A (zh) * | 2017-03-27 | 2017-06-06 | 维沃移动通信有限公司 | 一种视频的制作方法及移动终端 |
CN107071512A (zh) * | 2017-01-16 | 2017-08-18 | 腾讯科技(深圳)有限公司 | 一种配音方法、装置及系统 |
CN108055490A (zh) * | 2017-10-25 | 2018-05-18 | 北京川上科技有限公司 | 一种视频处理方法、装置、移动终端及存储介质 |
-
2018
- 2018-09-05 CN CN201811029941.2A patent/CN109274900A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842323A (zh) * | 2012-09-13 | 2012-12-26 | 北京富年科技有限公司 | 应用于移动终端的视频配乐方法及该设备 |
CN102868862A (zh) * | 2012-09-13 | 2013-01-09 | 北京富年科技有限公司 | 应用于移动终端的视频配音方法及该设备 |
WO2014141054A1 (en) * | 2013-03-11 | 2014-09-18 | Video Dubber Ltd. | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos |
CN103491429A (zh) * | 2013-09-04 | 2014-01-01 | 张家港保税区润桐电子技术研发有限公司 | 一种音频处理方法和音频处理设备 |
CN105679120A (zh) * | 2016-01-29 | 2016-06-15 | 右江民族医学院 | 基于tts技术制作标准普通话语音微课件的方法 |
CN107071512A (zh) * | 2017-01-16 | 2017-08-18 | 腾讯科技(深圳)有限公司 | 一种配音方法、装置及系统 |
CN106804005A (zh) * | 2017-03-27 | 2017-06-06 | 维沃移动通信有限公司 | 一种视频的制作方法及移动终端 |
CN108055490A (zh) * | 2017-10-25 | 2018-05-18 | 北京川上科技有限公司 | 一种视频处理方法、装置、移动终端及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109905615A (zh) * | 2019-02-20 | 2019-06-18 | 浙江工业大学 | 一种音频播放和视频摄录的全自动协作方法 |
CN109951651A (zh) * | 2019-02-20 | 2019-06-28 | 浙江工业大学 | 一种音频播放和视频抓取的协作方法 |
CN109905615B (zh) * | 2019-02-20 | 2021-02-26 | 浙江工业大学 | 一种音频播放和视频摄录的全自动协作方法 |
CN110312137A (zh) * | 2019-04-01 | 2019-10-08 | 浙江工业大学 | 一种音频播放驱动录像的视频文件生成方法 |
CN110769167A (zh) * | 2019-10-30 | 2020-02-07 | 合肥名阳信息技术有限公司 | 一种基于文字转语音技术进行视频配音的方法 |
CN110797003A (zh) * | 2019-10-30 | 2020-02-14 | 合肥名阳信息技术有限公司 | 一种文本转语音显示字幕信息的方法 |
CN111556254A (zh) * | 2020-04-10 | 2020-08-18 | 早安科技(广州)有限公司 | 利用视频内容进行视频切割的方法、系统、介质及智能设备 |
CN111556254B (zh) * | 2020-04-10 | 2021-04-02 | 早安科技(广州)有限公司 | 利用视频内容进行视频切割的方法、系统、介质及智能设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109274900A (zh) | 一种视频配音方法 | |
CN105611404B (zh) | 一种根据视频应用场景自动调节音频音量的方法及装置 | |
US20080275700A1 (en) | Method of and System for Modifying Messages | |
US20180330757A1 (en) | Multimedia file joining method and apparatus | |
CN110769167A (zh) | 一种基于文字转语音技术进行视频配音的方法 | |
CN109005419B (zh) | 一种语音信息的处理方法及客户端 | |
CN106409296A (zh) | 基于分核处理技术的语音快速转写校正系统 | |
CN105679120B (zh) | 基于tts技术制作标准普通话语音微课件的方法 | |
CA2538981A1 (en) | Method and device for processing audiovisual data using speech recognition | |
CN112567721B (zh) | 一种分段式混合视频和音频同步的方法和装置 | |
JP2000508845A (ja) | ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期 | |
CN108965904B (zh) | 一种直播间的音量调节方法及客户端 | |
CN109600566A (zh) | 一种视频配音方法 | |
JP6268131B2 (ja) | 字幕制作装置および字幕制作方法 | |
KR20240016975A (ko) | 오디오 및 비디오 트렌스레이터 | |
US8615153B2 (en) | Multi-media data editing system, method and electronic device using same | |
JP6485977B2 (ja) | 字幕制作装置および字幕制作方法 | |
JP5727777B2 (ja) | 会議支援装置および会議支援方法 | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
CN102110459B (zh) | 一种播放终端及其多媒体文件的播放方法和装置 | |
CN108269597B (zh) | 一种音频工作站管理方法和系统 | |
CN109905615B (zh) | 一种音频播放和视频摄录的全自动协作方法 | |
JP4052561B2 (ja) | 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム | |
JP4459077B2 (ja) | ナレーション支援装置、その原稿編集方法およびプログラム | |
JP2002084505A (ja) | 映像閲覧時間短縮装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190125 |