CN109274900A - 一种视频配音方法 - Google Patents

一种视频配音方法 Download PDF

Info

Publication number
CN109274900A
CN109274900A CN201811029941.2A CN201811029941A CN109274900A CN 109274900 A CN109274900 A CN 109274900A CN 201811029941 A CN201811029941 A CN 201811029941A CN 109274900 A CN109274900 A CN 109274900A
Authority
CN
China
Prior art keywords
audio
text
video
section
crawl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811029941.2A
Other languages
English (en)
Inventor
陆成刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811029941.2A priority Critical patent/CN109274900A/zh
Publication of CN109274900A publication Critical patent/CN109274900A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种视频配音方法,包括以下步骤:1)形成文字段落;2)解析这段文本段落,每读取一小段文字,通过调用文本转语音TTS接口,生成语音音频;3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,进行音视频同步处理后,存放在视频文件里;5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。本发明提供一种程序简单、成本较低的视频配音方法。

Description

一种视频配音方法
技术领域
本发明涉及一种视频配音方法。
背景技术
在数字多媒体处理领域中,对视频配音属于后期制作,一般使用专门的软件,在专门的录音室里,配音员操作软件完成配音。首先,将视频原音剥离去除,其次将待配音段的视频桢间隔时长、以及配音起始时间点确定,然后配音员进行语音讲解并同步录音,讲解完成后再进行下一个待配音段的处理,如此反复,直到所有视频配音完成为止。有时候为了使得视频、音频完全同步,在录音完成后,根据视频段的时长,可以使用音频变速(不变调)处理来增长或缩短录音时长,使得和视频段时长完全匹配。由此可见,给视频配音需要专门的软件、专门的场所,以及训练有素的配音员。
发明内容
为了克服已有视频配音方法的程序复杂、成本较高的不足,本发明提供一种程序简单、成本较低的视频配音方法。
本发明解决其技术问题所采用的技术方案是:
一种视频配音方法,包括以下步骤:
1)首先,形成文字段落;
2)其次,解析这段文本段落,每读取一小段文字,所述一小段文字以逗号、句号或时长分隔符为界,通过调用文本转语音TTS接口,生成语音音频;
3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;
文本段落解读完毕,生成了最终的配音音频;
4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;手机摄像头的摄录方位由用户控制,用户根据音频播放的内容,进行摄录方位和摄录对象的调整;
同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,音频编码桢和视频编码桢进行音视频同步处理后,存放在视频文件里;
5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。
进一步,所述步骤1)中,用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。
再进一步,所述文字段落中,除了类似正常的文章编辑含有标点符号外,插入自定义的时间间隔时长的标识符。
如果这个文本段落由预制录音转换得到的,则在识别后的文本段落上通过手动编辑,插入时长间隔符,或者通篇文本段落不含时长间隔符号。
更进一步,所述步骤3)中,在每小段文字生成的音频段串接入不断生长增长的新音频段时,如果该小段文字前有时长间隔符,那么预先读取间隔时长,并在串接前插入等时长的静音段。
本发明的有益效果主要表现在:使用简单的软件方法和处理工具,例如手机,不需要专门的录音房间和训练有素的配音员,就能完成一般意义下质量保证的配音处理。这样的手机上的工具软件对于大众化的商业广告视频制作、小企业产品推介视频、以及机构培训视频都有较好的价值和作用。
具体实施方式
下面本发明作进一步描述。
一种视频配音方法,包括以下步骤:
1)首先,形成文字段落;
2)其次,解析这段文本段落,每读取一小段文字,所述一小段文字以逗号、句号或时长分隔符为界,通过调用文本转语音TTS接口,生成语音音频;
3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;
文本段落解读完毕,生成了最终的配音音频;
4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;手机摄像头的摄录方位由用户控制,用户根据音频播放的内容,进行摄录方位和摄录对象的调整;
同时通过手机软件的算法把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,音频编码桢和视频编码桢进行音视频同步处理后,存放在视频文件里;
5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。
进一步,所述步骤1)中,用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。
再进一步,所述文字段落中,除了类似正常的文章编辑含有标点符号外,插入自定义的时间间隔时长的标识符,如“[8s]”表示间隔八秒。
如果这个文本段落由预制录音转换得到的,则在识别后的文本段落上通过手动编辑,插入时长间隔符,或者通篇文本段落不含时长间隔符号。
更进一步,所述步骤3)中,在每小段文字生成的音频段串接入不断生长增长的新音频段时,如果该小段文字前有时长间隔符,那么预先读取间隔时长,并在串接前插入等时长的静音段。

Claims (5)

1.一种视频配音方法,其特征在于,所述方法包括以下步骤:
1)首先,形成文字段落;
2)其次,解析这段文本段落,每读取一小段文字,所述一小段文字以逗号、句号或时长分隔符为界,通过调用文本转语音TTS接口,生成语音音频;
3)重复步骤2),读取一小段文字并调用TTS接口,生成该段文字对应的音频,且与紧邻之前生成的音频段串接起来,组成一个不断生长增长的新音频段;
文本段落解读完毕,生成了最终的配音音频;
4)接着打开手机免提扬声器播放音频,且打开手机摄像头进行视频图像抓取;手机摄像头的摄录方位由用户控制,用户根据音频播放的内容,进行摄录方位和摄录对象的调整;
同时把抓取的视频图像进行编码、且把正在播放的音频内容拷贝过来进行编码,音频编码桢和视频编码桢进行音视频同步处理后,存放在视频文件里;
5)最后音频播放完毕,自动停止摄像头图像的抓取,并且写好视频文件尾数据,配音视频文件生成完毕。
2.如权利要求1所述的一种视频配音方法,其特征在于,所述步骤1)中,用户将需要讲解的语音编辑成文字组成文本段落或者由用户预制录音通过调用语音识别接口转换成文字段落。
3.如权利要求2所述的一种视频配音方法,其特征在于,所述文字段落中,除了类似正常的文章编辑含有标点符号外,插入自定义的时间间隔时长的标识符。
4.如权利要求2所述的一种视频配音方法,其特征在于,如果这个文本段落由预制录音转换得到的,则在识别后的文本段落上通过手动编辑,插入时长间隔符,或者通篇文本段落不含时长间隔符号。
5.如权利要求1~4之一所述的一种视频配音方法,其特征在于,所述步骤3)中,在每小段文字生成的音频段串接入不断生长增长的新音频段时,如果该小段文字前有时长间隔符,那么预先读取间隔时长,并在串接前插入等时长的静音段。
CN201811029941.2A 2018-09-05 2018-09-05 一种视频配音方法 Pending CN109274900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811029941.2A CN109274900A (zh) 2018-09-05 2018-09-05 一种视频配音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811029941.2A CN109274900A (zh) 2018-09-05 2018-09-05 一种视频配音方法

Publications (1)

Publication Number Publication Date
CN109274900A true CN109274900A (zh) 2019-01-25

Family

ID=65188392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811029941.2A Pending CN109274900A (zh) 2018-09-05 2018-09-05 一种视频配音方法

Country Status (1)

Country Link
CN (1) CN109274900A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905615A (zh) * 2019-02-20 2019-06-18 浙江工业大学 一种音频播放和视频摄录的全自动协作方法
CN109951651A (zh) * 2019-02-20 2019-06-28 浙江工业大学 一种音频播放和视频抓取的协作方法
CN110312137A (zh) * 2019-04-01 2019-10-08 浙江工业大学 一种音频播放驱动录像的视频文件生成方法
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
CN110797003A (zh) * 2019-10-30 2020-02-14 合肥名阳信息技术有限公司 一种文本转语音显示字幕信息的方法
CN111556254A (zh) * 2020-04-10 2020-08-18 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102842323A (zh) * 2012-09-13 2012-12-26 北京富年科技有限公司 应用于移动终端的视频配乐方法及该设备
CN102868862A (zh) * 2012-09-13 2013-01-09 北京富年科技有限公司 应用于移动终端的视频配音方法及该设备
CN103491429A (zh) * 2013-09-04 2014-01-01 张家港保税区润桐电子技术研发有限公司 一种音频处理方法和音频处理设备
WO2014141054A1 (en) * 2013-03-11 2014-09-18 Video Dubber Ltd. Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN105679120A (zh) * 2016-01-29 2016-06-15 右江民族医学院 基于tts技术制作标准普通话语音微课件的方法
CN106804005A (zh) * 2017-03-27 2017-06-06 维沃移动通信有限公司 一种视频的制作方法及移动终端
CN107071512A (zh) * 2017-01-16 2017-08-18 腾讯科技(深圳)有限公司 一种配音方法、装置及系统
CN108055490A (zh) * 2017-10-25 2018-05-18 北京川上科技有限公司 一种视频处理方法、装置、移动终端及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102842323A (zh) * 2012-09-13 2012-12-26 北京富年科技有限公司 应用于移动终端的视频配乐方法及该设备
CN102868862A (zh) * 2012-09-13 2013-01-09 北京富年科技有限公司 应用于移动终端的视频配音方法及该设备
WO2014141054A1 (en) * 2013-03-11 2014-09-18 Video Dubber Ltd. Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN103491429A (zh) * 2013-09-04 2014-01-01 张家港保税区润桐电子技术研发有限公司 一种音频处理方法和音频处理设备
CN105679120A (zh) * 2016-01-29 2016-06-15 右江民族医学院 基于tts技术制作标准普通话语音微课件的方法
CN107071512A (zh) * 2017-01-16 2017-08-18 腾讯科技(深圳)有限公司 一种配音方法、装置及系统
CN106804005A (zh) * 2017-03-27 2017-06-06 维沃移动通信有限公司 一种视频的制作方法及移动终端
CN108055490A (zh) * 2017-10-25 2018-05-18 北京川上科技有限公司 一种视频处理方法、装置、移动终端及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905615A (zh) * 2019-02-20 2019-06-18 浙江工业大学 一种音频播放和视频摄录的全自动协作方法
CN109951651A (zh) * 2019-02-20 2019-06-28 浙江工业大学 一种音频播放和视频抓取的协作方法
CN109905615B (zh) * 2019-02-20 2021-02-26 浙江工业大学 一种音频播放和视频摄录的全自动协作方法
CN110312137A (zh) * 2019-04-01 2019-10-08 浙江工业大学 一种音频播放驱动录像的视频文件生成方法
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
CN110797003A (zh) * 2019-10-30 2020-02-14 合肥名阳信息技术有限公司 一种文本转语音显示字幕信息的方法
CN111556254A (zh) * 2020-04-10 2020-08-18 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备
CN111556254B (zh) * 2020-04-10 2021-04-02 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备

Similar Documents

Publication Publication Date Title
CN109274900A (zh) 一种视频配音方法
CN105611404B (zh) 一种根据视频应用场景自动调节音频音量的方法及装置
US20080275700A1 (en) Method of and System for Modifying Messages
US20180330757A1 (en) Multimedia file joining method and apparatus
CN110769167A (zh) 一种基于文字转语音技术进行视频配音的方法
CN109005419B (zh) 一种语音信息的处理方法及客户端
CN106409296A (zh) 基于分核处理技术的语音快速转写校正系统
CN105679120B (zh) 基于tts技术制作标准普通话语音微课件的方法
CA2538981A1 (en) Method and device for processing audiovisual data using speech recognition
CN112567721B (zh) 一种分段式混合视频和音频同步的方法和装置
JP2000508845A (ja) ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期
CN108965904B (zh) 一种直播间的音量调节方法及客户端
CN109600566A (zh) 一种视频配音方法
JP6268131B2 (ja) 字幕制作装置および字幕制作方法
KR20240016975A (ko) 오디오 및 비디오 트렌스레이터
US8615153B2 (en) Multi-media data editing system, method and electronic device using same
JP6485977B2 (ja) 字幕制作装置および字幕制作方法
JP5727777B2 (ja) 会議支援装置および会議支援方法
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
CN102110459B (zh) 一种播放终端及其多媒体文件的播放方法和装置
CN108269597B (zh) 一种音频工作站管理方法和系统
CN109905615B (zh) 一种音频播放和视频摄录的全自动协作方法
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP4459077B2 (ja) ナレーション支援装置、その原稿編集方法およびプログラム
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125