CN111741231B - 一种视频配音方法、装置、设备及存储介质 - Google Patents

一种视频配音方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111741231B
CN111741231B CN202010728035.2A CN202010728035A CN111741231B CN 111741231 B CN111741231 B CN 111741231B CN 202010728035 A CN202010728035 A CN 202010728035A CN 111741231 B CN111741231 B CN 111741231B
Authority
CN
China
Prior art keywords
video
time point
recording
target video
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010728035.2A
Other languages
English (en)
Other versions
CN111741231A (zh
Inventor
曾衍
赵晨
郑起凡
付平非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010728035.2A priority Critical patent/CN111741231B/zh
Publication of CN111741231A publication Critical patent/CN111741231A/zh
Priority to CA3167985A priority patent/CA3167985A1/en
Priority to PCT/CN2021/107817 priority patent/WO2022017451A1/zh
Priority to MX2022009952A priority patent/MX2022009952A/es
Priority to JP2022549141A priority patent/JP7344395B2/ja
Priority to KR1020227027484A priority patent/KR102523768B1/ko
Priority to AU2021312196A priority patent/AU2021312196B2/en
Priority to BR112022016017A priority patent/BR112022016017A2/pt
Priority to EP21845291.0A priority patent/EP4090009A4/en
Application granted granted Critical
Publication of CN111741231B publication Critical patent/CN111741231B/zh
Priority to US17/885,241 priority patent/US11817127B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal

Abstract

本公开提供了一种视频配音方法、装置、设备及存储介质,所述方法包括:在接收针对目标视频的第一时间点的录音开始触发操作时,从第一时间点对应的视频画面开始,基于时间轴播放目标视频以及接收音频数据。当接收到针对第二时间点的录音结束触发操作时,生成录音文件,该录音文件与以第一时间点对应的视频画面为起始帧且以与第二时间点对应的视频画面为结束帧的视频片段的时间轴具有联动关系。本公开在播放目标视频的同时,基于时间轴录音,生成的录音文件与对应的视频片段的时间轴具有联动关系,后续无需对录音文件与视频片段的时间轴重新匹配,即可得到较准确的视频配音结果,避免了因人工匹配时间轴导致的操作繁杂且配音结果不准确的问题。

Description

一种视频配音方法、装置、设备及存储介质
技术领域
本公开涉及数据处理领域,尤其涉及一种视频配音方法、装置、设备及存储介质。
背景技术
视频配音,是指通过设备录制声音,为视频的画面配音。目前,通常是基于单独的录音窗口对音频数据进行录制,得到包含音频数据的录音文件,然后将录音文件添加到目标视频的音频轨道上,人工进行时间轴的匹配,最终完成对目标视频的配音。
但是,对于用户而言,要完成对目标视频的配音,不仅需要录音,还需要人工将录音文件与目标视频的音频轨道的时间轴进行匹配,显然是一项操作繁杂的工作,另外,还可能存在因人工匹配时间轴导致的视频配音结果不准确的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种视频配音方法、装置、设备及存储介质,无需人工匹配时间轴,提高了音频配音结果的准确性。
第一方面,本公开提供了一种视频配音方法,所述方法包括:
响应于针对目标视频的第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据;
响应于针对所述目标视频的第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件;其中,所述录音文件用于为以所述第一时间点对应的视频画面为起始帧且以与所述第二时间点对应的视频画面为结束帧的视频片段配音,所述录音文件与所述视频片段的时间轴具有联动关系。
一种可选的实施方式中,所述响应于针对所述目标视频的第二时间点的录音结束操作,生成包含从所述第一时间点到所述第二时间点的所述录音数据的录音文件之前,还包括:
在基于时间轴播放所述目标视频以及接收音频数据时,控制音频轨道上的指针跟随正在播放的视频画面移动;所述指针用于指示当前录音进度。
一种可选的实施方式中,所述方法还包括:
在视频配音暂停的状态下,响应于针对所述指针的拖动操作,利用所述拖动操作的目的帧对应的时间点,更新所述第一时间点。
一种可选的实施方式中,所述响应于针对所述目标视频的第二时间点的录音结束操作,生成包含从所述第一时间点到所述第二时间点的所述录音数据的录音文件之前,还包括:
在基于时间轴播放所述目标视频以及接收音频数据时,基于所述时间轴显示所述音频数据的波形图。
一种可选的实施方式中,所述响应于针对目标视频的第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据之前,还包括:
在目标视频的第一时间点的位置,显示闪烁动画,所述闪烁动画用于提示基于所述第一时间点准备录音。
一种可选的实施方式中,所述响应于针对所述目标视频的第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件之后,还包括:
对时间轴具有联动关系的所述录音文件与所述视频片段进行预览播放。
第二方面,本公开还提供了一种视频配音装置,所述装置包括:
接收模块,用于响应于针对目标视频的第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据;
生成模块,用于响应于针对所述目标视频的第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件;其中,所述录音文件用于为以所述第一时间点对应的视频画面为起始帧且以与所述第二时间点对应的视频画面为结束帧的视频片段配音,所述录音文件与所述视频片段的时间轴具有联动关系。
一种可选的实施方式中,所述装置还包括:
控制模块,用于在基于时间轴播放所述目标视频以及接收音频数据时,控制音频轨道上的指针跟随正在播放的视频画面移动;所述指针用于指示当前录音进度。
第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现上述的方法。
第四方面,本公开提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供了一种视频配音方法,在接收针对目标视频的第一时间点的录音开始触发操作时,从第一时间点对应的视频画面开始,基于时间轴播放目标视频以及接收音频数据。当接收到针对目标视频的第二时间点的录音结束触发操作时,生成包含从第一时间点到第二时间点的音频数据的录音文件,同时该录音文件与以第一时间点对应的视频画面为起始帧且以与第二时间点对应的视频画面为结束帧的视频片段的时间轴具有联动关系。由于本公开实施例在播放目标视频的同时,基于时间轴录音,生成的录音文件与对应的视频片段的时间轴具有联动关系,也就是说,该录音文件与该视频片段的时间轴无需重新匹配,即可得到较准确的视频配音结果,避免了因人工匹配时间轴导致的操作繁杂且视频配音结果不准确的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种视频配音方法的流程图;
图2为本公开实施例提供的一种未开始录音状态下的视频录音的界面示意图;
图3为本公开实施例提供的一种正在录音状态下的视频录音的界面示意图;
图4为本公开实施例提供的一种视频配音装置结构框图;
图5为本公开实施例提供的一种视频配音设备结构框图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
目前,通常基于单独的录音窗口对视频进行配音,在得到录音文件后,需要人工将录音文件与视频的时间轴进行匹配,最终完成视频配音。
但是,人工将录音文件与视频的时间轴进行匹配的方式,不仅存在操作繁杂的问题,还可能会导致视频配音结果不准确。
为此,本公开提供了一种视频配音方法,在接收针对目标视频的第一时间点的录音开始触发操作时,从第一时间点对应的视频画面开始,基于时间轴播放目标视频以及接收音频数据。当接收到针对目标视频的第二时间点的录音结束触发操作时,生成包含从第一时间点到第二时间点的音频数据的录音文件,同时该录音文件与以第一时间点对应的视频画面为起始帧且以与第二时间点对应的视频画面为结束帧的视频片段的时间轴具有联动关系。
由于本公开在播放目标视频的同时,基于时间轴录音,生成的录音文件与对应的视频片段的时间轴具有联动关系,也就是说,该录音文件与该视频片段的时间轴无需重新匹配,即可得到较准确的视频配音结果,避免了因人工匹配时间轴导致的操作繁杂且视频配音结果不准确的问题。
基于此,本公开实施例提供了一种视频配音方法,参考图1,为本公开实施例提供的一种视频配音方法的流程图,该方法包括:
S101:响应于针对目标视频的第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据。
目标视频,可以是预先获得的任意一段视频,作为本公开实施例的处理对象。
第一时间点,可以为目标视频的起始时间点,也可以是目标视频中的任意一个时间点,第一时间点可以根据用户的录音需求确定。
实际应用中,在针对目标视频进行配音之前,首先展示目标视频的音频轨道,如图2所示,为本公开实施例提供的一种未开始录音状态下的视频录音的界面示意图,其中,用户可以在音频轨道上确定目标视频中开始录音的第一时间点,然后针对该第一时间点,触发开始录音操作。具体的,可以通过点击录音开始按钮的操作触发从第一时间点开始录音操作。
相应的,系统接收到针对目标视频的第一时间点的录音开始触发操作,从目标视频中第一时间点对应的视频画面开始,基于时间轴播放目标视频,并且基于时间轴接收用户输入的音频数据,实现视频录音。
本公开实施例中,基于同一时间轴,从第一时间点对应的视频画面开始播放目标视频,同时接收用户输入的音频数据,因此,最终得到的录音文件与目标视频的时间轴具有联动关系,后续无需对录音文件与目标视频进行时间轴的匹配。
一种可选的实施方式中,在确定目标视频中的第一时间点之后,在目标视频的第一时间点的位置,显示闪烁动画,如图2所示的“准备录音…”的闪烁动画,用于提示用户基于第一时间点准备录音。
其中,显示闪烁动画的第一时间点的位置,可以包括目标视频的音频轨道上第一时间点附近的位置。
S102:响应于针对所述目标视频的所述目标音轨上第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件。
其中,所述录音文件用于为以所述第一时间点对应的视频画面为起始帧且以与所述第二时间点对应的视频画面为结束帧的视频片段配音,所述录音文件与所述视频片段的时间轴具有联动关系。
第二时间点,可以为目标视频的结束时间点,也可以为目标视频中的任意一个时间点,第二时间点可以根据用户的视频录音需求确定。其中,目标视频中的第二时间点在第一时间点之后。
实际应用中,用户可以在音频轨道上确定目标视频中结束录音的第二时间点,然后针对该第二时间点,触发结束录音操作。具体的,可以通过点击录音结束按钮的操作触发从第一时间点到第二时间点的录音结束操作。
本公开实施例中,在接收到录音结束触发操作后,生成包含有第一时间点到第二时间点期间接收到的音频数据的录音文件,其中,该录音文件用于为以第一时间点对应的视频画面为起始帧且以第二时间点对应的视频画面为结束帧的视频片段配音。
由于录音文件与视频片段的时间轴具有联动关系,因此,本公开实施例后续无需对录音文件与视频片段的时间轴进行匹配,即可自动化的得到较准确的视频配音结果。
一种可选的实施方式中,为了便于用户获知当前配音进度,可以在基于时间轴播放目标视频以及接收音频数据的过程中,控制音频轨道上的指针跟随正在播放的视频画面移动,该指针的位置用于指示当前录音进度。如图3所示,为本公开实施例提供的一种正在录音状态下的视频录音的界面示意图,其中,音频轨道上的指针根据正在播放的视频画面从图2中的起始位置移动到图3中的位置。
另一种可选的实施方式中,为了使用户更直观的感受到已配音部分的录音数据成功被系统接收,即录音有效,本公开实施例在基于时间轴播放目标视频以及接收音频数据的过程中,基于时间轴显示接收到的音频数据的波形图。通过波形图的展示使得用户更直观的感受到已配音部分的音频数据有效。如图3所示,在已配音部分的音频轨道上展示音频数据的波形图,同时在波形图下方还可以展示“正在录音…”的提示,用于提示用户当前处于录音状态。
另一种可选的实施方式中,可以通过暂停配音按钮,触发视频配音暂停,在视频配音暂停状态下,目标视频停止播放视频画面,同时停止接收用户输入的视频数据。在视频配音暂停状态下,用户可以通过拖动音频轨道上的指针至目标视频中的某个视频帧对应的时间点,触发对第一时间点的更新,即对视频配音的开始时间的更新。
具体的,在视频配音暂停的状态下,接收针对音频轨道上的指针的拖动操作,利用该拖动操作的目的帧对应的时间点,更新视频配音的第一时间点。其中,拖动操作的目的帧可以为拖动操作对应的松开鼠标时刻的视频帧,将该视频帧对应的时间点更新为第一时间点。后续在确定第二时间点后,可以触发针对第一时间点到第二时间点的视频片段的配音操作。
另一种可选的实施方式中,在完成视频配音之后,可以针对视频配音对应的录音文件和视频片段进行预览,具体的,对时间轴具有联动关系的录音文件和视频片段进行预览播放,以便用户感受完成配音的视频播放画面。
本公开实施例提供的视频配音方法中,在接收针对目标视频的上第一时间点的录音开始触发操作时,从第一时间点对应的视频画面开始,基于时间轴播放目标视频以及接收音频数据。当接收到针对目标视频的第二时间点的录音结束触发操作时,生成包含从第一时间点到第二时间点的音频数据的录音文件,同时该录音文件与以第一时间点对应的视频画面为起始帧且以与第二时间点对应的视频画面为结束帧的视频片段的时间轴具有联动关系。由于本公开实施例在播放目标视频的同时,基于时间轴录音,生成的录音文件与对应的视频片段的时间轴具有联动关系,也就是说,该录音文件与该视频片段的时间轴无需重新匹配,即可得到较准确的视频配音结果,避免了因人工匹配时间轴导致的操作繁杂且视频配音结果不准确的问题。
与上述方法实施例基于同一个发明构思,本公开还提供了一种视频配音装置,参考图4,为本公开实施例提供的一种视频配音装置,所述装置包括:
接收模块401,用于响应于针对目标视频的第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据;
生成模块402,用于响应于针对所述目标视频的第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件;其中,所述录音文件用于为以所述第一时间点对应的视频画面为起始帧且以与所述第二时间点对应的视频画面为结束帧的视频片段配音,所述录音文件与所述视频片段的时间轴具有联动关系。
一种可选的实施方式中,所述装置还包括:
控制模块,用于在基于时间轴播放所述目标视频以及接收音频数据时,控制音频轨道上的指针跟随正在播放的视频画面移动;所述指针用于指示当前录音进度。
一种可选的实施方式中,所述装置还包括:
更新模块,用于在视频配音暂停的状态下,响应于针对所述指针的拖动操作,利用所述拖动操作的目的帧对应的时间点,更新所述第一时间点。
一种可选的实施方式中,所述装置还包括:
第一显示模块,用于在基于时间轴播放所述目标视频以及接收音频数据时,基于所述时间轴显示所述音频数据的波形图。
一种可选的实施方式中,所述装置还包括:
第二显示模块,用于在目标视频的第一时间点的位置,显示闪烁动画,所述闪烁动画用于提示基于所述第一时间点准备录音。
一种可选的实施方式中,所述装置还包括:
预览模块,用于对时间轴具有联动关系的所述录音文件与所述视频片段进行预览播放。
本公开实施例提供的视频配音装置,在接收针对目标视频的第一时间点的录音开始触发操作时,从第一时间点对应的视频画面开始,基于时间轴播放目标视频以及接收音频数据。当接收到针对目标视频的第二时间点的录音结束触发操作时,生成包含从第一时间点到第二时间点的音频数据的录音文件,同时该录音文件与以第一时间点对应的视频画面为起始帧且以与第二时间点对应的视频画面为结束帧的视频片段的时间轴具有联动关系。由于本公开实施例在播放目标视频的同时,基于时间轴录音,生成的录音文件与对应的视频片段的时间轴具有联动关系,也就是说,该录音文件与该视频片段的时间轴无需重新匹配,即可得到较准确的视频配音结果,避免了因人工匹配时间轴导致的操作繁杂且视频配音结果不准确的问题。
另外,本公开实施例还提供了一种视频配音设备,参见图5所示,可以包括:
处理器501、存储器502、输入装置503和输出装置504。视频配音设备中的处理器501的数量可以一个或多个,图5中以一个处理器为例。在本发明的一些实施例中,处理器501、存储器502、输入装置503和输出装置504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行视频配音设备的各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置503可用于接收输入的数字或字符信息,以及产生与视频配音设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现上述视频配音设备的各种功能。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种视频配音方法,其特征在于,所述方法包括:
展示目标视频的音频轨道,并在所述音频轨道上确定所述目标视频中开始录音的第一时间点;
响应于针对所述目标视频的所述第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据,并控制所述音频轨道上的指针跟随正在播放的视频画面移动,以及在已配音部分的音频轨道上展示所述音频数据的波形图;所述指针用于指示当前录音进度;
响应于针对所述目标视频的第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件;其中,所述录音文件用于为以所述第一时间点对应的视频画面为起始帧且以与所述第二时间点对应的视频画面为结束帧的视频片段配音,所述录音文件与所述视频片段的时间轴具有联动关系。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在视频配音暂停的状态下,响应于针对所述指针的拖动操作,利用所述拖动操作的目的帧对应的时间点,更新所述第一时间点。
3.根据权利要求1或2所述的方法,其特征在于,所述响应于针对目标视频的第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据之前,还包括:
在目标视频的第一时间点的位置,显示闪烁动画,所述闪烁动画用于提示基于所述第一时间点准备录音。
4.根据权利要求1或2所述的方法,其特征在于,所述响应于针对所述目标视频的第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件之后,还包括:
对时间轴具有联动关系的所述录音文件与所述视频片段进行预览播放。
5.一种视频配音装置,其特征在于,所述装置包括:
确定模块,用于展示目标视频的音频轨道,并在所述音频轨道上确定所述目标视频中开始录音的第一时间点;
接收模块,用于响应于针对所述目标视频的所述第一时间点的录音开始触发操作,从所述第一时间点对应的视频画面开始,基于时间轴播放所述目标视频以及接收音频数据;
控制模块,用于在基于时间轴播放所述目标视频以及接收音频数据时,控制音频轨道上的指针跟随正在播放的视频画面移动;所述指针用于指示当前录音进度;
展示模块,用于在已配音部分的音频轨道上展示所述音频数据的波形图;生成模块,用于响应于针对所述目标视频的第二时间点的录音结束触发操作,生成包含从所述第一时间点到所述第二时间点的所述音频数据的录音文件;其中,所述录音文件用于为以所述第一时间点对应的视频画面为起始帧且以与所述第二时间点对应的视频画面为结束帧的视频片段配音,所述录音文件与所述视频片段的时间轴具有联动关系。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-4任一项所述的方法。
7.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4任一项所述的方法。
CN202010728035.2A 2020-07-23 2020-07-23 一种视频配音方法、装置、设备及存储介质 Active CN111741231B (zh)

Priority Applications (10)

Application Number Priority Date Filing Date Title
CN202010728035.2A CN111741231B (zh) 2020-07-23 2020-07-23 一种视频配音方法、装置、设备及存储介质
PCT/CN2021/107817 WO2022017451A1 (zh) 2020-07-23 2021-07-22 视频配音方法、装置、设备及存储介质
CA3167985A CA3167985A1 (en) 2020-07-23 2021-07-22 Video dubbing method. device, apparatus, and storage medium
MX2022009952A MX2022009952A (es) 2020-07-23 2021-07-22 Metodo de doblaje de video, dispositivo, aparato y medio de almacenamiento.
JP2022549141A JP7344395B2 (ja) 2020-07-23 2021-07-22 ビデオ吹き替え方法、装置、設備及び記憶媒体
KR1020227027484A KR102523768B1 (ko) 2020-07-23 2021-07-22 비디오 더빙 방법, 디바이스, 장치 및 저장 매체
AU2021312196A AU2021312196B2 (en) 2020-07-23 2021-07-22 Video dubbing method. device, apparatus, and storage medium
BR112022016017A BR112022016017A2 (pt) 2020-07-23 2021-07-22 Método de dublagem de vídeo, dispositivo, aparelho e meio de armazenamento
EP21845291.0A EP4090009A4 (en) 2020-07-23 2021-07-22 VIDEO DUBBING METHOD, DEVICE, APPARATUS AND STORAGE MEDIA
US17/885,241 US11817127B2 (en) 2020-07-23 2022-08-10 Video dubbing method, apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010728035.2A CN111741231B (zh) 2020-07-23 2020-07-23 一种视频配音方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111741231A CN111741231A (zh) 2020-10-02
CN111741231B true CN111741231B (zh) 2022-02-22

Family

ID=72657716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010728035.2A Active CN111741231B (zh) 2020-07-23 2020-07-23 一种视频配音方法、装置、设备及存储介质

Country Status (10)

Country Link
US (1) US11817127B2 (zh)
EP (1) EP4090009A4 (zh)
JP (1) JP7344395B2 (zh)
KR (1) KR102523768B1 (zh)
CN (1) CN111741231B (zh)
AU (1) AU2021312196B2 (zh)
BR (1) BR112022016017A2 (zh)
CA (1) CA3167985A1 (zh)
MX (1) MX2022009952A (zh)
WO (1) WO2022017451A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111741231B (zh) * 2020-07-23 2022-02-22 北京字节跳动网络技术有限公司 一种视频配音方法、装置、设备及存储介质
CN113421577A (zh) * 2021-05-10 2021-09-21 北京达佳互联信息技术有限公司 一种视频配音方法、装置、电子设备和存储介质
CN114666516A (zh) * 2022-02-17 2022-06-24 海信视像科技股份有限公司 显示设备及流媒体文件合成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959773A (zh) * 2016-04-29 2016-09-21 魔方天空科技(北京)有限公司 多媒体文件的处理方法和装置
CN106293347A (zh) * 2016-08-16 2017-01-04 广东小天才科技有限公司 一种人机交互的学习方法及装置、用户终端
CN106911900A (zh) * 2017-04-06 2017-06-30 腾讯科技(深圳)有限公司 视频配音方法及装置
CN110753263A (zh) * 2019-10-29 2020-02-04 腾讯科技(深圳)有限公司 视频配音方法、装置、终端及存储介质
CN110971957A (zh) * 2018-09-30 2020-04-07 阿里巴巴集团控股有限公司 一种视频编辑方法、装置以及移动终端

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993021588A1 (en) 1992-04-10 1993-10-28 Avid Technology, Inc. Digital audio workstation providing digital storage and display of video information
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
US8009966B2 (en) * 2002-11-01 2011-08-30 Synchro Arts Limited Methods and apparatus for use in sound replacement with automatic synchronization to images
KR20070006159A (ko) * 2005-07-07 2007-01-11 엘지전자 주식회사 오디오 더빙 제어방법
US10242415B2 (en) * 2006-12-20 2019-03-26 Digimarc Corporation Method and system for determining content treatment
JP2008310844A (ja) 2007-06-12 2008-12-25 Funai Electric Co Ltd ダビング装置
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
JP4946874B2 (ja) * 2008-01-09 2012-06-06 ソニー株式会社 再生装置および再生方法
US20110113335A1 (en) * 2009-11-06 2011-05-12 Tandberg Television, Inc. Systems and Methods for Replacing Audio Segments in an Audio Track for a Video Asset
US8875025B2 (en) * 2010-07-15 2014-10-28 Apple Inc. Media-editing application with media clips grouping capabilities
EP2661701A1 (en) * 2011-01-04 2013-11-13 Sony Corporation Logging events in media files
US8244103B1 (en) * 2011-03-29 2012-08-14 Capshore, Llc User interface for method for creating a custom track
RU2527732C2 (ru) 2012-10-03 2014-09-10 Денис Юрьевич Чирков Способ озвучивания видеотрансляции
US20150363899A1 (en) * 2013-07-08 2015-12-17 Philip R. Krause Method and apparatus for generating and distributing creative works
CN104468317B (zh) * 2013-09-16 2018-10-12 联想(北京)有限公司 一种信息处理方法及第一电子设备
CN104104987B (zh) * 2014-07-29 2018-05-18 小米科技有限责任公司 视频播放中画面与声音同步方法及装置
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
CN105657498B (zh) * 2016-02-17 2018-11-06 腾讯科技(深圳)有限公司 移动终端的视频录制方法和装置
CN106060424A (zh) 2016-06-14 2016-10-26 徐文波 视频配音方法和装置
US20180330756A1 (en) * 2016-11-19 2018-11-15 James MacDonald Method and apparatus for creating and automating new video works
US10582277B2 (en) * 2017-03-27 2020-03-03 Snap Inc. Generating a stitched data stream
CN107197186A (zh) * 2017-04-14 2017-09-22 武汉鲨鱼网络直播技术有限公司 一种音视频压制系统及方法
CN107295416B (zh) * 2017-05-05 2019-11-22 中广热点云科技有限公司 截取视频片段的方法和装置
US11109111B2 (en) * 2017-12-20 2021-08-31 Flickray, Inc. Event-driven streaming media interactivity
WO2019164535A1 (en) * 2018-02-26 2019-08-29 Google Llc Automated voice translation dubbing for prerecorded videos
US10565973B2 (en) * 2018-06-06 2020-02-18 Home Box Office, Inc. Audio waveform display using mapping function
CN108769733A (zh) * 2018-06-22 2018-11-06 三星电子(中国)研发中心 视频剪辑方法和视频剪辑装置
US20200007946A1 (en) * 2018-06-29 2020-01-02 Rovi Guides, Inc. Selectively delivering a translation for a media asset based on user proficiency level in the foreign language and proficiency level required to comprehend the media asset
US10706347B2 (en) * 2018-09-17 2020-07-07 Intel Corporation Apparatus and methods for generating context-aware artificial intelligence characters
CN109587543B (zh) 2018-12-27 2021-04-02 秒针信息技术有限公司 音频同步方法和装置及存储介质
CN109819313B (zh) 2019-01-10 2021-01-08 腾讯科技(深圳)有限公司 视频处理方法、装置及存储介质
CN111741231B (zh) * 2020-07-23 2022-02-22 北京字节跳动网络技术有限公司 一种视频配音方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959773A (zh) * 2016-04-29 2016-09-21 魔方天空科技(北京)有限公司 多媒体文件的处理方法和装置
CN106293347A (zh) * 2016-08-16 2017-01-04 广东小天才科技有限公司 一种人机交互的学习方法及装置、用户终端
CN106911900A (zh) * 2017-04-06 2017-06-30 腾讯科技(深圳)有限公司 视频配音方法及装置
CN110971957A (zh) * 2018-09-30 2020-04-07 阿里巴巴集团控股有限公司 一种视频编辑方法、装置以及移动终端
CN110753263A (zh) * 2019-10-29 2020-02-04 腾讯科技(深圳)有限公司 视频配音方法、装置、终端及存储介质

Also Published As

Publication number Publication date
JP2023506587A (ja) 2023-02-16
US11817127B2 (en) 2023-11-14
CN111741231A (zh) 2020-10-02
EP4090009A1 (en) 2022-11-16
US20220383905A1 (en) 2022-12-01
KR20220119743A (ko) 2022-08-30
WO2022017451A1 (zh) 2022-01-27
JP7344395B2 (ja) 2023-09-13
AU2021312196B2 (en) 2023-07-27
BR112022016017A2 (pt) 2023-01-31
MX2022009952A (es) 2022-09-19
CA3167985A1 (en) 2022-01-27
EP4090009A4 (en) 2023-08-09
AU2021312196A1 (en) 2022-09-08
KR102523768B1 (ko) 2023-04-20

Similar Documents

Publication Publication Date Title
CN111741231B (zh) 一种视频配音方法、装置、设备及存储介质
GB2590204A (en) Video shooting method and apparatus, terminal device, and storage medium
US20150213727A1 (en) Custom Narration of Electronic Books
EP4171006A1 (en) Previewing method and apparatus for effect application, and device and storage medium
JPH1031878A (ja) ビデオ及び/又はオーディオの再生制御装置及び再生制御方法
WO2020024165A1 (zh) 视频剪辑方法、装置、设备及存储介质
WO2022063090A1 (zh) 用于用户引导的方法、装置、设备和存储介质
CN109165052B (zh) 应用场景的交互处理方法、装置及终端、系统、存储介质
CN112653920B (zh) 视频处理方法、装置、设备及存储介质
WO2023134470A1 (zh) 页面控制方法、装置、设备以及存储介质
JP2008219920A (ja) テレビジョン・ニュース用オーディオビジュアル作業および対応するテキストのための編集システム
CN112231021A (zh) 软件新功能的引导方法和装置
EP4333443A1 (en) Video processing method and apparatus, device, and storage medium
US20240114198A1 (en) Video processing method, apparatus, device and storage medium
WO2023231901A1 (zh) 用于内容拍摄的方法、装置、设备和存储介质
WO2023246331A1 (zh) 用于内容拍摄的方法、装置、设备和存储介质
CN109660875B (zh) 一种弹幕显示时间确定方法、终端和计算机可读存储介质
RU2805241C1 (ru) Способ, устройство, оборудование для озвучивания видео и носитель информации
CN116170549A (zh) 视频处理方法及设备
CN107277602B (zh) 信息获取方法及电子设备
WO2022253349A1 (zh) 一种视频编辑方法、装置、设备及存储介质
CN112887805B (zh) 语音功能提示方法、装置、设备及介质
JP2000172859A (ja) マルチメディアタイトル編集装置、マルチメディアタイトル編集方法、及びマルチメディアタイトル編集プログラムを記録した記録媒体
CN115543156A (zh) 对象编辑方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant