CN112040310A

CN112040310A - 一种音视频合成方法、装置、移动终端及存储介质

Info

Publication number: CN112040310A
Application number: CN202010915442.4A
Authority: CN
Inventors: 陈罗生; 李晓峰; 莫兆忠
Original assignee: Guangzhou Yougu Information Technology Co ltd
Current assignee: Guangzhou Yougu Information Technology Co ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-04

Abstract

本申请提供了一种音视频合成方法、装置、移动终端及存储介质，其中方法包括：获取待处理的素材，素材包括：背景音素材；对素材进行预处理，得到预处理素材；当已接入耳机设备时，响应于第一录制素材的获得，将第一录制素材与预处理素材进行合成，得到合成文件，其中，第一录制素材为由用户根据预处理素材进行音频录制得到的。本申请先根据预先设定的素材进行预处理得到包含背景音素材的预处理素材，再将仅包含人声素材的第一录制素材与该预处理素材进行合成，得到包含了背景音的合成文件，基于本申请的音视频合成机制，解决了目前的音视频合成方式存在当用户佩戴耳机录制时无法直接获得包含背景音的合成文件的技术问题。

Description

一种音视频合成方法、装置、移动终端及存储介质

技术领域

本申请涉及多媒体技术领域，尤其涉及一种音视频合成方法、装置、移动终端及存储介质。

背景技术

近年来，随着移动终端技术和多媒体技术的发展，越来越多的多媒体娱乐应用逐渐出现在用户的视野中，朗读配音类应用也是其中之一。

朗读配音类应用是一类为以用户录制的音频为基础，方便用户制作各式各样朗读和配音作品的娱乐应用。目前移动终端上的朗读配音应用的音视频合成方式具体为通过麦克风设备采集音频素材，包括人声音频以及外放的背景音，再根据采集到的音频素材与其它素材进行合成，从而得到合成文件，但目前的音视频合成音视频合成方式存在一下技术问题：当用户佩戴耳机进行录制时，因收音范围有限只录取到人声，无法获取背景音，导致形成的作品文件只有人声，大大降低了用户的体验。

发明内容

本申请提供了一种音视频合成方法、装置、移动终端及存储介质，用于解决目前的音视频合成方式存在当用户佩戴耳机进行录制时则无法直接获得包含背景音的合成文件的技术问题。

首先，本申请第一方面提供了一种音视频合成方法，包括：

获取待处理的素材，其中，所述素材包括：背景音素材；

对所述素材进行预处理，得到预处理素材；

当已接入耳机设备时，响应于第一录制素材的获得，将所述第一录制素材与所述预处理素材进行合成，得到合成文件，其中，所述第一录制素材为由用户根据所述预处理素材进行音频录制得到的，具体包括：人声素材。

优选地，对所述素材进行预处理，得到预处理素材具体包括：

基于所述素材中的背景音素材，当所述背景音素材的时长小于预设的录制时长阈值时，则对所述背景音素材进行复制和拼接，使得拼接后的背景音素材的时长不小于所述录制时长阈值；

基于所述拼接后的背景音素材，得到预处理素材，所述预处理素材具体为包含所述背景音素材的音频。

优选地，所述素材还包括：视频画面素材；

对所述素材进行预处理，得到预处理素材具体包括：

将所述拼接后的背景音素材和视频画面素材进行合成，得到预处理素材，所述预处理素材具体为包含所述背景音素材和所述视频画面素材的视频。

优选地，所述视频画面素材的配置过程具体包括：

通过音轨拆分处理方式，分离出原始视频素材中的视频画面，以得到所述视频画面素材。

优选地，对所述素材进行预处理，得到预处理素材之后还包括：

当未接入耳机设备时，响应于第二录制素材的获得，将所述第二录制素材与所述视频画面素材进行合成，得到合成文件，其中，所述第二录制素材为由用户根据所述预处理素材进行音频录制得到的，具体包括：人声素材和所述背景音素材。

本申请第二方面提供了一种音视频合成装置，包括：

素材获取单元，用于获取待处理的素材，其中，所述素材包括：背景音素材；

预处理单元，用于对所述素材进行预处理，得到预处理素材；

第一合成单元，用于当已接入耳机设备时，响应于第一录制素材的获得，将所述第一录制素材与所述预处理素材进行合成，得到合成文件，其中，所述第一录制素材为由用户根据所述预处理素材进行音频录制得到的，具体包括：人声素材。

优选地，所述预处理单元具体用于：

优选地，所述素材还包括：视频画面素材；

当所述素材还包括：视频画面素材时，所述预处理单元具体用于：

本申请第三方面提供了一种移动终端，所述移动终端设置有耳机设备接口，包括：存储器和处理器；

所述存储器用于存储与本申请第一方面所述的音视频合成方法相对应的程序代码；

所述处理器用于执行所述程序代码。

本申请第四方面提供了一种存储介质，所述存储介质中保存有与本申请第一方面所述的音视频合成方法相对应的程序代码。

以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种音视频合成方法、装置、移动终端及存储介质，其中方法包括：获取待处理的素材，其中，所述素材包括：背景音素材；对所述素材进行预处理，得到预处理素材；当已接入耳机设备时，响应于第一录制素材的获得，将所述第一录制素材与所述预处理素材进行合成，得到合成文件，其中，所述第一录制素材为由用户根据所述预处理素材进行音频录制得到的，具体包括：人声素材。

本申请先根据预先设定的素材进行预处理得到包含背景音素材的预处理素材，再将仅包含人声素材的第一录制素材与该预处理素材进行合成，得到包含了背景音的合成文件，基于本申请的音视频合成机制，解决了目前的音视频合成方式存在当用户佩戴耳机进行录制时则无法直接获得包含背景音的合成文件的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种音视频合成方法的第一个实施例的流程示意图；

图2为本申请提供的一种音视频合成方法的第二个实施例的流程示意图；

图3为本申请提供的一种音视频合成方法的第三个实施例的流程示意图；

图4为本申请提供的一种音视频合成装置的第一个实施例的结构示意图。

具体实施方式

在实际应用中，当采用上述的常规处理机制进行录制，若用户采用的是佩戴耳机设备的录制方式，虽然录制作品过程中可以听到背景音，但是录制得到的音频作品则是无背景音的半成品文件，还需要通过后期合成，将无背景音的半成品与背景音合成才能得到最终的成品文件。通过对这一现象深入分析，技术人员发现造成这一现象的主要原因是，当接入耳机后，设备将会自动屏蔽声音的外放，其中也包括需要一同录制的背景音，而且接入耳机设备后，麦克风的收音范围很小，很难录入背景音，从而导致录制出只有人声但没有背景音的半成品合成文件的现象。

本申请实施例提供了一种音视频合成方法、装置、移动终端及存储介质，用于解决目前的音视频合成方式存在当用户佩戴耳机进行录制时则无法直接获得包含背景音的合成文件的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请提供的以下示例中对提及的各类素材的处理方式均为ffmpeg前端音视频处理方式。

ffmpeg是音视频处理核心技术，采用C语言编写，是一个完整的跨平台解决方案，用于录制，转换和流式传输音频和视频的技术。

通常情况下，视频文件如MP4，MKV、FLV等都属于封装格式，就是把音视频数据按照相应的规范，打包成一个文本文件。ffmpeg技术对音视频的处理实质是对文件对解码的过程，解码多媒体文件的时候需要经过两个步骤，即解封装(Demuxing)和解码(Decode)：

①解封装(Demuxing)：就是将输入的封装格式的数据，分离成为音频流压缩编码数据和视频流压缩编码数据。封装格式种类很多，例如MP4，MKV，RMVB，TS，FLV，AVI等等，它的作用就是将已经压缩编码的视频数据和音频数据按照一定的格式放到一起。例如，FLV格式的数据，经过解封装操作后，输出H.264编码的视频码流和AAC编码的音频码流。

②解码(Decode)：就是将视频/音频压缩编码数据，解码成为非压缩的视频/音频原始数据。音频的压缩编码标准包含AAC，MP3等，视频的压缩编码标准则包含H.264，MPEG2等。解码是整个系统中最重要也是最复杂的一个环节。通过解码，压缩编码的视频数据输出成为非压缩的颜色数据，例如YUV、RGB等等；压缩编码的音频数据输出成为非压缩的音频抽样数据，例如PCM数据。

请参阅图1，本申请第一个实施例提供了一种音视频合成方法，该实施例为APP小程序中的配音朗读应用程序，包括：

步骤101、获取待处理的素材，其中，素材包括：背景音素材；

在用户启动了本实施例的音视频合成方法对应的应用后，可以先由用户自行选定后续配音活动中所需的素材，通过识别用户对应用界面的操作，根据用户的操作信息确定出被用户选中的素材，从而获取待处理的素材，而且结合本实施例的发明目的——得到包含背景音的合成文件，可理解，这些待处理的素材中应当包括有背景音素材。

步骤102、对素材进行预处理，得到预处理素材；

对通过步骤101获取的配音材料进行预处理，得到相应的预处理素材。

步骤103、当已接入耳机设备时，响应于第一录制素材的获得，将第一录制素材与预处理素材进行合成，得到合成文件，其中，第一录制素材为由用户根据预处理素材进行音频录制得到的，具体包括：人声素材。

当已接入耳机设备时，用户可以根据预处理素材，利用该耳机设备进行音频录制得到，以得到包含用户人声素材的第一录制素材，然后利用该第一录制素材与步骤102得到的包含了背景音素材的预处理素材进行合成，从而得到包含了背景音素材的合成文件。

以上为本申请提供的一种音视频合成方法的第一个实施例的详细说明，下面为本申请提供的一种音视频合成方法的第二个实施例的详细说明。

请参阅图2，本申请第二个实施例提供了一种音视频合成方法，适用于当素材不包含视频素材时的情况，包括：

步骤201、获取待处理的素材，其中，素材包括：背景音素材。

步骤202、基于素材中的背景音素材，当背景音素材的时长小于预设的录制时长阈值时，则对背景音素材进行复制和拼接，使得拼接后的背景音素材的时长不小于录制时长阈值。

步骤203、基于拼接后的背景音素材，得到预处理素材，预处理素材具体为包含背景音素材的音频。

需要说明的是，由于利用现有的ffmpeg进行音频合成时只能以文件时长中时长较短的为准进行剪辑，并不能指定特定文件时长作为剪辑的时长，比如背景音素材mp3为5分钟，第一录制素材mp3为8分钟，则音频合成后的合成文件时长为5分钟，导致第一录制素材后面的3分钟将被剪掉。为了确保第一录制素材的时长的完整性，本实施例通过ffmpeg技术将背景音拼接到一个预设的录制时长阈值，例如10分钟以上，比如背景音为3分钟，则需用ffmpeg命令拼接4个同样的背景音文件生成一个12分钟的背景音文件。

基于上述预处理后得到的背景音素材，得到预处理素材，预处理素材具体为包含该预处理后的背景音素材的音频。

步骤204、当已接入耳机设备时，响应于第一录制素材的获得，将第一录制素材与预处理素材进行合成，得到合成文件，其中，第一录制素材为由用户根据预处理素材进行音频录制得到的，具体包括：人声素材。

通过ffmpeg将背景音素材mp3和第一录制素材mp3进行合成，生成合成MP4文件，此MP4文件即本实施例中提及的合成文件。

以上为本申请提供的一种音视频合成方法的第二个实施例的详细说明，下面为本申请提供的一种音视频合成方法的第三个实施例的详细说明。

请参阅图3，本申请第三个实施例提供了一种音视频合成方法，适用于当素材包含视频素材时的情况，包括：

步骤301、获取待处理的素材，其中，素材包括：背景音素材和视频画面素材。

其中，本实施例提及的视频画面素材，其配置过程具体包括：

通过音轨拆分处理方式，分离出原始视频素材中的视频画面和原声音频，以得到无背景音无原声的视频素材，即本实施例提及的视频画面素材。

步骤302、基于素材中的背景音素材，当背景音素材的时长小于预设的录制时长阈值时，则对背景音素材进行复制和拼接，使得拼接后的背景音素材的时长不小于录制时长阈值。

本实施例步骤302的背景音素材预处理方式与上述步骤202类似，在此不再赘述。

步骤303、将拼接后的背景音素材和视频画面素材进行合成，得到预处理素材，预处理素材具体为包含背景音素材和视频画面素材的视频。

需要说明的是，与纯音频素材相比，本实施例对视频素材的预处理还包括：将拼接后的背景音素材和视频画面素材进行合成，得到预处理素材，此处的预处理素材具体为包含背景音素材和视频画面素材的视频素材。

步骤304、判断是否接入耳机设备，若是则跳转至步骤305，若否则跳转至步骤306。

步骤305、响应于第一录制素材的获得，将第一录制素材与预处理素材进行合成，得到合成文件，其中，第一录制素材为由用户根据预处理素材进行音频录制得到的，具体包括：人声素材。

在得到包含视频画面的预处理素材后，当处于已接入耳机设备的情况下，响应于第一录制素材的获得，将第一录制素材MP3(包含用户的人声素材)与预处理素材(包含背景音素材和视频画面素材)进行合成，得到合成文件(包含人声素材、背景音素材和视频画面素材)。

步骤306、响应于第二录制素材的获得，将第二录制素材与视频画面素材进行合成，得到合成文件，其中，第二录制素材为由用户根据预处理素材进行音频录制得到的，具体包括：人声素材和背景音素材。

鉴于前述处理步骤的调整，当处于未接入耳机设备的情况下，此时获得的录制素材将是第二录制素材，若将第二录制素材MP3(包含用户的人声素材和背景音素材1)与预处理素材(包含背景音素材2和视频画面素材)进行合成，得到合成文件(包含人声素材、背景音素材1、背景音素材2和视频画面素材)。可见，若处于未接入耳机设备的情况下，仍按照前述步骤进行音视频合成，则会导致背景音素材的重叠。

为此本实施例针对未接入耳机设备的情况，进一步提供了与步骤305并列的合成步骤，具体包括：将第二录制素材MP3(包含用户的人声素材和背景音素材)与步骤303获得的视频画面素材进行合成，从而得到合成文件(包含人声素材、背景音素材和视频画面素材)

以上为本申请提供的一种音视频合成方法的第三个实施例的详细说明，下面为本申请提供的一种音视频合成装置的第一个实施例的详细说明。

请参阅图4，本申请第四个实施例提供了一种音视频合成装置，与本申请第一个实施例提及的音视频合成方法一一对应，包括：

素材获取单元401，用于获取待处理的素材，其中，素材包括：背景音素材；

预处理单元402，用于对素材进行预处理，得到预处理素材；

第一合成单元403，用于当已接入耳机设备时，响应于第一录制素材的获得，将第一录制素材与预处理素材进行合成，得到合成文件，其中，第一录制素材为由用户根据预处理素材进行音频录制得到的，具体包括：人声素材。

更具体地，预处理单元402具体用于：

基于素材中的背景音素材，当背景音素材的时长小于预设的录制时长阈值时，则对背景音素材进行复制和拼接，使得拼接后的背景音素材的时长不小于录制时长阈值；

基于拼接后的背景音素材，得到预处理素材，预处理素材具体为包含背景音素材的音频。

更具体地，素材还包括：视频画面素材；

当素材还包括：视频画面素材时，预处理单元402具体用于：

将拼接后的背景音素材和视频画面素材进行合成，得到预处理素材，预处理素材具体为包含背景音素材和视频画面素材的视频。

以上为本申请提供的一种音视频合成装置的第一个实施例的详细说明，下面为本申请提供的一种移动终端及存储介质的实施例的详细说明。

本申请第五个实施例提供了一种移动终端，移动终端设置有耳机设备接口，包括：存储器和处理器；

存储器用于存储与本申请第一个实施例、第二个实施例或第三个实施例提及的音视频合成方法相对应的程序代码；

处理器用于执行程序代码。

可以理解的是，本实施例提及的耳机设备可以是有线耳机设备，也可以是无线耳机设备，而且本申请的耳机设备接口既可以是实体接口，如3.5mm耳机接口，数据接口等，也可以是用于连接耳机设备的模块，如蓝牙模块等。

本申请第六个实施例提供了一种存储介质，存储介质中保存有与本申请第一个实施例、第二个实施例或第三个实施例提及的音视频合成方法相对应的程序代码。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音视频合成方法，其特征在于，包括：

获取待处理的素材，其中，所述素材包括：背景音素材；

对所述素材进行预处理，得到预处理素材；

2.根据权利要求1所述的一种音视频合成方法，其特征在于，对所述素材进行预处理，得到预处理素材具体包括：

3.根据权利要求1所述的一种音视频合成方法，其特征在于，所述素材还包括：视频画面素材；

对所述素材进行预处理，得到预处理素材具体包括：

4.根据权利要求3所述的一种音视频合成方法，其特征在于，所述视频画面素材的配置过程具体包括：

5.根据权利要求3所述的一种音视频合成方法，其特征在于，对所述素材进行预处理，得到预处理素材之后还包括：

6.一种音视频合成装置，其特征在于，包括：

7.根据权利要求6所述的一种音视频合成装置，其特征在于，所述预处理单元具体用于：

8.根据权利要求6所述的一种音视频合成装置，其特征在于，所述素材还包括：视频画面素材；

所述预处理单元具体用于：

9.一种移动终端，所述移动终端设置有耳机设备接口，其特征在于，包括：存储器和处理器；

所述存储器用于存储与权利要求1至5任意一项所述的音视频合成方法相对应的程序代码；

所述处理器用于执行所述程序代码。

10.一种存储介质，其特征在于，所述存储介质中保存有与权利要求1至5任意一项所述的音视频合成方法相对应的程序代码。