CN111179970B

CN111179970B - 音视频处理方法、合成方法、装置、电子设备及存储介质

Info

Publication number: CN111179970B
Application number: CN201910713206.1A
Authority: CN
Inventors: 王胜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2023-10-20
Anticipated expiration: 2039-08-02
Also published as: CN111179970A

Abstract

本发明公开了一种音视频处理方法、合成方法、装置、电子设备及存储介质，所述音视频处理方法包括：获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；基于所述第二特定音频数据在所述待处理音频数据中的位置，从所述待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到目标音频。采用本发明所提供的音视频处理方法、合成方法、装置、电子设备及存储介质解决了现有技术中短视频多段录制过程中音视频合成时的背景音乐不连续的问题。

Description

音视频处理方法、合成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种音视频处理方法、合成方法、装置、电子设备及存储介质。

背景技术

短视频多段录制，就是用户分别录制多段不同的短视频，然后合成为完整视频，同时，用户还可以根据应用场景的实际需要，为不同的短视频配置对应的音频数据，以在多段短视频合成为完整视频时能够作为背景音乐添加至该完整视频，以此增强该完整视频的实用性、趣味性等等。

然而，发明人意识到，在短视频多段录制过程中，由于不同短视频之间的录制，往往存在暂停，由此引入延迟，而导致合成完整视频时添加的背景音乐存在不连续。

由上可知，短视频多段录制过程中音视频合成时的背景音乐不连续的问题仍有待解决。

发明内容

为了解决相关技术中存在的短视频多段录制过程中音视频合成时的背景音乐不连续的问题，本发明各实施例提供一种音视频处理方法、合成方法、装置、电子设备及存储介质。

其中，本发明所采用的技术方案为：

根据本发明实施例的一方面，一种音视频处理方法，包括：获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；基于所述第二特定音频数据在所述待处理音频数据中的位置，从所述待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到目标音频。

根据本发明实施例的一方面，一种音视频合成方法，包括：在进行短视频多段录制过程中，针对为分别配置给多段短视频的源音频数据，获取多个待处理音频数据，每一个待处理音频数据对应一段短视频，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；针对每一个待处理音频数据，确定该待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；基于所述第二特定音频数据在该待处理音频数据中的位置，从该待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到对应于短视频的目标音频；根据对应于不同短视频的多个目标音频和录制得到的多段短视频，合成完整视频。

根据本发明实施例的一方面，一种音视频处理装置，包括：数据获取模块，用于获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；位置确定模块，用于确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；数据移除模块，用于基于所述第二特定音频数据在所述待处理音频数据中的位置，从所述待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到目标音频。

在一示例性实施例，所述装置还包括：数据生成模块，用于生成所述第一特定音频数据；数据拼接模块，用于获取所述源音频数据，并将所述源音频数据与所述第一特定音频数据进行拼接，得到拼接音频数据；数据采集模块，用于控制所述扬声器输出所述拼接音频数据，并控制所述麦克风进行采集，生成所述待处理音频数据。

在一示例性实施例，所述数据获取模块包括：录制单元，用于进行语音段录制，得到所述第一特定音频数据；或，选取单元，用于从音频库中选取一段音频数据作为所述第一特定音频数据。

在一示例性实施例，所述数据移除模块包括：终止位置点确定单元，用于根据所述待处理音频数据中所述第二特定音频数据的位置，确定所述第二特定音频数据在所述待处理音频数据中的终止位置点；起始位置点确定单元，用于以所述第二特定音频数据在所述待处理音频数据中的终止位置点，作为所述目标音频在所述待处理音频数据中的起始位置点；数据提取单元，用于基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到所述目标音频。

在一示例性实施例，所述音效处理模块包括：混音单元，用于将所述源音频数据与所述目标音频进行混音。

在一示例性实施例，所述装置还包括：分配模块，用于在进行短视频多段录制过程中，针对为每一段短视频配置的源音频数据，获得多个所述目标音频，每一个所述目标音频对应一段短视频；合成模块，用于将多个所述目标音频合成为背景音乐，并将多段短视频合成为完整视频；添加模块，将所述背景音乐添加至所述完整视频。

根据本发明实施例的一方面，一种音视频合成装置，包括：数据获取模块，用于在进行短视频多段录制过程中，针对分别配置给多段短视频的源音频数据，获取多个待处理音频数据，每一个待处理音频数据对应一段短视频，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；位置确定模块，用于针对每一个待处理音频数据，确定该待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；数据移除模块，用于基于所述第二特定音频数据在该待处理音频数据中的位置，从该待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到对应于短视频的目标音频；视频合成模块，用于根据对应于不同短视频的多个目标音频和录制得到的多段短视频，合成完整视频。

根据本发明实施例的一方面，一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的音视频处理方法、音视频合成方法。

根据本发明实施例的一方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的音视频处理方法、音视频合成方法。

在上述技术方案中，获取在扬声器输出携带有第一特定音频数据的源音频数据时，由麦克风采集生成的待处理音频数据，以确定待处理音频数据中第二特定音频数据的位置，并基于该第二特定音频数据在待处理音频数据中的位置，从待处理音频数据中将第二特定音频数据和延迟音频数据移除，得到目标音频，也就是说，基于源音频数据携带的第一特定音频数据，使得延迟音频数据被移除，以此消除短视频多段录制过程中引入的延迟，从而保证完整视频合成时所添加的背景音乐的连续性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是本发明涉及的短视频多段录制过程中背景音乐不连续的示意图。

图2是根据一示例性实施例示出的一种电子设备的硬件结构图。

图3是根据一示例性实施例示出的一种音视频处理方法的流程图。

图4是根据一示例性实施例示出的另一种音视频处理方法的流程图。

图5是图3对应实施例中步骤330在一个实施例的流程图。

图6是图3对应实施例中步骤350在一个实施例的流程图。

图7是本发明涉及的从待处理音频数据中提取目标音频的示意图。

图8是根据一示例性实施例示出的另一种音视频处理方法的流程图。

图9是根据一示例性实施例示出的一种音视频合成方法的流程图。

图10是图9对应实施例中步骤690在一个实施例的流程图。

图11是本发明涉及的短视频多段录制过程中音视频合成方法的示意图。

图12是根据一示例性实施例示出的一种音视频处理装置的框图。

图13是根据一示例性实施例示出的一种音视频合成等装置的框图。

图14是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如前所述，在短视频多段录制过程中，由于延迟引入，而导致多段短视频合成完整视频时添加的背景音乐存在不连续。

在此具体说明一下背景音乐的不连续。

目前，短视频多段录制，即从同一个视频或者不同的视频中分别截取出具有一定时长的多段短视频，往往依赖于电子设备实施，例如，实施的电子设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑等等，应当说明的是，多段短视频具有独立性，也即是，具有时间不连续性，尤其是对来源于同一个视频的多段短视频而言。

根据应用场景的实际需要，上述短视频多段录制过程中，用户还可以为不同短视频配置音频数据，也就是说，在进行短视频多段录制时，扬声器除了输出视频本身所携带的音频数据，当然也不排除有些视频属于无声视频，还将输出用户为短视频配置的音频数据，以此增强音视频合成的实用性和趣味性，有利于提升用户体验。

然而，发明人意识到，以智能手机中部署的安卓(android)系统为例，由于部署在智能手机中的android系统对音频处理存在延迟，即相较于扬声器输出的音频数据，麦克风采集到的音频数据存在一定时延，也视为，录制到的每一段短视频的开头会产生延迟音频数据，即引入了延迟，如图1所示，101～103为录制到的短视频，1011、1021、1013为位于录制到短视频开头的延迟音频数据。

基于此，在进行完整视频合成时，即由多段短视频拼接生成完整视频，如图1中104所示，这就使得完整视频中的背景音乐存在不连续，即在不同短视频之间的衔接处存在延迟音频数据，例如，图1中105所示。

针对背景音乐的不连续，可以利用android系统的回声消除技术，以此消除短视频多段录制过程中引入的延迟，然而，发明人发现，由于不同智能手机中android系统对音频处理的延迟存在差异，延迟从10毫秒至几百好毫秒不等，无法做到统一处理，这将使得不同智能手机中完整视频的合成效果大相径庭，也可以理解为，如果统一处理，则有的智能手机可能消除了背景音乐的不连续，而有的智能手机仍存在背景音乐的不连续，故而，回声消除技术仍无法做到完全消除背景音乐的不连续。

为此，本发明特提出了一种音视频处理方法，能够完全消除背景音乐的不连续，而且适用于各种类型的电子设备，具有良好的通用性和实用性，相应地，与之匹配的音视频处理装置被部署于电子设备，该电子设备包括但不限于智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑，以实现音视频处理方法。

请参阅图2，图2是根据一示例性实施例示出的一种电子设备的框图。

需要说明的是，该种电子设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该种电子设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的电子设备200中的一个或者多个组件。

电子设备200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，电子设备200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。

具体地，电源210用于为电子设备200上的各硬件设备提供工作电压。

接口230包括至少一输入输出接口235，用于接收外部信号。当然，在其余本发明适配的示例中，接口230还可以进一步包括至少一有线或无线网络接口231、至少一串并转换接口233、以及至少一USB接口237等，如图2所示，在此并非对此构成具体限定。例如，扬声器为输入输出接口235中的输出接口，而麦克风为输入输出接口235中的输入接口。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备200上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对电子设备200的一系列计算机可读指令。例如，音视频处理装置可视为部署于电子设备的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是待处理音频数据、音频库等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成音视频处理方法。

可以理解，图2所示的结构仅为示意，电子设备200还可包括比图2中所示更多或更少的组件，或者具有与图2所示不同的组件。图2中所示的各组件可以采用硬件、软件或者其组合来实现。

请参阅图3，在一示例性实施例中，一种音视频处理方法适用于电子设备，例如，电子设备为智能手机，该电子设备的结构可以如图2所示。

该种音视频处理方法可以由电子设备执行，也可以理解为由电子设备中部署的音视频处理装置执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为电子设备加以说明，但是并不对此构成限定。

如图3(a)所示，该种音视频处理方法可以包括以下步骤：

步骤310，获取待处理音频数据。

其中，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的。

本实施例中，源音频数据，是指用户根据应用场景的实际需要，为不同的短视频配置的音频数据。

该源音频数据，可以来源于音频库中的音频数据，例如，在KTV场景中，源音频数据为音频库中某歌曲的伴奏；也可以是用户根据应用场景的实际需要录制的音频数据，例如，用户录制的一段语音。

也可以理解为，对于短视频多段录制而言，源音频数据，实质是已知的音频数据，目的在于作为多段短视频合成完整视频时添加的背景音乐。

值得一提的是，对于扬声器的输出而言，除了携带第一特定音频数据的源音频数据之外，还可能包含视频本身所携带的音频数据，麦克风由此采集到的音频数据实质也产生了一定时延，可以理解，该时延和源音频数据由麦克风采集所产生的时延是一致的，因此，本实施例中，仅基于源音频数据进行时延消除即可。

其次，如前所述，麦克风采集到的音频数据的开头将产生延迟音频数据，例如，延迟音频数据为一段环境音，由此引入了延迟，而该延迟音频数据将导致音视频合成时背景音乐的不连续。那么，消除延迟以保证背景音乐的连续性，实质是消除麦克风采集到的音频数据开头所产生的延迟音频数据。

基于此，本实施例中，在源音频数据的开头添加第一特定音频数据，目的在于消除短视频多段录制过程中引入的延迟。

其中，第一特定音频数据，实质也是已知的音频数据，也可以是来源于音频库中的音频数据，或者用户根据应用场景的实际需要录制的音频数据，本实施例在此并未加以限定。

由此，在扬声器播放携带有第一特定音频数据的源音频数据时，通过麦克风采集，便可基于该第一特定音频数据，消除短视频多段录制过程中引入的延迟。

可以理解，在麦克风采集到音频数据之后，电子设备考虑处理性能，可以对麦克风采集到的音频数据进行存储。例如，将该音频数据存储至图2所示的存储器250。

那么，关于待处理音频数据的获取，既可以是麦克风采集到的音频数据作为待处理音频数据，以便于实时地对该待处理音频数据进行相关处理，也可以是获取一历史时间段的音频数据进行相关处理，或者，按照操作人员的指示进行该待处理音频数据的相关处理。

换而言之，获取到的待处理音频数据，可以是麦克风采集到的实时音频数据，也可以是预选存储的历史音频数据，本实施例对此并未进行具体限定。

步骤330，确定所述待处理音频数据中第二特定音频数据的位置。

其中，所述第二特定音频数据为携带背景噪声的第一特定音频数据。

如前所述，扬声器对携带有第一特定音频数据的源音频数据进行播放，可以理解，录制过程中不可避免地存在背景噪声，那么，麦克风采集到的音频数据实质是携带了背景噪声的第一特定音频数据和携带了背景噪声的源音频数据，此外，由于录制过程中引入了延迟，因此，麦克风采集到的音频数据还将包含延迟音频数据，且位于麦克风采集到的音频数据的开头。

由上可知，待处理音频数据，依序包含了延迟音频数据、携带背景噪声的第一特定音频数据(即第二特定音频数据)，以及携带背景噪声的源音频数据。

基于此，本实施例中，消除延迟以保证背景音乐的连续性，实质是消除麦克风采集到的音频数据开头所产生的延迟音频数据、以及源音频数据之前的第一特定音频数据加入背景噪声后的第二特定音频数据，也可以理解为，仅保留携带背景噪声的源音频数据。

具体而言，确定第二特定音频数据在待处理音频数据中的位置。那么，以该位置为界，位置之前的音频数据移除，即第二特定音频数据和延迟音频数据移除，位置之后的音频数据保留，即携带背景噪声的源音频数据保留。

步骤350，基于所述第二特定音频数据在所述待处理音频数据中的位置，从所述待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到目标音频。

通过如上所述的过程，基于第一特定音频数据，能够准确地确定待处理音频数据中的延迟音频数据，以此准确地消除短视频多段录制过程中引入的延迟，从而解决现有技术中短视频多段录制过程中音视频合成时的背景音乐不连续的问题。

此外，不必考虑不同类型电子设备进行短视频多段录制时引入的延迟各不相同，具有较高的通用性。

进一步地，在另一示例性实施例中，如图3(b)所示，步骤350之后，如上所述的方法还可以包括以下步骤：

步骤370，对所述目标音频进行音效处理。

如前所述，目标音频，实质是携带了背景噪声的源音频数据，可以理解，经过录制以及背景噪声干扰，目标音频的音效会变差，为此，本实施例中，进行音视频合成之前，需要进行目标音频的音效处理，以此有效地改善音视频合成时的音效。

其中，音效处理包括但不限于：降噪、激励、压限、均衡、混音等等。

例如，将所述源音频数据与所述目标音频进行混音。

在上述实施例的作用下，充分保证了目标音频的音效，有利于提升音视频的合成质量。

请参阅图4，在一示例性实施例中，步骤310之前，如上所述的方法还可以包括以下步骤：

步骤410，生成所述第一特定音频数据。

可选地，进行语音段录制，得到所述第一特定音频数据。

可选地，从音频库中选取一段音频数据作为所述第一特定音频数据。

步骤430，获取所述源音频数据，并将所述源音频数据与所述第一特定音频数据进行拼接，得到拼接音频数据。

其中，拼接音频数据为携带第一特定音频数据的源音频数据，且第一特定音频数据位于源音频数据之前。

步骤450，控制所述扬声器输出所述拼接音频数据，并控制所述麦克风进行采集，生成所述待处理音频数据。

在上述实施例的作用下，实现了第一特定音频数据的添加，即该第一特定音频数据作为已知的音频数据添加，那么，通过扬声器的输出和麦克风的采集，对于麦克风采集到的音频数据而言，势必包含了第一特定音频数据或者携带背景噪声的第一特定音频数据，使得后续基于第一特定音频数据消除短视频多段录制过程中引入的延迟得以实现。

请参阅图5，在一示例性实施例中，步骤330可以包括以下步骤：

步骤331，在所述第一特定音频数据与所述待处理音频数据之间进行互相关运算，得到互相关运算结果。

其中，所述互相关运算结果指示了所述第一特定音频数据与所述待处理音频数据中所述第二特定音频数据的强相关性。

也就是说，由于待处理音频数据中的第二特定音频数据，实质是携带背景噪声的第一特定音频数据，那么，第一特定音频数据与第二特定音频数据进行互相关运算时，便具有强相关性，而第一特定音频数据与待处理音频数据中的其余音频数据，例如，延迟音频数据或者携带背景噪声的源音频数据，进行互相关运算时，则具有弱相关性。

步骤333，根据所述互相关运算结果指示的强相关性，得到所述第二特定音频数据在所述待处理音频数据中的位置。

由此，如果互相关运算结果指示强相关性，表示待处理音频数据中与第一特定音频数据进行互相关运算的音频数据为第二特定音频数据，即此处视为第二特定音频数据在待处理音频数据中的位置。

同理，如果互相关运算结果指示弱相关性，表示待处理音频数据中与第一特定音频数据进行互相关运算的音频数据可能是延迟音频数据或者携带背景噪声的源音频数据，即此处不视为第二特定音频数据在待处理音频数据中的位置。

在上述实施例的作用下，基于第一特定音频数据与第二特定音频数据的强相关性，准确地找到第二特定音频数据在待处理音频数据中的位置，有利于后续消除短视频多段录制过程中引入的延迟。

请参阅图6，在一示例性实施例中，步骤350可以包括以下步骤：

步骤351，根据所述待处理音频数据中所述第二特定音频数据的位置，确定所述第二特定音频数据在所述待处理音频数据中的终止位置点。

步骤353，以所述第二特定音频数据在所述待处理音频数据中的终止位置点，作为所述目标音频在所述待处理音频数据中的起始位置点。

步骤355，基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到所述目标音频。

具体而言，如图7所示，第二特定音频数据301在待处理音频数据300中的位置，是指起始位置点3011至终止位置点3012。

那么，以该终止位置点3012，作为目标音频302在待处理音频数据300中的起始位置点3021。

由此，以该起始位置点3021为界，该起始位置点3021之前的音频数据，包括第二特定音频数据301和延迟音频数据303将被移除，而该起始位置点3021之后的音频数据，即携带背景噪声的源音频数据，也即是目标音频302得以保留。

上述过程，即完成了目标音频的提取，有效地消除了延迟音频数据，进而充分保障了后续音视频合成时背景音乐的连续性。

通过上述各个实施例，因麦克风采集的音频数据相较于扬声器输出的音频数据滞后，由此引入的延迟得以消除，同时可以避免不同电子设备所取得的音效存在差异的问题，有效地扩展了通用性。

请参阅图8，在一示例性实施例中，步骤350或者步骤370之后，如上所述的方法还可以包括以下步骤：

步骤510，在进行短视频多段录制过程中，针对为每一段短视频配置的源音频数据，获得多个所述目标音频，每一个所述目标音频对应一段短视频。

步骤530，将多个所述目标音频合成为背景音乐，并将多段短视频合成为完整视频。

步骤550，将所述背景音乐添加至所述完整视频。

在上述过程中，实现了短视频多段录制过程中的音视频合成。

下面基于短视频多段录制，对音视频合成方法进一步地说明。

请参阅图9，在一示例性实施例中，一种音视频合成方法适用于电子设备，例如，电子设备为智能手机，该电子设备的结构可以如图2所示。

该种音视频合成方法可以由电子设备执行，也可以理解为由电子设备中部署的音视频合成装置执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为电子设备加以说明，但是并不对此构成限定。

步骤610，在进行短视频多段录制过程中，针对分别配置给多段短视频的源音频数据，获取多个待处理音频数据，每一个待处理音频数据对应一段短视频，所述待处理音频数据是在扬声器输出携带有第一特定音频数据的该源音频数据时，由麦克风采集生成的。

步骤630，针对每一个待处理音频数据，确定该待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据。

步骤650，基于所述第二特定音频数据在该待处理音频数据中的位置，从该待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到对应于短视频的目标音频。

步骤690，根据对应于不同短视频的多个目标音频和录制得到的多段短视频，合成完整视频。

请参阅图10，在一示例性实施例中，步骤690可以包括以下步骤：

步骤691，将对应于不同短视频的多个目标音频合成为背景音乐，并将录制得到的多段短视频合成为所述完整视频。

步骤693，将所述背景音乐添加至所述完整视频。

具体而言，如图11所示，音视频合成包括两条支路：拼接输出支路和采集合成支路。

拼接输出支路：

分别获取源音频数据701和第一特定音频数据702，通过解码和拼接，形成携带第一特定音频数据702的源音频数据701，以供扬声器703输出。

采集合成支路：

在扬声器703输出携带第一特定音频数据702的源音频数据701时，由麦克风704采集生成待处理音频数据705，此时，由于引入延迟，该待处理音频数据705包括延迟音频数据、携带背景噪声的第一特定音频数据(即第二特定音频数据)、以及携带背景噪声的源音频数据。

接着，将第一特定音频数据702与待处理音频数据705进行互相关运算706，便可确定第二特定音频数据在待处理音频数据706中的位置707，并以此从待处理音频数据706中提取得到目标音频708。

然后，进行目标音频708与源音频数据701的混音，得到最终具有良好音效的目标音频709。

最后，根据目标音频709进行背景音乐的合成，以及，根据短视频进行完整视频的合成，并将背景音乐添加至完整视频，从而完成音视频合成过程。

通过上述过程，充分保证了短视频多段录制过程中音视频合成时背景音乐的连续性。

此外，通过源音频数据与目标音频的混音，还将有效地提升音视频合成质量。

下述为本发明装置实施例，可以用于执行本发明所涉及的音视频处理方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的音视频处理方法的方法实施例。

请参阅图12，在一示例性实施例中，一种音视频处理装置900包括但不限于：数据获取模块910、位置确定模块930和数据移除模块950。

其中，数据获取模块910，用于获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的。

位置确定模块930，用于确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据。

数据移除模块950，用于基于所述第二特定音频数据在所述待处理音频数据中的位置，从所述待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到目标音频。

在一示例性实施例中，如上所述的音视频处理装置900还包括但不限于：

其中，数据生成模块，用于生成所述第一特定音频数据。

数据拼接模块，用于获取所述源音频数据，并将所述源音频数据与所述第一特定音频数据进行拼接，得到拼接音频数据。

数据采集模块，用于控制所述扬声器输出所述拼接音频数据，并控制所述麦克风进行采集，生成所述待处理音频数据。

在一示例性实施例中，所述数据获取模块910包括但不限于：

其中，录制单元，用于进行语音段录制，得到所述第一特定音频数据。或，

选取单元，用于从音频库中选取一段音频数据作为所述第一特定音频数据。

在一示例性实施例中，所述位置确定模块930包括但不限于：

其中，互相关运算单元，用于在所述第一特定音频数据与所述待处理音频数据之间进行互相关运算，得到互相关运算结果，所述互相关运算结果指示了所述第一特定音频数据与所述待处理音频数据中所述第二特定音频数据的强相关性。

位置确定单元，用于根据所述互相关运算结果指示的强相关性，得到所述第二特定音频数据在所述待处理音频数据中的位置。

在一示例性实施例中，所述数据移除模块950包括但不限于：

其中，终止位置点确定单元，用于根据所述待处理音频数据中所述第二特定音频数据的位置，确定所述第二特定音频数据在所述待处理音频数据中的终止位置点。

起始位置点确定单元，用于以所述第二特定音频数据在所述待处理音频数据中的终止位置点，作为所述目标音频在所述待处理音频数据中的起始位置点。

数据提取单元，用于基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到所述目标音频。

在一示例性实施例中，如上所述的音视频处理装置900还包括但不限于：音效处理模块，所述音效处理模块包括但不限于：

其中，混音单元，用于将所述源音频数据与所述目标音频进行混音。

其中，分配模块，用于在进行短视频多段录制过程中，针对为每一段短视频配置的源音频数据，获得多个所述目标音频，每一个所述目标音频对应一段短视频。

合成模块，用于将多个所述目标音频合成为背景音乐，并将多段短视频合成为完整视频。

添加模块，将所述背景音乐添加至所述完整视频。

请参阅图13，在一示例性实施例中，一种音视频合成装置1100，包括但不限于：数据获取模块1110、位置确定模块1130、数据移除模块1150、和视频合成模块1190。

其中，数据获取模块1110，用于在进行短视频多段录制过程中，针对分别位置给多段短视频的源音频数据，获取多个待处理音频数据，每一个待处理音频数据对应一段短视频，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的。

位置确定模块1130，用于针对每一个待处理音频数据，确定该待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据。

数据移除模块1150，用于基于所述第二特定音频数据在该待处理音频数据中的位置，从该待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到对应于短视频的目标音频。

视频合成模块1190，用于根据对应于不同短视频的多个目标音频和录制得到的多段短视频，合成完整视频。

在一示例性实施例中，所述视频合成模块1190包括但不限于：

合成单元，用于将对应于不同短视频的多个目标音频合成为背景音乐，并将录制得到的多段短视频合成为所述完整视频。

添加单元，用于将所述背景音乐添加至所述完整视频。

在一示例性实施例中，如上所述的音视频合成装置1100还包括相关功能模块，用于实现以下步骤，包括但不限于：

其中，生成所述第一特定音频数据。

获取所述源音频数据，并将所述源音频数据与所述第一特定音频数据进行拼接，得到拼接音频数据。

控制所述扬声器输出所述拼接音频数据，并控制所述麦克风进行采集，生成所述待处理音频数据。

其中，进行语音段录制，得到所述第一特定音频数据。或，

从音频库中选取一段音频数据作为所述第一特定音频数据。

其中，在所述第一特定音频数据与所述待处理音频数据之间进行互相关运算，得到互相关运算结果，所述互相关运算结果指示了所述第一特定音频数据与所述待处理音频数据中所述第二特定音频数据的强相关性。

根据所述互相关运算结果指示的强相关性，得到所述第二特定音频数据在所述待处理音频数据中的位置。

其中，根据所述待处理音频数据中所述第二特定音频数据的位置，确定所述第二特定音频数据在所述待处理音频数据中的终止位置点。

以所述第二特定音频数据在所述待处理音频数据中的终止位置点，作为所述目标音频在所述待处理音频数据中的起始位置点。

基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到所述目标音频。

其中，将所述源音频数据与所述目标音频进行混音。

需要说明的是，上述实施例所提供的音视频处理、合成装置在进行音视频处理、合成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即音视频处理、合成装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的音视频处理、合成装置与音视频处理、合成方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图14，在一示例性实施例中，一种电子设备1000，但不限于至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。

其中，存储器1002上存储有计算机可读指令，处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的音视频处理方法、音视频合成方法。

在一示例性实施例中，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的音视频处理方法、音视频合成方法。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种音视频处理方法，其特征在于，包括：

获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；其中，所述第一特定音频数据是已知的音频数据，且所述第一特定音频数据拼接在所述源音频数据之前；

确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；

根据所述待处理音频数据中所述第二特定音频数据的位置，确定所述第二特定音频数据在所述待处理音频数据中的终止位置点；

以所述第二特定音频数据在所述待处理音频数据中的终止位置点，作为目标音频在所述待处理音频数据中的起始位置点；

基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到目标音频。

2.如权利要求1所述的方法，其特征在于，所述获取待处理音频数据之前，所述方法还包括：

生成所述第一特定音频数据；

获取所述源音频数据，并将所述源音频数据与所述第一特定音频数据进行拼接，得到拼接音频数据；

3.如权利要求2所述的方法，其特征在于，所述生成所述第一特定音频数据，包括：

进行语音段录制，得到所述第一特定音频数据；或，

从音频库中选取一段音频数据作为所述第一特定音频数据。

4.如权利要求1所述的方法，其特征在于，所述确定所述待处理音频数据中第二特定音频数据的位置，包括：

在所述第一特定音频数据与所述待处理音频数据之间进行互相关运算，得到互相关运算结果，所述互相关运算结果指示了所述第一特定音频数据与所述待处理音频数据中所述第二特定音频数据的强相关性；

5.如权利要求1所述的方法，其特征在于，在得到目标音频之后，所述方法还包括：

将所述源音频数据与所述目标音频进行混音。

6.如权利要求1至5任一项所述的方法，其特征在于，在得到目标音频之后，所述方法还包括：

在进行短视频多段录制过程中，针对为每一段短视频配置的源音频数据，获得多个所述目标音频，每一个所述目标音频对应一段短视频；

将多个所述目标音频合成为背景音乐，并将多段短视频合成为完整视频；

将所述背景音乐添加至所述完整视频。

7.一种音视频合成方法，其特征在于，包括：

在进行短视频多段录制过程中，针对分别配置给多段短视频的源音频数据，获取多个待处理音频数据，每一个待处理音频数据对应一段短视频，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；其中，所述第一特定音频数据是已知的音频数据，且所述第一特定音频数据拼接在所述源音频数据之前；

针对每一个待处理音频数据，确定该待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；

基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到对应于短视频的目标音频；

根据对应于不同短视频的多个目标音频和录制得到的多段短视频，合成完整视频。

8.如权利要求7所述的方法，其特征在于，所述根据对应于不同短视频的多个目标音频和录制得到的多段短视频，合成完整视频，包括：

将对应于不同短视频的多个目标音频合成为背景音乐，并将录制得到的多段短视频合成为所述完整视频；

将所述背景音乐添加至所述完整视频。

9.一种音视频处理装置，其特征在于，包括：

数据获取模块，用于获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；其中，所述第一特定音频数据是已知的音频数据，且所述第一特定音频数据拼接在所述源音频数据之前；

位置确定模块，用于确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；

终止位置点确定单元，用于根据所述待处理音频数据中所述第二特定音频数据的位置，确定所述第二特定音频数据在所述待处理音频数据中的终止位置点；

起始位置点确定单元，用于以所述第二特定音频数据在所述待处理音频数据中的终止位置点，作为目标音频在所述待处理音频数据中的起始位置点；

数据提取单元，用于基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到目标音频。

10.如权利要求9所述的装置，其特征在于，所述位置确定模块包括：

互相关运算单元，用于在所述第一特定音频数据与所述待处理音频数据之间进行互相关运算，得到互相关运算结果，所述互相关运算结果指示了所述第一特定音频数据与所述待处理音频数据中所述第二特定音频数据的强相关性；

11.一种音视频合成装置，其特征在于，包括：

数据获取模块，用于在进行短视频多段录制过程中，针对分别配置给多段短视频的源音频数据，获取多个待处理音频数据，每一个待处理音频数据对应一段短视频，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；其中，所述第一特定音频数据是已知的音频数据，且所述第一特定音频数据拼接在所述源音频数据之前；

位置确定模块，用于针对每一个待处理音频数据，确定该待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；

数据移除模块，用于根据所述待处理音频数据中所述第二特定音频数据的位置，确定所述第二特定音频数据在所述待处理音频数据中的终止位置点；以所述第二特定音频数据在所述待处理音频数据中的终止位置点，作为目标音频在所述待处理音频数据中的起始位置点；基于所述目标音频在所述待处理音频数据中的起始位置点，从所述待处理音频数据中提取得到对应于短视频的目标音频；

视频合成模块，用于根据对应于不同短视频的多个目标音频和录制得到的多段短视频，合成完整视频。

12.如权利要求11所述的装置，其特征在于，所述视频合成模块包括：

合成单元，用于将对应于不同短视频的多个目标音频合成为背景音乐，并将录制得到的多段短视频合成为所述完整视频；

添加单元，用于将所述背景音乐添加至所述完整视频。

13.一种电子设备，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至8中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。