CN112927666B

CN112927666B - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN112927666B
Application number: CN202110110917.7A
Authority: CN
Inventors: 邢文浩; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2023-11-28
Anticipated expiration: 2041-01-26
Also published as: WO2022160669A1; CN112927666A

Abstract

本公开关于一种音频处理方法、装置、电子设备及存储介质。所述音频处理方法可包括：接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻；根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐，其中，第二用户的背景音频与第一用户的背景音频相同。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及信号处理领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

现在，线上KTV合唱变得越来越流行。线上KTV合唱指的是两个人(例如，A和B)选取同一首歌曲进进行合唱，这时A和B都能听到彼此的歌声以及自己的伴奏，像在线下KTV合唱一样。

然而，由于网络传输存在延迟，例如，A唱完一句后，实际上是经过了一段时间B才能听到的，这时B会觉得A唱的歌声和B自己本地播放的伴奏是对不上的(A的歌声晚于B自己的伴奏)，从而影响合唱体验。

发明内容

本公开提供一种音频处理方法、装置、电子设备及存储介质，以至少解决在合唱过程中由于传输延迟导致对方歌声落后于本地伴奏而无法和本地伴奏对齐的问题。

根据本公开实施例的第一方面，提供了一种音频处理方法，所述音频处理方法包括：接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻；根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐，其中，第二用户的背景音频与第一用户的背景音频相同。

可选地，所述背景音频播放时刻是通过将第一用户的背景音频的当前播放时刻减去由于音频采集而导致的时间延迟而获得的。

可选地，所述根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，包括：确定在接收到第一用户的音频片段时第二用户的背景音频播放位置；在所述背景音频播放位置处于从第二用户演唱结束到第一用户开始演唱的时间区间内或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间内的情况下，将所述背景音频播放位置调整为与接收到的所述背景音频播放时刻对应。

可选地，所述根据所述背景音频播放时刻调整第二用户的背景音频的播放，包括：确定第二用户的背景音频在从第二用户演唱结束到第一用户开始演唱的时间区间或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间中音频平均能量最小的子区间；在所述子区间根据所述背景音频播放时刻调整第二用户的背景音频的播放位置。

可选地，所述在所述子区间根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，包括：确定在接收到第一用户的音频片段时第二用户的背景音频播放位置；在所述背景音频播放位置处于所述子区间时，将所述背景音频播放位置调整为与接收到的所述背景音频播放时刻对应。

可选地，所述确定第二用户的背景音频在从第二用户演唱结束到第一用户开始演唱的时间区间或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间中音频平均能量最小的子区间，包括：按照以下公式计算所述时间区间中的每个子区间的音频平均能量，并根据计算出的各自区间的音频平均能量确定频平均能量最小的子区间：

其中，E(ab)为子区间ab的平均能量，TSb为截止到b时刻的采样点个数，TSa为截止到a时刻的采样点个数，TSb-TSa为区间ab之间的采样点个数，S(i)为第i个采样点的幅值。

可选地，所述音频处理方法还包括：向第一用户发送演唱时采集的第二用户的音频片段以及第二用户的背景音频的与第二用户的音频片段对应的背景音频播放时刻。

可选地，所述音频处理方法还包括：在接收所述音频片段和所述背景音频播放时刻之前，与第一用户建立通信连接；播放所述背景音频，并且播放接收到的第一用户的音频片段。

可选地，所述接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻，包括：按照预定时间间隔接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻。

根据本公开实施例的第二方面，提供了一种音频处理装置，所述音频处理装置包括：接收单元，被配置为接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻；调整单元，被配置为根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐，其中，第二用户的背景音频与第一用户的背景音频相同。

可选地，所述根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，包括：

确定在接收到第一用户的音频片段时第二用户的背景音频播放位置；

在所述背景音频播放位置处于从第二用户演唱结束到第一用户开始演唱的时间区间内或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间内的情况下，将所述背景音频播放位置调整为与接收到的所述背景音频播放时刻对应。

可选地，所述音频处理装置还包括：发送单元，被配置为向第一用户发送演唱时采集的第二用户的音频片段以及第二用户的背景音频的与第二用户的音频片段对应的背景音频播放时刻。

可选地，所述音频处理装置还包括：通信单元，在接收所述音频片段和所述背景音频播放时刻之前，与第一用户建立通信连接；音频播放单元，被配置为播放所述背景音频，并且播放接收到的第一用户的音频片段。

可选地，接收单元按照预定时间间隔接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻。

根据本公开实施例的第三方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。

根据本公开实施例的第四方面，提供了一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：本公开的实施例通过根据第一用户的背景音频的与其音频片段对应的背景音频播放时刻来调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐，可以避免由于传输延迟导致第一用户的音频片段和本地第二用户的背景音频对不齐而影响合唱体验。此外，本公开的实施例还可以在调整第二用户的背景音频的播放位置时降低对听感的影响。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的示例实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开的示例性实施例可以应用于其中的示例性系统架构；

图2是本公开的示例性实施例的音频处理方法的流程图；

图3是示出本公开的示例性实施例的获取与音频片段对应的背景音频播放时刻的示意图；

图4是本公开的示例性实施例的调整背景音频的播放位置的示意图；

图5是本公开的示例性实施例的音频处理方法的应用场景的示意图；

图6是本公开的示例性实施例的音频处理装置的框图；

图7是根据本公开示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出了本公开的示例性实施例可以应用于其中的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如音视频数据上传请求、音视频数据获取请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如唱歌类应用、音视频录制软件、音视频播放器、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频播放和录制的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103可以安装有图像采集装置(例如摄像头)，以采集视频数据。实践中，组成视频的最小视觉单位是帧(Frame)。每一帧是一幅静态的图像。将时间上连续的帧序列合成到一起便形成动态视频。此外，终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音，并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如，麦克风)以采集声音。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以对所接收到的音视频数据上传请求等数据进行解析、存储等处理，并且还可以接收终端设备101、102、103所发送的音视频数据获取请求，并将该音视频数据获取请求所指示的音视频数据反馈至终端设备101、102、103。此外，服务器105可响应于用户的查询请求(例如，歌曲查询请求)，将与查询请求对应的信息(例如，歌曲信息)反馈至终端设备101、102、103。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的音频处理方法一般由终端设备101、102、103执行，相应地，音频处理装置一般设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。

图2是本公开的示例性实施例的音频处理方法的流程图。

在步骤S201，接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻。这里，背景音频可以是用户演唱歌曲时的背景音乐或伴奏。第一用户的背景音频是第一用户演唱时播放的背景音频。作为示例，可按照预定时间间隔接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻。所述预定时间间隔可以是用户预先定义的时间间隔，例如20ms，但不限于此。

根据示例性实施例，上述与音频片段对应的背景音频播放时刻(在下文中，可被表示为T1)是通过将第一用户的背景音频的当前播放时刻减去由于音频采集而导致的时间延迟而获得的。图3是示出本公开的示例性实施例的获取与音频片段对应的背景音频播放时刻的示意图。如图3所示，在背景音频被播放后用户随着背景音频演唱时，可获取用户本地播放的背景音频的当前播放时刻(可被表示为T0)。然而，由于音频采集而导致的时间延迟(即，声音(如用户的歌声)从发出到被采集设备(如麦克风)采集到之间的时间差，可被表示为Tr)，使得与采集设备采集的用户的音频片段对应的背景音频的播放时刻并不是T0，而是在T0之前的一个时刻，具体地为T0-Tr。

在步骤S202，可根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐。这里，第二用户的背景音频与第一用户的背景音频相同。这里，第二用户的背景音频表示第二用户的本地播放的背景音频。第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐表示第二用户本地播放的背景音频与接收到的第一用户的音频片段之间没有偏差，简言之，例如，第一用户的歌声听起来与第二用户的本地播放的伴奏相契合。此外，之所以进行背景音频播放位置的调整是因为，第一用户的音频片段在传输到第二用户的用户设备时会存在传输延迟。

作为示例，在步骤S202，可首先确定在接收到第一用户的音频片段时第二用户的背景音频播放位置，随后，在所述背景音频播放位置处于从第二用户演唱结束到第一用户开始演唱的时间区间内或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间内的情况下，将所述背景音频播放位置调整为与接收到的所述背景音频播放时刻对应。

图4是本公开的示例性实施例的调整背景音频的播放位置的示意图。如本公开背景技术所述，由于传输延迟，A唱完一句后，实际上是经过了一段时间B才能听到的，这时B会觉得A唱的歌声和B自己本地播放的伴奏是对不上的(A的歌声晚于B自己的伴奏)。例如，B收到A唱的T1时刻的歌声时，自己本地播放的背景音频已经播放到了T2时刻，其中，T2等于T1+传输延迟Td。在这种情况下，可以根据T1调整B本地播放的背景音频的播放位置，具体地，如图4所示，可将B将自己的伴奏从T2时刻回退到T1时刻开始播放，便可以和A唱的歌声对齐。但是回退操作会使用户听起来音乐发生了倒退，影响听感。在上述示例中，通过在所述背景音频播放位置处于从第二用户演唱结束到第一用户开始演唱的时间区间内或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间内的情况下调整所述背景音频播放位置，可以降低因音频播放位置的调整对用户听感所造成的影响。然而，在本公开中，也可在其他时间区间进行第二用户的背景音频播放位置的调整。

作为另一示例，在步骤S202，可首先确定第二用户的背景音频在从第二用户演唱结束到第一用户开始演唱的时间区间或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间中音频平均能量最小的子区间，然后，在所述子区间根据所述背景音频播放时刻调整第二用户的背景音频的播放位置。由于在音频平均能量最小的子区间进行第二用户的背景音频的播放位置的调整，因此，可最大化地降低因音频播放位置的调整对用户听感所造成的影响。具体地，可以首先确定在接收到第一用户的音频片段时第二用户的背景音频播放位置，然后，在所述背景音频播放位置处于上述子区间时，将所述背景音频播放位置调整为与接收到的所述背景音频播放时刻对应。

根据示例性实施例，可按照以下公式计算所述时间区间中的每个子区间的音频平均能量，并根据计算出的各自区间的音频平均能量确定频平均能量最小的子区间：

此外，根据示例性实施例，在接收音频片段和背景音频播放时刻之前，可与第一用户建立通信连接，并且可播放背景音频，并且播放接收到的第一用户的音频片段。例如，在K歌实时合唱时，第一用户和第二用户可首先进行连麦，然后选择演唱歌曲后，两者同时开始播放相同的背景音乐。

在上述方法中，描述了第二用户可以在接收到第一用户的音频片段时调整第二用户本地播放的背景音频的播放位置。然而，事实上，在合唱时，为了使第一用户听到的第二用户的音频片段也能与第一用户本地播放的背景音频对齐，也可将第二用户的音频片段和与第二用户的音频片段对应的背景音频播放时刻发送给第一用户，以便于第一用户根据接收到的背景音频播放时刻调整第一用户的背景音频的播放位置，以使第一用户的调整后的背景音频与接收到的第二用户的音频片段对齐。因此，根据示例性实施例，图2所述的音频处理方法还可包括：向第一用户发送演唱时采集的第二用户的音频片段以及第二用户的背景音频的与第二用户的音频片段对应的背景音频播放时刻。作为示例，可按照预定时间间隔向第一用户发送演唱时采集的第二用户的音频片段以及第二用户的背景音频的与第二用户的音频片段对应的背景音频播放时刻。这里，发送第二用户的音频片段的时间间隔可以与接收第一用户的音频片段的时间间隔相同或不同。

以上已经参照图2至图4描述了根据本公开示例性实施例的音频处理方法，根据上述音频处理方法，可以避免由于传输延迟而导致对方发送的音频片段和本地背景音频出现偏差。此外，本公开的实施例还可以在调整背景音频的播放位置时降低对听感的影响。

为了便于理解上述音频处理方法，下面简要描述音频处理方法的示例性应用场景。图5是本公开的示例性实施例的音频处理方法的应用场景的示意图。图5示出线上KTV场景中第一用户和第二用户进行K歌合唱时两个用户共同演唱一首曲目“桥边姑娘”。在演唱过程中，第一用户(A)和第二用户(B)的设备上可以显示与背景音乐对应的歌词，并且歌词文件里标注每一句是A唱还是B唱，A和B轮流唱标注的自己的句子。根据上述音频处理方法，例如，B收到A发来的歌声时，如果是B到A的切换(B已唱完，A开始唱)，或者A唱的是歌曲的第一句，这时B需要根据从A接收的背景音频播放时刻T1来进行回退操作(即，以上参照图2至图4描述的调整背景音频的播放位置的操作)，使得从T1位置开始播放背景音乐。在图5的示例场景中，例如，可以在对方唱“暖阳下我迎芬芳”之前根据从对方接收的背景音频播放时刻T1进行回退操作。

图6是本公开的示例性实施例的音频处理装置的框图；

参照图6，音频处理装置600可包括接收单元601和调整单元602。具体而言，接收单元601可被配置为接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻。调整单元602可被配置为根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐。这里，第二用户的背景音频与第一用户的背景音频相同。可选地，音频处理装置600还可包括发送单元(未示出)，发送单元可向第一用户发送演唱时采集的第二用户的音频片段以及第二用户的背景音频的与第二用户的音频片段对应的背景音频播放时刻。可选地，音频处理装置600还可包括通信单元(未示出)和音频播放单元(未示出)。通信单元可在接收所述音频片段和所述背景音频播放时刻之前，与第一用户建立通信连接。音频播放单元可播放所述背景音频，并且播放接收到的第一用户的音频片段。此外，音频播放单元也可播放采集到的第二用户的音频。

由于图2所示的音频处理方法可由图6所示的音频处理装置600来执行，并且接收单元601和调整单元602可分别执行与图2中的步骤201和步骤202对应的操作，因此，关于图6中的各单元所执行的操作中涉及的任何相关细节均可参见关于图2的相应描述，这里都不再赘述。

此外，需要说明的是，尽管以上在描述音频处理装置600时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，上述各单元执行的处理也可以在音频处理装置600不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，音频处理装置500还可包括其他单元，例如，存储单元。

图7是根据本公开实施例的电子设备700的框图。参照图7，电子设备700可包括至少一个存储器701和至少一个处理器702，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的音频处理方法。

作为示例，电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开示例性实施例的音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现根据本公开示例性实施例的音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻；

根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐，其中，第二用户的背景音频与第一用户的背景音频相同，

其中，所述根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，包括：

确定第二用户的背景音频在从第二用户演唱结束到第一用户开始演唱的时间区间或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间中音频平均能量最小的子区间；

在所述子区间根据所述背景音频播放时刻调整第二用户的背景音频的播放位置。

2.如权利要求1所述的音频处理方法，其特征在于，所述背景音频播放时刻是通过将第一用户的背景音频的当前播放时刻减去由于音频采集而导致的时间延迟而获得的。

3.如权利要求1所述的音频处理方法，其特征在于，所述在所述子区间根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，包括：

在所述背景音频播放位置处于所述子区间时，将所述背景音频播放位置调整为与接收到的所述背景音频播放时刻对应。

4.如权利要求1所述的音频处理方法，其中，所述确定第二用户的背景音频在从第二用户演唱结束到第一用户开始演唱的时间区间或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间中音频平均能量最小的子区间，包括：

按照以下公式计算所述时间区间中的每个子区间的音频平均能量，并根据计算出的各自区间的音频平均能量确定频平均能量最小的子区间：

5.如权利要求1所述的音频处理方法，还包括：向第一用户发送演唱时采集的第二用户的音频片段以及第二用户的背景音频的与第二用户的音频片段对应的背景音频播放时刻。

6.如权利要求1所述的音频处理方法，还包括：

在接收所述音频片段和所述背景音频播放时刻之前，与第一用户建立通信连接；

播放所述背景音频，并且播放接收到的第一用户的音频片段。

7.如权利要求1所述的音频处理方法，其中，所述接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻，包括：

按照预定时间间隔接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻。

8.一种音频处理装置，其特征在于，包括：

接收单元，被配置为接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻；

调整单元，被配置为根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，以使第二用户的调整后的背景音频与接收到的第一用户的音频片段对齐，其中，第二用户的背景音频与第一用户的背景音频相同，

9.如权利要求8所述的音频处理装置，其特征在于，所述背景音频播放时刻是通过将第一用户的背景音频的当前播放时刻减去由于音频采集而导致的时间延迟而获得的。

10.如权利要求8所述的音频处理装置，其特征在于，所述在所述子区间根据所述背景音频播放时刻调整第二用户的背景音频的播放位置，包括：

11.如权利要求8所述的音频处理装置，其中，所述确定第二用户的背景音频在从第二用户演唱结束到第一用户开始演唱的时间区间或者从第二用户的背景音频开始播放到第一用户开始演唱的时间区间中音频平均能量最小的子区间，包括：

12.如权利要求8所述的音频处理装置，还包括：发送单元，被配置为向第一用户发送演唱时采集的第二用户的音频片段以及第二用户的背景音频的与第二用户的音频片段对应的背景音频播放时刻。

13.如权利要求8所述的音频处理装置，还包括：

通信单元，在接收所述音频片段和所述背景音频播放时刻之前，与第一用户建立通信连接；

音频播放单元，被配置为播放所述背景音频，并且播放接收到的第一用户的音频片段。

14.如权利要求8所述的音频处理装置，其中，接收单元按照预定时间间隔接收演唱时采集的第一用户的音频片段以及第一用户的背景音频的与所述音频片段对应的背景音频播放时刻。

15.一种电子设备，其特征在于，包括:

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的音频处理方法。

16.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的音频处理方法。