CN112687247B

CN112687247B - 音频对齐方法、装置、电子设备及存储介质

Info

Publication number: CN112687247B
Application number: CN202110096187.XA
Authority: CN
Inventors: 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2023-08-08
Anticipated expiration: 2041-01-25
Also published as: CN112687247A

Abstract

本公开关于一种音频对齐方法、装置、电子设备及存储介质。所述音频对齐方法可包括：获取伴奏信号以及采集的包含外放伴奏的歌声信号；估计所述伴奏信号与所述歌声信号中的外放伴奏之间每个时刻的延迟；根据估计的每个时刻的延迟对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。

Description

音频对齐方法、装置、电子设备及存储介质

技术领域

本公开涉及信号处理领域，尤其涉及一种用于音频对齐的方法、装置、电子设备及存储介质。

背景技术

随着互联网和智能设备技术的提升，各种智能设备(如手机、电脑等)上音频录制软件(例如，K歌软件)的使用已经非常普及。在使用智能设备中的音频录制软件进行歌曲录制时，由于系统设备的系统延迟，播放的伴奏到达扬声器的激励存在一定的延迟，且该延迟会发生变化和抖动，唱歌者根据扬声器实际播放的伴奏进行歌唱，而这会出现伴奏与歌声出现明显错位或不对齐的现象，而这种错位或不对齐将非常影响后续录制的歌曲质量。

发明内容

本公开提供一种用于音频对齐的方法、装置、电子设备及存储介质，以至少解决由于延迟而导致歌声与伴奏错位或不对齐的问题。

根据本公开实施例的第一方面，提供了一种用于音频对齐的方法，所述方法包括：获取伴奏信号以及采集的包含外放伴奏的歌声信号；估计所述伴奏信号与所述歌声信号中的外放伴奏之间每个时刻的延迟；根据估计的每个时刻的延迟对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。

可选地，所述估计所述伴奏信号与所述歌声信号中的外放伴奏之间每个时刻的延迟，包括：对所述伴奏信号和所述歌声信号分别进行短时傅里叶变换，以获得与所述伴奏信号对应的第一频域音频信号和与所述歌声信号对应的第二频域音频信号；基于第一频域音频信号和第二频域音频信号，估计第一频域音频信号与第二频域音频信号中与所述外放伴奏对应的频域信号分量之间每个时刻的延迟帧数。

可选地，所述根据估计的每个时刻的延迟对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐，包括：将所述每个时刻的延迟帧数与所述每个时刻之前的连续多个时刻的延迟帧数构成预定长度的延迟序列，作为与所述每个时刻对应的延迟序列；通过对与所述每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，并将所述置信度最高的延迟帧数作为所述每个时刻的最终延迟帧数；根据所述每个时刻的最终延迟帧数对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。

可选地，所述通过对与所述每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，包括：基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息对与所述每个时刻对应的延迟序列进行置信度判断，来确定延迟序列中置信度最高的延迟帧数。

可选地，所述基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息对与所述每个时刻对应的延迟序列进行置信度判断，来确定延迟序列中置信度最高的延迟帧数，包括：基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息，确定与延迟序列中的各个时刻对应的歌声信号是否存在歌声；根据确定结果以及延迟序列，获得与延迟序列对应的统计直方图；将与统计直方图中的最大值对应的延迟帧数作为所述置信度最高的延迟帧数。

可选地，所述根据所述每个时刻的最终延迟帧数对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐，包括：根据预定的最大容忍延迟帧数确定所述每个时刻的时域延迟样点数；基于所述每个时刻的时域延迟样点数，对所述歌声信号进行调整；对调整后的歌声信号进行平滑处理。

可选地，所述根据预定的最大容忍延迟帧数确定所述每个时刻的时域延迟样点数，包括：响应于所述每个时刻的前一时刻的最终延迟帧数小于或等于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之和并且大于或等于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之差，依据所述前一时刻的最终延迟帧数确定所述每个时刻的时域延迟样点数；响应于述每个时刻的前一时刻的最终延迟帧数小于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之差并且大于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之和，依据所述每个时刻的最终延迟帧数确定所述每个时刻的时域延迟样点数。

可选地，所述方法还包括：将对齐的所述歌声信号和所述伴奏信号进行混音处理，得到混合后的歌曲信号。

根据本公开实施例的第二方面，提供了一种用于音频对齐的装置，所述装置包括：信号获取单元，被配置为获取伴奏信号以及采集的包含外放伴奏的歌声信号；延迟估计单元，被配置为估计所述伴奏信号与所述歌声信号中的外放伴奏之间每个时刻的延迟；调整单元，被配置为根据估计的每个时刻的延迟对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。

可选低，所述估计所述伴奏信号与所述歌声信号中的外放伴奏之间每个时刻的延迟，包括：对所述伴奏信号和所述歌声信号分别进行短时傅里叶变换，以获得与所述伴奏信号对应的第一频域音频信号和与所述歌声信号对应的第二频域音频信号；基于第一频域音频信号和第二频域音频信号，估计第一频域音频信号与第二频域音频信号中与所述外放伴奏对应的频域信号分量之间每个时刻的延迟帧数。

可选地，所述装置还包括：混音单元，被配置为将对齐的所述歌声信号和所述伴奏信号进行混音处理，得到混合后的歌曲信号。

根据本公开实施例的第三方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的方法。

根据本公开实施例的第四方面，提供了一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现如上所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：本公开的实施例通过估计伴奏信号与歌声信号中的外放伴奏之间每个时刻的延迟，并根据估计的每个时刻的延迟对所述歌声信号进行调整，可以使所述歌声信号与所述伴奏信号实时对齐。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的示例实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开的示例性实施例可以应用于其中的示例性系统架构；

图2是本公开的示例性实施例的用于音频对齐的方法的流程图；

图3是示出本公开的示例性实施例的用于音频对齐的方法的示意图；

图4是本公开的示例性实施例的用于音频对齐的装置的框图；

图5是根据本公开示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出了本公开的示例性实施例可以应用于其中的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如音视频数据上传请求、音视频数据获取请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如唱歌类应用、音视频录制软件、音视频播放器、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频播放和录制的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103可以安装有图像采集装置(例如摄像头)，以采集视频数据。实践中，组成视频的最小视觉单位是帧(Frame)。每一帧是一幅静态的图像。将时间上连续的帧序列合成到一起便形成动态视频。此外，终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音，并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如，麦克风)以采集声音。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以对所接收到的音视频数据上传请求等数据进行解析、存储等处理，并且还可以接收终端设备101、102、103所发送的音视频数据获取请求，并将该音视频数据获取请求所指示的音视频数据反馈至终端设备101、102、103。此外，服务器105可响应于用户的查询请求(例如，歌曲查询请求)，将与查询请求对应的信息(例如，歌曲信息)反馈至终端设备101、102、103。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的用于音频对齐的方法一般由终端设备101、102、103执行，相应地，用于音频对齐的装置一般设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。

如本公开背景技术所言，由于系统延迟，唱歌者根据扬声器实际播放的伴奏进行歌唱时，会出现伴奏与歌声出现明显错位或不对齐的现象。目前，针对这种现象，多采用以下两种方式进行歌声和伴奏的对齐。一种方式是在录制完歌曲后，在软件界面中显示一个对齐歌声和伴奏的时间滑块，让录制者能够对错位的歌声进行调整，然而，这种方式需要用户手动操作，不仅不方便，而且难以做到精确，另外当该错位时间在整首歌曲中发生变化时，这种方式难以支持不同时间段错位时间的对齐，且实时性极低。另一种方式是基于歌声音调和MIDI乐谱的对齐，对比歌声信号的音调和乐谱的相关性，找到对齐的时间点。然而，这种方式需要依赖准确的音调检测，此时需要歌声信号信噪比高，不受噪声干扰，这在用户使用设备外放进行唱歌的场景难以做到，歌声信号会受到伴奏音乐的干扰，音调难以检测准确，另外这种方式需要依赖较多的歌声和乐谱信息的相关性实现高鲁棒性，因而实时性较低。

本公开提出了一种在外放伴奏的情况下高鲁棒性地进行歌声和伴奏的自动对齐方案，能够在外放有伴奏的情况下跟进变化的延迟，根据延迟对歌声信号和伴奏信号进行实时对齐。

下面，将参照附图对本公开的构思进行详细说明。

图2是本公开的示例性实施例的用于音频对齐的方法(在下文中，为描述方便，将其简称为“音频对齐方法”)的流程图。

在步骤S201，获取伴奏信号以及采集的包含外放伴奏的歌声信号。例如，可从存储器读取伴奏信号，并且可通过扬声器采集包含外放伴奏的歌声信号。

在步骤S202，可估计所述伴奏信号与所述歌声信号中的外放伴奏之间每个时刻的延迟。例如，在步骤S202，可首先对所述伴奏信号和所述歌声信号分别进行短时傅里叶变换，以获得与所述伴奏信号对应的第一频域音频信号和与所述歌声信号对应的第二频域音频信号；然后，可基于第一频域音频信号和第二频域音频信号，估计第一频域音频信号与第二频域音频信号中与所述外放伴奏对应的频域信号分量之间每个时刻的延迟帧数。

具体地，将伴奏信号和含有外放伴奏的歌声信号进行短时傅里叶变换(STFT)可被表示为：

BGM(n)＝STFT(bgm(t))

VOCAL(n)＝STFT(vocal(t))

其中，bgm(t)和vocal(t)分别为伴奏信号和含有外放伴奏的歌声信号的时域音频信号，BGM(n)和VOCAL(n)分别为与伴奏信号对应的第一频域音频信号和与含有外放伴奏的歌声信号对应的第二频域音频信号，n为帧序列编号，0＜n≤N，N为总帧数。由于本公开在各个频段的处理均相同，因此频域信号中不体现指示频带信息的符号。另外，vocal(t)和VOCAL(n)信号分别有以下组成：

vocal(t)＝cleanVocal(t)+spkBgm(t)

VOCAL(n)＝CLEANVOCAL(n)+SPKBGM(n)

其中，cleanVocal(t)和spkBgm(t)分别为纯净的歌声和外放的伴奏时域音频信号，CLEANVOCAL(n)和SPKBGM(n)分别为与纯净的歌声对应的频域信号分量和与外放伴奏对应的频域信号分量。

在获得第一频域音频信号BGM(n)和第二频域音频信号VOCAL(n)之后，可基于BGM(n)和VOCAL(n)，估计VOCAL(n)中SPKBGM(n)信号分量与BGM(n)的延迟。例如，可基于相关性的延迟估计方式、基于频谱能量相似性的延迟估计方式等，估计VOCAL(n)中SPKBGM(n)信号分量与BGM(n)之间第n时刻的估计的延迟delayRaw(n)，其表示BGM(n)和VOCAL(n)信号之间第n时刻的延迟帧数。

接下来，在步骤S203，根据估计的每个时刻的延迟对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。根据示例性实施例，在步骤S203，首先，可将所述每个时刻的延迟帧数与所述每个时刻之前的连续多个时刻的延迟帧数构成预定长度的延迟序列，作为与所述每个时刻对应的延迟序列。例如，将以上得到的delayRaw(n)组成n-M+1时刻至n时刻的长度为M的延迟序列：

delayRawVec(n)

＝[delayRaw(n-M+1)，delayRaw(n-M+2)，...，delayRaw(n-1)，delayRaw(n)]

其次，可通过对与所述每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，并将所述置信度最高的延迟帧数作为所述每个时刻的最终延迟帧数。由于延迟估计可能存在误检测，因此，这里对估计的延迟序列进行置信度判断，通过置信度判断来确定置信度最高的延迟帧数可进一步提高延迟估计的准确性。

具体而言，例如，可基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息对与所述每个时刻对应的延迟序列进行置信度判断，来确定延迟序列中置信度最高的延迟帧数。作为示例，可首先基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息，确定与延迟序列中的各个时刻对应的歌声信号是否存在歌声；然后，根据确定结果以及延迟序列，获得与延迟序列对应的统计直方图；最后，将与统计直方图中的最大值对应的延迟帧数作为所述置信度最高的延迟帧数。

具体地，可从MIDI信息(也可以是有时间标注的歌词信息，例如，歌词文件)中解析出当前以上序列中对应各个时刻的信号是否存在歌声。是否存在歌声例如可以用lyrics(n)标记，若存在歌声，lyrics(n)＝1，若不存在歌声，lyrics(n)＝0，结合该标记对delayRawVec(n)序列统计直方图，统计方法例如可以如下：

首先初始化直方图delayMap[L]＝{0}，其中L为可能出现的延迟最大值，*[L]表示有L个元素的序列；然后遍历delayRawVec(n)，统计直方图：

其中，i＝{n-M+1，n-M+2，...，n-1，n}，delayMap(*)代表直方图delayMap[L]中的第*个元素，该操作的基本含义为对存在歌声的时间段使用低权重统计，对不存在歌声的时间段使用高权重统计，从而避免歌声成分CLEANVOCAL(n)对延迟估计得干扰。

需要说明的是，以上仅示出了一种直方图统计方式的示例，然而，本公开的直方图统计方式不限于此。例如，在lyrics(n)＝0和lyrics(n)＝1时，delayMap(delayRaw(i))所加的数值不限于分别是10和1，而是可以是其他数值，只要lyrics(n)＝0时所加数值大于lyrics(n)＝1时所加数值即可。此外，delayMap(delayRaw(i))的计算方式也不限于以上相加的方式，而是还可以是其他方式，例如，在lyrics(n)＝0和lyrics(n)＝1时分别使delayMap(delayRaw(i))乘以不同的数值，并且lyrics(n)＝0时所乘数值大于lyrics(n)＝1时所乘数值。

最终，取直方图中最大值对应的延迟帧数作为置信度最高的延迟帧数(即，每个时刻的最终延迟帧数)，即，

delayFinal(n)＝max(delayMap[L])

其中，max(delayMap[L])为delayMap[L]中最大值对应的延迟帧数。

最后，可根据所述每个时刻的最终延迟帧数对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。具体而言，例如，首先，可根据预定的最大容忍延迟帧数确定所述每个时刻的时域延迟样点数。根据示例性实施例，可响应于所述每个时刻的前一时刻的最终延迟帧数小于或等于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之和并且大于或等于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之差，依据所述前一时刻的最终延迟帧数确定所述每个时刻的时域延迟样点数；响应于述每个时刻的前一时刻的最终延迟帧数小于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之差并且大于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之和，依据所述每个时刻的最终延迟帧数确定所述每个时刻的时域延迟样点数。

例如，若delayFinal(n-1)≤delayFinal(n)+tolerance且delayFinal(n-1)≥delayFinal(n)-tolerance，(其中，tolerance为设置的最大容忍延迟帧数，例如，可以是30毫秒音频对应的帧数)，则依据前一时刻(即，第n-1时刻)的最终延迟帧数delayFinal(n-1)确定第n时刻的延迟点数delaySamples(n)，例如，delaySamples(n)＝framelen*delayFinal(n-1)，其中framelen为一帧数据对应的样点数；

若delayFinal(n-1)＜delayFinal(n)-tolerance或delayFinal(n-1＞delayFinaln+tolerance，则依据第n时刻的最终延迟帧数确定第n时刻的时域延迟样点数delaySamples(n)，例如，时域延迟点delaySamples(n)＝framelen*delayFinal(n)。

其次，基于每个时刻的时域延迟样点数，对所述歌声信号进行调整。例如，vocalOut(t-delaySamples(n))＝vocal(t)，其中，vocalOut(t-delaySamplesn为调整后的歌声信号。

最后，对调整后的歌声信号进行平滑处理。由于根据延迟调整后的信号可能出现重叠或断裂，因此可对调整后的歌声信号进行平滑处理，从而使信号有更好的连贯性。

可选地，图2所示的方法还可包括：将对齐的所述歌声信号和所述伴奏信号进行混音处理，得到混合后的歌曲信号(未示出)。例如，将以上调整后的歌声信号vocalOut(t)和原始的伴奏信号bgm(t)进行混音得到最终的歌曲信号：

music(t)＝limitation(bgm(t)+vocalOut(t))

其中，limitation(*)表示对信号进行幅度控制，防止出现截波失真。按照以上方式可获得更高质量的歌曲。

以上已经参照图2描述了根据本公开示例性实施例的音频对齐方法。根据上述音频对齐方法，能够在外放有伴奏的情况下估计每个时刻的延迟，并根据估计的延迟对歌声信号和伴奏信号进行实时自动对齐。

为便于更直观地理解本公开示例性实施例的音频对齐方法，下面再结合图3简要描述本公开示例性实施例的音频对齐方法。

图3是示出本公开的示例性实施例的用于音频对齐的方法的示意图。如图3所示，可首先获取伴奏信号和采集的包含外放伴奏的歌声信号，然后，执行延迟估计来估计伴奏信号与歌声信号中的外放伴奏之间每个时刻的延迟，在此基础上，可获得估计的与每个时刻对应的延迟序列。随后，可通过对与每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，作为最终的延迟结果。例如，可基于MIDI信息对与每个时刻对应的延迟序列进行置信度判断，来确定延迟序列中置信度最高的延迟帧数。接下来，可根据每个时刻的最终延迟帧数对所述歌声信号进行调整以使歌声信号与伴奏信号对齐。最后，可将对齐的歌声信号和伴奏信号进行混音处理，得到完整的歌曲信号。根据图3所示的音频对齐方法，可获得更高质量的歌曲。

图4是本公开的示例性实施例的用于音频对齐的装置(以下，为描述方便，将其简称为“音频对齐装置”)的框图；

参照图4，音频对齐装置400可包括信号获取单元401、延迟估计单元402和调整单元403。具体而言，信号获取单元401可被配置为获取伴奏信号以及采集的包含外放伴奏的歌声信号。延迟估计单元402可被配置为估计所述伴奏信号与所述歌声信号中的外放伴奏之间每个时刻的延迟。调整单元403可被配置为根据估计的每个时刻的延迟对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。可选地，音频对齐装置400还可包括混音单元(未示出)，混音单元可被配置为将对齐的所述歌声信号和所述伴奏信号进行混音处理，得到混合后的歌曲信号。

由于图2所示的音频对齐方法可由图4所示的音频对齐装置400来执行，并且信号获取单元401、延迟估计单元402和调整单元403可分别执行与图2中的步骤S201、步骤S202和步骤S203对应的操作，因此，关于图4中的各单元所执行的操作中涉及的任何相关细节均可参见关于图2的相应描述，这里都不再赘述。

此外，需要说明的是，尽管以上在描述音频对齐装置400时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，上述各单元执行的处理也可以在音频对齐装置400不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，音频对齐装置400还可包括通信单元(未示出)、音频播放单元(未示出)、处理单元(未示出)和存储单元(未示出)，等等。

图5是根据本公开实施例的电子设备500的框图。参照图5，电子设备500可包括至少一个存储器501和至少一个处理器502，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的音频对齐方法。

作为示例，电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开示例性实施例的音频对齐方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现根据本公开示例性实施例的音频对齐方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用于音频对齐的方法，其特征在于，包括：

获取伴奏信号以及采集的包含外放伴奏的歌声信号；

对所述伴奏信号和所述歌声信号分别进行短时傅里叶变换，以获得与所述伴奏信号对应的第一频域音频信号和与所述歌声信号对应的第二频域音频信号；

基于第一频域音频信号和第二频域音频信号，估计第一频域音频信号与第二频域音频信号中与所述外放伴奏对应的频域信号分量之间每个时刻的延迟帧数；

将所述每个时刻的延迟帧数与所述每个时刻之前的连续多个时刻的延迟帧数构成预定长度的延迟序列，作为与所述每个时刻对应的延迟序列；

通过对与所述每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，并将所述置信度最高的延迟帧数作为所述每个时刻的最终延迟帧数；

根据所述每个时刻的最终延迟帧数对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。

2.如权利要求1所述的方法，其特征在于，所述通过对与所述每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，包括：

基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息对与所述每个时刻对应的延迟序列进行置信度判断，来确定延迟序列中置信度最高的延迟帧数。

3.如权利要求2所述的方法，其特征在于，所述基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息对与所述每个时刻对应的延迟序列进行置信度判断，来确定延迟序列中置信度最高的延迟帧数，包括：

基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息，确定与延迟序列中的各个时刻对应的歌声信号是否存在歌声；

根据确定结果以及延迟序列，获得与延迟序列对应的统计直方图；

将与统计直方图中的最大值对应的延迟帧数作为所述置信度最高的延迟帧数。

4.如权利要求1所述的方法，其特征在于，所述根据所述每个时刻的最终延迟帧数对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐，包括：

根据预定的最大容忍延迟帧数确定所述每个时刻的时域延迟样点数；

基于所述每个时刻的时域延迟样点数，对所述歌声信号进行调整；

对调整后的歌声信号进行平滑处理。

5.如权利要求4所述的方法，其特征在于，所述根据预定的最大容忍延迟帧数确定所述每个时刻的时域延迟样点数，包括：

响应于所述每个时刻的前一时刻的最终延迟帧数小于或等于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之和并且大于或等于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之差，依据所述前一时刻的最终延迟帧数确定所述每个时刻的时域延迟样点数；

响应于述每个时刻的前一时刻的最终延迟帧数小于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之差并且大于所述每个时刻的最终延迟帧数与所述最大容忍延迟帧数之和，依据所述每个时刻的最终延迟帧数确定所述每个时刻的时域延迟样点数。

6.如权利要求1所述的方法，还包括：将对齐的所述歌声信号和所述伴奏信号进行混音处理，得到混合后的歌曲信号。

7.一种用于音频对齐的装置，其特征在于，包括：

信号获取单元，被配置为获取伴奏信号以及采集的包含外放伴奏的歌声信号；

延迟估计单元，被配置为：对所述伴奏信号和所述歌声信号分别进行短时傅里叶变换，以获得与所述伴奏信号对应的第一频域音频信号和与所述歌声信号对应的第二频域音频信号；基于第一频域音频信号和第二频域音频信号，估计第一频域音频信号与第二频域音频信号中与所述外放伴奏对应的频域信号分量之间每个时刻的延迟帧数；

调整单元，被配置为：将所述每个时刻的延迟帧数与所述每个时刻之前的连续多个时刻的延迟帧数构成预定长度的延迟序列，作为与所述每个时刻对应的延迟序列；通过对与所述每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，并将所述置信度最高的延迟帧数作为所述每个时刻的最终延迟帧数；根据所述每个时刻的最终延迟帧数对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐。

8.如权利要求7所述的装置，其特征在于，所述通过对与所述每个时刻对应的延迟序列进行置信度判断来确定延迟序列中置信度最高的延迟帧数，包括：

9.如权利要求8所述的装置，其特征在于，所述基于与所述歌声信号对应的乐器数字接口MIDI信息或具有时间标注的歌词信息对与所述每个时刻对应的延迟序列进行置信度判断，来确定延迟序列中置信度最高的延迟帧数，包括：

10.如权利要求7所述的装置，其特征在于，所述根据所述每个时刻的最终延迟帧数对所述歌声信号进行调整以使所述歌声信号与所述伴奏信号对齐，包括：

对调整后的歌声信号进行平滑处理。

11.如权利要求10所述的装置，其特征在于，所述根据预定的最大容忍延迟帧数确定所述每个时刻的时域延迟样点数，包括：

12.如权利要求7所述的装置，还包括：混音单元，被配置为将对齐的所述歌声信号和所述伴奏信号进行混音处理，得到混合后的歌曲信号。

13.一种电子设备，其特征在于，包括:

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的方法。

14.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的方法。