CN112017622A

CN112017622A - 一种音频数据的对齐方法、装置、设备和存储介质

Info

Publication number: CN112017622A
Application number: CN202010920844.3A
Authority: CN
Inventors: 熊佳; 周年斌
Original assignee: Guangzhou Quwan Network Technology Co Ltd
Current assignee: Guangzhou Quwan Network Technology Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-01
Anticipated expiration: 2040-09-04
Also published as: CN112017622B

Abstract

本申请公开了一种音频数据的对齐方法、装置、设备和存储介质，其中方法包括：S1、获取待对齐的原始录音数据和原始伴奏数据；S2、通过相似性检测公式，对原始录音数据和原始伴奏数据进行相似性检测，得到原始录音数据的延时采样点数；S3、将原始伴奏数据的频率和原始录音数据的频率调整一致；S4、从原始录音数据中删除延时采样点数，以实现原始录音数据和原始伴奏数据的对齐，对齐效果较好，无需用户手动调节，提升了用户体验，从而解决了现有的音频对齐效果不理想且影响用户体验的技术问题。

Description

一种音频数据的对齐方法、装置、设备和存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频数据的对齐方法、装置、设备和存储介质。

背景技术

随着互联网时代的发展，线上KTV变得流行。许多声音类的APP都有K歌场景，该场景流程为：用户选中一首歌的伴奏，播放伴奏，然后跟随伴奏唱歌，结束后人声与伴奏混音回放，保存歌曲进行发布分享。与线下的K歌场景不同，线上K歌场景对声音的处理要复杂很多，若处理不当，人声与伴奏的混音中会出现人声与伴奏不同步。

用户跟随外放的伴奏唱歌，在用户踩准节奏的情况下，由于手机系统在播放和录音时要经过D/A或A/D转换等处理，采集到的人声相对伴奏有延时。如果直接进行混音，人耳会有不同程度的感知，如果延时在30ms以内，人耳不易察觉，如果延时变大，达到50ms甚至更大，人耳能很明显地感觉到人声和伴奏不同步，这样会降低用户的声音体验。

现有混音时的人声和伴奏对齐，主要通过用户手动调节对齐的方式，对齐效果并不理想，且由用户调节的方式会影响用户体验。因此，提供一种有效对齐人声和伴奏的方法是本领域技术人员亟待解决的技术问题。

发明内容

本申请提供了一种音频数据的对齐方法、装置、设备和存储介质，解决了现有的音频对齐效果不理想且影响用户体验的技术问题。

有鉴于此，本申请第一方面提供了一种音频数据的对齐方法，包括：

S1、获取待对齐的原始录音数据和原始伴奏数据；

S2、通过相似性检测公式，对所述原始录音数据和所述原始伴奏数据进行相似性检测，得到所述原始录音数据的延时采样点数，其中，所述相似性检测公式为：

式中，Xcorrmax对应的位置即延时采样点数，Xcorr(i)为第i个波形点位置对应的相似度值，

n为用于做相似性检测的波形点的音频波形点数量，x_j为用于做相似性检测的原始录音数据的第j个波形点，y_j-i为用于做相似性检测的原始伴奏数据的第j-i个波形点，x为原始录音数据，y为原始伴奏数据，i和j分别为波形点位置；

S3、将所述原始伴奏数据的频率和所述原始录音数据的频率调整一致；

S4、从所述原始录音数据中删除所述延时采样点数，以实现所述原始录音数据和所述原始伴奏数据的对齐。

可选地，步骤S3具体包括：

将所述原始伴奏数据的频率调整至所述原始录音数据的频率。

可选地，步骤S2之前还包括：

将所述原始录音数据和所述原始伴奏数据降频至第一预置频率，并根据降频后的所述原始录音数据和所述原始伴奏数据执行后续步骤；

步骤S2之后还包括：

将所述延时采样点数升频至所述原始伴奏数据的频率，得到新延时采样点数，并通过所述新延时采样点数执行后续步骤。

可选地，将所述原始录音数据和所述原始伴奏数据降频至第一预置频率，并根据降频后的所述原始录音数据和所述原始伴奏数据执行后续步骤之前还包括：

将所述原始录音数据中歌词起点前预置长度的音频数据截取，得到第一截取音频数据，所述第一截取音频数据用于相似性检测；

将所述原始伴奏数据中歌词起点前所述预置长度的音频数据截取，得到第二截取音频数据，所述第二截取音频数据用于相似性检测。

可选地，步骤S4之前还包括：

将所述延时采样点数和预置阈值做差，得到第一中间数据；

则步骤S4具体包括：

从所述原始录音数据中删除所述第一中间数据，以实现所述原始录音数据和所述原始伴奏数据的对齐。

可选地，步骤S4之后还包括：

S5、将删除所述延时采样点数后的所述原始录音数据和所述原始伴奏数据进行混音处理。

本申请第二方面提供了一种音频数据的对齐装置，包括：

获取单元，用于获取待对齐的原始录音数据和原始伴奏数据；

检测单元，用于通过相似性检测公式，对所述原始录音数据和所述原始伴奏数据进行相似性检测，得到所述原始录音数据的延时采样点数，其中，所述相似性检测公式为：

调整单元，用于将所述原始伴奏数据的频率和所述原始录音数据的频率调整一致；

删除单元，用于从所述原始录音数据中删除所述延时采样点数，以实现所述原始录音数据和所述原始伴奏数据的对齐。

可选地，所述调整单元具体用于，将所述原始伴奏数据的频率调整至所述原始录音数据的频率。

本申请第三方面提供了一种音频数据的对齐设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的音频数据的对齐方法。

本申请第四方面提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的音频数据的对齐方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种音频数据的对齐方法，包括：S1、获取待对齐的原始录音数据和原始伴奏数据；S2、通过相似性检测公式，对原始录音数据和原始伴奏数据进行相似性检测，得到原始录音数据的延时采样点数；S3、将原始伴奏数据的频率和原始录音数据的频率调整一致；S4、从原始录音数据中删除延时采样点数，以实现原始录音数据和原始伴奏数据的对齐，其中，根据录音数据和伴奏数据具有一定相似性的特点，求取最相似点，推算出原始录音数据相对于原始伴奏数据延时的延时采样点数，从原始录音数据中删除该延时采样点数，自动将原始录音数据和原始伴奏数据做了对齐处理，对齐效果较好，无需用户手动调节，提升了用户体验，从而解决了现有的音频对齐效果不理想且影响用户体验的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种音频数据的对齐方法的实施例一的流程示意图；

图2为本申请实施例中一种音频数据的对齐方法的实施例二的流程示意图；

图3为本申请实施例中一种音频数据的对齐装置的实施例的结构示意图。

具体实施方式

本申请实施例提供了一种音频数据的对齐方法、装置、设备和存储介质，解决了现有的音频对齐效果不理想且影响用户体验的技术问题。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，本申请实施例中一种音频数据的对齐方法的实施例一的流程示意图。

本实施例中的一种音频数据的对齐方法，包括：

步骤101、获取待对齐的原始录音数据和原始伴奏数据。

可以理解的是，要对人声和伴奏的音频数据进行对齐，首先获取待对齐的原始录音数据和原始伴奏数据。

由于在录制人声的同时，也会将播放的伴奏同步采集，利用此时录得的原始录音数据和原始伴奏数据做相似性检测，找到最相似点即可推算出录音相对于伴奏的延时(即延时采样点数)，然后再从原始录音数据中删掉延时长度，即可将人声向伴奏对齐。

相似度的计算依据的是伴奏播放出来再被录回去，虽然经过了扬声器、信号的空间传播、反射、麦克风等过程，信号引入了非线性失真，但录回的原始伴奏数据与原始伴奏文件是具有一定相关性的。

获取原始录音数据和原始伴奏数据可以是通过麦克风阵列等实现，本领域技术人员可以根据自己的需要进行选择，在此不做赘述。

步骤102、通过相似性检测公式，对原始录音数据和原始伴奏数据进行相似性检测，得到原始录音数据的延时采样点数。

可以理解的是，相似性检测公式为：

n为用于做相似性检测的波形点的音频波形点数量，x_j为用于做相似性检测的原始录音数据的第j个波形点，y_j-i为用于做相似性检测的原始伴奏数据的第j-i个波形点，x为原始录音数据，y为原始伴奏数据，i和j分别为波形点位置。

步骤103、将原始伴奏数据的频率和原始录音数据的频率调整一致。

对齐时的原始伴奏数据和原始录音数据频率要相同，但是实际获取到的原始录音数据和原始伴奏数据的频率往往不相同，因此此处需要将原始伴奏数据的频率和原始录音数据的频率调整一致。

可以理解的是，调整一致的方式可以是多种，本实施例中不再一一举例说明。

步骤104、从原始录音数据中删除延时采样点数，以实现原始录音数据和原始伴奏数据的对齐。

本申请中将原始录音数据和原始伴奏数据对齐，对齐准确率(误差30ms以内)可达95％以上。

本实施例中，首先获取待对齐的原始录音数据和原始伴奏数据；接着通过相似性检测公式，对原始录音数据和原始伴奏数据进行相似性检测，得到原始录音数据的延时采样点数；再接着将原始伴奏数据的频率和原始录音数据的频率调整一致；最后从原始录音数据中删除延时采样点数，以实现原始录音数据和原始伴奏数据的对齐，其中，根据录音数据和伴奏数据具有一定相似性的特点，求取最相似点，推算出原始录音数据相对于原始伴奏数据延时的延时采样点数，从原始录音数据中删除该延时采样点数，自动将原始录音数据和原始伴奏数据做了对齐处理，对齐效果较好，无需用户手动调节，提升了用户体验，从而解决了现有的音频对齐效果不理想且影响用户体验的技术问题。

以上为本申请实施例提供的一种音频数据的对齐方法的实施例一，以下为本申请实施例提供的一种音频数据的对齐方法的实施例二。

请参阅图2，本申请实施例中一种音频数据的对齐方法的实施例二的流程示意图。

本实施例中的一种音频数据的对齐方法，包括：

步骤201、获取待对齐的原始录音数据和原始伴奏数据。

需要说明的是，步骤201的描述与实施例一中的步骤101的描述相同，具体可以参见上述步骤101的描述，在此不再赘述。

步骤202、将原始录音数据中歌词起点前预置长度的音频数据进行截取，得到第一截取音频数据。

如果将整体的原始录音数据和原始伴奏数据进行相似性检测，效果并不好(原始录音数据中有人声“干扰”，会影响相似性检测的结果)，并且，计算量太大无法实际使用。

对于原始伴奏数据，从时间起始时刻0s开始，通常有一小段静音，然后乐器声逐渐增大(音乐的制作过程通常有个fade in处理，即歌曲的开始时段音量是逐渐变大的，不是跃变的)，到达歌词起点时，伴奏音量达到正常音量水平，可以保证录回去的声音不会太小，太小会影响相似性的计算。另外，歌词起点时刻前3s～5s时刻通常歌者都会进入K歌准备状态，保持安静，这段时间录音的干扰较少，有利于提升检测准确性。并且，歌词的起点时刻通常是可以通过歌词文件信息直接获取的，信息准确性高，对应用于相似度检测的音频质量可控。

综合考虑效果和效率，我们找到歌词起始点前的一段1.5秒～2.5秒音频用于检测延时，能够使检测准确率和计算性能都满足应用场景，过短(小于1.5s)的音频信息会引起检测结果不准确，超过2.5s准确性差别不大，但计算性能会增大，最终我们选择的是歌词起始点前2s长度的音频用于相似度检测。即预置长度可以取值为1.5秒～2.5秒范围内的数据。

步骤203、将原始伴奏数据中歌词起点前预置长度的音频数据进行截取，得到第二截取音频数据。

此时将原始伴奏数据中歌词起点前预置长度的音频数据截取，具体阐述可以参见上述步骤202的描述，在此不再赘述。

步骤204、将第一截取音频数据和第二截取音频数据降频至第一预置频率。

可以理解的是，通常原始录音数据的频率为32kHz，原始伴奏数据的频率为44.1kHz，为了尽可能减小计算量，在进行相似性计算之前，先将原始录音数据32kHz和原始伴奏数据44.1kHz做降采样处理，把高采样率降为6kHz～8kHz，又可减少60％～70％的计算量，即第一预置频率的取值可以为6kHz～8kHz内的数值。

步骤205、通过相似性检测公式，对降频后的第二截取音频数据和第二截取音频数据进行相似性检测，得到降频后的原始录音数据的延时采样点数。

相似性检测公式为：

步骤206、将延时采样点数升频至原始伴奏数据的频率，得到新延时采样点数。

步骤205中是对降频后的原始录音数据进行处理得到的延时采样点数，因此，本实施例中还需要将延时采样点数升频至原始伴奏数据的频率，得到新延时采样点数。

步骤207、将原始伴奏数据的频率调整至原始录音数据的频率。

需要说明的是，步骤207的描述与实施例一中的步骤103的描述相同，具体可以参见上述步骤103的描述，在此不再赘述。

步骤208、将新延时采样点数和预置阈值做差，得到第一中间数据。

为了防止人声超前保护，误删除了原始录音数据中的音频，本实施例中设置预置阈值作为冗余，故此处将新延时采样点数和预置阈值做差，得到第一中间数据，

步骤209、从原始录音数据中删除第一中间数据，以实现原始录音数据和原始伴奏数据的对齐。

在得到第一中间数据后从原始录音数据中删除第一中间数据，以实现原始录音数据和原始伴奏数据的对齐。

步骤210、将删除延时采样点数后的原始录音数据和原始伴奏数据进行混音处理。

将原始录音数据和原始伴奏数据对齐后，便可以将删除延时采样点数后的原始录音数据和原始伴奏数据进行混音处理。

以上为本申请实施例提供的一种音频数据的对齐方法的实施例二，以下为本申请实施例提供的一种音频数据的对齐装置的实施例，请参阅图3。

请参阅图3，本申请实施例中一种音频数据的对齐装置的实施例的结构示意图。

本实施例中的一种音频数据的对齐装置，包括：

获取单元301，用于获取待对齐的原始录音数据和原始伴奏数据；

检测单元302，用于通过相似性检测公式，对原始录音数据和原始伴奏数据进行相似性检测，得到原始录音数据的延时采样点数，其中，相似性检测公式为：

调整单元303，用于将原始伴奏数据的频率和原始录音数据的频率调整一致；

删除单元304，用于从原始录音数据中删除延时采样点数，以实现原始录音数据和原始伴奏数据的对齐。

进一步地，调整单元303具体用于，将原始伴奏数据的频率调整至原始录音数据的频率。

本申请实施例还提供了一种音频数据的对齐设备，设备包括处理器以及存储器；存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行实施例一或实施例二的音频数据的对齐方法。

本申请实施例还提供了一种存储介质，存储介质用于存储程序代码，程序代码用于执行实施例一或实施例二的音频数据的对齐方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个待安装电网网络，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请个实施例中的功能单元可以集成在一个处理单元中，也可以是个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。