CN113192477A

CN113192477A - 音频处理方法及装置

Info

Publication number: CN113192477A
Application number: CN202110468285.1A
Authority: CN
Inventors: 范欣悦; 崔凡; 邢文浩; 张晨; 郑羲光
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-30

Abstract

本公开关于一种音频处理方法及装置。该音频处理方法包括：获取人声信号的人声音高序列和相应的参考音高序列；计算人声音高序列和参考音高序列之间的音高距离；基于音高距离对伴奏的音调进行调整。根据本公开的音频处理方法及装置，可基于人声信号得到伴奏升降调的数值来自动帮助用户找到适合用户的音调，而无需人工进行手动调整，从而提高用户找调的体验，并且提高用户k歌的开口率和发布率。

Description

音频处理方法及装置

技术领域

本公开涉及音视频技术领域。更具体地，本公开涉及一种音频处理方法及装置。

背景技术

清唱找调是在无伴奏的条件下对人声进行录制，通过对原始伴奏进行升降调得到与采集到的人声最匹配的伴奏结果。通过清唱找调，演唱者无需手动对伴奏进行升降调，系统便可智能化得对伴奏进行自动升降调得到跟清唱结果最为接近的调。

一些非专业歌手用户在K歌时经常被音域所困扰，喜欢的歌曲唱不上去，或者唱异性歌曲音域不匹配。通常会使用“升降调”功能修改伴奏的音调以适合自己。而对于很多用户而言，调节音调是升还是降、升降多少，并没有直观的判断，只能依靠不停地重试才能确定，甚至反复重试而不得其法。

发明内容

本公开的示例性实施例在于提供一种音频处理方法及装置，以至少解决相关技术中的音频处理的问题，也可不解决任何上述问题。

根据本公开的示例性实施例，提供一种音频处理方法，包括：获取人声信号的人声音高序列和相应的参考音高序列；计算人声音高序列和参考音高序列之间的音高距离；基于音高距离对伴奏的音调进行调整。

可选地，获取人声信号的人声音高序列和相应的参考音高序列的步骤可包括：获取人声信号和相应的参考音高文件信息；对人声信号进行基频检测，得到人声音高序列；从参考音高文件信息获取参考音高序列。

可选地，计算人声音高序列和参考音高序列之间的音高距离的步骤可包括：对人声音高序列和参考音高序列进行时长匹配，得到匹配结果；根据匹配结果对人声音高序列进行时长缩放；计算缩放后的人声音高序列和参考音高序列之间的差作为音高距离。

可选地，对人声音高序列和参考音高序列进行时长匹配的步骤可包括：分别对人声音高序列和参考音高序列进行归一化处理；使用预定规则对归一化处理后的人声音高序列和归一化处理后的参考音高序列进行时长匹配。

可选地，根据匹配结果对人声音高序列进行时长缩放的步骤可包括：基于匹配结果将人声音高序列调整至与参考音高序列时长相等。

可选地，计算缩放后的人声音高序列和参考音高序列之间的音高距离的步骤可包括：将参考音高序列与缩放后的人声音高序列相减，得到音高差值序列；计算音高差值序列中的所有音高差值的平均值，并将所有音高差值的平均值作为音高距离。

可选地，基于音高距离对伴奏的音调进行调整的步骤可包括：计算音调调整的判定参数；当判定参数满足预设判定条件时，对伴奏的音调进行调整。

可选地，基于音高距离对伴奏的音调进行调整的步骤可包括：计算音高距离的方差；当方差小于方差阈值时，基于音高距离对伴奏的音调进行调整。

可选地，基于音高距离对伴奏的音调进行调整的步骤可包括：从缩放后的人声音高序列中重采样和人声音高序列的长度相同的序列，得到重采样序列；计算重采样序列和人声音高序列之间的差值的平均值；当差值的平均值小于平均值阈值时，基于音高距离对伴奏的音调进行调整。

可选地，基于音高距离对伴奏的音调进行调整的步骤可包括：确定人声音高序列和参考音高序列的相似程度；当相似程度小于相似程度阈值时，基于音高距离对伴奏的音调进行调整。

可选地，所述音频处理方法还可包括：当判定参数不满足预设判定条件时，输出找调失败的信息。

可选地，人声信号可以是人声清唱信号。

根据本公开的示例性实施例，提供一种音频处理装置，包括：序列获取单元，被配置为获取人声信号的人声音高序列和相应的参考音高序列；音高距离计算单元，被配置为计算人声音高序列和参考音高序列之间的音高距离；和音调调整单元，被配置为基于音高距离对伴奏的音调进行调整。

可选地，序列获取单元可被配置为：获取人声信号和相应的参考音高文件信息；对人声信号进行基频检测，得到人声音高序列；从参考音高文件信息获取参考音高序列。

可选地，音高距离计算单元可被配置为：对人声音高序列和参考音高序列进行时长匹配，得到匹配结果；根据匹配结果对人声音高序列进行时长缩放；计算缩放后的人声音高序列和参考音高序列之间的差作为音高距离。

可选地，音高距离计算单元可被配置为：分别对人声音高序列和参考音高序列进行归一化处理；使用预定规则对归一化处理后的人声音高序列和归一化处理后的参考音高序列进行时长匹配。

可选地，音高距离计算单元可被配置为：基于匹配结果将人声音高序列调整至与参考音高序列时长相等。

可选地，音高距离计算单元可被配置为：将参考音高序列与缩放后的人声音高序列相减，得到音高差值序列；计算音高差值序列中的所有音高差值的平均值，并将所有音高差值的平均值作为音高距离。

可选地，音调调整单元可被配置为：计算音调调整的判定参数；当判定参数满足预设判定条件时，对伴奏的音调进行调整。

可选地，音调调整单元可被配置为：计算音高距离的方差；当方差小于方差阈值时，基于音高距离对伴奏的音调进行调整。

可选地，音调调整单元可被配置为：从缩放后的人声音高序列中重采样和人声音高序列的长度相同的序列，得到重采样序列；计算重采样序列和人声音高序列之间的差值的平均值；当差值的平均值小于平均值阈值时，基于音高距离对伴奏的音调进行调整。

可选地，音调调整单元可被配置为：确定人声音高序列和参考音高序列的相似程度；当相似程度小于相似程度阈值时，基于音高距离对伴奏的音调进行调整。

可选地，所述音频处理装置还可包括：信息输出单元，被配置为当判定参数不满足预设判定条件时，输出找调失败的信息。

可选地，人声信号可以是人声清唱信号。

根据本公开的示例性实施例，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现根据本公开的示例性实施例的音频处理方法。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行根据本公开的示例性实施例的音频处理方法。

根据本公开的示例性实施例，提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

无需人工进行手动调整的情况下，自动基于人声清唱信号得到伴奏升降调的数值，帮助用户找到适合用户的音调，从而提高用户找调的体验，并且提高用户k歌的开口率和发布率；

考虑到录制过程中的种种失误可设置多种不同的判定条件来判定找调结果的有效性，从而保证结果的合理性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开的示例性实施例的音频处理过程的系统框图。

图2示出根据本公开的示例性实施例的音频处理方法的流程图。

图3示出一段周期为150个采样点的CMDF的示例。

图4示出DTW对两个序列进行时长匹配的示意图。

图5和图6分别示出两段不同人声和参考音高片段的匹配结果的示例。

图7示出缩放后的人声音高序列与参考音高序列的对比图。

图8示出根据本公开的示例性实施例的音频处理装置的框图。

图9是根据本公开的示例性实施例的电子设备900的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

本公开旨在解决用户由于音域与原唱不匹配却找不到合适自己的调的问题，可通过识别清唱的人声，自动帮助用户找到合适自己的音调。

下面，将参照图1至图9具体描述根据本公开的示例性实施例的音频处理方法及装置。

如图1所示，首先确定清唱找调的段落并从服务端获取对应段落的参考乐器数字接口(Musical Instrument Digital Interface，简称midi)文件信息，得到参考midi音符序列。这里，midi将所要演奏的乐曲信息用字节进行描述。录制此段落的清唱人声，然后检测清唱部分的人声的音高(pitch)，得到随时间变化的人声频率序列，将其转变成对应midi音符。接着将人声midi音符序列和参考midi音符序列做归一化处理，得到平均数为0的两组midi音符序列。考虑到在没有伴奏的情况下，人声演唱的速度与实际midi进行的速度有一定偏差，从而得到的归一化的midi音符序列也是不等长的，因此需要将两个归一化的不等长的序列经过动态规整算法(Dynamic Time Warping)得到两段序列最佳对应关系及匹配路径。接着将未归一化处理的人声midi音符序列根据对应关系调整至与未归一化的参考midi音符序列等长，再计算调整之后两序列的距离，将参考midi音符序列与调整长度后的人声midi音符序列相减并得到其平均数，并四舍五入到整数，这便是人声与参考midi音高的平均差距，也是伴奏(背景音乐)需要移调的数值。由于升降调会损害音质，为了使升降调数值尽可能低，乐理上12半音为八度循环，升降调范围限制为-5～+6。

图2示出根据本公开的示例性实施例的音频处理方法的流程图。本公开中的音频处理方法可适用于k歌时根据用户的清唱自动找调。

参照图2，在步骤S201，获取人声信号的人声音高序列和相应的参考音高序列。这里，人声信号可以是人声清唱信号，也就是说，首先确定参考音高中的用于清唱找调的片段。这里，人声音高序列和参考音高序列可以分别是midi音符序列，本公开不限于此。

在本公开的示例性实施例中，在获取人声信号的人声音高序列和相应的参考音高序列时，可首先获取人声信号和相应的参考音高文件信息，然后对人声信号进行基频检测，得到人声音高序列，并且从参考音高文件信息获取参考音高序列。参考音高文件信息可包括例如但不限于音高、音高开始时间和持续时间等。

在一种实现中，可以通过自相关系数来得到人声音高的基频。自相关系数的计算公示如下：

这里，x为人声的时域信号，τ为延迟的指数，acf是对应的自相关的系数，N是序列x的长度，由于波形是有周期性的，所以当延迟指数是周期的倍数的时候，自相关系数可以达到最大值，因此通过计算自相关系数，可以得到波形的周期P。最后可以通过周期P与采样率fs的关系

得到此段波形的频率。

为了得到整段人声的基频序列，可以将人声分帧检测基频，人声的基频范围在通常70Hz到1000Hz以内，因此可将此范围之外的频率看作是噪声。

在另一种实现中，可以使用Yin算法进行基频检测，与自相关相乘的方法不同，Yin算法是把平移后的信号与原始信号相减求平方再积分，得到差函数(differencefunction)。

这里，x为人声的时域信号，τ为延迟的指数，可以代表在t处的周期。

在差函数的基础上，Yin算法定义了以下一种累积均值归一化差函数(cumulativemean normalized difference function，简称CMNDF)。

图3示出一段周期为150个采样点的CMDF的示例。如图3所示，CMDF去除了差函数在原点处的谷，且纵坐标不再依赖于信号本身的幅度，但是信号的周期的醒并不理想，最小值可能并不是最左边最深的谷，因此需要设置一个谷深阈值。

在得到人声频率序列之后，会得到一个可能带有不少毛刺的频率序列，可以对得到的频率进行平滑(smoothing)，最常见的一种平滑方式就是滑动窗口取平均数。得到平滑后的频率序列转化为音高，可通过例如但不限于如下转换公式将平滑后的频率序列转化为音高：P＝69+12×log₂(f/440)。

在步骤S202，计算人声音高序列和参考音高序列之间的音高距离。

在本公开的示例性实施例中，在计算人声音高序列和参考音高序列之间的音高距离时，可首先对人声音高序列和参考音高序列进行时长匹配，得到匹配结果，根据匹配结果对人声音高序列进行时长缩放，然后计算缩放后的人声音高序列和参考音高序列之间的差作为音高距离。

在本公开的示例性实施例中，在对人声音高序列和参考音高序列进行时长匹配时，可首先分别对人声音高序列和参考音高序列进行归一化处理，然后使用预定规则对归一化处理后的人声音高序列和归一化处理后的参考音高序列进行时长匹配。这里，分别对人声音高序列和参考音高序列进行归一化处理的结果为平均数为0的两个不等长序列。预定规则可以是例如但不限于动态规整算法(Dynamic Time Warping，简称DTW)。DTW可以计算两个时间序列的相似度，尤其适用于不同长度、不同或相似节奏的时间序列，DTW将自动在时间轴上进行局部的缩放使得两个序列的形态尽可能一致。

图4示出DTW对两个序列进行时长匹配的示意图。

在DTW中，序列Q和序列C的每一个点的相似度被计算，一般采用欧式距离，即：d(Q_i，C_j)＝(Q_i-C_j)²。

然后，DTW通过以下公式，自动搜索规整代价最小的路径，从原点开始匹配这两个不等长序列Q和C，最后得到最小累积距离即最佳规整路径。

γ(i，j)＝d(Q_i，C_j)+min{γ(i-1，j-1)，γ(i-1，j)，γ(i，j-1)}

这里，γ(i，j)为累积距离，最佳路径可以通过动态规划算法(dynamicprogramming)得到。

图5和图6分别示出两段不同人声和参考音高片段的匹配结果的示例。图5和图6是人声音高和参考音高匹配关系图，线条为最佳的匹配路径。如图5所示，如果人声音高的变化情况与参考音高的变化情况比较相似，匹配出来的路径将是一条对角线。如图6所示，如果两者相差甚远或者毫无关系，则匹配出来的路径线性度就会非常糟糕。

在本公开的示例性实施例中，在根据匹配结果对人声音高序列进行时长缩放时，可基于匹配结果将人声音高序列调整至与参考音高序列时长相等。

图7示出缩放后的人声音高序列与参考音高序列的对比图。如图7所示，缩放之后的人升音高的走势和参考音高序列大致相同。DTW还可以排除由于清唱导致的人声忽快忽慢对找调结果的影响。

在本公开的示例性实施例中，在计算缩放后的人声音高序列和参考音高序列之间的音高距离时，可首先将参考音高序列与缩放后的人声音高序列相减，得到音高差值序列，然后计算音高差值序列中的所有音高差值的平均值，并将所有音高差值的平均值作为音高距离。

例如，将缩放之后的人声音高序列去与参考音高序列相减，再取平均，得到这个音乐片段人声音高序列与参考音高序列的平均音高差距，再进行四舍五入得到音高距离的整数值。

在步骤S203，基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，在基于音高距离对伴奏的音调进行调整时，可首先计算音调调整的判定参数，然后当判定参数满足预设判定条件时，对伴奏的音调进行调整。

在本公开的示例性实施例中，在基于音高距离对伴奏的音调进行调整时，可首先计算音高距离的方差，然后当方差小于方差阈值时，基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，在基于音高距离对伴奏的音调进行调整时，可首先从缩放后的人声音高序列中重采样和人声音高序列的长度相同的序列，得到重采样序列，并计算重采样序列和人声音高序列之间的差值的平均值，然后当差值的平均值小于平均值阈值时，基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，在基于音高距离对伴奏的音调进行调整时，可首先确定人声音高序列和参考音高序列的相似程度，然后当相似程度小于相似程度阈值时，基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，还可当判定参数不满足预设判定条件时，输出找调失败的信息。

也就是说，考虑到录制过程中的种种失误，如演唱时间太短、演唱者忘记调、演唱者乱唱瞎唱等情况，可以设置判定条件，根据是否满足判定条件来确定是否对伴奏的音调进行调整。

判定条件一：通过计算参考音高序列与调整长度后的人声音高序列差值的方差，判断两者音高数值差距的稳定性，如果方差过大，说明人声音高序列与人声音高序列不一致，此时给出检测失败的结果。

判定条件二：将调整长度后的人声音高序列重采样到和调整长度前的人声音高序列一样的长度，再计算调整长度前的人声音高序列与重采样到的序列的差值的平均值，判断两者音高数值的差距，如果差距过大，说明调整后的音高与原声相差过大(因为DTW给出的结果与参考音高非常相似，相差过大意味着人声存在乱唱嫌疑)，此时给出检测失败的结果。

判定条件三：累积距离γ(i,j)在终点处的值表示两个不等长序列的相似度，γ(m，n)的值越大表示俩个序列越不相似，因此求出累积距离的平均值，并设置一个阈值作为判定失败与成功的条件。

此外，由于升降调调整损害音质，为了使升降调数值尽可能低，乐理上12半音为八度循环，升降调范围限制为-5～+6。

计算方法如下：

1、如果检测到的调差在-6～+6范围(含)内，则该值为最终的升降值；

2、如果检测到的调差>6，则-12、-12*2直到得出-6～+6范围的值；

3、如果检测到的调差<-6，则-12、+12*2直到得出-6～+6范围的值。

以上已经结合图1至图7对根据本公开的示例性实施例的音频处理方法进行了描述。在下文中，将参照图8对根据本公开的示例性实施例的音频处理装置及其单元进行描述。

图8示出根据本公开的示例性实施例的音频处理装置的框图。

参照图8，音频处理装置包括序列获取单元81、音高距离计算单元82和音调调整单元83。

序列获取单元81被配置为获取人声信号的人声音高序列和相应的参考音高序列。

在本公开的示例性实施例中，人声信号可以是人声清唱信号。

在本公开的示例性实施例中，序列获取单元81可被配置为：获取人声信号和相应的参考音高文件信息；对人声信号进行基频检测，得到人声音高序列；从参考音高文件信息获取参考音高序列。

音高距离计算单元82被配置为计算人声音高序列和参考音高序列之间的音高距离。

在本公开的示例性实施例中，音高距离计算单元82可被配置为：对人声音高序列和参考音高序列进行时长匹配，得到匹配结果；根据匹配结果对人声音高序列进行时长缩放；计算缩放后的人声音高序列和参考音高序列之间的差作为音高距离。

在本公开的示例性实施例中，音高距离计算单元82可被配置为：分别对人声音高序列和参考音高序列进行归一化处理；使用预定规则对归一化处理后的人声音高序列和归一化处理后的参考音高序列进行时长匹配。

在本公开的示例性实施例中，音高距离计算单元82可被配置为：基于匹配结果将人声音高序列调整至与参考音高序列时长相等。

在本公开的示例性实施例中，音高距离计算单元82可被配置为：将参考音高序列与缩放后的人声音高序列相减，得到音高差值序列；计算音高差值序列中的所有音高差值的平均值，并将所有音高差值的平均值作为音高距离。

音调调整单元83被配置为基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，音调调整单元83可被配置为：计算音调调整的判定参数；当判定参数满足预设判定条件时，对伴奏的音调进行调整。

在本公开的示例性实施例中，调调整单元83可被配置为：计算音高距离的方差；当方差小于方差阈值时，基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，音调调整单元83可被配置为：从缩放后的人声音高序列中重采样和人声音高序列的长度相同的序列，得到重采样序列；计算重采样序列和人声音高序列之间的差值的平均值；当差值的平均值小于平均值阈值时，基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，音调调整单元83可被配置为：确定人声音高序列和参考音高序列的相似程度；当相似程度小于相似程度阈值时，基于音高距离对伴奏的音调进行调整。

在本公开的示例性实施例中，音频处理装置还可包括信息输出单元(未示出)，被配置为当判定参数不满足预设判定条件时，输出找调失败的信息。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上已经结合图8对根据本公开的示例性实施例的音频处理装置进行了描述。接下来，结合图9对根据本公开的示例性实施例的电子设备进行描述。

图9是根据本公开的示例性实施例的电子设备900的框图。

参照图9，电子设备900包括至少一个存储器901和至少一个处理器902，所述至少一个存储器901中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器902执行时，执行根据本公开的示例性实施例的音频处理的方法。

在本公开的示例性实施例中，电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备900并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备900中，处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器902可运行存储在存储器901中的指令或代码，其中，存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器901可与处理器902集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器901可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器902能够读取存储在存储器中的文件。

此外，电子设备900还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备900的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还提供一种包括指令的计算机可读存储介质，例如包括指令的存储器901，上述指令可由装置900的处理器902执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频处理的方法。

以上已参照图1至图9描述了根据本公开的示例性实施例的音频处理方法及装置。然而，应该理解的是：图8中所示的音频处理装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图9中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的音频处理方法及装置，通过获取人声信号的人声音高序列和相应的参考音高序列，计算人声音高序列和参考音高序列之间的音高距离，基于音高距离对伴奏的音调进行调整，实现了基于人声信号得到伴奏升降调的数值来自动帮助用户找到适合用户的音调，而无需人工进行手动调整，从而提高用户找调的体验，并且提高用户k歌的开口率和发布率。

此外，根据本公开的音频处理方法及装置，考虑到录制过程中的种种失误可设置多种不同的判定条件来判定找调结果的有效性，从而保证结果的合理性。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取人声信号的人声音高序列和相应的参考音高序列；

计算人声音高序列和参考音高序列之间的音高距离；

基于音高距离对伴奏的音调进行调整。

2.根据权利要求1所述的音频处理方法，其特征在于，获取人声信号的人声音高序列和相应的参考音高序列的步骤包括：

获取人声信号和相应的参考音高文件信息；

对人声信号进行基频检测，得到人声音高序列；

从参考音高文件信息获取参考音高序列。

3.根据权利要求1所述的音频处理方法，其特征在于，计算人声音高序列和参考音高序列之间的音高距离的步骤包括：

对人声音高序列和参考音高序列进行时长匹配，得到匹配结果；

根据匹配结果对人声音高序列进行时长缩放；

计算缩放后的人声音高序列和参考音高序列之间的差作为音高距离。

4.根据权利要求3所述的音频处理方法，其特征在于，对人声音高序列和参考音高序列进行时长匹配的步骤包括：

分别对人声音高序列和参考音高序列进行归一化处理；

使用预定规则对归一化处理后的人声音高序列和归一化处理后的参考音高序列进行时长匹配。

5.根据权利要求3所述的音频处理方法，其特征在于，根据匹配结果对人声音高序列进行时长缩放的步骤包括：

基于匹配结果将人声音高序列调整至与参考音高序列时长相等。

6.根据权利要求3所述的音频处理方法，其特征在于，计算缩放后的人声音高序列和参考音高序列之间的音高距离的步骤包括：

将参考音高序列与缩放后的人声音高序列相减，得到音高差值序列；

计算音高差值序列中的所有音高差值的平均值，并将所有音高差值的平均值作为音高距离。

7.根据权利要求1所述的音频处理方法，其特征在于，基于音高距离对伴奏的音调进行调整的步骤包括：

计算音调调整的判定参数；

当判定参数满足预设判定条件时，对伴奏的音调进行调整。

8.一种音频处理装置，其特征在于，包括：

序列获取单元，被配置为获取人声信号的人声音高序列和相应的参考音高序列；

音高距离计算单元，被配置为计算人声音高序列和参考音高序列之间的音高距离；和

音调调整单元，被配置为基于音高距离对伴奏的音调进行调整。

9.一种电子设备/服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的音频处理方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行如权利要求1至7中任一项所述的音频处理方法。