CN112820255A

CN112820255A - 音频处理方法及装置

Info

Publication number: CN112820255A
Application number: CN202011606809.0A
Authority: CN
Inventors: 范欣悦; 张晨; 郑羲光
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-18

Abstract

本公开关于一种音频处理方法及装置。该音频处理方法包括：获取参考乐器数字接口Midi音高序列；基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列；基于所述偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号；将所述人声音频信号和所述人声音频移调信号进行混合，得到所述人声音频信号的和声。根据本公开的音频处理方法及装置，可避免带来不和谐音，达到了智能和声的效果。

Description

音频处理方法及装置

技术领域

本公开涉及音视频技术领域。更具体地，本公开涉及一种音频处理方法及装置。

背景技术

在线上K歌系统中，可以根据伴奏录制歌声，然后将人声通过一些效果器如EQ、压缩、混响、音量均衡，再将处理后的人声与伴奏混合。随着用户的增多，人们对K歌音效也有了更多的需求。传统的音效如混响、EQ已经无法满足音乐爱好者们对K歌效果的要求，因此越来越多的音效被推出，其中一个重要的效果就是智能和声。它用于模拟给原声加入伴唱的真实效果，可以达到丰富人声、烘托演唱情绪的效果。

K歌智能和声是指对采集的人声信号进行移调，在不改变原声的基础上为原声配上更高音域或者更低音域的和声，并且不破坏整体的和谐度。此效果可以达到丰富人声、人声提升表现力和可听性的效果。相关技术中，通常，K歌软件会为考虑整体提升3度或者降低3度来达到和声的效果，可是整体提升音高会存在一些不和谐音。

发明内容

本公开的示例性实施例在于提供一种音频处理方法及装置，以至少解决相关技术中的音频处理的问题，也可不解决任何上述问题。

根据本公开的示例性实施例，提供一种音频处理方法，包括：获取参考乐器数字接口Midi音高序列；基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列；基于所述偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号；将所述人声音频信号和所述人声音频移调信号进行混合，得到所述人声音频信号的和声。

可选地，音频处理基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量的步骤可包括：将参考Midi音高序列偏移预设偏移量，获得偏移后的参考Midi音高序列；将偏移后的参考Midi音高序列中不在音阶里的音高进行修正，获得各帧音高的偏移量的修正量；基于预设偏移量和各帧音高的偏移量的修正量，确定各帧音高的偏移量。

可选地，预设偏移量可包括正三度、正四度、负三度、负四度中的至少一个。

可选地，将所述人声音频信号和所述人声音频移调信号进行混合的步骤可包括：对所述人声音频移调信号进行延迟，获得延迟后的人声音频移调信号；将所述人声音频信号和延迟后的人声音频移调信号进行混合。

可选地，对所述人声音频移调信号进行延迟的步骤可包括：使用线性差值的方式确定所述人声音频移调信号的延迟时间；将所述人声音频移调信号延迟所述延迟时间。

可选地，获取参考Midi音高序列的步骤可包括：获取参考Midi文件；并且获取从参考Midi文件提取的参考Midi音高序列。

可选地，在获取参考Midi音高序列的步骤之前，所述音频处理方法还可可包括：从参考Midi文件提取关键信息，其中，关键信息包括Midi音高、音高起始时间、音高持续时间中的至少一个；并且将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为参考Midi音高序列。

可选地，获取参考Midi音高序列的步骤还可包括：获取提取的参考Midi音高序列的调式；基于参考Midi音高序列的调式对参考Midi音高序列进行转调，将转调后的参考Midi音高序列确定为参考Midi音高序列，其中，调式包括大调和小调。

可选地，基于参考Midi音高序列的调式对参考Midi音高序列进行转调的步骤可包括：当参考Midi音高序列的调式是大调时，将参考Midi音高序列转调为第一调式；当参考Midi音高序列的调式是小调时，将参考Midi音高序列转调为第二调式。

可选地，获取参考Midi音高序列的步骤还可包括：对参考Midi音高序列进行音高统一化处理，将音高统一化处理后的参考Midi音高序列作为最终的参考Midi音高序列。

可选地，基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量的步骤还可包括：基于参考Midi音高序列的音域确定预设偏移量，其中，当参考Midi音高序列的音域超过预设音域时，将预设偏移量确定为负三度或负四度；当参考Midi音高序列的音域不超过预设音域时，将预设偏移量确定为正三度或正四度。

可选地，基于所述偏移量序列对所述人声音频信号进行分帧移调的步骤可包括：分别将所述人声音频信号中的每帧偏移所述偏移量序列中的相应帧的偏移量。

根据本公开的示例性实施例，提供一种音频处理装置，包括：参考序列获取单元，被配置为获取参考乐器数字接口Midi音高序列；偏移量确定单元，被配置为基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列；分帧移调单元，被配置为基于所述偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号；和信号混合单元，被配置为将所述人声音频信号和所述人声音频移调信号进行混合，得到所述人声音频信号的和声。

可选地，偏移量确定单元可被配置为：将参考Midi音高序列偏移预设偏移量，获得偏移后的参考Midi音高序列；将偏移后的参考Midi音高序列中不在音阶里的音高进行修正，获得各帧音高的偏移量的修正量；基于预设偏移量和各帧音高的偏移量的修正量，确定各帧音高的偏移量。

可选地，信号混合单元可被配置为：对所述人声音频移调信号进行延迟，获得延迟后的人声音频移调信号；将所述人声音频信号和延迟后的人声音频移调信号进行混合。

可选地，信号混合单元可被配置为：使用线性差值的方式确定所述人声音频移调信号的延迟时间；将所述人声音频移调信号延迟所述延迟时间。

可选地，参考序列获取单元可被配置为：获取参考Midi文件；并且获取从参考Midi文件提取的参考Midi音高序列。

可选地，所述音频处理装置还包括预先提取单元，被配置为：从参考Midi文件提取关键信息，其中，关键信息包括Midi音高、音高起始时间、音高持续时间中的至少一个；并且将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为参考Midi音高序列。

可选地，参考序列获取单元还可被配置为：获取提取的参考Midi音高序列的调式；基于参考Midi音高序列的调式对参考Midi音高序列进行转调，将转调后的参考Midi音高序列确定为参考Midi音高序列，其中，调式包括大调和小调。

可选地，参考序列获取单元还可被配置为：当参考Midi音高序列的调式是大调时，将参考Midi音高序列转调为第一调式；当参考Midi音高序列的调式是小调时，将参考Midi音高序列转调为第二调式。

可选地，参考序列获取单元还可被配置为：对参考Midi音高序列进行音高统一化处理，将音高统一化处理后的参考Midi音高序列作为最终的参考Midi音高序列。

可选地，偏移量确定单元还可被配置为：基于参考Midi音高序列的音域确定预设偏移量，其中，当参考Midi音高序列的音域超过预设音域时，将预设偏移量确定为负三度或负四度；当参考Midi音高序列的音域不超过预设音域时，将预设偏移量确定为正三度或正四度。

可选地，分帧移调单元可被配置为：分别将所述人声音频信号中的每帧偏移所述偏移量序列中的相应帧的偏移量。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的音频处理方法。

根据本公开的示例性实施例，提供一种电子设备，包括：至少一个处理器；至少一个存储器，存储有计算机程序，当所述计算机程序被所述至少一个处理器执行时，实现根据本公开的示例性实施例的音频处理方法。

根据本公开的示例性实施例，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

对于不同歌曲，根据参考Midi文件，自适应地调整人声偏移的音高得到和声旋律，并将和声旋律与原声叠加，从而达到智能和声的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开的示例性实施例的音频处理系统的结构示意图。

图2示出根据本公开的示例性实施例的音频处理方法的流程图。

图3示出一段示例歌曲的参考Midi音高序列的示例。

图4示出一段示例歌曲的音高统一化处理后的参考Midi音高序列的示例。

图5示出根据本公开的示例性实施例的偏移量序列的示例。如图5所示，偏移量序列在三和四之间来回浮动。

图6示出根据本公开的一个示例性实施例的音频处理装置的框图。

图7是根据本公开的示例性实施例的电子设备700的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在线上K歌系统中，为了判断演唱者音准，一般情况都会提供记录正确人声音高对应参考乐器数字接口(musical Instrument Digital Interface，简称Midi)文件，里面记录了Midi音高、每个音的起始的时间，以及每个音高的持续时间。Midi用音符的数字控制信号来记录音乐，包含了每个事件包括乐器、音高、通道、持续时间、音量和力度等信息。参考Midi文件的获取途径一般有人工制作或通过算法自动识别原唱的音高轮廓线得到两种。另外，在K歌时会有录制得到的人声音频信号，以及服务器端下发的演唱歌曲对应的调式和调性。在本公开中，可根据已有的调式调性，综合考虑了不同音域的特点并结合相关乐理知识对原声进行分帧移调，再与原声进行不同权重的加权得到和声干声，最后再经过EQ、压缩以及混响等音乐效果器，并与伴奏进行混音，得到智能和声的最终效果。此外，还可将移调后的人声通过合唱效果器，从而实现合唱效果。下面，将参照图1至图7具体描述根据本公开的示例性实施例的音频处理方法及装置。

如图1所示，首先从参考参考乐器数字接口(Midi)文件获取参考Midi音高序列，然后基于参考Midi音高序列的调式对参考Midi音高序列进行转调，当参考Midi音高序列的调式是大调时，将参考Midi音高序列转调为第一调式(例如，但不限于，C大调)；当参考Midi音高序列的调式是小调时，将参考Midi音高序列转调为第二调式(例如，但不限于，a小调)。

在对参考Midi音高序列进行转调之后，首先基于转调后的Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列，然后基于人声音频信号的偏移量序列对人声音频信号进行分帧移调，获得人声音频移调信号。之后，将人声音频信号和人声音频移调信号进行混合，得到人声音频信号的和声。最后再经过均衡器(EQ)、压缩以及混响等音乐效果器，并与伴奏进行混音，得到智能和声的最终效果。

参照图2，在步骤S201，获取参考Midi音高序列。

与波形文件不同，Midi文件不对音乐进行抽样，而是对音乐的每个音符记录为一个数字，所以与波形文件相比文件要小得多，可以满足长时间音乐的需要。Midi标准规定了各种音调的混合及发音，通过输出装置可以将这些数字重新合成为音乐。

在本公开的示例性实施例中，在获取参考Midi音高序列的步骤之前，可首先从参考Midi文件提取关键信息，然后将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为参考Midi音高序列。这里，关键信息可包括Midi音高、音高起始时间、音高持续时间中的至少一个。

图3示出一段示例歌曲的参考Midi音高序列的示例。在图3中，纵坐标表示Midi音高，横坐标表示时间。如图3所示，由参考Midi音高序列可得到Midi音高、音高起始时间、音高持续时间。

在本公开的示例性实施例中，在获取参考Midi音高序列时，可首先获取参考Midi文件，即，确定与待处理的音频或者人声音频信号相应的参考Midi文件，然后获取从参考Midi文件提取的参考Midi音高序列。这里，参考Midi音高序列可被提前提取，从而提高了获取的参考Midi音高序列的效率。

在本公开的示例性实施例中，在获取参考Midi音高序列时，还可获取提取的参考Midi音高序列的调式，并且基于参考Midi音高序列的调式对参考Midi音高序列进行转调，将转调后的参考Midi音高序列确定为参考Midi音高序列。这里，调式可包括大调和小调。

在本公开的示例性实施例中，在基于参考Midi音高序列的调式对参考Midi音高序列进行转调时，可当参考Midi音高序列的调式是大调时，将参考Midi音高序列转调为第一调式；当参考Midi音高序列的调式是小调时，将参考Midi音高序列转调为第二调式。

在本公开的示例性实施例中，在获取参考Midi音高序列还时，可对参考Midi音高序列进行音高统一化处理，并将音高统一化处理后的参考Midi音高序列作为最终的参考Midi音高序列。

在一个示例中，为了方便处理，按照参考Midi音高序列的调式调性，将任意的参考Midi音高序列都转换为相同的调式。例如，将大调歌曲都转成C大调，小调歌曲都转成a小调。不同调式的音阶之间的差距都是相同的，如D大调与C大调音阶对应的音高都差了两个半音，如果想要将D大调转成C大调，只需要将D大调的所有的参考Midi音高减去二即可。小调歌曲可参考大调歌曲，自然大调歌曲与其自然关系小调对应的音阶都是相同的，如a小调与C大调互为关系大小调，因此其音阶中的所有音高也是相同的。因此，如果参考Midi音高序列的调式是大调，则将参考Midi音高序列转换为C大调；如果参考Midi音高序列的调式是小调，则将参考Midi音高序列转换为a小调。在将参考Midi音高序列转换为C大调或a小调之后，还将参考Midi音高都归类到对应的音级(pitch class)，由于音阶里一般只有十二个音，分别为c、c#、d、d#、e、f、f#、g、g#、a、a#、b，因此每个音高都可以将其归类到12个pitchclass中，以进行音高统一化处理，在一种实现中，我们将得到的参考Midi的音高序列除以12求其余数加上1，就可以得到在1到12范围内的序列。对于无人声歌唱的部分，序列值可被设置为零。可根据如下公式来计算pitch class：Pitch class＝mod(midi_note,12)+1。

图4示出一段示例歌曲的音高统一化处理后的参考Midi音高序列的示例。在图4中，纵坐标表示音级，横坐标表示时间。如图4所示，音高统一化处理后的参考Midi音高序列的每个值处于1到12之间。

在步骤S202，基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列。

在本公开的示例性实施例中，在基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量时，可首先将参考Midi音高序列偏移预设偏移量，获得偏移后的参考Midi音高序列，接着将偏移后的参考Midi音高序列中不在音阶里的音高进行修正，获得各帧音高的偏移量的修正量，然后基于预设偏移量和各帧音高的偏移量的修正量，确定各帧音高的偏移量。

在本公开的示例性实施例中，预设偏移量可包括正三度、正四度、负三度、负四度中的至少一个。

通常在配和声的时候我们一般选择上移三度(大三度或小三度)作为副旋律，但是如果对所有音进行平行三度相当是改变了原来歌曲的调式，会出现非音阶音，因此，在本公开中，对这些音进行上调或下调使其不破坏原声的调性和调式，产生更加和谐的和声效果。比如，C大调音阶包括c、d、e、f、g、a、b，但是如果给C大调的歌平行移动大三度，即E大调，则音阶就包括了e、#f、#g、a、b、#c、#d，其中#f、#g、#c、#d为非C大调的音阶音，因此需要降半音处理才能满足所有的音都在音阶里。具体来说，可根据得到的pitch class确定是否需要降半音，最后得到偏移量序列。

图5示出根据本公开的示例性实施例的偏移量序列的示例。在图5中，纵坐标表示偏移量，横坐标表示时间。如图5所示，偏移量序列在三和四之间来回浮动。

在本公开的示例性实施例中，在基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量时还可基于参考Midi音高序列的音域确定预设偏移量。当参考Midi音高序列的音域超过预设音域时，将预设偏移量确定为负三度或负四度；当参考Midi音高序列的音域不超过预设音域时，将预设偏移量确定为正三度或正四度。

在一个示例中，考虑到有些歌曲的音域偏高，此时如果还对人声音高进行上移会不符合真实情况，此时可以考虑给人声音高下移大约三度。具体来说，可首先将参考Midi音高序列下移三度，并将下移三度后的参考Midi音高序列中不在音阶里的音高进行修正。在一种实现中，可考虑将800Hz以上的人声音频信号进行下移三度作为和声副旋律。

在步骤S203，基于人声音频信号的偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号。

在本公开的示例性实施例中，在基于所述偏移量序列对所述人声音频信号进行分帧移调时，可分别将所述人声音频信号中的每帧偏移所述偏移量序列中的相应帧的偏移量，从而获得人声音频移调信号。

在步骤S204，将人声音频信号和人声音频移调信号进行混合，得到人声音频信号的和声。

在本公开的示例性实施例中，在将人声音频信号和人声音频移调信号进行混合时，可首先对人声音频移调信号进行延迟，获得延迟后的人声音频移调信号，然后将人声音频信号和延迟后的人声音频移调信号进行混合，从而通过对声音的延迟的时间做周期性的改变产生与原声前后交错的合唱效果。

在本公开的示例性实施例中，在对所述人声音频移调信号进行延迟时，可首先使用线性差值的方式确定人声音频移调信号的延迟时间，然后将人声音频移调信号延迟确定的延迟时间。

通常，在相关技术中一般合唱效果器的偏移时间为25ms左右。在一个示例中，可首先使用低频振荡器(Low frequency oscillator，简称LFO)对延迟时间进行改变，然后利用线性差值的方式进行小数延迟，得到和声的合唱效果。

在本公开的示例性实施例中，还可将加了合唱效果的和声与原声进行混合，并加入EQ、压缩、混响等音乐效果器，对人声进行美化，最后加入伴奏得到智能和声的结果。

以上已经结合图1至图5对根据本公开的示例性实施例的音频处理方法进行了描述。在下文中，将参照图6对根据本公开的示例性实施例的音频处理装置及其单元进行描述。

参照图6，音频处理装置包括参考序列获取单元61、偏移量确定单元62、分帧移调单元63和信号混合单元64。

参考序列获取单元61被配置为获取参考乐器数字接口Midi音高序列。

在本公开的示例性实施例中，参考序列获取单元61可被配置为：获取参考Midi文件；并且获取从参考Midi文件提取的参考Midi音高序列。

在本公开的示例性实施例中，音频处理装置还可包括预先提取单元(未示出)，被配置为：从参考Midi文件提取关键信息，其中，关键信息包括Midi音高、音高起始时间、音高持续时间中的至少一个；并且将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为参考Midi音高序列。

在本公开的示例性实施例中，参考序列获取单元61还可被配置为：获取提取的参考Midi音高序列的调式；基于参考Midi音高序列的调式对参考Midi音高序列进行转调，将转调后的参考Midi音高序列确定为参考Midi音高序列，其中，调式包括大调和小调。

在本公开的示例性实施例中，参考序列获取单元61还可被配置为：当参考Midi音高序列的调式是大调时，将参考Midi音高序列转调为第一调式；当参考Midi音高序列的调式是小调时，将参考Midi音高序列转调为第二调式。

在本公开的示例性实施例中，参考序列获取单元61还可被配置为：对参考Midi音高序列进行音高统一化处理，将音高统一化处理后的参考Midi音高序列作为最终的参考Midi音高序列。

偏移量确定单元62被配置为基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列。

在本公开的示例性实施例中，偏移量确定单元62可被配置为：将参考Midi音高序列偏移预设偏移量，获得偏移后的参考Midi音高序列；将偏移后的参考Midi音高序列中不在音阶里的音高进行修正，获得各帧音高的偏移量的修正量；基于预设偏移量和各帧音高的偏移量的修正量，确定各帧音高的偏移量。

在本公开的示例性实施例中，偏移量确定单元62还可被配置为：基于参考Midi音高序列的音域确定预设偏移量，其中，当参考Midi音高序列的音域超过预设音域时，将预设偏移量确定为负三度或负四度；当参考Midi音高序列的音域不超过预设音域时，将预设偏移量确定为正三度或正四度。

分帧移调单元63被配置为基于所述偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号。

在本公开的示例性实施例中，分帧移调单元63可被配置为：分别将所述人声音频信号中的每帧偏移所述偏移量序列中的相应帧的偏移量。

信号混合单元64被配置为将所述人声音频信号和所述人声音频移调信号进行混合，得到所述人声音频信号的和声。

在本公开的示例性实施例中，信号混合单元64可被配置为：对所述人声音频移调信号进行延迟，获得延迟后的人声音频移调信号；将所述人声音频信号和延迟后的人声音频移调信号进行混合。

在本公开的示例性实施例中，信号混合单元64可被配置为：使用线性差值的方式确定所述人声音频移调信号的延迟时间；将所述人声音频移调信号延迟所述延迟时间。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上已经结合图6对根据本公开的示例性实施例的音频处理装置进行了描述。接下来，结合图7对根据本公开的示例性实施例的电子设备进行描述。

图7是根据本公开的示例性实施例的电子设备700的框图。

参照图7，电子设备700包括至少一个存储器701和至少一个处理器702，所述至少一个存储器701中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器702执行时，执行根据本公开的示例性实施例的音频处理的方法。

作为示例，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备700并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备700中，处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器701中的指令或代码，其中，存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器701可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器702能够读取存储在存储器中的文件。

此外，电子设备700还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还提供一种包括指令的计算机可读存储介质，例如包括指令的存储器704，上述指令可由装置700的处理器720执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的音频处理的方法。

以上已参照图1至图7描述了根据本公开的示例性实施例的音频处理方法及装置。然而，应该理解的是：图6中所示的音频处理装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图7中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的音频处理方法及装置，通过首先获取参考乐器数字接口Midi音高序列，之后基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列，然后基于所述偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号，最后将人声音频信号和所述人声音频移调信号进行混合，得到人声音频信号的和声，从而避免因整体偏移音高而带来不和谐音。也就是说，通过对于不同歌曲，根据参考Midi文件，自适应地调整人声偏移的音高得到和声旋律，并将和声旋律与原声叠加，从而达到智能和声的效果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取参考乐器数字接口Midi音高序列；

基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列；

基于所述偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号；

将所述人声音频信号和所述人声音频移调信号进行混合，得到所述人声音频信号的和声。

2.根据权利要求1所述的音频处理方法，其特征在于，音频处理基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量的步骤包括：

将参考Midi音高序列偏移预设偏移量，获得偏移后的参考Midi音高序列；

将偏移后的参考Midi音高序列中不在音阶里的音高进行修正，获得各帧音高的偏移量的修正量；

基于预设偏移量和各帧音高的偏移量的修正量，确定各帧音高的偏移量。

3.根据权利要求2所述的音频处理方法，其特征在于，预设偏移量包括正三度、正四度、负三度、负四度中的至少一个。

4.根据权利要求1所述的音频处理方法，其特征在于，将所述人声音频信号和所述人声音频移调信号进行混合的步骤包括：

对所述人声音频移调信号进行延迟，获得延迟后的人声音频移调信号；

将所述人声音频信号和延迟后的人声音频移调信号进行混合。

5.根据权利要求4所述的音频处理方法，其特征在于，对所述人声音频移调信号进行延迟的步骤包括：

使用线性差值的方式确定所述人声音频移调信号的延迟时间；

将所述人声音频移调信号延迟所述延迟时间。

6.根据权利要求1所述的音频处理方法，其特征在于，获取参考Midi音高序列的步骤包括：

获取参考Midi文件；并且

获取从参考Midi文件提取的参考Midi音高序列。

7.一种音频处理装置，其特征在于，包括：

参考序列获取单元，被配置为获取参考乐器数字接口Midi音高序列；

偏移量确定单元，被配置为基于参考Midi音高序列确定人声音频信号中各帧音高的偏移量，获得人声音频信号的偏移量序列；

分帧移调单元，被配置为基于所述偏移量序列对所述人声音频信号进行分帧移调，获得人声音频移调信号；和

信号混合单元，被配置为将所述人声音频信号和所述人声音频移调信号进行混合，得到所述人声音频信号的和声。

8.一种电子设备/服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的音频处理方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行如权利要求1至6中任一项所述的音频处理方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，当所述计算机程序/指令被处理器执行时，实现权利要求1至6中任一项所述的音频处理方法。