CN108804474A

CN108804474A - 歌曲的音频信号处理方法、音频相似度匹配方法及装置

Info

Publication number: CN108804474A
Application number: CN201710310560.0A
Authority: CN
Inventors: 朱碧磊; 李科; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2018-11-13
Anticipated expiration: 2037-05-05
Also published as: CN108804474B

Abstract

本公开揭示了一种歌曲的音频信号处理方法、音频相似度匹配方法及装置、计算机可读存储介质，该方法包括：针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列；对主旋律音高序列进行音符定位生成对应于多音音频信号中主旋律音符的第一主旋律记谱结果；按照主旋律音符融合预先获得的清唱记谱结果和第一主旋律记谱结果，为待处理歌曲生成第二主旋律记谱结果；其中，清唱记谱结果由待处理歌曲的清唱数据获得。本公开提供的技术方案，通过融合清唱记谱结果与歌曲的第一主旋律记谱结果，形成歌曲最终的主旋律记谱结果，以上两种记谱结果的融合，避免了音符缺失或多出，提高了音符音高值的准确性，进而提高了最终歌曲主旋律记谱结果的准确性。

Description

歌曲的音频信号处理方法、音频相似度匹配方法及装置

技术领域

本公开涉及音频处理技术领域，特别涉及一种歌曲的音频信号处理方法、音频相似度匹配方法、装置及存储介质。

背景技术

音乐包括单音音乐和多音音乐，其中，单音音乐是指一种音乐信号中只包含一种声音，如吉他独奏、人声清唱；多音音乐是指音乐信号中包含多种声源同时发声，如歌曲(通常包含人声和多种乐器声的混合)。主旋律是歌曲中听的最清楚的、印象最深刻的那个旋律，对主旋律记谱就是将主旋律转录为音符序列，并且需要对每个音符的开始时间、时长以及音高进行描述。在歌曲中，主旋律通常对应人声旋律。

对歌曲(多音音乐)的主旋律进行记谱，通常包括两个任务，一是从多音音乐中提取主旋律音高序列，二是对主旋律音符的开始和结束位置进行定位，并为每个音符分配音高值。其中，多音音乐中的主旋律音高提取是一个非常困难的问题，其主要原因在于以下两点：(1)在多音音乐的大多数时间段内，主旋律和伴奏同时发声，不同声音的频谱在时间和频率上大量重叠，这些重叠部分的频率分量很难被划分为某一单一声源；(2)对于给定的多音音乐，在得到某个音高序列后，也很难确定某个时间的音高是属于主旋律或者属于伴奏。目前来说，主旋律音高提取的主要方法可以分为两类：一是假设主旋律是多音音乐中最显著的声音，因而可以通过对可能的音高计算显著性函数，并提取显著性函数值最高的音高组成音高序列来表示主旋律；二是首先对多音音乐中的人声和伴奏进行分离，然后对分离出来人声进行音高检测(此时人声为单音信号，单音音高检测的准确率较高)。主旋律音符定位的方法众多，传统方法使用信号处理技术，利用音乐信号频谱能量、音高或者相位的变化捕捉音符边界。

在对歌曲的主旋律进行记谱时，由于提取的主旋律音高序列中包含大量错误包括人声漏检(在包含人声的区域未能检出)，误检(在不包含人声的区域检出人声)和音高错误(在包含人声的区域检出人声，但音高值错误)等。因此，使用现有的主旋律记谱方法，记谱结果非常不准确。

发明内容

为了解决相关技术中存在的歌曲主旋律记谱不准确的问题，本公开提供了一种歌曲的音频信号处理方法。

本公开提供了一种歌曲的音频信号处理方法，所述方法包括：

针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列；

对所述主旋律音高序列进行音符定位生成对应于所述多音音频信号中主旋律音符的第一主旋律记谱结果；

按照主旋律音符融合预先获得的清唱记谱结果和所述第一主旋律记谱结果，为所述待处理歌曲生成第二主旋律记谱结果；其中，所述清唱记谱结果由所述待处理歌曲的清唱数据获得。

本公开还提供了一种音频相似度匹配方法，该方法包括：

获取指定歌曲的用户音频信号；

对所述用户音频信号进行音频信号处理生成用户音频记谱结果；

获取所述指定歌曲的第二主旋律记谱结果；其中，所述第二主旋律记谱结果是通过融合所述指定歌曲的清唱记谱结果和对应所输入的所述指定歌曲的多音音频信号的第一主旋律记谱结果而生成的；

根据所述第二主旋律记谱结果与所述用户音频记谱结果之间的匹配程度，输出匹配度提示信息。

另一方面，本公开还提供了一种歌曲的音频信号处理装置，所述装置包括：

音高序列提取模块，用于针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列；

主旋律记谱模块，用于对所述主旋律音高序列进行音符定位生成对应于所述多音音频信号中主旋律音符的第一主旋律记谱结果；

记谱融合模块，用于按照主旋律音符融合预先获得的清唱记谱结果和所述第一主旋律记谱结果，为所述待处理歌曲生成第二主旋律记谱结果；其中，所述清唱记谱结果由所述待处理歌曲的清唱数据获得。

本公开还提供了一种音频相似度匹配装置，该装置包括：

音频录制模块，用于获取指定歌曲的用户音频信号；

音频记谱模块，用于对所述用户音频信号进行音频信号处理生成用户音频记谱结果；

主旋律获取模块，用于获取所述指定歌曲的第二主旋律记谱结果；其中，所述第二主旋律记谱结果是通过融合所述指定歌曲的清唱记谱结果和对应所输入的所述指定歌曲的多音音频信号的第一主旋律记谱结果而生成的；

匹配输出模块，用于根据所述第二主旋律记谱结果与所述用户音频记谱结果之间的匹配程度，输出匹配度提示信息。

本公开还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成以下方法：

本公开还提供了另一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成以下方法：

获取指定歌曲的用户音频信号；

本公开的实施例提供的技术方案可以包括以下有益效果：

通过获取由清唱数据生成的清唱记谱结果，将清唱记谱结果与歌曲的第一主旋律记谱结果进行融合，形成歌曲最终的主旋律记谱结果。以上两种记谱结果的融合，提高了音符的准确性，避免了音符缺失或多出，提高了音符音高值的准确性，进而提高了最终歌曲主旋律记谱结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的可选的实施环境的示意图；

图2是根据一示例性实施例示出的一种装置的框图；

图3是根据一示例性实施例示出的一种歌曲的音频信号处理方法的流程图；

图4是根据一示例性实施例示出的将第一主旋律记谱结果和清唱记谱结果融合的原理示意图；

图5是根据一示例性实施例示出的DNN模型的架构示意图；

图6是根据一个示例性实施例示出的对步骤S330的细节进行描述的流程示意图；

图7是根据一个示例性实施例示出的对如何获取清唱记谱结果的细节进行描述的流程示意图；

图8是根据一个示例性实施例示出的在步骤S702之后该歌曲的音频信号处理方法还需执行的步骤的流程示意图；

图9为根据另一示例性实施例示出的一种歌曲的音频处理方法的详细流程示意图；

图10是根据另一示例性实施例示出的一种音频相似度匹配方法的流程图；

图11是根据一示例性实施例示出的一种歌曲的音频处理装置的框图；

图12是根据一示例性实施例示出的主旋律记谱模块的框图；

图13是根据一示例性实施例示出的清唱记谱模块的框图；

图14是根据另一示例性实施例示出的清唱记谱模块的框图；

图15是根据另一示例性实施例示出的一种音频相似度匹配装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开所涉及的可选的实施环境的示意图。该实施环境包括：服务器110和至少一个应用程序120。

服务器110与应用程序120之间的关联方式，包括硬件的网络关联方式和/或协议，以及二者之间往来的数据关联方式。该服务器110中可以设置歌曲的音频信号处理模块。该音频信号处理模块可以实现本公开的音频信号处理方法。

其中，该应用程序120可以为音频录制应用，如K歌软件。服务器110采用本公开所提供的方案进行歌曲的音频信号处理，生成的第二主旋律记谱结果可以存储在服务器110的数据库中，在应用程序120运行时，可以从服务器110的数据库中调用第二主旋律记谱结果。

图2是根据一示例性实施例示出的一种装置200的框图。例如，装置200可以是图1所示实施环境中的服务器110，移动终端或智能设备。移动终端比如可以是智能手机、平板电脑。智能设备比如可以是各种智能家居设备或智能穿戴设备，比如智能电视、智能电视机顶盒、智能音响以及智能手环等。

参照图2，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，传感器组件214以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件202可以包括一个或多个处理器218来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器204中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器218执行，以完成下述图3、图6-10任一所示方法中的全部或者部分步骤。

电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(Microphone，简称MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到装置200的打开/关闭状态，组件的相对定位，传感器组件214还可以检测装置200或装置200一个组件的位置改变以及装置200的温度变化。在一些实施例中，该传感器组件214还可以包括磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(Near FieldCommunication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，简称RFID)技术，红外数据协会(Infrared DataAssociation，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

图3是根据一示例性实施例示出的一种歌曲的音频信号处理方法的流程图。该歌曲的音频信号处理方法的适用范围和执行主体，例如，该方法用于图1所示实施环境的服务器110，也可以是图2所示的装置200，例如移动终端、智能设备等。该服务器110在一个示例性实施例中可以是图2所示的装置200。如图3所示，该歌曲的音频信号处理方法，可以由服务器110、移动终端或智能设备执行，该方法可以包括以下步骤。

在步骤310中，针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列；

需要说明的是，歌曲是一种包含人声和多种乐器声混合的多音音乐，多音音乐由于包含多种声源同时发声，采用现有技术提取主旋律音高序列时会出现大量错误，从而导致最终的主旋律记谱结果出现音符缺失、音符多出或音高错误等。

为了对待处理歌曲进行主旋律记谱，在一种实施方式中，首先可以采用现有技术来提取待处理歌曲的多音音频信号的主旋律音高序列。主旋律音高序列是一个长度数千或者1万左右的浮点数序列，每一个点表示一个音高，整个序列构成一个时间序列，其中的零值表示该时刻没有主旋律的声音。在另一种实施例中，可以使用一种基于深度神经网络(Deep Neural Network，DNN)的方法进行主旋律音高序列的提取。具体可以参照下文实现。

在步骤330中，对所述主旋律音高序列进行音符定位生成对应于所述多音音频信号中主旋律音符的第一主旋律记谱结果；

具体的，在获取了主旋律音高序列之后，可以对主旋律音高序列进行音符定位；换句话说，即对主旋律音高序列进行划分，哪些音高属于同一个音符。其中，音符定位的方法众多，可以采用信号处理技术，通过利用多音音乐信号的频谱能量、音高或相位的变化捕捉音符边界。另外，也可以采用深度神经网络、卷积神经网络、循环神经网络等进行音符检测。在本公开的一个实施例中，也可以利用歌词时间戳进行音符定位。具体方式可以参见下文。

在进行音符定位后，即为每个音符划分了音高序列，换句话说，可以确定每个音符在持续时间内的所有音高值。举例来说，可以将当前音符在持续时间内的所有音高值的中值作为该当前音符的音高值。以此类推，可以确定每个音符的音高值。根据每个音符的音高值、开始时间和持续时长，就可以形成主旋律音符的第一主旋律记谱结果。需要说明的是，此处的第一仅用于与最终形成的主旋律记谱结果(即第二主旋律记谱结果)进行区分。

在步骤350中，按照主旋律音符融合预先获得的清唱记谱结果和所述第一主旋律记谱结果，为所述待处理歌曲生成第二主旋律记谱结果；其中，所述清唱记谱结果由所述待处理歌曲的清唱数据获得。

在本公开的一种实施例中，执行主体可以直接从数据库或外部设备中获取待处理歌曲的清唱记谱结果，其中，该清唱记谱结果由待处理歌曲的清唱数据生成。其中，该清唱数据可以由现有的K歌应用或其他音频录制应用等提供，清唱数据可以包括数十个甚至上千个对于该待处理歌曲的清唱音频信号。

清唱音频信号是一种无伴奏的单音音乐。对于清唱数据，可以采用现有方法进行音高序列提取，每个清唱音频信号提取一个音高序列，数十个甚至上千个清唱音频信号存在数十个甚至上千个音高序列。

需要说明的是，清唱数据通常由非专业演唱者演唱得到，因而经常出现唱歌跑调的情况，演唱者在音频录制过程也可能存在噪声信号，导致清唱数据中包含了噪声音频。为了降低跑调音频和噪声音频对最终的主旋律记谱结果的影响，在一种示例性实施例中，可以对数十个甚至上千个音高序列进行筛选，滤除质量较低的音高序列，并对剩余的音高序列分别结合歌词的时间戳进行记谱。

具体的，在获得了待处理歌曲的清唱记谱结果和第一主旋律记谱结果的基础上，将这些结果进行融合作为待处理歌曲最终的主旋律记谱结果(即第二主旋律记谱结果)。需要说明的是，第一主旋律记谱结果中包括了主旋律每个音符的音高值，清唱记谱结果中也包括了主旋律每个音符对应的音高值，融合过程就是根据第一主旋律记谱结果中的每个音符的音高值和清唱记谱结果中每个音符的音高值，得到最终的待处理歌曲的每个音符的音高值。

图4是本公开一种实施例提供的将第一主旋律记谱结果和清唱记谱结果融合的原理示意图。参照图4所示，步骤S350按照主旋律音符融合预先获得的清唱记谱结果和所述第一主旋律记谱结果，为所述待处理歌曲生成第二主旋律记谱结果，具体包括：针对每一音符，根据所述音符在所述清唱记谱结果和所述第一主旋律记谱结果中的音高值计算所述音符的音高，最终将获得的每一音符的音高顺序形成所述待处理歌曲的第二主旋律记谱结果。

可选的，获得的每一音符的音高，可以是当前音符在第一主旋律记谱结果和清唱记谱结果中的所有音高值的中值。当然根据需要也可以是平均值。在一种实施例中，每个音符和歌词中的每个字是一一对应关系，在第二主旋律记谱结果中，每个音符的开始时间和持续时长也可以按照歌词时间戳进行划分，每个音符的音高值则可以是第一主旋律记谱结果和清唱记谱结果中当前字对应的所有音高值的中值、平均值。

可见，最终的主旋律记谱结果综合了两种记谱结果(即第一主旋律记谱结果和清唱记谱结果)，使用清唱记谱结果改进了多音音频信号的第一主旋律记谱结果。

由于歌曲包含多种声源同时发声，不同声音在时间和频率上大量叠加，难以划分某一单一声源，并且歌曲除了主旋律还包括伴奏，所以在对歌曲的主旋律进行记谱时，由于提取的主旋律音高序列中包含大量错误包括人声漏检(在包含人声的区域未能检出)，误检(在不包含人声的区域检出人声)和音高错误(在包含人声的区域检出人声，但音高值错误)等。因此，使用现有的主旋律记谱方法，记谱结果非常不准确。通过如上所述的示例性实施例，通过获取由清唱数据生成的清唱记谱结果，将清唱记谱结果与歌曲的第一主旋律记谱结果进行融合，形成歌曲最终的主旋律记谱结果。以上两种记谱结果的融合，提高了音符的准确性，一定程度上避免了音符缺失或多出，提高了音符音高值的准确性，进而提高了歌曲最终主旋律记谱结果的准确性。

在一个示例性实施例中，在步骤S310，针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列之前，本公开提供的歌曲的音频信号处理方法还包括以下步骤：

获取多种不同歌曲的多音音频信号以及对应的音高序列；

以所述不同歌曲的多音音频信号为输入，对应的音高序列为标签，进行深度神经网络模型的训练；其中，所述深度神经网络模型用于进行主旋律音高序列的提取。

如前所述，可以使用一种基于深度神经网络(Deep Neural Network，DNN)的方法进行主旋律音高序列的提取。因此，在进行主旋律音高序列提取之前需进行DNN模型的训练。

在一种示例性实施例中，如图5所示，DNN模型包含一个输入层，3个隐层和一个输出层。3个隐层是全连接的，每个隐层包含1024个隐单元，使用修正线性单元(RectifiedLinear Unit,ReLU)作为激活函数。

在训练模型时，可以先获取多种不同歌曲的多音音频信号和对应的音高序列。例如，可以收集2246首歌曲的MIDI数据(Musical Instrument Digital Interface，简称MIDI，是一种数字音乐、乐器的通信标准。MIDI文件可以灵活的记录歌曲的音高及音长等信息，便于计算机进行音高的分析与处理)，并对MIDI数据进行解码得到音高序列，通过对不同歌曲的多音音频信号进行常数Q变换(Constant-Q Transform,CQT)得到CQT特征。

使用CQT特征作为DNN模型的输入层的输入，将对应的音高序列作为DNN模型的标签，训练DNN模型的参数。在模型训练过程中，DNN模型的参数可以使用标准随机梯度下降(Stochastic Gradient Descent,SGD)算法进行优化，直到交叉熵提升小于某个阈值时终止。在DNN模型训练完成后，就可以通过该DNN模型进行多音音频信号的主旋律音高序列的提取。

在一个示例性实施例中，根据图3对应实施例示出的对步骤S310的细节进行描述，该步骤S310针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列，可以包括以下步骤：

以所述待处理歌曲相应输入的多音音频信号为输入，利用训练完成的所述深度神经网络模型获得所述待处理歌曲的多音音频信号的音高概率分布；

通过所述音高概率分布生成主旋律音高序列。

具体而言，可以对待处理歌曲的多音音频信号进行常数Q变换(CQT)得到CQT特征，将该待处理歌曲的多音音频信号的CQT特征作为上述训练完成后的DNN模型的输入。与常用的傅里叶变换采用线性频率尺度不同，CQT采用了对数频率尺度，因而更加符合人类对于音乐的感知。

在计算CQT特征时，可以采用了librosa(音频处理库)工具箱，其中hop_length(跳距)参数设置为512个采样点(采样率＝44.1kHz)。CQT计算的输出为一系列的时间帧，其中每帧包含一个CQT频谱。对于每一个时间帧，我们采用当前帧的CQT频谱以及前20帧、后20帧CQT频谱的组合作为当前帧的CQT特征。

DNN模型的输入层可以使用待处理歌曲的CQT特征作为输入，DNN模型的输出层可以使用softmax函数获得输出概率分布，即音高概率分布。在一种示例性实施例中，DNN模型输出数值范围设置为1-60，对应人类可能唱出的位于2khz以下的60个音符，每个数值的输出概率值对应每个音符的音高值，从而根据输出的每个数值的概率值可以得到每个音符的音高值，连续音符的音高值即构成主旋律音高序列。

上述示例性实施例，基于深度神经网络模型进行主旋律音高序列的提取，与传统的主旋律音高序列提取方案相比，提取的主旋律音高序列的总体准确率可以提高10％左右。

图6是根据一个示例性实施例对步骤S330：对主旋律音高序列进行音符定位生成对应于所述多音音频信号中主旋律音符的第一主旋律记谱结果步骤的细节进行描述的流程示意图，如图6所示，该步骤S330可以包括以下步骤。

在步骤S601中，根据所述待处理歌曲获取歌词的时间戳信息；其中，所述歌词的时间戳信息指示每一音符所对应的时间区域；

如前所述，可以利用歌词时间戳进行音符定位，将提取的主旋律音高序列与歌词文件所提供的时间戳信息结合即可对多音音频信号进行主旋律记谱。具体的，歌词文件可以为Irc格式，以中文歌词举例来说，该歌词文件包含了歌词中每个字的开始时间和持续时长，主旋律的每个音符与该歌词中的每个字一一对应，从而利用歌词的时间戳信息可以得到每个音符的开始时间和持续时长，也就是每个音符对应的时间区域。

在步骤S602中，按照所述时间戳信息为每一音符划分所述主旋律高音序列，获得每一音符时间区域内的所有音高值；

需要解释的是，由于主旋律音高序列整体构成一个时间序列，从而根据歌词的时间戳信息指示的每个音符所对应的时间区域，可以对主旋律音高序列按照每个音符的时间区域进行切分，得到每个音符所对应时间区域内的所有音高值。

在步骤S603中，对每一音符时间区域内的所有音高值进行计算，获得每一音符的音高，所述每一音符的音高顺序形成所述多音音频信号的第一主旋律记谱结果。

在步骤S602获得每个音符时间区域内的所有音高值的基础上，可以针对每个音符执行以下操作：计算当前音符在时间区域内的所有音高值的中值或平均值，以此作为当前音符的音高。以此类推，按序可以计算出每个音符的音高，形成待处理歌曲的多音音频信号的第一主旋律记谱结果。

有上述可知，利用歌词时间戳的信息来进行音符定位，与传统信号处理技术相比，提高了音符定位的准确性，从时间上来说，更加方便快捷；根据每个音符在对应时间区域内的所有音高值来计算每个音符的音高，提高了每个音符的音高值的准确性，进而可以提高歌曲最终主旋律记谱结果的准确性。

在一个示例性实施例中，如图7所示，在步骤S350之前本公开提供的歌曲的音频信号处理方法还可以包括以下步骤：

S701：采集所述待处理歌曲的清唱数据；

其中，对于某一待处理歌曲，在一个示例性实施例中，可以从K歌软件或者其他外部设备中直接获取事先已存储的不同演唱者对于该歌曲的清唱数据。需要说明的是，该清唱数据为一种单音音乐，在没有噪音的前提下，清唱数据在任一时间只包含一种声音，没有伴奏。换句话说，清唱数据包含了不同演唱者演唱该歌曲的单音音频信号。另外，由于清唱数据不含伴奏，所以提取的清唱数据的音高序列准确率相对较高。

S702：从所述清唱数据中提取单音音高序列；

其中，在对清唱数据进行记谱时，本公开一种示例性实施例中，可以使用YIN(基频提取)算法从清唱数据包含的每个单音音频信号中提取一个单音音高序列。YIN是一种著名的基于自相关的基频提取算法，举例来说，在YIN算法使用中，可以设置帧长为1024个采样点，相邻帧之间的重叠为512个采样点，(采样率＝44.1kHz)，基频范围为100～800Hz。值得注意的是，YIN算法输出以Hz为单位的基频，其到音高值的转换由下式(1)完成，

其中f是Hz频率，n是相应的音高值，[x]取x的最近整数。

由此，通过YIN算法以及上述公式(1)的计算，即可从清唱数据中提取出单音音高序列。

S703：对所述单音音高序列进行音符定位生成清唱记谱结果。

其中，对单音音高序列的音符定位方式可以参照上述多音音频信号的主旋律音高序列的音符定位方式进行，举例来说，可以参照步骤S601～步骤S603，利用歌词时间戳信息，对单音音高序列进行切分，然后根据单音音高序列中，每个音符在时间区域内的所有音高值计算每个音符的音高，从而顺序生成清唱记谱结果。

本公开上述示例性实施例，通过获取待处理歌曲的清唱数据，并且生成清唱数据的清唱记谱结果，利用清唱记谱结果弥补第一主旋律记谱结果的误差，通过两种记谱结果的融合，将大大提高歌曲最终的主旋律结果的准确性。

在一种可选的实施例中，在上述步骤S702从所述清唱数据中提取单音音高序列之后，如图8所示，本公开提供的歌曲的音频信号处理方法，还可以包括以下步骤：

在步骤S801中：针对每个单音音高序列，以所述主旋律音高序列为基准，计算所述单音音高序列中音高值与所述主旋律音高序列匹配的时间帧数量；

在步骤S802中：计算所述匹配的时间帧数量占所述单音音高序列的总时间帧的比例；

在步骤S803中：若所述比例小于预设值，则去除所述单音音高序列。

如前所述，通过K歌软件或者其他外部录音设备收集的清唱数据中可能包含一些跑调和噪声音频，由这些音频提取出单音音高序列并生成清唱记谱结果可能会对最终的主旋律记谱结果产生负面影响，因而需在生成清唱记谱结果前对单音音高序列进行筛选。

在一个示例性实施例中，音高序列的筛选可以由音高序列选择模块执行，对每一个单音音高序列，将之与主旋律音高序列进行比较，计算两个音高序列之间音高值相同的时间帧数量占当前单音音高序列的总时间帧的比例，并将比例小于某个阈值的单音音高序列删去。

需要说明的是，在音高序列筛选过程中，DNN模型生成的主旋律音高序列已经可以表示歌曲主旋律，只是准确性还有待进一步提高，将之作为基准筛选出来的单音音高序列则可认为是与歌曲主旋律较像的质量较高的清唱。

在一个示例性实施例中，将筛选出来的每一个单音音高序列和歌词时间戳相结合，利用歌词时间戳来进行音符切分，得到每个音符在对应时间区域内的所有音高值，并通过计算每个音符在对应时间区域内所有音高的中值或平均值来确定每个音符的音高，由此按序形成清唱记谱结果。

上述实施例以主旋律音高序列为基准，对单音音高序列进行筛选，去除音高与主旋律音高序列的音高偏差较大的单音音高序列，从而提高了单音音高序列的质量，使提取的单音音高序列更接近待处理歌曲的清唱的音高序列，进而可以提高清唱记谱结果的准确性，进一步提高歌曲最终的主旋律记谱结果的准确性。

图9为本公开一个示例性实施例提供的一种歌曲音频处理方法的详细流程示意图，该方法的执行主体可以为移动终端，服务器110或智能设备等，如图9所示，该方法具体可以包括以下步骤：

在步骤S901中，对歌曲的多音音频信号进行主旋律音高序列的提取。

在步骤S902中，利用歌词时间戳信息，来进行音符定位，生成第一主旋律记谱结果。

在步骤S903中，获取该歌曲的清唱数据，该清唱数据包括了若干用户清唱该歌曲的清唱音频信号(单音)，利用该清唱数据提取单音音高序列。

在步骤S904中，由于清唱数据中可能存在跑调或噪声音频，所以可以以主旋律音高序列为基准，对单音音高序列进行筛选。

在步骤S905中，利用筛选后的单音音高序列以及歌词时间戳信息进行音符定位，生成清唱记谱结果。

在步骤S906中，通过融合第一主旋律记谱结果和清唱记谱结果生成第二主旋律记谱结果。

其中，步骤S901-S902和步骤S903-S905可以同时进行。

以执行主体为智能手机为例，结合具体应用场景，描述该歌曲的音频信号处理方法。该方法可以用于智能手机中的音频录制应用，如K歌软件等，以及其他需要获取歌曲主旋律记谱结果的业务场景。另外，最终生成的歌曲的第二主旋律记谱结果可以存储在智能手机的本地内存中或者音频录制应用的数据库中。

在实际应用中，智能手机利用存储的歌曲的主旋律记谱结果，与用户演唱的音频数据进行相似度比较，可以生成与相似度对应的字符，如数字、字母、符号等，从而对用户的演唱水平有一个准确评判标准。本公开提供的歌曲音频信号处理方法，通过将第一主旋律记谱结果与清唱记谱结果进行融合，生成了准确率更高的第二主旋律记谱结果，以该第二主旋律记谱结果为基准，比较用户演唱的歌曲与主旋律的相近程度，以此评测用户的演唱能力，也将提高评测结果的准确性。

图10是根据一示例性实施例示出的一种音频相似度匹配方法的流程图。该音频相似度匹配方法的适用范围和执行主体，例如，该音频相似度匹配方法用于图1所示实施环境的服务器110。如图10所示，该音频相似度匹配方法可以包括以下步骤。

在步骤S1010中，获取指定歌曲的用户音频信号；

可选的，在用户演唱指定歌曲时，运行音频录制应用，并录制用户演唱该指定歌曲时的用户音频信号。用户演唱指定歌曲时录制的用户音频信号可以存储在服务器的数据库中。需要说明的是，该指定歌曲的第二主旋律记谱结果已事先存储在服务器的数据库中。

在步骤S1030中，对所述用户音频信号进行音频信号处理生成用户音频记谱结果；

需要说明的是，将获得的用户音频信号进行音频信号处理生成用户音频记谱结果具体可以参照上述实施例中，生成第二主旋律记谱结果的过程。当然，如果在进行音频录制时没有伴奏，生成用户音频记谱结果的过程也可以参照上述实施例中生成清唱记谱结果的过程。在此不再赘述。

在步骤S1050中，获取所述指定歌曲的第二主旋律记谱结果；其中，所述第二主旋律记谱结果是通过融合所述指定歌曲的清唱记谱结果和对应所输入的所述指定歌曲的多音音频信号的第一主旋律记谱结果而生成的；

可选的，服务器的数据库中存储的该指定歌曲的第二主旋律记谱结果，可以通过上述示例性实施例提供的歌曲音频信号处理方法生成。具体的，可以采用步骤S310-步骤S350生成该指定歌曲的第二主旋律记谱结果。该第二主旋律记谱结果由于融合了该指定歌曲的清唱记谱结果和第一主旋律记谱结果，所以该第二主旋律记谱结果的准确性大大提高，更接近歌曲的主旋律。

在步骤S1070中，根据所述第二主旋律记谱结果与所述用户音频记谱结果之间的匹配程度，输出匹配度提示信息。

可选的，可以根据第二主旋律记谱结果与用户音频记谱结果，统计出用户音频记谱结果中每个音符的音高值与第二主旋律记谱结果中对应音符的音高值相同的音符个数，计算出音高值相同的音符个数占总音符个数的比例，得到第二主旋律记谱结果与用户音频记谱结果之间的相似度，进而可以确定用户音频记谱结果与第二主旋律记谱结果的匹配程度，并通过输出与匹配程度对应的匹配度提示信息，例如，输出与匹配程度对应的分数、字母、字符等，可以使用户更加直观得了解自身的演唱水平。

上述示例性实施例提供的音频相似度匹配方法，由于采用的指定歌曲的第二主旋律记谱结果融合了该指定歌曲的清唱记谱结果和第一主旋律记谱结果，因此该第二主旋律记谱结果的准确率较高，通过比较用户音频记谱结果与该第二主旋律记谱结果的匹配程度，来了解用户演唱该歌曲时与主旋律的接近程度，评测用户的演唱能力，将更加准确、方便。

下述为本公开装置实施例，可以用于执行本公开上述服务器110、移动终端或智能设备执行的歌曲的音频信号处理方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开歌曲的音频信号处理方法实施例。

图11是根据一示例性实施例示出的一种歌曲的音频信号处理装置的框图，该歌曲的音频信号处理装置可以用于图1所示实施环境的服务器110中，也可以用于移动终端或智能设备中，执行图3、6-9所示的歌曲的音频信号处理方法的全部或者部分步骤。如图11所示，该歌曲的音频信号处理装置可以包括但不限于：音高序列提取模块1110、主旋律记谱模块1130以及记谱融合模块1150。

音高序列提取模块1110，用于针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列；

主旋律记谱模块1130，用于对所述主旋律音高序列进行音符定位生成对应于所述多音音频信号中主旋律音符的第一主旋律记谱结果；

记谱融合模块1150，用于按照主旋律音符融合预先获得的清唱记谱结果和所述第一主旋律记谱结果，为所述待处理歌曲生成第二主旋律记谱结果；其中，所述清唱记谱结果由所述待处理歌曲的清唱数据获得。

上述装置中各个模块的功能和作用的实现过程具体详见上述歌曲的音频信号处理方法中对应步骤的实现过程，在此不再赘述。

音高序列提取模块1110比如可以是图2中的某一个物理结构多媒体组件208。

主旋律记谱模块1130、记谱融合模块1150也可以是功能模块，用于执行上述歌曲的音频信号方法中的对应步骤。可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序，例如图2的处理器218所执行的存储在存储器204中的程序。

可选的，在上述实施例提供的歌曲的音频信号处理装置的基础上，所述装置还可以包括但不限于：数据获取模块和模型训练模块；

数据获取模块，用于获取多种不同歌曲的多音音频信号以及对应的音高序列；

模型训练模块，用于以所述不同歌曲的多音音频信号为输入，对应的音高序列为标签，进行深度神经网络模型的训练；其中，所述深度神经网络模型用于进行主旋律音高序列的提取。

在此基础上，在一个示例性实施例中，所述音高序列提取模块1110可以包括：

音高概率分布计算单元，用于以所述待处理歌曲相应输入的多音音频信号为输入，利用训练完成的所述深度神经网络模型获得所述待处理歌曲的多音音频信号的音高概率分布；

音高序列生成单元，用于通过所述音高概率分布生成主旋律音高序列。

图12是根据一示例性实施例示出的对主旋律记谱模块1130的细节进行描述的框图，该主旋律记谱模块1130，如图12所示，可以包括但不限于：时间信息获取单元1131、音符音高值获取单元1132以及音符音高值计算单元1133；

时间信息获取单元1131，用于根据所述待处理歌曲获取歌词的时间戳信息；其中，所述歌词的时间戳信息指示每个音符所对应的时间区域；

音符音高值获取单元1132，用于按照所述时间戳信息为每一音符划分所述主旋律高音序列，获得每一音符时间区域内的所有音高值；

音符音高值计算单元1133，用于对每一音符时间区域内的所有音高值进行计算，获得每一音符的音高，所述每一音符的音高顺序形成所述多音音频信号的第一主旋律记谱结果。

进一步的，本公开提供的歌曲的音频信号处理装置还可以包括清唱记谱模块1170，图13是根据一示例性实施例示出的对清唱记谱模块1170的细节进行描述的框图，该清唱记谱模块1170，如图13所示，可以包括但不限于：数据采集单元1171、单音音高提取单元1172以及音符定位单元1173；

数据采集单元1171，用于采集所述待处理歌曲的清唱数据；

单音音高提取单元1152，用于从所述清唱数据中提取单音音高序列；

音符定位单元1173，用于对所述单音音高序列进行音符定位生成清唱记谱结果。

在此基础上，如图14所示，可选的，所述清唱记谱模块1170还可以包括但不限于：匹配单元1174、计算单元1175以及筛选单元1176；

匹配单元1174，用于针对每个单音音高序列，以所述主旋律音高序列为基准，计算所述单音音高序列中音高值与所述主旋律音高序列匹配的时间帧数量；

计算单元1175，用于计算所述匹配的时间帧数量占所述单音音高序列的总时间帧的比例；

筛选单元1176，用于在所述比例小于预设值时去除所述单音音高序列。

进一步的，在上述实施例的基础上，所述记谱融合模块1150可以包括但不限于：音高值融合单元；

音高值融合单元，用于针对每一音符，根据所述音符在所述清唱记谱结果和所述第一主旋律记谱结果中的音高值计算所述音符的音高，最终将获得的每一音符的音高顺序形成所述待处理歌曲的第二主旋律记谱结果。

图15是本公开另一示例性实施例示出的一种音频相似度匹配装置的框图，该音频相似度匹配装置可以用于移动终端、服务器110中，执行图10所示的音频相似度匹配方法的全部或者部分步骤。如图15所示，该音频相似度匹配装置可以包括但不限于：音频录制模块1510、音频记谱模块1530、主旋律获取模块1550以及匹配输出模块1570。

音频录制模块1510，用于获取指定歌曲的用户音频信号；

音频记谱模块1530，用于对所述用户音频信号进行音频信号处理生成用户音频记谱结果；

主旋律获取模块1550，用于获取所述指定歌曲的第二主旋律记谱结果；其中，所述第二主旋律记谱结果是通过融合所述指定歌曲的清唱记谱结果和对应所输入的所述指定歌曲的多音音频信号的第一主旋律记谱结果而生成的；

匹配输出模块1570，用于根据所述第二主旋律记谱结果与所述用户音频记谱结果之间的匹配程度，输出匹配度提示信息。

上述装置中各个模块的功能和作用的实现过程具体详见图10以及上述音频相似度匹配方法中对应步骤的实现过程，在此不再赘述。

可选的，本公开还提供一种歌曲的音频信号处理装置，该歌曲的音频信号处理装置可以用于图1所示实施环境的服务器110中，也可以用于移动终端或智能设备中，执行图3、6-9所示的歌曲的音频信号处理方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器用于：

该实施例中的装置的处理器执行操作的具体方式已经在有关该歌曲的音频信号处理方法的实施例中执行了详细描述，此处将不做详细阐述说明。

另一方面，本公开还提供一种音频相似度匹配装置，该音频相似度匹配装置可以用于音频录制设备中，执行图10所示的音频相似度匹配方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器用于：

获取指定歌曲的用户音频信号；

该实施例中的装置的处理器执行操作的具体方式已经在有关该音频相似度匹配方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序，该计算机程序可由装置200的处理器218执行以完成上述歌曲的音频信号处理方法，例如包括：

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序，该计算机程序可由装置200的处理器218执行以完成上述音频相似度匹配方法，例如包括：

获取指定歌曲的用户音频信号；

此外，为了验证本公开实施例提供的歌曲的音频信号处理方法的有效性，发明人进行了一系列验证实验，实验使用的测试集中包括527首歌曲的多音音频信号及其对应的MIDI文件。另外，通过全民K歌为这527首歌曲收集了共计33736个清唱音频信号，每首歌曲对应的清唱音频数从21到178不等，平均清唱数量为64.02。

实验一：为验证DNN模型的有效性，使用该模型从每一首歌曲的多音音频信号中提取主旋律音高序列，并将之与对应MIDI文件中提取出的音高序列进行比较，计算出四个指标，即人声召回率(有人声并且判定正确的帧数/人声总帧数)、人声误警率(无人声误判为含有人声的帧数/无人声总帧数)、音高准确率(音高提取正确的总帧数/人声总帧数)以及总体准确率(音高提取正确或非人声判定正确的总帧数/总帧数)。为进行比较，同时测试了一种已有方法MELODIA方法，该方法是目前多音音乐主旋律音高提取领域最经典的方法之一。

表1比较了本技术方案中的DNN模型和MELODIA方法在多音音乐主旋律音高提取上的性能，表中每个单元格以a±b表示，其中a为当前指标在527首歌曲上的平均值，b为标准差。从表1中可以看出，本技术方案中使用的DNN模型除人声召回率低于MELODIA外，其余指标均显著较好(人声误警率越低越好，其余指标越高越好)，其中总体准确率高出10％左右。

表1 多音音乐主旋律音高提取结果比较。

	人声召回率	人声误警率	音高准确率	总体准确率
					MELODIA	0.782±0.072	0.376±0.118	0.449±0.119	0.514±0.091
DNN模型	0.710±0.156	0.181±0.099	0.483±0.147	0.612±0.097

实验二：为验证最终记谱结果的准确性，使用本技术方案对每一首测试歌曲进行了主旋律记谱，并将记谱结果和MIDI文件中的音符序列进行比较，计算三个指标，即音符准确率、音符召回率和F值。记谱所得音符需满足下列条件才被认为是准确的：音符开始位置和MIDI文件中基准音符的开始位置相差不超过0.15秒，音高值与基准音符相同。

表2比较了本技术方案和其他方案的记谱结果，其中MELODIA+歌词表示使用MELODIA进行主旋律音高提取，使用歌词进行音符划分，DNN模型+歌词表示本技术方案不使用清唱数据的情况。本技术方案中有一参数需要设定，即单音音高序列筛选时所用阈值，记为θ，其中θ＝0表示无音高选择的情况。最终使用的θ为0.4。

从表2中可以看出，本技术方案设定θ＝0.4时在三个评测指标下均取得了最优结果，特别地，θ＝0.4的结果优于θ＝0的结果，证明了单音音高序列筛选的有效性。另外，在两种θ设定下，本技术方案在三个评测指标下均优于DNN模型+歌词，领先比例分别达到8％到9％左右。这一结果证明，在多音音乐的主旋律记谱中加入清唱数据辅助，记谱性能可获得显著提高。

表2 多音音乐主旋律记谱结果比较。

	准确率	召回率	F值
				MELODIA+歌词	0.512±0.144	0.468±0.146	0.487±0.144
DNN模型+歌词	0.527±0.145	0.482±0.148	0.501±0.146
				本技术方案θ＝0	0.609±0.125	0.556±0.136	0.578±0.129
本技术方案θ＝0.4	0.624±0.148	0.571±0.156	0.593±0.150

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种歌曲的音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列之前，所述方法还包括：

获取多种不同歌曲的多音音频信号以及对应的音高序列；

3.根据权利要求2所述的方法，其特征在于，所述针对待处理歌曲从相应输入的多音音频信号中提取主旋律音高序列，包括：

通过所述音高概率分布生成主旋律音高序列。

4.根据权利要求1所述的方法，其特征在于，所述对主旋律音高序列进行音符定位生成对应于所述多音音频信号中主旋律音符的第一主旋律记谱结果，包括：

根据所述待处理歌曲获取歌词的时间戳信息；其中，所述歌词的时间戳信息指示每一音符所对应的时间区域；

按照所述时间戳信息为每一音符划分所述主旋律高音序列，获得每一音符时间区域内的所有音高值；

对每一音符时间区域内的所有音高值进行计算，获得每一音符的音高，所述每一音符的音高顺序形成所述多音音频信号的第一主旋律记谱结果。

5.根据权利要求1所述的方法，其特征在于，在按照主旋律音符融合预先获得的清唱记谱结果和所述第一主旋律记谱结果，为所述待处理歌曲生成第二主旋律记谱结果之前，所述方法还包括：

采集所述待处理歌曲的清唱数据；

从所述清唱数据中提取单音音高序列；

对所述单音音高序列进行音符定位生成清唱记谱结果。

6.根据权利要求5所述的方法，其特征在于，从所述清唱数据中提取单音音高序列之后，所述方法还包括：

针对每个单音音高序列，以所述主旋律音高序列为基准，计算所述单音音高序列中音高值与所述主旋律音高序列匹配的时间帧数量；

计算所述匹配的时间帧数量占所述单音音高序列的总时间帧的比例；

若所述比例小于预设值，则去除所述单音音高序列。

7.根据权利要求1所述的方法，其特征在于，所述按照主旋律音符融合预先获得的清唱记谱结果和所述第一主旋律记谱结果，为所述待处理歌曲生成第二主旋律记谱结果，包括：

针对每一音符，根据所述音符在所述清唱记谱结果和所述第一主旋律记谱结果中的音高值计算所述音符的音高，最终将获得的每一音符的音高顺序形成所述待处理歌曲的第二主旋律记谱结果。

8.一种音频相似度匹配方法，其特征在于，包括：

获取指定歌曲的用户音频信号；

9.一种歌曲的音频信号处理装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括清唱记谱模块，所述清唱记谱模块包括：

数据采集单元，用于采集所述待处理歌曲的清唱数据；

单音音高提取单元，用于从所述清唱数据中提取单音音高序列；

音符定位单元，用于对所述单音音高序列进行音符定位生成清唱记谱结果。

11.根据权利要求10所述的装置，其特征在于，所述清唱记谱模块还包括：

匹配单元，用于针对每个单音音高序列，以所述主旋律音高序列为基准，计算所述单音音高序列中音高值与所述主旋律音高序列匹配的时间帧数量；

计算单元，用于计算所述匹配的时间帧数量占所述单音音高序列的总时间帧的比例；

筛选单元，用于在所述比例小于预设值时去除所述单音音高序列。

12.根据权利要求9所述的装置，其特征在于，所述记谱融合模块包括：

13.一种音频相似度匹配装置，其特征在于，包括：

音频录制模块，用于获取指定歌曲的用户音频信号；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成以下方法：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成以下方法：

获取指定歌曲的用户音频信号；