CN113160782B

CN113160782B - 音频处理的方法、装置、电子设备及可读存储介质

Info

Publication number: CN113160782B
Application number: CN202010075633.4A
Authority: CN
Inventors: 田晓林; 丁小晶
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2022-11-01
Anticipated expiration: 2040-01-22
Also published as: CN113160782A

Abstract

本申请实施例公开了一种音频处理的方法、装置、电子设备及可读存储介质，涉及智能终端领域。具体实现方案为：获取指示信息，所述指示信息用于指示为用户播放伴奏音频；根据所述指示信息，播放所述伴奏音频；在用户基于所述伴奏音频进行演唱过程中，根据所述伴奏音频和麦克风采集的周围环境中的用户输入音频，播放演唱音频。该方法使得智能音箱等不具有音频输入接口或USB接口的电子设备可以利用其内置的麦克风实现真实的K歌效果，极大提升用户的体验。

Description

音频处理的方法、装置、电子设备及可读存储介质

技术领域

本申请实施例涉及智能终端技术领域，尤其涉及一种音频处理的方法、装置、电子设备及可读存储介质。

背景技术

K歌作为一种娱乐方式从20世纪60年代开始一直广泛流行。传统方式中，人们需要在KTV等场所中，使用场所提供的K歌系统进行K歌。随着移动终端技术的不断发展，人们也可以使用移动终端进行K歌。无论是传统的在KTV的K歌方式，还是使用移动终端进行K歌的方式，均需要用户预先准备一套麦克风设备。具体的，以使用移动终端K歌为例，在K歌之前，用户需要首先将麦克风与移动终端连接，进而，通过麦克风向移动终端输入演唱的音频，再由移动终端播放出来，从而实现K歌。麦克风连接移动终端时，需要通过音频线连接到移动终端的音频输入接口，或者，需要将与麦克风配套的通用串行总线(Universal SerialBus，简称USB)适配器插入移动终端的USB接口，再将麦克风与USB适配器进行无线连接。

智能音箱以其强大的语音智能交互功能及丰富的内容资源受到越来越多的用户喜爱，利用智能音箱进行K歌也成为很多用户的需求。但是，当前的智能音箱绝大多数并未设置前述的能够接入麦克风的音频输入接口或USB接口，因此，用户无法通过现有的连接麦克风的方式使用智能音箱进行K歌。

因此，智能音箱如何在不连接麦克风的前提下为用户提供K歌功能，是值得解决的问题。

发明内容

本申请实施例提供一种音频处理的方法、装置、电子设备及可读存储介质，所述技术方案如下。

第一方面，本申请实施例提供一种音频处理的方法，应用于设置有麦克风的电子设备，所述方法包括：

获取指示信息，所述指示信息用于指示为用户播放伴奏音频；

根据所述指示信息，播放所述伴奏音频；

在用户基于所述伴奏音频进行演唱过程中，根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频。

作为一种可能的实现方式，所述根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频，包括：

对所述用户输入音频进行调整属性的处理，得到调整后的用户输入音频，所述调整后的用户输入音频的属性的值与所述伴奏音频的属性的值相同，所述属性包括采样率和/或通道数；

对所述调整后的用户输入音频以及所述伴奏音频进行混音处理，得到所述演唱音频；

播放所述演唱音频。

作为一种可能的实现方式，所述根据所述指示信息，播放所述伴奏音频之前，还包括：

根据所述用户输入的歌曲标识，获取所述伴奏音频。

作为一种可能的实现方式，所述指示信息中包括所述歌曲标识。

作为一种可能的实现方式，所述根据所述用户输入的歌曲标识，获取所述伴奏音频之前，还包括：

接收用户输入的所述歌曲标识。

作为一种可能的实现方式，所述麦克风还采集所述电子设备周围环境中的由所述电子设备的扬声器输出的音频；

所述根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频之前，还包括：

根据所述伴奏音频或在先音频的音频特征，对所述麦克风采集的周围环境中的所述用户输入音频以及所述扬声器输出的音频进行拆分，得到所述用户输入音频，其中，所述在先音频为所述演唱音频的前一演唱音频。

作为一种可能的实现方式，所述方法还包括：

接收用户输入的预设唤醒词，所述预设唤醒词不用于指示为用户播放伴奏音频；

根据所述预设唤醒词，停止播放所述演唱音频。

作为一种可能的实现方式，所述接收用户输入的预设唤醒词之后，还包括：

输出响应音频，所述响应音频用于响应所述预设唤醒词。

第二方面，本申请实施例提供一种音频处理的装置，置有麦克风，所述装置包括：

获取模块，用于获取指示信息，所述指示信息用于指示为用户播放伴奏音频；

处理模块，用于根据所述指示信息，播放所述伴奏音频；

所述处理模块，还用于在用户基于所述伴奏音频进行演唱过程中，根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频。

作为一种可能的实现方式，所述处理模块具体用于：

对所述用户输入音频进行调整属性的处理，得到调整后的用户输入音频，所述调整后的用户输入音频的属性的值与所述伴奏音频的属性的值相同，所述属性包括采样率和/或通道数；以及，

对所述调整后的用户输入音频以及所述伴奏音频进行混音处理，得到所述演唱音频；以及，

播放所述演唱音频。

作为一种可能的实现方式，所述处理模块还用于：

根据所述用户输入的歌曲标识，获取所述伴奏音频。

作为一种可能的实现方式，所述接收模块还用于：

接收用户输入的所述歌曲标识。

所述处理模块还用于：

作为一种可能的实现方式，所述接收模块还用于：

所述处理模块还用于：根据所述预设唤醒词，停止播放所述演唱音频。

作为一种可能的实现方式，所述装置还包括：

输出模块，用于输出响应音频，所述响应音频用于响应所述预设唤醒词。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行上述第一方面所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：

电子设备在获取到用户输入的指示信息之后，在用户基于电子设备播放的伴奏音频演唱的过程中，利用电子设备内置的麦克风采集周围环境中的用户唱歌的音频，即用户输入音频，并播放对用户输入音频和伴奏音频混音后的演唱音频。由于电子设备是利用内置的麦克风实时采集用户输入音频，并且在用户唱歌过程中实时进行混音处理并播放混音处理后的演唱音频，因此，能够实现在用户唱歌的同时播放用户声音与伴奏音频结合后的演唱音频的真实K歌效果，从而使得智能音箱等不具有音频输入接口或USB接口的电子设备可以利用其内置的麦克风实现真实的K歌效果，极大提升用户的体验。并且，本实施例不需要额外准备独立的麦克风设备，还可以节省K歌时的成本，简化K歌过程，进一步提升用户的体验。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的音频处理的方法的一种示例性系统架构图；

图2为本申请实施例提供的音频处理的方法的流程示意图；

图3为本申请实施例提供的音频处理的方法的流程示意图；

图4为对混音处理后的演唱音频进行处理并播放的示意图；

图5为本申请实施例提供的音频处理的方法的流程示意图；

图6为本申请实施例中基于用户输入音频播放演唱音频的处理过程示意图；

图7为本申请实施例提供的音频处理的装置的模块结构图；

图8为本申请实施例提供的音频处理的装置的模块结构图；

图9是根据本申请实施例的音频处理的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前的智能音箱，一般都未设置能够接入麦克风的音频输入接口或USB接口，因此，无法在智能音箱上使用现有的方法，即插入麦克风，由插入的麦克风采集用户发出的声音并由智能音箱进行播放。

考虑到智能音箱未设置音频输入接口或USB接口而导致的无法使用传统的连接麦克风方式进行K歌的问题，本申请实施例通过智能音箱上内置的麦克风采集用户的声音并进行处理和播放，从而使得用户可以使用智能音箱进行K歌。

本申请实施例的技术方案可以应用于智能音箱，但是并不仅限于此，还可以应用于其他内置麦克风并且具有音频处理能力的电子设备。为便于本领域技术人员理解本申请实施例的技术方案，以下实施例中均以智能音箱为例进行说明。

图1为本申请实施例提供的音频处理的方法的一种示例性系统架构图，如图1所示，该方法涉及智能音箱和服务器。其中，该服务器可以为云端服务器。智能音箱可以通过网络进行通信。当用户希望使用智能音箱进行K歌时，用户向智能音箱说出要演唱的歌曲名，智能音箱可以从服务器获取要演唱的歌曲的伴奏音频并进行播放，用户按照伴奏开始演唱，智能音箱实时通过内置的麦克风采集用户演唱时的声音，并实时将用户所唱的声音与伴奏音混音后的演唱音频播放出来，以呈现出与传统的在KTV进行K歌时同样的效果。

图2为本申请实施例提供的音频处理的方法的流程示意图，该方法的执行主体为前述的内置麦克风并且具有音频处理能力的电子设备，例如前述的智能音箱。如图2所示，该方法包括：

S201、获取指示信息，该指示信息用于指示为用户播放伴奏音频。

可选的，上述指示信息可以由用户通过语音方式进行输入。

用户在使用智能音箱时，一般通过说出预设唤醒词触发智能音箱工作。可选的，在本申请实施例中，用户可以在说出预设唤醒词之后，通过语音输入指示信息，该指示信息中可以包括K歌关键词。

一种示例中，用户首先说出“小A小A”预设唤醒词，智能音箱识别到该预设唤醒词后，对用户进行响应，例如输出“怎么啦”、“我在”等响应语音，用户进而说出“我要K歌”、“我要唱歌曲A”等指示信息，其中包括“K歌”、“唱”等关键词，智能音箱相应接收该指示信息。

另一种示例中，用户也可以在说出预设唤醒词之后连续说出指示信息，即用户连续说出“小A小A我要K歌”的语音，智能音箱可以在识别出预设关键词的同时也识别出上述指示信息。

智能音箱在接收到上述指示信息之后，通过解析该指示信息，可以获知用户希望K歌，具体的，可以获知需要为用户播放伴奏音频。

S202、根据上述指示信息，播放上述伴奏音频。

一种可选方式中，用户可以在说出上述指示信息的同时或者之后，语音指示希望K歌的歌曲名称，智能音箱根据用户所指示的歌曲名称，播放该歌曲名称对应歌曲的伴奏音频。

另一种可选方式中，用户还可以预先在智能音箱上设置自己喜欢的歌曲的K歌列表。当用户说出前述的指示信息之后，智能音箱按照K歌列表中的歌曲顺序，逐个播放K歌列表中各歌曲的伴奏音频。

S203、在用户基于上述伴奏音频进行演唱过程中，根据上述伴奏音频和上述麦克风采集的周围环境中的用户输入音频，播放演唱音频。

对于用户来说，智能音箱在开始播放伴奏音频之后，用户可以对照伴奏音频的旋律唱出声音。

对于智能音箱来说，智能音箱开始播放上述伴奏音频之后，通过内置的麦克风实时采集周围环境中的用户输入音频，即用户所唱出的声音。智能音箱实时对采集到的用户输入音频与当前所播放的伴奏音频进行混音处理并进行播放。上述处理过程的耗时对于用户来说是无感知的，因此，从用户体验上来看，可以实现在唱歌的同时播放用户声音与伴奏音频结合后的K歌效果。

本实施例中，电子设备在获取到用户输入的指示信息之后，在用户基于电子设备播放的伴奏音频演唱的过程中，利用电子设备内置的麦克风采集周围环境中的用户唱歌的音频，即用户输入音频，并播放对用户输入音频和伴奏音频混音后的演唱音频。由于电子设备是利用内置的麦克风实时采集用户输入音频，并且在用户唱歌过程中实时进行混音处理并播放混音处理后的演唱音频，因此，能够实现在用户唱歌的同时播放用户声音与伴奏音频结合后的演唱音频的真实K歌效果，从而使得智能音箱等不具有音频输入接口或USB接口的电子设备可以利用其内置的麦克风实现真实的K歌效果，极大提升用户的体验。并且，本实施例不需要额外准备独立的麦克风设备，还可以节省K歌时的成本，简化K歌过程，进一步提升用户的体验。

在具体实施过程中，当用户输入指示信息之后，智能音箱开始播放伴奏音频，当用户开始唱歌之后，智能音箱也通过其扬声器播放前述的演唱音频，这些音频会在智能音箱的周围环境中散播。因此，智能音箱的麦克风在采集周围环境中的音频时，除了采集用户输入音频，还采集智能音箱周围环境中的由智能音箱的扬声器输出的音频。相应的，智能音箱在执行上述步骤S203之前，即根据用户输入音频和伴奏音频播放演唱音频之前，可以首先从麦克风所采集的周围环境中的音频中拆分出用户输入音频。

可选的，智能音箱可以根据上述伴奏音频或在先音频的音频特征，对麦克风采集的电子设备周围环境中的用户输入音频以及扬声器输出的音频进行拆分，得到上述用户输入音频。

其中，上述在先音频为待播放的演唱音频的前一演唱音频。

以某个特定的时刻A为例，智能音箱的麦克风在该时刻所采集的周围环境的音频，包括了用户在该时刻A唱歌所形成的用户输入音频，以及智能音箱在该时刻A所播放的伴奏音频或演唱音频。对于智能音箱来说，时刻A播放的演唱音频，是在时刻A-1生成的。因此，智能音箱可以获知该时刻A播放的演唱音频的音频特征。如果时刻A播放的为伴奏音频，该伴奏音频也是在时刻A-1生成的。值得说明的是，本申请实施例所述的在时刻A-1生成的，可以是指在时刻A-1准备好数据并放入待播放的缓冲区，并在时刻A播放。

可选的，上述伴奏音频的音频特征以及在先音频的音频特征可以分别指音频对应的波形。由于伴奏音频和在先音频都是智能音箱生成并且播放的，因此，智能音箱可以获知其波形，进而，智能音箱可以基于该波形，将麦克风采集的周围环境的音频中的伴奏音频或在先音频拆分出去，从而得到上述的用户输入音频。

作为一种可选的实施方式，智能音箱在对用户输入音频和伴奏音频混音以得到演唱音频时，可以通过如下方式得到。

图3为本申请实施例提供的音频处理的方法的流程示意图，如图3所示，上述步骤S203的一种可选的实施方式包括：

S301、对上述用户输入音频进行调整属性的处理，得到调整后的用户输入音频，该调整后的用户输入音频的属性的值与上述伴奏音频的属性的值相同，该属性包括采样率和/或通道数。

可选的，如果智能音箱有多个麦克风，则智能音箱可以分别检查每个麦克风的采样率，并判断采样率是否与伴奏音频的采样率相同，如果不同，则分别将每个麦克风所采集的用户输入音频的采样率调整到伴奏音频的采样率。进而，检查用户输入音频的通道数是否与伴奏音频的通道数相同，如果不同，则将用户输入音频的通道数调整为伴奏音频对应通道数。一种示例中，假设用户输入音频的通道数为6，伴奏音频通道数为2，可以从用户输入音频的多个通道中选择数据质量最好的2个通道，将该两个通道的数据作为调整后的用户输入音频。

S302、对上述调整后的用户输入音频以及上述伴奏音频进行混音处理，得到上述演唱音频。

经过上述调整之后，用户输入音频与伴奏音频的采样率和通道数均相同，因此可以对用户输入音频和伴奏音频进行混音处理，从而得到上述的演唱音频。

S303、播放上述演唱音频。

可选的，智能音箱将混音之后的演唱音频通过扬声器进行播放。由于智能音箱中保存的演唱音频为数字信号，而扬声器播放的为模拟信号，因此，在智能音箱的扬声器的上一级，可以设置一个音频编解码(codec)模块，通过该codec模块对演唱音频进行处理。图4为对混音处理后的演唱音频进行处理并播放的示意图，如图4所示，混音处理后的演唱音频首先被存储在音频缓冲区中，当需要播放时，即将演唱音频从音频缓冲区读取至内存中，并从内存经过直接存储器访问(Direct Memory Access，简称DMA)传送至I2S总线先入先出(First in，First out，简称FIFO)寄存器。再从FIFO寄存器传输至codec模块，由codec模块将传输进来的数字信号转换为模拟信后经由扬声器播放。在上述过程中，由I2C总线对codec模块进行初始化等控制操作。

如前文步骤S202中所述，用户可以在说出提示信息的同时或者之后，语音指示希望K歌的歌曲名称，智能音箱根据用户所指示的歌曲名称，播放该歌曲名称对应歌曲的伴奏音频。如果使用该方式，则智能音箱在播放用户伴奏音频之前，可以根据用户输入的歌曲标识，获取伴奏音频。例如可以从服务器下载该歌曲标识对应歌曲的伴奏音频。其中，歌曲标识可以为歌曲名称。

用户输入歌曲标识的方式可以为以下任意一种。

一种可选方式中，上述指示信息中可以包括歌曲标识。

在这种方式中，用户可以通过一句话向智能音箱指示播放伴奏音频以及指示歌曲标识。

示例性的，智能音箱被唤醒之后，用户说出“我要唱歌曲A”，该语句中既包括“我要唱”这一指示信息，又包括“歌曲A”这一歌曲标识。智能音箱基于该语句，即可获知需要为用户播放伴奏音频，并且，用户希望演唱的歌曲为歌曲A。

另一种方式中，智能音箱可以在获取伴奏音频之前，几首用户输入的歌曲标识。

在这种方式中，用户可以在输入上述指示信息之后，再单独通过一个语句输入歌曲标识。

示例性的，智能音箱被唤醒之后，用户首先说出“我要K歌”的指示信息，该指示信息中包括“要K歌”的K歌关键词，智能音箱识别出该K歌关键词之后，输出响应语句，例如“您要唱哪首歌曲呢”，用户进而说出“歌曲A”，智能音箱识别该语句后，可以确定用户希望演唱歌曲A。并可以从服务器下载歌曲A的伴奏音频。

如前文所述，用户可以通过输入预设唤醒词触发智能音箱工作。作为一种可选的实施方式，用户在K歌的过程中，智能音箱可以实时监听用户是否输入预设唤醒词，并基于预设唤醒词执行后续的操作。

图5为本申请实施例提供的音频处理的方法的流程示意图，如图5所示，上述方法还包括：

S501、接收用户输入的预设唤醒词，该预设唤醒词不用于指示为用户播放伴奏音频。

示例性的，该预设唤醒词为例如可以为“小A小A”等。

S502、根据上述预设唤醒词，停止播放上述演唱音频。

可选的，智能音箱中可以包括两个音频通路，一个音频通路用于处理前述的用户输入音频，对用户输入音频进行混音处理得到演唱音频，称为K歌通路。另一个音频通路用于处理预设唤醒词，称为唤醒通路。用户在K歌过程中，智能音箱实时监听用户是否输入预设唤醒词，一旦识别出预设唤醒词，则智能音箱停止播放演唱音频，并在唤醒通路上生成“怎么啦”等响应音频，并通过扬声器播放该响应音频，进而，基于用户输入的下一条指令，执行后续的操作。示例性的，假设用户的下一条指令为“继续K歌”，则智能音箱继续播放伴奏音频，并继续使用前述实施例中的方法，在K歌通路上生成演唱音频并播放。

图6为本申请实施例中基于用户输入音频播放演唱音频的处理过程示意图，如图6所示，用户说出上述指示信息之后，智能音箱一方面通过麦克风接收用户输入音频，并对用户输入音频进行调整属性的前端处理。另一方面，获取伴奏音频，并播放伴奏音频。进而，对前端处理后的用户输入音频和伴奏音频进行混音处理，得到演唱音频，并输出演唱音频。

图7为本申请实施例提供的音频处理的装置的模块结构图，该装置设置有麦克风，如图7所示，该装置包括：

获取模块701，用于获取指示信息，所述指示信息用于指示为用户播放伴奏音频。

处理模块702，用于根据所述指示信息，播放所述伴奏音频。

处理模块702，还用于在用户基于所述伴奏音频进行演唱过程中，根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频。

作为一种可选的实施方式，处理模块702具体用于：

对所述用户输入音频进行调整属性的处理，得到调整后的用户输入音频，所述调整后的用户输入音频的属性的值与所述伴奏音频的属性的值相同，所述属性包括采样率和/或通道数；以及，对所述调整后的用户输入音频以及所述伴奏音频进行混音处理，得到所述演唱音频；以及，播放所述演唱音频。

作为一种可选的实施方式，处理模块702还用于：

根据所述用户输入的歌曲标识，获取所述伴奏音频。

作为一种可选的实施方式，所述指示信息中包括所述歌曲标识。

作为一种可选的实施方式，接收模块701还用于：

接收用户输入的所述歌曲标识。

作为一种可选的实施方式，所述麦克风还采集所述电子设备周围环境中的由所述电子设备的扬声器输出的音频。

处理模块702还用于：

作为一种可选的实施方式，接收模块701还用于：

接收用户输入的预设唤醒词，所述预设唤醒词不用于指示为用户播放伴奏音频。

处理模块702还用于：根据所述预设唤醒词，停止播放所述演唱音频。

图8为本申请实施例提供的音频处理的装置的模块结构图，如图8所示，上述装置还包括：

输出模块703，用于输出响应音频，所述响应音频用于响应所述预设唤醒词。

根据本申请的实施例，本申请还提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的音频处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的音频处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的音频处理的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的音频处理的方法对应的程序指令/模块(例如，附图8所示的接收模块701、处理模块702和输出模块703)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的音频处理的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据音频处理的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至音频处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

音频处理的方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与音频处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种音频处理的方法，其特征在于，应用于设置有麦克风的电子设备，所述方法包括：

根据所述指示信息，播放所述伴奏音频；

在用户基于所述伴奏音频进行演唱过程中，根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频；

所述麦克风采集周围环境中的用户输入音频的同时，还采集所述周围环境中的所述电子设备的扬声器输出的音频；

根据所述伴奏音频和在先音频的音频特征，将所述麦克风采集的周围环境中的音频中的所述伴奏音频和所述在先音频拆分出去，得到所述用户输入音频，其中，所述在先音频为所述演唱音频的前一演唱音频；所述音频特征为所述音频对应的波形。

2.根据权利要求1所述的方法，其特征在于，所述根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频，包括：

播放所述演唱音频。

3.根据权利要求2所述的方法，其特征在于，所述根据所述指示信息，播放所述伴奏音频之前，还包括：

根据所述用户输入的歌曲标识，获取所述伴奏音频。

4.根据权利要求3所述的方法，其特征在于，所述指示信息中包括所述歌曲标识。

5.根据权利要求3所述的方法，其特征在于，所述根据所述用户输入的歌曲标识，获取所述伴奏音频之前，还包括：

接收用户输入的所述歌曲标识。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

根据所述预设唤醒词，停止播放所述演唱音频。

7.根据权利要求6所述的方法，其特征在于，所述接收用户输入的预设唤醒词之后，还包括：

输出响应音频，所述响应音频用于响应所述预设唤醒词。

8.一种音频处理的装置，其特征在于，设置有麦克风，所述装置包括：

处理模块，用于根据所述指示信息，播放所述伴奏音频；

所述处理模块，还用于在用户基于所述伴奏音频进行演唱过程中，根据所述伴奏音频和所述麦克风采集的周围环境中的用户输入音频，播放演唱音频；

所述麦克风采集周围环境中的用户输入音频的同时，还采集周围环境中的由电子设备的扬声器输出的音频；

所述处理模块，具体用于根据所述伴奏音频和在先音频的音频特征，将所述麦克风采集的周围环境中的音频中的所述伴奏音频和所述在先音频拆分出去，得到所述用户输入音频，其中，所述在先音频为所述演唱音频的前一演唱音频；所述音频特征为所述音频对应的波形。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。