CN112053669B

CN112053669B - 一种人声消除方法、装置、设备及介质

Info

Publication number: CN112053669B
Application number: CN202010875088.7A
Authority: CN
Inventors: 姜元恩; 邢文峰
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2023-10-27
Anticipated expiration: 2040-08-27
Also published as: CN112053669A

Abstract

本发明提供了一种人声消除方法、装置、设备及介质，由于本发明实施例中对初始时刻的第一音频数据进行自适应滤波操作，确定滤波器的第一振幅，并将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号，将右声道音频子数据和左声道音频子数据中相似度最高的音频信号对齐得到第二音频数据，并对相似度最高的音频信号所在时刻的第二音频数据进行自适应滤波操作，确定滤波器的第二振幅。通过第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频，即差值不同，则进行自适应滤波操作的音频数据不同，实现了通过人声消除得到准确的背景声音频。

Description

一种人声消除方法、装置、设备及介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种人声消除方法、装置、设备及介质。

背景技术

K歌是时下热门的娱乐项目之一，用户可以通过K歌软件，进行K歌，但是K歌软件中的有些歌曲要收费，并且歌曲数量比较少。当在某智能发声设备中听到自己喜欢的歌曲，想要进行K歌时，需要该智能发声设备将歌曲中的人声进行消除。

图1为现有技术中的人声消除的流程示意图，图2为现有技术中的左、右声道音频子数据的示意图，现结合图1和图2说明现有技术中的人声消除过程。如图1所示，接收到音频数据后，获取其左声道音频子数据和右声道音频子数据，对该左、右声道音频子数据进行人声分离，得到背景声音频。

在图2中，最粗的曲线为左、右声道音频子数据中的人声信号，人声信号在左、右声道音频子数据中的相位和幅度是相同。另外两条曲线代表左、右声道音频子数据中的背景声音频，它们之间存在偏移时间。

现有的人声消除技术主要包括：一、对左、右声道音频子数据进行加权相减，获取背景声音频；二、利用左、右声道音频子数据的相关性，采用自适应滤波进行人声分离，获取背景声音频。但是这两种方式，都会导致低音部分损失很大，导致最终得到的背景声音频不准确。

发明内容

本发明提供了一种人声消除方法、装置、设备及介质，用以解决现有人声消除方法得到的背景声音频不准确的问题。

本发明实施例提供一种人声消除方法，所述方法包括：

将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间；

对初始时刻的所述第一音频数据进行自适应滤波操作，确定滤波器的第一振幅，根据所述第一偏移时间，将所述右声道音频子数据和所述左声道音频子数据所述相似度最高的音频信号对齐得到第二音频数据，并对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，确定滤波器的第二振幅；

根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频。

本发明实施例还提供一种人声消除装置，所述装置包括：

处理模块，用于将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间；对初始时刻的所述第一音频数据进行自适应滤波操作，确定滤波器的第一振幅，根据所述第一偏移时间，将所述右声道音频子数据和所述左声道音频子数据所述相似度最高的音频信号对齐得到第二音频数据，并对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，确定滤波器的第二振幅；

消除模块，用于根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频。

本发明实施例还提供一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现上述任一所述的人声消除方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的人声消除方法的步骤。

由于本发明实施例中对初始时刻的第一音频数据进行自适应滤波操作，确定滤波器的第一振幅，并将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号，将右声道音频子数据和左声道音频子数据中相似度最高的音频信号对齐得到第二音频数据，并对相似度最高的音频信号所在时刻的第二音频数据进行自适应滤波操作，确定滤波器的第二振幅。通过第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频，即差值不同，则进行自适应滤波操作的音频数据不同，实现了通过人声消除得到准确的背景声音频。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的人声消除的流程示意图；

图2为现有技术中的左、右声道音频子数据的示意图；

图3为本发明实施例提供的一种人声消除的过程示意图；

图4为本发明实施例提供的对差值信号进行自适应滤波操作得到第一背景声音频的流程示意图；

图5为本发明实施例提供的得到第三音频信号的流程示意图；

图6为本发明实施例提供的对第三音频数据进行自适应滤波操作得到第二背景声音频的流程示意图；

图7为本发明实施例提供的人声消除的流程示意图；

图8为本发明实施例提供的基于智能电视SOC芯片的人声消除的流程示意图；

图9为本发明实施例提供的基于云服务器的人声消除的流程示意图；

图10为本发明实施例提供的一种人声消除装置的结构示意图；

图11为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发申请一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了得到准确的背景声音频，本发明实施例提供了一种人声消除方法、装置、设备及介质。

实施例1：

图3为本发明实施例提供的一种人声消除过程示意图，该过程包括以下步骤：

S301：将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间。

在本发明实施例中，该人声消除方法应用于智能播放设备，该智能播放设备例如可以是智能电视、移动终端、智能音箱等，该人声消除方法也可以应用于服务器。

智能发声设备接收到待处理的第一音频数据后，获取该第一音频数据中的左、右声道音频子数据，其中该左声道音频子数据和右声道音频子数据中均包含有人声信号、背景声音频和噪声信号。

在本发明实施例中，将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定出在左声道音频子数据和右声道音频子数据中相似度最高的音频信号对应的第一偏移时间。其中，该第一偏移时间为该相似度最高的音频信号在左声道音频子数据和右声道音频子数据出现的时间差。

对左声道音频子数据和右声道音频子数据进行互相关操作后，会确定出互相关操作的结果，该互相关结果可以表示为一条曲线，其中该曲线中波峰最大的位置处出现的时间即为最大偏移时间。

在本发明实施例中，该相似度最高的这个音频信号为背景声音频中的某一乐器的音频信号。

S302：对初始时刻的所述第一音频数据进行自适应滤波操作，确定滤波器的第一振幅，根据所述第一偏移时间，将所述右声道音频子数据和所述左声道音频子数据所述相似度最高的音频信号对齐得到第二音频数据，并对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，确定滤波器的第二振幅。

在本发明实施例中，为了有效的过滤人声，对初始时刻的第一音频数据进行自适应滤波操作，得到滤波器的第一振幅。

因为确定了相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间，根据第一偏移时间，将左声道音频子数据和右声道音频子数据中相似度最高的音频信号对齐，得到第二音频数据。其中，该对齐方式可以是将左声道音频子数据移动第一偏移时间，使两个音频子数据对齐；还可以是将右声道音频子数据移动第一偏移时间，使两个音频子数据对齐。若左声道音频子数据较右声道音频子数据该音频信号早出现，则将右声道音频子数据移动第一偏移时间，使两个音频子数据对齐；若右声道音频子数据的较左声道音频子数据该音频信号早出现，则将左声道音频子数据移动第一偏移时间，使两个音频子数据对齐。

将左声道音频子数据或右声道音频子移动第一偏移时间，使两个音频子数据对齐后，得到第二音频数据，此时该第二音频数据中该相似度最高的音频信号在同一时刻出现，对该相似度最高的音频信号出现时刻的第二音频数据进行自适应滤波操作，得到滤波器的第二振幅。其中，该第二振幅表示了同一信号在左声道音频子数据和在右声道音频子数据中的幅度差。

S303：根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频。

在本发明实施例中，为了准确的去除人声，在得到第一振幅和第二振幅后，确定该第一振幅和第二振幅分别与预设振幅阈值的差值，将该差值分别与预设的差值范围进行比较，根据比较的结果，确定对哪个音频数据进行自适应滤波处理，最终得到背景声音频。其中，预设振幅阈值为预先设置的值，其可以为1，也可以是小于1的数值。第二振幅越接近预设振幅阈值，则说明同一信号在左声道音频子数据和右声道音频子数据中的幅度差较小，相反的，认为同一信号在左声道音频子数据和右声道音频子数据中的幅度差较大。

在本发明实施例中，通过第一振幅和第二振幅分别与预设振幅阈值的差值与预设差值范围的比较结果，确定哪个音频数据进行自适应滤波处理，比较结果不同，进行自适应滤波处理的音频数据不同，通过这种方法可以最大限度的降低在人声消除过程中的低音损失，从而保证得到准确的背景声音频。

实施例2：

为了实现人声消除，在上述实施例的基础上，在本发明实施例中，所述根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频包括：

若所述第一振幅和第二振幅分别与预设振幅阈值的差值均在预设差值范围内，且所述第一偏移时间小于预设偏移时间，则确定所述左声道音频子数据和所述右声道音频子数据的差值信号，对所述差值信号进行自适应滤波操作，得到第一背景声音频。

在本发明实施例中，若第一振幅与预设振幅阈值的差值在预设差值范围内，第二振幅与预设振幅阈值的差值在预设差值范围内，并且第一偏移时间小于预设偏移时间，此时，可以认为噪声信号和人声信号混在了一起。为了消除人声，确定该左声道音频子数据和右声道音频子数据的差值信号，其中该差值信号即为左声道音频子数据和右声道音频子数据中相位和幅度不同的音频信号，对该差值信号进行自适应滤波操作，得到第一背景声音频。

图4为本发明实施例提供的对差值信号进行自适应滤波操作得到第一背景声音频的流程示意图，在该图4中，L_ch为左声道音频子数据，R_ch为右声道音频子数据，L_L为左声道音频子数据中的人声信号，R_R为右声道音频子数据中的人声信号，在该图4中，对左声道音频子数据和右声道音频子数据进行差值计算，得到差值信号，对该差值信号进行自适应滤波操作，得到背景声音频。

实施例3：

为了实现人声消除，在上述各实施例的基础上，在本发明实施例中，所述根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频包括：

若所述第一振幅与预设振幅阈值的第一差值不在所述预设差值范围内，所述第二音频信号与预设振幅阈值的第二差值在所述预设差值范围内，则对所述第二音频数据进行自适应滤波，得到第三音频数据，并对所述第三音频数据进行自适应滤波，得到第二背景声音频。

在本发明实施例中，确定第一振幅和第二振幅分别与预设振幅阈值的差值，为了对两个差值进行区分，将第一振幅与预设振幅阈值的差值作为第一差值，将第二振幅与预设振幅阈值的差值作为第二差值。

若第一差值不在预设差值范围内，但第二差值在预设差值范围内。此时，可以认为背景声音频与人声信号的相位差较大，但是信号幅度接近。为了消除人声，对第二音频数据进行自适应滤波操作，得到第三音频数据，再对该第三音频数据进行自适应滤波操作，得到第二背景声音频。

图5为本发明实施例提供的得到第三音频信号的流程示意图，在该图5中，L_ch为对齐后的左声道音频子数据，R_ch为对齐后的右声道音频子数据，L_L为左声道音频子数据中的人声信号，R_R为右声道音频子数据中的人声信号，C_C为第三音频数据，L_C为第三音频信号中的左声道音频子数据，R_C为第三音频信号中的右声道音频子数据，在该图5中，对对齐后的右声道音频子数据和左声道音频子数据进行自适应滤波操作，得到第三音频数据。

图6为本发明实施例提供的对第三音频数据进行自适应滤波操作得到第二背景声音频的流程示意图，在该图6中，L_ch为第三音频信号中的左声道音频子数据，R_ch为第三音频信号中的右声道音频子数据，C_C为第三音频数据，L_B为第三音频信号中的左声道音频子数据中的背景声音频，R_B为第三音频信号中的右声道音频子数据中的背景声音频，L_L为第三音频信号中的左声道音频子数据中的人声信号，R_R为第三音频信号中的右声道音频子数据中的人声信号，在该图6中，对第三音频信号中的左声道音频子数据和右声道音频子数据进行自适应滤波，得到背景声音频。

实施例4：

若所述第一振幅和第二振幅分别与预设振幅阈值的差值均不在所述预设差值范围内，或，所述第一偏移时间大于预设偏移时间，或，第一振幅与预设振幅阈值的第一差值在预设差值范围内，且第二振幅与预设振幅阈值的第二差值不在预设差值范围内，则对所述第一音频信号进行自适应滤波操作，得到第三背景声音频。

在本发明实施例中，若第一振幅与预设振幅阈值的第一差值在预设差值范围内，且第二振幅与预设振幅阈值的第二差值不在预设差值范围内，或，第一振幅和第二振幅分别与预设振幅阈值的差值均不在预设差值范围内，则认为背景声音频在左声道音频子数据和右声道音频子数据中的振幅的区别很大，此时可以对第一音频数据进行自适应滤波操作，得到第三背景声音频。

若第一偏移时间大于预设偏移时间，则认为背景声音频信号和人声信号的相位差较大，并且背景声音频信号与人声信号的相关性较小，此时可以对第一音频信号采用自适应滤波操作，得到第三背景声音频。

实施例5：

为了实现人声消除，在上述各实施例的基础上，在本发明实施例中，所述对初始时刻的所述第一音频数据进行自适应滤波操作，确定滤波器的第一振幅包括：

对初始时刻的所述第一音频数据进行自适应滤波操作，得到所述滤波器的第一增益；

若所述第一增益大于预设增益阈值，确定所述第一振幅为所述第一增益；

若否，确定所述第一振幅为所述第一增益的倒数。

在本发明实施例中，对初始时刻的所述第一音频数据进行自适应滤波操作时，会得到滤波器的增益，为了方便与其他增益进行区分，在本发明实施例中将该增益称为第一增益。

在本发明实施例中，若该第一增益大于预设增益阈值，则将该第一增益确定为该滤波的第一振幅。其中，预设增益阈值为预先设置的值，例如其可以为1。

若该第一增益小于预设增益阈值，则将该第一增益的倒数确定为第一振幅。

实施例6：

为了实现人声消除，在上述各实施例的基础上，在本发明实施例中，所述对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，确定滤波器的第二振幅包括：

对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，得到所述滤波器的第二增益；

若所述第二增益大于预设增益阈值，确定所述第二振幅为所述第二增益；

若否，确定所述第二振幅为所述第二增益的倒数。

在本发明实施例中，对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作时，会得到滤波器的增益，为了方便与其他增益进行区分，在本发明实施例中将该增益称为第二增益。

在本发明实施例中，若该第二增益大于预设增益阈值，则将该第二增益确定为该滤波的第二振幅。其中，预设增益阈值为预先设置的值，例如其可以为1。

若该第二增益小于预设增益阈值，则将该第二增益的倒数确定为第二振幅。

图7为本发明实施例提供的人声消除的流程示意图，如图7所示，该过程包括：

S701：确定第一音频数据中的左声道音频子数据和右声道音频子数据。

S702：对左声道音频子数据和右声道音频子数据进行互相关操作。

S703：确定相似度最高的音频信号所对应的第一偏移时间。

在本发明实施例中，为了方便描述，将该第一偏移时间称为K2。

S704：对初始时刻第一音频数据进行自适应滤波，确定滤波器的第一增益。

对初始时刻的第一音频数据进行自适应滤波操作，得到滤波器的系数，其中该系数为该滤波器的第一增益，为了方便描述，将该第一增益称为TA0。通过该自适应滤波操作，还可以分离出初始时刻的音频信号。

S705：将该第一增益转换为滤波器的第一振幅。

若该第一增益TA0大于预设增益阈值，确定第一振幅为该第一增益。其中，预设增益阈值为预先设置的值，在本发明实施例中，该预设增益阈值为1。

若该第一增益TA0小于预设增益阈值，确定第一振幅为该第一增益的倒数。

其中，为了方便描述，将该第二振幅称为A0。

S706：将左声道音频子数据和右声道音频子数据中相似度最高的音频信号对齐，得到第二音频数据。

S707：对第二音频数据进行自适应滤波，记录滤波器的第二系数。

对相似度最高的音频信号所在时刻的第二音频数据进行自适应滤波操作，得到滤波器的系数，其中，该系数为该滤波器的第二增益，为了方便描述，将该第二增益称为TA2。

S708：将该第二增益转换为滤波器的第二振幅。

若该第二增益TA2大于预设增益阈值，确定第二振幅为该第二增益。其中，预设增益阈值为预先设置的值，在本发明实施例中，该预设增益阈值为1。

若该第二增益TA2小于预设增益阈值，确定第二振幅为该第二增益的倒数。

其中，为了方便描述，将该第二振幅称为A2。

S709：若第一振幅和第二振幅分别与预设振幅阈值的差值均在预设差值范围内，且第一偏移时间小于预设偏移时间，则确定左声道音频子数据和右声道音频子数据的差值信号，对差值信号进行自适应滤波操作，得到第一背景声音频。

S710：若第一振幅大于预设振幅，且第二振幅不大于预设振幅，则对第二音频数据进行自适应滤波操作，得到第三音频数据，对第三音频数据进行自适应滤波操作，得到背景声音频。

S711：若第一振幅和第二振幅分别与预设振幅阈值的差值均不在预设差值范围内，或，第一偏移时间大于预设偏移时间，或，第一振幅与预设振幅阈值的第一差值在预设差值范围内，且第二振幅与预设振幅阈值的第二差值不在预设差值范围内，对第一音频信号进行自适应滤波操作，得到背景声音频。

实施例7：

为了实现人声消除，在上述各实施例的基础上，在本发明实施例中，所述将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间之前，所述方法还包括：

接收输入的对当前播放的内容进行K歌的请求。

在本发明实施例中，该人声消除的方法可以用于K歌，接收输入的进行K歌的请求，确定对当前播放的内容进行人声消除。如果未接收到K歌请求，则可以不对第一音频数据进行处理。

实施例8：

为了实现人声消除，在上述各实施例的基础上，在本发明实施例中，所述方法还包括：

将所述背景声音频与当前时间进行时间同步，并播放所述时间同步后的背景声音频。

在本发明实施例中，得到背景声音频后，需要播放该背景声音频，但该背景声音频会与当前时间存在时间差，因此需要将该背景声音频与当前时间进行时间同步，再播放时间同步后的背景声音频。

实施例9：

下面通过一个具体的实施例进行说明。图8为本发明实施例提供的基于智能电视SOC芯片的人声消除的流程示意图：

在该图8中，SOC芯片接收输入的音频数据，其中，该音频信号可能来自于直播电视，还可以是外部输入的，还可以是来自在线视频，还可以是音乐软件中的。对音频数据进行解码。确定K歌功能是否开启。若K歌功能开启，SOC芯片的音频提取模块，得到该音频信号中的左声道音频子数据和右声道音频子数据。将该左声道音频子数据和右声道音频子数据发送到SOC芯片的人声消除模块，进行人声消除，得到背景声音频。

SOC芯片的人声消除模块将该背景声音频发送到SOC芯片的音频接收模块，然后再由该音频接收模块将该背景声音频发送到SOC芯片的音画同步调节模块，进行音画同步，即将背景声音频的时间与当前时间同步。

在SOC芯片的音频处理模块，对该背景声音频进行处理，然后将处理后的背景声音频发送至智能电视的音频功放模块进行播放。

若K歌功能没有开启，则直接将该音频数据发送至SOC芯片的音效处理模块进行处理，然后将处理后的音频数据发送至智能电视的音频功放模块，播放该音频数据。

图9为本发明实施例提供的基于云服务器的人声消除的流程示意图，在该图9中，SOC芯片接收输入的音频数据，其中，该音频信号可能来自于直播电视，还可以是外部输入的，还可以是来自在线视频，还可以是音乐软件中的。对音频数据进行解码。确定K歌功能是否开启，若K歌功能开启，将SOC芯片该音频数据发送至云服务器，使该云服务器对该音频数据进行人声消除。

其中，该云服务器人声消除的方法与上述SOC芯片人声消除的方法相同，在此不再进行赘述。云服务器消除人声后，将背景声音频发送给SOC芯片的音频接收模块，然后再由该音频接收模块将该背景声音频发送到SOC芯片的音画同步调节模块，进行音画同步，即将背景声音频的时间与当前时间同步。

实施例10：

图10为本发明实施例提供的一种人声消除装置的结构示意图，该装置包括：

处理模块1001，用于将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间；对初始时刻的所述第一音频数据进行自适应滤波操作，确定滤波器的第一振幅，根据所述第一偏移时间，将所述右声道音频子数据和所述左声道音频子数据所述相似度最高的音频信号对齐得到第二音频数据，并对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，确定滤波器的第二振幅；

消除模块1002，用于根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频。

在一种可能的实施方式中，所述消除模块1002，具体用于若所述第一振幅和第二振幅分别与预设振幅阈值的差值均在预设差值范围内，且所述第一偏移时间小于预设偏移时间，则确定所述左声道音频子数据和所述右声道音频子数据的差值信号，对所述差值信号进行自适应滤波操作，得到第一背景声音频。

在一种可能的实施方式中，所述消除模块1002，具体用于若所述第一振幅与预设振幅阈值的第一差值不在所述预设差值范围内，且所述第二音频信号与预设振幅阈值的第二差值在所述预设差值范围内，则对所述第二音频数据进行自适应滤波，得到第三音频数据，并对所述第三音频数据进行自适应滤波，得到第二背景声音频。

在一种可能的实施方式中，所述消除模块1002，具体用于若所述第一振幅和第二振幅分别与预设振幅阈值的差值均不在所述预设差值范围内，或，所述第一偏移时间大于预设偏移时间，或，第一振幅与预设振幅阈值的第一差值在预设差值范围内，且第二振幅与预设振幅阈值的第二差值不在预设差值范围内，则对所述第一音频信号进行自适应滤波操作，得到第三背景声音频。

在一种可能的实施方式中，所述处理模块1001，具体用于对初始时刻的所述第一音频数据进行自适应滤波操作，得到所述滤波器的第一增益；若所述第一增益大于预设增益阈值，确定所述第一振幅为所述第一增益；若否，确定所述第一振幅为所述第一增益的倒数。

在一种可能的实施方式中，所述处理模块1001，具体用于对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，得到所述滤波器的第二增益；若所述第二增益大于预设增益阈值，确定所述第二振幅为所述第二增益；若否，确定所述第二振幅为所述第二增益的倒数。

在一种可能的实施方式中，所述处理模块1001，还用于判断是否接收到K歌请求；若是，进行将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间的步骤。

实施例11：

图11为本发明实施例提供的一种电子设备结构示意图，在上述各实施例的基础上，本发明实施例还提供了一种电子设备，如图11所示，包括：处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信；

所述存储器1103中存储有计算机程序，当所述程序被所述处理器1101执行时，使得所述处理器1101执行如下步骤：

在一种可能的实施方式中，所述根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频包括：

若所述第一振幅与预设振幅阈值的第一差值不在所述预设差值范围内，且所述第二音频信号与预设振幅阈值的第二差值在所述预设差值范围内，则对所述第二音频数据进行自适应滤波，得到第三音频数据，并对所述第三音频数据进行自适应滤波，得到第二背景声音频。

在一种可能的实施方式中，所述对初始时刻的所述第一音频数据进行自适应滤波操作，确定滤波器的第一振幅包括：

若否，确定所述第一振幅为所述第一增益的倒数。

在一种可能的实施方式中，所述对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，确定滤波器的第二振幅包括：

若否，确定所述第二振幅为所述第二增益的倒数。

在一种可能的实施方式中，所述将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间之前，所述方法还包括：

判断是否接收到K歌请求；

若是，进行将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间的步骤。

在一种可能的实施方式中，所述方法还包括：

由于上述电子设备解决问题的原理与通信方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1102用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例12：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

若否，确定所述第一振幅为所述第一增益的倒数。

若否，确定所述第二振幅为所述第二增益的倒数。

判断是否接收到K歌请求；

在一种可能的实施方式中，所述方法还包括：

由于上述提供的计算机可读取介质解决问题的原理与通信方法相似，因此处理器执行上述计算机可读取介质中的计算机程序后，实现的步骤可以参见上述其他实施例，重复之处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种人声消除方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频包括：

若所述第一振幅与预设振幅阈值的第一差值不在所述预设差值范围内，且第二音频信号与预设振幅阈值的第二差值在预设差值范围内，则对所述第二音频数据进行自适应滤波，得到第三音频数据，并对所述第三音频数据进行自适应滤波，得到第二背景声音频。

4.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频包括：

若所述第一振幅和第二振幅分别与预设振幅阈值的差值均不在预设差值范围内，或，所述第一偏移时间大于预设偏移时间，或，第一振幅与预设振幅阈值的第一差值在预设差值范围内，且第二振幅与预设振幅阈值的第二差值不在预设差值范围内，则对第一音频信号进行自适应滤波操作，得到第三背景声音频。

5.根据权利要求1所述的方法，其特征在于，所述对初始时刻的所述第一音频数据进行自适应滤波操作，确定滤波器的第一振幅包括：

若否，确定所述第一振幅为所述第一增益的倒数。

6.根据权利要求1所述的方法，其特征在于，所述对相似度最高的音频信号所在时刻的所述第二音频数据进行自适应滤波操作，确定滤波器的第二振幅包括：

若否，确定所述第二振幅为所述第二增益的倒数。

7.根据权利要求1所述的方法，其特征在于，所述将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号在左、右声道音频子数据中对应的第一偏移时间之前，所述方法还包括：

判断是否接收到K歌请求；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种人声消除装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现根据权利要求1-8中任一所述的人声消除方法的步骤。