CN112235693B

CN112235693B - 麦克风信号处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112235693B
Application number: CN202011214355.2A
Authority: CN
Inventors: 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-12-21
Anticipated expiration: 2040-11-04
Also published as: CN112235693A

Abstract

本申请公开了一种麦克风信号处理方法、装置、设备及计算机可读存储介质，属于声音识别技术领域。所述方法包括：获取所述终端的回采信号组，所述回采信号组包括至少两个回采信号；获取所述回采信号组中回采信号的合并信号；将所述合并信号确定为所述终端的参考信号；获取所述终端的麦克风信号；根据所述参考信号对所述麦克风信号进行处理，以去除所述麦克风信号中所述终端发出的声音的信号。上述技术方案，解决了相关技术中终端难以精准的去除麦克风信号中终端发出的声音的信号的问题，达到了可以较为精准的去除麦克风信号中终端发出的声音的信号的效果。

Description

麦克风信号处理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及声音识别技术领域，特别涉及一种麦克风信号处理方法、装置、设备及计算机可读存储介质。

背景技术

终端在播放声音的同时，通过麦克风采集外界的声音得到麦克风信号，该麦克风信号包括外界的声音信号以及终端自身播放的声音信号，如此便需要终端提供一个参考信号，以便于终端区分麦克风信号中其自身播放的声音信号以及外界的声音信号(如外界的人声)。

相关技术中一种麦克风信号处理方法中，终端使用回采信号作为参考信号，回采信号为终端采集到的其自身输出的音频信号，当终端获取到多个回采信号时，终端选择其中的一个回采信号作为参考信号，并根据该参考信号对终端获取到的麦克风信号进行处理，以去除其中终端自身发出的声音的信号。

但是，上述麦克风信号处理方法中，终端难以精准的去除麦克风信号中自身发出的声音的信号。

发明内容

本申请实施例提供了一种麦克风信号处理方法、装置、设备及计算机可读存储介质。所述技术方案如下：

根据本申请的一方面，提供了一种麦克风信号处理方法，所述麦克风信号处理方法包括：

获取所述终端的回采信号组，所述回采信号组包括至少两个回采信号；

获取所述回采信号组中回采信号的合并信号；

将所述合并信号确定为所述终端的参考信号；

获取所述终端的麦克风信号；

根据所述参考信号对所述麦克风信号进行处理，以去除所述麦克风信号中所述终端发出的声音的信号。

可选的，所述获取所述回采信号组中回采信号的合并信号，包括：

获取所述回采信号组中至少两个回采信号在每个时刻的幅值的均值，所述每个时刻中的第一时刻的幅值的均值为所述至少两个回采信号在所述第一时刻的至少两个幅值的均值；

将所述每个时刻幅值的均值确定为所述合并信号每个时刻的幅值，以得到所述合并信号。

可选的，获取所述回采信号组中至少两个回采信号在每个时刻的幅值的均值，包括：

获取所述回采信号组中至少两个回采信号在所述第一时刻的至少两个幅值的和以及平方和；

将所述平方和与所述和的商作为所述至少两个回采信号在所述第一时刻的均值。

可选的，所述均值为算术平均值，几何平均值，平方平均值或加权平均值。

可选的，获取所述回采信号组中回采信号的合并信号，包括：

当所述回采信号组中的第一回采信号包括脉冲信号时，去除所述第一回采信号中具有脉冲信号的部分；

获取去除所述具有脉冲信号的部分后的第一回采信号与所述回采信号组中第二回采信号的合并信号，所述第二回采信号为所述回采信号组中除所述第一回采信号外的回采信号。

当所述回采信号组中的第一回采信号包括脉冲信号时，对所述第一回采信号进行滤波，以滤除所述第一回采信号中的脉冲信号；

获取滤除了脉冲信号后的第一回采信号与所述回采信号组中第二回采信号的合并信号，所述第二回采信号为所述回采信号组中除所述第一回采信号外的回采信号。

可选的，所述当所述回采信号组中的第一回采信号包括脉冲信号时，对所述第一回采信号进行滤波，以滤除所述第一回采信号中的脉冲信号，包括：

当所述回采信号组中的第一回采信号包括脉冲信号时，将所述第一回采信号中包括第一时刻在内的n个时刻的幅值的均值确定为所述第一时刻的幅值，所述n大于或等于3。

可选的，所述方法还包括：

当所述第一回采信号的目标时间段内，幅值大于目标幅值的时刻的数量大于数量阈值时，确定所述目标时间段内包括脉冲信号；

当所述第一回采信号的目标时间段内，幅值大于目标幅值的时刻的数量不大于数量阈值时，确定所述目标时间段内不包括脉冲信号。

另一方面，提供了一种麦克风信号处理装置，所述麦克风信号处理装置包括：

第一获取模块，用于获取所述终端的回采信号组，所述回采信号组包括至少两个回采信号；

第二获取模块，用于获取所述回采信号组中回采信号的合并信号；

确定模块，用于将所述合并信号确定为所述终端的参考信号；

第三获取模块，用于获取所述终端的麦克风信号；

处理模块，用于根据所述参考信号对所述麦克风信号进行处理，以去除所述麦克风信号中所述终端发出的声音的信号。

又一方面，提供了一种麦克风信号处理设备，所述麦克风信号处理设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的麦克风信号处理方法。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的麦克风信号处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

提供了一种麦克风信号处理方法，该麦克风信号处理方法可以根据回采信号组中的至少两个回采信号生成合并信号，并将合并信号作为终端的参考信号。之后可以根据该参考信号来对麦克风信号进行处理，以去除麦克风信号中终端发出的声音的信号。由于该参考信号综合了至少两个回采信号的信息，因而根据该参考信号可以更为精准地去除麦克风信号中终端发出的声音的信号。该方法解决了相关技术中终端难以精准的去除麦克风信号中终端发出的声音的信号的问题，达到了可以较为精准的去除麦克风信号中终端发出的声音的信号的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的麦克风信号处理方法的实施环境的示意图；

图2是本申请实施例提供的一种麦克风信号处理方法的流程图；

图3是本申请实施例提供的另一种麦克风信号处理方法的流程图；

图4是本申请实施例提供的一种麦克风信号处理装置的框图；

图5是本申请实施例提供的一种麦克风信号处理装置的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

目前，一种终端可以具有录制音频的功能，还有播放音频的功能。例如该终端可以是一种智能音箱，该智能音箱能同时录制外界的声音以及自身播放的声音，此时录制得到的音频信号是包括外界的声音以及智能音箱自身播放的声音的一个混合音频信号。该混合音频信号如果不加处理就用于智能音箱的唤醒和识别，会降低智能音箱的唤醒和识别，以至于影响整个智能音箱的产品质量。

在一种麦克风信号处理方法中，终端使用回采信号作为参考信号，回采信号为终端采集到的其自身输出的音频信号，当终端获取到多个回采信号时，终端选择其中的一个回采信号作为参考信号，并根据该参考信号对终端获取到的麦克风信号进行处理，以便从麦克风信号中获取外界的声音信号。

但是，上述参考信号获取方法中获取的参考信号中的信息较少，导致终端根据该参考信号获取到的外界的声音的准确性较低。

本申请实施例提供了一种麦克风信号处理方法、装置、设备及计算机可读存储介质。

图1是本申请实施例提供的麦克风信号处理方法的实施环境的示意图，该实施环境可以包括服务器11，终端12以及外界的声音13。

服务器11可以为一个服务器或服务器集群。该服务器11可以根据终端12获取到的回采信号组得到参考信号，并将该参考信号发送至终端12。

终端12中可以设置有获取回采信号的装置，终端12的内存中还可以设置有缓冲区，用于存放通过不同录音通道获取到的音频信号。终端12可以通过麦克风获取麦克风信号，该麦克风信号可以包括终端12自身播放的声音以及外界的声音13，终端12可以根据回采信号组得到参考信号。终端12还可以将回采信号组上传至服务器11，并获取服务器11反馈的参考信号。终端12还可以将回采信号组以及麦克风信号上传至服务器11，并获取服务器11反馈的外界的声音13。终端12可以为智能音箱、手机、平板电脑、笔记本电脑、智能可穿戴设备等各种终端。

外界的声音13可以包括外界的人声等声音。外界的声音13可以用于控制终端12。终端12或服务器11可以根据参考信号从麦克风信号中获取外界的声音13。

终端12可以通过有线或无线的方式(图1示出的是以无线的方式进行连接的情况)与服务器11连接。服务器11与终端12均可以实现本申请实施例提供的麦克风信号处理方法。

图2是本申请实施例提供的一种麦克风信号处理方法的流程图。该麦克风信号处理方法可以用于图1所示实施环境的终端中，该麦克风信号处理方法可以包括：

步骤201，获取终端的回采信号组。回采信号组包括至少两个回采信号。

步骤202，获取回采信号组中回采信号的合并信号。

步骤203，将合并信号确定为终端的参考信号。

步骤204，获取终端的麦克风信号。

步骤205，根据参考信号对麦克风信号进行处理，以去除麦克风信号中终端发出的声音的信号。

综上所述，本申请实施例提供了一种麦克风信号处理方法，该麦克风信号处理方法可以根据回采信号组中的至少两个回采信号生成合并信号，并将合并信号作为终端的参考信号。之后可以根据该参考信号来对麦克风信号进行处理，以去除麦克风信号中终端发出的声音的信号。由于该参考信号综合了至少两个回采信号的信息，因而根据该参考信号可以更为精准地去除麦克风信号中终端发出的声音的信号。该方法解决了相关技术中终端难以精准的去除麦克风信号中终端发出的声音的信号的问题，达到了可以较为精准的去除麦克风信号中终端发出的声音的信号的效果。

图3是本申请实施例提供的另一种麦克风信号处理方法的流程图，该麦克风信号处理方法可以应用于图1所示实施环境的终端中。参考图3可以看出，该麦克风信号处理方法可以包括：

步骤301，获取终端的回采信号组。该回采信号组包括至少两个回采信号。

终端在播放声音时，通过麦克风采集外界的声音，会将外界的声音以及终端自身播放的声音同时采集到，此时便需要一个参考信号，以便于终端区分其自身播放的声音以及外界的声音(如外界的人声)，在本申请实施例中，终端可以根据回采信号组获得参考信号。终端可以在播放声音时获取回采信号组。该回采信号组可以由终端采集的至少两个回采信号所构成。

回采信号组中的回采信号可以包括软件回采信号或硬件回采信号，终端可以获取软件回采信号或硬件回采信号中的一种。终端可以具有至少两个获取回采信号的模块，通过每个模块可以获取一个硬件回采信号，由于模块的不同，每个硬件回采信号之间也有一定的区别。终端还可以包括虚拟声卡，虚拟声卡包括至少两个录音通道，终端的内存中还可以设置缓冲区，终端可以通过不同的录音通道获取软件回采信号并保存至缓冲区，当终端检测到外界的声音(例如外界的人声)时，终端可以从该缓冲区获取软件回采信号以便对软件回采信号进行处理。

在本申请实施例中，回采信号可以用于得到参考信号，以便终端可以根据该参考信号区分终端获取的声音信号中终端自身播放的声音以及外界的声音(如外界的人声)。回采信号还可以用于回声消除以及语音识别等处理。

执行步骤301后可以执行步骤302，也可以执行步骤304，图3所示为执行步骤301后执行步骤302的情况，但本申请实施例对此并不进行限制。

步骤302，检测回采信号组中的第一回采信号是否包括脉冲信号。

终端在工作时，终端的硬件设备振动产生的噪音或其他因素可能会在回采信号中产生脉冲信号，脉冲信号为离散且不连续的信号，脉冲信号可以掺杂在回采信号中，因而终端要检测回采信号组中的第一回采信号是否包括脉冲信号，以在第一回采信号包括脉冲信号时，对第一回采信号进行处理。脉冲信号会对回采信号的准确性产生一定的干扰，因而终端可以检测回采信号组中的回采信号是否包括脉冲信号。第一回采信号可以为回采信号组中的任一回采信号。

当第一回采信号的目标时间段内，幅值大于目标幅值的时刻的数量大于数量阈值时，确定目标时间段内包括脉冲信号。当第一回采信号的目标时间段内，幅值大于目标幅值的时刻的数量不大于数量阈值时，确定目标时间段内不包括脉冲信号。

操作人员可以根据实际需求设置一个目标幅值，当第一回采信号在目标时间段内，幅值大于目标幅值的时刻的数量大于数量阈值时，终端可以检测到回采信号组中的第一回采信号包括脉冲信号。当第一回采信号在目标时间段内，幅值大于目标幅值的时刻的数量不大于数量阈值时，终端可以检测到回采信号组中的第一回采信号不包括脉冲信号。

终端可以根据脉冲检测公式对回采信号组中的第一回采信号进行脉冲检测，脉冲检测公式可以包括：

其中，t为脉冲检测的滑动窗口的时间长度，p_count为脉冲信号数量阈值，p_lower为脉冲信号的下限值，i为滑动窗口内的第i个时间点，s_i为时间点i的回采信号的幅值，f_i为滑动窗口内回采信号的幅值的度量函数，G_t为滑动窗口内的回采信号的衡量函数，当G_t为0时，回采信号在滑动窗口内不包括脉冲信号，当G_t为1时，回采信号在滑动窗口内包括脉冲信号。

本申请实施例提供的检测回采信号中是否包括脉冲信号的方法，是判断回采信号在时间长度t内超过脉冲信号的下限值的回采信号的幅值的个数与脉冲信号数量阈值之间的大小关系，进而判断回采信号中是否包括脉冲信号，当回采信号在时间长度t内，超过脉冲信号的下限值的幅值的个数不小于脉冲信号数量阈值时，终端可以确定回采信号中包括脉冲信号，当回采信号在时间长度t内，超过脉冲信号的下限值的幅值的个数小于脉冲信号数量阈值时，终端可以确定回采信号中不包括脉冲信号。

需要说明的是，终端在对回采信号组中的回采信号进行脉冲检测时，可以获取回采信号组中相同时间段的回采信号进行脉冲检测，例如，回采信号组中的每个回采信号的时间长度为16秒(second，s)，终端可以以200毫秒(millisecond，ms)为时间间隔对回采信号进行划分，每段回采信号的时间长度为200ms且回采信号组中的回采信号的段数相同，终端可以获取回采信号组中每个回采信号第x段的200ms进行脉冲检测。

此外，本申请实施例还可以采用其他方法检测脉冲信号，例如可以检测回采信号在目标时间段内的能量与预设能量之间的关系，当回采信号在目标时间段内的能量大于预设能量，则回采信号在目标时间段内包括脉冲信号，目标时间段与预设能量可以由操作人员根据实际需求进行设置。

当回采信号组中的第一回采信号包括脉冲信号时，执行步骤303，当回采信号组中的第一回采信号不包括脉冲信号时，执行步骤304。

步骤303，对回采信号组中的第一回采信号进行处理。

当终端检测出回采信号组中的第一回采信号中包括脉冲信号时，终端可以对回采信号组中的第一回采信号处理，以降低第一回采信号中的脉冲信号对回采信号组的影响。

对回采信号组中的第一回采信号进行处理的方法可以包括下面两种：

1)第一种处理方法：去除第一回采信号中具有脉冲信号的部分。

当终端检测出回采信号组中的第一回采信号中包括脉冲信号时，去除该第一回采信号中具有脉冲信号的部分。脉冲信号为回采信号中的干扰信号，去除回采信号中具有脉冲信号的部分可以使最后确定的参考信号较为准确。

示例性的，回采信号组可以包括8个回采信号，在检测回采信号组中的回采信号是否包括脉冲信号时，可以获取每个回采信号的x毫秒至x+200毫秒进行检测(进行检测的时间长度可以根据实际需求进行设置)，在检测时，滑动窗口的时间长度t可以为100ms，也即是每个回采信号会进行两次检测，若每个回采信号的两次检测中至少一次检测出该回采信号包括脉冲信号时，去除该回采信号的x毫秒至x+200毫秒这一部分。

2)第二种处理方法：对第一回采信号进行滤波，以滤除第一回采信号中的脉冲信号。

该滤波的方式可以包括将第一回采信号中包括第一时刻在内的n个时刻的幅值的均值确定为第一时刻的幅值，n大于或等于3，该第一时刻为第一回采信号中的任一时刻。

此外，终端还可以通过其他方式来进行滤波，例如终端可以使用防脉冲干扰平均值滤波方法对第一回采信号进行滤波处理，以滤除第一回采信号中的脉冲信号。防脉冲干扰平均值滤波方法是获取至少三个连续时刻的幅值(至少三个连续时刻包括第一时刻)，去除至少三个连续时刻的幅值中幅值的最大值与幅值的最小值，计算去除幅值的最大值与幅值的最小值后至少一个幅值的算术平均值，并将该算术平均值作为第一时刻的幅值。防脉冲干扰平均值滤波方法可以抑制随机干扰，能滤除较为明显的脉冲信号。

执行步骤303的第二种处理方法时，可以不执行步骤302，本申请实施例对此并不进行限制。

执行步骤303后可以执行步骤304。

步骤304，获取回采信号组中至少两个回采信号在每个时刻的幅值的均值。

其中，每个时刻中的第一时刻的幅值的均值为至少两个回采信号在第一时刻的至少两个幅值的均值。

当执行步骤301后执行步骤304时，步骤304可以为获取回采信号组中至少两个回采信号每个时刻的幅值的均值。当执行步骤303的第一种处理方法后执行步骤304时，步骤304可以为获取去除具有脉冲信号的部分后的第一回采信号与回采信号组中第二回采信号在每个时刻的幅值的均值。当执行步骤303的第二种处理方法后执行步骤304时，步骤304可以为获取滤除了脉冲信号后的第一回采信号与回采信号组中第二回采信号在每个时刻的幅值的均值。

需要说明的是，去除第一回采信号中具有脉冲信号的部分，也即是该第一回采信号在具有脉冲信号的这一时间段内不参与求均值的计算。示例性的，在8个回采信号中，第4个回采信号的x毫秒至x+200毫秒这一部分具有脉冲信号(则第4个回采信号为第一回采信号)，则去除第4个回采信号中x毫秒至x+200毫秒这一部分，对x毫秒至x+200毫秒这一部分的每个时刻的幅值求均值时，应该获取除第4个回采信号外其余7个回采信号(其余7个回采信号均为第二回采信号)在x毫秒至x+200毫秒这一部分内每个时刻的幅值的均值。当8个回采信号的x+200毫秒至x+400毫秒这一部分均不具有脉冲信号时，获取8个回采信号在x+200毫秒至x+400毫秒这一部分内每个时刻的幅值的均值。

终端可以获取回采信号组中至少两个回采信号每个时刻的幅值的均值，均值可以包括算术平均值，几何平均值，平方平均值或加权平均值。

在一种示例性实施例中，可以根据均值公式生成每个时刻的幅值的均值，均值公式包括：

m为时刻的数量，j为回采信号的第j个时刻，sum_j为回采信号组中的回采信号在第j个时刻的幅值的和，n为回采信号组中回采信号的数量，E_k，j为回采信号组中第k个回采信号在第j个时刻的幅值，

为第j个时刻的幅值的平均值。

需要说明的是，终端还可以获取回采信号组中至少两个回采信号在每个时刻的最大幅值或最小幅值。示例性的，当某时刻外界的声音较大而终端播放的声音较小时，终端可以获取这至少两个回采信号在该时刻的最大幅值，并将该最大幅值作为合并信号的幅值，当某一时刻外界的声音较小而终端播放的声音较大时，终端可以获取这至少两个回采信号在该时刻的最小幅值，并将该最小幅值作为合并信号的幅值。如此便能使外界的声音大小与终端播放的声音大小之间的差距较小，可以进一步增加终端获取到的外界的声音的准确性。

示例性的，如表1所示，其为回采信号的幅值表，其中下标表示不包括脉冲信号的回采信号的顺序以及该回采信号的时刻(例如E_2,3表示第二个不包括脉冲信号的回采信号在第三时刻的幅值)，表1的内容表示8通道的回采信号在16s内每个时刻的幅值。16ms的回采信号可以有256个时刻的幅值。

表1回采信号的幅值表

步骤305，将每个时刻幅值的均值确定为合并信号每个时刻的幅值，以得到合并信号。

终端可以将回采信号组中至少两个回采信号每个时刻的幅值的均值确定为合并信号每个时刻的幅值，以得到合并信号。

步骤306，将合并信号确定为终端的参考信号。

终端可以将合并信号确定为终端的参考信号。

示例性的，如表2所示，其为参考信号的幅值表，其中下标表示该参考信号的时刻(Out_E1表示参考信号在第一个时刻的幅值)。终端可以根据表1得到参考信号的幅值表。

表2参考信号的幅值表

OutE1

OutE2

OutE3

...

OutE254

OutE255

OutE256

回采信号每个时刻的幅值包含有一定的信息，使用本申请实施例提供的麦克风信号处理方法获取到的参考信号，包括各回采信号的信息，使得参考信号中的信息较为丰富。终端自身在播放声音时，可以通过本申请实施例提供的方法实时获取参考信号。终端在获取到参考信号后，当终端检测到外部声音(例如外界的人声)时，终端可以提供该参考信号以便区分终端自身播放的声音以及外部的声音。

步骤307，获取终端的麦克风信号。

终端可以通过麦克风获取麦克风信号。麦克风信号包括外界的声音信号(如外界的人声)与终端自身播放的声音信号。

步骤308，根据参考信号对麦克风信号进行处理，以去除麦克风信号中终端发出的声音的信号。

终端可以根据步骤306获取到的参考信号对麦克风信号进行处理，以去除麦克风信号中终端发出的声音信号，得到外界的声音信号(如外界的人声)。终端可以根据已知的参考信号，麦克风信号以及外界的声音信号训练初始神经网络模型，得到神经网络模型，该神经网络模型可以根据参考信号与麦克风信号得到外界的声音信号。终端可以将参考信号以及麦克风信号输入至上述神经网络模型中，神经网络模型可以根据参考信号对麦克风信号进行处理，并输出处理得到的外界的声音信号。

使用本申请实施例提供的麦克风信号处理方法获取到的参考信号中的信息较为丰富，终端可以根据该参考信号对麦克风信号进行处理，可以提高麦克风信号处理方法的准确性。本申请实施例提供的麦克风信号处理方法应用于智能音箱时，由于参考信号中的信息较为丰富，因而去除麦克风信号中终端发出的声音信号得到外界的声音信号较为准确，可以提高智能音箱语音识别以及语音唤醒的准确性。

在一个示例性实施例中，本申请实施例提供的麦克风信号处理方法可以应用在智能音箱中，该智能音箱的功能可以包括语音唤醒功能。当智能音箱开始播放声音时，智能音箱可以获取智能音箱的回采信号组并检测回采信号组中的回采信号是否包括脉冲信号，该回采信号组包括至少两个回采信号，当智能音箱检测出回采信号组中的回采信号中包括脉冲信号时，去除该回采信号中具有脉冲信号的部分，并获取去除回采信号中具有脉冲信号的部分后的回采信号组中至少两个回采信号每个时刻的幅值的均值。智能音箱可以将每个时刻幅值的均值确定为合并信号每个时刻的幅值，以得到合并信号。智能音箱将合并信号确定为参考信号。

当智能音箱检测到人说话的声音时，由麦克风得到麦克风信号，该麦克风信号包括人说话的声音信号以及智能音箱自身发出的声音信号，智能音箱提供通过本申请实施例提供的麦克风信号处理方法获取到的参考信号，以从麦克风信号中去除智能音箱自身发出的声音信号，得到人说话的声音信号。之后智能音箱可以通过语音识别技术来识别该声音信号，并进行对应的操作，例如，当该声音信号指示播放歌曲A时，智能音箱可以开始播放该歌曲A。由于该声音信号是根据参考信号去除了智能音箱自身发出的声音后的信号，因而准确性较高，进而进行语音识别时的准确性也会相应提高，如此便提高了智能音箱进行语音识别的准确性，智能程度较高。

图4是本申请实施例提供的一种麦克风信号处理装置的框图。参考图4可以看出，该麦克风信号处理装置400可以包括：

第一获取模块401，用于获取终端的回采信号组，回采信号组包括至少两个回采信号，回采信号包括软件回采信号或硬件回采信号。

第二获取模块402，用于获取回采信号组中回采信号的合并信号。

确定模块403，用于将合并信号确定为终端的参考信号。

第三获取模块404，用于获取终端的麦克风信号。

处理模块405，用于根据参考信号对麦克风信号进行处理，以去除麦克风信号中终端发出的声音的信号。

综上所述，本申请实施例提供了一种麦克风信号处理装置，该麦克风信号处理装置可以根据回采信号组中的至少两个回采信号生成合并信号，并将合并信号作为终端的参考信号。之后可以根据该参考信号来对麦克风信号进行处理，以去除麦克风信号中终端发出的声音的信号。由于该参考信号综合了至少两个回采信号的信息，因而根据该参考信号可以更为精准地去除麦克风信号中终端发出的声音的信号。该方法解决了相关技术中终端难以精准的去除麦克风信号中终端发出的声音的信号的问题，达到了可以较为精准的去除麦克风信号中终端发出的声音的信号的效果。

可选地，第二获取模块还包括：

第一获取子模块，用于获取回采信号组中至少两个回采信号在每个时刻的幅值的均值，每个时刻中的第一时刻的幅值的均值为至少两个回采信号在第一时刻的至少两个幅值的均值。均值为算术平均值，几何平均值，平方平均值或加权平均值。

确定子模块，用于将每个时刻幅值的均值确定为合并信号每个时刻的幅值，以得到合并信号。

可选地，第一获取子模块还用于：

获取回采信号组中至少两个回采信号在第一时刻的至少两个幅值的和以及平方和。

将平方和与和的商作为至少两个回采信号在第一时刻的均值。

可选地，第二获取模块还包括：

去除子模块，用于当回采信号组中的第一回采信号包括脉冲信号时，去除第一回采信号中具有脉冲信号的部分。

第二获取子模块，用于获取去除具有脉冲信号的部分后的第一回采信号与回采信号组中第二回采信号的合并信号，第二回采信号为回采信号组中除第一回采信号外的回采信号。

可选地，第二获取模块还包括：

滤波子模块，用于当回采信号组中的第一回采信号包括脉冲信号时，对第一回采信号进行滤波，以滤除第一回采信号中的脉冲信号。

第三获取子模块，用于获取滤除了脉冲信号后的第一回采信号与回采信号组中第二回采信号的合并信号，第二回采信号为回采信号组中除第一回采信号外的回采信号。

可选地，滤波子模块还用于：

当回采信号组中的第一回采信号包括脉冲信号时，将第一回采信号中包括第一时刻在内的n个时刻的幅值的均值确定为第一时刻的幅值，n大于或等于3。

综上所述，本申请实施例提供了一种麦克风信号处理装置，该麦克风信号处理装置可以根据回采信号组中的至少两个回采信号生成合并信号，并将合并信号作为终端的参考信号，如此便能根据回采信号组得到参考信号，该参考信号包括回采信号组中回采信号的信息。解决了相关技术中参考信号中的信息较少的问题。达到了丰富参考信号中的信息的效果。

图5是本申请实施例提供的一种麦克风信号处理装置500的结构示意图，该麦克风信号处理装置500可以为终端。示例地，如图5所示，该麦克风信号处理装置500包括中央处理单元(Central Processing Unit，CPU)501、存储器502，以及连接存储器502和中央处理单元501的系统总线503，存储器502可以包括诸如硬盘或者紧凑型光盘只读储存器(Compact Disc Read-Only Memory，CD-ROM)之类的计算机可读介质(未示出)。

不失一般性，计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦写可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。

上述存储器502还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行，以实现本申请实施例提供的麦克风信号处理方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种麦克风信号处理方法，其特征在于，所述方法包括：

获取终端的回采信号组，所述回采信号组包括至少两个回采信号；

获取所述回采信号组中回采信号的合并信号；

将所述合并信号确定为所述终端的参考信号；

获取所述终端的麦克风信号；

根据所述参考信号对所述麦克风信号进行处理，以去除所述麦克风信号中所述终端发出的声音的信号；

在所述获取所述回采信号组中回采信号的合并信号之前，还包括：

检测所述回采信号组中的第一回采信号是否包括脉冲信号，以在所述第一回采信号包括脉冲信号时，对所述第一回采信号进行处理，所述第一回采信号为所述回采信号组中的任一回采信号。

2.根据权利要求1所述的方法，其特征在于，所述获取所述回采信号组中回采信号的合并信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述回采信号组中至少两个回采信号在每个时刻的幅值的均值，包括：

4.根据权利要求2所述的方法，其特征在于，所述均值为算术平均值，几何平均值，平方平均值或加权平均值。

5.根据权利要求1所述的方法，其特征在于，所述获取所述回采信号组中回采信号的合并信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述回采信号组中回采信号的合并信号，包括：

7.根据权利要求6所述的方法，其特征在于，所述当所述回采信号组中的第一回采信号包括脉冲信号时，对所述第一回采信号进行滤波，以滤除所述第一回采信号中的脉冲信号，包括：

8.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

9.一种麦克风信号处理设备，其特征在于，所述麦克风信号处理设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的麦克风信号处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的麦克风信号处理方法。