CN113744750B

CN113744750B - 一种音频处理方法及电子设备

Info

Publication number: CN113744750B
Application number: CN202110851254.4A
Authority: CN
Inventors: 玄建永; 刘镇亿; 杨枭; 夏日升
Original assignee: Beijing Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-07-05
Anticipated expiration: 2041-07-27
Also published as: EP4148731A1; CN113744750A; WO2023005383A1

Abstract

一种音频处理方法及电子设备。在该方法中在本申请实施例中，电子设备的至少两个麦克风可以持续采集声音信号，并实时地将其转化为当前帧音频信号，对其进行实时的处理。对于第一麦克风获取的当前帧第一输入音频信号，电子设备可以结合第二麦克风获取的当前帧第二输入音频信号，检测出该第一输入音频信号中的第一噪音信号，并且除去该第一噪音信号。

Description

一种音频处理方法及电子设备

技术领域

本申请涉及终端及音频处理技术领域，尤其涉及一种音频处理方法及电子设备。

背景技术

随着例如手机之类的电子设备的录音录像功能的不断完善，越来越多的用户喜欢利用电子设备录制视频或者音频。电子设备在录制视频或者音频时，都需要使用到麦克凤进行拾音。电子设备的麦克风可以无区别的采集其周围环境中的一切声音信号，其中也会包括一些噪声。

有一种噪声是因为人手(或其他物体)在接触到电子设备的麦克风或麦克风管道时因为摩擦而产生的摩擦音。如果在录制的音频信号中包括这种噪声则会导致声音听起来有不清晰，有尖锐刺耳之感，且这种因摩擦而产生的噪声是经过固体传播之后输入到电子设备的麦克风中的，其在频域上的表现形式不同于其他经过空气中传播再传输到电子设备中的噪音，则导致电子设备通过现在已经具备的降噪功能很难准确地检测出该因摩擦而产生的噪音从而对其进行抑制。

如何在录制音频信号的过程中除去该音频信号中的该种因接触到电子设备的麦克风或麦克风管道而导致的噪声是亟需解决的问题。

发明内容

本申请提供了一种音频处理方法及电子设备，电子设备可以结合第二音频信号确定第一音频信号中的第一噪音信号，并且利用该第二音频信号除去该第一噪音信号。

第一方面，本申请提供了一种音频处理方法，该方法应用于电子设备，该电子设备包括第一麦克风和第二麦克风，其特征在于，该方法包括：在第一时刻，电子设备获取第一音频信号和第二音频信号，该第一音频信号用于指示该第一麦克风采集到的信息，该第二音频信号用于指示该第二麦克风采集到的信息；该电子设备确定该第一音频信号包括第一噪音信号，其中，该第二音频信号不包括该第一噪音信号；该电子设备对该第一音频信号进行处理得到第三音频信号，该第三音频信号不包括该第一噪音信号；其中，该电子设备确定该第一音频信号包括第一噪音信号，包括：根据该第一音频信号和该第二音频信号之间的相关性，该电子设备确定该第一音频信号包括第一噪音信号。

实施第一方面的方法，电子设备可以结合第二音频信号确定第一音频信号中的第一噪音信号，并且除去该第一噪音信号。

结合第一方面，在一种实施方式中，该第一音频信号以及该第二音频信号对应N个频点，其中，任一频点至少包括声音信号的频率，以及声音信号的能量大小，其中N为2的整数次方。

在上述实施例中，电子设备将音频信号转化为频点进行处理，可以便于计算。

结合第一方面，在一种实施方式中，该电子设备确定该第一音频信号包括第一噪音信号，还包括：该电子设备利用该第一音频信号的前一帧音频信号以及该第一音频信号中任一频点对应的第一预判标签，计算该第一音频信号中任一频点的第一标签；该前一帧音频信号是与该第一音频信号相差X帧的音频信号；该第一标签用于标识该第一音频信号中任一频点对应的声音信号的第一能量变化值是否符合第一噪音信号的特征，该第一标签为1，则表示任一频点对应的声音信号可能为第一噪音信号，该第一标签为0，则表示任一频点对应的声音信号不为第一噪音信号；该第一预判标签用于计算第一音频信号中任一频点的第一标签；该第一能量差值用于表示该第一音频信号中任一频点与该第一音频信号的前一帧音频信号中与其频率相同的频点的能量差；该电子设备计算该第一音频信号与第二音频信号对应的任一频点的相关性；该电子设备结合该第一标签以及该相关性，确定该第一音频信号对应的全部频点中的全部第一频点，该第一频点对应的声音信号为第一噪音信号，该第一频点的第一标签为1且该第一频点与该第二音频信号中频率相同的频点的相关性小于第二阈值。

在上述实施例中，电子设备确定当前帧第一音频信号中的第一噪声信号可以利用前一帧音频信号对其进行预判，根据第一噪声信号能量比其他非第一噪声信号能量高这一特征，预估出其中可能为第一噪声信号的频点，然后利用第二音频信号中与这些频点频率相同的频点的相关性，进一步确定第一音频信号中为第一噪声信号的频点，提高了确定第一噪声信号的准确性。

结合第一方面，在一种实施方式中，该电子设备对该第一音频信号进行处理得到第三音频信号之前，该方法还包括：该电子设备确定发声对象是否正对该电子设备；该电子设备对该第一音频信号进行处理得到第三音频信号，具体包括：在确定该发声对象正对该电子设备的情况下，该电子设备利用该第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，得到第三音频信号；在确定该发声对象不是正对该电子设备的情况下，该电子设备对该第一音频信号进行滤波，滤除其中的第一噪音信号，得到第三音频信号。

在上述实施例中，如果确定发声对象时正对电子设备的，则声音传播到第一麦克风以及第二麦克风的时间相同，不会导致第一音频信号以及第二音频信号中的声音能量有区别，因此可以利用第二音频信号去替换第一音频信号中的为第一噪声信号的频点。如果发声对象不是正对电子设备的，则不利用第二音频信号去替换第一音频信号中的为第一噪声信号的频点。这样，可以保证确定第一音频信号以及第二音频信号可以还原出立体声音频信号。

结合第一方面，在一种实施方式中，该电子设备利用该第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，得到第三音频信号，具体包括：该电子设备利用该第二音频信号对应的全部频点中与该第一频点频率相同的频点替换该第一频点。

在上述实施例中，利用第二音信号中与第一音频信号中为第一噪声信号的频点频率相同的频点去替换第一音频信号中为第一噪声信号的频点，这样可以准确的除去第一音频信号中为第一噪音信号的频点。

结合第一方面，在一种实施方式中，该电子设备确定发声对象是否正对该电子设备，具体包括：

该电子设备根据该第一音频信号与该第二音频信号，确定该发声对象的声源方位；该声源方位表示该用发声对象与该电子设备之间的水平角；在该水平角与90°的差值小于第三阈值时，该电子设备确定该发声对象正对该电子设备；在该水平角与90°的差值大于第三阈值时，该电子设备确定该发声对象不正对该电子设备。

在上述实施例中，判断发声对象是否正对电子设备，该第三阈值可以为5°-10°，例如10°。

结合第一方面，在一种实施方式中，电子设备获取第一音频信号以及第二音频信号之前，该方法还包括：该电子设备采集该第一输入音频信号以及该第二输入音频信号；该第一音频输入音频信号为该电子设备的第一麦克风在第一时间段内采集的声音信号转换而来的时域上的当前帧音频信号；该第二音频输入音频信号为该电子设备的第二麦克风在第一时间段内采集的声音信号转换而来的时域上的当前帧音频信号；该电子设备将该第一输入音频信号转换到频域上，得到该第一音频信号；该电子设备将该第二输入音频信号转换到频域上，得到该第二音频信号。

在上述实施例中，电子设备利用第一麦克采集第一输入信号，第二麦克风采集第二输入音频信号，并将其转换到频域上，便于计算以及存储。

结合第一方面，在一种实施方式中，该电子设备采集该第一输入音频信号以及该第二输入音频信号，具体包括：该电子设备显示录制界面，该录制界面包括第一控件；检测到对该第一控件的第一操作；响应于该第一操作，该电子设备采集该第一输入音频信号以及该第二输入音频信号。

在上述实施例中，可以在录制视频时实施本申请实施例涉及的音频处理方法。

结合第一方面，在一种实施方式中，该第一噪音信号为因为人手或其他物体在接触到该电子设备的麦克风或麦克风管道时因为摩擦而产生的摩擦音。

在上述实施例中，本申请实施例中的第一噪声信号为因为人手或其他物体在接触到该电子设备的麦克风或麦克风管道时因为摩擦而产生的摩擦音，是固体传声导致的第一噪声信号，不同于其他通过空气传播的噪声信号。

第二方面，本申请提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执：在第一时刻，获取第一音频信号和第二音频信号，该第一音频信号用于指示该第一麦克风采集到的信息，该第二音频信号用于指示该第二麦克风采集到的信息；确定该第一音频信号包括第一噪音信号，其中，该第二音频信号不包括该第一噪音信号；对该第一音频信号进行处理得到第三音频信号，该第三音频信号不包括该第一噪音信号；其中，确定该第一音频信号包括第一噪音信号，包括：根据该第一音频信号和该第二音频信号之间的相关性，该电子设备确定该第一音频信号包括第一噪音信号。

在上述实施例中，电子设备可以结合第二音频信号确定第一音频信号中的第一噪音信号，并且除去该第一噪音信号。

结合第二方面，在一种实施方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执：利用该第一音频信号的前一帧音频信号以及该第一音频信号中任一频点对应的第一预判标签，计算该第一音频信号中任一频点的第一标签；该前一帧音频信号是与该第一音频信号相差X帧的音频信号；该第一标签用于标识该第一音频信号中任一频点对应的声音信号的第一能量变化值是否符合第一噪音信号的特征，该第一标签为1，则表示任一频点对应的声音信号可能为第一噪音信号，该第一标签为0，则表示任一频点对应的声音信号不为第一噪音信号；该第一预判标签用于计算第一音频信号中任一频点的第一标签；该第一能量差值用于表示该第一音频信号中任一频点与该第一音频信号的前一帧音频信号中与其频率相同的频点的能量差；计算该第一音频信号与第二音频信号对应的任一频点的相关性；结合该第一标签以及该相关性，确定该第一音频信号对应的全部频点中的全部第一频点，该第一频点对应的声音信号为第一噪音信号，该第一频点的第一标签为1且该第一频点与该第二音频信号中频率相同的频点的相关性小于第二阈值。

结合第二方面，在一种实施方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执：确定发声对象是否正对该电子设备；该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：在确定该发声对象正对该电子设备的情况下，利用该第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，得到第三音频信号；在确定该发声对象不是正对该电子设备的情况下，对该第一音频信号进行滤波，滤除其中的第一噪音信号，得到第三音频信号。

结合第二方面，在一种实施方式中，该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：利用该第二音频信号对应的全部频点中与该第一频点频率相同的频点替换该第一频点。

结合第二方面，在一种实施方式中，该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：根据该第一音频信号与该第二音频信号，确定该发声对象的声源方位；该声源方位表示该用发声对象与该电子设备之间的水平角；在该水平角与90°的差值小于第三阈值时，确定该发声对象正对该电子设备；在该水平角与90°的差值大于第三阈值时，确定该发声对象不正对该电子设备。

结合第二方面，在一种实施方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：采集该第一输入音频信号以及该第二输入音频信号；该第一音频输入音频信号为该电子设备的第一麦克风在第一时间段内采集的声音信号转换而来的时域上的当前帧音频信号；该第二音频输入音频信号为该电子设备的第二麦克风在第一时间段内采集的声音信号转换而来的时域上的当前帧音频信号；将该第一输入音频信号转换到频域上，得到该第一音频信号；将该第二输入音频信号转换到频域上，得到该第二音频信号。

结合第二方面，在一种实施方式中，该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：显示录制界面，该录制界面包括第一控件；检测到对该第一控件的第一操作；响应于该第一操作，采集该第一输入音频信号以及该第二输入音频信号。

第三方面，本申请提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第四方面，本申请实施例提供了一种芯片系统，该芯片系统应用于电子设备，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

上述实施例中，电子设备可以结合第二音频信号确定第一音频信号中的第一噪音信号，并且除去该第一噪音信号。

第五方面，本申请实施例提供了当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第六方面，本申请实施例提供了当该指令在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

附图说明

图1是本申请实施例提供的电子设备具有三个麦克风的示意图；

图2是两个音频信号的示例性语谱图；

图3为一个音频信号的示例性语谱图；

图4是本申请实施例提供的一种可能的使用场景；

图5是本申请实施例中的涉及的音频处理方法的一个示意性流程图；

图6是本申请实施例提供的a(ms)-a+10(ms)的时域上的音频信号以及第一音频信号的一个示意图；

图7为电子设备计算频点的第一标签的示意图；

图8a、图8b为采取本申请涉及的音频处理方法对音频信号进行实时处理的一组示例性用户界面；

图9a-图9c为采取本申请涉及的音频处理方法对音频信号进行后期处理的一组示例性用户界面；

图10是本申请实施例提供的电子设备100的结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为了便于理解，下面先对本申请实施例涉及的相关术语及概念进行介绍。

(1)麦克风

电子设备的麦克风(microphone)也被称为传声器、话筒或者微音器。该麦克风用于采集电子设备周围环境中的声音信号，再将该声音信号转换为电信号，再将该电信号经过一列处理，例如模数转换等，得到电子设备的处理器可以处理的数字形式的音频信号。

在一些实施例中，电子设备可以设置至少两个麦克风，除了采集声音信号，还可以实现降噪功能、识别声音来源等功能。

如图1示出了电子设备具有三个麦克风的示意图。

如图1所示，电子设备中可以包括三个麦克风，该三个麦克风为第一麦克风、第二麦克风以及第三麦克风。其中，第一麦克风可以置于电子设备的顶部。第二麦克风可以置于电子设备的底部，第三麦克风可以置于电子设备的背部。

应该理解的是，图1是示出的是电子设备的麦克风数量以及分布的一种示意图，不应该对本申请实施例造成限制。在其他的实施例，电子设备可以具有比图1中所示出的更多或者更少的麦克风，其分布也可以与图1不相同。

(2)语谱图

语谱图用于表示频域上的音频信号，可以由时域上的音频信号转换而来。

应该理解的是，电子设备在采集音频信号时，第一麦克风和第二麦克风采集的是同一个声音信号，即声源相同。

同一时间段内或同一时刻，两个麦克风采集的那部分语音信号都没有因摩擦而产生噪声，则这两个麦克风采集的那部分语音信号分别对应的语谱图的形状是相似的。两个语谱图相似，则语谱图中相同频点的相关性越高。

但是，同一时间段内或同一时刻，一个麦克风采集的因摩擦而产生的噪声的那部分声音信号与另一个麦克风采集的没有因摩擦而产生噪声的那部分声音信号分别对应的语谱图的形状是不相似的。两个语谱图不相似，则语谱图中相同频点的相关性越低。

如图2所示，为两个音频信号的示例性语谱图。

图2中的第一语谱图表示第一麦克风采集的声音信号转换得到的在频域上的音频信号，第二语谱图表示第二麦克风采集的声音信号转换得到的在频域上的音频信号。

该第一语谱图以及第二语谱图的横坐标表示时间，纵坐标表示频率。其中的每一个点都可以被称为频点。每个频点的颜色的明暗程度表示该时刻时该频率的音频信号的能量大小。其中，能量的单位为分贝(decibel，dB)，表示该频点对应的音频数据的分贝大小。

在时间段t₁-t₂内，如第一语谱图中的第一语谱图片段与第二语谱图中的第一语谱图片段所示。其为没有因摩擦而产生噪声的那部分声音信号对应的语谱图片段。

可以看出，第一语谱图中的第一语谱图片段与第二语谱图中的第一语谱图片段的形状相似，即各频点的分布相似，表现为：横轴上，连续的频点上的能量连续变化且有起伏，且能量较大。通过该第一语谱图和第二语谱图上可以看出，各频点的明暗程度不同，这是由于第一麦克风与第二麦克风的位置不同，则声音信号通过空气传播传输到两个麦克风时，分贝大小不同导致的，分贝越大则越明亮，分贝越小则越暗。

在时间段t₃-t₄内，如第一语谱图中的第二语谱图片段所示。其为用户摩擦第一麦克风导致第一麦克风在采集的声音信号中存在因摩擦而产生噪声，则因摩擦而产生噪声的那部分声音信号对应的语谱图片段。

在时间段t₃-t₄内，如第二语谱图中的第三语谱图片段所示。其为第二麦克风采集的该部分声音信号没有因摩擦而产生噪声，则第二麦克风采集的该部分声音信号对应的语谱图片段。可以看出，第二语谱图片段与第三语谱图片段不相似。表现为：第二语谱图片段中，因摩擦产生的噪声对应的那部分语谱图片段，在横轴上，连续的频点上的能量连续变化但没有起伏，即能量变化较小，但是能量比周围的其他音频信号大。第三语谱图片段中则没有这样的形状。

在一种方案中，电子设备对于该种因为人手(或其他物体)在接触到电子设备的麦克风时因为摩擦而产生的摩擦音时，是将其与其他噪声归为一类，一起进行处理。常见的处理方法有，对于麦克风采集的声音信号转化后得到的音频信号，电子设备设备可以根据噪声的语谱图的表现形式与正常的音频信号的语谱图的表现形式不同，检测出音频信号中的噪声，并对其滤波，滤除音频信号中的噪声，该噪声也包括该种因为人手(或其他物体)在接触到电子设备的麦克风时因为摩擦而产生的摩擦音。这样，在一定程度上也可以抑制该因摩擦而产生的噪音。

但由于该因摩擦而产生的噪声是经过固体传播之后输入到电子设备的麦克风中的，其在频域上的表现形式不同于其他经过空气中传播再传输到电子设备中的噪音，则导致电子设备通过现在已经具备的降噪功能很难准确地检测出该因摩擦而产生的噪音从而对其进行抑制。

如图3所示，为一个音频信号的示例性语谱图。

其中，正常的音频信号对应的语谱图可以如第四语谱图片段所示，表现为横轴上，连续的频点上的能量连续变化且有起伏，且能量较大。因摩擦而产生的噪声对应的语谱图可以如第五语谱图片段所示，表现为横轴上，连续的频点上的能量连续变化但没有起伏，即能量变化较小，但是能量比周围的其他音频信号大。其他噪声对应的语谱图可以如第六语谱片段所示，表现为能量的变化不连续，且能量较低。

由于因摩擦产生的噪声与其他噪声在频域上的语音信号中的表现形式不同，则电子设备用于滤除其他噪声的滤波算法准确地检测出该因摩擦而产生的噪音从而对其进行抑制。

在本申请实施例中，电子设备可以检测出音频信号中的因摩擦产生的噪声，并对其进行抑制，减小该噪声对音频质量的影响。

下文中，为了便于叙述，上述因摩擦而产生的噪声可以被称为第一噪音信号。

该第一噪音信号是指是因为人手(或其他物体)在接触到电子设备的麦克风或麦克风管道时因为摩擦而产生的摩擦音。如果在录制的音频信号中包括这种噪声则会导致声音听起来有不清晰，有尖锐刺耳之感，且这种因摩擦而产生的噪声是经过固体传播之后输入到电子设备的麦克风中的，其在频域上的表现形式不同于其他经过空气中传播再传输到电子设备中的噪音。该第一噪音信号产生的场景可以参考下述对图4的描述，此处暂不赘述。

本申请实施例中涉及的音频处理方法可以用在电子设备录制视频或者音频时对音频信号进行处理的过程中。

如图4示出了本申请实施例的一种可能的使用场景。

应该理解的是，厂商在设计麦克风的分布时，为了避免两个麦克风被用户同时接触到，会在假设用户在持稳电子设备的最佳姿态下，麦克风应该分布在电子设备的何处。则用户在利用电子设备录制视频时，为了持稳电子设备，一般是不会同时接触到电子设备的所有麦克风的，除非故意为之。

例如，如图4所示，电子设备正在录制视频，用户的一只手遮挡住了第一麦克风但电子设备的第二麦克风302没有被遮挡。则用户的手可以与第一麦克风301产生摩擦从而导致录制的音频信号中产生第一噪音信号。但此时，第二麦克风录制的音频信号中没有第一噪音信号。

参考前述对术语(2)的描述。电子设备可以利用第一麦克风录制的音频信号中的第一噪音信号对应的那部分语谱图与同一时间段内或同一时刻，第二麦克风录制的音频信号对应的那部分语谱图不相似的特点，例如图2所示的第一语谱图中的第二语谱图片段与第二语谱图中的第三语谱图片段不相似。检测出第一麦克风录制的音频信号中的第一噪音信号，并对其进行抑制，减小该噪声对音频质量的影响。

下面，对本申请实施例中涉及的音频处理方法进行具体描述：

在本申请实施例中，电子设备的至少两个麦克风可以持续采集声音信号，并实时地将其转化为当前帧音频信号，对其进行实时的处理。对于第一麦克风获取的当前帧第一输入音频信号，电子设备可以结合第二麦克风获取的当前帧第二输入音频信号，检测出该第一输入音频信号中的第一噪音信号，并且除去该第一噪音信号。其中，第二麦克风可以为电子设备中，除第一麦克风以外的其他任何麦克风。

图5为本申请实施例中的涉及的音频处理方法的一个示意性流程图。

电子设备对第一输入音频信号和第二输出音频信号中的第一噪音信号的降噪处理过程可以参考下述对步骤S101-步骤S112的描述。

S101.电子设备采集第一输入音频信号以及第二输入音频信号；

第一输入音频信号为电子设备的第一麦克风在第一时间段内采集的声音信号转换而来的时域上的当前帧音频信号。第二输入音频信号为电子设备的第二麦克风在第一时间段内采集的声音信号转换而来的当前帧音频信号。

其中，该第一时间段为极短的一段时间，即为采集一帧音频信号对应的时间，该第一时间段具体多长，可以根据电子设备的处理能力决定，一般可以为10ms-50ms，例如10ms或者20ms、30ms等10ms的倍数。

以电子设备采集第一输入音频信号为例。

具体的，第一时间段内，电子设备的第一麦克风可以采集声音信号，然后将该声音信号转换为模拟的电信号。然后电子设备对该模拟的电信号进行采样，将其转化为时域上的音频信号。该时域上的音频信号为数字音频信号，为W个模拟的电信号的采样点。电子设备中可以用数组表示该第一输入音频信号，数组中的任一个元素用于表示一个采样点，任一元素包括两个值，其中一个值表示时间，另一个值表示该时间对应音频信号的幅值，该幅值用于表示该音频信号对应的电压大小。

在一些实施例中，该第一麦克风为电子设备的任一麦克风，该第二麦克风可以为出第一麦克风以外的任一麦克风。

在另一些实施例中，该第二麦克风可以为电子设备中距离第一麦克风最近的麦克风。

可以理解的是，电子设备采集第二输入音频信号的过程可以参考对该第一输入音频信号的描述，此处不再赘述。

S102.将第一输入音频信号以及第二输入音频信号转换到频域上，得到第一音频信号以及第二音频信号；

第一音频信号为电子设备获取的当前帧音频信号。

具体的，电子设备将第一输入音频信号从时域转换到频域上的音频信号为第一音频信号。该第一音频信号可以表示为N(N为2的整数次方)个频点，例如，N可以为1024、2048等，具体大小可以由电子设备的计算能力决定。该N个频点用于表示一定频率范围内的音频信号，例如0khz-6khz之间，也可以为其他的频率范围。也可以理解为，该频点指代的是在对应频率上的第一音频信号的信息，包含的信息包括时间，声音信号的频率，以及声音信号的能量(分贝)大小。

图6中的(a)示出了a(ms)-a+10(ms)的时域上的第一输入音频信号的一个示意图。

该a(ms)-a+10(ms)的时域上的音频信号可以表示如图6中的(a)所示语音波形，该语音波形的横坐标表示时间，纵坐标表示音频信号对应的电压大小。

然后，电子设备可以将该时域上的音频信号利用离散傅里叶变换(discretefourier transform，DFT)划分到频域上。电子设备可以将该时域上的音频信号通过2N点DFT划分为对应N个频点的第一音频信号。

其中，N为2的整数次方，N的取值由电子设备的计算能力决定，电子设备的处理速度越大，则N的取值可以越大。

本申请实施例以电子设备将该时域上的音频信号通过2048点DFT划分为对应1024个频点的第一音频信号为例进行讲解。该1024只是一个示例，其他实施例中可以为其他的取值，例如2048等，只要为N为2的整数次方即可，本申请实施例对此不做限定。

图6中的(b)示出了第一音频信号的一个示意图。

该图为第一音频信号的语谱图。其横坐标表示时间，纵坐标表示声音信号的频率大小。其中，某一时刻，一共包括1024个不同频率的频点。为了方便展示，将每一个频点表示为一条直线，即一条直线上的任一频点都可以表示该频率上的不同时刻的频点。每个频点的明暗程度表示该频点对应的声音信号的能量大小。

电子设备可以选取该第一时间段内的某一个时刻对应的1024个不同频率的频点表示改第一音频信号，该时刻也被称为时间帧，即对音频信号的处理帧。

例如，可以用中间时刻，即a+5(ms)这一时刻对应的1024个不同频率的频点表示改第一音频信号。例如，第1个频点与第1024个频点可以为时间相同，频率不同两个频点。该第一音频信号对应的1024个频点中，从第1频点到第1024个频点的频率变化为由低频到高频。

应该理解的是，电子设备将第二输入音频信号从时域转换到频域上的音频信号为第二音频信号。

电子设备得到该第二音频信号的过程可以参考前述得到第一音频信号的描述，此处不再赘述。

S103.电子设备获取该第一音频信号的前一帧音频信号以及该第二音频信号的前一帧音频信号；

该第一音频信号的前一帧音频信号也可以是与该第一音频信号相差X帧的音频信号。X的取值范围可以为1-5。本申请实施例中，X取2，该第一音频信号的前一帧音频信号时与该第一音频信号间隔一帧的音频信号，即电子设备采集该第一音频信号的时间与采集该前一帧音频信号的时间相差Δt，其中Δt为前述涉及的第一段时间段的长短。例如，以每帧的时长取10ms为例，第一音频信号是第50-60ms的音频信号，前一帧音频信号是30-40ms的音频信号，Δt＝10ms。

该第二音频信号的前一帧音频信号可以是与该第二音频信号相差X帧的音频信号。其取值与第一音频信号的前帧音频信号中的X相同，可以参考前述描述，此处不再赘述。

S104.利用该第一音频信号的前一帧音频信号计算该第一音频信号中任一频点对应的声音信号的第一标签以及利用该第二音频信号的前一帧音频信号计算该第二音频信号中任一频点对应的声音信号的第二标签；

该第一标签用于标识该第一音频信号中任一频点对应的声音信号的第一能量变化值是否符合第一噪音信号的特征。该任一频点的第一标签为0或1。为0表示该频点的第一能量变化值不符合第一噪音信号的特征，不是第一噪音信号。为1表示该频点的第一能量变化值符合第一噪音信号的特征，可能是第一噪音信号。此时，电子设备可以结合该频点以及第二音频信号中与该频点频率相同的频点的相关性进一步确定该频点是否为第一噪音信号。

其中，电子设备计算该频点与第二音频信号中与该频点频率相同的频点的相关性的过程可以参考下述对步骤S105的描述，此处暂不赘述。电子设备计算进一步确定该频点是否为第一噪音信号的过程可以参考下述对步骤S106的描述，此处暂不赘述。

其中，该第一能量变化值用于表示当前帧第一音频信号中任一频点与该第一音频信号的前一帧音频信号中与其频率相同的频点的能量差。该前一帧音频信号可以为采集时间上与该第一音频信号相差X倍Δt的那一帧音频信号。例如，相差Δt。其中，Δt表示第一时间段的长短。当X＝1时，该第一能量变化值用于表示第一音频信号中任一频点与其频率相同但时间相差了Δt的另一频点的能量差。当X＝2时，该第一能量变化值用于表示第一音频信号中任一频点与其频率相同但时间相差了2Δt的另一频点的能量差。X的取值还可以为其他整数，本申请实施例对此不做限定。电子设备计算该第一能量变化值的过程可以参考下述描述，此处暂不赘述。

在计算第一麦克风采集的全部音频信号(包括第一音频信号)的任一频点的第一标签时，电子设备还可以设置N个预判标签，N为音频信号的频点总数。其中，任一预判标签用于计算全部音频信号中频率相同的任一频点的第一标签，该N个预判标签的初始值为0。即任一频点都对应一个预判标签，频率相同的全部频点对应同一个预判标签。

电子设备在计算第一音频信号中任一频点的第一标签时，首先获取第一预判标签，该第一预判标签为该频点对应的预判标签。

当该第一预判标签的值为0时，第一音频信号中任一频点的第一能量变化值大于第一阈值时，则电子设备将该第一预判标签的值设置为1，同时将该频点的第一标签设置为第一预判标签的值，即设置为1。当该第一预判标签的值为0时，第一音频信号中任一频点的第一能量变化值小于或等于第一阈值时，则电子设备保持第一预判标签的值为0不改变，同时将该该频点的第一标签设置为第一预判标签的值，即设置为0。

当该第一预判标签的值为1时，第一音频信号中任一频点的第一能量变化值大于第一阈值时，则电子设备将该第一预判标签的值设置为0，同时将该频点的第一标签设置为第一预判标签的值，即设置为0。当该第一预判标签的值为1时，第一音频信号中任一频点的第一能量变化值小于或等于第一阈值时，则电子设备保持第一预判标签的值为1不改变，同时将该该频点的第一标签设置为第一预判标签的值，即设置为1。

图7为电子设备计算频点的第一标签的示意图。

如图7中的(a)所示，4个频点i+1为频率相同的频点，该4个频点i+1对应的预判标签为预判标签1。4个频点i为频率相同的频点，该4个频点i对应的预判标签为预判标签2。4个频点i-1为频率相同的频点，该4个频点i-1对应的预判标签为预判标签2。

如果计算t-Δt时刻的频点i时的预判标签2＝0。当t时刻的频点i的第一能量变化值大于第一阈值时，则电子设备设置预判标签2＝1，同时将t时刻的频点i的第一标签设置为预判标签2的值，即为1。当t+Δt时刻的频点i的第一能量变化值小于第一阈值时，则电子设备设置预判标签2＝1，同时将t+Δt时刻的频点i的第一标签设置为预判标签2的值，即为1。当t+2Δt时刻的频点i的第一能量变化值大于第一阈值时，则电子设备设置预判标签2＝1，同时将t+2Δt时刻的频点i的第一标签设置为预判标签2的值，即为1。则t-Δt时刻的频点i对应的声音信号不是第一噪音信号，t时刻以及t+Δt时刻的频点i对应的声音信号可能是第一噪音信号，t+2Δt时刻的频点i对应的声音信号可能不是第一噪音信号。

则结合前述图2中对时间段t₃-t₄内的采集的声音信号以及图7中的(a)的相关描述可知：如果出现一个频点相对于该频点的前一帧音频信号中与其频率相同的频点的能量变大，其变大程度超过第一阈值。就表示可能开始出现第一噪音信号了，该频点后连续的M个频点可能是第一噪音信号时，则第一能量变化小于或等于第一阈值。若再出现一个频点，该频点相对于该频点的前一帧音频信号中与其频率相同的频点的能量变小，其变小程度超过第一阈值，则表示第一噪音信号暂时消失。电子设备可以确定该连续M个频点对应的声音信号都为第一噪音信号。

其中，第一阈值是根据经验选取的，本申请实施例对此不作限定。

这样，电子设备就可以确定出音频信号中，可能是第一噪音信号的频点。

电子设备计算任一频点的第一能量变化值的过程可以参考下述描述：

在一些实施例中，为了增加计算得到的第一能量变化值的稳定性。该第一音频信号中任一频点对应的声音信号的第一能量变化值中也包括：与该频点时间相同，频率不相同的前后两个频点的能量差。

则电子设备计算第一音频信号中任一频点对应的声音信号的第一能量变化值的公式如下：

ΔA(t,f)＝|w₁[A(t,f-1)-A(t-Δt,f-1)]+w₂[A(t,f)-A(t-Δt,f)]+w₃[A(t,f+1)-A(t-Δt,f+1)]|

结合图7中的(b)介绍该公式，式中，ΔA(t,f)表示第一音频信号中任一频点(例如图7中的(b)中的频点i)对应的声音信号的第一能量变化值。A(t,f-1)表示与该任一频点的时间相同的前一个频点(例如图7中的(b)中的频点i-1)的能量。A(t-Δt,f-1)表示与该前一个频点的时间相差了Δt但频率相同的频点(例如图7中的(b)中的频点j-1)的能量。则A(t,f-1)-A(t-Δt,f-1)表示与第一音频信号中任一频点时间相同，频率不相同的前一个频点的能量差，w₁表示该能量差的权重。A(t,f)表示该任一频点的能量。A(t-Δt,f)表示与该任一频点的时间相差了Δt但频率相同的频点(例如图7中的(b)中的频点j)的能量。则A(t,f)-A(t-Δt,f)表示该第一音频信号中任一频点的能量差，w₂表示该能量差的权重。A(t,f+1)表示与该任一频点的时间相同的后一个频点(例如图7中的(b)中的频点i+1)的能量。A(t-Δt,f+1)表示与该后一个频点(例如图7中的(b)中的频点j-1)的时间相差了Δt但频率相同的频点的能量。则A(t,f+1)-A(t-Δt,f+1)表示与第一音频信号中任一频点时间相同，频率不相同的后一个频点的能量差，w₃表示该能量差的权重。其中，w₂的权重大于w₁与w₃的权重。例如，w₂可以取2，w₁与w₃取1。例如，w₁+w₂+w₃＝1，w₂的权重大于w₁与w₃的权重，w₂不小于1/3。

应该理解的是，根据X的取值不同，该公式不适用于电子设备采集的前X帧音频信号，例如，当X＝2时，该公式不适用于第一帧音频信号以及第二帧音频信号(第一个以及第二个第一时间段内采集的音频信号)。第一音频信号以及第二音频信号中的第一个频点以及最后一个频点，即任一频点不包括该第一个频点以及最后一个频点。但是从宏观来看，不影响对音频信号的处理。

应该理解的是，上述图7中的(a)中t-Δt时刻对应的频点i+1与以及图7(b)中t-Δt时刻对应的频点j+1相同，该处是为了便于描述，所以取名不同。同理，上述图7中的(a)中t-Δt时刻对应的频点i与以及图7(b)中t-Δt时刻对应的频点j相同。上述图7中的(a)中t-Δt时刻对应的频点i-1与以及图7(b)中t-Δt时刻对应的频点j-1也相同。

可以理解的是，第一音频信号可以表示为N(N为2的整数次方)个频点。则可以计算得到N个第一标签。

该第二标签用于标识该第二音频信号中任一频点对应的声音信号的第二能量变化值是否符合第一噪音信号的特征。该任一频点的第一标签为0或1。为0表示该频点的第二能量变化值不符合第一噪音信号的特征，不是第一噪音信号。为1表示该频点的第二能量变化值符合第一噪音信号的特征，可能是第一噪音信号。此时，电子设备可以结合该频点以及第一音频信号中与该频点频率相同的频点的相关性进一步确定该频点是否为第一噪音信号。

该第二能量变化值则用于表示第二音频信号中任一频点与其频率相同但时间相差了Δt的另一频点的能量差。其中，Δt表示第一时间段的长短。即该第二能量变化值用于表示当前帧第二音频信号中任一频点与该第二音频信号的前一帧音频信号中与其频率相同的另一频点的能量差。

该第二音频信号可以表示为N(N为2的整数次方)个频点。则可以计算得到N个第二标签。

S105.电子设备根据第一音频信号与第二音频信号，计算第一音频信号中任一频点与第二音频信号相对应的频点的相关性；

第一音频信号中任一频点与第二音频信号相对应的频点的相关性是指，第一音频信号中与第二音频信号中频率相同的两个频点之间的相关性。该相关性用于表示该两个频点之间的相似性。该相似性可以用于判断该第一音频信号以及第二音频信号中的某一频点是否为第一噪音信号。例如，第一音频信号中某一频点对应的声音信号为第一噪音信号时，则其与第二音频信号相对应的频点的相关性很低。具体如何判断可以参考下述对步骤S106的描述，此处暂不赘述。

电子设备计算第一音频信号与第二音频信号相对应的任一频点的相关性的公式为：

式中，γ₁₂(t,f)表示第一音频信号与第二音频信号相对应的任一频点的相关性，φ₁₂(t,f)表示该频点上第一音频信号和第二音频信号之间的互功率谱，φ₁₁(t,f)表示该频点上第一音频信号的自功率谱，φ₂₂(t,f)表示该频点上第二音频信号的自功率谱。

其中，求解φ₁₂(t,f)、φ₁₁(t,f)以及φ₂₂(t,f)的公式分别为：

上述3个公式中，E{}为运算符，X₁{t,f}＝A(t,f)*cos(w)+j*A(t,f)*sin(w)，其表示第一音频信号中该频点的复数域，其表示该频点对应的声音信号的幅度与相位信息，其中，A(t,f)表示第一音频信号中该频点对应的声音信号的能量。X₂{t,f}＝A′(t,f)*cos(w)+j*A′t,f*sin(w)，其表示第一音频信号中该频点的复数域，其表示该频点对应的声音信号的幅度与相位信息，其中，A′(t,f)表示第二音频信号中该频点对应的声音信号的能量。

可以理解的是，第一音频信号可以表示为N(N为2的整数次方)个频点。则可以计算得到N个相关性。

S106.电子设备判断第一音频信号以及第二音频信号中是否有第一噪音信号；

下面以电子设备判断该第一音频信号中是否有第一噪音信号为例进行详细介绍，电子设备判断该第二音频信号中是否有第一噪音信号的过程可以参考该过程：

结合前述步骤S104中计算的第一音频信号中任一频点的第一标签以及前述步骤S105中计算的第一音频信号中任一频点与第二音频信号相对应的频点的相关性。电子设备可以判断判断该第一音频信号中是否有第一噪音信号。

具体的，如果该第一音频信号中任一频点的第一标签为1且其与第二音频信号相对应的频点的相关性小于第二阈值时，则电子设备可以确定该频点对应的声音信号为第一噪音信号。反之，则该频点对应的声音信号不为第一噪音信号。

如果该第一音频信号中的1024个频点对应的声音信号中有一个频点的第一标签为1且其与第二音频信号相对应的频点的相关性小于第二阈值第一噪音信号，则电子设备判断该第一音频信号中有第一噪音信号。否则，电子设备判断该第一音频信号中没有第一噪音信号。然后，电子设备确定该第二音频信号中是否有第一噪音信号。

其中，电子设备判断该第二音频信号中是否有第一噪音信号的过程可以参考前述对电子设备判断第一音频信号中是否有第一噪音信号的相关描述，此处不再赘述。

其中，第二阈值都是根据经验选取的，本申请实施例对此不作限定。

在一些实施例中，对于第一音频信号对应的1024个频点，电子设备可以从低频的频点到高频的频点依次判断该1024个频点中，是否有一个频点对应的声音信号为第一噪音信号。

根据前述介绍可知，为了持稳电子设备，该第一音频信号以及第二音频信号中不会同时有第一噪音信号。电子设备判断出该第一音频信号以及第二音频信号中其中一个有第一噪音信号时则可以确定该第一音频信号以及第二音频信号中有第一噪音信号，则电子设备可以执行步骤S107-步骤S111。

电子设备判断该第一音频信号以及第二音频信号中都没有第一噪音信号时则可以确定该第一音频信号以及第二音频信号中没有第一噪音信号，则电子设备可以执行步骤S112。

S107.电子设备确定第一音频信号中有第一噪音信号；

电子设备确定该第一音频信号中有第一噪音信号之后，可以除去该第一噪音信号。如果第一音频信号来自电子设备的正前方，则电子设备可以利用第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，如果第一音频信号不是来自电子设备的正前方，也可以对该第一音频信号做滤波，滤除其中的第一噪音信号。得到除去该第一噪音信号之后的第一音频信号。详细步骤可以参考下述对步骤S108-步骤S111的描述。

应该理解的是，电子设备确定第二音频信号中有第一噪音信号的过程可以参考对步骤S107的描述，只是在该过程中，第一音频信号以及第二音频信号的作用互换，此处不再赘述。

S108.电子设备根据第一音频信号与第二音频信号，确定发声对象的声源方位；

声源方位可以用发声对象与电子设备之间的水平角描述。该可以用其他的方式描述，例如，还可以用发声对象与电子设备之间的水平角以及俯仰角共同描述。本申请实施例对此不做限定。

假设此时用发声对象与电子设备之间的水平角记为θ。

在一些实施例中，电子设备可以基于高分辨率的空间谱估计算法，根据第一音频信号与第二音频信号，确定该θ。

在另一些实施例中，电子设备可以基于最大输出功率的波束形成算法，根据N个麦克风的波束形成(beamforming)、第一音频信号以及第二音频信号可以确定该θ。

可以理解的是，电子设备还可以采取其他的方式确定该水平角θ。本申请实施例对此不作限定。

下面以基于最大输出功率的波束形成算法确定该水平θ为例，集合具体算法详细介绍一种可能的实现算法，可以理解的是，该算法不对本申请有限制。

电子设备通过比较第一音频信号以及第二音频信号在各个方向上的输出功率，可以将最大功率的波束方向确定为目标声源方位，该目标声源方位即为用户的声源方位。得到该目标声源方位θ的公式可以表示为：

式中f表示表示频域上的频点值。i表示第i个麦克风，H_i(f,θ)表示波束形成中的第i个麦克风的波束权值，Y_i(t,f)表示第i个麦克风采集的声音信息得到的时频域上的音频信号，即当i＝1时，Y_i(t,f)＝Y₁(t,f)表示第一音频信号，Y_i(t,f)＝Y₂(t,f)表示第二音频信号。

其中，波束形成是指N个麦克风对声音信号的响应。由于该响应在不同方位上是不同的，所以波束形成与声源方位是相互关联的。因此，波束形成可以对声源进行实时定位，并抑制背景噪声的干扰。

波束形成可以表示为一个1×N的矩阵，记为H(f,θ)，N为应麦克风的数量。波束形成中的第i个元素的值可以表示为H_i(f,θ)，该值与第i个麦克风在N个麦克风中的排列位置有关。可以利用功率谱得到波束形成，功率谱可以是capon谱、barttlett谱等。

例如，以barttlett谱为例，电子设备利用barttlett谱得到波束形成中的第i个元素可以表示为

式中，j为虚数，

为波束形成器的对该麦克风的相位补偿值，τ_i表示同一个声音信息到达第i个麦克风的时延差。该时延差与声源方位以及第i个麦克风的位置有关，可以参考下文的描述。

选择N个麦克风中的第一个可以接收到声音信息的麦克风的中心为原点，建立三维空间坐标系。在该三维空间坐标系中，第N个麦克风的相对于作为原点的麦克风的距离可以表示为P_i＝d_i。则τ_i与声源方位以及第i个麦克风的位置的关系可以用下述公式表示：

其中c为声音信号的传播速度。

S109.电子设备判断发声对象是否正对电子设备；

正对电子设备是指发声对象在电子设备的正前方。电子设备通过判断发声对象与电子设备的水平角是否接近90°，来判断该发声对象是否正对电子设备。

具体的，当|θ-90°|<第三阈值时，电子设备判断发声对象是正对本机。当|θ-90°|>第三阈值时，电子设备判断发声对象并未正对本机。其中，第三阈值的取值是根据经验预设的。在一些实施例中，可以为5°-10°，例如10°。

在电子设备确定该发声对象是正对电子设备的情况下，可以执行步骤S110。

在电子设备确定该发声对象不是正对电子设备的情况下，可以执行步骤S111。

S110.电子设备利用第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，得到第一噪音信号被替换后的第一音频信号；

第二音频信号中与第一噪音信号对应的声音信号是指第二噪声中，与第一噪音信号的频率相同的全部频点对应的声音信号。

电子设备可以检测出第一音频信号中的第一噪音信号，确定第一噪音信号对应的全部频点，然后，利用第二音频信号中与这些频点频率相同的频点替换该第一音频信号中第一噪音信号对应的全部频点。

具体的，根据第一噪音信号在频率上的连续性，则第一音频信号中存在一个第一频点。使得第一音频信号中，比该第一频点的频率大的频点对应的声音信号不是第一噪音信号，比该第一频点的频率小的频点对应的声音信号都为第一噪音信号。则电子设备可以从低频的频点到高频的频点依次判断该第一音频信号中的全部频点中对应的声音信号是否为第一噪音信号，此处判断方式与步骤S106中的描述相同，此处不再赘述。当电子设备判断出第一个对应的声音信号不是第一噪音信号的频点时，则电子设备可以确定该频点为第一频点，比该第一频点的频率小的全部频点对应的声音信号为第一噪音信号。

电子设备可以第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，具体的，电子设备可以利用该第二音频信号中频率比该第一频点低的全部频点去替换该第一音频信号中的频率比该第一频点低的全部频点，得到第一噪音信号被替换后的第一音频信号。

S111.电子设备对第一音频信号做滤波，滤除其中的第一噪音信号，得到除去第一噪音信号后的第一音频信号；

此时，电子设备已经检测出了第一音频信号中的第一噪音信号，则电子设备可以对该第一音频信号进行滤波，滤除其中的第一噪音信号，得到除去第一噪音信号后的第一音频信号。该处的滤波方式与现有技术相同，常见的滤波方式可以为自适应阻塞滤波以及维纳滤波等。

S112.电子设备输出第一音频信号以及第二音频信号。

在一些实施例中电子设备不对该第一音频信号以及第二音频信号做任何处理，直接输出该第一音频信号以及第二音频信号，将其传输到下一个处理音频信号的模块中，例如，降噪模块中。

可选的，在一些实施例中，电子设备还可以将该第一音频信号以及第二音频信号经过反傅里叶(inversefourier transform，IFT)变化之后输出到下一个处理音频信号的模块中，例如，降噪模块中。应该理解的是，本申请实施例是以电子设备采集的是以电子设备采集两路音频信号(第一输入音频信号以及第二输入音频信号)为例，当电子设备具有大于两个麦克风时，也可以采用本申请实施例中涉及的方法。

应该理解的是，本申请实施例不仅适用于两路输入音频信号的情况，还可以适用于两路以上的输入音频信号的情况。

具体的，前述步骤S101-步骤S112是以电子设备使用两个麦克风采集第一输入音频信号以及第二输入音频信号，使用本申请实施例除去第一输入音频信号以及第二输出音频信号中的第一噪音信号为例进行讲解。在其他的情况下，电子设备可以使用更多的麦克风采集其他输入音频信号，然后结合另一个输入音频信号，例如第一输入音频号，除去该其他输入音频信号中的第一噪音信号。例如，在电子设备具有三个麦克风的情况下，电子设备可以利用第三麦克风采集第三输入音频信号，再结合第一输入音频信号或者第二输入音频信号(理解为，当结合第一输入音频信号时，该第三输入音频信号可以看做是第二输入音频信号；当结合第二输入音频信号时，该第二输入音频信号可以看做是第一输入音频信号)，除去该第三输入音频信号中的第一噪音信号，该过程可以参考前述对步骤S101-步骤S112的描述，此处不再赘述。

下面介绍本申请中音频处理方法的使用场景。

场景1：当电子设备打开相机应用，开始录制视频时，电子设备的麦克风可以采集音频信号，此时，电子设备可以使用本申请实施例中的音频处理方法在录制视频的过程对采集的音频信号进行实时处理。

图8a、图8b为电子设备采取本申请涉及的音频处理方法对音频信号进行实时处理的一组示例性用户界面。

如图8a所示的用户界面81，该用户界面81可以为电子设备在录制视频之前的一个预览界面。该用户界面81中可以包括录制控件811。该录制控件可以用于电子设备开始录制视频。电子设备包括第一麦克风812，第二麦克风813。响应于在该录制控件811上的第一操作(例如点击操作)，电子设备可以开始录制视频。同时采集音频信号。显示如图8b所示的用户界面。

如图8b所示，用户界面82为电子设备采集录制视频时的一个用户界面。录制视频的过程中，电子设备可以利用第一麦克风以及第二麦克风采集音频信号，此时，用户的手跟第一麦克风813产生了摩擦，导致采集的音频信号中包括第一噪音信号。则电子设备可以使用本申请实施例中的音频处理方法检测出此时采集的音频信号中的第一噪音信号，并对其进行抑制，这样，播放的音频信号中可以不包括该第一噪音信号，减小该第一噪音信号对音频质量的影响。

上述场景1中，录制控件811可以被称为第一控件，用户界面82可以被称为录制界面。

场景2：电子设备还可以利用本申请涉及的音频处理方法对已经录制好的视频中的音频进行后期处理。

图9a-图9c为采取本申请涉及的音频处理方法对音频信号进行后期处理的一组示例性用户界面

如图9a所示，用户界面91为电子设备对视频的一个设置界面。用户界面91中可以包括电子设备录制好的视频911，该用户界面91中还可以包括更多设置项912。该更多设置项912用于显示其他对该视频911的设置项。响应于在该更多设置项912上的操作(例如点击操作)，电子设备可以显示如图9b所示的用户界面。

如图9b所示，用户界面92中可以包括去噪模式设置项921，该去噪模式设置项用于触发电子设备实施本申请涉及的音频处理方法，除去视频911中的音频中的第一噪音信号。响应于在该去噪模式设置项921上的操作(例如点击操作)，电子设备可以显示如图9c所示的用户界面。

如图9c所示，用户界面93为电子设备实施本申请涉及的音频处理方法，除去视频911中的音频中的第一噪音信号的一个用户界面。该用户界面93中包括提示框931，该提示框931中哈包括提示文字：“正在对文件“视频911”中的音频进行去噪，请稍后”。则此时，电子设备在利用本申请涉及的音频处理方法对已经录制好的视频中的音频进行后期处理。

可以理解的是，除了上述使用场景，本申请实施例涉及的音频处理方法还可以运用在其他的场景中，例如，录音时也可以使用本申请实施例中的音频处理方法，上述使用场景不应该对本申请实施例形成限制。

综上所示，采用本申请实施例中音频处理的方法，电子设备可以检测出第一音频信号中的第一噪音信号，并对其进行抑制，减小该第一噪音信号对音频质量的影响。其中，如果声源方位为电子设备的正前方，则电子设备可以利用第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号。如果声源方位为电子设备的正前方，则电子设备对第一音频信号做滤波，滤除其中的第一噪音信号。这样，在除去第一音频信号中的第一噪音信号的基础上，也不会影响电子设备利用不同麦克风采集的音频信号生成立体声的效果。电子设备还可以用同样的方式检测出第二音频信号中的第一噪音信号，并对其进行抑制，减小该第一噪音信号对音频质量的影响。

应该理解的是，本申请实施例是以电子设备采集的是以电子设备采集两路音频信号(第一输入音频信号以及第二输入音频信号)为例，当电子设备具有大于两个麦克风时，也可以采用本申请实施例中涉及的方法。

下面首先介绍本申请实施例提供的示例性电子设备100。

图10是本申请实施例提供的电子设备100的结构示意图。

下面以电子设备100为例对实施例进行具体说明。应该理解的是，电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用(比如人脸识别功能，指纹识别功能、移动支付功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如人脸信息模板数据，指纹信息模板等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。该音频模块170可以将音频信号从时域转换到频域以及从频域转换到时域。例如前述步骤S102中涉及的过程可以该音频模块170完成。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。麦克风170C可以完成步骤S101中涉及的第一输入音频信号以及第二输入音频信号的采集。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。

本申请实施例中，内部存储器121可以存储本申请中音频处理方法涉及的计算机指令，该处理器110可以调用内部存储器121中存储的计算机指令，以使得电子设备执行本申请实施例中的音频处理方法。

本申请实施例中，电子设备的内部存储器121中或者存储接口120外接的存储设备中可以存储申请实施例涉及的音频处理方法涉及的相关指令，使得电子设备执行本申请实施例中的音频处理方法。

下面以结合步骤S101-步骤S112以及电子设备的硬件结构，示例性说明电子设备的工作流程。

1.电子设备采集第一输入音频信号以及第二输入音频信号；

在一些实施例中，电子设备的触摸传感器180K接收到触摸操作(用户触摸拍摄控件时触发的)，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。

例如，以上触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用中的拍摄控件为例。相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动麦克风驱动，通过第一麦克风采集第一输入音频信号以及通过第二麦克风采集第二输入音频信号。

具体的，电子设备的麦克风170C可以将采集的声音信号转换为模拟的电信号。然后再将该电信号转化为时域上的音频信号。该时域上的音频信号为数字音频信号，是以0、1的形式存储的，电子设备的处理器可以对该时域上的音频信号进行处理。其中的音频信号是指第一输入音频信号也指第二输入音频信号。

电子设备可以将该第一输入音频信号以及第二输入音频信号存储到内部存储器121中或者存储接口120外接的存储设备中。

2.电子设备将第一输入音频信号以及第二输入音频信号转换到频域上，得到第一音频信号以及第二音频信号；

电子设备的数字信号处理器从内部存储器121中或者存储接口120外接的存储设备中获取第一输入音频信号以及第二输入音频信号。并将其通过DFT从时域上转换到频域上，得到第一音频信号以及第二音频信号。

电子设备可以将该第一音频信号以及第二音频信号存储到内部存储器121中或者存储接口120外接的存储设备中。

3.电子设备计算第一音频信号中任一频点对应的声音信号的第一标签；

电子设备可以通过处理器110获取存储器121中或者存储接口120外接的存储设备中存储的第一音频信号。电子设备的处理器110调用相关计算机指令，计算第一音频信号中任一频点对应的声音信号的第一标签。

然后将该第一音频信号中任一频点对应的声音信号的第一标签存储到存储器121中或者存储接口120外接的存储设备中。

4.电子设备计算第一音频信号中任一频点与第二音频信号相对应的频点的相关性；

电子设备可以通过处理器110获取存储器121中或者存储接口120外接的存储设备中存储的第一音频信号与第二音频信号。电子设备的处理器110调用相关计算机指令，根据第一音频信号与第二音频信号，计算第一音频信号中任一频点与第二音频信号相对应的频点的相关性。

然后将该第一音频信号中任一频点与第二音频信号相对应的频点的相关性存储到存储器121中或者存储接口120外接的存储设备中。

5.电子设备判断第一音频信号中是否有第一噪音信号；

电子设备可以通过处理器110获取存储器121中或者存储接口120外接的存储设备中存储的第一音频信号。电子设备的处理器110调用相关计算机指令，根据第一音频信号与第二音频信号，判断第一音频信号中是否有第一噪音信号。

电子设备判断该第一音频中有第一噪音信号之后，则执行下述步骤6-步骤8。

6.电子设备确定发声对象的声源方位；

电子设备可以通过处理器110获取存储器121中或者存储接口120外接的存储设备中存储的第一音频信号与第二音频信号。电子设备的处理器110调用相关计算机指令，根据第一音频信号与第二音频信号，确定发声对象的声源方位。

然后，电子设备将该声源方位存储到存储器121中或者存储接口120外接的存储设备中。

7.电子设备判断发声对象是否正对电子设备；

电子设备可以通过处理器110获取存储器121中或者存储接口120外接的存储设备中存储的声源方位。电子设备的处理器110调用相关计算机指令，根据该声源方位判断发声对象是否正对电子设备。如果发声对象是正对电子设备的，则电子设备可以执行步骤7-步骤8。

8.电子设备替换第一音频信号中的第一噪音信号，得到第一噪音信号被替换后的第一音频信号；

电子设备处理器110获取存储器121中或者存储接口120外接的存储设备中存储的第一音频信号与第二音频信号。电子设备的处理器110调用相关计算机指令，利用第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，得到第一噪音信号被替换后的第一音频信号；

然后，电子设备可以将该第一噪音信号被替换后的第一音频信号存储到存储器121中或者存储接口120外接的存储设备中。

9.电子设备对第一音频信号做滤波，滤除其中的第一噪音信号，得到除去第一噪音信号后的第一音频信号；

电子设备的处理器110获取存储器121中或者存储接口120外接的存储设备中存储的第一音频信号。电子设备的处理器110调用相关计算机指令，滤除其中的第一噪音信号，得到除去第一噪音信号后的第一音频信号。

然后，电子设备可以将该除去第一噪音信号后的第一音频信号存储到存储器121中或者存储接口120外接的存储设备中。

10.电子设备输出第一音频信号。

处理器110直接将第一音频信号存储到存储器121中或者存储接口120外接的存储设备中。然后输出到其他可以对该第一音频信号进行处理的模块中，例如降噪模块中。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种音频处理方法，所述方法应用于电子设备，所述电子设备包括第一麦克风和第二麦克风，其特征在于，所述方法包括：

在第一时刻，电子设备获取第一音频信号和第二音频信号，所述第一音频信号用于指示所述第一麦克风采集到的信息，所述第二音频信号用于指示所述第二麦克风采集到的信息；

在所述电子设备确定所述第一音频信号中包括第一频点，则所述电子设备确定所述第一音频信号包括第一噪音信号，其中，所述第二音频信号不包括所述第一噪音信号；所述第一频点的第一标签为1且所述第一频点与所述第二音频信号中频率相同的频点的相关性小于第二阈值；所述第一标签用于标识所述第一音频信号中任一频点对应的声音信号的第一能量差值是否符合第一噪音信号的特征，所述第一标签为1，则表示任一频点对应的声音信号可能为第一噪音信号；

所述电子设备对所述第一音频信号进行处理得到第三音频信号，所述第三音频信号不包括所述第一噪音信号；

其中，所述电子设备确定所述第一音频信号包括第一噪音信号，包括：

根据所述第一音频信号和所述第二音频信号之间的相关性，所述电子设备确定所述第一音频信号包括第一噪音信号。

2.根据权利要求1所述的方法，其特征在于，所述第一音频信号以及所述第二音频信号对应N个频点，其中，任一频点至少包括声音信号的频率，以及声音信号的能量大小，其中N为2的整数次方。

3.根据权利要求1或2所述的方法，其特征在于，在所述电子设备确定所述第一音频信号中包括第一频点，则所述电子设备确定所述第一音频信号包括第一噪音信号，还包括：

所述电子设备利用所述第一音频信号的前一帧音频信号以及所述第一音频信号中任一频点对应的第一预判标签，计算所述第一音频信号中任一频点的第一标签；所述前一帧音频信号是与所述第一音频信号相差X帧的音频信号；所述第一标签用于标识所述第一音频信号中任一频点对应的声音信号的第一能量差值是否符合第一噪音信号的特征，所述第一标签为1，则表示任一频点对应的声音信号可能为第一噪音信号，所述第一标签为0，则表示任一频点对应的声音信号不为第一噪音信号；所述第一预判标签用于计算第一音频信号中任一频点的第一标签；所述第一能量差值用于表示所述第一音频信号中任一频点与所述第一音频信号的前一帧音频信号中与其频率相同的频点的能量差；

所述电子设备计算所述第一音频信号与第二音频信号对应的任一频点的相关性；

所述电子设备结合所述第一标签以及所述相关性，确定所述第一音频信号对应的全部频点中的全部第一频点，所述第一频点对应的声音信号为第一噪音信号，所述第一频点的第一标签为1且所述第一频点与所述第二音频信号中频率相同的频点的相关性小于第二阈值；

所述电子设备确定所述第一音频信号中包括第一噪音信号。

4.根据权利要求1或2所述的方法，其特征在于，所述电子设备对所述第一音频信号进行处理得到第三音频信号之前，所述方法还包括：

所述电子设备确定发声对象是否正对所述电子设备；

所述电子设备对所述第一音频信号进行处理得到第三音频信号，具体包括：

在确定所述发声对象正对所述电子设备的情况下，所述电子设备利用所述第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，得到第三音频信号；

在确定所述发声对象不是正对所述电子设备的情况下，所述电子设备对所述第一音频信号进行滤波，滤除其中的第一噪音信号，得到第三音频信号。

5.根据权利要求3所述的方法，其特征在于，所述电子设备利用所述第二音频信号中与第一噪音信号对应的声音信号，替换第一音频信号中的第一噪音信号，得到第三音频信号，具体包括：

所述电子设备利用所述第二音频信号对应的全部频点中与所述第一频点频率相同的频点替换所述第一频点。

6.根据权利要求4或5所述的方法，其特征在于，所述电子设备确定发声对象是否正对所述电子设备，具体包括：

所述电子设备根据所述第一音频信号与所述第二音频信号，确定所述发声对象的声源方位；所述声源方位表示所述发声对象与所述电子设备之间的水平角；

在所述水平角与90°的差值小于第三阈值时，所述电子设备确定所述发声对象正对所述电子设备；

在所述水平角与90°的差值大于第三阈值时，所述电子设备确定所述发声对象不正对所述电子设备。

7.根据权利要求1或2所述的方法，其特征在于，电子设备获取第一音频信号以及第二音频信号之前，所述方法还包括：

所述电子设备采集第一输入音频信号以及第二输入音频信号；所述第一音频输入音频信号为所述电子设备的第一麦克风在第一时间段内采集的声音信号转换而来的时域上的当前帧音频信号；所述第二输入音频信号为所述电子设备的第二麦克风在第一时间段内采集的声音信号转换而来的时域上的当前帧音频信号；

所述电子设备将所述第一输入音频信号转换到频域上，得到所述第一音频信号；

所述电子设备将所述第二输入音频信号转换到频域上，得到所述第二音频信号。

8.根据权利要求7所述的方法，其特征在于，所述电子设备采集所述第一输入音频信号以及所述第二输入音频信号，具体包括：

所述电子设备显示录制界面，所述录制界面包括第一控件；

检测到对所述第一控件的第一操作；

响应于所述第一操作，所述电子设备采集所述第一输入音频信号以及所述第二输入音频信号。

9.根据权利要求1或2所述的方法，其特征在于，所述第一噪音信号为因为人手或其他物体在接触到所述电子设备的麦克风或麦克风管道时因为摩擦而产生的摩擦音。

10.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器和存储器；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1-9中任一项所述的方法。

11.一种芯片系统，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-9中任一项所述的方法。