CN110400571A

CN110400571A - 音频处理方法、装置、存储介质及电子设备

Info

Publication number: CN110400571A
Application number: CN201910731789.0A
Authority: CN
Inventors: 陈喆; 刘耀勇; 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-01
Anticipated expiration: 2039-08-08
Also published as: CN110400571B

Abstract

本申请实施例公开了一种音频处理方法、装置、存储介质及电子设备，其中，电子设备可以获取到两个麦克风采集预设位置的声源信号的采集时延差，以及获取到声源信号到达两个麦克风的到达时延差，并根据采集时延差与到达时延差的时延差值确定两个麦克风之间差异所导致的目标时延差，最后，将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。由此，当需要执行音频处理任务时，即可利用该目标滤波器对两个麦克风获取的用于音频处理任务的两路音频数据进行时延校正，再利用时延校正后的两路音频数据完成音频处理任务，即可排除两个麦克风的差异对音频处理任务所造成的影响，能够有效提高音频处理任务的处理准确性。

Description

音频处理方法、装置、存储介质及电子设备

技术领域

本申请涉及音频处理技术领域，具体涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术

目前，随着电子设备处理能力的提高，电子设备可以设置两个麦克风来构成麦克风阵列，并通过麦克风阵列采集得到相同声源的两路音频数据，进而利用采集得到这两路音频数据来完成声源定位、语音增强等语音任务。然而，就像世界上没有完全相同的两张树叶一样，世界上也没有完全相同的两个麦克风，麦克风之间的细微差异将影响后续语音任务的处理。

发明内容

本申请实施例提供了一种音频处理方法、装置、存储介质及电子设备，能够提供一种用于消除麦克风之间差异所导致的时延的滤波器，有助于提高电子设备处理语音任务的准确性。

第一方面，本申请实施例提供了一种音频处理方法，应用于电子设备，所述电子设备包括两个麦克风，所述音频处理方法包括：

通过所述两个麦克风对预设位置的声源信号进行采集，得到所述声源信号的两路音频数据；

根据所述声源信号的两路音频数据获取所述两个麦克风采集所述声源信号的采集时延差；

根据所述两个麦克风的间距以及声音传播速度，获取所述声源信号到达所述两个麦克风的到达时延差；

获取所述采集时延差与所述到达时延差的时延差值，并根据所述时延差值确定所述两个麦克风之间差异所导致的目标时延差；

将所述目标时延差转换为预设阶数的滤波器系数，得到用于消除所述目标时延差的目标滤波器。

第二方面，本申请实施例提供了一种音频处理装置，应用于电子设备，所述电子设备包括两个麦克风，所述音频处理装置包括：

音频采集模块，用于通过所述两个麦克风对预设位置的声源信号进行采集，得到所述声源信号的两路音频数据；

第一时延获取模块，用于根据所述声源信号的两路音频数据获取所述两个麦克风采集所述声源信号的采集时延差；

第二时延获取模块，用于根据所述两个麦克风的间距以及声音传播速度，获取所述声源信号到达所述两个麦克风的到达时延差；

目标时延差获取模块，用于获取所述采集时延差与所述到达时延差的时延差值，并根据所述时延差值确定所述两个麦克风之间差异所导致的目标时延差；

滤波器生成模块，用于将所述目标时延差转换为预设阶数的滤波器系数，得到用于消除所述目标时延差的目标滤波器。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，计算机程序被处理器加载以执行本申请实施例提供的音频处理方法。

第四方面，本申请实施例还提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器储存有计算机程序，所述处理器通过加载所述计算机程序，用于执行本申请实施例提供的音频处理方法。

本申请实施例中，电子设备可以获取到两个麦克风采集预设位置的声源信号的采集时延差，以及获取到声源信号到达两个麦克风的到达时延差，并根据采集时延差与到达时延差的时延差值确定两个麦克风之间差异所导致的目标时延差，最后，将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。由此，当需要执行音频处理任务时，即可利用该目标滤波器对两个麦克风获取的用于音频处理任务的两路音频数据进行时延校正，再利用时延校正后的两路音频数据完成音频处理任务，即可排除两个麦克风的差异对音频处理任务所造成的影响，能够有效提高音频处理任务的处理准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频处理方法的一流程示意图。

图2是本申请实施例中两个麦克风的设置位置示意图。

图3是本申请实施例中电子设备和声源信号的相对位置示意图。

图4是本申请实施例提供的音频处理方法的另一流程示意图。

图5是本申请实施例提供的音频处理装置的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

图7是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例首先提供一种音频处理方法，该音频处理方法的执行主体可以是本申请实施例提供的电子设备，该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的音频处理方法的流程示意图。该音频处理方法应用于本申请提供的电子设备，包括：通过两个麦克风对预设位置的声源信号进行采集，得到声源信号的两路音频数据；根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差；根据两个麦克风的间距以及声音传播速度，获取声源信号到达两个麦克风的到达时延差；获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差；将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。在得到目标滤波器之后，当需要执行音频处理任务时，即可利用该目标滤波器对两个麦克风获取的用于音频处理任务的两路音频数据进行时延校正，再利用时延校正后的两路音频数据完成音频处理任务，即可排除两个麦克风的差异对音频处理任务所造成的影响，能够有效提高音频处理任务的处理准确性。

如图1所示，本申请实施例提供的音频处理方法的流程可以如下：

在101中，通过两个麦克风对预设位置的声源信号进行采集，得到声源信号的两路音频数据。

示例性的，请参照图2，电子设备所包括的两个麦克风背靠背设置且间隔预设距离，其中，两个麦克风背靠背设置是指这两个麦克风的拾音孔朝向相反。如图2所示，两个麦克风分别为设置在电子设备下侧边的麦克风1和设置在电子设备上侧边的麦克风2，其中，麦克风1的拾音孔朝下，麦克风2的拾音孔朝上，且麦克风2和麦克风1的连线与电子设备左/右侧边平行。此外，电子设备所包括的两个麦克风可以为无指向性麦克风(或者说，全指向性麦克风)。

本申请实施例中，声源信号可由音视频播放设备播放预设的测试音频产生，在通过两个麦克风对预设位置的声源信号进行采集之前，预先将用于播放测试音频的音视频播放设备放置在预设位置，并开始播放测试音频以产生声源信号。然后，由固定放置的电子设备通过两个麦克风对预设位置的声源信号进行采集，得到声源信号的两路音频数据。其中，本申请实施例对于测试音频的音频内容不做具体限制，可由本领域普通技术人员根据实际需要选取。

应当说明的是，将声源信号放置在预设位置的目的在于使得电子设备和声源信号的相对位置固定，以便于后续计算声源信号到达两个麦克风的到达时延差，对于该预设位置的选取，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行选取。

在102中，根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差。

比如，电子设备在通过设置的两个麦克风获取到声源信号的两路音频数据之后，根据预先设置的采集时延差获取策略，根据采集到的声源信号的两路音频数据获取到两个麦克风采集声源信号的采集时延差。

在103中，根据两个麦克风的间距以及声音传播速度，获取声源信号到达两个麦克风的到达时延差。

应当说明的是，两个麦克风采集声音信号的采集时延差由两部分原因导致，其一为声源信号到两个麦克风的传播距离不同所导致，其二为两个麦克风之间的差异(比如麦克风中放大电路增益不同，相位不同等)所导致。

本申请实施例中，为了能够消除两个麦克风之间差异所导致的时延，首先就要确定两个麦克风之间差异所导致的时延，从而针对性的消除。如上所述，两个麦克风采集声音信号的采集时延差由两部分原因导致，相应的，两个麦克风采集声源信号的采集时延差即由声源信号到达两个麦克风的到达时延差(即仅由声源信号到达两个风的距离不同而导致的时延差)和两个麦克风之间差异所导致的时延差两部分构成。

为此，电子设备在获取到两个麦克风采集声源信号的采集时延差之后，进一步获取声源信号到达两个麦克风的到达时延差，由于本申请实施例中声源信号和电子设备的位置相对固定，电子设备在获取声源信号到达两个麦克风的到达时延差时，即可根据两个麦克风的间距以及声音传播速度获取声源信号到达两个麦克风的到达时延差，如下公式所示：

其中，τ_ideal表示声源信号到达两个麦克风的到达时延差，d表示两个麦克风的间距，c表示声源传播速度，θ为测量角度，请参照图3，当声源信号与电子设备的位置相对固定时，“声源信号与两个麦克风连线中点的连线”与“两个麦克风连线”的夹角θ也就固定的，该夹角θ的具体角度值可通过量角器测量得到。

可以理解的是，当电子设备的位置固定时，夹角θ的取值将随声源信号的位置变化而变化，在本申请实施例中，可以选取对应夹角θ为90度或45度的位置作为预设位置，用于设置声源信号。

在104中，获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差。

如上所述，两个麦克风采集声音信号的采集时延差由两部分原因导致，其一为声源信号到两个麦克风的传播距离不同所导致，其二为两个麦克风之间的差异(比如麦克风中放大电路增益不同，相位不同等)所导致，因此，电子设备在获取到两个麦克风采集声源信号的采集时延差以及声源信号到达两个麦克风的到达时延差之后，进一步获取采集时延差与到达时延差的时延差值，排除其中声源信号到两个麦克风的传播距离不同所导致的时延差。之后，即可根据获取到的时延差值确定出两个麦克风之间差异所导致的目标时延差。

比如，电子设备直接将采集时延差与到达时延差的时延差值确定为两个麦克风之间差异所导致的目标时延差。

在105中，将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。

在确定出两个麦克风之间差异所导致的目标时延差之后，即可对该目标时延差进行针对性的消除。为此，电子设备进一步按照预设的滤波器系数生成规则，将目标时延差转换为预设阶数的滤波器系数，从而得到用于消除目标时延差的目标滤波器。

比如，预设的滤波器系数生成规则用于生成3阶的FIR(Finite ImpulseResponse，有限长单位冲激响应)滤波器系数，如下：

h(0)＝-(τ_mic-1)(τ_mic-2)(τ_mic-3)/6

h(1)＝τ_mic(τ_mic-2)(τ_mic-3)/2

h(2)＝-τ_mic(τ_mic-1)(τ_mic-3)/2

h(3)＝-τ_mic(τ_mic-1)(τ_mic-2)/6。

其中，τ_mic表示两个麦克风之间差异所导致的目标时延差。

由上可知，电子设备可以通过设置的两个麦克风对预设位置的声源信号进行采集，得到声源信号的两路音频数据；然后，根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差；然后，根据两个麦克风的间距以及声音传播速度，获取声源信号到达两个麦克风的到达时延差；然后，获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差；最后，将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。由此，在得到目标滤波器之后，当需要执行音频处理任务时，即可利用该目标滤波器对两个麦克风获取的用于音频处理任务的两路音频数据进行时延校正，再利用时延校正后的两路音频数据完成音频处理任务，即可排除两个麦克风的差异对音频处理任务所造成的影响，能够有效提高音频处理任务的处理准确性。

在一实施例中，“根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差”，包括：

(1)对声源信号的两路音频数据进行傅里叶变换，得到两路傅里叶变换信号；

(2)获取两路傅里叶变换信号的互相关函数；

(3)根据互相关函数的最大值获取两个麦克风采集声源信号的采集时延差。

本申请实施例中，电子设备在根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差时，首先，对声源信号的两路音频数据进行傅里叶变换，得到两路傅里叶变换信号。

其中，示例性的，电子设备在对两路音频数据进行傅里叶变换时，首先对两路音频数据进行带通滤波，得到两路滤波后的音频数据，然后对两路滤波后的音频数据进行加窗分帧处理，得到两路短时平稳信号，之后，电子设备对两路短时平稳信号进行快速傅里叶变换，得到两路傅里叶变换信号。

电子设备在对声源信号的两路音频数据进行傅里叶变换，得到两路傅里叶变换信号，进一步获取两路傅里叶变换信号的互相关函数，该互相关函数反映了两路傅里叶变换信号在时延中契合程度的度量，能够衡量两路傅里叶变换信号在任意时刻的相关程度。

电子设备在获取到两路傅里叶变换信号的互相关函数之后，即可根据据互相关函数的最大值获取两个麦克风采集声源信号的采集时延差。示例性的，互相关函数可以理解为关于Δτ一个函数，Δτ为互相关函数的延迟采样点数，Δτ可以取不同的整数值，对应互相关函数有不同的取值，当互相关函数取到最大值时，此时的Δτ即可看做两个麦克风采集声源信号的采集时延差，由此，电子设备可以获取到互相关函数的最大值所对应的时延差，并将该时延差作为两个麦克风采集声源信号的采集时延差。

在一实施例中，“根据互相关函数的最大值获取两个麦克风采集声源信号的采集时延差”，包括：

(1)获取互相关函数的最大值相邻的预设个数的相邻值；

(2)对互相关函数的最大值以及预设个数的相邻值进行抛物线拟合，得到目标抛物线；

(3)获取目标抛物线的最大值，根据目标抛物线的最大值以及互相关函数获取采集时延差。

应当说明的是，在实际场景中，两个麦克风采集声源信号的采集时延差有可能会小于电子设备的采样周期，则互相关函数的实际最大值可能并不在整数点上，也即是整数的Δτ所对应的互相关函数的最大值可能并不是该互相关函数的实际最大值。

因此，在本申请实施例中，电子设备在根据互相关函数的最大值(需要强调是，本申请中提及的互相关函数的最大值若未做特定说明，即代指整数的Δτ所对应的最大值)获取两个麦克风采集声源信号的采集时延差时，首先获取互相关函数的最大值相邻的预设个数的相邻值；然后，对互相关函数的最大值以及预设个数的相邻值进行抛物线拟合，得到目标抛物线；最后，获取目标抛物线的最大值，并进一步获取到互相关函数取该目标抛物线的最大值时所对应的时延差，作为两个麦克风采集声源信号的采集时延差。

应当说明的是，本申请实施例中对预设个数的取值不做具体限定，可由本领域普通技术人员根据实际需要进行设置，其中预设个数取值越多，拟合得到的目标抛物线越准确，相应确定出的两个麦克风采集声源信号的采集时延差也就越准确。比如，本申请实施例中预设个数取值为4，这样，电子设备在获取获取互相关函数的最大值相邻的预设个数的相邻值，即可获取到互相关函数的最大值前后各两个相邻值用于抛物线拟合，以确定出两个麦克风采集声源信号的采集时延差。

在一实施例中，“获取两路傅里叶变换信号的互相关函”数，包括：

(1)获取两路傅里叶变换信号的互功率谱密度函数，以及获取对应的加权函数；

(2)根据互功率谱密度函数以及加权函数获取互相关函数。

本申请实施例中，电子设备在获取两路傅里叶变换信号的互相关函数时，首先获取两路傅里叶变换信号的互功率谱密度函数，以及获取对应的加权函数。

其中，获取互功率谱密度函数的公式如下：

S(k)＝X₁(k)X₂*(k)；

其中，S(k)表示互功率谱密度函数，X₁(k)表示两路傅里叶变换信号中的一路傅里叶变换信号，X₂(k)表示两路傅里叶变换信号中的另一路傅里叶变换信号，*表示求复共轭，k表示频点。

此外，电子设备在获取对应的加权函数时，可以根据外部环境的噪音选择对应的广义互相关加权函数。

本申请实施例中，两路傅里叶变换信号的互相关函数可以表示为：

其中，α(k)表示加权函数。

在一实施例中，“获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差”之前，还包括：

(1)重复获取采集时延差，得到多个采集时延差；

(2)重复获取到达时延差，得到多个到达时延差；

获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差，包括：

(3)获取多个采集时延差以及多个到达时延差中对应的采集时延差与到达时延差的时延差值，得到多个时延差值；

(4)获取多个时延差值的平均时延差值，并将平均时延差值设为目标时延差。

本申请实施例中，电子设备可以按照以上实施例中给出的获取采集时延差的方式重复获取到多个采集时延差，具体请参照以上实施例中的相关描述，此处不再赘述。其中，可以对于同一预设位置进行多次获取，也可以对于不同预设位置进行获取。此外，电子设备还按照以上实施例中给出的获取到达时延差的方式，相应获取到与多个采集时延差对应的多个到达时延差。

电子设备在获取多个采集时延差以及对应的多个到达时延差之后，分别获取获取多个采集时延差以及多个到达时延差中对应的采集时延差与到达时延差的时延差值的时延差值，得到多个时延差值；然后，电子设备进一步获取多个时延差值的平均时延差值，并将该平均时延差值设为两个麦克风之间差异所导致的目标时延差。

在一实施例中，电子设备还包括专用语音识别芯片、处理器，本申请实施例提供的音频处理方法还包括：

(1)当处理器休眠时，通过两个麦克风中的任一麦克风采集外部声音得到外部音频数据；

(2)通过专用语音识别芯片校验外部音频数据，若校验通过，则唤醒处理器，并在唤醒处理器后控制专用语音识别芯片休眠；

(3)通过两个麦克风采集外部声音得到两路外部音频数据，并通过处理器调用目标滤波器对两路外部音频数据进行时延校正，得到时延校正后的两路外部音频数据；

(4)通过处理器对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据；

(5)通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用。

应当说明的是，专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。其中，专用语音识别芯片、处理器之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。其中，处理器在电子设备的屏幕处于熄屏状态时休眠，而专用语音识别芯片在屏幕处于亮屏状态时休眠。

本申请实施例中，电子设备在处理器休眠时，通过两个麦克风中的任一麦克风采集外部声音得到外部音频数据。然后，电子设备通过专用语音识别芯片对采集到的外部音频数据进行校验。

其中，可以同时校验外部音频数据的文本特征和声纹特征，也可以仅校验外部音频数据的文本特征。

通俗的说，校验外部音频数据的文本特征也即是校验外部音频数据中是否包括预设唤醒词，只要外部音频数据包括预设唤醒词，即校验外部音频数据的文本特征通过，而不论该预设唤醒词由谁说出。比如，外部音频数据包括了预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)设置的预设唤醒词，但是该预设唤醒词由用户A说出，而不是预设用户，专用语音识别芯片，将校验通过。

而校验外部音频数据的文本特征以及声纹特征也即是校验外部音频数据中是否包括预设用户说出的预设唤醒词，若外部音频数据中包括预设用户说出的预设唤醒词，则外部音频数据的文本特征以及声纹特征校验通过，否则校验不通过。比如，外部音频数据包括了预设用户设置的预设唤醒词，且该预设唤醒词由预设用户说出，则该外部音频数据的文本特征以及声纹特征校验通过；又比如，外部音频数据包括了预设用户之外的其他用户说出的预设唤醒词，或者外部音频数据不包括任何用户说出的预设唤醒词时，则该外部音频数据的文本特征以及声纹特征将校验失败(或者说未校验通过)。

本申请实施例中，电子设备在通过专用语音识别芯片校验外部音频数据通过时，通过专用语音识别芯片与处理器之间的通信连接发送预设的中断信号至处理器，以唤醒处理器，并在唤醒处理器之后控制专用语音识别芯片休眠。

在唤醒处理之后，电子设备进一步通过两个麦克风采集外部声音得到两路外部音频数据，并通过处理器调用目标滤波器对两路外部音频数据进行时延校正，得到时延校正后的两路外部音频数据。

在得到时延校正后的两路外部音频数据之后，电子设备进一步通过处理器对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据。其中，电子设备可以采用预设波束形成算法对时延校正后的两路外部音频数据进行波束形成处理，得到一路增强音频数据，对于采用何种波束形成算法进行波束形成处理，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行选取，比如，本申请实施例中采用广义旁瓣相消算法进行波束形成处理。

在得到增强音频数据之后，电子设备进一步通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用。其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

应当说明的是，电子设备可以通过语音专用识别芯片采用第一唤醒算法对外部音频数据进行校验，通过处理器采用第二唤醒算法对两路外部音频数据进行校验，其中，第一唤醒算法和第二唤醒算法可以相同，也可以不同，比如，第一语音唤醒算法为基于高斯混合模型的语音唤醒算法，第二语音唤醒算法为基于神经网络的语音唤醒算法。

示例性的，“通过专用语音识别芯片校验外部音频数据”包括：

(1)通过专用语音识别芯片提取外部音频数据的梅尔频率倒谱系数；

(2)通过专用语音识别芯片调用与预设文本相关的高斯混合通用背景模型对提取的梅尔频率倒谱系数进行匹配；

(3)若匹配成功，则判定前述外部音频数据校验通过。

比如，可以通过专用语音识别芯片校验外部音频数据的文本特征。其中，电子设备首先基于专用语音识别芯片对外部音频数据进行预处理，比如，对外部音频数据进行高通滤波，数学表达式为：H(z)＝1-az^-1，其中H(z)表示滤波后的外部音频数据，z表示滤波前的外部音频数据，a是修正系数，一般取0.95-0.97；然后对滤波后的外部音频数据进行加窗处理，以平滑外部音频数据的边缘，比如采用汉明窗的形式加窗；然后，基于专用语音识别芯片进行梅尔频率倒谱系数的提取，数学表达式为其中F_mel(f)表示提取到的梅尔频率倒谱系数，f为傅里叶变换后的频点。

应当说明的是，本申请实施例中还预先训练有与预设文本相关的高斯混合通用背景模型。其中，预设文本即以上提及的预设唤醒词，比如，可以预先采集多人(比如200人)说出预设唤醒词的音频信号，然后分别提取这些音频信号的梅尔频率倒谱系数，再根据这些音频信号的梅尔频率倒谱系数训练得到一个与预设文本(即预设唤醒词)相关的高斯混合通用背景模型。

由此，在提取到各外部音频数据的梅尔频率倒谱系数之后，即可基于专用语音识别芯片调用与预设文本相关的高斯混合通用背景模型对外部音频数据的梅尔频率倒谱系数进行匹配，比如，将外部音频数据的梅尔频率倒谱系数输入高斯混合通用背景模型中，由高斯混合通用背景模型对该外部音频数据的梅尔频率倒谱系数进行识别，并输出一个分值，当输出的分值达到第一预设阈值时，判定该外部音频数据与高斯混合通用背景模型匹配，否则不匹配。比如，本申请实施例中，高斯混合通用背景模型的输出分值的区间为[0,1]，第一预设阈值配置为0.45，也即是当外部音频数据的梅尔频率倒谱系数所对应的分值达到0.45时，将判定该外部音频数据的梅尔频率倒谱系数与高斯混合通用背景模型匹配，即外部音频数据的文本特征校验通过。

示例性的，“通过处理器对增强音频数据进行校验”包括：

(1)基于处理器将增强音频数据划分为多个子音频数据；

(2)基于处理器调用与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量；

(3)基于处理器获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量；

(4)根据各子音频数据对应的相似度，基于处理器校验增强音频数据的文本特征以及声纹特征。

本申请实施例中，考虑到采集到的外部声音可能并不仅包括唤醒词，比如唤醒词为“小欧小欧”，而外部声音为“你好小欧小欧”。本申请实施例中，根据预设唤醒词的长度，将增强音频数据划分为多个子音频数据，其中，各子音频数据的长度大于或等于预设唤醒词的长度，且相邻两个子音频数据具有重合部分，对于重合部分的长度可由本领域普通技术人员根据实际需要设置，比如，本申请实施例中设置为子音频数据长度的25％。

应当说明的是，本申请实施例中还预先训练有与预设文本(即预设唤醒词)相关的声纹特征提取模型。比如，本申请实施例中训练基于卷积神经网络的声纹特征提取模型，预先采集多人(比如200人)说出预设唤醒词的音频数据，然后对这些音频数据进行端点检测，分割出其中的预设唤醒词部分，然后对分割出的预设唤醒词部分进行预处理(比如高通滤波)和加窗，再进行傅里叶变换(比如短时傅里叶变换)后计算其能量密度，生成灰度的语谱图，最后，利用卷积神经网络对生成的语谱图进行训练，生成与预设文本相关的声纹特征提取模型。另外，本申请实施例中还提取预设用户说出预设唤醒词(即预设文本)的音频数据的语谱图，并输入到之前训练的声纹特征提取模型中，经过声纹特征提取模型的多个卷积层、池化层以及全连接层后，将输出对应的一组特征向量，将其记为目标声纹特征向量。

相应的，在基于处理器将增强音频数据划分为多个子音频数据之后，分别提取多个子音频数据的语谱图。其中，对于如何提取语谱图，此处不再赘述，具体可参照以上相关描述。在提取到前述多个子音频数据的语谱图之后，电子设备基于处理器分别将前述多个子音频数据的语谱图输入到之前训练的声纹特征提取模型，从而得到各子音频数据的声纹特征向量。

在提取得到各子音频数据的声纹特征向量之后，电子设备进一步基于处理器分别获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，然后，根据各子音频数据对应的相似度来校验增强音频数据的文本特征以及声纹特征。比如，电子设备可以判断是否存在声纹特征向量与目标声纹特征向量之间的相似度达到预设相似度(可由本领域普通技术人员根据实际需要取经验值，比如可以设置为75％)的子音频数据，若存在，则判定增强音频数据的文本特征以及声纹特征校验通过。

可选的，在根据各子音频数据对应的相似度，基于处理器校验增强音频数据的文本特征以及声纹特征时，电子设备可以根据各子音频数据对应的相似度以及预设的识别函数，基于处理器校验增强音频数据的文本特征以及声纹特征；

其中，识别函数为γ_n＝γ_n-1+f(l_n)，γ_n表示第n个子音频数据对应的识别函数状态值，γ_n-1表示第n-1个子音频数据对应的识别函数状态值，a为识别函数的修正值，b为预设相似度，l_n为第n个子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，若存在大于预设识别函数状态值的γ_n，则判定增强音频数据的文本特征以及声纹特征校验通过。

应当说明的是，识别函数中a的取值可由本领域普通技术人员根据实际需要取经验值，比如，可以将a取值为1。

另外，识别函数中b的取值与声纹特征提取模型的识别率正相关，根据实际训练得到的声纹特征提取模型的识别率确定b的取值。

另外，预设识别函数状态值也可由本领域普通技术人员根据实际需要取经验值，其取值越大，对增强音频数据校验的准确度也就也大。

由此，通过该识别函数，即使当增强音频数据包括预设唤醒词之外的其它信息，也能够准确的对其进行识别。

可选的，在获取各子音频数据的声纹特征向量与目标声纹特征训练之间的相似度时，可基于处理器按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。

或者，可基于处理器计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度，对于采用何种特征距离来衡量两个向量之间的相似度，本申请实施例中不做具体限制，比如，可以采用欧几里得距离来衡量子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。

在一实施例中，“通过处理器对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据”，包括：

通过处理器调用预设波束形成算法分别在多个预设角度对时延校正后的两路外部音频数据进行波束形成处理，得到多个增强音频数据；

“通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用”，包括：

通过处理器对多个增强音频数据进行校验，并在任一增强音频数据通过校验时唤醒语音交互应用。

本申请实施例中，相对于电子设备的麦克风设置有多个预设角度，比如，电子设备在与用户进行语音交互的过程中，对用户语音的来波角度进行统计，得到用户使用概率达到预设概率的多个来波角度，将前述多个来波角度作为多个预设角度。

由此，电子设备即可预设波束形成算法分别在多个预设角度对时延校正后的两路外部音频数据进行波束形成处理，得到多个增强音频数据。

比如，假设设置有3个预设角度，分别为θ₁，θ₂和θ₃，可以采用广义旁瓣相消算法进行波束形成处理，由于广义旁瓣相消算法需要预先进行波束形成角度的估计，电子设备将将θ₁，θ₂和θ₃作为广义旁瓣相消算法估计得到的波束形成角度，采用广义旁瓣相消算法分别针对θ₁，θ₂和θ₃进行波束形成处理，得到3路增强音频数据。

如上所述，本申请实施例中使用预设角度代替角度估计的波束形成角度，无需进行费时的角度估计，能够提高波束形成的整体效率。

图4为本申请实施例提供的音频处理方法的另一流程示意图。该音频处理方法应用于本申请提供的电子设备，该电子设备包括专用语音识别芯片、处理器和两个麦克风，如图4所示，本申请实施例提供的音频处理方法的流程可以如下：

在201中，电子设备通过两个麦克风对预设位置的声源信号进行采集，得到声源信号的两路音频数据。

在202中，电子设备根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差。

在203中，电子设备根据两个麦克风的间距以及声音传播速度，获取声源信号到达两个麦克风的到达时延差。

在204中，电子设备根据两个麦克风的间距以及声音传播速度，获取声源信号到达两个麦克风的到达时延差。

在205中，电子设备将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。

h(0)＝-(τ_mic-1)(τ_mic-2)(τ_mic-3)/6

h(1)＝τ_mic(τ_mic-2)(τ_mic-3)/2

h(2)＝-τ_mic(τ_mic-1)(τ_mic-3)/2

h(3)＝-τ_mic(τ_mic-1)(τ_mic-2)/6。

其中，τ_mic表示两个麦克风之间差异所导致的目标时延差。

在206中，电子设备当处理器休眠时，通过两个麦克风中的任一麦克风采集外部声音得到外部音频数据。

本申请实施例中，电子设备在处理器休眠时，通过两个麦克风中的任一麦克风采集外部声音得到外部音频数据。

在207中，电子设备通过专用语音识别芯片校验外部音频数据，若校验通过，则唤醒处理器，并在唤醒处理器后控制专用语音识别芯片休眠。

其中，电子设备通过专用语音识别芯片对采集到的外部音频数据进行校验，可以同时校验外部音频数据的文本特征和声纹特征，也可以仅校验外部音频数据的文本特征。

在208中，电子设备通过两个麦克风采集外部声音得到两路外部音频数据，并通过处理器调用目标滤波器对两路外部音频数据进行时延校正，得到时延校正后的两路外部音频数据。

在209中，电子设备通过处理器对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据。

在210中，电子设备通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用。

在得到增强音频数据之后，电子设备进一步通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用。其中，其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

请参照图5，图5为本申请实施例提供的音频处理装置的结构示意图。该音频处理装置可以应用于电子设备，该电子设备包括两个麦克风。音频处理装置可以包括音频采集模块301、第一时延获取模块302、第二时延获取模块303、目标时延差获取模块304以及滤波器生成模块305，其中，

音频采集模块301，用于通过两个麦克风对预设位置的声源信号进行采集，得到声源信号的两路音频数据；

第一时延获取模块302，用于根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差；

第二时延获取模块303，用于根据两个麦克风的间距以及声音传播速度，获取声源信号到达两个麦克风的到达时延差；

目标时延差获取模块304，用于获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差；

滤波器生成模块305，用于将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。

在一实施例中，在根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差时，第一时延获取模块302用于：

对声源信号的两路音频数据进行傅里叶变换，得到两路傅里叶变换信号；

获取两路傅里叶变换信号的互相关函数；

根据互相关函数的最大值获取两个麦克风采集声源信号的采集时延差。

在一实施例中，在根据互相关函数的最大值获取两个麦克风采集声源信号的采集时延差时，第一时延获取模块302用于：

获取互相关函数的最大值相邻的预设个数的相邻值；

对互相关函数的最大值以及预设个数的相邻值进行抛物线拟合，得到目标抛物线；

获取目标抛物线的最大值，根据目标抛物线的最大值以及互相关函数获取采集时延差。

在一实施例中，在获取两路傅里叶变换信号的互相关函时，第一时延获取模块302用于：

获取两路傅里叶变换信号的互功率谱密度函数，以及获取对应的加权函数；

根据互功率谱密度函数以及加权函数获取互相关函数。

在一实施例中，在获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差之前，第一时延获取模块302还用于重复获取采集时延差，得到多个采集时延差；

第二时延获取模块303还用于重复获取到达时延差，得到多个到达时延差；

在获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差时，目标时延差获取模块304用于：

获取多个采集时延差以及多个到达时延差中对应的采集时延差与到达时延差的时延差值，得到多个时延差值；

获取多个时延差值的平均时延差值，并将平均时延差值设为目标时延差。

在一实施例中，电子设备还包括专用语音识别芯片、处理器，音频处理装置还包括唤醒模块，用于：

当处理器休眠时，通过两个麦克风中的任一麦克风采集外部声音得到外部音频数据；

通过专用语音识别芯片校验外部音频数据，若校验通过，则唤醒处理器，并在唤醒处理器后控制专用语音识别芯片休眠；

通过两个麦克风采集外部声音得到两路外部音频数据，并通过处理器调用目标滤波器对两路外部音频数据进行时延校正，得到时延校正后的两路外部音频数据；

通过处理器对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据；

通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用。

在一实施例中，在通过处理器对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据时，唤醒模块用于：

在通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用时，唤醒模块用于：

应当说明的是，本申请实施例提供的音频处理装置与上文实施例中的音频处理方法属于同一构思，在音频处理装置上可以运行音频处理方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

本申请实施例还提供一种存储介质，其上存储有计算机程序，当其存储的计算机程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的音频处理方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read OnlyMemory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图6，电子设备包括处理器401、存储器402和两个麦克风403。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

存储器402中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402中计算机程序的访问，实现如下功能：

通过两个麦克风对预设位置的声源信号进行采集，得到声源信号的两路音频数据；

根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差；

根据两个麦克风的间距以及声音传播速度，获取声源信号到达两个麦克风的到达时延差；

获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差；

将目标时延差转换为预设阶数的滤波器系数，得到用于消除目标时延差的目标滤波器。

请参照图7，图7为本申请实施例提供的电子设备的另一结构示意图，与图6所示电子设备的区别在于，电子设备还包括输入单元404和输出单元405等组件。

其中，输入单元404可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元405可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，电子设备中的处理器401会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中，并由处理器501运行存储在存储器402中的计算机程序，从而实现各种功能，如下：

在一实施例中，在根据声源信号的两路音频数据获取两个麦克风采集声源信号的采集时延差时，处理器401可以执行：

获取两路傅里叶变换信号的互相关函数；

在一实施例中，在根据互相关函数的最大值获取两个麦克风采集声源信号的采集时延差时，处理器401可以执行：

获取互相关函数的最大值相邻的预设个数的相邻值；

在一实施例中，在获取两路傅里叶变换信号的互相关函时，处理器401可以执行：

根据互功率谱密度函数以及加权函数获取互相关函数。

在一实施例中，在在获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差之前，处理器401可以执行：

获取采集时延差，得到多个采集时延差；

重复获取到达时延差，得到多个到达时延差；

在获取采集时延差与到达时延差的时延差值，并根据时延差值确定两个麦克风之间差异所导致的目标时延差时处理器401可以执行：

在一实施例中，电子设备还包括专用语音识别芯片，其中，当处理器休眠时，专用语音识别芯片可以执行：

通过两个麦克风中的任一麦克风采集外部声音得到外部音频数据；

校验外部音频数据，若校验通过，则唤醒处理器，并在唤醒处理器后休眠；

在专用语音识别芯片休眠后，处理器可以执行：

通过两个麦克风采集外部声音得到两路外部音频数据，并调用目标滤波器对两路外部音频数据进行时延校正，得到时延校正后的两路外部音频数据；

对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据；

对增强音频数据进行校验，并在校验通过时唤醒语音交互应用。

在一实施例中，在对时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据时，处理器可以执行：

在在通过处理器对增强音频数据进行校验，并在校验通过时唤醒语音交互应用时，处理器可以执行：

对多个增强音频数据进行校验，并在任一增强音频数据通过校验时唤醒语音交互应用。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的音频处理方法属于同一构思，在电子设备上可以运行音频处理方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的音频处理方法而言，本领域普通测试人员可以理解实现本申请实施例的音频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如音频处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种音频处理方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，应用于电子设备，其特征在于，所述电子设备包括两个麦克风，所述音频处理方法包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述声源信号的两路音频数据获取所述两个麦克风采集所述声源信号的采集时延差，包括：

对所述声源信号的两路音频数据进行傅里叶变换，得到两路傅里叶变换信号；

获取所述两路傅里叶变换信号的互相关函数；

根据所述互相关函数的最大值获取所述采集时延差。

3.根据权利要求2所述的音频处理方法，其特征在于，所述根据所述互相关函数的最大值获取所述采集时延差，包括：

获取所述互相关函数的最大值相邻的预设个数的相邻值；

对所述互相关函数的最大值以及预设个数的相邻值进行抛物线拟合，得到目标抛物线；

获取所述目标抛物线的最大值，根据所述目标抛物线的最大值以及所述互相关函数获取所述采集时延差。

4.根据权利要求2所述的音频处理方法，其特征在于，所述获取所述两路傅里叶变换信号的互相关函数，包括：

获取所述两路傅里叶变换信号的互功率谱密度函数，以及获取对应的加权函数；

根据所述互功率谱密度函数以及所述加权函数获取所述互相关函数。

5.根据权利要求1-4任一项所述的音频处理方法，其特征在于，所述获取所述采集时延差与所述到达时延差的时延差值，并根据所述时延差值确定所述两个麦克风之间差异所导致的目标时延差之前，还包括：

重复获取所述采集时延差，得到多个采集时延差；

重复获取所述到达时延差，得到多个到达时延差；

所述获取所述采集时延差与所述到达时延差的时延差值，并根据所述时延差值确定所述两个麦克风之间差异所导致的目标时延差，包括：

获取所述多个采集时延差以及所述多个到达时延差中对应的采集时延差与到达时延差的时延差值，得到多个时延差值；

获取所述多个时延差值的平均时延差值，并将所述平均时延差值设为所述目标时延差。

6.根据权利要求1-4任一项所述的音频处理方法，其特征在于，所述电子设备还包括专用语音识别芯片、处理器，所述音频处理方法还包括：

当所述处理器休眠时，通过所述两个麦克风中的任一麦克风采集外部声音得到外部音频数据；

通过所述专用语音识别芯片校验所述外部音频数据，若校验通过，则唤醒所述处理器，并在唤醒所述处理器后控制所述专用语音识别芯片休眠；

通过所述两个麦克风采集外部声音得到两路外部音频数据，并通过所述处理器调用所述目标滤波器对所述两路外部音频数据进行时延校正，得到时延校正后的两路外部音频数据；

通过所述处理器对所述时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据；

通过所述处理器对所述增强音频数据进行校验，并在校验通过时唤醒语音交互应用。

7.根据权利要求6所述的方法，其特征在于，所述通过所述处理器对所述时延校正后的两路外部音频数据进行波束形成处理，得到增强音频数据，包括：

通过所述处理器调用预设波束形成算法分别在多个预设角度对所述时延校正后的两路外部音频数据进行波束形成处理，得到多个增强音频数据；

所述通过所述处理器对所述增强音频数据进行校验，并在校验通过时唤醒语音交互应用，包括：

通过所述处理器对所述多个增强音频数据进行校验，并在任一增强音频数据通过校验时唤醒所述语音交互应用。

8.一种音频处理装置，应用于电子设备，其特征在于，所述电子设备包括两个麦克风，所述音频处理装置包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行权利要求1-7任一项所述的音频处理方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器加载以执行权利要求1-7任一项所述的音频处理方法。