CN110600048B

CN110600048B - 音频校验方法、装置、存储介质及电子设备

Info

Publication number: CN110600048B
Application number: CN201910786524.0A
Authority: CN
Inventors: 陈喆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-03-25
Anticipated expiration: 2039-08-23
Also published as: CN110600048A

Abstract

本申请实施例公开了一种音频校验方法、装置、存储介质及电子设备，其中，通过麦克风采集待校验音频信号，以及获取扬声器在麦克风采集音频期间所输出的背景音频信号；识别扬声器输出背景音频信号时的目标音量等级，并确定对应目标音量等级的目标系统响应；根据目标系统响应更新背景音频信号，得到新的背景音频信号，以修正扬声器在该目标音量等级下的非线性变化所造成的影响；根据新的背景音频信号对待校验音频信号进行自适应滤波处理，以消除待校验音频信号中的自噪声，得到增强音频信号；最后对增强音频信号进行音频校验，得到校验结果。由此，通过排除自噪声和扬声器的非线性变化所带来的干扰，能够达到提高音频校验的准确度。

Description

音频校验方法、装置、存储介质及电子设备

技术领域

本申请涉及音频处理技术领域，具体涉及一种音频校验方法、装置、存储介质及电子设备。

背景技术

目前，随着语音识别技术的发展，电子设备(比如手机、平板电脑等)通过运行的语音交互应用可与用户进行语音交互，比如，用户可以说出“我要听**歌曲”，则语音交互应用对用户的语音进行识别，并识别出用户想要听**歌曲的意图之后，即播放**歌曲。可以理解的是，用户与电子设备进行语音交互的前提是对用户进行音频校验，然而，在实际使用环境中，往往存在各种噪声，使得音频校验的准确度较低。

发明内容

本申请实施例提供了一种音频校验方法、装置、存储介质及电子设备，能够提音频校验的准确度。

本申请实施例提供的音频校验方法，应用于电子设备，所述音频校验方法包括：

通过所述麦克风采集待校验音频信号，以及获取所述扬声器在所述麦克风采集音频期间所输出的背景音频信号；

识别所述扬声器输出所述背景音频信号时的目标音量等级，并根据预设的音量等级和系统响应的对应关系，确定对应所述目标音量等级的目标系统响应；

根据所述目标系统响应更新所述背景音频信号，得到新的背景音频信号；

根据所述新的背景音频信号对所述待校验音频信号进行自适应滤波处理，得到增强音频信号；

对所述增强音频信号进行音频校验，得到校验结果。

本申请实施例提供的音频校验装置，应用于电子设备，所述音频校验装置包括：

音频获取模块，用于通过所述麦克风采集待校验音频信号，以及获取所述扬声器在所述麦克风采集音频期间所输出的背景音频信号；

响应确定模块，用于识别所述扬声器输出所述背景音频信号时的目标音量等级，并根据预设的音量等级和系统响应的对应关系，确定对应所述目标音量等级的目标系统响应；

音频更新模块，用于根据所述目标系统响应更新所述背景音频信号，得到新的背景音频信号；

音频增强模块，用于根据所述新的背景音频信号对所述待校验音频信号进行自适应滤波处理，得到增强音频信号；

音频校验模块，用于对所述增强音频信号进行音频校验，得到校验结果。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器调用时，使得所述处理器执行本申请实施例提供的音频校验方法。

本申请实施例提供的电子设备，包括处理器、存储器、麦克风和扬声器，所述存储器储存有计算机程序，所述处理器通过调用所述计算机程序，用于执行本申请实施例提供的音频校验方法。

本申请实施例通过排除自噪声和扬声器的非线性变化所带来的干扰，能够达到提高音频校验的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频校验方法的一流程示意图。

图2是本申请实施例中预设扫频信号的频谱图。

图3是本申请实施例中训练声纹特征提取模型的流程示意图。

图4是本申请实施例中提取的语谱图的示意图。

图5是本申请实施例提供的音频校验方法的另一流程示意图。

图6是本申请实施例提供的音频校验装置的结构示意图。

图7是本申请实施例提供的电子设备的结构示意图。

图8是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例提供一种音频校验方法、音频校验装置、存储介质以及电子设备，其中，本申请实施例提供的音频校验方法的执行主体可以是本申请实施例提供的电子设备，该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的音频校验方法的流程示意图。该音频校验方法应用于本申请提供的电子设备，如图1所示，本申请实施例提供的音频校验方法的流程可以如下：

101，通过麦克风采集待校验音频信号，以及获取扬声器在麦克风采集音频期间所输出的背景音频信号。

本申请实施例中，电子设备可以在播放音视频期间，通过设置的麦克风进行声音采集，将采集得到的音频信号设为待校验音频信号。其中，电子设备所设置的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的外置麦克风，也可以是无线的外置麦克风)。

电子设备在通过麦克风进行声音采集时，假设麦克风为模拟麦克风，那么将采集到模拟的音频信号，此时需要将模拟的音频信号进行模数转换，得到数字化的音频信号，用于后续处理。比如，电子设备可以在通过麦克风采集到模拟音频信号后，以16KHz的采样频率对该模拟音频信号进行采样，得到数字化的音频信号。

本领域普通技术人员可以理解的是，若电子设备所包括的麦克风为数字麦克风，那么将直接采集到数字化的音频信号，无需再进行模数转换。

此外，电子设备还获取扬声器在麦克风采集期间所输出的背景音频信号，比如，以安卓系统为例，电子设备通过麦克风采集到的时长为2秒的待校验信号，则电子设备通过安卓原生的媒体框架获取到扬声器在这2秒内输出的音频信号，为便于区分进行声音采集所得到的音频信号以及音频采集期间所输出的音频信号，本申请扬声器在麦克风的音频采集期间所输出的音频信号记为背景音频信号。其中，可以理解的是，背景音频信号可以是独立的音频信号，比如播放的音频文件、歌曲等，还可以是附加在多媒体数据中的音频信号，比如视频中的音频。

102，识别扬声器输出背景音频信号时的目标音量等级，并根据预设的音量等级和系统响应的对应关系，确定对应目标音量等级的目标系统响应。

在获取到待校验音频信号以及背景音频信号之后，电子设备进一步识别出扬声器在输出背景音频信号时的音量等级，记为目标音量等级。以安卓系统为例，电子设备可以直接通过安卓原生的媒体框架获取到扬声器输出背景音频信号的音量等级。

应当说明的是，本申请实施例中还预先测量有扬声器在不同音量等级下的系统响应，并据此预先设置有音量等级和系统响应的对应关系。相应的，电子设备在识别出扬声器输出背景音频信号时的目标音量等级之后，进一步根据预设的音量等级和系统响应的对应关系，确定出对应目标音量等级的系统响应，记为目标系统响应。

103，根据目标系统响应更新背景音频信号，得到新的背景音频信号。

其中，电子设备在识别出扬声器输出背景音频信号时的目标音量等级，并确定对应该目标音量等级的目标系统响应之后，进一步根据目标系统响应对背景音频信号进行更新，得到新的背景音频信号，以修正扬声器的非线性变化所造成的影响。

其中，电子设备按照如下公式更新背景音频信号：

r^m(k)＝r(k)*h^m(t)；

r(k)表示背景音频信号，m表示扬声器的目标音量等级，h^m(t)表示扬声器的目标系统响应，r^m(k)即为对r(k)更新后所得到的新的背景音频信号。

104，根据新的背景音频信号对待校验音频信号进行自适应滤波处理，得到增强音频信号。

可以理解的是，由于电子设备的麦克风和扬声器通常设置的较近，在扬声器输出背景音频信号期间，麦克风在进行声音采集时，将采集得到扬声器输出背景音频信号的声音，即回声(或称自噪声)，使得采集得到的待校验信号的信噪比较低。

本申请实施例中，为了提升待校验音频信号的信噪比，在更新得到新的背景音频信号之后，即根据该新的背景音频信号对待校验音频信号进行自适应滤波处理，消除待校验音频信号中的回声，得到增强音频信号。

105，对增强音频信号进行音频校验，得到校验结果。

可以理解的是，由于增强音频信号相较于原始的待校验音频信号消除了其中的回声，使得其具有较高的信噪比，此时对增强音频信号进行音频校验得到的校验结果相较于直接对待校验音频信号进行校验得到校验结果具有更高的准确度。

示例性的，对增强音频信号进行音频校验包括校验增强音频信号的文本特征和声纹特征。通俗的说，也即是校验增强音频信号中是否包括预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)说出的预设唤醒词，若增强音频信号中包括预设用户说出的预设唤醒词，则增强音频信号的文本特征以及声纹特征校验通过，否则校验不通过。比如，增强音频信号包括了预设用户设置的预设唤醒词，且该预设唤醒词由预设用户说出，则增强音频信号的文本特征以及声纹特征将校验通过。又比如，增强音频信号包括了预设用户之外的其他用户说出的预设唤醒词，或者增强音频信号不包括任何用户说出的预设唤醒词时，将校验失败(或者说未校验通过)。

由上可知，本申请中，电子设备首先通过麦克风采集待校验音频信号，以及获取扬声器在麦克风采集音频期间所输出的背景音频信号；然后，识别扬声器输出背景音频信号时的目标音量等级，并根据预设的音量等级和系统响应的对应关系，确定对应目标音量等级的目标系统响应；然后，根据目标系统响应更新背景音频信号，得到新的背景音频信号，以修正扬声器在该目标音量等级下的非线性变化所造成的影响；然后，根据新的背景音频信号对待校验音频信号进行自适应滤波处理，以消除待校验音频信号中的自噪声，得到增强音频信号；最后对增强音频信号进行音频校验，得到校验结果。由此，本申请能够排除自噪声和扬声器的非线性变化所带来的干扰，从而达到提高音频校验准确度的目的。

在一实施例中，“根据新的背景音频信号对待校验音频信号进行自适应滤波处理，得到增强音频信号”，包括：

(1)获取初始滤波器系数，并根据新的背景音频信号以及待校验音频信号迭代更新初始滤波器系数，得到目标滤波器系数；

(2)根据目标滤波器系数估计待校验音频信号中携带的回声音频信号；

(3)消除待校验音频信号中的回声音频信号，得到增强音频信号。

本申请实施例中，电子设备在根据新的背景音频信号对待校验音频信号进行自适应滤波处理时，首先获取到初始滤波器系数，然后根据新的背景音频信号以及待校验音频信号进行迭代更新，直至收敛，将收敛时的滤波器系数记为目标滤波器系数。然后，电子设备根据迭代更新得到的目标滤波器系数估计该待校验音频信号中携带的回声音频信号，从而消除待校验音频信号中的回声音频信号，将消除回声音频信号后的待校验音频信号记为增强音频信号，如下公式所示：

X’＝X-W^T*X；

其中，X’表示增强音频信号，X表示待校验音频信号，W表示目标滤波器系数，T表示转置。

在一实施例中，“根据新的背景音频信号以及待校验音频信号迭代更新初始滤波器系数，得到目标滤波器系数”，包括：

(1)根据初始滤波器系数获取当前时刻的滤波器系数；

(2)根据当前时刻的滤波器系数估计得到当前时刻的回声音频信号；

(3)根据当前时刻的背景音频信号以及当前时刻的回声音频信号，获取当前时刻的误差音频信号；

(4)识别当前时刻的滤波器系数的活跃部分，并根据当前时刻的误差音频信号更新当前时刻的滤波器系数的活跃部分，以及调整当前时刻的滤波器系数的阶数，得到下一时刻的滤波器系数。

以下以一次更新过程中说明如何迭代更新初始滤波器系数。

应当说明的是，当前时刻并不特指某一时刻，而是代指对初始滤波器系数进行一次更新的时刻。

以对初始滤波器系数进行的第一次更新为例，电子设备获取到初始滤波器系数，将其作为当前时刻k的滤波器系数。比如，获取到当前时刻k的滤波器系数为W_(k)＝[w₀,w₁,w₃...w_L-1]^T，其长度为L。

然后，电子设备根据当前时刻k的滤波器系数，估计当前时刻k的回声音频信号，如下公式所示：

其中，

表示当前时刻k的回声音频信号，x(k)表示当前时刻k的待校验音频信号。

然后，电子设备根据当前时刻k的背景音频信号以及当前时刻k的回声音频信号，获取当前时刻k的误差音频信号，如下公式所示：

其中，e(k)表示当前时刻k的误差音频信号，r(k)表示当前时刻k的背景音频信号。

应当说明的是，较大的滤波器阶数会增加计算复杂度，而较小的滤波器阶数则无法完全收敛回声。本申请实施例中考虑到滤波器系数很多都是0，只有一小部分起到迭代更新的作用，因此，可以仅对当前时刻k的滤波器系数的活跃部分进行更新，并实时调整其阶数。

相应的，在本申请实施例中，电子设备在获取到当前时刻k的误差音频信号之后，进一步识别出当前时刻k的滤波器系数的活跃部分，从而根据当前时刻k的误差音频信号更新当前时刻k的滤波器系数的活跃部分，如下公式所示：

W(k+1)＝W(k)+ux(k)e(k)；

其中，u表示预设的收敛步长，可由本领域普通技术人员根据实际需要进行设置，本申请实施例对此不做具体限制。需要强调的是，在对当前时刻k的滤波器系数W_(k)进行更新时，仅更新其活跃部分。比如，W_(k)＝[w₀,w₁,w₃...w_L-1]^T，其中[w₀,w₁,w₃...w_L-3]被确定为活跃部分，则电子设备按照如上公式对[w₀,w₁,w₃...w_L-3]进行更新。

另外，电子设备还根据识别出的活跃部分调整当前时刻k的滤波器系数的阶数，从而得到下一时刻的滤波器系数W(k+1)。

在一实施例中，“识别当前时刻的滤波器系数的活跃部分”，包括：

(1)将当前时刻的滤波器系数划分为等长度的多个子滤波器系数；

(2)由后向前的顺序获取各子滤波器系数的平均值及方差，将平均值大于预设平均值且对方差大于预设方差的首个子滤波器系数及其之前的子滤波器系数确定为活跃部分；

调整当前时刻的滤波器系数的阶数，包括：

(3)判断首个子滤波器系数是否为最后一个子滤波器系数，是则增加当前时刻的滤波器系数的阶数，否则减少当前时刻的滤波器系数的阶数。

本申请实施例中，电子设备在识别当前时刻的滤波器系数的活跃部分时，首先将当前时刻的滤波器系数划分为等长度(该长度大于1)的多个子滤波器系数，比如，电子设备将当前时刻的滤波器系数W＝[w₀,w₁,w₂...w_L-1]^T划分为等长度的M个子滤波器系数，每个子滤波器系数的长度为L/M，则第m个子滤波器系数W_m＝[w_mL/M,w_mL/M+1,w_mL/M+2…w_(m+1)L/M]^T，m的取值范围为[0，M]。

然后，电子设备由后向前的顺序获取各子滤波器系数的平均值及方差，即首先获取第M个子滤波器系数的平均值及方差，再获取第M-1个子滤波器系数的平均值及方差，直至获取到平均值大于预设平均值且方差大于预设方差的首个子滤波器系数，将该首个子滤波器系数及其之前的子滤波器系数确定为当前时刻的滤波器系数的活跃部分。

其中，预设平均值和预设方差可由本领域普通技术人员取经验调试值，本申请实施例对此不做具体限制，比如，本申请实施例中，可以取预设平均值为0.000065，取预设方差为0.003。

另外，在调整当前时刻的滤波器系数的阶数时，电子设备可以判断前述首个子滤波器系数是否为最后一个子滤波器系数，是则说明当前时刻的滤波器系数的阶数不够，增加当前时刻的滤波器系数的阶数，否则说明当前时刻的滤波器系数的阶数足够，可以减少当前时刻的滤波器系数的阶数。

其中，对于增加或减少阶数的变化量，可由本领域普通技术人员根据实际需要取经验值，本申请实施例对此不做具体限制。

在一实施例中，“通过麦克风采集待校验音频信号”之前，还包括：

(1)通过扬声器分别按照多个不同的音量等级输出预设扫频信号，并通过麦克风采集得到每一音量等级对应的延时扫频信号；

(2)根据每一音量等级对应的延时扫频信号，获取扬声器在每一音量等级的系统响应，得到音量等级和系统响应的对应关系。

本申请实施例还提供一种预设音量等级和系统响应之间对应关系的方案。

其中，电子设备首先通过扬声器按照多个不同的音量等级输出预设扫频信号，并在扬声器按照每一音量等级输出预设扫频信号时，通过麦克风采集得到每一音量等级对应的延时扫频信号。

比如，假设扬声器被划分为十个音量等级，则电子设备将通过扬声器分别按照这十个音量等级输出预设扫频信号，从而采集得到对应这十个音量等级的延时扫频信号。

应当说明的是，本申请实施例中对应预设扫频信号不做具体限制，可由本领域普通技术人员根据实际需要进行设置，比如，请参照图2，其中横轴表示时间，纵轴表示频率，本申请实施例中的预设扫频信号表示为：

其中，f₁为起始频点，取值为20Hz，f₂为截止频点，取值为20KHz，T为时长，取值为2秒，t表示变量“时间”。可以看出，该预设扫频信号的频率随时间连续变化，不仅可以不遗漏测试所有的频率点，还可以的在总的测量时间内，保证每个频段分配均匀的测量时间。

在采集得到每一音量等级对应的延时扫频信号之后，电子设备进一步根据每一音量等级对应的延时扫频信号，获取扬声器在每一音量等级的系统响应，得到音量等级和系统响应的对应关系。

其中，“根据每一音量等级对应的延时扫频信号，获取扬声器在每一音量等级的系统响应，得到音量等级和系统响应的对应关系”包括：

(1)获取对应预设扫频信号的预设滤波器系数；

(2)根据预设滤波器系数对每一音量等级对应的延时扫频信号做卷积运算，得到扬声器在每一音量等级的系统响应。

应当说明的是，本申请实施例对应于预设扫频信号，预先设计有与其对应的滤波器系数，记为预设滤波器系数。

示例性的，对应于预设扫频信号

对应的预设滤波器系数表示为：

其中，

表示预设滤波器系数。

相应的，电子设备按照如下公式对每一音量等级对应的延时扫频信号做卷积运算：

其中，h^m(t)表示音量等级为m时扬声器的系统响应，y^m(t)表示音量等级为m时采集到的延时扫频信号。

在一实施例中，“对增强音频信号进行音频校验，得到校验结果”之后，还包括：

若校验结果为增强音频信号通过音频校验，则唤醒语音交互应用，并控制扬声器暂停输出。

由上可知，本申请实施例中进行音频校验的目的在于唤醒语音交互应用，因此，若在完成对增强音频信号的音频校验，且得到增强音频信号通过音频校验的校验结果，则电子设备直接唤醒语音交互应用。

此外，为了避免扬声器输出的音频信号影响语音交互应用的正常工作，电子设备还控制扬声器暂停输出。

其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

在一实施例中，“对增强音频信号进行音频校验”，包括：

(1)将增强音频信号划分为多个子音频信号；

(2)根据与预设文本相关的声纹特征提取模型提取各子音频信号的声纹特征向量；

(3)获取各声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设音频信号的声纹特征向量；

(4)根据各子音频信号对应的相似度，校验各子音频信号的文本特征以及声纹特征；

(5)若存在校验通过的子音频信号，则判定增强音频信号通过音频校验。

本申请实施例中，考虑到增强音频信号可能并不仅包括预设唤醒词，比如预设唤醒词为“小欧小欧”，而增强音频信号为“你好小欧小欧”。为此，本申请实施例中，根据预设唤醒词的长度，将增强音频信号划分为多个子音频信号，其中，各子音频信号的长度大于或等于预设唤醒词的长度，且相邻两个子音频信号具有重合部分，对于重合部分的长度可由本领域普通技术人员根据实际需要设置，比如，本申请实施例中设置为子音频信号长度的25％。

应当说明的是，本申请实施例中还预先训练有与预设文本(即预设唤醒词)相关的声纹特征提取模型。比如，本申请实施例中训练基于卷积神经网络的声纹特征提取模型，如图3所示，预先采集多人(比如200人)说出预设唤醒词的音频信号，然后对这些音频信号进行端点检测，分割出其中的预设唤醒词部分，然后对分割出的预设唤醒词部分进行预处理(比如高通滤波)和加窗，再进行傅里叶变换(比如短时傅里叶变换)后计算其能量密度，生成灰度的语谱图(如图4所示，其中横轴表示时间，纵轴表示频率，灰度值表示能量值)，最后，利用卷积神经网络对生成的语谱图进行训练，生成与预设文本相关的声纹特征提取模型。另外，本申请实施例中还提取预设用户说出预设唤醒词的音频信号(即预设音频信号)的语谱图，并输入到之前训练的声纹特征提取模型中，经过声纹特征提取模型的多个卷积层、池化层以及全连接层后，将输出对应的一组特征向量，将其记为目标声纹特征向量。

相应的，电子设备将增强音频信号划分为多个子音频信号之后，分别提取各子音频信号的语谱图。其中，对于如何提取语谱图，此处不再赘述，具体可参照以上相关描述。在提取到前述多个子音频信号的语谱图之后，电子设备分别将前述多个子音频信号的语谱图输入到之前训练的声纹特征提取模型，从而提取得到各子音频信号的声纹特征向量。

在提取得到各子音频信号的声纹特征向量之后，电子设备分别获取各子音频信号的声纹特征向量与目标声纹特征向量之间的相似度，然后，根据各子音频信号对应的相似度来校验各子音频信号的文本特征以及声纹特征，进而在存在校验通过的子音频信号时，判定增强音频信号通过音频校验。比如，电子设备可以判断是否存在声纹特征向量与目标声纹特征向量之间的相似度达到预设相似度(可由本领域普通技术人员根据实际需要取经验值，比如可以设置为75％)的子音频信号，若存在，则判定增强音频信号的文本特征以及声纹特征通过校验。

其中，“根据各子音频信号对应的相似度，校验前述预设角度对应的增强音频信号文本特征以及声纹特征”，包括：

根据各子音频信号对应的相似度以及预设的识别函数，校验前述预设角度对应的增强音频信号的文本特征以及声纹特征；

其中，预设的识别函数为γ_n＝γ_n-1+f(l_n)，γ_n表示第n个子音频信号对应的识别函数状态值，γ_n-1表示第n-1个子音频信号对应的识别函数状态值，

a为识别函数的修正值，b为预设相似度，l_n为第n个子音频信号的声纹特征向量与目标声纹特征向量之间的相似度，若存在大于预设识别函数状态值的γ_n，则判定前述预设角度对应的增强音频信号的文本特征以及声纹特征通过校验。

应当说明的是，识别函数中a的取值可由本领域普通技术人员根据实际需要取经验值，比如，可以将a取值为1。

另外，识别函数中b的取值与声纹特征提取模型的识别率正相关，根据实际训练得到的声纹特征提取模型的识别率确定b的取值。

另外，预设识别函数状态值也可由本领域普通技术人员根据实际需要取经验值，其取值越大，对语音部分校验的准确度也就也大。

由此，通过该识别函数，即使当增强音频信号中包括预设唤醒词之外的其它信息，也能够准确的对其进行校验。

可选的，在获取各子音频信号的声纹特征向量与目标声纹特征训练之间的相似度时，可按照动态时间规整算法计算各子音频信号的声纹特征向量与目标声纹特征向量之间的相似度。

或者，可计算各子音频信号的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度，对于采用何种特征距离来衡量两个向量之间的相似度，本申请实施例中不做具体限制，比如，可以采用欧几里得距离来衡量子音频信号的声纹特征向量与目标声纹特征向量之间的相似度。

请参照图5，图5为本申请实施例提供的音频校验方法的另一流程示意图，该音频校验方法应用于包括专用语音识别芯片、处理器、麦克风和扬声器的电子设备，如图5所示，本申请实施例提供的音频校验方法的流程可以如下：

201，电子设备基于处理器判断其是否处于音视频播放状态，是则转入202，否则转入206。

本申请实施例中，电子设备首先基于处理器判断其是否处于音视频播放状态，比如，以安卓系统为例，电子设备基于处理器接收安卓内部消息，根据该安卓内部消息判断其是否处于音视频播放状态。

202，电子设备通过麦克风采集待校验音频信号，以及获取扬声器在麦克风采集音频期间所输出的背景音频信号。

203，电子设备识别扬声器输出背景音频信号时的目标音量等级，并根据预设的音量等级和系统响应的对应关系，确定对应目标音量等级的目标系统响应。

204，电子设备根据目标系统响应更新背景音频信号，得到新的背景音频信号，并根据新的背景音频信号对待校验音频信号进行自适应滤波处理，得到增强音频信号。

其中，电子设备按照如下公式更新背景音频信号：

r^m(k)＝r(k)*h^m(t)；

205，电子设备通过处理器对增强音频信号进行音频校验，得到校验结果。

可以理解的是，由于增强音频信号相较于原始的待校验音频信号消除了其中的回声，使得其具有较高的信噪比，此时通过处理器加载的第一唤醒算法对增强音频信号进行音频校验，此时得到的校验结果相较于直接对待校验音频信号进行校验得到校验结果具有更高的准确度。其中，可以同时校验待校验音频信号的文本特征和声纹特征，也可以仅校验待校验音频信号的文本特征。比如，本申请实施例中通过处理器对待校验音频信号的文本特征和声纹特征进行校验，也即是校验待校验音频信号中是否包括预设用户说出的预设唤醒词。

206，电子设备通过麦克风采集待校验音频信号，并通过专用语音识别芯片对待校验音频信号进行音频校验，以及在校验通过后再次通过处理器对待校验音频信号进行音频校验，得到校验结果。

其中，专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。

本申请实施例中，电子设备在未播放音视频期间，通过麦克风采集得到待校验音频信号。之后，通过专用语音识别芯片调用第二唤醒算法对待校验音频信号进行校验，其中，可以同时校验待校验音频信号的文本特征和声纹特征，也可以仅校验待校验音频信号的文本特征。比如，本申请实施例中通过专用语音识别芯片对待校验音频信号的文本特征进行校验，也即是校验待校验音频信号中是否包括预设唤醒词。

在专用语音识别芯片校验待校验音频信号通过之后，电子设备进一步通过处理器调用第一唤醒算法对待校验音频信号进行校验，得到校验结果。

请参照图6，图6为本申请实施例提供的音频校验装置的结构示意图。该音频校验装置可以应用于电子设备，包括音频获取模块301、响应确定模块302、音频更新模块303、音频增强模块304以及音频校验模块305，其中，

音频获取模块301，用于通过麦克风采集待校验音频信号，以及获取扬声器在麦克风采集音频期间所输出的背景音频信号；

响应确定模块302，用于识别扬声器输出背景音频信号时的目标音量等级，并根据预设的音量等级和系统响应的对应关系，确定对应目标音量等级的目标系统响应；

音频更新模块303，用于根据目标系统响应更新背景音频信号，得到新的背景音频信号；

音频增强模块304，用于根据新的背景音频信号对待校验音频信号进行自适应滤波处理，得到增强音频信号；

音频校验模块305，用于对增强音频信号进行音频校验，得到校验结果。

在一实施例中，在根据新的背景音频信号对待校验音频信号进行自适应滤波处理，得到增强音频信号时，音频增强模块304用于：

获取初始滤波器系数，并根据新的背景音频信号以及待校验音频信号迭代更新初始滤波器系数，得到目标滤波器系数；

根据目标滤波器系数估计待校验音频信号中携带的回声音频信号；

消除待校验音频信号中的回声音频信号，得到增强音频信号。

在一实施例中，在根据新的背景音频信号以及待校验音频信号迭代更新初始滤波器系数，得到目标滤波器系数时，音频增强模块304用于：

根据初始滤波器系数获取当前时刻的滤波器系数；

根据当前时刻的滤波器系数估计得到当前时刻的回声音频信号；

根据当前时刻的背景音频信号以及当前时刻的回声音频信号，获取当前时刻的误差音频信号；

识别当前时刻的滤波器系数的活跃部分，并根据当前时刻的误差音频信号更新当前时刻的滤波器系数的活跃部分，以及调整当前时刻的滤波器系数的阶数，得到下一时刻的滤波器系数。

在一实施例中，在识别当前时刻的滤波器系数的活跃部分时，音频增强模块304用于：

将当前时刻的滤波器系数划分为等长度的多个子滤波器系数；

由后向前的顺序获取各子滤波器系数的平均值及方差，将平均值大于预设平均值且对方差大于预设方差的首个子滤波器系数及其之前的子滤波器系数确定为活跃部分；

在调整当前时刻的滤波器系数的阶数时，音频增强模块304用于：

判断首个子滤波器系数是否为最后一个子滤波器系数，是则增加当前时刻的滤波器系数的阶数，否则减少当前时刻的滤波器系数的阶数。

在一实施例中，音频校验装置还包括关系预设模块，在通过麦克风采集待校验音频信号之前，用于：

通过扬声器分别按照多个不同的音量等级输出预设扫频信号，并通过麦克风采集得到每一音量等级对应的延时扫频信号；

根据每一音量等级对应的延时扫频信号，获取扬声器在每一音量等级的系统响应，得到音量等级和系统响应的对应关系。

在一实施例中，在根据每一音量等级对应的延时扫频信号，获取扬声器在每一音量等级的系统响应，得到音量等级和系统响应的对应关系时，关系预设模块用于：

获取对应预设扫频信号的预设滤波器系数；

根据预设滤波器系数对每一音量等级对应的延时扫频信号做卷积运算，得到扬声器在每一音量等级的系统响应。

在一实施例中，音频校验装置还包括应用唤醒模块，用于在对增强音频信号进行音频校验，得到校验结果之后，若校验结果为增强音频信号通过音频校验，则唤醒语音交互应用，并控制扬声器暂停输出。

本申请实施例提供一种存储介质，其上存储有指令执行程序，当其存储的指令执行程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的音频校验方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read OnlyMemory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图7，电子设备包括处理器401、存储器402、麦克风403和扬声器404。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

存储器402中存储有指令执行程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问，实现如下功能：

通过麦克风403采集待校验音频信号，以及获取扬声器404在麦克风403采集音频期间所输出的背景音频信号；

识别扬声器输出背景音频信号时的目标音量等级，并根据预设的音量等级和系统响应的对应关系，确定对应目标音量等级的目标系统响应；

根据目标系统响应更新背景音频信号，得到新的背景音频信号；

根据新的背景音频信号对待校验音频信号进行自适应滤波处理，得到增强音频信号；

对增强音频信号进行音频校验，得到校验结果。

请参照图8，图8为本申请实施例提供的电子设备的另一结构示意图，与图7所示电子设备的区别在于，电子设备还包括输入单元405和输出单元406等组件。

其中，输入单元405可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元406可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，电子设备中的处理器401会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中，并由处理器401运行存储在存储器402中的计算机程序，从而实现各种功能，如下：

对增强音频信号进行音频校验，得到校验结果。

在一实施例中，在根据新的背景音频信号对待校验音频信号进行自适应滤波处理，得到增强音频信号时，处理器401可以执行：

在一实施例中，在根据新的背景音频信号以及待校验音频信号迭代更新初始滤波器系数，得到目标滤波器系数时，处理器401可以执行：

根据初始滤波器系数获取当前时刻的滤波器系数；

在一实施例中，在识别当前时刻的滤波器系数的活跃部分时，处理器401可以执行：

而在调整当前时刻的滤波器系数的阶数时，处理器401可以执行：

在一实施例中，在通过麦克风403采集待校验音频信号之前，处理器401还可以执行：

通过扬声器404分别按照多个不同的音量等级输出预设扫频信号，并通过麦克风403采集得到每一音量等级对应的延时扫频信号；

根据每一音量等级对应的延时扫频信号，获取扬声器404在每一音量等级的系统响应，得到音量等级和系统响应的对应关系。

在一实施例中，在根据每一音量等级对应的延时扫频信号，获取扬声器404在每一音量等级的系统响应，得到音量等级和系统响应的对应关系时，处理器401可以执行：

获取对应预设扫频信号的预设滤波器系数；

根据预设滤波器系数对每一音量等级对应的延时扫频信号做卷积运算，得到扬声器404在每一音量等级的系统响应。

在一实施例中，在对增强音频信号进行音频校验，得到校验结果之后，处理器401还可以执行：

若校验结果为增强音频信号通过音频校验，则唤醒语音交互应用，并控制扬声器404暂停输出。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的音频校验方法属于同一构思，在电子设备上可以运行音频校验方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的音频校验方法而言，本领域普通测试人员可以理解实现本申请实施例的音频校验方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如音频校验方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种音频校验方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频校验方法，应用于电子设备，所述电子设备包括麦克风和扬声器，其特征在于，所述音频校验方法包括：

对所述目标系统响应和所述背景音频信号进行卷积运算，得到新的背景音频信号；

对所述增强音频信号进行音频校验，得到校验结果。

2.根据权利要求1所述的音频校验方法，其特征在于，所述根据所述新的背景音频信号对所述待校验音频信号进行自适应滤波处理，得到增强音频信号，包括：

获取初始滤波器系数，并根据所述新的背景音频信号以及所述待校验音频信号迭代更新所述初始滤波器系数，得到目标滤波器系数；

根据所述目标滤波器系数估计所述待校验音频信号中携带的回声音频信号；

消除所述待校验音频信号中的所述回声音频信号，得到所述增强音频信号。

3.根据权利要求2所述的音频校验方法，其特征在于，所述根据所述新的背景音频信号以及所述待校验音频信号迭代更新所述初始滤波器系数，得到目标滤波器系数，包括：

根据所述初始滤波器系数获取当前时刻的滤波器系数；

根据所述当前时刻的滤波器系数估计得到当前时刻的回声音频信号；

根据当前时刻的背景音频信号以及所述当前时刻的回声音频信号，获取当前时刻的误差音频信号；

识别所述当前时刻的滤波器系数的活跃部分，并根据所述当前时刻的误差音频信号更新所述当前时刻的滤波器系数的活跃部分，以及调整所述当前时刻的滤波器系数的阶数，得到下一时刻的滤波器系数。

4.根据权利要求3所述的音频校验方法，其特征在于，所述识别所述当前时刻的滤波器系数的活跃部分，包括：

将所述当前时刻的滤波器系数划分为等长度的多个子滤波器系数；

由后向前的顺序获取各所述子滤波器系数的平均值及方差，将平均值大于预设平均值且对方差大于预设方差的首个子滤波器系数及其之前的子滤波器系数确定为所述活跃部分；

所述调整所述当前时刻的滤波器系数的阶数，包括：

判断所述首个子滤波器系数是否为最后一个子滤波器系数，是则增加所述当前时刻的滤波器系数的阶数，否则减少所述当前时刻的滤波器系数的阶数。

5.根据权利要求1-4任一项所述的音频校验方法，其特征在于，所述通过所述麦克风采集待校验音频信号之前，还包括：

通过所述扬声器分别按照多个不同的音量等级输出预设扫频信号，并通过所述麦克风采集得到每一音量等级对应的延时扫频信号；

根据每一音量等级对应的延时扫频信号，获取所述扬声器在每一音量等级的系统响应，得到音量等级和系统响应的对应关系。

6.根据权利要求5所述的音频校验方法，其特征在于，所述根据每一音量等级对应的延时扫频信号，获取所述扬声器在每一音量等级的系统响应，包括：

获取对应所述预设扫频信号的预设滤波器系数；

根据所述预设滤波器系数对每一音量等级对应的延时扫频信号做卷积运算，得到所述扬声器在每一音量等级的系统响应。

7.根据权利要求1-4任一项所述的音频校验方法，其特征在于，所述对所述增强音频信号进行音频校验，得到校验结果之后，还包括：

若所述校验结果为所述增强音频信号通过音频校验，则唤醒语音交互应用，并控制所述扬声器暂停输出。

8.一种音频校验装置，应用于电子设备，所述电子设备包括麦克风和扬声器，其特征在于，所述音频校验装置包括：

音频更新模块，用于对所述目标系统响应和所述背景音频信号进行卷积运算，得到新的背景音频信号；

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、麦克风和扬声器，所述存储器储存有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至7任一项所述的音频校验方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，当所述计算机程序被处理器调用时，使得所述处理器执行如权利要求1至7任一项所述的音频校验方法。