CN110473554A

CN110473554A - 音频校验方法、装置、存储介质及电子设备

Info

Publication number: CN110473554A
Application number: CN201910731240.1A
Authority: CN
Inventors: 宋天龙
Original assignee: Shanghai Jinsheng Communication Technology Co Ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co Ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-19
Anticipated expiration: 2039-08-08
Also published as: CN110473554B

Abstract

本申请实施例公开了一种音频校验方法、装置、存储介质及电子设备，其中，电子设备包括麦克风、专用语音识别芯片和处理器，可以在处理器休眠期间通过麦克风采集音频数据提供给专用语音识别芯片，并通过专用语音识别芯片对音频数据的文本特征进行一级校验，并在校验通过时唤醒处理器，然后再通过处理器对音频数据的文本特征进行二级校验，若二级校验通过，则进一步提取音频数据的声纹特征进行校验，得到校验结果。通过利用专用语音识别芯片和处理器对音频数据的文本特征进行两次校验，以及利用处理器对音频数据的声纹特征进行校验，能够确保对音频数据校验的准确性，并且无需处理器持续处于唤醒状态，还能够降低音频校验的功耗。

Description

音频校验方法、装置、存储介质及电子设备

技术领域

本申请涉及音频处理技术领域，具体涉及一种音频校验方法、装置、存储介质及电子设备。

背景技术

目前，通过音频校验，用户可以在不方便直接操控电子设备的情况下说出语音指令来控制电子设备。然而，在实际使用环境中，存在各种因素使得电子设备难以准确的校验输入的音频数据。为了增加音频校验的准确度，相关技术设计了更加精确复杂的校验算法。但是，电子设备需要处理器来持续运行校验算法，使得电子设备进行音频校验的功耗较高。

发明内容

本申请实施例提供了一种音频校验方法、装置、存储介质及电子设备，不仅能够提高音频校验的准确性，还能够降低音频校验的功耗。

第一方面，本申请实施例提供了一种音频校验方法，应用于电子设备，所述电子设备包括麦克风、专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验方法包括：

当所述处理器休眠时，通过所述麦克风采集音频数据提供给所述专用语音识别芯片；

通过所述专用语音识别芯片校验所述音频数据的文本特征，若校验通过，则唤醒所述处理器；

将所述音频数据提供给所述处理器，并在唤醒所述处理器后控制所述专用语音识别芯片休眠；

通过所述处理器再次校验所述音频数据的文本特征，若校验通过，则获取所述音频数据的声纹特征；

通过所述处理器对所述声纹特征进行校验，得到校验结果。

第二方面，本申请实施例提供了一种音频校验装置，应用于电子设备，所述电子设备包括麦克风、专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验装置包括：

音频采集模块，用于当所述处理器休眠时，通过所述麦克风采集音频数据提供给所述专用语音识别芯片；

一级校验模块，用于通过所述专用语音识别芯片校验所述音频数据的文本特征，若校验通过，则唤醒所述处理器；

音频传输模块，用于将所述音频数据提供给所述处理器，并在唤醒所述处理器后控制所述专用语音识别芯片休眠；

二级校验模块，用于通过所述处理器再次校验所述音频数据的文本特征，若校验通过，则获取所述音频数据的声纹特征；

声纹校验模块，用于通过所述处理器对所述声纹特征进行校验，得到校验结果。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，计算机程序被处理器加载以执行本申请实施例提供的音频校验方法。

第四方面，本申请实施例还提供了一种电子设备，所述电子设备包括麦克风、专用语音识别芯片、处理器和存储器，所述存储器中存储有计算机程序，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述计算机程序被所述专用语音识别芯片和处理器调用时用于执行，

当所述处理器休眠时，所述专用语音识别芯片通过麦克风采集音频数据；

所述专用语音识别芯片校验音频数据的文本特征，若校验通过，则唤醒处理器；

所述专用语音识别芯片将音频数据提供给处理器，并在唤醒处理器后休眠；

处理器再次校验音频数据的文本特征，若校验通过，则获取音频数据的声纹特征；

所述处理器对获取到的声纹特征进行校验，得到校验结果。

本申请实施例中，电子设备包括麦克风、专用语音识别芯片和处理器，且专用语音识别芯片的功耗小于处理器的功耗，可以在处理器休眠期间通过麦克风采集音频数据提供给专用语音识别芯片，并通过专用语音识别芯片对音频数据的文本特征进行一级校验，并在校验通过时唤醒处理器，以及控制专用语音识别芯片休眠，然后再通过处理器对音频数据的文本特征进行二级校验，若二级校验通过，则进一步提取音频数据的声纹特征进行校验，得到校验结果。本申请中利用专用语音识别芯片和处理器对音频数据的文本特征进行两次校验，并在二级校验通过后，利用处理器对音频数据的声纹特征进行校验，通过这种多级校验的方式，能够确保对音频数据校验的准确性，并且无需处理器持续处于唤醒状态，还能够降低音频校验的功耗。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频校验方法的一流程示意图。

图2是本申请实施例中由声学特征得到声纹特征的示意图。

图3是本申请实施例中提取声学特征的示意图。

图4是本申请实施例中长短期记忆网络的多层架构示例图。

图5是本申请实施例中通过多层架构的长短期记忆网络获取声纹特征的示意图。

图6是本申请实施例提供的音频校验方法的另一流程示意图

图7是本申请实施例提供的音频校验装置的结构示意图。

图8是本申请实施例提供的电子设备的结构示意图。

图9是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例首先提供一种音频校验方法，该音频校验方法的执行主体可以是本申请实施例提供的电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，且专用语音识别芯片的功耗小于处理器的功耗，该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的音频校验方法的流程示意图，其中，当处理器休眠时，通过麦克风采集音频数据提供给专用语音识别芯片；通过专用语音识别芯片校验音频数据的文本特征，若校验通过，则唤醒处理器；将音频数据提供给处理器，并在唤醒处理器后控制专用语音识别芯片休眠；通过处理器再次校验音频数据的文本特征，若校验通过，则获取音频数据的声纹特征；将声纹特征与预设声纹特征比对得到比对结果，并执行对应比对结果的预设操作。

如图1所示，本申请实施例提供的音频校验方法的流程可以如下：

在101中，当处理器休眠时，通过麦克风采集音频数据提供给专用语音识别芯片。

应当说明的是，本申请实施例中的专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，但处理能力相对较弱。其中，专用语音识别芯片、处理器以及麦克风任意二者之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

本申请实施例中，处理器在电子设备的屏幕处于熄屏状态时休眠，而专用语音识别芯片在屏幕处于亮屏状态时休眠。此外，电子设备所包括的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)。

其中，在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态)，电子设备通过麦克风对外部的声音进行采集，假设麦克风为模拟麦克风，那么将采集到模拟的音频数据，此时需要将模拟的音频数据进行模数转换，得到数字化的音频数据，用于后续处理。比如，电子设备可以在通过麦克风采集到外部的模拟音频数据后，以16KHz的采样频率对该模拟音频数据进行采样，得到数字化的音频数据。

本领域普通技术人员可以理解的是，若电子设备所包括的麦克风为数字麦克风，那么将直接采集到数字化的音频数据，无需再进行模数转换。

在采集到外部的音频数据之后，电子设备将采集到的音频数据提供给专用语音识别芯片。

在102中，通过专用语音识别芯片校验音频数据的文本特征，若校验通过，则唤醒处理器。

本申请实施例中，在将采集到外部的音频数据提供给专用语音识别芯片之后，电子设备进一步通过专用语音识别芯片上运行的第一校验算法校验该音频数据的文本特征，得到校验结果。

通俗的说，校验音频数据的文本特征也即是校验音频数据中是否包括预设关键词，只要音频数据包括预设关键词，其文本特征将校验通过，而不论该预设关键词由谁说出。比如，音频数据中包括了预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)设置的预设关键词，但是该预设关键词由用户A说出，而不是预设用户，专用语音识别芯片在基于第一校验算法校验音频数据的文本特征时，此时也将校验通过。

本申请实施例中，电子设备在通过专用语音识别芯片校验前述音频数据的文本特征通过时，通过专用语音识别芯片与处理器之间的通信连接发送预设的中断信号至处理器，以唤醒处理器。

应当说明的是，若前述音频数据的文本特征未校验通过，电子设备将继续将通过麦克风采集外部的音频数据提供给专用语音识别芯片进行校验，直至校验通过。

在103中，将音频数据提供给处理器，并在唤醒处理器后控制专用语音识别芯片休眠。

其中，处理器将被来自专用语音识别芯片的中断信号唤醒，并返回指示信息至专用语音识别芯片，指示其当前已被唤醒。

相应的，电子设备在专用语音识别芯片接收到处理器唤醒后所返回的指示信息时，通过专用语音识别芯片与处理器之间的通信连接，将前述音频数据提供给处理器。在将前述音频数据提供给处理器之后，电子设备即控制专用语音识别芯片休眠。

在104中，通过处理器再次校验音频数据的文本特征，若校验通过，则获取音频数据的声纹特征。

在将前述音频数据提供给处理器之后，电子设备进一步通过处理器运行的第二校验算法再次校验该音频数据的文本特征。其中，专用语音识别芯片运行的第一校验算法与处理器运行的第二校验算法可以相同，也可以不同，本申请实施例中对此不做具体限制。比如，第一校验算法可以为基于深度卷积神经网络的校验算法，第二校验算法可以为基于长短期记忆的循环神经网络。

本申请实施例中，在通过处理器校验前述音频数据的文本特征通过时，电子设备进一步获取前述音频数据的声纹特征。

应当说明的是，在实际生活中，每个人说话时的声音都有自己的特点，熟悉的人之间，可以只听声音而相互辨别出来。这种声音的特点就是声纹特征，声纹特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。第二个决定声纹特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

在105中，通过处理器对获取到的声纹特征进行校验，得到校验结果。

本申请实施例中，电子设备在获取到前述音频数据的声纹特征之后，进一步通过处理器对获取到的声纹特征进行校验。其中，电子设备将获取的声纹特征与预设的校验声纹特征进行比对，校验声纹特征为预设用户说出预设关键词的音频数据的声纹特征，若比对一致，则校验通过，否则校验失败。

本申请实施例中，电子设备可以根据前述声纹特征与校验声纹特征之间的相似度来判定二者是否比对一致。比如，设置有预设相似度(可由本领域普通技术人员根据实际需要取经验值)，当前述声纹特征与校验声纹特征之间的相似度达到预设相似度时，即判定二者比对一致，否则比对不一致。

此外，电子设备在通过处理器完成对前述声纹特征的校验，并得到校验结果之后，还可以执行该校验结果所对应的预设操作。应当说明的是，本申请实施例中对于预设操作为何种操作不做具体限制，可由本领域普通技术人员根据实际需要预先配置，比如，预设操作可以配置为亮屏操作，当校验通过，且当前处于熄屏状态时，电子设备执行亮屏操作；又比如，预设操作可以配置为解锁操作，当校验通过，且当前处于锁定状态时，电子设备执行解锁操作。

由上可知，本申请实施例中，电子设备包括麦克风、专用语音识别芯片和处理器，且专用语音识别芯片的功耗小于处理器的功耗，可以在处理器休眠期间通过麦克风采集音频数据提供给专用语音识别芯片，并通过专用语音识别芯片对音频数据的文本特征进行一级校验，并在校验通过时唤醒处理器，以及控制专用语音识别芯片休眠，然后再通过处理器对音频数据的文本特征进行二级校验，若二级校验通过，则进一步提取音频数据的声纹特征进行校验，得到校验结果。本申请中利用专用语音识别芯片和处理器对音频数据的文本特征进行两次校验，以及利用处理器对音频数据的声纹特征进行校验，通过这种多级校验的方式，能够确保对音频数据校验的准确性，并且无需处理器持续处于唤醒状态，还能够降低音频校验的功耗。

在一实施例中，“通过处理器获取音频数据的声纹特征”，包括：

(1)通过处理器获取音频数据的声学特征；

(2)通过处理器将声学特征输入预先训练的长短期记忆网络中，得到长短期记忆网络输出的对应声学特征的声纹特征。

应当说明的是，本申请实施例所述例中预先训练有长短期记忆网络，该长短期记忆网络以声学特征为输入，以对应的D-vector特征向量为输出，本申请实施例则将长短期记忆网络中输出的对应声学特征的D-vector特征向量作为前述音频数据的声纹特征。其中，在训练长短期记忆网络时，可以获取到样本声学特征，以及对样本声学特征的标注值，然后将样本声学特征输入到初始的长短期记忆网络中，并以样本声学特征的标注值为寻优方向进行训练，得到训练后的长短期记忆网络。

长短期记忆网络是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，其别于递归神经网络的地方就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入cell当中，可以根据规则来判断是否有用。只有符合规则的信息才会留下，不符规则的信息则通过遗忘门被遗忘。当确定了长短期记忆网络的输入和寻优的输出，经过大量的携带标注值的样本声学特征对长短期记忆网络进行训练，确定长短期记忆网络的规则，即可得到训练后的长短期记忆网络。

应当说明的是，根据用于训练长短期记忆网络的样本声学特征类型的不同，电子设备在通过处理器获取音频数据的声纹特征时，需要获取的音频数据的声学特征的类型也不相同。

比如，训练长短期记忆网络时采用的样本声学特征为梅尔频率倒谱系数，则相应需要获取音频数据的梅尔频率倒谱系数作为输入长短期记忆网络的声学特征，以此类推。

电子设备在通过处理器获取到前述音频数据的声学特征之后，将获取到的声学特征输入到的预先训练的长短期记忆网络中，得到长短期记忆网络输出的声纹特征。

比如，请参照图2，其中，(x1、x2、x3……xT)表示获取到音频数据的声学特征，其中，x1表示音频数据分帧得到的第一个音频帧的声学特征，x2表示音频数据分帧得到的第二个音频帧的声学特征，以此类推；(h1、h2、h3……hT)表示长短期记忆网络输出的前述音频数据的D-vector特征向量，直接将其作为前述音频数据的声纹特征，其中，h1表示音频数据分帧得到的第一个音频帧的声纹特征，h2表示音频数据分帧得到的第二个音频帧的声纹特征。

本申请实施例中，“通过处理器获取音频数据的声学特征”，包括：

通过处理器获取音频数据的梅尔频率倒谱系数，并将获取到的梅尔频率倒谱系数设为前述音频数据声学特征。

示例性的，请参照图3，电子设备首先通过处理器对前述音频数据进行预处理，比如，前述音频数据进行高通滤波，数学表达式为：H(z)＝1-az^-1，其中H(z)表示滤波后的前述音频数据，z表示滤波前的前述音频数据，a是修正系数，一般取0.95-0.97；然后对滤波后的前述音频数据进行分帧加窗处理，以平滑前述音频数据分帧得到的音频帧的边缘，比如采用汉明窗的形式加窗然后，对加窗后的音频帧进行傅里叶变换，比如快速傅里叶变换，再进行梅尔频率倒谱系数的提取，数学表达式为其中F_mel(f)表示获取到的梅尔频率倒谱系数，f为傅里叶变换后的频点。

在一实施例中，长短期记忆网络包括多个级联的子长短期记忆网络，通过处理器将声学特征输入预先训练的长短期记忆网络中，得到长短期记忆网络输出的对应声学特征的声纹特征，包括：

(1)通过处理器将声学特征输入多个级联的子长短期记忆网络中的首个子长短期记忆网络中，并获取首个子长短期记忆网络的输出向量；

(2)通过处理器将首个子长短期记忆网络的输出向量作为其级联的下一个子长短期记忆网络的输入，并获取下一个子长短期记忆网络的输出向量，直至获取到多个级联的子长短期记忆网络中的末尾子长短期记忆网络的输出向量；

(3)通过处理器利用末尾子长短期记忆网络的输出向量得到声纹特征。

应当说明的是，对于子短期记忆网络的具体个数，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行设置。

示例性的，请参照图4，本申请实施例中，长短期记忆网络由三个子长短期记忆网络级联而成，分别为第一子长短期记忆网络、第二子长短期记忆网络以及第三子长短期记忆网络。

电子设备在通过处理器获取到前述音频数据的声学特征(x1、x2、x3……xT)之后，将获取到的声学特征(x1、x2、x3……xT)输入到第一子长短期记忆网络(即长短期记忆网络的首个子长短期记忆网络)，并获取到第一子长短期记忆网络的输出向量(f1、f2、f3、……fT)；然后将第一子长短期记忆网络的输出向量(f1、f2、f3、……fT)作为第二子长短期记忆网络(即首个子长短期记忆网络级联的下一个子长短期记忆网络)的输入，输入到第二子长短期记忆网络中，并获取到第二子长短期记忆网络的输出向量(e1、e2、e3、……eT)；然后再将第二子长短期记忆网络的输出向量(e1、e2、e3、……eT)作为第三子长短期记忆网络(即长短期记忆网络的末尾子长短期记忆网络)的输入，输入到第三子长短期记忆网络中，并获取到第三子长短期记忆网络的输出向量(h1、h2、h3……hT)；最后，电子设备根据第三子长短期记忆网络的输出向量(h1、h2、h3……hT)得到前述音频数据的声纹特征，比如，直接将第三子长短期记忆网络的输出向量(h1、h2、h3……hT)作为前述音频数据的声纹特征。

在一实施例中，“通过处理器利用末尾子长短期记忆网络的输出向量得到声纹特征”，包括：

(1)通过处理器分别从末尾子长短期记忆网络的之外的其它子长短期记忆网络的输出向量中抽取部分向量组成新的向量；

(2)基于新的向量，通过处理器利用注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重；

(3)通过处理器利用目标权重对末尾子长短期记忆网络的输出向量进行加权，并将得到的加权结果设为声纹特征。

本申请实施例中，为了能够更好的结合低层的特征和语音信息，使得长短期记忆网络的泛化能力能够得到更好的发挥。本申请实施例中进一步结合各层子长短期记忆网络的输出来得到声纹特征。

其中，电子设备通过处理器分别从末尾子长短期记忆网络的之外的其它子长短期记忆网络的输出向量中抽取部分向量组成新的向量；然后基于新的向量，通过注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重；最后根据目标权重对末尾子长短期记忆网络的输出向量进行加权，并将得到的加权结果设为声纹特征。

其中，“基于新的向量，通过处理器利用注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重”，包括：

(1)通过处理器从预设的映射函数集中选取一个目标映射函数；

(2)通过处理器基于目标映射函数对新的向量进行映射，得到标量权重；

(3)通过处理器对标量权重进行归一化处理，得到目标权重。

本申请实施例中，预先提供有映射函数集，该映射函数集中包括多个映射函数，用于描述向量到权重的映射关系，如下：

(1)a_t＝g_BO(h_t)＝b_t；

(2)a_t＝g_L(h_t)＝w_t ^Th_t+b_t；

(3)a_t＝g_SL(h_t)＝w^Th_t+b；

(4)a_t＝g_NL(h_t)＝V_t ^Ttanh(w_t ^Th_t+b_t)；

(5)a_t＝g_SNL(h_t)＝V^Ttanh(w^Th_t+b)；

其中，w为m*m矩阵，b和v为m维向量，三者均通过预先训练得到。

电子设备在基于新的向量，通过通过处理器利用注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重时，首先从预设的映射函数集中选取一个目标映射函数，比如，可以随机选取一个映射函数作为目标映射函数，然后，基于目标映射函数对新的向量进行映射，得到标量权重；再对标量权重进行归一化处理，得到目标权重。

示例性的，继续以图4所示的长短期记忆网络的架构为例，请结合参照图5，末尾子长短期记忆网络为第三子长短期记忆网络，末尾子长短期记忆网络的之外的其它子长短期记忆网络即第一子长短期记忆网络和第二子长短期记忆网络，假设第一子长短期记忆网络的输出向量为输出向量1，第二子长短期记忆网络的输出向量为输出向量2，电子设备可以通过处理器取出输出向量1的上半部分，以及取出输出向量2的下半部分，组成向量3；然后基于该向量3，利用注意力机制估计向量3中各子向量对应的音频帧(即音频数据分帧得到的音频帧)的标量权重a_t，t∈(1,T)，T为前述音频数据分帧得到的音频帧的个数；然后，电子设备通过处理器对标量权重a_t进行归一化处理，得到归一化后的目标权重作为用于对输出向量3进行加权的权重；最后，电子设备通过处理器利用归一化后的目标权重k_t对输出向量3进行加权，并将得到的加权结果设为声纹特征。

本申请实施例通过这种方式可以融合低维特征和高位特征，使得长短期记忆网络有更好的泛化能力。

在一实施例中，“当处理器休眠时，通过麦克风采集音频数据提供给专用语音识别芯片”之前，还包括：

(1)通过麦克风获取预设用户多次说出包括预设关键词的预设音频数据，得到多个预设音频数据；

(2)通过处理器分别获取多个预设音频数据的声纹特征，得到多个预设声纹特征；

(3)通过处理器获取多个预设声纹特征的声纹特征均值，将声纹特征均值作为用于校验前述音频数据的声纹特征的校验声纹特征；

“通过处理器对音频数据的声纹特征进行校验，得到校验结果”包括：

(4)将前述音频数据的声纹特征与校验声纹特征进行比对，若比对一致，则校验通过，否则校验失败。

本申请实施例中，电子设备可以输出提示信息，利用该提示信息提示预设用户多次说出包括预设关键词的预设音频数据，然后，电子设备即通过麦克风采集预设用户多次说出包括预设关键词的预设音频数据，从而得到多个预设音频数据。

在获取到包括预设关键词的多个预设音频数据之后，电子设备通过处理器分别获取多个预设音频数据的声纹特征，得到多个预设声纹特征。其中，对于如何获取预设音频数据的声纹特征，此处不再赘述，可参照以上实施例中获取音频数据的声纹特征的方式相应实施。

在获取到多个预设音频数据的预设声纹特征之后，电子设备进一步通过处理器获取这多个声纹特征的声纹特征均值，将该声纹特征均值作为用于校验前述音频数据的声纹特征的校验声纹特征，用于后续的音频校验。

由此，在通过处理器对音频数据的声纹特征进行校验时，电子设备可以将前述声纹特征与校验声纹特征进行比对，若比对一致则校验通过，否则校验设备。

其中，电子设备可以获取前述声纹特征与校验声纹特征之间的相似度来衡量二者是否一致，应当说明的是，对于采用何种相似度来描述前述声纹特征以及校验声纹特征之间是否一致，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要选取。

比如，本申请实施例中，电子设备可以计算前述声纹特征与校验声纹特征之间的余弦相似度，计算方式为：

P＝w*cos(V1，V2)+b；

其中，V1表示从前述音频数据中获取的声纹特征，V2表示校验声纹特征，P表示二者声纹特征之间的余弦相似度，w和b为可变参数，可通过训练得到。

图6为本申请实施例提供的音频校验方法的另一流程示意图。该音频校验方法应用于本申请提供的电子设备，该电子设备包括专用语音识别芯片、处理器和麦克风，如图6所示，本申请实施例提供的音频校验方法的流程可以如下：

在201中，电子设备通过麦克风获取预设用户多次说出包括预设关键词的预设音频数据，得到多个预设音频数据。

在202中，电子设备通过处理器分别获取多个预设音频数据的声纹特征，得到多个预设声纹特征。

在获取到包括预设关键词的多个预设音频数据之后，电子设备通过处理器调用预先训练的多层长短期局域网络来获取多个预设音频数据的声纹特征，得到多个预设声纹特征。

在203中，电子设备通过处理器获取多个预设声纹特征的声纹特征均值。

在获取到的多个预设音频数据的声纹特征之后，电子设备进一步通过处理器获取多个预设声纹特征的声纹特征均值，用于对候选获取的音频数据的声纹特征进行校验。

在204中，当处理器休眠时，电子设备通过麦克风采集音频数据提供给专用语音识别芯片。

本申请实施例中，处理器在电子设备的屏幕处于熄屏状态时休眠，而专用语音识别芯片在屏幕处于亮屏状态时休眠。

在205中，电子设备通过专用语音识别芯片校验音频数据的文本特征，若校验通过，则唤醒处理器。

在206中，电子设备将音频数据提供给处理器，并在唤醒处理器后控制专用语音识别芯片休眠。

在207中，电子设备通过处理器再次校验音频数据的文本特征，若校验通过，则获取音频数据的梅尔频率倒谱系数作为声学特征。

本申请实施例中，在通过处理器校验前述音频数据的文本特征通过时，电子设备进一步获取前述音频数据的声学特征。

应当说明的是，本申请实施例所述例中预先训练有多层长短期记忆网络，该多层长短期记忆网络以声学特征为输入，以对应的D-vector特征向量为输出，本申请实施例则将多层长短期记忆网络中输出的对应声学特征的D-vector特征向量作为声纹特征。其中，在训练多层长短期记忆网络时，可以获取到样本声学特征，以及对样本声学特征的标注值，然后将样本声学特征输入到初始的长短期记忆网络中，并以样本声学特征的标注值为寻优方向进行训练，得到训练后的长短期记忆网络，如此训练得到多个长短期记忆网络，并将多个长短期记忆网络级联起来得到多层长短期记忆网络。

应当说明的是，根据用于训练长短期记忆网络的样本声学特征类型的不同，电子设备在通过处理器获取音频数据的声学特征的类型也不相同。比如，本申请实施例中，训练时采用梅尔频率倒谱系数作为样本声学特征训练得到，那么电子设备也需要获取音频数据的梅尔频率倒谱系数作为声学特征。比如，获取到音频数据的声学特征为(x1、x2、x3……xT)，其中，T表示前述音频数据分帧得到的音频帧的各项，相应的，x1表示音频数据分帧得到的第一个音频帧的声学特征，x2表示音频数据分帧得到的第二个音频帧的声学特征，以此类推。

在208中，电子设备通过处理器将声学特征输入预先训练的多层长短期记忆网络中，得到多层长短期记忆网络输出的对应声学特征的声纹特征。

电子设备在通过处理器获取到前述音频数据的声学特征(x1、x2、x3……xT)之后，将获取到的声学特征(x1、x2、x3……xT)输入到第一子长短期记忆网络，并获取到第一子长短期记忆网络的输出向量(f1、f2、f3、……fT)；然后将第一子长短期记忆网络的输出向量(f1、f2、f3、……fT)作为第二子长短期记忆网络的输入，输入到第二子长短期记忆网络中，并获取到第二子长短期记忆网络的输出向量(e1、e2、e3、……eT)；然后再将第二子长短期记忆网络的输出向量(e1、e2、e3、……eT)作为第三子长短期记忆网络的输入，输入到第三子长短期记忆网络中，并获取到第三子长短期记忆网络的输出向量(h1、h2、h3……hT)；最后，电子设备根据第三子长短期记忆网络的输出向量(h1、h2、h3……hT)得到前述音频数据的声纹特征。

在209中，电子设备通过处理器利用声纹特征均值校验声纹特征，得到校验结果。

其中，电子设备将获取的声纹特征与声纹特征均值进行比对，若比对一致，则校验通过，否则校验失败。其中，电子设备可以根据前述声纹特征与声纹特征均值之间的相似度来判定二者是否比对一致。比如，设置有预设相似度(可由本领域普通技术人员根据实际需要取经验值)，当前述声纹特征与声纹特征均值之间的相似度达到预设相似度时，即判定二者比对一致，否则比对不一致。

请参照图7，图7为本申请实施例提供的音频校验装置的结构示意图。该音频校验装置可以应用于电子设备，该电子设备包括麦克风、专用语音识别芯片和处理器。音频校验装置可以包括音频采集模块301、一级校验模块302、音频传输模块303、二级校验模块304以及声纹校验模块305，其中，

音频采集模块301，用于当处理器休眠时，通过麦克风采集音频数据提供给专用语音识别芯片；

一级校验模块302，用于通过专用语音识别芯片校验音频数据的文本特征，若校验通过，则唤醒处理器；

音频传输模块303，用于将音频数据提供给处理器，并在唤醒处理器后控制专用语音识别芯片休眠；

二级校验模块304，用于通过处理器再次校验音频数据的文本特征，若校验通过，则获取音频数据的声纹特征；

声纹校验模块305，用于通过处理器对获取到的声纹特征进行校验，得到校验结果。

在一实施例中，在通过处理器获取音频数据的声纹特征时，二级校验模块304用于：

通过处理器获取音频数据的声学特征；

通过处理器将声学特征输入预先训练的长短期记忆网络中，得到长短期记忆网络输出的对应声学特征的声纹特征。

在一实施例中，长短期记忆网络包括多个级联的子长短期记忆网络，在通过处理器将声学特征输入预先训练的长短期记忆网络中，得到长短期记忆网络输出的对应声学特征的声纹特征时，二级校验模块304用于：

通过处理器将声学特征输入多个级联的子长短期记忆网络中的首个子长短期记忆网络中，并获取首个子长短期记忆网络的输出向量；

通过处理器将首个子长短期记忆网络的输出向量作为其级联的下一个子长短期记忆网络的输入，并获取下一个子长短期记忆网络的输出向量，直至获取到多个级联的子长短期记忆网络中的末尾子长短期记忆网络的输出向量；

通过处理器利用末尾子长短期记忆网络的输出向量得到声纹特征。

在实施例中，在通过处理器利用末尾子长短期记忆网络的输出向量得到声纹特征时，二级校验模块304用于：

通过处理器分别从末尾子长短期记忆网络的之外的其它子长短期记忆网络的输出向量中抽取部分向量组成新的向量；

基于新的向量，通过处理器利用注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重；

通过处理器利用目标权重对末尾子长短期记忆网络的输出向量进行加权，并将得到的加权结果设为声纹特征。

在一实施例中，在基于新的向量，通过处理器利用注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重时，二级校验模块304用于：

通过处理器从预设的映射函数集中选取一个目标映射函数；

通过处理器基于目标映射函数对新的向量进行映射，得到标量权重；

通过处理器对标量权重进行归一化处理，得到目标权重。

在一实施例中，在获取音频数据的声学特征时，二级校验模块304用于：

在一实施例中，音频校验装置还包括校验特征设置模块，当处理器休眠时，通过麦克风采集音频数据提供给专用语音识别芯片之前，用于：

通过麦克风获取预设用户多次说出包括预设关键词的预设音频数据，得到多个预设音频数据；

通过处理器分别获取多个预设音频数据的声纹特征，得到多个预设声纹特征；

通过处理器获取多个预设声纹特征的声纹特征均值，将声纹特征均值作为用于校验前述音频数据的声纹特征的校验声纹特征；

在通过处理器对音频数据的声纹特征进行校验，得到校验结果时，声纹校验模块305用于：

将前述音频数据的声纹特征与校验声纹特征进行比对，若比对一致，则校验通过，否则校验失败。

应当说明的是，本申请实施例提供的音频校验装置与上文实施例中的音频校验方法属于同一构思，在音频校验装置上可以运行音频校验方法实施例中提供的任一方法，其具体实现过程详见特征获取方法实施例，此处不再赘述。

本申请实施例还提供一种存储介质，其上存储有计算机程序，当其存储的计算机程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的音频校验方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read OnlyMemory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图8，电子设备包括处理器401、存储器402、麦克风403和专用语音识别芯片404。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

专用语音识别芯片402是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器401，具有更低的功耗，但处理能力相对较弱。

其中，存储器402中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401、专用语音识别芯片402404对存储器402的访问。处理器401或者专用语音识别芯片402404通过调用存储器402中的计算机程序，用于执行：

当处理器401休眠时，专用语音识别芯片402通过麦克风403采集音频数据；

专用语音识别芯片402校验音频数据的文本特征，若校验通过，则唤醒处理器401；

专用语音识别芯片402将音频数据提供给处理器401，并在唤醒处理器401后休眠；

处理器401再次校验音频数据的文本特征，若校验通过，则获取音频数据的声纹特征；

处理器401对获取到的声纹特征进行校验，得到校验结果。

请参照图9，图9为本申请实施例提供的电子设备的另一结构示意图，与图8所示电子设备的区别在于，电子设备还包括输入单元405和输出单元406等组件。

其中，输入单元405可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元406可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，处理器401或者专用语音识别芯片402404通过调用存储器402中的计算机程序，用于执行：

处理器401对获取到的声纹特征进行校验，得到校验结果。

在一实施例中，在获取音频数据的声纹特征时，处理器401可以执行：

获取音频数据的声学特征；

将声学特征输入预先训练的长短期记忆网络中，得到长短期记忆网络输出的对应声学特征的声纹特征。

在一实施例中，长短期记忆网络包括多个级联的子长短期记忆网络，在将声学特征输入预先训练的长短期记忆网络中，得到长短期记忆网络输出的对应声学特征的声纹特征时，处理器401可以执行：

将声学特征输入多个级联的子长短期记忆网络中的首个子长短期记忆网络中，并获取首个子长短期记忆网络的输出向量；

将首个子长短期记忆网络的输出向量作为其级联的下一个子长短期记忆网络的输入，并获取下一个子长短期记忆网络的输出向量，直至获取到多个级联的子长短期记忆网络中的末尾子长短期记忆网络的输出向量；

利用末尾子长短期记忆网络的输出向量得到声纹特征。

在一实施例中，在利用末尾子长短期记忆网络的输出向量得到声纹特征时，处理器401可以执行：

通过处理器401分别从末尾子长短期记忆网络的之外的其它子长短期记忆网络的输出向量中抽取部分向量组成新的向量；

基于新的向量，通过处理器401利用注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重；

通过处理器401利用目标权重对末尾子长短期记忆网络的输出向量进行加权，并将得到的加权结果设为声纹特征。

在一实施例中，在基于新的向量，通过处理器401利用注意力机制估计得到用于对末尾子长短期记忆网络的输出向量进行加权的目标权重时，处理器401可以执行：

从预设的映射函数集中选取一个目标映射函数；

基于目标映射函数对新的向量进行映射，得到标量权重；

对标量权重进行归一化处理，得到目标权重。

在一实施例中，在获取音频数据的声学特征时，处理器401可以执行：

获取音频数据的梅尔频率倒谱系数，并将获取到的梅尔频率倒谱系数设为前述音频数据声学特征。

在一实施例中，当处理器401休眠时，专用语音识别芯片402通过麦克风403采集音频数据提供给专用语音识别芯片402之前，处理器401可以执行：

通过麦克风403获取预设用户多次说出包括预设关键词的预设音频数据，得到多个预设音频数据；

分别获取多个预设音频数据的声纹特征，得到多个预设声纹特征；

获取多个预设声纹特征的声纹特征均值，将声纹特征均值作为用于校验前述音频数据的声纹特征的校验声纹特征；

在对音频数据的声纹特征进行校验，得到校验结果时，处理器401可以执行：

应当说明的是，本申请实施例提供的电子设备与上文实施例中的音频校验方法属于同一构思，在电子设备上可以运行音频校验方法实施例中提供的任一方法，其具体实现过程详见特征获取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的音频校验方法而言，本领域普通测试人员可以理解实现本申请实施例的音频校验方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如音频校验方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种音频校验方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频校验方法，应用于电子设备，其特征在于，所述电子设备包括麦克风、专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验方法包括：

通过所述处理器对所述声纹特征进行校验，得到校验结果。

2.根据权利要求1所述的音频校验方法，其特征在于，所述通过所述处理器获取所述音频数据的声纹特征，包括：

通过所述处理器获取所述音频数据的声学特征；

通过所述处理器将所述声学特征输入预先训练的长短期记忆网络中，得到所述长短期记忆网络输出的对应所述声学特征的声纹特征。

3.根据权利要求2所述的音频校验方法，其特征在于，所述长短期记忆网络包括多个级联的子长短期记忆网络，所述通过所述处理器将所述声学特征输入预先训练的长短期记忆网络中，得到所述长短期记忆网络输出的对应所述声学特征的声纹特征，包括：

通过所述处理器将所述声学特征输入所述多个级联的子长短期记忆网络中的首个子长短期记忆网络中，并获取所述首个子长短期记忆网络的输出向量；

通过所述处理器将所述首个子长短期记忆网络的输出向量作为其级联的下一个子长短期记忆网络的输入，并获取所述下一个子长短期记忆网络的输出向量，直至获取到所述多个级联的子长短期记忆网络中的末尾子长短期记忆网络的输出向量；

通过所述处理器利用所述末尾子长短期记忆网络的输出向量得到所述声纹特征。

4.根据权利要求3所述的音频校验方法，其特征在于，所述通过处理器利用所述末尾子长短期记忆网络的输出向量得到所述声纹特征，包括：

通过所述处理器分别从所述末尾子长短期记忆网络的之外的其它子长短期记忆网络的输出向量中抽取部分向量组成新的向量；

基于所述新的向量，通过所述处理器利用注意力机制估计得到用于对所述末尾子长短期记忆网络的输出向量进行加权的目标权重；

通过所述处理器利用所述目标权重对所述末尾子长短期记忆网络的输出向量进行加权，并将得到的加权结果设为所述声纹特征。

5.根据权利要求4所述的音频校验方法，其特征在于，所述基于所述新的向量，通过所述处理器利用注意力机制估计得到用于对所述末尾子长短期记忆网络的输出向量进行加权的目标权重，包括：

通过所述处理器从预设的映射函数集中选取一个目标映射函数；

通过所述处理器利用所述目标映射函数对所述新的向量进行映射，得到标量权重；

通过所述处理器对所述标量权重进行归一化处理，得到所述目标权重。

6.根据权利要求2-5任一项所述的音频校验方法，其特征在于，所述获取所述音频数据的声学特征，包括：

通过所述处理器获取所述音频数据的梅尔频率倒谱系数，并将所述梅尔频率倒谱系数设为所述声学特征。

7.根据权利要求1-5任一项所述的音频校验方法，其特征在于，所述当所述处理器休眠时，通过所述麦克风采集音频数据提供给所述专用语音识别芯片之前，还包括：

通过所述麦克风获取预设用户多次说出包括预设关键词的预设音频数据，得到多个预设音频数据；

通过所述处理器获取所述多个预设音频数据的声纹特征，得到多个预设声纹特征；

通过所述处理器获取所述多个预设声纹特征的声纹特征均值，将所述声纹特征均值设为用于校验所述声纹特征的校验声纹特征；

所述通过所述处理器对所述音频数据的声纹特征进行校验，得到校验结果包括：

将所述声纹特征与所述校验声纹特征进行比对，若比对一致，则校验通过，否则校验失败。

8.一种音频校验装置，应用于电子设备，其特征在于，所述电子设备包括麦克风、专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验装置包括：

9.一种电子设备，其特征在于，包括麦克风、专用语音识别芯片、处理器和存储器，所述存储器中存储有计算机程序，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述计算机程序被所述专用语音识别芯片和处理器调用时用于执行，

所述处理器对获取到的声纹特征进行校验，得到校验结果。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器加载以执行权利要求1-7任一项所述的音频校验方法。