CN110580897A

CN110580897A - 音频校验方法、装置、存储介质及电子设备

Info

Publication number: CN110580897A
Application number: CN201910786492.4A
Authority: CN
Inventors: 陈喆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-12-17
Anticipated expiration: 2039-08-23
Also published as: CN110580897B

Abstract

本申请实施例公开了一种音频校验方法、装置、存储介质及电子设备，其中，电子设备包括处理器和专用语音识别芯片，首先采集当前所处场景的音频数据，并将音频数据提供给专用语音识别芯片；然后通过专用语音识别芯片加载预先训练的场景识别模型进行场景识别，得到当前所处场景的场景识别结果；再将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略；最后按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果。由此，本申请能够根据电子设备所处场景不同采用与之对应的音频校验策略进行音频校验，不仅提高了音频校验的灵活性，还提高了音频校验的准确性。

Description

音频校验方法、装置、存储介质及电子设备

技术领域

本申请涉及音频识别技术领域，具体涉及一种音频校验方法、装置、存储介质及电子设备。

背景技术

目前，通过音频识别技术，用户可以在不方便直接操控电子设备的情况下通过语音来唤醒语音交互应用，进而通过与语音交互应用之间的语音交互实现对电子设备的控制。现有技术在进行语音识别时，通常采用固定的音频校验策略对采集的音频数据进行校验，不够灵活。

发明内容

本申请实施例提供了一种音频校验方法、装置、存储介质及电子设备，不仅能够提高电子设备进行音频校验的准确性，还能够提高音频校验的准确性。

本申请实施例提供音频校验方法，应用于电子设备，所述电子设备包括专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，该音频校验方法包括：

采集当前所处场景的音频数据，并将所述音频数据提供给所述专用语音识别芯片；

通过所述专用语音识别芯片加载预先训练的场景识别模型，并通过所述场景识别模型对所述音频数据进行场景识别，得到所述当前所处场景的场景识别结果；

将所述场景识别结果提供给所述处理器，并通过所述处理器确定对应所述场景识别结果的目标音频校验策略；

按照所述目标音频校验策略，通过所述处理器和/或所述专用语音识别芯片对所述音频数据进行校验，得到校验结果。

本申请实施例提供的音频校验装置，应用于电子设备，所述电子设备包括专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，该音频校验装置包括：

音频采集模块，用于采集当前所处场景的音频数据，并将所述音频数据提供给所述专用语音识别芯片；

场景识别模块，用于通过所述专用语音识别芯片加载预先训练的场景识别模型，并通过所述场景识别模型对所述音频数据进行场景识别，得到所述当前所处场景的场景识别结果；

策略确定模块，用于将所述场景识别结果提供给所述处理器，并通过所述处理器确定对应所述场景识别结果的目标音频校验策略；

音频校验模块，用于按照所述目标音频校验策略，通过所述处理器和/或所述专用语音识别芯片对所述音频数据进行校验，得到校验结果。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器和/或专用语音识别芯片加载时执行如本申请任一实施例提供的音频校验方法。

本申请实施例提供的电子设备，包括处理器、存储器和专用语音识别芯片，所述存储器存有计算机程序，所述处理器和/或所述专用语音识别芯片通过加载所述计算机程序，用于执行如本申请任一实施例提供的音频校验方法。

本申请根据电子设备所处场景不同采用与之对应的音频校验策略进行音频校验，不仅提高了音频校验的灵活性，还提高了音频校验的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的音频校验方法的一流程示意图。

图2是本申请实施例中调用一级校验模型和二级校验模型的示意图。

图3是本申请实施例中生成的语谱图的示意图。

图4是本申请实施例中输出提示信息的示意图。

图5是本申请实施例提供的音频校验方法的另一流程示意图。

图6是本申请实施例提供的音频校验装置的一结构示意图。

图7是本申请实施例提供的电子设备的一结构示意图。

图8是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例涉及一种音频校验方法、音频校验装置、存储介质以及电子设备，其中，该音频校验方法的执行主体可以是本申请实施例提供的音频校验装置，或者集成了该音频校验装置的电子设备，其中该音频校验装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参照图1，图1为本申请实施例提供的音频校验方法的流程示意图，本申请实施例提供的音频校验方法的具体流程可以如下：

101，采集当前所处场景的音频数据，并将音频数据提供给专用语音识别芯片。

应当说明的是，在本申请实施例中，电子设备包括至少包括麦克风、处理器和专用语音识别芯片，且该专用语音识别芯片的功耗小于处理器的功耗。

其中，麦克风用于对外部的声音进行采集，得到对应的音频数据。

处理器为适于通用处理任务的处理器，比如ARM架构的处理器。

专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，适于语音识别任务的处理。其中，专用语音识别芯片、处理器以及麦克风任意二者之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

本申请实施例中，电子设备所包括的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的外置麦克风，也可以是无线的外置麦克风)。

电子设备通过麦克风对当前所处场景的声音进行采集，假设麦克风为模拟麦克风，那么将采集到模拟的音频数据，此时需要将模拟的音频数据进行模数转换，得到数字化的音频数据，用于后续处理。比如，电子设备可以在通过麦克风采集到外部的模拟音频数据后，以16KHz的采样频率对该模拟音频数据进行采样，得到数字化的音频数据。

本领域普通技术人员可以理解的是，若电子设备所包括的麦克风为数字麦克风，那么将直接采集到数字化的音频数据，无需再进行模数转换。

相应的，在通过麦克风采集到当前所处场景的音频数据之后，电子设备将采集到的音频数据提供给专用语音识别芯片。

102，通过专用语音识别芯片加载预先训练的场景识别模型，并通过场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果。

应当说明的是，电子设备中还设置有通过机器学习技术预先训练得到的场景识别模型。其中，机器学习一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

电子设备在将采集到的音频数据提供给专用语音识别芯片之后，进一步通过专用语音识别芯片加载预先训练的场景识别模型，并利用该场景识别模型对音频数据进行场景识别，通俗的说，即利用从当前当前所处场景中采集到音频数据来对当前所处场景进行场景识别，以确定其为何种场景，得到对应的场景识别结果。

103，将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略。

在通过专用语音识别芯片加载的场景识别模型识别得到当前所处场景的场景识别结果之后，将该场景识别结果提供给处理器。

应当说明的是，本申请实施例在电子设备中还预先设置有场景和音频校验策略的对应关系，利用该场景和音频采集策略的对应关系，通过处理器确定场景识别结果所对应的音频校验策略，记为适于在当前所处场景进行音频校验的目标音频校验策略。其中，对于场景和音频校验策略之间对应关系的具体设置，可由本领域普通技术人员根据实际需要进行设置，本申请实施例中不做具体限制。

104，按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果。

其中，电子设备在通过处理器确定出对应场景识别结果的目标音频校验策略之后，即可按照该目标音频校验策略的指示，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到对应校验结果。

比如，在完成对音频数据的校验之后，若得到校验通过的校验结果，则通过处理器唤醒语音交互应用，从而利用该语音交互应用与用户进行语音交互。其中，语音交互应用又称语音助手，比如欧珀的语音助手“小欧”。

由上可知，本申请实施例中的电子设备包括处理器和专用语音识别芯片，首先采集当前所处场景的音频数据，并将音频数据提供给专用语音识别芯片；然后通过专用语音识别芯片加载预先训练的场景识别模型，并通过场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果；再将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略；最后按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果。由此，本申请能够根据电子设备所处场景不同采用与之对应的音频校验策略进行音频校验，不仅提高了音频校验的灵活性，还提高了音频校验的准确性。

在一实施例中，“按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果”，包括：

(1)通过专用语音识别芯片加载目标音频校验策略指示的一级校验模型，以及通过处理器加载目标音频校验策略指示的二级校验模型；

(2)通过一级校验模型对音频数据进行一级校验；

(3)当音频数据通过一级校验时，通过二级校验模型对音频数据进行二级校验，得到二级校验结果。

应当说明的是，本申请实施例在电子设备中预先设置有一级校验模型集合和二级校验模型集合，其中一级校验模型集合中包括多个预先在不同场景下训练得到的一级校验模型，以适于专用语音识别芯片在不同的场景下加载，从而更灵活准确的对采集的音频数据进行一级校验，二级校验模型中包括多个预先在不同场景下训练得到的二级校验模型，以适于处理器在不同的场景下加载，从而对采集的音频数据进行二级校验。

其中，目标音频校验策略用于指示适于在当前所处场景下进行音频校验的一级校验模型，以及指示适于在当前所处场景下进行音频校验的二级校验模型。这样，电子设备即可根据目标音频校验策略的指示，通过专用语音识别芯片从一级校验模型集合中加载适于在当前所处场景下进行音频校验的一级校验模型，以及通过处理器从二级校验模型集合中加载适于在当前所处场景下进行音频校验的二级校验模型。

比如，请参照图2，一级校验模型集合中包括四个一级校验模型，分别为适于在A场景进行音频校验的一级校验模型A、适于在B场景进行音频校验的一级校验模型B、适于在C场景进行音频校验的一级校验模型C以及适于在D场景进行音频校验的一级校验模型D。二级校验模型集合中包括四个二级校验模型，分别为适于在A场景进行音频校验的二级校验模型A、适于在B场景进行音频校验的二级校验模型B、适于在C场景进行音频校验的二级校验模型C以及适于在D场景进行音频校验的二级校验模型D。

假设当前所处场景为A场景，则目标音频校验策略将指示加载一级校验模型A和二级校验模型A，相应的，电子设备通过专用语音识别芯片从一级校验模型集合中加载一级校验模型A，以及通过处理器从二级校验模型集合中加载二级校验模型A；假设当前所处场景为B场景，则目标音频校验策略将指示加载一级校验模型B和二级校验模型B，相应的，电子设备通过专用语音识别芯片从一级校验模型集合中加载一级校验模型B，以及通过处理器从二级校验模型集合中加载二级校验模型B。以此类推。

电子设备在完成一级校验模型和二级校验模型的加载之后，即可通过专用语音识别芯片加载的一级校验模型对采集的音频数据进行校验，并在采集的音频数据通过一级校验之后，通过处理器加载的二级校验模型对采集的音频数据进行校验，得到对应的二级校验结果。应当说明的是，由于专用语音识别芯片的处理能力不及处理器的处理能力，适用于同一场景下的二级校验模型的大小和准确度将大于一级校验模型的大小和准确度，由此，先通过一级校验模型来对采集的音频数据进行大致的校验，在一级校验通过后，再进行二级校验，通过二级校验来确保整体的校验准确性。

其中，对采集的音频数据进行的一级校验包括文本特征和/或声纹特征的校验，对采集的音频数据进行的二级校验包括文本特征和/或声纹特征的校验。

通俗的说，对音频数据的文本特征进行校验也即是校验该音频数据中是否包括预设关键词，只要音频数据中包括语音关键词，即校验通过。比如，采集到的音频数据中包括了预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)设置的预设关键词，但是该预设关键词由用户A说出，而不是预设用户，此时也将校验通过。

而对音频数据的文本特征和声纹特征进行校验也即是校验音频数据中是否包括预设用户说出的预设关键词，若采集的音频数据中包括预设用户说出的预设关键词，则校验通过。比如，采集的音频数据包括了预设用户设置的预设关键词，且该预设关键词由预设用户说出，则该音频数据的文本特征以及声纹特征通过校验；又比如采集的音频数据包括了预设用户之外的其他用户说出的预设关键词，或者音频数据不包括任何用户说出的预设关键词，则该音频数据的文本特征和声纹特征校验失败(或者说未通过校验)。

应当说明的是，一级校验和二级校验仅用于代指校验的先后顺序，并不用于限定的校验内容，换言之，在本申请实施例中，目标一级校验模型与目标二级校验模型可以相同，也可以不同。比如，一级校验模型为基于高斯混合模型的语音校验模型，二级校验模型为基于神经网络的语音校验模型。

在一实施例中，“通过一级校验模型对音频数据进行一级校验”，包括：

(1)将音频数据输入到一级校验模型中进行评分，得到音频数据的评分分值；

(2)当评分分值达到一级校验模型对应的判别分值时，判定音频数据通过一级校验。

应当说明的是，一级校验模型可由评分函数训练得到，其中，评分函数用于将向量映射到数值，以此为约束，可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数，本发明实施例对此不做具体限制。

本申请实施例中，电子设备在通过一级校验模型对音频数据进行一级校验时，首先提取能够表征音频数据的特征向量，将该特征向量输入到一级校验模型中进行评分，得到一级校验模型对该音频数据的评分分值。

然后，电子设备比较前述评分分值以及一级校验模型对应的判别分值，若前述评分分值达到一级校验模型对应的判别分值，则电子设备判定音频数据通过一级校验。

此外，“通过二级校验模型对音频数据进行二级校验”，包括：

(1)将音频数据输入到二级校验模型中进行评分，得到音频数据的评分分值；

(2)当该评分分值达到二级校验模型对应的判别分值时，判定音频数据通过二级校验。

其中，二级校验模型同样可由评分函数训练得到。本申请实施例中，电子设备在通过二级校验模型对音频数据进行二级校验时，首先提取能够表征音频数据的特征向量，将该特征向量输入到二级校验模型中进行评分，得到二级校验模型对该音频数据的评分分值。然后，电子设备比较前述评分分值以及二级校验模型对应的判别分值，若前述评分分值达到二级校验模型对应的判别分值，则电子设备判定音频数据通过二级校验。

在一实施例中，“通过专用语音识别芯片加载目标音频校验策略指示的一级校验模型”，包括：

(1)在加载目标音频校验策略指示的一级校验模型失败时，对已加载的当前一级校验模型对应的判别分值进行调整；

(2)将调整后的当前一级校验模型作为目标音频校验策略指示的一级校验模型。

其中，存在多种加载目标一级校验模型失败的情况，比如，一级校验模型集合中不存在对应当前所处场景的目标一级校验模型，此时将加载失败。

本申请实施例中，在加载目标一级校验模型失败时，电子设备获取采集的音频数据的信噪比值，将该信噪比值与用于训练已加载的当前一级校验模型的样本音频数据的平均信噪比值进行比较，若当前采集的音频数据的信噪比值小于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值降低当前一级校验模型的判别分值，将调整后的当前一级校验模型作为目标音频校验策略指示的一级校验模型，标记加载目标音频校验策略指示的一级校验模型成功；若当前采集的音频数据的信噪比值大于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值增加当前一级校验模型的判别分值，将调整后的当前一级校验模型作为目标音频校验策略指示的一级校验模型，标记加载目标音频校验策略指示的一级校验模型成功；若当前采集的音频数据的信噪比值与当前一级校验模型对应的平均信噪比值相等，则直接将当前一级校验模型作为目标音频校验策略指示的一级校验模型，标记加载目标音频校验策略指示的一级校验模型成功。

同理，在通过处理器加载目标音频校验策略指示的二级校验模型失败时，对已加载的当前二级校验模型对应的判别分值进行调整；将调整后的当前二级校验模型作为目标音频校验策略指示的二级校验模型，标记加载目标音频校验策略指示的二级校验模型成功。

在一实施例中，“通过专用语音识别芯片加载目标音频校验策略指示的一级校验模型，以及通过处理器加载目标音频校验策略指示的二级校验模型”之后，还包括：

(1)获取当前的剩余电量，并判断剩余电量是否大于预设电量；

(2)当剩余电量小于或等于预设电量时，直接标记音频数据通过一级校验，并执行通过二级校验模型对音频数据进行二级校验。

比如，电子设备通过专用语音识别芯片加载目标音频校验策略指示的一级校验模型，以及通过处理器加载目标音频校验策略指示的二级校验模型之后，通过处理器获取当前的剩余电量，并判断剩余电量是否大于预设电量，其中，该预设电量用于限定电子设备的剩余电量是否足够持续使用到用户习惯的充电时间，具体可由电子设备根据当前距离用户习惯的充电时间的时长，以及当前的耗电速率实时算出，比如，可以直接将该时长与耗电速率的乘积作为预设电量。若剩余电量小于或等于预设电量，说明电子设备可能无法持续运行到充电时，此时，直接标记音频数据通过一级校验，无需由专用语音识别芯片对音频数据实际进行一级校验，由此，可以节省部分电量。

在一实施例中，“将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略”之前，还包括：

(1)识别处理器是否运行有对应场景识别结果的目标应用；

(2)当处理器运行有目标应用时，将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略。

应当说明的是，本申请实施例中，还根据经验预先设置有场景和该场景下通常会运行的应用之间的对应关系，比如，以驾驶场景为例，用户通常会通过电子设备运行运行地图导航类应用进行导航，则驾驶场景将对应地图导航类应用。

相应的，电子设备可通过处理器运行的应用来从侧面验证场景识别结果的准确性。其中，电子设备根据场景和应用之间的对应关系，识别处理器是否运行有场景识别结果指示的场景所对应的目标应用，当处理器运行有目标应用时，则可判定得到的场景识别结果是准确的，此时将得到的场景识别结果提供给处理器，并通过处理器确定对应该场景识别结果的目标音频校验策略，进而按照该目标音频校验策略对采集的音频数据进行校验，具体可参照以上实施例中的相关描述，此处不再赘述。

在一实施例中，“采集当前所处场景的音频数据”之前，还包括：

(1)采集预设场景的样本音频数据；

(2)提取样本音频数据的语谱图，并根据样本音频数据的语谱图构建样本训练集；

(3)构建卷积神经网络，并根据样本训练集对卷积神经网络进行训练，将训练后的卷积神经网络设为场景识别模型。

应当说明的是，本申请实施例中将电子设备所处的场景划分为两类，分别为通用场景和预设场景，其中，预设场景为一特殊场景，可由本领域普通技术人员根据实际需要选取，通用场景包括预设场景之外的所有场景，即，可以理解本申请中针对驾驶场景进行针对性校验，而对于驾驶场景之外的其它场景，则采用通用的方式进行校验。

比如，假设预设场景为驾驶场景，电子设备首先通过麦克风在驾驶场景下采集多个样本音频数据，比如，采集得到500个样本音频数据，采样率为44.1KHz。

然后，对于每一样本音频数据，电子设备按照帧长1024，重叠128，采用汉明窗对样本音频数据进行分帧加窗处理。

以帧为单位进行傅里叶变化(比如短时傅里叶变换)，以及计算能量密度，生成灰度的语谱图，比如，请参照图3，其中横轴表示时间，纵轴表示频率，灰度值表示能量值。

如上所述，对于每一样本音频数据，其将被划分为多个音频帧，同时将根据这多个音频帧提取得到多个语谱图。电子设备进一步根据提取得到的语谱图构建样本训练集。

然后，电子设备构建卷积神经网络，并利用样本训练集对构建的卷积神经网络进行训练，将训练后的卷积神经网络设为场景识别模型，该场景识别模型能够识别电子设备当前所处场景是否为驾驶场景，若不为驾驶场景，则将当前所处场景标记为通用场景。

应当说明的是，以上训练场景识别模型的操作具体由电子设备中的处理器执行。

在一实施例中，“根据场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果”，包括：

(1)提取音频数据的语谱图；

(2)将音频数据的语谱图输入场景识别模型进行评分，得到场景识别模型输出的评分分值；

(3)当评分分值达到场景识别模型对应的判别分值时，得到当前所处场景为预设场景的场景识别结果。

本申请实施例中，电子设备在根据场景识别模型对音频数据进行场景识别时，可以首先提取音频数据的语谱图，并将该语谱图输入到场景识别模型中进行评分，得到场景识别模型输出的评分分值。当该评分分值达到场景识别模型对应的判别分值(可由本领域普通技术人员根据校验取合适值)时，得到当前所处场景为预设场景的场景识别结果。

比如，本申请实施例中，场景识别模型的输出评分分值的区间为[0,1]，判别分值配置为0.6，也即是当采集的音频数据的语谱图所对应的分值达到0.8时，即得到当前所处采集为预设场景的场景识别结果。

应当说明的是，以上根据场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果操作具体由电子设备中的专用语音识别芯片执行。

在一实施例中，“按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果”之前，还包括：

(1)通过处理器输出是否按照目标音频校验策略进行校验的提示信息；

(2)当接收到按照目标音频校验策略进行校验的确认信息时，按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果。

为了避免误切换而运行用户体验，本申请实施例中，在按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果之前，还通过处理器输出是否按照目标音频校验策略进行校验的提示信息，当接收到按照目标音频校验策略进行校验的确认信息时，按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果。

比如，请参照图4，假设取得目标音频校验策略为对应驾驶场景的音频校验策略，在图4所示的提示界面中，包括提示信息“是否切换至驾驶模式”，用于提示用户是否按照驾驶场景对应的音频校验策略进行校验，还包括用于接收确认信息的“是”控件，以及用于接收拒绝信息的“否”控件。

在一实施例中，“二级校验模型包括二级文本校验模型和二级声纹校验模型，通过二级校验模型对音频数据进行二级校验”，包括：

(1)通过二级文本校验模型对音频数据的文本特征进行校验；

(2)当音频数据的文本特征通过校验时，通过二级声纹校验模型对音频数据的声纹特征进行校验；

(3)当音频数据的声纹特征通过校验时，判定音频数据通过二级校验。

本申请实施例中，二级校验模型由用于校验文本特征的二级文本校验模型和用于校验声纹特征的二级声纹校验模型组成。这样，在通过二级校验模型对音频数据进行二级校验时，电子设备首先通过二级文本校验模型对音频数据的文本特征进行校验，当音频数据的文本特征通过校验时，再通过二级声纹校验模型对音频数据的声纹特征进行校验，当音频数据的声纹特征通过校验时，即判定音频数据通过二级校验。

示例性的，二级文本校验模型为预先训练的对应预设关键词的通用背景模型，比如，可以预先采集多人(比如200人)说出预设关键词的样本音频数据，然后分别提取这些样本音频数据的声学特征(比如梅尔频率倒谱系数)，再根据这些样本音频数据的声学特征训练得到一个与预设唤醒词对应的通用背景模型。由于通用背景模型采用大量与特定人(即用户)无关的音频数据训练得到，其仅拟合人的声学特征分布，并不代表某个具体的人。

相应的，电子设备首先提取音频数据向量形式的声学特征，并将提取到的声学特征输入到通用背景模型中，由通用背景模型对该音频数据进行评分，并输出一个评分分值，当输出的评分分值达到该通用背景模型对应的判别分值时，判定该音频数据的文本特征通过校验，即该音频数据中包括预设关键词。比如，声纹特征模型的输出分值的区间为[0，1]，其对应的判别分值配置为0.45，也即是当音频数据所对应的评分分值达到0.45时，电子设备将判定该音频数据的文本特征通过校验。

二级声纹校验模型由前述通用背景模型根据用户说出预设关键词的音频数据自适应处理得到。其中，自适应处理是指将通用背景模型中的与说话人(即用户)的音频数据相近的一部分非特定说话人的声学特征作为用户的声学特征的处理方法，该自适应处理可以采用最大后验估计算法实现。

相应的，电子识别首先提取音频数据向量形式的声学特征，并将提取到的声学特征输入到声纹特征模型中，由声纹特征模型对该音频数据进行评分，并输出一个评分分值，当输出的评分分值达到该声纹特征模型对应的判别分值时，判定该音频数据的声纹特征通过校验，即该音频数据由用户说出。比如，声纹特征模型的输出分值的区间为[0，1]，其对应的判别分值配置为0.28，也即是当音频数据所对应的评分分值达到0.28时，电子设备将判定该音频数据的声纹特征通过校验。

此外，“通过一级校验模型对音频数据进行一级校验”，包括：

(1)通过一级校验模型对音频数据的文本特征进行校验；

(2)当音频数据的文本特征通过校验时，判定音频数据通过一级级校验。

下面将在上述实施例描述的方法基础上，对本申请的音频校验方法做进一步介绍。请参照图5，该音频校验方法应用于电子设备，电子设备包括处理器、专用语音识别芯片和麦克风，该音频校验方法可以包括：

201，专用语音识别芯片通过麦克风采集当前所处场景的音频数据。

专用语音识别芯片通过麦克风对当前所处场景的声音进行采集，假设麦克风为模拟麦克风，那么将采集到模拟的音频数据，此时需要将模拟的音频数据进行模数转换，得到数字化的音频数据，用于后续处理。比如，电子设备可以在通过麦克风采集到外部的模拟音频数据后，以16KHz的采样频率对该模拟音频数据进行采样，得到数字化的音频数据。

本领域普通技术人员可以理解的是，若麦克风为数字麦克风，那么将直接采集到数字化的音频数据，无需再进行模数转换。

202，专用语音识别芯片加载预先训练的场景识别模型，并通过该场景识别模型对音频数据进行场景识别。

其中，专用语音识别芯片加载预先训练的场景识别模型，并利用该场景识别模型对音频数据进行场景识别，通俗的说，即利用从当前当前所处场景中采集到音频数据来对当前所处场景进行场景识别，以确定其为何种场景，得到对应的场景识别结果。

203，若识别到当前所处场景为驾驶场景，则专用语音识别芯片加载对应驾驶场景的一级校验模型，处理器加载对应驾驶场景的二级校验模型。

应当说明的是，本申请实施例在电子设备预先存储有一级校验模型集合和二级校验模型集合，其中一级校验模型中包括多个预先训练的一级校验模型，分别适于在不同的使用场景下对输入的语音数据进行一级校验，二级校验模型中包括多个预先训练的二级校验模型，分别适于在不同的使用场景下对输入的语音数据进行二级校验。

本申请实施例中，专用语音识别芯片在确定电子设备的当前所处场景后，若当前所处场景为驾驶场景，则从一级校验模型集合中确定出对应驾驶场景的一级校验模型，并调用该一级校验模型。同时，专用语音识别芯片指示处理器当前所处场景为驾驶场景，由处理器从二级校验模型集合中确定出对应驾驶场景的二级校验模型，并调用该二级校验模型。

204，专用语音识别芯片通过一级校验模型对音频数据进行一级校验。

205，若音频数据通过一级校验，则处理器通过二级校验模型对音频数据进行二级校验。

在完成一级校验模型和二级校验模型的加载之后，即可通过专用语音识别芯片加载的一级校验模型对音频数据进行校验，并在音频数据通过一级校验之后，通过处理器加载的二级校验模型对音频数据进行校验，得到对应的二级校验结果。应当说明的是，由于专用语音识别芯片的处理能力不及处理器的处理能力，适用于同一场景下的二级校验模型的大小和准确度将大于一级校验模型的大小和准确度，由此，先通过一级校验模型来对音频数据进行大致的校验，在一级校验通过后，再进行二级校验，通过二级校验来确保整体的校验准确性。

其中，对音频数据进行的一级校验包括文本特征和/或声纹特征的校验，对音频数据进行的二级校验包括文本特征和/或声纹特征的校验。

而对音频数据的文本特征和声纹特征进行校验也即是校验音频数据中是否包括预设用户说出的预设关键词，若音频数据中包括预设用户说出的预设关键词，则校验通过。比如，音频数据包括了预设用户设置的预设关键词，且该预设关键词由预设用户说出，则该音频数据的文本特征以及声纹特征通过校验；又比如音频数据包括了预设用户之外的其他用户说出的预设关键词，或者音频数据不包括任何用户说出的预设关键词，则该音频数据的文本特征和声纹特征校验失败(或者说未通过校验)。

应当说明的是，一级校验和二级校验仅用于代指校验的先后顺序，并不用于限定的校验内容，换言之，在本申请实施例中，一级校验模型与二级校验模型可以相同，也可以不同。比如，一级校验模型为基于高斯混合模型的语音校验模型，二级校验模型为基于神经网络的语音校验模型。

206，若音频数据通过二级校验，则处理器唤醒语音交互应用。

本申请实施例中，处理器在语音数据通过二级校验时，判定用户当前存在交互需求，此时唤醒语音交互应用，利用该语音交互应用与用户进行语音交互。其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

在一实施例中，还提供了一种音频校验装置。请参照图6，图6为本申请实施例提供的音频校验装置的结构示意图。其中该音频校验装置应用于电子设备，该音频校验装置包括音频采集模块301、场景识别模块302、策略确定模块303以及音频校验模块304，其中，如下：

音频采集模块301，用于采集当前所处场景的音频数据，并将音频数据提供给专用语音识别芯片；

场景识别模块302，用于通过专用语音识别芯片加载预先训练的场景识别模型，并通过场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果；

策略确定模块303，用于将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略；

音频校验模块304，用于按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果。

在一实施例中，在按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果时，音频校验模块304用于：

通过专用语音识别芯片加载目标音频校验策略指示的一级校验模型，以及通过处理器加载目标音频校验策略指示的二级校验模型；

通过一级校验模型对音频数据进行一级校验；

当音频数据通过一级校验时，通过二级校验模型对音频数据进行二级校验，得到二级校验结果。

在一实施例中，在通过专用语音识别芯片加载目标音频校验策略指示的一级校验模型，以及通过处理器加载目标音频校验策略指示的二级校验模型之后，音频校验模块304还用于：

获取当前的剩余电量，并判断剩余电量是否大于预设电量；

当剩余电量小于或等于预设电量时，直接标记音频数据通过一级校验，并执行通过二级校验模型对音频数据进行二级校验。

在一实施例中，在将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略之前，策略确定模块303还用于：

识别处理器是否运行有对应场景识别结果的目标应用；

当处理器运行有目标应用时，将场景识别结果提供给处理器，并通过处理器确定对应场景识别结果的目标音频校验策略。

在一实施例中，音频校验装置还包括模型训练模块，在采集当前所处场景的音频数据之前：

音频采集模块301还用于采集预设场景的样本音频数据；

模型训练模块用于提取样本音频数据的语谱图，并根据样本音频数据的语谱图构建样本训练集；以及构建卷积神经网络，并根据样本训练集对卷积神经网络进行训练，将训练后的卷积神经网络设为场景识别模型。

在一实施例中，在根据场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果时，音频校验模块304用于：

提取音频数据的语谱图；

将音频数据的语谱图输入场景识别模型进行评分，得到场景识别模型输出的评分分值；

当评分分值达到场景识别模型对应的判别分值时，得到当前所处场景为预设场景的场景识别结果。

在一实施例中，在按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果之前，音频校验模块304还用于：

通过处理器输出是否按照目标音频校验策略进行校验的提示信息；

当接收到按照目标音频校验策略进行校验的确认信息时，按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果。

应当说明的是，本申请实施例提供的音频校验装置与上文实施例中的音频校验方法属于同一构思，在音频校验装置上可以运行音频校验方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图7，电子设备包括处理器401、存储器402、专用语音识别芯片403和麦克风404。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。

存储器402中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401和专用语音识别芯片403对存储器402中计算机程序的访问，实现如下功能：

专用语音识别芯片403通过麦克风404采集当前所处场景的音频数据；

专用语音识别芯片403加载预先训练的场景识别模型，并通过场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果；

专用语音识别芯片403将场景识别结果提供给处理器401，由处理器401确定对应场景识别结果的目标音频校验策略；

专用语音识别芯片403和/或处理器401按照目标音频校验策略，对音频数据进行校验，得到校验结果。

请参照图8，图8为本申请实施例提供的电子设备的另一结构示意图，与图7所示电子设备的区别在于，电子设备还包括输入单元405和输出单元406等组件。

其中，输入单元405可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元406可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，处理器401和专用语音识别芯片403通过对存储器402中计算机程序的访问，从而实现各种功能，如下：

在一实施例中，在按照目标音频校验策略，通过处理器和/或专用语音识别芯片对音频数据进行校验，得到校验结果时，专用语音识别芯片403加载目标音频校验策略指示的一级校验模型，处理器401加载目标音频校验策略指示的二级校验模型；

专用语音识别芯片403通过一级校验模型对音频数据进行一级校验；

当音频数据通过一级校验时，处理器401通过二级校验模型对音频数据进行二级校验，得到二级校验结果。

在一实施例中，在专用语音识别芯片403加载目标音频校验策略指示的一级校验模型，处理器401加载目标音频校验策略指示的二级校验模型之后，处理器401用于执行：

获取当前的剩余电量，并判断剩余电量是否大于预设电量；

在一实施例中，在将场景识别结果提供给处理器401，专用语音识别芯片403用于执行：

识别处理器401是否运行有对应场景识别结果的目标应用；

当处理器401运行有目标应用时，将场景识别结果提供给处理器401，由处理器401确定对应场景识别结果的目标音频校验策略。

在一实施例中，在采集当前所处场景的音频数据之前，处理器401用于执行：

通过麦克风404采集预设场景的样本音频数据；

提取样本音频数据的语谱图，并根据样本音频数据的语谱图构建样本训练集；

构建卷积神经网络，并根据样本训练集对卷积神经网络进行训练，将训练后的卷积神经网络设为场景识别模型。

在一实施例中，在根据场景识别模型对音频数据进行场景识别，得到当前所处场景的场景识别结果时，专用语音识别芯片403用于执行：

提取音频数据的语谱图；

在一实施例中，处理器401还用于执行：

输出是否按照目标音频校验策略进行校验的提示信息；

应当说明的是，本申请实施例提供的电子设备与上文实施例中的音频校验方法属于同一构思，在电子设备上可以运行音频校验方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的音频校验方法而言，本领域普通测试人员可以理解实现本申请实施例的音频校验方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和/或专用语音识别芯片执行，在执行过程中可包括如音频校验方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种音频校验方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频校验方法，应用于电子设备，其特征在于，所述电子设备包括专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验方法包括：

2.根据权利要求1所述的音频校验方法，其特征在于，所述按照所述目标音频校验策略，通过所述处理器和/或所述专用语音识别芯片对所述音频数据进行校验，得到校验结果，包括：

通过所述专用语音识别芯片加载所述目标音频校验策略指示的一级校验模型，以及通过所述处理器加载所述目标音频校验策略指示的二级校验模型；

通过所述一级校验模型对所述音频数据进行一级校验；

当所述音频数据通过一级校验时，通过所述二级校验模型对所述音频数据进行二级校验，得到二级校验结果。

3.根据权利要求2所述的音频校验方法，其特征在于，所述通过所述专用语音识别芯片加载所述目标音频校验策略指示的一级校验模型，以及通过所述处理器加载所述目标音频校验策略指示的二级校验模型之后，还包括：

获取当前的剩余电量，并判断所述剩余电量是否大于预设电量；

当所述剩余电量小于或等于所述预设电量时，直接标记所述音频数据通过一级校验，并执行所述通过所述二级校验模型对所述音频数据进行二级校验。

4.根据权利要求1-3任一项所述的音频校验方法，其特征在于，所述将所述场景识别结果提供给所述处理器，并通过所述处理器确定对应所述场景识别结果的目标音频校验策略之前，还包括：

识别所述处理器是否运行有对应所述场景识别结果的目标应用；

当所述处理器运行有所述目标应用时，将所述场景识别结果提供给所述处理器，并通过所述处理器确定对应所述场景识别结果的目标音频校验策略。

5.根据权利要求1-3任一项所述的音频校验方法，其特征在于，所述采集当前所处场景的音频数据之前，还包括：

采集预设场景的样本音频数据；

提取所述样本音频数据的语谱图，并根据所述样本音频数据的语谱图构建样本训练集；

构建卷积神经网络，并根据所述样本训练集对所述卷积神经网络进行训练，将训练后的卷积神经网络设为所述场景识别模型。

6.根据权利要求5所述的音频校验方法，其特征在于，所述根据所述场景识别模型对所述音频数据进行场景识别，得到所述当前所处场景的场景识别结果，包括：

提取所述音频数据的语谱图；

将所述音频数据的语谱图输入所述场景识别模型进行评分，得到所述场景识别模型输出的评分分值；

当所述评分分值达到所述场景识别模型对应的判别分值时，得到所述当前所处场景为预设场景的场景识别结果。

7.根据权利要求1-3任一项所述的音频校验方法，其特征在于，所述按照所述目标音频校验策略，通过所述处理器和/或所述专用语音识别芯片对所述音频数据进行校验，得到校验结果之前，还包括：

通过所述处理器输出是否按照所述目标音频校验策略进行校验的提示信息；

当接收到按照所述目标音频校验策略进行校验的确认信息时，按照所述目标音频校验策略，通过所述处理器和/或所述专用语音识别芯片对所述音频数据进行校验，得到校验结果。

8.一种音频校验装置，应用于电子设备，其特征在于，所述电子设备包括专用语音识别芯片和处理器，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验装置包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器和/或专用语音识别芯片加载时执行如权利要求1至7任一项所述的音频校验方法。

10.一种电子设备，包括处理器、存储器和专用语音识别芯片，所述存储器储存有计算机程序，其特征在于，所述处理器和/或所述专用语音识别芯片通过加载所述计算机程序，用于执行如权利要求1至7任一项所述的音频校验方法。