CN110415699B

CN110415699B - 一种语音唤醒的判断方法、装置及电子设备

Info

Publication number: CN110415699B
Application number: CN201910816082.XA
Authority: CN
Inventors: 陈孝良; 靳源; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-10-26
Anticipated expiration: 2039-08-30
Also published as: CN110415699A

Abstract

本申请公开了一种语音唤醒的判断方法、装置及电子设备，包括，获取输入语音，第一模型根据所述输入语音判断是否唤醒；若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段；将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。所述语音唤醒的判断方法、装置及电子设备，在第一次判断结果为唤醒时，截取唤醒语音段，再根据唤醒语音段的语谱图进一步判断是否唤醒，过程中进行了两层判断，且第二次判断依据直接有效的唤醒语音段，因此能够排除一些环境因素可能引起的误唤醒，提升设备的唤醒性能。

Description

一种语音唤醒的判断方法、装置及电子设备

技术领域

本发明涉及数据处理技术，更具体的说，是涉及一种语音唤醒的判断方法、装置及电子设备。

背景技术

语音唤醒是人机交互的一个入口，目前越来越多的智能设备将语音唤醒技术作为产品的基础配置技术。

现有的唤醒技术主要包括两类，一是直接建立端到端的模型，其原理是在对大量语音进行特征提取后，将提取特征输入神经网络得到每一帧语音的后验概率，在后验概率大于阈值时确定唤醒；二是基于隐马尔科夫模型的结构，通过维特比算法获取最优路径判断是否唤醒。

然而，上述唤醒技术的唤醒性能有限，且易受环境、相近词等因素影响造成误唤醒。

发明内容

有鉴于此，本发明提供了一种语音唤醒方法、装置及电子设备，以克服现有技术中唤醒技术的唤醒性能有限且误唤醒率较高的问题。

为实现上述目的，本发明提供如下技术方案：

一种语音唤醒的判断方法，包括：

获取输入语音；

第一模型根据所述输入语音判断是否唤醒；

若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段；

将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。

可选的，所述返回唤醒长度，确定唤醒语音段，包括：

确定所述输入语音中每一帧音素的后验概率；

基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件；

若满足，记录唤醒时间点；

确定唤醒词的起始时间点；

基于所述唤醒时间点和所述起始时间点确定唤醒长度，并确定唤醒语音段。

可选的，所述确定唤醒词的起始时间点，包括：

确定所述唤醒时间点前预设时间内的唤醒词的第一个字的各个音素在所述唤醒语音段的每一帧中的后验概率；

以帧为单位，将所述第一个字的各个音素的后验概率相加，得到所述第一个字的各个音素在每一帧中的概率和；

确定概率和最大值对应的第一帧数；

将所述第一帧数对应的时间点加上预设的修正值得到起始时间点。

可选的，在所述基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件前，还包括：

对所述每一帧音素的后验概率进行平滑处理。

可选的，所述将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，包括：

对所述唤醒语音段做短时傅里叶变换；

基于变换后的语音信息，以分贝为单位计算每个时间点的频谱能量密度；

对所有的频谱能量密度进行归一化处理，得到所述唤醒语音段的语谱图；

将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果。

可选的，所述依据大量唤醒语音段的语谱图训练得到的二分类网络模型的训练过程包括：

将语谱图作为特征建立卷积神经网络；

基于所述卷积神经网络，利用反向传播原理和交叉熵原理，训练得到二分类网络模型。

可选的，所述第一模型根据所述输入语音判断是否唤醒，包括：

第一模型根据所述输入语音中各个音素的后验概率的乘积与预设值的比较结果判断是否唤醒。

可选的，所述第一模型为基于隐马尔科夫模型的结构模型，所述第一模型根据所述输入语音判断是否唤醒，包括：

基于所述结构模型，通过维特比算法获取所述输入语音的最优路径；

基于所述最优路径判断是否唤醒。

一种语音唤醒的判断装置，包括：

语音获取模块，用于获取输入语音；

第一判断模块，用于基于第一模型根据所述输入语音判断是否唤醒；

语音截取模块，用于在所述第一判断模块的判断结果为是时，返回唤醒长度，确定唤醒语音段；

第二判断模块，用于将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。

一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述可执行指令包括：第一模型根据输入语音判断是否唤醒；

若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段；

经由上述的技术方案可知，与现有技术相比，本发明实施例公开了一种语音唤醒的判断方法、装置及电子设备，包括，获取输入语音，第一模型根据所述输入语音判断是否唤醒；若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段；将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。所述语音唤醒的判断方法、装置及电子设备，在第一次判断结果为唤醒时，截取唤醒语音段，再根据唤醒语音段的语谱图进一步判断是否唤醒，过程中进行了两层判断，且第二次判断依据直接有效的唤醒语音段，因此能够排除一些环境因素可能引起的误唤醒，提升设备的唤醒性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种语音唤醒的判断方法的流程图；

图2为本发明实施例公开的截取唤醒语音段的流程图；

图3为本发明实施例公开的确定唤醒词的起始时间的流程图；

图4为本发明实施例公开的第二模型判断唤醒结果的流程图；

图5为本发明实施例公开的语音唤醒的判断装置的结构示意图；

图6为本发明实施例公开的语音截取模块的结构示意图；

图7为本发明实施例公开的时间点确定模块的结构示意图；

图8为本发明实施例公开的第二判断模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例公开的一种语音唤醒的判断方法的流程图，参见图1所示，语音唤醒的判断方法可以包括：

步骤101：获取输入语音。

所述输入语音可以由电子设备上的语音采集装置采集获取，如话筒、麦克风；所述输入语音来自于用户。

步骤102：第一模型根据所述输入语音判断是否唤醒。

其中，所述第一模型可以是现有的用于判断是否唤醒的模型，例如，端对端模型，在端对端模型的判断技术中，输入语音输出是否唤醒的结果，主要可以分为三步：1、特征提取；2、输入神经网络得到每一帧音素的后验概率；3、对后验概率进行平滑处理，后验概率经过一定处理后超过一定阈值认为唤醒。基于上述内容，所述第一模型根据所述输入语音判断是否唤醒，可以包括：第一模型根据所述输入语音中各个音素的后验概率的乘积与预设值的比较结果判断是否唤醒。当然，这只是第一模型根据输入语音判断是否唤醒的一种实现，具体对后验概率如何处理，将处理后的后验概率与什么数值做什么样的比较，可以有多种实现，只需要保证配置的判断条件符合实际情况即可。

当然，所述第一模型也可以是基于隐马尔科夫模型的结构，该结构可以用来判断是否唤醒。在所述第一模型为基于隐马尔科夫模型的结构模型时，所述第一模型根据所述输入语音判断是否唤醒，可以包括：基于所述结构模型，通过维特比算法获取所述输入语音的最优路径；基于所述最优路径判断是否唤醒。

步骤103：若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段。

在所述第一模型的判断结果为唤醒的情况下，返回唤醒长度，确定唤醒语音段，所述唤醒语音段即为包括完整唤醒词的语音段。在确定唤醒语音段后，后续可以将所述输入语音中唤醒语音段之外的语音数据剔除，以所述唤醒语音段为基础进行进一步的判断。

在后面的实施例中，会对返回唤醒长度，确定唤醒语音段的具体实现做详细介绍，在此不再过多介绍。

在所述第一模型的判断结果为不唤醒时，不会进行后续进一步的唤醒判断。

步骤104：将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。

在截取出所述唤醒语音段后，可以首先确定所述唤醒语音段的语谱图，然后将所述唤醒语音段的语谱图输入预先训练好的第二模型。由于所述第二模型为二分类网络模型，将所述唤醒语音段的语谱图输入所述第二模型后，所述第二模型的输出结果即为唤醒或没有唤醒。

本实施例中，所述语音唤醒的判断方法，在第一次判断结果为唤醒时，截取唤醒语音段，再根据唤醒语音段的语谱图进一步判断是否唤醒，过程中进行了两层判断，且第二次判断依据直接有效的唤醒语音段，因此能够排除一些环境因素可能引起的误唤醒，提升设备的唤醒性能。

上述实施例中，所述返回唤醒长度，确定唤醒语音段具有不同的实现，图2为本发明实施例公开的截取唤醒语音段的流程图，参见图2所示，在一个示意性的示例中，截取唤醒语音段可以包括：

步骤201：确定所述输入语音中每一帧音素的后验概率。

每一个语音信息都包括多帧音素，音素为最小的语音单位，例如“发”音为fā，为一个音节，可再分析出f和a两个音素。每一帧音素的后验概率即为该帧可能为某一音素的概率值。

步骤202：基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件，若满足，进入步骤203。

其中，基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件，可以是对所有帧音素的后验概率做了一定处理后得到某个数值，判断该数值是否满足唤醒条件。具体对音素后验概率的处理可以是相加、相乘、取平均值等等处理。判断是否满足唤醒条件可以是将处理后的数值与预设值的比较，判断内容可以包括是否大于、是否小于等。

步骤203：记录唤醒时间点。

例如唤醒语音段中包括的唤醒词为“小艾同学”，当接收识别到“学”的音节后，系统经过一些识别处理判断出已经唤醒，将判断唤醒的时刻记录为唤醒时间点。

步骤204：确定唤醒词的起始时间点。

除了记录唤醒时间点外，还需要确定唤醒词的起始时间点，唤醒词的起始时间点即开始接收唤醒词第一个字的第一个音素的时间点。确定唤醒词的起始时间点的具体实现将在后面的实施例中介绍。

步骤205：基于所述唤醒时间点和所述起始时间点确定唤醒长度，并确定唤醒语音段。

将所述唤醒时间点减去所述起始时间点即可确定唤醒长度，并确定唤醒语音段。

本实施例中，详细介绍了返回唤醒长度，确定唤醒语音段的具体实现，通过本实施例公开的内容，可以截取出唤醒语音段，便与后续根据截取出的唤醒语音段进行进一步的唤醒判断。

上述实施例中，所述确定唤醒词的起始时间点的具体实现可以参见图3，图3为本发明实施例公开的确定唤醒词的起始时间的流程图，如图3所示，可以包括：

步骤301：确定所述唤醒时间点前预设时间内的唤醒词的第一个字的各个音素在所述唤醒语音段的每一帧中的后验概率。

由于目前一般的唤醒词的语音长度均不会超过2秒，因此，所述预设时间可以为2秒。当然，本实施例中，并不对所述预设时间做固定限制，具体可根据实际应用场景确定。

步骤302：以帧为单位，将所述第一个字的各个音素的后验概率相加，得到所述第一个字的各个音素在每一帧中的概率和。

例如唤醒词为“小艾同学”，第一个字为“小”，可以分为“x”、“i”和“ao”三个音素，第二个字为“艾”，可以分为“ai”一个音素，第三个字“同”，可以分为“t”和“ong”两个音素，第四个字“学”，可以分为“x”和“ue”两个音素，则“小艾同学”共8个音素。可以将所述唤醒语音段的语音帧输入预先训练的、针对“小艾同学”这个唤醒词的分类模型中，该分类模型的分类结果即“小艾同学”包括的所有音素的后验概率。假设所述唤醒语音段共包括100帧，则针对每一帧，所述分类模型都会输出“小艾同学”包括的每一个音素对应的后验概率，则第一个字，即“小”字的概率为“x”、“i”和“ao”三个因素的后验概率之和；100帧，就有100个“小”字的概率值。

步骤303：确定概率和最大值对应的第一帧数。

沿用上述例子，在确定了100个“小”字的概率值后，将其中最大的概率值确定为“小”字的概率峰值，然后确定“小”字达到概率峰值时对应的帧数为第一帧数，后续可以此第一帧数为依据计算确定唤醒词的起始时间点。

步骤304：将所述第一帧数对应的时间点加上预设的修正值得到起始时间点。

由于第一个字概率峰值出现的时刻并不是准确的第一个字的起始边界，即接收唤醒语音段的起始时间点，因此需要将第一帧数对应的时间点加上预设的修正值，得到较准确的起始时间点。

其中，所述预设的修正值可以是一个固定值，具体可以是根据实验结果或经验确定的数值。

基于前述内容，得到起始时间点的整体实现可以是：将预设时间段内的语音帧的语音特征(例如MFCC特征)输入分类模型中，该分类模型可以为DNN-深度神经网络模型，然后获得每帧对应的若干个类的后验概率，确定唤醒词的第一个字每个音素对应的类别，计算每帧若干个类中第一个字对应类别的概率和，比较每帧的计算结果，确定概率峰值为最大概率和，对应帧的时间点加上修正值得到起始时间点。

本实施例中，详细介绍了确定唤醒词的起始时间点的具体实现，采用本实施例公开的内容，可以获取更为准确的起始时间点，便于唤醒语音段的准确截取。

在其他实现中，在所述基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件前，还可以包括：对所述每一帧音素的后验概率进行平滑处理，这样得到的后验概率值更加准确。

图4为本发明实施例公开的第二模型判断唤醒结果的流程图，参见图4所示，可以包括：

步骤401：对所述唤醒语音段做短时傅里叶变换。

对所述唤醒语音段做短时傅里叶变换，即对所述唤醒语音段做基于帧的短时傅里叶变换。

步骤402：基于变换后的语音信息，以分贝为单位计算每个时间点的频谱能量密度。

步骤403：对所有的频谱能量密度进行归一化处理，得到所述唤醒语音段的语谱图。

具体地，可以是对频谱能量密度进行归一化并量化到0-255的范围，这样就得到唤醒语音段的语谱图。

步骤404：将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果。

上述流程介绍了将唤醒语音段输入第二模型前的处理过程，基于语谱图的实现对唤醒结果的判断，能够得到更加准确的唤醒判断结果，降低误唤醒率。

上述实施例中，依据大量唤醒语音段的语谱图训练得到的二分类网络模型的训练过程可以包括：将语谱图作为特征建立卷积神经网络；基于所述卷积神经网络，利用反向传播原理和交叉熵原理，训练得到二分类网络模型。具体的，语谱图训练的过程可以包括：1、随机初始化卷积神经网络；2、将特征输入卷积神经网络，利用前向计算得到网络输出；3、定义损失函数为交叉熵，计算损失函数的值；4、利用反向传播原理将损失函数计算的值传播至每一层，更新网络参数；5、重复迭代前4步，直到满足终止迭代条件，最终获得二分类网络模型。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的装置实现，因此本发明还公开了一种装置，下面给出具体的实施例进行详细说明。

图5为本发明实施例公开的语音唤醒的判断装置的结构示意图，参见图5所示，语音唤醒的判断装置50可以包括：

语音获取模块501，用于获取输入语音。

第一判断模块502，用于基于第一模型根据所述输入语音判断是否唤醒。

其中，所述第一模型可以是现有的用于判断是否唤醒的模型，例如，端对端模型、基于隐马尔科夫模型的结构模型。

语音截取模块503，用于在所述第一判断模块的判断结果为是时，返回唤醒长度，确定唤醒语音段。

第二判断模块504，用于将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。

本实施例中，所述语音唤醒的判断装置，在第一次判断结果为唤醒时，截取唤醒语音段，再根据唤醒语音段的语谱图进一步判断是否唤醒，过程中进行了两层判断，且第二次判断依据直接有效的唤醒语音段，因此能够排除一些环境因素可能引起的误唤醒，提升设备的唤醒性能。

图6为本发明实施例公开的语音截取模块的结构示意图，结合图6所示，语音截取模块503可以包括：

概率确定模块601，用于确定所述输入语音中每一帧音素的后验概率。

每一个语音信息都包括多帧音素，音素为最小的语音单位。每一帧音素的后验概率即为该帧可能为某一音素的概率值。

条件判断模块602，用于基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件。

时间点确定模块603，用于在所述条件判断模块602判断满足条件时，记录唤醒时间点，确定唤醒词的起始时间点。

例如唤醒语音段中包括的唤醒词为“小艾同学”，当接收识别到“学”的音节后，系统经过一些识别处理判断出已经唤醒，将判断唤醒的时刻记录为唤醒时间点。此外还需要确定唤醒词的起始时间点，唤醒词的起始时间点即开始接收唤醒词第一个字的第一个音素的时间点。确定唤醒词的起始时间点的具体实现将在后面的实施例中介绍。

语音段确定模块604，用于基于所述唤醒时间点和所述起始时间点确定唤醒长度，并确定唤醒语音段。

图7为本发明实施例公开的时间点确定模块的结构示意图，如图7所示，时间点确定模块603可以包括：

首字音素确定模块701，用于确定所述唤醒时间点前预设时间内的唤醒词的第一个字的各个音素在所述唤醒语音段的每一帧中的后验概率。

首字概率确定模块702，用于以帧为单位将所述第一个字的各个音素的后验概率相加，得到所述第一个字的各个音素在每一帧中的概率和。

例如唤醒词为“小艾同学”，第一个字为“小”，可以分为“xi”、“i”和“ao”三个音素，第二个字为“艾”，可以分为“ai”一个音素，第三个字“同”，可以分为“t”和“ong”两个音素，第四个字“学”，可以分为“x”和“ue”两个音素，则“小艾同学”共8个音素。可以将所述唤醒语音段的语音帧输入预先训练的、针对“小艾同学”这个唤醒词的分类模型中，该分类模型的分类结果即“小艾同学”包括的所有音素。假设所述唤醒语音段共包括100帧，则针对每一帧，所述分类模型都会输出“小艾同学”包括的每一个音素对应的后验概率，则第一个字，即“小”字的概率为“x”、“i”和“ao”三个因素的后验概率之和；100帧，就有100个“小”字的概率值。

帧数确定模块703，用于确定概率和最大值对应的第一帧数。

起始点确定模块704，用于将所述第一帧数对应的时间点加上预设的修正值得到起始时间点。

在其他实现中，还可以包括概率处理模块，用于对所述每一帧音素的后验概率进行平滑处理，这样得到的后验概率值更加准确。

图8为本发明实施例公开的第二判断模块的结构示意图，参见图8所示，所述第二判断模块504可以包括：

变换处理模块801，用于对所述唤醒语音段做短时傅里叶变换。

能量确定模块802，用于基于变换后的语音信息，以分贝为单位计算每个时间点的频谱能量密度。

语谱图确定模块803，用于对所有的频谱能量密度进行归一化处理，得到所述唤醒语音段的语谱图。

结果确定模块804，用于将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果。

进一步地，本申请还公开了一种电子设备，所述电子设备包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

中，所述可执行指令包括：第一模型根据输入语音判断是否唤醒；

若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段；

其中，处理器中包含内核，由内核去存储器中调取相应的程序模块。内核可以设置一个或多个，通过调整内核参数来实现回访数据的处理。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音唤醒的判断方法，其特征在于，包括：

获取输入语音；

第一模型根据所述输入语音判断是否唤醒；

若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段；

将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型；

所述返回唤醒长度，确定唤醒语音段，包括：

确定所述输入语音中每一帧音素的后验概率；

若满足，记录唤醒时间点；

确定唤醒词的起始时间点；所述唤醒词的起始时间点为开始接收所述唤醒词第一个字的第一个音素的时间点；

2.根据权利要求1所述的语音唤醒的判断方法，其特征在于，所述确定唤醒词的起始时间点，包括：

确定概率和最大值对应的第一帧数；

3.根据权利要求1所述的语音唤醒的判断方法，其特征在于，在所述基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件前，还包括：

对所述每一帧音素的后验概率进行平滑处理。

4.根据权利要求1所述的语音唤醒的判断方法，其特征在于，所述将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，包括：

对所述唤醒语音段做短时傅里叶变换；

5.根据权利要求1所述的语音唤醒的判断方法，其特征在于，所述依据大量唤醒语音段的语谱图训练得到的二分类网络模型的训练过程包括：

将语谱图作为特征建立卷积神经网络；

6.根据权利要求1所述的语音唤醒的判断方法，其特征在于，所述第一模型根据所述输入语音判断是否唤醒，包括：

7.根据权利要求1所述的语音唤醒的判断方法，其特征在于，所述第一模型为基于隐马尔科夫模型的结构模型，所述第一模型根据所述输入语音判断是否唤醒，包括：

基于所述最优路径判断是否唤醒。

8.一种语音唤醒的判断装置，其特征在于，包括：

语音获取模块，用于获取输入语音；

第二判断模块，用于将所述唤醒语音段的语谱图输入第二模型，得到唤醒判断结果，其中，所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型；

所述语音截取模块包括：

概率确定模块，用于确定所述输入语音中每一帧音素的后验概率；

条件判断模块，用于基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件；

时间点确定模块，用于在所述条件判断模块判断满足条件时，记录唤醒时间点，确定唤醒词的起始时间点；所述唤醒词的起始时间点为开始接收所述唤醒词第一个字的第一个音素的时间点；

语音段确定模块，用于基于所述唤醒时间点和所述起始时间点确定唤醒长度，并确定唤醒语音段。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

若判断结果为唤醒，则返回唤醒长度，确定唤醒语音段；

所述返回唤醒长度，确定唤醒语音段，包括：

确定所述输入语音中每一帧音素的后验概率；

若满足，记录唤醒时间点；