CN111028831A

CN111028831A - 一种语音唤醒方法及装置

Info

Publication number: CN111028831A
Application number: CN201911097141.9A
Authority: CN
Inventors: 王志成
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-04-17
Anticipated expiration: 2039-11-11
Also published as: CN111028831B

Abstract

本发明公开了一种语音唤醒方法及装置，其特征在于，包括以下步骤：步骤101：检测设备的工作状态，若设备在第一预设时长内无交互，自动进入待机模式并且检测外部环境中的声音信号；步骤102：当设备检测到声音信号后，确认所述声音信号是否为预设唤醒词；若是，设备进入正常工作模式；否则，继续重复所述步骤101和步骤102，直到设备进入正常工作模式。本发明设备进入待机模式的同时会检测外部环境的声音信号，根据声音信号来确认是否是预设唤醒词从而进入正常工作模式，相比于现有技术不需要用户主动参与模式的切换，且在待机模式下同时可以保持语音唤醒功能，可以接收外部环境的声音信号并且保持很好的唤醒性能，突出了方便省事且唤醒性能强的优点。

Description

一种语音唤醒方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音唤醒方法及装置。

背景技术

语音唤醒技术是语音识别技术中重要分支，语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词来启动设备。目前在车载，导航，智能家居等方面有着重要的应用，用于用声音启动程序或者服务，现有的语音唤醒技术为了降低设备的待机功耗，智能语音设备会特意设置待机模式，一般会采用两种方法一种为关闭主MCU利用按键和触屏来退出待机模式，另一种为保持主MCU，牺牲语音唤醒性能，减少算力来控制功耗，可语音退出待机模式。两种方法具有以下缺点：1、在低功耗模式下无法实现语音唤醒，需要用户主动参与模式的切换，体验不友好。2、减少算力后的功耗边界值还是较高，且唤醒性能变差，影响产品体验。

发明内容

针对上述所显示出来的问题，本方法通过三级功耗模式，实现了一种高性能语音唤醒方法。

一种语音唤醒方法，包括以下步骤：

步骤101：检测设备的工作状态，若设备在第一预设时长内无交互，自动进入待机模式并且检测外部环境中的声音信号；

步骤102：当设备检测到声音信号后，确认声音信号是否为预设唤醒词；

若是，设备进入正常工作模式；

否则，继续重复步骤101和步骤102，直到设备进入正常工作模式。

优选的，检测设备的工作状态，若设备在第一预设时间内无交互，自动进入待机模式并且检测外部环境中的声音信号，包括：

关闭主MCU,同时打开HVAD模块；

通过HVAD模块检测外部环境中的声音信号。

优选的，当设备检测到声音信号后，确认声音信号是否为预设唤醒词，包括：

退出待机模式并且打开主MCU进入低功耗模式；

通过主MCU接收HVAD模块检测到的声音信号；

设置主MCU在预设频率以下运行并且对声音信号运行第一语音识别算法，判断声音信号里是否识别到人声；

若识别到人声，确认人声中存在预设唤醒词的概率是否大于第一预设阙值，若大于第一预设阙值，再次确认人声存在预设唤醒词的概率是否大于第二预设阙值；

若在第二预设时长内内没有识别到人声，继续进入待机模式，关闭主MCU并且打开HVAD模块来检测外部环境中的声音信号。

优选的，若大于第一预设阙值，再次确认人声存在预设唤醒词的概率是否大于第二预设阙值，包括：

设置主MCU在预设频率以上运行，对人声运行第二语音识别算法，确认人声中存在预设唤醒词的概率是否大于第二预设阙值；

若是，设备进入正常工作模式；

否则，重复执行设置主MCU在预设频率以下运行并且对所述声音信号运行第一语音识别算法，判断声音信号里是否识别到人声的步骤，直到设备进入正常工作模式。

优选的，本方法还包括：

获取预设唤醒词；

将预设唤醒词预先录入主MCU里。

优选的，设备为计算机、手机、平板电脑、车载设备、家居家电语音控制模块中的一种。

一种语音唤醒装置，该装置包括：

检测模块，用于检测设备的工作状态，若设备在第一预设时长内无交互，自动进入待机模式并且检测外部环境中的声音信号；

确认模块，用于当设备检测到声音信号后，确认声音信号是否为预设唤醒词；

控制模块，用于当确认模块确认声音信号为预设唤醒词时，控制设备进入正常工作模式，否则，继续控制检测模块和确认模块工作，直到设备进入正常工作模式。

优选的，检测模块包括：

关闭子模块，用于关闭主MCU,同时打开HVAD模块；

检测子模块，用于通过HVAD模块检测外部环境中的声音信号。

优选的，确认模块，包括：

转换模式子模块，用于退出待机模式并且打开主MCU进入低功耗模式；

接收子模块，用于通过主MCU接收HVAD模块检测到的声音信号；

判断子模块，用于设置主MCU在预设频率以下运行并且对所述声音信号运行第一语音识别算法，判断声音信号里是否识别到人声，同时确认人声中存在预设唤醒词的概率；

判定子模块，用于当判断子模块识别到人声，确认所述人声中存在预设唤醒词的概率是否大于第一预设阙值，若大于第一预设阙值，再次确认所述人声存在预设唤醒词的概率是否大于第二预设阙值；

若在第二预设时长内没有识别到人声，返回检测模块继续运行。

优选的，判定子模块，包括：

确认单元，用于设置主MCU在预设频率以上运行，对人声运行第二语音识别算法，确认所述人声中存在预设唤醒词的概率是否大于第二预设阙值；

控制单元，用于当确认单元确认人声中存在预设唤醒词的概率大于第二预设阙值时，控制设备进入正常工作模式，否则，继续控制判断子模块工作，直到设备进入正常工作模式。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种语音唤醒方法的工作流程图；

图2为本发明所提供的一种语音唤醒方法的另一工作流程图；

图3为本发明所提供的一种语音唤醒方法的工作截图；

图4位本发明所提供的一种语音唤醒装置的结构图；

图5为本发明所提供的一种语音唤醒装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

语音唤醒技术是语音识别技术中重要分支，语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词来启动设备。目前在车载，导航，智能家居等方面有着重要的应用，用于用声音启动程序或者服务，现有的语音唤醒技术为了降低设备的待机功耗，智能语音设备会特意设置待机模式，一般会采用两种方法一种为关闭主MCU利用按键和触屏来退出待机模式，另一种为保持主MCU，牺牲语音唤醒性能，减少算力来控制功耗，可语音退出待机模式。两种方法具有以下缺点：1、在低功耗模式下无法实现语音唤醒，需要用户主动参与模式的切换，体验不友好。2、减少算力后的功耗边界值还是较高，且唤醒性能变差，影响产品体验。为了解决上述问题，本实施例公开了一种高性能语音唤醒方法。

一种语音唤醒方法，如图1所示，包括以下步骤：

若是，设备进入正常工作模式；

否则，继续重复步骤101和步骤102，直到设备进入正常工作模式；

特别的，上述第一预设时长可以为3分钟。

上述技术方案的工作原理为：设备在第一预设时长内没有工作则自动进入待机模式，在待机模式下同时检测外部环境的声音信号，当检测到外部环境有声音信号输入时判断上述声音输入是否为预设唤醒词，当确认是预设唤醒词时设备转为正常工作模式，当确认不是预设唤醒词时，重新检测外部环境的声音信号直到检测到预设唤醒词使设备进入正常工作模式为止。

上述技术方案的有益效果为：设备进入待机模式的同时会检测外部环境的声音信号，根据声音信号来确认是否是预设唤醒词从而使设备进入正常工作模式，相比于现有技术不需要用户主动参与模式的切换，且在待机模式下同时可以保持语音唤醒功能，可以接收外部环境的声音信号并且保持很好的唤醒性能，突出了方便省事且唤醒性能强的优点。

在一个实施例中，检测设备的工作状态，若设备在第一预设时间内无交互，自动进入待机模式并且检测外部环境中的声音信号，包括：

关闭主MCU,同时打开HVAD模块；

通过HVAD模块检测外部环境中的声音信号；

特别的，上述MCU(Microcontroller Unit)为微控制芯片，HVAD(Hardware VoiceActivity Detection)模块为硬件语音端点检测模块。

上述技术方案的工作原理为：设备进入待机模式后会关闭主MCU，此时打开HVAD模块来检测外部环境中的声音信号，HVAD模块将检测到的声音信号传输给主MCU。

上述技术方案的有益效果为：相比于现有技术中的保持主MCU，牺牲语音唤醒功能来说，本发明中通过关闭主MCU而独立开启HVAD模块来检测外部环境的声音信号可在降低功耗的基础上，保持设备具有较强的语音唤醒性能，且关闭主MCU有利于提高设备的工作时长。

在一个实施例中，如图2所示，当设备检测到声音信号后，确认声音信号是否为预设唤醒词，包括：

退出待机模式并且打开主MCU进入低功耗模式；

通过主MCU接收HVAD模块检测到的声音信号；

若在第二预设时长内内没有识别到人声，继续进入待机模式，关闭主MCU并且打开HVAD模块来检测外部环境中的声音信号；

特别的，上述预设频率可以为24Mhz：上述第一语音算法偏向于低漏警概率，所述漏警概率在本文中为在检测范围内，由于存在噪声，把声音信号误判为无信号的概率，第一语音算法针对漏警概率将其降到最小来检测外部环境中的声音信号，上述第二预设时长可以为60s，第一预设阙值可以为50％。

上述技术方案的工作原理为：当HVAD模块检测到声音信号时，打开主MCU进入低功耗模式并且设置主MCU在预设频率以下运行，然后接收HVAD模块检测到的声音信号然后对其进行第一语音识别算法来判断声音信号里是否有人声，若识别到了人声则对人声再进行判定是否为预设唤醒词，若在第二预设时间内没有识别到人声，则设备进入待机模式并且关闭主MCU继续使用HVAD模块检测外部环境中的声音信号。

上述技术方案的有益效果为：在HVAD模块检测到声音信号之前主MCU一直处于关闭状态，可以有效地降低功耗，当HVAD模块检测到声音信号时对其运行第一语音识别算法可以降低漏警概率，避免了无法有效识别声音信号中的人声部分从而使用户无法及时解锁的情况，提高了识别人声的概率。

在一个实施例中，若大于第一预设阙值，再次确认人声存在预设唤醒词的概率是否大于第二预设阙值，包括：

若是，设备进入正常工作模式；

否则，重复执行设置主MCU在预设频率以下运行并且对所述声音信号运行第一语音识别算法，判断声音信号里是否识别到人声的步骤，直到设备进入正常工作模式；

特别的，上述第二语音识别算法偏向于低虚警概率，所述虚警概率在本文中为在判定过程中，由于存在噪声，将不是预设唤醒词识别为预设唤醒词的概率，第二语音算法针对虚警概率将其降到最小来判定识别的人声是否为预设唤醒声，上述第二预设阙值可以为99％

上述技术方案的工作原理为：当HVAD模块检测到人声的时候，将主MCU设置在预设频率以上运行，然后对人声运行第二语音识别算法来确认上述人声是否为预设唤醒词，若所述人声确定为预设唤醒词则设备进入正常工作模式，当所述人声不是预设唤醒词时，返回对声音信号接收的步骤继续识别声音信号直到设备进入正常工作模式为止。

上述技术方案的有益效果为：使用第二语音识别算法来对人声进行判定是否为预设唤醒词可以有效地避免主MCU判定错误而使设备意外进入到正常工作模式的情况，提高了判定的准确率，由于误判的时候设备会自动进入正常工作模式导致功率又上升，运行第二语音识别算法同时也可以降低设备的功率。

在一个实施例中，本方法还包括：

获取预设唤醒词；

将预设唤醒词预先录入主MCU里。

上述技术方案的有益效果为：提前将预设唤醒词录入主MCU里，使得主MCU可以根据第一语音识别算法和第二语音识别算法来确认HVAD模块检测到的声音信号是否为预设唤醒词。

在一个实施例中，设备为计算机、手机、平板电脑、车载设备、家居家电语音控制模块中的一种。

在一个实施例中，如图3所示，包括：

第1步：设备长时间无交互，主动进入待机模式。

第2步：进入待机模式后，关闭主MCU，打开HVAD(Hardware Voice ActivityDetection)模块。

第3步：HVAD模块检测到环境中的声音输入，打开主MCU进入低功耗模式。

第4步：设置主MCU为低频运行，运行低性能语音识别算法(偏向低漏警率)。若识别到人声，并疑似唤醒词，进行第5步；若持续一段时间都检测不到人声，返回第2步。

第5步：提高MCU主频，运行高性能语音识别算法(偏向低虚警率)，对第4步中的语音进行二次判定，若确认为唤醒词，则进入正常工作模式；否则返回第4步。

上述技术方案的工作原理和有益效果为：通过三级功耗模式，实现了一种低功耗的语音唤醒方法，既满足了待机模式下的极低功耗控制，又通过加入HVAD模块实现了待机模式下的语音唤醒，解决了强制需要用户参与模式切换的问题。此外，通过控制高低性能两套识别算法针对漏警率和虚警率的策略，保证语音唤醒性能的同时降低了嘈杂环境下的平均待机功耗。

一种语音唤醒装置，如图4所示，该装置包括：

控制模块，用于当确认模块确认声音信号为预设唤醒词时，控制所述设备进入正常工作模式，否则，继续控制检测模块和确认模块工作，直到设备进入正常工作模式。

在一个实施例中，检测模块包括：

关闭子模块，用于关闭主MCU,同时打开HVAD模块；

检测子模块，用于通过HVAD模块检测外部环境中的声音信号。

在一个实施例中，如图5所示，确认模块，包括：

接收子模块，用于通过主MCU接收HVAD模块检测到的声音信号；

判断子模块，用于设置主MCU在预设频率以下运行并且对所述声音信号运行第一语音识别算法，判断声音信号里是否识别到人声；

判定子模块，用于当判断子模块识别到人声，确认人声中存在预设唤醒词的概率是否大于第一预设阙值，若大于第一预设阙值，再次确认人声存在预设唤醒词的概率是否大于第二预设阙值；

在一个实施例中，判定子模块，包括：

确认单元，用于设置主MCU在预设频率以上运行，对人声运行第二语音识别算法，确认人声中存在预设唤醒词的概率是否大于第二预设阙值；

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音唤醒方法，其特征在于，包括以下步骤：

步骤101：检测设备的工作状态，若所述设备在第一预设时长内无交互，自动进入待机模式并且检测外部环境中的声音信号；

步骤102：当所述设备检测到声音信号后，确认所述声音信号是否为预设唤醒词；

若是，所述设备进入正常工作模式；

否则，继续重复所述步骤101和步骤102，直到所述设备进入正常工作模式。

2.根据权利要求1所述语音唤醒方法，其特征在于，所述检测设备的工作状态，若所述设备在第一预设时间内无交互，自动进入待机模式并且检测所述外部环境中的声音信号，包括：

关闭主MCU,同时打开HVAD模块；

通过所述HVAD模块检测所述外部环境中的声音信号。

3.根据权利要求2所述语音唤醒方法，其特征在于，所述当设备检测到声音信号后，确认所述声音信号是否为所述预设唤醒词，包括：

退出待机模式并且打开所述主MCU进入低功耗模式；

通过所述主MCU接收所述HVAD模块检测到的声音信号；

设置所述主MCU在预设频率以下运行并且对所述声音信号运行第一语音识别算法，判断所述声音信号里是否识别到人声；

若识别到人声，确认所述人声中存在所述预设唤醒词的概率是否大于第一预设阙值，若大于所述第一预设阙值，再次确认所述人声存在所述预设唤醒词的概率是否大于第二预设阙值；

若在第二预设时长内内没有识别到人声，继续进入待机模式，关闭所述主MCU并且打开所述HVAD模块来检测所述外部环境中的声音信号。

4.根据权利要求3所述语音唤醒方法，其特征在于，所述再次确认所述人声存在所述预设唤醒词的概率是否大于第二预设阙值包括：

设置所述主MCU在预设频率以上运行，对所述人声运行第二语音识别算法，确认所述人声中存在预设唤醒词的概率是否大于所述第二预设阙值；

若是，所述设备进入正常工作模式；

否则，重复执行设置所述主MCU在预设频率以下运行并且对所述声音信号运行第一语音识别算法，判断所述声音信号里是否识别到人声的步骤，直到所述设备进入正常工作模式。

5.根据权利要求4所述语音唤醒方法，其特征在于，所述方法还包括：

获取所述预设唤醒词；

将所述预设唤醒词预先录入所述主MCU里。

6.根据权利要求1至5任一所述语音唤醒方法，其特征在于，所述设备为计算机、手机、平板电脑、车载设备、家居家电语音控制模块中的一种。

7.一种语音唤醒装置，其特征在于，该装置包括：

检测模块，用于检测设备的工作状态，若所述设备在第一预设时长内无交互，自动进入待机模式并且检测外部环境中的声音信号；

确认模块，用于当所述设备检测到声音信号后，确认所述声音信号是否为预设唤醒词；

控制模块，用于当所述确认模块确认所述声音信号为所述预设唤醒词时，控制所述装置进入正常工作模式，否则，继续控制所述检测模块和所述确认模块工作，直到所述设备进入正常工作模式。

8.根据权利要求7所述语音唤醒装置，其特征在于，所述检测模块包括：

关闭子模块，用于关闭主MCU,同时打开HVAD模块；

检测子模块，用于通过所述HVAD模块检测所述外部环境中的声音信号。

9.根据权利要求8所述语音唤醒装置，其特征在于，所述确认模块，包括：

转换模式子模块，用于退出待机模式并且打开所述主MCU进入低功耗模式；

接收子模块，用于通过所述主MCU接收所述HVAD模块检测到的声音信号；

判断子模块，用于设置所述主MCU在预设频率以下运行并且对所述声音信号运行第一语音识别算法，判断所述声音信号里是否识别到人声；

判定子模块，用于当所述判断子模块识别到人声，确认所述人声中存在预设唤醒词的概率是否大于第一预设阙值，若大于所述第一预设阙值，再次确认所述人声存在所述预设唤醒词的概率是否大于第二预设阙值；

若在第二预设时长内没有识别到人声，返回所述检测模块继续运行。

10.根据权利要求9所述语音唤醒装置，其特征在于，所述判定子模块，包括：

确认单元，用于设置所述主MCU在预设频率以上运行，对所述人声运行第二语音识别算法，确认所述人声中存在预设唤醒词的概率是否大于第二预设阙值；

控制单元，用于当所述确认单元确认所述人声中存在所述预设唤醒词的概率大于所述第二预设阙值时，控制所述设备进入正常工作模式，否则，继续控制所述判断子模块工作，直到所述设备进入正常工作模式。