CN111429901B

CN111429901B - 一种面向IoT芯片的多级语音智能唤醒方法及系统

Info

Publication number: CN111429901B
Application number: CN202010182110.XA
Authority: CN
Inventors: 朱海周
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-03-21
Anticipated expiration: 2040-03-16
Also published as: CN111429901A

Abstract

本发明提供了一种面向IoT芯片的多级语音智能唤醒方法及系统，其中方法包括：步骤S1：当获取到待处理语音时；步骤S2：判断待处理语音是否符合第一预设条件；当待处理语音符合第一预设条件时，执行步骤S3；否则，结束唤醒；步骤S3：判断符合第一预设条件的待处理语音是否符合第二预设条件；当符合时，执行步骤S4；否则，结束唤醒；步骤S4：判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件；当符合时，执行步骤S5；否则，结束唤醒；步骤S5：全面唤醒IoT芯片。本发明提供的面向IoT芯片的多级语音智能唤醒方法，将唤醒系统进行分级，采用逐级唤醒和逐级上电机制，降低了整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

Description

一种面向IoT芯片的多级语音智能唤醒方法及系统

技术领域

本发明涉及与唤醒技术领域，特别涉及一种面向IoT芯片的多级语音智能唤醒方法及系统。

背景技术

目前，按照芯片的启动流程，一般将IoT芯片分为两个大的电源域，第一个电源域是唤醒系统，第二个电源域是芯片中除唤醒系统以外的所有其他部分。从芯片上电开始，芯片的唤醒系统就开始工作，此时有且仅有第一个电源域有电。只有当唤醒系统检测通过之后才会给第二个电源域上电，从而使整颗芯片处于工作状态。

现有IoT芯片的唤醒系统仅仅包含能量检测技术，即检测到声音超过某个能量阈值时，会启动整颗芯片进行声音识别，而此时输入的声音可能不是人声或者是人声但不是该设备的唤醒词，这两种情况下均会导致整颗芯片被误唤醒，且实际应用时这两种情况出现的概率很高，从而导致芯片的整体功耗较高。

发明内容

本发明提供一种面向IoT芯片的多级语音智能唤醒方法，将唤醒系统进行分级，采用逐级唤醒和逐级上电机制，降低了整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

本发明实施例提供一种面向IoT芯片的多级语音智能唤醒方法，包括：

步骤S1：当获取到待处理语音时，执行步骤S2；

步骤S2：判断待处理语音是否符合第一预设条件；当待处理语音符合第一预设条件时，执行步骤S3；否则，结束唤醒；

步骤S3：判断符合第一预设条件的待处理语音是否符合第二预设条件；当符合时，执行步骤S4；否则，结束唤醒；

步骤S4：判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件；当符合时，执行步骤S5；否则，结束唤醒；

步骤S5：全面唤醒IoT芯片。

优选的，第一预设条件为待处理语音的能量大于预设值；此时，步骤S2包括如下操作：

步骤S21：计算待处理语音的短时能量值；

步骤S22：判断短时能量值是否大于预设能量值，当大于时，为符合第一预设条件，执行步骤S3；当小于等于时，为不符合第一预设条件，结束唤醒。

优选的，第二预设条件为人声；此时，步骤S3包括如下操作：

步骤S31：获取符合第一预设条件的待处理语音为第一语音；

步骤S32：提取第一语音的特征值；

步骤S33：将特征值与预先存储的对应人声的特征值进行匹配，当匹配符合时，确定第一语音符合是人声，执行步骤S4；否则，结束唤醒。

优选的，第三预设条件为包含唤醒词；此时，步骤S4包括如下操作：

步骤S41：获取符合第一预设条件且符合第二预设条件的待处理语音为第二语音；

步骤S42：基于自动语音识别技术将第二语音转换为语音数据；

步骤S43：当语音数据中包含的音素的数目小于唤醒词的音素的数目时，结束唤醒；当音素的数目大于等于唤醒词的音素的数目时，执行步骤S44；

步骤S44：获取语音数据的音素阵列；获取唤醒词的音素阵列；

步骤S45：将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测，检测语音数据的音素阵列是否包含唤醒词的音素阵列；

步骤S46：当包含时，执行步骤S5；否则，结束唤醒。

优选的，步骤S45：将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测，检测语音数据的音素阵列是否包含唤醒词的音素阵列，具体包括：

将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第一个音素对应；将唤醒词的音素阵列中第一个音素后续的每一个音素与语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应，确定该对应关系的匹配值；

然后，依次将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应，确定出多个匹配值；

当多个匹配值中存在一个匹配值大于等于预设匹配值，则判定语音数据的音素阵列包含唤醒词的音素阵列；当多个匹配值都小于预设匹配值时，则判定语音数据的音素阵列不包含唤醒词的音素阵列。

本发明还提供一种面向IoT芯片的多级语音智能唤醒系统包括：

语音获取模块，用于获取待处理语音

第一唤醒模块，用于判断待处理语音是否符合第一预设条件；当待处理语音符合第一预设条件时，唤醒第二唤醒模块；否则，结束唤醒；

第二唤醒模块，用于判断符合第一预设条件的待处理语音是否符合第二预设条件；当符合时，唤醒第三唤醒模块；否则，结束唤醒；

第三唤醒模块，用于判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件；当符合时，唤醒IoT芯片；否则，结束唤醒。

优选的，第一预设条件为待处理语音的能量大于预设值；第一唤醒模块执行包括如下操作：

步骤S21：计算待处理语音的短时能量值；

步骤S22：判断短时能量值是否大于预设能量值，当大于时，为符合第一预设条件，唤醒第二唤醒模块；当小于等于时，为不符合第一预设条件，结束唤醒。

优选的，第二预设条件为人声；第二唤醒模块执行包括如下操作：

步骤S31：获取符合第一预设条件的待处理语音为第一语音；

步骤S32：提取第一语音的特征值；

步骤S33：将特征值与预先存储的对应人声的特征值进行匹配，当匹配符合时，确定第一语音符合是人声，唤醒第三唤醒模块；否则，结束唤醒。

优选的，第三预设条件为包含唤醒词；第三唤醒模块执行包括如下操作：

步骤S46：当包含时，唤醒IoT芯片；否则，结束唤醒。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种面向IoT芯片的多级语音智能唤醒方法的示意图；

图2为本发明实施例中一种面向IoT芯片的多级语音智能唤醒系统的示意图；

图3为本发明实施例中又一种面向IoT芯片的多级语音智能唤醒方法的示意图。

图中：

1、语音获取模块；2、第一唤醒模块；3、第二唤醒模块；4、第三唤醒模块。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种面向IoT芯片的多级语音智能唤醒方法，如图1所示，包括：

步骤S1：当获取到待处理语音时，执行步骤S2；

步骤S2：判断待处理语音是否符合第一预设条件；

当待处理语音符合第一预设条件时，执行步骤S3；否则，结束唤醒；

步骤S3：判断符合第一预设条件的待处理语音是否符合第二预设条件；

当符合时，执行步骤S4；否则，结束唤醒；

步骤S4：判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件；

当符合时，执行步骤S5；否则，结束唤醒；

步骤S5：全面唤醒IoT芯片。

上述技术方案的工作原理及有益效果为：

将IoT芯片分为四个电源域，第一个电源域为执行步骤S2的区域，第二个电源域为执行步骤S3的区域，第三个电源域为执行步骤S4的区域，前三个电源域对应现有技术中的第一电源域【唤醒系统】；第四个电源域为芯片中执行步骤S2、步骤S3和步骤S4以外的所有其他部分【对应现有技术中的第二电源域】；

从芯片上电开始，芯片的唤醒功能就开始工作，此时有且仅有第一个电源域有电；此时为第一级检测，当待处理语音符合第一预设条件时，第二电源域才会被上电。当第二电源域上电后此时有且仅有第一个和第二个电源域有电；可进行第二级检测，当待处理语音符合第二预设条件时，第三电源域才会被上电。当第三电源域上电后此时有且仅有第一、二和三个电源域有电；可进行第三级检测，当待处理语音符合第三预设条件时，第四电源域被上电。当第四电源域被上电后，此时，芯片的所有电源域全部被上电。这种逐级唤醒和逐级上电机制，降低了整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

本发明提供的面向IoT芯片的多级语音智能唤醒方法，将唤醒系统进行分级，采用逐级唤醒和逐级上电机制，降低了整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

在一个实施例中，第一预设条件为待处理语音的能量大于预设值；此时，步骤S2包括如下操作：

步骤S21：计算待处理语音的短时能量值；

上述技术方案的工作原理及有益效果为：

唤醒系统的第一级检测主要是对待处理语音的短时能量值进行检测，当其大于预设能量值时才会唤醒第二电源域，避免距离过远或者细微声音导致的误唤醒判断，从而降低整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

在一个实施例中，第二预设条件为人声；此时，步骤S3包括如下操作：

步骤S31：获取符合第一预设条件的待处理语音为第一语音；

步骤S32：提取第一语音的特征值；

上述技术方案的工作原理及有益效果为：

第二级检测为人声的检测，即只有待处理语音为人声时才会唤醒第三级电源域，避免了动物、敲击等其他物体或动作发出的声音而引起的误唤醒判断，从而降低整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

在一个实施例中，第三预设条件为包含唤醒词；此时，步骤S4包括如下操作：

步骤S46：当包含时，执行步骤S5；否则，结束唤醒。

上述技术方案的工作原理及有益效果为：

声音都是由各个音素【音节】组成；音素阵列是一段语音数据中各个音素依次排列组成的数组；第一个音素就是排在音素阵列的数组的第一位的音素，即声音或语音的第一个音节。

第三级检测为判断是否包含唤醒词，即只有待处理语音包含唤醒词时才会唤醒第四级电源域，采用唤醒机制，从而极大的降低了芯片的整体功耗。在第三级检测时，先判断音素数目是否达到唤醒词包含的音素数目，提高判断效率。

在一个实施例中，步骤S45：将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测，检测语音数据的音素阵列是否包含唤醒词的音素阵列，具体包括：

上述技术方案的工作原理及有益效果为：

通过上述滑动相关检测，保证检测结果的准确性，从而有效避免唤醒误判，从而降低了整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

在一个实施例中，如图3所示，接收声音信号【待处理语音】；第一级检测为能量检测，第一预设条件为能量【短时能量】大于预设能量值。第二级检测为人声检测，第二预设条件为是人声。第三级检测为唤醒词检测，第三预设条件为包含唤醒词。只用通过上述三层检测后才能全面启动芯片。

此外，例如第一个到第四个电源域的平均功耗分别为13mW，22mW，37mW，135mW，在此基础上对比和分析IoT芯片的功耗情况。

从表中可以看出，误唤醒次数明显降低，从而极大的降低了芯片的整体功耗。

语音获取模块1，用于获取待处理语音

第一唤醒模块2，用于判断待处理语音是否符合第一预设条件；当待处理语音符合第一预设条件时，唤醒第二唤醒模块3；否则，结束唤醒；

第二唤醒模块3，用于判断符合第一预设条件的待处理语音是否符合第二预设条件；当符合时，唤醒第三唤醒模块4；否则，结束唤醒；

第三唤醒模块4，用于判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件；当符合时，唤醒IoT芯片；否则，结束唤醒。

上述技术方案的工作原理及有益效果为：

将IoT芯片分为四个电源域，第一个电源域为语音获取模块1和第一唤醒模块2供电的区域，第二个电源域为第二唤醒模块3供电的区域，第三个电源域为第三唤醒模块4供电的区域，前三个电源域对应现有技术中的第一电源域【唤醒系统】；第四个电源域为芯片中除了语音获取模块1、第一唤醒模块2、第二唤醒模块3和第三唤醒模块4以外的所有其他部分【对应现有技术中的第二电源域】；

从芯片上电开始，芯片的唤醒功能就开始工作，此时有且仅有第一个电源域有电；此时为语音获取模块1和第一唤醒模块2，第一唤醒模块2判断当待处理语音符合第一预设条件时，第二电源域才会被上电。当第二电源域上电后此时有且仅有第一个和第二个电源域有电；第二唤醒模块3工作，当待处理语音符合第二预设条件时，第三电源域才会被上电。当第三电源域上电后此时有且仅有第一、二和三个电源域有电；第三唤醒模块4工作，当待处理语音符合第三预设条件时，第四电源域被上电。当第四电源域被上电后，此时，芯片的所有电源域全部被上电。这种逐级唤醒和逐级上电机制，降低了整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

本发明的面向IoT芯片的多级语音智能唤醒系统，将唤醒系统进行分级，采用逐级唤醒和逐级上电机制，降低了整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

在一个实施例中，第一预设条件为待处理语音的能量大于预设值；第一唤醒模块2执行包括如下操作：

步骤S21：计算待处理语音的短时能量值；

步骤S22：判断短时能量值是否大于预设能量值，当大于时，为符合第一预设条件，唤醒第二唤醒模块3；当小于等于时，为不符合第一预设条件，结束唤醒。

上述技术方案的工作原理及有益效果为：

唤醒系统的第一唤醒模块2主要是对待处理语音的短时能量值进行检测，当其大于预设能量值时才会唤醒第二唤醒模块3，避免距离过远或者细微声音导致的误唤醒判断，从而降低整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗

在一个实施例中，第二预设条件为人声；第二唤醒模块3执行包括如下操作：

步骤S31：获取符合第一预设条件的待处理语音为第一语音；

步骤S32：提取第一语音的特征值；

步骤S33：将特征值与预先存储的对应人声的特征值进行匹配，当匹配符合时，确定第一语音符合是人声，唤醒第三唤醒模块4；否则，结束唤醒。

上述技术方案的工作原理及有益效果为：

第二唤醒模块3为人声的检测，即只有待处理语音为人声时才会唤醒第三唤醒模块4，避免了动物、敲击等其他物体或动作发出的声音而引起的误唤醒判断，从而降低整个芯片的误唤醒率，从而极大的降低了芯片的整体功耗。

在一个实施例中，第三预设条件为包含唤醒词；第三唤醒模块4执行包括如下操作：

步骤S46：当包含时，唤醒IoT芯片；否则，结束唤醒。

上述技术方案的工作原理及有益效果为：

第三唤醒模块4为判断是否包含唤醒词，即只有待处理语音包含唤醒词时才会唤醒第四级电源域，采用唤醒机制，从而极大的降低了芯片的整体功耗。在第三级检测时，先判断音素数目是否达到唤醒词包含的音素数目，提高判断效率。

上述技术方案的工作原理及有益效果为：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向IoT芯片的多级语音智能唤醒方法，其特征在于，包括：

步骤S1：当获取到待处理语音时，执行步骤S2；

步骤S2：判断所述待处理语音是否符合第一预设条件；当所述待处理语音符合所述第一预设条件时，执行步骤S3；否则，结束唤醒；

步骤S3：判断所述符合第一预设条件的待处理语音是否符合第二预设条件；当符合时，执行步骤S4；否则，结束唤醒；

步骤S4：判断所述符合第一预设条件且符合所述第二预设条件的待处理语音是否符合第三预设条件；当符合时，执行步骤S5；否则，结束唤醒；

步骤S5：全面唤醒IoT芯片；

其中，所述第三预设条件为包含唤醒词；此时，步骤S4包括如下操作：

步骤S41：获取符合所述第一预设条件且符合所述第二预设条件的待处理语音为第二语音；

步骤S42：基于自动语音识别技术将所述第二语音转换为语音数据；

步骤S43：当所述语音数据中包含的音素的数目小于所述唤醒词的音素的数目时，结束唤醒；当所述音素的数目大于等于所述唤醒词的音素的数目时，执行步骤S44；

步骤S44：获取所述语音数据的音素阵列；获取所述唤醒词的音素阵列；

步骤S45：将所述唤醒词的音素阵列与所述语音数据的音素阵列做滑动相关检测，检测所述语音数据的音素阵列是否包含所述唤醒词的音素阵列；

步骤S46：当包含时，执行步骤S5；否则，结束唤醒；

其中，所述步骤S45：将所述唤醒词的音素阵列与所述语音数据的音素阵列做滑动相关检测，检测所述语音数据的音素阵列是否包含所述唤醒词的音素阵列，具体包括：

将所述唤醒词的音素阵列中第一个音素与所述语音数据的音素阵列中的第一个音素对应；将所述唤醒词的音素阵列中第一个音素后续的每一个音素与所述语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应，确定该对应关系的匹配值；

然后，依次将唤醒词的音素阵列中第一个音素与所述语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应，确定出多个所述匹配值；

当多个所述匹配值中存在一个所述匹配值大于等于预设匹配值，则判定所述语音数据的音素阵列包含所述唤醒词的音素阵列；当多个所述匹配值都小于预设匹配值时，则判定所述语音数据的音素阵列不包含所述唤醒词的音素阵列。

2.如权利要求1所述的面向IoT芯片的多级语音智能唤醒方法，其特征在于，所述第一预设条件为所述待处理语音的能量大于预设值；此时，步骤S2包括如下操作：

步骤S21：计算所述待处理语音的短时能量值；

步骤S22：判断所述短时能量值是否大于预设能量值，当大于时，为符合第一预设条件，执行步骤S3；当小于等于时，为不符合第一预设条件，结束唤醒。

3.如权利要求1所述的面向IoT芯片的多级语音智能唤醒方法，其特征在于，所述第二预设条件为人声；此时，步骤S3包括如下操作：

步骤S31：获取符合第一预设条件的待处理语音为第一语音；

步骤S32：提取所述第一语音的特征值；

步骤S33：将所述特征值与预先存储的对应人声的特征值进行匹配，当匹配符合时，确定所述第一语音符合是人声，执行步骤S4；否则，结束唤醒。

4.一种面向IoT芯片的多级语音智能唤醒系统，其特征在于，包括：

语音获取模块(1)，用于获取待处理语音

第一唤醒模块(2)，用于判断所述待处理语音是否符合第一预设条件；当所述待处理语音符合所述第一预设条件时，唤醒第二唤醒模块(3)；否则，结束唤醒；

所述第二唤醒模块(3)，用于判断所述符合第一预设条件的待处理语音是否符合第二预设条件；当符合时，唤醒第三唤醒模块(4)；否则，结束唤醒；

所述第三唤醒模块(4)，用于判断所述符合第一预设条件且符合所述第二预设条件的待处理语音是否符合第三预设条件；当符合时，唤醒IoT芯片；否则，结束唤醒；

其中，所述第三预设条件为包含唤醒词；所述第三唤醒模块(4)执行包括如下操作：

步骤S46：当包含时，唤醒IoT芯片；否则，结束唤醒；

5.如权利要求4所述的面向IoT芯片的多级语音智能唤醒系统，其特征在于，所述第一预设条件为所述待处理语音的能量大于预设值；所述第一唤醒模块(2)执行包括如下操作：

步骤S21：计算所述待处理语音的短时能量值；

步骤S22：判断所述短时能量值是否大于预设能量值，当大于时，为符合第一预设条件，唤醒所述第二唤醒模块(3)；当小于等于时，为不符合第一预设条件，结束唤醒。

6.如权利要求4所述的面向IoT芯片的多级语音智能唤醒系统，其特征在于，所述第二预设条件为人声；所述第二唤醒模块(3)执行包括如下操作：

步骤S31：获取符合第一预设条件的待处理语音为第一语音；

步骤S32：提取所述第一语音的特征值；

步骤S33：将所述特征值与预先存储的对应人声的特征值进行匹配，当匹配符合时，确定所述第一语音符合是人声，唤醒第三唤醒模块(4)；否则，结束唤醒。