CN108877808B

CN108877808B - 一种防误触的语音唤醒方法及家教设备

Info

Publication number: CN108877808B
Application number: CN201810816778.8A
Authority: CN
Inventors: 杨昊民
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2020-12-25
Anticipated expiration: 2038-07-24
Also published as: CN108877808A

Abstract

本发明实施例涉及家教设备技术领域，公开了一种防误触的语音唤醒方法及家教设备，该方法为：家教设备在处于休眠状态时，检测是否收到包含唤醒关键词的第一语音信号；若收到，所述家教设备从所述第一语音信号中提取出所述第一语音信号的声音特征；所述家教设备根据所述第一语音信号的声音特征，判断所述第一语音信号是否属于特定的语音片段；其中，所述特定的语音片段至少包括含有所述唤醒关键词的演示音视频或音视频推广广告；若所述第一语音信号不属于所述特定的语音片段，将所述家教设备由所述休眠状态切换至等待指令状态。实施本发明实施例，能够降低家教设备的整机功耗，有利于延长家教设备的续航时间。

Description

一种防误触的语音唤醒方法及家教设备

技术领域

本发明涉及家教设备技术领域，具体涉及一种防误触的语音唤醒方法及家教设备。

背景技术

目前，越来越多的中小学生使用家教设备(如家教机)来辅助学习。其中，在家教设备处于休眠状态时，可以采用语音唤醒方法来唤醒家教设备，以使家教设备可以处于等待指令状态。其中，语音唤醒方法一般是基于关键词识别，只要家教设备的麦克风捕获的语音信号中包含唤醒关键词，家教设备就将其状态由休眠状态切换至等待指令状态。

在实践中发现，家教设备只要识别出捕获到的语音信号中包含唤醒关键词就切换至等待指令状态。例如，当家长用手机播放家教设备的演示音视频时，如果演示音视频中涉及到唤醒家教设备的演示步骤，家教设备捕获到演示音视频中的唤醒关键词时，也会误认为用户唤醒家教设备的需求，这种误触发的操作会增加家教设备的整机功耗，不利于延长家教设备的续航时间。

发明内容

本发明实施例公开了一种防误触的语音唤醒方法及家教设备，能够降低家教设备的整机功耗，有利于延长家教设备的续航时间。

本发明实施例第一方面公开一种防误触的语音唤醒方法，所述方法包括：

家教设备在处于休眠状态时，检测是否收到包含唤醒关键词的第一语音信号；

若收到，所述家教设备从所述第一语音信号中提取出所述第一语音信号的声音特征；

所述家教设备根据所述第一语音信号的声音特征，判断所述第一语音信号是否属于特定的语音片段；其中，所述特定的语音片段至少包括含有所述唤醒关键词的演示音视频或音视频推广广告；

若所述第一语音信号不属于所述特定的语音片段，将所述家教设备由所述休眠状态切换至等待指令状态。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述家教设备从所述休眠状态切换至等待指令状态之后，所述方法还包括：

所述家教设备检测用户针对所述家教设备的某一应用程序输入的用于启动所述应用程序的第二语音信号；

所述家教设备从所述第二语音信号中提取出所述第二语音信号的声音特征，作为目标声纹特征；

所述家教设备读取预设的用于禁止启动所述应用程序的指定语音信号的指定声纹特征；

所述家教设备校验所述目标声音特征与所述指定声纹特征是否匹配，若匹配，所述家教设备输出用于提示所述应用程序无法启动的虚拟场景提示界面；

所述家教设备在所述虚拟场景提示界面输出所述指定声纹特征所属用户对应的虚拟人物；

所述家教设备控制所述虚拟人物在执行预设动画的同时，播报预设提示信息；其中，所述预设动画和所述预设提示信息均用于提示所述应用程序无法启动，从而能够防止中小学生在使用家教设备时沉迷某一娱乐类应用而影响学习。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：

若所述家教设备校验所述目标声纹特征与所述指定声纹特征不匹配，所述家教设备控制摄像头朝向所述家教设备的屏幕前方进行拍摄，获得拍摄图像；

所述家教设备利用人像特征算法确定所述拍摄图像中是否包含人像；

若包含人像，所述家教设备利用人像属性算法对所述人像进行前向计算得到所述人像的属性信息；其中，所述人像属性算法是基于多个样本人像图像以及所述多个样本人像图像的多个属性信息的识别结果按照属性信息的不同类型进行训练得到；其中，所述属性信息包括：年龄、性别以及身高；

所述家教设备校验所述人像的属性信息是否与所述家教设备预设的用于禁止启动所述应用程序的指定人像的属性信匹配，若匹配，所述家教设备输出用于提示所述应用程序无法启动的虚拟场景提示界面。

作为一种可选的实施方式，在本发明实施例第一方面中，所述人像属性算法通过以下方式训练得到，即：

所述家教设备读取预先录入的样本人像数据，每个样本人像数据中包含样本人像图像以及样本人像图像的多个属性信息；

所述家教设备从所述样本人像图像中提取人像特征；

所述家教设备根据初始模型中的不同属性信息对应的子模型对每个样本人像图像的人像特征进行前向计算，得到每个样本人像图像的多个属性信息的预测值；

所述家教设备根据所述预测值与属性信息的值，按照属性信息的不同类型计算得到所述多个属性信息的损耗；

所述家教设备将所述多个属性信息的损耗求和，得到所述多个属性信息的总损耗；

所述家教设备对所述初始模型中的不同属性信息对应的子模型的参数进行调整，直到调整后的参数使得所述多个属性信息的总损耗小于或等于预设阈值时，停止调整得到所述人像属性算法。

若所述家教设备校验所述人像的属性信息与所述家教设备预设的用于禁止启动所述应用程序的指定人像的属性信不匹配，所述家教设备对所述指定语音信号以及所述第二语音信号进行合成得到合法语音信号；

所述家教设备判断所述合法语音信号是否与所述家教设备预设的用于启动所述应用程序的验证语音信号匹配，若匹配，开启所述应用程序。

其中，所述家教设备对所述指定语音信号以及所述第二语音信号进行合成得到合法语音信号，包括：

所述家教设备确定所述指定语音信号与所述第二语音信号之间的对齐点；其中，所述对齐点是指所述指定语音信号与所述第二语音信号合成的开始位置；

所述家教设备根据所述对齐点将所述指定语音信号与所述第二语音信号合成为合成语音信号；

所述家教设备确定所述指定语音信号与所述第二语音信号之间的对齐点，包括：

所述家教设备计算所述指定语音信号的第一时长以及所述第二语音信号的第二时长；其中，所述第一时长表示所述指定语音信号的语音持续的时间；所述第二时长表示所述第二语音信号的语音持续的时间；

所述家教设备计算所述第一时长和所述第二时长之间的差值；

所述家教设备判断所述差值是否小于或等于预设数值，若是，对所述指定语音信号和所述第二语音信号中的任一语音进行周期上的缩放，以获得最终持续时长相同的指定语音信号和第二语音信号，再以所述最终持续时长相同的指定语音信号和第二语音信号的首个音频帧作为对齐点。

本发明实施例第二方面公开一种家教设备，包括：

检测单元，用于在所述家教设备处于休眠状态时，检测是否收到包含唤醒关键词的第一语音信号；

提取单元，用于在所述检测单元的检测结果为是时，从所述第一语音信号中提取出所述第一语音信号的声音特征；

判断单元，用于根据所述第一语音信号的声音特征，判断所述第一语音信号是否属于特定的语音片段；其中，所述特定的语音片段至少包括含有所述唤醒关键词的演示音视频或音视频推广广告；

切换单元，用于在所述判断单元判断出所述第一语音信号不属于所述特定的语音片段时，将所述家教设备由所述休眠状态切换至等待指令状态。

作为一种可选的实施方式，在本发明实施例第二方面中：

所述检测单元，还用于在所述家教设备从所述休眠状态切换至等待指令状态之后，检测用户针对所述家教设备的某一应用程序输入的用于启动所述应用程序的第二语音信号；

所述提取单元，还用于从所述第二语音信号中提取出所述第二语音信号的声音特征，作为目标声纹特征；

所述家教设备还包括：

读取单元，用于读取所述家教设备预设的用于禁止启动所述应用程序的指定语音信号的指定声纹特征；

校验单元，用于校验所述目标声音特征与所述指定声纹特征是否匹配；

输出单元，用于在所述校验单元的校验结果为匹配时，输出用于提示所述应用程序无法启动的虚拟场景提示界面；以及，在所述虚拟场景提示界面输出所述指定声纹特征所属用户对应的虚拟人物；

控制单元，用于控制所述虚拟人物在执行预设动画的同时，播报预设提示信息；其中，所述预设动画和所述预设提示信息均用于提示所述应用程序无法启动。

作为一种可选的实施方式，在本发明实施例第二方面中，还包括：

处理单元，用于在所述校验单元校验出所述目标声纹特征与所述指定声纹特征不匹配是，控制摄像头朝向所述家教设备的屏幕前方进行拍摄，获得拍摄图像；利用人像特征算法确定所述拍摄图像中是否包含人像；若包含人像，所述家教设备利用人像属性算法对所述人像进行前向计算得到所述人像的属性信息；其中，所述人像属性算法是基于多个样本人像图像以及所述多个样本人像图像的多个属性信息的识别结果按照属性信息的不同类型进行训练得到；其中，所述属性信息包括：年龄、性别以及身高；

所述处理单元，还还用于校验所述人像的属性信息是否与所述家教设备预设的用于禁止启动所述应用程序的指定人像的属性信匹配；

所述输出单元，还用于在所述处理单元校验出所述人像的属性信息与所述家教设备预设的用于禁止启动所述应用程序的指定人像的属性信匹配时，输出用于提示所述应用程序无法启动的虚拟场景提示界面。

作为一种可选的实施方式，在本发明实施例第二方面中，所述人像属性算法是所述处理单元通过以下方式训练得到，即：

读取预先录入的样本人像数据，每个样本人像数据中包含样本人像图像以及样本人像图像的多个属性信息；

从所述样本人像图像中提取人像特征；

根据初始模型中的不同属性信息对应的子模型对每个样本人像图像的人像特征进行前向计算，得到每个样本人像图像的多个属性信息的预测值；

根据所述预测值与属性信息的值，按照属性信息的不同类型计算得到所述多个属性信息的损耗；

将所述多个属性信息的损耗求和，得到所述多个属性信息的总损耗；

对所述初始模型中的不同属性信息对应的子模型的参数进行调整，直到调整后的参数使得所述多个属性信息的总损耗小于或等于预设阈值时，停止调整得到所述人像属性算法。

作为一种可选的实施方式，在本发明实施例第二方面中，所述家教设备还包括：

合成单元，用于在所述处理单元校验所述人像的属性信息与所述家教设备预设的用于禁止启动所述应用程序的指定人像的属性信不匹配时，对所述指定语音信号以及所述第二语音信号进行合成得到合法语音信号；

匹配单元，用于判断所述合法语音信号是否与所述家教设备预设的用于启动所述应用程序的验证语音信号匹配；

开启单元，用于在所述匹配单元的判断结果为匹配时，开启所述应用程序。

其中，所述合成单元对所述指定语音信号以及所述第二语音信号进行合成得到合法语音信号，包括：

所述合成单元确定所述指定语音信号与所述第二语音信号之间的对齐点；其中，所述对齐点是指所述指定语音信号与所述第二语音信号合成的开始位置；

所述合成单元根据所述对齐点将所述指定语音信号与所述第二语音信号合成为合成语音信号；

所述合成单元确定所述指定语音信号与所述第二语音信号之间的对齐点，包括：

所述合成单元计算所述指定语音信号的第一时长以及所述第二语音信号的第二时长；其中，所述第一时长表示所述指定语音信号的语音持续的时间；所述第二时长表示所述第二语音信号的语音持续的时间；

所述合成单元计算所述第一时长和所述第二时长之间的差值；

所述合成单元判断所述差值是否小于或等于预设数值，若是，对所述指定语音信号和所述第二语音信号中的任一语音进行周期上的缩放，以获得最终持续时长相同的指定语音信号和第二语音信号，再以所述最终持续时长相同的指定语音信号和第二语音信号的首个音频帧作为对齐点。

本发明实施例第三方面公开一种家教设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的所述防误触的语音唤醒方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的所述防误触的语音唤醒方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，家教设备在处于休眠状态时若检测到包含唤醒关键词的第一语音信号，家教设备可以根据第一语音信号的声音特征判断第一语音信号是否属于特定的语音片段；其中，特定的语音片段至少包括含有唤醒关键词的演示音视频或音视频推广广告；若第一语音信号不属于特定的语音片段，家教设备才将家教设备由休眠状态切换至等待指令状态。可见，实施本发明实施例，家教设备可以在判断出包含唤醒关键词的第一语音信号不属于包括含有唤醒关键词的演示音视频或音视频推广广告时，才将家教设备由休眠状态切换至等待指令状态，从而可以提高将家教设备由休眠状态切换至等待指令状态的精确性，减少由包括含有唤醒关键词的演示音视频或音视频推广广告误触发引起的家教设备的状态切换，从而可以降低家教设备的整机功耗，有利于延长家教设备的续航时间。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种防误触的语音唤醒方法的流程示意图；

图2是本发明实施例公开的另一种防误触的语音唤醒方法的流程示意图；

图3是本发明实施例公开的一种家教设备的结构示意图；

图4是本发明实施例公开的另一种家教设备的结构示意图；

图5是本发明实施例公开的另一种家教设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种防误触的语音唤醒方法及家教设备，能够降低家教设备的整机功耗，有利于延长家教设备的续航时间。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种防误触的语音唤醒方法的流程示意图。如图1所示，该方法可以包括以下步骤：

101、家教设备在处于休眠状态时，检测是否收到包含唤醒关键词的第一语音信号，若未收到，结束本流程；若收到，执行步骤102-步骤103。

102、家教设备从第一语音信号中提取出第一语音信号的声音特征。

103、家教设备根据第一语音信号的声音特征，判断第一语音信号是否属于特定的语音片段；其中，特定的语音片段至少包括含有唤醒关键词的演示音视频或音视频推广广告；若第一语音信号属于特定的语音片段，结束本流程；若第一语音信号不属于特定的语音片段，执行步骤104。

104、家教设备将家教设备由休眠状态切换至等待指令状态。

在图1所描述的方法中，家教设备可以在判断出包含唤醒关键词的第一语音信号不属于包括含有唤醒关键词的演示音视频或音视频推广广告时，才将家教设备由休眠状态切换至等待指令状态，从而可以提高将家教设备由休眠状态切换至等待指令状态的精确性，减少由包括含有唤醒关键词的演示音视频或音视频推广广告误触发引起的家教设备的状态切换，从而可以降低家教设备的整机功耗，有利于延长家教设备的续航时间。

实施例二

请参阅图2，图2是本发明实施例公开的另一种防误触的语音唤醒方法的流程示意图。如图2所示，该方法可以包括以下步骤：

201、家教设备在处于休眠状态时，检测是否收到包含唤醒关键词的第一语音信号，若未收到，结束本流程；若收到，执行步骤202-步骤203。

202、家教设备从第一语音信号中提取出第一语音信号的声音特征。

203、家教设备根据第一语音信号的声音特征，判断第一语音信号是否属于特定的语音片段；其中，特定的语音片段至少包括含有唤醒关键词的演示音视频或音视频推广广告；若第一语音信号属于特定的语音片段，结束本流程；若第一语音信号不属于特定的语音片段，执行步骤204-步骤208。

204、家教设备将家教设备由休眠状态切换至等待指令状态。

205、家教设备检测用户针对家教设备的某一应用程序输入的用于启动该应用程序的第二语音信号。

206、家教设备从第二语音信号中提取出第二语音信号的声音特征，作为目标声纹特征。

207、家教设备读取预设的用于禁止启动该应用程序的指定语音信号的指定声纹特征。

208、家教设备校验目标声音特征与指定声纹特征是否匹配，若匹配，执行步骤209；若不匹配，执行步骤210-步骤211。

209、家教设备输出用于提示该应用程序无法启动的虚拟场景提示界面，在虚拟场景提示界面输出指定声纹特征所属用户对应的虚拟人物；以及，控制虚拟人物在执行预设动画的同时，播报预设提示信息；其中，预设动画和预设提示信息均用于提示该应用程序无法启动；结束本流程。

210、家教设备控制摄像头朝向家教设备的屏幕前方进行拍摄，获得拍摄图像。

211、家教设备利用人像特征算法确定拍摄图像中是否包含人像，若包含人像，执行步骤212-步骤213；若未包含，结束本流程。

作为一种可选的实施方式，家教设备利用人像特征算法确定拍摄图像中是否包含人像，包括：

家教设备从模板数据库中读取出常见姿势模板；

以及，家教设备根据拍摄图像中的地理场景从常见姿势模板中确定待用姿势模板；

以及，家教设备根据待用姿势模板确定待用姿势的包络框；

以及，家教设备利用包络框在拍摄图像中进行匹配，若匹配成功，则确定拍摄图像中包含人像。

其中，待用姿势模板可以包括端坐姿势、站立姿势、下蹲姿势、平卧姿势以及侧卧姿势。

212、家教设备利用人像属性算法对该人像进行前向计算得到该人像的属性信息；其中，该人像属性算法是基于多个样本人像图像以及多个样本人像图像的多个属性信息的识别结果按照属性信息的不同类型进行训练得到；其中，属性信息包括：年龄、性别以及身高。

作为一种可选的实施方式，人像属性算法是家教设备通过以下方式训练得到，即：

家教设备读取预先录入的样本人像数据，每个样本人像数据中包含样本人像图像以及样本人像图像的多个属性信息；

以及，家教设备从样本人像图像中提取人像特征；

以及，家教设备根据初始模型中的不同属性信息对应的子模型对每个样本人像图像的人像特征进行前向计算，得到每个样本人像图像的多个属性信息的预测值；

以及，家教设备根据预测值与属性信息的值，按照属性信息的不同类型计算得到多个属性信息的损耗；

以及，家教设备将多个属性信息的损耗求和，得到多个属性信息的总损耗；

以及，家教设备对初始模型中的不同属性信息对应的子模型的参数进行调整，直到调整后的参数使得多个属性信息的总损耗小于或等于预设阈值时，停止调整得到人像属性算法。

作为一种可选的实施方式，家教设备根据预测值与属性信息的值，按照属性信息的不同类型计算得到多个属性信息的损耗，包括：

对于多个属性信息中每一个属性信息，若该属性信息为回归属性，按照如下公式对该属性信息的预测值和属性信息的值进行计算，得到该属性信息的损耗：

其中，m表示该属性信息在多个属性信息中的编号，

表示初始模型计算得到的预测值，

表示该属性信息的值，i表示回归维度，j表示回归维度的标，L表示该属性信息对应的损耗。

或者，家教设备根据预测值与属性信息的值，按照属性信息的不同类型计算得到多个属性信息的损耗，包括：

对于多个属性信息中每一个属性信息，若该属性信息不为回归属性，按照如下公式对该属性信息的预测向量和属性信息向量进行计算，得到该属性信息的损耗：

其中，m表示该属性信息在多个属性信息中的编号，x表示该属性信息的值，z表示初始模型计算得到的预测值，d表示该属性信息的识别结果数目，h表示该属性信息的识别结果的标识，L表示该属性信息对应的损耗。

213、家教设备校验该人像的属性信息是否与家教设备预设的用于禁止启动该应用程序的指定人像的属性信匹配，若匹配，家教设备输出用于提示该应用程序无法启动的虚拟场景提示界面。

作为一种可选的实施方式，本发明实施例中，家教设备校验该人像的属性信息与家教设备预设的用于禁止启动该应用程序的指定人像的属性信不匹配时，家教设备可以开启该应用程序。

在图2所描述的方法中，家教设备可以在判断出包含唤醒关键词的第一语音信号不属于包括含有唤醒关键词的演示音视频或音视频推广广告时，才将家教设备由休眠状态切换至等待指令状态，从而可以提高将家教设备由休眠状态切换至等待指令状态的精确性，减少由包括含有唤醒关键词的演示音视频或音视频推广广告误触发引起的家教设备的状态切换，从而可以降低家教设备的整机功耗，有利于延长家教设备的续航时间。

在图2所描述的方法中，家教设备能够防止中小学生在使用家教设备时沉迷某一应用程序(如娱乐类应用)而影响学习。

作为一种可选的实施方式，若家教设备校验该人像的属性信息与家教设备预设的用于禁止启动该应用程序的指定人像的属性信不匹配，家教设备还可以执行以下步骤：

家教设备对指定语音信号以及第二语音信号进行合成得到合成语音信号；

家教设备判断合成语音信号是否与家教设备预设的用于启动该应用程序的验证语音信号匹配，若匹配，开启该应用程序；若不匹配，输出用于提示该应用程序无法启动的虚拟场景提示界面。

其中，家教设备对指定语音信号以及第二语音信号进行合成得到合成语音信号，包括：

家教设备确定指定语音信号与第二语音信号之间的对齐点；其中，对齐点是指指定语音信号与第二语音信号合成的开始位置；

家教设备根据对齐点将指定语音信号与第二语音信号合成为合成语音信号；

其中，家教设备确定指定语音信号与第二语音信号之间的对齐点，包括：

家教设备计算指定语音信号的第一时长以及第二语音信号的第二时长；其中，第一时长表示指定语音信号的语音持续的时间；第二时长表示第二语音信号的语音持续的时间；

家教设备计算第一时长和第二时长之间的差值；

家教设备判断该差值是否小于或等于预设数值，若是，对指定语音信号和第二语音信号中的任一语音进行周期上的缩放，以获得最终持续时长相同的指定语音信号和第二语音信号，再以最终持续时长相同的指定语音信号和第二语音信号的首个音频帧作为对齐点。

其中，家教设备对指定语音信号和第二语音信号中的任一语音进行周期上的缩放，包括：

若指定语音信号的第一时长相对于第二语音信号的第二时长较短，那么家教设备可以根据该差值确定该差值占指定语音信号的第一时长的比例X；

家教设备计算指定语音信号的音频帧数Y；

家教设备计算放大系数E，E＝X*(Y/(Y-1))；

家教设备按照放大系数，对指定语音信号中除了首个音频帧之外的其他音频帧进行等比例放大，以使得放大后的指定语音信号的最终持续时长与第二语音信号的第二时长相同。

举例来说，指定语音信号为1秒，有100个音频帧，则每个音频帧0.01秒，该第二语音信号为1.1秒，需要把指定语音信号放大至1.1秒。第一帧不动，放大后续的99帧，先确定放大的系数E为0.1*(100/(100-1))＝0.101，即10.1％；此时后续的99帧，每帧需要放大10.1％，放大后的每帧为0.01*(1+10.1％)＝0.01101，放大后这99帧的长度为1.09秒，再加上没有动的第一帧0.01秒，就为1.1秒了，即放大后的指定语音信号的最终持续时长与第二语音信号的第二时长相同。

作为一种可选的实施方式，若该差值大于预设数值，如果该差值大于预设数值，则说明两段语音信号(即指定语音信号和第二语音信号)在输入时的差距较大，如果此时还是对其中的一段语音信号进行周期上的缩放，则缩放后会造成比较严重的失真，后续的校验会出现问题，所以可以采用互相关算法来确定对齐点。即，在该差值大于预设数值时，该方法还包括：

家教设备使用相同的默认采样频率对指定语音信号以及第二语音信号分别进行采样，得到第一采样组和第二采样组；

以及，家教设备根据默认采样频率(例如8000Hz到10000Hz)、第一采样组、第二采样组以及互相关权值生成互相关组；其中，互相关权值与该差值正相关(例如该互相关权值可以为该差值的1.5倍)，互相关组中包含有多个数值；

以及，家教设备将互相关组中的多个数值进行比较，找出最大的数值；

以及，家教设备使用最大的数值对应的音频帧位置作为对齐点。

其中，实施上述实施方式，可以提高开启应用程序的精确性。

实施例三

请参阅图3，图3是本发明实施例公开的一种家教设备的结构示意图。如图3所示，该家教设备可以包括：

检测单元301，用于在家教设备处于休眠状态时，检测是否收到包含唤醒关键词的第一语音信号；

提取单元302，用于在检测单元301的检测结果为是时，从第一语音信号中提取出第一语音信号的声音特征；

判断单元303，用于根据第一语音信号的声音特征，判断第一语音信号是否属于特定的语音片段；其中，特定的语音片段至少包括含有唤醒关键词的演示音视频或音视频推广广告；

切换单元304，用于在判断单元303判断出第一语音信号不属于特定的语音片段时，将家教设备由休眠状态切换至等待指令状态。

作为一种可选的实施方式，在图3所示的家教设备中：

检测单元301，还用于在家教设备从休眠状态切换至等待指令状态之后，检测用户针对家教设备的某一应用程序输入的用于启动该应用程序的第二语音信号；

提取单元302，还用于从第二语音信号中提取出第二语音信号的声音特征，作为目标声纹特征；

相应地，图3所示的家教设备还包括：

读取单元305，用于读取家教设备预设的用于禁止启动该应用程序的指定语音信号的指定声纹特征；

校验单元306，用于校验目标声音特征与指定声纹特征是否匹配；

输出单元307，用于在校验单元306的校验结果为匹配时，输出用于提示该应用程序无法启动的虚拟场景提示界面；以及，在虚拟场景提示界面输出指定声纹特征所属用户对应的虚拟人物；

控制单元308，用于控制虚拟人物在执行预设动画的同时，播报预设提示信息；其中，预设动画和预设提示信息均用于提示应用程序无法启动。

其中，实施图3所描述的家教设备，可以在判断出包含唤醒关键词的第一语音信号不属于包括含有唤醒关键词的演示音视频或音视频推广广告时，才将家教设备由休眠状态切换至等待指令状态，从而可以提高将家教设备由休眠状态切换至等待指令状态的精确性，减少由包括含有唤醒关键词的演示音视频或音视频推广广告误触发引起的家教设备的状态切换，从而可以降低家教设备的整机功耗，有利于延长家教设备的续航时间。

其中，实施图3所描述的家教设备，能够防止中小学生在使用家教设备时沉迷某一应用程序(如娱乐类应用)而影响学习。

实施例四

请参阅图4，图4是本发明实施例公开的另一种家教设备的结构示意图。其中，图4所示的家教设备是由图3所示的家教设备进行优化得到的，图4所示的家教设备除了包括图3所示的家教设备的所有单元之外，还可以包括：

处理单元309，用于在校验单元306校验目标声纹特征与指定声纹特征不匹配时，控制摄像头朝向家教设备的屏幕前方进行拍摄，获得拍摄图像；利用人像特征算法确定拍摄图像中是否包含人像；若包含人像，利用人像属性算法对该人像进行前向计算得到该人像的属性信息；其中，该人像属性算法是基于多个样本人像图像以及多个样本人像图像的多个属性信息的识别结果按照属性信息的不同类型进行训练得到；其中，属性信息包括：年龄、性别以及身高；

处理单元309，还用于校验该人像的属性信息是否与家教设备预设的用于禁止启动该应用程序的指定人像的属性信匹配；

输出单元307，还用于在处理单元309校验该人像的属性信息与家教设备预设的用于禁止启动该应用程序的指定人像的属性信匹配时，输出用于提示该应用程序无法启动的虚拟场景提示界面。

本发明实施例中，该人像属性算法是处理单元309通过以下方式训练得到，即：

从所述样本人像图像中提取人像特征；

根据预测值与属性信息的值，按照属性信息的不同类型计算得到多个属性信息的损耗；

将多个属性信息的损耗求和，得到多个属性信息的总损耗；

对初始模型中的不同属性信息对应的子模型的参数进行调整，直到调整后的参数使得多个属性信息的总损耗小于或等于预设阈值时，停止调整得到人像属性算法。

作为一种可选的实施方式，处理单元309根据预测值与属性信息的值，按照属性信息的不同类型计算得到多个属性信息的损耗，包括：

其中，m表示该属性信息在多个属性信息中的编号，

表示初始模型计算得到的预测值，

或者，处理单元309根据预测值与属性信息的值，按照属性信息的不同类型计算得到多个属性信息的损耗，包括：

作为一种可选的实施方式，图4所示的家教设备还包括：

合成单元310，用于在处理单元309校验该人像的属性信息与家教设备预设的用于禁止启动该应用程序的指定人像的属性信不匹配时，对指定语音信号以及第二语音信号进行合成得到合成语音信号；

匹配单元311，用于判断合成语音信号是否与家教设备预设的用于启动该应用程序的验证语音信号匹配；

开启单元312，用于在匹配单元311的判断结果为匹配时，开启该应用程序；

其中，合成单元310对指定语音信号以及第二语音信号进行合成得到合成语音信号，包括：

合成单元310确定指定语音信号与第二语音信号之间的对齐点；其中，对齐点是指指定语音信号与第二语音信号合成的开始位置；

合成单元310根据对齐点将指定语音信号与第二语音信号合成为合成语音信号；

其中，合成单元310确定指定语音信号与第二语音信号之间的对齐点，包括：

合成单元310计算指定语音信号的第一时长以及第二语音信号的第二时长；其中，第一时长表示指定语音信号的语音持续的时间；第二时长表示第二语音信号的语音持续的时间；

合成单元310计算第一时长和第二时长之间的差值；

合成单元310判断该差值是否小于或等于预设数值，若是，对指定语音信号和第二语音信号中的任一语音进行周期上的缩放，以获得最终持续时长相同的指定语音信号和第二语音信号，再以最终持续时长相同的指定语音信号和第二语音信号的首个音频帧作为对齐点。

其中，合成单元310对指定语音信号和第二语音信号中的任一语音进行周期上的缩放，包括：

若指定语音信号的第一时长相对于第二语音信号的第二时长较短，那么合成单元310可以根据该差值确定该差值占指定语音信号的第一时长的比例X；

合成单元310计算指定语音信号的音频帧数Y；

合成单元310计算放大系数E，E＝X*(Y/(Y-1))；

合成单元310按照放大系数，对指定语音信号中除了首个音频帧之外的其他音频帧进行等比例放大，以使得放大后的指定语音信号的最终持续时长与第二语音信号的第二时长相同。

作为一种可选的实施方式，若该差值大于预设数值，如果该差值大于预设数值，则说明两段语音信号(即指定语音信号和第二语音信号)在输入时的差距较大，如果此时还是对其中的一段语音信号进行周期上的缩放，则缩放后会造成比较严重的失真，后续的校验会出现问题，所以可以采用互相关算法来确定对齐点。即，在该差值大于预设数值时，合成单元310可以使用相同的默认采样频率对指定语音信号以及第二语音信号分别进行采样，得到第一采样组和第二采样组；

以及，合成单元310根据默认采样频率(例如8000Hz到10000Hz)、第一采样组、第二采样组以及互相关权值生成互相关组；其中，互相关权值与该差值正相关(例如该互相关权值可以为该差值的1.5倍)，互相关组中包含有多个数值；

以及，合成单元310将互相关组中的多个数值进行比较，找出最大的数值；

以及，合成单元310使用最大的数值对应的音频帧位置作为对齐点。

其中，实施上述实施方式，可以提高开启应用程序的准确度。

实施例五

请参阅图5，图5是本发明实施例公开的另一种家教设备的结构示意图。如图5所示，该家教设备可以包括：

存储有可执行程序代码的存储器501；

与存储器501耦合的处理器502；

其中，处理器502调用存储器501中存储的可执行程序代码，执行图1或图2所描述的方法。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行图1或图2所描述的方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种防误触的语音唤醒方法及家教设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种防误触的语音唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1所述的防误触的语音唤醒方法，其特征在于，在所述家教设备从所述休眠状态切换至等待指令状态之后，所述方法还包括：

所述家教设备校验所述目标声纹特征与所述指定声纹特征是否匹配，若匹配，所述家教设备输出用于提示所述应用程序无法启动的虚拟场景提示界面；

所述家教设备控制所述虚拟人物在执行预设动画的同时，播报预设提示信息；其中，所述预设动画和所述预设提示信息均用于提示所述应用程序无法启动。

3.根据权利要求2所述的防误触的语音唤醒方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的防误触的语音唤醒方法，其特征在于，所述人像属性算法通过以下方式训练得到，即：

所述家教设备从所述样本人像图像中提取人像特征；

5.根据权利要求3或4所述的防误触的语音唤醒方法，其特征在于，所述方法还包括：

6.一种家教设备，其特征在于，包括：

7.根据权利要求6所述的家教设备，其特征在于：

所述家教设备还包括：

校验单元，用于校验所述目标声纹特征与所述指定声纹特征是否匹配；

8.根据权利要求7所述的家教设备，其特征在于，还包括：

9.根据权利要求8所述的家教设备，其特征在于，所述人像属性算法是所述处理单元通过以下方式训练得到，即：

从所述样本人像图像中提取人像特征；

10.根据权利要求8或9所述的家教设备，其特征在于，所述家教设备还包括：