CN108389578A

CN108389578A - 智能教室语音控制系统

Info

Publication number: CN108389578A
Application number: CN201810131454.0A
Authority: CN
Inventors: 李明; 宾晓皎; 杨宁
Original assignee: Shenzhen Eaglesoul Technology Co Ltd
Current assignee: Shenzhen Eaglesoul Technology Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-10
Anticipated expiration: 2038-02-09
Also published as: WO2019153404A1; CN108389578B

Abstract

本发明涉及一种智能教室语音控制系统，具体智能教育领域。本发明提供一种智能教室语音控制系统，包括终端，云端控制器，传感器和智能设备，所述云端控制器包括通信模块、存储模块，控制模块，声纹识别模块和语音识别模块，所述存储模块中存储有白名单，所述白名单为授权的用户信息，包括终端标识符、与所述终端标识符对应的声纹模型和角色组，所述存储模块还记载了角色组和对应的控制权限，所述控制权限是所述角色组能够实施的控制指令，所述存储模块还记载了每条控制指令相关联的控制时间。本发明的技术方案通过定义消息交互流程，易于形成标准化的控制方案，同时，通过上述改进点，提高了语音控制的安全性和可靠性。

Description

智能教室语音控制系统

技术领域：

本发明涉及一种智能教室语音控制系统，更具体地，涉及一种基于声纹识别和语音识别的智能教室控制系统。

背景技术：

教室作为学校的重要组成部分，在推进智慧校园的建设过程中扮演着重要的角色，目前我国大多数学校教室使用权限是由学校的管理中心来管理，如果需要使用教室需要管理中心提供对应的钥匙，如果需要使用投影设备需要专门的管理人员来进行操作，这增加了管理中心的工作量，也降低了学校的运行效率。

通过对学校的教学需求进行系统分析，结合当前高校教学信息化的发展趋势和学院的发展规划，需要充分利用移动技术、传感技术、人工智能技术、网络技术、多媒体技术来装备教室和改善学习环境。基于这一目标，智慧教室应运而生。

语音识别技术正日益发展成熟，广泛应用于例如身份验证，智能家居，然而，尚没有将语音识别技术应用于智慧教室的完整控制方案。众所周知，教室相对于其它场景，例如家居环境，具有一些新的特点，例如，背景噪声较高，混杂众多人声，对控制的安全性和可靠性要求更高，甚至可能需要对不同的人员赋予不同的控制级别。如何针对教室的特点进行适应性设计，以实现基于语音识别对智慧教室进行安全可靠的智能控制，是一个亟需解决的问题。

发明内容：

本发明要解决的技术问题是针对上述现有技术的不足之处，提供一种智能教室语音控制系统。

本发明提供的智能教室语音控制系统，具体的技术方案如下：

一种智能教室语音控制系统，包括终端，云端控制器，传感器和智能设备，所述云端控制器包括通信模块、存储模块，控制模块，声纹识别模块和语音识别模块，所述存储模块中存储有白名单，所述白名单为授权的用户信息，包括终端标识符、与所述终端标识符对应的声纹模型和角色组，所述存储模块还记载了角色组和对应的控制权限，所述控制权限是所述角色组能够实施的控制指令，所述存储模块还记载了每条控制指令相关联的控制时间，其特征在于：

所述传感器采集教室内的环境声强，并将所述环境声强发送给所述云端控制器；

当所述云端控制器的通信模块接收到终端的控制请求消息时，向终端发送控制响应消息，所述控制响应消息中携带认证指示信息，认证指示信息表示当前使用的认证模式，其中，所述控制模块通过将所述环境声强与预设的第一阈值进行比较来确定当前的认证模式，当所述环境声音信息小于所述第一阈值时，所述认证模式为第一认证模式；

终端向云端控制器发送控制消息，其中，在所述第一认证模式下，所述控制消息中携带终端标识符和语音信息；

云端控制器的通信模块接收到控制消息后，在所述第一认证模式下，所述控制模块首先判断所述终端标识符是否存储在所述白名单中，若是，则所述声纹识别模块提取出所述语音信息的组合特征矢量S，并将所述组合特征矢量S与所存储的与所述终端标识符相对应的声纹模型进行匹配，获得匹配概率P1，若所述概率P1大于预设的第二阈值，则判断所述终端为合法用户；

当所述终端为合法用户时，所述语音识别模块识别所述语音信息包含的控制指令，所述控制模块判断所识别出的控制指令是否在发出所述控制指令的终端所属角色组的控制权限之内，若是，所述控制模块将所述环境声强与预设的第三阈值进行比较，当所述环境声强大于所述第三阈值时，确定所述控制指令发出的时间是否处于所述控制指令对应的控制时间的范围之内，若处于所述控制时间的范围之内，则所述云端控制器通过所述通信模块向所述智能设备发送所述控制指令；

其中，所述声纹识别模块提取所述语音信息的组合特征矢量S的过程为：

确定所述语音信息的基音频率f_m，根据所述基音频率设置Mel三角滤波器组的中心频率，所述滤波器组包含N个滤波器，所述N个滤波器的中心频率分别为：f_m……f_nm……f_Nm，1≤n≤N，f_nm＝n*f_m；

将所述语音信息的频域信号X(k)输入所述滤波器组，获得输出，对输出取对数得到对数功率谱，对所述对数功率谱进行离散小波变换，提取变换谱的振幅得到所述语音信息的第一特征矢量S1；

确定所述语音信息的线性预测倒谱系数LPCC，作为所述语音信息的第二特征矢量S2；

将所述第一特征矢量S1和第二特征矢量S2进行组合，得到所述组合特征矢量S。

优选地，在所述第一认证模式下，若所述白名单中不包含所述终端标识符，则所述云端控制器通过所述通信模块向所述终端发送拒绝消息；若所述概率P1小于所述第二阈值，则所述云端控制器通过所述通信模块向所述终端发送拒绝消息。

优选地，当所述环境声强大于所述第一阈值时，所述认证模式为第二认证模式；在所述第二认证模式下，所述控制消息中携带终端标识符和用户面部图像信息。

优选地，所述云端控制器进一步包括图像识别模块，所述白名单中还存储有与所述终端标识符对应的面部特征模型，所述第二认证模式下，所述控制模块首先判断所述终端标识符是否存储在所述白名单中，若是，则所述图像识别模块提取出所述用户面部图像的人脸特征矢量Q，并计算所述人脸特征矢量Q与所存储的与所述终端标识符相对应的面部特征模型之间的欧式距离P2，若所述欧式距离P2小于预设的第四阈值，则判断所述终端为合法用户。

优选地，在所述第二认证模式下，若所述白名单中不包含所述终端标识符，则所述云端控制器通过通信模块向所述终端发送拒绝消息；若所述欧式距离P2大于预设的第四阈值，则所述云端控制器通过通信模块向所述终端发送拒绝消息。

优选地，当所述环境声强小于所述第三阈值时，所述云端控制器通过所述通信模块向所述智能设备发送所识别出的所述控制指令。

优选地，所述存储模块还记载了所述角色组和对应的角色优先级，当所述云端服务器通过所述通信模块接收到终端的授权请求消息时，所述授权请求消息携带终端标识符，待授权的角色组和待授权的终端标识符，所述控制模块判断所述终端标识符是否记载在所述白名单中，以及，所述终端的角色优先级是否大于所述待授权的角色组的角色优先级，若所述终端标识符记载在所述白名单中，且所述终端的角色优先级大于所述待授权的角色组的角色优先级，则所述控制模块将所述待授权的终端标识符记载在所述白名单中。

优选地，当所述云端服务器通过所述通信模块接收到终端的注册请求消息时，所述注册请求消息携带终端标识符，所述控制模块判断所述终端标识符是否记载在所述白名单中，若是，则所述云端服务器通过所述通信模块进一步接收所述终端发送的语音信息和面部图像信息；所述声纹识别模块对所述语音信息进行训练，生成所述声纹模型；所述面部识别模块对所述面部图像信息进行训练，生成所述面部特征模型。

优选地，所述白名单中还包括与所述终端标识符对应的内部优先级，所述内部优先级是角色组内部设置的优先级；当所述云端服务器同时接收到相反的控制指令时，所述控制模块根据所述角色优先级和内部优先级选择将被执行的控制指令。

优选地，所述基音频率f_m的确定方法为：将所述语音信息首先通过带通滤波器，然后对信号进行采样、分帧和端点检测，得到时域信号；通过三电平削波将时域信号的线性输出转换为非线性输出；对转换后的输出信号计算短时自相关函数，通过检测自相关函数的峰值来估计基音周期，进而得到基音频率f_m。

优选地，若所述控制模块确定所述控制指令发出的时间未处于所述控制指令对应的控制时间的范围之内，则所述云端服务器通过所述通信模块向终端返回指示消息，提示其再次输入语音信息。

本发明提出的基于智能教室语音控制系统，其发明点和有益效果在于：

一是当通过语音对智能教室这一特定应用场景进行控制时，定义了完整的操作方法和装置之间的消息交互流程；

二是针对教室这一特定场所的特点，对基于声纹识别和语音识别的控制过程进行了适应性的改进，包括：

1.实时采集教室内部的环境声强，并根据声强选取不同的角色识别方式；

2.在进行角色识别时，将终端标识符和声纹结合起来，一方面，只有终端标识符和声纹均匹配成功，才能过通过身份审核，从而增加了识别结果的可靠性，另一方面，在进行模型匹配时，首先搜索终端标识符，然后将待测语音与该标识符对应的声纹模型进行匹配，相比于将待测语音与模型库中多个声纹模型一一进行遍历的方式，提高了识别的速度。

3.在识别出控制指令时，通过为每条控制指令限定最可能出现的时段来增强语音识别的可靠性，当该控制指令发出的时间处于最可能出现的时段时，直接执行该控制指令，否则请求用户再次输入语音控制命令，从而提高了控制可靠度。

4.针对教室这一背景噪声较高同时混杂其他人声的语音识别环境，对声纹识别方法进行了适应性改进，包括将反应声门特性的基音频率与美尔倒谱系数MFCC结合起来，利用基音频率设置美尔三角滤波器组的中心频率，并使用离散小波变换代替离散余弦变换，以及，将基于基音频率的美尔倒谱系数和线性预测倒谱系数LPCC组合起来作为语音信号的特征矢量，以更好的表示语音的动态特性，分离背景人声，提高系统的识别率和抗噪声能力，从而更好的适应教室这一特定的语音识别环境。

本申请的技术方案通过定义消息交互流程，易于形成标准化的控制方案，同时，通过上述改进点，提高了语音控制的安全性和可靠性。

附图说明：

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中智能教室语音控制系统的系统示意图；

图2是本发明实施例中云端控制器的示意性结构图；

图3是本发明实施例中用户操作终端对智能设备进行语音控制的示例性流程图；

图4是本发明实施例中用户授权过程的示例性流程图；

图5是本发明实施例中用户注册过程的示例性流程图；

图6是本发明实施例中冲突解决方法的示例性流程图；

图7是本发明实施例中提取语音特征参数的示意图。

具体实施方式：

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。应当理解，此处所描述的具体实施方式仅用于解释本发明，并不用于限定本发明。基于本发明的实施例，本领域技术人员在没有作出创造性劳动的前提下所获得所有其它实施例，均属于本发明的保护范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1示出本发明提出的智能教室语音控制系统，包括：终端、云端控制器和智能教室，并且，智能教室中设置有传感器和智能设备，智能设备包括但不限于：投影、灯、空调、门。终端、传感器和智能设备可以通过网络与云端控制器通信。

图2示出本发明提出的云端控制器的结构图，云端控制器包括通信模块、存储模块、控制模块，声纹识别模块、语音识别模块和图像识别模块。

其中，云端控制器通过通信模块与终端、传感器和智能设备进行通信，通信模块可以采用多种制式，例如WLAN、WIFI、UMTS、LTE等，本发明对此不作限制。

控制模块是云端控制器的总控模块，负责对云端控制器与终端、传感器、智能设备的信息交互进行控制，具体包括：

当接收到终端的控制请求消息时，通过将环境声强与预设的第一阈值进行比较来确定当前的认证模式；

当接收到终端的控制消息时，判断终端标识符是否存储在白名单中；

当语音识别模块识别出语音信息包含的控制指令之后，控制模块判断所识别出的控制指令是否在发出控制指令的终端所属角色组的控制权限之内，若是，则进一步将环境声强与预设的第三阈值进行比较，当环境噪声信息大于第三阈值时，确定控制指令发出的时间是否处于控制指令对应的控制时间的范围之内；

当接收到终端的授权请求消息时，控制模块判断终端标识符是否记载在白名单中，以及，终端的角色优先级是否大于待授权的角色组的角色优先级，若终端标识符记载在白名单中，且终端的角色优先级大于待授权的角色组的角色优先级，则控制模块将待授权的终端标识符记载在白名单中；

当接收到终端的注册请求消息时，控制模块判断终端标识符是否记载在白名单中；

当云端服务器同时接收到相反的控制指令时，控制模块根据角色优先级和内部优先级选择将被执行的控制指令。

声纹识别模块用于运行声纹识别算法，根据语音判断控制用户是否为合法用户，具体包括：在模型建立阶段，声纹识别模块对语音信息进行训练，生成声纹模型；在用户识别阶段，声纹识别模块提取出语音信息的特征矢量，并将语音特征矢量与所存储的与终端标识符相对应的声纹模型进行匹配以确定其相似度。

语音识别模块用于运行语音识别算法，从语音信息中提取出所包含的控制指令。

图像识别模块用于运行图像识别算法，根据人脸图像判断控制用户是否为合法用户，具体包括：在模型建立阶段，图像识别模块对面部图像信息进行训练，生成面部特征模型；在用户识别阶段，图像识别模块提取出用户面部图像的人脸特征矢量，并计算人脸特征矢量与所存储的与终端标识符相对应的面部特征模型的欧式距离。

存储模块中存储有多种映射信息，具体包括：

1、角色、权限和角色优先级之间的对应关系。

其中，角色是终端所属的组，可以根据实际需要定义，例如，角色可以包括：管理员、教师、学生。

权限是不同角色所能够实施的控制指令。

角色优先级是该角色组所具有的优先级。例如，系统可以默认设置为：管理员组角色优先级高于教师组角色优先级，教师组角色优先级高于学生组角色优先级。

下表示意性列举了角色、权限和角色优先级之间的对应关系，但并不构成对本发明的限定。应当理解，其它的角色分类和权限范围，也应当落入本发明的保护范围之内。

2、授权用户信息，即白名单。

白名单中存储多个授权用户的信息，为每个授权用户设置一个存储模版，模版信息如下：

终端标识符

声纹模型

面部特征模型

内部优先级

角色

授权用户信息可以通过终端注册生成。

其中，终端标识符是终端的唯一标识符，可以是例如终端号码，IMSI等，只要能够表征终端身份即可。

声纹模型是用于表征讲话者声纹特征的模型，本申请采用文本无关的声纹识别算法，对于用户来说使用更加方便。作为示例性说明，本申请采用高斯混合模型，高斯混合模型是由多个单高斯模型组合而成的多维概率密度函数，每个说话人的训练模型是由聚类后的每一类的均值、加权因子和协方差矩阵组成，各类特征矢量都可看作一个多维高斯分布函数。由于每个人的个性特征都是独一无二的，所以建立起来的参数不同也就意味着每个人的识别模型不同。

面部特征模型是对授权用户的面部图像进行采集，通过面部特征抽取所获得的一组能够表征人脸特征的特征点描述子。

内部优先级是在一个角色组内部设置的优先级，用于表征一个角色组内部的用户等级。设置角色优先级和内部优先级主要是为了解决指令冲突的问题，例如当控制器在同一时间接收到相反的指令时，如何选择最终将要执行的控制命令。

3.控制指令和控制时间的对应关系。

控制指令

控制时间

其中，控制指令是对智能设备的操作命令。

控制时间是该控制指令最可能出现的时段，控制时间与控制指令相对应。设置控制时间的目的是为了增强语音控制的可靠性，当一条控制指令发出的时间处于所存储的该控制指令对应的控制时间的范围之内时，通常认为这条控制指令的识别结果是准确的。

本发明提出的智能教室语音控制系统，可以通过在终端上安装APP来实现对智能设备的语音控制，该APP能够调用麦克风来接收语音信息，并且能够调用摄像头来拍摄人脸图像，图3示出用户操作终端对智能设备进行语音控制的实现流程，具体如下：

步骤101，用户操作终端APP，向云端控制器发送控制请求消息。

步骤102，云端控制器接收到控制请求消息后，向终端返回控制响应消息，响应消息中携带认证指示信息。云端控制器实时接收传感器上报的环境声强数据，若环境声强小于第一阈值，则启动终端标识符+声纹的认证模式，即第一认证模式，若环境声强大于第一阈值，则启动终端标识符+人脸图像的认证模式，即第二认证模式。认证指示信息向终端指示当前采用的认证模式，例如可以用1来表示第一认证模式，用0来指示第二认证模式。

步骤103，终端收到响应消息后，解析其中的认证指示信息，并采取相应的操作：若是终端标识符+声纹的认证模式，则向用户发出语音提示：请说出语音指令；若是终端标识符+人脸图像的认证模式，则调用终端的摄像头拍摄用户的面部图像。

步骤104，终端将控制消息发送给云端控制器，控制消息中携带终端标识符和语音信息，或者携带终端标识符和面部图像。

步骤105，云端控制器接收到控制消息后，首先确定该终端标识符是否记录在白名单中，即白名单中是否存在对应的存储模板，若未记录，则执行步骤106；若已记录，即存在相应的存储模板，则执行步骤107。

步骤106，云端控制器向终端返回拒绝消息，指示终端没有权限进行语音控制操作。

步骤107，在终端标识符+声纹的认证模式下，云端控制器进一步提取语音信息的组合特征矢量，并将该组合特征矢量与所存储的该终端标识符对应的声纹模型进行匹配，获得匹配概率P1，若概率P1大于第一门限值，则认为匹配成功，反之，则匹配失败。若匹配，则执行步骤108，若匹配失败，则执行步骤106；

在终端标识符+人脸图像的认证模式下，云端控制器进一步提取面部图像的特征矢量，并计算该特征矢量与所存储的该终端标识符对应的面部特征模型之间的欧式距离，获得距离P2，若P2小于第二门限值，则认为匹配成功，反之，则匹配失败。若匹配成功，则执行步骤108，若匹配失败，则执行步骤106；

步骤108，云端控制器对语音信息进行语音识别，确定识别结果所包含的控制指令。

步骤109，云端控制器判断所识别的控制指令是否属于该终端所属角色的权限之内，若是，则执行步骤111，否则执行步骤110。

步骤110，云端控制器向终端返回拒绝消息，指示终端没有权限实施该控制指令。

步骤111，云端控制器判断当前的环境声强是否大于第二阈值，若大于，则执行步骤112，若小于，则执行步骤113。

步骤112，云端控制器获取当前的系统时间，并提取该控制指令所对应的控制时间，判断该控制指令的发出时间，即当前的系统时间是否处于该控制指令所对应的控制时间的范围之内，若是，则执行步骤113，若否，则执行步骤114。

步骤113，云端控制器将控制指令发送给对应的智能设备。

步骤114，云端控制器向终端返回提示消息，指示终端再次说出语音指令。

本发明提出的智能教室语音控制系统，角色优先级高的授权终端可以对低优先级角色组的成员进行角色的授权。图4示出系统中的示例性授权流程，具体如下：

步骤201，用户操作终端APP，向云端控制器发送授权请求消息，授权请求中携带该授权终端的标识符，待授权的角色组名称，待授权的终端标识符。

步骤202，云端控制器接收到授权请求消息，提取出授权终端的标识符，并在白名单中进行搜索，确定该终端标识符是否记录在白名单中，若是，则执行步骤203，若否，则执行步骤205。

步骤203，云端控制器根据授权终端标识符确定其对应的角色优先级，然后比较该角色优先级是否大于待授权的角色组的角色优先级，若大于，则执行步骤204，若否，则执行步骤205。

步骤204，云端控制器在待授权角色下为待授权终端分配一个存储模版，并将该待授权终端标识符记录在存储模版中，然后向终端返回授权成功消息。

步骤205，云端控制器向终端返回授权拒绝消息，指示终端不具有授权权限。

本发明提出的智能教室语音控制系统，被授权用户可以通过注册过程来训练声纹模型和面部特征模型。图5示出系统中的示例性注册流程，具体如下：

步骤301，用户操作终端APP，向云端控制器发出注册请求，注册请求中携带该终端的标识符。

步骤302，云端控制器在白名单中进行搜索，确定该终端标识符是否记录在白名单中，若是，则执行步骤303，若否，则执行步骤308。

步骤303，云端控制器向终端返回响应消息，指示其输入语音信息和图像信息。

步骤304，终端接收到云端控制器的响应消息，向用户发出语音提示：请说出语音信息，同时调用终端的摄像头拍摄用户的面部图像。

步骤305，终端将语音信息和用户的图像信息发送给云端控制器。

步骤306，云端控制器对语音信息进行训练，生成声纹模型，并对面部图像信息进行训练，生成面部特征模型。

步骤307，云端控制器向终端返回注册成功消息。

步骤308，云端控制器向终端返回注册拒绝消息，指示其无权进行注册。

本发明提出的智能教室语音控制系统，当不同的用户同时发出相反的控制指令时，会产生控制的冲突，通过引入角色优先级和内部优先级，可以解决控制冲突的问题。图6示出该冲突解决方法的示例性流程图，具体包括以下步骤：

步骤401，云端控制器同时收到多条符合角色权限的控制指令，且指令的内容相反。

步骤402，云端控制器根据终端标识符，确定每条指令所对应的角色优先级和内部优先级。

步骤403，云端控制器比较角色优先级，确定角色优先级最高的控制指令，若只有一条，则执行步骤405，若指令的数量大于一条，则执行步骤404。

步骤404，云端控制器针对角色优先级最高的多条控制指令，比较其内部优先级的大小，确定内部优先级最高的控制指令，若只有一条，则执行步骤405，若指令的数量大于一条，则执行步骤406。

步骤405，云端控制器将控制指令发送给对应的智能设备。

步骤406，云端控制器向发出所述内部优先级最高的控制指令的终端返回提示信息，指示其控制指令冲突。

本发明中，人脸识别包括通过注册过程实现的模型训练，以及识别阶段的模型匹配。

其中，模型训练的具体实现过程为：云端服务器在授权用户注册阶段接收到终端上传的面部图像后，对其进行存储并进行预处理，预处理过程包括将图像转换为灰度图像，对大小尺寸重新剪裁并只保留人脸的五官图像。预处理之后，检测并计算其特征点，保存这些特征点。然后，通过K-means聚类算法对所有特征点进行聚类，以K为100为例，聚类完成后获得100个特征点，进一步将这100个特征点保存在矩阵中，并将这100个特征点的位置设置为固定位置。固定位置确定之后，根据所保存的固定位置重新在终端上传的人脸图像中确定特征点，并计算SIFT特征点描述子，将计算好的特征点描述子保存在数据库中，作为该用户的面部特征模型。

模型匹配的具体实现过程为：当终端在角色识别的过程中上传其面部图像后，云端服务器执行相同的操作，包括预处理，对预处理后的图像按照保存的固定特征点的位置建立相应的特征点，并计算SIFT特征点描述子。之后，将计算获得的SIFT特征点描述子与预存的该用户的面部特征模型中的SIFT特征点描述子进行比对，分别计算每个相对应位置的特征点描述子之间的欧式距离，并求和，以获得两幅图像之间的总距离。

其中，检测特征点的方法为：使用差分高斯函数搜索所有尺度下图像的极值点，对每个候选机制点，去除不显著点和边缘点，留下稳定性好，质量高的作为候选特征点。

SIFT特征点描述子的建立方法为：首先对特征点周围的采样点的方向和梯度值进行采样，然后对这些采样点进行描述，然后通过高斯权重函数给特征点的梯度指定一个权重大小，使远离中心的采样点梯度值具有较小的权重大小，中间的采样点梯度值具有较大的权重大小，最终形成一个128维向量的特征点描述子。

应当理解的是，上述检测特征点和建立特征点描述子的方法均为现有技术，在此不再赘述。

本发明中，声纹识别也包括通过注册过程实现的模型训练，以及识别阶段的模型匹配。声带每开启和闭合一次的时间是基音周期，基音周期具有准周期性。现有技术中通常采用反映声道特性的Mel倒谱系数MFCC来表征声纹特征参数，然而，如果能够将反映声门特性的基音周期与Mel倒谱系数结合起来，将使得声纹特征参数更加灵敏，能够更好地反映用户的语音特性。并且，在将基音频率引入Mel三角滤波器组之后，再通过离散小波变换对对数功率谱进行处理，相比于使用离散余弦变换，能够进一步增强语音的动态特性，提高语音识别的准确率。更进一步，再通过将基于基音频率的Mel倒谱系数与LPCC系数进行组合，能够进一步提高嘈杂环境中语音的识别率。

模型训练的具体实现过程为：

1.对采集的语音信号进行预处理，包括：对语音信号进行采样和量化得到离散的数字信号；将离散的数字信号通过一个预加重数字滤波器，以对信号的高频进行预加重处理；对预加重后的信号进行加窗处理，以实现信号的分帧，窗函数可以选择矩形窗或汉明窗；通过端点检测把需要的语音信号的开始点和结束点检测出来，最终得到时域信号x(n)，端点检测方法可以采用短时能量法、短时平均过零率等。

2.提取第一特征矢量S1的方法为：

对获得的时域信号x(n)进行DFT变换，得到频谱X(k)，DFT的样点数可以根据需要进行选择，例如N＝512或1024。

确定语音信号的基音周期f_m，具体方法为：将语音信号首先通过一个带通滤波器，以减少共振峰对基因周期的影响；然后对信号进行采样、分帧和端点检测，得到时域信号；为了提高检测速率和准确度，通过三电平削波将时域信号的线性输出转换为非线性输出；对转换后的输出信号计算短时自相关函数，通过检测自相关函数的峰值来估计基音周期，进而得到基音频率f_m。其中，三电平削波的函数表达式为：

当x(n)＞F时，y(n)＝1；当x(n)＜-F时，y(n)＝-1；当|x(n)|≤F时，y(n)＝0，其中，x(n)为时域信号，F为根据需要设置的幅度阈值。

使用基音频率f_m来设置Mel三角滤波器组的中心频率，假设滤波器组有N个三角滤波器，其中心频率可以设置为f_m……f_nm……f_Nm，其中，N可以根据需要进行设置，例如N＝24，1≤n≤N，f_nm＝n*f_m；

将语音信号的频谱X(k)输入Mel三角滤波器组，获得输出，其中，每个滤波器的传递函数为H_nm(k)，每个滤波器的输出为F_nm(k)：

当k＜f_(n-1)m或k＞f_(n+1)m时，H_nm(k)＝0；

当f_(n-1)m≤k≤f_nm时，

当f_nm＜k≤f_(n+1)m时，

其中，1≤n≤N，M是离散小波变换的变换点数。

对F_nm(k)取对数，得到对数功率谱Q_nm(k)。

对对数功率谱Q_nm(k)进行离散小波变换，提取变换谱的振幅得到语音信号的T1阶的第一特征矢量S1，S1＝{x₁,x₂,......,x_T1}。离散小波变换有众多基函数可供选择，从而可以在不同变换基的基础上展开，通常可以基于变换的有效性、通用性和系数的唯一性选择基函数，例如可以采用Mallat金字塔算法。

3.提取第二特征矢量S2的方法为：

对预处理后的时域信号提取线性预测倒谱系数LPCC，作为语音信号的T2阶的第二特征矢量S2，S2＝{y₁,y₂,......,y_T2}。其中，提取LPCC的方法为：首先采用自相关的递推Durbin算法求解线性预测系数LPC，然后计算LPC的倒谱系数LPCC。求取LPCC的具体过程属于现有技术，在此不再赘述。

4.将第一特征矢量S1和第二特征矢量S2进行组合，形成T1+T2阶的组合特征矢量S，S＝{x₁,......,x_T1,y₁,......y_T2}。将组合特征矢量S作为语音矢量，用于训练高斯混合模型GMM，GMM的参数为A，A＝{模型的阶数M，协方差矩阵，均值矢量，混合分量的加权因子}。其中，训练GMM模型的方法有多种，例如可以首先采用随机法或K均值聚类算法来获得模型的初始参数值，再使用最大期望EM算法进行迭代直到满足收敛条件，从而确定最终的模型参数A。

模型匹配的具体实现过程为：在模型匹配阶段，当对一个测试语音进行识别时，仍然需要语音的预处理和特征提取，该处理过程和模型训练阶段进行预处理和特征提取的过程相同。然后，将建立的待测试的特征矢量和模型进行似然函数计算，从而得到该特征矢量和该模型的匹配概率P。

本申请的技术方案通过定义消息交互流程，易于形成标准化的控制方案，同时，通过根据噪声选取不同的角色识别方式，将终端标识符和声纹结合起来用于角色识别，为每条控制指令限定最可能出现的时段以显著增强语音识别的可靠性，以及特征参数提取算法的改进，包括使用基音频率设置Mel滤波器组的中心频率，使用离散小波变换代替离散余弦变换，并将基于基音频率的美尔倒谱系数和LPCC系数组合起来作为语音信号的特征矢量，使得基于语音控制的技术方案更加适应于智慧教室，并显著提高了语音控制的安全性和可靠性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必须的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机、个人计算机、服务器、控制器、或者是网络设备等)执行本发明各个实施例所述的方法。

应当理解的是，以上所述仅是本发明的较佳实施例，本发明并非局限于上述实施例和实施方法。相关技术领域的从业者可在本发明的技术思想许可的范围内进行不同的变化及实施，故凡依本繁忙专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请。

Claims

1.一种智能教室语音控制系统，包括终端，云端控制器，传感器和智能设备，所述云端控制器包括通信模块、存储模块，控制模块，声纹识别模块和语音识别模块，所述存储模块中存储有白名单，所述白名单为授权的用户信息，包括终端标识符、与所述终端标识符对应的声纹模型和角色组，所述存储模块还记载了角色组和对应的控制权限，所述控制权限是所述角色组能够实施的控制指令，所述存储模块还记载了每条控制指令相关联的控制时间，其特征在于：

2.如权利要求1所述的智能教室语音控制系统，其特征在于，

在所述第一认证模式下，若所述白名单中不包含所述终端标识符，则所述云端控制器通过所述通信模块向所述终端发送拒绝消息；

若所述概率P1小于所述第二阈值，则所述云端控制器通过所述通信模块向所述终端发送拒绝消息。

3.如权利要求1所述的智能教室语音控制系统，其特征在于，

当所述环境声强大于所述第一阈值时，所述认证模式为第二认证模式；

在所述第二认证模式下，所述控制消息中携带终端标识符和用户面部图像信息。

4.如权利要求3所述的智能教室语音控制系统，其特征在于，

所述云端控制器进一步包括图像识别模块，所述白名单中还存储有与所述终端标识符对应的面部特征模型，所述第二认证模式下，所述控制模块首先判断所述终端标识符是否存储在所述白名单中，若是，则所述图像识别模块提取出所述用户面部图像的人脸特征矢量Q，并计算所述人脸特征矢量Q与所存储的与所述终端标识符相对应的面部特征模型之间的欧式距离P2，若所述欧式距离P2小于预设的第四阈值，则判断所述终端为合法用户。

5.如权利要求4所述的智能教室语音控制系统，其特征在于，

在所述第二认证模式下，若所述白名单中不包含所述终端标识符，则所述云端控制器通过通信模块向所述终端发送拒绝消息；

若所述欧式距离P2大于预设的第四阈值，则所述云端控制器通过通信模块向所述终端发送拒绝消息。

6.如权利要求1所述的智能教室语音控制系统，其特征在于，

当所述环境声强小于所述第三阈值时，所述云端控制器通过所述通信模块向所述智能设备发送所识别出的所述控制指令。

7.如权利要求1所述的智能教室语音控制系统，其特征在于，

所述存储模块还记载了所述角色组和对应的角色优先级，当所述云端服务器通过所述通信模块接收到终端的授权请求消息时，所述授权请求消息携带终端标识符，待授权的角色组和待授权的终端标识符，所述控制模块判断所述终端标识符是否记载在所述白名单中，以及，所述终端的角色优先级是否大于所述待授权的角色组的角色优先级，若所述终端标识符记载在所述白名单中，且所述终端的角色优先级大于所述待授权的角色组的角色优先级，则所述控制模块将所述待授权的终端标识符记载在所述白名单中。

8.如权利要求4所述的智能教室语音控制系统，其特征在于，

当所述云端服务器通过所述通信模块接收到终端的注册请求消息时，所述注册请求消息携带终端标识符，所述控制模块判断所述终端标识符是否记载在所述白名单中，若是，则所述云端服务器通过所述通信模块进一步接收所述终端发送的语音信息和面部图像信息；

所述声纹识别模块对所述语音信息进行训练，生成所述声纹模型；

所述面部识别模块对所述面部图像信息进行训练，生成所述面部特征模型。

9.如权利要求7所述的智能教室语音控制系统，其特征在于，

所述白名单中还包括与所述终端标识符对应的内部优先级，所述内部优先级是角色组内部设置的优先级；

当所述云端服务器同时接收到相反的控制指令时，所述控制模块根据所述角色优先级和内部优先级选择将被执行的控制指令。

10.如权利要求1所述的智能教室语音控制系统，其特征在于，

所述基音频率f_m的确定方法为：将所述语音信息首先通过带通滤波器，然后对信号进行采样、分帧和端点检测，得到时域信号；通过三电平削波将时域信号的线性输出转换为非线性输出；对转换后的输出信号计算短时自相关函数，通过检测自相关函数的峰值来估计基音周期，进而得到基音频率f_m。

11.如权利要求1所述的智能教室语音控制系统，其特征在于，

若所述控制模块确定所述控制指令发出的时间未处于所述控制指令对应的控制时间的范围之内，则所述云端服务器通过所述通信模块向终端返回指示消息，提示其再次输入语音信息。