CN110910874A

CN110910874A - 一种互动课堂语音控制方法、终端设备、服务器和系统

Info

Publication number: CN110910874A
Application number: CN201911087572.7A
Authority: CN
Inventors: 胡伟; 韩少飞
Original assignee: Shenzhen Meetsoon Technologies Co Ltd
Current assignee: Shenzhen Meetsoon Technologies Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-03-24

Abstract

本发明涉及教学领域，公开了一种互动课堂语音控制方法、终端设备、服务器和系统。方法包括：获取语音数据，提取语音数据中的声纹特征，判断声纹特征是否与预设声纹特征匹配，若声纹特征与预设声纹特征匹配，则识别语音数据的语音内容，并将语音内容发送给服务器，以使服务器根据语音内容执行语音内容对应的操作，由此能够提升互动课堂控制的便捷性，同时降低互动课堂系统的使用门槛，有利于互动课堂的大规模推广。

Description

一种互动课堂语音控制方法、终端设备、服务器和系统

技术领域

本发明涉及教学领域，特别是涉及一种互动课堂语音控制方法、终端设备、服务器和系统。

背景技术

随着互联网技术和移动通信网络技术的发展，新一代信息化教学产品得以快速发展。为了增强教学效果，需要听课教室的学生也要加入互动，当需要远程听课教室的学生回答问题时，或者听课教室的学生向主讲教师提问时，需要进行画面切换，传统的画面切换方式是通过主讲教师使用遥控器控制画面切换，或者通过触屏控制画面切换，亦或者通过经过培训的专业人员控制画面切换。

传统的互动课堂中主讲教师通过使用遥控器控制画面切换，需要主讲教师携带遥控器，或者走到指定地方拿遥控器，设备获取不方便，并且主讲教师需经过一定的培训才能掌握遥控器的使用技巧，设备使用门槛较高；同理，通过触屏控制画面切换，主讲教师必须走到触控屏的位置，设备获取不方便，并且主讲教师需经过一定的培训才能掌握触控屏的使用技巧，设备使用门槛较高；通过经过培训的专业人员控制画面切换，每次课程都需要额外增加一个工作人员，增加了使用成本，并且工作人员和主讲教师之间会存在信息传达损失，有时可能会误解主讲教师的控制指示。

发明内容

基于此，有必要针对上述技术问题，提供一种互动课堂语音控制方法、终端设备、服务器和系统，能够提升互动课堂控制的便捷性，同时降低互动课堂系统的使用门槛，有利于互动课堂的大规模推广。

第一方面，本发明实施例提供了一种互动课堂语音控制方法，应用于终端设备，所述方法包括：

获取语音数据；

提取所述语音数据中的声纹特征；

判断所述声纹特征是否与预设声纹特征匹配；

若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音内容对应的操作。

在一些实施例中，所述获取语音数据之前，所述方法还包括：

预先录入用户的账号信息和语音数据；

提取所述语音数据中的声纹特征，得到预设声纹特征；

将所述预设声纹特征和所述用户的账号信息关联并存储。

在一些实施例中，所述判断所述声纹特征是否与预设声纹特征匹配，包括：

判断所述声纹特征与所述预设声纹特征的匹配度是否达到预设阈值；

若所述声纹特征与所述预设声纹特征的匹配度大于或者等于预设阈值，则确定为匹配；

若所述声纹特征与所述预设声纹特征的匹配度小于预设阈值，则确定为不匹配。

在一些实施例中，所述若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音内容对应的操作，包括：

利用语音识别算法识别所述语音数据的文本信息；

通过语义识别技术将所述文本信息转换为指令信息；

将所述指令信息发送给服务器，以使所述服务器根据所述指令信息执行所述操作。

在一些实施例中，所述方法还包括：

接收唤醒指令；

识别所述唤醒指令，若所述唤醒指令为预设唤醒指令，则执行获取语音数据的步骤。

第二方面，本发明实施例还提供了一种互动课堂语音控制方法，应用于服务器，所述方法包括：

获取语音数据；

提取所述语音数据中的声纹特征；

判断所述声纹特征是否与预设声纹特征匹配；

若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作。

在一些实施例中，所述识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作，包括：

利用语音识别算法识别所述语音数据的文本信息；

通过语义识别技术将所述文本信息转换为指令信息；

根据所述指令信息执行所述操作。

第三方面，本发明实施例还提供了一种终端设备，包括：

声音采集单元，用于采集语音数据；

图像获取单元，用于获取目标区域图像；

显示单元，用于显示所述目标区域图像；

控制器，分别与所述声音采集单元、图像获取单元和显示单元连接；

其中，所述控制器包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述互动课堂语音控制方法。

第四方面，本发明实施例还提供了一种服务器，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

第五方面，本发明实施例还提供了一种互动课堂语音控制系统，所述系统包括上述所述的至少两个终端设备和上述所述的服务器，

所述服务器分别与所述至少两个终端设备连接；

所述服务器用于接收所述终端设备发送的指令信息，以及控制所述指令信息对应的所述终端设备执行所述指令信息对应的操作。

第六方面，本发明实施例还提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被服务器所执行时，使所述服务器执行互动课堂语音控制方法。

与现有技术相比，本发明的有益效果是：区别于现有技术的情况，本发明实施例中的互动课堂语音控制方法，通过获取语音数据，提取语音数据中的声纹特征，接着将声纹特征与预设声纹特征进行比对，判断声纹特征是否与预设声纹特征匹配，若匹配，则继续识别语音数据的语音内容，并控制对应的终端设备执行与语音内容对应的操作。通过语音对终端设备进行控制，由此能够提升互动课堂控制的便捷性，降低互动课堂系统的使用门槛，从而有利于互动课堂的大规模推广。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明互动课堂语音控制方法应用场景示意图；

图2是本发明互动课堂语音控制方法的一个实施例的流程图；

图3是本发明互动课堂语音控制方法的一个实施例中判断声纹特征是否达到预设阈值的流程图；

图4是本发明互动课堂语音控制方法的一个实施例中根据指令信息执行对应操作的流程图；

图5是本发明互动课堂语音控制方法的另一个实施例的流程图；

图6是本发明互动课堂语音控制方法的另一个实施例中根据指令信息执行对应操作的流程图；

图7是本发明互动课堂语音控制装置的一个实施例的结构示意图；

图8是本发明互动课堂语音控制装置的另一个实施例的结构示意图；

图9是本发明提供的控制器的硬件结构示意图；

图10是本发明提供的服务器的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。再者，本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

本发明实施例提供的互动课堂语音控制方法适用于图1所示的应用场景，在本发明实施例中，所述应用场景为互动课堂语音控制系统，包括至少两个终端设备和服务器。图1示例性的示出了服务器10，终端设备1、终端设备2、终端设备3、…、终端设备N,在实际的网络环境中还可以包括更多的终端设备和服务器。其中，终端设备通过网络通信连接所述服务器，例如：通过局域网、广域网、无线网、全球移动通讯系统(Global System of Mobilecommunication，GSM)、第三代移动通信网络、第四代移动通信网络和第五代移动通信网络等方式通信连接所述服务器10。所述服务器10用于接收终端设备发送的指令信息，其中，所述指令信息可以为经过解析的语音指令，也可以是未经解析的语音指令，当所述指令信息为经过终端设备解析过的语音指令时，服务器根据所述语音指令控制对应的所述终端设备执行所述语音指令对应的操作，若所述指令信息为未经过解析的语音指令，服务器则对所述信息指令进行解析，并根据解析后的语音指令控制对应的所述终端设备执行所述语音指令对应的操作。

所述终端设备包括声音采集单元、图像获取单元、显示单元和控制器。其中，声音采集单元，用于采集用户的语音数据，所述声音采集单元可以例如是麦克风；图像获取单元，用于获取目标区域图像，所述图像获取单元可以例如是摄像头；显示单元，用于显示所述目标区域图像，所述显示单元可以为显示屏；所述控制器分别与所述声音采集单元、图像获取单元和显示单元连接，所述控制器用于控制声音采集单元采集语音数据，并控制图像获取单元获取目标区域图像，以及控制显示单元显示目标区域图像。

其中，所述终端设备可以例如是平板电脑、个人电脑及手提电脑等。服务器可以是一台服务器，例如机架式服务器、刀片式服务器、塔式服务器或者机柜式服务器等，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

需要说明的是，本申请实施例提供的方法还可以进一步的拓展到其他合适的应用环境中，而不限于图1所示的应用环境。在实际的应用过程中，该应用环境还可以包括更多或者更少的终端设备和服务器。

如图2所示，本发明实施例提供了一种互动课堂语音控制方法，应用于终端设备，所述方法包括：

步骤202，获取语音数据。

语音数据为从外界采集的携带有语音内容和声纹特征的声音信号。所述声纹特征是表征用户声音特征的音色参数，所述语音内容为用户说话时所传递的文字信息。其中，所述用户可以为教师。具体地，通过终端设备上的麦克风采集用户的语音数据，然后终端设备上的控制器获取麦克风采集的语音数据，或者在目标区域即课堂的多个角落安装麦克风，通过麦克风阵列采集用户的语音数据，然后移动终端获取麦克风阵列采集的语音数据。

步骤204，提取所述语音数据中的声纹特征。

声纹特征为从说话人的语音中提取出来的，可以表征该说话人语音的个性特征的参数。示例性的，特征参数可以为音长特征参数、音色特征参数以及音高特征参数等。具体地，当终端设备获取到语音数据后，采用声纹识别算法提取所述语音数据中的声纹特征。为了得到更为纯净的声纹特征，可以在提取所述语音数据中的声纹特征之前，对所述语音数据进行去噪处理，通过终端设备中的去噪芯片采用程序算法把外部噪音过滤掉，从而得到更为纯净的语音数据。

步骤206，判断所述声纹特征是否与预设声纹特征匹配。

在本发明实施例中，服务器的数据库中预先存储有预设声纹特征，终端设备可以事先从服务器端获取预设声纹特征。当终端设备提取到语音数据中的声纹特征后，将所述声纹特征与预设声纹特征进行匹配，通过匹配结果来确定是否进行下一步操作。在其他一些实施例中，预设声纹特征也可以存储至终端设备中。

步骤208，若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音内容对应的操作。

只有声纹验证通过，才能继续识别语音数据的语音内容，若声纹验证没有通过，则继续获取用户的语音数据。当声纹特征与终端设备事先获取到的预设声纹特征相匹配，则继续识别所述语音数据的语音内容，并将所述语音内容发送给服务器，服务器根据所述语音内容执行与所述语音内容对应的操作。

在本发明实施例中，终端设备通过获取语音数据，并提取语音数据中的声纹特征，接着判断所述声纹特征是否与预设声纹特征匹配，若是，则继续识别所述语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音对应的操作，通过声纹识别能够保证安全性，并且能够提升互动课堂控制的便捷性，降低互动课堂系统的使用门槛，从而有利于互动课堂的大规模推广。

在一些实施例中，在获取语音数据之前，所述方法还包括：

预先录入用户的账号信息和语音数据。在本发明实施例中，用户特指教师，用户的账号信息是用来标识该用户身份信息的字符串，其可以为一串数字编号，也可以是数字与字母的组合等，不同的用户其账号信息也是不同。示例性的，用户的账号信息可以为第三方应用程序的账号信息、手机号及用户邮箱等，第三方应用程序可以为即时通信应用平台或者其他应用平台，其中，即时通信平台可以包括微信、QQ、微博等。具体地，用户预先在终端设备上录入用户的账号信息和语音数据，然后通过声纹识别算法提取所述语音数据中的声纹特征，得到预设声纹特征，接着将所述预设声纹特征与所述用户的账号信息进行关联并存储至终端设备，其中，每个用户的声纹特征与其账号信息一一对应。需要说明的是，终端设备中可录入多个用户的账号信息及声纹特征，从而提高利用率。

在一些实施例中，如图3所示，所述判断所述声纹特征是否与预设声纹特征匹配，包括：

步骤302，判断所述声纹特征与所述预设声纹特征的匹配度是否达到预设阈值。

匹配度是指相比较的两个对象之间的相同或者相似程度，预设阈值可以作为声纹特征匹配度的判断标准。当终端设备提取所述语音数据中的声纹特征后，将其与预设声纹特征进行比较，从而判断声纹特征与预设声纹特征的匹配度是否达到预设阈值。

若所述声纹特征与所述预设声纹特征的匹配度大于或者等于预设阈值，则确定为匹配。

在本发明实施例中，示例性的，预设阈值为90％，若所述声纹特征与所述预设声纹特征的匹配度为92％,大于预设阈值90％，则确定为匹配，可继续识别所述语音数据的语音内容。亦或者，预设阈值为90％，若所述声纹特征与所述预设声纹特征的匹配度为90％,等于预设阈值90％，则确定为匹配，从而执行步骤208的步骤。

若用户的声纹特征与预设声纹特征的匹配度为89％，小于预设阈值90％，则确定用户的声纹特征与预设声纹特征不匹配，从而表明该用户没有权限，从而无法继续执行后续步骤。由此，可保证终端设备的使用安全。

在步骤302之后，所述方法还包括：若所述声纹特征与预设声纹特征不匹配，则返回执行获取语音数据的步骤202。直到声纹特征与预设声纹特征匹配。

在一些实施例中，如图4所示，所述若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音内容对应的操作，包括：

步骤402，利用语音识别算法识别所述语音数据的文本信息。

在本发明实施例中，所述语音识别算法包括：卷积神经网络、深度学习神经网络、模糊聚类神经网络等。具体地，通过语音识别算法中的深度卷积神经网路技术，结合长短时记忆单元和连接时序分类技术识别所述语音数据中的文本信息，即将语音数据转换为文本信息。为了提升识别准确率，还可以通过模糊匹配和相似度分析算法，对文本信息进行纠错。

步骤404，通过语义识别技术将所述文本信息转换为指令信息。

采用语义引擎将所述文本信息转换为指令信息。也可以通过语义分析模型对所述文本信息根据上下文语义进行分析，分析出存在不清楚或者存在歧义的文本信息，进而分析出校正信息，语义分析模型可以直接加载在终端设备上。

步骤406，将所述指令信息发送给服务器，以使所述服务器根据所述指令信息执行所述操作。

当终端设备将文本信息转换为指令信息后，将所述指令信息发送给服务器，服务器根据接收到的指令信息执行与指令信息对应的操作。示例性的，指令信息可以为“将23班静音”，或者“请25班的小明来回答这个问题”等。当所述指令信息为“将23班静音”，终端设备则将“23班静音”的指令信息发送给服务器，所述服务器则根据所述指令信息，关闭23班的麦克风，使其不能进行声音采集。当所述指令信息为“请25班的小明来回答这个问题”，终端设备则将“请25班的小明来回答这个问题”的指令信息发送给服务器，所述服务器则根据所述指令信息控制终端设备将画面切换到对应的班级，同时终端设备上的摄像单元采集小明的图像并展现在显示屏上，从而实现画面的切换。

在一些实施例中，在获取语音数据之前，整个互动课堂语音控制系统系统即终端设备和服务器都处于关闭状态，因此，需要先唤醒所述互动课堂语音控制系统系统。具体地，服务器中预先存储有语音唤醒指令即预设唤醒指令，其中，所述预设唤醒指令由语音唤醒词组成，服务器事先将所述预设唤醒指令下发给终端设备，终端设备将所述预设唤醒指令进行存储，当所述终端设备接收到用户的唤醒指令后，对所述唤醒指令进行识别，将所述唤醒指令与存储的预设唤醒指令进行比较，识别所述唤醒指令是否为预设唤醒指令，若是，则开启语音控制模式，执行获取语音数据的步骤。

如图5所示，本发明实施例还提供了一种互动课堂语音控制方法，应用于服务器，所述方法包括：

步骤502，获取语音数据。

服务器获取终端设备发送的语音数据，其中，所述语音数据携带有语音内容和声纹特征。所述声纹特征是表征用户声音特征的音色参数，所述语音内容为用户说话时所传递的文字信息。其中，所述用户可以为教师。

步骤504，提取所述语音数据中的声纹特征。

当服务器获取到语音数据后，采用声纹识别算法提取所述语音数据中的声纹特征。为了得到更为纯净的声纹特征，可以在提取所述语音数据中的声纹特征之前，对所述语音数据进行去噪处理，通过服务器中的去噪芯片采用程序算法把外部噪音过滤掉，从而得到更为纯净的语音数据。

步骤506，判断所述声纹特征是否与预设声纹特征匹配。

服务器的数据库中预先存储有预设声纹特征，当服务器提取到语音数据中的声纹特征后，将所述声纹特征与预设声纹特征进行匹配，通过匹配结果来确定是否进行下一步操作。

步骤508，若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作。

只有声纹验证通过，才能继续识别语音数据的语音内容，若声纹验证没有通过，则继续获取用户的语音数据。当声纹特征与服务器事先存储的预设声纹特征相匹配，则继续识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作。

在本发明实施例中，服务器通过获取语音数据，并提取语音数据中的声纹特征，接着判断所述声纹特征是否与预设声纹特征匹配，若是，则继续识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作，由此能够提升互动课堂控制的便捷性，降低互动课堂系统的使用门槛，从而有利于互动课堂的大规模推广。

在一些实施例中，在获取语音数据之前，所述方法还包括：预先录入用户的账号信息和语音数据，提取所述语音数据中的声纹特征，得到预设声纹特征，将所述预设声纹特征和所述用户的账号信息关联并存储。请参照终端设备实施例中的描述，此处不再详细说明。

在一些实施例中，判断所述声纹特征是否与预设声纹特征匹配，包括：判断所述声纹特征与所述预设声纹特征的匹配度是否达到预设阈值，若所述声纹特征与所述预设声纹特征的匹配度大于或者等于预设阈值，则确定为匹配，从而执行步骤508，若所述声纹特征与所述预设声纹特征的匹配度小于预设阈值，则确定为不匹配，则返回执行获取语音数据的步骤。请参照终端设备实施例中的描述，此处不再详细说明。

在一些实施例中，如图6所示，所述识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作，包括：

步骤602，利用语音识别算法识别所述语音数据的文本信息。

步骤604，通过语义识别技术将所述文本信息转换为指令信息。

采用语义引擎将所述文本信息转换为指令信息。也可以通过语义分析模型对所述文本信息根据上下文语义进行分析，分析出存在不清楚或者存在歧义的文本信息，进而分析出校正信息，语义分析模型可以直接加载在服务器上。

步骤606，根据所述指令信息执行所述操作。

当服务器将文本信息转换为指令信息后，则根据所述指令信息执行与所述指令信息对应的操作。示例性的，指令信息可以为“将23班静音”，或者“请25班的小明来回答这个问题”等。当所述指令信息为“将23班静音”，所述服务器则根据所述指令信息，关闭23班的麦克风，使其不能进行声音采集。当所述指令信息为“请25班的小明来回答这个问题”，所述服务器则控制终端设备将画面切换到对应的班级，终端设备上的摄像单元则采集小明的图像并展现在显示屏上，从而实现画面的切换。

便于理解本发明，下面将进行举例说明：

实施例一：在终端设备侧进行语音识别和声纹识别的具体实施例：

首先，用户预先在终端设备上录入用户的账号信息和语音数据，然后终端设备通过声纹识别算法提取所述语音数据中的声纹特征，得到预设声纹特征，接着将所述预设声纹特征与所述用户的账号信息进行关联并存储至终端设备，终端设备中可录入多个用户的账号信息及声纹特征，且每个用户的声纹特征与其账号信息一一对应，从而提高利用率。

在获取语音数据之前，整个互动课堂语音控制系统系统即终端设备和服务器都处于关闭状态，因此，需要先唤醒所述互动课堂语音控制系统系统。具体地，服务器中预先存储有语音唤醒指令即预设唤醒指令，其中，服务器事先将所述预设唤醒指令下发给终端设备，终端设备将所述预设唤醒指令进行存储，当所述终端设备接收到用户的唤醒指令后，对所述唤醒指令进行识别，将所述唤醒指令与存储的预设唤醒指令进行比较，识别所述唤醒指令是否为预设唤醒指令，若是，则开启语音控制模式。

具体地，通过终端设备上的麦克风采集用户的语音数据，然后终端设备上的控制器获取麦克风采集的语音数据。或者在目标区域即课堂的多个角落安放麦克风，通过麦克风阵列采集用户的语音数据，然后移动终端获取麦克风阵列采集的语音数据。当终端设备获取到语音数据后，采用声纹识别算法提取所述语音数据中的声纹特征。为了得到更为纯净的声纹特征，可以在提取所述语音数据中的声纹特征之前，对所述语音数据进行去噪处理，通过终端设备中的去噪芯片采用程序算法把外部噪音过滤掉，从而得到更为纯净的语音数据。

接着，移动终端判断所述声纹特征是否与预设声纹特征匹配。具体地，当终端设备提取所述语音数据中的声纹特征后，将其与预设声纹特征进行比较，从而判断声纹特征与预设声纹特征的匹配度是否达到预设阈值，若所述声纹特征与所述预设声纹特征的匹配度大于或者等于预设阈值，则确定为匹配，从而执行步骤208的步骤；若所述声纹特征与所述预设声纹特征的匹配度小于预设阈值，则确定为不匹配，则返回执行获取语音数据的步骤。

接着，若所述声纹特征与预设声纹特征匹配，终端设备则识别所述语音数据的语音内容，通过语音识别算法中的深度卷积神经网路技术，结合长短时记忆单元和连接时序分类技术识别所述语音数据中的文本信息，即将语音数据转换为文本信息，然后通过语义分析模型对所述文本信息根据上下文语义进行分析，转换为指令信息，并将所述指令信息发送给服务器，服务器根据接收到的指令信息执行与指令信息对应的操作。示例性的，当指令信息为“请25班的小明来回答这个问题”，终端设备则将指令信息即“请25班的小明来回答这个问题”发送给服务器，所述服务器根据所述指令信息控制终端设备将画面切换到对应的班级，同时终端设备上的摄像单元采集小明的图像并展现在显示屏上，从而实现画面的切换，由此能够提升互动课堂控制的便捷性。

实施例二：在服务器端进行语音识别和声纹识别的具体实施例：

首先，用户使用终端设备预先在服务器上录入用户的账号信息和语音数据，然后服务器通过声纹识别算法提取所述语音数据中的声纹特征，得到预设声纹特征，接着将所述预设声纹特征与所述用户的账号信息进行关联并存储至服务器，服务器中可录入多个用户的账号信息及声纹特征，且每个用户的声纹特征与其账号信息一一对应，从而提高利用率。

在获取语音数据之前，整个互动课堂语音控制系统系统即终端设备和服务器都处于关闭状态，因此，需要先唤醒所述互动课堂语音控制系统系统，本实施例中的唤醒方式与实施例一的唤醒方式相似，具体请参照实施例一的唤醒方式。

当整个系统被唤醒后，服务器获取终端设备发送的语音数据，采用声纹识别算法提取所述语音数据中的声纹特征。为了得到更为纯净的声纹特征，可以在提取所述语音数据中的声纹特征之前，对所述语音数据进行去噪处理，通过服务器中的去噪芯片采用程序算法把外部噪音过滤掉，从而得到更为纯净的语音数据。

然后，当服务器提取到语音数据中的声纹特征后，判断所述声纹特征与所述预设声纹特征的匹配度是否达到预设阈值，若所述声纹特征与所述预设声纹特征的匹配度大于或者等于预设阈值，则确定为匹配，从而执行步骤508，若所述声纹特征与所述预设声纹特征的匹配度小于预设阈值，则确定为不匹配，则返回执行获取语音数据的步骤。

同时，若所述声纹特征与预设声纹特征匹配，服务器则识别所述语音数据的语音内容，通过语音识别算法中的深度卷积神经网路技术，结合长短时记忆单元和连接时序分类技术识别所述语音数据中的文本信息，即将语音数据转换为文本信息，然后通过语义分析模型对所述文本信息根据上下文语义进行分析，从而得到指令信息，服务器根据指令信息执行与指令信息对应的操作。示例性的，当所述指令信息为“请25班的小明来回答这个问题”，所述服务器则控制终端设备将画面切换到对应的班级，终端设备上的摄像单元则采集小明的图像并展现在显示屏上，从而实现画面的切换，由此能够提升互动课堂控制的便捷性。

相应的，本发明实施例还提供了一种互动课堂语音控制装置700，应用于终端设备，如图7所示，包括：

获取模块702，用于获取语音数据；

提取模块704，用于提取所述语音数据中的声纹特征

判断模块706，用于判断所述声纹特征是否与预设声纹特征匹配；

识别模块708，用于当所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音内容对应的操作。

本发明实施例提供的互动课堂语音控制装置，通过获取模块获取语音数据，然后使用提取模块提取语音数据中的声纹特征，接着判断模块判断声纹特征是否与预设声纹特征匹配，若是，识别模块则识别语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音内容对应的操作，由此能够提升互动课堂控制的便捷性，降低互动课堂系统的使用门槛，从而有利于互动课堂的大规模推广。

相应的，本发明实施例还提供了一种互动课堂语音控制装置800，应用于服务器，如图8所示，包括：

获取模块802，用于获取语音数据；

提取模块804，用于提取所述语音数据中的声纹特征；

判断模块806，用于判断所述声纹特征是否与预设声纹特征匹配；

识别模块808，用于若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作。

本发明实施例提供的互动课堂语音控制装置，通过获取模块获取语音数据，然后使用提取模块提取语音数据中的声纹特征，接着判断模块判断声纹特征是否与预设声纹特征匹配，若是，识别模块则识别语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作，由此能够提升互动课堂控制的便捷性，降低互动课堂系统的使用门槛，从而有利于互动课堂的大规模推广。

需要说明的是，上述互动课堂语音控制装置可执行本发明实施例所提供的互动课堂语音控制方法，具备执行方法相应的功能模块和有益效果，未在互动课堂语音控制装置实施例中详尽描述的技术细节，可参考本发明实施例提供的互动课堂语音控制方法。

图9是本发明实施例提供的终端设备中控制器的硬件结构示意图，如图9所示，该控制器900包括：

一个或多个处理器902以及存储器904，图9中以一个处理器902为例。

处理器902和存储器904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

存储器904作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的互动课堂语音控制方法对应的程序指令/模块(例如，附图7所示的获取模块702、提取模块704、判断模块706和识别模块708)。处理器902通过运行存储在存储器904中的非易失性软件程序、指令以及模块，从而执行控制器的各种功能应用以及数据处理，即实现上述方法实施例的互动课堂语音控制方法

存储器904可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据互动课堂语音控制装置使用所创建的数据等。此外，存储器904可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器904可选包括相对于处理器902远程设置的存储器，这些远程存储器可以通过网络连接至互动课堂语音控制装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器904中，当被所述一个或者多个控制器执行时，执行上述任意方法实施例中的互动课堂语音控制方法，例如，执行以上描述的图2中的方法步骤202至步骤208、图3中的方法步骤202至步骤302、图4中的方法步骤402至步骤406；实现图7中的模块702至708的功能。

图10是本发明实施例提供的服务器的硬件结构示意图，如图10所示，该服务器10包括：

一个或多个处理器102以及存储器104，图10中以一个处理器102为例。

处理器102和存储器104可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器104作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的互动课堂语音控制方法对应的程序指令/模块(例如，附图8所示的获取模块802、提取模块804、判断模块806和识别模块808)。处理器102通过运行存储在存储器104中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的互动课堂语音控制方法

存储器104可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据互动课堂语音控制装置使用所创建的数据等。此外，存储器104可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器104可选包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至互动课堂语音控制装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器104中，当被所述一个或者多个服务器执行时，执行上述任意方法实施例中的互动课堂语音控制方法，例如，执行以上描述的图5中的方法步骤502至步骤508、图6中的方法步骤602至步骤606；实现图8中的模块802至808的功能。

本发明实施例的终端设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

本发明实施例的服务器以多种形式存在，包括但不限于:

(1)塔式服务器

一般的塔式服务器机箱和我们常用的PC机箱差不多，而大型的塔式机箱就要粗大很多，总的来说外形尺寸没有固定标准。

(2)机架式服务器

机架式服务器是由于满足企业的密集部署，形成的以19英寸机架作为标准宽度的服务器类型，高度则从1U到数U。将服务器放置到机架上，并不仅仅有利于日常的维护及管理，也可能避免意想不到的故障。首先，放置服务器不占用过多空间。机架服务器整齐地排放在机架中，不会浪费空间。其次，连接线等也能够整齐地收放到机架里。电源线和LAN线等全都能在机柜中布好线，可以减少堆积在地面上的连接线，从而防止脚踢掉电线等事故的发生。规定的尺寸是服务器的宽(48.26cm＝19英寸)与高(4.445cm的倍数)。由于宽为19英寸，所以有时也将满足这一规定的机架称为“19英寸机架”。

(3)刀片式服务器

刀片服务器是一种HAHD(High Availability High Density，高可用高密度)的低成本服务器平台，是专门为特殊应用行业和高密度计算机环境设计的，其中每一块“刀片”实际上就是一块系统母板，类似于一个个独立的服务器。在这种模式下，每一个母板运行自己的系统，服务于指定的不同用户群，相互之间没有关联。不过可以使用系统软件将这些母板集合成一个服务器集群。在集群模式下，所有的母板可以连接起来提供高速的网络环境，可以共享资源，为相同的用户群服务。

(4)云服务器

云服务器(Elastic Compute Service,ECS)是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效，用户无需提前购买硬件，即可迅速创建或释放任意多台云服务器。云服务器的分布式存储用于将大量服务器整合为一台超级计算机，提供大量的数据存储和处理服务。分布式文件系统、分布式数据库允许访问共同存储资源，实现应用数据文件的IO共享。虚拟机可以突破单个物理机的限制，动态的资源调整与分配消除服务器及存储设备的单点故障,实现高可用性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种互动课堂语音控制方法，应用于终端设备，其特征在于，所述方法包括：

获取语音数据；

提取所述语音数据中的声纹特征；

判断所述声纹特征是否与预设声纹特征匹配；

2.根据权利要求1所述的方法，其特征在于，所述获取语音数据之前，所述方法还包括：

预先录入用户的账号信息和语音数据；

提取所述语音数据中的声纹特征，得到预设声纹特征；

将所述预设声纹特征和所述用户的账号信息关联并存储。

3.根据权利要求1或2所述的方法，其特征在于，所述判断所述声纹特征是否与预设声纹特征匹配，包括：

4.根据权利要求3所述的方法，其特征在于，所述若所述声纹特征与预设声纹特征匹配，则识别所述语音数据的语音内容，并将所述语音内容发送给服务器，以使所述服务器根据所述语音内容执行所述语音内容对应的操作，包括：

利用语音识别算法识别所述语音数据的文本信息；

通过语义识别技术将所述文本信息转换为指令信息；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

接收唤醒指令；

6.一种互动课堂语音控制方法，应用于服务器，其特征在于，所述方法包括：

获取语音数据；

提取所述语音数据中的声纹特征；

判断所述声纹特征是否与预设声纹特征匹配；

7.根据权利要求6所述的方法，其特征在于，所述识别所述语音数据的语音内容，并根据所述语音内容执行所述语音内容对应的操作，包括：

利用语音识别算法识别所述语音数据的文本信息；

通过语义识别技术将所述文本信息转换为指令信息；

根据所述指令信息执行所述操作。

8.一种终端设备，其特征在于，包括：

声音采集单元，用于采集语音数据；

图像获取单元，用于获取目标区域图像；

显示单元，用于显示所述目标区域图像；

其中，所述控制器包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5任一项所述的方法。

9.一种服务器，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求6-7任一项所述的方法。

10.一种互动课堂语音控制系统，其特征在于，所述系统包括权利要求8所述的至少两个终端设备和权利要求9所述的服务器，

所述服务器分别与所述至少两个终端设备连接；