CN117037790B

CN117037790B - 一种ai交互智慧屏控制系统及方法

Info

Publication number: CN117037790B
Application number: CN202311301335.2A
Authority: CN
Inventors: 耿进括; 耿进奎
Original assignee: Langlang Education Technology Co ltd
Current assignee: Langlang Education Technology Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-09
Anticipated expiration: 2043-10-10
Also published as: CN117037790A

Abstract

本发明公开了一种AI交互智慧屏控制系统及方法，属于屏幕控制技术领域，其具体包括：采集幼儿园教师和儿童的语音命令信息，对采集的幼儿园教师和儿童的语音命令信息进行预处理，包括去除噪声和音质增强，对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类，根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类，结合智慧屏控制约束条件，对智慧屏的播放内容进行交互控制，通过该方法，能够让幼儿园教师和学生与智慧屏进行交互控制，极大地提高了课堂效率和用户体验。

Description

一种AI交互智慧屏控制系统及方法

技术领域

本发明属于屏幕控制技术领域，具体的说是一种AI交互智慧屏控制系统及方法。

背景技术

随着屏幕技术迅速发展，智慧屏已经广泛的应用于学生教育中，同时语音识别技术和国产开源操作系统的飞速发展,人与机器的交互方式也发生巨大改变,从最初的实体键到触摸屏再到语音识别,用户给设备传达命令的方式越来越人性化,其中语音识别能力是判断一个终端设备是否智能化的重要标志。

但幼儿园教学环境异与小学、中学和大学环境，幼儿园儿童对于新奇事物的尝试和对教师管教约束偏低，导致在语音控制设备时，会产生很多声音，并且声音也不整齐，加大了对语音识别的难度和对智慧屏控制的难度。

如授权公告号为CN109889904B的中国专利公开了一种共享大屏幕的交互控制方法，包括：内容源服务器获取多个播放循环时间段的可播放的播放内容，并且对于每一个播放循环时间段，所述播放内容包括当前播放内容和备用播放内容；根据所述播放内容生成当前播放内容列表和备用播放内容列表；接收当前预设时间段内用户发送的针对所述当前播放内容列表中的当前播放内容的第一投票信息，以及，针对所述备用播放内容列表中的备用播放内容的第二投票信息；根据所述第一投票信息和所述第二投票信息确定下一播放循环时间段内的当前播放内容列表中的播放内容。该申请实施例的共享大屏幕的交互控制方法，能够与用户群体进行交互，从而提高了用户体验。

如授权公告号为CN105373334B的中国专利公开了一种交互式屏幕控制方法与装置，方法包括：若识别出有第一感应物接触屏幕的边缘，则判断第一感应物与屏幕的接触面积是否大于预设阈值；若判断出为第一感应物与屏幕的接触面积大于预设阈值，则识别是否有第二感应物与屏幕之间的悬浮距离位于预设范围内；若识别出有第二感应物与屏幕之间的悬浮距离位于预设范围内，则根据第一感应物的位置和第二感应物的位置确定屏幕的虚拟按键的移动信息，并根据移动信息移动虚拟按键，虚拟按键移动之后与第二感应物的距离小于虚拟按键移动之前与第二感应物的距离。根据该公开，能够实现大尺寸屏幕单手操作。

以上专利均存在下述问题：1）无法对语音进行有效的识别和分类；2）针对幼儿园教学环境，无法精准的进行交互和控制。

发明内容

针对现有技术的不足，本发明提出了一种AI交互智慧屏控制系统及方法，采集幼儿园教师和儿童的语音命令信息，对采集的幼儿园教师和儿童的语音命令信息进行预处理，包括去除噪声和音质增强，对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类，根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类，结合智慧屏控制约束条件，对智慧屏的播放内容进行交互控制，通过该方法，能够让幼儿园教师和学生与智慧屏进行交互控制，极大地提高了课堂效率和用户体验。

为实现上述目的，本发明提供如下技术方案：

一种AI交互智慧屏控制系统，包括：

智慧屏，语音数据采集模块，语音数据预处理模块，解锁模块，语音识别模块，智能控制模块；

所述智慧屏，用于根据识别出的语音命令信息，播放语音命令信息的内容；

所述语音数据采集模块，用于采集幼儿园教师和儿童的语音命令信息；

所述语音数据预处理模块，用于对采集的幼儿园教师和儿童的语音命令信息进行预处理；

所述解锁模块，用于通过按键或输入密码解锁智慧屏；

所述语音识别模块，用于利用语音识别策略，识别预处理后的幼儿园教师和儿童的语音命令内容；

所述智能控制模块，用于利用智能控制策略，根据识别出的幼儿园教师和儿童的语音命令内容，智能控制智慧屏的播放内容。

具体的，所述智慧屏包括：教学单元，云课单元、乐园单元，应用单元，设置单元和管理单元，

所述教学单元，用于播放幼儿园教学课程内容；

所述云课单元，用于播放幼儿园云课堂内容；

所述乐园单元，用于播放儿童儿歌、儿童故事和课外知识视频；

所述应用单元，用于对教育软件进行管理；

所述设置单元，用于设置智慧屏系统的配置进行设定和更改；

所述管理单元，用于对教学单元、云课单元和乐园单元的内容进行管理。

具体的，所述语音数据预处理模块中的预处理包括：去除噪声和音质增强。

具体的，所述语音识别模块包括：音质识别模块和语音内容识别模块，

所述音质识别模块，用于识别和区分幼儿园教师和儿童的声音；

所述语音内容识别模块，用于识别幼儿园教师和儿童语音的内容信息。

具体的，所述语音识别模块中的语音识别策略，包括以下具体步骤：

步骤1：对预处理后的幼儿园教师和儿童语音命令信息进行预加重，预加重计算公式为：，其中，/>表示预处理后的第n帧幼儿园教师和儿童语音命令信息，/>表示预加重系数，/>表示预处理后的第n-1帧幼儿园教师和儿童语音命令信息，/>表示预加重后的第n帧幼儿园教师和儿童语音命令信息；

步骤2：将预加重后的幼儿园教师和儿童语音命令信息分为M帧，每帧的大小为N；

步骤3：对M帧进行加窗，加窗计算公式为：，其中，/>表示加窗函数，a表示加窗调节系数，n表示帧数；

步骤4：对加窗后的M帧幼儿园教师和儿童语音命令信息进行傅里叶变换，得到幼儿园教师和儿童语音命令信息在不同时间的频率分布；

步骤5：将幼儿园教师和儿童语音命令信息的频率分布与幼儿园语音库的频率分布进行对比，得到语音命令信息的来源；

步骤6：利用训练好的BiLSTM网络模型，对得到来源的语音命令信息进行识别和分类。

具体的，所述步骤5中的对比，具体方式为：将频率转化为梅尔值，转化公式为：

，其中，m表示频率转化后的梅尔值，f表示幼儿园教师和儿童语音命令信息的频率，将频率转化后的梅尔值和幼儿园语音库的梅尔值做比较，得到语音命令信息的来源。

具体的，所述步骤6中的分类表示：得到来源的语音命令信息的类型。

具体的，所述智能控制模块中的智能控制策略，包括以下具体步骤：

步骤A1：根据得到来源的语音命令信息内容和分类，对智慧屏的播放内容进行约束，约束条件为：

，

其中，表示智慧屏的播放内容约束条件，/>表示幼儿园教师语音命令内容，表示幼儿园教师的语音命令信息，/>表示幼儿园儿童的语音命令信息，/>表示幼儿园儿童的语音命令内容，/>表示k个幼儿园儿童中控制权限最高的儿童语音命令内容，k表示发出语音命令信息的幼儿园儿童数量；

步骤A2：当幼儿园教师或单个儿童发出语音命令时，执行幼儿园教师或单个儿童的语音命令内容，当幼儿园教师和单个儿童同时发出语音命令时，执行幼儿园教师的语音命令内容，当k个幼儿园儿童同时发出语音命令时，根据幼儿园儿童的控制权限，执行控制权限最高的儿童语音命令内容；

步骤A3：重复步骤A1-A2，完成智慧屏智能交互控制。

一种AI交互智慧屏控制方法，具体包括以下步骤：

步骤S1：采集幼儿园教师和儿童的语音命令信息；

步骤S2：对采集的幼儿园教师和儿童的语音命令信息进行预处理，包括去除噪声和音质增强；

步骤S3：对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类；

步骤S4：根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类，结合智慧屏控制约束条件，对智慧屏的播放内容进行交互控制。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种AI交互智慧屏控制方法的步骤。

一种计算机可读存储介质，其上存储有计算机指令，当计算机指令运行时执行一种AI交互智慧屏控制方法的步骤。

与现有技术相比，本发明的有益效果是：

1.本发明提出一种AI交互智慧屏控制系统，并进行了架构、运行步骤和流程上的优化改进，系统具备流程简单，投资运行费用低廉，生产工作成本低的优点。

2.本发明提出一种AI交互智慧屏控制方法，采集幼儿园教师和儿童的语音命令信息，对采集的幼儿园教师和儿童的语音命令信息进行预处理，包括去除噪声和音质增强，对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类，根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类，结合智慧屏控制约束条件，对智慧屏的播放内容进行交互控制，通过该方法，能够让幼儿园教师和学生与智慧屏进行交互控制，极大地提高了课堂效率和用户体验。

附图说明

图1为本发明一种AI交互智慧屏控制系统架构图；

图2为本发明一种AI交互智慧屏控制方法流程图；

图3为本发明BiLSTM网络结构图；

图4为本发明一种AI交互智慧屏控制方法的电子设备图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“一号”、“二号”、“三号”仅用于描述目的，而不能理解为指示或暗示相对重要性。下面结合具体实施方式，进一步阐述本发明。

实施例1

请参阅图1，本发明提供的一种实施例：

一种AI交互智慧屏控制系统，包括：

智慧屏的参数信息：55英寸，4K超高清屏，电容屏十点触摸，全场景交互，全新UI升级，预装常用教育软件，无边框，全面屏设计，Android9.0系统，4核CortexA73处理器，3GRAM，64G内存，德国莱茵护眼认证，防反光，防眩光，防指纹，防油污，杜比DTS双解码，各种音效专项提升，智能语音交互，整机通过CCC认证、无委认证、CTS认证和ROHS评定。

所述解锁模块，用于通过按键或输入密码解锁智慧屏；

智慧屏包括：教学单元，云课单元、乐园单元，应用单元，设置单元和管理单元，

所述教学单元，用于播放幼儿园教学课程内容；

所述云课单元，用于播放幼儿园云课堂内容；

所述应用单元，用于对教育软件进行管理；

语音数据预处理模块中的预处理包括：去除噪声和音质增强。

降噪方法包括：传统降噪技术和AI降噪技术，传统降噪技术包括：线性滤波法，就是用高通滤波器等对已知频带的信号进行滤除。比如有个50赫兹的干扰，用高通滤波器，截止频率在50赫兹以上，就可以把50赫兹的干扰信号滤除掉；谱减法，记录非语音段的一个噪音能量，然后用含噪语音谱减去噪音谱，就得到纯净语音；统计模型算法，基于统计的方法计算出各频点的语音和噪音分量；子空间算法，将含噪语音映射到信号子空间和噪音子空间，通过消除噪音子空间成分，保留有用的信号子空间成分，来估计真正有用的语音信号。AI降噪包括：Mask类，把含噪语音信号变换到时频域后，通过计算得到含噪语音的Mask值来与含噪语音时频谱相乘，从而在各频带上达到分别进行噪音抑制的效果，得到增强语音；Mapping类，Mapping类方法，不用得到中间值Mask再去计算去噪语音谱，而是直接利用深度学习网络预测语音谱。但这种方法也有两面性，虽然模型可以直接输出去噪语音谱，但其输出异常的情况会变多，尤其是面对模型未见过的场景；Mask与Mapping融合，Mask与Mapping融合方法，核心思想同样类似于前面所说的Mask的方法求出Mask值，但在求Loss的时候并不是对Mask求Loss，而是利用Mask求出去噪语音，利用去噪语音与干净语音来计算Loss；这样做的原因是，Mask不能完全反映语音与原始语音的拟合程度，同样的Loss情况下，Mask有多种可能性，基于不同Mask得到的语音也不是唯一的，因此用语音作为Loss的计算会更加贴合真实目标；Waveform类，这类方法将几乎所有处理都放入模型，让模型有很大的灵活度来做学习。之前的方法都是在时频域处理，而Waveform类方法则通过使用如CNN网络等对数据进行分解与合成，使得信号变化到模型收敛的域中。

音质增强：利用基于卡尔曼滤波的语音增强算法对去噪后的幼儿园教师和儿童的语音命令信息进行增强。

语音识别模块包括：音质识别模块和语音内容识别模块，

语音识别模块中的语音识别策略，包括以下具体步骤：

BiLSTM包含一个前向的LSTM和一个后向LSTM两部分组合而成，由于语音在内容上具有前后逻辑关联的特性，当前时刻的输出需要综合考虑过去和未来两种时刻下的时序信息状态。而LSTM仅能利用过去时刻的时序信息来对当前的输出状态进行预测，故选用BiLSTM（双向长短期记忆神经网络）作为网络主要结构来处理语音指令分类识别问题。

在LSTM内部控制遗忘与记忆等功能主要依赖于遗忘门、记忆门/>、输出门/>三个结构控制模块，而所谓“门”结构主要由Sigmoid激活函数和逐点乘法（pointwist）操作两部分构成，其作用是用来清除或者增加“细胞状态”的相关信息。Sigmoid函数的输出表示每个部分能够通过的信息量，范围为[0,1]，0表示“不允许相关变量通过”，1则表示“所有运行变量都通过”。其表达式如下：/>。

首先LSTM利用“遗忘门”针对性地遗弃部分无关信息，比如在语音指令分类模型中，细胞状态可能包含了一个指令信息（“A”或者“B”），当在遇到一个新的指令名词（“C”）时，可以考虑忘记之前的指令。其主要根据前一时刻的隐藏层状态/>和当前时刻输入/>相结合并通过Sigmoid函数生成一个0到1之间的概率向量。

其次，利用“记忆门”决定当前细胞状态/>需要保留哪些信息，其主要依据根据前一时刻的隐藏层状态/>和当前时刻输入/>在Sigmoid及tanh层的运算来帮助确定保留信息值。

最后，利用“输出门”完成“细胞状态”的信息更新，主要通过Sigmoid与tanh层部分输出结果的乘积传至下一状态的输出/>，类似地，反向LSTM按时间步从右到左处理输入序列，每个时间步的隐藏状态/>和单元状态/>可以由类似的公式计算。最终，BiLSTM的输出由两个方向的隐藏状态拼接而成，最终输出为/>。

在损失函数方面，通常采用交叉熵损失函数，损失函数表达式为：

，其中，N表示训练样本数量，/>表示第n个样本的序列长度，/>表示第n个样本在时间步t的真实标签，/>表示第n个样本在时间步t的预测标签。

利用Softmax函数进行分类，在日常生活中通常用百分数来表述一件事情发生的概率，如果某件事一定发生则概率就是100%，不会发生其概率就是0%。一件事情所有可能会出现的结果占比相加后等于1。对于多分类场景来说，由于全连接层最后输出向量大小范围不确定，难以用于辨别输入样本的类别结果，深度神经网络往往把Softmax层当作最后一层，其目的是用来进行最后的分类和归一化。在多分类场景下，通过softmax函数转换后的数据可以表示为每个类别的概率，这些概率的总和为1。

步骤5中的对比，具体方式为：将频率转化为梅尔值，转化公式为：

步骤6中的分类表示：得到来源的语音命令信息的类型。

智能控制模块中的智能控制策略，包括以下具体步骤：

，

步骤A3：重复步骤A1-A2，完成智慧屏智能交互控制。

实施例2

请参阅图2，本发明提供的另一种实施例：一种AI交互智慧屏控制方法，具体包括以下步骤：

步骤S1：采集幼儿园教师和儿童的语音命令信息；

实施例3

请参阅图4，一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种AI交互智慧屏控制方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种AI交互智慧屏控制系统，其特征在于，包括：

所述解锁模块，用于通过按键或输入密码解锁智慧屏；

所述智能控制模块，用于利用智能控制策略，根据识别出的幼儿园教师和儿童的语音命令内容，智能控制智慧屏的播放内容；

所述智慧屏包括：教学单元，云课单元、乐园单元，应用单元，设置单元和管理单元，

所述教学单元，用于播放幼儿园教学课程内容；

所述云课单元，用于播放幼儿园云课堂内容；

所述应用单元，用于对教育软件进行管理；

所述管理单元，用于对教学单元、云课单元和乐园单元的内容进行管理；

所述语音数据预处理模块中的预处理包括：去除噪声和音质增强；

所述语音识别模块包括：音质识别模块和语音内容识别模块，

所述语音内容识别模块，用于识别幼儿园教师和儿童语音的内容信息；

所述语音识别模块中的语音识别策略，包括以下具体步骤：

步骤6：利用训练好的BiLSTM网络模型，对得到来源的语音命令信息进行识别和分类；

所述步骤5中的对比，具体方式为：将频率转化为梅尔值，转化公式为：

，其中，m表示频率转化后的梅尔值，f表示幼儿园教师和儿童语音命令信息的频率，将频率转化后的梅尔值和幼儿园语音库的梅尔值做比较，得到语音命令信息的来源；

所述步骤6中的分类表示：得到来源的语音命令信息的类型；

所述智能控制模块中的智能控制策略，包括以下具体步骤：

，

步骤A3：重复步骤A1-A2，完成智慧屏智能交互控制。

2.一种AI交互智慧屏控制方法，其基于权利要求1所述的一种AI交互智慧屏控制系统实现，其特征在于，具体包括以下步骤：

步骤S1：采集幼儿园教师和儿童的语音命令信息；

3.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求2中所述的一种AI交互智慧屏控制方法的步骤。

4.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，当计算机指令运行时执行权利要求2中所述的一种AI交互智慧屏控制方法的步骤。