CN117037790B - 一种ai交互智慧屏控制系统及方法 - Google Patents
一种ai交互智慧屏控制系统及方法 Download PDFInfo
- Publication number
- CN117037790B CN117037790B CN202311301335.2A CN202311301335A CN117037790B CN 117037790 B CN117037790 B CN 117037790B CN 202311301335 A CN202311301335 A CN 202311301335A CN 117037790 B CN117037790 B CN 117037790B
- Authority
- CN
- China
- Prior art keywords
- kindergarten
- voice command
- voice
- command information
- children
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003993 interaction Effects 0.000 title claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 230000002452 interceptive effect Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011217 control strategy Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种AI交互智慧屏控制系统及方法,属于屏幕控制技术领域,其具体包括:采集幼儿园教师和儿童的语音命令信息,对采集的幼儿园教师和儿童的语音命令信息进行预处理,包括去除噪声和音质增强,对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类,根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类,结合智慧屏控制约束条件,对智慧屏的播放内容进行交互控制,通过该方法,能够让幼儿园教师和学生与智慧屏进行交互控制,极大地提高了课堂效率和用户体验。
Description
技术领域
本发明属于屏幕控制技术领域,具体的说是一种AI交互智慧屏控制系统及方法。
背景技术
随着屏幕技术迅速发展,智慧屏已经广泛的应用于学生教育中,同时语音识别技术和国产开源操作系统的飞速发展,人与机器的交互方式也发生巨大改变,从最初的实体键到触摸屏再到语音识别,用户给设备传达命令的方式越来越人性化,其中语音识别能力是判断一个终端设备是否智能化的重要标志。
但幼儿园教学环境异与小学、中学和大学环境,幼儿园儿童对于新奇事物的尝试和对教师管教约束偏低,导致在语音控制设备时,会产生很多声音,并且声音也不整齐,加大了对语音识别的难度和对智慧屏控制的难度。
如授权公告号为CN109889904B的中国专利公开了一种共享大屏幕的交互控制方法,包括:内容源服务器获取多个播放循环时间段的可播放的播放内容,并且对于每一个播放循环时间段,所述播放内容包括当前播放内容和备用播放内容;根据所述播放内容生成当前播放内容列表和备用播放内容列表;接收当前预设时间段内用户发送的针对所述当前播放内容列表中的当前播放内容的第一投票信息,以及,针对所述备用播放内容列表中的备用播放内容的第二投票信息;根据所述第一投票信息和所述第二投票信息确定下一播放循环时间段内的当前播放内容列表中的播放内容。该申请实施例的共享大屏幕的交互控制方法,能够与用户群体进行交互,从而提高了用户体验。
如授权公告号为CN105373334B的中国专利公开了一种交互式屏幕控制方法与装置,方法包括:若识别出有第一感应物接触屏幕的边缘,则判断第一感应物与屏幕的接触面积是否大于预设阈值;若判断出为第一感应物与屏幕的接触面积大于预设阈值,则识别是否有第二感应物与屏幕之间的悬浮距离位于预设范围内;若识别出有第二感应物与屏幕之间的悬浮距离位于预设范围内,则根据第一感应物的位置和第二感应物的位置确定屏幕的虚拟按键的移动信息,并根据移动信息移动虚拟按键,虚拟按键移动之后与第二感应物的距离小于虚拟按键移动之前与第二感应物的距离。根据该公开,能够实现大尺寸屏幕单手操作。
以上专利均存在下述问题:1)无法对语音进行有效的识别和分类;2)针对幼儿园教学环境,无法精准的进行交互和控制。
发明内容
针对现有技术的不足,本发明提出了一种AI交互智慧屏控制系统及方法,采集幼儿园教师和儿童的语音命令信息,对采集的幼儿园教师和儿童的语音命令信息进行预处理,包括去除噪声和音质增强,对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类,根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类,结合智慧屏控制约束条件,对智慧屏的播放内容进行交互控制,通过该方法,能够让幼儿园教师和学生与智慧屏进行交互控制,极大地提高了课堂效率和用户体验。
为实现上述目的,本发明提供如下技术方案:
一种AI交互智慧屏控制系统,包括:
智慧屏,语音数据采集模块,语音数据预处理模块,解锁模块,语音识别模块,智能控制模块;
所述智慧屏,用于根据识别出的语音命令信息,播放语音命令信息的内容;
所述语音数据采集模块,用于采集幼儿园教师和儿童的语音命令信息;
所述语音数据预处理模块,用于对采集的幼儿园教师和儿童的语音命令信息进行预处理;
所述解锁模块,用于通过按键或输入密码解锁智慧屏;
所述语音识别模块,用于利用语音识别策略,识别预处理后的幼儿园教师和儿童的语音命令内容;
所述智能控制模块,用于利用智能控制策略,根据识别出的幼儿园教师和儿童的语音命令内容,智能控制智慧屏的播放内容。
具体的,所述智慧屏包括:教学单元,云课单元、乐园单元,应用单元,设置单元和管理单元,
所述教学单元,用于播放幼儿园教学课程内容;
所述云课单元,用于播放幼儿园云课堂内容;
所述乐园单元,用于播放儿童儿歌、儿童故事和课外知识视频;
所述应用单元,用于对教育软件进行管理;
所述设置单元,用于设置智慧屏系统的配置进行设定和更改;
所述管理单元,用于对教学单元、云课单元和乐园单元的内容进行管理。
具体的,所述语音数据预处理模块中的预处理包括:去除噪声和音质增强。
具体的,所述语音识别模块包括:音质识别模块和语音内容识别模块,
所述音质识别模块,用于识别和区分幼儿园教师和儿童的声音;
所述语音内容识别模块,用于识别幼儿园教师和儿童语音的内容信息。
具体的,所述语音识别模块中的语音识别策略,包括以下具体步骤:
步骤1:对预处理后的幼儿园教师和儿童语音命令信息进行预加重,预加重计算公式为:,其中,/>表示预处理后的第n帧幼儿园教师和儿童语音命令信息,/>表示预加重系数,/>表示预处理后的第n-1帧幼儿园教师和儿童语音命令信息,/>表示预加重后的第n帧幼儿园教师和儿童语音命令信息;
步骤2:将预加重后的幼儿园教师和儿童语音命令信息分为M帧,每帧的大小为N;
步骤3:对M帧进行加窗,加窗计算公式为:,其中,/>表示加窗函数,a表示加窗调节系数,n表示帧数;
步骤4:对加窗后的M帧幼儿园教师和儿童语音命令信息进行傅里叶变换,得到幼儿园教师和儿童语音命令信息在不同时间的频率分布;
步骤5:将幼儿园教师和儿童语音命令信息的频率分布与幼儿园语音库的频率分布进行对比,得到语音命令信息的来源;
步骤6:利用训练好的BiLSTM网络模型,对得到来源的语音命令信息进行识别和分类。
具体的,所述步骤5中的对比,具体方式为:将频率转化为梅尔值,转化公式为:
,其中,m表示频率转化后的梅尔值,f表示幼儿园教师和儿童语音命令信息的频率,将频率转化后的梅尔值和幼儿园语音库的梅尔值做比较,得到语音命令信息的来源。
具体的,所述步骤6中的分类表示:得到来源的语音命令信息的类型。
具体的,所述智能控制模块中的智能控制策略,包括以下具体步骤:
步骤A1:根据得到来源的语音命令信息内容和分类,对智慧屏的播放内容进行约束,约束条件为:
,
其中,表示智慧屏的播放内容约束条件,/>表示幼儿园教师语音命令内容,表示幼儿园教师的语音命令信息,/>表示幼儿园儿童的语音命令信息,/>表示幼儿园儿童的语音命令内容,/>表示k个幼儿园儿童中控制权限最高的儿童语音命令内容,k表示发出语音命令信息的幼儿园儿童数量;
步骤A2:当幼儿园教师或单个儿童发出语音命令时,执行幼儿园教师或单个儿童的语音命令内容,当幼儿园教师和单个儿童同时发出语音命令时,执行幼儿园教师的语音命令内容,当k个幼儿园儿童同时发出语音命令时,根据幼儿园儿童的控制权限,执行控制权限最高的儿童语音命令内容;
步骤A3:重复步骤A1-A2,完成智慧屏智能交互控制。
一种AI交互智慧屏控制方法,具体包括以下步骤:
步骤S1:采集幼儿园教师和儿童的语音命令信息;
步骤S2:对采集的幼儿园教师和儿童的语音命令信息进行预处理,包括去除噪声和音质增强;
步骤S3:对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类;
步骤S4:根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类,结合智慧屏控制约束条件,对智慧屏的播放内容进行交互控制。
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种AI交互智慧屏控制方法的步骤。
一种计算机可读存储介质,其上存储有计算机指令,当计算机指令运行时执行一种AI交互智慧屏控制方法的步骤。
与现有技术相比,本发明的有益效果是:
1.本发明提出一种AI交互智慧屏控制系统,并进行了架构、运行步骤和流程上的优化改进,系统具备流程简单,投资运行费用低廉,生产工作成本低的优点。
2.本发明提出一种AI交互智慧屏控制方法,采集幼儿园教师和儿童的语音命令信息,对采集的幼儿园教师和儿童的语音命令信息进行预处理,包括去除噪声和音质增强,对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类,根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类,结合智慧屏控制约束条件,对智慧屏的播放内容进行交互控制,通过该方法,能够让幼儿园教师和学生与智慧屏进行交互控制,极大地提高了课堂效率和用户体验。
附图说明
图1为本发明一种AI交互智慧屏控制系统架构图;
图2为本发明一种AI交互智慧屏控制方法流程图;
图3为本发明BiLSTM网络结构图;
图4为本发明一种AI交互智慧屏控制方法的电子设备图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“一号”、“二号”、“三号”仅用于描述目的,而不能理解为指示或暗示相对重要性。下面结合具体实施方式,进一步阐述本发明。
实施例1
请参阅图1,本发明提供的一种实施例:
一种AI交互智慧屏控制系统,包括:
智慧屏,语音数据采集模块,语音数据预处理模块,解锁模块,语音识别模块,智能控制模块;
所述智慧屏,用于根据识别出的语音命令信息,播放语音命令信息的内容;
智慧屏的参数信息:55英寸,4K超高清屏,电容屏十点触摸,全场景交互,全新UI升级,预装常用教育软件,无边框,全面屏设计,Android9.0系统,4核CortexA73处理器,3GRAM,64G内存,德国莱茵护眼认证,防反光,防眩光,防指纹,防油污,杜比DTS双解码,各种音效专项提升,智能语音交互,整机通过CCC认证、无委认证、CTS认证和ROHS评定。
所述语音数据采集模块,用于采集幼儿园教师和儿童的语音命令信息;
所述语音数据预处理模块,用于对采集的幼儿园教师和儿童的语音命令信息进行预处理;
所述解锁模块,用于通过按键或输入密码解锁智慧屏;
所述语音识别模块,用于利用语音识别策略,识别预处理后的幼儿园教师和儿童的语音命令内容;
所述智能控制模块,用于利用智能控制策略,根据识别出的幼儿园教师和儿童的语音命令内容,智能控制智慧屏的播放内容。
智慧屏包括:教学单元,云课单元、乐园单元,应用单元,设置单元和管理单元,
所述教学单元,用于播放幼儿园教学课程内容;
所述云课单元,用于播放幼儿园云课堂内容;
所述乐园单元,用于播放儿童儿歌、儿童故事和课外知识视频;
所述应用单元,用于对教育软件进行管理;
所述设置单元,用于设置智慧屏系统的配置进行设定和更改;
所述管理单元,用于对教学单元、云课单元和乐园单元的内容进行管理。
语音数据预处理模块中的预处理包括:去除噪声和音质增强。
降噪方法包括:传统降噪技术和AI降噪技术,传统降噪技术包括:线性滤波法,就是用高通滤波器等对已知频带的信号进行滤除。比如有个50赫兹的干扰,用高通滤波器,截止频率在50赫兹以上,就可以把50赫兹的干扰信号滤除掉;谱减法,记录非语音段的一个噪音能量,然后用含噪语音谱减去噪音谱,就得到纯净语音;统计模型算法,基于统计的方法计算出各频点的语音和噪音分量;子空间算法,将含噪语音映射到信号子空间和噪音子空间,通过消除噪音子空间成分,保留有用的信号子空间成分,来估计真正有用的语音信号。AI降噪包括:Mask类,把含噪语音信号变换到时频域后,通过计算得到含噪语音的Mask值来与含噪语音时频谱相乘,从而在各频带上达到分别进行噪音抑制的效果,得到增强语音;Mapping类,Mapping类方法,不用得到中间值Mask再去计算去噪语音谱,而是直接利用深度学习网络预测语音谱。但这种方法也有两面性,虽然模型可以直接输出去噪语音谱,但其输出异常的情况会变多,尤其是面对模型未见过的场景;Mask与Mapping融合,Mask与Mapping融合方法,核心思想同样类似于前面所说的Mask的方法求出Mask值,但在求Loss的时候并不是对Mask求Loss,而是利用Mask求出去噪语音,利用去噪语音与干净语音来计算Loss;这样做的原因是,Mask不能完全反映语音与原始语音的拟合程度,同样的Loss情况下,Mask有多种可能性,基于不同Mask得到的语音也不是唯一的,因此用语音作为Loss的计算会更加贴合真实目标;Waveform类,这类方法将几乎所有处理都放入模型,让模型有很大的灵活度来做学习。之前的方法都是在时频域处理,而Waveform类方法则通过使用如CNN网络等对数据进行分解与合成,使得信号变化到模型收敛的域中。
音质增强:利用基于卡尔曼滤波的语音增强算法对去噪后的幼儿园教师和儿童的语音命令信息进行增强。
语音识别模块包括:音质识别模块和语音内容识别模块,
所述音质识别模块,用于识别和区分幼儿园教师和儿童的声音;
所述语音内容识别模块,用于识别幼儿园教师和儿童语音的内容信息。
语音识别模块中的语音识别策略,包括以下具体步骤:
步骤1:对预处理后的幼儿园教师和儿童语音命令信息进行预加重,预加重计算公式为:,其中,/>表示预处理后的第n帧幼儿园教师和儿童语音命令信息,/>表示预加重系数,/>表示预处理后的第n-1帧幼儿园教师和儿童语音命令信息,/>表示预加重后的第n帧幼儿园教师和儿童语音命令信息;
步骤2:将预加重后的幼儿园教师和儿童语音命令信息分为M帧,每帧的大小为N;
步骤3:对M帧进行加窗,加窗计算公式为:,其中,/>表示加窗函数,a表示加窗调节系数,n表示帧数;
步骤4:对加窗后的M帧幼儿园教师和儿童语音命令信息进行傅里叶变换,得到幼儿园教师和儿童语音命令信息在不同时间的频率分布;
步骤5:将幼儿园教师和儿童语音命令信息的频率分布与幼儿园语音库的频率分布进行对比,得到语音命令信息的来源;
步骤6:利用训练好的BiLSTM网络模型,对得到来源的语音命令信息进行识别和分类。
BiLSTM包含一个前向的LSTM和一个后向LSTM两部分组合而成,由于语音在内容上具有前后逻辑关联的特性,当前时刻的输出需要综合考虑过去和未来两种时刻下的时序信息状态。而LSTM仅能利用过去时刻的时序信息来对当前的输出状态进行预测,故选用BiLSTM(双向长短期记忆神经网络)作为网络主要结构来处理语音指令分类识别问题。
在LSTM内部控制遗忘与记忆等功能主要依赖于遗忘门、记忆门/>、输出门/>三个结构控制模块,而所谓“门”结构主要由Sigmoid激活函数和逐点乘法(pointwist)操作两部分构成,其作用是用来清除或者增加“细胞状态”的相关信息。Sigmoid函数的输出表示每个部分能够通过的信息量,范围为[0,1],0表示“不允许相关变量通过”,1则表示“所有运行变量都通过”。其表达式如下:/>。
首先LSTM利用“遗忘门”针对性地遗弃部分无关信息,比如在语音指令分类模型中,细胞状态可能包含了一个指令信息(“A”或者“B”),当在遇到一个新的指令名词(“C”)时,可以考虑忘记之前的指令。其主要根据前一时刻的隐藏层状态/>和当前时刻输入/>相结合并通过Sigmoid函数生成一个0到1之间的概率向量。
其次,利用“记忆门”决定当前细胞状态/>需要保留哪些信息,其主要依据根据前一时刻的隐藏层状态/>和当前时刻输入/>在Sigmoid及tanh层的运算来帮助确定保留信息值。
最后,利用“输出门”完成“细胞状态”的信息更新,主要通过Sigmoid与tanh层部分输出结果的乘积传至下一状态的输出/>,类似地,反向LSTM按时间步从右到左处理输入序列,每个时间步的隐藏状态/>和单元状态/>可以由类似的公式计算。最终,BiLSTM的输出由两个方向的隐藏状态拼接而成,最终输出为/>。
在损失函数方面,通常采用交叉熵损失函数,损失函数表达式为:
,其中,N表示训练样本数量,/>表示第n个样本的序列长度,/>表示第n个样本在时间步t的真实标签,/>表示第n个样本在时间步t的预测标签。
利用Softmax函数进行分类,在日常生活中通常用百分数来表述一件事情发生的概率,如果某件事一定发生则概率就是100%,不会发生其概率就是0%。一件事情所有可能会出现的结果占比相加后等于1。对于多分类场景来说,由于全连接层最后输出向量大小范围不确定,难以用于辨别输入样本的类别结果,深度神经网络往往把Softmax层当作最后一层,其目的是用来进行最后的分类和归一化。在多分类场景下,通过softmax函数转换后的数据可以表示为每个类别的概率,这些概率的总和为1。
步骤5中的对比,具体方式为:将频率转化为梅尔值,转化公式为:
,其中,m表示频率转化后的梅尔值,f表示幼儿园教师和儿童语音命令信息的频率,将频率转化后的梅尔值和幼儿园语音库的梅尔值做比较,得到语音命令信息的来源。
步骤6中的分类表示:得到来源的语音命令信息的类型。
智能控制模块中的智能控制策略,包括以下具体步骤:
步骤A1:根据得到来源的语音命令信息内容和分类,对智慧屏的播放内容进行约束,约束条件为:
,
其中,表示智慧屏的播放内容约束条件,/>表示幼儿园教师语音命令内容,表示幼儿园教师的语音命令信息,/>表示幼儿园儿童的语音命令信息,/>表示幼儿园儿童的语音命令内容,/>表示k个幼儿园儿童中控制权限最高的儿童语音命令内容,k表示发出语音命令信息的幼儿园儿童数量;
步骤A2:当幼儿园教师或单个儿童发出语音命令时,执行幼儿园教师或单个儿童的语音命令内容,当幼儿园教师和单个儿童同时发出语音命令时,执行幼儿园教师的语音命令内容,当k个幼儿园儿童同时发出语音命令时,根据幼儿园儿童的控制权限,执行控制权限最高的儿童语音命令内容;
步骤A3:重复步骤A1-A2,完成智慧屏智能交互控制。
实施例2
请参阅图2,本发明提供的另一种实施例:一种AI交互智慧屏控制方法,具体包括以下步骤:
步骤S1:采集幼儿园教师和儿童的语音命令信息;
步骤S2:对采集的幼儿园教师和儿童的语音命令信息进行预处理,包括去除噪声和音质增强;
步骤S3:对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类;
步骤S4:根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类,结合智慧屏控制约束条件,对智慧屏的播放内容进行交互控制。
实施例3
请参阅图4,一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种AI交互智慧屏控制方法的步骤。
一种计算机可读存储介质,其上存储有计算机指令,当计算机指令运行时执行一种AI交互智慧屏控制方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (4)
1.一种AI交互智慧屏控制系统,其特征在于,包括:
智慧屏,语音数据采集模块,语音数据预处理模块,解锁模块,语音识别模块,智能控制模块;
所述智慧屏,用于根据识别出的语音命令信息,播放语音命令信息的内容;
所述语音数据采集模块,用于采集幼儿园教师和儿童的语音命令信息;
所述语音数据预处理模块,用于对采集的幼儿园教师和儿童的语音命令信息进行预处理;
所述解锁模块,用于通过按键或输入密码解锁智慧屏;
所述语音识别模块,用于利用语音识别策略,识别预处理后的幼儿园教师和儿童的语音命令内容;
所述智能控制模块,用于利用智能控制策略,根据识别出的幼儿园教师和儿童的语音命令内容,智能控制智慧屏的播放内容;
所述智慧屏包括:教学单元,云课单元、乐园单元,应用单元,设置单元和管理单元,
所述教学单元,用于播放幼儿园教学课程内容;
所述云课单元,用于播放幼儿园云课堂内容;
所述乐园单元,用于播放儿童儿歌、儿童故事和课外知识视频;
所述应用单元,用于对教育软件进行管理;
所述设置单元,用于设置智慧屏系统的配置进行设定和更改;
所述管理单元,用于对教学单元、云课单元和乐园单元的内容进行管理;
所述语音数据预处理模块中的预处理包括:去除噪声和音质增强;
所述语音识别模块包括:音质识别模块和语音内容识别模块,
所述音质识别模块,用于识别和区分幼儿园教师和儿童的声音;
所述语音内容识别模块,用于识别幼儿园教师和儿童语音的内容信息;
所述语音识别模块中的语音识别策略,包括以下具体步骤:
步骤1:对预处理后的幼儿园教师和儿童语音命令信息进行预加重,预加重计算公式为:,其中,/>表示预处理后的第n帧幼儿园教师和儿童语音命令信息,/>表示预加重系数,/>表示预处理后的第n-1帧幼儿园教师和儿童语音命令信息,/>表示预加重后的第n帧幼儿园教师和儿童语音命令信息;
步骤2:将预加重后的幼儿园教师和儿童语音命令信息分为M帧,每帧的大小为N;
步骤3:对M帧进行加窗,加窗计算公式为:,其中,/>表示加窗函数,a表示加窗调节系数,n表示帧数;
步骤4:对加窗后的M帧幼儿园教师和儿童语音命令信息进行傅里叶变换,得到幼儿园教师和儿童语音命令信息在不同时间的频率分布;
步骤5:将幼儿园教师和儿童语音命令信息的频率分布与幼儿园语音库的频率分布进行对比,得到语音命令信息的来源;
步骤6:利用训练好的BiLSTM网络模型,对得到来源的语音命令信息进行识别和分类;
所述步骤5中的对比,具体方式为:将频率转化为梅尔值,转化公式为:
,其中,m表示频率转化后的梅尔值,f表示幼儿园教师和儿童语音命令信息的频率,将频率转化后的梅尔值和幼儿园语音库的梅尔值做比较,得到语音命令信息的来源;
所述步骤6中的分类表示:得到来源的语音命令信息的类型;
所述智能控制模块中的智能控制策略,包括以下具体步骤:
步骤A1:根据得到来源的语音命令信息内容和分类,对智慧屏的播放内容进行约束,约束条件为:
,
其中,表示智慧屏的播放内容约束条件,/>表示幼儿园教师语音命令内容,表示幼儿园教师的语音命令信息,/>表示幼儿园儿童的语音命令信息,/>表示幼儿园儿童的语音命令内容,/>表示k个幼儿园儿童中控制权限最高的儿童语音命令内容,k表示发出语音命令信息的幼儿园儿童数量;
步骤A2:当幼儿园教师或单个儿童发出语音命令时,执行幼儿园教师或单个儿童的语音命令内容,当幼儿园教师和单个儿童同时发出语音命令时,执行幼儿园教师的语音命令内容,当k个幼儿园儿童同时发出语音命令时,根据幼儿园儿童的控制权限,执行控制权限最高的儿童语音命令内容;
步骤A3:重复步骤A1-A2,完成智慧屏智能交互控制。
2.一种AI交互智慧屏控制方法,其基于权利要求1所述的一种AI交互智慧屏控制系统实现,其特征在于,具体包括以下步骤:
步骤S1:采集幼儿园教师和儿童的语音命令信息;
步骤S2:对采集的幼儿园教师和儿童的语音命令信息进行预处理,包括去除噪声和音质增强;
步骤S3:对预处理后的幼儿园教师和儿童的语音命令信息进行来源识别、内容识别和命令分类;
步骤S4:根据幼儿园教师和儿童的语音命令信息的来源、命令内容和分类,结合智慧屏控制约束条件,对智慧屏的播放内容进行交互控制。
3.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求2中所述的一种AI交互智慧屏控制方法的步骤。
4.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,当计算机指令运行时执行权利要求2中所述的一种AI交互智慧屏控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311301335.2A CN117037790B (zh) | 2023-10-10 | 2023-10-10 | 一种ai交互智慧屏控制系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311301335.2A CN117037790B (zh) | 2023-10-10 | 2023-10-10 | 一种ai交互智慧屏控制系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117037790A CN117037790A (zh) | 2023-11-10 |
CN117037790B true CN117037790B (zh) | 2024-01-09 |
Family
ID=88639467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311301335.2A Active CN117037790B (zh) | 2023-10-10 | 2023-10-10 | 一种ai交互智慧屏控制系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037790B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719518A (zh) * | 2016-04-26 | 2016-06-29 | 迟同斌 | 智能儿童早教机 |
CN107221206A (zh) * | 2017-06-09 | 2017-09-29 | 李红星 | 一种智能教学机器人 |
CN111161723A (zh) * | 2019-12-12 | 2020-05-15 | 广州奥睿智能科技有限公司 | 基于语音识别的多模态大屏交互的方法及装置 |
CN111474859A (zh) * | 2020-04-02 | 2020-07-31 | 深圳创维-Rgb电子有限公司 | 非智能设备的控制方法、装置及电子设备 |
CN112492367A (zh) * | 2020-11-18 | 2021-03-12 | 安徽宝信信息科技有限公司 | 基于智能语音交互的智慧屏操作方法及其系统 |
CN112820314A (zh) * | 2021-01-11 | 2021-05-18 | 润联软件系统(深圳)有限公司 | 一种智能语音控制大屏显示方法、系统及其相关组件 |
CN112820283A (zh) * | 2019-11-18 | 2021-05-18 | 阿里巴巴集团控股有限公司 | 一种语音处理方法、设备及系统 |
CN113568591A (zh) * | 2021-06-15 | 2021-10-29 | 青岛海尔科技有限公司 | 智能设备的控制方法及控制装置、智能设备、智能餐桌 |
CN114245267A (zh) * | 2022-02-27 | 2022-03-25 | 荣耀终端有限公司 | 多设备协同工作的方法、系统及电子设备 |
KR20220040828A (ko) * | 2020-09-24 | 2022-03-31 | 서울시립대학교 산학협력단 | 대화형 인공지능을 이용한 코딩 방법 및 장치 |
CN217827158U (zh) * | 2022-04-13 | 2022-11-18 | 大同师范高等专科学校 | 一种智慧教育校园用的学习课桌 |
CN115550595A (zh) * | 2021-06-30 | 2022-12-30 | Oppo广东移动通信有限公司 | 线上会议实现方法、装置、设备及可读存储介质 |
CN115604513A (zh) * | 2021-07-07 | 2023-01-13 | 华为技术有限公司(Cn) | 一种系统模式切换方法、电子设备及计算机可读存储介质 |
WO2023045597A1 (zh) * | 2021-09-26 | 2023-03-30 | 华为技术有限公司 | 大屏业务的跨设备流转操控方法和装置 |
-
2023
- 2023-10-10 CN CN202311301335.2A patent/CN117037790B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719518A (zh) * | 2016-04-26 | 2016-06-29 | 迟同斌 | 智能儿童早教机 |
CN107221206A (zh) * | 2017-06-09 | 2017-09-29 | 李红星 | 一种智能教学机器人 |
CN112820283A (zh) * | 2019-11-18 | 2021-05-18 | 阿里巴巴集团控股有限公司 | 一种语音处理方法、设备及系统 |
CN111161723A (zh) * | 2019-12-12 | 2020-05-15 | 广州奥睿智能科技有限公司 | 基于语音识别的多模态大屏交互的方法及装置 |
CN111474859A (zh) * | 2020-04-02 | 2020-07-31 | 深圳创维-Rgb电子有限公司 | 非智能设备的控制方法、装置及电子设备 |
KR20220040828A (ko) * | 2020-09-24 | 2022-03-31 | 서울시립대학교 산학협력단 | 대화형 인공지능을 이용한 코딩 방법 및 장치 |
CN112492367A (zh) * | 2020-11-18 | 2021-03-12 | 安徽宝信信息科技有限公司 | 基于智能语音交互的智慧屏操作方法及其系统 |
CN112820314A (zh) * | 2021-01-11 | 2021-05-18 | 润联软件系统(深圳)有限公司 | 一种智能语音控制大屏显示方法、系统及其相关组件 |
CN113568591A (zh) * | 2021-06-15 | 2021-10-29 | 青岛海尔科技有限公司 | 智能设备的控制方法及控制装置、智能设备、智能餐桌 |
CN115550595A (zh) * | 2021-06-30 | 2022-12-30 | Oppo广东移动通信有限公司 | 线上会议实现方法、装置、设备及可读存储介质 |
CN115604513A (zh) * | 2021-07-07 | 2023-01-13 | 华为技术有限公司(Cn) | 一种系统模式切换方法、电子设备及计算机可读存储介质 |
WO2023045597A1 (zh) * | 2021-09-26 | 2023-03-30 | 华为技术有限公司 | 大屏业务的跨设备流转操控方法和装置 |
CN114245267A (zh) * | 2022-02-27 | 2022-03-25 | 荣耀终端有限公司 | 多设备协同工作的方法、系统及电子设备 |
CN217827158U (zh) * | 2022-04-13 | 2022-11-18 | 大同师范高等专科学校 | 一种智慧教育校园用的学习课桌 |
Non-Patent Citations (1)
Title |
---|
基于机器学习的网络教育系统研究;仲玮;李志琛;;通信学报(S1);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117037790A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Laffitte et al. | Deep neural networks for automatic detection of screams and shouted speech in subway trains | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Laffitte et al. | Assessing the performances of different neural network architectures for the detection of screams and shouts in public transportation | |
Wang et al. | A deconvolutive neural network for speech classification with applications to home service robot | |
Wang et al. | Online non-negative convolutive pattern learning for speech signals | |
Jung et al. | A unified deep learning framework for short-duration speaker verification in adverse environments | |
Joshi et al. | A Study of speech emotion recognition methods | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
CN106992000A (zh) | 一种基于预测的多特征融合的老人语音情感识别方法 | |
Luo et al. | A system for the detection of polyphonic sound on a university campus based on CapsNet-RNN | |
Tan et al. | Attention augmented convolutional neural network for acoustics based machine state estimation | |
CN117037790B (zh) | 一种ai交互智慧屏控制系统及方法 | |
CN113707175A (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
CN116347723A (zh) | 一种可调灯光样色的声控型墙壁开关的控制系统 | |
CN110363074B (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 | |
Wu et al. | Audio-based expansion learning for aerial target recognition | |
Hou et al. | Cooperative Scene-Event Modelling for Acoustic Scene Classification | |
CN110910904A (zh) | 一种建立语音情感识别模型的方法及语音情感识别方法 | |
Yoshida et al. | Audio-visual voice activity detection based on an utterance state transition model | |
CN109767788A (zh) | 一种基于lld和dss融合特征的语音情感识别方法 | |
Zhao et al. | Speech Recognition Method for Home Service Robots Based on CLSTM-HMM Hybrid Acoustic Model | |
CN117908683B (zh) | 基于透明显示设备的智能移动ai数字人交互方法及系统 | |
Shome et al. | A robust DNN model for text-independent speaker identification using non-speaker embeddings in diverse data conditions | |
Li et al. | Cross-modal mask fusion and modality-balanced audio-visual speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |