CN112141837A - 一种基于多层字典学习的智能语音电梯系统 - Google Patents
一种基于多层字典学习的智能语音电梯系统 Download PDFInfo
- Publication number
- CN112141837A CN112141837A CN202010943827.1A CN202010943827A CN112141837A CN 112141837 A CN112141837 A CN 112141837A CN 202010943827 A CN202010943827 A CN 202010943827A CN 112141837 A CN112141837 A CN 112141837A
- Authority
- CN
- China
- Prior art keywords
- voice
- layer
- dictionary learning
- module
- system based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 abstract 1
- 230000006872 improvement Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B66—HOISTING; LIFTING; HAULING
- B66B—ELEVATORS; ESCALATORS OR MOVING WALKWAYS
- B66B1/00—Control systems of elevators in general
- B66B1/34—Details, e.g. call counting devices, data transmission from car to control system, devices giving information to the control system
- B66B1/46—Adaptations of switches or switchgear
- B66B1/468—Call registering systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B66—HOISTING; LIFTING; HAULING
- B66B—ELEVATORS; ESCALATORS OR MOVING WALKWAYS
- B66B1/00—Control systems of elevators in general
- B66B1/34—Details, e.g. call counting devices, data transmission from car to control system, devices giving information to the control system
- B66B1/3415—Control system configuration and the data transmission or communication within the control system
- B66B1/3423—Control system configuration, i.e. lay-out
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B66—HOISTING; LIFTING; HAULING
- B66B—ELEVATORS; ESCALATORS OR MOVING WALKWAYS
- B66B5/00—Applications of checking, fault-correcting, or safety devices in elevators
- B66B5/0006—Monitoring devices or performance analysers
- B66B5/0012—Devices monitoring the users of the elevator system
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B66—HOISTING; LIFTING; HAULING
- B66B—ELEVATORS; ESCALATORS OR MOVING WALKWAYS
- B66B5/00—Applications of checking, fault-correcting, or safety devices in elevators
- B66B5/0006—Monitoring devices or performance analysers
- B66B5/0037—Performance analysers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B66—HOISTING; LIFTING; HAULING
- B66B—ELEVATORS; ESCALATORS OR MOVING WALKWAYS
- B66B2201/00—Aspects of control systems of elevators
- B66B2201/40—Details of the change of control mode
- B66B2201/46—Switches or switchgear
- B66B2201/4607—Call registering systems
- B66B2201/4638—Wherein the call is registered without making physical contact with the elevator system
- B66B2201/4646—Wherein the call is registered without making physical contact with the elevator system using voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Elevator Control (AREA)
- Indicating And Signalling Devices For Elevators (AREA)
Abstract
本发明涉及一种基于多层字典学习的智能语音电梯系统。本发明利用字典学习的去噪与特征优化能力,建立基于多层字典学习的智能语音电梯系统。首先建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块、LCD模块、和语音模块等;ARM控制模块通过控制语音采集模块读取外界语音指令;对采集的语音信号进行多层字典学习,对语音信号去噪并提取关键特征;进一步的把提取的特征送人SVM模型进行语音识别,实现语音对电梯系统的控制。
Description
技术领域
本发明涉及智能电梯领域,特别设计基于多层字典学习的智能语音电梯系统。
背景技术
随着科技的高速发展,智能机器人被越来越多的关注,如今随着城市化的发展,电梯成为最为关机的一种工具,如今市场的电梯只需我们键入自己想去的楼层,但是,在特殊时期,人们对电梯的接触可能会造成病毒的传播,例如,疫情期间,电梯的按键上可能会残留大量病毒,对用户健康造成威胁,因此,无接触电梯控制是目前一个很有研究价值的应用技术。
发明内容
为了解决上述存在问题。本发明提出一种基于多层字典学习的智能语音电梯系统,利用嵌入式系统集成化、低功耗、高频率、多功能的特点,建立了一个智能电梯交互系统,利用多层学习字典对采集语音信号进行去噪与特征提取,进而增加语音识别的准确度,实现电梯的语音控制。为达此目的:
本发明提出基于多层字典学习的智能语音电梯系统,具体步骤如下:
步骤1:建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块,LCD模块,和语音模块等;
步骤2:语音采集模块采集用户语音信息,对语音信息进行灰度归一化;
步骤3:对语音信息进行第一层字典学习,并把第一层训练的编码系数作为下一层训练的输入;
步骤4:对语音信息进行第二层字典学习,并把第二层训练的编码系数作为下一层训练的输入;
步骤5:对语音信息进行第三层字典学习,并把第三层训练的编码系数作为SVM分类器的输入;
步骤6:使用SVM对语音信号进行分类识别,控制系统根据识别结果进行电梯控制,如果识别失败,提醒用户重新输入语音。
作为本发明进一步改进,所述步骤2中语音归一化公式为:
其中,x(i)是采集的语音信号,max(·)是计算最大值。
作为本发明进一步改进,所述步骤3,4,5中每层字典学习输出公式为:
其中,Dl是第l训练字典,X是归一化语音信号,μ是正规化参数。
作为本发明进一步改进,所述步骤3,4,5中每层字典学习的投影矩阵为:
其中,Gl是第l层图拉普拉斯矩阵,α是正规化参数。
作为本发明进一步改进,所述步骤3,4,5中总投影矩阵公式为:
P=P1P2P3 (4)
其中,Pl是第l层投影矩阵。
作为本发明进一步改进,所述步骤6中SVM分类器公式为:
其中,W是权值,θ是惩罚因子。
本发明基于多层字典学习的智能语音电梯系统,有益效果在于:
1.本发明利用语音识别技术,电梯控制更加便捷。
2.本发明使用多层字典学习,对语音信号能够有效去除噪声。
3.本发明使用多层字典对特征进行多层编码,使得SVM识别率更高。
4.本发明硬件系统实现简单,成本低。
附图说明
图1是智能语音电梯系统框图;
图2是智能语音电梯系统流程图;
图3是不同语音信号经多层字典编码后特征分布图;
具体实施方式
本发明提出一种基于多层字典学习的智能语音电梯系统,利用嵌入式系统集成化、低功耗、高频率、多功能的特点,建立了一个智能电梯交互系统,利用多层学习字典对采集语音信号进行去噪与特征提取,进而增加语音识别的准确度,实现电梯的语音控制。如图1是智能语音电梯系统框图,图2是智能语音电梯系统流程图。
首先,建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块,LCD模块,和语音模块等;接着,语音采集模块采集用户语音信息,对语音信息进行灰度归一化。
语音归一化公式为:
其中,x(i)是采集的语音信号,max(·)是计算最大值。
然后,对语音信息进行第一层字典学习,并把第一层训练的编码系数作为下一层训练的输入;对语音信息进行第二层字典学习,并把第二层训练的编码系数作为下一层训练的输入;对语音信息进行第三层字典学习,并把第三层训练的编码系数作为SVM分类器的输入,如图3是不同语音信号经多层字典编码后特征分布图。
每层字典学习输出公式为:
其中,Dl是第l训练字典,X是归一化语音信号,μ是正规化参数。
每层字典学习的投影矩阵为:
其中,Gl是第l层图拉普拉斯矩阵,α是正规化参数。
总投影矩阵公式为:
P=P1P2P3 (4)
其中,Pl是第l层投影矩阵。
最后,使用SVM对语音信号进行分类识别,控制系统根据识别结果进行电梯控制,如果识别失败,提醒用户重新输入语音。
SVM分类器公式为:
其中,W是权值,θ是惩罚因子。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (6)
1.基于多层字典学习的智能语音电梯系统,具体步骤如下,其特征在于;
步骤1:建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块、LCD模块、和语音模块等;
步骤2:语音采集模块采集用户语音信息,对语音信息进行灰度归一化;
步骤3:对语音信息进行第一层字典学习,并把第一层训练的编码系数作为下一层训练的输入;
步骤4:对语音信息进行第二层字典学习,并把第二层训练的编码系数作为下一层训练的输入;
步骤5:对语音信息进行第三层字典学习,并把第三层训练的编码系数作为SVM分类器的输入;
步骤6:使用SVM对语音信号进行分类识别,控制系统根据识别结果进行电梯控制,如果识别失败,提醒用户重新输入语音。
5.根据权利要求1所述的基于多层字典学习的智能语音电梯系统,其特征在于;
所述步骤3,4,5中总投影矩阵公式为:
P=P1P2P3 (4)
其中,Pl是第l层投影矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010943827.1A CN112141837A (zh) | 2020-09-08 | 2020-09-08 | 一种基于多层字典学习的智能语音电梯系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010943827.1A CN112141837A (zh) | 2020-09-08 | 2020-09-08 | 一种基于多层字典学习的智能语音电梯系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112141837A true CN112141837A (zh) | 2020-12-29 |
Family
ID=73890772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010943827.1A Pending CN112141837A (zh) | 2020-09-08 | 2020-09-08 | 一种基于多层字典学习的智能语音电梯系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112141837A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783802A (en) * | 1984-10-02 | 1988-11-08 | Kabushiki Kaisha Toshiba | Learning system of dictionary for speech recognition |
KR20000031935A (ko) * | 1998-11-11 | 2000-06-05 | 정선종 | 음성인식시스템에서의 발음사전 자동생성 방법 |
JP2010117651A (ja) * | 2008-11-14 | 2010-05-27 | Nec Corp | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム |
US20150243284A1 (en) * | 2014-02-27 | 2015-08-27 | Qualcomm Incorporated | Systems and methods for speaker dictionary based speech modeling |
CN106395516A (zh) * | 2016-10-13 | 2017-02-15 | 东华大学 | 一种基于语音识别的乘客电梯智能控制系统 |
CN107543722A (zh) * | 2017-08-18 | 2018-01-05 | 西安交通大学 | 基于深度堆叠字典学习的滚动轴承故障特征提取方法 |
CN110189761A (zh) * | 2019-05-21 | 2019-08-30 | 哈尔滨工程大学 | 一种基于贪婪深度字典学习的单信道语音去混响方法 |
-
2020
- 2020-09-08 CN CN202010943827.1A patent/CN112141837A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783802A (en) * | 1984-10-02 | 1988-11-08 | Kabushiki Kaisha Toshiba | Learning system of dictionary for speech recognition |
KR20000031935A (ko) * | 1998-11-11 | 2000-06-05 | 정선종 | 음성인식시스템에서의 발음사전 자동생성 방법 |
JP2010117651A (ja) * | 2008-11-14 | 2010-05-27 | Nec Corp | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム |
US20150243284A1 (en) * | 2014-02-27 | 2015-08-27 | Qualcomm Incorporated | Systems and methods for speaker dictionary based speech modeling |
CN106395516A (zh) * | 2016-10-13 | 2017-02-15 | 东华大学 | 一种基于语音识别的乘客电梯智能控制系统 |
CN107543722A (zh) * | 2017-08-18 | 2018-01-05 | 西安交通大学 | 基于深度堆叠字典学习的滚动轴承故障特征提取方法 |
CN110189761A (zh) * | 2019-05-21 | 2019-08-30 | 哈尔滨工程大学 | 一种基于贪婪深度字典学习的单信道语音去混响方法 |
Non-Patent Citations (2)
Title |
---|
孙林慧等: "基于双层字典学习的单通道语音增强方法", 《信号处理》 * |
赵杰: "基于多层字典学习的分类算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101770774B (zh) | 基于嵌入式的开集说话人识别方法及其系统 | |
CN108764207B (zh) | 一种基于多任务卷积神经网络的人脸表情识别方法 | |
WO2021136054A1 (zh) | 语音唤醒方法、装置、设备及存储介质 | |
CN1120470C (zh) | 利用快速和精细匹配在人群中识别讲话者的方法和装置 | |
WO2021151271A1 (zh) | 基于命名实体的文本问答的方法、装置、设备及存储介质 | |
CN105512624A (zh) | 一种人脸图像的笑脸识别方法及其装置 | |
WO2020238661A1 (zh) | 一种电梯调度方法、装置、计算机设备和存储介质 | |
CN111461025B (zh) | 一种自主进化的零样本学习的信号识别方法 | |
WO2020238045A1 (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN113255362B (zh) | 人声过滤与识别方法、装置、电子设别及存储介质 | |
CN111508493B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN108639882B (zh) | 基于lstm网络模型的处理芯片与包含其的运算装置 | |
CN1300763C (zh) | 嵌入式语音识别系统的自动语音识别处理方法 | |
CN110633689B (zh) | 基于半监督注意力网络的人脸识别模型 | |
Kheratkar et al. | Gesture controlled home automation using CNN | |
CN108675071B (zh) | 基于人工神经网络处理器的云端协同智能芯片 | |
CN112141837A (zh) | 一种基于多层字典学习的智能语音电梯系统 | |
CN116957304B (zh) | 无人机群协同任务分配方法及系统 | |
CN115954019B (zh) | 一种融合自注意力和卷积操作的环境噪声识别方法及系统 | |
JP2004178569A5 (zh) | ||
CN1522431A (zh) | 使用行为模型来进行无干扰的说话者验证的方法和系统 | |
WO2023168713A1 (zh) | 交互语音信号处理方法、相关设备及系统 | |
CN114675539A (zh) | 一种自主学习的门窗智能控制系统 | |
CN206991377U (zh) | 用于客户信息管理的机器人 | |
WO2021139182A1 (zh) | 有效语音智能检测方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201229 |