CN112141837A - 一种基于多层字典学习的智能语音电梯系统 - Google Patents

一种基于多层字典学习的智能语音电梯系统 Download PDF

Info

Publication number
CN112141837A
CN112141837A CN202010943827.1A CN202010943827A CN112141837A CN 112141837 A CN112141837 A CN 112141837A CN 202010943827 A CN202010943827 A CN 202010943827A CN 112141837 A CN112141837 A CN 112141837A
Authority
CN
China
Prior art keywords
voice
layer
dictionary learning
module
system based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010943827.1A
Other languages
English (en)
Inventor
李永琳
吴凡
姜玉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN202010943827.1A priority Critical patent/CN112141837A/zh
Publication of CN112141837A publication Critical patent/CN112141837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B1/00Control systems of elevators in general
    • B66B1/34Details, e.g. call counting devices, data transmission from car to control system, devices giving information to the control system
    • B66B1/46Adaptations of switches or switchgear
    • B66B1/468Call registering systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B1/00Control systems of elevators in general
    • B66B1/34Details, e.g. call counting devices, data transmission from car to control system, devices giving information to the control system
    • B66B1/3415Control system configuration and the data transmission or communication within the control system
    • B66B1/3423Control system configuration, i.e. lay-out
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B5/00Applications of checking, fault-correcting, or safety devices in elevators
    • B66B5/0006Monitoring devices or performance analysers
    • B66B5/0012Devices monitoring the users of the elevator system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B5/00Applications of checking, fault-correcting, or safety devices in elevators
    • B66B5/0006Monitoring devices or performance analysers
    • B66B5/0037Performance analysers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B2201/00Aspects of control systems of elevators
    • B66B2201/40Details of the change of control mode
    • B66B2201/46Switches or switchgear
    • B66B2201/4607Call registering systems
    • B66B2201/4638Wherein the call is registered without making physical contact with the elevator system
    • B66B2201/4646Wherein the call is registered without making physical contact with the elevator system using voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Elevator Control (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)

Abstract

本发明涉及一种基于多层字典学习的智能语音电梯系统。本发明利用字典学习的去噪与特征优化能力,建立基于多层字典学习的智能语音电梯系统。首先建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块、LCD模块、和语音模块等;ARM控制模块通过控制语音采集模块读取外界语音指令;对采集的语音信号进行多层字典学习,对语音信号去噪并提取关键特征;进一步的把提取的特征送人SVM模型进行语音识别,实现语音对电梯系统的控制。

Description

一种基于多层字典学习的智能语音电梯系统
技术领域
本发明涉及智能电梯领域,特别设计基于多层字典学习的智能语音电梯系统。
背景技术
随着科技的高速发展,智能机器人被越来越多的关注,如今随着城市化的发展,电梯成为最为关机的一种工具,如今市场的电梯只需我们键入自己想去的楼层,但是,在特殊时期,人们对电梯的接触可能会造成病毒的传播,例如,疫情期间,电梯的按键上可能会残留大量病毒,对用户健康造成威胁,因此,无接触电梯控制是目前一个很有研究价值的应用技术。
发明内容
为了解决上述存在问题。本发明提出一种基于多层字典学习的智能语音电梯系统,利用嵌入式系统集成化、低功耗、高频率、多功能的特点,建立了一个智能电梯交互系统,利用多层学习字典对采集语音信号进行去噪与特征提取,进而增加语音识别的准确度,实现电梯的语音控制。为达此目的:
本发明提出基于多层字典学习的智能语音电梯系统,具体步骤如下:
步骤1:建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块,LCD模块,和语音模块等;
步骤2:语音采集模块采集用户语音信息,对语音信息进行灰度归一化;
步骤3:对语音信息进行第一层字典学习,并把第一层训练的编码系数作为下一层训练的输入;
步骤4:对语音信息进行第二层字典学习,并把第二层训练的编码系数作为下一层训练的输入;
步骤5:对语音信息进行第三层字典学习,并把第三层训练的编码系数作为SVM分类器的输入;
步骤6:使用SVM对语音信号进行分类识别,控制系统根据识别结果进行电梯控制,如果识别失败,提醒用户重新输入语音。
作为本发明进一步改进,所述步骤2中语音归一化公式为:
Figure BDA0002671831410000021
其中,x(i)是采集的语音信号,max(·)是计算最大值。
作为本发明进一步改进,所述步骤3,4,5中每层字典学习输出公式为:
Figure BDA0002671831410000022
其中,Dl是第l训练字典,X是归一化语音信号,μ是正规化参数。
作为本发明进一步改进,所述步骤3,4,5中每层字典学习的投影矩阵为:
Figure BDA0002671831410000023
其中,Gl是第l层图拉普拉斯矩阵,α是正规化参数。
作为本发明进一步改进,所述步骤3,4,5中总投影矩阵公式为:
P=P1P2P3 (4)
其中,Pl是第l层投影矩阵。
作为本发明进一步改进,所述步骤6中SVM分类器公式为:
Figure BDA0002671831410000024
其中,W是权值,θ是惩罚因子。
本发明基于多层字典学习的智能语音电梯系统,有益效果在于:
1.本发明利用语音识别技术,电梯控制更加便捷。
2.本发明使用多层字典学习,对语音信号能够有效去除噪声。
3.本发明使用多层字典对特征进行多层编码,使得SVM识别率更高。
4.本发明硬件系统实现简单,成本低。
附图说明
图1是智能语音电梯系统框图;
图2是智能语音电梯系统流程图;
图3是不同语音信号经多层字典编码后特征分布图;
具体实施方式
本发明提出一种基于多层字典学习的智能语音电梯系统,利用嵌入式系统集成化、低功耗、高频率、多功能的特点,建立了一个智能电梯交互系统,利用多层学习字典对采集语音信号进行去噪与特征提取,进而增加语音识别的准确度,实现电梯的语音控制。如图1是智能语音电梯系统框图,图2是智能语音电梯系统流程图。
首先,建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块,LCD模块,和语音模块等;接着,语音采集模块采集用户语音信息,对语音信息进行灰度归一化。
语音归一化公式为:
Figure BDA0002671831410000031
其中,x(i)是采集的语音信号,max(·)是计算最大值。
然后,对语音信息进行第一层字典学习,并把第一层训练的编码系数作为下一层训练的输入;对语音信息进行第二层字典学习,并把第二层训练的编码系数作为下一层训练的输入;对语音信息进行第三层字典学习,并把第三层训练的编码系数作为SVM分类器的输入,如图3是不同语音信号经多层字典编码后特征分布图。
每层字典学习输出公式为:
Figure BDA0002671831410000032
其中,Dl是第l训练字典,X是归一化语音信号,μ是正规化参数。
每层字典学习的投影矩阵为:
Figure BDA0002671831410000033
其中,Gl是第l层图拉普拉斯矩阵,α是正规化参数。
总投影矩阵公式为:
P=P1P2P3 (4)
其中,Pl是第l层投影矩阵。
最后,使用SVM对语音信号进行分类识别,控制系统根据识别结果进行电梯控制,如果识别失败,提醒用户重新输入语音。
SVM分类器公式为:
Figure BDA0002671831410000041
其中,W是权值,θ是惩罚因子。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (6)

1.基于多层字典学习的智能语音电梯系统,具体步骤如下,其特征在于;
步骤1:建立语音电梯硬件系统,硬件系统主要包括语音采集模块、步进电机控制模块、ARM控制模块、陀螺仪模块、LCD模块、和语音模块等;
步骤2:语音采集模块采集用户语音信息,对语音信息进行灰度归一化;
步骤3:对语音信息进行第一层字典学习,并把第一层训练的编码系数作为下一层训练的输入;
步骤4:对语音信息进行第二层字典学习,并把第二层训练的编码系数作为下一层训练的输入;
步骤5:对语音信息进行第三层字典学习,并把第三层训练的编码系数作为SVM分类器的输入;
步骤6:使用SVM对语音信号进行分类识别,控制系统根据识别结果进行电梯控制,如果识别失败,提醒用户重新输入语音。
2.根据权利要求1所述的基于多层字典学习的智能语音电梯系统,其特征在于;
所述步骤2中语音归一化公式为:
Figure FDA0002671831400000013
其中,x(i)是采集的语音信号,max(·)是计算最大值。
3.根据权利要求1所述的基于多层字典学习的智能语音电梯系统,其特征在于;
所述步骤3,4,5中每层字典学习输出公式为:
Figure FDA0002671831400000011
其中,Dl是第l训练字典,X是归一化语音信号,μ是正规化参数。
4.根据权利要求1所述的基于多层字典学习的智能语音电梯系统,其特征在于;
所述步骤3,4,5中每层字典学习的投影矩阵为:
Figure FDA0002671831400000012
其中,Gl是第l层图拉普拉斯矩阵,α是正规化参数。
5.根据权利要求1所述的基于多层字典学习的智能语音电梯系统,其特征在于;
所述步骤3,4,5中总投影矩阵公式为:
P=P1P2P3 (4)
其中,Pl是第l层投影矩阵。
6.根据权利要求1所述的基于多层字典学习的智能语音电梯系统,其特征在于;
所述步骤6中SVM分类器公式为:
Figure FDA0002671831400000021
其中,W是权值,θ是惩罚因子。
CN202010943827.1A 2020-09-08 2020-09-08 一种基于多层字典学习的智能语音电梯系统 Pending CN112141837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010943827.1A CN112141837A (zh) 2020-09-08 2020-09-08 一种基于多层字典学习的智能语音电梯系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010943827.1A CN112141837A (zh) 2020-09-08 2020-09-08 一种基于多层字典学习的智能语音电梯系统

Publications (1)

Publication Number Publication Date
CN112141837A true CN112141837A (zh) 2020-12-29

Family

ID=73890772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010943827.1A Pending CN112141837A (zh) 2020-09-08 2020-09-08 一种基于多层字典学习的智能语音电梯系统

Country Status (1)

Country Link
CN (1) CN112141837A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783802A (en) * 1984-10-02 1988-11-08 Kabushiki Kaisha Toshiba Learning system of dictionary for speech recognition
KR20000031935A (ko) * 1998-11-11 2000-06-05 정선종 음성인식시스템에서의 발음사전 자동생성 방법
JP2010117651A (ja) * 2008-11-14 2010-05-27 Nec Corp 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
US20150243284A1 (en) * 2014-02-27 2015-08-27 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN106395516A (zh) * 2016-10-13 2017-02-15 东华大学 一种基于语音识别的乘客电梯智能控制系统
CN107543722A (zh) * 2017-08-18 2018-01-05 西安交通大学 基于深度堆叠字典学习的滚动轴承故障特征提取方法
CN110189761A (zh) * 2019-05-21 2019-08-30 哈尔滨工程大学 一种基于贪婪深度字典学习的单信道语音去混响方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783802A (en) * 1984-10-02 1988-11-08 Kabushiki Kaisha Toshiba Learning system of dictionary for speech recognition
KR20000031935A (ko) * 1998-11-11 2000-06-05 정선종 음성인식시스템에서의 발음사전 자동생성 방법
JP2010117651A (ja) * 2008-11-14 2010-05-27 Nec Corp 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
US20150243284A1 (en) * 2014-02-27 2015-08-27 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN106395516A (zh) * 2016-10-13 2017-02-15 东华大学 一种基于语音识别的乘客电梯智能控制系统
CN107543722A (zh) * 2017-08-18 2018-01-05 西安交通大学 基于深度堆叠字典学习的滚动轴承故障特征提取方法
CN110189761A (zh) * 2019-05-21 2019-08-30 哈尔滨工程大学 一种基于贪婪深度字典学习的单信道语音去混响方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙林慧等: "基于双层字典学习的单通道语音增强方法", 《信号处理》 *
赵杰: "基于多层字典学习的分类算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN101770774B (zh) 基于嵌入式的开集说话人识别方法及其系统
CN108764207B (zh) 一种基于多任务卷积神经网络的人脸表情识别方法
WO2021136054A1 (zh) 语音唤醒方法、装置、设备及存储介质
CN1120470C (zh) 利用快速和精细匹配在人群中识别讲话者的方法和装置
WO2021151271A1 (zh) 基于命名实体的文本问答的方法、装置、设备及存储介质
CN105512624A (zh) 一种人脸图像的笑脸识别方法及其装置
WO2020238661A1 (zh) 一种电梯调度方法、装置、计算机设备和存储介质
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
WO2020238045A1 (zh) 智能语音识别方法、装置及计算机可读存储介质
CN113255362B (zh) 人声过滤与识别方法、装置、电子设别及存储介质
CN111508493B (zh) 语音唤醒方法、装置、电子设备及存储介质
CN108639882B (zh) 基于lstm网络模型的处理芯片与包含其的运算装置
CN1300763C (zh) 嵌入式语音识别系统的自动语音识别处理方法
CN110633689B (zh) 基于半监督注意力网络的人脸识别模型
Kheratkar et al. Gesture controlled home automation using CNN
CN108675071B (zh) 基于人工神经网络处理器的云端协同智能芯片
CN112141837A (zh) 一种基于多层字典学习的智能语音电梯系统
CN116957304B (zh) 无人机群协同任务分配方法及系统
CN115954019B (zh) 一种融合自注意力和卷积操作的环境噪声识别方法及系统
JP2004178569A5 (zh)
CN1522431A (zh) 使用行为模型来进行无干扰的说话者验证的方法和系统
WO2023168713A1 (zh) 交互语音信号处理方法、相关设备及系统
CN114675539A (zh) 一种自主学习的门窗智能控制系统
CN206991377U (zh) 用于客户信息管理的机器人
WO2021139182A1 (zh) 有效语音智能检测方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201229