CN107416387B - 智能分类垃圾箱 - Google Patents
智能分类垃圾箱 Download PDFInfo
- Publication number
- CN107416387B CN107416387B CN201710589336.XA CN201710589336A CN107416387B CN 107416387 B CN107416387 B CN 107416387B CN 201710589336 A CN201710589336 A CN 201710589336A CN 107416387 B CN107416387 B CN 107416387B
- Authority
- CN
- China
- Prior art keywords
- voice
- door
- door opening
- model
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000010813 municipal solid waste Substances 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000013139 quantization Methods 0.000 claims description 6
- 230000002265 prevention Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 abstract description 2
- 241000209140 Triticum Species 0.000 description 4
- 235000021307 Triticum Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B65—CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
- B65F—GATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
- B65F1/00—Refuse receptacles; Accessories therefor
- B65F1/14—Other constructional features; Accessories
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B65—CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
- B65F—GATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
- B65F2210/00—Equipment of refuse receptacles
- B65F2210/128—Data transmitting means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B65—CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
- B65F—GATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
- B65F2210/00—Equipment of refuse receptacles
- B65F2210/138—Identification means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Mechanical Engineering (AREA)
- Circuit For Audible Band Transducer (AREA)
- Lock And Its Accessories (AREA)
Abstract
本发明涉及环保设备领域。智能分类垃圾箱,箱体上设置垃圾投放门和声纹识别系统,箱体内设有控制器和自动开门机构,用户通过声纹识别的方法使用声纹识别系统打开垃圾投放门开门机构包括电机和连接件;所述声纹识别的方法依次包括语音注册、语音开门和逻辑决策,语音注册依次包括采集注册语音、特征提取和模型训练;语音开门依次包括采集开门语音、特征提取和模型训练;所述逻辑决策依次包括模式匹配和进行决策步骤。该智能分类垃圾箱的优点是使用时用户不用近距离对着声纹识别系统发声仍然可以准确采集声音信号,打开垃圾投放门。
Description
技术领域
本发明涉及环保设备领域,尤其涉及智能分类垃圾箱。
背景技术
随着资源匮乏现象的日益严重,再生能源回收工程越来越被社会所重视,而垃圾分类是再生能源回收的先前条件之一,也是相对垃圾收集处置传统方式的改革,还是对垃圾进行有效处置的一种科学管理方法。人们在面对日益增长的垃圾产量和环境状况恶化的局面,如何通过垃圾智能分类管理,最大限度地实现垃圾资源利用,减少垃圾处置量,改善生存环境质量,是当前世界各国共同关注的迫切问题之一。目前,智能垃圾分类回收箱已经在很多小区广泛的使用,智能垃圾分类回收箱使用时先给用户进行身份登记,对用户投放后的垃圾重量进行称重并积分,当积分累积打一定值,用户可以用积分进行兑换商品。通过对用户进行身份认证的方法开启垃圾箱箱门,目前常规是通过扫二维码的方式,需要用户带着印有二维码的卡片或者有包含用户信息的二维码的手机进行扫码,这就需要用户随身携带着卡片和手机,尤其是当手持垃圾时再扫码使用不方便,给用户的使用带来不便。
发明内容
为了解决上述问题,本发明的目是提供一种使用方便,用户识别准确率高的智能分类垃圾箱。
为了实现上述的目的,本发明采用了以下的技术方案:智能分类垃圾箱,箱体上设置垃圾投放门和声纹识别系统,箱体内设有控制器和自动开门机构,用户通过声纹识别的方法使用声纹识别系统打开垃圾投放门,开门机构包括电机和连接件,电机设在箱体内,电机通过连接件连接垃圾投放门的上部;所述声纹识别的方法依次包括语音注册、语音开门和逻辑决策,语音注册依次包括如下步骤:(1)采集注册语音,通过麦克风阵列技术对注册语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;(2)特征提取,通过模拟和数字处理,采用MFCC特征提取方式从注册语音中提取表征注册用户特征的语音信息;(3)模型训练,建立注册用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;所述语音开门依次包括如下步骤:(1)采集开门语音,通过麦克风阵列技术对开门语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;(2)特征提取,通过模拟和数字处理技术,采用MFCC特征提取方式从开门语音中选择和提取表征开门用户特征的语音信息;(3)模型训练,建立开门用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;所述逻辑决策依次包括模式匹配和进行决策步骤,模式匹配是将注册用户语音模型与开门用户语音模型进行匹配,计算二者的对数似然比,得出对数似然比得分;进行决策是计算匹配得分,达到设定阈值,声纹识别系统将开门信号发送给控制器,控制器控制电机通过连接件带动垃圾投放门移动实现垃圾投放门自动打开;达不到设定阈值垃圾投放门不打开。
作为优选,垃圾投放门底部设有防夹手装置,使用更加合理。
作为优选,箱体上还设置二维码、扫描器和无线发射装置,控制器通过无线发射装置连接后台服务器,后台服务器或控制器通过用户扫描二维码或扫描器扫用户信息的方式确认用户信息,多种开门方式并存,为用户提供更多的选择。
作为优选,箱体上还设置与控制器相连的触摸屏,触摸屏用于显示用户信息、投入垃圾信息和输入开门密码,多种开门方式并存,为用户提供更多的选择。
作为优选,通过多个麦克风阵列技术对注册语音和开门语音信息进行采集,麦克风阵列有2麦、4麦、6麦,对应麦数越多,降噪和语音增强的效果越好。
作为优选,语音注册中的MFCC特征提取方式是指将采集的注册语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、汉明窗处理,最后输出语音帧序列。
作为优选,语音开门中的MFCC特征提取方式是指将采集的开门语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、加汉明窗处理,最后输出语音帧序列。
作为优选,模式匹配是将注册用户语音模型与开门用户语音模型进行匹配,计算二者的对数似然比,得出对数似然比得分;进行决策是计算匹配得分,达到设定阈值垃圾投放门开启,达不到设定阈值垃圾投放门不打开。
作为优选,语音注册中的模型训练是先将注册用户模型分成非重叠和共性重叠部分,利用注册用户语音数据集建立注册用户语音GMM模型;语音开门中的模型训练是先将开门用户模型分成非重叠和共性重叠部分,利用开门语音数据集建立开门用户语音GMM模型。进一步的,对于所有的模型进行SVM支持向量机训练,通过计算其在所有说话人模型上的相似度,即对应最大相似度和最小相似度之比小于一个阈值,则归为共性重叠部分,否则归为非重叠部分;注册用户语音GMM模型和开门用户语音GMM模型的训练过程算法是:p=(maxPr(xj|Mi)/minPr(xj|Mk)),i=1,...,S,K=1,...,S,,p为向量在说话人模型上的最大相似度与最小相似度之比,S为说话人个数,xj第j个训练输入向量,j=1,...,N,N为训练特征向量个数,p小于阈值T,则该向量Xj→Q,属于共性重叠部分向量;p大于阈值T,则该向量Xj→P,属于说话人非重叠部分向量集。
作为优选,防夹手装置包括固定板、活动板、连接板、弹簧、触发机构和限位机构;固定板固定在垃圾投放门的背面上,连接板下端与活动板固定连接,连接板上端通过弹簧连接固定板,活动板的位置处于垃圾投放门的下部,活动板通过连接板和弹簧上下移动;触发机构包括行程开关和与其匹配的开关触板,行程开关安装在固定板上,与行程开关匹配的开关触板固定安装在活动板上,行程开关与控制垃圾投放门自动开关的开门机构相连通;限位机构包括限位板和固定件,固定件安装在固定板上,限位板下部固定在活动板上,限位板上设有纵向设置的滑槽,固定件穿过滑槽,限位板沿滑槽上下移动;固定板和活动板平行设置,连接板设置在固定板和活动板的中部;连接板两侧分别设置一组触发机构和限位机构;夹手装置主要通过机械结构检测是否有物品被垃圾投放门夹住,不受光线等外部环境因素影响,检测准确率高,使用更加方便。该具有防夹手功能的智能分类垃圾箱的优点是防夹手装置结构合理,使用方便。
采用上述技术方案的智能分类垃圾箱,采集注册语音和采集开门语音时,通过麦克风阵列技术对注册语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时,特征提取时采用MFCC特征提取方式,模型训练方法选择最小分类错误准则即MCE准则进行区分训练。该智能分类垃圾箱的优点是使用时用户不用近距离对着声纹识别系统发声仍然可以准确采集声音信号,在声音嘈杂的环境下仍然可以准确识别用户,打开垃圾投放门。
附图说明
图1为本发明的结构示意图。
图2是本发明实施例中开门机构和防夹手装置在箱体上的局部示意图。
图3是本发明实施例中麦克风阵列示意图。
图4是本发明实施例中固定波束形成示意图。
图5是本发明实施例中MFCC特征提取流程示意图。
具体实施方式
下面结合图1、图2、图3、图4和图5对本发明的优选实施方案作进一步详细的说明。
如图1、图2、图3、图4和图5所示的智能分类垃圾箱,箱体1上设有垃圾投放门2和声纹识别系统,箱体1内垃圾投放门的下方设有盛放垃圾的桶5。箱体1内设有控制器和自动开门机构3,垃圾投放门2底部设有防夹手装置4。用户通过声纹识别的方法使用声纹识别系统打开垃圾投放门。
防夹手装置4包括固定板41、活动板42、连接板43、弹簧44、触发机构45和限位机构46。固定板41固定在垃圾投放门2的背面上,连接板43下端与活动板42固定连接,连接板43上端通过弹簧44连接固定板41,活动板42的位置处于垃圾投放门2的下部。固定板41和活动板42平行设置,连接板43设置在固定板41和活动板43的中部。触发机构45包括行程开关451和与其匹配的开关触板452,行程开关451安装在固定板41上,与行程开关匹配的开关触板452固定安装在活动板42上,行程开关451与控制垃圾投放门自动开关的开门机构3相连通。限位机构46包括限位板461和固定件462,固定件462安装在固定板41上,限位板461上设有纵向设置的滑槽,固定件462穿过滑槽,限位板461沿滑槽在固定件462上上下移动,即与限位板461相连的活动板42上下移动的距离由滑槽的上下端位置进行限定。连接板43两侧分别设置一组触发机构45和一组限位机构46。
开门机构3包括电机31和连接件32,电机31设在箱体1内,电机31通过连接件32连接垃圾投放门2的上部,电机31通过连接件32带动垃圾投放门2移动。行程开关451通过导线连通电机31。上述固定板41也可以是垃圾投放门2的一部分。
上述声纹识别的方法依次包括语音注册、语音开门和逻辑决策步骤。
语音注册依次包括如下步骤:
(1)采集语音注册,语音注册时,录入一段一定时长的用户的声音,重复多遍;通过多个麦克风阵列技术对注册用户语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;用户在一定距离范围内朝双麦阵列录入音,通过声波抵达阵列中每个麦克风之间的微小时差的相互作用,得到更好的指向性,可以有效降低周边的环境噪音的影响。双麦阵列通过时延估计、时延补偿、加权求和。麦克风阵列有2麦、4麦、6麦,对应麦数越多,降噪和语音增强的效果越好,麦克风1接收到的信号为X1(t)、麦克风2接收到的信号为X2(t),由于麦克风阵元空间位置的差异,各阵元接收到的信号存在时延,Xi(k)经延时估计得到的麦克风时延为τi,在对信号进行处理之前进行时延补偿,保证各阵元待处理数据的一致性。使阵列指向期望的方向。再乘以加权系数Wi(k),进行加权同相相加,使得波束形成器的输出得到最大输出。
(2)特征提取,通过模拟和数字处理,采用MFCC特征提取方式从注册用户语音中提取表征注册用户特征的语音信息;
(3)模型训练,估计特征参数分布,建立注册用户语音模型。模型训练方法选择最小分类错误准则即MCE准则进行区分训练。
语音开门依次包括如下步骤:
(1)采集开门语音信息,通过麦克风阵列技术对开门语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;
(2)特征提取,通过模拟和数字处理技术,采用MFCC特征提取方式从开门语音中选择和提取表征开门用户特征的语音信息;
(3)模型训练,估计特征参数分布,建立开门用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;
逻辑决策是比对语音注册和语音开门,判断是否开门,依次包括如下步骤:
(1)模式匹配,将注册用户语音模型与开门用户语音模型进行匹配,计算二者的对数似然比,得出对数似然比得分;
(2)进行决策,对匹配的得分进行判决,确定发出开门语音的人是否为语音注册用户,与语音注册匹配达到设定阈值得分,垃圾投放门开启,否则垃圾投放门不会打开。
给逻辑决策判决设定一个阈值分数,通过得出的对数似然比得分与设定的阈值分数进行比较,达到预设获高于预设分数,则逻辑决策判决开门语音属于注册人,启动电机,开启箱门;否则箱门电机不动作。
上述采集语音注册和语音开门信息,必须有采集语音的硬件设备,因为垃圾箱会有异味,用户不会近距离靠近麦克风进行语音注册和语音开门,所以需要有远距离采集注册语音的硬件设备,因此采用麦克风阵列技术采集语音信息。采样距离变远了,在目标语音的实际拾取过程中,不可避免受到外界环境噪声和其他说话人的干扰,这些干扰共同作用,严重影响了声纹语音的采集,利用麦克风阵列技术尤其是多麦阵列能够充分利用语音信号的空时信息,具有灵活的波束控制,较高的空间分辨率、高的信号增益和较强的抗干扰能力等特点。麦克风阵列如图3所示。用户语音注册和语音开门发声后,固定波束形成算法通过延时控制来补偿从声源到每个麦克风的延时,对每个麦克风接收到的信号进行延时补偿,然后使麦克风阵列波束指向有最大输出功率的方向,以此解决不用靠近麦克风,又能良好采样声音的特定的垃圾箱声纹识别场景需求。延迟求和-波束形成输出,其中,xi(t)为麦克风接收到的信号,权系数为wi(k),k为麦克风的数目,τi为时延估计得到的时延,波束形成如图4所示。
上述MFCC特征提取流程如图5所示。首先将注册语音和语音开门的语音进行前端处理,将声音转换为模拟语音信号进行采样,并对其振幅值进行量化编码,从而转化为数字信号,模拟语音信号经采样量化获得语音信号的波形。其次,由于唇端辐射导致语音信号的高频能量损耗,为了去除口唇辐射的影响,将经采样量化后得到的语音信号波形进行预加重处理,增加语音信号的高频分辨率,加强语音高频信号能量,使其适用于统一的分析处理。基于语音的短时平稳特性,即短时段的语音信号对应的声道形状、激励性质基本不会发生改变,将经预加重处理的波形再进行加汉明窗处理,即采用汉明窗对语音进行重叠分帧处理,使语音特征更加明显、清晰,易于观察,最终输出语音帧序列。对加汉明窗分帧后获得的语音帧序列进行时域和频域分析,并采用相应的特征参数描述。MFCC特征参数是一种听觉感知频域倒普参数,该参数依据人耳对声音频率高低的非线性心里感觉构造语音短时幅度谱特征。对输入的语音帧信号作离散傅里叶变换。计算频谱幅度的平方,得到能量谱。将能量谱通过Mel三角滤波器组。计算每个滤波器组输出的对数能量。经离散余弦变换得到MFCC参数和特征向量序列。
上述模型训练是区分“目标”和“冒认者”的训练,由于声纹密码的任务是对两类最小错误进行分类,实现短句上说话人确认错误的最小化。因此选择最小分类错误准则即MCE准则进行区分训练。通过对训练集合总体平均错误率的平滑近似策略,实现最小化识别(分类)错误率的目的。在描述相同密码文本说话人语音特征分布空间中,相同说话人对应的特征向量分布集中,不同说话人对应的特征向量分布相对分散,距离具有区分“目标”和“冒认”的能力。因此设计一种表征距离度量的新特征用以表示区分性训练中正反例样本。如果直接将测试语音Y相对注册语音X的距离D(X,Y)设定为Y的新特征,则将分别产生目标语音新特征和冒认语音新特征,记作Ztar和Zim,此时与原始声学特征不同,所有注册者对应的Ztar和Zim可以被组合成统一的正例集合P和反例集合N。
训练过程首先将用户模型分成非重叠和共性重叠部分,利用用户语音数据集建立GMM模型(高斯混合模型);根据相似度计算和GMM模型确定特征向量的类别,如果两个竞争的说话人模型有公共重叠部分,则其相应特征向量就被归于此部分;对于所有的模型进行SVM支持向量机训练,通过计算其在所有说话人模型上的相似度,若对应最大相似度和最小相似度之比小于一个阈值,则归为共性重叠部分,否则归为非重叠部分。基于重新分类过的特征向量,对每个说话人重新建立模型,即产生了一个共性重叠模型和各自说话人的非重叠模型。假设有S个说话人,则训练过程算法实现过程如下:(1)xj第j个训练输入向量,j=1,...,N,N为训练特征向量个数。p=(maxPr(xj|Mi)/minPr(xj|Mk)),i=1,...,S,K=1,...,S,p为向量在说话人模型上的最大相似度与最小相似度之比。如果p小于一定的阈值T,则该向量Xj→Q,属于共性重叠部分向量。否则Xj→P,属于说话人非重叠部分向量集。
上述箱体1上还设置二维码、扫描器、无线发射装置和触摸屏,二维码、扫描器、无线发射装置和触摸屏均连接控制器,控制器通过无线发射装置连接后台服务器,后台服务器或控制器通过用户扫描二维码或扫描器扫用户信息的方式确认用户信息,触摸屏用于显示用户信息、投入垃圾信息和输入开门密码,多种开门方式并存,为用户提供更多的选择。
使用时,用户朝着箱体上的声纹识别系统说出开门密码,对数似然比得分达到设定阈值,声纹识别系统将开门信号发送给控制器,控制器控制电机通过连接件带动垃圾投放门移动实现垃圾投放门自动打开。达不到设定阈值垃圾投放门不打开。
Claims (7)
1.智能分类垃圾箱,箱体上设置垃圾投放门和声纹识别系统,箱体内设有控制器和自动开门机构,用户通过声纹识别的方法使用声纹识别系统打开垃圾投放门,其特征在于开门机构包括电机和连接件,电机设在箱体内,电机通过连接件连接垃圾投放门的上部;所述声纹识别的方法依次包括语音注册、语音开门和逻辑决策,语音注册依次包括如下步骤:
(1)采集注册语音,通过麦克风阵列技术对注册语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;
(2)特征提取,通过模拟和数字处理,采用MFCC特征提取方式从注册语音中提取表征注册用户特征的语音信息;
(3)模型训练,建立注册用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;
所述语音开门依次包括如下步骤:
(1)采集开门语音,通过麦克风阵列技术对开门语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;
(2)特征提取,通过模拟和数字处理技术,采用MFCC特征提取方式从开门语音中选择和提取表征开门用户特征的语音信息;
(3)模型训练,建立开门用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;
所述逻辑决策依次包括模式匹配和进行决策步骤,模式匹配是将注册用户语音模型与开门用户语音模型进行匹配,计算二者的对数似然比,得出对数似然比得分;进行决策是计算匹配得分,达到设定阈值,声纹识别系统将开门信号发送给控制器,控制器控制电机通过连接件带动垃圾投放门移动实现垃圾投放门自动打开;达不到设定阈值垃圾投放门不打开;
语音注册中的MFCC特征提取方式是指将采集的注册语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、加汉明窗处理,最后输出语音帧序列;语音开门中的MFCC特征提取方式是指将采集的开门语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、加汉明窗处理,最后输出语音帧序列;
所述垃圾投放门底部设有防夹手装置,防夹手装置包括固定板、活动板、连接板、弹簧、触发机构和限位机构;固定板固定在垃圾投放门的背面上,连接板下端与活动板固定连接,连接板上端通过弹簧连接固定板,活动板的位置处于垃圾投放门的下部,活动板通过连接板和弹簧上下移动;触发机构包括行程开关和与其匹配的开关触板,行程开关安装在固定板上,与行程开关匹配的开关触板固定安装在活动板上,行程开关与控制垃圾投放门自动开关的开门机构相连通;限位机构包括限位板和固定件,固定件安装在固定板上,限位板下部固定在活动板上,限位板上设有纵向设置的滑槽,固定件穿过滑槽,限位板沿滑槽上下移动;固定板和活动板平行设置,连接板设置在固定板和活动板的中部;连接板两侧分别设置一组触发机构和限位机构。
2.根据权利要求1所述的智能分类垃圾箱,其特征在于箱体上还设置二维码、扫描器和无线发射装置,控制器通过无线发射装置连接后台服务器,后台服务器或控制器通过用户扫描二维码或扫描器扫用户信息的方式确认用户信息。
3.根据权利要求2所述的智能分类垃圾箱,其特征在于箱体上还设置与控制器相连的触摸屏,触摸屏用于显示用户信息、投入垃圾信息和输入开门密码。
4.根据权利要求1所述的智能分类垃圾箱,其特征在于通过多个麦克风阵列技术对注册语音和开门语音信息进行采集。
6.根据权利要求1所述的智能分类垃圾箱,其特征在于语音注册中的模型训练是先将注册用户模型分成非重叠和共性重叠部分,利用注册用户语音数据集建立注册用户语音GMM模型;语音开门中的模型训练是先将开门用户模型分成非重叠和共性重叠部分,利用开门语音数据集建立开门用户语音GMM模型。
7.根据权利要求6所述的智能分类垃圾箱,其特征在于对于所有的模型进行SVM支持向量机训练,通过计算其在所有说话人模型上的相似度,即对应最大相似度和最小相似度之比小于一个阈值,则归为共性重叠部分,否则归为非重叠部分;注册用户语音GMM模型和开门用户语音GMM模型的训练过程算法是:p=(maxPr(xj|Mi)/minPr(xj|Mk)),i=1,...,S,K=1,...,S,,p为向量在说话人模型上的最大相似度与最小相似度之比,S为说话人个数,xj第j个训练输入向量,j=1,...,N,N为训练特征向量个数,p小于阈值T,则该向量Xj→Q,属于共性重叠部分向量;p大于阈值T,则该向量Xj→P,属于说话人非重叠部分向量集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710589336.XA CN107416387B (zh) | 2017-07-19 | 2017-07-19 | 智能分类垃圾箱 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710589336.XA CN107416387B (zh) | 2017-07-19 | 2017-07-19 | 智能分类垃圾箱 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107416387A CN107416387A (zh) | 2017-12-01 |
CN107416387B true CN107416387B (zh) | 2020-07-07 |
Family
ID=60430261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710589336.XA Active CN107416387B (zh) | 2017-07-19 | 2017-07-19 | 智能分类垃圾箱 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107416387B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107954128A (zh) * | 2018-01-05 | 2018-04-24 | 江苏天楹环保能源成套设备有限公司 | 自动压缩垃圾桶及控制系统 |
CN108529091A (zh) * | 2018-05-07 | 2018-09-14 | 深圳市粤能环保科技有限公司 | 回收箱 |
CN108983788B (zh) * | 2018-08-15 | 2021-03-26 | 上海海事大学 | 基于大数据挖掘的无人驾驶环卫车智能控制系统及方法 |
CN111160438A (zh) * | 2019-12-24 | 2020-05-15 | 浙江大学 | 一种采用一维卷积神经网络的声学垃圾分类方法 |
CN112037767B (zh) * | 2020-09-11 | 2021-11-09 | 中航华东光电(上海)有限公司 | 一种智能语音鞋柜的控制方法以及系统 |
CN112499016A (zh) * | 2020-11-17 | 2021-03-16 | 苏州中科先进技术研究院有限公司 | 智能垃圾箱的垃圾回收方法、装置及智能垃圾箱 |
CN113120473A (zh) * | 2021-03-24 | 2021-07-16 | 宁波环链大数据有限公司 | 一种用于开门机构的门机控制方法与系统 |
CN113562363B (zh) * | 2021-08-20 | 2022-07-08 | 北京云迹科技股份有限公司 | 一种清理垃圾桶的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104309964A (zh) * | 2014-09-03 | 2015-01-28 | 北京大学深圳研究生院 | 一种基于声学矢量传感器的语音控制智能垃圾桶 |
CN205293813U (zh) * | 2015-12-28 | 2016-06-08 | 浙江联运知慧科技有限公司 | 一种自动开门的智能分类回收垃圾箱 |
CN205916602U (zh) * | 2016-08-17 | 2017-02-01 | 肖名鸣 | 一种自动分类垃圾桶 |
CN205952794U (zh) * | 2016-07-25 | 2017-02-15 | 广东拜登网络技术有限公司 | 具有防夹手功能的智能垃圾桶 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9801517B2 (en) * | 2015-03-06 | 2017-10-31 | Wal-Mart Stores, Inc. | Shopping facility assistance object detection systems, devices and methods |
-
2017
- 2017-07-19 CN CN201710589336.XA patent/CN107416387B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104309964A (zh) * | 2014-09-03 | 2015-01-28 | 北京大学深圳研究生院 | 一种基于声学矢量传感器的语音控制智能垃圾桶 |
CN205293813U (zh) * | 2015-12-28 | 2016-06-08 | 浙江联运知慧科技有限公司 | 一种自动开门的智能分类回收垃圾箱 |
CN205952794U (zh) * | 2016-07-25 | 2017-02-15 | 广东拜登网络技术有限公司 | 具有防夹手功能的智能垃圾桶 |
CN205916602U (zh) * | 2016-08-17 | 2017-02-01 | 肖名鸣 | 一种自动分类垃圾桶 |
Non-Patent Citations (1)
Title |
---|
人机交互中的声源定位与增强方法研究;李文东;《中国优秀硕士学位论文全文数据库信息科技辑》;20150131(第01期);第8-32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107416387A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107416387B (zh) | 智能分类垃圾箱 | |
CN107195077B (zh) | 瓶子智能回收机 | |
CN109800700B (zh) | 一种基于深度学习的水下声信号目标分类识别方法 | |
JP2776848B2 (ja) | 雑音除去方法、それに用いるニューラルネットワークの学習方法 | |
AU2021277642A1 (en) | Method and apparatus for detecting spoofing conditions | |
CN104882144B (zh) | 基于声谱图双特征的动物声音识别方法 | |
CN108986838A (zh) | 一种基于声源定位的自适应语音分离方法 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
CN103456305A (zh) | 终端和基于多个声音采集单元的语音处理方法 | |
US5594834A (en) | Method and system for recognizing a boundary between sounds in continuous speech | |
CN110033758A (zh) | 一种基于小训练集优化解码网络的语音唤醒实现方法 | |
CN111276151B (zh) | 一种鸟声识别系统及识别方法 | |
CN101416237A (zh) | 基于源和室内声学的概率模型的语音去混响方法和设备 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN110197665A (zh) | 一种用于公安刑侦监听的语音分离与跟踪方法 | |
CN1742322A (zh) | 噪声减小和视听语音活动检测 | |
Schmidt et al. | Ego-noise reduction using a motor data-guided multichannel dictionary | |
CN112394324A (zh) | 一种基于麦克风阵列的远距离声源定位的方法及系统 | |
CN107248410A (zh) | 声纹识别垃圾箱开门的方法 | |
Verma | Multi-feature fusion for closed set text independent speaker identification | |
Brueckmann et al. | Adaptive noise reduction and voice activity detection for improved verbal human-robot interaction using binaural data | |
JP2000148184A (ja) | 音声認識装置 | |
CN105070291A (zh) | 基于动态时间规整技术的声控门系统 | |
CN102419976A (zh) | 一种基于量子学习优化决策的音频索引方法 | |
Souli et al. | Environmental sounds classification based on visual features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |