CN109192222A - 一种基于深度学习的声音异常检测系统 - Google Patents

一种基于深度学习的声音异常检测系统 Download PDF

Info

Publication number
CN109192222A
CN109192222A CN201810810077.3A CN201810810077A CN109192222A CN 109192222 A CN109192222 A CN 109192222A CN 201810810077 A CN201810810077 A CN 201810810077A CN 109192222 A CN109192222 A CN 109192222A
Authority
CN
China
Prior art keywords
deep learning
sound
short time
module
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810810077.3A
Other languages
English (en)
Inventor
刘勇
李雅纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810810077.3A priority Critical patent/CN109192222A/zh
Publication of CN109192222A publication Critical patent/CN109192222A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种基于深度学习的声音异常检测系统,包括声音特征提取模块、深度学习分类模块和检测结果后处理模块;声音特征提取模块处理获取的原始声音数据得到相应的音频特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达;深度学习分类模块与声音特征提取模块连接,对原始声音数据进行标注,深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成深度学习异常检测模型后,将声音特征提取模块生成的短时间声音特征输入深度学习异常检测模型进行分类;检测结果后处理模块与深度学习分类模块连接,检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。

Description

一种基于深度学习的声音异常检测系统
技术领域
本发明涉及声音异常检测领域,具体的,涉及一种基于深度学习的声音异常检测系统。
背景技术
变电站内设备运行过程中会出现各种各样的声音,可能是运行状态下发出的正常声音,也可能是设备在故障情况下发出的异常声音。电力巡检人员在经过专门的培训后,能够根据设备发出的不同声音判断设备的正常或异常情况。然而,要求电力巡检人员全天24小时对所有的变电站点进行监控是不现实的,而间歇性的巡检无法实时、有效地检测到变电站的异常情况。与此同时,技术的进步推动着变电站监管向自动化、智能化发展。针对这一现象,需要利用智能技术代替人工来检测识别变电站的异常情况。
发明内容
本发明提供了一种基于深度学习的声音异常检测系统,通过深度学习方法有效地监控变电站声音,判断异常情况。本发明采用以下技术方案。
一种基于深度学习的声音异常检测系统,所述系统包括声音特征提取模块、深度学习分类模块和检测结果后处理模块;
所述声音特征提取模块处理获取的原始声音数据得到相应的音频特征,通过滑动窗口获取极短时间声音片段对应的语音特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达;
所述深度学习分类模块与所述声音特征提取模块连接,对所述原始声音数据进行标注,所述深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成所述深度学习异常检测模型后,将所述声音特征提取模块生成的短时间声音特征输入所述深度学习异常检测模型进行分类,做出声音正常或声音异常分类判断;
所述检测结果后处理模块与所述深度学习分类模块连接,所述检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。
优选的,所述通过滑动窗口获取极短时间声音片段对应的语音特征进一步包括,利用所述滑动窗口所述原始声音数据的极短时间声音片段,对所述极短时间声音片段进行短时傅里叶变换得到极短时间声音片段的高维频谱特征,对所述高维频谱特征经过梅尔频率倒谱分析获取梅尔频率倒谱系数MFCC,计算所述梅尔频率倒谱系数MFCC的差值得到第一差值ΔMFCC,计算所述第一差值ΔMFCC的差值得到第二差值Δ2MFCC,将所述梅尔频率倒谱系数MFCC、第一差值ΔMFCC和第二差值Δ2MFCC组合得到极短时间声音片段对应的语音特征表达。
优选的,所述滑动窗口的长度为100ms,所述滑动窗口移动的步进为25ms。
优选的,所述极短时间声音片段的时长为100ms,所述短时间声音的时长为1.325s。
优选的,所述深度学习分类模块采用全连接网络训练模型对标注后的声音数据进行训练。
优选的,所述全连接网络为3层全连接网络。
本发明的有益效果是:一方面,通过自动化的声音异常检测技术,24小时全天候智能监控变电站的异常情况,及时、有效地对变电站情况作出反馈和预警,同时也减少了电力巡检人员的整体工作量。另一方面,在音频特征表示部分,本发明通过短时傅里叶变换得到极短时间的高维频谱特征,经过梅尔(Mel)频率倒谱分析获取梅尔频率倒谱系数(MFCC),进一步可以获取MFCC的差值ΔMFCC,以及ΔMFCC的差值Δ2MFCC,三者合并得到极短时间对应的语音特征表达,在保证音频特征表达性的同时,降低了极短时间语音特征的维度,使得极短时间对应的语音特征数据量大大降低,并且因此降低了后续深度学习分类模块的计算量。
附图说明
图1 是本发明中短时间声音特征获取示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度学习的声音异常检测系统,包括声音特征提取模块、深度学习分类模块和检测结果后处理模块。声音特征提取模块处理获取的原始声音数据得到相应的音频特征,通过滑动窗口获取极短时间声音片段对应的语音特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达。声音特征提取模块,提取模块通过语音信号分析得到输入声音的特征表达,获得表示短时间声音的整体特征。深度学习分类模块与声音特征提取模块连接,对原始声音数据进行标注,深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成深度学习异常检测模型后,将声音特征提取模块生成的短时间声音特征输入深度学习异常检测模型进行分类,做出声音正常或声音异常分类判断。深度学习分类模块利用预先标注好的声音数据进行分类训练,储存训练好的模型以便调用,供声音的异常识别检测使用。检测结果后处理模块与深度学习分类模块连接,检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。
变电站按照固定的较长时间提供现场获取的音频。如1分钟存储一次音频,并传送给声音异常检测系统进行识别。
声音特征提取部分,以滑动窗口方式得到极短声音片段,经过短时傅里叶变换、梅尔频率倒谱分析、合并得到极短时间的梅尔倒谱系数(MFCC)表达,通过多个极短时间MFCC语音特征表达组合得到短时间的语音特征。对获取的较长时间声音数据,如1分钟的声音数据,首先采用滑动窗口方式得到极短声音片段的语音特征,如图1所示,具体而言,通过短时傅里叶变换得到极短时间的高维频谱特征,经过梅尔(Mel)频率倒谱分析获取梅尔频率倒谱系数(MFCC),进一步可以获取MFCC的差值ΔMFCC,以及ΔMFCC的差值Δ2MFCC,三者合并得到极短时间对应的语音特征表达。如可设定短时傅里叶变换的窗长为2048,则得到极短时间的高维频谱为1025维,MFCC、ΔMFCC和Δ2MFCC均为13维的,将其组合则得到极短时间对应的语音特征为39维的,无论是与原始音频数据或是与之前1025维的高维频谱特征相比,本发明中获取的极短时间对应的语音特征数据量都大大降低,并且因此降低了后续深度学习分类模块的计算量。之后通过多个极短时间语音特征的组合融合,得到短时间的语音特征。对于每个传送到检测系统的较长时间声音数据,可以提取得到多个短时间的音频特征作为样本,输入至深度神经网络中分别得到对应的异常检测结果。
如可设定极短时间为100毫秒(ms),滑动窗口每次移动25毫秒(ms),50个极短时间组合得到短时间(25ms*50)-25ms+100ms=1.325秒(s)对应的音频特征,最终1分钟(min)的较长时间音频可得到约60s/1.325s ≈ 45个短时间声音样本。
对当前已采集的多处变电站数据进行正常或异常的标注,标注内容包括每个较长时间的音频对应标注一个正常或异常的标签(1表示正常,0表示异常),将音频和其对应的标签存储,以备后续深度学习分类模型的训练使用。
深度学习分类模块,采用了包含3层全连接层的深度神经网络,加入丢弃(dropout)以及批标准化(Batch Normalization)以提高深度学习模型的整体拟合和泛化能力,模型输出结果为输入语音特征对应的正常或异常概率值,在0~1范围内,输出值接近1表示短时间语音为正常的概率较大,而输出值接近0表示短时间语音为异常的概率较大。训练过程使用预先标注好的音频数据,输入数据经过声音特征提取模型后得到音频特征,将特征分批送到深度网络中,使得深度模型逐渐学习到输入音频特征和输出异常情况预测之间的映射关系。存储训练好的模型供后续声音的异常检测调用。
利用开源深度网络框架(本方法实现中使用了PyTorch框架)搭建3层全连接深度网络,将预先采集并标注好的变电站声音处理得到的短时间音频特征用于训练,每个短时间音频特征的标签与其所属的较长时间音频一致。存储训练好的模型,提供接口用于分析短时间音频特征,检测声音的异常情况。
检测结果后处理部分,将深度学习模型输出的结果进行更高层级的封装,深度模型输出表示了短时间声音的正常或异常检测情况,后处理部分组合多个深度网络预测的短时间音频异常检测结果,得到较长时间对应的异常识别检测结果,从而提高检测方法的可靠性。
具体的说,对于较长时间内的多个短时间声音异常检测结果,设定阈值。当正常或异常预测的结果数目大于设定阈值时,将检测结果判断为正常或异常,阈值设置情况可根据应用场景作出调整。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种基于深度学习的声音异常检测系统,其特征在于,所述系统包括声音特征提取模块、深度学习分类模块和检测结果后处理模块;
所述声音特征提取模块处理获取的原始声音数据得到相应的音频特征,通过滑动窗口获取极短时间声音片段对应的语音特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达;
所述深度学习分类模块与所述声音特征提取模块连接,对所述原始声音数据进行标注,所述深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成所述深度学习异常检测模型后,将所述声音特征提取模块生成的短时间声音特征输入所述深度学习异常检测模型进行分类,做出声音正常或声音异常分类判断;
所述检测结果后处理模块与所述深度学习分类模块连接,所述检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。
2.根据权利要求1所述的一种基于深度学习的声音异常检测系统,其特征在于,所述通过滑动窗口获取极短时间声音片段对应的语音特征进一步包括,利用所述滑动窗口所述原始声音数据的极短时间声音片段,对所述极短时间声音片段进行短时傅里叶变换得到极短时间声音片段的高维频谱特征,对所述高维频谱特征经过梅尔频率倒谱分析获取梅尔频率倒谱系数MFCC,计算所述梅尔频率倒谱系数MFCC的差值得到第一差值ΔMFCC,计算所述第一差值ΔMFCC的差值得到第二差值Δ2MFCC,将所述梅尔频率倒谱系数MFCC、第一差值ΔMFCC和第二差值Δ2MFCC组合得到极短时间声音片段对应的语音特征表达。
3.根据权利要求2所述的一种基于深度学习的声音异常检测系统,其特征在于,所述滑动窗口的长度为100ms,所述滑动窗口移动的步进为25ms。
4.根据权利要求1所述的一种基于深度学习的声音异常检测系统,其特征在于,所述极短时间声音片段的时长为100ms,所述短时间声音的时长为1.325s。
5.根据权利要求1所述的一种基于深度学习的声音异常检测系统,其特征在于,所述深度学习分类模块采用全连接网络训练模型对标注后的声音数据进行训练。
6.根据权利要求5所述的一种基于深度学习的声音异常检测系统,其特征在于,所述全连接网络为3层全连接网络。
CN201810810077.3A 2018-07-23 2018-07-23 一种基于深度学习的声音异常检测系统 Pending CN109192222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810810077.3A CN109192222A (zh) 2018-07-23 2018-07-23 一种基于深度学习的声音异常检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810810077.3A CN109192222A (zh) 2018-07-23 2018-07-23 一种基于深度学习的声音异常检测系统

Publications (1)

Publication Number Publication Date
CN109192222A true CN109192222A (zh) 2019-01-11

Family

ID=64937038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810810077.3A Pending CN109192222A (zh) 2018-07-23 2018-07-23 一种基于深度学习的声音异常检测系统

Country Status (1)

Country Link
CN (1) CN109192222A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544489A (zh) * 2019-04-16 2019-12-06 江苏慧中数据科技有限公司 一种基于边云智能架构的异常声音检测方法
CN110890102A (zh) * 2019-09-07 2020-03-17 创新奇智(重庆)科技有限公司 一种基于rnn声纹识别的发动机缺陷检测算法
CN111161715A (zh) * 2019-12-25 2020-05-15 福州大学 一种基于序列分类的特定声音事件检索与定位的方法
CN111341343A (zh) * 2020-03-02 2020-06-26 乐鑫信息科技(上海)股份有限公司 一种用于异常声音检测的在线更新系统和方法
CN111370027A (zh) * 2020-03-02 2020-07-03 乐鑫信息科技(上海)股份有限公司 一种离线嵌入式异常声音检测系统和方法
CN111770353A (zh) * 2020-06-24 2020-10-13 北京字节跳动网络技术有限公司 一种直播监控方法、装置、电子设备及存储介质
CN112420055A (zh) * 2020-09-22 2021-02-26 甘肃同兴智能科技发展有限公司 基于声纹特征的变电站状态识别方法及装置
CN112652325A (zh) * 2020-12-15 2021-04-13 平安科技(深圳)有限公司 基于人工智能的远程语音调整方法及相关设备
CN113408664A (zh) * 2021-07-20 2021-09-17 北京百度网讯科技有限公司 训练方法、分类方法、装置、电子设备以及存储介质
CN113516970A (zh) * 2020-03-27 2021-10-19 北京奇虎科技有限公司 基于语言模型的报警方法、设备、存储介质及装置
CN113724733A (zh) * 2021-08-31 2021-11-30 上海师范大学 生物声音事件检测模型训练方法、声音事件的检测方法
CN113763986A (zh) * 2021-09-07 2021-12-07 山东大学 一种基于声音分类模型的空调内机异常声音检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120092762A (ko) * 2011-01-10 2012-08-22 고려대학교 산학협력단 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템
CN102737480A (zh) * 2012-07-09 2012-10-17 广州市浩云安防科技股份有限公司 一种基于智能视频的异常语音监控系统及方法
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
CN105550961A (zh) * 2015-10-31 2016-05-04 东莞酷派软件技术有限公司 一种监护方法及装置
CN106373558A (zh) * 2015-07-24 2017-02-01 科大讯飞股份有限公司 语音识别文本处理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120092762A (ko) * 2011-01-10 2012-08-22 고려대학교 산학협력단 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
CN102737480A (zh) * 2012-07-09 2012-10-17 广州市浩云安防科技股份有限公司 一种基于智能视频的异常语音监控系统及方法
CN106373558A (zh) * 2015-07-24 2017-02-01 科大讯飞股份有限公司 语音识别文本处理方法及系统
CN105550961A (zh) * 2015-10-31 2016-05-04 东莞酷派软件技术有限公司 一种监护方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544489A (zh) * 2019-04-16 2019-12-06 江苏慧中数据科技有限公司 一种基于边云智能架构的异常声音检测方法
CN110890102A (zh) * 2019-09-07 2020-03-17 创新奇智(重庆)科技有限公司 一种基于rnn声纹识别的发动机缺陷检测算法
CN111161715A (zh) * 2019-12-25 2020-05-15 福州大学 一种基于序列分类的特定声音事件检索与定位的方法
CN111161715B (zh) * 2019-12-25 2022-06-14 福州大学 一种基于序列分类的特定声音事件检索与定位的方法
CN111370027A (zh) * 2020-03-02 2020-07-03 乐鑫信息科技(上海)股份有限公司 一种离线嵌入式异常声音检测系统和方法
CN111370027B (zh) * 2020-03-02 2023-04-07 乐鑫信息科技(上海)股份有限公司 一种离线嵌入式异常声音检测系统和方法
CN111341343B (zh) * 2020-03-02 2023-06-30 乐鑫信息科技(上海)股份有限公司 一种用于异常声音检测的在线更新系统和方法
CN111341343A (zh) * 2020-03-02 2020-06-26 乐鑫信息科技(上海)股份有限公司 一种用于异常声音检测的在线更新系统和方法
CN113516970A (zh) * 2020-03-27 2021-10-19 北京奇虎科技有限公司 基于语言模型的报警方法、设备、存储介质及装置
CN111770353A (zh) * 2020-06-24 2020-10-13 北京字节跳动网络技术有限公司 一种直播监控方法、装置、电子设备及存储介质
CN112420055A (zh) * 2020-09-22 2021-02-26 甘肃同兴智能科技发展有限公司 基于声纹特征的变电站状态识别方法及装置
CN112652325A (zh) * 2020-12-15 2021-04-13 平安科技(深圳)有限公司 基于人工智能的远程语音调整方法及相关设备
CN112652325B (zh) * 2020-12-15 2023-12-15 平安科技(深圳)有限公司 基于人工智能的远程语音调整方法及相关设备
CN113408664A (zh) * 2021-07-20 2021-09-17 北京百度网讯科技有限公司 训练方法、分类方法、装置、电子设备以及存储介质
CN113408664B (zh) * 2021-07-20 2024-04-16 北京百度网讯科技有限公司 训练方法、分类方法、装置、电子设备以及存储介质
CN113724733B (zh) * 2021-08-31 2023-08-01 上海师范大学 生物声音事件检测模型训练方法、声音事件的检测方法
CN113724733A (zh) * 2021-08-31 2021-11-30 上海师范大学 生物声音事件检测模型训练方法、声音事件的检测方法
CN113763986A (zh) * 2021-09-07 2021-12-07 山东大学 一种基于声音分类模型的空调内机异常声音检测方法
CN113763986B (zh) * 2021-09-07 2024-02-02 山东大学 一种基于声音分类模型的空调内机异常声音检测方法

Similar Documents

Publication Publication Date Title
CN109192222A (zh) 一种基于深度学习的声音异常检测系统
CN107680597B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
US20220172708A1 (en) Speech separation model training method and apparatus, storage medium and computer device
CN110349597B (zh) 一种语音检测方法及装置
CN108564940A (zh) 语音识别方法、服务器及计算机可读存储介质
CN102623009B (zh) 一种基于短时分析的异常情绪自动检测和提取方法和系统
Dinkel et al. Voice activity detection in the wild via weakly supervised sound event detection
Bustamante et al. Recognition and regionalization of emotions in the arousal-valence plane
Ozbek et al. Estimation of articulatory trajectories based on Gaussian mixture model (GMM) with audio-visual information fusion and dynamic Kalman smoothing
Kim et al. Hierarchical approach for abnormal acoustic event classification in an elevator
CN116013276A (zh) 一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法
Hasegawa et al. Adaptive training of vibration-based anomaly detector for wind turbine condition monitoring
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
CN115932561A (zh) 一种基于声纹识别的高压断路器机械故障在线诊断方法
KR20190135916A (ko) 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법
Ashihara et al. Neural Whispered Speech Detection with Imbalanced Learning.
Paul et al. Automated speech recognition of isolated words using neural networks
Prakash et al. Analysis of emotion recognition system through speech signal using KNN & GMM classifier
Zambon et al. Real-time urban traffic noise maps: the influence of Anomalous Noise Events in Milan Pilot area of DYNAMAP
Khanum et al. Speech based gender identification using feed forward neural networks
Mansour et al. A comparative study in emotional speaker recognition in noisy environment
An et al. Combining deep neural network with SVM to identify used in IOT
Estrebou et al. Voice recognition based on probabilistic SOM
Kostoulas et al. Affect recognition in real life scenarios
Suresh et al. Language identification system using MFCC and SDC feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190111

WD01 Invention patent application deemed withdrawn after publication