CN109473119B - 一种声学目标事件监控方法 - Google Patents

一种声学目标事件监控方法 Download PDF

Info

Publication number
CN109473119B
CN109473119B CN201710800615.6A CN201710800615A CN109473119B CN 109473119 B CN109473119 B CN 109473119B CN 201710800615 A CN201710800615 A CN 201710800615A CN 109473119 B CN109473119 B CN 109473119B
Authority
CN
China
Prior art keywords
neural network
acoustic
monitoring
deep neural
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710800615.6A
Other languages
English (en)
Other versions
CN109473119A (zh
Inventor
管鲁阳
鲍明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201710800615.6A priority Critical patent/CN109473119B/zh
Publication of CN109473119A publication Critical patent/CN109473119A/zh
Application granted granted Critical
Publication of CN109473119B publication Critical patent/CN109473119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种声学目标事件监控方法,所述方法包括:步骤1)建立样本集,所述样本集包括训练集和测试集;步骤2)构建并训练深度神经网络,所述深度神经网络为结合递归网络结构的卷积神经网络,用于提取声学信号的信号特征;步骤3)构建并训练多个任务辨识网络;步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声学信号进行目标类别辨识;步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略。本发明的方法可以解决为智能交通、城市环境监测、特定建筑物内公共区域声学监测等应用,用于特定目标事件的发现、定位和远距离声信号获取,能够提高城市的噪声源目标监控技术水平。

Description

一种声学目标事件监控方法
技术领域
本发明涉及环境声学监测、人群语音监测、公共安全监测等领域,具体涉及一种声学目标事件监控方法。
背景技术
目前在针对多种公共或野外环境下的声学监测相关应用中,根据不同的应用目标和领域,形成了多种多样的声学信号采集处理设备或系统,比如雷声监测定位、爆炸声监测、环境噪声污染水平监测等。这些不同的监测目标通常采用不同的声学信号处理方法,比如设置不同的信号采样率、目标信号特征提取方法等。
目前通常是针对某些目标设定信号处理方法、特征提取识别方法等,搜集相应数据进行分类器训练。一旦完成之后就形成固定的目标识别分类器,难以再增加或改变所辨识目标的类型。
发明内容
本发明的目的在于克服上述问题,针对环境噪声监测应用提出了一种统一的信号特征分析提取与识别的方法,为多种采样率信号、不同目标声信号的处理与辨识提供一个统一基于深度学习的技术框架。
为了实现上述目的,本发明提出了一种声学目标事件监控方法,所述方法包括:
步骤1)建立样本集,所述样本集包括训练集和测试集;
步骤2)构建并训练深度神经网络,所述深度神经网络为结合递归网络结构的卷积神经网络,用于提取声学信号的信号特征;
步骤3)构建并训练多个任务辨识网络;
步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声学信号进行目标类别辨识;
步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略。
作为上述方法的一种改进,所述步骤1)具体为:
采集已有的或在线监测所得到的大量声信号数据,处理后得到每个信号的傅立叶短时谱;傅立叶短时谱是多帧信号进行傅里叶变换后得到的二维频谱信息,二维分别表示时间和频率,所述样本集包括若干个样本,每个样本包括:声信号的傅立叶短时谱,声信号的标签。
作为上述方法的一种改进,所述步骤2)具体包括:
步骤201)构建深度神经网络;所述深度神经网络是一个改进卷积神经网络,是将传统的卷积神经网络结合递归网络结构,形成可利用历史信息对声信号进行特征分析提取与判别的深度神经网络;
步骤202)使用样本集进行无监督学习,优化所述深度神经网络参数:网络规模、权系数及控制参数。
作为上述方法的一种改进,所述步骤3)具体包括:
步骤301)根据不同任务场景、不同需要和不同任务目标,构建多个任务辨识网络,所述任务辨识网络使用单层或多层网络形式;
步骤302)将深度神经网络提取的样本集的每个声信号的目标特征作为多个任务辨识网络的输入,根据已知的该声学信号的标签进行反向训练,训练出多个任务辨识网络的参数。
作为上述方法的一种改进,所述步骤302)的多个任务辨识网络的输入还可以增加基于信号处理的部分参数:信号短时能量和事件持续时间。
作为上述方法的一种改进,所述步骤4)具体包括:
步骤401)对实时采集的声信号进行处理,得到声信号的傅立叶短时谱;
步骤402)将声信号的傅立叶短时谱输入训练好的深度神经网络,得到网络的输出:信号特征的表征;
步骤403)将深度神经网络输出的信号特征,分别输入多个任务辨识网络;并将任务辨识网络输出的目标类别概率进行排序,取目标类别概率最大值为辨识结果。
作为上述方法的一种改进,所述步骤5)的监控策略包括:系统报警、日志记录和证据记录。
本发明的优势在于:
1、本发明的方法可以解决为智能交通、城市环境监测、特定建筑物内公共区域声学监测等应用,可用于特定目标事件的发现、定位和远距离声信号获取,提高城市的噪声源目标监控技术水平。
2、本发明的方法构建容纳多种目标类型的基于深度学习的目标信号特征分析提取框架,形成适应特定环境(如城市环境)的统一的声学监测体系。
附图说明
图1为本发明的声学目标事件监控方法的示意图。
具体实施方式
本发明采用深度神经网络作为声信号分析、特征提取与目标辨识的基本方法。以卷积神经网络(CNN)方法为基础,构建多任务学习的深度神经网络,以信号频谱特征为基本输入,在神经网络内完成信号特征分析提取与辨识,输出为目标类别的后验概率以及噪声抑制后的信号等。
下面结合附图和具体实施例对本发明进行详细的说明。
如图1所示,一种声学目标事件监控方法,所述方法包括:
步骤1)建立样本集,所述样本集包括训练集和测试集;
采集已有的或在线监测所得到的大量声信号数据,处理后得到信号的傅立叶短时谱;傅立叶短时谱是多帧信号(帧长度、帧重叠可调整)进行傅里叶变换后得到的二维频谱信息,x,y轴分别表示时间和频率,所述样本集包括若干个样本,每个样本包括:声信号的傅立叶短时谱,声信号的标签。
在实际使用中,可根据需要设定要辨识的声学目标,为多种数据采集单元设定不同的采样率。
步骤2)构建并训练深度神经网络;具体包括:
步骤201)构建深度神经网络;
所述识别声学信号的深度神经网络是一个改进卷积神经网络,是将传统的卷积神经网络结合递归网络结构(例如,LSTM:长短时记忆模型),形成可利用历史信息对声信号进行特征分析提取与判别的深度神经网络;
采用卷积神经网络可对二维频谱图像信息进行特征分析和提取。二维表示的短时谱可作为基本输入。在处理过程中,为了兼容不同信号处理需要的采样率,短时谱的频率轴表示的频率范围不同,可在CNN处理过程中利用不同的卷积参数对频率信息进行抽象和降采样,从而使不同采样率信号的短时谱得到同样的表达。
为了适应不同目标信号持续时间的不同,如爆炸声是瞬间的独立声源,强烈的人员语音是持续时间长的间断语音信号,车辆声信号是较强的连续声源,在CNN的基本架构中可引入时间上的反馈控制,形成递归的CNN网络结构。进一步地,可将LSTM等RNN网络与CNN网络结合,通过自适应的参数训练,得到可回溯历史信息的声信号特征分析提取的深度神经网络。
步骤202)使用样本集进行无监督学习,优化网络规模、权系数及控制参数等深度神经网络参数;
上述深度神经网络的目标特征提取辨识框架的训练可采用离线学习方式,在专门的服务器上实现,得到优化后的神经网络参数。用户系统中仅使用固定的深度神经网络参数对数据进行实时分析处理,标记背景噪声信号或目标信号的类别。也可以将深度神经网络的训练集成在用户系统中,增加在线学习能力,进一步提高在具体应用场景中的辨识能力。
步骤3)构建和训练多个任务辨识网络;
通过多场景下多个信号采集处理节点的数据来源,针对多种目标,在经过无监督学习后,深度神经网络具备了声学特征提取的基本能力。可进一步使用监督学习方法对多种目标的区分能力进行优化。形成针对多种目标的特征提取分析能力。
进一步地,可根据不同任务场景定义不同学习任务。根据不同需要和任务,建立所需识别的目标类型;如鸣笛监控,识别是否是鸣笛声;如安全监控,辨识是否有爆炸、车祸碰撞以及人的尖叫等。根据不同的任务目标,构建多个任务辨识网络,任务辨识网络使用单层或多层网络形式。比如,训练数据中包含了多种车辆、无人机目标数据,可建立诸如任务1可能辨识不同车辆类型;任务2辨识不同无人机类型;任务3区分车辆与无人机等适合不同应用场景的任务。
根据任务特定需求,使用样本集中经过标记的目标事件数据进行训练,输入的待判决特征对每个具体识别任务的辨识网络进行独立优化,除了深度神经网络提取的目标特征以外,可根据需要增加基于信号处理的部分参数,如信号短时能量、事件持续时间等,从而使每个目标辨识任务都能得到较好辨识能力。
步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声学信号进行辨识;
步骤401)对实时采集的声信号进行处理,得到声信号的傅立叶短时谱;
步骤402)将声信号的傅立叶短时谱输入训练好的深度神经网络,得到网络的输出:信号特征的表征;
步骤403)将深度神经网络输出的信号特征,分别输入多个任务辨识网络;将任务辨识网络输出的目标类别概率进行排序,取目标类别概率最大值为辨识结果。
步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略。
所述监控策略包括:系统报警、日志记录和证据记录。
本发明的创新点在于:
1、以图像形式的2-D傅立叶短时谱图为声信号的基本特征,可兼容不同时间长度以及不同采样率的短时谱表示。
2、以CNN为基础,结合递归网络结构,建立可回溯历史信息的声信号特征分析与提取的深度神经网络架构。
3、在目标辨识部分结合深度神经网络的输出和信号处理特征参数,构建多任务的个性化识别网络。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种声学目标事件监控方法,所述方法包括:
步骤1)建立样本集,所述样本集包括训练集和测试集;
步骤2)构建并训练深度神经网络,所述深度神经网络为结合递归网络结构的卷积神经网络,用于提取声信号的信号特征;
步骤3)构建并训练多个任务辨识网络;
步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声信号进行目标类别辨识;
步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略;
所述步骤3)具体包括:
步骤301)根据不同任务场景、不同需要和不同任务目标,构建多个任务辨识网络,所述任务辨识网络使用单层或多层网络形式;
步骤302)将深度神经网络提取的样本集的每个声信号的目标特征作为多个任务辨识网络的输入,根据已知的该声信号的标签进行反向训练,训练出多个任务辨识网络的参数。
2.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤1)具体为:
采集已有的或在线监测所得到的大量声信号数据,处理后得到每个信号的傅立叶短时谱;傅立叶短时谱是多帧信号进行傅里叶变换后得到的二维频谱信息,二维分别表示时间和频率,所述样本集包括若干个样本,每个样本包括:声信号的傅立叶短时谱,声信号的标签。
3.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤2)具体包括:
步骤201)构建深度神经网络;所述深度神经网络是一个改进卷积神经网络,是将传统的卷积神经网络结合递归网络结构,形成可利用历史信息对声信号进行特征分析提取与判别的深度神经网络;
步骤202)使用样本集进行无监督学习,优化所述深度神经网络参数:网络规模、权系数及控制参数。
4.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤302)的多个任务辨识网络的输入还可以增加基于信号处理的部分参数:信号短时能量和事件持续时间。
5.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤4)具体包括:
步骤401)对实时采集的声信号进行处理,得到声信号的傅立叶短时谱;
步骤402)将声信号的傅立叶短时谱输入训练好的深度神经网络,得到网络的输出:信号特征的表征;
步骤403)将深度神经网络输出的信号特征,分别输入多个任务辨识网络;并将任务辨识网络输出的目标类别概率进行排序,取目标类别概率最大值为辨识结果。
6.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤5)的监控策略包括:系统报警、日志记录和证据记录。
CN201710800615.6A 2017-09-07 2017-09-07 一种声学目标事件监控方法 Active CN109473119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710800615.6A CN109473119B (zh) 2017-09-07 2017-09-07 一种声学目标事件监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710800615.6A CN109473119B (zh) 2017-09-07 2017-09-07 一种声学目标事件监控方法

Publications (2)

Publication Number Publication Date
CN109473119A CN109473119A (zh) 2019-03-15
CN109473119B true CN109473119B (zh) 2023-04-07

Family

ID=65657561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710800615.6A Active CN109473119B (zh) 2017-09-07 2017-09-07 一种声学目标事件监控方法

Country Status (1)

Country Link
CN (1) CN109473119B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010155A (zh) * 2019-04-11 2019-07-12 中国一拖集团有限公司 基于卷积神经网络和mfcc的颤振识别方法和系统
CN110600059B (zh) * 2019-09-05 2022-03-15 Oppo广东移动通信有限公司 声学事件检测方法、装置、电子设备及存储介质
CN111863029A (zh) * 2019-09-19 2020-10-30 北京嘀嘀无限科技发展有限公司 一种基于音频的事件检测方法和系统
CN111161715B (zh) * 2019-12-25 2022-06-14 福州大学 一种基于序列分类的特定声音事件检索与定位的方法
CN111227839B (zh) * 2020-01-19 2023-08-18 中国电子科技集团公司电子科学研究院 一种行为识别方法及装置
CN111477213A (zh) * 2020-03-09 2020-07-31 重庆邮电大学 一种基于机器学习的声事件检测系统及方法
CN111477248B (zh) * 2020-04-08 2023-07-28 腾讯音乐娱乐科技(深圳)有限公司 一种音频噪声检测方法及装置
CN111599382B (zh) * 2020-07-27 2020-10-27 深圳市声扬科技有限公司 语音分析方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086036A (zh) * 2017-04-19 2017-08-22 杭州派尼澳电子科技有限公司 一种高速公路隧道安全监控方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020078818A1 (en) * 2000-12-22 2002-06-27 Elliott Brig Barnum Network- supplied selectable sound- data for time identification
JP6235938B2 (ja) * 2013-08-13 2017-11-22 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
JP6401126B2 (ja) * 2015-08-11 2018-10-03 日本電信電話株式会社 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。
CN106328123B (zh) * 2016-08-25 2020-03-20 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN106653056B (zh) * 2016-11-16 2020-04-24 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法
CN106682574A (zh) * 2016-11-18 2017-05-17 哈尔滨工程大学 一维深度卷积网络的水下多目标识别方法
CN106710599A (zh) * 2016-12-02 2017-05-24 深圳撒哈拉数据科技有限公司 一种基于深度神经网络的特定声源检测方法与系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086036A (zh) * 2017-04-19 2017-08-22 杭州派尼澳电子科技有限公司 一种高速公路隧道安全监控方法

Also Published As

Publication number Publication date
CN109473119A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109473119B (zh) 一种声学目标事件监控方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
Kong et al. DCASE 2018 challenge surrey cross-task convolutional neural network baseline
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN109767769A (zh) 一种语音识别方法、装置、存储介质及空调
CN112735473B (zh) 基于声音识别无人机的方法及系统
CN111862951B (zh) 语音端点检测方法及装置、存储介质、电子设备
CN115951883B (zh) 分布式微服务架构的服务组件管理系统及其方法
CN117079299B (zh) 数据处理方法、装置、电子设备及存储介质
CN111933148A (zh) 基于卷神经网络的年龄识别方法、装置及终端
Pan et al. Cognitive acoustic analytics service for Internet of Things
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN113707175B (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN111476102A (zh) 一种安全防护方法、中控设备及计算机存储介质
Smailov et al. A novel deep CNN-RNN approach for real-time impulsive sound detection to detect dangerous events
Prashanth et al. A review of deep learning techniques in audio event recognition (AER) applications
CN112633074A (zh) 行人信息的检测方法和装置、存储介质及电子设备
CN112420079A (zh) 语音端点检测方法和装置、存储介质及电子设备
CN116910690A (zh) 一种基于数据融合的目标分类系统
CN116823884A (zh) 多目标跟踪方法、系统、计算机设备及存储介质
Afendi et al. A sound event detection based on hybrid convolution neural network and random forest
CN115905945A (zh) 行人动作识别方法、装置、设备及存储介质
CN112201259B (zh) 声源定位方法、装置、设备和计算机存储介质
CN114764580A (zh) 一种基于无穿戴设备的实时人体手势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant