CN106251860B - 面向安防领域的无监督的新颖性音频事件检测方法及系统 - Google Patents
面向安防领域的无监督的新颖性音频事件检测方法及系统 Download PDFInfo
- Publication number
- CN106251860B CN106251860B CN201610647449.6A CN201610647449A CN106251860B CN 106251860 B CN106251860 B CN 106251860B CN 201610647449 A CN201610647449 A CN 201610647449A CN 106251860 B CN106251860 B CN 106251860B
- Authority
- CN
- China
- Prior art keywords
- audio
- training
- automatic coding
- neural network
- novelty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 85
- 230000015654 memory Effects 0.000 claims abstract description 59
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 230000000306 recurrent effect Effects 0.000 claims abstract description 51
- 230000009467 reduction Effects 0.000 claims abstract description 44
- 238000012544 monitoring process Methods 0.000 claims abstract description 30
- 230000007787 long-term memory Effects 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004880 explosion Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000020411 cell activation Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013106 supervised machine learning method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了面向安防领域的无监督的新颖性音频事件检测方法及系统;模型训练步骤:对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;颖性音频事件检测步骤:对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,进行新颖性音频事件发生与否的检测。本发明利用基于深度双向长短时记忆递归神经网络的降噪自动编码机编码实际场景中有用的信息。该信息能够使得系统有效的检测出实际场景下新颖性事件。
Description
技术领域
本发明涉及一种面向安防领域的无监督的新颖性音频事件检测方法及系统。
背景技术
随着数字信号处理技术的飞速发展和互联网的迅速普及,数字音频处理技术的研究已进入一个快速发展的阶段,在音频信息检索、分类、内容理解等方面已经取得了长足的进步。近年来,随着视频监控的发展以及在应用中的不足,人们对音频监控也提出了较大的需求。主要表现在:(1)音频监控系统的实现虽然困难相当多,但人们对音影同步监控的需求也越来越强烈。仔细观察,不难发现,在公检法机构、机场、车站、银行等一些区域,越来越多的安防工程急需清晰、逼真的音影同步监控系统,音频监控已经成为安防行业的新亮点。(2)对于一些公共治安事件频发区域,如学校、歌厅、大型广场等,大部分都安装了视频监控设备,但很多地方声音监控还是空白。这些视频监控系统大都没有办法对正在发生的紧急事件进行实时报警,只能事后提供监控信息;而对这些地方进行音视频监控可以成为及时处理突发事件的最佳手段。
目前在发达国家的市场上也出现了一些利用声音检测技术进行分析和处理的事件报警装置。如一些家庭内部老人监护系统或者医院内的病人监护系统,这些系统可以通过监听老人的呻吟声和摔倒的声音来进行紧急情况报警;如一种用于婴儿看护的哭声检测系统,它可以通过检测到婴儿的哭声来提醒看护者对婴儿进行及时的照顾。这些系统目前都使用了特定声音检测技术,利用特定声音检测的准确性进行实时的提醒和报警。但是这些系统应用到公共领域的安防还存在这一定的难度,一个最主要的原因就是:安防装置所放置的公共区域背景环境十分复杂。在公共领域放置的安防装置周围有大量的非紧急事件的声音,这些声音会造成声音检测系统的频繁误报,而且更重要的是,我们不可能穷举在这些开放区域存在的所有可能的音频事件。因此,需要一种方法检测在这些公共区域发生的新颖性音频事件。所谓新颖性音频事件,就是指未知的或新颖的音频事件,这些事件在训练数据中没有出现或与训练数据中的音频有完全的不同。传统的新颖性事件检测方法大都是基于有监督的方法去训练模型,然后根据某种准则或度量检测新颖性事件。然而,在公共的开放区域,不可能事先知道哪些音频事件可能发生,更不可能采用有监督的机器学习的方法为这些音频事件建立模型。
发明内容
本发明的目的就是为了解决上述问题,提供一种面向安防领域的无监督的新颖性音频事件检测方法及系统,它具有利用无监督的方法,自动检测在公共安防区域发生的新颖性事件的优点。
为了实现上述目的,本发明采用如下技术方案:
面向安防领域的无监督的新颖性音频事件检测方法,包括如下步骤:
模型训练步骤:对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;
新颖性音频事件检测步骤:对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,进行新颖性音频事件发生与否的检测。
所述模型训练步骤包括如下步骤:
步骤(1-1):获取在实际监控场景下不同区域的音频,并对获取到的音频提取听觉谱特征,然后转入步骤(1-2)进行训练;
步骤(1-2):以步骤(1-1)提取的听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法(Backpropagation Through Time,BPTT)训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型进行存储。
所述新颖性音频事件检测步骤包括如下步骤:
步骤(2-1):获取实际应用场景下音频,并对获得的音频提取听觉谱特征,然后转入步骤(2-2);
步骤(2-2):将步骤(2-1)提取的特征输入到模型训练步骤得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;然后转入步骤(2-3);
步骤(2-3):计算在步骤(2-2)中输入自动编码机模型的音频特征和步骤(2-2)中自动编码机模型输出之间误差;然后转入步骤(2-4);
步骤(2-4):在设定时间段内连续的音频上,积累步骤(2-3)获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
所述步骤(1-1)的不同区域包括广场、车展或商场等区域。
所述的步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,设置深度双向长短时记忆递归神经网络为3个隐层,第一个隐层在每一个方向上含有156个长短时记忆细胞块,第二个隐层在每一个方向上含有256个长短时记忆细胞块,第三个隐层在每一个方向上含有156个长短时记忆细胞块,且每一个记忆细胞块只含有一个记忆细胞。
所述步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,为了防止梯度爆炸,采用梯度剪裁的方法来剪裁梯度。训练时,梯度的阈值设置为10。
所述步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,采用多个不同的流同时进行,以加快模型训练的速度。
面向安防领域的无监督的新颖性音频事件检测系统,包括:
训练单元,用于对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的自动编码机模型;
新颖性事件检测单元,用于对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的自动编码机模型中,进行新颖性音频事件发生与否的检测。
所述训练单元,包括:
第一音频获取模块,用于获取在实际监控场景下不同区域的音频,并将音频送入音频特征提取模块;
第一音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入模型训练模块;
模型训练模块,以听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法(Backpropagation Through Time,BPTT)训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型送入模型存储模块进行存储。
优选的,所述训练单元,还包括:
模型存储模块,用于存储模型训练模块训练完成的自动编码机模型。
所述的模型训练模块在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,对梯度进行剪裁。同时,在更新基于深度双向长短时记忆递归神经网络的降噪自动编码机时,利用动量(momentum)方法更新模型。动量(momentum)系数设置为0.9。
新颖性事件检测单元,包括:
第二音频获取模块,用于获取在实际监控场景下不同待测区域的音频,并将音频送入第二音频特征提取模块;
第二音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入新颖性事件检测模块;
新颖性事件检测模块,将第二音频特征提取模块提取的特征输入到模型训练模块得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;计算输入自动编码机模型的音频特征和自动编码机模型输出之间误差;
在设定时间段内连续的音频上,积累获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
优选的,所述新颖性事件检测单元,还包括:
模型装载模块,用于装载模型训练模块训练完成的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型。
优选的,所述新颖性事件检测单元,还包括:
检测结果存储模块,用于存储新颖性事件检测模块的新颖性事件检测结果。
优选的,所述新颖性事件检测模块,利用第二音频特征提取模块提取的特征,应用模型装载模块加载的训练完成的自动编码机模型,进行新颖性音频事件检测,并将检测结果传送至检测结果存储模块进行存储。
本发明的有益效果:
基于深度双向长短时记忆递归神经网络的自动编码机通过引入长短时记忆细胞编码了序列中过去与未来两个方向信息,从这个意义上讲,它是一个动力系统,比只有类似静态输入输出变换的前馈式深度神经网络具有更好的泛化能力,可以更好地学习到更长时间的上下文信息和编码输入音频的信息。
基于深度双向长短时记忆递归神经网络的降噪自动编码机的新颖性事件检测,是一种无监督的数据驱动的方法。该方法可以通过数据自动编码输入音频的信息,通过测量当前的输入和降噪自动编码机的输出之间的距离,判断新颖性事件是否发生。该方法能够克服传统的利用有监督的机器学习方法进行新颖性事件检测方法的不足。
附图说明
图1为本发明的方法流程图;
图2为基于深度双向长短时记忆递归神经网络的自动编码机模型的训练单元;
图3为基于深度双向长短时记忆递归神经网络的自动编码机的新颖性事件检测单元。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,面向安防领域的无监督的新颖性音频事件检测方法,该方法包括如下两个部分:基于深度双向长短时记忆递归神经网络的自动编码机的模型训练步骤A和利用基于深度双向长短时记忆递归神经网络的自动编码机进行新颖性事件检测步骤B。
所述步骤A,包括如下步骤:
步骤A1:接收实际音频场景下的音频输入;
步骤A2:对步骤A1的音频提取听觉谱特征;
步骤A3:以提取的听觉谱特征作为模型训练的输出特征,以提取的听觉谱特征与随机产生均值为0、方差为0.01的噪声的加和作为模型训练的输入特征,以最小化均方误差为训练准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型。在训练基于深度双向长短时记忆递归神经网络的自动编码机模型时,对梯度进行修剪。同时,为了增加训练速度,采用多个流的方式进行;
步骤A4:存储训练完成的自动编码机模型。
所述步骤B,包括如下步骤:
步骤B1:获取实际场景下音频;
步骤B2:对步骤B1获取的音频进行特征提取,提取听觉谱特征;
步骤B3:加载由模型训练模块训练完成的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;
步骤B4:应用加载的降噪自动编码机模型和提取的听觉谱特征,检测输入的音频流中是否存在新颖性音频事件;
步骤B5:存储新颖性音频事件的检测结果。
基于深度双向长短时记忆递归神经网络的降噪自动编码机采用梯度剪裁的方法以增强模型训练的鲁棒性和有效性,避免训练时的梯度爆炸。同时,在训练时采用动量(momentum)方法更新训练参数,以增强模型训练的稳定性。为了加快模型的训练速度,采用多个不同的流同时进行。为了获得较好的检测效果,设置深度双向长短时记忆递归神经网络包含3个长短时记忆隐层。
所述提取听觉谱特征的步骤为:
对于输入的音频按照16000赫兹进行采样,按照16位比特进行量化,并采用窗长30毫秒,以及窗移是10毫秒的海明(Hamming)窗,以包含26个通道三角滤波器的滤波器组,计算Mel谱系数,获得26维特征。
为了匹配人类的响度感知,对这26维的Mel谱系数M30(n,m)在对数域进行表示
最后,对这27维特征计算一阶差分
以获得54维听觉谱特征。
优选实施例,在利用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,对梯度进行剪裁,设置梯度剪裁的阈值是10。
如图2所示,面向安防领域的无监督的新颖性音频事件检测系统,包括:
第一音频获取模块:输入采样率为16000赫兹,按16位比特编码的PCM格式的实际场景的音频。
第一音频特征提取模块:对第一输入模块输入的音频分别以30毫秒海明(Hamming)窗和10毫秒为窗移,以包含26通道个三角滤波器的滤波器组,提取54维听觉谱特征。
模型训练模块:用于训练基于深度双向长短时记忆递归神经网络的降噪自动编码机。
训练时采用的学习速率是0.00001,动量(momentum)的值为0.9。设置双向长短时记忆递归神经网络有3个隐层。从第一个隐层到第三个隐层,在每一个方向上分别含有156,256和156个长短时记忆细胞块,且每一个长短时记忆细胞块只含有一个记忆细胞。同时,在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,为了防止模型的过训练,梯度剪裁的方法用于剪枝梯度。训练时,梯度剪裁的阈值设置为10。
模型训练模块,以对输入的音频特征作为模型训练的目标,以输入音频特征和随机产生均值为0,方差为0.01的噪声的和为模型训练的输入,以最小化均方误差为训练的准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机。在训练模型时,对梯度进行剪枝,设置梯度剪裁的阈值是10。并且在更新模型时,利用动量(momentum)方法更新模型,动量(momentum)系数设置为0.9。
对于递归神经网络,表述如下:设xt是t时刻输入的K×1特征矢量,ht是隐层单元的值,是N×1矢量,yt是输出,是L×1矢量,则只有一个隐层的RNN表示为:
ht=f(Wxhxt+Whhht-1) (1)
yt=g(Whyht) (2)
其中,Why是连接N个隐层单元到L个输出的L×N权值矩阵,Wxh是连接K个输入单元到N个隐层单元的N×K矩阵,Whh是连接时刻t-1的N个隐层单元到时刻t的N个隐层单元权值矩阵。f(·)和g(·)分别是隐层的和输出层的激活函数。
通过时间反向传播(Back propagationThroughTime,BPTT)算法用于学习权值矩阵。RNN可以学习到长时依赖(Long-Term Dependent),并且理论上讲,梯度下降法可用于训练RNN模型。但是,实际训练RNN时,存在着梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient)的问题。LSTM-RNN通过将长短时记忆细胞(Long Short-TermMemory Cell)引入到RNN中,可以在某种程度上避免梯度消失的问题。
LSTM-RNN记忆细胞集可以描述如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (3)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (4)
ct=ft·ct-1+it·tanh(Wxcxt+Whcht-1+bc) (5)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (6)
ht=ot·tanh(ct) (7)
其中it,ft,ct,ot,ht是维数相同的矢量,分别代表在时刻t时,输入门(InputGate)、遗忘门(Forget Gate)、细胞激活(Cell Activation)、输出门(Output Gate)和隐层激活五种不同的信息类型,“·”表示逐元素相乘,σ(·)表示logistic sigmoid函数,W是表示连接不同门的权值矩阵,b代表相应的偏置矢量。LSTM-RNN模型训练仍然采用BPTT算法。
假设xt是输入音频特征,为了增加模型的泛化性,噪声nt~N(0,0.01)与最初输入的音频特征xt相加,获得特征xt′~N(xt,0.01),并将特征xt′作为基于双向长短时记忆递归神经网络的自动编码机模型的输入,最初输入的音频特征xt作为基于双向长短时记忆递归神经网络的降噪自动编码机的输出。
为了简化表示,输入xt′经过公式(3)至公式(7)变换之后的输出表示为F(xt′),则输出F(xt′)又可以作为输入,利用双向长短时记忆递归神经网络对输入F(xt′)进行重建,获得一个新的输出从而计算出输出与最初的音频输入xt之间均方误差。以最小化二者之间的均方误差作为训练准则,采用通过时间反向传播算法训练降噪自动编码机。
类似的,通过叠加、逐层训练的方式构建基于深度双向长短时记忆递归神经网络的降噪自动编码机。模型存储模块:主要用于存储由模型训练模块训练获得的降噪自动编码机。
如图3所示,新颖性事件检测单元,包括:
第二音频获取模块:输入采样率为16000赫兹,按16位比特编码的PCM格式的实际场景下的音频。
第二音频特征提取模块:对第二输入模块输入的音频,提取54维听觉谱特征。
所述第二特征提取模块,设定30毫秒Hamming窗,10毫秒窗移,以26个三角滤波器的滤波器组,获得Mel谱系数M30(n,m)。同时为了匹配人类的响度感知,对Mel谱系数M30(n,m)在对数域进行表示并且,帧的能量也作为一维特征。最后,对这27维特征计算一阶差分以获得54维听觉谱特征。
模型装载模块:从模型存储模块装载由模型训练模块训练好的基于深度长短时记忆递归神经网络的降噪自动编码机模型。
新颖性事件检测模块:对第二特征提取模块提取的特征,利用模型装载模块装载的自动编码机模型,进行新颖性事件检测。
检测结果存储模块:对新颖性事件检测模块检测的结果进行保存。
本系统可以在计算机、服务器或者计算机网络中实现,其第一、第二音频获取模块可以使用麦克风等设备。
所述新颖性事件检测模块,首先,计算在输入特征和基于深度双向长短时记忆递归神经网络的自动编码机输出之间的误差e0,然后在一段连续的音频片段积累误差,并用积累的误差自动更新阈值
θ‘=β*median{e0(1),e0(2),…,e0(N)},
其中β的值是位于1.0和2.0之间的实数,median表示取中值。当积累的误差大于阈值θ‘时,则认为新颖性事件发生。否则,新颖性事件不发生。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.面向安防领域的无监督的新颖性音频事件检测方法,其特征是,包括如下步骤:
模型训练步骤:对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;
新颖性音频事件检测步骤:对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,进行新颖性音频事件发生与否的检测;
所述新颖性音频事件检测步骤包括如下步骤:
步骤(2-1):获取实际应用场景下音频,并对获得的音频提取听觉谱特征,然后转入步骤(2-2);
步骤(2-2):将步骤(2-1)提取的特征输入到模型训练步骤得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;然后转入步骤(2-3);
步骤(2-3):计算在步骤(2-2)中输入自动编码机模型的音频特征和步骤(2-2)中自动编码机模型输出之间误差;然后转入步骤(2-4);
步骤(2-4):在设定时间段内连续的音频上,积累步骤(2-3)获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
2.如权利要求1所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,所述模型训练步骤包括如下步骤:
步骤(1-1):获取在实际监控场景下不同区域的音频,并对获取到的音频提取听觉谱特征,然后转入步骤(1-2)进行训练;
步骤(1-2):以步骤(1-1)提取的听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型进行存储。
3.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,所述的步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,设置深度双向长短时记忆递归神经网络为3个隐层,第一个隐层在每一个方向上含有156个长短时记忆细胞块,第二个隐层在每一个方向上含有256个长短时记忆细胞块,第三个隐层在每一个方向上含有156个长短时记忆细胞块,且每一个记忆细胞块只含有一个记忆细胞。
4.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,
所述步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,为了防止梯度爆炸,采用梯度剪裁的方法来剪裁梯度。
5.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,
所述步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,采用多个不同的流同时进行,以加快模型训练的速度。
6.面向安防领域的无监督的新颖性音频事件检测系统,其特征是,包括:
训练单元,用于对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的自动编码机模型;
新颖性事件检测单元,用于对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的自动编码机模型中,进行新颖性音频事件发生与否的检测;
所述新颖性事件检测单元,包括:
第二音频获取模块,用于获取在实际监控场景下不同待测区域的音频,并将音频送入第二音频特征提取模块;
第二音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入新颖性事件检测模块;
新颖性事件检测模块,将第二音频特征提取模块提取的特征输入到模型训练模块得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;计算输入自动编码机模型的音频特征和自动编码机模型输出之间误差;
在设定时间段内连续的音频上,积累获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
7.如权利要求6所述的面向安防领域的无监督的新颖性音频事件检测系统,其特征是,
所述训练单元,包括:
第一音频获取模块,用于获取在实际监控场景下不同区域的音频,并将音频送入音频特征提取模块;
第一音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入模型训练模块;
模型训练模块,以听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型送入模型存储模块进行存储。
8.如权利要求7所述的面向安防领域的无监督的新颖性音频事件检测系统,其特征是,
所述模型训练模块在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,对梯度进行剪裁;同时,在更新基于深度双向长短时记忆递归神经网络的降噪自动编码机时,利用动量方法更新模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610647449.6A CN106251860B (zh) | 2016-08-09 | 2016-08-09 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610647449.6A CN106251860B (zh) | 2016-08-09 | 2016-08-09 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106251860A CN106251860A (zh) | 2016-12-21 |
CN106251860B true CN106251860B (zh) | 2020-02-11 |
Family
ID=58078574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610647449.6A Expired - Fee Related CN106251860B (zh) | 2016-08-09 | 2016-08-09 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106251860B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108399913B (zh) * | 2018-02-12 | 2021-10-15 | 北京容联易通信息技术有限公司 | 高鲁棒性音频指纹识别方法及系统 |
CN111742365B (zh) * | 2018-02-28 | 2023-04-18 | 罗伯特·博世有限公司 | 用于监控系统中的音频事件检测的系统和方法 |
TWI691923B (zh) * | 2018-04-02 | 2020-04-21 | 華南商業銀行股份有限公司 | 金融交易詐騙偵測防範系統及其方法 |
CN109448703B (zh) * | 2018-11-14 | 2021-05-11 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN110070895B (zh) * | 2019-03-11 | 2021-06-22 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
CN110390941A (zh) * | 2019-07-01 | 2019-10-29 | 清华大学 | 基于系数相关模型的mp3音频隐写分析方法及装置 |
CN110992979B (zh) * | 2019-11-29 | 2022-04-08 | 北京搜狗科技发展有限公司 | 一种检测方法、装置和电子设备 |
CN113838478B (zh) * | 2020-06-08 | 2024-04-09 | 华为技术有限公司 | 异常事件检测方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104221018A (zh) * | 2012-04-18 | 2014-12-17 | 索尼公司 | 声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105022835A (zh) * | 2015-08-14 | 2015-11-04 | 武汉大学 | 一种群智感知大数据公共安全识别方法及系统 |
CN105139864A (zh) * | 2015-08-17 | 2015-12-09 | 北京天诚盛业科技有限公司 | 语音识别方法和装置 |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160035344A1 (en) * | 2014-08-04 | 2016-02-04 | Google Inc. | Identifying the language of a spoken utterance |
-
2016
- 2016-08-09 CN CN201610647449.6A patent/CN106251860B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104221018A (zh) * | 2012-04-18 | 2014-12-17 | 索尼公司 | 声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序 |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105022835A (zh) * | 2015-08-14 | 2015-11-04 | 武汉大学 | 一种群智感知大数据公共安全识别方法及系统 |
CN105139864A (zh) * | 2015-08-17 | 2015-12-09 | 北京天诚盛业科技有限公司 | 语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106251860A (zh) | 2016-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106251860B (zh) | 面向安防领域的无监督的新颖性音频事件检测方法及系统 | |
CN106846729A (zh) | 一种基于卷积神经网络的跌倒检测方法和系统 | |
Toreyin et al. | Falling person detection using multi-sensor signal processing | |
Principi et al. | Acoustic cues from the floor: a new approach for fall classification | |
CN108549841A (zh) | 一种基于深度学习的老人跌倒行为的识别方法 | |
Krijnders et al. | Sound event recognition through expectancy-based evaluation ofsignal-driven hypotheses | |
Zhao et al. | Recognition of Transportation State by Smartphone Sensors Using Deep Bi‐LSTM Neural Network | |
Droghini et al. | A Combined One‐Class SVM and Template‐Matching Approach for User‐Aided Human Fall Detection by Means of Floor Acoustic Features | |
Do et al. | Soham: A sound-based human activity monitoring framework for home service robots | |
Cai et al. | GBDT‐Based Fall Detection with Comprehensive Data from Posture Sensor and Human Skeleton Extraction | |
Thangavel et al. | The IoT based embedded system for the detection and discrimination of animals to avoid human–wildlife conflict | |
Kendzhaeva et al. | Providing safety for citizens and tourists in cities: a system for detecting anomalous sounds | |
Elshwemy et al. | A New Approach for Thermal Vision based Fall Detection Using Residual Autoencoder. | |
Smailov et al. | A novel deep CNN-RNN approach for real-time impulsive sound detection to detect dangerous events | |
Feroze et al. | Sound event detection in real life audio using perceptual linear predictive feature with neural network | |
Ahn et al. | Personalized behavior pattern recognition and unusual event detection for mobile users | |
Kothinti et al. | Temporal contrastive-loss for audio event detection | |
Amir et al. | Real-time threshold-based fall detection system using wearable IoT | |
Amara et al. | A smartphone application for fall detection using accelerometer and convlstm network | |
Droghini et al. | An end-to-end unsupervised approach employing convolutional neural network autoencoders for human fall detection | |
Eyobu et al. | A real-time sleeping position recognition system using IMU sensor motion data | |
Shabbir et al. | Smart City Traffic Management: Acoustic-Based Vehicle Detection Using Stacking-Based Ensemble Deep Learning Approach | |
Romanov et al. | Development of an non-speech audio event detection system | |
Hassan et al. | Comparative analysis of machine learning algorithms for classification of environmental sounds and fall detection | |
Khawandi et al. | Applying machine learning algorithm in fall detection monitoring system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200211 |
|
CF01 | Termination of patent right due to non-payment of annual fee |