CN106251860A - 面向安防领域的无监督的新颖性音频事件检测方法及系统 - Google Patents

面向安防领域的无监督的新颖性音频事件检测方法及系统 Download PDF

Info

Publication number
CN106251860A
CN106251860A CN201610647449.6A CN201610647449A CN106251860A CN 106251860 A CN106251860 A CN 106251860A CN 201610647449 A CN201610647449 A CN 201610647449A CN 106251860 A CN106251860 A CN 106251860A
Authority
CN
China
Prior art keywords
novelty
audio
training
depth
audio frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610647449.6A
Other languages
English (en)
Other versions
CN106251860B (zh
Inventor
张爱英
倪崇嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610647449.6A priority Critical patent/CN106251860B/zh
Publication of CN106251860A publication Critical patent/CN106251860A/zh
Application granted granted Critical
Publication of CN106251860B publication Critical patent/CN106251860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了面向安防领域的无监督的新颖性音频事件检测方法及系统;模型训练步骤:对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;颖性音频事件检测步骤:对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,进行新颖性音频事件发生与否的检测。本发明利用基于深度双向长短时记忆递归神经网络的降噪自动编码机编码实际场景中有用的信息。该信息能够使得系统有效的检测出实际场景下新颖性事件。

Description

面向安防领域的无监督的新颖性音频事件检测方法及系统
技术领域
本发明涉及一种面向安防领域的无监督的新颖性音频事件检测方法及系统。
背景技术
随着数字信号处理技术的飞速发展和互联网的迅速普及,数字音频处理技术的研究已进入一个快速发展的阶段,在音频信息检索、分类、内容理解等方面已经取得了长足的进步。近年来,随着视频监控的发展以及在应用中的不足,人们对音频监控也提出了较大的需求。主要表现在:(1)音频监控系统的实现虽然困难相当多,但人们对音影同步监控的需求也越来越强烈。仔细观察,不难发现,在公检法机构、机场、车站、银行等一些区域,越来越多的安防工程急需清晰、逼真的音影同步监控系统,音频监控已经成为安防行业的新亮点。(2)对于一些公共治安事件频发区域,如学校、歌厅、大型广场等,大部分都安装了视频监控设备,但很多地方声音监控还是空白。这些视频监控系统大都没有办法对正在发生的紧急事件进行实时报警,只能事后提供监控信息;而对这些地方进行音视频监控可以成为及时处理突发事件的最佳手段。
目前在发达国家的市场上也出现了一些利用声音检测技术进行分析和处理的事件报警装置。如一些家庭内部老人监护系统或者医院内的病人监护系统,这些系统可以通过监听老人的呻吟声和摔倒的声音来进行紧急情况报警;如一种用于婴儿看护的哭声检测系统,它可以通过检测到婴儿的哭声来提醒看护者对婴儿进行及时的照顾。这些系统目前都使用了特定声音检测技术,利用特定声音检测的准确性进行实时的提醒和报警。但是这些系统应用到公共领域的安防还存在这一定的难度,一个最主要的原因就是:安防装置所放置的公共区域背景环境十分复杂。在公共领域放置的安防装置周围有大量的非紧急事件的声音,这些声音会造成声音检测系统的频繁误报,而且更重要的是,我们不可能穷举在这些开放区域存在的所有可能的音频事件。因此,需要一种方法检测在这些公共区域发生的新颖性音频事件。所谓新颖性音频事件,就是指未知的或新颖的音频事件,这些事件在训练数据中没有出现或与训练数据中的音频有完全的不同。传统的新颖性事件检测方法大都是基于有监督的方法去训练模型,然后根据某种准则或度量检测新颖性事件。然而,在公共的开放区域,不可能事先知道哪些音频事件可能发生,更不可能采用有监督的机器学习的方法为这些音频事件建立模型。
发明内容
本发明的目的就是为了解决上述问题,提供一种面向安防领域的无监督的新颖性音频事件检测方法及系统,它具有利用无监督的方法,自动检测在公共安防区域发生的新颖性事件的优点。
为了实现上述目的,本发明采用如下技术方案:
面向安防领域的无监督的新颖性音频事件检测方法,包括如下步骤:
模型训练步骤:对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;
新颖性音频事件检测步骤:对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,进行新颖性音频事件发生与否的检测。
所述模型训练步骤包括如下步骤:
步骤(1-1):获取在实际监控场景下不同区域的音频,并对获取到的音频提取听觉谱特征,然后转入步骤(1-2)进行训练;
步骤(1-2):以步骤(1-1)提取的听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法(Backpropagation Through Time,BPTT)训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型进行存储。
所述新颖性音频事件检测步骤包括如下步骤:
步骤(2-1):获取实际应用场景下音频,并对获得的音频提取听觉谱特征,然后转入步骤(2-2);
步骤(2-2):将步骤(2-1)提取的特征输入到模型训练步骤得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;然后转入步骤(2-3);
步骤(2-3):计算在步骤(2-2)中输入自动编码机模型的音频特征和步骤(2-2)中自动编码机模型输出之间误差;然后转入步骤(2-4);
步骤(2-4):在设定时间段内连续的音频上,积累步骤(2-3)获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
所述步骤(1-1)的不同区域包括广场、车展或商场等区域。
所述的步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,设置深度双向长短时记忆递归神经网络为3个隐层,第一个隐层在每一个方向上含有156个长短时记忆细胞块,第二个隐层在每一个方向上含有256个长短时记忆细胞块,第三个隐层在每一个方向上含有156个长短时记忆细胞块,且每一个记忆细胞块只含有一个记忆细胞。
所述步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,为了防止梯度爆炸,采用梯度剪裁的方法来剪裁梯度。训练时,梯度的阈值设置为10。
所述步骤(1-2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,采用多个不同的流同时进行,以加快模型训练的速度。
面向安防领域的无监督的新颖性音频事件检测系统,包括:
训练单元,用于对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的自动编码机模型;
新颖性事件检测单元,用于对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的自动编码机模型中,进行新颖性音频事件发生与否的检测。
所述训练单元,包括:
第一音频获取模块,用于获取在实际监控场景下不同区域的音频,并将音频送入音频特征提取模块;
第一音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入模型训练模块;
模型训练模块,以听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法(Backpropagation Through Time,BPTT)训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型送入模型存储模块进行存储。
优选的,所述训练单元,还包括:
模型存储模块,用于存储模型训练模块训练完成的自动编码机模型。
所述的模型训练模块在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,对梯度进行剪裁。同时,在更新基于深度双向长短时记忆递归神经网络的降噪自动编码机时,利用动量(momentum)方法更新模型。动量(momentum)系数设置为0.9。
新颖性事件检测单元,包括:
第二音频获取模块,用于获取在实际监控场景下不同待测区域的音频,并将音频送入第二音频特征提取模块;
第二音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入新颖性事件检测模块;
新颖性事件检测模块,将第二音频特征提取模块提取的特征输入到模型训练模块得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;计算输入自动编码机模型的音频特征和自动编码机模型输出之间误差;
在设定时间段内连续的音频上,积累获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
优选的,所述新颖性事件检测单元,还包括:
模型装载模块,用于装载模型训练模块训练完成的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型。
优选的,所述新颖性事件检测单元,还包括:
检测结果存储模块,用于存储新颖性事件检测模块的新颖性事件检测结果。
优选的,所述新颖性事件检测模块,利用第二音频特征提取模块提取的特征,应用模型装载模块加载的训练完成的自动编码机模型,进行新颖性音频事件检测,并将检测结果传送至检测结果存储模块进行存储。
本发明的有益效果:
基于深度双向长短时记忆递归神经网络的自动编码机通过引入长短时记忆细胞编码了序列中过去与未来两个方向信息,从这个意义上讲,它是一个动力系统,比只有类似静态输入输出变换的前馈式深度神经网络具有更好的泛化能力,可以更好地学习到更长时间的上下文信息和编码输入音频的信息。
基于深度双向长短时记忆递归神经网络的降噪自动编码机的新颖性事件检测,是一种无监督的数据驱动的方法。该方法可以通过数据自动编码输入音频的信息,通过测量当前的输入和降噪自动编码机的输出之间的距离,判断新颖性事件是否发生。该方法能够克服传统的利用有监督的机器学习方法进行新颖性事件检测方法的不足。
附图说明
图1为本发明的方法流程图;
图2为基于深度双向长短时记忆递归神经网络的自动编码机模型的训练单元;
图3为基于深度双向长短时记忆递归神经网络的自动编码机的新颖性事件检测单元。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,面向安防领域的无监督的新颖性音频事件检测方法,该方法包括如下两个部分:基于深度双向长短时记忆递归神经网络的自动编码机的模型训练步骤A和利用基于深度双向长短时记忆递归神经网络的自动编码机进行新颖性事件检测步骤B。
所述步骤A,包括如下步骤:
步骤A1:接收实际音频场景下的音频输入;
步骤A2:对步骤A1的音频提取听觉谱特征;
步骤A3:以提取的听觉谱特征作为模型训练的输出特征,以提取的听觉谱特征与随机产生均值为0、方差为0.01的噪声的加和作为模型训练的输入特征,以最小化均方误差为训练准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型。在训练基于深度双向长短时记忆递归神经网络的自动编码机模型时,对梯度进行修剪。同时,为了增加训练速度,采用多个流的方式进行;
步骤A4:存储训练完成的自动编码机模型。
所述步骤B,包括如下步骤:
步骤B1:获取实际场景下音频;
步骤B2:对步骤B1获取的音频进行特征提取,提取听觉谱特征;
步骤B3:加载由模型训练模块训练完成的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;
步骤B4:应用加载的降噪自动编码机模型和提取的听觉谱特征,检测输入的音频流中是否存在新颖性音频事件;
步骤B5:存储新颖性音频事件的检测结果。
基于深度双向长短时记忆递归神经网络的降噪自动编码机采用梯度剪裁的方法以增强模型训练的鲁棒性和有效性,避免训练时的梯度爆炸。同时,在训练时采用动量(momentum)方法更新训练参数,以增强模型训练的稳定性。为了加快模型的训练速度,采用多个不同的流同时进行。为了获得较好的检测效果,设置深度双向长短时记忆递归神经网络包含3个长短时记忆隐层。
所述提取听觉谱特征的步骤为:
对于输入的音频按照16000赫兹进行采样,按照16位比特进行量化,并采用窗长30毫秒,以及窗移是10毫秒的海明(Hamming)窗,以包含26个通道三角滤波器的滤波器组,计算Mel谱系数,获得26维特征。
为了匹配人类的响度感知,对这26维的Mel谱系数M30(n,m)在对数域进行表示
并且帧的能量也作为一维特征,共27维特征用于表征音频。
最后,对这27维特征计算一阶差分
D 30 ( n , m ) = Mel log 30 ( n , m ) - Mel log 30 ( n - 1 , m ) ,
以获得54维听觉谱特征。
优选实施例,在利用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,对梯度进行剪裁,设置梯度剪裁的阈值是10。
如图2所示,面向安防领域的无监督的新颖性音频事件检测系统,包括:
第一音频获取模块:输入采样率为16000赫兹,按16位比特编码的PCM格式的实际场景的音频。
第一音频特征提取模块:对第一输入模块输入的音频分别以30毫秒海明(Hamming)窗和10毫秒为窗移,以包含26通道个三角滤波器的滤波器组,提取54维听觉谱特征。
模型训练模块:用于训练基于深度双向长短时记忆递归神经网络的降噪自动编码机。
训练时采用的学习速率是0.00001,动量(momentum)的值为0.9。设置双向长短时记忆递归神经网络有3个隐层。从第一个隐层到第三个隐层,在每一个方向上分别含有156,256和156个长短时记忆细胞块,且每一个长短时记忆细胞块只含有一个记忆细胞。同时,在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,为了防止模型的过训练,梯度剪裁的方法用于剪枝梯度。训练时,梯度剪裁的阈值设置为10。
模型训练模块,以对输入的音频特征作为模型训练的目标,以输入音频特征和随机产生均值为0,方差为0.01的噪声的和为模型训练的输入,以最小化均方误差为训练的准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机。在训练模型时,对梯度进行剪枝,设置梯度剪裁的阈值是10。并且在更新模型时,利用动量(momentum)方法更新模型,动量(momentum)系数设置为0.9。
对于递归神经网络,表述如下:设xt是t时刻输入的K×1特征矢量,ht是隐层单元的值,是N×1矢量,yt是输出,是L×1矢量,则只有一个隐层的RNN表示为:
ht=f(Wxhxt+Whhht-1) (1)
yt=g(Whyht) (2)
其中,Why是连接N个隐层单元到L个输出的L×N权值矩阵,Wxh是连接K个输入单元到N个隐层单元的N×K矩阵,Whh是连接时刻t-1的N个隐层单元到时刻t的N个隐层单元权值矩阵。f(·)和g(·)分别是隐层的和输出层的激活函数。
通过时间反向传播(Back propagationThroughTime,BPTT)算法用于学习权值矩阵。RNN可以学习到长时依赖(Long-Term Dependent),并且理论上讲,梯度下降法可用于训练RNN模型。但是,实际训练RNN时,存在着梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient)的问题。LSTM-RNN通过将长短时记忆细胞(Long Short-TermMemory Cell)引入到RNN中,可以在某种程度上避免梯度消失的问题。
LSTM-RNN记忆细胞集可以描述如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (3)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (4)
ct=ft·ct-1+it·tanh(Wxcxt+Whcht-1+bc) (5)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (6)
ht=ot·tanh(ct) (7)
其中it,ft,ct,ot,ht是维数相同的矢量,分别代表在时刻t时,输入门(InputGate)、遗忘门(Forget Gate)、细胞激活(Cell Activation)、输出门(Output Gate)和隐层激活五种不同的信息类型,“·”表示逐元素相乘,σ(·)表示logistic sigmoid函数,W是表示连接不同门的权值矩阵,b代表相应的偏置矢量。LSTM-RNN模型训练仍然采用BPTT算法。
假设xt是输入音频特征,为了增加模型的泛化性,噪声nt~N(0,0.01)与最初输入的音频特征xt相加,获得特征xt′~N(xt,0.01),并将特征xt′作为基于双向长短时记忆递归神经网络的自动编码机模型的输入,最初输入的音频特征xt作为基于双向长短时记忆递归神经网络的降噪自动编码机的输出。
为了简化表示,输入xt′经过公式(3)至公式(7)变换之后的输出表示为F(xt′),则输出F(xt′)又可以作为输入,利用双向长短时记忆递归神经网络对输入F(xt′)进行重建,获得一个新的输出从而计算出输出与最初的音频输入xt之间均方误差。以最小化二者之间的均方误差作为训练准则,采用通过时间反向传播算法训练降噪自动编码机。
类似的,通过叠加、逐层训练的方式构建基于深度双向长短时记忆递归神经网络的降噪自动编码机。模型存储模块:主要用于存储由模型训练模块训练获得的降噪自动编码机。
如图3所示,新颖性事件检测单元,包括:
第二音频获取模块:输入采样率为16000赫兹,按16位比特编码的PCM格式的实际场景下的音频。
第二音频特征提取模块:对第二输入模块输入的音频,提取54维听觉谱特征。
所述第二特征提取模块,设定30毫秒Hamming窗,10毫秒窗移,以26个三角滤波器的滤波器组,获得Mel谱系数M30(n,m)。同时为了匹配人类的响度感知,对Mel谱系数M30(n,m)在对数域进行表示并且,帧的能量也作为一维特征。最后,对这27维特征计算一阶差分以获得54维听觉谱特征。
模型装载模块:从模型存储模块装载由模型训练模块训练好的基于深度长短时记忆递归神经网络的降噪自动编码机模型。
新颖性事件检测模块:对第二特征提取模块提取的特征,利用模型装载模块装载的自动编码机模型,进行新颖性事件检测。
检测结果存储模块:对新颖性事件检测模块检测的结果进行保存。
本系统可以在计算机、服务器或者计算机网络中实现,其第一、第二音频获取模块可以使用麦克风等设备。
所述新颖性事件检测模块,首先,计算在输入特征和基于深度双向长短时记忆递归神经网络的自动编码机输出之间的误差e0,然后在一段连续的音频片段积累误差,并用积累的误差自动更新阈值
θ‘=β*median{e0(1),e0(2),…,e0(N)},
其中β的值是位于1.0和2.0之间的实数,median表示取中值。当积累的误差大于阈值θ‘时,则认为新颖性事件发生。否则,新颖性事件不发生。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.面向安防领域的无监督的新颖性音频事件检测方法,其特征是,包括如下步骤:
模型训练步骤:对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;
新颖性音频事件检测步骤:对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,进行新颖性音频事件发生与否的检测。
2.如权利要求1所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,所述模型训练步骤包括如下步骤:
步骤(1-1):获取在实际监控场景下不同区域的音频,并对获取到的音频提取听觉谱特征,然后转入步骤(1-2)进行训练;
步骤(1-2):以步骤(1-1)提取的听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型进行存储。
3.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,
所述新颖性音频事件检测步骤包括如下步骤:
步骤(2-1):获取实际应用场景下音频,并对获得的音频提取听觉谱特征,然后转入步骤(2-2);
步骤(2-2):将步骤(2-1)提取的特征输入到模型训练步骤得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;然后转入步骤(2-3);
步骤(2-3):计算在步骤(2-2)中输入自动编码机模型的音频特征和步骤(2-2)中自动编码机模型输出之间误差;然后转入步骤(2-4);
步骤(2-4):在设定时间段内连续的音频上,积累步骤(2-3)获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
4.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,所述的步骤(2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,设置深度双向长短时记忆递归神经网络为3个隐层,第一个隐层在每一个方向上含有156个长短时记忆细胞块,第二个隐层在每一个方向上含有256个长短时记忆细胞块,第三个隐层在每一个方向上含有156个长短时记忆细胞块,且每一个记忆细胞块只含有一个记忆细胞。
5.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,
所述步骤(2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,为了防止梯度爆炸,采用梯度剪裁的方法来剪裁梯度。
6.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法,其特征是,
所述步骤(2)中,在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时,采用多个不同的流同时进行,以加快模型训练的速度。
7.面向安防领域的无监督的新颖性音频事件检测系统,其特征是,包括:
训练单元,用于对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的自动编码机模型;
新颖性事件检测单元,用于对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的自动编码机模型中,进行新颖性音频事件发生与否的检测。
8.如权利要求7所述的面向安防领域的无监督的新颖性音频事件检测系统,其特征是,
所述训练单元,包括:
第一音频获取模块,用于获取在实际监控场景下不同区域的音频,并将音频送入音频特征提取模块;
第一音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入模型训练模块;
模型训练模块,以听觉谱特征作为训练的输出,以添加随机噪声的听觉谱特征作为训练的输入,以最小均方误差作为训练准则,采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型,并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型送入模型存储模块进行存储。
9.如权利要求8所述的面向安防领域的无监督的新颖性音频事件检测系统,其特征是,
所述模型训练模块在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时,对梯度进行剪裁;同时,在更新基于深度双向长短时记忆递归神经网络的降噪自动编码机时,利用动量方法更新模型。
10.如权利要求7所述的面向安防领域的无监督的新颖性音频事件检测系统,其特征是,
新颖性事件检测单元,包括:
第二音频获取模块,用于获取在实际监控场景下不同待测区域的音频,并将音频送入第二音频特征提取模块;
第二音频特征提取模块,对送入的音频进行特征提取,提取出听觉谱特征;将提取的听觉谱特征送入新颖性事件检测模块;
新颖性事件检测模块,将第二音频特征提取模块提取的特征输入到模型训练模块得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,获得自动编码机模型的输出;计算输入自动编码机模型的音频特征和自动编码机模型输出之间误差;
在设定时间段内连续的音频上,积累获得的误差,并根据积累的误差数据,计算阈值;当误差大于阈值时,则认为新颖性音频事件发生;否则,认为新颖性音频事件不发生。
CN201610647449.6A 2016-08-09 2016-08-09 面向安防领域的无监督的新颖性音频事件检测方法及系统 Active CN106251860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610647449.6A CN106251860B (zh) 2016-08-09 2016-08-09 面向安防领域的无监督的新颖性音频事件检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610647449.6A CN106251860B (zh) 2016-08-09 2016-08-09 面向安防领域的无监督的新颖性音频事件检测方法及系统

Publications (2)

Publication Number Publication Date
CN106251860A true CN106251860A (zh) 2016-12-21
CN106251860B CN106251860B (zh) 2020-02-11

Family

ID=58078574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610647449.6A Active CN106251860B (zh) 2016-08-09 2016-08-09 面向安防领域的无监督的新颖性音频事件检测方法及系统

Country Status (1)

Country Link
CN (1) CN106251860B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108399913A (zh) * 2018-02-12 2018-08-14 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
CN109448703A (zh) * 2018-11-14 2019-03-08 山东师范大学 结合深度神经网络和主题模型的音频场景识别方法及系统
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110390941A (zh) * 2019-07-01 2019-10-29 清华大学 基于系数相关模型的mp3音频隐写分析方法及装置
CN110992979A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种检测方法、装置和电子设备
TWI691923B (zh) * 2018-04-02 2020-04-21 華南商業銀行股份有限公司 金融交易詐騙偵測防範系統及其方法
CN111742365A (zh) * 2018-02-28 2020-10-02 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
CN113838478A (zh) * 2020-06-08 2021-12-24 华为技术有限公司 异常事件检测方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104221018A (zh) * 2012-04-18 2014-12-17 索尼公司 声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN105022835A (zh) * 2015-08-14 2015-11-04 武汉大学 一种群智感知大数据公共安全识别方法及系统
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104221018A (zh) * 2012-04-18 2014-12-17 索尼公司 声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN105022835A (zh) * 2015-08-14 2015-11-04 武汉大学 一种群智感知大数据公共安全识别方法及系统
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108399913A (zh) * 2018-02-12 2018-08-14 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
CN108399913B (zh) * 2018-02-12 2021-10-15 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
CN111742365B (zh) * 2018-02-28 2023-04-18 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
US11810435B2 (en) 2018-02-28 2023-11-07 Robert Bosch Gmbh System and method for audio event detection in surveillance systems
CN111742365A (zh) * 2018-02-28 2020-10-02 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
TWI691923B (zh) * 2018-04-02 2020-04-21 華南商業銀行股份有限公司 金融交易詐騙偵測防範系統及其方法
CN109448703A (zh) * 2018-11-14 2019-03-08 山东师范大学 结合深度神经网络和主题模型的音频场景识别方法及系统
CN109448703B (zh) * 2018-11-14 2021-05-11 山东师范大学 结合深度神经网络和主题模型的音频场景识别方法及系统
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
WO2020181998A1 (zh) * 2019-03-11 2020-09-17 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110390941A (zh) * 2019-07-01 2019-10-29 清华大学 基于系数相关模型的mp3音频隐写分析方法及装置
CN110992979B (zh) * 2019-11-29 2022-04-08 北京搜狗科技发展有限公司 一种检测方法、装置和电子设备
CN110992979A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种检测方法、装置和电子设备
CN113838478A (zh) * 2020-06-08 2021-12-24 华为技术有限公司 异常事件检测方法、装置和电子设备
CN113838478B (zh) * 2020-06-08 2024-04-09 华为技术有限公司 异常事件检测方法、装置和电子设备

Also Published As

Publication number Publication date
CN106251860B (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN106251860A (zh) 面向安防领域的无监督的新颖性音频事件检测方法及系统
CN106846729A (zh) 一种基于卷积神经网络的跌倒检测方法和系统
CN108875708A (zh) 基于视频的行为分析方法、装置、设备、系统及存储介质
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology
CN107463907A (zh) 车辆碰撞检测方法、装置、电子设备及车辆
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN110084151A (zh) 基于非局部网络深度学习的视频异常行为判别方法
Laffitte et al. Assessing the performances of different neural network architectures for the detection of screams and shouts in public transportation
CN107403154A (zh) 一种基于动态视觉传感器的步态识别方法
CN105577685A (zh) 云计算环境中的自主分析入侵检测方法及系统
CN107290741A (zh) 基于加权联合距离时频变换的室内人体姿态识别方法
CN113822139B (zh) 一种基于改进1DCNN-BiLSTM的设备故障诊断方法
Zhao et al. Recognition of Transportation State by Smartphone Sensors Using Deep Bi‐LSTM Neural Network
CN105574489A (zh) 基于层次级联的暴力群体行为检测方法
Utebayeva et al. Multi-label UAV sound classification using Stacked Bidirectional LSTM
Chen et al. DCASE2017 sound event detection using convolutional neural network
WO2009028937A1 (en) Method and apparatus for detection of specific input signal contributions
Thangavel et al. The IoT based embedded system for the detection and discrimination of animals to avoid human–wildlife conflict
CN109308903A (zh) 语音模仿方法、终端设备及计算机可读存储介质
Zaheer et al. A preliminary study on deep-learning based screaming sound detection
Smailov et al. A Novel Deep CNN-RNN Approach for Real-time Impulsive Sound Detection to Detect Dangerous Events
Luo et al. A system for the detection of polyphonic sound on a university campus based on CapsNet-RNN
Zhang et al. Acoustic traffic event detection in long tunnels using fast binary spectral features
CN113269093A (zh) 视频描述中视觉特征分割语义检测方法及系统
Afendi et al. A sound event detection based on hybrid convolution neural network and random forest

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant