CN110519637B - 基于音频视频监控结合的异常监测方法 - Google Patents
基于音频视频监控结合的异常监测方法 Download PDFInfo
- Publication number
- CN110519637B CN110519637B CN201910797226.1A CN201910797226A CN110519637B CN 110519637 B CN110519637 B CN 110519637B CN 201910797226 A CN201910797226 A CN 201910797226A CN 110519637 B CN110519637 B CN 110519637B
- Authority
- CN
- China
- Prior art keywords
- abnormal
- sound
- video
- signal
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002159 abnormal effect Effects 0.000 claims abstract description 69
- 239000000523 sample Substances 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000003287 optical effect Effects 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000004880 explosion Methods 0.000 claims description 4
- 206010039740 Screaming Diseases 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 239000011521 glass Substances 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000005286 illumination Methods 0.000 claims 1
- 230000035772 mutation Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于音频视频监控结合的异常监测方法,用于解决现有异常监测方法监测信息来源单一造成实用性差的技术问题。技术方案是将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路,经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性,通过多视角监控下丰富的信息进行高效准确的实时异常监控,实用性好。
Description
技术领域
本发明涉及一种异常监测方法,特别涉及一种基于音频视频监控结合的异常监测方法。
背景技术
文献“基于监控视频的异常事件识别,光学仪器,2019,Vol41(1),p29-36”公开了一种基于监控视频的异常事件监测与识别的方法。该方法首先采用背景建模的混合高斯算法提取前景目标,然后使用金字塔迭代的L-K特征点跟踪算法得到前景的光流运动信息,并通过分析前景的面积比例、速度方差、整体熵判断视频中是否有异常事件的发生。通过利用爆炸、人群短时聚集和分散等异常事件做仿真实验结果表明其提出的模型可以准确的提取前景目标区域,并可以快速、精准的判断监控视频中的异常事件,可以为管理部门及时发现和控制异常事件提供有效的帮助。文献所述方法只对监控的视频画面信息进行了利用,完全抛弃了安防监控的声音信息,监测信息来源单一。由于光线传播的特性导致监控视频画面存在比较多的盲区,而且容易受到光线环境以及遮挡物的影响。诸如夜晚、雨天、雾天一类的场景会对视频监控采集到的信息造成极大的不良影响。这些因素都会直接导致异常监测质量的下降,影响预警效果。
发明内容
为了克服现有异常监测方法监测信息来源单一造成实用性差的不足,本发明提供一种基于音频视频监控结合的异常监测方法。该方法将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路,经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性,通过多视角监控下丰富的信息进行高效准确的实时异常监控,实用性好。
本发明解决其技术问题所采用的技术方案:一种基于音频视频监控结合的异常监测方法,其特点是包括以下步骤:
步骤一、设定用于监测流程的音视频截断时长T,当前时刻t。从安防探头以及拾音器实时采集到的视频画面信息以及音频信息,经过编码后存储到信息存储目录中。然后截取t-T时刻到当前时刻t共计T秒视频段以及音频段。这T秒的视频段和音频段分别作为两个异常检测支路的输入信息。
步骤二、采用端点检测方法对音频信号进行预处理,提取输入信号中的声音事件。首先确定声音事件的起始点:将不同dB数对应的幅度值和过零率阈值设置为低门限一,若当前帧的幅度超过幅度阈值,或者过零率超过阈值,则确定当前帧为声音事件起点,此外,若当前帧数据的平均幅度与上一帧数据相比突变3dB以上,确定当前帧为声音事件的起始位置。然后确定声音事件的结束点:将不同dB数对应的幅度值和过零率阈值设置为低门限二,若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值,则代表声音事件结束。检测出完整的声音事件之后将其进行存储。
对于一个完整的声音事件x(n)进行MFCC特征提取。首先进行预加重,将x(n)通过一个高通滤波器,使用的公式如下:
H(Z)=1-μz-1, (1)
其中,μ是一个常数,取值0.9-1.0。z是转换到频域之后的输入信号,H(Z)代表经过高通滤波之后得到的频域信号。然后进行分帧,利用声音信号的短时平稳性,将x(n)的N个采样点形成一个集合进行处理,为了避免相邻两帧的变化过大,需在两相邻帧之间设置一段重叠区域,此重叠区域包含了M个取样点,M的取值为N的或者
接下来对声音事件x(n)中的每一帧进行处理,首先使用汉明窗与每帧的信号相乘,通过加窗操作增加帧左右两端的连续性。汉明窗的形式由如下公式给出:
不同的a值会产生不同的汉明窗,a取值为0.46。然后对相乘之后的帧进行DFT变换,接着使用无交叠统计均等矩形滤波器组进行Mel滤波。该滤波器组中各矩形子滤波器的幅度响应Ai由以下公式给出:
其中,M为矩形滤波器总个数,i=1,…M,为第i个矩形滤波器的频率点。对滤波后的信号取对数能量变换后再进行DCT变换以及求倒谱运算得到第j帧信号在第i个子滤波器上的输出幅度i=1,2,…,M。即为该帧信号的能量特征。
进一步,异常声音信号x(n)的能量特征mi和能量差分特征Δi通过以下公式计算:
步骤三、为了进一步提升异常声音信号特征的分类鉴别能力,同时避免某种特征在分类过程中出现占主导的情况,采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合,形成最终用于分类的信号特征。具体的融通和过程如下:
首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声和正常声音这五种类型声音的声音样本库,统计所有样本的能量特征和能量差分特征,分别获得能量特征和能量差分特征的最大值与最小值然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理。
其中,权重α1,α2根据能量特征和能量差分特征对于异常声音的分类能力确定,且满足α1+α2=1。
获取到输入信号声音事件x(n)最终的特征向量后,将其输入到训练好的SVM二分类模型中进行分类,识别出输入声音信号属于正常状态的声音或是异常的声音。如果是正常状态的话就继续执行步骤四,反之则跳转到步骤六进行异常处理。
步骤四、对于输入到检测支路中的视频段,首先通过前景提取算法提取出视频帧前景图。若前景在其中所占权重为a,那么前景检测问题由如下公式定义:
Ic=aFc+(1-a)Bc, (9)
其中,Ic,Fc,Bc分别代表视频帧上一点的合成色、前景和背景。采用KNN matting算法提取出视频帧中的前景图,然后将前景图分成一个个大小相同不重合的区域,统计每个区域前景像素点之和。由于在视频帧前景图中背景被抑制成黑色,因此通过设置一个指定的阈值来过滤掉大部分的背景区域。如果每个区域前景像素点之和大于阈值,就将其设置为前景区域,从而得到视频帧中所有的前景区域。
分离出视频画面的前景区域之后,通过计算获取相应的光流信息。将数据集合中所有的光流幅度按照从小到大进行排序,然后去掉最大的5%之后取剩下的最大光流幅度作为阈值δ,接着将光流幅度分为n个区间,第i个区间为进一步提取光流幅度直方图特征的时候,设定每个区间初始特征值为零,然后遍历区域内所有像素点的光流矢量,计算光流矢量幅度,找到其对应的光流幅度直方图特征区间。区间特征值大小为最终落入该区间光流矢量的个数,最后将得到的光流幅度直方图归一化以满足特征的尺度不变性,从而得到能反映区域内运动特征分布情况的光流幅度直方图特征。得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征。
步骤五、采用混合高斯模型判断相应时空视频块是否出现异常。混合高斯模型就是指对样本的概率分布进行估计,而估计时所采用的训练模型是多个高斯模型的加权和。每个高斯模型代表一个类,对样本中的数据分别在几个高斯模型上投影,分别得到在各个类上的概率,接着选取概率最大的类作为判决结果。混合高斯模型定义由如下公式给出:
其中,Θ={λ1,…,λk,μ1,…,μk,Σ1,…,Σk}是高斯混合分类模型的参数,K是模型的格式,λk是第k个高斯模型的权重。μk和Σk各自代表均值和协方差。N(·)代表多元高斯分布。
使用准备好的训练数据训练混合高斯模型,在使用过程中,被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中,得到该特征的异常分数,然后通过分数判定输入是否包含异常。但是由于噪声和光照的影响,会导致出现异常的误判情况,所以加入了额外的异常跟踪过程,对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况。使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪。当疑似异常的场景连续出现时才判定为异常情况。
步骤六、异常检测结果分析与处理。无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作。这里对应的就是接受到异常信号的输入之后进行及时的警报,通知相关人员前来查看处理异常情况。如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中,即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程,常驻的循环中达到实时多视角异常监测的目的。
本发明的有益效果是:该方法将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路,经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性,通过多视角监控下丰富的信息进行高效准确的实时异常监控,实用性好。
具体的,第一,通过两条相对独立的信息处理通路分别对视频画面监控信息以及声音信息进行监测,在视频信息被遮挡或不清晰的情况下使用声音信息进行弥补,在声音不够直观的情况下视频画面提供了更加直观丰富的信息流。二者互相结合相比之前仅使用视频信息的异常监测方法,在视频信息不够充分的情况下效果提升明显。第二,通过提取声音信号的无交叠统计均等梅尔特征构建异常声音识别算法、使用基于光流幅度直方图特征提取和跟踪的视频异常检测算法这两种算法在计算复杂度上都比较友好,能够在保证实时监测的前提下提供较好的监测效果。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于音频视频监控结合的异常监测方法的流程图。
具体实施方式
参照图1。本发明基于音频视频监控结合的异常监测方法,具体来说面向复杂的安防监控场景,该方法通过两个独立的基于音频的异常监测支路和基于视频画面的异常监测支路进行多视角的异常监测。由于两个支路同时工作,而且分别利用了不同源的输入信息所以两个支路之间起到互补的作用,最终达到较好的异常监测效果,提升了异常监测系统在复杂场景下的鲁棒性。下面将详细的介绍具体的实现过程:
步骤一、监控安防设备实时采集信息的预处理。设定监测系统用于监测流程的音视频截断时长T=30秒,当前时刻t。从安防探头以及拾音器实时采集到的视频画面信息以及音频信息首先经过编码后存储到特定的信息存储目录中。然后截取t-T时刻到当前时刻的共计T秒视频段以及音频段。这T秒的视频段和音频段将分别作为两个异常检测支路的输入信息。
步骤二、声音信号的预处理以及无交叠统计均等梅尔特征的提取。声音信号的预处理采用端点检测方法,提取输入信号中的声音事件。其基本原理是基于信号的短时平均幅度和短时过零率特征,设置幅度和过零率阈值,利用双门限策略检测出信号中有效的声音事件。首先确定声音事件的起始点:将不同dB数对应的幅度值和过零率阈值设置为低门限一,若当前帧的幅度超过幅度阈值,或者过零率超过阈值,则确定当前帧为声音事件起点,此外,若当前帧数据的平均幅度与上一帧数据相比突变3dB以上,确定当前帧为声音事件的起始位置。然后确定声音事件的结束点:将不同dB数对应的幅度值和过零率阈值设置为低门限二,若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值,则代表声音事件结束。此外若静音段的长度足够长,也代表声音事件结束。检测出完整的声音事件之后将其进行存储,为后续算法使用做准备。
对于一个完整的声音事件x(n)需要经过以下处理步骤进行MFCC特征提取。首先进行预加重,将x(n)通过一个高通滤波器,使用的公式如下:
H(Z)=1-μz-1, (1)
其中μ代表一个常数,它的值介于0.9-1.0之间,通常取值0.97。z是转换到频域之后的输入信号,H(Z)代表经过高通滤波之后得到的频域信号。预加重的目的是提升高频部分,使得信号频谱变得平坦,便于用同样的信噪比在信号的整个频带中求取频谱。然后进行分帧,利用声音信号的短时平稳性,将x(n)的N个采样点形成一个集合进行处理,帧长通常设置成256或512个点,对于采样频率为16kHz的信号,对应的时间长度为16ms和32ms。为了避免相邻两帧的变化过大,因此会在会在两相邻帧之间设置一段重叠区域,此重叠区域包含了M个取样点,通常M的取值约为N的或者
接下来对声音事件x(n)中的每一帧进行处理,首先使用汉明窗与每帧的信号相乘,通过加窗操作来增加帧左右两端的连续性。汉明窗的形式由如下公式给出:
不同的a值会产生不同的汉明窗,一般情况下取值为0.46。然后对相乘之后的帧进行DFT变换,接着使用无交叠统计均等矩形滤波器组进行Mel滤波。该滤波器组中各矩形子滤波器的幅度响应Ai由以下公式给出:
进一步,异常声音信号x(n)的能量特征mi和能量差分特征Δi可以通过以下公式计算:
步骤三、基于无交叠统计均等梅尔特征的音频信号异常分类与分析。在步骤二中获取到了声音事件x(n)的能量特征和能量差分特征为了进一步提升异常声音信号特征的分类鉴别能力,同时避免某种特征在分类过程中出现占主导的情况,采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合,形成最终用于分类的信号特征。具体的融通和过程如下:
首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声、正常声音这五种类型声音的声音样本库,统计所有样本的能量特征和能量差分特征,分别获得能量特征和能量差分特征的最大值与最小值然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理。
其中权重α1,α2根据能量特征和能量差分特征对于异常声音的分类能力确定,且满足α1+α2=1。
获取到输入信号声音事件x(n)最终的特征向量后将其输入到训练好的SVM二分类模型中进行分类,识别出输入声音信号属于正常状态的声音或是异常的声音。如果是正常状态的话就继续执行步骤四,反之则跳转到步骤六进行异常处理。
步骤四、视频画面前景区域的提取以及光流幅度直方图特征的构建。对于输入到检测支路中的视频段,首先通过前景提取算法提取出视频帧前景图。前景检测算法就是把图像中运动的部分和背景区分开来,其中非背景的部分就是前景层。一张图片中的任何一点像素,都是由前景层和背景层合成得到的,若前景在其中所占权重为a,那么前景检测问题可由如下公式定义:
Ic=aFc+(1-a)Bc, (9)
其中Ic,Fc,Bc分别代表视频帧上一点的合成色、前景和背景。这里使用KNNmatting算法来提取出视频帧中的前景图,然后将前景图分成一个个大小相同不重合的区域,统计每个区域前景像素点之和。由于在视频帧前景图中背景被抑制成黑色,因此可以通过设置一个指定的阈值来过滤掉大部分的背景区域。如果每个区域前景像素点之和大于阈值,就将其设置为前景区域,从而得到视频帧中所有的前景区域。
分离出视频画面的前景区域之后,通过计算获取相应的光流信息。将数据集合中所有的光流幅度按照从小到大进行排序,然后去掉最大的5%之后取剩下的最大光流幅度作为阈值δ,接着将光流幅度分为n个区间,第i个区间为进一步提取光流幅度直方图特征的时候,设定每个区间初始特征值为零,然后遍历区域内所有像素点的光流矢量,计算光流矢量幅度,找到其对应的光流幅度直方图特征区间。区间特征值大小为最终落入该区间光流矢量的个数,最后将得到的光流幅度直方图归一化以满足特征的尺度不变性,从而得到能反映区域内运动特征分布情况的光流幅度直方图特征。得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征。
步骤五、基于光流幅度直方图特征、混合高斯分类和跟踪的视频异常检测。这里使用混合高斯模型来判断相应时空视频块是否出现异常。混合高斯模型就是指对样本的概率分布进行估计,而估计时所采用的训练模型时多个高斯模型的加权和。每个高斯模型就代表了一个类,对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率,接着选取概率最大的类作为判决结果。混合高斯模型定义由如下公式给出:
其中Θ={λ1,…,λk,μ1,…,μk,Σ1,…,Σk}是高斯混合分类模型的参数,K是模型的格式,λk是第k个高斯模型的权重。μk和Σk各自代表均值和协方差。N(·)代表多元高斯分布。这些参数都可以使用最大似然估计方法来进行迭代优化。利用混合高斯模型方法可以自适应的调整决策面进行分类,从而更好的识别视频中的正常特征与异常情况。
首先使用准备好的训练数据去训练混合高斯模型,然后在使用的过程中,被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中,得到该特征的异常分数,然后通过分数判定输入是否包含异常。但是由于噪声和光照的影响,会导致出现异常的误判情况,所以这里还加入了额外的异常跟踪过程,对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况。这里使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪。当疑似异常的场景连续出现的时候才判定为异常情况。这样可以有效的减少因简单遮挡、噪声等干扰带来的误检情况。
步骤六、异常检测结果分析与处理。无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作。这里对应的就是接受到异常信号的输入之后进行及时的警报,通知相关人员前来查看处理异常情况。如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中,即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程,常驻的循环中达到实时多视角异常监测的目的。
Claims (1)
1.一种基于音频视频监控结合的异常监测方法,其特征在于包括以下步骤:
步骤一、设定用于监测流程的音视频截断时长T,当前时刻t;从安防探头以及拾音器实时采集到的视频画面信息以及音频信息,经过编码后存储到信息存储目录中;然后截取t-T时刻到当前时刻t共计T秒视频段以及音频段;这T秒的视频段和音频段分别作为两个异常检测支路的输入信息;
步骤二、采用端点检测方法对音频信号进行预处理,提取输入信号中的声音事件;首先确定声音事件的起始点:将不同dB数对应的幅度值和过零率阈值设置为低门限一,若当前帧的幅度超过幅度阈值,或者过零率超过阈值,则确定当前帧为声音事件起点,此外,若当前帧数据的平均幅度与上一帧数据相比突变3dB以上,确定当前帧为声音事件的起始位置;然后确定声音事件的结束点:将不同dB数对应的幅度值和过零率阈值设置为低门限二,若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值,则代表声音事件结束;检测出完整的声音事件之后将其进行存储;
对于一个完整的声音事件x(n)进行MFCC特征提取;首先进行预加重,将x(n)通过一个高通滤波器,使用的公式如下:
H(Z)=1-μz-1, (1)
其中,μ是一个常数,取值0.9-1.0;z是转换到频域之后的输入信号,H(Z)代表经过高通滤波之后得到的频域信号;然后进行分帧,利用声音信号的短时平稳性,将x(n)的N个采样点形成一个集合进行处理,为了避免相邻两帧的变化过大,需在两相邻帧之间设置一段重叠区域,此重叠区域包含了M个取样点,M的取值为N的或者
接下来对声音事件x(n)中的每一帧进行处理,首先使用汉明窗与每帧的信号相乘,通过加窗操作增加帧左右两端的连续性;汉明窗的形式由如下公式给出:
不同的a值会产生不同的汉明窗,a取值为0.46;然后对相乘之后的帧进行DFT变换,接着使用无交叠统计均等矩形滤波器组进行Mel滤波;该滤波器组中各矩形子滤波器的幅度响应Ai由以下公式给出:
其中,M为矩形滤波器总个数,i=1,...M,为第i个矩形滤波器的频率点;对滤波后的信号取对数能量变换后再进行DCT变换以及求倒谱运算得到第j帧信号在第i个子滤波器上的输出幅度 即为该帧信号的能量特征;
进一步,异常声音信号x(n)的能量特征mi和能量差分特征Δi可以通过以下公式计算:
步骤三、为了进一步提升异常声音信号特征的分类鉴别能力,同时避免某种特征在分类过程中出现占主导的情况,采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合,形成最终用于分类的信号特征;具体的融通和过程如下:
首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声和正常声音这五种类型声音的声音样本库,统计所有样本的能量特征和能量差分特征,分别获得能量特征和能量差分特征的最大值与最小值然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理;
其中,权重α1,α2根据能量特征和能量差分特征对于异常声音的分类能力确定,且满足α1+α2=1;
获取到输入信号声音事件x(n)最终的特征向量后,将其输入到训练好的SVM二分类模型中进行分类,识别出输入声音信号属于正常状态的声音或是异常的声音;如果是正常状态的话就继续执行步骤四,反之则跳转到步骤六进行异常处理;
步骤四、对于输入到检测支路中的视频段,首先通过前景提取算法提取出视频帧前景图;若前景在其中所占权重为a,那么前景检测问题由如下公式定义:
Ic=aFc+(1-a)Bc, (9)
其中,Ic,Fc,Bc分别代表视频帧上一点的合成色、前景和背景;采用KNN matting算法提取出视频帧中的前景图,然后将前景图分成一个个大小相同不重合的区域,统计每个区域前景像素点之和;由于在视频帧前景图中背景被抑制成黑色,因此通过设置一个指定的阈值来过滤掉大部分的背景区域;如果每个区域前景像素点之和大于阈值,就将其设置为前景区域,从而得到视频帧中所有的前景区域;
分离出视频画面的前景区域之后,通过计算获取相应的光流信息;将数据集合中所有的光流幅度按照从小到大进行排序,然后去掉最大的5%之后取剩下的最大光流幅度作为阈值δ,接着将光流幅度分为n个区间,第i个区间为进一步提取光流幅度直方图特征的时候,设定每个区间初始特征值为零,然后遍历区域内所有像素点的光流矢量,计算光流矢量幅度,找到其对应的光流幅度直方图特征区间;区间特征值大小为最终落入该区间光流矢量的个数,最后将得到的光流幅度直方图归一化以满足特征的尺度不变性,从而得到能反映区域内运动特征分布情况的光流幅度直方图特征;得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征;
步骤五、采用混合高斯模型判断相应时空视频块是否出现异常;混合高斯模型就是指对样本的概率分布进行估计,而估计时所采用的训练模型是多个高斯模型的加权和;每个高斯模型代表一个类,对样本中的数据分别在几个高斯模型上投影,分别得到在各个类上的概率,接着选取概率最大的类作为判决结果;混合高斯模型定义由如下公式给出:
其中,Θ={λ1,...,λk,μ1,...,μk,∑1,...,∑k}是高斯混合分类模型的参数,K是模型的格式,λk是第k个高斯模型的权重;μk和∑k各自代表均值和协方差;N(·)代表多元高斯分布;
使用准备好的训练数据训练混合高斯模型,在使用过程中,被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中,得到该特征的异常分数,然后通过分数判定输入是否包含异常;但是由于噪声和光照的影响,会导致出现异常的误判情况,所以加入了额外的异常跟踪过程,对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况;使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪;当疑似异常的场景连续出现时才判定为异常情况;
步骤六、异常检测结果分析与处理;无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作;这里对应的就是接受到异常信号的输入之后进行及时的警报,通知相关人员前来查看处理异常情况;如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中,即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程,常驻的循环中达到实时多视角异常监测的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797226.1A CN110519637B (zh) | 2019-08-27 | 2019-08-27 | 基于音频视频监控结合的异常监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797226.1A CN110519637B (zh) | 2019-08-27 | 2019-08-27 | 基于音频视频监控结合的异常监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110519637A CN110519637A (zh) | 2019-11-29 |
CN110519637B true CN110519637B (zh) | 2021-05-18 |
Family
ID=68627228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910797226.1A Active CN110519637B (zh) | 2019-08-27 | 2019-08-27 | 基于音频视频监控结合的异常监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110519637B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261243B (zh) * | 2020-01-10 | 2023-04-21 | 华南理工大学 | 一种基于相对熵指标检测复杂生物系统相变临界点的方法 |
CN113836966A (zh) * | 2020-06-08 | 2021-12-24 | 中国移动通信有限公司研究院 | 视频检测方法、装置、设备及存储介质 |
CN112188427A (zh) * | 2020-08-19 | 2021-01-05 | 天津大学 | 一种公共场所群体异常事件物联传感系统和方法 |
CN112954408B (zh) * | 2021-01-25 | 2023-05-12 | 中央广播电视总台 | 超高清视频信号的异常监测方法及相应装置 |
CN112466290B (zh) * | 2021-02-02 | 2021-05-28 | 鹏城实验室 | 异常声音检测模型的训练方法、装置和计算机存储介质 |
CN114154538B (zh) * | 2021-11-26 | 2022-09-02 | 哈尔滨工程大学 | 一种基于相位编码和设备信息的工业声音异常检测系统 |
CN114013957B (zh) * | 2021-11-29 | 2023-03-17 | 天津电子信息职业技术学院 | 基于声音信号的输送带纵向撕裂检测方法及相关设备 |
CN114885189A (zh) * | 2022-04-14 | 2022-08-09 | 深圳创维-Rgb电子有限公司 | 香氛开启的控制方法、装置、设备及存储介质 |
CN115240142B (zh) * | 2022-07-28 | 2023-07-28 | 杭州海宴科技有限公司 | 基于跨媒体的室外重点场所人群异常行为预警系统和方法 |
CN115995234A (zh) * | 2022-08-25 | 2023-04-21 | 维沃移动通信有限公司 | 音频降噪方法、装置、电子设备及可读存储介质 |
CN116630866B (zh) * | 2023-07-24 | 2023-10-13 | 中电信数字城市科技有限公司 | 音视频雷达融合的异常事件监控方法、装置、设备及介质 |
CN116662729B (zh) * | 2023-08-02 | 2023-10-31 | 山东鲁玻玻璃科技有限公司 | 一种低硼硅玻璃上料控制数据智能监测方法 |
CN117422888B (zh) * | 2023-09-13 | 2024-05-10 | 长龙(杭州)航空维修工程有限公司 | 一种飞机性能评估方法及系统 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364408A (zh) * | 2008-10-07 | 2009-02-11 | 西安成峰科技有限公司 | 一种声像联合的监控方法及系统 |
CN101753992A (zh) * | 2008-12-17 | 2010-06-23 | 深圳市先进智能技术研究所 | 一种多模态智能监控系统和方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4471362B2 (ja) * | 2004-08-25 | 2010-06-02 | パナソニック株式会社 | 監視カメラ装置 |
CN102163427B (zh) * | 2010-12-20 | 2012-09-12 | 北京邮电大学 | 一种基于环境模型的音频异常事件检测方法 |
KR101932535B1 (ko) * | 2012-08-27 | 2018-12-27 | 한화테크윈 주식회사 | 실내 감시 시스템 및 실내 감시 방법 |
CN103198605A (zh) * | 2013-03-11 | 2013-07-10 | 成都百威讯科技有限责任公司 | 室内突发异常事件报警系统 |
CN104144328B (zh) * | 2014-07-31 | 2017-06-16 | 中国人民解放军63908部队 | 一种智能视频监控方法 |
CN105205728B (zh) * | 2015-08-26 | 2019-06-28 | 国家电网公司 | 一种面向电力机房监控的音视频融合检测方法 |
CN108647649B (zh) * | 2018-05-14 | 2021-10-01 | 中国科学技术大学 | 一种视频中异常行为的检测方法 |
-
2019
- 2019-08-27 CN CN201910797226.1A patent/CN110519637B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364408A (zh) * | 2008-10-07 | 2009-02-11 | 西安成峰科技有限公司 | 一种声像联合的监控方法及系统 |
CN101753992A (zh) * | 2008-12-17 | 2010-06-23 | 深圳市先进智能技术研究所 | 一种多模态智能监控系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110519637A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110519637B (zh) | 基于音频视频监控结合的异常监测方法 | |
Barmpoutis et al. | Smoke detection using spatio-temporal analysis, motion modeling and dynamic texture recognition | |
KR101588995B1 (ko) | 대상 검출 장치 및 대상 검출 방법 | |
Calderara et al. | Smoke detection in video surveillance: a MoG model in the wavelet domain | |
CN111062273B (zh) | 一种遗留物品追溯检测与报警方法 | |
CN110598560A (zh) | 基于神经网络增强的夜间监控识别方法和系统 | |
CN110569755B (zh) | 一种基于视频的智能积水检测方法 | |
CN113313037A (zh) | 一种基于自注意力机制的生成对抗网络视频异常检测方法 | |
Balasundaram et al. | Abnormality identification in video surveillance system using DCT | |
CN108830882B (zh) | 视频异常行为实时检测方法 | |
CN113963301A (zh) | 一种时空特征融合的视频火灾烟雾探测方法及系统 | |
CN107274912B (zh) | 一种手机录音的设备来源辨识方法 | |
Cristani et al. | On-line adaptive background modelling for audio surveillance | |
CN111476102A (zh) | 一种安全防护方法、中控设备及计算机存储介质 | |
CN113707175A (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
CN110502995B (zh) | 基于细微面部动作识别的驾驶员打哈欠检测方法 | |
Dedeoglu et al. | Surveillance using both video and audio | |
Arslan | A new approach to real time impulsive sound detection for surveillance applications | |
Frejlichowski et al. | Extraction of the foreground regions by means of the adaptive background modelling based on various colour components for a visual surveillance system | |
Sánchez-García et al. | A novel image-processing based method for the automatic detection, extraction and characterization of marine mammal tonal calls | |
Zhao et al. | Research on vehicle detection and vehicle type recognition under cloud computer vision | |
CN113158720A (zh) | 一种基于双模特征和注意力机制的视频摘要方法及装置 | |
Hamici et al. | Pavement Images Denoising with Cracks Detection and Classification Using 2D Discrete Wavelet Transform and Savitzky-Golay Filters | |
Arabnezhad et al. | Urban acoustic scene classification using binaural wavelet scattering and random subspace discrimination method | |
Libal et al. | Detecting drones at an entrance to a beehive based on audio signals and autoencoder neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |