CN110519637B - 基于音频视频监控结合的异常监测方法 - Google Patents

基于音频视频监控结合的异常监测方法 Download PDF

Info

Publication number
CN110519637B
CN110519637B CN201910797226.1A CN201910797226A CN110519637B CN 110519637 B CN110519637 B CN 110519637B CN 201910797226 A CN201910797226 A CN 201910797226A CN 110519637 B CN110519637 B CN 110519637B
Authority
CN
China
Prior art keywords
abnormal
sound
video
signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910797226.1A
Other languages
English (en)
Other versions
CN110519637A (zh
Inventor
李学龙
王�琦
赵致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910797226.1A priority Critical patent/CN110519637B/zh
Publication of CN110519637A publication Critical patent/CN110519637A/zh
Application granted granted Critical
Publication of CN110519637B publication Critical patent/CN110519637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于音频视频监控结合的异常监测方法,用于解决现有异常监测方法监测信息来源单一造成实用性差的技术问题。技术方案是将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路,经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性,通过多视角监控下丰富的信息进行高效准确的实时异常监控,实用性好。

Description

基于音频视频监控结合的异常监测方法
技术领域
本发明涉及一种异常监测方法,特别涉及一种基于音频视频监控结合的异常监测方法。
背景技术
文献“基于监控视频的异常事件识别,光学仪器,2019,Vol41(1),p29-36”公开了一种基于监控视频的异常事件监测与识别的方法。该方法首先采用背景建模的混合高斯算法提取前景目标,然后使用金字塔迭代的L-K特征点跟踪算法得到前景的光流运动信息,并通过分析前景的面积比例、速度方差、整体熵判断视频中是否有异常事件的发生。通过利用爆炸、人群短时聚集和分散等异常事件做仿真实验结果表明其提出的模型可以准确的提取前景目标区域,并可以快速、精准的判断监控视频中的异常事件,可以为管理部门及时发现和控制异常事件提供有效的帮助。文献所述方法只对监控的视频画面信息进行了利用,完全抛弃了安防监控的声音信息,监测信息来源单一。由于光线传播的特性导致监控视频画面存在比较多的盲区,而且容易受到光线环境以及遮挡物的影响。诸如夜晚、雨天、雾天一类的场景会对视频监控采集到的信息造成极大的不良影响。这些因素都会直接导致异常监测质量的下降,影响预警效果。
发明内容
为了克服现有异常监测方法监测信息来源单一造成实用性差的不足,本发明提供一种基于音频视频监控结合的异常监测方法。该方法将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路,经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性,通过多视角监控下丰富的信息进行高效准确的实时异常监控,实用性好。
本发明解决其技术问题所采用的技术方案:一种基于音频视频监控结合的异常监测方法,其特点是包括以下步骤:
步骤一、设定用于监测流程的音视频截断时长T,当前时刻t。从安防探头以及拾音器实时采集到的视频画面信息以及音频信息,经过编码后存储到信息存储目录中。然后截取t-T时刻到当前时刻t共计T秒视频段以及音频段。这T秒的视频段和音频段分别作为两个异常检测支路的输入信息。
步骤二、采用端点检测方法对音频信号进行预处理,提取输入信号中的声音事件。首先确定声音事件的起始点:将不同dB数对应的幅度值和过零率阈值设置为低门限一,若当前帧的幅度超过幅度阈值,或者过零率超过阈值,则确定当前帧为声音事件起点,此外,若当前帧数据的平均幅度与上一帧数据相比突变3dB以上,确定当前帧为声音事件的起始位置。然后确定声音事件的结束点:将不同dB数对应的幅度值和过零率阈值设置为低门限二,若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值,则代表声音事件结束。检测出完整的声音事件之后将其进行存储。
对于一个完整的声音事件x(n)进行MFCC特征提取。首先进行预加重,将x(n)通过一个高通滤波器,使用的公式如下:
H(Z)=1-μz-1, (1)
其中,μ是一个常数,取值0.9-1.0。z是转换到频域之后的输入信号,H(Z)代表经过高通滤波之后得到的频域信号。然后进行分帧,利用声音信号的短时平稳性,将x(n)的N个采样点形成一个集合进行处理,为了避免相邻两帧的变化过大,需在两相邻帧之间设置一段重叠区域,此重叠区域包含了M个取样点,M的取值为N的
Figure GDA0002951267440000021
或者
Figure GDA0002951267440000022
接下来对声音事件x(n)中的每一帧进行处理,首先使用汉明窗与每帧的信号相乘,通过加窗操作增加帧左右两端的连续性。汉明窗的形式由如下公式给出:
Figure GDA0002951267440000023
不同的a值会产生不同的汉明窗,a取值为0.46。然后对相乘之后的帧进行DFT变换,接着使用无交叠统计均等矩形滤波器组进行Mel滤波。该滤波器组中各矩形子滤波器的幅度响应Ai由以下公式给出:
Figure GDA0002951267440000024
其中,M为矩形滤波器总个数,i=1,…M,
Figure GDA0002951267440000025
为第i个矩形滤波器的频率点。对滤波后的信号取对数能量变换后再进行DCT变换以及求倒谱运算得到第j帧信号在第i个子滤波器上的输出幅度
Figure GDA0002951267440000026
i=1,2,…,M。
Figure GDA0002951267440000027
即为该帧信号的能量特征。
获取所有帧的能量特征之后,利用前后帧的能量特征差分计算当前帧的能量差分特征
Figure GDA0002951267440000028
即:
Figure GDA0002951267440000029
进一步,异常声音信号x(n)的能量特征mi和能量差分特征Δi通过以下公式计算:
Figure GDA0002951267440000031
最终,信号x(n)的能量特征表示为向量
Figure GDA0002951267440000032
能量差分特征表示为向量
Figure GDA0002951267440000033
步骤三、为了进一步提升异常声音信号特征的分类鉴别能力,同时避免某种特征在分类过程中出现占主导的情况,采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合,形成最终用于分类的信号特征。具体的融通和过程如下:
首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声和正常声音这五种类型声音的声音样本库,统计所有样本的能量特征和能量差分特征,分别获得能量特征和能量差分特征的最大值
Figure GDA0002951267440000034
与最小值
Figure GDA0002951267440000035
然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理。
Figure GDA0002951267440000036
Figure GDA0002951267440000037
其中,
Figure GDA0002951267440000038
分别表示经过规范化之后的信号能量特征向量以及能量差分特征向量。然后再将规范化后的两个特征向量加权后进行特征融合,得到输入信号声音事件x(n)最终的特征向量
Figure GDA0002951267440000039
具体的计算公式如下:
Figure GDA00029512674400000310
其中,权重α12根据能量特征和能量差分特征对于异常声音的分类能力确定,且满足α12=1。
获取到输入信号声音事件x(n)最终的特征向量
Figure GDA00029512674400000311
后,将其输入到训练好的SVM二分类模型中进行分类,识别出输入声音信号属于正常状态的声音或是异常的声音。如果是正常状态的话就继续执行步骤四,反之则跳转到步骤六进行异常处理。
步骤四、对于输入到检测支路中的视频段,首先通过前景提取算法提取出视频帧前景图。若前景在其中所占权重为a,那么前景检测问题由如下公式定义:
Ic=aFc+(1-a)Bc, (9)
其中,Ic,Fc,Bc分别代表视频帧上一点的合成色、前景和背景。采用KNN matting算法提取出视频帧中的前景图,然后将前景图分成一个个大小相同不重合的区域,统计每个区域前景像素点之和。由于在视频帧前景图中背景被抑制成黑色,因此通过设置一个指定的阈值来过滤掉大部分的背景区域。如果每个区域前景像素点之和大于阈值,就将其设置为前景区域,从而得到视频帧中所有的前景区域。
分离出视频画面的前景区域之后,通过计算获取相应的光流信息。将数据集合中所有的光流幅度按照从小到大进行排序,然后去掉最大的5%之后取剩下的最大光流幅度作为阈值δ,接着将光流幅度分为n个区间,第i个区间为
Figure GDA0002951267440000041
进一步提取光流幅度直方图特征的时候,设定每个区间初始特征值为零,然后遍历区域内所有像素点的光流矢量,计算光流矢量幅度,找到其对应的光流幅度直方图特征区间。区间特征值大小为最终落入该区间光流矢量的个数,最后将得到的光流幅度直方图归一化以满足特征的尺度不变性,从而得到能反映区域内运动特征分布情况的光流幅度直方图特征。得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征。
步骤五、采用混合高斯模型判断相应时空视频块是否出现异常。混合高斯模型就是指对样本的概率分布进行估计,而估计时所采用的训练模型是多个高斯模型的加权和。每个高斯模型代表一个类,对样本中的数据分别在几个高斯模型上投影,分别得到在各个类上的概率,接着选取概率最大的类作为判决结果。混合高斯模型定义由如下公式给出:
Figure GDA0002951267440000042
其中,Θ={λ1,…,λk1,…,μk1,…,Σk}是高斯混合分类模型的参数,K是模型的格式,λk是第k个高斯模型的权重。μk和Σk各自代表均值和协方差。N(·)代表多元高斯分布。
使用准备好的训练数据训练混合高斯模型,在使用过程中,被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中,得到该特征的异常分数,然后通过分数判定输入是否包含异常。但是由于噪声和光照的影响,会导致出现异常的误判情况,所以加入了额外的异常跟踪过程,对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况。使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪。当疑似异常的场景连续出现时才判定为异常情况。
步骤六、异常检测结果分析与处理。无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作。这里对应的就是接受到异常信号的输入之后进行及时的警报,通知相关人员前来查看处理异常情况。如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中,即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程,常驻的循环中达到实时多视角异常监测的目的。
本发明的有益效果是:该方法将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路,经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性,通过多视角监控下丰富的信息进行高效准确的实时异常监控,实用性好。
具体的,第一,通过两条相对独立的信息处理通路分别对视频画面监控信息以及声音信息进行监测,在视频信息被遮挡或不清晰的情况下使用声音信息进行弥补,在声音不够直观的情况下视频画面提供了更加直观丰富的信息流。二者互相结合相比之前仅使用视频信息的异常监测方法,在视频信息不够充分的情况下效果提升明显。第二,通过提取声音信号的无交叠统计均等梅尔特征构建异常声音识别算法、使用基于光流幅度直方图特征提取和跟踪的视频异常检测算法这两种算法在计算复杂度上都比较友好,能够在保证实时监测的前提下提供较好的监测效果。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于音频视频监控结合的异常监测方法的流程图。
具体实施方式
参照图1。本发明基于音频视频监控结合的异常监测方法,具体来说面向复杂的安防监控场景,该方法通过两个独立的基于音频的异常监测支路和基于视频画面的异常监测支路进行多视角的异常监测。由于两个支路同时工作,而且分别利用了不同源的输入信息所以两个支路之间起到互补的作用,最终达到较好的异常监测效果,提升了异常监测系统在复杂场景下的鲁棒性。下面将详细的介绍具体的实现过程:
步骤一、监控安防设备实时采集信息的预处理。设定监测系统用于监测流程的音视频截断时长T=30秒,当前时刻t。从安防探头以及拾音器实时采集到的视频画面信息以及音频信息首先经过编码后存储到特定的信息存储目录中。然后截取t-T时刻到当前时刻的共计T秒视频段以及音频段。这T秒的视频段和音频段将分别作为两个异常检测支路的输入信息。
步骤二、声音信号的预处理以及无交叠统计均等梅尔特征的提取。声音信号的预处理采用端点检测方法,提取输入信号中的声音事件。其基本原理是基于信号的短时平均幅度和短时过零率特征,设置幅度和过零率阈值,利用双门限策略检测出信号中有效的声音事件。首先确定声音事件的起始点:将不同dB数对应的幅度值和过零率阈值设置为低门限一,若当前帧的幅度超过幅度阈值,或者过零率超过阈值,则确定当前帧为声音事件起点,此外,若当前帧数据的平均幅度与上一帧数据相比突变3dB以上,确定当前帧为声音事件的起始位置。然后确定声音事件的结束点:将不同dB数对应的幅度值和过零率阈值设置为低门限二,若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值,则代表声音事件结束。此外若静音段的长度足够长,也代表声音事件结束。检测出完整的声音事件之后将其进行存储,为后续算法使用做准备。
对于一个完整的声音事件x(n)需要经过以下处理步骤进行MFCC特征提取。首先进行预加重,将x(n)通过一个高通滤波器,使用的公式如下:
H(Z)=1-μz-1, (1)
其中μ代表一个常数,它的值介于0.9-1.0之间,通常取值0.97。z是转换到频域之后的输入信号,H(Z)代表经过高通滤波之后得到的频域信号。预加重的目的是提升高频部分,使得信号频谱变得平坦,便于用同样的信噪比在信号的整个频带中求取频谱。然后进行分帧,利用声音信号的短时平稳性,将x(n)的N个采样点形成一个集合进行处理,帧长通常设置成256或512个点,对于采样频率为16kHz的信号,对应的时间长度为16ms和32ms。为了避免相邻两帧的变化过大,因此会在会在两相邻帧之间设置一段重叠区域,此重叠区域包含了M个取样点,通常M的取值约为N的
Figure GDA0002951267440000061
或者
Figure GDA0002951267440000062
接下来对声音事件x(n)中的每一帧进行处理,首先使用汉明窗与每帧的信号相乘,通过加窗操作来增加帧左右两端的连续性。汉明窗的形式由如下公式给出:
Figure GDA0002951267440000063
不同的a值会产生不同的汉明窗,一般情况下取值为0.46。然后对相乘之后的帧进行DFT变换,接着使用无交叠统计均等矩形滤波器组进行Mel滤波。该滤波器组中各矩形子滤波器的幅度响应Ai由以下公式给出:
Figure GDA0002951267440000064
其中M为矩形滤波器总个数,i=1,…M,
Figure GDA0002951267440000065
为第i个矩形滤波器的频率点。对滤波后的信号取对数能量变换后再进行DCT变换以及求倒谱运算得到第j帧信号在第i个子滤波器上的输出幅度
Figure GDA0002951267440000071
Figure GDA0002951267440000072
即为该帧信号的能量特征。
获取所有帧的能量特征之后,利用前后帧的能量特征差分计算当前帧的能量差分特征
Figure GDA0002951267440000073
即:
Figure GDA0002951267440000074
进一步,异常声音信号x(n)的能量特征mi和能量差分特征Δi可以通过以下公式计算:
Figure GDA0002951267440000075
最终,信号x(n)的能量特征可以表示为向量
Figure GDA0002951267440000076
能量差分特征可以表示为向量
Figure GDA0002951267440000077
步骤三、基于无交叠统计均等梅尔特征的音频信号异常分类与分析。在步骤二中获取到了声音事件x(n)的能量特征
Figure GDA0002951267440000078
和能量差分特征
Figure GDA0002951267440000079
为了进一步提升异常声音信号特征的分类鉴别能力,同时避免某种特征在分类过程中出现占主导的情况,采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合,形成最终用于分类的信号特征。具体的融通和过程如下:
首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声、正常声音这五种类型声音的声音样本库,统计所有样本的能量特征和能量差分特征,分别获得能量特征和能量差分特征的最大值
Figure GDA00029512674400000710
与最小值
Figure GDA00029512674400000711
然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理。
Figure GDA00029512674400000712
Figure GDA00029512674400000713
其中
Figure GDA00029512674400000714
分别表示经过规范化之后的信号能量特征向量以及能量差分特征向量。然后再将规范化后的两个特征向量按照一定的权重加权后进行特征融合,得到输入信号声音事件x(n)最终的特征向量
Figure GDA00029512674400000715
具体的计算公式如下:
Figure GDA00029512674400000716
其中权重α12根据能量特征和能量差分特征对于异常声音的分类能力确定,且满足α12=1。
获取到输入信号声音事件x(n)最终的特征向量
Figure GDA0002951267440000081
后将其输入到训练好的SVM二分类模型中进行分类,识别出输入声音信号属于正常状态的声音或是异常的声音。如果是正常状态的话就继续执行步骤四,反之则跳转到步骤六进行异常处理。
步骤四、视频画面前景区域的提取以及光流幅度直方图特征的构建。对于输入到检测支路中的视频段,首先通过前景提取算法提取出视频帧前景图。前景检测算法就是把图像中运动的部分和背景区分开来,其中非背景的部分就是前景层。一张图片中的任何一点像素,都是由前景层和背景层合成得到的,若前景在其中所占权重为a,那么前景检测问题可由如下公式定义:
Ic=aFc+(1-a)Bc, (9)
其中Ic,Fc,Bc分别代表视频帧上一点的合成色、前景和背景。这里使用KNNmatting算法来提取出视频帧中的前景图,然后将前景图分成一个个大小相同不重合的区域,统计每个区域前景像素点之和。由于在视频帧前景图中背景被抑制成黑色,因此可以通过设置一个指定的阈值来过滤掉大部分的背景区域。如果每个区域前景像素点之和大于阈值,就将其设置为前景区域,从而得到视频帧中所有的前景区域。
分离出视频画面的前景区域之后,通过计算获取相应的光流信息。将数据集合中所有的光流幅度按照从小到大进行排序,然后去掉最大的5%之后取剩下的最大光流幅度作为阈值δ,接着将光流幅度分为n个区间,第i个区间为
Figure GDA0002951267440000082
进一步提取光流幅度直方图特征的时候,设定每个区间初始特征值为零,然后遍历区域内所有像素点的光流矢量,计算光流矢量幅度,找到其对应的光流幅度直方图特征区间。区间特征值大小为最终落入该区间光流矢量的个数,最后将得到的光流幅度直方图归一化以满足特征的尺度不变性,从而得到能反映区域内运动特征分布情况的光流幅度直方图特征。得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征。
步骤五、基于光流幅度直方图特征、混合高斯分类和跟踪的视频异常检测。这里使用混合高斯模型来判断相应时空视频块是否出现异常。混合高斯模型就是指对样本的概率分布进行估计,而估计时所采用的训练模型时多个高斯模型的加权和。每个高斯模型就代表了一个类,对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率,接着选取概率最大的类作为判决结果。混合高斯模型定义由如下公式给出:
Figure GDA0002951267440000091
其中Θ={λ1,…,λk1,…,μk1,…,Σk}是高斯混合分类模型的参数,K是模型的格式,λk是第k个高斯模型的权重。μk和Σk各自代表均值和协方差。N(·)代表多元高斯分布。这些参数都可以使用最大似然估计方法来进行迭代优化。利用混合高斯模型方法可以自适应的调整决策面进行分类,从而更好的识别视频中的正常特征与异常情况。
首先使用准备好的训练数据去训练混合高斯模型,然后在使用的过程中,被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中,得到该特征的异常分数,然后通过分数判定输入是否包含异常。但是由于噪声和光照的影响,会导致出现异常的误判情况,所以这里还加入了额外的异常跟踪过程,对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况。这里使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪。当疑似异常的场景连续出现的时候才判定为异常情况。这样可以有效的减少因简单遮挡、噪声等干扰带来的误检情况。
步骤六、异常检测结果分析与处理。无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作。这里对应的就是接受到异常信号的输入之后进行及时的警报,通知相关人员前来查看处理异常情况。如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中,即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程,常驻的循环中达到实时多视角异常监测的目的。

Claims (1)

1.一种基于音频视频监控结合的异常监测方法,其特征在于包括以下步骤:
步骤一、设定用于监测流程的音视频截断时长T,当前时刻t;从安防探头以及拾音器实时采集到的视频画面信息以及音频信息,经过编码后存储到信息存储目录中;然后截取t-T时刻到当前时刻t共计T秒视频段以及音频段;这T秒的视频段和音频段分别作为两个异常检测支路的输入信息;
步骤二、采用端点检测方法对音频信号进行预处理,提取输入信号中的声音事件;首先确定声音事件的起始点:将不同dB数对应的幅度值和过零率阈值设置为低门限一,若当前帧的幅度超过幅度阈值,或者过零率超过阈值,则确定当前帧为声音事件起点,此外,若当前帧数据的平均幅度与上一帧数据相比突变3dB以上,确定当前帧为声音事件的起始位置;然后确定声音事件的结束点:将不同dB数对应的幅度值和过零率阈值设置为低门限二,若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值,则代表声音事件结束;检测出完整的声音事件之后将其进行存储;
对于一个完整的声音事件x(n)进行MFCC特征提取;首先进行预加重,将x(n)通过一个高通滤波器,使用的公式如下:
H(Z)=1-μz-1, (1)
其中,μ是一个常数,取值0.9-1.0;z是转换到频域之后的输入信号,H(Z)代表经过高通滤波之后得到的频域信号;然后进行分帧,利用声音信号的短时平稳性,将x(n)的N个采样点形成一个集合进行处理,为了避免相邻两帧的变化过大,需在两相邻帧之间设置一段重叠区域,此重叠区域包含了M个取样点,M的取值为N的
Figure FDA0002951267430000011
或者
Figure FDA0002951267430000012
接下来对声音事件x(n)中的每一帧进行处理,首先使用汉明窗与每帧的信号相乘,通过加窗操作增加帧左右两端的连续性;汉明窗的形式由如下公式给出:
Figure FDA0002951267430000013
不同的a值会产生不同的汉明窗,a取值为0.46;然后对相乘之后的帧进行DFT变换,接着使用无交叠统计均等矩形滤波器组进行Mel滤波;该滤波器组中各矩形子滤波器的幅度响应Ai由以下公式给出:
Figure FDA0002951267430000014
其中,M为矩形滤波器总个数,i=1,...M,
Figure FDA0002951267430000015
为第i个矩形滤波器的频率点;对滤波后的信号取对数能量变换后再进行DCT变换以及求倒谱运算得到第j帧信号在第i个子滤波器上的输出幅度
Figure FDA0002951267430000021
Figure FDA0002951267430000022
即为该帧信号的能量特征;
获取所有帧的能量特征之后,利用前后帧的能量特征差分计算当前帧的能量差分特征
Figure FDA0002951267430000023
即:
Figure FDA0002951267430000024
进一步,异常声音信号x(n)的能量特征mi和能量差分特征Δi可以通过以下公式计算:
Figure FDA0002951267430000025
最终,信号x(n)的能量特征表示为向量
Figure FDA0002951267430000026
能量差分特征表示为向量
Figure FDA0002951267430000027
步骤三、为了进一步提升异常声音信号特征的分类鉴别能力,同时避免某种特征在分类过程中出现占主导的情况,采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合,形成最终用于分类的信号特征;具体的融通和过程如下:
首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声和正常声音这五种类型声音的声音样本库,统计所有样本的能量特征和能量差分特征,分别获得能量特征和能量差分特征的最大值
Figure FDA0002951267430000028
与最小值
Figure FDA0002951267430000029
然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理;
Figure FDA00029512674300000210
Figure FDA00029512674300000211
其中,
Figure FDA00029512674300000212
分别表示经过规范化之后的信号能量特征向量以及能量差分特征向量;然后再将规范化后的两个特征向量加权后进行特征融合,得到输入信号声音事件x(n)最终的特征向量
Figure FDA00029512674300000213
具体的计算公式如下:
Figure FDA00029512674300000214
其中,权重α1,α2根据能量特征和能量差分特征对于异常声音的分类能力确定,且满足α12=1;
获取到输入信号声音事件x(n)最终的特征向量
Figure FDA00029512674300000215
后,将其输入到训练好的SVM二分类模型中进行分类,识别出输入声音信号属于正常状态的声音或是异常的声音;如果是正常状态的话就继续执行步骤四,反之则跳转到步骤六进行异常处理;
步骤四、对于输入到检测支路中的视频段,首先通过前景提取算法提取出视频帧前景图;若前景在其中所占权重为a,那么前景检测问题由如下公式定义:
Ic=aFc+(1-a)Bc, (9)
其中,Ic,Fc,Bc分别代表视频帧上一点的合成色、前景和背景;采用KNN matting算法提取出视频帧中的前景图,然后将前景图分成一个个大小相同不重合的区域,统计每个区域前景像素点之和;由于在视频帧前景图中背景被抑制成黑色,因此通过设置一个指定的阈值来过滤掉大部分的背景区域;如果每个区域前景像素点之和大于阈值,就将其设置为前景区域,从而得到视频帧中所有的前景区域;
分离出视频画面的前景区域之后,通过计算获取相应的光流信息;将数据集合中所有的光流幅度按照从小到大进行排序,然后去掉最大的5%之后取剩下的最大光流幅度作为阈值δ,接着将光流幅度分为n个区间,第i个区间为
Figure FDA0002951267430000031
进一步提取光流幅度直方图特征的时候,设定每个区间初始特征值为零,然后遍历区域内所有像素点的光流矢量,计算光流矢量幅度,找到其对应的光流幅度直方图特征区间;区间特征值大小为最终落入该区间光流矢量的个数,最后将得到的光流幅度直方图归一化以满足特征的尺度不变性,从而得到能反映区域内运动特征分布情况的光流幅度直方图特征;得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征;
步骤五、采用混合高斯模型判断相应时空视频块是否出现异常;混合高斯模型就是指对样本的概率分布进行估计,而估计时所采用的训练模型是多个高斯模型的加权和;每个高斯模型代表一个类,对样本中的数据分别在几个高斯模型上投影,分别得到在各个类上的概率,接着选取概率最大的类作为判决结果;混合高斯模型定义由如下公式给出:
Figure FDA0002951267430000032
其中,Θ={λ1,...,λk,μ1,...,μk,∑1,...,∑k}是高斯混合分类模型的参数,K是模型的格式,λk是第k个高斯模型的权重;μk和∑k各自代表均值和协方差;N(·)代表多元高斯分布;
使用准备好的训练数据训练混合高斯模型,在使用过程中,被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中,得到该特征的异常分数,然后通过分数判定输入是否包含异常;但是由于噪声和光照的影响,会导致出现异常的误判情况,所以加入了额外的异常跟踪过程,对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况;使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪;当疑似异常的场景连续出现时才判定为异常情况;
步骤六、异常检测结果分析与处理;无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作;这里对应的就是接受到异常信号的输入之后进行及时的警报,通知相关人员前来查看处理异常情况;如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中,即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程,常驻的循环中达到实时多视角异常监测的目的。
CN201910797226.1A 2019-08-27 2019-08-27 基于音频视频监控结合的异常监测方法 Active CN110519637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910797226.1A CN110519637B (zh) 2019-08-27 2019-08-27 基于音频视频监控结合的异常监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910797226.1A CN110519637B (zh) 2019-08-27 2019-08-27 基于音频视频监控结合的异常监测方法

Publications (2)

Publication Number Publication Date
CN110519637A CN110519637A (zh) 2019-11-29
CN110519637B true CN110519637B (zh) 2021-05-18

Family

ID=68627228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910797226.1A Active CN110519637B (zh) 2019-08-27 2019-08-27 基于音频视频监控结合的异常监测方法

Country Status (1)

Country Link
CN (1) CN110519637B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261243B (zh) * 2020-01-10 2023-04-21 华南理工大学 一种基于相对熵指标检测复杂生物系统相变临界点的方法
CN113836966A (zh) * 2020-06-08 2021-12-24 中国移动通信有限公司研究院 视频检测方法、装置、设备及存储介质
CN112188427A (zh) * 2020-08-19 2021-01-05 天津大学 一种公共场所群体异常事件物联传感系统和方法
CN112954408B (zh) * 2021-01-25 2023-05-12 中央广播电视总台 超高清视频信号的异常监测方法及相应装置
CN112466290B (zh) * 2021-02-02 2021-05-28 鹏城实验室 异常声音检测模型的训练方法、装置和计算机存储介质
CN114154538B (zh) * 2021-11-26 2022-09-02 哈尔滨工程大学 一种基于相位编码和设备信息的工业声音异常检测系统
CN114013957B (zh) * 2021-11-29 2023-03-17 天津电子信息职业技术学院 基于声音信号的输送带纵向撕裂检测方法及相关设备
CN114885189A (zh) * 2022-04-14 2022-08-09 深圳创维-Rgb电子有限公司 香氛开启的控制方法、装置、设备及存储介质
CN115240142B (zh) * 2022-07-28 2023-07-28 杭州海宴科技有限公司 基于跨媒体的室外重点场所人群异常行为预警系统和方法
CN115995234A (zh) * 2022-08-25 2023-04-21 维沃移动通信有限公司 音频降噪方法、装置、电子设备及可读存储介质
CN116630866B (zh) * 2023-07-24 2023-10-13 中电信数字城市科技有限公司 音视频雷达融合的异常事件监控方法、装置、设备及介质
CN116662729B (zh) * 2023-08-02 2023-10-31 山东鲁玻玻璃科技有限公司 一种低硼硅玻璃上料控制数据智能监测方法
CN117422888B (zh) * 2023-09-13 2024-05-10 长龙(杭州)航空维修工程有限公司 一种飞机性能评估方法及系统
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统
CN101753992A (zh) * 2008-12-17 2010-06-23 深圳市先进智能技术研究所 一种多模态智能监控系统和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4471362B2 (ja) * 2004-08-25 2010-06-02 パナソニック株式会社 監視カメラ装置
CN102163427B (zh) * 2010-12-20 2012-09-12 北京邮电大学 一种基于环境模型的音频异常事件检测方法
KR101932535B1 (ko) * 2012-08-27 2018-12-27 한화테크윈 주식회사 실내 감시 시스템 및 실내 감시 방법
CN103198605A (zh) * 2013-03-11 2013-07-10 成都百威讯科技有限责任公司 室内突发异常事件报警系统
CN104144328B (zh) * 2014-07-31 2017-06-16 中国人民解放军63908部队 一种智能视频监控方法
CN105205728B (zh) * 2015-08-26 2019-06-28 国家电网公司 一种面向电力机房监控的音视频融合检测方法
CN108647649B (zh) * 2018-05-14 2021-10-01 中国科学技术大学 一种视频中异常行为的检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统
CN101753992A (zh) * 2008-12-17 2010-06-23 深圳市先进智能技术研究所 一种多模态智能监控系统和方法

Also Published As

Publication number Publication date
CN110519637A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110519637B (zh) 基于音频视频监控结合的异常监测方法
Barmpoutis et al. Smoke detection using spatio-temporal analysis, motion modeling and dynamic texture recognition
KR101588995B1 (ko) 대상 검출 장치 및 대상 검출 방법
Calderara et al. Smoke detection in video surveillance: a MoG model in the wavelet domain
CN111062273B (zh) 一种遗留物品追溯检测与报警方法
CN110598560A (zh) 基于神经网络增强的夜间监控识别方法和系统
CN110569755B (zh) 一种基于视频的智能积水检测方法
CN113313037A (zh) 一种基于自注意力机制的生成对抗网络视频异常检测方法
Balasundaram et al. Abnormality identification in video surveillance system using DCT
CN108830882B (zh) 视频异常行为实时检测方法
CN113963301A (zh) 一种时空特征融合的视频火灾烟雾探测方法及系统
CN107274912B (zh) 一种手机录音的设备来源辨识方法
Cristani et al. On-line adaptive background modelling for audio surveillance
CN111476102A (zh) 一种安全防护方法、中控设备及计算机存储介质
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN110502995B (zh) 基于细微面部动作识别的驾驶员打哈欠检测方法
Dedeoglu et al. Surveillance using both video and audio
Arslan A new approach to real time impulsive sound detection for surveillance applications
Frejlichowski et al. Extraction of the foreground regions by means of the adaptive background modelling based on various colour components for a visual surveillance system
Sánchez-García et al. A novel image-processing based method for the automatic detection, extraction and characterization of marine mammal tonal calls
Zhao et al. Research on vehicle detection and vehicle type recognition under cloud computer vision
CN113158720A (zh) 一种基于双模特征和注意力机制的视频摘要方法及装置
Hamici et al. Pavement Images Denoising with Cracks Detection and Classification Using 2D Discrete Wavelet Transform and Savitzky-Golay Filters
Arabnezhad et al. Urban acoustic scene classification using binaural wavelet scattering and random subspace discrimination method
Libal et al. Detecting drones at an entrance to a beehive based on audio signals and autoencoder neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant