CN110519637B

CN110519637B - 基于音频视频监控结合的异常监测方法

Info

Publication number: CN110519637B
Application number: CN201910797226.1A
Authority: CN
Inventors: 李学龙; 王�琦; 赵致远
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2021-05-18
Anticipated expiration: 2039-08-27
Also published as: CN110519637A

Abstract

本发明公开了一种基于音频视频监控结合的异常监测方法，用于解决现有异常监测方法监测信息来源单一造成实用性差的技术问题。技术方案是将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路，经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性，通过多视角监控下丰富的信息进行高效准确的实时异常监控，实用性好。

Description

基于音频视频监控结合的异常监测方法

技术领域

本发明涉及一种异常监测方法，特别涉及一种基于音频视频监控结合的异常监测方法。

背景技术

文献“基于监控视频的异常事件识别，光学仪器，2019，Vol41(1),p29-36”公开了一种基于监控视频的异常事件监测与识别的方法。该方法首先采用背景建模的混合高斯算法提取前景目标，然后使用金字塔迭代的L-K特征点跟踪算法得到前景的光流运动信息，并通过分析前景的面积比例、速度方差、整体熵判断视频中是否有异常事件的发生。通过利用爆炸、人群短时聚集和分散等异常事件做仿真实验结果表明其提出的模型可以准确的提取前景目标区域，并可以快速、精准的判断监控视频中的异常事件，可以为管理部门及时发现和控制异常事件提供有效的帮助。文献所述方法只对监控的视频画面信息进行了利用，完全抛弃了安防监控的声音信息，监测信息来源单一。由于光线传播的特性导致监控视频画面存在比较多的盲区，而且容易受到光线环境以及遮挡物的影响。诸如夜晚、雨天、雾天一类的场景会对视频监控采集到的信息造成极大的不良影响。这些因素都会直接导致异常监测质量的下降，影响预警效果。

发明内容

为了克服现有异常监测方法监测信息来源单一造成实用性差的不足，本发明提供一种基于音频视频监控结合的异常监测方法。该方法将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路，经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性，通过多视角监控下丰富的信息进行高效准确的实时异常监控，实用性好。

本发明解决其技术问题所采用的技术方案：一种基于音频视频监控结合的异常监测方法，其特点是包括以下步骤：

步骤一、设定用于监测流程的音视频截断时长T，当前时刻t。从安防探头以及拾音器实时采集到的视频画面信息以及音频信息，经过编码后存储到信息存储目录中。然后截取t-T时刻到当前时刻t共计T秒视频段以及音频段。这T秒的视频段和音频段分别作为两个异常检测支路的输入信息。

步骤二、采用端点检测方法对音频信号进行预处理，提取输入信号中的声音事件。首先确定声音事件的起始点：将不同dB数对应的幅度值和过零率阈值设置为低门限一，若当前帧的幅度超过幅度阈值，或者过零率超过阈值，则确定当前帧为声音事件起点，此外，若当前帧数据的平均幅度与上一帧数据相比突变3dB以上，确定当前帧为声音事件的起始位置。然后确定声音事件的结束点：将不同dB数对应的幅度值和过零率阈值设置为低门限二，若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值，则代表声音事件结束。检测出完整的声音事件之后将其进行存储。

对于一个完整的声音事件x(n)进行MFCC特征提取。首先进行预加重，将x(n)通过一个高通滤波器，使用的公式如下：

H(Z)＝1-μz^-1, (1)

其中，μ是一个常数，取值0.9-1.0。z是转换到频域之后的输入信号，H(Z)代表经过高通滤波之后得到的频域信号。然后进行分帧，利用声音信号的短时平稳性，将x(n)的N个采样点形成一个集合进行处理，为了避免相邻两帧的变化过大，需在两相邻帧之间设置一段重叠区域，此重叠区域包含了M个取样点，M的取值为N的

或者

接下来对声音事件x(n)中的每一帧进行处理，首先使用汉明窗与每帧的信号相乘，通过加窗操作增加帧左右两端的连续性。汉明窗的形式由如下公式给出：

不同的a值会产生不同的汉明窗，a取值为0.46。然后对相乘之后的帧进行DFT变换，接着使用无交叠统计均等矩形滤波器组进行Mel滤波。该滤波器组中各矩形子滤波器的幅度响应A_i由以下公式给出：

其中，M为矩形滤波器总个数，i＝1,…M，

为第i个矩形滤波器的频率点。对滤波后的信号取对数能量变换后再进行DCT变换以及求倒谱运算得到第j帧信号在第i个子滤波器上的输出幅度

i＝1，2，…，M。

即为该帧信号的能量特征。

获取所有帧的能量特征之后，利用前后帧的能量特征差分计算当前帧的能量差分特征

即：

进一步，异常声音信号x(n)的能量特征m_i和能量差分特征Δ_i通过以下公式计算：

最终，信号x(n)的能量特征表示为向量

能量差分特征表示为向量

步骤三、为了进一步提升异常声音信号特征的分类鉴别能力，同时避免某种特征在分类过程中出现占主导的情况，采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合，形成最终用于分类的信号特征。具体的融通和过程如下：

首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声和正常声音这五种类型声音的声音样本库，统计所有样本的能量特征和能量差分特征，分别获得能量特征和能量差分特征的最大值

与最小值

然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理。

其中，

分别表示经过规范化之后的信号能量特征向量以及能量差分特征向量。然后再将规范化后的两个特征向量加权后进行特征融合，得到输入信号声音事件x(n)最终的特征向量

具体的计算公式如下：

其中，权重α₁,α₂根据能量特征和能量差分特征对于异常声音的分类能力确定，且满足α₁+α₂＝1。

获取到输入信号声音事件x(n)最终的特征向量

后，将其输入到训练好的SVM二分类模型中进行分类，识别出输入声音信号属于正常状态的声音或是异常的声音。如果是正常状态的话就继续执行步骤四，反之则跳转到步骤六进行异常处理。

步骤四、对于输入到检测支路中的视频段，首先通过前景提取算法提取出视频帧前景图。若前景在其中所占权重为a，那么前景检测问题由如下公式定义：

I_c＝aF_c+(1-a)B_c, (9)

其中，I_c,F_c,B_c分别代表视频帧上一点的合成色、前景和背景。采用KNN matting算法提取出视频帧中的前景图，然后将前景图分成一个个大小相同不重合的区域，统计每个区域前景像素点之和。由于在视频帧前景图中背景被抑制成黑色，因此通过设置一个指定的阈值来过滤掉大部分的背景区域。如果每个区域前景像素点之和大于阈值，就将其设置为前景区域，从而得到视频帧中所有的前景区域。

分离出视频画面的前景区域之后，通过计算获取相应的光流信息。将数据集合中所有的光流幅度按照从小到大进行排序，然后去掉最大的5％之后取剩下的最大光流幅度作为阈值δ，接着将光流幅度分为n个区间，第i个区间为

进一步提取光流幅度直方图特征的时候，设定每个区间初始特征值为零，然后遍历区域内所有像素点的光流矢量，计算光流矢量幅度，找到其对应的光流幅度直方图特征区间。区间特征值大小为最终落入该区间光流矢量的个数，最后将得到的光流幅度直方图归一化以满足特征的尺度不变性，从而得到能反映区域内运动特征分布情况的光流幅度直方图特征。得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征。

步骤五、采用混合高斯模型判断相应时空视频块是否出现异常。混合高斯模型就是指对样本的概率分布进行估计，而估计时所采用的训练模型是多个高斯模型的加权和。每个高斯模型代表一个类，对样本中的数据分别在几个高斯模型上投影，分别得到在各个类上的概率，接着选取概率最大的类作为判决结果。混合高斯模型定义由如下公式给出：

其中，Θ＝{λ₁,…,λ_k,μ₁,…,μ_k,Σ₁,…,Σ_k}是高斯混合分类模型的参数，K是模型的格式，λ_k是第k个高斯模型的权重。μ_k和Σ_k各自代表均值和协方差。N(·)代表多元高斯分布。

使用准备好的训练数据训练混合高斯模型，在使用过程中，被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中，得到该特征的异常分数，然后通过分数判定输入是否包含异常。但是由于噪声和光照的影响，会导致出现异常的误判情况，所以加入了额外的异常跟踪过程，对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况。使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪。当疑似异常的场景连续出现时才判定为异常情况。

步骤六、异常检测结果分析与处理。无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作。这里对应的就是接受到异常信号的输入之后进行及时的警报，通知相关人员前来查看处理异常情况。如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中，即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程，常驻的循环中达到实时多视角异常监测的目的。

本发明的有益效果是：该方法将监控探头与拾音器采集到的实时视频画面与声音分别送入两个相对独立的特定信息处理支路，经过预处理、特征提取、场景分类以及异常跟踪完成异常场景的监测。该方法有效的综合利用了视频画面信息以及声音信息两种不同源信息之间互补的特性，通过多视角监控下丰富的信息进行高效准确的实时异常监控，实用性好。

具体的，第一，通过两条相对独立的信息处理通路分别对视频画面监控信息以及声音信息进行监测，在视频信息被遮挡或不清晰的情况下使用声音信息进行弥补，在声音不够直观的情况下视频画面提供了更加直观丰富的信息流。二者互相结合相比之前仅使用视频信息的异常监测方法，在视频信息不够充分的情况下效果提升明显。第二，通过提取声音信号的无交叠统计均等梅尔特征构建异常声音识别算法、使用基于光流幅度直方图特征提取和跟踪的视频异常检测算法这两种算法在计算复杂度上都比较友好，能够在保证实时监测的前提下提供较好的监测效果。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于音频视频监控结合的异常监测方法的流程图。

具体实施方式

参照图1。本发明基于音频视频监控结合的异常监测方法，具体来说面向复杂的安防监控场景，该方法通过两个独立的基于音频的异常监测支路和基于视频画面的异常监测支路进行多视角的异常监测。由于两个支路同时工作，而且分别利用了不同源的输入信息所以两个支路之间起到互补的作用，最终达到较好的异常监测效果，提升了异常监测系统在复杂场景下的鲁棒性。下面将详细的介绍具体的实现过程：

步骤一、监控安防设备实时采集信息的预处理。设定监测系统用于监测流程的音视频截断时长T＝30秒，当前时刻t。从安防探头以及拾音器实时采集到的视频画面信息以及音频信息首先经过编码后存储到特定的信息存储目录中。然后截取t-T时刻到当前时刻的共计T秒视频段以及音频段。这T秒的视频段和音频段将分别作为两个异常检测支路的输入信息。

步骤二、声音信号的预处理以及无交叠统计均等梅尔特征的提取。声音信号的预处理采用端点检测方法，提取输入信号中的声音事件。其基本原理是基于信号的短时平均幅度和短时过零率特征，设置幅度和过零率阈值，利用双门限策略检测出信号中有效的声音事件。首先确定声音事件的起始点：将不同dB数对应的幅度值和过零率阈值设置为低门限一，若当前帧的幅度超过幅度阈值，或者过零率超过阈值，则确定当前帧为声音事件起点，此外，若当前帧数据的平均幅度与上一帧数据相比突变3dB以上，确定当前帧为声音事件的起始位置。然后确定声音事件的结束点：将不同dB数对应的幅度值和过零率阈值设置为低门限二，若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值，则代表声音事件结束。此外若静音段的长度足够长，也代表声音事件结束。检测出完整的声音事件之后将其进行存储，为后续算法使用做准备。

对于一个完整的声音事件x(n)需要经过以下处理步骤进行MFCC特征提取。首先进行预加重，将x(n)通过一个高通滤波器，使用的公式如下：

H(Z)＝1-μz^-1, (1)

其中μ代表一个常数，它的值介于0.9-1.0之间，通常取值0.97。z是转换到频域之后的输入信号，H(Z)代表经过高通滤波之后得到的频域信号。预加重的目的是提升高频部分，使得信号频谱变得平坦，便于用同样的信噪比在信号的整个频带中求取频谱。然后进行分帧，利用声音信号的短时平稳性，将x(n)的N个采样点形成一个集合进行处理，帧长通常设置成256或512个点，对于采样频率为16kHz的信号，对应的时间长度为16ms和32ms。为了避免相邻两帧的变化过大，因此会在会在两相邻帧之间设置一段重叠区域，此重叠区域包含了M个取样点，通常M的取值约为N的

或者

接下来对声音事件x(n)中的每一帧进行处理，首先使用汉明窗与每帧的信号相乘，通过加窗操作来增加帧左右两端的连续性。汉明窗的形式由如下公式给出：

不同的a值会产生不同的汉明窗，一般情况下取值为0.46。然后对相乘之后的帧进行DFT变换，接着使用无交叠统计均等矩形滤波器组进行Mel滤波。该滤波器组中各矩形子滤波器的幅度响应A_i由以下公式给出：

其中M为矩形滤波器总个数，i＝1,…M，

即为该帧信号的能量特征。

即：

进一步，异常声音信号x(n)的能量特征m_i和能量差分特征Δ_i可以通过以下公式计算：

最终，信号x(n)的能量特征可以表示为向量

能量差分特征可以表示为向量

步骤三、基于无交叠统计均等梅尔特征的音频信号异常分类与分析。在步骤二中获取到了声音事件x(n)的能量特征

和能量差分特征

为了进一步提升异常声音信号特征的分类鉴别能力，同时避免某种特征在分类过程中出现占主导的情况，采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合，形成最终用于分类的信号特征。具体的融通和过程如下：

首先基于已经建立的包括爆炸声、枪声、尖叫声、玻璃破碎声、正常声音这五种类型声音的声音样本库，统计所有样本的能量特征和能量差分特征，分别获得能量特征和能量差分特征的最大值

与最小值

其中

分别表示经过规范化之后的信号能量特征向量以及能量差分特征向量。然后再将规范化后的两个特征向量按照一定的权重加权后进行特征融合，得到输入信号声音事件x(n)最终的特征向量

具体的计算公式如下：

其中权重α₁,α₂根据能量特征和能量差分特征对于异常声音的分类能力确定，且满足α₁+α₂＝1。

获取到输入信号声音事件x(n)最终的特征向量

后将其输入到训练好的SVM二分类模型中进行分类，识别出输入声音信号属于正常状态的声音或是异常的声音。如果是正常状态的话就继续执行步骤四，反之则跳转到步骤六进行异常处理。

步骤四、视频画面前景区域的提取以及光流幅度直方图特征的构建。对于输入到检测支路中的视频段，首先通过前景提取算法提取出视频帧前景图。前景检测算法就是把图像中运动的部分和背景区分开来，其中非背景的部分就是前景层。一张图片中的任何一点像素，都是由前景层和背景层合成得到的，若前景在其中所占权重为a，那么前景检测问题可由如下公式定义：

I_c＝aF_c+(1-a)B_c, (9)

其中I_c,F_c,B_c分别代表视频帧上一点的合成色、前景和背景。这里使用KNNmatting算法来提取出视频帧中的前景图，然后将前景图分成一个个大小相同不重合的区域，统计每个区域前景像素点之和。由于在视频帧前景图中背景被抑制成黑色，因此可以通过设置一个指定的阈值来过滤掉大部分的背景区域。如果每个区域前景像素点之和大于阈值，就将其设置为前景区域，从而得到视频帧中所有的前景区域。

步骤五、基于光流幅度直方图特征、混合高斯分类和跟踪的视频异常检测。这里使用混合高斯模型来判断相应时空视频块是否出现异常。混合高斯模型就是指对样本的概率分布进行估计，而估计时所采用的训练模型时多个高斯模型的加权和。每个高斯模型就代表了一个类，对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率，接着选取概率最大的类作为判决结果。混合高斯模型定义由如下公式给出：

其中Θ＝{λ₁,…,λ_k,μ₁,…,μ_k,Σ₁,…,Σ_k}是高斯混合分类模型的参数，K是模型的格式，λ_k是第k个高斯模型的权重。μ_k和Σ_k各自代表均值和协方差。N(·)代表多元高斯分布。这些参数都可以使用最大似然估计方法来进行迭代优化。利用混合高斯模型方法可以自适应的调整决策面进行分类，从而更好的识别视频中的正常特征与异常情况。

首先使用准备好的训练数据去训练混合高斯模型，然后在使用的过程中，被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中，得到该特征的异常分数，然后通过分数判定输入是否包含异常。但是由于噪声和光照的影响，会导致出现异常的误判情况，所以这里还加入了额外的异常跟踪过程，对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况。这里使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪。当疑似异常的场景连续出现的时候才判定为异常情况。这样可以有效的减少因简单遮挡、噪声等干扰带来的误检情况。

Claims

1.一种基于音频视频监控结合的异常监测方法，其特征在于包括以下步骤：

步骤一、设定用于监测流程的音视频截断时长T，当前时刻t；从安防探头以及拾音器实时采集到的视频画面信息以及音频信息，经过编码后存储到信息存储目录中；然后截取t-T时刻到当前时刻t共计T秒视频段以及音频段；这T秒的视频段和音频段分别作为两个异常检测支路的输入信息；

步骤二、采用端点检测方法对音频信号进行预处理，提取输入信号中的声音事件；首先确定声音事件的起始点：将不同dB数对应的幅度值和过零率阈值设置为低门限一，若当前帧的幅度超过幅度阈值，或者过零率超过阈值，则确定当前帧为声音事件起点，此外，若当前帧数据的平均幅度与上一帧数据相比突变3dB以上，确定当前帧为声音事件的起始位置；然后确定声音事件的结束点：将不同dB数对应的幅度值和过零率阈值设置为低门限二，若当前帧的幅度低于幅度阈值或者过零率低于过零率阈值，则代表声音事件结束；检测出完整的声音事件之后将其进行存储；

对于一个完整的声音事件x(n)进行MFCC特征提取；首先进行预加重，将x(n)通过一个高通滤波器，使用的公式如下：

H(Z)＝1-μz^-1， (1)

其中，μ是一个常数，取值0.9-1.0；z是转换到频域之后的输入信号，H(Z)代表经过高通滤波之后得到的频域信号；然后进行分帧，利用声音信号的短时平稳性，将x(n)的N个采样点形成一个集合进行处理，为了避免相邻两帧的变化过大，需在两相邻帧之间设置一段重叠区域，此重叠区域包含了M个取样点，M的取值为N的

或者

接下来对声音事件x(n)中的每一帧进行处理，首先使用汉明窗与每帧的信号相乘，通过加窗操作增加帧左右两端的连续性；汉明窗的形式由如下公式给出：

不同的a值会产生不同的汉明窗，a取值为0.46；然后对相乘之后的帧进行DFT变换，接着使用无交叠统计均等矩形滤波器组进行Mel滤波；该滤波器组中各矩形子滤波器的幅度响应A_i由以下公式给出：

其中，M为矩形滤波器总个数，i＝1，...M，

为第i个矩形滤波器的频率点；对滤波后的信号取对数能量变换后再进行DCT变换以及求倒谱运算得到第j帧信号在第i个子滤波器上的输出幅度

即为该帧信号的能量特征；

即：

最终，信号x(n)的能量特征表示为向量

能量差分特征表示为向量

步骤三、为了进一步提升异常声音信号特征的分类鉴别能力，同时避免某种特征在分类过程中出现占主导的情况，采用规范化多特征加权融合方法对信号的能量特征和能量差分特征进行融合，形成最终用于分类的信号特征；具体的融通和过程如下：

与最小值

然后将能量特征与差分特征向量分别按照下面的公式进行规范化处理；

其中，

分别表示经过规范化之后的信号能量特征向量以及能量差分特征向量；然后再将规范化后的两个特征向量加权后进行特征融合，得到输入信号声音事件x(n)最终的特征向量

具体的计算公式如下：

其中，权重α₁，α₂根据能量特征和能量差分特征对于异常声音的分类能力确定，且满足α₁+α₂＝1；

获取到输入信号声音事件x(n)最终的特征向量

后，将其输入到训练好的SVM二分类模型中进行分类，识别出输入声音信号属于正常状态的声音或是异常的声音；如果是正常状态的话就继续执行步骤四，反之则跳转到步骤六进行异常处理；

步骤四、对于输入到检测支路中的视频段，首先通过前景提取算法提取出视频帧前景图；若前景在其中所占权重为a，那么前景检测问题由如下公式定义：

I_c＝aF_c+(1-a)B_c， (9)

其中，I_c，F_c，B_c分别代表视频帧上一点的合成色、前景和背景；采用KNN matting算法提取出视频帧中的前景图，然后将前景图分成一个个大小相同不重合的区域，统计每个区域前景像素点之和；由于在视频帧前景图中背景被抑制成黑色，因此通过设置一个指定的阈值来过滤掉大部分的背景区域；如果每个区域前景像素点之和大于阈值，就将其设置为前景区域，从而得到视频帧中所有的前景区域；

分离出视频画面的前景区域之后，通过计算获取相应的光流信息；将数据集合中所有的光流幅度按照从小到大进行排序，然后去掉最大的5％之后取剩下的最大光流幅度作为阈值δ，接着将光流幅度分为n个区间，第i个区间为

进一步提取光流幅度直方图特征的时候，设定每个区间初始特征值为零，然后遍历区域内所有像素点的光流矢量，计算光流矢量幅度，找到其对应的光流幅度直方图特征区间；区间特征值大小为最终落入该区间光流矢量的个数，最后将得到的光流幅度直方图归一化以满足特征的尺度不变性，从而得到能反映区域内运动特征分布情况的光流幅度直方图特征；得到的原始特征经过一个简单的自编码器的编解码操作进行重构得到更加利于检测分析使用的重构特征；

步骤五、采用混合高斯模型判断相应时空视频块是否出现异常；混合高斯模型就是指对样本的概率分布进行估计，而估计时所采用的训练模型是多个高斯模型的加权和；每个高斯模型代表一个类，对样本中的数据分别在几个高斯模型上投影，分别得到在各个类上的概率，接着选取概率最大的类作为判决结果；混合高斯模型定义由如下公式给出：

其中，Θ＝{λ₁，...，λ_k，μ₁，...，μ_k，∑₁，...，∑_k}是高斯混合分类模型的参数，K是模型的格式，λ_k是第k个高斯模型的权重；μ_k和∑_k各自代表均值和协方差；N(·)代表多元高斯分布；

使用准备好的训练数据训练混合高斯模型，在使用过程中，被重构后的光流幅度直方图特征直接输入到这个训练好的高斯模型分类器中，得到该特征的异常分数，然后通过分数判定输入是否包含异常；但是由于噪声和光照的影响，会导致出现异常的误判情况，所以加入了额外的异常跟踪过程，对检测到的疑似异常的区域进行近一步的跟踪分析判断是否为异常状况；使用基于核相关滤波的单目标跟踪算法对疑似异常区域进行跟踪；当疑似异常的场景连续出现时才判定为异常情况；

步骤六、异常检测结果分析与处理；无论是声音异常检测支路还是视频异常检测支路在检测到异常的时候都会触发异常处理操作；这里对应的就是接受到异常信号的输入之后进行及时的警报，通知相关人员前来查看处理异常情况；如果前面的流程都没有抛出异常的话则系统进入下一步的正常循环之中，即回到步骤一将采集到的新的视频信息以及音频信息送入检测流程，常驻的循环中达到实时多视角异常监测的目的。