CN105812721A

CN105812721A - 一种跟踪监控方法及跟踪监控设备

Info

Publication number: CN105812721A
Application number: CN201410850075.9A
Authority: CN
Inventors: 高娅; 乔刚; 张兴明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2016-07-27

Abstract

本发明公开了一种跟踪监控方法及跟踪监控设备，用以能够及时跟踪监控目的对象，及时获得包含目的对象的视频监控画面，以能够为后续的视频分析提供参考依据，提高分析结果的准确率。该方法为：采集音频数据；对采集到的所述音频数据进行预处理，从预处理后的所述音频数据中提取用于反映语音个性特征的特定参数；将所述特定参数分别输入各参考模型，所述各参考模型用于表征语音所属的类别，确定出与所述特定参数相匹配的参考模型；在确定出的所述参考模型属于预设的优先跟踪参考模型时，确定发出所述语音的说话人所在的地理位置，根据所述地理位置控制摄像头跟踪拍摄所述说话人。

Description

一种跟踪监控方法及跟踪监控设备

技术领域

本发明涉及监控技术领域，尤其涉及一种跟踪监控方法及跟踪监控设备。

背景技术

随着危险暴力等事件的频繁发生，为了有效防范危险事件的发生或者为了能够为事件处理提供重要信息，这就需要利用智能监控设备及时捕获危险事件发生之前或发生过程中的视频画面。

目前，在监控领域，主要是通过视频图像处理技术达到识别监控的目的，这就会存在如下问题：

第一，摄像头拍摄的画面不全，由于摄像头在一定时间内只能拍摄有限的区域，当危险事件发生在摄像头的监控范围内，但是不在摄像头当前的拍摄范围之内时，摄像头就无法监控到危险事件的发生过程，使得相关工作人员不能及时做出处理或者无法获取重要信息。

第二，摄像头获取的视频画面受环境影响较大，当危险事件发生时环境光线不好或者摄像头发生晃动，就可能会导致拍摄到的视频画面模糊不清，基于获得的该视频画面进行分析时，分析结果的准确率会下降。

基于此，需要摄像头能够及时锁定并监控目的对象，及时获得包含目的对象的视频监控画面，以能够为后续的视频分析提供参考依据，提高分析结果的准确率。

发明内容

本发明实施例提供一种跟踪监控方法及跟踪监控设备，用以能够及时跟踪监控目的对象，及时获得包含目的对象的视频监控画面，以能够为后续的视频分析提供参考依据，提高分析结果的准确率。

本发明实施例提供的具体技术方案如下：

第一方面，提供了一种跟踪监控方法，包括：

采集音频数据；

对采集到的所述音频数据进行预处理，从预处理后的所述音频数据中提取用于反映语音个性特征的特定参数；

将所述特定参数分别输入各参考模型，所述各参考模型用于表征语音所属的类别，确定出与所述特定参数相匹配的参考模型；

在确定出的所述参考模型属于预设的优先跟踪参考模型时，确定发出所述语音的说话人所在的地理位置，根据所述地理位置控制摄像头跟踪拍摄所述说话人。

第二方面，提供了一种跟踪监控设备，包括：

音频采集单元，用于采集音频数据；

音频处理单元，用于对采集到的所述音频数据进行预处理，从预处理后的所述音频数据中提取用于反映语音个性特征的特定参数；

识别单元，用于将所述特定参数分别输入各参考模型，所述各参考模型用于表征语音所属的类别，确定出与所述特定参数相匹配的参考模型；

定位单元，用于在确定出的所述参考模型属于预设的优先跟踪参考模型时，确定发出所述语音的说话人所在的地理位置，根据所述地理位置控制摄像头跟踪拍摄所述说话人。

基于上述技术方案，本发明实施例中，利用摄像头中设置的音频采集单元采集音频数据，从该音频数据中提取用于反映语音个性特征的特定参数，将所述特定参数分别输入各参考模型，确定与所述特定参数相匹配的参考模型，从而确定发出该语音的说话人所属的类别，在确定出的参考模型属于预设的优先跟踪参考模型时，确定发出该语音的说话人所在的地理位置，根据该地理位置控制摄像头跟踪拍摄该说话人，获取包含该说话人的视频数据，从而能够根据说话人的声音及时监控需要优先跟踪的说话人，及时获得包含该说话人视频监控画面，以能够为后续的视频分析提供参考依据，提高分析结果的准确率，进而能够及时发现、阻止紧急事件的发生。

附图说明

图1为本发明实施例中监控设备进行跟踪监控的方法流程示意图；

图2为本发明实施例中两个麦克风定位声源的示意图；

图3为本发明实施例中三个麦克风定位声源的示意图；

图4为本发明实施例中监控设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中，如图1所示，监控设备进行跟踪监控的详细方法流程如下：

步骤101：采集音频数据。

本发明实施例中，监控设备中设置有由麦克风等具备音频采集功能的音频采集单元组成的阵列，称为音频采集单元阵列，用以采集音频数据并定位声源。

具体实施中，采集音频数据的同时，监控设备还可以采集视频数据，该视频数据可以是来源于该音频数据的声源所在的监控区域，也可以是来源于该音频数据的声源所在的区域之外的其它区域。

步骤102：对采集到的该音频数据进行预处理，从预处理后的音频数据中提取用于反映语音个性特征的特定参数。

其中，对采集到的音频数据进行预处理的过程如下：

对采集到的该音频数据进行降噪处理后，依次对降噪处理后的音频数据进行预加重、分帧加窗、端点检测等处理；

其中，预加重用于去除音频数据中的直流成分，使音频数据的频率固定在0～4k之间；

分帧加窗用于以帧为单位从音频数据中提取每帧数据；

端点检测用于确定一段语音信号中语音的起点和终点。

具体实施中，可以采用能量以及过零率进行端点检测。语音信号中包含有能量较小的清音以及能量较大的浊音，可以通过短时能量进行分析，假设第m帧语音信号表示为X_n(m)，第N帧语音信号的短时能量表示为E_n，则计算公式如下：

E_{n} = Σ_{m = 0}^{N - 1} X_{n}^{2} (m) .

由于清音的能量小于浊音，可以用短时能量来区别清音和浊音，区分有声段和无声段。短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数，过零率就是样本改变符号的次数，假设第N帧语音信号的过零率表示为ZCR(n)，第m帧语音信号表示为X_n(m)，计算公式如下：

ZCR (n) = Σ_{m = 1}^{N - 1} | X_{n} (m) - X_{n} (m + 1) | .

短时过零率反映了语音信号的频谱特性，因此可以使用过零率来进行频谱分析。

利用过零率和短时能量来进行端点检测，又叫做双门限比较法，用短时能量检测浊音，短时过零率检测清音。双门限检测的基本过程如下：定义一个低门限和一个高门限，低门限的数值较小，对信号变化较敏感,信号容易通过；高门限的数值较大，对信号的变化较迟钝，信号需要达到一定的强度才能够通过。

通常情况下，对语音信号的端点检测可以分为静音段、过渡段、语音段、结束。当前状态处于静音段时，如果短时能量或短时过零率超过了低门限,则进入过渡段，标记变量状态变为过渡段，当前状态处于过渡段时,由于短时能量和短时过零率的值都比较小,故不能确定是否处于真正的语音段，有可能是由短时的噪声引起的。但是如果在此时短时能量和短时过零率的数值都降到低门限以下，则状态标记重新回到静音段，而如果此时高门限被这两个参数中的任意一个超过，则状态标记为进入了语音段。当前状态处于语音段时,如果短时能量和短时过零率的值都降到低门限以下,并且从起始端到结束端总的计时长度比预设的最短时间要大,则将语音段状态标记为结束，但是如果总的计时长度小于或者等于最短时长,则判定这段语音信号是噪声段，继续下一段语音的检测。

优选地，能够反映语音个性特征的特定参数包括但不限于感知线性预测系数(PLP)、线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)中的任意一种。

具体地，从音频数据中提取MFCC的具体过程如下：

按帧进行处理，利用离散傅里叶变换(FFT)求预加重后的每帧信号的频域信号，对频域信号取模的平方得到离散功率谱；将功率谱通过三角滤波器组得到功率值；计算功率值的自然对数，得到对数梅尔(Mel)域滤波器组的能量；对对数Mel域滤波器组的能量，进行离散余弦变换得到MFCC。

具体地，从音频数据中提取LPCC的思想如下：语音信号的每个取样值可以由若干个历史取样值的线性预测来表示，利用自相关系数可以求得预测系数，通过线性预测得到全极点系统函数，倒谱定义为时间序列的Z变换的模的对数的逆Z变换。

具体地，感知线性预测音频分析技术是将人耳听觉实验获得的一些结论，通过近似计算的方法应用于音频频谱分析，从音频数据中提取PLP的思想如下：根据FFT计算得到能量谱,计算短时能量谱(P)；计算临界带曲线和短时能量的卷积，对结果进行下采样，得到采样值(R)；将采样值(R)乘以40分贝(dB)响度级别时测得的等响曲线，进行预加重并进行声音强度到人耳能感受到的响度之间的转换后，采用全极点自回归模型(AR)模型求解系数，得到PLP。

步骤103：将所述特定参数分别输入各参考模型，所述各参考模型用于表征语音所属的类别，确定出与所述特定参数相匹配的参考模型。

其中，语音所属的类别根据实际需要划分，例如按照声音的地域性进行划分。

具体实施中，参考模型的获取方式包括但不限于以下两种：

第一种方式，将特定参数分别输入各参考模型之前，基于语音类别对应的音频样本数据利用高斯混合模型进行训练，得到所述语音类别对应的所述参考模型；

第二种方式，将特定参数分别输入各参考模型之前，获取输入的每个所述语音类别对应的所述参考模型并保存。

具体实施中，将提取的特定参数分别输入各参考模型，利用最大似然概率准则计算每个模型的后验概率，将最大后验概率对应的参考模型，确定为说话人的所属类别。

利用最大似然概率准则来判断说话人所属的类别，具体过程如下：

假设测试声音的特征序列为X,则认为该声音属于第i模型的后验概率为：p(λ_i|X)_，根据贝叶斯理论，最大后验概率可表示为：

p (λ_{i} | X) = \frac{p (X | λ_{i})}{p (X)}

其中：

p (X | λ_{i}) = Π_{t = 1}^{T} p (x_{t} | λ_{i})

T表示的是声音的序列数，也就是帧的概念，因为声音是按帧进行处理的，x_t表示第t帧音频帧。

假设声音训练模型库中每种声音的概率相等，则：

p (λ_{i}) = \frac{1}{N}, 1 \leq i \leq N

N表示训练模型库中训练模型的总数。

则后验概率的最大值可以通过计算p(X|λ_i)获得，则测试声音的识别结果可表示为：

i = \arg \max_{i} p (X | λ_{i})

i即为识别结果。

步骤104：在确定出的所述参考模型属于预设的优先跟踪参考模型时，确定发出所述语音的说话人所在的地理位置，根据所述地理位置控制摄像头跟踪拍摄所述说话人。

优选地，视频监控设备利用设置的音频采集单元阵列定位声源(即说话人的地理位置)，具体如下：

确定音频采集单元阵列(例如麦克风阵列)中每两个音频采集单元接收到所述音频数据的时间差；

根据该时间差以及音频采集单元阵列的位置关系，确定说话人所在的地理位置。

具体实施中，用两个麦克风来进行定位，监控中摄像头的安装一般是只要求拍摄正面的180，背面一般是建筑物或一些不需要关注的地方。

考虑实际使用过程中的计算复杂度，监控系统中一般使用时延估计的方法来进行声源定位，基于时延估计的定位方法准确度相对较高，计算量小，可以考虑在实际中实时实现。该方法首先估计出声源到达定位阵列的各麦克风的相对时间差，再利用时间差即时延计算出声源到达各麦克风的距离差，确定声源的方位。

具体地，智能球机的视角一般是90度或者180度，下面以90度为例说明如下：

如图2所示，若麦克风只需在一个平面180度进行定位，则只需要两个麦克风，假设横坐标轴正向与纵坐标轴正向分别为智能球机视野的边界线，假设两个麦克风的位置分别在A、B两点，麦克风之间的距离AB＝L，时延差为T，若满足T等于L除以声速，则确定声源在AB连线上，若声音首先到达A点，其次到达B点，则确定声源在AB的反向延长线上；若声音首先到达B点，其次到达A点，则确定声源在AB的延长线上。假设声源点在AC方向上，根据三角形勾股定理AB²＝BC²-AC²，恒成立，为了方便计算假设B,C点在圆上，则时延T＝(2^0.5-1)*L/声速，若时延大于T，则向左转动。

如图3所示，若需要360度定位，则需要3个麦克风，假设横坐标轴正向与纵坐标轴正向分别为智能球机视野的边界线，A、B、C三个麦克风所构成的平面与智能球机的视野中心所在的中轴线垂直的平面不平行，且A、B、C构成等腰直角三角形，假设声源为D，若声源到达A点和C点的时延差DC-AD>0时，说明声音首先到达A点其次到达C点，声源在横坐标轴所在水平面之上的半个180度空间内；若声源到达A点和C点的时延差DC-AD<0时，说明声音首先到达C点其次到达A点，说明声源在横坐标轴所在水平面之下的半个180度空间内；当确定声源在横坐标轴所在水平面之上的半个180度空间内时，按照上面两个麦克风的定位方法，向左转动，当AC时延差DC-AD<0时，声源在下半个180度平面，按照上面两个麦克风的定位方法，向右转动。

优选地，视频监控设备根据所述地理位置控制摄像头锁定并跟踪拍摄所述说话人后，采集视频数据，并对采集的视频数据进行处理，识别并获取所述说话人的行为，判断所述说话人的行为是否为危险行为，并将判断结果以及采集的所述音频数据和所述视频数据发送给监控中心，由所述监控中心根据所述判断结果进行实时报警，以通知相关人员及时进行处理。

例如，说话人手持刀枪等危险器械的行为、挥舞拳头等危险动作等均为危险行为。

具体地，视频监控中行为分析的过程如下：

进行运动区域的检测和前景提取，其中，运动区域也通常称为前景，如将人体等运动物体从视频序列图像中提取出来，并对运动前景区域进行标记；

计算运动区域内的光流信息，光流是指当物体在视频场景中移动或摄像机位移时图像中产生的变化，该变化可以认为是图像中的每一像素点有一个特定的速度矢量，这些矢量就形成了图像的光流场(OpticalFlowField)；

采样基于幅值的加权方向直方图描述行为，并计算运动区域内的熵来判断行为的异常。

具体实施中，在确定说话人所在的地理位置后，确定该地理位置是否在摄像头当前的监控范围内，若在摄像头当前的监控范围内，则可以不调整摄像头的方向继续拍摄获取视频数据即可；若不在摄像头当前的监控范围内，则调整摄像头的方向，使说话人所在的地理位置在摄像头的监控范围内后，拍摄并获取视频数据。

基于同一发明构思，本发明实施例中还提供了一种跟踪监控设备，该设备的具体实施可参见上述方法部分的描述，重复之处不在赘述，如图4所示，该设备主要包括：

音频采集单元401，用于采集音频数据；

音频处理单元402，用于对采集到的所述音频数据进行预处理，从预处理后的所述音频数据中提取用于反映语音个性特征的特定参数；

识别单元403，用于将所述特定参数分别输入各参考模型，所述各参考模型用于表征语音所属的类别，确定出与所述特定参数相匹配的参考模型；

定位单元404，用于在确定出的所述参考模型属于预设的优先跟踪参考模型时，确定发出所述语音的说话人所在的地理位置，根据所述地理位置控制摄像头跟踪拍摄所述说话人。

优选地，用于反映说话人的个性特征的特定参数包括但不限于PLP、线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)中的任意一种。

优选地，所述音频处理单元402还用于：

将所述特定参数分别输入各参考模型之前，基于语音类别对应的音频样本数据利用高斯混合模型进行训练，得到所述语音类别对应的所述参考模型；或者，获取输入的每个所述语音类别对应的所述参考模型并保存。

具体实施中，音频采集单元401采用麦克风实现，定位单元404采用由多个麦克风组成的麦克风阵列实现。

优选地，所述定位单元404具体用于：

确定音频采集单元阵列中每两个所述音频采集单元接收到所述音频数据的时间差，所述音频采集单元阵列中至少包括两个音频采集单元；

根据所述时间差以及所述音频采集单元阵列的位置关系，确定所述说话人所在的地理位置。

优选地，还包括视频数据处理模块，用于：

对采集的视频数据进行处理，识别并获取所述说话人的行为，判断所述说话人的行为是否为危险行为，并将判断结果以及采集的所述音频数据和所述视频数据发送给监控中心，由所述监控中心根据所述判断结果进行实时报警。

基于上述技术方案，本发明实施例中，利用摄像头中设置的音频采集单元采集音频数据，从该音频数据中提取用于反映语音个性特征的特定参数，将所述特定参数分别输入各参考模型，确定与所述特定参数相匹配的参考模型，从而确定出发出该语音的说话人所属的类别，在确定出的参考模型属于预设的优先跟踪参考模型时，确定发出该语音的说话人所在的地理位置，根据该地理位置控制摄像头跟踪拍摄该说话人，获取包含该说话人的视频数据，从而能够根据说话人的声音及时监控需要优先跟踪的说话人，及时获得包含该说话人视频监控画面，以能够为后续的视频分析提供参考依据，提高分析结果的准确率，进而能够及时发现、阻止紧急事件的发生。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种跟踪监控方法，其特征在于，包括：

采集音频数据；

2.如权利要求1所述的方法，其特征在于，所述特定参数为感知线性预测系数PLP、线性预测倒谱系数LPCC或梅尔频率倒谱系数MFCC。

3.如权利要求1所述的方法，其特征在于，将所述特定参数分别输入各参考模型之前，所述方法还包括：

基于语音类别对应的音频样本数据利用高斯混合模型进行训练，得到所述语音类别对应的所述参考模型；

或者，

获取输入的每个所述语音类别对应的所述参考模型并保存。

4.如权利要求1所述的方法，其特征在于，确定发出所述语音的说话人所在的地理位置，包括：

5.如权利要求1-4任一项所述的方法，其特征在于，根据所述地理位置控制摄像头跟踪拍摄所述说话人后，所述方法还包括：

6.一种跟踪监控设备，其特征在于，包括：

音频采集单元，用于采集音频数据；

7.如权利要求6所述的设备，其特征在于，所述特定参数为感知线性预测系数PLP、线性预测倒谱系数LPCC或梅尔频率倒谱系数MFCC。

8.如权利要求6所述的设备，其特征在于，所述音频处理单元还用于：

9.如权利要求6所述的设备，其特征在于，所述定位单元具体用于：

10.如权利要求6-9任一项所述的设备，其特征在于，还包括视频数据处理模块，用于：