CN105554443B

CN105554443B - 视频图像中异响来源的定位方法及装置

Info

Publication number: CN105554443B
Application number: CN201510881850.1A
Authority: CN
Inventors: 周迪; 赵晖
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2018-11-13
Anticipated expiration: 2035-12-04
Also published as: CN105554443A

Abstract

本发明公开了一种视频图像中异响来源的定位方法，用于摄像机跟踪异响来源，包括在检测到异响时控制摄像机镜头转向异响所在方向，所拍摄的视频图像被划分为多个区块，且摄像机设有与区块一一对应的区块声音采集设备，在镜头转向异响所在方向后，还包括：通过区块声音采集设备采集声音，将采集到异响的区块声音采集设备在视频图像中所对应的区块作为第一候选区域；通过运动检测获取视频图像中存在运动物体的第二候选区域；将第一候选区域与第二候选区域对比，获取重合的部分作为摄像机进行跟踪的异响来源。本发明还公开了对应方法的定位装置，利用本发明，能更加准确地反映异响来源所在的位置。

Description

视频图像中异响来源的定位方法及装置

技术领域

本发明涉及视频监控领域，尤其涉及视频图像中异响来源的定位方法及装置。

背景技术

在视频监控中存在很多紧急异常情况下精准获取视频图像的需求，如当检测到呼救、枪声、碰撞、爆炸、高声尖叫等异常声音(异响)后，能立刻将摄像机镜头对准声源位置，并把画面放大，获取感兴趣区域的人或物的视频图像

实际应用时，当摄像机转动至声源方向后，摄像机所拍摄的区域可能存在多个物体，而且多个物体后续都有可能发出声音并进行移动，需要从中识别刚才发出异响的人或物所在图像中精确区域，进行图像放大定点或跟踪拍摄。

摄像机中采用若干个强指向性(定向)拾音器对现场声音信号进行拾取，其中判定异响时，可以将拾音器采集到的声音与预先存储的声音特征相匹配，然后判断发出异响声源方向并控制摄像机转动跟踪。在进行异响来源的定位时，通过定向拾音器来将异响进行大致方向上的确定，从而使摄像机朝向对应的方向。尽管可以通过增加定向拾音器来提高方向指向的准确性，但是仍然只能确定大致方向。

现有技术采用的异响来源定位方式使得摄像机只能较为粗略地指向声源方向，但是不能准确定位声源在图像中的详细位置，无法将声源物体进行持续跟踪，因此存在定位不够精确的问题。

发明内容

为解决现有技术存在的问题，现提供一种定位方法，用以控制摄像机更精确地定位到异响来源，进行后续的跟踪。

一种视频图像中异响来源的定位方法，用于摄像机跟踪异响来源，在通过异响检测的方法检测到异响时控制摄像机的镜头转向异响所在方向，其特征在于，镜头所拍摄的视频图像被划分为多个区块，且摄像机设有分别对各区块实际位置进行声音采集的区块声音采集设备，各区块声音采集设备与区块一一对应，在镜头转向异响所在方向后，还包括：

通过区块声音采集设备采集声音，将采集到异响的区块声音采集设备在视频图像中所对应的区块作为第一候选区域；

通过运动检测获取视频图像中存在运动物体的第二候选区域；

将第一候选区域与第二候选区域对比，获取重合的部分作为摄像机进行跟踪的异响来源。

由于区块声音采集设备对摄像机所朝向的区域进行了划分，每个区块声音采集设备对应一个较小的区块，使得异响产生的区域能够定位得更加精细。另外，诸如爆炸、碰撞等发生异响的事件通常伴随有物体运动，因此在进行声音定位的同时进行运动检测，两者相结合得到重合区域通常能更加准确地反映异响来源所在的位置。

进一步而言，还包括记录所检测异响的若干声音特征，在获取第一候选区域时利用异响检测方法将采集到的声音与所记录的声音特征至少一者符合且音频强度最强的区块声音采集设备作为采集到异响的区块声音采集设备。

异响检测就是检测是否有异常声音，但不能确定是何种异常声音；而异常声音分类，就是将异常声音分类，从而知道检测到的是何种异常声音，很明显，这种方法能检测出的异常声音种类有限。异常声音检测的一般方法是对背景环境声建模，所有和模型不匹配的都是异常声音；而异常声音分类则是对异常声音建模，所有和模型匹配的就是某种异常声音。

一开始进行初始的异响检测可以通过预设的异响模板或模型进行比对，例如通过音调、强度或持续时间大于某个预设值或者与模型相匹配来判定出现了异响，后续出现的异响有可能与所检测到的异响相同或近似，因此将检测到的异响中的声音特征记录下来进行后续匹配，能够使后续的异响检测更加精确。其中声音特征包括声音频率、声音强度以及持续时间，也可以包括从异响中提取的其他声音特征，包括梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7。对于声音频率、声音强度以及持续时间等声音特征，在后续进行匹配时，可以采用百分比的形式设定阈值，例如所采集的声音达到记录的声音强度的80％作为匹配该声音特征的声音，或者声音频率的70％，或者提取的其他特征匹配。这种匹配可以采用现有的异响检测手段进行匹配。

进一步而言，还包括在获取重合部分后，根据视频图像中重合部分到视频图像中心点的水平和垂直距离像素差与整个视频图像像素的比例以及摄像机的水平视场角和垂直视场角，计算需移动的水平角度和垂直角度，控制摄像机使该重合部分位于视频图像中央并进行放大。

进一步而言，当运动检测的结果为不存在运动物体时，将第一候选区域作为异响来源区域并控制摄像机使所述异响来源位于视频图像中央并进行放大。

虽然很多异响都伴随有物体运动，因此能够通过运动检测来精确定位，但对于一些异响来源固定的情况，例如异响来源受到遮挡，或者固定在某处发出喊叫，这类情况通过运动检测无法检测出运动物体，通过设置例外情况进行处理，以免方法无法进一步执行，此时只需要根据区块声音采集设备获得的区域定位异响来源即可。

进一步而言，区块声音采集设备形成矩形阵列，且所划分的各区块在视频图像中的行列位置与所对应的区块声音采集设备在矩形阵列的行列位置相同，其中对于分辨为X*Y的视频图像，当区块声音采集设备的矩阵阵列为a列b行的矩阵阵列时，区块对应地划分为a*b个，每个区块的分辨率为其中X表示每行的像素个数，Y表示每列像素个数。

区块声音采集设备的排布阵列可以呈多种形状，例如十字架形以及圆形等等，由于拍摄到的视频多是矩形，在划分区块时较为简单的划分方式是划分成若干矩形区块，而采用矩形阵列使得区块声音采集设备与所拍摄的区块方位更加对应，减少对不必要区域的声音采集，从而能够在定位时更加精确。矩形阵列中的区块声音采集设备越多，则区块可以划分得越细，进而使区块定位越准确。其中区块划分是均匀的，每个区块分辨率相同。

本发明还提供了对应方法的定位装置，用于解决现有的异响来源定位不精确的问题。

一种视频图像中异响来源的定位装置，用于摄像机跟踪异响来源，包括镜头控制模块，在通过异响检测的方法检测到异响时控制摄像机的镜头转向异响所在方向，镜头所拍摄的视频图像被划分为多个区块，且摄像机设有分别对各区块实际位置进行声音采集的区块声音采集设备，各区块声音采集设备与区块一一对应，还包括第一候选区域获取模块、第二候选区域获取模块以及对比定位模块，在镜头转向异响所在方向后，区块声音采集设备采集声音，其中，

所述第一候选区域获取模块将采集到异响的区块声音采集设备在视频图像中所对应的区块作为第一候选区域；

所述第二候选区域获取模块通过运动检测获取视频图像中存在运动物体的第二候选区域；

所述对比定位模块将第一候选区域与第二候选区域对比，获取重合的部分作为摄像机进行跟踪的异响来源。

进一步而言，还包括模板生成模块，用于记录所检测异响的若干声音特征，在获取第一候选区域时利用异响检测方法将采集到的声音与所记录的声音特征至少一者符合且音频强度最强的区块声音采集设备作为采集到异响的区块声音采集设备。

一开始进行初始异响检测可以通过预设的异响模板或模型进行比对，例如通过音调、强度或持续时间大于某个预设值或者与模型相匹配来判定出现了异响，后续出现的异响有可能与所检测到的异响相同或近似，因此将检测到的异响作为模板进行匹配，能够使后续的异响检测更加精确。

进一步而言，还包括异响来源跟踪模块，用于在获取重合部分后，根据视频图像中重合部分到视频图像中心点的水平和垂直距离像素差与整个视频图像像素的比例以及摄像机的水平视场角和垂直视场角，计算需移动的水平角度和垂直角度，控制摄像机使该重合部分位于视频图像中央并进行放大。

在获取异响声源后，再将其放置到中央位置和放大，从而可以对异响来源进行精确的拍摄跟踪。

进一步而言，当所述第二候选区域获取模块运动检测的结果为不存在运动物体时，将第一候选区域作为异响来源区域并控制摄像机使所述异响来源位于视频图像中央并进行放大。

区块声音采集设备的排布阵列可以呈多种形状，例如十字架形以及圆形等等，由于拍摄到的视频多是矩形，在划分区块时较为简单的划分方式是划分成若干矩形区块，而采用矩形阵列使得区块声音采集设备与所拍摄的区块方位更加对应，减少对不必要区域的声音采集，从而能够在定位时更加精确。矩形阵列中的区块声音采集设备越多，则区块可以划分得越细，进而使区块定位越准确。

本发明的突出优点在于，区块声音采集设备对摄像机所朝向的区域进行了划分，每个区块声音采集设备对应一个较小的区块，使得异响产生的区域能够定位得更加精细；在进行声音定位的同时进行运动检测，两者相结合得到重合区域通常能更加准确地反映异响来源所在的位置；将检测到的异响作为模板进行匹配，能够使后续的异响检测更加精确。

附图说明

图1为本发明一个实施例的麦克风阵列设置位置示意图；

图2A为麦克风呈矩形阵列的示意图；

图2B为麦克风呈十字阵列的示意图；

图2C为麦克风呈圆形阵列的示意图；

图3为当前实施例中所采用的麦克风阵列示意图；

图4A为当前实施例麦克风阵列中采集到异响的麦克风示意图；

图4B为图4A所示图中区块对应位置示意图；

图5为当前实施例中运动检测的结果示意图；

图6为当前实施例对重合部分进行放大显示的示意图；

图7为当前实施例方法流程的示意图。

具体实施方式

为使本发明更加清楚明了，现结合附图和实施例对本发明加以更加详细的解释说明。

本发明一个实施例中，采用本发明的定位装置来实施本发明的定位方法，其中，当前实施例中，定位装置包括：定向声音检测模块、镜头控制模块、麦克风阵列、运动检测模块。

麦克风阵列用于收集音频，并识别音频模板生成模块记录的异常音频信号模板信息相同的音频信号，其中麦克风阵列设置在摄像机镜头所在同一平面。

本发明当前实施例的方法如图7所示，具体包括如下步骤：

A，在检测到异常声音(异响)时，控制摄像机镜头转向异响所在方向。

摄像机中的定向声音检测模块设有若干定向麦克风，用于检测异响以及异响来源的方向信息，并将方向信息送至镜头控制模块，镜头控制模块控制摄像机的镜头转动到相应的方向。

异常声音检测目前有两种方案，一种叫异常声音检测，另一种叫异常声音分类。所谓异常声音检测，就是检测是否有异常声音，但不能确定是何种异常声音；而异常声音分类，就是将异常声音分类，从而知道检测到的是何种异常声音，很明显，这种方法能检测出的异常声音种类有限。异常声音检测的一般方法是对背景环境声建模，所有和模型不匹配的都是异常声音；而异常声音分类则是对异常声音建模，所有和模型匹配的就是某种异常声音。这两种方法的原理其实都来自语音识别，本质上是要训练出一个分类器。而语音识别的关键是分类器的区分度，也就是模型的准确性，而这又是由所选的声学特征和声音模型确定的。目前有许多声音特征提取方法，如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等，其中MFCC是基于倒谱的，更符合人的听觉原理，因而是最普遍、最有效的声音特征提取算法。

当前实施例中，通过对异常声音建模来进行异常声音检测，所提取的声学特征采用MFCC。在进行异常声音检测时，定向声音检测模块利用定向麦克风采集到的声音与预先保存的模板进行匹配，当采集到的声音在响度、音调以及持续时间等方面符合预先保存的模板时，判断为检测到异响，接着通过声音到达定向声音检测模块中的各定向麦克风的时间差及强度计算异响来源的方向，并将这一方向信息发送至镜头控制模块，由镜头控制模块控制摄像机转向异常声源方向，同时将此异常声音作为最新模板异常音频信号信息送至音频模板生成模块处理并记录下来。

B，通过区块声音采集设备采集声音，将采集到异响的区块声音采集设备在视频图像中所对应的区块作为第一候选区域。

当前实施例中，区块声音采集设备为麦克风，多个麦克风形成麦克风阵列，且麦克风阵列与摄像机镜头设在同一平面，不同位置的各麦克风与摄像机所摄视频图像的相应位置的区块一一对应，每个麦克风采集对应区块的声音。其中当前实施例中区块是指宏块。视频编码中，一个编码图像通常划分成若干个宏块，一个宏块由一个亮度像素块和附加的两个色度像素块组成。一般来说，亮度块为16*16大小的像素块，而两个色度图像像素块的大小依据其图像的采样格式而定，如：对于YUV420采样图像，色度块为8*8大小的像素块。每个视频图象中，若干个宏块被排列成片的形式，视频编码算法以宏块为单位，逐个宏块进行编码，组织成连续的视频码流。

麦克风阵列收集音频，然后识别匹配与刚才记录的异常音频信号模板信息相同的音频信号；根据麦克风阵列中接收到的匹配上的音频信号最强的若干个麦克风所在位置确定声源在图像中的相应宏块，从而定位声源在视频图像中的准确位置。

如图1方框A所示，在摄像机的镜头同一平面和方向设置麦克风阵列，麦克风阵列的形状可以为矩形(图2A)、十字架(图2B)、圆形(图2C)等，如图2所示，其中每个小圆表示一个全向麦克风，摄像机可根据不同的定位需求来安装不同数量和形状的麦克风阵列。当前实施例采用如图3所示的16*9形式的矩形麦克风阵列。矩形的麦克风阵列分布较均匀，因此在对应到摄像机摄制画面中的宏块时，与十字架形以及圆形阵列相比，在方向上与视频图像所划分出的宏块更加对应，尽可能减少无关区域声音的采集，因此在后续宏块的定位上会更加精确。如具有不同的定位需求，麦克风也可以采用其他的阵列排布方法。其中矩形的麦克风阵列中麦克风数目越多，则对应的宏块划分越小，定位也就越精确。

假设摄像机所能摄制的图像最大分辨率为X(水平)*Y(垂直)，单位为像素，摄像机上麦克风阵列中麦克风在水平方向上有a列，垂直方向为b行，则当前实施例中的麦克风阵列有a*b个，则可将整个画面划为a*b个宏块，每个麦克风对应的宏块大小为(为向下取整)。

图3所示当前实施例的麦克风阵列为16*9(即a＝16，b＝9)的麦克风阵列，摄像机分辨率为1920*1080，则每个麦克风对应的视频图像中宏块大小为即每个宏块为120*120。将麦克风阵列中的各个麦克风以及视频画面中每个120*120大小的各个宏块进行编号，则各宏块的编号与麦克风阵列中麦克风的编号一一对应。

摄像机转动到声源方向后，通过麦克风阵列中每个麦克风收集的声音信号并与刚才保存的异常声音模板进行匹配，将其中能匹配上并且音频强度最高的若干麦克风(数量可预先设置或动态调整)，将其麦克风编号转为对应的宏块编号发送给视频跟踪模块，如图4A所示，实心圆为匹配上并强度最高的8个麦克风位置，如图4B所示对应编号为{(12,6)、(12,7)、(13,6)、(13,7)、(13,8)、(14,7)、(14,8)、(15,8)}的宏块，括号内(X,Y)为宏块在X轴和Y轴的编号。

C，运动检测模块通过运动检测获取视频图像中存在运动物体的第二候选区域。

运动检测模块进行运动检测，通过图像检测移动物体可能有多个，如图5右上角和左下角各有一个移动物体。

运动检测也称为移动侦测，常用于无人值守监控录像和自动报警。通过摄像头按照不同帧率采集得到的图像会被CPU按照一定算法进行计算和比较，当画面有变化时，如有人走过，镜头被移动，计算比较结果得出的数字会超过阈值并指示系统能自动作出相应的处理背景减除法(Background Subtraction)是目前运动检测中最常用的一种方法，它是利用当前图像与背景图像的差分来检测出运动区域的一种技术。它一般能够提供最完全的特征数据，但对于动态场景的变化，如光照和外来无关事件的干扰等特别敏感。最简单的背景模型是时间平均图像，大部分的研究人员目前都致力于开发不同的背景模型，以期减少动态场景变化对于运动分割的影响。时间差分(又称相邻帧差)方法(Temporal Difference)是在连续的图像序列中两个或三个相邻帧间采用基于像素的时间差分并且阈值化来提取出图像中的运动区域。时间差分运动检测方法对于动态环境具有较强的自适应性，但一般不能完全提取出所有相关的特基于光流方法(Optical Flow)的运动检测采用了运动目标随时间变化的光流特性，如Meyer[2]等通过计算位移向量光流场来初始化基于轮廓的跟踪算法，从而有效地提取和跟踪运动目标。此外，在运动检测中还有一些其他的方法，运动向量检测法，适合于多维变化的环境，能消除背景中的振动像素，使某一方向的运动对象更加突出的显示出来，但运动向量检测法也不能精确地分割出对象。

本发明可以采用上述的若干中方法进行运动检测，例如当前实施例采用时间差分法进行检测。运动检测得到如图5所示两个第二候选区域的结果。其中步骤C可以与步骤B同时进行，也可以在步骤A之后步骤B之前进行，也可以在步骤B之后进行。当前实施例中，步骤C在步骤B完成后进行，得到图5所示的两个第二候选区域。

D，将第一候选区域与第二候选区域对比，获取重合的部分作为摄像机进行跟踪的异响来源。

根据麦克风阵列采集的异常声源位置得到图4B中与图5中重合的区域(即右上角区域)，因此将右上角移动物体判别为发出异常声音的物体。

通过在视频图像中作为异响来源的宏块位置到视频中心点的水平和垂直距离像素差与整个图像像素的比例、摄像机水平和垂直视场角计算需移动的水平角度和垂直角度，然后根据摄像机水平和垂直角速度则可以控制摄像机转动将该部分宏块置于整个图像中央，然后根据预先设置的放大比例进行放大控制，例如可将其放大至整个画面的1/5，如图6所示。

运动检测也会存在例外情况，例如异响来源受到遮挡，或者异响来源固定在原地不动，这时运动检测模块就无法检测到运动物体。当运动检测模块内未检测到运动物体时，则直接将如图4B所示麦克风阵列检测到的第一候选区域各宏块置于画面中央并进行放大。

在得到重合部分之后，如果后续过程中异响消失，只能通过运动检测的方式检测到运动物体，则直接继续对图5所示原先标记的重合部分区域进行拍摄跟踪。

本发明的突出优点在于，区块声音采集设备对摄像机所朝向的区域进行了划分，每个区块声音采集设备对应一个较小的区块，使得采集到异响的区域能够定位得更加精细；在进行声音定位的同时进行运动检测，两者相结合得到重合区域通常能更加准确地反映异响所在的位置；将检测到的异响作为模板进行匹配，能够使后续的异响检测更加精确。

Claims

1.一种视频图像中异响来源的定位方法，用于摄像机跟踪异响来源，在通过异响检测的方法检测到异响时控制摄像机的镜头转向异响所在方向，其特征在于，镜头所拍摄的视频图像被划分为多个区块，且摄像机设有分别对各区块实际位置进行声音采集的区块声音采集设备，各区块声音采集设备与区块一一对应，在镜头转向异响所在方向后，还包括：

2.如权利要求1所述视频图像中异响来源的定位方法，其特征在于，还包括记录所检测异响的若干声音特征，在获取第一候选区域时利用异响检测方法将采集到的声音与所记录的声音特征至少一者符合且音频强度最强的区块声音采集设备作为采集到异响的区块声音采集设备。

3.如权利要求2所述视频图像中异响来源的定位方法，其特征在于，还包括在获取重合部分后，根据视频图像中重合部分到视频图像中心点的水平和垂直距离像素差与整个视频图像像素的比例以及摄像机的水平视场角和垂直视场角，计算需移动的水平角度和垂直角度，控制摄像机使该重合部分位于视频图像中央并进行放大。

4.如权利要求3所述视频图像中异响来源的定位方法，其特征在于，当运动检测的结果为不存在运动物体时，将第一候选区域作为异响来源区域并控制摄像机使所述异响来源位于视频图像中央并进行放大。

5.如权利要求1所述视频图像中异响来源的定位方法，其特征在于，区块声音采集设备形成矩形阵列，且所划分的各区块在视频图像中的行列位置与所对应的区块声音采集设备在矩形阵列的行列位置相同，其中对于分辨率为X*Y的视频图像，当区块声音采集设备的矩阵阵列为a列b行的矩阵阵列时，区块对应地划分为a*b个，每个区块的分辨率为其中X表示每行的像素个数，Y表示每列像素个数。

6.一种视频图像中异响来源的定位装置，用于摄像机跟踪异响来源，包括镜头控制模块，在通过异响检测的方法检测到异响时控制摄像机的镜头转向异响所在方向，其特征在于，镜头所拍摄的视频图像被划分为多个区块，且摄像机设有分别对各区块实际位置进行声音采集的区块声音采集设备，各区块声音采集设备与区块一一对应，还包括第一候选区域获取模块、第二候选区域获取模块以及对比定位模块，在镜头转向异响所在方向后，区块声音采集设备采集声音，其中，

7.如权利要求6所述视频图像中异响来源的定位装置，其特征在于，还包括模板生成模块，用于记录所检测异响的若干声音特征，在获取第一候选区域时利用异响检测方法将采集到的声音与所记录的声音特征至少一者符合且音频强度最强的区块声音采集设备作为采集到异响的区块声音采集设备。

8.如权利要求7所述视频图像中异响来源的定位装置，其特征在于，还包括异响来源跟踪模块，用于在获取重合部分后，根据视频图像中重合部分到视频图像中心点的水平和垂直距离像素差与整个视频图像像素的比例以及摄像机的水平视场角和垂直视场角，计算需移动的水平角度和垂直角度，控制摄像机使该重合部分位于视频图像中央并进行放大。

9.如权利要求8所述视频图像中异响来源的定位装置，其特征在于，当所述第二候选区域获取模块运动检测的结果为不存在运动物体时，将第一候选区域作为异响来源区域并控制摄像机使所述异响来源位于视频图像中央并进行放大。

10.如权利要求6所述视频图像中异响来源的定位装置，其特征在于，区块声音采集设备形成矩形阵列，且所划分的各区块在视频图像中的行列位置与所对应的区块声音采集设备在矩形阵列的行列位置相同，其中对于分辨率为X*Y的视频图像，当区块声音采集设备的矩阵阵列为a列b行的矩阵阵列时，区块对应地划分为a*b个，每个区块的分辨率为其中X表示每行的像素个数，Y表示每列像素个数。