CN111580049A - 动态目标声源跟踪监测方法及终端设备 - Google Patents
动态目标声源跟踪监测方法及终端设备 Download PDFInfo
- Publication number
- CN111580049A CN111580049A CN202010431768.XA CN202010431768A CN111580049A CN 111580049 A CN111580049 A CN 111580049A CN 202010431768 A CN202010431768 A CN 202010431768A CN 111580049 A CN111580049 A CN 111580049A
- Authority
- CN
- China
- Prior art keywords
- sound source
- target sound
- field
- determining
- sound field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012544 monitoring process Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012806 monitoring device Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000001914 filtration Methods 0.000 description 9
- 230000004807 localization Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000007688 edging Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本申请公开了一种动态目标声源跟踪监测方法及终端设备。其中方法包括:获取目标声源的多通道声信号;对多通道声信号进行声场重建处理,得到目标声源在预定区域的声场;基于声场,确定目标声源的位置;依据目标声源的位置,判断目标声源是否位于预设的图像采集设备的视场范围;若目标声源位于预设的图像采集设备的视场范围,则确定与多通道声信号对应的视频帧图像;依据目标声源的声场和视频帧图像,对目标声源进行定位处理。本申请通过将目标声源与视场范围的比较,起到了将声源位置中心限制在视频场视角监测范围内,实现对目标声源的追踪目的,避免了因目标声源处于移动状态导致的对目标声源的追踪准确率低,甚至无法追踪的问题。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种动态目标声源跟踪监测方法及终端设备。
背景技术
声音定位(sound localization)是指利用环境中的声音确定声源方向和距离的行为。相关的声音定位技术,主要通过传声器监测到的声信号来确定声源的位置。
然而,这种声源定位方法主要存在如下问题:一、声音定位采用的传声器数量少,存在声场重建精度差的问题,从而声源定位精度差;二、无法保证声源是否位于待监测区域,因此,声源定位可能有误。
发明内容
为了解决上述至少一个技术问题,本申请提供一种动态目标声源跟踪监测方法、装置、终端设备及存储介质。
根据本申请的第一方面,提供了一种动态目标声源跟踪监测方法,该方法包括:
获取目标声源的多通道声信号;
对多通道声信号进行声场重建处理,得到目标声源在预定区域的声场;
基于声场,确定目标声源的位置;
依据目标声源的位置,判断目标声源是否位于预设的图像采集设备的视场范围;
若目标声源位于预设的图像采集设备的视场范围,则确定与多通道声信号对应的视频帧图像;
依据目标声源的声场和视频帧图像,对目标声源进行定位处理。
根据本申请的第二方面,提供了一种动态目标声源跟踪监测装置,该装置包括:
声信号获取模块,用于获取目标声源的多通道声信号;
声场确定模块,用于对多通道声信号进行声场重建处理,得到目标声源在预定区域的声场;
声源位置确定模块,用于基于声场,确定目标声源的位置;
视场区域判断模块,用于依据目标声源的位置,判断目标声源是否位于预设的图像采集设备的视场范围;
视频帧图像确定模块,用于若目标声源位于预设的图像采集设备的视场范围,则确定与多通道声信号对应的视频帧图像;
声源定位处理模块,用于依据目标声源的声场和视频帧图像,对目标声源进行定位处理。
根据本申请的第三方面,提供了一种终端,该终端包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时以实现上述动态目标声源跟踪监测方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,该介质存储有计算机可执行指令,该计算机可执行指令用于以执行上述动态目标声源跟踪监测方法。
本申请实施例通过对多通道声信号的处理,来确定目标声源在预定区域的声场,从而确定目标声源的位置,以判断目标声源是否位于预定的视场范围,并在目标声源位于预定的视场范围的条件下,结合与多通道声信号对应的视频帧图像对目标声源进行定位,这种通过判断目标声源是否位于预定的视场范围的方式,将目标声源限制的视频采集范围,使目标声源实时处于视频采集范围,以便将目标声源显示在视频中,起到实时追踪目标声源的效果,提高了追踪目标声源的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种动态目标声源跟踪监测方法的流程示意图;
图2为本申请一个实施例提供的动态目标声源跟踪监测方法中视场范围与监控范围的关系示意图;
图3为本申请实施例提供的一种动态目标声源跟踪监测方法中对目标声源的定位处理流程示意图;
图4为本申请实施例提供的一种动态目标声源跟踪监测方法的应用系统的结构示意图;以及
图5为本申请实施例提供的一种动态目标声源跟踪监测装置的框图结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
本申请中,伪彩图像(pseudo-color)的每个像素值实际上是一个索引值或代码,该代码值作为色彩查找表CLUT(Color Look-Up Table)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。这种用查找映射的方法产生的色彩称为伪彩色,生成的图像为伪彩色图像。
本申请中,声场是指媒质中有声波存在的区域。声场的物理量可以采用声压、质点振动速度、位移或媒质密度等进行描述。它们一般都是位置和时间的函数。声场中这些物理量随空间位置的变化与随时间的变化间的关系由声学波动方程描述,解出声波方程的满足边界条件的解即可知道声场随空间的分布、随时间的变化及能量关系等。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
根据本申请的一个实施例,提供了一种动态目标声源跟踪监测方法,如图1所示,该方法包括:步骤S101至步骤S106。
步骤S101:获取目标声源的多通道声信号。
本申请实施例中,多通道信号用于表征预部署的传声器阵列监测到多通道声信号。具体地,传感器声阵列一般包括多个传声器,以监测到多个传声器各自的通道的声信号,并发送至电子设备。例如,传感器声阵列包括为64通道传感器阵列,即包括由64个传声器。
具体地,电子设备一般逐帧对多通道声信号进行处理。例如,电子设备获取一帧多通道声信号。
具体地,目标声源可以为处于移动状态的对象,如汽车、无人机等。
步骤S102:对多通道声信号进行声场重建处理,得到目标声源在预定区域的声场。
本申请实施例中,声场是指预定区域各个位置的声场值,如声压。
具体地,预定区域一般是根据图像采集设备的分辨率来确定的。例如,1920*1080为图像采集设备的分辨率,即将图像采集设备的分辨率作为预定区域。
步骤S103:基于声场,确定目标声源的位置。
具体地,目标声源的位置一般通过坐标来进行表示。
具体地,可以根据声场中各个空间位置的声场值,来确定值最大的声场值,从而确定目标声源的位置。
步骤S104:依据目标声源的位置,判断目标声源是否位于预设的图像采集设备的视场范围。
本申请实施例中,视场范围用于表征图像采集设备至少预定的俯仰角和方位角配置下的视场角。
具体地,可以通过判断目标声源的坐标是否位于视场范围来执行该步骤。
步骤S105:若目标声源位于预设的图像采集设备的视场范围,则确定与多通道声信号对应的视频帧图像。
具体地,视频帧图像一般是与声信号同步的,即相同时间采集到的。
具体地,电子设备获取到图像采集装置,如摄像头,采集的视频时,可以先缓存在电子设备本地,在需要时,按照预设规则读取视频帧。例如,按照时间先后顺序逐帧读取视频帧图像,从而确定与多通道声信号对应的视频帧图像。
例如,按照多通道声信号的时间标签来确定与多通道声信号对应的视频帧图像。
步骤S106:依据目标声源的声场和视频帧图像,对目标声源进行定位处理。
本申请实施例通过对多通道声信号的处理,来确定目标声源在预定区域的声场,从而确定目标声源的位置,以判断目标声源是否位于预定的视场范围,并在目标声源位于预定的视场范围的条件下,结合与多通道声信号对应的视频帧图像对目标声源进行定位,这种通过判断目标声源是否位于预定的视场范围的方式,将目标声源限制的视频采集范围,使目标声源实时处于视频采集范围,以便将目标声源显示在视频中,起到实时追踪目标声源的效果,提高了追踪目标声源的准确率。
在一些实施例中,步骤S102进一步包括:
步骤S1021(图中未示出):依据多通道声信号,确定声信号协方差矩阵;
步骤S1022(图中未示出):基于预设的信号相关信息,确定导向矢量以及导向矢量的共轭矢量;
步骤S1023(图中未示出):依据声信号协方差矩阵、导向矢量以及共轭矢量的乘积,确定目标声源在预定区域的声场。
具体地,可以依据预配置的声场重建算法对多通道声信号进行处理。
具体地,声场重建处理的具体过程如下:
(1):计算协方差矩阵Rx,Rx计算公式如下:
(2):将待测试区域空间网格成为1280x720,根据加载矢量W[1280][720][64]。分解为1280x 720个模块,在时钟节拍同一时刻,计算出测试声场空间1280x720个点声压值P[1280][720]。
其中,矢量w(xi,yj)的计算公式如下:
其中,exp()为指数;
jay为虚数单位;
f0测试声信号频率(本申请实施例设置为300Hz<f0<12KHz,即滤波处理所依据的分析频率);
(xi,yj,h)为待测试点空间坐标点分量;
c为声速340m/s;
(axk,ayk)为传声器阵列坐标,单位m,1≤k≤M。
本申请实施例通过通过矢量和协方差矩阵,计算空间任意一点(xi,yj,h)处的声场值P(i,j)计算公式入下:
P(i,j)=w(xi,yj)·Rx·w(xi,yj)T,其中,其中,w(xi,yj)T为w(xi,yj)的共轭转置;P(i,j)为1280x720声场数据,浮点型。
在一些实施例中,步骤S1021之前,该方法还可以包括:
对多通道声信号进行滤波处理,以依据滤波处理后的多通道声信号,确定声信号协方差矩阵。
具体地,按照预先设定的设定分析频带,对多通道声信号进行滤波处理。例如,利用预设的带通滤波器对多通道声信号进行滤波处理,该带通滤波器中预先设定的频率范围300Hz-12KHz(即预先设定的分析频率),通过滤波处理,使得滤波处理后的多通道声信号各自的频率范围符合300Hz-12KHz。
在一些实施例中,对多通道声信号进行滤波处理之前,该方法还可以包括:
若多通道声信号的信噪比小于预设的信噪比阈值,则将多通道麦克风声信号进行放大处理,以依据放大处理后的多通道声信号进行滤波处理。
具体地,电子设备获取到的多通道声信号既可以是传声器阵列放大处理后的信号,也可以是未放大处理的信号。更具体地,若电子设备获取到的多通道声信号为未放大处理后的信号,则可以通过放大处理,来使多通道声信号具有足够的信噪比。
具体地,电子设备可以通过预配置的信号调理板来多个放大信号进行过滤,以使过滤后信号符合预定义的信号频率范围。更具体地,信号调理板可以通过反向放大电路和12阶带通滤波电路进行处理。其中,放大电路增益可以进行1-100的调整,带通滤波电路通频带为60Hz~12KHz,带外衰减>-40dB/十倍频程。在完成对多通道声信号的放大和滤波处理后,得到待处理的多通道声信号。
在一些实施例中,步骤S103进一步包括:
确定声场对应的最大声场值;
依据最大声场值对应的位置,确定为目标声源的方位角和俯仰角。
具体地,可以参照如下方式确定声场任一位置的声压值:
w(i,j)=[w1 w1 … wM];
其中,P(xi,yj)为声场中任一点(xi,yj)处的声压值;w(i,j)为导向矢量;M为阵元序号。具体地,M为阵元数量64;Rx为数据协方差矩阵;1≤k≤N,N为单通道1帧采集数据点数。Xk,·为一次采样快拍。
具体地,通过对声场的扫描来确定最大声场值以及最大声场的位置。
例如,通过搜索扫描方法的计算过程如下:
在一些实施例中,步骤S104进一步包括:
将目标声源的方位角和俯仰角,分别与预定义的图像采集设备的方位角范围和俯仰角范围进行比较;
依据比较结果,判断目标声源是否位于预设的图像采集设备的视场范围。
具体地,可以结合图2,判断目标声源是否落入预定的视场范围,方法如下:
其中:P(x0,y0,h)为通过声像计算出声源在声场的空间位置,h为空间测量平面;θ为计算出的声源的开角;θ0为监测区域开角。
具体地,若目标声源位于预设的图像采集设备的视场范围外,则依据目标声源的位置生成对应的控制指令,以依据控制指令调整图像采集装置的姿态。例如,调整方位角的指令、调整俯仰角的指令等,通过控制指令使得图像采集装置实时拍摄到目标声源,使得目标声源位于图像采集设备的视场范围内,达到对目标声源的实时追踪目的。
在一些实施例中,步骤S105中确定与多通道声信号对应的视频帧图像进一步,包括:
依据多通道声信号的时间标签,确定与多通道声信号对应的视频帧图像。
本申请实施例通过时间标签来读取与多通道声信号同步的视频帧图像。
在一些实施例中,如图3所示,步骤S106进一步,包括:
步骤S1061:对声场进行边缘化处理;
步骤S1062:基于预配置的多种声场值范围分别对应的RGB转换规则,对边缘化处理后的声场进行RGB参数转换,得到伪彩图像;
步骤S1063:将伪彩图像和视频帧图像的同一像素位置的RGB参数,进行加权相加处理,得到融合图像;
步骤S1064:在融合图像上对目标声源的位置进行显示处理。
具体地,可以参照以下规则进行转换:
具体地,可以参照以下过程执行步骤S1063:
其中,1≤i≤1920,1≤j≤1080,λ=0.5图像加权系数。
本申请实施例中,伪彩图像是指将声压值转换为RGB参数后的图像。
在一些实施例中,步骤S1061进一步,包括:
确定声场的各个位置分别对应的初始声场值;
将声场的各个位置分别对应的初始声场值,分别与预设的声场门限值进行比较;
依据比较结果,得到声场的各个位置分别对应的目标声场值。
具体地,对声场进行边缘化处理方式如下:
首先,对声场进行归一化处理,处理方式如下所示:
其次,去边缘处理,通过门限值来与声场进行比较,设置为最低,这样可以突出声音最大值点出的声音,更为直观显示;
其中,P(xi,yj)为声场中点(xi,yj)的声压值;Pth为声场门限值。具体地,Pth的取值可以为Pth(0.6~0.9)。经过归一化处理和去边沿处理后,声场范围为P(xi,yj)∈[Pth 1]。经过以上步骤处理后,声场值转换到0~255范围内,即就是P(i,j)∈[0 255],进一步,将声场值P(i,j)进行RGB三基色转换。
为了进一步说明本申请提供的动态目标声源跟踪监测方法,下面结合图4所示的应用系统进行详细说明。
该应用系统包括传声器阵列100、摄像头200和电子设备300。传声器阵列100用于监测多通道声信号,并发送至电子设备300;摄像头200用于采集视频,并发送至电子设备300。电子设备300获取传声器阵列100发送的多通道声信号,并确定多通道声信号对应的目标声源在预定区域的声场;从而依据该声场来判断目标声源是否位于摄像头200的图像采集范围,并在目标声源位于摄像头200的图像采集范围的条件下,对声场进行去边缘化处理,并转换为伪彩图像;将伪彩图像与对应的视频帧图像进行融合处理,得到融合图像,并融合图像中标记处目标声源。另外,在依据声场值确定处目标声源的位置后,判断目标声源是否位于融合图像对应的监测区域。若在目标声源位于摄像头200的图像采集范围外的条件下,生成控制指令,并发送摄像头200,以调整摄像头200的姿态。
本申请的又一实施例提供了一种动态目标声源跟踪监测装置,如图5所示,该装置50包括:声信号获取模块501、声场确定模块502、声源位置确定模块503、视场区域判断模块504、视频帧图像确定模块505以及声源定位处理模块506。
声信号获取模块501,用于获取目标声源的多通道声信号;
声场确定模块502,用于对多通道声信号进行声场重建处理,得到目标声源在预定区域的声场;
声源位置确定模块503,用于基于声场,确定目标声源的位置;
视场区域判断模块504,用于依据目标声源的位置,判断目标声源是否位于预设的图像采集设备的视场范围;
视频帧图像确定模块505,用于若目标声源位于预设的图像采集设备的视场范围,则确定与多通道声信号对应的视频帧图像;
声源定位处理模块506,用于依据目标声源的声场和视频帧图像,对目标声源进行定位处理。
本申请实施例通过对多通道声信号的处理,来确定目标声源在预定区域的声场,从而确定目标声源的位置,以判断目标声源是否位于预定的视场范围,并在目标声源位于预定的视场范围的条件下,结合与多通道声信号对应的视频帧图像对目标声源进行定位,这种通过判断目标声源是否位于预定的视场范围的方式,将目标声源限制的视频采集范围,使目标声源实时处于视频采集范围,以便将目标声源显示在视频中,起到实时追踪目标声源的效果,提高了追踪目标声源的准确率。
进一步地,声场确定模块用于:
依据多通道声信号,确定声信号协方差矩阵;
基于预设的信号相关信息,确定导向矢量以及导向矢量的共轭矢量;
依据声信号协方差矩阵、导向矢量以及共轭矢量的乘积,确定目标声源在预定区域的声场。
进一步地,声源位置确定模块用于:
确定声场对应的最大声场值;
依据最大声场值对应的位置,确定为目标声源的方位角和俯仰角。
进一步地,视场区域判断模块用于:
将目标声源的方位角和俯仰角,分别与预定义的图像采集设备的方位角范围和俯仰角范围进行比较;
依据比较结果,判断目标声源是否位于预设的图像采集设备的视场范围。
进一步地,视频帧图像确定模块用于:
依据多通道声信号的时间标签,确定与多通道声信号对应的视频帧图像。
进一步地,声源定位处理模块用于:
对声场进行边缘化处理;
基于预配置的多种声场值范围分别对应的RGB转换规则,对边缘化处理后的声场进行RGB参数转换,得到伪彩图像;
将伪彩图像和视频帧图像的同一像素位置的RGB参数,进行加权相加处理,得到融合图像;
在融合图像上对目标声源的位置进行显示处理。
进一步地,声源定位处理模块用于:
确定声场的各个位置分别对应的初始声场值;
将声场的各个位置分别对应的初始声场值,分别与预设的声场门限值进行比较;
依据比较结果,得到声场的各个位置分别对应的目标声场值。
本实施例的动态目标声源跟踪监测装置可执行本申请实施例提供的动态目标声源跟踪监测方法,其实现原理相类似,此处不再赘述。
本申请又一实施例提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时以实现上述动态目标声源跟踪监测方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现图5所示实施例提供的动态目标声源跟踪监测装置的动作。
本申请实施例通过对多通道声信号的处理,来确定目标声源在预定区域的声场,从而确定目标声源的位置,以判断目标声源是否位于预定的视场范围,并在目标声源位于预定的视场范围的条件下,结合与多通道声信号对应的视频帧图像对目标声源进行定位,这种通过判断目标声源是否位于预定的视场范围的方式,将目标声源限制的视频采集范围,使目标声源实时处于视频采集范围,以便将目标声源显示在视频中,起到实时追踪目标声源的效果,提高了追踪目标声源的准确率。
本申请又一实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述图1所示的动态目标声源跟踪监测方法。
本申请实施例通过对多通道声信号的处理,来确定目标声源在预定区域的声场,从而确定目标声源的位置,以判断目标声源是否位于预定的视场范围,并在目标声源位于预定的视场范围的条件下,结合与多通道声信号对应的视频帧图像对目标声源进行定位,这种通过判断目标声源是否位于预定的视场范围的方式,将目标声源限制的视频采集范围,使目标声源实时处于视频采集范围,以便将目标声源显示在视频中,起到实时追踪目标声源的效果,提高了追踪目标声源的准确率。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种动态目标声源跟踪监测方法,其特征在于,包括:
获取目标声源的多通道声信号;
对所述多通道声信号进行声场重建处理,得到所述目标声源在预定区域的声场;
基于所述声场,确定所述目标声源的位置;
依据所述目标声源的位置,判断所述目标声源是否位于预设的图像采集设备的视场范围;
若所述目标声源位于预设的图像采集设备的视场范围,则确定与所述多通道声信号对应的视频帧图像;
依据所述目标声源的声场和所述视频帧图像,对所述目标声源进行定位处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述多通道声信号进行声场重建处理,得到所述目标声源在预定区域的声场,包括:
依据所述多通道声信号,确定声信号协方差矩阵;
基于预设的信号相关信息,确定导向矢量以及所述导向矢量的共轭矢量;
依据所述声信号协方差矩阵、所述导向矢量以及所述共轭矢量的乘积,确定所述目标声源在预定区域的声场。
3.根据权利要求1所述的方法,其特征在于,所述基于所述声场,确定所述目标声源的位置,包括:
确定所述声场对应的最大声场值;
依据所述最大声场值对应的位置,确定为所述目标声源的方位角和俯仰角。
4.根据权利要求3所述的方法,其特征在于,所述依据所述目标声源的位置,判断所述目标声源是否位于预设的图像采集设备的视场范围,包括:
将所述目标声源的所述方位角和所述俯仰角,分别与预定义的所述图像采集设备的方位角范围和俯仰角范围进行比较;
依据比较结果,判断所述目标声源是否位于预设的图像采集设备的视场范围。
5.根据权利要求1所述的方法,其特征在于,所述确定与所述多通道声信号对应的视频帧图像,包括:
依据所述多通道声信号的时间标签,确定与所述多通道声信号对应的视频帧图像。
6.根据权利要求1所述的方法,其特征在于,所述依据所述目标声源的声场和所述视频帧图像,对所述目标声源进行定位处理,包括:
对所述声场进行边缘化处理;
基于预配置的多种声场值范围分别对应的RGB转换规则,对边缘化处理后的所述声场进行RGB参数转换,得到伪彩图像;
将所述伪彩图像和所述视频帧图像的同一像素位置的RGB参数,进行加权相加处理,得到融合图像;
在所述融合图像上对所述目标声源的位置进行显示处理。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标声源的声场进行边缘化处理,包括:
确定所述声场的各个位置分别对应的初始声场值;
将所述声场的各个位置分别对应的初始声场值,分别与预设的声场门限值进行比较;
依据比较结果,得到所述声场的各个位置分别对应的目标声场值。
8.一种动态目标声源跟踪监测装置,其特征在于,包括:
声信号获取模块,用于获取目标声源的多通道声信号;
声场确定模块,用于对所述多通道声信号进行声场重建处理,得到所述目标声源在预定区域的声场;
声源位置确定模块,用于基于所述声场,确定所述目标声源的位置;
视场区域判断模块,用于依据所述目标声源的位置,判断所述目标声源是否位于预设的图像采集设备的视场范围;
视频帧图像确定模块,用于若所述目标声源位于预设的图像采集设备的视场范围,则确定与所述多通道声信号对应的视频帧图像;
声源定位处理模块,用于依据所述目标声源的声场和所述视频帧图像,对所述目标声源进行定位处理。
9.一种终端设备,包括:存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要1至7中任一项所述的方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010431768.XA CN111580049B (zh) | 2020-05-20 | 2020-05-20 | 动态目标声源跟踪监测方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010431768.XA CN111580049B (zh) | 2020-05-20 | 2020-05-20 | 动态目标声源跟踪监测方法及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111580049A true CN111580049A (zh) | 2020-08-25 |
CN111580049B CN111580049B (zh) | 2023-07-14 |
Family
ID=72115779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010431768.XA Active CN111580049B (zh) | 2020-05-20 | 2020-05-20 | 动态目标声源跟踪监测方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111580049B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113411621A (zh) * | 2021-05-25 | 2021-09-17 | 网易(杭州)网络有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
CN114255725A (zh) * | 2021-04-13 | 2022-03-29 | 北京安声科技有限公司 | 主动降噪方法、车载主动降噪系统以及汽车 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006121896A2 (en) * | 2005-05-05 | 2006-11-16 | Sony Computer Entertainment Inc. | Microphone array based selective sound source listening and video game control |
CN102928818A (zh) * | 2012-10-18 | 2013-02-13 | 东南大学 | 一种基于近场波束形成的碰摩声发射源的定位方法 |
CN103167373A (zh) * | 2011-12-09 | 2013-06-19 | 现代自动车株式会社 | 定位声源的方法和系统 |
CN105760824A (zh) * | 2016-02-02 | 2016-07-13 | 北京进化者机器人科技有限公司 | 一种运动人体跟踪方法和系统 |
CN107153172A (zh) * | 2017-05-08 | 2017-09-12 | 重庆大学 | 一种基于互谱优化的互谱广义逆波束形成方法 |
-
2020
- 2020-05-20 CN CN202010431768.XA patent/CN111580049B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006121896A2 (en) * | 2005-05-05 | 2006-11-16 | Sony Computer Entertainment Inc. | Microphone array based selective sound source listening and video game control |
CN103167373A (zh) * | 2011-12-09 | 2013-06-19 | 现代自动车株式会社 | 定位声源的方法和系统 |
CN102928818A (zh) * | 2012-10-18 | 2013-02-13 | 东南大学 | 一种基于近场波束形成的碰摩声发射源的定位方法 |
CN105760824A (zh) * | 2016-02-02 | 2016-07-13 | 北京进化者机器人科技有限公司 | 一种运动人体跟踪方法和系统 |
CN107153172A (zh) * | 2017-05-08 | 2017-09-12 | 重庆大学 | 一种基于互谱优化的互谱广义逆波束形成方法 |
Non-Patent Citations (1)
Title |
---|
沈建飞: "一种穹顶式传声器阵列声源定位系统研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114255725A (zh) * | 2021-04-13 | 2022-03-29 | 北京安声科技有限公司 | 主动降噪方法、车载主动降噪系统以及汽车 |
CN113411621A (zh) * | 2021-05-25 | 2021-09-17 | 网易(杭州)网络有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111580049B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11913970B2 (en) | Wireless motion detection using multiband filters | |
US8971578B2 (en) | Driving support apparatus | |
US20200264011A1 (en) | Drift calibration method and device for inertial measurement unit, and unmanned aerial vehicle | |
CN111580049B (zh) | 动态目标声源跟踪监测方法及终端设备 | |
CN112205002B (zh) | 信号处理装置以及信号处理方法 | |
KR20180109658A (ko) | 영상 처리 방법과 장치 | |
JP6862799B2 (ja) | 信号処理装置、方位算出方法及び方位算出プログラム | |
CN111681668B (zh) | 声学成像方法及终端设备 | |
US20230342953A1 (en) | Information processing apparatus, control method, and program | |
CN111627456B (zh) | 噪音排除方法、装置、设备及可读存储介质 | |
CN115174816A (zh) | 一种基于麦克风阵列的环境噪音声源定向抓拍方法及装置 | |
CN113014844A (zh) | 一种音频处理方法、装置、存储介质及电子设备 | |
WO2017112085A1 (en) | Microphone beamforming using distance and environmental information | |
US11277210B2 (en) | Method, system and storage medium for signal separation | |
CN111046025A (zh) | 无人机信号探测方法及装置 | |
US20120039395A1 (en) | System and method for time series filtering and data reduction | |
RU174044U1 (ru) | Аудиовизуальный многоканальный детектор наличия голоса | |
CN110717441B (zh) | 视频目标检测方法、装置、设备及介质 | |
CN111208970B (zh) | 音频播放方法及音频播放装置 | |
CN116342656B (zh) | 一种基于自适应边缘检测的时空图像测速方法和装置 | |
US20110280473A1 (en) | Rotation estimation device, rotation estimation method, and record medium | |
KR20210002838A (ko) | 차량 및 그 제어 방법 | |
CN117859339A (zh) | 媒体设备及其控制方法和装置、目标跟踪方法和装置 | |
CN113822372A (zh) | 基于YOLOv5神经网络的无人机检测方法 | |
KR102272409B1 (ko) | 음탐 그램에서 토널 주파수 분석을 위한 콘볼루션 뉴럴 네트워크 기반의 학습 및 추론 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Dynamic target sound source tracking and monitoring method and terminal equipment Granted publication date: 20230714 Pledgee: XIANYANG YAHUA ELECTRONIC APPARATUS CO.,LTD. Pledgor: Shaanxi jintadpole Intelligent Technology Co.,Ltd. Registration number: Y2024610000171 |