CN116456194A

CN116456194A - 一种利用声源定位技术的音视频采集追踪方法及装置

Info

Publication number: CN116456194A
Application number: CN202211633587.0A
Authority: CN
Inventors: 杨晓东; 刘海东; 安俊峰; 何延华; 李罡; 刘新; 潘雷; 张统彪; 张和强; 李美; 景元广; 邵永佳; 张继伟; 孙戈; 王建军
Original assignee: BEIJING JYD DIGITAL TECHNOLOGY CO LTD; Jinan Rail Transit Group Co Ltd
Current assignee: BEIJING JYD DIGITAL TECHNOLOGY CO LTD; Jinan Rail Transit Group Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-07-18

Abstract

本申请公开了一种利用声源定位技术的音视频采集追踪方法及装置。所述利用声源定位技术的音视频采集追踪方法包括：获取监测场景中的可疑人员的声源位置；根据可疑人员的声源位置生成位置信息；将位置信息传递给摄像系统，以使摄像系统朝向所述位置信息进行拍摄。本申请通过声源定位追踪技术，将前端采集数据更精准化，使采集到的数据更有价值。完成异常事件定向采集功能。

Description

一种利用声源定位技术的音视频采集追踪方法及装置

技术领域

本申请涉及监控技术领域，具体涉及一种利用声源定位技术的音视频采集追踪方法以及利用声源定位技术的音视频采集追踪装置。

背景技术

现有技术中，视频监控摄像机仅支持音频输入输出功能，由于监控用拾音器及话筒的局限性，仅能做到在视频图像上叠加音频，在智能化应用的今天，已不能满足音视频采集的智能化需求。本发明意在解决音视频单一采集数据的技术瓶颈，采用音频采集的声源定位技术，通过摄像机及拾音器的定向部署，将智能音频与摄像机智能采集相结合，通过几个拾音器拾取的音频情况，对音源的位置进行定位，并将定位的坐标或位置信息传输给可旋转摄像机，旋转摄像机根据拾音器提供的音源位置旋转至音源发生地，完成音视频图像定向采集；通过智能音频分析技术与摄像机智能分析技术，可完成异常事件定向采集功能。

因此，希望有一种技术方案来解决或至少减轻现有技术的上述不足。

发明内容

本发明的目的在于提供一种利用声源定位技术的音视频采集追踪方法来至少解决上述的一个技术问题。

本发明的一个方面，提供一种利用声源定位技术的音视频采集追踪方法，所述利用声源定位技术的音视频采集追踪方法包括：

获取监测场景中的可疑人员的声源位置；

根据可疑人员的声源位置生成位置信息；

将位置信息传递给摄像系统，以使摄像系统朝向所述位置信息进行拍摄。

可选地，在所述获取可疑人员的声源位置之前，所述利用声源定位技术的音视频采集追踪方法进一步包括：

获取监测场景的阵列内声源位置数据。

可选地，所述获取监测场景的阵列内声源位置数据包括：

通过深层神经网络模型训练模拟出现场RIR情况；

通过四个拾音器组成阵列，经过现场训练后可得到阵列内声源位置数据。

可选地，所述获取监测场景中的可疑人员的声源位置包括：

获取检测场景中的声纹信息；

获取预设数据库，所述预设数据库包括至少一个预设声纹信息；

判断所述声纹信息是否与一个预设声纹信息匹配，若是，则

获取该声纹信息的声源位置。

可选地，所述根据可疑人员的声源位置生成位置信息包括：

以获取声纹信息的位置为原点建立球坐标系；

提取所述声纹信息中的特征信息；

获取声学传播模型；

将所述特征信息输入至所述声学传播模型，从而获取声源位置在所述球坐标系中的位置信息。

可选地，所述利用声源定位技术的音视频采集追踪方法进一步包括：

获取摄像系统朝向所述位置信息进行拍摄所获取的图像信息；

识别所述图像信息，从而获取图像信息中的人脸信息；

获取人脸数据库，所述人脸数据库包括至少一个预设人脸信息；

判断所述人脸信息是否与一个所述预设人脸信息的相似度超过第一人脸相似度阈值，若是，则

生成报警信息。

识别所述图像信息，从而获取图像信息中的步态信息；

获取步态数据库，所述步态数据库包括至少一个预设步态信息；

判断所述步态信息是否与一个所述预设步态信息的相似度超过第一步态相似度阈值，若是，则

生成报警信息。

可选地，在生成报警信息之前，所述利用声源定位技术的音视频采集追踪方法进一步包括：

根据所述预设人脸信息生成人脸置信度；

根据所述步态信息生成步态置信度；

根据所述人脸置信度以及所述步态置信度判断是否生成报警信息，若是，则

生成报警信息。

可选地，所述根据所述人脸置信度以及所述步态置信度判断是否生成报警信息包括：

获取人脸信息与超过第一人脸相似度阈值的预设人脸信息的相似度值作为第一相似度值；

获取步态信息与超过第一步态相似度阈值的预设步态信息的相似度值作为第二相似度值；

获取预设因子库，所述预设因子库包括因子值，每个因子值对应一个预设比值信息；

获取第一相似度值与所述第二相似度值的比值信息；

获取预设因子库内的与比值信息相同的预设比值信息所对应的因子值；

将所述因子值与第一相似度值相乘后再除以第二相似度值从而获取最终置信度值；

判断获取的最终置信度值是否超过预设置信度值，若是，则

生成报警信息。

本申请还提供了一种利用声源定位技术的音视频采集追踪装置，所述利用声源定位技术的音视频采集追踪装置包括：

声源位置获取模块，所述声源位置获取模块用于获取监测场景中的可疑人员的声源位置；

位置信息生成模块，位置信息生成模块用于根据可疑人员的声源位置生成位置信息；

传输模块，所述传输模块用于将位置信息传递给摄像系统，以使摄像系统朝向所述位置信息进行拍摄。

有益效果

本申请通过声源定位追踪技术，将前端采集数据更精准化，使采集到的数据更有价值。完成异常事件定向采集功能。

附图说明

图1是本申请一实施例的利用声源定位技术的音视频采集追踪方法的流程示意图。

图2是能够实现本申请一实施例的利用声源定位技术的音视频采集追踪方法的电子设备的示意图。

图3是本申请一实施例的声源定位的原理示意图。

图4为本申请一实施例的监控场景示意图。

图5为本申请一实施例的声学传播模型的示意图。

图6位本申请一实施例的声源位置计算原理示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

如图1所示的利用声源定位技术的音视频采集追踪方法包括：

步骤1：获取监测场景中的可疑人员的声源位置；

步骤2：根据可疑人员的声源位置生成位置信息；

步骤3：将位置信息传递给摄像系统，以使摄像系统朝向所述位置信息进行拍摄。

在本实施例中，述获取可疑人员的声源位置之前，所述利用声源定位技术的音视频采集追踪方法进一步包括：

获取监测场景的阵列内声源位置数据。

在本实施例中，获取监测场景的阵列内声源位置数据包括：

通过深层神经网络模型训练模拟出现场RIR情况；

参见图4，现场布置好声源定位拾音器(图4中的四个黑圈)，通过深层神经网络模型训练模拟出现场的RIR情况，随后通过四个(或多个)拾音器组成阵列，经过现场训练后可得到阵列内声源位置数据。

参见图6，具体而言，本申请采用如下方法获取生源位置数据：

采用GCC-PHAT算法进行声源位置数据获取。

广义互相关-相位变换

远场模型

如图6所示，s(k)为声音信号位于远场，视为平面波，入射角为θ，两个麦克风y1(k)、y2(l)之间的距离为d。

τ₁₂＝d cosθ/c

算出入射角θ时，即可定位出声音信号的位置。

当声源位于近场时，可以估计声源到达传感器的角度，并且能够估计声源与麦克风之间的距离。

但声源位于远场时，可以估计入射角度，但难以确定声源与麦克风阵列的距离。

互相关方法

互相关函数，CCF，Cross-Correlation Function

对于两个观测信号y1(k)、y2(k)之间的互相关函数定义为

当p＝τ时，τ为相对时延，互相关值达到其最大值

Notes:互相关方法易于实现，但容易受多种因素影响，如信号自相关、混响，另外还有空间混叠。

广义互相关方法

广义互相关函数，GCCF，Generalized CCF

与互相关方法相同，但此时两个麦克风之间的TDOA估计可以等效为能够使麦克风输出的滤波信号之间的CCF最大的时间间隔

GCC函数：

广义互频谱：

互频谱：

这个公式实际应该是CC函数的互相关函数傅里叶变换

y信号离散傅里叶变化：

Notes:

①DOA(到达方向估计)

②TDOA(到达时间差)

5.相位变换

相位变换，Phrase Transform，PHAT

TDOA的估计信息是通过互频谱相位而不是幅度表示的。简单的舍弃幅度而仅保留相位：

理想GCC函数：

6.具体定位实现(matlab)

clc

clear

close all

％加载一段声音(matlab自带敲锣声)

load gong；

％采样频率

Fs＝8192；

％采样周期

dt＝1/Fs；

％music_src为声源

music_src＝y；

％设置两个麦克风坐标

mic_d＝1；

mic_x＝[-mic_d mic_d]；

mic_y＝[00]；

plot(mic_x,mic_y,'x')；

axis([-55-55])

hold on；

quiver(-5,0,10,0,1,'color','black')；

quiver(0,-5,0,10,1,'color','black')；

％声源位置

s_x＝10；

s_y＝10；

plot(s_x,s_y,'o')；

quiver(s_x,s_y,-s_x-mic_d,-s_y,1)；

quiver(s_x,s_y,-s_x+mic_d,-s_y,1)；

％求出距离

dis_s1＝sqrt((mic_x(1)-s_x).^2+(mic_y(1)-s_y).^2)；dis_s2＝sqrt((mic_x(2)-s_x).^2+(mic_y(2)-s_y).^2)；c＝340；

delay＝abs((dis_s1-dis_s2)./340)；

％设置延时

music_delay＝delayseq(music_src,delay,Fs)；

figure(2)；

subplot(211)；

plot(music_src)；

axis([0length(music_src)-22])；

subplot(212)；

plot(music_delay)；

axis([0length(music_delay)-22])；

％gccphat算法,matlab自带[tau,R,lag]＝gccphat(music_delay,music_src,Fs)；disp(tau)；

figure(3)；

t＝1:length(tau)；

plot(lag,real(R(:,1)))；

％cc算法

[rcc,lag]＝xcorr(music_delay,music_src)；

figure(4)；

plot(lag/Fs,rcc)；

[M,I]＝max(abs(rcc))；

lagDiff＝lag(I)；

timeDiff＝lagDiff/Fs；

disp(timeDiff)；

％gcc+phat算法，根据公式写

RGCC＝fft(rcc)；

rgcc＝ifft(RGCC*1./abs(RGCC))；

figure(5)；

plot(lag/Fs,rgcc)；

[M,I]＝max(abs(rgcc))；

lagDiff＝lag(I)；

timeDiff＝lagDiff/Fs；

disp(timeDiff)；

％计算角度,这里假设为平面波

dis_r＝tau*c；

angel＝acos(tau*c./(mic_d*2))*180/pi；

ifdis_s1<dis_s2

angel＝180-angel；

end

disp(angel)。现场布设完成后拾音器采集现场音源数据，与后端语音库或声纹库进行分析比对，如有敏感词汇或特定人员声纹匹配，立即将定位数据发送给可旋转摄像机，可旋转摄像机立即旋转至音源位置，通过摄像机的人脸识别或步态识别进一步确认人员身份，如身份确认成功，立即发出报警信号，并将音视频同步至可疑人员档案内。

在本实施例中，获取监测场景中的可疑人员的声源位置包括：

获取检测场景中的声纹信息；

判断所述声纹信息是否与一个预设声纹信息匹配，若是，则

获取该声纹信息的声源位置。

在本实施例中，所述根据可疑人员的声源位置生成位置信息包括：

以获取声纹信息的位置为原点建立球坐标系；

提取所述声纹信息中的特征信息；

获取声学传播模型；

在本实施例中，所述利用声源定位技术的音视频采集追踪方法进一步包括：

识别所述图像信息，从而获取图像信息中的人脸信息；

生成报警信息。

识别所述图像信息，从而获取图像信息中的步态信息；

生成报警信息。

本发明意在解决音视频单一采集数据的技术瓶颈，采用音频采集的声源定位技术，通过摄像机及拾音器的定向部署，将智能音频与摄像机智能采集相结合，通过几个拾音器拾取的音频情况，对音源的位置进行定位，并将定位的坐标或位置信息传输给可旋转摄像机，旋转摄像机根据拾音器提供的音源位置旋转至音源发生地，完成音视频图像定向采集；通过智能音频分析技术与摄像机智能分析技术，可完成异常事件定向采集功能。

参见图3，本申请中采用了声源定位技术，摄像机定位技术，语音识别技术，深层神经网络模型等。

声源定位技术：

声源定位技术主要有以下两部分组成：

到达方向(Direction-of-arrival,DOA)估计，其中包括方位角与俯仰角。

距离估计。

声源定位通常使用的是球坐标系，坐标信息包括距离、方位角、俯仰角。

声源定位端到端的模型如图5所展示的，对采集到的声音信号进行特征提取，然后使用声音定位方法来获得输出，而该映射方法很大程度依赖于声学传播模型。

摄像机移动跟踪技术：

摄像机移动跟踪技术采用了锁定跟踪的方法，即音频输入信号声源位置锁定指定目标后，智能高速球会自动跟踪音频定位的移动轨迹，针对特定音源位置，摄像机可以进行锁定跟踪，即使有其他的人或移动物体或音源进入摄像机的监控范围，摄像机也不会跟丢之前锁定的目标物体。在人流量较大场景，只要音源锁定被跟踪的目标之后，就不会出现因外部原因而造成的跟踪不准确的现象。

深层神经网络模型：

深层神经网络模型基本组成部分是神经元，通过神经元之间的连接传递信息。与传统基于模型的方法相比，基于深层神经网络模型方法是数据驱动的，甚至无需定义传播模型。基于深层神经网络模型的方法将声源定位看作是一个多分类或者线性回归问题，利用其非常强的非线形拟合能力，直接将多通道数据特征映射成定位结果。采用深层神经网络模型的无网格的方法，此方法在定位精度和估计声源个数上有优势。

6、发明的效果或特点

本发明可解决3个音视频采集中的实际问题。

1.解决拾音器的单一拾音功能现状

通过多拾音器部署的声源识别技术，将拾音器单一录音升级为带有声源识别能力的智能拾音器，使拾音器与摄像机更好的进行结合。

2.解决音源单一录制保存问题

通过语音识别功能及声纹识别功能，将采集到的音源与后端语音识别库、声纹库进行比对，如出现敏感词汇或可疑声纹，立即调用相应摄像机追踪声源位置，锁定声源目标。定向采集音视频，大大提供音视频采集可用率。

3.横向扩充人员身份追踪方法

通过声源定位技术及声纹识别技术，将传统摄像机只能通过图像分析横向扩充，增加声音跟踪识别，在容易遗漏的音源异常位置事件进行录制，更多关注定向事件的发生，解决了海量垃圾数据浪费存储空间的问题。

传统行业中声源定位技术常用在运维系统中设备异常噪音定位识别中；

传统监控行业摄像机追踪技术通常都会选用红外跟踪、雷达跟踪、动态物体追踪等，通过声源定位技术的图像追踪也仅有定位功能，在嘈杂环境中不具备追踪应用功能，且对声源的语义或声纹不具备识别应用。

在一个备选实施例中，在生成报警信息之前，所述利用声源定位技术的音视频采集追踪方法进一步包括：

根据所述预设人脸信息生成人脸置信度；

根据所述步态信息生成步态置信度；

生成报警信息。

不论是人脸识别还是步态识别，都会出现可能识别错误的情况，因此，本申请通过根据两者的置信度来综合考虑是否进行报警，从而防止单纯仅仅依靠其中一种造成误报的情况出现。

在本实施例中，根据人脸置信度以及步态置信度判断是否生成报警信息包括：

获取第一相似度值与所述第二相似度值的比值信息；

判断获取的最终置信度值是否超过预设置信度值，若是，则

生成报警信息。

在本实施例中，预设因子库中的因子都是通过专家经验给出的，举例来说，我们通过大量的试验，来获取到相似度的比值在某一值时，实际的成功率多少，根据该成功率为该相似度比值设置一个因子，例如，该因子可以取0.9,0.98等等，这样，人为给与一个经验值，从而能够更为准确的进行报警，而减少误判的可能性。

举例来说，假设第一相似度值为96，第二相似度值为100，则第一相似度值与所述第二相似度值的比值信息为0.96，而通过预设因子库发现，0.96对应的因子值为1.1，则用1.1乘以第一相似度值(0.96)等于1.056，用1.056除以1则等于1.056，判断1.056是否超过预设置信度值(例如，预设置信度值为1)，超过则报警。

采用这种方式，不单纯以机械作为导向，还包括了人为经验在里边，从而能够使得检测更为准确。

本申请还提供了一种利用声源定位技术的音视频采集追踪装置，所述利用声源定位技术的音视频采集追踪装置包括声源位置获取模块、位置信息生成模块以及传输模块，声源位置获取模块用于获取监测场景中的可疑人员的声源位置；位置信息生成模块用于根据可疑人员的声源位置生成位置信息；传输模块用于将位置信息传递给摄像系统，以使摄像系统朝向所述位置信息进行拍摄。

可以理解的是，上述对方法的描述，也同样适用于对装置的描述。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的利用声源定位技术的音视频采集追踪方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的利用声源定位技术的音视频采集追踪方法。

图2是能够实现根据本申请一个实施例提供的利用声源定位技术的音视频采集追踪方法的电子设备的示例性结构图。

如图2所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备504接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图2所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的利用声源定位技术的音视频采集追踪方法。

在一个实施例中，图2所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的利用声源定位技术的音视频采集追踪方法。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种利用声源定位技术的音视频采集追踪方法，其特征在于，所述利用声源定位技术的音视频采集追踪方法包括：

获取监测场景中的可疑人员的声源位置；

根据可疑人员的声源位置生成位置信息；

2.如权利要求1所述的利用声源定位技术的音视频采集追踪方法，其特征在于，在所述获取可疑人员的声源位置之前，所述利用声源定位技术的音视频采集追踪方法进一步包括：

获取监测场景的阵列内声源位置数据。

3.如权利要求2所述的利用声源定位技术的音视频采集追踪方法，其特征在于，所述获取监测场景的阵列内声源位置数据包括：

通过深层神经网络模型训练模拟出现场RIR情况；

4.如权利要求3所述的利用声源定位技术的音视频采集追踪方法，其特征在于，所述获取监测场景中的可疑人员的声源位置包括：

获取检测场景中的声纹信息；

判断所述声纹信息是否与一个预设声纹信息匹配，若是，则

获取该声纹信息的声源位置。

5.如权利要求4所述的利用声源定位技术的音视频采集追踪方法，其特征在于，所述根据可疑人员的声源位置生成位置信息包括：

以获取声纹信息的位置为原点建立球坐标系；

提取所述声纹信息中的特征信息；

获取声学传播模型；

6.如权利要求5所述的利用声源定位技术的音视频采集追踪方法，其特征在于，所述利用声源定位技术的音视频采集追踪方法进一步包括：

识别所述图像信息，从而获取图像信息中的人脸信息；

生成报警信息。

7.如权利要求6所述的利用声源定位技术的音视频采集追踪方法，其特征在于，所述利用声源定位技术的音视频采集追踪方法进一步包括：

识别所述图像信息，从而获取图像信息中的步态信息；

生成报警信息。

8.如权利要求7所述的利用声源定位技术的音视频采集追踪方法，其特征在于，在生成报警信息之前，所述利用声源定位技术的音视频采集追踪方法进一步包括：

根据所述预设人脸信息生成人脸置信度；

根据所述步态信息生成步态置信度；

生成报警信息。

9.如权利要求8所述的利用声源定位技术的音视频采集追踪方法，其特征在于，所述根据所述人脸置信度以及所述步态置信度判断是否生成报警信息包括：

获取第一相似度值与所述第二相似度值的比值信息；

判断获取的最终置信度值是否超过预设置信度值，若是，则

生成报警信息。

10.一种利用声源定位技术的音视频采集追踪装置，其特征在于，所述利用声源定位技术的音视频采集追踪装置包括：