CN113794830A

CN113794830A - 基于视频和音频的目标轨迹标定方法、装置和计算机设备

Info

Publication number: CN113794830A
Application number: CN202110891951.2A
Authority: CN
Inventors: 郑勇; 张缤; 戴志涛
Original assignee: Shenzhen Waterward Information Co Ltd
Current assignee: Shenzhen Waterward Information Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-12-14
Also published as: WO2023010599A1

Abstract

本申请提供了一种基于视频和音频的目标轨迹标定方法、装置和计算机设备，摄像设备上部署有麦克风阵列，可以根据各个声源对应的声音到各个子麦克风之间的时间差计算得到各个声源与基准子麦克风之间的第一相对位置关系。再借由基准子麦克风与摄像设备之间的部署位置关系，通过位置转换得到各个声源相对于摄像设备之间的第二位置关系。因此，即使声源没有出现在摄像设备的拍摄视界内，只要声源发出的声音可以被麦克风阵列接收到，即可通过基准子麦克风与摄像设备之间的部署位置关系，确定声源相对于摄像设备之间的位置关系。再以视频数据和各个音频数据的采集时间为时间基准，以摄像设备的第一运动轨迹为位置参数，从而标定各个声源的第二运动轨迹。

Description

基于视频和音频的目标轨迹标定方法、装置和计算机设备

技术领域

本申请涉及音视频处理技术领域，特别涉及一种基于视频和音频的目标轨迹标定方法、装置和计算机设备。

背景技术

现有针对音视频所包含的声源位置标定，需要保证声源出现在音视频的视界范围内，即摄像设备需要拍摄到声源，用户才能从拍摄到的音视频中通过人工查找得到声源相对于摄像设备的位置，进而通过摄像设备的拍摄视界得到声源的运动轨迹。如果声源出现在摄像设备的拍摄视界之外，即使接收到声源所发出的声音，用户也无法确定声源与摄像设备之间的相对位置，更不用说进一步确定声源的运动轨迹。

发明内容

本申请的主要目的为提供一种基于视频和音频的目标轨迹标定方法、装置和计算机设备，旨在解决现有声源不在摄像设备的拍摄视界内时无法确定声源的运动轨迹的弊端。

为实现上述目的，本申请提供了一种基于视频和音频的目标轨迹标定方法，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上，所述目标轨迹标定方法包括：

通过所述摄像设备采集视频数据，并通过所述麦克风阵列采集多个音频数据；

分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个声源；

基于两个第一子麦克风对相同的所述声源对应的声音的接收时间之差，以及两个所述第一子麦克风之间的部署位置，计算得到各所述声源与基准子麦克风之间的第一相对位置关系，所述基准子麦克风为两个所述第一子麦克风中的任意一个；

根据所述基准子麦克风在所述摄像设备上的部署位置，以及各所述声源分别对应的所述第一相对位置关系，转换得到各所述声源与所述摄像设备之间的第二相对位置关系；

根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹。

本申请还提供了一种基于视频和音频的目标轨迹标定装置，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上，所述目标轨迹标定装置包括：

采集模块，用于通过所述摄像设备采集视频数据，并通过所述麦克风阵列采集多个音频数据；

识别模块，用于分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个声源；

计算模块，用于基于两个第一子麦克风对相同的所述声源对应的声音的接收时间之差，以及两个所述第一子麦克风之间的部署位置，计算得到各所述声源与基准子麦克风之间的第一相对位置关系，所述基准子麦克风为两个所述第一子麦克风中的任意一个；

转换模块，用于根据所述基准子麦克风在所述摄像设备上的部署位置，以及各所述声源分别对应的所述第一相对位置关系，转换得到各所述声源与所述摄像设备之间的第二相对位置关系；

构建模块，用于根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的一种基于视频和音频的目标轨迹标定方法、装置和计算机设备，其中，视频由摄像设备采集，音频由麦克风阵列采集，麦克风阵列由多个子麦克风组成，并且麦克风阵列部署在摄像设备上。应用时，处理系统通过摄像设备采集视频数据，并通过麦克风阵列采集多个音频数据。然后分别对各音频数据所包含的声音做VAD算法识别，得到各音频数据所包含的若干个声源。处理系统基于两个第一子麦克风对相同的声源对应的声音的接收时间之差，以及两个第一子麦克风之间的部署位置，计算得到各个声源与基准子麦克风之间的第一相对位置关系，其中，基准子麦克风为两个第一子麦克风中的任意一个。处理系统根据基准子麦克风在摄像设备上的部署位置，以及各声源分别对应的第一相对位置关系，转换得到各声源与摄像设备之间的第二相对位置关系。最后，处理系统根据视频数据与各音频数据的采集时间，摄像设备的第一运动轨迹，以及各第二相对位置关系，构建各声源分别对应的第二运动轨迹。本申请中，摄像设备上部署有麦克风阵列，可以根据各个声源对应的声音到各个子麦克风之间的时间差计算得到各个声源与基准子麦克风之间的第一相对位置关系。再借由基准子麦克风与摄像设备之间的部署位置关系，通过位置转换得到各个声源相对于摄像设备之间的第二位置关系。因此，即使声源没有出现在摄像设备的拍摄视界内，只要声源发出的声音可以被麦克风阵列接收到，即可通过基准子麦克风与摄像设备之间的部署位置关系，确定声源相对于摄像设备之间的位置关系。再以摄像设备的第一运动轨迹为位置参数，从而标定各个声源的第二运动轨迹。

附图说明

图1是本申请一实施例中基于视频和音频的目标轨迹标定方法的步骤示意图；

图2是本申请一实施例中基准子麦克风、摄像设备的视野中心以及声源的分布示意图；

图3是本申请一实施例中基于视频和音频的目标轨迹标定装置的整体结构框图；

图4是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种基于视频和音频的目标轨迹标定方法，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上，所述目标轨迹标定方法包括：

S1:通过所述摄像设备采集视频数据，并通过所述麦克风阵列采集多个音频数据；

S2:分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个声源；

S3:基于两个第一子麦克风对相同的所述声源对应的声音的接收时间之差，以及两个所述第一子麦克风之间的部署位置，计算得到各所述声源与基准子麦克风之间的第一相对位置关系，所述基准子麦克风为两个所述第一子麦克风中的任意一个；

S4:根据所述基准子麦克风在所述摄像设备上的部署位置，以及各所述声源分别对应的所述第一相对位置关系，转换得到各所述声源与所述摄像设备之间的第二相对位置关系；

S5:根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹。

本实施例中，摄像设备上部署有麦克风阵列，麦克风阵列由多个子麦克风组成，在应用时，处理系统通过摄像设备采集视频数据，并通过麦克风阵列采集多个音频数据。其中，处理系统可以为摄像设备的本地系统，直接可以对采集的视频数据和音频数据进行相应的解析处理；也可以为云端服务器，摄像设备采集的视频数据、麦克风阵列采集的音频数据通过无线信号(比如wifi信号、4g/5g网络信号)上传至云端服务器，以供处理系统进行解析处理。处理系统分别对各个音频数据所包含的声音做VAD(Voice Activity Detection，语音端点检测)算法识别，对各个声音进行语音识别，得到各所述音频数据所包含的所有声源。处理系统基于两个第一子麦克风对相同的声源所对应的声音的接收时间之差，以及两个第一子麦克风之间的部署位置，通过TDOA(Time Difference of Arrival，到达时间差)定位算法计算得到各个声源与基准子麦克风之间的第一相对位置关系。其中，第一相对位置关系包括第一距离和第一角度，第一距离表征声源与基准子麦克风之间的直线距离，第一角度表征声源与基准子麦克风之间相对于水平面之间的夹角(由于基准子麦克风可以是第一子麦克风中的任意一个，选择不同的第一子麦克风作为基准子麦克风，其对应的第一距离相应不同，而第一角度相同，第一距离的计算逻辑相同，在此不做详述)。处理系统计算第一角度的余角，并根据基准子麦克风在摄像设备上的部署位置，获取基准子麦克风与摄像设备的视野中心之间的直线距离。然后，根据第一角度的余角、直线距离以及第一距离进行相应的计算，得到摄像设备与声源之间的第二距离。处理系统根据第一角度和第一距离，通过余弦定理公式计算得到基准子麦克风与声源之间的垂直距离。最后，根据该垂直距离和第二距离，再次通过余弦定理公式计算得到摄像设备与声源之间的第二角度。处理系统按照上述计算逻辑，分别计算得到各个声源与设备的视野中心之间分别对应的第二距离和第二角度，从而生成各声源分别对应的第二相对位置关系。处理系统根据摄像设备上部署的GPS定位模块得到摄像设备的第一运动轨迹，并根据各声源与摄像设备之间的第二相对位置关系，以第一运动轨迹为位置参照，标定构建各个声源分别对应的第二运动轨迹。

本实施例中，摄像设备上部署有麦克风阵列，可以根据各个声源对应的声音到各个子麦克风之间的时间差计算得到各个声源与基准子麦克风之间的第一相对位置关系。再借由基准子麦克风与摄像设备之间的部署位置关系，通过位置转换得到各个声源相对于摄像设备之间的第二位置关系。因此，即使声源没有出现在摄像设备的拍摄视界内，只要声源发出的声音可以被麦克风阵列接收到，即可通过基准子麦克风与摄像设备之间的部署位置关系，确定声源相对于摄像设备之间的位置关系。再以视频数据和各个音频数据的采集时间为时间基准，以摄像设备的第一运动轨迹为位置参数，从而标定各个声源的第二运动轨迹。

进一步的，所述第一相对位置关系包括第一距离和第一角度，所述根据所述基准子麦克风在所述摄像设备上的部署位置，以及各所述声源分别对应的所述第一相对位置关系，转换得到各所述声源与所述摄像设备之间的第二相对位置关系的步骤，包括：

S401:计算所述第一角度的余角；

S402:调取所述基准子麦克风与所述摄像设备之间的直线距离，并将所述第一角度的余角、所述直线距离和所述第一距离代入计算公式中，得到第二距离，其中，所述计算公式为：a²＝b²+c²-2bc×cosβ，b为所述第一距离，c为所述直线距离，β为所述第一角度的余角，a为所述第二距离，表征所述摄像设备与所述声源之间的距离；

S403:根据所述第一角度和所述第一距离，通过余弦定理公式计算得到所述基准子麦克风与所述声源之间的垂直距离；

S404:根据所述第二距离和所述垂直距离，通过余弦定理公式，计算得到所述摄像设备与所述声源之间的第二角度，其中，所述摄像设备与所述声源之间的垂直距离与所述基准子麦克风与所述声源之间的垂直距离的值相同；

S405:按照上述规则计算得到各所述声源与所述摄像设备之间分别对应的第二距离和第二角度，生成各所述第二相对位置关系。

本实施例中，如图2所示，假定摄像设备的视野中心为点A，基准子麦克风为点B，声源为点C，分别过基准子麦克风和声源做垂直线，相交于点D，则三角形BCD为直角三角形，∠BDC为直角，∠CBD为声源与基准子麦克风之间的第一夹角，边BC则为声源与基准子麦克风之间的第一距离。在三角形ABC中，∠ABC即为∠CBD(即第一角度)的余角；边AB为基准子麦克风与摄像设备的视野中心之间的直线距离；边AC则为声源与摄像设备的视野中心之间的第二距离。由于∠ABC、边AB、边BC的值为已知，将其代入计算公式：a²＝b²+c²-2bc×cosβ可以计算得到边AC的值。其中，b为第一距离(即边BC)，c为直线距离(即边AB)，β为第一角度的余角(即∠ABC)，a为第二距离(即边AC)，表征摄像设备与所述声源之间的距离。在直角三角形BCD中，由于边BC、∠CBD为已知值，通过余弦定理公式，即可计算得到边BD(即基准子麦克风与声源之间的垂直距离)的值。过摄像设备的视野中心(即点A)做垂直于边CD的线段，垂直点假定为E，则三角形ACE为直角三角形，边AE的长度与边BD的长度相同；∠CAE则为声源与摄像设备之间的第二夹角，∠CEA为直角。在直角三角形ACE中，由于斜边AC和∠CAE的邻边AE为已知值，通过余弦定理公式即可计算得到∠CAE的值，由此得到摄像设备的视野中心与声源之间的第二角度。处理系统按照上述规则计算得到各个声源与摄像设备的视野中心之间分别对应的第二距离和第二角度，并根据第二距离和第二角度生成各个声源分别对应的第二相对位置关系。

进一步的，所述分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个声源的步骤，包括：

S201:分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个人声声源以及其他类型声源；

S202:对各所述人声声源进行标记编号，并对各所述其他类型声源进行分贝值检测，将分贝值在分贝阈值以下的第一其他类型声源隐藏，同时对分贝值在所述分贝阈值以上的第二其他类型声源进行标记编号。

本实施例中，处理系统使用VAD算法对各个音频数据包括的声音做语音识别，从而得到若干个声源，并将各个声源区分为人声声源以及其他类型声源(比如动物声源、汽车声源等)。处理系统对各个人声声源进行标记编号，以区分各个人声声源。同时，为了降低后续对声源的数据的处理量，以及运动轨迹的构建复杂度，处理系统对其他类型声源进行筛选，以剔除实用性较小的部分其他类型声源。具体地，处理系统调取预设的分贝阈值，然后分别检测各个其他类型声源所发出的声音的分贝值。处理系统将各个其他类型声源所发出声音的分贝值与分贝阈值进行比对，将声音的分贝值在分贝阈值以下的部分其他类型声源(即第一其他类型声源)隐藏或剔除，不对第一其他类型声源所对应的声音进行相应处理(比如后续的标记编号以及对应的运动轨迹构建)。同时，处理系统对分贝值在分贝阈值以上的部分其他类型声源(即第二其他类型声源)进行标记编号，以区分各个第二其他类型声源。

进一步的，所述对分贝值在所述分贝阈值以上的第二其他类型声源进行标记编号的步骤，包括：

S2021:将各所述第二其他类型声源分别对应的声音输入预先训练的声音类型识别模型进行识别，得到各所述第二其他类型声源分别对应的声音类型；

S2022:将所述声音类型作为标记信息，分别对各所述第二其他类型声源进行标记编号。

本实施例中，处理系统内构建有预先训练的声音类型识别模型，该声音类型识别模型使用各种类型的声音(比如猫叫声、狗叫声、汽车行驶声音等)作为训练样本，通过深度学习训练得到(深度学习训练模型的方法与现有技术相同，在此不做详述)，可以识别出各种声音对应的类型。应用时，处理系统将各个第二其他类型声源分别对应的声音输入预先训练的声音类型识别模型中进行相应的处理，输出得到各个第二其他类型声源的声音所对应的声音类型(比如第二其他类型声源A的声音对应的声音类型为猫叫声，第二其他类型声源B的声音对应的声音类型为汽车行驶声音)。处理系统在对各个第二其他类型声源进行标记编号时，将各个第二其他类型声源对应的声音类型作为标记信息相应标记在其上，方便用户了解具体信息。

进一步的，所述根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹的步骤，包括：

S501:分别以所述视频数据和各所述音频数据的采集时刻为基准进行时间同步，定位各所述声源在所述视频数据中的出现时间；

S502:通过GPS定位方法采集所述摄像设备的所述第一运动轨迹，并以所述第一运动轨迹为位置参照，根据各所述声源分别对应的所述出现时间以及各所述第二相对位置关系，构建得到各所述声源分别相对于所述第一运动轨迹的所述第二运动轨迹。

本实施例中，由于视频数据在实际应用过程中是从头拍摄到尾，而各个声源所对应的声音有可能是在拍摄过程中出现，持续一段时间后消失。因此，处理系统以视频数据的采集时刻为基准，将各个音频数据的采集时刻与视频数据的采集时刻进行时间同步，从而定位得到各个声源在视频数据中的出现时间(该出现时间包括出现时刻、持续时长以及结束时刻)。摄像设备上安装有GPS定位模块，处理系统通过GPS定位模块实现对摄像设备在拍摄视频数据过程中每个采集时刻分别对应的位置，进而根据这些位置形成第一运动轨迹。在此基础上，以摄像设备的第一运动轨迹为位置参照(具体地，以采集时刻所对应的位置为位置参照)，根据各个声源相对于视频数据的出现时间以及与摄像设备之间的第二相对位置关系，构建得到各个声源相对于第一运动轨迹的第二运动轨迹，实现对不在摄像设备的拍摄视界内的声源的运动轨迹标定。

进一步的，所述根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹的步骤之后，包括：

S6:分别以不同颜色的线条构建各所述第二运动轨迹，并将各个颜色与各所述声源之间的对应关系进行记录形成对应信息；

S7:根据所述第一运动轨迹、所述对应信息以及各所述第二运动轨迹生成轨迹分布图，并将所述轨迹分布图输出到显示界面。

本实施例中，处理系统在依据第一运动轨迹生成各个声源分别对应的第二运动轨迹之后，为了体现各个声源的第二运动轨迹之间的区别，处理系统分别以不同颜色的线条构建各个声源的第二运动轨迹，并将各个颜色与各个声源之间的对应关系进行记录形成对应信息，比如声源A的第二运动轨迹的轨迹线条颜色为红色，声源B的第二运动轨迹的轨迹线条颜色为黄色。处理系统根据第一运动轨迹、第二运动轨迹以及对应信息生成轨迹分布图(对应信息作为标注信息记录在轨迹分布图上，方便用户查看对应颜色的声源)，并将该轨迹分布图输出到显示界面，使得用户可以直观了解到各个第二运动轨迹的变化情况。

进一步的，所述根据所述第一运动轨迹、所述对应信息以及各所述第二运动轨迹生成轨迹分布图，并将所述轨迹分布图输出到显示界面的步骤，包括：

S701:调取三维地图，将所第一运动轨迹标示在所述三维地图上；

S702:以所述第一运动轨迹为位置参照，分别将各所述第二运动轨迹标示在所述三维地图上，并在所述三维地图上加注所述对应信息以及各所述第二运动轨迹的出现时刻和结束时刻，形成所述轨迹分布图；

S703:将所述轨迹分布图输出到显示界面。

本实施例中，处理系统调取摄像设备拍摄区域的三维地图(该三维地图可以预先存储在处理系统的数据库中，也可以由处理系统从网络上下载得到)，然后将第一运动轨迹标示在三维地图上。然后，以第一运动轨迹为位置参数，按照出现时间将各个声源分别对应改的第二运动轨迹标示在该三维地图上，并在三维地图上加注颜色的对应信息以及各个第二运动轨迹的出现时刻和结束时刻，整体形成轨迹分布图。最后，处理系统将轨迹分布图输出到显示界面，用户从三维层面能够更加清晰了解各个第二运动轨迹的变化情况。

参照图3，本申请一实施例中还提供了一种基于视频和音频的目标轨迹标定装置，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上，所述目标轨迹标定装置包括：

采集模块1，用于通过所述摄像设备采集视频数据，并通过所述麦克风阵列采集多个音频数据；

识别模块2，用于分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个声源；

计算模块3，用于基于两个第一子麦克风对相同的所述声源对应的声音的接收时间之差，以及两个所述第一子麦克风之间的部署位置，计算得到各所述声源与基准子麦克风之间的第一相对位置关系，所述基准子麦克风为两个所述第一子麦克风中的任意一个；

转换模块4，用于根据所述基准子麦克风在所述摄像设备上的部署位置，以及各所述声源分别对应的所述第一相对位置关系，转换得到各所述声源与所述摄像设备之间的第二相对位置关系；

构建模块5，用于根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹。

进一步的，所述第一相对位置关系包括第一距离和第一角度，所述转换模块4，包括：

第一计算单元，用于计算所述第一角度的余角；

第二计算单元，用于调取所述基准子麦克风与所述摄像设备之间的直线距离，并将所述第一角度的余角、所述直线距离和所述第一距离代入计算公式中，得到第二距离，其中，所述计算公式为：a²＝b²+c²-2bc×cosβ，b为所述第一距离，c为所述直线距离，β为所述第一角度的余角，a为所述第二距离，表征所述摄像设备与所述声源之间的距离；

第三计算单元，用于根据所述第一角度和所述第一距离，通过余弦定理公式计算得到所述基准子麦克风与所述声源之间的垂直距离；

第四计算单元，用于根据所述第二距离和所述垂直距离，通过余弦定理公式，计算得到所述摄像设备与所述声源之间的第二角度，其中，所述摄像设备与所述声源之间的垂直距离与所述基准子麦克风与所述声源之间的垂直距离的值相同；

生成单元，用于按照上述规则计算得到各所述声源与所述摄像设备之间分别对应的第二距离和第二角度，生成各所述第二相对位置关系。

进一步的，所述识别模块2，包括：

识别单元，用于分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个人声声源以及其他类型声源；

筛选单元，用于对各所述人声声源进行标记编号，并对各所述其他类型声源进行分贝值检测，将分贝值在分贝阈值以下的第一其他类型声源隐藏，同时对分贝值在所述分贝阈值以上的第二其他类型声源进行标记编号。

进一步的，所述筛选单元，包括：

识别子单元，用于将各所述第二其他类型声源分别对应的声音输入预先训练的声音类型识别模型进行识别，得到各所述第二其他类型声源分别对应的声音类型；

标记子单元，用于将所述声音类型作为标记信息，分别对各所述第二其他类型声源进行标记编号。

进一步的，所述构建模块5，包括：

定位单元，用于分别以所述视频数据和各所述音频数据的采集时刻为基准进行时间同步，定位各所述声源在所述视频数据中的出现时间；

构建单元，用于通过GPS定位方法采集所述摄像设备的所述第一运动轨迹，并以所述第一运动轨迹为位置参照，根据各所述声源分别对应的所述出现时间以及各所述第二相对位置关系，构建得到各所述声源分别相对于所述第一运动轨迹的所述第二运动轨迹。

进一步的，所述目标轨迹标定装置，还包括：

记录模块6，用于分别以不同颜色的线条构建各所述第二运动轨迹，并将各个颜色与各所述声源之间的对应关系进行记录形成对应信息；

生成模块7，用于根据所述第一运动轨迹、所述对应信息以及各所述第二运动轨迹生成轨迹分布图，并将所述轨迹分布图输出到显示界面。

进一步的，所述生成模块7，包括：

标示单元，用于调取三维地图，将所第一运动轨迹标示在所述三维地图上；

形成单元，用于以所述第一运动轨迹为位置参照，分别将各所述第二运动轨迹标示在所述三维地图上，并在所述三维地图上加注所述对应信息以及各所述第二运动轨迹的出现时刻和结束时刻，形成所述轨迹分布图；

输出单元，用于将所述轨迹分布图输出到显示界面。

本实施例中，目标轨迹标定装置中各模块、单元、子单元用于对应执行与上述基于视频和音频的目标轨迹标定方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种基于视频和音频的目标轨迹标定装置，其中，视频由摄像设备采集，音频由麦克风阵列采集，麦克风阵列由多个子麦克风组成，并且麦克风阵列部署在摄像设备上。应用时，处理系统通过摄像设备采集视频数据，并通过麦克风阵列采集多个音频数据。然后分别对各音频数据所包含的声音做VAD算法识别，得到各音频数据所包含的若干个声源。处理系统基于两个第一子麦克风对相同的声源对应的声音的接收时间之差，以及两个第一子麦克风之间的部署位置，计算得到各个声源与基准子麦克风之间的第一相对位置关系，其中，基准子麦克风为两个第一子麦克风中的任意一个。处理系统根据基准子麦克风在摄像设备上的部署位置，以及各声源分别对应的第一相对位置关系，转换得到各声源与摄像设备之间的第二相对位置关系。最后，处理系统根据视频数据与各音频数据的采集时间，摄像设备的第一运动轨迹，以及各第二相对位置关系，构建各声源分别对应的第二运动轨迹。本申请中，摄像设备上部署有麦克风阵列，可以根据各个声源对应的声音到各个子麦克风之间的时间差计算得到各个声源与基准子麦克风之间的第一相对位置关系。再借由基准子麦克风与摄像设备之间的部署位置关系，通过位置转换得到各个声源相对于摄像设备之间的第二位置关系。因此，即使声源没有出现在摄像设备的拍摄视界内，只要声源发出的声音可以被麦克风阵列接收到，即可通过基准子麦克风与摄像设备之间的部署位置关系，确定声源相对于摄像设备之间的位置关系。再以摄像设备的第一运动轨迹为位置参数，从而标定各个声源的第二运动轨迹。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储分贝阈值等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频和音频的目标轨迹标定方法，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上。

上述处理器执行上述基于视频和音频的目标轨迹标定方法的步骤：

S5:根据视频数据与各音频数据的采集时间，摄像设备的第一运动轨迹，以及各第二相对位置关系，构建各声源分别对应的第二运动轨迹。

S401:计算所述第一角度的余角；

进一步的，所述根据视频数据与各音频数据的采集时间，摄像设备的第一运动轨迹，以及各第二相对位置关系，构建各声源分别对应的第二运动轨迹的步骤，包括：

进一步的，所述根据视频数据与各音频数据的采集时间，摄像设备的第一运动轨迹，以及各第二相对位置关系，构建各声源分别对应的第二运动轨迹的步骤之后，包括：

S703:将所述轨迹分布图输出到显示界面。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于视频和音频的目标轨迹标定方法，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上，所述基于视频和音频的目标轨迹标定方法具体为：

S5:根据视频数据与各音频数据的采集时间，摄像设备的第一运动轨迹，以及各第二相对位置关系，构建各声源分别对应的第二运动轨迹。。

S401:计算所述第一角度的余角；

S703:将所述轨迹分布图输出到显示界面。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于视频和音频的目标轨迹标定方法，其特征在于，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上，所述目标轨迹标定方法包括：

2.根据权利要求1所述的基于视频和音频的目标轨迹标定方法，其特征在于，所述第一相对位置关系包括第一距离和第一角度，所述根据所述基准子麦克风在所述摄像设备上的部署位置，以及各所述声源分别对应的所述第一相对位置关系，转换得到各所述声源与所述摄像设备之间的第二相对位置关系的步骤，包括：

计算所述第一角度的余角；

调取所述基准子麦克风与所述摄像设备之间的直线距离，并将所述第一角度的余角、所述直线距离和所述第一距离代入计算公式中，得到第二距离，其中，所述计算公式为：a²＝b²+c²-2bc×cosβ，b为所述第一距离，c为所述直线距离，β为所述第一角度的余角，a为所述第二距离，表征所述摄像设备与所述声源之间的距离；

根据所述第一角度和所述第一距离，通过余弦定理公式计算得到所述基准子麦克风与所述声源之间的垂直距离；

根据所述第二距离和所述垂直距离，通过余弦定理公式，计算得到所述摄像设备与所述声源之间的第二角度，其中，所述摄像设备与所述声源之间的垂直距离与所述基准子麦克风与所述声源之间的垂直距离的值相同；

按照上述规则计算得到各所述声源与所述摄像设备之间分别对应的第二距离和第二角度，生成各所述第二相对位置关系。

3.根据权利要求1所述的基于视频和音频的目标轨迹标定方法，其特征在于，所述分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个声源的步骤，包括：

分别对各所述音频数据所包含的声音做VAD算法识别，得到若干个人声声源以及其他类型声源；

对各所述人声声源进行标记编号，并对各所述其他类型声源进行分贝值检测，将分贝值在分贝阈值以下的第一其他类型声源隐藏，同时对分贝值在所述分贝阈值以上的第二其他类型声源进行标记编号。

4.根据权利要求3所述的基于视频和音频的目标轨迹标定方法，其特征在于，所述对分贝值在所述分贝阈值以上的第二其他类型声源进行标记编号的步骤，包括：

将各所述第二其他类型声源分别对应的声音输入预先训练的声音类型识别模型进行识别，得到各所述第二其他类型声源分别对应的声音类型；

将所述声音类型作为标记信息，分别对各所述第二其他类型声源进行标记编号。

5.根据权利要求1所述的基于视频和音频的目标轨迹标定方法，其特征在于，所述根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹的步骤，包括：

分别以所述视频数据和各所述音频数据的采集时刻为基准进行时间同步，定位各所述声源在所述视频数据中的出现时间；

通过GPS定位方法采集所述摄像设备的所述第一运动轨迹，并以所述第一运动轨迹为位置参照，根据各所述声源分别对应的所述出现时间以及各所述第二相对位置关系，构建得到各所述声源分别相对于所述第一运动轨迹的所述第二运动轨迹。

6.根据权利要求1所述的基于视频和音频的目标轨迹标记方法，其特征在于，所述根据所述视频数据与各所述音频数据的采集时间，所述摄像设备的第一运动轨迹，以及各所述第二相对位置关系，构建各所述声源分别对应的第二运动轨迹的步骤之后，包括：

分别以不同颜色的线条构建各所述第二运动轨迹，并将各个颜色与各所述声源之间的对应关系进行记录形成对应信息；

根据所述第一运动轨迹、所述对应信息以及各所述第二运动轨迹生成轨迹分布图，并将所述轨迹分布图输出到显示界面。

7.根据权利要求6所述的基于视频和音频的目标轨迹标定方法，其特征在于，所述根据所述第一运动轨迹、所述对应信息以及各所述第二运动轨迹生成轨迹分布图，并将所述轨迹分布图输出到显示界面的步骤，包括：

调取三维地图，将所第一运动轨迹标示在所述三维地图上；

以所述第一运动轨迹为位置参照，分别将各所述第二运动轨迹标示在所述三维地图上，并在所述三维地图上加注所述对应信息以及各所述第二运动轨迹的出现时刻和结束时刻，形成所述轨迹分布图；

将所述轨迹分布图输出到显示界面。

8.一种基于视频和音频的目标轨迹标定装置，其特征在于，所述视频由摄像设备采集，所述音频由麦克风阵列采集，所述麦克风阵列由多个子麦克风组成，所述麦克风阵列部署在所述摄像设备上，所述目标轨迹标定装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。