CN115134499B

CN115134499B - 一种音视频监控方法及系统

Info

Publication number: CN115134499B
Application number: CN202210739400.9A
Authority: CN
Inventors: 仇波; 谭理; 金鑫; 伊新华
Original assignee: Shibang Communication Co ltd
Current assignee: Shibang Communication Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-02-02
Anticipated expiration: 2042-06-28
Also published as: CN115134499A

Abstract

本发明公开了一种音视频监控方法及系统，该方法包括获取当前视频监控图像变焦倍数；判断变焦倍数是否超过预设阈值；获取当前视频监控图像对应的麦克风阵列模块的输出增益；获取当前视频监控图像对应的混音信号；切换为与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；获取与当前视频监控图像对应的远场拾音器的输出增益；获取当前视频监控图像对应的音频数据。本发明通过在对视频监控图像进行变焦操作后，选择合适的麦克风阵列模块或远场拾音器采集的音频数据进行输出，保证了视频监控图像对应的音频输出的质量，从而提高视频监控图像与麦克风阵列模块或远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。

Description

一种音视频监控方法及系统

技术领域

本发明涉及安防监控技术领域，尤其是涉及一种音视频监控方法及系统。

背景技术

目前的一种音视频监控系统采用固定的监控画面配合单个麦克风进行声音采集的形式实现监控功能，无论是将监控数据存储到NVR(Network Video Recorder，网络硬盘录像机)上回放还是直接预览，画面视角和声音拾取的范围都不能进行改变，导致监控效果不佳，不利于用户体验。

发明内容

基于此，本发明的目的在于提供一种音视频监控方法及系统，通过操作图像变焦选择麦克风阵列或远场拾音器进行声音信号的输出，提高视频监控图像与音频输出之间的适配度，有效提升用户体验。

为解决上述技术问题，本发明所采用的技术方案是：

第一方面，提供了一种音视频监控方法，其包括如下步骤：

步骤S110、获取当前视频监控图像对应的远场拾音器；

步骤S120、获取当前视频监控图像相对于初始视频监控图像对应的变焦倍数Z；

步骤S130、通过公式获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；

步骤S140、基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行调节。

第二方面，还提供了一种音视频监控方法，其包括如下步骤：

步骤S210、获取当前视频监控图像相对于初始视频监控图像的变焦倍数Z；

步骤S220、判断当前视频监控图像相对于初始视频监控图像的变焦倍数Z是否超过预设阈值Z_c，若否，则转入执行步骤S230，若是，则转入执行步骤S250；

步骤S230、通过公式获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；其中，Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；g_c是在当前视频监控图像相对于初始视频监控图像的变焦倍数为Z_c时，麦克风阵列模块输出音频数据的最大增益；Z是当前视频监控图像相对于初始视频监控图像的变焦倍数；

步骤S240、基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号x_L(n)及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号x_R(n)；

步骤S250、将当前视频监控图像对应的麦克风阵列模块切换为与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；

步骤S260、通过公式获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；

步骤S270、基于远场拾音器的输出增益g_favfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。

第三方面，提供了一种音视频监控系统，其包括：

变焦模块，用于获取当前视频监控图像相对于初始视频监控图像的变焦倍数；

判断模块，用于判断当前视频监控图像相对于初始视频监控图像的变焦倍数是否超过预设阈值；

获取模块，在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值时，用于获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值时，用于将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器，并获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；

输出模块，在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值时，用于基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号x_L(n)及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号x_R(n)；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值时，用于基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。

综上所述，本发明一种音视频监控方法及系统通过设置多个远场拾音器、麦克风阵列模块与摄像头组件进行配合，在对视频监控图像进行变焦操作后，选择合适的麦克风阵列模块或远场拾音器采集的音频数据进行输出，保证了视频监控图像对应的音频输出的质量，从而提高视频监控图像与麦克风阵列模块或远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。

附图说明

图1是本发明实施例提供的第一种监控系统的结构框图；

图2是本发明实施例提供的第二种监控系统的结构框图；

图3是本发明实施例提供的麦克风阵列模块的指向性示意图；

图4是本发明实施例提供的第一种音视频监控方法的流程示意图；

图5是本发明实施例提供的第二种音视频监控方法的流程示意图；

图6是本发明实施例提供的第三种音视频监控方法的流程示意图；

图7为本发明实施例提供的第一种音视频监控系统的结构框图；

图8为本发明实施例提供的第二种音视频监控系统的结构框图；

图9为本发明实施例提供的一种智能设备的结构框图。

具体实施方式

为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能，下面结合附图与具体实施方式对本发明作进一步详细描述。

图1示出了本发明提供的一种音视频监控方法所适用的监控系统的示意图，请参阅图1，所述监控系统包括摄像头组件及至少一个远场拾音器，至少一个所述远场拾音器根据需要设置在摄像头组件监控辐射区域范围内，所述远场拾音器与摄像头组件之间可根据需要选择有线模拟方式、无线方式或网络方式进行连接，由于远场拾音器需与摄像头组件间隔较远距离，不能整合成一个实体装置，同时，远场拾音器可以为多个，可以设置于多个不同的位置，从而实现对摄像头组件监控区域范围内全方位的音频采集效果。

所述摄像头组件拍摄的视频与远场拾音器采集的音频均通过网络方式存入至NVR或云服务器内，在此不必进行赘述。

实际应用时，根据用户需要可对摄像头组件的视频监控图像进行变焦操作，同时远场拾音器则会配合视频监控图像的变焦操作而对采集的音频数据同步进行调节，当视频监控图像在进行不同的变焦倍数操作后，视频监控图像则会同步进行变焦倍数对应的放大倍数的操作，即当视频监控图像进行变焦倍数为Z的操作时，视频监控图像则会进行放大倍数为Z²的操作；根据需要对远场拾音器采集的音频数据进行调节后再输出，保证进行变焦操作后的视频监控图像对应的音频数据更为清晰，使得调节后输出的音频数据与当前视频监控图像更为适配，其中，当前视频图像为进行变焦操作后的视频监控图像；例如，可在视频监控阶段可以对摄像头进行光学变焦操作即对视频监控图像的大小进行调节操作，进而对对应的远场拾音器采集的音频数据进行调节以适配进行变焦后的视频监控图像；也可在视频回放阶段对视频监控图像进行电子变焦操作即对视频监控图像的大小进行调节操作，进而对对应的远场拾音器采集的音频数据进行调节以适配进行变焦后的视频监控图像。

请参阅图2，在一个实施例中，所述监控系统还包括麦克风阵列模块，所述麦克风阵列模块与摄像头组件整合为一个整体构造，如网络摄像机IPC，也可根据需要设置在摄像头组件的近端，即麦克风阵列模块设置在摄像头组件的预设距离内，所述麦克风阵列与摄像头组件通过有线方式进行连接。

具体地，所述麦克风阵列模块工作时，形成左波束信号、右波束信号、前波束信号三个波束信号，左波束信号、右波束信号均为心型指向波束信号，分别指向摄像头组件拍摄方向左、右两侧，前波束信号为摄像头组件拍摄方向波束信号，请参阅图3；麦克风阵列模块采集的音频数据包括左波束信号、右波束信号、前波束信号分别对应的音频数据，麦克风阵列模块采集的音频数据被完整地存入至NVR或云服务器内，以方便后续在调取视频监控图像对应的音频数据时使用。

实际应用时，根据用户需要可对摄像头组件的视频监控图像进行变焦操作，同时麦克风阵列模块或远场拾音器则会配合视频监控图像的变焦操作而对采集的音频数据同步进行调节，当视频监控图像在进行不同的变焦倍数操作时，视频监控图像则会同步进行变焦倍数对应的放大倍数的操作，根据需要对麦克风阵列模块或远场拾音器采集的音频数据进行调节后再输出，保证进行变焦操作后的视频监控图像对应的音频数据更为清晰，使得调节后输出的音频数据与当前视频监控图像更为适配，其中，当前视频图像为进行变焦操作后的视频监控图像；例如，可在视频监控阶段可以对摄像头进行光学变焦操作即对视频监控图像的大小进行调节操作，进而对对应的麦克风阵列模块或远场拾音器采集的音频数据进行调节以适配进行变焦后的视频监控图像；也可在视频回放阶段对视频监控图像进行电子变焦操作即对视频监控图像的大小进行调节操作，进而对对应的麦克风阵列模块或远场拾音器采集的音频数据进行调节以适配进行变焦后的视频监控图像。

图3是本发明实施例提供的第一种音视频监控方法的流程示意图，请参阅图3所示，当监控系统包括摄像头组件及至少一个远场拾音器时，所述音视频监控方法，包括如下步骤：

步骤S110、获取当前视频监控图像对应的远场拾音器，使得当前视频监控图像对应的远场拾音器更为接近当前视频监控图像中的图像画面所在位置，从而以保证该远场拾音器采集的音频数据更为适配当前视频监控图像，使得当前视频监控图像对应输出的声音更为清晰；其中，当前视频监控图像为对初始视频监控图像进行变焦操作后产生和/或对初始视频监控图像中的图像画面进行移动后产生，初始视频监控图像为摄像头组件以预设拍摄参数如焦距等、预设拍摄角度进行拍摄获取。

具体地，所述步骤S110的方法，包括以下步骤：

步骤S111、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标(x₁,y₁)，(x₂,y₂)，……(x_N,y_N)；

步骤S112、获取当前视频监控图像中的图像画面中心点位置坐标(x₀,y₀)；

步骤S113、通过公式选择d_i为最小值时位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器即为与当前视频监控画面适配的远场拾音器，1≤i≤N，N为远场拾音器放置的数量总数。

本实施例中，当前视频监控图像无论是通过对初始视频监控图像进行变焦操作后产生，还是未进行变焦操作时，通过对初始视频监控图像的画面进行移动产生，均可找到与当前视频监控图像最适配的远场拾音器，进而将当前视频监控图像与适配的远程拾音器采集的音频数据进行音视频融合操作。

在一个实施例中，所述步骤S113之后，还包括

步骤S114、在当前视频监控图像中的图像画面进行移动时，通过公式选择d_i为最小值时位置坐标对应的远场拾音器，记为第二远场拾音器，当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标相同时，当前视频监控图像对应的远场拾音器仍保持为第一远场拾音器；当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标不同时，当前视频监控图像对应的远场拾音器由第一远场拾音器切换为第二远场拾音器。

步骤S120、获取当前视频监控图像相对于初始视频监控图像对应的变焦倍数Z即当前视频监控图像相对于初始视频监控图像的放大倍数Z²；其中，在视频监控阶段，当前视频监控图像相对于初始视频监控图像对应的变焦倍数Z为摄像头组件拍摄当前视频监控图像时的焦距相对于摄像头组件拍摄初始视频监控图像时的焦距的倍数；在视频回放阶段，当前视频监控图像相对于初始视频监控图像对应的变焦倍数Z可视为当前视频监控图像相对于初始视频监控图像的放大倍数Z²。

步骤S130、通过公式获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；当摄像头组件的预设最大变焦倍数为Z_max时，初始视频监控图像的预设最大放大倍数则为/>

步骤S140、基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行调节；另外，在对当前视频监控图像对应的远场拾音器采集的音频数据进行调节时，也同步对其他远场拾音器采集的音频数据进行调节，使得所有远场拾音器的输出增益在任何时候均可适配当前视频监控图像，即当前视频监控图像对应任何一个远场拾音器，与当前视频监控图像对应的远场拾音器采集的音频数据均可直接与当前视频监控图像进行音视频的融合操作。

在视频监控阶段，可直接调节对应的远场拾音器的输出增益，进而对实时采集的音频数据进行增益调节，使得当前视频监控图像对应的音频数据更加清晰；在视频回放阶段，通过对已存储在NVR或云服务器内音频数据进行增益调节，使得当前视频监控图像对应的音频数据更加清晰。

本发明提供一种音视频监控系统，通过设置多个远场拾音器与摄像头组件进行配合，在对视频监控图像进行变焦操作后，选择合适远场拾音器采集的音频数据进行输出，保证了视频监控图像对应的音频输出的质量，从而提高视频监控图像与远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。

图4是本发明实施例提供的第二种音视频监控方法的流程示意图，请参阅图4，当监控系统包括摄像头组件、麦克风阵列模块及至少一个远场拾音器时，所述音视频监控方法，包括如下步骤：

步骤S210、获取当前视频监控图像相对于初始视频监控图像的变焦倍数Z即获取当前视频监控图像相对于初始视频监控图像的放大倍数Z²；对初始视频监控图像进行变焦操作，获取当前视频监控图像及当前视频监控图像相对于初始视频监控图像的变焦倍数Z²，其中，初始视频监控图像为摄像头组件以预设拍摄参数如焦距等、预设拍摄角度进行拍摄获取，对初始视频监控图像进行变焦操作的方式包括对视频监控阶段的初始视频监控图像进行变焦倍数为Z的变焦操作或对视频回放阶段的初始视频监控图像进行电子放大倍数为Z²的电子变焦操作。

步骤S220、判断当前视频监控图像相对于初始视频监控图像的变焦倍数Z是否超过预设阈值Zl，若否，则转入执行步骤S230，若是，则转入执行步骤S250。

步骤S230、通过公式获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；其中，Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；g_c是在当前视频监控图像相对于初始视频监控图像的变焦倍数为Z_c时，麦克风阵列模块输出音频数据的最大增益；Z是当前视频监控图像相对于初始视频监控图像的变焦倍数；当当前视频监控图像相对于初始视频监控图像的变焦倍数Z未超过预设阈值Z_c时，当前视频监控图像对应的音频数据为麦克风阵列模块采集获取的音频数据。

摄像头组件在初始拍摄状态下，摄像头组件的焦距不会发生变化，摄像头组件会按照初始设定焦距进行拍摄，摄像头组件拍摄的视频监控图像大小也处于不变化状态，初始拍摄状态下的视频监控图像对应的音频数据为麦克风阵列模块采集的左波束信号与右波束信号混合形成的立体声音频数据；也可根据需要，在不考虑立体声音频数据的前提下，初始拍摄状态下的视频监控图像对应的音频数据也可为麦克风阵列模块采集的前波束信号形成的音频数据。

步骤S240、基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据信号进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号x_L(n)及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号x_R(n)，从而使得在视频监控图像进行变焦操作后，麦克风阵列模块输出的音频数据也同步进行调整，以提高视频监控图像与麦克风阵列模块输出的音频数据两者之间的适配度，有效提升用户体验。

在一个实施例中，所述步骤S240的方法，具体操作为：

当前视频监控图像相对于初始视频监控图像的变焦倍数为Z时，基于麦克风阵列模块的输出增益g_local，通过公式及/>对当前视频监控图像对应的麦克风阵列模块采集的音频数据信号进行混音处理，获取当前视频监控图像对应的混音信号；当前视频监控图像相对于初始视频监控图像对应的变焦倍数为Z可视为当前视频监控图像相对于初始视频监控图像的放大倍数为Z²。

步骤S250、将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；具体地，当视频监控图像的变焦倍数Z超过预设阈值Z_c时，获取当前视频监控图像的图像画面中心点位置坐标，将当前视频监控图像对应输出的音频数据由麦克风阵列模块采集的音频数据切换成远场拾音器采集的音频数据；通过与当前视频监控图像画面中心点坐标位置最接近的远场拾音器采集的音频数据来和当前视频监控图像进行适配，保证当前视频监控图像对应的声音输出更为清晰，有效提升用户体验；其中，采用与当前视频监控图像画面中心点位置坐标距离最小的远场拾音器采集的音频数据作为视频监控图像的音频输出，从而保证该远场拾音器采集的音频数据与当前视频监控图像更为适配，有效提升用户体验。

具体地，所述步骤S250的方法，包括以下步骤：

步骤S251a、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标(x₁，y₁)，(x₂，y₂)，......(x_N，y_N)；其中，初始视频监控图像为摄像头组件以预设拍摄参数如焦距等、预设拍摄角度进行拍摄获取；

步骤S252a、获取当前视频监控图像的图像画面中心点坐标(x₀，y₀)；当当前视频监控图像相对于初始视频监控图像的变焦倍数Z超过预设阈值Z_c时，获取当前视频监控图像的图像画面中心点坐标(x₀，y₀)；

步骤S253a、通过公式选择d_i为最小值时的位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器即为与当前视频监控画面适配的远场拾音器，1≤i≤N，N为远场拾音器放置的数量总数。

进一步地，在视频回放阶段，当当前视频监控图像相对于初始视频监控图像的变焦倍数Z超过预设阈值Z_c且不再进行变焦操作后，此时，对当前视频监控图像的画面进行移动时，当前视频监控图像对应的远场拾音器选择则按照步骤S250的方法实现，具体描述参考步骤S251a～步骤S253a，在此不必进行赘述。

在视频监控阶段，当视频监控图像的变焦倍数Z超过预设阈值Z_c且不再进行变焦操作后，此时，摄像头组件的拍摄角度进行移动，从而实现对视频监控图像的移动，当前视频监控图像对应的远场拾音器选择则按照步骤S250的方法实现，具体描述参考步骤S251a～步骤S253a，在此不必进行赘述。

在一个实施例中，所述步骤S253a之后，还包括

步骤S254a、在当前视频监控图像中的图像画面进行移动时，通过公式选择d_i为最小值时位置坐标对应的远场拾音器，记为第二远场拾音器，当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标相同时，当前视频监控图像对应的远场拾音器仍保持为第一远场拾音器；当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标不同时，当前视频监控图像对应的远场拾音器由第一远场拾音器切换为第二远场拾音器。

在其他实施例中，所述步骤S250的方法，包括以下步骤：

步骤S251b、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标(x₁，y₁)，(x₂，y₂)，......(x_N，y_N)；其中，初始视频监控图像为摄像头组件以预设拍摄参数如焦距等、预设拍摄角度进行拍摄获取；

步骤S252b、获取当前视频监控图像中标示点的位置坐标，以标示点的位置坐标作为当前视频监控图像中的图像画面的中心位置(x₀，y₀)；当视频监控图像的变焦倍数Z超过预设阈值Z_c时，获取视频监控图像中标示点的位置坐标，在视频回放阶段，对存储在NVR或云服务器的当前视频监控图像进行操作，当用户需要观看当前视频监控图像中某一位置坐标对应的放大图像时，则操控鼠标点击该位置作为标示点，并以该标示点所在位置坐标作为当前视频监控图像的图像画面中心点，使得当前视频监控图像中的图像画面在显示屏幕上进行滑动；

步骤S253b、通过公式选择d_i为最小值时位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器即为与进行标示点操作后的当前视频监控图像适配的远场拾音器，1≤i≤N，N为远场拾音器放置的数量总数。

在一个实施例中，所述步骤S253b之后，还包括

步骤S254b、在当前视频监控图像中的图像画面进行移动时，通过公式选择d_i为最小值时位置坐标对应的远场拾音器，记为第二远场拾音器，当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标相同时，当前视频监控图像对应的远场拾音器仍保持为第一远场拾音器；当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标不同时，当前视频监控图像对应的远场拾音器由第一远场拾音器切换为第二远场拾音器。

步骤S260、通过公式获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；当摄像头组件的预设最大变焦倍数为Z_max时，初始视频监控图像的预设最大放大倍数则为/>

当Z小于Z_c时，由于当前视频监控图像对应的音频数据由麦克风阵列模块采集获取，此时，各个远场拾音器以初始输出增益为1持续性采集周围环境的音频数据，但不会与当前视频监控图像进行适配；当Z等于Z_c时，当前视频监控图像所需的音频数据由麦克风阵列模块采集的音频数据切换到由远场拾音器采集的音频数据，此时，将与当前视频监控图像的图像画面中心点坐标位置最近的远场拾音器采集的音频数据作为适配的音频数据进行输出，与当前视频监控图像的图像画面中心点坐标位置最近的远场拾音器仍以初始输出增益进行音频数据的输出；当Z大于Z_c时，视频监控画面继续进行变焦操作，此时对与当前视频监控图像的图像画面中心点坐标位置最近的远场拾音器的输出增益进行调节，保证当前视频监控图像对应的音频数据输出更为清晰，从而提高视频监控图像与其对应的远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。

步骤S270、基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据信号进行增益调节，获取当前视频监控图像对应的音频数据信号；其中，所述当前视频监控图像对应的音频数据信号为该远场拾音器进行增益为g_farfield处理后采集的音频数据信号。

另外，在对当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节时，也同步对其他远场拾音器采集的音频数据进行增益调节，使得所有远场拾音器的输出增益在任何时候均可适配当前视频监控图像，即当前视频监控图像对应任何一个远场拾音器，与当前视频监控图像对应的远场拾音器采集的音频数据均可直接与当前视频监控图像进行音视频的融合操作。

如图5所示，在一个实施例中，所述步骤S250之后，还包括

步骤S280、通过公式获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_a时位置坐标(x_a，y_a)对应的远场拾音器，记为第三拾音器，以及获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_b时位置坐标(x_b，y_b)对应的远场拾音器，记为第四拾音器；其中，d_a为最小值，d_b为倒数第二小值；

步骤S290、当x₀取值在x_a与x_b之间且取值满足/>时，获取当前视频监控画面对应的音频数据；其中，δ∈[0，1)，当前视频监控画面对应的音频数据为经混音处理后的第三拾音器采集的音频数据和第四拾音器采集的音频数据；具体地，当前视频监控画面对应的音频数据可以采用第三拾音器对应音频信号与第四拾音器对应音频信号的平均信号，也可以根据需要采用按与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离分配比例对第三拾音器的音频信号及第四拾音器的音频信号进行处理，此为已知技术，在此不必赘述。

本实施例中，所述步骤S280可描述成位于步骤S260之前，也可根据需要描述成位于步骤S270之后。

由于实际应用中的环境是多变的，声学环境也是不确定和复杂的，一些远距离和噪音较大的环境中，麦克风阵列模块采集的音频数据会受到较大的影响，因此，本应用实施例采用多个远场拾音器在摄像头组件监控辐射区域范围内分布采集，可以尽量避开噪音源和最大限度接近被监听声源，保障音频监控的音质效果；同时远场拾音器分布在监控辐射区域范围内，并与视频监控图像进行结合，在对视频监控阶段的视频监控图像进行变焦倍数为Z的变焦操作或对视频回放阶段的视频监控图像进行电子放大倍数为Z²的电子变焦操作时，对应地选择适配的麦克风阵列模块采集的音频数据或远场拾音器采集的音频数据进行音频输出，保证了视频监控图像对应的音频输出的质量，从而提高视频监控图像与麦克风阵列模块或远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。

本发明一种音视频监控方法通过设置多个远场拾音器、麦克风阵列模块与摄像头组件进行配合，在对视频监控图像进行变焦操作后，选择合适的麦克风阵列模块或远场拾音器采集的音频数据进行输出，保证了视频监控图像对应的音频输出的质量，从而提高视频监控图像与麦克风阵列模块或远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。

如图4所示，为了更加清晰本发明的技术方案，下面再阐述优选实施例。

步骤S230、通过公式获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；其中，Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；g_c是在当前视频监控图像相对于初始视频监控图像的变焦倍数为Z_t时，麦克风阵列模块输出音频数据的最大增益；Z是当前视频监控图像相对于初始视频监控图像的变焦倍数；

步骤S250、将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；

步骤S270、基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。

图6示出了本发明提供的一种音视频监控系统的结构框图，如图6所示，对应于上述一种音视频监控方法，本发明还提供了一种音视频监控系统，该音视频监控系统包括用于执行上述音视频监控方法的模块，该音视频监控系统可以被配置于智能设备上，本发明提供一种音视频监控系统，通过设置多个远场拾音器、麦克风阵列模块与摄像头组件进行配合，在对视频监控图像进行变焦操作后，选择合适的麦克风阵列模块或远场拾音器采集的音频数据进行输出，保证了视频监控图像对应的音频输出的质量，从而提高视频监控图像与麦克风阵列模块或远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。

具体地，如图6所示，该音视频监控系统包括变焦模块110、判断模块120、获取模块130及输出模块140。

变焦模块110，用于获取当前视频监控图像相对于初始视频监控图像的变焦倍数；

判断模块120，用于判断当前视频监控图像相对于初始视频监控图像的变焦倍数是否超过预设阈值；

获取模块130，在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值时，用于获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值时，用于将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器，并获取与当前视频监控图像对应的远场拾音器的输出增益g_farfieid；

输出模块140，在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值时，用于基于麦克风阵列模块的输出增益g_looal对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号x_L(n)及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号x_R(n)；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值时，用于基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。

图7是本发明实施例提供的另一种音视频监控系统的结构框图。如图7所示，本实施例提供的一种音视频监控系统是在上述音视频监控系统的基础上增加了混音模块150，所述混音模块150用于通过公式获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_a时位置坐标(x_a，y_a)对应的远场拾音器，记为第三拾音器，以及获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_b时位置坐标(x_b，y_b)对应的远场拾音器，记为第四拾音器；其中，d_a为最小值，d_b为倒数第二小值；当x₀取值在x_a与x_b之间且/>取值满足/>时，用于获取当前视频监控画面对应的音频数据；其中，δ∈[0，1)，当前视频监控画面对应的音频数据为经混音处理后的第三拾音器采集的音频数据和第四拾音器采集的音频数据。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述音视频监控系统和各模块的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

图8是本发明实施例提供的一种智能设备的内部结构框图，如图8所示，本发明提供的智能设备包括通过系统总线连接的通过系统总线连接的存储器、处理器及网络接口；所述存储器上存储有计算机程序，所述处理器用于提供计算和控制能力，以支撑整个智能设备的运行，所述处理器执行所述计算机程序时实现上述的一种音视频监控方法。

存储器可以包括非易失性监控系统和内存储器，该非易失性监控系统存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现音视频监控方法。

该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行音视频监控方法。该网络接口用于与其它设备进行网络通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其他的智能设备的限定，具体的智能设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的音视频监控方法可实现为一种计算机程序的方式，计算机程序可以在如图8所示的智能设备上运行。智能设备的存储器中可存储组成该音视频监控系统的各个程序模块，比如，图6所示的变焦模块110、判断模块120、获取模块130及输出模块140。各个程序模块构成的计算机程序使得处理器执行本说明中描述的本申请各个实施例的音视频监控系统的步骤。例如，图8所示的智能设备可以通过如图6所示的音视频监控系统中的变焦模块110获取当前视频监控图像相对于初始视频监控图像的变焦倍数；判断模块120判断当前视频监控图像相对于初始视频监控图像的变焦倍数是否超过预设阈值；在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值时，获取模块130获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值时，获取模块130将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器，并获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值时，输出模块140基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号x_L(n)及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号x_R(n)；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值时，输出模块140基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。

在一个实施例中，提出了一种智能设备，包括存储器和处理器，所述存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：步骤S210、获取当前视频监控图像相对于初始视频监控图像的变焦倍数Z；步骤S220、判断当前视频监控图像相对于初始视频监控图像的变焦倍数Z是否超过预设阈值Z_c，若否，则转入执行步骤S230，若是，则转入执行步骤S250；步骤S230、通过公式获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；其中，Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；g_c是在当前视频监控图像相对于初始视频监控图像的变焦倍数为Z_c时，麦克风阵列模块输出音频数据的最大增益；Z是当前视频监控图像相对于初始视频监控图像的变焦倍数；步骤S240、基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号/>所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号x_L(n)及右波束信号与增益为g_loccl的前波束信号叠加形成的右声道信号x_R(n)；步骤S250、将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；步骤S260、通过公式/>获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；步骤S270、基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。

在一个实施例中，所述处理器在执行步骤S250之后，还用于执行如下步骤：步骤S280、通过公式获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_a时位置坐标(x_a，y_a)对应的远场拾音器，记为第三拾音器，以及获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_b时位置坐标(x_b，y_b)对应的远场拾音器，记为第四拾音器；其中，d_a为最小值，d_b为倒数第二小值；步骤S290、当x₀取值在x_a与x_b之间且/>取值满足/>时，获取当前视频监控画面对应的音频数据；其中，δ∈[0，1)，当前视频监控画面对应的音频数据为经混音处理后的第三拾音器采集的音频数据和第四拾音器采集的音频数据。

在一个实施例中，所述处理器在执行所述步骤S250时，具体执行如下步骤：步骤S251a、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标(x₁，y₁)，(x₂，y₂)，......(x_N，y_N)；步骤S252a、获取当前视频监控图像的图像画面中心点坐标(x₀，y₀)；当当前视频监控图像相对于初始视频监控图像的变焦倍数Z超过预设阈值Z_c时，获取当前视频监控图像的图像画面中心点坐标(x₀，y₀)；步骤S253a、通过公式选择d_i为最小值时的位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器为与当前视频监控画面适配的远场拾音器，1≤i≤N，N为远场拾音器放置的数量总数。

应当理解，在本申请实施例中，处理器可以是中央处理单元(Central ProcessingUnit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一监控系统中，该监控系统为计算机可读监控系统。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：步骤S210、获取当前视频监控图像相对于初始视频监控图像的变焦倍数Z；步骤S220、判断当前视频监控图像相对于初始视频监控图像的变焦倍数Z是否超过预设阈值Z_l，若否，则转入执行步骤S230，若是，则转入执行步骤S250；步骤S230、通过公式获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local；其中，Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；g_c是在当前视频监控图像相对于初始视频监控图像的变焦倍数为Z_l时，麦克风阵列模块输出音频数据的最大增益；Z是当前视频监控图像相对于初始视频监控图像的变焦倍数；步骤S240、基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号/>所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号x_L(n)及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号x_R(n)；步骤S250、将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；步骤S260、通过公式/>获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；步骤S270、基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。

在一个实施例中，所述处理器在执行所述程序指令而实现所述步骤S250之后，还实现如下步骤：步骤S280、通过公式获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_a时位置坐标(x_a，y_a)对应的远场拾音器，记为第三拾音器，以及获取与当前视频监控画面的图像画面中心位置坐标(x₀，y₀)距离为d_b时位置坐标(x_b，y_b)对应的远场拾音器，记为第四拾音器；其中，d_a为最小值，d_b为倒数第二小值；步骤S290、当x₀取值在x_a与x_b之间且/>取值满足/>时，获取当前视频监控画面对应的音频数据；其中，δ∈[0，1)，当前视频监控画面对应的音频数据为经混音处理后的第三拾音器采集的音频数据和第四拾音器采集的音频数据。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台装置(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种音视频监控方法，其特征在于，包括如下步骤：

步骤S110、获取当前视频监控图像对应的远场拾音器；

步骤S130、通过公式，1≤Z≤Z_max，获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；

2.根据权利要求1所述的音视频监控方法，其特征在于，所述步骤S110的方法，包括以下步骤：

步骤S111、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标（x₁，y₁），（x₂，y₂），……（x_N，y_N）；

步骤S112、获取当前视频监控图像中的图像画面中心点位置坐标（x₀，y₀）；

3.根据权利要求2所述的音视频监控方法，其特征在于：所述步骤S113之后，还包括

4.一种音视频监控方法，其特征在于，包括如下步骤：

步骤S240、基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号x_cbeam(n)，所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号/>；

5.根据权利要求4所述的音视频监控方法，其特征在于，所述步骤S250的方法，包括以下步骤：

步骤S251a、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标（x₁，y₁），（x₂，y₂），……（x_N，y_N）；

步骤S252a、获取当前视频监控图像的图像画面中心点坐标（x₀，y₀）；

步骤S253a、通过公式选择d_i为最小值时的位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器为与当前视频监控画面适配的远场拾音器，1≤i≤N，N为远场拾音器放置的数量总数。

6.根据权利要求5所述的音视频监控方法，其特征在于，所述步骤S253a之后，还包括

7.根据权利要求4所述的音视频监控方法，其特征在于，所述步骤S250的方法，包括以下步骤：

步骤S251b、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标（x₁，y₁），（x₂，y₂），……（x_N，y_N）；

步骤S252b、获取当前视频监控图像中标示点的位置坐标，以标示点的位置坐标作为当前视频监控图像中的图像画面的中心位置（x₀，y₀）；

步骤S253b、通过公式选择d_i为最小值时位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器为与进行标示点操作后的当前视频监控图像适配的远场拾音器，1≤i≤N，N为远场拾音器放置的数量总数。

8.根据权利要求7所述的音视频监控方法，其特征在于：所述步骤S253b之后，还包括

9.根据权利要求4所述的音视频监控方法，其特征在于：所述步骤S250之后，还包括

步骤S280、通过公式获取与当前视频监控画面的图像画面中心位置坐标（x₀，y₀）距离为d_a时位置坐标（x_a，y_a）对应的远场拾音器，记为第三拾音器，以及获取与当前视频监控画面的图像画面中心位置坐标（x₀，y₀）距离为d_b时位置坐标（x_b，y_b）对应的远场拾音器，记为第四拾音器；其中，d_a为最小值，d_b为倒数第二小值；

步骤S290、当x₀取值在x_a与x_b之间且取值满足/>时，获取当前视频监控画面对应的音频数据；其中，/>，当前视频监控画面对应的音频数据为经混音处理后的第三拾音器采集的音频数据和第四拾音器采集的音频数据。

10.一种音视频监控系统，其特征在于，包括：

获取模块，在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值Z_c时，用于获取当前视频监控图像对应的麦克风阵列模块的输出增益g_local，；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值Z_c时，用于将当前视频监控图像对应的麦克风阵列模块切换成与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器，并获取与当前视频监控图像对应的远场拾音器的输出增益g_farfield，/>；其中，Z_max为摄像头组件的预设最大变焦倍数，g_max为该远场拾音器的预设最大输出增益；Z_c是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；g_c是在当前视频监控图像相对于初始视频监控图像的变焦倍数为Z_c时，麦克风阵列模块输出音频数据的最大增益；

输出模块，在当前视频监控图像相对于初始视频监控图像的变焦倍数不超过预设阈值Z_c时，用于基于麦克风阵列模块的输出增益g_local对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述麦克风阵列模块采集的音频数据信号包括左波束信号x_{l_beam}(n)、右波束信号x_{r_beam}(n)、前波束信号x_cbeam(n)，所述混音信号为左波束信号与增益为g_local的前波束信号叠加形成的左声道信号及右波束信号与增益为g_local的前波束信号叠加形成的右声道信号/>；及在当前视频监控图像相对于初始视频监控图像的变焦倍数超过预设阈值Z_c时，用于基于远场拾音器的输出增益g_farfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。