CN113225646A

CN113225646A - 音视频监控方法、装置、电子设备及存储介质

Info

Publication number: CN113225646A
Application number: CN202110467136.3A
Authority: CN
Inventors: 仇波; 金鑫; 彭京龙; 李俊
Original assignee: Shibang Communication Co Ltd
Current assignee: Shibang Communication Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-06
Anticipated expiration: 2041-04-28
Also published as: CN113225646B

Abstract

本发明实施例涉及监控技术领域，公开了一种音视频监控方法、装置、电子设备及存储介质。该方法包括：接收对视频信号进行第一变焦操作获取的第一变焦信息；基于所述第一变焦信息获取针对音频信号的第二变焦信息，所述第二变焦信息包括目标音频采集装置的数量；根据所述第二变焦信息确定最终的音频输出信号。实施本发明实施例，可以在预览或回放过程中，实现音频信号的指向性调节。

Description

音视频监控方法、装置、电子设备及存储介质

技术领域

本发明涉及音视频监控技术领域，具体涉及一种音视频监控方法、装置、电子设备及存储介质。

背景技术

目前的音视频监控系统是固定的画面加单个麦克风的形式，无论是存储到nvr上回放还是直接预览，画面视角和声音拾取的范围都不能再改变。

手机上有一种功能，如录像时，通过双手缩放图像实现变焦的同时，通过手机上的2-3个麦克风组成的麦克风阵列的指向角度也相应调节，这样(理想情况下)可以拾取特定角度的对象的声音，从而实现音/视频同步变焦的效果，但是这种仅限于录像过程中实现，回放时对录像内容进行变焦时，则无法实现音频信号的指向性调节。

发明内容

针对所述缺陷，本发明实施例公开了一种音视频监控方法、装置、电子设备及存储介质，可以在预览或回放过程中，实现音频信号的指向性调节。

本发明实施例第一方面公开一种音视频监控方法，所述方法包括：

接收对视频信号进行第一变焦操作获取的第一变焦信息；

基于所述第一变焦信息获取针对音频信号的第二变焦信息，所述第二变焦信息包括目标音频采集装置的数量；

根据所述第二变焦信息确定最终的音频输出信号。

作为一种可选的实施方式，在本发明实施例第一方面中，所述音频采集装置为多个全向性麦克风组成的麦克风阵列，所述目标音频采集装置的数量为参与处理的麦克风的数量。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述第一变焦信息获取针对音频信号的第二变焦信息，包括：

根据第一变焦信息确定变焦倍数；

利用预设的第一映射关系表获取所述变焦倍数对应的目标音频采集装置的数量；或者，根据公式(1)确定目标音频采集装置的数量：

其中n为目标音频采集装置的数量，χ为变焦倍数，χ_max为视频采集装置对应的最大变焦倍数，N为麦克风阵列中的麦克风总数，

为向上取整，当χ＝1时，n＝1。

作为一种可选的实施方式，在本发明实施例第一方面中，根据所述第二变焦信息确定最终的音频输出信号，包括：

获取所有的目标音频采集装置；

根据公式(2)获取所述所有的目标音频采集装置的音频输出信号：

其中Y(f)为频域输出信号；X_i(f)为第i个目标音频采集装置的频域输入信号；n为目标音频采集装置的数量，1≤n≤N，N为麦克风阵列中的麦克风总数；w_ni为X_i(f)对应的系数。

作为一种可选的实施方式，在本发明实施例第一方面中，获取所有的目标音频采集装置，包括：

在所述麦克风阵列中任意选择所述数量的麦克风作为目标音频采集装置；

或者，

利用预设的第二映射关系表获取所述目标音频采集装置的数量对应的麦克风阵列中的麦克风。

作为一种可选的实施方式，在本发明实施例第一方面中，获取所述所有的目标音频采集装置的音频输出信号，包括：

获取所有目标音频采集装置采集的时域输入信号，并将所有目标音频采集装置采集的时域输入信号转换为频域输入信号；

按照公式(2)计算得到所有的目标音频采集装置对应的频域输出信息Y(f)，并将所述频域输出信息Y(f)转换为时域输出信号Y(t)作为所述所有的目标音频采集装置的音频输出信号。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：

确定第一变焦信息对应于视频采集装置采集的视频图像中的时段；

控制所述音频采集装置采集的音频信号在所述时段内输出所述最终的音频输出信号。

本发明实施例第二方面公开一种音视频监控装置，其包括：

接收单元，用于接收对视频信号进行第一变焦操作获取的第一变焦信息；

计算单元，用于基于所述第一变焦信息获取针对音频信号的第二变焦信息，所述第二变焦信息包括目标音频采集装置的数量；

输出单元，用于根据所述第二变焦信息确定最终的音频输出信号。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种音视频监控方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种音视频监控方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种音视频监控方法。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种音视频监控方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，接收对视频信号进行第一变焦操作获取的第一变焦信息；基于所述第一变焦信息获取针对音频信号的第二变焦信息，所述第二变焦信息包括目标音频采集装置的数量；根据所述第二变焦信息确定最终的音频输出信号。可见，实施本发明实施例，只要确定对视频信号操作的第一变焦信息，无论是预览还是回放，均可基于第一变焦信息确定目标音频采集装置的数量，然后根据目标音频采集装置确定最终与视频采集装置变焦对应的指向性的音频输出信号，从而可以在放大图像时，获取远景下较高质量的声音，提升监控质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人体来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种音视频监控方法的流程示意图；

图2是本发明实施例公开的全指向性的示意图；

图3是本发明实施例公开的较弱指向性的示意图；

图4是本发明实施例公开的较强指向性的示意图；

图5是本发明实施例公开的一种音视频监控装置的结构示意图；

图6是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人体在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种音视频监控方法、装置、电子设备及存储介质，其只要确定对视频信号操作的第一变焦信息，无论是预览还是回放，均可基于第一变焦信息确定目标音频采集装置的数量，然后根据目标音频采集装置确定最终与视频采集装置变焦对应的指向性的音频输出信号，从而可以在放大图像时，获取远景下较高质量的声音，提升监控质量，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种音视频监控方法的流程示意图。其中，本发明实施例所描述的方法适用于可以接收音视频并对音视频进行相关处理的电子设备，例如NVR，当然，还可以是计算机、手机、平板电脑等。如图1所示，该音视频监控方法包括以下步骤：

S110，接收对视频信号进行第一变焦操作获取的第一变焦信息。

视频信号由监控系统的视频采集装置采集获取，监控系统包括视频采集装置和音频采集装置。

视频采集装置可以是任意具有视频采集功能的设备，例如摄像头或摄像机(例如网络摄像机IPC)等，这里不做限定。视频采集装置具有变焦功能，这里的变焦功能可以是光学变焦或电子(数码)变焦，当然也可以是二者的结合，例如，在预览过程中，可以是光学变焦和电子变焦的结合，在回放过程中，使用电子变焦方式实现。

第一变焦信息为变焦倍数。对于光学变焦而言，变焦倍数可以通过视频采集装置本身直接获取，即视频采集装置内部的处理机制获取。也可以是人为输入使得视频采集装置去执行变焦倍数，例如人为控制视频采集装置的变焦倍数为2，则第一变焦信息为2。

对于电子变焦而言，可以通过电子设备即处理视频图像的设备的相关处理器件获取，例如根据当前像素数和实际像素数进行比对确定变焦倍数，或者图像的放大倍数作为变焦倍数等。

可以理解的是：如果视频信号同时被执行电子变焦和光学变焦，则其最终的变焦倍数为二者的乘积，例如电子变焦的变焦倍数为2，光学变焦的变焦倍数为5，则该对视频信号的第一变焦信息为10。另外，电子变焦和光学变焦均具有最高的变焦倍数。

S120，基于所述第一变焦信息获取针对音频信号的第二变焦信息，所述第二变焦信息包括目标音频采集装置的数量。

音频信号由监控系统的音频采集装置采集获取。在本发明较佳的实施例中，音频采集装置采用多个全向性麦克风组成的麦克风阵列，从而可以根据第一变焦信息确定参与处理的麦克风的数量和具体的参与处理的麦克风。进而根据具体的参与处理的麦克风确定最终具有相应指向性的音频输出信号。音频采集装置中的全向性麦克风的具体数量根据需要设置，例如可以是8个或更多，当然，也可以是5个、6个等。

当然，也可以采用多个具有一定指向性的麦克风组成的麦克风阵列，例如超心型麦克风。

参与处理的麦克风记为目标音频采集装置，第二变焦信息是指目标音频采集装置的数量，可以根据目标音频采集装置的数量确定最终参与处理的麦克风。

确定目标音频采集装置的数量，可以是通过预设的第一映射关系表得到，第一映射关系表为变焦倍数和数量的关系表，例如变焦倍数为1时，参与处理的麦克风数量为1，即此时仅有一个麦克风输出声音，其余的均存储即可；变焦倍数为2时，参与处理的麦克风数量为3；变焦倍数为2时，参与处理的麦克风数量为5等。

可以理解的是，各个麦克风采集的音频信号形成一个通道，并分别存储，在预览过程或回放过程中，仅播放参与处理的麦克风最终拟合形成的音频输出信号。

确定目标音频采集装置的数量，还可以通过以下公式实现：

为向上取整，当χ＝1时，n＝1。

需要说明的是，上述公式中，如果χ为电子变焦倍数(或光学变焦倍数)，则χ_max为视频采集装置对应的最大电子变焦倍数(或光学变焦倍数)，如果χ为电子变焦倍数和光学变焦倍数的乘积，则χ_max为视频采集装置对应的最大电子变焦倍数和最大光学变焦倍数的乘积。

图2-4分别示出了1个麦克风、4个麦克风、8个麦克风构建的麦克风阵列的指向性，由此可见，对视频信号变焦倍数越大，则参与信号处理的麦克风的数量越多，音频信号的指向性越强。

根据目标音频采集装置的数量确定最终参与处理的麦克风的方式有多种。示例性地，任意选取对应数量的麦克风作为最终参与处理的麦克风，例如，当目标音频采集装置的数量为3时，可以选取编号1、2、3的麦克风作为最终参与处理的麦克风。这种方式尤其适用于各个麦克风在麦克风阵列中权重相等的情况。

还可以通过预设的第二映射关系表来确定最终参与处理的麦克风，第二映射表可以是目标音频采集装置的数量和最终参与处理的麦克风的编号的关系表。例如，当目标音频采集装置的数量为3时，通过查询第二映射关系表，可以确定，编号2、5、7的麦克风为最终参与处理的麦克风；当目标音频采集装置的数量为4时，通过查询第二映射关系表，可以确定，编号1、4、6、8的麦克风为最终参与处理的麦克风。

S130，根据所述第二变焦信息确定最终的音频输出信号。

上述S120步骤已经确定了第二变焦信息，并且基于第二变焦信息，确定了目标音频采集装置的数量和具体参与处理的麦克风。

因此，只要将具体参与处理的麦克风的音频输入信号拟合形成最终播放的音频输出信号，则为最终与第一变焦信息对应的音频输出信号。

多个全向性麦克风经过一定的算法拟合，则可以形成相应指向性的麦克风阵列。即可以在N个麦克风的线阵中，通过调整参与信号处理的麦克风的个数，来调整麦克风阵列的指向性。

获取所述所有的目标音频采集装置的音频输出信号的方法是：

其中Y(f)为频域输出信号；X_i(f)为第i个目标音频采集装置的频域输入信号；n为目标音频采集装置的数量，1≤n≤N，N为麦克风阵列中的麦克风总数；w_ni为X_i(f)对应的系数，即X_i(f)在麦克风阵列中的权重，该权重根据需要设置或者根据相关试验进行设置。

由于音频采集装置采集的音频信号为时域信号，且最后播放的音频输出信号也为时域信号，因此，在本发明较佳的实施例中，确定参与处理的麦克风后，将这个或这些麦克风采集的时域输入信号转换成频域输入信号，再带入上述公式中，得到频域输出信息Y(f)，并将所述频域输出信息Y(f)转换为时域输出信号Y(t)作为所述所有的目标音频采集装置的音频输出信号。

无论是预览还是回放，对视频采集装置获取的图像进行变焦的操作时间不宜太短，因为太短虽然也可以适用于本发明实施例涉及的处理方式，但是，由于音频输出信号太短，不能足以体现其随着第一变焦信息实现针对性的指向。

因此，在本发明较佳的实施例中，还要获取第一变焦信息的持续时间，如果第一变焦信息的持续时间小于预设阈值，例如1s，则不对音频采集装置的音频输出信号进行处理，即该过程中，音频采集装置仍按照该第一变焦之前的状态进行输出。

由于音频信号和视频信号为同步信号，因此，可以获取视频信号变焦时段对应麦克风阵列中的各个麦克风的音频输入信号。当第一变焦信息的持续时间大于或等于预设阈值时，则可以对音频采集装置按照上述过程进行操作，即获取第二变焦信息，且在第二变焦信息的基础上，确定参与信号处理的各个麦克风(记为目标麦克风)，然后选取该目标麦克风与视频信号变焦时段对应时段的音频输入信号，在该时段中，与视频信号同步输出上述的目标音频采集装置的音频输出信号。

当在预览过程中对视频采集装置的视频信号进行变焦处理(可以获取第一变焦信息)，则以该变焦处理的起始点作为音频信号变焦的起始点，然后，基于第一变焦信息获取第二变焦信息，并利用上述公式实时播放这些目标麦克风实时采集音频输入信号拟合后的声音，直至本次预览的变焦信息发生改变，则依据第二变焦信息做出的拟合声音也随之结束。之后按照新的变焦处理方式重新获取第二变焦信息，依次循环。

当在回放过程中对视频采集装置的视频信号进行(可以获取第一变焦信息)，由于视频信号和音频信号均存储于电子设备例如nvr中，则以该变焦处理的起始点作为音频信号变焦的起始点，然后，基于第一变焦信息获取第二变焦信息，并从nvr中读取各个目标麦克风存储的起始点的音频输入信号，利用上述公式对其进行拟合并播放，直至本次回放的变焦信息发生改变，则依据第二变焦信息做出的拟合声音也随之结束。之后按照新的变焦处理方式重新获取第二变焦信息，依此循环。

综上所述，当对视频进行预览时，通过操作图像的变焦，图像采集装置可实现光学变焦(如有)或电子变焦，与此同时，麦克风阵列会根据图像的变焦的参数，调整麦克风阵列的指向性；当不变焦时(1倍变焦倍数)，使用1个麦克风参与信号处理，麦克风阵列为全指向性，随着变焦倍数变大，参与信号处理的麦克风数量越多，而麦克风的指向性会越来越窄，这样可以屏蔽其他方向的声音，聚焦正前方的声音。

在电子设备例如nvr回放时，回放时因为视频画面已经存储，因此，只能通过电子变焦；但N个通道的音频数据已经存在nvr中，所以音频变焦(指向性调节)与预览时无差别。

因此，只要确定对视频信号操作的第一变焦信息，无论是预览还是回放，均可基于第一变焦信息确定目标音频采集装置的数量，然后根据目标音频采集装置确定最终与视频采集装置变焦对应的指向性的音频输出信号，从而可以在放大图像时，获取远景下较高质量的声音，提升监控质量。

实施例二

请参阅图5，图5是本发明实施例公开的一种音视频监控装置的结构示意图。如图5所示，该音视频监控装置，可以包括：

接收单元210，用于接收对视频信号进行第一变焦操作获取的第一变焦信息；

计算单元220，用于基于所述第一变焦信息获取针对音频信号的第二变焦信息，所述第二变焦信息包括目标音频采集装置的数量；

输出单元230，用于根据所述第二变焦信息确定最终的音频输出信号。

作为一种可选的实施方式，所述音频采集装置为多个全向性麦克风组成的麦克风阵列，所述目标音频采集装置的数量为参与处理的麦克风的数量。

作为一种可选的实施方式，所述计算单元220，包括：

第一确定子单元，用于根据第一变焦信息确定变焦倍数；

第二确定子单元，用于利用预设的第一映射关系表获取所述变焦倍数对应的目标音频采集装置的数量；或者，根据公式(3)确定目标音频采集装置的数量：

为向上取整，当χ＝1时，n＝1。

作为一种可选的实施方式，所述输出单元230，包括：

第一获取子单元，用于获取所有的目标音频采集装置；

第二获取子单元，用于根据公式(4)获取所述所有的目标音频采集装置的音频输出信号：

作为一种可选的实施方式，所述第一获取子单元，包括：

或者，

作为一种可选的实施方式，所述第二获取子单元，包括：

作为一种可选的实施方式，所述装置还包括：

时段确定子单元，用于确定第一变焦信息对应于视频采集装置采集的视频图像中的时段；

控制单元，用于控制所述音频采集装置采集的音频信号在所述时段内输出所述最终的音频输出信号。

图5所示的音视频监控装置，只要确定对视频信号操作的第一变焦信息，无论是预览还是回放，均可基于第一变焦信息确定目标音频采集装置的数量，然后根据目标音频采集装置确定最终与视频采集装置变焦对应的指向性的音频输出信号，从而可以在放大图像时，获取远景下较高质量的声音，提升监控质量。

实施例三

请参阅图6，图6是本发明实施例公开的一种电子设备的结构示意图。如图6所示，该电子设备可以包括：

存储有可执行程序代码的存储器310；

与存储器310耦合的处理器320；

其中，处理器320调用存储器310中存储的可执行程序代码，执行实施例一中的一种音视频监控方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中的一种音视频监控方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的一种音视频监控方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的一种音视频监控方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人体可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(RandomAccess Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种音视频监控方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人体，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音视频监控方法，其特征在于，包括：

接收对视频信号进行第一变焦操作获取的第一变焦信息；

根据所述第二变焦信息确定最终的音频输出信号。

2.根据权利要求1所述的音视频监控方法，其特征在于，所述音频采集装置为多个全向性麦克风组成的麦克风阵列，所述目标音频采集装置的数量为参与处理的麦克风的数量。

3.根据权利要求2所述的音视频监控方法，其特征在于，所述基于所述第一变焦信息获取针对音频信号的第二变焦信息，包括：

根据第一变焦信息确定变焦倍数；

为向上取整，当χ＝1时，n＝1。

4.根据权利要求2所述的音视频监控方法，其特征在于，根据所述第二变焦信息确定最终的音频输出信号，包括：

获取所有的目标音频采集装置；

5.根据权利要求4所述的音视频监控方法，其特征在于，获取所有的目标音频采集装置，包括：

或者，

6.根据权利要求4所述的音视频监控方法，其特征在于，获取所述所有的目标音频采集装置的音频输出信号，包括：

7.根据权利要求1-6任一项所述的音视频监控方法，其特征在于，所述方法还包括：

确定第一变焦信息对应视频信号的时段；

8.一种音视频监控装置，其特征在于，其包括：

9.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至7任一项所述的一种音视频监控方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至7任一项所述的一种音视频监控方法。