CN111526295B

CN111526295B - 音视频处理系统、采集方法、装置、设备及存储介质

Info

Publication number: CN111526295B
Application number: CN202010370159.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Zhendi Technology Co ltd
Current assignee: Zhendi Technology Co ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-02-28
Anticipated expiration: 2040-04-30
Also published as: CN111526295A

Abstract

本申请提供一种音视频处理系统、采集方法、装置、设备及存储介质。包括：控制终端、音视频采集装置和处理终端；音视频采集装置分别与处理终端和控制终端通信连接；控制终端用于向音视频采集装置发送控制指令，以控制音视频采集装置的工作参数；音视频采集装置用于根据控制指令调整工作参数，并在调整后的工作参数下对目标区域进行音视频采集，向处理终端发送采集到的音视频信息；处理终端对接收到的音视频信息进行处理。本申请通过音视频采集装置分别与控制终端和处理终端通信连接，从而可以通过控制终端控制音视频采集装置的工作参数，使得音视频采集装置在调整后的工作参数下进行音视频采集，不需要人工去调整音视频采集装置，其操作更加便捷。

Description

音视频处理系统、采集方法、装置、设备及存储介质

技术领域

本申请涉及音视频处理技术领域，具体而言，涉及一种音视频处理系统、采集方法、装置、设备及存储介质。

背景技术

随着通信技术的发展，在互联网的基础上衍生出很多种多媒体应用，例如：直播、多方会议、智能家居、路演等。

以多方会议为例，需要通过摄像头来实现音视频的采集，该摄像头可以通过相机支架将摄像头放置在一个合适的位置，然后采集参会的人员的音视频图像，并将采集到的音视频图像发送给其他方。

这种音视频采集的方式只能够在一种摄像头的工作参数下采集，或者通过手动调整摄像头来对工作参数进行调整，操作不方便。

发明内容

本申请实施例的目的在于提供一种音视频处理系统、采集方法、装置、设备及存储介质，用以解决现有技术中，对音视频采集装置调整操作不便的问题。

第一方面，本申请实施例提供一种音视频处理系统，包括：控制终端、音视频采集装置和处理终端；其中，所述音视频采集装置分别与所述处理终端和所述控制终端通信连接；所述控制终端用于向所述音视频采集装置发送控制指令，以控制所述音视频采集装置的工作参数；所述音视频采集装置用于根据所述控制指令调整工作参数，并在调整后的工作参数下对目标区域进行音视频采集，向所述处理终端发送采集到的音视频信息；所述处理终端对接收到的所述音视频信息进行处理。

本申请实施例通过音视频采集装置分别与控制终端和处理终端通信连接，从而可以通过控制终端控制音视频采集装置的工作参数，使得音视频采集装置在调整后的工作参数下进行音视频采集，不需要人工去调整音视频采集装置，其操作更加便捷。

进一步地，所述音视频采集装置通过有线通信或无线通信分别与所述处理终端和所述控制终端通信连接；其中，所述有线通信包括通过USB数据线进行通信；所述无线通信包括：蓝牙、WIFI网络、热点中的移动通信网络中的至少一种。

本申请实施例通过有线或无线的方式将音视频采集装置分别与处理终端和控制终端进行连接，从而通过控制终端便能够实现对音视频采集装置的工作参数的调整，并且音视频采集装置将采集到的音视频信息发送给控制终端，使得用户可以在控制终端上看到该音视频信息，并且还可以将该音视频信息同步给参与的其他端。

进一步地，所述控制指令包括拍摄模式为航拍模式，所述音视频采集装置在接收到所述控制指令后，调整当前拍摄模式为航拍模式，并在航拍模式下进行音视频采集。本申请实施例可以通过根据控制终端可以便捷地将音视频采集装置的拍摄模式调整为航拍模式。

进一步地，所述控制指令还包括目标拍摄对象信息，所述音视频采集装置在接收到所述控制指令后，锁定对应的目标拍摄对象，并跟随所述目标拍摄对象进行音视频采集。本申请实施例中的音视频采集装置可以锁定目标拍摄对象，并跟随目标拍摄对象进行音视频采集，从而实现了自寻影功能。

进一步地，所述控制指令还包括寻声定位，所述音视频采集装置在接收到所述控制指令后，确定声音来源方向，并根据声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向。本申请实施例通过确定声音来源方向确定音视频采集装置的飞行位置及采集方向，从而能够判断讲话的人的方位，并对讲话的人进行音视频采集，实现了寻声采集的功能。

进一步地，所述控制指令包括拍摄模式为固定拍摄模式和目标拍摄对象信息，所述音视频采集装置包括三轴云台式摄像头；所述音视频采集装置根据所述目标拍摄对象信息确定对应的目标拍摄对象的位置，并根据所述目标拍摄对象的位置控制三轴云台式摄像头进行水平和/或垂直方向旋转，以实现对所述目标拍摄对象的跟随拍摄。本申请实施例通过音视频采集装置在固定模式下，通过转动云台式摄像头实现对目标拍摄对象的跟随拍摄，即能够保证目标拍摄对象始终处于拍摄范围内。

进一步地，所述系统还包括多个声音接收装置，多个声音接收装置均与所述音视频采集装置通信连接；所述控制指令包括拍摄模式为固定拍摄模式和寻声定位，所述音视频采集装置包括三轴云台式摄像头；所述音视频采集装置用于接收各声音接收装置接收到的音频信号，并根据所述音频信号确定所述音频信号的来源方向信息；根据所述音频信号的来源方向信息控制所述三轴云台式摄像头转动至相应方向，以实现对讲话的人进行跟随拍摄。

本申请实施例通过音视频采集装置在固定模式下，通过转动云台式摄像头实现对讲话的人的跟随拍摄，即音视频采集装置始终对准讲话的人进行拍摄。

进一步地，所述音视频采集装置将采集到的音视频信息发送给所述控制终端；其中，所述音视频信息中包括被拍摄的人的手势信息；所述控制终端根据所述手势信息向所述音视频采集装置发送与所述手势信息对应的控制指令。

本申请实施例通过控制终端识别画面中人的手势信息，并根据手势信息生成对应的控制指令，以控制音视频采集装置的工作参数，从而实现了隔空操作，不需要操作控制终端即可实现对音视频采集装置的控制。

进一步地，所述控制指令还包括延时拍摄的时间信息；所述音视频采集装置用于在接收到所述控制指令后开始计时，并在所述时间信息之后开始进行音视频采集。本申请实施例可以通过控制终端控制音视频采集装置开始拍摄的时间。

进一步地，所述控制指令还包括自动调焦、关机指令、开启美颜、开启虚拟现实模式和定时关机中的至少一项。

进一步地，所述处理终端用于在接收到所述音视频信息之后，将所述音视频信息上传至目标直播服务器。本申请实施例通过处理终端将音视频信息发送给目标直播服务器，实现了直播的场景，用户可以实时观看到音视频采集装置采集到的音视频信息。

进一步地，所述处理终端用于在接收到所述音视频信息之后，将所述音视频信息上传至目标会议服务器。本申请实施例通过处理终端将音视频信息发送给目标会议服务器，实现了会议的场景，会议对端的用户可以实时接收到音视频采集装置采集到的音视频信息。

第二方面，本申请实施例提供一种音视频采集方法，应用于系统中的音视频采集装置，所述系统包括控制终端、音视频采集装置和处理终端；其中，所述音视频采集装置分别与所述处理终端和所述控制终端通信连接；所述方法包括：接收所述控制终端发送的控制指令；根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理。

本申请实施例通过控制终端控制音视频采集装置的工作参数，使得音视频采集装置在调整后的工作参数下进行音视频采集，不需要人工去调整音视频采集装置，其操作更加便捷。

进一步地，所述控制指令包括拍摄模式为航拍模式；所述根据所述控制指令调整对应的工作参数，包括：将拍摄模式调整为航拍模式。

进一步地，所述控制指令还包括目标拍摄对象信息；所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：根据所述目标拍摄信息确定目标拍摄对象，并跟随所述目标拍摄对象进行音视频采集。

进一步地，所述控制指令还包括寻声定位，所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：确定声音来源方向，并根据声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向，在所述音视频采集装置到达对应的飞行位置后，向对应的采集方向进行音视频采集。

进一步地，所述控制指令包括拍摄模式为固定拍摄模式和目标拍摄对象信息，所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：所述音视频采集装置根据所述目标拍摄对象信息确定对应的目标拍摄对象的位置，并根据所述目标拍摄对象的位置控制三轴云台式摄像头进行水平和/或垂直方向旋转，以实现对所述目标拍摄对象的跟随拍摄。

进一步地，所述系统还包括多个声音接收装置，多个声音接收装置均与所述音视频采集装置通信连接；所述控制指令包括拍摄模式为固定拍摄模式和寻声定位，所述音视频采集装置包括三轴云台式摄像头；所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：接收各声音接收装置接收到的音频信号，并根据所述音频信号确定所述音频信号的来源方向信息；根据所述音频信号的来源方向信息控制所述三轴云台式摄像头转动至相应方向，以实现对讲话的人进行跟随拍摄。

进一步地，所述方法还包括：将采集到的音视频信息发送给所述控制终端；其中，所述音视频信息中包括被拍摄的人的手势信息；以使所述控制终端对所述手势信息进行识别，并生成对应的控制指令；接收所述控制终端发送的与所述手势信息对应的控制指令。

第三方面，本申请实施例提供一种音视频采集装置，包括：

接收模块，用于接收所述控制终端发送的控制指令；

采集模块，用于根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；

发送模块，用于向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理。

第四方面，本申请实施例提供一种电子设备，包括：处理器、存储器和总线，其中，所述处理器和所述存储器通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第二方面的方法。

第五方面，本申请实施例提供一种非暂态计算机可读存储介质，包括：所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第二方面的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为对比对方案提供一种音视频处理系统结构示意图；

图2为本申请实施例提供的一种音视频处理系统结构示意图；

图3为本申请实施例提供的有线连接示意图；

图4为本申请实施例提供的无线连接示意图；

图5为本申请实施例提供的航拍模式下音视频采集装置的结构示意图；

图6为本申请实施例提供的一种固定模式下的音视频采集装置结构示意图；

图7为本申请实施例提供的一种音视频采集方法流程示意图；

图8为本申请实施例提供的音视频采集装置结构示意图；

图9为本申请实施例提供的电子设备实体结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

图1为对比对方案提供一种音视频处理系统结构示意图，如图1所示，该系统包括：电脑101和摄像头102，摄像头102和电脑101之间通过数据线连接。摄像头102可以放置在镜头支架上，将镜头支架放置在一个合适的位置，例如可以放置在能够采集到最大视野的地方。可以理解的是，该摄像头102还可以进行声音的采集。因此，在进行采集之前，用户调整镜头支架的位置以及摄像头的焦距等参数，在调整之后，可以通过摄像头进行音视频的采集，摄像头102将采集到的音视频信息通过数据线发送给电脑。在电脑101上可以预先安装有会议软件或者直播软件等，以直播软件为例，电脑101在接收到该音视频信息后，将该音视频信息发送到对应的直播服务器上，实现直播的功能。

由上可知，上述方案在进行音视频采集之前，需要手动调整好摄像头102的位置以及其他工作参数，其操作不便，另外，在使用过程中，如果需要切换拍摄场景则需要人工再次对摄像头的位置进行调整，这时可能出现画面抖动的情况，并且调整可能需要较长的时间，耗时耗力。

为了解决上述问题，本申请实施例提供一种音视频处理系统，如图2所示。该系统包括控制终端201、音视频采集装置202和处理终端203；其中，音视频采集装置202分别与处理终端203和控制终端201通信连接。音视频采集装置可以通过有线通信或无线通信的方式与处理终端通信连接，并且也可以通过有线通信或无线通信的方式与控制终端通信连接。其中，有线通信可以是通过USB数据线将音视频采集装置与处理终端连接，或通过USB数据线将音视频采集装置与控制终端连接。可以理解的是，若通过USB数据线通信连接，那么处理终端和控制终端上需要设置有USB接口。无线通信可以是蓝牙、WIFI网络、热点中的移动通信网络中的至少一种。图3为本申请实施例提供的有线连接示意图，图4为本申请实施例提供的无线连接示意图。

应当说明的是，音视频采集装置与控制终端的连接方式，以及音视频采集装置与处理终端的连接方法可以根据实际情况进行选择，本申请实施例对此不作具体限定。

控制终端201可以是手机、平板电脑、笔记本电脑、台式电脑和智能穿戴设备等。通过与音视频采集装置202的通信连接，能够向音视频采集装置202发送控制指令，从而控制音视频采集装置202的工作参数。例如：在控制终端201内预先装载有音视频采集装置202对应的应用软件，因此，可以实现对音视频采集装置202的控制。

音视频采集装置202的主要功能是音视频的采集，其可以接收控制终端201发送的控制指令，并根据控制指令调整对应的工作参数。其中，工作参数是指音视频采集装置202在进行采集时的内部或外部参数，内部参数可以是焦距、开始拍摄的时间、拍摄时长、结束拍摄的时间，以及拍摄模式等。外部参数可以是音视频采集装置202的位置、采集方向等。当音视频采集装置202在完成工作参数的调整后，可以在该调整后的工作参数下对目标区域进行音视频的采集。其中，目标区域是在音视频采集装置202的采集方向及焦距确定后，其目标区域也随之确定。在音视频采集装置202在采集到音视频信息后，将该音视频信息发送给处理终端203。可以理解的是，音视频采集装置202在将音视频数据发送给处理终端203之前，可以通过对音视频信息进行编码压缩，将编码压缩后的音视频信息发送给处理终端203。

处理终端203可以将接收到的音视频信息后可以进行相应的处理。例如：若处理终端203中装载有视频会议软件，在通过音视频采集装置采集到会议室内的音视频信息后，处理终端203可以将该音视频信息上传至视频会议软件对应的服务器，参加会议的其他端可以从服务器中获取到该音视频信息并进行播放。又如：处理终端203中装载有直播软件，当音视频采集装置在采集到音视频信息后，处理终端203将该音视频信息上传至直播软件对应的服务器上，观看直播的用户便能够通过访问该服务器获取到音视频信息。

可以理解的是，处理终端203中除了可以装载视频会议软件、直播软件外，还可以装载家居监控软件、直播课软件等。从而能够实现对室内环境的监测、直播上课、户外直播、室外直播、公司发布会、新品发布会、路演、展会、多会场直播、异地多方培训、跨区域面试、跨区年会等场景。

在上述实施例的基础上，所述控制指令包括拍摄模式为航拍模式，所述音视频采集装置在接收到所述控制指令后，调整当前拍摄模式为航拍模式，并在航拍模式下进行音视频采集。

在具体的实施过程中，控制终端可以控制音视频采集装置的拍摄模式，若音视频采集装置当前处于手持模式或者固定拍摄模式，在音视频采集装置接收到控制指令中包括拍摄模式为航拍模式后，将音视频采集装置上的机翼进行展开，并调整内部参数为航拍模式对应的参数。在航拍模式下进行音视频的采集。图5为本申请实施例提供的航拍模式下音视频采集装置的结构示意图，如图5所示，可以理解的是，图5中所示的只是一种示例，音视频采集装置在航拍模式下的具体结构可以根据实际情况进行设计，本申请实施例对此不作具体限定。

在上述实施例的基础上，控制指令还包括目标拍摄对象信息，其中，目标拍摄对象信息是指目标拍摄对象的信息，例如可以是面部信息，也可以是目标拍摄对象的衣着信息，面部信息和衣着信息可以是控制终端对目标拍摄对象进行图像采集，然后将采集到的图像作为目标拍摄对象信息。另外，目标拍摄对象信息的获得方式还可以是控制终端控制通过音视频采集装置采集区域，然后从采集区域中选择目标拍摄对象，将选中的目标拍摄对象的图像作为目标拍摄对象信息。并且，控制终端向音视频采集装置中发送的控制指令中可以包括拍摄模式为航拍模式和目标拍摄对象信息。当然，也可以先向音视频采集装置发送一个拍摄模式为航拍模式的控制指令，然后在音视频采集装置航拍的过程中，再向音视频采集装置发送目标拍摄对象信息的控制指令。

音视频采集装置在接收到控制指令后，锁定对应的目标拍摄对象，其中，锁定目标拍摄对象的方式可以是通过人脸识别进行锁定，当然，也可以是通过比对衣着特征进行锁定。在锁定目标拍摄对象后，音视频采集装置可以跟随目标拍摄对象进行音视频采集。其中，音视频采集装置可以实施获取到目标拍摄对象的位置和速度，在控制终端可以预先设定音视频采集装置与目标拍摄对象的相对距离。音视频图像采集装置可以通过目标拍摄对象的状态信息，以及期望的相对距离计算获得音视频采集装置期望的位置，并与音视频采集装置当前所处的位置进行比较，根据算法计算获得修正量，根据修正量调整自身的位置。并且，音视频采集装置还可以通过控制内部的云台来保证目标跟随对象始终处于镜头的视角范围内。

本申请实施例中的音视频采集装置可以锁定目标拍摄对象，并跟随目标拍摄对象进行音视频采集，从而实现了自寻影功能。不需要人工手持音视频采集装置去跟随目标拍摄，节省了大量的人力。

在上述实施例的基础上，所述控制指令还包括寻声定位，所述音视频采集装置在接收到所述控制指令后，确定声音来源方向，并根据声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向。

其中，寻声定位是指音视频采集装置可以确定声音来源方向，并朝着音声音来源方向进行音视频采集。其中，确定声音来源方向的方法有多种，例如：可以在各个地方设置声音接收装置，声音接收装置与音视频采集装置通信，并且可以将采集到的声音发送给音视频采集装置。可以理解的是，声源靠近哪个声音接收装置，那么该声音接收装置接收到的声音最大，因此，音视频采集装置可以根据各个声音接收装置接收到的声音大小确定声音来源方向。

又如：在会议场景下，参会人员每个人都携带有一个声音接收装置，同样的，各个声音接收装置均与音视频采集装置通信，将接收到的声音发送给音视频采集装置。并且，在音视频采集装置中预先存储有各个声音接收装置与音视频采集装置之间的位置关系。由于参会人员一般会坐在对应的位置上不会频繁移动，因此，当音视频采集装置接收到声音接收装置发送的声音后，根据预先存储的位置关系，音视频采集装置可以飞行到对应的位置进行图像采集，从而能够采集到正在讲话的人的音视频信息。

可以理解的是，控制终端向音视频采集装置中发送的控制指令中可以包括拍摄模式为航拍模式和寻声定位。当然，也可以先向音视频采集装置发送一个拍摄模式为航拍模式的控制指令，然后在音视频采集装置航拍的过程中，再向音视频采集装置发送寻声定位的控制指令。

本申请实施例通过确定声音来源方向确定音视频采集装置的飞行位置及采集方向，从而能够判断讲话的人的方位，并对讲话的人进行音视频采集，实现了寻声采集的功能。不需要人工手持音视频采集装置寻找讲话的人，并进行图像采集，节省了大量的人力。

在上述实施例的基础上，所述控制指令包括拍摄模式为固定拍摄模式和目标拍摄对象信息，所述音视频采集装置包括三轴云台式摄像头；

所述音视频采集装置根据所述目标拍摄对象信息确定对应的目标拍摄对象的位置，并根据所述目标拍摄对象的位置控制三轴云台式摄像头进行水平和/或垂直方向旋转，以实现对所述目标拍摄对象的跟随拍摄。

其中，固定拍摄模式是指将音视频采集装置放置在一个固定的位置进行音视频采集，其中可以放置在桌子上或者采集支架上等。目标拍摄对象信息是指目标拍摄对象的信息，例如可以是面部信息，也可以是目标拍摄对象的衣着信息，面部信息和衣着信息可以是控制终端对目标拍摄对象进行图像采集，然后将采集到的图像作为目标拍摄对象信息。另外，目标拍摄对象信息的获得方式还可以是控制终端控制通过音视频采集装置采集区域，然后从采集区域中选择目标拍摄对象，将选中的目标拍摄对象的图像作为目标拍摄对象信息。

三轴云台式摄像头可以使得音视频采集装置可以采集到画面稳定的视频图像，并且摄像头可以进行三轴的360度旋转。音视频采集装置在接收到控制指令后，锁定对应的目标拍摄对象，其中，锁定目标拍摄对象的方式可以是通过人脸识别进行锁定，当然，也可以是通过比对衣着特征进行锁定。在锁定目标拍摄对象后，音视频采集装置可以通过旋转云台式摄像头跟随目标拍摄对象进行音视频采集。例如：可以实时保证目标拍摄对象处于画面的中央，若目标拍摄对象远离音视频采集装置，则音视频采集装置需调整焦距，保证能够采集到清晰的目标拍摄对象；若目标拍摄对象移动后处于音视频采集装置的右上方，那么音视频采集装置利用内置算法确定云台式摄像头需要旋转的方向及旋转的角度，然后按照计算获得的旋转方向和旋转角度对云台式摄像头进行旋转后便可重新使得目标拍摄对象处于画面的中央。图6为本申请实施例提供的一种固定模式下的音视频采集装置结构示意图，如图6所示，可以理解的是，图6中所示的只是一种示例，音视频采集装置在固定模式下的具体结构可以根据实际情况进行设计，本申请实施例对此不作具体限定。

本申请实施例通过音视频采集装置在固定模式下，通过转动云台式摄像头实现对目标拍摄对象的跟随拍摄，即能够保证目标拍摄对象始终处于拍摄范围内。

在另一实施方式中，所述系统还包括多个声音接收装置，多个声音接收装置均与所述音视频采集装置通信连接；所述控制指令包括拍摄模式为固定拍摄模式和寻声定位，所述音视频采集装置包括三轴云台式摄像头；

所述音视频采集装置用于接收各声音接收装置接收到的音频信号，并根据所述音频信号确定所述音频信号的来源方向信息；

根据所述音频信号的来源方向信息控制所述三轴云台式摄像头转动至相应方向，以实现对讲话的人进行跟随拍摄。

又如：在会议场景下，参会人员每个人都携带有一个声音接收装置，同样的，各个声音接收装置均与音视频采集装置通信，将接收到的声音发送给音视频采集装置。并且，在音视频采集装置中预先存储有各个声音接收装置与音视频采集装置之间的位置关系。由于参会人员一般会坐在对应的位置上不会频繁移动，因此，当音视频采集装置接收到声音接收装置发送的声音后，根据预先存储的位置关系，音视频采集装置可以旋转三轴云台式摄像头，使得该三轴云台式摄像头能够采集到正在讲话的人的音视频信息。

本申请实施例通过音视频采集装置在固定模式下，通过转动云台式摄像头实现对讲话的人的跟随拍摄，即音视频采集装置始终对准讲话的人进行拍摄。不需要人工手持音视频采集装置寻找讲话的人，并进行图像采集，节省了大量的人力。

在上述实施例的基础上，在音视频采集装置在进行音视频的采集过程中，例如：可以是处于航拍模式下，跟随目标拍摄对象进行音视频采集；可以是航拍模式下，跟随讲话的人进行音视频采集；也可以是在固定拍摄模式下，跟随目标拍摄对象进行音视频采集；还可以是在固定拍摄模式下，跟随讲话的人进行音视频采集等。被拍摄的人可以向音视频采集装置做手势，从而音视频采集装置可以采集到被拍摄的人的手势信息。其中，手势信息可以是通过手作出“OK”的手势，还可以通过双手交叉的手势等，不同的手势表示被拍摄的人的不同的意愿，例如：“OK”的手势表示被拍摄的人希望进行拍照，双手交叉的手势用来标识关闭音视频采集装置等。应当说明的是，被拍摄的人是指目标拍摄对象或跟随的讲话的人，也可以是预先指定的人。

音视频采集装置将采集到的音视频信息发送给控制终端，控制终端在接收到音视频信息后，可以从音视频信息中提取出被拍摄的人的手势信息，并利用预置的手势识别算法对手势信息进行识别，并生成对应的控制指令。将该控制指令发送给音视频采集装置，音视频采集装置在接收到控制指令后，调整对应的工作参数。

可以理解的是，除了通过手势可以控制音视频采集装置进行拍照、关机的操作外，还可以对音视频采集装置中的三轴云台式摄像头的俯仰控制、航向控制以及横滚控制等。具体的手势跟对应的控制指令可以根据实际情况预先设定，本申请实施例对此不作具体限定。本申请实施例通过控制终端识别画面中人的手势信息，并根据手势信息生成对应的控制指令，以控制音视频采集装置的工作参数，从而实现了隔空操作，不需要操作控制终端即可实现对音视频采集装置的控制。

在上述实施例的基础上，控制指令还可以包括延时拍摄的时间信息，当音视频采集装置接收到该控制指令后开始计时，并在时间信息之后开始进行音视频采集。例如：控制指令包括延时15分钟，音视频采集装置在接收到该控制指令后开始计时，并且在15分钟之后开始音视频的采集。

在另一实施方式中，控制指令还可以包括开始采集的时间，可以理解的是，开始采集的时间不能早于控制指令的发送时间，例如：当前时刻是2020年4月28日上午10点，开始采集的时间为2020年4月28日上午10点30分，当音视频采集装置接收到该控制指令后，并且在2020年4月28日上午10点30分时，音视频采集装置开始进行音视频的采集。

应当说明的是，控制指令还包括自动调焦、关机指令、开启美颜、开启虚拟现实模式和定时关机中的至少一项。

图7为本申请实施例提供的一种音视频采集方法流程示意图，如图7所示，该方法应用于音视频处理系统中的音视频采集装置，其中，音视频处理系统包括控制终端、音视频采集装置和处理终端；音视频采集装置分别与处理终端和控制终端通信连接。可以理解的是，对于音视频处理系统的详细描述可以参见上述实施例，本申请实施例对此不再赘述。

该方法包括：

步骤701：接收所述控制终端发送的控制指令；

步骤702：根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；

步骤703：向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理。

其中，在步骤701中，由于控制终端与音视频采集装置之间通信连接，因此，控制终端可以向音视频采集装置发送控制指令。可以理解的是，在控制终端中可以预先装载有音视频采集装置对应的应用软件，因此，音视频采集装置能够接收并识别控制终端发送的控制指令。

在步骤702中，当音视频采集装置接收到控制指令后，根据该控制指令调整对应的工作参数。其中工作参数是指音视频采集装置在进行采集时的内部或外部参数，内部参数可以是焦距、开始拍摄的时间、拍摄时长、结束拍摄的时间，以及拍摄模式等。外部参数可以是音视频采集装置的位置、采集方向等。当音视频采集装置在完成工作参数的调整后，可以在该调整后的工作参数下对目标区域进行音视频的采集。其中，目标区域是在音视频采集装置的采集方向及焦距确定后，其目标区域也随之确定。

在步骤703中，在音视频采集装置在采集到音视频信息后，将该音视频信息发送给处理终端，处理终端可以将接收到的音视频信息后可以进行相应的处理。例如：若处理终端中装载有视频会议软件，在通过音视频采集装置采集到会议室内的音视频信息后，处理终端可以将该音视频信息上传至视频会议软件对应的服务器，参加会议的其他端可以从服务器中获取到该音视频信息并进行播放。又如：处理终端中装载有直播软件，当音视频采集装置在采集到音视频信息后，处理终端将该音视频信息上传至直播软件对应的服务器上，观看直播的用户便能够通过访问该服务器获取到音视频信息。

可以理解的是，处理终端中除了可以装载视频会议软件、直播软件外，还可以装载家居监控软件、直播课软件等。从而能够实现对室内环境的监测、直播上课、户外直播、室外直播、公司发布会、新品发布会、路演、展会、多会场直播、异地多方培训、跨区域面试、跨区年会等场景。

在上述实施例的基础上，所述控制指令包括拍摄模式为航拍模式；所述根据所述控制指令调整对应的工作参数，包括：将拍摄模式调整为航拍模式。

在具体的实施过程中，控制终端可以控制音视频采集装置的拍摄模式，若音视频采集装置当前处于手持模式或者固定拍摄模式，在音视频采集装置接收到控制指令中包括拍摄模式为航拍模式后，将音视频采集装置上的机翼进行展开，并调整内部参数为航拍模式对应的参数，在航拍模式下进行音视频的采集。

在上述实施例的基础上，所述控制指令还包括目标拍摄对象信息；所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

根据所述目标拍摄信息确定目标拍摄对象，并跟随所述目标拍摄对象进行音视频采集。

其中，目标拍摄对象信息是指目标拍摄对象的信息，例如可以是面部信息，也可以是目标拍摄对象的衣着信息，面部信息和衣着信息可以是控制终端对目标拍摄对象进行图像采集，然后将采集到的图像作为目标拍摄对象信息。另外，目标拍摄对象信息的获得方式还可以是控制终端控制通过音视频采集装置采集区域，然后从采集区域中选择目标拍摄对象，将选中的目标拍摄对象的图像作为目标拍摄对象信息。并且，控制终端向音视频采集装置中发送的控制指令中可以包括拍摄模式为航拍模式和目标拍摄对象信息。当然，也可以先向音视频采集装置发送一个拍摄模式为航拍模式的控制指令，然后在音视频采集装置航拍的过程中，再向音视频采集装置发送目标拍摄对象信息的控制指令。

本申请实施例中的音视频采集装置可以锁定目标拍摄对象，并跟随目标拍摄对象进行音视频采集，从而实现了自寻影功能。

在上述实施例的基础上，所述控制指令还包括寻声定位，所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

确定声音来源方向，并根据声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向，在所述音视频采集装置到达对应的飞行位置后，向对应的采集方向进行音视频采集。

本申请实施例通过确定声音来源方向确定音视频采集装置的飞行位置及采集方向，从而能够判断讲话的人的方位，并对讲话的人进行音视频采集，实现了寻声采集的功能。

在上述实施例的基础上，所述控制指令包括拍摄模式为固定拍摄模式和目标拍摄对象信息，所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

三轴云台式摄像头可以使得音视频采集装置可以采集到画面稳定的视频图像，并且摄像头可以进行三轴的360度旋转。音视频采集装置在接收到控制指令后，锁定对应的目标拍摄对象，其中，锁定目标拍摄对象的方式可以是通过人脸识别进行锁定，当然，也可以是通过比对衣着特征进行锁定。在锁定目标拍摄对象后，音视频采集装置可以通过旋转云台式摄像头，使得云台式摄像头跟随目标拍摄对象进行音视频采集。例如：可以实时保证目标拍摄对象处于画面的中央，若目标拍摄对象远离音视频采集装置，则音视频采集装置需调整焦距，保证能够采集到清晰的目标拍摄对象；若目标拍摄对象移动后处于音视频采集装置的右上方，那么音视频采集装置利用内置算法确定云台式摄像头需要旋转的方向及旋转的角度，然后按照计算获得的旋转方向和旋转角度对云台式摄像头进行旋转后便可重新使得目标拍摄对象处于画面的中央。

在上述实施例的基础上，所述系统还包括多个声音接收装置，多个声音接收装置均与所述音视频采集装置通信连接；所述控制指令包括拍摄模式为固定拍摄模式和寻声定位，所述音视频采集装置包括三轴云台式摄像头；所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

接收各声音接收装置接收到的音频信号，并根据所述音频信号确定所述音频信号的来源方向信息；

在上述是实施例的基础上，所述方法还包括：

将采集到的音视频信息发送给所述控制终端；其中，所述音视频信息中包括被拍摄的人的手势信息；以使所述控制终端对所述手势信息进行识别，并生成对应的控制指令；

接收所述控制终端发送的与所述手势信息对应的控制指令。

其中，在音视频采集装置在进行音视频的采集过程中，例如：可以是处于航拍模式下，跟随目标拍摄对象进行音视频采集；可以是航拍模式下，跟随讲话的人进行音视频采集；也可以是在固定拍摄模式下，跟随目标拍摄对象进行音视频采集；还可以是在固定拍摄模式下，跟随讲话的人进行音视频采集等。被拍摄的人可以向音视频采集装置做手势，从而音视频采集装置可以采集到被拍摄的人的手势信息。其中，手势信息可以是通过手作出“OK”的手势，还可以通过双手交叉的手势等，不同的手势表示被拍摄的人的不同的意愿，例如：“OK”的手势表示被拍摄的人希望进行拍照，双手交叉的手势用来标识关闭音视频采集装置等。应当说明的是，被拍摄的人是指目标拍摄对象或跟随的讲话的人，也可以是预先指定的人。

图8为本申请实施例提供的音视频采集装置结构示意图，该装置可以是电子设备上的模块、程序段或代码。应理解，该装置与上述图7方法实施例对应，能够执行图7方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括：接收模块801、采集模块802和发送模块803，其中：

接收模块801用于接收所述控制终端发送的控制指令；采集模块802用于根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；发送模块803用于向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理。

在上述实施例的基础上，所述控制指令包括拍摄模式为航拍模式；所述采集模块802具体用于：将拍摄模式调整为航拍模式。

在上述实施例的基础上，所述控制指令还包括目标拍摄对象信息；采集模块802具体用于：根据所述目标拍摄信息确定目标拍摄对象，并跟随所述目标拍摄对象进行音视频采集。

在上述实施例的基础上，所述控制指令还包括寻声定位，采集模块802具体用于：确定声音来源方向，并根据声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向，在所述音视频采集装置到达对应的飞行位置后，向对应的采集方向进行音视频采集。

在上述实施例的基础上，所述控制指令包括拍摄模式为固定拍摄模式和目标拍摄对象信息，采集模块802具体用于：所述音视频采集装置根据所述目标拍摄对象信息确定对应的目标拍摄对象的位置，并根据所述目标拍摄对象的位置控制三轴云台式摄像头进行水平和/或垂直方向旋转，以实现对所述目标拍摄对象的跟随拍摄。

在上述实施例的基础上，音视频采集装置与多个声音接收装置通信连接，所述控制指令包括拍摄模式为固定拍摄模式和寻声定位，所述音视频采集装置包括三轴云台式摄像头；采集模块802具体用于：

综上所述，本申请实施例通过音视频采集装置分别与控制终端和处理终端通信连接，从而可以通过控制终端控制音视频采集装置的工作参数，使得音视频采集装置在调整后的工作参数下进行音视频采集，不需要人工去调整音视频采集装置，其操作更加便捷。

图9为本申请实施例提供的电子设备实体结构示意图，如图9所示，所述电子设备，包括：处理器(processor)901、存储器(memory)902和总线903；其中，

所述处理器901和存储器902通过所述总线903完成相互间的通信；

所述处理器901用于调用所述存储器902中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：接收所述控制终端发送的控制指令；根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理。

处理器901可以是一种集成电路芯片，具有信号处理能力。上述处理器901可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器902可以包括但不限于随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)等。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：接收所述控制终端发送的控制指令；根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：接收所述控制终端发送的控制指令；根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音视频处理系统，其特征在于，包括：控制终端、音视频采集装置和处理终端；其中，所述音视频采集装置分别与所述处理终端和所述控制终端通信连接；

所述控制终端用于向所述音视频采集装置发送控制指令，以控制所述音视频采集装置的工作参数；

所述音视频采集装置用于根据所述控制指令调整工作参数，并在调整后的工作参数下对目标区域进行音视频采集，向所述处理终端发送采集到的音视频信息；

所述处理终端对接收到的所述音视频信息进行处理；

所述控制指令包括拍摄模式为固定拍摄模式和目标拍摄对象信息，所述音视频采集装置包括三轴云台式摄像头；所述目标拍摄对象信息包括目标拍摄对象的面部信息或衣着信息；

所述音视频采集装置根据所述目标拍摄对象信息确定对应的目标拍摄对象的位置，并根据所述目标拍摄对象的位置控制三轴云台式摄像头进行水平和/或垂直方向旋转，以实现对所述目标拍摄对象的跟随拍摄；

若所述音视频采集装置当前处于所述固定拍摄模式，在所述音视频采集装置接收到所述控制指令中包括拍摄模式为航拍模式后，将所述音视频采集装置上的机翼进行展开，并调整所述工作参数为航拍模式对应的参数；

所述目标拍摄对象信息的获得包括所述控制终端通过所述音视频采集装置采集区域，然后从所述采集区域中选择目标拍摄对象，将选中的目标拍摄对象的图像作为所述目标拍摄对象信息；

所述音视频采集装置在接收到所述控制指令后，通过所述目标拍摄对象信息锁定对应的目标拍摄对象，在锁定所述目标拍摄对象后，所述音视频采集装置跟随所述目标拍摄对象进行音视频采集，所述音视频采集装置实时获取到所述目标拍摄对象的位置和速度，所述控制终端预先设定所述音视频采集装置与所述目标拍摄对象的相对距离，所述音视频图像采集装置通过所述目标拍摄对象的状态信息，以及期望的相对距离计算获得所述音视频采集装置期望的位置，并与所述音视频采集装置当前所处的位置进行比较获得修正量，根据所述修正量调整自身的位置，所述音视频采集装置还通过控制内部的云台来保证所述目标跟随对象始终处于镜头的视角范围内；

所述控制指令还包括寻声定位，所述音视频采集装置在接收到所述寻声定位的控制指令后，确定声音来源方向，并根据所述声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向；所述系统还包括多个声音接收装置，所述多个声音接收装置均与所述音视频采集装置通信连接，所述音视频采集装置用于接收各声音接收装置接收到的音频信号，并根据所述音频信号确定所述音频信号的来源方向信息；

所述多个声音接收装置设置在各个地方，所述音视频采集装置根据各个声音接收装置接收到的声音大小确定声音来源方向；或者，在所述音视频采集装置中预先存储有各个声音接收装置与所述音视频采集装置之间的位置关系，当所述音视频采集装置接收到所述声音接收装置发送的声音后，根据预先存储的位置关系，所述音视频采集装置旋转三轴云台式摄像头，使得该三轴云台式摄像头能够采集到正在讲话的人的音视频信息。

2.根据权利要求1所述的系统，其特征在于，所述控制指令包括拍摄模式为航拍模式，所述音视频采集装置在接收到所述控制指令后，调整当前拍摄模式为航拍模式，并在航拍模式下进行音视频采集。

3.根据权利要求2所述的系统，其特征在于，所述控制指令还包括目标拍摄对象信息，所述音视频采集装置在接收到所述控制指令后，锁定对应的目标拍摄对象，并跟随所述目标拍摄对象进行音视频采集。

4.根据权利要求2所述的系统，其特征在于，所述控制指令还包括寻声定位，所述音视频采集装置在接收到所述控制指令后，确定声音来源方向，并根据声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向。

5.根据权利要求1所述的系统，其特征在于，所述系统还包括多个声音接收装置，多个声音接收装置均与所述音视频采集装置通信连接；所述控制指令包括拍摄模式为固定拍摄模式和寻声定位，所述音视频采集装置包括三轴云台式摄像头；

6.根据权利要求3-5任一项所述的系统，其特征在于，所述音视频采集装置将采集到的音视频信息发送给所述控制终端；其中，所述音视频信息中包括被拍摄的人的手势信息；

所述控制终端根据所述手势信息向所述音视频采集装置发送与所述手势信息对应的控制指令。

7.根据权利要求1所述的系统，其特征在于，所述音视频采集装置通过有线通信或无线通信分别与所述处理终端和所述控制终端通信连接；其中，所述有线通信包括通过USB数据线进行通信；所述无线通信包括：蓝牙、WIFI网络、热点中的移动通信网络中的至少一种。

8.根据权利要求1所述的系统，其特征在于，所述控制指令还包括延时拍摄的时间信息；所述音视频采集装置用于在接收到所述控制指令后开始计时，并在所述时间信息之后开始进行音视频采集。

9.根据权利要求1所述的系统，其特征在于，所述控制指令还包括自动调焦、关机指令、开启美颜、开启虚拟现实模式和定时关机中的至少一项。

10.根据权利要求1所述的系统，其特征在于，所述处理终端用于在接收到所述音视频信息之后，将所述音视频信息上传至目标直播服务器。

11.根据权利要求1所述的系统，其特征在于，所述处理终端用于在接收到所述音视频信息之后，将所述音视频信息上传至目标会议服务器。

12.一种音视频采集方法，其特征在于，应用于系统中的音视频采集装置，所述系统包括控制终端、音视频采集装置和处理终端；其中，所述音视频采集装置分别与所述处理终端和所述控制终端通信连接；

所述方法包括：

接收所述控制终端发送的控制指令；

根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，获得音视频信息；

向所述处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理；

所述控制指令包括拍摄模式为固定拍摄模式和目标拍摄对象信息，所述目标拍摄对象信息包括目标拍摄对象的面部信息或衣着信息；

所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

13.根据权利要求12所述的方法，其特征在于，所述控制指令包括拍摄模式为航拍模式；所述根据所述控制指令调整对应的工作参数，包括：

将拍摄模式调整为航拍模式。

14.根据权利要求13所述的方法，其特征在于，所述控制指令还包括目标拍摄对象信息；所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

15.根据权利要求13所述的方法，其特征在于，所述控制指令还包括寻声定位，所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

16.根据权利要求12所述的方法，其特征在于，所述系统还包括多个声音接收装置，多个声音接收装置均与所述音视频采集装置通信连接；所述控制指令包括拍摄模式为固定拍摄模式和寻声定位，所述音视频采集装置包括三轴云台式摄像头；所述根据所述控制指令调整对应的工作参数，并在调整后的工作参数下进行音视频采集，包括：

17.根据权利要求14-16任一项所述的方法，其特征在于，所述方法还包括：

接收所述控制终端发送的与所述手势信息对应的控制指令。

18.一种音视频采集装置，其特征在于，包括：

接收模块，用于接收控制终端发送的控制指令；

发送模块，用于向处理终端发送所述音视频信息，以使所述处理终端对所述音视频信息进行相应的处理；

所述发送模块具体用于：

所述音视频采集装置根据所述目标拍摄对象信息确定对应的目标拍摄对象的位置，并根据所述目标拍摄对象的位置控制三轴云台式摄像头进行水平和/或垂直方向旋转，以实现对所述目标拍摄对象的跟随拍摄；其中

若音视频采集装置当前处于手持模式或者固定拍摄模式，在音视频采集装置接收到控制指令中包括拍摄模式为航拍模式后，将音视频采集装置上的机翼进行展开，并调整内部参数为航拍模式对应的参数；

控制指令包括目标拍摄对象信息，其中，目标拍摄对象信息是面部信息或者目标拍摄对象的衣着信息，面部信息和衣着信息控制终端控制通过音视频采集装置采集区域，然后从采集区域中选择目标拍摄对象，将选中的目标拍摄对象的图像作为目标拍摄对象信息；

音视频采集装置在接收到控制指令后，锁定对应的目标拍摄对象，其中，锁定目标拍摄对象的方式通过人脸识别或比对衣着特征进行锁定，在锁定目标拍摄对象后，音视频采集装置跟随目标拍摄对象进行音视频采集，音视频采集装置实施获取到目标拍摄对象的位置和速度，在控制终端预先设定音视频采集装置与目标拍摄对象的相对距离，音视频图像采集装置通过目标拍摄对象的状态信息，以及期望的相对距离计算获得音视频采集装置期望的位置，并与音视频采集装置当前所处的位置进行比较，根据算法计算获得修正量，根据修正量调整自身的位置，音视频采集装置还通过控制内部的云台来保证目标跟随对象始终处于镜头的视角范围内；

所述音视频采集装置在接收到寻声定位控制指令后，确定声音来源方向，并根据声音来源方向确定所述音视频采集装置自身的飞行位置以及采集方向；系统包括多个声音接收装置，多个声音接收装置均与所述音视频采集装置通信连接，所述音视频采集装置用于接收各声音接收装置接收到的音频信号，并根据所述音频信号确定所述音频信号的来源方向信息；

在各个地方设置声音接收装置，声音接收装置与音视频采集装置通信，并且将采集到的声音发送给音视频采集装置，音视频采集装置根据各个声音接收装置接收到的声音大小确定声音来源方向；或者，在音视频采集装置中预先存储有各个声音接收装置与音视频采集装置之间的位置关系，当音视频采集装置接收到声音接收装置发送的声音后，根据预先存储的位置关系，音视频采集装置旋转三轴云台式摄像头，使得该三轴云台式摄像头能够采集到正在讲话的人的音视频信息。

19.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求12-17任一项所述的方法。

20.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被计算机运行时，使所述计算机执行如权利要求12-17任一项所述的方法。