CN115297338A

CN115297338A - 视频拍摄时的音频传输方法、视频设备、音频设备及系统

Info

Publication number: CN115297338A
Application number: CN202210937121.3A
Authority: CN
Inventors: 蒋憧
Original assignee: Shenzhen Wild Grass Acoustics Co ltd
Current assignee: Shenzhen Wild Grass Acoustics Co ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-04

Abstract

本发明涉及一种基于通信网络的视频拍摄时的音频传输方法，包括：音频采集设备通过无线通信网络与视频拍摄设备连接；音频采集设备将采样得到的音频信息打包为数据包后进行存储；音频采集设备结束音频采集后，并将存储的数据包通过无线通信网络发送给视频拍摄设备；视频拍摄设备将音频信息的时间轴与视频信息的时间轴对齐后合成为拍摄视频。本发明中，音频采集设备通过无线通信网络传输音频信息，音频信息传输便捷，且能够确保音质效果；对音频采集设备和视频拍摄设备进行对时，能够确保合成为拍摄视频后，音频与视频同步，在拍摄结束后再将音频信息统一传送给视频拍摄设备，能够克服无线通信网络的丢包现象对视频音质的影响。

Description

视频拍摄时的音频传输方法、视频设备、音频设备及系统

技术领域

本发明属于视频直播技术领域，涉及一种视频拍摄时的音频传输方法、视频设备、音频设备及系统。

背景技术

在视频拍摄时，通常采用视频拍摄设备同时对视频和音频信息进行采集，但是在拍摄距离较远、噪声干扰较大的情况下，采用上述方式得到的音频音质较差且容易失真，影响视频的音质效果。如果将麦克风等音频采集设备和视频拍摄设备分开，分别单独采集音频信息和视频信息，则又需要将音频信息传输给视频拍摄设备以进行合成；通常采用有线传输或蓝牙传输的方式传输音频信息，但是有线传输的方式需要单独布线，且不便于设备的移动，传输距离较远时还会存在较大的损耗；蓝牙传输方式则存在传输速率较低，需要对音频进行压缩后再传输，从而会降低音质；另外蓝牙传输方式传输距离短，一般在10米左右，且不能进行网络延展，传输距离受限。WIFI传输方式虽然在传输速率上远超蓝牙，且可以通过网络延展大大增加传输距离，但由于WIFI传输协议的延时较长，且不可避免地存在丢包现象，用于传输音频还存在许多需要解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种视频拍摄时的音频传输方法、视频设备、音频设备及系统。

为达到上述目的，本发明提供如下技术方案：

一种基于通信网络的视频拍摄时的音频传输方法，包括以下步骤：

S101、音频采集设备通过无线通信网络与视频拍摄设备连接，并与视频拍摄设备进行对时；

S102、视频拍摄设备在录制视频信息的同时，下发拍摄指令使音频采集设备采集音频信息；

S103、音频采集设备通过音频采样采集音频信息，并将采样得到的音频信息打包为数据包后进行存储；

S104、视频拍摄设备在结束视频录制时向音频采集设备发送结束命令，音频采集设备结束音频采集，并将存储的全部数据包通过无线通信网络发送给视频拍摄设备；

S105、在视频拍摄设备接收到数据包后，将数据包恢复为音频信息；并将音频信息的时间轴与视频信息的时间轴对齐后合成为拍摄视频。

进一步的，在所述S101步骤中，音频采集设备与视频拍摄设备进行对时包括以下子步骤：

S1011、视频拍摄设备发送对时指令给音频采集设备，并获取发送指令时其自身的时间戳；

S1012、音频采集设备收到对时指令后，立即返回对时信息给视频拍摄设备；

S1013、视频拍摄设备收到音频采集设备返回的对时信息后，立即再次获取其自身的时间戳；并以两个时间戳差值的一半作为视频拍摄设备的指令传送到音频采集设备的时延；

在所述S105步骤中，将音频信息的时间轴与视频信息的时间轴对齐的方法为：

先将视频拍摄设备开始拍摄的时刻后移diff，再将视频拍摄设备开始拍摄的时刻与音频采集设备的开始采集音频信息的时刻对齐。

进一步的，所述音频采集设备设置有发送缓存区，所述视频拍摄设备设置有接收缓存区，在执行所述S103步骤的同时，还执行以下步骤：

S1031、所述音频采集设备在存储每一数据包的同时，还将该数据包存储至发送缓存区，并将发送缓存区存储的数据包通过无线通信网络发送给视频拍摄设备；

S1032、所述视频拍摄设备在接收到数据后，将数据包存储至接收缓存区，并在接收缓冲区存储的数据包的数量达到预定的数量后，按照先进先出原则依次将接收缓冲区存储的数据包移出接收缓冲区；

S1033、所述视频拍摄设备将移出接收缓冲区的数据包解析为音频信息。

进一步的，在所述S1033步骤中，所述视频拍摄设备在数据包被移出接收缓存区后，还提取出该数据包中音频电平的最大值，通过显示屏对电平的最大值进行显示。

进一步的，在所述S103步骤中，当所述音频采集设备在视频拍摄过程中发生脱网时，执行以下步骤：

S1035、音频采集设备继续采集音频信息，并将音频信息存储为数据包；

S1036、音频采集设备实时检测是否恢复到联网状态后，当恢复到联网状态后执行S1037步骤；

S1037、询问视频拍摄设备视频拍摄是否结束，如果视频拍摄未结束则返回执行S103步骤；如果视频拍摄已结束，则执行S1038步骤；

S1038、音频采集设备将存储的全部数据包通过无线通信网络发送给视频拍摄设备。

进一步的，在拍摄视频之前，所述视频拍摄设备和音频采集设备保持预录状态，所述视频拍摄设备预先录制视频信息并保存当前时刻之前固定时长的时段内录制的视频信息，所述音频采集设备预先采集音频信息并保存当前时刻之前固定时长的时段内采集的音频信息；在拍摄开始后，以所述视频拍摄设备退出预录状态，并以预录状态下保存的视频信息的开始时刻作为视频拍摄时录制视频信息的开始时刻，以预录状态下保存的音频信息的开始时刻作为视频拍摄时采集音频信息的开始时刻。

进一步的，所述无线通信网络为WIFI通信网络，所述WIFI通信网络包括WIFI路由器，所述音频采集设备和视频拍摄设备均设置有WIFI模块，所述音频采集设备和视频拍摄设备分别通过其WIFI模块与WIFI路由器连接；或

所述无线通信网络为4G或5G移动通信网络，所述移动通信网络包括移动通信基站，所述音频采集设备和视频拍摄设备均设置有4G通信模块或5G通信模块，所述音频采集设备和视频拍摄设备分别通过其4G通信模块或5G通信模块与移动通信基站连接。

一种基于通信网络的视频拍摄时的视频拍摄设备，包括

视频拍摄模块，用于通过视频录制获取视频信息；

第一时间同步模块，用于发送对时指令给音频采集设备，并获取发送对时指令时其自身的时间戳；以及在收到音频采集设备返回的对时信息后，立即再次获取其自身的时间戳；并计算两个时间戳差值的一半作为视频拍摄设备的指令传送到音频采集设备的时延；

第一无线通信模块，用于通过接入无线通信网络获取音频采集设备的数据包，以及发送拍摄指令和录音指令，接收对时信息；

第一存储模块，用于存储从无线通信网络接收到的音频采集设备生成的数据包；

接收缓冲区，用于存储接收到的来自音频采集设备的数据包中未被存储的数据包，并在存储的数据包的数量达到预定的数量后，按照先进先出原则依次将存储的数据包移出接收缓冲区；以及

音视频合成模块，用于在视频拍摄结束后，将接收的数据包解析为音频并与视频信息的时间轴对齐后合成为拍摄视频；以及在需要监听时，将移出接收缓冲区的数据包解析为音频后，与拍摄的视频信息的时间轴对齐后合成为监听视频。

一种基于通信网络的视频拍摄时的音频采集设备，包括

音频采集模块，用于通过音频采样采集音频信息，并将采集的音频信息打包为数据包；

第二时间同步模块，用于在收到视频拍摄设备的对时指令后，立即返回信息给视频拍摄设备；

第二存储模块，用于存储音频采集模块生成的数据包；

发送缓冲区，用于存储音频采集模块生成的数据包，并在存储的数据包的数量达到预定的数量后，按照先进先出的原则丢弃最先存储的数据包；以及

第二无线通信模块，用于通过接入无线通信网络接收视频拍摄设备发送的拍摄指令和录音指令，向视频拍摄设备发送对时信息，在拍摄过程中将发送缓冲区存储的数据包发送至无线通信网络，以及将本次拍摄过程中所有的数据包通过无线通信网络发送给视频拍摄设备。

一种基于通信网络的视频拍摄时的音频传输系统，包括视频拍摄设备和音频采集设备。

本发明中，音频采集设备通过无线通信网络向视频拍摄设备传输音频信息，音频信息传输便捷，支持多通道音频信息同时传输，且可以进行无损音频的传输，确保音质效果；通过时间戳的方式对视频拍摄设备和音频采集设备进行时间对准，实现方式简单。在拍摄结束后再将音频信息统一传送给视频拍摄设备，能够克服无线通信网络的丢包现象对视频音质的影响。在音频采集设备设置发送缓冲区，能够对同一音频数据包进行多次发送，在视频拍摄设备设置接收缓存区，能够及时发现丢包缺失的音频数据，并且留出对丢包缺失的音频数据进行再次接收和补全的时间，从而克服无线通信网络的丢包现象的影响，提高监听视频的音质。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于通信网络的视频拍摄时的音频传输方法的一个优选实施例的流程图。

图2为在拍摄过程中生成监听视频的流程图。

图3为音频采集设备生成数据包后存储到发送数据存储队列的示意图。

图4为视频拍摄设备将接收到的数据包存储到接收数据存储队列的示意图。

图5为音频采集设备在视频拍摄过程中发生脱网时执行步骤的流程图。

图6为本发明基于通信网络的视频拍摄时的视频拍摄设备的一个优选实施例的结构示意图。

图7为本发明基于通信网络的视频拍摄时的音频采集设备的一个优选实施例的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如图1所示，本发明基于通信网络的视频拍摄时的音频传输方法的一个优选实施例包括以下步骤：

S101、音频采集设备通过无线通信网络与视频拍摄设备连接，并与视频拍摄设备进行对时。所述无线通信网络优选为WIFI通信网络，所述WIFI通信网络包括WIFI路由器，所述音频采集设备和视频拍摄设备均优选为设置有WIFI模块，所述音频采集设备和视频拍摄设备分别通过其WIFI模块与WIFI路由器连接。当然，所述无线通信网络也可以为4G或5G移动通信网络，所述移动通信网络包括移动通信基站，所述音频采集设备和视频拍摄设备均设置有4G通信模块或5G通信模块，所述音频采集设备和视频拍摄设备分别通过其4G通信模块或5G通信模块与移动通信基站连接。采用无线通信网络传输音频信息，不仅音频信息传输便捷，支持多通道音频信息同时传输，而且能够进行无损音频的传输，确保音质效果。

音频采集设备与视频拍摄设备进行对时优选为采用以下步骤：

S1011、视频拍摄设备发送对时指令给音频采集设备，并获取发送指令时其自身的时间戳P1。

S1012、音频采集设备收到对时指令后，立即返回对时信息给视频拍摄设备。

S1013、视频拍摄设备收到音频采集设备返回的对时信息后，立即再次获取其自身的时间戳P2；并计算出视频拍摄设备的指令传送到音频采集设备的时延diff，时延diff的计算公式如下：

diff＝(P2-P1)/2。

S102、视频拍摄设备在录制视频信息的同时，下发拍摄指令使音频采集设备采集音频信息。由于视频拍摄设备下发拍摄指令的同时即开始录制视频信息，而音频采集设备是在收到拍摄指令后才开始采集音频信息，视频拍摄设备的指令传送到音频采集设备存在时延，因此，通过在步骤S101计算出视频拍摄设备的指令传送到音频采集设备的时延diff，在合成时使视频信息也产生与diff相等的时延即可使视频信息与音频信号对齐。

S103、音频采集设备通过音频采样采集音频信息，并将采样得到的音频信息打包为数据包后进行存储。为便于在视频拍摄设备端对音频采集设备采集的声音进行监听，优选为在所述音频采集设备设置有发送缓存区，在所述视频拍摄设备设置有接收缓存区，如图2所示，在执行所述S103步骤的同时，还执行以下步骤：

S1031、所述音频采集设备在存储每一数据包的同时，还将该数据包存储至发送缓存区，并将发送缓存区存储的所有数据包通过无线通信网络发送给视频拍摄设备。优选为在所述发送缓冲区形成发送数据存储队列，发送缓冲区通过发送数据存储队列对数据包进行存储。假设发送数据存储队列能够存储5个数据包，则在发送数据包时，发送数据存储队列存储的5个数据包都会发送出去；从而使每一数据包都会被发送5次，以避免丢包导致视频拍摄设备未能接收到该数据包。音频采集设备生成数据包后存储到发送数据存储队列的方法包括以下子步骤：

S10311、将发送数据存储队列中各存储位置的数据包依次后移。假设之前的发送数据存储队列中只在第一个存储位置存储了音频采集设备生成的第1个数据包(以下简称数据包1)，则在音频采集设备生成的第2个数据包(以下简称数据包2)后，将数据包1从发送数据存储队列的第一个存储位置后移至第二个存储位置，并在发送数据存储队列的第一个存储位置存储数据包2。

S10312、丢弃发送数据存储队列中最后一个存储位置存储的数据包。当发送数据存储队列存储的数据包的数量达到了发送数据存储队列的最大存储数量(即发送数据存储队列的最后一个存储位置存储有数据包时)，在将发送数据存储队列中存储的数据包后移时会丢弃其最后一个存储位置存储的数据包，以便空出第一个存储位置用于存储音频采集设备新生成的数据包。例如，假设发送数据存储队列可以存储5个数据包，图3的a图为发送数据存储队列将数据包后移前的示意图，则发送数据存储队列在数据包后移之后的示意图如图3的b图所示。其最后一个存储位置存储的数据包5被丢弃，并空出第一个存储位置用于存储音频采集设备生成的第10个数据包(即数据包10)。

S10313、如图3的c图所示，将音频采集设备新生成的数据包存储在发送数据存储队列的第一个存储位置。从而对发送数据存储队列存储的数据包进行更新，使发送数据存储队列丢弃早期存储的数据包，对新生成的数据包进行缓存。

S1032、所述视频拍摄设备在接收到数据后，将数据包存储至接收缓存区，并在接收缓冲区存储的数据包的数量达到预定的数量后，按照先进先出原则依次将接收缓冲区存储的数据包移出接收缓冲区。优选为在所述接收缓冲区形成接收数据存储队列，所述接收缓冲区通过接收数据存储队列对数据包进行存储；所述接收数据存储队列存储的数据包的数量等于发送数据存储队列存储的数据包的数量。在本步骤中，可按照数据包在发送数据存储队列的排列顺序将接收到的数据包存储至接收数据存储队列中；当数据包有缺失时，则在接收数据存储队列中预留出缺失的数据包对应的存储位置。本步骤中，视频拍摄设备在接收到来自音频采集设备的数据包后，执行以下步骤：

S10321、检测接收数据存储队列存储的数据包是否有缺失，如果有则缺失则执行S10322步骤，无缺失则执行S10323步骤。如图4的a图所示，假设发送数据存储队列存储的为数据包12至数据包16；则视频拍摄设备在接收到来自音频采集设备的数据包12至数据包16之前，接收数据存储队列存储的数据包应为数据包11至数据包15。如图4的b图所示，假设上一次接收时由于丢包未能接收到数据包15，导致数据包15缺失，则会预留出数据包15对应的存储位置。如果在下一次接收时仍未接收到数据包15，则数据包15预留的存储位置也会向后移。

S10322、从接收的数据包中找出接收数据存储队列缺失的数据包，并存储至接收数据存储队列中对应的位置；执行S10323步骤。例如，如图4的c图所示，当接收数据存储队列中数据包15缺失时，在下一次接收时接收到数据包15后，则会将数据包15存储到预留的位置中。

S10323、将接收数据存储队列中最后一个存储位置存储的数据包移出接收缓冲区，并将接收数据存储队列中各存储位置的数据包依次后移一个存储位置。当发送数据存储队列存储的为数据包12至数据包16时；则视频拍摄设备在接收到来自音频采集设备的数据包12至数据包16之后，如图4的d图所示，视频拍摄设备将接收数据存储队列中的存储的数据包依次后移，将数据包11移出接收缓冲区。

S10324、检测接收的数据包中是否有音频采集设备新生成的数据包(即在第二存储位置存储的数据包之后生成的数据包)，如果有则将该数据包存储在接收数据存储队列的第一个存储位置，如果没有则预留出第一个存储位置，并在该存储位置标记数据包缺失。如图4的e图所示，当视频拍摄设备接收到数据包16后，将数据包16存储在接收数据存储队列的第一个存储位置，从而使发送数据存储队列和接收数据存储队列存储的数据包完全一致。

由于有接收缓冲区对接收的数据进行缓冲，当检测到有丢包时，可在之后接收的数据包中找出缺失的数据包，从而对缺失的数据包进行补全，避免数据包丢失对音质造成的影响。

S1033、所述视频拍摄设备将移出接收缓冲区的数据包解析为音频信息，供拍摄人员进行监听，从而实现在拍摄视频的同时对音频的监听。

为实现对音频电平的监视，在S1033步骤中，所述视频拍摄设备在数据包被移出接收缓存区后，还提取出该数据包中音频电平的最大值，通过显示屏对电平的最大值进行显示；从而可对音频电平的最大值进行监视，及时发现音频的异常。

如图5所示，在所述S103步骤中，当所述音频采集设备在视频拍摄过程中发生脱网时，执行以下步骤：

S1035、音频采集设备在脱网后不会停止采样，还会继续采集音频信息，并将音频信息存储为数据包。

S1036、音频采集设备实时检测是否恢复到联网状态后，当恢复到联网状态后执行S1037步骤；查看视频拍摄是否结束。

S1037、询问视频拍摄设备视频拍摄是否结束，如果视频拍摄未结束则返回执行S103步骤，脱网对视频拍摄没有影响。如果视频拍摄已结束，则音频采集设备停止采样，执行S1038步骤。

S1038、音频采集设备将存储的全部数据包通过无线通信网络发送给视频拍摄设备，以便于视频拍摄设备将音频信息与视频信息合成为带音频信息的拍摄视频。

S104、视频拍摄设备在结束视频录制时向音频采集设备发送结束命令，音频采集设备结束音频采集，并将存储的全部数据包通过无线通信网络发送给视频拍摄设备。同时，音频采集设备还会将同步时间戳T通过无线通信网络发送给视频拍摄设备。如果音频采集设备在传输存储的全部数据包的过程中发生脱网时，则等待恢复到联网状态后再次传输即可。在拍摄结束后再将音频信息统一传送给视频拍摄设备，能够克服无线通信网络的丢包现象对视频音质的影响。

S105、在视频拍摄设备接收到数据包后，将数据包恢复为音频信息；并将音频信息的时间轴与视频信息的时间轴对齐后合成为带音频信息的拍摄视频。优选为先将视频拍摄设备开始拍摄的时刻后移diff，再将视频拍摄设备开始拍摄的时刻与音频采集设备的开始采集音频信息的时刻对齐；从而使视频信息在移出视频缓冲区后与音频信息的时间轴对齐。

当需要对多个位置同时进行音频采集时，还可以设置有多个音频采集设备，多个所述音频采集设备均与视频拍摄设备进行对时。在每一音频采集设备分别设置发送缓冲区，在视频拍摄设备对应第一发送缓冲区分别设置接收缓冲区，在S1033步骤中，将移出各个接收缓冲区的数据包进行多轨合成后，生成监听音频，当然，还可将监听音频与视频信息的时间轴对齐后生成监听视频。在S105步骤中，将各个音频采集设备的音频信息的时间轴均与视频信息的时间轴对齐后，先将多个音频信息的时间轴并轨合成为一轨音频信息，再将音频信息与视频信息合成为带音频信息的拍摄视频。

为了便于捕捉突发情况，避免在发现情况后不能及时拍摄；在拍摄视频之前，可以使所述视频拍摄设备和音频采集设备保持预录状态，所述视频拍摄设备预先录制视频信息并保存当前时刻之前固定时长的时段内录制的视频信息。所述音频采集设备预先采集音频信息并保存当前时刻之前固定时长的时段内采集的音频信息；在拍摄开始后，以所述视频拍摄设备退出预录状态，并以预录状态下保存的视频信息的开始时刻作为视频拍摄时录制视频信息的开始时刻，以预录状态下保存的音频信息的开始时刻作为视频拍摄时采集音频信息的开始时刻。假设固定时长的时段为10秒，则预录状态下可以使视频拍摄设备和音频采集设备一直处于拍摄状态，并循环覆盖10秒以前的视频信息和音频信息，只保存当前时刻10秒以内的视频信息和音频信息；在下发拍摄命令时，直接将下发拍摄命令之前10秒作为拍摄的开始时刻，从而实现提前拍摄的功能。

本实施例中，通过无线通信网络向视频拍摄设备传输音频信息，不仅传输便捷，而且可以进行无损音频的传输，确保音质效果；通过时间戳的方式对视频拍摄设备和音频采集设备进行时间对准，实现方式简单。在音频采集设备设置发送缓冲区，能够对同一音频数据包进行多次发送，克服无线通信网络的丢包现象的影响；在视频拍摄设备设置接收缓存区，能够及时发现丢包缺失的音频数据，并且留出对丢包缺失的音频数据进行再次接收和补全的时间，从而显著提高监听时的音质。

本发明还公开了一种基于通信网络的视频拍摄时的视频拍摄设备，如图6所示，本发明基于通信网络的视频拍摄时的视频拍摄设备的一个优选实施例包括视频拍摄模块、第一时间同步模块、第一无线通信模块、第一存储模块、接收缓冲区和音视频合成模块。

所述视频拍摄模块用于通过视频录制获取视频信息；以便于合成拍摄视频。所述第一时间同步模块用于发送对时指令给音频采集设备，并获取发送指令时其自身的时间戳；以及在收到音频采集设备返回的信息后，立即再次获取其自身的时间戳；并计算两个时间戳差值的一半作为视频拍摄设备的指令传送到音频采集设备的时延。通过计算视频拍摄设备的指令传送到音频采集设备的时延，可以对视频拍摄设备录制的视频信息和音频采集设备采集的音频信息进行时间对准。

所述第一无线通信模块，用于通过接入无线通信网络获取音频采集设备的数据包，以及发送拍摄指令和录音指令，接收对时信息。所述无线通信网络优选为WIFI通信网络，所述WIFI通信网络包括WIFI路由器，所述第一无线通信模块为WIFI模块，所述第一无线通信模块与WIFI路由器连接。当然，所述无线通信网络也可以为4G或5G移动通信网络，所述移动通信网络包括移动通信基站，所述第一无线通信模块为4G通信模块或5G通信模块，所述第一无线通信模块与移动通信基站连接。

所述第一存储模块用于存储从无线通信网络接收到的音频采集设备生成的数据包。所述接收缓冲区用于存储接收到的来自音频采集设备的数据包中未被存储的数据包，并在存储的数据包的数量达到预定的数量后，按照先进先出原则依次将存储的数据包移出接收缓冲区。为便于连接多个音频采集设备，视频拍摄模块可设置多个接收缓冲区，使连接的每一音频采集设备分别对应一个接收缓冲区。

所述音视频合成模块用于在视频拍摄结束后，将接收的数据包解析为音频并与视频信息的时间轴对齐后合成为拍摄视频。当连接多个音频采集设备时，所述音视频合成模块还用于将多个音频采集设备的音频信息的时间轴对齐后并轨合成为一轨音频信息，再将音频信息与视频信息合成为拍摄视频。当需要监听时，音视频合成模块还将移出接收缓冲区的数据包解析为音频后，与拍摄的视频信息的时间轴对齐后合成为监听视频。将视频信息和音频信息的时间轴对齐的方法优选为所述视频拍摄设备还包括视频缓冲区，所述视频拍摄模块拍摄的视频信息先经过视频缓冲区延迟后再移出视频缓冲区，所述视频缓冲区的延迟时长等于视频拍摄设备的指令传送到音频采集设备的时延diff与接收缓冲区所造成的时延diff'之和，从而使视频信息在移出视频缓冲区后与音频信息的时间轴对齐。

本发明还公开了一种基于通信网络的视频拍摄时的音频采集设备，如图7所示，本发明基于通信网络的视频拍摄时的音频采集设备的一个优选实施例包括音频采集模块、第二时间同步模块、第二存储模块、发送缓冲区和第二无线通信模块。

所述音频采集模块用于通过音频采样采集音频信息，并将采集的音频信息打包为数据包。所述第二时间同步模块用于在收到视频拍摄设备的对时指令后，立即返回信息给视频拍摄设备。所述第二存储模块用于存储音频采集模块生成的数据包，以便于在采集完成后将音频信息整体发送给视频拍摄设备，以及存储音频信息备用，以便于后期人工进行音视频合成。所述发送缓冲区用于存储音频采集模块生成的数据包，并在存储的数据包的数量达到预定的数量后，按照先进先出的原则丢弃最先存储的数据包。

所述第二无线通信模块用于通过接入无线通信网络接收视频拍摄设备发送的拍摄指令和录音指令，向视频拍摄设备发送对时信息，在拍摄过程中将发送缓冲区存储的数据包发送至无线通信网络，以及将本次拍摄过程中所有的数据包通过无线通信网络发送给视频拍摄设备。所述无线通信网络优选为WIFI通信网络，所述WIFI通信网络包括WIFI路由器，所述第二无线通信模块为WIFI模块，所述第二无线通信模块与WIFI路由器连接。当然，所述无线通信网络也可以为4G或5G移动通信网络，所述移动通信网络包括移动通信基站，所述第二无线通信模块为4G通信模块或5G通信模块，所述第二无线通信模块与移动通信基站连接。

本发明还公开了一种基于通信网络的视频拍摄时的音频传输系统，如图6和图7所示，本发明基于通信网络的视频拍摄时的音频传输系统的一个优选实施例包括如上述任一实施例所述的视频拍摄设备和上述任一实施例所述的音频采集设备。

本实施例中，音频采集设备通过无线通信网络向视频拍摄设备传输音频信息，音频信息传输便捷，且可以进行无损音频的传输，确保音质效果；通过在音频采集设备设置发送缓冲区，在视频拍摄设备设置接收缓存区，能够对同一音频数据包进行多次发送，只需要有一次被接收即可，从而克服无线通信网络的丢包现象的影响，实现对音频信息的监听。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于通信网络的视频拍摄时的音频传输方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于通信网络的视频拍摄时的音频传输方法，其特征在于：在所述S101步骤中，音频采集设备与视频拍摄设备进行对时包括以下子步骤：

S1011、视频拍摄设备发送对时指令给音频采集设备，并获取发送对时指令时其自身的时间戳；

S1013、视频拍摄设备收到音频采集设备返回的对时信息后，立即再次获取其自身的时间戳；并以两个时间戳差值的一半作为视频拍摄设备的指令传送到音频采集设备的时延diff；

3.根据权利要求1所述的基于通信网络的视频拍摄时的音频传输方法，其特征在于：所述音频采集设备设置有发送缓存区，所述视频拍摄设备设置有接收缓存区，在执行所述S103步骤的同时，还执行以下步骤：

4.根据权利要求3所述的基于通信网络的视频拍摄时的音频传输方法，其特征在于：在所述S1033步骤中，所述视频拍摄设备在数据包被移出接收缓存区后，还提取出该数据包中音频电平的最大值，通过显示屏对电平的最大值进行显示。

5.根据权利要求4所述的基于通信网络的视频拍摄时的音频传输方法，其特征在于：在所述S103步骤中，当所述音频采集设备在视频拍摄过程中发生脱网时，执行以下步骤：

6.根据权利要求1所述的基于通信网络的视频拍摄时的音频传输方法，其特征在于：在拍摄视频之前，所述视频拍摄设备和音频采集设备保持预录状态，所述视频拍摄设备预先录制视频信息并保存当前时刻之前固定时长的时段内录制的视频信息，所述音频采集设备预先采集音频信息并保存当前时刻之前固定时长的时段内采集的音频信息；在拍摄开始后，以所述视频拍摄设备退出预录状态，并以预录状态下保存的视频信息的开始时刻作为视频拍摄时录制视频信息的开始时刻，以预录状态下保存的音频信息的开始时刻作为视频拍摄时采集音频信息的开始时刻。

7.根据权利要求1～6任一项所述的基于通信网络的视频拍摄时的音频传输方法，其特征在于：所述无线通信网络为WIFI通信网络，所述WIFI通信网络包括WIFI路由器，所述音频采集设备和视频拍摄设备均设置有WIFI模块，所述音频采集设备和视频拍摄设备分别通过其WIFI模块与WIFI路由器连接；或

8.一种基于通信网络的视频拍摄时的视频拍摄设备，其特征在于：包括

视频拍摄模块，用于通过视频录制获取视频信息；

音视频合成模块，用于在视频拍摄结束后，将接收的数据包解析为音频并与视频信息合成为拍摄视频；以及在需要监听时，将移出接收缓冲区的数据包解析为音频后，与拍摄的视频信息的时间轴对齐后合成为监听视频。

9.一种基于通信网络的视频拍摄时的音频采集设备，其特征在于：包括

第二时间同步模块，用于在收到视频拍摄设备的对时指令后，立即返回对时信息给视频拍摄设备；

第二存储模块，用于存储音频采集模块生成的数据包；

10.一种基于通信网络的视频拍摄时的音频传输系统，其特征在于：包括如权利要求8所述的视频拍摄设备和如权利要求9所述的音频采集设备。