CN114845004B

CN114845004B - 一种音视频同步实现方法及声学成像方法

Info

Publication number: CN114845004B
Application number: CN202210776052.2A
Authority: CN
Inventors: 曹祖杨; 周航; 张鑫; 张凯强; 侯佩佩
Original assignee: Hangzhou Crysound Electronics Co Ltd
Current assignee: Hangzhou Crysound Electronics Co Ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-10-25
Anticipated expiration: 2042-07-04
Also published as: CN114845004A

Abstract

一种音视频同步实现方法及声学成像方法，属于信号处理技术领域。前者方法包括基于实时采集到的音、视频信号，生成与音频流同步生成的音视频同步信号；具体为：在没有采集到视频信号时，将同步信号的每个同步采样点信号设置为假信号；在采集到一个视频帧后，将该视频帧设置为编号X_i，同时将同步信号的下一个同步采样点信号设置为编号X_i，i为随视频帧被采集到的时序加1递增的自然数。后者方法包括从同步信号中获得与视频流中读取的视频帧图像相同编号X_i的同步采样点信号，并计算该同步信号在音频数据中的时间戳；之后从音频数据中读取对应时间戳的音频数据。本发明能简单实现音视频实时同步效果，并能对高帧率视频帧进行延迟可控的声成像分析。

Description

一种音视频同步实现方法及声学成像方法

技术领域

本发明涉及信号处理技术领域，尤其涉及一种音视频同步实现方法及声学成像方法，用于声源定位分析。

背景技术

当前的声学成像技术，需要同时采集音频和视频的数据，经过计算之后将声源定位结果和视频画面进行融合，达到实时展示声源定位结果的效果。例如，中国发明专利申请CN202111441409.3公开了一种基于对偶一致网络的声源定位与声源分离的方法，方法包括1）获取音视频数据集，选取一对属于不同声音域的视频，提取对应的单源音频和图像信息，并计算混合音频。2）对音频和图像分别进行特征编码，得到音频和图像特征。3）将混合音频和图像特征一同送入对偶一致网络的声源分离模块，分离出单源音频。4）将图像和对应的音频特征送入对偶一致网络的声源定位模块，得到图像中的发声物体。该发明专利申请直接对带有音域的视频进行解析分离，过程复杂。并且，在处理低帧率、高延时容忍的声源定位问题的时候，当前的技术手段能够满足使用的需求。但是还存在较多的需要高帧率、低延迟的场景的需求无法满足。例如：运动中的大型物体的声源定位，风力叶片、火车、飞机、汽车等表面噪声定位和分析；机械结构动作时噪声的定位和分析等。

发明专利申请CN202110867470.8公开了数据处理方法，并具体公开了方法包括：获取视频数据以及与视频数据对应的音频数据；对视频数据中的每个视频帧进行视频元素识别，对音频数据进行音频元素分离，得到M个目标音频元素；根据每个视频帧的元素识别结果，在每个视频帧中对各个目标音频元素进行声源定位，得到各个目标音频元素在每个视频帧中的声源位置；将各个目标音频元素在每个视频帧中的声源位置映射到声音空间，得到各个目标音频元素的N个空间音频位置；基于各个目标音频元素的N个空间音频位置，音频数据以及视频数据，生成音视频数据。该发明虽然公开了利用在每个视频帧中对各个目标音频元素进行声源定位的方式来获得音视频数据，但并未说明利用该音视频数据进行声学成像，进而进行声源定位分析。

发明专利申请CN201910745460.X公开了音视频同步的方法，并具体公开了方法应用于音视频同步系统；所述音视频同步系统包括协转服务器；所述协转服务器虚拟出包括视联网模块、音视频同步模块以及实时传输模块的视联网虚拟终端；通过在音视频同步模块，比较音频编码时间戳和系统时间戳，以及视频编码时间戳和系统时间戳，视联网模块再根据比较结果，控制将音频裸流数据包和视频裸流数据包发送给实时传输模块的时机，实现音频视频在视联网传输过程中的同步，以使互联网终端不再出现观看到的画面慢于听到声音的延迟现象。该发明主要用于如何实现音视频同步输出，而非用于声学成像。

发明内容

本发明针对现有技术存在的问题，提出了一种简单的音视频同步实现方法，能利用单个硬件对采集到的音频信号和视频信号进行音视频同步信号构建，达到音视频实时同步的效果；还提供一种声学成像方法，基于前述方法获得的音视频同步信号，对高帧率视频帧进行延迟可控的声成像分析。

本发明提供一种音视频同步实现方法，包括：

基于实时采集到的音频信号和视频信号，生成与音频流同步生成的音视频同步信号；

其中，所述音视频同步信号按如下方式生成：在没有采集到视频信号时，将所述音视频同步信号的每个同步采样点信号设置为假信号；在采集到一个视频帧后，将该视频帧设置为编号X_i，同时将所述音视频同步信号的下一个同步采样点信号设置为编号X_i，i为自然数，i随视频帧被采集到的时序加1递增。

该方法用以构建虚拟的音视频同步信号，为声学成像方法实现而配置。主要利用单个硬件实施上述方法，该单个硬件可完成对音频数据、视频数据的采集，并实现音视频信号间的信号同步，最后将完成同步之后的信号进行输出，输出信号输入主控（CPU或其他计算平台）进行声成像处理。该发明无需构建复杂模型或网络，音视频同步构建简单。

作为优选，上述方法由FPGA芯片或ASIC芯片实现。

作为优选，所述音频信号有多路，通过麦克风阵列采集获得；每路音频信号同步采集。

作为优选，所述视频信号有1路，通过高帧率摄像头采集获得。

本发明还提供一种声学成像方法，在按照上述音视频同步实现方法生成音视频同步信号后进行，方法包括：

步骤S10，读取视频流中编号X_i的视频帧图像；

步骤S20，从所述音视频同步信号中检索获得编号X_i的同步采样点信号，并计算该音视频同步信号在音频数据中的时间戳；

步骤S30，从音频数据中读取对应时间戳的音频数据。

本发明声学成像方法简单，无需构建复杂模型或网络，就能基于虚拟构建的音视频同步信号和读取与视频帧图像相同编号的同步采样点信号，就能获得相关时间戳，之后基于时间戳读取所需音频数据，完成声学成像。该方法能适用低帧率和高帧率场景下的声源定位分析，尤其适用高帧率低延迟场景，能基于同步信号对高帧率视频帧进行延迟可控的高帧率声成像分析，避免出现高延迟场景下声音和视频不同步的情况发生。

作为优选，上述方法由控制芯片或控制平台实现。

作为优选，所述步骤S20中的时间戳按如下公式计算获得：时间戳=采样点数/采样率。

作为优选，所述步骤S30具体包括：

步骤S31，利用成像算法读取音频数据中任意长度的一段音频数据；

步骤S32，根据视频流与真实事件之间的延迟数据，从时间戳对应的采样点数据开始往前和往后读取音频数据。

作为优选，所述延迟数据可根据实际延迟情况设定。

作为优选，所述步骤S32中往前读取的音频数据与往后读取的音频数据存在重叠数据。

本发明具有以下有益效果：

本发明一种音视频同步实现方法及声学成像方法，用于声源定位分析，方法简单，能利用单个硬件实现音视频实时同步效果，并能对高帧率视频帧进行延迟可控的声成像分析。

附图说明

图1为本发明一种声学成像方法实现的硬件系统框架图；

图2为依据本发明一种音视频同步实现方法生成音视频同步信号的示意图；

图3为本发明一种声学成像方法的流程图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

本发明提供一种音视频同步实现方法，由单个硬件在其内部实现音视频同步信号构建。该硬件能异步实时采集音频信号、视频信号。本发明方法包括基于实时采集到的音频信号和视频信号，生成与音频流同步生成的音视频同步信号。具体地，所述音视频同步信号按如下方式生成：

在没有采集到视频信号时，将所述音视频同步信号的每个同步采样点信号设置为假信号；在采集到一个视频帧后，将该视频帧设置为编号X_i，同时将所述音视频同步信号的下一个同步采样点信号设置为编号X_i，i为自然数，i随视频帧被采集到的时序加1递增。

参照图2，图中示出了音频信号、音视频同步信号、视频信号。所述音频信号中的音频采样点按序为编号Y₁、Y₂、Y₃,…,Y_i，i为随音频信号被采集到的时序加1递增。以一个视频帧信号的同步信号构建为例，在没有采集到视频信号时，将所述音视频同步信号的同步采样点信号设置为假信号(即图2中的Dummy信号) ，其中Dummy信号与视频帧编码信号不能重叠；当采集到一个视频帧后，将其编号为X₁，同时将音视频同步信号的下一个同步采样点信号编号为X₁，其中编码X_i不能与Dummy信号相同。之后，重复上述示例过程，完成采集过程中的整个音视频同步信号的构建。图2中可以看到音视频同步信号的编号后续有X₂，X₃,…,X_i,视频帧的编号后续有与音频同步信号编号对应的X₂，X₃,…,X_i。

实现上述方法的硬件可以选择为FPGA芯片或ASIC芯片。该硬件需要完成对由音频采集器和图像采集器采集的数据的采集过程，并在其内部按照上述方法实现音视频同步。其中，生成的音视频同步信号的数据存储类型为音频数据类型，由视频帧信号控制生成。硬件设有N条音频采集通道，即音频信号有多路，连接音频采集器，如麦克风阵列；该硬件还设有1条视频采集通道，即视频信号有1路，连接图像采集器，如摄像头。其中，摄像头可以为低帧率或高帧率摄像头。当有多路音频时，则确保每路音频信号同步采集。之后，获得的音视频同步信号将由硬件输出给主控(例如控制芯片CPU或控制平台)，由主控进行声成像处理（参见图1）。

实施例二

本发明还提供一种声学成像方法，在上述实施例一的基础下实现。在进行本示例方法前，先根据实施例一构建生成音视频同步信号。该示例方法由控制芯片（如CPU）或控制平台（如计算机平台）实现。所述控制芯片或控制平台还接收采集端的视频和音频数据。具体地，如图3，方法包括：

步骤S10，读取视频流中编号X_i的视频帧图像；

步骤S30，从音频数据中读取对应时间戳的音频数据。

该方法能基于输入的音视频同步信号进行声成像处理。

所述步骤S20中的时间戳按如下公式计算获得：时间戳=采样点数/采样率。采样率是预先设置的，可以是一般常用的音频采样率，或96k、192kHz等覆盖超声频段的采样率。所述采样点数为检索到编号X_i的同步采样点信号的数据。

所述步骤S30具体包括：

所述成像算法可以实波束形成类算法，也可以是其他基于麦克风阵列信号的成像类算法。算法在进行成像运算的时候，需要获取N通道的同一时间段内的音频数据作为算法的输入数据进行分析。由于采用的算法不同，则将导致抽取的长度也是不同的，例如抽取10ms或20ms。

由于视频数据的采集和真实事件的发生之间可能也有延迟，所以可以通过在取数据的时候自定义延迟来修正此部分的延迟，以匹配视频流和真实事件之间的延迟。所述延迟数据可根据实际延迟情况设定，可以为实际硬件上的延迟，一般是ms级别。

在步骤S32读取过程中，可将时间戳对应的采样点数据作为分界点，往前和往后不带重叠数据的形式读取音频数据；或者，往前和往后带有部分重叠数据的形式读取音频数据。当成像处理的时候需要截取的数据长度可能超过目标成像帧率的周期时，则需要按照目标成像帧率进行抽取数据，则抽取的前后两组数据可能有一部分数据是相同的，简称重叠的。

实施例三

本发明还提供一种实现实施例二的硬件系统（声学成像系统）。如图1，该系统包括麦克风阵列、摄像头、FPGA芯片/ASIC芯片、主控。麦克风阵列用于采集音频数据、摄像头用于采集视频数据，之后各自将采集的数据送入FPGA芯片/ASIC芯片，FPGA芯片/ASIC芯片生成音视频同步信号输出给主控，主控完成声成像处理。其中，麦克风阵列的阵型、麦克风阵列阵元数量可以根据实际需求进行设计。所述FPGA芯片/ASIC芯片按照实施例一描述内容执行工作。所述主控按照实施二描述内容执行工作。

本发明可兼容低帧率和高帧率场景，尤其更适于解决现有技术中无法满足高帧率、低延迟场景需求的问题。当应用于高帧率、低延迟场景下时，摄像头选择高帧率摄像头，并根据视频流与真实事件之间的延迟数据，进行延迟可控的音频数据读取，以进行高帧率成像分析。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种声学成像方法，其特征在于，在由FPGA芯片或ASIC芯片构建生成音视频同步信号后进行，所述音视频同步信号构建过程如下：基于实时采集到的音频信号和视频信号，生成与音频流同步生成的音视频同步信号；

其中，所述音视频同步信号按如下方式生成：在没有采集到视频信号时，将所述音视频同步信号的每个同步采样点信号设置为假信号；在采集到一个视频帧后，将该视频帧设置为编号X_i，同时将所述音视频同步信号的下一个同步采样点信号设置为编号X_i，i为自然数，i随视频帧被采集到的时序加1递增；

所述方法基于输入的音视频同步信号进行声成像处理，方法包括：

步骤S10，读取视频流中编号X_i的视频帧图像；

步骤S30，从音频数据中读取对应时间戳的音频数据。

2.根据权利要求1所述的一种声学成像方法，其特征在于，上述方法由控制芯片或控制平台实现。

3.根据权利要求1所述的一种声学成像方法，其特征在于，所述步骤S20中的时间戳按如下公式计算获得：时间戳=采样点数/采样率。

4.根据权利要求1所述的一种声学成像方法，其特征在于，所述步骤S30具体包括：

5.根据权利要求4所述的一种声学成像方法，其特征在于，所述延迟数据可根据实际延迟情况设定。

6.根据权利要求4所述的一种声学成像方法，其特征在于，所述步骤S32中往前读取的音频数据与往后读取的音频数据存在重叠数据。

7.根据权利要求1所述的一种声学成像方法，其特征在于，采集的音频信号有多路，通过麦克风阵列采集获得；每路音频信号同步采集；采集的视频信号有1路，通过高帧率摄像头采集获得。