CN112929606A - 音视频采集方法、装置和存储介质 - Google Patents

音视频采集方法、装置和存储介质 Download PDF

Info

Publication number
CN112929606A
CN112929606A CN202110127325.6A CN202110127325A CN112929606A CN 112929606 A CN112929606 A CN 112929606A CN 202110127325 A CN202110127325 A CN 202110127325A CN 112929606 A CN112929606 A CN 112929606A
Authority
CN
China
Prior art keywords
module
video
audio
audio information
video image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110127325.6A
Other languages
English (en)
Inventor
彭京龙
金鑫
仇波
李俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shibang Communication Co Ltd
Original Assignee
Shibang Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shibang Communication Co Ltd filed Critical Shibang Communication Co Ltd
Priority to CN202110127325.6A priority Critical patent/CN112929606A/zh
Publication of CN112929606A publication Critical patent/CN112929606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

本发明公开了一种音视频采集方法、装置和存储介质。获取视频监控模块中的视频监控数据;根据视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与视频图像对应的音频信息;将确定的音频信息与视频图像融合,获取融合后的音视频信息。本发明方案能够排除环境噪音对音视频采集的干扰,从远端无线麦克风模块采集的音频信息或近端麦克风阵列模块采集的音频信息中获取与视频画面最适应的音频信息,保证远距离视频画面也具有良好的音质,同时通过无线麦克风模块和麦克风阵列模块实现立体环绕音质,为用户提供良好的音视频效果。

Description

音视频采集方法、装置和存储介质
技术领域
本发明涉及音视频采集技术领域,尤其涉及一种音视频采集方法、装置和存储介质。
背景技术
目前,市面上进行音视频采集主要有以下三种模式:
模式一:视频监控与音频监控单一对应,即音频采集设备将模拟音频信号通过音频线缆传输到相应视频采集设备中,与视频集成在一起。
模式二:独立的视频监控,没有音频。
模式三:独立的音频监控,没有视频。
这三种模式中,模式二和模式三的采集设备由于监控形式单一,监控效果差,因此市场接受度不高。而模式一的市面采集设备进行音视频同步监控,虽然满足了用户听觉和视觉上的直观体验感,但由于声音传播受空间距离影响很大,环境影响和声音间的相互干扰,导致音频采集与视频采集在物理层面上存在技术差异和明显区别,音频的监控效果远远落后于视频的监控效果,因此,如何加强音频监控的音质效果、从而满足市场需求成为了现行业发展的瓶颈。
发明内容
为解决相关技术问题,本发明实施例提供一种音视频采集方法、装置和存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种音视频采集方法,应用于音视频采集装置,所述音视频采集装置包括摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值,所述方法包括:
获取视频监控模块中的视频监控数据;其中,所述视频监控数据包括视频监控焦距、视频监控方向和视频监控距离;
根据所述视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;
根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息;
将确定的音频信息与所述视频图像融合,获取融合后的音视频信息。
上述方案中,所述根据所述视频监控数据,控制摄像头模块对应采集视频图像,包括:
根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度;
利用调整后的摄像头模块采集视频图像。
上述方案中,当所述摄像头模块为多个时,所述根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度,包括:
利用如下公式确定每个摄像头模块拍摄时的焦距、方向和角度:
Figure BDA0002923917630000031
Figure BDA0002923917630000032
其中,ti表示第i个摄像头模块的焦距,fi表示第i个摄像头模块拍摄的方向角,li表示第i个摄像头模块变焦拍摄时的角度变化量,I表示所有摄像头模块的集合,σ表示变焦参数,|d|表示所有变焦参数的量化特征集合值。
上述方案中,所述根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息,包括:
获取无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息;
从所述无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息中获取多个与所述视频图像拍摄时刻一一对应的音频信息;
根据所述视频图像,确定与所述视频图像最接近的麦克风模块;
从多个与所述视频图像拍摄时刻一一对应的音频信息中获取与所述最接近的麦克风模块对应的音频信息;
将获取的与所述最接近的麦克风模块对应的音频信息确定为与所述视频图像对应的音频信息。
上述方案中,当所述无线麦克风模块为多个,所述获取无线麦克风模块采集的音频信息,包括:
确定每个无线麦克风模块的位置;
根据每个无线麦克风模块的位置确定每个无线麦克风模块的拾音角度和拾音距离;
按照确定的拾音角度和拾音距离采集音频信息。
上述方案中,所述获取麦克风阵列模块采集的音频信息,包括:
获取所述视频图像拍摄时的焦距;
根据所述焦距确定麦克风阵列的音频束波指向与拾音距离;
根据所述音频束波指向与拾音距离调整所述麦克风阵列模块;
利用调整后的麦克风阵列模块采集音频信息。
上述方案中,所述根据所述视频图像,确定与所述视频图像最接近的麦克风模块,包括:
根据所述视频图像确定与所述视频图像对应的拾音区域;
获取所述拾音区域内分布的无线麦克风模块,
计算拾音区域内分布的每个无线麦克风模块的拾音效果数值;
根据所述拾音效果数值确定最接近的麦克风模块。
上述方案中,所述将确定的音频信息与所述视频图像融合,获取融合后的音视频信息,包括:
将每帧视频图像与所述视频图像确定的音频信息进行融合,获取每帧音视频信息;
将每帧音视频信息按照时间顺序组合,获得融合后的音视频信息。
本发明实施例还提供了一种音视频采集装置,包括:
摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值;所述音视频采集装置还包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器在运行所述计算机程序时,执行上述任一方法的步骤。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一方法的步骤。
本发明实施例提供的音视频采集方法、装置和存储介质,应用于音视频采集装置,所述音视频采集装置包括摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值,获取视频监控模块中的视频监控数据;其中,所述视频监控数据包括视频监控焦距、视频监控方向和视频监控距离;根据所述视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息;将确定的音频信息与所述视频图像融合,获取融合后的音视频信息。本发明实施例的方案能够排除环境噪音对音视频采集的干扰,从远端的无线麦克风模块采集的音频信息或近端的麦克风阵列模块采集的音频信息中获取与视频画面最适应的音频信息,保证远距离的视频画面也具有良好的音质,同时,通过无线麦克风模块和麦克风阵列模块实现立体环绕音质,为用户提供良好的音视频效果。
附图说明
图1为本发明实施例音视频采集方法的流程示意图;
图2为本发明应用实施例模块框架示意图;
图3为本发明实施例音视频采集效果示意图;
图4为本发明实施例电子设备硬件结构示意图。
具体实施方式
下面将结合附图及实施例对本发明作进一步详细的描述。
音视频采集通常是单点采集。在实际采集音视频时,视频监控画面体现的现场环境是平面的,但是实际的视频监控现场环境所包含的音频则是空间立体的。在立体环境中,每个环境区域中的语音、噪音、反射、混响均不一样,所以用目前音频技术单点音频采集是无法还原较大环境细节音频,并会导致“看得见看得清却听不清甚至听不见”的窘迫局面。因此,受声学环境影响,音视频采集会存在很多不确定性和复杂性。对于一些远距离和噪音较大的环境,麦克风采集音频会受到较大的影响。
基于此,本申请采用以麦克风阵列和摄像头为中心,若干无线麦克风分布采集为辐射区的音视频综合设备系统,从音频采集、处理和无线传输等方面结合视频视角、焦距综合设计,使监控现场音频结构化区域化,配合视频监控视频变焦、视角区域放大技术,不仅能使监控现场音视频更为精细化对应,同时也可以大幅提升音频监控清晰度。由于本方案不再是单点音频采集,而是一套音频多方位立体采集和处理系统,麦克风阵列可实现音频束波指向与拾音距离的调控,束波指向与拾音器距离与视频焦距对接配合,可实现音频焦距适应跟随,所以在一定空间距离视频焦距调整变化中,音频麦克风阵列技术是可以实现音频的空间采集区域变化,从而可以排除干扰音频更好对应视频,提升音频监控质量。
本发明实施例提供了一种音视频采集方法,应用于音视频采集装置,所述音视频采集装置包括摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值,如图1所示,该方法包括:
步骤101:获取视频监控模块中的视频监控数据;其中,所述视频监控数据包括视频监控焦距、视频监控方向和视频监控距离;
步骤102:根据所述视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;
步骤103:根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息;
步骤104:将确定的音频信息与所述视频图像融合,获取融合后的音视频信息。
本申请包括摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块。其中,麦克风阵列模块可以设置于摄像头模块的近端,距离摄像头模块在预设数值以内。例如,可以将麦克风阵列模块与摄像头模块整合成一个模块,或整合成一个实体装置。当然实际使用时,预设数值可以根据用户的需求进行设定,所设数值在合理范围即可。无线麦克风模块可以设置于摄像头模块的远端,距离摄像头模块在预设数值以外,当然,实际应用时,用户可以根据自己的监控需求,将无线麦克风模块设置在任意位置。无线麦克风模块需与摄像头模块间隔较远距离,不能整合成一个实体装置,同时,无线麦克风模块可以为多个,可以设置于多个不同的位置,如此实现全方位的音频采集。
实际应用时,视频监控数据可以根据用户的监控需求确定。例如,当用户想要监控5米外的视频图像时,所对应的视频监控数据可以包括摄像头能清楚拍摄5米外的视频图像时所对应的焦距,用户想要拍摄的方向(例如北偏西30度),用户想要拍摄的角度(在高度0.5米向上偏20度),用户想要拍摄的图片的分辨率等。
在一实施例中,所述根据所述视频监控数据,控制摄像头模块对应采集视频图像,包括:
根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度;
利用调整后的摄像头模块采集视频图像。
实际应用时,所述摄像头模块可以为一个或多个。当所述摄像头模块为一个时,根据所述视频监控数据调整这一个摄像头模块拍摄时的焦距、方向和角度;利用调整后的摄像头模块采集视频图像。
当摄像头模块为多个时,为了获取最清楚,最全面的视频图片,更好地实现监控效果,可以分配每个摄像头模块的拍摄焦距、方向和角度,使得每个摄像头模块根据分配的拍摄焦距、方向和角度进行拍摄时,能全方位的拍摄用户想要监控的区域,避免出现监控死角,提高监控的准确性和全面性。
在一实施例中,当所述摄像头模块为多个时,所述根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度,包括:
利用如下公式确定每个摄像头模块拍摄时的焦距、方向和角度:
Figure BDA0002923917630000091
其中,ti表示第i个摄像头模块的焦距,fi表示第i个摄像头模块拍摄的方向角,li表示第i个摄像头模块变焦拍摄时的角度变化量,I表示所有摄像头模块的集合,σ表示变焦参数,|d|表示所有变焦参数的量化特征集合值。
在获取监控图像时,为了实现视觉和听觉的完美结合,还需实时获取对应的音频数据。
由于对于有些用户来说,并不需要进行实时监控,即并不需要获取实时的监控数据,只需将监控数据预先进行存储,用于后续调取查看。因此,为了简化处理过程,降低处理器的压力,可以采用控制无线麦克风模块和麦克风阵列模块先采集一连续时间段的音频数据,再对一连续时间段的音频数据进行处理,将一连续时间段的音频数据与一连续时间段的视频画面进行融合,获得一连续时间段的处理后的音视频数据。这种处理方式,相比实时采集每个时刻的音频数据,再对每个时刻的音频数据进行处理,将每个时刻的音频数据与每个时刻的视频画面进行融合,获得每个时刻处理后的音视频数据的方式,能有效减少处理量。
对于一连续时间段的音频数据,在根据采集的视频图像,从无线麦克风模块采集的一连续时间段的音频信息或麦克风阵列模块采集的一连续时间段的音频信息中,确定与所述视频图像对应的音频信息时,可以通过以下方式确定:
在一实施例中,所述根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息,包括:
获取无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息;
从所述无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息中获取多个与所述视频图像拍摄时刻一一对应的音频信息;
根据所述视频图像,确定与所述视频图像最接近的麦克风模块;
从多个与所述视频图像拍摄时刻一一对应的音频信息中获取与所述最接近的麦克风模块对应的音频信息;
将获取的与所述最接近的麦克风模块对应的音频信息确定为与所述视频图像对应的音频信息。
实际应用时,可以控制音视频采集装置中的所有麦克风阵列模块和无线麦克风模块都同时采集音频信息,也可以控制麦克风阵列模块和无线麦克风模块中的部分模块采集音频信息。具体可以根据实际需要或者预先设定确定麦克风阵列模块和无线麦克风模块中的哪些模块来采集音频信息。仅控制部分模块采集音频信息可以节约能耗,降低处理量。
在一实施例中,当所述无线麦克风模块为多个,所述获取无线麦克风模块采集的音频信息,包括:
确定每个无线麦克风模块的位置;
根据每个无线麦克风模块的位置确定每个无线麦克风模块的拾音角度和拾音距离;
按照确定的拾音角度和拾音距离采集音频信息。
实际应用时,每个无线麦克风模块的位置可以包括每个无线麦克风模块的坐标,每个无线麦克风模块与其他无线麦克风模块的相对距离,每个无线麦克风模块与其他物体的距离。
具体地,定每个无线麦克风模块的拾音角度和拾音距离可以通过模型确定。例如神经网络模型。
在一实施例中,所述获取麦克风阵列模块采集的音频信息,包括:
获取所述视频图像拍摄时的焦距;
根据所述焦距确定麦克风阵列的音频束波指向与拾音距离;
根据所述音频束波指向与拾音距离调整所述麦克风阵列模块;
利用调整后的麦克风阵列模块采集音频信息。
实际应用时,由于麦克风阵列模块位于摄像头模块的近端,因此,在获取麦克风阵列模块采集的音频信息,可以根据摄像头拍摄焦距确定音频束波指向与拾音距离,如此使得麦克风阵列模块在拾取音频信息时,可以与摄像头模块的同步,实现更好的监控效果。
在一实施例中,所述根据所述视频图像,确定与所述视频图像最接近的麦克风模块,包括:
根据所述视频图像确定与所述视频图像对应的拾音区域;
获取所述拾音区域内分布的无线麦克风模块,
计算拾音区域内分布的每个无线麦克风模块的拾音效果数值;
根据所述拾音效果数值确定最接近的麦克风模块。
实际应用时,可以根据用户想要监控的监控区域确定距离监控区域距离最近或者拾音效果最好的麦克风模块。例如,当用户想要监控摄像头模块周围0.5米以内区域时,就可以将麦克风阵列模块确定为最接近的麦克风模块,当用户想要监控10米以外篮球场角落附近区域时,就可以利用相关算法,确定每个无线麦克风模块的拾音效果数值;根据每个无线麦克风模块的拾音效果数值,确定拾音效果数值最高的麦克风模块为最接近的麦克风模块。
在一实施例中,所述将确定的音频信息与所述视频图像融合,获取融合后的音视频信息,包括:
将每帧视频图像与所述视频图像确定的音频信息进行融合,获取每帧音视频信息;
将每帧音视频信息按照时间顺序组合,获得融合后的音视频信息。
实际应用时,可以采用多个技术将视频图像与音频信息进行融合。融合时可以调节音量、音色、音频等,以实现更好的音视频效果。
本发明实施例提供的音视频采集方法、装置和存储介质,应用于音视频采集装置,所述音视频采集装置包括摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值,获取视频监控模块中的视频监控数据;其中,所述视频监控数据包括视频监控焦距、视频监控方向和视频监控距离;根据所述视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息;将确定的音频信息与所述视频图像融合,获取融合后的音视频信息。本发明实施例的方案能够排除环境噪音对音视频采集的干扰,从远端的无线麦克风模块采集的音频信息或近端的麦克风阵列模块采集的音频信息中获取与视频画面最适应的音频信息,保证远距离的视频画面也具有良好的音质,同时,通过无线麦克风模块和麦克风阵列模块实现立体环绕音质,为用户提供良好的音视频效果。
下面结合应用实施例对本发明再作进一步详细的描述。
本应用实施例提供了一种在同种复杂环境下由若干无线麦克风分布采集时提高音频监控音质效果的方案,可以尽量避开噪音源,并最大限度接近被监听声源,使得无线麦克风分布在监控环境中,并同时与监控画面结合,在视频监控焦距远距离调节或视频监控区域放大时,有机地与相对应的无线麦克风同步实时音视频监控或回放,区域结构化音频,保证了音频的质量。
参见图2,本应用实施例中的多维音视频采集系统包含摄像头模块、视频监控模块、无线麦克风阵列模块、多维传感器和无线接收模块。其中,视频监控模块根据用户需求确定摄像头模块拍摄的相关参数,并通过联动协议将相关指令发送给摄像头模块,以使得摄像头模块根据相关指令进行拍摄。另外,无线麦克风阵列模块通过无线接收模块接收相关指令,并根据相关指令控制多维传感器进行监控采集。
另外,参见图3,本应用实施例中的各个模块可以如图3所示进行设置。例如,集合摄像头模块、无线麦克风阵列模块(也称为麦克风阵列模块)、多维传感器和无线接收模块(也称为无线音频接收模块)的多维音视频采集装置放置于监控现象的某一区域中,用于监控该装置周边范围的监控情况。另外还配置N个无线麦克风,N个无线麦克风可均匀分散放置于多维音视频采集装置监控区域以外的其他监控区域,用于监控其他区域的监控情况,其中,N个无线麦克风所监控区域的集合为无线麦克风采集范围。
本应用实施例包含麦克风阵列模块、摄像头模块、若干无线麦克风、音频分布采集辐射区等组成的音视频综合设备系统,支持音频多方位立体采集和处理系统,麦克风阵列可实现音频束波指向与拾音距离的调控,束波指向与拾音器距离与视频焦距对接配合,可实现音频焦距适应跟随,在一定空间距离视频焦距调整变化中,音频麦克风阵列技术可以实现音频的空间采集区域变化,从而可以排除干扰音频更好对应视频,提升音频监控质量。
本应用实施例主要通过联动麦克风阵列、摄像头模组、摄像头焦距控制等实现多个无线音频采集、同步拾音距离及拾音夹角的变化,联动单个或多个无线麦克风实现音频数据自动采集、联动麦克风阵列实现拾音距离及拾音夹角变化,经控制协议实现局部选取或放大视频数据采集等,从而使此系统中能自动获取到多维度音视频数据,以补充现市场应用需求技术的不足,大大提升了产品的应用价值。
具体地,本应用实施例包括如下三个方面:
1)摄像机镜头焦距调整功能,实现监控画面的远近、过程视觉比例大小应用范围变化体验感。
在这一部分,摄像头焦距调整,同时通过控制协议,执行麦克风阵列音频处理算法(即调整拾音距离及指向拾音夹角)。
2)麦克风阵列通过音频处理算法和内部控制协议,配合摄像头焦距调整拾音距离和指向拾音夹角即可采集到合适的音频数据。
在这一部分,摄像头焦距调整,同时通过控制协议,控制调整音频算法参数值。
3)预先设置无线麦克风在画面的区域以及启用时条件(画面放大倍数或选中区域大小),视频监控画面局部区域选取放大时便可以启用相应无线麦克采集的音频数据。
在这一部分,视频监控画面局部区域选取放大,同时通过控制协议,执行麦克风阵列音频处理算法(即调整拾音距离及指向拾音夹角),再通过另外的控制协议,控制调整音频算法参数值。
由于实际应用中的环境是多变的,声学环境也是不确定和复杂的,一些远距离和噪音较大的环境中,麦克风阵列采集音频会受到较大的影响,因此,本应用实施例采用若干无线麦克风在这种环境里分布采集,可以尽量避开噪音源和最大限度接近被监听声源,保障音频监控音质效果。同时无线麦克风分布在监控环境中,并同时与监控画面结合,在视频监控焦距远距离调节或视频监控区域放大时,有机地与相对应的无线麦克风同步实时音视频监控或回放,区域结构化音频保证了音频的质量。
本应用实施例从音频采集、处理和无线传输结合视频视角、焦距综合设计,使监控现场音频结构化区域化,配合现有的视频监控视频变焦、视角区域放大技术,不仅能使监控现场音视频更为精细化对应,同时也可以大幅提升音频监控清晰度,改变了原来的单点音频采集问题。即本应用实施例解决了单点音频采集问题,实现了音频多方位立体采集、音频/视频焦距适应跟随、音频束波指向、拾音距离的调控等,改善了干扰音频排除、视频对应技术优化,从而提升音频监控质量。
为了实现本发明实施例的方法,本发明实施例还提供了一种音视频采集装置,音视频采集装置包括:摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值;所述音视频采集装置还包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器在运行所述计算机程序时,执行如下步骤:
获取视频监控模块中的视频监控数据;其中,所述视频监控数据包括视频监控焦距、视频监控方向和视频监控距离;
根据所述视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;
根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息;
将确定的音频信息与所述视频图像融合,获取融合后的音视频信息。
在一实施例中,所述根据所述视频监控数据,控制摄像头模块对应采集视频图像,包括:
根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度;
利用调整后的摄像头模块采集视频图像。
在一实施例中,当所述摄像头模块为多个时,所述根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度,包括:
利用如下公式确定每个摄像头模块拍摄时的焦距、方向和角度:
Figure BDA0002923917630000181
Figure BDA0002923917630000182
其中,ti表示第i个摄像头模块的焦距,fi表示第i个摄像头模块拍摄的方向角,li表示第i个摄像头模块变焦拍摄时的角度变化量,I表示所有摄像头模块的集合,σ表示变焦参数,|d|表示所有变焦参数的量化特征集合值。
在一实施例中,所述根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息,包括:
获取无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息;
从所述无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息中获取多个与所述视频图像拍摄时刻一一对应的音频信息;
根据所述视频图像,确定与所述视频图像最接近的麦克风模块;
从多个与所述视频图像拍摄时刻一一对应的音频信息中获取与所述最接近的麦克风模块对应的音频信息;
将获取的与所述最接近的麦克风模块对应的音频信息确定为与所述视频图像对应的音频信息。
在一实施例中,当所述无线麦克风模块为多个,所述获取无线麦克风模块采集的音频信息,包括:
确定每个无线麦克风模块的位置;
根据每个无线麦克风模块的位置确定每个无线麦克风模块的拾音角度和拾音距离;
按照确定的拾音角度和拾音距离采集音频信息。
在一实施例中,所述获取麦克风阵列模块采集的音频信息,包括:
获取所述视频图像拍摄时的焦距;
根据所述焦距确定麦克风阵列的音频束波指向与拾音距离;
根据所述音频束波指向与拾音距离调整所述麦克风阵列模块;
利用调整后的麦克风阵列模块采集音频信息。
在一实施例中,所述根据所述视频图像,确定与所述视频图像最接近的麦克风模块,包括:
根据所述视频图像确定与所述视频图像对应的拾音区域;
获取所述拾音区域内分布的无线麦克风模块,
计算拾音区域内分布的每个无线麦克风模块的拾音效果数值;
根据所述拾音效果数值确定最接近的麦克风模块。
在一实施例中,所述将确定的音频信息与所述视频图像融合,获取融合后的音视频信息,包括:
将每帧视频图像与所述视频图像确定的音频信息进行融合,获取每帧音视频信息;
将每帧音视频信息按照时间顺序组合,获得融合后的音视频信息。
需要说明的是:上述实施例提供的音视频采集装置在执行相关操作时,仅以上述各程序模块的划分进行举例说明,实际应用时,可以根据需要而将上述处理分配由不同的程序模块完成,即将终端的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的音视频采集装置与音视频采集方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备,如图4所示,所述电子设备400包括:
通信接口401,能够与其他设备(比如网络设备、终端等)进行信息交互;
处理器402,与所述通信接口401连接,以实现与其他设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的方法;
存储器403,用于存储能够在所述处理器402上运行的计算机程序。
具体地,所述处理器402用于执行以下操作:
获取视频监控模块中的视频监控数据;其中,所述视频监控数据包括视频监控焦距、视频监控方向和视频监控距离;
根据所述视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;
根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息;
将确定的音频信息与所述视频图像融合,获取融合后的音视频信息。
在一实施例中,所述处理器402,还用于执行以下操作:
根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度;
利用调整后的摄像头模块采集视频图像。
在一实施例中,所述处理器402,还用于执行以下操作:
当所述摄像头模块为多个时,所述根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度,包括:
利用如下公式确定每个摄像头模块拍摄时的焦距、方向和角度:
Figure BDA0002923917630000221
Figure BDA0002923917630000222
其中,ti表示第i个摄像头模块的焦距,fi表示第i个摄像头模块拍摄的方向角,li表示第i个摄像头模块变焦拍摄时的角度变化量,I表示所有摄像头模块的集合,σ表示变焦参数,|d|表示所有变焦参数的量化特征集合值。
在一实施例中,所述处理器402,还用于执行以下操作:
获取无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息;
从所述无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息中获取多个与所述视频图像拍摄时刻一一对应的音频信息;
根据所述视频图像,确定与所述视频图像最接近的麦克风模块;
从多个与所述视频图像拍摄时刻一一对应的音频信息中获取与所述最接近的麦克风模块对应的音频信息;
将获取的与所述最接近的麦克风模块对应的音频信息确定为与所述视频图像对应的音频信息。
在一实施例中,所述处理器402,还用于执行以下操作:
确定每个无线麦克风模块的位置;
根据每个无线麦克风模块的位置确定每个无线麦克风模块的拾音角度和拾音距离;
按照确定的拾音角度和拾音距离采集音频信息。
在一实施例中,所述处理器402,还用于执行以下操作:
获取所述视频图像拍摄时的焦距;
根据所述焦距确定麦克风阵列的音频束波指向与拾音距离;
根据所述音频束波指向与拾音距离调整所述麦克风阵列模块;
利用调整后的麦克风阵列模块采集音频信息。
在一实施例中,所述处理器402,还用于执行以下操作:
根据所述视频图像确定与所述视频图像对应的拾音区域;
获取所述拾音区域内分布的无线麦克风模块,
计算拾音区域内分布的每个无线麦克风模块的拾音效果数值;
根据所述拾音效果数值确定最接近的麦克风模块。
在一实施例中,所述处理器402,还用于执行以下操作:
将每帧视频图像与所述视频图像确定的音频信息进行融合,获取每帧音视频信息;
将每帧音视频信息按照时间顺序组合,获得融合后的音视频信息。
需要说明的是:所述处理器402具体执行上述操作的过程详见方法实施例,这里不再赘述。
当然,实际应用时,电子设备400中的各个组件通过总线系统404耦合在一起。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统404。
本发明实施例中的存储器403用于存储各种类型的数据以支持电子设备400的操作。这些数据的示例包括:用于在电子设备400上操作的任何计算机程序。
上述本发明实施例揭示的方法可以应用于处理器402中,或者由处理器402实现。处理器402可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器402可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器402可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器403,处理器402读取存储器403中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,本发明实施例的存储器403可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器403,上述计算机程序可由电子设备400的处理器402执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种音视频采集方法,其特征在于,应用于音视频采集装置,所述音视频采集装置包括摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值,所述方法包括:
获取视频监控模块中的视频监控数据;其中,所述视频监控数据包括视频监控焦距、视频监控方向和视频监控距离;
根据所述视频监控数据,控制摄像头模块对应采集视频图像,获取摄像头模块采集的视频图像;
根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息;
将确定的音频信息与所述视频图像融合,获取融合后的音视频信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述视频监控数据,控制摄像头模块对应采集视频图像,包括:
根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度;
利用调整后的摄像头模块采集视频图像。
3.根据权利要求2所述的方法,其特征在于,当所述摄像头模块为多个时,所述根据所述视频监控数据调整摄像头模块拍摄时的焦距、方向和角度,包括:
利用如下公式确定每个摄像头模块拍摄时的焦距、方向和角度:
Figure FDA0002923917620000021
Figure FDA0002923917620000022
其中,ti表示第i个摄像头模块的焦距,fi表示第i个摄像头模块拍摄的方向角,li表示第i个摄像头模块变焦拍摄时的角度变化量,I表示所有摄像头模块的集合,σ表示变焦参数,|d|表示所有变焦参数的量化特征集合值。
4.根据权利要求1所述的方法,其特征在于,所述根据采集的视频图像,从无线麦克风模块采集的音频信息或麦克风阵列模块采集的音频信息中,确定与所述视频图像对应的音频信息,包括:
获取无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息;
从所述无线麦克风模块采集的音频信息和麦克风阵列模块采集的音频信息中获取多个与所述视频图像拍摄时刻一一对应的音频信息;
根据所述视频图像,确定与所述视频图像最接近的麦克风模块;
从多个与所述视频图像拍摄时刻一一对应的音频信息中获取与所述最接近的麦克风模块对应的音频信息;
将获取的与所述最接近的麦克风模块对应的音频信息确定为与所述视频图像对应的音频信息。
5.根据权利要求4所述的方法,其特征在于,当所述无线麦克风模块为多个,所述获取无线麦克风模块采集的音频信息,包括:
确定每个无线麦克风模块的位置;
根据每个无线麦克风模块的位置确定每个无线麦克风模块的拾音角度和拾音距离;
按照确定的拾音角度和拾音距离采集音频信息。
6.根据权利要求4所述的方法,其特征在于,所述获取麦克风阵列模块采集的音频信息,包括:
获取所述视频图像拍摄时的焦距;
根据所述焦距确定麦克风阵列的音频束波指向与拾音距离;
根据所述音频束波指向与拾音距离调整所述麦克风阵列模块;
利用调整后的麦克风阵列模块采集音频信息。
7.根据权利要求4所述的方法,其特征在于,所述根据所述视频图像,确定与所述视频图像最接近的麦克风模块,包括:
根据所述视频图像确定与所述视频图像对应的拾音区域;
获取所述拾音区域内分布的无线麦克风模块,
计算拾音区域内分布的每个无线麦克风模块的拾音效果数值;
根据所述拾音效果数值确定最接近的麦克风模块。
8.根据权利要求1所述的方法,其特征在于,所述将确定的音频信息与所述视频图像融合,获取融合后的音视频信息,包括:
将每帧视频图像与所述视频图像确定的音频信息进行融合,获取每帧音视频信息;
将每帧音视频信息按照时间顺序组合,获得融合后的音视频信息。
9.一种音视频采集装置,其特征在于,所述音视频采集装置包括摄像头模块、视频监控模块、麦克风阵列模块和无线麦克风模块,其中,所述麦克风阵列模块与所述摄像头模块的距离小于预设数值,所述无线麦克风模块与所述摄像头模块的距离大于预设数值;所述音视频采集装置还包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器在运行所述计算机程序时,执行权利要求1至8中任意一项所述方法的步骤。
10.一种存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至8中任意一项所述方法的步骤。
CN202110127325.6A 2021-01-29 2021-01-29 音视频采集方法、装置和存储介质 Pending CN112929606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110127325.6A CN112929606A (zh) 2021-01-29 2021-01-29 音视频采集方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127325.6A CN112929606A (zh) 2021-01-29 2021-01-29 音视频采集方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN112929606A true CN112929606A (zh) 2021-06-08

Family

ID=76169131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110127325.6A Pending CN112929606A (zh) 2021-01-29 2021-01-29 音视频采集方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112929606A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101478711A (zh) * 2008-12-29 2009-07-08 北京中星微电子有限公司 控制麦克风录音的方法、数字化音频信号处理方法及装置
CN106028227A (zh) * 2016-07-08 2016-10-12 乐鑫信息科技(上海)有限公司 分布式麦克风阵列及其适用的声源定位系统
US20170364752A1 (en) * 2016-06-17 2017-12-21 Dolby Laboratories Licensing Corporation Sound and video object tracking
CN108616790A (zh) * 2018-04-24 2018-10-02 京东方科技集团股份有限公司 一种拾音放音电路和系统、拾音放音切换方法
CN109862316A (zh) * 2019-01-29 2019-06-07 安徽理工大学 一种基于图像分析技术的自动监听方法装置
US10447970B1 (en) * 2018-11-26 2019-10-15 Polycom, Inc. Stereoscopic audio to visual sound stage matching in a teleconference
CN111225173A (zh) * 2020-02-20 2020-06-02 深圳市昊一源科技有限公司 音视频传输装置及音视频传输系统
CN111916094A (zh) * 2020-07-10 2020-11-10 瑞声新能源发展(常州)有限公司科教城分公司 音频信号处理方法、装置、设备及可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101478711A (zh) * 2008-12-29 2009-07-08 北京中星微电子有限公司 控制麦克风录音的方法、数字化音频信号处理方法及装置
US20170364752A1 (en) * 2016-06-17 2017-12-21 Dolby Laboratories Licensing Corporation Sound and video object tracking
CN106028227A (zh) * 2016-07-08 2016-10-12 乐鑫信息科技(上海)有限公司 分布式麦克风阵列及其适用的声源定位系统
CN108616790A (zh) * 2018-04-24 2018-10-02 京东方科技集团股份有限公司 一种拾音放音电路和系统、拾音放音切换方法
US10447970B1 (en) * 2018-11-26 2019-10-15 Polycom, Inc. Stereoscopic audio to visual sound stage matching in a teleconference
CN109862316A (zh) * 2019-01-29 2019-06-07 安徽理工大学 一种基于图像分析技术的自动监听方法装置
CN111225173A (zh) * 2020-02-20 2020-06-02 深圳市昊一源科技有限公司 音视频传输装置及音视频传输系统
CN111916094A (zh) * 2020-07-10 2020-11-10 瑞声新能源发展(常州)有限公司科教城分公司 音频信号处理方法、装置、设备及可读介质

Similar Documents

Publication Publication Date Title
US20240129636A1 (en) Apparatus and methods for image encoding using spatially weighted encoding quality parameters
CN112165590B (zh) 视频的录制实现方法、装置及电子设备
CN104349056A (zh) 图像处理设备、图像处理方法和程序
CN107111864A (zh) 用于平滑视图切换和缩放的计算性多相机调整
CN104702826A (zh) 摄像设备及其控制方法
CN111251307B (zh) 应用于机器人的语音采集方法和装置、一种机器人
CN104378635B (zh) 基于麦克风阵列辅助的视频感兴趣区域的编码方法
CN111163281A (zh) 一种基于语音跟踪的全景视频录制方法及装置
JP7428763B2 (ja) 情報取得システム
WO2022262839A1 (zh) 现场演出的立体显示方法、装置、介质及系统
CN105245811A (zh) 一种录像方法及装置
CN106998517A (zh) 电子装置以及音频重新聚焦的方法
US10447969B2 (en) Image processing device, image processing method, and picture transmission and reception system
CN112839165B (zh) 人脸跟踪摄像的实现方法、装置、计算机设备和存储介质
CN112929606A (zh) 音视频采集方法、装置和存储介质
US11902754B2 (en) Audio processing method, apparatus, electronic device and storage medium
CN103685894A (zh) 一种比例可调摄像头
CN104780341A (zh) 一种信息处理方法以及信息处理装置
JP7366594B2 (ja) 情報処理装置とその制御方法
CN108184078A (zh) 一种视频处理系统及其方法
CN112804455A (zh) 远程交互方法、装置、视频设备和计算机可读存储介质
CN112565720A (zh) 一种基于全息技术的3d投影系统
CN111246345A (zh) 一种远程声场实时虚拟重现的方法与装置
CN115134499B (zh) 一种音视频监控方法及系统
CN109756683B (zh) 全景音视频录制方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608

RJ01 Rejection of invention patent application after publication