CN105611478B

CN105611478B - 一种实时定位录音装置及方法

Info

Publication number: CN105611478B
Application number: CN201610143952.8A
Authority: CN
Inventors: 张远明; 陈国清
Original assignee: Inter World Science And Technology Development (shenzhen) Co Ltd
Current assignee: Shenzhen Internet World Information Technology Co ltd
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2019-04-23
Anticipated expiration: 2036-03-14
Also published as: CN105611478A

Abstract

本发明公开了一种实时定位录音装置及方法，包括拾音器矩阵、摄像头、摄像头焦点定位及音频处理模块、多媒体文件模块和网络发送模块；摄像头焦点定位及音频处理模块包括摄像头定位分析模块、拾音器音频过滤模块和音频处理模块；拾音器矩阵包括若干拾音器，摄像头开始工作后，由摄像头定位分析模块确定其落在拾音器矩阵上的焦点，拾音器矩阵根据该焦点发送音频信息至拾音器音频过滤模块和音频处理模块，音频处理模块将处理后的音频文件分别发送至多媒体文件模块和网络发送模块。本发明设计一套分布式拾音阵列根据摄像头焦点定位实时拾音合成装置，根据摄像头的焦点落在空间的位置来实时确定拾音器阵列采集到的声音合成，并实时关联到视频信号中。

Description

一种实时定位录音装置及方法

技术领域

本发明涉及声源定位采集技术领域，特别是指一种实时定位录音装置及方法。

背景技术

声源定位采集技术是目标定位技术中一个新的分支，具有广泛的应用前景及科研价值，在近年来受到广泛的关注及研究。在一个设定的目标区域内，比如教室、会议室、广场，在热烈的讨论，纷纷发言中，声音采集必须得有取舍，处身在视频之外的观察者希望看到的总是视频摄像头指向的一个点的声音，而忽略或者降低摄像头焦点之外的声音。

公开号为CN 103414988 A的中国发明专利，公开了一种室内扩声录音设备及语音追踪调整方法，方法包括以下步骤：一、通过拾音器阵列采集室内的声音信号，经过智能采集模块后输入音频分析模块，通过智能筛选的方式寻找出有效信号输入源和参考信号输入源；二、通过智能混音的方式处理有效输入信号；三、通过比较的方式将有效输入信号中的环境音过滤；过滤后的信号输入录音模块；四：根据选定的有效输入拾音器对可控输出矩阵进行动态调整；五：调整的结果通过扬声器阵列输出。该方法未能明确如何定位，定位区域范围指定为讲坛上的教师,未能实现整个教室范围音频定位。偏向于现场处理现场播放。未能提供一个很好的定位方法，没有摄像头参与，无法声音和图像同步，不适合网络应用环境。

发明内容

本发明提出一种实时定位录音装置及方法，解决实时采集摄像头焦点位置的实质声音，用于音视频同步，提供更加接近现实的听觉效果，用于录制成视频文件或者实时的网络传输。

本发明的技术方案是这样实现的：

一种实时定位录音装置，包括拾音器矩阵、摄像头、摄像头焦点定位及音频处理模块、多媒体文件模块和网络发送模块；摄像头焦点定位及音频处理模块包括摄像头定位分析模块、拾音器音频过滤模块和音频处理模块；拾音器矩阵包括设在同一平面的若干拾音器，摄像头开始工作后，由摄像头定位分析模块确定其落在拾音器矩阵上的焦点，拾音器矩阵根据该焦点发送音频信息至拾音器音频过滤模块和音频处理模块，音频处理模块将处理后的音频文件分别发送至多媒体文件模块和网络发送模块。

进一步的，音频处理模块包括音频降噪模块和音频增益模块。

进一步的，拾音器矩阵为矩形排列或圆形排列。

进一步的，摄像头和拾音器矩阵之间的夹角为p，p大于0。

一种实时定位录音方法，包括以下步骤：

(1)在时间点t，计算摄像机的摄像头焦点落在拾音器矩阵平面的投影点的坐标；

步骤(1)中，拾音器等距离分布，组成拾音器矩阵，摄像头与拾音器矩阵平面之间的夹角为p，摄像头与拾音器矩阵平面的垂直面的偏转夹角为q，摄像头标记为a，摄像头焦点落在在拾音器矩阵平面的投影点标记为c，在时间变化的时候，夹角p和偏转夹角q也随之变化，设摄像头a和拾音器矩阵平面之间的距离为ab，距离ab固定并且已知，设ab＝x，bc＝y，y＝x*tanq，设b坐标为(0,0)，投影点c的坐标为(y*cosq，y*sinq)；

(2)拾音器矩阵根据投影点的坐标，控制投影点周围的四只拾音器作为有效信号输入源；

(3)根据四只拾音器与投影点之间的距离进行混音处理有效音频输入信号；

(4)混音后的音频信号经过去噪、增益后关联到时间点t的视频信号中，然后录制多媒体文件或者通过网络发送出去。

进一步的，步骤(2)中，拾音器矩阵中的每个拾音器的坐标已经确定，根据投影点c的坐标，拾音器矩阵确定投影点c附近的4个拾音器作为有效信号输入源。

进一步的，计算拾音器与投影点c之间的距离，距离最小的4个拾音器为有效信号输入源。

进一步的，步骤(3)中，设4个有效信号输入源捕获到的音量分别为s1，s2，s3和s4，每个有效信号输入源与投影点c之间的距离为r1，r2，r3和r4，混音后的最终音量为r0＝(r1/s1+r2/s2+r3/s3+r4/s4)*(r1+r2+r3+r4)。

本发明的有益效果在于：本发明设计一套分布式拾音阵列根据摄像头焦点定位实时拾音合成装置，根据摄像头的焦点落在空间的位置来实时确定拾音器阵列采集到的声音合成，并实时关联到视频信号中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种实时定位录音装置的电路方框图；

图2为图1中拾音器矩阵的俯视图。

图中，1-摄像头；2-拾音器矩阵；3-摄像头焦点定位及音频处理模块；4-多媒体文件模块；5-网络发送模块；6-摄像头定位分析模块；7-拾音器音频过滤模块；8-音频处理模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出了一种实时定位录音装置，包括拾音器矩阵2、摄像头1、摄像头焦点定位及音频处理模块3、多媒体文件模块4和网络发送模块5；摄像头焦点定位及音频处理模块3包括摄像头定位分析模块6、拾音器音频过滤模块7和音频处理模块8；拾音器矩阵2包括设在同一平面的若干拾音器，摄像头1开始工作后，由摄像头定位分析模块6确定其落在拾音器矩阵2上的焦点，拾音器矩阵2根据该焦点发送音频信息至拾音器音频过滤模块7和音频处理模块8，音频处理模块8将处理后的音频文件分别发送至多媒体文件模块4和网络发送模块6。

如图2所示，每个粗线矩形框代表一个会议桌子，桌子上每个黑色实心圆点代表一个台式麦克风即拾音器，所有麦克风由细线连成拾音器阵列。拾音器矩阵覆盖会议广场的实际会议场所大小。设拾音器阵列的左下角点为原点b(0，0)由此确定每个麦克风的坐标。拾音器阵列的每个拾音器坐标存储在摄像头焦点定位及音频处理模块，作为将来定位视频视野中性点在拾音器阵列平面的投影点坐标，摄像头安装在原点b正上方的a点。在时刻点t，摄像头在拾音器矩阵的平面投影偏转角为q，原点b与摄像头的投影点c之间的距离为r0，因此确定离c点最近的四个麦克风距离为r1，r2，r3，r4。它们此时捕获到的音量为s1，s2，s3，s4。由此得出s点实际混音音量为r1*s1+r2*s2+r3*s3+r4*s4/(r1+r2+r3+r4)。拾音器矩阵可以摆放在天花板或者地板上，又或者是会议的桌子上。

音频处理模块包括音频降噪模块和音频增益模块。

拾音器矩阵为矩形排列或圆形排列。拾音器矩阵是排列规则的形状，方便采集声音和计算拾音器的位置坐标。

摄像头和拾音器矩阵之间的夹角为p，p大于0。摄像头可能随着摄像头自带的云台转动而改变了焦点，因此焦点落在拾音器矩阵的投影点也会发生变化，云台实时输出夹角p和偏转角度q。

本发明还提出了一种实时定位录音方法，包括以下步骤：

(1)在时间点t，计算摄像机的摄像头焦点落在在拾音器矩阵平面的投影点的坐标；

步骤(1)中，拾音器等距离分布，组成拾音器矩阵，摄像头与拾音器矩阵平面之间的夹角为p，摄像头与拾音器矩阵平面的垂直面的偏转夹角为q，摄像头标记为a，摄像头焦点落在在拾音器矩阵平面的投影点标记为c，在时间变化的时候，夹角p和偏转夹角q也随之变化，设摄像头a和拾音器矩阵平面之间的距离为ab，距离ab固定并且已知，设ab＝x，bc＝y，y＝x*tanq，设b坐标为(0,0)，投影点c的坐标为(y*cosq，y*sinq)。

步骤(2)中，拾音器矩阵中的每个拾音器的坐标已经确定，根据投影点c的坐标，拾音器矩阵确定投影点c附近的4个拾音器作为有效信号输入源。计算拾音器与投影点c之间的距离，距离最小的4个拾音器为有效信号输入源。

步骤(3)中，设4个有效信号输入源捕获到的音量分别为s1，s2，s3和s4，每个有效信号输入源与投影点c之间的距离为r1，r2，r3和r4，混音后的最终音量为r0＝(r1/s1+r2/s2+r3/s3+r4/s4)*(r1+r2+r3+r4)。

本发明设计一套分布式拾音阵列根据摄像头焦点定位实时拾音合成装置。根据摄像头的焦点落在空间的位置来实时确定拾音器阵列采集到的声音合成。

本发明关键在于有摄像头参与，摄像头指向位置决定了拾音器阵列的每个拾音器个体收集的声音采用与否以及采用的强度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时定位录音装置，其特征在于：包括拾音器矩阵、摄像头、摄像头焦点定位及音频处理模块、多媒体文件模块和网络发送模块；所述摄像头焦点定位及音频处理模块包括摄像头定位分析模块、拾音器音频过滤模块和音频处理模块；所述拾音器矩阵包括设在同一平面的若干拾音器，所述摄像头开始工作后，由所述摄像头定位分析模块确定其落在所述拾音器矩阵上的焦点，所述拾音器矩阵根据该焦点发送音频信息至所述拾音器音频过滤模块和所述音频处理模块，所述音频处理模块将处理后的音频文件分别发送至所述多媒体文件模块和所述网络发送模块。

2.根据权利要求1所述的一种实时定位录音装置，其特征在于：所述音频处理模块包括音频降噪模块和音频增益模块。

3.根据权利要求1所述的一种实时定位录音装置，其特征在于：所述拾音器矩阵为矩形排列或圆形排列。

4.根据权利要求1所述的一种实时定位录音装置，其特征在于：所述摄像头和所述拾音器矩阵之间的夹角为p，p大于0。

5.一种实时定位录音方法，其特征在于，包括以下步骤：

步骤(1)中，拾音器等距离分布，组成拾音器矩阵，摄像头与拾音器矩阵平面之间的夹角为p，摄像头与拾音器矩阵平面的垂直面的偏转夹角为q，摄像头标记为a，摄像头焦点落在拾音器矩阵平面的投影点标记为c，在时间变化的时候，夹角p和偏转夹角q也随之变化，设摄像头a和拾音器矩阵平面之间的距离为ab，距离ab固定并且已知，设ab＝x，bc＝y，y＝x*tanq，设b坐标为(0,0)，投影点c的坐标为(y*cosq，y*sinq)；

6.根据权利要求5所述的一种实时定位录音方法，其特征在于：步骤(2)中，拾音器矩阵中的每个拾音器的坐标已经确定，根据投影点c的坐标，拾音器矩阵确定投影点c附近的4个拾音器作为有效信号输入源。

7.根据权利要求6所述的一种实时定位录音方法，其特征在于：计算拾音器与投影点c之间的距离，距离最小的4个拾音器为有效信号输入源。

8.根据权利要求7所述的一种实时定位录音方法，其特征在于：步骤(3)中，设4个有效信号输入源捕获到的音量分别为s1，s2，s3和s4，每个有效信号输入源与投影点c之间的距离为r1，r2，r3和r4，混音后的最终音量为r0＝(r1/s1+r2/s2+r3/s3+r4/s4)*(r1+r2+r3+r4)。