CN101567969A

CN101567969A - 基于麦克风阵列声音制导的智能视频导播方法

Info

Publication number: CN101567969A
Application number: CNA2009100516387A
Authority: CN
Inventors: 谷红亮; 申瑞民
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2009-05-21
Filing date: 2009-05-21
Publication date: 2009-10-28
Anticipated expiration: 2029-05-21
Also published as: CN101567969B

Abstract

本发明涉及的是一种智能技术领域的基于麦克风阵列声音制导的智能视频导播方法，本发明包括如下步骤：用户对空间/区域几个位置进行拍摄，以此作为示例保存在训练集中；通过麦克风阵列采集空间/区域中的声音；声源定位法分析各麦克风的音频数据定位出声源位置；参考训练集采用K－邻居法计算出声源位置对应摄像头/高速球的拍摄参数；引导摄像头按给定参数进行拍摄。本发明能自动交替捕捉相应目标视频，无需测量或校对摄像头位置，对环境有很好的适应性；本发明所采用的指定范围GCC－PHAT时延计算法和最小二乘法位置计算法对噪声的干扰均具有一定免疫力，使本发明能很好的抑制相关噪声的干扰。

Description

基于麦克风阵列声音制导的智能视频导播方法

技术领域

本发明涉及的是一种视频导播技术领域的方法，具体是一种基于麦克风阵列声音制导的智能视频导播方法。

背景技术

引导摄像头自动捕捉空间/区域中某目标(如人)视频的技术是一种视频导播技术，该技术因无需人工的导播员的干预而可根据用户预设要求来捕捉目标的视频，因此被称为智能视频导播技术。智能视频导播系统根据使用的摄像头的种类和数量不同，可分为多摄像头导播和单摄像头导播两种不同技术。

多摄像头导播系统中有多个摄像头，系统通过选择其中的一个摄像头(通常是离目标最近，拍摄角度最好的那个)来捕获目标的视频。清华大学的SmartCameraman(Yuanchun Shi et al：The smart classroom：merging technologiesfor seamless tele-education.IEEE Pervasive Computing，Vol 2，No 2，2003，pp.47-55.)就是这种系统。该系统有多个摄像头，且姿态固定，系统根据目标(即教师)位置选择一个拍摄角度最好的摄像头来捕捉目标视频。

单摄像头导播系统中只使用一个摄像头，该摄像头，俗称高速球，带有旋转云台和伸缩镜头，通过调整姿态(如水平角、仰角等)、Zoom等参数对空间某个位置进行定点拍摄。本发明涉及的就是一种单摄像头导播系统。经对现有技术的检索发现，“结合时域差分和空域分级的运动人像实时自动跟踪方法”(专利号ZL 200610024077.8)是一种单摄像头导播技术，该方法是采用视频图像处理的方法，基于目标的移动性来进行视频导播的。在这种方法中，系统分析摄像头的视频图像信号，计算出移动目标(即人)的画面区域，引导摄像头对该区域进行定点拍摄。也就是说，该方法是一种基于视频处理的移动制导的导播方法。该方法存在如下不足：1.跟踪的是移动目标，对于发声不移动的目标该方法无法捕捉到；2.依赖于背景图像的切分，因此当背景图像发生变化时(如在一个播放视频的投影屏幕前)，该方法难以捕捉到真正的目标；3.对指定区域目标拍摄的画面要求没有采用用户示例训练的方式，用户难以用直观方式表达和更改其要求。

经对现有技术文献的检索发现，“一种麦克风阵列及实现语音信号增强的方法”(专利申请号200810150881.X)，为了获得高信噪比的波束，将多个麦克风按照一定形状排列部署来代替单个麦克风，它要求目标位置满足远场采音模型(即麦克风之间的距离远小于目标到麦克风的距离，这样声波近似于一种平行波)。然而在导播系统的实际应用中，目标声源的位置往往难以满足远场模型，而且麦克风必须按规则形状排列的限制也给部署带来颇多不便。

发明内容

本发明针对现有技术的不足，提出了一种基于麦克风阵列声音制导的智能视频导播方法，该方法采用音频处理的方法来定位空间中某时刻唯一发声的目标的位置，让摄像头(高速球)捕捉和跟踪该声源的视频，这样导播的目标不依赖于目标是否移动，与背景图像和光线变化无关。

本发明是通过以下技术方案实现的，本发明包括以下步骤：

第一步：示例法训练拍摄，将用户对空间几个已知坐标的(固定)位置的拍摄作为示例，以此作为训练集保存。

第二步：启动麦克风阵列采音，将各麦克风的声音转换为数字音频数据。

第三步：将其中一个麦克风作为参考麦克风，计算其余各麦克风音频与参考麦克风音频的时延，以此作为声源发出的声音到达各麦克风与参考麦克风的时间差(TDoA，Time Difference of Arrival)，并将时间差乘以声速得到距离差。

第四步：根据声源到各麦克风与参考麦克风之间的距离差，计算声源的绝对位置。

第五步：计算声源绝对位置对应的摄像头拍摄参数。

第六步：引导摄像头按给定参数进行拍摄，捕捉目标视频。

第七步：转入步骤三。

所述示例法训练拍摄是指：用户操控摄像头对空间几个已知坐标的(固定)位置进行拍摄；在对每个位置拍摄的过程中，用户通过查看视频得到其满意的画面质量，系统记录该位置的坐标及其对应的摄像头拍摄参数(包括水平角、仰角、Zoom等参数)，记录数据作为训练集保存在文件中。上述过程中拍摄目标所在已知位置称为训练位置点，简称训练点。

所述计算各麦克风音频与参考麦克风音频的时延，采用的是指定范围GCC-PHAT(Generalized Cross Correlation-Phase Transform)时延估算法，即在同一声源产生的声音，由于达到两个通道(即两个麦克风)的时间差异，从而产生通道音频数据差异，而GCC-PHAT通过求这两个通道音频数据相关函数的最大值来反推算出这个时间差(又称两通道间的时延)。假设x、y两个通道，其音频数据分别记为x(t)、y(t)，则GCC-PHAT计算两通道时延的步骤为：

首先用GCC-PHAT公式得到任意两个通道(即两个麦克风)音频数据的相关函数。GCC-PHAT表示相关函数r_xy(t)的公式为：

r_{xy} (t) = F^{- 1} (\frac{X (ω) Y^{*} (ω)}{| X (ω) Y (ω) |}) - - - (1)

其中X(ω)为通道一x(t)的傅立叶变换，Y^*(ω)为通道二y(t)傅立叶变换的共轭，F^-1算子是傅立叶反变换。

然后在[-r_max，+r_max]区间内计算的相关函数实部的最大值，其中r_max＝对应麦克风之间距离/声速×采样率。记相关函数实部的最大值为r_xy，则此最大值可表示为：

r_xy＝max{real(r_xy(t))}，t∈[-r_max，+r_max] (2)

其中real算子是求函数的实部。max算子是求最大值。

最后将两通道的相关函数最大值除以采样率得到其时延d_xy：

d_xy＝r_xy/采样率 (3)

其中采样率为音频采集卡的采样率。

所述计算声源的绝对位置，采用的是最小二乘位置计算法，它根据未知位置点到各已知位置点与参考位置点的距离差来计算未知点的坐标位置。在此过程中未知位置点是声源，是欲求的结果，参考位置点是参考麦克风的位置，各已知位置点是除参考麦克风之外的各麦克风的位置，在此过程中各麦克风的位置已知，未知位置点到各已知位置点与参考位置点的距离差由上述指定范围GCC-PHAT时延估算法得到。采用最小二乘位置计算法计算声源的绝对位置的步骤如下：

首先对各麦克风位置进行坐标变换，使得参考麦克风的位置成为坐标原点。

然后按如下公式计算声源的相对位置：设麦克风数为N，声源位置为(x_s，y_s，z_s)，各麦克风位置为(x_i，y_i，z_i)，i＝0，1，Λ，N-1，其中(x₀，y₀，z₀)是参考麦克风的位置，即原点。对i＝1，Λ，N-1，记d_i0为声源到第i个麦克风与到参考麦克风的距离差，R_i为第i个麦克风到参考麦克风(原点)的距离，即

R_{i} = \sqrt{x_{i}^{2} + y_{i}^{2} + z_{i}^{2}},

R_s为声源到参考麦克风(原点)的距离，则声源相对位置及其到原点的距离由如下公式求得：

θ＝(A^TA)^-1A^Tb (4)

其中

θ = (\begin{matrix} x_{s} \\ y_{s} \\ z_{s} \\ R_{s} \end{matrix}),

b = \frac{1}{2} \times (\begin{matrix} R_{1}^{2} - d_{10}^{2} \\ R_{2}^{2} - d_{20}^{2} \\ M \\ R_{N - 1}^{2} - d_{N - 1}^{2} \end{matrix}),

A = (\begin{matrix} x_{1} & y_{1} & z_{1} & d_{10} \\ x_{2} & y_{2} & z_{2} & d_{20} \\ M & M & M & M \\ x_{N - 1} & y_{N - 1} & z_{N - 1} & d_{N - 10} \end{matrix}),

而θ中的(x_s，y_s，z_s)即所求声源位置。

最后将声源的相对位置进行坐标反变换，得到声源的绝对位置。在此反变换中参考麦克风的位置重新恢复成原始坐标。

上述过程的位置为三维坐标，如果只考虑平面坐标，只要去掉z维，对公式进行相应调整即可。公式(4)中矩阵A的行数至少要求为4(二维位置为3)，因此要求麦克风数量N至少为5(二维位置为4)。且公式(4)只有在A^TA的逆阵存在的情况下才能计算，因此要求麦克风的位置不能共面(二维位置要求不能共线)。整个过程中最复杂的运算是矩阵求逆，过程复杂度为O(n³)，其中n为麦克风数。

所述计算声源绝对位置对应的摄像头拍摄参数，采用的是K-邻居法，其步骤为：

首先计算给定位置(即目标位置)与训练集中各训练点的距离，选中其中最小的K个点，作为目标位置的邻居。记目标位置到邻居位置的距离分别为d_i，i＝1，Λ，K。

然后，计算目标位置的各拍摄参数的值，此值等于各邻居对应拍摄参数的加权平均值，其中每个邻居的权值为该邻居到目标位置距离的倒数除以所有邻居到目标位置距离的倒数之和。此过程用公式表示如下：

c_{s} = Σ_{i = 1}^{K} (\frac{1 / d_{i}}{Σ_{i = 1}^{K} 1 / d_{i}} c_{i}) - - - (5)

其中，c_s为目标位置的拍摄参数，c_i为训练集中第i个邻居的对应的拍摄参数。

上述过程与摄像头位置无关，无需测量或校对摄像头位置。当安装或移动摄像头位置后，只需用上述直观方式对系统训练一次，就能在后续步骤中按用户要求计算空间任何位置的拍摄参数。

与现有技术相比，本发明有如下优点：

(1)导播基于声音制导，当空间中某时刻一目标发声，就能捕捉到该目标视频。当不同位置目标交替发声时，本方法就能自动交替捕捉相应目标视频。导播的目标不依赖于目标是否移动，与背景图像和光线变化无关。

(2)示例法拍摄训练过程使用户能直观地通过对空间少数位置的拍摄完成对系统的训练，无需测量或校对摄像头位置，对环境有很好的适应性。而K邻居声源拍摄参数计算法能根据实际的几何特征，很好地理解训练集中用户拍摄要求，平滑地计算空间各位置的拍摄参数。

(3)麦克风不要求按照规则形状排列，也不要求目标位置满足远场模型，这样便于部署，应用范围广。

(4)所采用的指定范围GCC-PHAT时延计算法对环境的音频噪声有一定的免疫力。一方面GCC-PHAT对通道的高斯白噪声产生很好的抑制作用；另一方面根据实际环境中麦克风之间的距离这一几何条件，将噪声引起的计算误差控制在指定的范围内。

(5)所采用的最小二乘法位置计算法对噪声的干扰具有一定免疫力，且整个过程用线性(矩阵)运算来实现，复杂度低，计算时间可控。最小二乘法对零均值高斯概率分布的噪声有很好的抑制作用，且参与的行数(即使用的麦克风)越多，该方法越精确，而且实际各通道距离差的误差绝大多数是满足零均值高斯概率分布之一特征的，这样使该过程能很好的抑制相关噪声的干扰。

附图说明

图1是本发明运行原理示意图。

图2是导播区域布置和示例法拍摄训练示意图。

图3是本发明方法流程图。

图4是最小二乘位置计算法的几何分析图。

图5是4-邻居拍摄参数计算法示意图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例在一个4.5m×4.5m的区域内实现视频导播，位置采用了二维平面坐标，在该区域中布置了声源1和声源2，4个麦克风(由于是平面坐标，故要求至少4个，若是空间3维坐标则要求至少5个)组成麦克风阵列。这些麦克风位置上不共线(若在空间中则要求不共面)，可按任意形状和距离排列，且区域中任意位置的声源所发声音能被4个(空间为5个)以上麦克风接收(或称采集)到。区域中布置了一台SONY EVI-D70P高速球作为摄像头，该摄像头带有旋转云台和伸缩镜头，拥有视频输出口和控制端。用户通过控制端可调整拍摄参数(如姿态、变焦率等)可对区域(空间)任意位置进行定点拍摄。本例将一台计算机作为导播机，该计算机装有视频卡、摄像头控制口和多通道同步音频采集卡，采集卡为美国NI 4472，支持8通道同步采集。各麦克风通过音频线连接到导播机的采集卡的各通道上。摄像头的视频线连接到导播机的视频卡上，而控制接口为RS-232标准，连接到导播机的串口。导播机通过串口控制摄像头拍摄参数，运行智能视频导播方法。摄像头的控制参数有3个：P(水平角)、T(仰角)和Zoom(变焦率)，其中P、T参数决定了摄像头的姿态，而Zoom参数决定拍摄目标在视频画面中的显示比例。本例的声源(即拍摄目标)为人，他们交替发声(某个时刻只有一个人发声)，让摄像头捕捉其视频。由于本例只考虑二维坐标位置，因此假设每个人的高度(即z坐标值)是一样的。导播机中运行本实施例对应程序，实现智能视频导播。

本实施例区域的布置如图2(a)所示，4个麦克风标记为Mic0、Mic1、Mic2、Mic3，分别部署在(1，0)、(2.5，0)、(0，1)、(0，2.5)位置，摄像头安装在(2.25，5)位置。由于麦克风指向性较强，为了对整个区域采音，各麦克风的方向偏向区域中未部署麦克风的区域。

如图3所示，本实施例具体步骤如下：

第一步：采用示例法训练拍摄，将用户对空间几个已知坐标的位置的拍摄作为示例，以此作为训练集保存。

第三步：计算各麦克风音频与参考麦克风音频的时延，以及声源发出的声音到达各麦克风与参考麦克风距离差。具体操作如下：

(1)、从采集卡中取出一段音频数据(称为一帧)。判断采集到声音的通道数是否大于等于4，如不满足条件，则重做本步骤；满足条件则做下一步。

(2)、在此帧中用指定范围GCC-PHAT法计算各麦克风音频与参考麦克风音频的时延。本例的参考麦克风为第0号麦克风。

(3)、将时延作为声音到各麦克风与参考麦克风的时间差，乘以声速得到距离差。

第四步：根据声源到各麦克风与参考麦克风之间的距离差，采用最小二乘法计算声源的绝对位置。

第五步：将训练集中的位置作为参考位置点，采用K-邻居法计算声源绝对位置对应的摄像头拍摄参数。

第六步：导播机引导摄像头按给定参数进行拍摄，捕捉目标视频。

第七步：转第3步。

本实施例第一步中所述的示例法用户训练界面如图2(b)所示。让一个作为模特的人(即拍摄目标样本)分别位于区域中16个位置点上，模特的位置坐标为(xx，yy，zz)。用户通过“向左移”、“向上移”、“向右移”、“向下移”、“镜头拉近”、“镜头拉远”等按钮控制摄像头，并查看反馈的摄像头视频，得到一个自己满意的画面质量，这时系统记录该位置点的坐标及其最后对应拍摄参数P、T、Zoom值。16个训练位置点每隔1.5m×1.5m成方格排列，在训练界面中每个点的位置由用户输入，其中z坐标值等于常数(如0)。

本实施例第三步中所述指定范围GCC-PHAT法中，其计算步骤如下：

首先：对应任意两个通道(即两个麦克风)数据应用公式(1)求得其相关函数r_xy(t)。

然后：在[-r_max，+r_max]区间内运用公式(2)计算的相关函数实部的最大值，其中r_max＝最大麦克风距离/声速×采样率。本例中最大麦克风距离为(0，2.5)和(2.5，0)之间的距离，声速取340m/s，采样率为8000Hz，代入得r_max≈83，即公式(2)在[-83，+83]范围内求最大值。

最后：按公式(3)计算该两通道之间的对应时延d_xy。其中采样率＝8000。

本实施例第四步中所述的最小二乘位置计算法对应的几何分布如图4所示，第i个麦克风标记为Mic_i，d_i0为声源到第i个麦克风(Mic_i)与到参考麦克风(Mic₀)的距离差，R_i为第i个麦克风到参考麦克风的距离，R_s为声源到参考麦克风(原点)的距离。具体步骤为：

首先：将各麦克风位置进行坐标平移变换，使得第0号麦克风(Mic0)位置成为坐标原点(O’)，得到各麦克风在X’O’Y’坐标系中的位置。记第i个麦克风(Mic_i)的原位置为位置(X_i，y_i)，在X’O’Y’坐标系中位置为(x_i，y_i)，声源的原位置为(X_s，Y_s)，在X’O’Y’坐标系中位置为(x_s，y_s)，则：

(\begin{matrix} x_{i} \\ y_{i} \end{matrix}) = (\begin{matrix} X_{i} \\ X_{i} \end{matrix}) - (\begin{matrix} X_{0} \\ Y_{0} \end{matrix}), (\begin{matrix} x_{s} \\ y_{s} \end{matrix}) = (\begin{matrix} X_{s} \\ X_{s} \end{matrix}) - (\begin{matrix} X_{0} \\ Y_{0} \end{matrix}) - - - (6)

然后：按公式(4)计算声源相对位置。其中：

其中

θ = (\begin{matrix} x_{s} \\ y_{s} \\ R_{s} \end{matrix}),

b = \frac{1}{2} \times (\begin{matrix} R_{1}^{2} - d_{10}^{2} \\ R_{2}^{2} - d_{20}^{2} \\ R_{31}^{2} - d_{30}^{2} \end{matrix}),

A = (\begin{matrix} x_{1} & y_{1} & d_{10} \\ x_{2} & y_{2} & d_{20} \\ x_{3} & y_{3} & d_{30} \end{matrix}),

而θ中的(x_s，y_s)即所求声源位置。

最后：将声源相对位置进行坐标平移反变换，得到声源的绝对位置(X_s，Y_s)。反变换按如下公式计算：

(\begin{matrix} X_{s} \\ X_{s} \end{matrix}) = (\begin{matrix} x_{s} \\ y_{s} \end{matrix}) + (\begin{matrix} X_{0} \\ Y_{0} \end{matrix}) - - - (7)

本实施例第五步中所述的K-邻居拍摄参数计算法，K的值取4，即4邻居法。4邻居法的几何依据如图5所示。其步骤如下：

首先：计算给定目标位置与训练集中各训练位置点的距离，选中其中最小的4个点，记为NB1、NB2、NB3、NB4，其到目标位置的距离分别为d1、d2、d3、d4，其对应的水平角、仰角和变焦率参数分别为P1～P4、T1～T4、Zm1～Zm4。

然后：按如下公式计算目标位置的拍摄参数P_s、T_s、Zm_s：

P_{s} = Σ_{i = 1}^{4} (\frac{1 / d_{i}}{Σ_{i = 1}^{4} 1 / d_{i}} P_{i}),

T_{s} = Σ_{i = 1}^{4} (\frac{1 / d_{i}}{Σ_{i = 1}^{4} 1 / d_{i}} T_{i}),

{Zm}_{s} = Σ_{i = 1}^{4} (\frac{1 / d_{i}}{Σ_{i = 1}^{4} 1 / d_{i}} {Zm}_{i}) - - - (8)

本实施例第六步中所述的导播机控制摄像头，使水平角、仰角和变焦率分别等于第五步计算出来的P_s、T_s、Zm_s，并将摄像头捕捉的视频通过Internet广播出去。

本实施例采用示例法拍摄训练过程，使用户能直观地通过对空间少数位置的拍摄完成对系统的训练，无需测量或校对摄像头位置，对环境有很好的适应性。而K-邻居声源拍摄参数计算法能根据实际的几何特征，很好地理解训练集中用户拍摄要求，平滑地计算空间各位置的拍摄参数。

本实施例所采用的指定范围GCC-PHAT时延计算法和最小二乘法位置计算法对噪声的干扰均具有免疫力，使该过程能很好的抑制相关噪声的干扰。

Claims

1、一种基于麦克风阵列声音制导的智能视频导播方法，其特征在于，包括以下步骤：

第一步：示例法训练拍摄，将用户对空间几个已知坐标的固定位置的拍摄作为示例，并作为训练集保存；

第二步：启动麦克风阵列采音，将各麦克风的声音转换为数字音频数据；

第三步：将其中一个麦克风作为参考麦克风，计算其余各麦克风音频与参考麦克风音频的时延，并将时延乘以声速得到各麦克风音频与参考麦克风音频的距离差；

第四步：根据声源到各麦克风与参考麦克风之间的距离差，计算声源的绝对位置；

第五步：计算声源位置对应的摄像头拍摄参数；

第六步：引导摄像头按给定参数进行拍摄，捕捉目标视频。

2、根据权利要求1所述的基于麦克风阵列声音制导的智能视频导播方法，其特征是，所述的示例法训练拍摄是指：用户操控摄像头对空间中若干已知坐标的位置进行拍摄；在对每个位置拍摄的过程中，用户通过查看视频得到满意的画面质量，系统记录此位置的坐标及对应的摄像头拍摄参数，记录数据作为训练集保存在文件中。

3、根据权利要求1所述的基于麦克风阵列声音制导的智能视频导播方法，其特征是，所述计算各麦克风音频与参考麦克风音频的时延是指，通过求两个通道音频数据相关函数的最大值推算出各麦克风音频与参考麦克风音频的时延。

4、根据权利要求1所述的基于麦克风阵列声音制导的智能视频导播方法，其特征是，所述计算声源的位置是指：

首先，对各麦克风位置进行坐标变换，使参考麦克风的位置成为坐标原点；

然后，使用最小二乘法计算声源的相对位置；

最后，将声源相对位置进行坐标反变换，得到声源绝对位置。

5、根据权利要求1所述的基于麦克风阵列声音制导的智能视频导播方法，其特征是，所述计算声源的绝对位置对应的摄像头拍摄参数，是指：

首先：计算目标位置与训练集中各训练点的距离，选中其中最小的K个点，作为目标位置的邻居，记目标位置到邻居位置的距离分别为d_i，i＝1，Λ，K；

然后，计算目标位置的各拍摄参数的值，等于各邻居对应拍摄参数的加权平均值，其中每个邻居的权值为该邻居到目标位置距离的倒数除以所有邻居到目标位置距离的倒数之和，公式表示如下：

c_{s} = Σ_{i = 1}^{K} (\frac{1 / d_{i}}{Σ_{i = 1}^{K} 1 / d_{i}} c_{i})