CN106328156B

CN106328156B - 一种音视频信息融合的麦克风阵列语音增强系统及方法

Info

Publication number: CN106328156B
Application number: CN201610698586.2A
Authority: CN
Inventors: 张军; 陈鑫源; 宁更新; 冯义志; 季飞; 余华; 陈芳炯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2020-02-18
Anticipated expiration: 2036-08-22
Also published as: CN106328156A

Abstract

本发明公开一种音视频信息融合的麦克风阵列语音增强系统及方法。所述系统包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块，视频采集模块用于采集应用场景中说话人的视频信号；麦克风阵列接收模块用于接收说话人的音频信号；音视频来波方向联合估计模块利用音视频信息联合估计说话人音频的来波方向；麦克风阵列语音增强模块利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强；音视频联合语音增强模块利用语音和视频信号联合对语音进行二次增强处理。本发明能显著提高麦克风阵列语音增强系统的性能，能广泛应用于视频会议、车载电话、移动视频通话终端等场合。

Description

一种音视频信息融合的麦克风阵列语音增强系统及方法

技术领域

本发明涉及语音信号处理领域，特别是一种音视频信息融合的麦克风阵列语音增强系统。

背景技术

通话设备在实际使用环境中容易受到背景噪音和混响等干扰，使语音信号的质量和可懂度受到影响，因此在许多通话应用中都需要进行有效的语音增强处理，以抑制噪声，提高语音清晰度、可懂度和舒适度。

目前常用的语音增强方法主要包括两类，一类是基于单麦克风的语音增强方法，包括谱减法、维纳滤波、MMSE、卡尔曼滤波、小波变换等，这类方法利用单麦克风接收语音信号，通过时域、频域、小波变换域等滤波和处理来抑制噪声，提高语音的质量；另一类是基于麦克风阵列的语音增强方法，利用多个麦克风接收到的语音信号里包含的空间相位信息对输入语音进行空间滤波，形成具有指向性的空间波束，对指定方向上的语音信号进行增强，能取得比单麦克风更好的增强效果。

现有的麦克风阵列语音增强技术可以大致分为固定波束形成法、自适应波束形成法、后置滤波法三类。固定波束形成法采用延迟相加进行时延补偿且滤波器的权值固定不变，具有运算量低，容易实现等优点，但不具备自适应抑制强干扰的能力。自适应波束形成法中，滤波器系数随着输入信号统计特性的变化而变化，使波束方向零陷对准噪声方向，而注视方向上信号的频率响应固定不变，以此来抑制其它方向上的干扰噪声。后置滤波法根据各信道接收信号间的自相关和互相关特性调整维纳滤波器的系数，含噪的语音信号经过维纳滤波后得到最小均方误差准则下的目标语音估计信号，可以在不相关噪声的环境下以较少的麦克风数目获得较好的消噪性能。但现有的麦克风阵列语音增强技术均基于空气传导的语音传感器，在实际应用中存在着以下的不足：(1)当环境噪声较强时，输出的语音质量不高；(2)当使用环境中存在多个声源时，麦克风阵列的来波方向估计容易出现错误判断；(3)当使用环境中存在多个声源时，传统的来波方向估计通常选择声音最强的声源信号进行增强，不方便使用者指定某个声源进行监听。

发明内容

针对现有麦克风阵列语音增强技术的不足，本发明提供一种音视频信息融合的麦克风阵列语音增强系统及方法，该系统利用音频和视频信息受噪声影响方式的不同，将视频信息用于提高麦克风阵列来波方向估计准确度和麦克风阵列增强语音的质量，能显著提高现有麦克风阵列语音增强系统的性能，可以广泛应用于视频会议、车载电话、移动视频通话终端等场合。

本发明的目的至少通过如下技术方案之一实现。

一种音视频信息融合的麦克风阵列语音增强系统，其包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块，其中视频采集模块与音视频来波方向联合估计模块、音视频联合语音增强模块连接，用于采集应用场景中说话人的视频信号；麦克风阵列接收模块与音视频来波方向联合估计模块、麦克风阵列语音增强模块连接，用于接收说话人的音频信号；音视频来波方向联合估计模块与视频采集模块、麦克风阵列接收模块、麦克风阵列语音增强模块连接，利用音视频信息联合估计说话人音频的来波方向；麦克风阵列语音增强模块与麦克风阵列接收模块、音视频来波方向联合估计模块、音视频联合语音增强模块连接，利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强；音视频联合语音增强模块与视频采集模块、麦克风阵列语音增强模块连接，利用经麦克风阵列语音增强模块增强后的语音和视频采集模块输出的视频信号联合对语音进行二次增强处理。

进一步地，所述音视频来波方向联合估计模块包括视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块，其中视频声源定位模块与音视频定位信息融合模块、上述视频采集模块连接，根据视频信号估计说话人在视频画面中的位置；麦克风阵列声源定位模块与音视频定位信息融合模块、上述麦克风阵列接收模块连接，根据麦克风阵列接收模块接收到的阵列语音信号来估计说话人语音的来波方向；音视频定位信息融合模块与视频声源定位模块、麦克风阵列声源定位模块和上述麦克风阵列语音增强模块连接，由视频定位信息与麦克风阵列声源定位信息估计当前说话人语音的来波方向。

进一步地，所述音视频联合语音增强模块包括噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块和滤波模块，其中噪声估计模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接，用于估计麦克风阵列语音增强模块输出语音中的噪声频谱；音视频联合分类模块与音视频联合模型库、最佳滤波器系数生成模块、上述视频采集模块、所述麦克风阵列语音增强模块连接，根据说话人产生的视频和音频信号对当前语音帧进行分类；音视频联合模型库与音视频联合分类模块连接，用于保存音视频联合分类的模型；最佳滤波器系数生成模块与噪声估计模块、音视频联合分类模块、滤波模块连接，根据音视频联合分类模块的分类结果和噪声计算当前语音帧的最佳滤波器系数；滤波模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接，用于对麦克风阵列语音增强模块输出语音进行滤波增强。

利用所述的一种音视频信息融合的麦克风阵列语音增强系统的麦克风阵列语音增强方法，包括以下步骤：

步骤1：通过视频采集模块、麦克风阵列接收模块同步采集视频和音频信号；

步骤2：音视频来波方向联合估计模块根据步骤1采集得到的同步音视频信号估计说话人音频的来波方向；

步骤3：麦克风阵列语音增强模块根据说话人音频的来波方向，对麦克风阵列接收模块采集到的音频信号进行增强；

步骤4：将步骤3中麦克风阵列语音增强模块输出的音频信号与步骤1中视频采集模块采集的视频信号进行同步，并通过音视频联合语音增强模块对麦克风阵列语音增强模块输出的音频信号进行增强。

进一步地，步骤2中，音视频来波方向联合估计模块采用以下步骤估计说话人语音的来波方向：

步骤2.1：根据视频采集模块和麦克风阵列接收模块的相对位置，确定视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系；

步骤2.2：通过视频声源定位模块估计说话人唇部在视频画面中的位置，在音视频定位信息融合模块中将其映射为麦克风阵列的来波方向(θ_lc,φ_lc)，其中θ_lc为方位角，φ_lc为仰视角；

步骤2.3：通过麦克风阵列声源定位模块确定当前所有声源的来波方向(θ_i,φ_i)，其中0≤i≤I-1，I为所确定的声源个数；在音视频定位信息融合模块中，选择与(θ_lc,φ_lc)差异最小的(θ_i,φ_i)作为需监听的说话人音频的来波方向。

进一步地，步骤2.2采用以下步骤实现：

步骤2.2.1：利用人脸资源库建立人脸肤色模型；

步骤2.2.2：根据步骤2.2.1中的人脸肤色模型，分割出视频画面中的人脸区域，并对人脸中的唇部进行定位，得到视频画面中说话人唇部中心的像素坐标(x_lc,y_lc)；

步骤2.2.3：根据步骤2.1得到的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系，将说话人唇部中心的像素坐标(x_lc,y_lc)映射为麦克风阵列的来波方向(θ_lc,φ_lc)。

进一步地，步骤2中，当视频中检测不到说话人时，采用信号最强的音频来波方向作为声源的来波方向；步骤2中，若存在多个说话人，由使用者在视频画面上指定需监听的说话人；步骤2中，当使用者未指定说话人时，采用信号最强的音频来波方向作为声源的来波方向。

进一步地，步骤4中，音视频联合语音增强模块采用以下方法对麦克风阵列语音增强模块输出的音频信号进行增强：

步骤4.1：同步采集说话人干净的视频信号和语音信号并分帧，提取每帧的音视频联合特征，训练音视频联合分类模型，并保存每一分类的语音频谱均值；

步骤4.2：噪声估计模块对麦克风阵列语音增强模块输出的音频信号进行端点检测，提取其中的纯噪声音频片段，计算噪声的线性频谱均值；

步骤4.3：音视频联合分类模块将视频采集模块采集的视频信号和麦克风阵列语音增强模块输出的音频信号进行同步和分帧，提取每帧的音视频联合特征，并利用步骤4.1中得到的音视频联合分类模型，计算当前音视频帧属于各分类的得分；

步骤4.4：最佳滤波器系数生成模块采用式(1)或式(2)构造当前语音帧的最佳维纳滤波器：

其中p(m|z)为步骤4.3中得到的音视频联合特征z对音视频联合分类模型中第m分类的得分，K为音视频联合分类模型第m分类的均值矢量维数，M是音视频联合分类模型的混合分量数，

为音视频联合分类模型第m分类对应的干净语音频谱均值矢量的第i个分量，

为说话人语音经麦克风阵列增强后残留噪声的线性频谱均值矢量

的第i个分量；

步骤4.5：滤波模块采用步骤4.4得到的最佳维纳滤波器对麦克风阵列语音增强模块输出的音频进行滤波，得到滤波增强后的语音信号。

进一步地，步骤4.1中音视频联合分类模型采用高斯混合模型或者隐马尔科夫模型。

进一步地，步骤4.3中，音视频联合特征属于各分类的得分采用以下方法计算：

对于每帧音视频联合特征，估计其每个特征分量的可靠性，并采用下式计算相对于联合统计模型第m分类的边缘概率p_m(z_r)：

上式中λ_m是音视频联合统计模型第m分类的模型参数，p(z|λ_m)是音视频联合统计模型第m分类的概率密度函数；

其中x_r、y_r分别为视频特征x和音频特征y中可靠性大于预设阈值的特征分量构成的矢量，x_u、y_u分别为视频特征x和音频特征y中可靠性小于预设阈值的特征分量构成的矢量；

音视频联合特征每个特征分量的可靠性采用以下方法计算：估计每个特征分量的信噪比，当信噪比小于预设阈值时，该特征分量的可靠性为0，否则该特征分量的可靠性为1；步骤4.4中，p(m|z)＝p_m(z_r)。

与现有技术相比，本发明的有益之处有：

(1)本发明采用了两级增强的结构，对麦克风阵列增强后的说话人语音进行了二次增强，并在两级增强系统中充分地利用视频和音频信息，因此能有效地减少环境噪声的影响，显著提高系统的抗噪声性能。

(2)本发明同时使用音频和视频信息来确定说话人语音的来波方向，即使使用环境中存在多个声源时，也能保证来波方向估计的准确性，避免了传统麦克风阵列来波方向估计出现声源误判的不足。

(3)使用者可以方便地通过视频画面指定需监听的说话人，克服了传统麦克风阵列难以指定目标说话人的不足。

附图说明

图1为本发明实施例系统结构框图；

图2为本发明实施例中麦克风阵列与视频采集装置位置关系的示意图；

图3为本发明实施例中音视频信息融合的麦克风阵列语音增强方法的流程图；

图4为本发明实施例中来波方向联合估计的流程图。

图5为本发明实施例中对麦克风阵列语音增强模块输出的音频信号进行增强的流程图。

具体实施方式

下面结合附图和实施例对本发明的具体实施步骤作进一步的说明，但本发明的实施方式不限于此。

本发明实施例的系统结构如图1所示，由视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块、音视频联合语音增强模块共同构成，其中视频采集模块与音视频来波方向联合估计模块、音视频联合语音增强模块连接，用于采集应用场景中说话人的视频信号；麦克风阵列接收模块与音视频来波方向联合估计模块、麦克风阵列语音增强模块连接，用于接收说话人的音频信号；音视频来波方向联合估计模块与视频采集模块、麦克风阵列接收模块、麦克风阵列语音增强模块连接，利用音视频信息联合估计说话人音频的来波方向；麦克风阵列语音增强模块与麦克风阵列接收模块、音视频来波方向联合估计模块、音视频联合语音增强模块连接，利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强；音视频联合语音增强模块与视频采集模块、麦克风阵列语音增强模块连接，利用经麦克风阵列语音增强模块增强后的语音和视频采集模块输出的视频信号联合对语音进行二次增强处理。上述实施例中，视频采集模块采用摄像头来实现，麦克风阵列接收模块由6个麦克风m₁，m₂，m₃，m₄，m₅，m₆及相应的放大电路和A/D转换电路构成，麦克风与摄像头的安装位置如图2所示，其中摄像头C位于原点，其光轴与x轴重合，麦克风m₁，m₄位于x轴，m₂，m₅位于y轴，m₃，m₆位于z轴，均以原点为对称中心。音视频来波方向联合估计模块、麦克风阵列语音增强模块、音视频联合语音增强模块由CPU或嵌入式芯片及相应的外围电路构成，音视频联合语音增强模块还包含D/A转换及放大驱动电路。

上述音视频来波方向联合估计模块，由视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块共同构成，其中视频声源定位模块与音视频定位信息融合模块、上述视频采集模块连接，根据视频信号估计说话人在视频画面中的位置；麦克风阵列声源定位模块与音视频定位信息融合模块、上述麦克风阵列接收模块连接，根据麦克风阵列接收模块接收到的阵列语音信号来估计说话人语音的来波方向；音视频定位信息融合模块与视频声源定位模块、麦克风阵列声源定位模块和上述麦克风阵列语音增强模块连接，由视频定位信息与麦克风阵列声源定位信息估计当前说话人语音的来波方向。上述实施例中，视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块在CPU或嵌入式芯片中用软件来实现。

上述音视频联合语音增强模块，由噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块、滤波模块共同构成，其中噪声估计模块与最佳滤波器系数生成模块、上述麦克风阵列语音增强模块连接，用于估计麦克风阵列语音增强模块输出语音中的噪声频谱；音视频联合分类模块与音视频联合模型库、最佳滤波器系数生成模块、上述视频采集模块、上述麦克风阵列语音增强模块连接，根据说话人产生的视频和音频信号对当前语音帧进行分类；音视频联合模型库与音视频联合分类模块连接，用于保存音视频联合分类的模型；最佳滤波器系数生成模块与噪声估计模块、音视频联合分类模块、滤波模块连接，根据音视频联合分类模块的分类结果和噪声计算当前语音帧的最佳滤波器系数；滤波模块与最佳滤波器系数生成模块、上述麦克风阵列语音增强模块连接，用于对麦克风阵列语音增强模块输出语音进行滤波增强。上述实施例中，噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块、滤波模块在CPU或嵌入式芯片中用软件来实现。

本发明提供的音视频信息融合的麦克风阵列语音增强系统，采用以下方法对输入的语音进行增强，其流程如图3所示：

步骤1：通过视频采集模块、麦克风阵列接收模块同步采集视频和音频信号。上述实施例中，麦克风阵列接收模块通过每一个麦克风采集到说话人的多通道语音信号，同时视频采集模块利用摄像头对前方连续拍摄，作为视频输入信号。

步骤2：音视频来波方向联合估计模块根据步骤1采集得到的同步音视频信号估计说话人语音的来波方向，具体又可以分为以下几步，流程如图4所示：

步骤2.1：根据视频采集模块和麦克风阵列接收模块的相对位置，确定视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系。

上述实施例中，如图2所示，以摄像头C为空间坐标系原点O建立空间坐标系Oxyz，摄像头C的焦距为f，摄像头成像的像素平面大小为P_x×P_y，成像中心的像素坐标为(x_c,y_c)，水平方向和垂直方向单位距离上的像素点数分别是W_x和W_y。若声源s的方位角为θ，仰视角为φ，视频画面中的说话人唇部中心位置与成像中心的水平距离为d_x，垂直距离为d_y，即说话人唇部中心在成像平面的像素坐标为(x_c+d_x,y_c+d_y)，则视频画面中说话人唇部中心位置与麦克风阵列的来波方向(θ_lc,φ_lc)的映射关系为：

在其他的一些实施例中，根据视频采集模块和麦克风阵列接收模块摆放位置的不同，上述视频画面中说话人唇部中心位置与麦克风阵列的来波方向具有不同的映射关系。

步骤2.2：通过视频声源定位模块估计说话人唇部在视频画面中的位置，在音视频定位信息融合模块中将其映射为麦克风阵列的来波方向(θ_lc,φ_lc)，其中θ_lc为方位角，φ_lc为仰视角。

上述实例中，首先通过建立高斯人脸肤色模型来对视频画面中说话人脸部区域进行检测定位，然后根据定位到的说话人人脸位置，采用自适应色度滤波算法对说话人唇部中心位置进行定位，具体采用以下步骤实现：

步骤2.2.1：利用人脸资源库建立人脸肤色模型。

上述实施例中，在人脸图像库中选取J幅人脸彩色图像，预处理后保留人脸区域，然后将其每个像素点从RGB颜色空间分别用式(6)和式(7)投影到YCbCr颜色空间和chromatic颜色空间

采用高斯模型对矢量t＝[Cb,Cr,r,g]^T进行建模，其概率密度函数为：

p(t)＝exp{-0.5(t-μ)^T∑^-1(t-μ)} (8)

上式中均值μ和方差矩阵∑为：

μ＝[μ_Cb,μ_Cr,μ_r,μ_g]^T (9)

其中K_j为第j幅人脸图像中像素点的数目，Cb_jk、Cr_jk、r_jk、g_jk分别为第j幅人脸图像中第k个像素点Cb、Cr、r、g的值，∑^(*)是颜色空间元素(*)的方差(矩阵)。

步骤2.2.2：根据步骤2.2.1中的人脸肤色模型，分割出视频画面中的人脸区域，并对人脸中的唇部进行定位，得到视频画面中说话人唇部中心的像素坐标(x_lc,y_lc)。

上述实施例中，将待检测的视频画面中的第k个像素点在联合颜色空间上表示为t_k＝[Cb_k,Cr_k,r_k,g_k]^T，根据步骤2.2.1中的高斯人脸肤色模型可以计算得到该像素点属于人脸肤色的概率为：

p(t_k)＝exp{-0.5(t_k-μ)^T∑^-1(t_k-μ)} (11)

若p(t_k)>δ，其中δ为预设的阈值，则判断该像素点位于人脸区域，否则该像素点为非人脸区域，由此将待检测视频画面中的人脸区域分割出来。得到人脸的位置信息后，采用自适应色度滤波算法对说话人唇部中心位置进行定位，得到视频画面中说话人唇部中心的像素坐标(x_lc,y_lc)。

步骤2.2.3：根据步骤2.1得到的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系，将说话人唇部中心的像素坐标(x_lc,y_lc)映射为麦克风阵列的来波方向(θ_lc,φ_lc)。上述实施例中，根据式(4)和式(5)将(x_lc,y_lc)映射为(θ_lc,φ_lc)。

步骤2.3：通过麦克风阵列声源定位模块确定当前所有声源的来波方向(θ_i,φ_i)，其中0≤i≤I-1，I为所确定的声源个数。在音视频定位信息融合模块中，选择与(θ_lc,φ_lc)差异最小的(θ_i,φ_i)作为需监听的说话人音频的来波方向。

上述实例中，空间存在I个声源，空间噪声为零均值且与信号相互独立的高斯白噪声，麦克风阵列声源定位模块采用三维MUSIC近场声源识别算法来确定当前所有声源的来波方向。如图2所示，将坐标系原点O(0,0,0)设为麦克风阵列的参考点，声源s_i(1≤i≤I)的空间坐标为(l_i,θ_i,π-φ_i)，声源s_i与第j个麦克风的距离为l_ij(j＝1～6)，则麦克风接收的信号为：

X＝AS+N (12)

其中S为声源信号矩阵，N为噪声信号矩阵，A为阵列方向矩阵，A每个元素可以表示为

是声音从s_i到达阵列参考点O(0,0,0)与到达第j个麦克风之间的时间差，c＝340m/s是声音的传播速度。

计算麦克风接收信号X的协方差，然后对所得协方差矩阵进行分解可得到信号子空间U_s和噪声子空间U_N：

R＝U_s∑_sU_s ^H+U_N∑_NU_N ^H (13)

计算

其中

为信号的方向向量，L为对空间谱加窗的长度，w_j是第j个频率点的权重，实施例中声源信号的频率特性未知，w_j设置为1。P_MUSIC取得极大值时所对应的(l_i,θ_i,φ_i)即为当前声源s_i的位置，(θ_i,φ_i)为声源s_i的来波方向。

得到所有声源的来波方向后，采用下式计算所有(θ_i,φ_i)与(θ_lc,φ_lc)的距离，

令d_i最小的(θ_i,φ_i)即为当前指定说话人相对于麦克风阵列的来波方向。

上述步骤2中，当视频中检测不到说话人时，采用信号最强的音频来波方向作为声源的来波方向。

上述步骤2中，若存在多个说话人，由使用者在视频画面上指定需监听的说话人，摄像机对说话人进行跟踪，获取指定检测的说话人脸部及唇部定位信息。

上述步骤2中，当使用者未指定说话人时，采用信号最强的音频来波方向作为声源的来波方向。

步骤3：麦克风阵列语音增强模块根据说话人音频的来波方向，对麦克风阵列接收模块采集到的音频信号进行增强。

上述实施例中，麦克风阵列m₁、m₂、m₃、m₄、m₅、m₆采集到的待检测语音信号为S＝{x₁,x₂,x₃,x₄,x₅,x₆}，麦克风阵列语音增强模块采用广义旁瓣抵消器(GSC)算法对麦克风接收到的音频信号进行阵列增强。广义旁瓣抵消器由延时-累加波束形成器、阻塞矩阵和噪声抵消器组成。输入的语音信号分为上下两条支路进行处理，其中上支路中利用延时-累加波束形成器对阵列的输入语音在来波方向进行增强，并抑制其他方向的干扰噪声，其输出为：

y_c＝A^TS

(16)

其中A＝C(C^HC)^-1F为权系数向量，C为约束矩阵，F为对应的约束响应向量。下支路包含阻塞矩阵和噪声抵消器，首先通过构造一个秩r(B)≤3的阻塞矩阵B来滤除期望信号，其输出为干扰和噪声的组合N：

N＝BS

(17)

然后噪声抵消器根据N估算出延时-累加波束形成器输出信号中的噪声信号y_n：

y_n＝W^TN

(18)

根据式(16)和式(18)可以计算得到干净语音信号的估计值y_e：

y_e＝y_c-y_n (19)

式(18)中W^T＝[w₁,w₂,...,w₆]^T为权重矢量，采用下式进行调整，式中i为迭代步数：

上述步骤4中，音视频联合语音增强模块采用以下方法对麦克风阵列语音增强模块输出的音频信号进行增强，其流程如图5所示：

步骤4.1：同步采集说话人干净的视频信号和语音信号并分帧，提取每帧的音视频联合特征，训练音视频联合分类模型，并保存每一分类的语音频谱均值。

上述实施例中，同步采集1000段不同说话人干净的音频信号和视频信号，然后分别提取每一帧音频信号的mfcc参数，将音频信号帧的mfcc特征矢量序列记为x，用活动形状模型提取视频信号帧中说话人的唇部几何信息，再加上图像灰度外观特征构成唇部特征序列，记为y，将第h帧音频信号特征矢量和第h帧唇部特征矢量进行拼接，得到第h帧音视频联合特征矢量为

由此得到联合模型库的训练数据集。

获得训练数据集后，采用混合高斯模型(GMM)来拟合音视频联合特征矢量的概率分布，令Z＝{z₁,z₂,...,z_n}表示训练用的音视频联合特征矢量集合，则混合高斯模型联合概率密度函数为：

其中M是GMM中的混合分量数，π_m是模型混合分量先验权重，1≤m≤M，

且π_m≥0，μ_m和∑_m分别表示混合高斯模型第m分量的均值矢量和方差矩阵，混合高斯模型每一混合分量概率密度函数为单高斯函数，代表一个分类。令λ＝{(π_m,μ_m,∑_m)|1≤m≤M}表示混合高斯模型的参数集，采用最大期望算法求出λ的最大似然估计。

建立音视频联合分类模型后，计算该模型中属于每一分类的所有干净音频帧的频谱均值

保存在音视频联合模型库中。

在另外一些实施例中，采用隐马尔科夫模型作为联合统计模型，并以隐马尔科夫模型中的每个混合高斯分量表示一个分类。

上述实施例中，经麦克风阵列获取增强语音后，噪声估计模块对其进行分帧，然后根据每帧的短时自相关函数R_w(τ)和短时能量E_w，计算每帧阵列增强语音的短时平均过门限率C_w(n)：

其中sgn[·]为取符号运算，是调节因子，w(n)是矩形窗函数，N_w为其窗长，τ是时延，T是门限初值。当C_w(n)大于预设的门限值时，判断该帧为语音，否则为噪声信号。根据每帧的判决结果得到阵列增强语音的端点位置。

提取麦克风阵列语音增强模块输出的音频信号中的纯噪声音频片段，计算并保存其线性频谱均值

作为经麦克风阵列增强后的说话人语音残留噪声的幅度均值参数。

步骤4.3：音视频联合分类模块将视频采集模块采集的视频信号和麦克风阵列语音增强模块输出的音频信号进行同步和分帧，提取每帧的音视频联合特征，并利用步骤4.1中得到的音视频联合分类模型，计算当前音视频帧属于各分类的得分。

上述实施例中，采用与步骤4.1相同的方法对视频采集模块采集的视频信号和麦克风阵列语音增强模块输出的音频信号进行同步和分帧，并提取每帧的音视频联合特征。

对于每帧音视频联合特征，采用以下方法计算其属于各分类的得分：估计当前音视频联合特征中每个特征分量的可靠性，并采用下式计算相对于联合统计模型第m分类的边缘概率p_m(z_r)：

其中x_r、y_r分别为视频特征x和音频特征y中可靠性大于预设阈值的特征分量构成的矢量，x_u、y_u分别为视频特征x和音频特征y中可靠性小于预设阈值的特征分量构成的矢量。上述音视频联合特征中每个特征分量的可靠性采用以下方法计算：估计每个特征分量的信噪比，当信噪比小于预设阈值时，该特征分量的可靠性为0，否则该特征分量的可靠性为1。

步骤4.4：最佳滤波器系数生成模块根据步骤4.3的分类结果，构造当前语音帧的最佳维纳滤波器。

上述实施例中，根据步骤4.2估计的噪声线性频谱均值

和步骤4.1音视频联合模型库中存储的每个分类模型对应的干净语音频谱均值

以及音视频联合特征z对音视频联合分类模型中第m个分类的得分p(m|z)，计算当前语音帧最佳滤波器的频域增益函数：

其中K为音视频联合分类模型第m分类的均值矢量维数，M是音视频联合分类模型的混合分量数，

为音视频联合分类模型第m分类对应的干净语音频谱均值矢量

的第i个分量，

为说话人语音经麦克风阵列增强后残留噪声的线性频谱均值矢量的第i个分量。上述实施例中，p(m|z)＝p_m(z_r)，即音视频联合特征z在高斯混合模型中的得分等于音视频联合统计模型第m分量的边缘概率。

在另一实施例中，最佳滤波器的频域增益函数还可以采用下式计算：

步骤4.5：滤波模块采用步骤4.4得到的最佳维纳滤波器对麦克风阵列语音增强模块输出的语音进行滤波，得到滤波增强后的语音信号。

Claims

1.一种音视频信息融合的麦克风阵列语音增强系统，其特征在于包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块，其中视频采集模块与音视频来波方向联合估计模块、音视频联合语音增强模块连接，用于采集应用场景中说话人的视频信号；麦克风阵列接收模块与音视频来波方向联合估计模块、麦克风阵列语音增强模块连接，用于接收说话人的音频信号；音视频来波方向联合估计模块与视频采集模块、麦克风阵列接收模块、麦克风阵列语音增强模块连接，利用音视频信息联合估计说话人音频的来波方向；麦克风阵列语音增强模块与麦克风阵列接收模块、音视频来波方向联合估计模块、音视频联合语音增强模块连接，利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强；音视频联合语音增强模块与视频采集模块、麦克风阵列语音增强模块连接，利用经麦克风阵列语音增强模块增强后的语音和视频采集模块输出的视频信号联合对语音进行二次增强处理；所述音视频来波方向联合估计模块包括视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块，其中视频声源定位模块与音视频定位信息融合模块、上述视频采集模块连接，根据视频信号估计说话人在视频画面中的位置；麦克风阵列声源定位模块与音视频定位信息融合模块、上述麦克风阵列接收模块连接，根据麦克风阵列接收模块接收到的阵列语音信号来估计说话人语音的来波方向；音视频定位信息融合模块与视频声源定位模块、麦克风阵列声源定位模块和上述麦克风阵列语音增强模块连接，由视频定位信息与麦克风阵列声源定位信息估计当前说话人语音的来波方向。

2.根据权利要求1所述的一种音视频信息融合的麦克风阵列语音增强系统，其特征在于所述音视频联合语音增强模块包括噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块和滤波模块，其中噪声估计模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接，用于估计麦克风阵列语音增强模块输出语音中的噪声频谱；音视频联合分类模块与音视频联合模型库、最佳滤波器系数生成模块、上述视频采集模块、所述麦克风阵列语音增强模块连接，根据说话人产生的视频和音频信号对当前语音帧进行分类；音视频联合模型库与音视频联合分类模块连接，用于保存音视频联合分类的模型；最佳滤波器系数生成模块与噪声估计模块、音视频联合分类模块、滤波模块连接，根据音视频联合分类模块的分类结果和噪声计算当前语音帧的最佳滤波器系数；滤波模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接，用于对麦克风阵列语音增强模块输出语音进行滤波增强。

3.利用权利要求1～2任一项所述的一种音视频信息融合的麦克风阵列语音增强系统的麦克风阵列语音增强方法，其特征在于包括以下步骤：

4.根据权利要求3所述的麦克风阵列语音增强方法，其特征在于步骤2中，音视频来波方向联合估计模块采用以下步骤估计说话人语音的来波方向：

5.根据权利要求4所述的麦克风阵列语音增强方法，其特征在于步骤2.2采用以下步骤实现：

步骤2.2.1：利用人脸资源库建立人脸肤色模型；

6.根据权利要求4所述的麦克风阵列语音增强方法，其特征在于步骤2中，当视频中检测不到说话人时，采用信号最强的音频来波方向作为声源的来波方向；步骤2中，若存在多个说话人，由使用者在视频画面上指定需监听的说话人；步骤2中，当使用者未指定说话人时，采用信号最强的音频来波方向作为声源的来波方向。

7.根据权利要求4所述的麦克风阵列语音增强方法，其特征在于步骤4中，音视频联合语音增强模块采用以下方法对麦克风阵列语音增强模块输出的音频信号进行增强：

为音视频联合分类模型第m分类对应的干净语音频谱均值矢量

的第i个分量，

为说话人语音经麦克风阵列增强后残留噪声的线性频谱均值矢量μ^mag的第i个分量；

8.根据权利要求7所述的麦克风阵列语音增强方法，其特征在于步骤4.1中音视频联合分类模型采用高斯混合模型或者隐马尔科夫模型。

9.根据权利要求7所述的麦克风阵列语音增强方法，其特征在于步骤4.3中，音视频联合特征属于各分类的得分采用以下方法计算：