CN100356446C

CN100356446C - 近端讲话人检测方法

Info

Publication number: CN100356446C
Application number: CNB200480002628XA
Authority: CN
Inventors: M·塔内达
Original assignee: Sony Ericsson Mobile Communications AB
Current assignee: Sony Mobile Communications AB
Priority date: 2003-01-24
Filing date: 2004-01-09
Publication date: 2007-12-19
Anticipated expiration: 2024-01-09
Also published as: DE60319796D1; DE60319796T2; CN1742322A; ATE389934T1

Abstract

本发明总的涉及配备有视听用户接口的噪声减小系统的领域，具体地，涉及启用视频的电信设备的视听语音活动识别系统(200b/c)，它运行一个实时嘴唇跟踪应用，该应用可以在讲话人的话音受到包括环境噪声(n(t))和周围人的话音的统计分布的背景噪声(n’(t))干扰的环境中有利地用于邻近讲话人检测算法。

Description

近端讲话人检测方法

发明领域和背景

本发明总的涉及基于语音活动识别的噪声减小的领域，具体地，涉及一种电信设备的视听用户接口，该电信设备运行一个应用，该应用有利地可以在讲话人的话音受到包括环境噪声以及周围人话音的统计分布的背景噪声干扰的环境中被使用于例如近端讲话人检测算法。

基于语音/暂停检测的语音信号的断续发送代表了用来改进新一代无线通信系统的频谱效率的有效解决方案。在本上下文中，需要健壮的话音活动检测算法，因为按照现有技术水平的传统解决方案，在存在背景噪声的典型移动环境中，呈现高的错误分类率。

话音活动检测器(VAD)的目的是即使对于低信号-噪声比(SNR)也能区分开语音信号与几种类型的声音背景噪声。所以，在典型的电话对话中，这样的VAD与舒适噪声生成器(CNG)一起被使用来达到静音压缩。在多媒体通信领域中，静音压缩允许一个语音信道被与其它类型的信息共享，因此保证同时的话音和数据应用。在基于断续传输(DTX)模式的诸如GSM的蜂窝无线系统中，VAD被应用来减小便携式设备的共道干扰和功耗。而且，VAD对于在提供可变比特速率(VBR)语音编码的、诸如UMTS的未来各代数字蜂窝网络中减小平均数据比特速率是必不可少的。大多数容量增益是由于在语音活动与不活动之间的不同而导致的。然而，基于语音学分类的语音编码方案的性能非常依赖分类器，后者对于每种类型的背景噪声都必须是健壮的。众所周知，VAD的性能对于总的语音质量十分关键，特别是在低SNR的情形下。在语音帧被检测为噪声的情形下，由于对话中语音的削减，智能性受到严重损害。另一方面，如果被检测为语音的噪声的百分数很高，则得不到静音压缩的潜在优点。在存在背景噪声的情形下，可能很难区分开语音和静音。因此，对于无线环境下的话音活动检测需要更有效的算法。

虽然在F.Beritelli，S.Casale，和A.Cavallaro的“Improved VAD G.729Annex B for Mobile Communications Using Soft Computing(用于使用软计算的移动通信的改进的VAD G.729附录B)”(Contribution ITU-T，Study Group16，Question 19/16，Washington，1997年9月2-5日)中提出的模糊话音活动检测器(FVAD)比文献中给出的其它解决方案执行得更好，但它呈现出活动增加，尤其是在存在非稳态噪声的情形下。FVAD的功能方案是基于传统的图案识别方法，其中用于语音活动/不活动分类的四个差分参数是：全频带能量差、低频带能量差、零交叉差和频谱失真。匹配阶段通过借助于如在M.Russo，的“FuGeNeSys：Fuzzy Genetic Neural System for FuzzyModeling(用于模糊建模的通用模糊神经系统(FuGeNeSys))”(出现在IEEETransaction on Fuzzy Systems)中描述的新混合学习工具自动得到的一组模糊法则执行。众所周知，模糊系统允许在两个数值之间的逐渐的、连续的过渡，而不是锐变。因此，模糊VAD返回范围从0(不活动)到1(活动)的连续的输出信号，这不依赖于是否单个输入信号已超过预定义的阈值，而是依赖于它们已假设的值的总体评估(“去模糊化处理”)。通过把模糊系统的输出(在0与1之间的范围内变化)和在C.B.Southcott等的“Voice Control ofPan-European Digital Mobile Radio System(泛欧洲数字移动无线系统)”，(ICC’89，第1070-1074页)中描述的、通过实验选择的固定阈值相比较而作出最后判决。

正如话音活动检测器那样，当在嘈杂的环境下工作时，传统的自动语音识别(ASR)系统也遇到困难，因为传统ASR算法的精度在嘈杂环境下大大地降低。当讲话人在包括环境噪声和周围人的干扰话音在内的嘈杂环境下谈话时，话筒不单拾取讲话人的话音而且也拾取这些背景声音。因此，所处理的是包括叠加上所述背景声音的讲话人话音的音频信号。干扰声音越响，讲话人的声音的易理解性减小得越多。为了克服这个问题，加上了利用环境噪声和各个讲话人话音的不同频率区域的噪声减小电路。

在图2a上显示了一种用于基于电话的应用的典型噪声减小电路，其基于一种按照现有技术水平的语音活动估计算法，实施一种用于把经模数变换的音频信号s(t)的离散信号频谱S(k·Δf)与音频语音活动估值进行相关的方法。所述音频语音活动估值是通过数字音频信号s(nT)的振幅检测而得到的。该电路输出一个噪声减小的音频信号_i(nT)，它是通过使离散信号频谱S(k·Δf)与统计分布的背景噪声

的估计的噪声功率密度谱

的采样版本

的差值经历快速富立叶反变换(IFFT)而被计算的。

现有技术概述

在US 5,313,522中描述的发明涉及一种用于使参加电话对话的听力受损害的人易于理解的设备，该设备包括用于把接收的音频语音信号变换成一系列音素的电路和用于把该电路耦合到POTS线路的装置。由此，该电路包括把检测的音素序列与讲话人的记录的嘴唇运动进行相关以及在显示设备上在以后的图像中显示这些嘴唇运动的装置，由此许可听力受损害的人在收听电话对话的同时，进行嘴唇读出过程，这提高了个人的理解水平。

在WO 99/52097中公开的发明涉及一种通信设备和方法，用于感测讲话人的嘴唇运动，生成相应于所检测的所述讲话人嘴唇运动的音频信号和发送所述音频信号，由此感知环境噪声电平及因此而控制要发送的音频信号的功率电平。

发明目的

从上述的现有技术水平看来，本发明的目的是增强基于电话的话音活动检测(VAD)系统的语音/暂停检测精度。具体地，本发明的目的是提高在其中讲话人的声音被环境噪声和/或周围人的话音严重干扰的拥挤环境下记录的语音信号的信号-干扰比(SIR)。

上述的目的是借助于在独立权利要求中的特征而得到的。有利的特征在从属权利要求中规定。

发明概要

本发明致力于一种具有视听用户接口的噪声减小和自动语音活动识别系统，其中所述系统适配于运行一种用于组合视觉特征向量o_v，nT与音频特征向量o_a，nT的应用，该视觉特征向量o_v，nT包括通过检测和分析所述讲话人S_i的例如嘴唇运动和/或面部表情而从显示讲话人面部的数字视频序列v(nT)提取的特征，而该音频特征向量o_a，nT包括从记录的模拟音频序列s(t)提取的特征。所述音频序列s(t)由此代表受到统计分布的背景噪声干扰的所述讲话人S_i的话音

n’(t)＝n(t)+S_Int(t)， (1)

它包括环境噪声n(t)和在所述讲话人S_i的环境中周围人的干扰话音的加权和：

有

a_{j} = \frac{1}{4 π \cdot R_{jM}^{2}} [m^{- 2}] - - - (2 b)

由此，N表示讲话人(包括所述讲话人S_i在内)的总数，a_j是在讲话人S_i的环境中第j个讲话人S_j的干扰信号s_j(t)的衰减因子，T_j是s_j(t)的延时，以及R_jM表示在第j个讲话人与记录音频信号s(t)的话筒之间的距离。通过跟踪讲话人的嘴唇运动，提取视觉特征，然后该视觉特征可以被分析和被用于进一步处理。为此，双模态感知的用户接口包括指向讲话人面部、用于记录显示所述讲话人S_i的嘴唇运动和/或面部表情的数字视频序列v(nT)的视频摄像机；用于根据记录的音频序列s(t)确定讲话人的话音和发音的声音-音素语音特性的音频特征提取和分析装置；以及用于连续或间断地确定讲话人面部的当前位置、跟踪在以后的图像中讲话人的嘴唇运动和/或面部表情、和根据检测的嘴唇运动和/或面部表情确定讲话人的话音和发音的声音-音素语音特性的视觉特征提取和分析装置。

按照本发明，上述的提取的和分析的视觉特征被馈送到一个噪声减小电路，需要该噪声减小电路来增加记录的音频信号s(t)的信号-干扰比(SIR)。所述噪声减小电路特别适合于通过根据得到的声音-音素语音特性把讲话人的话音与所述背景噪声

分离开而执行近端讲话人检测：

o_av，nT：＝[o_a，nT ^T，o_v，nT ^T]^T (3)

它输出一个话音活动指示信号(_i(nT))，该话音活动指示信号通过组合由所述音频特征提取和分析装置与所述视觉特征提取和分析装置所提供的语音活动估值而得到。

附图简述

从以下的说明、所附权利要求、和附图将明白本发明的有利的特征、方面、和有用的实施例。其中：

图1显示具有视听用户接口的噪声减小和语音活动识别系统，所述系统特别适配于运行一个实时跟踪应用，该应用组合视觉特征o_v，nT与音频特征o_a，nT，该视觉特征通过检测和分析讲话人S_i的嘴唇运动和/或面部表情而从显示讲话人面部的数字视频序列v(nT)中提取，而该音频特征从代表受到统计分布的背景噪声n’(t)干扰的所述讲话人S_i的话音的模拟音频序列s(t)中提取，

图2a是一个框图，显示按照现有技术水平的、根据音频语音活动估计用于基于电话的应用的传统噪声减小和语音活动识别系统，

图2b显示用于按照本发明的一个实施例、基于电话的应用的摄像机增强的噪声减小和语音活动识别系统的例子，它实施视听语音活动估计算法，

图2c显示用于按照本发明的另一个实施例、基于电话的应用的摄像机增强的噪声减小和语音活动识别系统的例子，它实施视听语音活动估计算法，

图3a显示一个流程图，说明按照本发明的图1所示实施例、用于减小检测的模拟音频序列s(t)的噪声电平的近端讲话人检测方法，

图3b是显示按照本发明的图2b所示的实施例的近端讲话人检测方法的流程图，以及

图3c是显示按照本发明的图2c所示的实施例的近端讲话人检测方法的流程图。

发明详细说明

下面将更详细地说明如图1，2b，2c，和3a-c所示的本发明的不同实施例。用图1到3c上的参考数字和符号表示的符号的意义可以从附表取得。

按照如图1所示的本发明的第一实施例，所述噪声减小和语音活动识别系统100包括噪声减小电路106，它特别适合于减小由话筒101a接收的背景噪声n’(t)和通过把讲话人的话音与所述背景噪声n’(t)分离开而进行邻近讲话人检测，以及包括多通道回声抵消单元108，它特别适合于根据分别借助于上述的音频和视觉特征提取和分析装置104a+b和106b得到的声音-音素语音特性来执行近端讲话人检测和/或含糊话语(double-talk)检测算法。由此，所述声音-音素语音特性是基于：讲话人的嘴的张开分别作为清晰发音的元音或双元音的声能的估值，讲话人嘴唇的快速运动作为对于唇音或唇齿音辅音(例如，爆破音、摩擦音或塞擦音素--分别是浊音或清音)的暗示，以及在讲话人S_i嘴唇的位置和运动与话音和发音之间的关联的其它统计检测的音素特性。

上述的噪声减小电路106包括：用于通过执行快速富立叶变换(FFT)而计算相应于记录的音频序列s(t)的模拟-数字变换版本s(nT)的离散信号频谱S(k·Δf)的数字信号处理装置106a；用于根据记录的音频序列s(t)检测讲话人的话音和发音的声音-音素语音特性的音频特征提取和分析装置106b(例如，振幅检测器)；用于根据由所述音频特征提取和分析装置106b执行的讲话人检测过程的结果而估计统计分布的背景噪声n’(t)的噪声功率密度谱的装置106c；用于从模拟-数字变换的音频序列s(nT)的离散信号频谱S(k·Δf)中减去估计的噪声功率密度谱

的离散化版本

的相减单元106d；以及用于通过执行快速富立叶反变换(IFFT)而计算所得到的差值信号的相应离散时域信号_i(nT)的数字信号处理装置106e。

所描绘的噪声减小和语音活动识别系统100包括：音频特征提取和分析装置106b，被使用来根据记录的音频序列s(t)而确定讲话人的话音和发音的声音-音素语音特性(o_a，nT)；以及视觉特征提取和分析装置104a+b，用于以1帧/秒的数据速率确定讲话人的面部的当前位置，以15帧/秒的数据速率跟踪所述讲话人S_i的嘴唇运动和/或面部表情，和根据检测的嘴唇运动和/或面部表情而确定讲话人的话音和发音的声音-音素语音特性(o_v，nT)。

如图1所示，所述噪声减小系统200b/c可以有利地被使用于在启用视频的电话102上运行的、电信系统中的基于视频电话的应用，该视频电话配备有指向参加视频电话会话的讲话人S_i面部的内置视频摄像机101b’。

图2b显示用于按照本发明的一个实施例的、基于电话的应用的、缓慢的摄像机增强的噪声减小和语音活动识别系统200b的例子，它实施视听语音活动估计算法。由此，把取自由所述音频特征提取和分析装置106b提供的音频特征向量o_a，t的音频语音活动估值与另一个语音活动估值进行相关，后者是通过计算离散信号频谱S(k·Δf)与统计分布的背景噪声n’(t)的估计的噪声功率密度谱

的采样版本

的差值而得到的。所述音频语音活动估值是通过模拟-数字变换的音频信号s(t)的、经带通滤波的离散信号频谱S(k·Δf)的振幅检测而得到的。

类似于图1所示的实施例，图2b所描绘的噪声减小和语音活动识别系统200b包括：用于根据记录的音频序列s(t)而确定讲话人的话音和发音的声音-音素语音特性(O_a，nT)的音频特征提取和分析装置106b(例如，振幅检测器)；以及用于以1帧/秒的数据速率确定讲话人面部的当前位置，以15帧/秒的数据速率跟踪所述讲话人S_i的嘴唇运动和面部表情，和根据检测的嘴唇运动和/或面部表情而确定讲话人的话音和发音的声音-音素语音特性(o_v，nT)的视觉特征提取和分析装置104’和104”。由此，所述音频特征提取和分析装置106b可被简单地实现为振幅检测器。

除了以上参照图1描述的部件106a-e以外，图2b所描绘的噪声减小电路106包括：延时单元204，它提供模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)的延时版本；第一乘法器单元107a，被使用来将模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱S_τ(k·Δf)与取自由视觉特征提取和分析装置104a+b和/或104’+104”提供的视觉特征向量o_v，t的视觉语音活动估值进行相关(S9)，因此产生用来更新对于相应于代表所述讲话人话音的信号s_i(t)的频谱S_i(f)的估值

的另一个估值

以及用于更新对于统计分布的背景噪声n’(t)的噪声功率密度谱Φ_nn(f)的估值

的另一个估值

以及第二乘法器单元107，被使用来将模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱S_τ(k·Δf)与通过带通滤波的离散信号频谱S(k·ΔF)的振幅检测(S8b)而得到的音频语音活动估值进行相关(S8a)，因此产生对于相应于代表所述讲话人话音的信号s_i(t)的频谱S_i(f)的估值

和对于所述背景噪声n’(t)的噪声功率密度谱Φ_nn(F)的估值

采样与保持(S&H)单元106d’提供估计的噪声功率密度谱

的采样版本

噪声减小电路106还包括具有可调节的截止频率的带通滤波器，它被使用来对模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)进行滤波。截止频率可以根据估计的语音信号频谱

的带宽被调节。开关106f被提供用于在第一和第二模式之间选择地切换，以便分别通过使用或不使用所建议的、提供噪声减小语音信号_i(t)的视听语音识别方法来接收所述语音信号s_i(t)。按照本发明的另一方面，提供了用于当语音活动指示信号的实际电平降低到低于预定义的阈值(未示出)时关断所述话筒101a的装置。

在图2c上显示一个用于按照本发明的另一个实施例、基于电话的应用的、快速摄像机增强的噪声减小和语音活动识别系统200c的例子，它实施视听语音活动估计算法。电路把模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)与视听语音活动估值的延时版本和通过计算离散信号频谱S(k·Δf)与估计的噪声功率密度谱

的采样版本

的差值而得到的另一个语音活动估值进行相关。上述的视听语音活动估值是取自通过组合由所述音频特征提取和分析装置106b提供的音频特征向量o_a，t与由所述视觉语音活动检测模块104”提供的视觉特征向量o_v，t而得到的视听特征向量o_av，t。

除了以上参照图1描述的部件以外，图2c上所描绘的噪声减小电路106包括求和单元107c，它被使用来把由音频特征提取和分析装置106b提供的音频语音活动估值加到(S11a)由视觉特征提取和分析装置104’和104”提供的视觉语音活动估值上，因此产生视听语音活动估值，该音频特征提取和分析装置用于根据记录的音频序列s(t)而确定讲话人的话音和发音的声音-音素语音特性(o_a，nT)，而该视觉特征提取和分析装置用于以1帧/秒的数据速率而确定讲话人面部的当前位置，以15帧/秒的数据速率跟踪所述讲话人S_i的嘴唇运动和面部表情，和根据检测的嘴唇运动和/或面部表情而确定讲话人话音和发音的声音-音素语音特性(o_v，nT)。噪声减小电路106还包括乘法器单元107’，它被使用来将模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)与通过组合由所述音频特征提取和分析装置106b提供的音频特征向量o_a，t和由所述视觉语音活动检测模块104”提供的视觉特征向量o_v，t而得到的视听语音活动估值进行相关(S11b)，由此产生对于相应于代表所述讲话人话音的信号s_i(t)的频谱S_i(f)的估值

和对于统计分布的背景噪声n’(t)的噪声功率密度谱Φ_nn(f)的估值采样与保持(S&H)单元106d’提供估计的噪声功率密度谱

的采样版本

噪声减小电路106还包括具有可调节的截止频率的带通滤波器，它被使用来对模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)进行滤波。所述截止频率可以根据估计的语音信号频谱的带宽被调节。开关106f被提供用于在第一和第二模式之间选择地切换，以便分别通过使用或不使用所建议的、提供噪声减小的语音信号_i(t)的视听语音识别方法来接收所述语音信号s_i(t)。按照本发明的另一方面，所述噪声减小系统200c包括用于当语音活动指示信号_i(nT)的实际电平降低到低于预定的阈值(未示出)时关断所述话筒101a的装置。

本发明的再一个实施例针对如图3a所示的流程图上显示的近端讲话人检测方法。所述方法是减小受到统计分布的背景噪声n’(t)干扰的记录的模拟音频序列s(t)的噪声电平，所述音频序列代表讲话人Si的话音。在使模拟音频序列s(t)经历模拟-数字变换(S1)后，通过执行快速富立叶变换(FFT)而计算(S2)模拟-数字变换的音频序列s(nT)的相应的离散信号频谱S(k·Δf)，以及通过分析从与模拟音频序列s(t)的记录同时被记录的视频序列中提取的视觉特征，而从所述信号频谱S(k·Δf)中检测(S3)所述讲话人S_i的话音，该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人S_i的嘴唇运动和/或面部表情。接着，根据讲话人检测步骤(S3)的结果来估计(S4)统计分布的背景噪声n’(t)的噪声功率密度谱

此后从模拟-数字变换的音频序列s(nT)的离散频谱S(k·Δf)中减去(S5)估计的噪声功率密度谱的采样版本

最后，通过执行快速富立叶反变换(IFFT)而计算(S6)所得到的差值信号的相应的离散时域信号_i(nT)，该差值信号代表识别的语音信号的离散版本。

任选地，可以根据声音-音素语音特性来进行(S7)一种多通道回声抵消算法，该算法借助于自适应有限冲击响应(FIR)滤波器而为回波路径冲击响应建模并从模拟音频序列s(t)中减去回波信号，而该声音-音素语音特性是通过一种用于从跟踪讲话人面部的位置、在以后的图像中讲话人S_i的嘴唇运动和/或面部表情的视频序列中提取视觉特征的算法而得到的。所述多通道回声抵消算法由此执行含糊话语检测过程。

按照本发明的另一个方面，应用一种学习过程，它通过分析从与模拟音频序列s(t)的记录同时被记录的视频序列中提取的视觉特征而增强从模拟音频序列s(t)的模拟-数字变换的版本s(nT)的离散信号频谱S(k·Δf)中检测(S3)所述讲话人S_i的话音的步骤，该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人S_i的嘴唇运动和/或面部表情。

在如图3a+b所示的流程图上显示的本发明的一个实施例中，提出一种近端讲话人检测方法，其特征在于将模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱S_τ(k·Δf)与通过带通滤波的离散信号频谱S(k·Δf)的振幅检测(S8b)得到的音频语音活动估值进行相关(S8a)的步骤，由此产生对于相应于代表所述讲话人的话音的信号s_i(t)的频谱S_i(f)的估值

和对于所述背景噪声的噪声功率密度谱Φ_nn(f)的估值

而且，模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱S_τ(k·Δf)与取自由视觉特征提取和分析装置104a+b和/或104’+104”提供的视觉特征向量o_v，t的视觉语音活动估值进行相关(S9)，因此产生用来更新对于相应于代表所述讲话人话音信号s_i(t)的频谱S_i(f)的估值的另一个估值

的另一个估值

噪声减小电路106由此提供带通滤波器204，用于对模拟-数字变换的音频信号s(t)的离散信号频谱S_τ(k·Δf)进行滤波，其中所述带通滤波器204的截止频率根据估计的语音信号频谱的带宽被调节(S10)。

在如图3a+c所示的流程图上显示的本发明的另一个实施例中，提出一种近端讲话人检测方法，其特征在于把通过模拟-数字变换的音频信号s(t)的带通滤波的离散信号频谱S(k·Δf)的振幅检测得到的音频语音活动估值加到(S11a)取自由所述视觉特征提取和分析装置104a+b和/或104’+104”提供的音视觉特征向量o_v，t的视觉语音活动估值的步骤，由此产生视听语音活动估值。按照本实施例，离散信号频谱S(k·Δf)与视听语音活动估值进行相关(S11b)，由此产生对于相应于代表所述讲话人话音的信号s_i(t)的频谱S_i(f)的估值

以及对于统计分布的背景噪声n’(t)的噪声功率密度谱Φ_nn(f)的估值

被使用来对模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)进行滤波的带通滤波器204的截止频率是根据估计的语音信号频谱的带宽被调节的(S11c)。

最后，本发明还涉及对电信系统中基于视频电话的应用(例如，视频会议)使用如上所述的噪声减小系统200b/c和相应的近端讲话人检测方法，所述应用运行在可视电话上，具有指向参加视频电话会话的讲话人S_i的面部的内置摄像机101b’。这尤其涉及以下场景，即：许多人坐在一个配备有许多摄像机和话筒的房间中造成讲话人的话音与其它人的话音相干扰。

表：描绘的特征和它们的相应的参考符号

序号	技术特征(系统部件或过程步骤)
序号	技术特征(系统部件或过程步骤)	100	具有视听用户接口的噪声减小和语音活动识别系统，所述系统特别适合于运行一个实时嘴唇跟踪应用，其组合通过检测和分析讲话人S_i的嘴唇运动和/或面部表情而从显示讲话人面部的数字视频序列v(nT)提取的视觉特征o_v，nT与从代表受到统计分布的背景噪声n’(t)干扰的所述讲话人S_i的话音的模拟音频序列s(t)提取的音频特征o_a，nT，其中除了代表所述讲话人S_i的话音的信号以外，所述音频序列s(t)包括环境噪声n(t)和在所述讲话人S_i的环境中周围人的干扰的话音的加权和∑_ja_j·s_j(t-T_j)(j≠i)
101a	话筒，被使用来记录代表受到统计分布的背景噪声n’(t)干扰的讲话人S_i的话音的模拟音频序列s(t)，该背景噪声包括环境噪声n(t)和在所述讲话人S_i的环境中周围人的干扰的话音的加权和∑_ja_j·s_j(t-T_j)(有j≠i)的	100
101a		101a’	模拟-数字变换器(ADC)，用于把由所述话筒101a记录的模拟音频序列s(t)变换到数字域。
101b	指向讲话人的面部的视频摄像机，用于记录显示所述讲话人S_i的嘴唇运动和/或面部表情的视频序列	101a’	模拟-数字变换器(ADC)，用于把由所述话筒101a记录的模拟音频序列s(t)变换到数字域。
101b	指向讲话人的面部的视频摄像机，用于记录显示所述讲话人S_i的嘴唇运动和/或面部表情的视频序列	101b’	如上所述的、具有集成的模拟-数字变换器(ADC)的视频摄像机
102	视频电话应用，用于发送显示讲话人的面部和在以后的图像中的嘴唇运动的视频序列	101b’	如上所述的、具有集成的模拟-数字变换器(ADC)的视频摄像机
102	视频电话应用，用于发送显示讲话人的面部和在以后的图像中的嘴唇运动的视频序列	104	自动视听语音识别系统100的可视前端，通过合并实施时嘴唇跟踪算法用于从其话音受到统计分布的背景噪声n’(t)干扰的讲话人S_i的嘴唇运动和/或面部表情得出附加的视觉特征而使用双模态方法进行语音识别和邻近讲话人检测，可视前端104包括用于连续或间断地确定讲话人面部的当前位置、跟踪在以后的图像中讲话人S_i的嘴唇运动和/或面部表情、和根据检测的嘴唇运动和/或面部表情确定讲话人的话音和发音的声音-音素语音特性的视觉特征提取和分析装置
104’	视觉特征提取模块，用于连续地跟踪讲话人S_i的嘴唇运动和/或面部表情、和根据检测的嘴唇运动和/或面部表情来确定讲话人的话音的声音-音素语音特性	104

Claims

1.一种具有视听用户接口的自动语音活动识别器的噪声减小系统，所述系统适合于运行一应用，用于组合从显示讲话人(S_i)的面部的数字视频序列(v(nT))提取的视觉特征( o _v，nT)与从一个被检测的模拟音频序列(s(t))提取的音频特征( o _a，nT)，其中所述音频序列(s(t))包括所述讲话人的口头发言以及在所述讲话人(S_i)的环境中的噪声和/或干扰的话音，所述噪声减小系统(200b/c)包括

-用于检测所述模拟音频序列(s(t))的装置(101a)和用于根据被检测的音频序列(s(t))确定该讲话人的话音和发声的声音-音素语音特性( o _a，nT)的音频特征提取和分析装置(106b)，以及

-用于检测所述视频序列(v(nT))的装置(101b’)，和视觉特征提取和分析装置(104a+b，104’+104”)，用于确定讲话人的面部的当前位置、在序列的图像中跟踪讲话人(S_i)的嘴唇运动和/或面部表情，且基于所检测的嘴唇运动和/或面部表情来确定该讲话人的话音和发声的声音-音素语音特性( o _v，nT)，

其特征为

一个噪声减小电路(106)，其特别适合于根据分别从被检测的模拟音频序列(s(t))或者从该数字视频序列(v(nT))提取的听觉( o _a，nT)和视觉语音特性( o _v，nT)的组合来把讲话人的话音与所述背景噪声(n’(t))分离开，其提供一个语音活动指示信号

该语音活动指示信号是通过从该模拟到数字变换的音频序列(s(nT))的离散信号频谱(S(k·Δf))减去所述背景噪声(n’(t))的估计的噪声功率密度谱

而计算的，所述估计的噪声功率密度谱是从该模拟到数字变换的音频信号(s(nT))的离散信号频谱(S_d(f))和由所述音频特征提取和分析装置(106b)和/或所述视觉特征提取和分析装置(104a+b，104’+104”)提供的音频或视听语音活动估值来计算的。

2.按照权利要求1的噪声减小系统，

其特征在于

用于在所述语音活动指示信号的实际电平降低到低于预定义的阈值时关断音频通道的装置(SW)。

3.按照权利要求1或2的任一项的噪声减小系统，

其特征为

一个多通道回声抵消单元(108)，其适合于使用由所述音频特征提取和分析装置(106b)提供的声音-音素语音特性( o _a，nT)与由所述视觉特征提取和分析装置(104a+b，104’+104”)从该数字视频序列(v(nT))提取的视觉特征( o _v，nT)而执行近端讲话人检测和含糊话语检测算法，所述多通道回声抵消单元(108)提供一个语音活动指示信号

和借助于所述声音-音素语音特性( o _a，nT)和所述视觉特征( o _v，nT)的组合而检测的有关近端讲话人(S_i)的讲话人识别信息。

4.按照权利要求1或2的任一项的噪声减小系统，

其特征在于

所述音频特征提取和分析装置(106b)是振幅检测器。

5.一种用于减小检测的模拟音频序列(s(t))的噪声电平的近端讲话人检测方法，

所述方法的特征在于以下步骤：

-使所述模拟音频序列(s(t))经历(S1)模拟-数字变换，

-通过执行快速富立叶变换(FFT)而计算(S2)模拟-数字变换的音频序列(s(nT))的相应的离散信号频谱(S(k·Δf))，

-通过分析从与模拟音频序列(s(t))的记录同时被记录的视频序列(v(nT))中提取的视觉特征( o _v，nT)而从所述信号频谱(S(k·Δf))中检测(S3)所述讲话人(S_i)的话音，该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人(S_i)的嘴唇运动和/或面部表情，

-根据讲话人检测步骤(S3)的结果，估计(S4)统计分布的背景噪声

的噪声功率密度谱(Φ_nn(f))，

-从模拟-数字变换的音频序列(s(nT))的离散信号频谱(S(k·Δf))中减去(S5)估计的噪声功率密度谱的离散化版本

以及

-通过执行快速富立叶反变换(IFFT)而计算(S6)所得到的差值信号的相应离散时域信号

由此产生识别的语音信号的离散版本。

6.按照权利要求5的近端讲话人检测方法，

其特征在于以下步骤，

根据由用于从跟踪讲话人面部的位置、在以后的图像中讲话人(S_i)的嘴唇运动和/或面部表情的视频序列(v(nT))中提取视觉特征( o _v，nT)的算法得到的声音-音素语音特性，执行(S7)一多通道回声抵消算法，该多通道回声抵消算法借助于自适应有限冲击响应(FIR)滤波器为回波路径冲击响应建模和从模拟音频序列(s(t))中减去回声信号。

7.按照权利要求6的近端讲话人检测方法，

其特征在于

所述多通道回声抵消算法执行含糊话语检测过程。

8.按照权利要求5到7的任一项的近端讲话人检测方法，

其特征在于

所述声音-音素语音特性是基于讲话人的嘴的张开分别作为清晰发音的元音或双元音的声能的估值，讲话人嘴唇的快速运动分别作为对于唇音或唇齿音辅音的暗示，以及在所述讲话人(S_i)的嘴唇的位置和运动与话音和发音之间的关联的其它统计检测的音素特性。

9.按照权利要求5到7的任一项的近端讲话人检测方法，

其特征在于

一种学习过程，用于通过分析从与模拟音频序列(s(t))的记录同时被记录的视频序列(v(nT))中提取的视觉特征( o _v，nT)而增强从模拟音频序列s(t)的模拟-数字变换的版本(s(nT))的离散信号频谱S(k·Δf)中检测(S3)所述讲话人(S_i)的话音的步骤，该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人(S_i)的嘴唇运动和/或面部表情。

10.按照权利要求5到7的任一项的近端讲话人检测方法，

其特征在于以下步骤

将模拟-数字变换的音频信号(s(nT))的延时版本(s(nT-τ))的离散信号频谱(S_τ(k·Δf))与通过带通滤波的离散信号频谱(S_τ(k·Δf))的振幅检测(S8b)得到的音频语音活动估值进行相关(S8a)，由此产生对于相应于代表所述讲话人话音的信号(s_i(t))的频谱(S_i(f))的估值

以及对于所述统计分布的背景噪声(n′(t))的噪声功率密度谱(Φ_nn(f))的估值

11.按照权利要求10的近端讲话人检测方法，

其特征在于

将模拟-数字变换的音频信号(s(nT))的延时版本(s(nT-τ))的离散信号频谱(S_τ(k·Δf))与取自由视觉特征提取和分析装置(104a+b，104’+104”)提供的视觉特征向量( o _v，t)的视觉语音活动估值进行相关(S9)，由此产生用来更新对于相应于代表所述讲话人话音信号(s_i(t))的频谱(S_i(f))的估值