CN100356446C - 近端讲话人检测方法 - Google Patents

近端讲话人检测方法 Download PDF

Info

Publication number
CN100356446C
CN100356446C CNB200480002628XA CN200480002628A CN100356446C CN 100356446 C CN100356446 C CN 100356446C CN B200480002628X A CNB200480002628X A CN B200480002628XA CN 200480002628 A CN200480002628 A CN 200480002628A CN 100356446 C CN100356446 C CN 100356446C
Authority
CN
China
Prior art keywords
teller
speech
audio
valuation
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB200480002628XA
Other languages
English (en)
Other versions
CN1742322A (zh
Inventor
M·塔内达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Mobile Communications AB
Original Assignee
Sony Ericsson Mobile Communications AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Ericsson Mobile Communications AB filed Critical Sony Ericsson Mobile Communications AB
Publication of CN1742322A publication Critical patent/CN1742322A/zh
Application granted granted Critical
Publication of CN100356446C publication Critical patent/CN100356446C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明总的涉及配备有视听用户接口的噪声减小系统的领域,具体地,涉及启用视频的电信设备的视听语音活动识别系统(200b/c),它运行一个实时嘴唇跟踪应用,该应用可以在讲话人的话音受到包括环境噪声(n(t))和周围人的话音的统计分布的背景噪声(n’(t))干扰的环境中有利地用于邻近讲话人检测算法。

Description

近端讲话人检测方法
发明领域和背景
本发明总的涉及基于语音活动识别的噪声减小的领域,具体地,涉及一种电信设备的视听用户接口,该电信设备运行一个应用,该应用有利地可以在讲话人的话音受到包括环境噪声以及周围人话音的统计分布的背景噪声干扰的环境中被使用于例如近端讲话人检测算法。
基于语音/暂停检测的语音信号的断续发送代表了用来改进新一代无线通信系统的频谱效率的有效解决方案。在本上下文中,需要健壮的话音活动检测算法,因为按照现有技术水平的传统解决方案,在存在背景噪声的典型移动环境中,呈现高的错误分类率。
话音活动检测器(VAD)的目的是即使对于低信号-噪声比(SNR)也能区分开语音信号与几种类型的声音背景噪声。所以,在典型的电话对话中,这样的VAD与舒适噪声生成器(CNG)一起被使用来达到静音压缩。在多媒体通信领域中,静音压缩允许一个语音信道被与其它类型的信息共享,因此保证同时的话音和数据应用。在基于断续传输(DTX)模式的诸如GSM的蜂窝无线系统中,VAD被应用来减小便携式设备的共道干扰和功耗。而且,VAD对于在提供可变比特速率(VBR)语音编码的、诸如UMTS的未来各代数字蜂窝网络中减小平均数据比特速率是必不可少的。大多数容量增益是由于在语音活动与不活动之间的不同而导致的。然而,基于语音学分类的语音编码方案的性能非常依赖分类器,后者对于每种类型的背景噪声都必须是健壮的。众所周知,VAD的性能对于总的语音质量十分关键,特别是在低SNR的情形下。在语音帧被检测为噪声的情形下,由于对话中语音的削减,智能性受到严重损害。另一方面,如果被检测为语音的噪声的百分数很高,则得不到静音压缩的潜在优点。在存在背景噪声的情形下,可能很难区分开语音和静音。因此,对于无线环境下的话音活动检测需要更有效的算法。
虽然在F.Beritelli,S.Casale,和A.Cavallaro的“Improved VAD G.729Annex B for Mobile Communications Using Soft Computing(用于使用软计算的移动通信的改进的VAD G.729附录B)”(Contribution ITU-T,Study Group16,Question 19/16,Washington,1997年9月2-5日)中提出的模糊话音活动检测器(FVAD)比文献中给出的其它解决方案执行得更好,但它呈现出活动增加,尤其是在存在非稳态噪声的情形下。FVAD的功能方案是基于传统的图案识别方法,其中用于语音活动/不活动分类的四个差分参数是:全频带能量差、低频带能量差、零交叉差和频谱失真。匹配阶段通过借助于如在M.Russo,的“FuGeNeSys:Fuzzy Genetic Neural System for FuzzyModeling(用于模糊建模的通用模糊神经系统(FuGeNeSys))”(出现在IEEETransaction on Fuzzy Systems)中描述的新混合学习工具自动得到的一组模糊法则执行。众所周知,模糊系统允许在两个数值之间的逐渐的、连续的过渡,而不是锐变。因此,模糊VAD返回范围从0(不活动)到1(活动)的连续的输出信号,这不依赖于是否单个输入信号已超过预定义的阈值,而是依赖于它们已假设的值的总体评估(“去模糊化处理”)。通过把模糊系统的输出(在0与1之间的范围内变化)和在C.B.Southcott等的“Voice Control ofPan-European Digital Mobile Radio System(泛欧洲数字移动无线系统)”,(ICC’89,第1070-1074页)中描述的、通过实验选择的固定阈值相比较而作出最后判决。
正如话音活动检测器那样,当在嘈杂的环境下工作时,传统的自动语音识别(ASR)系统也遇到困难,因为传统ASR算法的精度在嘈杂环境下大大地降低。当讲话人在包括环境噪声和周围人的干扰话音在内的嘈杂环境下谈话时,话筒不单拾取讲话人的话音而且也拾取这些背景声音。因此,所处理的是包括叠加上所述背景声音的讲话人话音的音频信号。干扰声音越响,讲话人的声音的易理解性减小得越多。为了克服这个问题,加上了利用环境噪声和各个讲话人话音的不同频率区域的噪声减小电路。
在图2a上显示了一种用于基于电话的应用的典型噪声减小电路,其基于一种按照现有技术水平的语音活动估计算法,实施一种用于把经模数变换的音频信号s(t)的离散信号频谱S(k·Δf)与音频语音活动估值进行相关的方法。所述音频语音活动估值是通过数字音频信号s(nT)的振幅检测而得到的。该电路输出一个噪声减小的音频信号i(nT),它是通过使离散信号频谱S(k·Δf)与统计分布的背景噪声
Figure C20048000262800072
的估计的噪声功率密度谱
Figure C20048000262800073
的采样版本
Figure C20048000262800074
的差值经历快速富立叶反变换(IFFT)而被计算的。
现有技术概述
在US 5,313,522中描述的发明涉及一种用于使参加电话对话的听力受损害的人易于理解的设备,该设备包括用于把接收的音频语音信号变换成一系列音素的电路和用于把该电路耦合到POTS线路的装置。由此,该电路包括把检测的音素序列与讲话人的记录的嘴唇运动进行相关以及在显示设备上在以后的图像中显示这些嘴唇运动的装置,由此许可听力受损害的人在收听电话对话的同时,进行嘴唇读出过程,这提高了个人的理解水平。
在WO 99/52097中公开的发明涉及一种通信设备和方法,用于感测讲话人的嘴唇运动,生成相应于所检测的所述讲话人嘴唇运动的音频信号和发送所述音频信号,由此感知环境噪声电平及因此而控制要发送的音频信号的功率电平。
发明目的
从上述的现有技术水平看来,本发明的目的是增强基于电话的话音活动检测(VAD)系统的语音/暂停检测精度。具体地,本发明的目的是提高在其中讲话人的声音被环境噪声和/或周围人的话音严重干扰的拥挤环境下记录的语音信号的信号-干扰比(SIR)。
上述的目的是借助于在独立权利要求中的特征而得到的。有利的特征在从属权利要求中规定。
发明概要
本发明致力于一种具有视听用户接口的噪声减小和自动语音活动识别系统,其中所述系统适配于运行一种用于组合视觉特征向量ov,nT与音频特征向量oa,nT的应用,该视觉特征向量ov,nT包括通过检测和分析所述讲话人Si的例如嘴唇运动和/或面部表情而从显示讲话人面部的数字视频序列v(nT)提取的特征,而该音频特征向量oa,nT包括从记录的模拟音频序列s(t)提取的特征。所述音频序列s(t)由此代表受到统计分布的背景噪声干扰的所述讲话人Si的话音
n’(t)=n(t)+SInt(t),    (1)
它包括环境噪声n(t)和在所述讲话人Si的环境中周围人的干扰话音的加权和:
Figure C20048000262800081
a j = 1 4 π · R jM 2 [ m - 2 ] - - - ( 2 b )
由此,N表示讲话人(包括所述讲话人Si在内)的总数,aj是在讲话人Si的环境中第j个讲话人Sj的干扰信号sj(t)的衰减因子,Tj是sj(t)的延时,以及RjM表示在第j个讲话人与记录音频信号s(t)的话筒之间的距离。通过跟踪讲话人的嘴唇运动,提取视觉特征,然后该视觉特征可以被分析和被用于进一步处理。为此,双模态感知的用户接口包括指向讲话人面部、用于记录显示所述讲话人Si的嘴唇运动和/或面部表情的数字视频序列v(nT)的视频摄像机;用于根据记录的音频序列s(t)确定讲话人的话音和发音的声音-音素语音特性的音频特征提取和分析装置;以及用于连续或间断地确定讲话人面部的当前位置、跟踪在以后的图像中讲话人的嘴唇运动和/或面部表情、和根据检测的嘴唇运动和/或面部表情确定讲话人的话音和发音的声音-音素语音特性的视觉特征提取和分析装置。
按照本发明,上述的提取的和分析的视觉特征被馈送到一个噪声减小电路,需要该噪声减小电路来增加记录的音频信号s(t)的信号-干扰比(SIR)。所述噪声减小电路特别适合于通过根据得到的声音-音素语音特性把讲话人的话音与所述背景噪声
Figure C20048000262800091
分离开而执行近端讲话人检测:
oav,nT:=[oa,nT T,ov,nT T]T  (3)
它输出一个话音活动指示信号(i(nT)),该话音活动指示信号通过组合由所述音频特征提取和分析装置与所述视觉特征提取和分析装置所提供的语音活动估值而得到。
附图简述
从以下的说明、所附权利要求、和附图将明白本发明的有利的特征、方面、和有用的实施例。其中:
图1显示具有视听用户接口的噪声减小和语音活动识别系统,所述系统特别适配于运行一个实时跟踪应用,该应用组合视觉特征ov,nT与音频特征oa,nT,该视觉特征通过检测和分析讲话人Si的嘴唇运动和/或面部表情而从显示讲话人面部的数字视频序列v(nT)中提取,而该音频特征从代表受到统计分布的背景噪声n’(t)干扰的所述讲话人Si的话音的模拟音频序列s(t)中提取,
图2a是一个框图,显示按照现有技术水平的、根据音频语音活动估计用于基于电话的应用的传统噪声减小和语音活动识别系统,
图2b显示用于按照本发明的一个实施例、基于电话的应用的摄像机增强的噪声减小和语音活动识别系统的例子,它实施视听语音活动估计算法,
图2c显示用于按照本发明的另一个实施例、基于电话的应用的摄像机增强的噪声减小和语音活动识别系统的例子,它实施视听语音活动估计算法,
图3a显示一个流程图,说明按照本发明的图1所示实施例、用于减小检测的模拟音频序列s(t)的噪声电平的近端讲话人检测方法,
图3b是显示按照本发明的图2b所示的实施例的近端讲话人检测方法的流程图,以及
图3c是显示按照本发明的图2c所示的实施例的近端讲话人检测方法的流程图。
发明详细说明
下面将更详细地说明如图1,2b,2c,和3a-c所示的本发明的不同实施例。用图1到3c上的参考数字和符号表示的符号的意义可以从附表取得。
按照如图1所示的本发明的第一实施例,所述噪声减小和语音活动识别系统100包括噪声减小电路106,它特别适合于减小由话筒101a接收的背景噪声n’(t)和通过把讲话人的话音与所述背景噪声n’(t)分离开而进行邻近讲话人检测,以及包括多通道回声抵消单元108,它特别适合于根据分别借助于上述的音频和视觉特征提取和分析装置104a+b和106b得到的声音-音素语音特性来执行近端讲话人检测和/或含糊话语(double-talk)检测算法。由此,所述声音-音素语音特性是基于:讲话人的嘴的张开分别作为清晰发音的元音或双元音的声能的估值,讲话人嘴唇的快速运动作为对于唇音或唇齿音辅音(例如,爆破音、摩擦音或塞擦音素--分别是浊音或清音)的暗示,以及在讲话人Si嘴唇的位置和运动与话音和发音之间的关联的其它统计检测的音素特性。
上述的噪声减小电路106包括:用于通过执行快速富立叶变换(FFT)而计算相应于记录的音频序列s(t)的模拟-数字变换版本s(nT)的离散信号频谱S(k·Δf)的数字信号处理装置106a;用于根据记录的音频序列s(t)检测讲话人的话音和发音的声音-音素语音特性的音频特征提取和分析装置106b(例如,振幅检测器);用于根据由所述音频特征提取和分析装置106b执行的讲话人检测过程的结果而估计统计分布的背景噪声n’(t)的噪声功率密度谱的装置106c;用于从模拟-数字变换的音频序列s(nT)的离散信号频谱S(k·Δf)中减去估计的噪声功率密度谱
Figure C20048000262800102
的离散化版本
Figure C20048000262800103
的相减单元106d;以及用于通过执行快速富立叶反变换(IFFT)而计算所得到的差值信号的相应离散时域信号i(nT)的数字信号处理装置106e。
所描绘的噪声减小和语音活动识别系统100包括:音频特征提取和分析装置106b,被使用来根据记录的音频序列s(t)而确定讲话人的话音和发音的声音-音素语音特性(oa,nT);以及视觉特征提取和分析装置104a+b,用于以1帧/秒的数据速率确定讲话人的面部的当前位置,以15帧/秒的数据速率跟踪所述讲话人Si的嘴唇运动和/或面部表情,和根据检测的嘴唇运动和/或面部表情而确定讲话人的话音和发音的声音-音素语音特性(ov,nT)。
如图1所示,所述噪声减小系统200b/c可以有利地被使用于在启用视频的电话102上运行的、电信系统中的基于视频电话的应用,该视频电话配备有指向参加视频电话会话的讲话人Si面部的内置视频摄像机101b’。
图2b显示用于按照本发明的一个实施例的、基于电话的应用的、缓慢的摄像机增强的噪声减小和语音活动识别系统200b的例子,它实施视听语音活动估计算法。由此,把取自由所述音频特征提取和分析装置106b提供的音频特征向量oa,t的音频语音活动估值与另一个语音活动估值进行相关,后者是通过计算离散信号频谱S(k·Δf)与统计分布的背景噪声n’(t)的估计的噪声功率密度谱
Figure C20048000262800111
的采样版本
Figure C20048000262800112
的差值而得到的。所述音频语音活动估值是通过模拟-数字变换的音频信号s(t)的、经带通滤波的离散信号频谱S(k·Δf)的振幅检测而得到的。
类似于图1所示的实施例,图2b所描绘的噪声减小和语音活动识别系统200b包括:用于根据记录的音频序列s(t)而确定讲话人的话音和发音的声音-音素语音特性(Oa,nT)的音频特征提取和分析装置106b(例如,振幅检测器);以及用于以1帧/秒的数据速率确定讲话人面部的当前位置,以15帧/秒的数据速率跟踪所述讲话人Si的嘴唇运动和面部表情,和根据检测的嘴唇运动和/或面部表情而确定讲话人的话音和发音的声音-音素语音特性(ov,nT)的视觉特征提取和分析装置104’和104”。由此,所述音频特征提取和分析装置106b可被简单地实现为振幅检测器。
除了以上参照图1描述的部件106a-e以外,图2b所描绘的噪声减小电路106包括:延时单元204,它提供模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)的延时版本;第一乘法器单元107a,被使用来将模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱Sτ(k·Δf)与取自由视觉特征提取和分析装置104a+b和/或104’+104”提供的视觉特征向量ov,t的视觉语音活动估值进行相关(S9),因此产生用来更新对于相应于代表所述讲话人话音的信号si(t)的频谱Si(f)的估值
Figure C20048000262800113
的另一个估值
Figure C20048000262800114
以及用于更新对于统计分布的背景噪声n’(t)的噪声功率密度谱Φnn(f)的估值
Figure C20048000262800115
的另一个估值
Figure C20048000262800121
以及第二乘法器单元107,被使用来将模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱Sτ(k·Δf)与通过带通滤波的离散信号频谱S(k·ΔF)的振幅检测(S8b)而得到的音频语音活动估值进行相关(S8a),因此产生对于相应于代表所述讲话人话音的信号si(t)的频谱Si(f)的估值
Figure C20048000262800122
和对于所述背景噪声n’(t)的噪声功率密度谱Φnn(F)的估值
Figure C20048000262800123
采样与保持(S&H)单元106d’提供估计的噪声功率密度谱
Figure C20048000262800124
的采样版本
Figure C20048000262800125
噪声减小电路106还包括具有可调节的截止频率的带通滤波器,它被使用来对模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)进行滤波。截止频率可以根据估计的语音信号频谱
Figure C20048000262800126
的带宽被调节。开关106f被提供用于在第一和第二模式之间选择地切换,以便分别通过使用或不使用所建议的、提供噪声减小语音信号i(t)的视听语音识别方法来接收所述语音信号si(t)。按照本发明的另一方面,提供了用于当语音活动指示信号 的实际电平降低到低于预定义的阈值(未示出)时关断所述话筒101a的装置。
在图2c上显示一个用于按照本发明的另一个实施例、基于电话的应用的、快速摄像机增强的噪声减小和语音活动识别系统200c的例子,它实施视听语音活动估计算法。电路把模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)与视听语音活动估值的延时版本和通过计算离散信号频谱S(k·Δf)与估计的噪声功率密度谱
Figure C20048000262800129
的采样版本
Figure C200480002628001210
的差值而得到的另一个语音活动估值进行相关。上述的视听语音活动估值是取自通过组合由所述音频特征提取和分析装置106b提供的音频特征向量oa,t与由所述视觉语音活动检测模块104”提供的视觉特征向量ov,t而得到的视听特征向量oav,t
除了以上参照图1描述的部件以外,图2c上所描绘的噪声减小电路106包括求和单元107c,它被使用来把由音频特征提取和分析装置106b提供的音频语音活动估值加到(S11a)由视觉特征提取和分析装置104’和104”提供的视觉语音活动估值上,因此产生视听语音活动估值,该音频特征提取和分析装置用于根据记录的音频序列s(t)而确定讲话人的话音和发音的声音-音素语音特性(oa,nT),而该视觉特征提取和分析装置用于以1帧/秒的数据速率而确定讲话人面部的当前位置,以15帧/秒的数据速率跟踪所述讲话人Si的嘴唇运动和面部表情,和根据检测的嘴唇运动和/或面部表情而确定讲话人话音和发音的声音-音素语音特性(ov,nT)。噪声减小电路106还包括乘法器单元107’,它被使用来将模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)与通过组合由所述音频特征提取和分析装置106b提供的音频特征向量oa,t和由所述视觉语音活动检测模块104”提供的视觉特征向量ov,t而得到的视听语音活动估值进行相关(S11b),由此产生对于相应于代表所述讲话人话音的信号si(t)的频谱Si(f)的估值
Figure C20048000262800131
和对于统计分布的背景噪声n’(t)的噪声功率密度谱Φnn(f)的估值 采样与保持(S&H)单元106d’提供估计的噪声功率密度谱
Figure C20048000262800133
的采样版本
Figure C20048000262800134
噪声减小电路106还包括具有可调节的截止频率的带通滤波器,它被使用来对模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)进行滤波。所述截止频率可以根据估计的语音信号频谱 的带宽被调节。开关106f被提供用于在第一和第二模式之间选择地切换,以便分别通过使用或不使用所建议的、提供噪声减小的语音信号i(t)的视听语音识别方法来接收所述语音信号si(t)。按照本发明的另一方面,所述噪声减小系统200c包括用于当语音活动指示信号i(nT)的实际电平降低到低于预定的阈值(未示出)时关断所述话筒101a的装置。
本发明的再一个实施例针对如图3a所示的流程图上显示的近端讲话人检测方法。所述方法是减小受到统计分布的背景噪声n’(t)干扰的记录的模拟音频序列s(t)的噪声电平,所述音频序列代表讲话人Si的话音。在使模拟音频序列s(t)经历模拟-数字变换(S1)后,通过执行快速富立叶变换(FFT)而计算(S2)模拟-数字变换的音频序列s(nT)的相应的离散信号频谱S(k·Δf),以及通过分析从与模拟音频序列s(t)的记录同时被记录的视频序列中提取的视觉特征,而从所述信号频谱S(k·Δf)中检测(S3)所述讲话人Si的话音,该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人Si的嘴唇运动和/或面部表情。接着,根据讲话人检测步骤(S3)的结果来估计(S4)统计分布的背景噪声n’(t)的噪声功率密度谱
Figure C20048000262800138
此后从模拟-数字变换的音频序列s(nT)的离散频谱S(k·Δf)中减去(S5)估计的噪声功率密度谱 的采样版本
Figure C200480002628001310
最后,通过执行快速富立叶反变换(IFFT)而计算(S6)所得到的差值信号的相应的离散时域信号i(nT),该差值信号代表识别的语音信号的离散版本。
任选地,可以根据声音-音素语音特性来进行(S7)一种多通道回声抵消算法,该算法借助于自适应有限冲击响应(FIR)滤波器而为回波路径冲击响应建模并从模拟音频序列s(t)中减去回波信号,而该声音-音素语音特性是通过一种用于从跟踪讲话人面部的位置、在以后的图像中讲话人Si的嘴唇运动和/或面部表情的视频序列中提取视觉特征的算法而得到的。所述多通道回声抵消算法由此执行含糊话语检测过程。
按照本发明的另一个方面,应用一种学习过程,它通过分析从与模拟音频序列s(t)的记录同时被记录的视频序列中提取的视觉特征而增强从模拟音频序列s(t)的模拟-数字变换的版本s(nT)的离散信号频谱S(k·Δf)中检测(S3)所述讲话人Si的话音的步骤,该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人Si的嘴唇运动和/或面部表情。
在如图3a+b所示的流程图上显示的本发明的一个实施例中,提出一种近端讲话人检测方法,其特征在于将模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱Sτ(k·Δf)与通过带通滤波的离散信号频谱S(k·Δf)的振幅检测(S8b)得到的音频语音活动估值进行相关(S8a)的步骤,由此产生对于相应于代表所述讲话人的话音的信号si(t)的频谱Si(f)的估值
Figure C20048000262800141
和对于所述背景噪声 的噪声功率密度谱Φnn(f)的估值
Figure C20048000262800143
而且,模拟-数字变换的音频信号s(nT)的延时版本s(nT-τ)的离散信号频谱Sτ(k·Δf)与取自由视觉特征提取和分析装置104a+b和/或104’+104”提供的视觉特征向量ov,t的视觉语音活动估值进行相关(S9),因此产生用来更新对于相应于代表所述讲话人话音信号si(t)的频谱Si(f)的估值 的另一个估值
Figure C20048000262800145
以及用于更新对于统计分布的背景噪声n’(t)的噪声功率密度谱Φnn(f)的估值
Figure C20048000262800146
的另一个估值
Figure C20048000262800147
噪声减小电路106由此提供带通滤波器204,用于对模拟-数字变换的音频信号s(t)的离散信号频谱Sτ(k·Δf)进行滤波,其中所述带通滤波器204的截止频率根据估计的语音信号频谱 的带宽被调节(S10)。
在如图3a+c所示的流程图上显示的本发明的另一个实施例中,提出一种近端讲话人检测方法,其特征在于把通过模拟-数字变换的音频信号s(t)的带通滤波的离散信号频谱S(k·Δf)的振幅检测得到的音频语音活动估值加到(S11a)取自由所述视觉特征提取和分析装置104a+b和/或104’+104”提供的音视觉特征向量ov,t的视觉语音活动估值的步骤,由此产生视听语音活动估值。按照本实施例,离散信号频谱S(k·Δf)与视听语音活动估值进行相关(S11b),由此产生对于相应于代表所述讲话人话音的信号si(t)的频谱Si(f)的估值
Figure C20048000262800149
以及对于统计分布的背景噪声n’(t)的噪声功率密度谱Φnn(f)的估值
Figure C200480002628001410
被使用来对模拟-数字变换的音频信号s(t)的离散信号频谱S(k·Δf)进行滤波的带通滤波器204的截止频率是根据估计的语音信号频谱 的带宽被调节的(S11c)。
最后,本发明还涉及对电信系统中基于视频电话的应用(例如,视频会议)使用如上所述的噪声减小系统200b/c和相应的近端讲话人检测方法,所述应用运行在可视电话上,具有指向参加视频电话会话的讲话人Si的面部的内置摄像机101b’。这尤其涉及以下场景,即:许多人坐在一个配备有许多摄像机和话筒的房间中造成讲话人的话音与其它人的话音相干扰。
表:描绘的特征和它们的相应的参考符号
序号 技术特征(系统部件或过程步骤)
100 具有视听用户接口的噪声减小和语音活动识别系统,所述系统特别适合于运行一个实时嘴唇跟踪应用,其组合通过检测和分析讲话人Si的嘴唇运动和/或面部表情而从显示讲话人面部的数字视频序列v(nT)提取的视觉特征ov,nT与从代表受到统计分布的背景噪声n’(t)干扰的所述讲话人Si的话音的模拟音频序列s(t)提取的音频特征oa,nT,其中除了代表所述讲话人Si的话音的信号以外,所述音频序列s(t)包括环境噪声n(t)和在所述讲话人Si的环境中周围人的干扰的话音的加权和∑jaj·sj(t-Tj)(j≠i)
101a 话筒,被使用来记录代表受到统计分布的背景噪声n’(t)干扰的讲话人Si的话音的模拟音频序列s(t),该背景噪声包括环境噪声n(t)和在所述讲话人Si的环境中周围人的干扰的话音的加权和∑jaj·sj(t-Tj)(有j≠i)的
101a’ 模拟-数字变换器(ADC),用于把由所述话筒101a记录的模拟音频序列s(t)变换到数字域。
101b 指向讲话人的面部的视频摄像机,用于记录显示所述讲话人Si的嘴唇运动和/或面部表情的视频序列
101b’ 如上所述的、具有集成的模拟-数字变换器(ADC)的视频摄像机
102 视频电话应用,用于发送显示讲话人的面部和在以后的图像中的嘴唇运动的视频序列
104 自动视听语音识别系统100的可视前端,通过合并实施时嘴唇跟踪算法用于从其话音受到统计分布的背景噪声n’(t)干扰的讲话人Si的嘴唇运动和/或面部表情得出附加的视觉特征而使用双模态方法进行语音识别和邻近讲话人检测,可视前端104包括用于连续或间断地确定讲话人面部的当前位置、跟踪在以后的图像中讲话人Si的嘴唇运动和/或面部表情、和根据检测的嘴唇运动和/或面部表情确定讲话人的话音和发音的声音-音素语音特性的视觉特征提取和分析装置
104’ 视觉特征提取模块,用于连续地跟踪讲话人Si的嘴唇运动和/或面部表情、和根据检测的嘴唇运动和/或面部表情来确定讲话人的话音的声音-音素语音特性
Figure C20048000262800171
Figure C20048000262800181
Figure C20048000262800201
Figure C20048000262800211
Figure C20048000262800221

Claims (15)

1.一种具有视听用户接口的自动语音活动识别器的噪声减小系统,所述系统适合于运行一应用,用于组合从显示讲话人(Si)的面部的数字视频序列(v(nT))提取的视觉特征( o v,nT)与从一个被检测的模拟音频序列(s(t))提取的音频特征( o a,nT),其中所述音频序列(s(t))包括所述讲话人的口头发言以及在所述讲话人(Si)的环境中的噪声和/或干扰的话音,所述噪声减小系统(200b/c)包括
-用于检测所述模拟音频序列(s(t))的装置(101a)和用于根据被检测的音频序列(s(t))确定该讲话人的话音和发声的声音-音素语音特性( o a,nT)的音频特征提取和分析装置(106b),以及
-用于检测所述视频序列(v(nT))的装置(101b’),和视觉特征提取和分析装置(104a+b,104’+104”),用于确定讲话人的面部的当前位置、在序列的图像中跟踪讲话人(Si)的嘴唇运动和/或面部表情,且基于所检测的嘴唇运动和/或面部表情来确定该讲话人的话音和发声的声音-音素语音特性( o v,nT),
其特征为
一个噪声减小电路(106),其特别适合于根据分别从被检测的模拟音频序列(s(t))或者从该数字视频序列(v(nT))提取的听觉( o a,nT)和视觉语音特性( o v,nT)的组合来把讲话人的话音与所述背景噪声(n’(t))分离开,其提供一个语音活动指示信号
Figure C2004800026280002C1
该语音活动指示信号是通过从该模拟到数字变换的音频序列(s(nT))的离散信号频谱(S(k·Δf))减去所述背景噪声(n’(t))的估计的噪声功率密度谱
Figure C2004800026280002C2
而计算的,所述估计的噪声功率密度谱 是从该模拟到数字变换的音频信号(s(nT))的离散信号频谱(Sd(f))和由所述音频特征提取和分析装置(106b)和/或所述视觉特征提取和分析装置(104a+b,104’+104”)提供的音频或视听语音活动估值来计算的。
2.按照权利要求1的噪声减小系统,
其特征在于
用于在所述语音活动指示信号 的实际电平降低到低于预定义的阈值时关断音频通道的装置(SW)。
3.按照权利要求1或2的任一项的噪声减小系统,
其特征为
一个多通道回声抵消单元(108),其适合于使用由所述音频特征提取和分析装置(106b)提供的声音-音素语音特性( o a,nT)与由所述视觉特征提取和分析装置(104a+b,104’+104”)从该数字视频序列(v(nT))提取的视觉特征( o v,nT)而执行近端讲话人检测和含糊话语检测算法,所述多通道回声抵消单元(108)提供一个语音活动指示信号
Figure C2004800026280003C1
和借助于所述声音-音素语音特性( o a,nT)和所述视觉特征( o v,nT)的组合而检测的有关近端讲话人(Si)的讲话人识别信息。
4.按照权利要求1或2的任一项的噪声减小系统,
其特征在于
所述音频特征提取和分析装置(106b)是振幅检测器。
5.一种用于减小检测的模拟音频序列(s(t))的噪声电平的近端讲话人检测方法,
所述方法的特征在于以下步骤:
-使所述模拟音频序列(s(t))经历(S1)模拟-数字变换,
-通过执行快速富立叶变换(FFT)而计算(S2)模拟-数字变换的音频序列(s(nT))的相应的离散信号频谱(S(k·Δf)),
-通过分析从与模拟音频序列(s(t))的记录同时被记录的视频序列(v(nT))中提取的视觉特征( o v,nT)而从所述信号频谱(S(k·Δf))中检测(S3)所述讲话人(Si)的话音,该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人(Si)的嘴唇运动和/或面部表情,
-根据讲话人检测步骤(S3)的结果,估计(S4)统计分布的背景噪声
Figure C2004800026280003C2
的噪声功率密度谱(Φnn(f)),
-从模拟-数字变换的音频序列(s(nT))的离散信号频谱(S(k·Δf))中减去(S5)估计的噪声功率密度谱 的离散化版本
Figure C2004800026280003C4
以及
-通过执行快速富立叶反变换(IFFT)而计算(S6)所得到的差值信号的相应离散时域信号
Figure C2004800026280003C5
由此产生识别的语音信号的离散版本。
6.按照权利要求5的近端讲话人检测方法,
其特征在于以下步骤,
根据由用于从跟踪讲话人面部的位置、在以后的图像中讲话人(Si)的嘴唇运动和/或面部表情的视频序列(v(nT))中提取视觉特征( o v,nT)的算法得到的声音-音素语音特性,执行(S7)一多通道回声抵消算法,该多通道回声抵消算法借助于自适应有限冲击响应(FIR)滤波器为回波路径冲击响应建模和从模拟音频序列(s(t))中减去回声信号。
7.按照权利要求6的近端讲话人检测方法,
其特征在于
所述多通道回声抵消算法执行含糊话语检测过程。
8.按照权利要求5到7的任一项的近端讲话人检测方法,
其特征在于
所述声音-音素语音特性是基于讲话人的嘴的张开分别作为清晰发音的元音或双元音的声能的估值,讲话人嘴唇的快速运动分别作为对于唇音或唇齿音辅音的暗示,以及在所述讲话人(Si)的嘴唇的位置和运动与话音和发音之间的关联的其它统计检测的音素特性。
9.按照权利要求5到7的任一项的近端讲话人检测方法,
其特征在于
一种学习过程,用于通过分析从与模拟音频序列(s(t))的记录同时被记录的视频序列(v(nT))中提取的视觉特征( o v,nT)而增强从模拟音频序列s(t)的模拟-数字变换的版本(s(nT))的离散信号频谱S(k·Δf)中检测(S3)所述讲话人(Si)的话音的步骤,该视频序列跟踪讲话人面部的当前位置、在以后的图像中讲话人(Si)的嘴唇运动和/或面部表情。
10.按照权利要求5到7的任一项的近端讲话人检测方法,
其特征在于以下步骤
将模拟-数字变换的音频信号(s(nT))的延时版本(s(nT-τ))的离散信号频谱(Sτ(k·Δf))与通过带通滤波的离散信号频谱(Sτ(k·Δf))的振幅检测(S8b)得到的音频语音活动估值进行相关(S8a),由此产生对于相应于代表所述讲话人话音的信号(si(t))的频谱(Si(f))的估值
Figure C2004800026280004C1
以及对于所述统计分布的背景噪声(n′(t))的噪声功率密度谱(Φnn(f))的估值
Figure C2004800026280004C2
11.按照权利要求10的近端讲话人检测方法,
其特征在于
将模拟-数字变换的音频信号(s(nT))的延时版本(s(nT-τ))的离散信号频谱(Sτ(k·Δf))与取自由视觉特征提取和分析装置(104a+b,104’+104”)提供的视觉特征向量( o v,t)的视觉语音活动估值进行相关(S9),由此产生用来更新对于相应于代表所述讲话人话音信号(si(t))的频谱(Si(f))的估值
Figure C2004800026280004C3
的另一个估值
Figure C2004800026280004C4
以及用于更新对于统计分布的背景噪声(n’(t))的噪声功率密度谱(Φnn(f))的估值
Figure C2004800026280004C5
的另一个估值
Figure C2004800026280004C6
12.按照权利要求10的近端讲话人检测方法,
其特征在于
根据估计的语音信号频谱
Figure C2004800026280004C7
的带宽而调节(S10)被使用来对模拟-数字变换的音频信号(s(t))的离散信号频谱(S(k·Δf))进行滤波的带通滤波器(204)的截止频率。
13.按照权利要求5到7的任一项的近端讲话人检测方法,
其特征在于以下步骤
-将通过模拟-数字变换的音频信号(s(t))的带通滤波的离散信号频谱(S(k·Δf))的振幅检测得到的音频语音活动估值加到(S11a)取自由所述视觉特征提取和分析装置(104a+b,104’+104”)提供的视觉特征向量( o v,t)的视觉语音活动估值,由此产生视听语音活动估值,
-将离散信号频谱(S(k·Δf))与视听语音活动估值进行相关(S11b),由此产生对于相应于代表所述讲话人话音信号(si(t))的频谱(Si(f))的估值
Figure C2004800026280005C1
以及对于统计分布的背景噪声(n’(t))的噪声功率密度谱(Φnn(f))的估值
Figure C2004800026280005C2
以及
-根据估计的语音信号频谱
Figure C2004800026280005C3
的带宽而调节(S11c)被使用来对模拟-数字变换的音频信号(s(t))的离散信号频谱(S(k·Δf))进行滤波的带通滤波器(204)的截止频率。
14.一种用于根据在电信系统中的应用操作视频电话的方法,该电信系统运行在具有指向参加视频电话会话的讲话人(Si)面部的内置视频摄像机(101b’)的、启用视频的电话上,
其特征为
一个按照权利要求1-4的任一项的噪声减小系统(200b/c)适于执行按照权利要求5-13的任一项的近端讲话人检测方法。
15.一种配备有视听用户接口的电信设备,
其特征在于,
按照权利要求1到4的任一项的噪声减小系统(200b/c)。
CNB200480002628XA 2003-01-24 2004-01-09 近端讲话人检测方法 Expired - Fee Related CN100356446C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03001637.2 2003-01-24
EP03001637 2003-01-24
EP03022561.9 2003-10-02

Publications (2)

Publication Number Publication Date
CN1742322A CN1742322A (zh) 2006-03-01
CN100356446C true CN100356446C (zh) 2007-12-19

Family

ID=36094003

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200480002628XA Expired - Fee Related CN100356446C (zh) 2003-01-24 2004-01-09 近端讲话人检测方法

Country Status (3)

Country Link
CN (1) CN100356446C (zh)
AT (1) ATE389934T1 (zh)
DE (1) DE60319796T2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656070B (zh) * 2008-08-22 2012-01-04 展讯通信(上海)有限公司 一种语音检测方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682273A (zh) * 2011-03-18 2012-09-19 夏普株式会社 嘴唇运动检测设备和方法
CN103325385B (zh) * 2012-03-23 2018-01-26 杜比实验室特许公司 语音通信方法和设备、操作抖动缓冲器的方法和设备
CN102646418B (zh) * 2012-03-29 2014-07-23 北京华夏电通科技股份有限公司 一种远程音频交互的多路声学回音消除方法及系统
PT2951815T (pt) * 2013-01-29 2018-03-29 Fraunhofer Ges Forschung Codificadores de áudio, descodificadores de áudio, sistemas, métodos e programas de computador utilizando uma resolução temporal aumentada na proximidade temporal de inícios ou cessações de fricativos ou africativos
CN103617801B (zh) * 2013-12-18 2017-09-29 联想(北京)有限公司 语音检测方法、装置及电子设备
CN105321523A (zh) * 2014-07-23 2016-02-10 中兴通讯股份有限公司 噪音抑制方法和装置
CN104133404B (zh) * 2014-07-23 2016-09-07 株洲南车时代电气股份有限公司 一种信号处理方法及装置
CN104537227B (zh) * 2014-12-18 2017-06-30 中国科学院上海高等研究院 变电站噪声分离方法
JP6230726B2 (ja) * 2014-12-18 2017-11-15 三菱電機株式会社 音声認識装置および音声認識方法
CN106155707B (zh) * 2015-03-23 2020-02-21 联想(北京)有限公司 信息处理方法及电子设备
CN104991754B (zh) * 2015-06-29 2018-03-16 小米科技有限责任公司 录音方法及装置
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN106443071B (zh) * 2016-09-20 2019-09-13 中国科学院上海微系统与信息技术研究所 噪声可识别的高量程加速度传感器共振频率的提取方法
WO2019008580A1 (en) * 2017-07-03 2019-01-10 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置
CN109040641B (zh) * 2018-08-30 2020-10-16 维沃移动通信有限公司 一种视频数据合成方法及装置
CN111768760B (zh) * 2020-05-26 2023-04-18 云知声智能科技股份有限公司 一种多模态语音端点检测方法及装置
CN111899723A (zh) * 2020-08-28 2020-11-06 北京地平线机器人技术研发有限公司 语音激活状态检测方法和装置
CN112289340B (zh) * 2020-11-03 2024-05-07 北京猿力未来科技有限公司 音频检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
WO2002084644A1 (de) * 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
US20030007633A1 (en) * 2001-01-26 2003-01-09 Tucker Luke A. Double-talk detector suitable for a telephone-enabled PC

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
US20030007633A1 (en) * 2001-01-26 2003-01-09 Tucker Luke A. Double-talk detector suitable for a telephone-enabled PC
WO2002084644A1 (de) * 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656070B (zh) * 2008-08-22 2012-01-04 展讯通信(上海)有限公司 一种语音检测方法

Also Published As

Publication number Publication date
DE60319796D1 (de) 2008-04-30
DE60319796T2 (de) 2009-05-20
CN1742322A (zh) 2006-03-01
ATE389934T1 (de) 2008-04-15

Similar Documents

Publication Publication Date Title
CN100356446C (zh) 近端讲话人检测方法
US7684982B2 (en) Noise reduction and audio-visual speech activity detection
Bhat et al. A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
JP5607627B2 (ja) 信号処理装置及び信号処理方法
CN107293286B (zh) 一种基于网络配音游戏的语音样本收集方法
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN110300001A (zh) 会议音频控制方法、系统、设备及计算机可读存储介质
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN102723078A (zh) 基于自然言语理解的语音情感识别方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN112382301B (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
CN110277087A (zh) 一种广播信号预判预处理方法
Wand et al. Analysis of phone confusion in EMG-based speech recognition
Kekre et al. Speaker recognition using Vector Quantization by MFCC and KMCG clustering algorithm
Fraile et al. Mfcc-based remote pathology detection on speech transmitted through the telephone channel-impact of linear distortions: Band limitation, frequency response and noise
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
Zhang et al. Microphone array processing for distance speech capture: A probe study on whisper speech detection
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
Kothapally et al. Speech Detection and Enhancement Using Single Microphone for Distant Speech Applications in Reverberant Environments.
Schwenker et al. The GMM-SVM supervector approach for the recognition of the emotional status from speech
Chougule et al. Speaker recognition in mismatch conditions: a feature level approach
CN112992131A (zh) 一种在复杂场景下提取目标人声的乒乓球指令的方法
Singh et al. Features and techniques for speaker recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071219

Termination date: 20160109

CF01 Termination of patent right due to non-payment of annual fee