CN113707136A - 服务型机器人语音交互的音视频混合语音前端处理方法 - Google Patents

服务型机器人语音交互的音视频混合语音前端处理方法 Download PDF

Info

Publication number
CN113707136A
CN113707136A CN202111258776.XA CN202111258776A CN113707136A CN 113707136 A CN113707136 A CN 113707136A CN 202111258776 A CN202111258776 A CN 202111258776A CN 113707136 A CN113707136 A CN 113707136A
Authority
CN
China
Prior art keywords
voice
image
signal
time
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111258776.XA
Other languages
English (en)
Other versions
CN113707136B (zh
Inventor
雷桐
卢晶
刘晓峻
狄敏
吴宝佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd
Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd
Nanjing University
Original Assignee
Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd
Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd, Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd, Nanjing University filed Critical Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd
Priority to CN202111258776.XA priority Critical patent/CN113707136B/zh
Publication of CN113707136A publication Critical patent/CN113707136A/zh
Application granted granted Critical
Publication of CN113707136B publication Critical patent/CN113707136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种服务型机器人语音交互的音视频混合语音前端处理方法,具体步骤如下:(1)通过视频处理手段捕获期望说话人嘴部动作信息;(2)根据期望说话人嘴部动作信息获得准确的语音激活检测结果;(3)根据语音活动检测结果,优化机器人传声器阵列的波束算法;(4)通过阵列传声器实现语音增强,抑制环境噪声,提升机器人采集语音的信噪比。本发明在机器人所处复杂声场环境中可以有效提升机器人采集语音的信号质量。

Description

服务型机器人语音交互的音视频混合语音前端处理方法
技术领域
本发明属于语音信号处理的技术领域,具体涉及一种复杂环境中使用传声器阵列的语音前端,用于提升服务型机器人的语音采集质量。
背景技术
语音交互系统,作为最快捷有效的智能人机交互系统,在我们的生活中无处不在。语音交互系统需要在不同的场景下捕捉使用者的说话音频,在语音增强与分离等预处理步骤后进行自动语音识别(automatic speech recognition, ASR)。在远场、嘈杂等声学环境恶劣的情况下,识别准确率迅速下降。为了提高系统的鲁棒性,需要利用各种算法进行语音增强以提高语音的质量和可靠度。语音增强主要包括:语音分离、语音去混响和语音降噪,三者要解决的干扰分别来源于其他说话人的声音信号、空间环境对声音信号反射产生的混响和各种环境噪声。语音增强通过有效抑制这些噪声或人声来提高语音质量,现已应用于语音识别、助听器以及电话会议等。
传声器阵列指两个或以上的传声器单元以特定空间位置排列组成的声学系统,配合信号处理方法,能够达到声源定位、盲源分离、声全息和语音增强等目的。此技术在传统的通信、生物医学工程等领域以及最近热门的虚拟现实(VR)、增强现实(AR)和人工智能(AI)领域皆有广泛的应用前景。基于阵列的增强方案包括阵列波束形成(beamforming)与盲源分离(HIGUCHI T, ITO N, YOSHIOKA T, et al. Robust MVDR beamforming usingtimefrequency masks for online/offline ASR in noise[C] // 2016 IEEEInternational Conference on Acoustics, Speech and Signal Processing (ICASSP).2016 :5210 – 5214.)等。
传声器阵列波束形成,即按照阵列和声源的相关空间位置的导向矢量(steeringvector)设计空间滤波器。按照空间滤波器参数可变与否,分为固定波束形成和自适应波束形成。固定波束由于滤波器参数不可调整,具有相对自适应波束更差的抗干扰能力和分辨率。当声源位置时变时,固定波束性能显著下降。但是其运算量较小、易于实现、且对传声器和声源位置的准确性有更好的鲁棒性。
固定波束设计的设计目标是使波束主瓣指向目标声源,达到增强声源信号,抑制其他方向噪声信号的目的。延时求和(delay and sum, DS)波束(BRANDSTEIN M, WARD D.Microphone arrays: signal processing techniques and applications[M]. [S.l.] :Springer Science & Business Media, 2013.)是最常用的固定波束算法,它对于扰动鲁棒性好,但是主瓣随频率升高而变窄,即频率越高指向性越强,导致信号低通畸变。另外,延时求和波束要获得好的指向,需要足够多的单元数量。固定波束算法难以设计具有任意指向性的波束,而宽带波束的方法可以根据不同的代价函数和滤波求和结构,设计满足空间特征的波束:最小二乘法(least square, LS)、特征滤波器法(eigenfilter method)、基于阵列特征参数的方法、非线性优化波束(DOCLO S. Multimicrophone noise reductionand dereverberation techniques for speech applications[J], 2003.)等。
自适应波束设计结合了波束指向性和空间信息自适应的特点,通过一定的迭代方式使实际响应接近期望响应。自适应波束根据不同的策略,如线性约束最小化方差(linearly constrained minimum variance, LCMV)策略、广义旁瓣抵消(generalizedsidelobe cancellation, GSC)策略等。其中,LCMV的应用之一最小方差无失真响应(minimum variance distortionless response, MVDR)波束是应用得最广泛的自适应波束之一,也是本发明阵列的波束形成策略。
常用的语音增强算法一般将处理重点放在音频信号本身。而人脑在处理别人传达的信息时,往往是将多种模态的信息,例如肢体语言、嘴唇动作和面部表情等,融合在一起处理的。与之类似,在设计语音增强解决方案时,若能充分关注这些多模特征,有望进一步提升系统性能。另外,在机器人人机交互、车载交互、视频会议等语音交互系统中,信息的传入设备同时包含传声器(阵列)和摄像头,这也为结合视频信息处理语音增强问题提供了基本的硬件条件。
图像序列的行为识别任务有一个通用的框架,即用卷积神经网络(convolutionalneural networks, CNN)提取特征,再通过几层循环神经网络(recurrent neuralnetwork, RNN)以方便利用帧与帧之间的关联信息(DONAHUE J, ANNE HENDRICKS L,GUADARRAMA S, et al. Longterm recurrent convolutional networks for visualrecognition and description[C]// Proceedings of the IEEE conference oncomputer vision and pattern recognition.2015 : 2625 – 2634.)。本发明也采取类似的网络设置来对唇部图像的VAD判决进行预测,以期望达到图像唇读VAD的SOTA方案的准确性。
发明内容
发明目的:传统只依赖音频信息的语音增强方法在对低信噪比、非稳态噪声、强混响环境下的语音进行增强时往往难以去除噪声成分,这对后续机器人的语音识别和语义理解造成了巨大的困难,本发明提供一种服务型机器人语音交互的音视频混合语音前端处理方法,本发明提出结合图像和视频分析的多模语音增强方案,其具有不错的鲁棒性,并且在低信噪比时对语音识别效果提升很明显。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种服务型机器人语音交互的音视频混合语音前端处理方法,包括以下步骤:
步骤1,模型训练:采集训练音视频样本,将训练音视频样本中视频部分按帧分成图像,将训练音视频样本中语音部分按对应帧图像进行标签,得到对应帧的干净语音VAD标签。将图像和对应帧的干净语音VAD标签导入CNN-RNN图像分类网络中,对图像中的唇动状态和应帧的干净语音VAD标签进行训练,得到训练好的CNN-RNN图像分类网络。
步骤2,采集目标说话人嘴部动作视频和对应的含噪语音。嘴部动作视频用卷积神经网络方法标记出目标说话人人脸五官定位,并裁出嘴唇区域图像。嘴唇区域图像逐帧进行灰度图重塑得到嘴唇区域灰度图像,将嘴唇区域灰度图像输入到图像活动语音检测器。
步骤3,图像活动语音检测器根据输入的嘴唇区域灰度图像检测到目标说话人正在说话,则将嘴唇区域灰度图像输入到训练好的CNN-RNN图像分类网络中,得到此帧嘴唇区域灰度图对应的图像语音VAD概率。
步骤4,对含噪语音做短时傅里叶变换得到短时傅里叶频谱。
使用清晰视频数据集的音频、多通道噪声数据集,并根据相应的传声器空间位置以及随机声源位置模拟出相应传声器采集到的含噪语音。
步骤5,将图像语音VAD概率通过非线性的映射函数得到映射后图像语音概率,映射后图像语音概率与相应帧的所对应音频信号的短时傅里叶频谱进行时域上的加权操作,进行图像VAD和传声器阵列信号的多模融合,得到图像VAD加权后的传声器阵列信号频谱。
本发明相比现有技术,具有以下有益效果:
本发明从传声器阵列和声源的相对空间位置入手,利用复高斯混合模型(CGMM),期望最大化(EM)方法以及最小方差无失真响应(MVDR)波束来增强目标源方向的语音。其中时频掩模的使用能够避免使用不准确的先验知识,例如阵列几何和平面波传播假设,从而提供稳健的导向矢量估计。在此基础上,为了提高在低信噪比、非稳态噪声等多种复杂噪声场景下算法的有效性,采用了对噪声不敏感的图像模态的信息作为补充,用唇部图像生成可靠的VAD判决。在 CGMM分类系统的前端融合 VAD 可有效提高语音时频掩膜的准确性,从而得到更好的音质和语音可懂度,为后续语音识别任务提供更优质的前端输入。
附图说明
图1是本发明的结合图像和视频处理的多模语音增强处理流程图。
图2是用卷积神经网络方法标记出目标说话人人脸的五官定位,并裁出嘴唇区域的处理结果。
图3为嘴唇图像处理部分的2D CNN-RNN神经网络的框架,其中包括二维卷积层组成的编码器,随后经过长短期记忆网络块,接着得到此刻唇动状态VAD的预测。
图4为一个声源时的问题框架示意图。
图5为模拟含噪语音生成的空间示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种服务型机器人语音交互的音视频混合语音前端处理方法,如图1所示,包括以下步骤:
步骤1,模型训练:采集训练音视频样本,将训练音视频样本中视频部分按帧分成图像,将训练音视频样本中语音部分按对应帧图像进行标签,得到对应帧的干净语音VAD标签。将图像和对应帧的干净语音VAD标签导入CNN-RNN图像分类网络中,对图像中的唇动状态和应帧的干净语音VAD标签进行训练,得到训练好的CNN-RNN图像分类网络。
步骤2,采集目标说话人嘴部动作视频和对应的含噪语音。嘴部动作视频用卷积神经网络方法标记出目标说话人人脸五官定位,并裁出嘴唇区域图像,截取如图2所示。嘴唇区域图像逐帧进行90×110像素的灰度图重塑,并归一化数据格式到16位浮点数,得到嘴唇区域灰度图像,将嘴唇区域灰度图像输入到图像活动语音检测器。
步骤3,图像活动语音检测器根据输入的嘴唇区域灰度图像检测到目标说话人正在说话,则将嘴唇区域灰度图像输入到训练好的CNN-RNN图像分类网络中,得到此帧嘴唇区域灰度图对应的图像语音VAD概率,如图3所示,首先第一列嘴唇区域灰度图序列经过二维卷积层组成的编码器,随后经过长短期记忆网络块,接着得到此刻唇动状态的预测,输出根据图像信息判决此帧为图像语音VAD概率。
步骤4,使用清晰视频数据集的音频、多通道噪声数据集,并根据相应的传声器空间位置以及随机声源位置模拟出相应传声器采集到的含噪语音,如图5所示,对含噪语音做短时傅里叶变换得到短时傅里叶频谱,其中信号处理的参数设置见表1。
表1 音频算法的实验参数
Figure 471813DEST_PATH_IMAGE001
步骤5,将图像语音VAD概率通过非线性的映射函数得到映射后图像语音概率,映射后图像语音概率与相应帧的所对应音频信号的短时傅里叶频谱进行时域上的加权操作,进行图像VAD和传声器阵列信号的多模融合,得到图像VAD加权后的传声器阵列信号频谱。
其中映射函数的定义域和值域都在[0,1],可以理解为一种额外设计的激活函数,目的是为了让加权操作更加平滑。映射具体函数关系见式(1),加权方式见式(2):
Figure 998741DEST_PATH_IMAGE002
(1)
Figure 44057DEST_PATH_IMAGE003
(2)
其中,
Figure 767163DEST_PATH_IMAGE004
表示映射后图像语音概率,
Figure 597846DEST_PATH_IMAGE005
是图像语音VAD概率,即CNN-RNN图像 分类网络预测结果,
Figure 951467DEST_PATH_IMAGE006
是图像的时间帧索引,
Figure 546397DEST_PATH_IMAGE007
表示短时傅里叶频谱,
Figure 27188DEST_PATH_IMAGE008
表示频域,
Figure 227225DEST_PATH_IMAGE009
表示时 刻。
步骤6,将得到的图像VAD加权后的传声器阵列信号频谱输入基于复数高斯混合模型CGMM的时频掩模估计器,然后用最大似然法估计CGMM 参数,得到时频掩膜序列。然后对于所有频域点数,依次在线递归更新空间相关矩阵,含噪语音和噪声的协方差矩阵,以及聚类的混合权重。最后更新所有源的期望协方差矩阵并作时间平滑,分离它们的特征向量作为对应源导向矢量的估计,用MVDR波束的空间最优权矢量滤波器得到目标方向增强的语音信号。
一、问题框架
k ∈ {1, ..., K}是源索引,K表示源信号个数,m ∈ {1, ..., M} 是传声器索 引,M表示传声器个数。在时域中,第 m 个传声器的语音信号
Figure 751747DEST_PATH_IMAGE010
可以写为:
Figure 37235DEST_PATH_IMAGE011
(3)
其中,
Figure 56138DEST_PATH_IMAGE010
表示第 m 个传声器的语音信号,
Figure 110681DEST_PATH_IMAGE012
表示第 k 个源信号的噪声信 号,
Figure 806105DEST_PATH_IMAGE013
表示第 m 个传声器采集到的噪声信号,
Figure 578889DEST_PATH_IMAGE014
表示对应于第k 个源和第 m 个传 声器之间的脉冲响应,如图4所示,
Figure 932641DEST_PATH_IMAGE006
是图像的时间帧索引,
Figure 107270DEST_PATH_IMAGE009
表示时刻。
m 个传声器的语音信号
Figure 708016DEST_PATH_IMAGE010
通过应用短时傅立叶变换(shorttime Fourier transform, STFT),公式 (3)可以在频域中表示为:
Figure 718828DEST_PATH_IMAGE015
(4)
其中,
Figure 328801DEST_PATH_IMAGE016
Figure 357937DEST_PATH_IMAGE010
的频域表示,
Figure 660743DEST_PATH_IMAGE017
Figure 690010DEST_PATH_IMAGE014
的频域表示,
Figure 103673DEST_PATH_IMAGE018
Figure 987316DEST_PATH_IMAGE012
的频域表示,
Figure 211755DEST_PATH_IMAGE019
Figure 915269DEST_PATH_IMAGE013
的频域表示。
这里我们假设脉冲响应的长度远小于 STFT 窗口的长度,因此,脉冲响应和源信号在时域中的卷积表示为时不变频率响应和时变源信号在频域中的乘积,引入矢量符号,式(4)可以改写为:
Figure 663782DEST_PATH_IMAGE020
(5)
其中:
Figure 418242DEST_PATH_IMAGE021
Figure 797271DEST_PATH_IMAGE022
(6)
Figure 50398DEST_PATH_IMAGE023
其中,
Figure 556597DEST_PATH_IMAGE024
表示被噪声混合的观测信号,
Figure 883673DEST_PATH_IMAGE025
表示第 k 个信号源和各个传声 器之间的频率响应,
Figure 699182DEST_PATH_IMAGE025
是导向矢量,
Figure 190337DEST_PATH_IMAGE018
表示源信号的短时傅立叶变换,
Figure 749495DEST_PATH_IMAGE026
表 示噪声信号的短时傅立叶变换,T 表示非共轭转置。
源分离 (或语音增强) 问题的目标是凭借被噪声混合的观测信号
Figure 462236DEST_PATH_IMAGE027
估计每个 目标源信号
Figure 183067DEST_PATH_IMAGE028
二、结合图像信息的CGMM-MVDR在线方法:
初始化协方差矩阵
Figure 99202DEST_PATH_IMAGE029
,掩膜和
Figure 196471DEST_PATH_IMAGE030
,聚类的混合权重
Figure 29298DEST_PATH_IMAGE031
,取前 1000ms作为空间相关矩阵
Figure 921030DEST_PATH_IMAGE032
的粗略估计。
Figure 590040DEST_PATH_IMAGE033
分别表示含噪语音、噪声、干净语 音。
首先通过基于复数高斯混合模型CGMM的时频掩模估计器进行CGMM的EM方法掩膜估计,在掩膜估计期望步骤(E step)中后验概率用以下式子计算:
Figure 287738DEST_PATH_IMAGE034
(7)
其中,
Figure 709492DEST_PATH_IMAGE035
表示
Figure 788437DEST_PATH_IMAGE036
类的掩膜,
Figure 928432DEST_PATH_IMAGE037
表示
Figure 367503DEST_PATH_IMAGE036
类的混合权重,
Figure 909343DEST_PATH_IMAGE038
表示条件概率,
Figure 983409DEST_PATH_IMAGE039
表示含噪语 音、噪声、干净语音中的任意一类,
Figure 610699DEST_PATH_IMAGE040
表示一系列CGMM参数。
步骤5得到的图像VAD加权后的传声器阵列信号频谱得到混合权重为
Figure 853462DEST_PATH_IMAGE041
的复高斯 混合模型,如下所示:
Figure 797278DEST_PATH_IMAGE042
(8)
其中,
Figure 467294DEST_PATH_IMAGE043
表示复数高斯混合分布,
Figure 581880DEST_PATH_IMAGE044
表示时频点的信号方差,
Figure 362754DEST_PATH_IMAGE045
表示
Figure 364340DEST_PATH_IMAGE036
类的空间 相关矩阵。
具有均值µ和协方差矩阵Σ的多元复高斯分布为:
Figure 205257DEST_PATH_IMAGE046
(9)
其中,
Figure 603877DEST_PATH_IMAGE047
表示随机变量为X均值为
Figure 939174DEST_PATH_IMAGE048
方差为
Figure 310113DEST_PATH_IMAGE049
的复数高斯混合分布,
Figure 56352DEST_PATH_IMAGE050
表示 随机变量,
Figure 879952DEST_PATH_IMAGE048
表示均值,
Figure 18940DEST_PATH_IMAGE049
表示方差,
Figure 244385DEST_PATH_IMAGE051
表示共轭转置。
在掩膜估计最大化步骤(M step)中,CGMM 参数用以下式子更新:
Figure 223842DEST_PATH_IMAGE052
(10)
其中,
Figure 551050DEST_PATH_IMAGE053
表示
Figure 477417DEST_PATH_IMAGE036
类时频点的信号方差,
Figure 557369DEST_PATH_IMAGE054
表示空间相关矩阵的维度,
Figure 910990DEST_PATH_IMAGE055
表示取矩阵 的迹,
Figure 459914DEST_PATH_IMAGE056
表示含噪语音的观测信号的时频点,
Figure 986710DEST_PATH_IMAGE057
表示空间相关矩阵取逆。
在每个 EM 迭代步骤里被最大化的 Q 函数为:
Figure 921168DEST_PATH_IMAGE058
(11)
直至EM方法迭代达到指定次数。
EM方法迭代指定次数后,第
Figure 196423DEST_PATH_IMAGE059
批处的空间相关矩阵由下式递归估计:
Figure 481911DEST_PATH_IMAGE060
(12)
含噪语音和噪声的协方差矩阵被在线递归更新为:
Figure 750081DEST_PATH_IMAGE061
(13)
递归更新混合权重:
Figure 804624DEST_PATH_IMAGE062
(14)
以上步骤对于所有频率点都更新完,随后进行导向矢量的估计。
通过导向向量估计器进行导向向量估计:
先计算含噪语音
Figure 313097DEST_PATH_IMAGE063
和噪声
Figure 820302DEST_PATH_IMAGE064
的协方差矩阵估计:
Figure 892163DEST_PATH_IMAGE065
(15)
得到k-th语音信号协方差矩阵估计:
Figure 817525DEST_PATH_IMAGE066
(16)
然后对
Figure 418271DEST_PATH_IMAGE067
执行特征向量分解,提取最大特征值相关联的特征向量作为导向向量
Figure 678351DEST_PATH_IMAGE068
的估计。
最后进行MVDR波束形成,得到增强语音。
MVDR波束的k-th源的滤波器系数:
Figure 288324DEST_PATH_IMAGE069
(17)
得到增强的k-th源信号估计:
Figure 864930DEST_PATH_IMAGE070
(18)
Figure 902156DEST_PATH_IMAGE071
表示增强的k-th源信号估计。
由于是在线算法,故以上操作都只针对某一批次的每个时间点
Figure 649532DEST_PATH_IMAGE072
,结束这一批 次以后,需要更新掩膜和:
Figure 813928DEST_PATH_IMAGE073
(19)
然后进行下次批次的更新,直到音频结束。
三、.数据集与评价指标
噪声来自DEMAND多通道噪声库,纯净目标源来自 TIMIT 库。共模拟数据 120(干净音频)*12(噪声种类)=1440(组)。对于在线处理,每个音频的前 1000ms,约31帧作为训练数据以估计可靠的初始空间相关矩阵。由于 TIMIT 库的音频说话开始时间皆小于1000ms,这样做是可行的。
评价指标包括经常被用来衡量语音分离效果的尺度不变的信号失真比(SI-SDR),其定义为
Figure 697571DEST_PATH_IMAGE074
(20)
其中,
Figure 905698DEST_PATH_IMAGE050
Figure 874791DEST_PATH_IMAGE075
分别是干净语音和估计的目标语音,它们被零均值归一化以保证尺度 不变性。
Figure 577299DEST_PATH_IMAGE076
表示干净语音在干净语音和估计语音相关系数的归一化的方向的投影,
Figure 581027DEST_PATH_IMAGE077
表 示编程语言里的赋值语句的符号,
Figure 756793DEST_PATH_IMAGE078
表示估计的噪声信号。
除了SI-SDR之外,评价指标还有语音质量客观评价指标PESQ。
四、实验结果
对比是否结合图像信息的CGMM-MVDR在线算法,对不同信噪比混合语音处理前后的效果用处理前后指标的差值表示,数值越大代表改善越大,测试结果如表2所示:
表2 测试结果
Figure 963915DEST_PATH_IMAGE079
标准CGMM-MVDR算法不含图像的多模处理,为混合处理为否的部分。它在含噪语音为0dB左右的时候SI-SDR改善最多,而PESQ则是含噪语音信噪比越低处理前后改善越多。因为含噪语音信噪比越低,初始分数越低。
多模混合处理方案在极低信噪比SNR=-10dB时,相对于标准方案,SI-SDR还能再提高1.06dB,Babble类人声噪音此提高幅度更甚。由于多模融合时粗暴的幅度加权,PESQ效果略逊色。但是实际在使用时,由于多模检测为不说话的时间段上本来就不需要语音识别,所以PESQ的逊色只会影响听感,而不影响后续语音识别。反而准确的图像VAD判决会为后续的语音识别任务强调重点识别的地方,在目标说话人闭嘴时忽略其他类似的人声噪声。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种服务型机器人语音交互的音视频混合语音前端处理方法,其特征在于,包括以下步骤:
步骤1,模型训练:采集训练音视频样本,将训练音视频样本中视频部分按帧分成图像,将训练音视频样本中语音部分按对应帧图像进行标签,得到对应帧的干净语音VAD标签;将图像和对应帧的干净语音VAD标签导入CNN-RNN图像分类网络中,对图像中的唇动状态和应帧的干净语音VAD标签进行训练,得到训练好的CNN-RNN图像分类网络;
步骤2,采集目标说话人嘴部动作视频和对应的含噪语音;嘴部动作视频用卷积神经网络方法标记出目标说话人人脸五官定位,并裁出嘴唇区域图像;嘴唇区域图像逐帧进行灰度图重塑得到嘴唇区域灰度图像,将嘴唇区域灰度图像输入到图像活动语音检测器;
步骤3,图像活动语音检测器根据输入的嘴唇区域灰度图像检测到目标说话人正在说话,则将嘴唇区域灰度图像输入到训练好的CNN-RNN图像分类网络中,得到此帧嘴唇区域灰度图对应的图像语音VAD概率;
步骤4,对含噪语音做短时傅里叶变换得到短时傅里叶频谱;
步骤5,将图像语音VAD概率通过非线性的映射函数得到映射后图像语音概率,映射后图像语音概率与相应帧的所对应音频信号的短时傅里叶频谱进行时域上的加权操作,进行图像VAD和传声器阵列信号的多模融合,得到图像VAD加权后的传声器阵列信号频谱;
Figure 432855DEST_PATH_IMAGE001
Figure 212723DEST_PATH_IMAGE002
其中,
Figure 515529DEST_PATH_IMAGE003
表示映射后图像语音概率,
Figure 466167DEST_PATH_IMAGE004
是图像语音VAD概率,
Figure 879831DEST_PATH_IMAGE005
是图像的时间帧索 引,
Figure 29052DEST_PATH_IMAGE006
表示短时傅里叶频谱,
Figure 253492DEST_PATH_IMAGE007
表示频域,
Figure 425847DEST_PATH_IMAGE008
表示时刻;
步骤6,将得到的图像VAD加权后的传声器阵列信号频谱输入基于复数高斯混合模型CGMM的时频掩模估计器,然后用最大似然法估计CGMM 参数,得到时频掩膜序列;然后对于所有频域点数,依次在线递归更新空间相关矩阵,含噪语音和噪声的协方差矩阵,以及聚类的混合权重;最后更新所有源的期望协方差矩阵并作时间平滑,分离它们的特征向量作为对应源导向矢量的估计,用MVDR波束的空间最优权矢量滤波器得到目标方向增强的语音信号。
2.根据权利要求1所述服务型机器人语音交互的音视频混合语音前端处理方法,其特征在于:步骤4中对含噪语音做短时傅里叶变换得到短时傅里叶频谱的方法:
k ∈ {1, ..., K}是源索引,K表示源信号个数,m ∈ {1, ..., M} 是传声器索引,M 表示传声器个数;在时域中,第 m 个传声器的语音信号
Figure 643202DEST_PATH_IMAGE009
写为:
Figure 646930DEST_PATH_IMAGE010
其中,
Figure 229221DEST_PATH_IMAGE009
表示第 m 个传声器的语音信号,
Figure 951189DEST_PATH_IMAGE011
表示第 k 个源信号的噪声信号,
Figure 909918DEST_PATH_IMAGE012
表示第 m 个传声器采集到的噪声信号,
Figure 515955DEST_PATH_IMAGE013
表示对应于第k 个源和第 m 个传声器 之间的脉冲响应,
Figure 597044DEST_PATH_IMAGE005
是图像的时间帧索引,
Figure 743991DEST_PATH_IMAGE008
表示时刻;
m 个传声器的语音信号
Figure 37569DEST_PATH_IMAGE009
通过应用短时傅立叶变换在频域中表示为:
Figure 15890DEST_PATH_IMAGE014
其中,
Figure 205562DEST_PATH_IMAGE015
Figure 387276DEST_PATH_IMAGE009
的频域表示,
Figure 750124DEST_PATH_IMAGE016
Figure 520634DEST_PATH_IMAGE013
的频域表示,
Figure 677946DEST_PATH_IMAGE017
Figure 861803DEST_PATH_IMAGE011
的频域 表示,
Figure 700446DEST_PATH_IMAGE018
Figure 404091DEST_PATH_IMAGE012
的频域表示;
脉冲响应的长度远小于 STFT 窗口的长度,因此,脉冲响应和源信号在时域中的卷积表示为时不变频率响应和时变源信号在频域中的乘积,引入矢量符号,将应用短时傅立叶变换在频域中表示改写为:
Figure 732304DEST_PATH_IMAGE019
其中:
Figure 75561DEST_PATH_IMAGE020
Figure 45791DEST_PATH_IMAGE021
Figure 587630DEST_PATH_IMAGE022
其中,
Figure 290007DEST_PATH_IMAGE023
表示含噪语音的观测信号,
Figure 933609DEST_PATH_IMAGE024
表示第 k 个信号源和各个传声器之间 的频率响应,
Figure 114055DEST_PATH_IMAGE017
表示源信号的短时傅立叶变换,
Figure 775980DEST_PATH_IMAGE025
表示噪声信号的短时傅立叶变 换,T 表示非共轭转置。
3.根据权利要求2所述服务型机器人语音交互的音视频混合语音前端处理方法,其特征在于:步骤6中基于复数高斯混合模型CGMM的时频掩模估计器采用结合图像信息的CGMM-MVDR在线方法:
初始化协方差矩阵
Figure 711575DEST_PATH_IMAGE026
,掩膜和
Figure 29424DEST_PATH_IMAGE027
,聚类的混合权重
Figure 810298DEST_PATH_IMAGE028
Figure 340112DEST_PATH_IMAGE029
分别表示含噪语音、噪声、干净语音;
首先通过基于复数高斯混合模型CGMM的时频掩模估计器进行CGMM的EM方法掩膜估计,在掩膜估计期望步骤中后验概率用以下式子计算:
Figure 181029DEST_PATH_IMAGE030
其中,
Figure 986174DEST_PATH_IMAGE031
表示
Figure 836319DEST_PATH_IMAGE032
类的掩膜,
Figure 207257DEST_PATH_IMAGE033
表示
Figure 422338DEST_PATH_IMAGE032
类的混合权重,
Figure 262249DEST_PATH_IMAGE034
表示条件概率,
Figure 650505DEST_PATH_IMAGE035
表示含噪语音、噪 声、干净语音中的任一一类,
Figure 79212DEST_PATH_IMAGE036
表示一系列CGMM参数;
步骤5得到的图像VAD加权后的传声器阵列信号频谱得到混合权重为
Figure 527511DEST_PATH_IMAGE037
的复高斯混合 模型:
Figure 103986DEST_PATH_IMAGE038
其中,
Figure 233616DEST_PATH_IMAGE039
表示复数高斯混合分布,
Figure 329879DEST_PATH_IMAGE040
表示时频点的信号方差,
Figure 152342DEST_PATH_IMAGE041
表示
Figure 950533DEST_PATH_IMAGE032
类的空间相关 矩阵;
具有均值µ和协方差矩阵Σ的多元复高斯分布为:
Figure 680592DEST_PATH_IMAGE042
其中,
Figure 880629DEST_PATH_IMAGE043
表示随机变量为X均值为
Figure 873993DEST_PATH_IMAGE044
方差为
Figure 910213DEST_PATH_IMAGE045
的复数高斯混合分布,
Figure 647225DEST_PATH_IMAGE046
表示随机 变量,
Figure 701769DEST_PATH_IMAGE044
表示均值,
Figure 662772DEST_PATH_IMAGE045
表示方差,
Figure 638818DEST_PATH_IMAGE047
表示共轭转置;
在掩膜估计最大化步骤中,CGMM 参数用以下式子更新:
Figure 710679DEST_PATH_IMAGE048
其中,
Figure 633111DEST_PATH_IMAGE049
表示
Figure 765015DEST_PATH_IMAGE032
类时频点的信号方差,
Figure 962778DEST_PATH_IMAGE050
表示传声器个数,
Figure 103910DEST_PATH_IMAGE051
表示取矩阵的迹,
Figure 336308DEST_PATH_IMAGE052
表示含 噪语音的观测信号的时频点,
Figure 373534DEST_PATH_IMAGE053
表示空间相关矩阵取逆;
被最大化的 Q 函数为:
Figure 137222DEST_PATH_IMAGE054
直至EM方法迭代达到指定次数。
4.根据权利要求3所述服务型机器人语音交互的音视频混合语音前端处理方法,其特征在于:
EM方法迭代指定次数后,第
Figure 754148DEST_PATH_IMAGE055
批处的空间相关矩阵由下式递归估计:
Figure 903370DEST_PATH_IMAGE056
含噪语音和噪声的协方差矩阵被在线递归更新为:
Figure 111497DEST_PATH_IMAGE057
递归更新混合权重:
Figure 283852DEST_PATH_IMAGE058
更新所有源的期望协方差矩阵。
5.根据权利要求4所述服务型机器人语音交互的音视频混合语音前端处理方法,其特征在于:通过导向向量估计器进行导向向量估计:
先计算含噪语音
Figure 766786DEST_PATH_IMAGE059
和噪声
Figure 708198DEST_PATH_IMAGE060
的协方差矩阵估计:
Figure 103538DEST_PATH_IMAGE061
得到k-th语音信号协方差矩阵估计:
Figure 825506DEST_PATH_IMAGE062
然后对
Figure 784235DEST_PATH_IMAGE063
执行特征向量分解,提取最大特征值相关联的特征向量作为导向向量
Figure 908049DEST_PATH_IMAGE064
的 估计;
最后进行MVDR波束形成,得到增强语音;
MVDR波束的k-th源的滤波器系数:
Figure 723558DEST_PATH_IMAGE065
得到增强的k-th源信号估计:
Figure 604926DEST_PATH_IMAGE066
Figure 180395DEST_PATH_IMAGE067
表示增强的k-th源信号估计。
6.根据权利要求5所述服务型机器人语音交互的音视频混合语音前端处理方法,其特 征在于:由于只针对某一批次的每个时间点
Figure 893136DEST_PATH_IMAGE068
,结束这一批次以后,需要更新掩膜和:
Figure 82809DEST_PATH_IMAGE069
然后进行下次批次的更新,直到音频结束。
7.根据权利要求6所述服务型机器人语音交互的音视频混合语音前端处理方法,其特征在于:步骤4中使用清晰视频数据集的音频、多通道噪声数据集,并根据相应的传声器空间位置以及随机声源位置模拟出相应传声器采集到的含噪语音。
CN202111258776.XA 2021-10-28 2021-10-28 服务型机器人语音交互的音视频混合语音前端处理方法 Active CN113707136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111258776.XA CN113707136B (zh) 2021-10-28 2021-10-28 服务型机器人语音交互的音视频混合语音前端处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111258776.XA CN113707136B (zh) 2021-10-28 2021-10-28 服务型机器人语音交互的音视频混合语音前端处理方法

Publications (2)

Publication Number Publication Date
CN113707136A true CN113707136A (zh) 2021-11-26
CN113707136B CN113707136B (zh) 2021-12-31

Family

ID=78647121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111258776.XA Active CN113707136B (zh) 2021-10-28 2021-10-28 服务型机器人语音交互的音视频混合语音前端处理方法

Country Status (1)

Country Link
CN (1) CN113707136B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093380A (zh) * 2022-01-24 2022-02-25 荣耀终端有限公司 一种语音增强方法、电子设备、芯片系统及可读存储介质
CN117935835A (zh) * 2024-03-22 2024-04-26 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101083078A (zh) * 2007-07-05 2007-12-05 南京大学 强鲁棒性语音分离方法
CN101496035A (zh) * 2006-07-28 2009-07-29 Iee国际电子工程股份公司 模式分类方法
US20190237066A1 (en) * 2018-01-26 2019-08-01 Sogang University Research Foundation Source localization method by using steering vector estimation based on on-line complex gaussian mixture model
WO2019156338A1 (ko) * 2018-02-12 2019-08-15 삼성전자 주식회사 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
CN110931036A (zh) * 2019-12-07 2020-03-27 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法
WO2020121590A1 (ja) * 2018-12-14 2020-06-18 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
CN111599371A (zh) * 2020-05-19 2020-08-28 苏州奇梦者网络科技有限公司 语音增加方法、系统、装置及存储介质
CN112509564A (zh) * 2020-10-15 2021-03-16 江苏南大电子信息技术股份有限公司 基于连接时序分类和自注意力机制的端到端语音识别方法
CN112735460A (zh) * 2020-12-24 2021-04-30 中国人民解放军战略支援部队信息工程大学 基于时频掩蔽值估计的波束成形方法及系统
US20210174819A1 (en) * 2018-02-12 2021-06-10 Samsung Electronics Co., Ltd. Apparatus and method for generating audio signal with noise attenuated on basis of phase change rate according to change in frequency of audio signal
CN112951263A (zh) * 2021-03-17 2021-06-11 云知声智能科技股份有限公司 语音增强方法、装置、设备和存储介质
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496035A (zh) * 2006-07-28 2009-07-29 Iee国际电子工程股份公司 模式分类方法
CN101083078A (zh) * 2007-07-05 2007-12-05 南京大学 强鲁棒性语音分离方法
US20190237066A1 (en) * 2018-01-26 2019-08-01 Sogang University Research Foundation Source localization method by using steering vector estimation based on on-line complex gaussian mixture model
KR20190091061A (ko) * 2018-01-26 2019-08-05 서강대학교산학협력단 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
US20210174819A1 (en) * 2018-02-12 2021-06-10 Samsung Electronics Co., Ltd. Apparatus and method for generating audio signal with noise attenuated on basis of phase change rate according to change in frequency of audio signal
WO2019156338A1 (ko) * 2018-02-12 2019-08-15 삼성전자 주식회사 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치
WO2020121590A1 (ja) * 2018-12-14 2020-06-18 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
CN110931036A (zh) * 2019-12-07 2020-03-27 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法
CN111599371A (zh) * 2020-05-19 2020-08-28 苏州奇梦者网络科技有限公司 语音增加方法、系统、装置及存储介质
CN112509564A (zh) * 2020-10-15 2021-03-16 江苏南大电子信息技术股份有限公司 基于连接时序分类和自注意力机制的端到端语音识别方法
CN112735460A (zh) * 2020-12-24 2021-04-30 中国人民解放军战略支援部队信息工程大学 基于时频掩蔽值估计的波束成形方法及系统
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN112951263A (zh) * 2021-03-17 2021-06-11 云知声智能科技股份有限公司 语音增强方法、装置、设备和存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JING LU ET AL: "Speech Separation Using Independent Vector Analysis with an Amplitude Variable Gaussian Mixture Model", 《INTERSPEECH 2019》 *
TAKUYA HIGUCHI ET AL: "Optimization of Speech Enhancement Front-end with Speech Recognition-level Criterion", 《INTERSPEECH 2016》 *
TAKUYA HIGUCHI ET AL: "ROBUST MVDR BEAMFORMING USING TIME-FREQUENCY MASKS FOR ONLINE/OFFLINE ASR IN NOISE", 《ICASSP 2016》 *
卢晶等: "车载场景结合盲源分离与多说话人状态判决的语音抽取", 《声学学报》 *
郭心伟等: "复高斯混合模型分布式语音分离方法研究", 《信号处理》 *
雷建军等: "基于复高斯混合模型的鲁棒VAD算法", 《天津大学学报》 *
雷桐: "基于分布式数据处理的无线传感网络低功耗算法研究及实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093380A (zh) * 2022-01-24 2022-02-25 荣耀终端有限公司 一种语音增强方法、电子设备、芯片系统及可读存储介质
CN117935835A (zh) * 2024-03-22 2024-04-26 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质
CN117935835B (zh) * 2024-03-22 2024-06-07 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质

Also Published As

Publication number Publication date
CN113707136B (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
Heymann et al. Neural network based spectral mask estimation for acoustic beamforming
CN113707136B (zh) 服务型机器人语音交互的音视频混合语音前端处理方法
US20060053002A1 (en) System and method for speech processing using independent component analysis under stability restraints
Naqvi et al. Multimodal (audio–visual) source separation exploiting multi-speaker tracking, robust beamforming and time–frequency masking
Kolossa et al. Independent component analysis and time-frequency masking for speech recognition in multitalker conditions
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
Wang et al. Deep learning assisted time-frequency processing for speech enhancement on drones
CN111312275A (zh) 一种基于子带分解的在线声源分离增强系统
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
Sun et al. A speaker-dependent approach to separation of far-field multi-talker microphone array speech for front-end processing in the CHiME-5 challenge
Ochiai et al. Mask-based neural beamforming for moving speakers with self-attention-based tracking
CN113870893A (zh) 一种多通道双说话人分离方法及系统
Liu et al. Interference reduction in reverberant speech separation with visual voice activity detection
Pertilä et al. Time Difference of Arrival Estimation with Deep Learning–From Acoustic Simulations to Recorded Data
Meutzner et al. A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition
Shukla et al. Speech enhancement system using deep neural network optimized with Battle Royale Optimization
Li et al. Joint sparse representation based cepstral-domain dereverberation for distant-talking speech recognition
Nakatani et al. Simultaneous denoising, dereverberation, and source separation using a unified convolutional beamformer
CN110838307A (zh) 语音消息处理方法及装置
Kothapally et al. Monaural Speech Dereverberation Using Deformable Convolutional Networks
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
Kim et al. DNN-based Parameter Estimation for MVDR Beamforming and Post-filtering
Aprilyanti et al. Suppression of noise and late reverberation based on blind signal extraction and Wiener filtering
Prasad et al. An ICA algorithm for separation of convolutive mixture of speech signals
Nguyen et al. Location Estimation of Receivers in an Audio Room using Deep Learning with a Convolution Neural Network.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant