CN115881156A - 基于多尺度的多模态时域语音分离方法 - Google Patents

基于多尺度的多模态时域语音分离方法 Download PDF

Info

Publication number
CN115881156A
CN115881156A CN202211580703.7A CN202211580703A CN115881156A CN 115881156 A CN115881156 A CN 115881156A CN 202211580703 A CN202211580703 A CN 202211580703A CN 115881156 A CN115881156 A CN 115881156A
Authority
CN
China
Prior art keywords
audio
features
lip
speaker
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211580703.7A
Other languages
English (en)
Inventor
许文婕
杨晨晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202211580703.7A priority Critical patent/CN115881156A/zh
Publication of CN115881156A publication Critical patent/CN115881156A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

基于多尺度的多模态时域语音分离方法,涉及人工智能、音频信号处理、计算机视觉领域,旨在为混合音频分离与增强提供分析和帮助。包括步骤:S1、混合音频生成、唇部图像序列提取等数据预处理;S2、音频信号特征编码;S3、唇部区域特征编码与唇部动作特征计算;S4、说话人特征、唇部动作特征的多尺度特征提取;S5、唇部动作与语音间的细节映射学习;S6、音频、唇部图像序列、唇部动作、说话人等相关特征的融合学习与音频权值矩阵生成;S7、将步骤S4~S6视为语音分离模块,重复步骤S4~S6;S8、依据权值矩阵分离混合音频并解码得到音频信号。实现不依赖于说话人的多模态数据的端到端盲声源语音分离。

Description

基于多尺度的多模态时域语音分离方法
技术领域
本发明涉及人工智能、音频信号处理、计算机视觉领域,尤其是涉及多模态的语音分离、语音增强的一种基于多尺度的多模态时域语音分离方法。
背景技术
在一个嘈杂的环境下,同时存在着多个发声体的多种声音,但并不是所有的声源信息都需要被同时关注,并且多种声源共存的相互干扰会导致人们能从中接收到的信息量大大减少,因此从混合的音频中将不同的干净声源分离出来是一个值得研究的问题,即“鸡尾酒会问题”。对于人类而言,在混杂的环境下,分辨并专注于某一发声体的声音是较为简单的,但是对于机器而言,如何根据不同发声体的声音特点进行快速准确的区分是存在挑战的。在声源分离中所包含的声源信息包括多种类别,主要有语音、乐器声、环境音等,根据声源的不同类型将声源分离划分为不同的子任务,语音分离为声源分离的子领域之一。
在过去,语音分离任务的关注重点在于纯音频的分离任务,随着网络的发展、智能设备的多媒体支持、流媒体应用平台的建设,视频成为信息媒介的主要组成之一。视频由图像序列与音频组成,因此相比音频,视频数据中还包含视觉信息,对于语音分离任务,人在说话过程中的发音与唇部动作及面部表情息息相关,因此视觉信息的加入有助于语音分离任务的进行,提升语音分离任务的准确性。
在纯音频的语音分离任务上所使用的方法大致包含主成分独立分析(ICA)、基于波束、聚类、置换不变训练模型(PIT)以及深度神经网络如长短期记忆网络(LSTM)、卷积神经网路(CNN)、生成对抗网络(GAN)的融合。
视听结合的语音分离在2015年后开始受到广泛关注,研究者将视觉信息与音频信息联合输入网络模型进行训练实现语音增强,实验结果证明在语音任务中加入视觉信息的有效性,同时提高语音分离任务的准确度。随着近年来深度学习的快速发展,深度神经网络模型也成多模态语音分离任务中使用最为广泛的方法。对于音频信号将振幅与相位分别处理,同时加入唇部图像序列信息,通过深度网络模型预测目标信号的振幅大小和相位信息。一部分研究将语音分离与图像重建、人脸与音色特征聚合等任务联合训练,通过多任务学习辅助提高语音分离效果。
但是目前的语音分离方法中依然存在着挑战,第一个方面是由于视觉信息的加入导致网络规模增大,计算成本提高。第二个方面,目前的大多数语音分离方法需要已知混合音频中的说话人数量作为先验知识,从而决定网络的输出层需要重建的音频数量。第三个方面,目前的部分方法强依赖于说话人,需要为特定的说话人训练相应的模型,或者需要说话人的预录音频特征提取后作为先验知识,这大大限制模型的泛化能力。
发明内容
本发明的目的在于针对语音分离问题,提供不依赖于说话人相关先验知识的端到端视听信息融合的一种基于多尺度的多模态时域语音分离方法。本发明采用深度神经网络解决多模态融合的语音分离任务,将视觉与听觉结合,以视频数据为载体,依据唇部动作与语音的关联辅助音频信号的分离,且在无需已知混合音频中相关说话人的预录语音以及说话人数量的情况下,实现与说话人无关的端到端视听结合的多模态语音分离。
本发明包括以下步骤:
1)对数据预处理,包括混合音频生成、视频图像序列中唇部区域提取;
2)对一维的单通道音频信号特征编码,生成音频特征向量;
3)对唇部区域特征编码生成特征向量,根据唇部图像序列特征的帧间差异生成唇部动作特征;
4)通过池化与跳跃连接分别对说话人特征、唇部动作特征多尺度特征提取,并在训练过程中依据说话人特征进行说话人预测;
5)对视频分段,学习唇部动作与语音间的细节映射;
6)将音频特征、唇部图像序列特征、说话人特征、唇部动作特征、唇部动作与语音间映射关系融合与特征学习,生成权值矩阵;
7)将步骤4)~6)视为语音分离模块,重复步骤4)~6),将上一模块输出的权值矩阵作为下一模块的输入更新音频特征;
8)依据权值矩阵从混合音频中分离出相应的部分,解码还原得到分离后的音频信号。
在步骤1)中,所述混合音频生成所使用的数据来自公开数据集VoxCeleb2(ChungJS,NagraniA,ZissermanA.Voxceleb2:Deepspeakerrecognition[J].arXivpreprintarXiv:1806.05622,2018)中随机选择的800个不同人物的视频片段作为训练集,每个说话人都有唯一ID标识,视频帧率为25fps,音频采样率为16kHz;随机选择两段音频,以-10dB至10dB的随机信噪比混合,生成混合音频数据;
所述唇部区域提取,通过将视频图像转为灰度图并缩放至224*224大小,并取中部112*112大小作为唇部区域的表示。
在步骤2)中,所述对一维的单通道音频信号特征编码,对于训练的音频数据取前n秒,共16000*n个采样点(实验中取n=3),通过卷积生成256维特征向量,在卷积核大小L为40的情况下实验,卷积步长为L/2。
在步骤3)中,所述对唇部区域特征编码,通过预训练的语音识别任务模型(T.Afouras,J.S.Chung,A.Senior,O.Vinyals and A.Zisserman.Deep Audio-VisualSpeech Recognition.IEEE Transactions on Pattern Analysis and MachineIntelligence,vol.44,no.12,pp.8717-8727,1Dec.2022,doi:10.1109/TPAMI.2018.2889052)对唇部区域进行特征提取,生成512维特征向量,通过一维卷积最终生成256通道的特征表示;
所述唇部动作特征是由唇部区域特征计算得到,通过预训练的语音识别任务模型计算得到的唇部区域特征大小为512*25n(其中n表示视频秒数),保留唇部区域第一帧特征,计算第二帧特征与第一帧特征的差值、第三帧与第二帧特征的差值……以此类推,直至完成整个视频的所有帧间差值计算,并将所有差值结果在第二个维度上与第一帧特征进行拼接,从而得到唇部区域的动作特征表示。
在步骤4)中,所述对说话人特征包含听觉信息与视觉信息,通过将音频特征与唇部图像序列特征进行融合得到说话人的表征;
所述对说话人特征、唇部动作特征进行多尺度特征提取,由不共享权重参数的两个多层下采样网络结构分别对说话人特征及唇部动作特征进行特征提取,每一部分的网络结构由多个串联的池化模块组成,通过多层池化不断缩小特征图保留关键信息,弱化不重要的信息;同时通过跳跃连接保证信息完整性,并且避免池化造成的信息偏差;
所述在训练过程中依据说话人特征进行说话人ID预测的结果作为第一阶段训练目标函数的一部分,加快模型对数据的拟合。
在步骤5)中,所述学习唇部动作与语音间的细节映射是通过对视频分段从而更好地学习视频片段中的细节信息,将视频均分为3个小片段,即把相应的音频特征以及唇部动作特征分为三段,分别进行融合;将融合后的特征片段进行多次的卷积、批量归一化、激活,最后通过Sigmoid函数获得0~1的特征权值矩阵,对片段中的不同特征点赋上不同权重,形成注意力机制;最后将模块输入的融合特征与权值矩阵相乘得到最终的片段融合特征。
在步骤6)中,所述融合特征的学习是将融合后的特征输入时间卷积网络,输出一个阈值范围为0~1的掩膜矩阵。
在步骤7)中,将步骤4)~6)视为语音分离模块,重复步骤4)~6),将上一模块输出的权值矩阵作为下一模块的输入,并与原始混合音频的特征相乘后作为当前模块中的音频特征表示。
在步骤8)中,所述依据权值矩阵从混合音频中分离出相应的部分,并进行解码还原得到分离后的音频信号是通过将步骤6)中得到的掩膜矩阵与原始混合音频相乘,从而分离除其中某一说话人的单独音频数据,并通过解码器重建音频信号。
以下给出本发明的原理说明:
T1、本发明所使用的方法采用“编码器——分离网络——解码器”的网络结构,首先,分别对音频、唇部图像序列编码,生成特征向量,根据唇部图像序列特征计算帧间差异得到唇部动作的特征向量,将音频特征与唇部图像序列特征进行融合得到说话人特征,并把说话人特征、音频特征、唇部动作特征输入分离网络中,通过模型推理输出掩膜矩阵,与混合音频相乘得到分离后的音频矩阵,最后利用解码器音频重建,获得分离后的音频信号。
T2、本发明中的原始音频输入采用的是时域上的音频信号表示,在Conv-TasNet方法(Y.Luo and N.Mesgarani.Conv-TasNet:Surpassing Ideal Time–FrequencyMagnitude Masking for Speech Separation.IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.27,no.8,pp.1256-1266,Aug.2019,doi:10.1109/TASLP.2019.2915167)中通过实验在客观指标与主观评价两方面均证明时域音频信号作为输入的实验结果优于以时频掩膜表示音频的方法。
T3、说话人特征学习与说话人预测模块:对于说话人的特征通过多层平均池化可获取全局关键特征,但这会导致信息的丢失,因此通过多尺度的跳跃连接获取不同尺度下特征图的关键信息,避免信息遗漏与丢失。
T4、帧间唇部动作变化模块:由于语句的每个发音与唇部动作有直接关联,因此学习语音与唇部动作间的映射规律对于更好的分离音频有重要作用。通过视频图像序列特征的帧间差值获取帧间动作表征,以此作为帧间动作变化模块的输入,并同样以基于平均池化的多尺度融合的方式进行特征学习。
T5、基于注意力机制的特征分段融合模块:由于在说话人表征模块中的输入数据为完整的语音与图像序列融合特征,因此在平均池化的过程中所提取的关键信息是全局的均值,但是片段中时间间隔越长关联性越低,因此全局均值无法很好地表示局部信息,这也会导致信息的遗漏率大大增加。所以考虑将视频分段,拟将完整视频分为三段,并将三段的音频特征与唇部动作特征分别融合,在卷积、归一化提取融合特征后,通过Sigmoid激活函数对融合特征赋上权重,形成注意力权值矩阵,并将各分段融合特征与权值矩阵相乘得到分段融合特征。
与现有技术相比,本发明具有以下突出的优点:
1、现有的大多数语音分离方法需要已知混合音频中的说话人数量作为先验知识,从而决定网络的输出层需要重建的音频数量。本发明利用语音增强的概念实现语音分离,即把混合音频中非目标说话人的相关音频视为噪声,通过对混合音频去噪实现目标说话人的语音分离,一次推理输出一个音频信号,因此本发明的方法无需已知混合音频中的说话人数量作为先验知识。
2、现有的部分语音分离方法强依赖于说话人,需要为特定的说话人训练相应的模型,或者需要说话人的预录音频特征提取后作为先验知识,这大大限制模型的泛化能力。本发明的方法可在未学习过的音频数据上完成语音分离任务,泛化能力较强。
3、在所使用的数据方面,本发明采用时域的波形信号作为音频表示,无需通过短时傅里叶等变化转化为时频谱图,在解码时也无需对生成的分离音频谱图做短时傅里叶逆变换等,实现端到端的语音分离方法。并且相比与传统纯音频的语音分离,本发明加入视觉信息作为辅助,提高语音分离的质量和准确度。
附图说明
图1为模型的整体架构图。
图2为说话人特征、唇部动作特征的多尺度特征提取模块的网络结构示意图。
图3为唇部动作与语音间的细节映射学习模块的网络结构示意图。
其中,
Figure BDA0003990717540000051
表示两个张量按某维度进行拼接,/>
Figure BDA0003990717540000052
表示两个张量逐点相加,/>
Figure BDA0003990717540000053
表示Sigmoid函数,/>
Figure BDA0003990717540000054
表示两个张量逐点相乘。
图4为采用一阶段训练与分为两阶段训练时验证集上损失函数值的变化趋势。
图5为模型的消融实验。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明作进一步的说明。
本发明实施例包括以下步骤:
S1、对数据进行预处理,包括混合音频生成、视频图像序列中唇部区域提取;
S2、对一维的音频信号进行特征编码,生成二维特征向量;
S3、利用预训练模型对唇部区域进行特征编码,生成二维特征向量,并根据唇部图像序列特征的帧间差异生成唇部动作特征;
S4、通过池化与跳跃连接分别对说话人特征、唇部动作特征进行多尺度特征提取,并在训练过程中依据说话人特征进行说话人预测;
S5、对视频进行分段,学习唇部动作与语音间的细节映射;
S6、将音频特征、唇部图像序列特征、说话人特征、唇部动作特征、唇部动作与语音间映射关系进行融合与特征学习,生成权值矩阵;
S7、将步骤S4~S6视为语音分离模块,重复步骤S4~S6,将上一模块输出的权值矩阵作为下一模块的输入更新音频特征;
S8、依据权值矩阵从混合音频中分离出相应的部分,并进行解码还原得到分离后的音频信号。
图1给出本发明实施例模型的整体架构示意图。
在步骤S1中,所使用的数据来自公开数据集VoxCeleb2中随机选择的800个不同人物的视频片段作为训练集和验证集,每个说话人都有唯一ID标识,训练集和验证集的视频片段不重合,视频帧率为25fps,音频采样率为16kHz。随机选择两段音频,以-10dB至10dB的随机信噪比混合,从而生成混合音频数据;
所述唇部区域提取,通过将视频图像转为灰度图并缩放至224*224大小,并取中部112*112大小作为唇部区域的表示。
在步骤S2中,对音频信号进行特征编码,对于训练的音频数据取前3秒,共48000个采样点,通过卷积生成256维特征向量,并分别在卷积核大小L为40的情况下进行实验,卷积步长为L/2,生成(B,256,2399)的特征图。
在步骤S3中,对唇部区域进行特征编码,通过预训练的语音识别任务模型对原始视频的唇部区域进行特征提取,生成512维特征向量,由于视频帧率为25fps,所使用视频长度为3s,因此取前75个特征点,并通过一维卷积最终生成256通道的特征表示,特征大小为(B,256,75);
唇部动作特征是由唇部区域特征计算得到,通过预训练的语音识别任务模型计算得到的唇部区域特征大小为512*75,保留唇部区域第一帧特征,计算第二帧特征与第一帧特征的差值、第三帧与第二帧特征的差值……以此类推,直至完成整个视频的所有帧间差值计算,并将所有差值结果在第二个维度上与第一帧特征进行拼接,从而得到唇部区域的动作特征表示,大小为(B,512,75)。
在步骤S4中,所述对说话人特征包含听觉信息与视觉信息,通过将音频特征与唇部图像序列特征进行融合得到说话人的表征,其中音频特征大小为(B,256,2399),将唇部图像序列特征扩充至(B,256,2399)后与音频特征在第一维度上进行融合得到(B,512,2399)大小的说话人特征表示;
对说话人特征、唇部动作特征进行多尺度特征提取,由不共享权重参数的两个多层下采样网络结构分别对说话人特征及唇部动作特征进行特征提取,图2为多尺度特征提取模块的网络结构示意图,每一部分的网络结构由多个串联的池化模块组成,每个模块结构为Conv1D-BN-PReLU-AvgPool,通过多层池化不断缩小特征图保留关键信息,弱化不重要的信息。同时对每个模块的输出加上先前各池化模块的输出结果,通过这种跳跃连接的方式保证信息完整性,并且避免池化造成的信息偏差;
在训练过程中通过将下采样网络对说话人特征以及唇部动作特征的输出结果按照逐点相加进行融合后,依据融合特征利用线性变换映射到800个ID上表示对应各个说话人的概率,以最大概率对应的ID作为说话人的预测结果,并与该视频对应的真实说话人ID进行校对,以此作为第一阶段训练目标函数的一部分,加快模型对数据的拟合。
由于对说话人的预测类似于分类任务,通过计算预测结果与实际真实结果间的交叉熵损失作为两者接近程度的表示,其值越小表示两者越接近,因此采用交叉熵损失函数作为训练过程中的目标函数的一部分,交叉熵损失计算方式如下:
Figure BDA0003990717540000071
其中B表示训练过程中的样本数,s分别对应训练集和验证集中的800个说话人ID,Tis表示第i个样本对应的真实说话人是否为s,若是则值为1,否则为0,Pis表示第i个样本的预测结果中为说话人s的概率。
在步骤S5中,为更好地学习视频片段中的细节信息,通过对视频分段,学习唇部动作与语音间的细节映射。图3给出唇部动作与语音间的细节映射学习模块的网络结构示意图。首先将音频特征与唇部动作特征在第二维度扩充至2400,再将其均分为三段,对于每个片段分别在第一维度即特征通道上融合,得到(B,512,400)的融合特征向量。对于融合后的特征片段进行多次的一维卷积、批量归一化以及PReLU激活,最后通过Sigmoid函数获得0~1的特征权值矩阵,对片段中的不同特征点赋上不同权重,形成注意力机制。最后将模块输入的融合特征与权值矩阵相乘得到最终的片段融合特征,再通过卷积将最终融合特征的通道数缩至256,并按时间维度对片段融合特征拼接。
在步骤S6中,由于说话人特征包含音频特征与唇部图像序列特征的视觉信息,而片段融合特征中也包含音频特征与唇部动作特征这一视觉信息,因此将片段融合特征与说话人特征通过逐点相加的方式融合,同时,与上一个模块的预测音频掩膜结果、原始唇部图像序列特征在第一维度上融合拼接。
对融合特征的学习是将融合后的特征输入时间卷积网络,输出一个阈值范围为0~1的掩膜矩阵。时间卷积网络由多个Conv1D(1x1)-PReLU-gLN-Conv1D(Depthwise)-PReLU-gLN-Conv1D(1x1)的时间模块组成,其中Conv1D(Depthwise)卷积中是基于通道的空洞卷积,每个输出通道仅在一个输入通道上卷积,且空洞卷积的dilation系数随着时间模块的索引以2的倍数增加;gLN表示进行全局层归一化。
在步骤S7中,将步骤S4-S6视为语音分离模块,重复步骤S4-S6,将上一模块输出的权值矩阵作为下一模块的输入,并与原始混合音频的特征相乘后作为当前模块中的音频特征表示。其中,对于第一个语音分离模块,以混合音频的原始特征作为输入。
在步骤S8中,所述语音分离是通过将S6中得到的掩膜矩阵与原始混合音频相乘,从而分离除其中某一说话人的单独音频数据,并通过解码器重建音频信号。并通过计算分离后的音频信号与真实的干净音频间的标度不变信噪比(SI-SNR)(Y.Luo andN.Mesgarani.Conv-TasNet:Surpassing Ideal Time-Frequency Magnitude Masking forSpeech Separation.IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,vol.27,no.8,pp.1256-1266,Aug.2019,doi:10.1109/TASLP.2019.2915167)衡量二者在时域上的相似性,该值越大表明二者越相似,并以其相反值作为目标函数的一部分。SI-SNR的计算方法如下:
Figure BDA0003990717540000081
/>
Figure BDA0003990717540000082
Figure BDA0003990717540000083
其中,S表示真实的干净语音,
Figure BDA0003990717540000084
表示分离出的某一说话人语音。则训练过程中的目标函数定义如下:
LSISNR=-SISNR, (5)
L=αLsISNR+βLCrossEntropy, (6)
在本实施例中,采用Adam作为优化器,共训练100轮。初始学习率ε=0.001,在验证集中采用损失函数作为指标,当该值连续3轮不再减小时降低学习率为一半,即ε=0.5ε;当指标-SISNR连续6轮不再减小时说明模型已经收敛,提前结束训练。
训练过程中采用两阶段进行训练,在第一阶段,损失函数L=αLsISNR+βLCrossEntropv中α为1,β为0.1,第二阶段β调整为0。图4给出全部采用一阶段训练与分两阶段训练时在验证集上损失函数值的变化情况。由于在第一阶段损失函数中添加说话人预测结果的交叉熵损失可加快模型的收敛速度,而在训练中后期,一方面由于样本中说话人数量的限制会导致模型对说话人的过拟合,表现为验证集上的损失函数值随着迭代次数的增加而不断增大,另一方面,由于对说话人的预测并不是主体任务,为让模型在语音分离任务上表现更好的效果,因此在第二阶段将损失函数中说话人预测结果的交叉损失的系数调整为0。本实施例中,在训练迭代到40轮时将损失函数中的系数β调整为0。
图5给出训练过程的每次迭代中在测试集上损失函数值的变化情况,在测试集上使用的损失函数与训练集、验证集相似,其中系数α为1,β为0。图中基线表示MuSE模型,模块1表示说话人特征的多尺度提取模块,模块2表示唇部动作特征提取模块,模块3表示语音与唇部动作细节映射。
本实施例中采用信号失真比(SDR)、信号干扰比(SIR)、信号伪影比(SAR)(E.Vincent,R.Gribonval and C.Fevotte.Performance measurement in blind audiosource separation.IEEE Transactions on Audio,Speech,and Language Processing,vol.14,no.4,pp.1462-1469,July 2006,doi:10.1109/TSA.2005.858005),定义如下:
Figure BDA0003990717540000091
Figure BDA0003990717540000092
Figure BDA0003990717540000093
Figure BDA0003990717540000094
Figure BDA0003990717540000095
其中,St对应混合音频中的目标音频部分,Sm表示真实干净的目标语音,
Figure BDA0003990717540000096
表示分离出的目标说话人语音;Ei对应混合音频中非目标音频部分,同理,Sn表示非目标说话人的其他干净音频,/>
Figure BDA0003990717540000097
表示分离出的非目标说话人的音频;En对应混合音频中的噪声部分,包括在生成混合音频时随机添加的-10dB至10dB的随机噪声以及设备采集过程中的其他噪声;Ea对应计算过程中产生的系统误差和失真部分。三种指标的值越大表明语音分离效果越好。
此外,采用语音质量感知评估(PESQ)(Rix,A.W.,Beerends,J.G.,Hollier,M.P.,and Hekstra,A.P..Perceptual evaluation of speech quality(PESQ)-a new methodfor speech quality assessment of telephone networks and codec.2001 IEEEinternational conference on acoustics,speech,and signalprocessing.Proceedings(Cat.No.01CH37221).IEEE,2001,2:749-752)和短时客观可懂度(STOI)(C.H.Taal,R.C.Hendriks,R.HeusdensandJ.Jensen.A short-time objectiveintelligibility measure for time-frequency weighted noisy speech.2010IEEEInternational Conference on Acoustics,Speech and Signal Processing,2010,pp.4214-4217,doi:10.1109/ICASSP.2010.5495701)作为客观评价指标,也是较为常用的语音质量评估指标。其中语音质量感知评估的阈值为-0.5~4.5,根据音频的清晰度、音量、延时、干扰、丢失因素客观评估;短时客观可懂度是阈值为0~1的指标,对音频中语句的可理解程度评估。二者结果值的大小与分离效果的好坏成正比。
表1给出模型在添加不同模块后的语音分离效果的评估结果。
表1
Figure BDA0003990717540000101
其中,基线表示MuSE模型(Z.Pan,R.Tao,C.Xu and H.Li.Muse:Multi-Modaltarget speaker extraction with visual cues.ICASSP 2021-2021IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),2021,pp.6678-6682,doi:10.1109/ICASSP39728.2021.9414023),模块1表示说话人特征的多尺度提取模块,模块2表示唇部动作特征提取模块,模块3表示语音与唇部动作细节映射。从表中可见,各模块对于语音分离任务的结果均有一定的提升。

Claims (10)

1.基于多尺度的多模态时域语音分离方法,其特征在于包括以下步骤:
1)对数据进行预处理,包括混合音频生成、视频图像序列中唇部区域提取;
2)对一维的单通道音频信号进行特征编码,生成特征向量;
3)利用预训练模型对唇部区域进行特征编码生成特征向量,并根据唇部图像序列特征的帧间差异生成唇部动作特征;
4)通过池化与跳跃连接分别对说话人特征、唇部动作特征进行多尺度特征提取,并在训练过程中依据说话人特征进行说话人ID预测;
5)对视频进行分段,学习唇部动作与语音间的细节映射;
6)将音频特征、唇部图像序列特征、说话人特征、唇部动作特征、唇部动作与语音间映射关系进行融合与特征学习,生成权值矩阵;
7)将步骤4)~6)视为语音分离模块,重复步骤4)~6),将上一模块输出的权值矩阵作为下一模块的输入更新音频特征;
8)依据权值矩阵从混合音频中分离出相应的部分,并进行解码还原得到分离后的音频信号。
2.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤1)中,所述混合音频生成所使用的数据来自公开数据集VoxCeleb2中随机选择的800个不同人物的视频片段作为训练集,每个说话人都有唯一ID标识,视频帧率为25fps,音频采样率为16kHz;随机选择两段音频,以-10dB至10dB的随机信噪比进行混合,从而生成混合音频数据;
所述唇部区域提取,通过将视频图像转为灰度图并缩放至224*224大小,并取中部112*112大小作为唇部区域的表示。
3.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤2)中,对音频信号进行特征编码,对于训练的音频数据取前n秒,共16000*n个采样点,通过卷积生成256维特征向量。
4.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤3)中,所述对唇部区域进行特征编码,通过预训练的语音识别任务模型对唇部区域进行特征提取,生成512维特征向量,并通过一维卷积最终生成256通道的特征表示;
所述唇部动作特征是由唇部区域特征计算得到,通过预训练的语音识别任务模型计算得到的唇部区域特征大小为512*25n,其中n表示视频秒数,保留唇部区域第一帧特征,计算第二帧特征与第一帧特征的差值、第三帧与第二帧特征的差值……以此类推,直至完成整个视频的所有帧间差值计算,并将所有差值结果在第二个维度上与第一帧特征进行拼接,从而得到唇部区域的动作特征表示。
5.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤4)中,所述说话人特征包含听觉信息与视觉信息,通过将音频特征与唇部图像序列特征进行融合得到说话人的表征;
所述对说话人特征、唇部动作特征进行多尺度特征提取,由不共享权重参数的两个多层下采样网络结构分别对说话人特征及唇部动作特征进行特征提取,每一部分的网络结构由多个串联的池化模块组成,通过多层池化不断缩小特征图保留关键信息,弱化不重要的信息;同时通过跳跃连接保证信息完整性,并且避免池化造成的信息偏差。
6.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤4)中,所述在训练过程中依据说话人特征进行说话人ID预测的结果作为第一阶段训练目标函数的一部分,加快模型对数据的拟合。
7.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤5)中,所述学习唇部动作与语音间的细节映射是通过对视频进行分段从而更好地学习视频片段中的细节信息,将视频均分为3个小片段,即把相应的音频特征以及唇部动作特征分为三段,分别进行融合;将融合后的特征片段进行多次的卷积、批量归一化、激活,最后通过Sigmoid函数获得0~1的特征权值矩阵,对片段中的不同特征点赋上不同权重,形成注意力机制;最后将模块输入的融合特征与权值矩阵相乘得到最终的片段融合特征。
8.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤6)中,所述融合与特征学习是将融合后的特征输入时间卷积网络,输出一个阈值范围为0~1的掩膜矩阵。
9.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤7)中,将步骤4)~6)视为语音分离模块,重复步骤4)~6),将上一模块输出的权值矩阵作为下一模块的输入,并与原始混合音频的特征相乘后作为当前模块中的音频特征表示。
10.如权利要求1所述基于多尺度的多模态时域语音分离方法,其特征在于在步骤8)中,所述依据权值矩阵从混合音频中分离出相应的部分,并进行解码还原得到分离后的音频信号,是通过将步骤6)中得到的掩膜矩阵与原始混合音频相乘,从而分离除其中某一说话人的单独音频数据,通过解码器重建音频信号。
CN202211580703.7A 2022-12-09 2022-12-09 基于多尺度的多模态时域语音分离方法 Pending CN115881156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211580703.7A CN115881156A (zh) 2022-12-09 2022-12-09 基于多尺度的多模态时域语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211580703.7A CN115881156A (zh) 2022-12-09 2022-12-09 基于多尺度的多模态时域语音分离方法

Publications (1)

Publication Number Publication Date
CN115881156A true CN115881156A (zh) 2023-03-31

Family

ID=85766796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211580703.7A Pending CN115881156A (zh) 2022-12-09 2022-12-09 基于多尺度的多模态时域语音分离方法

Country Status (1)

Country Link
CN (1) CN115881156A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129931A (zh) * 2023-04-14 2023-05-16 中国海洋大学 一种视听结合的语音分离模型搭建方法及语音分离方法
CN117809694A (zh) * 2024-01-08 2024-04-02 哈尔滨理工大学 基于时序多尺度特征表示学习的伪造语音检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129931A (zh) * 2023-04-14 2023-05-16 中国海洋大学 一种视听结合的语音分离模型搭建方法及语音分离方法
CN117809694A (zh) * 2024-01-08 2024-04-02 哈尔滨理工大学 基于时序多尺度特征表示学习的伪造语音检测方法及系统

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
Venkataramanan et al. Emotion recognition from speech
CN111243620B (zh) 语音分离模型训练方法、装置、存储介质和计算机设备
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
JP6860901B2 (ja) 学習装置、音声合成システムおよび音声合成方法
Xu et al. Listening to sounds of silence for speech denoising
CN115881156A (zh) 基于多尺度的多模态时域语音分离方法
Pascual et al. Time-domain speech enhancement using generative adversarial networks
Adiga et al. Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN.
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Parmar et al. Effectiveness of cross-domain architectures for whisper-to-normal speech conversion
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
Zöhrer et al. Representation learning for single-channel source separation and bandwidth extension
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Airaksinen et al. Data augmentation strategies for neural network F0 estimation
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
Soni et al. State-of-the-art analysis of deep learning-based monaural speech source separation techniques
Hepsiba et al. Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN
Jannu et al. Shuffle attention u-net for speech enhancement in time domain
Zezario et al. Speech enhancement with zero-shot model selection
CN113035217A (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法
Parisae et al. Adaptive attention mechanism for single channel speech enhancement
González-Salazar et al. Enhancing speech recorded from a wearable sensor using a collection of autoencoders
George et al. A review on speech emotion recognition: a survey, recent advances, challenges, and the influence of noise
Gavrilescu Improved automatic speech recognition system using sparse decomposition by basis pursuit with deep rectifier neural networks and compressed sensing recomposition of speech signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination