CN112562706B

CN112562706B - 一种基于时间潜在域特定说话人信息的目标语音提取方法

Info

Publication number: CN112562706B
Application number: CN202011376556.2A
Authority: CN
Inventors: 兰海燕; 肖飞扬; 柳友德; 兰宇晨; 关键; 田左; 王恺瀚; 谢明杰; 芦瑶; 董喆
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-05-05
Anticipated expiration: 2040-11-30
Also published as: CN112562706A

Abstract

本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法，包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块；待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵，此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块；在目标说话人特征信息指导器中，特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性，或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理，能高效提取出针对特定任务的目标说话人信息，而不受其他干扰信号的影响，保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。

Description

一种基于时间潜在域特定说话人信息的目标语音提取方法

技术领域

本发明涉及一种目标语音提取方法，尤其涉及一种基于时间潜在域特定说话人信息的目标语音提取方法。

背景技术

信息时代的社会生活中，人类语言语音信息的高效率利用越来越吸引目光，在现代生活纷繁复杂的声学环境下，如何将其中满足特定任务需求的特定目标说话人语音单独提取，关系到了人们对目标信息的第一重感知是否清晰直观。

该问题实际上可视作对“鸡尾酒会问题”的新求解思路，在机器进行语音语言处理任务的过程中为其学习声音信号源之间的区别提供了新思路，从而获得新的学习信息与更好的目标说话人提取性能。当前进行类似任务的多是仅考虑到语音/非语音场景下的噪声信息消除、混响消除与语音质量增强工作，但这些工作都没有对实际需求的目标说话人音源信息进行学习。因此，上述方法在语音/语音混合场景，即多说话人复杂场景下的表现差强人意，基于说话人信息的目标语音信息提取正是为进一步解决这些不足而进行的新研究领域。

同时，传统的复数域时频语音信息在处理过程中会面临固有的相位信息缺失问题，尽管很多研究人员尝试改善，但效果仍不理想。而为了解决这一问题本发明提出在时间潜在空间域进行特征提取，进而完全避免了这一相位缺失问题的发生，获取了更好的目标语音提取性能。

满足需求的目标说话人语音信息可以用于人机交互、远程通信、语音风格迁移、人工耳蜗等等多种具体应用场景，具备更强的抗干扰能力与泛化性能。特定目标说话人的语音提取能够满足针对特定工作人员的操作需求与后续任务，有力地对接通信、医疗、影音娱乐、军工开发等国计民生的重要领域，具备巨大的研究价值与实际意义。

发明内容

为满足实际场景中具体任务对特定目标说话人信息的需求，提升具体任务中信息获取的效率，本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法。

本发明的目的是这样实现的：

一种基于时间潜在域特定说话人信息的目标语音提取方法，包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块：

待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵，此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块；在目标说话人特征信息指导器中，特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性，或者不包含目标说话人特征，判定得到的编码特征会回传到增强提取模块，当编码特征表明特征矩阵与某一目标说话人相关时，增强提取模块的计算过程将全程考虑到这一编码信息，从而接收目标说话人特征信息指导器的指导功能，而当编码特征表明特征矩阵不包含目标说话人信息时，增强提取模块将停止对目标信息的提取，并输出“无目标信息的提示”，与此同时将原始语音进行“无目标信息指导”的语音增强处理。

本发明还包括这样一些特征：

所述时间潜在域特征转换模型的损失计算借助语音信号信噪比计算实现，信噪比计算公式如下所示：

所述目标说话人特征信息指导器使用了注意力机制强化了对目标特有特征的关注程度，其编码特征直接作用于后续增强过程时不考虑损失计算，直接与总体提取增强模块共同训练，而其目标预测功能通过已经成熟的交叉熵损失实现梯度更新过程：

其中i表示一批训练数据中的某一组，而M表示总共支持的目标数。

与现有技术相比，本发明的有益效果是：

网络能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理，网络的针对目标说话人的语音提取性能优秀，能高效提取出针对特定任务的目标说话人信息，而不受其他干扰信号的影响，保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。

附图说明

图1是本发明的总体技术路线。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

一种在时间潜在域的语音信息特征转换模型，从时间潜在域空间获取目标说话人信息判定的模型以及最终进行目标语音信号提取的模型。显而易见的是，特定的任务需求都会指向具体的特定目标，为了将目标说话人与其他干扰源加以进一步的分割，本发明引入特定目标说话人的特征信息，进而指导方法对目标说话人语音的提取。与此同时，由于训练考虑到了说话人特征信息的指导，面对说话人独立场景的测试时模型也能借助已有特征信息表现出高效清晰的目标说话人语音信息提取性能。具体如下：

(1)语音信号的预处理与时间潜在域特征转换。

语音信号是时序的波形信号，为了获取更多的特征信息，将原始语音信号映射到信息更为丰富的时间潜在域数据空间，并将其统一规范数据格式。时间潜在域空间的语音信息特征将不再是傅里叶变换得到的复数特征矩阵，而是实数域的潜在映射特征矩阵，由此避免了时频域信息固有的相位缺失问题。同时，时间潜在域特征还原回语音信号的过程并非是上述转换过程的简单逆变换，而是考虑到了目标信号数据空间与时间潜在域特征的联系，在将时间潜在域特征还原到语音信号的同时，隐含了对目标语音信号的映射，能够有效地支持特定目标说话人特征信息的指导。

(2)特定目标说话人特征信息的引入。

构建专门的特定目标说话人特征提取模块，获取到时间潜在域特征矩阵信息之后将其输入特定目标说话人特征提取模块，借由该模块的注意力机制与目标说话人加以相关约束，使得模型能够有效学习到目标说话人间的细微区别，从而能够指导整个目标语音提取模型对目标说话人信息的提取。

复杂声学环境的语音信号通过该网络得到被有效提取的目标说话人语音信息。

其具体实施方案如下：

(1)语音信号的预处理与时间潜在域特征转换

语音信号是时序的波形信号，为了获取更多的特征信息，将语音信号映射到信息更为丰富的时间潜在域数据空间，并将其统一规范数据格式。时间潜在域空间的语音信息特征将不再是傅里叶变换得到的复数特征矩阵，而是实数域的潜在映射特征矩阵，由此避免了时频域信息固有的相位缺失问题。该特征矩阵转换模型可通过深度学习方法根据数据训练迭代求得，并固定用于后续训练。同时，存在一个与之相对应的模型，能够将时间潜在域的特征信息还原到语音信号，两个模型并非简单的互为逆变换的关系，而是实现了“原始语音信号——潜在域时间特征——目标语音信号”的映射联系，以支持对特定目标说话人语音信息的提取任务，为后续模块的工作提供支点。

(2)特定目标说话人特征信息指导器

通过时间潜在域特征矩阵转换模型，可以获得目标说话人信息的时间潜在域特征。该指导器模块将该特征进行编码，进一步精炼出对应说话人特有信息的编码特征，并利用注意力机制提升该模块对特定目标的关注程度，从而实现说话人信息的提取，预测该信息是否与目标说话人相符合，并通过预测结果优化模块的编码特征提取能力与预测能力。同时，说话人特有的编码特征将作用于整体的目标语音提取模型计算过程，作为目标说话人特征信息指导器的输出对目标语音提取模型的任务指向性进行导向。总体的目标语音提取模块在接收到特定目标的编码特征后会受该特征的指导作用所影响，完成对特定信息的提取。

应用过程中可单独将该模块进行训练，以适应时间任务中复杂多变的特定目标信息，同时，由于模块内的注意力机制提供了良好的泛化性能，添加新目标说话人信息的训练过程仅需较少的语料数据，更能满足实际场景任务的需求。

(3)总体的目标语音提取模型

总体的目标语音提取模型由时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块共同构成。待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵，此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块。

在目标说话人特征信息指导器中，特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性，或者不包含目标说话人特征。判定得到的编码特征会回传到增强提取模块。当编码特征表明特征矩阵与某一目标说话人相关时，增强提取模块的计算过程将全程考虑到这一编码信息，从而接收目标说话人特征信息指导器的指导功能——能高效提取出针对特定任务的目标说话人信息，而不受其他干扰信号的影响。而当编码特征表明特征矩阵不包含目标说话人信息时，增强提取模块将停止对目标信息的提取，并输出“无目标信息的提示”。与此同时将原始语音进行“无目标信息指导”的语音增强处理，为总体模型的输出提供了符合实际场景需求的性能下限，使得本发明在面对全新的目标说话人且其对应训练过程未完成时仍具有优秀的原始信号优化功能，具备较强的鲁棒性。语音增强功能可采用注意力机制训练得到的语音增强模组，在接受指导器输出引导的情况下完成对特定目标语音信息的提取任务。

(4)损失计算

上述三组模型组件可各自进行损失计算，以强化单独模组性能。也可考虑将目标说话人特征指导器与增强提取模组联合训练，以期望获取更好的目标说话人指导相关性质。时间潜在域特征转换模型在增强模组训练中可以是固定模组不参与其更新过程，只需将特征转换模型提前用训练数据集训练完毕即可参与后续应用。

时间域特征转换模块组输入为原始语音信号，输出为初始的向目标优化的语音信号，其损失计算可借助语音信号信噪比计算实现，以信噪比作为损失函数，信噪比(SNR)计算公式如下所示：

实际上，该损失计算方式并不唯一，当需求转向对原始信号的精准表达时还可使用如均方误差、L1范数损失等损失计算方式。

特定目标说话人特征信息指导器模块的网络架构创新性的使用了注意力机制强化了对目标特有特征(如音色、音调等)的关注程度，其编码特征直接作用于后续增强过程时不考虑损失计算，直接与总体提取增强模块共同训练，而其目标预测功能可通过已经成熟的交叉熵损失实现梯度更新过程。

其中i表示一批训练数据中的某一组，而M表示总共支持的目标数，p表示概率值，p_ic表示第i组第c类对应的概率值。除去交叉熵外还可通过相关度计算实现对指导器的损失计算。

本发明设计并实现了一种基于时间潜在域说话人特征信息，在复杂声学场景下能够对目标说话人语音进行提取的方法。信息时代的社会生活中，人类语言语音信息的高效率利用越来越吸引目光，在现代生活纷繁复杂的声学环境下，如何将其中满足特定任务需求的特定目标说话人语音单独提取，关系到了人们对目标信息的第一重感知是否清晰直观。

该问题实际上可视作对“鸡尾酒会问题”的新求解思路，在机器进行语音语言处理任务的过程中为其学习音源间的区别提供了新思路，从而获得新的学习信息与更好的目标说话人提取性能。当前进行类似任务的多是仅考虑到语音/非语音场景下的噪声信息消除、混响消除与语音质量增强工作，但这些工作都没有对实际需求的目标说话人音源信息进行学习。因此，上述方法在语音/语音混合场景，即多说话人复杂场景下的表现差强人意，基于说话人信息的目标语音信息提取正是为进一步解决这些不足而进行的新研究领域。

满足需求的目标说话人语音信息可以用于人机交互、远程通信、语音风格迁移、人工耳蜗等等多种具体应用场景，具备更强的抗干扰能力与泛化性能，能够有力地对接通信、医疗、影音娱乐、军工开发等国计民生的重要领域，具备巨大的研究价值与实际意义。

Claims

1.一种基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块：

其中，时间潜在特征为音频时序波形信号所对应的实数域特征，借助时间潜在域特征转换模型实现从时序波形到时间潜在特征的转换；潜在空间则是不同于传统傅里叶变换复数域空间的高维实数域空间，包含了傅里叶时频域信息缺失的相位信息，由时间潜在域特征转换模型根据训练数据分布与损失函数学习而来；

待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵，此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块；在目标说话人特征信息指导器中，特征矩阵将被判定为与某一特定的目标说话人时间潜在特征具有相关性，或者不包含目标说话人特征，判定得到的编码特征会回传到增强提取模块；

当编码特征表明特征矩阵与某一目标说话人相关时，增强提取模块的计算过程将全程考虑到这一编码信息，从而接收目标说话人特征信息指导器的指导功能——能高效提取出针对特定任务的目标说话人信息，而不受其他干扰信号的影响；而当编码特征表明特征矩阵不包含目标说话人信息时，增强提取模块将停止对目标信息的提取，并输出“无目标信息的提示”，与此同时将原始语音进行“无目标信息指导”的语音增强处理。

2.根据权利要求1所述的基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，所述时间潜在域特征转换模型的损失计算借助语音信号信噪比计算实现，以信噪比作为损失函数，信噪比计算公式如下所示：

3.根据权利要求1所述的基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，所述目标说话人特征信息指导器使用了注意力机制强化了对目标特有特征的关注程度，其编码特征直接作用于后续增强过程时不考虑损失计算，直接与总体提取增强模块共同训练，而其目标预测功能通过已经成熟的交叉熵损失实现梯度更新过程：