CN113948093A

CN113948093A - 一种基于无监督场景适应的说话人识别方法及系统

Info

Publication number: CN113948093A
Application number: CN202111213868.6A
Authority: CN
Inventors: 杨群; 强峻浩; 刘绍翰
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-18
Anticipated expiration: 2041-10-19
Also published as: CN113948093B

Abstract

本发明公开一种基于无监督场景适应的说话人识别方法及系统，方法包括：获取源域训练集和目标域训练集；对源域训练集和目标域训练集进行预处理，得到预处理后的源域训练集和目标域训练集；利用预处理后的源域训练集和目标域训练集以及损失函数对协作对抗网络模型进行训练和优化；将多个说话人语音以及与说话人语音对应的说话人身份输入优化后的协作对抗网络模型中，构建说话人语音数据库；将待识别说话人语音输入优化后的协作对抗网络模型中，利用优化后的协作对抗网络模型和说话人语音数据库识别出与待识别说话人语音对应的说话人身份。本发明能够在解决说话人识别的场景不匹配问题时，不损失说话人识别能力，从而提高说话人识别的精度。

Description

一种基于无监督场景适应的说话人识别方法及系统

技术领域

本发明涉及说话人识别技术领域，特别是涉及一种基于无监督场景适应的说话人识别方法及系统。

背景技术

声纹认证以声音的多样性和特异性为基础，还具有不接触认证、数据采集方便、适合远程认证等优势，声纹认证和指纹、人脸等生物特征认证一起成为生物认证领域的重要方法。说话人识别技术是声纹认证的核心，其性能直接影响声纹认证的认证精度。在处理声纹认证场景时经常会遇到注册语音和测试语音场景不同的情况，例如在安静环境下注册，在嘈杂环境下测试，注册和测试条件不匹配，即说话人识别的场景不匹配会导致说话人识别性能显著下降。另一方面，数据标注的高成本也在制约多场景数据对模型性能的改进。传统的说话人识别方法不考虑场景不匹配问题，通常设定在安静环境下进行声纹认证，使用特征从早期的i-vector逐步发展到现在的x-vector，场景匹配时这些特征可以带来非常高的模型精度，但面对场景不匹配问题时模型精度会显著下降。

目前使用迁移学习领域中无监督方法可以解决说话人识别的场景不匹配的问题。无监督领域自适应方法有很多，但都会对目标场景数据做额外处理。其中，对抗领域自适应方法是无监督领域自适应的分支，既避免了额外操作也可以把不同场景数据映射到相同的参数空间达到领域适应目的，但会损失部分说话人识别能力，导致说话人识别的精度低。协作对抗领域自适应在对抗领域自适应基础上加入协作模块，进一步提升对目标场景数据的编码建模能力，使模型精度进一步提升，但提升效果有限，因此说话人识别的精度仍然不高。

上述无监督领域自适应方法均能分别解决说话人识别的场景不匹配的问题，但是在解决说话人识别的场景不匹配问题时，会损失说话人识别能力，最终导致说话人识别的精度均不高。

发明内容

本发明的目的是提供一种基于无监督场景适应的说话人识别方法及系统，能够在解决说话人识别的场景不匹配问题时，不损失说话人识别能力，从而提高说话人识别的精度。

为实现上述目的，本发明提供了如下方案：

一种基于无监督场景适应的说话人识别方法，所述方法包括：

获取源域训练集；所述源域训练集包括多个源说话人语音以及与所述源说话人语音对应的说话人身份和第一场景；所述场景包括说话人所处的声音环境和录音条件；

获取目标域训练集；所述目标域训练集包括多个目标说话人语音以及与所述目标说话人语音对应的第二场景；

对所述源域训练集和所述目标域训练集进行预处理，得到预处理后的源域训练集和预处理后的目标域训练集；

利用所述预处理后的源域训练集和所述预处理后的目标域训练集以及损失函数对协作对抗网络模型进行训练和优化，得到优化后的协作对抗网络模型；所述损失函数包括协作损失函数；所述协作损失函数包括场景特征提取参数；所述场景特征提取参数用于对所述预处理后的源域训练集和所述预处理后的目标域训练集进一步提取场景特征，并在梯度反向传播时减弱所述协作损失函数对说话人特征表达的约束；

获取同一场景下的多个说话人语音；

将多个所述说话人语音以及与所述说话人语音对应的说话人身份输入所述优化后的协作对抗网络模型中，利用所述优化后的协作对抗网络模型对所述说话人语音提取说话人特征以及与所述说话人特征对应的场景特征；

利用所述说话人特征以及与所述说话人特征对应的场景特征和说话人身份，构建说话人语音数据库；

将待识别说话人语音输入所述优化后的协作对抗网络模型中，利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份；所述待识别说话人语音对应的场景与所述说话人语音对应的场景相同。

可选地，所述将待识别说话人语音输入所述优化后的协作对抗网络模型中，利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份，具体包括：

将待识别说话人语音输入所述优化后的协作对抗网络模型中；

利用所述优化后的协作对抗网络模型对所述待识别说话人语音提取待识别说话人特征以及与所述待识别说话人特征对应的场景特征；

将所述待识别说话人特征与所述说话人语音数据库中多个所述说话人特征依次进行特征匹配，将所述待识别说话人特征对应的场景特征与所述说话人语音数据库中多个所述说话人特征对应的场景特征依次进行特征匹配；

若所述特征匹配成功，则输出与所述待识别说话人语音对应的说话人身份。

可选地，所述方法还包括：

若所述特征匹配不成功，则确定与所述待识别说话人语音对应的说话人身份不在所述说话人语音数据库中。

可选地，所述对所述源域训练集和所述目标域训练集进行预处理，得到预处理后的源域训练集和预处理后的目标域训练集，具体包括：

对所述源说话人语音和所述目标说话人语音进行数据增强，得到数据增强后的源说话人语音和数据增强后的目标说话人语音；

对所述数据增强后的源说话人语音和所述数据增强后的目标说话人语音提取声学特征，得到源说话人语音的声学特征和目标说话人语音的声学特征；所述预处理后的源域训练集包括所有所述源说话人语音的声学特征；所述预处理后的目标域训练集包括所有所述目标说话人语音的声学特征。

可选地，所述协作损失函数的表达式为L_c＝CE(F_c(F′_f,θ_c),y_d)；式中，L_c表示协作损失，CE表示交叉熵损失函数，F_c表示场景特征分类函数，F′_f表示浅层向量，θ_c表示场景特征提取参数，y_d表示与说话人语音对应的场景。

本发明还提供了如下方案：

一种基于无监督场景适应的说话人识别系统，所述系统包括：

源域训练集获取模块，用于获取源域训练集；所述源域训练集包括多个源说话人语音以及与所述源说话人语音对应的说话人身份和第一场景；所述场景包括说话人所处的声音环境和录音条件；

目标域训练集获取模块，用于获取目标域训练集；所述目标域训练集包括多个目标说话人语音以及与所述目标说话人语音对应的第二场景；

预处理模块，用于对所述源域训练集和所述目标域训练集进行预处理，得到预处理后的源域训练集和预处理后的目标域训练集；

模型训练和优化模块，用于利用所述预处理后的源域训练集和所述预处理后的目标域训练集以及损失函数对协作对抗网络模型进行训练和优化，得到优化后的协作对抗网络模型；所述损失函数包括协作损失函数；所述协作损失函数包括场景特征提取参数；所述场景特征提取参数用于对所述预处理后的源域训练集和所述预处理后的目标域训练集进一步提取场景特征，并在梯度反向传播时减弱所述协作损失函数对说话人特征表达的约束；

说话人语音获取模块，用于获取同一场景下的多个说话人语音；

特征提取模块，用于将多个所述说话人语音以及与所述说话人语音对应的说话人身份输入所述优化后的协作对抗网络模型中，利用所述优化后的协作对抗网络模型对所述说话人语音提取说话人特征以及与所述说话人特征对应的场景特征；

说话人语音数据库构建模块，用于利用所述说话人特征以及与所述说话人特征对应的场景特征和说话人身份，构建说话人语音数据库；

说话人身份识别模块，用于将待识别说话人语音输入所述优化后的协作对抗网络模型中，利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份；所述待识别说话人语音对应的场景与所述说话人语音对应的场景相同。

可选地，所述说话人身份识别模块具体包括：

待识别说话人语音输入单元，用于将待识别说话人语音输入所述优化后的协作对抗网络模型中；

特征提取单元，用于利用所述优化后的协作对抗网络模型对所述待识别说话人语音提取待识别说话人特征以及与所述待识别说话人特征对应的场景特征；

特征匹配单元，用于将所述待识别说话人特征与所述说话人语音数据库中多个所述说话人特征依次进行特征匹配，将所述待识别说话人特征对应的场景特征与所述说话人语音数据库中多个所述说话人特征对应的场景特征依次进行特征匹配；

说话人身份输出单元，用于若所述特征匹配成功，则输出与所述待识别说话人语音对应的说话人身份。

可选地，所述系统还包括：

确定模块，用于若所述特征匹配不成功，则确定与所述待识别说话人语音对应的说话人身份不在所述说话人语音数据库中。

可选地，所述预处理模块具体包括：

数据增强单元，用于对所述源说话人语音和所述目标说话人语音进行数据增强，得到数据增强后的源说话人语音和数据增强后的目标说话人语音；

声学特征提取单元，用于对所述数据增强后的源说话人语音和所述数据增强后的目标说话人语音提取声学特征，得到源说话人语音的声学特征和目标说话人语音的声学特征；所述预处理后的源域训练集包括所有所述源说话人语音的声学特征；所述预处理后的目标域训练集包括所有所述目标说话人语音的声学特征。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开的基于无监督场景适应的说话人识别方法及系统，对协作对抗网络模型中协作模块的损失函数进行改进，利用包含有场景特征提取参数的协作损失函数对协作对抗网络模型中协作模块进行优化，进而实现对整个协作对抗网络模型进行优化，由于场景特征提取参数能够进一步提取场景特征，在提取过程中便增强了场景特征，场景特征分类函数利用提取出的增强的场景特征能够进行更准确的场景分类，从而能够解决说话人识别的场景不匹配问题，同时，由于增加了场景特征提取参数，使协作模块的网络深度增加，在梯度反向传播时能够减弱协作损失函数对说话人特征表达的约束，避免了场景特征增强导致的说话人识别更偏向于场景分类，从而影响说话人特征分类，损失说话人识别能力，能减少协作模块的场景分类对说话人分类能力的负面影响，说话人分类精度更高，最终提高说话人识别的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于无监督场景适应的说话人识别方法实施例的流程图；

图2为本发明基于无监督场景适应的说话人识别方法原理图；

图3为本发明协作对抗网络模型的结构示意图；

图4为本发明基于无监督场景适应的说话人识别系统实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明基于无监督场景适应的说话人识别方法实施例的流程图，图2为本发明基于无监督场景适应的说话人识别方法原理图。参见图1和图2，该基于无监督场景适应的说话人识别方法包括：

步骤101：获取源域训练集；源域训练集包括多个源说话人语音以及与源说话人语音对应的说话人身份和第一场景；场景包括说话人所处的声音环境和录音条件。

步骤102：获取目标域训练集；目标域训练集包括多个目标说话人语音以及与目标说话人语音对应的第二场景。

该步骤101和步骤102构建源域训练集和目标域训练集作为原始语音数据，具体为：获取源说话人语音、该源说话人语音的说话人标注和该源说话人语音对应的场景作为源域训练集。获取目标说话人语音和该目标说话人语音对应的场景作为目标域训练集。源域训练集和目标域训练集的区别在于源说话人语音有说话人标注，即说话人身份，目标说话人语音没有说话人标注，在有说话人标注的源域训练集上训练的说话人识别模型可以在无监督，也就是不使用目标说话人语音的说话人标注条件下，使用本方法在目标说话人语音对应的场景下获得较好的识别效果。

步骤103：对源域训练集和目标域训练集进行预处理，得到预处理后的源域训练集和预处理后的目标域训练集。

该步骤103具体包括：

对源说话人语音和目标说话人语音进行数据增强，得到数据增强后的源说话人语音和数据增强后的目标说话人语音。

对数据增强后的源说话人语音和数据增强后的目标说话人语音提取声学特征，得到源说话人语音的声学特征和目标说话人语音的声学特征；预处理后的源域训练集包括所有源说话人语音的声学特征；预处理后的目标域训练集包括所有目标说话人语音的声学特征。

该步骤103对步骤101和步骤102中提到的原始语音数据的说话人语音进行数据增强并提取声学特征。其中说话人语音包含源说话人语音和目标说话人语音，提取说话人语音的声学特征包含源说话人特征和目标说话人特征。数据增强具体包括将说话人语音长度调整规定的数值，在说话人语音中加入噪声以及调整说话人语音的速度等。声学特征用于表示说话人语音所包含的信息，把源说话人声学特征替换步骤101提到的源说话人语音得到源域训练样本、目标说话人声学特征替换步骤102提到的目标说话人语音得到目标域训练样本，源域训练样本和目标域训练样本作为后续协作对抗网络模型的输入。

步骤104：利用预处理后的源域训练集和预处理后的目标域训练集以及损失函数对协作对抗网络模型进行训练和优化，得到优化后的协作对抗网络模型；损失函数包括协作损失函数；协作损失函数包括场景特征提取参数；场景特征提取参数用于对预处理后的源域训练集和预处理后的目标域训练集进一步提取场景特征，并在梯度反向传播时减弱协作损失函数对说话人特征表达的约束。

该步骤104中，协作损失函数的表达式为L_c＝CE(F_c(F′_f,θ_c),y_d)；式中，L_c表示协作损失，CE表示交叉熵损失函数，F_c表示场景特征分类函数，F′_f表示浅层向量，θ_c表示场景特征提取参数，y_d表示与说话人语音对应的场景。

该步骤104之前还包括：

构建说话人向量提取模型，即协作对抗网络模型，协作对抗网络模型的结构示意图如图3所示，参见图3，协作对抗网络模型具体包括：

训练样本获取模块，用于获取步骤103中提到的源说话人声学特征和目标说话人声学特征。

说话人向量提取模块，与训练样本获取模块连接，用于将源说话人声学特征和目标说话人声学特征输入说话人向量提取模块中，得到说话人向量提取模块输出的说话人向量(说话人特征)和浅层向量。

说话人分类模块，与说话人向量提取模块连接，用于根据说话人向量提取模块输出的说话人向量预测源域训练样本的说话人标注，使说话人向量提取模块输出的说话人向量在源说话人语音对应的场景下有较好的提取能力，为没有说话人标注的目标说话人语音的无监督场景适应提供说话人分类的基础。

对抗模块，与说话人向量提取模块连接，用于根据说话人向量提取模块输出的说话人向量反向预测说话人语音对应的场景，其中对抗模块使用梯度翻转实现反向预测，目的是把源说话人语音对应的场景和目标说话人语音对应的场景下输出的说话人向量映射到相同的特征空间，增强没有目标说话人标注的目标域训练样本在相同特征空间下，对目标说话人语音场景(目标说话人语音对应的场景)的说话人向量提取能力，这里实现对无监督的目标说话人语音的场景适应。

协作模块，与说话人向量提取模块连接，用于根据说话人向量提取模块输出的浅层向量预测说话人语音对应的场景，目的是增强浅层向量对目标说话人语音场景的表达能力，抑制对抗模块在反向预测过程中对说话人向量提取能力的干扰，这里实现对无监督的目标说话人语音的进一步场景适应。

本发明对现有协作模块的损失函数进行改进，在现有协作模块的损失函数L_c＝CE(F_c(F′_f),y_d)的基础上进行改进，添加场景特征提取参数θ_c，得到本发明中协作损失函数L_c＝CE(F_c(F′_f,θ_c),y_d)，利用包含有场景特征提取参数θ_c的协作损失函数L_c＝CE(F_c(F′_f,θ_c),y_d)对协作对抗网络模型中协作模块进行优化，进而实现对整个协作对抗网络模型进行优化，由于场景特征提取参数θ_c能够进一步提取场景特征，在提取过程中便增强了场景特征，场景特征分类函数F_c利用提取出的增强的场景特征能够进行更准确的场景分类，从而能够解决说话人识别的场景不匹配问题，同时，由于增加了场景特征提取参数θ_c，使协作模块的网络深度增加，在梯度反向传播时能够减弱协作损失函数对说话人特征表达的约束，避免了场景特征增强导致的说话人识别更偏向于场景分类，从而影响说话人特征分类，损失说话人识别能力，能减少协作模块的场景分类对说话人分类能力的负面影响，说话人分类精度更高，最终提高了说话人识别的精度。

现有协作模块包括池化层、全连接层和分类函数层，现有协作模块的池化层的输入是说话人向量提取模块输出的浅层向量，而本发明添加场景特征提取参数θ_c后，池化层的输入则变为了场景特征提取参数θ_c对浅层向量提取的更抽象的特征，即场景特征。池化层的输入不同导致协作模块中的全连接参数不同，后面的分类函数对全连接的约束也不同，所以整个协作模块对协作对抗网络的约束也不一样。一般称池化前的特征为帧级特征，池化后的特征为句级特征，现有协作模块把浅层向量的帧级特征直接用池化聚合成句级特征，然后场景分类损失约束特征表达，把既用于说话人分类又用于场景分类的特征增强，但这样协作模块的特征表达约束过强会使具有这两种性质的特征更偏向于场景分类任务，损失说话人分类能力。本发明添加场景特征提取参数θ_c提取更抽象的特征用于场景分类，这样也增强具有这两种性质的特征，梯度在传递到主特征提取网络(说话人向量提取模块)时，由于经过的参数增多(多了场景特征提取参数θ_c)，所以约束能力变弱，和现有协作模块相比场景分类任务带来的干扰更小，会使参数更好的增强说话人分类能力，从而提高精度。

该步骤104利用步骤103提到的源域训练样本和目标域训练样本对步骤104之前构建的说话人向量提取模型进行训练，得到训练好的说话人向量提取模型。

其中，说话人分类模块对源说话人语音的说话人标注进行分类，由于是无监督训练，所以不含目标说话人语音的说话人标注，分类损失函数，即说话人分类模块的损失函数如下所示：

L_s＝CE(F_s(F_f),y_s)

式中，下标为s代表说话人分类模块，CE表示交叉熵损失函数，F_s表示说话人特征分类函数，F_f表示说话人向量提取模块输出的说话人向量，y_s表示源说话人语音的说话人标注，L_s表示分类损失。

对抗模块对源说话人语音对应的场景和目标说话人语音对应的场景进行分类，这里不涉及目标说话人语音的说话人标注，而是使用说话人语音对应的场景在说话人分类模块基础上实现无监督适应，对抗损失函数，即对抗模块的损失函数如下所示：

L_a＝-CE(F_a(F_f),y_d)

式中，下标为a代表对抗模块，CE表示交叉熵损失函数，F_a表示场景特征分类函数，F_f表示说话人向量提取模块输出的说话人向量，y_d表示说话人语音对应的场景，L_a表示对抗损失。

协作模块对源说话人语音对应的场景和目标说话人语音对应的场景进行分类，使用浅层向量抑制对抗模块对说话人向量提取能力的干扰，协作损失函数，即协作模块的损失函数如下所示：

L_c＝CE(F_c(F′_f,θ_c),y_d)

式中，下标为c代表协作模块，F′_f表示说话人向量提取模块输出的浅层向量，L_c表示协作损失，CE表示交叉熵损失函数，F_c表示场景特征分类函数，θ_c表示场景特征提取参数，θ_c对输入的F′_f的特征进行进一步提取，y_d表示与说话人语音对应的场景。

对优化后的协作对抗网络模型进行测试时，输入目标说话人语音，获得训练好的说话人向量提取模型输出的说话人向量，利用余弦距离评分比对说话人身份完成说话人识别。

其中，说话人向量提取模型完全使用源说话人语音的说话人标注进行说话人向量提取能力的训练，源说话人语音对应的场景和目标说话人语音对应的场景辅助无监督的目标说话人语音训练，使说话人向量提取模型在目标说话人场景也能获得好的提取效果。

余弦距离评分的目的是计算两个向量之间的距离，其公式如下所示，其中x代表注册说话人向量，y代表测试说话人向量：

式中，cos_score表示余弦距离评分，x_i表示第i个注册说话人向量，y_i表示第i个测试说话人向量。

步骤105：获取同一场景下的多个说话人语音。

步骤106：将多个说话人语音以及与说话人语音对应的说话人身份输入优化后的协作对抗网络模型中，利用优化后的协作对抗网络模型对说话人语音提取说话人特征以及与说话人特征对应的场景特征。

步骤107：利用说话人特征以及与说话人特征对应的场景特征和说话人身份，构建说话人语音数据库。

步骤108：将待识别说话人语音输入优化后的协作对抗网络模型中，利用优化后的协作对抗网络模型和说话人语音数据库识别出与待识别说话人语音对应的说话人身份；待识别说话人语音对应的场景与说话人语音对应的场景相同。

该步骤108具体包括：

将待识别说话人语音输入优化后的协作对抗网络模型中。

利用优化后的协作对抗网络模型对待识别说话人语音提取待识别说话人特征以及与待识别说话人特征对应的场景特征。

将待识别说话人特征与说话人语音数据库中多个说话人特征依次进行特征匹配，将待识别说话人特征对应的场景特征与说话人语音数据库中多个说话人特征对应的场景特征依次进行特征匹配。

若特征匹配成功，则输出与待识别说话人语音对应的说话人身份。

进一步的，该基于无监督场景适应的说话人识别方法还包括：

若特征匹配不成功，则确定与待识别说话人语音对应的说话人身份不在说话人语音数据库中。

本发明基于无监督场景适应的说话人识别方法和目前存在的无监督领域自适应相比，无需对没有说话人标注的目标场景数据做额外处理。这是因为添加了对抗模块和协作模块，两者都只需要对数据来源所属场景进行判断，所以无需对目标场景数据做额外处理。

本发明基于无监督场景适应的说话人识别方法和目前存在的对抗领域自适应相比，模型的识别精度更高。这是因为添加了协作模块，促进浅层向量对目标场景的表示能力，帮助浅层特征学习到目标场景数据的特点，所以面对没有见过说话人标注的目标场景数据时有更高的识别精度。

本发明基于无监督场景适应的说话人识别方法和目前存在的协作对抗领域自适应相比，模型的识别精度更高。这是因为增强了协作模块的特征提取能力，增强了浅层特征的表征能力，所以面对没有见过说话人标注的目标场景数据时有更高的识别精度。

本发明提供了一种利用无监督领域适应说话人识别方法，可以在提高模型面对多场景数据的识别效果的前提下，避免训练数据的额外处理，节省训练数据的标注成本。目前，基于对抗领域适应的无监督说话人识别有很多改进方法，从多种角度和多种领域获得了改进效果，但是说话人识别领域并没有出现过本发明提出的实用协作对抗网络的领域自适应及其改进的方法。

图4为本发明基于无监督场景适应的说话人识别系统实施例的结构图。参见图4，该基于无监督场景适应的说话人识别系统包括：

源域训练集获取模块401，用于获取源域训练集；源域训练集包括多个源说话人语音以及与源说话人语音对应的说话人身份和第一场景；场景包括说话人所处的声音环境和录音条件。

目标域训练集获取模块402，用于获取目标域训练集；目标域训练集包括多个目标说话人语音以及与目标说话人语音对应的第二场景。

预处理模块403，用于对源域训练集和目标域训练集进行预处理，得到预处理后的源域训练集和预处理后的目标域训练集。

该预处理模块403具体包括：

数据增强单元，用于对源说话人语音和目标说话人语音进行数据增强，得到数据增强后的源说话人语音和数据增强后的目标说话人语音。

声学特征提取单元，用于对数据增强后的源说话人语音和数据增强后的目标说话人语音提取声学特征，得到源说话人语音的声学特征和目标说话人语音的声学特征；预处理后的源域训练集包括所有源说话人语音的声学特征；预处理后的目标域训练集包括所有目标说话人语音的声学特征。

模型训练和优化模块404，用于利用预处理后的源域训练集和预处理后的目标域训练集以及损失函数对协作对抗网络模型进行训练和优化，得到优化后的协作对抗网络模型；损失函数包括协作损失函数；协作损失函数包括场景特征提取参数；场景特征提取参数用于对预处理后的源域训练集和预处理后的目标域训练集进一步提取场景特征，并在梯度反向传播时减弱所述协作损失函数对说话人特征表达的约束。

该模型训练和优化模块404中，协作损失函数的表达式为L_c＝CE(F_c(F′_f,θ_c),y_d)；式中，L_c表示协作损失，CE表示交叉熵损失函数，F_c表示场景特征分类函数，F′_f表示浅层向量，θ_c表示场景特征提取参数，y_d表示与说话人语音对应的场景。

说话人语音获取模块405，用于获取同一场景下的多个说话人语音。

特征提取模块406，用于将多个说话人语音以及与说话人语音对应的说话人身份输入优化后的协作对抗网络模型中，利用优化后的协作对抗网络模型对说话人语音提取说话人特征以及与说话人特征对应的场景特征。

说话人语音数据库构建模块407，用于利用说话人特征以及与说话人特征对应的场景特征和说话人身份，构建说话人语音数据库。

说话人身份识别模块408，用于将待识别说话人语音输入优化后的协作对抗网络模型中，利用优化后的协作对抗网络模型和说话人语音数据库识别出与待识别说话人语音对应的说话人身份；待识别说话人语音对应的场景与说话人语音对应的场景相同。

该说话人身份识别模块408具体包括：

待识别说话人语音输入单元，用于将待识别说话人语音输入优化后的协作对抗网络模型中。

特征提取单元，用于利用优化后的协作对抗网络模型对待识别说话人语音提取待识别说话人特征以及与待识别说话人特征对应的场景特征。

特征匹配单元，用于将待识别说话人特征与说话人语音数据库中多个说话人特征依次进行特征匹配，将待识别说话人特征对应的场景特征与说话人语音数据库中多个说话人特征对应的场景特征依次进行特征匹配。

说话人身份输出单元，用于若特征匹配成功，则输出与待识别说话人语音对应的说话人身份。

进一步的，该基于无监督场景适应的说话人识别系统还包括：

确定模块，用于若特征匹配不成功，则确定与待识别说话人语音对应的说话人身份不在说话人语音数据库中。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于无监督场景适应的说话人识别方法，其特征在于，所述方法包括：

获取同一场景下的多个说话人语音；

2.根据权利要求1所述的基于无监督场景适应的说话人识别方法，其特征在于，所述将待识别说话人语音输入所述优化后的协作对抗网络模型中，利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份，具体包括：

3.根据权利要求2所述的基于无监督场景适应的说话人识别方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的基于无监督场景适应的说话人识别方法，其特征在于，所述对所述源域训练集和所述目标域训练集进行预处理，得到预处理后的源域训练集和预处理后的目标域训练集，具体包括：

5.根据权利要求1所述的基于无监督场景适应的说话人识别方法，其特征在于，所述协作损失函数的表达式为L_c＝CE(F_c(F_f′,θ_c),y_d)；式中，L_c表示协作损失，CE表示交叉熵损失函数，F_c表示场景特征分类函数，F_f′表示浅层向量，θ_c表示场景特征提取参数，y_d表示与说话人语音对应的场景。

6.一种基于无监督场景适应的说话人识别系统，其特征在于，所述系统包括：

7.根据权利要求6所述的基于无监督场景适应的说话人识别系统，其特征在于，所述说话人身份识别模块具体包括：

8.根据权利要求7所述的基于无监督场景适应的说话人识别系统，其特征在于，所述系统还包括：

9.根据权利要求6所述的基于无监督场景适应的说话人识别系统，其特征在于，所述预处理模块具体包括：

10.根据权利要求6所述的基于无监督场景适应的说话人识别系统，其特征在于，所述协作损失函数的表达式为L_c＝CE(F_c(F′_f,θ_c),y_d)；式中，L_c表示协作损失，CE表示交叉熵损失函数，F_c表示场景特征分类函数，F′_f表示浅层向量，θ_c表示场景特征提取参数，y_d表示与说话人语音对应的场景。