CN112242137B

CN112242137B - 一种人声分离模型的训练以及人声分离方法和装置

Info

Publication number: CN112242137B
Application number: CN202011106262.8A
Authority: CN
Inventors: 陈华官; 张志齐
Original assignee: Shanghai Yitu Technology Co ltd
Current assignee: Shanghai Yitu Technology Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2024-05-17
Anticipated expiration: 2040-10-15
Also published as: CN112242137A

Abstract

本申请公开了一种人声分离模型的训练以及人声分离方法和装置，属于人工智能技术领域，该方法包括，获取各音频样本以及相应的人声分离标注信息，并将各音频样本输入至人声分离模型，获得相应的人声分离结果，以及根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型。以及采用粗分离模块确定待识别的目标音频对应的语音用户的用户标识信息，并分别将目标音频相应的每一用户标识信息以及目标音频，输入至人声分离模型，获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率，以及分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户。这样，提高了人声分离的精确度。

Description

一种人声分离模型的训练以及人声分离方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种人声分离模型的训练以及人声分离方法和装置。

背景技术

随着互联网技术的发展，在电话通信领域等应用场景中，通常需要从音频中分离出不同用户对应的音频片段。

现有技术中，通常采用基于人工先验的概率图模型，对音频进行人声分离。

但是，概率图模型不需要模型训练，人声分离结果的准确度不高。

发明内容

本申请实施例提供一种人声分离模型的训练以及人声分离方法和装置，用以在对音频进行人声分离时，提高人声分离结果的准确度。

一方面，提供一种人声分离模型的训练方法，包括：

获取各音频样本以及相应的人声分离标注信息，人声分离标注信息表示音频中的各时刻对应的语音用户；

基于卷积神经网络，分别提取每一音频样本中的各细分音频片段对应的第一声纹特征，细分音频片段是按照第一预设时长划分获得的；

基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，粗分音频片段是按照第二预设时长划分获得的；

基于粗分离模块，分别确定每一音频样本中识别出的语音用户对应的用户标识信息；

采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果；

根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，其中，人声分离模型是基于卷积神经网络、声纹提取模块、粗分离模块以及循环神经网络构建的。

较佳的，基于卷积神经网络，提取每一音频样本中的各细分音频片段对应的第一声纹特征，包括：

分别针对每一音频样本，执行以下步骤：

将音频样本进行特征提取，获得相应的音频特征信息；

按照第一预设时长，对音频样本的音频特征信息进行划分，获得多个细分音频片段的音频特征信息；

分别对每一细分音频片段对应的音频特征信息进行声纹特征提取，获得相应的第一声纹特征。

较佳的，基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，包括：

分别针对每一音频样本，执行以下步骤：

按照第二预设时长，将音频样本进行划分，获得各粗分音频片段，第二预设时长高于第二预设时长；

采用预先训练好的声纹特征模型，分别对每一粗分音频片段进行声纹特征提取，获得相应的第二声纹特征。

较佳的，基于粗分离模块，分别确定每一音频样本中识别出的语音用户对应的用户标识信息，包括：

分别针对每一音频样本，执行以下步骤：

基于粗分离模块，对音频样本中的用户进行初步识别，分别获得每一粗分音频片段对应的语音用户对应的用户标识信息。

较佳的，采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果，包括：

分别针对每一音频样本，执行以下步骤：

根据音频样本中的各粗分音频片段对应的第二声纹特征和用户标识信息，分别确定每一用户标识信息对应的各第二声纹特征；

分别根据每一用户标识信息对应的各第二声纹特征的平均值，获得相应的平均声纹特征；

采用卷积神经网络和循环神经网络，对音频样本对应的各第一声纹特征、各第二声纹特征、各用户标识信息以及各用户标识信息对应的平均声纹特征进行上下文处理，获得上下文信息；

根据上下文信息，分别确定每一语音用户为音频样本中的每一目标音频片段对应的用户的概率，目标音频片段是将音频样本按照第三预设时长划分后获得的；

分别根据每一语音用户和每一目标音频片段对应的概率，获得相应的识别结果，识别结果表示语音用户是否为目标音频片段对应的用户。

较佳的，根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，包括：

基于各音频样本的人声分离结果和相应的人声分离标注信息，确定模型损失；

根据模型损失，对人声分离模型的参数进行调整，获得调整后的人声分离模型。

一方面，提供一种人声分离方法，包括：

采用粗分离模块，确定待识别的目标音频对应的语音用户的用户标识信息；

分别将目标音频相应的每一用户标识信息以及目标音频，输入至人声分离模型，获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率，目标音频片段是将目标音频按照第三预设时长划分后获得的；

分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户。

较佳的，在采用粗分离模块，确定待识别的目标音频对应的语音用户的用户标识信息之前，进一步包括：

按照第四预设时长，将待识别音频进行划分，获得多个目标音频。

较佳的，分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户，包括：

分别针对每一目标音频片段，执行以下步骤：

确定目标音频片段的各概率中的最大值；

将最大值对应的语音用户，确定为目标音频片段对应的目标语音用户。

一方面，提供一种人声分离模型的训练装置，包括：

获取单元，用于获取各音频样本以及相应的人声分离标注信息，人声分离标注信息表示音频中的各时刻对应的语音用户；

第一提取单元，用于基于卷积神经网络，分别提取每一音频样本中的各细分音频片段对应的第一声纹特征，细分音频片段是按照第一预设时长划分获得的；

第二提取单元，用于基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，粗分音频片段是按照第二预设时长划分获得的；

确定单元，用于基于粗分离模块，分别确定每一音频样本中识别出的语音用户对应的用户标识信息；

分离单元，用于采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果；

调整单元，用于根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，其中，人声分离模型是基于卷积神经网络、声纹提取模块、粗分离模块以及循环神经网络构建的。

较佳的，第一提取单元用于：

分别针对每一音频样本，执行以下步骤：

将音频样本进行特征提取，获得相应的音频特征信息；

较佳的，第二提取单元用于：

分别针对每一音频样本，执行以下步骤：

较佳的，确定单元用于：

分别针对每一音频样本，执行以下步骤：

较佳的，分离单元用于：

分别针对每一音频样本，执行以下步骤：

较佳的，调整单元用于：

一方面，提供一种人声分离装置，包括：

分离单元，用于采用粗分离模块，确定待识别的目标音频对应的语音用户的用户标识信息；

获得单元，用于分别将目标音频相应的每一用户标识信息以及目标音频，输入至人声分离模型，获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率，目标音频片段是将目标音频按照第三预设时长划分后获得的；

确定单元，用于分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户。

较佳的，分离单元还用于：

较佳的，确定单元用于：

分别针对每一目标音频片段，执行以下步骤：

确定目标音频片段的各概率中的最大值；

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述任一种人声分离模型的训练以及人声分离方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种人声分离模型的训练以及人声分离方法的步骤。

本申请实施例提供的一种人声分离模型的训练以及人声分离方法和装置中，获取各音频样本以及相应的人声分离标注信息，并将各音频样本输入至人声分离模型，获得相应的人声分离结果，以及根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型。以及采用粗分离模块确定待识别的目标音频对应的语音用户的用户标识信息，并分别将目标音频相应的每一用户标识信息以及目标音频，输入至人声分离模型，获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率，以及分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户。这样，提高了人声分离的精确度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例方式中一种人声分离模型的训练方法的实施流程图；

图2为本申请实施例方式中一种人声分离模型的架构示意图；

图3为本申请实施例方式中一种人声分离方法的实施流程图；

图4为本申请实施例方式中一种人声分离结果示意图；

图5为本申请实施例方式中一种人声分离模型的训练装置的结构示意图；

图6为本申请实施例方式中一种人声分离装置的结构示意图；

图7为本申请实施例方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了在通过人工智能技术为用户提供引领服务时，扩大服务的信息覆盖面，提高用户体验，本申请实施例提供了一种人声分离模型的训练以及人声分离方法和装置。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

参阅图1所示，为本申请提供的一种人声分离模型的训练方法的实施流程图。该方法的具体实施流程如下：

步骤100：控制设备获取各音频样本以及相应的人声分离标注信息。

具体的，控制设备可以为服务器，也可以为终端设备。人声分离标注信息表示音频中的各时刻对应的语音用户，也就是说，音频中每一时刻的说话者。

需要说明的是，若音频的音频时长较短，则包含的信息较少，人声分离模型难以获得准确的人声分离结果，而若音频样本的音频时长较长，则数据量过大，人声分离模型难以进行数据处理，因此，音频样本的音频时长低于第一预设音频阈值，高于第二预设音频阈值。

其中，第一预设音频阈值和第二预设音频阈值均为时间长度，实际应用中，第一预设音频阈值和第二预设音频阈值均可以根据实际应用场景进行设置，在此不作限制。

例如，第一预设音频阈值为60s，第二预设音频阈值为10s，则获取音频时长为50的音频样本。该音频样本的人声分离标注信息为：音频样本中的0-30s的说话者为用户A，音频样本中的30-50s的说话者为用户B。

这样，就可以获取训练数据。

步骤101：控制设备基于卷积神经网络，分别提取每一音频样本中的各细分音频片段对应的第一声纹特征。

具体的，控制设备分别针对每一音频样本，执行以下步骤：

S1011：将音频样本进行特征提取，获得相应的音频特征信息。

可选的，音频特征信息可以为梅尔频率倒谱系数（Mel-Frequency CepstralCoefficients，MFCC）特征，还可以为短时傅里叶变换（Short Time Fourier Transform，STFT）。

其中，MFCC特征是指将音频进行编码运算得到的一组特征向量。MFCC提取包含两个关键步骤：转化到梅尔频率，以及倒谱分析。STFT是一个用于语音信号处理的通用工具，它定义了一个非常有用的时间和频率分布类，其指定了任意信号随时间和频率变化的复数幅度。实际上，计算短时傅里叶变换的过程是把一个较长的时间信号分成相同长度的更短的段，在每个更短的段上计算傅里叶变换。

一种实施方式中，音频样本中的每10ms音频片段，对应一帧音频特征，各音频特征，组成一个两维的矩阵。

S1012：按照第一预设时长，对音频样本的音频特征信息进行划分，获得多个细分音频片段的音频特征信息，并分别对每一细分音频片段对应的音频特征信息进行声纹特征提取，获得相应的第一声纹特征。

具体的，细分音频片段是将音频样本按照第一预设时长划分获得的。第一预设时长为时间长度，实际应用中，第一预设时长可以根据实际应用场景进行设置，在此不作限制。例如，第一预设时长为160ms。

一种实施方式中，控制设备将音频样本输入至卷积神经网络，卷积神经网络对音频特征信息进行多次下采样，获得各细分音频片段对应的第一声纹特征。

例如，第一预设时长为160ms，音频特征信息中每10ms音频片段对应一帧音频特征，则控制设备对音频特征信息，进行4次下采样，获得多个音频时长为160ms的细分音频片段对应的特征信息，进而获得相应的第一声纹特征。

需要说明的是，传统技术中，通常从音频特征信息中抽出音频时长大于500ms的多个音频片段的声纹特征，本申请实施例中，减小了声纹特征的时间粒度，从而可以在后续步骤中提高人声分离结果的精确度。

步骤102：控制设备基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征。

具体的，控制设备分别针对每一音频样本，执行以下步骤：

按照第二预设时长，将音频样本进行划分，获得各粗分音频片段，并采用预先训练好的声纹特征模型，分别对每一粗分音频片段进行声纹特征提取，获得相应的第二声纹特征。

其中，粗分音频片段是将音频样本按照第二预设时长划分获得的。第二预设时长为时间长度，且第二预设时长高于第二预设时长。实际应用中，第二预设时长可以根据实际应用场景进行设置，如，第二预设时长为800ms。

可选的，声纹特征模型可以是基于深度学习构建的。预先训练好的声纹特征模型可以提高模型训练的效率，以及提取的声纹特征的准确度。

进一步地，声纹特征模型也可以是未训练好的，在此不作限制。

这样，就可以提取音频样本中的每一粗分音频片段的第二声纹特征，即较长时间段的音频片段的声纹特征。

步骤103：控制设备基于粗分离模块，分别确定每一音频样本中识别出的语音用户对应的用户标识信息。

具体的，控制设备分别针对每一音频样本，执行以下步骤：基于粗分离模块，对音频样本中的用户进行初步识别，分别获得每一粗分音频片段对应的语音用户对应的用户标识信息。

一种实施方式中，控制设备基于粗分离模块，识别出音频样本中的语音用户，获得各语音用户对应的用户标识信息，并分别针对每一语音用户和每一粗分音频片段，执行以下步骤：

判断该语音用户是否为该粗分音频片段对应的用户，若是，则获得第一指示信息，否则，获得第二指示信息。

其中，第一指示信息和第二指示信息，用于指示语音用户与粗分音频片段是否匹配，例如，第一指示信息为1，第二指示信息为0。

这样，就可以对音频样本进行初步人声分离。

步骤104：控制设备采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果。

具体的，控制设备针对每一音频样本，执行以下步骤：

S1041：根据音频样本中的各粗分音频片段对应的第二声纹特征和用户标识信息，分别确定每一用户标识信息对应的各第二声纹特征。

具体的，控制设备分别筛选出每一用户标识信息对应的粗分音频片段对应的第二声纹特征。

也就是说，获取每一说话者的第二声纹特征集合。

S1042：分别根据每一用户标识信息对应的各第二声纹特征的平均值，获得相应的平均声纹特征。

这样，通过平均声纹特征，可以精准的表达语音用户的声纹特征。

S1043：采用卷积神经网络和循环神经网络，对音频样本对应的各第一声纹特征、各第二声纹特征、各用户标识信息以及各用户标识信息对应的平均声纹特征进行上下文处理，获得上下文信息。

具体的，将音频样本对应的各第一声纹特征、各第二声纹特征、各用户标识信息以及各用户标识信息对应的平均声纹特征进行合并，并依次采用卷积神经网络和循环神经网络，对合并后的特征信息进行特征融合以及上下文建模，获得上下文信息。

进一步地，由于第二预设时长高于第一预设时长，因此，细分音频片段的数量高于粗分音频片段的数量，又由于细分音频片段与第一声纹特征具有对应关系，粗分音频片段、第二声纹特征、用户标识信息以及平均声纹特征之间具有对应关系，因此，需要将第二声纹特征、用户标识信息以及平均声纹特征进行复制，以使得第二声纹特征、用户标识信息以及平均声纹特征的数量与第一声纹特征的数量相同，以便数据合并。

S1044：采用卷积神经网络和循环神经网络，根据上下文信息，分别确定每一语音用户为音频样本中的每一目标音频片段对应的用户的概率。

具体的，采用卷积神经网络和循环神经网络，将音频样本对应的上下文信息，按照第三预设时长划分后获得多个目标音频片段对应的上下文信息，并根据每一目标音频片段对应的上下文信息，分别确定每一语音用户为目标音频片段对应的用户的概率。

也就是说，语音用户为目标音频片段中的说话者的概率。

其中，第三预设时长为时间长度，可以根据实际应用场景进行设置，在此不作限制。

可选的，第三预设时长可以与第一预设时长相同，也可以不同。

一种实施方式中，分别针对每一语音用户，执行以下步骤：

确定语音用户分别为每一目标音频片段对应的概率。

S1045：根据每一语音用户和每一目标音频片段对应的概率，获得相应的识别结果。

具体的，分别针对每一语音用户和每一目标音频片段，执行以下步骤：

确定语音用户和目标音频片段对应的概率是否高于预设概率阈值，若是，则确定语音用户为目标音频片段对应的用户，否则，确定语音用户不为目标音频片段对应的用户。

其中，识别结果表示语音用户是否为目标音频片段对应的用户即说话者。

这样，就可以获得各音频样本的人声分离结果。

步骤105：控制设备根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型。

具体的，控制设备基于各音频样本的人声分离结果和相应的人声分离标注信息，确定模型损失，若确定出的模型损失高于预设损失阈值，则根据模型损失，对人声分离模型的参数进行调整，获得调整后的人声分离模型，并循环执行步骤100-步骤105，否则，确定结束模型训练流程，获得训练好的人声分离模型。

其中，预设损失阈值为正数，实际应用中，可以根据实际应用场景进行设置，如，0.1，在此不作限制。预设损失阈值越小，则训练好的人声分离模型的精确度越高。

一种实施方式中，控制设备分别针对每一音频样本中的每一目标音频片段执行以下步骤：

从音频样本对应的人声分离标注信息中，获取目标音频片段对应标注用户，并根据目标音频片段对应的标注用户以及识别结果，确定模型损失，以及根据确定出的模型损失，对人声分离模型的参数进行调整。

可选的，声纹提取模块和粗分离模块可以为预先训练好的，可以仅对人声分离模型中的卷积神经网络以及循环神经网络中的参数进行调整。

这样，就可以获得训练好的人声分离模型，从而可以在后续步骤中，对音频进行人声分离。

参阅图2所示，为一种人声分离模型的架构示意图。人声分离模型是基于卷积神经网络、声纹提取模块、粗分离模块以及循环神经网络构建的，包括：音频输入模块、特征提取模块、第一声纹特征提取模块、声纹提取模块、粗分离模块、平均声纹特征提取模块、特征合并模块、上下文模块以及模型损失模块。

其中，音频输入模块：用于输入音频。特征提取模块，用于提取将音频的音频特征信息。第一声纹特征提取模块，用于基于卷积神经网络，提取音频的第一声纹特征。声纹提取模块，用于采用声纹特征模型，提取音频的第二声纹特征。平均声纹特征提取模块，用于确定各语音用户的平均声纹特征。特征合并模块，用于将音频样本对应的各第一声纹特征、各第二声纹特征、各用户标识信息以及各用户标识信息对应的平均声纹特征进行合并。上下文模块：用于根据卷积神经网络以及循环神经网络，确定人声分离结果。模型损失模块，用于确定模型损失。

参阅图3所示，为本申请提供的一种人声分离方法的实施流程图。该方法的具体实施流程如下：

步骤300：控制设备采用粗分离模块，确定待识别的目标音频对应的语音用户的用户标识信息。

具体的，控制设备按照第四预设时长，将待识别音频进行划分，获得多个目标音频。

其中，第四预设时长为低于第一预设音频阈值，高于第二预设音频阈值。实际应用中，第四预设时长，可以根据实际应用场景进行设置，如，30s在此不作限制。

步骤301：控制设备分别将目标音频相应的每一用户标识信息以及目标音频，输入至人声分离模型，获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率。

具体的，控制设备分别针对每一用户标识信息，执行以下步骤：采用人声分离模型，确定用户标识信息对应的语音用户分别为每一目标音频片段对应的用户的概率。

其中，目标音频片段是将目标音频按照第三预设时长划分后获得的；

步骤302：控制设备分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户。

具体的，控制设备分别针对每一目标音频片段，执行以下步骤：

确定目标音频片段的各概率中的最大值，并将最大值对应的语音用户，确定为目标音频片段对应的目标语音用户。

参阅图4所示，为一种人声分离结果示意图。待识别音频为：您好很高兴为您服务您好有什么需要帮您的吗。人声分离结果为：A说：您好很高兴为您服务，B说：您好，A说：有什么需要帮您的吗。

本申请实施例可以应用于任意需要人声分离的应用场景，如，将会议单机场景中的音频进行人声分离，以分别获得每一会议者的会话内容，又如，将电话诈骗音频进行人声分离，以分别获得诈骗者和受害者的会话内容。

本申请实施例中，可以通过样本数据对人声分离模型不断进行训练，从而可以不断提高人声分离模型的适应范围以及人声分离精确度，减小了提取的声纹特征的时间粒度，提高了声纹特征提取的精确度，提高了上下文建模能力，进一步提高了系统性能以及人声分离结果的精确度。

基于同一发明构思，本申请实施例中还提供了一种人声分离模型的训练以及人声分离装置，由于上述装置及设备解决问题的原理与一种人声分离模型的训练以及人声分离方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，其为本申请实施例提供的一种人声分离模型的训练装置的结构示意图，包括：

获取单元501，用于获取各音频样本以及相应的人声分离标注信息，人声分离标注信息表示音频中的各时刻对应的语音用户；

第一提取单元502，用于基于卷积神经网络，分别提取每一音频样本中的各细分音频片段对应的第一声纹特征，细分音频片段是按照第一预设时长划分获得的；

第二提取单元503，用于基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，粗分音频片段是按照第二预设时长划分获得的；

确定单元504，用于基于粗分离模块，分别确定每一音频样本中识别出的语音用户对应的用户标识信息；

分离单元505，用于采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果；

调整单元506，用于根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，其中，人声分离模型是基于卷积神经网络、声纹提取模块、粗分离模块以及循环神经网络构建的。

较佳的，第一提取单元502用于：

分别针对每一音频样本，执行以下步骤：

将音频样本进行特征提取，获得相应的音频特征信息；

较佳的，第二提取单元503用于：

分别针对每一音频样本，执行以下步骤：

较佳的，确定单元504用于：

分别针对每一音频样本，执行以下步骤：

较佳的，分离单元505用于：

分别针对每一音频样本，执行以下步骤：

较佳的，调整单元506用于：

如图6所示，其为本申请实施例提供的一种人声分离装置的结构示意图，包括：

分离单元601，用于采用粗分离模块，确定待识别的目标音频对应的语音用户的用户标识信息；

获得单元602，用于分别将目标音频相应的每一用户标识信息以及目标音频，输入至人声分离模型，获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率，目标音频片段是将目标音频按照第三预设时长划分后获得的；

确定单元603，用于分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户。

较佳的，分离单元601还用于：

较佳的，确定单元603用于：

分别针对每一目标音频片段，执行以下步骤：

确定目标音频片段的各概率中的最大值；

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

基于上述实施例，参阅图7所示，本申请实施例中，一种控制设备的结构示意图。

本申请实施例提供了一种控制设备，该控制设备可以包括处理器7010（CenterProcessing Unit ，CPU）、存储器7020，还可以包括输入设备7030和输出设备7040等，输入设备7030可以包括键盘、鼠标、触摸屏等，输出设备7040可以包括显示设备，如液晶显示器（Liquid Crystal Display， LCD）、阴极射线管（Cathode Ray Tube，CRT）等。

存储器7020可以包括只读存储器（ROM）和随机存取存储器（RAM），并向处理器7010提供存储器7020中存储的程序指令和数据。在本申请实施例中，存储器7020可以用于存储本申请实施例中人声分离模型的训练以及人声分离的程序。

处理器7010通过调用存储器7020存储的程序指令，处理器7010用于执行图1或图3所示的实施例提供的一种人声分离模型的训练以及人声分离的方法。

本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的人声分离模型的训练以及人声分离的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种人声分离模型的训练方法，其特征在于，包括：

获取各音频样本以及相应的人声分离标注信息，所述人声分离标注信息表示音频中的各时刻对应的语音用户；

基于卷积神经网络，分别提取每一音频样本中的各细分音频片段对应的第一声纹特征，所述细分音频片段是按照第一预设时长划分获得的；

基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，所述粗分音频片段是按照第二预设时长划分获得的；

根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，其中，所述人声分离模型是基于所述卷积神经网络、所述声纹提取模块、所述粗分离模块以及所述循环神经网络构建的；

采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果，包括：

分别针对每一音频样本，执行以下步骤：

采用卷积神经网络和循环神经网络，对所述音频样本对应的各第一声纹特征、各第二声纹特征、各用户标识信息以及各用户标识信息对应的平均声纹特征进行上下文处理，获得上下文信息；

根据所述上下文信息，分别确定每一语音用户为所述音频样本中的每一目标音频片段对应的用户的概率，所述目标音频片段是将所述音频样本按照第三预设时长划分后获得的；

分别根据每一语音用户和每一目标音频片段对应的概率，获得相应的识别结果，所述识别结果表示所述语音用户是否为所述目标音频片段对应的用户。

2.如权利要求1所述的方法，其特征在于，基于卷积神经网络，提取每一音频样本中的各细分音频片段对应的第一声纹特征，包括：

分别针对每一音频样本，执行以下步骤：

将音频样本进行特征提取，获得相应的音频特征信息；

按照第一预设时长，对所述音频样本的音频特征信息进行划分，获得多个细分音频片段的音频特征信息；

3.如权利要求1所述的方法，其特征在于，基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，包括：

分别针对每一音频样本，执行以下步骤：

按照第二预设时长，将音频样本进行划分，获得各粗分音频片段，所述第一预设时长高于所述第二预设时长；

4.如权利要求1所述的方法，其特征在于，基于粗分离模块，分别确定每一音频样本中识别出的语音用户对应的用户标识信息，包括：

分别针对每一音频样本，执行以下步骤：

5.如权利要求1-4任一项所述的方法，其特征在于，根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，包括：

根据所述模型损失，对所述人声分离模型的参数进行调整，获得调整后的人声分离模型。

6.一种人声分离方法，其特征在于，采用如权利要求1-5任一项所述的方法中获得的人声分离模型，包括：

分别将所述目标音频相应的每一用户标识信息以及所述目标音频，输入至所述人声分离模型，获得每一语音用户为所述目标音频中的每一目标音频片段对应的用户的概率，所述目标音频片段是将所述目标音频按照第三预设时长划分后获得的；

7.如权利要求6所述的方法，其特征在于，在采用粗分离模块，确定待识别的目标音频对应的语音用户的用户标识信息之前，进一步包括：

8.如权利要求7所述的方法，其特征在于，分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户，包括：

分别针对每一目标音频片段，执行以下步骤：

确定目标音频片段的各概率中的最大值；

将所述最大值对应的语音用户，确定为所述目标音频片段对应的目标语音用户。

9.一种人声分离模型的训练装置，其特征在于，包括：

获取单元，用于获取各音频样本以及相应的人声分离标注信息，所述人声分离标注信息表示音频中的各时刻对应的语音用户；

第一提取单元，用于基于卷积神经网络，分别提取每一音频样本中的各细分音频片段对应的第一声纹特征，所述细分音频片段是按照第一预设时长划分获得的；

第二提取单元，用于基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，所述粗分音频片段是按照第二预设时长划分获得的；

调整单元，用于根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，其中，所述人声分离模型是基于所述卷积神经网络、所述声纹提取模块、所述粗分离模块以及所述循环神经网络构建的；

所述分离单元用于：

分别针对每一音频样本，执行以下步骤：

10.如权利要求9所述的装置，其特征在于，所述第一提取单元用于：

分别针对每一音频样本，执行以下步骤：

将音频样本进行特征提取，获得相应的音频特征信息；

11.如权利要求9所述的装置，其特征在于，所述第二提取单元用于：

分别针对每一音频样本，执行以下步骤：

12.如权利要求9所述的装置，其特征在于，所述确定单元用于：

分别针对每一音频样本，执行以下步骤：

13.如权利要求9-12任一项所述的装置，其特征在于，所述调整单元用于：

14.一种人声分离装置，其特征在于，采用如权利要求1-5任一项所述的方法中获得的人声分离模型，包括：

获得单元，用于分别将所述目标音频相应的每一用户标识信息以及所述目标音频，输入至所述人声分离模型，获得每一语音用户为所述目标音频中的每一目标音频片段对应的用户的概率，所述目标音频片段是将所述目标音频按照第三预设时长划分后获得的；

15.如权利要求14所述的装置，其特征在于，所述分离单元还用于：

16.如权利要求15所述的装置，其特征在于，所述确定单元用于：

分别针对每一目标音频片段，执行以下步骤：

确定目标音频片段的各概率中的最大值；

17.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-5或6-8任一项所述的方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-5或6-8任一所述方法的步骤。