CN116597828A

CN116597828A - 模型确定方法、模型应用方法和相关装置

Info

Publication number: CN116597828A
Application number: CN202310824944.XA
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-08-15
Anticipated expiration: 2043-07-06
Also published as: CN116597828B

Abstract

本申请实施例公开了模型确定方法、模型应用方法和相关装置，在初始语音分离模型中包括用于分析发音对象数量的初始数量确定模块，和用于基于初始数量确定模块确定出发音对象数量进行语音分离的初始语音分离模块，只需输入样本语音信息，即可通过该模型分离得到语音分离结果。通过该样本语音信息所对应的准确语音分离结果与模型输出之间的差异，能够体现出该模型对发音对象数量分析的准确度和对语音信息分离的准确度，从而基于该差异对初始语音分离模型进行参数调节可以使模型同时学习到如何准确进行发音对象数量分析和语音信息准确分离，使得到的语音分离模型可以无需除待分离语音信息外的其他信息输入即可实现准确的语音分离，提高语音分离效率。

Description

模型确定方法、模型应用方法和相关装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种模型确定方法、模型应用方法和相关装置。

背景技术

语音识别是模型应用的主要领域之一，通过语音识别模型可以识别出语音信息所对应的对象。在一些场景下，由于同时说话的人数较多，采集到的语音信息中可能混杂着多个对象的语音信息，此时就需要通过语音分离模型将多个对象的语音信息进行分离，以针对每一个对象的语音信息进行准确的语音识别。

在相关技术中，语音分离模型在应用时，需要提前确定好待分离的语音信息中所包括的说话对象数量，语音分离模型才能够得到较为准确的语音分离结果。因此，在相关技术中，向语音分离模型输入待分离的语音信息之前需要先判断语音信息所对应的对象数量。

由此可见，相关技术中的语音分离过程较为繁琐，对信息输入侧的要求较高，难以实现高效、简洁的语音信息分离。

发明内容

为了解决上述技术问题，本申请提供了一种模型确定方法，通过该方法训练得到的模型具有自动识别待分离的语音信息所对应发音对象数量的能力，并可以基于该发音对象数量自动分离待分离的语音信息所对应的多个子语音信息，无需对待分离语音信息进行前期处理，提高了语音分离的效率和便捷度。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例公开了一种模型确定方法，所述方法包括：

获取样本信息集合，所述样本信息集合包括多个样本语音信息，所述多个样本语音信息分别具有对应的多个样本子语音信息，目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的，所述样本子语音信息与发音对象一一对应；

将所述多个样本语音信息分别作为所述目标样本语音信息，通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息；

根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息；

根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异，以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数，得到语音分离模型，所述语音分离模型用于确定待分离语音信息对应的多个子语音信息，所述子语音信息与发音对象一一对应。

第二方面，本申请实施例公开了一种模型应用方法，所述方法包括：

获取待分离语音信息，所述待分离语音信息是由多个发音对象对应的子语音信息构成的；

根据所述待分离语音信息，通过所述语音分离模型中的数量确定模块确定所述待分离语音信息对应的发音对象数量信息，以及通过所述语音分离模型中的语音分离模块，根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息，所述发音对象数量个子语音信息与发音对象一一对应，所述发音对象数量信息用于标识所述待分离语音信息对应的所述发音对象数量。

第三方面，本申请实施例公开了一种模型确定装置，所述装置包括第一获取单元、第一确定单元、第二确定单元和调节单元：

所述第一获取单元，用于获取样本信息集合，所述样本信息集合包括多个样本语音信息，所述多个样本语音信息分别具有对应的多个样本子语音信息，目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的，所述样本子语音信息与发音对象一一对应；

所述第一确定单元，用于将所述多个样本语音信息分别作为所述目标样本语音信息，通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息；

所述第二确定单元，用于根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息；

所述调节单元，用于根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异，以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数，得到语音分离模型，所述语音分离模型用于确定待分离语音信息对应的多个子语音信息，所述子语音信息与发音对象一一对应。

在一种可能的实现方式中，所述第一确定单元具体用于：

确定所述目标样本语音信息对应的多个第二子语音特征；

根据所述多个第二子语音特征，确定所述多个第二子语音特征分别对应的待定计数信息，计数信息用于标识所对应子语音特征对应单一发音对象的概率；

将所述多个第二子语音特征分别对应的待定计数信息确定为所述待定发音对象数量信息，发音对象数量信息用于标识对应单一发音对象的子语音特征数量；

所述第二确定单元具体用于：

确定所述多个第二子语音特征分别对应的第二子语音信息；

将多个所述第二子语音信息分别确定为目标第二子语音信息，将所述目标第二子语音信息与所述多个目标样本子语音信息之间分别对应的相似度中的最大值确定为所述目标第二子语音信息对应的实际计数信息；

将所述多个第二子语音特征分别对应的实际计数信息确定为所述实际发音对象数量信息；

所述调节单元具体用于：

将所述多个第二子语音特征分别确定为目标第二子语音特征，基于所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，调节所述初始数量确定模块对应的模型参数；

根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数。

在一种可能的实现方式中，所述第一确定单元具体用于：

将所述多个第二子语音特征中，所对应待定计数信息标识的概率大于第一阈值的第二子语音特征数量确定为待定发音对象数量；

基于所述待定发音对象数量确定所述目标样本语音信息对应的所述待定发音对象数量个第一语音信息。

在一种可能的实现方式中，所述调节单元具体用于：

基于所述目标第二子语音特征对应的第二子语音信息与目标子语音信息之间的差异，以及所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，调节所述初始数量确定模块对应的模型参数，所述目标子语音信息为所述多个目标样本子语音信息中与所述目标第二子语音特征对应的第二子语音信息之间相似度最大的目标样本子语音信息。

在一种可能的实现方式中，所述第一确定单元具体用于：

确定所述目标语音信息对应的多个第二子语音特征；

根据所述多个第二子语音特征，确定所述目标样本语音信息对应的待定发音对象数量信息，所述待定发音对象数量信息用于标识所述多个第二子语音特征中对应单一发音对象的多个标准特征，目标标准特征用于标识所述目标标准特征所对应发音对象的发音特征；

将所述多个标准特征分别作为所述目标标准特征，根据所述目标标准特征和所述目标样本语音信息确定所述目标标准特征对应的第一语音信息，所述目标标准特征对应的第一语音信息为所述目标标准特征所对应发音对象对应的语音信息。

在一种可能的实现方式中，所述第一确定单元具体用于：

确定所述目标样本语音信息对应的目标语音特征；

根据所述目标标准特征从所述目标语音特征中提取所述目标标准特征对应的第一子语音特征，所述第一子语音特征与所述目标标准特征之间的相似度大于第二阈值；

根据所述目标标准特征对应的第一子语音特征确定所述目标标准特征对应的第一语音信息。

在一种可能的实现方式中，所述第一确定单元具体用于：

将所述多个标准特征中除所述目标标准特征外的标准特征分别对应的第一子语音特征作为多个对比子语音特征，根据所述多个对比子语音特征从所述目标标准特征所对应第一子语音特征中提取所述目标标准特征对应的第一语音特征，所述第一语音特征与所述多个对比子语音特征之间的相似度均小于第三阈值；

根据所述目标标准特征对应的第一语音特征确定所述目标标准特征对应的第一语音信息。

在一种可能的实现方式中，所述初始语音分离模块还用于：

根据所述目标标准特征，从所述目标标准特征对应的第一子语音特征中提取所述目标标准特征对应的第二语音特征，所述第二语音特征与所述目标标准特征之间的相似度大于第四阈值，所述第四阈值大于所述第二阈值；

所述第一确定单元具体用于：

融合所述目标标准特征对应的第一语音特征和所述目标标准特征对应的第二语音特征，生成所述目标标准特征对应的语音特征；

根据所述目标标准特征对应的语音特征确定所述目标标准特征对应的第一语音信息。

在一种可能的实现方式中，所述初始语音分离模型还包括初始特征提取模块，所述初始特征提取模块用于提取所述目标样本语音信息对应的目标语音特征，所述第一确定单元具体用于：

通过初始语音分离模型中的初始数量确定模块，根据所述目标语音特征确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息和所述目标语音特征确定所述目标样本语音信息对应的多个第一语音信息。

在一种可能的实现方式中，所述提取所述目标样本语音信息对应的目标语音特征，包括：

基于所述目标样本语音信息对应的时域信息提取所述目标样本语音信息对应的第一特征，以及基于所述目标样本语音信息对应的频域信息提取所述目标样本语音信息对应的第二特征；

根据所述第一特征和所述第二特征确定所述目标语音特征。

在一种可能的实现方式中，所述基于所述目标样本语音信息对应的时域信息提取所述目标样本语音信息对应的第一特征，包括：

通过N次特征提取确定所述目标样本语音信息对应的第一特征，其中，第i次特征提取的输出信息为第i+1次特征提取的输入信息，前M次特征提取是基于所述目标样本语音信息对应的时域信息进行特征提取，后N减M次特征提取是基于所述目标样本语音信息对应的频域信息进行特征提取；

所述基于所述目标样本语音信息对应的频域信息提取所述目标样本语音信息对应的第二特征，包括：

通过P次特征提取确定所述目标样本语音信息对应的第二特征，其中，第k次特征提取的输出信息为第k+1次特征提取的输入信息，前Q次特征提取是基于所述目标样本语音信息对应的频域信息进行特征提取，后P-Q次特征提取是基于所述目标样本语音信息对应的时域信息进行特征提取。

在一种可能的实现方式中，所述初始特征提取模块还用于：

基于所述目标样本语音信息对应的时域信息和频域信息，经过1次特征提取所述目标样本语音信息对应的直接映射特征；

所述通过N次特征提取确定所述目标样本语音信息对应的第一特征，包括：

通过所述N次特征提取确定所述目标样本语音信息对应的第一待定特征，所述第一待定特征为第N次特征提取的输出；

合并所述第一待定特征和所述直接映射特征，得到所述目标样本语音信息对应的第一特征；

所述通过P次特征提取确定所述目标样本语音信息对应的第二特征，包括：

通过所述P次特征提取确定所述目标样本语音信息对应的第二待定特征，所述第二待定特征为第P次特征提取的输出；

合并所述第二待定特征和所述直接映射特征，得到所述目标样本语音信息对应的第二特征。

在一种可能的实现方式中，所述初始特征提取模块还用于：

通过T次特征提取确定所述目标样本语音信息对应的第三特征，其中，第w次特征提取用于基于所述目标样本语音信息对应的时域信息和频域信息进行特征提取；

所述根据所述第一特征和所述第二特征确定所述目标语音特征，包括：

根据所述第一特征、所述第二特征和所述第三特征，确定所述目标语音特征。

第四方面，本申请实施例公开了一种模型应用装置，所述装置包括第二获取单元和第三确定单元：

所述第二获取单元，用于获取待分离语音信息，所述待分离语音信息是由多个发音对象对应的子语音信息构成的；

所述第三确定单元，用于根据所述待分离语音信息，通过所述语音分离模型中的数量确定模块确定所述待分离语音信息对应的发音对象数量信息，以及通过所述语音分离模型中的语音分离模块，根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息，所述发音对象数量个子语音信息与发音对象一一对应，所述发音对象数量信息用于标识所述待分离语音信息对应的所述发音对象数量。

在一种可能的实现方式中，所述第三确定单元具体用于：

确定所述待分离语音信息对应的所述发音对象数量个子语音特征，所述发音对象数量个子语音特征与发音对象一一对应，所述子语音特征用于表征所对应发音对象的语音特征；

根据所述发音对象数量信息和所述发音对象数量个子语音特征，确定所述待分离语音信息对应的发音对象数量个子语音信息。

在一种可能的实现方式中，所述第三确定单元具体用于：

根据所述语音分离模块对应的模型参数和所述发音对象数量信息，构成所述发音对象数量个分离子模块，所述发音对象数量个分离子模块对应的模型参数相同，所述发音对象数量个分离子模块与所述发音对象数量个子语音特征一一对应；

将所述发音对象数量个分离子模块分别作为目标子模块，通过所述目标子模块，根据所述目标子模块对应的目标子语音特征和所述目标样本语音信息，从所述目标样本语音信息中分离得到目标发音对象对应的子语音信息，所述目标发音对象为所述目标子语音特征所表征的发音对象。

第五方面，本申请实施例公开了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行第一方面中任意一项所述的模型确定方法，或执行第二方面中任意一项所述的模型应用方法；

第六方面，本申请实施例公开了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行第一方面中任意一项所述的模型确定方法，或执行第二方面中任意一项所述的模型应用方法；

第七方面，本申请实施例公开了一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得所述计算机设备执行第一方面中任意一项所述的模型确定方法，或执行第二方面中任意一项所述的模型应用方法。

由上述技术方案可以看出，为了使模型能够具有自行分析语音信息中发音对象数量的能力，在本申请中的初始语音分离模型中可以包括初始数量确定模块和初始语音分离模块，其中，通过该初始数量确定模块能够确定样本语音信息对应的待定发音对象数量信息，该待定发音对象数量信息用于标识通过该初始数量确定模块所分析出的该样本语音信息对应的发音对象数量；通过该初始语音分离模块，可以基于该待定发音对象数量信息所标识的发音对象数量对该样本语音信息进行分离，得到多个第一语音信息。通过该样本语音信息所对应的多个样本子语音信息，能够体现出在对样本语音信息在被准确的进行语音分离时，该样本语音信息所对应的发音对象数量以及分离得到的多个子语音信息。因此，通过多个样本子语音信息可以确定该样本语音信息对应的实际发音对象数量信息，通过实际发音对象数量信息与样本发音对象数量之间的差异，能够体现出该初始数量确定模块对于发音对象数量分析的准确度，通过多个样本子语音信息与多个第一语音信息之间的差异，能够体现出该初始语音分离模块在进行语音信息分离时的准确度，从而，通过结合这两个维度的差异对初始语音分离模型进行参数调节，一方面能够使初始数量确定模块学习到如何准确分析语音信息中所包括的发音对象数量，另一方面能够使初始语音模型学习到如何基于发音对象数量信息对语音信息进行准确的语音分离，得到能够与发音对象之间形成准确的一一对应关系的语音信息。由此可见，通过本申请的模型确定方式可以生成可以自主进行发音对象数量分析，且基于分析得到的发音对象数量进行准确语音分离的语音分离模型，在应用时只需要输入待分离的语音信息即可得到语音分离结果，无需在输入前对语音信息进行发音对象识别，在保障语音分离准确度的同时，提高了语音分离的便捷性和语音分离效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种实际应用场景中模型确定方法的示意图；

图2为本申请实施例提供的一种模型确定方法的流程图；

图3为本申请实施例提供的一种初始数量确定模块的示意图；

图4为本申请实施例提供的一种初始语音分离模块的示意图；

图5为本申请实施例提供的一种初始特征提取模块的示意图；

图6为本申请实施例提供的一种模型应用方法的流程图；

图7为本申请实施例提供的一种模型应用方法的示意图；

图8为本申请实施例提供的一种模型确定装置的结构框图；

图9为本申请实施例提供的一种模型应用装置的结构框图；

图10为本申请实施例提供的一种终端的结构图；

图11为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

在相关技术中，语音分离模型通常包括两种，第一种语音分离模型在模型训练时会针对特定发音对象生成样本语音信息，使语音分离模型在训练时能够基于该样本语音信息学习到该发音对象的语音特征，例如语音的频率特征、音色特征等，从而可以从多个发音对象的语音信息混合成的待分离语音信息中对该发音对象的语音信息进行准确识别并分离；第二种语音分离模型在应用时需要告知模型待分离语音信息中具有多少个发音对象的语音信息，该语音分离模型才能够进行较为准确的语音分离。

第一种语音分离模型需要前期在模型训练过程中，需要针对同一发音对象需要准备大量的训练样本，训练过程较为负责，同时通过该方式训练得到的语音分离模型只能够针对训练样本所对应的发音对象进行较为准确的特征分离，局限性较大。此外，由于不同发音对象在语音特征上可能会具有相似性，例如不同发音对象的频率分布会存在一定程度上的交叉，如果语音分离模型中的滤波器的频带设置的太过宽松，就会导致分离出来的语音信息在不同的发音对象之间都存在混叠，从而分离出来的语音信息不纯净。如果滤波器的频带设置的太过紧张，虽然能够一定程度上避免不同发音对象的语音信息之间的混叠，但是会导致分离出来的语音信息受损失。第二种语音分离模型需要在将待分离语音信息输入到模型中之前，人工确定待分离语音信息所对应的发音对象数量，因此需要预先计算和标注过程，语音分离较为繁琐，效率较低。

基于此，为了解决相关技术中的技术问题，本申请提供了一种模型确定方法，在初始语音分离模型中可以包括用于分析发音对象数量的初始数量确定模块，以及用于基于初始语音分离模型确定出发音对象数量信息进行语音分离的初始语音分离模块，只需输入样本语音信息，即可通过该初始语音分离模型分离得到语音分离结果。通过该样本语音信息所对应的准确语音分离结果与模型输出的语音分离结果之间的差异，一方面能够体现出该初始语音分离模型对发音对象数量分析的准确度，另一方面能够体现出该初始语音分离模型分离得到的语音信息的准确度，从而基于该差异对初始语音分离模型进行参数调节可以使模型同时学习到如何准确进行发音对象数量分析和语音信息准确分离，使得到的语音分离模型可以无需除待分离语音信息外的其他信息输入，即可实现准确的语音分离，降低语音分离难度，提高语音分离效率。

可以理解的是，该方法可以应用于计算机设备上，该计算机设备为能够进行模型训练和模型应用的计算机设备，例如可以为终端设备或服务器。该方法可以通过终端设备或服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。其中，终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、智能电视、车载设备等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器，或者云服务器等。

为了便于理解本申请提供的技术方案，接下来，将结合一种实际应用场景，对本申请实施例提供的一种模型确定方法进行介绍。

参见图1，图1为本申请实施例提供的一种实际应用场景中模型确定方法的示意图，在该实际应用场景中，计算机设备可以为具有模型确定功能的模型确定服务器101。

首先，模型确定服务器101可以获取样本语音信息集合，其中包括N个样本语音信息，每个样本语音信息具有对应的多个样本子语音信息，样本语音信息所对应的多个样本子语音信息即为该样本语音信息在被准确进行语音分离时得到的准确语音分离结果，每个样本子语音信息对应于一个发音对象。

以其中的样本语音信息1为例，模型确定服务器101可以将该样本语音信息1输入到初始语音分离模型中，初始语音分离模型中的初始数量确定模块可以基于该样本语音信息1确定对应的待定发音对象数量信息，该待定发音对象数量信息用于标识通过该模块所分析出的发音对象数量。初始语音分离模型中的初始语音分离模块可以基于该样本语音信息1和待定发音对象数量信息，对该样本语音信息1进行语音分离，得到多个第一语音信息，多个第一语音信息即为模型所分离得到的多个语音信息。

基于该样本语音信息1对应的多个样本子语音信息，可以确定出该样本语音信息1对应的实际发音对象数量信息，该实际发音对象数量信息用于标识该样本语音信息1对应的实际发音对象数量。例如，由图1可以看出，该样本语音信息1实际上对应5个发音对象。因此，基于该实际发音对象数量信息和待定发音对象数量信息之间的差异，能够体现出该初始语音分离模型在对发音对象数量进行分析时的准确度；通过多个第一语音信息与多个样本子语音信息之间的差异，能够体现出该初始语音分离模型在对样本语音信息1进行语音分离时的整体语音分离准确度。基于此，模型确定服务器101可以结合发音对象数量信息差异合语音信息差异，对该初始语音分离模型进行参数调节，使初始语音分离模型学习到如何准确的进行发音对象数量分析以及语音信息分离，得到调节后的语音分离模型，在模型应用时，只需要将待分离语音信息本身输入到语音分离模型中即可，无需输入其他信息，该语音分离模型即可自动实现对待分离语音信息的准确分离，确定出该待分离语音信息对应的与发音对象一一对应的多个子语音信息，从而可以减少语音分离所需的前期准备，降低语音分离难度，提高了语音分离效率。例如，在实际应用时，该待分离语音信息可以为包括多个发音对象的视频信息对应的音频信息，通过该语音分离模型可以分离得到多个发音对象分别对应的语音信息，从而可以使视频信息的接收者选择自己感兴趣的发音对象的语音信息进行接收。

接下来，将结合附图，对本申请实施例提供的模型确定方法和模型应用方法进行介绍。

参见图2，图2为本申请实施例提供的一种模型确定方法的流程图，在该实施例中，该方法可以由计算机设备执行。该方法包括：

S201：获取样本信息集合。

该样本信息集合用于对初始语音分离模型进行模型训练，其中，样本信息集合可以包括多个样本语音信息，样本语音信息可以为任意由多个发音对象的语音信息混合而成的语音信息，多个样本语音信息分别具有对应的多个样本子语音信息，样本子语音信息与发音对象一一对应。例如，多个样本语音信息中的目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的，即在对该目标样本语音信息进行准确的语音分离时，多个目标样本子语音信息即为该目标样本语音信息对应的语音分离结果，该目标样本语音信息可以为多个样本语音信息中的任意一个样本语音信息。

例如，该目标样本语音信息可以为包括多个发音对象的视频信息（如包括多个人物的电影、电视剧等）所对应的音频信息，多个目标样本子语音信息可以为该视频信息中各个发音对象分别对应的语音信息（例如人物的语音信息）。发音对象是指能够产生语音信息的对象，例如可以为人物对象、动物对象等多种对象。

S202：将多个样本语音信息分别作为目标样本语音信息，通过初始语音分离模型中的初始数量确定模块确定目标样本语音信息对应的待定发音对象数量信息，以及通过初始语音分离模型中的初始语音分离模块，基于待定发音对象数量信息确定目标样本语音信息对应的多个第一语音信息。

为了使语音分离模型能够只基于输入的语音信息进行语音分离，同时不具有在发音对象维度上的语音分离局限性，计算机设备需要在模型训练过程中，使语音分离模型自身具有发音对象数量分析的能力。基于此，在本申请实施例中，该初始语音分离模型中可以包括初始数量确定模块和初始语音分离模块，该初始数量确定模块用于分析语音信息中所包括的发音对象数量，该初始语音分离模块用于基于分析得到的发音对象数量对语音信息进行分离得到分离结果。从而，基于该初始数量确定模块的加入，模型可以拥有自主数量分析的能力，在语音分离时无需再向模型输入发音对象数量。

在模型训练过程中，以目标样本语音信息为例，计算机设备可以将该目标样本语音信息输入到初始语音分离模型中，通过初始语音分离模型中的初始数量确定模块可以确定目标样本语音信息对应的待定发音对象数量信息，以及通过初始语音分离模型中的初始语音分离模块，可以基于待定发音对象数量信息确定目标样本语音信息对应的多个第一语音信息。其中，待定发音对象数量信息用于标识该初始数量确定模块所分析出的目标样本语音信息包括的发音对象数量，多个第一语音信息即为该初始语音分离模型所输出的语音分离结果，第一语音信息的数量为该待定发音对象数量信息所标识的发音对象数量。

S203：根据多个目标样本子语音信息确定目标样本语音信息对应的实际发音对象数量信息。

由于多个目标样本子语音信息为目标样本语音信息所对应的准确语音分离结果，且该目标样本子语音信息与发音对象一一对应，因此通过多个目标样本子语音信息可以确定出该目标样本语音信息所对应的实际发音对象数量，进而能够确定该实际发音对象数量信息，该实际发音对象数量信息用于标识该目标样本语音信息所包括的实际发音对象数量。例如，计算机设备可以将目标样本子语音信息的数量直接确定为实际发音对象数量信息等。

S204：根据待定发音对象数量信息和实际发音对象数量信息之间的差异，以及根据多个目标样本子语音信息与多个第一语音信息之间的差异，调节初始语音分离模型对应的模型参数，得到语音分离模型。

由于待定发音对象数量信息能够标识该初始数量确定模块所分析出的目标样本语音信息包括的发音对象数量，该实际发音对象数量信息用于标识该目标样本语音信息所包括的实际发音对象数量，因此基于该待定发音对象数量信息和实际发音对象数量信息之间的差异，能够体现出该初始数量确定模块在对发音对象数量进行分析时的准确度。

同时，由于多个第一语音信息为初始语音分离模型所输出的目标样本语音信息对应的语音分离结果，多个目标样本子语音信息为该目标样本语音信息对应的准确语音分离结果，因此通过多个第一语音信息与多个目标样本子语音信息之间的差异，能够体现出该初始语音分离模型整体上在进行语音分离时的准确度。从而，结合这两个维度的差异对该初始语音分离模型进行参数调节，在逐渐缩小这两个维度差异的过程中，一方面可以使初始数量确定模块学习到如何准确的对语音信息中的发音对象数量进行分析，另一方面可以使模型整体分离出更加准确的语音分离结果，进而得到能够对语音信息包括的发音对象进行准确分析，以及基于准确分析出的发音对象数量进行准确语音分离的语音分离模型，其中初始数量确定模块通过参数调节可以得到语音分离模型中的数量确定模块，初始语音分离模块通过参数调节可以得到语音分离模型中语音分离模块。

该语音分离模型可以用于确定待分离语音信息对应的多个子语音信息，待分离语音信息可以为任意一个需要进行语音分离的语音信息，通过该语音分离模型得到的子语音信息与发音对象一一对应。

其中，发音对象数量信息的形式可以包括多种。在一种可能的实现方式中，该发音对象数量信息可以为由计数标识构成的信息。在通过初始数量确定模块确定目标样本语音信息对应的待定发音对象数量信息时，可以先对目标样本语音信息在语音特征维度上进行分离，确定目标样本语音信息对应的多个第二子语音特征，多个第二子语音特征即为初始数量确定模块对目标样本语音信息在语音特征维度上进行分离的分离结果，语音特征是指语音信息的特征，能够标识出语音信息的信息特点。

可以理解的是，不同发音对象的语音信息特点通常有所不同，例如不同发音对象的语音信息在时域特征和频域特征上通常都有所不同，因此语音特征在一定程度上能够表征出发音对象。从而，在本申请中初始数量确定模块可以对多个第二子语音特征分别进行分析，以确定每一个第二子语音特征是否能够表征出一个发音对象。计算机设备可以通过该初始数量确定模块，根据多个第二子语音特征，确定多个第二子语音特征分别对应的待定计数信息，待定计数信息为计数标识中的一种，计数信息用于标识所对应子语音特征对应单一发音对象的概率。即，通过分析每个第二子语音特征，初始数量确定模块可以判定每个第二子语音特征是否能够表征出单一的发音对象，从而确定出该计数信息。

计算机设备可以将多个第二子语音特征分别对应的待定计数信息确定为待定发音对象数量信息，发音对象数量信息用于标识对应单一发音对象的子语音特征数量。由于待定计数信息能够标识出第二子语音特征对应单一发音对象的概率，因此结合多个第二子语音特征分别对应的计数信息，能够确定出多个第二子语音特征中对应单一发音对象的特征数量，从而能够标识出样本发音对象数量。

同理，在根据多个目标样本子语音信息确定目标样本语音信息对应的实际发音对象数量信息时，计算机设备可以执行步骤S2031-S2033（图中未示出），步骤S2031-S2033为步骤S203的一种可能的实现方式：

S2031：确定多个第二子语音特征分别对应的第二子语音信息。

可以理解的是，语音特征是从语音信息中提取出来的，因此基于语音特征可以逆向还原得到语音信息，即该第二子语音信息对应的语音特征为该第二子语音特征，因此基于该第二子语音特征可以进行还原得到第二子语音信息。

S2032：将多个第二子语音信息分别确定为目标第二子语音信息，将目标子语音信息与多个目标样本子语音信息之间分别对应的相似度中的最大值确定为目标子语音信息对应的实际计数信息。

上已述及，计数信息用于标识所对应语音特征对应单一发音对象的概率，而目标样本子语音信息为对应单一发音对象的语音信息，因此，通过第二子语音信息与目标样本子语音信息之间的相似度，能够体现出该第二子语音信息为对应单一发音对象的语音信息的概率，从而能够体现出第二子语音信息所对应的第二子语音特征对应单一发音对象的概率。

基于此，计算机设备可以将多个第二子语音信息分别确定为目标第二子语音信息，分别计算多个目标样本子语音信息与该目标第二子语音信息之间的相似度，其中，相似度中的最大值可以说明目标第二子语音信息与该目标样本子语音信息之间的相似度最高，即该目标第二子语音信息最有可能对应该目标样本子语音信息对应的发音对象。因此，计算机设备可以将目标第二子语音信息与多个目标样本子语音信息之间分别对应的相似度中的最大值确定为目标第二子语音信息对应的实际计数信息，以此来衡量该目标第二子语音信息是否对应单一发音对象。

S2033：将多个第二子语音特征分别对应的实际计数信息确定为实际发音对象数量信息。

由于第二子语音特征分别对应的实际计数信息能够反映出该第二子语音特征实际是否对应单一发音对象的概率，因此计算机设备可以将多个第二子语音特征分别对应的实际计数信息确定为实际发音对象数量信息。

在执行步骤S204时，计算机设备可以执行步骤S2041-S2042（图中未示出），步骤S2041-S2042为步骤S204的一种可能的实现方式：

S2041：将多个第二子语音特征分别确定为目标第二子语音特征，基于目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，调节初始数量确定模块对应的模型参数。

目标第二子语音特征对应的待定计数信息能够体现出初始语音分离模型所分析出的对应单一发音对象的概率，该实际发音对象数量信息为该目标第二子语音特征实际对应单一发音对象的概率，因此，通过该差异能够体现出初始数量确定模块在分析第二子语音特征是否对应单一发音对象上的准确度，基于该差异调节初始数量确定模块能够使该模块学习到如何准确分析子语音特征是否对应于单一发音对象，进而学习如何确定出准确的发音对象数量信息。

S2042：根据多个目标样本子语音信息与多个第一语音信息之间的差异，调节初始语音分离模型对应的模型参数。

由于该语音分离结果是初始语音分离模型中的多个模块协作得到的，因此计算机设备可以基于语音分离结果上的差异，对该初始语音分离模型进行整体调节，以得到准确有效的语音分离模型。

上已述及，发音对象数量是语音分离过程中的关键信息，由于通过初始数量确定模块能够对目标样本语音信息的语音特征进行分离，得到多个第二子语音特征，而多个第二子语音特征分别对应的待定计数信息能够标识出第二子语音特征对应单一发音对象的概率，因此，基于多个第二子语音特征分别对应的待定计数信息，能够确定出多个第二子语音特征中对应单一发音对象的第二子语音特征的数量，该数量即为初始数量确定模块分析出的待定发音对象数量。

基于此，在通过初始语音分离模块，基于待定发音对象数量信息确定目标样本语音信息对应的多个第一语音信息时，计算机设备可以将多个第二子语音特征中，所对应待定计数信息标识的概率大于第一阈值的第二子语音特征数量确定为待定发音对象数量。在有了发音对象数量后，该初始语音分离模块即可以该待定发音对象数量作为语音分离依据，基于待定发音对象数量确定目标样本语音信息对应的待定发音对象数量个第一语音信息。

由上述内容可以看出，第二子语音特征对应的待定计数信息是语音分离过程中的关键信息之一，而该待定计数信息是基于第二子语音特征所确定出的，因此，初始数量确定模块对于第二子语音特征的分析准确度也是影响语音分离准确度的重要因素之一。

基于此，在一种可能的实现方式中，为了进一步提高语音分离的准确度，计算机设备可以提高初始数量确定模块对于第二子语音特征的分析准确度。

在执行步骤S2041时，计算机设备可以执行步骤S20411（图中未示出），步骤S20411为步骤S2041的一种可能的实现方式：

S20411：基于目标第二子语音特征对应的第二子语音信息与目标子语音信息之间的差异，以及目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，调节初始数量确定模块对应的模型参数。

其中，目标子语音信息为多个目标样本子语音信息中与目标第二子语音特征对应的第二子语音信息之间相似度最大的目标样本子语音信息，即该目标第二子语音特征所表征的发音对象大概率为该目标子语音信息对应的发音对象，若初始数量确定模块对该目标第二子语音特征的提取越准确，该目标第二子语音特征与该发音对象的语音特征就约接近，则该目标第二子语音特征对应的第二子语音信息应当与该目标子语音信息越接近。

基于此，一方面，计算机设备可以基于目标第二子语音特征对应的第二子语音信息与目标子语音信息之间的差异，在模型训练过程可以使初始数量确定模块学习到如何对语音信息的语音特征进行分析和提取，使提取出的语音特征能够对每一个发音对象进行有效表征；另一方面，基于目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，可以使初始数量确定模块学习到如何基于提取出的语音特征进行准确的计数信息的分析，从而可以在这两个维度上提高确定出的发音对象数量信息的准确度，进而提高语音分离准确度。

上已述及，不同发音对象的语音特征有所区别，语音特征在一定程度上能够表征出发音对象，因此，在一种可能的实现方式中，计算机设备可以基于初始语音分离模块分析得到的第二子语音特征对发音对象的表征作用，来对初始语音分离模块的语音信息分离过程进行引导。

在确定目标样本语音信息对应的待定发音对象数量信息时，计算机设备还可以确定目标语音信息对应的多个第二子语音特征，该第二子语音特征与上文中的第二子语音特征一致。计算机设备可以根据多个第二子语音特征，确定目标样本语音信息对应的待定发音对象数量信息，该待定发音对象数量信息用于标识多个第二子语音特征中对应单一发音对象的多个标准特征，即标准特征为该初始数量确定模块判定对应单一发音对象的第二子语音特征。例如，计算机设备可以通过上述待定计数信息进行分析，将待定计数信息所标识的概率较高的第二子语音特征确定为标准特征，其中，目标标准特征可以用于标识目标标准特征所对应发音对象的发音特征，发音特征是指发音对象发出语音信息时的特征，该目标标准特征即为发音对象对应的语音特征，该目标标准特征可以为任意一个标准特征。

在通过初始语音分离模块，基于待定发音对象数量信息确定目标样本语音信息对应的多个第一语音信息时，计算机设备可以将多个标准特征分别作为目标标准特征，以目标标准特征为例，计算机设备可以根据目标标准特征和目标样本语音信息确定目标标准特征对应的第一语音信息，即，计算机设备可以基于该目标标准特征，从该目标样本语音信息中进行信息分离，分离出所对应的语音特征与该目标标准特征较为贴合的语音信息作为该目标标准特征对应的第一语音信息，由于该目标标准特征能够标识所对应发音对象的发音特征，因此该目标标准特征对应的第一语音信息可以确定为目标标准特征所对应发音对象对应的语音信息。

从而，在进行语音分离时，一方面有发音对象数量做约束，使分离得到的语音信息能够贴合待分离语音信息所包括的发音对象数量；另一方面有标准特征作引导，可以时语音分离能够得到与待分离语音信息中的发音对象准确对应的语音信息，进而整体提高了语音分离的准确度。

具体的，在根据目标标准特征和目标样本语音信息确定目标子语音特征对应的第一语音信息时，在一种可能的实现方式中，计算机设备可以基于语音特征之间的相似度来进行确定。

首先，计算机设备可以确定目标样本语音信息对应的目标语音特征，该目标语音特征为目标样本语音信息整体对应的语音特征，因此在目标语音特征中混杂有多个发音对象的语音信息分别对应的语音特征。计算机设备可以根据目标标准特征与该目标语音特征中的各个语音特征部分之间的相似度，从目标语音特征中提取目标标准特征对应的第一子语音特征，该第一子语音特征与目标标准特征之间的相似度大于第二阈值，该第二阈值用于判定语音特征之间是否具有较高的相似度，即该第一子语音特征与该目标标准特征之间具有较高的相似度，因此该第一子语音特征大概率与该目标标准特征对应同一发音对象，从而，计算机设备可以根据目标标准特征对应的第一子语音特征确定目标标准特征对应的第一语音信息，该第一语音信息可以判定为对应该目标标准特征所表征发音对象的语音信息。

可以理解的是，由于标准特征与发音对象一一对应，不同标准特征通常所对应的发音对象不同，因此，在一种可能的实现方式中，为了进一步提高语音分离的准确度，计算机设备不仅可以基于目标标准特征提取出相似的语音特征，还可以基于其他标准特征剔除掉提取的语音特征中有概率对应其他发音对象的部分。

计算机设备可以通过上述方式，提取出多个标准特征分别对应的第一子语音特征，每个第一子语音特征在一定程度上能够体现出所对应标准特征表征的发音对象在目标样本语音信息中所对应的语音信息。因此，在根据目标标准特征对应的第一子语音特征确定目标标准特征对应的第一语音信息时，计算机设备可以先将多个标准特征中除目标标准特征外的标准特征分别对应的第一子语音特征作为多个对比子语音特征。若该目标标准特征对应的第一子语音特征与对比子语音特征之间存在相似的特征部分，则说明该特征部分有较大概率对应其他的发音对象，在基于该第一子语音特征确定语音信息时有较大可能会确定出对应其他发音对象的语音信息。

基于此，计算机设备可以根据多个对比子语音特征从目标标准特征所对应第一子语音特征中提取目标标准特征对应的第一语音特征，该第一语音特征与多个对比子语音特征之间的相似度均小于第三阈值，该第三阈值用于判定语音特征之间是否具有较小的相似度。即，基于该第三阈值，计算机设备可以将目标标准特征对应的第一子语音特征中，与对比子语音特征之间具有较高相似度的语音特征部分剔除，从而能够剔除对应其他发音对象概率较高的语音特征部分，使该第一语音特征与目标标准特征所表征的发音对象之间的关联更为密切。

进而，计算机设备可以根据目标标准特征对应的第一语音特征确定目标标准特征对应的第一语音信息，使该第一语音信息能够与目标标准特征所表征的发音对象之间的对应关系更加准确，降低了其他发音对象的语音信息对该第一语音信息的干扰，得到更加准确的语音分离结果。

具体的，在一种可能的实现方式中，为了进一步提高语音分离的精确度，在通过上述方式提取得到目标标准特征对应的第一子语音特征后，计算机设备可以进一步通过该初始语音分离模块，根据目标标准特征，从目标标准特征对应的第一子语音特征中提取目标标准特征对应的第二语音特征，与提取该第一子语音特征的方式类似，计算机设备可以基于该第一子语音特征中的各个特征部分与该目标标准特征之间的相似度进行提取，得到与目标标准特征更加接近的第二语音特征。该第二语音特征与目标标准特征之间的相似度大于第四阈值，第四阈值大于第二阈值，即该过程是基于目标标准特征对第一子语音特征的进一步提纯。

在根据目标标准特征对应的第一语音特征确定目标标准特征对应的第一语音信息时，计算机设备可以将基于目标标准特征的特征提取与基于其他标准特征的特征提取进行结合，融合该目标标准特征对应的第一语音特征和目标标准特征对应的第二语音特征，生成目标标准特征对应的语音特征，从而该语音特征一方面对于该目标标准特征所标识的发音对象的发音特征有较高的贴合度，另一方面该语音特征中包含其他标准特征所标识发音对象的语音特征概率较低，因此，计算机设备可以根据目标标准特征对应的语音特征确定目标标准特征对应的第一语音信息，进一步提高该第一语音信息与目标标准特征所表征发音对象之间的关联密切程度，进而提高语音分离的准确度。

由上述内容可以看出，在语音分离过程中，目标样本语音信息所对应的整体语音特征也是用于进行语音分离的关键信息之一。因此，计算机设备不仅可以对发音对象数量分析和语音分离这两个部分进行优化，还可以对目标样本语音信息的语音特征提取这一部分进行更加精确地处理，以得到能够对该目标样本语音信息的语音信息特点体现的更加准确的语音特征。

在一种可能的实现方式中，该初始语音分离模型还可以包括初始特征提取模块，初始特征提取模块用于提取目标样本语音信息对应的目标语音特征，该目标语音特征用于表征该目标样本语音信息对应的信息特征的，例如在时域或频域上的特征等。

在执行步骤S202时，计算机设备可以执行步骤S2021（图中未示出），步骤S2021为步骤S202的一种可能的实现方式：

S2021：通过初始语音分离模型中的初始数量确定模块，根据目标语音特征确定目标样本语音信息对应的待定发音对象数量信息，以及通过初始语音分离模型中的初始语音分离模块，基于待定发音对象数量信息和目标语音特征确定目标样本语音信息对应的多个第一语音信息。

在初始数量确定模块中，可以通过对该目标语音特征进行分析，提取出上述多个第二子语音特征，从而分析出其中对应单一发音对象的特征数量，来确定待定发音对象数量信息；在初始语音分离模块中，可以基于待定发音对象数量信息，从该目标语音特征中提取出上述多个第一子语音特征，从而确定出多个第一语音信息。

参见图3，图3为本申请实施例提供的一种初始数量确定模块的示意图，初始数量确定模块中可以包括两个二维卷积网络（2D Convolutional Neural Network，简称2DCNN）、填充（Padding）和重塑层（Reshape）、双向长短期记忆网络模型（BidirectionalLong Short-Term Memory，简称BLSTM）和激活函数（Relu），计算机设备可以将目标语音特征输入到初始数量确定模块中的第一个二维卷积网络，得到多个特征，基于预先设置的掩码矩阵尺寸对该特征进行填充和重塑后，经过第二个二维卷积网络可以得到掩码矩阵，掩码矩阵为多个第二子语音特征构成的特征矩阵。如图3所示，在该掩码矩阵的长度可以为预先设定的长度，例如设为N，则通过该初始数量确定模块最多确定出的发音对象数量为N，N例如可以为128等。掩码矩阵的尺寸是可拓展的，通过在填充和重塑阶段进行改变，就能够控制掩码矩阵的尺寸（即维度）。

通过双向长短期记忆网络模型和激活函数可以分析得到每个第二子语音特征对应的待定计数信息，用于标识第二子语音特征对应单一发音对象的概率。基于该待定计数信息能够确定出第二子语音特征对应的01编码向量，其中1用于标识对应的第二子语音特征对应单一发音对象，0用于标识对应的第二子语音特征不对应单一发音对象，因此可以通过01编码向量中1的数量来体现出待定发音对象数量，例如，计算机设备可以将待定计数信息所标识概率大于阈值的第二子语音特征的01编码向量确定为1，否则确定为0。该模块可以直接将该待定发音对象数量和所对应01编码向量为1的第二子语音特征输入到初始语音分离模块中进行语音分离。

参见图4，图4为本申请实施例提供的一种初始语音分离模块的示意图，该初始语音分离模块是由并联的多个解码器共同组成的，其数量为初始数量确定模块所分析出的待定发音对象数量，即解码器与发音对象一一对象，一个解码器用于分离一个发音对象对应的语音信息。每个解码器的输入都是目标样本语音信息对应的目标语音特征，以及掩码矩阵中对应单一发音对象的标准特征（也称掩码向量）。

由图4中可以看到，每个编码器是由注意力计算机制、二维卷积网络和梅尔（mel）倒频谱计算构成。以目标标准特征为例，首先将目标标准特征和目标语音特征同时输入到一个注意力计算机制中，由目标标准特征通过与目标语音特征中的每个语音特征计算其相似度，经过二维卷积网络输出一个二维特证（即第一子语音特征）。其中二维卷积网络的应用主要是为了能够将特征进行拓展，因为在提取目标语音特征时可能大量的使用了小卷积核进行计算，该计算会将语音特征一步一步进行尺寸缩小，所以为了能够平衡特征尺寸，在解码器中加入了两个二维卷积网络，将特征尺寸进行扩大，从而能够让最终输出的语音信息时间长度与原始的语音信息时间长度相同。

由图4可见，除了解码器自身的解码链路之外，还存在不同解码器之间的注意力机制计算。在确定出第一子语音特征后，n个解码器计算出来的第一子语音特征之间会进行连接（concat），从而形成一个多层特征，然后进行注意力机制的计算，计算流程为使用目标标准特征对应的解码器输出的第一子语音特征与其他n-1个解码器输出的第一子语音特征进行相似度计算，剔除其中与其他n-1个解码器输出的第一子语音特征相似度过高的部分，得到第一语音特征，然后与目标标准特征对应的解码器中，通过第二个注意力计算机制和二维卷积网络从第一子语音特征中提取出来的第二语音特征进行融合，得到该目标标准特征对应的语音特征，经过梅尔倒频谱计算后得到第一语音信息，以此可以让自己的解码感知到其他解码器所解码的发音对象的语音信息，从而能够让自己的解码器对其他解码器关注的信息维度权重降低，以此来达到多个解码器之间的信息交互，提升最终语音分离的纯净程度。

可以理解的是，语音信息通常由时域信息和频域信息这两个维度的信息构成，时域信息例如可以体现出发音对象的发音节奏等特点，频域信息例如可以体现出发音对象的发音音调等特点。基于此，在一种可能的实现方式中，为了突出该目标样本语音信息在时域和频域这两个维度的特征，计算机设备可以分别基于该目标样本语音信息的时域特征和频域特征进行语音特征提取。

具体的，在提取目标样本语音信息对应的目标语音特征时，计算机设备可以基于目标样本语音信息对应的时域信息提取目标样本语音信息对应的第一特征，以及基于目标样本语音信息对应的频域信息提取目标样本语音信息对应的第二特征，因此通过第一特征能够体现出该目标样本语音信息的时域特征，通过第二特征能够体现出该目标样本语音信息的频域特征。计算机设备可以根据第一特征和第二特征来确定目标语音特征，从而使该目标语音特征能够对于目标样本语音信息的时域特征和频域特征都有较好的表征作用，有助于对该目标语音特征进行更加准确的分析和处理。

其中，由于语音信息是由频域信息和时域信息所构成的，若只基于单一维度的信息进行特征提取，可能会导致提取出的语音特征损失较大，例如，若只基于时域信息进行特征提取，可能会导致提取过程中对频域信息的损失较大，从而可能会导致该特征对于目标样本语音信息的整体表征作用较差。因此，在一种可能的实现方式中，无论是提取第一特征还是第二特征，计算机设备都可以结合两个维度的信息进行提取。

此外，可以理解的是，特征提取是从信息中提取部分有代表性的信息的过程，当需要提取的信息量相同时，特征提取过程中的特征提取次数越多，则在一定程度上对于语音信息的特征提取就越细致，能够注意到更多的语音信息细节。例如，在通过卷积的方式提取语音特征时，相关技术中通常通过一个较大的卷积核，基于一次特征提取即可得到语音特征；而在本申请中，可以将大卷积核拆分为多个小卷积核，一个小卷积核对应于一次特征提取，从而可以通过多次特征提取来提取语音信息对应的语音特征，一方面拓展了更深的卷积网络层，另一方面使用小卷积核能够在进行特征提取时，会注意到更多的信息细节，因为其在整个卷积核的计算下，越小的尺度越能够注意到信息细节的变化。

因此，在本申请中，计算机设备可以结合多个维度的信息，通过多次特征提取来提取目标样本语音信息对应的目标语音特征。例如，在基于目标样本语音信息对应的时域信息提取目标样本语音信息对应的第一特征时，计算机设备可以通过N次特征提取确定目标样本语音信息对应的第一特征，N为大于1的正整数。其中，第i次特征提取的输出信息为第i+1次特征提取的输入信息，即后一次特征提取是对前一次特征提取输出的信息进行特征提取，i为小于N的正整数。

为了使第一特征能够突出该目标样本语音信息的时域特征，N次特征提取中的前M次特征提取是基于目标样本语音信息对应的时域信息进行特征提取，后N减M次特征提取是基于目标样本语音信息对应的频域信息进行特征提取，M为小于N的正整数。这种特征提取的好处在于，由于前M次特征提取是在完整的目标样本语音信息的基础上进行特征提取，因此首先基于时域信息进行特征提取可以最大限度的保留该目标样本语音信息对应的时域特征，后续N减M次特征提取是在前M次特征提取得到的信息上基于频域信息进行特征提取，因此虽然不能够基于完整的频域信息进行特征提取，但是也兼顾了频域信息和时域信息实现对该第一特征的提取。

同理，在基于目标样本语音信息对应的频域信息提取目标样本语音信息对应的第二特征时，计算机设备可以通过P次特征提取确定目标样本语音信息对应的第二特征，P为大于1的正整数。其中，第k次特征提取的输出信息为第k+1次特征提取的输入信息，前Q次特征提取是基于目标样本语音信息对应的频域信息进行特征提取，后P-Q次特征提取是基于目标样本语音信息对应的时域信息进行特征提取，k和Q均为小于N的正整数。由于前Q次特征提取是在完整的目标样本语音信息的基础上进行特征提取，因此首先基于频域信息进行特征提取可以最大限度的保留该目标样本语音信息对应的频域特征，后续P-Q次特征提取是在前Q次特征提取得到的信息上基于频域信息进行特征提取，因此虽然不能够基于完整的时域信息进行特征提取，但是也兼顾了频域信息和时域信息实现对该第二特征的提取。由此可见，虽然第一特征和第二特征都是兼顾了时域和频域这两个维度的特征信息进行特征提取，但是在一定程度上第一特征能够对目标样本语音信息的时域特征进行更加准确的体现，该第二特征能够对目标样本语音信息的频域特征进行更加准确的体现，在保障特征提取合理性的同时，强化了目标语音特征对于各个维度特征的表征作用。同时，本申请通过多次特征提取，实现了对目标样本语音信息的细粒度分析，从而能够关注该目标样本语音信息中更多的信息细节，提高语音特征提取的精确度。

上已述及，在多次特征提取的后面几次特征提取时，是基于前面几次特征提取的输出信息进行提取的，而由上述内容可见，本申请的多次特征提取每一次都是基于单一维度的信息进行提取，因此在一定程度上会造成对某一维度的信息特征无法完整的进行提取。例如，在提取第一特征时，由于前M次特征提取只基于时域信息进行特征提取，没有考虑目标样本语音信息对应的频域信息，因此可能会忽略一些目标样本语音信息对应的频域特征。虽然后N减M次特征提取是基于频域信息进行提取，但是是在第M次特征提取输出信息的基础上进行特征提取，前M次特征提取过程中的频域信息损失可能无法挽回。

基于此，在一种可能的实现方式中，为了降低特征提取对于目标样本语音信息的信息损失，计算机设备可以结合该目标样本语音信息的整体信息特征来确定目标语音特征。

计算机设备可以基于目标样本语音信息对应的时域信息和频域信息，经过1次特征提取目标样本语音信息对应的直接映射特征。由于此次特征提取兼顾了时域信息和频域信息，同时只经过了1次特征提取，因此虽然不能够针对时域或频域中的某一维度的特征进行突出表征，但是最大限度的保留了该目标样本语音信息的信息特征，最小化降低了信息损失。

在通过N次特征提取确定目标样本语音信息对应的第一特征时，计算机设备可以通过N次特征提取确定目标样本语音信息对应的第一待定特征，该第一待定特征为第N次特征提取的输出，从而该第一待定特征能够对时域特征进行更加突出的表征。计算机设备可以合并第一待定特征和直接映射特征，得到目标样本语音信息对应的第一特征，从而使该第一特征在突出目标样本语音信息的时域特征的同时，兼顾该目标样本语音信息的整体信息特征，减少信息特征提取过程中对于频域特征的损耗。

同理，在通过P次特征提取确定目标样本语音信息对应的第二特征时，计算机设备可以通过P次特征提取确定目标样本语音信息对应的第二待定特征，该第二待定特征为第P次特征提取的输出，从而该第一待定特征能够对频域特征进行更加突出的表征。计算机设备可以合并第二待定特征和直接映射特征，得到目标样本语音信息对应的第二特征，从而使该第一特征在突出目标样本语音信息的频域特征的同时，兼顾该目标样本语音信息的整体信息特征，减少信息特征提取过程中对于时域特征的损耗。

除了上述结合方式之外，计算机设备还可以采用多个特征直接结合的方式来确定该目标样本语音信息对应的目标语音特征。

具体的，计算机设备可以通过T次特征提取确定目标样本语音信息对应的第三特征，其中，第w次特征提取用于基于目标样本语音信息对应的时域信息和频域信息进行特征提取，T为大于1的正整数，w为不超过T的正整数。即，在本申请实施例中，为了能够得到目标样本语音信息对应的较为精确的整体特征提取，可以通过结合两个维度的信息进行多次特征提取，来得到该第三特征。例如，计算机设备可以在每一次特征提取时，通过二维的小卷积核进行提取，结合两个维度信息的同时细化特征分析粒度。上述多次特征提取的特征提取次数可以基于实际需求进行设定，此处不作限定。

在根据第一特征和第二特征确定目标语音特征时，计算机设备可以根据第一特征、第二特征和第三特征，确定目标语音特征。通过第一特征和第二特征，分别能够突出目标样本语音信息在时域和频域上的特征，通过该第三特征能够体现出目标样本语音信息在两个信息维度整体上的特征，从而可以使该目标语音特征兼顾单一维度特征和多维度整体特征的表征，提高该目标语音特征对目标样本语音信息的表征效果，有利于后续基于该目标语音特征对目标样本语音信息进行准确的语音分离。

参见图5，图5为本申请实施例提供的一种初始特征提取模块的示意图，该模块一共分为三个支路，其中分为左支路、中支路和右支路。在三个支路中，左右支路均是由一维小卷积核组成的卷积网络和残差链接构成，中支路是由二维小卷积核组成的卷积网络构成，然后三个支路进行特征合并求取平均特征（mean），最后再通过一个大的池化层，得到目标语音特征，例如可以为编码特征图。

其中，目标样本语音信息输入后，会先计算其对应的梅尔（mel）特征，然后经过三条支路进行特征提取。左支路的上半部分是基于时域信息的特征提取，即六次特征提取的前三次是基于时域信息的一维卷积和一维池化，然后下半部分是基于频域信息的特征提取，即后三次特征提取为频域维度上的一维卷积和一维池化，右支路的架构和左支路架构是相反的。此种架构的目的是为了能够让一半的网络层专心的注重于在时域信息上的感知学习，一半的网络层专心的注重于在频域信息的感知上学习，这样就能够让网络在时域和频域上分别进行详细的信息获取。然后左右支路分别又添加了一个残差链接，即利用一个大卷积核和大的池化层一次提取目标语音信息对应的直接映射特征，与最后支路的结果进行特征拼接（concat），例如分别与左支路得到的第一待定特征和右支路得到的第二待定特征进行特征拼接，得到第一特征和第二特征，从而能够让模型提取出的目标语音特征可以由底层目标语音信息的整体特征和高层由多次特征提取得到的详细特征同时结合。

中支路使用的是二维的小卷积核构成的二维卷积网络，通过三层网路，基于时域信息和频域信息进行三次特征提取得到第三特征，然后将三条支路输出的特征进行特征平均，最后经过一个通道上的池化层就能够得到最终的目标语音特征输出。

基于上述实施例确定出的语音分离模型，本申请还提供了一种模型应用方法，其中，该模型应用方法可以应用于上述任意实施例所确定出的语音分离模型。

参见图6，图6为本申请实施例提供的一种模型应用方法的流程图，在该实施例中，该方法可以由计算机设备执行，该方法包括：

S601：获取待分离语音信息。

该待分离语音信息可以为任意一个需要进行语音分离的语音信息，待分离语音信息是由多个发音对象对应的子语音信息构成的，即通过该待分离语音信息能够接收到多个发音对象分别对应的子语音信息。例如，该待分离语音信息可以为一部电影对应的音频信息、会议录音等。发音对象可以为电影中的演员、会议上的演讲者等。

S602：根据待分离语音信息，通过语音分离模型中的数量确定模块确定待分离语音信息对应的发音对象数量信息，以及通过语音分离模型中的语音分离模块，根据发音对象数量信息确定待分离语音信息对应的发音对象数量个子语音信息。

发音对象数量个子语音信息即为该待分离语音信息对应的语音分离结果，其中发音对象数量个子语音信息与发音对象一一对应，发音对象数量信息用于标识待分离语音信息对应的发音对象数量。该数量确定模块为对初始数量确定模块通过上述参数调节方式确定出的模块，该语音分离模块为对初始语音分离模块通过上述参数调节方式确定出的模块。

上已述及，语音特征能够在语音分离过程中，对发音对象起到表征作用。与模型确定过程相似，在模型应用过程中，在确定待分离语音信息对应的发音对象数量信息时，计算机设备可以确定待分离语音信息对应的发音对象数量个子语音特征，发音对象数量个子语音特征与发音对象一一对应，子语音特征用于表征所对应发音对象的语音特征。模型的这一能力是基于上述模型确定过程中，基于多维度差异对初始数量确定模块进行参数调节，使该模块能够学习到如何确定出准确的第二子语音特征以及准确分析第二子语音特征对应的计数信息，从而能够准确的确定出对应单一发音对象的子语音特征。

在根据发音对象数量信息确定待分离语音信息对应的发音对象数量个子语音信息时，通过语音分离模块，可以根据发音对象数量信息和发音对象数量个子语音特征，基于发音对象数量信息对语音信息的数量限制和子语音特征对于发音对象的表征作用，确定出待分离语音信息对应的发音对象数量个子语音信息。通过该子语音特征，计算机设备可以从待分析语音信息中提取出分别与各个子语音特征贴合的语音信息，进而得到各个子语音特征所表征发音对象对应的语音信息。其中，模型应用方法中的语音分离模型可以是通过上述任意一种模型确定方法所确定出的语音分离模型。

可以理解的是，不同待分离语音信息中所包括的发音对象数量可能有所不同，在本申请中，针对每一个发音对象的语音分离流程是相同的，即针对每一个发音对象进行语音分离所需的模型自身参数是相同的。基于此，在一种可能的实现方式中，计算机设备可以采用并行处理的方式来分离多个发音对象分别对应的语音信息。

在根据发音对象数量信息和发音对象数量个子语音特征，确定待分离语音信息对应的发音对象数量个子语音信息时，计算机设备可以根据语音分离模块对应的模型参数和发音对象数量信息，构成发音对象数量个分离子模块，发音对象数量个分离子模块对应的模型参数相同，均为基于该语音分离模块的模型参数确定的模型参数，发音对象数量个分离子模块与发音对象数量个子语音特征一一对应，即每一个分离子模块都用于从待分离语音信息中分离所对应子语音特征表征的发音对象所对应的语音信息。从而，在语音分离过程中，多个发音对象对应的语音信息可以进行同步分离，无需等待一个发音对象对应的语音信息分离结束后，再执行下一个发音对象的语音信息分离，提高了语音分离效率。

计算机设备可以将发音对象数量个分离子模块分别作为目标子模块，以目标子模块为例，通过目标子模块，可以根据目标子模块对应的目标子语音特征和目标样本语音信息，基于该目标子语音特征对于目标发音对象的表征作用，从目标样本语音信息中分离得到目标发音对象对应的子语音信息，该子语音信息即为与该目标子语音特征较为贴合的语音信息，该目标发音对象为目标子语音特征所表征的发音对象。

参见图7，图7为本申请实施例提供的一种模型应用方法的示意图，在该语音分离模型中可以包括初始特征提取模块、数量确定模块和语音分离模块，初始特征提取模块可以确定输入模型的待分离语音信息对应的语音特征，数量确定模块能够确定该语义特征对应的n个子语音特征以及发音对象数量n，n个子语音特征与发音对象一一对应。数量确定模块可以将这些信息输入给语音分离模块，语音分离模块基于发音对象数量n构建n个分离子模块，即n个解码器，每一个解码器对应于一个子语音特征，解码器可以基于所对应的子语音特征和待分离语音信息的语音特征分离出对应的子语音信息，得到n个子语音信息，n个子语音信息与n个发音对象一一对应，即为该待分离语音信息的分离结果。

基于上述实施例提供的模型确定方法，本申请还提供了一种模型确定装置，参见图8，图8为本申请实施例提供的一种模型确定装置的结构框图，该装置800包括第一获取单元801、第一确定单元802、第二确定单元803和调节单元804：

所述第一获取单元801，用于获取样本信息集合，所述样本信息集合包括多个样本语音信息，所述多个样本语音信息分别具有对应的多个样本子语音信息，目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的，所述样本子语音信息与发音对象一一对应；

所述第一确定单元802，用于将所述多个样本语音信息分别作为所述目标样本语音信息，通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息；

所述第二确定单元803，用于根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息；

所述调节单元804，用于根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异，以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数，得到语音分离模型，所述语音分离模型用于确定待分离语音信息对应的多个子语音信息，所述子语音信息与发音对象一一对应。

在一种可能的实现方式中，所述第一确定单元802具体用于：

确定所述目标样本语音信息对应的多个第二子语音特征；

所述第二确定单元803具体用于：

确定所述多个第二子语音特征分别对应的第二子语音信息；

所述调节单元804具体用于：

在一种可能的实现方式中，所述第一确定单元802具体用于：

在一种可能的实现方式中，所述调节单元804具体用于：

在一种可能的实现方式中，所述第一确定单元802具体用于：

确定所述目标语音信息对应的多个第二子语音特征；

在一种可能的实现方式中，所述第一确定单元802具体用于：

确定所述目标样本语音信息对应的目标语音特征；

在一种可能的实现方式中，所述第一确定单元802具体用于：

在一种可能的实现方式中，所述初始语音分离模块还用于：

所述第一确定单元802具体用于：

在一种可能的实现方式中，所述初始语音分离模型还包括初始特征提取模块，所述初始特征提取模块用于提取所述目标样本语音信息对应的目标语音特征，所述第一确定单元802具体用于：

根据所述第一特征和所述第二特征确定所述目标语音特征。

在一种可能的实现方式中，所述初始语音分离模块还用于：

在一种可能的实现方式中，所述初始特征提取模块还用于：

基于上述实施例提供的模型应用方法，本申请还提供了一种模型应用装置，参见图9，图9为本申请实施例提供的一种模型应用装置的结构框图，装置900包括第二获取单元901和第三确定单元902：

所述第二获取单元901，用于获取待分离语音信息，所述待分离语音信息是由多个发音对象对应的子语音信息构成的；

所述第三确定单元902，用于根据所述待分离语音信息，通过所述语音分离模型中的数量确定模块确定所述待分离语音信息对应的发音对象数量信息，以及通过所述语音分离模型中的语音分离模块，根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息，所述发音对象数量个子语音信息与发音对象一一对应，所述发音对象数量信息用于标识所述待分离语音信息对应的所述发音对象数量。

在一种可能的实现方式中，所述第三确定单元902具体用于：

本申请实施例还提供了一种计算机设备，请参见图10所示，该计算机设备可以是终端设备，以终端设备为手机为例：

图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频（Radio Frequency，简称RF）电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真（Wireless Fidelity，简称WiFi）模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，简称LNA）、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，简称GSM）、通用分组无线服务（GeneralPacket Radio Service，简称GPRS）、码分多址（Code Division Multiple Access，简称CDMA）、宽带码分多址（Wideband Code Division Multiple Access，简称WCDMA）、长期演进（Long Term Evolution，简称LTE）、电子邮件、短消息服务（Short Messaging Service，简称SMS）等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器（Liquid CrystalDisplay，简称LCD）、有机发光二极管（Organic Light-Emitting Diode，简称OLED）等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图10中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体检测。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790（比如电池），优选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器780还具有上述任意一种模型确定功能或模型应用功能：

本申请实施例还提供一种服务器，请参见图11所示，图11为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，简称CPU）822（例如，一个或一个以上处理器）和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830（例如一个或一个以上海量存储设备）。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于图11所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的模型确定方法或模型应用方法中的任意一种实施方式。

本申请实施例还提供了一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得所述计算机设备执行上述实施例中任意一项所述的模型确定方法或模型应用方法。

可以理解的是，在本申请的具体实施方式中，涉及到对象信息（如语音信息）等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器（英文：read-only memory，缩写：ROM）、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种模型确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标样本语音信息对应的待定发音对象数量信息，包括：

确定所述目标样本语音信息对应的多个第二子语音特征；

所述根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息，包括：

确定所述多个第二子语音特征分别对应的第二子语音信息；

所述根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异，以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，调节所述初始数量确定模块对应的模型参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定所述目标样本语音信息对应的待定发音对象数量信息，包括：

确定所述目标语音信息对应的多个第二子语音特征；

所述基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标标准特征和所述目标样本语音信息确定所述目标子语音特征对应的第一语音信息，包括：

确定所述目标样本语音信息对应的目标语音特征；

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标标准特征对应的第一子语音特征确定所述目标标准特征对应的第一语音信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述初始语音分离模块还用于：

所述根据所述目标标准特征对应的第一语音特征确定所述目标标准特征对应的第一语音信息，包括：

9.根据权利要求1所述的方法，其特征在于，所述初始语音分离模型还包括初始特征提取模块，所述初始特征提取模块用于提取所述目标样本语音信息对应的目标语音特征，所述通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述提取所述目标样本语音信息对应的目标语音特征，包括：

根据所述第一特征和所述第二特征确定所述目标语音特征。

11.根据权利要求10所述的方法，其特征在于，所述基于所述目标样本语音信息对应的时域信息提取所述目标样本语音信息对应的第一特征，包括：

通过N次特征提取确定所述目标样本语音信息对应的第一特征，其中，第i次特征提取的输出信息为第i+1次特征提取的输入信息，前M次特征提取是基于所述目标样本语音信息对应的时域信息进行特征提取，后N减M次特征提取是基于所述目标样本语音信息对应的频域信息进行特征提取，N为大于1的正整数，M和i为小于N的正整数；

通过P次特征提取确定所述目标样本语音信息对应的第二特征，其中，第k次特征提取的输出信息为第k+1次特征提取的输入信息，前Q次特征提取是基于所述目标样本语音信息对应的频域信息进行特征提取，后P-Q次特征提取是基于所述目标样本语音信息对应的时域信息进行特征提取，P为大于1的正整数，k和Q为小于N的正整数。

12.根据权利要求11所述的方法，其特征在于，所述初始特征提取模块还用于：

13.根据权利要求10所述的方法，其特征在于，所述方法还包括：

根据所述第一特征、所述第二特征和所述第三特征，确定所述目标语音特征，T为大于1的正整数，w为不大于T的正整数。

14.一种模型应用方法，其特征在于，所述方法包括：

根据所述待分离语音信息，通过语音分离模型中的数量确定模块确定所述待分离语音信息对应的发音对象数量信息，以及通过所述语音分离模型中的语音分离模块，根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息，所述发音对象数量个子语音信息与发音对象一一对应，所述发音对象数量信息用于标识所述待分离语音信息对应的所述发音对象数量，所述语音分离模型是通过权利要求1-13中任意一项所述的模型确定方法确定的。

15.根据权利要求14所述的方法，其特征在于，所述确定所述待分离语音信息对应的发音对象数量信息，包括：

所述根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息，包括：

16.根据权利要求15所述的方法，其特征在于，所述根据所述发音对象数量信息和所述发音对象数量个子语音特征，确定所述待分离语音信息对应的发音对象数量个子语音信息，包括：

17.一种模型确定装置，其特征在于，所述装置包括第一获取单元、第一确定单元、第二确定单元和调节单元：

18.一种模型应用装置，其特征在于，所述装置包括第二获取单元和第三确定单元：

19.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1-13中任意一项所述的模型确定方法，或执行权利要求14-16中任意一项所述的模型应用方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-13中任意一项所述的模型确定方法，或执行权利要求14-16中任意一项所述的模型应用方法。