CN113555032A

CN113555032A - 多说话人场景识别及网络训练方法、装置

Info

Publication number: CN113555032A
Application number: CN202011543212.6A
Authority: CN
Inventors: 夏咸军; 李娟娟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-10-26
Anticipated expiration: 2040-12-22
Also published as: CN113555032B

Abstract

本申请提供了一种多说话人场景识别及网络训练方法、装置，对语音分离模型和语音分类模型进行联合训练，保证了多说话人场景判断的连续性，使用语音分离模型训练来降低多说话人场景判断延迟。多说话人场景识别网络训练方法包括：获取训练语音样本集中的各个训练样本的对数梅尔能量谱，训练语音样本集包括单人说话语音信号和多人说话语音信号，多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号；根据训练语音样本集对语音分离模型与语音分类模型进行联合训练，其中，在联合训练过程中，使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入，使用语音分离模型输出的频带点系数作为语音分类模型的输入。

Description

多说话人场景识别及网络训练方法、装置

技术领域

本申请实施例涉及语音信号处理技术领域，并且更具体地，涉及一种多说话人场景识别及网络训练方法、装置。

背景技术

语音作为语言的声学表现，是一种自然且有效的信息交流方式。在实时通信中，为了提高用户体验，需要对实时音频流信号进行各类算法处理，比如回声消除(EchoCancellatio，EC)，主讲说话人提取(Speaker Extraction，SE)，语音分离(SpeechSeparation，SS)。在回声消除中，涉及到单讲，双讲的场景；在主讲说话人提取场景当中，期望将主讲人的声音提取出来，滤除背景人说话的声音；在语音分离中，需要将同时说话的人声分离出来。在这几种场景里面，都需要对是否是多说话人讲话进行判断。如何准确识别是否是多说话人讲话，是一项亟待解决的技术问题。

发明内容

本申请提供了一种多说话人场景识别及网络训练方法、装置、电子设备、芯片和计算机可读存储介质，对语音分离模型和语音分类模型进行联合训练，保证了多说话人场景判断的连续性，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入来降低多说话人场景判断延迟，并能够提升多说话人场景识别的准确性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的一方面，提供了一种多说话人场景识别网络训练方法，包括：

获取训练语音样本集中的各个训练样本的对数梅尔能量谱，训练语音样本集包括单人说话语音信号和多人说话语音信号，多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号；

根据训练语音样本集对语音分离模型与语音分类模型进行联合训练，其中，在联合训练过程中，使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入。

根据本申请的一方面，提供了一种多说话人场景识别方法，包括：

获取待处理语音信号的对数梅尔能量谱；

将待处理语音信号的对数梅尔能量谱输入语音分离模型，以及将语音分离模型输出的频带点系数输入语音分类模型；

获取语音分类模型输出的语音分类结果，语音分类结果包括单人说话或者多人说话。

根据本申请的一方面，提供了一种多说话人场景识别网络训练装置，包括：

样本获取模块，用于获取训练语音样本集中的各个训练样本的对数梅尔能量谱，训练语音样本集包括单人说话语音信号和多人说话语音信号，多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号；

训练模块，用于根据训练语音样本集对语音分离模型与语音分类模型进行联合训练，其中，在联合训练过程中，使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入。

根据本申请的一方面，提供了一种多说话人场景识别装置，包括：

语音信号获取模块，用于获取待处理语音信号的对数梅尔能量谱；

输入模块，用于将待处理语音信号的对数梅尔能量谱输入语音分离模型，以及将语音分离模型输出的频带点系数输入语音分类模型；

分类结果获取模块，用于获取语音分类模型输出的语音分类结果，语音分类结果包括单人说话或者多人说话。

根据本申请的一方面，提供了一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行上述多说话人场景识别网络训练方法的步骤，或者，执行上述多说话人场景识别方法的步骤。

根据本申请的一方面，提供了一种芯片，包括：处理器，用于从存储器中调用并运行计算机程序，使得该处理器执行上述多说话人场景识别网络训练方法的步骤，或者，执行上述多说话人场景识别方法的步骤。

根据本申请的一方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行上述多说话人场景识别网络训练方法的步骤，或者，执行上述多说话人场景识别方法的步骤。

基于上述技术方案，在语音分离模型与语音分类模型联合训练过程中，使用训练样本的对数梅尔能量谱作为语音分离模型的输入，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入，保证了多说话人场景判断的连续性，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入来降低多说话人场景判断延迟，并能够提升多说话人场景识别的准确性。

本申请实施例的其他特性和优点将通过下面的详细描述变得显然，或者部分通过本申请的实践而习得。

应理解，以上的一般描述和后文的细节描述仅是示例性的，并不对本申请构成限定。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本申请的一个实施例中提供的多说话人场景识别方法以及多说话人场景识别网络训练方法的应用场景图；

图2示意性示出了根据本申请的一实施例的多说话人场景识别网络训练方法的流程图；

图3示意性示出了根据本申请的一实施例的语音分离模型和语音分类模型联合训练的框架图；

图4示意性示出了根据本申请的一实施例的多说话人场景识别方法的流程图；

图5示意性示出了根据本申请的一实施例的多说话人场景识别网络训练装置的框图；

图6示意性示出了根据本申请的一实施例的多说话人场景识别装置的框图；

图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本申请的描述将更加全面的完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略特定细节中的一个或更多，或者可以采用其他的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络、处理器装置或者微控制装置中现实这些功能实体。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请可以基于人工智能技术进行多说话人场景识别以及多说话人场景识别网络训练。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，也即使机器具有学习能力。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门科学。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络(如卷积神经网络)、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

人工智能结合云服务，也可以实现人工智能云服务，一般也被称作是AI即服务(AIas a Service，AIaaS)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过应用程序接口(ApplicationProgramming Interface，API)接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

图1为一个实施例中提供的多说话人场景识别方法以及多说话人场景识别网络训练方法的应用场景图，如图1所示，在该应用场景中，包括终端110和服务器120。

在一些实现方式中，可以通过服务器120对语音分离模型和语音分类模型进行联合训练。服务器120获取到训练好的语音分离模型和语音分类模型后，可以将其部署在多说话人场景识别应用中，终端110可以安装该多说话人场景识别应用，当终端110获取得到语音信号之后，用户可以通过相应的操作发出多说话人场景识别指令，终端110可以接收多说话人场景识别指令，将获取的语音信号作为待处理语音信号进行多说话人场景识别，得到语音分类结果(单人说话或多人说话)。

上述多说话人场景识别应用可以是语音助手类应用程序，该语音助手类应用程序还可以具有数据记录、音视频播放、翻译、数据查询等功能。

在另一些实现方式中，可以通过终端110对语音分离模型和语音分类模型进行联合训练。当终端110获取得到语音信号之后，用户可以通过相应的操作发出多说话人场景识别指令，终端110可以接收多说话人场景识别指令，将获取的语音信号作为待处理语音信号进行多说话人场景识别，得到语音分类结果(单人说话或多人说话)。

可以理解，上述应用场景仅是一个示例，并不能构成对本申请实施例提供的多说话人场景识别方法以及多说话人场景识别网络训练方法的限制。例如，训练好的语音分离模型和语音分类模型可以存储在服务器120中，服务器120可以接收终端110发送的待处理语音信号，对待处理语音信号进行多说话人场景识别得到语音分类结果(单人说话或多人说话)后返回到终端110中。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、以及智能手表等，但并不局限于此。终端110和服务器120可以通过有线或者无线通信方式进行直接或间接地连接，本申请对此并不限定。

为便于更好的理解本申请实施例，对本申请相关的语音分类和语音分离进行说明。

基于语音分类进行多说话人场景判断，语音分类也可以称之为声学场景分类(Acoustic Scene Classification)。首先根据大量带标注(单人讲话或多人说话)的语音片断训练一个多说话场景分类的识别系统，然后测试时，给定一个语音片断，系统预测是否是多说话人或单说话人场景。这类方法的优点就是系统构建直接，任务明确，但是一个很大的缺点是：在构建训练集合的时候，将两个单人说话相加成多人说话，并不能保证每一个时间段的语音都是重合的，导致训练语料不纯净而致最终的判决结果不精确。另一方面，由于输也是一个语音片断，不能对语音进行实时处理，而在实时通信过程当中，语音是实时按帧流进入的，如果不能实时处理，会导致回声消除，主讲人说话提取算法的延迟，延迟的时间取决于语音分类的语音片断时长。

基于语音分离进行多说话人场景判断，语音分离的任务是基于频域每个频带点系数的方式，某一个说话人声在某一个时间点占据的比重与混合信号中预测的频带点系数大小是成正比的。以两人(A和B)说话为例，理论情况下，如果预测频带点系数是0或1，表明只有某一种人(A或B)在说话，如果预测频带点系数是0.5，则表明两个人都同时在说话。这类方法的优点就是实时按帧很短的时间内对多说话人场景进行判断。缺点就是在多说话场景的片断，虽然某个整体片断是说话人声重叠，但是其中很短的时间内也许只有一个人说话的声音，导致频繁的切换不同算法，给终端处理器带来了负担。

为了尽可能的保证低延迟，同时保证判断结果连续性，本申请提出了语音分离模型与语音分类模型联合训练的方案，保证了多说话人场景判断的连续性，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入来降低多说话人场景判断延迟，并能够提升多说话人场景识别的准确性。

下面对本申请实施例的具体实施过程进行详细的描述。

图2示出了根据本申请的一个实施例的多说话人场景识别网络训练方法200的示意性流程图，该多说话人场景识别网络训练方法200可以由具有计算处理能力的设备来执行，例如，上述终端110或服务器120。参照图2所示，该多说话人场景识别网络训练方法200至少可以包括S210至S240，详细介绍如下：

在S210中，获取训练语音样本集中的各个训练样本的对数梅尔能量谱，训练语音样本集包括单人说话语音信号和多人说话语音信号，多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号。

具体地，首先获取两个语料库，分别为由单人说话语音信号组成的单人说话语料库和由多人说话语音信号组成的多人说话语料库。其中，多人说话语音信号是由随机抽取的多个单人干净语音信号叠加后得到的语音信号。此外，多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号。可以将两个语料库中的部分或者全部语音信号作为训练语音样本集中的训练样本。训练语音样本集中包括多个训练样本，训练样本的数量可以根据需求设置。例如，若模型训练时需要训练30次，每次利用1万个训练样本进行训练，则训练语音样本集中可以包括1万个训练样本，每次模型训练时利用这1万个训练样本进行训练。

在一些实施例中，训练语音样本集中包括的单人说话语音信号的数量与训练语音样本集中包括的多人说话语音信号的数量的差值的绝对值小于第一阈值。也即，在训练语音样本集中，单人说话语音信号的数量与多人说话语音信号的数量相等或近似相等。从而提升训练可靠性。

在一些实施例中，对语音信号进行分帧，预加重，加窗，傅里叶变换，经过梅尔滤波器组，再对其取对数操作，得到语音信号的对数梅尔能量谱。

基于如下公式1对语音信号进行分帧，得到分帧后时域信号；

s_i ^*(n)＝s_i(n)-α*s_i(n-1) 公式1

其中，s_i(n)表示语音信号i，n表示采样点，s_i ^*(n)表示分帧后时域信号，α表示平滑系数。

基于如下公式2对分帧后时域信号加窗，得到加窗后时域信号；

其中，s_i ^*(n)表示分帧后时域信号，s_i,h ^*(n)表示加窗后时域信号，β表示加窗系数，0≤β≤1，N表示窗长。

基于如下公式3对加窗后时域信号进行傅里叶变换，得到短时傅里叶频域信号；

其中，s_i,h ^*(n)表示加窗后时域信号，W_i(m)表示短时傅里叶频域信号m，N表示窗长，M表示频带点数量。

基于如下公式4对短时傅里叶频域信号进行滤波，得到短时能量谱；

其中，W_i(m)表示短时傅里叶频域信号m，P_i(m)表示短时能量谱，N表示窗长。

基于如下公式5对短时能量谱取对数操作，得到对数梅尔能量谱；

F_i(m)＝log{P_i(m)} 公式5

其中，P_i(m)表示短时能量谱，F_i(m)表示对数梅尔能量谱。

具体地，基于上述公式1至公式5获取训练语音样本集中的各个训练样本的对数梅尔能量谱。

在S220中，根据训练语音样本集对语音分离模型与语音分类模型进行联合训练，其中，在联合训练过程中，使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入。

具体地，语音分离模型可以包括双向长短期记忆网络(BLSTM)模型，或者，可以包括长短期记忆网络(LSTM)模型，或者可以包括循环神经网络(RNN)模型，或者可以包括卷积神经网络(CNN)模型，当然，语音分离模型也可以是其他语音分离的网络模型，本申请对此并不限定。语音分类模型可以包括双向长短期记忆网络(BLSTM)模型，或者，可以包括长短期记忆网络(LSTM)模型，或者可以包括循环神经网络(RNN)模型，或者可以包括卷积神经网络(CNN)模型，当然，语音分类模型也可以是其他语音分类的网络模型，本申请对此并不限定。

模型训练的目标是得到更好的模型参数，以提高多说话人场景识别的效果。在联合训练过程中，使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入，保证了多说话人场景判断的连续性，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入来降低多说话人场景判断延迟。

在一些实施例中，语音分离模型输出的频带点系数可以是连续的值，也即，语音分类模型的输入不是语音片段，而是连续的频带点系数。语音分类模型输出一个离散的二值，0或1，0标注单人说话，1标注多人说话。

在一些实施例中，在训练样本为单人说话语音信号的情况下，语音分离模型训练的目标频带点系数为1，以及语音分类模型训练的目标类型为单人说话对应的类别标注。

在一些实施例中，在训练样本为单人说话语音信号的情况下，上述S220具体可以是：

根据单人说话语音信号在时间t和频带f的对数梅尔能量谱和语音分离模型在时间t和频带f预测的频带点系数，调整语音分离模型的参数；

根据语音分类模型预测的单人说话的概率，调整语音分类模型的参数。

具体地，在训练样本为单人说话语音信号的情况下，可以根据单人说话语音信号在时间t和频带f的对数梅尔能量谱和语音分离模型在时间t和频带f预测的频带点系数，确定语音分离模型的损失函数L₁，以及对语音分离模型的损失函数L₁进行最小化处理，以调整语音分离模型的参数。

例如，语音分离模型的损失函数L₁可以如公式6所示。

其中，S(t,f)表示单人说话语音信号在时间t和频带f的对数梅尔能量谱，λ^* _f表示语音分离模型在时间t和频带f预测的频带点系数。

具体地，在训练样本为单人说话语音信号的情况下，可以根据语音分类模型预测的单人说话的概率，确定语音分类模型的损失函数L'₁，以及对语音分类模型的损失函数L'₁进行最小化处理，以调整语音分类模型的参数。

例如，语音分类模型的损失函数L'₁可以如公式7所示。

其中，N表示训练语音样本集中包括的单人说话语音信号的数量，y_i表示单人说话语音信号i，p(y_i)表示语音分类模型预测的单人说话的概率，

表示单人说话对应的类别标注0。

对联合训练中的单人说话损失函数L_单人进行最小化处理，以调整语音分离模型和语音分类模型的参数；其中，单人说话损失函数L_单人可以如公式8所示。

其中，S(t,f)表示单人说话语音信号在时间t和频带f的对数梅尔能量谱，λ^* _f表示语音分离模型在时间t和频带f预测的频带点系数，N表示训练语音样本集中包括的单人说话语音信号的数量，y_i表示单人说话语音信号i，p(y_i)表示语音分类模型预测的单人说话的概率，

表示单人说话对应的类别标注0。

在一些实施例中，在多人说话语音信号为双人说话语音信号，且训练样本为双人说话语音信号的情况下，语音分离模型训练的各个说话人的目标频带点系数为0.5，以及语音分类模型训练的目标类型为多人说话对应的类别标注。

在一些实施例中，说话人1的目标频带点系数可以如公式9所示，说话人2的目标频带点系数可以如公式10所示。

其中，λ_1,f表示说话人1在时间t和频带f的目标频带点系数，λ_2,f表示说话人2在时间t和频带f的目标频带点系数，S_mix(t,f)表示双人说话语音信号在时间t和频带f的对数梅尔能量谱，S_1,c(t,f)表示说话人1的干净语音信号在时间t和频带f的对数梅尔能量谱，S_2,c(t,f)表示说话人2的干净语音信号在时间t和频带f的对数梅尔能量谱。

在一些实施例中，在多人说话语音信号为双人说话语音信号，且训练样本为双人说话语音信号的情况下，上述S220具体可以是：

根据各个说话人的干净语音信号在时间t和频带f的对数梅尔能量谱和所述语音分离模型在时间t和频带f预测的各个说话人的频带点系数，调整语音分离模型的参数；

根据语音分类模型预测的多人说话的概率，调整语音分类模型的参数。

具体地，在多人说话语音信号为双人说话语音信号，且训练样本为双人说话语音信号的情况下，可以根据各个说话人的干净语音信号在时间t和频带f的对数梅尔能量谱和所述语音分离模型在时间t和频带f预测的各个说话人的频带点系数，确定语音分离模型的损失函数L₂，以及对语音分离模型的损失函数L₂进行最小化处理，以调整语音分离模型的参数。

例如，语音分离模型的损失函数L₂可以如公式11所示。

其中，S_1,c(t,f)表示说话人1的干净语音信号在时间t和频带f的对数梅尔能量谱，λ^* _1,f表示语音分离模型在时间t和频带f预测的说话人1的频带点系数，S_2,c(t,f)表示说话人2的干净语音信号在时间t和频带f的对数梅尔能量谱，λ^* _2,f表示语音分离模型在时间t和频带f预测的说话人2的频带点系数，S_mix(t,f)表示双人说话语音信号在时间t和频带f的对数梅尔能量谱。

具体地，在多人说话语音信号为双人说话语音信号，且训练样本为双人说话语音信号的情况下，可以根据语音分类模型预测的多人说话的概率，确定语音分类模型的损失函数L'₂，以及对语音分类模型的损失函数L'₂进行最小化处理，以调整语音分类模型的参数。

例如，语音分类模型的损失函数L'₂可以如公式12所示。

其中，N表示训练语音样本集中包括的双人说话语音信号的数量，y_i表示双人说话语音信号i，p(y_i)表示语音分类模型预测的多人说话的概率，

表示多人说话对应的类别标注1。

对联合训练中的双人说话损失函数L_双人进行最小化处理，以调整语音分离模型和语音分类模型的参数；其中，双人说话损失函数L_双人可以如公式13所示。

其中，S_1,c(t,f)表示说话人1的干净语音信号在时间t和频带f的对数梅尔能量谱，λ^* _1,f表示语音分离模型在时间t和频带f预测的说话人1的频带点系数，S_2,c(t,f)表示说话人2的干净语音信号在时间t和频带f的对数梅尔能量谱，λ^* _2,f表示语音分离模型在时间t和频带f预测的说话人2的频带点系数，S_mix(t,f)表示双人说话语音信号在时间t和频带f的对数梅尔能量谱，N表示训练语音样本集中包括的双人说话语音信号的数量，y_i表示双人说话语音信号i，p(y_i)表示语音分类模型预测的多人说话的概率，

表示多人说话对应的类别标注1。

在一些实施例中，语音分离模型与语音分类模型多任务联合训练的框架可以如图3所示。

图4示出了根据本申请的一个实施例的多说话人场景识别方法300的示意性流程图，该多说话人场景识别方法300可以由具有计算处理能力的设备来执行，例如，上述图1中的终端110或服务器120。参照图4所示，该多说话人场景识别方法300至少可以包括S310至S330，详细介绍如下：

在S310中，获取待处理语音信号的对数梅尔能量谱。

具体地，待处理语音信号是指需要进行多说话人场景识别的语音信号。待处理语音信号可以是根据多说话人场景识别指令获取的。多说话人场景识别指令可以携带待处理语音信号以及待处理语音信号对应的标识中的一个或多个。如果携带待处理语音信号，则从该指令中提取得到待处理语音信号，如果携带的是待处理语音信号对应的标识，则根据待处理语音信号对应的标识获取待处理语音信号。例如，可以获取终端例如手机的麦克风阵列采集的语音信号作为待处理语音信号，也可以接收用户对终端录音库中的语音的选择操作，根据选择操作展示对应的语音信号，并在语音信号上方展示“多说话人场景识别”功能控件，当接收到对“多说话人场景识别”功能控件的点击操作时，则将该语音信号作为待处理语音信号。服务器也可以接收终端发送的多说话人场景识别指令，多说话人场景识别指令中携带待处理语音信号对应的标识，服务器根据待处理语音信号对应的标识获取服务器中存储的待处理语音信号。

待处理语音信号的对数梅尔能量谱可以通过上述公式1至公式5获取。

在S320中，将待处理语音信号的对数梅尔能量谱输入语音分离模型，以及将语音分离模型输出的频带点系数输入语音分类模型。

具体地，语音分离模型与语音分类模型联合训练的方法可以根据上述实施例提供的多说话人场景识别网络训练方法得到，在此不再赘述。

在一些实施例中，语音分离模型输出的频带点系数可以是连续的值，语音分类模型输出一个离散的二值，0或1，0标注单人说话，1标注多人说话。

在S330中，获取语音分类模型输出的语音分类结果，语音分类结果包括单人说话或者多人说话。

在一些实施例中，在获取语音分类模型输出的语音分类结果之后，基于语音分类结果确定是否开启不同的算法(如回声消除、主讲说话人提取等)。

因此，在本申请实施例中，在语音分离模型与语音分类模型联合训练过程中，使用训练样本的对数梅尔能量谱作为语音分离模型的输入，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入，保证了多说话人场景判断的连续性，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入来降低多说话人场景判断延迟，并能够提升多说话人场景识别的准确性。

上文结合图2至图4，详细描述了本申请的方法实施例，下文结合图5至图6，详细描述本申请的装置实施例，应理解，装置实施例与方法实施例相互对应，类似的描述可以参照方法实施例。

图5示意性示出了根据本申请的一实施例的多说话人场景识别网络训练装置的框图。该多说话人场景识别网络训练装置可以采用软件单元或硬件单元，或者是二者的结合成为计算机设备的一部分。如图5所示，本申请实施例提供的多说话人场景识别网络训练装置400具体可以包括：

样本获取模块410，用于获取训练语音样本集中的各个训练样本的对数梅尔能量谱，训练语音样本集包括单人说话语音信号和多人说话语音信号，多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号；

训练模块420，用于根据训练语音样本集对语音分离模型与语音分类模型进行联合训练，其中，在联合训练过程中，使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入，以及使用语音分离模型输出的频带点系数作为语音分类模型的输入。

在一个实施例中，在训练样本为单人说话语音信号的情况下，语音分离模型训练的目标频带点系数为1，以及语音分类模型训练的目标类型为单人说话对应的类别标注。

在一个实施例中，在训练样本为单人说话语音信号的情况下，训练模块420具体用于：

根据单人说话语音信号在时间t和频带f的对数梅尔能量谱和所述语音分离模型在时间t和频带f预测的频带点系数，调整语音分离模型的参数；

对联合训练中的单人说话损失函数L_单人进行最小化处理，以调整语音分离模型和语音分类模型的参数；其中，

表示单人说话对应的类别标注0。

在一个实施例中，在多人说话语音信号为双人说话语音信号，且训练样本为双人说话语音信号的情况下，语音分离模型训练的各个说话人的目标频带点系数为0.5，以及语音分类模型训练的目标类型为多人说话对应的类别标注。

在一个实施例中，在多人说话语音信号为双人说话语音信号，且训练样本为双人说话语音信号的情况下，训练模块420具体用于：

根据各个说话人的干净语音信号在时间t和频带f的对数梅尔能量谱和语音分离模型在时间t和频带f预测的各个说话人的频带点系数，调整语音分离模型的参数；

对联合训练中的双人说话损失函数L_双人进行最小化处理，以调整语音分离模型和语音分类模型的参数；其中，

表示多人说话对应的类别标注1。

在一个实施例中，训练语音样本集中包括的单人说话语音信号的数量与训练语音样本集中包括的多人说话语音信号的数量的差值的绝对值小于第一阈值。

本申请实施例提供的多说话人场景识别网络训练装置中的各个模块的具体实现可以参照上述多说话人场景识别网络训练方法中的内容，在此不再赘述。

图6示意性示出了根据本申请的一实施例的多说话人场景识别装置的框图。该多说话人场景识别装置可以采用软件单元或硬件单元，或者是二者的结合成为计算机设备的一部分。如图6所示，本申请实施例提供的多说话人场景识别装置500具体可以包括：

语音信号获取模块510，用于获取待处理语音信号的对数梅尔能量谱；

输入模块520，用于将待处理语音信号的对数梅尔能量谱输入语音分离模型，以及将语音分离模型输出的频带点系数输入语音分类模型；

分类结果获取模块530，用于获取语音分类模型输出的语音分类结果，语音分类结果包括单人说话或者多人说话。

本申请实施例提供的多说话人场景识别装置中的各个模块的具体实现可以参照上述多说话人场景识别方法中的内容，在此不再赘述。

上述多说话人场景识别网络训练装置或多说话人场景识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各个模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个模块对于的操作。

图7示出了实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图7示出的电子设备的计算机系统600仅是一个示例，不应该对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统600包括中央处理单元(Central Processing Unit，CPU)601，其可以根据存储在只读存储器(Read-Only Memory，ROM)602中的程序或者从存储部分608加载到随机访问存储器(Random Access Memory，RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(Input/Output，I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如局域网(Local AreaNetwork，LAN)卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读取的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行上述流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理器(CPU)601执行时，执行本申请的装置中限定的各种功能。

在一个实施例中，还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述各方法实施例中的步骤。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所述的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或者器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或者多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁盘存储器件、或者上述任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或者存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或者上述的任何合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何恰当的介质传输，包括但不限于：无线、电线、光缆、射频等等，或者上述的任意合适的组合。

本实施例仅用于说明本申请，本实施例的软硬件平台架构、开发环境、开发语言、消息获取源头等的选取都是可以变化的，在本申请技术方案的基础上，凡根据本申请原理对某个部分进行的改进和等同变换，均不应排除在本申请的保护范围之外。

需要说明的是，在本申请实施例和所附权利要求书中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。

所属领域的技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请提供的几个实施例中，应该理解到，所揭露的电子设备、装置和方法，可以通过其它的方式实现。

例如，以上所描述的装置实施例中单元或模块或组件的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或模块或组件可以结合或者可以集成到另一个系统，或一些单元或模块或组件可以忽略，或不执行。

又例如，上述作为分离/显示部件说明的单元/模块/组件可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元/模块/组件来实现本申请实施例的目的。

最后，需要说明的是，上文中显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上内容，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种多说话人场景识别网络训练方法，其特征在于，包括：

获取训练语音样本集中的各个训练样本的对数梅尔能量谱，所述训练语音样本集包括单人说话语音信号和多人说话语音信号，所述多人说话语音信号标注有用于叠加生成所述多人说话语音信号的单人干净语音信号；

根据所述训练语音样本集对语音分离模型与语音分类模型进行联合训练，其中，在联合训练过程中，使用所述训练语音样本集中训练样本的对数梅尔能量谱作为所述语音分离模型的输入，以及使用所述语音分离模型输出的频带点系数作为所述语音分类模型的输入。

2.根据权利要求1所述的方法，其特征在于，在训练样本为单人说话语音信号的情况下，所述语音分离模型训练的目标频带点系数为1，以及所述语音分类模型训练的目标类型为单人说话对应的类别标注。

3.根据权利要求2所述的方法，其特征在于，所述根据所述训练语音样本集对语音分离模型与语音分类模型进行联合训练，包括：

根据单人说话语音信号在时间t和频带f的对数梅尔能量谱和所述语音分离模型在时间t和频带f预测的频带点系数，调整所述语音分离模型的参数；

根据所述语音分类模型预测的单人说话的概率，调整所述语音分类模型的参数。

4.根据权利要求2所述的方法，其特征在于，所述根据所述训练语音样本集对语音分离模型与语音分类模型进行联合训练，包括：

对联合训练中的单人说话损失函数L_单人进行最小化处理，以调整所述语音分离模型和所述语音分类模型的参数；其中，

其中，S(t,f)表示单人说话语音信号在时间t和频带f的对数梅尔能量谱，λ^* _f表示所述语音分离模型在时间t和频带f预测的频带点系数，N表示所述训练语音样本集中包括的单人说话语音信号的数量，y_i表示单人说话语音信号i，p(y_i)表示所述语音分类模型预测的单人说话的概率，

表示单人说话对应的类别标注0。

5.根据权利要求1所述的方法，其特征在于，在所述多人说话语音信号为双人说话语音信号，且训练样本为双人说话语音信号的情况下，所述语音分离模型训练的各个说话人的目标频带点系数为0.5，以及所述语音分类模型训练的目标类型为多人说话对应的类别标注。

6.根据权利要求5所述的方法，其特征在于，所述根据所述训练语音样本集对语音分离模型与语音分类模型进行联合训练，包括：

根据各个说话人的干净语音信号在时间t和频带f的对数梅尔能量谱和所述语音分离模型在时间t和频带f预测的各个说话人的频带点系数，调整所述语音分离模型的参数；

根据所述语音分类模型预测的多人说话的概率，调整所述语音分类模型的参数。

7.根据权利要求5所述的方法，其特征在于，所述根据所述训练语音样本集对语音分离模型与语音分类模型进行联合训练，包括：

对联合训练中的双人说话损失函数L_双人进行最小化处理，以调整所述语音分离模型和所述语音分类模型的参数；其中，

其中，S_1,c(t,f)表示说话人1的干净语音信号在时间t和频带f的对数梅尔能量谱，λ^* _1,f表示所述语音分离模型在时间t和频带f预测的说话人1的频带点系数，S_2,c(t,f)表示说话人2的干净语音信号在时间t和频带f的对数梅尔能量谱，λ^* _2,f表示所述语音分离模型在时间t和频带f预测的说话人2的频带点系数，S_mix(t,f)表示双人说话语音信号在时间t和频带f的对数梅尔能量谱，N表示所述训练语音样本集中包括的双人说话语音信号的数量，y_i表示双人说话语音信号i，p(y_i)表示所述语音分类模型预测的多人说话的概率，

表示多人说话对应的类别标注1。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述训练语音样本集中包括的单人说话语音信号的数量与所述训练语音样本集中包括的多人说话语音信号的数量的差值的绝对值小于第一阈值。

9.一种多说话人场景识别方法，其特征在于，应用于如权利要求1至8中任一项所述的方法训练得到的语音分离模型与语音分类模型联合网络，包括：

获取待处理语音信号的对数梅尔能量谱；

将所述待处理语音信号的对数梅尔能量谱输入所述语音分离模型，以及将所述语音分离模型输出的频带点系数输入所述语音分类模型；

获取所述语音分类模型输出的语音分类结果，所述语音分类结果包括单人说话或者多人说话。

10.一种多说话人场景识别网络训练装置，其特征在于，包括：

样本获取模块，用于获取训练语音样本集中的各个训练样本的对数梅尔能量谱，所述训练语音样本集包括单人说话语音信号和多人说话语音信号，所述多人说话语音信号标注有用于叠加生成所述多人说话语音信号的单人干净语音信号；

训练模块，用于根据所述训练语音样本集对语音分离模型与语音分类模型进行联合训练，其中，在联合训练过程中，使用所述训练语音样本集中训练样本的对数梅尔能量谱作为所述语音分离模型的输入，以及使用所述语音分离模型输出的频带点系数作为所述语音分类模型的输入。

11.一种多说话人场景识别装置，其特征在于，包括：

输入模块，用于将所述待处理语音信号的对数梅尔能量谱输入语音分离模型，以及将所述语音分离模型输出的频带点系数输入语音分类模型；

分类结果获取模块，用于获取所述语音分类模型输出的语音分类结果，所述语音分类结果包括单人说话或者多人说话。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任一项所述的方法。

13.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。