CN109313910A

CN109313910A - 用于讲话者无关的多讲话者语音分离的置换不变训练

Info

Publication number: CN109313910A
Application number: CN201780030696.4A
Authority: CN
Inventors: 俞栋
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-05-19
Filing date: 2017-05-06
Publication date: 2019-02-05
Anticipated expiration: 2037-05-06
Also published as: EP3459077A1; US10249305B2; CN109313910B; US20170337924A1; WO2017200782A1; US20190198024A1; EP3459077B1; US11170785B2

Abstract

本文描述的技术改进了使计算设备能够在与讲话者无关的多讲话者场景中进行自动语音识别(“ASR”)的方法。在一些示例中，深度学习模型的置换不变训练可以用于与讲话者无关的多个讲话者场景。在一些示例中，该技术可以确定模型对源信号的估计与源信号之间的置换考虑的分配。在一些示例中，该技术可以包括训练生成估计的模型以最小化置换考虑的分配的偏差。这些技术可以实现为神经网络的结构本身，解决了标签置换问题，标签置换问题阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源追踪以在混合信号的帧中追踪源自相同源的流。

Description

用于讲话者无关的多讲话者语音分离的置换不变训练

背景技术

近年来，由于在最近的ASR系统中利用的深度学习技术，自动语音识别(“ASR”)系统的准确性得到显着改善。2010年，广泛接受的Switchboard会话转录基准任务的单词错误率(WER)超过20％，2016年，由于深度学习的发展，它已降至7％以下。

尽管在指示单个说话者语音方面已经取得了令人印象深刻的进步，但是多讲话者混合语音分离、追踪和识别的ASR的进步(通常被称为鸡尾酒会问题)已经不那么令人印象深刻了。尽管人类听众可以容易地感知声学混合物中的单独源，但是对于自动计算系统来说同样的任务似乎是困难的，尤其是当仅有混合语音的单通道可用时。

当前的解决方案受限于仅用于闭集讲话者，不能随着增加的说话者或词汇量而扩展；只分离高度不同的信号(例如，将音乐与讲话者分开)而不是分离类似信号(诸如多个讲话者)的更困难的任务；依赖于取决于讲话者的模型，这些模型需要在训练时标识讲话者并从讲话者那里收集数据，从而导致有限的词汇、语法和讲话者集合；假设时频区间(bins)仅属于一个扬声器；或者具有不可共同训练的部分，因此限制了系统性能。

发明内容

提供本发明内容是为了介绍与用于讲话者无关的多讲话者语音分离的置换不变训练有关的简化概念。本发明内容不旨在标识所要求保护的户数方案的必要特征，也不旨在用于确定所要求保护的技术方案的范围。

本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行自动语音识别(“ASR”)，这意味着这些技术能够检测混合信号的部分并将其归因于多个讲话者中对该混合信号有贡献的讲话者。无论这些技术之前是否先前已接收过与讲话者有关的数据，无论是在训练中还是在评估的早期。换句话说，这里描述的技术使得ASR能够用于多个讲话者，并且即使在语音重叠时，甚至当讲话者从信号中消失或者先前未遇到的讲话者出现时也是如此。通过本文讨论的技术启用计算设备的场景的示例包括自动会议和讲座转录；音频/视频录制的自动字幕；多方人机交互(例如，在物联网(IoT)世界中)，其中通常观察到语音重叠；等。这对于信号增强技术(诸如，例如，智能助听器可以将特定信号从混合物隔离并增强、削减或以其他方式修改特定信号)、信号检测和增强、现场音频制作等等也很重要。

在一些示例中，本文讨论的技术包括深度学习模型的置换不变训练。这里讨论的技术克服了先前尝试解决标签模糊或标签置换问题的缺点和局限性。例如，先前的尝试通常在每个时间频率上利用在平行组的混合物上训练的深度学习模型及其组成目标源来预测属于目标类的源。这些先前的尝试将讲话者与多个讲话者隔离的方式受到严重限制，因为他们依赖于讲话者相关的模型，假设在训练时间期间讲话者是已知的，这导致在评估时间闭集目标说话者并且通常仅对有限的词汇和语法起作用。先前的尝试也基于信号的瞬时能量来分配标签，这是有问题的，因为如果讲话者移动到不同的位置，如果讲话者面向的方向改变，或者如果讲话者讲话更大声或更温和，则讲话者的瞬时能量可以改变。

本文所讨论的技术采用用于语音分离的深度学习模型的置换不变训练(“PIT”，也是在上下文中训练的置换不变性)，其用于多个讲话者信号中的独立讲话者。与其中第一生成信号估计被视为可归因于第一信号源的将语音分离视为多级回归、分段或聚类问题的先前解决方案不同，本文所讨论的技术优化了分离回归误差(即偏差)的深度学习模型，忽略混合源的顺序。换句话说，对适当信号源的神经网络的给定输出可以变化，意味着在神经网络的输出和适当的信号源之间可能存在许多可能匹配的置换(即，S！可能的置换，其中S是信号源的数目)。具体地，这里讨论的技术可以首先确定最佳输出-目标分配，并且然后最小化最佳输出-目标分配的偏差(例如，误差)(其中“输出”是指深度学习模型的输出，以用于试图隔离特定“目标”源的特定源信号)。这些技术可以在神经网络的结构本身内实现，解决了标签置换问题，阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源(例如，讲话者、噪声)追踪，其与本文讨论的PIT深度学习模型一起工作，以通过混合信号的多个帧来追踪源自相同源的流。换句话说，这里讨论的技术可以补偿训练标签中的置换。

这里讨论的技术提高了计算设备从混合信号(诸如，例如来自多个相等或接近相等的语音信号的语音信号)中分离信号的能力。这些技术改善了用于分离语音的深度学习模型的性能，包括提高独立讲话者和多讲话者场景的深度学习模型的准确性，减少计算时间，以及为包括两个或更多信号源的场景提供可扩展性。这些技术还通过提高ASR的准确性来改善人机交互，这使得计算设备能够将人类可理解的语音转换成机器可读或机器可执行的指令或信号。

附图说明

参考附图描述了详细描述。在附图中，附图标记的最左边的数字标识首次出现附图标记的图。不同图中的相同附图标记表示相似或相同的项。

图1是描绘示例设备的框图，其中用于讲话者无关的多讲话者场景的深度学习模型的置换不变训练(“PIT”)的示例可以操作。

图2A和图2B是描绘用于与讲话者无关的多讲话者场景的深度学习模型的PIT的示例系统和过程的框图。

图3A和图3B描绘了具有1的帧移位的双源情况的分配顺序。

图4A和图4B是示出了进行神经网络的PIT的示例过程的流程图。

图5是示出了进行神经网络的PIT的示例过程的流程图。

图6是示出了进行神经网络的PIT的示例过程的流程图。

图7是示出了进行神经网络的PIT的示例过程的流程图。

图8是示出了进行PIT语音分离的示例过程的流程图。

具体实施方式

概述

在一些示例中，本公开可以使计算设备能够针对与讲话者无关的多讲话者场景进行深度学习模型的置换不变训练(“PIT”)。在一些示例中，这里讨论的技术提高了从混合信号(诸如，例如来自多个相等或接近相等的语音信号的语音信号)中分离信号的计算设备的能力，与从不同类型的音频信号(例如，从音乐分离语音，从机械噪声分离语音，从一般背景噪声分离语音)或从非常不同的语音(例如，从高语音寄存器内的语音分离深语音寄存器内的语音)分离语音信号相比，这些语音信号更难分离。在一些示例中，本文讨论的技术可以改善用于分离语音的深度学习模型的性能，包括提高针对独立讲话者和多讲话者场景的深度学习模型的准确性，减少计算时间，以及为包括两个信号源的场景提供可伸缩性。在一些示例中，本文所讨论的技术还通过提高自动语音识别(“ASR”)的准确性来改善人机交互，这使得计算设备能够将人类可理解的信号转换为机器可读或机器可执行指令和/或信号。这里讨论的技术还允许ASR继续前进，克服由先前解决方案产生的不准确的训练数据引起的ASR进展的停止，该解决方案抑制了对神经网络的进一步训练。

在一些示例中，本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行ASR，这意味着这些技术能够从多个讲话者中检测混合信号的部分并将其归因于多个讲话者中对混合信号有贡献的讲话者，无论这些技术之前是否曾接收过与讲话者相关的数据，无论是在训练中还是在评估的早期。换句话说，这里描述的技术使得ASR能够用于多个讲话者，即使在语音重叠时，甚至当讲话者从信号中消失或者先前未遇到的讲话者出现时也是如此。通过本文讨论的技术启用计算设备的场景的示例包括自动会议和讲座转录；音频/视频录制的自动字幕；多方人机交互(例如，在物联网(IoT)世界中)，其中通常观察到语音重叠；等。这对于信号增强技术(诸如，例如，智能助听器可以将特定信号从混合物隔离并增强、削减或以其他方式修改特定信号)、信号检测和增强、现场音频制作等等也很重要。

本文讨论的技术克服了先前对解决方案的尝试的缺点和限制。例如，先前的尝试通常在每个时频区间上利用在平行组的混合物上训练的深度学习模型及其组成目标源来预测属于目标类的源。将讲话者与多个讲话者隔离的这些先前的尝试受到严重限制，因为它们依赖于讲话者相关的模型，假设在训练时间期间讲话者是已知的，这导致在评估时间闭集目标说话者并且通常仅对有限的词汇和语法起作用，或者因为它们基于帧的瞬时能量将标签分配给帧，但当以前第二信号有更大的能量，如果与第一源相关联的一个信号的能量变得大于与第二源相关联的第二信号的能量，则这可能导致错误标识源。

与讲话者无关的多讲话者语音分离的一个困难源于标签模糊问题(或等效地称为置换问题)。简而言之，即使深度学习模型具有分离信号的能力，也没有有效的方法在训练时间期间向相应的输出层提供适当的标签(例如，监督信号)。先前解决方案将特定模型输出视为仅与特定源有关，而实际上，与不同源有关的信号可以淡入和淡出不同的输出。换句话说，这些先前解决方案将来自解决方案系统的第一信号估计输出视为可归因于第一信号源，即使在某些情况下可能不是这样，因此阻碍了神经网络可以被训练的深度。

寻求解决该问题的先前技术仅使用一个信息源(例如，瞬时能量)，与解码器紧密耦合，不容易扩展到超过两个讲话者，假设特定时频区间仅属于一个扬声器(这是图像识别的精细近似，其中图像的某些部分可能仅归因于一个对象，但在ASR中这种近似非常粗糙)，并且先前解决方案的不同分类部分不能共同训练，妨碍了系统的性能。

在一些示例中，这里讨论的技术采用用于语音分离的深度学习模型的置换不变训练(“PIT”，也是在一些句法上下文中训练的置换不变)，其用于多个讲话者信号中的独立讲话者。与以前将语音分离视为多类回归、分割或聚类问题的解决方案不同，在一些示例中，本文讨论的技术优化了分离回归误差(即偏差)的深度学习模型，忽略了混合源的顺序。换句话说，对适当信号源的神经网络的给定输出可以变化，意味着在神经网络的输出和适当的信号源之间可能存在许多可能匹配的置换(即，S！可能的置换，其中S是信号源的数目)。

在一些示例中，这里讨论的技术可以首先确定最佳输出-目标分配，并且然后最小化最佳输出-目标分配的偏差(例如，误差)(其中“输出”是指深度学习模型的输出，以用于试图隔离特定“目标”源的特定源信号)。这些技术可以在神经网络的结构本身内实现，解决了标签置换问题，阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源(例如，讲话者、噪声)追踪，其与本文讨论的PIT深度学习模型一起工作，以通过混合信号的多个帧来追踪源自相同源的流。因此，这些技术提供了置换不变训练，因为它们考虑并补偿哪个信号源的变化适当地归因于哪个神经网络的输出。

实验结果表明，本文讨论的PIT深度学习模型(本文中的“PIT模型”)即使在其中相同的能量语音混合在一起的丹麦语料库的困难设置中，对训练模型中的模型(即，模型是“讲话者无关的”)看不到的讲话者表现得非常好。此外，实验结果表明，丹麦语训练的PIT模型可以有效地分离和追踪英语语音源。在训练器件，类似于人类，PIT模型学习了声学线索以用于源分离，声学线索既是讲话者也是语言独立的。

一般术语“深度学习模型”、“模型”和“神经网络”在本文中可互换使用。“PIT模型”是指是如本文所述的置换不变训练模型。此外，尽管该描述使用术语“深度学习模型”、“模型”和“神经网络”，但是可以预期本文讨论的技术可以用于深度学习模型、生成模型、分类器和/或任何其他适当的机器学习技术。

语音分离问题的详细描述

尽管PIT深度学习模型也适用于多声道语音，但更难以解决的问题是单声道语音分离，并且因此本文的讨论涉及单声道语音分离。本领域技术人员将理解，这里讨论的技术可以同样地应用于多声道语音。

单声道语音分离的目标是估计混合在一起并在单声道信号中重叠的各个源信号。将S源信号序列在时域中表示为x_s(t)，s＝1，…，S并将混合信号序列在时域中表示为对于每个时间t和频率f，这些信号的相应的短时傅里叶变换(STFT)分别是X_s(t，f)和给定Y(t，f)，单声道语音分离的目标是恢复每个源X_s(t，f)(在本文中等效地称为源信号)。在实际应用场景中，在一些示例中，恢复前两个或三个高能源信号就足够了。在一些示例中，可以恢复更多的源信号。在一些示例中，如在音频工程应用中，可以恢复所有源信号。在一些示例中，恢复前两个或三个源信号可能是足够的，因为剩余的源可归因于噪声。在许多情况下，噪声是低能量的，因此，在某些情况下，可以使用能量或功率阈值来确定要恢复的信号量和数量。

在一些示例中，当相位信息可用时，可以在复合谱域中执行PIT模型的信号恢复。在一些示例中，PIT模型的信号恢复可以在信号频谱的幅度上执行，这意味着PIT模型可以在幅度数据(例如，功率、能量、幅度)上操作，没有相位数据并且不需要恢复相位数据。因此，PIT模型可以在更短的时间内执行信号恢复，具有更少的处理负担，具有更少的硬件要求，和/或具有比现有解决方案更少的系统组件。

在一些示例中，在没有获得或不可获得相位信息的情况下，混合频谱的幅度|Y(t，f)|不能提供足够的信息来恢复源信号|X_s(t，f)|(这里简称为源信号或真源信号当在X_s(t，f)和|X_s(t，f)|之间不存在歧义时)，视为有导致相同的混合光谱的|Y(t，f)|无数个可能的|X_s(t，f)|组合。在一些示例中，本文描述的PIT系统可以通过训练包含一对|Y(t，f)|和|X_s(t，f)|的集合来训练深度学习模型，其中深度学习模型寻找和学习规律性(例如，声学线索)。更具体地，在一些示例中，PIT系统可以训练深度学习模型g(·)，使得g(f|Y|)；θ)＝|X_s|，s＝1，…，S，其中θ是模型参数，并且f(|Y|)是|Y|的一些特征表示。为简单和清楚起见，下文的讨论省略并将继续省略时频索引。

在一些示例中，对于所有时频区间(t,f)，PIT模型可以包括和具有约束的深度学习模型，并且，其中是将估计信号从混合信号(例如，在一些示例中的掩码)隔离的函数。在一些示例中，softmax操作可用于满足该约束。在一些示例中，可以使用hardmax操作来满足该约束。在一些示例中，掩码可以用于将|X_s|估计为其中是两个操作数的元素乘积。如这里所提到的，这里称为“输出层”、“估计信号”、“估计源信号”或“信号估计”。术语“输出层”也可以指直接估计的信号|X_s|。

在一些示例中，PIT系统可以优化模型参数θ，以最小化估计的掩码与理想掩码之间的偏差。例如，PIT系统可以最小化均方误差(“MSE”)，诸如：

在一些示例中，PIT系统可以优化模型参数θ，以最小化估计的源信号和真实源信号|X_s|之间的误差，例如，根据：

该示例允许静默区段|X_s|＝0被明确限定，因此掩码估计的准确性不影响那些区段的训练标准。在一些示例中，J_x可以用作训练目标函数。在一些示例中，可以修改J_x以反映诸如例如普通最小二乘法的其他回归估计器。

在一些示例中，PIT系统可以使用源信号和/或估计信号的狄拉克(Dirac)增量表示来追踪和/或重建源信号流。例如，PIT系统可以使用δX_s(t，f)＝X_s(t，f)-X_s(t-m，f-n)相邻帧(或相邻频率区间)的频谱的增量，和/或δ|X_s(t，f)|＝|X_s(t，f)|-|X_s(t-m，f-n)|相邻帧(或相邻频率区间)的频谱幅度的增量，其中m和n分别是在时间和频率上的距离，在一些示例中，可以是0或1。在一些示例中，PIT系统可以估计源信号的增量表示。在PIT系统估计源信号的增量表示的示例中，PIT系统还可以估计源信号X_s的频谱，和/或源信号|X_s|的频谱幅度的估计，如本文所讨论的。在一些示例中，PIT系统可以使用估计的增量信号以及估计的信号来通过最小化重建的增量源信号和原始增量源信号之间的重建误差和/或通过最大化估计的增量信号与源信号相对应的可能性来更精确地追踪和/或重建源流。在一些示例中，可以针对每个元帧进行最小化和/或最大化。在一些示例中，可以每N帧进行最小化和/或最大化，并且可以基于N帧的最小化和/或最大化来进行重建和/或追踪。在一些示例中，增量表示可以扩展到X_s(t，f)或|X_s(t，f)|的任何函数，其通常是线性的。

在一些示例中，估计的源信号可以直接与ASR系统集成。在这种情况下，PIT系统可以优化模型参数θ，以最小化senone(例如，绑定三音素状态)或其他建模单元(诸如三音素、单声道、字素)的后验分布和目标分布之间的交叉熵。

示例设备

图1是描绘示例设备100的选择组件的框图，示例设备100可以表示(多个)分布式计算资源102和/或计算设备104中的一个或多个，或实现本文描述的技术中的一些或全部的其他计算设备。在一些示例中，示例设备100可以包括(多个)分布式计算资源102，其可以经由一个或多个网络106彼此通信和/或与外部设备(诸如计算设备104)通信。在至少一个示例中，(多个)分布式计算资源102可以独立地或并行地实现本文描述的技术。在一些示例中，计算设备104可以实现本文所讨论的技术。这样，(多个)分布式计算资源102和/或计算设备104可以包括PIT系统。

示例设备100可以包括具有可操作地连接到计算机可读介质110的一个或多个处理单元108的计算设备的任何类型。该连接可以经由总线112，在一些示例中，总线112可以包括一个或多个系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线以及各种本地、外围和/或独立总线，或经由另一可操作连接。(多个)处理单元108可以表示例如微处理器，控制器或任何其他合适类型的处理器，以用于处理计算机可执行指令以控制设备的操作以便促进跨通道通信。在使用片上系统架构的一些示例中，(多个)处理单元108可以包括一个或多个固定功能块(也称为加速器)，其通过在硬件(而不是软件或固件)中使用PIT系统来实现该方法的一部分。

示例设备100可以包括但不限于台式计算机、服务器计算机、网络服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、汽车计算机、支持网络的电视、瘦客户机、终端、个人数据助理(PDA)、游戏机、游戏设备、工作站、媒体播放器、个人视频录像机(PVR)，机顶盒、相机、包含在计算中的集成组件设备、设备和/或任何其他类型的计算设备，诸如一个或多个单独的处理器设备，诸如中央处理单元(“CPU”)-类型处理器(例如，微处理器)，图形处理单元(“GPU”)和/或(多个)加速器设备。

在一些示例中，分布式计算资源102可以包括在集群和/或其他分组配置中操作的一个或多个计算设备，以共享资源、平衡负载、提高性能、提供故障转移支持和/或冗余和/或用于其他目的。尽管示出为台式计算机，但是(多个)分布式计算资源102和/或计算设备104可以包括各种各样的设备类型，并且不限于任何特定类型的设备。例如，(多个)分布式计算资源102可以包括具有一个或多个处理单元的任何类型的计算设备，处理单元可操作地连接到计算机可读介质、I/O接口和/或(多个)网络接口。

在一些示例中，(多个)网络106可以包括诸如因特网的公共网络、诸如机构和/或个人内联网的私有网络、或者私有和公共网络的某种组合。(多个)网络106还可以包括任何类型的有线和/或无线网络，包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、有线网络、Wi-Fi网络、WiMax网络、移动通信网络(例如，3G，4G等)或其任何组合。(多个)网络106可以利用通信协议，包括基于分组和/或基于数据报的协议，诸如因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)和/或其他类型的协议。此外，(多个)网络106还可以包括许多便于网络通信和/或形成网络硬件基础的设备，例如交换机、路由器、网关、接入点、防火墙、基站、中继器、骨干设备等等。

如本文所使用的，计算机可读介质110包括两种类型的计算机可读介质，即计算机存储介质和通信介质。计算机存储介质可包括以用于存储信息(以压缩或未压缩形式)的任何方法或技术实现的易失性和非易失性、非暂时性机器可读、可移动和不可移动介质，诸如计算机(或其他电子设备)可读和/或可执行指令、数据结构、程序模块和/或其他数据，以执行本文描述的过程或方法。计算机存储介质包括但不限于硬盘驱动器、软盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、闪存、磁性和/或或者光学卡、固态存储器设备和/或适合于存储电子指令的其他类型的物理机器可读介质。

相反，通信介质包含计算机可读指令、数据结构，程序模块和/或调制数据信号(例如载波)和/或其他传输机制中的其他数据。如这里所限定的，计算机存储介质不包括通信介质。

在一些示例中，如关于设备100所示，计算机可读介质110可以存储可由(多个)处理单元108和/或(多个)加速器114读取和/或执行的指令。存储在计算机可读介质110上的可执行指令可以包括例如(多个)PIT模型116和/或PIT模型训练模块118以及可以由(多个)处理单元108和/或(多个)加速器114加载和执行的其他模块、程序和/或应用程序(例如，操作系统，固件)。

在一些示例中，(多个)PIT模型116和/或PIT模型训练模块118可以实现为硬件，诸如例如作为集成电路或专门配置的处理器，诸如例如一个或多个加速器114。在一些示例中，一个或多个加速器114可以代替(多个)处理单元108，或者可以通过总线112另外耦合到示例设备100的组件。加速器114可以包括：例如(多个)CPU型处理器114(1)、(多个)GPU 114(2)、(多个)场可编程门阵列(“FPGA”)114(3)、(多个)数字信号处理(“DSP”)-类型加速器114(4)，和/或(多个)其他加速器114(N)。在一些示例中，这里讨论的示例设备100可以配置(多个)第一处理单元108和/或(多个)加速器114以执行PIT训练并将(多个)第二处理单元108和/或(多个)加速器114配置为配置为硬件处理器的PIT模型。在一些示例中，加速器114和/或处理单元108可以访问计算机可读介质110。

(多个)PIT模型116和/或PIT模型训练模块118的计算机可执行指令和/或硬件实现中的一些或全部可以可用于远程设备和/或(多个)分布式计算资源102，可从远程设备和/或(多个)分布式计算资源102访问或存储在远程设备和/或(多个)分布式计算资源102上，其可以被配置为云服务系统。在一些示例中，可以采用任何数目的模块，并且本文描述的由一个或多个模块采用的技术可以由更多或更少数目的模块使用。在一些示例中，示例设备100可以经由网络106存储和/或远程访问(多个)PIT模型116和/或PIT模型训练模块118。

在一些示例中，(多个)PIT模型116可以包括深度神经网络(“DNN”)、卷积神经网络(“CNN”)、长期短期记忆(“LSTM”)递归神经网络(“RNN”)或其他合适的深度学习模型中的一个或多个，深度学习模型具有确定模型的输出的模型参数。在一些示例中，(多个)PIT模型116可以附加地或替代地包括一个或多个生成模型，诸如高斯混合模型(“GMM”)，隐马尔可夫模型(“HMM”)，(Bayes)朴素贝叶斯分类器等。在一些示例中，可以使用任何适当的机器学习。

在所示示例中，计算机可读介质110还可以包括数据存储器120。在一些示例中，数据存储器120包括数据存储装置，诸如数据库、数据仓库和/或其他类型的结构化或非结构化数据存储。在一些示例中，数据存储器120包括具有一个或多个表、索引、存储过程等的关系数据库以实现数据访问。在一些示例中，数据存储器120可以存储(多个)PIT模型116和/或训练数据，诸如包括源信号的语言语料库，所述源信号可以被添加在一起以创建用于训练(多个)PIT模型的重叠单声道混合信号116。数据存储器120可以存储用于存储在计算机可读介质110中和/或由(多个)处理器108和/或(多个)加速器114执行的过程、应用程序、组件和/或模块的操作的数据。或者，上述数据的一些或者全部可以存储在单独的存储器上，诸如(多个)分布式计算资源102的存储器、(多个)计算设备104的存储器、或CPU类型处理器上的存储器(例如，(多个)微处理器、GPU上的存储器、FPGA类型加速器上的存储器、DSP类型加速器上的存储器和/或另一个加速器上的存储器)。

示例设备100还可以包括(多个)输入/输出(I/O)接口122，以允许设备100与诸如包括外围输入设备(例如，键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备等)的用户输入设备和/或包括外围输出设备的输出设备(例如，显示器、打印机、音频扬声器、触觉输出等)的输入/输出设备通信。在一些示例中，I/O接口122可以允许示例设备与一个或多个麦克风(例如，麦克风阵列)通信以捕获音频信息。PIT模型训练模块118可以使用该捕获的音频信息来进行所接收的音频信息的波束成形(即，空间滤波)。该经空间滤波的音频数据可用于得到用作训练数据的“真实源信号”。

示例设备100还可以包括(多个)网络接口124以实现通过网络106的通信。这样的(多个)网络接口114可以包括一个或多个网络接口控制器(NIC)或其他类型的收发器设备以在网络106上发送和接收通信。

示例技术

图2A描绘了用于置换不变训练的示例技术200的第一部分。虽然图2A描绘了双源条件，从下面的讨论中将理解，下面讨论的PIT系统和过程可以缩放以处理两个以上的源而没有禁止的计算处理或时间要求。

在一些示例中，混合信号(即f(|Y|))202的特征表示被提供作为(多个)PIT模型116(例如g(f(|Y|)；θ)＝|X_s|,s＝1,…,S))的输入。在一些示例中，特征表示202包括N个帧(在本文中称为元帧或窗口，其具有N个帧的窗口长度)的特征向量。在一些示例中，帧可以包括数据的离散部分，诸如例如，时频区间、时频索引、离散量的时间(例如，25毫秒、35毫秒)、或者频谱的一部分。在一些示例中，PIT模型116可以为每个源(例如，讲话者、噪声)生成掩码的一帧。例如，图2A示出了用于从混合信号中隔离信号的掩码204(1)和204(2)。在该示例中，帧可以是中心帧。在该示例中，可以将掩码的一帧应用于混合信号的一帧以(例如，通过将混合信号乘以(206)(多个)掩码)将估计的源信号(208(1)和208(2)))，(其中表示单帧示例)从混合信号隔离。在一些示例中，(多个)PIT模型116可以每源生成多个掩码帧，以便得到估计的源信号。在一些示例中，可以使用附加于或替代掩码来将信号与混合信号隔离的技术。在一些示例中，可以使用掩码，因为模型可以学习产生掩码。所选择的其他技术也可以训练，以便从PIT创建的可靠训练数据中受益。

标记模糊度问题的困难在于知道|X₁|，......|X_s|，的哪个个体真实源信号对应于的哪个个体估计的源信号。先前解决方案仅将第一估计的源信号对应于(在时间或处理中)第一真实源信号|X₁(t₁,f₁)|，将第二估计的源信号对应于第二真实源信号|X₂(t₁,f₁)|，并且计算和|X₁(t₁,f₁)|之间以及和|X₂(t₁,f₁)|之间的偏差之和。可以通过最小化这种偏差来训练模型。然而，如果训练集包含许多讲话者所说的许多话语，讲话者具有相似特征和/或类似能量的话语，则该模型生成基本对称的估计并且训练无效。

在其他示例中，可以使用置换不变训练和基于区段的决策来训练模型。在此示例中，真正的源流是作为集合而不是有序列表给出的。换句话说，无论使用哪个顺序列出源，都可以获得相同的训练结果。使用PIT实现此行为。PIT系统动态地将真实源信号与估计的源信号相关联。为了实现这一点，在一些示例中，PIT系统(例如，PIT模型训练模块118和/或(多个)PIT模型116)可以计算(210)真实源信号(214(1)和214(2))|X₁|,......，|X_s|和估计的源信号(208(1)和208(2))之间的成对的偏差度量(212(1))。在一些示例中，PIT系统可以计算每个真实源信号与每个估计的源信号之间的偏差的成对度量(212(1)-(4))。在一些示例中，真实源信号(214(1)和214(2))与估计的源信号(208(1)和208(2))之间的偏差的成对度量可以是成对均方误差(“MSE”)。在一些示例中，其他回归估计器可以另外地或替代地用于MSE，诸如例如，普通最小二乘。在一些示例中，偏差是“成对的”，因为估计的源信号是针对多个帧生成的并且与真实源信号的多个帧进行比较。示例技术200在图2B中继续。

图2B描绘了用于置换不变训练的示例技术200的第二部分。在一些示例中，在PIT系统计算估计的源信号(208(1)和208(2))与真实源信号(214(1)和(214(2))之间的偏差的成对度量之后，PIT系统可以然后确定(216)真实源信号(以及，通过扩展，源信号可归因的源)和估计源之间的可能分配(216(1)和216(2))，并计算(218)针对可能的分配的总偏差(218(1)和218(2))。在一些示例中，这些可能的分配是排他的，意味着只有一个估计的源信号可以分配给一个真正的源信号。在一些示例中，可能的分配的数目将是S！。

例如，对于双源条件，PIT系统可以计算和|X₁|、和|X₂|、和|X₂|、和|X₁|之间的成对偏差(分别为212(1)-212(4))，分别为和对于双讲话者条件，有两种可能的分配(或等效地，“分配顺序”、“标签分配”):(可能的分配216(1))和(可能的分配216(2))。在一些示例中，PIT系统可以计算(218)可能分配的总偏差(218(1)和218(2))。在该示例中，个体估计的源信号和个体真实源信号之间的总偏差将分别为：和针对两个分配个体源信号被分配(取决于分配)给个体真实源信号。本领域技术人员将理解，这可以使用两个以上的信号源进行扩展。

在一些示例中，PIT系统可以识别检测到的多个源S，在这种情况下，可能的分配的数量可以是S！。例如，对于两个源，有两种可能的分配，对于三种源，有六种可能的分配。

在一些示例中，PIT系统比较(220)可能的分配的总偏差(218(1)和218(2))并选择与最小总偏差相关联的可能的分配。在一些示例中，PIT系统使用该选择的可能分配来将个体估计的源信号分配给各个真实源信号(即，分配确定哪个个体估计的源信号被分配给哪个个体真实源信号)。该最小总偏差是最小总偏差222，并且与其相关联的可能分配在本文中称为置换考虑的分配224。在一些示例中，PIT系统可以训练(多个)PIT模型116的模型参数θ，以最小化该最小总偏差222(例如，通过PIT模型训练模块118)。在一些示例中，PIT可以通过使用以下等式来开发训练目标函数来优化模型参数θ，以最小化估计的源信号和真实源信号之间的偏差。

在一些示例中，PIT系统可以使用基于区段的决策制定。换句话说，代替基于诸如中心帧的一个帧做出分配决定，PIT系统可以基于特征表示202的元帧做出决定。在该示例中，(多个)PIT模型116可以使用帧的每个移位的混合信号的特征表示202的N帧(即，元帧，窗口)作为(多个)PIT模型116的输入，以针对每个输入元帧生成语音(即，估计的源信号)的M>1帧的分离的掩码，使得在区段而不是一帧重构语音上进行分配决定。这允许根据上面讨论的技术利用上下文信息进行追踪和更准确的分配。估计分离语音的多个帧的源信号还允许PIT系统在整个混合信号中追踪可归因于某个源的信号。在一些示例中，对于流传输的混合语音信号，元帧窗口可以每次迭代移位一帧。在其他示例中，可以根据准确度和计算时间约束使用其他帧移位速率。在该示例中，针对估计的源信号和真实源信号的M>1帧计算在估计的源信号和真实源信号之间计算的偏差度量。

在一些示例中，可用的唯一信息是诸如在推理期间的混合语音。在一些示例中，可以针对每个输入元帧直接执行语音分离，为此针对每个流估计具有M帧的源信号帧的元帧。注意，“元帧”和“窗口”在本文中可互换使用，并且都指代的帧的离散数目的单元。在一些示例中，输入窗口然后移位一个(或更多)帧。在一些示例中，可以选择移位速率，使得移位窗口与最后窗口重叠至少两帧。在一些示例中，多于两个帧应该重叠以提供进一步的上下文信息。当相邻输入窗口的输出具有重叠帧时，PIT系统可以至少部分地通过最小化重叠帧的整体(在整个话语上)偏差(例如，MSE)来追踪可归因于各个源的信号。在一些示例中，可以训练另一模型(例如，DNN/CNN/LSTM，或甚至诸如GMM或HMM的生成的模型)以将估计的源信号聚类为正确的流。在一些示例中，可以利用增量信号来辅助追踪和/或重建。

在一些示例中，追踪讲话者可以至少部分地基于重叠帧的信号数据之间的MSE。在这些示例中，PIT系统可以在多任务优化框架下优化重建偏差(如上所述)和/或重叠帧的子集(例如，中心)之间的MSE。在一些示例中，真实源信号|X_s|在评估期间可用于PIT系统(例如，从存储器中检索、从通过对由麦克风和/或麦克风阵列捕获的信号进行空间滤波而获得的空间滤波信号获得)并且可以根据PIT系统通过PIT模型116估计考虑的分配。在一些示例中，PIT系统可以使用分配给帧或元帧的置换考虑的分配来追踪源流。在一些示例中，PIT系统可以通过如下来追踪源流：获得针对每个帧或者由帧间隔速率间隔的帧的置换考虑的分配，或者通过获得针对每个元帧或通过元帧间隔率彼此间隔的元帧的置换考虑的分配。在双源示例中，输出1O₁可以分配给真正的源信号1|X₁|，输出2O₂可以分配给真正的源信号2|X₂|以用于第一分配顺序，并且反向用于第二分配顺序。在产生两个以上源信号的一些示例中，可以维持置换考虑的分配表以相应地关联适当的输出和源。

在一些示例中，一旦针对每个元帧确定了输出和源流之间的关系，就可以估计分离的语音，同时考虑到针对所需的分离语音所需的多个元帧的置换考虑的分配(例如，在一些示例中的所有元帧)。例如，可以通过利用根据所考虑的置换考虑的帧的分配来利用归因于该源的所有帧来估计源的分离语音。在一些示例中，这意味着通过平滑一个或多个元帧的帧来估计分离的语音的帧，这取决于针对相应的帧的置换考虑的分配。在一些示例中，可以使用相邻输出元帧的总偏差来确定置换考虑的分配。在一些示例中，可以使用相邻输出元帧的总偏差和估计的源信号的嵌入的相似度得分来确定置换考虑的分配。在一些示例中，在相邻输出元帧之间计算嵌入。在一些示例中，相似度得分可以包括元帧的内容之间的余弦距离。在一些示例中，可以使用其他距离度量来确定相似度得分。

在一些示例中，为了实现这一点，PIT系统可以从对应于相同源的可用元帧中选择中心帧。在一些示例中，因为生成了估计和置换考虑的分配，PIT系统可以直接缝合元帧的输出。由于相同的帧包含在M个元帧中，因此在每次迭代中元帧被移位一帧的示例中，PIT系统可以对元帧进行平均以获得分离的语音。在这些示例中，PIT系统可以至少部分地基于感兴趣的帧到评估感兴趣的帧(即，M个元帧)的每个元帧的中心帧的距离来对平均值进行加权。

图3A描绘了具有两个信号源的示例场景的第一帧分配顺序，其中(多个)PIT模型116产生帧移位为1的估计的源信号(例如，根据以上讨论的任何技术产生帧窗口的估计)。在一些示例中，这些分配可用于缝合元帧的输出。注意，构成估计的源信号的窗口的五个帧被加阴影以表示当帧移位率为1时(多个)PIT模型116的估计迭代之间将重叠的帧。阴影的替代形式表示不同的数据。

图3B描绘了具有两个信号源的示例场景的第二帧分配顺序，其中(多个)PIT模型116根据上述任何技术产生帧移位为1的估计的源信号。在一些示例中，这些分配可用于缝合元帧的输出。第二个框架分配顺序有助于说明先前的解决方案的缺陷。对于时间t和时间t+1，先前的解决方案将输出1标记为对应于源1，即使该标签分配在时间t+1不准确，因为根据本文所讨论的技术时间t+1处的模型的输出1应该被分配给源2。注意，构成估计的源信号的窗口的五个帧被加阴影以表示当帧移位率为1时PIT模型116的估计迭代之间将重叠的帧。阴影的替代形式表示不同的数据。

示例流程

图4A-图8分别示出了示例过程400、500、600、700和800，其可以全部或部分地执行。这些过程可以但不必须由图1的示例设备100和/或在场景200中或在场景200的一部分中执行。

图4A和图4B描绘了进行诸如(多个)PIT模型116的神经网络的PIT的示例性过程400。

在402，根据本文所讨论的任何技术，PIT系统获得混合信号。在一些示例中，PIT系统可以从计算机可读介质110或从远程设备检索混合信号，或者PIT系统可以经由(多个)I/O接口122经由麦克风或其他I/O设备捕获混合信号。

在404，根据本文所讨论的技术中的任何技术，诸如(多个)PIT模型116的神经网络生成源信号估计。

在406，根据本文所讨论的技术中的任何技术，PIT系统标识信号源标签。在一些示例中，这是一个微不足道的步骤。在一些示例中，标签对应于多个估计的源信号。在一些示例中，标识信号源标签可以包括标识多个源信号。在一些示例中，标识信号源标签可以包括标识多个“讲话者”标签和多个“噪声”标签，这两个数字相加地等于估计的源信号的数目。

在408，根据本文所讨论的技术中的任何技术，PIT系统获得训练数据。例如，训练数据可包括空间滤波信号和/或真实的源信号。在一些示例中，PIT系统可以经由(多个)I/O接口112从麦克风阵列或从计算机可读介质110获得空间滤波信号。

在410，根据本文所讨论的技术中的任何技术，PIT系统计算个体估计与训练信号(例如，真实的源信号)之间的偏差。例如，这些偏差可以是估计的信号和真实的信号之间的误差(例如，距离)。

在412，根据本文所讨论的技术中的任何技术，PIT系统(例如，根据计算的偏差)计算针对可能的分配顺序的总偏差分数。

在414，PIT系统至少部分地基于所选择的分配顺序与最小总偏差相关联，从可能的分配顺序中选择分配顺序。在一些示例中，可以在个体估计的源信号和分配了个体估计的源信号的各个真实的源信号之间计算偏差，并且可以针对不同的可能的分配顺序对偏差进行总计。

在416，PIT系统修改神经网络的参数以最小化最小总偏差(例如，PIT系统训练神经网络具有最小化总偏差的训练目标)。

图5描绘了进行诸如(多个)PIT模型116的神经网络的PIT的示例性过程500。

在502，根据本文所讨论的技术中的任何技术，PIT系统通过神经网络从混合信号生成输出层，输出层是源信号的估计。

在504，根据本文所讨论的技术中的任何技术，PIT系统确定要分配给输出层的标签的分配顺序，个体标签与个体源信号相关联，并且分配顺序至少部分地基于个体输出层和个体源信号之间的最小总偏差分数。

在506，根据本文所讨论的任何技术，PIT系统优化神经网络的模型参数以最小化总偏差分数。

图6描绘了进行诸如(多个)PIT模型116的神经网络的示例性过程600。

在602，根据本文所讨论的技术中的任何技术，PIT系统通过神经网络并从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计。

在604，根据本文所讨论的技术中的任何技术，PIT系统至少部分地基于如下来确定将哪些个体信号源与个体估计相关联：与个体信号源相关联的训练数据和个体估计之间的最小总偏差。

在606，根据本文所讨论的技术中的任何技术，PIT系统修改神经网络的参数以减小最小总偏差。

图7描绘了进行诸如(多个)PIT模型116的神经网络的示例性过程700。

在702，根据本文所讨论的技术中的任何技术，PIT系统通过麦克风阵列捕获由源生成的信号以获得空间滤波的信号。

在704，根据本文所讨论的技术中的任何技术，PIT系统获得空间滤波的信号的单声道表示。

在706，根据本文所讨论的技术中的任何技术，PIT系统通过神经网络并且从单声道信号的帧的窗口生成由源生成的信号的估计。

在708，根据本文所讨论的技术中的任何技术，PIT系统标识表示源的标签。

在710，根据本文所讨论的技术中的任何技术，PIT系统至少部分地基于个体估计与空间滤波的信号之间的最小差来确定标签中的哪个标签与个体估计相关联。

在712，根据本文所讨论的技术中的任何技术，PIT系统修改神经网络的参数以减小最小总偏差。

图8描绘了进行PIT语音分离的示例性过程800。

在802，根据本文所讨论的技术中的任何技术，PIT系统通过神经网络并从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计。

在804，根据本文所讨论的技术中的任何技术，PIT系统确定分配模式，分配模式至少部分地基于与个体信号源相关联的训练数据与个体估计之间的最小总偏差来限定哪个个体信号源与个体估计相关联。

在806，根据本文所讨论的任何技术，PIT系统至少部分地基于分配模式来分离可归因于个体信号源中的一个个体信号源的信道。

在808，根据本文所讨论的任何技术，PIT系统至少部分地基于与多个帧相关联的分配模式，追踪在单声道信号的多个帧中的讲话者或噪声。

示例条款

A.一种训练用于从混合信号中分离源信号的模型的方法，包括：通过模型，从混合信号生成输出层，输出层是所述源信号的估计；确定要分配给输出层的标签的分配顺序，个体标签与个体源信号相关联，并且分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数；和优化模型的模型参数以最小化所确定的分配顺序的总偏差分数。

B.如段落A所述的方法，其中确定标签的分配顺序包括：计算个体输出层和源信号之间的一组成对偏差；计算针对可能的分配顺序的总偏差分数，针对可能的分配顺序的总偏差分数包括个体输出层和根据可能的分配顺序与个体输出层相对应的个体源信号的相应对之间的成对偏差的总和；和至少部分地基于与分配顺序相关联的总偏差分数是总偏差分数中的最小总偏差分数，从可能的分配顺序中选择分配顺序。

C.如段落B或C所述的方法，其中成对偏差包括个体输出层与所述源信号中的一个或多个源信号之间的均方误差。

D.如段落A至C中任一段所述的方法，针对分配顺序的总偏差分数包括个体输出源和根据分配顺序与个体输出源相关联的个体源信号之间的总均方误差。

E.如段落A至D中任一段所述的方法，其中针对个体输出层的两帧或更多帧以及源信号的两帧或更多帧计算成对偏差。

F.如段落A至E中任一段所述的方法，其中将个体标签分配给个体输出层将输出层归因于源信号的个体源信号的源。

G.如段落A至F中任一段所述的方法，其中模型使用混合信号的两帧或更多帧或混合信号的特征信号的两帧或更多帧来获得输出层。

H.如段落A至G中任一段所述的方法，进一步包括：将混合信号的当前窗口移位一帧或多帧以获得相邻窗口，其中相邻窗口和当前窗口具有重叠帧；并且至少部分地基于与最小总偏差分数相关联的分配顺序来选择针对相邻窗口的分配顺序。

I.如段落A-H中任一段所述的方法，进一步包括：选择针对混合信号、输出层和源信号的多个窗口的分配顺序；记录针对多个窗口的分配顺序；和至少部分地基于针对多个窗口的分配顺序的记录，通过混合信号的多个帧追踪可归因于信号产生源的源信号。

J.如段落A-I中任一段所述的方法，其中追踪可归因于信号产生源的源信号包括：标识被包括在窗口中的所述混合信号的所述多个帧的帧的子集，所述窗口具有通过相应的分配顺序与所述源信号相关联的中心帧。

K.如段落A-J中任一段落所述的方法，进一步包括：获得与输出层的第一元帧相关联的第一最小总偏差；获得与输出层的第二元帧相关联的第二最小总偏差；计算输出层的嵌入的相似度分数；和至少部分地基于第一最小总偏差或者第二最小总偏差和相似度分数来确定针对第一元帧或者第一元帧的中心帧的分配顺序。

L.如段落A-K中任一段所述的方法，其中输出层包括：源信号的增量表示的估计，源信号的频谱幅度的估计或者源信号的频谱的估计中的一个或多个估计；并且如段落A所述的方法，还包括：至少部分地基于增量表示的所述估计，通过混合信号的多个帧追踪可归因于源信号的源。

M.如段落A-L中任一段所述的方法，进一步包括：至少部分地基于针对混合信号、输出层和源信号的多个帧的分配顺序来估计分离的源信号，其中估计包括：对于可归因于所述源信号的第一信号的信号源，基于与第一信号相关联的多个帧的帧的子集的相应的置换考虑的分配顺序，标识所述帧的子集；和将所述帧的子集与所述信号源相关联以获得可归因于所述第一信号的源的分离信号源。

N.如段落A-M中任一段所述的方法，进一步包括：通过麦克风阵列对混合信号进行空间滤波以获得信号源并且标识信号产生源；和至少部分地基于经空间滤波的信号源来联合优化所述模型。

O.一种系统，包括：一个或多个处理器；模型；存储有计算机可执行指令的存储器，计算机可执行指令当由所述一个或多个处理器执行时，将处理器配置为：通过模型并且从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计；至少部分地基于如下来确定将哪些个体信号源与个体估计相关联：与个体信号源相关联的训练数据和个体估计之间的最小总偏差；和修改所述模型的参数以减少所述最小总偏差。

P.如段落O所述的系统，其中一个或多个处理器中的至少一个处理器是专用处理单元，专用处理单元包括以下中的一个或多个：图形处理单元；或者集成电路；并且其中专用处理单元被配置为模型以生成信号的估计。

Q.如段落O或P的系统所述，处理器还被配置为：将混合信号的当前窗口移位一个或多个帧以获得相邻窗口，其中相邻窗口和当前窗口具有重叠帧；并且至少部分地基于与最小总误差分数相关联的分配顺序或针对相邻窗口和当前窗口的重叠部分的相似度分数来选择相邻窗口的分配顺序。

R.如段落O-Q中任一段落所述的系统，处理器还被配置为至少部分地基于针对当前窗口和相邻窗口的分配顺序来估计分离的源信号。

S.一种方法，包括：通过模型并且从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计；确定针对估计的分配模式，分配模式至少部分地基于如下来限定哪些个体信号源与哪些个体估计相关联：与个体信号源相关联的训练数据和所述个体估计之间的最小总成对偏差；和至少部分地基于分配模式来分离可归因于个体信号源中的一个个体信号源的信道。

T.如段落S所述的方法，进一步包括：至少部分地基于与多个帧相关联的分配模式，在单声道信号的多个帧中追踪讲话者或噪声。

U.如段落S或T所述的方法，进一步包括：修改模型的参数以减少训练数据与估计之间的最小总成对偏差。

V.如段落S-U中任一段所述的方法，其中分离可归因于个体信号源之一的信道包括：标识与个体信号源中的一个个体源信号相对应的单声道信号的帧的子集；帧的子集包括与在窗口上的平均分配相关联的帧，包含与个体源信号中的一个个体源信号相对应的帧；并且将帧的子集与个体信号源中的一个个体源信号相关联，以获得可归因于个体信号源中的一个个体源信号的信道。

结论

尽管用结构特征和/或方法动作专用的语言描述了本主题，但应理解，所附权利要求中限定的主题不必限于所描述的具体特征或动作。而是，公开了具体特征和动作作为实现权利要求的示例形式。

本文描述的模块表示可以存储在任何类型的计算机可读介质中并且可以以软件和/或硬件实现的指令。上述所有方法和过程可以通过由一个或多个计算机或处理器、硬件或其某种组合执行的软件代码模块和/或计算机可执行指令来体现并且完全自动化。可选地，方法中的一些或者全部可以体现在专用计算机硬件中。

除非另外特别说明，否则诸如“可(can)”、“可以(could)”、“可能(may)”或“会(might)”之类的条件语言在上下文中被理解为表示某些示例包括某些特征、元素和/或步骤，而其他示例不包括。因此，这种条件语言通常不旨在暗示某些特征、元素和/或步骤对于一个或多个示例是以任何方式所需的，或者一个或多个示例必须包括用于在有或没有用户输入或提示的情况下决定的逻辑，在任何特定示例中是否包括或将要执行某些特征、元素和/或步骤。

除非另有明确说明，否则诸如短语“X、Y或Z中的至少一个”的联合语言应被理解为表示项、术语等，联合语言可以是X、Y或Z或其任何组合。除非明确描述为单数，否则“一(a)”表示单数和复数。

本文描述和/或附图中描绘的流程图中的任何例程描述、元素或块应当被理解为潜在地表示包括用于实现例程中的特定逻辑函数或元素的一个或多个计算机可执行指令的模块、片段或代码部分。替换实现包括在本文描述的示例的范围内，其中元素或功能可以被删除，或者从示出或讨论的顺序执行，包括基本上同步或相反的顺序，这取决于所涉及的功能，如本领域技术人员将理解的。

应该强调的是，可以对上述示例进行许多变化和修改，其中的元素应被理解为是其他可接受的示例。所有这些修改和变化旨在包括在本公开的范围内并且由所附权利要求保护。

Claims

1.一种训练用于从混合信号中分离源信号的模型的方法，所述方法包括：

通过所述模型，从所述混合信号生成输出层，所述输出层是所述源信号的估计；

确定要分配给所述输出层的标签的分配顺序，个体标签与个体源信号相关联，并且所述分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数；和

优化所述模型的模型参数以最小化所确定的所述分配顺序的总偏差分数。

2.根据权利要求1所述的方法，其中确定所述标签的所述分配顺序包括：

计算所述个体输出层和所述源信号之间的一组成对偏差；

计算针对可能的分配顺序的总偏差分数，针对可能的分配顺序的总偏差分数包括所述个体输出层和根据所述可能的分配顺序与所述个体输出层相对应的所述个体源信号的相应对之间的所述成对偏差的总和；和

至少部分地基于与所述分配顺序相关联的总偏差分数是所述总偏差分数中的最小总偏差分数，从所述可能的分配顺序中选择所述分配顺序。

3.很据权利要求1或2所述的方法，针对分配顺序的所述总偏差分数包括所述个体输出源和根据所述分配顺序与所述个体输出源相关联的所述个体源信号之间的总均方误差。

4.根据权利要求1所述的方法，还包括：

选择针对所述混合信号、输出层和源信号的多个窗口的分配顺序；

记录针对所述多个窗口的所述分配顺序；和

至少部分地基于针对所述多个窗口的分配顺序的记录，追踪混合信号的多个帧中的可归因于信号产生源的源信号。

5.根据权利要求4所述的方法，其中追踪可归因于信号产生源的所述源信号包括：

标识被包括在窗口中的所述混合信号的所述多个帧的帧的子集，所述窗口具有通过相应的分配顺序与所述源信号相关联的中心帧。

6.根据权利要求5所述的方法，还包括：

获得与所述输出层的第一元帧相关联的第一最小总偏差；

获得与所述输出层的第二元帧相关联的第二最小总偏差；

计算所述输出层的嵌入的相似度分数；和

至少部分地基于所述第一最小总偏差或者所述第二最小总偏差和所述相似度分数来确定针对所述第一元帧或者所述第一元帧的中心帧的分配顺序。

7.根据权利要求1所述的方法，还包括：

至少部分地基于针对所述混合信号、输出层和源信号的多个帧的分配顺序来估计分离的源信号，其中估计包括：

对于可归因于所述源信号的第一信号的信号源，基于与所述第一信号相关联的所述多个帧的帧的子集的相应的置换考虑的分配顺序，标识所述帧的子集；和

将所述帧的子集与所述信号源相关联以获得可归因于所述第一信号的源的分离信号源。

8.根据权利要求1、2、4、5或7中任一项所述的方法，所述输出层包括：

源信号的增量表示的估计，和

所述源信号的频谱幅度的估计或者所述源信号的频谱的估计中的一个或多个估计；和

至少部分地基于所述增量表示的所述估计来追踪所述混合信号的多个帧中的可归因于所述源信号的源。

9.根据权利要求1所述的方法，还包括：

通过麦克风阵列对所述混合信号进行空间滤波以获得所述信号源并且标识所述信号产生源；和

至少部分地基于经空间滤波的所述信号源来联合优化所述模型。

10.一种系统，包括：

一个或多个处理器；

模型；

存储有计算机可执行指令的存储器，所述计算机可执行指令当由所述一个或多个处理器执行时，将所述处理器配置为：

通过所述模型并且从单声道信号的帧的窗口生成可归因于对所述单声道信号有贡献的不同信号源的信号的估计；

至少部分地基于如下来确定将哪些个体信号源与个体估计相关联：与所述个体信号源相关联的训练数据和所述个体估计之间的最小总偏差；和

修改所述模型的参数以减少所述最小总偏差。

11.根据权利要求10所述的系统，其中所述一个或多个处理器中的至少一个处理器是专用处理单元，所述专用处理单元包括以下中的一个或多个：

图形处理单元；或者

集成电路；并且

其中所述专用处理单元被配置为所述模型以生成所述信号的估计。

12.根据权利要求10所述的系统，所述处理器还被配置为至少部分地基于针对当前窗口和相邻窗口的分配顺序来估计分离的源信号。

13.一种方法，包括：

通过模型并且从单声道信号的帧的窗口生成可归因于对所述单声道信号有贡献的不同信号源的信号的估计；

确定针对所述估计的分配模式，所述分配模式至少部分地基于如下来限定哪些个体信号源与哪些个体估计相关联：与所述个体信号源相关联的训练数据和所述个体估计之间的最小总成对偏差；和

至少部分地基于所述分配模式来分离可归因于所述个体信号源中的一个个体信号源的信道。

14.根据权利要求13所述的方法，进一步包括：

通过至少部分地基于与所述多个帧相关联的分配模式，追踪所述单声道信号的多个帧中的讲话者或噪声。

15.根据权利要求13或14所述的方法，还包括：

修改所述模型的参数以减少所述训练数据和所述估计之间的所述最小总成对偏差。