CN113646837A

CN113646837A - 信号处理装置、方法和程序

Info

Publication number: CN113646837A
Application number: CN202080022378.5A
Authority: CN
Inventors: 高桥直也
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-03-27
Filing date: 2020-03-13
Publication date: 2021-11-12
Also published as: EP3951777A4; BR112021018647A2; KR20210145733A; US20220189496A1; WO2020195924A1; EP3951777A1; US11862141B2

Abstract

本技术涉及信号处理装置、方法和程序，该信号处理装置、方法和程序促进声源分离。该信号处理装置包括声源分离单元，该声源分离单元根据预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的训练声学信号中分离预定声源。本技术适用于信号处理装置。

Description

信号处理装置、方法和程序

技术领域

本技术涉及信号处理装置、信号处理方法和程序，并且更具体地，涉及允许更容易的声源分离的信号处理装置、信号处理方法和程序。

背景技术

例如，存在期望分别处理多个说话者的同时话语的许多情况，诸如多个说话者的语音识别(例如，参见专利文献1)、字幕和语音澄清。

作为用于将包括多个说话者的话语的混合语音的声学信号分离成每个说话者的声学信号的声源分离技术，常规已经提出了使用方向信息的技术(例如，参见专利文献2)和假设声源的独立性的技术。

然而，这些技术在用单个麦克风实现以及应对来自多个声源的声音从同一方向到达的情况方面存在困难。

因此，作为用于分离在这种情况下同时发出的语音的技术，已知深度聚类(例如，参见非专利文献1)和置换不变训练(例如，参见非专利文献2)。

引用列表

专利文献

专利文献1：日本未审查专利申请公开(PCT申请的翻译)第2017-515140号。

专利文献2：日本专利申请公开第2010-112995号。

非专利文献

非专利文献1：J.R.Hershey，Z.Chen，and J.Le Roux，“Deep Clustering：Discriminative Embeddings for Segmentation and Separation”。

非专利文献2：M.Kolbaek，D.Yu，Z.-H.Tan，and J.Jensen，“Multitalker speechseparation with utterance-level permutation invariant training of deeprecurrent neural networks，”IEEE/ACM Transactions on Audio，Speech，and LanguageProcessing，vol.25，no.10，pp.1901-1913，2017。

发明内容

本发明要解决的问题

然而，在上述技术中，不容易从说话者的数量未知的混合语音中分离每个说话者的话语。

例如，在深度聚类和置换不变训练中，假设同时说话的说话者的数量是已知的。

然而，通常，存在说话者的数量未知的许多情况。在这种情况下，这些技术另外需要用于估计说话者的数量的模型，并且有必要通过例如准备用于分离说话者的每个说话者的话语的声源分离模型(分离算法)来在算法之间切换。

因此，当这些技术用于将说话者的数量未知的混合语音分离成每个说话者的话语时，开发时间增加，并且用于保留声源分离模型的存储量增加。此外，在没有正确执行说话者的数量的估计的情况下，性能显著恶化。

本技术是鉴于这种情况而提出的，并且允许更容易的声源分离。

问题的解决方案

本技术的一个方面提供信号处理装置，包括：声源分离单元，通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离预定声源。

本技术的一个方面提供信号处理方法或程序，包括以下步骤：通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离预定声源。

在本技术的一个方面，通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离预定声源。

附图说明

图1是示出递归声源分离的示图。

图2是示出信号处理装置的配置示例的示图。

图3是示出声源分离处理的流程图。

图4是示出递归声源分离的示图。

图5是示出信号处理装置的配置示例的示图。

图6是示出声源分离处理的流程图。

图7是示出计算机的配置示例的示图。

具体实施方式

下面将参考附图描述应用本技术的实施例。

<第一实施例>

<本技术>

首先，将描述本技术的概要。在此处，将描述通过使用单个声源分离模型从通过用一个或多个麦克风收集由多个说话者在同时或在不同定时发出的混合语音而获得的输入声学信号分离每个说话者的话语(语音)的示例。

具体地，在此处，包括在基于输入声学信号的混合语音中的说话者的数量是未知的。本技术通过使用单个声源分离模型对输入声学信号递归地执行声源分离，使得可以更容易地从输入声学信号中分离未指定的未知数量的说话者中的每个说话者的话语(语音)。

注意，在此处描述的示例中，声源的声音是说话者的话语，但是声音不限于此，并且可以是任何声音，诸如动物叫声或乐器声音。

在本技术中使用的声源分离模型是被学习在说话者到说话者的基础上分离输入语音的诸如神经网络的模型。即，已经预先学习声源分离模型以从包括作为声源的说话者的话语的混合语音的用于学习的声学信号中分离说话者的话语的声学信号。

声源分离模型根据预定声源分离算法使用算术系数来执行计算以将输入声学信号分离成每个声源(说话者)的声学信号(在下文中，也称为分离信号)，并且由声源分离算法和算术系数实现。

在本技术中，使用声源分离模型对说话者的数量未知或已知的混合语音的输入声学信号执行声源分离。

然后，基于所获得的分离信号，确定是否满足预定结束条件。使用同一声源分离模型对分离信号递归地执行声源分离，直到确定满足结束条件，并且最终获得每个声源(说话者)的分离信号。

在此处，作为具体示例，将描述两个说话者分离模型用作声源分离模型的情况，该两个说话者分离模型被学习以将包括作为声源的两个说话者的话语的用于学习的声学信号分离成包括一个说话者的话语的分离信号和包括另一说话者的话语的分离信号。

可以通过使用诸如深度聚类或置换不变训练的学习技术进行学习来获得这种声源分离模型。

在两个说话者分离模型中，当输入两个说话者的混合语音的输入声学信号时，期望输出每个说话者的话语(语音)的分离信号作为声源分离结果。

此外，在两个说话者分离模型中，当输入一个说话者的语音的输入声学信号时，期望输出一个说话者的话语的分离信号和无声分离信号作为声源分离结果。

另一方面，在输入两个说话者分离模型的情况下，即，在输入声学信号是三个或更多个说话者的混合语音的信号的情况下，这种混合语音是在学习两个说话者分离模型时没有出现的输入。

在这种情况下，响应于三个说话者的混合语音的输入，执行声源分离，使得两个说话者的话语(语音)包括在一个分离信号中，例如，如图1所示。

在图1所示的示例中，基于输入声学信号的混合语音包括说话者PS1到说话者PS3的三个说话者的话语。

作为声源分离的结果，即，如箭头Q11所示，使用两个说话者分离模型对这种输入声学信号进行说话者分离，混合语音分离，使得一个分离信号仅包括说话者PS1的话语，而另一分离信号仅包括说话者PS2和说话者PS3的话语。

此外，例如，如箭头Q12所示，作为使用两个说话者分离模型对仅包括说话者PS1的话语的分离信号进行进一步声源分离的结果，语音分离，使得一个分离信号仅包括说话者PS1的话语，而另一分离信号是无声信号。

以类似的方式，例如，如箭头Q13所示，作为使用两个说话者分离模型对仅包括说话者PS2和说话者PS3的话语的分离信号进行进一步声源分离的结果，混合语音分离，使得一个分离信号仅包括说话者PS2的话语，而另一分离信号仅包括说话者PS3的话语。

以这种方式，当通过使用相同的两个说话者分离模型对输入声学信号递归地执行声源分离时，获得分离信号，每个分离信号仅包括说话者PS1到说话者PS3中的对应一个说话者。

在该示例中，当执行由箭头Q11指示的第一次声源分离时，所获得的分离信号最多仅包括两个说话者的话语。在大多数情况下，输入声学信号没有被分离成三个说话者的话语的分离信号和无声分离信号。

因此，当已经执行第一次声源分离时，所有分离信号是可以通过使用两个说话者分离模型求解的语音，即，可以从两个说话者分离模型获得每个说话者的分离信号的信号。然后，如箭头Q12和箭头Q13所示，对这样的分离信号执行递归声源分离，从而可以获得每个说话者的分离信号。

注意，即使在输入声学信号是四个或更多个说话者的话语的混合语音的情况下，也可以增加递归地执行的声源分离的次数，使得可以最终获得每个说话者的分离信号。

此外，在递归地执行声源分离以将输入声学信号分离成每个说话者的分离信号(以提取分离信号)的情况下，当输入声学信号的混合语音的说话者的数量未知(不知道)时，需要用于结束递归声源分离的结束条件。

该结束条件是当通过声源分离获得的分离信号仅包括一个说话者的话语时满足的条件，换句话说，当分离信号不包括两个或更多个说话者的话语时满足的条件。

在此处，作为示例，在通过声源分离获得的一个分离信号是无声信号的情况下，更详细地，在一个分离信号的平均电平(能量)等于或小于预定阈值的情况下，假设满足结束条件，即，获得每个说话者的分离信号。

根据如上所述的本技术，即使在输入声学信号的说话者的数量未知的情况下，也可以容易地执行声源分离，而不需要用于估计说话者的数量的模型、用于每个说话者的数量的声源分离模型、指示声源方向的方向信息等，并且可以获得每个声源(说话者)的分离信号。

因此，本技术显著抑制了用于开发声源分离模型等的时间的增加以及用于保持声源分离模型的存储量的增加。

即，在本技术中，无论输入声学信号的说话者的数量如何，可以通过一个声源分离模型获得每个说话者的分离信号，并且可以简化系统、减少必要的存储量、集成声源分离模型的开发等。

此外，在本技术中，递归地执行声源分离，使得可以简化由每次声源分离要解决的问题(任务)，并且因此可以提高分离性能。

注意，此处已经描述了使用两个说话者分离模型作为声源分离模型的示例。然而，这不是限制性的，并且可以通过将输入声学信号分离成三个或更多个说话者中的每个说话者的分离信号的多个说话者的说话者分离模型(诸如，三个说话者分离模型)来执行递归声源分离。

例如，三个说话者分离模型是被学习以将包括作为声源的三个说话者的话语的用于学习的声学信号分离成三个分离信号的说话者分离模型，三个分离信号中的每一个分离信号包括三个说话者的话语中的对应一个说话者的话语，即，三个说话者中的每一个说话者的分离信号。

<信号处理装置的配置示例>

接下来，将描述应用本技术的信号处理装置。

例如，应用本技术的信号处理装置被配置为如图2所示。

图2所示的信号处理装置11具有声源分离单元21和结束确定单元22。

声源分离单元21从外部接收输入声学信号。此外，声源分离单元21保留通过学习预先获得的声源分离模型。

注意，在该实施例中，将在假设输入声学信号是说话者的数量(尤其是同时发出话语的说话者的数量)未知的混合语音的声学信号的情况下给出描述。此外，在此处，由声源分离单元21保留的声源分离模型是两个说话者分离模型。

根据从结束确定单元22提供的结束确定的结果，声源分离单元21基于保留的声源分离模型对所提供的输入声学信号递归地执行声源分离以获得分离信号，并且将所得分离信号提供给结束确定单元22。

结束确定单元22基于从声源分离单元21提供的分离信号执行结束确定以确定是否结束递归声源分离，即是否满足结束条件，并且将确定结果提供给声源分离单元21。

此外，如果确定满足结束条件，则结束确定单元22将通过声源分离获得的分离信号作为每个说话者的话语的声学信号输出到后级。

<声源分离处理的描述>

接下来，将参考图3中的流程图描述由信号处理装置11执行的声源分离处理。

在步骤S11中，声源分离单元21基于保留的声源分离模型对所提供的输入声学信号执行声源分离以获得分离信号，并且将所得分离信号提供给结束确定单元22。

具体地，声源分离单元21基于构成声源分离模型的算术系数和输入声学信号，根据对应于声源分离模型的声源分离算法执行算术处理，并且获得作为声源分离模型的输出的两个分离信号。

在步骤S12中，基于从声源分离单元21提供的分离信号，结束确定单元22对通过一次声源分离获得的两个分离信号的每一对(组)执行结束确定，并且确定所有对是否都满足结束条件。

具体地，例如，对于一对，如果构成该对的两个分离信号中的一个分离信号的平均电平等于或小于预定阈值，则结束确定单元22确定该对满足结束条件。

如果在步骤S12中确定没有一对满足结束条件，则结束确定单元22将指示不满足结束条件的对的信息作为结束确定的结果提供给声源分离单元21，并且然后处理进行到步骤S13。

在步骤S13中，基于从结束确定单元22提供的结束确定的结果，声源分离单元21使用声源分离模型对构成不满足结束条件的对的每个分离信号执行声源分离以获得分离信号，并且将所得分离信号提供给结束确定单元22。

例如，在步骤S13中，与步骤S11中使用的声源分离模型相同的声源分离模型用于声源分离。

注意，可以使用彼此不同的多个声源分离模型递归地执行声源分离。例如，三个说话者分离模型可以用于步骤S11中的声源分离，并且两个说话者分离模型可以用于步骤S13中的声源分离。

在步骤S13的处理中执行递归声源分离之后，处理返回到步骤S12，并且重复上述处理，直到确定所有对都满足结束条件。

例如，在图1所示的示例中，由于在箭头Q12所示的声源分离中一个分离信号是无声信号，因此作为箭头Q12所示的声源分离的结果获得的一对分离信号满足结束条件。

另一方面，由于不能通过图1中箭头Q13所示的声源分离获得无声分离信号，因此不确定满足结束条件，并且在步骤S13中对通过箭头Q13所示的声源分离获得的两个分离信号中的每一个分离信号执行递归声源分离。

此外，如果在图3的步骤S12中确定所有对都满足结束条件，则输入声学信号已经被分离成每个说话者的分离信号，并且因此处理进行到步骤S14。

在步骤S14中，结束确定单元22将通过已经执行的声源分离获得的每个说话者的分离信号输出到后级，并且声源分离处理结束。

如上所述，信号处理装置11对输入声学信号递归地执行声源分离，直到满足结束条件，并且获得每个说话者的分离信号。以这种方式，可以更容易地且以足够的分离性能执行声源分离。

<第二实施例>

<根据分离结果的合成>

同时，在通过使用说话者分离模型作为声源分离模型对输入声学信号递归地执行声源分离的情况下，某个说话者的话语可以被分散成不同的分离结果，即不同的分离信号。

具体地，例如，如图1所示，假设通过使用两个说话者分离模型对包括说话者PS1到说话者PS3的话语的混合语音的输入声学信号执行声源分离的情况。

在这种情况下，例如，如图1的箭头Q11所示的声源分离的结果，某个说话者的话语可以不仅出现在一个分离信号中，而是如图4所示，可以以分散的方式出现在两个分离信号中。注意，在图4中，相同的参考数字被赋予对应于图1的情况的部分，并且将适当地省略其描述。

在图4所示的示例中，通过使用两个说话者分离模型对包括说话者PS1到说话者PS3的话语的混合语音的输入声学信号递归地执行声源分离(说话者分离)。

在此处，首先，如箭头Q21所示，对输入声学信号执行声源分离。

因此，获得包括说话者PS1的话语和说话者PS2的话语的一部分的分离信号以及包括说话者PS3的话语和说话者PS2的话语的一部分的分离信号。

即，尽管说话者PS1和说话者PS3的话语仅出现在一个分离信号中，但是说话者PS2的话语被分散成两个分离信号。

在此处，使用如箭头Q22所示的两个说话者分离模型对作为箭头Q21所示的声源分离的结果而获得的包括说话者PS1的话语和说话者PS2的话语的一部分的分离信号执行递归声源分离，从而获得每个说话者的分离信号。

即，在该示例中，作为箭头Q22所示的声源分离的结果，获得仅包括说话者PS1的话语的分离信号和仅包括说话者PS2的话语的一部分的分离信号。

以类似的方式，使用如箭头Q23所示的两个说话者分离模型对作为箭头Q21所示的声源分离的结果而获得的包括说话者PS3的话语和说话者PS2的话语的一部分的分离信号执行递归声源分离，从而获得每个说话者的分离信号。

即，在该示例中，作为箭头Q23所示的声源分离的结果，获得仅包括说话者PS3的话语的分离信号和仅包括说话者PS2的话语的一部分的分离信号。

即使在这样的示例中，所得分离信号中的每一个仅包括一个说话者的话语。然而，在此处，说话者PS2的话语被分散成两个分离信号。

因此，两个或多个分离语音(即分散成多个分离信号的同一说话者的分离语音(话语))可以组合成说话者的一个合成话语。

在这种情况下，可以使用输入分离信号并且输出说话者识别结果的说话者识别模型。

具体地，例如，预先学习识别任意多个说话者的神经网络等作为说话者识别模型。在此处，在学习说话者识别模型时说话者的数量较大的情况下，说话者不必包括作为声源分离的实际目标的说话者。

以这种方式准备说话者识别模型，并且然后说话者识别模型用于对通过声源分离获得的分离信号(即对应于分离信号的说话者)进行聚类。

在聚类时，每个分离信号被输入到说话者识别模型，并且执行说话者识别。

此时，获得说话者识别模型的输出(即说话者识别的结果)或者说话者识别模型的中间层的激活(输出)(即用于获得说话者识别结果的算术处理的中间的计算结果)作为表示对应于输入分离信号的说话者的特征值(说话者嵌入)。

注意，在计算表示说话者的特征值时，在计算中可以忽略分离信号的无声部分。

当已经获得每个分离信号(分离语音)的特征值时，获得特征值彼此之间的距离，即特征值之间的距离。特征值之间的距离等于或小于阈值的分离信号被确定为同一说话者的分离信号。

此外，作为聚类的结果，从被确定为同一说话者的多个分离信号中合成并获得一个分离信号作为说话者的最终分离信号。

因此，例如，在图4的示例中，假设仅包括由箭头Q22所示的声源分离获得的说话者PS2的话语的一部分的分离信号和仅包括由箭头Q23所示的声源分离获得的说话者PS2的话语的一部分的分离信号属于同一说话者。

然后，将分离信号相加，使得合成一个分离信号，并且输出所得信号作为包括说话者PS2的话语的最终分离信号。

<信号处理装置的配置示例>

在如上所述执行通过声源分离获得的分离信号的聚类的情况下，信号处理装置例如被配置为如图5所示。注意，在图5中，相同的参考数字被赋予对应于图2的情况的部分，并且将适当地省略其描述。

图5所示的信号处理装置51具有声源分离单元21、结束确定单元22和同一说话者确定单元61。

信号处理装置51的配置与信号处理装置11的配置的不同之处在于，新设置了同一说话者确定单元61，但是在其他方面与信号处理装置11的配置相同。

同一说话者确定单元61执行确定通过递归声源分离获得的多个分离信号是否是同一说话者的信号的同一说话者确定，并且然后根据确定的结果从同一说话者的多个分离信号中合成并生成说话者的最终分离信号。

更具体地，同一说话者确定单元61保留通过学习预先获得的说话者识别模型，并且基于保留的说话者识别模型和从结束确定单元22提供的每个说话者的分离信号来执行聚类。即，同一说话者确定单元61通过执行聚类来执行同一说话者确定。

此外，同一说话者确定单元61执行聚类以从被确定为属于同一说话者的分离信号中合成说话者的最终分离信号，并且将最终获得的每个说话者的分离信号输出到后级。

<声源分离处理的描述>

接下来，将参考图6中的流程图描述由信号处理装置51执行的声源分离处理。

注意，步骤S41至步骤S43的处理类似于图3中的步骤S11至步骤S13的处理，并且将省略其描述。

当在步骤S41到步骤S43中执行递归声源分离并且获得每个说话者的分离信号时，分离信号从结束确定单元22被提供给同一说话者确定单元61，并且然后处理进行到步骤S44。即，如果在步骤S42中确定所有对都满足结束条件，则处理进行到步骤S44。

在步骤S44中，同一说话者确定单元61基于保留的说话者识别模型和从结束确定单元22提供的分离信号，针对每个分离信号计算表示说话者的特征值。

即，同一说话者确定单元61通过以分离信号作为输入执行使用说话者识别模型的计算，针对每个分离信号计算表示说话者的特征值。

在步骤S45中，同一说话者确定单元61基于在步骤S44中获得的特征值来确定是否存在同一说话者的分离信号。即，执行同一说话者确定。

例如，针对所有分离信号中的任何两个分离信号，同一说话者确定单元61获得两个分离信号的特征值之间的距离。如果该距离等于或小于预定阈值，则确定两个分离信号是同一说话者的信号(信号)。

针对所有分离信号，同一说话者确定单元61针对两个分离信号的所有可能的组合确定这两个分离信号是否属于同一说话者。

然后，如果针对所有组合获得指示不属于同一说话者的确定结果，则同一说话者确定单元61在步骤S45中确定不存在同一说话者的分离信号。

同一说话者确定单元61执行上述步骤S44和步骤S45的处理作为聚类处理。

如果在步骤S45中确定存在同一说话者的分离信号，则在步骤S46中，同一说话者确定单元61从被确定为属于同一说话者的多个分离信号中合成说话者的最终分离信号。

在从同一说话者的分离信号中合成并获得每个说话者的最终分离信号之后，处理进行到步骤S47。

另一方面，如果在步骤S45中确定不存在同一说话者的分离信号，则已经获得了每个说话者的分离信号，因此跳过步骤S46的处理，并且处理进行到步骤S47。

如果在步骤S45中确定不存在同一说话者的分离信号，或者如果执行步骤S46的处理，则在步骤S47中，同一说话者确定单元61将最终获得的每个说话者的分离信号输出到后级，并且声源分离处理结束。

如上所述，信号处理装置51对输入声学信号递归地执行声源分离，直到满足结束条件，并且执行分离信号的聚类以从同一说话者的分离信号执行合成，并且获得每个说话者的最终分离信号。

以这种方式，可以更容易地且以足够的分离性能执行声源分离。具体地，信号处理装置51从同一说话者的分离信号执行合成，并且与信号处理装置11的情况相比，这进一步提高分离性能。

<第三实施例>

<一对多说话者分离模式>

同时，在上面，已经描述了通过使用被学习以将包括m(其中，m≥2)个说话者的话语的混合语音的声学信号分离成每个说话者的m个分离信号的m个说话者分离模型来执行声源分离的示例。

具体地，在声源分离时，预定说话者的话语可能以分散的方式出现在多个分离信号中。因此，在第二实施例中，已经描述了执行聚类并且适当地合成分离信号的示例。

然而，不仅这样的说话者分离模型，而且其他说话者分离模型(诸如通过对不确定数量的说话者执行学习而获得的说话者分离模型(在下文中，也称为一对多说话者分离模型))也可以用于声源分离。

一对多说话者分离模型是被学习以将用于学习任何未知(不确定)数量的说话者的混合语音的声学信号分离成仅包括预定一个说话者的话语(语音)的分离信号和包括混合语音中包括的多个说话者中除了预定一个说话者之外的剩余说话者的话语的分离信号的说话者分离模型(诸如神经网络)。

在此处，使用一对多说话者分离模型的声源分离的分离结果(即一对多说话者分离模型的输出)也被称为头部。

具体地，在此处，输出包括一个说话者的话语的分离信号的一侧也被称为头部1，并且输出包括其他剩余说话者的话语的分离信号的一侧也被称为头部2。此外，在没有特别必要区分头部1与头部2的情况下，头部1和头部2被简单地称为头部。

在学习一对多说话者分离模型时，执行学习，使得在随机改变用于学习的声学信号的说话者的数量m的同时，通过使用用于学习说话者的数量m的声学信号来使损失函数L最小化。

此时，说话者的数量m被设置为等于或小于说话者的最大数量M。此外，学习一对多说话者分离模型，使得仅包括用于学习的声学信号的混合语音中包括的m个说话者中损失最小的一个说话者的话语的分离信号是头部1的输出，并且包括剩余(m-1)个说话者的话语的分离信号始终是头部2的输出。

此外，学习一对多说话者分离模型时的损失函数L例如由以下公式(1)表示。

[数学1]

注意，在公式(1)中，j是指示用于学习的声学信号(即，用于学习的混合语音)的索引，并且i是指示包括在第j个混合语音中的话语的说话者的索引。

此外，在公式(1)中，L_i ^1j表示当对第j个混合语音的用于学习的声学信号x^j执行声源分离时头部1的输出s’¹(x^j)与第i个说话者的话语的声学信号s_i ^j进行比较时的损失函数。损失函数L_i ^1j可以例如由以下公式(2)所示的平方误差来定义。

[数学2]

此外，公式(1)中的L_i ^2j表示当对第j个混合语音的用于学习的声学信号x^j执行声源分离时头部2的输出s’²(x^j)与除了第i个说话者之外的剩余说话者k的声学信号s_k ^j的和进行比较时的损失函数。损失函数L_i ^2j可以例如由以下公式(3)所示的平方误差来定义。

[数学3]

在通过如上所述学习获得的一对多说话者分离模型中，期望始终获得仅一个说话者的话语的分离信号作为头部1的输出，并且获得剩余说话者的话语的分离信号作为头部2的输出。

因此，例如，以与图1所示的示例类似的方式，可以期望仅通过使用一对多说话者分离模型对输入声学信号递归地执行声源分离来顺序分离仅包括每个说话者的话语的分离信号。

在以这种方式使用一对多说话者分离模型的情况下，例如，信号处理装置11的声源分离单元21保留通过学习预先获得的一对多说话者分离模型作为声源分离模型。然后，信号处理装置11执行参考图3描述的声源分离处理以获得每个说话者的分离信号。

然而，在这种情况下，在步骤S11或步骤S13中，声源分离单元21基于一对多说话者分离模型执行声源分离。此时，由于头部1的输出是一个说话者的话语的分离信号，因此使用一对多说话者分离模型对头部2的输出(分离信号)递归地执行声源分离。

此外，在步骤S12中，在最近执行的声源分离的头部2的输出(分离信号)的平均电平等于或小于预定阈值的情况下，确定满足结束条件，并且处理进行到步骤S14。

注意，此处已经描述了使用一对多说话者分离模型的示例，在该一对多说话者分离模型中，通过使用一个输入声学信号作为输入获得两个头部，即头部1和头部2的两个输出。

然而，这不是限制性的。例如，可以通过使用可以获得三个头部的输出的一对多说话者分离模型来执行声源分离。

在这种情况下，例如，执行学习，使得在头部1至头部3中，头部1和头部2的输出是分离信号，每个分离信号仅包括一个说话者的话语，并且头部3的输出是包括其他剩余说话者的话语的分离信号。

<第四实施例>

<一对多说话者分离模型和聚类的组合>

此外，即使在一对多说话者分离模型用作声源分离模型的情况下，也不一定完全分离声源，即每个说话者的话语。即，例如，应该输出到头部1的说话者的话语可能稍微泄漏到头部2的输出中。

因此，在这种情况下，如参考图4所述，同一说话者的话语被分散在通过递归声源分离获得的多个分离信号中。然而，在这种情况下，包括在一个分离信号中的说话者的话语是稍微泄漏的分量，并且具有比包括在另一分离信号中的说话者的话语的音量低得多的音量。

因此，即使在一对多说话者分离模型用作声源分离模型的情况下，也可以以与第二实施例类似的方式执行聚类。

在这种情况下，例如，信号处理装置51的声源分离单元21保留通过学习预先获得的一对多说话者分离模型作为声源分离模型。

然后，信号处理装置51执行参考图6描述的声源分离处理以获得每个说话者的分离信号。

然而，在这种情况下，与在第三实施例的情况一样，在步骤S41和步骤S43中，声源分离单元21基于一对多说话者分离模型执行声源分离。

此外，在步骤S44中，计算上述说话者识别模型等的输出作为表示说话者的特征值，并且如果两个分离信号的特征值之间的距离等于或小于阈值，则确定两个分离信号属于同一说话者。

另外，例如，在获得分离信号的时间能量变化作为表示说话者的特征值，并且两个分离信号的特征值之间的相关性(即分离信号的能量变化之间的相关性)等于或大于阈值的情况下，这两个分离信号可以被确定为属于同一说话者。

<其他修改示例1>

<单个说话者确定模式的使用>

同时，在上述每个实施例中，已经描述了如果通过声源分离获得的分离信号的平均电平(能量)变得足够小，即，如果平均电平变得等于或小于阈值，则确定满足递归声源分离的结束条件的示例。

在这种情况下，当对仅包括单个说话者的话语的分离信号执行声源分离时，获得无声分离信号，并且确定满足结束条件。

因此，尽管在获得仅包括单个说话者的话语的分离信号时首先获得每个说话者的分离信号，但是声源分离需要再次执行，并且因此声源分离处理的次数相应地增加。例如，这种情况对于处理时间有限的应用等不是优选的。

因此，可以通过使用单个说话者确定模型来执行结束确定，该单个说话者确定模型是接收分离信号作为输入并确定分离信号是仅包括单个说话者的话语的声学信号还是包括多个说话者的话语的混合语音的声学信号的声学模型。

换句话说，单个说话者确定模型是用于确定包括在输入分离信号中的话语的说话者的数量是否为1的声学模型。

在这样的示例中，例如，通过学习预先获得的单个说话者确定模型保留在信号处理装置11或信号处理装置51的结束确定单元22中。

然后，例如，在图3的步骤S12或图6的步骤S42中，结束确定单元22基于保留的单个说话者确定模型和通过声源分离获得的分离信号来执行计算，并且确定包括在分离信号中的话语的说话者的数量是否为1。换句话说，确定分离信号是否仅包括单个说话者的话语。

然后，如果所获得的确定结果指示包括在所有分离信号中的话语的说话者的数量是1，即，分离信号仅包括单个说话者的话语，则结束确定单元22确定满足结束条件。

在使用这样的单个说话者确定模型的确定中，与使用用于估计包括在分离信号中的话语的说话者的数量的说话者数量估计模型相比，任务被简化。因此，具有可以以较小的模型规模获得更高性能的声学模型(单个说话者确定模型)的优点。即，与使用说话者数量估计模型的情况相比，可以更容易地执行声源分离。

如上所述，通过使用单个说话者确定模型来确定是否满足结束条件，可以减少参考图3和图6描述的声源分离处理的整体处理量(处理次数)和处理时间。

此外，例如，在使用单个说话者确定模型等来执行结束确定的情况下，在参考图3和图6描述的声源分离处理中，也可以首先执行结束确定，即，是否满足结束条件，并且然后根据确定的结果执行递归声源分离。

在这种情况下，例如，当单个说话者确定模型用于结束确定时，通过使用单个说话者确定模型对被确定为不是仅包括单个说话者的话语的分离信号的分离信号执行递归声源分离。

另外，声源分离单元21可以使用用于确定说话者的粗略数量的说话者数量确定模型来选择用于递归声源分离的声源分离模型。

具体地，例如，假设声源分离单元21保留用于确定输入声学信号是包括两个或更少个说话者的话语的信号还是包括三个或更多个说话者的话语的信号的说话者数量确定模型、两个说话者分离模型和三个说话者分离模型的情况。

在这种情况下，声源分离单元21通过输入声学信号或通过声源分离获得的分离信号使用说话者数量确定模型来确定说话者的数量，并且选择两个说话者分离模型或三个说话者分离模型作为用于声源分离的声源分离模型。

即，例如，针对被确定为包括三个或更多个说话者的话语的信号的输入声学信号或分离信号，声源分离单元21使用三个说话者分离模型来执行声源分离。

另一方面，针对被确定为包括两个或更少个说话者的话语的信号的输入声学信号或分离信号，声源分离单元21使用两个说话者分离模型来执行声源分离。

以这种方式，可以选择性地将适当的声源分离模型用于声源分离。

<其他修改示例2>

<语言信息的使用>

此外，在第二实施例或第四实施例中，可以基于多个分离信号的语言信息来执行同一说话者确定。具体地，在此处，将描述指示基于分离信号的语音(话语)的内容的文本信息用作语言信息的示例。

在这种情况下，例如，信号处理装置51的同一说话者确定单元61对从结束确定单元22提供的每个说话者的分离信号执行语音识别处理，并且将每个说话者的分离信号的语音转换成文本。即，通过语音识别处理生成指示基于分离信号的话语的内容的文本信息。

然后，在由任意两个或更多个分离信号的文本信息指示的文本(即话语的内容)被合并(集成)并且合并的文本形成句子的情况下，同一说话者确定单元61确定分离信号属于同一说话者。

具体地，例如，在由文本信息指示的两个分离信号中的每一个分离信号的话语在时间和内容上相同的情况下，这两个分离信号被假设为属于同一说话者。

此外，例如，在由两个分离信号的文本信息指示的话语在时间上不同，但是这些话语在被集成到一个话语中时形成有意义的句子的情况下，这两个分离信号被假设为属于同一说话者。

以这种方式，使用诸如文本信息的语言信息提高了确定同一说话者的精度，并且因此可以提高分离性能。

<其他修改示例3>

<同一说话者确定模型的使用>

此外，在第二实施例或第四实施例中，可以基于同一说话者确定模型来执行同一说话者确定，该同一说话者确定模型用于确定任何两个分离信号中的每一个分离信号是否包括同一说话者的话语，即，两个分离信号是否是同一说话者的信号。

在此处，同一说话者确定模型是输入两个分离信号并且输出关于包括在每个分离信号中的话语的说话者是相同还是不同的确定结果的声学模型。

在这种情况下，例如，信号处理装置51的同一说话者确定单元61保留通过学习预先获得的同一说话者确定模型。

基于保留的同一说话者确定模型和从结束确定单元22提供的每个说话者的分离信号，同一说话者确定单元61针对所有可能的组合确定包括在两个分离信号的每一个分离信号中的话语的说话者是否相同。

在使用这样的同一说话者确定模型的同一说话者确定中，与上述说话者识别模型的情况相比，任务被简化。因此，具有可以以较小的模型规模获得更高性能的声学模型(同一说话者确定模型)的优点。

注意，在确定同一说话者时，可以通过组合多个可选方法(诸如上述使用特征值之间的距离的方法、使用语言信息的方法和使用同一说话者确定模型的方法)来指定同一说话者的分离信号。

<计算机的配置示例>

同时，上述一系列处理不仅可以由硬件执行，还可以由软件执行。在一系列处理由软件执行的情况下，构成软件的程序安装在计算机上。在此处，例如，计算机包括并入专用硬件中的计算机或者能够用安装有各种程序来执行各种功能的通用个人计算机。

图7是示出根据程序执行上述一系列处理的计算机的硬件的配置示例的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。

总线504进一步与输入/输出接口505连接。输入/输出接口505与输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接。

输入单元506包括键盘、鼠标、麦克风、成像元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移动记录介质511。

为了执行上述一系列处理，具有上述配置的计算机使CPU 501例如经由输入/输出接口505和总线504将记录在记录单元508中的程序加载到RAM 503中，并且然后执行该程序。

可以通过例如记录在作为封装介质等的可移动记录介质511上来提供要由计算机(CPU 501)执行的程序。此外，可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。

将可移动记录介质511插入驱动器510允许计算机经由输入/输出接口505将程序安装到记录单元508中。此外，程序可以经由有线或无线传输介质由通信单元509接收，并且安装在记录单元508中。另外，程序可以预先安装在ROM 502或记录单元508中。

注意，要由计算机执行的程序可以是如本说明书中描述的按时间顺序执行处理的程序，或者可以是并行或者当需要时(例如，当调用处理时)执行处理的程序。

此外，本技术的实施例不限于上述实施例，而是可以在本技术的范围内以各种方式进行修改。

例如，本技术可以具有云计算配置，其中，多个装置共享一个功能并且经由网络协作处理。

此外，上述流程图中描述的每个步骤可以由一个装置执行或者可以由多个装置共享。

此外，在一个步骤中包括多个处理的情况下，该步骤中包括的多个处理可以由一个装置执行或者可以由多个装置共享。

此外，本技术还可以具有以下配置。

(1)一种信号处理装置，包括：

声源分离单元，通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离预定声源。

(2)根据(1)的信号处理装置，其中，

声源分离单元执行声源分离以从声学信号中分离说话者的话语的分离信号。

(3)根据(2)的信号处理装置，其中，

声源分离单元对说话者的数量未知的声学信号执行声源分离。

(4)根据(2)或(3)的信号处理装置，其中，

声源分离模型是被学习以将包括两个说话者的话语的用于学习的声学信号分离成包括一个说话者的话语的分离信号和包括另一说话者的话语的分离信号的说话者分离模型。

(5)根据(2)或(3)的信号处理装置，其中，

声源分离模型是被学习以将包括三个说话者的话语的用于学习的声学信号分离成三个分离信号的说话者分离模型，该三个分离信号中的每一个分离信号包括三个说话者的话语中的对应一个说话者的话语。

(6)根据(2)或(3)的信号处理装置，其中，

声源分离模型是被学习以将包括任意多个说话者的话语的用于学习的声学信号分离成包括一个说话者的话语的分离信号和包括多个说话者中除了一个说话者之外的剩余说话者的话语的分离信号的说话者分离模型。

(7)根据(2)至(6)中任一项的信号处理装置，其中，

声源分离单元通过使用彼此不同的多个声源分离模型作为预定声源分离模型来递归地执行声源分离。

(8)根据(2)至(7)中任一项的信号处理装置，进一步包括：

结束确定单元，基于通过声源分离获得的分离信号来确定是否结束递归声源分离。

(9)根据(8)的信号处理装置，其中，

在通过声源分离获得的一个分离信号是无声信号的情况下，结束确定单元确定结束递归声源分离。

(10)根据(8)的信号处理装置，其中，

在基于用于确定包括在分离信号中的话语的说话者的数量是否为1的单个说话者确定模型和分离信号确定包括在通过声源分离获得的分离信号中的话语的说话者的数量为1的情况下，结束确定单元确定递归声源分离将被结束。

(11)根据(2)至(10)中任一项的信号处理装置，进一步包括：

同一说话者确定单元，执行关于通过递归声源分离获得的多个分离信号是否是同一说话者的信号的同一说话者确定，并且从同一说话者的多个分离信号合成分离信号。

(12)根据(11)的信号处理装置，其中，

同一说话者确定单元通过对分离信号进行聚类来执行同一说话者确定。

(13)根据(12)的信号处理装置，其中，

同一说话者确定单元计算分离信号的特征值，并且确定在两个分离信号的特征值之间的距离等于或小于阈值的情况下，两个分离信号是同一说话者的信号。

(14)根据(12)的信号处理装置，其中，

同一说话者确定单元基于两个分离信号的时间能量变化之间的相关性来执行同一说话者确定。

(15)根据(11)的信号处理装置，其中，

同一说话者确定单元基于多个分离信号的语言信息来执行同一说话者确定。

(16)根据(11)的信号处理装置，其中，

同一说话者确定单元基于用于确定两个分离信号是否是同一说话者的信号的同一说话者确定模型执行同一说话者确定。

(17)一种信号处理方法，包括：

由信号处理装置通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离预定声源。

(18)一种程序，用于使计算机执行包括以下步骤的处理：

通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离预定声源。

参考标记列表

11 信号处理装置

21 声源分离单元

22 结束确定单元

51 信号处理装置

61 同一说话者确定单元。

Claims

1.一种信号处理装置，包括：

声源分离单元，通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离所述预定声源。

2.根据权利要求1所述的信号处理装置，其中，

所述声源分离单元执行所述声源分离以从所述声学信号中分离说话者的话语的分离信号。

3.根据权利要求2所述的信号处理装置，其中，

所述声源分离单元对所述说话者的数量未知的所述声学信号执行所述声源分离。

4.根据权利要求2所述的信号处理装置，其中，

所述声源分离模型是被学习以将包括两个说话者的话语的用于学习的所述声学信号分离成包括一个说话者的话语的分离信号和包括另一说话者的话语的分离信号的说话者分离模型。

5.根据权利要求2所述的信号处理装置，其中，

所述声源分离模型是被学习以将包括三个说话者的话语的用于学习的所述声学信号分离成三个分离信号的说话者分离模型，所述三个分离信号中的每一个分离信号包括所述三个说话者的话语中的对应一个说话者的话语。

6.根据权利要求2所述的信号处理装置，其中，

所述声源分离模型是被学习以将包括任意多个说话者的话语的用于学习的所述声学信号分离成包括一个说话者的话语的分离信号和包括所述多个说话者中除了所述一个说话者之外的剩余说话者的话语的分离信号的说话者分离模型。

7.根据权利要求2所述的信号处理装置，其中，

所述声源分离单元通过使用彼此不同的多个声源分离模型作为所述预定声源分离模型来递归地执行所述声源分离。

8.根据权利要求2所述的信号处理装置，进一步包括：

结束确定单元，基于通过所述声源分离获得的所述分离信号来确定是否结束递归声源分离。

9.根据权利要求8所述的信号处理装置，其中，

在通过所述声源分离获得的一个分离信号是无声信号的情况下，所述结束确定单元确定结束所述递归声源分离。

10.根据权利要求8所述的信号处理装置，其中，

在基于用于确定包括在所述分离信号中的话语的说话者的数量是否为1的单个说话者确定模型和所述分离信号确定包括在通过所述声源分离获得的所述分离信号中的话语的说话者的数量为1的情况下，所述结束确定单元确定所述递归声源分离将被结束。

11.根据权利要求2所述的信号处理装置，进一步包括：

同一说话者确定单元，执行关于通过递归声源分离获得的多个分离信号是否是同一说话者的信号的同一说话者确定，并且从所述同一说话者的所述多个分离信号合成分离信号。

12.根据权利要求11所述的信号处理装置，其中，

所述同一说话者确定单元通过对所述分离信号进行聚类来执行所述同一说话者确定。

13.根据权利要求12所述的信号处理装置，其中，

所述同一说话者确定单元计算所述分离信号的特征值，并且确定在两个分离信号的特征值之间的距离等于或小于阈值的情况下，所述两个分离信号是所述同一说话者的信号。

14.根据权利要求12所述的信号处理装置，其中，

所述同一说话者确定单元基于两个分离信号的时间能量变化之间的相关性来执行所述同一说话者确定。

15.根据权利要求11所述的信号处理装置，其中，

所述同一说话者确定单元基于所述多个分离信号的语言信息来执行所述同一说话者确定。

16.根据权利要求11所述的信号处理装置，其中，

所述同一说话者确定单元基于用于确定两个分离信号是否是所述同一说话者的信号的同一说话者确定模型执行所述同一说话者确定。

17.一种信号处理方法，包括：

由信号处理装置通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离所述预定声源。

18.一种程序，用于使计算机执行包括以下步骤的处理：

通过使用预先学习的预定声源分离模型对输入声学信号递归地执行声源分离以从包括预定声源的用于学习的声学信号中分离所述预定声源。